CN103049436A - 获取语料的方法及装置、生成翻译模型的方法及系统、机器翻译的方法及系统 - Google Patents

获取语料的方法及装置、生成翻译模型的方法及系统、机器翻译的方法及系统 Download PDF

Info

Publication number
CN103049436A
CN103049436A CN2011103078786A CN201110307878A CN103049436A CN 103049436 A CN103049436 A CN 103049436A CN 2011103078786 A CN2011103078786 A CN 2011103078786A CN 201110307878 A CN201110307878 A CN 201110307878A CN 103049436 A CN103049436 A CN 103049436A
Authority
CN
China
Prior art keywords
model
field
language material
translation
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011103078786A
Other languages
English (en)
Other versions
CN103049436B (zh
Inventor
马艳军
吴华
王海峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201110307878.6A priority Critical patent/CN103049436B/zh
Publication of CN103049436A publication Critical patent/CN103049436A/zh
Application granted granted Critical
Publication of CN103049436B publication Critical patent/CN103049436B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供了一种获取语料的方法及装置、生成翻译模型的方法及系统、机器翻译的方法及系统,其中机器翻译的系统包括:分类模块,用于使用第一分类模型对待翻译文本进行分类,以确定所述待翻译文本所属领域,其中所述第一分类模型由各领域的训练语料训练得到;翻译模块,用于利用与所述待翻译文本所属领域对应的领域翻译模型对所述待翻译文本进行翻译,其中所述领域翻译模型由对应领域的训练语料训练得到。通过上述方式,可以有效提高翻译的精度。

Description

获取语料的方法及装置、生成翻译模型的方法及系统、机器翻译的方法及系统
【技术领域】
本发明涉及机器翻译领域,特别涉及一种获取语料的方法及装置、生成翻译模型的方法及系统、机器翻译的方法及系统。 
【背景技术】
在机器翻译中,使用的翻译模型对翻译质量有很大的影响,现有的机器翻译方法中,不对待翻译文本的类型进行区分,而采用相同的翻译模型对各种类型的文本进行翻译,这会导致针对不同类型的文本,翻译结果的质量出现较大差异的现象。 
例如英语中的“bank”一词,在经济、金融领域的上下文中,应该翻译成“银行”,而在地理领域的上下文中,则应该翻译为“河岸”。如果对这些情况不做区分,而采用同一种翻译模型进行翻译,就会降低翻译的质量。 
【发明内容】
本发明所要解决的技术问题是提供一种获取语料的方法及装置、生成翻译模型的方法及系统、机器翻译的方法及系统,以解决现有技术在对不同领域的文本进行翻译时,翻译精度不够高的缺陷。 
本发明为解决技术问题而采用的技术方案是提供一种获取语料的方法,包括:将双语语料中来自相同页面的双语句对归并为一组从而将所述双语语料划分为多个归并语料;从各个归并语料中选择长度超过设定阈值的归并语料组成长语料;采用聚类的方法,将相同领域的长语料聚为一类;利用聚类得到的各领域的长语料训练分类模型;使用训练后的分类模型对所述双语语料中的短语料进行分类,以确定所述短语料所属领域,并将各领域的短语料与相同领域 的长语料进行合并,得到各领域的训练语料,其中所述短语料为所述双语语料中除所述长语料之外的其他语料。 
根据本发明之一优选实施例,所述聚类的方法为潜在概率语义分析方法。 
根据本发明之一优选实施例,对所述长语料进行聚类时采用的聚类特征包括:对所述长语料进行分词后,各个词语在所述长语料中出现的次数及各互译词对在所述长语料中出现的次数。 
根据本发明之一优选实施例,所述分类模型包括贝叶斯模型、支持向量机模型、K近邻分类模型或最大熵模型。 
本发明还提供了一种生成翻译模型的方法,包括:采用上述获取语料的方法获取各领域的训练语料;使用各领域的训练语料对翻译模型进行训练得到各领域翻译模型。 
根据本发明之一优选实施例,所述方法进一步包括:将各领域的训练语料合并后对翻译模型进行训练得到通用翻译模型。 
本发明还提供了一种机器翻译方法,包括:A.使用第一分类模型对待翻译文本进行分类,以确定所述待翻译文本所属领域,其中所述第一分类模型由各领域的训练语料训练得到;B.利用与所述待翻译文本所属领域对应的领域翻译模型对所述待翻译文本进行翻译,其中所述领域翻译模型由对应领域的训练语料训练得到。 
根据本发明之一优选实施例,所述第一分类模型包括:贝叶斯模型、支持向量机模型、K近邻分类模型或最大熵模型。 
根据本发明之一优选实施例,所述步骤A进一步包括确定所述待翻译文本归属于所述待翻译文本所属领域的概率并判断该概率是否高于设定的第一阈值,如果是,则所述步骤B中,将与所述待翻译文本所属领域对应的领域翻译模型与通用翻译模型融合后对所述待翻译文本进行翻译,其中所述通用翻译模型由各领域的训练语料合并后训练得到。 
根据本发明之一优选实施例,各领域的训练语料是采用下列方式得到的:将双语语料中来自相同页面的双语句对归并为一组从而将所述双语语料划分为 多个归并语料;从各个归并语料中选择长度超过设定的第二阈值的归并语料组成长语料;采用聚类的方法,将相同领域的长语料聚为一类;利用聚类得到的各领域的长语料训练第二分类模型;使用训练后的第二分类模型对所述双语语料中的短语料进行分类,以确定所述短语料所属领域,并将各领域的短语料与相同领域的长语料进行合并,得到各领域的训练语料,其中所述短语料为所述双语语料中除所述长语料之外的其他语料。 
根据本发明之一优选实施例,所述聚类的方法为潜在概率语义分析方法。 
根据本发明之一优选实施例,对所述长语料进行聚类时采用的聚类特征包括:对所述长语料进行分词后,各个词语在所述长语料中出现的次数及各互译词对在所述长语料中出现的次数。 
根据本发明之一优选实施例,所述第二分类模型包括:贝叶斯模型、支持向量机模型、K近邻分类模型或最大熵模型。 
本发明还提供了一种获取语料的装置,包括:归并单元,用于将双语语料中来自相同页面的双语句对归并为一组从而将所述双语语料划分为多个归并语料;选取单元,用于从各个归并语料中选择长度超过设定阈值的归并语料组成长语料;聚类单元,用于采用聚类的方法,将相同领域的长语料聚为一类;训练单元,用于利用聚类得到的各领域的长语料训练分类模型;分类单元,用于使用训练后的分类模型对所述双语语料中的短语料进行分类,以确定所述短语料所属领域,并将各领域的短语料与相同领域的长语料进行合并,得到各领域的训练语料,其中所述短语料为所述双语语料中除所述长语料之外的其他语料。 
根据本发明之一优选实施例,所述聚类单元采用潜在概率语义分析方法对所述长语料进行聚类。 
根据本发明之一优选实施例,所述聚类单元对所述长语料进行聚类时采用的聚类特征包括:对所述长语料进行分词后,各个词语在所述长语料中出现的次数及各互译词对在所述长语料中出现的次数。 
根据本发明之一优选实施例,所述分类模型包括:贝叶斯模型、支持向量机模型、K近邻分类模型或最大熵模型。 
本发明还提供了一种生成翻译模型的系统,包括:上文所述的获取语料的装置,用于获取各领域的训练语料;以及,领域模型生成模块,用于使用各领域的训练语料对翻译模型进行训练得到各领域翻译模型。 
根据本发明之一优选实施例,所述系统进一步包括:通用模型生成模块,用于将各领域的训练语料合并后对翻译模型进行训练得到通用翻译模型。 
本发明还提供了一种机器翻译系统,包括:分类模块,用于使用第一分类模型对待翻译文本进行分类,以确定所述待翻译文本所属领域,其中所述第一分类模型由各领域的训练语料训练得到;翻译模块,用于利用与所述待翻译文本所属领域对应的领域翻译模型对所述待翻译文本进行翻译,其中所述领域翻译模型由对应领域的训练语料训练得到。 
根据本发明之一优选实施例,所述第一分类模型包括:贝叶斯模型、支持向量机模型、K近邻分类模型或最大熵模型。 
根据本发明之一优选实施例,所述分类模块进一步用于确定所述待翻译文本归属于所述待翻译文本所属领域的概率并判断该概率是否高于设定的第一阈值,如果是,则所述翻译模块将与所述待翻译文本所属领域对应的领域翻译模型与通用翻译模型融合后对所述待翻译文本进行翻译,其中所述通用翻译模型由各领域的训练语料合并后训练得到。 
根据本发明之一优选实施例,所述系统进一步包括语料获取模块,用于得到各领域的训练语料,其中所述语料获取模块包括:归并单元,用于将双语语料中来自相同页面的双语句对归并为一组从而将所述双语语料划分为多个归并语料;选取单元,用于从各个归并语料中选择长度超过设定的第二阈值的归并语料组成长语料;聚类单元,用于采用聚类的方法,将相同领域的长语料聚为一类;训练单元,用于利用聚类得到的各领域的长语料训练第二分类模型;分类单元,用于使用训练后的第二分类模型对所述双语语料中的短语料进行分类,以确定所述短语料所属领域,并将各领域的短语料与相同领域的长语料进行合并,得到各领域的训练语料,其中所述短语料为所述双语语料中除所述长语料之外的其他语料。 
根据本发明之一优选实施例,所述聚类单元采用潜在概率语义分析方法对所述长语料进行聚类。 
根据本发明之一优选实施例,所述聚类单元对所述长语料进行聚类时采用的聚类特征包括:对所述长语料进行分词后,各个词语在所述长语料中出现的次数及各互译词对在所述长语料中出现的次数。 
根据本发明之一优选实施例,所述第二分类模型包括:贝叶斯模型、支持向量机模型、K近邻分类模型或最大熵模型。 
由以上技术方案可以看出,通过采用不同领域的翻译模型对待翻译文本进行翻译,可以有效提高翻译的精度,同时通过对含有更多信息量的长语料进行聚类,通过聚类结果指导短语料进行分类,可以有效地将语料划分到各个不同领域,用以训练各个领域翻译模型,从而提高翻译模型的有效性。 
【附图说明】
图1为本发明中机器翻译系统的实施例的结构示意框图; 
图2为本发明中机器翻译方法的实施例一的流程示意图; 
图3为本发明中获取语料的方法的实施例的流程示意图; 
图4为本发明中机器翻译方法的实施例二的流程示意图。 
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。 
请参考图1,图1为本发明中机器翻译系统的实施例的结构示意框图。如图1所示,机器翻译系统包括:分类模块101、翻译模块102、训练模块103、模型生成模块104和语料获取模块105。 
其中语料获取模块105,用于获取各领域的训练语料,以供其他模块使用。 
语料获取模块105包括归并单元1051、选取单元1052、聚类单元1053、 训练单元1054和分类单元1055。 
其中归并单元1051,用于将双语语料中来自相同页面的双语句对归并为一组从而将双语语料划分为多个归并语料。 
双语语料由双语句对构成,可通过互联网进行挖掘。在本实施例中,双语语料进行了归并处理,归并的策略为:将相同页面,即URL(Uniform/Universal Resource Locator)地址相同的页面上挖掘到的双语句对归并为一组。这样,双语语料就可以划分为多个归并语料,每个归并语料由来自同一页面的双语句对组成。由于来自于相同页面的双语句对通常有相同的主题,因此,对双语语料进行归并处理,有助于后续进行聚类时,提高聚类的精度。 
选取单元1052,用于从各个归并语料中选择长度超过设定阈值的归并语料组成长语料,以供聚类单元1053使用。 
由于从每个页面挖掘到的双语句对的数量不同,有的页面挖掘到的双语句对可能数量很少,如果直接采用这样的语料进行聚类处理,会影响聚类的精度。设定阈值是为了对归并语料的长度进行区分,将较长的归并语料提取出来组成长语料用于聚类处理。通过设定的阈值,可以控制参与聚类的长语料的数量,从而控制聚类的精度。 
聚类单元1053,用于采用聚类的方法,将相同领域的长语料聚为一类。聚类后各领域的长语料,可用于后续训练第二分类模型使用。 
聚类的目的是为了将相同领域的长语料聚为一类,在本实施例中可采用潜在概率语义分析(probabilistic Latent semantic alnalysis,PLSA)方法对长语料进行聚类。由于该方法属于现有技术,在此不再做具体介绍,除此之外,本发明并不限定具体的聚类方法,采用其他的聚类方法并不影响本发明的实施。 
在本实施例中,对长语料进行聚类时,可采用下列特征:对长语料进行分词后,各个词语在长语料中出现的次数及各个互译词对在长语料中出现的次数。 
例如下面的一对双语句对: 
句1:c1 c2 c3......cn 
句2:e1 e2 e3......em 
其中c1至cn、e1至em分别为句1和句2中的各个词语,假设(c1,e1)构成了互译词对,则在步骤102中可采用的聚类特征,包括c1、e1在长语料中出现的次数,以及(c1,e1)在长语料中出现的次数。 
将互译词对作为聚类时考虑的特征,使得双语句对的特征性更加明显,可以有效提高聚类的效果。 
训练单元1054,用于利用聚类得到的各领域的长语料训练第二分类模型。 
在本实施例中,对第二分类模型的具体类型不做限制,可采用本领域技术人员熟知的任意分类模型,例如:贝叶斯模型、支持向量机模型、K近邻分类模型或最大熵模型等等。 
通过机器学习的方法,给定已知各个类别的语料,则可以用这些语料训练出可以对未知类别的语料进行分类的第二分类模型,随后,该第二分类模型可用于对未知类别的语料进行分类。具体的训练过程由采用的分类模型的算法决定,由于各种分类模型,如贝叶斯模型、支持向量机模型或K近邻分类模型等分类模型的算法都属于现有技术,在此不再做过多介绍。 
分类单元1055,用于使用训练后的第二分类模型对双语语料中的短语料进行分类,以确定短语料所属领域,并将各领域的短语料与相同领域的长语料进行合并,得到各领域的训练语料,其中短语料为双语语料中除长语料之外的其他语料。 
分类单元1055得到的各领域的训练语料,可供本系统的训练模块103和模型生成模块104使用。 
训练模块103,用于使用各领域的训练语料训练第一分类模型。第一分类模型随后可供分类模块101使用。 
本发明中同样不限制第一分类模型的类型,第一分类模型包括本领域技术人员熟知的贝叶斯模型、支持向量机模型、K近邻分类模型或最大熵模型 等现有的分类模型。训练第一分类模型的过程也与训练第二分类模型的过程类似,在此不再做过多介绍。 
模型生成模块104,用于使用各领域的训练语料对翻译模型进行训练以得到各领域翻译模型,以及,将各领域的训练语料合并后对翻译模型进行训练以得到通用翻译模型。 
使用各领域的训练语料对翻译模型进行训练就是用各个领域的训练语料分别训练一个翻译模型,从而得到体现领域翻译偏好的各个领域翻译模型。而用已有语料训练翻译模型属于统计机器翻译中的现有技术,在此不做进一步的介绍。 
各个领域翻译模型与通用翻译模型,可提供给翻译模块102在对待翻译文本进行翻译时使用。 
分类模块101,用于使用训练好的第一分类模型对待翻译文本进行分类,以确定待翻译文本所属领域。 
采用第一分类模型对待翻译文本进行分类时,由第一分类模型还可以算出待翻译文本归属于其所属领域的概率。例如贝叶斯模型,其基于贝叶斯定理,可以用来预测类成员关系的可能性,给出文本属于某特定类别的概率。待翻译文本归属于其所属领域的概率,可帮助翻译模块102对待翻译文本进行翻译时,选择最终的一个或多个翻译模型。 
翻译模块102,用于利用与待翻译文本所属领域对应的领域翻译模型对待翻译文本进行翻译。 
如上文所述的,分类模块101,还可用于确定待翻译文本归属于其所属领域的概率,并判断该概率是否高于设定阈值,如果是,则翻译模块102可以使用与待翻译文本所属领域对应的领域翻译模型对待翻译文本进行翻译,作为优选的,当待翻译文本归属于其所属领域的概率高于设定阈值时,将与待翻译文本所属领域对应的领域翻译模型与通用翻译模型融合后对待翻译文本进行翻译。另外,当该概率值较低时,也可仅采用通用翻译模型对待翻译文本进行翻译。 
例如待翻译文本为:Upon completion of the payment PARTY A shall cause issuing bank to deliver the original hard copy of BG by bonded bank courier to PARTY B bank within 7 banking days. 
对上述待翻译文本,分类模块101使用第一分类模型确定其分到金融领域的概率高于设定的阈值,则说明该文本很可能具有金融领域的翻译偏好,可采用金融领域的领域翻译模型与通用翻译模型融合的结果对待翻译文本进行翻译。 
模型融合可通过模型插值来实现,本发明不限定模型融合的实施方式,现有的各种模型融合算法,都可以应用到本发明上。 
在本发明的其他实施例中,各领域的训练语料,也可以不通过上述实施例中采用的方式得到,例如通过大量人工标注,或者通过从互联网的分类信息上抓取,或者将所有的双语语料进行一次聚类实现,都不影响本发明的实施。 
应该理解,本实施例中获取第一分类模型以及各领域翻译模型和通用翻译模型的方式仅为实现本发明的翻译方法的一种实施方式,本发明并不限制通过其他方式获取第一分类模型以及各领域翻译模型和通用翻译模型,例如接收一个现有的分类模型作为第一分类模型,以及现有的翻译模型作为各领域翻译模型和通用翻译模型。 
请参考图2,图2为本发明中机器翻译的方法的实施例一的流程示意图。如图2所示,机器翻译的方法包括: 
步骤S101:获取各领域的训练语料; 
步骤S102:使用各领域的训练语料训练第一分类模型; 
步骤S103:使用各领域的训练语料对翻译模型进行训练以得到各领域翻译模型; 
步骤S104:使用训练后的第一分类模型对待翻译文本进行分类,以确定待翻译文本所属领域; 
步骤S105:使用与待翻译文本所属领域对应的领域翻译模型对待翻译文 本进行翻译。 
其中步骤S101的具体实施方式请参考图3。图3为本发明中获取语料的方法的实施例的流程示意图。如图3所示,获取各领域训练语料的方法包括: 
步骤S201:将双语语料中来自相同页面的双语句对归并为一组从而将双语语料划分为多个归并语料。 
步骤S201:从各个归并语料中选择长度超过设定阈值的归并语料组成长语料。 
步骤S202:采用聚类的方法,将相同领域的长语料聚为一类。 
步骤S203:利用聚类得到的各领域的长语料训练第二分类模型。 
步骤S204:使用训练后的第二分类模型对双语语料中的短语料进行分类,并将各领域的短语料与相同领域的长语料进行合并,得到各领域的子语料。 
双语语料由双语句对构成,可通过互联网进行挖掘。在本实施例中,双语语料进行了归并处理,归并的策略为:将相同页面,即URL(Uniform/Universal Resource Locator)地址相同的页面上挖掘到的双语句对归并为一组。这样,双语语料就可以划分为多个归并语料,每个归并语料由来自同一页面的双语句对组成。由于来自于相同页面的双语句对通常有相同的主题,因此,对双语语料进行归并处理,有助于后续进行聚类时,提高聚类的精度。由于从每个页面挖掘到的双语句对的数量不同,有的页面挖掘到的双语句对可能数量很少,如果直接采用这样的语料进行聚类处理,会影响聚类的精度。设定阈值是为了对归并语料的长度进行区分,将较长的归并语料提取出来组成长语料用于聚类处理。通过设定的阈值,可以控制参与聚类的长语料的数量,从而控制聚类的精度。 
聚类的目的是为了将相同领域的长语料聚为一类,在本实施例中可采用潜在概率语义分析(probabilistic Latent semantic alnalysis,PLSA)方法对长语料进行聚类。由于该方法属于现有技术,在此不再做具体介绍,除此之外,本发明并不限定具体的聚类方法,采用其他的聚类方法并不影响本发明的实 施。 
在本实施例中,对长语料进行聚类时,可采用下列特征:对长语料进行分词后,各个词语在长语料中出现的次数及各个互译词对在长语料中出现的次数。 
例如下面的一对双语句对: 
句1:c1 c2 c3......cn 
句2:e1 e2 e3......em 
其中c1至cn、e1至em分别为句1和句2中的各个词语,假设(c1,e1)构成了互译词对,则在步骤102中可采用的聚类特征,包括c1、e1在长语料中出现的次数,以及(c1,e1)在长语料中出现的次数。 
将互译词对作为聚类时考虑的特征,使得双语句对的特征性更加明显,可以有效提高聚类的效果。 
在本实施例中,对第二分类模型的具体类型不做限制,可采用本领域技术人员熟知的任意分类模型,例如:贝叶斯模型、支持向量机模型、K近邻分类模型或最大熵模型等等。 
通过机器学习的方法,给定已知各个类别的语料,则可以用这些语料训练出可以对未知类别的语料进行分类的第二分类模型,随后,该第二分类模型可用于对未知类别的语料进行分类。具体的训练过程由采用的分类模型的算法决定,由于各种分类模型,如贝叶斯模型、支持向量机模型或K近邻分类模型等分类模型的算法都属于现有技术,在此不再做过多介绍。 
请继续参考图2。 
第一分类模型与第二分类模型类似,在本实施例中,对第二分类模型的具体类型也不做限制,可采用本领域技术人员熟知的任意分类模型,例如:贝叶斯模型、支持向量机模型、K近邻分类模型或最大熵模型等等。 
使用各领域的训练语料对翻译模型进行训练就是用各个领域的训练语料分别训练一个翻译模型,从而得到体现领域翻译偏好的各个领域翻译模型。而用已有语料训练翻译模型属于统计机器翻译中的现有技术,在此不做进一 步的介绍。 
在本发明的机器翻译方法中,图2所示的步骤执行顺序可进行各种符合逻辑的组合,既可以如图2所示的方式,从S101顺序执行到S105,也可以按照下列方式执行: 
S101-S103-S102-S104-S105,或者S101-S102-S104-S103-S105。 
应该理解,在本实施例中,步骤S101至步骤S103为获得第一分类模型及各领域翻译模型的实施方式,但是本发明并不限于这种实施方式,实际上,第一分类模型与各领域翻译模型,也可以是从其他地方获取得到的现有模型。 
请参考图4,图4为本发明中机器翻译的方法的实施例二的流程示意图。如图4所示,机器翻译的方法包括: 
步骤S301:获取各领域的训练语料; 
步骤S302:使用各领域的训练语料训练第一分类模型; 
步骤S303:使用各领域的训练语料对翻译模型进行训练以得到各领域翻译模型,以及,将各领域的训练语料合并后对翻译模型进行训练以得到通用翻译模型; 
步骤S304:使用训练后的第一分类模型对待翻译文本进行分类,以确定待翻译文本所属领域,并且确定待翻译文本归属于其所属领域的概率并判断该概率是否低于设定的阈值; 
步骤S305:如果待翻译文本归属于其所述领域的概率高于设定的阈值,则将与待翻译文本所属领域对应的领域翻译模型与通用翻译模型融合后对待翻译文本进行翻译。 
采用第一分类模型对待翻译文本进行分类时,由第一分类模型还可以算出待翻译文本归属于其所属领域的概率。例如贝叶斯模型,其基于贝叶斯定理,可以用来预测类成员关系的可能性,给出文本属于某特定类别的概率。该概率有助于选择最终的一个或多个翻译模型。 
例如待翻译文本为:Upon completion of the payment PARTY A shall cause issuing bank to deliver the original hard copy of BG by bonded bank courier to PARTY B bank within 7 banking days. 
对上述待翻译文本,如果使用第一分类模型确定其分到金融领域的概率高于设定的阈值,则说明该文本很可能具有金融领域的翻译偏好,可采用金融领域的领域翻译模型与通用翻译模型融合的结果对待翻译文本进行翻译。 
如果待翻译文本归属于其所述领域的概率很低,也可以仅采用通用翻译模型对其进行翻译。 
模型融合可通过模型插值来实现,本发明不限定模型融合的实施方式,现有的各种模型融合算法,都可以应用到本发明上。 
与实施例一类似的,应该理解,图4所示的执行步骤也可以在本领域技术人员认为合理的情况下进行组合。例如以下面的顺序执行:S301-S303-S302-S304-S305,或者S301-S302-S304-S303-S305。 
同样,应该理解,在本实施例中,步骤S301至步骤S303为获得第一分类模型以及各领域翻译模型和通用翻译模型的实施方式,但是本发明并不限于这种实施方式,实际上,第一分类模型以及各领域翻译模型和通用翻译模型,也可以是从其他地方获取得到的现有模型。 
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。 

Claims (26)

1.一种获取语料的方法,其特征在于,所述方法包括:
将双语语料中来自相同页面的双语句对归并为一组从而将所述双语语料划分为多个归并语料;
从各个归并语料中选择长度超过设定阈值的归并语料组成长语料;
采用聚类的方法,将相同领域的长语料聚为一类;
利用聚类得到的各领域的长语料训练分类模型;
使用训练后的分类模型对所述双语语料中的短语料进行分类,以确定所述短语料所属领域,并将各领域的短语料与相同领域的长语料进行合并,得到各领域的训练语料,其中所述短语料为所述双语语料中除所述长语料之外的其他语料。
2.根据权利要求1所述的方法,其特征在于,所述聚类的方法为潜在概率语义分析方法。
3.根据权利要求1所述的方法,其特征在于,对所述长语料进行聚类时采用的聚类特征包括:对所述长语料进行分词后,各个词语在所述长语料中出现的次数及各互译词对在所述长语料中出现的次数。
4.根据权利要求1所述的方法,其特征在于,所述分类模型包括贝叶斯模型、支持向量机模型、K近邻分类模型或最大熵模型。
5.一种生成翻译模型的方法,其特征在于,所述方法包括:
采用权利要求1至4中任一权项所述方法获取各领域的训练语料;
使用各领域的训练语料对翻译模型进行训练得到各领域翻译模型。
6.根据权利要求5所述的方法,其特征在于,所述方法进一步包括:
将各领域的训练语料合并后对翻译模型进行训练得到通用翻译模型。
7.一种机器翻译方法,其特征在于,所述方法包括:
A.使用第一分类模型对待翻译文本进行分类,以确定所述待翻译文本所属领域,其中所述第一分类模型由各领域的训练语料训练得到;
B.利用与所述待翻译文本所属领域对应的领域翻译模型对所述待翻译文本进行翻译,其中所述领域翻译模型由对应领域的训练语料训练得到。
8.根据权利要求7所述的方法,其特征在于,所述第一分类模型包括:贝叶斯模型、支持向量机模型、K近邻分类模型或最大熵模型。
9.根据权利要求7所述的方法,其特征在于,所述步骤A进一步包括确定所述待翻译文本归属于所述待翻译文本所属领域的概率并判断该概率是否高于设定的第一阈值,如果是,则所述步骤B中,将与所述待翻译文本所属领域对应的领域翻译模型与通用翻译模型融合后对所述待翻译文本进行翻译,其中所述通用翻译模型由各领域的训练语料合并后训练得到。
10.根据权利要求7至9中任一权项所述的方法,其特征在于,各领域的训练语料是采用下列方式得到的:
将双语语料中来自相同页面的双语句对归并为一组从而将所述双语语料划分为多个归并语料;
从各个归并语料中选择长度超过设定的第二阈值的归并语料组成长语料;
采用聚类的方法,将相同领域的长语料聚为一类;
利用聚类得到的各领域的长语料训练第二分类模型;
使用训练后的第二分类模型对所述双语语料中的短语料进行分类,以确定所述短语料所属领域,并将各领域的短语料与相同领域的长语料进行合并,得到各领域的训练语料,其中所述短语料为所述双语语料中除所述长语料之外的其他语料。
11.根据权利要求10所述的方法,其特征在于,所述聚类的方法为潜在概率语义分析方法。
12.根据权利要求10所述的方法,其特征在于,对所述长语料进行聚类时采用的聚类特征包括:对所述长语料进行分词后,各个词语在所述长语料中出现的次数及各互译词对在所述长语料中出现的次数。
13.根据权利要求10所述的方法,其特征在于,所述第二分类模型包括:贝叶斯模型、支持向量机模型、K近邻分类模型或最大熵模型。
14.一种获取语料的装置,其特征在于,所述装置包括:
归并单元,用于将双语语料中来自相同页面的双语句对归并为一组从而将所述双语语料划分为多个归并语料;
选取单元,用于从各个归并语料中选择长度超过设定阈值的归并语料组成长语料;
聚类单元,用于采用聚类的方法,将相同领域的长语料聚为一类;
训练单元,用于利用聚类得到的各领域的长语料训练分类模型;
分类单元,用于使用训练后的分类模型对所述双语语料中的短语料进行分类,以确定所述短语料所属领域,并将各领域的短语料与相同领域的长语料进行合并,得到各领域的训练语料,其中所述短语料为所述双语语料中除所述长语料之外的其他语料。
15.根据权利要求14所述的装置,其特征在于,所述聚类单元采用潜在概率语义分析方法对所述长语料进行聚类。
16.根据权利要求14所述的装置,其特征在于,所述聚类单元对所述长语料进行聚类时采用的聚类特征包括:对所述长语料进行分词后,各个词语在所述长语料中出现的次数及各互译词对在所述长语料中出现的次数。
17.根据权利要求14所述的装置,其特征在于,所述分类模型包括:贝叶斯模型、支持向量机模型、K近邻分类模型或最大熵模型。
18.一种生成翻译模型的系统,其特征在于,所述系统包括:
权利要求14至17中任一权项所述装置,用于获取各领域的训练语料;以及,领域模型生成模块,用于使用各领域的训练语料对翻译模型进行训练得到各领域翻译模型。
19.根据权利要求18所述的系统,其特征在于,所述系统进一步包括:
通用模型生成模块,用于将各领域的训练语料合并后对翻译模型进行训练得到通用翻译模型。
20.一种机器翻译系统,其特征在于,所述系统包括:
分类模块,用于使用第一分类模型对待翻译文本进行分类,以确定所述待翻译文本所属领域,其中所述第一分类模型由各领域的训练语料训练得到;
翻译模块,用于利用与所述待翻译文本所属领域对应的领域翻译模型对所述待翻译文本进行翻译,其中所述领域翻译模型由对应领域的训练语料训练得到。
21.根据权利要求20所述的系统,其特征在于,所述第一分类模型包括:贝叶斯模型、支持向量机模型、K近邻分类模型或最大熵模型。
22.根据权利要求20所述的系统,其特征在于,所述分类模块进一步用于确定所述待翻译文本归属于所述待翻译文本所属领域的概率并判断该概率是否高于设定的第一阈值,如果是,则所述翻译模块将与所述待翻译文本所属领域对应的领域翻译模型与通用翻译模型融合后对所述待翻译文本进行翻译,其中所述通用翻译模型由各领域的训练语料合并后训练得到。
23.根据权利要求20至22中任一权项所述的系统,其特征在于,所述系统进一步包括语料获取模块,用于得到各领域的训练语料,其中所述语料获取模块包括:
归并单元,用于将双语语料中来自相同页面的双语句对归并为一组从而将所述双语语料划分为多个归并语料;
选取单元,用于从各个归并语料中选择长度超过设定的第二阈值的归并语料组成长语料;
聚类单元,用于采用聚类的方法,将相同领域的长语料聚为一类;
训练单元,用于利用聚类得到的各领域的长语料训练第二分类模型;
分类单元,用于使用训练后的第二分类模型对所述双语语料中的短语料进行分类,以确定所述短语料所属领域,并将各领域的短语料与相同领域的长语料进行合并,得到各领域的训练语料,其中所述短语料为所述双语语料中除所述长语料之外的其他语料。
24.根据权利要求23所述的系统,其特征在于,所述聚类单元采用潜在概率语义分析方法对所述长语料进行聚类。
25.根据权利要求23所述的系统,其特征在于,所述聚类单元对所述长语料进行聚类时采用的聚类特征包括:对所述长语料进行分词后,各个词语在所述长语料中出现的次数及各互译词对在所述长语料中出现的次数。
26.根据权利要求23所述的系统,其特征在于,所述第二分类模型包括:贝叶斯模型、支持向量机模型、K近邻分类模型或最大熵模型。
CN201110307878.6A 2011-10-12 2011-10-12 获取语料的方法及装置、生成翻译模型的方法及系统、机器翻译的方法及系统 Active CN103049436B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110307878.6A CN103049436B (zh) 2011-10-12 2011-10-12 获取语料的方法及装置、生成翻译模型的方法及系统、机器翻译的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110307878.6A CN103049436B (zh) 2011-10-12 2011-10-12 获取语料的方法及装置、生成翻译模型的方法及系统、机器翻译的方法及系统

Publications (2)

Publication Number Publication Date
CN103049436A true CN103049436A (zh) 2013-04-17
CN103049436B CN103049436B (zh) 2015-11-25

Family

ID=48062080

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110307878.6A Active CN103049436B (zh) 2011-10-12 2011-10-12 获取语料的方法及装置、生成翻译模型的方法及系统、机器翻译的方法及系统

Country Status (1)

Country Link
CN (1) CN103049436B (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103714054A (zh) * 2013-12-30 2014-04-09 北京百度网讯科技有限公司 翻译方法和翻译装置
CN103955454A (zh) * 2014-03-19 2014-07-30 北京百度网讯科技有限公司 一种在白话文与文言文之间进行文体转换的方法和设备
CN104166644A (zh) * 2014-07-09 2014-11-26 苏州市职业大学 一种基于云计算的术语译文挖掘方法
CN104391838A (zh) * 2014-08-18 2015-03-04 武汉传神信息技术有限公司 一种提高法律文件翻译准确性的方法
CN105760361A (zh) * 2016-01-26 2016-07-13 北京云知声信息技术有限公司 一种语言模型建立方法及装置
CN107870904A (zh) * 2017-11-22 2018-04-03 北京搜狗科技发展有限公司 一种翻译方法、装置以及用于翻译的装置
CN108228576A (zh) * 2017-12-29 2018-06-29 科大讯飞股份有限公司 文本翻译方法及装置
CN108415906A (zh) * 2018-03-28 2018-08-17 中译语通科技股份有限公司 基于领域自动识别篇章机器翻译方法、机器翻译系统
CN108664632A (zh) * 2018-05-15 2018-10-16 华南理工大学 一种基于卷积神经网络和注意力机制的文本情感分类算法
CN108845993A (zh) * 2018-06-06 2018-11-20 中国科学技术信息研究所 文本信息的翻译方法、装置及终端设备
CN109062913A (zh) * 2018-09-17 2018-12-21 福建天泉教育科技有限公司 国际化资源智能获取方法、存储介质
CN109933667A (zh) * 2019-03-19 2019-06-25 中国联合网络通信集团有限公司 文本分类模型训练方法、文本分类方法及设备
CN110110088A (zh) * 2019-05-17 2019-08-09 苏州大学 一种文本分类的方法、系统、设备及计算机可读存储介质
CN110705320A (zh) * 2019-10-08 2020-01-17 中国船舶工业综合技术经济研究院 一种面向细分领域的国防军工领域机器翻译方法及系统
CN110991661A (zh) * 2019-12-20 2020-04-10 北京百度网讯科技有限公司 用于生成模型的方法和装置
CN111310483A (zh) * 2020-02-11 2020-06-19 北京字节跳动网络技术有限公司 一种翻译方法、装置、电子设备及存储介质
CN111368563A (zh) * 2020-03-03 2020-07-03 新疆大学 一种融合聚类算法的维汉机器翻译系统
CN112131463A (zh) * 2020-09-10 2020-12-25 杭州中软安人网络通信股份有限公司 一种热点提取方法、存储介质及服务器
CN112633017A (zh) * 2020-12-24 2021-04-09 北京百度网讯科技有限公司 翻译模型训练、翻译处理方法、装置、设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080082315A1 (en) * 2006-09-29 2008-04-03 Oki Electric Industry Co., Ltd. Translation evaluation apparatus, translation evaluation method and computer program
CN101482860A (zh) * 2008-01-09 2009-07-15 中国科学院自动化研究所 一种汉英短语翻译对自动抽取与过滤方法
CN102081601A (zh) * 2009-11-27 2011-06-01 北京金山软件有限公司 一种领域词识别方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080082315A1 (en) * 2006-09-29 2008-04-03 Oki Electric Industry Co., Ltd. Translation evaluation apparatus, translation evaluation method and computer program
CN101482860A (zh) * 2008-01-09 2009-07-15 中国科学院自动化研究所 一种汉英短语翻译对自动抽取与过滤方法
CN102081601A (zh) * 2009-11-27 2011-06-01 北京金山软件有限公司 一种领域词识别方法和装置

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103714054A (zh) * 2013-12-30 2014-04-09 北京百度网讯科技有限公司 翻译方法和翻译装置
CN103955454A (zh) * 2014-03-19 2014-07-30 北京百度网讯科技有限公司 一种在白话文与文言文之间进行文体转换的方法和设备
CN103955454B (zh) * 2014-03-19 2017-12-26 北京百度网讯科技有限公司 一种在白话文与文言文之间进行文体转换的方法和设备
CN104166644A (zh) * 2014-07-09 2014-11-26 苏州市职业大学 一种基于云计算的术语译文挖掘方法
CN104391838A (zh) * 2014-08-18 2015-03-04 武汉传神信息技术有限公司 一种提高法律文件翻译准确性的方法
CN104391838B (zh) * 2014-08-18 2017-08-29 武汉传神信息技术有限公司 一种提高法律文件翻译准确性的方法
CN105760361B (zh) * 2016-01-26 2019-06-14 北京云知声信息技术有限公司 一种语言模型建立方法及装置
CN105760361A (zh) * 2016-01-26 2016-07-13 北京云知声信息技术有限公司 一种语言模型建立方法及装置
CN107870904A (zh) * 2017-11-22 2018-04-03 北京搜狗科技发展有限公司 一种翻译方法、装置以及用于翻译的装置
CN108228576A (zh) * 2017-12-29 2018-06-29 科大讯飞股份有限公司 文本翻译方法及装置
CN108228576B (zh) * 2017-12-29 2021-07-02 科大讯飞股份有限公司 文本翻译方法及装置
CN108415906A (zh) * 2018-03-28 2018-08-17 中译语通科技股份有限公司 基于领域自动识别篇章机器翻译方法、机器翻译系统
CN108415906B (zh) * 2018-03-28 2021-08-17 中译语通科技股份有限公司 基于领域自动识别篇章机器翻译方法、机器翻译系统
CN108664632A (zh) * 2018-05-15 2018-10-16 华南理工大学 一种基于卷积神经网络和注意力机制的文本情感分类算法
CN108664632B (zh) * 2018-05-15 2021-09-21 华南理工大学 一种基于卷积神经网络和注意力机制的文本情感分类算法
CN108845993A (zh) * 2018-06-06 2018-11-20 中国科学技术信息研究所 文本信息的翻译方法、装置及终端设备
CN108845993B (zh) * 2018-06-06 2022-04-12 中国科学技术信息研究所 文本信息的翻译方法、装置及终端设备
CN109062913A (zh) * 2018-09-17 2018-12-21 福建天泉教育科技有限公司 国际化资源智能获取方法、存储介质
CN109933667A (zh) * 2019-03-19 2019-06-25 中国联合网络通信集团有限公司 文本分类模型训练方法、文本分类方法及设备
CN110110088A (zh) * 2019-05-17 2019-08-09 苏州大学 一种文本分类的方法、系统、设备及计算机可读存储介质
CN110110088B (zh) * 2019-05-17 2023-11-24 苏州大学 一种文本分类的方法、系统、设备及计算机可读存储介质
CN110705320A (zh) * 2019-10-08 2020-01-17 中国船舶工业综合技术经济研究院 一种面向细分领域的国防军工领域机器翻译方法及系统
CN110991661A (zh) * 2019-12-20 2020-04-10 北京百度网讯科技有限公司 用于生成模型的方法和装置
CN111310483A (zh) * 2020-02-11 2020-06-19 北京字节跳动网络技术有限公司 一种翻译方法、装置、电子设备及存储介质
CN111368563A (zh) * 2020-03-03 2020-07-03 新疆大学 一种融合聚类算法的维汉机器翻译系统
CN112131463A (zh) * 2020-09-10 2020-12-25 杭州中软安人网络通信股份有限公司 一种热点提取方法、存储介质及服务器
CN112633017A (zh) * 2020-12-24 2021-04-09 北京百度网讯科技有限公司 翻译模型训练、翻译处理方法、装置、设备和存储介质
CN112633017B (zh) * 2020-12-24 2023-07-25 北京百度网讯科技有限公司 翻译模型训练、翻译处理方法、装置、设备和存储介质

Also Published As

Publication number Publication date
CN103049436B (zh) 2015-11-25

Similar Documents

Publication Publication Date Title
CN103049436B (zh) 获取语料的方法及装置、生成翻译模型的方法及系统、机器翻译的方法及系统
Chisholm et al. Entity disambiguation with web links
CN104750754A (zh) 网站所属行业的分类方法和服务器
CN103186612B (zh) 一种词汇分类的方法、系统和实现方法
Chawla et al. Product opinion mining using sentiment analysis on smartphone reviews
CN104598577B (zh) 一种网页正文的提取方法
CN103902570A (zh) 一种文本分类特征提取方法、分类方法及装置
CN103984681A (zh) 基于时序分布信息和主题模型的新闻事件演化分析方法
CN102033880A (zh) 基于结构化数据集合的标注方法和装置
CN102567494B (zh) 网站分类方法及装置
Ansari et al. Sentiment analysis of mixed code for the transliterated hindi and marathi texts
CN103324745A (zh) 基于贝叶斯模型的文本垃圾识别方法和系统
CN106339495A (zh) 一种基于层次增量聚类的话题检测方法及系统
CN105677857B (zh) 一种关键词与营销落地页的精准匹配方法和装置
CN103593431A (zh) 网络舆情分析方法和装置
CN103714132B (zh) 一种用于基于地域和行业进行热点事件挖掘的方法和设备
Zhou et al. Coupling topic modelling in opinion mining for social media analysis
CN104978332A (zh) 用户生成内容标签数据生成方法、装置及相关方法和装置
CN104504151A (zh) 微信舆情监测系统
López-Ornelas et al. Social media participation in urban planning: A new way to interact and take decisions
Samsudin et al. Mining opinion in online messages
CN103823862A (zh) 一种跨语言的电子文本剽窃检测系统及其检测方法
Wachsmuth et al. Back to the roots of genres: Text classification by language function
Wang et al. The utility of discourse structure in identifying resolved threads in technical user forums
CN115438274A (zh) 基于异质图卷积网络的虚假新闻识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant