CN103049436A

CN103049436A - 获取语料的方法及装置、生成翻译模型的方法及系统、机器翻译的方法及系统

Info

Publication number: CN103049436A
Application number: CN2011103078786A
Authority: CN
Inventors: 马艳军; 吴华; 王海峰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2011-10-12
Filing date: 2011-10-12
Publication date: 2013-04-17
Anticipated expiration: 2031-10-12
Also published as: CN103049436B

Abstract

本发明提供了一种获取语料的方法及装置、生成翻译模型的方法及系统、机器翻译的方法及系统，其中机器翻译的系统包括：分类模块，用于使用第一分类模型对待翻译文本进行分类，以确定所述待翻译文本所属领域，其中所述第一分类模型由各领域的训练语料训练得到；翻译模块，用于利用与所述待翻译文本所属领域对应的领域翻译模型对所述待翻译文本进行翻译，其中所述领域翻译模型由对应领域的训练语料训练得到。通过上述方式，可以有效提高翻译的精度。

Description

获取语料的方法及装置、生成翻译模型的方法及系统、机器翻译的方法及系统

【技术领域】

本发明涉及机器翻译领域，特别涉及一种获取语料的方法及装置、生成翻译模型的方法及系统、机器翻译的方法及系统。

【背景技术】

在机器翻译中，使用的翻译模型对翻译质量有很大的影响，现有的机器翻译方法中，不对待翻译文本的类型进行区分，而采用相同的翻译模型对各种类型的文本进行翻译，这会导致针对不同类型的文本，翻译结果的质量出现较大差异的现象。

例如英语中的“bank”一词，在经济、金融领域的上下文中，应该翻译成“银行”，而在地理领域的上下文中，则应该翻译为“河岸”。如果对这些情况不做区分，而采用同一种翻译模型进行翻译，就会降低翻译的质量。

【发明内容】

本发明所要解决的技术问题是提供一种获取语料的方法及装置、生成翻译模型的方法及系统、机器翻译的方法及系统，以解决现有技术在对不同领域的文本进行翻译时，翻译精度不够高的缺陷。

本发明为解决技术问题而采用的技术方案是提供一种获取语料的方法，包括：将双语语料中来自相同页面的双语句对归并为一组从而将所述双语语料划分为多个归并语料；从各个归并语料中选择长度超过设定阈值的归并语料组成长语料；采用聚类的方法，将相同领域的长语料聚为一类；利用聚类得到的各领域的长语料训练分类模型；使用训练后的分类模型对所述双语语料中的短语料进行分类，以确定所述短语料所属领域，并将各领域的短语料与相同领域的长语料进行合并，得到各领域的训练语料，其中所述短语料为所述双语语料中除所述长语料之外的其他语料。

根据本发明之一优选实施例，所述聚类的方法为潜在概率语义分析方法。

根据本发明之一优选实施例，对所述长语料进行聚类时采用的聚类特征包括：对所述长语料进行分词后，各个词语在所述长语料中出现的次数及各互译词对在所述长语料中出现的次数。

根据本发明之一优选实施例，所述分类模型包括贝叶斯模型、支持向量机模型、K近邻分类模型或最大熵模型。

本发明还提供了一种生成翻译模型的方法，包括：采用上述获取语料的方法获取各领域的训练语料；使用各领域的训练语料对翻译模型进行训练得到各领域翻译模型。

根据本发明之一优选实施例，所述方法进一步包括：将各领域的训练语料合并后对翻译模型进行训练得到通用翻译模型。

本发明还提供了一种机器翻译方法，包括：A.使用第一分类模型对待翻译文本进行分类，以确定所述待翻译文本所属领域，其中所述第一分类模型由各领域的训练语料训练得到；B.利用与所述待翻译文本所属领域对应的领域翻译模型对所述待翻译文本进行翻译，其中所述领域翻译模型由对应领域的训练语料训练得到。

根据本发明之一优选实施例，所述第一分类模型包括：贝叶斯模型、支持向量机模型、K近邻分类模型或最大熵模型。

根据本发明之一优选实施例，所述步骤A进一步包括确定所述待翻译文本归属于所述待翻译文本所属领域的概率并判断该概率是否高于设定的第一阈值，如果是，则所述步骤B中，将与所述待翻译文本所属领域对应的领域翻译模型与通用翻译模型融合后对所述待翻译文本进行翻译，其中所述通用翻译模型由各领域的训练语料合并后训练得到。

根据本发明之一优选实施例，各领域的训练语料是采用下列方式得到的：将双语语料中来自相同页面的双语句对归并为一组从而将所述双语语料划分为多个归并语料；从各个归并语料中选择长度超过设定的第二阈值的归并语料组成长语料；采用聚类的方法，将相同领域的长语料聚为一类；利用聚类得到的各领域的长语料训练第二分类模型；使用训练后的第二分类模型对所述双语语料中的短语料进行分类，以确定所述短语料所属领域，并将各领域的短语料与相同领域的长语料进行合并，得到各领域的训练语料，其中所述短语料为所述双语语料中除所述长语料之外的其他语料。

根据本发明之一优选实施例，所述第二分类模型包括：贝叶斯模型、支持向量机模型、K近邻分类模型或最大熵模型。

本发明还提供了一种获取语料的装置，包括：归并单元，用于将双语语料中来自相同页面的双语句对归并为一组从而将所述双语语料划分为多个归并语料；选取单元，用于从各个归并语料中选择长度超过设定阈值的归并语料组成长语料；聚类单元，用于采用聚类的方法，将相同领域的长语料聚为一类；训练单元，用于利用聚类得到的各领域的长语料训练分类模型；分类单元，用于使用训练后的分类模型对所述双语语料中的短语料进行分类，以确定所述短语料所属领域，并将各领域的短语料与相同领域的长语料进行合并，得到各领域的训练语料，其中所述短语料为所述双语语料中除所述长语料之外的其他语料。

根据本发明之一优选实施例，所述聚类单元采用潜在概率语义分析方法对所述长语料进行聚类。

根据本发明之一优选实施例，所述聚类单元对所述长语料进行聚类时采用的聚类特征包括：对所述长语料进行分词后，各个词语在所述长语料中出现的次数及各互译词对在所述长语料中出现的次数。

根据本发明之一优选实施例，所述分类模型包括：贝叶斯模型、支持向量机模型、K近邻分类模型或最大熵模型。

本发明还提供了一种生成翻译模型的系统，包括：上文所述的获取语料的装置，用于获取各领域的训练语料；以及，领域模型生成模块，用于使用各领域的训练语料对翻译模型进行训练得到各领域翻译模型。

根据本发明之一优选实施例，所述系统进一步包括：通用模型生成模块，用于将各领域的训练语料合并后对翻译模型进行训练得到通用翻译模型。

本发明还提供了一种机器翻译系统，包括：分类模块，用于使用第一分类模型对待翻译文本进行分类，以确定所述待翻译文本所属领域，其中所述第一分类模型由各领域的训练语料训练得到；翻译模块，用于利用与所述待翻译文本所属领域对应的领域翻译模型对所述待翻译文本进行翻译，其中所述领域翻译模型由对应领域的训练语料训练得到。

根据本发明之一优选实施例，所述分类模块进一步用于确定所述待翻译文本归属于所述待翻译文本所属领域的概率并判断该概率是否高于设定的第一阈值，如果是，则所述翻译模块将与所述待翻译文本所属领域对应的领域翻译模型与通用翻译模型融合后对所述待翻译文本进行翻译，其中所述通用翻译模型由各领域的训练语料合并后训练得到。

根据本发明之一优选实施例，所述系统进一步包括语料获取模块，用于得到各领域的训练语料，其中所述语料获取模块包括：归并单元，用于将双语语料中来自相同页面的双语句对归并为一组从而将所述双语语料划分为多个归并语料；选取单元，用于从各个归并语料中选择长度超过设定的第二阈值的归并语料组成长语料；聚类单元，用于采用聚类的方法，将相同领域的长语料聚为一类；训练单元，用于利用聚类得到的各领域的长语料训练第二分类模型；分类单元，用于使用训练后的第二分类模型对所述双语语料中的短语料进行分类，以确定所述短语料所属领域，并将各领域的短语料与相同领域的长语料进行合并，得到各领域的训练语料，其中所述短语料为所述双语语料中除所述长语料之外的其他语料。

由以上技术方案可以看出，通过采用不同领域的翻译模型对待翻译文本进行翻译，可以有效提高翻译的精度，同时通过对含有更多信息量的长语料进行聚类，通过聚类结果指导短语料进行分类，可以有效地将语料划分到各个不同领域，用以训练各个领域翻译模型，从而提高翻译模型的有效性。

【附图说明】

图1为本发明中机器翻译系统的实施例的结构示意框图；

图2为本发明中机器翻译方法的实施例一的流程示意图；

图3为本发明中获取语料的方法的实施例的流程示意图；

图4为本发明中机器翻译方法的实施例二的流程示意图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

请参考图1，图1为本发明中机器翻译系统的实施例的结构示意框图。如图1所示，机器翻译系统包括：分类模块101、翻译模块102、训练模块103、模型生成模块104和语料获取模块105。

其中语料获取模块105，用于获取各领域的训练语料，以供其他模块使用。

语料获取模块105包括归并单元1051、选取单元1052、聚类单元1053、训练单元1054和分类单元1055。

其中归并单元1051，用于将双语语料中来自相同页面的双语句对归并为一组从而将双语语料划分为多个归并语料。

双语语料由双语句对构成，可通过互联网进行挖掘。在本实施例中，双语语料进行了归并处理，归并的策略为：将相同页面，即URL(Uniform/Universal Resource Locator)地址相同的页面上挖掘到的双语句对归并为一组。这样，双语语料就可以划分为多个归并语料，每个归并语料由来自同一页面的双语句对组成。由于来自于相同页面的双语句对通常有相同的主题，因此，对双语语料进行归并处理，有助于后续进行聚类时，提高聚类的精度。

选取单元1052，用于从各个归并语料中选择长度超过设定阈值的归并语料组成长语料，以供聚类单元1053使用。

由于从每个页面挖掘到的双语句对的数量不同，有的页面挖掘到的双语句对可能数量很少，如果直接采用这样的语料进行聚类处理，会影响聚类的精度。设定阈值是为了对归并语料的长度进行区分，将较长的归并语料提取出来组成长语料用于聚类处理。通过设定的阈值，可以控制参与聚类的长语料的数量，从而控制聚类的精度。

聚类单元1053，用于采用聚类的方法，将相同领域的长语料聚为一类。聚类后各领域的长语料，可用于后续训练第二分类模型使用。

聚类的目的是为了将相同领域的长语料聚为一类，在本实施例中可采用潜在概率语义分析(probabilistic Latent semantic alnalysis，PLSA)方法对长语料进行聚类。由于该方法属于现有技术，在此不再做具体介绍，除此之外，本发明并不限定具体的聚类方法，采用其他的聚类方法并不影响本发明的实施。

在本实施例中，对长语料进行聚类时，可采用下列特征：对长语料进行分词后，各个词语在长语料中出现的次数及各个互译词对在长语料中出现的次数。

例如下面的一对双语句对：

句1：c1 c2 c3......cn

句2：e1 e2 e3......em

其中c1至cn、e1至em分别为句1和句2中的各个词语，假设(c1，e1)构成了互译词对，则在步骤102中可采用的聚类特征，包括c1、e1在长语料中出现的次数，以及(c1，e1)在长语料中出现的次数。

将互译词对作为聚类时考虑的特征，使得双语句对的特征性更加明显，可以有效提高聚类的效果。

训练单元1054，用于利用聚类得到的各领域的长语料训练第二分类模型。

在本实施例中，对第二分类模型的具体类型不做限制，可采用本领域技术人员熟知的任意分类模型，例如：贝叶斯模型、支持向量机模型、K近邻分类模型或最大熵模型等等。

通过机器学习的方法，给定已知各个类别的语料，则可以用这些语料训练出可以对未知类别的语料进行分类的第二分类模型，随后，该第二分类模型可用于对未知类别的语料进行分类。具体的训练过程由采用的分类模型的算法决定，由于各种分类模型，如贝叶斯模型、支持向量机模型或K近邻分类模型等分类模型的算法都属于现有技术，在此不再做过多介绍。

分类单元1055，用于使用训练后的第二分类模型对双语语料中的短语料进行分类，以确定短语料所属领域，并将各领域的短语料与相同领域的长语料进行合并，得到各领域的训练语料，其中短语料为双语语料中除长语料之外的其他语料。

分类单元1055得到的各领域的训练语料，可供本系统的训练模块103和模型生成模块104使用。

训练模块103，用于使用各领域的训练语料训练第一分类模型。第一分类模型随后可供分类模块101使用。

本发明中同样不限制第一分类模型的类型，第一分类模型包括本领域技术人员熟知的贝叶斯模型、支持向量机模型、K近邻分类模型或最大熵模型等现有的分类模型。训练第一分类模型的过程也与训练第二分类模型的过程类似，在此不再做过多介绍。

模型生成模块104，用于使用各领域的训练语料对翻译模型进行训练以得到各领域翻译模型，以及，将各领域的训练语料合并后对翻译模型进行训练以得到通用翻译模型。

使用各领域的训练语料对翻译模型进行训练就是用各个领域的训练语料分别训练一个翻译模型，从而得到体现领域翻译偏好的各个领域翻译模型。而用已有语料训练翻译模型属于统计机器翻译中的现有技术，在此不做进一步的介绍。

各个领域翻译模型与通用翻译模型，可提供给翻译模块102在对待翻译文本进行翻译时使用。

分类模块101，用于使用训练好的第一分类模型对待翻译文本进行分类，以确定待翻译文本所属领域。

采用第一分类模型对待翻译文本进行分类时，由第一分类模型还可以算出待翻译文本归属于其所属领域的概率。例如贝叶斯模型，其基于贝叶斯定理，可以用来预测类成员关系的可能性，给出文本属于某特定类别的概率。待翻译文本归属于其所属领域的概率，可帮助翻译模块102对待翻译文本进行翻译时，选择最终的一个或多个翻译模型。

翻译模块102，用于利用与待翻译文本所属领域对应的领域翻译模型对待翻译文本进行翻译。

如上文所述的，分类模块101，还可用于确定待翻译文本归属于其所属领域的概率，并判断该概率是否高于设定阈值，如果是，则翻译模块102可以使用与待翻译文本所属领域对应的领域翻译模型对待翻译文本进行翻译，作为优选的，当待翻译文本归属于其所属领域的概率高于设定阈值时，将与待翻译文本所属领域对应的领域翻译模型与通用翻译模型融合后对待翻译文本进行翻译。另外，当该概率值较低时，也可仅采用通用翻译模型对待翻译文本进行翻译。

例如待翻译文本为：Upon completion of the payment PARTY A shall cause issuing bank to deliver the original hard copy of BG by bonded bank courier to PARTY B bank within 7 banking days.

对上述待翻译文本，分类模块101使用第一分类模型确定其分到金融领域的概率高于设定的阈值，则说明该文本很可能具有金融领域的翻译偏好，可采用金融领域的领域翻译模型与通用翻译模型融合的结果对待翻译文本进行翻译。

模型融合可通过模型插值来实现，本发明不限定模型融合的实施方式，现有的各种模型融合算法，都可以应用到本发明上。

在本发明的其他实施例中，各领域的训练语料，也可以不通过上述实施例中采用的方式得到，例如通过大量人工标注，或者通过从互联网的分类信息上抓取，或者将所有的双语语料进行一次聚类实现，都不影响本发明的实施。

应该理解，本实施例中获取第一分类模型以及各领域翻译模型和通用翻译模型的方式仅为实现本发明的翻译方法的一种实施方式，本发明并不限制通过其他方式获取第一分类模型以及各领域翻译模型和通用翻译模型，例如接收一个现有的分类模型作为第一分类模型，以及现有的翻译模型作为各领域翻译模型和通用翻译模型。

请参考图2，图2为本发明中机器翻译的方法的实施例一的流程示意图。如图2所示，机器翻译的方法包括：

步骤S101：获取各领域的训练语料；

步骤S102：使用各领域的训练语料训练第一分类模型；

步骤S103：使用各领域的训练语料对翻译模型进行训练以得到各领域翻译模型；

步骤S104：使用训练后的第一分类模型对待翻译文本进行分类，以确定待翻译文本所属领域；

步骤S105：使用与待翻译文本所属领域对应的领域翻译模型对待翻译文本进行翻译。

其中步骤S101的具体实施方式请参考图3。图3为本发明中获取语料的方法的实施例的流程示意图。如图3所示，获取各领域训练语料的方法包括：

步骤S201：将双语语料中来自相同页面的双语句对归并为一组从而将双语语料划分为多个归并语料。

步骤S201：从各个归并语料中选择长度超过设定阈值的归并语料组成长语料。

步骤S202：采用聚类的方法，将相同领域的长语料聚为一类。

步骤S203：利用聚类得到的各领域的长语料训练第二分类模型。

步骤S204：使用训练后的第二分类模型对双语语料中的短语料进行分类，并将各领域的短语料与相同领域的长语料进行合并，得到各领域的子语料。

双语语料由双语句对构成，可通过互联网进行挖掘。在本实施例中，双语语料进行了归并处理，归并的策略为：将相同页面，即URL(Uniform/Universal Resource Locator)地址相同的页面上挖掘到的双语句对归并为一组。这样，双语语料就可以划分为多个归并语料，每个归并语料由来自同一页面的双语句对组成。由于来自于相同页面的双语句对通常有相同的主题，因此，对双语语料进行归并处理，有助于后续进行聚类时，提高聚类的精度。由于从每个页面挖掘到的双语句对的数量不同，有的页面挖掘到的双语句对可能数量很少，如果直接采用这样的语料进行聚类处理，会影响聚类的精度。设定阈值是为了对归并语料的长度进行区分，将较长的归并语料提取出来组成长语料用于聚类处理。通过设定的阈值，可以控制参与聚类的长语料的数量，从而控制聚类的精度。

例如下面的一对双语句对：

句1：c1 c2 c3......cn

句2：e1 e2 e3......em

请继续参考图2。

第一分类模型与第二分类模型类似，在本实施例中，对第二分类模型的具体类型也不做限制，可采用本领域技术人员熟知的任意分类模型，例如：贝叶斯模型、支持向量机模型、K近邻分类模型或最大熵模型等等。

在本发明的机器翻译方法中，图2所示的步骤执行顺序可进行各种符合逻辑的组合，既可以如图2所示的方式，从S101顺序执行到S105，也可以按照下列方式执行：

S101-S103-S102-S104-S105，或者S101-S102-S104-S103-S105。

应该理解，在本实施例中，步骤S101至步骤S103为获得第一分类模型及各领域翻译模型的实施方式，但是本发明并不限于这种实施方式，实际上，第一分类模型与各领域翻译模型，也可以是从其他地方获取得到的现有模型。

请参考图4，图4为本发明中机器翻译的方法的实施例二的流程示意图。如图4所示，机器翻译的方法包括：

步骤S301：获取各领域的训练语料；

步骤S302：使用各领域的训练语料训练第一分类模型；

步骤S303：使用各领域的训练语料对翻译模型进行训练以得到各领域翻译模型，以及，将各领域的训练语料合并后对翻译模型进行训练以得到通用翻译模型；

步骤S304：使用训练后的第一分类模型对待翻译文本进行分类，以确定待翻译文本所属领域，并且确定待翻译文本归属于其所属领域的概率并判断该概率是否低于设定的阈值；

步骤S305：如果待翻译文本归属于其所述领域的概率高于设定的阈值，则将与待翻译文本所属领域对应的领域翻译模型与通用翻译模型融合后对待翻译文本进行翻译。

采用第一分类模型对待翻译文本进行分类时，由第一分类模型还可以算出待翻译文本归属于其所属领域的概率。例如贝叶斯模型，其基于贝叶斯定理，可以用来预测类成员关系的可能性，给出文本属于某特定类别的概率。该概率有助于选择最终的一个或多个翻译模型。

对上述待翻译文本，如果使用第一分类模型确定其分到金融领域的概率高于设定的阈值，则说明该文本很可能具有金融领域的翻译偏好，可采用金融领域的领域翻译模型与通用翻译模型融合的结果对待翻译文本进行翻译。

如果待翻译文本归属于其所述领域的概率很低，也可以仅采用通用翻译模型对其进行翻译。

与实施例一类似的，应该理解，图4所示的执行步骤也可以在本领域技术人员认为合理的情况下进行组合。例如以下面的顺序执行：S301-S303-S302-S304-S305，或者S301-S302-S304-S303-S305。

同样，应该理解，在本实施例中，步骤S301至步骤S303为获得第一分类模型以及各领域翻译模型和通用翻译模型的实施方式，但是本发明并不限于这种实施方式，实际上，第一分类模型以及各领域翻译模型和通用翻译模型，也可以是从其他地方获取得到的现有模型。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种获取语料的方法，其特征在于，所述方法包括：

将双语语料中来自相同页面的双语句对归并为一组从而将所述双语语料划分为多个归并语料；

从各个归并语料中选择长度超过设定阈值的归并语料组成长语料；

采用聚类的方法，将相同领域的长语料聚为一类；

利用聚类得到的各领域的长语料训练分类模型；

使用训练后的分类模型对所述双语语料中的短语料进行分类，以确定所述短语料所属领域，并将各领域的短语料与相同领域的长语料进行合并，得到各领域的训练语料，其中所述短语料为所述双语语料中除所述长语料之外的其他语料。

2.根据权利要求1所述的方法，其特征在于，所述聚类的方法为潜在概率语义分析方法。

3.根据权利要求1所述的方法，其特征在于，对所述长语料进行聚类时采用的聚类特征包括：对所述长语料进行分词后，各个词语在所述长语料中出现的次数及各互译词对在所述长语料中出现的次数。

4.根据权利要求1所述的方法，其特征在于，所述分类模型包括贝叶斯模型、支持向量机模型、K近邻分类模型或最大熵模型。

5.一种生成翻译模型的方法，其特征在于，所述方法包括：

采用权利要求1至4中任一权项所述方法获取各领域的训练语料；

使用各领域的训练语料对翻译模型进行训练得到各领域翻译模型。

6.根据权利要求5所述的方法，其特征在于，所述方法进一步包括：

将各领域的训练语料合并后对翻译模型进行训练得到通用翻译模型。

7.一种机器翻译方法，其特征在于，所述方法包括：

A.使用第一分类模型对待翻译文本进行分类，以确定所述待翻译文本所属领域，其中所述第一分类模型由各领域的训练语料训练得到；

B.利用与所述待翻译文本所属领域对应的领域翻译模型对所述待翻译文本进行翻译，其中所述领域翻译模型由对应领域的训练语料训练得到。

8.根据权利要求7所述的方法，其特征在于，所述第一分类模型包括：贝叶斯模型、支持向量机模型、K近邻分类模型或最大熵模型。

9.根据权利要求7所述的方法，其特征在于，所述步骤A进一步包括确定所述待翻译文本归属于所述待翻译文本所属领域的概率并判断该概率是否高于设定的第一阈值，如果是，则所述步骤B中，将与所述待翻译文本所属领域对应的领域翻译模型与通用翻译模型融合后对所述待翻译文本进行翻译，其中所述通用翻译模型由各领域的训练语料合并后训练得到。

10.根据权利要求7至9中任一权项所述的方法，其特征在于，各领域的训练语料是采用下列方式得到的：

从各个归并语料中选择长度超过设定的第二阈值的归并语料组成长语料；

采用聚类的方法，将相同领域的长语料聚为一类；

利用聚类得到的各领域的长语料训练第二分类模型；

使用训练后的第二分类模型对所述双语语料中的短语料进行分类，以确定所述短语料所属领域，并将各领域的短语料与相同领域的长语料进行合并，得到各领域的训练语料，其中所述短语料为所述双语语料中除所述长语料之外的其他语料。

11.根据权利要求10所述的方法，其特征在于，所述聚类的方法为潜在概率语义分析方法。

12.根据权利要求10所述的方法，其特征在于，对所述长语料进行聚类时采用的聚类特征包括：对所述长语料进行分词后，各个词语在所述长语料中出现的次数及各互译词对在所述长语料中出现的次数。

13.根据权利要求10所述的方法，其特征在于，所述第二分类模型包括：贝叶斯模型、支持向量机模型、K近邻分类模型或最大熵模型。

14.一种获取语料的装置，其特征在于，所述装置包括：

归并单元，用于将双语语料中来自相同页面的双语句对归并为一组从而将所述双语语料划分为多个归并语料；

选取单元，用于从各个归并语料中选择长度超过设定阈值的归并语料组成长语料；

聚类单元，用于采用聚类的方法，将相同领域的长语料聚为一类；

训练单元，用于利用聚类得到的各领域的长语料训练分类模型；

分类单元，用于使用训练后的分类模型对所述双语语料中的短语料进行分类，以确定所述短语料所属领域，并将各领域的短语料与相同领域的长语料进行合并，得到各领域的训练语料，其中所述短语料为所述双语语料中除所述长语料之外的其他语料。

15.根据权利要求14所述的装置，其特征在于，所述聚类单元采用潜在概率语义分析方法对所述长语料进行聚类。

16.根据权利要求14所述的装置，其特征在于，所述聚类单元对所述长语料进行聚类时采用的聚类特征包括：对所述长语料进行分词后，各个词语在所述长语料中出现的次数及各互译词对在所述长语料中出现的次数。

17.根据权利要求14所述的装置，其特征在于，所述分类模型包括：贝叶斯模型、支持向量机模型、K近邻分类模型或最大熵模型。

18.一种生成翻译模型的系统，其特征在于，所述系统包括：

权利要求14至17中任一权项所述装置，用于获取各领域的训练语料；以及，领域模型生成模块，用于使用各领域的训练语料对翻译模型进行训练得到各领域翻译模型。

19.根据权利要求18所述的系统，其特征在于，所述系统进一步包括：

通用模型生成模块，用于将各领域的训练语料合并后对翻译模型进行训练得到通用翻译模型。

20.一种机器翻译系统，其特征在于，所述系统包括：

分类模块，用于使用第一分类模型对待翻译文本进行分类，以确定所述待翻译文本所属领域，其中所述第一分类模型由各领域的训练语料训练得到；

翻译模块，用于利用与所述待翻译文本所属领域对应的领域翻译模型对所述待翻译文本进行翻译，其中所述领域翻译模型由对应领域的训练语料训练得到。

21.根据权利要求20所述的系统，其特征在于，所述第一分类模型包括：贝叶斯模型、支持向量机模型、K近邻分类模型或最大熵模型。

22.根据权利要求20所述的系统，其特征在于，所述分类模块进一步用于确定所述待翻译文本归属于所述待翻译文本所属领域的概率并判断该概率是否高于设定的第一阈值，如果是，则所述翻译模块将与所述待翻译文本所属领域对应的领域翻译模型与通用翻译模型融合后对所述待翻译文本进行翻译，其中所述通用翻译模型由各领域的训练语料合并后训练得到。

23.根据权利要求20至22中任一权项所述的系统，其特征在于，所述系统进一步包括语料获取模块，用于得到各领域的训练语料，其中所述语料获取模块包括：

选取单元，用于从各个归并语料中选择长度超过设定的第二阈值的归并语料组成长语料；

训练单元，用于利用聚类得到的各领域的长语料训练第二分类模型；

分类单元，用于使用训练后的第二分类模型对所述双语语料中的短语料进行分类，以确定所述短语料所属领域，并将各领域的短语料与相同领域的长语料进行合并，得到各领域的训练语料，其中所述短语料为所述双语语料中除所述长语料之外的其他语料。

24.根据权利要求23所述的系统，其特征在于，所述聚类单元采用潜在概率语义分析方法对所述长语料进行聚类。

25.根据权利要求23所述的系统，其特征在于，所述聚类单元对所述长语料进行聚类时采用的聚类特征包括：对所述长语料进行分词后，各个词语在所述长语料中出现的次数及各互译词对在所述长语料中出现的次数。

26.根据权利要求23所述的系统，其特征在于，所述第二分类模型包括：贝叶斯模型、支持向量机模型、K近邻分类模型或最大熵模型。