CN106708812A

CN106708812A - 机器翻译模型的获取方法及装置

Info

Publication number: CN106708812A
Application number: CN201611178859.7A
Authority: CN
Inventors: 田亮
Original assignee: Information Technology (shenzhen) Co Ltd
Current assignee: Information Technology (shenzhen) Co Ltd
Priority date: 2016-12-19
Filing date: 2016-12-19
Publication date: 2017-05-24

Abstract

本发明提供一种机器翻译模型的获取方法及装置。本发明的机器翻译模型的获取方法包括获取多个双语句对文本，双语句对文本包括第一语言文本和与第一语言文本语义相同的第二语言文本；根据第一语言词典，对第一语言文本进行分词，得到第一分词词语，根据第二语言词典，对第二语言文本进行分词，得到第二分词词语；第一语言词典包括多个第一语言短语，第二语言词典包括多个第二语言短语；采用非监督学习方法对第一分词词语和第二分词词语组成的平行语料进行训练，得到机器翻译模型。本发明的机器翻译模型的获取方法及装置，使得获取的机器翻译模型在机器翻译的应用过程中，机器翻译速度和精度得到了提高。

Description

机器翻译模型的获取方法及装置

技术领域

本发明实施例涉及语言处理技术，尤其涉及一种机器翻译模型的获取方法及装置。

背景技术

机器翻译是自然语言处理的重要分支之一，其目的是借助计算机将文字或者语言从一种自然语言翻译成另外一种自然语言，例如将中文翻译成英文。随着计算机计算能力和存储能力的不断提升，机器翻译方法中统计方法开始发展，统计方法的基本思想是通过大量的平行语料进行统计分析，构建机器翻译模型，并使用该模型结合语言模型来进行翻译。

现有技术中通过统计方法获取机器翻译模型的方法，一般是对双语句对文本进行分词，其中，双语句对文本即为源语言文本和目标语言文本，例如源语言文本是中文文本，目标语言文本是与该中文文本语义对应的英文文本。根据源语言文本和目标语言文本各自对应的词典，对该源语言文本和目标语言文本分别进行分词，得到平行语料，也就是训练词语，对平行语料进行训练得到机器翻译模型。现有技术分词方法中采用的分词词典没有考虑双语句对文本之间的语义对应关系，比如对于双语句对为中文文本和英文文本的情况，其中，对于英文文本的分词，由于没有考虑与中文文本中汉字的语义关系，分词结果往往是以单个单词的形式存在，忽略了与中文文本中的汉字对应关系更好、语义更丰富的英文短语，造成了采用上述方法得到的机器翻译模型在机器翻译的应用过程中，机器翻译速度较慢且准确度不高的问题。

发明内容

本发明提供一种机器翻译模型的获取方法及装置，以克服现有技术中获取翻译模型方法得到机器翻译模型在应用过程中，使得机器翻译速度较慢且准确度不高的技术问题

本发明提供一种机器翻译模型的获取方法，包括：

获取多个双语句对文本，所述双语句对文本包括第一语言文本和与所述第一语言文本语义相同的第二语言文本，所述第一语言文本与所述第二语言文本属于不同的语言；

根据第一语言词典，对所述第一语言文本进行分词，得到第一分词词语，根据第二语言词典，对所述第二语言文本进行分词，得到第二分词词语；其中，所述第一分词词语包括至少一个第一单词，所述第二分词词语包括至少一个第二单词；所述第一语言词典包括多个第一语言短语，所述第一语言短语包括多个第一单词，所述第二语言词典包括多个第二语言短语，所述第二语言短语包括多个第二单词；

采用非监督学习方法对所述第一分词词语和所述第二分词词语组成的平行语料进行训练，得到机器翻译模型，以使终端采用所述机器翻译模型进行第一语言和第二语言之间的翻译。

如上所述的方法，所述根据第一语言词典，对所述第一语言文本进行分词，得到第一分词词语，根据第二语言词典，对所述第二语言文本进行分词，得到第二分词词语之前，还包括：

对所述第一语言文本进行分词，得到所述第一语言文本对应的多个第一单词，并对所述第二语言文本进行分词，得到所述第二语言文本对应的多个第二单词；

根据所述第一单词和所述第二单词之间的语义对应关系，构建第一语言短语和第二语言短语；

根据所述第一语言短语，生成第一语言词典，根据所述第二语言短语，生成第二语言词典。

如上所述的方法，所述对所述第一语言文本进行分词，得到所述第一语言文本对应的多个第一单词，包括：

根据第一分词词典，采用最大匹配分词法，对所述第一语言文本进行分词，得到多个第一单词；

所述对所述第二语言文本进行分词，得到所述第二语言文本对应的多个第二单词，包括：

根据第二分词词典，采用最大匹配分词法，对所述第二语言文本进行分词，得到多个第二单词。

如上所述的方法，所述根据所述第一单词和所述第二单词之间的语义对应关系，构建第一语言短语和第二语言短语，包括：

将所述第一语言文本的第一单词和所述第二语言文本的第二单词按照语义进行匹配对齐；

若多个第一单词表达的语义与至少一个第二单词表达的语义相同，则将多个第一单词组成第一语言短语；

若多个第二单词表达的语义与至少一个第一单词表达的语义相同，则将多个第二单词组成第二语言短语。

如上所述的方法，所述根据所述第一语言短语，生成第一语言词典，包括：

将所述第一语言短语添加到所述第一分词词典中，得到新的第一分词词典，将所述新的第一分词词典作为所述第一语言词典；

所述根据第二语言短语，生成第二语言词典，包括：

将所述第二语言短语添加到所述第二分词词典中，得到新的第二分词词典，将所述新的第二分词词典作为所述第二语言词典。

如上所述的方法，所述第一语言文本为亚洲语言文本，所述第一单词为单字。

本发明还提供一种机器翻译模型的获取装置，包括：

文本获取模块，所述文本获取模块用于获取多个双语句对文本，所述双语句对文本包括第一语言文本和与所述第一语言文本语义相同的第二语言文本，所述第一语言文本与所述第二语言文本属于不同的语言；

第一分词模块，所述分词模块用于，根据第一语言词典，对所述第一语言文本进行分词，得到第一分词词语，根据第二语言词典，对所述第二语言文本进行分词，得到第二分词词语；其中，所述第一分词词语包括至少一个第一单词，所述第二分词词语包括至少一个第二单词；所述第一语言词典包括多个第一语言短语，所述第一语言短语包括多个第一单词，所述第二语言词典包括多个第二语言短语，所述第二语言短语包括多个第二单词；

机器翻译模型获取模块，所述机器翻译模型获取模块用于采用非监督学习方法对所述第一分词词语和所述第二分词词语组成的平行语料进行训练，得到机器翻译模型，以使终端采用所述机器翻译模型进行第一语言和第二语言之间的翻译。

如上所述的装置，所述装置还包括：

第二分词模块，所述第二分词模块用于对所述第一语言文本进行分词，得到所述第一语言文本对应的多个第一单词，并对所述第二语言文本进行分词，得到所述第二语言文本对应的多个第二单词；

短语构建模块，所述短语构建模块用于根据所述第一单词和所述第二单词之间的语义对应关系，构建第一语言短语和第二语言短语；

词典生成模块，所述词典生成模块用于根据所述第一语言短语，生成第一语言词典，根据所述第二语言短语，生成第二语言词典。

如上所述的装置，所述第二分词模块具体用于：根据第一分词词典，采用最大匹配分词法，对所述第一语言文本进行分词，得到多个第一单词；

如上所述的装置，所述短语构建模块具体用于：将所述第一语言文本的第一单词和所述第二语言文本的第二单词按照语义进行匹配对齐；

本发明提供一种机器翻译模型的获取方法及装置。本发明的机器翻译模型的获取方法包括获取多个双语句对文本，双语句对文本包括第一语言文本和与第一语言文本语义相同的第二语言文本，第一语言文本与第二语言文本属于不同的语言；根据第一语言词典，对第一语言文本进行分词，得到第一分词词语，根据第二语言词典，对第二语言文本进行分词，得到第二分词词语；其中，第一分词词语包括至少一个第一单词，第二分词词语包括至少一个第二单词；第一语言词典包括多个第一语言短语，第一语言短语包括多个第一单词，第二语言词典包括多个第二语言短语，第二语言短语包括多个第二单词；采用非监督学习方法对第一分词词语和第二分词词语组成的平行语料进行训练，得到机器翻译模型，以使终端采用机器翻译模型进行第一语言和第二语言之间的翻译。本发明的机器翻译模型的获取方法及装置，使得获取的机器翻译模型在机器翻译的应用过程中，机器翻译速度和精度得到了提高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的机器翻译模型的获取方法的流程示意图；

图2为本发明提供的机器翻译模型的获取装置实施例一的结构示意图；

图3为本发明提供的机器翻译模型的获取装置实施例二的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例，例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

机器翻译的过程需要使用机器翻译模型，机器翻译模型直接影响机器翻译的质量和速度。在自然语言中，无论是亚洲语系还是欧美语系，短语表达的语义均比单个的单词表达的语义要丰富；比如中文和英文之间，往往一个中文汉字对应多个英文单词组成的英文短语，一个英文单词对应多个中文汉字组成的中文短语。但是，现有技术中获取机器翻译模型时，需采用源语言文本和目标语言文本各自对应的词典进行分词，但由于各自的词典没有充分考虑源语言与目标语言之间的语义对应关系，比如，对于源语言为英文文本的分词，分词结果往往是以单个单词的形式存在，并不能与目标语言中文很好的对应，而机器翻译模型是通过对分词得到的平行语料进行训练得到的，因此，使用现有技术中的机器翻译模型进行机器会存在翻译翻译速度较慢且准确度不高的问题。为解决上述问题，本发明提出了一种机器翻译模型的获取方法及装置，下面对本发明的机器翻译模型的获取方法和装置，进行详细的说明。

图1为本发明提供的机器翻译模型的获取方法的流程示意图，本实施例的方法可以基于机器翻译模型的获取装置实现，该装置可以通过由硬件和/或软件实现，如图1所示，本实施例的方法可以包括：

步骤S101、获取多个双语句对文本，双语句对文本包括第一语言文本和与第一语言文本语义相同的第二语言文本，第一语言文本与第二语言文本属于不同的语言；

具体地，双语句文本包括第一语言文本和与第一语言文本语义相同的第二语言文本，第一语言文本与第二语言文本属于不同的语言，比如第一语言文本为英文“I likefootball”，那么第二语言文本可为中文“我喜欢足球”，当然第二语言文本还可为日文等亚洲语言或者德语等欧美语言，只要与“I like football”语义对应即可。此外，本实施例中的第一语言文本与第二语言文本可以均为亚洲语系，也可以均为欧美语系，或者其他相同的语系，也可以分别属于不同的语系，也就是说第一语言文本和第二语言文本是根据后续需要互相翻译的语言确定的，比如进行中文与英文之间的翻译，那么第一语言文本为中文，第二语言文本为英文，或者，第一语言文本为英文，第二语言文本为中文。

本领域技术人员应当明白，双语句文本的数目应该足够大，以使得到的机器翻译模型应用在翻译过程时，可以保证翻译过程的精度和速度。

步骤S102、根据第一语言词典，对第一语言文本进行分词，得到第一分词词语，根据第二语言词典，对第二语言文本进行分词，得到第二分词词语；其中，第一分词词语包括至少一个第一单词，第二分词词语包括至少一个第二单词；第一语言词典包括多个第一语言短语，第一语言短语包括多个第一单词，第二语言词典包括多个第二语言短语，第二语言短语包括多个第二单词；

具体地，在根据第一语言词典，对第一语言文本进行分词，得到第一分词词语，根据第二语言词典，对第二语言文本进行分词，得到第二分词词语之前，需要获取第一语言词典和第二语言词典。

下面对获取第一语言词典和第二语言词典的方法进行详细的介绍。

获取多个双语句对文本，双语句对文本包括第一语言文本和与第一语言文本语义相同的第二语言文本，第一语言文本与第二语言文本属于不同的语言。本次获取的多个双语句对文本可以与步骤S101中的多个双语句对文本相同，也可以不相同，在本实施例中优选本次获取的多个双语句对文本与步骤S101中的多个双语句对文本相同。其中，若本次获取的多个双语句对文本与步骤S101中的多个双语句对文本不相同，优选为本次获取的多个双语句对文本包括步骤S101中的多个双语句对文本，也就是说本次获取的多个双语句对文本除了包括步骤S101中的多个双语句对文本外，还包括其他的双语句对文本。

本领域技术人员可以理解的是，本次获取的多个双语句对文本针对的双语(第一语言和第二语言)与步骤S101中的多个双语句对文本针对的双语相同，比如，步骤S101中的双语句对文本是语义对应的中文文本和英文文本，那么本次获取的双语句对文本也是语义对应的中文文本和英文文本。

在获取第一语言词典和第二语言词典的方法中，在获取了多个双语句对文本后，便对第一语言文本进行分词，得到第一语言文本对应的多个第一单词，并对第二语言文本进行分词，得到第二语言文本对应的多个第二单词。

具体地，对第一语言文本进行分词，得到第一语言文本对应的多个第一单词，包括：根据第一分词词典，采用最大匹配分词法，对第一语言文本进行分词，得到多个第一单词；对第二语言文本进行分词，得到第二语言文本对应的多个第二单词，包括：根据第二分词词典，采用最大匹配分词法，对第二语言文本进行分词，得到多个第二单词。

其中，若第一语言文本为亚洲语言文本，第一单词为单字。另外，最大匹配为现有技术中的方法，本实施例中不作赘述。

下面以第一语言文本为英文文本，第二语言文本为中文文本为例，对该分词过程进行说明。

第一分词词典为包含英文单词的分词词典，第二分词词典可为空的分词词典，或者第二分词词典中的词语均为一个汉字，以保证中文文本分词后的结果为单个汉字。举例来说，对于英文文本“I am a student of university of Macau”采用第一分词词典，通过最大匹配法分词后得到多个第一单词为：I、am、a、student、of、university、of、Macau。对于对应的中文文本“我是澳大的一名学生”，采用第二分词词典，通过最大匹配法分词后得到的多个第二单词为：我、是、澳、大、的、一、名、学、生。

另外，在获取第一语言词典和第二语言词典的方法中，获取了多个双语句对文本后，对于中文文本或者其它亚洲语系还可以不采用分词方法获取多个第二单词(若第二语言文本为亚洲语系)，还可以采用直接将中文文本等亚洲语系文本直接拆分成单个字。

在获取到多个第一单词和多个第二单词后，根据第一单词和第二单词之间的语义对应关系，构建第一语言短语和第二语言短语；

构建第一语言短语和第二语言短语的具体方法为：将第一语言文本的第一单词和第二语言文本的第二单词按照语义进行匹配对齐；若多个第一单词表达的语义与至少一个第二单词表达的语义相同，则将多个第一单词组成第一语言短语；若多个第二单词表达的语义与至少一个第一单词表达的语义相同，则将多个第二单词组成第二语言短语。其中，将第一语言文本的第一单词和第二语言文本的第二单词按照语义进行匹配对齐使用的工具为GIZA++。

举例来说，若多个第一单词为：I、am、a、student、of、university、of、Macau，多个第二单词为：我、是、澳、大、的、一、名、学、生，语义匹配对齐后的结果为“I”和“我”对齐，“am”和“是”对齐，“a”和“一、名”对齐，“student”和“学、生”对齐，“of”和“的”对齐，“university、of、Macau”和“澳、大”对齐。

语义匹配对齐后，若多个第一单词表达的语义与至少一个第二单词表达的语义相同，则将多个第一单词组成第一语言短语，比如：3个第一单词“university、of、Macau”表达的语义和2个第二单词“澳、大”表达的语义相同，则将3个第一单词组成第一语言短语“university of Macau”。同理，若多个第二单词表达的语义与至少一个第一单词表达的语义相同，则将多个第二单词组成第二语言短语，比如2个第二单词“澳、大”表达的语义与3个第一单词“university、of、Macau”表达的语义相同，则将2个第二单词“澳、大”组成第二语言短语“澳大”；又比如两个第二单词“学、生”表达的语义与一个第一单词“student”表达的语义相同，则将两个第二单词“学、生”组成第二语言短语“学生”。

在获取到多个第一语言短语和第二语言短语后，根据第一语言短语，生成第一语言词典，根据第二语言短语，生成第二语言词典，具体为：将第一语言短语添加到第一分词词典中，得到新的第一分词词典，将新的第一分词词典作为第一语言词典；将第二语言短语添加到第一分词词典中，得到新的第二分词词典，将新的第二分词词典作为第二语言词典。

经过上述过程后，便得到了第一语言词典和第二语言词典。

在得到了第一语言词典和第二语言词典，便可以采用第一语言词典，对第一语言文本重新进行分词，得到第一分词词语，根据第二语言词典，对第二语言文本重新进行分词，得到第二分词词语。

具体地，本实施例中优选通过最大匹配法，采用第一语言词典，对第一语言文本进行分词，得到第一分词词语，因为第一语言词典包括多个第一语言短语，所以第一分词词语中包含多个第一语言短语，或者说第一分词词语包括至少一个第一单词。比如对于英文文本“I am a student of university of Macau”通过最大匹配法、采用第一语言词典分词后得到的第一分词词语为：I、am、a、student、of、university of Macau。

同样，本实施例中优选通过最大匹配法，采用第二语言词典，对第二语言文本进行分词，得到第二分词词语，因为第二语言词典包括多个第二语言短语，所以第一分词词语中包含多个第二语言短语，或者第二分词词语包括至少一个第二单词。比如对于中文文本“我是澳大的一名学生”，通过最大匹配法、采用第二语言词典分词后得到的第二分词词语为：我、是、澳大、的、一名、学生。

其中，对于欧美语系的文本优选正向匹配法，对于亚洲语系的文本优选逆向匹配法和概率的结合。

步骤S103、采用非监督学习方法对第一分词词语和第二分词词语组成的平行语料进行训练，得到机器翻译模型，以使终端采用机器翻译模型进行第一语言和第二语言之间的翻译。

具体地，在对所有的第一语言文本通过第一语言词典分词及所有的第二语言文本通过第二语言词典分词后，会得到多个第一分词词语和第二分词词语，将多个第一分词词语和第二分词词语组成平行语料作为训练词语采用非监督学习方法进行训练，得到机器翻译模型，以使终端采用该机器翻译模型进行第一语言和第二语言之间的翻译。其中，非监督学习方法为现有技术中的方法，本实施例中不做赘述。

采用包含多个第一语言短语和第一语言词典对第一语言文本进行分词得到第一分词词语，采用包含多个第二语言短语和第二语言词典对第二语言文本进行分词得到多个第二分词词语，接着通过对第一分词词语和第二分词词语组成的训练词语进行训练得到机器翻译模型，由于短语的语义更丰富，与另一语言对应时更准确，在翻译的过程中不必重新匹配生成短语，且第一语言短语和第一语言短语是通过第一语言文本和第二语言文本语义对齐后得到的，因此，机器翻译采用该方法得到的机器翻译模型进行机器翻译，会使得翻译的准确度和速度大大提高。

本实施例的机器翻译模型的获取方法，包括获取多个双语句对文本，双语句对文本包括第一语言文本和与第一语言文本语义相同的第二语言文本，第一语言文本与第二语言文本属于不同的语言；根据第一语言词典，对第一语言文本进行分词，得到第一分词词语，根据第二语言词典，对第二语言文本进行分词，得到第二分词词语；其中，第一分词词语包括至少一个第一单词，第二分词词语包括至少一个第二单词；第一语言词典包括多个第一语言短语，第一语言短语包括多个第一单词，第二语言词典包括多个第二语言短语，第二语言短语包括多个第二单词；采用非监督学习方法对第一分词词语和第二分词词语组成的平行语料进行训练，得到机器翻译模型，以使终端采用机器翻译模型进行第一语言和第二语言之间的翻译。本实施的机器翻译模型的获取方法，使得获取的机器翻译模型在机器翻译的应用过程中，机器翻译速度和精度得到了提高。

另外，为了验证采用本发明的机器翻译模型获取方法获得的机器翻译模型在实际机器翻译过程中对机器翻译的影响，将采用本发明的方法得到的机器翻译模型进行机器翻译的结果与采用现有技术中的方法得到的机器翻译模型进行机器翻译的结果进行了比较，具体过程如下：

在比较过程中，双语句对本文来自CWMT 2013中提供的双语新闻数据(cwmt-corpora)包括的双语句对文本和澳门大学提供的UM-Corpus数据(Tian et al.,2014)包括的双语句对文本。其中cwmt-corpora共有330万句对，UM-Corpus包含4,157,556句对。上述两个数据进行合并去除重复和错误的对齐句子后，共计7,445,190句。在机器翻译过程中采用的3500句测试数据来自UM-Corpus中的全部数据。其中对双语和测试数据的具体信息如表1和表2所示。

表1.cwmt-corpora+UM-Corpus双语数据统计

语言	单词数	句子平均长度	词汇量
				英语	152,161,233	19.37	1,655,080
汉语	229,110,265	29.16	397,442

表2. 3500句UM-Corpus中的测试数据信息

语言	单词数	句子平均长度
			英语	68,172	23.62
汉语	92,989	30.74

分别选用以下几种方法对上述双语句对文本中文文本进行分词(1)基于词的分词，该方式下中文每个字作为一个独立的词(Character-based)；(2)中科院张华平博士的ICTCLAS分词(ICTCLAS)；(3)斯坦福采用宾夕法尼亚树训练的分词方法(Stanford-CWS_CTB)；(4)斯坦福采用人民日报训练的分词方法(Stanford-CWS_PKU)，英文文本的分词则是均采用现有的常规分词；对各方法分词后得到的训练词语采用相同的方法训练学习后得到4种机器翻译模型，分别采用4种机器翻译模型以3500句测试数据为依据进行翻译，得到的机器翻译结果见表3。

表3.基于不同分词方法得到的机器翻译结果

从表3可以看出，采用本发明的方法得到的机器翻译模型，在英文到中文的翻译中及中文到英文的翻译中，BLEUs分值均为最高，说明采用本发明的方法得到的机器翻译模型翻译准确度最高。

图2为本发明提供的机器翻译模型的获取装置实施例一的结构示意图，如图2所示，本实施例的装置可以包括：文本获取模块21、第一分词模块22和机器翻译模型获取模块23，其中，文本获取模块21用于获取多个双语句对文本，双语句对文本包括第一语言文本和与第一语言文本语义相同的第二语言文本，第一语言文本与第二语言文本属于不同的语言；第一分词模块22用于根据第一语言词典，对第一语言文本进行分词，得到第一分词词语，根据第二语言词典，对第二语言文本进行分词，得到第二分词词语；其中，第一分词词语包括至少一个第一单词，第二分词词语包括至少一个第二单词；第一语言词典包括多个第一语言短语，第一语言短语包括多个第一单词，第二语言词典包括多个第二语言短语，第二语言短语包括多个第二单词；机器翻译模型获取模块23用于采用非监督学习方法对第一分词词语和第二分词词语组成的平行语料进行训练，得到机器翻译模型，以使终端采用机器翻译模型进行第一语言和第二语言之间的翻译。

本实施例的装置，可以用于执行图1所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图3为本发明提供的机器翻译模型的获取装置实施例二的结构示意图，如图3所示，本实施例的装置在图2所示装置结构的基础上，进一步地，还可以包括：第二分词模块24、短语构建模块25和词典生成模块26；其中，第二分词模块24用于对第一语言文本进行分词，得到第一语言文本对应的多个第一单词，并对第二语言文本进行分词，得到第二语言文本对应的多个第二单词；短语构建模块25用于根据第一单词和第二单词之间的语义对应关系，构建第一语言短语和第二语言短语；词典生成模块26用于根据第一语言短语，生成第一语言词典，根据第二语言短语，生成第二语言词典。

其中，第二分词模块具体用于：根据第一分词词典，采用最大匹配分词法，对第一语言文本进行分词，得到多个第一单词；

根据第二分词词典，采用最大匹配分词法，对第二语言文本进行分词，得到多个第二单词。

短语构建模块具体用于：将第一语言文本的第一单词和第二语言文本的第二单词按照语义进行匹配对齐；

词典生成模块26具体用于将第一语言短语添加到第一分词词典中，得到新的第一分词词典，将新的第一分词词典作为第一语言词典；

根据第二语言短语，生成第二语言词典，包括：

将第二语言短语添加到第二分词词典中，得到新的第二分词词典，将新的第二分词词典作为第二语言词典。

本实施例的装置，可以用于执行如上所述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种机器翻译模型的获取方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据第一语言词典，对所述第一语言文本进行分词，得到第一分词词语，根据第二语言词典，对所述第二语言文本进行分词，得到第二分词词语之前，还包括：

3.根据权利要求2所述的方法，其特征在于，所述对所述第一语言文本进行分词，得到所述第一语言文本对应的多个第一单词，包括：

4.根据权利要求2所述的方法，其特征在于，所述根据所述第一单词和所述第二单词之间的语义对应关系，构建第一语言短语和第二语言短语，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述第一语言短语，生成第一语言词典，包括：

所述根据第二语言短语，生成第二语言词典，包括：

6.根据权利要求1～5任一项所述的方法，其特征在于，所述第一语言文本为亚洲语言文本，所述第一单词为单字。

7.一种机器翻译模型的获取装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

9.根据权利要求8所述的装置，其特征在于，所述第二分词模块具体用于：根据第一分词词典，采用最大匹配分词法，对所述第一语言文本进行分词，得到多个第一单词；

10.根据权利要求8所述的装置，其特征在于，所述短语构建模块具体用于：将所述第一语言文本的第一单词和所述第二语言文本的第二单词按照语义进行匹配对齐；