CN109960815B

CN109960815B - 一种神经机器翻译nmt模型的创建方法及系统

Info

Publication number: CN109960815B
Application number: CN201910235726.6A
Authority: CN
Inventors: 李涵; 张东生; 韩昊天; 刘纯燕
Original assignee: Henan University
Current assignee: Henan University
Priority date: 2019-03-27
Filing date: 2019-03-27
Publication date: 2022-12-09
Anticipated expiration: 2039-03-27
Also published as: CN109960815A

Abstract

本发明公开的神经机器翻译NMT模型的创建方法及系统，利用爬虫技术，从网络资源中获取一定数量的通用中英文对照语句，生成通用语料库，利用爬虫技术，从多套中英对照信息学科类电子书籍中获取一定数量的学科类中英文对照文本并将中英文本序列化，并对长度不一的学科类中英文对照语句依次进行调节，对调节后的序列进行翻译，将得到的翻译结果与对应的中文或英文做相似度匹配，将相似度大于设定阈值的句子设为专业语料库，生成专业语料库，利用通用语料库及专业语料库对序列到序列Seq2Seq模型进行训练，建立NMT模型，实现了专业领域文本的精确翻译，提高了翻译质量、满足了人们对专业领域文本的翻译需求。

Description

一种神经机器翻译NMT模型的创建方法及系统

技术领域

本发明涉及文本处理技术领域，具体涉及一种神经机器翻译NMT模型的创建方法及系统。

背景技术

现有的神经机器翻译系统(如谷歌、百度、搜狗等)通用性强，翻译质量和速度在一定程度上满足了人们对通用领域文本的翻译需求。然而，由于专业领域文本在语句形态、句法、词序、词库规模等方面与通用领域文本均有较大差异，导致错误或遗漏翻译专业领域文本的专有名词或罕见术语的现象屡见不鲜。

发明内容

为解决现有技术的不足，本发明实施例提供了一种神经机器翻译NMT模型的创建方法及系统。

第一方面，本发明实施例提供的神经机器翻译NMT模型的创建方法包括以下步骤：

S101，利用爬虫技术，从网络资源中获取一定数量的通用中英文对照语句，生成通用语料库；

S102，利用爬虫技术，从多套中英对照信息学科类电子书籍中获取一定数量的学科类中英文对照文本并将中英文本序列化，并对长度不一的学科类中英文对照语句依次进行调节，对调节后的序列进行翻译，将得到的翻译结果与对应的中文或英文做相似度匹配，将相似度大于设定阈值的句子设为专业语料库，生成专业语料库；

S103，根据通用翻译和专用翻译需求程度的不同，分别为所述通用语料库及所述专业语料库中设置相应的权重；

S104，利用所述通用语料库及所述专业语料库对序列到序列Seq2Seq模型进行训练，建立NMT模型。

进一步地，对长度不一的学科类中英文对照语句依次进行调节，对调节后的序列进行翻译，将得到的翻译结果与对应的中文或英文做相似度匹配，将相似度大于设定阈值的句子设为专业语料库，生成专业语料库包括以下步骤：

S201，利用文本相似度匹配算法，将所述学科类中英文对照文本中的第一中/英文翻译成对应的第二英/中文，利用通用语言模型计算所述第一中文与所述第二中文或所述第一英文与所述第二英文之间的文本相似度，得到第一文本相似度并判断所述第一文本相识度是否大于设定的阈值，若是，则组合所述第一中/英文与第二中/英文，生成第三中/英文，利用通用语言模型计算所述第一中文与所述第三中文或所述第一英文与所述第三英文之间的文本相似度，得到第二文本相似度；

S202，判断所述第二文本相似度的值是否大于所述第一文本相似度的值，若否，则判断所述第二文本相似度的值是否大于或等于设定的阈值，若否，则滤除所述第三中/英文及其对应的第一英/中文并依次选取下一组学科类中英对照语句并重复步骤S201；

S203，若所述第二文本相似度的值大于所述第一文本相似度的值，则重复步骤S201-S202，直至所述学科类中英文对照文本中所有学科类中英文对照语句调节完毕；

S204，若所述第一文本相识度小于设定的阈值，则滤除第一中/英文并重复步骤S201-S203。

进一步地，上述步骤S102还包括：

利用爬虫技术，从网络中获取一定数量的专业词汇、句子和文章的中英文对照文本并利用上述步骤S201-S204对所述中英文对照文本进行调整。

第二方面，本发明实施例提供的神经机器翻译NMT模型的创建系统包括：

获取模块，用于利用爬虫技术，从网络资源中获取一定数量的通用中英文对照语句，生成通用语料库；

调节模块，还用于利用爬虫技术，从多套中英对照信息学科类电子书籍中获取一定数量的学科类中英文对照文本并将中英文本序列化，并对长度不一的学科类中英文对照语句依次进行调节，对调节后的序列进行翻译，将得到的翻译结果与对应的中文或英文做相似度匹配，将相似度大于设定阈值的句子设为专业语料库，生成专业语料库；

设置模块，用于根据通用翻译和专用翻译需求程度的不同，分别为所述通用语料库及所述专业语料库中设置相应的权重；

训练模块，用于利用所述通用语料库及所述专业语料库对序列到序列Seq2Seq模型进行训练，建立NMT模型。

进一步地，所述调节模块包括：

翻译单元，用于利用文本相似度匹配算法，将所述学科类中英文对照文本中的第一中/英文翻译成对应的第二英/中文，利用通用语言模型计算所述第一中文与所述第二中文或所述第一英文与所述第二英文之间的文本相似度，得到第一文本相似度并判断所述第一文本相识度是否大于设定的阈值；

组合单元，用于则组合所述第一中/英文与第二中/英文，生成第三中/英文，利用通用语言模型计算所述第一中文与所述第三中文或所述第一英文与所述第三英文之间的文本相似度，得到第二文本相似度；

判断单元，用于判断所述第二文本相似度的值是否大于所述第一文本相似度的值，若否，则判断所述第二文本相似度的值是否大于或等于设定的阈值，若否，则滤除所述第三中/英文及其对应的第一英/中文并依次选取下一组学科类中英对照语句。

进一步地，所述获取模块还用于：

利用爬虫技术，从网络中获取一定数量的专业词汇、句子和文章的中英文对照文本。

本发明实施例提供的神经机器翻译NMT模型的创建方法及系统具有以下有益效果：

通过对专业语料库中的中英对应语句进行多次翻译、相似度匹配及扩充，保留了相似度达到设定阈值的中英对应语句，很好地解决了中英文翻译语句的对应关系，建立了良好的专业语料库，实现了专业领域文本的精确翻译，提高了翻译的精确度及质量、满足了人们对专业领域文本的翻译需求。

附图说明

图1为本发明实施例提供的神经机器翻译NMT模型的创建方法的流程示意图；

图2为本发明实施例提供的神经机器翻译NMT模型的创建方法的另一流程示意图；

图3为本发明实施例提供的神经机器翻译NMT模型的创建系统的结构示意图。

具体实施方式

以下结合附图和具体实施例对本发明作具体的介绍。

参见图1，本发明实施例提供的神经机器翻译NMT模型的创建方法包括以下步骤：

S101，利用爬虫技术，从网络资源中获取一定数量的通用中英文对照语句，生成通用语料库。

S102，利用爬虫技术，从多套中英对照信息学科类电子书籍中获取一定数量的学科类中英文对照文本并将中英文本序列化，并对长度不一的学科类中英文对照语句依次进行调节，对调节后的序列进行翻译，将得到的翻译结果与对应的中文或英文做相似度匹配，将相似度大于设定阈值的句子设为专业语料库，生成专业语料库。

S103，根据通用翻译和专用翻译需求程度的不同，分别为所述通用语料库及所述专业语料库中设置相应的权重。

作为一个具体的实施例，当专用翻译的需求程度较大时，可以设置通用语料库的权重为1、专业语料库的权重为2。

其中，序列到序列(Sequence to sequence，Seq2Seq)模型是一种通用的编码器—解码器框架，它能够很好的解决输入输出时语言序列不定长的问题，而且无需考虑语言序列顺序。

可选地，参见图2，对长度不一的学科类中英文对照语句依次进行调节，对调节后的序列进行翻译，将得到的翻译结果与对应的中文或英文做相似度匹配，将相似度大于设定阈值的句子设为专业语料库，生成专业语料库包括以下步骤：

S201，利用文本相似度匹配算法，将所述学科类中英文对照文本中的第一中/英文翻译成对应的第二英/中文，利用通用语言模型计算所述第一中文与所述第二中文或所述第一英文与所述第二英文之间的文本相似度，得到第一文本相似度并判断所述第一文本相识度是否大于设定的阈值，若是，则组合所述第一中/英文与第二中/英文，生成第三中/英文，利用通用语言模型计算所述第一中文与所述第三中文或所述第一英文与所述第三英文之间的文本相似度，得到第二文本相似度。

S202，判断所述第二文本相似度的值是否大于所述第一文本相似度的值，若否，则判断所述第二文本相似度的值是否大于或等于设定的阈值，若否，则滤除所述第三中/英文及其对应的第一英/中文并依次选取下一组学科类中英对照语句并重复步骤S201。

S203，若所述第二文本相似度的值大于所述第一文本相似度的值，则重复步骤S201-S202，直至所述学科类中英文对照文本中所有学科类中英文对照语句调节完毕。

作为一个具体的实施例，针对序列化后形成的中文语句1与对应的英文语句1、中文语句2与对应的英文语句2…中文语句n与对应的英文语句n，以中到英翻译为例，先选出中文语句1和英文语句1，利用google通用翻译框架把英文语句1翻译成中文语句1’，然后再利用现有百度自然语言处理模型将中文语句1和中文语句1’进行文本相似度匹配，若两个中文语句的相似度为80％，则将英文语句2和英文语句1组合并将该组合翻译为中文语句1’，再次计算中文语句1和中文语句1’的文本相似度，若相似度大于80％，则将英文语句继续扩展至英文语句3、4…，如此循环不断地将扩展后的组合进行翻译并与中文语句1进行文本相似度的计算。当扩展至英文语句n时，发现中文语句n与中文语句1之间的文本相似度小于中文语句n-1与中文语句1之间文本相似度且中文语句n与中文语句1之间的文本相似度大于或等于80％，则保留扩展至英文语句n-1时的中英语句对应关系(即中文语句1、英文语句1、英文语句、…英文语句n-1)，此时，一组专业语料完成；若发现中文语句n与中文语句1之间的文本相似度小于中文语句n-1与中文语句1之间文本相似度且中文语句n与中文语句1之间的文本相似度小于80％，则舍弃扩展至英文语句n-1时的中英语句对应关系，依次选取下一组中英语句(即中文语句2和英文语句n)进行翻译和相似度匹配，重复上述过程直至语句取尽，则专业语料库部分建成，选取下一套中英对照信息学科类电子书籍中继续进行专业语料库的填充。

可选地，上述步骤S102还包括：

如图3所示，本发明实施例提供的神经机器翻译NMT模型的创建系统包括：

进一步地，所述调节模块包括：

进一步地，所述获取模块还用于：

本发明实施例提供的神经机器翻译NMT模型的创建方法及系统，利用爬虫技术，从网络资源中获取一定数量的通用中英文对照语句，生成通用语料库，利用爬虫技术，从多套中英对照信息学科类电子书籍中获取一定数量的学科类中英文对照文本并将中英文本序列化，并对长度不一的学科类中英文对照语句依次进行调节，对调节后的序列进行翻译，将得到的翻译结果与对应的中文或英文做相似度匹配，将相似度大于设定阈值的句子设为专业语料库，生成专业语料库，根据通用翻译和专用翻译需求程度的不同，分别为通用语料库及专业语料库中设置相应的权重，利用通用语料库及专业语料库对序列到序列Seq2Seq模型进行训练，建立NMT模型，实现了专业领域文本的精确翻译，提高了翻译质量、满足了人们对专业领域文本的翻译需求，解决了现有翻译模型存在的翻译精确度及质量低、不能满足人们对专业领域文本的翻译需求的缺陷。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

可以理解的是，上述方法及装置中的相关特征可以相互参考。另外，上述实施例中的“第一”、“第二”等是用于区分各实施例，而并不代表各实施例的优劣。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

此外，存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种神经机器翻译NMT模型的创建方法，其特征在于，包括：

S204，若所述第一文本相识度小于设定的阈值，则滤除第一中/英文并重复步骤S201-S203；

2.根据权利要求1所述的神经机器翻译NMT模型的创建方法，其特征在于，上述步骤S102还包括：

3.一种神经机器翻译NMT模型的创建系统，其特征在于，包括：

判断单元，用于判断所述第二文本相似度的值是否大于所述第一文本相似度的值，若否，则判断所述第二文本相似度的值是否大于或等于设定的阈值，若否，则滤除所述第三中/英文及其对应的第一英/中文并依次选取下一组学科类中英对照语句；

4.根据权利要求3所述的神经机器翻译NMT模型的创建系统，其特征在于，所述获取模块还用于：