CN109960815A - 一种神经机器翻译nmt模型的创建方法及系统 - Google Patents

一种神经机器翻译nmt模型的创建方法及系统 Download PDF

Info

Publication number
CN109960815A
CN109960815A CN201910235726.6A CN201910235726A CN109960815A CN 109960815 A CN109960815 A CN 109960815A CN 201910235726 A CN201910235726 A CN 201910235726A CN 109960815 A CN109960815 A CN 109960815A
Authority
CN
China
Prior art keywords
english
text
chinese
corpus
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910235726.6A
Other languages
English (en)
Other versions
CN109960815B (zh
Inventor
李涵
张东生
韩昊天
刘纯燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan University
Original Assignee
Henan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan University filed Critical Henan University
Priority to CN201910235726.6A priority Critical patent/CN109960815B/zh
Publication of CN109960815A publication Critical patent/CN109960815A/zh
Application granted granted Critical
Publication of CN109960815B publication Critical patent/CN109960815B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/49Data-driven translation using very large corpora, e.g. the web

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开的神经机器翻译NMT模型的创建方法及系统,利用爬虫技术,从网络资源中获取一定数量的通用中英文对照语句,生成通用语料库,利用爬虫技术,从多套中英对照信息学科类电子书籍中获取一定数量的学科类中英文对照文本并将中英文本序列化,并对长度不一的学科类中英文对照语句依次进行调节,对调节后的序列进行翻译,将得到的翻译结果与对应的中文或英文做相似度匹配,将相似度大于设定阈值的句子设为专业语料库,生成专业语料库,利用通用语料库及专业语料库对序列到序列Seq2Seq模型进行训练,建立NMT模型,实现了专业领域文本的精确翻译,提高了翻译质量、满足了人们对专业领域文本的翻译需求。

Description

一种神经机器翻译NMT模型的创建方法及系统
技术领域
本发明涉及文本处理技术领域,具体涉及一种神经机器翻译NMT模型的创建方法及系统。
背景技术
现有的神经机器翻译系统(如谷歌、百度、搜狗等)通用性强,翻译质量和速度在一定程度上满足了人们对通用领域文本的翻译需求。然而,由于专业领域文本在语句形态、句法、词序、词库规模等方面与通用领域文本均有较大差异,导致错误或遗漏翻译专业领域文本的专有名词或罕见术语的现象屡见不鲜。
发明内容
为解决现有技术的不足,本发明实施例提供了一种神经机器翻译NMT模型的创建方法及系统。
第一方面,本发明实施例提供的神经机器翻译NMT模型的创建方法包括以下步骤:
S101,利用爬虫技术,从网络资源中获取一定数量的通用中英文对照语句,生成通用语料库;
S102,利用爬虫技术,从多套中英对照信息学科类电子书籍中获取一定数量的学科类中英文对照文本并将中英文本序列化,并对长度不一的学科类中英文对照语句依次进行调节,对调节后的序列进行翻译,将得到的翻译结果与对应的中文或英文做相似度匹配,将相似度大于设定阈值的句子设为专业语料库,生成专业语料库;
S103,根据通用翻译和专用翻译需求程度的不同,分别为所述通用语料库及所述专业语料库中设置相应的权重;
S104,利用所述通用语料库及所述专业语料库对序列到序列Seq2Seq模型进行训练,建立NMT模型。
进一步地,对长度不一的学科类中英文对照语句依次进行调节,对调节后的序列进行翻译,将得到的翻译结果与对应的中文或英文做相似度匹配,将相似度大于设定阈值的句子设为专业语料库,生成专业语料库包括以下步骤:
S201,利用文本相似度匹配算法,将所述学科类中英文对照文本中的第一中/英文翻译成对应的第二英/中文,利用通用语言模型计算所述第一中文与所述第二中文或所述第一英文与所述第二英文之间的文本相似度,得到第一文本相似度并判断所述第一文本相识度是否大于设定的阈值,若是,则组合所述第一中/英文与第二中/英文,生成第三中/英文,利用通用语言模型计算所述第一中文与所述第三中文或所述第一英文与所述第三英文之间的文本相似度,得到第二文本相似度;
S202,判断所述第二文本相似度的值是否大于所述第一文本相似度的值,若否,则判断所述第二文本相似度的值是否大于或等于设定的阈值,若否,则滤除所述第三中/英文及其对应的第一英/中文并依次选取下一组学科类中英对照语句并重复步骤S201;
S203,若所述第二文本相似度的值大于所述第一文本相似度的值,则重复步骤S201-S202,直至所述学科类中英文对照文本中所有学科类中英文对照语句调节完毕;
S204,若所述第一文本相识度小于设定的阈值,则滤除第一中/英文并重复步骤S201-S203。
进一步地,上述步骤S102还包括:
利用爬虫技术,从网络中获取一定数量的专业词汇、句子和文章的中英文对照文本并利用上述步骤S201-S204对所述中英文对照文本进行调整。
第二方面,本发明实施例提供的神经机器翻译NMT模型的创建系统包括:
获取模块,用于利用爬虫技术,从网络资源中获取一定数量的通用中英文对照语句,生成通用语料库;
调节模块,还用于利用爬虫技术,从多套中英对照信息学科类电子书籍中获取一定数量的学科类中英文对照文本并将中英文本序列化,并对长度不一的学科类中英文对照语句依次进行调节,对调节后的序列进行翻译,将得到的翻译结果与对应的中文或英文做相似度匹配,将相似度大于设定阈值的句子设为专业语料库,生成专业语料库;
设置模块,用于根据通用翻译和专用翻译需求程度的不同,分别为所述通用语料库及所述专业语料库中设置相应的权重;
训练模块,用于利用所述通用语料库及所述专业语料库对序列到序列Seq2Seq模型进行训练,建立NMT模型。
进一步地,所述调节模块包括:
翻译单元,用于利用文本相似度匹配算法,将所述学科类中英文对照文本中的第一中/英文翻译成对应的第二英/中文,利用通用语言模型计算所述第一中文与所述第二中文或所述第一英文与所述第二英文之间的文本相似度,得到第一文本相似度并判断所述第一文本相识度是否大于设定的阈值;
组合单元,用于则组合所述第一中/英文与第二中/英文,生成第三中/英文,利用通用语言模型计算所述第一中文与所述第三中文或所述第一英文与所述第三英文之间的文本相似度,得到第二文本相似度;
判断单元,用于判断所述第二文本相似度的值是否大于所述第一文本相似度的值,若否,则判断所述第二文本相似度的值是否大于或等于设定的阈值,若否,则滤除所述第三中/英文及其对应的第一英/中文并依次选取下一组学科类中英对照语句。
进一步地,所述获取模块还用于:
利用爬虫技术,从网络中获取一定数量的专业词汇、句子和文章的中英文对照文本。
本发明实施例提供的神经机器翻译NMT模型的创建方法及系统具有以下有益效果:
通过对专业语料库中的中英对应语句进行多次翻译、相似度匹配及扩充,保留了相似度达到设定阈值的中英对应语句,很好地解决了中英文翻译语句的对应关系,建立了良好的专业语料库,实现了专业领域文本的精确翻译,提高了翻译的精确度及质量、满足了人们对专业领域文本的翻译需求。
附图说明
图1为本发明实施例提供的神经机器翻译NMT模型的创建方法的流程示意图;
图2为本发明实施例提供的神经机器翻译NMT模型的创建方法的另一流程示意图;
图3为本发明实施例提供的神经机器翻译NMT模型的创建系统的结构示意图。
具体实施方式
以下结合附图和具体实施例对本发明作具体的介绍。
参见图1,本发明实施例提供的神经机器翻译NMT模型的创建方法包括以下步骤:
S101,利用爬虫技术,从网络资源中获取一定数量的通用中英文对照语句,生成通用语料库。
S102,利用爬虫技术,从多套中英对照信息学科类电子书籍中获取一定数量的学科类中英文对照文本并将中英文本序列化,并对长度不一的学科类中英文对照语句依次进行调节,对调节后的序列进行翻译,将得到的翻译结果与对应的中文或英文做相似度匹配,将相似度大于设定阈值的句子设为专业语料库,生成专业语料库。
S103,根据通用翻译和专用翻译需求程度的不同,分别为所述通用语料库及所述专业语料库中设置相应的权重。
作为一个具体的实施例,当专用翻译的需求程度较大时,可以设置通用语料库的权重为1、专业语料库的权重为2。
S104,利用所述通用语料库及所述专业语料库对序列到序列Seq2Seq模型进行训练,建立NMT模型。
其中,序列到序列(Sequence to sequence,Seq2Seq)模型是一种通用的编码器—解码器框架,它能够很好的解决输入输出时语言序列不定长的问题,而且无需考虑语言序列顺序。
可选地,参见图2,对长度不一的学科类中英文对照语句依次进行调节,对调节后的序列进行翻译,将得到的翻译结果与对应的中文或英文做相似度匹配,将相似度大于设定阈值的句子设为专业语料库,生成专业语料库包括以下步骤:
S201,利用文本相似度匹配算法,将所述学科类中英文对照文本中的第一中/英文翻译成对应的第二英/中文,利用通用语言模型计算所述第一中文与所述第二中文或所述第一英文与所述第二英文之间的文本相似度,得到第一文本相似度并判断所述第一文本相识度是否大于设定的阈值,若是,则组合所述第一中/英文与第二中/英文,生成第三中/英文,利用通用语言模型计算所述第一中文与所述第三中文或所述第一英文与所述第三英文之间的文本相似度,得到第二文本相似度。
S202,判断所述第二文本相似度的值是否大于所述第一文本相似度的值,若否,则判断所述第二文本相似度的值是否大于或等于设定的阈值,若否,则滤除所述第三中/英文及其对应的第一英/中文并依次选取下一组学科类中英对照语句并重复步骤S201。
S203,若所述第二文本相似度的值大于所述第一文本相似度的值,则重复步骤S201-S202,直至所述学科类中英文对照文本中所有学科类中英文对照语句调节完毕。
S204,若所述第一文本相识度小于设定的阈值,则滤除第一中/英文并重复步骤S201-S203。
作为一个具体的实施例,针对序列化后形成的中文语句1与对应的英文语句1、中文语句2与对应的英文语句2…中文语句n与对应的英文语句n,以中到英翻译为例,先选出中文语句1和英文语句1,利用google通用翻译框架把英文语句1翻译成中文语句1’,然后再利用现有百度自然语言处理模型将中文语句1和中文语句1’进行文本相似度匹配,若两个中文语句的相似度为80%,则将英文语句2和英文语句1组合并将该组合翻译为中文语句1’,再次计算中文语句1和中文语句1’的文本相似度,若相似度大于80%,则将英文语句继续扩展至英文语句3、4…,如此循环不断地将扩展后的组合进行翻译并与中文语句1进行文本相似度的计算。当扩展至英文语句n时,发现中文语句n与中文语句1之间的文本相似度小于中文语句n-1与中文语句1之间文本相似度且中文语句n与中文语句1之间的文本相似度大于或等于80%,则保留扩展至英文语句n-1时的中英语句对应关系(即中文语句1、英文语句1、英文语句、…英文语句n-1),此时,一组专业语料完成;若发现中文语句n与中文语句1之间的文本相似度小于中文语句n-1与中文语句1之间文本相似度且中文语句n与中文语句1之间的文本相似度小于80%,则舍弃扩展至英文语句n-1时的中英语句对应关系,依次选取下一组中英语句(即中文语句2和英文语句n)进行翻译和相似度匹配,重复上述过程直至语句取尽,则专业语料库部分建成,选取下一套中英对照信息学科类电子书籍中继续进行专业语料库的填充。
可选地,上述步骤S102还包括:
利用爬虫技术,从网络中获取一定数量的专业词汇、句子和文章的中英文对照文本并利用上述步骤S201-S204对所述中英文对照文本进行调整。
如图3所示,本发明实施例提供的神经机器翻译NMT模型的创建系统包括:
获取模块,用于利用爬虫技术,从网络资源中获取一定数量的通用中英文对照语句,生成通用语料库;
调节模块,还用于利用爬虫技术,从多套中英对照信息学科类电子书籍中获取一定数量的学科类中英文对照文本并将中英文本序列化,并对长度不一的学科类中英文对照语句依次进行调节,对调节后的序列进行翻译,将得到的翻译结果与对应的中文或英文做相似度匹配,将相似度大于设定阈值的句子设为专业语料库,生成专业语料库;
设置模块,用于根据通用翻译和专用翻译需求程度的不同,分别为所述通用语料库及所述专业语料库中设置相应的权重;
训练模块,用于利用所述通用语料库及所述专业语料库对序列到序列Seq2Seq模型进行训练,建立NMT模型。
进一步地,所述调节模块包括:
翻译单元,用于利用文本相似度匹配算法,将所述学科类中英文对照文本中的第一中/英文翻译成对应的第二英/中文,利用通用语言模型计算所述第一中文与所述第二中文或所述第一英文与所述第二英文之间的文本相似度,得到第一文本相似度并判断所述第一文本相识度是否大于设定的阈值;
组合单元,用于则组合所述第一中/英文与第二中/英文,生成第三中/英文,利用通用语言模型计算所述第一中文与所述第三中文或所述第一英文与所述第三英文之间的文本相似度,得到第二文本相似度;
判断单元,用于判断所述第二文本相似度的值是否大于所述第一文本相似度的值,若否,则判断所述第二文本相似度的值是否大于或等于设定的阈值,若否,则滤除所述第三中/英文及其对应的第一英/中文并依次选取下一组学科类中英对照语句。
进一步地,所述获取模块还用于:
利用爬虫技术,从网络中获取一定数量的专业词汇、句子和文章的中英文对照文本。
本发明实施例提供的神经机器翻译NMT模型的创建方法及系统,利用爬虫技术,从网络资源中获取一定数量的通用中英文对照语句,生成通用语料库,利用爬虫技术,从多套中英对照信息学科类电子书籍中获取一定数量的学科类中英文对照文本并将中英文本序列化,并对长度不一的学科类中英文对照语句依次进行调节,对调节后的序列进行翻译,将得到的翻译结果与对应的中文或英文做相似度匹配,将相似度大于设定阈值的句子设为专业语料库,生成专业语料库,根据通用翻译和专用翻译需求程度的不同,分别为通用语料库及专业语料库中设置相应的权重,利用通用语料库及专业语料库对序列到序列Seq2Seq模型进行训练,建立NMT模型,实现了专业领域文本的精确翻译,提高了翻译质量、满足了人们对专业领域文本的翻译需求,解决了现有翻译模型存在的翻译精确度及质量低、不能满足人们对专业领域文本的翻译需求的缺陷。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
可以理解的是,上述方法及装置中的相关特征可以相互参考。另外,上述实施例中的“第一”、“第二”等是用于区分各实施例,而并不代表各实施例的优劣。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
此外,存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (6)

1.一种神经机器翻译NMT模型的创建方法,其特征在于,包括:
S101,利用爬虫技术,从网络资源中获取一定数量的通用中英文对照语句,生成通用语料库;
S102,利用爬虫技术,从多套中英对照信息学科类电子书籍中获取一定数量的学科类中英文对照文本并将中英文本序列化,并对长度不一的学科类中英文对照语句依次进行调节,对调节后的序列进行翻译,将得到的翻译结果与对应的中文或英文做相似度匹配,将相似度大于设定阈值的句子设为专业语料库,生成专业语料库;
S103,根据通用翻译和专用翻译需求程度的不同,分别为所述通用语料库及所述专业语料库中设置相应的权重;
S104,利用所述通用语料库及所述专业语料库对序列到序列Seq2Seq模型进行训练,建立NMT模型。
2.根据权利要求1所述的神经机器翻译NMT模型的创建方法,其特征在于,对长度不一的学科类中英文对照语句依次进行调节,对调节后的序列进行翻译,将得到的翻译结果与对应的中文或英文做相似度匹配,将相似度大于设定阈值的句子设为专业语料库,生成专业语料库包括:
S201,利用文本相似度匹配算法,将所述学科类中英文对照文本中的第一中/英文翻译成对应的第二英/中文,利用通用语言模型计算所述第一中文与所述第二中文或所述第一英文与所述第二英文之间的文本相似度,得到第一文本相似度并判断所述第一文本相识度是否大于设定的阈值,若是,则组合所述第一中/英文与第二中/英文,生成第三中/英文,利用通用语言模型计算所述第一中文与所述第三中文或所述第一英文与所述第三英文之间的文本相似度,得到第二文本相似度;
S202,判断所述第二文本相似度的值是否大于所述第一文本相似度的值,若否,则判断所述第二文本相似度的值是否大于或等于设定的阈值,若否,则滤除所述第三中/英文及其对应的第一英/中文并依次选取下一组学科类中英对照语句并重复步骤S201;
S203,若所述第二文本相似度的值大于所述第一文本相似度的值,则重复步骤S201-S202,直至所述学科类中英文对照文本中所有学科类中英文对照语句调节完毕;
S204,若所述第一文本相识度小于设定的阈值,则滤除第一中/英文并重复步骤S201-S203。
3.根据权利要求1所述的神经机器翻译NMT模型的创建方法,其特征在于,上述步骤S102还包括:
利用爬虫技术,从网络中获取一定数量的专业词汇、句子和文章的中英文对照文本并利用上述步骤S201-S204对所述中英文对照文本进行调整。
4.一种神经机器翻译NMT模型的创建系统,其特征在于,包括:
获取模块,用于利用爬虫技术,从网络资源中获取一定数量的通用中英文对照语句,生成通用语料库;
调节模块,还用于利用爬虫技术,从多套中英对照信息学科类电子书籍中获取一定数量的学科类中英文对照文本并将中英文本序列化,并对长度不一的学科类中英文对照语句依次进行调节,对调节后的序列进行翻译,将得到的翻译结果与对应的中文或英文做相似度匹配,将相似度大于设定阈值的句子设为专业语料库,生成专业语料库;
设置模块,用于根据通用翻译和专用翻译需求程度的不同,分别为所述通用语料库及所述专业语料库中设置相应的权重;
训练模块,用于利用所述通用语料库及所述专业语料库对序列到序列Seq2Seq模型进行训练,建立NMT模型。
5.根据权利要求4所述的神经机器翻译NMT模型的创建系统,其特征在于,所述调节模块包括:
翻译单元,用于利用文本相似度匹配算法,将所述学科类中英文对照文本中的第一中/英文翻译成对应的第二英/中文,利用通用语言模型计算所述第一中文与所述第二中文或所述第一英文与所述第二英文之间的文本相似度,得到第一文本相似度并判断所述第一文本相识度是否大于设定的阈值;
组合单元,用于则组合所述第一中/英文与第二中/英文,生成第三中/英文,利用通用语言模型计算所述第一中文与所述第三中文或所述第一英文与所述第三英文之间的文本相似度,得到第二文本相似度;
判断单元,用于判断所述第二文本相似度的值是否大于所述第一文本相似度的值,若否,则判断所述第二文本相似度的值是否大于或等于设定的阈值,若否,则滤除所述第三中/英文及其对应的第一英/中文并依次选取下一组学科类中英对照语句。
6.根据权利要求4所述的神经机器翻译NMT模型的创建系统,其特征在于,所述获取模块还用于:
利用爬虫技术,从网络中获取一定数量的专业词汇、句子和文章的中英文对照文本。
CN201910235726.6A 2019-03-27 2019-03-27 一种神经机器翻译nmt模型的创建方法及系统 Active CN109960815B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910235726.6A CN109960815B (zh) 2019-03-27 2019-03-27 一种神经机器翻译nmt模型的创建方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910235726.6A CN109960815B (zh) 2019-03-27 2019-03-27 一种神经机器翻译nmt模型的创建方法及系统

Publications (2)

Publication Number Publication Date
CN109960815A true CN109960815A (zh) 2019-07-02
CN109960815B CN109960815B (zh) 2022-12-09

Family

ID=67024927

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910235726.6A Active CN109960815B (zh) 2019-03-27 2019-03-27 一种神经机器翻译nmt模型的创建方法及系统

Country Status (1)

Country Link
CN (1) CN109960815B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110334362A (zh) * 2019-07-12 2019-10-15 北京百奥知信息科技有限公司 一种基于医学神经机器翻译的解决产生未翻译单词的方法
CN110765784A (zh) * 2019-09-12 2020-02-07 内蒙古工业大学 一种基于对偶学习的蒙汉机器翻译方法
CN110837741A (zh) * 2019-11-14 2020-02-25 北京小米智能科技有限公司 一种机器翻译方法、装置及系统
CN113449074A (zh) * 2021-06-22 2021-09-28 重庆长安汽车股份有限公司 一种含专有名词的句子向量相似度匹配优化方法、装置及存储介质
CN113836901A (zh) * 2021-09-14 2021-12-24 灵犀量子(北京)医疗科技有限公司 一种中英文医学同义词数据清洗方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2661535A1 (en) * 2006-08-18 2008-02-21 National Research Council Of Canada Means and method for training a statistical machine translation system
CN106570171A (zh) * 2016-11-03 2017-04-19 中国电子科技集团公司第二十八研究所 一种基于语义的科技情报处理方法及系统
CN106874263A (zh) * 2017-01-17 2017-06-20 中译语通科技(北京)有限公司 一种基于多维度数据分析和语义的中英语料库校对方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2661535A1 (en) * 2006-08-18 2008-02-21 National Research Council Of Canada Means and method for training a statistical machine translation system
CN106570171A (zh) * 2016-11-03 2017-04-19 中国电子科技集团公司第二十八研究所 一种基于语义的科技情报处理方法及系统
CN106874263A (zh) * 2017-01-17 2017-06-20 中译语通科技(北京)有限公司 一种基于多维度数据分析和语义的中英语料库校对方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
巫振新等: "专业语料库建立及其在机器翻译中的应用", 《微型电脑应用》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110334362A (zh) * 2019-07-12 2019-10-15 北京百奥知信息科技有限公司 一种基于医学神经机器翻译的解决产生未翻译单词的方法
CN110334362B (zh) * 2019-07-12 2023-04-07 北京百奥知信息科技有限公司 一种基于医学神经机器翻译的解决产生未翻译单词的方法
CN110765784A (zh) * 2019-09-12 2020-02-07 内蒙古工业大学 一种基于对偶学习的蒙汉机器翻译方法
CN110837741A (zh) * 2019-11-14 2020-02-25 北京小米智能科技有限公司 一种机器翻译方法、装置及系统
CN110837741B (zh) * 2019-11-14 2023-11-07 北京小米智能科技有限公司 一种机器翻译方法、装置及系统
CN113449074A (zh) * 2021-06-22 2021-09-28 重庆长安汽车股份有限公司 一种含专有名词的句子向量相似度匹配优化方法、装置及存储介质
CN113836901A (zh) * 2021-09-14 2021-12-24 灵犀量子(北京)医疗科技有限公司 一种中英文医学同义词数据清洗方法及系统
CN113836901B (zh) * 2021-09-14 2023-11-14 灵犀量子(北京)医疗科技有限公司 一种中英文医学同义词数据清洗方法及系统

Also Published As

Publication number Publication date
CN109960815B (zh) 2022-12-09

Similar Documents

Publication Publication Date Title
CN109960815A (zh) 一种神经机器翻译nmt模型的创建方法及系统
KR102117799B1 (ko) 단어 벡터 처리 방법 및 장치
JP7457125B2 (ja) 翻訳方法、装置、電子機器及びコンピュータプログラム
CN108874765B (zh) 词向量处理方法及装置
US10831993B2 (en) Method and apparatus for constructing binary feature dictionary
JP2004362249A (ja) 翻訳知識最適化装置、翻訳知識最適化のためのコンピュータプログラム、コンピュータ及び記憶媒体
CN106610931B (zh) 话题名称的提取方法及装置
CN113590761B (zh) 文本处理模型的训练方法、文本处理方法及相关设备
Kenny Human and machine translation
CN111079944B (zh) 迁移学习模型解释实现方法及装置、电子设备、存储介质
CN109597983A (zh) 一种拼写纠错方法及装置
CN110532575A (zh) 文本翻译方法及装置
CN112101526A (zh) 基于知识蒸馏的模型训练方法及装置
WO2017051256A2 (en) Method and system of performing a translation
CN109597982A (zh) 摘要文本识别方法及装置
CN116166236A (zh) 代码推荐方法、装置、计算机设备及存储介质
CN110019784A (zh) 一种文本分类方法及装置
CN112651226B (zh) 基于依存句法树的知识解析系统及方法
CN107247704B (zh) 词向量处理方法、装置以及电子设备
WO2014107265A1 (en) Method and apparatus for performing bilingual word alignment
CN111062204B (zh) 基于机器学习的文本标点符号使用错误的识别方法和装置
CN107577658B (zh) 词向量处理方法、装置以及电子设备
CN112256841B (zh) 文本匹配和对抗文本识别方法、装置及设备
CN111126066B (zh) 基于神经网络的中文修辞手法的确定方法和装置
CN106649364B (zh) 一种表格目标列定位方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant