CN110489762B - 基于神经网络机器翻译的术语翻译方法、存储介质和装置 - Google Patents

基于神经网络机器翻译的术语翻译方法、存储介质和装置 Download PDF

Info

Publication number
CN110489762B
CN110489762B CN201910562117.1A CN201910562117A CN110489762B CN 110489762 B CN110489762 B CN 110489762B CN 201910562117 A CN201910562117 A CN 201910562117A CN 110489762 B CN110489762 B CN 110489762B
Authority
CN
China
Prior art keywords
term
translation
translated
library
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910562117.1A
Other languages
English (en)
Other versions
CN110489762A (zh
Inventor
宗浩
于洋
程国艮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Glabal Tone Communication Technology Co ltd
Original Assignee
Glabal Tone Communication Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Glabal Tone Communication Technology Co ltd filed Critical Glabal Tone Communication Technology Co ltd
Priority to CN201910562117.1A priority Critical patent/CN110489762B/zh
Publication of CN110489762A publication Critical patent/CN110489762A/zh
Application granted granted Critical
Publication of CN110489762B publication Critical patent/CN110489762B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)

Abstract

本发明涉及机器翻译领域,公开了一种基于神经网络机器翻译的术语翻译方法,包括如下步骤:(1)以键值对(key,value)数据格式定义术语库;(2)若待译语句中任一词汇包含在所述术语库的key值中,则用术语库中对应的value值进行术语翻译;(3)整体返回术语翻译后的结果。本发明还提供了一种存储介质及一种基于神经网络机器翻译的术语翻译装置。本发明能够提高神经网络机器翻译的术语翻译效果,提高术语翻译的准确率。

Description

基于神经网络机器翻译的术语翻译方法、存储介质和装置
技术领域
本发明涉及机器翻译领域,具体地涉及一种基于神经网络机器翻译的术语翻译方法。本发明还涉及一种存储介质和一种神经网络机器翻译装置。
背景技术
在神经网络机器翻译中,翻译完全依赖神经网络模型生成的结果,人工不可干预,虽然翻译质量上相比以往的统计机器翻译有大幅度提高,但是在翻译过程中的人工可干预程度不如统计机器翻译。所以遇见一些已知的翻译错误,神经网络机器翻译只能通过重新训练模型或者增量训练来优化,而不能立即制定相应规则进行解决。术语翻译就属于这其中非常重要的一项内容。
术语翻译是指针对一些具有规定翻译方法的词汇或词组,这些词汇或词组往往在篇章或句子中有着特定的翻译,这种翻译与上下文关系密切。例如“crane”在机械领域往往应该翻译成“起重机”而不是“鹤”。在我们确定的领域进行翻译的时候,指定这些术语词汇的翻译就成为一项非常重要的工作。
现有的术语翻译的主要方法还是依赖将术语当成未知词输入到神经网络机器翻译模型的编码器中,通常情况在解码器中也会存在相同的未知词标记,这样再替换成相应的术语翻译即可达到想要的术语翻译的结果。
然而现有技术有两个致命的缺点:1.无法保证翻译的质量,在一句话存在术语较多的情况下翻译质量明显下降。2.可能会有术语无法翻译的情况,由于是将未知词标记输入到编码器中,解码器会在部分情况下不输出未知词标记的情况,导致最终术语无法按照指定的解释进行翻译。
发明内容
本发明所要解决的技术问题是主要解决传统神经网络机器翻译中,术语翻译翻译质量低、甚至无法得到正确翻译结果的问题,提高神经网络机器翻译的术语翻译质量。
为了实现上述目的,本发明第一方面提供一种基于神经网络机器翻译的术语翻译方法,包括如下步骤:(1)以键值对(key,value)数据格式定义术语库;(2)若待译语句中任一词汇包含在所述术语库的key值中,则用术语库中对应的value值进行术语翻译,步骤(2)中所述术语翻译,通过集束搜索算法进行,所述术语翻译的过程包括:将术语库中的术语译文词汇加入到集束搜索的候选集中,将所述术语译文词汇加入到集束搜索的候选集中的过程包括:如原候选集中已有待译词汇的译文词汇,则将该译文词汇全部替换为所述术语译文词汇;如原候选集中无所述译文词汇,则根据集束搜索产生的对齐信息,将所述术语译文词汇的对齐词汇替换成标记符;(3)整体返回术语翻译后的结果。
优选地,步骤(1)中所述术语库key中存储的待译术语词汇经过预处理。在该优选技术方案中,经过预处理将待译术语词汇进行规范和整理,便于待译术语词汇的存储和搜索。
进一步优选地,所述预处理包括分词和子词切分。在该优选技术方案中,通过分词和子词切分,将待译术语词汇分解为最小子词单元,能够保证术语翻译的准确性,并减小术语库的存储量。
本发明第二方面提供一种存储介质,所述存储介质内存储有实现本发明第一方面所提供的基于神经网络机器翻译的术语翻译方法的程序。
本发明第三方面提供一种基于神经网络机器翻译的术语翻译装置,包括:术语库定义模块,用于;以键值对(key,value)数据格式定义术语库;翻译模块,用于以术语库中对应的术语译文词汇翻译包含术语库的术语的待翻译句子;译码模块,用于将术语翻译的结果整体返回。
优选地,本发明的基于神经网络机器翻译的术语翻译装置还包括预处理模块,用于对待译术语进行预处理。在该优选技术方案中,通过对待译术语的预处理,能够减小术语库的大小,提高术语的检索速度。
优选地,所述翻译模块中包括集束搜索单元,用于对待译语句进行集束搜索。通过该优选技术方案,能够利用集束搜索算法的优势,从多个待译语句的可能译文方案中,较为方便地优选出最佳译文方案。
通过上述技术方案,本发明的基于神经网络机器翻译的术语翻译方法,由于采用了键值对数据格式的术语库,并在翻译过程中对待译语句进行术语过滤,能够实现对术语的精准翻译,提高含术语语句的翻译质量。在本发明的优选技术方案中,对术语库的key值进行预处理,存储术语词汇的基本单元,减小了术语库的大小,提高了术语的检索效果;采用集束搜索算法能够从与待译词汇相对应的多个译文词汇中选取最优词汇,提高了翻译的质量。本发明的基于神经网络机器翻译的术语翻译装置,由于采用了本发明的基于神经网络机器翻译的术语翻译方法,也具有上述优点。
附图说明
图1是本发明的方法实施例的流程图;
图2是本发明一种实施方式整体翻译工作流程图。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明,应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,本发明的保护范围并不局限于下述的具体实施方式。
如图1所示,本发明实施例的基于神经网络机器翻译的术语翻译方法包括如下步骤:
(1)搜集特定行业内需要指定翻译的术语,形成术语翻译资料,并将术语翻译资料以(key,value)键值对数据格式存储到机器翻译装置中形成术语库,以便于术语翻译资料的存储与检索。
(2)在术语库的key值中逐一搜索待译语句中的每一个待译词汇,如果术语库的key值中存在某个待译词汇,则用术语库中对应的value值即术语译文词汇对该待译词汇进行术语翻译。
(3)对待翻译语句中的各个词汇进行解码,得到整体翻译结果。
作为本发明的方法的一种实施方式,在步骤(1)中,在形成术语库的过程中,存入术语库key中的待译术语词汇经过预处理,以形成较小的独立术语单元。这样可以精简存入术语库中的总术语词汇数量,以较小的存储容量实现更为丰富的术语库。
作为本发明的方法的一种实施方式,对存入术语库key中的待译术语词汇进行预处理的方法包括在需要时对待译术语词汇进行分词和子词切分。例如术语“中华人民共和国”指定翻译为“PRC”,在将该术语存入术语库时,对术语进行预处理时,对术语“中华人民共和国”进行分词切分,形成分词“中华人民共和国”;再进行子词切分,得到子词“中华|人民|共和国”。形成最小的独立术语单元。
在本发明的方法的一些实施例中,在进行术语翻译时,通过集束搜索算法进行翻译。集束搜索算法能够有效提高机器翻译的译文质量。
在本发明的方法的一些实施例中,在术语翻译的过程中,将在术语库中搜索到的术语译文词汇加入到集束搜索的候选集中,形成包含术语译文词汇的新的候选集。
作为本发明的方法的一种实施方式,将术语译文词汇加入到集束搜索的候选集中的过程为:在术语库中搜索到术语译文词汇后,检查原候选集中是否已经存在该待译术语作为普通词汇解释的常规译文词汇。如原候选集中已有常规译文词汇,则将该常规译文词汇全部替换为术语译文词汇。如原候选集中没有该待译术语的译文词汇,则根据集束搜索产生的对齐信息,将所述术语译文词汇的对齐词汇替换成标记符。通常用<UNK_N>来表示,N代表是第N个key值相对应的对齐词汇,与待译语句中其他词汇的集束搜索的对齐词汇共同形成集束搜索的候选集。
下面通过一个汉英翻译的简单实例,描述本发明的基于神经网络机器翻译的术语翻译方法在实际机器翻译中的工作流程。
如需要将语句“我来自中华人民共和国”翻译成英语,本发明的基于神经网络机器翻译的术语翻译方法在实际机器翻译中的工作流程如图2所示,在进行语句翻译之前,首先进行术语翻译资料的预处理。如将“中华人民共和国”认定为术语,指定翻译为“PRC”,则先对“中华人民共和国”进行预处理,形成分词“中华人民共和国”,再进行子词切分,得到“中华|人民|共和国”,建立一个key值为“中华|人民|共和国”,value值为“PRC”的术语数据库。
开始进行翻译时,将句子“我来自中华人民共和国”作为待翻译语句输入机器,机器对句子“我来自中华人民共和国”进行预处理,形成“我”、“来自”和“中华人民共和国”的分词,再做子词切分,形成子词“中华|人民|共和国”。
从术语库的key值中分别检测各个分词的值“我”、“来自”和“中华人民共和国”,然后使用正向最大匹配法查找待译文本中是否含有术语库中存在的已经经过预处理的术语词汇。如果各个分词的值在术语库的key值中均没有检测到,则默认待翻译句子中不存在术语,不需要进行术语翻译步骤。如本例中的“中华|人民|共和国”没有被认定为术语时,术语库中没有存入相应的信息,则按正常的神经网络进行集束搜索,形成如下候选集:
Figure GDA0003769444540000051
对集束搜索结果进行整体解码,得到最终的整体翻译结果“I am fromPeople’sRepublic of China”。
如果在术语库的key值中检测到某个分词的值,如本例中的“中华人民共和国”,则在按正常的神经网络进行集束搜索而形成的候选集中加入与key值“中华人民共和国”相对应的value值“PRC”,具体的做法为:检查集束搜索的候选集,如果候选集中已经存在该待译术语的常规译文词汇,即此例中与“中华|人民|共和国”的常规译文“China PeopleRepublic”、“People’s Republic of China”和“PRC”,则将候选集中的该译文词汇(“ChinaPeople Republic”、“People’s Republic of China”和“PRC”)全部替换为与key值相对应的value值(“PRC”)。形成集束搜索的新的候选集。最终候选集如下:
Figure GDA0003769444540000061
可以看到,经过约束,集束搜索的结果中均包含了“PRC”。对集束搜索结果进行整体解码,最终的整体翻译结果“I am from PRC”。
如果候选集中没有译文词汇,即根据正常的神经网络进行的集束搜索无法搜索到该术语词汇的译文,则根据集束搜索产生的对齐信息,将key翻译的对齐词汇替换成一个标记符进行编码。在此例中,如原候选集中没有“中华人民共和国”的译文词(“China PeopleRepublic”、“People’s Republic of China”或“PRC”等),则使用<UNK_1>来表示术语库中的术语词汇“中华人民共和国”,“_1”代表“中华人民共和国”是第一个需要指定翻译的术语。如果待译文本中还有其他的需要指定翻译的术语且在翻译候选集的词汇中均不存在相应的译文词汇,则依次表示为<UNK_2>、<UNK_3>等。在这种情况,直接将带有UNK标记的待翻译文本作为输入进行翻译,形成集束搜索的新的候选集。最终候选集如下:
Figure GDA0003769444540000071
对集束搜索结果进行整体解码,得到的翻译结果为“I am from UNK_1”。也就是,用<UNK_1>标记直接代替待翻译词汇“中华人民共和国”作为候选集编码进入候选集中,解码结果也带有<UNK_1>标记。最后再将<UNK_N>标记的词汇依次替换为指定的术语翻译结果即可得到最终翻译结果。在本例中,再将翻译结果中的UNK_1替换成指定的术语翻译结果PRC,得到最终的翻译结果“I am from PRC”。
本发明的基于神经网络机器翻译的术语翻译方法,能够克服现有的神经网络机器翻译方法在术语翻译方面的固有缺陷,能够有效提高带术语的语句的翻译质量。同时,由于对待译术语进行了预处理,以分词、子词的形式建立术语库,也减小了术语无法翻译的情况的出现。
本发明的基于神经网络机器翻译的翻译装置的一个实施例包括术语库定义模块:用于定义键值对(key,value)数据格式的术语库;翻译模块:用于翻译待译语句,在待译语句中包含术语库中存在的待译术语时,使用术语库中的对应的术语译文词汇翻译对待译语句进行翻译;译码模块,用于将术语翻译的结果整体返回。
在本发明的翻译装置的一些实施例中,还包括预处理模块,该预处理模块用于对待译术语进行预处理,形成更加便于检索和存储的术语库。
在本发明的翻译装置的一些实施例中,翻译模块中包括集束搜索单元,用于对待译语句进行集束搜索,进行经过编码的候选集。
本发明的基于神经网络机器翻译的翻译装置能够执行本发明的基于神经网络机器翻译的术语翻译方法。也具有与本发明的方法同样的优点。
在本发明的描述中,参考术语“一个实施例”、“一些实施例”、“一种实施方式”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本发明中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上结合附图详细描述了本发明的优选实施方式,但是,本发明并不限于此。在本发明的技术构思范围内,可以对本发明的技术方案进行多种简单变型,包括各个具体技术特征以任何合适的方式进行组合,为了避免不必要的重复,本发明对各种可能的组合方式不再另行说明。但这些简单变型和组合同样应当视为本发明所公开的内容,均属于本发明的保护范围。

Claims (7)

1.一种基于神经网络机器翻译的术语翻译方法,其特征在于,包括如下步骤:
(1)以键值对(key,value)数据格式定义术语库;
(2)若待译语句中任一词汇包含在所述术语库的key值中,则用术语库中对应的value值进行术语翻译,所述术语翻译,通过集束搜索算法进行,所述术语翻译的过程包括:将术语库中的术语译文词汇加入到集束搜索的候选集中,将所述术语译文词汇加入到集束搜索的候选集中的过程包括:如原候选集中已有待译词汇的译文词汇,则将该译文词汇全部替换为所述术语译文词汇;如原候选集中无所述译文词汇,则根据集束搜索产生的对齐信息,将所述术语译文词汇的对齐词汇替换成标记符;
(3)整体返回术语翻译后的结果。
2.根据权利要求1所述的方法,其特征在于,所述术语库的key中存储的待译术语词汇经过预处理。
3.根据权利要求2所述的方法,其特征在于,所述预处理包括分词和子词切分。
4.一种存储介质,其特征在于,所述存储介质内存储有实现如权利要求1至3中任一项所述的基于神经网络机器翻译的术语翻译方法的程序。
5.一种基于神经网络机器翻译的术语翻译装置,其特征在于,用于权利要求1所述的基于神经网络机器翻译的术语翻译方法,包括:
术语库定义模块,用于以键值对(key,value)数据格式定义术语库;
翻译模块,用于以术语库中对应的术语译文词汇翻译包含术语库的术语的待翻译句子;
译码模块,用于将术语翻译的结果整体返回。
6.根据权利要求5所述的术语翻译装置,其特征在于,还包括预处理模块,用于对待译术语进行预处理。
7.根据权利要求5或6所述的术语翻译装置,其特征在于,所述翻译模块中包括集束搜索单元,用于对待译语句进行集束搜索。
CN201910562117.1A 2019-06-26 2019-06-26 基于神经网络机器翻译的术语翻译方法、存储介质和装置 Active CN110489762B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910562117.1A CN110489762B (zh) 2019-06-26 2019-06-26 基于神经网络机器翻译的术语翻译方法、存储介质和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910562117.1A CN110489762B (zh) 2019-06-26 2019-06-26 基于神经网络机器翻译的术语翻译方法、存储介质和装置

Publications (2)

Publication Number Publication Date
CN110489762A CN110489762A (zh) 2019-11-22
CN110489762B true CN110489762B (zh) 2023-07-04

Family

ID=68546380

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910562117.1A Active CN110489762B (zh) 2019-06-26 2019-06-26 基于神经网络机器翻译的术语翻译方法、存储介质和装置

Country Status (1)

Country Link
CN (1) CN110489762B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111597826B (zh) * 2020-05-15 2021-10-01 苏州七星天专利运营管理有限责任公司 一种辅助翻译中处理术语的方法
DE102020114046A1 (de) 2020-05-26 2021-12-02 Thomas Eißfeller Neuronales Maschinenübersetzungsverfahren, neuronales Maschinenübersetzungssystem, Lernverfahren, Lernsystem und Programm
CN112364669B (zh) * 2020-10-14 2021-09-03 北京中科凡语科技有限公司 机器翻译译后的术语翻译方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105912533A (zh) * 2016-04-12 2016-08-31 苏州大学 面向神经机器翻译的长句切分方法及装置
CN107590135A (zh) * 2016-07-07 2018-01-16 三星电子株式会社 自动翻译方法、设备和系统
CN107729324A (zh) * 2016-08-10 2018-02-23 三星电子株式会社 基于并行处理的翻译方法和设备
CN109558570A (zh) * 2017-09-25 2019-04-02 三星电子株式会社 句生成方法和设备
CN109871529A (zh) * 2017-12-04 2019-06-11 三星电子株式会社 语言处理方法和设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9116886B2 (en) * 2012-07-23 2015-08-25 Google Inc. Document translation including pre-defined term translator and translation model
CN103793375A (zh) * 2012-10-31 2014-05-14 上海勇金懿信息科技有限公司 一种在自动化翻译处理中精准替换术语及短语的方法
CN109145312A (zh) * 2018-06-29 2019-01-04 中译语通科技股份有限公司 一种基于二级缓存的机器翻译方法、装置、介质和电子设备
CN109359304B (zh) * 2018-08-22 2023-04-18 新译信息科技(深圳)有限公司 限定性神经网络机器翻译方法及存储介质
CN109902314B (zh) * 2019-04-18 2023-11-24 中译语通科技股份有限公司 一种术语的翻译方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105912533A (zh) * 2016-04-12 2016-08-31 苏州大学 面向神经机器翻译的长句切分方法及装置
CN107590135A (zh) * 2016-07-07 2018-01-16 三星电子株式会社 自动翻译方法、设备和系统
CN107729324A (zh) * 2016-08-10 2018-02-23 三星电子株式会社 基于并行处理的翻译方法和设备
CN109558570A (zh) * 2017-09-25 2019-04-02 三星电子株式会社 句生成方法和设备
CN109871529A (zh) * 2017-12-04 2019-06-11 三星电子株式会社 语言处理方法和设备

Also Published As

Publication number Publication date
CN110489762A (zh) 2019-11-22

Similar Documents

Publication Publication Date Title
CN112801010B (zh) 一种针对实际ocr场景下的视觉富文档信息抽取方法
CN110489762B (zh) 基于神经网络机器翻译的术语翻译方法、存储介质和装置
WO2022095563A1 (zh) 文本纠错的适配方法、装置、电子设备及存储介质
CN111061882A (zh) 一种知识图谱构建方法
CN110765277B (zh) 一种基于知识图谱的移动端的在线设备故障诊断方法
CN110705262B (zh) 一种改进的应用于医技检查报告的智能纠错方法
CN112925563B (zh) 一种面向代码重用的源代码推荐方法
CN111666764B (zh) 一种基于XLNet的自动摘要方法与装置
US11822897B2 (en) Systems and methods for structured text translation with tag alignment
CN113742471B (zh) 一种普法问答系统的向量检索式对话方法
CN111814477B (zh) 一种基于争议焦点实体的争议焦点发现方法、装置及终端
CN111178061B (zh) 一种基于编码转换的多国语分词方法
CN111460793A (zh) 纠错方法、装置、设备及存储介质
CN112417823B (zh) 一种中文文本语序调整和量词补全方法及系统
CN114036955B (zh) 中心词跨句事件论元检测方法
CN113722490A (zh) 一种基于键值匹配关系的视觉富文档信息抽取方法
CN100361124C (zh) 用于词分析的系统和方法
KR20230009564A (ko) 앙상블 스코어를 이용한 학습 데이터 교정 방법 및 그 장치
CN113159969A (zh) 一种金融长文本复核系统
CN111831624A (zh) 数据表创建方法、装置、计算机设备及存储介质
CN106776590A (zh) 一种获取词条译文的方法及系统
CN114925175A (zh) 基于人工智能的摘要生成方法、装置、计算机设备及介质
CN115203206A (zh) 数据内容搜索方法、装置、计算机设备及可读存储介质
CN111626059B (zh) 一种信息处理方法及装置
CN113536797A (zh) 一种切片文档关键信息单模型抽取方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant