CN109902314A - 一种术语的翻译方法和装置 - Google Patents
一种术语的翻译方法和装置 Download PDFInfo
- Publication number
- CN109902314A CN109902314A CN201910311045.3A CN201910311045A CN109902314A CN 109902314 A CN109902314 A CN 109902314A CN 201910311045 A CN201910311045 A CN 201910311045A CN 109902314 A CN109902314 A CN 109902314A
- Authority
- CN
- China
- Prior art keywords
- translation
- term
- alignment information
- interpretation method
- terminology
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000013528 artificial neural network Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 10
- 230000007812 deficiency Effects 0.000 claims description 9
- 230000000694 effects Effects 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 239000007787 solid Substances 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000007306 turnover Effects 0.000 description 1
Abstract
本发明属于语言翻译技术领域,公开了一种术语的翻译方法和装置,术语的翻译方法包括:将术语库转化成key,value形式的字典,存在数据库中;正常待翻译文本输入到机器翻译终端中,机器翻译自动生成翻译后的译文及相应的文本对齐信息;根据对齐信息,将对应的术语替换成指定的解释。本发明旨将机器翻译和人工翻译中的术语翻译结合,使得机器翻译更多的接收人类经验总结的成果,进一步完善翻译质量,达到翻译工作人员的预期;本发明可以允许用户在使用过程中,使用自己预先定义好的术语库,并将其应用在机器翻译中,使得机器翻译中的术语翻译更加符合预期效果。
Description
技术领域
本发明属于语言翻译技术领域,尤其涉及一种术语的翻译方法和装置。
背景技术
目前,业内常用的现有技术是这样的:
现在的神经网络机器翻译将机器翻译的质量较统计机器翻译做了较大幅度的提升,但是由于神经网络机器翻译翻译模型的黑盒特性,使得所有翻译中间过程都没有可解释性,人为修改网络参数的可能性几乎为零。因此针对人工翻译中经常遇到的术语翻译问题时,神经网络机器翻译无法很好的完成这一工作。
术语翻译是针对给定的术语库,在翻译过程中遇到术语库中存在的术语时,使用给定的解释进行翻译。在人工翻译中,这种工作往往由人来完成,在系统中对存在的术语进行高亮显示,提升人工按照指定的翻译进行。
然而在机器翻译中,我们也需要允许用户指定对应的术语进行翻译,并最终将翻译结果中存在的术语按照术语库中的解释进行输出。
综上所述,现有技术存在的问题是:
(1)现有的技术无法在神经网络机器翻译中加入术语库,并指定对应术语的解释。
(2)人工翻译中经常遇到术语翻译问题,神经网络机器翻译无法很好的达到翻译工作人员的预期。
解决上述技术问题的意义:
神经网络机器翻译中接入术语翻译功能。允许用户使用自己的术语库,并将其融入到机器翻译系统中来。
发明内容
针对现有技术存在的问题,本发明提供了一种术语的翻译方法和装置。本发明旨在将神经网络机器翻译中接入术语翻译功能。允许用户使用自己的术语库,并将其融入到机器翻译系统中来。
本发明是这样实现的,一种术语的翻译方法,所述术语的翻译方法包括:
将术语库转化成key,value形式的字典,存在数据库中。
正常待翻译文本输入到机器翻译终端中,机器翻译自动生成翻译后的译文及相应的文本对齐信息。
根据对齐信息,将对应的术语替换成指定的解释。
进一步,所述术语的翻译方法进一步包括:
对于对齐信息不足,无法查找到术语对应的对齐信息时,进行:
在神经网络机器翻译预定义好一类未登录词为UNK+序号;
使用未知词标记UNK+序号标注原文,送入神经网络机器翻译系统,在神经网络机器翻译中未登录的词,则对该词不进行翻译,按照原文输出,得到输出包含有未登录词的句子;
根据术语表中未登录词的解释,将未登录词替换成相应的解释,得到对应的翻译。
进一步,将术语库转化成key,value形式的字典,存在数据库中,如果用户想进行数据库存取,输入变量和输出变量必须在输入变量和输出变量节中明确指定。人们可以选择数据库以及与之相连的控制装置。当数据库连接成功后,存在于数据库中的表的名称就显示出来了。
正常待翻译文本输入到机器翻译终端中,机器翻译自动生成翻译后的译文及相应的文本对齐信息;基于语义语言的翻译方法可方便地将句义表达式同时展开成多种语言表示。
根据对齐信息,将对应的术语替换成指定的解释中,用户选择数据库以及与之相连的控制装置,通过访问存在于数据库中的表,或者提出询问以打开记录装置。如果选择的是表,那么表中的全部数据都将从记录装置中取出。即可读取对应的术语替换成指定的解释。
本发明的另一目的提供一种实施所述术语的翻译方法的对齐信息术语翻译装置。
本发明的另一目的提供一种实施所述术语的翻译方法的对齐信息不足术语翻译装置。
本发明的另一目的提供一种对齐信息术语翻译计算机程序,所述对齐信息术语翻译计算机程序实现所述的术语的翻译方法。
本发明的另一目的提供一种对齐信息不足术语翻译计算机程序,所述对齐信息不足术语翻译计算机程序实现所述的术语的翻译方法。
本发明的另一目的提供一种终端,所述终端至少搭载实现所述术语的翻译方法的控制器。
本发明的另一目的提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行所述的术语的翻译方法。
综上所述,本发明的优点及积极效果为:
本发明解决了神经网络机器翻译中,术语翻译的问题。即对于指定的术语,使用指定的解释进行翻译。例如指定Apple对应的解释为美国苹果公司,则在翻译Apple is theone of the most valuable company in the world.需要对应的翻译为美国苹果公司是世界上最有价值的公司之一。
本发明旨将机器翻译和人工翻译中的术语翻译结合,使得机器翻译更多的接收人类经验总结的成果,进一步完善翻译质量,达到翻译工作人员的预期。
本发明可以允许用户在使用过程中,使用自己预先定义好的术语库,并将其应用在机器翻译中,使得机器翻译中的术语翻译更加符合预期效果。
附图说明
图1是本发明实施例提供的术语的翻译方法流程图。
图2是本发明实施例提供的术语的翻译方法实施例1图。
图3是本发明实施例提供的术语的翻译方法实施例1结果图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
现有的技术无法在神经网络机器翻译中加入术语库,并指定对应术语的解释。
本发明使用对齐信息进行术语翻译的方法和装置。
在对齐信息不足时,使用未知词替换的方法进行术语翻译的方法和装置。
下面结合具体分析对本发明的应用作进一步描述。
图1,本发明实施例提供的术语的翻译方法,包括:
S101:将术语库转化成key,value形式的字典,存在数据库中。
S102:正常待翻译文本输入到机器翻译终端中,机器翻译自动生成翻译后的译文及相应的文本对齐信息。
S103:根据对齐信息,将对应的术语替换成指定的解释。
在本发明实施例中,将术语库转化成key,value形式的字典,存在数据库中;如果用户想进行数据库存取,输入变量和输出变量必须在输入变量和输出变量节中明确指定。人们可以选择数据库以及与之相连的控制装置。当数据库连接成功后,存在于数据库中的表的名称就显示出来了。
正常待翻译文本输入到机器翻译终端中,机器翻译自动生成翻译后的译文及相应的文本对齐信息;基于语义语言的翻译方法可方便地将句义表达式同时展开成多种语言表示。
根据对齐信息,将对应的术语替换成指定的解释。用户选择数据库以及与之相连的控制装置,通过访问存在于数据库中的表,或者提出询问以打开记录装置。如果选择的是表,那么表中的全部数据都将从记录装置中取出。即可读取对应的术语替换成指定的解释。
下面结合实施例对本发明的应用作进一步描述。
实施例1,
如图2,例如输入待翻译文本是Who is eric?
通过机器翻译输出译文的对齐信息,可以得到上图2所示的结果,假设术语库中存在将Eric解释为于总,则最终通过术语库的查找和相应的对齐信息可以得到如下结果:如图3。
对于对齐信息不足,无法查找到术语对应的对齐信息可以使用以下方法:
在神经网络机器翻译预定义好一类未登录词为UNK+序号,例如UNK1、UNK2……UNK9。
使用未知词标记UNK+序号来标注原文,送入神经网络机器翻译系统,神经网络机器翻译由于翻译中存在未登录词,则对该词不进行翻译,按照原文输出,则得到输出包含有未登录词的句子。
根据术语表中未登录词的解释,将未登录词替换成相应的解释,得到对应的翻译。
例:
术语库中定义Apple翻译成美国苹果公司
Apple is a big company.
步骤一:定义好未登录词为UNK1、UNK2……UNK9此定义针对整个翻译系统,
只需要进行一次即可。不需要每次翻译均执行
步骤二:将原文中的Apple替换成UNK1,送入机器翻译,得到翻译结果:
UNK1是一家大型公司。
步骤三:将UNK1替换成相应的数据解释,即美国苹果公司得到最终译文:美国苹果公司是一家大型公司。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种术语的翻译方法,其特征在于,所述术语的翻译方法包括:
将术语库转化成key,value形式的字典,存在数据库中;
正常待翻译文本输入到机器翻译终端中,机器翻译自动生成翻译后的译文及相应的文本对齐信息;
根据对齐信息,将对应的术语替换成指定的解释。
2.如权利要求1所述的术语的翻译方法,其特征在于,所述术语的翻译方法进一步包括:
对于对齐信息不足,无法查找到术语对应的对齐信息时,进行:
在神经网络机器翻译预定义好一类未登录词为UNK+序号;
使用未知词标记UNK+序号标注原文,送入神经网络机器翻译系统,在神经网络机器翻译中未登录的词,则对该词不进行翻译,按照原文输出,得到输出包含有未登录词的句子;
根据术语表中未登录词的解释,将未登录词替换成相应的解释,得到对应的翻译。
3.如权利要求1所述的术语的翻译方法,其特征在于,将术语库转化成key,value形式的字典,存在数据库中,用户进行数据库存取时,输入变量和输出变量在输入变量节和输出变量节中进行指定并与相应的控制装置连接;数据库连接成功后,对存在于数据库中的表的名称进行显示;
根据对齐信息,将对应的术语替换成指定的解释中,用户选择数据库以及与数据库相连的控制装置,通过访问存在于数据库中的表,或者提出询问并开启记录装置;数据库中的表的全部数据从记录装置中取出。
4.一种实施权利要求1所述术语的翻译方法的对齐信息术语翻译装置。
5.一种实施权利要求2所述术语的翻译方法的对齐信息不足术语翻译装置。
6.一种对齐信息术语翻译计算机程序,其特征在于,所述对齐信息术语翻译计算机程序实现权利要求1所述的术语的翻译方法。
7.一种对齐信息不足术语翻译计算机程序,其特征在于,所述对齐信息不足术语翻译计算机程序实现权利要求2所述的术语的翻译方法。
8.一种终端,其特征在于,所述终端至少搭载实现权利要求1~2任意一项所述术语的翻译方法的控制器。
9.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1-2任意一项所述的术语的翻译方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910311045.3A CN109902314B (zh) | 2019-04-18 | 2019-04-18 | 一种术语的翻译方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910311045.3A CN109902314B (zh) | 2019-04-18 | 2019-04-18 | 一种术语的翻译方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109902314A true CN109902314A (zh) | 2019-06-18 |
CN109902314B CN109902314B (zh) | 2023-11-24 |
Family
ID=66955011
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910311045.3A Active CN109902314B (zh) | 2019-04-18 | 2019-04-18 | 一种术语的翻译方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109902314B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110489762A (zh) * | 2019-06-26 | 2019-11-22 | 中译语通科技股份有限公司 | 基于神经网络机器翻译的术语翻译方法、存储介质和装置 |
CN110543644A (zh) * | 2019-09-04 | 2019-12-06 | 语联网(武汉)信息技术有限公司 | 包含术语翻译的机器翻译方法、装置与电子设备 |
CN111274826A (zh) * | 2020-01-19 | 2020-06-12 | 南京新一代人工智能研究院有限公司 | 一种基于语义信息融合的低频词翻译方法 |
CN112800781A (zh) * | 2021-01-26 | 2021-05-14 | 浙江香侬慧语科技有限责任公司 | 一种文言文翻译的方法、装置及存储介质 |
CN113836947A (zh) * | 2020-10-14 | 2021-12-24 | 北京中科凡语科技有限公司 | 机器翻译译后的术语翻译方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090182549A1 (en) * | 2006-10-10 | 2009-07-16 | Konstantin Anisimovich | Deep Model Statistics Method for Machine Translation |
US20160117316A1 (en) * | 2014-10-24 | 2016-04-28 | Google Inc. | Neural machine translation systems with rare word processing |
CN107967263A (zh) * | 2017-12-11 | 2018-04-27 | 中译语通科技股份有限公司 | 一种机器翻译数字泛化方法及系统、计算机、计算机程序 |
CN109359304A (zh) * | 2018-08-22 | 2019-02-19 | 新译信息科技(深圳)有限公司 | 限定性神经网络机器翻译方法及存储介质 |
-
2019
- 2019-04-18 CN CN201910311045.3A patent/CN109902314B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090182549A1 (en) * | 2006-10-10 | 2009-07-16 | Konstantin Anisimovich | Deep Model Statistics Method for Machine Translation |
US20160117316A1 (en) * | 2014-10-24 | 2016-04-28 | Google Inc. | Neural machine translation systems with rare word processing |
CN107967263A (zh) * | 2017-12-11 | 2018-04-27 | 中译语通科技股份有限公司 | 一种机器翻译数字泛化方法及系统、计算机、计算机程序 |
CN109359304A (zh) * | 2018-08-22 | 2019-02-19 | 新译信息科技(深圳)有限公司 | 限定性神经网络机器翻译方法及存储介质 |
Non-Patent Citations (8)
Title |
---|
何彦青等: "基于机器翻译的专利术语翻译获取方法研究", 《图书情报工作》 * |
何彦青等: "基于机器翻译的专利术语翻译获取方法研究", 《图书情报工作》, no. 19, 5 October 2014 (2014-10-05) * |
张晶等: "一种基于Web的术语翻译获取及验证方法", 《计算机科学》 * |
张晶等: "一种基于Web的术语翻译获取及验证方法", 《计算机科学》, no. 07, 15 July 2012 (2012-07-15) * |
樊文婷等: "融合先验信息的蒙汉神经网络机器翻译模型", 《中文信息学报》 * |
樊文婷等: "融合先验信息的蒙汉神经网络机器翻译模型", 《中文信息学报》, no. 06, 15 June 2018 (2018-06-15) * |
阿米妮古丽?奥斯曼等: "维汉/汉维机器翻译译后编辑器的设计与实现", 《新疆大学学报(自然科学版)》 * |
阿米妮古丽?奥斯曼等: "维汉/汉维机器翻译译后编辑器的设计与实现", 《新疆大学学报(自然科学版)》, no. 04, 15 November 2013 (2013-11-15), pages 444 - 450 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110489762A (zh) * | 2019-06-26 | 2019-11-22 | 中译语通科技股份有限公司 | 基于神经网络机器翻译的术语翻译方法、存储介质和装置 |
CN110543644A (zh) * | 2019-09-04 | 2019-12-06 | 语联网(武汉)信息技术有限公司 | 包含术语翻译的机器翻译方法、装置与电子设备 |
CN110543644B (zh) * | 2019-09-04 | 2023-08-29 | 语联网(武汉)信息技术有限公司 | 包含术语翻译的机器翻译方法、装置与电子设备 |
CN111274826A (zh) * | 2020-01-19 | 2020-06-12 | 南京新一代人工智能研究院有限公司 | 一种基于语义信息融合的低频词翻译方法 |
CN113836947A (zh) * | 2020-10-14 | 2021-12-24 | 北京中科凡语科技有限公司 | 机器翻译译后的术语翻译方法、装置、设备及存储介质 |
CN113836947B (zh) * | 2020-10-14 | 2024-04-16 | 北京中科凡语科技有限公司 | 机器翻译译后的术语翻译方法、装置、设备及存储介质 |
CN112800781A (zh) * | 2021-01-26 | 2021-05-14 | 浙江香侬慧语科技有限责任公司 | 一种文言文翻译的方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109902314B (zh) | 2023-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109902314A (zh) | 一种术语的翻译方法和装置 | |
Jacobsen et al. | A generic workflow for the data FAIRification process | |
US11042699B1 (en) | Systems, devices, and methods for software coding | |
US10521410B2 (en) | Semantic graph augmentation for domain adaptation | |
US20210056168A1 (en) | Natural language processing using an ontology-based concept embedding model | |
US11532386B2 (en) | Generating and customizing summarized notes | |
US9524292B2 (en) | Adjusting ranges of directed graph ontologies across multiple dimensions | |
WO2022083291A1 (en) | Training question-answer dialog system to avoid adversarial attacks | |
US9785670B2 (en) | Revising policy statements using hyperlinks | |
CN109862062A (zh) | 内容上传管理方法以及装置、电子设备及存储介质 | |
Peng et al. | Overview of the nlpcc 2019 shared task: cross-domain dependency parsing | |
CN103886021B (zh) | 一种基于自然语言的数据库审计结果翻译方法及系统 | |
US20210056101A1 (en) | Domain-specific labeled question generation for training syntactic parsers | |
US10552008B2 (en) | Managing a domain specific ontology collection | |
US11308269B1 (en) | Systems, devices, and methods for software coding | |
Broeder et al. | The IMDI metadata framework, its current application and future direction | |
JP2012003574A (ja) | 感性辞書編集支援システム及びプログラム | |
Geißner | Modeling institutional research data repositories using the DCAT3 Data Catalog Vocabulary | |
US11630644B2 (en) | Service for configuring custom software | |
EP3982224A1 (en) | Data extraction in industrial automation systems | |
US20210224490A1 (en) | Content localization framework | |
US20090177668A1 (en) | Term-Driven Records File Plan and Thesaurus Design | |
Liu et al. | Breathing New Life into Existing Visualizations: A Natural Language-Driven Manipulation Framework | |
Wullimann | SubThis! | |
Sun et al. | Articulate: a conversational interface for visual analytics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |