CN110543644B - 包含术语翻译的机器翻译方法、装置与电子设备 - Google Patents

包含术语翻译的机器翻译方法、装置与电子设备 Download PDF

Info

Publication number
CN110543644B
CN110543644B CN201910831775.6A CN201910831775A CN110543644B CN 110543644 B CN110543644 B CN 110543644B CN 201910831775 A CN201910831775 A CN 201910831775A CN 110543644 B CN110543644 B CN 110543644B
Authority
CN
China
Prior art keywords
term
translation
translated
text
placeholders
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910831775.6A
Other languages
English (en)
Other versions
CN110543644A (zh
Inventor
蔡洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Iol Wuhan Information Technology Co ltd
Original Assignee
Iol Wuhan Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Iol Wuhan Information Technology Co ltd filed Critical Iol Wuhan Information Technology Co ltd
Priority to CN201910831775.6A priority Critical patent/CN110543644B/zh
Publication of CN110543644A publication Critical patent/CN110543644A/zh
Application granted granted Critical
Publication of CN110543644B publication Critical patent/CN110543644B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)

Abstract

本发明实施例提供一种包含术语翻译的机器翻译方法、装置与电子设备,其中所述方法包括:将待翻译文本按句进行分词处理,并将分词的结果与给定术语库进行术语匹配,确定所述待翻译文本中的术语,所述给定术语库内存储有源语言和目标语言术语对;将所述待翻译文本中的术语用占位符进行替换,并基于所述给定术语库,利用预先建立的目标机器翻译模型,对所述替换后的待翻译文本进行翻译和术语替换,获取包含术语译文的翻译结果。本发明实施例能够有效克服在后编辑带来的问题,从而有效提高翻译效率和翻译准确性。

Description

包含术语翻译的机器翻译方法、装置与电子设备
技术领域
本发明涉及机器翻译技术领域,更具体地,涉及一种包含术语翻译的机器翻译方法、装置与电子设备。
背景技术
在文本翻译过程中,相同的源“单词”可能会被翻译成不同的译文,这其中可能存在两方面因素的影响,其一单词本身是多义词,其二不同的译员翻译用词习惯不同。在翻译过程中,对于某些比较重要的词,希望其翻译结果是固定的,这些词即被称为“术语”。
为了使译文中对这些术语的翻译是统一固定的结果,目前采用的是术语替换的方式,即根据机器翻译之后的结果,基于词对齐做译后编辑,替换译文中对术语的翻译结果。这样做虽能够实现对术语翻译的统一,但是存在的问题一是处理速度不够快,影响翻译效率,二是如果翻译有一些意译的结果,则容易改变翻译的含义,导致翻译结果不准确。
发明内容
为了克服上述问题或者至少部分地解决上述问题,本发明实施例提供一种包含术语翻译的机器翻译方法、装置与电子设备,用以有效克服在后编辑带来的问题,从而有效提高翻译效率和翻译准确性。
第一方面,本发明实施例提供一种包含术语翻译的机器翻译方法,包括:
将待翻译文本按句进行分词处理,并将分词的结果与给定术语库进行术语匹配,确定所述待翻译文本中的术语,所述给定术语库内存储有源语言和目标语言术语对;
将所述待翻译文本中的术语用占位符进行替换,并基于所述给定术语库,利用预先建立的目标机器翻译模型,对所述替换后的待翻译文本进行翻译和术语替换,获取包含术语译文的翻译结果。
第二方面,本发明实施例提供一种包含术语翻译的机器翻译装置,包括:
术语匹配模块,用于将待翻译文本按句进行分词处理,并将分词的结果与给定术语库进行术语匹配,确定所述待翻译文本中的术语,所述给定术语库内存储有源语言和目标语言术语对;
术语替换翻译模块,用于将所述待翻译文本中的术语用占位符进行替换,并基于所述给定术语库,利用预先建立的目标机器翻译模型,对所述替换后的待翻译文本进行翻译和术语替换,获取包含术语译文的翻译结果。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上第一方面所述的包含术语翻译的机器翻译方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机指令,所述计算机指令被计算机执行时,实现如上第一方面所述的包含术语翻译的机器翻译方法的步骤。
本发明实施例提供的包含术语翻译的机器翻译方法、装置与电子设备,根据训练语料句对,生成满足需求的训练句对,通过在机器翻译模型的训练阶段开始干涉,训练出带术语替换功能的翻译模型,能够有效克服在后编辑带来的问题,从而有效提高翻译效率和翻译准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的包含术语翻译的机器翻译方法的流程示意图;
图2为本发明另一实施例提供的包含术语翻译的机器翻译方法的流程示意图;
图3为本发明实施例提供的包含术语翻译的机器翻译装置的结构示意图;
图4为本发明实施例提供的电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明实施例的一部分实施例,而不是全部的实施例。基于本发明实施例中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明实施例保护的范围。
本发明实施例针对现有技术在进行包含术语的文献翻译时效率低和准确性差的问题,根据训练语料句对,生成满足需求的训练句对,通过在机器翻译模型的训练阶段开始干涉,训练出带术语替换功能的翻译模型,能够有效克服在后编辑带来的问题,从而有效提高翻译效率和翻译准确性。以下将具体通过多个实施例对本发明实施例进行展开说明和介绍。
图1为本发明一实施例提供的包含术语翻译的机器翻译方法的流程示意图,如图1所示,该方法包括:
S101,将待翻译文本按句进行分词处理,并将分词的结果与给定术语库进行术语匹配,确定待翻译文本中的术语,给定术语库内存储有源语言和目标语言术语对。
可以理解为,本发明实施例事先会获取到待翻译的文本数据,即待翻译文本。之后,首先对该待翻译文本进行句子拆分,得到待翻译文本的多个组成句子,再对所有句子逐句进行分词处理,得到每个句子对应的多个单词,即分词的结果。其中可选的,具体可采用Stanford CoreNLP工具,实现分词处理。
再之后,针对每个句子,将其分出的单词与提前准备的给定术语库进行术语匹配,确定该句子中哪些单词属于术语,并进一步可确定整个待翻译文本中的所有术语。可以理解的是,给定术语库中存储的是多个术语对,也即包含源语言术语和各源语言术语对应的目标语言术语,且二者成对关联。其中可选的,具体可基于cedar双数组字典树算法,实现术语匹配。
基于cedar双数组字典树算法进行术语匹配时包括建索引的步骤和利用索引进行术语查询匹配的步骤。其中建索引的步骤为遍历数据库,获取术语集合,调用cedar双数组字典树插入术语,用以形成术语集合的索引。cedar双数组字典树中每个数组元素包括一个以基准值和校验值为成员的结构体数组、一个与结构体数组体量相同的循环队列以及一个用来存放字符所组成的父子以及兄弟关系的二叉树数组。向双数组字典树中插入术语就是给双数组字典树中的元素赋值的过程。
S102,将待翻译文本中的术语用占位符进行替换,并基于给定术语库,利用预先建立的目标机器翻译模型,对替换后的待翻译文本进行翻译和术语替换,获取包含术语译文的翻译结果。
可以理解为,在确定待翻译文本中所有的术语之后,即可将这些术语用占位符进行替换,得到的是带有占位符的待翻译文本,也即是替换后的待翻译文本,其实际由多个带有占位符的句子组成。之后利用预先得到的目标机器翻译模型对这些带有占位符的句子进行翻译,得到待占位符的译文。同时利用该目标机器翻译模型,使用给定术语库中的目标语言术语,也即是译文术语对翻译后的句子中的占位符进行替换,得到的是包含术语译文的翻译结果,实现包含术语的翻译。
本发明实施例提供的包含术语翻译的机器翻译方法,根据训练语料句对,生成满足需求的训练句对,通过在机器翻译模型的训练阶段开始干涉,训练出带术语替换功能的翻译模型,能够有效克服在后编辑带来的问题,从而有效提高翻译效率和翻译准确性。
另外,在上述各实施例的基础上,在利用预先建立的目标机器翻译模型,对替换后的待翻译文本进行翻译和术语替换的步骤之前,本发明实施例的方法还可以包括:对训练语料句对进行分词处理,并根据分词结果依次进行词对齐处理和词性标注;确定术语因子数,并基于术语因子数和词性标注的结果,对训练语料句对获取带占位符的训练样本句对;利用带占位符的训练样本句对,训练初始化完成的seq2seq with attention模型,获取目标机器翻译模型。
首先可以理解的是,一般的机器翻译引擎不会考虑“术语”这种特殊的句子组成。例如,在某个文档中“启动”被定义为术语(启动,pulse-on)。但是一般的机器翻译会把“启动”翻译成“firing”或者翻译成startover之类,导致翻译结果的不准确不统一。本发明实施例即提供了一种训练可以考虑“术语”的翻译模型的具体处理方法,有了这个功能译员使用机器翻译的过程就减少了手动替换术语这个步骤。
本发明实施例在利用目标机器翻译模型对待翻译文本进行翻译之前,需要先获取该目标机器翻译模型。具体而言,对于事先收集到的训练语料句对,先分别对源语言语料句和目标语言语料句进行分词处理,得到分词结果,即源语言句子和目标语言句子分别对应的单词,再对源语言句子的单词和目标语言句子的单词进行词对齐处理,并对各单词进行词性标注。其中可选的,进行词性标注的步骤具体包括:利用隐马尔科夫模型viterbi算法,对词对齐处理的结果进行给定类型的分词的词性标注。
例如,对于训练语料句对“别问汤姆他的工作的问题。|||Do n't ask Tom anyquestions about his job.”,进行分词的结果为“‘别问’‘汤姆’‘他’‘的’‘工作’‘的’‘问题’‘。’|||’Do”n't”ask”Tom”any”questions”about”his”job’‘.’”,进行词对齐结果为0-01-1 2-2 3-2 4-3 5-3 6-4,进行词性标注获得“汤姆”、“工作”、“问题”为名词性词汇。
之后,确定术语因子数。可以理解的是术语因子数是一个经验值,表示的含义是一个正常的句子,译员最多需要替换多少个术语。再根据1到术语因子数取组合的数量替换训练语料句子中的给定词性的词生成训练句对。例如,对于上述举例,可根据1到术语因子数取组合的数量,利用占位符替换名词生成句对,数量是得到训练样本句对:
1.别问<term1>他的工作的问题。||Do n't ask<term1>any questions abouthis job.
2.别问汤姆他的<term1>的问题。||Do n't ask Tom any questions about his<term1>.
3.别问汤姆他的工作的<term1>。||Do n't ask Tom<term1>about his job.
4.别问<term1>他的<term2>的问题。||Do n't ask<term1>any questions abouthis<term2>.
5.别问<term1>他的工作的<term2>。||Do n't ask<term1><term2>about hisjob.
6.别问汤姆他的<term1>的<term2>。||Do n't ask Tom<term2>about his<term1>.
最后,利用上述得到的训练样本句对对初始化完成的seq2seq with attention初始模型进行迭代训练,得到训练完成的模型即为目标机器翻译模型。可以理解的是,seq2seq with attention模型是加入了注意力机制的seq2seq模型,通过对句子中不同的分词赋予不同的注意力权重来实现语义翻译。
其中,根据上述各实施例可选的,对替换后的待翻译文本进行翻译和术语替换的步骤具体包括:将替换后的待翻译文本输入目标机器翻译模型,获取带占位符的译文中间结果,并基于给定术语库,获取待翻译文本中的术语对应的术语译文;利用术语译文替换带占位符的译文中间结果中的占位符,实现译文术语替换。
具体而言,在将输入的待翻译文本中的术语用占位符替换后,将替换后的待翻译文本输入到训练好的目标机器翻译模型中。替换后的待翻译文本在目标机器翻译模型内部翻译算法的作用下,得到带占位符的译文,该译文作为中间结果输入到目标机器翻译模型中的术语替换层。之后由术语替换层识别到句子中的占位符,并根据原文术语到给定术语库中查找到对应的术语译文,用术语译文对应替换中间结果句子中的占位符,最终实现术语的翻译和替换,输出包含术语译文的翻译结果。
为进一步说明本发明实施例的技术方案,本发明实施例根据上述各实施例提供如下具体的处理流程,但不对本发明实施例的保护范围进行限制。
如图2所示,为本发明另一实施例提供的包含术语翻译的机器翻译方法的流程示意图,图中包括以下处理步骤:
首先,对训练语料进行预处理。以一个中英的训练语料句对“别问汤姆他的工作的问题。|||Do n't ask Tom any questions about his job.”为例,分别通过分词处理、词对齐处理和词性标注,将训练语料句对处理成对应的训练样本句对。具体采用StanfordCoreNLP工具来进行分词,得到分词结果“别问”“汤姆”“他”“的”“工作”“的”“问题”“。”|||”Do””n't””ask””Tom””any””questions””about””his””job””.”,再通过词对齐处理获取到词对齐结果0-0 1-1 2-2 3-2 4-3 5-3 6-4,再采用隐马尔科夫模型(HMM)viterbi算法来进行词性标注,获得“汤姆”、“工作”、“问题”3个词汇为名词性词汇(其中相同的词汇算一个)。对于这3个名词性词汇,假设定义术语因子数为2(根据译员反馈一般句子最多替换4个术语,那么术语因子数即为4,这里为方便举例所以设为2),那么就根据1到因子数取组合的数量替换名词生成句对,本例的数量是则可得到以下1-6个翻译句对作为训练样本句对。
1.别问<term1>他的工作的问题。||Do n't ask<term1>any questions abouthis job.
2.别问汤姆他的<term1>的问题。||Do n't ask Tom any questions about his<term1>.
3.别问汤姆他的工作的<term1>。||Do n't ask Tom<term1>about his job.
4.别问<term1>他的<term2>的问题。||Do n't ask<term1>any questions abouthis<term2>.
5.别问<term1>他的工作的<term2>。||Do n't ask<term1><term2>about hisjob.
6.别问汤姆他的<term1>的<term2>。||Do n't ask Tom<term2>about his<term1>.
其次,利用上述生成的所有训练样本句对初始化得到的seq2seq with attention初始模型进行训练,得到满足设计要求的翻译模型作为目标机器翻译模型。
再次,对待翻译文本进行前置预处理,即通过对输入的待翻译文本句子进行句子分词和利用术语库进行术语匹配处理,确定待翻译文本中句子的术语,并将匹配到的术语进行占位符替换。例如,输入原文是“汽车启动时,请注意安全。”经术语匹配得到术语是“汽车:automobile”。那么经过术语匹配替换占位符之后的结果是“<term1>启动时,请注意安全。”
最后,将替换后的待翻译文本输入到目标机器翻译模型中,得到带有站位符的译文,将术语库中匹配到的对应术语译文替换即得到最后结果。可以理解的是,seq2seq withattention的模型输入是一串“序列”,这个序列就是已经替换过术语为占位符的句子。输出也是一串“序列”,根据训练的结果,他会输出带占位符的译文。然后使用对应术语译文直接对占位符进行文本替换。
例如,上述例句的一般机器翻译结果是“Please pay attention to safety whenstarting a car.”,输入到训练好的模型,可以得到结果“Please pay attention tosafety when starting a<term1>.”,最后替换译文中的<term1>为术语译文automobile则得到结果“Please pay attention to safety when starting a automobile.”。
基于相同的构思,本发明实施例根据上述各实施例提供一种包含术语翻译的机器翻译装置,该装置用于在上述各实施例中实现包含术语翻译的机器翻译。因此,在上述各实施例的包含术语翻译的机器翻译方法中的描述和定义,可以用于本发明实施例中各个执行模块的理解,具体可参考上述实施例,此处不在赘述。
根据本发明实施例的一个实施例,包含术语翻译的机器翻译装置的结构如图3所示,为本发明实施例提供的包含术语翻译的机器翻译装置的结构示意图,该装置可以用于实现上述各方法实施例中包含术语翻译的机器翻译,该装置包括:术语匹配模块301和术语替换翻译模块302。其中:
术语匹配模块301用于将待翻译文本按句进行分词处理,并将分词的结果与给定术语库进行术语匹配,确定待翻译文本中的术语,给定术语库内存储有源语言和目标语言术语对;术语替换翻译模块302用于将待翻译文本中的术语用占位符进行替换,并基于给定术语库,利用预先建立的目标机器翻译模型,对替换后的待翻译文本进行翻译和术语替换,获取包含术语译文的翻译结果。
具体而言,术语匹配模块301首先对待翻译文本进行句子拆分,得到待翻译文本的多个组成句子,再对所有句子逐句进行分词处理,得到每个句子对应的多个单词,即分词的结果。接下来,针对每个句子,术语匹配模块301将其分出的单词与提前准备的给定术语库进行术语匹配,确定该句子中哪些单词属于术语,并进一步可确定整个待翻译文本中的所有术语。可以理解的是,给定术语库中存储的是多个术语对,也即包含源语言术语和各源语言术语对应的目标语言术语,且二者成对关联。
在确定待翻译文本中所有的术语之后,术语替换翻译模块302即可将这些术语用占位符进行替换,得到的是带有占位符的待翻译文本,也即是替换后的待翻译文本,其实际由多个带有占位符的句子组成。之后术语替换翻译模块302利用预先得到的目标机器翻译模型对这些带有占位符的句子进行翻译,得到待占位符的译文。同时利用该目标机器翻译模型,使用给定术语库中的目标语言术语,也即是译文术语对翻译后的句子中的占位符进行替换,得到的是包含术语译文的翻译结果,实现包含术语的翻译。
本发明实施例提供的包含术语翻译的机器翻译装置,通过设置相应的执行模块,根据训练语料句对,生成满足需求的训练句对,通过在机器翻译模型的训练阶段开始干涉,训练出带术语替换功能的翻译模型,能够有效克服在后编辑带来的问题,从而有效提高翻译效率和翻译准确性。
可以理解的是,本发明实施例中可以通过硬件处理器(hardware processor)来实现上述各实施例的装置中的各相关程序模块。并且,本发明实施例的包含术语翻译的机器翻译装置利用上述各程序模块,能够实现上述各方法实施例的包含术语翻译的机器翻译流程,在用于实现上述各方法实施例中包含术语翻译的机器翻译时,本发明实施例的装置产生的有益效果与对应的上述各方法实施例相同,可以参考上述各方法实施例,此处不再赘述。
作为本发明实施例的又一个方面,本实施例根据上述各实施例提供一种电子设备,该电子设备包括存储器、处理器及存储在该存储器上并可在该处理器上运行的计算机程序,该处理器执行该计算机程序时,实现如上述各实施例所述的包含术语翻译的机器翻译方法的步骤。
进一步的,本发明实施例的电子设备还可以包括通信接口和总线。参考图4,为本发明实施例提供的电子设备的实体结构示意图,包括:至少一个存储器401、至少一个处理器402、通信接口403和总线404。
其中,存储器401、处理器402和通信接口403通过总线404完成相互间的通信,通信接口403用于该电子设备与待翻译文本数据设备之间的信息传输;存储器401中存储有可在处理器402上运行的计算机程序,处理器402执行该计算机程序时,实现如上述各实施例所述的包含术语翻译的机器翻译方法的步骤。
可以理解为,该电子设备中至少包含存储器401、处理器402、通信接口403和总线404,且存储器401、处理器402和通信接口403通过总线404形成相互间的通信连接,并可完成相互间的通信,如处理器402从存储器401中读取包含术语翻译的机器翻译方法的程序指令等。另外,通信接口403还可以实现该电子设备与待翻译文本数据设备之间的通信连接,并可完成相互间信息传输,如通过通信接口403实现待翻译文本数据的读取等。
电子设备运行时,处理器402调用存储器401中的程序指令,以执行上述各方法实施例所提供的方法,例如包括:将待翻译文本按句进行分词处理,并将分词的结果与给定术语库进行术语匹配,确定待翻译文本中的术语,给定术语库内存储有源语言和目标语言术语对;将待翻译文本中的术语用占位符进行替换,并基于给定术语库,利用预先建立的目标机器翻译模型,对替换后的待翻译文本进行翻译和术语替换,获取包含术语译文的翻译结果等。
上述的存储器401中的程序指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。或者,实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例还根据上述各实施例提供一种非暂态计算机可读存储介质,其上存储有计算机指令,该计算机指令被计算机执行时,实现如上述各实施例所述的包含术语翻译的机器翻译方法的步骤,例如包括:将待翻译文本按句进行分词处理,并将分词的结果与给定术语库进行术语匹配,确定待翻译文本中的术语,给定术语库内存储有源语言和目标语言术语对;将待翻译文本中的术语用占位符进行替换,并基于给定术语库,利用预先建立的目标机器翻译模型,对替换后的待翻译文本进行翻译和术语替换,获取包含术语译文的翻译结果等。
本发明实施例提供的电子设备和非暂态计算机可读存储介质,通过执行上述各实施例所述的包含术语翻译的机器翻译方法的步骤,根据训练语料句对,生成满足需求的训练句对,通过在机器翻译模型的训练阶段开始干涉,训练出带术语替换功能的翻译模型,能够有效克服在后编辑带来的问题,从而有效提高翻译效率和翻译准确性。
可以理解的是,以上所描述的装置、电子设备及存储介质的实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,既可以位于一个地方,或者也可以分布到不同网络单元上。可以根据实际需要选择其中的部分或全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上实施方式的描述,本领域的技术人员可以清楚地了解,各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如U盘、移动硬盘、ROM、RAM、磁碟或者光盘等,包括若干指令,用以使得一台计算机设备(如个人计算机,服务器,或者网络设备等)执行上述各方法实施例或者方法实施例的某些部分所述的方法。
另外,本领域内的技术人员应当理解的是,在本发明实施例的申请文件中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本发明实施例的说明书中,说明了大量具体细节。然而应当理解的是,本发明实施例的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。类似地,应当理解,为了精简本发明实施例公开并帮助理解各个发明方面中的一个或多个,在上面对本发明实施例的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。
然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明实施例要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明实施例的单独实施例。
最后应说明的是:以上实施例仅用以说明本发明实施例的技术方案,而非对其限制;尽管参照前述实施例对本发明实施例进行了详细的说明,本领域的技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例各实施例技术方案的精神和范围。

Claims (8)

1.一种包含术语翻译的机器翻译方法,其特征在于,包括:
将待翻译文本按句进行分词处理,并将分词的结果与给定术语库进行术语匹配,确定所述待翻译文本中的术语,所述给定术语库内存储有源语言和目标语言术语对;
将所述待翻译文本中的术语用占位符进行替换,并基于所述给定术语库,利用预先建立的目标机器翻译模型,对所述替换后的待翻译文本进行翻译和术语替换,获取包含术语译文的翻译结果;
在所述利用预先建立的目标机器翻译模型,对所述替换后的待翻译文本进行翻译和术语替换的步骤之前,还包括:
对训练语料句对进行分词处理,并根据分词结果依次进行词对齐处理和词性标注;
确定术语因子数,并基于所述术语因子数和词性标注的结果,对所述训练语料句对获取带占位符的训练样本句对;
利用所述带占位符的训练样本句对,训练初始化完成的seq2seq with attention模型,获取所述目标机器翻译模型;
所述基于所述术语因子数和词性标注的结果,对所述训练语料句对获取带占位符的训练样本句对,包括:
根据1到所述术语因子数取组合的数量,利用占位符替换训练语料句子中的给定词性的词,生成所述带占位符的训练样本句对。
2.根据权利要求1所述的包含术语翻译的机器翻译方法,其特征在于,所述对所述替换后的待翻译文本进行翻译和术语替换的步骤具体包括:
将所述替换后的待翻译文本输入所述目标机器翻译模型,获取带占位符的译文中间结果,并基于所述给定术语库,获取所述待翻译文本中的术语对应的术语译文;
利用所述术语译文替换所述带占位符的译文中间结果中的占位符,实现译文术语替换。
3.根据权利要求1所述的包含术语翻译的机器翻译方法,其特征在于,进行词性标注的步骤具体包括:
利用隐马尔科夫模型viterbi算法,对词对齐处理的结果进行给定类型的分词的词性标注。
4.根据权利要求1所述的包含术语翻译的机器翻译方法,其特征在于,具体基于cedar双数组字典树算法,实现所述术语匹配。
5.根据权利要求1所述的包含术语翻译的机器翻译方法,其特征在于,具体采用Stanford CoreNLP工具,实现所述分词处理。
6.一种包含术语翻译的机器翻译装置,其特征在于,包括:
术语匹配模块,用于将待翻译文本按句进行分词处理,并将分词的结果与给定术语库进行术语匹配,确定所述待翻译文本中的术语,所述给定术语库内存储有源语言和目标语言术语对;
术语替换翻译模块,用于将所述待翻译文本中的术语用占位符进行替换,并基于所述给定术语库,利用预先建立的目标机器翻译模型,对所述替换后的待翻译文本进行翻译和术语替换,获取包含术语译文的翻译结果;
所述装置还包括模型训练模块,用于,
对训练语料句对进行分词处理,并根据分词结果依次进行词对齐处理和词性标注;
确定术语因子数,并基于所述术语因子数和词性标注的结果,对所述训练语料句对获取带占位符的训练样本句对;
利用所述带占位符的训练样本句对,训练初始化完成的seq2seq with attention模型,获取所述目标机器翻译模型;
所述基于所述术语因子数和词性标注的结果,对所述训练语料句对获取带占位符的训练样本句对,包括:
根据1到所述术语因子数取组合的数量,利用占位符替换训练语料句子中的给定词性的词,生成所述带占位符的训练样本句对。
7.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时,实现如权利要求1至5中任一项所述的包含术语翻译的机器翻译方法的步骤。
8.一种非暂态计算机可读存储介质,其上存储有计算机指令,其特征在于,所述计算机指令被计算机执行时,实现如权利要求1至5中任一项所述的包含术语翻译的机器翻译方法的步骤。
CN201910831775.6A 2019-09-04 2019-09-04 包含术语翻译的机器翻译方法、装置与电子设备 Active CN110543644B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910831775.6A CN110543644B (zh) 2019-09-04 2019-09-04 包含术语翻译的机器翻译方法、装置与电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910831775.6A CN110543644B (zh) 2019-09-04 2019-09-04 包含术语翻译的机器翻译方法、装置与电子设备

Publications (2)

Publication Number Publication Date
CN110543644A CN110543644A (zh) 2019-12-06
CN110543644B true CN110543644B (zh) 2023-08-29

Family

ID=68712495

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910831775.6A Active CN110543644B (zh) 2019-09-04 2019-09-04 包含术语翻译的机器翻译方法、装置与电子设备

Country Status (1)

Country Link
CN (1) CN110543644B (zh)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111027332B (zh) * 2019-12-11 2023-06-02 北京百度网讯科技有限公司 生成翻译模型的方法和装置
CN111191468B (zh) * 2019-12-17 2023-08-25 语联网(武汉)信息技术有限公司 术语替换方法及装置
CN111144111A (zh) * 2019-12-30 2020-05-12 北京世纪好未来教育科技有限公司 翻译方法、装置、设备及存储介质
CN111428522B (zh) * 2020-03-23 2023-06-30 腾讯科技(深圳)有限公司 翻译语料生成方法、装置、计算机设备及存储介质
CN111460835B (zh) * 2020-03-31 2022-06-24 文思海辉智科科技有限公司 辅助翻译方法、装置及电子设备
CN111563389B (zh) * 2020-04-20 2023-11-03 富途网络科技(深圳)有限公司 一种用户原创内容的翻译方法和装置
CN113642339A (zh) * 2020-04-27 2021-11-12 北京雅信诚医学信息科技有限公司 一种提高翻译精度的机器翻译系统及其方法
CN111597826B (zh) * 2020-05-15 2021-10-01 苏州七星天专利运营管理有限责任公司 一种辅助翻译中处理术语的方法
CN111797621B (zh) * 2020-06-04 2024-05-14 语联网(武汉)信息技术有限公司 一种术语替换方法及系统
CN111652006B (zh) * 2020-06-09 2021-02-09 北京中科凡语科技有限公司 一种计算机辅助翻译方法及装置
CN112101047A (zh) * 2020-08-07 2020-12-18 江苏金陵科技集团有限公司 一种面向小语种包含精确术语匹配的机器翻译方法
CN113836947B (zh) * 2020-10-14 2024-04-16 北京中科凡语科技有限公司 机器翻译译后的术语翻译方法、装置、设备及存储介质
CN112417898A (zh) * 2020-11-24 2021-02-26 掌阅科技股份有限公司 基于关键词提示的文本翻译方法、计算设备及存储介质
CN112417897B (zh) * 2020-11-30 2023-04-07 上海携旅信息技术有限公司 词对齐模型训练、文本处理的方法、系统、设备和介质
CN112541365B (zh) * 2020-12-21 2024-05-10 语联网(武汉)信息技术有限公司 基于术语替换的机器翻译方法及装置
CN112597779A (zh) * 2020-12-24 2021-04-02 语联网(武汉)信息技术有限公司 文档翻译方法及装置
CN112766001A (zh) * 2021-01-14 2021-05-07 语联网(武汉)信息技术有限公司 企业名称翻译方法及装置
CN112800780A (zh) * 2021-01-26 2021-05-14 浙江香侬慧语科技有限责任公司 一种多语种机器翻译方法、装置、存储介质及设备
CN112766005B (zh) * 2021-01-27 2024-04-26 维沃移动通信有限公司 文本翻译方法、装置、设备及介质
CN113515959B (zh) * 2021-06-23 2022-02-11 网易有道信息技术(北京)有限公司 机器翻译模型的训练方法、机器翻译方法及相关设备
CN113392659A (zh) * 2021-06-25 2021-09-14 携程旅游信息技术(上海)有限公司 机器翻译方法、装置、电子设备和存储介质
CN113435214B (zh) * 2021-07-19 2023-04-07 广州华多网络科技有限公司 电商标题翻译方法及其相应的装置、设备、介质
CN113761953A (zh) * 2021-08-25 2021-12-07 深圳市道通科技股份有限公司 一种基于翻译引擎的专业词汇的翻译方法、工具及电子设备
CN113935339B (zh) * 2021-08-31 2023-05-23 北京百度网讯科技有限公司 翻译方法、装置、电子设备及存储介质
CN113947094A (zh) * 2021-09-29 2022-01-18 甲骨易(北京)语言科技股份有限公司 辅助翻译方法
CN114185573A (zh) * 2021-11-15 2022-03-15 甲骨易(北京)语言科技股份有限公司 一种人机交互机器翻译系统的实现和在线更新系统及方法
CN113792558B (zh) * 2021-11-16 2022-09-23 北京百度网讯科技有限公司 基于机器翻译和译后编辑的自学习翻译方法及装置
CN114841175A (zh) * 2022-04-22 2022-08-02 北京百度网讯科技有限公司 机器翻译方法、装置、设备及存储介质
CN114997190A (zh) * 2022-06-14 2022-09-02 平安科技(深圳)有限公司 机器翻译方法、装置、计算机设备和存储介质
CN115618885A (zh) * 2022-09-22 2023-01-17 无锡捷通数智科技有限公司 一种语句的翻译方法、装置、电子设备和存储介质
CN116822517B (zh) * 2023-08-29 2023-11-10 百舜信息技术有限公司 一种多语言翻译的术语识别方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106250375A (zh) * 2016-08-09 2016-12-21 北京百度网讯科技有限公司 翻译处理方法及装置
CN108090050A (zh) * 2017-11-08 2018-05-29 江苏名通信息科技有限公司 基于深度神经网络的游戏翻译系统
CN109299480A (zh) * 2018-09-04 2019-02-01 上海传神翻译服务有限公司 基于上下文语境的术语翻译方法及装置
CN109344413A (zh) * 2018-10-16 2019-02-15 北京百度网讯科技有限公司 翻译处理方法和装置
CN109582955A (zh) * 2018-11-14 2019-04-05 金色熊猫有限公司 医疗术语的标准化方法、装置及介质
CN109670180A (zh) * 2018-12-21 2019-04-23 语联网(武汉)信息技术有限公司 向量化译员的翻译个性特征的方法及装置
CN109840331A (zh) * 2019-01-31 2019-06-04 沈阳雅译网络技术有限公司 一种基于用户词典的神经机器翻译方法
EP3493119A1 (en) * 2017-12-04 2019-06-05 Samsung Electronics Co., Ltd. Language processing method and apparatus
CN109902314A (zh) * 2019-04-18 2019-06-18 中译语通科技股份有限公司 一种术语的翻译方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011016078A1 (ja) * 2009-08-04 2011-02-10 株式会社 東芝 機械翻訳装置および翻訳プログラム
CN106649288B (zh) * 2016-12-12 2020-06-23 北京百度网讯科技有限公司 基于人工智能的翻译方法和装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106250375A (zh) * 2016-08-09 2016-12-21 北京百度网讯科技有限公司 翻译处理方法及装置
CN108090050A (zh) * 2017-11-08 2018-05-29 江苏名通信息科技有限公司 基于深度神经网络的游戏翻译系统
EP3493119A1 (en) * 2017-12-04 2019-06-05 Samsung Electronics Co., Ltd. Language processing method and apparatus
CN109299480A (zh) * 2018-09-04 2019-02-01 上海传神翻译服务有限公司 基于上下文语境的术语翻译方法及装置
CN109344413A (zh) * 2018-10-16 2019-02-15 北京百度网讯科技有限公司 翻译处理方法和装置
CN109582955A (zh) * 2018-11-14 2019-04-05 金色熊猫有限公司 医疗术语的标准化方法、装置及介质
CN109670180A (zh) * 2018-12-21 2019-04-23 语联网(武汉)信息技术有限公司 向量化译员的翻译个性特征的方法及装置
CN109840331A (zh) * 2019-01-31 2019-06-04 沈阳雅译网络技术有限公司 一种基于用户词典的神经机器翻译方法
CN109902314A (zh) * 2019-04-18 2019-06-18 中译语通科技股份有限公司 一种术语的翻译方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王子航 ; .机器翻译技术的研究和发展.电子制作.2018,(第22期),全文. *

Also Published As

Publication number Publication date
CN110543644A (zh) 2019-12-06

Similar Documents

Publication Publication Date Title
CN110543644B (zh) 包含术语翻译的机器翻译方法、装置与电子设备
US10108607B2 (en) Method and device for machine translation
US20230394242A1 (en) Automated translation of subject matter specific documents
US8612206B2 (en) Transliterating semitic languages including diacritics
JP7100747B2 (ja) 学習データ生成方法および装置
CN100437557C (zh) 基于语言知识库的机器翻译方法与装置
US10339924B2 (en) Processing speech to text queries by optimizing conversion of speech queries to text
CN114036300A (zh) 一种语言模型的训练方法、装置、电子设备及存储介质
US11604929B2 (en) Guided text generation for task-oriented dialogue
Hassani BLARK for multi-dialect languages: towards the Kurdish BLARK
Li et al. Improving text normalization using character-blocks based models and system combination
Alhassan et al. A novel framework for Arabic dialect chatbot using machine learning
CN112417897A (zh) 词对齐模型训练、文本处理的方法、系统、设备和介质
WO2022256144A1 (en) Application-specific optical character recognition customization
EP4276677A1 (en) Cross-language data enhancement-based word segmentation method and apparatus
Rasooli et al. Unsupervised morphology-based vocabulary expansion
Gerlach Improving statistical machine translation of informal language: a rule-based pre-editing approach for French forums
CN116909435A (zh) 一种数据处理方法、装置、电子设备及存储介质
Ramesh et al. Interpretable natural language segmentation based on link grammar
CN111126066B (zh) 基于神经网络的中文修辞手法的确定方法和装置
Mammadov et al. Part-of-speech tagging for azerbaijani language
Martínez et al. How many words does ChatGPT know? The answer is ChatWords
Babhulgaonkar et al. Experimenting with factored language model and generalized back-off for Hindi
CN110750989A (zh) 一种语句分析的方法及装置
Tohma et al. Challenges Encountered in Turkish Natural Language Processing Studies

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant