CN115936018A - 一种术语翻译方法、装置、电子设备及存储介质 - Google Patents
一种术语翻译方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN115936018A CN115936018A CN202211664335.4A CN202211664335A CN115936018A CN 115936018 A CN115936018 A CN 115936018A CN 202211664335 A CN202211664335 A CN 202211664335A CN 115936018 A CN115936018 A CN 115936018A
- Authority
- CN
- China
- Prior art keywords
- term
- text
- translation
- translated
- corpus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 238000003860 storage Methods 0.000 title claims abstract description 19
- 238000013519 translation Methods 0.000 claims abstract description 206
- 238000004590 computer program Methods 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 13
- 238000004422 calculation algorithm Methods 0.000 claims description 10
- 230000014616 translation Effects 0.000 description 178
- 239000011159 matrix material Substances 0.000 description 28
- 238000010586 diagram Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000012552 review Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 208000031968 Cadaver Diseases 0.000 description 1
- 101100261006 Salmonella typhi topB gene Proteins 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 101150032437 top-3 gene Proteins 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
本公开公开了一种术语翻译方法、装置、电子设备及存储介质。术语翻译方法,包括:从翻译库中匹配对应待翻译文本的平行语料;将匹配得到的平行语料所对应的术语对,确定为对应所述待翻译文本的术语对,所述待翻译文本对应的术语对包括源语言的第一术语和目标语言的第二术语,所述第一术语和所述第二术语对应同一语义;在术语对中第一术语包含在所述待翻译文本内时,将所述待翻译文本内第一术语替换为所述术语对中第二术语,得到伪翻译文本;将所述伪翻译文本输入至翻译模型,得到所述待翻译文本的翻译结果。实现了对待翻译文本中术语的翻译。然后将伪翻译文本输入至翻译模型,得到包含翻译文本的翻译结果,提高了包含术语的文本的翻译精准度。
Description
技术领域
本公开涉及机器翻译技术领域,尤其涉及一种术语翻译方法、装置、电子设备及存储介质。
背景技术
机器翻译,又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。
在机器翻译(自动化翻译)领域,术语翻译即是难点,也是重点。术语是在特定专业学科中的专门用语,是其领域内某概念词语的指称。
目前主流机器翻译模型大都借助神经网络模型和平行语料训练得到,而术语在语料中较为稀疏,导致模型对其翻译效果较差。
发明内容
本公开提供了一种术语翻译方法、装置、电子设备及存储介质,以解决包括术语的语料翻译效果较差的技术问题。
根据本公开的一方面,提供了一种术语翻译方法,包括:
从翻译库中匹配对应待翻译文本的平行语料;
将匹配得到的平行语料所对应的术语对,确定为对应所述待翻译文本的术语对,所述待翻译文本对应的术语对包括源语言的第一术语和目标语言的第二术语,所述第一术语和所述第二术语对应同一语义;
在所述术语对中第一术语包含在所述待翻译文本内时,将所述待翻译文本内第一术语替换为所述术语对中第二术语,得到伪翻译文本;
将所述伪翻译文本输入至翻译模型,得到所述待翻译文本的翻译结果。
根据本公开的另一方面,提供了一种术语翻译装置,包括:
匹配模块,用于从翻译库中匹配对应待翻译文本的平行语料;
确定模块,用于将匹配得到的平行语料所对应的术语对,确定为对应所述待翻译文本的术语对,所述待翻译文本对应的术语对包括源语言的第一术语和目标语言的第二术语,所述第一术语和所述第二术语对应同一语义;
替换模块,用于在所述术语对中第一术语包含在所述待翻译文本内时,将所述待翻译文本内第一术语替换为所述术语对中第二术语,得到伪翻译文本;
翻译模块,用于将所述伪翻译文本输入至翻译模型,得到所述待翻译文本的翻译结果。
根据本公开的另一方面,提供了一种电子设备,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开实施例中任一项所述的术语翻译方法。
根据本公开的另一方面,提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本公开实施例中任一项所述的术语翻译方法
本公开实施例的技术方案,在对待翻译文本翻译时,从翻译库中匹配对应待翻译文本的平行语料;将匹配得到的平行语料所对应的术语对,确定为对应所述待翻译文本的术语对,所述待翻译文本对应的术语对包括源语言的第一术语和目标语言的第二术语,所述第一术语和所述第二术语对应同一语义;在所述术语对中第一术语包含在所述待翻译文本内时,将所述待翻译文本内第一术语替换为所述术语对中第二术语,得到伪翻译文本;将所述伪翻译文本输入至翻译模型,得到所述待翻译文本的翻译结果。通过文本匹配确定了对应待翻译文本的术语对,然后将待翻译文本中所包括第一术语替换为目标语言的第二术语,得到伪翻译文本,实现了对待翻译文本中术语的翻译。然后将伪翻译文本输入至翻译模型,得到包含翻译文本的翻译结果,提高了包含术语的文本的翻译精准度。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
为了更清楚地说明本公开实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本公开实施例提供的一种术语翻译方法的流程图;
图2是根据本公开实施例提供的又一种术语翻译方法的流程示意图;
图3是本公开实施例提供的一种术语翻译整体流程示意图;
图4是本公开实施例提供的具体翻译场景下的翻译示意图;
图5是本公开实施例提供的一种词对齐示意图;
图6是本公开实施例提供的一种机器翻译流程示意图;
图7是根据本公开实施例提供的一种术语翻译装置的结构示意图;
图8是实现本公开实施例的术语翻译方法的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本公开方案,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分的实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本公开保护的范围。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“目标”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”、“包含”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
图1是根据本公开实施例提供的一种术语翻译方法的流程图,本实施例可适用于对文本进行翻译的情况,该方法可以由术语翻译装置来执行,该术语翻译装置可以采用硬件和/或软件的形式实现,该术语翻译装置可配置于电子设备中。电子设备包括但不限于电脑、手机、个人数字助理等。如图1所示,该方法包括:
S110、从翻译库中匹配对应待翻译文本的平行语料。
翻译库可以认为是用于进行待翻译文本翻译的数据库。翻译库内包括有多个平行语料,平行语料可以认为是表示同一含义的不同语言表述的语料。平行语料内包括有术语。
待翻译文本可以认为是待进行翻译的文本。文本,是指书面语言的表现形式,从文学角度说,通常是具有完整、系统含义的一个句子或多个句子的组合。一个文本可以是一个句子、一个段落或者一个篇章。
本实施例不限定匹配得到对应待翻译文本的平行语料的技术手段,可以将待翻译文本,与翻译库中与待翻译文本为同一语言下的文本进行匹配,以得到对应待翻译文本的平行语料。
对应待翻译文本的平行语料可以认为是翻译库中匹配得到的与待翻译文本相似度高于设定阈值的平行语料。如翻译库中与待翻译文本为同一语言下的文本中,与待翻译文本的相似度高于设定阈值的文本作为对应待翻译文本的第一文本,由第一文本形成的平行语料作为待翻译文本的平行语料。
从翻译库中匹配得到的平行语料可以为一个或多个。
示例性的,以待翻译文本为“黑客帝国电影评价”为例,翻译库中与待翻译文本匹配的平行语料可以为源语言的“黑客帝国评价”和目标语言的“The Matrix moviereview”。平行语料对应的术语对为“黑客帝国”和“The Matrix”。
在匹配得到的平行语料为多个时,可以针对每个平行语料分别执行如下步骤,从而得到对应的翻译结果。
在平行语料为多个时,可以仅有一个平行语料对应的第一术语包含在待翻译文本中,故将该第一术语对应的第二术语替换后,得到伪翻译文本。从而基于该伪翻译文本得到翻译结果。伪翻译文本可以认为是未翻译完成的文本。伪翻译文本中部分或全部术语翻译为目标语言的术语。
在平行语料为多个时,可以有多个平行语料对应的第一术语包含在待翻译文本中,可以将每个第一术语对应的第二术语替换后,分别作为伪翻译文本,从而基于伪翻译文本得到翻译结果。
在一个实施例中,所述翻译库包括平行语料和所述平行语料对应的术语对,所述平行语料包括源语言的第一文本和目标语言的第二文本,所述术语对为所述平行语料内包括的源语言的术语和对应的目标语言的术语。
第一文本和第二文本对应同一语义,为不同语言下的同一意思表达。
翻译库包括多个平行语料。平行语料中部分或全部可以对应有术语对。术语对可以为平行语料中所出现术语所形成的。
翻译库中术语对可以在平行语料的基础上添加。如可以将术语对与平行语料关联。在关联时,若术语对中每个术语分别位于所对应语料中,则将该术语对于该平行语料关联。如将术语对中源语言的术语和平行语料中源语言的语料匹配,确定是否包含在源语言的语料中。将术语对中目标语言的术语和平行语料中目标语言的语料匹配,确定是否包含在目标语言的语料中。若均是,将术语对于该平行语料关联。
S120、将匹配得到的平行语料所对应的术语对,确定为对应所述待翻译文本的术语对。
所述待翻译文本对应的术语对包括源语言的第一术语和目标语言的第二术语,所述第一术语和所述第二术语对应同一语义。
第一文本和第二文本为不同语言下表征统一含义的文本。如术语对为黑客帝国与The Matrix。
在匹配得到平行语料所对应的术语对后,可以将该术语对确定为待翻译文本的术语对,以用于对待翻译文本翻译使用。
S130、在所述术语对中第一术语包含在所述待翻译文本内时,将所述待翻译文本内第一术语替换为所述术语对中第二术语,得到伪翻译文本。
在确定待翻译文本的术语对后,可以确定术语对中第一文本是否包含在待翻译文本内,若是,则可以使用对应第一文本的第二文本替换待翻译文本内的第一文本,实现对第一文本的翻译。
以一个术语对为例进行说明,多个术语对的操作与一个术语对的操作相同,即多个术语对中每个术语对分别执行术语替换操作,最终得到伪翻译文本。
示例性的,以待翻译文本为“黑客帝国电影评价”,术语对为“黑客帝国”和“TheMatrix”,第一术语为黑客帝国,第二术语为The Matrix。伪翻译文本为The Matrix电影评价。
S140、将所述伪翻译文本输入至翻译模型,得到所述待翻译文本的翻译结果。
翻译模型可以认为是进行翻译的模型。翻译结果可以认为是待翻译文本的翻译后的结果。翻译结果为目标语言的结果。本公开将源语言的待翻译文本范围为目标语言的翻译结果。
得到翻译文本后可以将伪翻译文本输入至翻译模型,得到翻译结果。
在术语对中第一术语不包含在待翻译文本中,本公开可以将待翻译文本输入至翻译模型,得到待翻译文本的翻译结果。
在对待翻译文本翻译时,从翻译库中匹配对应待翻译文本的平行语料;将匹配得到的平行语料所对应的术语对,确定为对应所述待翻译文本的术语对,所述待翻译文本对应的术语对包括源语言的第一术语和目标语言的第二术语,所述第一术语和所述第二术语对应同一语义;在所述术语对中第一术语包含在所述待翻译文本内时,将所述待翻译文本内第一术语替换为所述术语对中第二术语,得到伪翻译文本;将所述伪翻译文本输入至翻译模型,得到所述待翻译文本的翻译结果。通过文本匹配确定了对应待翻译文本的术语对,然后将待翻译文本中所包括第一术语替换为目标语言的第二术语,得到伪翻译文本,实现了对待翻译文本中术语的翻译。然后将伪翻译文本输入至翻译模型,得到包含翻译文本的翻译结果,提高了包含术语的文本的翻译精准度。
图2是根据本公开实施例提供的又一种术语翻译方法的流程示意图,本实施例细化了确定平行语料的具体手段。如图2所示,该方法包括:
S210、通过倒排索引得到所述翻译库中对应所述待翻译文本的多个候选语料。
本实施例在从翻译库中匹配对应待翻译文本的平行语料时,可以首先通过倒排索引得到翻译库中待翻译文本的多个候选语料。
翻译库中平行语料中每个语料可以分别作为索引,以供基于倒排索引技术从翻译库中得到对应的多个候选语料。
在一个实施例中,Elasticsearch使用一种称为倒排索引的结构,适用于快速的全文搜索。一个倒排索引由文档中所有不重复词的列表构成,对于其中每个词,有一个包含该词的文档列表。
S220、针对所述多个候选语料中的每个候选语料,确定所述候选语料中目标文本与所述待翻译文本的相似度。
所述目标文本与所述待翻译文本属于同一语种,即属于同一语言。本步骤分别确定每个候选语料与待翻译文本的相似度。即候选语料中目标文本与待翻译文本的相似度。候选语料可以认为候选的作为待翻译文本的平行语料的语料。
本实施例先通过倒排索引从翻译库中选取多个候选语料,然后基于相似度从多个候选语料中筛选部分语料作为对应的平行语料。
S230、基于多个候选语料对应的相似度,从多个候选语料中选取对应所述待翻译文本的平行语料。
本步骤可以选取设定个数个平行语料,也可以选取大于设定阈值的语料作为平行语料。
如将多个候选语料对应的相似度从大到小排序,按照从大到小的顺序选取设定个数个候选语料作为对应待翻译文本的平行语料。
S240、将匹配得到的平行语料所对应的术语对,确定为对应所述待翻译文本的术语对。
所述待翻译文本对应的术语对包括源语言的第一术语和目标语言的第二术语,所述第一术语和所述第二术语对应同一语义。
S250、在所述术语对中第一术语包含在所述待翻译文本内时,将所述待翻译文本内第一术语替换为所述术语对中第二术语,得到伪翻译文本。
在平行语料为多个时,可以分别确定对应的术语对中第一术语是否包含在待翻译文本内,若是,将待翻译文本内第一术语替换为第二术语,得到伪翻译文本。
S260、将所述伪翻译文本输入至翻译模型,得到所述待翻译文本的翻译结果。
本实施例细化了确定平行语料的具体手段,在确定平行语料时分别经过倒排索引和相似度确定,提高了平行语料的确定速度和准确度。
在一个实施例中,所述翻译模型通过如下操作训练得到:
确定样本语料中所包括的术语语料,所述术语语料包括源语言的第三术语和对应的目标语言的第四术语;
将所述样本语料中源语言所对应语料中第三术语替换为对应的第四术语;
基于替换后的样本语料进行模型训练得到所述翻译模型。
样本语料可以认为是用于得到作为训练模型的样本的语料。样本语料中包括表达同一语义的源语言的语料和目标语言的语料。
样本语料中包含有术语语料,术语语料可以认为是术语。第三术语可以是源语言形式的术语。第四术语可以是目标语言的术语。第三术语包含在源语言的样本语料中,第四术语包含在目标语言的样本语料中。
第三术语和第四术语表达同一语义。
确定完样本语料中术语语料后,可以样本语料中将源语言的语料中的第三术语替换为第四术语,以实现术语的翻译。
在替换第三术语后,将替换后的样本语料作为样本数据,用于进行模型训练,以得到翻译模型。
在一个实施例中,所述确定样本语料中所包括的术语语料,包括:
从术语语料集中选取候选术语,所述候选术语包括源语言的术语和目标语言的术语;
若所述候选术语中各术语分别包含在所述样本语料对应语料内,则将所述候选术语确定为所述样本语料所包括的术语语料;否则,继续从术语语料集中选取下一个候选术语,直至确定出所述样本语料所包括的术语语料或所述术语语料集遍历完毕。
候选术语可以认为是候选作为样本语料所包括术语语料的语料。本实施例可以将术语语料集中任一术语语料作为候选语术语,然后将候选术语中源语言的术语和目标语言的术语分别与样本语料中对应语料进行匹配,确定是否包含在对应语料内,若是,则将候选术语确定为样本语料所包括的术语语料。否则,继续选取下一个候选术语,每次选取的候选术语不同。
在术语语料集遍历完毕后若没有确定出样本语料的术语语料。则可以按照如下方式确定样本语料所包括的术语语料。
在一个实施例中,所述确定样本语料中所包括的术语语料,包括:
确定样本语料的词对齐结果;
融合所述词对齐结果,得到短语对齐结果;
将所述短语对齐结果确定为所述样本语料中所包括的术语语料。
词对齐结果可以认为是将样本语料中词进行对齐后的结果。短语对齐结果可以认为是基于词对齐结果,将样本语料中短语进行对齐后的结果。
本实施例可以将短语对齐结果作为样本语料中所包括术语语料。
在一个实施例中,所述确定样本语料的词对齐结果,包括:
在采用非对称算法确定词对齐结果时,分别确定源语言至目标语言的词对齐结果和目标语言至源语言的词对齐结果。
非对称算法确定词对齐结果时,分别确定从源语言到目标语言的词对齐结果,和从目标语言到源语言的词对齐结果。得到两组词对齐结果后,融合词对齐结果得到短语对齐结果。
以下对本公开进行示例性描述,本公开提供的术语翻译方法可以认为是一种解决机器翻译领域术语一词多义的方法。
目前主流机器翻译模型大都借助神经网络模型和平行语料训练得到,而术语在语料中较为稀疏,导致模型对其翻译效果不好;特定领域对术语有严格的定义,所以对术语翻译质量要求较高;术语是领域相关的,比如英文短语“The Matrix”,在电影领域其对应的翻译是“黑客帝国”,但是在数学领域其对应的翻译是“矩阵”,综上所述,术语翻译是机器翻译领域中的一大挑战。
本公开使用词对齐、代码转换(即code-switching)方法、翻译记忆库(即翻译库)以及句子检索技术,不但解决了术语翻译问题,而且兼顾了术语的一词多义问题。
图3是本公开实施例提供的一种术语翻译整体流程示意图,参见图3,首先用户输入待翻译句子,即待翻译文本,然后检索翻译记忆库,根据检索结果改造用户输入,得到伪输入,即伪翻译文本。检索翻译记忆库匹配对应待翻译文本的平行语料;将匹配得到的平行语料所对应的术语对,确定为对应所述待翻译文本的术语对。在所述术语对中第一术语包含在所述待翻译文本内时,将所述待翻译文本内第一术语替换为所述术语对中第二术语,得到伪翻译文本。最后将伪输入送给翻译模型,得到翻译结果。
图4是本公开实施例提供的具体翻译场景下的翻译示意图,参见图4,以“TheMatrix is a good movie”为例,流程如下:
输入待翻译文本“The Matrix is a good movie”,从翻译库中匹配对应待翻译文本的平行语料“The Matrix movie review”和:“黑客帝国电影评价”,进而确定对应的术语对“The Matrix”和“黑客帝国”。然后将待翻译文本中“The Matrix”替换为“黑客帝国”,即将所述待翻译文本内第一术语替换为所述术语对中第二术语,得到伪翻译文本“黑客帝国is a good movie”。将伪翻译文本输入翻译模型,得到翻译结果“电影黑客帝国很好看”。
本公开从准备阶段到翻译阶段可以包括如下步骤:
首先进行翻译库,即翻译记忆库制作:翻译记忆库是指高质量的平行语料库,本公开使用2800W+中英平行语料以及200W+双语术语词表,产生了1000W+条如下格式翻译记忆库。表1是本公开实施例提供的一种翻译库的示意表。
表1本公开实施例提供的一种翻译库的示意表
本公开使用Elasticsearch工具对中文、英文分别建立索引。
其次进行训练语料制作:
在训练语料制作即作为样本的语料的制作时,采用Code-switching方法。Code-switching方法是一种编码替换的技术,在机器翻译领域主要用于语料的制作,本公开使用code-switching方法把原始的双语平行语料(以中翻英为例):“黑客帝国电影评价”和“TheMatrix movie review”变为:“The Matrix电影评价”和“The Matrix movie review”。“TheMatrix电影评价”和“The Matrix movie review”为替换后的样本语料。The Matrix为第四术语。
本公开在制作code-switching语料过程中,不仅使用了200W+的术语语料(即从术语语料集中选取候选术语,所述候选术语包括源语言的术语和目标语言的术语;若所述候选术语中各术语分别包含在所述样本语料对应语料内,则将所述候选术语确定为所述样本语料所包括的术语语料;否则,继续从术语语料集中选取下一个候选术语,直至确定出所述样本语料所包括的术语语料或所述术语语料集遍历完毕),同时使用了词对齐技术得到的短语对齐结果,然后得到短语对齐结果,即确定样本语料的词对齐结果;融合所述词对齐结果,得到短语对齐结果;将所述短语对齐结果确定为所述样本语料中所包括的术语语料。
本公开所使用的词对齐技术是基于transformer的神经网络词对齐算法结果,也可使用fastalign、Giza++等工具。
图5是本公开实施例提供的一种词对齐示意图,参见图5,基于transformer的神经网络词对齐算法,(1)使用基于transformer神经元的5层Seq2Seq+Attention神经网络结构训练神经翻译模型;(2)提取t+1步第3层的Encoder-Decoder Attention权重,取最大值作为第t步输出yt到某个输入xs的对齐,即目标语言到源语言的词(BPE分词)对齐。具体网络结构如图5。
其中:X表示源语言输入,H表示源语言通过Encoder之后的表征矩阵,y表示目标语言的每个词语,Encoder-Decoder Attention权重wl t计算公式如下:
由于基于transformer的神经网络词对齐算法是非对称算法,本公开同时训练了源语言至目标语言、目标语言至源语言两个对齐模型,即可得到源语言至目标语言、目标语言至源语言两组词对齐结果。
得到两组词对齐结果后,本公开使用grow-diagonal-final算法融合两组词对齐结果,并遵循如下相容性原则,提取短语对齐:
如果双语短语,则:即如果词属于双语短语中源语言对应短语,那么词的对齐结果属于词对齐结果,从而推导出对齐的词属于双语短语中目标语言对应的短语,如,如果黑客属于黑客帝国,那么会出现黑客和The Matrix属于词对齐结果A,从而推导出The Matrix属于The Matrix,以约束从对齐的词语到对齐的短语间不穿插其余内容;
其中,y表示目标语言,x表示源语言。
然后进行模型训练:本公开使用经典的基于transformer的seq2seq机器翻译框架,使用code-switching得到的语料训练得到翻译模型。即基于替换后的样本语料进行模型训练得到所述翻译模型。
图6是本公开实施例提供的一种机器翻译流程示意图,机器翻译推理阶段是根据用户的输入给出翻译结果,本公开结合句子检索技术和code-switching方法,从翻译记忆库中找到和用户输入最相似的句子,并使用对应双语术语把用户的输入改为和训练模型时一样的格式。
参见图6,用户输入待翻译句子,即待翻译文本后,使用elasticsearch召回top100,即通过倒排索引得到所述翻译库中对应所述待翻译文本的多个候选语料。然后采用分布式表征相似度计算得到top3,即针对所述多个候选语料中的每个候选语料,确定所述候选语料中目标文本与所述待翻译文本的相似度,所述目标文本与所述待翻译文本属于同一语种;基于多个候选语料对应的相似度,从多个候选语料中选取对应所述待翻译文本的平行语料。
依次查看三条翻译记忆库对应的双语术语是否包含在用户的输入内,判断所述术语对中第一术语是否包含在所述待翻译文本内。若是,得到伪输入,即将所述待翻译文本内第一术语替换为所述术语对中第二术语,得到伪翻译文本;否则,将原始的待翻译文本输入至翻译模型,得到翻译结果。
在机器翻译领域,本公开在输入翻译模型前,先基于翻译库进行术语翻译,然后将伪翻译文本输入翻译模型以进行翻译。实现了通过术语翻译,低成本、高效地完成翻译模型的领域迁移问题,而不需要在新的领域重新训练一个新的翻译模型。在输入模型前已经进行了术语翻译,无需为不同领域训练各自的翻译模型。翻译库中可以包括有多个领域的平行语料和对应的术语对。
本公开解决了术语一词多义问题;本公开在制作语料时,使用的基于transformer的短语对齐,做出来的语料更丰富,学习到的模型质量更好;实验证明,本公开对术语翻译的准确率达到90%(如电影相关领域测试集)。
图7是根据本公开实施例提供的一种术语翻译装置的结构示意图。该装置可以集成在电子设备上,如图7所示,该装置包括:
匹配模块710,用于从翻译库中匹配对应待翻译文本的平行语料;
确定模块720,用于将匹配得到的平行语料所对应的术语对,确定为对应所述待翻译文本的术语对,所述待翻译文本对应的术语对包括源语言的第一术语和目标语言的第二术语,所述第一术语和所述第二术语对应同一语义;
替换模块730,用于在所述术语对中第一术语包含在所述待翻译文本内时,将所述待翻译文本内第一术语替换为所述术语对中第二术语,得到伪翻译文本;
翻译模块740,用于将所述伪翻译文本输入至翻译模型,得到所述待翻译文本的翻译结果。
在一个实施例中,所述翻译库包括平行语料和所述平行语料对应的术语对,所述平行语料包括源语言的第一文本和目标语言的第二文本,所述术语对为所述平行语料内包括的源语言的术语和对应的目标语言的术语。
在一个实施例中,匹配模块710,具体用于通过倒排索引得到所述翻译库中对应所述待翻译文本的多个候选语料;
针对所述多个候选语料中的每个候选语料,确定所述候选语料中目标文本与所述待翻译文本的相似度,所述目标文本与所述待翻译文本属于同一语种;
基于多个候选语料对应的相似度,从多个候选语料中选取对应所述待翻译文本的平行语料。
在一个实施例中,所述翻译模型通过如下操作训练得到:
确定样本语料中所包括的术语语料,所述术语语料包括源语言的第三术语和对应的目标语言的第四术语;
将所述样本语料中源语言所对应语料中第三术语替换为对应的第四术语;
基于替换后的样本语料进行模型训练得到所述翻译模型。
在一个实施例中,所述确定样本语料中所包括的术语语料,包括:
从术语语料集中选取候选术语,所述候选术语包括源语言的术语和目标语言的术语;
若所述候选术语中各术语分别包含在所述样本语料对应语料内,则将所述候选术语确定为所述样本语料所包括的术语语料;否则,继续从术语语料集中选取下一个候选术语,直至确定出所述样本语料所包括的术语语料或所述术语语料集遍历完毕。
在一个实施例中,所述确定样本语料中所包括的术语语料,包括:
确定样本语料的词对齐结果;
融合所述词对齐结果,得到短语对齐结果;
将所述短语对齐结果确定为所述样本语料中所包括的术语语料。
在一个实施例中,所述确定样本语料的词对齐结果,包括:
在采用非对称算法确定词对齐结果时,分别确定源语言至目标语言的词对齐结果和目标语言至源语言的词对齐结果。
本公开实施例所提供的术语翻译装置可执行本公开任意实施例所提供的术语翻译方法,具备执行方法相应的功能模块和有益效果。
图8是实现本公开实施例的术语翻译方法的电子设备的结构示意图。图8示出了可以用来实施本公开的实施例的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备10还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图8所示,电子设备10包括至少一个处理器11,以及与至少一个处理器11通信连接的存储器,如只读存储器(ROM)12、随机访问存储器(RAM)13等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序,来执行各种适当的动作和处理。在RAM 13中,还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。
电子设备10中的多个部件连接至I/O接口15,包括:输入单元16,例如键盘、鼠标等;输出单元17,例如各种类型的显示器、扬声器等;存储单元18,例如磁盘、光盘等;以及通信单元19,例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理,例如术语翻译方法。
在一些实施例中,术语翻译方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元18。在一些实施例中,计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11执行时,可以执行上文描述的术语翻译方法的一个或多个步骤。备选地,在其他实施例中,处理器11可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行术语翻译方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (10)
1.一种术语翻译方法,其特征在于,包括:
从翻译库中匹配对应待翻译文本的平行语料;
将匹配得到的平行语料所对应的术语对,确定为对应所述待翻译文本的术语对,所述待翻译文本对应的术语对包括源语言的第一术语和目标语言的第二术语,所述第一术语和所述第二术语对应同一语义;
在所述术语对中第一术语包含在所述待翻译文本内时,将所述待翻译文本内第一术语替换为所述术语对中第二术语,得到伪翻译文本;
将所述伪翻译文本输入至翻译模型,得到所述待翻译文本的翻译结果。
2.根据权利要求1所述的方法,其特征在于,
所述翻译库包括平行语料和所述平行语料对应的术语对,所述平行语料包括源语言的第一文本和目标语言的第二文本,所述术语对为所述平行语料内包括的源语言的术语和对应的目标语言的术语。
3.根据权利要求1所述的方法,其特征在于,所述从翻译库中匹配对应待翻译文本的平行语料,包括:
通过倒排索引得到所述翻译库中对应所述待翻译文本的多个候选语料;
针对所述多个候选语料中的每个候选语料,确定所述候选语料中目标文本与所述待翻译文本的相似度,所述目标文本与所述待翻译文本属于同一语种;
基于多个候选语料对应的相似度,从多个候选语料中选取对应所述待翻译文本的平行语料。
4.根据权利要求1所述的方法,其特征在于,所述翻译模型通过如下操作训练得到:
确定样本语料中所包括的术语语料,所述术语语料包括源语言的第三术语和对应的目标语言的第四术语;
将所述样本语料中源语言所对应语料中第三术语替换为对应的第四术语;
基于替换后的样本语料进行模型训练得到所述翻译模型。
5.根据权利要求4所述的方法,其特征在于,所述确定样本语料中所包括的术语语料,包括:
从术语语料集中选取候选术语,所述候选术语包括源语言的术语和目标语言的术语;
若所述候选术语中各术语分别包含在所述样本语料对应语料内,则将所述候选术语确定为所述样本语料所包括的术语语料;否则,继续从术语语料集中选取下一个候选术语,直至确定出所述样本语料所包括的术语语料或所述术语语料集遍历完毕。
6.根据权利要求4所述的方法,其特征在于,所述确定样本语料中所包括的术语语料,包括:
确定样本语料的词对齐结果;
融合所述词对齐结果,得到短语对齐结果;
将所述短语对齐结果确定为所述样本语料中所包括的术语语料。
7.根据权利要求6所述的方法,其特征在于,所述确定样本语料的词对齐结果,包括:
在采用非对称算法确定词对齐结果时,分别确定源语言至目标语言的词对齐结果和目标语言至源语言的词对齐结果。
8.一种术语翻译装置,其特征在于,包括:
匹配模块,用于从翻译库中匹配对应待翻译文本的平行语料;
确定模块,用于将匹配得到的平行语料所对应的术语对,确定为对应所述待翻译文本的术语对,所述待翻译文本对应的术语对包括源语言的第一术语和目标语言的第二术语,所述第一术语和所述第二术语对应同一语义;
替换模块,用于在所述术语对中第一术语包含在所述待翻译文本内时,将所述待翻译文本内第一术语替换为所述术语对中第二术语,得到伪翻译文本;
翻译模块,用于将所述伪翻译文本输入至翻译模型,得到所述待翻译文本的翻译结果。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的术语翻译方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的术语翻译方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211664335.4A CN115936018A (zh) | 2022-12-23 | 2022-12-23 | 一种术语翻译方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211664335.4A CN115936018A (zh) | 2022-12-23 | 2022-12-23 | 一种术语翻译方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115936018A true CN115936018A (zh) | 2023-04-07 |
Family
ID=86697806
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211664335.4A Pending CN115936018A (zh) | 2022-12-23 | 2022-12-23 | 一种术语翻译方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115936018A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118410811A (zh) * | 2024-03-28 | 2024-07-30 | 广州逸虎网络科技有限公司 | 文本翻译方法、装置、设备以及存储介质 |
-
2022
- 2022-12-23 CN CN202211664335.4A patent/CN115936018A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118410811A (zh) * | 2024-03-28 | 2024-07-30 | 广州逸虎网络科技有限公司 | 文本翻译方法、装置、设备以及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8521516B2 (en) | Linguistic key normalization | |
US20130060769A1 (en) | System and method for identifying social media interactions | |
WO2021174864A1 (zh) | 基于少量训练样本的信息抽取方法及装置 | |
JP7335300B2 (ja) | 知識事前訓練モデルの訓練方法、装置及び電子機器 | |
CN113590796B (zh) | 排序模型的训练方法、装置和电子设备 | |
CN113053367A (zh) | 语音识别方法、语音识别的模型训练方法以及装置 | |
CN110737774A (zh) | 图书知识图谱的构建、图书推荐方法、装置、设备及介质 | |
CN110874536A (zh) | 语料质量评估模型生成方法和双语句对互译质量评估方法 | |
CN112528681A (zh) | 跨语言检索及模型训练方法、装置、设备和存储介质 | |
CN114417879B (zh) | 跨语言文本语义模型的生成方法、装置及电子设备 | |
KR102608867B1 (ko) | 업계 텍스트를 증분하는 방법, 관련 장치 및 매체에 저장된 컴퓨터 프로그램 | |
CN114398943B (zh) | 样本增强方法及其装置 | |
CN118364916A (zh) | 一种基于大语言模型和知识图谱的新闻检索方法及系统 | |
CN115936018A (zh) | 一种术语翻译方法、装置、电子设备及存储介质 | |
Zhu | Deep learning for Chinese language sentiment extraction and analysis | |
Xue et al. | A method of chinese tourism named entity recognition based on bblc model | |
RU2546064C1 (ru) | Распределенная система и способ языкового перевода | |
CN115186163B (zh) | 搜索结果排序模型的训练与搜索结果排序方法、装置 | |
CN116049370A (zh) | 信息查询方法和信息生成模型的训练方法、装置 | |
Sreeram et al. | A Novel Approach for Effective Recognition of the Code-Switched Data on Monolingual Language Model. | |
Shahade et al. | Deep learning approach-based hybrid fine-tuned Smith algorithm with Adam optimiser for multilingual opinion mining | |
Liu | Research on literary translation based on the improved optimization model | |
CN114254642A (zh) | 实体信息处理方法、装置、电子设备和介质 | |
Shi | Using domain knowledge for low resource named entity recognition | |
CN112784600A (zh) | 信息排序方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |