CN112329482A - 机器翻译方法、装置、电子设备和可读存储介质 - Google Patents
机器翻译方法、装置、电子设备和可读存储介质 Download PDFInfo
- Publication number
- CN112329482A CN112329482A CN202011176909.4A CN202011176909A CN112329482A CN 112329482 A CN112329482 A CN 112329482A CN 202011176909 A CN202011176909 A CN 202011176909A CN 112329482 A CN112329482 A CN 112329482A
- Authority
- CN
- China
- Prior art keywords
- model
- translation
- sub
- text
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013519 translation Methods 0.000 title claims abstract description 441
- 238000000034 method Methods 0.000 title claims abstract description 62
- 238000003860 storage Methods 0.000 title claims abstract description 13
- 230000010354 integration Effects 0.000 claims abstract description 57
- 238000012549 training Methods 0.000 claims description 144
- 238000011156 evaluation Methods 0.000 claims description 63
- 238000001914 filtration Methods 0.000 claims description 20
- 238000013140 knowledge distillation Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 10
- 238000001514 detection method Methods 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 8
- 230000004044 response Effects 0.000 claims description 8
- 230000004927 fusion Effects 0.000 claims description 4
- 238000004140 cleaning Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 21
- 238000005516 engineering process Methods 0.000 abstract description 5
- 230000014616 translation Effects 0.000 description 331
- 239000013598 vector Substances 0.000 description 16
- 238000010586 diagram Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 9
- 230000002708 enhancing effect Effects 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000012886 linear function Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 206010025482 malaise Diseases 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004821 distillation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例提供了一种机器翻译方法、装置、电子设备和可读存储介质,涉及计算机技术领域,在本发明实施例中,可以将多个预先训练的翻译子模型进行集成,然后,当多个预先训练的翻译子模型集成为一个集成翻译模型后,可以基于集成翻译模型进行翻译,相较于单个翻译子模型,集成翻译模型具有良好的翻译质量以及翻译准确度,另外,由于本发明实施例在模型集成的过程中首先确定了一个初始集成模型,然后将该初始集成模型与落选翻译子模型进行组合,最终确定集成翻译模型,通过这样的集成方式,相较于相关技术中的穷举方式,节约了模型集成的时间,提高了模型集成的效率。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种机器翻译方法、装置、电子设备和可读存储介质。
背景技术
目前,机器翻译被越来越多的应用至各种场景中,其中,机器翻译大部分是基于顺序到顺序(Sequence to sequence,seq2seq)框架的神经网络机器翻译,也就是编码器-解码器(encoder-decoder)结构的神经网络。
相关技术中,基于自注意(self-attention)的seq2seq机器翻译是一种主流的机器翻译方式,但是在实际应用中,机器翻译仍会出现翻译不准确的情况,因此,如何提机器翻译的翻译质量是一个需要解决的技术问题。
发明内容
有鉴于此,本发明实施例提供一种机器翻译方法、装置、电子设备和可读存储介质,以提高翻译结果的准确度以及模型集成的效率。
第一方面,提供了一种机器翻译方法,所述方法应用于电子设备,所述方法包括:
获取待翻译文本;以及
基于预先训练的集成翻译模型,将所述待翻译文本作为输入,确定所述集成翻译模型输出的翻译文本,所述集成翻译模型基于多个单独训练的翻译子模型集成得到;
其中,所述集成翻译模型基于如下步骤确定:
获取多个预先训练的翻译子模型;
基于机器翻译评估算法,在所有可能的翻译子模型组合中选取满足预定条件的至少一个翻译子模型组合作为初始集成模型,所述翻译子模型组合包括N个所述翻译子模型,N为大于等于2的预定值;以及
按照预定方式将落选翻译子模型与所述初始集成模型进行组合以确定候选翻译模型,并在所述候选翻译模型中确定所述集成翻译模型,其中,所述落选子模型为未被选入翻译子模型组合的翻译子模型。
第二方面,提供了一种机器翻译装置,所述装置应用于电子设备,所述装置包括:
第一获取模块,用于获取待翻译文本;以及
翻译模块,用于基于预先训练的集成翻译模型,将所述待翻译文本作为输入,确定所述集成翻译模型输出的翻译文本,所述集成翻译模型基于多个单独训练的翻译子模型集成得到;
其中,所述集成翻译模型基于如下装置确定:
第二获取模块,用于获取多个预先训练的翻译子模型;
初始集成模型确定模块,用于基于机器翻译评估算法,在所有可能的翻译子模型组合中选取满足预定条件的至少一个翻译子模型组合作为初始集成模型,所述翻译子模型组合包括N个所述翻译子模型,N为大于等于2的预定值;以及
集成翻译模型确定模块,用于按照预定方式将落选翻译子模型与所述初始集成模型进行组合以确定候选翻译模型,并在所述候选翻译模型中确定所述集成翻译模型,其中,所述落选子模型为未被选入翻译子模型组合的翻译子模型。
第三方面,本发明实施例提供了一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面所述的方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储计算机程序指令,所述计算机程序指令在被处理器执行时实现如第一方面所述的方法。
在本发明实施例中,可以将多个预先训练的翻译子模型进行集成,然后,当多个预先训练的翻译子模型集成为一个集成翻译模型后,可以基于集成翻译模型进行翻译,相较于单个翻译子模型,集成翻译模型具有良好的翻译质量以及翻译准确度,另外,由于本发明实施例在模型集成的过程中首先确定了一个初始集成模型,然后将该初始集成模型与落选翻译子模型进行组合,最终确定集成翻译模型,通过这样的集成方式,相较于相关技术中的穷举方式,节约了模型集成的时间,提高了模型集成的效率。
附图说明
通过以下参照附图对本发明实施例的描述,本发明实施例的上述以及其它目的、特征和优点将更为清楚,在附图中:
图1为本发明实施例提供的一种机器翻译模型的示意图;
图2为本发明实施例提供的一种机器翻译方法的流程图;
图3为本发明实施例提供的另一种机器翻译方法的流程图;
图4为本发明实施例提供的另一种机器翻译方法的流程图;
图5为本发明实施例提供的另一种机器翻译方法的流程图;
图6为本发明实施例提供的一种模型集成的示例性流程图;
图7为本发明实施例提供的另一种机器翻译方法的流程图;
图8为本发明实施例提供的一种单语语料回译过程的示例性示意图;
图9为本发明实施例提供的另一种单语语料回译过程的示例性示意图;
图10为本发明实施例提供的一种知识蒸馏过程的示例性示意图;
图11为本发明实施例提供的一种机器翻译装置的结构示意图;
图12为本发明实施例提供的另一种机器翻译装置的结构示意图;
图13为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
以下基于实施例对本发明进行描述,但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质,公知的方法、过程、流程、元件和电路并没有详细叙述。
此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。
除非上下文明确要求,否则在说明书的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。
在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
目前,基于self-attention的seq2seq机器翻译是一种主流的机器翻译方式,具体的,终端设备或者服务器中可以预先设置机器翻译模型,当终端设备或者服务器接收到待翻译的文本时,可以基于预先设置机器翻译模型进行翻译,然后输出翻译结果,其中,终端设备可以是智能手机、平板电脑或者个人计算机(Personal Computer,PC)等,服务器可以是单个服务器,也可以是以分布式方式配置的服务器集群,还可以是云服务器。
本发明实施例提供一种基于self-attention的seq2seq机器翻译模型,具体如图1所示,图1所示的机器翻译模型由N层编码器(Encoder)、N层解码器(Decoder)、线性函数和回归函数组合而成,其中,编码器与解码器均由转换器(Transformer)结构堆叠而成,Transformer结构由自注意结构和其它结构组合而成,具体的,自注意结构包括多头自注意结构(multi-head attention),其它结构包括前馈网络(Feed forward network)、求和(add)&规范化(norm)层以及各层和add&norm层之间的残差连接等。
在编码器中,编码器包括一个多头注意力层和一个前馈网络,另外,多头注意力层和前馈网络后分别带有一个add&norm层,其中,多头注意力的机制具体由查询、键值的映射以及输出,其中查询、键、值和输出都是向量,输出被计算为值的加权和,分配给每个值的权重由查询与相应密钥的兼容性函数计算得到;前馈网络是一个M维的神经网络,其可以将接收到的数据转化为M维的向量并输出;add&norm层可以将前一层的输入和输出相加并输入Norm模块进行规范化处理。
在翻译的过程中,编码器可以接收输入向量1与位置编码的求和结果,其中,输入向量1可以为一段待翻译的文本对应的向量,位置编码可以基于时间维度以及空间维度,确定这一段待翻译的文本中各个文字所处的相对位置,使得机器翻译模型可以基于相对位置信息,以正确的顺序翻译这一段待翻译的文本。
然后,编码器可以基于多头注意力层、前馈网络和add&norm层,对上述求和结果进行编码处理,也就是说,通过编码器可以将一段文本数据编码为一个计算机便于处理的M维向量。
在本发明实施例中,编码器的层数为N(N为大于0的整数),某一层编码器输出的向量可以输入下一层编码器,也可以输入解码器的多头注意力层。
在解码器中,解码器包括一个Masked矩阵控制的多头注意力层(masked multi-head attention)、一个多头注意力层和一个前馈网络,另外,Masked矩阵控制的多头注意力层、多头注意力层和前馈网络后分别带有一个add&norm层,其中,Masked矩阵控制的多头注意力层主要用于在训练过程中为解码器过滤正在翻译的文本对应的已知的翻译结果,使得机器翻译模型在训练过程中得到更好地学习。
在翻译的过程中,解码器可以接收编码器输出的M维向量以及输入向量2与位置编码的求和结果,其中,输入向量2可以是机器翻译模型上一次翻译的结果(也就是上述一段待翻译的文本的上一句文本或上一段文本)。
然后,解码器可以基于Masked矩阵控制的多头注意力层、多头注意力层、前馈网络和add&norm层,结合输入向量2,对编码器输出的M维向量进行解码操作,进而,通过线性函数以及回归函数,机器翻译模型即可以输出上述一段待翻译的文本的翻译结果。
需要说明的,为了提高模型的翻译质量,在本发明实施例中可以增加模型深度,即增加编码器和解码器的层数(N的数值),例如,在本发明实施例中,编码器和解码器的层数可以为12(普遍的编码器和解码器的层数为6)。
同时,在本发明实施例中还可以增加模型的宽度,即增加前馈网络所输出的向量的维数(M的数值),例如,在本发明实施例中,增加前馈网络所输出的向量的维数可以为8192(普遍的增加前馈网络所输出的向量的维数为2048)。
下面将结合具体实施方式,对本发明实施例提供的一种机器翻译方法进行详细的说明,如图2所示,具体步骤如下:
在步骤100,获取待翻译文本。
在步骤200,基于预先训练的集成翻译模型,将待翻译文本作为输入,确定集成翻译模型输出的翻译文本。
其中,集成翻译模型基于多个单独训练的翻译子模型集成得到。
进一步的,如图3所示,图3为本发明实施例提供的一种集成翻译模型确定过程的流程图,具体步骤如下:
在步骤300,获取多个预先训练的翻译子模型。
在步骤400,基于机器翻译评估算法,在所有可能的翻译子模型组合中选取满足预定条件的至少一个翻译子模型组合作为初始集成模型。
其中,翻译子模型组合包括N个翻译子模型,N为大于等于2的预定值。
在步骤500,按照预定方式将落选翻译子模型与初始集成模型进行组合以确定候选翻译模型,并在候选翻译模型中确定集成翻译模型。
其中,落选子模型为未被选入翻译子模型组合的翻译子模型。
在本发明实施例中,可以将多个预先训练的翻译子模型进行集成,然后,当多个预先训练的翻译子模型集成为一个集成翻译模型后,可以基于集成翻译模型进行翻译,相较于单个翻译子模型,集成翻译模型具有良好的翻译质量以及翻译准确度,另外,由于本发明实施例在模型集成的过程中首先确定了一个初始集成模型,然后将该初始集成模型与落选翻译子模型进行组合,最终确定集成翻译模型,通过这样的集成方式,相较于相关技术中的穷举方式,节约了模型集成的时间,提高了模型集成的效率。
更进一步的,如图4所示,步骤400可以包括如下步骤:
在步骤410,确定多个翻译子模型组合。
在本发明实施例中,可以通过穷举的方式从多个翻译子模型中确定多个翻译子模型组合。
例如,若有5个翻译子模型,则本发明实施例可以将该5个翻译子模型进行两两组合,确定10个翻译子模型组合,这10个翻译子模型组合可以表征该5个翻译子模型对应的所有两两组合情况,也即,每个翻译子模型组合中包括2个翻译子模型。
在一种可选的实施方式中,可以基于预先设置的决策层融合算法,确定翻译子模型组合或者候选翻译模型,具体的,可以对多个模型的决策层进行加和平均(log-avg),使得多个模型集成为一个模型,当然,本发明实施例也可以使用其它适用的模型集成算法,本发明实施例对此不做限定。
具体的,结合图1所示的机器翻译模型示意图,图1中的决策层为输出之前的回归函数以及线性函数,当对多个图1所示的机器翻译模型进行集成时,会将该多个机器翻译模型中决策层输出的结果进行加和平均,以实现该多个机器翻译模型的集成。
另外,在本发明实施例中,翻译子模型组合中的翻译子模型的数量N为大于等于2的预定值(不限于上述举例中的2个)。
需要说明的,在本发明实施例中,也可以通过其它方式(例如抽样的方式)从多个翻译子模型中确定多个翻译子模型组合,本发明实施例对此不做限定。
在步骤420,基于机器翻译评估算法,确定每个翻译子模型组合对应的第一评估分值。
在本发明实施例中,机器翻译评估算法确定的评估分值(包括第一评估分值,以及下文中的第二评估分值和第三评估分值)可以用于表征机器翻译模型输出的翻译结果相较于真实结果的相似程度,该评估分值越高,表征相似程度越大,即机器翻译模型输出的翻译结果越准确。
在一种可选的实现方式中,机器翻译评估算法可以是双语互译质量评估辅助工具(Bilingual Evaluation Understudy,BLEU),BLEU是一种常用的机器翻译评价指标,用于分析候选译文和参考译文中多元组共同出现的程度,也就是说,BLEU可以用于判断两个句子的相似程度,即将句子的标准人工翻译和机器翻译的结果做比较,如果很相似,则说明翻译的准确度较高。
在步骤430,确定对应第一评估分值最高的翻译子模型组合为初始集成模型。
其中,在本发明实施例中,上述步骤400中的预定条件可以为“第一评估分值最高”,当然,该预定条件也可以为根据实际情况设置的其它条件,例如“第一评估分值大于预定评估分值阈值”、“第一评估分值第二高”等等,本发明实施例对此不作限定。
当确定初始集成模型之后,本发明实施例可以基于该初始集成模型进一步确定集成翻译模型,具体的,如图5所示,步骤500可以包括如下步骤:
在步骤510,将初始集成模型作为第一模型,将落选翻译子模型作为第二模型,针对第一模型执行预定循环操作。
预定循环操作包括:
在步骤一,在第二模型中选取待组合翻译子模型。
在步骤二,将待组合翻译子模型与第一模型进行组合,确定中间候选模型。
在步骤三,基于机器翻译评估算法,确定中间候选模型对应的第二评估分值与第一模型对应的第三评估分值之间的评估差值。
在实际应用中,第一模型用于表征已经进行过初步集成的模型,也即初始集成模型或者下文中的中间候选模型。
在步骤520,响应于评估差值大于零,将中间候选模型作为第一模型,将剩余的落选翻译子模型作为第二模型,并针对中间候选模型执行预定循环操作,直至评估差值小于等于零或者剩余的落选翻译子模型的数量为零。
其中,步骤520是满足评估差值大于零的条件后执行的步骤,该判断条件仅为本发明实施例提出的一种可选的实施方式,在实际应用中可以根据实际情况对该判断条件进行适当设置,本发明实施例对此不作限定。
在步骤530,响应于评估差值小于等于零或者剩余的落选翻译子模型的数量为零,将第一模型作为集成翻译模型。
其中,步骤530是满足评估差值小于等于零或者剩余的落选翻译子模型的数量为零的条件后执行的步骤,该判断条件仅为本发明实施例提出的一种可选的实施方式,在实际应用中可以根据实际情况对该判断条件进行适当设置,本发明实施例对此不作限定。
另外,将第一模型作为集成翻译模型也即将上一次确定的中间候选模型作为集成翻译模型。
结合上述图4和图5所述内容,本发明实施例提供一种可选的模型集成的实施例,如图6所示,包括如下步骤:
在步骤61,基于机器翻译评估算法,在所有可能的翻译子模型组合中选取满足预定条件的至少一个翻译子模型组合作为初始集成模型。
在步骤62,将初始集成模型作为第一模型,将落选翻译子模型作为第二模型。
在步骤63,在第二模型中选取待组合翻译子模型。
在一种可选的实施方式中,待组合翻译子模型的数量可以为一个也可以为多个,本发明实施例对此不做限定。
在步骤64,将待组合翻译子模型与第一模型进行组合,确定中间候选模型。
在步骤65,基于机器翻译评估算法,确定中间候选模型对应的第二评估分值与第一模型对应的第三评估分值之间的评估差值。
在本发明实施例中,上述步骤63至步骤65为预定循环操作,在每次进入预定循环操作之前,可以更新第一模型与第二模型,例如,在首次进入预定循环操作时,第一模型为初始集成模型,第二模型为各落选翻译子模型,在经过步骤67进入预定循环操作时,第一模型为中间候选模型,第二模型为各剩余的落选翻译子模型。
在步骤66,判断评估差值是否大于零,响应于评估差值大于零,执行步骤67,响应于评估差值小于等于零,执行步骤68。
在本发明实施例中,若该评估差值大于零,则表征此次模型集成后的翻译能力被提升,因此,可以继续进行模型集成,若该评估差值小于或者等于零,则表征此次模型集成后的翻译能力未被提升,也即集成模型的翻译效果达到上限,无需继续集成,进而可以确定集成翻译模型。
在步骤67,将中间候选模型作为第一模型,将剩余的落选翻译子模型作为第二模型。
在步骤68,将第一模型作为集成翻译模型。
在本发明实施例中,预先训练的翻译子模型具有较好的翻译能力,进一步的,当多个预先训练的翻译子模型集成为一个集成翻译模型时,可以有效提升翻译质量,提高翻译结果的准确度,另外,由于本发明实施例在模型集成的过程中首先确定了一个初始集成模型,然后将该初始集成模型与落选翻译子模型进行组合,最终确定集成翻译模型,通过这样的集成方式,相较于相关技术中的穷举方式,节约了模型集成的时间,提高了模型集成的效率。
在模型集成之前,本发明实施例可以针对每个翻译子模型进行模型训练,具体的,如图7所示,模型训练的过程可以包括如下步骤:
在步骤71,获取训练集。
其中,训练集包括多个训练文本。
在一种可选的实施方式中,步骤71可以执行为:获取多个待选取文本;基于预先设置的语言模型,确定各待选取文本所对应的语言领域;以及基于各语言领域,对各待选取文本进行分类,并将同一分类下的待选取文本作为同一训练集中的训练文本。
在实际应用中,由于应用场景的不同,每个应用场景使用文字的习惯也会不同,例如,同样是使用英文的场景,官方文件中的英文极为正式以及严谨,书信交流中的英文会较为随意,而影视剧中的英文则更加的贴近口语,因此,若使用同一个机器翻译模型对上述三种场景中出现的英文进行翻译,则无法同时保证机器翻译模型针对上述三种场景的翻译质量。
为了解决应用场景的不同所带来的影响,通过本发明实施例可以在训练之前针对训练文本进行针对应用场景的分类,也就是说,在本发明实施例中,可以仅使用一种分类的训练文本对机器翻译模型进行训练,进而可以分别得到针对每个应用场景的机器翻译模型,使得机器翻译更加具有针对性。
在步骤72,对训练集中的各训练文本进行预处理。
其中,预处理包括数据清洗、生僻词拆分、数据增强和语句补齐中的至少一种,另外,预处理也可以包括其它适用的预处理手段,本发明实施例对此不作限定。
在步骤73,基于预处理后的训练集训练翻译子模型。
具体的,可以将训练集中的原文作为输入,确定翻译子模型输出的译文,然后基于损失函数(例如交叉熵函数)、翻译子模型输出的译文以及原文对应的标注(即原文对应的准确的译文),调整翻译子模型的模型参数,直至翻译子模型收敛,更进一步的,还可以基于优化器(例如Adam优化器)对翻译子模型中的网络权重进行更新,使得训练后的翻译子模型的翻译质量更高。
需要进一步说明的,在本发明实施例中,针对步骤72中的数据清洗,数据清洗可以包括如下操作中的至少一种:
在操作一,基于预设的标点符号标准,对训练文本进行标准化处理。
例如,某一训练文本中可能既包含英文格式的标点符号也包含中文格式的标点符号,此时,通过预设的标点符号标准可以将该训练文本中所有标点符号统一为英文格式或者中文格式,提高了训练文本的质量,确保可以训练出质量更高的翻译子模型。
在操作二,将训练文本中,单词或者单字数量大于第一数量阈值的语句进行过滤处理。
其中,当某一训练文本中的单词或者单字数量过多时,该训练文本中大概率出现了乱码或者没有意义的语句,此时,通过操作二可以起到过滤这些没有意义的语句的作用,进而可以提高训练文本的质量。
例如,若某一训练文本中存在单词或者单字数量大于120的语句,则对该语句进行过滤处理。
在操作三,将训练文本中,字母数量大于第二数量阈值的单词进行过滤处理。
其中,当某一训练文本中出现字母数量过多的单词时,该单词大概率为无意义的单词(例如乱码等),此时,通过操作三可以起到过滤无意义的单词的作用,进而可以提高训练文本的质量。
例如,若某一训练文本中存在字母数量大于40的单词,则对该单词进行过滤处理。
在操作四,将训练文本中,包含预设符号的语句进行过滤处理。
在本发明实施例中,预设符号可以是计算机无法读取或者没有意义的特殊符号,当某一训练文本中出现包含预设符号的语句,可以对该语句进行过滤处理,提高训练文本的质量。
在操作五,基于预先设置的语种检测模型,将训练文本中,语种不匹配的语句进行过滤处理。
例如,若待训练的翻译子模型为英译中模型,则该待训练的翻译子模型对应的训练文本中应该包括英文原文以及各英文原文对应的中文译文,因此,当训练文本中出现其它语种的文本(例如德语、法语等等)时,需要基于操作五对包含其它语种的语句进行过滤处理,提高训练文本的质量。
另外,本发明实施例对语种检测模型不做具体限定,语种检测模型可以是任意适用的语种检测工具,例如语言检测工具(language-detection)。
在操作六,基于预先设置的翻译匹配度模型,将训练文本中,翻译匹配度小于预设翻译匹配度阈值的语句进行过滤处理,提高训练文本的质量。
其中,翻译匹配度用于表征语句与译文之间的匹配程度,也即译文对于原文的翻译准确度,当训练文本中存在翻译匹配度较低的原文和译文(即译文无法准确表达原文的语义),可以对翻译匹配度较低的原文和译文进行过滤处理,提高训练文本的质量。
在操作七,基于预先设置的语言模型,将训练文本中,语言得分小于预设语言得分阈值的语句进行过滤处理。
其中,语言得分用于表征语句符合语法的程度,在本发明实施例中,当语句中存在错别字、语病等情况时,该语句的语言得分会较低,进而,通过操作七可以对语言得分较低的语句进行过滤处理,提高训练文本的质量。
另外,语言模型可以是基于卷积神经网络构建的语言模型,通过卷积神经网络优异的计算能力,语言模型可以准确确定训练文本的语言得分。
在本发明实施例中,针对步骤72中的数据增强,数据增强可以包括单语语料回译和/或知识蒸馏。
其中,单语语料回译可以执行为:获取待增强语料;基于预先设置的第一增强模型,确定待增强语料对应的第一增强语料;以及基于预先设置的第二增强模型,确定第一增强语料对应的第二增强语料。
其中,待增强语料对应第一语种,第一增强语料对应第二语种,第二增强语料对应第一语种,第一增强语料和第二增强语料为待增强语料对应的增强数据。
在一种可选的实施方式中,如图8所示,图8为本发明实施例提供的一种单语语料回译过程的示意图,该示意图包括:增强模型1和增强模型2。
其中,增强模型1可以对应上述第一增强模型,增强模型2可以对应上述第二增强模型,具体的,若待增强语料为中文语料X,增强模型1为中译英模型,增强模型2为英译中模型,则中文语料X输入增强模型1后,增强模型1可以输出中文语料X对应的英文语料Y(即增强语料1),进而,可以将英文语料Y输入增强模型2,增强模型2可以输出英文语料Y对应的中文语料Z,其中,中文语料Z与中文语料X之间可能存在描述不同,但是二者的语义大致相同,因此,通过本发明实施例,可以基于单语语料实现对数据集的扩充,也即数据增强。
相应的,若待增强语料为英文语料X,增强模型1为英译中模型,增强模型2为中译英模型,则英文语料X输入增强模型1后,增强模型1可以输出英文语料X对应的中文语料Y(即增强语料1),进而,可以将中文语料Y输入增强模型2,增强模型2可以输出中文语料Y对应的英文语料Z,其中,英文语料Z与英文语料X之间可能存在描述不同,但是二者的语义大致相同,因此,通过本发明实施例,可以基于单语语料实现对数据集的扩充,也即数据增强。
另外,在本发明实施例中,当获得增强语料后,还可以基于增强语料对增强模型进行训练,以使得增强模型具有更好的翻译能力,进而使得增强语料的质量得到提高。
基于图8所示的单语语料回译方式,在另一种可选的实施方式中,如图9所示,图9为本发明实施例提供的另一种单语语料回译过程的示意图,该示意图包括:增强模型1和增强模型2。
其中,增强模型1可以对应上述第一增强模型,增强模型2可以对应上述第二增强模型,相较于图8所示的单语语料回译过程,当增强模型2输出增强语料2后,增强语料2可以返回输入至增强模型1,使得图9所示的单语语料回译形成了一个循环回译的过程,进而可以获得更多的增强语料,进一步的,若在图9所示的单语语料回译的过程中,通过增强语料不断训练增强模型1和增强模型2,则在图9所示的单语语料回译的过程中,可以获得越来越优质的模型以及越来越优质的增强语料。
知识蒸馏可以执行为:基于预先训练的第一教师翻译模型,对训练文本进行翻译,确定第一译文;将第一译文作为每个单模型的训练标注,训练单模型;以及基于训练后的单模型,或者基于多个训练后的单模型所组成的第二教师翻译模型,对训练文本进行数据增强。
其中,教师翻译模型包括多个单模型,具体的,如图10所示,该示意图包括:学生模型1、学生模型2、学生模型3、学生模型4、学生模型5、教师模型1和教师模型2。
其中,学生模型对应上述单模型,教师模型由单模型组成,也即教师模型由学生模型组成。
各学生模型之间的组合可以构成教师模型,当确定教师模型后,可以基于教师模型对学生模型进行知识蒸馏,例如,图10中第一行的教师模型1由学生模型1和学生模型5组合而成,教师模型2由学生模型2、学生模型3和学生模型4组合而成,然后,可以基于教师模型1对学生模型1、学生模型2和学生模型3进行知识蒸馏1,基于教师模型2对学生模型4和学生模型5进行知识蒸馏2。
然后,当知识蒸馏1与知识蒸馏2结束后,可以将学生模型1至学生模型5重新组合(例如将学生模型1至学生模型3组合为新的教师模型1,将学生模型4和学生模型5组合为新的教师模型2),得到新的教师模型1和教师模型2,并基于新的教师模型1和教师模型2继续对学生模型1至学生模型5进行知识蒸馏(例如知识蒸馏3和知识蒸馏4),重复迭代上述过程,可以使得学生模型的模型质量得到提高,进而可以使得教师模型的模型质量得到提高。
其中,知识蒸馏即将教师模型的输出作为学生模型的训练标注,对学生模型进行模型训练,这样,可以提高学生模型(也即单模型)的模型质量,进而,由于学生模型的模型质量提高,可以使得重新组合的教师模型的模型质量得到提高,当各个学生模型训练完成后,可以基于训练后的学生模型或者由训练后的学生模型所组成的教师模型进行数据增强。
在本发明实施例中,针对步骤72中的语句补齐,语句补齐可以执行为:针对每个训练文本,在每个训练文本后加入填充文本,以使得各训练文本的文本长度相同。
其中,填充文本可以是预先设置的用于填充于句尾的文字,在实际应用中,为了提高模型训练的效率,往往会将多个训练文本进行打包处理,此时,为了统一各训练文本的长度,通过本发明实施例可以在各训练文本后填充预先设置的填充文本,使得各填充后的训练文本可以统一长度,进而实现统一各训练文本的长度的目的。
更进一步的,当对各训练文本进行语句补齐后,训练的过程具体可以执行为:针对语句补齐后的训练文本,通过翻译子模型从左至右翻译语句补齐后的训练文本,确定第二译文,基于第二译文和语句补齐后的训练文本的标注,训练翻译子模型;以及通过翻译子模型从右至左翻译语句补齐后的训练文本,确定第三译文,基于第三译文和语句补齐后的训练文本的标注,训练翻译子模型。
其中,从左至右翻译语句补齐后的训练文本即为:从语句补齐后的训练文本的第一个字开始翻译,从右至左翻译语句补齐后的训练文本即为:从语句补齐后的训练文本的最后一个字开始翻译。
由于语句补齐后的训练文本的句尾包括填充文本,而填充文本通常与训练文本的语义不相关,因此,左至右翻译语句补齐后的训练文本会使得翻译子模型不会翻译填充文本中的信息。
为了更好的利用填充文本中的信息,本发明实施例可以通过翻译子模型从右至左翻译语句补齐后的训练文本,也就是说,通过本发明实施例可以使得翻译子模型最先翻译填充文本的部分,进而,语句补齐后的训练文本中的填充信息可以得到充分的利用,使得训练后的翻译子模型的模型质量更高。
在本发明实施例中,针对步骤72中的生僻词拆分,生僻词拆分可以基于预先设置的生僻词拆分算法实现,例如,生僻词拆分可以基于预先设置的字节对编码(Byte PairEncoder,BPE)算法实现。
其中,BPE可以用于有效解决词表外(Out Of Vocabulary,OOV)词汇,BPE可以通过统计高频短词之间的共现关系,构建BPE词表,然后利用BPE词表对OOV词汇进行分割,将一个OOV词汇分割为多个常见短词,进而,机器翻译模型可以通过翻译常见短词实现翻译OOV词汇,提高了翻译准确度。
另外,生僻词拆分也可以应用于线上翻译阶段,也即步骤100可以执行为:获取第一文本;基于预先设置的生僻词拆分算法,对第一文本进行生僻词拆分处理,确定待翻译文本。
其中,上述生僻词拆分算法同样可以为BPE算法。
在一种可选的实施方式中,在线上翻译阶段和/或模型集成之后,还可以针对集成翻译模型进行重排序操作,具体的,该操作可以执行为:获取集成翻译模型输出的翻译文本;确定翻译文本中的特征信息;以及基于特征信息,对集成翻译模型的模型组成进行调整。
其中,特征信息包括文本长度、翻译匹配度和语言特征中的至少一个。
具体的,文本长度可以用于表征机器翻译模型输出的译文中单句话的长度,在本发明实施例中,训练并集成后的集成翻译模型可以输出准确的翻译文本,但是该翻译文本可能存在语句过长,导致用户阅读感较差的问题,因此,当文本长度过长时,可以针对集成翻译模型的模型组成进行调整,以降低文本长度。
翻译匹配度可以用于表征机器翻译模型输出的译文与原文的匹配程度,在本发明实施例中,当翻译匹配度较低时,可以针对集成翻译模型的模型组成进行调整,以提高模型质量,进而提高翻译匹配度。
语言特征可以用于表征机器翻译模型输出的译文是否包含语病、错字等语言问题,在本发明实施例中,当译文中存在语言问题时,可以针对集成翻译模型的模型组成进行调整,以提高模型质量。
需要说明的,特征信息也可以包括其它维度的评价标准,本发明实施例对此不做限定。
通过本发明实施例,可以基于这些特征信息从不同维度评价集成翻译模型,进而可以进一步的优化集成翻译模型。
基于相同的技术构思,本发明实施例还提供了一种机器翻译装置,如图11所示,该装置包括:第一获取模块111和翻译模块112;
第一获取模块111,用于获取待翻译文本;以及
翻译模块112,用于基于预先训练的集成翻译模型,将所述待翻译文本作为输入,确定所述集成翻译模型输出的翻译文本,所述集成翻译模型基于多个单独训练的翻译子模型集成得到;
其中,如图12所示,所述集成翻译模型基于如图12所示的装置确定,该装置包括:第二获取模块121、初始集成模型确定模块122和集成翻译模型确定模块123;
第二获取模块121,用于获取多个预先训练的翻译子模型;
初始集成模型确定模块122,用于基于机器翻译评估算法,在所有可能的翻译子模型组合中选取满足预定条件的至少一个翻译子模型组合作为初始集成模型,所述翻译子模型组合包括N个所述翻译子模型,N为大于等于2的预定值;以及
集成翻译模型确定模块123,用于按照预定方式将落选翻译子模型与所述初始集成模型进行组合以确定候选翻译模型,并在所述候选翻译模型中确定所述集成翻译模型,其中,所述落选子模型为未被选入翻译子模型组合的翻译子模型。
可选的,所述初始集成模型确定模块122,具体用于:
确定多个翻译子模型组合;
基于机器翻译评估算法,确定每个翻译子模型组合对应的第一评估分值;以及
确定对应所述第一评估分值最高的翻译子模型组合为初始集成模型。
可选的,所述集成翻译模型确定模块123,具体用于:
将所述初始集成模型作为第一模型,将所述落选翻译子模型作为第二模型,针对所述第一模型执行预定循环操作,所述预定循环操作包括:在所述第二模型中选取待组合翻译子模型;将所述待组合翻译子模型与所述第一模型进行组合,确定中间候选模型;以及基于机器翻译评估算法,确定所述中间候选模型对应的第二评估分值与所述第一模型对应的第三评估分值之间的评估差值;
响应于所述评估差值大于零,将所述中间候选模型作为第一模型,将剩余的落选翻译子模型作为第二模型,并针对所述中间候选模型执行所述预定循环操作,直至所述评估差值小于等于零或者所述剩余的落选翻译子模型的数量为零;以及
响应于所述评估差值小于等于零或者所述剩余的落选翻译子模型的数量为零,将所述第一模型作为所述集成翻译模型。
可选的,所述装置还包括:
融合模块,用于基于预先设置的决策层融合算法,确定所述翻译子模型组合或者所述候选翻译模型。
可选的,所述第一获取模块111,具体用于:
获取第一文本;
基于预先设置的生僻词拆分算法,对所述第一文本进行生僻词拆分处理,确定所述待翻译文本。
可选的,所述翻译子模型基于如下装置训练:
第三获取模块,用于获取训练集,所述训练集包括多个训练文本;
预处理模块,用于对所述训练集中的各训练文本进行预处理,所述预处理包括数据清洗、生僻词拆分、数据增强和语句补齐中的至少一种;以及
训练模块,用于基于预处理后的训练集训练所述翻译子模型。
可选的,所述数据清洗,包括如下操作中的至少一种:
基于预设的标点符号标准,对所述训练文本进行标准化处理;
将所述训练文本中,单词或者单字数量大于第一数量阈值的语句进行过滤处理;
将所述训练文本中,字母数量大于第二数量阈值的单词进行过滤处理;
将所述训练文本中,包含预设符号的语句进行过滤处理;
基于预先设置的语种检测模型,将所述训练文本中,语种不匹配的语句进行过滤处理;
基于预先设置的翻译匹配度模型,将所述训练文本中,翻译匹配度小于预设翻译匹配度阈值的语句进行过滤处理,所述翻译匹配度用于表征语句与译文之间的匹配程度;以及
基于预先设置的语言模型,将所述训练文本中,语言得分小于预设语言得分阈值的语句进行过滤处理,所述语言得分用于表征语句符合语法的程度。
可选的,所述数据增强包括单语语料回译和/或知识蒸馏;
所述单语语料回译,包括:
获取待增强语料,所述待增强语料对应第一语种;
基于预先设置的第一增强模型,确定所述待增强语料对应的第一增强语料,所述第一增强语料对应第二语种;以及
基于预先设置的第二增强模型,确定所述第一增强语料对应的第二增强语料,所述第二增强语料对应第一语种,所述第一增强语料和所述第二增强语料为所述待增强语料对应的增强数据;
所述知识蒸馏,包括:
基于预先训练的第一教师翻译模型,对所述训练文本进行翻译,确定第一译文,所述教师翻译模型包括多个单模型;
将所述第一译文作为每个单模型的训练标注,训练所述单模型;以及
基于训练后的单模型,或者基于多个训练后的单模型所组成的第二教师翻译模型,对所述训练文本进行数据增强。
可选的,所述语句补齐,包括:
针对每个训练文本,在每个训练文本后加入填充文本,以使得各训练文本的文本长度相同。
可选的,所述训练模块,具体用于:
针对语句补齐后的训练文本,通过所述翻译子模型从左至右翻译所述语句补齐后的训练文本,确定第二译文,基于所述第二译文和所述语句补齐后的训练文本的标注,训练所述翻译子模型;以及
通过所述翻译子模型从右至左翻译所述语句补齐后的训练文本,确定第三译文,基于所述第三译文和所述语句补齐后的训练文本的标注,训练所述翻译子模型。
可选的,所述装置还包括:
第四获取模块,用于获取所述集成翻译模型输出的翻译文本;
特征信息模块,用于确定所述翻译文本中的特征信息,所述特征信息包括文本长度、翻译匹配度和语言特征中的至少一个;以及
调整模块,用于基于所述特征信息,对所述集成翻译模型的模型组成进行调整。
可选的,所述第三获取模块,具体用于:
获取多个待选取文本;
基于预先设置的语言模型,确定各待选取文本所对应的语言领域;以及
基于各语言领域,对各待选取文本进行分类,并将同一分类下的待选取文本作为同一训练集中的训练文本。
在本发明实施例中,可以将多个预先训练的翻译子模型进行集成,然后,当多个预先训练的翻译子模型集成为一个集成翻译模型后,可以基于集成翻译模型进行翻译,相较于单个翻译子模型,集成翻译模型具有良好的翻译质量以及翻译准确度,另外,由于本发明实施例在模型集成的过程中首先确定了一个初始集成模型,然后将该初始集成模型与落选翻译子模型进行组合,最终确定集成翻译模型,通过这样的集成方式,相较于相关技术中的穷举方式,节约了模型集成的时间,提高了模型集成的效率。
图13是本发明实施例的电子设备的示意图。如图13所示,图13所示的电子设备为通用地址查询装置,其包括通用的计算机硬件结构,其至少包括处理器131和存储器132。处理器131和存储器132通过总线133连接。存储器132适于存储处理器131可执行的指令或程序。处理器131可以是独立的微处理器,也可以是一个或者多个微处理器集合。由此,处理器131通过执行存储器132所存储的指令,从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其它装置的控制。总线133将上述多个组件连接在一起,同时将上述组件连接到显示控制器134和显示装置以及输入/输出(I/O)装置135。输入/输出(I/O)装置135可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地,输入/输出装置135通过输入/输出(I/O)控制器136与系统相连。
本领域的技术人员应明白,本发明的实施例可提供为方法、装置(设备)或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品。
本发明是参照根据本发明实施例的方法、装置(设备)和计算机程序产品的流程图来描述的。应理解可由计算机程序指令实现流程图中的每一流程。
这些计算机程序指令可以存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现流程图一个流程或多个流程中指定的功能。
也可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程中指定的功能的装置。
本发明的另一实施例涉及一种非易失性存储介质,用于存储计算机可读程序,所述计算机可读程序用于供计算机执行上述部分或全部的方法实施例。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指定相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本发明各实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (15)
1.一种机器翻译方法,其特征在于,所述方法包括:
获取待翻译文本;以及
基于预先训练的集成翻译模型,将所述待翻译文本作为输入,确定所述集成翻译模型输出的翻译文本,所述集成翻译模型基于多个单独训练的翻译子模型集成得到;
其中,所述集成翻译模型基于如下步骤确定:
获取多个预先训练的翻译子模型;
基于机器翻译评估算法,在所有可能的翻译子模型组合中选取满足预定条件的至少一个翻译子模型组合作为初始集成模型,所述翻译子模型组合包括N个所述翻译子模型,N为大于等于2的预定值;以及
按照预定方式将落选翻译子模型与所述初始集成模型进行组合以确定候选翻译模型,并在所述候选翻译模型中确定所述集成翻译模型,其中,所述落选子模型为未被选入翻译子模型组合的翻译子模型。
2.根据权利要求1所述的方法,其特征在于,所述基于机器翻译评估算法,在所有可能的翻译子模型组合中选取满足预定条件的至少一个翻译子模型组合作为初始集成模型,包括:
确定多个翻译子模型组合;
基于机器翻译评估算法,确定每个翻译子模型组合对应的第一评估分值;以及
确定对应所述第一评估分值最高的翻译子模型组合为初始集成模型。
3.根据权利要求1所述的方法,其特征在于,所述按照预定方式将落选翻译子模型与所述初始集成模型进行组合以确定候选翻译模型,并在所述候选翻译模型中确定所述集成翻译模型,包括:
将所述初始集成模型作为第一模型,将所述落选翻译子模型作为第二模型,针对所述第一模型执行预定循环操作,所述预定循环操作包括:在所述第二模型中选取待组合翻译子模型;将所述待组合翻译子模型与所述第一模型进行组合,确定中间候选模型;以及基于机器翻译评估算法,确定所述中间候选模型对应的第二评估分值与所述第一模型对应的第三评估分值之间的评估差值;
响应于所述评估差值大于零,将所述中间候选模型作为第一模型,将剩余的落选翻译子模型作为第二模型,并针对所述中间候选模型执行所述预定循环操作,直至所述评估差值小于等于零或者所述剩余的落选翻译子模型的数量为零;以及
响应于所述评估差值小于等于零或者所述剩余的落选翻译子模型的数量为零,将所述第一模型作为所述集成翻译模型。
4.根据权利要求2或3所述的方法,其特征在于,所述方法还包括:
基于预先设置的决策层融合算法,确定所述翻译子模型组合或者所述候选翻译模型。
5.根据权利要求1所述的方法,其特征在于,所述获取待翻译文本,包括:
获取第一文本;
基于预先设置的生僻词拆分算法,对所述第一文本进行生僻词拆分处理,确定所述待翻译文本。
6.根据权利要求1所述的方法,其特征在于,所述翻译子模型基于如下步骤训练:
获取训练集,所述训练集包括多个训练文本;
对所述训练集中的各训练文本进行预处理,所述预处理包括数据清洗、生僻词拆分、数据增强和语句补齐中的至少一种;以及
基于预处理后的训练集训练所述翻译子模型。
7.根据权利要求6所述的方法,其特征在于,所述数据清洗,包括如下操作中的至少一种:
基于预设的标点符号标准,对所述训练文本进行标准化处理;
将所述训练文本中,单词或者单字数量大于第一数量阈值的语句进行过滤处理;
将所述训练文本中,字母数量大于第二数量阈值的单词进行过滤处理;
将所述训练文本中,包含预设符号的语句进行过滤处理;
基于预先设置的语种检测模型,将所述训练文本中,语种不匹配的语句进行过滤处理;
基于预先设置的翻译匹配度模型,将所述训练文本中,翻译匹配度小于预设翻译匹配度阈值的语句进行过滤处理,所述翻译匹配度用于表征语句与译文之间的匹配程度;以及
基于预先设置的语言模型,将所述训练文本中,语言得分小于预设语言得分阈值的语句进行过滤处理,所述语言得分用于表征语句符合语法的程度。
8.根据权利要求6所述的方法,其特征在于,所述数据增强包括单语语料回译和/或知识蒸馏;
所述单语语料回译,包括:
获取待增强语料,所述待增强语料对应第一语种;
基于预先设置的第一增强模型,确定所述待增强语料对应的第一增强语料,所述第一增强语料对应第二语种;以及
基于预先设置的第二增强模型,确定所述第一增强语料对应的第二增强语料,所述第二增强语料对应第一语种,所述第一增强语料和所述第二增强语料为所述待增强语料对应的增强数据;
所述知识蒸馏,包括:
基于预先训练的第一教师翻译模型,对所述训练文本进行翻译,确定第一译文,所述教师翻译模型包括多个单模型;
将所述第一译文作为每个单模型的训练标注,训练所述单模型;以及
基于训练后的单模型,或者基于多个训练后的单模型所组成的第二教师翻译模型,对所述训练文本进行数据增强。
9.根据权利要求6所述的方法,其特征在于,所述语句补齐,包括:
针对每个训练文本,在每个训练文本后加入填充文本,以使得各训练文本的文本长度相同。
10.根据权利要求9所述的方法,其特征在于,所述基于预处理后的训练集训练所述翻译子模型,包括:
针对语句补齐后的训练文本,通过所述翻译子模型从左至右翻译所述语句补齐后的训练文本,确定第二译文,基于所述第二译文和所述语句补齐后的训练文本的标注,训练所述翻译子模型;以及
通过所述翻译子模型从右至左翻译所述语句补齐后的训练文本,确定第三译文,基于所述第三译文和所述语句补齐后的训练文本的标注,训练所述翻译子模型。
11.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述集成翻译模型输出的翻译文本;
确定所述翻译文本中的特征信息,所述特征信息包括文本长度、翻译匹配度和语言特征中的至少一个;以及
基于所述特征信息,对所述集成翻译模型的模型组成进行调整。
12.根据权利要求6所述的方法,其特征在于,所述获取训练集,包括:
获取多个待选取文本;
基于预先设置的语言模型,确定各待选取文本所对应的语言领域;以及
基于各语言领域,对各待选取文本进行分类,并将同一分类下的待选取文本作为同一训练集中的训练文本。
13.一种机器翻译装置,其特征在于,所述装置包括:
第一获取模块,用于获取待翻译文本;以及
翻译模块,用于基于预先训练的集成翻译模型,将所述待翻译文本作为输入,确定所述集成翻译模型输出的翻译文本,所述集成翻译模型基于多个单独训练的翻译子模型集成得到;
其中,所述集成翻译模型基于如下装置确定:
第二获取模块,用于获取多个预先训练的翻译子模型;
初始集成模型确定模块,用于基于机器翻译评估算法,在所有可能的翻译子模型组合中选取满足预定条件的至少一个翻译子模型组合作为初始集成模型,所述翻译子模型组合包括N个所述翻译子模型,N为大于等于2的预定值;以及
集成翻译模型确定模块,用于按照预定方式将落选翻译子模型与所述初始集成模型进行组合以确定候选翻译模型,并在所述候选翻译模型中确定所述集成翻译模型,其中,所述落选子模型为未被选入翻译子模型组合的翻译子模型。
14.一种电子设备,包括存储器和处理器,其特征在于,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-12中任一项所述的方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-12任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011176909.4A CN112329482A (zh) | 2020-10-28 | 2020-10-28 | 机器翻译方法、装置、电子设备和可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011176909.4A CN112329482A (zh) | 2020-10-28 | 2020-10-28 | 机器翻译方法、装置、电子设备和可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112329482A true CN112329482A (zh) | 2021-02-05 |
Family
ID=74297310
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011176909.4A Pending CN112329482A (zh) | 2020-10-28 | 2020-10-28 | 机器翻译方法、装置、电子设备和可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112329482A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113204979A (zh) * | 2021-05-28 | 2021-08-03 | 北京金山数字娱乐科技有限公司 | 一种模型训练方法、装置、电子设备及存储介质 |
CN113723120A (zh) * | 2021-08-31 | 2021-11-30 | 北京百度网讯科技有限公司 | 参考信息的展示方法、装置和电子设备 |
CN114139560A (zh) * | 2021-12-03 | 2022-03-04 | 山东诗语翻译有限公司 | 基于人工智能翻译系统 |
CN114239608A (zh) * | 2021-11-16 | 2022-03-25 | 北京百度网讯科技有限公司 | 翻译方法、模型训练方法、装置、电子设备及存储介质 |
WO2023240839A1 (zh) * | 2022-06-14 | 2023-12-21 | 平安科技(深圳)有限公司 | 机器翻译方法、装置、计算机设备和存储介质 |
CN118114686A (zh) * | 2024-02-04 | 2024-05-31 | 哈尔滨工业大学 | 一种基于思维链的大模型机器翻译强化方法、系统、设备及介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130030792A1 (en) * | 2011-07-26 | 2013-01-31 | International Business Machines Corporation | Customization of a Natural Language Processing Engine |
US20170031901A1 (en) * | 2015-07-30 | 2017-02-02 | Alibaba Group Holding Limited | Method and Device for Machine Translation |
US20170060855A1 (en) * | 2015-08-25 | 2017-03-02 | Alibaba Group Holding Limited | Method and system for generation of candidate translations |
CN109961093A (zh) * | 2019-03-07 | 2019-07-02 | 北京工业大学 | 一种基于众智集成学习的图像分类方法 |
CN111008533A (zh) * | 2019-12-09 | 2020-04-14 | 北京字节跳动网络技术有限公司 | 一种翻译模型的获取方法、装置、设备和存储介质 |
CN111325038A (zh) * | 2020-02-03 | 2020-06-23 | 苏州交驰人工智能研究院有限公司 | 翻译训练数据生成方法、装置、计算机设备及存储介质 |
CN111814496A (zh) * | 2020-08-04 | 2020-10-23 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、设备及存储介质 |
-
2020
- 2020-10-28 CN CN202011176909.4A patent/CN112329482A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130030792A1 (en) * | 2011-07-26 | 2013-01-31 | International Business Machines Corporation | Customization of a Natural Language Processing Engine |
CN103782291A (zh) * | 2011-07-26 | 2014-05-07 | 国际商业机器公司 | 定制自然语言处理引擎 |
US20170031901A1 (en) * | 2015-07-30 | 2017-02-02 | Alibaba Group Holding Limited | Method and Device for Machine Translation |
US20170060855A1 (en) * | 2015-08-25 | 2017-03-02 | Alibaba Group Holding Limited | Method and system for generation of candidate translations |
CN109961093A (zh) * | 2019-03-07 | 2019-07-02 | 北京工业大学 | 一种基于众智集成学习的图像分类方法 |
CN111008533A (zh) * | 2019-12-09 | 2020-04-14 | 北京字节跳动网络技术有限公司 | 一种翻译模型的获取方法、装置、设备和存储介质 |
CN111325038A (zh) * | 2020-02-03 | 2020-06-23 | 苏州交驰人工智能研究院有限公司 | 翻译训练数据生成方法、装置、计算机设备及存储介质 |
CN111814496A (zh) * | 2020-08-04 | 2020-10-23 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、设备及存储介质 |
Non-Patent Citations (3)
Title |
---|
TU, M; ZHOU, Y AND ZONG, CQ: ""Exploring Diverse Features for Statistical Machine Translation Model Pruning"", 《 IEEE-ACM TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING》, vol. 23, no. 11, 30 November 2015 (2015-11-30), pages 1847 - 1857, XP011664080, DOI: 10.1109/TASLP.2015.2456413 * |
张新路; 李晓; 杨雅婷; 王磊; 董瑞: ""面向维汉神经机器翻译的双向重排序模型分析"", 《北京大学学报(自然科学版)》, vol. 56, no. 01, 31 January 2020 (2020-01-31) * |
熊德意;李军辉;王星;张飚;: ""基于约束的神经机器翻译"", 《中国科学:信息科学》, no. 05, 20 May 2018 (2018-05-20) * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113204979A (zh) * | 2021-05-28 | 2021-08-03 | 北京金山数字娱乐科技有限公司 | 一种模型训练方法、装置、电子设备及存储介质 |
CN113204979B (zh) * | 2021-05-28 | 2024-09-06 | 北京金山数字娱乐科技有限公司 | 一种模型训练方法、装置、电子设备及存储介质 |
CN113723120A (zh) * | 2021-08-31 | 2021-11-30 | 北京百度网讯科技有限公司 | 参考信息的展示方法、装置和电子设备 |
CN114239608A (zh) * | 2021-11-16 | 2022-03-25 | 北京百度网讯科技有限公司 | 翻译方法、模型训练方法、装置、电子设备及存储介质 |
CN114239608B (zh) * | 2021-11-16 | 2022-11-25 | 北京百度网讯科技有限公司 | 翻译方法、模型训练方法、装置、电子设备及存储介质 |
CN114139560A (zh) * | 2021-12-03 | 2022-03-04 | 山东诗语翻译有限公司 | 基于人工智能翻译系统 |
WO2023240839A1 (zh) * | 2022-06-14 | 2023-12-21 | 平安科技(深圳)有限公司 | 机器翻译方法、装置、计算机设备和存储介质 |
CN118114686A (zh) * | 2024-02-04 | 2024-05-31 | 哈尔滨工业大学 | 一种基于思维链的大模型机器翻译强化方法、系统、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102577514B1 (ko) | 텍스트 창작 방법, 텍스트 창작 장치, 전자 기기 및 저장 매체 | |
CN112329482A (zh) | 机器翻译方法、装置、电子设备和可读存储介质 | |
CN108287858B (zh) | 自然语言的语义提取方法及装置 | |
JP5128629B2 (ja) | 品詞タグ付けシステム、品詞タグ付けモデルのトレーニング装置および方法 | |
CN107798140B (zh) | 一种对话系统构建方法、语义受控应答方法及装置 | |
CN105068997B (zh) | 平行语料的构建方法及装置 | |
CN110532573A (zh) | 一种翻译方法和系统 | |
CN111651589B (zh) | 一种针对长文档的两阶段文本摘要生成方法 | |
CN112446221B (zh) | 翻译评估方法、装置、系统及计算机存储介质 | |
CN109993216B (zh) | 一种基于k最近邻knn的文本分类方法及其设备 | |
CN115759119B (zh) | 一种金融文本情感分析方法、系统、介质和设备 | |
KR20230061001A (ko) | 문서 교정 장치 및 방법 | |
CN113705237A (zh) | 融合关系短语知识的关系抽取方法、装置和电子设备 | |
CN114153971A (zh) | 一种含错中文文本纠错识别分类设备 | |
CN114757184B (zh) | 实现航空领域知识问答的方法和系统 | |
CN114564912A (zh) | 一种文档格式智能检查校正方法及系统 | |
CN114185573A (zh) | 一种人机交互机器翻译系统的实现和在线更新系统及方法 | |
JP2017129995A (ja) | 前処理モデル学習装置、方法、及びプログラム | |
CN107491441B (zh) | 一种基于强制解码的动态抽取翻译模板的方法 | |
CN114896966B (zh) | 一种中文文本语法错误定位方法、系统、设备及介质 | |
CN112989839A (zh) | 一种基于关键词特征嵌入语言模型的意图识别方法及系统 | |
CN110750669A (zh) | 一种图像字幕生成的方法及系统 | |
CN115840815A (zh) | 基于指针关键信息的自动摘要生成方法 | |
CN116306594A (zh) | 一种医学ocr识别纠错方法 | |
CN114462427A (zh) | 基于术语保护的机器翻译方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |