CN112668325B

CN112668325B - 一种机器翻译增强方法、系统、终端及存储介质

Info

Publication number: CN112668325B
Application number: CN202011503186.4A
Authority: CN
Inventors: 陈霖捷; 王健宗; 瞿晓阳
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-12-18
Filing date: 2020-12-18
Publication date: 2024-05-10
Anticipated expiration: 2040-12-18
Also published as: CN112668325A

Abstract

本发明公开了一种机器翻译增强方法、系统、终端及存储介质，包括：获取原始训练样本，根据原始训练样本训练得到翻译模型；对原始训练样本进行分词以及词性标注，从分词以及词性标注后的原始训练样本中找出目标词语，并利用语义知识库对目标词语进行同义词替换，生成第一对抗训练样本；将原始训练样本和第一对抗训练样本分别输入翻译模型进行再训练，并根据第一对抗训练样本训练得到的损失函数对翻译模型进行梯度更新，得到第一增强翻译模型。本发明实施例利用已有的语义知识库为原始训练样本生成对应的第一对抗训练样本，将第一对抗训练样本和对应的原始训练样本一起输入翻译模型进行再训练，增强翻译模型的鲁棒性，提高翻译模型的翻译准确度。

Description

一种机器翻译增强方法、系统、终端及存储介质

技术领域

本发明涉及机器翻译技术领域，特别是涉及一种机器翻译增强方法、系统、终端及存储介质。

背景技术

机器翻译是一种借助程序将一种自然语言翻译成另一种自然语言的技术，该技术经过长期的发展变化，已经从最早的基于规则替换，到基于统计的机器翻译模型，变成现在的普遍基于人工神经网络的局面。目前，机器翻译在各个领域已经有广泛的应用，但在一些对翻译结果准确率要求较高的领域，自动化翻译还未普及，原因是基于神经网络的机器翻译模型对于输入的细微变化可能会产生非常不同的输出。例如在一个中到英的翻译模型中，输入[60美元]得到的输出为[60USD]，当输入变为[6美元]时，输出结果为[$6 MillionHomes in Vermont,South Carolina and Pennsylvania]，可以看到在对数量进行细微调整后，该翻译模型输出的内容让人不知所云。而出现这种现象的原因在于这类翻译模型在训练语料中较少出现，因此模型没有很好的学习，导致输出的翻译结果准确度不高。

发明内容

本发明提供了一种机器翻译增强方法、系统、终端及存储介质，能够在一定程度上解决现有技术中存在的不足。

为解决上述技术问题，本发明采用的技术方案为：

一种机器翻译增强方法，包括：

获取原始训练样本，根据所述原始训练样本训练得到翻译模型；

对所述原始训练样本进行分词以及词性标注，从所述分词以及词性标注后的原始训练样本中找出目标词语，并利用语义知识库对所述目标词语进行同义词替换，生成第一对抗训练样本；所述目标词语为在所述原始训练样本中出现频率高于设定次数或关注度高于设定比例的词语；

将所述原始训练样本和第一对抗训练样本分别输入所述翻译模型进行再训练，并根据所述第一对抗训练样本训练得到的损失函数对所述翻译模型进行梯度更新，得到第一增强翻译模型。

本发明实施例采取的技术方案还包括：所述对所述原始训练样本进行分词包括：

基于字典的分词方法、基于统计的分词方法或机器学习分词方法对所述原始训练样本进行分词。

本发明实施例采取的技术方案还包括：所述根据所述第一对抗训练样本训练得到的损失函数对所述翻译模型进行梯度更新包括：

分别得到由所述原始训练样本训练得到的第一损失函数和由所述第一对抗训练样本训练得到的第二损失函数；

判断所述第二损失函数与第一损失函数的差值是否大于设定的第一阈值；如果是，

采用所述第二损失函数对所述翻译模型进行梯度更新，得到第一增强翻译模型。

本发明实施例采取的技术方案还包括：所述第二损失函数和第一损失函数为：

上式中，Loss_s为第二损失函数，Loss_a为第一损失函数，P是条件概率，y_t′是当前时刻所述翻译模型产生的目标词语，是所有第一对抗训练样本的词语，/>是所有原始训练样本的词语。

本发明实施例采取的技术方案还包括：所述得到第一增强翻译模型之后还包括：

从所述分词以及词性标注后的原始训练样本中选择需要替换的目标词语，并对所述目标词语进行同义词替换，生成第二对抗训练样本；

将所述原始训练样本和第二对抗训练样本输入所述第一增强翻译模型进行再训练，得到第二增强翻译模型。

本发明实施例采取的技术方案还包括：所述将所述原始训练样本和第二对抗训练样本输入所述第一增强翻译模型进行再训练还包括：

分别得到由所述原始训练样本训练得到的第三损失函数和由第二对抗训练样本训练得到的第四损失函数；

判断所述第四损失函数与第三损失函数的差值是否大于设定的第二阈值，如果是，

采用所述第四损失函数对所述第一增强翻译模型进行梯度更新，得到第二增强翻译模型。

本发明实施例采取的另一技术方案为：一种机器翻译增强系统，包括：

第一模型训练模块：用于获取原始训练样本，根据所述原始训练样本训练得到翻译模型；

第一对抗样本生成模块：用于对所述原始训练样本进行分词以及词性标注，从所述分词以及词性标注后的原始训练样本中找出目标词语，并利用语义知识库对所述目标词语进行同义词替换，生成第一对抗训练样本；所述目标词语为在所述原始训练样本中出现频率高于设定次数或关注度高于设定比例的词语；

第二模型训练模块：用于将所述原始训练样本和第一对抗训练样本分别输入所述翻译模型进行再训练，并根据所述第一对抗训练样本训练得到的损失函数对所述翻译模型进行梯度更新，得到第一增强翻译模型。

本发明实施例采取的又一技术方案为：一种终端，所述终端包括处理器、与所述处理器耦接的存储器，其中，

所述存储器存储有用于实现上述的机器翻译增强方法的程序指令；

所述处理器用于执行所述存储器存储的所述程序指令以执行所述机器翻译增强操作。

本发明实施例采取的又一技术方案为：一种存储介质，存储有处理器可运行的程序指令，所述程序指令用于执行上述的机器翻译增强方法。

本发明的有益效果是：本发明实施例的机器翻译增强方法首先利用已有的语义知识库为原始训练样本生成对应的第一对抗训练样本，将第一对抗训练样本和对应的原始训练样本一起输入翻译模型进行训练，得到第一增强翻译模型；然后手动对原始训练样本中的目标词语进行同义词替换，生成原始训练样本的第二对抗训练样本，将第二对抗训练样本和对应的原始训练样本一起输入第一增强翻译模型进行再训练，得到第二增强翻译模型。基于上述的对抗训练增强翻译模型的鲁棒性，使翻译模型对细微的扰动不敏感，避免因为输入的微小变动引起输出内容的巨大偏差，提高翻译模型的翻译准确度。同时，改进后的增强翻译模型对同类型的输入有更好的适应性，增加了翻译模型对数据的泛化能力。本发明无需修改翻译模型的原有架构，便于部署到不同模型上，增强模型的性能。

附图说明

图1是本发明第一实施例的机器翻译增强方法的流程示意图；

图2是本发明第二实施例的机器翻译增强方法的流程示意图；

图3是本发明实施例机器翻译增强系统的结构示意图；

图4是本发明实施例的本发明实施例的终端结构示意图；

图5是本发明实施例的存储介质结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明中的术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

请参阅图1，是本发明第一实施例的机器翻译增强方法的流程示意图。本发明第一实施例的机器翻译增强方法包括以下步骤：

S10：获取原始训练样本，根据原始训练样本训练得到翻译模型；

本步骤中，原始训练样本可以是已有的训练样本或从数据库中获取的训练样本。翻译模型包括所有的深度神经网络形式的机器翻译模型。

S11：对原始训练样本中的部分源语言进行分词以及词性标注，从分词以及词性标注后的原始训练样本中找出目标词语，并利用语义知识库对目标词语进行随机的同义词替换，生成第一对抗训练样本；

本步骤中，语义知识库包括但不限于HowNet、WordNet等。以源语言为中文为例，分词方法包括但不限于基于字典的分词方法、基于统计的分词方法或机器学习分词方法等。词性标注即在给定句子中判定每个词的语法范畴，确定其词性并加以标注的过程，包括量词、地点、人名等。目标词语即为在原始训练样本中出现频率高于设定次数或关注度高于设定比例的词语。对目标词语进行同义词替换具体为：假设原始训练样本中的源语言为：我吃饭花了10美元；对该源语言进行分词后为：我吃饭花了10美元；目标词语为：美元；从语义知识库中获取的同义词为：美金；同义词替换后生成的第一对抗训练样本为：我吃饭花了10美金。

S12：将原始训练样本和第一对抗训练样本一起输入训练好的翻译模型进行再训练，分别得到由原始训练样本训练得到的第一损失函数Loss_a和由第一对抗训练样本训练得到的第二损失函数Loss_s；

本步骤中，第一损失函数Loss_a和第二损失函数Loss_s的计算方式分别为：

上式中，P是条件概率，y_t′是当前时刻翻译模型产生的目标词语，是所有第一对抗训练样本的词语，/>是所有原始训练样本的词语。

S13：判断第二损失函数Loss_s与第一损失函数Loss_a的差值是否大于设定的第一阈值Loss_aη1(即|Loss_s-Loss_a|>Loss_aη1)，如果是，执行S14；否则，重新执行S11；

S14：采用第二损失函数Loss_s对翻译模型进行梯度更新，得到第一增强翻译模型。

基于上述，本发明第一实施例的机器翻译增强方法首先利用已有的语义知识库为原始训练样本生成对应的第一对抗训练样本，将第一对抗训练样本和对应的原始训练样本一起输入翻译模型进行训练，得到增强后的翻译模型，从而增强翻译模型的鲁棒性，使翻译模型对细微的扰动不敏感，避免因为输入的微小变动引起输出内容的巨大偏差，提高翻译模型的翻译准确度。

请参阅图2，是本发明第二实施例的机器翻译增强方法的流程示意图。本发明第二实施例的机器翻译增强方法包括以下步骤：

S20：获取原始训练样本，根据原始训练样本训练得到翻译模型；

S21：对原始训练样本中的部分源语言进行分词以及词性标注，从分词以及词性标注后的原始训练样本中找出目标词语，并利用语义知识库对目标词语进行随机的同义词替换，生成第一对抗训练样本；

本步骤中，语义知识库包括但不限于HowNet、WordNet等。以源语言为中文为例，分词方法包括但不限于基于字典的分词方法、基于统计的分词方法和机器学习分词方法等。词性标注即在给定句子中判定每个词的语法范畴，确定其词性并加以标注的过程，包括量词、地点、人名等。目标词语即为在原始训练样本中出现频率高于设定次数或关注度高于设定比例的词语。对目标词语进行同义词替换具体为：假设原始训练样本中的源语言为：我吃饭花了10美元；对该源语言进行分词后为：我吃饭花了10美元；目标词语为：美元；从语义知识库中获取的同义词为：美金；同义词替换后生成的第一对抗训练样本为：我吃饭花了10美金。

S22：将原始训练样本和第一对抗训练样本一起输入训练好的翻译模型进行再训练，分别得到由原始训练样本训练得到的第一损失函数Loss_a和由第一对抗训练样本训练得到的第二损失函数Loss_s；

S23：判断第二损失函数Loss_s与第一损失函数Loss_a的差值是否大于设定的第一阈值Loss_aη1(即|Loss_s-Loss_a|>Loss_aη1)，如果是，执行S24；否则，重新执行S21；

S24：采用第二损失函数Loss_s对翻译模型A进行梯度更新，得到第一增强翻译模型；

S25：从分词以及词性标注后的原始训练样本中选择需要替换的目标词语，并对该目标词语进行同义词替换，生成第二对抗训练样本；

S26：将原始训练样本和第二对抗训练样本分别输入第一增强翻译模型进行再训练，分别得到由原始训练样本训练得到的第三损失函数Loss_d和由第二对抗训练样本训练得到的第四损失函数Loss_f；

本步骤中，第三损失函数Loss_d和第四损失函数Loss_f的计算方式与第一损失函数Loss_a和第二损失函数Loss_s相同，此处将不再赘述。

S27：判断第四损失函数Loss_f与第三损失函数Loss_d的差值是否大于设定的第二阈值Loss_aη2(即|Loss_s-Loss_a|>Loss_aη2)，如果是，执行S28；否则，重新执行S25；

S28：用第四损失函数Loss_f对第一增强翻译模型进行梯度更新，得到第二增强翻译模型。

基于上述，本发明第二实施例的机器翻译增强方法首先利用已有的语义知识库为原始训练样本生成对应的第一对抗训练样本，将第一对抗训练样本和对应的原始训练样本一起输入翻译模型进行训练，得到第一增强翻译模型；然后手动对原始训练样本中的目标词语进行同义词替换，生成原始训练样本的第二对抗训练样本，将第二对抗训练样本和对应的原始训练样本一起输入第一增强翻译模型进行再训练，得到第二增强翻译模型。基于上述的对抗训练增强翻译模型的鲁棒性，使翻译模型对细微的扰动不敏感，避免因为输入的微小变动引起输出内容的巨大偏差，提高翻译模型的翻译准确度。同时，改进后的增强翻译模型对同类型的输入有更好的适应性，增加了翻译模型对数据的泛化能力。本发明无需修改翻译模型的原有架构，便于部署到不同模型上，增强模型的性能。

在一个可选的实施方式中，还可以：将所述的机器翻译增强方法的结果上传至区块链中。

具体地，基于所述的机器翻译增强方法的结果得到对应的摘要信息，具体来说，摘要信息由所述的机器翻译增强方法的结果进行散列处理得到，比如利用sha256s算法处理得到。将摘要信息上传至区块链可保证其安全性和对用户的公正透明性。用户可以从区块链中下载得该摘要信息，以便查证所述的机器翻译增强方法的结果是否被篡改。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

请参阅图3，是本发明实施例机器翻译增强系统的结构示意图。本发明实施例机器翻译增强系统40包括：

第一模型训练模块41：用于获取原始训练样本，根据所述原始训练样本训练得到翻译模型；其中，原始训练样本可以是已有的训练样本或从数据库中获取的训练样本。翻译模型包括所有的深度神经网络形式的机器翻译模型。

第一对抗样本生成模块42：用于对所述原始训练样本中的部分源语言进行分词以及词性标注，从所述分词以及词性标注后的原始训练样本中找出目标词语，并利用语义知识库对所述目标词语进行同义词替换，生成第一对抗训练样本；其中，语义知识库包括但不限于HowNet、WordNet等。以源语言为中文为例，分词方法包括但不限于基于字典的分词方法、基于统计的分词方法和机器学习分词方法等。词性标注即在给定句子中判定每个词的语法范畴，确定其词性并加以标注的过程，包括量词、地点、人名等。目标词语即为在原始训练样本中出现频率高于设定次数或关注度高于设定比例的词语。对目标词语进行同义词替换具体为：假设原始训练样本中的源语言为：我吃饭花了10美元；对该源语言进行分词后为：我吃饭花了10美元；目标词语为：美元；从语义知识库中获取的同义词为：美金；同义词替换后生成的第一对抗训练样本为：我吃饭花了10美金。

第二模型训练模块43：用于将所述原始训练样本和第一对抗训练样本输入所述训练好的翻译模型进行再训练，分别得到由原始训练样本训练得到的第一损失函数Loss_a和由第一对抗训练样本训练得到的第二损失函数Loss_s，判断第二损失函数Loss_s与第一损失函数Loss_a的差值是否大于设定的第一阈值Loss_aη1(即|Loss_s-Loss_a|>Loss_aη1)，如果是，采用第二损失函数Loss_s对翻译模型A进行梯度更新，得到第一增强翻译模型；其中，第一损失函数Loss_a和第二损失函数Loss_s的计算方式分别为：

上式中，y_t′是当前时刻翻译模型产生的目标词语，是所有第一对抗训练样本的词语，/>是所有原始训练样本的词语。

第二对抗样本生成模块44：用于从分词以及词性标注后的原始训练样本中选择需要替换的目标词语，并对该目标词语进行同义词替换，生成第二对抗训练样本。

第三模型训练模块45：用于将原始训练样本和第二对抗训练样本分别输入第一增强翻译模型进行再训练，分别得到由原始训练样本训练得到的第三损失函数Loss_d和由第二对抗训练样本训练得到的第四损失函数Loss_f，并判断第四损失函数Loss_f与第三损失函数Loss_d的差值是否大于设定的第二阈值Loss_aη2(即|Loss_s-Loss_a|>Loss_aη2)，如果是，用第四损失函数Loss_f对第一增强翻译模型进行梯度更新，得到第二增强翻译模型。

请参阅图4，为本发明实施例的终端结构示意图。该终端50包括处理器51、与处理器51耦接的存储器52。

存储器52存储有用于实现上述机器翻译增强方法的程序指令。

处理器51用于执行存储器52存储的程序指令以执行机器翻译增强操作。

其中，处理器51还可以称为CPU(Central Processing Unit，中央处理单元)。处理器51可能是一种集成电路芯片，具有信号的处理能力。处理器51还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

请参阅图5，图5为本发明实施例的存储介质的结构示意图。本发明实施例的存储介质存储有能够实现上述所有方法的程序文件61，其中，该程序文件61可以以软件产品的形式存储在上述存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质，或者是计算机、服务器、手机、平板等终端设备。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。以上仅为本发明的实施方式，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种机器翻译增强方法，其特征在于，包括：

将所述原始训练样本和第一对抗训练样本分别输入所述翻译模型进行再训练，并根据所述第一对抗训练样本训练得到的损失函数对所述翻译模型进行梯度更新，得到第一增强翻译模型；

所述根据所述第一对抗训练样本训练得到的损失函数对所述翻译模型进行梯度更新包括：

采用所述第二损失函数对所述翻译模型进行梯度更新，得到第一增强翻译模型；

所述第二损失函数和第一损失函数为：

上式中，Loss_s为第二损失函数，Loss_a为第一损失函数，P是条件概率，y_t′是当前时刻所述翻译模型产生的目标词语，是所有第一对抗训练样本的词语，/>是所有原始训练样本的词语；

所述得到第一增强翻译模型之后还包括：

2.根据权利要求1所述的机器翻译增强方法，其特征在于，所述对所述原始训练样本进行分词包括：

3.根据权利要求1所述的机器翻译增强方法，其特征在于，所述将所述原始训练样本和第二对抗训练样本输入所述第一增强翻译模型进行再训练还包括：

4.一种机器翻译增强系统，其特征在于，包括：

第二模型训练模块：用于将所述原始训练样本和第一对抗训练样本分别输入所述翻译模型进行再训练，并根据所述第一对抗训练样本训练得到的损失函数对所述翻译模型进行梯度更新，得到第一增强翻译模型；

所述第二损失函数和第一损失函数为：

所述得到第一增强翻译模型之后还包括：

5.一种终端，其特征在于，所述终端包括处理器、与所述处理器耦接的存储器，其中，

所述存储器存储有用于实现权利要求1～3任一项所述的机器翻译增强方法的程序指令；

所述处理器用于执行所述存储器存储的所述程序指令以执行所述机器翻译增强方法。

6.一种存储介质，其特征在于，存储有处理器可运行的程序指令，所述程序指令用于执行权利要求1～3任一项所述的机器翻译增强方法。