CN114358032A

CN114358032A - 一种机器翻译错误检测模型训练方法、装置、设备及介质

Info

Publication number: CN114358032A
Application number: CN202210017274.6A
Authority: CN
Inventors: 廖富林; 李明; 张马成
Original assignee: Chengdu Ue Information Technology Co ltd
Current assignee: Chengdu Ue Information Technology Co ltd
Priority date: 2022-01-07
Filing date: 2022-01-07
Publication date: 2022-04-15

Abstract

本发明公开了一种机器翻译错误检测模型训练方法、装置、设备及介质，涉及机器翻译技术领域。该方法通过判断机翻译文是否正确，自动对机翻译文进行翻译错误和翻译正确的打标，并对翻译错误的机翻译文设置错翻权重，将机翻标签为翻译错误的待翻文本作为源语言，机翻标签为翻译错误的机翻译文及其对应的错翻权重作为语言标签形成模型训练语句对，通过模型训练语句对对RNN模型进行训练和测试，得到机器翻译错误检测模型，通过机器翻译错误检测模型对机翻译文进行错误检测，提高译后编辑效率，降低负责译后编辑的翻译人员的任务量。

Description

一种机器翻译错误检测模型训练方法、装置、设备及介质

技术领域

本发明涉及机器翻译技术领域，具体涉及一种机器翻译错误检测模型训练方法、装置、设备及介质。

背景技术

机器翻译相对于人工翻译，大大提高了翻译效率，但是其翻译后的译文是否准确还需要通过翻译人员进一步确认，此过程称为译后编辑(Machine Translation PostEditing，MTPE)。当翻译量巨大或者翻译任务紧急时，若仅通过翻译人员完成译后编辑任务，则需要花费较多时间，且译后编辑效率不高。

发明内容

本发明所要解决的技术问题为目前仅通过翻译人员完成译后编辑在一些特殊场景如翻译量巨大或翻译任务紧急时效率不高，因此，本发明提供一种机器翻译错误检测模型训练方法、装置、设备及介质，对机器翻译的译文进行数据筛选、过滤，减少翻译人员译后编辑的任务量，提高译后编辑效率。

本发明通过下述技术方案实现：

一种机器翻译错误检测模型训练方法，包括：

获取机翻译文，通过机翻标签标注模型对机翻译文进行自动打标，得到机翻译文的机翻标签；

对机翻标签为翻译错误的机翻译文设置错翻权重，将机翻标签为翻译错误的待翻文本作为源语言，机翻标签为翻译错误的机翻译文及其对应的错翻权重作为语言标签，形成模型训练语句对；

按照预设比例将模型训练语句对划分为训练集和测试集；

将训练集输入到RNN模型中进行训练，得到初始模型；

将测试集输入到初始模型中进行测试，当输出的结果与输入机翻标签一致，则将初始模型作为机器翻译错误检测模型。

进一步地，所述通过机翻标签标注模型对机翻译文进行自动打标，包括：

通过机翻标签标注模型对机翻译文进行数字翻译识别、标点翻译识别、术语翻译识别、非译元素翻译识别、语法翻译识别和拼写翻译识别，获取翻译准确标签和翻译错误标签，完成对机翻译文的自动打标。

进一步地，所述数字翻译识别，包括：

筛选出待翻文本和对应机翻译文中的数字，并将得到的数字统一转换为阿拉伯数字，形成待翻数字组和机翻数字组；

通过词对齐工具对待翻数字组与机翻数字组进行一致性比较，当待翻数字组与机翻数字组一致，则对机翻译文中数字打上翻译正确的机翻标签；

当待翻数字组与机翻数字组不一致，则对机翻译文中数字打上翻译错误的机翻标签；

所述标点翻译识别，包括：

识别机翻译文的语种，根据机翻译文的语种选择对应的标点符号库；

基于选择的标点符号库对机翻译文中的所有标点符号进行识别，根据机翻译文的语种确定目标标点符号库；

当机翻译文中的标点符号在对应的目标标点符号库中，则对机翻译文中的标点符号打上翻译正确的标签；

当机翻译文中的标点符号不在对应的目标标点符号库中，则对机翻译文中的标点符号打上翻译错误的标签。

进一步地，所述术语翻译识别和拼写翻译识别，包括：

通过分词工具对待翻文本和机翻译文进行分词，去除停用词，得到待翻词和机翻词；

通过双语术语词库对待翻词和机翻词进行关联关系查询，当在双语术语词库中查询到待翻词和机翻词存在匹配关系，则对对应的机翻词打上翻译正确的机翻标签；当在双语术语词库中没有查询到待翻词和机翻词存在匹配关系，则对对应的机翻词打上翻译存疑的机翻标签作为存疑词；

查询普通词库，对存疑词进行拼写翻译识别，当普通词库中存在与存疑词一致的词，则将存疑词的机翻标签修改为翻译正确的机翻标签；当普通词库中不存在与存疑词一致的词，则将存疑词的机翻标签修改为翻译错误的机翻标签。

进一步地，所述非译元素指由至少两种类型的字符组成的字符串；

所述非译元素翻译识别，包括：

在得到待翻词和机翻词后，对待翻文本和对应的机翻译文进行非译元素识别，获取待翻非译元素和机翻非译元素；

通过词对齐工具将待翻非译元素和机翻非译元素对齐，当对齐的待翻非译元素和机翻非译元素一致，则对对应的机翻非译元素打上翻译正确的机翻标签；

当对齐的待翻非译元素和机翻非译元素不一致，则对对应的非译元素打上翻译错误的机翻标签。

进一步地，所述语法翻译识别，包括：

通过断句标识对机翻译文进行分句，得到机翻句子；

对各机翻句子中的每个词进行词性标注，并结合语法分析工具对每个句子进行语法分析，对不符合语法规则的机翻句子打上翻译错误的机翻标签，对符合语法规则的机翻句子打上翻译正确的机翻标签。

进一步地，所述将训练集输入到RNN模型中进行训练，得到初始模型，包括：

将训练集中的N个模型训练语句对{(x⁽ⁿ⁾,y⁽ⁿ⁾)}^N输入到RNN模型中进行训练，将模型中目标函数计算出的概率最大的结果作为模型输出结果，当模型输出结果与语句对中的语言标签一致则停止训练，得到初始模型；

所述目标函数为：

L(θ)＝∑N log P(y⁽ⁿ⁾|x⁽ⁿ)；θ)

式中，x⁽ⁿ⁾表示语句对中第n个待翻文本，y⁽ⁿ⁾表示第n个待翻文本对应的错误的机翻译文，θ表示模型参数和错误的机翻译文携带的错翻权重。

一种机器翻译错误检测模型训练装置，包括：

自动打标模块，用于获取机翻译文，通过机翻标签标注模型对机翻译文进行自动打标，得到机翻译文的机翻标签；

模型训练语句对获取模块，用于对机翻标签为翻译错误的机翻译文设置错翻权重，将机翻标签为翻译错误的待翻文本作为源语言，机翻标签为翻译错误的机翻译文及其对应的错翻权重作为语言标签，形成模型训练语句对；

模型训练语句对划分模块，用于按照预设比例将模型训练语句对划分为训练集和测试集；

模型训练模块，用于将训练集输入到RNN模型中进行训练，得到初始模型；

模型测试模块，用于将测试集输入到初始模型中进行测试，当输出的结果与输入机翻标签一致，则将初始模型作为机器翻译错误检测模型。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述机器翻译错误检测模型训练方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述机器翻译错误检测模型训练方法。

本发明提供一种机器翻译错误检测模型训练方法、装置、设备及介质，通过判断机翻译文是否正确，自动对机翻译文进行翻译错误和翻译正确的打标，并对翻译错误的机翻译文设置错翻权重，将机翻标签为翻译错误的待翻文本作为源语言，机翻标签为翻译错误的机翻译文及其对应的错翻权重作为语言标签形成模型训练语句对，通过模型训练语句对对RNN模型进行训练和测试，得到机器翻译错误检测模型，通过机器翻译错误检测模型对机翻译文进行错误检测，提高译后编辑效率，降低负责译后编辑的翻译人员的任务量。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定。在附图中：

图1为本发明一种机器翻译错误检测模型训练方法的一流程图。

图2为本发明一种机器翻译错误检测模型训练装置的结构示意图。

图3为本发明计算机设备的一示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

本发明提供一种机器翻译错误检测模型训练方法，该方法可应用于不同电子设备中，该电子设备包括但不限于各种个人计算机、笔记本电脑、智能手机和平板电脑。

在一实施例中，如图1所示，本发明提供一种机器翻译错误检测模型训练方法，包括：

S10：获取机翻译文，通过机翻标签标注模型对机翻译文进行自动打标，得到机翻译文的机翻标签；

S20：对机翻标签为翻译错误的机翻译文设置错翻权重，将机翻标签为翻译错误的待翻文本作为源语言，机翻标签为翻译错误的机翻译文及其对应的错翻权重作为语言标签，形成模型训练语句对；

S30：按照预设比例将模型训练语句对划分为训练集和测试集；

S40：将训练集输入到RNN模型中进行训练，得到初始模型；

S50：将测试集输入到初始模型中进行测试，当输出的结果与输入机翻标签一致，则将初始模型作为机器翻译错误检测模型。

其中，机翻译文指通过机器翻译得到的译文。

机翻标签标注模型指判断机翻译文是否翻译错误，并将机翻译文翻译正确的打上翻译正确的标签，翻译错误的打上翻译错误的标签的模型。

待翻文本指需要翻译的文本，该文本可以为任何语种的文本。

作为一示例，步骤S10中，通过机翻标签标注模型对机翻译文进行数字翻译识别、标点翻译识别、术语翻译识别、非译元素翻译识别、语法翻译识别和拼写翻译识别，并根据识别结果打上翻译准确标签和翻译错误标签，完成对机翻译文的自动打标。

其中，数字翻译识别、标点翻译识别、术语翻译识别、非译元素翻译识别、语法翻译识别和拼写翻译识别具体包括：

1、数字翻译识别

通过词对齐工具对待翻数字组与机翻数字组进行一致性比较，当待翻数字组与机翻数字组一致且在字组中处于相同的位置，则对机翻译文中数字打上翻译正确的机翻标签；

当待翻数字组与机翻数字组不一致，则对机翻译文中数字打上翻译错误的机翻标签。

2、标点翻译识别

其中，标点符号库指存储有各种语种的所有标点符号的数据库。

3、术语翻译识别和拼写翻译识别

通过双语术语词库对待翻词和机翻词进行关联关系查询，当在双语术语词库中查询到待翻词和机翻词存在匹配关系，则对对应的机翻词打上翻译正确的机翻标签；当在双语术语词库中没有查询到待翻词和机翻词存在匹配关系，则表示待翻词和机翻词并不属于术语，可能为普通词组，对对应的机翻词打上翻译存疑的机翻标签作为存疑词；

查询普通词库，对存疑词进行拼写翻译识别，当普通词库中存在与存疑词一致的词，则表示待翻词和机翻词为普通词，将存疑词的机翻标签修改为翻译正确的机翻标签；当普通词库中不存在与存疑词一致的词，则表示待翻词和机翻词可能出现拼写错误，将存疑词的机翻标签修改为翻译错误的机翻标签。

本实施例中的普通词库是收录有所有已出现过的词组的数据库，包括但不限于人名、地名等。

具体地，上述匹配关系包括两种，一种是待翻词和机翻词在不同语种中的表现形式一致的匹配，如excel、PDF；另一种是待翻词和机翻词在不同语种中的表现形式不一致，但意思上具有一一对应关系的匹配，如亚硝胺(nitrosamines)。

4、非译元素翻译识别

其中，非译元素指由至少两种类型的字符组成的字符串，如邮箱地址、邮编等。

通过词对齐工具将待翻非译元素和机翻非译元素对齐，当对齐的待翻非译元素和机翻非译元素的意思一致且处于字符串中相同的位置，则对对应的机翻非译元素打上翻译正确的机翻标签；

具体地，非译元素识别指以一个词组为单位判断其是否包括至少两种类型的字符，若一个词组中包括至少两种类型的字符，则认为是非译元素。

5、语法翻译识别

通过断句标识对机翻译文进行分句，得到机翻句子；

对各机翻句子中的每个词进行词性标注，并结合语法分析工具对每个句子进行语法分析，对不符合语法规则的机翻句子打上翻译错误的机翻标签，对符合语法规则的机翻句子打上翻译正确的机翻标签。本实施例中的语法分析工具包括但不限于依存句法分析树。

进一步地，除了上述数字翻译识别、标点翻译识别、术语翻译识别、非译元素翻译识别、语法翻译识别和拼写翻译识别可以实现自动打标，机翻译文还会存在错译、漏译，对于错译、漏译等情况需要翻译人员进一步确认，完成译后编辑的过程。

作为一示例，步骤S20中，由于模型的特殊性，通常模型识别都是识别正确的结果，但是本实施例中构建的模型是用来识别机器翻译错误的结果，因此，需要对翻译错误的机翻译文设置错翻权重，以提高翻译错误的机翻译文的比重，适应后续机器翻译错误检测模型的训练，以使RNN模型根据翻译错误的机翻译文进行训练，实现对机翻译文的错误检测。

作为一示例，步骤S30中，按照预设比例将模型训练语句对划分为训练集和测试集。该预设比例可以根据实际情况设定，如训练集比测试集9:1或7:3。

作为一示例，步骤S40中，将训练集中的N个模型训练语句对{(x⁽ⁿ⁾,y⁽ⁿ⁾)}^N输入到RNN模型中进行训练，将模型中目标函数计算出的概率最大的结果作为模型输出结果，当模型输出结果与语句对中的语言标签一致则停止训练，得到初始模型；

所述目标函数为：

L(θ)＝∑N log P(y⁽ⁿ⁾|x⁽ⁿ⁾；θ)

作为一示例，步骤S50中，在得到初始模型后，为了验证初始模型的准确性，以及是否可以实现对机器翻译进行错误检测的功能，将测试集输入到初始模型中进行测试，当输出的结果与输入机翻标签一致，则表示模型训练成功，将初始模型作为机器翻译错误检测模型。

本发明提供的一种机器翻译错误检测模型训练方法，通过判断机翻译文是否正确，自动对机翻译文进行翻译错误和翻译正确的打标，并对翻译错误的机翻译文设置错翻权重，将机翻标签为翻译错误的待翻文本作为源语言，机翻标签为翻译错误的机翻译文及其对应的错翻权重作为语言标签形成模型训练语句对，通过模型训练语句对对RNN模型进行训练和测试，得到机器翻译错误检测模型，通过机器翻译错误检测模型对机翻译文进行错误检测，提高译后编辑效率，降低负责译后编辑的翻译人员的任务量。

例中，提供一种机器翻译错误检测模型训练装置，该机器翻译错误检测模型训练装置与上述实施例中一种机器翻译错误检测模型训练方法一一对应。如图2所示，该机器翻译错误检测模型训练装置包括自动打标模块10、模型训练语句对获取模块20、模型训练语句对划分模块30、模型训练模块40和模型测试模块50。各功能模块详细说明如下：

自动打标模块10，用于获取机翻译文，通过机翻标签标注模型对机翻译文进行自动打标，得到机翻译文的机翻标签；

模型训练语句对获取模块20，用于对机翻标签为翻译错误的机翻译文设置错翻权重，将机翻标签为翻译错误的待翻文本作为源语言，机翻标签为翻译错误的机翻译文及其对应的错翻权重作为语言标签，形成模型训练语句对

模型训练语句对划分模块30，用于按照预设比例将模型训练语句对划分为训练集和测试集；

模型训练模块40，用于将训练集输入到RNN模型中进行训练，得到初始模型；

模型测试模块50，用于将测试集输入到初始模型中进行测试，当输出的结果与输入机翻标签一致，则将初始模型作为机器翻译错误检测模型。

关于机器翻译错误检测模型训练装置的具体限定可以参见上文中对于机器翻译错误检测模型训练方法的限定，在此不再赘述。上述机器翻译错误检测模型训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一实施例中，提供一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括计算机可读存储介质、内存储器。该计算机可读存储介质存储有操作系统、计算机程序和数据库。该内存储器为计算机可读存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储机器翻译错误检测模型训练方法中涉及到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种机器翻译错误检测模型训练方法。

提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中机器翻译错误检测模型训练方法的步骤，例如图1所示步骤S10-S50，为避免重复，这里不再赘述。或者，处理器执行计算机程序时实现上述实施例中机器翻译错误检测模型训练装置的各模块/单元的功能，例如图2所示模块10至模块50的功能。为避免重复，这里不再赘述。

在一实施例中，提供一计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中机器翻译错误检测模型训练方法的步骤，例如图1所示的步骤S10-S50，为避免重复，这里不再赘述。或者，处理器执行计算机程序时实现机器翻译错误检测模型训练装置这一实施例中的各模块/单元的功能，例如图2所示的模块10至模块50的功能。为避免重复，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种机器翻译错误检测模型训练方法，其特征在于，包括：

按照预设比例将模型训练语句对划分为训练集和测试集；

将训练集输入到RNN模型中进行训练，得到初始模型；

2.根据权利要求1所述的机器翻译错误检测模型训练方法，其特征在于，所述通过机翻标签标注模型对机翻译文进行自动打标，包括：

3.根据权利要求2所述的机器翻译错误检测模型训练方法，其特征在于，所述数字翻译识别，包括：

所述标点翻译识别，包括：

4.根据权利要求1所述的机器翻译错误检测模型训练方法，其特征在于，

所述术语翻译识别和拼写翻译识别，包括：

5.根据权利要求4所述的机器翻译错误检测模型训练方法，其特征在于，所述非译元素指由至少两种类型的字符组成的字符串；

所述非译元素翻译识别，包括：

6.根据权利要求1所述的机器翻译错误检测模型训练方法，其特征在于，所述语法翻译识别，包括：

通过断句标识对机翻译文进行分句，得到机翻句子；

7.根据权利要求1所述的机器翻译错误检测模型训练方法，其特征在于，所述将训练集输入到RNN模型中进行训练，得到初始模型，包括：

所述目标函数为：

L(θ)＝∑N log P(y⁽ⁿ⁾|x⁽ⁿ⁾；θ)

8.一种机器翻译错误检测模型训练装置，其特征在于，包括：

模型训练语句对获取模块，用于对机翻标签为翻译错误的机翻译文设置错翻权重，将机翻标签为翻译错误的待翻文本作为源语言，机翻标签为翻译错误的机翻译文及其对应的错翻权重作为语言标签，形成模型训练语句对

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述机器翻译错误检测模型训练方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述机器翻译错误检测模型训练方法。