CN109871550B

CN109871550B - 一种基于后处理技术的提高数字翻译质量的方法

Info

Publication number: CN109871550B
Application number: CN201910095195.5A
Authority: CN
Inventors: 王强; 张哲旸
Original assignee: Shenyang Yayi Network Technology Co ltd
Current assignee: Shenyang Yayi Network Technology Co ltd
Priority date: 2019-01-31
Filing date: 2019-01-31
Publication date: 2022-11-22
Anticipated expiration: 2039-01-31
Also published as: CN109871550A

Abstract

本发明的一种基于后处理技术的提高数字翻译质量的方法，包括：将待翻译句子中的复杂数字替换为简单数字，记录原数字；对替换后的待翻译句子进行分词处理及子词切分处理；对每一个子词切分后的句子进行翻译；获取待翻译句子与翻译后句子的attention对齐信息，获取与简单数字相对应的简单数字译文；通过原数字、简单数字和简单数字译文计算出正确数字译文；根据简单数字与简单数字译文间的对应关系，用正确数字译文替换简单数字译文，获取正确的翻译后句子；对正确的翻译后句子中数字部分及其对应单位进行单位正规化操作。该方法用后处理方法解决数字翻译问题，用复杂数字替换为简单数字然后译文还原的方法，运行速度快，对计算机负担小。

Description

一种基于后处理技术的提高数字翻译质量的方法

技术领域

本发明属于机器翻译技术领域，具体涉及一种基于后处理技术的提高数字翻译质量的方法。

背景技术

数字翻译是机器翻译中一种常见翻译问题，数字翻译具体是指将源语(待翻译内容)中的数字部分映射到目标语(被翻译内容)中的数字，其中不同语言之间单位不同，数字表示方式也有不同。一个语言的数字部分在翻译为目标语言时，经常会出现单位改变等情况。一个数字翻译的例子如下所示：

源语：今年原油日需求量为9885万桶

目标语：Demand for crude oil this year is 98.85 million barrels a day

当用户使用机器翻译的解码器生成翻译结果的时候，数字翻译的准确性十分重要，数字中通常包含着一个句子中的关键信息，尤其是银行业、保险业、金融领域等行业领域，用户对数字翻译的结果十分敏感，某个单词翻译错误对译文整体影响相对较小，但如果一个关键数字翻译错误，会对最终结果造成很大影响，例如将“小王本月应缴个人所得税为321.54元。”翻译为“Xiao Wang's personal income tax payable this month is 3215.4yuan.”仅仅在小数点位置上翻译错误，然后对整句话产生了巨大的影响，而且会对用户体验造成很大的负面影响。由于数字本身包含文本中关键信息的特性以及部分领域对数字敏感的特性，保证数字翻译的准确性至关重要。

当前机器翻译系统并未针对数字翻译采取专门的翻译策略。数字翻译大部分属于未登录词翻译，机器翻译系统针对未登录词翻译时有很大的不足。机器翻译系统为了减少计算复杂度，通常使用一个固定大小的词汇表。由于词汇表大小有限，使得机器翻译在翻译未登录词时效果很差。

后处理方法是在不修改机器翻译模型以及训练数据的情况下，使用一些自动处理脚本提升机器翻译译文的方法。当前后处理方法主要是解决一些翻译中存在的非法字符以及基于规则的字符替换，尚未有人将后处理方法应用到数字翻译当中。

发明内容

为解决上述技术问题，本发明的目的是提供一种基于后处理技术的提高数字翻译质量的方法，以解决现有机器翻译系统在进行数字翻译时候所面临的未能准确翻译复杂数字导致的数字翻译效果不理想问题。

本发明提供一种基于后处理技术的提高数字翻译质量的方法，包括如下步骤：

步骤1：输入待翻译句子，将待翻译句子中的复杂数字替换为简单数字，并记录原数字；

步骤2：对替换后的待翻译句子进行分词处理以及子词切分处理，得到子词切分后的句子；

步骤3：对每一个子词切分后的句子进行翻译，得到翻译后句子；

步骤4：获取待翻译句子与翻译后句子的attention对齐信息，以获取与简单数字相对应的简单数字译文；

步骤5：通过原数字、简单数字和简单数字译文计算出正确数字译文；

步骤6：根据简单数字与简单数字译文之间的对应关系，使用正确数字译文替换简单数字译文，进而获取正确的翻译后句子；

步骤7：对正确的翻译后句子中数字部分及其对应单位进行单位正规化操作。

在本发明的基于后处理技术的提高数字翻译质量的方法中，所述步骤1具体为：

步骤1.1：找到待翻译句子中数字部分，判断数字长度，将长度大于四位的复杂数字替换为四位以下的易翻译的简单数字；

步骤1.2：对于一个待翻译句子中存在多个复杂数字的情况，将多个复杂数字替换成不同的简单数字。

在本发明的基于后处理技术的提高数字翻译质量的方法中，所述步骤2中进行子词切分处理具体为：

步骤3.1：通过大量分词后的双语句对学习子词词表；

步骤3.2：使用子词词表处理待翻译句子，将不常见的单词拆分为更为常见的子词形式。

在本发明的基于后处理技术的提高数字翻译质量的方法中，所述步骤4中具体为：

步骤4.1：获取待翻译句子与翻译后句子之间的attention概率表；

步骤4.2：在attention概率表中查询获得简单数字所对应的对齐概率最高的三个译文单词；

步骤4.3：从三个译文单词中选取出首位数字与简单数字的首位数字相同的简单数字译文，进而获取简单数字对应的简单数字译文。

在本发明的基于后处理技术的提高数字翻译质量的方法中，所述步骤5中具体通过下列公式计算正确数字译文：

在本发明的基于后处理技术的提高数字翻译质量的方法中，所述步骤6中具体为：

步骤6.1：利用步骤4中获得的attention对齐信息获得翻译后句子中的简单数字译文；

步骤6.2：使用正确数字译文替换简单数字译文，获得正确的翻译后句子。

在本发明的基于后处理技术的提高数字翻译质量的方法中，所述步骤7中具体为：

步骤7.1：建立单位和数字的对应表，如million对应1000000；

步骤7.2：获取正确数字译文后的单位，判断是否需要进行正规化操作；

步骤7.3：通过查表计算方式，将正确数字译文和单位计算为纯数字译文；

步骤7.4：计算纯数字译文整数部分位数，通过查表方式，将纯数字译文转化为正规化数字译文和正确单位。

本发明的一种基于后处理技术的提高数字翻译质量的方法，至少具有以下有益效果：

1.本发明提出的一种基于后处理技术的提高数字翻译质量的方法，在进行数字替换时，根据待翻译句子与翻译后句子之间的attention信息，能够自动确定待翻译句子中的数字部分在对应的翻译后句子中的范围，以找到和待翻译句子中的数字部分最匹配的翻译结果，从而避免了由于多个数字出现在同一句子中导致的无法确定不同数字对应的翻译结果，无法使用后处理方法进行替换的问题；同时避免了纯数字部分翻译正确但是单位翻译错误而导致传统后处理技术无法修正。本发明方法可使机器翻译系统对复杂数字进行准确翻译。

2.本发明提出的方法是使用后处理方法解决数字翻译问题，架构透明，是一种处理复杂数字翻译的轻量级方法，与翻译时使用的机器翻译翻译模型无关，无需复杂的网络计算，可以方便的移植到各种机器翻译系统中。

3.本发明提出使用后处理方法解决数字翻译问题，使用复杂数字替换为简单数字然后译文还原的方法，运行速度快，对计算机负担小。

附图说明

图1是本发明的一种基于后处理技术的提高数字翻译质量的方法的流程图；

图2为通过attention概率表找到数字对应关系的样例图。

具体实施方式

针对现有机器翻译系统在进行数字翻译时候所面临的未能准确翻译复杂数字导致的数字翻译效果不理想问题，本发明提供了一种基于后处理技术的提高数字翻译质量的方法，该方法通过采用简单数字替换待翻译句子中的复杂数字，然后根据待翻译句子与翻译后句子之间的attention信息自动确定待翻译句子中的数字部分在对应的翻译后句子中的范围，最后将简单数字译文替换为正确的数字译文。该方法使用后处理方法解决数字翻译问题，使用复杂数字替换为简单数字然后译文还原的方法，运行速度快，对计算机负担小。

如图1所示，本发明的一种基于后处理技术的提高数字翻译质量的方法，包括如下步骤：

步骤1：输入待翻译句子，判断是否存在复杂数字，若是则将待翻译句子中的复杂数字替换为简单数字，并记录原数字；否则进行分词和子词切分后，进行机器翻译；所述步骤1具体为：

在待翻译句子中找到数字部分，然后判断数字长度，将大于四位的复杂数字替换为“100”等简单数字。对于一个句子中有多个复杂数字的情况，将第一个数字替换“100”，之后的第二第三个数字替换为“200”、“300”等其他简单数字，避免与其他替换后的简单数字重复。在机器翻译系统中，为了控制计算复杂度，通常有一个固定大小的词汇表，词汇表的大小通常被限制在3万词到8万词之间。由于词汇表大小有限，机器翻译在翻译未登录词时有着严重的不足，我们使用子词切分方法解决这一问题。该方法将训练语料中的单词拆分为更为常见的小部分，通常把他们叫做子词单元，同样大小的词汇表，使用子词单元方法可以表示的词汇数量要远远超过以单词为基础单元的词汇表。以子词为最小翻译单元，在遇到绝大多数未登录词的时候，就可以使用子词单元组合表示出未登录词。

例1：一个中文句子在使用子词切分方法拆分后的结果如下：

拆分前：处理机总数达到164个

拆分后：处理@@机总数达到16@@4个

如示例1所示，“处理机”是一个中文未登录词，通过子词切分方法，“处理机”被拆分为“处理”和“机”，而“处理”和“机”这两部分恰恰是在词汇表中，可以准确翻译，从而得到“处理机”的正确翻译结果。

然而对于数字翻译问题，大部分数字也是未登录词，复杂数字经过子词切分方式会被拆分为多个子词单元，并不能解决数字翻译错误的问题。

例2：一个复杂数字使用子词切分方法拆分后的结果如下所示：

拆分前：3,706.87万

拆分后：3,@@70@@6.@@8@@7万

译文：3@@7.@@0@@67million

由于复杂数字被拆分为多个子词单元，在机器翻译进行翻译的时候，经常会出现部分子词单元翻译错误的情况，导致数字翻译质量低下。

针对使用子词切分方法只能解决大部分未登录词，但是无法解决数字未登录词这一问题。因此，本发明先采用数字替换的方法，将复杂数字替换为常见的、位数较短的简单数字再进行子词切分，数字替换和子词切分后再进行翻译，可避免翻译结果错误的问题。同时将多个复杂数字替换为不同的简单数字，既保证了每个数字的覆盖度，又确保不会由于简单数字相同导致在之后数字替换步骤中导致对齐错误问题的发生；进一步减少了翻译错误的可能性。

所述步骤2中进行子词切分处理具体为：

首先学习子词切分词表。对大量原始语料数据进行分词，然后根据分词切分训练语料，进而统计词语与词频。将每个单词变成单个字符的表示形式，例如将’word’变为{w,o,r,d</w>}的形式，并根据词频进行排序，形成{(w,o,r,d):1}类似的词语词频字典。

将词语词频字典中的每两个相邻元素进行组合，统计频率，如{(w,o,r,d):1}则变为{wo:1,or:1,rd:1}。得到元素频率统计结果。

然后选择出现频率最高的相邻元素组合，将词语词频字典中对应的元素合并成一个新的元素，如’w’、’o’合并为’wo’,并将其写入子词切分词表里。并将与之相关的统计结果进行更新，如‘word’，如果’wo’进行合并操作，则对应的’or’统计次数减少，并且将新合并的元素‘wo’的统计次数置为0。不断循环迭代，直至获得指定大小的子词切分词表。

然后将子词切分词表应用到待翻译数据中，将待翻译句子中的未登录词切分为子词的表示形式。

步骤3：用机器翻译系统对每一个子词切分后的句子进行翻译，得到翻译后句子；

输入的句子是经过复杂数字替换的，并对待翻译句子(源语)进行了分词处理以及子词切分处理，获取的目标语译文也是以子词单元作为最小单位表示的。

例如：一个使用子词切分处理的中英机器翻译系统的源语和目标语如下所示：

源语：她逐渐深@@陷赌@@城的夜@@生活。

目标语：She gradually gets into a night@@life in a gambling town。

步骤4：在机器翻译系统的解码输出中获取待翻译句子与翻译后句子的attention对齐信息，以获取与简单数字相对应的简单数字译文，所述步骤4中具体为：

对于待翻译句子中的每一个子词单元以及译文中的每一个子词单元，机器翻译都会输出他们之间的attention信息，这个信息可以作为对齐概率的重要参考指标。

Attention机制是自然语言处理里广泛应用的一个机制。人类的注意力机制(Attention Mechanism)是从直觉中得到，它是人类利用有限的注意力资源从大量信息中快速筛选出高价值信息的手段。深度学习中的注意力机制借鉴了人类的注意力思维方式。attention信息里面隐含着源语和目标语之间的每个子词单元的对齐关系，attention信息可以通过机器翻译系统解码器在解码过程中输出。输入的信息格式为源语中的子词单元和目标语中每个子词单元的对齐概率，如图2所示，图中第一行为待翻译句子，第一列为翻译后句子，行和列的交汇处的数字表示待翻译句子中的单词与为翻译后句中的单词的对齐概率。

为了准确的找到待翻译句子中简单数字在译文中对应的翻译结果，需要使用attention信息和已知的简单数字。

首先对于子词切分后的句子，合并子词单元以及对应的attention概率，保证源语和目标语中不包含子词单元。然后使用attention信息缩小对齐范围，由于attention机制的特性，在机器翻译解码过程中输出的attention信息可以作为对齐概率的重要参考信息，在获得对齐概率之后，结合简单数字的首位信息确定源语中的简单数字经过翻译后的结果。

对于一些阿拉伯数字可能会被翻译为非数字的情况，如“1”被翻译为“one”或者“a”、“an”，本发明中使用一个简单转换字典，参照简单数字的个数、attention能够较好的处理这种情况，保证替换准确性。由于各个简单数字都是各不相同的，本发明使用的attention信息和简单数字信息结合的方法可以准确地获得源语数字与目标语数字之间的对齐关系。

步骤5：通过原数字、简单数字和简单数字译文计算出正确数字译文，具体通过下列公式计算正确数字译文：

步骤6：根据简单数字与简单数字译文之间的对应关系，使用正确数字译文替换简单数字译文，进而获取正确的翻译后句子，具体为：

当前获得的译文中数字数值部分翻译正确，不过由于简单数字替换方法的使用，句子中可能出现“5000million”的数字译文，而且英文中常用的表示数字的英文单词数量有限，只有“hundred”、“thousand”、“million”、“billion”，本发明中通过判断数字整数部分位数以及后面的单位，判断当前数字单位是否符合规范，对单位不规范的进行单位正规化处理。对形如“58431.2million”的数据进行正规化处理，将其规范为形如“58.4312billion”的格式。具体操作为：

首先建立单位和数字的对应表，如million对应1000000。然后获得正确数字译文后面的单位和正确数字译文的整数位数，通过查表方式，确定是否需要进行正规化操作：如果整数位数大于表中单位位数和下一个单位位数差，则进行数字正规化操作。

对于需要进行正规化操作的单位，获得单位对应的表中数字。然后将正确数字译文和表中数字相乘，得到纯数字译文。最后计算纯数字译文整数部分位数，通过查表方式，将纯数字译文转化为正规化数字译文和正确单位。

以上所述仅为本发明的较佳实施例，并不用以限制本发明的思想，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于后处理技术的提高数字翻译质量的方法，其特征在于，包括如下步骤：

步骤1：输入待翻译句子，将待翻译句子中的复杂数字替换为简单数字，并记录复杂数字；

步骤5：通过复杂数字、简单数字和简单数字译文计算出正确数字译文；

步骤7：对正确的翻译后句子中数字部分及其对应单位进行单位正规化操作；

所述步骤1具体为：

步骤1.2：对于一个待翻译句子中存在多个复杂数字的情况，将多个复杂数字替换成不同的简单数字；

所述步骤5具体通过下列公式计算正确数字译文：

。

2.如权利要求1所述的基于后处理技术的提高数字翻译质量的方法，其特征在于，所述步骤3具体为：

步骤3.1：通过大量分词后的双语句对学习子词词表；

3.如权利要求1所述的基于后处理技术的提高数字翻译质量的方法，其特征在于，所述步骤4中具体为：

4.如权利要求1所述的基于后处理技术的提高数字翻译质量的方法，其特征在于，所述步骤6中具体为：

5.如权利要求1所述的基于后处理技术的提高数字翻译质量的方法，其特征在于，所述步骤7中具体为：

步骤7.1：建立单位和数字的对应表；