CN108415906A

CN108415906A - 基于领域自动识别篇章机器翻译方法、机器翻译系统

Info

Publication number: CN108415906A
Application number: CN201810263004.7A
Authority: CN
Inventors: 汪鸣; 汪一鸣; 程国艮
Original assignee: Chinese Translation Language Through Polytron Technologies Inc
Current assignee: Chinese Translation Language Through Polytron Technologies Inc
Priority date: 2018-03-28
Filing date: 2018-03-28
Publication date: 2018-08-17
Anticipated expiration: 2038-03-28
Also published as: CN108415906B

Abstract

本发明属于自然语言的处理或转换技术领域，公开了一种基于领域自动识别篇章机器翻译方法、机器翻译系统，所述基于领域自动识别篇章机器翻译方法将待翻译的句子划分到对应领域；对于篇章中的每句待翻译语句根据对应的领域信息调取对应的领域翻译系统对句子进行翻译；对翻译的句子进行合并得到最终的篇章翻译结果。本发明在传统的机器翻译机制上做了改进，采用了分类算法将待翻译的语句进行领域的划分，再放入对应所属领域翻译系统进行翻译。相比于传统人工选择领域翻译系统进行翻译方法，该发明可以省去人工判断句子所属领域的时间。相比如直接利用通用翻译系统进行翻译，该发明可以有效提升翻译准确率。

Description

基于领域自动识别篇章机器翻译方法、机器翻译系统

技术领域

本发明属于自然语言的处理或转换技术领域，尤其涉及一种基于领域自动识别篇章机器翻译方法、机器翻译系统。

背景技术

目前，业内常用的现有技术是这样的：机器翻译是一种利用机器学习算法从双语平行数据中学习两种语言之间相关联系，再利用学习的规则将一种自然语言转化成另外一种自然语言的过程。机器翻译技术的发展一直与计算机技术、信息论、语言学等学科的发展紧密相随。机器翻译从二十世纪三四十年代开始经历过开创期、受挫器、恢复期、新时期。新时期自1990年开始，经历了基于规则的机器翻译、基于统计的机器翻译以及基于神经网络的机器翻译。现阶段占据主流地位的是基于神经网络的机器翻译，相比于统计机器翻译它采用的是端到端的翻译方式。基于神经网络机器翻译的主要思想是采用一个“编码解码”的结构，编码与解码模块分别使用一个循环神经网络进行训练与翻译。对于一句待翻译的句子，编码器首先将该句子转化成一个固定维度的向量，接着将该向量作为输入，解码器会给出一串词向量序列，最终通过在词典查找的方式将该输出的词向量序列转化为目标语言词。在现有的主流机器翻译中，不管是基于统计的机器翻译系统还是基于神经网络的机器翻译系统，采用的都是数据驱动的技术。理论上训练数据的量越大，翻译系统的效果越好。然而在实际情况中待测试的数据与翻译系统的训练数据相关性越大，翻译效果越好。如果待翻译的句子属于教育类，使用900万句高质量教育类训练数据训练的翻译系统的表现有很大概率会优于用1000万句高质量军事类训练数据训练的翻译系统。在实际应用中会出现两种情况，一种是无论用户输入的待翻译句子属于哪个领域，都被当作输入利用一个通用的系统做翻译，目前的技术并未很好得解决领域差异性；另外一种是用户选择特定的领域翻译系统，输入待翻译的句子，对应领域翻译系统给出对应翻译，目前的技术并未很好得实现智能分类。这两种机制中都不能达到最优翻译结果。在第一种机制中因为待翻译的句子与对应系统的训练集关联性不是密切相关，会导致部分词、短语翻译之后的结果准确性不高或者翻译之后的语言习惯不符合特定领域的翻译习惯，在第二种机制中输入的为文本，而文本中的句子可能分属于不同领域，则需要人工辨别每句话所属领域，输入对应领域翻译系统，这种方法一方面不够高效，另一方面输入文本中的句子可能包含非指定领域的内容，可能会因领域不同而影响特定词、短语、句子的翻译准确性。本发明则可以有效解决上述问题。

综上所述，现有技术存在的问题是：

(1)无论用户输入的待翻译句子属于哪个领域，都被当作输入利用一个通用的系统做翻译，待翻译的句子与对应系统的训练集关联性不是密切相关。

(2)用户选择特定的领域翻译系统，输入待翻译的句子，对应领域翻译系统给出对应翻译，输入的为文本，而文本中的句子可能分属于不同领域，则需要人工辨别每句话所属领域，输入对应领域翻译系统，方法则不够高效。

解决上述技术问题的难度和意义：解决该问题主要在于如何高效得对篇章中的每一句进行领域差别切分，同时在切分过程中还需要结合篇章领域信息，因为每个词或者每句话在不同领域中可能存在不同的意思。通过解决该问题可以有效得根据句子的领域信息进行对应领域的翻译，提高每个词和句子的翻译准确度。

发明内容

针对现有技术存在的问题，本发明提供了一种基于领域自动识别篇章机器翻译方法及系统、机器翻译系统。

本发明是这样实现的，一种基于领域自动识别篇章机器翻译方法，所述基于领域自动识别篇章机器翻译方法将待翻译的句子划分到对应领域；对于篇章中的每句待翻译语句根据对应的领域信息调取对应的领域翻译系统对句子进行翻译；对翻译的句子进行合并得到最终的篇章翻译结果。

进一步，所述待翻译的句子划分到对应领域具体包括：

(1)使用朴素贝叶斯方法对待翻译的文章进行领域分类，待翻译的文章，使用如下公式计算文章属于每个领域类别的分数：

P(x|y_i)＝p(x₁|y_i)p(x₂|y_i)...p(x₃|y_i)；

其中，x_i为文本中去除停用之后的所有词，y_i为对应类别；

(2)对文本中的每句话进行分类，将句子中的词转化为一个特定维度的向量，该特定维度的向量被成为词向量，，词转化为embedding过程中使用的是一种单射函数，在数学上可表示为一个映射：

f∶X→Y；

将经过转化之后的词向量输入到长短时记忆层进行计算。对于输入的词向量，通过以下公式计算在t时刻记忆单元状态候选值以及输入门i_t：

i_t＝σ(W_ix_t+U_ih_t-1+b_i)；

其中σ()为激励函数，tanh()表示双曲正切函数，W_i、U_i、W_c为对应权重矩阵，t表示t时刻，b_i与b_c分别表示偏置；

(3)利用如下公式计算在t时刻记忆单元遗忘门对应的值f_t：

f_t＝σ(W_fx_t+U_fh_t-1+b_f)；

其中σ()为激励函数，W_f、U_f为遗忘门对应权重矩阵，t表示t时刻，b_f表示遗忘门对应偏置；

(4)接着根据得到的i_t、以及f_t利用如下公式更新当前状态值C_t：

根据更新后的新状态值，使用如下公式计算最终输出：

o_t＝σ(W_ox_t+U_oh_t-1+b_o)；

h_t＝o_t*tanh(C_t)；

其中σ()为激励函数，tanh()表示双曲正切函数，W_o与U_o为对应权重矩阵，t表示t时刻，b_o表示输出函数偏置；

(5)得到t个隐藏的长短时记忆神经单元的向量，向量经过一个平均池层，该层将上述t个向量进行平均操作，得到一个向量h；

(6)接下来对向量进行h分类。

进一步，所述(6)包括：将最开始计算的文本属于对应类别的分数转化为与向量h相同维度的向量，使用词袋模型实现转化，设向量h的维度为n，则类别i的向量表示为第i维数值为对应分数，其他维数值为0。转化完成后进行分类；

其中X₀为句子向量h，X_i分别为文章所属类别分数对应的向量，LayerL₁为输入层，Xn分别代表向量中的值，LayerL₂为隐藏层，计算隐藏特征。LayerL₃为输出层，输出最终结果，使用的是前向传播算法，具体公式如下：

z^(l)＝W^(l-1)x^(l-1)+b^(l-1)；

a^(l)＝f(z^(l))；

h_W，b(x)＝a^(L-1)；

其中L_n为第n层，X_n为输入的特征，W，b分别为权重和偏置，h_W，b(x)为输出。

本发明的另一目的在于提供一种所述基于领域自动识别篇章机器翻译方法的基于领域自动识别机器翻译系统，所述基于领域自动识别机器翻译系统包括：

分类模块，用于将待翻译的句子划分到对应领域；

机器翻译模块，用于对于篇章中的每句待翻译语句根据对应的领域信息调取对应的领域翻译系统对句子进行翻译，再对翻译的句子进行合并得到最终的篇章翻译结果。

本发明的另一目的在于提供一种应用所述基于领域自动识别篇章机器翻译方法的机器翻译系统。

综上所述，本发明的优点及积极效果为：本发明在传统的机器翻译机制上做了改进，采用了分类算法将待翻译的语句进行领域的划分，再放入对应所属领域翻译系统进行翻译。现有的机器翻译技术并不能智能识别每个句子可能属于的领域，对于篇章中的句子领域信息，现在市面上并没有根据篇章信息影响句子领域信息的技术。该发明不但可以节省判断句子所属领域的时间，能够根据篇章以及句子的领域信息做出快速判断，同时放入对应领域的翻译系统进行翻译，可以有效提升翻译准确率。本发明的方法简单易行，领域类别容易拓展，在几乎不影响整个翻译速度的基础上可将系统的翻译准确率提升约5％的BLEU值，BLEU值的具体计算方式如下：

其中BP代表惩罚因子，W_n表示共线n元词的权重，P_n代表修正的n-单位精确度，BP计算方式如下：

其中c代表待评价译文的长度，r代表参考译文的长度。P_n代表的是在每个n单元数只匹配一次的情况下待评测译文当中n单元数与参考译文中的n单元数重合数占待参考译文总n单元数的比例。如n为1，则以单词作为最小匹配单位，若n为2，则以两个单词的组合作为最小匹配单位。

附图说明

图1是本发明实施例提供的基于领域自动识别篇章机器翻译方法流程图。

图2是本发明实施例提供的基于领域自动识别机器翻译系统结构示意图；

图中：1、分类模块；2、机器翻译模块。

图3是本发明实施例提供的基于领域自动识别机器翻译系统结构框图。

图4是本发明实施例提供的转化完成后进行分类示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明相比于传统人工选择领域翻译系统进行翻译方法，该发明可以省去人工判断句子所属领域的时间。

如图1所示，本发明实施例提供的基于领域自动识别篇章机器翻译方法包括以下步骤：

S101：将待翻译的句子划分到对应领域；

S102：对于篇章中的每句待翻译语句根据对应的领域信息调取对应的领域翻译系统对该句子进行翻译；

S103：对翻译的句子进行合并得到最终的篇章翻译结果。

如图2所示，本发明实施例提供的基于领域自动识别机器翻译系统包括：

分类模块1，用于将待翻译的句子划分到对应领域。

机器翻译模块2，用于对于篇章中的每句待翻译语句根据对应的领域信息调取对应的领域翻译系统对该句子进行翻译，最终再对翻译的句子进行合并得到最终的篇章翻译结果。

下面结合附图对本发明的应用原理作进一步的描述。

本发明共分为两个模块，第一个模块为分类模块1，第二个模块为机器翻译模块2。系统结构图如图3：

第一个模块是一个分类器，它的作用是将待翻译的句子划分到对应领域。在该发明中，不同于其他的单独对文本或者文本中的每句话进行分类，该发明在对文本中每句话进行分类的时候将该文本的类别作为特征来影响每句话的分类。分类具体步骤如下：

首先使用朴素贝叶斯方法对待翻译的文章进行领域分类，针对待翻译的文章，使用如下公式计算该文章属于每个领域类别的分数：

P(x|y_i)＝p(x₁|y_i)p(x₂|y_i)...p(x₃|y_i)；

其中，x_i为文本中去除停用之后的所有词，y_i为对应类别。

然后对文本中的每句话进行分类。该部分主要使用词向量以及长短时记忆机制(LSTM)进行处理。首先将句子中的词转化为一个特定维度的向量，该特定维度的向量被成为词向量(wordembedding)，词转化为embedding过程中使用的是一种单射函数，在数学上可表示为一个映射，即：

f∶X→Y；

将经过转化之后的词向量输入到长短时记忆(LSTM)层进行计算。对于输入的词向量，通过以下公式计算在t时刻记忆单元状态候选值以及输入门i_t：

i_t＝σ(W_ix_t+U_ih_t-1+b_i)；

其中σ()为激励函数，tanh()表示双曲正切函数，W_i、U_i、W_c为对应权重矩阵，t表示t时刻，b_i与b_c分别表示偏置。

然后，利用如下公式计算在t时刻记忆单元遗忘门对应的值f_t：

f_t＝σ(W_fx_t+U_fh_t-1+b_f)；

其中σ()为激励函数，W_f、U_f为遗忘门对应权重矩阵，t表示t时刻，b_f表示遗忘门对应偏置。

接着根据上述得到的i_t、以及f_t利用如下公式更新当前状态值C_t：

根据更新后的新状态值，可使用如下公式计算最终输出：

o_t＝σ(W_ox_t+U_oh_t-1+b_o)；

h_t＝o_t*tanh(C_t)；

其中σ()为激励函数，tanh()表示双曲正切函数，W_o与U_o为对应权重矩阵，t表示t时刻，b_o表示输出函数偏置。

经过上述步骤会得到t个隐藏的长短时记忆神经单元的向量，这些向量经过一个平均池层，该层将上述t个向量进行平均操作，最终得到一个向量h。

接下来对向量进行h分类。在进行分类之前首先需要将最开始计算的该文本属于对应类别的分数转化为与向量h相同维度的向量。可以使用词袋模型实现转化，设向量h的维度为n，则类别i的向量表示为第i维数值为对应分数，其他维数值为0。转化完成后进行分类，分类流程图如图4：

其中X₀为句子向量h，X_i分别为文章所属类别分数对应的向量，LayerL₁为输入层，Xn分别代表向量中的值，LayerL₂为隐藏层，计算隐藏特征。LayerL₃为输出层，输出最终结果。使用的是前向传播算法，具体公式如下：

z^(l)＝W^(l-1)x(^l-1)+b^(l-1)；

a^(l)＝f(z^(l))；

h_W，b(x)＝a^(L-1)；

经过上述步骤对于给定的句子则能经过分类得到句子所属领域的信息。

本发明的第二个模块为机器翻译模块2，经过第一个模块的计算，对于每个句子给出其对应所属的领域分数，在第二个模块中，对于篇章中的每句待翻译语句根据对应的领域信息调取对应的领域翻译系统对该句子进行翻译，最终再对翻译的句子进行合并得到最终的篇章翻译结果。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于领域自动识别篇章机器翻译方法，其特征在于，所述基于领域自动识别篇章机器翻译方法将待翻译的句子划分到对应领域；对于篇章中的每句待翻译语句根据对应的领域信息调取对应的领域翻译系统对句子进行翻译；对翻译的句子进行合并得到篇章翻译结果。

2.如权利要求1所述的基于领域自动识别篇章机器翻译方法，其特征在于，所述待翻译的句子划分到对应领域具体包括：

P(x|y_i)＝p(x₁|y_i)p(x₂|y_i)...p(x₃|y_i)；

其中，x_i为文本中去除停用之后的所有词，y_i为对应类别；

(2)对文本中的每句话进行分类，将句子中的词转化为一个特定维度的向量，该特定维度的向量被成为词向量，词转化为embedding过程中使用的是一种单射函数，在数学上可表示为一个映射：

f：Ｘ→Ｙ；

将经过转化之后的词向量输入到长短时记忆层进行计算；对于输入的词向量，通过以下公式计算在t时刻记忆单元状态候选值以及输入门i_t:

i_t＝σ(W_ix_t+U_ih_t-1+b_i)；

(3)利用如下公式计算在t时刻记忆单元遗忘门对应的值f_t：

f_t＝σ(W_fx_t+U_fh_t-1+b_f)；

根据更新后的新状态值，使用如下公式计算最终输出：

o_t＝σ(W_ox_t+U_oh_t-1+b_o)；

h_t＝o_t*tanh(C_t)；

(6)接下来对向量进行h分类。

3.如权利要求2所述的基于领域自动识别篇章机器翻译方法，其特征在于，所述(6)包括：将最开始计算的文本属于对应类别的分数转化为与向量h相同维度的向量，使用词袋模型实现转化，设向量h的维度为n，则类别i的向量表示为第i维数值为对应分数，其他维数值为0；转化完成后进行分类；

其中X₀为句子向量h，X_i分别为文章所属类别分数对应的向量，LayerL₁为输入层，Xn分别代表向量中的值，LayerL₂为隐藏层，计算隐藏特征；LayerL₃为输出层，输出最终结果，使用的是前向传播算法，具体公式如下：

z^(l)＝W^(l-1)x^(l-1)+b^(l-1)；

a^(l)＝f(z(l))；

hW，b(x)＝a^(L-1)；

4.一种如权利要求1所述基于领域自动识别篇章机器翻译方法的基于领域自动识别机器翻译系统，其特征在于，所述基于领域自动识别机器翻译系统包括：

分类模块，用于将待翻译的句子划分到对应领域；

5.一种应用权利要求1～3任意一项所述基于领域自动识别篇章机器翻译方法的机器翻译系统。