CN107402919B

CN107402919B - 基于图的机器翻译数据选择方法及机器翻译数据选择系统

Info

Publication number: CN107402919B
Application number: CN201710666759.7A
Authority: CN
Inventors: 汪一鸣; 程国艮; 宗浩
Original assignee: Global Tone Communication Technology Co ltd
Current assignee: Global Tone Communication Technology Co ltd
Priority date: 2017-08-07
Filing date: 2017-08-07
Publication date: 2021-02-09
Anticipated expiration: 2037-08-07
Also published as: CN107402919A

Abstract

本发明属于数据处理技术领域，公开了一种基于图的机器翻译数据选择方法及机器翻译数据选择系统，所述方法包括：首先是建图，即建立一个无向图；其次是标签传播；最后是根据标签传播之后每个结点对应领域的概率分布进行数据选取的工作。本发明对现有的机器翻译数据选择方法进行了改进；现有的机器翻译数据选择方法只能选择出一种领域的数据，忽视了领域之间的共性；对于待划分领域的数据该发明则能根据给定的领域个数及部分已标注领域数据给出所有领域的概率分布，将领域之间的共性纳入数据选择方法的考虑范围。

Description

基于图的机器翻译数据选择方法及机器翻译数据选择系统

技术领域

本发明属于数据处理技术领域，尤其涉及一种基于图的机器翻译数据选择方法。

背景技术

机器翻译是一种利用机器学习的技术将一种自然语言翻译成另外一种自然语言的过程。作为计算语言学的一个重要分支，它涉及认知科学、语言学等学科，是人工智能的终极目标之一。

现有机器翻译所采用的都是数据驱动的技术。所以理论上随着数据量的增长，机器翻译系统的性能也能够跟着提升。但是当训练数据与待翻译的语料来源差异很大的时候，翻译性能往往会严重下降，例如使用新闻领域语料训练的翻译系统很显然不太适合用来翻译微博领域的数据。此外，由于用来搭建翻译模型的训练语料往往包含了不同领域的数据，尤其是从互联网上自动获取的训练语料，其领域来源更是复杂。领域自适应技术的提出就是为了提高机器翻译在不同领域数据上的翻译结果的准确率。数据选择是领域自适应的子分支，它的基本思想是选择和目标领域文本相似的领域数据进行翻译模型的训练和建模，使训练得到的模型在目标领域具有较好的翻译能力。

综上所述，现有技术存在的问题是：

现有数据选择技术是利用某个特定领域的数据训练出一个模型，对于待划分领域的数据进行评分；这种方法最主要的缺陷是对于每个待划分领域的句对给出一个特定的值代表该句对属于某个特定领域的概率而忽视了某些领域之间的共性；实际上存在这一些特定的句对，它们可以同时被划分到很多领域中，比如新闻里面的某句话描述的是关于体育的信息，那这句话既可以被划分到新闻领域，同样也可以被划分到体育领域；由于现有方法在一开始则认定输出的结果为单一领域的概率，并且不能根据给定的领域个数及部分已标注领域数据给出所有领域的概率分布，没能将领域之间的共性纳入数据选择方法的考虑范围。

发明内容

针对现有技术存在的问题，本发明提供了一种基于图的机器翻译数据选择方法。

本发明是这样实现的，一种基于图的机器翻译数据选择方法，所述基于图的机器翻译数据选择方法根据给定的领域个数及部分已标注领域数据给出所有领域的概率分布，将领域之间的共性纳入分析范围，进行数据选取。

进一步，所述基于图的机器翻译数据选择方法具体包括：

首先，建立一个无向图；

其次，进行标签传播；

最后，根据标签传播之后每个结点对应领域的概率分布进行数据选取。

进一步，所述建立一个无向图，包括：进行顶点分配；

所述顶点分配以句对为单位，对每个句对使用一个四维向量表示，向量中的值由以下公式计算得出：

其中l_e与l_f分别代表源语言以及目标语言句子的长度，t(e_j|f_i)代表第i个源语言的词被翻译成第j个目标语言的词对应的翻译概率；

进一步，在计算向量中所有值之前，利用领域内数据以及领域无关数据训练从源语言到目标语言以及从目标语言到源语言的四个词翻译模型；再根据这四个模型分别计算得到每个句对对应的四维向量；在该过程中，使用词袋模型或者其他特征作为每个顶点的向量。

进一步，所述建立一个无向图，还包括建立k-维树，在建立k-维树之前，需要初始化一个分隔阈值，这个分隔阈值使用方差来确定，方差的计算方式如下：

其中n代表向量的维度；在计算出每个维度的对应方差之后，取方差最大的维度为分隔阈值，接着根据分隔阈值对所有顶点进行排序；取中间值的结点作为父节点，小于该值的被归类到左数据，大于该值的被归类到右数据；重复所述的取中间值的结点作为父节点，小于该值的被归类到左数据，大于该值的被归类到右数据步骤，直到所有结点都被连接起来。

进一步，所述建立一个无向图，还包括k-近邻搜索，所述k-近邻搜索旨在找出与当前结点距离最近的k个结点，对于一个给定的结点，使用当前分隔阈值对应维度的值与根结点进行比较，小于根结点则向左与左子树比较，如果大于根结点则向右与右子树比较，取最后的叶子结点为当前最优；

计算出给定结点与当前最优结点的欧式距离d，以d为半径构建一个超平面；以给顶点为超平面中心，如果该超平面不与任何其他结点相切，则当前最优则为最近邻结点；如果该超平面与其他结点相切，则返回当前最优结点的父节点，与父节点的另一分支进行比较；在搜索路径上重复以上所述使用当前分隔阈值对应维度的值与根结点进行比较和计算出给定结点与当前最优结点的欧式距离d，以d为半径构建一个超平面的步骤直到找到最优结点；其中，k取任意值。

进一步，所述建立一个无向图，还包括权重计算，所述权重计算使用结点的相似性来代表对应相邻结点的权重，相邻结点的相似性使用余弦值计算得到；具体计算公式如下：

其中S和T分别代表两个向量。

进一步，所述标签传播中，给定一个图G＝(V，E，W)，其中v∈V表示图中的顶点，包含已标注数据I个与待分类数据U个，E代表边，W代表不同边对应的权重，W_ij代表第i个结点把标签传递给第j个结点的概率；

所述标签传递的过程具体包括：所有结点传播一次标签V←WV；更新已标注结点的标签为初始状态；重复所有结点传播一次标签V←WV；更新已标注结点的标签为初始状态步骤直到收敛。

进一步，所述数据选取中，经过建立一个无向图、进行标签传播后，所有未标注的结点都有对应领域的概率分布，对需要的领域数值所有数据进行排序，选出指定数量的数据作为最终的机器翻译训练数据使用。

本发明的另一目的在于提供一种基于图的机器翻译数据选择系统。

本发明的优点及积极效果为：本发明对现有的机器翻译数据选择方法进行了改进。现有的机器翻译数据选择方法只能选择出一种领域的数据，忽视了领域之间的共性。对于待划分领域的数据该发明则能根据给定的领域个数及部分已标注领域数据给出所有领域的概率分布，将领域之间的共性纳入数据选择方法的考虑范围。与此同时，该发明可以保证使用基线系统40％的训练数据在纵向领域上提升3％～5％个BLEU值。

附图说明

图1是本发明实施例提供的基于图的机器翻译数据选择方法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

现有数据选择技术是利用某个特定领域的数据训练出一个模型，对于待划分领域的数据进行评分；这种方法最主要的缺陷是对于每个待划分领域的句对给出一个特定的值代表该句对属于某个特定领域的概率而忽视了某些领域之间的共性。实际上存在这一些特定的句对，它们可以同时被划分到很多领域中，比如新闻里面的某句话描述的是关于体育的信息，那这句话既可以被划分到新闻领域，同样也可以被划分到体育领域。

下面结合附图及具体实施例对本发明的应用原理作进一步描述。

如图1所示，本发明实施例提供的基于图的机器翻译数据选择方法，包括：

S101：首先是建图，即建立一个无向图；

S102：其次是标签传播；

S103：最后是根据标签传播之后每个结点对应领域的概率分布进行数据选取的工作。

下面结合具体实施例对本发明作进一步描述。

本发明实施例提供的基于图的机器翻译数据选择方法，第一步为建图，这一步骤的主要作用是建立一个无向图。建图主要分为四个步骤，分别为顶点分配、建立k-维树、k-近邻搜索以及权重计算。

顶点分配是以句对为单位的，针对本发明每个句对使用一个四维向量表示，向量中的值由以下公式计算得出：

其中l_e与l_f分别代表源语言以及目标语言句子的长度，t(e_j|f_i)代表第i个源语言的词被翻译成第j个目标语言的词对应的翻译概率。在计算向量中所有值之前，利用领域内数据以及领域无关数据训练从源语言到目标语言以及从目标语言到源语言的四个词翻译模型。再根据这四个模型分别计算得到每个句对对应的四维向量。在该过程中，可使用词袋模型或者其他特征作为每个顶点的向量。

在建立k-维树之前，需要初始化一个分隔阈值，这个分隔阈值可以使用方差来确定，方差的计算方式如下：

其中n代表向量的维度。在计算出每个维度的对应方差之后，取方差最大的维度为分隔阈值，接着根据分隔阈值对所有顶点进行排序。取中间值的结点作为父节点，小于该值的被归类到左数据，大于该值的被归类到右数据。重复以上步骤直到所有结点都被连接起来。

k-近邻搜索旨在找出与当前结点距离最近的k个结点。对于一个给定的结点，使用当前分隔阈值对应维度的值与根结点进行比较，小于根结点则向左与左子树比较，如果大于根结点则向右与右子树比较，取最后的叶子结点为当前最优。计算出给定结点与当前最优结点的欧式距离d，以d为半径构建一个超平面。以给顶点为超平面中心，如果该超平面不与任何其他结点相切，则当前最优则为最近邻结点。如果该超平面与其他结点相切，则返回当前最优结点的父节点，与父节点的另一分支进行比较。在搜索路径上重复以上步骤直到找到最优结点。在该步骤中k可取任意值。

权重计算是为了计算每个结点与之最邻近的k个结点之间的距离。该发明使用结点的相似性来代表对应相邻结点的权重，相邻结点的相似性可使用余弦值计算得到。具体计算公式如下：

其中S和T分别代表两个向量。该相似性计算方法可使用欧式距离等其他方式代替。

该发明的第二步为标签传播，给定一个图G＝(V，E，W)，其中v∈V表示图中的顶点，包含已标注数据I个与待分类数据U个，E代表边，W代表不同边对应的权重，在该发明中W_ij代表第i个结点把标签传递给第j个结点的概率。标签传递的过程如下：所有结点传播一次标签V←WV；更新已标注结点的标签为初始状态；重复以上步骤直到收敛。该步骤可替换的算法有吸附算法、改良吸附算法等。

该发明的第三步则是选择数据。经过第一步及第二步之后，所有未标注的结点都会有对应领域的概率分布，只需对需要的领域数值对所有数据进行排序，选出指定数量的数据即可作为最终的机器翻译训练数据使用。

本发明对现有的机器翻译数据选择方法进行了改进。现有的机器翻译数据选择方法只能选择出一种领域的数据，忽视了领域之间的共性。对于待划分领域的数据该发明则能根据给定的领域个数及部分已标注领域数据给出所有领域的概率分布，将领域之间的共性纳入数据选择方法的考虑范围。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于图的机器翻译数据选择方法，其特征在于，所述基于图的机器翻译数据选择方法根据给定的领域个数及部分已标注领域数据给出所有领域的概率分布，将领域之间的共性纳入分析范围，进行数据选取；

所述基于图的机器翻译数据选择方法具体包括：

首先，建立一个无向图；

其次，进行标签传播；

最后，根据标签传播之后每个结点对应领域的概率分布进行数据选取；

所述建立一个无向图，包括：进行顶点分配；

所述顶点分配以句对为单位，对每个句对使用一个四维向量表示，向量中的每个值S由以下公式计算得出：

其中l_e与l_f分别代表源语言以及目标语言句子的长度，t(e_j|f_i)代表第i个源语言的词被翻译成第j个目标语言的词对应的翻译概率，i与j分别代表源语言以及目标语言句子中词的序号；f为Foreign language，通常在机器翻译用来代表源语言，此处代表源语言句子，f_i代表原句子f中的第i个词，P为Probability，代表是的概率值，P(e|f)代表条件概率值；S为Score，代表的是最终的得分，此处S代表四维向量中的每个维度值；

在计算向量中所有值之前，利用领域内数据以及领域无关数据训练从源语言到目标语言以及从目标语言到源语言的四个词翻译模型，其中两个词翻译模型由领域内数据训练得到的源语言词翻译成目标语言词对应的概率模型以及目标语言词翻译成源语言词对应的概率模型，另外两个词翻译模型则是使用领域无关数据训练的源语言词翻译成目标语言词对应的概率模型以及目标语言词翻译成源语言词对应的概率模型；再根据这四个模型分别计算得到每个句对对应的四维向量；在此过程中，使用词袋模型或者其他特征作为每个顶点的向量；

所述建立一个无向图，还包括建立k-维树，在建立k-维树之前，需要初始化一个分隔阈值，这个分隔阈值使用方差来确定，方差的计算方式如下：

其中n代表向量的维度；在计算出每个维度的对应方差之后，取方差最大的维度为分隔阈值，接着根据分隔阈值对所有顶点进行排序；取中间值的结点作为父节点，小于该值的被归类到左数据，大于该值的被归类到右数据；重复所述的取中间值的结点作为父节点，小于该值的被归类到左数据，大于该值的被归类到右数据步骤，直到所有结点都被连接起来；D(X)代表方差的值，x_i代表第X个节点第i维的值。

2.如权利要求1所述的基于图的机器翻译数据选择方法，其特征在于，所述建立一个无向图，还包括k-近邻搜索，所述k-近邻搜索旨在找出与当前结点距离最近的k个结点，对于一个给定的结点，使用当前分隔阈值对应维度的值与根结点进行比较，小于根结点则向左与左子树比较，如果大于根结点则向右与右子树比较，取最后的叶子结点为当前最优；

3.如权利要求1所述的基于图的机器翻译数据选择方法，其特征在于，所述建立一个无向图，还包括权重计算，所述权重计算使用结点的相似性来代表对应相邻结点的权重，相邻结点的相似性使用余弦值计算得到；具体计算公式如下：

其中S和T分别代表两个向量；Cos(θ)表示余弦值，此处用于代表相邻结点的相似性值；S_i，T_i分别代表S向量的第i个值与T向量的第i个值。

4.如权利要求1所述的基于图的机器翻译数据选择方法，其特征在于，所述标签传播中，给定一个图G＝(V，E，W)，其中V表示图中的顶点，包含已标注数据I个与待分类数据U个，E代表边，W代表不同边对应的权重，W_ij代表第i个结点把标签传递给第j个结点的概率；

5.如权利要求1所述的基于图的机器翻译数据选择方法，其特征在于，所述数据选取中，经过建立一个无向图、进行标签传播后，所有未标注的结点都有对应领域的概率分布，对需要的领域数值所有数据进行排序，选出指定数量的数据作为最终的机器翻译训练数据使用。

6.一种如权利要求1所述基于图的机器翻译数据选择方法的机器翻译数据选择系统。