CN110516230B

CN110516230B - 基于枢轴语言的汉-缅双语平行句对抽取方法及装置

Info

Publication number: CN110516230B
Application number: CN201910627818.9A
Authority: CN
Inventors: 毛存礼; 吴霞; 余正涛; 张少宁; 张亚飞; 朱浩东
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2019-07-12
Filing date: 2019-07-12
Publication date: 2020-09-08
Anticipated expiration: 2039-07-12
Also published as: CN110516230A

Abstract

本发明涉及基于枢轴语言的汉‑缅双语平行句对抽取方法及装置，属于自然语言处理技术领域。本发明首先利用降噪编码器DAE得到汉、英、缅的三种句子的表征向量；利用已有的汉‑英、英‑缅平行语料作为约束条件，通过CorrNet把汉、英、缅的三种语言的句子表征投影到公共语义空间；利用联合训练的方法，将英语作为枢轴语言，学习汉‑英‑缅三语的公共表示，计算汉‑缅双语句子的距离，判断汉‑缅双语句子是否为平行句子。本发明解决汉语‑缅语平行数据抽取的问题，利用英语作为枢轴语言抽取汉缅平行句对，为后续自然语言处理工作提供数据基础，对构建汉‑缅双语平行语料库具有重要的理论和实际运用价值。

Description

基于枢轴语言的汉-缅双语平行句对抽取方法及装置

技术领域

本发明涉及基于枢轴语言的汉-缅双语平行句对抽取方法及装置，属于自然语言处理技术领域。

背景技术

枢轴语言的分布式表示可以连接不同但具有相似语义空间(相同)的对象，例如多语言数据(单词，短语，句子等)，被广泛应用于自然语言处理中。汉缅平行句对抽取是开展汉缅机器翻译任务的基础，但是由于缅语资源比较少，英语是缅甸的官方语言，汉语比较丰富，所以利用英语作为枢轴语言研究汉缅句对的抽取，抽取到大量的汉缅句对为后期机器翻译等自然语言处理工作提供数据支持。

发明内容

本发明提供了基于枢轴语言的汉-缅双语平行句对抽取方法及装置，以用于解决汉语-缅语平行数据抽取的问题，利用英语作为枢轴语言研究汉缅句对的抽取兼为后续自然语言处理工作提供数据基础。

本发明的技术方案是：基于枢轴语言的汉-缅双语平行句对抽取方法，所述抽取方法的具体步骤如下：

Step1、利用降噪编码器DAE得到汉、英、缅的三种句子的表征向量；DAE是一种无监督方式的机器学习算法，主要目的是重建模型输入，以便在编码端学习输入的表示；

Step2、基于句子语义相同的不同语言在语义空间中距离近的性质，利用已有的汉-英、英-缅平行语料作为约束条件，通过CorrNet把汉、英、缅的三种语言的句子表征投影到公共语义空间；CorrNet能够同时学习句子表示和决策曲面的算法，可以将隐藏层视为学习表征的投影(表示学习)，将输出层视为学习决策函数(分类学习)；

Step3、利用联合训练的方法，将英语作为枢轴语言，学习汉-英-缅三语的公共表示，计算汉-缅双语句子的距离，判断汉-缅双语句子是否为平行句子。此步骤实现当两种语言之间没有平行语料时，利用枢轴语言学习三种语言的公共表示，联合训练后，实现语言之间匹配等价项，在公共的语义空间中汉、英、缅平行的句子距离非常近，而非平行的句子距离则较远；

作为本发明的优选方案，所述步骤Step1的具体步骤为：

Step1.1、通过在输入中添加噪声函数来重建无噪声输入；

Step1.2、使用去噪自动编码器DAE训练汉语、英语、缅语三种句子的表征向量。

作为本发明的优选方案，所述Step1.1中，添加噪声函数的具体操作为：删除句子的部分词，或者打乱词的顺序，且噪声函数是N(S|P₀,P_x)，S表示一个句子，P₀,P_x都是表示概率为[0,1]的数。

作为本发明的优选方案，所述步骤Step1.1的具体步骤如下：

Step1.1.1、对于每一个句子x中的每个word，噪声函数N(S|P₀,P_x)会以一个P₀的概率来删除word；

Step1.1.2、对于句子S中的每一对不重叠的2元语法bigram，即w(i)w(i+1)，N(S|P₀,P_x)函数会以一个P_x的概率来交换两个词的位置；

Step1.1.3、使用如下交叉熵公式表示降噪自编码器的损失函数，通过最小化损失函数，使得噪声最小；

作为本发明的优选方案，所述步骤Step2的具体步骤为：

Step2.1、利用去噪自编码器将输入的句子进行重建，获取单语语料下每种语言重建时的损失，如下公式；

其中，

代表将输入

编码为一个隐藏表示h，g(·)表示试图从隐藏表示h中重建

Step2.2、基于汉-英平行语料、英-缅平行语料，学习跨语言下两种语言互相重建时的损失，通过CorrNet把汉、英、缅的三种语言的句子表征投影到公共语义空间，损失函数公式如下所示：

其中，S()是一个标准化函数，使

和

具有零均值和单位方差；此外，λ是缩放超参数，corr是如下定义的相关函数：

作为本发明的优选方案，所述步骤Step3的具体步骤为：

Step3.1、利用联合训练的方法，学习汉-英-缅三语的公共语义表示，通过最小化如下目标函数来训练联合模型；

Step3.2、计算公共语义空间中汉-缅句子间的距离，并根据汉-缅句子间的距离判断他们是否是平行句子。

据上述步骤功能模块化制成基于枢轴语言的汉-缅双语平行句对抽取装置，具体包括如下模块：

句子表征模块，用于将汉语、英语、缅语三种语言的句子分别进行向量表征；

公共语义空间表征模块，用于将已有的汉-英、英-缅平行语料作为约束条件，通过CorrNet把汉、英、缅三种语言的句子表征投影到公共语义空间；

汉缅双语平行句对判断模块，用于使用英语作为枢轴语言，学习汉-英-缅三语的公共表示，计算汉-缅双语句子的距离，根据汉-缅双语句子的距离判断汉-缅双语句子是否为平行句子。

本发明的有益效果是：

本发明可以实现利用大规模英语数据作为枢轴语言抽取汉-缅双语平行句对，补充当前汉-缅双语平行句对不足的问题，为后续汉语-缅语情感分子、跨语言检索，机器翻译等自然语言处理工作提供数据基础。对构建汉-缅双语平行语料库具有重要的理论和实际运用价值。

附图说明

图1为本发明总的框架图；

图2为本发明中的去噪自编码器流程图；

图3为本发明中的装置架构图；

图4为本发明中的整体流程图。

具体实施方式

实施例1：如图1-4所示，基于枢轴语言的汉-缅双语平行句对抽取方法，所述抽取方法的具体步骤如下：

Step1、利用降噪编码器DAE得到汉、英、缅的三种句子的表征向量；

Step1.1、通过在输入中添加噪声函数来重建无噪声输入，可以学习反映输入数据的基本特征；添加噪声函数的具体操作为：删除句子的部分词，或者打乱词的顺序，且噪声函数是N(S|P₀,P_x)，S表示一个句子，P₀,P_x都是表示概率为[0,1]的数。

Step1.2、使用去噪自动编码器DAE训练汉语、英语、缅语三种句子的表征向量。其中自动编码器具有三层神经网络：输入层、编码层(隐藏层)、解码层。该网络的主要目的是重建其输入，以便它可以在编码级学习输入的表示。它是一种无监督方式的机器学习算法，利用反向传播机制，将目标端的值设置成和输入值相同。它的训练目标是把输入复制一份给输出，在内部，它有用于表征输入特征的编码层。。在，使用去噪自动编码器(DAE)训练句子向量。

Step2、基于句子语义相同的不同语言在语义空间中距离近的性质，利用已有的汉-英、英-缅平行语料作为约束条件，通过CorrNet把汉、英、缅的三种语言的句子表征投影到公共语义空间；

作为本发明的优选方案，所述步骤Step2的具体步骤为：

Step2.1、利用去噪自编码器将输入的句子进行重建，获取单语语料下每种语言重建时的损失，假设存在训练数据

其中每个训练实例都只包含两种语言，即

其中j∈{1,2}，v₁,v₂分别表示汉语、缅语，M为枢轴语言-英语。即：

代表了汉-英两种语言，

代表了英-缅两种语言，训练数据包含了N₁个实例

训练数据包含了N₂个实例

则N₁+N₂＝N，z是Z₁，Z₂的并集。

对于给定的两种语言

目标是：

(1)最小化自我重构误差，即最小化从

到

和

到

重构时的误差。

(2)最小化跨语言重构误差，即最小化从

到

和

到

重构时的误差。

(3)最大化两种语言的隐藏表示之间的相关性。

利用去噪自编码器将输入的句子进行重建，获取单语语料下每种语言重建时的损失，如下公式；

其中，

代表将输入

编码为一个隐藏表示h，g(·)表示试图从隐藏表示h中重建

其中，S()是一个标准化函数，使

和

需要强调的是，s()确保该表示已经具有零均值和单位方差，因此在计算相关性时不需要单独的标准化。

Step3、利用联合训练的方法，将英语作为枢轴语言，学习汉-英-缅三语的公共表示，计算汉-缅双语句子的距离，判断汉-缅双语句子是否为平行句子。

作为本发明的优选方案，所述步骤Step3的具体步骤为：

为了弄清楚基于枢轴语言的汉-缅双语平行句对抽取方法的贡献程度，采用汉-英平行语料是使用公开的数据集，英-缅平行语料主要是从在线词典、新闻网站等网站、杂志上爬取的文本数据，通过人工筛选等步骤形成的可用的文本语料库。如下表1所示。

表1实验中所用语料信息

语言	平行句子数(万)
		汉-英	5.0
英-缅	3.0
		汉-缅	1.0

为了测试基于枢轴的汉-缅语义空间模型性能好坏，分别选取了1.0K的平行句子和2.0K的非平行句子以及2.0K的平行句子和3.0K的非平行句子做验证。在评价指标的方面，选用准确率(Accuracy)，精确率(Precision)，召回率(Recall)和F值(F1-Measure)用于衡量模型是否能够正确地对汉缅平行句进行分类。具体公式如下：

其中TP是真的正例，FP是假的反例，FP是假的正例，TN是真的反例。

对基于枢轴语言的汉-缅双语平行句对抽取方法以及不使用该方法的实验结果进行了对比分析，实验结果如表2所示，为了验证不同规模的数据集对实验结果的影响，本文同时添加了一组语料对照实验。

表2实验结果

从表2中可以看出，通过基于枢轴语言的汉-缅双语平行句对抽取方法训练得到的汉缅平行句对抽取模型的平均准确率比未使用英语做枢轴语言的汉缅平行句对抽取模型高11.3％。可见基于枢轴语言的汉-缅双语平行句对抽取方法在汉-缅双语平行句对抽取问题上比不使用英语作为枢轴语言效果好。主要体现：1)英语作为枢轴语言可以弥补语料严重不足问题；

根据本发明的构思，本发明还提供了一种基于枢轴语言的汉-缅双语平行句对抽取装置，如图3所示，该装置包括如下模块：

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.基于枢轴语言的汉-缅双语平行句对抽取方法，其特征在于：所述抽取方法的具体步骤如下：

Step2、基于句子语义相同的不同语言在语义空间中距离近的性质，利用已有的汉-英、英-缅平行语料作为约束条件，通过CorrNet把汉、英、缅的三种语言的句子的表征向量投影到公共语义空间；

Step3、利用联合训练的方法，将英语作为枢轴语言，学习汉-英-缅三语的公共表示，计算汉-缅双语句子的距离，判断汉-缅双语句子是否为平行句子；

所述步骤Step2的具体步骤为：

Step2.1、利用降噪编码器将输入的句子进行重建，获取单语语料下每种语言重建时的损失，如下公式；

其中，

表示汉语、缅语两种语言句子的输入，

代表将输入

编码为一个隐藏向量表示，

表示从隐藏向量表示中重建

表示输入

与重建后的

之间的均值误差，同理

表示英语句子的输入，

代表将输入

编码为一个隐藏向量表示，

表示从隐藏向量表示中重建

表示输入

与重建后的

之间的均值误差；

Step2.2、基于汉-英平行语料、英-缅平行语料，学习跨语言下两种语言互相重建时的损失，通过CorrNet把汉、英、缅的三种语言的句子的表征向量投影到公共语义空间，损失函数公式如下所示：

其中，

是

和

两种语言输入的串联表示，

是将输入

编码为一个隐藏向量表示，

表示从隐藏向量表示中重建

表示

与重建后的

之间的均值误差，S()是一个标准化函数，使

和

具有零均值和单位方差，v_j是汉语、缅语两种语言句子的向量表示，

表示将v_j编码为隐藏表示，v_M是英语句子的向量表示，

表示将v_M编码为隐藏表示，此外，λ是缩放超参数，corr是如下定义的相关函数：

2.根据权利要求1所述的基于枢轴语言的汉-缅双语平行句对抽取方法，其特征在于：所述步骤Step1的具体步骤为：

Step1.1、通过在输入中添加噪声函数来重建无噪声输入；

Step1.2、使用降噪编码器DAE训练汉语、英语、缅语三种句子的表征向量。

3.根据权利要求2所述的基于枢轴语言的汉-缅双语平行句对抽取方法，其特征在于：所述Step1.1中，添加噪声函数的具体操作为：删除句子的部分词，或者打乱词的顺序，且噪声函数是N(S|P₀,P_x)，S表示一个句子，P₀,P_x都是表示概率为[0,1]的数。

4.根据权利要求2所述的基于枢轴语言的汉-缅双语平行句对抽取方法，其特征在于：

所述步骤Step1.1的具体步骤如下：

Step1.1.1、对于每一个句子S中的每个word，噪声函数N(S|P₀,P_x)会以一个P₀的概率来删除word；

Step1.1.2、对于句子S中的每一对不重叠的2元语法bigram，即w(i)w(i+1)，N(S|P₀,P_x)函数会以一个P_x的概率来交换两个词的位置；其中，w(i)是句子中第i个词的向量表示，w(i+1)是句子中第i+1个词的向量表示；

Step1.1.3、使用如下交叉熵公式表示降噪编码器的损失函数，通过最小化损失函数，使得噪声最小；

5.根据权利要求1所述的基于枢轴语言的汉-缅双语平行句对抽取方法，其特征在于：所述步骤Step3的具体步骤为：

其中，

表示两种语言输入

和

的串联，h(zⁱ)表示将zⁱ编码为一个隐藏向量表示，

表示将

编码为一个隐藏向量表示，

表示将

编码为一个隐藏向量表示，L(zⁱ,(h(zⁱ)))表示zⁱ与隐藏向量表示h(zⁱ)之间的均值误差，N表示句子的数量；

6.基于枢轴语言的汉-缅双语平行句对抽取装置，其特征在于：包括如下模块：

句子表征模块，用于将汉语、英语、缅语三种语言的句子分别获取表征向量；

公共语义空间表征模块，用于将已有的汉-英、英-缅平行语料作为约束条件，通过CorrNet把汉、英、缅三种语言的句子的表征向量投影到公共语义空间；

汉缅双语平行句对判断模块，用于使用英语作为枢轴语言，学习汉-英-缅三语的公共表示，计算汉-缅双语句子的距离，根据汉-缅双语句子的距离判断汉-缅双语句子是否为平行句子；

利用降噪编码器将输入的句子进行重建，获取单语语料下每种语言重建时的损失，如下公式；

其中，

表示汉语、缅语两种语言句子的输入，

代表将输入

编码为一个隐藏向量表示，

表示从隐藏向量表示中重建

表示输入

与重建后的

之间的均值误差，同理

表示英语句子的输入，

代表将输入

编码为一个隐藏向量表示，

表示从隐藏向量表示中重建

表示输入

与重建后的

之间的均值误差；

基于汉-英平行语料、英-缅平行语料，学习跨语言下两种语言互相重建时的损失，通过CorrNet把汉、英、缅的三种语言的句子的表征向量投影到公共语义空间，损失函数公式如下所示：

其中，

是

和

两种语言输入的串联表示，

是将输入

编码为一个隐藏向量表示，

表示从隐藏向量表示中重建

表示

与重建后的

之间的均值误差，S()是一个标准化函数，使

和

表示将v_j编码为隐藏表示，v_M是英语句子的向量表示，