CN112668307A

CN112668307A - 一种双语句子自动对齐方法及装置

Info

Publication number: CN112668307A
Application number: CN202011612350.5A
Authority: CN
Inventors: 俞声; 罗声旋
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2021-04-16
Anticipated expiration: 2040-12-30
Also published as: CN112668307B

Abstract

本发明公开一种双语句子自动对齐方法及装置，方法包括：获取文章对集合，每个文章对包含源语言文章S和目标语言文章T，对文章划分句子，并统计各句子相对长度以及句子在文章中的相对位置；利用词向量模型确定源语言文章S中句子s_i与目标语言文章T中句子t_j的句子之间词相似度；利用句子间词相似度、句子相对长度差异、以及句子在文章中相对位置差异计算源语言文章S中句子与目标语言文章T中句子之间距离，并将句子的相对长度作为信息量，将距离与信息量乘积之和最小化作为信息转移优化模型，求解所述模型从而建立对齐关系。本发明将句子之间对齐转化为寻找一个最优运输策略，在做功最小情况下，把源语言文章所有信息转移到目标语言文章中。

Description

一种双语句子自动对齐方法及装置

技术领域

本发明涉及一种信息技术领域，尤其涉及一种双语句子自动对齐方法及装置。

背景技术

现有的双语词对齐技术主要分为三类，基于规则的词对齐技术、有监督的词对齐技术和无监督的词对齐技术。基于规则的词对齐技术依赖于人工的规则，对语言本身的特性依赖度极高。有监督的词对齐技术依赖于对应领域的现有词典或者对齐的句子，在特定领域或者某些不是特别主流的语言之间，这些词典以及大量的句子对并不存在。无监督的词对齐技术则是通过获取两个语言的词向量空间，通过对齐两个空间得到对齐的词向量。

现有的句子对齐技术分为两个步骤，第一步是一个用于计算不同语言下的两个句子的翻译概率的函数，第二步主要是设定阈值或者使用基于动态规划的方法根据第一步得到的句子之间的翻译概率获得句子对齐结果。所以，现有的方法可以根据计算句子间翻译概率的不同，分为三类，分别是基于句子长度、基于词相似度和基于翻译的技术。基于句子长度的技术根据句子的长度判断两个句子间的翻译概率；基于词相似度的句子对齐技术依赖于现有的领域内的词典或者通过结合基于句子长度的技术以及统计机器翻译技术获得词与词之间的翻译概率，最终得到两个句子之间的翻译概率；基于翻译的技术则依赖于一个已有的翻译模型，将源语言的句子翻译到目标语言，在目标语言中计算两个句子的某种相似度作为翻译概率。

然而，如何将以上三类进行有效的结合，以提高双语对齐的准确性，暂时没有较好的解决方案。

发明内容

本发明用于解决特定领域或者特定的两种语言之间存在对齐的文章，但是缺少用于训练翻译模型的句子对的问题。

本发明的技术方案如下：

一种双语句子自动对齐方法，包括：

获取具有双语对齐文章的文章对集合，每个文章对包含源语言文章S和目标语言文章 T，对文章划分句子，并统计各句子相对长度以及句子在文章中的相对位置；

对源语言文章S和目标语言文章T进行分词，利用词向量模型确定源语言文章S中句子s_i与目标语言文章T中句子t_j的句子之间词相似度；

利用所述句子之间词相似度、句子相对长度的差异、以及句子在文章中的相对位置差异计算源语言文章S中的句子与目标语言文章T中的句子之间的距离，并将句子的所述相对长度作为信息量，将所述距离与所述信息量乘积之和最小化作为信息转移优化模型，求解得到信息转移矩阵，所述信息转移矩阵中包含有源语言文章S中各句子向目标语言文章 T中各句子转移信息量数据，并将转移信息量高于设定阈值的句子之间建立对齐关系。

可选地，所述信息转移优化模型如下：

其中，D_ij即S中第i个句子与T中第j个句子的距离；

s_i是S中第i个句子，t_j是T中的第j个句子；

s.t.表示约束条件；

P_ij为信息转移矩阵；

D_ijP_ij即表示S中第i个句子向T中第j个句子转移信息所做的功；

N表示S中的句子数量；

M表示T中的句子数量。

可选地，所述确定源语言文章S中句子s_i与目标语言文章T中句子t_j的句子之间词相似度是指：

对于源语言文章S句子s_i中的每个词，获得与目标语言文章T句子t_j中最相似词的相似度，计算句子s_i中所有词与句子t_j中最相似词的相似度平均值，作为句子s_i与句子t_j的所述句子之间词相似度。

可选地，所述利用所述句子之间词相似度、句子相对长度的差异、以及句子在文章中的相对位置差异计算源语言文章S中的句子与目标语言文章T中的句子之间的距离是指：

利用所述句子之间词相似度、句子相对长度的差异、以及句子在文章中的相对位置差异的加权平均作为源语言文章S中的句子与目标语言文章T中的句子之间的句子相似度，并将所述句子相似度的倒数作为句子之间的距离。

可选地，所述相对长度是指句子中包含词的数量与文章中包含词的数量的比值。

可选地，所述词向量模型是指：

对于每个文章对，根据各词在文章中的相对位置，将每个文章对中的词相互插入形成一篇伪文章，并使用所有伪文章训练词向量模型所获得的训练后的词向量模型。

可选地，所述信息转移优化模型如下：

∑_i，jP_ij＝1

ε为松弛因子；

D_ij即S中第i个句子与T中第j个句子的距离，是两个句子的相似度的倒数；

s_i是S中第i个句子，t_j是T中的第j个句子；

s.t.表示约束条件；

P_ij为信息转移矩阵；

N表示S中的句子数量；

M表示T中的句子数量。

可选地，所述源语言文章S是中文，所述目标语言文章T是英文，对于源语言文章S使用jieba分词工具进行分词，对于目标语言文章T使用UMLS匹配词语并替换为UMLS的标识符，作为分词结果。

可选地，所述词向量模型是word2vec、glove、skip-gram中的一个。

本发明还公开一种双语句子自动对齐装置，包括：

划分及统计模块，用于获取具有双语对齐文章的文章对集合，每个文章对包含源语言文章S和目标语言文章T，对文章划分句子，并统计各句子相对长度以及句子在文章中的相对位置；

相似度获取模块，用于对源语言文章S和目标语言文章T进行分词，利用词向量模型确定源语言文章S中句子s_i与目标语言文章T中句子t_j的句子之间词相似度；

双语对齐模块，用于利用所述句子之间词相似度、句子相对长度的差异、以及句子在文章中的相对位置差异计算源语言文章S中的句子与目标语言文章T中的句子之间的距离，并将句子的所述相对长度作为信息量，将所述距离与所述信息量乘积之和最小化作为信息转移优化模型，求解得到信息转移矩阵，所述信息转移矩阵中包含有源语言文章S中各句子向目标语言文章T中各句子转移信息量数据，并将转移信息量高于设定阈值的句子之间建立对齐关系。

本发明的有益效果如下：

(1)本发明利用需要进行文章对齐的文章对集合本身来构造训练样本，并利用训练样本来训练词向量模型，与有监督方法相比，本发明不依赖于外部数据，与领域和语种无关，可以在任意的领域和语种之间进行操作。与无监督的词对齐技术相比，本发明使用了文章对集合本身来构造训练样本，可以达到更高的精度。

(2)本发明充分利用对齐文章本身蕴含的词相似度信息，并结合了句子长度、句子相对位置等多种信息，能更准确地估计句子间的翻译概率(即相似度)。

(3)将句子之间的对齐转化为寻找一个最优的运输策略，在做功最小的情况下，把源语言文章的所有信息转移到目标语言文章中。

(4)本发明可以构建一对一、一对多、多对一以及多对多的句子对齐形式。

(5)可以将词典信息加入系统提高对句子距离的估计的准确性，从而提升系统返回的结果的精度。

附图说明

通过结合下面附图对其实施例进行描述，本发明的上述特征和技术优点将会变得更加清楚和容易理解。

图1是表示本发明一实施例的双语句子自动对齐方法的流程示意图；

图2是表示本发明一实施例的模块示意图。

具体实施方式

下面将参考附图来描述本发明所述的实施例。本领域的普通技术人员可以认识到，在不偏离本发明的精神和范围的情况下，可以用各种不同的方式或其组合对所描述的实施例进行修正。因此，附图和描述在本质上是说明性的，而不是用于限制权利要求的保护范围。此外，在本说明书中，附图未按比例画出，并且相同的附图标记表示相同的部分。

图1为本发明提供的双语句子自动对齐方法的流程图，双语句子自动对齐方法包括以下步骤：

S1，获取具有双语对齐文章的文章对集合，对其中的文章划分句子，并统计各句长度以及句子在文章中的相对位置。

具体说，文章对集合中包含有多个对齐的文章对，每个文章对包含有一篇源语言文章和一篇目标语言文章，该目标语言文章是与该源语言文章对应翻译获得的，一个文章对的形式如下：

中文原文：目的：研究高渗性海水(HS)和等渗性海水(IS)对变应性鼻炎(AR)小鼠鼻黏膜的影响，并初步探讨海水鼻腔盥洗治疗AR的机制。方法：将Der p1构建的BALB/c 小鼠AR动物模型随机分为3组：HS组、IS组和空白对照组(BC组)。

英文原文：OBJECTIVE：To study the effect of hypertonic seawater andisotonic seawater for nasal mucosa of allergic rhinitis mice model，andexplore the possible mechanism of nasal irrigation with seawater in treatmentof allergic rhinitis. METHOD：We used Der pl to make allergic rhinitis modelof BALB/c mice，and divided them into three groups randomly.

具体的，对文章对集合中的每一个文章对根据标点符号划分每一个句子，并清理无意义的字符串，例如网址、图表等；然后对每一个句子统计句子长度和句子在该文章中的相对位置。表1为获得的句子的相对长度和相对位置的数据。

源语言文章分句结果：

目的：研究高渗性海水(HS)和等渗性海水(IS)对变应性鼻炎(AR)小鼠鼻黏膜的影响，并初步探讨海水鼻腔盥洗治疗AR的机制。

方法：将Der p1构建的BALB/c小鼠AR动物模型随机分为3组：HS组、IS组和空白对照组(BC组)。

目标语言文章分句结果：

OBJECTIVE：To study the effect of hypertonic seawater and isotonicseawater for nasal mucosa of allergic rhinitis mice model，and explore thepossible mechanism of nasal irrigation with seawater in treatment of allergicrhinitis.

METHOD：We used Der pl to make allergic rhinitis model of BALB/c mice，and divided them into three groups randomly.

表1

S2，对源语言文章和目标语言文章分别进行分词，并根据各词在文章中的相对位置，将文章对中的词相互插入形成伪文章。并根据所有伪文章训练词向量模型，利用训练后的词向量模型得到任意两个词之间的相似度。

优选地，对于源语言文章可以使用jieba分词工具，对中文均进行多粒度的分词，对于目标语言文章使用统一医学语言系统(Unified Medical Language System，UMLS)匹配所有可能的术语表达并将匹配结果用对应的UMLS(一体化医学语言系统)的标识符(CUI)替换(格式为C+7位数字)，作为多粒度的分词的结果。获得分词结果后，按照各词在文章中的相对位置，将两篇文章对应插入生成一篇新的伪文章。

形成伪文章的示例如下：

C1293116 引言下列资料 the C0332282 代表 C0520510的representsC0227089 C1515021 C0456628是C0392920 C0476658 部分 C2945654 that C1515984C1273517分化化疗 C0521125 the 化疗方案 C0039798 C0456628……。

所述词向量模型可以是word2vec、glove、skip-gram等各种常见的词向量化模型中的一个，只需要将一定量的伪文章放在同一个txt文件中，每篇伪文章一行输入给词向量模型，这些词向量化模型是自训练模型，不需要额外信息，也不需要人为监督。然后再使用训练后的词向量模型来获得在所述伪文章中两个词之间的相似度，词相似度的计算可以使用两个词向量的余弦值。

例如，得到的与“症状”最相似的10个词及相似度为如表2所示：

表2

“症状”与“symptoms”、“symptom”的相似度极高，但与其它词的相似度都明显较低。

S3，利用词的相似度计算任两个句子之间的距离，并将句子的长度作为信息量，构建信息转移优化模型，使得在保证从源语言文章S向目标语言文章T的信息转移总量为源语言文章S所含信息总量，且目标语言文章T中每个句子接收的信息量等于该句子本身所含信息量的情况下，源语言文章S向目标语言文章T转移所做的功最小，从而将两个对齐的文章之间的句子对齐转化为寻找最优的句子信息量的转移的连续优化问题。

具体说，本实施例将句子对齐的问题视为一个最优运输问题，认为任意一个文章对的文章所含的信息量相等，定义两篇文章中每个句子含有的信息量即为句子的相对长度。比如文章S共有100个词，句子si有30个词，那么len(si)＝30/100＝0.3则表示该句子含有的信息量，且∑_ilen(s_i)＝∑_jlen(s_j)＝1，∑_i，jP_ij＝1。

句子对齐任务则转化为寻找一个最优的运输策略，在做功最小的情况下，把源语言的所有信息转移到目标语言中，且目标语言的每个句子所接收的信息量不超过其本身所含的信息量。

其中，句子之间词相似度可以考虑为对于S中一个句子中的每一个词，寻找与T中一个句子中最相似词的相似度，然后计算S中该句子所有词与T中该句子的对应词的相似度平均值，将所述相似度平均值的倒数作为句子间距离。

例如源语言文章S的第1个句子与目标语言文章T的所有9个句子之间的距离分别如表3所示：

表3

目标语言文章T	与源语言文章S第1句的距离
		第1句	0.59
第2句	0.82
		第3句	0.77
第4句	0.89
		第5句	1.02
第6句	4.80
		第7句	6.24
第8句	7.91
		第9句	9.00

则选择相似度9.00作为源语言文章S的第1句与目标语言文章T中的所有句子最高相似度。同样的，源语言文章S的其他句子也获得最高相似度，并将各句子的最高相似度求取相似度平均值。

所述信息转移优化模型如下：

min_P∑_i，jD_ijP_ij，

表示源语言文章S的第i个句子向目标语言文章T的第j个句子传递的信息量小于等于源语言文章S的第i个句子所含有的信息量；

表示目标语言文章T中第j个句子从源语言文章S的第i个句子中接收的信息量等于该第j个句子所含的信息量；

其中，D_ij即S中第i个句子与T中第j个句子的距离，是两个句子的相似度的倒数；

s_i和t_j分别是S和T中的第i个句子和第j个句子；

s.t.表示约束条件；

P_ij为信息转移矩阵，本实施例认为每个句子所含的信息量正比于句子长度，因此用句子长度len(s_i)和len(t_j)代替该句子所含的信息量。当然，在实际情况中，并不是每个句子所含有的信息都严格正比于句子长度；

N表示S中的句子数量；

M表示T中的句子数量。

S4，求解所述信息转移优化模型，获得信息转移矩阵，所述信息转移矩阵包含源语言文章S与目标语言文章T的各句子之间转移信息量，并将转移信息量高于设定阈值的句子之间建立对应关系，也就是将具有对应关系的句子进行对齐，并允许一对一、一对多以及多对多的句子对齐，最终将获得的所有句子对返回给用户。

转移量就是指S中第i个句子有多少信息量被翻译到T中第j个句子，越相似转移量越多。在理想状态下，转移量P_ii应该是si所含的所有信息量。

获得的信息转移矩阵中的数据如表4所示，其中，第1行与第1列为矩阵的索引，其余位置(第i行第j列)的值即为从S中的i个句子转移到T中的第j个句子的转移量。例如，0.13是S中第1个句子向T中第1个句子转移的信息量。

表4

高于设定阈值的即代表相对应的两个句子之间的翻译关系，从而得到例1中的对齐的所有句子。

进一步地，在步骤S3中，将句子相对长度的差异、句子相对位置的差异、句子相似度加权计算获得任意两个句子的相似度，所述相似度的倒数作为句子之间的距离。所述相对长度就是句子所含信息量相对于文章所含信息量的比值，相对位置就是句子在文章中所在位置。

进一步地，引入一个松弛因子ε，缓解句子所含有的信息并不严格正比于句子长度的问题，使得模型允许文章对中出现部分句子不存在对应翻译的情况，具体的方程如下：

∑_i，jP_ij＝1

其中，ε为松弛因子。

在一个可选实施例中，还可以利用词典来获得句子之间词相似度，可以利用双语词典，例如在医学领域的湘雅医学词典，其包含了一些中文医学术语的标准英文翻译。在没有词典的情况下可以使用两个词的向量相似度表示词的相似度，例如两个词的词向量的相似度为0.8，则这两个词相似度我们就估计为0.8。如果有词典，可以指定词典中具有翻译关系的两个词的相似度为一个固定值，比如0.9或1.0，可以认为词典中的给出的两个词的翻译关系具有更高的可行度，则以这个相似度来作为两个词之间的相似度。

也可以利用单语词典，例如在估计两个词的相似度的时候可以结合词的在单语词典中的同义词之间的相似度综合考虑。例如一个罕见词w₀有一个同义词w′₀是非罕见词，w′₀的词向量更为准确，因此如果能够知道罕见词w₀具有同义词w′₀，则可以使用w′₀的词向量替代罕见词w₀用于两个句子之间的词相似度的计算。

本发明还提供一种双语句子自动对齐装置，如图2所示，是本发明的双语句子自动对齐装置一实施例的功能模块示意图。本发明的双语句子自动对齐装置100可以安装于电子设备中。根据实现的功能，所述双语句子自动对齐装置100可以包括划分及统计模块101、相似度获取模块102、双语对齐模块103。本发明所述模块是指一种能够被电子设备处理器所执行，并且能够完成固定功能的一系列计算机程序段，其存储在电子设备的存储器中。

在本实施例中，关于各模块的功能如下：

划分及统计模块101，用于获取具有双语对齐文章的文章对集合，每个文章对包含源语言文章S和目标语言文章T，对文章划分句子，并统计各句子相对长度以及句子在文章中的相对位置；

相似度获取模块102，用于对源语言文章S和目标语言文章T进行分词，利用词向量模型确定源语言文章S中句子s_i与目标语言文章T中句子t_j的句子之间词相似度；

双语对齐模块103，用于利用所述句子之间词相似度、句子相对长度的差异、以及句子在文章中的相对位置差异计算源语言文章S中的句子与目标语言文章T中的句子之间的距离，并将句子的所述相对长度作为信息量，将所述距离与所述信息量乘积之和最小化作为信息转移优化模型，求解得到信息转移矩阵，所述信息转移矩阵中包含有源语言文章S中各句子向目标语言文章T中各句子转移信息量数据，并将转移信息量高于设定阈值的句子之间建立对齐关系。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种双语句子自动对齐方法，其特征在于，包括：

获取具有双语对齐文章的文章对集合，每个文章对包含源语言文章S和目标语言文章T，对文章划分句子，并统计各句子相对长度以及句子在文章中的相对位置；

利用所述句子之间词相似度、句子相对长度的差异、以及句子在文章中的相对位置差异计算源语言文章S中的句子与目标语言文章T中的句子之间的距离，并将句子的所述相对长度作为信息量，将所述距离与所述信息量乘积之和最小化作为信息转移优化模型，求解得到信息转移矩阵，所述信息转移矩阵中包含有源语言文章S中各句子向目标语言文章T中各句子转移信息量数据，并将转移信息量高于设定阈值的句子之间建立对齐关系。

2.根据权利要求1所述的双语句子自动对齐方法，其特征在于，所述信息转移优化模型如下：