CN112668307A - 一种双语句子自动对齐方法及装置 - Google Patents

一种双语句子自动对齐方法及装置 Download PDF

Info

Publication number
CN112668307A
CN112668307A CN202011612350.5A CN202011612350A CN112668307A CN 112668307 A CN112668307 A CN 112668307A CN 202011612350 A CN202011612350 A CN 202011612350A CN 112668307 A CN112668307 A CN 112668307A
Authority
CN
China
Prior art keywords
sentence
sentences
article
language article
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011612350.5A
Other languages
English (en)
Other versions
CN112668307B (zh
Inventor
俞声
罗声旋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202011612350.5A priority Critical patent/CN112668307B/zh
Publication of CN112668307A publication Critical patent/CN112668307A/zh
Application granted granted Critical
Publication of CN112668307B publication Critical patent/CN112668307B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种双语句子自动对齐方法及装置,方法包括:获取文章对集合,每个文章对包含源语言文章S和目标语言文章T,对文章划分句子,并统计各句子相对长度以及句子在文章中的相对位置;利用词向量模型确定源语言文章S中句子si与目标语言文章T中句子tj的句子之间词相似度;利用句子间词相似度、句子相对长度差异、以及句子在文章中相对位置差异计算源语言文章S中句子与目标语言文章T中句子之间距离,并将句子的相对长度作为信息量,将距离与信息量乘积之和最小化作为信息转移优化模型,求解所述模型从而建立对齐关系。本发明将句子之间对齐转化为寻找一个最优运输策略,在做功最小情况下,把源语言文章所有信息转移到目标语言文章中。

Description

一种双语句子自动对齐方法及装置
技术领域
本发明涉及一种信息技术领域,尤其涉及一种双语句子自动对齐方法及装置。
背景技术
现有的双语词对齐技术主要分为三类,基于规则的词对齐技术、有监督的词对齐技术和无监督的词对齐技术。基于规则的词对齐技术依赖于人工的规则,对语言本身的特性依赖度极高。有监督的词对齐技术依赖于对应领域的现有词典或者对齐的句子,在特定领域或者某些不是特别主流的语言之间,这些词典以及大量的句子对并不存在。无监督的词对齐技术则是通过获取两个语言的词向量空间,通过对齐两个空间得到对齐的词向量。
现有的句子对齐技术分为两个步骤,第一步是一个用于计算不同语言下的两个句子的翻译概率的函数,第二步主要是设定阈值或者使用基于动态规划的方法根据第一步得到的句子之间的翻译概率获得句子对齐结果。所以,现有的方法可以根据计算句子间翻译概率的不同,分为三类,分别是基于句子长度、基于词相似度和基于翻译的技术。基于句子长度的技术根据句子的长度判断两个句子间的翻译概率;基于词相似度的句子对齐技术依赖于现有的领域内的词典或者通过结合基于句子长度的技术以及统计机器翻译技术获得词与词之间的翻译概率,最终得到两个句子之间的翻译概率;基于翻译的技术则依赖于一个已有的翻译模型,将源语言的句子翻译到目标语言,在目标语言中计算两个句子的某种相似度作为翻译概率。
然而,如何将以上三类进行有效的结合,以提高双语对齐的准确性,暂时没有较好的解决方案。
发明内容
本发明用于解决特定领域或者特定的两种语言之间存在对齐的文章,但是缺少用于训练翻译模型的句子对的问题。
本发明的技术方案如下:
一种双语句子自动对齐方法,包括:
获取具有双语对齐文章的文章对集合,每个文章对包含源语言文章S和目标语言文章 T,对文章划分句子,并统计各句子相对长度以及句子在文章中的相对位置;
对源语言文章S和目标语言文章T进行分词,利用词向量模型确定源语言文章S中句子si与目标语言文章T中句子tj的句子之间词相似度;
利用所述句子之间词相似度、句子相对长度的差异、以及句子在文章中的相对位置差异计算源语言文章S中的句子与目标语言文章T中的句子之间的距离,并将句子的所述相对长度作为信息量,将所述距离与所述信息量乘积之和最小化作为信息转移优化模型,求解得到信息转移矩阵,所述信息转移矩阵中包含有源语言文章S中各句子向目标语言文章 T中各句子转移信息量数据,并将转移信息量高于设定阈值的句子之间建立对齐关系。
可选地,所述信息转移优化模型如下:
Figure RE-GDA0002974035000000011
Figure RE-GDA0002974035000000012
Figure RE-GDA0002974035000000021
Figure RE-GDA0002974035000000022
其中,Dij即S中第i个句子与T中第j个句子的距离;
si是S中第i个句子,tj是T中的第j个句子;
s.t.表示约束条件;
Pij为信息转移矩阵;
DijPij即表示S中第i个句子向T中第j个句子转移信息所做的功;
N表示S中的句子数量;
M表示T中的句子数量。
可选地,所述确定源语言文章S中句子si与目标语言文章T中句子tj的句子之间词相似度是指:
对于源语言文章S句子si中的每个词,获得与目标语言文章T句子tj中最相似词的相似度,计算句子si中所有词与句子tj中最相似词的相似度平均值,作为句子si与句子tj的所述句子之间词相似度。
可选地,所述利用所述句子之间词相似度、句子相对长度的差异、以及句子在文章中的相对位置差异计算源语言文章S中的句子与目标语言文章T中的句子之间的距离是指:
利用所述句子之间词相似度、句子相对长度的差异、以及句子在文章中的相对位置差异的加权平均作为源语言文章S中的句子与目标语言文章T中的句子之间的句子相似度,并将所述句子相似度的倒数作为句子之间的距离。
可选地,所述相对长度是指句子中包含词的数量与文章中包含词的数量的比值。
可选地,所述词向量模型是指:
对于每个文章对,根据各词在文章中的相对位置,将每个文章对中的词相互插入形成一篇伪文章,并使用所有伪文章训练词向量模型所获得的训练后的词向量模型。
可选地,所述信息转移优化模型如下:
Figure RE-GDA0002974035000000023
Figure RE-GDA0002974035000000024
Figure RE-GDA0002974035000000025
Figure RE-GDA0002974035000000026
i,jPij=1
ε为松弛因子;
Dij即S中第i个句子与T中第j个句子的距离,是两个句子的相似度的倒数;
si是S中第i个句子,tj是T中的第j个句子;
s.t.表示约束条件;
Pij为信息转移矩阵;
DijPij即表示S中第i个句子向T中第j个句子转移信息所做的功;
N表示S中的句子数量;
M表示T中的句子数量。
可选地,所述源语言文章S是中文,所述目标语言文章T是英文,对于源语言文章S使用jieba分词工具进行分词,对于目标语言文章T使用UMLS匹配词语并替换为UMLS的标识符,作为分词结果。
可选地,所述词向量模型是word2vec、glove、skip-gram中的一个。
本发明还公开一种双语句子自动对齐装置,包括:
划分及统计模块,用于获取具有双语对齐文章的文章对集合,每个文章对包含源语言文章S和目标语言文章T,对文章划分句子,并统计各句子相对长度以及句子在文章中的相对位置;
相似度获取模块,用于对源语言文章S和目标语言文章T进行分词,利用词向量模型确定源语言文章S中句子si与目标语言文章T中句子tj的句子之间词相似度;
双语对齐模块,用于利用所述句子之间词相似度、句子相对长度的差异、以及句子在文章中的相对位置差异计算源语言文章S中的句子与目标语言文章T中的句子之间的距离,并将句子的所述相对长度作为信息量,将所述距离与所述信息量乘积之和最小化作为信息转移优化模型,求解得到信息转移矩阵,所述信息转移矩阵中包含有源语言文章S中各句子向目标语言文章T中各句子转移信息量数据,并将转移信息量高于设定阈值的句子之间建立对齐关系。
本发明的有益效果如下:
(1)本发明利用需要进行文章对齐的文章对集合本身来构造训练样本,并利用训练样本来训练词向量模型,与有监督方法相比,本发明不依赖于外部数据,与领域和语种无关,可以在任意的领域和语种之间进行操作。与无监督的词对齐技术相比,本发明使用了文章对集合本身来构造训练样本,可以达到更高的精度。
(2)本发明充分利用对齐文章本身蕴含的词相似度信息,并结合了句子长度、句子相对位置等多种信息,能更准确地估计句子间的翻译概率(即相似度)。
(3)将句子之间的对齐转化为寻找一个最优的运输策略,在做功最小的情况下,把源语言文章的所有信息转移到目标语言文章中。
(4)本发明可以构建一对一、一对多、多对一以及多对多的句子对齐形式。
(5)可以将词典信息加入系统提高对句子距离的估计的准确性,从而提升系统返回的结果的精度。
附图说明
通过结合下面附图对其实施例进行描述,本发明的上述特征和技术优点将会变得更加清楚和容易理解。
图1是表示本发明一实施例的双语句子自动对齐方法的流程示意图;
图2是表示本发明一实施例的模块示意图。
具体实施方式
下面将参考附图来描述本发明所述的实施例。本领域的普通技术人员可以认识到,在不偏离本发明的精神和范围的情况下,可以用各种不同的方式或其组合对所描述的实施例进行修正。因此,附图和描述在本质上是说明性的,而不是用于限制权利要求的保护范围。此外,在本说明书中,附图未按比例画出,并且相同的附图标记表示相同的部分。
图1为本发明提供的双语句子自动对齐方法的流程图,双语句子自动对齐方法包括以下步骤:
S1,获取具有双语对齐文章的文章对集合,对其中的文章划分句子,并统计各句长度以及句子在文章中的相对位置。
具体说,文章对集合中包含有多个对齐的文章对,每个文章对包含有一篇源语言文章和一篇目标语言文章,该目标语言文章是与该源语言文章对应翻译获得的,一个文章对的形式如下:
中文原文:目的:研究高渗性海水(HS)和等渗性海水(IS)对变应性鼻炎(AR)小鼠鼻黏膜的影响,并初步探讨海水鼻腔盥洗治疗AR的机制。方法:将Der p1构建的BALB/c 小鼠AR动物模型随机分为3组:HS组、IS组和空白对照组(BC组)。
英文原文:OBJECTIVE:To study the effect of hypertonic seawater andisotonic seawater for nasal mucosa of allergic rhinitis mice model,andexplore the possible mechanism of nasal irrigation with seawater in treatmentof allergic rhinitis. METHOD:We used Der pl to make allergic rhinitis modelof BALB/c mice,and divided them into three groups randomly.
具体的,对文章对集合中的每一个文章对根据标点符号划分每一个句子,并清理无意义的字符串,例如网址、图表等;然后对每一个句子统计句子长度和句子在该文章中的相对位置。表1为获得的句子的相对长度和相对位置的数据。
源语言文章分句结果:
目的:研究高渗性海水(HS)和等渗性海水(IS)对变应性鼻炎(AR)小鼠鼻黏膜的影响,并初步探讨海水鼻腔盥洗治疗AR的机制。
方法:将Der p1构建的BALB/c小鼠AR动物模型随机分为3组:HS组、IS组和空白对照组(BC组)。
目标语言文章分句结果:
OBJECTIVE:To study the effect of hypertonic seawater and isotonicseawater for nasal mucosa of allergic rhinitis mice model,and explore thepossible mechanism of nasal irrigation with seawater in treatment of allergicrhinitis.
METHOD:We used Der pl to make allergic rhinitis model of BALB/c mice,and divided them into three groups randomly.
表1
Figure RE-GDA0002974035000000041
Figure RE-GDA0002974035000000051
S2,对源语言文章和目标语言文章分别进行分词,并根据各词在文章中的相对位置,将文章对中的词相互插入形成伪文章。并根据所有伪文章训练词向量模型,利用训练后的词向量模型得到任意两个词之间的相似度。
优选地,对于源语言文章可以使用jieba分词工具,对中文均进行多粒度的分词,对于目标语言文章使用统一医学语言系统(Unified Medical Language System,UMLS)匹配所有可能的术语表达并将匹配结果用对应的UMLS(一体化医学语言系统)的标识符(CUI)替换(格式为C+7位数字),作为多粒度的分词的结果。获得分词结果后,按照各词在文章中的相对位置,将两篇文章对应插入生成一篇新的伪文章。
形成伪文章的示例如下:
C1293116 引言 下列 资料 the C0332282 代表 C0520510的representsC0227089 C1515021 C0456628是C0392920 C0476658 部分 C2945654 that C1515984C1273517分化 化疗 C0521125 the 化疗方案 C0039798 C0456628……。
所述词向量模型可以是word2vec、glove、skip-gram等各种常见的词向量化模型中的一个,只需要将一定量的伪文章放在同一个txt文件中,每篇伪文章一行输入给词向量模型,这些词向量化模型是自训练模型,不需要额外信息,也不需要人为监督。然后再使用训练后的词向量模型来获得在所述伪文章中两个词之间的相似度,词相似度的计算可以使用两个词向量的余弦值。
例如,得到的与“症状”最相似的10个词及相似度为如表2所示:
表2
Figure RE-GDA0002974035000000052
“症状”与“symptoms”、“symptom”的相似度极高,但与其它词的相似度都明显较低。
S3,利用词的相似度计算任两个句子之间的距离,并将句子的长度作为信息量,构建信息转移优化模型,使得在保证从源语言文章S向目标语言文章T的信息转移总量为源语言文章S所含信息总量,且目标语言文章T中每个句子接收的信息量等于该句子本身所含信息量的情况下,源语言文章S向目标语言文章T转移所做的功最小,从而将两个对齐的文章之间的句子对齐转化为寻找最优的句子信息量的转移的连续优化问题。
具体说,本实施例将句子对齐的问题视为一个最优运输问题,认为任意一个文章对的文章所含的信息量相等,定义两篇文章中每个句子含有的信息量即为句子的相对长度。比如文章S共有100个词,句子si有30个词,那么len(si)=30/100=0.3则表示该句子含有的信息量,且∑ilen(si)=∑jlen(sj)=1,∑i,jPij=1。
句子对齐任务则转化为寻找一个最优的运输策略,在做功最小的情况下,把源语言的所有信息转移到目标语言中,且目标语言的每个句子所接收的信息量不超过其本身所含的信息量。
其中,句子之间词相似度可以考虑为对于S中一个句子中的每一个词,寻找与T中一个句子中最相似词的相似度,然后计算S中该句子所有词与T中该句子的对应词的相似度平均值,将所述相似度平均值的倒数作为句子间距离。
例如源语言文章S的第1个句子与目标语言文章T的所有9个句子之间的距离分别如表3所示:
表3
目标语言文章T 与源语言文章S第1句的距离
第1句 0.59
第2句 0.82
第3句 0.77
第4句 0.89
第5句 1.02
第6句 4.80
第7句 6.24
第8句 7.91
第9句 9.00
则选择相似度9.00作为源语言文章S的第1句与目标语言文章T中的所有句子最高相似度。同样的,源语言文章S的其他句子也获得最高相似度,并将各句子的最高相似度求取相似度平均值。
所述信息转移优化模型如下:
minPi,jDijPij
Figure RE-GDA0002974035000000061
表示源语言文章S的第i个句子向目标语言文章T的第j个句子传递的信息量小于等于源语言文章S的第i个句子所含有的信息量;
Figure RE-GDA0002974035000000062
表示目标语言文章T中第j个句子从源语言文章S的第i个句子中接收的信息量等于该第j个句子所含的信息量;
Figure RE-GDA0002974035000000063
其中,Dij即S中第i个句子与T中第j个句子的距离,是两个句子的相似度的倒数;
si和tj分别是S和T中的第i个句子和第j个句子;
s.t.表示约束条件;
Pij为信息转移矩阵,本实施例认为每个句子所含的信息量正比于句子长度,因此用句子长度len(si)和len(tj)代替该句子所含的信息量。当然,在实际情况中,并不是每个句子所含有的信息都严格正比于句子长度;
DijPij即表示S中第i个句子向T中第j个句子转移信息所做的功;
N表示S中的句子数量;
M表示T中的句子数量。
S4,求解所述信息转移优化模型,获得信息转移矩阵,所述信息转移矩阵包含源语言文章S与目标语言文章T的各句子之间转移信息量,并将转移信息量高于设定阈值的句子之间建立对应关系,也就是将具有对应关系的句子进行对齐,并允许一对一、一对多以及多对多的句子对齐,最终将获得的所有句子对返回给用户。
转移量就是指S中第i个句子有多少信息量被翻译到T中第j个句子,越相似转移量越多。在理想状态下,转移量Pii应该是si所含的所有信息量。
获得的信息转移矩阵中的数据如表4所示,其中,第1行与第1列为矩阵的索引,其余位置(第i行第j列)的值即为从S中的i个句子转移到T中的第j个句子的转移量。例如,0.13是S中第1个句子向T中第1个句子转移的信息量。
表4
Figure RE-GDA0002974035000000071
高于设定阈值的即代表相对应的两个句子之间的翻译关系,从而得到例1中的对齐的所有句子。
进一步地,在步骤S3中,将句子相对长度的差异、句子相对位置的差异、句子相似度加权计算获得任意两个句子的相似度,所述相似度的倒数作为句子之间的距离。所述相对长度就是句子所含信息量相对于文章所含信息量的比值,相对位置就是句子在文章中所在位置。
进一步地,引入一个松弛因子ε,缓解句子所含有的信息并不严格正比于句子长度的问题,使得模型允许文章对中出现部分句子不存在对应翻译的情况,具体的方程如下:
Figure RE-GDA0002974035000000072
Figure RE-GDA0002974035000000073
Figure RE-GDA0002974035000000074
Figure RE-GDA0002974035000000075
i,jPij=1
其中,ε为松弛因子。
在一个可选实施例中,还可以利用词典来获得句子之间词相似度,可以利用双语词典,例如在医学领域的湘雅医学词典,其包含了一些中文医学术语的标准英文翻译。在没有词典的情况下可以使用两个词的向量相似度表示词的相似度,例如两个词的词向量的相似度为0.8,则这两个词相似度我们就估计为0.8。如果有词典,可以指定词典中具有翻译关系的两个词的相似度为一个固定值,比如0.9或1.0,可以认为词典中的给出的两个词的翻译关系具有更高的可行度,则以这个相似度来作为两个词之间的相似度。
也可以利用单语词典,例如在估计两个词的相似度的时候可以结合词的在单语词典中的同义词之间的相似度综合考虑。例如一个罕见词w0有一个同义词w′0是非罕见词,w′0的词向量更为准确,因此如果能够知道罕见词w0具有同义词w′0,则可以使用w′0的词向量替代罕见词w0用于两个句子之间的词相似度的计算。
本发明还提供一种双语句子自动对齐装置,如图2所示,是本发明的双语句子自动对齐装置一实施例的功能模块示意图。本发明的双语句子自动对齐装置100可以安装于电子设备中。根据实现的功能,所述双语句子自动对齐装置100可以包括划分及统计模块101、相似度获取模块102、双语对齐模块103。本发明所述模块是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块的功能如下:
划分及统计模块101,用于获取具有双语对齐文章的文章对集合,每个文章对包含源语言文章S和目标语言文章T,对文章划分句子,并统计各句子相对长度以及句子在文章中的相对位置;
相似度获取模块102,用于对源语言文章S和目标语言文章T进行分词,利用词向量模型确定源语言文章S中句子si与目标语言文章T中句子tj的句子之间词相似度;
双语对齐模块103,用于利用所述句子之间词相似度、句子相对长度的差异、以及句子在文章中的相对位置差异计算源语言文章S中的句子与目标语言文章T中的句子之间的距离,并将句子的所述相对长度作为信息量,将所述距离与所述信息量乘积之和最小化作为信息转移优化模型,求解得到信息转移矩阵,所述信息转移矩阵中包含有源语言文章S中各句子向目标语言文章T中各句子转移信息量数据,并将转移信息量高于设定阈值的句子之间建立对齐关系。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种双语句子自动对齐方法,其特征在于,包括:
获取具有双语对齐文章的文章对集合,每个文章对包含源语言文章S和目标语言文章T,对文章划分句子,并统计各句子相对长度以及句子在文章中的相对位置;
对源语言文章S和目标语言文章T进行分词,利用词向量模型确定源语言文章S中句子si与目标语言文章T中句子tj的句子之间词相似度;
利用所述句子之间词相似度、句子相对长度的差异、以及句子在文章中的相对位置差异计算源语言文章S中的句子与目标语言文章T中的句子之间的距离,并将句子的所述相对长度作为信息量,将所述距离与所述信息量乘积之和最小化作为信息转移优化模型,求解得到信息转移矩阵,所述信息转移矩阵中包含有源语言文章S中各句子向目标语言文章T中各句子转移信息量数据,并将转移信息量高于设定阈值的句子之间建立对齐关系。
2.根据权利要求1所述的双语句子自动对齐方法,其特征在于,所述信息转移优化模型如下:
Figure FDA0002875071230000011
Figure FDA0002875071230000012
Figure FDA0002875071230000013
Figure FDA0002875071230000014
其中,Dij即S中第i个句子与T中第j个句子的距离;
si是S中第i个句子,tj是T中的第j个句子;
s.t.表示约束条件;
Pij为信息转移矩阵;
DijPij即表示S中第i个句子向T中第j个句子转移信息所做的功;
N表示S中的句子数量;
M表示T中的句子数量。
3.根据权利要求1所述的双语句子自动对齐方法,其特征在于,所述确定源语言文章S中句子si与目标语言文章T中句子tj的句子之间词相似度是指:
对于源语言文章S句子si中的每个词,获得与目标语言文章T句子tj中最相似词的相似度,计算句子si中所有词与句子tj中最相似词的相似度平均值,作为句子si与句子tj的所述句子之间词相似度。
4.根据权利要求1所述的双语句子自动对齐方法,其特征在于,所述利用所述句子之间词相似度、句子相对长度的差异、以及句子在文章中的相对位置差异计算源语言文章S中的句子与目标语言文章T中的句子之间的距离是指:
利用所述句子之间词相似度、句子相对长度的差异、以及句子在文章中的相对位置差异的加权平均作为源语言文章S中的句子与目标语言文章T中的句子之间的句子相似度,并将所述句子相似度的倒数作为句子之间的距离。
5.根据权利要求1所述的双语句子自动对齐方法,其特征在于,所述相对长度是指句子中包含词的数量与文章中包含词的数量的比值。
6.根据权利要求1所述的双语句子自动对齐方法,其特征在于,所述词向量模型是指:
对于每个文章对,根据各词在文章中的相对位置,将每个文章对中的词相互插入形成一篇伪文章,并使用所有伪文章训练词向量模型所获得的训练后的词向量模型。
7.根据权利要求1所述的双语句子自动对齐方法,其特征在于,所述信息转移优化模型如下:
Figure FDA0002875071230000021
Figure FDA0002875071230000022
Figure FDA0002875071230000023
Figure FDA0002875071230000024
i,jPij=1
ε为松弛因子;
Dij即S中第i个句子与T中第j个句子的距离,是两个句子的相似度的倒数;
si是S中第i个句子,tj是T中的第j个句子;
s.t.表示约束条件;
Pij为信息转移矩阵;
DijPij即表示S中第i个句子向T中第j个句子转移信息所做的功;
N表示S中的句子数量;
M表示T中的句子数量。
8.根据权利要求1所述的双语句子自动对齐方法,其特征在于,
所述源语言文章S是中文,所述目标语言文章T是英文,对于源语言文章S使用jieba分词工具进行分词,对于目标语言文章T使用UMLS匹配词语并替换为UMLS的标识符,作为分词结果。
9.根据权利要求1所述的双语句子自动对齐方法,其特征在于,
所述词向量模型是word2vec、glove、skip-gram中的一个。
10.一种双语句子自动对齐装置,其特征在于,包括:
划分及统计模块,用于获取具有双语对齐文章的文章对集合,每个文章对包含源语言文章S和目标语言文章T,对文章划分句子,并统计各句子相对长度以及句子在文章中的相对位置;
相似度获取模块,用于对源语言文章S和目标语言文章T进行分词,利用词向量模型确定源语言文章S中句子si与目标语言文章T中句子tj的句子之间词相似度;
双语对齐模块,用于利用所述句子之间词相似度、句子相对长度的差异、以及句子在文章中的相对位置差异计算源语言文章S中的句子与目标语言文章T中的句子之间的距离,并将句子的所述相对长度作为信息量,将所述距离与所述信息量乘积之和最小化作为信息转移优化模型,求解得到信息转移矩阵,所述信息转移矩阵中包含有源语言文章S中各句子向目标语言文章T中各句子转移信息量数据,并将转移信息量高于设定阈值的句子之间建立对齐关系。
CN202011612350.5A 2020-12-30 2020-12-30 一种双语句子自动对齐方法及装置 Active CN112668307B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011612350.5A CN112668307B (zh) 2020-12-30 2020-12-30 一种双语句子自动对齐方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011612350.5A CN112668307B (zh) 2020-12-30 2020-12-30 一种双语句子自动对齐方法及装置

Publications (2)

Publication Number Publication Date
CN112668307A true CN112668307A (zh) 2021-04-16
CN112668307B CN112668307B (zh) 2022-06-21

Family

ID=75411200

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011612350.5A Active CN112668307B (zh) 2020-12-30 2020-12-30 一种双语句子自动对齐方法及装置

Country Status (1)

Country Link
CN (1) CN112668307B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113343719A (zh) * 2021-06-21 2021-09-03 哈尔滨工业大学 利用不同词嵌入模型进行协同训练的无监督双语翻译词典获取方法
CN113779978A (zh) * 2021-09-26 2021-12-10 上海一者信息科技有限公司 一种无监督跨语言句对齐实现方法
CN115797815A (zh) * 2021-09-08 2023-03-14 荣耀终端有限公司 Ar翻译的处理方法及电子设备
CN116627708A (zh) * 2023-07-24 2023-08-22 湖南惟储信息技术有限公司 存储故障分析系统及其方法
CN113779978B (zh) * 2021-09-26 2024-05-24 上海一者信息科技有限公司 一种无监督跨语言句对齐实现方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060190241A1 (en) * 2005-02-22 2006-08-24 Xerox Corporation Apparatus and methods for aligning words in bilingual sentences
US20060265209A1 (en) * 2005-04-26 2006-11-23 Content Analyst Company, Llc Machine translation using vector space representations
US20070203689A1 (en) * 2006-02-28 2007-08-30 Kabushiki Kaisha Toshiba Method and apparatus for bilingual word alignment, method and apparatus for training bilingual word alignment model
CN102855263A (zh) * 2011-06-30 2013-01-02 富士通株式会社 一种对双语语料库进行句子对齐的方法及装置
US20170060854A1 (en) * 2015-08-25 2017-03-02 Alibaba Group Holding Limited Statistics-based machine translation method, apparatus and electronic device
CN107391495A (zh) * 2017-06-09 2017-11-24 北京吾译超群科技有限公司 一种双语平行语料的句对齐方法
CN109190117A (zh) * 2018-08-10 2019-01-11 中国船舶重工集团公司第七〇九研究所 一种基于词向量的短文本语义相似度计算方法
CN109992788A (zh) * 2019-04-10 2019-07-09 北京神州泰岳软件股份有限公司 基于未登录词处理的深度文本匹配方法及装置
CN109992648A (zh) * 2019-04-10 2019-07-09 北京神州泰岳软件股份有限公司 基于词迁徙学习的深度文本匹配方法及装置
US20200265195A1 (en) * 2017-05-10 2020-08-20 Oracle International Corporation Using communicative discourse trees to detect distributed incompetence
CN111985253A (zh) * 2020-08-28 2020-11-24 北京中科凡语科技有限公司 机器翻译结果的词对齐方法、装置、电子设备及存储介质
US20200401938A1 (en) * 2019-05-29 2020-12-24 The Board Of Trustees Of The Leland Stanford Junior University Machine learning based generation of ontology for structural and functional mapping

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060190241A1 (en) * 2005-02-22 2006-08-24 Xerox Corporation Apparatus and methods for aligning words in bilingual sentences
US20060265209A1 (en) * 2005-04-26 2006-11-23 Content Analyst Company, Llc Machine translation using vector space representations
US20070203689A1 (en) * 2006-02-28 2007-08-30 Kabushiki Kaisha Toshiba Method and apparatus for bilingual word alignment, method and apparatus for training bilingual word alignment model
CN102855263A (zh) * 2011-06-30 2013-01-02 富士通株式会社 一种对双语语料库进行句子对齐的方法及装置
US20170060854A1 (en) * 2015-08-25 2017-03-02 Alibaba Group Holding Limited Statistics-based machine translation method, apparatus and electronic device
US20200265195A1 (en) * 2017-05-10 2020-08-20 Oracle International Corporation Using communicative discourse trees to detect distributed incompetence
CN107391495A (zh) * 2017-06-09 2017-11-24 北京吾译超群科技有限公司 一种双语平行语料的句对齐方法
CN109190117A (zh) * 2018-08-10 2019-01-11 中国船舶重工集团公司第七〇九研究所 一种基于词向量的短文本语义相似度计算方法
CN109992788A (zh) * 2019-04-10 2019-07-09 北京神州泰岳软件股份有限公司 基于未登录词处理的深度文本匹配方法及装置
CN109992648A (zh) * 2019-04-10 2019-07-09 北京神州泰岳软件股份有限公司 基于词迁徙学习的深度文本匹配方法及装置
US20200401938A1 (en) * 2019-05-29 2020-12-24 The Board Of Trustees Of The Leland Stanford Junior University Machine learning based generation of ontology for structural and functional mapping
CN111985253A (zh) * 2020-08-28 2020-11-24 北京中科凡语科技有限公司 机器翻译结果的词对齐方法、装置、电子设备及存储介质

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
LISHAN YU等: "Developing an automated mechanism to identify medical articles from Wikipedia for knowledge extraction", 《MEDICAL INFORMATICS》 *
倪耀群等: "基于多特征融合和图匹配的维汉句子对齐", 《中文信息学报》 *
卢凤: "基于垂直搜索引擎的Lucene蒙文分词技术研究", 《内蒙古科技大学学报》 *
汪昆等: "统计机器翻译和翻译记忆的动态融合方法研究", 《中文信息学报》 *
贾善崇等: "融入多特征的汉-老双语对齐方法", 《中国水运(下半月)》 *
陈欢等: "基于话题翻译模型的双语文本纠错", 《计算机应用与软件》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113343719A (zh) * 2021-06-21 2021-09-03 哈尔滨工业大学 利用不同词嵌入模型进行协同训练的无监督双语翻译词典获取方法
CN113343719B (zh) * 2021-06-21 2023-03-14 哈尔滨工业大学 利用不同词嵌入模型进行协同训练的无监督双语翻译词典获取方法
CN115797815A (zh) * 2021-09-08 2023-03-14 荣耀终端有限公司 Ar翻译的处理方法及电子设备
CN115797815B (zh) * 2021-09-08 2023-12-15 荣耀终端有限公司 Ar翻译的处理方法及电子设备
CN113779978A (zh) * 2021-09-26 2021-12-10 上海一者信息科技有限公司 一种无监督跨语言句对齐实现方法
CN113779978B (zh) * 2021-09-26 2024-05-24 上海一者信息科技有限公司 一种无监督跨语言句对齐实现方法
CN116627708A (zh) * 2023-07-24 2023-08-22 湖南惟储信息技术有限公司 存储故障分析系统及其方法
CN116627708B (zh) * 2023-07-24 2023-09-19 湖南惟储信息技术有限公司 存储故障分析系统及其方法

Also Published As

Publication number Publication date
CN112668307B (zh) 2022-06-21

Similar Documents

Publication Publication Date Title
CN112668307B (zh) 一种双语句子自动对齐方法及装置
Cui et al. Attention-over-attention neural networks for reading comprehension
CN108399163B (zh) 结合词聚合与词组合语义特征的文本相似性度量方法
Rychalska et al. Samsung Poland NLP Team at SemEval-2016 Task 1: Necessity for diversity; combining recursive autoencoders, WordNet and ensemble methods to measure semantic similarity.
Berardi et al. Word Embeddings Go to Italy: A Comparison of Models and Training Datasets.
Ljubešić et al. Corpus vs. lexicon supervision in morphosyntactic tagging: the case of Slovene
Xie et al. Topic enhanced deep structured semantic models for knowledge base question answering
CN110704621A (zh) 文本处理方法、装置及存储介质和电子设备
CN104731774B (zh) 面向通用机译引擎的个性化翻译方法及装置
CN112541343A (zh) 基于词对齐的半监督对抗学习跨语言摘要生成方法
CN110362678A (zh) 一种自动提取中文文本关键词的方法与装置
Svoboda et al. New word analogy corpus for exploring embeddings of Czech words
CN110674296B (zh) 一种基于关键词的资讯摘要提取方法及系统
Gomaa et al. Arabic short answer scoring with effective feedback for students
Goikoetxea et al. Bilingual embeddings with random walks over multilingual wordnets
Karpinska et al. Subcharacter information in Japanese embeddings: When is it worth it?
Scheible Sentiment translation through lexicon induction
CN110334362B (zh) 一种基于医学神经机器翻译的解决产生未翻译单词的方法
Lin et al. A framework for Indonesian grammar error correction
Aghaebrahimian Deep neural networks at the service of multilingual parallel sentence extraction
Kiperwasser et al. Semi-supervised dependency parsing using bilexical contextual features from auto-parsed data
Dien Vietnamese-English cross-lingual paraphrase identification using siamese recurrent architectures
Andrade et al. Synonym acquisition using bilingual comparable corpora
Bertero et al. Hltc-hkust: A neural network paraphrase classifier using translation metrics, semantic roles and lexical similarity features
CN113408302A (zh) 一种机器翻译结果的评估方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant