CN102681983A - 一种文本数据的对齐方法和装置 - Google Patents

一种文本数据的对齐方法和装置 Download PDF

Info

Publication number
CN102681983A
CN102681983A CN2011100538858A CN201110053885A CN102681983A CN 102681983 A CN102681983 A CN 102681983A CN 2011100538858 A CN2011100538858 A CN 2011100538858A CN 201110053885 A CN201110053885 A CN 201110053885A CN 102681983 A CN102681983 A CN 102681983A
Authority
CN
China
Prior art keywords
language
text data
language text
alignment
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011100538858A
Other languages
English (en)
Inventor
吴华
蓝翔
沈文竹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN2011100538858A priority Critical patent/CN102681983A/zh
Publication of CN102681983A publication Critical patent/CN102681983A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供了一种文本数据的对齐方法及装置,该方法包括:获取第一语言文本数据和第二语言文本数据;对第一语言文本数据和第二语言文本数据进行跨语言语义分析,以获取多个跨语言主题;计算第一语言文本数据属于每一跨语言主题的概率,以形成第一特征向量,并计算第二语言文本数据属于每一跨语言主题的概率,以形成第二特征向量;根据第一特征向量和第二特征向量计算第一语言文本数据和第二语言文本数据的相似度;根据相似度对第一语言文本数据和第二语言文本数据进行对齐。通过上述方式,本发明提供的文本数据的对齐方法及装置基于跨语言主题进行相似度分析,进而可建立高准确度的语料库。

Description

一种文本数据的对齐方法和装置
技术领域
本发明涉及机器翻译领域,特别涉及一种文本数据的对齐方法和装置。
背景技术
基于统计方法的机器翻译、信息检索和信息抽取依赖于双语或多语语料库,在上述语料库中一般包括大量互为对齐的句对。在互联网上,存在大量的可比(comparable)的双语或者多语的语料资源,可通过对上述语料资源进行对齐来形成双语或多语语料库。可比的双语或者多语的语料资源是指用不同的语言和文字描述同一个事件,比如双语或多语新闻就是其中的一个例子。这些可比语料资源可以是完全互为翻译,或者只是在描述相同的事件,但是具体的段落和句子不是一一对应的。比如,在中英文维基百科中,“威廉莎士比亚”和“William Shakespeare”的页面内容是对应的比较好的,“芭比娃娃”和“barbie doll”中就只有部分段落是对应的,但是“丑小鸭”和“The Ugly Duckling”中的内容就基本不对应。
现有技术中,在对上述可比语料资源进行对齐时,主要根据词典进行标题对齐或者根据文本结构进行对齐,这两种方法的主要缺点就是局限于词典的覆盖率和文本本身的结构,往往会存在不准确的问题。
因此,亟需提供一种文本数据的对齐方法和装置,以解决上述问题。
发明内容
本发明所要解决的技术问题是提供一种文本数据的对齐方法和装置,通过获取不同语言的文本数据的跨语言主题,并对跨语言主题进行相似度分析,以建立高准确度的语料库。
本发明为解决技术问题而采用的技术方案是提供一种文本数据的对齐方法,对齐方法包括:a.获取第一语言文本数据和第二语言文本数据;b.对第一语言文本数据和第二语言文本数据进行跨语言语义分析,以获取多个跨语言主题;c.计算第一语言文本数据属于每一跨语言主题的概率,以形成第一特征向量,并计算第二语言文本数据属于每一跨语言主题的概率,以形成第二特征向量;d.根据第一特征向量和第二特征向量计算第一语言文本数据和第二语言数据的相似度;e.根据相似度对第一语言文本数据和第二语言文本数据进行对齐。
根据本发明之一优选实施例,在步骤b中,利用跨语言概率潜在语义分析方法或跨语言隐含狄利克雷分配方法获取多个跨语言主题。
根据本发明之一优选实施例,在步骤d中,根据如下公式计算相似度:
Sim ( d 1 , d 2 ) = Σ n = 1 N p ( t n | d 1 ) × p ( t n | d 2 ) Σ n = 1 N ( p ( t n | d 1 ) ) 2 Σ n = 1 N ( p ( t n | d 2 ) ) 2
其中,Sim(d1,d2)为相似度,d1为第一语言文本数据,d2为第二语言文本数据,tn为第n个跨语言主题,1≤n≤N,N为多个跨语言主题的数量,P(tn|d1)为d1属于tn的概率,P(tn|d2)为d2属于tn的概率。
根据本发明之一优选实施例,在步骤e中,将相似度作为一个特征加入机器学习模型中,并利用机器学习模型对第一语言文本数据和第二语言文本数据进行对齐。
根据本发明之一优选实施例,在步骤e中,机器学习模型中进一步包括词典特征和文本结构特征。
根据本发明之一优选实施例,第一语言文本数据为第一语言文本文档,第二语言文本数据为第二语言文本文档。
根据本发明之一优选实施例,第一语言文本数据为第一语言文本段落,第二语言文本数据为第二语言文本段落。
根据本发明之一优选实施例,第一语言文本数据为第一语言文本句子,第二语言文本数据为第二语言文本句子。
根据本发明之一优选实施例,在步骤b中,对第一语言文本句子和第二语言文本句子进行同义词扩展,并对扩展后的第一语言文本句子和第二语言文本句子进行跨语言语义分析。
根据本发明之一优选实施例,在步骤b中,同义词扩展方法包括语义网络扩展方法、双语词典扩展方法以及语料库扩展方法中的至少一种。
本发明为解决技术问题而采用的技术方案是提供一种文本数据的对齐装置,对齐装置包括:文本数据获取模块,用于获取第一语言文本数据和第二语言文本数据;跨语言主题获取模块,用于对第一语言文本数据和第二语言文本数据进行跨语言语义分析,以获取多个跨语言主题;特征向量获取模块,用于计算第一语言文本数据属于每一跨语言主题的概率,以形成第一特征向量,并计算第二语言文本数据属于每一跨语言主题的概率,以形成第二特征向量;相似度计算模块,用于根据第一特征向量和第二特征向量计算第一语言文本数据和第二语言数据的相似度;对齐模块,用于根据相似度对第一语言文本数据和第二语言文本数据进行对齐。
根据本发明之一优选实施例,跨语言主题获取模块利用跨语言概率潜在语义分析方法或跨语言隐含狄利克雷分配方法获取多个跨语言主题。
根据本发明之一优选实施例,相似度计算模块根据如下公式计算相似度:
Sim ( d 1 , d 2 ) = Σ n = 1 N p ( t n | d 1 ) × p ( t n | d 2 ) Σ n = 1 N ( p ( t n | d 1 ) ) 2 Σ n = 1 N ( p ( t n | d 2 ) ) 2
其中,Sim(d1,d2)为相似度,d1为第一语言文本数据,d2为第二语言文本数据,tn为第n个跨语言主题,1≤n≤N,N为多个跨语言主题的数量,P(tn|d1)为d1属于tn的概率,P(tn|d2)为d2属于tn的概率。
根据本发明之一优选实施例,对齐模块将相似度作为一个特征加入机器学习模型中,并利用机器学习模型对第一语言文本数据和第二语言文本数据进行对齐。
根据本发明之一优选实施例,机器学习模型中进一步包括词典特征和文本结构特征。
根据本发明之一优选实施例,第一语言文本数据为第一语言文本文档,第二语言文本数据为第二语言文本文档。
根据本发明之一优选实施例,第一语言文本数据为第一语言文本段落,第二语言文本数据为第二语言文本段落。
根据本发明之一优选实施例,第一语言文本数据为第一语言文本句子,第二语言文本数据为第二语言文本句子。
根据本发明之一优选实施例,跨语言主题获取模块对第一语言文本句子和第二语言文本句子进行同义词扩展,并对扩展后的第一语言文本句子和第二语言文本句子进行跨语言语义分析。
根据本发明之一优选实施例,跨语言主题获取模块采用语义网络、双语词典以及语料库中的至少一者进行同义词扩展。
由以上技术方案可以看出,本发明提供的文本数据的对齐方法及装置基于跨语言主题进行相似度分析,进而可建立高准确度的语料库。
附图说明
图1是本发明实施例中的文本数据对齐方法的流程示意图;
图2是本发明另一实施例中的文本数据对齐方法的流程示意图;以及
图3是本发明实施例中的文本数据对齐装置的示意框图。
具体实施方式
下面结合附图和实施例对本发明进行详细说明。
首先请参见图1,图1是本发明实施例中的文本数据对齐方法的流程示意图。
如图1所示,文本数据对齐方法包括:
步骤S101,获取第一语言文本数据和第二语言文本数据。
在该步骤中,第一语言文本数据和第二语言文本数据可从互联网中获取,通过网络爬虫或网络蜘蛛等网页抓取系统,可将不同语言种类的网页抓取到本地存储库中,从而可从不同语言种类的网页内容中获取第一语言文本数据和第二语言文本数据。
步骤S102,对第一语言文本数据和第二语言文本数据进行跨语言语义分析,以获取多个跨语言主题。
在该步骤中,可利用跨语言概率潜在语义分析(ProbabilisticCross-Lingual Latent Semantic Analysis,PCLSA)的方法或跨语言隐含狄利克雷分配(Cross-Lingual Latent Dirichlet Allocation,CLDA)的方法获取多个跨语言主题。
其中,如上述的“威廉莎士比亚”和“William Shakespeare”中包含了生平、剧作、诗、风格等内容,在潜在语义分析方法中,一个主题是有多个单词来表述的,比如生平这个主题下,可能是由“出生”、“死亡”、“生活”等多个词来表示的,可用p(wk|ti)表示给定一个主题ti中的第k个词的出现概率,按照这个概率,对于一个特定的主题,按照从大到小的顺序选择前M个(top-M)词来表示这个主题。在单语概率潜在语义分析方法或单语隐含狄利克雷分配方法中,对于中文文档,每个主题是由中文词来表示的,而对于一个英文文档,每个主题是由英文词来表示的,因而无法比较中英文文档中的主题。因此,为了解决上述问题,本发明采用跨语言概率潜在语义分析的方法或者跨语言隐含狄利克雷分配方法进行跨语言主题获取。跨语言概率潜在语义分析方法已经在Duo Zhang等人在2010年计算语言学协会(the Association for Computational Linguistics)的第48次年会的会议记录中发表的名称为“Cross-Lingual Latent Topic Extraction”的文章(1128-1137页)进行了详细描述,跨语言隐含狄利克雷分配方法已经在Jordan等人在2010年自然语言处理实验方法(Empirical Methods in NaturalLanguage Processing)会议的会议记录中发表的名称为“Holistic SentimentAnalysis Across Languages:Multilingual Supervised Latent DirichletAllocation”的文章中进行了详细描述,因此在此不再赘述。
步骤S103,计算第一语言文本数据属于每一跨语言主题的概率,以形成第一特征向量,并计算第二语言文本数据属于每一跨语言主题的概率,以形成第二特征向量。
在利用跨语言概率潜在语义分析方法或跨语言隐含狄利克雷分配方法从第一语言文本数据和第二语言文本数据找到N个跨语言主题后,可以进一步利用跨语言主题来表示第一语言文本数据和第二语言文本数据。具体来说,计算每一第一语言文本数据和每一第二语言文本数据属于各跨语言主题的概率,因此针对第一语言文本数据和第二语言文本数据分别组成第一特征向量和第二特征向量,表示为:
Vec ( d j i ) = ( p ( t 1 | d j i ) , p ( t 2 | d j i ) , . . . , p ( t N | d j i ) )
其中,表示第i种语言中的第j个文本数据,(1≤i≤N)表示
Figure BDA0000049146720000064
属于主题ti的概率。
步骤S104,根据第一特征向量和第二特征向量计算第一语言文本数据和第二语言文本数据的相似度。在该步骤中,可利用cosine公式、Dice-coefficient公式等各种相似度计算公式来计算相似度,其中利用cosine公式计算相似度方法如下:
Sim ( d 1 , d 2 ) = Σ n = 1 N p ( t n | d 1 ) × p ( t n | d 2 ) Σ n = 1 N ( p ( t n | d 1 ) ) 2 Σ n = 1 N ( p ( t n | d 2 ) ) 2
其中,Sim(d1,d2)为相似度,d1为第一语言文本数据,d2为第二语言文本数据,tn为第n个跨语言主题,1≤n≤N,N为多个跨语言主题的数量,P(tn|d1)为d1属于tn的概率,P(tn|d2)为d2属于tn的概率。
步骤S105,根据相似度对第一语言文本数据和第二语言文本数据进行对齐。
在该步骤中,当相似度大于一定阈值时则可以认为第一语言文本数据和第二语言文本数据是对齐的,其中,这里所说的阈值主要根据具体的应用而定,没有一定的固定值,所取的阈值越高,则对齐质量越好。更可将相似度作为一个特征加入机器学习模型中,并利用机器学习模型对第一语言文本数据和第二语言文本数据进行对齐。在该机器学习模型中进一步包括本领域公知的词典特征和文本结构特征。
其中,机器学习模型可利用最大熵、SVM(Support Vector Machine,支持向量机)等来实现。
值得注意的是,在以上所介绍的步骤中,第一语言文本数据可为第一语言文本文档,第二语言文本数据可为第二语言文本文档。当第一语言文本数据选取为第一语言文本文档,第二语言文本数据选取为第二语言文本文档时,利用步骤S101-步骤105可进行文档对齐处理,即可将不同语言种类但具有相同描述内容的文档挑选出来。
并且,第一语言文本数据可为第一语言文本段落,第二语言文本数据可为第二语言文本段落。当第一语言文本数据选取为第一语言文本段落,第二语言文本数据选取为第二语言文本段落时,步骤S101-步骤105可进行段落对齐处理,即可将不同语言种类但具有相同描述内容的段落挑选出来。
另外,第一语言文本数据也可为第一语言文本句子,第二语言文本数据也可为第二语言文本句子。当第一语言文本数据选取为第一语言文本句子,第二语言文本数据选取为第二语言文本句子时,步骤S101-步骤105可进行句子对齐处理,即可将不同语言种类但具有相同描述内容的句子挑选出来。
而,当第一语言文本数据选取为第一语言文本句子,第二语言文本数据选取为第二语言文本句子时,在步骤S102中,更可对第一语言文本句子和第二语言文本句子进行同义词扩展,并对扩展后的第一语言文本句子和第二语言文本句子进行跨语言语义分析。
具体而言,对于一个句子,由于每个句子包含词的个数不是很多,因此对于每个句子,预先需要进行扩展,主要是进行同义词扩展,同义词扩展需要用到同义词资源,而同义词资源包括了语义网络、双语词典、以及单语或者多语语料库,因此,同义词扩展方法可包括语义网络扩展方法、双语词典扩展方法以及语料库扩展方法(包括单语语料库扩展方法及多语语料库扩展方法),可利用以上三种方法中的任意一者作为同义词扩展方法以进行同义词扩展。
同义词的来源可以是语义网络,如英文的WordNet(http://wordnet.princeton.edu/)和中文的HowNet(http://www.keenage.com/)。对于语义为多个的单词,可以通过同义词资源来消岐。比如对于中文来说,HowNet中的单词都是通过义原来表示的,如果多个语义的话,用不同的义原来表示。比如对于一个包含m个词(s1,s2,...,sm)的句子,每个词有(1k,2k,...,mk)个语义,那么我们统计每个词的每个语义在这个句子中出现的次数,取出现次数最多的那个语义为这个词的语义,并且从语义网络中找出对应语义的同义词扩充。比如如下句子:
“她打毛衣打的好。”
其中的“打”是个多义词,可以是“踢、拍”、“编织”、“买”等意思,但根据“毛衣”的语义,只能选择“编织”这个义项,因此可以把“打”扩充成“编织、织”等,“毛衣”可以扩充成“毛衫”等。
对于那些没有这种语义网络的语言,可以采用双语词典和单语语料库来消岐,比如“打”可以翻译成“play”,“knit”,“buy”等,毛衣可以翻译成“sweater”。这样可以在单语语料库中发现“knit”和“sweater”在英语的单语语料库中共现的概率高,就选用“knit”作为“打”的意思再扩展成“编织、织”。扩展后的句子,可以用上面计算文档和段落一样的方法计算相似度,并作为特征加入最终的机器学习算法中。
请参见图2,图2是本发明另一实施例中的文本数据对齐方法的流程示意图。
如图2所示,在本实施例中,可利用文档对齐步骤S201、段落对齐步骤S202以及句子对齐步骤S203对中文文档集合210和英文文档集合220进行对齐处理,以获取双语语料库230。
如上所述,当以中文文档集合210中的每一份文档作为第一语言文本数据,以英文文档集合220中的每一份文档作为第二语言文本数据时,以上实施例中所介绍的步骤S101-步骤S105可组成本实施例中的文档对齐步骤S201,文档对齐步骤S201可进行文档对齐处理,即可将中文文档集合210与英文文档集合220中具有相同描述内容的文档挑选出来。
在执行文档对齐步骤S201之后,可继续以文档对齐步骤S201所对齐文档中的段落作为第一语言文本数据以及第二语言文本数据,此时,以上实施例中所介绍的步骤S101-步骤S105可组成本实施例中的段落对齐步骤S202,段落对齐步骤S202可进行段落对齐处理,即可将中文文档集合210与英文文档集合220中具有相同描述内容的段落挑选出来。
在执行段落对齐步骤S202之后,可继续以段落对齐步骤S202所对齐的段落中的句子作为第一语言文本数据以及第二语言文本数据,此时,以上实施例中所介绍的步骤S101-步骤S105可组成本实施例中的句子对齐步骤S203,句子对齐步骤S203可进行句子对齐处理,即可将中文文档集合210与英文文档集合220中具有相同描述内容的句子挑选出来。
以上的文档对齐步骤S201、段落对齐步骤S202以及句子对齐步骤S203优选以上文所述之顺序执行,当按顺序执行文档对齐、段落对齐以及句子对齐后,则可得到准确度很高的多语语料库。
但,亦可根据实际需要,省略文档对齐步骤S201,而直接执行段落对齐步骤S202以及句子对齐步骤S203,在这种情况下,可在中文文档集合210和英文文档集合220中,直接以二者中的每一段落作为语言文本数据,先执行段落对齐步骤S202,然后执行句子对齐步骤S203,与按序执行文档对齐步骤S201、段落对齐步骤S202以及句子对齐步骤S203的情况相比,直接执行段落对齐步骤S202以及句子对齐步骤S203在未作文档对齐的前提下直接执行段落对齐以及句子对齐,也可以获取双语语料库230。但与上述情况相比,由于省略了文档对齐步骤S201,直接以段落进行主题进行分析,存在运算量偏大、准确率偏低之缺点。
另外,也可以略过文档对齐步骤S201与段落对齐步骤S202,而直接执行句子对齐步骤S203,即直接以中文文档集合210和英文文档集合220中的每一句子作为语言文本数据执行句子对齐步骤S203,与以上所介绍的前两种情况相比,直接执行句子对齐步骤S203在未作文档对齐以及句子对齐的前提下直接执行句子对齐,也可以获取双语语料库230。但与上述两种情况相比,由于省略了文档对齐步骤S201以及段落对齐步骤S20,直接以句子为主题进行分析,其运算量最大、准确率偏低。
应该理解到,本实施例中所举的中文文档集合210和英文文档集合220仅为众多可行方案之一,本发明亦可对法语文档集合、俄语文档集合、日语文档集合等其他各种语言文档集合进行处理,并且,所获取的不一定是双语语料库,可以是多语语料库,比方说,在对法语文档集合、俄语文档集合、日语文档集合进行处理后,可获取法语、俄语以及日语三语语料库。
请参见图3,图3是本发明实施例中的文本数据对齐装置的示意框图。
如图3所示,文本数据对齐装置包括:文本数据获取模块301、跨语言主题获取模块302、特征向量获取模块303、相似度计算模块304以及对齐模块305。
其中,文本数据获取模块301可获取第一语言文本数据和第二语言文本数据。
具体而言,文本数据获取模块301可从互联网中获取第一语言文本数据和第二语言文本数据,可将不同语言种类的网页抓取到本地存储库中,从而可从不同语言种类的网页内容中获取第一语言文本数据和第二语言文本数据。文本数据获取模块301可优选为网络爬虫或网络蜘蛛等网页抓取系统。
跨语言主题获取模块302可对第一语言文本数据和第二语言文本数据进行跨语言语义分析,以获取多个跨语言主题。
跨语言主题获取模块302可利用跨语言概率潜在语义分析(ProbabilisticCross-Lingual Latent Semantic Analysis,PCLSA)的方法或跨语言隐含狄利克雷分配(Cross-Lingual Latent Dirichlet Allocation,CLDA)的方法获取多个跨语言主题。
其中,如上述的“威廉莎士比亚”和“William Shakespeare”中包含了生平、剧作、诗、风格等内容,在潜在语义分析方法中,一个主题是有多个单词来表述的,比如生平这个主题下,可能是由“出生”、“死亡”、“生活”等多个词来表示的。在潜在语义分析方法中,用p(wk|ti)表示给定一个主题ti中的第k个词的出现概率。按照这个概率,对于一个特定的主题,按照从大到小的顺序选择前M个(top-M)词来表示这个主题。在单语概率潜在语义分析方法或单语隐含狄利克雷分配方法中,对于中文文档,每个主题是由中文词来表示的,而对于一个英文文档,每个主题是由英文词来表示的,因而无法比较中英文文档中的主题。因此,为了解决上述问题,本发明采用跨语言概率潜在语义分析的方法或者跨语言隐含狄利克雷分配方法进行跨语言主题获取。跨语言概率潜在语义分析方法已经在Duo Zhang等人在2010年计算语言学协会(the Association for ComputationalLinguistics)的第48次年会的会议记录中发表的名称为“Cross-Lingual LatentTopic Extraction”的文章(1128-1137页)进行了详细描述,跨语言隐含狄利克雷分配方法已经在Jordan等人在2010年自然语言处理实验方法(Empirical Methods in Natural Language Processing)会议的会议记录中发表的名称为“Holistic Sentiment Analysis Across Languages:MultilingualSupervised Latent Dirichlet Allocation”的文章中进行了详细描述,因此在此不再赘述。
特征向量获取模块303用于计算第一语言文本数据属于每一跨语言主题的概率,以形成第一特征向量,并计算第二语言文本数据属于每一跨语言主题的概率,以形成第二特征向量。
特征向量获取模块303在利用跨语言概率潜在语义分析方法或跨语言隐含狄利克雷分配方法从第一语言文本数据和第二语言文本数据找到N个跨语言主题后,可以进一步利用跨语言主题来表示第一语言文本数据和第二语言文本数据。具体来说,计算每一第一语言文本数据和每一第二语言文本数据属于各跨语言主题的概率,因此针对第一语言文本数据和第二语言文本数据分别组成第一特征向量和第二特征向量,表示为:
Vec ( d j i ) = ( p ( t 1 | d j i ) , p ( t 2 | d j i ) , . . . , p ( t N | d j i ) )
其中,
Figure BDA0000049146720000122
表示第i种语言中的第j个文本数据,
Figure BDA0000049146720000123
(1≤i≤N)表示
Figure BDA0000049146720000124
属于主题ti的概率。
相似度计算模块304可根据第一特征向量和第二特征向量计算第一语言文本数据和第二语言文本数据的相似度。具体而言,相似度计算模块304可利用cosine公式、Dice-coefficient公式等各种相似度计算公式来计算相似度,其中利用cosine公式计算相似度方法如下:
Sim ( d 1 , d 2 ) = Σ n = 1 N p ( t n | d 1 ) × p ( t n | d 2 ) Σ n = 1 N ( p ( t n | d 1 ) ) 2 Σ n = 1 N ( p ( t n | d 2 ) ) 2
其中,Sim(d1,d2)为相似度,d1为第一语言文本数据,d2为第二语言文本数据,tn为第n个跨语言主题,1≤n≤N,N为多个跨语言主题的数量,P(tn|d1)为d1属于tn的概率,P(tn|d2)为d2属于tn的概率。
对齐模块505可根据相似度对第一语言文本数据和第二语言文本数据进行对齐。
当相似度大于一定阈值时则可以认为第一语言文本数据和第二语言文本数据是对齐的,其中,这里所说的阈值主要根据具体的应用而定,没有一定的固定值,所取的阈值越高,则对齐质量越好。对齐模块305更可将相似度作为一个特征加入机器学习模型中,并利用机器学习模型对第一语言文本数据和第二语言文本数据进行对齐。在该机器学习模型中进一步包括本领域公知的词典特征和文本结构特征。
机器学习模型可利用最大熵、SVM(Support Vector Machine,支持向量机)等来实现,其中机器学习模型可设置在对齐模块305内。
值得注意的是,文本数据获取模块301更可选取第一语言文本文档作为第一语言文本数据,选取第二语言文本数据作为第二语言文本文档,当文本数据获取模块301选取如上数据时,文本数据获取模块301、跨语言主题获取模块302、特征向量获取模块303、相似度计算模块304以及对齐模块305可进行文档对齐处理,即可将不同语言种类但具有相同描述内容的文档挑选出来。
并且,文本数据获取模块301更可选取第一语言文本段落作为第一语言文本数据,选取第二语言文本段落作为第二语言文本文档,当文本数据获取模块301选取如上数据时,文本数据获取模块301、跨语言主题获取模块302、特征向量获取模块303、相似度计算模块304以及对齐模块305可进行段落对齐处理,即可将不同语言种类但具有相同描述内容的段落挑选出来。
另外,文本数据获取模块301更可选取第一语言文本句子作为第一语言文本数据,选取第二语言文本句子作为第二语言文本文档,当文本数据获取模块301选取如上数据时,文本数据获取模块301、跨语言主题获取模块302、特征向量获取模块303、相似度计算模块304以及对齐模块305可进行句子对齐处理,即可将不同语言种类但具有相同描述内容的句子挑选出来。
而,当第一语言文本数据选取为第一语言文本句子,第二语言文本数据选取为第二语言文本句子时,跨语言主题获取模块302更可对第一语言文本句子和第二语言文本句子进行同义词扩展,并对扩展后的第一语言文本句子和第二语言文本句子进行跨语言语义分析。
具体而言,对于一个句子,由于每个句子包含词的个数不是很多,因此对于每个句子,预先需要进行扩展,主要是进行同义词扩展,同义词扩展需要用到同义词资源,而同义词资源包括了语义网络、双语词典、以及单语或者多语语料库,因此跨语言主题获取模块302可采用语义网络、双语词典以及语料库(包括单语或多语语料库)中的至少一者进行同义词扩展。
同义词的来源可以是语义网络,如英文的WordNet(http://wordnet.princeton.edu/)和中文的HowNet(http://www.keenage.com/)。对于语义为多个的单词,可以通过同义词资源来消岐。比如对于中文来说,HowNet中的单词都是通过义原来表示的,如果多个语义的话,用不同的义原来表示。比如对于一个包含m个词(s1,s2,...,sm)的句子,每个词有(1k,2k,...,mk)个语义,那么我们统计每个词的每个语义在这个句子中出现的次数,取出现次数最多的那个语义为这个词的语义,并且从语义网络中找出对应语义的同义词扩充。比如如下句子:
“她打毛衣打的好。”
其中的“打”是个多义词,可以是“踢、拍”、“编织”、“买”等意思,但根据“毛衣”的语义,只能选择“编织”这个义项,因此可以把“打”扩充成“编织、织”等,“毛衣”可以扩充成“毛衫”等。
对于那些没有这种语义网络的语言,可以采用双语词典和单语语料库来消岐,比如“打”可以翻译成“play”,“knit”,“buy”等,毛衣可以翻译成“sweater”。这样可以在单语语料库中发现“knit”和“sweater”在英语的单语语料库中共现的概率高,就选用“knit”作为“打”的意思再扩展成“编织、织”。扩展后的句子,可以用上面计算文档和段落一样的方法计算相似度。并作为特征加入最终的机器学习模型中。
另外,以上所揭示的文本数据获取模块301、跨语言主题获取模块302、特征向量获取模块303、相似度计算模块304以及对齐模块305亦可根据图2(及其相应内容)所揭示的流程进行工作,在此不再赘述。
由以上技术方案可以看出,本发明提供的文本数据的对齐方法及装置基于跨语言主题进行相似度分析,进而可建立高准确度多语语料库。
在上述实施例中,仅对本发明进行了示范性描述,但是本领域技术人员在阅读本专利申请后可以在不脱离本发明的精神和范围的情况下对本发明进行各种修改。

Claims (20)

1.一种文本数据的对齐方法,其特征在于,所述对齐方法包括:
a.获取第一语言文本数据和第二语言文本数据;
b.对所述第一语言文本数据和所述第二语言文本数据进行跨语言语义分析,以获取多个跨语言主题;
c.计算所述第一语言文本数据属于每一所述跨语言主题的概率,以形成第一特征向量,并计算所述第二语言文本数据属于每一所述跨语言主题的概率,以形成第二特征向量;
d.根据所述第一特征向量和所述第二特征向量计算所述第一语言文本数据和所述第二语言文本数据的相似度;
e.根据所述相似度对所述第一语言文本数据和所述第二语言文本数据进行对齐。
2.如权利要求1所述的文本数据的对齐方法,其特征在于,在所述步骤b中,利用跨语言概率潜在语义分析方法或跨语言隐含狄利克雷分配方法获取所述多个跨语言主题。
3.如权利要求1所述的文本数据的对齐方法,其特征在于,在所述步骤d中,根据如下公式计算所述相似度:
Sim ( d 1 , d 2 ) = Σ n = 1 N p ( t n | d 1 ) × p ( t n | d 2 ) Σ n = 1 N ( p ( t n | d 1 ) ) 2 Σ n = 1 N ( p ( t n | d 2 ) ) 2
其中,Sim(d1,d2)为所述相似度,d1为所述第一语言文本数据,d2为所述第二语言文本数据,tn为第n个跨语言主题,1≤n≤N,N为所述多个跨语言主题的数量,P(tn|d1)为d1属于tn的概率,P(tn|d2)为d2属于tn的概率。
4.如权利要求1所述的文本数据的对齐方法,其特征在于,在所述步骤e中,将所述相似度作为一个特征加入机器学习模型中,并利用所述机器学习模型对所述第一语言文本数据和所述第二语言文本数据进行对齐。
5.如权利要求4所述的文本数据的对齐方法,其特征在于,在所述步骤e中,所述机器学习模型中进一步包括词典特征和文本结构特征。
6.如权利要求1所述的文本数据的对齐方法,其特征在于,所述第一语言文本数据为第一语言文本文档,所述第二语言文本数据为第二语言文本文档。
7.如权利要求1所述的文本数据的对齐方法,其特征在于,所述第一语言文本数据为第一语言文本段落,所述第二语言文本数据为第二语言文本段落。
8.如权利要求1所述的文本数据的对齐方法,其特征在于,所述第一语言文本数据为第一语言文本句子,所述第二语言文本数据为第二语言文本句子。
9.如权利要求8所述的文本数据的对齐方法,其特征在于,在所述步骤b中,对所述第一语言文本句子和所述第二语言文本句子进行同义词扩展,并对扩展后的所述第一语言文本句子和所述第二语言文本句子进行跨语言语义分析。
10.如权利要求9所述的文本数据的对齐方法,其特征在于,在所述步骤b中,所述同义词扩展方法包括语义网络扩展方法、双语词典扩展方法以及语料库扩展方法中的至少一种。
11.一种文本数据的对齐装置,其特征在于,所述对齐装置包括:
文本数据获取模块,用于获取第一语言文本数据和第二语言文本数据;
跨语言主题获取模块,用于对所述第一语言文本数据和所述第二语言文本数据进行跨语言语义分析,以获取多个跨语言主题;
特征向量获取模块,用于计算所述第一语言文本数据属于每一所述跨语言主题的概率,以形成第一特征向量,并计算所述第二语言文本数据属于每一所述跨语言主题的概率,以形成第二特征向量;
相似度计算模块,用于根据所述第一特征向量和所述第二特征向量计算所述第一语言文本数据和所述第二语言数据的相似度;
对齐模块,用于根据所述相似度对所述第一语言文本数据和所述第二语言文本数据进行对齐。
12.如权利要求11所述的文本数据的对齐装置,其特征在于,所述跨语言主题获取模块利用跨语言概率潜在语义分析方法或跨语言隐含狄利克雷分配方法获取所述多个跨语言主题。
13.如权利要求11所述的文本数据的对齐装置,其特征在于,所述相似度计算模块根据如下公式计算所述相似度:
Sim ( d 1 , d 2 ) = Σ n = 1 N p ( t n | d 1 ) × p ( t n | d 2 ) Σ n = 1 N ( p ( t n | d 1 ) ) 2 Σ n = 1 N ( p ( t n | d 2 ) ) 2
其中,Sim(d1,d2)为所述相似度,d1为所述第一语言文本数据,d2为所述第二语言文本数据,tn为第n个跨语言主题,1≤n≤N,N为所述多个跨语言主题的数量,P(tn|d1)为d1属于tn的概率,P(tn|d2)为d2属于tn的概率。
14.如权利要求11所述的文本数据的对齐装置,其特征在于,所述对齐模块将所述相似度作为一个特征加入机器学习模型中,并利用所述机器学习模型对所述第一语言文本数据和所述第二语言文本数据进行对齐。
15.如权利要求14所述的文本数据的对齐装置,其特征在于,所述机器学习模型中进一步包括词典特征和文本结构特征。
16.如权利要求11所述的文本数据的对齐装置,其特征在于,所述第一语言文本数据为第一语言文本文档,所述第二语言文本数据为第二语言文本文档。
17.如权利要求11所述的文本数据的对齐装置,其特征在于,所述第一语言文本数据为第一语言文本段落,所述第二语言文本数据为第二语言文本段落。
18.如权利要求11所述的文本数据的对齐装置,其特征在于,所述第一语言文本数据为第一语言文本句子,所述第二语言文本数据为第二语言文本句子。
19.如权利要求18所述的文本数据的对齐装置,其特征在于,所述跨语言主题获取模块对所述第一语言文本句子和所述第二语言文本句子进行同义词扩展,并对扩展后的所述第一语言文本句子和所述第二语言文本句子进行跨语言语义分析。
20.如权利要求19所述的文本数据的对齐装置,其特征在于,所述跨语言主题获取模块采用语义网络、双语词典以及语料库中的至少一种进行同义词扩展。
CN2011100538858A 2011-03-07 2011-03-07 一种文本数据的对齐方法和装置 Pending CN102681983A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011100538858A CN102681983A (zh) 2011-03-07 2011-03-07 一种文本数据的对齐方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011100538858A CN102681983A (zh) 2011-03-07 2011-03-07 一种文本数据的对齐方法和装置

Publications (1)

Publication Number Publication Date
CN102681983A true CN102681983A (zh) 2012-09-19

Family

ID=46813936

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011100538858A Pending CN102681983A (zh) 2011-03-07 2011-03-07 一种文本数据的对齐方法和装置

Country Status (1)

Country Link
CN (1) CN102681983A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104281716A (zh) * 2014-10-30 2015-01-14 百度在线网络技术(北京)有限公司 平行语料的对齐方法及装置
CN105095229A (zh) * 2014-04-29 2015-11-25 国际商业机器公司 训练主题模型的方法,对比文档内容的方法和相应的装置
CN105868187A (zh) * 2016-03-25 2016-08-17 北京语言大学 多译本平行语料库的构建方法
CN107247701A (zh) * 2017-05-04 2017-10-13 厦门快商通科技股份有限公司 用于语料库的主题聚类模型构建系统及其构建方法
CN107315731A (zh) * 2016-04-27 2017-11-03 北京京东尚科信息技术有限公司 文本相似度计算方法
CN105843801B (zh) * 2016-03-25 2018-05-11 北京语言大学 多译本平行语料库的构建系统
CN109284486A (zh) * 2018-08-14 2019-01-29 重庆邂智科技有限公司 文本相似性度量方法、装置、终端及存储介质
CN110413736A (zh) * 2019-07-25 2019-11-05 百度在线网络技术(北京)有限公司 跨语言文本表示方法和装置
CN110781662A (zh) * 2019-10-21 2020-02-11 腾讯科技(深圳)有限公司 一种逐点互信息的确定方法和相关设备
CN111125350A (zh) * 2019-12-17 2020-05-08 语联网(武汉)信息技术有限公司 基于双语平行语料生成lda主题模型的方法及装置
CN111383658A (zh) * 2018-12-29 2020-07-07 广州市百果园信息技术有限公司 音频信号的对齐方法和装置
CN113220845A (zh) * 2021-05-26 2021-08-06 鲁东大学 基于深度语义的多语言文本细粒度精准对齐方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080091405A1 (en) * 2006-10-10 2008-04-17 Konstantin Anisimovich Method and system for analyzing various languages and constructing language-independent semantic structures
CN101621391A (zh) * 2009-08-07 2010-01-06 北京百问百答网络技术有限公司 基于概率主题进行短文本分类的方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080091405A1 (en) * 2006-10-10 2008-04-17 Konstantin Anisimovich Method and system for analyzing various languages and constructing language-independent semantic structures
CN101621391A (zh) * 2009-08-07 2010-01-06 北京百问百答网络技术有限公司 基于概率主题进行短文本分类的方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
DUO ZHANG等: "Cross-Lingual Latent Topic Extraction", 《PROCEEDINGS OF THE 48TH ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》 *
JORDAN BOYD GRABER等: "Holistic Sentiment Analysis Across Languages: Multilingual Supervised Latent Dirichlet Allocation", 《PROCEEDINGS OF THE 2010 CONFERENCE ON EMPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING. ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》 *
林政等: "Web平行语料挖掘及其在机器翻译中的应用", 《中文信息学报》 *
贾西平等: "基于主题的文档检索模型", 《华南理工大学学报(自然科学版)》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095229A (zh) * 2014-04-29 2015-11-25 国际商业机器公司 训练主题模型的方法,对比文档内容的方法和相应的装置
CN104281716A (zh) * 2014-10-30 2015-01-14 百度在线网络技术(北京)有限公司 平行语料的对齐方法及装置
CN104281716B (zh) * 2014-10-30 2017-10-03 百度在线网络技术(北京)有限公司 平行语料的对齐方法及装置
CN105868187A (zh) * 2016-03-25 2016-08-17 北京语言大学 多译本平行语料库的构建方法
CN105868187B (zh) * 2016-03-25 2018-05-08 北京语言大学 多译本平行语料库的构建方法
CN105843801B (zh) * 2016-03-25 2018-05-11 北京语言大学 多译本平行语料库的构建系统
CN107315731A (zh) * 2016-04-27 2017-11-03 北京京东尚科信息技术有限公司 文本相似度计算方法
CN107247701A (zh) * 2017-05-04 2017-10-13 厦门快商通科技股份有限公司 用于语料库的主题聚类模型构建系统及其构建方法
CN109284486A (zh) * 2018-08-14 2019-01-29 重庆邂智科技有限公司 文本相似性度量方法、装置、终端及存储介质
CN109284486B (zh) * 2018-08-14 2023-08-22 重庆邂智科技有限公司 文本相似性度量方法、装置、终端及存储介质
CN111383658A (zh) * 2018-12-29 2020-07-07 广州市百果园信息技术有限公司 音频信号的对齐方法和装置
CN110413736A (zh) * 2019-07-25 2019-11-05 百度在线网络技术(北京)有限公司 跨语言文本表示方法和装置
CN110781662A (zh) * 2019-10-21 2020-02-11 腾讯科技(深圳)有限公司 一种逐点互信息的确定方法和相关设备
CN111125350A (zh) * 2019-12-17 2020-05-08 语联网(武汉)信息技术有限公司 基于双语平行语料生成lda主题模型的方法及装置
CN111125350B (zh) * 2019-12-17 2023-05-12 传神联合(北京)信息技术有限公司 基于双语平行语料生成lda主题模型的方法及装置
CN113220845A (zh) * 2021-05-26 2021-08-06 鲁东大学 基于深度语义的多语言文本细粒度精准对齐方法
CN113220845B (zh) * 2021-05-26 2022-05-17 鲁东大学 基于深度语义的多语言文本细粒度精准对齐方法

Similar Documents

Publication Publication Date Title
CN102681983A (zh) 一种文本数据的对齐方法和装置
Liu et al. Opinion target extraction using word-based translation model
CN105808711A (zh) 一种基于文本语义的概念生成模型的系统和方法
Aumiller et al. EUR-lex-sum: A multi-and cross-lingual dataset for long-form summarization in the legal domain
Aumiller et al. Klexikon: A German dataset for joint summarization and simplification
Lahoti et al. A survey on NLP resources, tools, and techniques for Marathi language processing
Santhanavijayan et al. A novel hybridized strategy for machine translation of Indian languages
Sanchez-Cartagena et al. A generalised alignment template formalism and its application to the inference of shallow-transfer machine translation rules from scarce bilingual corpora
Franky et al. Resources for Indonesian sentiment analysis
Marie et al. Iterative training of unsupervised neural and statistical machine translation systems
Li et al. Exploiting comparable corpora for lexicon extraction: Measuring and improving corpus quality
Marton et al. Transliteration normalization for information extraction and machine translation
Dadashkarimi et al. A probabilistic translation method for dictionary-based cross-lingual information retrieval in agglutinative languages
Gornostay et al. Terminology extraction from comparable corpora for latvian
Anke Towards definition extraction using conditional random fields
Mi Loanword identification based on web resources: A case study on wikipedia
Chakrawarti et al. Phrase-Based Statistical Machine Translation of Hindi Poetries into English
Shashank et al. Word sense disambiguation of polysemy words in kannada language
Tsunakawa et al. Towards cross-lingual patent wikification
Khusainov et al. Multilingual neural machine translation system for 7 turkic-russian language pairs
Mahesh et al. Exploring the relevance of bilingual morph-units in automatic induction of translation templates
Cheng et al. LanguageNet: Learning to Find Sense Relevant Example Sentences
Saggion Unsupervised learning summarization templates from concise summaries
Wu et al. Machine translation with weakly paired bilingual documents
Wu et al. Chinese-Vietnamese News Documents Summarization Based on Feature-related Attention Mechanism

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20120919