CN102187335A

CN102187335A - 使用比较语料库的命名实体直译

Info

Publication number: CN102187335A
Application number: CN2009801425260A
Authority: CN
Inventors: R·U·乌; S·克里西南; A·库马兰
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2008-10-21
Filing date: 2009-10-20
Publication date: 2011-09-14
Also published as: EP2359264A4; WO2010048204A2; US20100106484A1; JP2012506596A; US8560298B2; JP5497048B2; EP2359264A2; WO2010048204A3

Abstract

可审阅第一语言的文档以及第二语言的附加文档。可确定所述附加文档是否充分相似于所述文档。如果所述附加文档被确定为充分相似于所述文档，则可选择所述文档中的命名实体。本方法可通过将命名实体与所述附加文档中的词进行比较并确定所述命名实体和所述词是否充分相似来搜索相似的命名实体。如果定位了对于命名实体的相似词，则将命名实体和相似命名实体存储为命名实体直译。

Description

使用比较语料库的命名实体直译

背景

此背景旨在提供本专利申请的基本上下文，而不旨在描述要解决的具体问题。

命名实体构成了跨语言信息检索(CLIR)的查询术语中的很大一部分，并且对跨语言信息检索系统的性能有着实质的影响。在机器翻译(MT)中，许多词汇表外的单词是命名实体。然后，双语词典缺乏对命名实体的充分覆盖，且机器直译系统经常产生不正确的直译。

概述

提供本概述以便以简化形式介绍将在以下的详细描述中进一步描述的一些概念。本概述并不旨在标识出所要求保护的主题的关键特征或必要特征，也不旨在用于限定所要求保护的主题的范围。

公开了一种用于挖掘多语言命名实体直译的方法和系统。可以审阅第一语言的文档并可以审阅第二语言的附加文档。可以确定该附加文档是否充分相似于该文档。如果该附加文档被确定为是充分相似于该文档，则可选择该文档中的命名实体。本方法可通过将命名实体与附加文档中的单词进行比较并确定该命名实体与该单词是否充分相似来搜索相似的命名实体。如果定位了与该命名实体相似的单词，则该命名实体和相似的命名实体可被存储为命名实体直译。

附图简述

图1是便携式计算设备的示图；

图2是挖掘多语言命名实体直译的方法的示图；

图3是比较语料库的示图。

详细描述

尽管以下正文阐明众多不同实施例的详细描述，但是应当理解，该描述的法律范围由本专利的结尾所提出的权利要求书的言辞来限定。该详细描述应被解释为仅是示例性的，且不描述每一可能的实施例，因为描述每一可能的实施例即使不是不可能的也是不切实际的。可使用现有技术或在本专利的提交日之后开发的技术来实现众多替换实施例，而这仍落入权利要求书的范围之内。

还应该理解，在本专利中，除非使用句子“如此处所用，术语‘______’在此被定义为意指……”或者相似句子来明确地定义一个术语，否则不管是明确地还是含蓄地，没有限制该术语意义超出其平常或普通含义的意图，并且，这一术语不应该被解释为被限制在基于本专利的任何部分中(除了权利要求书的语言之外)所做的任何陈述的范围中。就本专利的结尾处的权利要求书中所述的任何术语在本专利中以与单独含义相一致的方式来引用而言，这仅仅是为简明起见而如此做的，使得不使读者感到混淆，且这类权利要求术语并不旨在隐含地或以其它方式限于该单独含义。最后，除非一权利要求要素是通过叙述单词“装置”和功能而没有叙述任何结构来定义的，否则任何权利要求要素的范围并不旨在基于35U.S.C.§112、第6段的应用来解释。

图1示出了可用于显示和提供本说明书所描述的用户界面的合适的计算系统环境100的示例。应当注意，计算系统环境100仅为合适的计算环境的一个示例，并不旨在对本权利要求的方法和装置的使用范围或功能提出任何限制。也不应该将计算环境100解释为对示例性操作环境100中示出的任一组件或其组合有任何依赖性或要求。

参考图1，用于实现所要求保护的方法和装置的各个框的示例性系统包括计算机110形式的通用计算设备。计算机110的各组件可包括但不限于，处理单元120、系统存储器130、以及将包括系统存储器在内的各系统组件耦合到处理单元120的系统总线121。

计算机110可经由局域网(LAN)171和/或经由调制解调器172或其他网络接口170的广域网(WAN)173，使用到诸如远程计算机180之类的一个或多个远程计算机的逻辑连接来在联网环境中操作。

计算机110通常包括各种计算机可读介质，计算机可读介质可以是可由计算机110访问的任何可用介质，并且包括易失性和非易失性介质、可移动和不可移动介质两者。系统存储器130包括易失性和/或非易失性存储器形式的计算机存储介质，如只读存储器(ROM)131和随机存取存储器(RAM)132。ROM可包括基本输入/输出系统133(BIOS)。RAM 132通常包含数据和/或程序模块，该数据和/或程序模块包括操作系统134、应用程序135、其他程序模块136和程序数据137。计算机110也可包括其他可移动/不可移动、易失性/非易失性计算机存储介质，诸如硬盘驱动器141、从磁盘152读取或向磁盘152写入的磁盘驱动器151、从光盘156读取或向光盘156写入的光盘驱动器155。硬盘驱动器141、151和155可经由接口140、150与系统总线121接口。

用户可以通过诸如键盘162和通常被称为鼠标、跟踪球或触摸垫的定点设备161之类的输入设备，向计算机20输入命令和信息。其他输入设备(未示出)可以包括话筒、操纵杆、游戏手柄、圆盘式卫星天线、扫描仪等等。这些和其他输入设备通常由耦合至系统总线的用户输入接口160连接至处理单元120，但也可以由其他接口和总线结构，诸如并行端口、游戏端口或通用串行总线(USB)，来连接。监视器191或其它类型的显示设备也可经由诸如视频接口190之类的接口连接至系统总线121。除监视器以外，计算机还可以包括其他外围输出设备，如扬声器197和打印机196，它们可以通过输出外围接口190连接。

图2示出了挖掘文档以获得多语言命名实体直译的方法。命名实体(NE)构成了信息检索(IR)系统中查询术语的很大一部分，并且对它们的性能有着实质的影响。它们在跨语言信息检索(CLIR)中可能甚至更为重要。此外，命名实体在机器翻译(MT)系统的性能中也扮演了重要角色，因为许多词汇表外单词实际上是命名实体。尽管命名实体对于跨语言信息检索系统的成功是关键的，并且对机器翻译性能有着极大的影响，双语词典(不论是手制的还是统计的)仅仅提供了有限的帮助，因为它们对于命名实体无法提供充分的覆盖。每天，新的命名实体通过新闻文章和互联网而被引入到某种语言的词汇表中。替换的机器直译方法经常产生错误拼写或不正确的直译，这成为了跨语言信息检索中的噪声以及劣化了MT中的翻译质量。

最近，新的文章在多种语言中的同时可用性已经激发了对命名实体直译的有希望的替代方案的兴趣，特别是，从这些新闻语料库中挖掘命名实体直译等同词(NETE)。在形式上，比较新闻语料库是在适度长的持续时间段上一对语言中时间上对准的新闻报道。世界各地的许多新闻组织每天以多种语言制作这类新闻内容。从比较新闻语料库中挖掘出的命名实体直译等同词可对于包括CLIR和MT的许多任务以及机器直译系统而言是有价值的，以对双语词典进行有效补充。

新闻报道通常富含命名实体310，并因此，比较新闻语料库是命名实体直译等同词的良田。如果能设计出一种从这些新闻语料库中挖掘命名实体等同词的有效方法，那么在许多世界语言中的新闻语料库的庞大数量和永久可用性预示着一种用于挖掘命名实体310等同词的巨大的、有价值的、取之不尽的数据源。

从大量比较语料库中有效挖掘命名实体直译等同词提出了多个挑战：首先，对命名实体的标识和验证会需要在许多语言中可能不可获得的语言学工具和资源。第二，在比较语料库中的大量命名实体是非常稀疏的，这需要对命名实体在语料库中的频率特征的低依赖性。第三，挖掘方法必须将候选词的产生限制为挖掘较大语料库时是计算上有效的；此外，对候选词的限制将减少由假肯定导致的精度降级。最后，重要的是使用较少的语言专用知识以使得跨越多个语言的挖掘是有效的。

本申请介绍了一种被称为MINT的新颖方法，用于从大比较语料库中有效地挖掘命名实体直译等同词，解决了以上所列出的所有挑战。MINT假设命名实体识别器(NER)仅对一种语言可用，且因此可适用于即便从资源贫瘠的语言中，将与命名实体识别器可用的语言进行配对时，也可挖掘命名实体直译等同词。作为响应，本申请进行如下：

认识到如果具有相似内容的新闻文章是先验已知的，则它们可以被有效且详尽地挖掘。

经验性地论证了利用上述认识以及跨语言信息检索技术，MINT可比起现有技术好得多地进行挖掘，即便相似的文章不是先验已知的(诸如，在普通的比较语料库中)。

以不同特征论证了MINT对于多种语料库的有效性。

最后，本申请通过描述本方法在来自三种截然不同的语系(即，斯拉夫语系、印欧语系、德拉威语系)的不同语言组(即，俄语、印地语、埃纳德语、泰米尔语)之间的若干比较语料库上的性能，论证了本方法是语言不相关的。

本MINT方法基于如下关键认识：由于新闻是关于涉及人、地点、组织和其他命名实体的事件，多种语言中的带有相似内容的新闻文章必然包含高度重叠的命名实体组。报导同一新闻事件的多语言新闻文章必然以相应语言来提及命名实体，并因此可被期望产生丰富的命名实体直译等同词。图3示出了在由BBC出版的印地语和英语的一对相似文章中的命名实体直译等同词。对由同一源出版的英语和印地语的两百对相似新闻文章的分析，发现英文侧的单个单词的命名实体310中有87％会在印地语侧有至少一个等同词。MINT方法充分利用该经验性证实的认识来从这些语料库中挖掘命名实体直译等同词。

MINT可具有两个阶段。在第一阶段中，将文档进行比较，以对源侧的每一个文档标识目标侧中带有相似内容的一组文档。一旦标识出相似文档，就将它们作为输入提供给第二阶段，在第二阶段中从这些文档中挖掘命名实体直译等同词。

再次参考图2，在块200，可审阅第一语言的文档300(图3)。理想地，该文档将包含一些所关注的命名实体直译等同词。可选择该文档因为其包含麻烦的命名实体直译等同词，或者其可以是在某一天写的新闻报道中的顺序搜索。当然，选择第一语言的文档的其他方法也是可能的并且被考虑在内。

在块210，审阅第二语言的附加文档305。理想地，可以如下方式选择附加文档305，即它也将具有命名实体直译等同词。例如，如果文档是体育报道，则审阅一篇科学论文作为附加文档几乎没有意义，因为文档300和附加文档305之间存在相似命名实体直译等同词的概率可能低。

在块220，可以确定附加文档305是否相似于文档300。该确定可以多种方式来产生。在一些实施例中，使用跨语言文档相似度模型来计算跨语言相似度得分。跨语言文档相似度模型可测量源语言和目标语言的一对文档之间的相似度程度。文档和附加文章概率分布之间的负Kullback-Leibler(KL)散度可被用作为相似度度量。

在概率理论和信息理论中，Kullback-Leibler散度(也称为信息散度、信息增益、或相对熵)是两个概率分布P和Q之间差异的不可交换的度量。KL度量了使用基于P的编码时编码来自P的采样所要求的比特数与使用基于Q的编码时的预期差。通常，P表示数据、观测值的“真实”分布，或精确计算的理论分布。度量Q通常表示P的理论、模型、描述、或近似。

在本申请中，给定分别是源语言和目标语言的两篇文档DS 300、DT 305，并且Vs，Vt表示源语言和目标语言的词汇表，则两篇文档300，305之间的相似度可以由KL(Ds‖Dt)来表示：

\underset{w_{T} &Element; V_{T}}{Σ} P (w_{T} | D_{s}) \log \frac{p (w_{T} | D_{T})}{p (w_{T} | D_{S})}

其中p(w|D)是词w在文档D中的概率。因为有对寻找与给定源语言文档300相似的那些目标文档305的兴趣，因此分子可以被忽略因为其独立于目标语言文档。最后，扩展p(w_t|Ds)为：

跨语言相似度得分可以被指定为：

\underset{w_{T} &Element; V_{T}}{Σ} \underset{w_{S} &Element; V_{S}}{Σ} p (w_{S} D_{S}) p (w_{T} | w_{S}) \log p (w_{T} | D_{T})

在伪代码中，对文档300，305的比较可以如下进行：

输入：语言(S，T)的比较新闻语料库(C_S，C_T)

用于(S，T)的跨语言文档相似度模型MD

阈值得分a。

输出：来自(C_S，C_T)的相似文章对(D_S，D_T)的集合A_S，T

1//相似文章(D_S，D_T)的集合

2 对于C_S中的每一篇文章D_S，进行：

3

//D_S的候选的集合

4 对于C_T中的每一篇文章d_T，进行：

5 得分＝跨语言文档相似度(D_S，d_T，MD)；

6 如果(得分≥α)则X_S←X_S∪(d_T，得分)；

7 结束

8 D_T＝最好得分候选(X_S)；

9 如果

则A_ST←A_ST∪(D_S，D_T)；

10 结束

从上述伪代码中可以得知，多个附加文档305可与文档300进行比较。在一些实施例中，对多个附加文档305可以进行预先筛选，以确保仅仅那些可能具有与命名实体310相似的词315的附加文档305被审阅。作为一个示例，关注于Michael Phelps的文档300可能是体育相关的。使用该知识，可以减少将被审阅的附加文档305的类型。可以为每一个附加文档—文档对320(原始源文档300和每一个单独附加文档305)计算相似度得分，具有最大相似度的对320可以被用作为文档—附加文档对320，以被进一步分析。

在块230，如果附加文档305充分相似于文档300，则可以选择该文档中的命名实体310。例如，游泳选手Michael Phelps可以是美国人名，并可以在许多体育文章中被容易地识别出。然而，可能在其他语言中难以创建Michael Phelps。因此，Michael Phelps可以是本方法可试图挖掘的命名实体310的一个示例。

如果多个附加文档305已经被与文档300进行了比较，那么具有最高的确定出的相似度的文档300-附加文档305对320可以被选择为所选对320，以被进一步分析。如果没有一个对320达到足够的相似度得分，那么可不返回任何附加文档305，并且本发明可结束或以新文档重新开始。

在块240，可将命名实体310与附加文档中的多个词315进行比较，以获得对命名实体310的相似词315。可以想像到的是，词也可以是短语或片段或实体名称。本方法可以处理集合A_s，t中的每一对文章(D_s，D_t)320，并生成命名实体直译等同词的集合P_s，t。P_s，t中的每一对(ε_S，e_T)320由语言S的命名实体ε_S310以及语言T的权标e_T 315组成，它们是彼此的直译等同词。进一步的，由直译相似度模型MT所度量的ε_S 310和e_T 315之间的直译相似度可以至少为β＞＝0。

在伪代码中，本方法的一个实施例可如下进行：

输入：

语言(S，T)的相似文档(D_S，D_T)的集合A_ST

用于(S，T)的直译相似度模型MT

阈值得分β。

输出：来自A_ST的多个NETE(s_S，s_T)的集合P_S，T；

1

2 对于A_ST中的每一对文章(D_S，D_T)进行

3 对于D_s中的每一个命名实体s_T进行

4

//用于s_S的候选的集合

5 对于D_T中的每一个候选e_T进行

6 得分＝直译相似度(s_S，e_T，MT)；

7 如果(得分≥β)则Y_S←Y_S∪(e_T，得分)；

8 结束

9 s_T＝最好得分候选(Y_S)；

10 如果(s_T≠空)则P_ST←P_ST∪(s_S，e_T)；

11 结束

12 结束

直译相似度模型度量源命名实体310和目标语言词315之间的直译等同性的程度。一逻辑函数可被用作为直译相似度模型MT，如下：

其中是用于对(ε_S，e_T)的特征向量，而w是权重向量。直译相似度可以在范围[0..1]之内取值。由该模型所使用的特征可捕捉(ε_S，e_T)中所观察到的感兴趣的跨语言关联，诸如，特定字符序列的出现、ε_S和e_T的子串的耦合、字符对准的单调性、以及在两个串内的字符数量的不同。权重向量w是在已知直译等同词的训练语料库上差异性地学习获得的。当然，确定命名实体310和词315的相似度的其他方法是可能的且被考虑在内。

在一些实施例中，附加文档305中的所有词315都被与来自文档300的命名实体310进行比较。在另一实施例中，附加文档305被扫描并且移除许多术语不进行分析。例如，英语语言中的诸如“the”、“a”、“an”等冠词极不可能是命名实体310的一部分，因此这些词可不被分析。此外，在命名实体310中不太可能出现动词，因此动词可不被分析。还有另一个示例，形容词不太可能是命名实体310的一部分，因此形容词也可不被分析。对附加文档305中词315的进一步筛选是可能的并且被考虑在内。结果是，被与命名实体310进行比较的附加文档305中的词315的数量可以相当少且应相当有针对性。

在块250，如果定位了对于命名实体310的相似词315，那么可以将命名实体310和相似词315存储为命名实体直译。如果已经将多个词315与命名实体进行了比较，则具有最高的确定出的相似度的词315-命名实体310对可被选择为命名实体直译。如果没有任何对达到足够的相似度得分，那么不返回任何词315作为命名实体310的直译。

直译可随后被用于多种目的。在一个实施例中，翻译软件可使用直译来改进翻译。在另一实施例中，直译可被用于搜索软件以辅助搜索多种语言中的相关结果。当然，其他用途是可能的并且被考虑在内。

尽管以上正文陈述了众多不同实施例的详细描述，但是应当理解，本专利的范围由本专利结尾提出的权利要求书的言辞来限定。该详细描述应被解释为仅是示例性的，且不描述每一可能的实施例，因为描述每一可能的实施例即使不是不可能的也是不切实际的。可使用现有技术或在本专利提交日之后开发的技术来实现众多替换实施例，而这仍落入权利要求书的范围之内。

由此，可在此处所描述和示出的技术和结构上作出许多修改和变化而不脱离本权利要求的精神和范围。因此，应当理解，此处所描述的方法和装置仅是说明性的，且不限制本权利要求的范围。

Claims

1.一种挖掘多语言命名实体直译的方法，包括：

审阅第一语言的文档200；

审阅第二语言的附加文档210；

确定所述附加文档是否充分相似于所述文档220；

如果所述附加文档充分相似于所述文档230；

选择所述文档中的命名实体230；

搜索充分相似的命名实体，包括将命名实体与所述附加文档中的词进行比较240；

如果定位了对于命名实体的充分相似词，则将命名实体和相似词存储为命名实体直译250。

2.如权利要求1所述的方法，其特征在于，确定附加文档是否充分相似于文档还包括：计算跨语言相似度得分220。

3.如权利要求2所述的方法，其特征在于，使用Kullback-Leibler散度来计算所述跨语言相似度得分220。

4.如权利要求2所述的方法，其特征在于，为多个文档和附加文档对计算所述跨语言相似度得分220。

5.如权利要求4所述的方法，其特征在于，还包括：选择带有最高相似度得分的文档对220。

6.如权利要求1所述的方法，其特征在于，搜索相似的命名实体包括：为词和命名实体计算跨语言相似度得分220。

7.如权利要求1所述的方法，其特征在于，跨语言相似度得分度量了命名实体和词之间的直译等同性的程度220。

8.如权利要求7所述的方法，其特征在于，为多个命名实体对计算所述跨语言相似度得分，其中所述多个命名实体对包括命名实体以及附加文档中的词220。

9.如权利要求8所述的方法，其特征在于，所述附加文档中的词是从附加文档的一组词中顺序地选择的，其中该组不包括附加文档中的介词、动词或形容词。

10.如权利要求9所述的方法，其特征在于，具有最大的跨语言得分的命名实体对被选择为彼此的直译220。

11.一种计算机存储介质，包括用于挖掘多语言命名实体直译的计算机可执行指令，所述计算机可执行指令包括用于如下步骤的指令：

审阅第一语言的文档200；

审阅第二语言的附加文档210；

通过计算跨语言相似度得分来确定所述附加文档是否充分相似于所述文档220；

如果所述附加文档充分相似于所述文档230；

选择所述文档中的命名实体230；

12.如权利要求11所述的计算机存储介质，其特征在于，所述跨语言相似度得分是使用Kullback-Leibler散度来计算的220。

13.如权利要求12所述的计算机存储介质，其特征在于，为多个文档和附加文档对计算所述跨语言相似度得分，并选择带有最高相似度得分的文档对220。

14.如权利要求11所述的计算机存储介质，其特征在于，搜索相似的命名实体包括：为词和命名实体计算跨语言相似度得分，其中所述跨语言相似度得分度量了命名实体和词之间的直译等同性的程度220。

15.如权利要求14所述的计算机存储介质，其特征在于，为多个命名实体对计算所述跨语言相似度得分，其中所述多个命名实体对包括命名实体以及附加文档中的词220。

16.如权利要求15所述的计算机存储介质，其特征在于，所述附加文档中的词是从附加文档的一组词中顺序地选择的，其中该组不包括附加文档中的介词、动词或形容词220。

17.如权利要求16所述的计算机存储介质，其特征在于，具有最大的跨语言得分的命名实体对被选择为彼此的直译220。

18.一种计算机系统，包括用于执行用于挖掘多语言命名实体直译的计算机可执行指令的处理器、与所述处理器进行通信的存储器、以及输入输出电路，所述计算机可执行指令包括用于如下步骤的指令：

审阅第一语言的文档200；

审阅第二语言的附加文档210；

通过计算跨语言相似度得分来确定所述附加文档是否充分相似于所述文档，其中所述跨语言相似度得分是使用Kullback-Leibler散度来计算的220；

如果所述附加文档充分相似于所述文档230；

选择所述文档中的命名实体230；

19.如权利要求18所述的计算机系统，其特征在于，为多个文档和附加文档对计算所述跨语言相似度得分，并选择带有最高相似度得分的文档对。

20.如权利要求18所述的计算机系统，其特征在于，搜索相似的命名实体包括：为词和命名实体计算跨语言相似度得分，其中：

所述跨语言相似度得分度量了命名实体和词之间的直译等同性的程度220

所述附加文档中的词是从附加文档的一组词中顺序地选择的，其中该组不包括附加文档中的介词、动词或形容词220；

为多个命名实体对计算所述跨语言相似度得分，其中所述多个命名实体对包括命名实体以及附加文档中的词240。