CN102187335A - 使用比较语料库的命名实体直译 - Google Patents

使用比较语料库的命名实体直译 Download PDF

Info

Publication number
CN102187335A
CN102187335A CN2009801425260A CN200980142526A CN102187335A CN 102187335 A CN102187335 A CN 102187335A CN 2009801425260 A CN2009801425260 A CN 2009801425260A CN 200980142526 A CN200980142526 A CN 200980142526A CN 102187335 A CN102187335 A CN 102187335A
Authority
CN
China
Prior art keywords
named entity
document
language
speech
attached document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2009801425260A
Other languages
English (en)
Inventor
R·U·乌
S·克里西南
A·库马兰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN102187335A publication Critical patent/CN102187335A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • G06F40/129Handling non-Latin characters, e.g. kana-to-kanji conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

可审阅第一语言的文档以及第二语言的附加文档。可确定所述附加文档是否充分相似于所述文档。如果所述附加文档被确定为充分相似于所述文档,则可选择所述文档中的命名实体。本方法可通过将命名实体与所述附加文档中的词进行比较并确定所述命名实体和所述词是否充分相似来搜索相似的命名实体。如果定位了对于命名实体的相似词,则将命名实体和相似命名实体存储为命名实体直译。

Description

使用比较语料库的命名实体直译
背景
此背景旨在提供本专利申请的基本上下文,而不旨在描述要解决的具体问题。
命名实体构成了跨语言信息检索(CLIR)的查询术语中的很大一部分,并且对跨语言信息检索系统的性能有着实质的影响。在机器翻译(MT)中,许多词汇表外的单词是命名实体。然后,双语词典缺乏对命名实体的充分覆盖,且机器直译系统经常产生不正确的直译。
概述
提供本概述以便以简化形式介绍将在以下的详细描述中进一步描述的一些概念。本概述并不旨在标识出所要求保护的主题的关键特征或必要特征,也不旨在用于限定所要求保护的主题的范围。
公开了一种用于挖掘多语言命名实体直译的方法和系统。可以审阅第一语言的文档并可以审阅第二语言的附加文档。可以确定该附加文档是否充分相似于该文档。如果该附加文档被确定为是充分相似于该文档,则可选择该文档中的命名实体。本方法可通过将命名实体与附加文档中的单词进行比较并确定该命名实体与该单词是否充分相似来搜索相似的命名实体。如果定位了与该命名实体相似的单词,则该命名实体和相似的命名实体可被存储为命名实体直译。
附图简述
图1是便携式计算设备的示图;
图2是挖掘多语言命名实体直译的方法的示图;
图3是比较语料库的示图。
详细描述
尽管以下正文阐明众多不同实施例的详细描述,但是应当理解,该描述的法律范围由本专利的结尾所提出的权利要求书的言辞来限定。该详细描述应被解释为仅是示例性的,且不描述每一可能的实施例,因为描述每一可能的实施例即使不是不可能的也是不切实际的。可使用现有技术或在本专利的提交日之后开发的技术来实现众多替换实施例,而这仍落入权利要求书的范围之内。
还应该理解,在本专利中,除非使用句子“如此处所用,术语‘______’在此被定义为意指……”或者相似句子来明确地定义一个术语,否则不管是明确地还是含蓄地,没有限制该术语意义超出其平常或普通含义的意图,并且,这一术语不应该被解释为被限制在基于本专利的任何部分中(除了权利要求书的语言之外)所做的任何陈述的范围中。就本专利的结尾处的权利要求书中所述的任何术语在本专利中以与单独含义相一致的方式来引用而言,这仅仅是为简明起见而如此做的,使得不使读者感到混淆,且这类权利要求术语并不旨在隐含地或以其它方式限于该单独含义。最后,除非一权利要求要素是通过叙述单词“装置”和功能而没有叙述任何结构来定义的,否则任何权利要求要素的范围并不旨在基于35U.S.C.§112、第6段的应用来解释。
图1示出了可用于显示和提供本说明书所描述的用户界面的合适的计算系统环境100的示例。应当注意,计算系统环境100仅为合适的计算环境的一个示例,并不旨在对本权利要求的方法和装置的使用范围或功能提出任何限制。也不应该将计算环境100解释为对示例性操作环境100中示出的任一组件或其组合有任何依赖性或要求。
参考图1,用于实现所要求保护的方法和装置的各个框的示例性系统包括计算机110形式的通用计算设备。计算机110的各组件可包括但不限于,处理单元120、系统存储器130、以及将包括系统存储器在内的各系统组件耦合到处理单元120的系统总线121。
计算机110可经由局域网(LAN)171和/或经由调制解调器172或其他网络接口170的广域网(WAN)173,使用到诸如远程计算机180之类的一个或多个远程计算机的逻辑连接来在联网环境中操作。
计算机110通常包括各种计算机可读介质,计算机可读介质可以是可由计算机110访问的任何可用介质,并且包括易失性和非易失性介质、可移动和不可移动介质两者。系统存储器130包括易失性和/或非易失性存储器形式的计算机存储介质,如只读存储器(ROM)131和随机存取存储器(RAM)132。ROM可包括基本输入/输出系统133(BIOS)。RAM 132通常包含数据和/或程序模块,该数据和/或程序模块包括操作系统134、应用程序135、其他程序模块136和程序数据137。计算机110也可包括其他可移动/不可移动、易失性/非易失性计算机存储介质,诸如硬盘驱动器141、从磁盘152读取或向磁盘152写入的磁盘驱动器151、从光盘156读取或向光盘156写入的光盘驱动器155。硬盘驱动器141、151和155可经由接口140、150与系统总线121接口。
用户可以通过诸如键盘162和通常被称为鼠标、跟踪球或触摸垫的定点设备161之类的输入设备,向计算机20输入命令和信息。其他输入设备(未示出)可以包括话筒、操纵杆、游戏手柄、圆盘式卫星天线、扫描仪等等。这些和其他输入设备通常由耦合至系统总线的用户输入接口160连接至处理单元120,但也可以由其他接口和总线结构,诸如并行端口、游戏端口或通用串行总线(USB),来连接。监视器191或其它类型的显示设备也可经由诸如视频接口190之类的接口连接至系统总线121。除监视器以外,计算机还可以包括其他外围输出设备,如扬声器197和打印机196,它们可以通过输出外围接口190连接。
图2示出了挖掘文档以获得多语言命名实体直译的方法。命名实体(NE)构成了信息检索(IR)系统中查询术语的很大一部分,并且对它们的性能有着实质的影响。它们在跨语言信息检索(CLIR)中可能甚至更为重要。此外,命名实体在机器翻译(MT)系统的性能中也扮演了重要角色,因为许多词汇表外单词实际上是命名实体。尽管命名实体对于跨语言信息检索系统的成功是关键的,并且对机器翻译性能有着极大的影响,双语词典(不论是手制的还是统计的)仅仅提供了有限的帮助,因为它们对于命名实体无法提供充分的覆盖。每天,新的命名实体通过新闻文章和互联网而被引入到某种语言的词汇表中。替换的机器直译方法经常产生错误拼写或不正确的直译,这成为了跨语言信息检索中的噪声以及劣化了MT中的翻译质量。
最近,新的文章在多种语言中的同时可用性已经激发了对命名实体直译的有希望的替代方案的兴趣,特别是,从这些新闻语料库中挖掘命名实体直译等同词(NETE)。在形式上,比较新闻语料库是在适度长的持续时间段上一对语言中时间上对准的新闻报道。世界各地的许多新闻组织每天以多种语言制作这类新闻内容。从比较新闻语料库中挖掘出的命名实体直译等同词可对于包括CLIR和MT的许多任务以及机器直译系统而言是有价值的,以对双语词典进行有效补充。
新闻报道通常富含命名实体310,并因此,比较新闻语料库是命名实体直译等同词的良田。如果能设计出一种从这些新闻语料库中挖掘命名实体等同词的有效方法,那么在许多世界语言中的新闻语料库的庞大数量和永久可用性预示着一种用于挖掘命名实体310等同词的巨大的、有价值的、取之不尽的数据源。
从大量比较语料库中有效挖掘命名实体直译等同词提出了多个挑战:首先,对命名实体的标识和验证会需要在许多语言中可能不可获得的语言学工具和资源。第二,在比较语料库中的大量命名实体是非常稀疏的,这需要对命名实体在语料库中的频率特征的低依赖性。第三,挖掘方法必须将候选词的产生限制为挖掘较大语料库时是计算上有效的;此外,对候选词的限制将减少由假肯定导致的精度降级。最后,重要的是使用较少的语言专用知识以使得跨越多个语言的挖掘是有效的。
本申请介绍了一种被称为MINT的新颖方法,用于从大比较语料库中有效地挖掘命名实体直译等同词,解决了以上所列出的所有挑战。MINT假设命名实体识别器(NER)仅对一种语言可用,且因此可适用于即便从资源贫瘠的语言中,将与命名实体识别器可用的语言进行配对时,也可挖掘命名实体直译等同词。作为响应,本申请进行如下:
认识到如果具有相似内容的新闻文章是先验已知的,则它们可以被有效且详尽地挖掘。
经验性地论证了利用上述认识以及跨语言信息检索技术,MINT可比起现有技术好得多地进行挖掘,即便相似的文章不是先验已知的(诸如,在普通的比较语料库中)。
以不同特征论证了MINT对于多种语料库的有效性。
最后,本申请通过描述本方法在来自三种截然不同的语系(即,斯拉夫语系、印欧语系、德拉威语系)的不同语言组(即,俄语、印地语、埃纳德语、泰米尔语)之间的若干比较语料库上的性能,论证了本方法是语言不相关的。
本MINT方法基于如下关键认识:由于新闻是关于涉及人、地点、组织和其他命名实体的事件,多种语言中的带有相似内容的新闻文章必然包含高度重叠的命名实体组。报导同一新闻事件的多语言新闻文章必然以相应语言来提及命名实体,并因此可被期望产生丰富的命名实体直译等同词。图3示出了在由BBC出版的印地语和英语的一对相似文章中的命名实体直译等同词。对由同一源出版的英语和印地语的两百对相似新闻文章的分析,发现英文侧的单个单词的命名实体310中有87%会在印地语侧有至少一个等同词。MINT方法充分利用该经验性证实的认识来从这些语料库中挖掘命名实体直译等同词。
MINT可具有两个阶段。在第一阶段中,将文档进行比较,以对源侧的每一个文档标识目标侧中带有相似内容的一组文档。一旦标识出相似文档,就将它们作为输入提供给第二阶段,在第二阶段中从这些文档中挖掘命名实体直译等同词。
再次参考图2,在块200,可审阅第一语言的文档300(图3)。理想地,该文档将包含一些所关注的命名实体直译等同词。可选择该文档因为其包含麻烦的命名实体直译等同词,或者其可以是在某一天写的新闻报道中的顺序搜索。当然,选择第一语言的文档的其他方法也是可能的并且被考虑在内。
在块210,审阅第二语言的附加文档305。理想地,可以如下方式选择附加文档305,即它也将具有命名实体直译等同词。例如,如果文档是体育报道,则审阅一篇科学论文作为附加文档几乎没有意义,因为文档300和附加文档305之间存在相似命名实体直译等同词的概率可能低。
在块220,可以确定附加文档305是否相似于文档300。该确定可以多种方式来产生。在一些实施例中,使用跨语言文档相似度模型来计算跨语言相似度得分。跨语言文档相似度模型可测量源语言和目标语言的一对文档之间的相似度程度。文档和附加文章概率分布之间的负Kullback-Leibler(KL)散度可被用作为相似度度量。
在概率理论和信息理论中,Kullback-Leibler散度(也称为信息散度、信息增益、或相对熵)是两个概率分布P和Q之间差异的不可交换的度量。KL度量了使用基于P的编码时编码来自P的采样所要求的比特数与使用基于Q的编码时的预期差。通常,P表示数据、观测值的“真实”分布,或精确计算的理论分布。度量Q通常表示P的理论、模型、描述、或近似。
在本申请中,给定分别是源语言和目标语言的两篇文档DS 300、DT 305,并且Vs,Vt表示源语言和目标语言的词汇表,则两篇文档300,305之间的相似度可以由KL(Ds‖Dt)来表示:
Σ w T ∈ V T P ( w T | D s ) log p ( w T | D T ) p ( w T | D S )
其中p(w|D)是词w在文档D中的概率。因为有对寻找与给定源语言文档300相似的那些目标文档305的兴趣,因此分子可以被忽略因为其独立于目标语言文档。最后,扩展p(wt|Ds)为:
Figure BPA00001350238700062
跨语言相似度得分可以被指定为:
Figure BPA00001350238700063
Σ w T ∈ V T Σ w S ∈ V S p ( w S D S ) p ( w T | w S ) log p ( w T | D T )
在伪代码中,对文档300,305的比较可以如下进行:
输入:语言(S,T)的比较新闻语料库(CS,CT)
用于(S,T)的跨语言文档相似度模型MD
阈值得分a。
输出:来自(CS,CT)的相似文章对(DS,DT)的集合AS,T
1//相似文章(DS,DT)的集合
2 对于CS中的每一篇文章DS,进行:
3
Figure BPA00001350238700066
//DS的候选的集合
4    对于CT中的每一篇文章dT,进行:
5        得分=跨语言文档相似度(DS,dT,MD);
6        如果(得分≥α)则XS←XS∪(dT,得分);
7    结束
8    DT=最好得分候选(XS);
9 如果
Figure BPA00001350238700071
则AST←AST∪(DS,DT);
10 结束
从上述伪代码中可以得知,多个附加文档305可与文档300进行比较。在一些实施例中,对多个附加文档305可以进行预先筛选,以确保仅仅那些可能具有与命名实体310相似的词315的附加文档305被审阅。作为一个示例,关注于Michael Phelps的文档300可能是体育相关的。使用该知识,可以减少将被审阅的附加文档305的类型。可以为每一个附加文档—文档对320(原始源文档300和每一个单独附加文档305)计算相似度得分,具有最大相似度的对320可以被用作为文档—附加文档对320,以被进一步分析。
在块230,如果附加文档305充分相似于文档300,则可以选择该文档中的命名实体310。例如,游泳选手Michael Phelps可以是美国人名,并可以在许多体育文章中被容易地识别出。然而,可能在其他语言中难以创建Michael Phelps。因此,Michael Phelps可以是本方法可试图挖掘的命名实体310的一个示例。
如果多个附加文档305已经被与文档300进行了比较,那么具有最高的确定出的相似度的文档300-附加文档305对320可以被选择为所选对320,以被进一步分析。如果没有一个对320达到足够的相似度得分,那么可不返回任何附加文档305,并且本发明可结束或以新文档重新开始。
在块240,可将命名实体310与附加文档中的多个词315进行比较,以获得对命名实体310的相似词315。可以想像到的是,词也可以是短语或片段或实体名称。本方法可以处理集合As,t中的每一对文章(Ds,Dt)320,并生成命名实体直译等同词的集合Ps,t。Ps,t中的每一对(εS,eT)320由语言S的命名实体εS310以及语言T的权标eT 315组成,它们是彼此的直译等同词。进一步的,由直译相似度模型MT所度量的εS 310和eT 315之间的直译相似度可以至少为β>=0。
在伪代码中,本方法的一个实施例可如下进行:
输入:
语言(S,T)的相似文档(DS,DT)的集合AST
用于(S,T)的直译相似度模型MT
阈值得分β。
输出:来自AST的多个NETE(sS,sT)的集合PS,T
1
Figure BPA00001350238700081
2 对于AST中的每一对文章(DS,DT)进行
3   对于Ds中的每一个命名实体sT进行
4
Figure BPA00001350238700082
//用于sS的候选的集合
5      对于DT中的每一个候选eT进行
6         得分=直译相似度(sS,eT,MT);
7         如果(得分≥β)则YS←YS∪(eT,得分);
8      结束
9      sT=最好得分候选(YS);
10     如果(sT≠空)则PST←PST∪(sS,eT);
11   结束
12 结束
直译相似度模型度量源命名实体310和目标语言词315之间的直译等同性的程度。一逻辑函数可被用作为直译相似度模型MT,如下:
其中是用于对(εS,eT)的特征向量,而w是权重向量。直译相似度可以在范围[0..1]之内取值。由该模型所使用的特征可捕捉(εS,eT)中所观察到的感兴趣的跨语言关联,诸如,特定字符序列的出现、εS和eT的子串的耦合、字符对准的单调性、以及在两个串内的字符数量的不同。权重向量w是在已知直译等同词的训练语料库上差异性地学习获得的。当然,确定命名实体310和词315的相似度的其他方法是可能的且被考虑在内。
在一些实施例中,附加文档305中的所有词315都被与来自文档300的命名实体310进行比较。在另一实施例中,附加文档305被扫描并且移除许多术语不进行分析。例如,英语语言中的诸如“the”、“a”、“an”等冠词极不可能是命名实体310的一部分,因此这些词可不被分析。此外,在命名实体310中不太可能出现动词,因此动词可不被分析。还有另一个示例,形容词不太可能是命名实体310的一部分,因此形容词也可不被分析。对附加文档305中词315的进一步筛选是可能的并且被考虑在内。结果是,被与命名实体310进行比较的附加文档305中的词315的数量可以相当少且应相当有针对性。
在块250,如果定位了对于命名实体310的相似词315,那么可以将命名实体310和相似词315存储为命名实体直译。如果已经将多个词315与命名实体进行了比较,则具有最高的确定出的相似度的词315-命名实体310对可被选择为命名实体直译。如果没有任何对达到足够的相似度得分,那么不返回任何词315作为命名实体310的直译。
直译可随后被用于多种目的。在一个实施例中,翻译软件可使用直译来改进翻译。在另一实施例中,直译可被用于搜索软件以辅助搜索多种语言中的相关结果。当然,其他用途是可能的并且被考虑在内。
尽管以上正文陈述了众多不同实施例的详细描述,但是应当理解,本专利的范围由本专利结尾提出的权利要求书的言辞来限定。该详细描述应被解释为仅是示例性的,且不描述每一可能的实施例,因为描述每一可能的实施例即使不是不可能的也是不切实际的。可使用现有技术或在本专利提交日之后开发的技术来实现众多替换实施例,而这仍落入权利要求书的范围之内。
由此,可在此处所描述和示出的技术和结构上作出许多修改和变化而不脱离本权利要求的精神和范围。因此,应当理解,此处所描述的方法和装置仅是说明性的,且不限制本权利要求的范围。

Claims (20)

1.一种挖掘多语言命名实体直译的方法,包括:
审阅第一语言的文档200;
审阅第二语言的附加文档210;
确定所述附加文档是否充分相似于所述文档220;
如果所述附加文档充分相似于所述文档230;
选择所述文档中的命名实体230;
搜索充分相似的命名实体,包括将命名实体与所述附加文档中的词进行比较240;
如果定位了对于命名实体的充分相似词,则将命名实体和相似词存储为命名实体直译250。
2.如权利要求1所述的方法,其特征在于,确定附加文档是否充分相似于文档还包括:计算跨语言相似度得分220。
3.如权利要求2所述的方法,其特征在于,使用Kullback-Leibler散度来计算所述跨语言相似度得分220。
4.如权利要求2所述的方法,其特征在于,为多个文档和附加文档对计算所述跨语言相似度得分220。
5.如权利要求4所述的方法,其特征在于,还包括:选择带有最高相似度得分的文档对220。
6.如权利要求1所述的方法,其特征在于,搜索相似的命名实体包括:为词和命名实体计算跨语言相似度得分220。
7.如权利要求1所述的方法,其特征在于,跨语言相似度得分度量了命名实体和词之间的直译等同性的程度220。
8.如权利要求7所述的方法,其特征在于,为多个命名实体对计算所述跨语言相似度得分,其中所述多个命名实体对包括命名实体以及附加文档中的词220。
9.如权利要求8所述的方法,其特征在于,所述附加文档中的词是从附加文档的一组词中顺序地选择的,其中该组不包括附加文档中的介词、动词或形容词。
10.如权利要求9所述的方法,其特征在于,具有最大的跨语言得分的命名实体对被选择为彼此的直译220。
11.一种计算机存储介质,包括用于挖掘多语言命名实体直译的计算机可执行指令,所述计算机可执行指令包括用于如下步骤的指令:
审阅第一语言的文档200;
审阅第二语言的附加文档210;
通过计算跨语言相似度得分来确定所述附加文档是否充分相似于所述文档220;
如果所述附加文档充分相似于所述文档230;
选择所述文档中的命名实体230;
搜索充分相似的命名实体,包括将命名实体与所述附加文档中的词进行比较240;
如果定位了对于命名实体的充分相似词,则将命名实体和相似词存储为命名实体直译250。
12.如权利要求11所述的计算机存储介质,其特征在于,所述跨语言相似度得分是使用Kullback-Leibler散度来计算的220。
13.如权利要求12所述的计算机存储介质,其特征在于,为多个文档和附加文档对计算所述跨语言相似度得分,并选择带有最高相似度得分的文档对220。
14.如权利要求11所述的计算机存储介质,其特征在于,搜索相似的命名实体包括:为词和命名实体计算跨语言相似度得分,其中所述跨语言相似度得分度量了命名实体和词之间的直译等同性的程度220。
15.如权利要求14所述的计算机存储介质,其特征在于,为多个命名实体对计算所述跨语言相似度得分,其中所述多个命名实体对包括命名实体以及附加文档中的词220。
16.如权利要求15所述的计算机存储介质,其特征在于,所述附加文档中的词是从附加文档的一组词中顺序地选择的,其中该组不包括附加文档中的介词、动词或形容词220。
17.如权利要求16所述的计算机存储介质,其特征在于,具有最大的跨语言得分的命名实体对被选择为彼此的直译220。
18.一种计算机系统,包括用于执行用于挖掘多语言命名实体直译的计算机可执行指令的处理器、与所述处理器进行通信的存储器、以及输入输出电路,所述计算机可执行指令包括用于如下步骤的指令:
审阅第一语言的文档200;
审阅第二语言的附加文档210;
通过计算跨语言相似度得分来确定所述附加文档是否充分相似于所述文档,其中所述跨语言相似度得分是使用Kullback-Leibler散度来计算的220;
如果所述附加文档充分相似于所述文档230;
选择所述文档中的命名实体230;
搜索充分相似的命名实体,包括将命名实体与所述附加文档中的词进行比较240;
如果定位了对于命名实体的充分相似词,则将命名实体和相似词存储为命名实体直译250。
19.如权利要求18所述的计算机系统,其特征在于,为多个文档和附加文档对计算所述跨语言相似度得分,并选择带有最高相似度得分的文档对。
20.如权利要求18所述的计算机系统,其特征在于,搜索相似的命名实体包括:为词和命名实体计算跨语言相似度得分,其中:
所述跨语言相似度得分度量了命名实体和词之间的直译等同性的程度220
所述附加文档中的词是从附加文档的一组词中顺序地选择的,其中该组不包括附加文档中的介词、动词或形容词220;
为多个命名实体对计算所述跨语言相似度得分,其中所述多个命名实体对包括命名实体以及附加文档中的词240。
CN2009801425260A 2008-10-21 2009-10-20 使用比较语料库的命名实体直译 Pending CN102187335A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/255,372 2008-10-21
US12/255,372 US8560298B2 (en) 2008-10-21 2008-10-21 Named entity transliteration using comparable CORPRA
PCT/US2009/061352 WO2010048204A2 (en) 2008-10-21 2009-10-20 Named entity transliteration using corporate corpora

Publications (1)

Publication Number Publication Date
CN102187335A true CN102187335A (zh) 2011-09-14

Family

ID=42118347

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009801425260A Pending CN102187335A (zh) 2008-10-21 2009-10-20 使用比较语料库的命名实体直译

Country Status (5)

Country Link
US (1) US8560298B2 (zh)
EP (1) EP2359264A4 (zh)
JP (1) JP5497048B2 (zh)
CN (1) CN102187335A (zh)
WO (1) WO2010048204A2 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107193809A (zh) * 2017-05-18 2017-09-22 广东小天才科技有限公司 一种教材脚本生成方法及装置、用户设备

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8332205B2 (en) * 2009-01-09 2012-12-11 Microsoft Corporation Mining transliterations for out-of-vocabulary query terms
CN102682763B (zh) * 2011-03-10 2014-07-16 北京三星通信技术研究有限公司 修正语音输入文本中命名实体词汇的方法、装置及终端
EP2702508A4 (en) * 2011-04-27 2015-07-15 Vadim Berman GENERIC SYSTEM OF LANGUAGE ANALYSIS AND TRANSFORMATION
US9176936B2 (en) * 2012-09-28 2015-11-03 International Business Machines Corporation Transliteration pair matching
US9146919B2 (en) 2013-01-16 2015-09-29 Google Inc. Bootstrapping named entity canonicalizers from English using alignment models
US10672391B2 (en) * 2014-09-26 2020-06-02 Nuance Communications, Inc. Improving automatic speech recognition of multilingual named entities
US10467346B2 (en) * 2017-05-18 2019-11-05 Wipro Limited Method and system for generating named entities
US11417322B2 (en) * 2018-12-12 2022-08-16 Google Llc Transliteration for speech recognition training and scoring
US11062621B2 (en) * 2018-12-26 2021-07-13 Paypal, Inc. Determining phonetic similarity using machine learning
JP7419961B2 (ja) * 2020-05-12 2024-01-23 富士通株式会社 文書抽出プログラム、文書抽出装置、及び文書抽出方法
US20230128406A1 (en) 2021-10-27 2023-04-27 Bank Of America Corporation Recursive Logic Engine for Efficient Transliteration of Machine Interpretable Languages
US11977852B2 (en) 2022-01-12 2024-05-07 Bank Of America Corporation Anaphoric reference resolution using natural language processing and machine learning

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6104989A (en) * 1998-07-29 2000-08-15 International Business Machines Corporation Real time detection of topical changes and topic identification via likelihood based methods
JP3317341B2 (ja) * 1998-11-19 2002-08-26 日本電気株式会社 類似度計算方法及び装置、類似文書検索方法及び装置
JP3055545B1 (ja) * 1999-01-19 2000-06-26 富士ゼロックス株式会社 関連文検索装置
US20030191625A1 (en) * 1999-11-05 2003-10-09 Gorin Allen Louis Method and system for creating a named entity language model
JP3643516B2 (ja) * 2000-03-23 2005-04-27 日本電信電話株式会社 文書評価方法及び装置及び文書評価プログラムを格納した記録媒体
US7191115B2 (en) * 2001-06-20 2007-03-13 Microsoft Corporation Statistical method and apparatus for learning translation relationships among words
JP2003141109A (ja) * 2001-11-07 2003-05-16 Fuji Xerox Co Ltd 多言語文書処理装置および方法
JP3918531B2 (ja) * 2001-11-29 2007-05-23 株式会社日立製作所 類似文書検索方法およびシステム
US7143091B2 (en) 2002-02-04 2006-11-28 Cataphorn, Inc. Method and apparatus for sociological data mining
CA2475857C (en) * 2002-03-11 2008-12-23 University Of Southern California Named entity translation
US7212963B2 (en) 2002-06-11 2007-05-01 Fuji Xerox Co., Ltd. System for distinguishing names in Asian writing systems
US7194455B2 (en) * 2002-09-19 2007-03-20 Microsoft Corporation Method and system for retrieving confirming sentences
US7475010B2 (en) * 2003-09-03 2009-01-06 Lingospot, Inc. Adaptive and scalable method for resolving natural language ambiguities
GB0322600D0 (en) * 2003-09-26 2003-10-29 Univ Ulster Thematic retrieval in heterogeneous data repositories
US7478033B2 (en) * 2004-03-16 2009-01-13 Google Inc. Systems and methods for translating Chinese pinyin to Chinese characters
US20080215313A1 (en) * 2004-08-13 2008-09-04 Swiss Reinsurance Company Speech and Textual Analysis Device and Corresponding Method
US7457808B2 (en) * 2004-12-17 2008-11-25 Xerox Corporation Method and apparatus for explaining categorization decisions
JP4622589B2 (ja) * 2005-03-08 2011-02-02 ソニー株式会社 情報処理装置および方法、プログラム、並びに記録媒体
US20070011132A1 (en) * 2005-06-17 2007-01-11 Microsoft Corporation Named entity translation
US20070022134A1 (en) 2005-07-22 2007-01-25 Microsoft Corporation Cross-language related keyword suggestion
US7672833B2 (en) 2005-09-22 2010-03-02 Fair Isaac Corporation Method and apparatus for automatic entity disambiguation
US8249855B2 (en) * 2006-08-07 2012-08-21 Microsoft Corporation Identifying parallel bilingual data over a network
US7983903B2 (en) * 2007-09-07 2011-07-19 Microsoft Corporation Mining bilingual dictionaries from monolingual web pages
US8706474B2 (en) * 2008-02-23 2014-04-22 Fair Isaac Corporation Translation of entity names based on source document publication date, and frequency and co-occurrence of the entity names
US8275608B2 (en) * 2008-07-03 2012-09-25 Xerox Corporation Clique based clustering for named entity recognition system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107193809A (zh) * 2017-05-18 2017-09-22 广东小天才科技有限公司 一种教材脚本生成方法及装置、用户设备

Also Published As

Publication number Publication date
EP2359264A4 (en) 2013-07-10
WO2010048204A2 (en) 2010-04-29
US20100106484A1 (en) 2010-04-29
JP2012506596A (ja) 2012-03-15
US8560298B2 (en) 2013-10-15
JP5497048B2 (ja) 2014-05-21
EP2359264A2 (en) 2011-08-24
WO2010048204A3 (en) 2010-08-12

Similar Documents

Publication Publication Date Title
CN102187335A (zh) 使用比较语料库的命名实体直译
US8543563B1 (en) Domain adaptation for query translation
US8364462B2 (en) Cross lingual location search
Munteanu et al. Improving machine translation performance by exploiting non-parallel corpora
CN106537370B (zh) 在存在来源和翻译错误的情况下对命名实体鲁棒标记的方法和系统
US8249855B2 (en) Identifying parallel bilingual data over a network
US7574348B2 (en) Processing collocation mistakes in documents
US20070011132A1 (en) Named entity translation
US20050216253A1 (en) System and method for reverse transliteration using statistical alignment
US20070021956A1 (en) Method and apparatus for generating ideographic representations of letter based names
US20100088085A1 (en) Statistical machine translation apparatus and method
US20120109623A1 (en) Stimulus Description Collections
Cheng et al. Creating multilingual translation lexicons with regional variations using web corpora
Vilares et al. Studying the effect and treatment of misspelled queries in Cross-Language Information Retrieval
US20110178792A1 (en) Acquisition Of Out-Of-Vocabulary Translations By Dynamically Learning Extraction Rules
Marton Distributional phrasal paraphrase generation for statistical machine translation
Udupa et al. “They Are Out There, If You Know Where to Look”: Mining Transliterations of OOV Query Terms for Cross-Language Information Retrieval
Fernando et al. Exploiting bilingual lexicons to improve multilingual embedding-based document and sentence alignment for low-resource languages
Ganji et al. Novel textual features for language modeling of intra-sentential code-switching data
Oflazer Statistical machine translation into a morphologically complex language
Kalita et al. Bengali to assamese statistical machine translation using moses (corpus based)
Zhang et al. Chinese OOV translation and post-translation query expansion in chinese--english cross-lingual information retrieval
Chen et al. Translating–transliterating named entities for multilingual information access
He et al. Cross‐Language Information Retrieval
Afli et al. MultiNews: A web collection of an aligned multimodal and multilingual corpus

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20110914