CN1475907A - 基于例子的机器翻译系统 - Google Patents

基于例子的机器翻译系统 Download PDF

Info

Publication number
CN1475907A
CN1475907A CNA031457231A CN03145723A CN1475907A CN 1475907 A CN1475907 A CN 1475907A CN A031457231 A CNA031457231 A CN A031457231A CN 03145723 A CN03145723 A CN 03145723A CN 1475907 A CN1475907 A CN 1475907A
Authority
CN
China
Prior art keywords
alignment
word
words
input
block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA031457231A
Other languages
English (en)
Other versions
CN100440150C (zh
Inventor
明 周
周明
黄金霞
黄昌宁
王伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN1475907A publication Critical patent/CN1475907A/zh
Application granted granted Critical
Publication of CN100440150C publication Critical patent/CN100440150C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明通过使将要被翻译的源语言句的片段与例库中的例子的源语言部分进行匹配,来执行机器翻译。当在例库中的所有有关的例子已被识别时,这些例子经历短语对准,其中,每个例子中的目标语言句的片段与同一例子中的源语言句的匹配片段进行对准。然后,翻译部件用来自匹配例子的被调准的目标语言短语来代替源语言句中的匹配的片段。

Description

基于例子的机器翻译系统
技术领域
本发明涉及机器翻译。更具体而言,本发明涉及基于例子的机器翻译系统或翻译存储系统。
背景技术
机器翻译是一种程序,通过该程序,使用源语言的输入句(或句子片段)被提供给机器翻译系统。该机器翻译系统输出作为目标语言句或句子片段的源语言输入的一个或多个翻译。有许多不同类型的机器翻译系统,包括基于例子的机器翻译(EBMT)系统。
EBMT系统通常在执行翻译的过程中执行两项基本操作。那些操作包括匹配和传送。匹配操作为来自例子数据库的源语言输入串检索“最接近的匹配”。传送操作根据匹配的例子来生成翻译。尤其是,传送操作实际上是通过在匹配的双语例子之间执行对准来获得输入串的翻译的过程。这里所用的“对准”的意思是:决定目标语言句(或例子)中的哪个片段对应于正在被翻译的源语言句中的片段。
一些EBMT系统根据句法结构(例如,剖析树或逻辑形式)来执行类似匹配。当然,这些系统要求对输入进行语法分析,以获得句法结构。这种类型的匹配方法能够适当地使用例子,并增加例库的范围。但是,这些类型的系统在某些领域(例如,软件本地化)中会遇到困难。在软件本地化中,软件文件和代码被本地化或翻译成不同的语言。软件手册中所使用的术语使传统EBMT系统的语法分析精确性变得很低,因为甚至浅短的句法信息(例如,文字分段和语音部分标记)也经常会发生错误。
此外,这类系统的例库维护费用很高。这是因为:只要例库需要被更新,人们就应该对例库中所保存的所有例子进行分析和纠正。
其他的EBMT系统和翻译存储系统使用字符串匹配。在这些类型的系统中,通常通过使用类似度规(metric)(一般是输入片段与例子之间的编辑距离)来执行例子匹配。但是,当完整的句子或完整的句段已被匹配时,编辑距离度规只提供匹配精确性的良好指示。
过去,(尤其)为语法分析对准采用了各种不同的对准技术。大多数以前的对准技术可以被分门别类到两种不同种类之一。借助语法分析器,结构方法在源语言句或片段与目标语言句或片段之间找到对应。此外,分析源语言片段和目标语言片段,以获得成对的分析。然后,根据成对的剖析树的结构限制,来寻找结构对应。如上所述,语法分析器在某些领域(例如,技术领域)中呈现出难题。
在无语法的对准系统中,对应的寻找不是通过使用语法分析器,而是通过利用同时发生信息和几何学信息。通过检查一个主体中是否同时存在源语言片段和目标语言片段,来获得同时发生信息。几何学信息被用来限制对准空间。被定位的对应是无语法规则的。一旦提取文字对应,就将其存储在例库中。这意味着具有源语言句,并且,对应的目标语言句和文字对应信息将被保存在例库中。在翻译期间,如果一个例子的源语言方中的片段与输入串相匹配,则将只激活例库中的这个例子。
发明内容
本发明通过将源语言输入的片段与例库中的例子的部分进行匹配,来执行机器翻译。所有有关的例子在例库中被加以识别,其中,将目标语言句的片段与每个例子内的源语言句的片段进行对准。然后,翻译部件用来自各个例子的被调准的目标语言短语代替源语言输入中的匹配的片段。
在一个实施例中,根据位置记号项频率/倒置文件频率索引得分,来执行例子匹配。为源语言输入中的块计算TF/IDF加权,这些块由例子包括在内,以找到最佳的块组合。通过计算TF/IDF加权,也可以找到块组合中的每个块的最佳例子。
在一个实施例中,有关的例子一旦被识别,就被提供给对准部件。对准部件首先执行文字对准,以获得正在被考虑的例对中的源语言句与目标语言句之间的对准锚点。然后,如同所有不连续的对准那样,建立源语言句与目标语言句之间所有连续的对准。为每个对准计算得分,并将最佳的选为翻译。
根据本发明的另一个实施例,为翻译输出计算信任度规。该信任度规被用来强调需要用户注意的翻译输出的各个部分。这样,用户的注意力被吸引到可能的修改这类区域。
附图说明
图1是其中可以使用本发明的一个实施例的方框图。
图2是根据本发明的一个实施例的翻译引擎的方框图。
图3是流程图,展示了图2中所示的系统的全部操作。
图4是流程图,展示了根据本发明的一个实施例的例子匹配。
图5展示了根据本发明的一个实施例的、对应于一个输入句的多个不同的例子。
图6是数据流程图,展示了根据本发明的一个实施例的文字对准。
图7是流程图,展示了根据本发明的一个实施例的短语对准。
图8和图9展示了连续的和不连续的对准。
图10是流程图,展示了根据本发明的一个实施例的连续对准的建立。
图11是流程图,展示了根据本发明的一个实施例的不连续的对准的建立。
具体实施方式
本发明涉及一种机器翻译系统。但是,在对本发明进行更详细的描述之前,将描述其中可以使用本发明的环境的一个实施例。
图1展示了其上可以实施本发明的合适的计算系统环境100的一个例子。计算系统环境100只是合适的计算环境的一个例子,并非意在对本发明的使用或功能性的范围进行任何限制。也不应该将计算环境100解释为:具有涉及示范操作环境100中所展示的任何一个部件或部件组合的任何从属性或要求。
本发明可用于许多其他通用的或特殊用途的计算系统环境或配置。可能适用于本发明的众所周知的计算系统、环境和/或配置的例子包括(但不局限于)个人计算机、服务器计算机、手持或便携式设备、多处理器系统、基于微处理器的系统、置顶盒、可编程消费电子设备、网络PCs、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境以及类似环境。
本发明可以在正由计算机执行的计算机可执行指令的一般上下文(例如,程序模块)中来加以描述。通常,程序模块包括执行特殊任务或实施特殊的抽象数据类型的例行程序、程序、对象、部件、数据结构等。本发明也可以在分布式计算环境中得到实践,在这些环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以被定位在包括记忆存储设备的本地计算机存储介质和远程计算机存储介质中。
参考图1,用于实施本发明的示范系统包括采用计算机110形式的通用计算设备。计算机110的部件可以包括(但不局限于)处理部件120、系统存储器130,以及将各种系统部件(包括系统存储器)耦合到处理部件120的系统总线121。系统总线121可以是几种类型的总线结构(包括存储总线或存储控制器、外围总线,以及使用各种总线构造中的任何总线构造的本地总线)中的任何总线结构。举例来讲(不作限制),这类构造包括“工业标准结构”(ISA)总线、“微通道结构”(MCA)总线、“增强ISA”(EISA)总线、“视频电子标准协会”(VESA)本地总线,以及被称作“中层楼”(Mezzanine)总线的“外围部件互连”(PCI)总线。
计算机110通常包括各种计算机可读介质。计算机可读介质可以是可由计算机110进行存取的任何可用的介质,并且包括易失和非易失介质、可移动和不可移动介质。举例来讲(不作限制),计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括在用于存储信息(例如,计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中被加以执行的易失和非易失的可移动和不可移动介质。计算机存储介质包括(但不局限于)RAM、ROM、EEPROM、快闪存储器或其他存储技术、CD-ROM、数字通用磁盘(DVD)或其他光盘贮藏器、盒式磁带、磁带、磁盘贮藏器或其他磁性存储设备,或可以被用于存储所需信息并可以由计算机100进行存取的任何其他介质。通信介质通常具体表现计算机可读指令、数据结构、程序模块或调制数据信号(例如,载波WAV或其他传输机制)中的其他数据,并且包括任何信息传递介质。术语“调制数据信号”意味着一种信号,该信号的一个或多个特征用一种方式来加以设置或更改,以便对该信号中的信息进行编码。举例来讲(不作限制),通信介质包括有线介质(例如,有线网络或直线连接)和无线介质(例如,声音、FR、红外线和其他无线介质)。以上任何内容的组合也应该被包括在计算机可读介质的范围内。
系统存储器130包括采用易失和/或非易失存储器(例如,只读存储器(ROM)131和随机存取存储器(RAM)132)形式的计算机存储介质。基本输入/输出系统133(BIOS)(包含有助于在计算机110内的各个元件之间传送信息的基本例行程序)通常被存储在ROM131中。RAM132通常包含可以立即由处理部件120进行存取并/或目前正由处理部件120进行操作的数据和/或程序模块。举例来讲(不作限制),图1展示了操作系统134、应用程序135、其他程序模块136和程序数据137。
计算机110也可以包括其他可移动/不可移动的易失/非易失计算机存储介质。只通过举例,图1展示了从不可移动的非易失磁性介质读取或对其写入的硬盘驱动器141、从可移动的非易失磁盘152读取或对其写入的磁盘驱动器151,以及从可移动的非易失光盘156(例如,CD ROM或其他光学介质)读取或对其写入的光盘驱动器155。可以在示范操作环境中使用的其他可移动/不可移动的易失/非易失计算机存储介质包括(但不局限于)磁带卡、快闪存储卡、数字通用磁盘、数字视频磁带、固态RAM、固态ROM和类似介质。硬盘驱动器141通常通过不可移动的存储接口(例如,接口140)被连接到系统总线121,磁盘驱动器151和光盘驱动器155通常由可移动的存储接口(例如,接口150)连接到系统总线121。
以上所讨论的和图1中所展示的驱动器及其有关的计算机存储介质为计算机110提供计算机可读指令、数据结构、程序模块和其他数据的存储。在图1中,例如,硬盘驱动器141被展示为存储操作系统144、应用程序145、其他程序模块146和程序数据147。注意,这些部分可以等同于或不同于操作系统134、应用程序135、其他程序模块136和程序数据137。这里为操作系统144、应用程序145、其他程序模块146和程序数据147提供不同的号码,以展示:它们至少是不同的副本。
用户可以通过输入设备(例如,键盘162、话筒163)和定点设备161(例如,鼠标、跟踪球或触摸垫)将命令和信息输入计算机110。其他的输入设备(未示出)可以包括操纵杆、游戏垫、圆盘式卫星天线、扫描仪或类似设备。这些和其他的输入设备经常通过被耦合到系统总线的用户输入接口160而被连接到处理部件120,但也可以由其他接口和总线结构(例如,并行端口、游戏端口或通用串行总线(USB))来连接。监视器191或其他类型的显示设备也经由接口(例如,视频接口190)被连接到系统总线121。除监视器以外,计算机也可以包括其他的外围输出设备(例如,扬声器197和打印机196),这些设备可以通过输出外围接口190而被加以连接。
计算机110可以在使用与一台或多台远程计算机(例如,远程计算机180)的逻辑连接的联网环境中进行操作。远程计算机180可能是个人计算机、手持设备、服务器、路由器、网络PC、同位体设备或其他共同的网络节点,并且通常包括与计算机110有关的以上所描述的许多或全部元件。图1中所描绘的逻辑连接包括局域网(LAN)171和广域网(WAN)173,但也可以包括其他网络。这类联网环境在办公室、企业范围的计算机网络、内联网和互联网中很普遍。
当被用于LAN联网环境中时,计算机110通过网络接口或适配器170被连接到LAN171。当被用于WAN联网环境中时,计算机110通常包括调制解调器172或用于在WAN173(例如,互联网)上建立通信的其他装置。调制解调器172(可能是内置的,也可能是外置的)可以经由用户输入接口160或其他合适的机制被连接到系统总线121。在联网环境中,与计算机110有关的所描绘的程序模块或其各个部分可以被存储在远程记忆存储设备中。举例来讲(不作限制),图1将远程应用程序185展示为驻留在远程计算机180上。将会理解,所示的网络连接是起示范作用,也可以使用在各台计算机之间建立通信连接的其他装置。
应该注意,可以在计算机系统(例如,根据图1所描述的计算机系统)上执行本发明。但是,也可以在服务器、专用于消息处理的计算机或分布式系统(其中,可以在该分布式计算系统的不同的部分上执行本发明的不同的部分)上执行本发明。
图2是根据本发明的一个实施例的翻译引擎200的方框图。翻译引擎200接收使用源语言的输入句(或句子片段),作为源语言输入202。然后,引擎200访问例库204和项库206,并生成目标语言输出208。作为例证,目标语言输出208是将源语言输入202翻译成目标语言。
例库204是根据例子的句子对准双语主体212而从例库发生器210生成的文字对准目标语言和源语言例子的数据库。例子的对准双语主体212说明性地包含成对的句子(与使用目标语言的那些句子的翻译对准或组成对的使用源语言的句子)。例库发生器210建立被编入索引的例库204,这被称作“位置记号项频率/倒置文件频率(P-TF/IDF)索引”。
TF/IDF是成熟信息检索技术,并且是被用来启用有效率的文件检索的一种文字索引。为索引文件中的每个项(例如,词目或具有语音部分(POS)标记的项)计算TF/IDF加权(或得分)。TF/IDF加权越高,项就越重要。TF/IDF加权由以下公式确定:
TFij=log(nij+1)                        (1) IDE i = log ( N n i ) + 1 . . . . . . . . . . ( 2 ) TFIDF ij = TF ij * IDF i Σ n j ( TF ij * IDF i ) 2 . . . . . ( 3 )
其中,N=例库(EB)中的例子的数目;
ni=EB中的项i出现的总数;
nj=例子j的总项数;
nij=例子j中的项i出现的总数;
TFij=项i在例子j中的规格化频率;以及,
TFIDFij=项i在例子j中的TFIDF加权。
在本发明中使用这种系统,因为文字索引能够启用有效率的例子检索,也因为它被认为反映了应该在句子类似计算中加以考虑的因素。这类因素包括每个例子中的匹配的单词的数目(匹配的单词越多,例子加权就越高)、例子中的不同单词的不同重要性(项频率越高,项加权就越低)、给出的例子的长度(例子长度越长,例子加权就越低),以及例子中额外的或错配的单词的数目(额外的或错配的单词越多,例子加权就越小)。
为了保持输入句中所包含的每个项与它的匹配的例子之间的匹配信息,传统的TF/IDF技术被扩展到有位置记号的TF/IDF格式。这不仅反映了项加权,而且反映了每个例子中的项位置。表格1表现了项“抗病毒工具”和“的类型”的示范P-TF/IDF索引文件。
    抗病毒工具     0.33     102454     0.45     2_…
    的类型     0.22     100044     0.30     2^12_100074     0.20     7_…
                    表格1.P-TFIDF索引的例子
如表格1中所见,为了提高检索速度,本发明的一个实施例使用双项索引,而不是单项索引。在表格1中,第一列表现了被编入索引的双项单元。第二列表现了例库中的双项的平均TF/IDF加权,第三列表现了相关例子的索引号、那个例子中的双项的加权和例句中的双项的位置。例如,双项“抗病毒工具”所具有的平均TF/IDF加权是0.33。可以在由索引号102454等识别的例子中找到它。例句(它在那里被找到)中的特殊双项的加权是0.45,例句中的双项的位置是位置号2。可以两次在位置2和12处的例子号码100044中发现双项“的类型”。也可以在位置7等处的例子100074中发现它。这样,例库发生器210可以是生成如表格1中所示被编入索引的例子的任何已知例库发生器。作为例证,发生器210计算TF/IDF加权(或者,如果它们已被计算,则只将它们编入索引),并且,它也识别例句中的双项的位置。
项库206由项库发生器214建立,项库发生器214也访问双语例子主体212。项库发生器214只建立使用源语言和目标语言的个别项之间的对应。
现在,将根据图2和图3(是引擎200的全部操作的流程图)来描述引擎200的全部操作。引擎200说明性地包括预处理部件216、例子匹配部件218、短语对准部件220、翻译部件222和后处理部件224。
引擎200首先接收将要被翻译的源语言输入句202。图3中的方框226指出这一点。接下来,预处理部件216对源语言输入202执行预处理。预处理部件216说明性地识别源语言输入202中的有源形式的单词。当然,也可以执行其他预处理(例如,使用语音部分标记或其他预处理技术)。但是,也应该注意,也可以在表面形式上使用本发明,因而可能不需要预处理。无论如何,图3中的方框228都指出预处理。
在已执行预处理之后,例子匹配部件218将被预处理的源语言输入与例库204中的例子进行匹配。部件218也寻找所有的候选单词序列(或块)。然后,如同每个块的最佳例子那样,最佳的块组合被定位。图3中的方框230、232和234指出这一点,下文将根据图4和图5来更加详细地对此加以描述。
获得每个块的有关的例子236,并将其提供给短语对准部件220。然后,对应的目标语言块被定位,并用被定位的目标语言对应来取代使用源语言的匹配的短语。图3中的方框235和238指出这一点。采用这种方法的目标语言对应的定位由短语对准部件220来执行,并在下文根据图6-10被更加详细地加以展示。
源语言输入仍然具有无法通过双项匹配和短语对准阶段而被翻译的许多项。这样,翻译部件222访问项库206,以获得还没有被翻译的项的译文。部件222也用目标语言例子的有关部分来取代被调准的源语言短语。图3中的方框240指出这一点。然后,为后处理部件224提供结果。
如图3中的方框242所指出的,后处理部件224为翻译结果计算信任测度;并且,如块244所指出的,该部件可以随意地强调要求用户注意的翻译结果的相关部分。这将用户的注意力引导到相关例子(已被计算,但具有与它们有关的低信任度规)中的翻译输出。因此,目标语言输出208说明性地包括被强调以指出相关区域的翻译结果。
图4是流程图,更好地展示了例子匹配部件218的操作。首先,通过访问以上所描述的P-TF/IDF索引,从例库中获得所有有关的例子。图4中的方框250展示了这一点。为了实现这一点,例子匹配部件218只对包含双项序列(也可在输入句中找到)的例子进行定位。当然,通过访问P-TF/IDF索引,可以容易地(例如,在表格1的第三列中)找到包含双项序列的例子的标识符。然后,关于在块250中被识别的每个有关的例子,识别所选择的有关的例子与输入句之间的所有匹配块。块252指出这一点。
图5更好地展示了“匹配块”的含义。假设:输入句由7个项(项1-项7)组成,其中的每个项是这个例子中的一个单词。也假设:输入句包含4个被编入索引的双项,这些双项被识别为双项3-4(包含输入句中的项3和项4)、双项4-5(包含输入句中的项4和项5)、双项5-6(包含输入句中的项5和项6)和双项6-7(包含输入句中的项6和项7)。现在,假设在一个例子(例如,图5中的例1)中发生相同的连续序列的双项。也假设:双项序列在例1中看起来是连续的。然后,源语言输入句中的双项可以被结合到单一块(块3-7)中。
但是,输入句中的各个匹配块可以彼此重叠。例如,可见,例2包含一个连续的双项序列,该双项序列在输入句中可以作为块3-5。例3包含一个连续的双项序列,该双项序列在输入句中可以作为块5-7。例4包含一个连续的双项序列,该双项序列在输入句中可以作为块4-5;例5包含一个双项序列,该双项序列在输入句中可以作为块6-7。
所以,可以导出许多不同的块组合。这类块组合可以是块3-7、块3-5+块6-7、块4-5+块6-7或只是块5-7等。输入句可以用这些不同的方法中的任何方法来成块,并且,还可以为输入句的各个部分的翻译找到例子。这样,例子匹配部件218通过为每个块组合计算TF/IDF加权,来寻找输入句中的项的最佳块组合。图4中的方框254指出这一点。
根据本发明的一个实施例,可以将最佳的块组合问题视作最短路径定位问题。这样,可以利用动态编程算法。根据本发明的一个实施例,与每个块组合有关的“边缘长度”(或路径长度)可以由以下方程式来加以计算:
Figure A0314572300171
其中,
i=输入句中的“边缘”(块)索引号;
m=“边缘”i的起点的单词索引号;
n=“边缘”i的终点的单词索引号;
k=“边缘”i的每个项的单词索引号;
TFIDFk=EB中的项k的平均TF/IDF加权;以及,
EgeLeni=块i的加权。
所以,被识别的每个块组合的加权按以上方程式所指出的那样加以计算。这样,输入句的每个块组合将具有与之有关的加权或路径长度。
接下来,识别与每个块有关的例子,每个被识别的例子与输入句之间的类似性的计算如下: similarity j = Σ k = 1 K TFIDF kj . . . . . . . . ( 5 )
其中,
K=例子j和输入句中所包括的共同项的总数;
TFIDFkj=例子j中的项k的TFIDF加权;以及,
Similarityj=例子j与输入句之间的匹配加权。
图4中的方框256指出:寻找与每个例子有关的TFIDF加权。
这样,例子匹配部件218现在已计算了与每个不同的块组合有关的得分,输入句可以被分成这些不同的块组合。部件218也已计算了与不同的块组合中的被识别的每个块有关的每个例子的得分。然后,部件218可以将例子清单削减到具有足够的类似得分或与块组合得分相结合的足够的类似得分的例子,并将图2中的有关的例子236提供给短语对准部件220。
可见,短语对准部件220因而将例子接受作为输入,实际上,该例子是包括一个源句(或片段)和一个目标句(或片段)的句子(或文本片段)对,此外,边界信息指定与将要被翻译的输入句相匹配的那个例子中的源句的部分。这样,短语对准部件220的工作是:将所给出的例子的目标句中可能的翻译与同一个例子的源句中的匹配的短语或单词序列进行对准,并且,将最佳的目标片段选为源句的那个匹配部分的翻译,因此也作为输入句的匹配部分(在将要被翻译的输入句与例子中的源句之间匹配)的翻译。为了实现这一点,短语对准部件220首先建立一系列单词对准,作为短语对准过程中的锚。然后,根据这些锚,部件220尝试为例子中的源句的匹配部分寻找同一个例子内的目标句中的对应的短语。
图6是流程图,更好得展示了根据本发明的一个实施例的、用于获得锚的单词对准过程。图6示出:在单词对准过程中,正在考虑中的一个例子(包括源语言输入句301和目标语言句300)被输入到作为双语词典调准器302而进行操作的第一个对准部件。调准器302描述使用不同语言的两个单词如何能够被彼此翻译。有众多不同的方法已实现了这一点。评估这种翻译信任的一些度规包括翻译概率(例如,见Brown等人的《 统计机器翻译的数学:参 数估计》,“计算语言学”,19(2),263-311页(1993年))、骰子系数(例如,见Ker等人的《 用于单词对准的基于类别的方法》,“计算语言学”,第23卷,第2号,313-343页(1997年))、共有信息(例如,见Broun、P.F.的《 用于语言翻译的统计方法》,COLING-88,第1卷,71-76卷(1998年))和t得分(例如,见Pascale的《 用于从过分渲染的平行主体中寻找名词和适 当的名词翻译的一种样式匹配方法》,“计算语言学”,21(4),226-233页(1995年))。
这样,双语词典调准器302建立了高信任单一单词锚点,这些锚点是从例子300的源句到目标句的直接的单词翻译。这些以后在短语对准期间加以使用。
接下来,在例子300的目标句使用不分段的语言(例如,汉语)的情况下,将执行单词分段。可以用众多不同的已知方法中的任何方法来实现这一点,本发明不局限于任何特殊的单词分段技术。图6中的方框304指出例子300的目标句的单词分段。
然后,使用基于被增强的双语词典的调准器306,这不仅利用根据双语词典而加以计算的单词类似性,而且使用失真模型来描述源句中的一个位置能够被调准到目标句中的另一个位置的可能性是多少。关于双语词典调准器302,可以使用众多不同的失真模型。一些这类的模型包括绝对失真(例如,在以上所引用的Brown的文章中)、相对偏移(例如,在Brown的文章中),以及基于隐藏markoov模型(HMM)的系统和结构限制系统(也见Brown的文章)。
甚至在单词对准和失真建模之后,也将会存在一些局部的对准。所以,访问单语词典,以便将字符合并成单词并将单词合并成短语。图6中的方框308指出这一点。换言之,即使双语词典很大,它的范围由于基本的语言复杂性也仍然很受限制。通过使用单语词典,可以将一些分开的单词(不应该分开,因为它们是短语的一部分)识别为短语。这样,可执行短语合并。
同样,可以使用任何已知的统计对准部件,以便调准未被调准的单词。块310指出这一点。这类统计对准技术是已知的,并且,只为这些技术提供一个门限,以限制统计对准空间。
通过将所有这些项目考虑在内,单词对准结果312由单词对准系统输出。
在图6所示的实施例中,单词对准机制包括来自双语词典调准备器302的翻译信息、失真调准器模型306、短语合并部件308和统计对准部件310,也可以使用其他的信息源。例如,以上所述的t得分可以被用作上下文信息。无论如何,单词对准结果312都提供锚点,这些锚点反映了源语言句301与目标语言句300之间的高信任对准。这些锚点在短语对准期间加以使用。
图7是流程图,表示根据本发明的短语对准的一个实施例。短语对准部件接收例子的单词对准结果312以及从例子匹配部件218中生成的边界信息(识别例子的源句中的匹配的块的边界),作为输入。
根据这些输入,短语对准部件寻找对应于源语言句中的匹配的块的所有可能的目标语言候选片段。图7中的方框350指出这一点。接下来,短语对准部件为被识别的每个候选片段计算得分。块352指出这一点。短语对准部件从所计算的得分中选择最佳候选者或预定数量的候选者,作为翻译输出。图7中的方框354指出这一点。
现在,更加详细地描述这些步骤。在如步骤350中寻找所有可能的目标语言候选片段的过程中,本发明将此任务分成两个部分。本发明寻找所有可能的连续的候选片段,以及所有可能的不连续的候选片段。图8和图9展示了连续的和不连续的片段。
如果连续的源语言句片段始终对应于连续的目标语言片段,则短语对准的任务会很容易。但是,情况并不总是如此。例如,在诸如英语和汉语的语言中,经常会出现图8中所示的情况。图8表现了包括单词(或单词序列)A、B、C和D的一个源语言句。图8也表现了包括目标语言单词(或单词序列)E、F、G和H的一个对应的目标语言例句(或其一个部分)。出于本讨论的目的,连续的片段被定义如下:
假设:SFRAG是源语言句中的片段,TFRAG是目标语言句中的片段。如果SFRAG中所有被调准的单词与TFRAG中的单词对准,并且只与TFRAG中的单词对准,那么,SFRAG到TFRAG是连续的,反之亦然。否则,它是不连续的。
在图8中,例如,目标语言片段EFGH不是片段ABC的连续片段。这是因为:ABC在源语言句中是连续的,而对应于ABC的EFH在目标语言句中不是连续的。相反,目标语言句中的单词(或单词序列)G对应于源语言句中的单词(或单词序列)D。
如图9所示,为了配合这些困难,本发明的一个实施例将不同的情况分成两个不同的种类。图9表现了包含单词(或单词序列)A-F的源语言句和包含单词(或单词序列)G-N的目标语言句的两个实例。在第一个实例中,可见,正在为其寻找翻译的英语语言片段(CD)对应于所展示的目标例子中的一个连续的目标语言片段(片段HIJ)。这被称作“连续”。
在第二个实例中,连续的源语言片段AB对应于不连续的目标语言片段(GHLM)。但是,越界的目标语言单词(或单词序列)IJK也对应于连续的源语言片段DE。这被称作“不连续”。这样,本发明建立所有可能的连续片段,然后建立所有可能的不连续的片段。
图10是流程图,展示了本发明的一个实施例,其中,为源语言句中的一个片段识别目标语言句中所有可能的连续片段。首先,源语言句和目标语言句(或被预处理的句子)跟单词对准结果312一起被接收。图10中的方框370指出这一点。
也接收为其寻求对准的源语言片段的边界信息。(a,b)指出本例中的边界信息,其中,a和b是源语言句中的单词位置。这样,如果在图9中,为其寻求对准的源语言句中的片段是CD,并且,每个字母代表一个单词,那么,边界信息将会是(3,4),因为单词C处于单词位置3,单词D处于源语言句中的单词位置4。图10中的方框372指出:接收边界信息。
然后,对准部件在目标语言句中找到一个单词组(SET),它根据单词对准结果,与源语言句中具有边界a、b的片段进行对准。图10中的方框374指出这一点。
然后,短语对准部件找到目标句中的(SET)中的单词的最左边的单词位置(c)和最右边的单词位置(d),所以,目标语言句子片段(c,d)是可与源语言片段对准的目标语言句中的可能性最小的对准(MinPA)。块376指出这一点。接下来,MinPA的目标语言片段边界向左、右扩展,直到在每个方向上遇到不一致的对准锚点(示出与a、b以外的SL输入中的单词对准的锚点)为止。左边界和右边界分别由目标语言句内的一个单词来移动,直到左边界或右边界(正在被移动)遇到不一致的锚点为止。那时,终止片段边界在那个方向上的扩展。这样,新的目标语言边界将会是(e,f),并且将会定义可能性最大的对准(MaxPA)。块378指出这一点。
接下来,获得一套单词AP。AP是MinPA与MaxPA之间所有可能的连续子串,它们都必须包含MinPA。“连续”意味着连续的子串内不存在单词间隙。块380指出这一点。然后,为源语言句中的给出的片段返回与MaxPA(与AP联合)联合的那套MinPA,作为目标语言句中所有可能的连续对准。块382指出这一点。
然后,为所有的连续对准评分(下文更加详细地对其加以讨论)。块384指出:为对准评分。为源语言输入中的每个片段执行获得所有可能的连续对准这个步骤。
图11是流程图,展示了如何寻找所有可能的不连续的对准。“不连续的对准”又意味着诸如图8中所示的对准和图9中的第二个实例(其中,连续的源片段对应于不连续的目标片段)。
为了获得所有可能的连续片段,短语对准部件首先接收如根据图10中的方框370和372所描述的输入和边界。接下来,系统在例(或目标)句中找到单词组(SET1),它根据单词对准结果与源语言句中所选择的片段(a,b)进行对准。这与图10中的方框374所指出的相同。
接下来,短语对准部件在源句中找到单词组(SET2),它与SET1的一个部分对准,但在源语言句中的(a,b)的范围以外。图11中的方框386指出这一点。
接下来,确定SET2在源语言句中是否是连续的。如果不是连续的,则不计算短语对准。块388和390指出这一点。但是,如果SET2在源语言句中是连续的(意味着SET2中没有单词间隙),那么,继续在块392处进行处理。
在块392中,短语对准部件获得连续的单词组(SET3),该单词组包含源语言句中的SET2。接下来,获得SET3的所有可能的对准。使用根据图10所描述的算法,来说明性地实现这一点。图11中的方框394指出:寻找SET3的所有可能的对准。
然后,为所有对准评分,并选择SET3的最佳的对准SET4。块396指出这一点。
然后,对SET中的最左边的位置(i)和最右边的位置(j)进行定位。块398指出这一点。然后,从序列(i,j)中除去SET4。块400指出这一点。
然后,将单词序列(i,j)减去SET4识别为(a,b)的MinPA。块402指出这一点。
然后,扩展MinPA,以获得如根据图10中的方框378所讨论的MaxPA。图11中的方框404指出这一点。
再次获得AP,作为MinPA与MaxPA之间所有可能的连续子串,它们都包含MinPA。图11中的方框406指出这一点。然后,如块408所指出的那样,返回MinPA、MaxPA和AP的联合。然后,如块410所指出的那样,为每个可能的不连续的对准评分。
根据本发明的一个实施例,以下方程式指出与每个可能的对准有关的得分:
Wdeight=P(m|l)P(Δk|ml)P(Δj|ml)(6)
其中,
m=SL片段的长度;
l=TL片段的长度;
k=SL句子中的内容单词的数目;
j=SL句子中的功能单词的数目;
Δj=|SL的TL-j的j|;以及,
Δk=|SL的TL-k的k|。
但是,也可以使用其他的评分技术。
最后,在用被调准的目标语言单词和短语来取代源语言单词和短语之后,计算每个翻译输出的信任等级。可以由系统200中的翻译部件222或后处理部件224来实现这一点。无论如何,在一个实施例中,翻译信任等级被确定如下:
ConL=c1×log(AlignCon×10)+c2×log(TransPercent×10)
      +c3×log(10/Example_num)+c4×log(10/Valid_block_num)    (7)
Figure A0314572300231
其中,
ConL:翻译信任等级;
c1,c2…,c4:常数,
AlignCon:对准信任等级;
TransPercent:被加权的翻译百分比;
Example_num:所使用的例子号码;
Valid_block_num:输入串翻译中的片段号码;
PhrSL:与所给出的输入串有关的例子中的SL短语;
PhrTL:例子的翻译中的TL对应;
|PhrTL|:PhrTL的单词数目;
Ci…j:SL单词i与TL单词j之间的连接;以及,
Conf(Ci…j):单词对准的信任等级。
这样,翻译信任等级建立在对准信任等级、被调准的单词的信任度以及目标语言对应中的被调准和未被调准的单词的数目的基础上。系统用信任等级为输出部分做标记,该信任等级允许用户识别用于特殊推敲的低信任翻译输出以及要求用户注意的各个区域。
这样,可见,本发明使用一种例子匹配方法,与原先的系统相比,该方法在质量和速度方面增强了例子匹配和检索性能。同样,本发明使用一种单词/短语对准技术和一种得分功能,用于在短语对准(与原先的系统相比,也提高了精确性和速度)中选择最佳的候选者。最后,本发明使用一种翻译信任预测方法,该方法指出机器所生成的翻译的质量,并且还强调供用户推敲的一些翻译部分。
虽然已参考特殊的实施例描述了本发明,但是,精通该技术领域的工作人员将会认识到:在不脱离本发明的精神和范围的前提下,可以在形式和细节上进行更改。

Claims (33)

1.将源语言(SL)输入机器翻译成使用目标语言(TL)的翻译输出的一种方法,其特征在于,包括:
将SL输入的片段与例库中的例子的SL片段进行匹配;
将SL输入中所有匹配的块识别为SL输入中的一组项,这组项由例子中的一个或多个SL片段匹配;
选择匹配的块的块组合,以包含SL输入的一个或多个片段;
关于所选择的块组合中的每个块,识别与该块有关的例子;
将所识别的例子的TL部分与所识别的例子的SL部分进行对准,所识别的例子的SL部分与SL输入的一个或多个片段相匹配;以及,
根据被调准的部分来提供翻译输出。
2.如权利要求1所述的方法,其特征在于,提供翻译输出包括:
输出多个可能的翻译输出。
3.如权利要求2所述的方法,其特征在于,还包括:
为每个翻译输出计算信任测度。
4.如权利要求3所述的方法,其特征在于,计算包括:
作为翻译信任等级的信任测度的计算如下:
ConL=c1×log(AlignCon×10)+c2×log(TransPercent×10)
      +c3×log(10/Example_num)+c4×log(10/Valid_block_num)    (7)
其中,
ConL:是翻译信任等级;
c1,c2...,c4:是常数,
AlignCon:是对准信任等级;
TransPercent:是被加权的翻译百分比;
Example_num:是识别被识别的例子的所用例子号码;
Valid_block_num:是正在被考虑的可能的TL翻译中的片段号码;
PhrSL:是与所给出的输入串有关的SL短语;
PhrTL:是SL输入的可能的翻译中的TL对应;
|PhrTL|:是PhrTL的单词数目;
Ci...j:是SL单词i与TL单词j之间的连接;以及,
Conf(Ci...j):是单词对准的翻译信任等级。
5.如权利要求3所述的方法,其特征在于,还包括:
识别要求用户注意的翻译输出的各个部分。
6.如权利要求1所述的方法,其特征在于,将SL输入的匹配片段与例子的片段进行匹配包括:
识别SL输入中的双项;以及,
访问例库的双项索引,它包括例子标识符,这些标识符用于识别包含被编入索引的双项的例子。
7.如权利要求6所述的方法,其特征在于,访问双项索引包括:
访问例库的双项索引,它包括单词位置信息,该信息指出双项所驻留的例子中的单词位置。
8.如权利要求7所述的方法,其特征在于,访问双项索引包括:
访问例库的双项索引,它包括一个得分,该得分指出例子中的双项的项频率/倒置文件频率(TF/IDF)得分。
9.如权利要求8所述的方法,其特征在于,访问双项索引包括:
访问例库的双项索引,它包括一个主体得分,该主体得分指出例库范围的双项的代表性TF/IDF得分。
10.如权利要求1所述的方法,其特征在于,识别与一个块有关的例子包括:
计算对应于包含该块的每个例子的块得分;以及,
根据块得分来识别与该块有关的例子。
11.如权利要求10所述的方法,其特征在于,计算块得分包括:
块得分的计算如下: similarity j = Σ k = 1 K TFIDF kj . . . . . . . . ( 5 )
其中,
K=例子j和SL输入中所包括的共同项的总数;
TFIDFkj=例子j中的项k的TF/IDF加权;以及,
Similarityj=例子j与SL输入之间的匹配加权。
12.如权利要求1所述的方法,其特征在于,选择块组合包括:
为被识别的块的不同的组合计算块组合得分;以及,
根据块组合得分来识别N个最佳的块组合。
13.如权利要求12所述的方法,其特征在于,计算块组合得分包括:
其中,
i=SL输入中的“边缘”(块)索引号;
m=“边缘”i的起点的单词索引号;
n=“边缘”i的终点的单词索引号;
k=“边缘”i的每个项的单词索引号;
TFIDFk=例库中的项k的平均TF/IDF加权;以及,
EdgeLeni=块i的加权。
14.将源语言(SL)输入机器翻译成使用目标语言(TL)的翻译输出的一种方法,其特征在于包括:
从例库中选择对应于SL输入的片段的例子;
将所选择的例子的TL部分与SL部分进行对准,这些SL部分对应于SL输入的片段,关于每个例子,该对准的方式是:
执行单词对准,以识别SL部分与TL部分之间的锚对准点;
根据锚对准点来寻找TL部分与SL部分之间连续的对准;
寻找TL部分与SL部分之间不连续的对准;以及,
将SL输入翻译成来自连续的和不连续的对准的翻译输出。
15.如权利要求14所述的方法,其特征在于,包括:
根据连续的和不连续的对准来生成多个翻译输出;
为每个翻译输出计算得分;以及,
至少选择一个翻译输出。
16.如权利要求15所述的方法,其特征在于,还包括:
为所选择的翻译输出计算信任测度;以及,
识别具有低于门限等级的信任测度的翻译输出的一个或多个部分。
17.如权利要求14所述的方法,其特征在于,寻找连续的对准包括:
获得指出SL输入中的单词位置的SL边界信息,这些单词位置为将要被调准的SL部分的片段定义边界。
18.如权利要求17所述的方法,其特征在于,寻找连续的对准还包括:
根据锚对准点来获得TL边界信息,该信息可识别与SL部分对准的例子的TL部分中的单词的边界位置,以获得可能性最小的对准(MinPA)。
19.如权利要求18所述的方法,其特征在于,寻找连续的对准还包括:
通过扩展由TL边界信息识别的边界,来识别可能性最大的对准(MaxPA),直到达到不一致的对准锚点为止。
20.如权利要求19所述的方法,其特征在于,寻找连续的对准还包括:
生成MinPA与MaxPA之间所有的对准,它们都包括MinPA。
21.如权利要求17所述的方法,其特征在于,寻找所有不连续的对准包括:
根据锚对准点,来识别对应于将要被调准的SL部分的例子的TL部分中的单词组。
22.如权利要求21所述的方法,其特征在于,寻找所有不连续的对准还包括:
识别例子的SL部分中的单词组,它与TL部分中的单词组的一个部分对准,但不在SL边界信息的范围内。
23.如权利要求22所述的方法,其特征在于,寻找所有不连续的对准还包括:
如果SL部分中的单词组是连续的,则为例子的SL部分和TL部分中的单词组寻找所有可能的连续对准。
24.如权利要求22所述的方法,其特征在于,寻找所有不连续的对准还包括:
从TL部分中的单词组中除去与SL部分中的单词对准的单词,以获得可能性最小的对准(MinPA),SL部分中的单词不在SL边界信息的范围内。
25.如权利要求24所述的方法,其特征在于,寻找所有不连续的对准还包括:
扩展MinPA的边界,直到达到不一致的对准锚点为止,以获得可能性最大的对准(MaxPA)。
26.如权利要求25所述的方法,其特征在于,寻找所有不连续的对准还包括:
从MinPA与MaxPA之间的TL部分中生成连续的子串,它们都包括MinPA。
27.如权利要求14所述的方法,其特征在于,执行单词对准包括:访问双语词典,以获得词典信息,该信息指出例子的SL部分与TL部分之间的单词翻译。
28.如权利要求27所述的方法,其特征在于,单词对准还包括:
如果例子的TL部分使用不分段的语言,则对例子执行单词分段。
29.如权利要求27所述的方法,其特征在于,单词对准还包括:
应用失真模型调准器,以便根据单词位置将SL部分中的单词与TL部分中的单词进行对准。
30.如权利要求29所述的方法,其特征在于,单词对准还包括:
访问单语词典,以便将TL部分中的字符合并成单词,并将TL部分中的单词合并成短语。
31.如权利要求30所述的方法,其特征在于,单词对准还包括:
在SL部分和TL部分中的还未被调准的单词之间执行统计对准。
32.基于例子的机器翻译系统中的一种单词对准系统,该基于例子的机器翻译系统根据例库中的例子将源语言(SL)输入翻译成使用目标语言(TL)的翻译输出,其特征在于,包括:
双语词典调准器,它访问双语言词典,以获得词典信息,该信息指出所选择的例子的SL部分与TL部分之间的单词翻译;
失真模型调准器,它被耦合到双语词典,并被配置成:根据单词位置将SL部分中的单词与所选择的例子的TL部分中的单词进行对准;
单语词典调准器,它被耦合到失真模型调准器,并且被配置成:将TL部分中的字符合并成单词,并将TL部分中的单词合并成短语;以及,
统计调准器,它被耦合到单语词典调准器,并被配置成:在例子的SL部分和TL部分中的还未被调准的单词之间执行统计对准。
33.如权利要求32的单词对准系统,其特征在于,还包括:
单词分段器,它被耦合到双语词典调准器,并被配置成:对例子执行单词分段。
CNB031457231A 2002-06-28 2003-06-30 基于例子的机器翻译系统和方法 Expired - Fee Related CN100440150C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/185,376 US7353165B2 (en) 2002-06-28 2002-06-28 Example based machine translation system
US10/185,376 2002-06-28

Publications (2)

Publication Number Publication Date
CN1475907A true CN1475907A (zh) 2004-02-18
CN100440150C CN100440150C (zh) 2008-12-03

Family

ID=29779611

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB031457231A Expired - Fee Related CN100440150C (zh) 2002-06-28 2003-06-30 基于例子的机器翻译系统和方法

Country Status (3)

Country Link
US (2) US7353165B2 (zh)
JP (2) JP4694111B2 (zh)
CN (1) CN100440150C (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1661593B (zh) * 2004-02-24 2010-04-28 北京中专翻译有限公司 一种计算机语言翻译方法及其翻译系统
CN101187923B (zh) * 2006-11-23 2012-02-22 夏普株式会社 机器翻译方法、翻译设备、选择双语文本的方法和设备
CN101595474B (zh) * 2007-01-04 2012-07-11 思解私人有限公司 语言分析
CN102591898A (zh) * 2011-01-05 2012-07-18 富士施乐株式会社 双语信息检索设备、翻译设备及双语信息检索方法
CN104246769A (zh) * 2012-04-11 2014-12-24 微软公司 用于促成数据发现的伪文档
CN105159890A (zh) * 2014-06-06 2015-12-16 谷歌公司 使用神经网络产生输入序列的表示
CN107818086A (zh) * 2016-09-13 2018-03-20 株式会社东芝 机器翻译方法和装置
CN112074840A (zh) * 2018-05-04 2020-12-11 瑞典爱立信有限公司 以多种语言形式的替代文本来丰富实体的方法和装置

Families Citing this family (113)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4718687B2 (ja) * 1999-03-19 2011-07-06 トラドス ゲゼルシャフト ミット ベシュレンクテル ハフツング ワークフロー管理システム
US20060116865A1 (en) 1999-09-17 2006-06-01 Www.Uniscape.Com E-services translation utilizing machine translation and translation memory
US7904595B2 (en) 2001-01-18 2011-03-08 Sdl International America Incorporated Globalization management system and method therefor
US8868543B1 (en) * 2002-11-20 2014-10-21 Google Inc. Finding web pages relevant to multimedia streams
JP2005100335A (ja) * 2003-09-01 2005-04-14 Advanced Telecommunication Research Institute International 機械翻訳装置、機械翻訳コンピュータプログラム及びコンピュータ
JP3919771B2 (ja) * 2003-09-09 2007-05-30 株式会社国際電気通信基礎技術研究所 機械翻訳システム、その制御装置、及びコンピュータプログラム
CA2549769A1 (en) * 2003-12-15 2005-06-30 Laboratory For Language Technology Incorporated System, method, and program for identifying the corresponding translation
US7983896B2 (en) 2004-03-05 2011-07-19 SDL Language Technology In-context exact (ICE) matching
JP4076520B2 (ja) * 2004-05-26 2008-04-16 富士通株式会社 翻訳支援プログラムおよび単語対応付けプログラム
GB2415518A (en) * 2004-06-24 2005-12-28 Sharp Kk Method and apparatus for translation based on a repository of existing translations
JP4473702B2 (ja) * 2004-11-02 2010-06-02 株式会社東芝 機械翻訳システム、機械翻訳方法及びプログラム
US7680646B2 (en) * 2004-12-21 2010-03-16 Xerox Corporation Retrieval method for translation memories containing highly structured documents
US20060206797A1 (en) * 2005-03-08 2006-09-14 Microsoft Corporation Authorizing implementing application localization rules
US8219907B2 (en) * 2005-03-08 2012-07-10 Microsoft Corporation Resource authoring with re-usability score and suggested re-usable data
WO2007004391A1 (ja) * 2005-07-06 2007-01-11 Matsushita Electric Industrial Co., Ltd. 対話支援装置
US10319252B2 (en) 2005-11-09 2019-06-11 Sdl Inc. Language capability assessment and training apparatus and techniques
US8041556B2 (en) * 2005-12-01 2011-10-18 International Business Machines Corporation Chinese to english translation tool
WO2007068123A1 (en) * 2005-12-16 2007-06-21 National Research Council Of Canada Method and system for training and applying a distortion component to machine translation
US7536295B2 (en) * 2005-12-22 2009-05-19 Xerox Corporation Machine translation using non-contiguous fragments of text
JP2007233486A (ja) * 2006-02-27 2007-09-13 Fujitsu Ltd 翻訳者支援プログラム,翻訳者支援装置及び翻訳者支援方法
US7711546B2 (en) * 2006-04-21 2010-05-04 Microsoft Corporation User interface for machine aided authoring and translation
US7827155B2 (en) * 2006-04-21 2010-11-02 Microsoft Corporation System for processing formatted data
US8171462B2 (en) * 2006-04-21 2012-05-01 Microsoft Corporation User declarative language for formatted data processing
US20070250528A1 (en) * 2006-04-21 2007-10-25 Microsoft Corporation Methods for processing formatted data
US8549492B2 (en) * 2006-04-21 2013-10-01 Microsoft Corporation Machine declarative language for formatted data processing
US9020804B2 (en) * 2006-05-10 2015-04-28 Xerox Corporation Method for aligning sentences at the word level enforcing selective contiguity constraints
US7542893B2 (en) * 2006-05-10 2009-06-02 Xerox Corporation Machine translation using elastic chunks
US7725306B2 (en) * 2006-06-28 2010-05-25 Microsoft Corporation Efficient phrase pair extraction from bilingual word alignments
US20080019281A1 (en) * 2006-07-21 2008-01-24 Microsoft Corporation Reuse of available source data and localizations
US8521506B2 (en) * 2006-09-21 2013-08-27 Sdl Plc Computer-implemented method, computer software and apparatus for use in a translation system
JP4481972B2 (ja) 2006-09-28 2010-06-16 株式会社東芝 音声翻訳装置、音声翻訳方法及び音声翻訳プログラム
US9235573B2 (en) 2006-10-10 2016-01-12 Abbyy Infopoisk Llc Universal difference measure
US8145473B2 (en) 2006-10-10 2012-03-27 Abbyy Software Ltd. Deep model statistics method for machine translation
US9495358B2 (en) 2006-10-10 2016-11-15 Abbyy Infopoisk Llc Cross-language text clustering
US9633005B2 (en) 2006-10-10 2017-04-25 Abbyy Infopoisk Llc Exhaustive automatic processing of textual information
US8195447B2 (en) 2006-10-10 2012-06-05 Abbyy Software Ltd. Translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions
JP5082374B2 (ja) * 2006-10-19 2012-11-28 富士通株式会社 フレーズアラインメントプログラム、翻訳プログラム、フレーズアラインメント装置およびフレーズアラインメント方法
US8788258B1 (en) 2007-03-15 2014-07-22 At&T Intellectual Property Ii, L.P. Machine translation using global lexical selection and sentence reconstruction
JP4971844B2 (ja) * 2007-03-16 2012-07-11 日本放送協会 用例データベース作成装置及び用例データベース作成プログラム、並びに、翻訳装置及び翻訳プログラム
US8959011B2 (en) * 2007-03-22 2015-02-17 Abbyy Infopoisk Llc Indicating and correcting errors in machine translation systems
US8290967B2 (en) * 2007-04-19 2012-10-16 Barnesandnoble.Com Llc Indexing and search query processing
US8594992B2 (en) * 2008-06-09 2013-11-26 National Research Council Of Canada Method and system for using alignment means in matching translation
US20090326916A1 (en) * 2008-06-27 2009-12-31 Microsoft Corporation Unsupervised chinese word segmentation for statistical machine translation
US9176952B2 (en) * 2008-09-25 2015-11-03 Microsoft Technology Licensing, Llc Computerized statistical machine translation with phrasal decoder
US20100082324A1 (en) * 2008-09-30 2010-04-01 Microsoft Corporation Replacing terms in machine translation
GB2468278A (en) 2009-03-02 2010-09-08 Sdl Plc Computer assisted natural language translation outputs selectable target text associated in bilingual corpus with input target text from partial translation
US9262403B2 (en) 2009-03-02 2016-02-16 Sdl Plc Dynamic generation of auto-suggest dictionary for natural language translation
JP5257189B2 (ja) * 2009-03-25 2013-08-07 富士通株式会社 検索結果出力プログラム、検索結果出力装置、および検索結果出力方法
US8185373B1 (en) * 2009-05-05 2012-05-22 The United States Of America As Represented By The Director, National Security Agency, The Method of assessing language translation and interpretation
US8874426B2 (en) * 2009-06-30 2014-10-28 International Business Machines Corporation Method for translating computer generated log files
CN101996166B (zh) * 2009-08-14 2015-08-05 张龙哺 双语句对模式化记录方法以及翻译方法和翻译系统
WO2011029011A1 (en) * 2009-09-04 2011-03-10 Speech Cycle, Inc. System and method for the localization of statistical classifiers based on machine translation
TW201113870A (en) * 2009-10-09 2011-04-16 Inst Information Industry Method for analyzing sentence emotion, sentence emotion analyzing system, computer readable and writable recording medium and multimedia device
US10417646B2 (en) 2010-03-09 2019-09-17 Sdl Inc. Predicting the cost associated with translating textual content
CN102214166B (zh) * 2010-04-06 2013-02-20 三星电子(中国)研发中心 基于句法分析和层次模型的机器翻译系统和方法
US20110264437A1 (en) * 2010-04-26 2011-10-27 Honeywell International Inc. System and method for translating an english language message into another language
US8375061B2 (en) * 2010-06-08 2013-02-12 International Business Machines Corporation Graphical models for representing text documents for computer analysis
US8554558B2 (en) * 2010-07-12 2013-10-08 Nuance Communications, Inc. Visualizing automatic speech recognition and machine translation output
US20120143593A1 (en) * 2010-12-07 2012-06-07 Microsoft Corporation Fuzzy matching and scoring based on direct alignment
US20120158398A1 (en) * 2010-12-17 2012-06-21 John Denero Combining Model-Based Aligner Using Dual Decomposition
US9128929B2 (en) 2011-01-14 2015-09-08 Sdl Language Technologies Systems and methods for automatically estimating a translation time including preparation time in addition to the translation itself
US9547626B2 (en) 2011-01-29 2017-01-17 Sdl Plc Systems, methods, and media for managing ambient adaptability of web applications and web services
US10657540B2 (en) 2011-01-29 2020-05-19 Sdl Netherlands B.V. Systems, methods, and media for web content management
US10580015B2 (en) 2011-02-25 2020-03-03 Sdl Netherlands B.V. Systems, methods, and media for executing and optimizing online marketing initiatives
US10140320B2 (en) 2011-02-28 2018-11-27 Sdl Inc. Systems, methods, and media for generating analytical data
US8655640B2 (en) * 2011-03-02 2014-02-18 Raytheon Bbn Technologies Corp. Automatic word alignment
US9552213B2 (en) * 2011-05-16 2017-01-24 D2L Corporation Systems and methods for facilitating software interface localization between multiple languages
US8825469B1 (en) * 2011-08-04 2014-09-02 Google Inc. Techniques for translating documents including tags
US9984054B2 (en) 2011-08-24 2018-05-29 Sdl Inc. Web interface including the review and manipulation of a web document and utilizing permission based control
US8874428B2 (en) * 2012-03-05 2014-10-28 International Business Machines Corporation Method and apparatus for fast translation memory search
US9773270B2 (en) 2012-05-11 2017-09-26 Fredhopper B.V. Method and system for recommending products based on a ranking cocktail
US10261994B2 (en) 2012-05-25 2019-04-16 Sdl Inc. Method and system for automatic management of reputation of translators
US9317500B2 (en) * 2012-05-30 2016-04-19 Audible, Inc. Synchronizing translated digital content
US9116886B2 (en) * 2012-07-23 2015-08-25 Google Inc. Document translation including pre-defined term translator and translation model
US11386186B2 (en) 2012-09-14 2022-07-12 Sdl Netherlands B.V. External content library connector systems and methods
US10452740B2 (en) 2012-09-14 2019-10-22 Sdl Netherlands B.V. External content libraries
US11308528B2 (en) 2012-09-14 2022-04-19 Sdl Netherlands B.V. Blueprinting of multimedia assets
US9916306B2 (en) 2012-10-19 2018-03-13 Sdl Inc. Statistical linguistic analysis of source content
US9424360B2 (en) * 2013-03-12 2016-08-23 Google Inc. Ranking events
RU2592395C2 (ru) 2013-12-19 2016-07-20 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Разрешение семантической неоднозначности при помощи статистического анализа
JP2015125499A (ja) * 2013-12-25 2015-07-06 株式会社東芝 音声通訳装置、音声通訳方法及び音声通訳プログラム
RU2586577C2 (ru) 2014-01-15 2016-06-10 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Фильтрация дуг в синтаксическом графе
JP5850512B2 (ja) * 2014-03-07 2016-02-03 国立研究開発法人情報通信研究機構 単語アライメントスコア算出装置、単語アライメント装置、及びコンピュータプログラム
US9740687B2 (en) 2014-06-11 2017-08-22 Facebook, Inc. Classifying languages for objects and entities
US9626358B2 (en) 2014-11-26 2017-04-18 Abbyy Infopoisk Llc Creating ontologies by analyzing natural language texts
US9864744B2 (en) 2014-12-03 2018-01-09 Facebook, Inc. Mining multi-lingual data
US10067936B2 (en) 2014-12-30 2018-09-04 Facebook, Inc. Machine translation output reranking
US9830386B2 (en) 2014-12-30 2017-11-28 Facebook, Inc. Determining trending topics in social media
US9830404B2 (en) 2014-12-30 2017-11-28 Facebook, Inc. Analyzing language dependency structures
US9477652B2 (en) 2015-02-13 2016-10-25 Facebook, Inc. Machine learning dialect identification
CN104866547B (zh) * 2015-05-08 2019-04-23 湖北荆楚网络科技股份有限公司 一种针对组合字类关键词的过滤方法
CN104850609B (zh) * 2015-05-08 2019-04-23 湖北荆楚网络科技股份有限公司 一种针对跳字类关键词的过滤方法
JP2017058865A (ja) * 2015-09-15 2017-03-23 株式会社東芝 機械翻訳装置、機械翻訳方法および機械翻訳プログラム
US9734142B2 (en) * 2015-09-22 2017-08-15 Facebook, Inc. Universal translation
US10614167B2 (en) 2015-10-30 2020-04-07 Sdl Plc Translation review workflow systems and methods
US9690777B1 (en) * 2015-12-10 2017-06-27 Webinterpret Translating website listings and propagating the translated listings to listing websites in other regions
US10133738B2 (en) 2015-12-14 2018-11-20 Facebook, Inc. Translation confidence scores
US9734143B2 (en) 2015-12-17 2017-08-15 Facebook, Inc. Multi-media context language processing
JP2017120616A (ja) * 2015-12-25 2017-07-06 パナソニックIpマネジメント株式会社 機械翻訳方法、及び、機械翻訳システム
US20170185587A1 (en) * 2015-12-25 2017-06-29 Panasonic Intellectual Property Management Co., Ltd. Machine translation method and machine translation system
US9805029B2 (en) 2015-12-28 2017-10-31 Facebook, Inc. Predicting future translations
US10002125B2 (en) 2015-12-28 2018-06-19 Facebook, Inc. Language model personalization
US9747283B2 (en) 2015-12-28 2017-08-29 Facebook, Inc. Predicting future translations
US10902221B1 (en) 2016-06-30 2021-01-26 Facebook, Inc. Social hash for language models
US10902215B1 (en) 2016-06-30 2021-01-26 Facebook, Inc. Social hash for language models
US10180935B2 (en) 2016-12-30 2019-01-15 Facebook, Inc. Identifying multiple languages in a content item
US10380249B2 (en) 2017-10-02 2019-08-13 Facebook, Inc. Predicting future trending topics
US10635863B2 (en) 2017-10-30 2020-04-28 Sdl Inc. Fragment recall and adaptive automated translation
CN107908601A (zh) * 2017-11-01 2018-04-13 北京颐圣智能科技有限公司 医疗文本的分词模型构建方法、设备、可读存储介质及分词方法
US10817676B2 (en) 2017-12-27 2020-10-27 Sdl Inc. Intelligent routing services and systems
US10747962B1 (en) * 2018-03-12 2020-08-18 Amazon Technologies, Inc. Artificial intelligence system using phrase tables to evaluate and improve neural network based machine translation
US11256867B2 (en) 2018-10-09 2022-02-22 Sdl Inc. Systems and methods of machine learning for digital assets and message creation
CN113778582B (zh) * 2021-07-28 2024-06-28 赤子城网络技术(北京)有限公司 本地化多语言适配的设置方法、装置、设备及存储介质

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5541836A (en) * 1991-12-30 1996-07-30 At&T Corp. Word disambiguation apparatus and methods
JP3189186B2 (ja) * 1992-03-23 2001-07-16 インターナショナル・ビジネス・マシーンズ・コーポレ−ション パターンに基づく翻訳装置
EP0672989A3 (en) * 1994-03-15 1998-10-28 Toppan Printing Co., Ltd. Machine translation system
JPH09128396A (ja) * 1995-11-06 1997-05-16 Hitachi Ltd 対訳辞書作成方法
JPH1063669A (ja) * 1996-08-21 1998-03-06 Oki Electric Ind Co Ltd 対訳データベース作成装置及び対訳例文検索装置
JPH10312382A (ja) * 1997-05-13 1998-11-24 Keiichi Shinoda 類似用例翻訳システム
WO1999000789A1 (en) * 1997-06-26 1999-01-07 Koninklijke Philips Electronics N.V. A machine-organized method and a device for translating a word-organized source text into a word-organized target text
US6073096A (en) * 1998-02-04 2000-06-06 International Business Machines Corporation Speaker adaptation system and method based on class-specific pre-clustering training speakers
US6107935A (en) * 1998-02-11 2000-08-22 International Business Machines Corporation Systems and methods for access filtering employing relaxed recognition constraints
JPH11259482A (ja) * 1998-03-12 1999-09-24 Kdd Corp 複合名詞の機械翻訳方式
US6195631B1 (en) * 1998-04-15 2001-02-27 At&T Corporation Method and apparatus for automatic construction of hierarchical transduction models for language translation
US6772180B1 (en) * 1999-01-22 2004-08-03 International Business Machines Corporation Data representation schema translation through shared examples
US6631346B1 (en) * 1999-04-07 2003-10-07 Matsushita Electric Industrial Co., Ltd. Method and apparatus for natural language parsing using multiple passes and tags
US6330530B1 (en) * 1999-10-18 2001-12-11 Sony Corporation Method and system for transforming a source language linguistic structure into a target language linguistic structure based on example linguistic feature structures
CN1302415C (zh) * 2000-06-19 2007-02-28 李玉鑑 一种英汉翻译机器的实现方法
JP3969628B2 (ja) * 2001-03-19 2007-09-05 富士通株式会社 翻訳支援装置、方法及び翻訳支援プログラム
JP4574047B2 (ja) * 2001-03-30 2010-11-04 富士通株式会社 訳例辞書を用いて翻訳を行う機械翻訳装置およびプログラム
US7295962B2 (en) * 2001-05-11 2007-11-13 University Of Southern California Statistical memory-based translation system

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1661593B (zh) * 2004-02-24 2010-04-28 北京中专翻译有限公司 一种计算机语言翻译方法及其翻译系统
CN101187923B (zh) * 2006-11-23 2012-02-22 夏普株式会社 机器翻译方法、翻译设备、选择双语文本的方法和设备
CN101595474B (zh) * 2007-01-04 2012-07-11 思解私人有限公司 语言分析
CN102591898A (zh) * 2011-01-05 2012-07-18 富士施乐株式会社 双语信息检索设备、翻译设备及双语信息检索方法
CN102591898B (zh) * 2011-01-05 2017-04-26 富士施乐株式会社 双语信息检索设备、翻译设备及双语信息检索方法
CN104246769A (zh) * 2012-04-11 2014-12-24 微软公司 用于促成数据发现的伪文档
CN105159890A (zh) * 2014-06-06 2015-12-16 谷歌公司 使用神经网络产生输入序列的表示
US10181098B2 (en) 2014-06-06 2019-01-15 Google Llc Generating representations of input sequences using neural networks
US11222252B2 (en) 2014-06-06 2022-01-11 Google Llc Generating representations of input sequences using neural networks
CN107818086A (zh) * 2016-09-13 2018-03-20 株式会社东芝 机器翻译方法和装置
CN112074840A (zh) * 2018-05-04 2020-12-11 瑞典爱立信有限公司 以多种语言形式的替代文本来丰富实体的方法和装置

Also Published As

Publication number Publication date
CN100440150C (zh) 2008-12-03
JP2004038976A (ja) 2004-02-05
JP4993762B2 (ja) 2012-08-08
US7353165B2 (en) 2008-04-01
US20040002848A1 (en) 2004-01-01
US20080133218A1 (en) 2008-06-05
JP4694111B2 (ja) 2011-06-08
JP2008262587A (ja) 2008-10-30

Similar Documents

Publication Publication Date Title
CN1475907A (zh) 基于例子的机器翻译系统
EP1422634B1 (en) Statistical method and apparatus for statistical learning of translation relationships among phrases
US8548794B2 (en) Statistical noun phrase translation
CN1945562A (zh) 训练音译模型、切分统计模型以及自动音译的方法和装置
JP5113750B2 (ja) 定義の抽出
CN101271452B (zh) 生成译文和机器翻译的方法及装置
KR101682207B1 (ko) 토큰 분리 및 번역 과정을 통합한 통합 디코딩 장치 및 그 방법
CN1094618C (zh) 机器翻译中的语法自纠正方法
CN1801141A (zh) 一种基于现有译文的储存库的翻译方法及设备
CN1490744A (zh) 检索确认句的方法和系统
CN1471029A (zh) 自动检测文件中搭配错误的系统和方法
CN1591415A (zh) 机器翻译装置以及机器翻译计算机程序
US20060111896A1 (en) Projecting dependencies to generate target language dependency structure
CN1253820C (zh) 交叉语言信息检索设备和方法
JP2010061645A (ja) フレーズベースの統計的機械翻訳方法及びシステム
CN1834955A (zh) 多语种翻译存储器、翻译方法以及翻译程序
EP1657651B1 (en) Extracting treelet translation pairs
CN1426561A (zh) 带有跨语言阅读向导的计算机辅助阅读系统和方法
CN1670723A (zh) 改进的拼写检查系统和方法
CN1223733A (zh) 利用计算机系统的日文文本字的识别
JP2003141115A (ja) 単語間の翻訳関係を計算する方法
CN101079028A (zh) 一种统计机器翻译中的在线翻译模型选择方法
CN1910573A (zh) 用来识别并分类命名实体的系统
CN1771494A (zh) 包括无分隔符的块的文本的自动分块
CN1702650A (zh) 用于将日文翻译成中文的设备和方法以及计算机程序产品

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150505

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20150505

Address after: Washington State

Patentee after: Micro soft technique license Co., Ltd

Address before: Washington State

Patentee before: Microsoft Corp.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20081203

Termination date: 20200630