CN1677388A

CN1677388A - 用于逻辑形式的统计语言模型

Info

Publication number: CN1677388A
Application number: CNA200510056232XA
Authority: CN
Inventors: A·奥厄; A·A·梅尼泽斯; C·B·夸克; E·K·林格; R·C·穆尔
Original assignee: Microsoft Corp
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2004-03-30
Filing date: 2005-03-30
Publication date: 2005-10-05
Anticipated expiration: 2025-03-30
Also published as: EP1582997B1; KR20060045349A; US20050228640A1; JP4945086B2; EP1582997A3; KR101122850B1; CN1677388B; EP1582997A2; JP2005285129A; ES2416359T3; US7593843B2

Abstract

提出了一种解码输入语义结构以生成输出语义结构的方法。提供了一组传递映射。使用统计模型，为所述传递映射组中至少一个传递映射计算分数。基于该分数，选择至少一个传递映射，并将其用于构建所述输出语义结构。

Description

用于逻辑形式的统计语言模型

技术领域

本发明涉及自动语言系统，尤其涉及统计语言系统中的语言模型。

背景技术

自动语言系统包含语音识别、手写识别、语音形成、语法检查和机器翻译。

机器翻译(MT)系统是如下的系统：以一种语言(源语言)接受到一输入，将该输入翻译成第二语言(目标语言)，并以第二语言提供输出。

MT系统的一个例子使用逻辑形式(LF)，所述逻辑形式是描述字符串中实义词之间标识的依赖关系的依赖关系图，作为翻译中的中间步骤。在这个系统下，首先使用自然语言语法分析器来分析源语言中的字符串，以生成源LF。接着，源LF必须被转换成目标语言LF。将源语言LF片映射到目标语言LF片的数据库(与其它元数据一起，诸如一些训练集中的映射尺寸和映射频率)被用于这个转换。首先恢复其源语言LF片是源LF的子图的所有映射。一般地，单个映射的源语言LF片不会覆盖整个源LF。结果是，必须选择一组映射(可能重叠)并且必须组合它们的目标语言LF片以形成完整的目标LF。

为了识别该组目标逻辑形式，MT系统使用贪心搜寻算法从可能的映射中选择一映射的组合，所述可能的映射的源语言LF片与源LF相匹配。这个贪心搜寻从按照尺寸、频率和其它度量映射的源语言LF片能多好地匹配源LF的特征排序这些映射开始。接着，以自顶向下的方式历遍排序列表，并选择所发现的第一组覆盖源逻辑形式的兼容映射。然而，该启发式系统不会测试输入映射的所有可能组合，而仅仅是选择完全覆盖源LF的第一组映射。

选择了映射组之后，以符合目标LF的方式组合映射的目标语言LF片以生成目标LF。最后，在目标LF上运行自然语言生成系统来生成目标语言输出。

然而，MT系统不总是使用逻辑形式或其它解析的结构作为中间表示。它们也不是必须使用启发式方法来解决翻译的多义性。一些其它的MT系统试图使用统计模型预测给定源语言的输入字符串最有可能的目标语言字符串。这样的MT系统使用传统的统计体系结构和模型，诸如噪声通道体系结构，以解码和发现目标语句T，所述目标语句T是对于给定的源语句S最可能的翻译。使该概率最大化表示为：

T = \underset{T^{'}}{\arg \max}

P (T^{'} | S)

公式1

其中T′包含目标语言中的语句。通过使用贝叶斯法则，使该概率最大化也可被表示为：

T = \underset{T^{'}}{\arg \max}

P (S | T^{'})

\times P (T^{'})

公式2

其中P(S|T′)是给定目标语言串T′源串S的概率，而P(T′)是目标语言串T′的概率。在基于字符串的统计MT中，(不使用解析的中间表示的MT)，在单一语言目标语言数据上训练的目标语言模型被用于计算P(T)的估计，变动复杂性的一致性模型被用于计算和估计P(S|T)。

有许多与常规的、基于字符串的统计MT系统相关联的问题。特别是，搜索空间(目标语言中所有可能的字符串)很大。如果对这个搜索空间没有限制，不能建立起实用的MT系统，因为考虑所有可能的翻译字符串会消耗太长的时间。为了解决这个问题，许多系统使用简化假设：整个字符串的通道模型和目标语言模型的概率可以被确定为该字符串内子字符串的概率的产物。该假设只有在字符串中和字符串之间的依赖关系被限制到由子字符串定义的局部区域时才有效。然而，有时大块源语言文本的最佳翻译取决于源和目标语言字符串的元素，这些元素与要预测的元素相距较远。由于在基于字符串的统计MT模型中作出的简化假设大部分是基于字符串位置，有时调节元素离要预测的元素足够远，使得它们不能被该模型考虑。

例如，一些基于字符串的统计MT系统为它们的语言模型(LM)使用字符串n-元模型。这些n-元模型易于训练、使用和优化。然而，n-元模型有一些限制。虽然可以从单词的一个或两个直接前趋准确地预测出该单词，许多语言构造将高度预测性单词置于离它们预测的单词足够远的位置，使得它们被排除在字符串n-元模型的范围之外。考虑以下主动和被动语句：

1.John hit the ball.

2.The balls were hit by Lucy.

以下三元组以所示频率出现在这些语句中：

John 1 The 1

John hit 1 The balls 1

John hit the 1 the balls were 1

hit the ball 1 balls were hit 1

the ball<POST>1 were hit by 1

hit by Lucy 1

by Lucy<POST>1

其中“”是在语句开始处提供语句初始上下文的虚标记，“<POST>”是在语句结束处的虚标记。应该注意的是这些三元组的每个只发生一次，即使该事件(the hitting of a ball)在两种情况中是相同的。

在另一个统计MT系统中，源语言中的语法结构被映射到目标语言中的字符串上。基于语法的模型相对基于字符串的模型有几个优势。一方面，基于语法的模型可以通过归一化词条来降低稀疏数据问题的幅度。另一方面，基于语法的模型可以考虑语言的句法结构。因此，互相依赖的事件通常在语法树中比它们在表面字符串中互相更为靠近，因为到共同父节点的距离可以比字符串中的距离要短。

然而，即使在基于语法的模型中，也有缺点：互相依赖的单词之间的距离可能仍旧太大，以致于不能被本地模型捕捉；同样地，不同的结构表现出类似的概念(例如，主动式对比被动式)，因此不将这些类似的概念一起做成模型。这些导致了模型的不良训练和差的翻译性能。

发明内容

本发明包含用于解码输入语义结构以产生输出语义结构的方法。该技术为部分输入语义结构采用一组传递映射。使用统计模型为该传递映射组中的至少一个传输映射计算分数。基于该分数至少选择一个传递映射并将其用于构造输出语义结构。本发明也可以被具体化为计算机实现方法和机器翻译系统。本发明的又一方面是由语义结构构造的语言模型。

附图说明

图1说明了可以实现本发明的通用计算环境的框图。

图2说明了可以实现本发明的移动设备的框图。

图3和图4说明了逻辑形式的例子。

图5说明了依照本发明的一个实施例的机器翻译体系结构的框图。

图6说明了传递映射的目标部分的示例性目标逻辑形式。

图7说明了输入逻辑形式的例子。

图8说明了存储在传递映射数据库中的示例性传递映射。

图9和图10说明了存储在传递映射数据库中的示例性传递映射。

图11说明了示例性输入逻辑形式。

图12说明了存储在传递映射数据库中的示例性传递映射。

图13是说明依照本发明的一个实施例的解码算法的流程图。

图14说明了图13的流程图可以利用的示例性源逻辑形式。

图15-21说明了图13的流程图可以利用的存储在传递映射数据库中的示例性传递映射。

具体实施方式

应该注意就在机器翻译系统的上下文下描述的本发明而言，本发明也可以应用于其它产生单词或需要语言模型的系统。例如，系统可以包含语音识别、光符号识别(OCR)、语法检查等等。在详细描述本发明之前，将描述本发明可以应用的示例性计算环境的实施例。

图1说明了可以实现本发明的适当的计算系统环境100的一个例子。该计算系统100仅仅是一个适当的计算环境的例子，并非意味着对本发明的使用范围或功能的任何限制。该计算环境100也不应当被解释为对在示例操作环境100中例示的任何一个元件或它们的组合有任何依赖性或要求。

本发明可以在许多其它通用或者专用计算系统环境或者配置中操作。可以适于实现本发明的众所周知的计算系统、环境和/或配置的例示包含但不限于：个人计算机、服务器计算机、手提或膝上型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络计算机、微型计算机、大型计算机、电话系统以及包括以上任一系统或类似设备的分布式计算环境。

本发明可以在计算机可执行指令的通用上下文中描述，诸如由计算机执行的程序模块。通常，程序模块包含执行特定任务或者实现特定抽象数据类型的例程、程序、对象、组件、数据结构等。本发明被设计成在分布式计算环境中实现，其中任务由通过一个通信网络连接的远程处理设备执行。在分布式计算环境中，程序模块位于包含存储器设备的本地和远程计算机存储介质中。

参见图1，用于实现本发明的例示系统包含一个以计算机形式的通用计算设备110。计算机110的组件包含但不限于：处理单元120、系统存储器130、和连接包括系统存储器在内的各个系统组件到处理单元的系统总线121。系统总线121可以是几种类型的总线结构中的任何一种，其中这几种类型的总线结构包含：使用各种总线体系结构中任何一种的存储器总线或存储器控制器、外围总线和本地总线。通过举例而非限制，这样的体系结构包括工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、增强的ISA(EISA)总线、视频电子标准协会(VESA)本地总线和也被称为附加板(Mezzanine)总线的外设组件互连(PCI)总线。

计算机110一般包含多种计算机可读介质。计算机可读介质能够是能由计算机110访问的任何可用介质，而且包含易失/非易失性介质、以及移动/不可移动介质。举例来说，而不是限制，计算机可读介质可以包含计算机存储介质和通信介质。计算机存储介质包含以任一方法或技术实现的用于信息存储的易失/非易失性介质、移动/不可移动介质，所述信息诸如计算机可读指令、数据结构、程序模块或其它数据。计算机存储介质包含但不限于：RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光学存储器、磁带盒、磁带、磁带存储器或者其它磁存储设备、或者任何其它能够用来存储所需信息并且能够由计算机110访问的介质。通信介质一般具体化为计算机可读指令、数据结构、程序模块、或者一已调制数据信号，诸如载波或其它传输机制中的其它数据，并且包括任何信息传递介质。数据“已调制的数据信号”是指以编码该信号中信息的方式来设置或改变其一个或多个特性的信号。举例而言而非限制，通信介质包含有线介质、诸如有线网络或直接有线连接，以及其它无线介质、诸如声学、射频、红外或其它无线介质。以上任何一个组合也应当被包括在计算机可读介质的范围之内。

系统存储器130包括以易失性和/或非易失性存储器，诸如只读存储器(ROM)131和随机存取存储器(RAM)132形式的计算机存储介质。基本输入/输出系统(BIOS)133一般被保存在ROM 131中，其中该基本输入/输出系统(BIOS)133包含有助于例如在启动过程中在计算机110内部的元件之间传输信息的基本例程。RAM 132一般包含可由处理单元120立即访问和/或当前由处理单元进行操作的数据和/或程序模块。举例而言而非限制，图1说明了操作系统134、应用程序135、其它程序模块136和程序数据137。

计算机110还可以包括可移动/不可移动的和易失性/非易失性的计算机存储介质。仅仅举例来说，图1说明了一个从不可移动、非易失性磁介质中读取或写入到其中的硬盘驱动器114、从一个可移动、非易失性磁盘152中读取或写入到其中的磁盘驱动器151和一个从一个可移动、非易失性光盘156，诸如CD-ROM或者其它光介质中读取或者写入到其中的光盘驱动器155。在该示例操作环境中使用的其它可移动/不可移动、易失性/非易失性的计算机存储介质包括但不限于：磁带盒、闪存卡、DVD、数字视频磁带、固态RAM、固态ROM等等。硬盘驱动器141通常通过不可移动存储器接口，诸如接口140，连接到系统总线121，而磁盘驱动器151和光盘驱动器155通常通过可移动存储器接口，诸如接口150，连接到系统总线121。

以上讨论且示于图1的驱动器及其相关计算机存储媒质为来自计算机110的计算机可读指令、数据结构、程序模块、以及其它数据提供了存储。在图1中，例如，硬盘驱动器141还可以存储操作系统144、应用程序145、其它程序模块146和程序数据147。应当注意，这些组件可以和操作系统134、应用程序135、其它程序模块136和程序数据137相同或者相异。这里对操作系统144、应用程序145、其它程序模块146和程序数据147给出了不同的数字，以至少说明它们是不同的副本。

用户可以经由输入设备，诸如键盘162、麦克风163和诸如鼠标、轨迹球或触摸板等指示设备161，输入命令和信息到计算机110中。其它输入设备(未示出)可以包括操纵杆、游戏垫、卫星天线、扫描仪等等。这些以及其它输入设备经常经由耦合到计算机总线上的用户输入接口160连接到处理单元120，并且可以通过其它接口和总线结构，诸如并行端口、游戏端口或者通用串行总线(USB)连接。监视器191或其它类型的显示设备也经由一接口，诸如视频接口190，连接到系统总线121上。除了监视器之外，计算机也可以包括其他外围输出设备，诸如扬声器197和打印机196，它们可以通过输出外围设备接口195连接。

计算机110可以在使用与一个或多个远程计算机的逻辑连接的网络环境中进行操作，所述的远程计算机诸如远程计算机180。远程计算机180可以是个人计算机、手提设备、服务器、路由器、网络计算机、对等设备或者其它公用网络节点，而且一般包括许多或者所有上述与计算机110相关的单元。在图1中描述的逻辑连接不仅包括局域网(LAN)171和广域网(WAN)173，而且还包括其它网络。这种网络环境常见于办公室、企业范围的计算机网络、企业内部局域网和Internet。

当在LAN网络环境中使用时，计算机110经由网络接口或适配器170连接到LAN 171。当在WAN网络环境中使用时，计算机110一般包括调制解调器172或者其它用于经由WAN 173建立通信的装置，诸如Internet。可以内置或外置的调制解调器172可经由用户输入接口160或者其它适当的机制连接到系统总线121。在网络环境中，所描述的与计算机110相关的程序模块或其部分可以存储在远程存储设备。举例而言，而非限制，图1说明了驻留在远程计算机180上的远程应用程序185。应当理解，所显示的网络连接是示例性的，也可以使用在计算机之间建立通信链路的其它装置。

图2是移动设备200的框图，它是示例性的计算环境。移动设备200包含微处理器202、存储器204、输入/输出(I/O)组件206和用于与远程计算机或其它移动设备通信的通信接口208。在一个实施例中，上述的组件被耦合以通过适当的总线210彼此通信。

存储器204被实现为非易失性电子存储器，诸如带有电池后备模块(未示出)的随机存取存储器(RAM)，使得当移动设备200的总电源被关闭时，存储在存储器204中的信息不会丢失。存储器204的一部分较佳地被分配为用于程序执行的可寻址存储器，而存储器204的另一部分较佳地被用于存储，诸如模拟磁盘驱动器上的存储。

存储器204包含操作系统212，应用程序214以及对象存储216。在操作过程中，操作系统212最好由处理器202从存储器204执行。在一个优选实施例中，操作系统212是商业上来自微软公司的Windows CE标志操作系统。操作系统212最好被设计用于移动设备并实现可经由一组开放式的应用程序编程接口和方法被应用程序214利用的数据库特征。对象存储216中的对象由应用程序214和操作系统212维持，至少部分响应对开放式应用程序接口和方法的呼叫。

通信接口208表示多个设备和允许移动设备200发送和接收信息的技术。所述设备包含，仅仅举几个例子，有线和无线调制解调器、卫星接收机和广播调谐器。移动设备200也可以直接连接到计算机上以与此交换数据。在这种情况中，通信接口208可以是红外线收发机或串行或并行通信连接，它们都能够发送流动信息。

输入/输出组件206包含多种输入设备，诸如触敏屏幕、按键、滚筒和麦克风以及多种输出设备，包括音频发生器、振荡设备和显示器。上面列出的设备是作为例子，并非所有都要出现在移动设备200上。此外，在本发明的范围内其它输入/输出设备可以连接到移动设备200或可以发现移动设备200带有其它的输入/输出设备。

逻辑形式

在更详细地讨论本发明之前，对逻辑形式的简要讨论会是有帮助的。在于1999年10月12日发表题为METHOD AND SYSTEM FOR COMPUTINGSEMANTIC LOGICAL FORMS FROM SYNTAX TREES的Heidorn等人的美国专利第5,966,686号中可以发现对逻辑形式以及生成它们的系统和方法的全面和详细的讨论。然而，简要地，逻辑形式通过对输入文本执行形态分析而生成，以产生随着语法关系而扩充的常规短语结构分析。句法分析经由进一步的处理以获取逻辑形式，所述逻辑形式是描述在文本输入中实义词之间标识的依赖关系的数据结构。

总体而言，逻辑形式是表示单个输入的经连接的逻辑关系，诸如一句子或它的部分。所述逻辑形式最小是由一个逻辑关系和描绘结构关系(即，句法和/或语义关系)，尤其是一输入字符串中重要单词之间的主目(argument)和/或附加关系组成。

逻辑形式可以归一化某些句法变化(例如，主动/被动)并解决句内指代和长距离依赖关系。例如，图3和图4说明了对给出的主动和被动语句的逻辑形式或依赖关系图300和400，作为背景部分的例子以帮助理解逻辑形式的元素。然而，如本发明的技术人员理解的，当存储在计算机可读媒质上时，逻辑形式可能不象显示出一张图那样易于理解。图3和4说明了表面字符串和语法模型，如背景部分中表述的，不能捕捉的重要一般性。

考虑以下的句子以理解为什么依赖关系图可能会比基于字符串的n-元模型或语法树提供更好的语言模型：

1.John hit the ball.

2.The balls were hit by Lucy.

基于表面字符串的3-元模型会生成以下计算：

The 1

John 1 The balls 1

John hit 1 the balls were 1

John hit the 1 balls were hit 1

hit the ball 1 were hit by 1

the ball<POST>1 hit by Lucy 1

by Lucy<POST>1

注意这些三元的每一个只发生一次，即使在两种情况中事件(the hitting of aball)是相同的。

如果我们看看语法树，我们得到有微小差别的图。特别地，对于上述的语句，会产生以下的语法树：

John hit the ball.

Decl 1

|＿＿＿NP1＿＿＿NOUN1 ″John″

|＿＿＿VERB1 ″hit″

|＿＿＿NP2＿＿＿DETP1＿＿＿ADJ1* ″the″

| |＿＿＿NOUN2 ″ball″

|＿＿＿CHAR1 ″.″

The balls were hit by Lucy.

Decl 1

|＿＿＿＿NP1＿＿＿＿DETP1＿＿＿＿ADJ1* ″The″

| |＿＿＿＿NOUN1 ″balls″

|＿＿＿＿AUX1＿＿＿VERB1 ″were″

|＿＿＿＿VERB2* ″hit″

|＿＿＿＿PP1＿＿＿＿PP2＿＿＿＿PREP1* ″by″

| |＿＿＿＿NOUN2* ″Lucy″

|＿＿＿＿CHAR1 ″.″

请注意在这里有一次将the hitting of the ball分成两个单独的段(对于主动态是一组规则，对于被动态是另一组规则)，因此系统不能得到有用的一般性。

图3和4说明了逻辑形式300和400。LF300和400包含父节点302和402，子节点304、308、404和408以及语义关系节点306、307、406和407。语义关系节点306和406将子节点304、308、404和408连接到父节点302和402，并解释父节点和子节点之间的语义关系。

父节点302和402包含单词形式或主题。例如，父节点302和402中的主题是单词“hit”。子节点304、308、404和408也包含单词形式或主题。语义关系节点306和406说明了子节点304和404是深层主语，而语义关系节点307和407指出子节点308和408是父节点302和402的深层对象。此外，LF300和400也包含置于每个节点中每个主题上的二元特征(或“比特”)。例如，所述的二元特征被置于LF300和400的每个主题上，并且在附加说明中加以说明。二元特征描述主题的句法特性。例如，在节点302中的单词形成包含将单词“hit”描述为过去时和命题的比特。

与字符串和语法树形成对比的是，逻辑形式300和400在相同的图结构中同时包含主动态结构和被动态结构。LF结构可以被图解成生成树，使得没有节点具有两个父节点。逻辑形式300和400是相应语句(或语句片断)的分层逻辑表示。每个节点取决于它的所有的祖先。为了构建(目标)语言模型，基于每个子节点只取决于其父节点(或取决于n-1个祖先，对于一个n-元LF模型)的近似法，构建本地结构模型。

在一个示例性实施例中，从句法分析构建逻辑形式的特定编码在机器翻译系统操作的各种源和目标语言之间共享。该共享体系结构大大地简化了从不同的语言排列逻辑形式分段的任务，因为两种语言中表面上明显不同的结构经常崩溃成相似或相同的逻辑形式表示。

机器翻译

图5是依照本发明的一个实施例的机器翻译系统500的示例性体系结构的框图。系统500包含分析组件504和506、统计单词关联学习组件508、逻辑形式排列组件510、词汇知识库(LKB)构造组件512、双语字典514、关联列表520和传递映射数据库518。在翻译运行时间期间，系统500利用分析组件522、搜索组件524、解码组件554、传递组件526和生成组件528。

在一个说明性实施例中，双语资料库被用于训练该系统。所述双语资料库(或“bitext”)包含排列后的翻译语句(例如，源或目标语言的语句，诸如英语，1-对-1对应于它们在另一种源或目标语言中的人类建立的翻译，诸如西班牙语)。在训练期间，语句作为源语句530(要翻译的语句)从排列的双语资料库提供到系统500中作为目标语句532(源语句的翻译)。分析组件504和506分析来自经排列的双语资料库的源语句和目标语句以生成源逻辑形式534和目标逻辑形式536。

在分析的过程中，语句中的单词被转换成归一化的单词形式或主题，并且可以提供给统计单词关联指示组件508。单个单词和多个单词关联被反复地假设并且由学习组件508评分，直至获取了每个的可靠组。统计单词关联学习组件508输出学习单词翻译对538。

单词对被加到关联列表520上，所述关联列表520作为更新的双语词典。

单词对538以及源逻辑形式534和目标逻辑形式536被提供给逻辑形式排列组件510。简要地，组件510首先在源和目标逻辑形式530和536中分别建立试验性对应。这是使用来自双语字典(例如，双语词典)514的翻译对完成的，所述的双语字典514可以用来自统计单词关联学习组件508的单词对538来扩充。在建立起可能的对应后，排列组件510依照字典和结构考虑排列逻辑形式节点并创建单词和/或逻辑形式传递映射542。

基本上，排列组件510使用双语字典信息514和单词对538画出逻辑形式之间的联系。基于在源和目标逻辑形式534和536中发现的频率可选择地过滤所述传递映射并将其提供给字典知识库构建组件512。

虽然过滤是可选择的，在一个例子中，如果至少两次没有在训练数据中看到传递映射，它将不被用于构建传递映射数据库518，虽然也可以使用任何其它期望的频率作为过滤器。也应该注意除了频率的出现之外，也可以使用其它过滤技术。例如可以基于它们是否是从对源语句的完整分析形成的和基于用于创建传递映射的逻辑形式是否被完整地排列来过滤传递映射。

组件512建立传递映射数据库518，所述传递映射数据库518包含基本上将一种语言中的单词和/或逻辑形式连接到第二种语言中的单词和/或逻辑形式的传递映射。随着这样建立的传递映射数据库518，现在系统500被配置用于运行时间翻译。

在翻译运行时间期间内，要翻译的源文本550被提供给分析组件522。分析组件522接收源文本550并基于源文本输入建立源逻辑形式552。

源逻辑形式552被提供给搜索组件524。搜索组件524试图搜索传递映射数据库518以获取覆盖全部或部分源逻辑形式552的传递映射。对于源逻辑形式552中的一个或多个节点，会发现多个映射。

在发现一组可能的传递映射和一组可能的传递映射组合后，解码组件554使用多个模型对传递映射的每个组合评分。在一个实施例中，用线性内插分数为个体的传递映射和传递映射的组合评分，这会在下面做更详细的解释。在分数生成后，解码组件554挑选出并存储传递映射的最佳组合。

传递组件526从解码组件554接受到候选映射的最佳组合，并建立目标逻辑形式556，所述目标逻辑形式556会形成目标翻译的基础。这是通过将所选择的传递映射的节点相组合来完成的。

在搜索组件524没有发现可应用的传递映射的情况下，源逻辑形式552的节点和它们的关系被简单地复制到目标逻辑形式556。仍然可以在传递映射数据库518中为这些节点找到默认的单个单词翻译，并将它们插入到目标逻辑形式556中。然而，如果一个也没有发现，那么可以示例性地从排列过程中使用的关联列表520获取翻译。

生成组件528是示例性地基于规则、独立于应用程序的生成组件，它从目标逻辑形式556映射成目标文本(或目标字符串)558。生成组件528可以选择地利用机器学术方法进行语句实现。生成组件528示例性地可能没有关于输入逻辑形式的源语言的信息，并且专门使用由传递组件526传递给它的信息工作。生成组件528也示例性地结合单语(例如，对于目标语言)字典使用该信息，以产生目标文本558。因此一个一般的生成组件528对每种语言是足够的。

逻辑形式的统计机器翻译

对于以下讨论，本领域的技术人员应该认识到依赖关系图、逻辑形式、语义结构、语义关系和语义表示都与输入逻辑形式相关，并且将输入逻辑形式描述为在运行时间期间内提供。此外，本领域的技术人员应该认识到传递映射或映射指的是那些在训练期间形成的映射。

以下等式，公式2的回忆，是本发明一个实施例的高层视图：

T = \underset{T^{'}}{\arg \max}

P (S | T^{'}) \times P (T^{'})

公式3

其中T′被限制为目标语言中的逻辑形式，P(S|T′)是给定目标语言逻辑形式T′，源逻辑形式S的概率，P(T′)是目标语言逻辑形式T′的概率，也写作P_μT(T′)，其中μ_T是目标语言模型。上述等式等于：

T = \underset{T^{'}}{\arg \max} [\log P (S | T^{'}) + \log P_{μ_{T}} (T^{'})]

公式4

本发明的一个实施例通过结合几个知识源来近似P(S|T′)：通道模型或翻译模型P_μC(S，T′)、生产模型P_μF(S，T′)、映射尺寸信息源Score_μS(S，T′)和二元特征匹配(或“归类”)信息源Score_μB(S，T′)。结合这些知识源，P(S|T′)近似为：

\log P (S | T^{'})

\approx \log P_{μ_{C}} (S, T^{'}) + \log P_{μ_{F}} (S, T^{'})

+ {Score}_{μ_{S}} (S, T^{'}) + {Score}_{μ_{B}} (S, T^{'})

公式5

因此，

T \approx \underset{T^{'}}{\arg \max} [\begin{matrix} \log P_{μ_{C}} (S, T^{'}) + \log P_{μ_{F}} (S, T^{'}) \\ + {Score}_{μ_{S}} (S, T^{'}) + Scor e_{μ_{B}} (S, T^{'}) + \log P_{μ_{T}} (T^{'}) \end{matrix}]

公式6

每个分数的相对作用或log-概率是由因子(λ_T，λ_C，λ_F，λ_S，和λ_B)加权的，所得的线性内插近似为：

T \approx \underset{T^{'}}{\arg \max} [\begin{matrix} λ_{C} \cdot \log P_{μ_{C}} (S, T^{'}) + λ_{F} \cdot \log P_{μ_{F}} (S, T^{'}) \\ + λ_{S} \cdot {Score}_{μ_{S}} (S, T^{'}) + λ_{B} \cdot {Score}_{μ_{B}} (S, T^{'}) + λ_{T} \cdot \log P_{μ_{T}} (T^{'}) \end{matrix}]

公式7

在实践中，该实施例不是突然为整个源逻辑形式和目标语言逻辑形式评分的。而是，搜索(在上面的等式中由“argmax”表示)建立目标语言逻辑形式，一次映射一个翻译。这样做，它为每个映射评分。传递映射m的总的线性内插分数表示为：

SCORE (m) = \log P (m) = λ_{T} \cdot \log P_{μ_{T}} (m) + λ_{C} \cdot \log P_{μ_{C}} (m)

+ λ_{F} \cdot \log P_{μ_{F}} (m) + λ_{S} {\cdot Score}_{μ_{S}} (m) + λ_{B} \cdot Scor e_{μ_{b}} (m)

公式8

如同完全近似和上面所示，每个信息源分数或概率由一因子加权。使用Powell的算法来训练这些因子(λ_T，λ_C，λ_F，λ_S，和λ_B)或权值，以使得系统输出的BLEU分数最大。Powell算法是本领域公知的。Powell的题为“An EfficientMethod of Finding the Minimum of a Function of Several Variables withoutCalculating Derivates.”(计算机期刊，7：155-162)的文章描述了这个算法的例子。BLEU分数也是本领域公知的，并且在Papineni，Roukos，Ward，and Zhu的题为“Bleu：a method for automatic evaluation of machine translation.”2001.IBM技术报告RC22176(W0109-022)，IBM研究部门，Thomas J.Watson研发中心的文章中描述。

模型

在一个实施例中，目标语言模型是n-元模型，所述n-元模型在给定一序列n-1个前面节点和关系的情况下，提供目标依赖关系图中节点的概率。图6说明了一个示例性目标依赖关系图600，它可以在传递映射数据库518的目标方处找到。在图6中，节点A、B、C和D包含单词形式。节点B、C和D是子节点，而节点A是父节点或根节点。节点R1和R2是语义关系节点。

使用该n-元模型，给定目标语言模型，整个目标依赖关系图τ600的概率等于这些节点的每一个的n-元概率的乘积。因此，给定目标语言模型，目标依赖关系图600的概率表示为如下公式：

P_{μ_{T}} (τ) = \underset{i}{Π} P_{μ_{T}} (c_{i} | c_{i - 1} {. . . c}_{i - (n - 1)})

公式9

其中i是逻辑形式τ中所有节点的索引。对于每个节点c_i，依照目标语言模型的分数是给定其n-1个最近的祖先，c_i-1到c_i-(n-1)，c_i的概率。举例而言，依照这种三元模型的目标逻辑形式600的概率将是：

P_{μ_{T}} (τ) = P (A | ROOT) \cdot P (R 1 | ROOT, A) \cdot P (R 2 | ROOT, A)

\cdot P (B | A, R 1) \cdot P (C | A, R 2) \cdot P (D | A, R 2)

\cdot P (LEAF | R 1, B) \cdot P (LEAF | R 2, C) \cdot P (LEAF | R 2, D)

公式10

在这个三元模型中，语义关系(R1，R2)被当作一类实体，这样使得目标模型被简化以不需要主题和语义关系的独立模型。通过删除很少发生的n-元和平稳使用内插绝对折扣来精减目标模型。所述内插绝对折扣是本领域公知的，并且在Ney，Essen和Kneser题为“On structuring probabilistic dependences instochastic language modeling.”1994.(计算机语音和语言，8：1-38)的文章中描述。

通道模型预测给定目标逻辑形式源逻辑形式的概率P(S|T)。在一个实施例中，我们为给定源逻辑形式S和目标逻辑形式T作为一组从S到T的传输映射定义传输映射替代M(表示为M：S→T)。给定目标逻辑形式T源逻辑形式S的概率被估计为：

P (S | T) = \underset{M_{i} : S &RightArrow; T}{Σ} \underset{m &Element; M_{i}}{Π} P_{μ_{C}} (m)

公式11

其中i包括(潜在地)所有传递映射替代M_i：S→T，并且

P_{μ_{C}} (m) = \frac{count (m_{S}, m_{T})}{count (m_{T})}

公式12

定义了依照通道模型μ_c映射m的概率。表达式count(m_s，m_T)是映射m的源方的结构被映射到映射一组训练数据中m的目标方的结构的次数，count(m_T)是映射m的目标方的结构被发现作为该培训数据中任一映射的目标方的次数。

换而言之，依照传递映射m的通道模型μ_c，概率被估计为：将传递映射的源方与传递映射的目标方相遇次数count(m_S，m_T)(在逻辑形式bitext中)除以那个传递映射的目标方被遇到的次数count(m_T)。

通道模型也使用重叠传递模型。因此在公式12中计算出的概率是非归一化的概率。这个非归一化的概率可以被归一化使得通道模型并不偏向某些比其它映射具有更多重叠的映射。

图7说明了输入LF700，而图8说明了在传递映射数据库518中发现的传递映射800。传递映射800包含映射802、803、804、806和808。为了易于说明，在本应用的图示中只示出了传递映射中主题的节点，没有示出语义关系的节点。应该注意传递映射包含用于语义关系的额外节点。然而，由于在本发明中以与主题节点相同的方式处理这些节点，以下的图示和讨论限于只讨论主题节点。

可以用多种不同的方式组合映射800以包含源LF700的所有节点。举例而言，映射802可以与映射808组合，映射803可以与映射806组合，映射804、806和808可以组合到一起。这些组合的每一个是不重叠的，因为源LF700中的每个节点只是由单个传递映射覆盖。然而，另一个将映射800组合以包含所有的源LF700的方式是将映射802与映射803相组合。这形成了重叠映射，因为源节点A被映射802和映射803同时覆盖。

为了防止通道模型偏向重叠映射，通道模型被归一化。给定通道模型μ_c，映射m的归一化概率P_μC ^N(m)P_N计算为：

P_{μ_{C}}^{N} (m) = P_{μ_{C}} {(m)}^{\frac{new}{total}}

公式13

其中“new”是在输入图中先前未被覆盖的成分或节点的数目，“total”是传递映射的源方成分的总数目，P_μC(m)是依照通道模型非规范的传输映射的概率，如先前所定义的。因此，公式13说明了依照通道模型归一化的传递映射的概率等于具有所示指数的依照通道模型非归一化的传递映射的概率。

如上所述，在一些情况下，输入LF中的节点在训练数据中找不到，因为它不能被分析，它只是不出现，或由于它的频率低于预定的阀值(通常为一)而被过滤到传输映射数据库518之外。在这些情况下，插入默认节点，所述默认节点是使用字典中的单个单词翻译形成的。可以使用在双语文本上训练的IBM模型1来确定这个默认映射的概率。因为这个概率是从与其它通道概率不同的方式获取的，默认映射概率在和其它通道概率组合之前由权值(λ_L)调整。此外，如果不能确定默认映射的概率，就使用(λ_A)的默认值。权值λ_L和λ_A，如同在翻译系统中使用的其余权值，是使用Powell算法来训练的，使得对于一组训练语句BLEU分数最大化。应该注意，在为传递映射计算最终分数时，这些参数是和与通道模型相关联的权值(λ_C)分开的，如公式8所示。

通道模型和目标语言模型的不同地操作。特别是，通道模型在翻译中提倡准确，而目标语言模型提倡目标语言中的流利，而不考虑源语言。

目标语言模型受到倾向性之苦，在于它宁愿要较小的图而不愿要较大的图。结果是，目标语言模型倾向于在目标结构中删除节点的映射，而非在源和目标结构中保持相同数目节点或在目标结构中增加节点的映射。例如，图9和图10说明了训练数据库518包含传递映射900和1000。传递映射900说明了在目标方比源方少一个节点。传递映射1000说明了在映射的源方和目标方具有相同数目的节点。目标语言模型对映射900的评分将比映射1000高，因为由映射900产生的目标LF片段的产品要比来自映射1000的片断具有较低的概率。

生产模型通过基于节点在训练数据映射中被删除的次数提供分数，有助于克服这个问题。如果很少有节点在训练数据中被删除，那么生产模型将为没有删除的映射提供更高的分数。

通过查看训练数据并为传递映射的源方的每个节点计算在传递映射的目标方中多少时间由一个相应的节点来计算生产模式。为了防止分析数据问题，对于主题的计算由词类归类到一起，而对于语义关系的计算(其数目大约等于词类的数目)分开维持。

对于每个词类或语义关系标签x，生产表的条目表示为：

F [x] \frac{count (x &Element; m_{t}, x &Element; m_{s})}{count (x &Element; m_{s})}

公式14

换而言之，通过计算在目标结构和源结构中都遇到x的次数和在源结构中遇到成分x的次数的比例来得出成分x的生产表条目。因此，依照生产模型μ_F传递映射m的概率计算为：

P_{μ_{F}} (m) = \underset{c &Element; m_{s}}{Π} f (c)

公式15

其中

f (c) = \{\begin{matrix} F [x] & if &Exists; c_{t} m_{t} : c_{t} corresponds to c_{s} \\ 1 - F [x] & otherwise \end{matrix}

换而言之，如果目标的节点对应于源的节点，那么f(c)是生产表条目F[x]。否则，f(c)是1-F[x]。

下一个信息源是映射尺寸分数，它考虑传递映射的源方节点的数目。该信息源指派一分数，计算为：

{Score}_{μ_{S}} (m) = | m |

公式16

实际上，尺寸分数偏向较大的映射，这是基于假设具有较多上下文信息的映射很可能比具有较少上下文信息的映射要好。参见图9和10，传递映射900会收到评分2，因为它在源方有两个节点。传递映射1000也将收到分数2，因为它在源方有两个节点。

二元特征(或比特)信息源考虑在输入依赖关系图和传递映射的源方之间匹配的二元特征(比特)的数目。二元特征源提供等级分数为在源依赖关系图中匹配传递映射的源方比特的输入比特的和。图11说明了输入LF1100，而图12说明了存储在传递映射数据库518中的传递映射1200。输入LF1100中的节点A规定节点A的主题有一被动比特和一单数比特。传递映射1200的源方的节点A规定节点A的主题有一单数比特。因此对传递映射1200的等级分数为一，因为输入LF1100的节点A和映射1200的源方的节点A都具有一匹配单数比特。

图13是说明由图5的解码组件554实现的解码算法的流程图1300。解码组件554依照本发明的一个实施例选择和评分传递映射组。解码组件554采用带有暂存的自上而下搜索以从搜索组件524找到的传递映射组中找出最有可能的映射组合。图14说明了依照本发明的示例性的源LF1400。图15-21说明了由搜索组件524找到的与源LF1400相关的传递映射组。

图5的解码组件554通过选择源LF1400的顶部的节点开始，如块1302中所示。在图14中，顶部节点是节点A。在选择节点A之后，解码组件554转到块1304并确定是否以前识别出这个上下文中该节点的最佳映射。在这个例子中，没有为节点A的映射评分。

接着，该过程在步骤1306继续，其中由搜索组件524从发现的映射组中选择出覆盖所选节点的源方的传递映射。例如，解码组件554选择图15的传递映射1500。

在块1308处，解码组件554确定源LF1400中是否有不被所选映射覆盖和直接从所选映射扩展出的任何节点。在上述例子中，映射1500只覆盖节点A和B。同样地，子节点C不被所选择的映射覆盖而是直接从节点A扩展，所述节点A被所选择的映射覆盖。在步骤1308，如果有不被覆盖的子节点，过程继续到块1310。

在块1310处，解码组件554选择子节点C并将其传回块1304。在块1304处，解码组件554确定在所选择的上下文中是否已经为所选择的节点识别出最佳的映射。特别是对于3-元目标模型，“所选择的上下文”包含节点C的n-1个目标方祖先(在这种情况下，<PRE_ROOT，PRE_ROOT，A’>)。对于节点C，还没有识别出最佳的映射，因此过程继续到步骤1306，其中解码组件554从一组覆盖子节点C的传递映射中选择出一传递映射。例如，解码组件554会选择图16所示的传递映射1600。步骤1306之后，解码组件554转到块1308并决定是否有从被映射覆盖的节点扩展出的任何非被覆盖的子节点。在上述例子中，节点E和F是从被映射1600覆盖的节点扩展出的非被覆盖的子节点。基于非被覆盖的子节点的发现，解码组件554转到块1310。

在块1310处，解码组件554选择未被覆盖的子节点之一，例如节点E，并回到块1304。在块1304处，解码组件554确定在当前活动的目标上下文中(在这种情况下，<PRE_ROOT，A’，C’>)还没有为节点E确定最佳映射。过程接着继续到块1306，其中解码组件554从覆盖节点E的传递映射组中选择一传递映射。例如，解码组件554选择图17所示的传递映射1700。接着，解码组件554转到块1308，并决定该传递映射是否留有任何未被覆盖的子节点。

依照源LF1400，节点E没有子节点。因此，解码组件554继续到块1312以为所选择的传递映射计算分数。这个分数是使用公式8计算的，如上所述，通过结合所有上述的模型。注意采取图13的自上而下的方法的一个原因是保证节点的上下文(在评分的映射中)是已知的，这样使得目标模型(需要该上下文)可以被用于计算目标模型分数。

在为映射评分之后，解码组件转到块1314，并确定是否还有覆盖所选节点的传递映射。在这个例子中，图18为所选节点E示出了另一个传递映射1800。如果有另一个传递映射，解码组件554回到块1306并选择该另外的传递映射。例如，映射1800将被选择。在这个例子中，映射1800没有未被覆盖的子节点。因此，解码组件554通过块1308到块1312，解码组件554在块1312中使用公式3计算传递映射1800的分数。

接着，解码组件554转到块1314以确定对所选择的节点是否有更多的传递映射。在这个例子中，图19示出了覆盖节点E的传递映射1900。解码组件再次回到块1306。在这个例子中，传递映射1900没有任何未被覆盖的子节点。因此，解码组件554使用公式3为传递映射1900计算分数。计算出分数以后，解码组件转到块1314。

如果在步骤1314处解码组件554确定没有更多的映射，过程在步骤1316处继续，其中它从覆盖所选择节点的传递映射中比较和选择分数最高的传递映射。在上述例子中，比较了映射1700、1800和1900的分数，并选择了最高分数的映射。在这个例子中，最高分数的传递映射假定为传递映射1700。解码组件554为最高分数的映射存储映射头部的节点、最高分数映射的上下文(在源LF中，映射扩展自的节点)、最高分数的映射的分数和每个个体模式概率或信息源分数。因此，所选择映射的目标模型概率、通道模型概率、生产模型概率、尺寸分数和等级分数都被存储。虽然为每个模型存储了每个概率或分数，本领域的技术人员应该认识到公式8中所确定的分数是对存储最重要的分数。

在存储了所选映射的分数后，解码模块554转到块1318，其中它确定在所选节点之上是否存在更多层。在上述例子中，节点C在节点E之上。如果有另一层节点在当前所选的节点之上，解码组件554回到块1320处为那个节点考虑的最后一个映射。在上述的例子中，这涉及回到图16的映射1600。

在块1322处，解码组件554确定这个映射是否有其它未被探测出的任何其它未被覆盖的子节点。如果有其它未被覆盖的子节点要探测，解码组件554在块1310处继续，其中解码组件554选择该未被覆盖的子节点。在上述例子中，这会涉及选择子节点F。解码组件554接着转到块1304以确定给定这个节点的上下文，是否为它识别出了最佳的映射。如果还没有确定最佳映射，解码组件554在步骤1306处选择覆盖所选子节点的传递映射(例如，图20的映射2000)。在这个例子中，传递映射2000先前没有被评分。在块1308处，解码组件554确定节点F没有未被覆盖的子节点。因此，解码组件554转到块1312，并使用公式3为节点F计算出分数。

解码组件554转到块1314，以确定节点F是否有更多的传递映射。在这个例子中，没有其它的传递映射覆盖节点F。因此，解码组件554为映射2000存储分数，并为映射2000存储每个单独的模型概率或信息源分数、传递映射2000在其中被评估的目标方上下文的n-a节点、对应于传递映射2000的头节点的输入节点和传递映射2000的总分。

在这个例子中，在节点F上存在源LF1400的更多层次。因此，解码组件554转到块1320，并回到为节点C考虑的最后一个映射。在块1322处，解码组件554确定为节点C所选的映射没有更多的未被覆盖子节点。因此解码组件554转到块1312并为传递映射1600计算总分。

如果所选择的映射有未被覆盖子节点，通过将未被覆盖子节点的最高分数的映射的分数与所选映射的分数相结合来确定该映射的分数。例如，映射1700和2000的分数将和映射1600的分数相结合，以此为源LF中节点C以下的整个映射提供总分。

在一个实施例中，映射分数的每个组件分别结合。因此，映射1600的总的目标模型概率为：

T_{μ_{T}} = \log P_{μ_{T}} (m_{1700}) + \log P_{μ_{T}} (m_{2000}) + \log P_{μ_{T}} (m_{1600})

公式17

其中P_μT(m₁₇₀₀)是映射1700的目标模型概率，P_μT(m₂₀₀₀)是映射2000的目标模型概率，而logP_μT(m₁₆₀₀)是映射1600的目标模型概率。

相似地，映射1600的总的通道模型概率为：

T_{μ_{C}} = \log P_{μ_{C}} (m_{1700}) + \log P_{μ_{C}} (m_{2000}) + \log P_{μ_{C}} (m_{1600})

公式18

映射1600的总的生产模型概率为：

T_{μ_{F}} = \log P_{μ_{F}} (m_{1700}) + \log P_{μ_{F}} (m_{2000}) + \log P_{μ_{F}} (m_{1600})

公式19

映射1600的总的映射尺寸分数是子映射尺寸分数和映射1600单独的映射尺寸分数的平均数：

S_{μ_{S}} = [{Score}_{μ_{S}} (m_{1700}) + {Score}_{μ_{S}} (m_{2000}) + {Score}_{μ_{S}} (m_{1600})] / 3

公式20

与总的映射尺寸分数相同，映射1600的总等级分数是子等级分数和映射1600单独的等级分数的平均数，描述为：

S_{μ_{B}} = [{Score}_{μ_{B}} (m_{1700}) + {Score}_{μ_{B}} (m_{2000}) + {Score}_{μ_{B}} (m_{1600})] / 3

公式21

一旦为每个组件确定了总分，使用上述的公式8为所选的映射将这些总分结合到单个分数。

解码组件554接着转到块1314并决定对节点C是否存在更多的传递映射。在这个例子中，对节点C不存在其它传递映射，因此解码组件554选择传递映射1600作为具有最高分数的映射，并存储映射1600的总分、映射1600的上下文(节点A)、映射1600的头节点(节点C)以及映射1600的个体总组件分数。

在块1318处，解码组件554决定在源LF1400中是否在节点C上存在更多的层。在这个例子中，节点A在节点C之上。因此，解码组件554回到映射中的上一层，如块1320中所示。在上述例子中，这涉及回到图15的映射1500。在块1322处，解码组件554确定所选择的映射是否有任何其它需要探测的未被覆盖的子节点。在这个例子中，没有其它未被覆盖的子节点，因此解码组件554转到块1312，并为传递映射1500计算总分。与映射1600相同，传递映射1500的总分通过将映射1600的分数和映射1500的分数结合而形成。

解码组件554接着转到块1314，并确定对节点A是否存在更多的传递映射。在这个例子中，传递映射2100也覆盖节点A。结果是，过程回到步骤1306以选择传递映射2100。

在步骤1308处，过程确定映射2100有一个未被覆盖的子节点。特别地，节点E和F没有被映射2100覆盖。在步骤1310处，选择了节点E并且过程回到步骤1304以确定给定我们先前对映射2100的选择，在当前上下文中是否已经为节点E选择了最佳映射，在这种情况下应为<PRE_ROOT，A’，C’>。这样一个最好的映射被选择(映射1700)。接着在步骤1320选择这个最佳映射和它的分数，并且过程回到映射2100。

过程接着确定是否有更多的未被覆盖的子节点要考虑。对于映射2100，没有考虑子节点F，并且在步骤1310处选择子节点F。在步骤1304处，确定在节点D的上下文中是否已经为节点F确定了最佳的映射(映射2000)。接着在步骤1320处，选择这个最佳的映射，并且过程回到映射2100。

当回到步骤1322时，没有更多未被覆盖的子节点要考虑，并且使用为映射1700和2000存储的分数和映射2100的个体映射分数为映射2100计算分数。如上所述，映射分数的个体组件是分开结合的。

在步骤1314处，不存在其它的传递映射，因此解码组件554转到块1316，并基于传递映射1500和2100这两个映射结构的总分，在由传递映射1500开头的传递映射结构和由传递映射2100开头的传递映射结构之间选择。解码组件554为最高分数的传递映射结构存储总分并转到块1318。在块1318处，解码组件确定在节点A上是否存在更多的层。在这个例子中，节点A是源LF1400中的最高节点，因此解码组件554结束解码并回到为节点A所确定的最高分数的传递映射结构。

基于图15-21所示的存储的最高分数的传递映射，传递组件526可以建立目标LF。例如，如果传递映射1500、1600、1700和1900被选为最高分数传递映射，并且因此具有目标翻译的最高概率，它们被组合以形成目标LF。

诸如统计模型和其它评分技术等信息源被用在本发明中，以此为语义结构确定最佳翻译。通过使用贪心搜索算法(在一个实施例中)相对于一组传递映射，输入语义结构被用于生成输出语义结构。然而，贪心搜索算法不会测试传递映射的所有可能组合，而仅仅是选择第一组完全覆盖输入语义结构的传递映射。统计模型被用于预测给定输入字符串，最可能的输出字符串。然而，在基于字符串系统中使用的统计模型假设可以通过相邻或几乎相邻的元素预测一元素。因此，本发明使用统计模型来为语义结构预测最佳翻译。

虽然目标语言模型，如应用于本发明的语义结构，可以用在建立输出单词串，如同应用到语义结构的目标语言模型可以用在其它语言程序中。例如，其它系统包含语音识别、光学符号识别、手写识别、信息提取和语法检查。

虽然参照特定实施例描述了本发明，本发明的技术人员会认识到可以在形式或细节上作出不背离本发明精神和范围的改变。

Claims

1.一种解码输入语义结构以生成输出语义结构的方法，所述的方法包含：

提供一传递映射组；

使用一统计模型，为所述传递映射组中至少一个传递映射计算分数；

基于该分数，选择至少一个传递映射；

使用所选的传递映射以构建所述输出语义结构。

2.如权利要求1所述的方法，其特征在于，提供一传递映射组包含提供一传递映射组，每个传递映射有描述输入语义结构的节点的输入语义方，和描述输出语义结构的节点的输出语义方。

3.如权利要求1所述的方法，其特征在于，为至少一个传递映射计算分数包含使用一目标语言模型计算分数，所述目标语言模型提供一组节点出现在所述输出语义结构中的概率。

4.如权利要求2所述的方法，其特征在于，为至少一个传递映射计算分数包含使用一通道模型计算分数，所述通道模型提供给定传递映射的输出语义方时传递映射的输入语义方的概率。

5.如权利要求4所述的方法，其特征在于，使用所述通道模型计算分数包含基于传递映射之间的多个重叠节点，归一化通道模型分数。

6.如权利要求2所述的方法，其特征在于，为至少一个传递映射计算分数包含使用一生产模型计算分数，所述生产模型提供传递映射中节点删除的概率。

7.如权利要求2所述的方法，其特征在于，为至少一个传递映射计算分数包含基于传递映射的输入语义方中的多个节点计算尺寸分数。

8.如权利要求2所述的方法，其特征在于，为至少一个传递映射计算分数包含基于输入语义结构和传递映射的输入语义方中的多个匹配二元特征计算等级分数。

9.如权利要求2所述的方法，其特征在于，为所述传递映射组中的至少一个传递映射计算分数包含：

为多个模型计算单独的分数；以及

结合单独的分数以确定所述传递映射的分数。

10.如权利要求9所述的方法，其特征在于，所述多个模型包含通道模型，所述通道模型提供给定所述传递映射的输出语义方时所述传递映射的输入语义方的概率。

11.如权利要求9所述的方法，其特征在于，所述多个模型包含生产模型，所述生产模型提供了传递映射中节点删除的概率。

12.如权利要求9所述的方法，其特征在于，所述多个模型包含目标语言模型，所述目标语言模型提供了一组节点出现在所述输出语义结构中的概率。

13.如权利要求9所述的方法，其特征在于，还包含：

为所述传递映射计算尺寸分数，所述尺寸分数基于传递映射的输入语义方中的多个节点；

将所述尺寸分数与多个模型的单独分数相结合，以确定所述传递映射的分数。

14.如权利要求9所述的方法，其特征在于，还包含：

为所述传递映射计算等级分数，所述等级分数基于输入语义结构和所述传递映射的输入语义方中多个匹配的二元特征；以及

将所述等级分数与多个模型的单独分数相结合，以确定所述传递映射的分数。

15.如权利要求9所述的方法，其特征在于，将所述分数相结合包含：

将每个分数乘以一权值以形成加权模型分数；以及

对加权的模型分数求和以确定每个传递映射的分数。

16.如权利要求2所述的方法，其特征在于，提供一传递映射组包含提供一排列为树型结构的传递映射组，所述树型结构包含一根传递映射和子树，每个子树包含一根传递映射，其中，所述传递映射组中的每个传递映射在树和子树的至少一个中表现为根传递映射。

17.如权利要求16所述的方法，其特征在于，提供一作为树型结构的传递映射组包含提供多层嵌套的子树。

18.如权利要求17所述的方法，其特征在于，为至少一个传递映射计算分数包含通过以下步骤为传递映射的树计算分数：

为每一层嵌套子树递归计算分数，其中，为子树计算分数包含为子树的子树的递归评分、为子树的根传递映射计算分数、以及将子树的子树的分数与子树的根传递映射的分数相结合；

为根传递映射计算分数；以及

将每个子树的分数与根传递映射的分数结合。

19.如权利要求18所述的方法，其特征在于，为根传递映射计算分数包含基于根传递映射的输入语义方中的多个节点计算根传递映射的尺寸分数。

20.如权利要求18所述的方法，其特征在于，将每个子树的分数与根传递映射的分数结合包含通过求子树的尺寸分数与根传递映射的尺寸分数的平均值来将子树的尺寸分数与根传递映射的尺寸分数相结合。

21.如权利要求18所述的方法，其特征在于，为根传递映射计算分数包含基于输入语义结构和所述根传递映射的输入语义方中多个匹配的二元特征为根传递映射计算等级分数。

22.如权利要求21所述的方法，其特征在于，将子树的分数与根传递映射的分数相结合包含通过求子树的等级分数与根传递映射的等级分数的平均值来将子树的等级分数与根传递映射的等级分数相结合。

23.一种机器翻译系统，用于将第一语言的输入翻译成第二语言的输出，所述系统包含：

一语法分析器，用于将输入分解成输入语义表示；

一搜索组件，它被配置成找出一传递映射组，其中每个传递映射对应于所述输入语义表示的一部分；

一解码组件，它被配置成为多个传递映射评分，并基于所述分数选择至少一个传递映射；以及

一生成组件，它被配置成基于所选择传递映射生成输出。

24.如权利要求23所述的机器翻译系统，其特征在于，所述解码组件通过使用多个统计模型来对每个传递映射评分。

25.如权利要求24所述的机器翻译系统，其特征在于，所述输出包含一输出语义表示，并且多个统计模型包含目标模型，所述目标模型提供节点序列出现在输出语义表示中的概率。

26.如权利要求24所述的机器翻译系统，其特征在于，所述多个统计模型包含通道模型，所述通道模型提供给定传递的输出方中一组语义节点时传递映射的输入语义方中的一组语义节点的概率。

27.如权利要求24所述的机器翻译系统，其特征在于，所述多个统计模型包含生产模型，所述生产模型提供传递映射中节点删除的概率。

28.如权利要求24所述的机器翻译系统，其特征在于，所述解码组件基于传递映射的输入方中的多个节点，使用尺寸分数为每个传递映射评分。

29.如权利要求24所述的机器翻译系统，其特征在于，所述解码组件基于所述输入和传递映射的输入方之间的多个匹配二元特征，使用等级分数为每个传递映射评分。

30.一种为单词串确定分数的计算机实现的方法，所述方法包含：

计算具有与所述单词串相关的多个节点的语义结构；以及

用目标语言模型为所述单词串评分，所述目标语言模型提供语义结构中节点序列的概率以为所述单词串评分。

31.如权利要求30所述的计算机实现的方法，其特征在于，提供具有多个节点的语义结构包含提供具有多个单词节点以及描述单词间语义关系的至少一个关系节点的语义结构。

32.如权利要求30所述的计算机实现的方法，其特征在于，提供单词节点包含为主题提供单词节点。

33.如权利要求30所述的计算机实现的方法，其特征在于，用目标语言模型为所述单词串评分包含用机器翻译中的目标语言模型为所述单词串评分。

34.如权利要求30所述的计算机实现的方法，其特征在于，用目标语言模型为所述单词串评分包含用语音识别中的目标语言模型为所述单词串评分。

35.如权利要求30所述的计算机实现的方法，其特征在于，用目标语言模型为所述单词串评分包含用光学字符识别中的目标语言模型为所述单词串评分。

36.如权利要求30所述的计算机实现的方法，其特征在于，用目标语言模型为所述单词串评分包含用语法检查中的目标语言模型为所述单词串评分。

37.如权利要求30所述的计算机实现的方法，其特征在于，用目标语言模型为所述单词串评分包含用手写识别中的目标语言模型为所述单词串评分。

38.如权利要求30所述的计算机实现的方法，其特征在于，用目标语言模型为所述单词串评分包含用信息提取中的目标语言模型为所述单词串打分。