具体实施方式
本发明描述了关于一个句子实现的系统。本发明包括全部句子实现系统的树形排序部件和包含在该部件中的方法。
本发明利用判定树来估计成分结构模式中的概率分配以确定在自然语言生成中的成分顺序。这种方法可以不通过人工特征选择来处理一个很大的特征空间。在此所述的技术使用于法语和德语中广泛覆盖的句子实现,以说明如何处理这些语言中字序的推广。该技术也可适用于任何其它语言。
图1举例说明了一个可执行本发明的合适的计算系统环境100的实例。该计算系统环境100只是合适的计算环境的一个实例,但并不是对本发明的使用或功能性的范围的任何限定。计算环境100也不作为具有涉及在典型的操作环境100中所说明的任何一个或组合的部件的任何从属性或必要条件来解释。
本发明通过许多其它一般目的或特殊目的计算系统环境或配置来操作。熟知的可以适合于本发明使用的计算系统、环境、和/或配置的例子包括但并不限于个人计算机、服务器计算机、手提式或膝上型设备、多处理器系统、基于微处理器系统、机顶盒、可编程消费电子技术、网络个人计算机、小型计算机、大型计算机、包括任何一个上述系统或设备的分布计算环境等,。
本发明可在计算机执行指令诸如由一个计算机执行的程序模块的通用环境中描述,。通常,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、部件、数据结构等。本发明也可以在分布计算环境中实行,在分布计算环境中通过由一个通信网络连接的远程处理设备来执行任务。在分布计算环境中,程序模块可以位于包括存储器设备的本地和远程计算机存储介质中。
根据图1,一个用于实现本发明的典型系统包括形式为计算机110的一个通用计算设备。计算机110的部件可以包括但并不限于一个处理单元120、一个系统存储器130、和一个连接包括从该系统存储器到该处理单元120的各系统部件的系统总线121。该系统总线121可以是几种类型的总线结构中的任何一种,该总线结构包括一个存储总线或存储控制器、一个外围总线和一个使用多种总线结构中的任何一个的局部总线。举例来说但并不局限于此,这样的结构包括工业标准结构(ISA)总线、微通道(MCA)总线、增强型ISA(EISA)总线、视频电子标准协会(VESA)局部总线、以及也被称为夹层(Mezzanine)总线的外设部件互连(PCI)总线。
计算机110典型地包括多种计算机可读介质。计算机可读介质可以是能够通过计算机110访问的任何可用介质,并包括易失和非易失介质、可拆卸和不可拆卸介质。举例来说但并不局限于此,计算机可读介质可以包含计算机存储介质和通信介质。计算机存储介质包括以任何用于信息的存储的方法或技术实现的易失和非易失介质、可拆卸和不可拆卸介质,这些信息可例如是计算机可读指令、程序模块或其它数据。计算机存储介质包括,但并不局限于RAM,ROM,EEPROM,闪存存储器或其它存储技术、CD-ROM,数字通用盘(DVD)或其它光盘存储器、磁带盒、磁带、磁盘存储器或其它磁存储器设备、或任何其它可以用于存储需求信息和可以通过计算机110访问的介质。通信介质典型地包含计算机可读指令、数据结构、程序模块或在例如一个载波中的调制数据信号中或在其它传送机构中的其它数据,并包括任何信息传递介质。术语“调制数据信号”表示一个以在信号中编码信息的方式对其一个或多个特征进行设定或改变的信号。举例来说但并不局限于此,通信介质包括如一个有线网络或直接接线的连接器这样的有线介质,以及像声学的、RF、红外线的以及其它无线介质这样的无线介质,但并不局限于此。上述任意一种的组合也包括在计算机可读介质的范围中。
系统存储器130包括形式为易失和/或非易失存储器的计算机存储介质诸如只读存储器(ROM)131和随机存取存储器(RAM)132。一个基本输入/输出系统133(BIOS)通常存储在ROM131中,该系统包含例如在启动过程中帮助在计算机100中的元件间传递信息的基本程序。RAM132典型地包含通过处理单元120可快速访问和/或正在运行的数据和/或程序模块。举例来说但并不局限于此,图1说明了操作系统134、应用程序135、其它程序模块136、以及程序数据137。
计算机110也可包括其它可拆卸和不可拆卸、易失和非易失计算机存储介质。仅举例来说,图1说明了一个从不可拆卸的、非易失磁盘介质进行读出或写入的硬盘设备141,一个从可拆卸的、非易失磁盘152读出或写入的磁盘设备151,以及一个从诸如CD ROM或其它光学介质那样的可拆卸的、非易失光盘156读出或写入的光盘设备155。其它可以在典型的操作环境中使用的可拆卸/不可拆卸、易失/非易失计算机存储介质包括但并不局限于磁带盒、闪存存储卡、数字通用盘、数字视频录像带、固态RAM、固态ROM等。硬盘驱动器141典型地通过一个像接口140这样的不可拆卸存储器接口连接到系统总线121,磁盘驱动器151和光盘驱动器155典型地通过一个像接口150这样的可拆卸存储器接口连接到系统总线121。
以上讨论的并在图1中说明的这些驱动器以及与它们关联的计算机存储介质提供了用于计算机110的计算机可读指令、数据结构、程序模块和其它数据的存储。在图1中,例如,硬盘驱动器141被解释为存储操作系统144、应用程序145、其它程序模块、以及程序数据147。注意到这些部件与操作系统134、应用程序135、其它程序模块136、以及程序数据137既可以是相同的或者也可以是不同的。此处提供给操作系统144、应用程序145、其它程序模块146以不同的数字用于解释至少它们是不同的复制。
用户可以通过诸如键盘162、麦克风163、以及定点设备诸如鼠标、轨迹球或触摸板这样的输入设备来输入命令和信息到计算机110中。其它输入设备(未示出)可以包括一个操纵杆、游戏板、卫星反射器、扫描仪等。这些或其它输入设备通常通过一个连接到系统总线的用户输入接口160连接到处理单元120,但也可以用其它接口和总线结构连接,如一个并行端口、游戏端口或一个通用串行总线(USB)。监视器191或其它类型的显示设备通过如视频接口190这样的一个接口也连接到系统总线121。除该监视器之外,计算机也可以包括如扬声器197和打印机196这样的其它外围输出设备,该设备可以通过一个输出外围接口195连接。
计算机110通过使用到一个或多个远程计算机诸如远程计算机180的逻辑链接而在网络环境中操作。远程计算机180可以是个人计算机、手提设备、服务器、路由器、网络个人计算机、同级设备或其它通用网络节点,其典型地包括许多或全部上述与计算机110相关的元件。在图1中描述的该逻辑连接包括一个本地局域网(LAN)171和一个广域网(WAN)173,但也包括其它网络。这种网络化环境常见于办公室、企业广阔计算机网络、内联网和互联网中。
当在LAN网络化环境中使用时,计算机110通过一个网络接口或适配器170连接到局域网171。当在WAN网络化环境中使用时,计算机110典型地包括一个调制解调器172或其它用于在WAN173诸如互联网上建立通信的装置。调制解调器172可以是内置或外挂式的,其可通过用户输入接口160或其它合适的机制连接到系统总线121。在一个网络环境中,所描述的与计算机110相关的程序模块或其中的一部分程序模块可以存储在远程存储器存储设备。举例来说但并不局限于此,图1说明了远程计算机180上驻留有远程应用程序185。可以理解,所示的网络连接是典型的,以及可以使用在计算机间建立通信链接的其它手段。
图2是使用本发明的句子实现部件200的方块图(也说明数据流)。句子实现部件200包括预处理部件202、增加(flesh-out)部件204、基础树转换部件206、整体迁移部件208、内部成分排序部件210、表层清除部件212、标点插入部件214、词尾变化生成部件216以及树读出部件218。现在来描述系统200的所有操作。
系统200接收作为输入的一个输入句子的抽象的语言表达。在此讨论的实施例中,该输入是一个逻辑形式。然而,可以意识到实际上一个句子的任何其它语法或语义上的表达也可以作为一个输入而被接收的。1998年10月12日公开Heidorn等人的题为METHOD AND SYSTEM FOR COMPUTING SEMANTICLOGICAL FORMS FORM SYNTAX TREES的美国专利No.5,966,686,非常详细的阐明了逻辑形式结构。
预处理部件202通过分离输入来处理该抽象的语言表达。例如,输入是一个逻辑形式,它是一个图结构,而不是一个树形结构。因此,该输入结构被分离并转换成一个更加类似于树的结构。预处理部件202例如通过一个字典查找操作也将词汇信息添加到该输入结构中。预处理部件202也可以执行复合成分的简化。预处理部件202的输出是一个具有添加于此的附加信息的分离结构220。
增加部件204接收数据结构220并添加语法信息到该数据结构。增加部件204也插入功能词,例如限定词、助动词、语义空缺介词、关系代词等。部件204也分配大小写(case)特征和动词位置特征,以及用于清楚地说明名词短语在主语或宾语中的位置的概率。增加部件204提供一个带有语法和其它添加于此的其他附加信息的分离结构作为一个输出。
基础树转换部件206接收数据结构222并将该数据结构转换成一个基础语法树。部件206从该分离的数据结构222中读出一个语法树结构,并从它们的词干中分离出可分离的前缀。部件206也可以引入一个等同的语法表达,并颠倒某些语法支配关系。部件206提供一个基础无序语法树224以作为输出。
整体移动部件208接收结构224,并执行整体迁移或整体排序。整体移动包括疑问词(WH词)、关系代词、以及在语言原理中出现的已知处理的移动。部件208也执行外部位置(extraposition)处理。部件208提供结构206以作为输出,该结构中每个成分具有合适的父节点,即使226中的成分是无序的。
内部成分排序部件210接收结构226作为一个输入,并完全排序语法树中的节点以在它的输出端提供一个全序语法树。
表层清除部件212接收结构228并执行表层清楚操作,例如限定字、关系代词和反身代词的表层实现。部件212也删除等同的复制物。部件212提供一个规则的全序语法树230作为一个输出。
标点部件214接收结构230,并将标点符号插入到该语法树。部件214提供由数字232指示的具有插入标点的清除过的全排序语法树以作为它的输出。
词尾变化产生部件216接收结构232,产生最终的词尾变化,以及输出一个最终词尾变化树234。树读取部件218简单地读取树234,并通过在最终词尾变化树234的叶子上发出(emitting)单词来提供表面字符串236(或实现的句子236)作为一个输出。这是在图2中示出的传递途径的终点。
使用上述系统,通过使用多种机器识别模型从语义从属性关系图中产生句子串,该机器识别模型为特殊语言操作的应用来确定上下文。这些操作将语义表达转换成一个语法树和一个流串。
一旦建立了所有语法节点并确定了所有层次关系,那么在无序语法树的成分中就能确定次序从而产生一个有序的语法树。
这主要在图3中体现,图3中通过排序部件210排序一个无序树,产生一个有序语法树(或有序树的一列)。该无序语法树例如可以是图2中的226所示出的那样,而该有序树可以是图2中的228所示出的那样。例如,将图5示出无序语法树作为例子。这个无序语法树从表示德语句子“In der folgenden Tabelle werden dieOptionen sowie deren Funktionen aufgelistet.”的图4所示的语义从属性关系图中得出。这个句子的英语等义句为:“The options and their functions are listed in thefollowing table.”。在图5中,修饰词和中心词之间的语义关系在节点的括号中示出。用于这种无序语法树的一个有序语法树可以是图6中示出的树。
本发明在一个实施例中,还通过利用判定树来估计在成分结构的模型中的概率分配以便建立成分的排序从而加强了句子实现处理。这种方法可以不通过人工特征选择来处理一个很大的特征空间。其它实施例使用其它技术(例如对数线性模型的最大平均信息量训练)来估计该概率分配。
先前大多数对句子实现过程中决定成分排序的问题的研究都集中在英语这这样的具有相当严格的词和成分排序的语言上。在发明中,我们集中在提出新的挑战的法语和德语上。本发明的目的是介绍一个模型,该模型对类型多样的语言以统一和文雅的方式来处理所有排序现象。在当前揭露的内容中,描述可能的模型空间以及精确地分析这些模型中的一部分。在详细描述该模型之前,我们略述法语和德语中判定词及成分顺序中的问题。
词和成分顺序
为了产生流畅的句子,有关成分顺序的任何模型中的挑战是依赖于成分类型和上下文而认识到首选排序的约束约束条件。
在德语句子实现中的挑战是固定动词位置与其他成分相当自由的定位的结合。在说明性主句和从句的小子集中,限定动词必须出现在成分的任何类型之后的第二位置中(“第二动词”从句)。大多数从句中的限定动词和所有非限定性动词置于从句的末端(“最后动词”从句,如图6所示)。动词安置的错误会产生很难理解的文本。
动词的变量和附加的修饰成分可以置于通过这种固定文字格式所定义的模板内的各种位置。用于确定这些不固定成分的定位的该结构的、语法以及语义的成分是不能完全理解的。
由于表面语义和语法关系之间的关系更直接,因而法语和英语是相似的。在排序任务的复杂度上法语处于英语和德语之间。如同英语,法语的成分排序是相当严格的,但法语中的词序不及英语中的严格。如同英语,法语是一个SVO语言,但补语的排序是相当自由的:PP补语常处于多于一个词的宾语补语之前,并且它们可以出现在句子的开始。在关系从句中,颠倒接语宾语(non-clitic subjects)是常见的。形容词的位置也是没有英语中的严格:许多形容词可以在它们修饰的名词之前或跟随该名词,而其它形容词只是在名词之后或跟随着名词。
另一方面,宾语和动词之间的成分排序是非常严格的。接语代词和接语否定作为独立词在法语中拼字正确地表示,该接语代词和接语在由接语(目标、与格形式、或定位)的类型和接语的一致特征所确定的严格顺序中的宾语和动词之间出现。
成分顺序的模型
出于描述捕捉重要顺序现象的成分结构的模型的目的,我们考虑可能接合的空间和条件模型。在该模型中的独立假设、在该模型中使用的特征集、以及自动特征选择都在产生有用的模式中扮演一个重要的角色。许多结合是可能的,并且本发明包含已经发现的有用的结合。
该模式在输入特征的范围内不同于先前的统计法。如同知识工程(设计)(knowledge-engineered)法,在此出现的模型在中心词和它们的修饰词之间插入词汇特征、词性、成分类型、成分边界、长距离从属、以及语义关系。
虽然所描述的模型不覆盖可能存在的模型的整个空间,但已在该空间中选择了重要点。
接合模型
我们首先考虑在有序语法树π和无序语法树ρ上的形式为P(π,ρ)的成分结构的接合模型。一个有序语法树包括非终结符成分C,每一个非终结符成分C是子代(D1,…,Dn)的一个有序序列的父代,非终结符成分C之一是中心词成分H。(所有大写拉丁字母都表示成分,并且相应的小写拉丁字母表示它们的标记—也就是,语法分类。)给出一个有序树π,函数unordered_tree(π)的值是一个相应于π且包含用于π中每一个C的一个成分B的无序树ρ,,如B=unordered_set(C)={D1,…,Dn},此外对于(1…n)中的某个i,H=D1。ρ的分级结构和π是相同的。
使用如下的用于计算可选择的有序树的接合模型:给出一个无序语法树ρ,我们需要得到能够最大化接合概率的有序树
也就是,寻求
式1
如式1所示,可以将我们的搜索限制到作为给出树ρ的可选择排序的那些树π中。
为了限制该可能的模型类型,假设包含子代的任何成分的排序是独立于该树中其它成分内的排序。因此,每一个成分从而可以独立地排序。
式2
特别地,对于
具有:
式3
最终,对于每一个B∈constits(ρ),
式4
所以,我们将问题简化为寻找无序树中每个成分的最佳排序。
实际上,可以进一步根据B的中心词而进一步地限定搜寻,这是由于C的中心词必须与B的中心词匹配:
式5
仅可能的有序树是具有满足上述属性的成分的树形构造。需要将P(C)格式化以使反映P(π)这个问题。使Z为该格式化常数:
式6
因而:
式7
当然,对于一个给出的B,Z是常数,并且因此,对变量最大值没有影响,从而不需要在实际中计算该常数。
如果希望规定某个特征x=f(ρ),则必须首先预测它:
式8
如果x确实是ρ的一个特征并且不依赖于哪一个C与ρ相兼容,则P(x)是常数,并且不需要在实际中计算P(x)。因此,如在式9中,即使对于一个接合模型,可以添加在给出的无序树中定位的条件特征,而不需要首先预测这些特征。
式9
在此描述的接合模型具有这种形式。为此,当描述一个分配P(C|x)时,如果没有明确地描述其他方式,则实际上我们描述该接合模型中感兴趣的部分。如上论证的,不需要去计算P(x)而将简单地给出P(C|x)的可选择的形式。
我们可以以许多不同的方式通过使用链式规则对分配P(x)(或P(C|x))进行因子分解。采用称为马尔可夫文法的模型类型作为出发点。“马尔可夫文法”是一个成分结构的模型,它开始于树的根结点并每次将概率分配给一个非终端的子代的扩展,而不是作为全部产生(productions)(见Charniak,E.,1997,AIMagazine(1997)中的“Statistical Techniques for Natural Language Parsing”;以及Charniak,E.,2000,Proceeding of ACL 2000中的“A Maximum-Entropy-InspiredParser”,132-139页。)
从左到右
我们还将焦点放在接合模型上,首先考虑序列j的从左到右的马尔可夫文法,它通过从左到右预测它的子代D1,…,Dn来展开C,如图7所示,根据式11中的分配每次展开一个。
式11
为了将每个子节点DI的另一个特征诸如的语义关系ψi限定到中心词成分H,也要首先根据链式法则来预测该特征。该结果为式12:
式12
因此,该模型预测了语义关系ψi,然后预测了该语义关系的上下文中的标记dI。
作为上述模型的扩展,包括通过在已排序C的子节点的集合αi上的以下函数来计算特征:
●已排序的子节点数(αi的大小)
●在具有特殊标记的αi中用于每一个可能的成分标记{NP,AUXP,VP等。}的子节点数(德语为24个,法语为23)
这样,一个马尔可夫序列j的模型可能具有大于j的真实序列。在这一点上,术语“马尔可夫文法”的使用不同于该惯用语的常规解释。我们注意到特征集简写形式为f(αi):
式13
中心词-驱动
如图8所示,作为对于从左到右扩展的一种选择选择,可以将一个有序树Π的每一个成分C描述为中心词子节点、已排序的前接修饰词(L1,…,Lm)(H的)、以及已排序的后接修饰词(R1,…,Rn)。我们称这为一个“中心词-驱动马尔可夫文法”。如果限定上下文(conditioning context)在在中心词处停止,则没有一般性的损失,扩展首先以随后跟有后接修饰词的前接修饰词开始。该分布为两部分,一部分用于前接修饰词的扩展,第二部分用于后接修饰词的扩展:
式14
如在该从左到右的例子中,我们将一个子节点的语义关系限定到该中心词成分H。对于一个更丰富的模型,以已排序子节点的全部集合αI为条件(从而以跨越该中心词的特征为条件)。
现在考虑使用以下附加特征的更复杂的模型:C的中心词H、相应于C的无序成分B、它们的父节点PB、以及它们的祖父节点GB。如式13中的前后关系,B、PB、以及GB的每一个表示在它们各自的成分上的语言特征集:
P(C|ρ)=P(C|h,B,PB,GB) 式15
因此,具有从左到右的方向的复杂模型如下构造:
式16
此处,P(C|h,B,PB,GB)的每一个模型可以参考B的任意特征。同时也包括已排序C的子节点的集合αi上的功能特征。例如:
●留待排序的子节点数(βi的大小)
●具有一个特殊标签的βi中子节点数
我们注意到这些特征集的简化形式为f(αi)和f(βi):
式17
与简单模型一样,我们也可以考虑相同形式的复杂中心词-驱动马尔可夫文法。
二元条件的模型
现在介绍称为二元条件模型的第三类型模型。该模型估计在具有值{yes,no}且称为“下一分类”的二元变量σ上的分布。如图9所示,它表示βi(如上定义的,父节点C的仍为无序子节点的集合)的一个仍为无序的成员D应在下一次“分类”的事件。该条件特征和在以上讨论的从左到右的条件模型中的那些特征几乎是相同的,除了在条件上下文中出现的D和ψ(带有中心词D的语义关系)之外从不预测。在它的简单形式中,该模型估计以下分配:
P[σ|d,ψ,di-1,ψi-1,...,di-j,ψi-j,c,h,B,PB,GB,f(αi),g(βi)] 式18
在此后的搜索部分中描述了怎样在一个从左到右“挑选”的搜索中直接应用这种模型。
估计
可以使用许多不同的技术来估计一个模型的分布。在本发明揭露的内容中,使用插入语言建模技术(此后缩写为LM)和概率的判定树(DTs)。即使在此揭露的内容中没有详细描述,本领域的技术人员将认识到也可以使用特征选择和分配估计的其他方法。
我们描述了在实验中使用的两种类型的模型。在此揭露的所有模型是带有除了之前定义的附加特征函数f(αi)和f(βi)之外的马尔可夫序列2。
语言建模
LM模型使用插入的Kneser-Ney作为一个平滑技术。见Kneser R.和Ney H.,1995,Proceedings of the IEEE International Conference on Acoustics,Speech,andSignal Processing中的“Improved backing-off for m-gram language modeling”,卷1,181-184页;以及Goodman J.T.,2001,“A Bit of Progress in LanguageModeling:Extended Version”,微Microsoft technical report MSR-TR-2001-72。这种方法(以及所使用的工具)的一个缺点是需要手动特征选择和手动指定后退(back-off)序列,该需求的实际结果是仅可以有效地使用少量的相关特征。在本实验中使用这种类型的单一连接中心词-驱动模型。
判定树
使用WinMine工具建立判定树(见Chickering D.M.,2002,“THE WinMineTookit”Microsoft Technical Report 2002-103)。需要阐明的是,WinMine-识别判定树不仅仅是分类器;训练每一个叶节点都是目标特征值上的条件概率分布,在训练中给出所有可用特征;因此该树本身是一个相同条件分布的估计。使用判定树并且特别是使用概率DTs的主要优越性是在从很大的特征组合中的自动选择特征。本发明使用6个带有丰富的特征集的这种类型的模型。两个模型是接合的;两个是在已排序的子节点集(由f(αi)表示)上带有特征的接合;两个是条件的。每一种类型是都是中心词-驱动,并且每一种类型都是从左到右的。另外,还利用一个从左到右的二元条件DT模型,既可以是标准化的,也可以不是。
特征和特征选择
为不同的判定树模型提取一个宽范围的语言特征。对于德语来说,选择的特征数数目为6到8(8之外)是适合于接合模型、选择的数量范围为7到16(33以外)是适合于带有f(αi)的接合模型、选择特征的数目范围为21到107((中心词-驱动)487以外,494(从左到右))是适合于条件模型、以及在该二元条件模型中达到280(651以外)。对于法语来说,该接合模型所选择的特征数的范围是从6到8(8以外),带有f(αi)的接合模型所选择的数量范围是7到11(32以外),条件模型的范围是从22到91((中心词-驱动)404以外,429(从左到右)),并且在该二元条件模型中达到218(550以外),所有这些完全可以与德语模型相比较。该复杂的二元条件模型可以从可用特征的所有范围中描绘出:
●词汇的次范畴化特征,如带有传递性和具有从句补语的兼容性
●短语(或词干)
●语义特征,诸如语义关系和定量操作的存在性
●词中成分的长度
●语法信息,如标记和语法修饰词的表达
从语言的观点来说,即使具有德语和法语语法中特殊的详细语言知识,也不可能人工地执行这种特征选择。一些显著的基础语义特征诸如anicacy和确定性很明显与排序相关。然而,这些特征的交互作用通常太难于理解而不能在排序中使用它们的规则的说明性规约。
搜索-彻底搜索
给出一个无序树ρ和一个成分结构O的模型,依据该模型的复合状态并随着上下文的改变来寻找最大化为Po(π|ρ)的最佳有序树π。每一个模型(除了二元条件模型)估计在π中给出的任何成分C的排序的概率,独立于π中其它成分的内部排序。完整的搜索是一动态可编程算法,根据模型,其即可以是C的子节点中的从左到右也可以是中心词-驱动。该搜索主张一个非统计约束:当并列成分出现在该“无序”树中时才考虑它们的序列。
搜索-对二元条件模型的期望搜寻
该二元条件在一个从左到右“分类”模式中应用。参照用于处理语义的图9。对于βi中的每一个无序子节点Dj,针对σj=yes的概率参考该模型,也就是说应将Dj放置在已排序姐妹节点的正确位置。在βi中具有最高概率的子节点从βi中移走,并且该节点扩展αi到右边。该搜索处理剩余无序成分进行,直到无序成分列中所有的成分都以这种期望的方式进行排列排序。
为了应用这种模型应用到完全DP搜索中,在搜索的每一个阶段规范化该模型,并从而强制该模型成为βi中的剩余子节点上的概率分布。式18简单的记为P(α|d,ψ,Γi),Γi表示在搜索阶段i上给出的搜索假设的前后关系特征。因此,通过式19给出状态i的被规范化的分配。如同k,自由变量j表示βi中无序子节点上的索引。
式19
实验-训练
此处描述一组实验以来比较和对比上述不同的模型。为了训练,使用同时针对法语和德语的一个含有20,000个句子的训练集。数据从计算机领域中的技术规则中得到。对于一个在该训练集中给出的句子,首先使用NLPWin系统(发行于1999年10月12日,Heidorn等的美国专利No.5,966,686,题为METHOD ANDSYSTEM FOR COMPUTING SEMANTIC LOGICAL FORMS FROM SYNTAXTREES)将该句子作为一个语法树和一个语义从属性关系图进行分析。通过参考该语义从属性关系图和该语法树而在生成运行期异常(exception)产生一个树,所述树具有)Amalgam排序阶段所见的所有树形特征:这些训练树被完全排序。这种树包括全部重要特征,这些特征包括一个中心词和它的修饰词之间的语义关系。所使用的顺序模型根据从这些树的成分中而训练。
实验-估计
为了估计该模型,独立地估计该排序处理,不依赖于其余的Amalgam句子实现处理。对每一种语言也同样根据技术规则来使用其余1,000个句子的测试集。为了对一个给定的测试句子进行独立地排序,该句子作为训练来处理以产生一个有序树π(用于估计的参考),并从该句子产生一个无序树ρ。给出的ρ,使用该讨论的模型为的最佳有序树
进行一个搜索。然后进行π和
的对比。由于只执行了成分排序,π和
可以通过比较它们相应成分的排序来进行对比。通常用于比较本例中的两个成分的度量是一个编排距离,该距离作为在移动中参与的全部子节点的百分比来测量。该假定树
的全部计数是每一成分编排距离的加权平均值。
同时,出于对误差分析和确定在关有重要语言上下文的给定模型的影响的目的,对每一个非终端类型计算平均的每一成分编排距离度量。
对于每一个模型,在图10的表中描述了用于给定语言的测试集上的的平均计算。对于德语和法语,该从左到右的二元条件DT模型(在一个期望的搜索中应用)胜过所有其它模型。规范化该二进制条件模型并且将其应用在完全搜索中是没有什么帮助的;实际上在精确性方式中细微量(slight drop)可以归于该表的偏差问题。见Lafferty等的,2001年,“Conditional Random Fields:Probabilisticmodels for segmenting and labeling sequence data”,Proc.of 18th ICML,282-289页。
该插入语言模型对法语和德语执行是次好的。这种模型具有最简单的结构,但使用最完善的修匀。
需要引起注意的是,对德语和法语来说该从左到右的接合模型(不带有f(αi)特征)胜于该中心词-驱动的接合模型。包括该f(αi)特征的从左到右和中心词-驱动的接合模型对法语颠倒该特征的位置,但不对德语进行该颠倒。
还是对于德语来说,该从左到右的条件模型要胜于该中心词-驱动的条件模型。对于法语来说,侥幸不是这种情况。就条件比接合模型的问题来说,该简单模型(带有f(αi)特征)一向胜过它们的复杂的对应模型。这可能是由于缺乏足够的联系数据。此时,该复杂模型的训练时间成为限制因素。
在该德语模型的性能和该法语模型的性能之间存在一个清楚的不同。最佳德语模型比最佳法语模型差两倍。
对于个别语法类别,该二元条件模型的长处主要在于动词成分中的成分顺序的正确建立。对于德语来说,该二元条件模型对动词成分计分为9.892%。任何其他最佳模型可以做到13.61%。(带有f(αi)特征的从左到右的接合)。对法语来说,该二元条件模型对动词成分计分为3.602%。任何其他模型最佳可做到5.891%(LM中心词-驱动接合)。
德语动词成分中建立顺序的特殊困难很可能是由于动词位置的判断分析以及动词上下文中修饰词的更随意的顺序。为了处理动词顺序的问题,为实验在无序树中增加一个附加特征。在所有相关的成分上注释该动词的位置。通过将这个特征添加到条件模型上,可观察到在模型准确性中的一个真实的叶节点,如图11的表中所示。
此外最佳模型是该二元条件模型。此前,规范化是没有帮助的。通过动词位置特征的可用性而提供的改进使得全部排序误差率相对减少了13%。至于该动词成分,通过使用动词位置特征而使得积分提高到8.468%。下一个带有动词位置的最佳模型是12.59%的从左到右的条件模型。
虽然参考特定实施例而描述了本发明,本领域的技术人员将认识到在不脱离本发明精神和范围的情况下,可以进行形式和细节上的改变。