CN101004912A

CN101004912A - 最大熵模拟中数据稀疏和数据过拟合的统一处理

Info

Publication number: CN101004912A
Application number: CNA2006101719417A
Authority: CN
Inventors: 翁富良; 赵林
Original assignee: Robert Bosch LLC
Current assignee: Robert Bosch LLC
Priority date: 2005-11-03
Filing date: 2006-11-03
Publication date: 2007-07-25
Anticipated expiration: 2026-11-03
Also published as: EP1783744B1; ATE531034T1; US8700403B2; EP1783744A1; CN101004912B; US20070100624A1; EP1783744B8

Abstract

提供一种统计模拟的方法，其包括建立统计模型和在特征选择和参数最优化期间，为统计学模型的建立结合高斯先验。

Description

最大熵模拟中数据稀疏和数据过拟合的统一处理

技术领域

本发明涉及最大熵模拟中数据稀疏和数据过拟合的统一处理。

背景技术

在口语理解领域中，关键词检测和基于规则的方法已经成为被广泛使用的技术，这部分是因为它们对于语音识别和人的错误的鲁棒性，同时部分是因为它们在处理相对简单语言子集的相对简单领域中的充分应用。例如，参见1991年的DARPA语音和自然语言专题讨论会(DARPA Speech and Natural Language Workshop)的会议论文集中记录的Jackson等人的“A template matcher for robust naturallanguage interpretation”，1992年在计算语言学(ComputationalLinguistics)第18卷，No.1，61-86页上刊登的Seneff的“TINA：a naturallanguage system for spoken language applications”，1994年在新墨西哥的Las Cruces(Las Cruces，HM)召开的计算机语言学协会第32届年会(32^nd Annual Meeting of the Association for ComputationalLinguistics)的会议论文集中记录的Dowding等人的“InterleavingSyntax and Semantics in an Efficient Bottom-Up Parser”。

商业性的语音公司已经在他们的产品中采用了关键字检测以及基于规则的技术。例如，参见Nuance通讯公司2001年的产品，包括Nuance语音识别系统，8.0：Grammar Developer’s Guide，以及Scansoft公司2004年的产品，包括ScanSoft VoCon 3200：Software DevelopmentKit，Deverloper’s Guide，2004年2月2.0版。

由于在口语对话系统中包括了更多的应用，由系统所造成的口语有限用法、过于浅显的理解、和/或系统的错误传达，可能困扰用户并延误在环境中采用这样的系统。

这种情况中，数据稀疏是当没有足够的训练数据时基于统计学的处理中普遍存在的问题。当需要快速发展新的应用以响应市场需求时，这将是特别重要的。但是，当模型使用过多的参数来拟合训练数据集时，所得的模型可能对于特定的数据集变得过拟合，没有更多的鲁棒性以来考虑任意无法预料的数据。

在过去，最大熵模型中的平滑方法已经在语言处理和信息检索研究中引起了注意，其中，在平滑中使用高斯先验是成功的，特别是当数据稀疏的时候。然而，在应用先验时，过去的研究工作简单地使用了截断技术进行特征选择，从而仅仅在参数计算过程中采用高斯先验。换句话说，过去的工作仅仅考虑了数据稀疏问题而没有考虑数据过拟合问题。

在成熟的语音识别技术成为可能之前，理解口语主要在处理超语法符合的课题下进行研究，当时该课题是计算语言学中的一个重要课题，以下文章对该课题进行了讨论，例如1983年在美国计算机语言学期刊(American Journal of Computational Lingustics)的Vol.9(3-4)上登载的J.Carbonell和P.Hayesde的“Recovery Strategies for ParsingExtragrammatical Language”，1983年在计算机语言学协会的第21届年会(21^st Annual Meeting of Association for Computational Linguistics)的会议论文集的PP.123-128登载的D.Hindle的“Deterministic Parsingof Syntactic Non-fluencies”，以及1983年在Cognition，14：41-104的W.Levelt的“Monitoring and Self-repair in Speech”。随着DARPAHLT程序的超过十年的推动，在这个领域中的研究已经达到了新的水平。

其中，在口语理解领域中，关键词检测和基于规则的方法已经成为广泛使用的技术，这部分是因为它们对于语音识别和人的错误的鲁棒性，也部分是因为它们在处理相对简单语言子集的相对简单领域中的合适的应用，下面文章对此进行了讨论，例如在1991年的DARPA语音和自然语言专题讨论会(DARPA Speech and Natural LanguageWorkshop)的会议论文集中记录的Jackson等人的“Atemplate matcherfor robust natural language interpretation”，1992年在计算语言学(Computational Linguistics)的第18卷，No.1，61-86页上刊登的Seneff的“TINA：a natural language system for spoken language applications”，1994年在新墨西哥的Las Cruces召开的计算机语言学协会第32届年会(32^nd Annual Meeting of the Association for ComputationalLinguistics)的会议论文集中记录的Dowding等人的“InterleavingSyntax and Semantics in an Efficient Bottom-Up Parser”，以及在1995年12月21日提出申请并于2001年授权的标题为“Method and systemfor building and running natural language understanding systems”的美国专利6,292,767。因为它们的成功，甚至是商业语音公司，例如Nuance和Scansoft，也已经在他们的产品中采用了这些技术。例如，参见Nuance通讯公司2001年发布的Nuance语音识别系统，8.0：GrammarDeveloper’s Guide，以及Scansoft公司2004年2月发布的2.0版的ScanSoft VoCon 3200：Software Development Kit，Deverloper’s Guide。随着对话系统中新应用的增加，由系统所造成的口语有限的用法可能会困扰用户并延误在不同领域中采用这样的系统。

在解析书面文本的领域中(与口语理解相关的领域)，统计学方法在Penn Treebank的Wall Street Journal(WSJ)部分中占支配地位。例如，参见1997年在马德里举办的ACL(与EACL的第8次会议联合举办)的第35届年会的会议论文集中Michael Collins的“ThreeGenerative，Lexicalised Models for Statistical Parsing”，1998年的宾夕法尼亚大学Ratnaparkhi的博士论文“Maximum Entropy Models forNatural Language Ambiguity Resolution”，2003年计算机语言学(Computational Linguistics)上Collins的“Head-Driven StatisticalModels for Natural Language Parsing”，2003年计算机语言学第41届年度会议的会议论文集中Klein等人的“Accurate UnlexicalizedParsing”，以及2003年EACL′03在匈牙利的布达佩斯举办的会议论文集中Bod的“An Efficient Implementation of a New DOP Model”。在命名实体(NE)识别中，如DARPA信息提取程序所倡导的，提出了7个命名实体分类，即人、组织、位置、时间、日期、钱和百分比。参见1998年的第七届Message Understanding Conference(MUC7)的会议论文集中Chinchor的“Overview of MUC7/MET-2”。其他的研究延续该工作方向，但是仅仅采用了4个命名实体(NE)类型，例如，人、组织、位置和其他。例如，参见在CoNLL-2003，Edmonton，Canada的会议论文集中中De Meulder的“Memory-based Named EntityRecognition using Unannotated Data”。

在过去的十年中，口语理解方面，例如用于间断语流的韵律和句子边界等也已经受到了很大的关注。例如，参见1994年加州大学伯克利分校Shriberg的博士论文“Preliminaries to a Theory of SpeechDisfluencies”，1994年在新墨西哥的Las Cruces的计算语言学协会(Association Computational Linguistics)Heeman的“Detecting andCorrecting Speech Reparis”，2001年语音识别和理解的ISCA专题讨论(ISCA Workshop on Speech Recognition and Understanding)会议论文集13-16页的Shriberg等人的“Prosody modeling for automatic speechunderstanding：an overview of recent research at SRI”，在2001年计算语言学协会的北美分会第2次会议(2^nd Meeting of the North AmericanChapter of the Association for Computational Linguistics)会议论文集118-126页Chamiak的“Edit Detection and Parsing for TranscribedSpeech”。

最近，在口语理解研究中，统计学的方法开始获得了更多的关注，例如，参见He在美国波士顿的HLT-NAACL 2004 Workshop on SpokenLanguage Understanding for Conversational Systems and Higher Levelof Linguistic Information for Speech Processing的文章“RobustnessIssues in a Data-Driven Spoken Language Understanding System”，，Wutiwiwatchai等人在美国波士顿的HLT-NAACL 2004 Workshop onSpoken Language Understanding for Conversational Systems and HigherLevel of Linguistic Information for Speech Processing的文章“HybridStatistical and Structural Semantic Modeling for Thai Multi-Stage SpokenLanguage Understanding”。这里，He和Wutiwiwatchai等人采用的方法使用了多阶段的理解策略，该策略是计算语言学以前尝试过的策略，例如，由Frazier等人在1978年Cognition Volume 6，pp.291-325所讨论的策略“The Sausage Machine：A New Two-Stage ParsingModel”，以及Abney的“Parsing By Chunks”，其收入Robert Berwick，Steven Abney and Carol Tenny(eds.)，Principle-Based Parsing，KluwerAcademic Publishers，Dordrecht，1991.(Frazier and Fodor1978；Abney1991)。然而，He和Wutiwiwatchai等人提议的方法，强调用统计过程模拟口语模型。具体而言，该方法将口语处理分解成语音识别、语义解析和对话行为解码。语义解析器使用具有随机运动的下推自动机来模拟并识别组语义组块，而且会话解码器找到基于由语义解析器使用扩展的Naive Bayesian算法所识别的语义概念组的对话行为。

Wutiwiwatchai等人讨论了三阶段的方法，其中在第一阶段使用加权的有限态变换器，从输入的话语中提取预定义的概念。参见Riley等人的“Transducer composition for context-depended networkexpansion”，Proc.Eurospeech′97，Rhodes，Greece，1997年9月。这种三阶段的方法类似于Nuance采用的统计学解析方法，主要的区别在于加权不同的假定。在第二阶段，话语的目标或会话行为由多层神经网络所识别。第三阶段将识别出的概念字串转换成概念值。

口语理解的另一个研究方向为单级语义分类。这个方向的先导工作包括AT&T HMIHY系统，例如，Gorin等人在1997年的语音通讯(Speech Communication)第23卷第113-127页的“HOW MAY I HELPYOU？”中进行了讨论，同时Haffner等人在ICASSP′2003的“Optimizing SVMs for complex Call Classification”中也进行了讨论。单级语义分类方法被认为对于抵抗声音和语义级的噪音是鲁棒的。然而，这种方法仅仅提供了输入的宽泛的语义分类，其对如目录支持的有限应用是足够的，但是对于一般的深入的会话应用来说就太受限制了。

发明内容

本发明的示例性实施例和/或示例性方法可以通过在特征选择和优化期间结合模型先验，来同时解决数据稀疏和过拟合问题。此外，本发明不是为高斯先验的所有参数简单地找到最好的常量平均数和方差，相反，示例性实施例和/或示例性方法可以为高斯先验的各个参数找到最好的变量平均数和方差。本发明的示例性实施例和/或示例性方法可以用于例如会话对话系统的语言理解模块中。

本发明改进了口语对话系统的语言理解模块，以解决有限的语言使用、过于浅显的理解和口语对话系统的误通讯问题，该方法用于用户可能是认知过载的，并且其中缩短的短语、不流利和首语重复是普遍的应用，而且可以避免使用语音识别器的会话中的对话的误识别。

本发明的示例性实施例和/或示例性方法改进了用于口语对话系统的口语理解模块。具体而言，在口语理解应用中，评估了各种统计学模型方法，包括条件最大熵模型的鲁棒方法，研究了其解析、命名实体标注和话题分类。对包括高斯先验和/或特征选择的示例性方法在处理数据稀疏和过拟合问题方面进行了评估和比较。通过同时使用特征选择和高斯先验可以获得改进。关于识别部分专有名称的问题，本发明的示例性方法和/或示例性实施例可以消除50％的错误率。为了处理深度解析器没有返回完整回答的这种实例，在解析的全部过程内使用采用结构信息的示例性话题分析器。针对示例性理解模块进行了实验，在MP3领域，可以获得80％的目标完成率。

附图说明

图1A示出了根据本发明的示例性口语语言理解模块。

图1B示出了用于提供专有名称或部分专有名称识别的示例性边界校正方法。

图2示出了在增加示例性边界校正方法之前和之后，使用以记忆为基础的学习方法的4子集示例性平均测试结果。

图3示出了在增加示例性边界校正方法之前和之后，使用以记忆为基础的学习方法的8子集示例性平均测试结果。

图4示出了在增加示例性边界校正方法之前和之后，使用以记忆为基础的学习方法的10子集示例性平均测试结果。

图5示出了在增加示例性边界校正方法之前和之后，使用基于最大熵的方法的8子集示例性平均测试结果。

图6示出了单独的训练和测试名的示例性测试结果。

图7示出了在MP3训练数据集的文本中选择特征时，使用或不使用选择增益计算(SGC)方法和/或高斯先验的五种不同的组合测试结果的比较。

图8示出了在华尔街日报(WSJ)数据集的第02-21部分的文本中选择特征时，使用或不使用选择增益计算(SGC)方法和/或高斯先验的五种不同组合测试结果的比较。

图9示出了将华尔街日报(WSJ)训练数据第02-21部分的10％至100％和高斯先验合并时的不同效果。

图10示出了在执行特征选择后，当高斯先验用不同数量训练数据评估时的效果。

具体实施方式

引言

本发明解决了操作例如MP3播放器的音频系统的口语对话系统中有限的语言使用、过于浅显的理解和鲁棒问题。具体而言，本发明提供了口语对话系统的改进语言理解模块，在该口语对话系统中，用户可能被认知地过载，其中短语断片、不流利和首语重复是普遍的，并且对话系统的会话中的对话的误识别不能避免，而且需要深度理解以解决误通讯。在这些方面，本发明提供的改进可以应用于例如MP3领域中，其中歌曲或专辑名可以是任意的重复的词、短语或者句子。

下面，提供了示例性口语理解模块的概述，以及在示例性口语模块中使用的示例性方法，包括例如，用于部分专有名称识别的示例性方法、依存解析器、示例性模型训练和平滑方法，以及话题分类器，以及话题分类器、示例性语音识别模块和示例性对话模块之间的示例性交互。还提供了实验结果。

模拟对话系统的语言理解

已经注意到，用于和对话系统交互的人们使用的语言和在书面语言中使用的语言是不同的。即使是在口语中，计划的发音和自发产生的发音不同，各种HUB程序表明了这一点。例如，参见Pallet等人的“Broadcast News Benchmark Test Results：English and Non-English”，收录于1998年维吉利亚Lansdowne的DARPA Broadcast NewsTranscription and Understanding Workshop的会议论文集中。这里，假定对于认知过载的用户，在和对话系统的交互中，短语断片、不流利和首语重复的实例是普遍的。例如，在操作扩展的MP3音乐播放器的“Wizard of Oz”数据集合时(包括各种查询和控制功能)，在驱动实例中提供了这种实例的最初根据。参见INTERSPEECH-2004中的Cheng等人的“A Wizard of Oz Framework for Collecting SpokenHuman-Computer Dialogs”。

处理丰富的口语语言需要深刻理解每个发音，该发音可能是复杂的、不流利的或者是片断的。考虑到一些种类的发音的本质，关键字检测和基于规则的方法可能是不适合的。相反的，可能需要统计学方法的一个鲁棒但是深刻的语言理解框架。

图1A示出了示例性口语语言理解模块配置100，其包括语音识别器101、词性(POS)标注器102、统计依存解析器103、语义映射器104、话题分类器105，以及对话管理器106。

基于分类的n-gram模型可以在语音识别器101中使用，其中分类是MP3领域中的歌曲、唱片集、播放列表、音乐类型和艺术家的名字。命名的分类由名字列表或是由来自于那个类别的名字的n-gram模型来定义。该n-gram模型用于分类以允许名字片断，其在名字包括许多对于用户来说难以确切记忆的词的情况下是有用的。该示例性口语语言理解模块配置100适合于处理短语片断，特别是部分专有名称。该示例性口语语言理解模块配置100也可以用于具有丰富名称的其他的领域，例如书籍排序。

语音识别器101的输出馈入词性(POS)标注器102，该标注器使用具有标注n-gram的隐马尔可夫模型(HMM)作为转换概率，而且给定标注作为状态评估概率的条件词概率。出于这种考虑，可以采用来自语言学数据协会(LDC)的Penn TreeBank所提供的词性(POS)标注集。

n-最佳标注的序列进而被传送到统计依存解析器103，其产生输入句子的依存结构。依存解析器103并不总是产生输入句子的一个或多个完整的依存结构。当解析器103不能产生完整的依存解析时，它将返回多个依存结构的最好记录的解析森林(parse forest)。

来自于依存解析器103的结果被提供给语义映射器104，其表明头词之间的语法关系，以及各种语法特征，例如时态、语气、体态以及语音动作。映射基于以规则或模式表现的语言学知识。

在并行的路径上，话题分类器105获取词性(POS)标注的词序列以及它的依存结构，并将这个序列分成一个或多个语义话题分类。例如，对于当前的域，可以定义超过20个的语义分类。类似于在日本札幌EMNLP2003的会议论文集中Zhou等人所讨论的“A FastAlgorithm for Feature Selection in Conditional Maximum EntropyModeling”的条件熵模型方法可用于分类。话题分类器105提供可靠的解决给对话管理器106。

使用该示例性口语语言理解模块配置100和词识别准确度接近90％的语音识别器，在MP3领域中，根据本发明的示例性对话系统对于23个对象的1600个句子的测试数据集，可以达到80％的目标完成率。大约300个单独的词句因为对于任意单独的词不存在依存关系而被从这个数据集中移除。

该示例性口语语言理解模块配置100在模型训练过程中可以使用例如，隐马尔可夫模型(HMM)、片断的名字短语和部分专有名称、模型依存关系以及平滑方法，其将在下面进一步讨论的。

部分专有名称的识别

如果示例性对话系统的语音识别器101没有为基于分类的统计学语言模型产生分类标签，可以提供一种两阶段的方法来获得专有名称。在第一阶段，专有名称识别被作为标注问题处理。在第二阶段，基于名字数据库，使用边界校正方法来校正来自于第一阶段的边界错误。即使分类标签由具有n-gram语言模型的任意语音识别器提供，标签边界实质上是基于n-gram信息的，仍然需要可能的边界校正。尽管边界校正方法的目的可能和Brill所讨论的基于转换的方法在一些方面是类似的，即在解析技术的第3次国际专题讨论会(3^rdInternational Workshop on Parsing Technologies)，SIGPARSE 1993上的“Transformation-Based Error-Driven Parsing”，一个示例性区别在于本发明的示例性方法依赖于外部专有名称信息和可能的校正组合的使用。

专有名称或部分专有名称识别的示例性方法包括基于记忆的学习方法和/或基于最大熵的方法，结合边界校正方法，如下面所描述的。

基于记忆的方法

命名实体(NE)识别可以被认为是分类问题。分类方法的一个例子是基于记忆的学习方法，由De Meulder等人在加拿大埃德蒙顿的CoNLL-2003的会议论文集里的“Memory-based Named EntityRecognition using Unannotated Data”中进行了讨论，其用于执行这里所描述的试验，并作为基线分类器。在示例性的基于记忆的方法中，实例由特征表示，并且每一个特征基于它对于训练数据的分类准确性的贡献被分配给一个加权。在训练阶段，基于记忆的算法以特征的形式存储所有的实例，并且通过将新实例和训练实例比较给新实例分类。新实例将被归为和那些根据一些预定义的相似度度量和新实例最相似的训练实例最相同的分类。可是使用的一个基于记忆的学习包是Timbl，其由Daelemans在2001年的“TIMBL：Tilburg Memory-BasedLearner Version 4.0 Reference Guide”中进行了讨论。对于实验，例如，可以使用Timbl的默认设置，可以使用信息增益作为特征加权，并且使用重叠度量作为相似度量度。

分类器105的目的是用专有名称实体(NE)分类或非专有名称实体分类来为每一个表征做标记。这里，在操作MP3播放器域的口语语言理解设置中，仅仅考虑两个命名实体(NE)分类：歌曲名和唱片集名。这是因为这两个分类难以处理，因为任意词、短语或句子都可能潜在地是歌名或唱片集名的一部分。

用于分类器的标注集包括三种类型的标注：“I”，“O”和“B”标注，其中“I”表示一个词在命名实体(NE)分类中，“O”表示一个词是非NE分类，以及“B”表示紧接相同分类的NE后的新命名实体(NE)分类的开始。

基于记忆的分类器的输入特征包括当前词或词性(POS)标注，以及其窗口大小为3的左边的文本(包括词、词性(POS)标注和识别的NE标注)，因此总共是10个特征。由于经常在一个普通命名实体(NE)任务中使用的特征，例如词缀和正字法的信息，不会出现在口语语言中，它们在这里不做考虑。每一个词的特征表达和它相应的命名实体(NE)分类将存储在训练过程中。对于具有词性(POS)标注的新输入的句子，每一个词由上述的十维的特征表示，并且被分配给在训练集中和它最近的词的相同的分类。

最大熵方法

基于最大熵的方法在计算学自然语言学习(Conference onComputational Natural Language Learning CoNLL)的年会在一些研究工作中进行了报告，例如，包括De Meulder的研究工作“Memory-basedNarned Entity Recognition using Unannotated Data”，其收录在加拿大埃德蒙顿的CoNNL-2003的会议论文集中。这里，基于ME的方法将专有名称识别作为标注问题处理，并且基于当前词的历史，使用最大熵模型来评估其IOB标注的条件概率。使用这个链规则，最优的IOB标注序列可以如下计算：

{\hat{E}}_{l}^{n} = \arg \max_{E_{l}^{n}} {P (E_{l}^{n} | W_{l}^{n}, T_{l}^{n})}

P (E_{l}^{n} | W_{l}^{n}, T_{l}^{n}) = \underset{i}{Π} P (E_{i} | E_{l}^{i - l}, T_{l}^{i})

其中E_l ⁿ，W_l ⁿ和W_l ⁿ分别是IOB标注、词和词性(POS)标注序列。

由于并不总是能够模拟整个过去的历史，左边的三个词和它们的标注被用作历史。如果“x”被用于历史，“y”被用于IOB标注，条件最大熵模型可以由下面定义的公式计算：

p (y | x) = \frac{1}{Z (x)} \exp {\underset{j}{Σ} λ_{j} f_{i} (x, y)}

其中

Z (x) = \underset{y}{Σ} \exp {\underset{j}{Σ} λ_{j} f_{i} (x, y)}

是归一化因子。

为了训练条件最大熵模型，选择性增益计算(SGC)万法可以被用于特征选择和参数评估，其在例如于2003年7月3号提交的序列号为No.10/613,366，标题为“A Fast Feature Selection Method andSystem for Maximum Entropy Modeling”的美国专利申请中，以及在日本札幌EMNLP2003的会议论文集中的Zhou等人所讨论的“A FastAlgorithm for Feature Selection in Conditional Maximum EntropyModeling”中进行了描述，其公开内容整在此全部通过引用并入。如所讨论的，条件最大熵的估计概率使用快速特征选择计算或者确定。可提供特征模板集用于训练。尤其是，词、词性(POS)标注，和左边三个位置的IOB标准，以及当前位置的词和标准信息，在模板中可以组合使用。

边界校正方法

由如基于记忆的学习方法和基于最大熵(ME)的方法的基线标注方法返回的标注结果可能在专有名称的边界中包含有错误。例如，在句子“I want to listen to the album that love tomorrow is on”中，歌名的组成词“love tomorrow”可能被不正确地标注为love/I-歌名tomorrow/O，而不是正确的标注为：love/I-歌名tomorrow/I-歌名。要识别部分专有名称可能甚至更具挑战性。在各种实际应用中，特别是在口语语言应用中，当名字长的时候，人们可能仅仅使用部分名称来代替全名。在两种基线标注方法中，使用的文本比用于语音识别器101的3-gram语言模型要长。可以合理的假定，当分类标签由采用基于记忆的学习方法的任意n-gram语音识别器提供的时候，相似的边界错误也会产生。

由于在一些确定的应用中，专有名称为系统所知(例如，作为数据库的一部分)，这些信息可以用来一起识别全部的或者部分的专有名称。出于这种考虑，由基线方法识别的专有名称可以和给定的名字数据库对比检验，并且数据库中和识别出的名字匹配得好的那些名字可以用来校正被识别的名字的潜在错误，特别是在被识别的名字的边界。

给定一个识别出的专有名称，根据本发明的一个示例性边界校正方法确定校正边界错误的潜在方法，并结合有若干排序限制。该示例性边界校正方法可以包括下面的5个步骤。为了更好地理解该示例性边界校正方法，提供了一个具体的例子：考虑句子“WABCD”，其中每一个字母表示一个词，并且“ABCD”是部分的歌名，而且W在名字之外。如果专有名称被基线分类器不正确的标注为“W/I-歌名A/I-歌名B/I-歌名C/I-歌名D/O”，该示例性边界校正方法能使用WABC来查询数据库并最终从歌名中移去W并将D识别为名字的一部分。

图1B示出了根据本发明示例性方法的示例性边界校正方法100。给定一个识别出的部分专有名称，示例性的边界校正方法100包括下列操作或步骤：

在步骤S1，通过从全名数据库中选择那些具有在部分专有名称中出现最多量的词的全名，并且在这些全名中匹配的词的排序和部分名字的排序相同，以形成候选名字池。在上面的部分专有名称WABC的例子中，系统可以选择，例如，ABCDE，WABE和WACE，因为这三个名字都具有和WABC相同的三个词，并且这三个词和部分专有名称中相应的词的排序是相同的。

在步骤S2，如果部分专有名称中一个或多个内部词被移除并且所得部分专有名称仍然是具有最大长度的全名中的子字符串，那么全名从候选池中移除。例如，给定部分专有名称WABC和全名WACE，在部分名中移除B形成子序列WAC，其是全名WACE中的最大子序列。因此，全名WACE被移除。也就是说，无边界的插入对于部分专有名称来说是不允许的。

在步骤S3，除非全名中的所有POS标注都是无内容的词，否则，如果候选名称的匹配POS标注全都是无内容，将其从池中移除。这是因为如果有内容词，它更可能出现在部分名中。

在步骤S4，如果部分专有名称中的边界词在全名池中不存在，那么系统将它的标注从专有名称分类改变到‘O’。否则，它维持不变。在上述例子中，如果W不在全名中，W的标注将变换到‘O’，从而，WABC将被标注为W/O A/I-歌名C/I-歌名。

在步骤S5，检查句子中部分专有名称的邻词，以确定它们是否能成为专有名称的一部分。如果邻词出现在全名中并且具有相同的顺序，那么它被分配给相同的专有名称分类。例如，如果ABC右边的邻词为D，其出现在全名ABCDE中，那么在示例性边界校正方法的最后一步中，句子WABCD被正确的标注为W/O A/I-歌名B/I-歌名C/I-歌名D/I-歌名。

实验

进行一组试验以评估示例性边界校正方法的有效性。操作MP3播放器被选择作为测试域，而且高复杂性的歌名和唱片集名作为测试方法的分类。因为缺乏真实的数据，使用通过改变所有歌名和唱片集名的次序的模拟训练和测试数据集。和基于记忆的方法以及基于ME的方法相比，示例性边界校正方法的增加消除了一半的错误率。

华尔街日报(WSJ)标注集被用来作为词性(POS)标注集，在操作MP3播放器的域中，收集了超过700个模板句子。模板句子是用它们的分类标注替代专有名称的句子。因此，在MP3域中，songname(歌名)被用作所有歌名的分类标注，albumname(唱片集名)被用作唱片集名的分类标注等等。集中注意力到这两个分类是因为确信它们比艺术家名和流派名更为动态和复杂。除了模板句子，在实验中使用大约300个歌名和大约30个唱片集名。通过移除名字中的无内容词来获得部分专有名称。对于歌名，全名的平均长度为3，而部分名的平均长度为1.88。63％的部分歌名和它们的全名对应不相同。对于唱片集名，全名的平均长度为2.68，而部分名的平均长度为1.93。54％的部分歌名和它们的全名对应不相同。模板句子中的这些歌名和唱片集名被改变次序以产生实验中的28577个合成的句子。

第一实验集证明了不同数量的训练和测试数据的影响。700个模板句子被分割为4个子集，8个子集和10个子集。在4子集的情况下，对于每一个实验，3个子集被用作训练数据，其他的子集被用作测试数据。通过这种方式，每一个子集被用作测试集一次，总体的，进行4个实验。4个子集情况下的结果总结在图2中。对有8个子集或10个子集进行类似的实验，其结果分别标识在图3和图4中。为了看到示例性校正方法的效果，使用相同的歌名和唱片集名的集合来产生训练和测试数据。用于训练和用于测试的名字(歌和唱片集)之间的唯一区别在于，名字中的无内容词被移除以“伪造”测试数据的部分专有名称。因为该原因，实施相同的实验集而不执行示例性边界校正方法中的步骤S3。如果可用的实际训练和测试数据的量足够大的话，可以不需要训练和测试数据集的产生。

在分为4组的情况下，训练集的大小在19757个句子(171990个词)和23292个句子(198799个词)之间，测试集的大小在5285个句子(41131个词)和8820个句子(63362个词)之间。对于实验，确定或计算IOB标注的准确度、专有名称识别的检索率、精确度和f-匹配度。4个测试的结果基于4个测试集的大小被平均。图2示出，对于基于记忆的方法，标注的准确度能达到98％，增加了示例性边界校正方法后，组合方法的准确度达到了99％。增加了示例性边界校正方法后，精确度、检索率和随后的f-匹配度的数字的改进更为明显。精确度从84.33％提高到94.92％，检索率从90.81％提高到98.16％f-匹配度从87.45％提高到96.51％。换句话说，示例性边界校正方法在所有的情况下，都消除了超过50％的错误率。同时，没有示例性边界校正方法中的步骤S3的数量也保持着高级别的性能，仅仅有轻微的降级。

8子集和10子集的结果表示了和4子集情况(例如，参见，图3和图4)相同的模式。然而，8子集的结果比4子集的结果要好。这可能是在实验中使用更多的训练数据的结果。

为了确定示例性边界校正方法是否在部分专有名称识别中给其他方法增加了价值，进行另一个利用基于最大熵的方法的实验集。类似的，8子集以循环的方式用于实验。结果对8个不同的测试集求平均。基于最大熵的方法结合示例性边界校正方法的性能可能比示例性边界校正方法和基于记忆的基线方法相结合稍稍差一些。这部分是因为我们使用6个子集作为训练数据，一个子集作为发展集，以及最后一个子集作为测试集，这意味着少了一个用于训练的子集。然而，如所证明的，标注准确度、精确度和检索率以及f-匹配度，得到极大的改进，同样的，几乎所有的错误率都被削减了超过50％。这些结果如图5所示。

执行最后一个实验集以判断如果测试数据里的专有名称列表不包括在训练数据内的影响。基于记忆的基线可能具有不能访问专有名称列表这一不期望的特征。然而，实际上，模型可能是经过训练且封闭的，可用的专有名称列表不会实时结合到模型中。因此大约20％的歌名和唱片集名可以自由地选择作为测试名，剩下的作为训练名使用。它们在模板句子里分别被改变次序。使用8个子集在全部测试名和部分测试名上进行实验。同时，还检查在测试的示例性边界校正方法里使用训练名作为数据库的一部分的效果。如可以从图6中看出的那样，有边界校正方法和没有边界校正方法的结果再一次表明降低超过一半的错误率的显著的改进，而且，在测试名列表中具有训练名的结果比在测试名列表中没有训练名的结果稍差。这是因为训练名对测试名的干扰。

同时，示例性边界校正方法也能大幅度提高检索率和精确度，这和Andrei Mikheev、Claire Grover和Marc Moens报告的结果相反，该报告在1998年MUC-7的会议论文集里，MUC-7使用的LTG系统的说明中，其中在专有名称识别的流水线中增加新的步骤提高了检索率，但是降低了精确度。

通过应用4子集基于记忆的方法和示例性的边界校正方法，以及对训练和测试采用相同的歌/唱片集名列表，来对标注结果进行错误分析。这是因为所有不同的子集具有相似的标注准确度，并且4个子集具有错误为1983个的最大的测试数据集。

所有错误中大约67％是由名字数据库中部分专有名称和普通词之间的混淆造成的，这些词也出现在专有名称出现的位置。在例子“Play/O the/O song/O now/I-songname”中，“now”被作为“here andnow”专有名称的一部分而标注。然而，在测试集中，它被标注为普通的时间词。

另一组错误由歌名和唱片集名之间的混淆而造成。这占了大约16.6％的错误。唱片集的名字可以和唱片集中一首歌的歌名相同。一些例子表明确实有混淆的实例，例如“Play/O slave/I-songnamelove/I-songname”，其他的例子表明上下文的线索或长距离依存可以帮助减少这种类型的错误。例如，“Does/O this/O album/O have/Omade/I-albumname England/I-albumname”可以被校正。

上述两种错误发生在基线系统中，即，基于记忆的方法中。第三种即最后一种的主要错误由示例性的边界校正方法产生。当部分专有名称的边界词有时候正好是相应的全部专有名称的一部分时，该示例性的边界校正方法偶尔过度校正边界词。例如，发音“Does this albumhave nothing”被基于记忆的方法正确地标注为“Does/O this/Oalbum/O have/O nothing/I-songname”。然而，它被示例性的边界校正方法过度校正为“Does/O this/O album/O have/I-songnamenothing/I-songname”，这是由于在歌名列表中存在歌名“have nothing”。这种类型的错误占9.2％。

总之，三种主要类型的错误占了全部错误的93％多一点点。除了任务区别之外，使用专有名称数据库的方法也对于性能结果具有显著的影响。计算学自然语言学习(CoNLL)的会议中报告的研究工作使用从专有名称列表中获得的特征，而在这个研究工作中，试探法被用于匹配。

模拟依存关系

解析处理识别结构和功能关系，例如在句子中识别主语、谓词、以及宾语，它在自然语言理解中是一个关键步骤，并且能显著地影响整个语言对话系统的性能。根据本发明的一个示例的统计依存解析器103可以提供高鲁棒性和准确性。出于这种考虑，依存关系的模型可以包括两个主要的过程：训练过程和解析过程，其在下面描述，一些实验证明了它们的效果。

概率模型分解

一个示例性训练器用来建立概率模型，其由统计依存解析器103在运行期间使用。概率模型模拟单个句子的整个依存关系集，其能通过下面的步骤被分解。

让我们指定

作为覆盖从词i到词j的范围的解析的依存，L_i，j是(l_i，j，w^i，k，w^k+1，j)，其中l_i，j是上一个依存关系，其联系着它的两个头词w^i，k和w^k+1，j，表示两个待合并的子范围(i，k)和(k+1，j)。w^i，k和w^k+1，j可以表征两个相应子范围的特征集。

P ({\overset{&OverBar;}{L}}_{i, j}) = P (L_{i, j}, {\overset{&OverBar;}{L}}_{i, k}, {\overset{&OverBar;}{L}}_{k + 1, j}) = P (L_{i, j} | {\overset{&OverBar;}{L}}_{i, k}, \overset{&OverBar;}{L}_{k + 1, j}) * P ({\overset{&OverBar;}{L}}_{i, k}, {\overset{&OverBar;}{L}}_{k + 1, j})

= P (L_{i, j} | {\overset{&OverBar;}{L}}_{i, k}, {\overset{&OverBar;}{L}}_{k + 1, j}) * P ({\overset{&OverBar;}{L}}_{i, k}) * P ({\overset{&OverBar;}{L}}_{k + 1, j}) {* e}^{MI ({\overset{&OverBar;}{L}}_{i, k}, {\overset{&OverBar;}{L}}_{k + 1, j})}

也就是：

P ({\overset{&OverBar;}{L}}_{i, j}) = P ({\overset{&OverBar;}{L}}_{i, k}) * P ({\overset{&OverBar;}{L}}_{k + 1, j}) * P (L_{i, j} | {\overset{&OverBar;}{L}}_{i, k}, {\overset{&OverBar;}{L}}_{k + 1, j}) * e^{MI ({\overset{&OverBar;}{L}}_{i, k}, {\overset{&OverBar;}{L}}_{k + 1, j})} - - - (1)

直观地，大区域(i，j)的概率通过它的两个子范围，即(i，j)和(k+1，j)以及上一个依存关系计算，并且对表征上层依存关系和它的两个子组件之间的冗余关系的共有信息进行调整。这两个子范围被迭代分解直到它们到达叶子节点。

在解析过程中，解析器103使用图表解析技术，系统地自底向上对所有合法的头词进行搜索，该技术在例如，2001年在北京由计算学语言/SIGPARSE协会主办的解析技术的第7届国际专题会议的论文集中由Weng等人描述的“A Novel Probabilistic Model for LinkUnification Grammar”中进行了描述。在检索中的每一步，解析器103基于公式(1)的依存模型来计算每一个合法对的概率分数，并且为每个范围保持n个最佳候选者。解析器103可以识别，例如，大约30个功能关系，例如在句子的不同词中的主语、谓词以及宾语。

模型训练方法

公式(1)中的两个概率部分在训练中使用不同的方法来估计。条件概率部分

通过条件最大熵方法估计，该方法在例如1994年4月卡内基梅隆大学Ronald Rosenfeld的博士论文“AdaptiveStatistical Language Modeling：A Maximum Entropy Approach”，以及Berger等人在计算语言学，22(1)：39-71，1996中的“A MaximumEntropy Approach to Natural Language Processing”中进行了描述。选择性增益计算(SGC)方法被用来加速训练过程，同时也克服数据过拟合。一个示例性选择增益计算(SGC)方法在例如于2003年7月3号提交的序列号为10/613,366标题为“A Fast Feature SelectionMethod and System for Maximum Entropy Modeling”的美国专利申请，以及日本札幌EMNLP2003的会议论文集中的Zhou等人的“A FastAlgorithm for Feature Selection in Conditional Maximum EntropyModeling”中进行了描述，其公开的内容全部在这里合并作为参考。下一子部分的实验表明，通过使用高斯先验的最好结果仅仅稍微胜过这种方法，有0.45％的绝对提高。然而，使用高斯先验的最好模型所需要的特征数量是使用选择性增益计算(SGC)选择模型所需要的特征数量的十倍。在模型依存的处理中，不仅使用词自身，而且使用它们的词性(POS)标注以及低于当前词两级的语法关系。这里，形成10维的特征向量以表示每一个级别的信息。对于第二部分，通过最大似然估计进一步逼近共有信息部分。

为了探究更大的特征空间并且为特征子集引入偏差，提供示例性的渐进多阶段选择增益计算(SGC)方法。在每一阶段，通过模板集指定特征子空间。一个阶段的输出模型作为下一阶段的初始模型。对于第一阶段，使用统一的分布或给定的先验分布。

解析器103可以成功地识别大约30个功能关系，例如句子中词的主语、谓词以及宾语。对于MP3域数据，当模型在来自于大约40个对象的4900个训练句子上被训练时，对于23个对象的1600个测试句子的4800个依存关系，依存解析器达到93.86％的精确度，查全率达到了94.19％。相同的数据集可以用来评估任务完成率，该任务完成率在上述标题为“对话系统的模型语言理解”的部分中被提到，其中训练数据来自于“Wizard of OZ”(WOZ)设置和实时系统设置，其中对象仅仅被给定了系统功能，而且它们能自由使用它们自己的语言。

使用高斯先验和SGC方法的实验

一些作者已经研究了高斯先验，例如，包括在亚利桑那州PhoenixICASSP-1999的会议论文集中Chen等人的“Efficient Sampling andFeature Selection in Whole Sentence Maximum Entropy LanguageModels”，为了避免数据稀疏，其主要使用先验的常量平均数和方差。高斯先验的应用也在域适应中进行了研究，其中在基域中估计变化的平均数和方差。本发明的一个示例性方法估计相同数据集中变化的平均数和方差。此外，给定MP3域的少量训练数据，观察利用或利用不重要特征选择来使用高斯先验的效果，其和其他先前的方法形成对照，在这些先前的方法中，只有带有截断方法的特征选择和高斯先验一起使用。对于特征选择实验，使用选择的增益计算(SGC)方法。因为MP3域中的有限的数据，所以还使用了华尔街日报(WSJ)数据集，两种情况下，为了和口语和书面语言的结果对照，数据集主要为书面文本以及彻底的测试方法。

MP3域的第一个实验集显示，在使用不同数量的训练数据时，SGC特征选择和高斯先验的五个不同组合可以获得的性能模式。这五个不同的组合是：

a)没有SGC特征选择(仅仅使用截断)，没有高斯先验

b)没有SGC特征选择(仅仅使用截断)，使用高斯先验

c)使用SGC特征选择，没有高斯先验

d)使用SGC特征选择，优化中使用高斯先验

d)使用SGC特征选择，特征选择和优化中使用高斯先验

4900个训练句子被分割为4个相等大小(25％)的子集，然后自由选择两个和三个子集以形成50％和75％的训练数据。所有的评估测试都是针对MP3数据的1600个测试句子而进行的。图7示出了使用不同的MP3训练数据的五个不同组合的比较。结果是在解析模型的条件概率组件

里的预测的精确性。

这些结果表明，无论是否使用特征选择，使用先验的模型通常胜过不使用先验的模型。当同时使用特征选择和高斯先验时，当它们都不使用或者仅仅使用它们中的一个时，所得模型的性能通常更好。最好的性能组合是在特征优化期间使用特征选择并应用先验。这里，结果显示，当不使用先验时，仅使用特征选择降低性能，这与日本札幌EMNLP2003的会议论文集中Zhou等人的“A Fast Algorithm forFeature Selection in Conditional Maximum Entropy Modeling”中所报告的华尔街日报(WSJ)数据结果相反。

对华尔街日报(WSJ)重复相同的实验集，但是仅仅针对使用整个训练数据集的情况下，即第02-21部分。图8归纳了第23部分的准确度结果。

结果表明，在使用先验或不使用先验时，特征选择都改进了性能。当使用先验时，对于性能没有负作用。MP3数据和华尔街日报(WSJ)数据都表明，特征选择和先验的组合在口语数据和书面数据中都有较好的性能。增加先验通常改进性能，至少它对于性能没有任何负作用。当没有使用先验并且数据集太小时，特征选择可能对性能具有负面影响。后一种情况表明在那种情况下没有过拟合。

对华尔街日报(WSJ)数据进行第二实验集，以观察当不同数量的训练数据可用时，高斯先验对于特征选择的影响。在这种情况下，对所有的特征使用常量平均数和方差。在全部10种情况中，使用选择增益计算(SGC)方法选择10,000个特征。图9示出了华尔街日报(WSJ)训练数据第02-21部分的10％至100％的影响。这里，图9示出，在少量训练数据的情况下，高斯先验带来的改进是显著的，最大改进的绝对值为0.93％。然而，当训练数据的数量增加时，改进减少到绝对值为0.024％，其在统计上是可忽略的。

华尔街日报(WSJ)数据的下一个实验集研究当高斯的平均数和方差不是常数时，高斯先验对于特征选择的影响。仅仅针对华尔街日报(WSJ)数据进行这个实验集，因此有足够的采样时间。使用两个方法来评估变化平均数和方差。在两个方法中，在特征被选择后计算先验的平均数和方差。在特征选择期间，估计变化平均数和方差也是可能的，但是非常费时。因此，不使用它们。对于这些实验，针对华尔街日报(WSJ)数据第02-21部分训练两个基线模型，使用截断为0和5的选择增益计算(SGC)方法选择10,000个特征。在第一个方法中，对每个特征，使用不同百分比的训练数据来计算高斯先验的平均数和方差。换句话说，对于每一个特征，使用25个样本来估计平均数和方差。在第二个方法中，基于部分编号分割训练数据。使用总共20个子集来计算所有选出的特征的平均数和方差。同样的，所有的评估测试都针对华尔街日报(WSJ)树库的第23部分进行。这些结果如图10所示，其表明，在进行特征选择后，当使用不同数量的训练词估计高斯先验时，在不使用高斯高斯先验和使用高斯先验的模型之间，没有统计性的显著区别。

作为对最后两个实验集的总结，当少量的训练数据可用时，结合高斯先验和选择增益计算(SGC)特征选择方法的方法胜过仅仅使用带有高斯先验的基于截断的特征选择方法，也胜过没有高斯先验的使用选择增益计算(SGC)的特征选择方法。当有足够多的训练数据时，结合高斯先验和特征选择方法益处很小或者没有益处。后一种情况是可能的，这是因为特征选择已经将数据过拟合问题降低到好的程度。在具有小准确度增益的大模型和更加小的模型之间，也能看到同样的折中。

ME模拟中数据稀疏和数据过拟合的统一处理

最大熵(ME)模型具有坚实的数学基础，并且具有将许多不同类型的特征合并到统一框架里的灵活性。其是经过严格测试的方法，是重要的统计学模型范例。然而，因为其通过最大似然估计优化过程的本质，其仍然存在数据稀疏和数据过拟合问题。现有的方法分别处理这两个问题。相反，本发明的示例性实施例和/或示例性方法，紧密地结合了这两个过程并获得对于这两个问题的坚实、灵活和统一的处理，因此可以直接建立高质量和鲁棒的模型。实验已经表明了它在不同情况下的有效性。

一个示例性的实施例和/或示例性的方法如下：给定训练数据X，我们的目标是找到具有最高后验概率的模型M。根据Baysian原理，

p (M | X) = \frac{p (X | M) p (M)}{p (X)}

对于任意给定的数据X，p(X)是常量。因此，

\arg \max_{M} p (M | X) = \arg \max_{M} p (X | M) p (M)

= \arg \max_{M} (\log p (X | M) + \log p (M))

这里log p(X|M)是log似然项，其为

\log p (X | M) = \underset{x, y}{Σ} \tilde{p} (x, y) \log p (y | x)

p(M)是模型的先验项。基于经验数据的统计学，模型参数更接近于高斯分布而不是均匀分布。因此，可以假定

\log p (M) = \underset{i}{Σ} \log \frac{1}{\sqrt{2 π σ_{i}^{2}}} \exp (- \frac{{(λ_{i} - u_{i})}^{2}}{2 σ_{i}^{2}})

在公式里，λ_is是ME模型的参数，μ_i和σ_i是每一个参数的相应高斯分布的平均数和方差。

因此，为了找到更好地表示自然语言理解(NLU)数据的模型，使用最大后验(MAP)标准代替ML标准。从而，新的目标函数可以被表示成：

L′(p)＝logp(X|M)+log p(M)

使用高斯先验，最大后验(MAP)模型不再严格满足最大熵(ME)限制。相反的，该限制的形式为：

\underset{x, y}{Σ} \tilde{p} (x, y) f_{i} (x, y) - \frac{λ_{i} - μ_{i}}{σ_{i}^{2}} = \underset{x, y}{Σ} \tilde{p} (x) p (y | x) f_{i} (x, y)

本发明提供针对高斯先验的两个示例性方法—一个是在特征选择过程中结合高斯先验，另一个是在参数优化过程中结合高斯先验。这样，特征选择过程可以包括，例如，选择增益计算(SGC)特征选择方法，其在于2003年7月3号提交的序列号为10/613,366标题为“A Fast Feature Selection Method and System for Maximum EntropyModeling”的美国专利申请，以及日本札幌EMNLP2003的会议论文集中Zhou等人的“A Fast Algorithm for Feature Selection in ConditionalMaximum Entropy Modeling”中进行了讨论，参数优化过程可以包括，例如，SCGIS特征优化过程，其在计算语言学协会在Philadelphia，Pennsylvania的会议上Goodman的“Sequential Conditional GeneralizedIterative Scaling”中进行了描述，尽管示例性的实施例和/或示例性的方法也可以应用于其他方法。

当在在特征选择中使用高斯先验时，向选择的特征集S增加的特征f的新的近似增益计算如下：

{\hat{G}}_{S, f} (α) &equiv; L^{'} (p_{S, f}^{α}) - L^{'} (p_{S}) = G_{S, f} (α) - \frac{{(α - u)}^{2}}{2 σ^{2}} + \log \frac{1}{\sqrt{2 π σ^{2}}} - - - (2.1)

的一阶和二阶导数这样计算：

{\hat{G}}_{s, f}^{'} (α) = G_{S, f}^{'} (α) - \frac{α - μ}{σ^{2}}

{\hat{G}}_{s, f}^{''} (α) = G_{S, f}^{''} (α) - \frac{1}{σ^{2}}

其中α是特征f的加权，以及G_S，f(α)，G_S，f′(α)，G_S，f″(α)是增益和其在没有高斯先验的条件下的导数，其可如下计算例如，使用于2003年7月3号提交的，序列号为10/613,366，标题为“A Fast Feature SelectionMethod and System for Maximum Entropy Modeling”的美国专利申请，或者Berger等人的“A Maximum Entropy Approach to Natural LanguageProcessing”，计算机语言学，22(1)：39-71(1996)。

因此，新的α使用基于下面公式的牛顿方法计算：

α_{n + 1} = α_{n} + \frac{1}{r} \log (1 - \frac{1}{r} \frac{{\hat{G}}_{S, f}^{'} (α_{n})}{{\hat{G}}_{S, f}^{''} (α_{n})}) - - - (2.2)

类似于SGC中的初始化步骤，α(j，0)和g(j，0)分别使用(2.2)和(2.1)计算，而不是使用于2003年7月3号提交的，序列号为10/613,366，标题为“A Fast Feature Selection Method and System for MaximumEntropy Modeling”的美国专利申请中所描述的闭式公式计算。

当在参数最优化中使用高斯先验时，参数更新通过下面的步骤被计算。

在每次迭代中，

λ_{i}^{(t + 1)} &LeftArrow; λ_{i}^{(t)} + δ_{i}^{(t)}

，而且

δ_i ^(t)基于下式计算：

\underset{x, y}{Σ} \tilde{p} (x, y) f_{i} (x, y) = \underset{x, y}{Σ} \tilde{p} (x) p (y | x) f_{i} (x, y) \exp (δ_{i}^{(t)} f # (x)) + \frac{(λ_{i}^{(t)} - u_{i}) + δ_{i}^{(t)}}{σ_{i}^{2}}

再一次使用牛顿算法来计算δ_i(t)。

停止标准保持相同，即，当L′(p)不再增加时，更新的迭代停止，其中L′(p)的计算如下：

L^{'} (p) = \log p (X | M) + \log p (M)

= \underset{x, y}{Σ} \tilde{p} (x, y) \log p (y | x) - \underset{i}{Σ} \frac{{(λ_{i} - u_{i})}^{2}}{2 σ_{i}^{2}} + const (^) .

Claims

1、一种统计模拟的方法，包括：

建立统计模型；以及

在该统计模型的建立的特征选择和参数最优化期间，结合高斯先验。

2、根据权利要求1的方法，其中所述统计模型包括条件最大熵模型。

3、根据权利要求1的方法，其中所述特征选择包括选择增益(SGC)计算方法。

4、根据权利要求1的方法，进一步包括：

为所述统计模型的每个参数计算高斯分布。

5、根据权利要求1的方法，进一步包括：

为所述统计模型的每个选择的特征计算高斯分布。

6、一种模拟会话对话系统的口语的方法，包括：

通过概率依存模型模拟该口语的依存关系；

在特征选择和参数优化期间结合高斯先验；

解析词序列，该解析包括使用图表解析技术，自底向上系统地检索全部头词对；以及

在该检索的每一步，基于概率依存模型计算每一对的概率分数，并为每个范围保持n个最佳候选对。

7、根据权利要求6的方法，其中所述概率依存模型包括条件最大熵模型。

8、根据权利要求6的方法，其中特征选择包括选择增益计算(SGC)方法。

9、根据权利要求6的方法，进一步包括：

为所述概率依存模型的每个参数计算高斯分布。

10、根据权利要求6的方法，进一步包括：

为所述概率依存模型的每个选择的特征计算高斯分布。

11、一种口语语言理解模块配置，用于会话对话系统，该配置包括：

语音识别器，以识别作为一个词序列的语音；

词性标注器，以标注该序列；

统计依存解析器，以形成该序列的依存结构；

语义映射器，以将语法特征映射到该序列；

话题分类器，以将该序列分类成至少一个语义分类；以及

对话管理器，解释在会话环境中该序列的意思。

12、根据权利要求11的口语语言理解模块配置，其中所述解析器使用图表解析技术，自底向上系统地检索全部头词对；以及在该检索中的每一步，基于依存模型计算每一对的概率分数。

13、根据权利要求12的口语语言理解模块配置，其中所述依存模型包括条件最大熵模型。

14、根据权利要求13的口语语言理解模块配置，其中所述条件最大熵模型包括在参数优化期间使用高斯先验训练的条件最大熵模型。

15、根据权利要求13的口语语言理解模块配置，其中所述条件最大熵模型包括在特征选择和参数优化期间使用高斯先验训练的条件最大熵模型。

16、根据权利要求15的口语语言理解模块配置，其中所述特征选择包括选择增益计算(SGC)方法。