CN1315109C

CN1315109C - 基于生成转换/短语结构语法的自然语音识别方法

Info

Publication number: CN1315109C
Application number: CNB038152843A
Authority: CN
Inventors: 克劳斯·D.·利德特克; 甘特巴特·马克弗卡
Original assignee: T Mobile Deutschland GmbH
Current assignee: Telekom Deutschland GmbH
Priority date: 2002-06-28
Filing date: 2003-06-26
Publication date: 2007-05-09
Anticipated expiration: 2023-06-26
Also published as: CA2493429A1; AU2003250272A1; JP2005539249A; PL373306A1; IL165957A0; US7548857B2; CN1666254A; JP4649207B2; CA2493429C; EP1518221A1; DE10229207B3; WO2004003888B1; WO2004003888A1; IL165957A; US20060161436A1

Abstract

本发明涉及基于生成转换/短语结构语法的自然语音识别方法，即GT/PS文法。根据本发明，分析说出的短语中包含的三音素，借助于语音词数据库(字典)由所识别的三音素构成说出的短语中包含的词，并且使用语法规则(文法)由所识别的词对说出的短语决定句法重构。GT/PS语法是将目标句子置入文法中的一种全新方法。它使用传统的文法规范语言(GSL)，但是以创新的方式组织所置入的句子。其中，它遵循短语结构语法规则和Noam Chomsky的生成转换语法概念。

Description

基于生成转换/短语结构语法的自然语音识别方法

本发明涉及一种基于生成转换/短语结构语法(GT/PS语法)的自然语音识别方法。

目前，具有自然语音识别(NLU＝Natural LanguageUnderstanding)的语音识别系统能够理解大量可能的表达并能够转换为复杂的指令结构，所述指令结构使语音识别系统，例如计算机，做出特定的动作。它基于预先定义的、由应用软件开发和所谓的对话设计所确定的合适的标准句式(Musterstze)来进行以上动作。标准句式的集合，也被称为“文法”，包括单个命令字以及复杂的嵌套句式，所述嵌套句式在对话的特定位置很重要。如果用户说出一个这样的句子，则系统以很高的可靠性来理解该句子，并执行与其相关的处理指令。

在对识别应用程序，例如NLU电话应用程序进行编程时，文法也是不可缺少的组成部分。借助于特定工具，即所谓的语法规范语言(GSL)生成文法。通过该语言首先再现所要理解的词以及其关联，并为语音识别器确定要理解的词及其关联。其中，预先规定的句子由可相互交换(词形变换轴)和可相互组合(语段轴)的词组合而成。图7表示了这样的一个例子。

由词形变换组合的语段结合得到可能的表达。其中必须容忍句子可能存在语法错误，例如“Würden Sie vielleicht Tellz-Tarif ersetzen？(您将可能更换电视价目表吗？)”，以便保持应答范围(Antwortenspektrum)尽可能大。但是，应该很少包含对这种所谓的“过度生成(Overgeneration)”—即无意义的标准句式或具有相同含义的表达—的指示或识别，其原因在于，由于系统必须将每个用户表达与大量预先规定的、几乎从不说出的句子组合进行比较，所以需要大量的系统资源，并且同时降低了识别效率。

在目前通常的实践中，以使相关单元联系起来的方式确定词形变换的词组合。其中，从词的词义转换质量出发。这种从某种程度上的成功句子出发的方法完全符合简单应用的需要，并获得了满意的结果。在具有大量有意义的应答的可能的复杂应用中，这些常规语法很多，它们使目前高速服务器的计算能力的负荷达到极限。结果是：

-大大地增加了过度生成

-在识别中明显延迟(等待时间)

-降低了识别可靠性(精确度)

-降低了系统稳定性(稳定程度)

这种方法的主要缺点在于，特定的句子只遵循表面的组合。因为表面上相关的单元实际上遵循另外的、语言学中早已公知的组合规则，所以所产生了很大的过度生成。

因此，目前用于确定ASR系统识别哪些句子的扩展文法遵循不完全地构成自然语言表达的传统语法习惯。迄今为止，不是从“表面结构”或“深层结构”的差别出发的。语言学假说表明，句法的深层结构和其向具体的表面结构的“生成转换”对语言系统的能力很重要。如果在复杂性提高的情况下还只使用目前所用的表面结构，则为了完成其任务，表面结构必须很大，使得它在运用时几乎不能被合理地管理，并且服务器的负荷达到其能力的极限。

US-B1-6182039公开了一种自然语音识别方法，其中这种方法包括分析说出的短语中包含的三音素，形成包含在这个短语中的词，以及借助于语法规则对说出的短语进行句法重构。这个发明的缺点在于，没有对用于对说出的短语进行句法重构的语法规则的准确说明，尤其是不能得到对用于语音字典的提示。

本发明的任务在于提供一种基于生成转换/短语结构语法的语音识别方法，与传统的识别方法相比，该方法需要更少的系统资源，并从而可以在减少过度生成的同时对语音进行可靠、快速的识别。

根据本发明，该任务通过以下特征完成：

基于生成转换/短语结构语法的自然语言识别方法，具有以下步骤：

-分析说出的短语中包含的三音素；

-借助于包括具有语音的字典的数据库由所识别的三音素构成包含在说出的短语中的词；以及

-使用语法规则，由所识别的词对说出的短语进行句法重构，其特征在于，所述对说出的短语进行句法重构包括以下步骤：

-将所识别的词归入词类类型；

-将词类类型归入名词短语和动词短语；

在预先规定不同句子模型的情况下，根据句法规则将名词短语和动词短语组合为对象，其中将所识别的词序与预先规定的句子模型进行比较，如果一致，则句子被视为已识别。

根据本发明，对说出的短语分析其中包含的三音素(Triphone)，借助于语音词数据库(Lautwortdatenbasen)(字典)由所识别的三音素构成说出的短语中包含的词，并且使用语法规则(文法)由所识别的词在语法上重建说出的短语。

在本发明的具有优点的实施例和改进中，所识别的句子在语音控制应用中引起动作；每个句子模型包括多个对应于词类类型的变量，所述变量由所识别的词的相应词类类型填充；所识别的词被分成不同的词类类型而被保持在包括具有语音的字典的词数据库中；将所述对象或所述对象的一部分与语音控制应用的相应动作参数相结合。

本发明的方法和传统的文法规范语言之间的对比非常明显，传统的文法规范语言在小的应用中也通过造句法表面，即通过具体起草成功的句子而获得好的结果。

根据本发明，不是在表面上再现语法句子的结合规则，而是揭示所有印度-日耳曼语系语言的语段结合所遵循的深层结构。借助于句法模型以所谓结构树的形式描述每个句子。

GT/PS文法不遵循特定应用的潜在的表达，而是遵循印度-日耳曼语系语言句法(句子构造规则)的深层结构。它提供了框架(Gerüst)，所述框架可以由不同的词来填充，并且比目前常用的“模仿(mimetisch)”方法更好地重现所说出的语言。

在通过结构树所描述的深层结构中可以发现，特定短语在句子中重复。可以借助于GSL再现和弥补这种重复。由此，不仅文法的规模明显少了，而且有语法错误的句子的过度生成也明显减少了。

在传统GSL文法中，例如有大约500个次文法(Subgrammar)在七个等级层中相互结合，而在GT/PS模型中，次文法的数量减少到例如仅有30个次文法在两个等级层中。

新的文法类型以结构化的形式形成了自然语言表达，并且只有例如目前语法规模的大约25％。因为这种文法规模很小，所以它能够更简单地管理，其中用于汇编(Kompilierung)的时间显著减少。由于其规模很小，所以提高了识别可靠性(精确度)，并且识别延迟(等待时间)减少了。更好地利用了现有的计算机能力，并且提高了服务器性能。另外，这种新的文法不是基于特定应用，而是能够以其基本结构被应用于不同用途，因此提高了系统的同质性(Homogenitt)，并减少了开发时间。

深层结构的通用代码使多语言的语言系统的使用和经济价值扩大到目前没有达到的范围，而且用很少的消耗就能处理西欧标准语言。

与目前用于自然语言对话应用的文法不同，新的GT/PS语法基于当前的语言学模型，这种语言学模型在表面结构和深层结构的框架内形成自然语言表达。用文法规范语言(GSL)将抽象的结构模型转换成分层次地嵌套和交联的规则，在这两种设备中都形成所述规则的结构。

GT/PS文法的技术优点在于：

-由于GT/PS文法只需要两层就足够了，而不是目前的最多七个次文法级，所以GT/PS文法比目前的语法规模小很多；

-满足文法但是有语法错误的句子(过度生成)的数量显著减少；

-它只需要目前所使用的槽(Slot)的三分之一；

-相对于目前的语音识别器的情况，它是在下面的文法层中填充槽，而不是在上面的文法层；

-它始终利用GSL(文法规范语言)提供的指令，以使槽值达到更高的文法层；

-它具有带有标志ACTION的新的槽，所述槽只能够由值GET和KILL填充；

-它与相互嵌套的槽一起工作，所述槽具有高度的多任务能力；

-它导致了识别效率的改善；

-它支持简化的选择，以引入多语言应用；

-它在细微差别(Nuance)技术方面具有无缝整合能力。

PSG的经济方面的优点在于：

-通过更好地利用系统资源，减少了硬件成本；

-通过有效的识别，降低了转换时间；

-通过简单的管理，节省了人力资源；

-更高的客户满意度；；

-可用于所有语言(从英文到中文)。

下面参考附图借助于简化的实施例详细介绍本发明。由附图及其描述获得本发明的其他特征、优点和应用可能。其中：

图1：识别过程的第一个步骤，三音素分析；

图2：识别过程的第二个步骤，根据所识别的三音素进行词识别；

图3：识别过程的第三个步骤，对所识别的词进行句法重构；

图4：将所识别的词分入词类类别及名词和动词短语的一个例子；

图5：对于一种可能的文法的编程实例；

图6：PSG文法结构的概貌；

图7：在现有技术的文法中形成词组的例子。

图1表示语音识别的第一个步骤：三音素分析。例如由电话的麦克风接收个人1的连续语音流，并且作为模拟信号传输给语音识别器2。在那里，模拟语音信号被转换为数字语音信号3。语音信号包含大量的三音素，即语音音段，在语音识别器2中用现有的、即预定的三语音结合规则对三音素进行调整。现有的三音素被存储在包含一个或多个语音词典的数据库中。所识别的三音素表示为三音素链4，例如“pro”、“rot”、“ote”、“tel”。

在图2的第二步骤中，由所识别的三音素构成有意义的词。为此，现有的三音素链4与存储在另一个语音词典5中的预定词6，例如“profi”、“portal”、“protel”、“hotel”，进行比较。语音词典5可以包括特定的口语词汇以及为各种用途设置的特殊词汇。如果所识别的三音素，例如“pro”和“tel”与词，例如“protel”中包含的三音素一致，则相应的词7被识别为“protel”。

在图3所示的下一个步骤中，借助于文法8对所识别的词7进行句法重构。为此，将所识别的词归入其词类类别，例如名词、动词、副词、冠词、形容词等，如图6所示。这是借助于划分为词类类型的数据库来实现的。如图5中所示，数据库9-15可以包括上面提到的传统词类类型以及特殊词类类型，例如“是/否”语法9、电话号码14、15。另外，可以规定识别DTMF输入16。可以在词识别过程中已经完成了上述将所识别的词归入词类类型的步骤。

在下一个步骤中(步骤17)，借助于词类类型将所识别的词归入动词短语(即基于动词的短语)和名词短语(即基于名词的短语)，参看图6。然后，根据短语结构的角度将名词短语和动词短语组合起来。在步骤18中，将用于多任务的对象与相应的语言控制用途相结合。

每个对象19包括一个存储在文法8中的目标句子，更准确地说包括句子模型。由图4可知，可以用词序列“主语，动词，宾语”或“宾语，动词，主语”定义这样的句子模型。在文法8中以这样的一般形式存储多种其他句子结构。如果识别的词7的词类对应于预定句子模型的顺序，则它们被归入相应的对象。句子被视为已识别。换言之，每个句子模型包括多个归入不同词类的变量，这些变量被识别的词7的相应词类所填充。

这种方法使用传统的文法规范语言(GSL)，但以具有新颖性的方式组织所存储的句子。其中，它遵循短语结构语法规则和生成转换语法方案。

通过始终使用这里介绍的句子的深层结构，尤其是名词短语和动词短语的差别，它与目前常用的直观文法方案相比更接近自然语言的句子结构。

因此，GT/PS文法基于适于确定自然语言表达的抽象原则的理论建模。在现代语音识别系统领域中，它首先提供了这样的可能性，即几乎翻转了句子构造规则的抽象，并且具体化为对应用用户表达的预测。因此，可以系统地访问迄今始终基于例句的直观累积的语音识别文法。

常规文法和GT/PS文法的核心特征是所谓的次文法中的分等级嵌套，次语法在最高层将单个词，例如变量，组合为整个句子。在这点上，GT/PS文法的规模非常小，并且比目前已知的语法更清楚。与常规文法不同，在新的文法中几乎只有“有意义的”句子，因此减少了过度生成(即所存储的、在自然语言意义上是错误的句子)的数量。因为应用只需要在所存储的少量选项中选择，所以这又是改善识别效率的前提。

Claims

1.基于生成转换/短语结构语法的自然语言识别方法，具有以下步骤：

-分析说出的短语中包含的三音素；

-借助于包括具有语音的字典的数据库(5)由所识别的三音素构成包含在说出的短语中的词；以及

-使用语法规则，由所识别的词对说出的短语进行句法重构，

其特征在于，所述对说出的短语进行句法重构包括以下步骤：

-将所识别的词(7)归入词类类型；

-将词类类型归入名词短语和动词短语；

-在预先规定不同句子模型的情况下，根据句法规则将名词短语和动词短语组合为对象，其中将所识别的词序与预先规定的句子模型进行比较，如果一致，则句子被视为已识别。

2.根据权利要求1的方法，其特征在于，所识别的句子在语音控制应用中引起动作。

3.根据权利要求1或2的方法，其特征在于，每个句子模型包括多个对应于词类类型的变量，所述变量由所识别的词(7)的相应词类类型填充。

4.根据权利要求1方法，其特征在于，所识别的词(7)被分成不同的词类类型而被保持在包括具有语音的字典的词数据库(5)中。

5.根据权利要求1的方法，其特征在于，将所述对象或所述对象的一部分与语音控制应用的相应动作参数相结合。