CN1298171A

CN1298171A - 执行句法置换规则的语音识别装置

Info

Publication number: CN1298171A
Application number: CN00132297.4A
Authority: CN
Inventors: 克里斯托夫·德洛奈; 弗雷德里克·苏夫莱
Original assignee: Thomson Consumer Electronics SA
Current assignee: Vantiva SA
Priority date: 1999-11-30
Filing date: 2000-11-28
Publication date: 2001-06-06
Anticipated expiration: 2020-11-28
Also published as: FR2801716B1; JP2001188560A; CN1159701C; JP4689032B2; FR2801716A1; EP1111587B1; DE60025687T2; DE60025687D1; EP1111587A1; ES2254118T3; US20010002465A1

Abstract

一种语音识别装置,包括用于采集声信号的音频处理器(2)和用于确定与音频信号相对应的词序列的语言解码器(6),其特点在于语言解码器包括用语法的帮助定义的语言模型(8),该语言模型包含不重复置换符号用的句法规则。

Description

执行句法置换规则的语音识别装置

信息系统或控制系统正越来越多地利用语音接口与用户进行快速和直观的互相联系，由于这些系统正变得更加复杂，所以被支持的对话形式一直变得更为丰富多样，其一正进入大词汇量的连续语音识别领域。

众所周知，大词汇量连续语音识别系统的设计要求语言模型产品，这种产品确定句子流水顺序中应用词汇的一个给定词跟随另一个词或词组的概率。

这个语言模型必须复现系统用户原来所用的话语形式。

所用语言模型的质量对语音识别的可靠性有很大影响。这个质量最常用的所谓语言模型的困惑性指数来衡量，它概略地相当于对每个解码词必须进行的选择次数。这个困惑性越低，质量就越高。

语言模型是对话系统常用的一个步骤即把语音信号转换为词的文本串所必需的。因而需要建立理解逻辑，这种逻辑使有可能领悟疑问从而回答它。

有两种用于产生大词汇量语言模型的标准方法：

(1)所谓N-字母组统计方法，最常用的是双字母组或三字母组，其要点是假定句子中的一个词的出现概率只与它前面的N个字有关而与句子中它的上下文无关。

如果就1000个词的词汇举三字母组的例子，就需要确定1000³个概率，以确定语言模型，这是很不切实际的。为解决这个问题，把字组合成组，它们即可以由模型设计者明确地确定，也可以由自组织方法推定。

这种语言模型是根据文本语言资料库自动建立起来的。

(2)第二种方法的要点是借助于概率语法描述语法，其基本上是由一组所谓巴克斯-诺尔形式或BNF形式中描述的规则确定的上下文无关语法。

描述语法的规则通常是手写的，但也可以自动推定。在这方面可以参考下列文件：

“概率上下文无关语法的基本方法”，(Basic methods of probabilisticcontext-free grammars F.Jelinek,J.D.Lafferty and R.L.Mercer NATO ASISeries Vl.75pp.345-359,1992)。

上述模型在应用于自然语言系统接口时，会有一些特殊问题：

N字母组型的语言模型(1)不能正确地模拟句子中几个距离的语法上的子结构之间的依赖性。对于句法上正确的完整句子来说，无法保证这些子结构在识别过程中被作为根据，因此难以确定通常由一个或多个句法结构承载的如此这般的意义是否被句子传达。

这些模型适合于连续听写，但它们在对话系统中应用就有上述缺点。

基于语法的模型(2)使有可能正确地模拟句子中的远距离依赖性，也能遵守特定的句法子结构。在给定的应用中，所得语言的困惑性通常比N字母组型的模型为低。

另一方面，对于高度字型变化的文字，如法语或意大利语，句中的句法组的位置是相当自由的，BNF型语法的问题在于确定句法组的置换。

对于较少字型变化的文字，如英语，这些置换也是需要的，以便描述通常口语的短停和似是而非的开始，以BNFs为基础的语言模型更加不合适。

本发明的目的是一种语言识别装置，包括采集音频信号用的音频处理器和确定与音频信号相应的词序列用的语言解码器，其特点在于：

语言解码器包括用语法的帮助确定的语言模型，这个语法包含不重复地改变符号序列的句法规则。

发明者提出的语言模型扩展了BNF语法体系，用以支持普通语言的语法置换和高度字型变化的文字的语法置换。它能减少语言识别处理所需要的存储量，并特别适合在大量销售的产品中使用。

根据优选实施例，置换符号的句法规则包括一个符号表，和约束符号次序的适当表达。

根据优选实施例，语言解码器包括识别引擎，它在将置换的符号指派给一串句项时，只在以前未被指派置换的符号中选择一个符号指派给给定项。

根据具体实施例，识别引擎执行“定向搜索”或“n-最佳”型算法。

其他算法也可被执行。

本发明的其他特征和优点，通过借助于附图对具体而非局限的实施例的描述，将变得明显可见，附图中：

图1是语言识别系统的示意图，

图2是现有技术的栈库自动化示意图，

图3是根据本发明的栈库自动化示意图，

图4是根据本发明的在例示性置换分折的开始替换符号的示意图，

图5是根据本发明的在图4例子的后一步骤中替换符号的示意图，

图6是借助于现有技术规则置换的表达中替换符号的示意图，

图7a是树形图，说明根据本发明的由例示性置换所得节点上的替换组。

图7b是树形图，说明根据现有技术的由例示性置换所得节点上的替换组。

图1是语言识别的例示性装置1的方块图。这个装置包括音频信号处理器2，它对通过信号采集电路4而得的源自传声器3的音频信号进行数字化。处理器也将数字采样转换为从预定的字母表中选择的声符号。为此，它包含声学一语言解码器5。语言解码器6处理这些符号，从而为符号序列A确定所给序列A的最大概率词序列W。

语言解码器使用声模型7和语言模型8，由基于假设的搜索算法9实现。声模型是例如所谓“隐藏马尔可夫”模型(或HMM)。在这个实施例中实现的语言模型是基于借助于巴克斯-诺尔形式的句法规则描述的语法。语言模型用于向搜索算法提供假设。搜索算法是识别引擎所固有的，就这个例子来说，它是以维特比型算法为基础并被称为“n-最佳”的搜索算法。n-最佳型算法在句子分析的每一步骤中决定n个最大概率词的序列。在句子的末尾，最大概率解从n个候选者中选择。

上一段中的概念本来是熟悉技术的人所熟知的，具体有关n-最佳算法的信息在下列著作中被给出：

语言识别用的统计方法”，(“Statistical methods for speechrecognition,F.Jelinek,MIT Press 1999 ISBN 0-262-10066-5 pp.79-84)。其他算法也可以被实现。特别是“定向搜索”型的其他算法，“n-最佳”算法是它的一个例子。

声学-语音解码器和语言解码器能通过适当的软件来具体实现，这个软件上由具有存储器入口的微处理器执行的，而存储器则包含识别引擎的算法和声学模型及语言模型。

本发明也涉及语言模型，以及它在识别引擎中的应用。

下列四个句法规则常用于定义语言模型概率语法。

这四个规则是：

(a)“Or”符号

<符号A>=<符号B>｜<符号C>

(b)“And”符号(串联)

<符号A>=<符号B><符号C>

(c)任选单元

<符号A>=<符号B>？<任选下标>

(d)词分配

<符号A>=“词字”

需要注意的是只有规则(a)、(b)和(d)实际上是必须的。规则(c)能借助于其余三个规则再生，不过对语言模型的简缩是不利的。

根据本实施例，语言模型使用一个附加规则，以定义语言模型的概率语法：

(e)“permutation”(“置换”)符号

<符号A>=Permut.{<符号A1>，<符号A2>，…，<符号An>}

(<符号Ai>＞<符号Aj>

，…，

<符号Ak>＞<符号Al>)

这表明符号A是n个符号Al,…,An的不重复置换中的任意一个，每次置换时这些符号被用“And”规则连接。

另外，根据本实施例，只有当置换满足括号之间表示的约束，并读出：“符号Ai在置换中出现在Aj之前，符号Ak出现在Al之前”，这个置换才是句法上有效的。

规则(c)中所定义的任选下标操作如下：

任选下标是由一个整数和一个布尔值形成的对，它可以是真或是假。

当碰到这样的重写规则时，即：

<符号A>=<符号B>？(任选下标)

那么：

·如果当前任选下标相同的整数在其他规则(这些规则已在语言模型的语法中产生现行状态)的任选下标中没有碰到过(现时调查的假设)，那么，符号A可能：

·被用来替换符号B，任选下标被激活；

·被替换到空符号，任选下标不被激活。

·如果根据上述规约通过应用同类规则而相同的下标已被激活，那么，规则的有效表示仅仅是：

·如果布尔下标为真，则用符号A替换符号B；

·如果布尔下标为假，则用符号A替换空符号。

置换可在上下文无关的BNF型语言中被表示，即通过第五规则简单地扩展句法树，这种扩展完全是利用前面的四个规则而得到的。为了组合，随着被置换的符号数目地增加，所得到的句法树将加大尺度。

置换处理是通过栈库自动化而实现的，因此它是与上下文有关的，并标明在句法搜索过程中，是否已碰到参与置换的组存在，且正确地与次序约束有关。

标准的BNF语法处理是通过图2所示的目标而实现的。

另一方面，实施例依赖于栈库自动化，用的是图3所示的新目标。

为描述句法规则(e)的具体实现，我们将以没有约束的、由三个句法组成的单个置换句子为例：

<句子>=置换{<A>,,<C>}

项A,B和C它们本身可以是重复项，用一个或多个置换符号和/或其他符号定义。

用语法表述的通常原则，使用简单的BNF句法为基础的语言识别系统，将以下列方式对句子的这种形式进行转换：

<句子>=

<A><C>｜

<A><C>｜

<A><C>｜

<C><A>｜

<C><A>｜

<C><A>。

有3！个组合，由“or”符号(1)连接。句法树是全然不显露的，事实上，这个树表达置换的信息丢失掉了。所述的树完全存储在存储器中，代表语音识别所要求的语言模型。

这个结构在识别引擎的“n-最佳搜索”过成中被用于提出待分析的候选项，这些项将被衔接起来形成句法应允的句子，识别引擎将从其中保留n个最佳，即那些能就所给被记录的声信号显现出最高似然得分的项。

“n-最佳搜索”算法和修剪句法树分枝的策略相结合，这个策略是在从左至右分析句子的过程中，仅保留n个最佳后选段直至当前分析点。

可以看出，在检查前面所考虑的这个句子时，在分析的开始，将有六种替换出现在声学解码引擎，每种都是三个项目<A>，，<C>的一种组合。有可能从左至右区别两种组合的三个子组的事实(一个以符号<A>开始，第二个以符号开始，最后一个以符号<C>开始)丢失掉了，引擎将以无差别的方式分析六种结构中的每一种。如果在对这些结构的分析过程中，发现句法结构<A>，和<C>对于修剪是充分复合的，那么，被分析的n个最佳段实际上将被组成为完全相同的结构时，因此，实际上只有n-最佳/2次替换被考虑过。

本发明提出的新颖的处理并没有搜索空间减小的缺点：在语法中存在置换的信息被明确指明的，置换照原样被处理。

下面，将详细描述识别引擎在具体实施描述置换的规则(e)时的行为，然后我们将集中描述识别引擎在借助于规则(a)至(d)表示置换的情况下的行为。从这两种行为比较中，本发明所提供的上述优点将会显现出来。

按照本发明，当它表现为置换时，图4和5显示了识别引擎的行为。

现在着手分析这种置换，图3表示步骤，对识别引擎选择句子的第一项来说，出现三种可能：符号<A>，符号和符号<C>。用以修剪的“n-最佳”分析被应用于这些结构。引擎首先考虑符号<A>。在如下的左/右分析中，对探索路由<A>的路径进行协商。

如果它是从被分析的<A>开始的路径，通过设置被指派到置换和指派到当前检查的置换的变量，存储器中的一个逻辑符号便保留这一信息。由引擎管理的这个变量确定：在本路径的其余分析中这个符号<A>不再是激活的，也就是说，它将不再是变量，即不再是沿相同路径继续下去的项的后选符号。

更精细地说，分析开始时的状态如图4所说明的：三个符号<A>，，<C>是激活的，是n-最佳识别算法的候选者。

在搜索过程中，每个替换都被探查。例如，首先是符号<A>被设想。在这个探查过程中，有必要探查由<A>开始的可能的符号串：从分析句子第二项的观点出发，将会是图5所说明的状态：对分析句子的余下部分，对当前设想的替换者来说，符号<A>不再是变量，因为前面在对被记录的信号流左/右分析中它已经被用过了。

至此，还有两个候选符号保留，和<C>。将要对例如符号进行分析的搜索路由，将标明这个符号是激活的，只有符号<C>在其后的解码中将保留为变量。

按另一方式，根据本发明的识别引擎处理由规则(e)按图7a所说明的方式定义的置换。所考虑的是识别引擎考察有待分析的句子的序列ⅰ的项。引擎确定可能替换的符号组：在以三个符号作为置换例子的情况下，在ⅰ层次上有三个可能的替换者：<A>，，<C>。在序列ⅰ+1，现在只有两个替换者，前面在序列ⅰ被选择的符号不再被引擎考虑。在序列ⅰ+2，现在没有可能的选择。

从考虑n个最佳路径的观点来看，显然，在图7a的树的某些节点的层次上，可能的替换者数目的减少，避免了对部分多余路径的考虑。

通常的语音识别算法(未使用我们发明的机制)的操作，能类似地表示出来。

现在开始解码，状态如图6所示：可以看出，开始对句子的分析，识别引擎会想到它面对六种可能。头两个以符号<A>开始，在出现与第二项相称的实际替换者之前，它们的处理将正好是相同的。

因此，直到现在，n-最佳算法为保留最有希望的线索所用的存储空间，将两次包含每个搜索假设。

如果组(A)是充分复合的，并且在跟随<A>的差异项出现之前发生修剪，那么，“n-最佳搜索”算法实际上将仅进行“n/2最佳搜索”次，被分析的每个路由是重复的。

所给的例子是就三个项的置换而言的。对于四个或更多个项的置换，同样的做法会对识别算法施加更为有害的影响。从识别引擎看来的困惑性大大超过语言模型的实际困惑性。

图7b说明现有技术的处理：六个替换者出现在序列ⅰ，而不是三个。

这个例子表示我们的发明与传统方法相比，提供了两个优点，即使不增强语言模型的表达性：

替代描述句法树的存储，它可以用若干存储器，一个只存储在置换中出现的项，外加简单类型的变量，这些变量标明在识别引擎的n-最佳分析的过程中可能激活的句法组。

以BNF语法为基础的语法置换处理，是不适合于语言识别处理的声部分勉强采用的n-最佳搜索算法的：一个和相同的分析假设被考虑几次，并且n-最佳常常是n/m-最佳，m依赖于包含在置换中的项数。

所提出的新颖的语言模型旨在用于大词汇量人机语音对话应用、高度字型变化的文字或自发语言识别。

当符合语法的句子有限时，基于上述规则的语言并不是更能表达的，或者说并不比利用通常的规则表达的NBF型的语言更强。所以，本发明的有利之处不在于新颖语言的表达性，而在于通过语言识别引擎的算法，在句法规则的处理层上的优点。处理所要有的存储量较少。

另外，新颖的句法规则使语法写起来容易得多。

由于处理过程依赖于栈库自动化，不同于现行的解决方法，它特别适用于低成本的机内应用例如在大量销售的电子装置中应用。

Claims

1．一种语音识别装置，包括用于采集音频信号的音频处理器(2)和用于确定与音频信号相对应的词序列的语言解码器(6)，其特征在于：

语言解码器包括用语法的帮助定义的语言模型(8)，该语言模型包含不重复置换符号用的句法规则。

2．根据权利要求1所述的装置，其特征在于：置换符号用的句法规则包括符号表，和约束符号序列的适当表达。

3．根据权利要求1或2所述的装置，其特征在于：语言解码器包括识别引擎(9)，它在将置换的符号指派给一串句项时，只在以前未被指派置换的符号中选择一个符号指派给定项。

4．根据权利要求3所述的装置，其特征在于：识别引擎执行“定向搜索”或“n-最佳”型算法。