CN1228759C

CN1228759C - 利用置信记录识别语音信号中的字的方法和系统

Info

Publication number: CN1228759C
Application number: CN02105628.5A
Authority: CN
Inventors: P·R·莫林
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2001-03-28
Filing date: 2002-03-28
Publication date: 2005-11-23
Anticipated expiration: 2022-03-28
Also published as: CN1434436A; US20020161581A1; US6985859B2; DE60204504T2; ES2243658T3; EP1246165A1; EP1246165B1; DE60204504D1

Abstract

本发明提供了一种在恶劣和未知噪音环境下的语音信号中进行字识别的方法和系统。该方法消除了由环境(即噪音和沟道效应)造成的针对词典中的每个字特定的动态偏差。该方法包括根据语音信号和这个字在词典中的条目生成第一识别记录。该识别记录追踪这个字在语音信号中的绝对可能性。根据第一识别记录估算出背景记录。该方法可以进一步根据最小识别值和背景记录之间的匹配率计算出置信记录。该方法和系统可以根据应用的需要处理任意数量的字。因此，该置信记录追踪这些字在语音信号中的噪音修正可能性。

Description

利用置信记录识别语音信号中的字的方法和系统

发明背景

技术领域

本发明一般涉及语音识别，更具体地涉及一种用于语音信号中字识别的方法和系统，可以动态补偿背景噪音和沟道效应。

讨论

语音识别越来越受到欢迎，并且证明在多种应用中是相当有用的。例如，语音识别已经在家庭器具和电子产品、蜂窝式电话以及其他移动用户电子产品这些领域中兴旺发展。随着关注程度的增加，传统语音识别的局限性越来越显现出来了。

一个特别的局限性是端点检测。端点检测涉及自动将语音信号分割为语音和非语音片断。分割以后，通常会应用某些模式匹配的格式来给出识别结果。但是，需要特别注意的是背景(或附加)噪音和通道(或涡流)噪音。例如，可以用文献来证明某些应用包括相对来说可预知的背景噪音(例如汽车导航)，尽管很多其他应用会涉及到不可预知的背景噪音(例如，蜂窝式电话)。虽然上述端点检测方法经常用于低噪音或可预知的噪音环境，但是有噪音的或不可预知的背景很难处理，原因有多方面。一个原因是因为当信噪比(SNR)的减小时，区分语音和非语音的能力降低。另外，由于意想不到的背景噪音而导致的失真(例如频谱屏蔽效应)使得后面的模式匹配变的越发困难。

对于信道噪音，众所周知，由于所使用的信号传输/转换设备的不同，沟道效应也会不同。例如，个人电脑(PC)麦克风和电话通道对音频信号的更改很可能不同。众所周知，噪音类型、噪音级别和通道全体限定出一个环境。所以，不可知的信道噪音会产生很多上述背景噪音问题。简单的说，在处理不可预知通道、高噪音级别介质或者不稳定背景时，语音和非语音的自动分割变得非常不可信。在这些条件下，自动端点检测器会发生错误，例如在没有语音的部分触发或者在语音部分的开头和/或结尾添加噪音片断。

另一个与传统端点检测有关的问题是预知最终用户(或者说话者)行为的能力。例如，最好是可以在短语“取消它”中识别出命令“取消”，或者在短语“啊……是”中识别出命令“是”。这些不相关的词和停顿可能给识别过程造成很大的困难。另外，通过选择性迫使用户遵循固定的发音风格，使系统的自然性和期望值大大降低。因此，端点检测方法通常不能忽略说话者发出的不相关的词和停顿。

尽管字识别技术致力于解决上述用户关心的问题，但是所有传统的字识别技术在补偿背景噪音方面仍旧存在缺陷。例如，某些系统需要一个或几个背景模式，并在字模式和背景模式之间使用竞争方案(competition scheme)来帮助触发决定。这种方法参见Garman等的美国专利US5425129，此处作为引用文献。其他系统，例如此处作为引用文献的Ariyoshi的美国专利US6029130中，把字识别和端点检测合并在一起以帮助确定语音信号的有用部分。还有一些其他方法使用非关键字或者无用模式来处理背景噪音。另一种方法是在使用其他字记录的地方进行判别训练，来帮助提高检测可信度，如此处引用的Juange等的美国专利US5710864中所述。

上述所有字识别技术都是基于一种假设，即字匹配记录(score)(表示字在语音信号中的绝对可能性(likelihood))是决定性识别因素，而不考虑背景环境。这样，只要这个字的最佳记录超过一个给定阈值，这个字就被认为已被检测到。尽管上述假设在高SNR的情况下通常是成立的，但是在低SNR的情况下，当字的可识度受噪音频谱特性影响很大时，这个假设是不成立的。可识度的减小是因为噪音的屏蔽效应，这种效应会隐藏或者不再强调标志着某个字的某些相关信息。这种效应因字而不同，这使字之间的记录比较变得更加困难和不可信。所以，最好是有一种可以进行语音信号中字识别的方法和系统，可以按每个字动态地补偿信道噪音和背景噪音。

一种根据本发明用于在语音信号中识别字的方法提供了上述和其他目标。该方法包括：根据语音信号和第一字在词典中的条目生成第一识别记录。第一识别记录追踪第一字在语音信号中的绝对可能性。根据第一识别记录估算出第一背景记录。在优选实施例中，第一背景记录由第一识别记录的平均值来定义。该方法还可以根据第一最小识别值和第一背景记录之间的匹配率来计算第一置信记录。因此，第一置信记录追踪第一字在语音信号中的噪音修正可能性。上述过程可以应用于任意数量的字(例如，第二、第三或第四字等等)。这样，本发明确定字识别记录之间的关系是噪音类型和噪音级别取向的。同样的，本发明的可靠性程度是传统方法无法达到的。

另外，本发明还提供了一种用于计算给定字的字识别置信记录的方法。该方法用语音识别记录的最小值除以预定时间段内语音识别记录的平均值从而得到匹配率。该平均值定义了估算出的背景记录。该方法还可使匹配率规范化，规范化的匹配率定义了置信记录。

作为本发明的另一个方面，字识别系统包括一个语音识别器和一个识别模块。语音识别器根据语音信号和大量字在词典中的条目生成识别记录。该识别记录追踪这些字在语音信号中的绝对可能性。识别模块按照识别记录估算出背景记录。识别模块根据最小识别记录和背景记录之间的匹配率按帧进一步计算出置信记录。这样，该置信记录追踪这些字在语音信号中的噪音修正可能性。

应该理解，无论是上述总体描述还是下面的详细说明都只是本发明的一些例举，目的是帮助总体上理解本发明的实质和特点。结合其中的附图有助于更好的理解本发明，这些附图将作为说明书的一部分。附图中示出本发明的多个功能和实施例，与说明文字相结合来解释本发明的原理和操作。

附图说明

本领域专业技术人员通过阅读说明书以及权利要求书并参照以下附图很容易了解本发明的有益效果：

图1：按照本发明原理得到的字识别系统的方框图。

图2A：图1中所示第一识别记录和第一背景记录曲线图的放大视图。

图2B：图1中所示第二识别记录和第二背景记录曲线图的放大视图。

图3：本发明的一个实施例中的识别模块的详细视图。

图4：按照本发明原理得到的识别语音信号中识别字的方法的流程图。

图5：本发明的一个实施例中用于计算字识别置信记录的过程流程图。

图6：本发明的一个实施例中一个识别记录的局部最小值的放大视图。

具体实施方式

图1中显示了一种字识别系统10。应将理解，通常字识别系统10从输入设备(例如麦克风12)接收语音信号13，并生成字识别结果14。系统10可以应用于很多需要使用字识别的设备。例如，蜂窝式电话可以使用系统10来实现语音拨号系统(未示出)。这样，在一个实施例中，语音信号13代表来自电话用户(未示出)的连续的语音流，其中识别系统10寻找语音中特定的字来执行拨号过程。字识别结果14被传递到用于执行很多命令的语音拨号系统的其他部分。需要注意的是，尽管识别系统10的应用很广泛，但是识别系统10特别适用于具有苛刻的和不可预知的背景和信道噪音的环境。

通常，识别系统10具有语音识别器16和识别模块18。识别器16根据语音信号13和多个字24，26在词典中的条目生成识别记录20，22(R1和R2)。可以看到，识别模块18根据识别记录20，22估算出背景记录28，30。给定字W的背景记录是在强制W的字模式与背景环境(即没有发W的音时)匹配时获得的记录。识别模块18还可以按照最小识别值和背景记录28，30之间的匹配率按帧计算置信记录(后面将详细说明)。置信记录追踪字24，26在语音信号13中的噪音修正可能性。

需要注意的是，为了方便说明，该识别系统10已被简化。例如图示的词典32具有两个条目，然而可以想象实际应用程序可能需要大量条目。还要注意的是，如果需要，可以配置识别系统10，以便在语音信号13中搜索单个字。

尽管如此，语音识别器16根据语音信号13和词典条目生成连续的识别记录R1和R2。如图2A、2B所示，识别记录20，22最好表示可识度标准，这样低识别记录可以指示出被查询的字包含在语音信号中的高可能性。这样最小值M 1和M2表示识别器最确定相应的字包含在语音信号中的时间点。很多已知的识别器都可以配置为提供这种结果。一种这样识别器参见Dharanipragada等的美国专利US6073095，在此作为引用文献。需要注意的是识别记录20，22追踪这些字在语音信号中的绝对可能性。

在附图1-3中，可以看到识别模块18可以使识别系统10消除词典中每个字特有的动态偏差，这样可以公平的进行记录比较。通常，识别模块18连续估算出每个字的背景记录。然后，根据每个时间帧处活动记录和背景记录之间的匹配率以及以每个字为基础建立触发策略。

如图3所示，识别模块18具有与第一字相对应的第一置信模块34a，与第二字相对应的第二置信模块34b。可以看到置信模块34具有追踪模块50，用于定位识别记录R中的最小值M。

如图3所示，置信模块34用识别值M除以识别记录的平均值B得到匹配率M/B。这样，平均值B定义了背景记录。每个置信模块34还对匹配率进行规范化以便规范化的匹配率1-M/B定义置信记录。应理解，当最小值M变得小于背景记录B时，匹配率M/B将趋近于零。规范化的匹配率(即置信度1-M/B将趋近于1。另外，因为每个背景记录B对于给定字是唯一的，所以本发明中的置信记录考虑了噪音会以不同的方式影响不同的字。)

应进一步理解，字识别选择器48最好能够将置信记录和预定的置信阈值进行比较，其中当被查询的字相应的置信记录超过预定的置信阈值时，这个字被定义为包含在语音信号中。还应理解，字识别选择器也可以确定第一字和第二字是否对应于语音信号中共同的时间段。这样，当第一字和第二字对应于共同的时间段时，选择器48可以根据第一置信记录和第二置信记录在第一字和第二字之间进行选择。进一步将理解，选择器48使用可能值进行工作。例如，当规范器56生成一个更好的可能值时，计时器(未示出)启动。如果在该计时器期满之前(即Δt延迟之前)又生成一个新的更好的可能值，可能会重新启动计时器。当1)计时器期满，2)最好的可能值在可能值阈值之上时，将检测到这个字。

如图6所示，字识别选择器48的延迟组件可以在识别记录20的预定范围Δt内延迟字选择，这样可以从匹配率计算中排除局部最小值52。延迟的目的是为了确保系统不会根据超过阈值的第一置信度来输出字。为了实现触发，最佳置信度必须超过阈值，并且其后的Δt秒内没有发现更好的值(针对词典中的任何字)。实际上，此功能可避免过早触发。例如，如果要识别的短语是“Victoria Station”，延迟可以避免偶然触发“Victoria Sta.”。因此，Δt值表示在局部最小值上触发时的有效性延迟，它还提供了一种确保达到最小值的机制。

附图4显示了一种用于语音信号中字识别的方法36。如上所述，该方法36可以应用于词典里存储的任意数量的字。在步骤38中，根据语音信号和第一字在词典中的条目生成第一识别记录。已经注意到，识别记录追踪第一字在语音信号中的绝对可能性。在步骤40中，根据第一识别记录估算出第一背景记录。该方法还可以在步骤42中进一步根据第一最小识别值和第一背景记录之间的匹配率计算第一置信记录。第一置信记录追踪第一字在语音信号中的噪音修正可能性。最好通过第一识别记录在预定时间段内的平均值来估算背景记录。例如，计算平均值的时间间隔可以被定义为一些特定数量的连续帧，或者从语音信号的开头开始。

附图5中详细显示了计算第一置信记录的优选方法。具体地，可以看到，在步骤44中，第一最小识别值除以第一识别记录的平均值，从而得到匹配率。如上所述，该平均值定义了第一背景记录。在步骤46中，对匹配率进行了规范化，其中规范化的匹配率定义了第一置信记录。如上所述，可以针对词典中包含的任何数量的字执行附图4和5所示的步骤。

继续参考附图4和5中，应将理解，当识别语音信号中的第二字时，遵循上面描述的方法36。这样，在步骤38中，根据语音信号和第二字在词典中的条目生成第二识别记录。第二识别记录追踪第二字在语音信号中的绝对可能性。在步骤40中，根据第二识别记录估算出第二背景记录。在步骤42中根据第二最小识别值和第二背景记录之间的匹配率计算出第二置信记录。第二置信记录追踪第二字在语音信号中的噪音修正可能性。

本领域专业技术人员可以从前述说明中了解本发明广泛的教导可以以多种形式实施。因此，当本发明结合其实际例子进行描述时，本发明的实际范围并不局限于上述例子，因为本领域专业技术人员通过研究附图、说明书以及权利要求书，其他修改将变得显而易见。

Claims

1.一种识别语音信号中字的方法，所述方法包括以下步骤：

根据语音信号和第一字在词典中的条目生成第一识别记录，第一识别记录

追踪第一字在语音信号中的绝对可能性；

根据第一识别记录估算出第一背景记录；

根据第一最小识别值和第一背景记录之间的匹配率计算出第一置信记录，第一置信记录追踪第一字在语音信号中的噪音修正可能性。

2.如权利要求1所述的方法，其特征在于还包括，取预定时间段内第一识别记录的平均值。

3.如权利要求1所述的方法，其特征在于还包括以下步骤：

第一最小识别值除以在预定时间段内第一识别记录的平均值得到匹配率，该平均值定义了第一背景记录；以及

对匹配率进行规范化；

所述规范化的匹配率定义了第一置信记录。

4.如权利要求3所述的方法，其特征在于还包括，在第一识别记录中定位最小值的步骤。

5.如权利要求4所述的方法，其特征在于还包括，在第一识别记录的预定范围内搜索最小值的步骤，以便从匹配率计算中排除局部最小值。

6.如权利要求1所述的方法，其特征在于还包括，将第一置信记录与预定置信阈值进行比较的步骤当第一置信记录超过预定置信阈值时第一字处于语音信号中。

7.如权利要求6所述的方法，其特征在于还包括，识别语音信号中的第二字。

8.如权利要求7所述的方法，其特征在于还包括以下步骤：

根据语音信号和第二字在词典中的条目生成第二识别记录，第二识别记录追踪第二字在语音信号中的绝对可能性；

根据第二识别记录估算出第二背景记录；以及

根据第二最小识别值和第二背景记录之间的匹配率计算出第二置信记录，第二置信记录追踪第二字在语音信号中的噪音修正可能性。

9.如权利要求8所述的方法，其特征在于还包括，将第二置信记录与预定置信阈值进行比较的步骤，当第二置信记录超过预定置信阈值时第二字处于语音信号中。

10.如权利要求9所述的方法，其特征在于还包括以下步骤：

确定第一字和第二字是否对应于语音信号中公共时间段；

当第一字和第二字对应于公共时间段时，根据第一置信记录和第二置信记录在第一字和第二字之间进行选择。

11.如权利要求1所述的方法，其特征在于还包括，逐帧计算置信记录的步骤。

12.一种字识别系统，包括：

一个语音识别器，用于根据语音信号和多个字在词典中的条目生成识别记录，识别记录追踪这些字在语音信号中的绝对可能性；和

一个识别模块，用于根据识别记录来估算背景记录；

所述识别模块根据最小识别值和背景记录之间的匹配率逐帧计算置信记录，置信记录追踪这些字在语音信号中的噪音修正可能性。

13.如权利要求12所述的字识别系统，其特征在于该识别模块包括：

一个置信模块，用于将最小识别值除以识别记录平均值得到匹配率，该平均值定义了背景记录；

所述置信模块对匹配率进行规范化，以便规范化的匹配率定义置信记录。