CN100524459C

CN100524459C - 用于语音识别的方法和系统

Info

Publication number: CN100524459C
Application number: CNB2003801025097A
Authority: CN
Inventors: A·库伊曼
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2002-11-02
Filing date: 2003-10-24
Publication date: 2009-08-05
Anticipated expiration: 2023-10-24
Also published as: JP2006505002A; EP1561204A1; DE60325997D1; WO2004042699A1; JP4960596B2; DE10251112A1; AU2003274432A1; EP1561204B1; CN1708783A; US20050288922A1; ATE421748T1

Abstract

给出一种语音识别系统的描述，其中分析用户的语音信号，以识别包含在该语音信号中的语音信息。在测试过程中，具有最大可能匹配的识别结果被再次转换成语音信号，以便输出给用户，用于验证和校正。在分析期间，生成以下一个最高概率匹配待识别的语音信号的多个可替代识别结果。以这样的方式执行测试过程内的输出，即，在不正确识别结果输出的情况下，用户可以中断输出。在此情况下，对于在中断之前最后输出的相关识别结果的分段，自动输出可替代识别结果的各个对应分段，以便用户可以从中进行选择。随后，根据所选的可替代识别结果的对应分段，校正提供的识别结果中的相关分段。最后，对于待识别的语音信号的剩余的后续分段，继续该测试过程。也描述了相应的语音识别系统。

Description

用于语音识别的方法和系统

技术领域

本发明涉及一种用于语音识别的方法，其中分析用户的语音信号，以识别包含在该语音信号中的语音信息，以及在测试过程内把具有最大可能匹配的识别结果再次转换成语音信号并输出给用户，以便验证和/或校正。本发明还涉及一种语音识别系统，包括用于检测用户的语音信号的装置，包括：语音识别装置，用于分析检测的语音信号，以识别在该语音信号中包含的语音信息和确定具有最大可能匹配的识别结果；以及语音输出装置，用于在测试过程内再次把最大可能的识别结果转换成语音信息并将其输出给用户，以便验证和/或校正。

背景技术

语音识别系统通常以这样一种方式操作，即，首先在频谱或者在时间上分析语音信号，并且然后将分析过的语音信号在分段中与具有已知语音信息的可行信号序列的不同模型进行比较。为此，语音输出装置通常包括不同的可行信号序列例如语言上有意义的词的完备库。每次通过将接收的语音信号与可行模型进行比较，搜索最佳匹配语音信号的给定分段的模型，以获得识别结果。通常，对于每个模型，计算属于语音信号的相应关联分段的概率。对于语音信号涉及长文本如一个或多个句子的情况，在分析和计算各个模型怎样匹配语音信号的相关分段的概率期间，也考虑语法和/或语言规则。因而保证：不仅长语音信号的各个分段合适地匹配可用的相关模型，而且还考虑其中语音信号分段出现的语境(context)，以获得更切合实际的总体识别结果，从而减少错误引用。然而，仍然存在口语文本的某些句子、句子的部分或者词不被正确理解的残留概率。

因此，对于大多数应用，必需给予语音识别系统的用户测试识别结果以及在需要时对其进行校正的机会。这特别地在相关用户未获得关于入口项的直接反馈的情况下是必需的，例如，在其中用户说了随后以书面文本的形式或者以另一机器可读形式(以下简称之为文本形式)存储的长文本的应用中是必需的。这方面的典型实例是其中消息被首先转换成文本形式的口授系统(dictation)或者应用，随后经由通信网络例如作为电子邮件、传真或者SMS处理或者传播该文本形式。这种类型的进一步应用涉及自动翻译系统，其中语音信号首先被转换成文本形式，此后根据该文本形式翻译成不同语言，并最终把翻译的文本再次转换成语音信号，以便借助于语音输出装置进行输出。在链接到PC的传统口授系统中，可以在PC的显示屏幕上以文本形式直接显示识别结果，所以用户可以借助于传统编辑功能来校正该文本。然而，该校正方法不适合于不提供识别文本的可视显示可能性的应用，例如当使用没有合适显示装置的装置(如“常规”电话机)时，或者不适合于针对部分视力者的应用。在这种情况下，必需以用户具有确认或者校正识别结果可能性的方式经由自动语音输出装置(例如，文本-语音生成器)向用户输出相关识别结果，即以语音的形式输出识别结果。

这种类型的方法例如被描述在US6219628B1中。该引用的文件提到了校正的若干可能性。根据一种可能性，为用户重现整个识别消息，并且如果识别结果不对应于实际说出的消息，则用户再一次说出此消息。该方法不是非常令人满意，特别是在识别错误引用相对高的环境中，例如当在存在显著噪声的情况下说出文本时，这是因为用户随后可能不得不多次说出整个消息，以便最终获得期望结果。根据第二版本，在语音信号的分析期间，对于语音信号的给定分段，自动地确定相应的确定性因子。接着，仅向用户再次输出具有低确定性因子的那些文本分段，即，错误出现的概率最高的分段。然而，以此方式不能完全地检验文本。根据第三版本，安排为按分段重现文本，例如按词或者句子重现文本，并且在分段的每个结尾上插入等待间隔；然后用户有机会单独确认或者拒绝每个单独分段，例如通过词“yes(是)”或“no(否)”来确认或拒绝。如果用户在暂停期间对于延长的时段保持沉默，则该沉默被解释为确认。就用户拒绝重现的分段而言，用户有机会再一次说出该整个分段。

显然该第三版本已经节省了用户相当大的时间量，并且比其中必须再次说出整个文本的第一版本更舒适。但是，它仍然具有用户可能又必需多次说出将被校正的分段的缺陷，即，尤其在高错误引用发生的困难识别的环境中。该方法例如当在用户对于文本的一部分特别异常发音(例如，由于用户的方言)的情况下涉及其它问题，语音识别系统没有最佳可用模型，所以即使在若干次说出该文本时，也产生不正确的识别结果作为最大可能的识别结果。

发明内容

本发明的目的是改善用于语音识别的方法和用于以这样的方式所描述类型的语音识别的系统，能够以更快和更简单的对用户也更加舒适的方式执行对未被正确理解的语音信号的校正。

本发明的目的是这样实现的：在分析期间，直接生成多个可替代识别结果，即生成至少一个利用下一个最高概率与待识别的语音信号匹配的可替代识别结果。然后以用户可以在提供的识别结果不正确的情况下中断输出的方式进行测试过程期间的输出。对于在中断之前最后输出的相关识别结果的分段，随后以语音的形式再次自动输出可替代识别结果的对应分段，以便用户选择。接着，根据用户选择的可替代识别结果之一的分段，校正所提供的识别结果中的相关分段。最后，对于待识别的语音信号的剩余的后续分段，继续该测试过程。

该方法利用以下事实，即语音识别装置无论如何必需测试多个关于其概率的替代识别结果，以确定最大可能的识别结果。语音识别装置现在生成n个最佳句子或词假设曲线作为可替代识别结果并且在例如缓冲存储器中存储这些可替代识别结果，以用于进一步测试过程，而不是在分析期间再次拒绝较小可能的结果。语音识别装置所做的附加工作量仅仅是非常小的。在测试过程期间，该附加信息可用来为相关用户针对识别结果中的不正确识别分段提供替换物。由于各种替换物的概率在许多情况下仅仅略微不同，因此用户将从替换物中发现正确识别结果通常具有相当高的概率。用户随后可以简单地选择该正确替换物，而不必再次说出相关文本分段。这消除了为了校正而再次说出的文本分段再次被不正确识别的风险。

测试过程期间识别结果的输出可以以这样的方式进行，即每次在给定分段之后插入短暂的暂停，并且在这些暂停中例如通过词“stop(停止)”或者“no(不)”检查用户是否拒绝识别结果的最后分段。然而，在识别结果输出期间，最好永久地监视用户的话音活动。只要用户在输出期间说话，就中断输出。这意味着使用了所谓的“插嘴(barge-in)”方法。这样，在输出期间可以省去不必要的暂停，所以可以非常快速地结束测试过程。

为了在语音输出期间在用户发声的情况下(这引起输出中断，即使未打算这样做，但是因为例如对于其他人出现在房间中而预定如此)避免中断识别结果的语音输出，安排成：用户可以通过说出给定命令比如“继续”立即继续输出，而不必首先收听各种可替代识别结果。

根据非常有益的版本，如果用户不选择可替代识别结果的任何分段，则向用户输出请求信号，因为例如所有识别结果都是不正确的，因而请求用户再次说出相关分段，以便校正。

对于提供的可替代识别结果的选择，具有各种可能性。

根据第一版本，识别结果被连续输出，并且接着等候用户是否确认识别结果。在确认情况下，可替代识别结果被接受为正确的。否则，输出下一个可替代识别结果。

根据第二版本，所有可替代识别结果或可替代识别结果的相关分段被连续相继输出，并且用户随后选择适当的识别结果。每个可替代识别结果最好随后与指示符(例如数字或者字母)一起输出，该指示符与相关识别结果相关联。然后，用户可以通过讲出例如相关数字或字母简单地输入指示符来执行各种可替代识别结果的相关分段的选择。

在再一个优选版本中，将通信终端的键控信号例如电话机的DTMF信号与指示符相关联。然后通过启动通信终端的有关按键来执行一个分段的选择。这提供了进行识别结果的选择而不使用中间的进一步语音识别操作的优点，所以排除了由此引入的任何错误。

作为选择，插嘴方法还可用于可替代识别结果的输出。这意味着：在此情况下，输出可替代识别结果的分段而不暂停，并且在输出正确识别结果时，用户只说“停止”或“是”或者类似用语。

在非常有利的版本中校正分段之后，针对其匹配待识别的相关语音信号的可能性，再次评价各种识别结果，也就是，同时考虑已校正的分段以及所有以前确认或者校正的分段。然后，通过输出在重新评价之后具有最高概率的识别结果的后续分段，继续测试过程。作为根据待识别的语音信号的所有以前校正或者确认的部分重新评价的结果，在语境相关概率分析中，仍然可以在测试过程期间永久地改善识别结果，从而降低在后续阶段必需校正的概率。

当长文本或消息将被识别时，各种可能性可用于完成测试过程。

根据一个版本，仅仅在用户输入整个文本之后，才执行测试过程。例如，用户借助于适当的命令如“end(结束)”等可以用信号通知已完整说出期望文本的事实。

根据再一个版本，在输入整个文本的一部分之后，已执行测试过程。这提供了文本的已验证或校正的部分能够有可能地在应用的其它组成部分中进行进一步处理或者存储在存储器中的优点，因而语音识别系统不会仍然被负重担。例如，每当到达文本或语音信号部分的给定长度和/或当给定持续时间的语音暂停发生时和/或当用户借助于特定命令指定时，对于文本的在前输入部分都能够执行测试过程。

根据本发明的语音识别系统必须包括用于执行根据本发明方法的语音识别装置，其以这样的方式被构成：在分析期间，它生成许多可替代识别结果并输出或者存储这样的结果，对于以任何方式输出的最大可能匹配识别结果，这样的结果以下一个最高概率匹配待识别的语音信号。此外，语音识别系统需要用于在测试过程中由用户中断输出的装置以及对话控制装置，对于在中断之前最后输出的相关识别结果的分段，该对话控制装置自动地输出可替代识别结果的对应分段。而且，该语音识别系统应包括用于选择可替代识别结果的提供分段之一的装置，以及用于根据所选择的可替代识别结果的对应分段首先校正识别结果中相关分段的校正装置。

至于可替代识别结果的选择应当借助于通信终端的键控信号来进行，该语音识别系统应当包括用于接收这样的键控信号的适当接口，用于识别并使用该键控信号来选择一个提供分段。

借助于计算机上或者设备的语音控制器中的适当软件，基本上可以有利地实现根据本发明的语音识别系统。例如，语音识别装置和对话控制装置可以全部以软件模块的形式来实现。用于基于计算机可读文本生成语音的装置例如所谓的TTS变换器(文本-语音变换器)也可以借助于适当软件来实现。该系统仅仅需要包括用于语音输入的设施，例如具有合适放大器的麦克风，和用于语音输出的设施，例如具有适当放大器的扬声器。

该语音识别系统随后可以出现在能够经由通常的通信网到达的服务器中，该通常的通信网例如是电话网或者因特网。在此情况下，当语音输入装置和语音输出装置即麦克风、扬声器和相关放大器存在于经由相关网络连接到语音识别系统的服务器的用户的通信终端中时，就足够了。而且，还可以是：语音识别系统不实施于单一设备中，例如不在单一服务器上实现。系统的各个组成部分可以反而位于经由合适的网络互连的不同位置中。根据本发明的语音识别系统可以与非常特殊的应用例如把通信系统中的话音邮件消息转换成SMS消息或电子邮件的应用相关联。然而，该语音识别系统可以替代地用作多个不同应用的服务系统，由此对于多个应用形成相关应用的用户的接口。

附图说明

下面将根据附图所示的实施例详细描述本发明。其中：

图1是根据本发明的语音识别系统的示意性方框图；和

图2显示了说明校正方法的流程图。

具体实施方式

图1所示的语音识别系统1的实施例包括经由放大器3连接麦克风2的输入端14。语音识别系统1也包括经由放大器5连接扬声器4的输出端16，以输出语音信号。麦克风2和相关联的放大器3以及扬声器4和相关联的放大器5形成远离语音识别系统1并且经由通信网如电话网与语音识别系统1通信的设备的一部分。

通信终端也包括键盘6，经由该键盘能够生成例如DTMF(双音多频)信号的声信号；这些信号也可以经由语音信号信道被施加到语音识别系统的输入端14上。

经由放大器3从麦克风2到达输入端14上的语音信号S₁被语音识别系统1转换成可读或者机器可读文本，并且传送到应用15，例如，以便传送SMS消息或者电子邮件，此应用随后相应地处理和/或发送所述文本数据。

为此，在输入侧上，声信号首先到达所谓的话音活动检测器(VAD)12，该VAD 12仅测试输入信号，以确定是否存在来自用户的输入语音信号S_I或者该信号是否仅涉及背景噪声等。语音信号S_I随后被施加给语音识别装置7，该装置7以常规方式分析语音信号S_I，以识别其中包含的语音信息，并确定具有最大可能匹配的识别结果。

根据本发明，语音识别装置7被以这样的方式安排，即，除了利用最高概率匹配待识别的语音识别信号S_I的识别结果之外，还生成利用下一个最高概率匹配待识别的语音识别信号S_I的多个可替代识别结果。

以最高概率匹配待识别的语音信号S_I的识别结果随后以文本格式被施加给对话控制装置10，该装置10将此最大可能的识别结果传送给文本-语音生成器(TTS生成器)9。可替代识别结果还可以直接施加给对话控制装置10，在该对话控制装置10中缓存这些可替代识别结果，或者可以通过语音识别装置7将这些结果存储在单独的存储器8中，无论何时可以由对话控制器10访问该单独的存储器。在用于用户的验证和/或校正的测试过程中，利用TTS生成器9，随后将最大可能的识别结果转换成语音信号，并且经由放大器5和扬声器4以语音的形式进行输出。

下面将结合图2详细说明此测试过程的确切执行。

在步骤I中，该方法从上述的语音输入开始。随后，在该方法的步骤II中，确定各种可替代识别结果，并且在该方法的步骤III中最终评价这些识别结果，以确定哪些识别结果最佳匹配待识别的语音信号S_I。接着，在该方法的步骤IV中，在分段中输出最大可能的识别结果，所述分段中的输出连续进行，以致于用户不能识别各个分段本身。各个分段可以是例如一个句子的各个词或者词假设曲线，或者是一个句子的部分或者词假设曲线的部分。

在每个分段之后，在该方法的步骤V中测试用户是否中断输出。这例如当用户在识别结果输出期间相应地表达他/她自己时是可能的。由VAD 12立即识别用户的话音活动，该VAD 12通过相应的控制信号S_C停止TTS生成器9，并且同时将控制信号S_C也施加给对话控制装置10，以使后者也登记用户对输出的中断。如果没有中断发生，则测试是否已经到达输入文本的末尾(方法的步骤VI)。如果是这种情况，则认为识别结果已经被用户验证，并且把识别结果施加给应用15(该方法的步骤VII)。如果还没有到达文本的末尾，则继续最大可能识别结果的输出。

然而，如果在该方法的步骤V中登记了中断，则在该方法的步骤VIII中首先确定涉及哪个不正确的分段。为了简化起见，在此假定这是已最后输出的分段，即正好在用户中断输出之前输出的分段。

在可替代识别结果未被存储在对话控制装置10本身中的情况下，对话控制装置10随后访问缓存器8并确定对应于在该方法的步骤VIII中确定的不正确分段的可替代识别结果的对应分段。对应分段或者可替代识别结果则与指示符(例如数字1至0)相关联。

经由TTS生成器9，可替代分段随后可每次以语音形式与相关联的指示符一起输出给用户(该方法的步骤IX)。

最后，在该方法的步骤X中，用户可以通过在键盘6上按下对应于指示符的按键，从可替代识别结果中选择合适的分段。按压该按键生成DTMF信号，该DTMF信号经由语音信道被传送给语音识别系统1的输入端14。该DTMF信号随后由并行连接到语音识别装置7的DTMF识别器13识别。DTMF识别器13将相应的选择信号S_A输出给对话控制装置10，该信号触发校正单元11，从而利用选择的可替代识别结果的相关分段替代不正确识别的分段(该方法的步骤XI)。在识别DTMF信号时，DTMF识别单元13还可以把一个信号施加给语音识别装置7，以停用语音识别装置7，从而它不会不必要地试图分析DTMF信号。

在成功校正之后，在该方法的步骤XII中重新评价所有的识别结果，即重新评价最大可能识别结果和可替代识别结果。最好，在语音识别装置7中执行该重新评价，该语音识别装置7还能够访问缓存器8或者从对话控制装置10接收此目的所要求的数据。识别结果的此语境相关重新评价考虑所有以前验证或者校正的分段，表示考虑了以下事实：对于相关分段，概率每次为100％，而对于所有可替代分段，概率为0％。因而，可以实现：例如，根据已知分段，拒绝那些没有该先验知识而具有高概率的假设，而原始具有低概率的其它假设现在变成非常可能的。结果，显著减少了后续分段输出中的错误引用，并因而加速了整个校正方法。此外或作为选择，还可以考虑用户发声中可靠识别的部分，用于语言模型和/或声音模型的自适应。

要再次注意的是，所述的语音识别系统和方法的执行仅涉及到本发明的特定实施例，并且本领域熟练技术人员将能够以各种方式来修改语音识别系统和方法。例如，对于可替代识别结果中没有一个分段被认为是正确的情况，在方法中插入用户有机会再次说出该分段的步骤是非常可能的也是切合实际的。借助于语音输入而不是借助于允许DTMF键盘6来执行选择也是可能的，或者键盘发射其它信号，这些信号经由单独的数据信道被施加给语音识别系统1，该语音识别系统1随后可以处理该信号，这也是可能的。类似地，测试过程内语音输出的中断还可以借助于特定DTMF信号等来进行。

Claims

1.一种用于语音识别的方法，其中分析用户的语音信号，以识别包含在该语音信号中的语音信息，以及在测试过程中将具有最大可能匹配的识别结果再次转换成语音信号并输出给用户，以便验证和/或校正，由此在分析期间生成多个可替代识别结果，所述可替代识别结果以下一个最高概率匹配待识别的语音信号，并且在测试过程中以这样的方式进行输出，即在提供的识别结果不正确的情况下，用户可以中断输出，其中在测试过程中在识别结果的输出期间，永久地监视用户的话音活动，并且响应于用户的语音信号的接收而中断输出，并且对于在中断之前最后已输出的相关识别结果的分段，自动输出可替代识别结果的对应分段，以便用户选择，而且最后根据选择的可替代识别结果的对应分段，校正所提供的识别结果中的相关分段，此后对于待识别的语音信号的剩余的后续分段，继续此测试过程。

2.根据权利要求1所述的方法，其特征在于，如果可替代识别结果中没有分段被选择，则输出请求信号，以请求用户再次说出相关分段，以便校正。

3.根据权利要求1或2所述的方法，其特征在于，将每个可替代识别结果与指示符相关联，并且在测试过程期间，可替代识别结果的相关分段每次与相关联的指示符一起输出，而且通过输入指示符来进行可替代识别结果的分段的选择。

4.根据权利要求3所述的方法，其特征在于，指示符是数字或字母。

5.根据权利要求3所述的方法，其特征在于，将指示符与通信终端的键控信号相关联，并且通过激励通信终端的相关按键，进行可替代识别结果的分段的选择。

6.根据权利要求1或2所述的方法，其特征在于，在校正测试过程内输出的分段之后，根据其匹配待识别的相关语音信号的概率，重新评价各个识别结果，即，同时考虑最后校正的分段和/或已经在以前确认或者校正的分段，此测试过程通过输出在重新评价之后呈现最高概率的识别结果的下一分段而继续。

7.根据权利要求1或2所述的方法，其特征在于，仅仅在用户终止整个文本的输入之后，才进行测试过程。

8.根据权利要求1或2所述的方法，其特征在于，在用户输入整个文本的一部分之后，已进行测试过程。

9.一种语音识别系统(1)，包括：

用于检测用户的语音信号的装置(2)；

语音识别装置(7)，用于分析检测的语音信号(SI)，以识别包含在该语音信号(S_I)中的语音信息，并用于确定具有最大可能匹配的识别结果；和

语音输出装置(9)，用于在测试过程内再次把最大可能的识别结果转换成语音信息，并将其输出给用户，以便验证和/或校正，

该语音识别装置(7)被以这样的方式构造，以致在分析期间，它生成以下一个最高概率匹配待识别的语音信号(SI)的多个可替代识别结果，以及

该语音识别系统(1)包括：

用于由用户在测试过程期间中断输出的装置(12)；

对话控制装置(10)，对于在中断之前最后输出的相关识别结果的分段，其自动地输出可替代识别结果的各个对应分段；

用于选择可替代识别结果的提供分段之一的装置(6，13)；和

校正单元(11)，用于根据所选择的可替代识别结果的对应分段校正下一个输出的识别结果中的相关分段，

其中用于中断输出的装置(12)被以这样的方式进行安排，以致其在测试过程内在识别结果的输出期间永久地监视用户的话音活动，并且其可以响应于用户的语音信号的接收而中断输出。

10.根据权利要求9所述的语音识别系统，其特征在于，所述语音识别装置(7)被以这样的方式进行安排，以致在测试过程内输出的分段校正之后，所述语音识别装置可以根据其匹配待识别的相关语音信号的概率来重新评价各个识别结果，即，同时考虑最后校正的分段和/或已经在以前确认或者校正的分段，此测试过程通过输出在重新评价之后呈现最高概率的识别结果的下一分段而继续。