CN1764945A

CN1764945A - 分布式语音识别系统

Info

Publication number: CN1764945A
Application number: CN200480008025.0A
Authority: CN
Inventors: 让·蒙内; 让-皮埃尔·珀蒂; 帕特里克·布里萨尔
Original assignee: France Telecom SA
Current assignee: Orange SA
Priority date: 2003-03-25
Filing date: 2004-03-08
Publication date: 2006-04-26
Anticipated expiration: 2024-03-08
Also published as: FR2853127A1; DE602004022787D1; WO2004088636A1; ATE441175T1; CN1764945B; EP1606795B1; ES2331698T3; US20060195323A1; EP1606795A1

Abstract

本发明涉及分布式语音识别系统。本发明的系统包括：至少一个用户终端，其包括用于获取要识别的听觉信号的手段，参数计算手段和用于选择要传送的信号的控制手段；以及一个服务器，其包括用于接收信号的手段，参数计算手段，识别手段和用于根据接收的信号控制计算手段和识别手段的控制手段。

Description

分布式语音识别系统

技术领域

本发明涉及在用户终端上借助操作语音识别手段实现的声音控制应用领域。所考虑的用户终端是所有带有语音输入功能的装置，其语音输入部分通常为一个麦克风，能够处理这种声音并且通过传送通道与一个或多个服务器相连。这些装置包括，例如，用在智能家庭，汽车(轿车收音机或其他车辆功能控制)，PCs或电话中的可控或遥控装置。所涉及的应用范围基本上是用户利用声音命令控制一种活动，索要信息或试图进行远端互动。声音命令的使用不排除在用户终端之内其他活动手段的存在(多模系统)，并且信息的返回，系统状态或应答也可以在视觉，听觉，嗅觉或任何其他人类可接受的组合手段中实现。

一般来说，实现语音识别的手段包括用于获得听觉信号的手段，用于进行声学分析以选取建模参数的手段以及，最后，识别手段，其将这些选取的建模参数与模型相比较并且建议模型中的储存格式能以最可能的方式与信号相关联。可以任选地使用声音活性检测(VAD)手段。这些检测出来的序列与语音信号相对应，并且被识别。它们在没有声音活性的时期之外从在输入端的听觉信号选取语音片段，其将随后通过建模参数选取手段被处理。

更具体的是，本发明涉及三种语音分布手段：装载式，集中式和分布式之间的相互作用。

背景技术

在一个装载式语音识别模式中，用于实现语音识别的整个手段位于用户终端之内。这种识别模式的局限性明显与装载处理机的性能和用于存储语音识别模型的内存空间相关。在另一方面，这种模式允许独立操作，没有与服务器相连，并且在与减少处理容量成本相关的方面取得可靠的进展。

在一个集中式语音识别模式中，整个语音识别过程和识别模型都位于并且实现于一台计算机上，通常将其称为声音服务器，用户终端可以进入。终端简单地将语音信号传送至服务器。该手段常用于电信操作者提供的应用中。这样，基础终端能够实现高级的声音激活的服务。许多类型的语音识别(加强的，可变的，巨大词汇，活动词汇，连续语音，一人或多人发言，多种语言等等)可以在一个语音识别服务器中实现。事实上，集中式计算机系统具有巨大而提高了的模型存储容量，工作内存空间和计算能力。

在一个分布式语音识别模式中，声学分析手段装载在用户终端之内，识别手段位于服务器。在这种分布式模式中，与建模参数选取手段相关联的噪音过滤功能可以在音源有利的实现。只有被传送的建模参数允许在传送率中实质的增加，其尤其有利于多模应用。此外，要识别的信号能得到更好的保护以防止传送错误。任选地，也可以安装声音活性检测(VAD)，以便在语音顺序排列期间只传送建模参数，其有利于显著减少有效传送的持续时间。分布式语音识别还允许用于语音和数据的信号，特别是文本，图像和影像被携带在相同的传送通道上。传送网络可以是，例如，IP，GPRS，WLAN或者以太网络类型。这种模式对防止传送给服务器的打包信号丢失的保护和更正程序也很有益处。然而，其要求具有严格传送条件的可利用的数据传送通道。

本发明提出了一种语音识别系统，其包括用户终端和服务器，结合了各种由装载式，集中式和分布式语音识别模式所提供的功能，因而为采用声音控制的多模服务的用户提供了在效率，舒适度和人机互动方面最佳的系统。

专利US6487534B1公开了一种分布式语音识别系统，其包括用户终端，该终端具有用于检测声音活动的手段，用于处理建模参数的手段和识别手段。该系统另外还包括一个也具有识别手段的服务器。所公开的方法包括在用户终端至少实现第一识别阶段。然后立刻进入一个选择阶段，用户终端处理的建模参数被特别按序送至服务器以做判断，这个实施例依赖于服务器中的识别手段，模型中存储的形式，并且与传送来的信号相关联。

在所引用的文件中公开的系统的目标是减少服务器的负荷。然而，结果是在能将所属参数传送至服务器之前终端必须在本地进行建模参数计算。然而，情况是为了负荷管理或相关应用的原因，优选的是在服务器中进行这种计算。

结果，在根据上述引用文件的系统中，用于要识别的建模参数传送的通道必须是与传送的数据类型相匹配的通道。然而，这样具有严格要求的通道在传送网络中并不一定能够连续获得。由于这个原因，理想的是能够利用常规听觉信号传送通道以便避免终端中启动的识别过程的延迟或中断。

发明内容

本发明的目标之一是提出一种识别系统，其能较小的受上述限制的影响。

这样，根据第一方面，本发明提出了一种分布式语音识别系统，包括至少一个用户终端和至少一个服务器，它们适合于通过电信网络彼此联系，其中用户终端包括：

—用于获取要识别的听觉信号的手段；

—第一听觉信号建模参数计算手段；以及—

—用于从要识别的听觉信号和指示已处理的建模参数的信号之间选择至少一个要传送至服务器的信号的第一控制手段。

其中服务器包括：

—用于接收来源于用户终端的所选择信号的手段；

—第二输入信号建模参数计算手段；

—用于将至少一种存储方式与输入参数相关联的识别手段；以及

—用于控制第二计算手段和识别手段的第二控制手段，以便：

·如果被接受手段所接受的选择信号是一种听觉信号，通过将所选择的信号作为一个输入参数分址至其上而激活第二参数计算手段，并且将第二计算手段所计算的参数作为输入参数分址至识别手段，以及

·如果通过接受手段接受的选择信号指示建模参数，将所述指示参数作为输入参数分址至识别手段。

这样，根据本发明的系统既能将听觉信号(压缩的或未压缩的)从用户终端传送至服务器，也能将由终端的建模参数计算手段提供的信号传送至服务器。所传送信号的选择即可以是通过现有应用类型限定，也可以通过网络状态限定，或者在终端和服务器各自的控制手段之间协同。

根据本发明的系统给予用户终端在终端中或在服务器中实现建模参数计算的能力，相应地，例如，输入其控制手段具有在一给定时间的参数。这种计算也可以平行的在终端和在服务器中实现。

根据本发明的系统能够使声音识别在共存于相同网络内的不同类型终端中实现，例如：

不具有本地识别手段的终端(或者其本地识别手段未活化)，在其情况下听觉信号被传送至服务器以供识别；

—具有声音活性检测手段但不具有建模参数计算手段，或识别手段(或者其建模参数计算手段和识别手段未活化)的终端，并且其将原始听觉信号或者从声音未活化时期之外听觉信号中选取的代表语音片段的听觉信号传送至服务器以识别，

—以及服务器，例如，仅仅具有识别手段，没有建模参数计算手段。

有利的是，用于从用户终端获取听觉信号的手段可以进一步包括声音活性检测手段以便从在声音未活化时期之外的原始听觉信号中选取语音片段。然后，终端控制手段从代表语音片段的听觉信号和指示计算的建模参数的信号中选择至少一种信号传送至服务器。

有利的是采用终端控制手段以便从至少原始听觉信号，指示从原始听觉信号中选取的语音片段的听觉信号以及指示计算的建模参数的信号中选取至少一个信号传送至服务器。在服务器中，采用控制手段以便按序控制计算于段和识别手段，如果接受手段所接受的选择信号代表由终端活性检测手段所选取的语音片段，通过将所选择的信号作为一个输入信号分址至参数计算手段而激活它们，并且将这些计算手段所计算的参数作为输入参数分址至识别手段。

在一个优选实施例中，服务器进一步包括用于从接收的声音未活化时期之外的听觉信号中选取语音片段的声音活性检测手段。在这种情况下，在服务器中，采用控制手段控制计算手段和识别手段，以便

·如果由接受手段接受的选择信号是一个听觉信号：

—如果接收的信号代表声音活性检测后的语音片段，通过将所选择的信号作为一个输入信号分址至第二参数处理手段而激活它们，然后将这些第二参数处理手段所计算的参数作为输入参数分址至识别手段。

—如果不，通过将所选择的信号作为一个输入信号分址至声音活性检测手段而激活它们，然后将声音活性检测手段选取的片段作为输入参数分址至第二参数处理手段，然后将这些第二参数处理手段所计算的参数作为输入参数分址至识别手段。

·如果由接受手段接受的选择信号指示建模参数，将所述指示参数作为输入参数分址至识别手段。

有利的是，用户终端进一步包括至少与一种输入参数存储形式相关联的识别手段。

在后一情况中，可以采用终端的控制手段根据终端识别手段提供的结果去选择要传送至服务器的信号。而且，用户终端可以包括采用存储手段存储终端中的信号以便能够在终端本地识别结果不令人满意的情况下，由服务器传送要识别的信号。

有利的是，终端控制手段能被用来独立于第一识别手段所提供的结果之外选择要传送至服务器的信号。

要注意的是终端控制手段可以在以上两段所描述的两种模式中从一种替换至另一种，相应地，例如，对应于应用情况或网络状态。

服务器的控制手段优选与终端的控制手段配合工作。这样，终端可以免在，例如如果服务器的参数处理手段中已经有一个相当量的负荷时传送一个听觉信号至服务器。在一个可行实施例中，服务器的控制手段被设定成与终端的手段配合工作以便根据服务器和终端网络工作的各自容量采用由终端传送的信号类型。

终端的计算和识别手段可以是标准化的或专有的。

在一个优选实施例中，至少在终端中的一些识别和参数处理手段是通过下载提供的，以终端处理机可执行的形式，例如从服务器。

根据第二方面，本发明提出了一种实现根据本发明的分布式语音识别系统的用户终端。

根据第三方面，本发明提出了一种实现根据本发明的分布式语音识别系统的服务器。

附图说明

本发明的其它优点和特点将通过阅读以下说明而显示出来。该说明书仅仅是示例性的，并且必须结合相应的附图，在其中：

图1是一个框图代表本发明一个实施例中的系统。

具体实施方式

在单一附图中所示的系统包括服务器1和用户终端2，其通过具有用于声音信号和数据信号传送通道的网络(未示出)彼此相连。

终端2包括一个麦克风4，其从用户以听觉信号的形式获取要识别的语音。终端2还包括建模参数处理组件6，其以已知的方式，执行能够选取听觉信号相关参数的声学分析，并且可能有利于实现减少噪声功能。终端2包括控制器8，其从听觉信号和指示由参数处理组件6计算的参数的信号中选择一个信号。它还包括用于在网络上所选择信号传送至服务器的界面10。

服务器1包括接收分址至其上的信号的网络界面12，分析所接收的信号并将其有选择的分送至多个组件16，18，20中的一个的控制器14。组件16是一个检测对应于要识别的语音的片段的声音活性检测器。组件18以和终端中计算组件6相似的方式计算建模参数。然而，计算组件可以不同。组件20执行已知类型的识别算法，例如具有词汇多于100000单词的隐藏的Markov模型。该识别工具20将输入参数与代表单词或短语的语音模型相对比，并且在考虑描述预定单词链的语法模型，指示单词发音的词汇模型和代表发出声音的声学模型的情况下确定最佳关联形式。这些模型是用于例如多声道，能够脱离说话者高度可靠地识别语音。

控制器14控制VAD组件16，参数计算组件18和识别工具20，以便：

a/如果由接收界面12接收的信号是一种听觉信号并且不指示由声音活性检测获得的语音片段，通过将所接收的信号作为一个输入信号分址至组件VAD16而激活它，然后将由VAD组件16选取的语音片段作为输入参数分址至参数计算组件18，然后将这些参数计算手段18计算的参数作为输入参数分址至识别工具20；

b/如果由接收界面12接收的信号是一个听觉信号并且指示由声音活性检测之后的语音片段，将所接收的信号作为一个输入参数分址至参数计算组件18而激活它，然后将该参数计算手段18计算的参数作为输入参数分址至识别工具20；

c/如果由接收界面12接收的信号指示建模参数，将所述指示参数作为输入参数分址至识别工具20。

例如，如果终端1的用户使用一个应用，其要求库存信息的交换而声明：“关闭Lambda值最后三天的价格”，对应的听觉信号被麦克风4获取。在根据本发明系统的实施例中，该信号然后被，缺席的情况下，由参数计算组件6处理，然后一个指示所计算的建模参数的信号被传送至服务器1。

当，例如，数据通道的可获得性或计算组件6出现问题时，控制器8就会选择麦克风4的输出听觉信号并将其传送至服务器1。

控制器还可以采用系统传送指示建模参数信号。

服务器通过接收界面12接收信号，然后，为了在所接收的信号上实现语音识别，如果终端1所传送的信号是听觉信号，执行处理过程a/或b/，如果终端1所传送的信号指示建模参数，执行处理过程c/。

根据本发明的服务器还适合于在由不具有建模参数计算手段或识别手段，可能具有声音活性检测手段的终端所传送的信号上实现语音识别。

有利的是，在本发明的一个实施例中，系统可以进一步包括一个用户终端22，其包括一个与终端2相似的麦克风24，以及声音活性检测组件26。组件26的功能与服务器1的声音活性检测组件16的功能相似。然而，检测组件可以不同。终端22包括一个建模参数处理组件28，识别工具30和控制器32。它包括用于将控制器32所选择的信号在网络上传送至服务器的界面10。

终端的识别工具30可以是，例如，处理词汇量小于10个单词。它可以是单声道功能并且可以可以要求基于用户声音的起始学习阶段。

语音识别可以以不同方式实现：

—全部在终端中，或者

—或者全部在服务器中，或者

—部分或全部在终端中并且也，以可替换或同步方式，部分或全部在服务器中。

当在服务器识别组件所提供的相关形式和终端所提供的那些之间根据最后所用形式作出选择时，它可以在不同标准基础上制定，其可以从一个终端变化至另一个终端，但是也可以从一种应用变化至另一个，或者从一种给定内容变化至另一种。这些标准可以是，例如，优先在终端中实现识别，或者优先确定最高水平可能性的关联形式，或者优先最快确定形式。

实现这种识别的方式可以以给定的方式安装在终端中，或者它可以变化，尤其是根据与所考虑的应用相关的标准，或者根据对终端中和服务器中不同手段的负荷相关的问题，或者根据与声音或者数据传送通道的可获得性相关的问题。分别位于终端和服务器中的控制器32和14转换功能从而实现识别功能。

终端的控制器32用于从麦克风24的原始输出听觉信号，代表由VAD组件26所选取的语音片段的听觉信号和指示建模参数28的信号中选择一个信号。取决于要考虑的情况，终端中的处理在提供要传送的信号的终端处理步骤之后将或者将不被实现。

例如，可以考虑这样一种实施例，即在终端的VAD组件26被设计成，例如，快速检测命令单词并且服务器中的VAD组件可以更慢，但是被设计成检测整个阶段。终端22实现本地识别并且在传送的听觉信号的基础上同时启动服务器的识别功能。这样一种应用尤其能够叠加每个声音检测组件的优点。

识别全部本地化(终端)或全部远程化(集中的服务器)的这样一种应用现在也将被考虑，基于关键字能够转换：

识别过程在本地起始：用户声称：“叫安东尼”，安东尼被记录在本地记录簿上。他然后声称：“发信息”，其为本地识别的关键字并且起始转换至服务器识别。现在识别是远程的。他声称：“检索来自Josiane的信息”。当所述信息被听取后，他声称“结束”，一个再次起始至本地识别应用的转换的关键词。

传送至服务器要实现识别的信号是一个听觉信号。在不同的实施例中，它能指示终端中已计算的建模参数。

现在考虑在终端的识别和在服务器的识别交替的这样一种应用。识别首先在终端22中实现并且声音检测后的信号被存储。如果应答是一致的，即，如果没有被识别组件30拒绝和如果从应用观点来看所识别的信号是正确的话，终端中的本地应用移动至下一个的应用阶段。如果应答不一致，存储的信号被送至服务器以实现在听觉信号声音活性检测之后指示语音片段的信号识别(在一个不同实施例中，建模参数可以被存储)。

这样，用户声称：“叫安东尼”；终端22中整个处理过程用存储的信号实现。信号在本地被成功识别。他然后声称：“检索来自Josiane的信息”；识别在终端失败；存储信号然后被传送至服务器。信号被成功识别而所要求的信息被运行。

在一个不同的应用中，识别在终端中被同时实现并且还，独立于在服务器中本地识别的结果。用户声称“叫安东尼”。识别在两个水平实现。当本地处理释该命令时，远程结果不考虑。然后用户声称“检索来自Josiane的信息”，其产生了本地失败，在服务器中被成功识别。

在一个实施例中，终端22的识别工具30是从服务器通过传统数据交换手段下载的可执行程序。

对于终端22给定应用有利的是，终端识别模型可以在连接至网络的专用通话期间被下载或更新。

其它用于语音识别的软件资源也可以从服务器1下载，例如用于建模参数处理的组件6，28或者声音活性检测子26。

可以描述的其它例子，例如，与汽车相关的应用，家用电子商务应用或多媒体应用。

如上示范性实施例所述，根据本发明的系统允许优化利用存在与终端和服务器中的语音识别过程所要求的不同资源。

Claims

1、一种分布式语音识别系统，包括至少一个用户终端和至少一个服务器，它们适合于通过电信网络彼此联系，其中用户终端包括：

—用于获取要识别的听觉信号的手段；以及

—第一听觉信号建模参数计算手段；以及

—用于从要识别的听觉信号和指示所计算的建模参数的信号之间选择至少一个要传送至服务器的信号的第一控制手段；

其中服务器包括：

—用于接收来源于用户终端的所选择信号的手段；

—第二输入信号建模参数计算手段；

2、如权利要求1所述的系统，其特征在于，用于获取要识别的听觉信号的手段包括声音活性检测手段以便从在声音未活化时期之外的原始听觉信号中选取语音片段的形式产生要识别的信号。

3、如权利要求2所述的系统，其特征在于，采用第一控制手段以便从至少原始听觉信号，由声音活性检测手段所选取的片段形势的要识别的听觉信号以及指示由第一参数计算手段计算的建模参数的信号中选取至少一个信号传送至服务器。

4、如前述任一权利要求所述的系统，其特征在于：

—服务器进一步包括用于从声音未活化时期之外的听觉信号中选取语音片段的声音活性检测手段；以及

—如果由接收手段所接受的选择信号是一种听觉信号，第二控制手段被采用以控制第二计算手段和识别手段，以便，

如果接收的信号代表声音活性检测后的语音片段，通过将所选择的信号作为一个输入信号分址至第二参数计算手段而激活它们，然后将这些第二参数计算手段所计算的参数作为输入参数分址至识别手段；

如果不，通过将所选择的信号作为一个输入信号分址至服务器的声音活性检测手段而激活它们，然后将声音活性检测手段选取的片段作为输入参数分址至第二参数计算手段，然后将这些第二参数计算手段所计算的参数作为输入参数分址至识别手段。

5、如权利要求1至4所述的系统，其特征在于，用户终端进一步包括识别手段以便将至少一种存储形式与由第一计算手段所计算的参数相关联。

6、如权利要求5所述的系统，其特征在于，第一控制手段被用来根据由终端识别手段所提供的结果选择要传送至服务器的信号。

7、如权利要求5至6任意一项所述的系统，其特征在于，用户终端进一步包括被用来存储要识别的听觉信号或由第一参数计算手段计算的建模参数的存储手段。

8、如权利要求5所述的系统，其特征在于，第一控制手段被用来独立于由终端识别手段所提供的结果选择要传送至服务器的信号。

9、实现如权利要求1至8任意一项所述分布式语音识别系统的用户终端，包括：

—用于获取要识别的听觉信号的手段；

—听觉信号建模参数计算手段；以及

—用于从要识别的听觉信号和指示所计算的建模参数的信号之间选择至少一个要传送至服务器的信号的第一控制手段。

10、如权利要求9所述的用户终端，其特征在于，至少部分参数计算手段是从服务器下载的。

11、如权利要求9或10所述的终端，进一步包括将至少一种存储形式与建模参数相关联的识别手段。

12、如权利要求11所述的系统，其特征在于，至少部分识别手段是从服务器下载。

13、实现如权利要求1至8任意一项所述分布式语音识别系统的服务器，包括：

—用于接收来源于用户终端的在所述终端所选择信号的手段；

—输入信号建模参数计算手段；

—用于控制第二计算手段和识别手段的控制手段，以便：

·如果被接受于段所接受的选择信号是一种听觉信号，通过将所选择的信号作为一个输入参数分址至其上而激活参数计算手段，并且将第二计算手段所计算的参数作为输入参数分址至识别手段，以及

14、如权利要求13所述的服务器，包括用于经过电信网路下载声音识别软件资源至终端至少部分第一参数计算手段或识别于段的手段。

15、如权利要求14所述的服务器，包括用于经过电信网路下载声音识别软件资源至终端的手段。

16、如权利要求15所述的服务器，其特征在于，所述资源包括下列组件中的至少一个：一个VAD组件，一个听觉信号建模参数计算组件和一个用于将至少一种存储形式与建模参数相关联的识别组件。