CN1764945A - 分布式语音识别系统 - Google Patents

分布式语音识别系统 Download PDF

Info

Publication number
CN1764945A
CN1764945A CN200480008025.0A CN200480008025A CN1764945A CN 1764945 A CN1764945 A CN 1764945A CN 200480008025 A CN200480008025 A CN 200480008025A CN 1764945 A CN1764945 A CN 1764945A
Authority
CN
China
Prior art keywords
signal
server
identification
parameter
terminal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200480008025.0A
Other languages
English (en)
Other versions
CN1764945B (zh
Inventor
让·蒙内
让-皮埃尔·珀蒂
帕特里克·布里萨尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Publication of CN1764945A publication Critical patent/CN1764945A/zh
Application granted granted Critical
Publication of CN1764945B publication Critical patent/CN1764945B/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems

Abstract

本发明涉及分布式语音识别系统。本发明的系统包括:至少一个用户终端,其包括用于获取要识别的听觉信号的手段,参数计算手段和用于选择要传送的信号的控制手段;以及一个服务器,其包括用于接收信号的手段,参数计算手段,识别手段和用于根据接收的信号控制计算手段和识别手段的控制手段。

Description

分布式语音识别系统
技术领域
本发明涉及在用户终端上借助操作语音识别手段实现的声音控制应用领域。所考虑的用户终端是所有带有语音输入功能的装置,其语音输入部分通常为一个麦克风,能够处理这种声音并且通过传送通道与一个或多个服务器相连。这些装置包括,例如,用在智能家庭,汽车(轿车收音机或其他车辆功能控制),PCs或电话中的可控或遥控装置。所涉及的应用范围基本上是用户利用声音命令控制一种活动,索要信息或试图进行远端互动。声音命令的使用不排除在用户终端之内其他活动手段的存在(多模系统),并且信息的返回,系统状态或应答也可以在视觉,听觉,嗅觉或任何其他人类可接受的组合手段中实现。
一般来说,实现语音识别的手段包括用于获得听觉信号的手段,用于进行声学分析以选取建模参数的手段以及,最后,识别手段,其将这些选取的建模参数与模型相比较并且建议模型中的储存格式能以最可能的方式与信号相关联。可以任选地使用声音活性检测(VAD)手段。这些检测出来的序列与语音信号相对应,并且被识别。它们在没有声音活性的时期之外从在输入端的听觉信号选取语音片段,其将随后通过建模参数选取手段被处理。
更具体的是,本发明涉及三种语音分布手段:装载式,集中式和分布式之间的相互作用。
背景技术
在一个装载式语音识别模式中,用于实现语音识别的整个手段位于用户终端之内。这种识别模式的局限性明显与装载处理机的性能和用于存储语音识别模型的内存空间相关。在另一方面,这种模式允许独立操作,没有与服务器相连,并且在与减少处理容量成本相关的方面取得可靠的进展。
在一个集中式语音识别模式中,整个语音识别过程和识别模型都位于并且实现于一台计算机上,通常将其称为声音服务器,用户终端可以进入。终端简单地将语音信号传送至服务器。该手段常用于电信操作者提供的应用中。这样,基础终端能够实现高级的声音激活的服务。许多类型的语音识别(加强的,可变的,巨大词汇,活动词汇,连续语音,一人或多人发言,多种语言等等)可以在一个语音识别服务器中实现。事实上,集中式计算机系统具有巨大而提高了的模型存储容量,工作内存空间和计算能力。
在一个分布式语音识别模式中,声学分析手段装载在用户终端之内,识别手段位于服务器。在这种分布式模式中,与建模参数选取手段相关联的噪音过滤功能可以在音源有利的实现。只有被传送的建模参数允许在传送率中实质的增加,其尤其有利于多模应用。此外,要识别的信号能得到更好的保护以防止传送错误。任选地,也可以安装声音活性检测(VAD),以便在语音顺序排列期间只传送建模参数,其有利于显著减少有效传送的持续时间。分布式语音识别还允许用于语音和数据的信号,特别是文本,图像和影像被携带在相同的传送通道上。传送网络可以是,例如,IP,GPRS,WLAN或者以太网络类型。这种模式对防止传送给服务器的打包信号丢失的保护和更正程序也很有益处。然而,其要求具有严格传送条件的可利用的数据传送通道。
本发明提出了一种语音识别系统,其包括用户终端和服务器,结合了各种由装载式,集中式和分布式语音识别模式所提供的功能,因而为采用声音控制的多模服务的用户提供了在效率,舒适度和人机互动方面最佳的系统。
专利US6487534B1公开了一种分布式语音识别系统,其包括用户终端,该终端具有用于检测声音活动的手段,用于处理建模参数的手段和识别手段。该系统另外还包括一个也具有识别手段的服务器。所公开的方法包括在用户终端至少实现第一识别阶段。然后立刻进入一个选择阶段,用户终端处理的建模参数被特别按序送至服务器以做判断,这个实施例依赖于服务器中的识别手段,模型中存储的形式,并且与传送来的信号相关联。
在所引用的文件中公开的系统的目标是减少服务器的负荷。然而,结果是在能将所属参数传送至服务器之前终端必须在本地进行建模参数计算。然而,情况是为了负荷管理或相关应用的原因,优选的是在服务器中进行这种计算。
结果,在根据上述引用文件的系统中,用于要识别的建模参数传送的通道必须是与传送的数据类型相匹配的通道。然而,这样具有严格要求的通道在传送网络中并不一定能够连续获得。由于这个原因,理想的是能够利用常规听觉信号传送通道以便避免终端中启动的识别过程的延迟或中断。
发明内容
本发明的目标之一是提出一种识别系统,其能较小的受上述限制的影响。
这样,根据第一方面,本发明提出了一种分布式语音识别系统,包括至少一个用户终端和至少一个服务器,它们适合于通过电信网络彼此联系,其中用户终端包括:
—用于获取要识别的听觉信号的手段;
—第一听觉信号建模参数计算手段;以及—
—用于从要识别的听觉信号和指示已处理的建模参数的信号之间选择至少一个要传送至服务器的信号的第一控制手段。
其中服务器包括:
—用于接收来源于用户终端的所选择信号的手段;
—第二输入信号建模参数计算手段;
—用于将至少一种存储方式与输入参数相关联的识别手段;以及
—用于控制第二计算手段和识别手段的第二控制手段,以便:
·如果被接受手段所接受的选择信号是一种听觉信号,通过将所选择的信号作为一个输入参数分址至其上而激活第二参数计算手段,并且将第二计算手段所计算的参数作为输入参数分址至识别手段,以及
·如果通过接受手段接受的选择信号指示建模参数,将所述指示参数作为输入参数分址至识别手段。
这样,根据本发明的系统既能将听觉信号(压缩的或未压缩的)从用户终端传送至服务器,也能将由终端的建模参数计算手段提供的信号传送至服务器。所传送信号的选择即可以是通过现有应用类型限定,也可以通过网络状态限定,或者在终端和服务器各自的控制手段之间协同。
根据本发明的系统给予用户终端在终端中或在服务器中实现建模参数计算的能力,相应地,例如,输入其控制手段具有在一给定时间的参数。这种计算也可以平行的在终端和在服务器中实现。
根据本发明的系统能够使声音识别在共存于相同网络内的不同类型终端中实现,例如:
不具有本地识别手段的终端(或者其本地识别手段未活化),在其情况下听觉信号被传送至服务器以供识别;
—具有声音活性检测手段但不具有建模参数计算手段,或识别手段(或者其建模参数计算手段和识别手段未活化)的终端,并且其将原始听觉信号或者从声音未活化时期之外听觉信号中选取的代表语音片段的听觉信号传送至服务器以识别,
—以及服务器,例如,仅仅具有识别手段,没有建模参数计算手段。
有利的是,用于从用户终端获取听觉信号的手段可以进一步包括声音活性检测手段以便从在声音未活化时期之外的原始听觉信号中选取语音片段。然后,终端控制手段从代表语音片段的听觉信号和指示计算的建模参数的信号中选择至少一种信号传送至服务器。
有利的是采用终端控制手段以便从至少原始听觉信号,指示从原始听觉信号中选取的语音片段的听觉信号以及指示计算的建模参数的信号中选取至少一个信号传送至服务器。在服务器中,采用控制手段以便按序控制计算于段和识别手段,如果接受手段所接受的选择信号代表由终端活性检测手段所选取的语音片段,通过将所选择的信号作为一个输入信号分址至参数计算手段而激活它们,并且将这些计算手段所计算的参数作为输入参数分址至识别手段。
在一个优选实施例中,服务器进一步包括用于从接收的声音未活化时期之外的听觉信号中选取语音片段的声音活性检测手段。在这种情况下,在服务器中,采用控制手段控制计算手段和识别手段,以便
·如果由接受手段接受的选择信号是一个听觉信号:
—如果接收的信号代表声音活性检测后的语音片段,通过将所选择的信号作为一个输入信号分址至第二参数处理手段而激活它们,然后将这些第二参数处理手段所计算的参数作为输入参数分址至识别手段。
—如果不,通过将所选择的信号作为一个输入信号分址至声音活性检测手段而激活它们,然后将声音活性检测手段选取的片段作为输入参数分址至第二参数处理手段,然后将这些第二参数处理手段所计算的参数作为输入参数分址至识别手段。
·如果由接受手段接受的选择信号指示建模参数,将所述指示参数作为输入参数分址至识别手段。
有利的是,用户终端进一步包括至少与一种输入参数存储形式相关联的识别手段。
在后一情况中,可以采用终端的控制手段根据终端识别手段提供的结果去选择要传送至服务器的信号。而且,用户终端可以包括采用存储手段存储终端中的信号以便能够在终端本地识别结果不令人满意的情况下,由服务器传送要识别的信号。
有利的是,终端控制手段能被用来独立于第一识别手段所提供的结果之外选择要传送至服务器的信号。
要注意的是终端控制手段可以在以上两段所描述的两种模式中从一种替换至另一种,相应地,例如,对应于应用情况或网络状态。
服务器的控制手段优选与终端的控制手段配合工作。这样,终端可以免在,例如如果服务器的参数处理手段中已经有一个相当量的负荷时传送一个听觉信号至服务器。在一个可行实施例中,服务器的控制手段被设定成与终端的手段配合工作以便根据服务器和终端网络工作的各自容量采用由终端传送的信号类型。
终端的计算和识别手段可以是标准化的或专有的。
在一个优选实施例中,至少在终端中的一些识别和参数处理手段是通过下载提供的,以终端处理机可执行的形式,例如从服务器。
根据第二方面,本发明提出了一种实现根据本发明的分布式语音识别系统的用户终端。
根据第三方面,本发明提出了一种实现根据本发明的分布式语音识别系统的服务器。
附图说明
本发明的其它优点和特点将通过阅读以下说明而显示出来。该说明书仅仅是示例性的,并且必须结合相应的附图,在其中:
图1是一个框图代表本发明一个实施例中的系统。
具体实施方式
在单一附图中所示的系统包括服务器1和用户终端2,其通过具有用于声音信号和数据信号传送通道的网络(未示出)彼此相连。
终端2包括一个麦克风4,其从用户以听觉信号的形式获取要识别的语音。终端2还包括建模参数处理组件6,其以已知的方式,执行能够选取听觉信号相关参数的声学分析,并且可能有利于实现减少噪声功能。终端2包括控制器8,其从听觉信号和指示由参数处理组件6计算的参数的信号中选择一个信号。它还包括用于在网络上所选择信号传送至服务器的界面10。
服务器1包括接收分址至其上的信号的网络界面12,分析所接收的信号并将其有选择的分送至多个组件16,18,20中的一个的控制器14。组件16是一个检测对应于要识别的语音的片段的声音活性检测器。组件18以和终端中计算组件6相似的方式计算建模参数。然而,计算组件可以不同。组件20执行已知类型的识别算法,例如具有词汇多于100000单词的隐藏的Markov模型。该识别工具20将输入参数与代表单词或短语的语音模型相对比,并且在考虑描述预定单词链的语法模型,指示单词发音的词汇模型和代表发出声音的声学模型的情况下确定最佳关联形式。这些模型是用于例如多声道,能够脱离说话者高度可靠地识别语音。
控制器14控制VAD组件16,参数计算组件18和识别工具20,以便:
a/如果由接收界面12接收的信号是一种听觉信号并且不指示由声音活性检测获得的语音片段,通过将所接收的信号作为一个输入信号分址至组件VAD16而激活它,然后将由VAD组件16选取的语音片段作为输入参数分址至参数计算组件18,然后将这些参数计算手段18计算的参数作为输入参数分址至识别工具20;
b/如果由接收界面12接收的信号是一个听觉信号并且指示由声音活性检测之后的语音片段,将所接收的信号作为一个输入参数分址至参数计算组件18而激活它,然后将该参数计算手段18计算的参数作为输入参数分址至识别工具20;
c/如果由接收界面12接收的信号指示建模参数,将所述指示参数作为输入参数分址至识别工具20。
例如,如果终端1的用户使用一个应用,其要求库存信息的交换而声明:“关闭Lambda值最后三天的价格”,对应的听觉信号被麦克风4获取。在根据本发明系统的实施例中,该信号然后被,缺席的情况下,由参数计算组件6处理,然后一个指示所计算的建模参数的信号被传送至服务器1。
当,例如,数据通道的可获得性或计算组件6出现问题时,控制器8就会选择麦克风4的输出听觉信号并将其传送至服务器1。
控制器还可以采用系统传送指示建模参数信号。
服务器通过接收界面12接收信号,然后,为了在所接收的信号上实现语音识别,如果终端1所传送的信号是听觉信号,执行处理过程a/或b/,如果终端1所传送的信号指示建模参数,执行处理过程c/。
根据本发明的服务器还适合于在由不具有建模参数计算手段或识别手段,可能具有声音活性检测手段的终端所传送的信号上实现语音识别。
有利的是,在本发明的一个实施例中,系统可以进一步包括一个用户终端22,其包括一个与终端2相似的麦克风24,以及声音活性检测组件26。组件26的功能与服务器1的声音活性检测组件16的功能相似。然而,检测组件可以不同。终端22包括一个建模参数处理组件28,识别工具30和控制器32。它包括用于将控制器32所选择的信号在网络上传送至服务器的界面10。
终端的识别工具30可以是,例如,处理词汇量小于10个单词。它可以是单声道功能并且可以可以要求基于用户声音的起始学习阶段。
语音识别可以以不同方式实现:
—全部在终端中,或者
—或者全部在服务器中,或者
—部分或全部在终端中并且也,以可替换或同步方式,部分或全部在服务器中。
当在服务器识别组件所提供的相关形式和终端所提供的那些之间根据最后所用形式作出选择时,它可以在不同标准基础上制定,其可以从一个终端变化至另一个终端,但是也可以从一种应用变化至另一个,或者从一种给定内容变化至另一种。这些标准可以是,例如,优先在终端中实现识别,或者优先确定最高水平可能性的关联形式,或者优先最快确定形式。
实现这种识别的方式可以以给定的方式安装在终端中,或者它可以变化,尤其是根据与所考虑的应用相关的标准,或者根据对终端中和服务器中不同手段的负荷相关的问题,或者根据与声音或者数据传送通道的可获得性相关的问题。分别位于终端和服务器中的控制器32和14转换功能从而实现识别功能。
终端的控制器32用于从麦克风24的原始输出听觉信号,代表由VAD组件26所选取的语音片段的听觉信号和指示建模参数28的信号中选择一个信号。取决于要考虑的情况,终端中的处理在提供要传送的信号的终端处理步骤之后将或者将不被实现。
例如,可以考虑这样一种实施例,即在终端的VAD组件26被设计成,例如,快速检测命令单词并且服务器中的VAD组件可以更慢,但是被设计成检测整个阶段。终端22实现本地识别并且在传送的听觉信号的基础上同时启动服务器的识别功能。这样一种应用尤其能够叠加每个声音检测组件的优点。
识别全部本地化(终端)或全部远程化(集中的服务器)的这样一种应用现在也将被考虑,基于关键字能够转换:
识别过程在本地起始:用户声称:“叫安东尼”,安东尼被记录在本地记录簿上。他然后声称:“发信息”,其为本地识别的关键字并且起始转换至服务器识别。现在识别是远程的。他声称:“检索来自Josiane的信息”。当所述信息被听取后,他声称“结束”,一个再次起始至本地识别应用的转换的关键词。
传送至服务器要实现识别的信号是一个听觉信号。在不同的实施例中,它能指示终端中已计算的建模参数。
现在考虑在终端的识别和在服务器的识别交替的这样一种应用。识别首先在终端22中实现并且声音检测后的信号被存储。如果应答是一致的,即,如果没有被识别组件30拒绝和如果从应用观点来看所识别的信号是正确的话,终端中的本地应用移动至下一个的应用阶段。如果应答不一致,存储的信号被送至服务器以实现在听觉信号声音活性检测之后指示语音片段的信号识别(在一个不同实施例中,建模参数可以被存储)。
这样,用户声称:“叫安东尼”;终端22中整个处理过程用存储的信号实现。信号在本地被成功识别。他然后声称:“检索来自Josiane的信息”;识别在终端失败;存储信号然后被传送至服务器。信号被成功识别而所要求的信息被运行。
在一个不同的应用中,识别在终端中被同时实现并且还,独立于在服务器中本地识别的结果。用户声称“叫安东尼”。识别在两个水平实现。当本地处理释该命令时,远程结果不考虑。然后用户声称“检索来自Josiane的信息”,其产生了本地失败,在服务器中被成功识别。
在一个实施例中,终端22的识别工具30是从服务器通过传统数据交换手段下载的可执行程序。
对于终端22给定应用有利的是,终端识别模型可以在连接至网络的专用通话期间被下载或更新。
其它用于语音识别的软件资源也可以从服务器1下载,例如用于建模参数处理的组件6,28或者声音活性检测子26。
可以描述的其它例子,例如,与汽车相关的应用,家用电子商务应用或多媒体应用。
如上示范性实施例所述,根据本发明的系统允许优化利用存在与终端和服务器中的语音识别过程所要求的不同资源。

Claims (16)

1、一种分布式语音识别系统,包括至少一个用户终端和至少一个服务器,它们适合于通过电信网络彼此联系,其中用户终端包括:
—用于获取要识别的听觉信号的手段;以及
—第一听觉信号建模参数计算手段;以及
—用于从要识别的听觉信号和指示所计算的建模参数的信号之间选择至少一个要传送至服务器的信号的第一控制手段;
其中服务器包括:
—用于接收来源于用户终端的所选择信号的手段;
—第二输入信号建模参数计算手段;
—用于将至少一种存储方式与输入参数相关联的识别手段;以及
—用于控制第二计算手段和识别手段的第二控制手段,以便:
·如果被接受手段所接受的选择信号是一种听觉信号,通过将所选择的信号作为一个输入参数分址至其上而激活第二参数计算手段,并且将第二计算手段所计算的参数作为输入参数分址至识别手段,以及
·如果通过接受手段接受的选择信号指示建模参数,将所述指示参数作为输入参数分址至识别手段。
2、如权利要求1所述的系统,其特征在于,用于获取要识别的听觉信号的手段包括声音活性检测手段以便从在声音未活化时期之外的原始听觉信号中选取语音片段的形式产生要识别的信号。
3、如权利要求2所述的系统,其特征在于,采用第一控制手段以便从至少原始听觉信号,由声音活性检测手段所选取的片段形势的要识别的听觉信号以及指示由第一参数计算手段计算的建模参数的信号中选取至少一个信号传送至服务器。
4、如前述任一权利要求所述的系统,其特征在于:
—服务器进一步包括用于从声音未活化时期之外的听觉信号中选取语音片段的声音活性检测手段;以及
—如果由接收手段所接受的选择信号是一种听觉信号,第二控制手段被采用以控制第二计算手段和识别手段,以便,
如果接收的信号代表声音活性检测后的语音片段,通过将所选择的信号作为一个输入信号分址至第二参数计算手段而激活它们,然后将这些第二参数计算手段所计算的参数作为输入参数分址至识别手段;
如果不,通过将所选择的信号作为一个输入信号分址至服务器的声音活性检测手段而激活它们,然后将声音活性检测手段选取的片段作为输入参数分址至第二参数计算手段,然后将这些第二参数计算手段所计算的参数作为输入参数分址至识别手段。
5、如权利要求1至4所述的系统,其特征在于,用户终端进一步包括识别手段以便将至少一种存储形式与由第一计算手段所计算的参数相关联。
6、如权利要求5所述的系统,其特征在于,第一控制手段被用来根据由终端识别手段所提供的结果选择要传送至服务器的信号。
7、如权利要求5至6任意一项所述的系统,其特征在于,用户终端进一步包括被用来存储要识别的听觉信号或由第一参数计算手段计算的建模参数的存储手段。
8、如权利要求5所述的系统,其特征在于,第一控制手段被用来独立于由终端识别手段所提供的结果选择要传送至服务器的信号。
9、实现如权利要求1至8任意一项所述分布式语音识别系统的用户终端,包括:
—用于获取要识别的听觉信号的手段;
—听觉信号建模参数计算手段;以及
—用于从要识别的听觉信号和指示所计算的建模参数的信号之间选择至少一个要传送至服务器的信号的第一控制手段。
10、如权利要求9所述的用户终端,其特征在于,至少部分参数计算手段是从服务器下载的。
11、如权利要求9或10所述的终端,进一步包括将至少一种存储形式与建模参数相关联的识别手段。
12、如权利要求11所述的系统,其特征在于,至少部分识别手段是从服务器下载。
13、实现如权利要求1至8任意一项所述分布式语音识别系统的服务器,包括:
—用于接收来源于用户终端的在所述终端所选择信号的手段;
—输入信号建模参数计算手段;
—用于将至少一种存储方式与输入参数相关联的识别手段;以及
—用于控制第二计算手段和识别手段的控制手段,以便:
·如果被接受于段所接受的选择信号是一种听觉信号,通过将所选择的信号作为一个输入参数分址至其上而激活参数计算手段,并且将第二计算手段所计算的参数作为输入参数分址至识别手段,以及
·如果通过接受手段接受的选择信号指示建模参数,将所述指示参数作为输入参数分址至识别手段。
14、如权利要求13所述的服务器,包括用于经过电信网路下载声音识别软件资源至终端至少部分第一参数计算手段或识别于段的手段。
15、如权利要求14所述的服务器,包括用于经过电信网路下载声音识别软件资源至终端的手段。
16、如权利要求15所述的服务器,其特征在于,所述资源包括下列组件中的至少一个:一个VAD组件,一个听觉信号建模参数计算组件和一个用于将至少一种存储形式与建模参数相关联的识别组件。
CN200480008025.0A 2003-03-25 2004-03-08 分布式语音识别系统 Expired - Lifetime CN1764945B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR0303615A FR2853127A1 (fr) 2003-03-25 2003-03-25 Systeme de reconnaissance de parole distribuee
FR03/03615 2003-03-25
PCT/FR2004/000546 WO2004088636A1 (fr) 2003-03-25 2004-03-08 Systeme de reconnaissance de parole distribuee

Publications (2)

Publication Number Publication Date
CN1764945A true CN1764945A (zh) 2006-04-26
CN1764945B CN1764945B (zh) 2010-08-25

Family

ID=32947140

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200480008025.0A Expired - Lifetime CN1764945B (zh) 2003-03-25 2004-03-08 分布式语音识别系统

Country Status (8)

Country Link
US (1) US20060195323A1 (zh)
EP (1) EP1606795B1 (zh)
CN (1) CN1764945B (zh)
AT (1) ATE441175T1 (zh)
DE (1) DE602004022787D1 (zh)
ES (1) ES2331698T3 (zh)
FR (1) FR2853127A1 (zh)
WO (1) WO2004088636A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008125032A1 (fr) * 2007-04-11 2008-10-23 Huawei Technologies Co., Ltd. Procédé, système et serveur de reconnaissance vocale
CN103474068A (zh) * 2013-08-19 2013-12-25 安徽科大讯飞信息科技股份有限公司 实现语音命令控制的方法、设备及系统
CN104769668A (zh) * 2012-10-04 2015-07-08 纽昂斯通讯公司 改进的用于asr的混合控制器
CN108597522A (zh) * 2018-05-10 2018-09-28 北京奇艺世纪科技有限公司 一种语音处理方法及装置
CN109192207A (zh) * 2018-09-17 2019-01-11 顺丰科技有限公司 语音通信装置、语音通信方法及系统、设备、存储介质
US10971157B2 (en) 2017-01-11 2021-04-06 Nuance Communications, Inc. Methods and apparatus for hybrid speech recognition processing

Families Citing this family (131)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7003463B1 (en) 1998-10-02 2006-02-21 International Business Machines Corporation System and method for providing network coordinated conversational services
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US7366673B2 (en) * 2001-06-15 2008-04-29 International Business Machines Corporation Selective enablement of speech recognition grammars
US7925510B2 (en) * 2004-04-28 2011-04-12 Nuance Communications, Inc. Componentized voice server with selectable internal and external speech detectors
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8949130B2 (en) 2007-03-07 2015-02-03 Vlingo Corporation Internal and external speech recognition use with a mobile communication facility
US20090030691A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Using an unstructured language model associated with an application of a mobile communication facility
US8838457B2 (en) 2007-03-07 2014-09-16 Vlingo Corporation Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility
US8949266B2 (en) 2007-03-07 2015-02-03 Vlingo Corporation Multiple web-based content category searching in mobile search application
US8886545B2 (en) 2007-03-07 2014-11-11 Vlingo Corporation Dealing with switch latency in speech recognition
US10056077B2 (en) 2007-03-07 2018-08-21 Nuance Communications, Inc. Using speech recognition results based on an unstructured language model with a music system
US8635243B2 (en) 2007-03-07 2014-01-21 Research In Motion Limited Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application
US20080221884A1 (en) 2007-03-07 2008-09-11 Cerra Joseph P Mobile environment speech processing facility
US8886540B2 (en) 2007-03-07 2014-11-11 Vlingo Corporation Using speech recognition results based on an unstructured language model in a mobile communication facility application
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9129599B2 (en) * 2007-10-18 2015-09-08 Nuance Communications, Inc. Automated tuning of speech recognition parameters
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
WO2010067118A1 (en) * 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8892439B2 (en) * 2009-07-15 2014-11-18 Microsoft Corporation Combination and federation of local and remote speech recognition
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9953643B2 (en) * 2010-12-23 2018-04-24 Lenovo (Singapore) Pte. Ltd. Selective transmission of voice data
US10049669B2 (en) 2011-01-07 2018-08-14 Nuance Communications, Inc. Configurable speech recognition system using multiple recognizers
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144949A2 (en) 2013-03-15 2014-09-18 Apple Inc. Training an at least partial voice command system
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
EP3008641A1 (en) 2013-06-09 2016-04-20 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
CN105265005B (zh) 2013-06-13 2019-09-17 苹果公司 用于由语音命令发起的紧急呼叫的系统和方法
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
CN106471570B (zh) 2014-05-30 2019-10-01 苹果公司 多命令单一话语输入方法
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10950239B2 (en) * 2015-10-22 2021-03-16 Avaya Inc. Source-based automatic speech recognition
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
CN107452383B (zh) * 2016-05-31 2021-10-26 华为终端有限公司 一种信息处理方法、服务器、终端及信息处理系统
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10515632B2 (en) 2016-11-15 2019-12-24 At&T Intellectual Property I, L.P. Asynchronous virtual assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10885912B2 (en) * 2018-11-13 2021-01-05 Motorola Solutions, Inc. Methods and systems for providing a corrected voice command
TWI732409B (zh) * 2020-01-02 2021-07-01 台灣松下電器股份有限公司 智慧家電操控方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5838683A (en) * 1995-03-13 1998-11-17 Selsius Systems Inc. Distributed interactive multimedia system architecture
US5943648A (en) * 1996-04-25 1999-08-24 Lernout & Hauspie Speech Products N.V. Speech signal distribution system providing supplemental parameter associated data
US6122613A (en) * 1997-01-30 2000-09-19 Dragon Systems, Inc. Speech recognition using multiple recognizers (selectively) applied to the same input sample
US6336090B1 (en) * 1998-11-30 2002-01-01 Lucent Technologies Inc. Automatic speech/speaker recognition over digital wireless channels
WO2000058942A2 (en) * 1999-03-26 2000-10-05 Koninklijke Philips Electronics N.V. Client-server speech recognition
US6308158B1 (en) * 1999-06-30 2001-10-23 Dictaphone Corporation Distributed speech recognition system with multi-user input stations
US6633846B1 (en) * 1999-11-12 2003-10-14 Phoenix Solutions, Inc. Distributed realtime speech recognition system
US20030182113A1 (en) * 1999-11-22 2003-09-25 Xuedong Huang Distributed speech recognition for mobile communication devices
AU2001250591A1 (en) * 2000-06-08 2001-12-17 Nokia Corporation Method and system for adaptive distributed speech recognition
US7016849B2 (en) * 2002-03-25 2006-03-21 Sri International Method and apparatus for providing speech-driven routing between spoken language applications
TW567465B (en) * 2002-09-02 2003-12-21 Ind Tech Res Inst Configurable distributed speech recognition system

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008125032A1 (fr) * 2007-04-11 2008-10-23 Huawei Technologies Co., Ltd. Procédé, système et serveur de reconnaissance vocale
CN104769668A (zh) * 2012-10-04 2015-07-08 纽昂斯通讯公司 改进的用于asr的混合控制器
US9886944B2 (en) 2012-10-04 2018-02-06 Nuance Communications, Inc. Hybrid controller for ASR
CN104769668B (zh) * 2012-10-04 2018-10-30 纽昂斯通讯公司 改进的用于asr的混合控制器
CN103474068A (zh) * 2013-08-19 2013-12-25 安徽科大讯飞信息科技股份有限公司 实现语音命令控制的方法、设备及系统
CN103474068B (zh) * 2013-08-19 2016-08-10 科大讯飞股份有限公司 实现语音命令控制的方法、设备及系统
US10971157B2 (en) 2017-01-11 2021-04-06 Nuance Communications, Inc. Methods and apparatus for hybrid speech recognition processing
CN108597522A (zh) * 2018-05-10 2018-09-28 北京奇艺世纪科技有限公司 一种语音处理方法及装置
CN108597522B (zh) * 2018-05-10 2021-10-15 北京奇艺世纪科技有限公司 一种语音处理方法及装置
CN109192207A (zh) * 2018-09-17 2019-01-11 顺丰科技有限公司 语音通信装置、语音通信方法及系统、设备、存储介质

Also Published As

Publication number Publication date
FR2853127A1 (fr) 2004-10-01
DE602004022787D1 (de) 2009-10-08
WO2004088636A1 (fr) 2004-10-14
ATE441175T1 (de) 2009-09-15
CN1764945B (zh) 2010-08-25
EP1606795B1 (fr) 2009-08-26
ES2331698T3 (es) 2010-01-13
US20060195323A1 (en) 2006-08-31
EP1606795A1 (fr) 2005-12-21

Similar Documents

Publication Publication Date Title
CN1764945A (zh) 分布式语音识别系统
CN1764946A (zh) 分布式语音识别方法
CN110661927B (zh) 语音交互方法、装置、计算机设备及存储介质
CN1220176C (zh) 用于一种语音识别设备的训练或适配方法
US20180190279A1 (en) Content streaming system
CN1249667C (zh) 声控服务
US8332227B2 (en) System and method for providing network coordinated conversational services
CN1722230A (zh) 语音识别任务的分配及其结果综合
US20060200348A1 (en) Method and system for voice recognition menu navigation
US9236048B2 (en) Method and device for voice controlling
CN110557451A (zh) 对话交互处理方法、装置、电子设备和存储介质
CN1761959A (zh) 在移动电话系统中存储和检索多媒体数据和相关注释数据
CN102111483B (zh) 一种在通话过程中查询信息的方法、装置及移动终端
EP2747077A1 (en) Voice recognition system, recognition dictionary logging system, and audio model identifier series generation device
CN101183525A (zh) 用于自动语音识别系统的自适应语境
CN205508398U (zh) 具有云端交互功能的智能机器人
WO2011082340A1 (en) Method and system for processing multiple speech recognition results from a single utterance
CN102292766A (zh) 用于提供用于语音识别自适应的复合模型的方法、装置和计算机程序产品
JP2006505002A5 (zh)
CN111177338A (zh) 一种基于上下文的多轮对话方法
JP2014191029A (ja) 音声認識システムおよび音声認識システムの制御方法
EP1085501B1 (en) Client-server based speech recognition
CN101040549A (zh) 发送语音和文本消息的电话
CN1217314C (zh) 由有限的用户圈用语音控制启动可在设备内执行的动作的方法
CN1714390A (zh) 语音识别设备和方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CX01 Expiry of patent term
CX01 Expiry of patent term

Granted publication date: 20100825