CN1764945A - 分布式语音识别系统 - Google Patents
分布式语音识别系统 Download PDFInfo
- Publication number
- CN1764945A CN1764945A CN200480008025.0A CN200480008025A CN1764945A CN 1764945 A CN1764945 A CN 1764945A CN 200480008025 A CN200480008025 A CN 200480008025A CN 1764945 A CN1764945 A CN 1764945A
- Authority
- CN
- China
- Prior art keywords
- signal
- server
- identification
- parameter
- terminal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004364 calculation method Methods 0.000 claims abstract description 15
- 238000001514 detection method Methods 0.000 claims description 20
- 230000004913 activation Effects 0.000 claims description 7
- 239000012634 fragment Substances 0.000 claims description 4
- 238000004891 communication Methods 0.000 claims description 2
- 230000005236 sound signal Effects 0.000 abstract 1
- 238000000034 method Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 9
- 230000008569 process Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000000712 assembly Effects 0.000 description 2
- 238000000429 assembly Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000019771 cognition Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000012905 input function Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000008786 sensory perception of smell Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
Abstract
本发明涉及分布式语音识别系统。本发明的系统包括:至少一个用户终端,其包括用于获取要识别的听觉信号的手段,参数计算手段和用于选择要传送的信号的控制手段;以及一个服务器,其包括用于接收信号的手段,参数计算手段,识别手段和用于根据接收的信号控制计算手段和识别手段的控制手段。
Description
技术领域
本发明涉及在用户终端上借助操作语音识别手段实现的声音控制应用领域。所考虑的用户终端是所有带有语音输入功能的装置,其语音输入部分通常为一个麦克风,能够处理这种声音并且通过传送通道与一个或多个服务器相连。这些装置包括,例如,用在智能家庭,汽车(轿车收音机或其他车辆功能控制),PCs或电话中的可控或遥控装置。所涉及的应用范围基本上是用户利用声音命令控制一种活动,索要信息或试图进行远端互动。声音命令的使用不排除在用户终端之内其他活动手段的存在(多模系统),并且信息的返回,系统状态或应答也可以在视觉,听觉,嗅觉或任何其他人类可接受的组合手段中实现。
一般来说,实现语音识别的手段包括用于获得听觉信号的手段,用于进行声学分析以选取建模参数的手段以及,最后,识别手段,其将这些选取的建模参数与模型相比较并且建议模型中的储存格式能以最可能的方式与信号相关联。可以任选地使用声音活性检测(VAD)手段。这些检测出来的序列与语音信号相对应,并且被识别。它们在没有声音活性的时期之外从在输入端的听觉信号选取语音片段,其将随后通过建模参数选取手段被处理。
更具体的是,本发明涉及三种语音分布手段:装载式,集中式和分布式之间的相互作用。
背景技术
在一个装载式语音识别模式中,用于实现语音识别的整个手段位于用户终端之内。这种识别模式的局限性明显与装载处理机的性能和用于存储语音识别模型的内存空间相关。在另一方面,这种模式允许独立操作,没有与服务器相连,并且在与减少处理容量成本相关的方面取得可靠的进展。
在一个集中式语音识别模式中,整个语音识别过程和识别模型都位于并且实现于一台计算机上,通常将其称为声音服务器,用户终端可以进入。终端简单地将语音信号传送至服务器。该手段常用于电信操作者提供的应用中。这样,基础终端能够实现高级的声音激活的服务。许多类型的语音识别(加强的,可变的,巨大词汇,活动词汇,连续语音,一人或多人发言,多种语言等等)可以在一个语音识别服务器中实现。事实上,集中式计算机系统具有巨大而提高了的模型存储容量,工作内存空间和计算能力。
在一个分布式语音识别模式中,声学分析手段装载在用户终端之内,识别手段位于服务器。在这种分布式模式中,与建模参数选取手段相关联的噪音过滤功能可以在音源有利的实现。只有被传送的建模参数允许在传送率中实质的增加,其尤其有利于多模应用。此外,要识别的信号能得到更好的保护以防止传送错误。任选地,也可以安装声音活性检测(VAD),以便在语音顺序排列期间只传送建模参数,其有利于显著减少有效传送的持续时间。分布式语音识别还允许用于语音和数据的信号,特别是文本,图像和影像被携带在相同的传送通道上。传送网络可以是,例如,IP,GPRS,WLAN或者以太网络类型。这种模式对防止传送给服务器的打包信号丢失的保护和更正程序也很有益处。然而,其要求具有严格传送条件的可利用的数据传送通道。
本发明提出了一种语音识别系统,其包括用户终端和服务器,结合了各种由装载式,集中式和分布式语音识别模式所提供的功能,因而为采用声音控制的多模服务的用户提供了在效率,舒适度和人机互动方面最佳的系统。
专利US6487534B1公开了一种分布式语音识别系统,其包括用户终端,该终端具有用于检测声音活动的手段,用于处理建模参数的手段和识别手段。该系统另外还包括一个也具有识别手段的服务器。所公开的方法包括在用户终端至少实现第一识别阶段。然后立刻进入一个选择阶段,用户终端处理的建模参数被特别按序送至服务器以做判断,这个实施例依赖于服务器中的识别手段,模型中存储的形式,并且与传送来的信号相关联。
在所引用的文件中公开的系统的目标是减少服务器的负荷。然而,结果是在能将所属参数传送至服务器之前终端必须在本地进行建模参数计算。然而,情况是为了负荷管理或相关应用的原因,优选的是在服务器中进行这种计算。
结果,在根据上述引用文件的系统中,用于要识别的建模参数传送的通道必须是与传送的数据类型相匹配的通道。然而,这样具有严格要求的通道在传送网络中并不一定能够连续获得。由于这个原因,理想的是能够利用常规听觉信号传送通道以便避免终端中启动的识别过程的延迟或中断。
发明内容
本发明的目标之一是提出一种识别系统,其能较小的受上述限制的影响。
这样,根据第一方面,本发明提出了一种分布式语音识别系统,包括至少一个用户终端和至少一个服务器,它们适合于通过电信网络彼此联系,其中用户终端包括:
—用于获取要识别的听觉信号的手段;
—第一听觉信号建模参数计算手段;以及—
—用于从要识别的听觉信号和指示已处理的建模参数的信号之间选择至少一个要传送至服务器的信号的第一控制手段。
其中服务器包括:
—用于接收来源于用户终端的所选择信号的手段;
—第二输入信号建模参数计算手段;
—用于将至少一种存储方式与输入参数相关联的识别手段;以及
—用于控制第二计算手段和识别手段的第二控制手段,以便:
·如果被接受手段所接受的选择信号是一种听觉信号,通过将所选择的信号作为一个输入参数分址至其上而激活第二参数计算手段,并且将第二计算手段所计算的参数作为输入参数分址至识别手段,以及
·如果通过接受手段接受的选择信号指示建模参数,将所述指示参数作为输入参数分址至识别手段。
这样,根据本发明的系统既能将听觉信号(压缩的或未压缩的)从用户终端传送至服务器,也能将由终端的建模参数计算手段提供的信号传送至服务器。所传送信号的选择即可以是通过现有应用类型限定,也可以通过网络状态限定,或者在终端和服务器各自的控制手段之间协同。
根据本发明的系统给予用户终端在终端中或在服务器中实现建模参数计算的能力,相应地,例如,输入其控制手段具有在一给定时间的参数。这种计算也可以平行的在终端和在服务器中实现。
根据本发明的系统能够使声音识别在共存于相同网络内的不同类型终端中实现,例如:
不具有本地识别手段的终端(或者其本地识别手段未活化),在其情况下听觉信号被传送至服务器以供识别;
—具有声音活性检测手段但不具有建模参数计算手段,或识别手段(或者其建模参数计算手段和识别手段未活化)的终端,并且其将原始听觉信号或者从声音未活化时期之外听觉信号中选取的代表语音片段的听觉信号传送至服务器以识别,
—以及服务器,例如,仅仅具有识别手段,没有建模参数计算手段。
有利的是,用于从用户终端获取听觉信号的手段可以进一步包括声音活性检测手段以便从在声音未活化时期之外的原始听觉信号中选取语音片段。然后,终端控制手段从代表语音片段的听觉信号和指示计算的建模参数的信号中选择至少一种信号传送至服务器。
有利的是采用终端控制手段以便从至少原始听觉信号,指示从原始听觉信号中选取的语音片段的听觉信号以及指示计算的建模参数的信号中选取至少一个信号传送至服务器。在服务器中,采用控制手段以便按序控制计算于段和识别手段,如果接受手段所接受的选择信号代表由终端活性检测手段所选取的语音片段,通过将所选择的信号作为一个输入信号分址至参数计算手段而激活它们,并且将这些计算手段所计算的参数作为输入参数分址至识别手段。
在一个优选实施例中,服务器进一步包括用于从接收的声音未活化时期之外的听觉信号中选取语音片段的声音活性检测手段。在这种情况下,在服务器中,采用控制手段控制计算手段和识别手段,以便
·如果由接受手段接受的选择信号是一个听觉信号:
—如果接收的信号代表声音活性检测后的语音片段,通过将所选择的信号作为一个输入信号分址至第二参数处理手段而激活它们,然后将这些第二参数处理手段所计算的参数作为输入参数分址至识别手段。
—如果不,通过将所选择的信号作为一个输入信号分址至声音活性检测手段而激活它们,然后将声音活性检测手段选取的片段作为输入参数分址至第二参数处理手段,然后将这些第二参数处理手段所计算的参数作为输入参数分址至识别手段。
·如果由接受手段接受的选择信号指示建模参数,将所述指示参数作为输入参数分址至识别手段。
有利的是,用户终端进一步包括至少与一种输入参数存储形式相关联的识别手段。
在后一情况中,可以采用终端的控制手段根据终端识别手段提供的结果去选择要传送至服务器的信号。而且,用户终端可以包括采用存储手段存储终端中的信号以便能够在终端本地识别结果不令人满意的情况下,由服务器传送要识别的信号。
有利的是,终端控制手段能被用来独立于第一识别手段所提供的结果之外选择要传送至服务器的信号。
要注意的是终端控制手段可以在以上两段所描述的两种模式中从一种替换至另一种,相应地,例如,对应于应用情况或网络状态。
服务器的控制手段优选与终端的控制手段配合工作。这样,终端可以免在,例如如果服务器的参数处理手段中已经有一个相当量的负荷时传送一个听觉信号至服务器。在一个可行实施例中,服务器的控制手段被设定成与终端的手段配合工作以便根据服务器和终端网络工作的各自容量采用由终端传送的信号类型。
终端的计算和识别手段可以是标准化的或专有的。
在一个优选实施例中,至少在终端中的一些识别和参数处理手段是通过下载提供的,以终端处理机可执行的形式,例如从服务器。
根据第二方面,本发明提出了一种实现根据本发明的分布式语音识别系统的用户终端。
根据第三方面,本发明提出了一种实现根据本发明的分布式语音识别系统的服务器。
附图说明
本发明的其它优点和特点将通过阅读以下说明而显示出来。该说明书仅仅是示例性的,并且必须结合相应的附图,在其中:
图1是一个框图代表本发明一个实施例中的系统。
具体实施方式
在单一附图中所示的系统包括服务器1和用户终端2,其通过具有用于声音信号和数据信号传送通道的网络(未示出)彼此相连。
终端2包括一个麦克风4,其从用户以听觉信号的形式获取要识别的语音。终端2还包括建模参数处理组件6,其以已知的方式,执行能够选取听觉信号相关参数的声学分析,并且可能有利于实现减少噪声功能。终端2包括控制器8,其从听觉信号和指示由参数处理组件6计算的参数的信号中选择一个信号。它还包括用于在网络上所选择信号传送至服务器的界面10。
服务器1包括接收分址至其上的信号的网络界面12,分析所接收的信号并将其有选择的分送至多个组件16,18,20中的一个的控制器14。组件16是一个检测对应于要识别的语音的片段的声音活性检测器。组件18以和终端中计算组件6相似的方式计算建模参数。然而,计算组件可以不同。组件20执行已知类型的识别算法,例如具有词汇多于100000单词的隐藏的Markov模型。该识别工具20将输入参数与代表单词或短语的语音模型相对比,并且在考虑描述预定单词链的语法模型,指示单词发音的词汇模型和代表发出声音的声学模型的情况下确定最佳关联形式。这些模型是用于例如多声道,能够脱离说话者高度可靠地识别语音。
控制器14控制VAD组件16,参数计算组件18和识别工具20,以便:
a/如果由接收界面12接收的信号是一种听觉信号并且不指示由声音活性检测获得的语音片段,通过将所接收的信号作为一个输入信号分址至组件VAD16而激活它,然后将由VAD组件16选取的语音片段作为输入参数分址至参数计算组件18,然后将这些参数计算手段18计算的参数作为输入参数分址至识别工具20;
b/如果由接收界面12接收的信号是一个听觉信号并且指示由声音活性检测之后的语音片段,将所接收的信号作为一个输入参数分址至参数计算组件18而激活它,然后将该参数计算手段18计算的参数作为输入参数分址至识别工具20;
c/如果由接收界面12接收的信号指示建模参数,将所述指示参数作为输入参数分址至识别工具20。
例如,如果终端1的用户使用一个应用,其要求库存信息的交换而声明:“关闭Lambda值最后三天的价格”,对应的听觉信号被麦克风4获取。在根据本发明系统的实施例中,该信号然后被,缺席的情况下,由参数计算组件6处理,然后一个指示所计算的建模参数的信号被传送至服务器1。
当,例如,数据通道的可获得性或计算组件6出现问题时,控制器8就会选择麦克风4的输出听觉信号并将其传送至服务器1。
控制器还可以采用系统传送指示建模参数信号。
服务器通过接收界面12接收信号,然后,为了在所接收的信号上实现语音识别,如果终端1所传送的信号是听觉信号,执行处理过程a/或b/,如果终端1所传送的信号指示建模参数,执行处理过程c/。
根据本发明的服务器还适合于在由不具有建模参数计算手段或识别手段,可能具有声音活性检测手段的终端所传送的信号上实现语音识别。
有利的是,在本发明的一个实施例中,系统可以进一步包括一个用户终端22,其包括一个与终端2相似的麦克风24,以及声音活性检测组件26。组件26的功能与服务器1的声音活性检测组件16的功能相似。然而,检测组件可以不同。终端22包括一个建模参数处理组件28,识别工具30和控制器32。它包括用于将控制器32所选择的信号在网络上传送至服务器的界面10。
终端的识别工具30可以是,例如,处理词汇量小于10个单词。它可以是单声道功能并且可以可以要求基于用户声音的起始学习阶段。
语音识别可以以不同方式实现:
—全部在终端中,或者
—或者全部在服务器中,或者
—部分或全部在终端中并且也,以可替换或同步方式,部分或全部在服务器中。
当在服务器识别组件所提供的相关形式和终端所提供的那些之间根据最后所用形式作出选择时,它可以在不同标准基础上制定,其可以从一个终端变化至另一个终端,但是也可以从一种应用变化至另一个,或者从一种给定内容变化至另一种。这些标准可以是,例如,优先在终端中实现识别,或者优先确定最高水平可能性的关联形式,或者优先最快确定形式。
实现这种识别的方式可以以给定的方式安装在终端中,或者它可以变化,尤其是根据与所考虑的应用相关的标准,或者根据对终端中和服务器中不同手段的负荷相关的问题,或者根据与声音或者数据传送通道的可获得性相关的问题。分别位于终端和服务器中的控制器32和14转换功能从而实现识别功能。
终端的控制器32用于从麦克风24的原始输出听觉信号,代表由VAD组件26所选取的语音片段的听觉信号和指示建模参数28的信号中选择一个信号。取决于要考虑的情况,终端中的处理在提供要传送的信号的终端处理步骤之后将或者将不被实现。
例如,可以考虑这样一种实施例,即在终端的VAD组件26被设计成,例如,快速检测命令单词并且服务器中的VAD组件可以更慢,但是被设计成检测整个阶段。终端22实现本地识别并且在传送的听觉信号的基础上同时启动服务器的识别功能。这样一种应用尤其能够叠加每个声音检测组件的优点。
识别全部本地化(终端)或全部远程化(集中的服务器)的这样一种应用现在也将被考虑,基于关键字能够转换:
识别过程在本地起始:用户声称:“叫安东尼”,安东尼被记录在本地记录簿上。他然后声称:“发信息”,其为本地识别的关键字并且起始转换至服务器识别。现在识别是远程的。他声称:“检索来自Josiane的信息”。当所述信息被听取后,他声称“结束”,一个再次起始至本地识别应用的转换的关键词。
传送至服务器要实现识别的信号是一个听觉信号。在不同的实施例中,它能指示终端中已计算的建模参数。
现在考虑在终端的识别和在服务器的识别交替的这样一种应用。识别首先在终端22中实现并且声音检测后的信号被存储。如果应答是一致的,即,如果没有被识别组件30拒绝和如果从应用观点来看所识别的信号是正确的话,终端中的本地应用移动至下一个的应用阶段。如果应答不一致,存储的信号被送至服务器以实现在听觉信号声音活性检测之后指示语音片段的信号识别(在一个不同实施例中,建模参数可以被存储)。
这样,用户声称:“叫安东尼”;终端22中整个处理过程用存储的信号实现。信号在本地被成功识别。他然后声称:“检索来自Josiane的信息”;识别在终端失败;存储信号然后被传送至服务器。信号被成功识别而所要求的信息被运行。
在一个不同的应用中,识别在终端中被同时实现并且还,独立于在服务器中本地识别的结果。用户声称“叫安东尼”。识别在两个水平实现。当本地处理释该命令时,远程结果不考虑。然后用户声称“检索来自Josiane的信息”,其产生了本地失败,在服务器中被成功识别。
在一个实施例中,终端22的识别工具30是从服务器通过传统数据交换手段下载的可执行程序。
对于终端22给定应用有利的是,终端识别模型可以在连接至网络的专用通话期间被下载或更新。
其它用于语音识别的软件资源也可以从服务器1下载,例如用于建模参数处理的组件6,28或者声音活性检测子26。
可以描述的其它例子,例如,与汽车相关的应用,家用电子商务应用或多媒体应用。
如上示范性实施例所述,根据本发明的系统允许优化利用存在与终端和服务器中的语音识别过程所要求的不同资源。
Claims (16)
1、一种分布式语音识别系统,包括至少一个用户终端和至少一个服务器,它们适合于通过电信网络彼此联系,其中用户终端包括:
—用于获取要识别的听觉信号的手段;以及
—第一听觉信号建模参数计算手段;以及
—用于从要识别的听觉信号和指示所计算的建模参数的信号之间选择至少一个要传送至服务器的信号的第一控制手段;
其中服务器包括:
—用于接收来源于用户终端的所选择信号的手段;
—第二输入信号建模参数计算手段;
—用于将至少一种存储方式与输入参数相关联的识别手段;以及
—用于控制第二计算手段和识别手段的第二控制手段,以便:
·如果被接受手段所接受的选择信号是一种听觉信号,通过将所选择的信号作为一个输入参数分址至其上而激活第二参数计算手段,并且将第二计算手段所计算的参数作为输入参数分址至识别手段,以及
·如果通过接受手段接受的选择信号指示建模参数,将所述指示参数作为输入参数分址至识别手段。
2、如权利要求1所述的系统,其特征在于,用于获取要识别的听觉信号的手段包括声音活性检测手段以便从在声音未活化时期之外的原始听觉信号中选取语音片段的形式产生要识别的信号。
3、如权利要求2所述的系统,其特征在于,采用第一控制手段以便从至少原始听觉信号,由声音活性检测手段所选取的片段形势的要识别的听觉信号以及指示由第一参数计算手段计算的建模参数的信号中选取至少一个信号传送至服务器。
4、如前述任一权利要求所述的系统,其特征在于:
—服务器进一步包括用于从声音未活化时期之外的听觉信号中选取语音片段的声音活性检测手段;以及
—如果由接收手段所接受的选择信号是一种听觉信号,第二控制手段被采用以控制第二计算手段和识别手段,以便,
如果接收的信号代表声音活性检测后的语音片段,通过将所选择的信号作为一个输入信号分址至第二参数计算手段而激活它们,然后将这些第二参数计算手段所计算的参数作为输入参数分址至识别手段;
如果不,通过将所选择的信号作为一个输入信号分址至服务器的声音活性检测手段而激活它们,然后将声音活性检测手段选取的片段作为输入参数分址至第二参数计算手段,然后将这些第二参数计算手段所计算的参数作为输入参数分址至识别手段。
5、如权利要求1至4所述的系统,其特征在于,用户终端进一步包括识别手段以便将至少一种存储形式与由第一计算手段所计算的参数相关联。
6、如权利要求5所述的系统,其特征在于,第一控制手段被用来根据由终端识别手段所提供的结果选择要传送至服务器的信号。
7、如权利要求5至6任意一项所述的系统,其特征在于,用户终端进一步包括被用来存储要识别的听觉信号或由第一参数计算手段计算的建模参数的存储手段。
8、如权利要求5所述的系统,其特征在于,第一控制手段被用来独立于由终端识别手段所提供的结果选择要传送至服务器的信号。
9、实现如权利要求1至8任意一项所述分布式语音识别系统的用户终端,包括:
—用于获取要识别的听觉信号的手段;
—听觉信号建模参数计算手段;以及
—用于从要识别的听觉信号和指示所计算的建模参数的信号之间选择至少一个要传送至服务器的信号的第一控制手段。
10、如权利要求9所述的用户终端,其特征在于,至少部分参数计算手段是从服务器下载的。
11、如权利要求9或10所述的终端,进一步包括将至少一种存储形式与建模参数相关联的识别手段。
12、如权利要求11所述的系统,其特征在于,至少部分识别手段是从服务器下载。
13、实现如权利要求1至8任意一项所述分布式语音识别系统的服务器,包括:
—用于接收来源于用户终端的在所述终端所选择信号的手段;
—输入信号建模参数计算手段;
—用于将至少一种存储方式与输入参数相关联的识别手段;以及
—用于控制第二计算手段和识别手段的控制手段,以便:
·如果被接受于段所接受的选择信号是一种听觉信号,通过将所选择的信号作为一个输入参数分址至其上而激活参数计算手段,并且将第二计算手段所计算的参数作为输入参数分址至识别手段,以及
·如果通过接受手段接受的选择信号指示建模参数,将所述指示参数作为输入参数分址至识别手段。
14、如权利要求13所述的服务器,包括用于经过电信网路下载声音识别软件资源至终端至少部分第一参数计算手段或识别于段的手段。
15、如权利要求14所述的服务器,包括用于经过电信网路下载声音识别软件资源至终端的手段。
16、如权利要求15所述的服务器,其特征在于,所述资源包括下列组件中的至少一个:一个VAD组件,一个听觉信号建模参数计算组件和一个用于将至少一种存储形式与建模参数相关联的识别组件。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR0303615A FR2853127A1 (fr) | 2003-03-25 | 2003-03-25 | Systeme de reconnaissance de parole distribuee |
FR03/03615 | 2003-03-25 | ||
PCT/FR2004/000546 WO2004088636A1 (fr) | 2003-03-25 | 2004-03-08 | Systeme de reconnaissance de parole distribuee |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1764945A true CN1764945A (zh) | 2006-04-26 |
CN1764945B CN1764945B (zh) | 2010-08-25 |
Family
ID=32947140
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200480008025.0A Expired - Lifetime CN1764945B (zh) | 2003-03-25 | 2004-03-08 | 分布式语音识别系统 |
Country Status (8)
Country | Link |
---|---|
US (1) | US20060195323A1 (zh) |
EP (1) | EP1606795B1 (zh) |
CN (1) | CN1764945B (zh) |
AT (1) | ATE441175T1 (zh) |
DE (1) | DE602004022787D1 (zh) |
ES (1) | ES2331698T3 (zh) |
FR (1) | FR2853127A1 (zh) |
WO (1) | WO2004088636A1 (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008125032A1 (fr) * | 2007-04-11 | 2008-10-23 | Huawei Technologies Co., Ltd. | Procédé, système et serveur de reconnaissance vocale |
CN103474068A (zh) * | 2013-08-19 | 2013-12-25 | 安徽科大讯飞信息科技股份有限公司 | 实现语音命令控制的方法、设备及系统 |
CN104769668A (zh) * | 2012-10-04 | 2015-07-08 | 纽昂斯通讯公司 | 改进的用于asr的混合控制器 |
CN108597522A (zh) * | 2018-05-10 | 2018-09-28 | 北京奇艺世纪科技有限公司 | 一种语音处理方法及装置 |
CN109192207A (zh) * | 2018-09-17 | 2019-01-11 | 顺丰科技有限公司 | 语音通信装置、语音通信方法及系统、设备、存储介质 |
US10971157B2 (en) | 2017-01-11 | 2021-04-06 | Nuance Communications, Inc. | Methods and apparatus for hybrid speech recognition processing |
Families Citing this family (131)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7003463B1 (en) | 1998-10-02 | 2006-02-21 | International Business Machines Corporation | System and method for providing network coordinated conversational services |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US7366673B2 (en) * | 2001-06-15 | 2008-04-29 | International Business Machines Corporation | Selective enablement of speech recognition grammars |
US7925510B2 (en) * | 2004-04-28 | 2011-04-12 | Nuance Communications, Inc. | Componentized voice server with selectable internal and external speech detectors |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8949130B2 (en) | 2007-03-07 | 2015-02-03 | Vlingo Corporation | Internal and external speech recognition use with a mobile communication facility |
US20090030691A1 (en) * | 2007-03-07 | 2009-01-29 | Cerra Joseph P | Using an unstructured language model associated with an application of a mobile communication facility |
US8838457B2 (en) | 2007-03-07 | 2014-09-16 | Vlingo Corporation | Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility |
US8949266B2 (en) | 2007-03-07 | 2015-02-03 | Vlingo Corporation | Multiple web-based content category searching in mobile search application |
US8886545B2 (en) | 2007-03-07 | 2014-11-11 | Vlingo Corporation | Dealing with switch latency in speech recognition |
US10056077B2 (en) | 2007-03-07 | 2018-08-21 | Nuance Communications, Inc. | Using speech recognition results based on an unstructured language model with a music system |
US8635243B2 (en) | 2007-03-07 | 2014-01-21 | Research In Motion Limited | Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application |
US20080221884A1 (en) | 2007-03-07 | 2008-09-11 | Cerra Joseph P | Mobile environment speech processing facility |
US8886540B2 (en) | 2007-03-07 | 2014-11-11 | Vlingo Corporation | Using speech recognition results based on an unstructured language model in a mobile communication facility application |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US9129599B2 (en) * | 2007-10-18 | 2015-09-08 | Nuance Communications, Inc. | Automated tuning of speech recognition parameters |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
WO2010067118A1 (en) * | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10255566B2 (en) | 2011-06-03 | 2019-04-09 | Apple Inc. | Generating and processing task items that represent tasks to perform |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US8892439B2 (en) * | 2009-07-15 | 2014-11-18 | Microsoft Corporation | Combination and federation of local and remote speech recognition |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9953643B2 (en) * | 2010-12-23 | 2018-04-24 | Lenovo (Singapore) Pte. Ltd. | Selective transmission of voice data |
US10049669B2 (en) | 2011-01-07 | 2018-08-14 | Nuance Communications, Inc. | Configurable speech recognition system using multiple recognizers |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
WO2014144949A2 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | Training an at least partial voice command system |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
EP3008641A1 (en) | 2013-06-09 | 2016-04-20 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
CN105265005B (zh) | 2013-06-13 | 2019-09-17 | 苹果公司 | 用于由语音命令发起的紧急呼叫的系统和方法 |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
CN106471570B (zh) | 2014-05-30 | 2019-10-01 | 苹果公司 | 多命令单一话语输入方法 |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10950239B2 (en) * | 2015-10-22 | 2021-03-16 | Avaya Inc. | Source-based automatic speech recognition |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
CN107452383B (zh) * | 2016-05-31 | 2021-10-26 | 华为终端有限公司 | 一种信息处理方法、服务器、终端及信息处理系统 |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10515632B2 (en) | 2016-11-15 | 2019-12-24 | At&T Intellectual Property I, L.P. | Asynchronous virtual assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10885912B2 (en) * | 2018-11-13 | 2021-01-05 | Motorola Solutions, Inc. | Methods and systems for providing a corrected voice command |
TWI732409B (zh) * | 2020-01-02 | 2021-07-01 | 台灣松下電器股份有限公司 | 智慧家電操控方法 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5838683A (en) * | 1995-03-13 | 1998-11-17 | Selsius Systems Inc. | Distributed interactive multimedia system architecture |
US5943648A (en) * | 1996-04-25 | 1999-08-24 | Lernout & Hauspie Speech Products N.V. | Speech signal distribution system providing supplemental parameter associated data |
US6122613A (en) * | 1997-01-30 | 2000-09-19 | Dragon Systems, Inc. | Speech recognition using multiple recognizers (selectively) applied to the same input sample |
US6336090B1 (en) * | 1998-11-30 | 2002-01-01 | Lucent Technologies Inc. | Automatic speech/speaker recognition over digital wireless channels |
WO2000058942A2 (en) * | 1999-03-26 | 2000-10-05 | Koninklijke Philips Electronics N.V. | Client-server speech recognition |
US6308158B1 (en) * | 1999-06-30 | 2001-10-23 | Dictaphone Corporation | Distributed speech recognition system with multi-user input stations |
US6633846B1 (en) * | 1999-11-12 | 2003-10-14 | Phoenix Solutions, Inc. | Distributed realtime speech recognition system |
US20030182113A1 (en) * | 1999-11-22 | 2003-09-25 | Xuedong Huang | Distributed speech recognition for mobile communication devices |
AU2001250591A1 (en) * | 2000-06-08 | 2001-12-17 | Nokia Corporation | Method and system for adaptive distributed speech recognition |
US7016849B2 (en) * | 2002-03-25 | 2006-03-21 | Sri International | Method and apparatus for providing speech-driven routing between spoken language applications |
TW567465B (en) * | 2002-09-02 | 2003-12-21 | Ind Tech Res Inst | Configurable distributed speech recognition system |
-
2003
- 2003-03-25 FR FR0303615A patent/FR2853127A1/fr active Pending
-
2004
- 2004-03-08 AT AT04718324T patent/ATE441175T1/de not_active IP Right Cessation
- 2004-03-08 US US10/550,970 patent/US20060195323A1/en not_active Abandoned
- 2004-03-08 DE DE602004022787T patent/DE602004022787D1/de not_active Expired - Fee Related
- 2004-03-08 EP EP04718324A patent/EP1606795B1/fr not_active Expired - Lifetime
- 2004-03-08 ES ES04718324T patent/ES2331698T3/es not_active Expired - Lifetime
- 2004-03-08 WO PCT/FR2004/000546 patent/WO2004088636A1/fr active Application Filing
- 2004-03-08 CN CN200480008025.0A patent/CN1764945B/zh not_active Expired - Lifetime
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008125032A1 (fr) * | 2007-04-11 | 2008-10-23 | Huawei Technologies Co., Ltd. | Procédé, système et serveur de reconnaissance vocale |
CN104769668A (zh) * | 2012-10-04 | 2015-07-08 | 纽昂斯通讯公司 | 改进的用于asr的混合控制器 |
US9886944B2 (en) | 2012-10-04 | 2018-02-06 | Nuance Communications, Inc. | Hybrid controller for ASR |
CN104769668B (zh) * | 2012-10-04 | 2018-10-30 | 纽昂斯通讯公司 | 改进的用于asr的混合控制器 |
CN103474068A (zh) * | 2013-08-19 | 2013-12-25 | 安徽科大讯飞信息科技股份有限公司 | 实现语音命令控制的方法、设备及系统 |
CN103474068B (zh) * | 2013-08-19 | 2016-08-10 | 科大讯飞股份有限公司 | 实现语音命令控制的方法、设备及系统 |
US10971157B2 (en) | 2017-01-11 | 2021-04-06 | Nuance Communications, Inc. | Methods and apparatus for hybrid speech recognition processing |
CN108597522A (zh) * | 2018-05-10 | 2018-09-28 | 北京奇艺世纪科技有限公司 | 一种语音处理方法及装置 |
CN108597522B (zh) * | 2018-05-10 | 2021-10-15 | 北京奇艺世纪科技有限公司 | 一种语音处理方法及装置 |
CN109192207A (zh) * | 2018-09-17 | 2019-01-11 | 顺丰科技有限公司 | 语音通信装置、语音通信方法及系统、设备、存储介质 |
Also Published As
Publication number | Publication date |
---|---|
FR2853127A1 (fr) | 2004-10-01 |
DE602004022787D1 (de) | 2009-10-08 |
WO2004088636A1 (fr) | 2004-10-14 |
ATE441175T1 (de) | 2009-09-15 |
CN1764945B (zh) | 2010-08-25 |
EP1606795B1 (fr) | 2009-08-26 |
ES2331698T3 (es) | 2010-01-13 |
US20060195323A1 (en) | 2006-08-31 |
EP1606795A1 (fr) | 2005-12-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1764945A (zh) | 分布式语音识别系统 | |
CN1764946A (zh) | 分布式语音识别方法 | |
CN110661927B (zh) | 语音交互方法、装置、计算机设备及存储介质 | |
CN1220176C (zh) | 用于一种语音识别设备的训练或适配方法 | |
US20180190279A1 (en) | Content streaming system | |
CN1249667C (zh) | 声控服务 | |
US8332227B2 (en) | System and method for providing network coordinated conversational services | |
CN1722230A (zh) | 语音识别任务的分配及其结果综合 | |
US20060200348A1 (en) | Method and system for voice recognition menu navigation | |
US9236048B2 (en) | Method and device for voice controlling | |
CN110557451A (zh) | 对话交互处理方法、装置、电子设备和存储介质 | |
CN1761959A (zh) | 在移动电话系统中存储和检索多媒体数据和相关注释数据 | |
CN102111483B (zh) | 一种在通话过程中查询信息的方法、装置及移动终端 | |
EP2747077A1 (en) | Voice recognition system, recognition dictionary logging system, and audio model identifier series generation device | |
CN101183525A (zh) | 用于自动语音识别系统的自适应语境 | |
CN205508398U (zh) | 具有云端交互功能的智能机器人 | |
WO2011082340A1 (en) | Method and system for processing multiple speech recognition results from a single utterance | |
CN102292766A (zh) | 用于提供用于语音识别自适应的复合模型的方法、装置和计算机程序产品 | |
JP2006505002A5 (zh) | ||
CN111177338A (zh) | 一种基于上下文的多轮对话方法 | |
JP2014191029A (ja) | 音声認識システムおよび音声認識システムの制御方法 | |
EP1085501B1 (en) | Client-server based speech recognition | |
CN101040549A (zh) | 发送语音和文本消息的电话 | |
CN1217314C (zh) | 由有限的用户圈用语音控制启动可在设备内执行的动作的方法 | |
CN1714390A (zh) | 语音识别设备和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CX01 | Expiry of patent term | ||
CX01 | Expiry of patent term |
Granted publication date: 20100825 |