CN105917405A - 外源性大词汇量模型到基于规则的语音识别的合并 - Google Patents
外源性大词汇量模型到基于规则的语音识别的合并 Download PDFInfo
- Publication number
- CN105917405A CN105917405A CN201580004735.4A CN201580004735A CN105917405A CN 105917405 A CN105917405 A CN 105917405A CN 201580004735 A CN201580004735 A CN 201580004735A CN 105917405 A CN105917405 A CN 105917405A
- Authority
- CN
- China
- Prior art keywords
- rule
- recognition result
- audio stream
- speech recognition
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000004044 response Effects 0.000 claims abstract description 10
- 238000000034 method Methods 0.000 claims description 42
- 238000002372 labelling Methods 0.000 claims description 26
- 230000008878 coupling Effects 0.000 claims description 2
- 238000010168 coupling process Methods 0.000 claims description 2
- 238000005859 coupling reaction Methods 0.000 claims description 2
- 230000001960 triggered effect Effects 0.000 abstract description 3
- 230000000763 evoking effect Effects 0.000 abstract 1
- 238000010348 incorporation Methods 0.000 abstract 1
- 238000003860 storage Methods 0.000 description 24
- 238000010586 diagram Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 13
- 230000015654 memory Effects 0.000 description 12
- 238000004891 communication Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 235000014510 cooky Nutrition 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000005538 encapsulation Methods 0.000 description 1
- 239000012530 fluid Substances 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 210000003127 knee Anatomy 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000003032 molecular docking Methods 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000010454 slate Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000004003 stimulated Raman gain spectroscopy Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/193—Formal grammars, e.g. finite state automata, context free grammars or word networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Telephonic Communication Services (AREA)
Abstract
提供了外源性大词汇量模型到基于规则的语音识别的合并。音频流由本地小词汇量、基于规则的语音识别系统(SVSRS)接收,并被传输至大词汇量的、基于统计模型的语音识别系统(LVSRS)。SVSRS和LVSRS对音频执行识别。如果一部分音频没有被SVSRS识别,则触发这样的规则:将标记插入到识别结果中。将该识别结果发送至LVSRS。如果检测到标记,则对音频的指定的一部分执行识别。LVSRS结果与SVSRS结果进行统一并作为混合响应发送回SVSRS。如果没有触发混合识别规则,则唤起仲裁算法来确定是SVSRS识别还是LVSRS识别具有更小的词语错误率。将所确定的识别作为响应发送至SVSRS。
Description
背景技术
语音识别系统大体上可分为两种类型的系统:利用小词汇量并生成高度精确的结果的基于规则的系统,或者是利用大词汇量并以损失特定精确度为代价而提供识别的宽泛度的开放式的、基于统计的系统。
语音识别已经成为了诸如移动电话、平板计算机、可穿戴设备(例如智能手表等)、便携式媒体播放机等之类的小型设备上的一种有用的工具。用户可利用各种类型的应用来使用语音识别系统,以执行动作、回答问题、做出推荐等。例如,用户可说出命令以启动文本消息应用、说出文本消息、并且接着说出命令以发送该文本消息。这样的设备上的语音识别可能受硬件、软件、和/或处理/存储器能力的限制。从而,较小型的设备可以包括基于规则的语音识别系统,而不包括支持开放式语音的大词汇量模型,这是由于这样的系统可以消耗的存储器和处理能力的量。
大词汇量语音识别系统可以在单独的系统上可用,例如,在远程服务器上。一些小型设备可以依赖基于网络的大词汇量语音识别系统来执行识别,然而,对网络的访问不是总是可用的,而且从计算的角度而言,将大词汇量系统托管在小型设备上可能不可行。
通常,存在结合两种类型的语音识别系统的优点的需求,例如,其中,来自用户的说话话语(utterance)的一部分可以需要以高精度匹配,而话语的另一部分语音可以需要非特定地匹配。本发明是关于这些和其他考虑而做出的。
发明内容
提供了该发明内容以用简化的形式介绍在下文的具体实施方式中所进一步描述的概念的选择。该发明内容不旨在标识所要求保护的主题的关键特征或本质特征,也不旨在作为帮助来确定所要求保护的主题的范围。
本发明的实施例通过提供外源性大词汇量模型到基于规则的语音识别的合并来解决上述和其他问题。可以利用本地设备上的受限的、基于规则识别与远程的、开放式的、基于统计的识别的组合,以传递包含基于设备的规则的特异性以及大语言模型的宽泛度两者的识别结果。
在以下的附图和说明中阐述了一个或多个实施例的细节。通过阅读以下详细说明并查阅相关联的附图,其他特征和优点将会显而易见。应当理解的是,以下的详细说明仅仅是解释性的,而不限制所要求保护的发明。
附图说明
包含在本公开中并构成本公开的一部分的附图示出了本发明的各种实施例。在附图中:
图1是用于提供外源性大词汇量模型到基于规则的语音识别的合并的系统的一个实施例的框图;
图2是示出了小词汇量语音识别系统和大词汇量语音识别系统之间的请求和响应事务的框图;
图3A-3C示出了用于提供外源性大词汇量模型到基于规则的语音识别的合并的方法的流程图;
图4是示出了计算设备的示例物理组件的框图,其中利用所述计算设备可以实践本发明的实施例;
图5A和5B是移动计算设备的简化的框图,其中利用所述移动计算设备可以实践本发明的实施例;以及
图6是其中可以实践本发明的实施例的分布式计算系统的简化的框图。
具体实施方式
本发明的实施例针对于提供外源性大词汇量模型到基于规则的语音识别的合并。设备(例如,移动电话、平板设备等)的用户可以向设备提供音频流。例如,用户可说出命令和/或口述消息。可以由本地设备上的小词汇量的、基于规则的语音识别系统来执行对音频流的识别。根据实施例,还可以将音频流以流式传输至远程大词汇量语音识别系统,以用于使用统计语言模型来进行识别。大词汇量语音识别系统的识别可以与小词汇量的、基于规则的语音识别系统的识别同时进行。
小词汇量的、基于规则的语音识别系统可以包括混合识别规则,其中,当音频的一部分不被小词汇量的、基于规则的语音识别系统识别时,可以触发该混合识别规则。可以将指示未被识别的部分的标记插入到识别结果中。可以将包括任何标记的识别结果发送至大词汇量语音识别系统。在检测到标记之后,可以使用统计语言模型来执行对由标记所指定的一部分音频的识别。大词汇量语音识别系统的结果可以与小词汇量的、基于规则的语音识别系统的结果进行统一,并且作为混合识别响应发送回小词汇量语音识别系统。
实施例还可以包括预先训练以降低词语的识别错误率的仲裁算法。该仲裁算法可操作以确定是使用小词汇量语音识别系统的识别结果、大词汇量语音识别系统的识别结果、还是使用混合识别结果(如果触发了混合识别规则)。根据实施例,所述仲裁算法可以是基于网络的,并且可以在向小词汇量语音识别系统发送识别响应之前被唤起。
以下的详细说明涉及附图。在可能的情况下,在附图和以下的说明中所使用的相同的附图标记指代相同或相似的元素。尽管已经描述了本发明的实施例,但是修改、变型和其他实现也是可能的。例如,可以对在附图中所示出的元素进行替换、增加或修改,并且可以通过对所公开的方法进行替换、重新排序或增加步骤而修改所公开的方法。从而,以下详细说明不对本发明进行限制,而相反,本发明的适当的范围是由所附权利要求所限定的。
现将参考附图来描述各种实施例,其中相同的附图标记表示相同的元素。图1示出了用于提供外源性大词汇量模型到基于规则的语音识别的合并的系统100的框图。系统100包括设备110,其包括小词汇量语音识别系统115。设备110可以是在下文中参考图4到图6所描述的多种合适的计算设备中的一种。例如,设备110可以包括平板计算机设备、台式计算机、移动通信设备、膝上型计算机、膝上型/平板混合计算设备、游戏设备、媒体播放设备、或者用于执行用来执行多种任务的应用的计算设备。
根据实施例,小词汇量语音识别系统(SVSRS)115可以包括识别器125和基于规则的语法120。根据实施例,当用户105向设备110说出话语时,SVSRS 115可以接收音频160以供基于规则的语音识别。可以由SVSRS115使用在设备110上所建立(author)的识别规则(基于规则的语法120)来执行音频的识别。根据实施例,可以使用例如XML格式(以语音识别语法规范(SRGS)的格式)来建立基于规则的语法120。基于规则的语法120可以包括混合识别规则122。
根据实施例,可以将音频160同时传输至大词汇量语音识别系统(LVSRS)145。LVSRS 145可以包括识别器155和开放式的统计语言模型150,所述模型150用于执行开放式的基于统计的识别。根据一个实施例,LVSRS 145可以是基于本地的。根据另一实施例并如图1中所示,LVSRS145可以是云托管的并且作为服务来提供。例如,LVSRS 145可以通过诸如内联网、外联网、或互联网等之类的网络140而通信地连接至服务器设备130(或多个服务器设备)。
现在参考图2,示出了SVSRS 115和LVSRS 145之间的请求和响应事务200的框图。如在上文中所述的,话语或音频160可以由SVSRS 115来接收,并且被流式传输至LVSRS 145以供同时识别。当SVSRS 115执行其基于规则的识别时,识别系统可以对规则的序列进行匹配。可以将SVSRS匹配规则的识别结果215插入到识别结果210中、将识别结果210序列化并且发送以作为对LVSRS 145的请求230。
例如,考虑到用户105发出诸如“呼叫Bob”之类的陈述。话语(音频160)可以容易地由SVSRS 115的基于规则的语法所识别。从而,SVSRS识别结果210可以包括话语“呼叫Bob”的转录(SVSRS匹配规则的识别结果215)。
如果一部分音频与规则不相匹配,则可以触发混合识别规则122,并且将占位符(在本文中被称为混合识别规则标记220)插入到识别结果210中。可以针对单个音频流160而多次触发混合识别规则122。从而,识别结果210可以包括多个混合识别规则标记220A-N、以及多个SVSRS匹配规则的识别结果215A-N。
例如,如果用户发出诸如“发消息告诉Bob我可能会晚一点,并提醒我买一些饼干”之类的陈述。则可以由SVSRS 115的基于规则的语法而识别出话语的一部分。例如,SVSRS 115可以能够识别出“发消息告诉Bob”和“提醒我”;然而音频160的其他部分(“我可能会晚一点”和“买一些饼干”)可能未由SVSRS 115所识别。从而,“发消息告诉Bob”可以作为SVSRS识别结果210中的第一SVSRS匹配规则的识别结果215A而被识别和提供。“我可能会晚一点”可能不被识别,并且因此可以触发混合识别规则122。结果是,可以将第一混合识别规则标记220A插入到SVSRS识别结果210中。“提醒我”可以作为SVSRS识别结果210中的第二SVSRS匹配规则的识别结果215B而被识别和提供。“买一些饼干”可能不被识别,并且可以再次触发混合识别规则122,并且可以将第二混合识别规则标记220B插入到SVSRS识别结果210中。
可以作为对LVSRS 145的请求230的一部分而构建并序列化包括任何SVSRS匹配规则的识别结果215和任何混合识别规则标记220的SVSRS识别结果210。请求230还可以包括音频160和诸如客户端上下文、连接信息等的元数据225。根据实施例,在SVSRS 115已完成其本地识别后,SVSRS识别结果210可以作为完整的识别结果(包括SVSRS匹配规则的识别结果215和混合识别规则标记220)来发送。根据另一个实施例,当用户105说话时,可以将中间SVSRS识别结果序列化并发送。
根据实施例,SVSRS识别结果210可以包括与音频160中匹配规则的部分相关联的置信度等级。以下示例是包括针对话语“发信息告诉Sam下班后我需要去商店(text Sam that I need to run to the store after work)”的置信度等级的样例识别语句(SVSRS识别结果210)。
示例:SVSRS识别结果
可以由LVSRS145接收请求230并将其去序列化。LVSRS 145可解析SVSRS识别结果210,并且判断其是否包括任何混合识别规则标记220。例如,混合识别规则标记220可以是如上文的示例中所示出的诸如“…”等之类标记。如果SVSRS识别结果210包括混合识别规则标记220,则LVSRS145可以取消其与SVSRS识别同时开始的识别,并且使用所接收到的SVSRS识别结果210作为模板来重新开始识别。LVSRS 145可以对由混合识别规则标记220所指定的音频160的一部分执行开放式、基于统计的识别。
LVSRS 145的结果(在本文中被称为LVSRS识别结果235)可以与SVSRS匹配规则的识别结果215拼在一起。可以将LVSRS识别结果和SVSRS识别结果的组合(在本文中被称为混合识别结果)240序列化并发送以作为对SVSRS 115的响应。
图3A-3C示出了用于提供外源性大词汇量模型到基于规则的语音识别的合并的方法300的一个实施例。图3A和3C示出了SVSRS 115的过程,图3B示出了LVSRS 145的过程。现在参考图3A,方法300开始于操作302并继续至操作304,其中在操作304处接收到音频160。例如,用户105可以在他/她的设备110上启动语音识别功能来执行任务(例如,创建文本消息、执行互联网搜索、将笔记转录到笔记应用中等)。用户105可以向设备110中说出话语(例如,命令或陈述)。
方法300可以从操作304继续至操作306,其中在操作306处,由SVSRS115使用在设备110上所建立的识别规则(基于规则的语法120)来执行识别,并且还可以可选地继续至操作305,其中在操作305处,将音频160发送至LVSRS 145以供识别。例如,可以同时由SVSRS 115和LVSRS 145来识别音频160。该方法可以从操作305继续至操作313,这将参考图3B进行描述。
当在操作306处执行识别时,可以在决策操作308处确定是否触发混合识别规则122。如上所述,在基于规则的识别过程期间,可以由识别系统将规则序列与音频160进行匹配。如果音频160的一部分与规则不相匹配,则触发混合识别规则122。
如果触发了混合识别规则122,则方法300可以继续至操作310,其中在操作310处,可以将混合识别规则标记220插入到识别结果210中。如果不触发混合识别规则122,或者在将一个或多个混合识别规则标记220插入到SVSRS识别结果210中之后,方法300可以接着继续至操作312。
在操作312处,可以将可以包括SVSRS匹配规则的识别结果215和/或混合识别规则标记220的SVSRS识别结果210序列化并发送以作为对LVSRS 145的请求230。请求230可还包括音频160和元数据225。如上所述,在SVSRS 115已经完成其本地识别后,SVSRS识别结果210可以作为完整的识别结果(包括SVSRS匹配规则的识别结果215和混合识别规则标记220)来发送,或者当用户105说话时可以作为中间SVSRS识别结果来发送。
现在参考图3B,如果音频160被发送到LVSRS 145以供同时识别(操作305),则方法300可以继续至操作313,其中在操作313处,当SVSRS 115对音频160执行其基于规则的识别时,可以由LVSRS 145对音频160执行开放式的、基于统计的识别。
方法300可以从操作312(图3A)继续至操作314,并且可选地从操作313继续至操作314,其中在操作314处,可以由LVSRS 145接收请求230(即,音频160、SVSRS识别结果210、以及元数据225)并将其去序列化。
方法300可以从操作314继续至决策操作316,其中在316处,可以对SVSRS识别结果210进行分析,并且可以进行关于识别结果210是否包括一个或多个混合识别规则标记220的确定。
如果在决策操作316处确定SVSRS识别结果210包括一个或多个混合识别规则标记220,则方法300可以继续至操作317,其中在操作317处,如果已经由LVSRS 145识别出音频160(操作313),则LVSRS 145可以取消识别。
方法300可以继续至操作318,其中,LVSRS 145可以对由SVSRS识别结果210中的一个或多个混合识别规则标记220所指定的音频160的部分执行开放式的、基于统计的识别。
在操作320处,可以将LVSRS 145识别结果235A-N与SVSRS匹配规则的识别结果215A-N进行组合,并且可以创建混合识别结果240。
方法300可选地从操作320或者从决策操作316(如果确定SVSRS识别结果210不包含混合识别规则标记220)继续至操作322,其中在操作322处应用仲裁算法。如上所述,仲裁算法是一种预先训练以降低词语的识别错误率的算法。
在决策操作324处,基于预先定义的特征,确定是SVSRS识别结果210、是LVSRS识别结果235、还是混合识别结果240(如果触发了混合识别规则122)具有更高的识别质量。如果SVSRS识别结果210包括混合识别规则标记220,则混合识别结果240可以自动被选择、被序列化、并被发送至SVSRS 115(操作330)。
如果SVSRS识别结果210不包括混合识别规则标记220,并且如果在决策操作324处确定SVSRS识别结果210具有比LVSRS识别结果235更高的识别质量,则方法300可以继续至操作326,其中在操作326处,可以将SVSRS识别结果210序列化并发送至SVSRS 115。
如果SVSRS识别结果210不包含混合识别规则标记220,并且如果在决策操作324处确定LVSRS识别结果235具有比SVSRS识别结果210更高的识别质量,则方法300可以继续至操作328,其中在操作328处,可以将LVSRS识别结果235序列化并发送至SVSRS 115。方法300可以继续至操作332(图3C)。
现在参考图3C,方法300可以从操作326、328或330的一个中继续至操作332,其中在操作322处,可以接收响应(其可以是SVSRS识别结果210、LVSRS识别结果235、或混合识别结果240)并将其去序列化。
在操作334处,可以产生最终结果并将其应用至针对其而启动语音识别功能的任务(例如,创建文本消息、执行互联网搜索、将笔记转录到笔记应用中等)。方法300可以在操作398处结束。
尽管已经在结合在计算机的操作系统上运行的应用程序而执行的程序模块的一般性上下文中描述了本发明,但本领域技术人员应当理解的是,也可以结合其他程序模块来实现本发明。通常而言,程序模块包括例程、程序、组件、数据结构、和执行特定任务或实现特定的抽象数据类型的其他类型的结构。
在本文中所描述的实施例和功能可以经由多个计算系统来操作,所述计算系统包括但不限于:台式计算机系统、有线和无线计算系统、移动计算系统(例如,移动电话、上网本、平板(tablet or slate)类计算机、笔记本计算机、以及膝上型计算机)、手持设备、多处理器系统、基于微处理器的或可编程的消费型电子产品、小型计算机、以及大型计算机。
另外,在本文中所描述的实施例和功能可以通过分布式系统(例如,基于云的计算系统)来操作,其中,可以通过诸如互联网或内联网之类的分布式计算网络而彼此远离地对应用功能、存储器、数据存储和检索、以及各种处理功能进行操作。可以经由板载计算设备显示器或经由与一个或多个计算设备相关联的远程显示单元来显示用户界面和各种类型的信息。例如,可以在其上投影有用户界面和各种类型的信息的墙面上来显示用户界面和各种类型的信息,并与其进行交互。与利用其可以实践本发明的实施例的多个计算系统的交互包括:击键输入、触摸屏输入、语音或其他音频输入、手势输入(在相关联的计算设备装备有用于捕获和解译用于控制计算设备的功能的用户手势的检测(例如,相机)功能的情况下)等。
图4-6及相关联的说明提供了对其中可以实践本发明实施例的多种操作环境的讨论。然而,关于图4-6示出并讨论的设备和系统是出于示例和说明的目的的,而不限于在本文中所描述的、可以利用以实践本发明的实施例的大量的计算设备的配置。
图4示出了可以利用其实践本发明的实施例的计算设备400的物理组件(即,硬件)的框图。以下所描述的计算设备的组件可以适用于在上文中所描述的设备110和/或服务器130。在基本配置中,计算设备400可以包括至少一个处理单元402和系统存储器404。取决于计算设备的配置和类型,系统存储器404可以包括但不限于:易失性存储器(例如,随机存取存储器)、非易失性存储器(例如,只读存储器)、闪速存储器、或者这样的存储器的任何组合。系统存储器404可以包括操作系统405以及适用于运行软件应用420(例如,SVSRS 115)的一个或多个程序模块406。例如,操作系统405可以适用于控制计算设备400的操作。此外,本发明的实施例可以结合图形库、其他操作系统、或者任何其他应用程序来实践,并且不限于任何特定的应用程序或系统。在图4中由虚线408内的那些部件示出了该基本配置。计算设备400可以具有额外的特征或功能。例如,计算设备400还可以包括额外的数据存储设备(可移动的和/或不可移动的),例如磁盘、光盘或磁带。在图4中由可移动存储设备409和不可移动存储设备410示出了这样的额外的存储设备。
如上所述,可以将多个程序模块和数据文件存储在系统存储器404中。当在处理单元402上执行时,程序模块406可以执行包括但不限于在图3A-C中所示出的方法300的一个或多个阶段。根据本发明的实施例可以使用的其他程序模块可以包括以下的应用程序,例如电子邮件和联系人应用程序、文字处理应用程序、电子表格应用程序、数据库应用程序、幻灯片演示应用程序、绘图或计算机辅助应用程序等。
此外,可以在包括分立的电子元件的电气电路、包含逻辑门的封装或集成电子芯片、利用微处理器的电路、或包含电子元件或微处理器的单片机上实践本发明的实施例。例如,可经由片上系统(SOC)来实践本发明的实施例,其中在片上系统中,在图4中所示出的组件中的每个或许多个都可以被集成到单个集成电路上。这样的SOC器件可以包括一个或多个处理单元、图形单元、通信单元、系统虚拟化单元、以及各种应用功能,其全部都作为单集成电路而集成(或“烧”)到芯片基板上。当经由SOC进行操作时,可以经由在单个集成电路(芯片)上与计算设备400的其他组件集成的专用逻辑,来对在本文中所描述的、将外源性大词汇量模型150到基于规则的语音识别的合并进行操作。例如,还可以使用能够执行逻辑操作(例如,AND、OR和NOT)的其他技术来实践本发明的实施例,所述其它技术包括但不限于机械、光学、流体、和量子技术。另外,可以在通用计算机内或在任何其他电路或系统中实践本发明的实施例。
计算设备400还可以具有一个或多个输入设备412,例如键盘、鼠标、笔、声音输入设备、触摸输入设备等。还可以包括输出设备414,例如显示器、扬声器、打印机等。前述设备是示例,并且也可以使用其他设备。计算设备400可以包括允许与其他计算设备418进行通信的一个或多个通信连接416。合适的通信连接416的示例包括但不限于:RF发射机、接收机和/或收发机电路;通用串行总线(USB)、并行和/或串行端口。
如在本文中所使用的术语“计算机可读介质”可以包括计算机存储介质。计算机存储介质可以包括以用于存储诸如计算机可读指令、数据结构、程序模块之类的信息的任何方法或技术来实现的易失性和非易失性、可移动和不可移动的介质。系统存储器404、可移动存储设备409、和不可移动存储设备410全都是计算机存储介质的示例(即,存储器存储)。计算机存储介质可以包括:RAM、ROM、电可擦除只读存储器(EEPROM)、闪速存储器或其他存储器技术、CD-ROM、数字通用盘(DVD)或其他光存储、盒式磁带、磁带、磁盘存储器或其他磁存储设备、或者可以用于存储信息并且可以由计算设备400所访问的任何其他制造物。任何这样的计算机存储介质都可以是计算设备400的一部分。计算机存储介质不包括载波或其他传播的或经调制的数据信号。
通信介质可以通过计算机可读指令、数据结构、程序模块、或者诸如载波或其他传输机制等之类的经调制的数据信号中的其他数据来实施,并且包括任何信息传递介质。术语“经调制的数据信号”可以描述具有以对信号中的信息进行编码的方式设置或改变的一个或多个特征的信号。作为示例而非限制,通信介质可以包括有线介质(例如,有线网络或直接有线连接)和无线介质(例如,声学、射频(RF)、红外和其他无线介质)。
图5A和5B示出了可以利用其实践本发明的实施例的移动计算设备500,例如,移动电话、智能电话、平板个人计算机、膝上型计算机等。参考图5A,示出了用于实现实施例的移动计算设备500的一个实施例。在基本配置中,移动计算设备500是既具有输入元件又具有输出元件的手持式计算机。移动计算设备500通常包括显示器505和允许用户将信息输入到移动计算设备500中的一个或多个输入按钮510。移动计算设备500的显示器505也可以充当输入设备(例如,触摸屏显示器)。如果被包括,则可选的侧输入元件515允许进一步的用户输入。侧输入元件515可以是旋转开关、按钮或任何其他类型的手动输入元件。在可替代的实施例中,移动计算设备500可以包含更多或更少的输入元件。例如,在一些实施例中,显示器505可以不是触摸屏。在另一个可替代的实施例中,移动计算设备500是便携式电话系统,例如蜂窝电话。移动计算设备500还可以包括可选的小键盘535。可选的小键盘535可以是物理小键盘或者在触摸屏显示器上生成的“软”小键盘。在各种实施例中,输出元件包括用于示出图形用户界面(GUI)的显示器505、视觉指示器520(例如,发光二极管)、和/或音频换能器525(例如,扬声器)。在一些实施例中,移动计算设备500包含用于给用户提供触觉反馈的振动换能器。在另一个实施例中,移动计算设备500包含用于向外部设备发送信号或从外部设备中接收信号的输入和/或输出端口,例如音频输入(例如,麦克风插孔)、音频输出(例如,耳机插孔)、和视频输出(例如,HDMI端口)。
图5B是示出了移动计算设备的一个实施例的架构的框图。即,移动计算设备500可以包括用于实现一些实施例的系统(即,架构)502。在一个实施例中,系统502被实现为能够运行一个或多个应用(例如,浏览器、电子邮件、日历、联系人管理器、消息发送客户端、游戏、和媒体客户端/播放器)的“智能电话”。在一些实施例中,系统502被集成为计算设备,例如集成的个人数字助理(PDA)和无线电话。
一个或多个应用程序520可以被载入到存储器562中,并且在操作系统564上运行或者与操作系统564相关联。应用程序的示例包括:电话拨号程序、电子邮件程序、个人信息管理(PIM)程序、文字处理程序、电子表格程序、互联网浏览器程序、消息发送程序等。SVSRS 115也可以被载入到存储器562中,并且在操作系统564上运行或者与操作系统564相关联。系统502还包括存储器562内的非易失性存储区域568。非易失性存储区域568可以用于存储在系统502断电时不应丢失的永久信息。应用程序520可以使用信息并将信息存储在非易失性存储区域568中,例如电子邮件应用程序所使用的电子邮件或其他消息等。同步应用(未示出)也驻留在系统502上,并且被编程为与驻留在主机计算机上的对应的同步应用进行交互,以保持存储在非易失性存储区域568中的信息与存储在主机计算机上的对应的信息进行同步。应当理解的是,其他应用可以被加载到存储器562中并且在移动计算设备500上运行。
系统502具有电源570,其可以被实现为一个或多个电池。电源570还可以包括外部电源,例如,AC适配器或者对电池供电或充电的加电对接托架。
系统502还可以包括执行发送和接收射频通信的功能的无线电设备572。无线电设备572可以经由通信运营商或服务提供商来促成系统502和“外部世界”之间的无线连通性。到无线电设备572和来自无线电设备572的传输是在操作系统564的控制下进行的。换句话说,由无线电设备572所接收到的通信可以经由操作系统564散播至应用程序520,反之亦然。
视觉指示器520可以用于提供视觉通知和/或音频接口574可以用于经由音频换能器525来产生可听见的通知。在所示出的实施例中,视觉指示器520是发光二极管(LED),而音频换能器525是扬声器。这些设备可以直接耦合至电源570,使得当被激活时,即使为了保存电池电量可以关闭处理器560和其他组件,它们也保持通电持续由通知机制所规定的一段时间。LED可以被编程为保持无限期地通电以指示设备的通电状态,直到用户采取动作为止。音频接口574用于向用户提供可听见的信号并从用户处接收可听见的信号。例如,除了耦合至音频换能器525之外,音频接口574还可以耦合至麦克风以接收可听见的输入,从而例如促成电话交谈。根据本发明的实施例,麦克风也可以充当音频传感器以促进对通知的控制,如将在下文中所描述的。系统502还可以包括使能够操作板载相机530来记录静止的图像、视频流等的视频接口576。
实现系统502的移动计算设备500可以具有额外的特征或功能。例如,移动计算设备500还可以包括其他的数据存储设备(可移动的和/或不可移动的),例如,磁盘、光盘、或磁带。在图5B中由非易失性存储区域568示出了这样额外的存储。
由移动计算设备500所生成或捕获的、并且经由系统502所存储的数据/信息可以本地地存储在移动计算设备500上,如上所述,或者所述数据可以存储在可以由设备通过无线电设备572或者经由移动计算设备500和与移动计算设备500相关联的分离的计算设备之间的有线连接来访问的任何数量的存储介质中,例如,分布式计算网络(例如,互联网)中的服务器计算机。应当理解的是,这样的数据/信息可以通过移动计算设备500经由无线电设备572或者经由分布式计算网络来访问。类似地,这样的数据/信息可以根据公知的数据/信息传输和存储单元(包括电子邮件和协作数据/信息共享系统)容易地在计算设备之间进行存储和使用。
图6示出了用于提供外源性大词汇量模型150到基于规则的语音识别的合并的系统的架构一个实施例,如上所述。与LVSRS 145相关联地开发、交互、或编辑的内容可以存储在不同的通信信道中或其他存储器类型中。例如,可以使用目录服务622、门户网站624、邮箱服务626、即时消息存储628、或社交网站630来存储各种文件。LVSRS 145可以使用这些类型的系统中的任何一个等以提供外源性大词汇量模型150到基于规则的语音识别的合并,如本文所述。服务器130可以向客户端提供LVSRS 145。作为一个示例,服务器130可以是在网络上提供LVSRS 145的网络服务器。服务器130可以通过网络140在网络上提供LVSRS 145。作为示例,客户端计算设备可以在个人计算机605A、平板计算设备605B、和/或移动计算设备605C(例如,智能手机)、或者其他计算设备中实现或实施。客户端计算设备的任何这些实施例可以从商店616获取内容。
例如,在上文中参考根据本发明的实施例的方法、系统、和计算机程序产品的框图和/或操作说明而描述了本发明的实施例。在框图中所注的功能/动作可不按照在任何流程图中所示的顺序发生。例如,取决于所涉及的功能/动作,连续示出的两个框实际上可以大致同时执行,或者这两个框有时可以以相反的顺序执行。
该申请中所提供的对一个或多个实施例的描述和说明不旨在以任何方式对所要求保护的发明的范围进行限制或约束。在该申请中所提供的实施例、示例、和细节被认为足以表达所有权,并且使得他人能够制造并使用所要求保护的发明的最佳模式。所要求保护的发明不应该被解释为限于在该申请中所提供的任何实施例、示例、或细节。无论是组合还是单独地被示出和描述,各种特征(包括结构和方法)都旨在被选择性地包括或省略,以产生具有一组特定特征的实施例。在已经提供了本申请的描述和说明之后,本领域技术人员可设想变型、修改和替代实施例,其落入到在该申请中所实施的总体构思的更宽泛的方面的精神内,而不脱离所要求保护的发明的更宽泛的范围。
Claims (10)
1.一种用于提供语音识别的方法,所述方法包括:
接收音频流;
对所述音频流执行基于规则的语音识别,以产生识别结果;
如果所述音频流的一部分被识别,则将所述音频流的匹配规则的一部分插入到所述识别结果中;
如果所述音频流的一部分没有被识别,则在所述识别结果中指定所述音频流的没有被识别的一部分;以及
将所述识别结果发送至基于统计的语音识别系统,以对所述音频流的所述没有被识别的一部分应用基于统计的识别。
2.根据权利要求1所述的方法,还包括将所述音频流和元数据发送至所述基于统计的语音识别系统。
3.根据权利要求1所述的方法,还包括接收响应,所述响应包括所述音频流的所述匹配规则的一部分和第二识别结果。
4.一种用于提供外源性基于统计的语音识别系统到基于规则的语音识别的合并的系统,所述系统包括:
一个或多个处理器;以及
耦合至所述一个或多个处理器的存储器,所述一个或多个处理器可操作以:
接收音频流;
对所述音频流执行基于规则的语音识别,以产生识别结果;
如果所述音频流的一部分与规则相匹配,则将所述音频流的匹配规则的一部分插入到所述识别结果中;
如果所述音频流的一部分与规则不相匹配,则在所述识别结果中指定与规则不相匹配的所述音频流的所述一部分;以及
将所述识别结果发送至基于统计的语音识别系统,以对与规则不相匹配的所述音频流的所述一部分应用基于统计的识别。
5.一种用于提供外源性基于统计的语音识别系统到基于规则的语音识别的合并的方法,所述方法包括:
接收音频流;
接收第一识别结果;
确定所述第一识别结果是否指定了没有被基于规则的语音识别系统识别的所述音频流的一部分;
如果所述第一识别结果指定了没有被基于规则的语音识别系统所识别的所述音频流的一部分,则对所述音频流的所指定的部分执行基于统计的识别,以产生第二识别结果;
将所述第二识别结果与所述第一识别结果进行组合;并且
将组合的识别结果发送至所述基于规则的语音识别系统。
6.根据权利要求5所述的方法,其中,所述第一识别结果包括指定没有被所述基于规则的语音识别系统所识别的所述音频流的所述一部分的标记,并且将所述第二识别结果与所述第一识别结果进行组合包括用所述第二识别结果来替换指定没有被所述基于规则的语音识别系统所识别的所述音频流所述一部分的所述标记。
7.根据权利要求5所述的方法,其中,在接收第一识别结果之前,对所述音频流执行基于统计的识别。
8.根据权利要求7所述的方法,其中,如果所述第一识别结果指定没有被基于规则的语音识别系统所识别的所述音频流的一部分,则:
取消对所述音频流执行所述基于统计的识别;并且
对所述音频流的所指定的一部分执行基于统计的识别。
9.根据权利要求5所述的方法,还包括:
如果所述第一识别结果没有指定没有被所述基于规则的语音识别系统所识别的所述音频流的一部分,则:
对所述音频流执行基于统计的识别;
分析对所述音频流的基于统计的识别的结果和所述第一识别结果;
确定是对所述音频流的基于统计的识别的所述结果、还是所述第一识别结果具有更高的识别质量;并且
将具有更好的识别质量的识别结果发送至所述基于规则的语音识别系统。
10.一种用于提供语音识别的系统,所述系统包括:
一个或多个处理器;以及
耦合至所述一个或多个处理器的存储器,所述一个或多个处理器可操作以:
接收音频流;
接收第一识别结果;
确定所述第一识别结果是否指定没有被基于规则的语音识别系统所识别的所述音频流的一部分;
如果所述第一识别结果指定没有被所述基于规则的语音识别系统所识别的所述音频流的一部分,则对所述音频流的所指定的部分执行基于统计的识别,以产生第二识别结果;
将所述第二识别结果与所述第一识别结果进行组合;并且
将组合的识别结果发送至所述基于规则的语音识别系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910993287.5A CN110706711B (zh) | 2014-01-17 | 2015-01-12 | 外源性大词汇量模型到基于规则的语音识别的合并 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/158,147 US9601108B2 (en) | 2014-01-17 | 2014-01-17 | Incorporating an exogenous large-vocabulary model into rule-based speech recognition |
US14/158,147 | 2014-01-17 | ||
PCT/US2015/010943 WO2015108792A1 (en) | 2014-01-17 | 2015-01-12 | Incorporating an exogenous large-vocabulary model into rule-based speech recognition |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910993287.5A Division CN110706711B (zh) | 2014-01-17 | 2015-01-12 | 外源性大词汇量模型到基于规则的语音识别的合并 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105917405A true CN105917405A (zh) | 2016-08-31 |
CN105917405B CN105917405B (zh) | 2019-11-05 |
Family
ID=52395260
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910993287.5A Active CN110706711B (zh) | 2014-01-17 | 2015-01-12 | 外源性大词汇量模型到基于规则的语音识别的合并 |
CN201580004735.4A Active CN105917405B (zh) | 2014-01-17 | 2015-01-12 | 外源性大词汇量模型到基于规则的语音识别的合并 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910993287.5A Active CN110706711B (zh) | 2014-01-17 | 2015-01-12 | 外源性大词汇量模型到基于规则的语音识别的合并 |
Country Status (4)
Country | Link |
---|---|
US (2) | US9601108B2 (zh) |
EP (1) | EP3095115B1 (zh) |
CN (2) | CN110706711B (zh) |
WO (1) | WO2015108792A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115298737A (zh) * | 2020-03-19 | 2022-11-04 | 日产自动车株式会社 | 语音识别装置和语音识别方法 |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2851896A1 (en) | 2013-09-19 | 2015-03-25 | Maluuba Inc. | Speech recognition using phoneme matching |
US9601108B2 (en) * | 2014-01-17 | 2017-03-21 | Microsoft Technology Licensing, Llc | Incorporating an exogenous large-vocabulary model into rule-based speech recognition |
US10749989B2 (en) | 2014-04-01 | 2020-08-18 | Microsoft Technology Licensing Llc | Hybrid client/server architecture for parallel processing |
US20160162469A1 (en) * | 2014-10-23 | 2016-06-09 | Audience, Inc. | Dynamic Local ASR Vocabulary |
US9820042B1 (en) | 2016-05-02 | 2017-11-14 | Knowles Electronics, Llc | Stereo separation and directional suppression with omni-directional microphones |
US10971157B2 (en) | 2017-01-11 | 2021-04-06 | Nuance Communications, Inc. | Methods and apparatus for hybrid speech recognition processing |
US11170762B2 (en) | 2018-01-04 | 2021-11-09 | Google Llc | Learning offline voice commands based on usage of online voice commands |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1317783A (zh) * | 2000-04-07 | 2001-10-17 | 国际商业机器公司 | 语音识别系统中确定非目标语言的方法和装置 |
CN102760431A (zh) * | 2012-07-12 | 2012-10-31 | 上海语联信息技术有限公司 | 智能化的语音识别系统 |
US20130028443A1 (en) * | 2011-07-28 | 2013-01-31 | Apple Inc. | Devices with enhanced audio |
CN103165130A (zh) * | 2013-02-06 | 2013-06-19 | 湘潭安道致胜信息科技有限公司 | 语音文本匹配云系统 |
US20130337853A1 (en) * | 2012-06-19 | 2013-12-19 | Talkler Labs, LLC | System and method for interacting with a mobile communication device |
CN103491429A (zh) * | 2013-09-04 | 2014-01-01 | 张家港保税区润桐电子技术研发有限公司 | 一种音频处理方法和音频处理设备 |
Family Cites Families (83)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5715468A (en) | 1994-09-30 | 1998-02-03 | Budzinski; Robert Lucius | Memory system for storing and retrieving experience and knowledge with natural language |
US7174299B2 (en) * | 1995-08-18 | 2007-02-06 | Canon Kabushiki Kaisha | Speech recognition system, speech recognition apparatus, and speech recognition method |
US5799279A (en) | 1995-11-13 | 1998-08-25 | Dragon Systems, Inc. | Continuous speech recognition of text and commands |
JP3027543B2 (ja) | 1996-12-11 | 2000-04-04 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 連続音声認識装置 |
US6839669B1 (en) | 1998-11-05 | 2005-01-04 | Scansoft, Inc. | Performing actions identified in recognized speech |
US6523061B1 (en) | 1999-01-05 | 2003-02-18 | Sri International, Inc. | System, method, and article of manufacture for agent-based navigation in a speech-based data navigation system |
EP1088299A2 (en) * | 1999-03-26 | 2001-04-04 | Scansoft, Inc. | Client-server speech recognition |
JP3636941B2 (ja) | 1999-07-19 | 2005-04-06 | 松下電器産業株式会社 | 情報検索方法と情報検索装置 |
US6601026B2 (en) | 1999-09-17 | 2003-07-29 | Discern Communications, Inc. | Information retrieval by natural language querying |
US6963759B1 (en) | 1999-10-05 | 2005-11-08 | Fastmobile, Inc. | Speech recognition technique based on local interrupt detection |
CN1315721A (zh) | 2000-03-23 | 2001-10-03 | 韦尔博泰克有限公司 | 客户服务器语音信息传送系统与方法 |
US6473734B1 (en) * | 2000-03-27 | 2002-10-29 | Motorola, Inc. | Methodology for the use of verbal proxies for dynamic vocabulary additions in speech interfaces |
US7747782B2 (en) | 2000-04-26 | 2010-06-29 | Novarra, Inc. | System and method for providing and displaying information content |
DE60016722T2 (de) | 2000-06-07 | 2005-12-15 | Sony International (Europe) Gmbh | Spracherkennung in zwei Durchgängen mit Restriktion des aktiven Vokabulars |
JP4240807B2 (ja) | 2000-12-25 | 2009-03-18 | 日本電気株式会社 | 移動通信端末装置、音声認識方法、およびそのプログラムを記録した記録媒体 |
FR2820872B1 (fr) | 2001-02-13 | 2003-05-16 | Thomson Multimedia Sa | Procede, module, dispositif et serveur de reconnaissance vocale |
US6738743B2 (en) | 2001-03-28 | 2004-05-18 | Intel Corporation | Unified client-server distributed architectures for spoken dialogue systems |
WO2002103675A1 (en) | 2001-06-19 | 2002-12-27 | Intel Corporation | Client-server based distributed speech recognition system architecture |
US7668718B2 (en) * | 2001-07-17 | 2010-02-23 | Custom Speech Usa, Inc. | Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile |
US7013275B2 (en) | 2001-12-28 | 2006-03-14 | Sri International | Method and apparatus for providing a dynamic speech-driven control and remote service access system |
US6898567B2 (en) * | 2001-12-29 | 2005-05-24 | Motorola, Inc. | Method and apparatus for multi-level distributed speech recognition |
US20030125869A1 (en) | 2002-01-02 | 2003-07-03 | International Business Machines Corporation | Method and apparatus for creating a geographically limited vocabulary for a speech recognition system |
US7177814B2 (en) | 2002-02-07 | 2007-02-13 | Sap Aktiengesellschaft | Dynamic grammar for voice-enabled applications |
US7292689B2 (en) | 2002-03-15 | 2007-11-06 | Intellisist, Inc. | System and method for providing a message-based communications infrastructure for automated call center operation |
US20030233237A1 (en) | 2002-06-17 | 2003-12-18 | Microsoft Corporation | Integration of speech and stylus input to provide an efficient natural input experience |
US7584102B2 (en) | 2002-11-15 | 2009-09-01 | Scansoft, Inc. | Language model for use in speech recognition |
US7401132B1 (en) | 2002-12-20 | 2008-07-15 | Symantec Operating Corporation | Method and system for creating a peer-to-peer overlay network |
US7603267B2 (en) | 2003-05-01 | 2009-10-13 | Microsoft Corporation | Rules-based grammar for slots and statistical model for preterminals in natural language understanding system |
US7624018B2 (en) | 2004-03-12 | 2009-11-24 | Microsoft Corporation | Speech recognition using categories and speech prefixing |
GB0513820D0 (en) | 2005-07-06 | 2005-08-10 | Ibm | Distributed voice recognition system and method |
US7542904B2 (en) * | 2005-08-19 | 2009-06-02 | Cisco Technology, Inc. | System and method for maintaining a speech-recognition grammar |
US20070043687A1 (en) | 2005-08-19 | 2007-02-22 | Accenture Llp | Virtual assistant |
US20070067305A1 (en) | 2005-09-21 | 2007-03-22 | Stephen Ives | Display of search results on mobile device browser with background process |
US20070276651A1 (en) | 2006-05-23 | 2007-11-29 | Motorola, Inc. | Grammar adaptation through cooperative client and server based speech recognition |
DE102006029755A1 (de) | 2006-06-27 | 2008-01-03 | Deutsche Telekom Ag | Verfahren und Vorrichtung zur natürlichsprachlichen Erkennung einer Sprachäußerung |
US7873620B2 (en) | 2006-06-29 | 2011-01-18 | Microsoft Corporation | Desktop search from mobile device |
US7957972B2 (en) | 2006-09-05 | 2011-06-07 | Fortemedia, Inc. | Voice recognition system and method thereof |
US8190431B2 (en) * | 2006-09-25 | 2012-05-29 | Verizon Patent And Licensing Inc. | Method and system for providing speech recognition |
US20080154870A1 (en) * | 2006-12-26 | 2008-06-26 | Voice Signal Technologies, Inc. | Collection and use of side information in voice-mediated mobile search |
US8949130B2 (en) * | 2007-03-07 | 2015-02-03 | Vlingo Corporation | Internal and external speech recognition use with a mobile communication facility |
US8620658B2 (en) | 2007-04-16 | 2013-12-31 | Sony Corporation | Voice chat system, information processing apparatus, speech recognition method, keyword data electrode detection method, and program for speech recognition |
JP4887264B2 (ja) * | 2007-11-21 | 2012-02-29 | 株式会社日立製作所 | 音声データ検索システム |
US20090177462A1 (en) * | 2008-01-03 | 2009-07-09 | Sony Ericsson Mobile Communications Ab | Wireless terminals, language translation servers, and methods for translating speech between languages |
US8589161B2 (en) | 2008-05-27 | 2013-11-19 | Voicebox Technologies, Inc. | System and method for an integrated, multi-modal, multi-device natural language voice services environment |
US8364481B2 (en) | 2008-07-02 | 2013-01-29 | Google Inc. | Speech recognition with parallel recognition tasks |
US8019608B2 (en) | 2008-08-29 | 2011-09-13 | Multimodal Technologies, Inc. | Distributed speech recognition using one way communication |
US7933777B2 (en) | 2008-08-29 | 2011-04-26 | Multimodal Technologies, Inc. | Hybrid speech recognition |
US8180641B2 (en) | 2008-09-29 | 2012-05-15 | Microsoft Corporation | Sequential speech recognition with two unequal ASR systems |
US8224644B2 (en) | 2008-12-18 | 2012-07-17 | Microsoft Corporation | Utterance processing for network-based speech recognition utilizing a client-side cache |
US9201965B1 (en) | 2009-09-30 | 2015-12-01 | Cisco Technology, Inc. | System and method for providing speech recognition using personal vocabulary in a network environment |
WO2011059997A1 (en) | 2009-11-10 | 2011-05-19 | Voicebox Technologies, Inc. | System and method for providing a natural language content dedication service |
CA2691326A1 (en) | 2010-01-28 | 2011-07-28 | Ibm Canada Limited - Ibm Canada Limitee | Integrated automatic user support and assistance |
US8532994B2 (en) * | 2010-08-27 | 2013-09-10 | Cisco Technology, Inc. | Speech recognition using a personal vocabulary and language model |
CN102469112B (zh) | 2010-11-01 | 2015-11-25 | 赵继安 | 位置跟踪实现方法、装置及系统 |
US9245525B2 (en) | 2011-01-05 | 2016-01-26 | Interactions Llc | Automated speech recognition proxy system for natural language understanding |
US8898065B2 (en) | 2011-01-07 | 2014-11-25 | Nuance Communications, Inc. | Configurable speech recognition system using multiple recognizers |
CN102594717A (zh) | 2011-01-18 | 2012-07-18 | 四川火狐无线科技有限公司 | 一种服务信息处理及交互方法、装置和系统 |
WO2012116110A1 (en) | 2011-02-22 | 2012-08-30 | Speak With Me, Inc. | Hybridized client-server speech recognition |
US9009041B2 (en) | 2011-07-26 | 2015-04-14 | Nuance Communications, Inc. | Systems and methods for improving the accuracy of a transcription using auxiliary data such as personal data |
US8660847B2 (en) | 2011-09-02 | 2014-02-25 | Microsoft Corporation | Integrated local and cloud based speech recognition |
US20130085753A1 (en) | 2011-09-30 | 2013-04-04 | Google Inc. | Hybrid Client/Server Speech Recognition In A Mobile Device |
US8972263B2 (en) | 2011-11-18 | 2015-03-03 | Soundhound, Inc. | System and method for performing dual mode speech recognition |
CN102496364A (zh) | 2011-11-30 | 2012-06-13 | 苏州奇可思信息科技有限公司 | 基于云端网络的交互式语音识别方法 |
CN102708865A (zh) * | 2012-04-25 | 2012-10-03 | 北京车音网科技有限公司 | 语音识别方法、装置及系统 |
US10019994B2 (en) | 2012-06-08 | 2018-07-10 | Apple Inc. | Systems and methods for recognizing textual identifiers within a plurality of words |
US9502029B1 (en) | 2012-06-25 | 2016-11-22 | Amazon Technologies, Inc. | Context-aware speech processing |
US10354650B2 (en) | 2012-06-26 | 2019-07-16 | Google Llc | Recognizing speech with mixed speech recognition models to generate transcriptions |
US8863198B2 (en) | 2012-08-17 | 2014-10-14 | Flextronics Ap, Llc | Television having silos that animate content source searching and selection |
US9570076B2 (en) | 2012-10-30 | 2017-02-14 | Google Technology Holdings LLC | Method and system for voice recognition employing multiple voice-recognition techniques |
US20140173440A1 (en) * | 2012-12-13 | 2014-06-19 | Imimtek, Inc. | Systems and methods for natural interaction with operating systems and application graphical user interfaces using gestural and vocal input |
US9131369B2 (en) | 2013-01-24 | 2015-09-08 | Nuance Communications, Inc. | Protection of private information in a client/server automatic speech recognition system |
US9305545B2 (en) * | 2013-03-13 | 2016-04-05 | Samsung Electronics Co., Ltd. | Speech recognition vocabulary integration for classifying words to identify vocabulary application group |
US20150314454A1 (en) * | 2013-03-15 | 2015-11-05 | JIBO, Inc. | Apparatus and methods for providing a persistent companion device |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
CN103440867B (zh) * | 2013-08-02 | 2016-08-10 | 科大讯飞股份有限公司 | 语音识别方法及系统 |
EP2862164B1 (en) | 2013-08-23 | 2017-05-31 | Nuance Communications, Inc. | Multiple pass automatic speech recognition |
EP2851896A1 (en) | 2013-09-19 | 2015-03-25 | Maluuba Inc. | Speech recognition using phoneme matching |
US9484025B2 (en) | 2013-10-15 | 2016-11-01 | Toyota Jidosha Kabushiki Kaisha | Configuring dynamic custom vocabulary for personalized speech recognition |
US9530416B2 (en) | 2013-10-28 | 2016-12-27 | At&T Intellectual Property I, L.P. | System and method for managing models for embedded speech and language processing |
US9666188B2 (en) | 2013-10-29 | 2017-05-30 | Nuance Communications, Inc. | System and method of performing automatic speech recognition using local private data |
US9837070B2 (en) | 2013-12-09 | 2017-12-05 | Google Inc. | Verification of mappings between phoneme sequences and words |
US9601108B2 (en) * | 2014-01-17 | 2017-03-21 | Microsoft Technology Licensing, Llc | Incorporating an exogenous large-vocabulary model into rule-based speech recognition |
US10749989B2 (en) | 2014-04-01 | 2020-08-18 | Microsoft Technology Licensing Llc | Hybrid client/server architecture for parallel processing |
-
2014
- 2014-01-17 US US14/158,147 patent/US9601108B2/en active Active
-
2015
- 2015-01-12 WO PCT/US2015/010943 patent/WO2015108792A1/en active Application Filing
- 2015-01-12 EP EP15701089.3A patent/EP3095115B1/en active Active
- 2015-01-12 CN CN201910993287.5A patent/CN110706711B/zh active Active
- 2015-01-12 CN CN201580004735.4A patent/CN105917405B/zh active Active
-
2017
- 2017-02-07 US US15/426,640 patent/US10311878B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1317783A (zh) * | 2000-04-07 | 2001-10-17 | 国际商业机器公司 | 语音识别系统中确定非目标语言的方法和装置 |
US20130028443A1 (en) * | 2011-07-28 | 2013-01-31 | Apple Inc. | Devices with enhanced audio |
US20130337853A1 (en) * | 2012-06-19 | 2013-12-19 | Talkler Labs, LLC | System and method for interacting with a mobile communication device |
CN102760431A (zh) * | 2012-07-12 | 2012-10-31 | 上海语联信息技术有限公司 | 智能化的语音识别系统 |
CN103165130A (zh) * | 2013-02-06 | 2013-06-19 | 湘潭安道致胜信息科技有限公司 | 语音文本匹配云系统 |
CN103491429A (zh) * | 2013-09-04 | 2014-01-01 | 张家港保税区润桐电子技术研发有限公司 | 一种音频处理方法和音频处理设备 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115298737A (zh) * | 2020-03-19 | 2022-11-04 | 日产自动车株式会社 | 语音识别装置和语音识别方法 |
Also Published As
Publication number | Publication date |
---|---|
US20150206528A1 (en) | 2015-07-23 |
US10311878B2 (en) | 2019-06-04 |
EP3095115B1 (en) | 2017-11-15 |
WO2015108792A1 (en) | 2015-07-23 |
CN110706711B (zh) | 2023-11-28 |
US20170162204A1 (en) | 2017-06-08 |
CN110706711A (zh) | 2020-01-17 |
CN105917405B (zh) | 2019-11-05 |
US9601108B2 (en) | 2017-03-21 |
EP3095115A1 (en) | 2016-11-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2019208255B2 (en) | Environmentally aware dialog policies and response generation | |
CN105917405A (zh) | 外源性大词汇量模型到基于规则的语音识别的合并 | |
US20190027147A1 (en) | Automatic integration of image capture and recognition in a voice-based query to understand intent | |
CN105960672B (zh) | 用于稳健语音识别的变量组件深度神经网络 | |
US9728184B2 (en) | Restructuring deep neural network acoustic models | |
US9293129B2 (en) | Speech recognition assisted evaluation on text-to-speech pronunciation issue detection | |
US9208777B2 (en) | Feature space transformation for personalization using generalized i-vector clustering | |
US11593613B2 (en) | Conversational relevance modeling using convolutional neural network | |
US11151166B2 (en) | Context-based multi-granularity intent discovery | |
CN107924679A (zh) | 输入理解处理期间在响应选择中的延迟绑定 | |
US20140201629A1 (en) | Collaborative learning through user generated knowledge | |
US20140278355A1 (en) | Using human perception in building language understanding models | |
CN105378624A (zh) | 在交互出现于白板上时显示交互 | |
CN107592926A (zh) | 使用任务帧建立多模式协同对话 | |
US20140350931A1 (en) | Language model trained using predicted queries from statistical machine translation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |