CN1692407A - 改善移动设备的语音识别 - Google Patents
改善移动设备的语音识别 Download PDFInfo
- Publication number
- CN1692407A CN1692407A CNA038141922A CN03814192A CN1692407A CN 1692407 A CN1692407 A CN 1692407A CN A038141922 A CNA038141922 A CN A038141922A CN 03814192 A CN03814192 A CN 03814192A CN 1692407 A CN1692407 A CN 1692407A
- Authority
- CN
- China
- Prior art keywords
- information
- carry out
- processor
- obtaining
- instruction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72448—User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions
- H04M1/72457—User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions according to geographic location
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2250/00—Details of telephonic subscriber devices
- H04M2250/74—Details of telephonic subscriber devices with voice recognition means
Abstract
通过使用位置信息可改善基于处理器的移动设备(14)中的语音识别。可以从插件板上的硬件(26)或者远程提供的信息中得到位置信息。位置信息以各种方式辅助改善语音识别。例如,通过位置信息可增强适应于包括回响和噪声特征的本地周围环境条件的能力。在某些实施例中,可从远程服务器(12)为给定位置提供预先开发的模型或环境信息。
Description
技术领域
本发明通常涉及基于处理器的具备语音识别能力的移动系统。
背景技术
提及到若干实例,基于处理器的移动系统包括诸如手持设备、个人数字助理、数码相机、膝上型电脑、数据输入设备、数据采集设备、远程控制单元、声音记录设备、以及蜂窝电话等等的设备。这些设备中的许多设备可具备语音识别能力。
利用语音识别,用户所说的话可被转换为文本。作为另一个实例,可将所说的话作为指令接收,该指令能够选择和操作基于处理器的系统的能力。
在大量的例子中,给定设备识别语音或标识一个说话者的能力是相对有限的。各种周围环境条件可能负面地影响语音识别或说话者识别的质量。由于周围条件可能会不可预测地发生变化,因此消除周围环境对移动语音识别平台的影响更加困难。
因而,需要一种更好的方式来实现基于处理器的移动系统的语音识别。
附图说明
图1示意性描述了本发明的一个实施例;
图2为根据本发明一个实施例的在图1所示实施例中有利使用的流程图;以及
图3为根据本发明一个实施例的在图1所示实施例中有利使用的流程图。
具体实施方式
参考图1,具备语音功能的基于处理器的移动系统14可以为任何一种通常利用电池供电的基于处理器的移动系统。这些设备的一些实例包括膝上型电脑、个人数字助理、蜂窝电话、数码相机、数据输入设备、数据采集设备、器具以及声音记录设备等等,以提及若干的实例。
通过在设备14内包含位置检测能力,在各种环境或周围条件下可改善识别所说话语的能力。因此,设备14可包括一个位置检测器或基于定位的服务(LBS)的客户机26。使用各种技术、诸如全球定位卫星、热点检测、小区检测、无线电三角测量或其他技术等可实现位置检测。
位置的各个方面可用于改善语音识别。系统14的物理位置可提供有关周围空间的声学特征的信息。这些特征可以包括房间的大小、诸如通风道或外部窗户之类的噪声源,以及回响特征。
在网络基础设施、诸如基于位置的服务(LBS)的服务器12中能够存储该数据。对于被频繁访问的位置,可将这些特征存储在系统14的数据存储器28自身中。在本发明的一个实施例中,服务器12可通过无线网络18耦合到系统14。
位置的其他方面包括在附近使用可比拟系统14的说话者的物理位置,这些方面可产生改善语音识别的杠杆作用。所述说话者可能为潜在的干扰源,并且能够基于其与系统14的用户的接近程度识别这些说话者。另外,可通过预订他们的存在信息或尤其通过发现同等层推断出附近携带可比拟系统14的人的身份。而且,可以确定系统14的方位,这可能为改善语音识别提供有用的信息。
系统14包括耦合到位置检测器/基于位置的服务的客户机26的语音环境(context)管理器24、语音识别器22、和噪声减少语音预处理器20。
根据本发明的一个实施例,当系统14试图进行语音识别时,语音环境管理器24从服务器12检索当前的环境。根据周围空间的大小,环境管理器24调整识别器22的声学模型以计算回响。
可以用包括使用诸如已知目标的最大似然线性回归等模型自适应方法的各种方式完成这种调整。该目标转换可能已经在该位置上在先前遇到时被估计,或可以从与该空间相关的回响时间推断得出。也可以通过从一组先前训练的声学模型中选择来完成该调整,该声学模型匹配用户所典型遇到的各种声学空间。
作为另一种替换,环境管理器24可选自特征提取和噪声降低算法,这些算法抑制基于声学空间大小的回响。还可以修改该声学模型以匹配所选择的前端噪声降低和特征提取。模型还可以根据附近人的身份进行调整,如果存在模型的话,则检索并载入用于每个人的依赖于说话者的声学模型。在本发明的一个实施例中,这些模型还用于走廊讨论的自动录音。
如果先前已经遇到了该声学空间,则另一种可完成调整的方式是通过初始化并调整一个新的声学模型。一旦对该位置充分地进行模拟,系统14就可以发送信息到服务器12并将其存储在远程数据存储器16中,以用于将来的访问者访问相同的位置。
作为另一个根据附近说话者的身份进行调整的实例,系统14可辅助用户将他们识别为录音源。录音源为应该录音其语音的人。用户周围的潜在源列表可提供给该用户。在一个实施例中,用户可从列表中选择想要的录音源。
作为另一个基于系统10的方位、邻近的人们的位置和将其指定为录音源的实例,预处理器20所控制的麦克风阵列可配置成在不是录音源的最近的人的方向上置零。由于该方向可能不是特别精确并易遭受突然的变化,因此这种方法不可能通过麦克风阵列代替干扰者跟踪。但是,它可提供一种当干扰者不说话时置零的机制,借此显著地改善了当干扰者讲话人开始说话时的性能。
参考图2,根据本发明的一个实施例,语音环境管理器24可为基于处理器的设备,包括处理器和存储将在处理器上执行的指令的存储器。因此,语音环境管理器24可以为软件或者是硬件。一开始,如方框30所示,语音环境管理器24从服务器12检索当前的环境。然后,如方框32所示,环境管理器24可以确定接近于设备14的周围空间的大小。如方框34所示,设备14可调整识别器的声学模型以计算本地回响。
然后,如方框36所示,可根据对本地环境的认识选择特征提取和噪声减少算法。另外,如方框38所示,可检索和载入用于附近说话者的依赖于说话者的声学模型。在一个实施例中,可从服务器12检索这些模型。
如方框40所示,根据如位置检测器/LBS客户机26检测到的系统14的位置可开发新的声学模型。如方框42所示,与位置坐标链接的新模型可通过无线网络18发送到服务器12,以用于潜在的未来使用。在某些实施例中,可从服务器12获取该模型,以及在其他情况下,可通过系统14独立地或与服务器12合作来开发这些模型以用于即时动态使用。
如方框44所示,可以识别其语音应该被识别的任何说话者。如方框46所示,可配置麦克风阵列预处理器20。然后,如方框48所示,实现已获得位置信息的好处的语音识别。
参考图3,根据本发明的一个实施例,LBS服务器12可通过软件50来实现。软件50可存储在服务器12上的合适的存储器中。一开始,如方框52所确定,服务器12从系统14接收一个环境信息的请求。如方框54所示,一旦接收了请求,服务器12则从系统14获取该位置信息。然后,如方框56所示,可将该位置信息与数据存储器16中可用的模型相关联。如方框58所示,一旦识别了合适的模型,可通过无线网络将环境发送到设备14。
尽管已经参考有限数量的实施例描述了本发明,但是本领域的普通技术人员将会理解可以对本发明作出各种修改和变型。意图在于所附的权利要求覆盖落入本发明实质精神和范围内的全部的这些修改和变型。
Claims (30)
1、一种方法,包括:
获取有关移动设备位置的信息;以及
使用所述位置信息提供语音识别。
2、根据权利要求1所述的方法,包括获取链接到特定位置的声学模型,以便用于改善语音识别。
3、根据权利要求2所述的方法,包括通过无线网络从远程服务器接收所述模型。
4、根据权利要求2所述的方法,包括根据本地特征设计(tailor)声学模型。
5、根据权利要求4所述的方法,包括将所述模型和位置坐标一起发送到远程服务器。
6、根据权利要求1所述的方法,其中,获取信息包括获取有关周围空间大小的信息。
7、根据权利要求1所述的方法,其中,获取信息包括调整声学模型以考虑回响。
8、根据权利要求1所述的方法,其中,获取信息包括选择特征提取或噪声降低算法。
9、根据权利要求1所述的方法,其中,获取信息包括获取有关附近说话者的信息。
10、根据权利要求1所述的方法,其中,获取信息包括获取有关周围空间大小的信息,获取有关回响的信息,选择噪声降低算法,以及获取有关附近说话者的信息,以便开发出用于当前位置的新声学模型。
11、根据权利要求1所述的方法,包括根据不必识别其语音的附近说话者的位置配置一个麦克风阵列。
12、一种包括存储指令的介质的产品,如果执行该指令,则使基于处理器的系统能够执行以下步骤:
获取有关移动设备位置的信息;以及
使用所述位置信息提供语音识别。
13、根据权利要求12的产品,还存储以下指令,如果执行该指令,则使基于处理器的系统能够执行以下步骤,即获取链接到特定位置的声学模型以便用于改善语音识别。
14、根据权利要求13的产品,还存储以下指令,如果执行该指令,则使基于处理器的系统能够执行通过无线网络从远程服务器接收所述模型的步骤。
15、根据权利要求13的产品,还存储以下指令,如果执行该指令,则使基于处理器的系统能够执行根据本地特征设计声学模型的步骤。
16、根据权利要求15的产品,还存储以下指令,如果执行该指令,则使基于处理器的系统能够执行将所述模型与位置坐标一起发送到远程服务器的步骤。
17、根据权利要求12的产品,还存储以下指令,如果执行该指令,则使基于处理器的系统能够执行获取信息的步骤,它包括获取有关周围空间大小的信息。
18、根据权利要求12的产品,还存储以下指令,如果执行该指令,则使基于处理器的系统能够执行获取信息的步骤,它包括调整声学模型以考虑回响。
19、根据权利要求12的产品,还存储以下指令,如果执行该指令,则使基于处理器的系统能够执行获取信息的步骤,它包括选择特征提取或噪声降低算法。
20、根据权利要求12的产品,还存储以下指令,如果执行该指令,则使基于处理器的系统能够执行获取信息的步骤,它包括获取有关附近说话者的信息。
21、根据权利要求12的产品,还存储以下指令,如果执行该指令,则使基于处理器的系统能够执行获取信息的步骤,它包括获取有关周围空间大小的信息,获取有关回响的信息,选择噪声降低算法,以及获取有关附近说话者的信息,以便开发出用于当前位置的新声学模型。
22、根据权利要求12的产品,还存储以下指令,如果执行该指令,则使基于处理器的系统能够执行根据不必识别其语音的附近说话者的位置而配置一个麦克风阵列的步骤。
23、一种系统,包括:
处理器;
耦合到所述处理器的位置确定设备;以及
耦合到所述处理器的存储器,该存储器存储有使处理器能够使用位置信息来提供语音识别的指令。
24、根据权利要求23所述的系统,其中,所述位置确定设备为全球定位卫星设备。
25、根据权利要求23所述的系统,其中,所述存储器存储有使处理器能够获取链接到特定位置的声学模型以便用于改善语音识别的指令。
26、根据权利要求25所述的系统,其中,所述存储器存储用于通过无线网络从远程服务器接收模型的指令。
27、根据权利要求24所述的系统,其中,所述系统自动地为特定位置设计一种声学模型并将该模型与位置坐标一起发送到远程服务器。
28、根据权利要求23所述的系统,其中,所述系统自动获取有关所述系统周围空间大小的信息。
29、根据权利要求23所述的系统,其中,所述系统自动获取有关附近说话者的信息。
30、根据权利要求29所述的系统,其中,所述系统包括一个麦克风阵列,并根据附近说话者的位置来自动地配置所述麦克风阵列。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/176,326 US7224981B2 (en) | 2002-06-20 | 2002-06-20 | Speech recognition of mobile devices |
US10/176,326 | 2002-06-20 | ||
PCT/US2003/018408 WO2004001719A1 (en) | 2002-06-20 | 2003-06-10 | Improving speech recognition of mobile devices |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1692407A true CN1692407A (zh) | 2005-11-02 |
CN1692407B CN1692407B (zh) | 2012-04-04 |
Family
ID=29734126
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN038141922A Expired - Fee Related CN1692407B (zh) | 2002-06-20 | 2003-06-10 | 改善移动设备的语音识别 |
Country Status (9)
Country | Link |
---|---|
US (1) | US7224981B2 (zh) |
EP (1) | EP1514259B1 (zh) |
KR (2) | KR20070065893A (zh) |
CN (1) | CN1692407B (zh) |
AT (1) | ATE465485T1 (zh) |
AU (1) | AU2003245443A1 (zh) |
DE (1) | DE60332236D1 (zh) |
TW (1) | TWI229984B (zh) |
WO (1) | WO2004001719A1 (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102456141A (zh) * | 2010-10-27 | 2012-05-16 | 三星Sds株式会社 | 用于识别用户背景的用户装置和方法 |
CN102737096A (zh) * | 2011-03-31 | 2012-10-17 | 微软公司 | 基于位置的会话理解 |
CN103258533A (zh) * | 2013-05-27 | 2013-08-21 | 重庆邮电大学 | 远距离语音识别中的模型域补偿新方法 |
CN103282957A (zh) * | 2010-08-06 | 2013-09-04 | 谷歌公司 | 基于上下文自动监测话音输入 |
CN103632666A (zh) * | 2013-11-14 | 2014-03-12 | 华为技术有限公司 | 语音识别方法、语音识别设备和电子设备 |
CN104025188A (zh) * | 2011-12-29 | 2014-09-03 | 英特尔公司 | 声学信号修改 |
WO2014180263A1 (zh) * | 2013-10-31 | 2014-11-13 | 中兴通讯股份有限公司 | 一种噪音处理方法、装置及系统、存储介质 |
CN104575493A (zh) * | 2010-05-26 | 2015-04-29 | 谷歌公司 | 使用地理信息的声学模型适配 |
CN104575494A (zh) * | 2013-10-16 | 2015-04-29 | 中兴通讯股份有限公司 | 一种语音处理的方法和终端 |
CN104575516A (zh) * | 2013-10-07 | 2015-04-29 | 霍尼韦尔国际公司 | 用于在使用动态话音数据库的飞机驾驶舱中校正口音诱导话音的系统和方法 |
WO2015090215A1 (zh) * | 2013-12-19 | 2015-06-25 | 百度在线网络技术(北京)有限公司 | 区分地域性口音的语音数据识别方法、装置和服务器 |
US9760566B2 (en) | 2011-03-31 | 2017-09-12 | Microsoft Technology Licensing, Llc | Augmented conversational understanding agent to identify conversation context between two humans and taking an agent action thereof |
US9842168B2 (en) | 2011-03-31 | 2017-12-12 | Microsoft Technology Licensing, Llc | Task driven user intents |
US9858343B2 (en) | 2011-03-31 | 2018-01-02 | Microsoft Technology Licensing Llc | Personalization of queries, conversations, and searches |
US10049667B2 (en) | 2011-03-31 | 2018-08-14 | Microsoft Technology Licensing, Llc | Location-based conversational understanding |
US10061843B2 (en) | 2011-05-12 | 2018-08-28 | Microsoft Technology Licensing, Llc | Translating natural language utterances to keyword search queries |
US10642934B2 (en) | 2011-03-31 | 2020-05-05 | Microsoft Technology Licensing, Llc | Augmented conversational understanding architecture |
Families Citing this family (62)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004038548A2 (en) * | 2002-10-21 | 2004-05-06 | Sinisi John P | System and method for mobile data collection |
GB2409560B (en) * | 2003-12-23 | 2007-07-25 | Ibm | Interactive speech recognition model |
US8589156B2 (en) * | 2004-07-12 | 2013-11-19 | Hewlett-Packard Development Company, L.P. | Allocation of speech recognition tasks and combination of results thereof |
US20060074660A1 (en) | 2004-09-29 | 2006-04-06 | France Telecom | Method and apparatus for enhancing speech recognition accuracy by using geographic data to filter a set of words |
US7522065B2 (en) * | 2004-10-15 | 2009-04-21 | Microsoft Corporation | Method and apparatus for proximity sensing in a portable electronic device |
US20060095266A1 (en) * | 2004-11-01 | 2006-05-04 | Mca Nulty Megan | Roaming user profiles for speech recognition |
US7440894B2 (en) * | 2005-08-09 | 2008-10-21 | International Business Machines Corporation | Method and system for creation of voice training profiles with multiple methods with uniform server mechanism using heterogeneous devices |
US20070041589A1 (en) * | 2005-08-17 | 2007-02-22 | Gennum Corporation | System and method for providing environmental specific noise reduction algorithms |
US8214208B2 (en) * | 2006-09-28 | 2012-07-03 | Reqall, Inc. | Method and system for sharing portable voice profiles |
US20080147411A1 (en) * | 2006-12-19 | 2008-06-19 | International Business Machines Corporation | Adaptation of a speech processing system from external input that is not directly related to sounds in an operational acoustic environment |
US8345832B2 (en) * | 2009-01-09 | 2013-01-01 | Microsoft Corporation | Enhanced voicemail usage through automatic voicemail preview |
US11416214B2 (en) | 2009-12-23 | 2022-08-16 | Google Llc | Multi-modal input on an electronic device |
EP2339576B1 (en) | 2009-12-23 | 2019-08-07 | Google LLC | Multi-modal input on an electronic device |
US9112989B2 (en) | 2010-04-08 | 2015-08-18 | Qualcomm Incorporated | System and method of smart audio logging for mobile devices |
US8265928B2 (en) | 2010-04-14 | 2012-09-11 | Google Inc. | Geotagged environmental audio for enhanced speech recognition accuracy |
US8352245B1 (en) | 2010-12-30 | 2013-01-08 | Google Inc. | Adjusting language models |
KR101791907B1 (ko) * | 2011-01-04 | 2017-11-02 | 삼성전자주식회사 | 위치 기반의 음향 처리 장치 및 방법 |
US8296142B2 (en) | 2011-01-21 | 2012-10-23 | Google Inc. | Speech recognition using dock context |
US9298287B2 (en) | 2011-03-31 | 2016-03-29 | Microsoft Technology Licensing, Llc | Combined activation for natural user interface systems |
US9454962B2 (en) | 2011-05-12 | 2016-09-27 | Microsoft Technology Licensing, Llc | Sentence simplification for spoken language understanding |
US8811638B2 (en) * | 2011-12-01 | 2014-08-19 | Elwha Llc | Audible assistance |
US9245254B2 (en) | 2011-12-01 | 2016-01-26 | Elwha Llc | Enhanced voice conferencing with history, language translation and identification |
US8934652B2 (en) | 2011-12-01 | 2015-01-13 | Elwha Llc | Visual presentation of speaker-related information |
US9064152B2 (en) | 2011-12-01 | 2015-06-23 | Elwha Llc | Vehicular threat detection based on image analysis |
US9053096B2 (en) | 2011-12-01 | 2015-06-09 | Elwha Llc | Language translation based on speaker-related information |
US9368028B2 (en) | 2011-12-01 | 2016-06-14 | Microsoft Technology Licensing, Llc | Determining threats based on information from road-based devices in a transportation-related context |
US10875525B2 (en) | 2011-12-01 | 2020-12-29 | Microsoft Technology Licensing Llc | Ability enhancement |
US9159236B2 (en) | 2011-12-01 | 2015-10-13 | Elwha Llc | Presentation of shared threat information in a transportation-related context |
US9107012B2 (en) | 2011-12-01 | 2015-08-11 | Elwha Llc | Vehicular threat detection based on audio signals |
US9502029B1 (en) * | 2012-06-25 | 2016-11-22 | Amazon Technologies, Inc. | Context-aware speech processing |
US9953638B2 (en) * | 2012-06-28 | 2018-04-24 | Nuance Communications, Inc. | Meta-data inputs to front end processing for automatic speech recognition |
US8831957B2 (en) | 2012-08-01 | 2014-09-09 | Google Inc. | Speech recognition models based on location indicia |
US9734819B2 (en) | 2013-02-21 | 2017-08-15 | Google Technology Holdings LLC | Recognizing accented speech |
US9401749B2 (en) | 2013-03-08 | 2016-07-26 | Google Technology Holdings LLC | Method for codebook enhancement for multi-user multiple-input multiple-output systems |
US20140278393A1 (en) | 2013-03-12 | 2014-09-18 | Motorola Mobility Llc | Apparatus and Method for Power Efficient Signal Conditioning for a Voice Recognition System |
US9185199B2 (en) * | 2013-03-12 | 2015-11-10 | Google Technology Holdings LLC | Method and apparatus for acoustically characterizing an environment in which an electronic device resides |
US20140278415A1 (en) * | 2013-03-12 | 2014-09-18 | Motorola Mobility Llc | Voice Recognition Configuration Selector and Method of Operation Therefor |
US20140270249A1 (en) | 2013-03-12 | 2014-09-18 | Motorola Mobility Llc | Method and Apparatus for Estimating Variability of Background Noise for Noise Suppression |
US9237225B2 (en) | 2013-03-12 | 2016-01-12 | Google Technology Holdings LLC | Apparatus with dynamic audio signal pre-conditioning and methods therefor |
US9282096B2 (en) | 2013-08-31 | 2016-03-08 | Steven Goldstein | Methods and systems for voice authentication service leveraging networking |
US10405163B2 (en) * | 2013-10-06 | 2019-09-03 | Staton Techiya, Llc | Methods and systems for establishing and maintaining presence information of neighboring bluetooth devices |
US9842592B2 (en) | 2014-02-12 | 2017-12-12 | Google Inc. | Language models using non-linguistic context |
US9412365B2 (en) | 2014-03-24 | 2016-08-09 | Google Inc. | Enhanced maximum entropy models |
KR102257910B1 (ko) | 2014-05-02 | 2021-05-27 | 삼성전자주식회사 | 음성 인식 장치 및 방법, 잡음-음성 인식 모델 생성 장치 및 방법 |
US9904851B2 (en) | 2014-06-11 | 2018-02-27 | At&T Intellectual Property I, L.P. | Exploiting visual information for enhancing audio signals via source separation and beamforming |
US11676608B2 (en) | 2021-04-02 | 2023-06-13 | Google Llc | Speaker verification using co-location information |
US11942095B2 (en) | 2014-07-18 | 2024-03-26 | Google Llc | Speaker verification using co-location information |
US9257120B1 (en) | 2014-07-18 | 2016-02-09 | Google Inc. | Speaker verification using co-location information |
US10134394B2 (en) | 2015-03-20 | 2018-11-20 | Google Llc | Speech recognition using log-linear model |
US9801219B2 (en) | 2015-06-15 | 2017-10-24 | Microsoft Technology Licensing, Llc | Pairing of nearby devices using a synchronized cue signal |
US10044798B2 (en) | 2016-02-05 | 2018-08-07 | International Business Machines Corporation | Context-aware task offloading among multiple devices |
US10484484B2 (en) | 2016-02-05 | 2019-11-19 | International Business Machines Corporation | Context-aware task processing for multiple devices |
US9978367B2 (en) | 2016-03-16 | 2018-05-22 | Google Llc | Determining dialog states for language models |
KR102565274B1 (ko) | 2016-07-07 | 2023-08-09 | 삼성전자주식회사 | 자동 통역 방법 및 장치, 및 기계 번역 방법 및 장치 |
US10832664B2 (en) | 2016-08-19 | 2020-11-10 | Google Llc | Automated speech recognition using language models that selectively use domain-specific model components |
US9972320B2 (en) | 2016-08-24 | 2018-05-15 | Google Llc | Hotword detection on multiple devices |
US10429817B2 (en) | 2016-12-19 | 2019-10-01 | Honeywell International Inc. | Voice control of components of a facility |
US10311860B2 (en) | 2017-02-14 | 2019-06-04 | Google Llc | Language model biasing system |
KR102458805B1 (ko) | 2017-04-20 | 2022-10-25 | 구글 엘엘씨 | 장치에 대한 다중 사용자 인증 |
KR102424514B1 (ko) * | 2017-12-04 | 2022-07-25 | 삼성전자주식회사 | 언어 처리 방법 및 장치 |
CN110047478B (zh) * | 2018-01-16 | 2021-06-08 | 中国科学院声学研究所 | 基于空间特征补偿的多通道语音识别声学建模方法及装置 |
TWI698857B (zh) | 2018-11-21 | 2020-07-11 | 財團法人工業技術研究院 | 語音辨識系統及其方法、與電腦程式產品 |
Family Cites Families (45)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5263019A (en) * | 1991-01-04 | 1993-11-16 | Picturetel Corporation | Method and apparatus for estimating the level of acoustic feedback between a loudspeaker and microphone |
US5384856A (en) * | 1991-01-21 | 1995-01-24 | Mitsubishi Denki Kabushiki Kaisha | Acoustic system |
US5297183A (en) * | 1992-04-13 | 1994-03-22 | Vcs Industries, Inc. | Speech recognition system for electronic switches in a cellular telephone or personal communication network |
JP2602158B2 (ja) * | 1992-12-04 | 1997-04-23 | 株式会社エクォス・リサーチ | 音声出力装置 |
US5384892A (en) * | 1992-12-31 | 1995-01-24 | Apple Computer, Inc. | Dynamic language model for speech recognition |
US5524169A (en) * | 1993-12-30 | 1996-06-04 | International Business Machines Incorporated | Method and system for location-specific speech recognition |
US5835667A (en) * | 1994-10-14 | 1998-11-10 | Carnegie Mellon University | Method and apparatus for creating a searchable digital video library and a system and method of using such a library |
DE4440598C1 (de) * | 1994-11-14 | 1996-05-23 | Siemens Ag | Durch gesprochene Worte steuerbares Hypertext-Navigationssystem, Hypertext-Dokument für dieses Navigationssystem und Verfahren zur Erzeugung eines derartigen Dokuments |
US6978159B2 (en) * | 1996-06-19 | 2005-12-20 | Board Of Trustees Of The University Of Illinois | Binaural signal processing using multiple acoustic sensors and digital filtering |
WO1997050002A1 (en) * | 1996-06-27 | 1997-12-31 | Motorola Inc. | Location determination in a communication system |
US6072881A (en) * | 1996-07-08 | 2000-06-06 | Chiefs Voice Incorporated | Microphone noise rejection system |
US6236365B1 (en) * | 1996-09-09 | 2001-05-22 | Tracbeam, Llc | Location of a mobile station using a plurality of commercial wireless infrastructures |
US6272457B1 (en) * | 1996-09-16 | 2001-08-07 | Datria Systems, Inc. | Spatial asset management system that time-tags and combines captured speech data and captured location data using a predifed reference grammar with a semantic relationship structure |
JPH10143191A (ja) * | 1996-11-13 | 1998-05-29 | Hitachi Ltd | 音声認識システム |
US5897616A (en) * | 1997-06-11 | 1999-04-27 | International Business Machines Corporation | Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases |
US5953700A (en) * | 1997-06-11 | 1999-09-14 | International Business Machines Corporation | Portable acoustic interface for remote access to automatic speech/speaker recognition server |
US5991385A (en) * | 1997-07-16 | 1999-11-23 | International Business Machines Corporation | Enhanced audio teleconferencing with sound field effect |
US5970446A (en) * | 1997-11-25 | 1999-10-19 | At&T Corp | Selective noise/channel/coding models and recognizers for automatic speech recognition |
JP4154015B2 (ja) * | 1997-12-10 | 2008-09-24 | キヤノン株式会社 | 情報処理装置およびその方法 |
US6125115A (en) * | 1998-02-12 | 2000-09-26 | Qsound Labs, Inc. | Teleconferencing method and apparatus with three-dimensional sound positioning |
JP3722335B2 (ja) * | 1998-02-17 | 2005-11-30 | ヤマハ株式会社 | 残響付加装置 |
US6223156B1 (en) * | 1998-04-07 | 2001-04-24 | At&T Corp. | Speech recognition of caller identifiers using location information |
US6184829B1 (en) | 1999-01-08 | 2001-02-06 | Trueposition, Inc. | Calibration for wireless location system |
US6574601B1 (en) * | 1999-01-13 | 2003-06-03 | Lucent Technologies Inc. | Acoustic speech recognizer system and method |
US20030060211A1 (en) * | 1999-01-26 | 2003-03-27 | Vincent Chern | Location-based information retrieval system for wireless communication device |
JP3847624B2 (ja) * | 1999-07-28 | 2006-11-22 | 三菱電機株式会社 | 携帯電話機 |
JP2001075594A (ja) * | 1999-08-31 | 2001-03-23 | Pioneer Electronic Corp | 音声認識システム |
US6937977B2 (en) * | 1999-10-05 | 2005-08-30 | Fastmobile, Inc. | Method and apparatus for processing an input speech signal during presentation of an output audio signal |
JP4415432B2 (ja) * | 1999-10-08 | 2010-02-17 | トヨタ自動車株式会社 | 手動バルブ |
JP3376487B2 (ja) * | 1999-10-27 | 2003-02-10 | 独立行政法人産業技術総合研究所 | 言い淀み検出方法及び装置 |
US6449593B1 (en) * | 2000-01-13 | 2002-09-10 | Nokia Mobile Phones Ltd. | Method and system for tracking human speakers |
US6850766B2 (en) * | 2000-04-26 | 2005-02-01 | Wirenix, Inc. | Voice activated wireless locator service |
KR20010106799A (ko) * | 2000-05-23 | 2001-12-07 | 류정열 | 자동차용 음성 인식 장치 |
US6624922B1 (en) * | 2000-06-02 | 2003-09-23 | Northrop Grumman Corporation | Electro-optic device for adding/subtracting optical signals |
US7047196B2 (en) * | 2000-06-08 | 2006-05-16 | Agiletv Corporation | System and method of voice recognition near a wireline node of a network supporting cable television and/or video delivery |
US6230138B1 (en) * | 2000-06-28 | 2001-05-08 | Visteon Global Technologies, Inc. | Method and apparatus for controlling multiple speech engines in an in-vehicle speech recognition system |
KR20020006357A (ko) | 2000-07-12 | 2002-01-19 | 유영욱 | 구역별 정보 제공 서비스 방법 및 시스템 |
JP4283984B2 (ja) * | 2000-10-12 | 2009-06-24 | パイオニア株式会社 | 音声認識装置ならびに方法 |
US20020072917A1 (en) * | 2000-12-11 | 2002-06-13 | Irvin David Rand | Method and apparatus for speech recognition incorporating location information |
US20020097884A1 (en) * | 2001-01-25 | 2002-07-25 | Cairns Douglas A. | Variable noise reduction algorithm based on vehicle conditions |
US6810380B1 (en) * | 2001-03-28 | 2004-10-26 | Bellsouth Intellectual Property Corporation | Personal safety enhancement for communication devices |
US6785647B2 (en) * | 2001-04-20 | 2004-08-31 | William R. Hutchison | Speech recognition system with network accessible speech processing resources |
US7209881B2 (en) | 2001-12-20 | 2007-04-24 | Matsushita Electric Industrial Co., Ltd. | Preparing acoustic models by sufficient statistics and noise-superimposed speech data |
US6853907B2 (en) * | 2002-03-21 | 2005-02-08 | General Motors Corporation | Method and system for communicating vehicle location information |
JPWO2003088209A1 (ja) * | 2002-04-12 | 2005-08-25 | 三菱電機株式会社 | カーナビゲーションシステム並びにその音声認識装置 |
-
2002
- 2002-06-20 US US10/176,326 patent/US7224981B2/en not_active Expired - Fee Related
-
2003
- 2003-06-06 TW TW092115381A patent/TWI229984B/zh not_active IP Right Cessation
- 2003-06-10 AU AU2003245443A patent/AU2003245443A1/en not_active Abandoned
- 2003-06-10 CN CN038141922A patent/CN1692407B/zh not_active Expired - Fee Related
- 2003-06-10 WO PCT/US2003/018408 patent/WO2004001719A1/en not_active Application Discontinuation
- 2003-06-10 AT AT03739083T patent/ATE465485T1/de not_active IP Right Cessation
- 2003-06-10 KR KR1020077009365A patent/KR20070065893A/ko not_active Application Discontinuation
- 2003-06-10 KR KR1020047020621A patent/KR100830251B1/ko not_active IP Right Cessation
- 2003-06-10 EP EP03739083A patent/EP1514259B1/en not_active Expired - Lifetime
- 2003-06-10 DE DE60332236T patent/DE60332236D1/de not_active Expired - Lifetime
Cited By (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104575493B (zh) * | 2010-05-26 | 2019-03-26 | 谷歌有限责任公司 | 使用地理信息的声学模型适配 |
CN104575493A (zh) * | 2010-05-26 | 2015-04-29 | 谷歌公司 | 使用地理信息的声学模型适配 |
CN106126178A (zh) * | 2010-08-06 | 2016-11-16 | 谷歌公司 | 基于上下文自动监测话音输入 |
CN103282957A (zh) * | 2010-08-06 | 2013-09-04 | 谷歌公司 | 基于上下文自动监测话音输入 |
CN103282957B (zh) * | 2010-08-06 | 2016-07-13 | 谷歌公司 | 基于上下文自动监测话音输入 |
CN106126178B (zh) * | 2010-08-06 | 2019-09-06 | 谷歌有限责任公司 | 基于上下文自动监测话音输入 |
CN102456141A (zh) * | 2010-10-27 | 2012-05-16 | 三星Sds株式会社 | 用于识别用户背景的用户装置和方法 |
CN102456141B (zh) * | 2010-10-27 | 2015-11-25 | 三星Sds株式会社 | 用于识别用户背景的用户装置和方法 |
US10585957B2 (en) | 2011-03-31 | 2020-03-10 | Microsoft Technology Licensing, Llc | Task driven user intents |
CN102737096B (zh) * | 2011-03-31 | 2017-08-25 | 微软技术许可有限责任公司 | 基于位置的会话理解 |
CN102737096A (zh) * | 2011-03-31 | 2012-10-17 | 微软公司 | 基于位置的会话理解 |
US9858343B2 (en) | 2011-03-31 | 2018-01-02 | Microsoft Technology Licensing Llc | Personalization of queries, conversations, and searches |
US10049667B2 (en) | 2011-03-31 | 2018-08-14 | Microsoft Technology Licensing, Llc | Location-based conversational understanding |
US9842168B2 (en) | 2011-03-31 | 2017-12-12 | Microsoft Technology Licensing, Llc | Task driven user intents |
US10642934B2 (en) | 2011-03-31 | 2020-05-05 | Microsoft Technology Licensing, Llc | Augmented conversational understanding architecture |
US9760566B2 (en) | 2011-03-31 | 2017-09-12 | Microsoft Technology Licensing, Llc | Augmented conversational understanding agent to identify conversation context between two humans and taking an agent action thereof |
US10296587B2 (en) | 2011-03-31 | 2019-05-21 | Microsoft Technology Licensing, Llc | Augmented conversational understanding agent to identify conversation context between two humans and taking an agent action thereof |
US10061843B2 (en) | 2011-05-12 | 2018-08-28 | Microsoft Technology Licensing, Llc | Translating natural language utterances to keyword search queries |
CN104025188B (zh) * | 2011-12-29 | 2016-09-07 | 英特尔公司 | 声学信号修改 |
CN104025188A (zh) * | 2011-12-29 | 2014-09-03 | 英特尔公司 | 声学信号修改 |
CN103258533A (zh) * | 2013-05-27 | 2013-08-21 | 重庆邮电大学 | 远距离语音识别中的模型域补偿新方法 |
CN103258533B (zh) * | 2013-05-27 | 2015-05-13 | 重庆邮电大学 | 远距离语音识别中的模型域补偿新方法 |
CN104575516A (zh) * | 2013-10-07 | 2015-04-29 | 霍尼韦尔国际公司 | 用于在使用动态话音数据库的飞机驾驶舱中校正口音诱导话音的系统和方法 |
CN104575516B (zh) * | 2013-10-07 | 2020-02-28 | 霍尼韦尔国际公司 | 用于在使用动态话音数据库的飞机驾驶舱中校正口音诱导话音的系统和方法 |
CN104575494A (zh) * | 2013-10-16 | 2015-04-29 | 中兴通讯股份有限公司 | 一种语音处理的方法和终端 |
CN104601764A (zh) * | 2013-10-31 | 2015-05-06 | 中兴通讯股份有限公司 | 移动终端的噪音处理方法、装置及系统 |
WO2014180263A1 (zh) * | 2013-10-31 | 2014-11-13 | 中兴通讯股份有限公司 | 一种噪音处理方法、装置及系统、存储介质 |
US9870771B2 (en) | 2013-11-14 | 2018-01-16 | Huawei Technologies Co., Ltd. | Environment adaptive speech recognition method and device |
CN103632666B (zh) * | 2013-11-14 | 2016-09-28 | 华为技术有限公司 | 语音识别方法、语音识别设备和电子设备 |
CN103632666A (zh) * | 2013-11-14 | 2014-03-12 | 华为技术有限公司 | 语音识别方法、语音识别设备和电子设备 |
US9928831B2 (en) | 2013-12-19 | 2018-03-27 | Baidu Online Network Technology (Beijing) Co., Ltd. | Speech data recognition method, apparatus, and server for distinguishing regional accent |
WO2015090215A1 (zh) * | 2013-12-19 | 2015-06-25 | 百度在线网络技术(北京)有限公司 | 区分地域性口音的语音数据识别方法、装置和服务器 |
Also Published As
Publication number | Publication date |
---|---|
CN1692407B (zh) | 2012-04-04 |
DE60332236D1 (de) | 2010-06-02 |
AU2003245443A1 (en) | 2004-01-06 |
US7224981B2 (en) | 2007-05-29 |
ATE465485T1 (de) | 2010-05-15 |
WO2004001719A1 (en) | 2003-12-31 |
KR20070065893A (ko) | 2007-06-25 |
KR100830251B1 (ko) | 2008-05-16 |
EP1514259A1 (en) | 2005-03-16 |
KR20050007429A (ko) | 2005-01-17 |
TWI229984B (en) | 2005-03-21 |
EP1514259B1 (en) | 2010-04-21 |
TW200412730A (en) | 2004-07-16 |
US20030236099A1 (en) | 2003-12-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1692407B (zh) | 改善移动设备的语音识别 | |
US11443769B2 (en) | Enhancing audio using multiple recording devices | |
CN110214351B (zh) | 记录的媒体热词触发抑制 | |
CN107895574B (zh) | 基于装置拓扑结构来处理语音命令 | |
Tarzia et al. | Indoor localization without infrastructure using the acoustic background spectrum | |
CN103038817B (zh) | 使用地理信息的声学模型适配 | |
CN103190139B (zh) | 用于提供会议信息的系统和方法 | |
US9626962B2 (en) | Method and apparatus for recognizing speech, and method and apparatus for generating noise-speech recognition model | |
CN111696570B (zh) | 语音信号处理方法、装置、设备及存储介质 | |
WO2022206602A1 (zh) | 语音唤醒方法、装置、存储介质及系统 | |
US7392183B2 (en) | Schedule event context for speech recognition | |
WO2021118946A1 (en) | Methods for reducing error in environmental noise compensation systems | |
CN113486942A (zh) | 一种重复火警判定方法、装置、电子设备及存储介质 | |
US11460927B2 (en) | Auto-framing through speech and video localizations | |
WO2023103693A1 (zh) | 音频信号的处理方法、装置、设备及存储介质 | |
CN113808578B (zh) | 音频信号处理方法、装置、设备及存储介质 | |
CN112700770A (zh) | 语音控制方法、音箱设备、计算设备和存储介质 | |
US11743588B1 (en) | Object selection in computer vision | |
US20220360935A1 (en) | Sound field control apparatus and method for the same | |
US20210037319A1 (en) | Estimating user location in a system including smart audio devices | |
US10811011B2 (en) | Correcting for impulse noise in speech recognition systems | |
CN114648979A (zh) | 语音识别处理方法、装置及电子设备 | |
Kellner | Room Recognition Using Audio Signals |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20120404 Termination date: 20170610 |
|
CF01 | Termination of patent right due to non-payment of annual fee |