CN1692407A - 改善移动设备的语音识别 - Google Patents

改善移动设备的语音识别 Download PDF

Info

Publication number
CN1692407A
CN1692407A CNA038141922A CN03814192A CN1692407A CN 1692407 A CN1692407 A CN 1692407A CN A038141922 A CNA038141922 A CN A038141922A CN 03814192 A CN03814192 A CN 03814192A CN 1692407 A CN1692407 A CN 1692407A
Authority
CN
China
Prior art keywords
information
carry out
processor
obtaining
instruction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA038141922A
Other languages
English (en)
Other versions
CN1692407B (zh
Inventor
M·戴谢尔
R·克瑙尔哈斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intel Corp
Original Assignee
Intel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intel Corp filed Critical Intel Corp
Publication of CN1692407A publication Critical patent/CN1692407A/zh
Application granted granted Critical
Publication of CN1692407B publication Critical patent/CN1692407B/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72448User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions
    • H04M1/72457User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions according to geographic location
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/74Details of telephonic subscriber devices with voice recognition means

Abstract

通过使用位置信息可改善基于处理器的移动设备(14)中的语音识别。可以从插件板上的硬件(26)或者远程提供的信息中得到位置信息。位置信息以各种方式辅助改善语音识别。例如,通过位置信息可增强适应于包括回响和噪声特征的本地周围环境条件的能力。在某些实施例中,可从远程服务器(12)为给定位置提供预先开发的模型或环境信息。

Description

改善移动设备的语音识别
技术领域
本发明通常涉及基于处理器的具备语音识别能力的移动系统。
背景技术
提及到若干实例,基于处理器的移动系统包括诸如手持设备、个人数字助理、数码相机、膝上型电脑、数据输入设备、数据采集设备、远程控制单元、声音记录设备、以及蜂窝电话等等的设备。这些设备中的许多设备可具备语音识别能力。
利用语音识别,用户所说的话可被转换为文本。作为另一个实例,可将所说的话作为指令接收,该指令能够选择和操作基于处理器的系统的能力。
在大量的例子中,给定设备识别语音或标识一个说话者的能力是相对有限的。各种周围环境条件可能负面地影响语音识别或说话者识别的质量。由于周围条件可能会不可预测地发生变化,因此消除周围环境对移动语音识别平台的影响更加困难。
因而,需要一种更好的方式来实现基于处理器的移动系统的语音识别。
附图说明
图1示意性描述了本发明的一个实施例;
图2为根据本发明一个实施例的在图1所示实施例中有利使用的流程图;以及
图3为根据本发明一个实施例的在图1所示实施例中有利使用的流程图。
具体实施方式
参考图1,具备语音功能的基于处理器的移动系统14可以为任何一种通常利用电池供电的基于处理器的移动系统。这些设备的一些实例包括膝上型电脑、个人数字助理、蜂窝电话、数码相机、数据输入设备、数据采集设备、器具以及声音记录设备等等,以提及若干的实例。
通过在设备14内包含位置检测能力,在各种环境或周围条件下可改善识别所说话语的能力。因此,设备14可包括一个位置检测器或基于定位的服务(LBS)的客户机26。使用各种技术、诸如全球定位卫星、热点检测、小区检测、无线电三角测量或其他技术等可实现位置检测。
位置的各个方面可用于改善语音识别。系统14的物理位置可提供有关周围空间的声学特征的信息。这些特征可以包括房间的大小、诸如通风道或外部窗户之类的噪声源,以及回响特征。
在网络基础设施、诸如基于位置的服务(LBS)的服务器12中能够存储该数据。对于被频繁访问的位置,可将这些特征存储在系统14的数据存储器28自身中。在本发明的一个实施例中,服务器12可通过无线网络18耦合到系统14。
位置的其他方面包括在附近使用可比拟系统14的说话者的物理位置,这些方面可产生改善语音识别的杠杆作用。所述说话者可能为潜在的干扰源,并且能够基于其与系统14的用户的接近程度识别这些说话者。另外,可通过预订他们的存在信息或尤其通过发现同等层推断出附近携带可比拟系统14的人的身份。而且,可以确定系统14的方位,这可能为改善语音识别提供有用的信息。
系统14包括耦合到位置检测器/基于位置的服务的客户机26的语音环境(context)管理器24、语音识别器22、和噪声减少语音预处理器20。
根据本发明的一个实施例,当系统14试图进行语音识别时,语音环境管理器24从服务器12检索当前的环境。根据周围空间的大小,环境管理器24调整识别器22的声学模型以计算回响。
可以用包括使用诸如已知目标的最大似然线性回归等模型自适应方法的各种方式完成这种调整。该目标转换可能已经在该位置上在先前遇到时被估计,或可以从与该空间相关的回响时间推断得出。也可以通过从一组先前训练的声学模型中选择来完成该调整,该声学模型匹配用户所典型遇到的各种声学空间。
作为另一种替换,环境管理器24可选自特征提取和噪声降低算法,这些算法抑制基于声学空间大小的回响。还可以修改该声学模型以匹配所选择的前端噪声降低和特征提取。模型还可以根据附近人的身份进行调整,如果存在模型的话,则检索并载入用于每个人的依赖于说话者的声学模型。在本发明的一个实施例中,这些模型还用于走廊讨论的自动录音。
如果先前已经遇到了该声学空间,则另一种可完成调整的方式是通过初始化并调整一个新的声学模型。一旦对该位置充分地进行模拟,系统14就可以发送信息到服务器12并将其存储在远程数据存储器16中,以用于将来的访问者访问相同的位置。
作为另一个根据附近说话者的身份进行调整的实例,系统14可辅助用户将他们识别为录音源。录音源为应该录音其语音的人。用户周围的潜在源列表可提供给该用户。在一个实施例中,用户可从列表中选择想要的录音源。
作为另一个基于系统10的方位、邻近的人们的位置和将其指定为录音源的实例,预处理器20所控制的麦克风阵列可配置成在不是录音源的最近的人的方向上置零。由于该方向可能不是特别精确并易遭受突然的变化,因此这种方法不可能通过麦克风阵列代替干扰者跟踪。但是,它可提供一种当干扰者不说话时置零的机制,借此显著地改善了当干扰者讲话人开始说话时的性能。
参考图2,根据本发明的一个实施例,语音环境管理器24可为基于处理器的设备,包括处理器和存储将在处理器上执行的指令的存储器。因此,语音环境管理器24可以为软件或者是硬件。一开始,如方框30所示,语音环境管理器24从服务器12检索当前的环境。然后,如方框32所示,环境管理器24可以确定接近于设备14的周围空间的大小。如方框34所示,设备14可调整识别器的声学模型以计算本地回响。
然后,如方框36所示,可根据对本地环境的认识选择特征提取和噪声减少算法。另外,如方框38所示,可检索和载入用于附近说话者的依赖于说话者的声学模型。在一个实施例中,可从服务器12检索这些模型。
如方框40所示,根据如位置检测器/LBS客户机26检测到的系统14的位置可开发新的声学模型。如方框42所示,与位置坐标链接的新模型可通过无线网络18发送到服务器12,以用于潜在的未来使用。在某些实施例中,可从服务器12获取该模型,以及在其他情况下,可通过系统14独立地或与服务器12合作来开发这些模型以用于即时动态使用。
如方框44所示,可以识别其语音应该被识别的任何说话者。如方框46所示,可配置麦克风阵列预处理器20。然后,如方框48所示,实现已获得位置信息的好处的语音识别。
参考图3,根据本发明的一个实施例,LBS服务器12可通过软件50来实现。软件50可存储在服务器12上的合适的存储器中。一开始,如方框52所确定,服务器12从系统14接收一个环境信息的请求。如方框54所示,一旦接收了请求,服务器12则从系统14获取该位置信息。然后,如方框56所示,可将该位置信息与数据存储器16中可用的模型相关联。如方框58所示,一旦识别了合适的模型,可通过无线网络将环境发送到设备14。
尽管已经参考有限数量的实施例描述了本发明,但是本领域的普通技术人员将会理解可以对本发明作出各种修改和变型。意图在于所附的权利要求覆盖落入本发明实质精神和范围内的全部的这些修改和变型。

Claims (30)

1、一种方法,包括:
获取有关移动设备位置的信息;以及
使用所述位置信息提供语音识别。
2、根据权利要求1所述的方法,包括获取链接到特定位置的声学模型,以便用于改善语音识别。
3、根据权利要求2所述的方法,包括通过无线网络从远程服务器接收所述模型。
4、根据权利要求2所述的方法,包括根据本地特征设计(tailor)声学模型。
5、根据权利要求4所述的方法,包括将所述模型和位置坐标一起发送到远程服务器。
6、根据权利要求1所述的方法,其中,获取信息包括获取有关周围空间大小的信息。
7、根据权利要求1所述的方法,其中,获取信息包括调整声学模型以考虑回响。
8、根据权利要求1所述的方法,其中,获取信息包括选择特征提取或噪声降低算法。
9、根据权利要求1所述的方法,其中,获取信息包括获取有关附近说话者的信息。
10、根据权利要求1所述的方法,其中,获取信息包括获取有关周围空间大小的信息,获取有关回响的信息,选择噪声降低算法,以及获取有关附近说话者的信息,以便开发出用于当前位置的新声学模型。
11、根据权利要求1所述的方法,包括根据不必识别其语音的附近说话者的位置配置一个麦克风阵列。
12、一种包括存储指令的介质的产品,如果执行该指令,则使基于处理器的系统能够执行以下步骤:
获取有关移动设备位置的信息;以及
使用所述位置信息提供语音识别。
13、根据权利要求12的产品,还存储以下指令,如果执行该指令,则使基于处理器的系统能够执行以下步骤,即获取链接到特定位置的声学模型以便用于改善语音识别。
14、根据权利要求13的产品,还存储以下指令,如果执行该指令,则使基于处理器的系统能够执行通过无线网络从远程服务器接收所述模型的步骤。
15、根据权利要求13的产品,还存储以下指令,如果执行该指令,则使基于处理器的系统能够执行根据本地特征设计声学模型的步骤。
16、根据权利要求15的产品,还存储以下指令,如果执行该指令,则使基于处理器的系统能够执行将所述模型与位置坐标一起发送到远程服务器的步骤。
17、根据权利要求12的产品,还存储以下指令,如果执行该指令,则使基于处理器的系统能够执行获取信息的步骤,它包括获取有关周围空间大小的信息。
18、根据权利要求12的产品,还存储以下指令,如果执行该指令,则使基于处理器的系统能够执行获取信息的步骤,它包括调整声学模型以考虑回响。
19、根据权利要求12的产品,还存储以下指令,如果执行该指令,则使基于处理器的系统能够执行获取信息的步骤,它包括选择特征提取或噪声降低算法。
20、根据权利要求12的产品,还存储以下指令,如果执行该指令,则使基于处理器的系统能够执行获取信息的步骤,它包括获取有关附近说话者的信息。
21、根据权利要求12的产品,还存储以下指令,如果执行该指令,则使基于处理器的系统能够执行获取信息的步骤,它包括获取有关周围空间大小的信息,获取有关回响的信息,选择噪声降低算法,以及获取有关附近说话者的信息,以便开发出用于当前位置的新声学模型。
22、根据权利要求12的产品,还存储以下指令,如果执行该指令,则使基于处理器的系统能够执行根据不必识别其语音的附近说话者的位置而配置一个麦克风阵列的步骤。
23、一种系统,包括:
处理器;
耦合到所述处理器的位置确定设备;以及
耦合到所述处理器的存储器,该存储器存储有使处理器能够使用位置信息来提供语音识别的指令。
24、根据权利要求23所述的系统,其中,所述位置确定设备为全球定位卫星设备。
25、根据权利要求23所述的系统,其中,所述存储器存储有使处理器能够获取链接到特定位置的声学模型以便用于改善语音识别的指令。
26、根据权利要求25所述的系统,其中,所述存储器存储用于通过无线网络从远程服务器接收模型的指令。
27、根据权利要求24所述的系统,其中,所述系统自动地为特定位置设计一种声学模型并将该模型与位置坐标一起发送到远程服务器。
28、根据权利要求23所述的系统,其中,所述系统自动获取有关所述系统周围空间大小的信息。
29、根据权利要求23所述的系统,其中,所述系统自动获取有关附近说话者的信息。
30、根据权利要求29所述的系统,其中,所述系统包括一个麦克风阵列,并根据附近说话者的位置来自动地配置所述麦克风阵列。
CN038141922A 2002-06-20 2003-06-10 改善移动设备的语音识别 Expired - Fee Related CN1692407B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US10/176,326 US7224981B2 (en) 2002-06-20 2002-06-20 Speech recognition of mobile devices
US10/176,326 2002-06-20
PCT/US2003/018408 WO2004001719A1 (en) 2002-06-20 2003-06-10 Improving speech recognition of mobile devices

Publications (2)

Publication Number Publication Date
CN1692407A true CN1692407A (zh) 2005-11-02
CN1692407B CN1692407B (zh) 2012-04-04

Family

ID=29734126

Family Applications (1)

Application Number Title Priority Date Filing Date
CN038141922A Expired - Fee Related CN1692407B (zh) 2002-06-20 2003-06-10 改善移动设备的语音识别

Country Status (9)

Country Link
US (1) US7224981B2 (zh)
EP (1) EP1514259B1 (zh)
KR (2) KR20070065893A (zh)
CN (1) CN1692407B (zh)
AT (1) ATE465485T1 (zh)
AU (1) AU2003245443A1 (zh)
DE (1) DE60332236D1 (zh)
TW (1) TWI229984B (zh)
WO (1) WO2004001719A1 (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102456141A (zh) * 2010-10-27 2012-05-16 三星Sds株式会社 用于识别用户背景的用户装置和方法
CN102737096A (zh) * 2011-03-31 2012-10-17 微软公司 基于位置的会话理解
CN103258533A (zh) * 2013-05-27 2013-08-21 重庆邮电大学 远距离语音识别中的模型域补偿新方法
CN103282957A (zh) * 2010-08-06 2013-09-04 谷歌公司 基于上下文自动监测话音输入
CN103632666A (zh) * 2013-11-14 2014-03-12 华为技术有限公司 语音识别方法、语音识别设备和电子设备
CN104025188A (zh) * 2011-12-29 2014-09-03 英特尔公司 声学信号修改
WO2014180263A1 (zh) * 2013-10-31 2014-11-13 中兴通讯股份有限公司 一种噪音处理方法、装置及系统、存储介质
CN104575493A (zh) * 2010-05-26 2015-04-29 谷歌公司 使用地理信息的声学模型适配
CN104575494A (zh) * 2013-10-16 2015-04-29 中兴通讯股份有限公司 一种语音处理的方法和终端
CN104575516A (zh) * 2013-10-07 2015-04-29 霍尼韦尔国际公司 用于在使用动态话音数据库的飞机驾驶舱中校正口音诱导话音的系统和方法
WO2015090215A1 (zh) * 2013-12-19 2015-06-25 百度在线网络技术(北京)有限公司 区分地域性口音的语音数据识别方法、装置和服务器
US9760566B2 (en) 2011-03-31 2017-09-12 Microsoft Technology Licensing, Llc Augmented conversational understanding agent to identify conversation context between two humans and taking an agent action thereof
US9842168B2 (en) 2011-03-31 2017-12-12 Microsoft Technology Licensing, Llc Task driven user intents
US9858343B2 (en) 2011-03-31 2018-01-02 Microsoft Technology Licensing Llc Personalization of queries, conversations, and searches
US10049667B2 (en) 2011-03-31 2018-08-14 Microsoft Technology Licensing, Llc Location-based conversational understanding
US10061843B2 (en) 2011-05-12 2018-08-28 Microsoft Technology Licensing, Llc Translating natural language utterances to keyword search queries
US10642934B2 (en) 2011-03-31 2020-05-05 Microsoft Technology Licensing, Llc Augmented conversational understanding architecture

Families Citing this family (62)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004038548A2 (en) * 2002-10-21 2004-05-06 Sinisi John P System and method for mobile data collection
GB2409560B (en) * 2003-12-23 2007-07-25 Ibm Interactive speech recognition model
US8589156B2 (en) * 2004-07-12 2013-11-19 Hewlett-Packard Development Company, L.P. Allocation of speech recognition tasks and combination of results thereof
US20060074660A1 (en) 2004-09-29 2006-04-06 France Telecom Method and apparatus for enhancing speech recognition accuracy by using geographic data to filter a set of words
US7522065B2 (en) * 2004-10-15 2009-04-21 Microsoft Corporation Method and apparatus for proximity sensing in a portable electronic device
US20060095266A1 (en) * 2004-11-01 2006-05-04 Mca Nulty Megan Roaming user profiles for speech recognition
US7440894B2 (en) * 2005-08-09 2008-10-21 International Business Machines Corporation Method and system for creation of voice training profiles with multiple methods with uniform server mechanism using heterogeneous devices
US20070041589A1 (en) * 2005-08-17 2007-02-22 Gennum Corporation System and method for providing environmental specific noise reduction algorithms
US8214208B2 (en) * 2006-09-28 2012-07-03 Reqall, Inc. Method and system for sharing portable voice profiles
US20080147411A1 (en) * 2006-12-19 2008-06-19 International Business Machines Corporation Adaptation of a speech processing system from external input that is not directly related to sounds in an operational acoustic environment
US8345832B2 (en) * 2009-01-09 2013-01-01 Microsoft Corporation Enhanced voicemail usage through automatic voicemail preview
US11416214B2 (en) 2009-12-23 2022-08-16 Google Llc Multi-modal input on an electronic device
EP2339576B1 (en) 2009-12-23 2019-08-07 Google LLC Multi-modal input on an electronic device
US9112989B2 (en) 2010-04-08 2015-08-18 Qualcomm Incorporated System and method of smart audio logging for mobile devices
US8265928B2 (en) 2010-04-14 2012-09-11 Google Inc. Geotagged environmental audio for enhanced speech recognition accuracy
US8352245B1 (en) 2010-12-30 2013-01-08 Google Inc. Adjusting language models
KR101791907B1 (ko) * 2011-01-04 2017-11-02 삼성전자주식회사 위치 기반의 음향 처리 장치 및 방법
US8296142B2 (en) 2011-01-21 2012-10-23 Google Inc. Speech recognition using dock context
US9298287B2 (en) 2011-03-31 2016-03-29 Microsoft Technology Licensing, Llc Combined activation for natural user interface systems
US9454962B2 (en) 2011-05-12 2016-09-27 Microsoft Technology Licensing, Llc Sentence simplification for spoken language understanding
US8811638B2 (en) * 2011-12-01 2014-08-19 Elwha Llc Audible assistance
US9245254B2 (en) 2011-12-01 2016-01-26 Elwha Llc Enhanced voice conferencing with history, language translation and identification
US8934652B2 (en) 2011-12-01 2015-01-13 Elwha Llc Visual presentation of speaker-related information
US9064152B2 (en) 2011-12-01 2015-06-23 Elwha Llc Vehicular threat detection based on image analysis
US9053096B2 (en) 2011-12-01 2015-06-09 Elwha Llc Language translation based on speaker-related information
US9368028B2 (en) 2011-12-01 2016-06-14 Microsoft Technology Licensing, Llc Determining threats based on information from road-based devices in a transportation-related context
US10875525B2 (en) 2011-12-01 2020-12-29 Microsoft Technology Licensing Llc Ability enhancement
US9159236B2 (en) 2011-12-01 2015-10-13 Elwha Llc Presentation of shared threat information in a transportation-related context
US9107012B2 (en) 2011-12-01 2015-08-11 Elwha Llc Vehicular threat detection based on audio signals
US9502029B1 (en) * 2012-06-25 2016-11-22 Amazon Technologies, Inc. Context-aware speech processing
US9953638B2 (en) * 2012-06-28 2018-04-24 Nuance Communications, Inc. Meta-data inputs to front end processing for automatic speech recognition
US8831957B2 (en) 2012-08-01 2014-09-09 Google Inc. Speech recognition models based on location indicia
US9734819B2 (en) 2013-02-21 2017-08-15 Google Technology Holdings LLC Recognizing accented speech
US9401749B2 (en) 2013-03-08 2016-07-26 Google Technology Holdings LLC Method for codebook enhancement for multi-user multiple-input multiple-output systems
US20140278393A1 (en) 2013-03-12 2014-09-18 Motorola Mobility Llc Apparatus and Method for Power Efficient Signal Conditioning for a Voice Recognition System
US9185199B2 (en) * 2013-03-12 2015-11-10 Google Technology Holdings LLC Method and apparatus for acoustically characterizing an environment in which an electronic device resides
US20140278415A1 (en) * 2013-03-12 2014-09-18 Motorola Mobility Llc Voice Recognition Configuration Selector and Method of Operation Therefor
US20140270249A1 (en) 2013-03-12 2014-09-18 Motorola Mobility Llc Method and Apparatus for Estimating Variability of Background Noise for Noise Suppression
US9237225B2 (en) 2013-03-12 2016-01-12 Google Technology Holdings LLC Apparatus with dynamic audio signal pre-conditioning and methods therefor
US9282096B2 (en) 2013-08-31 2016-03-08 Steven Goldstein Methods and systems for voice authentication service leveraging networking
US10405163B2 (en) * 2013-10-06 2019-09-03 Staton Techiya, Llc Methods and systems for establishing and maintaining presence information of neighboring bluetooth devices
US9842592B2 (en) 2014-02-12 2017-12-12 Google Inc. Language models using non-linguistic context
US9412365B2 (en) 2014-03-24 2016-08-09 Google Inc. Enhanced maximum entropy models
KR102257910B1 (ko) 2014-05-02 2021-05-27 삼성전자주식회사 음성 인식 장치 및 방법, 잡음-음성 인식 모델 생성 장치 및 방법
US9904851B2 (en) 2014-06-11 2018-02-27 At&T Intellectual Property I, L.P. Exploiting visual information for enhancing audio signals via source separation and beamforming
US11676608B2 (en) 2021-04-02 2023-06-13 Google Llc Speaker verification using co-location information
US11942095B2 (en) 2014-07-18 2024-03-26 Google Llc Speaker verification using co-location information
US9257120B1 (en) 2014-07-18 2016-02-09 Google Inc. Speaker verification using co-location information
US10134394B2 (en) 2015-03-20 2018-11-20 Google Llc Speech recognition using log-linear model
US9801219B2 (en) 2015-06-15 2017-10-24 Microsoft Technology Licensing, Llc Pairing of nearby devices using a synchronized cue signal
US10044798B2 (en) 2016-02-05 2018-08-07 International Business Machines Corporation Context-aware task offloading among multiple devices
US10484484B2 (en) 2016-02-05 2019-11-19 International Business Machines Corporation Context-aware task processing for multiple devices
US9978367B2 (en) 2016-03-16 2018-05-22 Google Llc Determining dialog states for language models
KR102565274B1 (ko) 2016-07-07 2023-08-09 삼성전자주식회사 자동 통역 방법 및 장치, 및 기계 번역 방법 및 장치
US10832664B2 (en) 2016-08-19 2020-11-10 Google Llc Automated speech recognition using language models that selectively use domain-specific model components
US9972320B2 (en) 2016-08-24 2018-05-15 Google Llc Hotword detection on multiple devices
US10429817B2 (en) 2016-12-19 2019-10-01 Honeywell International Inc. Voice control of components of a facility
US10311860B2 (en) 2017-02-14 2019-06-04 Google Llc Language model biasing system
KR102458805B1 (ko) 2017-04-20 2022-10-25 구글 엘엘씨 장치에 대한 다중 사용자 인증
KR102424514B1 (ko) * 2017-12-04 2022-07-25 삼성전자주식회사 언어 처리 방법 및 장치
CN110047478B (zh) * 2018-01-16 2021-06-08 中国科学院声学研究所 基于空间特征补偿的多通道语音识别声学建模方法及装置
TWI698857B (zh) 2018-11-21 2020-07-11 財團法人工業技術研究院 語音辨識系統及其方法、與電腦程式產品

Family Cites Families (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5263019A (en) * 1991-01-04 1993-11-16 Picturetel Corporation Method and apparatus for estimating the level of acoustic feedback between a loudspeaker and microphone
US5384856A (en) * 1991-01-21 1995-01-24 Mitsubishi Denki Kabushiki Kaisha Acoustic system
US5297183A (en) * 1992-04-13 1994-03-22 Vcs Industries, Inc. Speech recognition system for electronic switches in a cellular telephone or personal communication network
JP2602158B2 (ja) * 1992-12-04 1997-04-23 株式会社エクォス・リサーチ 音声出力装置
US5384892A (en) * 1992-12-31 1995-01-24 Apple Computer, Inc. Dynamic language model for speech recognition
US5524169A (en) * 1993-12-30 1996-06-04 International Business Machines Incorporated Method and system for location-specific speech recognition
US5835667A (en) * 1994-10-14 1998-11-10 Carnegie Mellon University Method and apparatus for creating a searchable digital video library and a system and method of using such a library
DE4440598C1 (de) * 1994-11-14 1996-05-23 Siemens Ag Durch gesprochene Worte steuerbares Hypertext-Navigationssystem, Hypertext-Dokument für dieses Navigationssystem und Verfahren zur Erzeugung eines derartigen Dokuments
US6978159B2 (en) * 1996-06-19 2005-12-20 Board Of Trustees Of The University Of Illinois Binaural signal processing using multiple acoustic sensors and digital filtering
WO1997050002A1 (en) * 1996-06-27 1997-12-31 Motorola Inc. Location determination in a communication system
US6072881A (en) * 1996-07-08 2000-06-06 Chiefs Voice Incorporated Microphone noise rejection system
US6236365B1 (en) * 1996-09-09 2001-05-22 Tracbeam, Llc Location of a mobile station using a plurality of commercial wireless infrastructures
US6272457B1 (en) * 1996-09-16 2001-08-07 Datria Systems, Inc. Spatial asset management system that time-tags and combines captured speech data and captured location data using a predifed reference grammar with a semantic relationship structure
JPH10143191A (ja) * 1996-11-13 1998-05-29 Hitachi Ltd 音声認識システム
US5897616A (en) * 1997-06-11 1999-04-27 International Business Machines Corporation Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases
US5953700A (en) * 1997-06-11 1999-09-14 International Business Machines Corporation Portable acoustic interface for remote access to automatic speech/speaker recognition server
US5991385A (en) * 1997-07-16 1999-11-23 International Business Machines Corporation Enhanced audio teleconferencing with sound field effect
US5970446A (en) * 1997-11-25 1999-10-19 At&T Corp Selective noise/channel/coding models and recognizers for automatic speech recognition
JP4154015B2 (ja) * 1997-12-10 2008-09-24 キヤノン株式会社 情報処理装置およびその方法
US6125115A (en) * 1998-02-12 2000-09-26 Qsound Labs, Inc. Teleconferencing method and apparatus with three-dimensional sound positioning
JP3722335B2 (ja) * 1998-02-17 2005-11-30 ヤマハ株式会社 残響付加装置
US6223156B1 (en) * 1998-04-07 2001-04-24 At&T Corp. Speech recognition of caller identifiers using location information
US6184829B1 (en) 1999-01-08 2001-02-06 Trueposition, Inc. Calibration for wireless location system
US6574601B1 (en) * 1999-01-13 2003-06-03 Lucent Technologies Inc. Acoustic speech recognizer system and method
US20030060211A1 (en) * 1999-01-26 2003-03-27 Vincent Chern Location-based information retrieval system for wireless communication device
JP3847624B2 (ja) * 1999-07-28 2006-11-22 三菱電機株式会社 携帯電話機
JP2001075594A (ja) * 1999-08-31 2001-03-23 Pioneer Electronic Corp 音声認識システム
US6937977B2 (en) * 1999-10-05 2005-08-30 Fastmobile, Inc. Method and apparatus for processing an input speech signal during presentation of an output audio signal
JP4415432B2 (ja) * 1999-10-08 2010-02-17 トヨタ自動車株式会社 手動バルブ
JP3376487B2 (ja) * 1999-10-27 2003-02-10 独立行政法人産業技術総合研究所 言い淀み検出方法及び装置
US6449593B1 (en) * 2000-01-13 2002-09-10 Nokia Mobile Phones Ltd. Method and system for tracking human speakers
US6850766B2 (en) * 2000-04-26 2005-02-01 Wirenix, Inc. Voice activated wireless locator service
KR20010106799A (ko) * 2000-05-23 2001-12-07 류정열 자동차용 음성 인식 장치
US6624922B1 (en) * 2000-06-02 2003-09-23 Northrop Grumman Corporation Electro-optic device for adding/subtracting optical signals
US7047196B2 (en) * 2000-06-08 2006-05-16 Agiletv Corporation System and method of voice recognition near a wireline node of a network supporting cable television and/or video delivery
US6230138B1 (en) * 2000-06-28 2001-05-08 Visteon Global Technologies, Inc. Method and apparatus for controlling multiple speech engines in an in-vehicle speech recognition system
KR20020006357A (ko) 2000-07-12 2002-01-19 유영욱 구역별 정보 제공 서비스 방법 및 시스템
JP4283984B2 (ja) * 2000-10-12 2009-06-24 パイオニア株式会社 音声認識装置ならびに方法
US20020072917A1 (en) * 2000-12-11 2002-06-13 Irvin David Rand Method and apparatus for speech recognition incorporating location information
US20020097884A1 (en) * 2001-01-25 2002-07-25 Cairns Douglas A. Variable noise reduction algorithm based on vehicle conditions
US6810380B1 (en) * 2001-03-28 2004-10-26 Bellsouth Intellectual Property Corporation Personal safety enhancement for communication devices
US6785647B2 (en) * 2001-04-20 2004-08-31 William R. Hutchison Speech recognition system with network accessible speech processing resources
US7209881B2 (en) 2001-12-20 2007-04-24 Matsushita Electric Industrial Co., Ltd. Preparing acoustic models by sufficient statistics and noise-superimposed speech data
US6853907B2 (en) * 2002-03-21 2005-02-08 General Motors Corporation Method and system for communicating vehicle location information
JPWO2003088209A1 (ja) * 2002-04-12 2005-08-25 三菱電機株式会社 カーナビゲーションシステム並びにその音声認識装置

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104575493B (zh) * 2010-05-26 2019-03-26 谷歌有限责任公司 使用地理信息的声学模型适配
CN104575493A (zh) * 2010-05-26 2015-04-29 谷歌公司 使用地理信息的声学模型适配
CN106126178A (zh) * 2010-08-06 2016-11-16 谷歌公司 基于上下文自动监测话音输入
CN103282957A (zh) * 2010-08-06 2013-09-04 谷歌公司 基于上下文自动监测话音输入
CN103282957B (zh) * 2010-08-06 2016-07-13 谷歌公司 基于上下文自动监测话音输入
CN106126178B (zh) * 2010-08-06 2019-09-06 谷歌有限责任公司 基于上下文自动监测话音输入
CN102456141A (zh) * 2010-10-27 2012-05-16 三星Sds株式会社 用于识别用户背景的用户装置和方法
CN102456141B (zh) * 2010-10-27 2015-11-25 三星Sds株式会社 用于识别用户背景的用户装置和方法
US10585957B2 (en) 2011-03-31 2020-03-10 Microsoft Technology Licensing, Llc Task driven user intents
CN102737096B (zh) * 2011-03-31 2017-08-25 微软技术许可有限责任公司 基于位置的会话理解
CN102737096A (zh) * 2011-03-31 2012-10-17 微软公司 基于位置的会话理解
US9858343B2 (en) 2011-03-31 2018-01-02 Microsoft Technology Licensing Llc Personalization of queries, conversations, and searches
US10049667B2 (en) 2011-03-31 2018-08-14 Microsoft Technology Licensing, Llc Location-based conversational understanding
US9842168B2 (en) 2011-03-31 2017-12-12 Microsoft Technology Licensing, Llc Task driven user intents
US10642934B2 (en) 2011-03-31 2020-05-05 Microsoft Technology Licensing, Llc Augmented conversational understanding architecture
US9760566B2 (en) 2011-03-31 2017-09-12 Microsoft Technology Licensing, Llc Augmented conversational understanding agent to identify conversation context between two humans and taking an agent action thereof
US10296587B2 (en) 2011-03-31 2019-05-21 Microsoft Technology Licensing, Llc Augmented conversational understanding agent to identify conversation context between two humans and taking an agent action thereof
US10061843B2 (en) 2011-05-12 2018-08-28 Microsoft Technology Licensing, Llc Translating natural language utterances to keyword search queries
CN104025188B (zh) * 2011-12-29 2016-09-07 英特尔公司 声学信号修改
CN104025188A (zh) * 2011-12-29 2014-09-03 英特尔公司 声学信号修改
CN103258533A (zh) * 2013-05-27 2013-08-21 重庆邮电大学 远距离语音识别中的模型域补偿新方法
CN103258533B (zh) * 2013-05-27 2015-05-13 重庆邮电大学 远距离语音识别中的模型域补偿新方法
CN104575516A (zh) * 2013-10-07 2015-04-29 霍尼韦尔国际公司 用于在使用动态话音数据库的飞机驾驶舱中校正口音诱导话音的系统和方法
CN104575516B (zh) * 2013-10-07 2020-02-28 霍尼韦尔国际公司 用于在使用动态话音数据库的飞机驾驶舱中校正口音诱导话音的系统和方法
CN104575494A (zh) * 2013-10-16 2015-04-29 中兴通讯股份有限公司 一种语音处理的方法和终端
CN104601764A (zh) * 2013-10-31 2015-05-06 中兴通讯股份有限公司 移动终端的噪音处理方法、装置及系统
WO2014180263A1 (zh) * 2013-10-31 2014-11-13 中兴通讯股份有限公司 一种噪音处理方法、装置及系统、存储介质
US9870771B2 (en) 2013-11-14 2018-01-16 Huawei Technologies Co., Ltd. Environment adaptive speech recognition method and device
CN103632666B (zh) * 2013-11-14 2016-09-28 华为技术有限公司 语音识别方法、语音识别设备和电子设备
CN103632666A (zh) * 2013-11-14 2014-03-12 华为技术有限公司 语音识别方法、语音识别设备和电子设备
US9928831B2 (en) 2013-12-19 2018-03-27 Baidu Online Network Technology (Beijing) Co., Ltd. Speech data recognition method, apparatus, and server for distinguishing regional accent
WO2015090215A1 (zh) * 2013-12-19 2015-06-25 百度在线网络技术(北京)有限公司 区分地域性口音的语音数据识别方法、装置和服务器

Also Published As

Publication number Publication date
CN1692407B (zh) 2012-04-04
DE60332236D1 (de) 2010-06-02
AU2003245443A1 (en) 2004-01-06
US7224981B2 (en) 2007-05-29
ATE465485T1 (de) 2010-05-15
WO2004001719A1 (en) 2003-12-31
KR20070065893A (ko) 2007-06-25
KR100830251B1 (ko) 2008-05-16
EP1514259A1 (en) 2005-03-16
KR20050007429A (ko) 2005-01-17
TWI229984B (en) 2005-03-21
EP1514259B1 (en) 2010-04-21
TW200412730A (en) 2004-07-16
US20030236099A1 (en) 2003-12-25

Similar Documents

Publication Publication Date Title
CN1692407B (zh) 改善移动设备的语音识别
US11443769B2 (en) Enhancing audio using multiple recording devices
CN110214351B (zh) 记录的媒体热词触发抑制
CN107895574B (zh) 基于装置拓扑结构来处理语音命令
Tarzia et al. Indoor localization without infrastructure using the acoustic background spectrum
CN103038817B (zh) 使用地理信息的声学模型适配
CN103190139B (zh) 用于提供会议信息的系统和方法
US9626962B2 (en) Method and apparatus for recognizing speech, and method and apparatus for generating noise-speech recognition model
CN111696570B (zh) 语音信号处理方法、装置、设备及存储介质
WO2022206602A1 (zh) 语音唤醒方法、装置、存储介质及系统
US7392183B2 (en) Schedule event context for speech recognition
WO2021118946A1 (en) Methods for reducing error in environmental noise compensation systems
CN113486942A (zh) 一种重复火警判定方法、装置、电子设备及存储介质
US11460927B2 (en) Auto-framing through speech and video localizations
WO2023103693A1 (zh) 音频信号的处理方法、装置、设备及存储介质
CN113808578B (zh) 音频信号处理方法、装置、设备及存储介质
CN112700770A (zh) 语音控制方法、音箱设备、计算设备和存储介质
US11743588B1 (en) Object selection in computer vision
US20220360935A1 (en) Sound field control apparatus and method for the same
US20210037319A1 (en) Estimating user location in a system including smart audio devices
US10811011B2 (en) Correcting for impulse noise in speech recognition systems
CN114648979A (zh) 语音识别处理方法、装置及电子设备
Kellner Room Recognition Using Audio Signals

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120404

Termination date: 20170610

CF01 Termination of patent right due to non-payment of annual fee