CN1802694A - 信噪比中介的语音识别算法 - Google Patents

信噪比中介的语音识别算法 Download PDF

Info

Publication number
CN1802694A
CN1802694A CNA2004800159417A CN200480015941A CN1802694A CN 1802694 A CN1802694 A CN 1802694A CN A2004800159417 A CNA2004800159417 A CN A2004800159417A CN 200480015941 A CN200480015941 A CN 200480015941A CN 1802694 A CN1802694 A CN 1802694A
Authority
CN
China
Prior art keywords
language
noise
speech recognition
signal
saying
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2004800159417A
Other languages
English (en)
Inventor
乔丹·科恩
丹尼尔·L.·罗森
劳伦斯·S.·吉利克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Voice Signal Technologies Inc
Original Assignee
Voice Signal Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Voice Signal Technologies Inc filed Critical Voice Signal Technologies Inc
Publication of CN1802694A publication Critical patent/CN1802694A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Navigation (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
  • Machine Translation (AREA)
  • Telephone Function (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

在噪声环境中处理语音的方法包括:基于唤醒命令确定何时环境噪声太多以致不能产生用户说出的话语的可靠识别,并警告用户环境噪声太多。确定何时环境噪声太多包括计算信噪比。信号对应于说出的话语中的能量值,噪声对应于背景噪声中的能量值。所述方法还包括将信噪比和一个门限作比较。

Description

信噪比中介的语音识别算法
技术领域
本发明一般涉及具有语音识别能力的无线通信设备。
背景技术
无线通信设备,如蜂窝式移动电话(蜂窝电话),通常采用使用户能以免提及免看(eyes-free)方式操作设备的语音识别算法。例如,目前市场上的许多蜂窝电话能够识别并执行语音命令以发起呼出的电话呼叫,接听呼入的电话呼叫,和执行其它功能。这些蜂窝电话中的许多还可以识别口头说出的姓名,并在电子电话薄中找到该识别出的姓名,然后自动呼叫与该姓名相关联的电话号码。
当用户操作设备的环境具有较低的背景噪声时,也就是当语音信号的信噪比较高时,语音识别算法性能较好。当背景噪声级别增加时,语音信号的信噪比减小,语音识别算法的错误率就上升。换句话说,说出的词或者根本不能被识别或者被错误地识别。在其中可用计算功率和存储器由于较小的工作平台的小的尺寸而被严格限制的蜂窝电话和其它移动通信设备的情况下,上述情况特别成问题。而且,蜂窝电话和其它移动通信设备一般都在噪声环境下使用。例如,蜂窝电话通常在汽车里和繁忙的城市街道上这两种场所被使用。在汽车里,尤其是在高速公路上行驶的汽车里,语音信号将被掺杂进大量的汽车噪声(例如,轮胎相对路面所发出的噪声、空气流过汽车所发出的噪声、无线电台的音乐声等)。在繁忙的城市街道上,语音信号将被掺杂进交通噪声、汽车喇叭声、和其他附近人们的谈话声等。
发明内容
所描述的实施例在语音环境噪声太多以至于嵌入的语音识别器不能可靠的工作时将会通知蜂窝电话用户。然后,蜂窝电话用户可以采取步骤增加SNR,例如,通过大些声音说话或通过减小噪声级别。
一方面,在移动设备中执行语音识别的方法包括从移动设备的用户接收说出的话语,通过语音识别算法来处理从接收到的说出的话语中所得到的信号。对得到的信号的处理还包括确定说出话语的环境是否噪声太多以致不能产生说出的话语的可靠识别。所述方法还包括:如果对得到的信号的处理确定环境噪声太多以致不能产生说出的话语的可靠识别,则执行改善通过语音识别算法对说出的话语的内容的识别的动作。
改善对说出的话语的内容的识别的动作可以包括警告用户存在太多噪声以致不允许说出的话语的可靠识别。所述动作可以包括:要求用户重复话语,或产生音频信号,或产生视觉信号。所述动作可以包括移动设备的机械振动。
改善对说出的话语的内容的识别的动作可以包括修改语音识别算法以改善在说出话语的环境中的识别性能。语音识别算法可以包括声学模型,其中修改语音识别算法包括改变声学模型。语音识别算法可以包括被参数化以处理不同级别的背景噪声的声学模型,其中修改语音识别算法包括改变声学模型中的参数以适应背景噪声的级别。
确定说出话语的环境是否噪声太多以致不能产生可靠识别的步骤可以包括计算接收到的话语的信噪比,并将计算出的信噪比和一个门限作比较。
另一方面,一个实施例包括存储指令的计算机可读媒介,所述指令当在处理器系统上被运行时使处理器系统使用语音识别算法来处理从用户所说出的话语得到的信号。处理器系统上所运行的指令还确定说出话语的环境是否噪声太多以致不能产生说出的话语的可靠识别。如果确定环境噪声太多以致不能产生说出的话语的可靠识别,则处理器系统上所运行的指令执行改善通过语音识别算法对说出的话语的内容的识别的动作。
处理器系统上所运行的存储的指令使处理器系统通过警告用户存在太多噪声以致不允许说出的话语的可靠识别来执行所述动作,或者所述指令使处理器系统通过计算说出的话语的信噪比来确定说出话语的环境是否噪声太多以致不能产生可靠识别。处理器系统上所运行的存储的指令可以使处理器系统还通过比较计算出的信噪比和一个门限来确定说出话语的环境是否噪声太多以致不能产生可靠识别。
处理器系统上所运行的指令可以使处理器系统通过修改语音识别算法以改善在说出话语的环境中的识别性能来执行所述动作。在一个实施例中,语音识别算法包括声学模型,并且其中所存储的指令使处理器系统通过改变声学模型来修改语音识别算法。在另一个实施例中,语音算法包括被参数化以处理不同级别的背景噪声的声学模型。所存储的指令使处理器系统通过改变声学模型中的参数以适应背景噪声的级别来修改语音识别算法。
附图说明
图1是本发明一个实施例的操作的流程图。
图2是其上可以实现这里所描述功能的智能电话的高级别框图。
具体实施方式
所描述的实施例是一种具有软件的蜂窝电话,所述软件提供语音识别功能,如现在商用的很多蜂窝电话中都具有的语音识别功能。一般地,语音识别功能允许用户避开手动键盘而通过说出的词来输入命令和数据。在这种情况下,软件还确定蜂窝电话正使用的环境是否噪声太多以致不能产生用户说出的话语的可靠识别。在下面更加详细描述的实施例中,软件测量SNR并将其和预先设置的门限相比较来确定是否噪声太多。在确定环境噪声太多时,蜂窝电话接着采取动作来处理这个问题。例如,或者它警告用户环境噪声太多以致不允许可靠识别,或者它修改内部语音识别算法来改善特定环境下的识别性能。
结合图1中的流程图,我们来描述本发明一个特定实施例的操作。之后,我们将描述检测何时环境噪声太多的可选方法,和响应噪声环境的可选方法。最后,我们将描述其中能实现所述功能的典型的蜂窝电话。
蜂窝电话首先接收唤醒(wake-up)命令(块200),该命令可以是按一下按钮,敲击一下键盘,特定的说出的关键字,或者仅是来自于用户的一声开始。唤醒命令初始化确定语音环境是否噪声太多的进程。如果唤醒命令是说出的命令,则软件可以被配置成使用唤醒命令来测量SNR。另外,它可以被配置成等待下一个从用户所接收的话语,并使用该下一个话语(或该话语的某部分)来测量SNR。
为了确定SNR,语音识别软件计算作为所述话语的时间的函数的能量值(块202)。然后,它识别出话语中具有最高能量的部分(块204),并且它识别出具有最低能量的部分(块206)。软件使用这两个值计算话语的SNR(块208)。在这种情况下,SNR简单地是最高值和最低值的比。
在所描述的实施例中,识别软件逐帧地处理所接收的话语,其中,每一帧代表话语的一个采样序列。软件为每一帧计算能量值。它通过在整帧上对采样的能量求积分值来计算每帧的能量值,这样所计算的能量值代表相关帧的总能量。在话语的最后(或话语开始后过了一段时间),软件识别具有最高能量值的帧和具有最低能量值的帧。然后通过用具有最高能量值的帧的能量除以具有最低能量值的帧的能量来计算SNR。
语音识别软件将所计算的信噪比和可接受的门限相比较(块210)。门限表示语音识别产生一个可接受的低错误率时SNR必需超过的级别。门限可通过经验、分析、或者通过两者的某种结合来确定。软件还允许用户调节此门限以调整蜂窝电话的性能或灵敏度。
如果信噪比没有超过可接受的门限,则语音识别软件通知用户信噪比太低212。
如果信噪比没有超过可接受的门限,则语音识别软件采取步骤处理这个问题(块212)。在所描述的实施例中,它可以通过停止继续识别并简单地警告用户噪声太多以致不能进行可靠的识别来处理这个问题。然后,用户可以尽量减小背景噪声级别(例如,通过改变其位置,调低收音机,等待某些特定噪声事件结束等)。语音识别软件通过多种不同方式中的一个或多个来警告用户,所述方式可由用户来配置,包括音频信号(例如,嘟嘟响或者音调)、视觉信号(例如,蜂窝电话显示器上的消息或闪烁信号)、触觉信号(例如,如果蜂窝电话装配了振动功能的话,产生振动脉冲)、或它们的某种结合。
如果信噪比超过了可接受的门限,则语音识别软件继续正常的处理。
语音识别算法可以使用其它技术(或所述技术的结合)来计算语音信号的信噪比。一般地,这些技术确定引入的语音的能量相对于非语音的能量的值。另外一种技术是产生整个话语的或一段时期内的能量直方图(histogram),并计算较低能量百分点对较高能量百分点的比值(例如,百分之五的能量区域相对于百分之九十五的能量区域)。另一种技术是使用两状态HMM(隐马尔可夫模型(Hidden MarkovModel)),并计算两状态的平均值和方差,其中所述状态之一表示语音,另一个状态表示噪声。
语音识别算法还可以计算和信号与噪声有关的统计值。这个统计值被称为“可理解性指数(intelligibility index)”。根据这个方法,语音识别软件将声音帧(或帧内的采样)分散到离散的频率范围中,并仅针对所述频率范围的子集计算高能量对低能量的比值。例如,在一个特定环境中,噪声可能主要在300Hz到600Hz的频率范围内。因此,语音识别软件将仅针对落在该频率范围内的能量计算高能量对低能量的比值。另外,语音识别软件可以对不同频率范围中的每个应用一个加权系数,并计算加权的复合的高能量对低能量的比值。
在上述实施例中,语音识别软件通过警告用户来响应检测到低的SNR。还有其它方式,其中,它可以作为发送简单警告的替代或者除了发送简单警告之外来进行响应。例如,语音识别软件可以在视觉上或在听觉上指示用户重复话语。代替告警用户,语音识别软件可以修改说明噪音环境的声学模型来产生在该环境中执行得更好的语音识别器。
例如,语音识别软件可以包括从嘈杂的语音中被训练出的声学模型。所述声学模型可以被参数化以处理不同的噪声级别。在所述情况下,语音识别软件将根据计算出的信噪比来选择所述级别中合适的一个。另外,声学模型可以是可衡量的,以处理一定范围内的噪声级别,在这种情况下,语音识别软件将根据计算出的信噪比来衡量使用的模型。另一种方法是利用参数化的声学模型来处理各种噪声(例如,汽车噪声、街道噪声、听众席上的噪声等),在这种情况下语音识别软件将根据用户输入和/或计算出的信噪比来选择特定的一种类型用于所述模型。
另一种方法是使用具有不同语音学清单的声学模型来说明高噪声环境。例如,高噪声环境可以使某些辅音(例如,“p’s”和“b’s”)模糊,因此,被专门设计为就那些被模糊的辅音来解码的具有语音学清单的声学模型在噪声环境下比默认的声学模型执行得更好。
然而,另一种方法将使用具有不同分类器几何学(classifiergeometry)的声学模型来补偿低信噪比环境。这种分类器包括HMM、神经网络、或现有技术中已知的其它语音分类器。语音识别软件还可以使用具有不同前端参数化的声学模型以在噪声环境中提供更好的性能。例如,如果噪声被限制在一个特定的窄频率范围内,则处理声学信号的频谱表示的声学模型可以比处理信号的倒频谱(cepstral)表示的声学模型执行得更好。这是因为频谱模型能够去除噪声频率范围,而倒频谱模型不能。
图2所示的智能电话100是可以实施上述语音识别功能的平台的例子。智能电话100的一个例子是Microsoft PocketPC-powered电话,所述电话在其核心包括用于处理蜂窝通信功能(包括例如语音频带和信道编码功能)的基带DSP 102(数字信号处理器),和PocketPC操作系统在其上运行的应用处理器104(例如,Intel StrongArm SA-1110)。该电话支持GSM语音呼叫、SMS(短消息业务)文本消息、无线电子邮件、和类似桌上型电脑的网页浏览以及其它传统的PDA特征。
后面有功率放大器模块110的RF合成器106和RF无线电收发器108实现发送和接收功能。功率放大器模块通过天线112处理最后阶段的RF发送任务。接口ASIC 114和音频CODEC 116将接口提供给扬声器、麦克风、和电话中所提供的其它输入/输出设备,例如用于输入命令和信息的数字的或字母数字的键盘(没有示出)。
DSP 102使用闪存118来进行代码存储。锂离子(lithium-ion)电池120为电话供电,以及被耦合到DSP 102的功率管理模块122管理电话内的功率消耗。SDRAM 124和闪存126分别为应用处理器114提供易失性的和非易失性的存储器。存储器的这种安排保持了操作系统的代码、例如电话薄的用户化特征的代码、和用于智能电话中任何其它应用软件的代码,包括前面描述的语音识别软件。智能电话的可视显示设备包括驱动LCD显示器130的LCD驱动芯片128。还有时钟模块132,所述时钟模块为电话内的其它设备提供时钟信号以及提供实时的指示器。所有上述部件都被封装在适当设计的外壳(housing)134中。
上述智能电话100表示大量不同的商用智能电话的一般内部结构,以及这些电话的内部电路设计在现有技术中是已知的。
其它方面、修改、和实施例都是在下面权利要求的范围内的。

Claims (19)

1.一种在移动设备上执行语音识别的方法,所述方法包括:
从所述移动设备的用户接收说出的话语;
通过语音识别算法来处理从接收到的说出的话语中得到的信号,其中所述对得到的信号的处理还包括确定说出话语的环境是否噪声太多以致不能产生说出的话语的可靠识别;
如果对得到的信号的处理确定所述环境噪声太多以致不能产生说出的话语的可靠识别,则执行改善通过语音识别算法对说出的话语的内容的识别的动作。
2.根据权利要求1所述的方法,其中执行所述动作包括警告用户存在太多噪声以致不允许说出的话语的可靠识别。
3.根据权利要求2所述的方法,其中警告还包括请求用户重复话语。
4.根据权利要求2所述的方法,其中警告包括产生语音信号。
5.根据权利要求2所述的方法,其中警告包括产生视觉信号。
6.根据权利要求2所述的方法,其中警告包括产生触觉信号。
7.根据权利要求6所述的方法,其中触觉信号是移动设备的机械振动。
8.根据权利要求1所述的方法,其中确定说出话语的环境是否噪声太多以致不能产生可靠识别包括计算接收到的话语的信噪比。
9.根据权利要求8所述的方法,其中确定说出话语的环境是否噪声太多以致不能产生可靠识别还包括将计算出的信噪比和一个门限作比较。
10.根据权利要求1所述的方法,其中执行所述动作包括修改语音识别算法以改善在说出话语的环境中的识别性能。
11.根据权利要求10所述的方法,其中所述语音识别算法包括声学模型,并且其中修改语音识别算法包括改变所述声学模型。
12.根据权利要求10所述的方法,其中所述语音识别算法包括被参数化以处理不同级别的背景噪声的声学模型,并且其中修改所述语音识别算法包括改变所述声学模型中的参数以适应背景噪声的级别。
13.一种存储指令的计算机可读媒介,所述指令当在处理器系统上被运行时使所述处理器系统:
使用语音识别算法来处理从用户说出的话语中得到的信号;
确定说出话语的环境是否噪声太多以致不能产生说出的话语的可靠识别;和
如果确定环境噪声太多以致不能产生说出的话语的可靠识别,则执行改善通过所述语音识别算法对说出的话语的内容的识别的动作。
14.根据权利要求13所述的计算机可读媒介,其中所述存储的指令使所述处理器系统通过警告用户存在太多噪声以致不允许说出的话语的可靠识别来执行所述动作。
15.根据权利要求13所述的计算机可读媒介,其中所述存储的指令使所述处理器系统通过计算说出的话语的信噪比来确定说出话语的环境是否噪声太多以致不能产生可靠识别。
16.根据权利要求13所述的计算机可读媒介,其中所述存储的指令使所述处理器系统通过还将计算出的信噪比和一个门限作比较来确定说出话语的环境是否噪声太多以致不能产生可靠识别。
17.根据权利要求13所述的计算机可读媒介,其中所述存储的指令使所述处理器系统通过修改语音识别算法以改善在说出话语的环境中的识别性能来执行所述动作。
18.根据权利要求17所述的计算机可读媒介,其中所述语音识别算法包括声学模型,并且其中所述存储的指令使所述处理器系统通过改变所述声学模型来修改所述语音识别算法。
19.根据权利要求17所述的计算机可读媒介,其中所述语音算法包括被参数化以处理不同级别的背景噪声的声学模型,并且其中所述存储的指令使所述处理器系统通过改变声学模型中的参数以适应背景噪声的级别来修改语音识别算法。
CNA2004800159417A 2003-05-08 2004-05-10 信噪比中介的语音识别算法 Pending CN1802694A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US46962703P 2003-05-08 2003-05-08
US60/469,627 2003-05-08

Publications (1)

Publication Number Publication Date
CN1802694A true CN1802694A (zh) 2006-07-12

Family

ID=33452306

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2004800159417A Pending CN1802694A (zh) 2003-05-08 2004-05-10 信噪比中介的语音识别算法

Country Status (6)

Country Link
US (1) US20040260547A1 (zh)
JP (1) JP2007501444A (zh)
CN (1) CN1802694A (zh)
DE (1) DE112004000782T5 (zh)
GB (1) GB2417812B (zh)
WO (1) WO2004102527A2 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011044853A1 (zh) * 2009-10-15 2011-04-21 华为技术有限公司 一种实现通信系统中背景噪声的跟踪的方法和装置
CN105278682A (zh) * 2009-11-04 2016-01-27 意美森公司 用于对命令进行触觉确认的系统和方法
WO2018149285A1 (zh) * 2017-02-16 2018-08-23 腾讯科技(深圳)有限公司 语音唤醒方法、装置、电子设备及存储介质
CN108564948A (zh) * 2018-03-30 2018-09-21 联想(北京)有限公司 一种语音识别方法及电子设备
CN111433737A (zh) * 2017-12-04 2020-07-17 三星电子株式会社 电子装置及其控制方法
WO2023050301A1 (zh) * 2021-09-30 2023-04-06 华为技术有限公司 语音质量评估、语音识别质量预测与提高的方法及装置

Families Citing this family (74)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8005668B2 (en) * 2004-09-22 2011-08-23 General Motors Llc Adaptive confidence thresholds in telematics system speech recognition
US8175877B2 (en) * 2005-02-02 2012-05-08 At&T Intellectual Property Ii, L.P. Method and apparatus for predicting word accuracy in automatic speech recognition systems
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
TWI319152B (en) * 2005-10-04 2010-01-01 Ind Tech Res Inst Pre-stage detecting system and method for speech recognition
US7706297B1 (en) * 2006-05-19 2010-04-27 National Semiconductor Corporation System and method for providing real time signal to noise computation for a 100Mb Ethernet physical layer device
WO2008007616A1 (fr) * 2006-07-13 2008-01-17 Nec Corporation Dispositif, procédé et programme d'alarme relatif à une entrée de murmure non audible
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
JP5151102B2 (ja) * 2006-09-14 2013-02-27 ヤマハ株式会社 音声認証装置、音声認証方法およびプログラム
JP5151103B2 (ja) * 2006-09-14 2013-02-27 ヤマハ株式会社 音声認証装置、音声認証方法およびプログラム
KR100834679B1 (ko) * 2006-10-31 2008-06-02 삼성전자주식회사 음성 인식 오류 통보 장치 및 방법
US8019050B2 (en) * 2007-01-03 2011-09-13 Motorola Solutions, Inc. Method and apparatus for providing feedback of vocal quality to a user
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
EP3576388A1 (en) 2008-11-10 2019-12-04 Google LLC Speech detection
JP5402089B2 (ja) * 2009-03-02 2014-01-29 富士通株式会社 音響信号変換装置、方法、及びプログラム
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
JP6024180B2 (ja) * 2012-04-27 2016-11-09 富士通株式会社 音声認識装置、音声認識方法、及びプログラム
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9311931B2 (en) * 2012-08-09 2016-04-12 Plantronics, Inc. Context assisted adaptive noise reduction
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9691377B2 (en) * 2013-07-23 2017-06-27 Google Technology Holdings LLC Method and device for voice recognition training
US9251804B2 (en) 2012-11-21 2016-02-02 Empire Technology Development Llc Speech recognition
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9418651B2 (en) 2013-07-31 2016-08-16 Google Technology Holdings LLC Method and apparatus for mitigating false accepts of trigger phrases
US9548047B2 (en) 2013-07-31 2017-01-17 Google Technology Holdings LLC Method and apparatus for evaluating trigger phrase enrollment
US9031205B2 (en) * 2013-09-12 2015-05-12 Avaya Inc. Auto-detection of environment for mobile agent
JP6383409B2 (ja) * 2014-05-02 2018-08-29 株式会社ソニー・インタラクティブエンタテインメント 案内装置、案内方法、プログラム及び情報記憶媒体
US9548065B2 (en) * 2014-05-05 2017-01-17 Sensory, Incorporated Energy post qualification for phrase spotting
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) * 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US20160284349A1 (en) * 2015-03-26 2016-09-29 Binuraj Ravindran Method and system of environment sensitive automatic speech recognition
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US20170294138A1 (en) * 2016-04-08 2017-10-12 Patricia Kavanagh Speech Improvement System and Method of Its Use
US10037677B2 (en) 2016-04-20 2018-07-31 Arizona Board Of Regents On Behalf Of Arizona State University Speech therapeutic devices and methods
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10283138B2 (en) * 2016-10-03 2019-05-07 Google Llc Noise mitigation for a voice interface device
US10462567B2 (en) 2016-10-11 2019-10-29 Ford Global Technologies, Llc Responding to HVAC-induced vehicle microphone buffeting
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10186260B2 (en) * 2017-05-31 2019-01-22 Ford Global Technologies, Llc Systems and methods for vehicle automatic speech recognition error detection
US10525921B2 (en) 2017-08-10 2020-01-07 Ford Global Technologies, Llc Monitoring windshield vibrations for vehicle collision detection
US10562449B2 (en) 2017-09-25 2020-02-18 Ford Global Technologies, Llc Accelerometer-based external sound monitoring during low speed maneuvers
US10479300B2 (en) 2017-10-06 2019-11-19 Ford Global Technologies, Llc Monitoring of vehicle window vibrations for voice-command recognition
CN113555028A (zh) * 2021-07-19 2021-10-26 首约科技(北京)有限公司 一种用于车联网语音降噪的处理方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2003A (en) * 1841-03-12 Improvement in horizontal windivhlls
JPH11194797A (ja) * 1997-12-26 1999-07-21 Kyocera Corp 音声認識作動装置
US6336091B1 (en) * 1999-01-22 2002-01-01 Motorola, Inc. Communication device for screening speech recognizer input
US6324509B1 (en) * 1999-02-08 2001-11-27 Qualcomm Incorporated Method and apparatus for accurate endpointing of speech in the presence of noise
US6370503B1 (en) * 1999-06-30 2002-04-09 International Business Machines Corp. Method and apparatus for improving speech recognition accuracy
JP3969908B2 (ja) * 1999-09-14 2007-09-05 キヤノン株式会社 音声入力端末器、音声認識装置、音声通信システム及び音声通信方法
US6954657B2 (en) * 2000-06-30 2005-10-11 Texas Instruments Incorporated Wireless communication device having intelligent alerting system
US20020087306A1 (en) * 2000-12-29 2002-07-04 Lee Victor Wai Leung Computer-implemented noise normalization method and system
JP2002244696A (ja) * 2001-02-20 2002-08-30 Kenwood Corp 音声認識による制御装置
JP2003091299A (ja) * 2001-07-13 2003-03-28 Honda Motor Co Ltd 車載用音声認識装置
US7487084B2 (en) * 2001-10-30 2009-02-03 International Business Machines Corporation Apparatus, program storage device and method for testing speech recognition in the mobile environment of a vehicle
DE10251113A1 (de) * 2002-11-02 2004-05-19 Philips Intellectual Property & Standards Gmbh Verfahren zum Betrieb eines Spracherkennungssystems

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011044853A1 (zh) * 2009-10-15 2011-04-21 华为技术有限公司 一种实现通信系统中背景噪声的跟踪的方法和装置
US8095361B2 (en) 2009-10-15 2012-01-10 Huawei Technologies Co., Ltd. Method and device for tracking background noise in communication system
US8447601B2 (en) 2009-10-15 2013-05-21 Huawei Technologies Co., Ltd. Method and device for tracking background noise in communication system
CN105278682A (zh) * 2009-11-04 2016-01-27 意美森公司 用于对命令进行触觉确认的系统和方法
CN105278682B (zh) * 2009-11-04 2018-09-28 意美森公司 用于对命令进行触觉确认的系统和方法
WO2018149285A1 (zh) * 2017-02-16 2018-08-23 腾讯科技(深圳)有限公司 语音唤醒方法、装置、电子设备及存储介质
US11069343B2 (en) 2017-02-16 2021-07-20 Tencent Technology (Shenzhen) Company Limited Voice activation method, apparatus, electronic device, and storage medium
CN111433737A (zh) * 2017-12-04 2020-07-17 三星电子株式会社 电子装置及其控制方法
CN111433737B (zh) * 2017-12-04 2024-06-14 三星电子株式会社 电子装置及其控制方法
CN108564948A (zh) * 2018-03-30 2018-09-21 联想(北京)有限公司 一种语音识别方法及电子设备
WO2023050301A1 (zh) * 2021-09-30 2023-04-06 华为技术有限公司 语音质量评估、语音识别质量预测与提高的方法及装置

Also Published As

Publication number Publication date
GB2417812B (en) 2007-04-18
GB2417812A (en) 2006-03-08
US20040260547A1 (en) 2004-12-23
WO2004102527A2 (en) 2004-11-25
WO2004102527A8 (en) 2005-04-14
JP2007501444A (ja) 2007-01-25
DE112004000782T5 (de) 2008-03-06
WO2004102527A3 (en) 2005-02-24
GB0523024D0 (en) 2005-12-21

Similar Documents

Publication Publication Date Title
CN1802694A (zh) 信噪比中介的语音识别算法
CN110310623B (zh) 样本生成方法、模型训练方法、装置、介质及电子设备
CN1160698C (zh) 噪声信号中语音的端点定位
EP1595245B1 (en) Method of producing alternate utterance hypotheses using auxiliary information on close competitors
US6463413B1 (en) Speech recognition training for small hardware devices
CN1168070C (zh) 分布式语音识别系统
RU2393549C2 (ru) Способ и устройство для распознавания речи
EP2089877B1 (en) Voice activity detection system and method
US7319960B2 (en) Speech recognition method and system
CN1346486A (zh) 用于语音启动装置的讲话用户接口
WO2002095729A1 (en) Method and apparatus for adapting voice recognition templates
KR100321464B1 (ko) 음성 인식 시스템에서 특성을 추출하는 방법
US7103547B2 (en) Implementing a high accuracy continuous speech recognizer on a fixed-point processor
CN1620083A (zh) 电话号码检索系统和方法
CN1165889C (zh) 话音拨号的方法和系统
Gong et al. Implementing a high accuracy speaker-independent continuous speech recognizer on a fixed-point DSP
JP3477432B2 (ja) 音声認識方法およびサーバならびに音声認識システム
US20070129945A1 (en) Voice quality control for high quality speech reconstruction
KR20010036210A (ko) 주변잡음을 이용한 휴대폰 제어방법
WO2002069324A1 (en) Detection of inconsistent training data in a voice recognition system
US20060161433A1 (en) Codec-dependent unit selection for mobile devices
KR100369478B1 (ko) 음성 모델의 생성 방법
Muthusamy et al. The effects of speech compression on speech recognition and text-to-speech synthesis.
FI20216113A1 (en) Speech recognition optimization for service centers
CN113808591A (zh) 音频处理方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication