CN1802694A - 信噪比中介的语音识别算法 - Google Patents
信噪比中介的语音识别算法 Download PDFInfo
- Publication number
- CN1802694A CN1802694A CNA2004800159417A CN200480015941A CN1802694A CN 1802694 A CN1802694 A CN 1802694A CN A2004800159417 A CNA2004800159417 A CN A2004800159417A CN 200480015941 A CN200480015941 A CN 200480015941A CN 1802694 A CN1802694 A CN 1802694A
- Authority
- CN
- China
- Prior art keywords
- language
- noise
- speech recognition
- signal
- saying
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000001404 mediated effect Effects 0.000 title 1
- 238000000034 method Methods 0.000 claims abstract description 26
- 238000012545 processing Methods 0.000 claims abstract description 9
- 230000009471 action Effects 0.000 claims description 15
- 206010038743 Restlessness Diseases 0.000 claims description 11
- 230000000007 visual effect Effects 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 2
- 230000004048 modification Effects 0.000 claims description 2
- 238000012986 modification Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 6
- 230000001413 cellular effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- HBBGRARXTFLTSG-UHFFFAOYSA-N Lithium ion Chemical compound [Li+] HBBGRARXTFLTSG-UHFFFAOYSA-N 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 229910001416 lithium ion Inorganic materials 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- QNXAVFXEJCPCJO-UHFFFAOYSA-N Diclosulam Chemical compound N=1N2C(OCC)=NC(F)=CC2=NC=1S(=O)(=O)NC1=C(Cl)C=CC=C1Cl QNXAVFXEJCPCJO-UHFFFAOYSA-N 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Navigation (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
- Machine Translation (AREA)
- Telephone Function (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
在噪声环境中处理语音的方法包括:基于唤醒命令确定何时环境噪声太多以致不能产生用户说出的话语的可靠识别,并警告用户环境噪声太多。确定何时环境噪声太多包括计算信噪比。信号对应于说出的话语中的能量值,噪声对应于背景噪声中的能量值。所述方法还包括将信噪比和一个门限作比较。
Description
技术领域
本发明一般涉及具有语音识别能力的无线通信设备。
背景技术
无线通信设备,如蜂窝式移动电话(蜂窝电话),通常采用使用户能以免提及免看(eyes-free)方式操作设备的语音识别算法。例如,目前市场上的许多蜂窝电话能够识别并执行语音命令以发起呼出的电话呼叫,接听呼入的电话呼叫,和执行其它功能。这些蜂窝电话中的许多还可以识别口头说出的姓名,并在电子电话薄中找到该识别出的姓名,然后自动呼叫与该姓名相关联的电话号码。
当用户操作设备的环境具有较低的背景噪声时,也就是当语音信号的信噪比较高时,语音识别算法性能较好。当背景噪声级别增加时,语音信号的信噪比减小,语音识别算法的错误率就上升。换句话说,说出的词或者根本不能被识别或者被错误地识别。在其中可用计算功率和存储器由于较小的工作平台的小的尺寸而被严格限制的蜂窝电话和其它移动通信设备的情况下,上述情况特别成问题。而且,蜂窝电话和其它移动通信设备一般都在噪声环境下使用。例如,蜂窝电话通常在汽车里和繁忙的城市街道上这两种场所被使用。在汽车里,尤其是在高速公路上行驶的汽车里,语音信号将被掺杂进大量的汽车噪声(例如,轮胎相对路面所发出的噪声、空气流过汽车所发出的噪声、无线电台的音乐声等)。在繁忙的城市街道上,语音信号将被掺杂进交通噪声、汽车喇叭声、和其他附近人们的谈话声等。
发明内容
所描述的实施例在语音环境噪声太多以至于嵌入的语音识别器不能可靠的工作时将会通知蜂窝电话用户。然后,蜂窝电话用户可以采取步骤增加SNR,例如,通过大些声音说话或通过减小噪声级别。
一方面,在移动设备中执行语音识别的方法包括从移动设备的用户接收说出的话语,通过语音识别算法来处理从接收到的说出的话语中所得到的信号。对得到的信号的处理还包括确定说出话语的环境是否噪声太多以致不能产生说出的话语的可靠识别。所述方法还包括:如果对得到的信号的处理确定环境噪声太多以致不能产生说出的话语的可靠识别,则执行改善通过语音识别算法对说出的话语的内容的识别的动作。
改善对说出的话语的内容的识别的动作可以包括警告用户存在太多噪声以致不允许说出的话语的可靠识别。所述动作可以包括:要求用户重复话语,或产生音频信号,或产生视觉信号。所述动作可以包括移动设备的机械振动。
改善对说出的话语的内容的识别的动作可以包括修改语音识别算法以改善在说出话语的环境中的识别性能。语音识别算法可以包括声学模型,其中修改语音识别算法包括改变声学模型。语音识别算法可以包括被参数化以处理不同级别的背景噪声的声学模型,其中修改语音识别算法包括改变声学模型中的参数以适应背景噪声的级别。
确定说出话语的环境是否噪声太多以致不能产生可靠识别的步骤可以包括计算接收到的话语的信噪比,并将计算出的信噪比和一个门限作比较。
另一方面,一个实施例包括存储指令的计算机可读媒介,所述指令当在处理器系统上被运行时使处理器系统使用语音识别算法来处理从用户所说出的话语得到的信号。处理器系统上所运行的指令还确定说出话语的环境是否噪声太多以致不能产生说出的话语的可靠识别。如果确定环境噪声太多以致不能产生说出的话语的可靠识别,则处理器系统上所运行的指令执行改善通过语音识别算法对说出的话语的内容的识别的动作。
处理器系统上所运行的存储的指令使处理器系统通过警告用户存在太多噪声以致不允许说出的话语的可靠识别来执行所述动作,或者所述指令使处理器系统通过计算说出的话语的信噪比来确定说出话语的环境是否噪声太多以致不能产生可靠识别。处理器系统上所运行的存储的指令可以使处理器系统还通过比较计算出的信噪比和一个门限来确定说出话语的环境是否噪声太多以致不能产生可靠识别。
处理器系统上所运行的指令可以使处理器系统通过修改语音识别算法以改善在说出话语的环境中的识别性能来执行所述动作。在一个实施例中,语音识别算法包括声学模型,并且其中所存储的指令使处理器系统通过改变声学模型来修改语音识别算法。在另一个实施例中,语音算法包括被参数化以处理不同级别的背景噪声的声学模型。所存储的指令使处理器系统通过改变声学模型中的参数以适应背景噪声的级别来修改语音识别算法。
附图说明
图1是本发明一个实施例的操作的流程图。
图2是其上可以实现这里所描述功能的智能电话的高级别框图。
具体实施方式
所描述的实施例是一种具有软件的蜂窝电话,所述软件提供语音识别功能,如现在商用的很多蜂窝电话中都具有的语音识别功能。一般地,语音识别功能允许用户避开手动键盘而通过说出的词来输入命令和数据。在这种情况下,软件还确定蜂窝电话正使用的环境是否噪声太多以致不能产生用户说出的话语的可靠识别。在下面更加详细描述的实施例中,软件测量SNR并将其和预先设置的门限相比较来确定是否噪声太多。在确定环境噪声太多时,蜂窝电话接着采取动作来处理这个问题。例如,或者它警告用户环境噪声太多以致不允许可靠识别,或者它修改内部语音识别算法来改善特定环境下的识别性能。
结合图1中的流程图,我们来描述本发明一个特定实施例的操作。之后,我们将描述检测何时环境噪声太多的可选方法,和响应噪声环境的可选方法。最后,我们将描述其中能实现所述功能的典型的蜂窝电话。
蜂窝电话首先接收唤醒(wake-up)命令(块200),该命令可以是按一下按钮,敲击一下键盘,特定的说出的关键字,或者仅是来自于用户的一声开始。唤醒命令初始化确定语音环境是否噪声太多的进程。如果唤醒命令是说出的命令,则软件可以被配置成使用唤醒命令来测量SNR。另外,它可以被配置成等待下一个从用户所接收的话语,并使用该下一个话语(或该话语的某部分)来测量SNR。
为了确定SNR,语音识别软件计算作为所述话语的时间的函数的能量值(块202)。然后,它识别出话语中具有最高能量的部分(块204),并且它识别出具有最低能量的部分(块206)。软件使用这两个值计算话语的SNR(块208)。在这种情况下,SNR简单地是最高值和最低值的比。
在所描述的实施例中,识别软件逐帧地处理所接收的话语,其中,每一帧代表话语的一个采样序列。软件为每一帧计算能量值。它通过在整帧上对采样的能量求积分值来计算每帧的能量值,这样所计算的能量值代表相关帧的总能量。在话语的最后(或话语开始后过了一段时间),软件识别具有最高能量值的帧和具有最低能量值的帧。然后通过用具有最高能量值的帧的能量除以具有最低能量值的帧的能量来计算SNR。
语音识别软件将所计算的信噪比和可接受的门限相比较(块210)。门限表示语音识别产生一个可接受的低错误率时SNR必需超过的级别。门限可通过经验、分析、或者通过两者的某种结合来确定。软件还允许用户调节此门限以调整蜂窝电话的性能或灵敏度。
如果信噪比没有超过可接受的门限,则语音识别软件通知用户信噪比太低212。
如果信噪比没有超过可接受的门限,则语音识别软件采取步骤处理这个问题(块212)。在所描述的实施例中,它可以通过停止继续识别并简单地警告用户噪声太多以致不能进行可靠的识别来处理这个问题。然后,用户可以尽量减小背景噪声级别(例如,通过改变其位置,调低收音机,等待某些特定噪声事件结束等)。语音识别软件通过多种不同方式中的一个或多个来警告用户,所述方式可由用户来配置,包括音频信号(例如,嘟嘟响或者音调)、视觉信号(例如,蜂窝电话显示器上的消息或闪烁信号)、触觉信号(例如,如果蜂窝电话装配了振动功能的话,产生振动脉冲)、或它们的某种结合。
如果信噪比超过了可接受的门限,则语音识别软件继续正常的处理。
语音识别算法可以使用其它技术(或所述技术的结合)来计算语音信号的信噪比。一般地,这些技术确定引入的语音的能量相对于非语音的能量的值。另外一种技术是产生整个话语的或一段时期内的能量直方图(histogram),并计算较低能量百分点对较高能量百分点的比值(例如,百分之五的能量区域相对于百分之九十五的能量区域)。另一种技术是使用两状态HMM(隐马尔可夫模型(Hidden MarkovModel)),并计算两状态的平均值和方差,其中所述状态之一表示语音,另一个状态表示噪声。
语音识别算法还可以计算和信号与噪声有关的统计值。这个统计值被称为“可理解性指数(intelligibility index)”。根据这个方法,语音识别软件将声音帧(或帧内的采样)分散到离散的频率范围中,并仅针对所述频率范围的子集计算高能量对低能量的比值。例如,在一个特定环境中,噪声可能主要在300Hz到600Hz的频率范围内。因此,语音识别软件将仅针对落在该频率范围内的能量计算高能量对低能量的比值。另外,语音识别软件可以对不同频率范围中的每个应用一个加权系数,并计算加权的复合的高能量对低能量的比值。
在上述实施例中,语音识别软件通过警告用户来响应检测到低的SNR。还有其它方式,其中,它可以作为发送简单警告的替代或者除了发送简单警告之外来进行响应。例如,语音识别软件可以在视觉上或在听觉上指示用户重复话语。代替告警用户,语音识别软件可以修改说明噪音环境的声学模型来产生在该环境中执行得更好的语音识别器。
例如,语音识别软件可以包括从嘈杂的语音中被训练出的声学模型。所述声学模型可以被参数化以处理不同的噪声级别。在所述情况下,语音识别软件将根据计算出的信噪比来选择所述级别中合适的一个。另外,声学模型可以是可衡量的,以处理一定范围内的噪声级别,在这种情况下,语音识别软件将根据计算出的信噪比来衡量使用的模型。另一种方法是利用参数化的声学模型来处理各种噪声(例如,汽车噪声、街道噪声、听众席上的噪声等),在这种情况下语音识别软件将根据用户输入和/或计算出的信噪比来选择特定的一种类型用于所述模型。
另一种方法是使用具有不同语音学清单的声学模型来说明高噪声环境。例如,高噪声环境可以使某些辅音(例如,“p’s”和“b’s”)模糊,因此,被专门设计为就那些被模糊的辅音来解码的具有语音学清单的声学模型在噪声环境下比默认的声学模型执行得更好。
然而,另一种方法将使用具有不同分类器几何学(classifiergeometry)的声学模型来补偿低信噪比环境。这种分类器包括HMM、神经网络、或现有技术中已知的其它语音分类器。语音识别软件还可以使用具有不同前端参数化的声学模型以在噪声环境中提供更好的性能。例如,如果噪声被限制在一个特定的窄频率范围内,则处理声学信号的频谱表示的声学模型可以比处理信号的倒频谱(cepstral)表示的声学模型执行得更好。这是因为频谱模型能够去除噪声频率范围,而倒频谱模型不能。
图2所示的智能电话100是可以实施上述语音识别功能的平台的例子。智能电话100的一个例子是Microsoft PocketPC-powered电话,所述电话在其核心包括用于处理蜂窝通信功能(包括例如语音频带和信道编码功能)的基带DSP 102(数字信号处理器),和PocketPC操作系统在其上运行的应用处理器104(例如,Intel StrongArm SA-1110)。该电话支持GSM语音呼叫、SMS(短消息业务)文本消息、无线电子邮件、和类似桌上型电脑的网页浏览以及其它传统的PDA特征。
后面有功率放大器模块110的RF合成器106和RF无线电收发器108实现发送和接收功能。功率放大器模块通过天线112处理最后阶段的RF发送任务。接口ASIC 114和音频CODEC 116将接口提供给扬声器、麦克风、和电话中所提供的其它输入/输出设备,例如用于输入命令和信息的数字的或字母数字的键盘(没有示出)。
DSP 102使用闪存118来进行代码存储。锂离子(lithium-ion)电池120为电话供电,以及被耦合到DSP 102的功率管理模块122管理电话内的功率消耗。SDRAM 124和闪存126分别为应用处理器114提供易失性的和非易失性的存储器。存储器的这种安排保持了操作系统的代码、例如电话薄的用户化特征的代码、和用于智能电话中任何其它应用软件的代码,包括前面描述的语音识别软件。智能电话的可视显示设备包括驱动LCD显示器130的LCD驱动芯片128。还有时钟模块132,所述时钟模块为电话内的其它设备提供时钟信号以及提供实时的指示器。所有上述部件都被封装在适当设计的外壳(housing)134中。
上述智能电话100表示大量不同的商用智能电话的一般内部结构,以及这些电话的内部电路设计在现有技术中是已知的。
其它方面、修改、和实施例都是在下面权利要求的范围内的。
Claims (19)
1.一种在移动设备上执行语音识别的方法,所述方法包括:
从所述移动设备的用户接收说出的话语;
通过语音识别算法来处理从接收到的说出的话语中得到的信号,其中所述对得到的信号的处理还包括确定说出话语的环境是否噪声太多以致不能产生说出的话语的可靠识别;
如果对得到的信号的处理确定所述环境噪声太多以致不能产生说出的话语的可靠识别,则执行改善通过语音识别算法对说出的话语的内容的识别的动作。
2.根据权利要求1所述的方法,其中执行所述动作包括警告用户存在太多噪声以致不允许说出的话语的可靠识别。
3.根据权利要求2所述的方法,其中警告还包括请求用户重复话语。
4.根据权利要求2所述的方法,其中警告包括产生语音信号。
5.根据权利要求2所述的方法,其中警告包括产生视觉信号。
6.根据权利要求2所述的方法,其中警告包括产生触觉信号。
7.根据权利要求6所述的方法,其中触觉信号是移动设备的机械振动。
8.根据权利要求1所述的方法,其中确定说出话语的环境是否噪声太多以致不能产生可靠识别包括计算接收到的话语的信噪比。
9.根据权利要求8所述的方法,其中确定说出话语的环境是否噪声太多以致不能产生可靠识别还包括将计算出的信噪比和一个门限作比较。
10.根据权利要求1所述的方法,其中执行所述动作包括修改语音识别算法以改善在说出话语的环境中的识别性能。
11.根据权利要求10所述的方法,其中所述语音识别算法包括声学模型,并且其中修改语音识别算法包括改变所述声学模型。
12.根据权利要求10所述的方法,其中所述语音识别算法包括被参数化以处理不同级别的背景噪声的声学模型,并且其中修改所述语音识别算法包括改变所述声学模型中的参数以适应背景噪声的级别。
13.一种存储指令的计算机可读媒介,所述指令当在处理器系统上被运行时使所述处理器系统:
使用语音识别算法来处理从用户说出的话语中得到的信号;
确定说出话语的环境是否噪声太多以致不能产生说出的话语的可靠识别;和
如果确定环境噪声太多以致不能产生说出的话语的可靠识别,则执行改善通过所述语音识别算法对说出的话语的内容的识别的动作。
14.根据权利要求13所述的计算机可读媒介,其中所述存储的指令使所述处理器系统通过警告用户存在太多噪声以致不允许说出的话语的可靠识别来执行所述动作。
15.根据权利要求13所述的计算机可读媒介,其中所述存储的指令使所述处理器系统通过计算说出的话语的信噪比来确定说出话语的环境是否噪声太多以致不能产生可靠识别。
16.根据权利要求13所述的计算机可读媒介,其中所述存储的指令使所述处理器系统通过还将计算出的信噪比和一个门限作比较来确定说出话语的环境是否噪声太多以致不能产生可靠识别。
17.根据权利要求13所述的计算机可读媒介,其中所述存储的指令使所述处理器系统通过修改语音识别算法以改善在说出话语的环境中的识别性能来执行所述动作。
18.根据权利要求17所述的计算机可读媒介,其中所述语音识别算法包括声学模型,并且其中所述存储的指令使所述处理器系统通过改变所述声学模型来修改所述语音识别算法。
19.根据权利要求17所述的计算机可读媒介,其中所述语音算法包括被参数化以处理不同级别的背景噪声的声学模型,并且其中所述存储的指令使所述处理器系统通过改变声学模型中的参数以适应背景噪声的级别来修改语音识别算法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US46962703P | 2003-05-08 | 2003-05-08 | |
US60/469,627 | 2003-05-08 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1802694A true CN1802694A (zh) | 2006-07-12 |
Family
ID=33452306
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2004800159417A Pending CN1802694A (zh) | 2003-05-08 | 2004-05-10 | 信噪比中介的语音识别算法 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20040260547A1 (zh) |
JP (1) | JP2007501444A (zh) |
CN (1) | CN1802694A (zh) |
DE (1) | DE112004000782T5 (zh) |
GB (1) | GB2417812B (zh) |
WO (1) | WO2004102527A2 (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011044853A1 (zh) * | 2009-10-15 | 2011-04-21 | 华为技术有限公司 | 一种实现通信系统中背景噪声的跟踪的方法和装置 |
CN105278682A (zh) * | 2009-11-04 | 2016-01-27 | 意美森公司 | 用于对命令进行触觉确认的系统和方法 |
WO2018149285A1 (zh) * | 2017-02-16 | 2018-08-23 | 腾讯科技(深圳)有限公司 | 语音唤醒方法、装置、电子设备及存储介质 |
CN108564948A (zh) * | 2018-03-30 | 2018-09-21 | 联想(北京)有限公司 | 一种语音识别方法及电子设备 |
CN111433737A (zh) * | 2017-12-04 | 2020-07-17 | 三星电子株式会社 | 电子装置及其控制方法 |
WO2023050301A1 (zh) * | 2021-09-30 | 2023-04-06 | 华为技术有限公司 | 语音质量评估、语音识别质量预测与提高的方法及装置 |
Families Citing this family (74)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8005668B2 (en) * | 2004-09-22 | 2011-08-23 | General Motors Llc | Adaptive confidence thresholds in telematics system speech recognition |
US8175877B2 (en) * | 2005-02-02 | 2012-05-08 | At&T Intellectual Property Ii, L.P. | Method and apparatus for predicting word accuracy in automatic speech recognition systems |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
TWI319152B (en) * | 2005-10-04 | 2010-01-01 | Ind Tech Res Inst | Pre-stage detecting system and method for speech recognition |
US7706297B1 (en) * | 2006-05-19 | 2010-04-27 | National Semiconductor Corporation | System and method for providing real time signal to noise computation for a 100Mb Ethernet physical layer device |
WO2008007616A1 (fr) * | 2006-07-13 | 2008-01-17 | Nec Corporation | Dispositif, procédé et programme d'alarme relatif à une entrée de murmure non audible |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
JP5151102B2 (ja) * | 2006-09-14 | 2013-02-27 | ヤマハ株式会社 | 音声認証装置、音声認証方法およびプログラム |
JP5151103B2 (ja) * | 2006-09-14 | 2013-02-27 | ヤマハ株式会社 | 音声認証装置、音声認証方法およびプログラム |
KR100834679B1 (ko) * | 2006-10-31 | 2008-06-02 | 삼성전자주식회사 | 음성 인식 오류 통보 장치 및 방법 |
US8019050B2 (en) * | 2007-01-03 | 2011-09-13 | Motorola Solutions, Inc. | Method and apparatus for providing feedback of vocal quality to a user |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
EP3576388A1 (en) | 2008-11-10 | 2019-12-04 | Google LLC | Speech detection |
JP5402089B2 (ja) * | 2009-03-02 | 2014-01-29 | 富士通株式会社 | 音響信号変換装置、方法、及びプログラム |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
JP6024180B2 (ja) * | 2012-04-27 | 2016-11-09 | 富士通株式会社 | 音声認識装置、音声認識方法、及びプログラム |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9311931B2 (en) * | 2012-08-09 | 2016-04-12 | Plantronics, Inc. | Context assisted adaptive noise reduction |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US9691377B2 (en) * | 2013-07-23 | 2017-06-27 | Google Technology Holdings LLC | Method and device for voice recognition training |
US9251804B2 (en) | 2012-11-21 | 2016-02-02 | Empire Technology Development Llc | Speech recognition |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9418651B2 (en) | 2013-07-31 | 2016-08-16 | Google Technology Holdings LLC | Method and apparatus for mitigating false accepts of trigger phrases |
US9548047B2 (en) | 2013-07-31 | 2017-01-17 | Google Technology Holdings LLC | Method and apparatus for evaluating trigger phrase enrollment |
US9031205B2 (en) * | 2013-09-12 | 2015-05-12 | Avaya Inc. | Auto-detection of environment for mobile agent |
JP6383409B2 (ja) * | 2014-05-02 | 2018-08-29 | 株式会社ソニー・インタラクティブエンタテインメント | 案内装置、案内方法、プログラム及び情報記憶媒体 |
US9548065B2 (en) * | 2014-05-05 | 2017-01-17 | Sensory, Incorporated | Energy post qualification for phrase spotting |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10074360B2 (en) * | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US20160284349A1 (en) * | 2015-03-26 | 2016-09-29 | Binuraj Ravindran | Method and system of environment sensitive automatic speech recognition |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US20170294138A1 (en) * | 2016-04-08 | 2017-10-12 | Patricia Kavanagh | Speech Improvement System and Method of Its Use |
US10037677B2 (en) | 2016-04-20 | 2018-07-31 | Arizona Board Of Regents On Behalf Of Arizona State University | Speech therapeutic devices and methods |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10283138B2 (en) * | 2016-10-03 | 2019-05-07 | Google Llc | Noise mitigation for a voice interface device |
US10462567B2 (en) | 2016-10-11 | 2019-10-29 | Ford Global Technologies, Llc | Responding to HVAC-induced vehicle microphone buffeting |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10186260B2 (en) * | 2017-05-31 | 2019-01-22 | Ford Global Technologies, Llc | Systems and methods for vehicle automatic speech recognition error detection |
US10525921B2 (en) | 2017-08-10 | 2020-01-07 | Ford Global Technologies, Llc | Monitoring windshield vibrations for vehicle collision detection |
US10562449B2 (en) | 2017-09-25 | 2020-02-18 | Ford Global Technologies, Llc | Accelerometer-based external sound monitoring during low speed maneuvers |
US10479300B2 (en) | 2017-10-06 | 2019-11-19 | Ford Global Technologies, Llc | Monitoring of vehicle window vibrations for voice-command recognition |
CN113555028A (zh) * | 2021-07-19 | 2021-10-26 | 首约科技(北京)有限公司 | 一种用于车联网语音降噪的处理方法 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US2003A (en) * | 1841-03-12 | Improvement in horizontal windivhlls | ||
JPH11194797A (ja) * | 1997-12-26 | 1999-07-21 | Kyocera Corp | 音声認識作動装置 |
US6336091B1 (en) * | 1999-01-22 | 2002-01-01 | Motorola, Inc. | Communication device for screening speech recognizer input |
US6324509B1 (en) * | 1999-02-08 | 2001-11-27 | Qualcomm Incorporated | Method and apparatus for accurate endpointing of speech in the presence of noise |
US6370503B1 (en) * | 1999-06-30 | 2002-04-09 | International Business Machines Corp. | Method and apparatus for improving speech recognition accuracy |
JP3969908B2 (ja) * | 1999-09-14 | 2007-09-05 | キヤノン株式会社 | 音声入力端末器、音声認識装置、音声通信システム及び音声通信方法 |
US6954657B2 (en) * | 2000-06-30 | 2005-10-11 | Texas Instruments Incorporated | Wireless communication device having intelligent alerting system |
US20020087306A1 (en) * | 2000-12-29 | 2002-07-04 | Lee Victor Wai Leung | Computer-implemented noise normalization method and system |
JP2002244696A (ja) * | 2001-02-20 | 2002-08-30 | Kenwood Corp | 音声認識による制御装置 |
JP2003091299A (ja) * | 2001-07-13 | 2003-03-28 | Honda Motor Co Ltd | 車載用音声認識装置 |
US7487084B2 (en) * | 2001-10-30 | 2009-02-03 | International Business Machines Corporation | Apparatus, program storage device and method for testing speech recognition in the mobile environment of a vehicle |
DE10251113A1 (de) * | 2002-11-02 | 2004-05-19 | Philips Intellectual Property & Standards Gmbh | Verfahren zum Betrieb eines Spracherkennungssystems |
-
2004
- 2004-05-10 CN CNA2004800159417A patent/CN1802694A/zh active Pending
- 2004-05-10 JP JP2006532900A patent/JP2007501444A/ja not_active Withdrawn
- 2004-05-10 DE DE112004000782T patent/DE112004000782T5/de not_active Withdrawn
- 2004-05-10 US US10/842,333 patent/US20040260547A1/en not_active Abandoned
- 2004-05-10 WO PCT/US2004/014498 patent/WO2004102527A2/en active Application Filing
- 2004-05-10 GB GB0523024A patent/GB2417812B/en not_active Expired - Fee Related
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011044853A1 (zh) * | 2009-10-15 | 2011-04-21 | 华为技术有限公司 | 一种实现通信系统中背景噪声的跟踪的方法和装置 |
US8095361B2 (en) | 2009-10-15 | 2012-01-10 | Huawei Technologies Co., Ltd. | Method and device for tracking background noise in communication system |
US8447601B2 (en) | 2009-10-15 | 2013-05-21 | Huawei Technologies Co., Ltd. | Method and device for tracking background noise in communication system |
CN105278682A (zh) * | 2009-11-04 | 2016-01-27 | 意美森公司 | 用于对命令进行触觉确认的系统和方法 |
CN105278682B (zh) * | 2009-11-04 | 2018-09-28 | 意美森公司 | 用于对命令进行触觉确认的系统和方法 |
WO2018149285A1 (zh) * | 2017-02-16 | 2018-08-23 | 腾讯科技(深圳)有限公司 | 语音唤醒方法、装置、电子设备及存储介质 |
US11069343B2 (en) | 2017-02-16 | 2021-07-20 | Tencent Technology (Shenzhen) Company Limited | Voice activation method, apparatus, electronic device, and storage medium |
CN111433737A (zh) * | 2017-12-04 | 2020-07-17 | 三星电子株式会社 | 电子装置及其控制方法 |
CN111433737B (zh) * | 2017-12-04 | 2024-06-14 | 三星电子株式会社 | 电子装置及其控制方法 |
CN108564948A (zh) * | 2018-03-30 | 2018-09-21 | 联想(北京)有限公司 | 一种语音识别方法及电子设备 |
WO2023050301A1 (zh) * | 2021-09-30 | 2023-04-06 | 华为技术有限公司 | 语音质量评估、语音识别质量预测与提高的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
GB2417812B (en) | 2007-04-18 |
GB2417812A (en) | 2006-03-08 |
US20040260547A1 (en) | 2004-12-23 |
WO2004102527A2 (en) | 2004-11-25 |
WO2004102527A8 (en) | 2005-04-14 |
JP2007501444A (ja) | 2007-01-25 |
DE112004000782T5 (de) | 2008-03-06 |
WO2004102527A3 (en) | 2005-02-24 |
GB0523024D0 (en) | 2005-12-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1802694A (zh) | 信噪比中介的语音识别算法 | |
CN110310623B (zh) | 样本生成方法、模型训练方法、装置、介质及电子设备 | |
CN1160698C (zh) | 噪声信号中语音的端点定位 | |
EP1595245B1 (en) | Method of producing alternate utterance hypotheses using auxiliary information on close competitors | |
US6463413B1 (en) | Speech recognition training for small hardware devices | |
CN1168070C (zh) | 分布式语音识别系统 | |
RU2393549C2 (ru) | Способ и устройство для распознавания речи | |
EP2089877B1 (en) | Voice activity detection system and method | |
US7319960B2 (en) | Speech recognition method and system | |
CN1346486A (zh) | 用于语音启动装置的讲话用户接口 | |
WO2002095729A1 (en) | Method and apparatus for adapting voice recognition templates | |
KR100321464B1 (ko) | 음성 인식 시스템에서 특성을 추출하는 방법 | |
US7103547B2 (en) | Implementing a high accuracy continuous speech recognizer on a fixed-point processor | |
CN1620083A (zh) | 电话号码检索系统和方法 | |
CN1165889C (zh) | 话音拨号的方法和系统 | |
Gong et al. | Implementing a high accuracy speaker-independent continuous speech recognizer on a fixed-point DSP | |
JP3477432B2 (ja) | 音声認識方法およびサーバならびに音声認識システム | |
US20070129945A1 (en) | Voice quality control for high quality speech reconstruction | |
KR20010036210A (ko) | 주변잡음을 이용한 휴대폰 제어방법 | |
WO2002069324A1 (en) | Detection of inconsistent training data in a voice recognition system | |
US20060161433A1 (en) | Codec-dependent unit selection for mobile devices | |
KR100369478B1 (ko) | 음성 모델의 생성 방법 | |
Muthusamy et al. | The effects of speech compression on speech recognition and text-to-speech synthesis. | |
FI20216113A1 (en) | Speech recognition optimization for service centers | |
CN113808591A (zh) | 音频处理方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |