CN103797535A - 减少语音辨识系统中的漏报 - Google Patents
减少语音辨识系统中的漏报 Download PDFInfo
- Publication number
- CN103797535A CN103797535A CN201280040735.6A CN201280040735A CN103797535A CN 103797535 A CN103797535 A CN 103797535A CN 201280040735 A CN201280040735 A CN 201280040735A CN 103797535 A CN103797535 A CN 103797535A
- Authority
- CN
- China
- Prior art keywords
- consistance
- duration
- institute
- spoken utterance
- parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 claims abstract description 49
- 230000008569 process Effects 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 13
- 230000004048 modification Effects 0.000 claims description 7
- 238000012986 modification Methods 0.000 claims description 7
- 238000005516 engineering process Methods 0.000 description 9
- 230000008859 change Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 230000005055 memory storage Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- VEMKTZHHVJILDY-UHFFFAOYSA-N resmethrin Chemical compound CC1(C)C(C=C(C)C)C1C(=O)OCC1=COC(CC=2C=CC=CC=2)=C1 VEMKTZHHVJILDY-UHFFFAOYSA-N 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
本发明的实施例改进执行语音辨识的方法。在一个实施例中,本发明包括一种方法,其包含:接收所说话语;在语音辨识器中处理所述所说话语以产生辨识结果;确定所述所说话语的分量声音的一个或一个以上参数的一致性,其中从由持续时间、能量及音调组成的群组选择所述参数,且其中所述所说话语的每一分量声音具有所述参数的对应值;及基于所述参数中的至少一者的所述一致性确认所述辨识结果。
Description
相关申请案交叉参考
本申请案请求在2011年8月24日的标题为“减少语音辨识系统中的漏报(ReducingFalse Positives in Speech Recognition Systems)”的第13/217,134号美国专利申请案的优先权权益,所述申请案的揭示内容据此以引用方式并入本文中。
背景技术
本发明涉及语音辨识,且更特定来说涉及使用持续时间及能量改进语音辨识的系统及方法。
随着手持式装置的爆炸式可用性及装置大小的缩小,语音辨识正成为用以支持与电子系统的无缝用户交互作用的愈来愈有价值的技术。然而,构建准确的辨识系统具有极端挑战性。高度准确的辨识系统可为计算密集的且不适合于小型手持式电子装置。
一些语音辨识器的一个问题在辨识器产生错误接受时发生。在此情形中,辨识器可产生指示已辨识特定单词或片语的输出,然而事实上实际未说所述单词或片语。此现象有时在经配置以接收声音串流且拣出(“辨认”)所述串流中的特定声音的单词辨认辨识器中存在。
本发明通过使用持续时间及能量执行语音辨识的系统及方法来解决这些及其它问题。
发明内容
本发明的实施例改进执行语音辨识的方法。在一个实施例中,本发明包括一种方法,其包含:接收所说话语;在语音辨识器中处理所述所说话语以产生辨识结果;确定所述所说话语的分量声音的一个或一个以上参数的一致性,其中从由持续时间、能量及音调组成的群组选择所述参数,且其中所述所说话语的每一分量声音具有所述参数的对应值;及基于所述参数中的至少一者的所述一致性确认所述辨识结果。
附图说明
图1图解说明根据本发明的一个实施例用于执行语音辨识的方法。
图2图解说明根据本发明的一个实施例用于实施语音辨识的系统。
具体实施方式
本文中描述用于使用持续时间及能量来执行语音辨识的技术。出于解释的目的,在以下说明中,列举了大量实例及具体细节以便提供对本发明的透彻理解。然而,所属领域的技术人员将显而易见,由权利要求书所界定的本发明可单独或结合下文所描述的其它特征包括这些实例中的一些或全部特征,且可进一步包括本文中所描述的特征及概念的明显修改及等效形式。
图1图解说明根据本发明的一个实施例用于执行语音辨识的方法。本发明的实施例监视接收于辨识器中的用户话语的特定参数以改善语音辨识结果。特定来说,本发明的实施例通过识别辨识结果中的不一致性(其为真实语音的不现实结果)来减少错误接受。举例来说,辨识器可正在听单词“hot(热)”,且“h”可用10ms,“o”的左边部分可用10ms,“o”的右边部分可用400ms,且“t”可用100ms。真实语音以比此更一致的速率发生。类似地,“h”及“o”的左侧可非常大声,而话语的剩余部分非常小声。此不一致性也是真实语音的非常不现实的形式。最后,所辨识语音可以高音调(通常与女人相关)开始,且下降到低音调(通常与男人相关)。类似地,此不一致性是不现实的。现有辨识器将不识别此些不现实的结果,因为先前辨识器单独地针对每一分段应用持续时间建模且不强制跨越较宽广文本的一致性。举例来说,用于持续时间模型的统计数据通常与说话者无关且对于特定说话者不是非常精确。如果系统可将关于持续时间、能量或音调的一致性的额外信息包括到辨识器,那么辨识器错误接受的频率将低得多。
图1图解说明根据一个实施例的过程。在101处,接收所说话语。在102处,在辨识器中处理所说话语以执行语音辨识。在一些实施例中,举例来说,辨识器可为硬件的用于执行语音辨识的专用单元,例如经优化用于语音辨识的微处理器、微控制器或专用集成电路(ASIC)。在其它实施例中,辨识器可以包括可在处理器上执行的指令的软件实施。举例来说,辨识器可实施为软件且在(举例来说)通用微处理器或微控制器上执行。在103处,确定持续时间、能量或音调的一致性。举例来说,可在分量基础上分析所说话语。举例来说,可基于子语素、音素、音节或甚至单词来分析所说话语。如果使用子语素,那么可分析所说话语的分段以确定每一分段对应哪个子语素。作为另一实例,如果说话者说单词“hot”,那么系统可确定“hot”的声音分段为“h”-“o”-“t”的音素。系统可确定跨越声音分量的持续时间、能量或音调的一致性。在104处,基于一致性确认辨识结果。举例来说,如果辨识器产生指示经辨识的特定单词或片语的辨识结果,那么可基于所说话语的持续时间、能量或音调参数中的一者或一者以上的一致性来确认辨识结果。特定来说,如果确定(举例来说)持续时间不一致,那么辨识结果无效且可被拒绝。
图2图解说明根据一个实施例的系统。系统200包括包括内部存储器203的处理器201。内部存储器203可包括(举例来说)用于局部数据存储及检索的寄存器、高速缓存器或静态随机存取存储器(SRAM)。举例来说,处理器201可经由总线205进一步存储及检索来自外部存储器204的数据。举例来说,外部存储器204可为动态随机存取存储器。处理器可进一步存储及检索来自外围存储器209的数据,举例来说,所述外围存储器可为硬盘驱动器或固态存储器。举例来说,系统200可包括用于与其它资源通信的网络接口210。接口210可为(举例来说)无线接口,例如蓝牙接口、蜂窝式接口、基于IEEE802的接口,或(举例来说)有线接口,例如以太网、USB或光学接口。在一些实施例中,在辨识过程中使用的数据可存储于外部且经由接口210存取。
在此实例中,处理器201包括辨识器202,所述辨识器实施为用于编程处理器以执行本文中所描述的确定一致性及确认辨识结果的处理技术的软件。辨识器202可包括可执行指令,所述可执行指令致使处理器对输入语音执行辨识操作、确定持续时间、能量及音调的一致性及确认辨识结果。在此实例中,一致性分析220可由辨识器202的一个或一个以上组件执行。在其它实施例中,举例来说,一致性分析220可为来自辨识器202的单独软件。
所说话语经由音频接口206接收于系统中。音频接口206可包括麦克风或其它形式的音频/电子转换器以将声音信号转换成电子信号。音频接口206可包括用于将模拟音频信号转换成数字信号的模/数转换器。举例来说,所说话语的数字表示可耦合到处理器201或跨越总线207存储于存储器209中且由处理器201存取。辨识器202处理所说话语的数字表示以产生辨识结果。辨识结果可包括中间辨识结果或最终辨识结果。最终辨识结果表示辨识器所断定的单词或片语由所说话语体现。最终及中间结果的类型可基于所使用的辨识算法而变化。中间结果可为在辨识过程期间产生的声音分量(例如,音素)的概率且可存储于内部存储器203或DRAM204中(举例来说)。如下文更详细地描述,举例来说,确定一致性及确认辨识结果可在中间辨识结果或最终辨识结果或两者上发生。
在一些实施例中,可确定一个参数的一致性。在其它实施例中,可确定多个参数的一致性。举例来说,在一个实施例中,可确定所说话语的分量声音的持续时间的一致性。在此情形中,可相对于在所说话语中辨识的子语素的预期值确定(举例来说)跨越所说话语的子语素的持续时间的一致性。在另一实施例中,可确定所说话语的分量声音的能量(或替代地,音调)的一致性。在能量的情形中,可确定(举例来说)跨越所说话语的子语素的能量的一致性。
在另一实施例中,确定多个参数的一致性,且确认辨识结果是基于每一所确定参数的单独一致性。举例来说,可确定持续时间及能量的一致性,且确认可基于两个一致性。
在一个实施例中,辨识结果为得分且一致性各自具有得分。在此情形中,举例来说,确认辨识结果可包括将辨识结果得分与一致性得分组合以产生组合得分且将组合得分与阈值进行比较。
在另一实施例中,可如下确认一致性。将特定参数(即,持续时间、能量、音调)的特定一致性与阈值进行比较。如果参数的一致性与阈值交叉,那么拒绝辨识结果,且如果参数的一致性不与阈值交叉,那么接受辨识结果。举例来说,如果参数的一致性与阈值交叉,那么参数是不充分一致的,且如果参数的一致性不与阈值交叉,那么参数是充分一致的。在一些实施例中,一致性可计算为数值且与另一数值进行比较。可使用各种技术来确定一致性。使用一些技术,高得分可对应于不一致的参数。因此,如果得分高于阈值,那么拒绝辨识结果。举例来说,其它技术可具有对应于一致的参数的高得分,且因此如果得分低于阈值,那么拒绝辨识结果。
确定一致性的实例性实施方案
在一个实例性实施方案中,确定持续时间的一致性包括确定说话者速率。一致性得分可基于说话者速率、所说话语的分量声音的实际持续时间以及话语中的每一分量声音的一个或一个以上统计参数。作为特定实例,说话者速率可基于所说话语的总持续时间除以话语中的每一不同声音分量的持续时间的预期值的总和。举例来说,如果用户说单词“TO”,那么分量声音(在此其为音素)可为“T”及“O”的音素声音。话语的对应于“T”声音的部分的持续时间可为100ms且话语的对应于“O”声音的部分的持续时间可为200ms。因此,所说话语的总持续时间为300ms。在一个实施例中,预期值可为平均数。在训练期间,可确定“T”声音的持续时间范围是从100到200ms,具有150ms的平均持续时间Tave。类似地,可确定“O”声音的持续时间范围是从200到300ms,具有250ms的平均持续时间Oave。因此,在此实例中,说话者速率SR可计算如下:
SR=总持续时间/总和(预期持续时间)
SR=(100ms+200ms)/(150ms+250ms)=3/4
在当前实例中,可使用说话者速率来确定一致性得分。举例来说,可通过将说话者速率乘以话语的每一不同声音分量的持续时间的预期值来确定经修改预期值。在此实例中,可如下基于说话者速率来确定经修改预期值:
T’ave=Tave*SR且O’ave=Oave*SR,
T’ave=(150ms)(3/4)=112.5,
O’ave=(250ms)(3/4)=187.5,
其中T’ave是Tave的经修改预期值且O’ave是Oave的经修改预期值。
确定一致性(例如,一致性得分)可包括确定增量值。在一个实施例中,增量值是每一经修改预期值与对应于每一特定经修改预期值的声音分量的持续时间之间的差。举例来说,可如下针对每一分量计算增量值:
(1)T_delta=T’ave-Ta,
(2)O_de1ta=O’ave-Oa,
其中Ta是话语的“T”分量的实际持续时间且Oa是话语的“O”分量的实际持续时间。在一些实施例中,增量值可为可在每一经修改预期值上操作的第一函数与可在对应于每一特定经修改预期值的声音分量的持续时间上操作的第二函数之间的差。举例来说,可使用的另一增量值如下:
(3)T_delta=1n(T’ave)-1n(Ta),
(4)O_delta=1n(O’ave)-1n(Oa),
其中第一及第二函数两者均为自然对数。
作为又一实例,可使用的另一增量值如下:
(5)T_delta=1n(T’ave*exp(1/2(std_dev^2)))-1n(Ta),
(6)O_delta=1n(O’ave*exp(1/2(std_dev^2)))-1n(Oa),
其中std_dev^2是分量声音的持续时间的对数的标准偏差,分量声音在此实例中为音素“T”及“O”,且“exp”是指数函数ex。因此,在此实例中,第二函数包括对应于每一特定经修改预期值的声音分量的持续时间的标准偏差的指数。
在一些实例性实施方案中,一致性可表示为得分,且其中确定一致性进一步包含将话语中的N个声音分量的增量值的平方相加且除以N,其中N为整数。使用以上(1)及(2)的一个实例如下:
(7)S=(1/N)*[T_delta]2+(1/N)*[O_delta]2,其中N=2。
应用方程式(1)、(2)及(7),获得S=156.25的一致性得分。在一个实施例中,可将所述一致性得分与阈值进行比较,且如果所述得分与所述阈值交叉,那么拒绝辨识结果。在此情形中,“T”及“O”的实际值两者均为快的(例如,Ta=100ms,其中Tave=150ms为快速说的“T”声音,且Oa=200ms,其中Oave=250ms是快速说的“O”声音)。在此情形中,“T”及“O”两者均为快的,其为一致的。因此,一致性得分低于某一预设阈值且确认辨识结果。
现在呈现关于快“T”及慢“O”的另一实例以展示一致性得分如何改变。在此实例中,将以下值用于所说话语的实际持续时间:Ta=100ms且Oa=300ms。在此情形中,说话者速率为:
SR=(100ms+300ms)/(150ms+250ms)=4/4=1。
经修改预期值为:
T’ave=(150ms)(1)=150,且
O’ave=(250ms)(1)=250。
增量值为:
T_delta=T’ave-Ta=150-100=50,且
O_de1ta=O’ave-Oa=250-300=50。
一致性得分为:
S=(1/N)*[T_de1ta]2+(1/N)*[O_de1ta]2=(502+502)/2=2500。
如果阈值设定于156.25<Th<2500之间,其中Th为阈值,那么系统将拒绝所说话语Ta=100ms及Oa=300ms的辨识结果。
现在呈现关于慢“T”及慢“O”的另一实例以说明另一情形。在此实例中,将以下值用于所说话语的实际持续时间:Ta=200ms且Oa=300ms,其中Ta及Oa两者在持续时间上均比来自训练语料的统计平均数长(举例来说)。在此情形中,说话者速率为:
SR=(200ms+300ms)/(150ms+250ms)=5/4。
经修改预期值为:
T’ave=(150ms)(5/4)=187.5,且
O’ave=(250ms)(5/4)=312.5。
增量值为:
T_de1ta=T’ave-Ta=187.5-200=12.5,且
O_de1ta=O’ave-Oa=312.5-300=12.5。
一致性得分为:
S=(1/N)*[T_delta]2+(1/N)*[O_delta]2=(12.52+12.52)/2=156.25,
其为快-快情形的相同结果。因此,一致慢的说话者的辨识结果将产生低于阈值Th的一致性得分,且将确认结果。
现在呈现关于慢“T”及快“O”的另一实例以说明另一情形。在此实例中,将以下值用于所说话语的实际持续时间:Ta=200ms且Oa=200ms,其中Ta在持续时间上比统计平均数长且Oa在持续时间上比统计平均数短。在此情形中,说话者速率为:
SR=(200ms+200ms)/(150ms+250ms)=4/4=1。
经修改预期值为:
T’ave=(150ms)(1)=150,且
O’ave=(250ms)(1)=250。
增量值为:
T_delta=T’ave-Ta=150-200=50,且
O_delta=O’ave-Oa=250-200=50。
一致性得分为:
S=(1/N)*[T_de1ta]2+(1/N)*[O_de1ta]2=(502+502)/2=2500。
其为快-慢情形的相同结果。因此,辨识结果不一致输入将产生高于阈值Th的一致性得分,且将拒绝结果。
更一股来说,可使用N个声音分量的持续时间通过除以N来产生一致性得分S,如以上(7)中所展示。以下公式展示遵循上文所呈现的实例性实施方案的根据各种实施例的用于确定一致性得分的一股技术。第一公式为(7)的一股情形:
其中di是第i分量(例如,音素)的实际持续时间,SR是说话者速率,μi是根据训练语料确定的第i分量的平均持续时间(举例来说)。
作为另一实例,将所说话语中的每一分量的实际持续时间及平均持续时间转换为使用增量值(3)及(4)或(5)及(6)的对数域,且基于说话者速率将平均音素持续时间规范化。一致性得分S使用均方差。在以下实例性实施方案中,得分零是完美的,且如果得分高于某一预设阈值,那么拒绝辨识结果。多个分量的一股形式为:
一些分量(例如,音素)比其它分量具有更大变化。在一个实施例中,可通过加权每一音素的得分(举例来说,通过标准偏差)来计及分量声音中的变化。在以下实例中,得分可除以持续时间的标准偏差的平方。因此,可使用多个分量的一股化形式根据类似于(3)及(4)的增量值如下计算得分S:
其中di是第i分量(例如,音素)的实际持续时间,SR是说话者速率,μi是根据训练语料确定的第i分量的平均持续时间(举例来说),且σi 2是根据训练语料确定的第i分量的标准偏差。
虽然,给定音素的持续时间的对数的平均数为1n(μi),但所述音素的平均持续时间不确切是μi。在一个实施例中,可包括特定音素的帧的平均数目作为在μi上操作的函数的部分。因此,可使用多个分量的一股化形式根据类似于(5)及(6)的增量值如下计算得分S:
在一些应用中,持续时间的分布可为对数正态的。因此,可找到(例如,从训练语料)每一音素持续时间的概率。可使用这些概率的几何平均数来获得每一音素的平均概率,其可使用以下公式来计算:
在此情形中,由相同函数在实际输入及经修改说话者速率两者上操作,由指数函数(“e(x)”)在自然对数(“1n(x)”)及每一分量的增量值上操作,相乘在一起,且对结果求N次方根。此为几何平均数的一个实例。
以上实例打算作为可确定一致性以确认持续时间的辨识结果的许多方式的说明。除其它外,可基于参数(例如,统计参数)的其它预定一致性特性、特定辨识过程、特定应用及所要结果来使用用于确定一致性持续时间、能量及音调的其它技术。以上实例并非穷尽性的且不限制权利要求书的范围。
确认辨识结果
如上文所图解说明,可确定一致性得分、将所述一致性得分与阈值进行比较,且如果所述得分低于所述阈值(或高于所述阈值,此取决于如何计算一致性得分)那么确认所述一致性得分。然而,替代在辨识结果高于或低于某一阈值的情况下确认辨识结果,可将一致性得分与辨识得分组合。在一个实例性实施方案中,缩放一致性得分且将其从辨识结果的得分减去,且有效辨识结果仅在组合辨识得分高于0的情况下发生(举例来说),其中小一致性得分对应于较一致的参数。如果新的组合得分低于零,那么可拒绝辨识结果。在其它实施例中,可使用其它阈值及一致性得分与辨识得分之间的其它组合关系。在另外其它实施例中,可将多个不同参数的多个一致性得分与辨识得分组合且用以确认辨识得分。
在一些实施例中,可确认最终辨识结果,且在其它实施例中,可确认中间辨识结果。在第一情形中,辨识器可经配置以辨识多个单词或片语。所述单词、片语或所述辨识器经配置以辨识的其它话语通常可互换地称为辨识集合或者语法或词汇。所述辨识器可处理所说话语且输出最终辨识结果。结果的后处理可包括如上文所描述基于一致性来确认结果。
在另一实施例中,替代一直等待直到辨识过程的结束为止,辨识算法可检查中间状态下的一致性。如果一直到特定状态的中间辨识结果与说话者速率不一致,那么可拒绝所述中间结果。较早拒绝无效中间结果可由于至少两个原因是有利的。首先,其减小计算负荷,因为无效中间结果的额外处理被跳过。第二,在一些应用中其可为更准确的。情况可能是最高得分的最终结果与说话者速率不一致,但存在具有几乎同样好的得分的中间结果,但与说话者速率一致。在此情形中,仅不一致的最终结果便使其结束,且接着基于一致性被拒绝。在此情形中,什么也没返回,结果是错误拒绝。如果系统在所述过程中较早消除最终结果,那么较一致的中间结果现在可为最终结果,基于一致性确认所述较一致的中间结果。确定一致性及确认中间结果的一个挑战是可能不存在对话语中早期说话者速率的良好估计,因为什么也没听到。此使得难以知道中间结果是否较差,及何时将其拒绝是安全的。在一个实施例中,修改一致说话者速率的概念。替代寻找说话者可说话的特定速率,确定任何数目个音素的联合分布。举例来说,可存在基于所有先前音素的第n个音素的持续时间分布,且可基于所述分布来给每一音素的持续时间打分。
实例性辨识过程
在一些实施例中,如本文中所描述的确定一致性及确认辨识结果可用于片语/单词辨认辨识过程中。一个实例性单词或片语辨认过程描述于在2010年07月06日提出申请的标题为“用于不用手的话音控制及搜索的系统及方法(Systems and Methods for HandsFree Voice Contro1and Search)”的第12/831,051号美国专利申请案中,所述申请案的全部揭示内容据此以引用方式并入本文中。如上文所描述,可使用持续时间、能量或音调来后处理最终辨识结果,其可为对应于已在语音串流中辨认的特定单词或片语的辨识的输出,或可使用此些参数来处理中间结果。
在其它实施例中,可使用如本文中所描述的确定一致性及确认辨识结果来改善对基于辨识器的特定辨识集合可用的辨识结果的选择。举例来说,辨识器可返回N个最好结果。如果辨识器具有由命令A、B、C、D、E及F组成的命令集合,且如果话语接收于辨识器中,那么最好的3个结果可为D、A及E。可针对D、A及E计算持续时间、能量或音调得分,将其缩放,且将其与D、A及E的辨识得分相加(举例来说)。基于持续时间(举例来说)三个当中具有最高经修改结果的任何一个将被返回作为辨识器的回答。因此,除使用持续时间、能量或音调来过滤掉片语辨认辨识器中的错误接受外,持续时间、能量或音调还可用来给结果重新打分以断定哪一个是最好的。应理解,上文所描述的辨识过程仅为实例且不限制确定持续时间、能量及/或音调的一致性对其它辨识过程的应用。
以上说明图解说明本发明的各种实施例连同可如何实施本发明的方面的实例。以上实例及实施例不应被认为是仅有的实施例,且经呈现以图解说明由所附权利要求书界定的本发明的灵活性及优点。基于以上揭示内容及所附权利要求书,其它布置、实施例、实施方案及等效内容对于所属领域的技术人员将是显而易见的且可在不背离由权利要求书界定的本发明的精神及范围的情况下采用。本文已采用的术语及表达用于描述各种实施例及实例。这些术语及表达不应被解释为排除所展示及描述的特征或其部分的等效形式,应认识到所附权利要求书的范围内可存在各种修改。
Claims (23)
1.一种方法,其包含:
接收所说话语;
在语音辨识器中处理所述所说话语以产生辨识结果;
确定所述所说话语的分量声音的一个或一个以上参数的一致性,其中从由持续时间、能量及音调组成的群组选择所述参数,且其中所述所说话语的每一分量声音具有所述参数的对应值;及
基于所述参数中的至少一者的所述一致性确认所述辨识结果。
2.根据权利要求1所述的方法,其中确定一个或一个以上参数的一致性包含确定所述所说话语的分量声音的持续时间的所述一致性。
3.根据权利要求1所述的方法,其中确定一个或一个以上参数的一致性包含确定所述所说话语的分量声音的能量的所述一致性。
4.根据权利要求1所述的方法,其中确定一个或一个以上参数的一致性包含确定所述所说话语的分量声音的音调的所述一致性。
5.根据权利要求1所述的方法,其中确定多个参数的一致性,且其中确认所述辨识结果是基于每一所确定参数的所述单独一致性。
6.根据权利要求1所述的方法,其中所述辨识结果为第一得分且一个或一个以上一致性各自具有一得分,且其中确认所述辨识结果包含将所述第一得分与一个或一个以上一致性的得分组合以产生第二得分且将所述第二得分与阈值进行比较。
7.根据权利要求1所述的方法,其中确定一致性包含基于所述所说话语中的所述参数的预定一致性特性及所述参数的实际特性来计算一致性度量。
8.根据权利要求7所述的方法,其中所述预定一致性特性为所述所说话语的分量声音的所述一个或一个以上参数中的每一者的一个或一个以上预定统计参数。
9.根据权利要求8所述的方法,其中所述一个或一个以上预定统计参数包含所述所说话语的每一分量声音的所述参数的平均值,且其中从一组训练话语产生所述平均值。
10.根据权利要求1所述的方法,其中确认所述辨识结果包含:
将特定参数的特定一致性与阈值进行比较;
如果所述参数的所述一致性与所述阈值交叉,那么拒绝所述辨识结果,且如果所述参数的所述一致性不与所述阈值交叉,那么接受所述辨识结果。
11.根据权利要求10所述的方法,其中如果所述参数的所述一致性与所述阈值交叉,那么所述参数是不充分一致的,且其中如果所述参数的所述一致性不与所述阈值交叉,那么所述参数是充分一致的。
12.根据权利要求1所述的方法,其中所述参数为持续时间,且其中确定持续时间的一致性包含确定说话者速率,其中所述说话者速率是基于所述所说话语的总持续时间除以所述话语中的每一不同声音分量的持续时间的预期值的总和。
13.根据权利要求12所述的方法,其中持续时间的所述预期值是所述话语中的每一不同声音分量的平均持续时间。
14.根据权利要求12所述的方法,其中所述所说话语的分量声音的所述一个或一个以上参数的所述一致性中的至少一者包含一致性得分,且其中所述一致性得分是基于所述说话者速率、所述所说话语的分量声音的实际持续时间及所述话语中的每一分量声音的一个或一个以上统计参数。
15.根据权利要求12所述的方法,其进一步包含基于所述说话者速率来确定经修改预期值。
16.根据权利要求15所述的方法,其中通过将所述说话者速率乘以所述话语的每一不同声音分量的持续时间的所述预期值来确定所述经修改预期值。
17.根据权利要求15所述的方法,其进一步包含确定多个增量值,且其中所述多个增量值为每一经修改预期值与对应于每一特定经修改预期值的声音分量的持续时间之间的差。
18.根据权利要求15所述的方法,其进一步包含确定多个增量值,且其中所述多个增量值为可在每一经修改预期值上操作的第一函数与可在对应于每一特定经修改预期值的声音分量的持续时间上操作的第二函数之间的差。
19.根据权利要求18所述的方法,其中将一致性表示为得分,且其中确定所述一致性进一步包含将所述话语中的N个声音分量的所述增量值的平方相加且除以N。
20.根据权利要求18所述的方法,其中第一函数及第二函数为自然对数。
21.根据权利要求18所述的方法,其中第二函数包含对应于每一特定经修改预期值的所述声音分量的所述持续时间的标准偏差的指数。
22.根据权利要求1所述的方法,其中所述分量声音为音素、子语素、音节及字中的一者。
23.一种系统,其包含:
处理器;及
存储器,
其中所述处理器经配置以:
接收所说话语;
在语音辨识器中处理所述所说话语以产生辨识结果;
确定所述所说话语的分量声音的一个或一个以上参数的一致性,其中从由持续时间、能量及音调组成的群组选择所述参数,且其中所述所说话语的每一分量声音具有所述参数的对应值;及
基于所述参数中的至少一者的所述一致性确认所述辨识结果。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US13/217,134 | 2011-08-24 | ||
US13/217,134 US8781825B2 (en) | 2011-08-24 | 2011-08-24 | Reducing false positives in speech recognition systems |
PCT/US2012/051345 WO2013028518A1 (en) | 2011-08-24 | 2012-08-17 | Reducing false positives in speech recognition systems |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103797535A true CN103797535A (zh) | 2014-05-14 |
CN103797535B CN103797535B (zh) | 2016-06-08 |
Family
ID=47744890
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201280040735.6A Active CN103797535B (zh) | 2011-08-24 | 2012-08-17 | 减少语音辨识系统中的漏报 |
Country Status (5)
Country | Link |
---|---|
US (1) | US8781825B2 (zh) |
JP (1) | JP6030135B2 (zh) |
CN (1) | CN103797535B (zh) |
DE (1) | DE112012003479T5 (zh) |
WO (1) | WO2013028518A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019047220A1 (zh) * | 2017-09-11 | 2019-03-14 | 深圳传音通讯有限公司 | 一种应用程序启动方法及终端、计算机可读存储介质 |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8768707B2 (en) | 2011-09-27 | 2014-07-01 | Sensory Incorporated | Background speech recognition assistant using speaker verification |
CN104157284A (zh) * | 2013-05-13 | 2014-11-19 | 佳能株式会社 | 语音命令检测方法和系统,以及信息处理系统 |
US9147397B2 (en) | 2013-10-29 | 2015-09-29 | Knowles Electronics, Llc | VAD detection apparatus and method of operating the same |
PL3065131T3 (pl) * | 2015-03-06 | 2021-01-25 | Zetes Industries S.A. | Sposób i układ przetwarzania końcowego rezultatu rozpoznawania mowy |
US10019992B2 (en) | 2015-06-29 | 2018-07-10 | Disney Enterprises, Inc. | Speech-controlled actions based on keywords and context thereof |
KR102437689B1 (ko) * | 2015-09-16 | 2022-08-30 | 삼성전자주식회사 | 음성 인식 서버 및 그 제어 방법 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1162365A (zh) * | 1994-11-01 | 1997-10-15 | 英国电讯公司 | 语音识别 |
US7657433B1 (en) * | 2006-09-08 | 2010-02-02 | Tellme Networks, Inc. | Speech recognition accuracy with multi-confidence thresholds |
GB2468203A (en) * | 2009-02-27 | 2010-09-01 | Autonomy Corp Ltd | A speech recognition system using multiple resolution analysis |
US20110004473A1 (en) * | 2009-07-06 | 2011-01-06 | Nice Systems Ltd. | Apparatus and method for enhanced speech recognition |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4837831A (en) * | 1986-10-15 | 1989-06-06 | Dragon Systems, Inc. | Method for creating and using multiple-word sound models in speech recognition |
US5193142A (en) * | 1990-11-15 | 1993-03-09 | Matsushita Electric Industrial Co., Ltd. | Training module for estimating mixture gaussian densities for speech-unit models in speech recognition systems |
US5390278A (en) * | 1991-10-08 | 1995-02-14 | Bell Canada | Phoneme based speech recognition |
CA2088080C (en) * | 1992-04-02 | 1997-10-07 | Enrico Luigi Bocchieri | Automatic speech recognizer |
US5794198A (en) * | 1994-10-28 | 1998-08-11 | Nippon Telegraph And Telephone Corporation | Pattern recognition method |
US5893059A (en) * | 1997-04-17 | 1999-04-06 | Nynex Science And Technology, Inc. | Speech recoginition methods and apparatus |
JPH11311994A (ja) * | 1998-04-30 | 1999-11-09 | Sony Corp | 情報処理装置および方法、並びに提供媒体 |
US6223155B1 (en) * | 1998-08-14 | 2001-04-24 | Conexant Systems, Inc. | Method of independently creating and using a garbage model for improved rejection in a limited-training speaker-dependent speech recognition system |
US6138095A (en) * | 1998-09-03 | 2000-10-24 | Lucent Technologies Inc. | Speech recognition |
US6266633B1 (en) | 1998-12-22 | 2001-07-24 | Itt Manufacturing Enterprises | Noise suppression and channel equalization preprocessor for speech and speaker recognizers: method and apparatus |
EP1190416A1 (en) | 2000-02-10 | 2002-03-27 | Cellon France SAS | Error correction method with pitch change detection |
EP1189202A1 (en) * | 2000-09-18 | 2002-03-20 | Sony International (Europe) GmbH | Duration models for speech recognition |
GB2370401A (en) * | 2000-12-19 | 2002-06-26 | Nokia Mobile Phones Ltd | Speech recognition |
US6959278B1 (en) * | 2001-04-05 | 2005-10-25 | Verizon Corporate Services Group Inc. | Systems and methods for implementing segmentation in speech recognition systems |
US7103542B2 (en) * | 2001-12-14 | 2006-09-05 | Ben Franklin Patent Holding Llc | Automatically improving a voice recognition system |
US6724866B2 (en) | 2002-02-08 | 2004-04-20 | Matsushita Electric Industrial Co., Ltd. | Dialogue device for call screening and classification |
JP4437047B2 (ja) * | 2004-02-20 | 2010-03-24 | 本田技研工業株式会社 | 音声対話装置 |
JP4322785B2 (ja) * | 2004-11-24 | 2009-09-02 | 株式会社東芝 | 音声認識装置、音声認識方法および音声認識プログラム |
KR100655491B1 (ko) * | 2004-12-21 | 2006-12-11 | 한국전자통신연구원 | 음성인식 시스템에서의 2단계 발화 검증 방법 및 장치 |
JP2007017733A (ja) * | 2005-07-08 | 2007-01-25 | Sharp Corp | 入力装置、入力システム、入力方法、入力処理プログラム、および、プログラム記録媒体 |
CN1963917A (zh) * | 2005-11-11 | 2007-05-16 | 株式会社东芝 | 评价语音的分辨力、说话人认证的注册和验证方法及装置 |
JP4758919B2 (ja) * | 2007-01-22 | 2011-08-31 | 日本放送協会 | 音声認識装置及び音声認識プログラム |
US9646603B2 (en) * | 2009-02-27 | 2017-05-09 | Longsand Limited | Various apparatus and methods for a speech recognition system |
-
2011
- 2011-08-24 US US13/217,134 patent/US8781825B2/en active Active
-
2012
- 2012-08-17 DE DE112012003479.1T patent/DE112012003479T5/de not_active Ceased
- 2012-08-17 WO PCT/US2012/051345 patent/WO2013028518A1/en active Application Filing
- 2012-08-17 JP JP2014527200A patent/JP6030135B2/ja active Active
- 2012-08-17 CN CN201280040735.6A patent/CN103797535B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1162365A (zh) * | 1994-11-01 | 1997-10-15 | 英国电讯公司 | 语音识别 |
US7657433B1 (en) * | 2006-09-08 | 2010-02-02 | Tellme Networks, Inc. | Speech recognition accuracy with multi-confidence thresholds |
GB2468203A (en) * | 2009-02-27 | 2010-09-01 | Autonomy Corp Ltd | A speech recognition system using multiple resolution analysis |
US20110004473A1 (en) * | 2009-07-06 | 2011-01-06 | Nice Systems Ltd. | Apparatus and method for enhanced speech recognition |
Non-Patent Citations (2)
Title |
---|
JOSEPH KESHET;DAVID GRANGIER;SAMY BENGIO,: "Discriminative keyword spotting", 《SCIENCE DIRECT》 * |
YINGNA CHEN;TAO HOU;SHA MENG;SHAN ZHONG;JIA LIU,: "A New Framework For Large Vocabulary Keyword Spotting Using Two-Pass Confidence Measure", 《IEEE》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019047220A1 (zh) * | 2017-09-11 | 2019-03-14 | 深圳传音通讯有限公司 | 一种应用程序启动方法及终端、计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2013028518A1 (en) | 2013-02-28 |
JP2014524599A (ja) | 2014-09-22 |
US8781825B2 (en) | 2014-07-15 |
DE112012003479T5 (de) | 2014-05-22 |
CN103797535B (zh) | 2016-06-08 |
US20130054242A1 (en) | 2013-02-28 |
JP6030135B2 (ja) | 2016-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103797535A (zh) | 减少语音辨识系统中的漏报 | |
Cathcart et al. | A shallow model of backchannel continuers in spoken dialogue | |
CN103559894B (zh) | 口语评测方法及系统 | |
CN110782872A (zh) | 基于深度卷积循环神经网络的语种识别方法及装置 | |
CN102831891B (zh) | 一种语音数据处理方法及系统 | |
CN107492382A (zh) | 基于神经网络的声纹信息提取方法及装置 | |
US20170154640A1 (en) | Method and electronic device for voice recognition based on dynamic voice model selection | |
KR20170041105A (ko) | 음성 인식에서의 음향 점수 계산 장치 및 방법과, 음향 모델 학습 장치 및 방법 | |
CN107146624A (zh) | 一种说话人确认方法及装置 | |
CN104978963A (zh) | 语音识别装置、方法以及电子设备 | |
CN105654940B (zh) | 一种语音合成方法和装置 | |
CN110704590B (zh) | 扩充训练样本的方法和装置 | |
US5950158A (en) | Methods and apparatus for decreasing the size of pattern recognition models by pruning low-scoring models from generated sets of models | |
US5963902A (en) | Methods and apparatus for decreasing the size of generated models trained for automatic pattern recognition | |
CN111433847A (zh) | 语音转换的方法及训练方法、智能装置和存储介质 | |
CN102568475A (zh) | 用于普通话水平测评的系统和方法 | |
EP2332139B1 (en) | Method for creating a speech model | |
CN110033762B (zh) | 语音对话设备、语音对话方法和程序 | |
CN116129866A (zh) | 语音合成方法、网络训练方法、装置、设备及存储介质 | |
CN114627896A (zh) | 语音评测方法、装置、设备及存储介质 | |
CN106297766A (zh) | 语音合成方法及系统 | |
CN109979422B (zh) | 基频处理方法、装置、设备及计算机可读存储介质 | |
ten Bosch et al. | DIANA, an end-to-end computational model of human word comprehension | |
CN104240699A (zh) | 一种简单有效的短语语音识别方法 | |
Yang et al. | Study to speech emotion recognition based on TWINsSVM |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |