CN103797535B - 减少语音辨识系统中的漏报 - Google Patents

减少语音辨识系统中的漏报 Download PDF

Info

Publication number
CN103797535B
CN103797535B CN201280040735.6A CN201280040735A CN103797535B CN 103797535 B CN103797535 B CN 103797535B CN 201280040735 A CN201280040735 A CN 201280040735A CN 103797535 B CN103797535 B CN 103797535B
Authority
CN
China
Prior art keywords
consistence
score
time length
identification result
component sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201280040735.6A
Other languages
English (en)
Other versions
CN103797535A (zh
Inventor
乔纳森·肖
彼得·韦尔默郎
斯蒂芬·萨顿
罗伯特·萨瓦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sensory Inc
Original Assignee
Sensory Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sensory Inc filed Critical Sensory Inc
Publication of CN103797535A publication Critical patent/CN103797535A/zh
Application granted granted Critical
Publication of CN103797535B publication Critical patent/CN103797535B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

本发明的实施例改进执行语音辨识的方法。在一个实施例中,本发明包括一种方法,其包含:接收所说话语;在语音辨识器中处理所述所说话语以产生辨识结果;确定所述所说话语的分量声音的一个或一个以上参数的一致性,其中从由持续时间、能量及音调组成的群组选择所述参数,且其中所述所说话语的每一分量声音具有所述参数的对应值;及基于所述参数中的至少一者的所述一致性确认所述辨识结果。

Description

减少语音辨识系统中的漏报
相关申请案交叉参考
本申请案请求在2011年8月24日的标题为“减少语音辨识系统中的漏报(ReducingFalsePositivesinSpeechRecognitionSystems)”的第13/217,134号美国专利申请案的优先权权益,所述申请案的揭示内容据此以引用方式并入本文中。
背景技术
本发明涉及语音辨识,且更特定来说涉及使用持续时间及能量改进语音辨识的系统及方法。
随着手持式装置的爆炸式可用性及装置大小的缩小,语音辨识正成为用以支持与电子系统的无缝用户交互作用的愈来愈有价值的技术。然而,构建准确的辨识系统具有极端挑战性。高度准确的辨识系统可为计算密集的且不适合于小型手持式电子装置。
一些语音辨识器的一个问题在辨识器产生错误接受时发生。在此情形中,辨识器可产生指示已辨识特定单词或片语的输出,然而事实上实际未说所述单词或片语。此现象有时在经配置以接收声音串流且拣出(“辨认”)所述串流中的特定声音的单词辨认辨识器中存在。
本发明通过使用持续时间及能量执行语音辨识的系统及方法来解决这些及其它问题。
发明内容
本发明的实施例改进执行语音辨识的方法。在一个实施例中,本发明包括一种方法,其包含:接收所说话语;在语音辨识器中处理所述所说话语以产生辨识结果;确定所述所说话语的分量声音的一个或一个以上参数的一致性,其中从由持续时间、能量及音调组成的群组选择所述参数,且其中所述所说话语的每一分量声音具有所述参数的对应值;及基于所述参数中的至少一者的所述一致性确认所述辨识结果。
附图说明
图1图解说明根据本发明的一个实施例用于执行语音辨识的方法。
图2图解说明根据本发明的一个实施例用于实施语音辨识的系统。
具体实施方式
本文中描述用于使用持续时间及能量来执行语音辨识的技术。出于解释的目的,在以下说明中,列举了大量实例及具体细节以便提供对本发明的透彻理解。然而,所属领域的技术人员将显而易见,由权利要求书所界定的本发明可单独或结合下文所描述的其它特征包括这些实例中的一些或全部特征,且可进一步包括本文中所描述的特征及概念的明显修改及等效形式。
图1图解说明根据本发明的一个实施例用于执行语音辨识的方法。本发明的实施例监视接收于辨识器中的用户话语的特定参数以改善语音辨识结果。特定来说,本发明的实施例通过识别辨识结果中的不一致性(其为真实语音的不现实结果)来减少错误接受。举例来说,辨识器可正在听单词“hot(热)”,且“h”可用10ms,“o”的左边部分可用10ms,“o”的右边部分可用400ms,且“t”可用100ms。真实语音以比此更一致的速率发生。类似地,“h”及“o”的左侧可非常大声,而话语的剩余部分非常小声。此不一致性也是真实语音的非常不现实的形式。最后,所辨识语音可以高音调(通常与女人相关)开始,且下降到低音调(通常与男人相关)。类似地,此不一致性是不现实的。现有辨识器将不识别此些不现实的结果,因为先前辨识器单独地针对每一分段应用持续时间建模且不强制跨越较宽广文本的一致性。举例来说,用于持续时间模型的统计数据通常与说话者无关且对于特定说话者不是非常精确。如果系统可将关于持续时间、能量或音调的一致性的额外信息包括到辨识器,那么辨识器错误接受的频率将低得多。
图1图解说明根据一个实施例的过程。在101处,接收所说话语。在102处,在辨识器中处理所说话语以执行语音辨识。在一些实施例中,举例来说,辨识器可为硬件的用于执行语音辨识的专用单元,例如经优化用于语音辨识的微处理器、微控制器或专用集成电路(ASIC)。在其它实施例中,辨识器可以包括可在处理器上执行的指令的软件实施。举例来说,辨识器可实施为软件且在(举例来说)通用微处理器或微控制器上执行。在103处,确定持续时间、能量或音调的一致性。举例来说,可在分量基础上分析所说话语。举例来说,可基于子语素、音素、音节或甚至单词来分析所说话语。如果使用子语素,那么可分析所说话语的分段以确定每一分段对应哪个子语素。作为另一实例,如果说话者说单词“hot”,那么系统可确定“hot”的声音分段为“h”-“o”-“t”的音素。系统可确定跨越声音分量的持续时间、能量或音调的一致性。在104处,基于一致性确认辨识结果。举例来说,如果辨识器产生指示经辨识的特定单词或片语的辨识结果,那么可基于所说话语的持续时间、能量或音调参数中的一者或一者以上的一致性来确认辨识结果。特定来说,如果确定(举例来说)持续时间不一致,那么辨识结果无效且可被拒绝。
图2图解说明根据一个实施例的系统。系统200包括包括内部存储器203的处理器201。内部存储器203可包括(举例来说)用于局部数据存储及检索的寄存器、高速缓存器或静态随机存取存储器(SRAM)。举例来说,处理器201可经由总线205进一步存储及检索来自外部存储器204的数据。举例来说,外部存储器204可为动态随机存取存储器。处理器可进一步存储及检索来自外围存储器209的数据,举例来说,所述外围存储器可为硬盘驱动器或固态存储器。举例来说,系统200可包括用于与其它资源通信的网络接口210。接口210可为(举例来说)无线接口,例如蓝牙接口、蜂窝式接口、基于IEEE802的接口,或(举例来说)有线接口,例如以太网、USB或光学接口。在一些实施例中,在辨识过程中使用的数据可存储于外部且经由接口210存取。
在此实例中,处理器201包括辨识器202,所述辨识器实施为用于编程处理器以执行本文中所描述的确定一致性及确认辨识结果的处理技术的软件。辨识器202可包括可执行指令,所述可执行指令致使处理器对输入语音执行辨识操作、确定持续时间、能量及音调的一致性及确认辨识结果。在此实例中,一致性分析220可由辨识器202的一个或一个以上组件执行。在其它实施例中,举例来说,一致性分析220可为来自辨识器202的单独软件。
所说话语经由音频接口206接收于系统中。音频接口206可包括麦克风或其它形式的音频/电子转换器以将声音信号转换成电子信号。音频接口206可包括用于将模拟音频信号转换成数字信号的模/数转换器。举例来说,所说话语的数字表示可耦合到处理器201或跨越总线207存储于存储器209中且由处理器201存取。辨识器202处理所说话语的数字表示以产生辨识结果。辨识结果可包括中间辨识结果或最终辨识结果。最终辨识结果表示辨识器所断定的单词或片语由所说话语体现。最终及中间结果的类型可基于所使用的辨识算法而变化。中间结果可为在辨识过程期间产生的声音分量(例如,音素)的概率且可存储于内部存储器203或DRAM204中(举例来说)。如下文更详细地描述,举例来说,确定一致性及确认辨识结果可在中间辨识结果或最终辨识结果或两者上发生。
在一些实施例中,可确定一个参数的一致性。在其它实施例中,可确定多个参数的一致性。举例来说,在一个实施例中,可确定所说话语的分量声音的持续时间的一致性。在此情形中,可相对于在所说话语中辨识的子语素的预期值确定(举例来说)跨越所说话语的子语素的持续时间的一致性。在另一实施例中,可确定所说话语的分量声音的能量(或替代地,音调)的一致性。在能量的情形中,可确定(举例来说)跨越所说话语的子语素的能量的一致性。
在另一实施例中,确定多个参数的一致性,且确认辨识结果是基于每一所确定参数的单独一致性。举例来说,可确定持续时间及能量的一致性,且确认可基于两个一致性。
在一个实施例中,辨识结果为得分且一致性各自具有得分。在此情形中,举例来说,确认辨识结果可包括将辨识结果得分与一致性得分组合以产生组合得分且将组合得分与阈值进行比较。
在另一实施例中,可如下确认一致性。将特定参数(即,持续时间、能量、音调)的特定一致性与阈值进行比较。如果参数的一致性与阈值交叉,那么拒绝辨识结果,且如果参数的一致性不与阈值交叉,那么接受辨识结果。举例来说,如果参数的一致性与阈值交叉,那么参数是不充分一致的,且如果参数的一致性不与阈值交叉,那么参数是充分一致的。在一些实施例中,一致性可计算为数值且与另一数值进行比较。可使用各种技术来确定一致性。使用一些技术,高得分可对应于不一致的参数。因此,如果得分高于阈值,那么拒绝辨识结果。举例来说,其它技术可具有对应于一致的参数的高得分,且因此如果得分低于阈值,那么拒绝辨识结果。
确定一致性的实例性实施方案
在一个实例性实施方案中,确定持续时间的一致性包括确定说话者速率。一致性得分可基于说话者速率、所说话语的分量声音的实际持续时间以及话语中的每一分量声音的一个或一个以上统计参数。作为特定实例,说话者速率可基于所说话语的总持续时间除以话语中的每一不同声音分量的持续时间的预期值的总和。举例来说,如果用户说单词“TO”,那么分量声音(在此其为音素)可为“T”及“O”的音素声音。话语的对应于“T”声音的部分的持续时间可为100ms且话语的对应于“O”声音的部分的持续时间可为200ms。因此,所说话语的总持续时间为300ms。在一个实施例中,预期值可为平均数。在训练期间,可确定“T”声音的持续时间范围是从100到200ms,具有150ms的平均持续时间Tave。类似地,可确定“O”声音的持续时间范围是从200到300ms,具有250ms的平均持续时间Oave。因此,在此实例中,说话者速率SR可计算如下:
SR=总持续时间/总和(预期持续时间)
SR=(100ms+200ms)/(150ms+250ms)=3/4
在当前实例中,可使用说话者速率来确定一致性得分。举例来说,可通过将说话者速率乘以话语的每一不同声音分量的持续时间的预期值来确定经修改预期值。在此实例中,可如下基于说话者速率来确定经修改预期值:
T’ave=Tave*SR且O’ave=Oave*SR,
T’ave=(150ms)(3/4)=112.5,
O’ave=(250ms)(3/4)=187.5,
其中T’ave是Tave的经修改预期值且O’ave是Oave的经修改预期值。
确定一致性(例如,一致性得分)可包括确定增量值。在一个实施例中,增量值是每一经修改预期值与对应于每一特定经修改预期值的声音分量的持续时间之间的差。举例来说,可如下针对每一分量计算增量值:
(1)T_delta=T’ave-Ta,
(2)O_de1ta=O’ave-Oa,
其中Ta是话语的“T”分量的实际持续时间且Oa是话语的“O”分量的实际持续时间。在一些实施例中,增量值可为可在每一经修改预期值上操作的第一函数与可在对应于每一特定经修改预期值的声音分量的持续时间上操作的第二函数之间的差。举例来说,可使用的另一增量值如下:
(3)T_delta=1n(T’ave)-1n(Ta),
(4)O_delta=1n(O’ave)-1n(Oa),
其中第一及第二函数两者均为自然对数。
作为又一实例,可使用的另一增量值如下:
(5)T_delta=1n(T’ave*exp(1/2(std_dev^2)))-1n(Ta),
(6)O_delta=1n(O’ave*exp(1/2(std_dev^2)))-1n(Oa),
其中std_dev^2是分量声音的持续时间的对数的标准偏差,分量声音在此实例中为音素“T”及“O”,且“exp”是指数函数ex。因此,在此实例中,第二函数包括对应于每一特定经修改预期值的声音分量的持续时间的标准偏差的指数。
在一些实例性实施方案中,一致性可表示为得分,且其中确定一致性进一步包含将话语中的N个声音分量的增量值的平方相加且除以N,其中N为整数。使用以上(1)及(2)的一个实例如下:
(7)S=(1/N)*[T_delta]2+(1/N)*[O_delta]2,其中N=2。
应用方程式(1)、(2)及(7),获得S=156.25的一致性得分。在一个实施例中,可将所述一致性得分与阈值进行比较,且如果所述得分与所述阈值交叉,那么拒绝辨识结果。在此情形中,“T”及“O”的实际值两者均为快的(例如,Ta=100ms,其中Tave=150ms为快速说的“T”声音,且Oa=200ms,其中Oave=250ms是快速说的“O”声音)。在此情形中,“T”及“O”两者均为快的,其为一致的。因此,一致性得分低于某一预设阈值且确认辨识结果。
现在呈现关于快“T”及慢“O”的另一实例以展示一致性得分如何改变。在此实例中,将以下值用于所说话语的实际持续时间:Ta=100ms且Oa=300ms。在此情形中,说话者速率为:
SR=(100ms+300ms)/(150ms+250ms)=4/4=1。
经修改预期值为:
T’ave=(150ms)(1)=150,且
O’ave=(250ms)(1)=250。
增量值为:
T_delta=T’ave-Ta=150-100=50,且
O_de1ta=O’ave-Oa=250-300=50。
一致性得分为:
S=(1/N)*[T_de1ta]2+(1/N)*[O_de1ta]2=(502+502)/2=2500。
如果阈值设定于156.25<Th<2500之间,其中Th为阈值,那么系统将拒绝所说话语Ta=100ms及Oa=300ms的辨识结果。
现在呈现关于慢“T”及慢“O”的另一实例以说明另一情形。在此实例中,将以下值用于所说话语的实际持续时间:Ta=200ms且Oa=300ms,其中Ta及Oa两者在持续时间上均比来自训练语料的统计平均数长(举例来说)。在此情形中,说话者速率为:
SR=(200ms+300ms)/(150ms+250ms)=5/4。
经修改预期值为:
T’ave=(150ms)(5/4)=187.5,且
O’ave=(250ms)(5/4)=312.5。
增量值为:
T_de1ta=T’ave-Ta=187.5-200=12.5,且
O_de1ta=O’ave-Oa=312.5-300=12.5。
一致性得分为:
S=(1/N)*[T_delta]2+(1/N)*[O_delta]2=(12.52+12.52)/2=156.25,
其为快-快情形的相同结果。因此,一致慢的说话者的辨识结果将产生低于阈值Th的一致性得分,且将确认结果。
现在呈现关于慢“T”及快“O”的另一实例以说明另一情形。在此实例中,将以下值用于所说话语的实际持续时间:Ta=200ms且Oa=200ms,其中Ta在持续时间上比统计平均数长且Oa在持续时间上比统计平均数短。在此情形中,说话者速率为:
SR=(200ms+200ms)/(150ms+250ms)=4/4=1。
经修改预期值为:
T’ave=(150ms)(1)=150,且
O’ave=(250ms)(1)=250。
增量值为:
T_delta=T’ave-Ta=150-200=50,且
O_delta=O’ave-Oa=250-200=50。
一致性得分为:
S=(1/N)*[T_de1ta]2+(1/N)*[O_de1ta]2=(502+502)/2=2500。
其为快-慢情形的相同结果。因此,辨识结果不一致输入将产生高于阈值Th的一致性得分,且将拒绝结果。
更一股来说,可使用N个声音分量的持续时间通过除以N来产生一致性得分S,如以上(7)中所展示。以下公式展示遵循上文所呈现的实例性实施方案的根据各种实施例的用于确定一致性得分的一股技术。第一公式为(7)的一股情形:
S = 1 N Σ i = 1 N [ ( d i ) - ( SR μ i ) ] 2 ,
其中di是第i分量(例如,音素)的实际持续时间,SR是说话者速率,μi是根据训练语料确定的第i分量的平均持续时间(举例来说)。
作为另一实例,将所说话语中的每一分量的实际持续时间及平均持续时间转换为使用增量值(3)及(4)或(5)及(6)的对数域,且基于说话者速率将平均音素持续时间规范化。一致性得分S使用均方差。在以下实例性实施方案中,得分零是完美的,且如果得分高于某一预设阈值,那么拒绝辨识结果。多个分量的一股形式为:
S = 1 N Σ i = 1 N [ ln ( d i ) - ln ( SR μ i ) ] 2 .
一些分量(例如,音素)比其它分量具有更大变化。在一个实施例中,可通过加权每一音素的得分(举例来说,通过标准偏差)来计及分量声音中的变化。在以下实例中,得分可除以持续时间的标准偏差的平方。因此,可使用多个分量的一股化形式根据类似于(3)及(4)的增量值如下计算得分S:
S = 1 N Σ i = 1 N [ ln ( d i ) - ln ( SR μ i ) ] 2 σ i 2 ,
其中di是第i分量(例如,音素)的实际持续时间,SR是说话者速率,μi是根据训练语料确定的第i分量的平均持续时间(举例来说),且σi 2是根据训练语料确定的第i分量的标准偏差。
虽然,给定音素的持续时间的对数的平均数为1n(μi),但所述音素的平均持续时间不确切是μi。在一个实施例中,可包括特定音素的帧的平均数目作为在μi上操作的函数的部分。因此,可使用多个分量的一股化形式根据类似于(5)及(6)的增量值如下计算得分S:
S = 1 N Σ i = 1 N [ ln ( d i ) - ln ( SRμ i e σ i 2 2 ) ] 2 σ i 2 .
在一些应用中,持续时间的分布可为对数正态的。因此,可找到(例如,从训练语料)每一音素持续时间的概率。可使用这些概率的几何平均数来获得每一音素的平均概率,其可使用以下公式来计算:
S = Π i = 1 N 1 d i σ i 2 π e - [ ln ( d i ) - ln ( SR μ i ) ] 2 2 σ i 2 N
在此情形中,由相同函数在实际输入及经修改说话者速率两者上操作,由指数函数(“e(x)”)在自然对数(“1n(x)”)及每一分量的增量值上操作,相乘在一起,且对结果求N次方根。此为几何平均数的一个实例。
以上实例打算作为可确定一致性以确认持续时间的辨识结果的许多方式的说明。除其它外,可基于参数(例如,统计参数)的其它预定一致性特性、特定辨识过程、特定应用及所要结果来使用用于确定一致性持续时间、能量及音调的其它技术。以上实例并非穷尽性的且不限制权利要求书的范围。
确认辨识结果
如上文所图解说明,可确定一致性得分、将所述一致性得分与阈值进行比较,且如果所述得分低于所述阈值(或高于所述阈值,此取决于如何计算一致性得分)那么确认所述一致性得分。然而,替代在辨识结果高于或低于某一阈值的情况下确认辨识结果,可将一致性得分与辨识得分组合。在一个实例性实施方案中,缩放一致性得分且将其从辨识结果的得分减去,且有效辨识结果仅在组合辨识得分高于0的情况下发生(举例来说),其中小一致性得分对应于较一致的参数。如果新的组合得分低于零,那么可拒绝辨识结果。在其它实施例中,可使用其它阈值及一致性得分与辨识得分之间的其它组合关系。在另外其它实施例中,可将多个不同参数的多个一致性得分与辨识得分组合且用以确认辨识得分。
在一些实施例中,可确认最终辨识结果,且在其它实施例中,可确认中间辨识结果。在第一情形中,辨识器可经配置以辨识多个单词或片语。所述单词、片语或所述辨识器经配置以辨识的其它话语通常可互换地称为辨识集合或者语法或词汇。所述辨识器可处理所说话语且输出最终辨识结果。结果的后处理可包括如上文所描述基于一致性来确认结果。
在另一实施例中,替代一直等待直到辨识过程的结束为止,辨识算法可检查中间状态下的一致性。如果一直到特定状态的中间辨识结果与说话者速率不一致,那么可拒绝所述中间结果。较早拒绝无效中间结果可由于至少两个原因是有利的。首先,其减小计算负荷,因为无效中间结果的额外处理被跳过。第二,在一些应用中其可为更准确的。情况可能是最高得分的最终结果与说话者速率不一致,但存在具有几乎同样好的得分的中间结果,但与说话者速率一致。在此情形中,仅不一致的最终结果便使其结束,且接着基于一致性被拒绝。在此情形中,什么也没返回,结果是错误拒绝。如果系统在所述过程中较早消除最终结果,那么较一致的中间结果现在可为最终结果,基于一致性确认所述较一致的中间结果。确定一致性及确认中间结果的一个挑战是可能不存在对话语中早期说话者速率的良好估计,因为什么也没听到。此使得难以知道中间结果是否较差,及何时将其拒绝是安全的。在一个实施例中,修改一致说话者速率的概念。替代寻找说话者可说话的特定速率,确定任何数目个音素的联合分布。举例来说,可存在基于所有先前音素的第n个音素的持续时间分布,且可基于所述分布来给每一音素的持续时间打分。
实例性辨识过程
在一些实施例中,如本文中所描述的确定一致性及确认辨识结果可用于片语/单词辨认辨识过程中。一个实例性单词或片语辨认过程描述于在2010年07月06日提出申请的标题为“用于不用手的话音控制及搜索的系统及方法(SystemsandMethodsforHandsFreeVoiceContro1andSearch)”的第12/831,051号美国专利申请案中,所述申请案的全部揭示内容据此以引用方式并入本文中。如上文所描述,可使用持续时间、能量或音调来后处理最终辨识结果,其可为对应于已在语音串流中辨认的特定单词或片语的辨识的输出,或可使用此些参数来处理中间结果。
在其它实施例中,可使用如本文中所描述的确定一致性及确认辨识结果来改善对基于辨识器的特定辨识集合可用的辨识结果的选择。举例来说,辨识器可返回N个最好结果。如果辨识器具有由命令A、B、C、D、E及F组成的命令集合,且如果话语接收于辨识器中,那么最好的3个结果可为D、A及E。可针对D、A及E计算持续时间、能量或音调得分,将其缩放,且将其与D、A及E的辨识得分相加(举例来说)。基于持续时间(举例来说)三个当中具有最高经修改结果的任何一个将被返回作为辨识器的回答。因此,除使用持续时间、能量或音调来过滤掉片语辨认辨识器中的错误接受外,持续时间、能量或音调还可用来给结果重新打分以断定哪一个是最好的。应理解,上文所描述的辨识过程仅为实例且不限制确定持续时间、能量及/或音调的一致性对其它辨识过程的应用。
以上说明图解说明本发明的各种实施例连同可如何实施本发明的方面的实例。以上实例及实施例不应被认为是仅有的实施例,且经呈现以图解说明由所附权利要求书界定的本发明的灵活性及优点。基于以上揭示内容及所附权利要求书,其它布置、实施例、实施方案及等效内容对于所属领域的技术人员将是显而易见的且可在不背离由权利要求书界定的本发明的精神及范围的情况下采用。本文已采用的术语及表达用于描述各种实施例及实例。这些术语及表达不应被解释为排除所展示及描述的特征或其部分的等效形式,应认识到所附权利要求书的范围内可存在各种修改。

Claims (13)

1.一种用于语音辨识的方法,其包含:
接收所说话语;
对所述所说话语执行语音辨识处理且产生辨识结果;
确定所述辨识结果的分量声音的持续时间的一致性,所述确定包含:
通过将所述所说话语的总持续时间除以所述辨识结果的所述分量声音的预期持续时间的总和来计算说话者速率;
针对每一分量声音:
通过将所述分量声音的预期持续时间乘以所述说话者速率来计算经修改预期持续时间;及
计算对应于所述所说话语中的所述分量声音的持续时间与所述分量声音的经修改预期持续时间之间的差的增量值;及
通过求所述增量值的平方的总和且将所述总和除以分量声音的总数目来计算持续时间一致性得分;及
基于所述持续时间一致性得分来确认所述辨识结果。
2.根据权利要求1所述的方法,其进一步包含:
确定所述分量声音的能量的一致性;及
产生能量一致性得分,
其中所述辨识结果的所述确认是进一步基于所述能量一致性得分。
3.根据权利要求2所述的方法,其进一步包含:
确定所述分量声音的音调的一致性;及
产生音调一致性得分,
其中所述辨识结果的所述确认是进一步基于所述音调一致性得分。
4.根据权利要求1所述的方法,其中所述辨识结果与辨识得分相关联,且其中确认所述辨识结果包含将所述辨识得分与所述持续时间一致性得分组合以产生组合得分且将所述组合得分与阈值进行比较。
5.根据权利要求1所述的方法,其中每一分量声音的所述预期持续时间是从一组说话者无关训练话语产生的平均持续时间值。
6.根据权利要求1所述的方法,其中确认所述辨识结果包含:
将所述持续时间一致性得分与阈值进行比较;
如果所述持续时间一致性得分与所述阈值交叉,那么拒绝所述辨识结果;及
如果所述持续时间一致性得分不与所述阈值交叉,那么接受所述辨识结果。
7.根据权利要求6所述的方法,其中如果所述持续时间一致性得分与所述阈值交叉,那么所述分量声音的所述持续时间是不充分一致的,且其中如果所述持续时间一致性得分不与所述阈值交叉,那么所述分量声音的所述持续时间是充分一致的。
8.根据权利要求1所述的方法,其中所述分量声音为音素、子语素、音节及字中的一者。
9.一种用于语音辨识的系统,其包含:
音频接口,其经配置以接收所说话语;
辨识器,其经配置以:
对所述所说话语执行语音辨识处理且产生辨识结果;
确定所述辨识结果的分量声音的持续时间的一致性,所述确定包含:
通过将所述所说话语的总持续时间除以所述辨识结果的所述分量声音的预期持续时间的总和来计算说话者速率;
针对每一分量声音:
通过将所述分量声音的预期持续时间乘以所述说话者速率来计算经修改预期持续时间;及
计算对应于所述所说话语中的所述分量声音的持续时间与所述分量声音的经修改预期持续时间之间的差的增量值;及
通过求所述增量值的平方的总和且将所述总和除以分量声音的总数目来计算持续时间一致性得分;及
基于所述持续时间一致性得分来确认所述辨识结果。
10.根据权利要求9所述的系统,其中所述辨识器进一步经配置以:
确定所述分量声音的能量的一致性;及
产生能量一致性得分,
其中所述辨识结果的所述确认是进一步基于所述能量一致性得分。
11.根据权利要求9所述的系统,其中所述辨识器进一步经配置以:
确定所述分量声音的音调的一致性;及
产生音调一致性得分,
其中所述辨识结果的所述确认是进一步基于所述音调一致性得分。
12.根据权利要求9所述的系统,其中每一分量声音的所述预期持续时间是从一组说话者无关训练话语产生的平均持续时间值。
13.根据权利要求9所述的系统,其中确认所述辨识结果包含:
将所述持续时间一致性得分与阈值进行比较;
如果所述持续时间一致性得分与所述阈值交叉,那么拒绝所述辨识结果;及
如果所述持续时间一致性得分不与所述阈值交叉,那么接受所述辨识结果。
CN201280040735.6A 2011-08-24 2012-08-17 减少语音辨识系统中的漏报 Active CN103797535B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/217,134 US8781825B2 (en) 2011-08-24 2011-08-24 Reducing false positives in speech recognition systems
US13/217,134 2011-08-24
PCT/US2012/051345 WO2013028518A1 (en) 2011-08-24 2012-08-17 Reducing false positives in speech recognition systems

Publications (2)

Publication Number Publication Date
CN103797535A CN103797535A (zh) 2014-05-14
CN103797535B true CN103797535B (zh) 2016-06-08

Family

ID=47744890

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280040735.6A Active CN103797535B (zh) 2011-08-24 2012-08-17 减少语音辨识系统中的漏报

Country Status (5)

Country Link
US (1) US8781825B2 (zh)
JP (1) JP6030135B2 (zh)
CN (1) CN103797535B (zh)
DE (1) DE112012003479T5 (zh)
WO (1) WO2013028518A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8768707B2 (en) 2011-09-27 2014-07-01 Sensory Incorporated Background speech recognition assistant using speaker verification
CN104157284A (zh) * 2013-05-13 2014-11-19 佳能株式会社 语音命令检测方法和系统,以及信息处理系统
US9147397B2 (en) 2013-10-29 2015-09-29 Knowles Electronics, Llc VAD detection apparatus and method of operating the same
EP3065131B1 (fr) * 2015-03-06 2020-05-20 ZETES Industries S.A. Méthode et système de post-traitement d'un résultat de reconnaissance vocale
US10019992B2 (en) 2015-06-29 2018-07-10 Disney Enterprises, Inc. Speech-controlled actions based on keywords and context thereof
KR102437689B1 (ko) * 2015-09-16 2022-08-30 삼성전자주식회사 음성 인식 서버 및 그 제어 방법
WO2019047220A1 (zh) * 2017-09-11 2019-03-14 深圳传音通讯有限公司 一种应用程序启动方法及终端、计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1162365A (zh) * 1994-11-01 1997-10-15 英国电讯公司 语音识别
US7657433B1 (en) * 2006-09-08 2010-02-02 Tellme Networks, Inc. Speech recognition accuracy with multi-confidence thresholds
GB2468203A (en) * 2009-02-27 2010-09-01 Autonomy Corp Ltd A speech recognition system using multiple resolution analysis

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4837831A (en) * 1986-10-15 1989-06-06 Dragon Systems, Inc. Method for creating and using multiple-word sound models in speech recognition
US5193142A (en) * 1990-11-15 1993-03-09 Matsushita Electric Industrial Co., Ltd. Training module for estimating mixture gaussian densities for speech-unit models in speech recognition systems
US5390278A (en) * 1991-10-08 1995-02-14 Bell Canada Phoneme based speech recognition
CA2088080C (en) * 1992-04-02 1997-10-07 Enrico Luigi Bocchieri Automatic speech recognizer
US5794198A (en) * 1994-10-28 1998-08-11 Nippon Telegraph And Telephone Corporation Pattern recognition method
US5893059A (en) * 1997-04-17 1999-04-06 Nynex Science And Technology, Inc. Speech recoginition methods and apparatus
JPH11311994A (ja) * 1998-04-30 1999-11-09 Sony Corp 情報処理装置および方法、並びに提供媒体
US6223155B1 (en) * 1998-08-14 2001-04-24 Conexant Systems, Inc. Method of independently creating and using a garbage model for improved rejection in a limited-training speaker-dependent speech recognition system
US6138095A (en) * 1998-09-03 2000-10-24 Lucent Technologies Inc. Speech recognition
US6266633B1 (en) 1998-12-22 2001-07-24 Itt Manufacturing Enterprises Noise suppression and channel equalization preprocessor for speech and speaker recognizers: method and apparatus
JP2003522981A (ja) 2000-02-10 2003-07-29 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ ピッチ変化検出を伴なう誤り訂正方法
EP1189202A1 (en) * 2000-09-18 2002-03-20 Sony International (Europe) GmbH Duration models for speech recognition
GB2370401A (en) * 2000-12-19 2002-06-26 Nokia Mobile Phones Ltd Speech recognition
US6959278B1 (en) * 2001-04-05 2005-10-25 Verizon Corporate Services Group Inc. Systems and methods for implementing segmentation in speech recognition systems
US7103542B2 (en) * 2001-12-14 2006-09-05 Ben Franklin Patent Holding Llc Automatically improving a voice recognition system
US6724866B2 (en) 2002-02-08 2004-04-20 Matsushita Electric Industrial Co., Ltd. Dialogue device for call screening and classification
JP4437047B2 (ja) * 2004-02-20 2010-03-24 本田技研工業株式会社 音声対話装置
JP4322785B2 (ja) * 2004-11-24 2009-09-02 株式会社東芝 音声認識装置、音声認識方法および音声認識プログラム
KR100655491B1 (ko) * 2004-12-21 2006-12-11 한국전자통신연구원 음성인식 시스템에서의 2단계 발화 검증 방법 및 장치
JP2007017733A (ja) * 2005-07-08 2007-01-25 Sharp Corp 入力装置、入力システム、入力方法、入力処理プログラム、および、プログラム記録媒体
CN1963917A (zh) * 2005-11-11 2007-05-16 株式会社东芝 评价语音的分辨力、说话人认证的注册和验证方法及装置
JP4758919B2 (ja) * 2007-01-22 2011-08-31 日本放送協会 音声認識装置及び音声認識プログラム
US9646603B2 (en) * 2009-02-27 2017-05-09 Longsand Limited Various apparatus and methods for a speech recognition system
US20110004473A1 (en) 2009-07-06 2011-01-06 Nice Systems Ltd. Apparatus and method for enhanced speech recognition

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1162365A (zh) * 1994-11-01 1997-10-15 英国电讯公司 语音识别
US7657433B1 (en) * 2006-09-08 2010-02-02 Tellme Networks, Inc. Speech recognition accuracy with multi-confidence thresholds
GB2468203A (en) * 2009-02-27 2010-09-01 Autonomy Corp Ltd A speech recognition system using multiple resolution analysis

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A New Framework For Large Vocabulary Keyword Spotting Using Two-Pass Confidence Measure;Yingna Chen;Tao Hou;Sha Meng;Shan Zhong;Jia Liu,;《IEEE》;20061231;68-71 *
Discriminative keyword spotting;Joseph Keshet;David Grangier;Samy Bengio,;《Science Direct》;20081231;317-329 *

Also Published As

Publication number Publication date
CN103797535A (zh) 2014-05-14
WO2013028518A1 (en) 2013-02-28
DE112012003479T5 (de) 2014-05-22
US8781825B2 (en) 2014-07-15
JP6030135B2 (ja) 2016-11-24
JP2014524599A (ja) 2014-09-22
US20130054242A1 (en) 2013-02-28

Similar Documents

Publication Publication Date Title
CN103797535B (zh) 减少语音辨识系统中的漏报
CN108986830B (zh) 一种音频语料筛选方法及装置
CN110032742B (zh) 响应语句生成设备、方法和存储介质以及语音交互系统
CN111433847B (zh) 语音转换的方法及训练方法、智能装置和存储介质
JP2007249212A (ja) テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ
CN107146624A (zh) 一种说话人确认方法及装置
CN104978963A (zh) 语音识别装置、方法以及电子设备
JPWO2009078256A1 (ja) 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム
CN108091323B (zh) 用于自语音中识别情感的方法与装置
CN110264993B (zh) 语音合成方法、装置、设备及计算机可读存储介质
CN110033762B (zh) 语音对话设备、语音对话方法和程序
CN106157974A (zh) 文本背诵质量评估装置和方法
Gangamohan et al. A Flexible Analysis Synthesis Tool (FAST) for studying the characteristic features of emotion in speech
JP5235187B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
CN109979422B (zh) 基频处理方法、装置、设备及计算机可读存储介质
CN112185341A (zh) 基于语音合成的配音方法、装置、设备和存储介质
Shechtman et al. Emphatic speech prosody prediction with deep LSTM networks
Yamagishi et al. Roles of the average voice in speaker-adaptive HMM-based speech synthesis
JP6176137B2 (ja) 音声対話装置、音声対話システム及びプログラム
CN113012680A (zh) 一种语音机器人用话术合成方法及装置
CN113345467B (zh) 一种口语发音评测方法、装置、介质以及设备
Morales-Perez et al. Feature extraction of speech signals in emotion identification
KR102417806B1 (ko) 문장에 대한 띄어읽기 처리를 수행하는 음성 합성 장치 및 그 동작 방법
JP2016173430A (ja) 発話意図モデル学習装置、発話意図抽出装置、発話意図モデル学習方法、発話意図抽出方法、プログラム
CN117765898A (zh) 一种数据处理方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant