CN1347547A - 话音识别拒绝方法 - Google Patents
话音识别拒绝方法 Download PDFInfo
- Publication number
- CN1347547A CN1347547A CN00803588A CN00803588A CN1347547A CN 1347547 A CN1347547 A CN 1347547A CN 00803588 A CN00803588 A CN 00803588A CN 00803588 A CN00803588 A CN 00803588A CN 1347547 A CN1347547 A CN 1347547A
- Authority
- CN
- China
- Prior art keywords
- comparative result
- voice recognition
- recognition system
- difference
- immediate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000000052 comparative effect Effects 0.000 claims description 154
- 238000000034 method Methods 0.000 claims description 15
- 230000008878 coupling Effects 0.000 description 11
- 238000010168 coupling process Methods 0.000 description 11
- 238000005859 coupling reaction Methods 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 10
- 238000012549 training Methods 0.000 description 8
- 230000008859 change Effects 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 3
- 230000001149 cognitive effect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 206010038743 Restlessness Diseases 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
- Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)
- Magnetic Resonance Imaging Apparatus (AREA)
- Apparatus For Radiation Diagnosis (AREA)
- Character Discrimination (AREA)
Abstract
一种捕获发音的话音识别拒绝方法,包括接受发音、对发音应用N-best算法或拒绝发音。若在发音与存储的单词的一个或多个最接近的比较结果与所述一个或多个最接近的比较结果和该发音同存储的一个或多个其它单词的一个或多个其它比较结果之间的一个或多个差值之间存在第一预定关系,就接受该发音。若在一个或多个最接近的比较结果与所述一个或多个最接近的比较结果同一个或多个其它比较结果的一个或多个差值之间存在第二预定关系,则对发音应用N-best算法。若在一个或多个最接近的比较结果与所述一个或多个最接近的比较结果同一个或多个其它比较结果的一个或多个差值之间存在第三预定关系,则发音被拒绝。一个或多个其它比较结果之一最好是发音与另一存储单词的下一最接近的比较结果。第一、第二和第三预定关系最好是线性关系。
Description
技术领域
本发明一般涉及通信领域,尤其涉及话音(voice)识别系统。
背景技术
话音识别(VR)代表赋予机器模拟智能以识别用户命令或用户有声命令并有助于人们与机器联系的最重要的技术之一。VR还代表理解人们语音(speech)的关键技术。应用根据声学语音信号而恢复语言消息的技术的系统称为话音识别器。话音识别器一般包括声学处理器与字解码器,前者提取实现输入原始语音的VR所必需的信息承载(bearing)特征或矢量序列,后者对此特征或矢量序列作解码以产生与输入发音(utterance)相对应的有意义且想要的输出格式,诸如一语言文字序列。为提高某一给定系统的性能,需要训练该系统具备诸有效参数。换言之,系统在能最佳地工作之前需要进行学习。
声学处理器代表话音识别器中的前端语音分析子系统。响应于输入语音信号,声学处理器表征随时间变化的语音信号的适当表示。声学处理器应丢弃无关的信息,如背景噪声、信道失真、讲话者特征和说话方式等。有效的声学处理法向话音识别器提供增强的声学鉴别能力。为此,要分析的有用特性就是短时谱包络。表征短时谱包络的两种常用谱分析技术是线性预测编码(LPC)与基于滤波器组(filterbank)的谱建模。在转让给本发明受让人的5,414,796号美国专利(这里引用其全部内容作为参考)以及L.B.Rabiner与R.W.Schafer所著的“语音信号的数字处理(Digital Processing of Speech Signals)”(396-453(1978))(这里也引用其全部内容作为参考)中,都描述了示例的LPC技术。
由于安全性,VR(常称作语音识别)的应用变得越发重要。例如,VR可以用来代替人工按压无线电话键板上的按钮。这在用户驾驶车辆的同时启动电话呼叫时尤其重要。在使用无VR的电话时,驾驶者必须从方向盘上腾出一只手,看着电话键板,同时按下按钮拨号呼叫。这些动作易发生车祸。语音使能电话(即为语音识别所设计的电话)能让驾驶者一面安排电话呼叫,一面继续观察路面。一种免提的车辆配套系统还能让驾驶者在启动呼叫时仍可保持将双手放在方向盘上。
语音识别装置分成讲话者相关装置或讲话者无关装置。讲话者无关装置能接受来自任何用户的话音命令。讲话者相关装置更常用,它被训练成识别来自特定用户的命令。讲话者相关VR装置通常工作于两个阶段,即训练阶段与识别阶段。在训练阶段中,VR系统提醒用户把系统词汇中的每个单词讲一二遍,让系统能认识用户对这些特定单词或短语的语音特征。或者,对于语音VR装置,通过读出专门编写的一篇或多篇短文从而覆盖这种语言中的全部音素来实现训练。免提车辆配套系统的一种示例词汇表可以包括键板上的数字;关键词“call(通话)”、“send(发送)”、“dial(拨号)”、“cancel(取消)”、“clear(清除)”、“add(添加)”、“delete(删除)”、“history(历史)”、“program(编程)”、“yes(是)”与“no(否)”;以及预定数目的经常通话的同事、朋友或家人的名字。训练一旦完成,用户说出训练过的关键词就能在识别阶段启动呼叫。例如,如果名字“John”是训练过的名字之一,则用户说出短语“Call John(呼叫 John)”就能启动对John的呼叫。VR系统将识别单词“Call”和“John”,并拨出用户先前作为John的电话号码所输入的号码。
VR系统的通过量可以定义为用户成功通过识别任务的实例的百分数。一项识别任务通常包括多个步骤。例如,在用无线电话进行话音拨号时,通过量指用户以VR系统成功地完成电话呼叫的次数的平百分数。以VR实现成功电话呼叫所需的步骤数依据各次呼叫而变化。一般而言,VR系统的通过量主要取决于两个因素,即VR系统的识别精度与人机接口。用户主观感受到的VR系统性能以通过量为基础。因此,为提高通过量,要求VR系统具有高的识别精度和智能型人机接口。
发明内容
本发明旨在一种具有高识别精度和智能型人机接口以提高通过量的VR系统。因此,在本发明的一个方面中,在话音识别系统中俘获发音的方法最好包括以下步骤:如果在此发音同所存储的单词的至少一个比较结果与所述至少一个比较结果同该发音与所存储的至少一个其他单词之间的至少一个其他比较结果之间的至少一个差值之间存在第一预定关系,则接受该发音;如果在所述至少一个比较结果与所述至少一个比较结果同所述至少一个其他比较结果之间的所述至少一个差值之间存在第二预定关系,则对该发音应用N-best(N-最佳)算法;如果在所述至少一个比较结果与所述至少一个比较结果同所述至少一个其他比较结果的所述至少一个差值之间存在第三预定关系,则拒绝该发音。
在本发明的第二方面中,话音识别系统最好包括配置成从一发音的数字化语音样本中提取语音参数的声学处理器;以及与该声学处理器耦合的处理器,该处理器配置成:(1)如果在该发音与所存储的单词的至少一个比较结果与所述至少一个比较结果同该发音与所存储的至少一个其他单词之间的至少一个其他比较结果之间的至少一个差值之间存在第一预定关系,则接受该发音,(2)如果在所述至少一个比较结果与所述至少一个比较结果同所述至少一个其他比较结果之间的所述至少一个差值之间存在第二预定关系,则对该发音应用N-best算法,或者(3)如果在所述至少一个比较结果与所述至少一个比较结果同所述至少一个其他比较结果的所述至少一个差值之间存在第三预定关系,则拒绝该发音。
在本发明的再一个方面中,话音识别系统最好包括:如果在该发音与所存储的单词的至少一个比较结果与所述至少一个比较结果同该发音与所存储的至少一个其他单词之间的至少一个其他比较结果之间的至少一个差值之间存在第一预定关系,则接受该发音的装置;如果在所述至少一个比较结果与所述至少一个比较结果同所述至少一个其他比较结果之间的所述至少一个差值之间存在第二预定关系,则对该发音应用N-best算法的装置;以及如果在所述至少一个比较结果与所述至少一个比较结果同所述至少一个其他比较结果的所述至少一个差值之间存在第三预定关系,则拒绝该发音的装置。
在本发明的还有一个方面中,话音识别系统最好包括从一发音的数字化语音样本中提取语音参数的装置;以及一装置,用于(1)如果在该发音与所存储的单词的至少一个比较结果与所述至少一个比较结果同该发音与所存储的至少一个其他单词之间的至少一个其他比较结果之间的至少一个差值之间存在第一预定关系,则接受该发音,(2)如果在所述至少一个比较结果与所述至少一个比较结果同所述至少一个其他比较结果之间的所述至少一个差值之间存在第二预定关系,则对该发音应用N-best算法,或者(3)如果在所述至少一个比较结果与所述至少一个比较结果同所述至少一个其他比较结果的所述至少一个差值之间存在第三预定关系,则拒绝该发音。
附图概述
图1是话音识别系统的框图。
图2是VR系统拒绝方案的记分(score)对记分变化的曲线,示出了拒绝、N-best和接受区域。
较佳实施例的详细描述
根据图1所示的一个实施例,话音识别系统10包括模拟-数字转换器(A/D)12、声学处理器14、VR模板数据库16、模式比较逻辑18与判断逻辑20。VR系统10可以驻留在例如无线电话或免提车辆配套系统中。
在VR系统10处于语音识别阶段时,某人(未图示)说出某个单词或短语,产生一语音信号。该语音信号由常规换能器(也未图示)转换成语音电信号s(t)并提供给A/D 12,A/D 12按公知的采样方法(如脉冲编码调制(PCM))将该语音信号s(t)转换成数字化的语音样本s(n)。
将语音样本s(n)供给声学处理器14作参数确定。声学处理器14产生一组提取的参数,以对输入语音信号s(t)的特征进行建模。可根据许多公知的语音参数确定技术中的任一种确定这些参数,这些技术包括例如上述5,414,796号美国专利中所述,进行编码并应用基于快速富利叶变换(FFT)的倒谱系数的语音编码器。声学处理器14可实现为数字信号处理器(DSP)。DSP可包括语音编码器。或者,可把声学处理器14实现为语音编码器。
也可在VR系统10的训练期间进行参数确定,其中把VR系统10的所有词汇表单词的一组模板按路由传给VR模板数据库16以永久地存储在其中。可以有利地把VR模板数据库16实现为任何常规形式的非易失性存储媒体,诸如快闪存储器。这使得在断开VR系统10的的电源时,让模板保持在VR模板数据库16中。
将该组参数提供给模式比较逻辑18。模式比较逻辑18有利地检测一发音的起点与终点,计算动态声学特征(诸如,时间导数、二阶时间导数等),通过选择相关帧而压缩声学特征,并且对静态与动态声学特征进行量化。如在Lawrence Rabiner与Biing-Hwang Juang著的“语音识别基础(Fundamentals of SpeechRecognition)”(1993)中,对终点检测、动态声学特征求导、模式压缩与模式量化的各种公知方法作了描述,这里引用其全部内容作为参考。
模式比较逻辑18将该组参数与存储在VR模板数据库16中的所有模板作比较。把比较结果或该组参数与存储在VR模板数据库16中的所有模板之间的距离提供给判断逻辑20。判断逻辑20可以:(1)从VR模板数据库16中选出与该组参数最紧密匹配的模板,或可以:(2)应用“N-best”选择算法,该算法在预定匹配阈值内选择N个最紧密的匹配;或可以:(3)拒绝该组参数。若使用N-best算法,则询问此人想要哪一种选择。判断逻辑20的输出是对已说过词汇表中的哪一个单词的判断。例如,在N-best的情况下,此人可能说“John Anders”,而VR系统10可能回答“Did you say John Andrews(你说了John Anders是吗)?”。然后,此人再答“John Anders”。接着,VR系统10可能再答“Did you say John Anders(你说了John Auders是吗)?”。此人再答“Yes(是)”,此时VR系统10就启动一电话呼叫的拨号。
可以有利地把模式比较逻辑18与判断逻辑20实现为微处理器。或者,可把模式比较逻辑18与判断逻辑20实现为任何常规形式的处理器、控制器或状态机。VR系统10可以是例如专用集成电路(ASIC)。VR系统10的识别精度可以是VR系统10能多好地正确识别说出的词汇表中的单词或短语的量度。例如,95%的识别精度表明,VR系统10在100次中有95次正确地识别出词汇表中的单词。
在一实施例中,如图2所示,将记分与记分变化曲线分成接受、N-Best与拒绝诸区域。这些区域按公知的线性鉴别分析技术用线来分离,这些技术在RichardO.Duda与Peter E.Hart著的“模式分类与情景分析(Pattern Classification andScene Analysis)”(1973)中有描述,这里引用其全部内容作为参考。如上所述,模式比较逻辑18给至VR系统10的每个发音输入分配对应于存储在VR模板数据库16中的每一模板的比较结果或与其的距离。这些距离或“记分”有利的是在多个帧上相加的N维矢量空间中矢量之间的Euclidean距离。在一实施例中,矢量空间是一二十四维矢量空间,在二十个帧上累积记分,而且该记分是一整数距离。本领域的技术人员应该理解,完全可把记分表示为小数或其它值。本领域内的技术人员还应理解,可用其他度量来替代Euclidean距离,因而记分可以是例如概率量度、似然性量度等。
对于一给定的发音与一来自VR模板数据库16的给定VR模板,记分越低(即发音与VR模板之间的距离越小),则发音与VR模板之间的匹配越紧密。对于每个发音,判断逻辑20相对于该记分同有关VR模板数据库16中第二最紧密匹配的记分(即第二最低记分)之间的差值分析有关VR模板数据库16中最紧密匹配的记分。如图2的曲线所示,“记分”是针对“记分变化”绘制的,且限定了三个区域。拒绝区代表记分相对高且该记分与下一最低记分之差相对小的区域。如果一发音落在拒绝区内,则判断逻辑20就拒绝该发音。接受区代表记分相对低且该记分与下一最低记分之差相对大的区域。如果一发音落在接受区内,则判断逻辑20就接受该发音。N-best区位于拒绝区与接收区之间。N-best区代表记分小于拒绝区的记分或该记分与下一最低记分之差大于拒绝区中的记分差值的区域。N-best区也代表记分大于接受区中的记分或者该记分与下一最低记分之差小于接受区中的记分差值的区域,只要N-best区中该记分的差值大于一预定的记分变化阈值。如上所述,如果一发音落在N-best区内,则判断逻辑20就对该发音应用N-best算法。
在参考图2描述的实施例中,第一线段将拒绝区与N-best区分离。第一线段与“记分”轴在预定记分阈值处相交。第一线段的斜率也是预定的。第二线段将N-best区与接受区分离。第二线段的斜率预定为与第一线段的斜率相同,因而第一与第二线段平行。第三线段从“记分变化”轴上的一个预定变化阈值开始垂直延伸,与第二线段的终点相遇。本领域的技术人员可理解,第一与第二线段不一定要平行,可以有任意分配的斜率。另外不一定使用第三线段。
在一实施例中,记分阈值是375,变化阈值为28,若第二线段的终点延伸,则第二线段应在值250处与“记分”轴相交,因而第一与第二线段的斜率都为1。如果记分值大于记分变化值加375,则该发音被拒绝。反之,如果记分值大于记分变化值加250或该记分变化值小于28,则对发音应用N-best算法。否则,接受该发音。
在参照图2描述的实施例中,线性鉴别分析应用了两个量纲。量纲“记分”代表一给定的发音与从多个带通滤波器(未图示)的输出中导出的一给定VR模板之间的距离。量纲“记分变化”代表最低记分(即最紧密匹配的记分)与下一最低记分(即下一最紧密匹配发音的记分)之差。在另一实施例中,量纲“记分”代表一给定发音与从该发音的倒谱系数中导出的一给定VR模板之间的距离。在另一实施例中,量纲“记分”代表一给定发音与从该发音的线性预测编码(LPC)系数中导出的一给定VR模板之间的距离。从在上述5,414,796号美国专利中描述了导出一发音的LPC系数与倒谱系数的技术。
在其他实施例中,线性鉴别分析不限于二个量纲。相应地,相互对应地分析基于带通滤波器输出的第一记分、基于倒谱系数的第二记分和记分变化。或者,相互对应地分析基于带通滤波器输出的第一记分、基于倒谱系数的第二记分、基于LPC系数的第三记分和记分变化。本领域的技术人员很容易理解,量纲“记分”不必限于任何特定数。本领域内的技术人员容易理解,记分量纲的数目不仅仅由VR系统词汇表中的单词数来限定。本领域内的技术人员还应理解,所采用的记分的类型不必局限于任何特定的记分类型,而可包括本领域公知的任何记分方法。另外,本领域的技术人员也容易理解,“记分变化”的量纲数不必局限于一或任何特定数目。例如,在一实施例中,相对于最紧密匹配同下一最紧密匹配之间的记分变化来分析记分,相对于最紧密匹配同第三最紧密匹配之间的记分变化来分析记分。本领域内的技术人员很容易理解,记分变化量纲的数目不仅仅由VR系统词汇表中的单词数目来限定。
这样,已描述了一种以线性鉴别分析为基础的新型改进话音识别拒绝方案。本领域的技术人员应该理解,可用数字信号处理器(DSP)、专用集成电路(ASIC)、分立的门或晶体管逻辑、分立的硬件元件(诸如寄存器与FIFO)、执行一组固件指令的处理器或任何常规可编程软件模块与处理器来实施或执行结合这里所揭示的实施例描述的各种示例的逻块组件与算法步骤。处理器最好是微处理器,但在另一替代方式中,处理器可以是任何常规的处理器、控制器、微控制器或状态机。软件模块可驻留在RAM存储器、快闪存储器、寄存器或本领域中公知的任何其它形式的可写存储媒体中。技术人员还应理解,用电压、电流、电磁波、磁场或粒子、光场或粒子或其任意组合来表示以上描述中可参照的数据、指令、命令、信息、信号、位、码元和码片。
已经示出和描述了本发明的较佳实施例。然而,本领域的技术人员将明白,可对这里揭示的诸实施例作出各种替换而不违背本发明的精神或范围,因而本发明只限于下述的权利要求书。
Claims (44)
1.一种在话音识别系统中捕获发音的方法,包括以下步骤:
如果在所述发音与所存储的单词的至少一个比较结果与所述至少一个比较结果同所述发音与所存储的至少一个其他单词之间的至少一个其他比较结果之间的至少一个差值之间存在第一预定关系,则接受该发音;
如果在所述至少一个比较结果与所述至少一个比较结果同所述至少一个其他比较结果之间的所述至少一个差值之间存在第二预定关系,则对所述发音应用N-best算法;以及
如果在所述至少一个比较结果与所述至少一个比较结果同所述至少一个其他比较结果之间的差值之间存在第三预定关系,则拒绝所述发音。
2.如权利要求1所述的方法,其特征在于所述至少一个比较结果包括多个比较结果,至少一个其他比较结果包括多个其它比较结果。
3.如权利要求1所述的方法,其特征在于所述至少一个差值包括多个差值。
4.如权利要求1所述的方法,其特征在于所存储的单词包括话音识别系统的词汇表中的最佳候选单词,而所存储的至少一个其他单词包括话音识别系统的词汇表中的下一最佳候选单词。
5.如权利要求1所述的方法,其特征在于所述至少一个比较结果包括至少一个最接近的比较结果,所述至少一个其他比较结果包括至少一个下一最接近的比较结果。
6.如权利要求1所述的方法,其特征在于所述至少一个比较结果和所述至少一个其他比较结果包括线性预测编码系数。
7.如权利要求1所述的方法,其特征在于所述至少一个比较结果和所述至少一个其他比较结果包括倒谱系数。
8.如权利要求1所述的方法,其特征在于所述至少一个比较结果和所述至少一个其他比较结果包括带通滤波器输出。
9.如权利要求1所述的方法,其特征在于第一、第二与第三预定关系为线性关系。
10.如权利要求1所述的方法,其特征在于所述至少一个差值包括最接近的比较结果与下一最接近的比较结果之差。
11.如权利要求1所述的方法,其特征在于所述至少一个差值包括最接近的比较结果与下一最接近的比较结果之间的第一差值以及最接近的比较结果与第三最接近的比较结果之间的第二差值。
12.一种话音识别系统,其特征在于包括:
声学处理器,配置成从一发音的数字化语音样本中提取语音参数;以及
耦合到所述声学处理器的处理器,该处理器配置成:(1)如果在该发音与所存储的单词的至少一个比较结果与所述至少一个比较结果同该发音与所存储的至少一个其他单词之间的至少一个其他比较结果之间的至少一个差值之间存在第一预定关系,则接受该发音,(2)如果在所述至少一个比较结果与所述至少一个比较结果同所述至少一个其他比较结果之间的所述至少一个差值之间存在第二预定关系,则对该发音应用N-best算法,或者(3)如果在所述至少一个比较结果与所述至少一个比较结果同所述至少一个其他比较结果的所述至少一个差值之间存在第三预定关系,则拒绝该发音。
13.如权利要求12所述的话音识别系统,其特征在于所述至少一个比较结果包括多个比较结果,所述至少一个其他比较结果包括多个其它比较结果。
14.如权利要求12所述的话音识别系统,其特征在于所述至少一个差值包括多个差值。
15.如权利要求12所述的话音识别系统,其特征在于所述存储的单词包括一话音识别系统的词汇表中的最佳候选单词,所述存储的至少一个其他单词包括话音识别系统的词汇表中的下一最佳候选单词。
16.如权利要求12所述的话音识别系统,其特征在于所述至少一个比较结果包括至少一个最接近的比较结果,所述至少一个其他比较结果包括至少一个下一最接近的比较结果。
17.如权利要求12所述的话音识别系统,其特征在于所述至少一个比较结果和所述至少一个其他比较结果包括线性预测编码系数。
18.如权利要求12所述的话音识别系统,其特征在于所述至少一个比较结果和所述至少一个其他比较结果包括倒谱系数。
19.如权利要求12所述的话音识别系统,其特征在于所述至少一个比较结果和所述至少一个其他比较结果包括带通滤波器输出。
20.如权利要求12所述的话音识别系统,其特征在于所述第一、第二与第三预定关系为线性关系。
21.如权利要求12所述的话音识别系统,其特征在于所述至少一个差值包括最接近的比较结果与下一最接近的比较结果之差。
22.如权利要求1所述的话音识别系统,其特征在于所述至少一个差值包括最接近的比较结果与下一最接近的比较结果之间的第一差值以及最接近的比较结果与第三最接近的比较结果之间的第二差值。
23.一种话音识别系统,其特征在于包括:
一装置,用于在该发音与所存储的单词的至少一个比较结果与所述至少一个比较结果同该发音与所存储的至少一个其他单词之间的至少一个其他比较结果之间的至少一个差值之间存在第一预定关系时接受该发音;
一装置,用于在所述至少一个比较结果与所述至少一个比较结果同所述至少一个其他比较结果之间的所述至少一个差值之间存在第二预定关系时对该发音应用N-best算法;以及
一装置,用于在所述至少一个比较结果与所述至少一个比较结果同所述至少一个其他比较结果的所述至少一个差值之间存在第三预定关系时拒绝所述发音。
24.如权利要求23所述的话音识别系统,其特征在于所述至少一个比较结果包括多个比较结果,所述至少一个其他比较结果包括多个其它比较结果。
25.如权利要求23所述的话音识别系统,其特征在于所述至少一个差值包括多个差值。
26.如权利要求23所述的话音识别系统,其特征在于所述存储的单词包括一话音识别系统的词汇表中的最佳候选单词,所述存储的至少一个其他单词包括话音识别系统的词汇表中的下一最佳候选单词。
27.如权利要求23所述的话音识别系统,其特征在于所述至少一个比较结果包括至少一个最接近的比较结果,所述至少一个其他比较结果包括至少一个下一最接近的比较结果。
28.如权利要求23所述的话音识别系统,其特征在于所述至少一个比较结果和所述至少一个其他比较结果包括线性预测编码系数。
29.如权利要求23所述的话音识别系统,其特征在于所述至少一个比较结果和所述至少一个其他比较结果包括倒谱系数。
30.如权利要求23所述的话音识别系统,其特征在于所述至少一个比较结果和所述至少一个其他比较结果包括带通滤波器输出。
31.如权利要求23所述的话音识别系统,其特征在于所述第一、第二与第三预定关系为线性关系。
32.如权利要求23所述的话音识别系统,其特征在于所述至少一个差值包括最接近的比较结果与下一最接近的比较结果之差。
33.如权利要求1所述的话音识别系统,其特征在于所述至少一个差值包括最接近的比较结果与下一最接近的比较结果之间的第一差值以及最接近的比较结果与第三最接近的比较结果之间的第二差值。
34.一种话音识别系统,其特征在于包括:
用于从一发音的数字化语音样本中提取语音参数的装置;以及
一装置,用于:(1)如果在该发音与所存储的单词的至少一个比较结果与所述至少一个比较结果同该发音与所存储的至少一个其他单词之间的至少一个其他比较结果之间的至少一个差值之间存在第一预定关系,则接受该发音,(2)如果在所述至少一个比较结果与所述至少一个比较结果同所述至少一个其他比较结果之间的所述至少一个差值之间存在第二预定关系,则对该发音应用N-best算法,或者(3)如果在所述至少一个比较结果与所述至少一个比较结果同所述至少一个其他比较结果的所述至少一个差值之间存在第三预定关系,则拒绝该发音。
35.如权利要求34所述的话音识别系统,其特征在于所述至少一个比较结果包括多个比较结果,所述至少一个其他比较结果包括多个其它比较结果。
36.如权利要求34所述的话音识别系统,其特征在于所述至少一个差值包括多个差值。
37.如权利要求34所述的话音识别系统,其特征在于所述存储的单词包括一话音识别系统的词汇表中的最佳候选单词,所述存储的至少一个其他单词包括话音识别系统的词汇表中的下一最佳候选单词。
38.如权利要求34所述的话音识别系统,其特征在于所述至少一个比较结果包括至少一个最接近的比较结果,所述至少一个其他比较结果包括至少一个下一最接近的比较结果。
39.如权利要求34所述的话音识别系统,其特征在于所述至少一个比较结果和所述至少一个其他比较结果包括线性预测编码系数。
40.如权利要求34所述的话音识别系统,其特征在于所述至少一个比较结果和所述至少一个其他比较结果包括倒谱系数。
41.如权利要求34所述的话音识别系统,其特征在于所述至少一个比较结果和所述至少一个其他比较结果包括带通滤波器输出。
42.如权利要求34所述的话音识别系统,其特征在于所述第一、第二与第三预定关系为线性关系。
43.如权利要求34所述的话音识别系统,其特征在于所述至少一个差值包括最接近的比较结果与下一最接近的比较结果之差。
44.如权利要求1所述的话音识别系统,其特征在于所述至少一个差值包括最接近的比较结果与下一最接近的比较结果之间的第一差值以及最接近的比较结果与第三最接近的比较结果之间的第二差值。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/248,513 | 1999-02-08 | ||
US09/248,513 US6574596B2 (en) | 1999-02-08 | 1999-02-08 | Voice recognition rejection scheme |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1347547A true CN1347547A (zh) | 2002-05-01 |
CN1178203C CN1178203C (zh) | 2004-12-01 |
Family
ID=22939477
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB008035881A Expired - Lifetime CN1178203C (zh) | 1999-02-08 | 2000-02-04 | 话音识别拒绝方法 |
Country Status (11)
Country | Link |
---|---|
US (1) | US6574596B2 (zh) |
EP (1) | EP1159735B1 (zh) |
JP (1) | JP4643011B2 (zh) |
KR (1) | KR100698811B1 (zh) |
CN (1) | CN1178203C (zh) |
AT (1) | ATE362166T1 (zh) |
AU (1) | AU3589300A (zh) |
DE (1) | DE60034772T2 (zh) |
ES (1) | ES2286014T3 (zh) |
HK (1) | HK1043423B (zh) |
WO (1) | WO2000046791A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101188109B (zh) * | 2006-11-20 | 2011-01-19 | 富士通株式会社 | 语音识别装置和方法 |
CN105573436A (zh) * | 2010-03-26 | 2016-05-11 | 谷歌公司 | 话音输入的预测性音频预录制 |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8266451B2 (en) * | 2001-08-31 | 2012-09-11 | Gemalto Sa | Voice activated smart card |
US7324942B1 (en) * | 2002-01-29 | 2008-01-29 | Microstrategy, Incorporated | System and method for interactive voice services using markup language with N-best filter element |
US7020337B2 (en) * | 2002-07-22 | 2006-03-28 | Mitsubishi Electric Research Laboratories, Inc. | System and method for detecting objects in images |
JP4454921B2 (ja) * | 2002-09-27 | 2010-04-21 | 株式会社半導体エネルギー研究所 | 半導体装置の作製方法 |
US7344901B2 (en) * | 2003-04-16 | 2008-03-18 | Corning Incorporated | Hermetically sealed package and method of fabricating of a hermetically sealed package |
EP1560354A1 (en) * | 2004-01-28 | 2005-08-03 | Deutsche Thomson-Brandt Gmbh | Method and apparatus for comparing received candidate sound or video items with multiple candidate reference sound or video items |
DE102004029873B3 (de) * | 2004-06-16 | 2005-12-29 | Deutsche Telekom Ag | Verfahren und Vorrichtung zur intelligenten Eingabekorrektur für automatische Sprachdialogsysteme |
WO2009147927A1 (ja) * | 2008-06-06 | 2009-12-10 | 株式会社レイトロン | 音声認識装置、音声認識方法および電子機器 |
US8190437B2 (en) * | 2008-10-24 | 2012-05-29 | Nuance Communications, Inc. | Speaker verification methods and apparatus |
US8442824B2 (en) | 2008-11-26 | 2013-05-14 | Nuance Communications, Inc. | Device, system, and method of liveness detection utilizing voice biometrics |
US20150279354A1 (en) * | 2010-05-19 | 2015-10-01 | Google Inc. | Personalization and Latency Reduction for Voice-Activated Commands |
WO2014129033A1 (ja) * | 2013-02-25 | 2014-08-28 | 三菱電機株式会社 | 音声認識システムおよび音声認識装置 |
US9626963B2 (en) * | 2013-04-30 | 2017-04-18 | Paypal, Inc. | System and method of improving speech recognition using context |
BR102014023647B1 (pt) * | 2014-09-24 | 2022-12-06 | Fundacao Cpqd - Centro De Pesquisa E Desenvolvimento Em Telecomunicacoes | Método e sistema para detecção de fraudes em aplicações baseadas em processamento de voz |
EP3635578A4 (en) * | 2017-05-18 | 2021-08-25 | Aiqudo, Inc. | SYSTEMS AND PROCEDURES FOR CRWODSOURCING ACTIONS AND COMMANDS |
US11182557B2 (en) * | 2018-11-05 | 2021-11-23 | International Business Machines Corporation | Driving intent expansion via anomaly detection in a modular conversational system |
Family Cites Families (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4567606A (en) | 1982-11-03 | 1986-01-28 | International Telephone And Telegraph Corporation | Data processing apparatus and method for use in speech recognition |
US4593367A (en) * | 1984-01-16 | 1986-06-03 | Itt Corporation | Probabilistic learning element |
FR2571191B1 (fr) | 1984-10-02 | 1986-12-26 | Renault | Systeme de radiotelephone, notamment pour vehicule automobile |
JPS61105671A (ja) | 1984-10-29 | 1986-05-23 | Hitachi Ltd | 自然言語処理装置 |
US4991217A (en) | 1984-11-30 | 1991-02-05 | Ibm Corporation | Dual processor speech recognition system with dedicated data acquisition bus |
JPS6269297A (ja) | 1985-09-24 | 1987-03-30 | 日本電気株式会社 | 話者確認タ−ミナル |
US4827520A (en) | 1987-01-16 | 1989-05-02 | Prince Corporation | Voice actuated control system for use in a vehicle |
US5231670A (en) | 1987-06-01 | 1993-07-27 | Kurzweil Applied Intelligence, Inc. | Voice controlled system and method for generating text from a voice controlled input |
US5321840A (en) | 1988-05-05 | 1994-06-14 | Transaction Technology, Inc. | Distributed-intelligence computer system including remotely reconfigurable, telephone-type user terminal |
US5054082A (en) | 1988-06-30 | 1991-10-01 | Motorola, Inc. | Method and apparatus for programming devices to recognize voice commands |
US5040212A (en) | 1988-06-30 | 1991-08-13 | Motorola, Inc. | Methods and apparatus for programming devices to recognize voice commands |
JP2966852B2 (ja) * | 1989-01-24 | 1999-10-25 | キヤノン株式会社 | 音声処理方法及び装置 |
US5325524A (en) | 1989-04-06 | 1994-06-28 | Digital Equipment Corporation | Locating mobile objects in a distributed computer system |
US5012518A (en) | 1989-07-26 | 1991-04-30 | Itt Corporation | Low-bit-rate speech coder using LPC data reduction processing |
US5146538A (en) | 1989-08-31 | 1992-09-08 | Motorola, Inc. | Communication system and method with voice steering |
JP2788658B2 (ja) * | 1989-12-01 | 1998-08-20 | 株式会社リコー | 音声ダイヤル装置 |
US5280585A (en) | 1990-09-28 | 1994-01-18 | Hewlett-Packard Company | Device sharing system using PCL macros |
SG70558A1 (en) | 1991-06-11 | 2000-02-22 | Qualcomm Inc | Variable rate vocoder |
WO1993001664A1 (en) | 1991-07-08 | 1993-01-21 | Motorola, Inc. | Remote voice control system |
US5305420A (en) | 1991-09-25 | 1994-04-19 | Nippon Hoso Kyokai | Method and apparatus for hearing assistance with speech speed control function |
US5390278A (en) * | 1991-10-08 | 1995-02-14 | Bell Canada | Phoneme based speech recognition |
EP0559349B1 (en) * | 1992-03-02 | 1999-01-07 | AT&T Corp. | Training method and apparatus for speech recognition |
JPH0664478B2 (ja) * | 1992-06-05 | 1994-08-22 | カシオ計算機株式会社 | パターン認識装置 |
CA2126380C (en) * | 1993-07-22 | 1998-07-07 | Wu Chou | Minimum error rate training of combined string models |
US5566272A (en) | 1993-10-27 | 1996-10-15 | Lucent Technologies Inc. | Automatic speech recognition (ASR) processing using confidence measures |
US5819221A (en) * | 1994-08-31 | 1998-10-06 | Texas Instruments Incorporated | Speech recognition using clustered between word and/or phrase coarticulation |
US5729656A (en) * | 1994-11-30 | 1998-03-17 | International Business Machines Corporation | Reduction of search space in speech recognition using phone boundaries and phone ranking |
ES2164870T3 (es) * | 1995-03-07 | 2002-03-01 | British Telecomm | Reconocimiento del habla. |
US5717826A (en) * | 1995-08-11 | 1998-02-10 | Lucent Technologies Inc. | Utterance verification using word based minimum verification error training for recognizing a keyboard string |
JPH0954597A (ja) * | 1995-08-11 | 1997-02-25 | Matsushita Joho Syst Kk | 項目入力装置 |
US5806029A (en) * | 1995-09-15 | 1998-09-08 | At&T Corp | Signal conditioned minimum error rate training for continuous speech recognition |
US5912949A (en) * | 1996-11-05 | 1999-06-15 | Northern Telecom Limited | Voice-dialing system using both spoken names and initials in recognition |
US6094476A (en) | 1997-03-24 | 2000-07-25 | Octel Communications Corporation | Speech-responsive voice messaging system and method |
-
1999
- 1999-02-08 US US09/248,513 patent/US6574596B2/en not_active Expired - Lifetime
-
2000
- 2000-02-04 CN CNB008035881A patent/CN1178203C/zh not_active Expired - Lifetime
- 2000-02-04 ES ES00914513T patent/ES2286014T3/es not_active Expired - Lifetime
- 2000-02-04 WO PCT/US2000/002903 patent/WO2000046791A1/en active IP Right Grant
- 2000-02-04 JP JP2000597792A patent/JP4643011B2/ja not_active Expired - Lifetime
- 2000-02-04 AT AT00914513T patent/ATE362166T1/de not_active IP Right Cessation
- 2000-02-04 AU AU35893/00A patent/AU3589300A/en not_active Abandoned
- 2000-02-04 DE DE60034772T patent/DE60034772T2/de not_active Expired - Lifetime
- 2000-02-04 EP EP00914513A patent/EP1159735B1/en not_active Expired - Lifetime
- 2000-02-04 KR KR1020017009889A patent/KR100698811B1/ko active IP Right Grant
-
2002
- 2002-07-10 HK HK02105126.4A patent/HK1043423B/zh not_active IP Right Cessation
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101188109B (zh) * | 2006-11-20 | 2011-01-19 | 富士通株式会社 | 语音识别装置和方法 |
CN105573436A (zh) * | 2010-03-26 | 2016-05-11 | 谷歌公司 | 话音输入的预测性音频预录制 |
CN105573436B (zh) * | 2010-03-26 | 2019-07-26 | 谷歌有限责任公司 | 话音输入的预测性音频预录制 |
Also Published As
Publication number | Publication date |
---|---|
KR100698811B1 (ko) | 2007-03-23 |
HK1043423B (zh) | 2005-07-22 |
WO2000046791A1 (en) | 2000-08-10 |
AU3589300A (en) | 2000-08-25 |
EP1159735B1 (en) | 2007-05-09 |
KR20010093327A (ko) | 2001-10-27 |
US6574596B2 (en) | 2003-06-03 |
DE60034772T2 (de) | 2008-01-31 |
JP2002536691A (ja) | 2002-10-29 |
CN1178203C (zh) | 2004-12-01 |
US20020055841A1 (en) | 2002-05-09 |
EP1159735A1 (en) | 2001-12-05 |
JP4643011B2 (ja) | 2011-03-02 |
DE60034772D1 (de) | 2007-06-21 |
ATE362166T1 (de) | 2007-06-15 |
ES2286014T3 (es) | 2007-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1178203C (zh) | 话音识别拒绝方法 | |
CN1168070C (zh) | 分布式语音识别系统 | |
US7089184B2 (en) | Speech recognition for recognizing speaker-independent, continuous speech | |
US6098040A (en) | Method and apparatus for providing an improved feature set in speech recognition by performing noise cancellation and background masking | |
CN1119794C (zh) | 分布式话音识别系统 | |
DE60125542T2 (de) | System und verfahren zur spracherkennung mit einer vielzahl von spracherkennungsvorrichtungen | |
EP1352389B1 (en) | System and method for storage of speech recognition models | |
WO2006128496A1 (en) | Method of adapting a neural network of an automatic speech recognition device | |
KR19980070329A (ko) | 사용자 정의 문구의 화자 독립 인식을 위한 방법 및 시스템 | |
Matsumoto et al. | Evaluation of Mel-LPC cepstrum in a large vocabulary continuous speech recognition | |
JP2759267B2 (ja) | 音声認識テンプレートから音声を合成する方法および装置 | |
CN1165889C (zh) | 话音拨号的方法和系统 | |
US20030101051A1 (en) | Distributed speech recognition with codec parameters | |
DE60014583T2 (de) | Verfahren und vorrichtung zur integritätsprüfung von benutzeroberflächen sprachgesteuerter geräte | |
CA2427339C (en) | System and method for improving voice recognition in noisy environments and frequency mismatch conditions | |
KR20040038419A (ko) | 음성을 이용한 감정인식 시스템 및 감정인식 방법 | |
Hamada et al. | Auditory-based filter-bank analysis as a front-end processor for speech recognition. | |
JP2658426B2 (ja) | 音声認識方法 | |
JPS6370298A (ja) | 促音認識装置 | |
KR20010002646A (ko) | 연속 음성 인식을 이용한 전화번호 안내 방법 | |
WO1993003480A1 (en) | Speech pattern matching in non-white noise |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C06 | Publication | ||
PB01 | Publication | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CX01 | Expiry of patent term |
Granted publication date: 20041201 |
|
CX01 | Expiry of patent term |