CN1593980A - 自动语音归类方法 - Google Patents

自动语音归类方法 Download PDF

Info

Publication number
CN1593980A
CN1593980A CNA031570194A CN03157019A CN1593980A CN 1593980 A CN1593980 A CN 1593980A CN A031570194 A CNA031570194 A CN A031570194A CN 03157019 A CN03157019 A CN 03157019A CN 1593980 A CN1593980 A CN 1593980A
Authority
CN
China
Prior art keywords
speech
mark
likelihood
waveform
classifying method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA031570194A
Other languages
English (en)
Other versions
CN1303582C (zh
Inventor
张亚昕
何昕
任晓林
孙放
谭昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Motorola Mobility LLC
Google Technology Holdings LLC
Original Assignee
Motorola Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Motorola Inc filed Critical Motorola Inc
Priority to CNB031570194A priority Critical patent/CN1303582C/zh
Priority to US10/925,786 priority patent/US20050049865A1/en
Publication of CN1593980A publication Critical patent/CN1593980A/zh
Application granted granted Critical
Publication of CN1303582C publication Critical patent/CN1303582C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Abstract

一种在电子设备上进行自动语音归类的方法(500)。该方法(500)包括接收一个话语波形(520),并对该话语波形进行处理(535),以提供特征向量。然后,在步骤(537),通过将该特征向量与至少两个声音模型集进行比较,来进行语音识别,所述两组特征向量中的一个是普通词汇表声音模型集,而另一个是数字声音模型集。语音识别步骤(537)提供待选串,以及相关的来自所述每个声音模型集的类别分数。然后,基于所述类别分数确定波形的话语类型(550),并在选择步骤(553)中,基于所述话语类型,选择待选串之一作为语音识别结果。根据语音识别结果,提供一个响应(555)。

Description

自动语音归类方法
技术领域
本发明涉及用于自动语音识别的话语类型的自动语音归类。本发明特别适用于、但不限于对无线电话接收到的话语的类型进行归类,以将话语归类为数字拨号类型或电话簿名称拨号类型。
背景技术
大词汇表语音识别系统可以识别许多接收到的话语词汇。与此相反,有限词汇表语音识别系统只限于相对少量的说出的和识别的词汇。语音识别系统的应用包括识别少量的命令、电话号码的名称或数字拨号。
越来越多的语音识别系统正在被装备到系统中,并被应用于各种场合。这样的语音识别系统必须能够精确地识别接收到的话语词汇,并且没有显著延迟地迅速提供适当的响应。
语音识别系统通常使用一些相关性技术,以决定话语词汇(输入的语音信号)和声音空间中的词汇的特征之间的似然值。这些特征可以从诸声音模型中产生,这些声音模型从一个或多个讲话者那里获得训练数据,并因此被称为非特定人的大词汇表语音识别系统。
对于大词汇表语音识别系统,需要大量的语音模型,以便在声音空间中,充分地归纳出所说出的输入语音信号中的声音属性变化的特征。例如,即便是由同一个讲话者说出的,音素/a/在单词“had”和“ban”中的声音特征是不同的。因此,需要被称为依赖于语境的音素的音素单元,来模拟同一个音素在不同词语中的不同声音。
语音识别系统通常花费令人烦恼的大量时间,以便在输入的语音信号和该系统所使用的每一个声音模型之间寻找匹配分数,其在本领域被称为似然分数。每个声音模型通常由多重高斯概率密度函数(PDF)描述,其中每个高斯分布由一个均值向量和一个协方差矩阵描述。为了找到一个输入的语音信号和一个给定模型之间的似然分数,该输入必须与每一个高斯分布进行匹配。来自该模型的每个高斯成员的分数的加权和,就成为最终的似然分数。
当自动语音识别(ASR)用于无线电话时,其最适当的应用是数字拨号(数字话语识别)和电话簿名称拨号(文本或短语话语识别)。然而,对于自动数字拨号语音识别而言,并不存在符合语法的句子的规则(一个数字之后可以跟随任何数字)。这使得数字话语的语音识别比自然语言话语的语音识别更容易出错。
为了改进识别精度,大多数系统研发者使用从纯粹数字串中经特殊训练而来的、清晰的数字声音模型集。而诸如电话簿名称识别和命令/控制词识别等其它应用则采用普通声音模型集,其包括一个语言中发生的所有声音。因此,当语音识别器在识别引擎中使用数字声音模型集或普通声音模型集之前,它必须预先决定需要执行哪种识别任务。因此,一个无线电话用户不得不(以任何方式)输入特定的任务领域命令(数字话语或语言话语),以正确地启动识别任务。一个实用的例子是用户按下不同的按钮,以执行两种识别之一,或通过说出“数字拨号”或“名称拨号”而利用命令识别,以进入特定任务领域。然而,前一种办法可能造成用户的混淆,而后一种办法则会延长识别时间,而给用户带来不便。
在本说明书包括权利要求书中,“包括”、“包含”或相似用语意在表示非排它性的包括,因此,一种方法或一个装置包括一系列要素,并不是指仅仅包括这些要素,而是完全可以包括其它未列出的要素。
发明内容
根据本发明的一个方面,提供了一种方法,用于在电子设备上进行自动语音归类,该方法包括:
接收话语波形;
对话语波形进行处理,以提供代表该波形的特征向量;
通过将所述特征向量与至少两个声音模型集进行比校,来执行语音识别,其中的一个声音模型集是普通词汇表声音模型集,而另一个模型集是数字声音模型集,该执行过程提供来自每个声音模型集的诸待选串及其相关的诸类别分数;
基于类别分数,对波形的话语类型进行归类;
基于话语类型,从待选串中选择一个串,作为语音识别结果;以及
根据语音识别结果,提供响应。
适当地,该执行过程包括:
使用普通词汇表声音模型集,对特征向量进行普通语音识别,以便为话语波形中的词汇段提供一个普通词汇表累积最大似然分数;以及
使用数字声音模型集,对特征向量进行数字语音识别,以便为话语波形中的词汇段提供一个数字词汇表累积最大似然分数。
优选地,该归类过程包括将所述普通词汇表累积最大似然分数与所述数字词汇表累积最大似然分数进行对比评估,以提供话语类型。
适当地,所述执行普通语音识别的过程提供一个普通分数,该普通分数是从所选数量的最佳累积最大似然分数计算而来的,而后者得自所述执行普通语音识别的过程。
所述执行数字语音识别的过程适当地提供一个数字分数,该数字分数是从所选数量的最佳累积最大似然分数计算而来的,而后者得自所述执行数字语音识别的过程。
所述评估过程也适当地包括对比评估所述普通分数与数字分数,以便提供话语类型。
所述处理过程适当地包括将所述波形划分为由帧构成的词汇段,这些词汇段被分析,以提供代表波形的特征向量。
适当地,所述进行普通语音识别的过程为词汇段的每个帧提供一个平均普通粗略(broad)似然分数。
适当地,所述进行数字语音识别的过程为词汇段的每个帧提供一个平均数字粗略似然分数。
所述评估过程也适当地包括对出评估话语波形的每个帧的平均普通粗略似然分数与每个帧的平均数字粗略似然分数。
适当地,所述进行普通语音识别的过程为话语波形的每个帧提供一个平均普通语音似然分数,其排除了非语音帧。
适当地,所述进行数字语音识别的过程为话语波形的每个帧提供一个平均数字语音似然分数,其排除了非语音帧。
所述评估过程也适当地包括对比评估所述每个帧的平均普通语音似然分数与每个帧的平均数字语音似然分数,以便提供话语类型。
适当地,所述进行普通语音识别的过程确定话语波形的最大普通粗略似然帧分数。
适当地,所述进行数字语音识别的过程提供话语波形的最大数字粗略似然帧分数。
所述评估过程也适当地包括对比评估所述最大普通粗略似然帧分数与最大数字粗略似然帧分数,以便提供话语类型。
适当地,所述进行普通语音识别的过程确定话语波形的最小普通粗略似然帧分数。
适当地,所述进行数字语音识别的过程提供话语波形的最小数字粗略似然帧分数。
所述评估过程也适当地包括对比评估所述最小普通粗略似然帧分数与最小数字粗略似然帧分数,以便提供话语类型。
优选地,所述评估过程适当地由一个归类器执行,该归类器已由数字串和文本串进行训练。归类器最好是经过训练的人工神经网络。
适当地,所述普通词汇表声音模型集是一个音素模型集。这些音素模型可以由诸隐藏马尔科夫模型(HMM)构成。隐藏马尔科夫模型可以模拟三音素。
优选地,所述响应包括一个控制信号,用于启动所述设备的一个功能。当话语类型被确认为数字串时,该响应可能是一个电话号码拨号功能,而该数字串即是一个电话号码。
附图说明
为便于理解本发明并将其投入实际应用,现参阅参照附图描述本发明的优选实施例,在附图中:
图1是一个根据本发明的一个电子设备示意框图;
图2是一个构成图1所示的电子设备一部分的归类器的示意图;
图3是一个状态图,示出了一个音素的隐藏马尔科夫模型,该音素存储在图1所示电子设备的普通声音模型集存储器中;
图4是一个状态图,其描述了一个数字的隐藏马尔科夫模型,该数字存储在图1所示电子设备的数字声音模型集存储器中;以及
图5是一个流程图,示出一种根据本发明、用于自动语音归类的方法,该方法在如图1所示的电子设备上执行。
优选实施例的详细说明
现在参看图1,其中描述了一个电子设备100,其形式为一个无线电话,包括一个设备处理器102,其由一总线103连接到一个用户界面104,该用户界面通常是一个触摸屏,或者也可以是一个显示屏和小键盘。用户界面104由总线103连接到一个前端信号处理器108,该处理器具有一个输入端口与一个麦克风106连接,并从中接收话语。前端信号处理器108的输出连接到一个识别器110。
电子设备100还具有一个普通声音模型集存储器112和一个数字声音模型集存储器114。存储器112和114都连接到识别器110,而识别器110由总线103连接到归类器130。而且,总线103将设备处理器102连接到归类器130、识别器110、一个只读存储器(ROM)118、一个非易失存储器120和一个无线通信单元116。
正如对本领域的技术人员显而易见的那样,射频通信单元116通常是一个具有共用天线的组合的接收器和发射器。射频通信单元116具有一个收发器,其通过一个射频放大器与天线相连。该收发器也连接到一个组合的调制器/解调器,其将通信单元116连接到处理器102。而且,在本实施例中,非易失性存储器120存储着一个用户可编程的电话簿数据库Db,而只读存储器118存储着设备处理器102的操作代码,以及用来执行如下参照图2至5所描述的方法的代码。
参见图2,图中详细示出了归类器130,在本实施例中,该归类器是一个经过训练的多层感知(MLP)人工神经网络(ANN)。归类器130是一个三层归类器,其包括一个6节点输入层,用于接收观测数据F1、F2、F3、F4、F5和F6;一个4节点隐藏层H1、H2、H3和H4;以及一个2输出归类层C1和C2。隐藏层H1、H2、H3和H4的函数Func1(x)是:
Func 1 ( x ) = 2 1 + exp ( - 2 x ) - 1 ,
其中,x是每个观测数据(F1至F6)的值。输出归类层C1和C2的函数Func2(x)是:
Func 2 ( x ) = 1 1 + exp ( - x )
使用了著名的Levenberg-Marquardt(LM)算法,来训练ANN。该算法是一种网络训练函数,其根据LM优化来更新权重和偏置的值。Levenberg-Marquardt算法在Martin T.Hagan和Mohammad B.Menhaj的“Training feed-forward networks with the Marquardtalgorithm”,(IEEE Trans on Neural Networks,Vol 5,No 6,1994年11月)中作了描述,该文作为参考结合到本说明书中。
观测数据F1至F6是由以下计算决定的:
F1=(fg1-fd1)/k1;
F2=(fg2-fd2)/k2;
F3=(fg3-fd3)/k3;
F4=(fg4-fd4)/k4;
F5=fg5/fd5;以及
F6=fg6/fd6.
其中K1至K4是由实验决定的比例常数,且K1、K2被设置为1000,K3、K4被设置为40。而fg1至fg6和fd1至fd6是表示为对数值(log10)的类别分数,其决定如下:
fg1是对话语波形的所有词汇段的普通词汇表累积最大似然分数,该累计分数是话语波形中的所有似然分数的总和,是通过为话语波形的所有词汇段、而对话语波形进行普通语音识别而获得的(一个词汇段可以是一个词汇或一个数字);
fd1是对话语波形的所有词汇段的数字词汇表累积最大似然分数,该累计分数是话语波形中的所有似然分数的总和,是通过为话语波形的所有词汇段、而对话语波形进行数字语音识别而获得的(一个词汇段可以是一个词汇或一个数字);
fg2是从所有词汇段的、所选数量的最佳累积最大似然分数计算而来的一个普通分数,是通过对话语波形进行普通语音识别而获得的,通常所述普通分数被计算为普通声音模型集中的最前面5个普通词汇表待选串最大似然分数的平均值;
fd2是从所有词汇段的、所选数量的最佳累积最大似然分数计算而来的一个数字分数,是通过对话语波形进行普通语音识别而获得的,通常该数字分数被计算为数字话语模型集中的最前面5个数字词汇表待选串最大似然分数的平均值;
fg3是一个词汇段的每个帧的平均普通粗略似然分数,这里每个词汇段被划分为多个这样的帧(通常是以10毫秒间隔)。
fd3是一个词汇段的每个帧的平均数字粗略似然分数,这里每个词汇段被划分为多个这样的帧;
fg4是话语波形的每个帧的平均普通语音似然分数,其中排除了非语音帧;
fd4是话语波形的每个帧的平均数字语音似然分数,其中排除了非语音帧;
fg5是话语波形的最大普通粗略似然帧分数(即最大的fg3);
fd5是话语波形的最大数字粗略似然帧分数(即最大的fd3);
fg6是话语波形的最小普通粗略似然帧分数(即最小的fg3);
fd6是话语波形的最小数字粗略似然帧分数(即最小的fd3);
参见图3,其中示出了一个隐藏HMM的状态图,该模型用来模拟存储在普通声音模型集存储器112中的普通词汇表声音模型集。该状态图示出了许多音素声音模型中的一个,这些音素声音模型构成了存储在存储器112中的一个声音模型集,其中的每个音素声音模型由3个状态S1、S2、S3来模拟。与每个状态相关联的是转移概率,其中a11和a12是状态S1的转移概率,a21和a22是状态S2的转移概率,a31和a32是状态S3的状态转移概率。因此,正如对本领域的技术人员显而易见的,该状态图表示的是一个语境相关的三音素,其每个状态具有一个通常由6至64个成分构成的高斯混合。而且,中间的状态S2被视为一个音素HMM的稳定状态,而其它两个状态是用来描述两个音素之间的协同发音(co-articulation)的转移状态。
现参照图4的状态图,图中示出了一个数字的HMM,该模型构成一个数字声音模型集,并存储在数字声音模型集存储器114中。该状态图所表示的数字是由10个状态S1至S10模拟的,且分别与每个状态相关的是其相关转移概率,其中a11和a12是状态S1的转移概率,所有其它每个状态的转移概率遵循同样的字母和数字表示规则。数字声音模型集存储器114只需要模拟10个数字(数字0至9),因而只需要11个HHM(声音模型)。这11个模型模拟的数字发音为:“zero”(0)、“oh”(0)、“one”(1)、“two”(2)、“three”(3)、“four”(4)、“five”(5)、“six”(6)、“seven”(7)、“eight”(8)、“nine”(9)。然而,这些模型可能根据使用的语言或其它因素而变化。例如,数字0的模型中可能添加“nought”(零)和“nil”(零)。
参见图5,其中示出了一种用于在电子设备100上进行自动语音归类的方法500。通常由用户在界面104提供一个启动信号,以启动开始步骤510,此后,方法500执行步骤520,以便从麦克风106接收话语波形输入。然后,由前端信号处理器108在步骤525对话语波形进行采样和数字化,随后在步骤530将其分段为帧,之后在步骤535对其进行处理,以提供代表波形的特征向量。应当注意,步骤520至535在本领域中是公知的,因而不需要详细解释。
然后,方法500在执行识别步骤537中,通过将特征向量与至少两个声音模型集进行比较,来进行语音识别,该两个模型集中的一个模型集是存储在存储器112中的普通词汇表声音模型集,另一个模型集是存储在存储器114中的数字声音模型集。该过程提供待选串(文本的或数字的),及其相关的、得自每个声音模型集的类别分数。然后,在检测步骤540,方法500确定是否波形中的词汇数大于一个临界值。该检测步骤540是可选的,并特别用于将话语波形确认和归类为电话号码的数字拨号。如果话语波形中的词汇数大于一个临界值(通常该值是7),则在步骤545,话语类型被认为是一个数字串,并且类型标志TF被设置为数字串类型。其基于的假设是,该方法仅用于电话名称或数字拨号识别。另一方面,如果在步骤540,话语波形中的词汇数被确定为小于该临界值,则执行一个归类步骤550。在此归类过程中,由识别器110向归类器130提供观测数据F1至F6。因此,在步骤550中,基于类别分数fg1至fg6和fd1至fd6,而提供了对话语类型的归类。作为结果,话语类型或者是数字串,或者是文本串(其可能包括词汇和数字),而类型标志TF也得到相应设置。
在步骤545或550之后,选择步骤553基于话语类型,从诸待选串中选择一个待选串,作为语音识别结果。由识别器110所执行的提供步骤555基于语音识别结果,提供一个响应(识别结果信号)。然后,方法500在结束步骤560结束。
所述进行语音识别包括使用存储器112中的普通词汇表语音模型集对特征向量进行普通语音识别,以提供fg1至fg6的值。所述进行语音识别也包括使用存储器114中的数字语音模型集对特征向量进行数字语音识别,以提供fd1至fd6的值。然后,归类步骤550如上所述评估观测结果F1至F6,并将这些结果馈送到归类器130中,以提供话语类型C1(数字串)或C2(文本串)。话语波形可以由此而简单地得到识别,因为所有的搜索和似然分数评分已经进行过了。以这样的方式,设备100使用来自普通声音模型集或数字声音模型集的结果,来进行语音识别,并提供响应。
有利的是,本发明允许使用语音识别在设备100上执行命令,并克服或至少减轻与现有技术的语音识别及对命令的响应有关的一个或多个问题。这些命令通常输入自麦克风106所检测到的用户话语,或输入自其它输入方法,如通过无线或网络通信链路而远程接收的声音。方法500在步骤520有效地接收到话语,而在步骤555的响应包括提供一个控制信号以控制设备100,或者启动设备100的一个功能。当话语类型是文本串时,这样的功能可能是在菜单中移动,或者选择与名称相关的电话号码,该名称是与步骤520接收到的话语相对应的。另一方面,当话语类型是数字串时,则通常启动电话号码的数字拨号(电话号码拨号功能),而所拨的号码是从识别器110获得的,该识别器使用所述数字模型,以决定波形中由特征向量所代表的数字。
上述详细说明仅仅描述了优选的示例性实施例,而无意限制本发明的范围、适用性或配置。反之,本优选示例性实施例详细说明使得本领域的技术人员可以实施本发明的优选示例性实施例。应当理解,可以对其中各要素的功能和安排作各种改变,而不必脱离如所附权利要求书所阐明的本发明的精神和范围。

Claims (22)

1.一种在电子设备上进行自动语音归类的方法,包括:接收一个话语波形;
处理该话语波形,以提供代表该话语波形的特征向量;
通过将所述特征向量与至少两个声音模型集进行比较,对所述话语波形执行语音识别,所述声音模型集中的一个是普通词汇表声音模型集,另一个是数字声音模型集,所述执行过程提供待选串以及相关的、来自每个声音模型集的类别分数;
基于所述类别分数,确定波形的话语类型;
基于所述话语类型,选择所述待选串中的一个,作为语音识别结果;以及
根据语音识别结果,提供一个响应。
2.如权利要求1的自动语音归类方法,其中所述执行过程包括:
使用所述普通词汇表声音模型集对所述特征向量执行普通语音识别,以便为话语波形中的词汇段提供普通词汇表累积最大似然分数;以及
使用所述数字声音模型集对所述特征向量执行数字语音识别,以便为话语波形中的诸词汇段提供数字词汇表累积最大似然分数。
3.如权利要求2的自动语音归类方法,其中所述归类过程包括将所述普通词汇表累积最大似然分数与所述数字词汇表累积最大似然分数进行对比评估,以提供话语类型。
4.如权利要求3的自动语音归类方法,其中所述执行普通语音识别过程提供一个普通分数,该普通分数是从所选数量的最佳累积最大似然分数计算而来的,而这些最佳累积最大似然分数得自执行通用语音识别的过程。
5.如权利要求4的自动语音归类方法,其中所述执行数字语音识别过程提供一个数字分数,该数字分数是从所选数量的最佳累积最大似然分数计算而来的,而这些最佳累积最大似然分数得自执行数字语音识别的过程。
6.如权利要求5的自动语音归类方法,其中所述评估也包括对比评估所述普通分数和所述数字分数,以提供话语类型。
7.如权利要求3的自动语音归类方法,其中所述处理包括将所述波形划分为由帧构成的诸词汇段,这些词汇段被分析,以提供代表波形的特征向量。
8.如权利要求7的自动语音归类方法,其中所述进行普通语音识别的过程为词汇段的每个帧提供一个平均普通粗略似然分数。
9.如权利要求8的自动语音归类的方法,其中所述进行数字语音识别的过程为词汇段的每个帧提供一个平均数字粗略似然分数。
10.如权利要求9的自动语音归类方法,其中所述评估也包括对比评估所述波形的所述每帧平均普通粗略似然分数与所述每帧平均数字粗略似然分数。
11.如权利要求10的自动语音归类方法,其中所述进行普通语音识别的过程提供波形每帧的平均普通语音似然分数,排除了非语音的帧。
12.如权利要求11的自动语音归类方法,其中所述执行数字语音识别的过程提供波形每帧的平均数字语音似然分数,排除了非语音的帧。
13.如权利要求12的自动语音归类方法,其中所述对估过程也包括对比评估所述每帧的平均普通语音似然分数与所述每帧的平均数字语音似然分数,以提供话语类型。
14.如权利要求13的自动语音归类方法,其中所述执行普通语音识别的过程识别所述话语波形的最大普通粗略似然帧分数。
15.如权利要求14的自动语音归类方法,其中所述执行数字语音识别的过程提供所述话语波形的最大数字粗略似然帧分数。
16.如权利要求15的自动语音归类方法,其中所述评估过程也包括对比评估所述最大普通粗略似然帧分数与所述最大数字粗略似然分数,以提供话语类型。
17.如权利要求16的自动语音归类方法,其中所述执行普通语音识别的过程识别所述话语波形的最小普通粗略似然帧分数。
18.如权利要求17的自动语音归类方法,其中所述执行数字语音识别的过程提供所述话语波形的最小数字粗略似然帧分数。
19.如权利要求18的自动语音归类方法,其中所述对比评估过程也包括对比评估所述最小普通粗略似然段分数与所述最小数字粗略似然段分数,以提供话语类型。
20.如权利要求19所述的自动语音归类方法,其中所述评估过程是由一个归类器进行的,该归类器既由数字串和文本串所训练。
21.如权利要求3的自动语音归类方法,其中所述响应包括用于启动所述设备的功能的控制信号。
22.如权利要求21的自动语音归类方法,其中所述响应包括当话语类型被确认为数字串时的电话号码拨号功能,其中该数字串是一个电话号码。
CNB031570194A 2003-09-03 2003-09-09 自动语音归类方法 Expired - Lifetime CN1303582C (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CNB031570194A CN1303582C (zh) 2003-09-09 2003-09-09 自动语音归类方法
US10/925,786 US20050049865A1 (en) 2003-09-03 2004-08-24 Automatic speech clasification

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB031570194A CN1303582C (zh) 2003-09-09 2003-09-09 自动语音归类方法

Publications (2)

Publication Number Publication Date
CN1593980A true CN1593980A (zh) 2005-03-16
CN1303582C CN1303582C (zh) 2007-03-07

Family

ID=34201027

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB031570194A Expired - Lifetime CN1303582C (zh) 2003-09-03 2003-09-09 自动语音归类方法

Country Status (2)

Country Link
US (1) US20050049865A1 (zh)
CN (1) CN1303582C (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101996629A (zh) * 2009-08-21 2011-03-30 通用汽车有限责任公司 识别语音的方法
CN101292283B (zh) * 2005-10-20 2012-08-08 日本电气株式会社 声音判别系统及声音判别方法
CN105723450A (zh) * 2013-11-13 2016-06-29 谷歌公司 用于话语检测的包络比较
CN107331391A (zh) * 2017-06-06 2017-11-07 北京云知声信息技术有限公司 一种数字种类的确定方法及装置
CN107735833A (zh) * 2015-06-07 2018-02-23 苹果公司 自动口音检测
CN110288995A (zh) * 2019-07-19 2019-09-27 出门问问(苏州)信息科技有限公司 基于语音识别的交互方法、装置、存储介质和电子设备
CN113689660A (zh) * 2020-05-19 2021-11-23 上海惠芽信息技术有限公司 可穿戴设备的安全预警方法、可穿戴设备

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8265933B2 (en) * 2005-12-22 2012-09-11 Nuance Communications, Inc. Speech recognition system for providing voice recognition services using a conversational language model
US20080046824A1 (en) * 2006-08-16 2008-02-21 Microsoft Corporation Sorting contacts for a mobile computer device
WO2010019831A1 (en) * 2008-08-14 2010-02-18 21Ct, Inc. Hidden markov model for speech processing with training method
US9082403B2 (en) 2011-12-15 2015-07-14 Microsoft Technology Licensing, Llc Spoken utterance classification training for a speech recognition system
WO2014109799A1 (en) 2012-09-17 2014-07-17 President And Fellows Of Harvard College Soft exosuit for assistance with human motion
US8484025B1 (en) * 2012-10-04 2013-07-09 Google Inc. Mapping an audio utterance to an action using a classifier
WO2014194257A1 (en) 2013-05-31 2014-12-04 President And Fellows Of Harvard College Soft exosuit for assistance with human motion
WO2015088863A2 (en) 2013-12-09 2015-06-18 President And Fellows Of Harvard College Assistive flexible suits, flexible suit systems, and methods for making and control thereof to assist human mobility
WO2015120186A1 (en) 2014-02-05 2015-08-13 President And Fellows Of Harvard College Systems, methods, and devices for assisting walking for developmentally-delayed toddlers
EP3128963A4 (en) 2014-04-10 2017-12-06 President and Fellows of Harvard College Orthopedic device including protruding members
US20150302856A1 (en) * 2014-04-17 2015-10-22 Qualcomm Incorporated Method and apparatus for performing function by speech input
EP3194769B1 (en) 2014-09-19 2020-04-08 President and Fellows of Harvard College Soft exosuit for assistance with human motion
WO2017040669A1 (en) * 2015-08-31 2017-03-09 President And Fellows Of Harvard College Pattern detection at low signal-to-noise ratio
CN109069278A (zh) 2016-03-13 2018-12-21 哈佛大学校长及研究员协会 用于锚定到身体上的柔性构件
US11498203B2 (en) 2016-07-22 2022-11-15 President And Fellows Of Harvard College Controls optimization for wearable systems
US11014804B2 (en) 2017-03-14 2021-05-25 President And Fellows Of Harvard College Systems and methods for fabricating 3D soft microstructures
US10504539B2 (en) * 2017-12-05 2019-12-10 Synaptics Incorporated Voice activity detection systems and methods
JP7407580B2 (ja) 2018-12-06 2024-01-04 シナプティクス インコーポレイテッド システム、及び、方法
JP2020115206A (ja) 2019-01-07 2020-07-30 シナプティクス インコーポレイテッド システム及び方法
US10614800B1 (en) * 2019-08-19 2020-04-07 Voicify, LLC Development of voice and other interaction applications
US10762890B1 (en) 2019-08-19 2020-09-01 Voicify, LLC Development of voice and other interaction applications
US11508365B2 (en) 2019-08-19 2022-11-22 Voicify, LLC Development of voice and other interaction applications
US11064294B1 (en) 2020-01-10 2021-07-13 Synaptics Incorporated Multiple-source tracking and voice activity detections for planar microphone arrays
US11823707B2 (en) 2022-01-10 2023-11-21 Synaptics Incorporated Sensitivity mode for an audio spotting system

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
USRE32012E (en) * 1980-06-09 1985-10-22 At&T Bell Laboratories Spoken word controlled automatic dialer
US4644107A (en) * 1984-10-26 1987-02-17 Ttc Voice-controlled telephone using visual display
FI96247C (fi) * 1993-02-12 1996-05-27 Nokia Telecommunications Oy Menetelmä puheen muuntamiseksi
US5754978A (en) * 1995-10-27 1998-05-19 Speech Systems Of Colorado, Inc. Speech recognition system
KR100277105B1 (ko) * 1998-02-27 2001-01-15 윤종용 음성 인식 데이터 결정 장치 및 방법
US6233559B1 (en) * 1998-04-01 2001-05-15 Motorola, Inc. Speech control of multiple applications using applets
US6269335B1 (en) * 1998-08-14 2001-07-31 International Business Machines Corporation Apparatus and methods for identifying homophones among words in a speech recognition system
US6223155B1 (en) * 1998-08-14 2001-04-24 Conexant Systems, Inc. Method of independently creating and using a garbage model for improved rejection in a limited-training speaker-dependent speech recognition system
US6845251B2 (en) * 2000-11-29 2005-01-18 Visteon Global Technologies, Inc. Advanced voice recognition phone interface for in-vehicle speech recognition applications
US20020076009A1 (en) * 2000-12-15 2002-06-20 Denenberg Lawrence A. International dialing using spoken commands
US7076428B2 (en) * 2002-12-30 2006-07-11 Motorola, Inc. Method and apparatus for selective distributed speech recognition

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101292283B (zh) * 2005-10-20 2012-08-08 日本电气株式会社 声音判别系统及声音判别方法
CN102222499B (zh) * 2005-10-20 2012-11-07 日本电气株式会社 声音判别系统、声音判别方法以及声音判别用程序
CN102222498B (zh) * 2005-10-20 2013-05-01 日本电气株式会社 声音判别系统、声音判别方法以及声音判别用程序
CN101996629B (zh) * 2009-08-21 2012-10-03 通用汽车有限责任公司 识别语音的方法
CN101996629A (zh) * 2009-08-21 2011-03-30 通用汽车有限责任公司 识别语音的方法
CN105723450B (zh) * 2013-11-13 2019-09-10 谷歌有限责任公司 用于话语检测的包络比较的方法和系统
CN105723450A (zh) * 2013-11-13 2016-06-29 谷歌公司 用于话语检测的包络比较
CN107735833A (zh) * 2015-06-07 2018-02-23 苹果公司 自动口音检测
CN107331391A (zh) * 2017-06-06 2017-11-07 北京云知声信息技术有限公司 一种数字种类的确定方法及装置
CN110288995A (zh) * 2019-07-19 2019-09-27 出门问问(苏州)信息科技有限公司 基于语音识别的交互方法、装置、存储介质和电子设备
CN110288995B (zh) * 2019-07-19 2021-07-16 出门问问(苏州)信息科技有限公司 基于语音识别的交互方法、装置、存储介质和电子设备
CN113689660A (zh) * 2020-05-19 2021-11-23 上海惠芽信息技术有限公司 可穿戴设备的安全预警方法、可穿戴设备
CN113689660B (zh) * 2020-05-19 2023-08-29 三六零科技集团有限公司 可穿戴设备的安全预警方法、可穿戴设备

Also Published As

Publication number Publication date
US20050049865A1 (en) 2005-03-03
CN1303582C (zh) 2007-03-07

Similar Documents

Publication Publication Date Title
CN1303582C (zh) 自动语音归类方法
EP1291848B1 (en) Multilingual pronunciations for speech recognition
CN107154260B (zh) 一种领域自适应语音识别方法和装置
Campbell et al. Language recognition with support vector machines
Hakkani-Tür et al. Beyond ASR 1-best: Using word confusion networks in spoken language understanding
CN1058097C (zh) 连续语音识别
EP1922653B1 (en) Word clustering for input data
US8392188B1 (en) Method and system for building a phonotactic model for domain independent speech recognition
CN1123863C (zh) 基于语音识别的信息校核方法
US6243680B1 (en) Method and apparatus for obtaining a transcription of phrases through text and spoken utterances
US8532990B2 (en) Speech recognition of a list entry
US20080103774A1 (en) Heuristic for Voice Result Determination
WO2012073275A1 (ja) 音声認識装置及びナビゲーション装置
US8626506B2 (en) Method and system for dynamic nametag scoring
CN1856820A (zh) 语音识别方法和通信设备
JP2006058899A (ja) 発話検索のためのラティス・ベースの検索システムおよび方法
KR100904049B1 (ko) 음성 인식에 대한 통계적 의미 분류 시스템 및 방법
CN1120372A (zh) 语音处理
CN1924994A (zh) 一种嵌入式语音合成方法及系统
Bazzi et al. A multi-class approach for modelling out-of-vocabulary words
Jiang et al. Improvements on a trainable letter-to-sound converter
CN1198261C (zh) 基于决策树的语音辨别方法
CN104731918A (zh) 一种语音搜索方法及装置
Beaufays et al. Learning name pronunciations in automatic speech recognition systems
CN1835077B (zh) 中文人名自动语音辨识输入方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MOTOROLA MOBILE CO., LTD.

Free format text: FORMER OWNER: MOTOROLA INC.

Effective date: 20110110

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: ILLINOIS, USA TO: ILLINOIS STATE, USA

TR01 Transfer of patent right

Effective date of registration: 20110110

Address after: Illinois State

Patentee after: MOTOROLA MOBILITY, Inc.

Address before: Illinois Instrunment

Patentee before: Motorola, Inc.

C41 Transfer of patent application or patent right or utility model
C56 Change in the name or address of the patentee
CP01 Change in the name or title of a patent holder

Address after: Illinois State

Patentee after: MOTOROLA MOBILITY LLC

Address before: Illinois State

Patentee before: MOTOROLA MOBILITY, Inc.

TR01 Transfer of patent right

Effective date of registration: 20160310

Address after: California, USA

Patentee after: Google Technology Holdings LLC

Address before: Illinois State

Patentee before: MOTOROLA MOBILITY LLC

CX01 Expiry of patent term
CX01 Expiry of patent term

Granted publication date: 20070307