CN1726532A - 基于传感器的语音识别器选择、自适应和组合 - Google Patents

基于传感器的语音识别器选择、自适应和组合 Download PDF

Info

Publication number
CN1726532A
CN1726532A CNA200380106508XA CN200380106508A CN1726532A CN 1726532 A CN1726532 A CN 1726532A CN A200380106508X A CNA200380106508X A CN A200380106508XA CN 200380106508 A CN200380106508 A CN 200380106508A CN 1726532 A CN1726532 A CN 1726532A
Authority
CN
China
Prior art keywords
recognizer
speech recognition
combination
selection
accordance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA200380106508XA
Other languages
English (en)
Other versions
CN100552773C (zh
Inventor
沃尔克·菲舍尔
谢格弗里德·昆兹曼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN1726532A publication Critical patent/CN1726532A/zh
Application granted granted Critical
Publication of CN100552773C publication Critical patent/CN100552773C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Abstract

本发明涉及一种操作语音识别系统的方法和相应的系统,其中多个识别器程序是可访问的,以便被激活进行语音识别,并且根据需要被组合,以便有效地改进单个识别器完成的语音识别的结果。为了适应各种工作环境的动态变化的声学条件,以及只具有有限的可用计算能力的嵌入式系统,提出用传感器装置收集(210、220、230、240)表征语音识别边界条件的选择基础数据,例如讲话人和环境噪声等,b)利用(260)程序控制的仲裁装置评估收集的数据,例如包括软件机构和物理传感器的判定引擎,从而从多个可用的识别器中选择(290)最适合的识别器或其组合。

Description

基于传感器的语音识别器选择、自适应和组合
技术领域
本发明涉及计算机化语音识别的领域。
背景技术
特别地,本发明涉及操作大词汇量语音识别系统的方法,其中程控识别器执行下述步骤:
1.把语音信号分解成长度不必相等的短的时间间隔,即帧,得到每帧的抽取的特征向量,例如包括谱系数,
2.用字符或字符组标记帧,每帧产生多个标记,
3.对所述标记解码,从而构成一个或多个单词或者一个单词的多个片段,
4.在该方法中,多个识别器是可访问的,以便被激活进行语音识别,并且所述多个识别器基于请求被组合,以便改进单个识别器的语音识别结果。
更特别地,上述这种连续语音识别器通过把依赖于上下文的子字单元,比如音子或三音子模拟成基本的隐马可夫模型(也称为“HMM”),捕捉语声的许多变化。这些模型的统计参数一般由数百小时的被标记训练数据估计得到。虽然如果训练数据与应用场景的声学特性充分相符,那么这提供高的识别精度,但是可以看出如果语音识别器不得不应付具有显著不同,并且可能高度动态变化的特性的声学环境,那么识别准确性显著降低。
在线和(无)监督的批次自适应技术通过重新估计声学模型参数解决该问题,但是如果只存在很少量的数据和/或计算资源稀少,那么它们都是不可行的,或者-在批次自适应的情况下-不能正确地处理声学环境中的动态变化。
目前的大词汇量连续语音识别器采用隐马可夫模型(HiddenMarkov Models(HMM))来根据语音信号,计算具有最大后验概率的单词序列w。
隐马可夫模型是处理状态的有限集S={S1,...,SN},并且为状态被占用的每个时间t(t=1,2,...,T)的输出的观察创造条件的随机自动机A=(π,A,B)。
初始状态向量
π=[πi]=[P(s(1)=si)],1≤i≤N    (1)
给出在时间t=1时,HMM处于状态s1的概率,转换矩阵
A=[aij]=[P(s(t+1)=sj|s(t)=si)],1≤i,j≤N    (2)
保持描述从状态si到sj的转换的一阶时间不变性过程的概率。观测值是从语音信号得到的连续取值的特征向量x∈R,输出概率由一组概率密度函数(这里也称为pdfs)定义:
B:[bi]=[P(x|s(t)=si)],1≤i≤N    (3)
对于任意给定的HMM状态si,未知分布p(x|si)通常由基本高斯pdfs的混合物近似
p ( x | s i ) = Σ j ∈ M i ( w ji · N ( x | μ ji , Γ ji ) )
= Σ j ∈ M i ( w ji · | 2 π Γ ji | - 1 / 2 · exp ( - ( x - μ ji ) T Γ ji - 1 ( x - μ ji ) / 2 ) ) - - - ( 4 )
其中Mi是与状态si相关的高斯函数的集合。此外,x表示观测的特征向量,wji是第i个输出分布的第j个混合分量权重,μji和Γji是状态si下的第j个高斯函数的平均矩阵和协方差矩阵。要注意为了符号的简单性,从等式4省略了均值向量的状态和混合分量下标。
现有技术的语音识别器通常由下述组件组成:
·计算允许信号的短小部分(帧)的分类的参数表示的特征抽取。频繁使用的特征是通常由能量值和它们的时间导数富集(enrich)的谱参数或Mel频标倒谱系数(MFCC)。
·“打标记器”用表示可能有意义的子字单元,例如依赖于上下文的音子(phone)或子音子的许多标记标识每个特征向量。常见的特征向量的分类技术包括利用高斯混合密度的统计分类或者使用神经网络的分类。
·“解码器”截取每个标记作为HMM的输出,并计算最大后验概率的单词序列。为了有效地处理来自标记步骤的可选择结果,采用搜索策略和修剪技术。流行的例子是异步栈解码和时间同步Viterbi(维特比)解码或集束搜索。
最近已证明通过组合来自并行运行的几个基本识别器的(中间)结果,能够显著降低错字率。可以分出三种主要方法:
·计算特征的不同集合,并把它们组成为被传递给打标记器的单个特征向量的特征组合方法。
·似然组合方法还计算不同的特征向量,但是独立地对它们分类。源于不同的标记步骤的结果根据其证据被组合,对于每一帧,备选标记的单一向量被传送给解码器。
·ROVER(识别器输出表决错误减少)是一种使用动态编程技术把来自几个解码器传递的输出合并到单字假设网络中的后处理方法。在组合网络的每个分支点,后续的表决机构为最终的抄录选择分数最高的单词。
这里提出的发明的主要目的是克服与这些方法相关的一些问题,同时保持增大的识别准确性。
现有技术中已知如果用在未用训练数据正确表示的声学环境中,那么语音识别器的识别准确性显著降低。在诸如桌面口述之类的应用中,通过允许最终用户在不同的环境中登记到该系统中,能够容易地解决该问题,也可考虑输入特征向量的归一化的方法。但是,面对语音作为普遍计算中的输入媒介的重要作用,不允许提前的自适应步骤的应用的数目日益增大。此外,如果识别器不得不处理可能大量的动态变化的声学环境,那么由于缺少足够数量的在线自适应数据,或者由于计算资源有限,自适应方法可能变得不可行。
具有极大量的参数的更准确的声学模型有助于克服这种情况,但是在这里报告的发明中针对的典型应用中是不可行的。除了其它许多应用之外,这些应用是诸如交互式话音响应解决方案,消费设备(移动电话机、PDA、家用电器)用话音驱动接口,和汽车中的资源短缺语音识别之类的应用。
文献中已证明和单个基本识别器相比,上面提及的组合方法能够在嘈杂环境中产生明显更好的准确性。但是,这些方法对CPU施加了不断增大的计算负载,还需要数量增大的存储器来存储几个声学模型和中间结果;于是,它们不适合于资源短缺的语音识别器。
发明内容
于是,本发明的目的是提供一种语音识别方法和系统,它适合于说话者的环境中的动态改变的噪声,以及在由于资源有限,因此只具有有限的计算能力的(嵌入式)系统中运行的特定要求。
本发明的目的由在公开的独立权利要求中陈述的特征实现。在各个从属权利要求中陈述了本发明的其它有利方案和实施例。现在应参考附加的权利要求。
根据本发明的基本方面,提出在语音识别系统内执行下述步骤:
a)用传感器装置收集表征语音识别边界条件的选择基础数据,例如说话人,环境噪声,
b)利用程序控制的传感装置评估收集的数据,即判定引擎,包括软件机构,物理传感器,它们的组合等,
c)根据所述评估,从多个可用的识别器中选择最适合的识别器或者它们的组合。
这样,在具有不断变化的噪声水平,并且其中已存在多个“检测装置”的环境中能够获得显著的优点。从而,传感器装置要被非常广泛地理解为能够提供所述选择基础数据的物理的或者呈逻辑程序形式的任意结构,所述选择基础数据可在存在或者不存在额外的用户输入的情况下被评估,以便由增加的知识将增大识别率的思想所启发,增加定义当前的讲话情景的细节的知识。从而,有利的是,传感器装置可以是判定逻辑,包括软件程序,它解释可由任何物理传感器,比如可检测以特定速度行驶,在特定车型中安装冬季和/或夏季轮胎(pneus)等而产生的噪声的麦克风,照相机,可从其它可用数据评估的噪声产生设备(例如通风机,音响设备)的ON/OFF位置检测的,或者可向用户请求的一些基础数据。当然,也可使用它们的组合。从而,收集的检测数据的一些处理被认为包括在传感器装置内。
此外,对于有效的评估来说,最好增加下述步骤:
a)在实现下述一个或多个的判定逻辑中处理物理传感器输出:统计检验,判定树,模糊隶属关系函数,
b)从所述处理返回将用在传感器选择/组合判定中的置信度值。
此外,通过增加表达在根据上面提及的处理定义的一组条件下,语音识别有多“好”的评级标准,例如基于数标的标准或者“优”、“中”、“差”任意之一等,用户也可对该过程产生影响。
此外,导致识别器选择判定的所述选择基础数据最好被保存在数据库中,以便于识别器的反复快速选择。这能够主要基于数据库中的查寻,可能还有一些额外的似真性检验来进行识别器选择判定,而不是运行完成的选择判定逻辑。从而,能够节约计算资源。
此外,根据本发明的优选方面,提出根据当前的系统负载选择识别器的数目。在具有有限计算资源的嵌入式系统,例如部署在汽车中的嵌入式系统中,这是有利的。
此外,根据本发明的另一优选方面,提出对所考虑的应用特有的各种条件提供模型变换的提前估计。这最好通过只保存一个识别模型如何被变换成另一识别模型的变换规则,而不是保存多个模型本身来实现。这有助于节省存储空间,并且在语音识别系统的运行时间期间,能够在传输中计算不同的模型。
从而,提供选择最适合于当前声学环境中的操作的一个或多个变换的机构,并且提出识别器的动态组合的方法,所述方法在随着时间相当频繁地改变的嘈杂环境中得到改进的识别准确性。
本发明的体系结构提供不得不处理高度变化的声学环境的语音识别应用的改进准确性,此外,通过限制组合的识别器的数目,它还在计算资源可变的情况下,提供可缩放的识别准确性。
这里介绍的发明目的在于在不利的声学环境中,增大通用的基于HMM的语音识别器的稳健性。通过把基于传感器的方法用于声学模型的动态创建以及它们的组合,本发明解决了在上面的背景技术中描述的问题。
通过把一个或多个模型变换应用于初始的声学模型,动态创建特定于环境的识别器。和在线自适应技术不同,适合的变换不是在运行时间期间计算的,而是在提前的训练步骤中确定的。通用的声学模型和特定于环境的变换与相关的指标函数一起被保存,所述指标函数允许运行时间期间,变换的基于传感器的选择。这确保最匹配当前声学环境的特征的模型的创建和使用。由于在识别过程的组合中,不使用未被传感器识别的模型变换,因此在不必不必要地增大计算资源的情况下,得到更好的准确性。此外,和自适应模型的存储相比,保存预先计算的变换需要少得多的存储器。
根据本发明,提出借助一个或多个外部存储器取回表征语音识别器工作的声学环境的信息,并把该信息和于一个或多个声学模型的动态创建和组合。
模型的加权组合的方法不在本发明的范围中。但是,通过利用特定于环境的,预先计算的模型变换来创建这些模型是这里描述的发明的一个独创思想。除了已提及的需要较小存储容量的优点之外,这还避免不同特征向量的计算,不同特征向量的计算是基于子带的方法中的一个计算费用高的步骤。
附图说明
附图中举例说明了本发明,但是本发明并不受附图的限制,其中:
图1是表示根据本发明的一个优选实施例,说明发明原理的概述的示意块图,
图2是表示在汽车中的嵌入式系统中应用的远程信息处理领域中的例证应用的发明基本原理的概述的示意块图。
具体实施方式
现在参考附图,尤其参考图1,更详细地说明本发明的方法和系统的优选实施例。
通用基准语音识别器1被用于从为某一应用特有的各种声学环境Ej收集训练语音数据y-附图标记2。特定于环境的训练数据y被监督地或者不受监督地收集,并被用于所考虑的每个工作环境的声学模型变换的计算,参见块3。下面,给出举例说明利用预存储变换的特征的两个例子。
·MLLR(最大似然线性回归)自适应通过使用线性变换更新HMM均值向量(参见等式4)。
·μ(adapt)=Wμ(base)+ω,
这里变换参数W和ω被确定,以使自适应数据y的似然性达到最大。应注意为使符号简单起见,从等式4省略了均值向量的状态和混合分量下标(index)。不同的变换可被应用于属于不同(音子或音位变体)类别的均值向量;例如,把语音和静默均值向量的具体变换看作一个简单例子。在任何情况下,对于每个环境Ej,这导致一组变换参数
Tj={Wi,ωi|i=1,...,nj}
·并行模型组合(PMC)估计“噪声”HMMλj (noise)=(π,A,B)j的参数,参考等式1-3,“噪声”HMM模拟环境Ej的影响,并且与基准识别器的“干净”(或者与环境无关的)HMM组合。于是,变换参数由“噪声”HMM的参数给出,即:
Tj={(p,A,B)i}
运行时间期间预计算的特定于环境的变换的应用和所得到的声学模型要求识别器训练期间和运行时间期间的声学环境的表征。对于根据本发明实施例的用途,使用一个传感器,所述传感器可被看作计算在本发明的范围中有意义的量值的外部(物理)设备或者计算机程序(软件)或它们的组合。
在块6中执行的应用于基准模型的一个或多个模型变换的运行时间选择以连续监视环境的相关参数的一组传感器dk5提供的输出为基础。为此,传感器输出经过可采用诸如统计检验,(二元)判定树,或者模糊隶属关系函数之类的方法的判定逻辑,并且对于所考虑的每个环境,返回置信度分数χj,1≤j≤n。应注意用于这些检验的参数最好在模型变换估计的自适应数据的处理期间获得。同样,作为描述如何确定环境Ej的模糊隶属关系函数的参数的例子,举例说明该原理:
·在识别器训练期间,自适应数据y被传送给一组传感器5,该组传感器5可测量源于语音信号本身的任何特征,或者有用的任何外部量值,以便描述自适应数据的环境的声学。
·传感器输出z=dk(y)被量化并以直方图形式保存,所述直方图给出在环境Ej中观察z的相对频率。随后,直方图可由(多变量)概率密度函数近似,或者可被用于在运行时间期间充当置信度量度的相对频率的直接查找。
·用于传感器dk和环境Ej的模糊隶属关系函数χjk可通过特征z内分段线性函数的定义的选择,由直方图构成:
χjk(z)=0,如果z小于或等于z1,或者z大于或等于z4
χjk(z)=z/(z2-z1),如果z1小于z,并且z小于z2
χjk(z)=1,如果z2小于或等于z,并且z小于或等于z3
χjk(z)=1-z/(z4-z3),如果z2小于或等于z,并且z小于或等于z3
这里特征值zi,i≤i≤4被选择成使p(z≤zi)=qi。概率qi一般被选择成识别z的非常少见的值(例如q1=0.05,q2=0.20,q3=0.85,和q4=0.95)。同样,这应被理解为只是一种例证定义。
·如果几个传感器被用于监视环境,那么它们各自的置信分数χjk被组合,以便获得特定环境Ej的最终分数;例如在通过采用最小值的模糊分数的情况下
χj=minkjk},
它对应于逻辑“与”运算。当然,也可使用关于模糊集合定义的任何其它运算。
此外,环境(或变换)选择的特征可利用除语音识别器使用的帧速率之外的帧速率来计算,并且一般将在某一时间间隔内被求平均数,以便获得防止离群值的稳健性。它们可由语音信号本身或者已知的影响声学环境的任意其它量值计算得到。虽然信噪比(SNR)可被看作将从语音信号本身计算的最重要参数之一,不过也可考虑诸如移动汽车的实际速度或路面之类的特征,或者关于说话人的性别或语速的知识的利用。于是,对于关联参数的计算和抽取,我们主张全自动方法和需要用户交互作用的方法的使用。
只要置信度分数不显著改变,那么当前的HMM声学模型7被识别器用于输入的语音信号8的解码。如果在6中检测到一个或多个新环境,那么应用与这些环境相关的变换Tj,变换后的声学模型被用于解码。为此,置信度分数被分级,只有M个最佳得分的环境的变化被考虑用于未来的处理。重要的是注意考虑中的环境的数目M可变化:
·如果置信度分数不允许环境的明确识别,那么M可能较大。
·如果设备或(远程)识别服务器的工作负载-其计算和分布在现有技术中已知,并且存在于任何现代操作系统中-已分别较高,那么M将较小,以便实现可接受的响应时间(以识别准确性为代价)。
此外,获得的置信度分数还在识别器组合8期间被使用,识别器组合8可被用于获得更好的识别准确性。如上所述,现有技术的语音识别器包括三个主要的处理阶段:特征抽取,语音帧的标记和解码。而在本发明中,提出单个特征向量的使用,组合可在图1中的打标记器8a或解码器8b中进行。在第一种情况下,归一化的置信度分数被用于增大等式4中的HMM输出概率:
^p(χ|Si)=χjk(z)·p(xk|Si)
在单词假设的组合的情况下,置信度量度可被用于解析结(tie),如果每个识别器对于指定的语音信号范围产生不同的结果,那么会发生结。这种情况下,提出把从最佳得分的识别器获得的副本(transcription)分配给所考虑的该部分语音信号。
另外参见图2,以前述实施例在应用于汽车中的嵌入式系统中的远程信息处理领域中的例证应用,给出了发明基本原理的概述。
在第一块205中,传感器数据-来自四个传感器设备的选择基础数据从物理设备被读出并被量化,以致数据可用于程序评估。
从而,收集的选择基础数据表示下述可评估的陈述:
1.“驾驶员是女性”,来自具有封闭的图像识别器工具的照相机,-210,
2.“车速为130公里/小时”;-220,
3.“空调打开,并且通风机以75%功率运转”,230。
4.无线电打开,并且音量为8级中的4级,并且播放古典音乐,-240。
随后在步骤250中,在数据库中进行查寻,得到其中满足4个条件中的3个的数据集被保存的判断。从而,与该数据集相关的模型组合被保留为最可能的识别器组件之一。
随后在步骤260中,本发明提供的程序控制的仲裁器被用于评估收集的数据,在步骤270中,对本例中有意义的多个模型组合确定分数。随后在步骤280中,确定当前可用的计算负载。结果可能得到最多2模型组合被允许用于语音识别,不过三个最佳得分的提议建议4模型的组合。由于其它两个活动的优先权高于语音识别,因此这种限制可被采取。
从而在下一步骤290中,选择只具有两个模型的最适合的识别器组合。这需要新的评分过程。
随后在步骤300中,选择变换,以便计算选择的最佳两个模型。其它步骤根据上面的说明进行。
可用硬件,软件,或硬件和软件的组合来实现本发明。可集中地在一个计算机系统中实现根据本发明的工具,或者按照分布式方式实现本发明的工具,在这种情况下,不同的部件被散布在数个互连的计算机系统中。适合于实现这里描述的方法的任意类型的计算机系统或其它设备都是适合的。硬件和软件的典型组合可以是具有计算机程序的通用计算机系统,当被加载和执行时,所述计算机程序控制计算机系统执行这里描述的方法。
本发明也能嵌入计算机程序产品中,所述计算机程序产品包含能够实现这里描述的方法的全部特征,并且当被装入计算机系统时,能够实现这些方法。
本文中的计算机程序意味着一组指令的用任意语言、代码或符号表示的任意表述,所述一组指令意图使具有信息处理能力的系统直接地,或者在下述任一或下述二者之后执行特定的功能:a)转换成另一种语言,代码或符号;b)用不同的材料形式再现。

Claims (9)

1、一种操作语音识别系统的方法,其中程序控制的识别器(1)执行下述步骤:
把语音信号分成多帧,并计算每帧的任意类型的特征向量,
用字符或字符组标记所述帧,每个音素产生多个标记,
根据预定的声学模型对所述标记解码,构成一个或多个单词或者一个单词的多个片段,
在所述方法中,多个识别器是可访问的,以便被激活进行语音识别,并且被组合以平衡由单个语音识别器进行的语音识别的结果,其特征在于下述步骤:
a)用传感器装置(5)收集(210、220、230、240)表征语音识别边界条件的选择基础数据,
b)利用(260)程序控制的判优装置(6)评估收集的数据,
c)根据所述评估,从多个可用的识别器中选择(290)最适合的识别器或其组合。
2、按照权利要求1所述的方法,其中所述传感器装置(5)是下述一个或多个:
判定逻辑,包括软件程序,物理传感器或者它们的组合。
3、按照权利要求1所述的方法,还包括下述步骤:
a)在实现下述一个或多个的判定逻辑中处理(260)物理传感器(5)输出:统计检验,判定树,模糊隶属关系函数,
b)从所述处理返回(270)将用在传感器选择/组合判定中的置信度值。
4、按照权利要求1所述的方法,其中导致识别器选择判定的所述选择基础数据被保存在数据库中以便反复快速访问(250),从而获得识别器的快速选择。
5、按照权利要求1所述的方法,还包括下述步骤:
根据(280)当前的处理器负载,选择(290)识别器的数目和/或组合。
6、按照权利要求1所述的方法,还包括下述步骤:
保存一个识别模型如何被变换成另一识别模型的变换规则(7),而不是保存多个模型本身。
7、一种具有执行根据前述权利要求1-6之一所述的方法的步骤的装置的计算机系统。
8、一种在数据处理系统中执行的计算机程序,包括当在计算机上执行时,完成根据前述权利要求1-6任意之一所述的方法的相应步骤的计算机程序代码部分。
9、一种保存在计算机可用介质上的计算机程序产品,包括当所述计算机程序产品在计算机上执行时,使计算机执行根据权利要求1-6任意之一所述的方法的计算机可读程序单元。
CNB200380106508XA 2002-12-20 2003-10-31 基于传感器的语音识别器选择、自适应和组合 Expired - Fee Related CN100552773C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP02102875.8 2002-12-20
EP02102875 2002-12-20

Publications (2)

Publication Number Publication Date
CN1726532A true CN1726532A (zh) 2006-01-25
CN100552773C CN100552773C (zh) 2009-10-21

Family

ID=32668901

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB200380106508XA Expired - Fee Related CN100552773C (zh) 2002-12-20 2003-10-31 基于传感器的语音识别器选择、自适应和组合

Country Status (9)

Country Link
US (1) US7302393B2 (zh)
EP (1) EP1576581B1 (zh)
JP (1) JP2006510933A (zh)
KR (1) KR100800367B1 (zh)
CN (1) CN100552773C (zh)
AU (1) AU2003293646A1 (zh)
CA (1) CA2507999C (zh)
TW (1) TWI245259B (zh)
WO (1) WO2004057574A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103903616A (zh) * 2012-12-25 2014-07-02 联想(北京)有限公司 一种信息处理的方法及电子设备
CN105355199A (zh) * 2015-10-20 2016-02-24 河海大学 一种基于gmm噪声估计的模型组合语音识别方法
CN108986811A (zh) * 2018-08-31 2018-12-11 北京新能源汽车股份有限公司 一种语音识别的检测方法、装置和设备
CN111128141A (zh) * 2019-12-31 2020-05-08 苏州思必驰信息科技有限公司 音频识别解码方法和装置
CN111144259A (zh) * 2019-12-18 2020-05-12 重庆特斯联智慧科技股份有限公司 一种基于hmm模型的社区污染物处理方法和系统
CN111461901A (zh) * 2020-03-31 2020-07-28 德联易控科技(北京)有限公司 车辆保险理赔信息的输出方法和装置

Families Citing this family (95)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
JP4352790B2 (ja) * 2002-10-31 2009-10-28 セイコーエプソン株式会社 音響モデル作成方法および音声認識装置ならびに音声認識装置を有する乗り物
CN100369113C (zh) * 2004-12-31 2008-02-13 中国科学院自动化研究所 利用增益自适应提高语音识别率的方法
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
ATE449403T1 (de) 2005-12-12 2009-12-15 Gregory John Gadbois Mehrstimmige spracherkennung
US8380506B2 (en) * 2006-01-27 2013-02-19 Georgia Tech Research Corporation Automatic pattern recognition using category dependent feature selection
KR100770896B1 (ko) 2006-03-07 2007-10-26 삼성전자주식회사 음성 신호에서 음소를 인식하는 방법 및 그 시스템
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US20080071540A1 (en) * 2006-09-13 2008-03-20 Honda Motor Co., Ltd. Speech recognition method for robot under motor noise thereof
US8886545B2 (en) 2007-03-07 2014-11-11 Vlingo Corporation Dealing with switch latency in speech recognition
US8635243B2 (en) 2007-03-07 2014-01-21 Research In Motion Limited Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application
US10056077B2 (en) 2007-03-07 2018-08-21 Nuance Communications, Inc. Using speech recognition results based on an unstructured language model with a music system
US8949266B2 (en) 2007-03-07 2015-02-03 Vlingo Corporation Multiple web-based content category searching in mobile search application
US8886540B2 (en) 2007-03-07 2014-11-11 Vlingo Corporation Using speech recognition results based on an unstructured language model in a mobile communication facility application
US8949130B2 (en) * 2007-03-07 2015-02-03 Vlingo Corporation Internal and external speech recognition use with a mobile communication facility
US8838457B2 (en) 2007-03-07 2014-09-16 Vlingo Corporation Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility
US20080221884A1 (en) 2007-03-07 2008-09-11 Cerra Joseph P Mobile environment speech processing facility
US20090071315A1 (en) * 2007-05-04 2009-03-19 Fortuna Joseph A Music analysis and generation method
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US8019608B2 (en) * 2008-08-29 2011-09-13 Multimodal Technologies, Inc. Distributed speech recognition using one way communication
KR101239318B1 (ko) * 2008-12-22 2013-03-05 한국전자통신연구원 음질 향상 장치와 음성 인식 시스템 및 방법
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9798653B1 (en) * 2010-05-05 2017-10-24 Nuance Communications, Inc. Methods, apparatus and data structure for cross-language speech adaptation
US8442835B2 (en) * 2010-06-17 2013-05-14 At&T Intellectual Property I, L.P. Methods, systems, and products for measuring health
US8666768B2 (en) 2010-07-27 2014-03-04 At&T Intellectual Property I, L. P. Methods, systems, and products for measuring health
TWI412019B (zh) 2010-12-03 2013-10-11 Ind Tech Res Inst 聲音事件偵測模組及其方法
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US20150149167A1 (en) * 2011-03-31 2015-05-28 Google Inc. Dynamic selection among acoustic transforms
US20120253784A1 (en) * 2011-03-31 2012-10-04 International Business Machines Corporation Language translation based on nearby devices
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
JP5978027B2 (ja) * 2012-06-28 2016-08-24 本田技研工業株式会社 移動ロボットの制御装置
JP5966689B2 (ja) * 2012-07-04 2016-08-10 日本電気株式会社 音響モデル適応装置、音響モデル適応方法および音響モデル適応プログラム
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US20140195233A1 (en) * 2013-01-08 2014-07-10 Spansion Llc Distributed Speech Recognition System
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
EP3008641A1 (en) 2013-06-09 2016-04-20 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
CN104700832B (zh) 2013-12-09 2018-05-25 联发科技股份有限公司 语音关键字检测系统及方法
KR102257910B1 (ko) 2014-05-02 2021-05-27 삼성전자주식회사 음성 인식 장치 및 방법, 잡음-음성 인식 모델 생성 장치 및 방법
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
KR102272453B1 (ko) 2014-09-26 2021-07-02 삼성전자주식회사 음성 신호 전처리 방법 및 장치
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
JP6568813B2 (ja) * 2016-02-23 2019-08-28 Nttテクノクロス株式会社 情報処理装置、音声認識方法及びプログラム
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US10163437B1 (en) * 2016-06-02 2018-12-25 Amazon Technologies, Inc. Training models using voice tags
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
KR102565274B1 (ko) * 2016-07-07 2023-08-09 삼성전자주식회사 자동 통역 방법 및 장치, 및 기계 번역 방법 및 장치
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US9959861B2 (en) * 2016-09-30 2018-05-01 Robert Bosch Gmbh System and method for speech recognition
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
JP6226353B1 (ja) * 2017-06-27 2017-11-08 株式会社ナレロー リアルタイム習熟支援システム
US11087766B2 (en) * 2018-01-05 2021-08-10 Uniphore Software Systems System and method for dynamic speech recognition selection based on speech rate or business domain
WO2019246314A1 (en) * 2018-06-20 2019-12-26 Knowles Electronics, Llc Acoustic aware voice user interface
US11438452B1 (en) 2019-08-09 2022-09-06 Apple Inc. Propagating context information in a privacy preserving manner
US20210201928A1 (en) * 2019-12-31 2021-07-01 Knowles Electronics, Llc Integrated speech enhancement for voice trigger application

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5730913A (en) * 1980-08-01 1982-02-19 Nissan Motor Co Ltd Speech recognition response device for automobile
DE3273523D1 (en) 1982-05-19 1986-11-06 Nissan Motor Speech recognition system for an automotive vehicle
US5081707A (en) * 1989-08-08 1992-01-14 Motorola, Inc. Knowledge based radio
JPH0573088A (ja) * 1991-09-13 1993-03-26 Toshiba Corp 認識辞書の作成方法、認識辞書作成装置及び音声認識装置
JP3257832B2 (ja) * 1992-09-04 2002-02-18 富士通テン株式会社 音声認識装置用騒音低減回路
JPH1011085A (ja) * 1996-06-21 1998-01-16 Matsushita Electric Ind Co Ltd 音声認識方法
US5960397A (en) * 1997-05-27 1999-09-28 At&T Corp System and method of recognizing an acoustic environment to adapt a set of based recognition models to the current acoustic environment for subsequent speech recognition
US6076056A (en) * 1997-09-19 2000-06-13 Microsoft Corporation Speech recognition system for recognizing continuous and isolated speech
JP2000075889A (ja) * 1998-09-01 2000-03-14 Oki Electric Ind Co Ltd 音声認識システム及び音声認識方法
US6418411B1 (en) * 1999-03-12 2002-07-09 Texas Instruments Incorporated Method and system for adaptive speech recognition in a noisy environment
JP2000276188A (ja) * 1999-03-24 2000-10-06 Sony Corp 音声認識装置、音声認識方法、音声認識用制御プログラムを記録した記録媒体、通信端末装置、通信方法、音声認識通信の制御用プログラムを記録した記録媒体、サーバ装置、音声認識用データの送受信方法及び音声認識用データの送受信制御プログラムを記録した記録媒体
KR100336994B1 (ko) 1999-07-23 2002-05-17 이계철 다단계 음성인식을 이용한 음성인식 포탈서비스 시스템 및 그 방법
US6789061B1 (en) * 1999-08-25 2004-09-07 International Business Machines Corporation Method and system for generating squeezed acoustic models for specialized speech recognizer
US6856956B2 (en) * 2000-07-20 2005-02-15 Microsoft Corporation Method and apparatus for generating and displaying N-best alternatives in a speech recognition system
DE10041456A1 (de) * 2000-08-23 2002-03-07 Philips Corp Intellectual Pty Verfahren zum Steuern von Geräten mittels Sprachsignalen, insbesondere bei Kraftfahrzeugen
DE60111329T2 (de) * 2000-11-14 2006-03-16 International Business Machines Corp. Anpassung des phonetischen Kontextes zur Verbesserung der Spracherkennung
JP2002358093A (ja) * 2001-05-31 2002-12-13 Matsushita Electric Ind Co Ltd 音声認識方法及び音声認識装置及びその記憶媒体

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103903616A (zh) * 2012-12-25 2014-07-02 联想(北京)有限公司 一种信息处理的方法及电子设备
CN103903616B (zh) * 2012-12-25 2017-12-29 联想(北京)有限公司 一种信息处理的方法及电子设备
CN105355199A (zh) * 2015-10-20 2016-02-24 河海大学 一种基于gmm噪声估计的模型组合语音识别方法
CN105355199B (zh) * 2015-10-20 2019-03-12 河海大学 一种基于gmm噪声估计的模型组合语音识别方法
CN108986811A (zh) * 2018-08-31 2018-12-11 北京新能源汽车股份有限公司 一种语音识别的检测方法、装置和设备
CN108986811B (zh) * 2018-08-31 2021-05-28 北京新能源汽车股份有限公司 一种语音识别的检测方法、装置和设备
CN111144259A (zh) * 2019-12-18 2020-05-12 重庆特斯联智慧科技股份有限公司 一种基于hmm模型的社区污染物处理方法和系统
CN111144259B (zh) * 2019-12-18 2022-12-23 重庆特斯联智慧科技股份有限公司 一种基于hmm模型的社区污染物处理方法和系统
CN111128141A (zh) * 2019-12-31 2020-05-08 苏州思必驰信息科技有限公司 音频识别解码方法和装置
CN111128141B (zh) * 2019-12-31 2022-04-19 思必驰科技股份有限公司 音频识别解码方法和装置
CN111461901A (zh) * 2020-03-31 2020-07-28 德联易控科技(北京)有限公司 车辆保险理赔信息的输出方法和装置

Also Published As

Publication number Publication date
CA2507999A1 (en) 2004-07-08
TW200421264A (en) 2004-10-16
CN100552773C (zh) 2009-10-21
AU2003293646A1 (en) 2004-07-14
WO2004057574A1 (en) 2004-07-08
US7302393B2 (en) 2007-11-27
KR100800367B1 (ko) 2008-02-04
EP1576581A1 (en) 2005-09-21
TWI245259B (en) 2005-12-11
CA2507999C (en) 2013-09-03
KR20050090389A (ko) 2005-09-13
EP1576581B1 (en) 2013-11-20
US20060173684A1 (en) 2006-08-03
JP2006510933A (ja) 2006-03-30

Similar Documents

Publication Publication Date Title
CN1726532A (zh) 基于传感器的语音识别器选择、自适应和组合
US11158305B2 (en) Online verification of custom wake word
JP5072206B2 (ja) 音声分類および音声認識のための隠れ条件付確率場モデル
CN1331467A (zh) 产生声学模型的方法和装置
CN104903954A (zh) 使用基于人工神经网络的亚语音单位区分的说话人验证及识别
WO2008001485A1 (fr) système de génération de modèles de langue, procédé de génération de modèles de langue et programme de génération de modèles de langue
JP2010152751A (ja) 統計モデル学習装置、統計モデル学習方法、およびプログラム
Akbacak et al. Environmental sniffing: noise knowledge estimation for robust speech systems
Lugosch et al. DONUT: CTC-based query-by-example keyword spotting
CN110992943B (zh) 基于词混淆网络的语义理解方法及系统
CN1601605A (zh) 声道谐振跟踪方法和装置
CN1514432A (zh) 语音处理中基于高斯模型的动态时间弯曲系统和方法
JP4829871B2 (ja) 学習データ選択装置、学習データ選択方法、プログラムおよび記録媒体、音響モデル作成装置、音響モデル作成方法、プログラムおよび記録媒体
Gales et al. Support vector machines for noise robust ASR
CN1198261C (zh) 基于决策树的语音辨别方法
Martín-Morató et al. A case study on feature sensitivity for audio event classification using support vector machines
JP4705557B2 (ja) 音響モデル生成装置、方法、プログラム及びその記録媒体
CN112786003A (zh) 语音合成模型训练方法、装置、终端设备及存储介质
CN102237082B (zh) 语音识别系统的自适应方法
WO2012076895A1 (en) Pattern recognition
Nicolson et al. Sum-product networks for robust automatic speaker identification
CN1624765A (zh) 使用分段线性逼近的连续值声道共振跟踪方法和装置
CN110419078B (zh) 用于自动语音识别的系统和方法
CN1282069A (zh) 掌上计算机语音识别核心软件包
CN111540363B (zh) 关键词模型及解码网络构建方法、检测方法及相关设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20091021

CF01 Termination of patent right due to non-payment of annual fee