CN1132147C - 语音识别系统中的特征提取方法 - Google Patents

语音识别系统中的特征提取方法 Download PDF

Info

Publication number
CN1132147C
CN1132147C CN00102407A CN00102407A CN1132147C CN 1132147 C CN1132147 C CN 1132147C CN 00102407 A CN00102407 A CN 00102407A CN 00102407 A CN00102407 A CN 00102407A CN 1132147 C CN1132147 C CN 1132147C
Authority
CN
China
Prior art keywords
coefficient
eigenvector
cepstrum
speech recognition
definition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
CN00102407A
Other languages
English (en)
Other versions
CN1264889A (zh
Inventor
丹尼尔·查尔斯·鲍伯特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Motorola Mobility LLC
Google Technology Holdings LLC
Original Assignee
Motorola Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Motorola Inc filed Critical Motorola Inc
Publication of CN1264889A publication Critical patent/CN1264889A/zh
Application granted granted Critical
Publication of CN1132147C publication Critical patent/CN1132147C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B65CONVEYING; PACKING; STORING; HANDLING THIN OR FILAMENTARY MATERIAL
    • B65BMACHINES, APPARATUS OR DEVICES FOR, OR METHODS OF, PACKAGING ARTICLES OR MATERIALS; UNPACKING
    • B65B7/00Closing containers or receptacles after filling
    • B65B7/16Closing semi-rigid or rigid containers or receptacles not deformed by, or not taking-up shape of, contents, e.g. boxes or cartons
    • B65B7/162Closing semi-rigid or rigid containers or receptacles not deformed by, or not taking-up shape of, contents, e.g. boxes or cartons by feeding web material to securing means
    • B65B7/164Securing by heat-sealing
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B65CONVEYING; PACKING; STORING; HANDLING THIN OR FILAMENTARY MATERIAL
    • B65BMACHINES, APPARATUS OR DEVICES FOR, OR METHODS OF, PACKAGING ARTICLES OR MATERIALS; UNPACKING
    • B65B43/00Forming, feeding, opening or setting-up containers or receptacles in association with packaging
    • B65B43/42Feeding or positioning bags, boxes, or cartons in the distended, opened, or set-up state; Feeding preformed rigid containers, e.g. tins, capsules, glass tubes, glasses, to the packaging position; Locating containers or receptacles at the filling position; Supporting containers or receptacles during the filling operation
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B65CONVEYING; PACKING; STORING; HANDLING THIN OR FILAMENTARY MATERIAL
    • B65BMACHINES, APPARATUS OR DEVICES FOR, OR METHODS OF, PACKAGING ARTICLES OR MATERIALS; UNPACKING
    • B65B51/00Devices for, or methods of, sealing or securing package folds or closures; Devices for gathering or twisting wrappers, or necks of bags
    • B65B51/10Applying or generating heat or pressure or combinations thereof
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B65CONVEYING; PACKING; STORING; HANDLING THIN OR FILAMENTARY MATERIAL
    • B65BMACHINES, APPARATUS OR DEVICES FOR, OR METHODS OF, PACKAGING ARTICLES OR MATERIALS; UNPACKING
    • B65B57/00Automatic control, checking, warning, or safety devices
    • B65B57/18Automatic control, checking, warning, or safety devices causing operation of audible or visible alarm signals
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B65CONVEYING; PACKING; STORING; HANDLING THIN OR FILAMENTARY MATERIAL
    • B65BMACHINES, APPARATUS OR DEVICES FOR, OR METHODS OF, PACKAGING ARTICLES OR MATERIALS; UNPACKING
    • B65B59/00Arrangements to enable machines to handle articles of different sizes, to produce packages of different sizes, to vary the contents of packages, to handle different types of packaging material, or to give access for cleaning or maintenance purposes
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B65CONVEYING; PACKING; STORING; HANDLING THIN OR FILAMENTARY MATERIAL
    • B65BMACHINES, APPARATUS OR DEVICES FOR, OR METHODS OF, PACKAGING ARTICLES OR MATERIALS; UNPACKING
    • B65B61/00Auxiliary devices, not otherwise provided for, for operating on sheets, blanks, webs, binding material, containers or packages
    • B65B61/04Auxiliary devices, not otherwise provided for, for operating on sheets, blanks, webs, binding material, containers or packages for severing webs, or for separating joined packages
    • B65B61/06Auxiliary devices, not otherwise provided for, for operating on sheets, blanks, webs, binding material, containers or packages for severing webs, or for separating joined packages by cutting

Landscapes

  • Engineering & Computer Science (AREA)
  • Mechanical Engineering (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Telephonic Communication Services (AREA)

Abstract

用于语音识别系统的特征提取方法包括从数字化信号中产生表示性系数(204)。从表示性系数产生差分系数(304、305)。表示性系数和差分系数的一部分被提取出来构成特征矢量(307)。

Description

语音识别系统中的特征提取方法
技术领域
本发明是关于语音识别的,更具体地说,是关于语音识别系统中的特征提取。
背景技术
在一个依赖于说话者的语音识别系统中,使用者必须登录他们在使用系统时所希望得到的词汇词,一个词汇“词”可以是单个的被说出的词或一个短语,而所选择的词汇词依赖于具体的应用。例如,在便携式无线电话中语音识别的实现可能需要使用者提供经常被呼叫者的名字和地址(例如“Fred办公室”),或者用户界面中通常可得到的常用特性所用的命令(例如“蓄电池安时计”,“消息”或“电话锁定”)。
在登录(enrollment)过程中,语音识别系统响应使用者的输入,对每个词汇词提取出代表样板。在一些系统中,这种样板由一个含有一系列状态的隐式马尔科夫模型(HMM)表示。每个状态表示一个语言发音(speech utterance)的有限一段:这里使用“发音”表示一个“词汇词”,它可以包含一个或多个词。HMM的每个状态的统计表示是使用由使用者发音的具体词汇词的一个或多个登录语音样本计算出来的。这里通过帧的状态赋值(frame-to-state assignment)来完成的。
这种状态赋值用于训练和语音识别两种操作方式。具体地说,被赋值的状态用于在训练方式中建立模型,该模型在语音识别方式过程中作为比较基准。在语音识别操作方式中,对输入发音的赋值能用于产生得分(score)信息和把输入的发音与所存储参考模型进行比较。
对位算法(alignment algorithm),例如Viterbi算法,用于发音的帧到状态对位。这种对位算法提供了语言发音对模型的最好匹配,用于把词汇词发音的每一帧赋予该模型的单个状态。利用这一赋值能改善对每个状态的统计表示。
因为信息量大,所以大多数语音识别系统需要大量的易失性存储器(如随机存取存储器(RAM))和非易失性存储器(NVM)(如闪烁ROM或电可擦只读存储器(EEPROM))。对于成本敏感的应用,如便携式无线通信装置,这些存储器需求会是致命性地昂贵。此外,语音识别系统需要显著的计算要求,这种要求以每秒数百万条指令(MIPS)来计量。对于训练和语音识别,需要大量MIPS。这一大量MIPS需求,会由于使用有用的资源和降低操作速度而从负面影响使用语音识别的装置的性能。
为了在一便携式装置上实现依赖于说话者的训练和识别算法,例如在无线通信装置上,其中只有很小的随机存取存储器(RAM)能被利用,因此需要有一种方法,它能支持一个较小的存储器和使用较少的MIPS,而不会在所有环境中对识别产生显著的负面影响。
发明内容
本发明公开了一种用于语音识别系统的提取特征的方法,包含以下步骤:输入一数字化信号;从数字化信号产生各表示性系数;从表示性系数产生各差分系数;以及选择性地仅使用表示性系数和差分系数的一部分,以通过使用间隔的系数构成特征集来构成特征集。
附图说明
图1是以方框图形式说明一无线电话的电路图。
图2是以方框图形式说明一语音识别输入的电路图。
图3是特征提取电路的功能方框图。
图4是说明特征提取算法的流程图。
图5是说明使用不同的缩短矢量长度方法时语音识别系统的性能。
具体实施方式
一种新的特征提取技术产生较小的特征矢量以用于代表输入的声音,从而减小了为代表一个发音(utterance)所需要的存储器大小。该方法通过使用一个较小的特征矢量来代表每个发音,从而显著地减小了:易失性存储器(如RAM)需求;NVM(如EEPROM)需求;以及语音识别算法的MIPS需求。虽然这里给出的描述是使用隐式马尔科夫模型(HMM)的孤立词依赖于说话者的语音识别系统的一个举例,本发明能应用于广泛多样的语音识别系统,包括不依赖于说话者的,连接词的语音识别系统,还能应用于其他语音识别系统,如动态时间偏离(dynamie time warping)。
图1中公开的装置100中能有利地利用本发明。为了说明的目的,这里把装置100描述为一个便携式无线电话,但它可以是一个计算机、一个个人数字助理或任何其他能有利地利用语音识别的装置,特别是能利用高效存储语音识别系统优点的装置。图示的无线电话包括发射机102和接收机104,它们连于天线106。发射机102和接收机104连于一个呼叫处理器108,它完成呼叫处理功能。可以用数字信号处理器(DSP)、微处理器、微控制器、可编程逻辑单元、上述两种或多种的组合、或任何其他适当的数字电路,来实现呼叫处理器108。
呼叫处理器108与存储器110相连。存储器110包含RAM、电可擦可编程只读存储器(EEPROM)、只读存储器(ROM)、闪烁ROM、或类似存储器、或者这些存储器类型的两种或多种的组合。存储器110支持呼叫处理器108的操作,包括语音识别操作,而且应该包括一个电子可变存储器以支持状态转移路径存储器。可提供ROM用于存储该装置的操作程序。
音频电路112向呼叫处理器108提供来自送话器114的数字化信号。音频电路112驱动扬声器116响应来自呼叫处理器108的数字信号。
呼叫处理器108与一显示处理器120相连。显示处理器是可选的,如果希望对装置100有附加的处理器支持的话。具体地说,显示处理器120向显示器126提供显示控制信号和接收来自各键124的输入。显示处理器120能由微处理器、微控制器、数字信号处理器、可编程逻辑单元。它们的组合或类似装置来实现。存储器122与显示处理器相连以支持其中的数字逻辑。存储器122能用RAM、EEPROM、ROM、闪烁ROM、或其类似物、或两种或多种这些类型存储器的组合来实现。
参考图2,由送话器114接收的音频信号在音频电路112的模-数转换器202中被转换成数字信号。本领域技术人员将会理解,音频电路112提供额外的信号处理,如滤波,为了简练,这里将不予描述。呼叫处理器108在被处理的数字信号表示上完成特征提取204,这数字信号表示是送话器输出的模拟信号的代表,并产生一组代表使用者发音的特征矢量。对每个短时分析窗产生一个特征矢量。短时分析窗是一帧,在这里所举的实例中是20ms。这样,每帧有一个特征矢量。处理器108把这些特征用于语音识别206或训练207。
在训练过程中,发音的特征矢量被用于建立HMM形式的样板,它们存储在存储器208中。在语音识别过程中,代表输入发音的特征矢量与在存储器208中存储的词汇词样板作比较,以确定使用者说了什么。系统可以输出一个最好匹配、一组最好匹配、或可选地无匹配输出。存储器208最好是存储器110(图1)的非易失存储器部分,例如可以是EEPROM或闪烁ROM。如这里所用的那样,“词”可以是不只一个词,例如“John Doe”,或单个词,如“call(呼叫)”。
特征提取器204通常完成对输入语音帧的信号处理,并以帧速率输出代表每帧的特征矢量。帧速率通常为10到30ms之间,其持续时间可以是例如20ms。训练器207使用从词或短语的一个或多个发音(utterance)的取样语音(speech)中提取出的特征来产生那个词或短语的模型参数。然后这个模型被存储在模型存储非易失存储器208中。模型的大小直接依赖于特征矢量长度,所以较长的特征矢量长度需要较大的存储器。
然后,在存储器208中存储的模型被用于识别过程206。识别系统完成未知发音特征与所存储模型参数的比较,以确定最好匹配。然后最好的匹配模型从识别系统中输出,作为结果。
如框204所示,若干类型的特征已被有效地用作为特征提取的输出。某些早期的语音识别系统作用滤波器库能量(filter bank energy)。例如,对于每个数据帧,一个滤波器库的14个滤波器的每一个中的能量将以帧速率传送到训练或识别软件,这个速率是每20ms一帧。线性预测代码(LPC)参数也被有效地利用。许多现代系统使用Mel-频率倒谱系数(MFCC),它们是使用偏离的(warped)Mel-频率标度计算出的倒谱系数。通过附加使用δ-MFCC(delta-MFCC)能改善识别结果,δ-MFCC只不过是MFCC时间导数的估计值。
在语音识别系统中使用MFCC和δ-MFCC是众所周知的。如下文中要说明的那样,希望有这样的特征矢量,它给出的识别性能与MFCC和δ-MFCC组合特征矢量的识别性能等价,但同时比MFCC和δ-MFCC组合特征矢量要短得多。
已知几种类型的倒谱系数,其中任何一种都能被使用。例如,LPC倒谱系数,而且有多种方式计算这些系数。本领域技术人员将会理解,这些方式中的任何一种都能用于替代MFCC。
在图3中特征提取被扩展以说明特征提取的MFCC和δ-MFCC举例。采样语音(模数转换器202的输出)被输入到滤波器301,其中进行滤波,例如预加重(pre-emphasis),以在频谱上使语音信号变平并去掉语音频谱中不希望要的部分。然后,被滤波的信号进入可选的噪声压低器,它压低背景噪声,例如在一个不用手的汽车应用中的发动机噪声。被压低噪声的输出被输入到滤波器库303,它完成滤波器库能量估计。滤波器库输出对整个语音帧的M个频段的一个滤波器库k的能量估计Sn(k),这里n是20ms语音数据,在本描述中n以此为例。
滤波器库可基于Mel-频率标度,该标度是基于一种感性的频率标度。这一标度在低频是线性的(例如低于阈值1KHz),而在此阈值以上是对数的。然后,在帧n的滤波器库能量估计被放入倒谱系数计算器304。它对于帧n,由滤波器库能量计算代表性系数,这里表示为倒谱系数Cn(i), C n ( i ) = Σ K = 1 M log | S n ( k ) | cos ( Π ( k - 0.5 ) i / M ) 这里i是倒谱矢量的脚标,其范围是0到N,这里N+1是倒谱特征的希望长度,且N+1≤M。然后倒谱特征被输入到差分器305,在这里可以估计出导数δn(i),例如由下式得出: δ n ( i ) = Σ k = 1 D a k ( C n + k ( i ) - C n - k ( i ) )
这里 Σ K = 1 D a k = 1 .
本领域技术人员将会理解,存在许多其他途径计算倒谱型特征和估计它们的导数,但这些方法以举例方式提供。
本发明通过减小特征矢量长度来减小语音识别系统所需存储量,又不对可能得到的信息量造成有害影响。本发明者发现,特征矢量的大多数相邻元素是相关的,诸如发现Cn(i)与Cn(i+1)和Cn(i-1)相关,发现δn(i)与δn(i+1)和δn(i-1)相关。还有,发现在δ-倒谱特征中的元素与它们对应的倒谱特征元素相关,换句话说,发现Cn(i)与δn(i)相关。
利用这一信息,用6个倒谱特征Cmn(i)=Cn(2i-1),其中i=1到6,和7个δ-倒谱特征δmn(i)=δn(2i),其中,i=0到6,来构成一个新的特征矢量。提取器307去掉特征矢量的相关元素,并留下由系数发生器304和差分器305输出的系数的这些部分。如从公式中能看到的那样,特征矢量的相邻元素已被去掉,而且对每个i已去掉了Cn(i)和δn(i)二者当中的一个。由连接器(concatenator)306输出的结果特征矢量fn(i)是表示性系数和δ系数二者的子集,而且能例如是这样的输出矢量,它含有系数Cmn(i)后接系数δmn(i),在该例中它代表13个特征而不是25个,但包括来自系数发生器304的表示性系数和来自差分器305的δ系数二方面。
在操作过程中,特征提取器204能在处理器108(图1)中有利地实现,处理器108产生如框402中所示的倒谱系数。在提取器307中提取奇系数,如在框404中所示。δ-倒谱系数在差分器305中产生,如在框406中所示。在提取器307中提取偶的δ-倒谱系数,如框408中所示。含有所提取的倒谱和δ-倒谱系数的特征矢量作为特征集输出。本领域技术人员将会理解,可以代之以使用δ-倒谱奇系数和倒谱偶系数。
一些先有技术的倒谱和δ-倒谱特征被连结成单个特征矢量,在这刻丢弃原始的倒谱系数,因为它代表的是该帧中的对数能量;然而,δ-能量特征δn(i)被留在其中。在已知的系统中,最后的特征矢量fn(i)是构成为fn(i)=δn(i),n=0到N-1,和Cn(I-N+1),i=N到2N-1(没有Cn(o))。例如,一个N=12的倒谱变换,结果特征矢量会构成为13个δ-倒谱元素和12个倒谱元素,在特征矢量中总共为25个元素。在本领域技术人员将会理解,Cn(o)也能被留在其中。
根据先有技术,典型的训练算法需要先对2个或多个所收集的发音给出特征矢量,然后才能完成训练。对于这里举例的特征矢量,如果它有一个10ms的帧,在一个允许长达2秒发音的系统中,这将需要(25特征/帧*100帧/秒*2秒/发音*2发音)=10,000特征,它们必须存储在易失存储器,例如RAM中。因为特征矢量所需存储量直接与特征矢量的长度成比例,对于成本敏感的应用,如蜂窝电话,这一存储量会是致命昂贵的。本发明优化了特征矢量长度,从而减小了在训练过程中所需RAM量。
训练207为捕获的发音生成模型参数。对于大多数模型,包括连续密度(continuous-density)HMM,绝大多数模型参数被特征矢量手段所消耗。对于一个使用25元素特征矢量的12状态HMM,这需要(12状态*25特征/状态)=300特征要存储在非易失存储器(如闪烁存储器或EEPROM)。对于成本敏感的应用,这又是很昂贵的存储器。通过把特征矢量长度减小到13,本发明减小了为语音识别系统所需非易失存储器的存储量。
在测试中,新的特征矢量给出与全25个元素特征矢量几乎完全相同的识别结果。在一个数据库上,它的性能降低1%,而在另一个数据库上,它产生同样的总识别率。对于训练过程中产生的模型中的特征矢量手段,这个新的13元素特征矢量只需要原来特征矢量RAM需求的52%和原来NVM存储需求的52%。它还显著地减少了在识别算法中所需MIPS。
把特征矢量长度减小为13元素的其他已知方法是简单地切掉特征矢量(例如用N=6代替N=12),或根本不包括δ-倒谱特征。在平静操作方式时,这些方法都能产生类似的识别结果,如图5所示。然而,当在高噪声的不用手的汽车环境中使用语音识别时,使用上述方法产生的特征矢量显著地比其他被切掉的或只有倒谱的特征矢量工作得好。
把发音帧加到模型状态上所用技术的举例在题为“语音识别系统中的逆向追踪矩阵存储方法”的待决专利申请(该专利申请报告号为CS10103,以Jeffrey Arthur Meunier等人的名字在本申请的同一日期被受理)和题为“有选择地把一罚值赋予语音识别系统所伴随概率的方法”的待决专利申请(该专利申请报告号为CS10104,以DanielPoppert的名字在本申请的同一日期被受理)中作了公开,它们的说明在这里被纳入作为参考。
这样,可以看出,这里公开了一种新的特征矢量,其输出值用于语音识别和训练,它允许以小的特征矢量长度产生好的性能。较小的特征矢量显著地减小了为支持语音识别过程所需的MIPS数量和存储器大小。
尽管在上述描述和附图中已描述和图示了本发明,但应该理解,这一描述只是一种举例,本领域技术人员能做出大量的改变和修改而不离开本发明的精神和范围。尽管本发明在便携无线装置(如蜂窝无线电话)中找到了具体应用,但本发明能被应用于利用语音识别的任何装置,包括寻呼机、电子组织器(electronic organizer)、计算机、以及电话装备。本发明只应受权利要求书的限制。

Claims (8)

1.一种用于语音识别系统的提取特征的方法,包含以下步骤:
输入一数字化信号;
从数字化信号产生各表示性系数;
从表示性系数产生各差分系数;以及
选择性地仅使用表示性系数和差分系数的一部分,以通过使用间隔的系数构成特征集来构成特征集。
2.如权利要求1中定义的方法,其中产生表示性系数的步骤包括产生倒谱系数的步骤。
3.如权利要求2中定义的方法,其中产生差分系数的步骤包括产生δ倒谱系数的步骤。
4.如权利要求3中定义的方法,其中首先输出倒谱特征,然后输出δ倒谱特征。
5.如权利要求1中定义的方法,其中在特征矢量中使用隔一个的表示性系数。
6.如权利要求5中定义的方法,其中在特征矢量中使用隔一个的差分系数。
7.如权利要求2中定义的方法,其中的倒谱系数是mel频率倒谱系数。
8.如权利要求1中定义的方法,其中的语音识别被包括在一个无线通信装置中,该装置包含:
用于输入可听见的声音的送话器;
与送话器相连输出数字信号的模数转换器;
与模数转换器相连并产生表示性系数的系数发生器;
与系数发生器相连产生差分系数的差分器;以及
输出表示性系数和差分系数的一部分作为特征矢量用于语音识别的提取器。
CN00102407A 1999-02-23 2000-02-23 语音识别系统中的特征提取方法 Expired - Lifetime CN1132147C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/256,280 US6182036B1 (en) 1999-02-23 1999-02-23 Method of extracting features in a voice recognition system
US09/256,280 1999-02-23

Publications (2)

Publication Number Publication Date
CN1264889A CN1264889A (zh) 2000-08-30
CN1132147C true CN1132147C (zh) 2003-12-24

Family

ID=22971643

Family Applications (1)

Application Number Title Priority Date Filing Date
CN00102407A Expired - Lifetime CN1132147C (zh) 1999-02-23 2000-02-23 语音识别系统中的特征提取方法

Country Status (5)

Country Link
US (1) US6182036B1 (zh)
JP (1) JP4912518B2 (zh)
KR (1) KR100321464B1 (zh)
CN (1) CN1132147C (zh)
GB (1) GB2347775B (zh)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9076448B2 (en) * 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
US6408277B1 (en) 2000-06-21 2002-06-18 Banter Limited System and method for automatic task prioritization
US8290768B1 (en) 2000-06-21 2012-10-16 International Business Machines Corporation System and method for determining a set of attributes based on content of communications
US9699129B1 (en) 2000-06-21 2017-07-04 International Business Machines Corporation System and method for increasing email productivity
JP3877270B2 (ja) * 2000-07-12 2007-02-07 アルパイン株式会社 音声特徴量抽出装置
US20020065649A1 (en) * 2000-08-25 2002-05-30 Yoon Kim Mel-frequency linear prediction speech recognition apparatus and method
US7644057B2 (en) * 2001-01-03 2010-01-05 International Business Machines Corporation System and method for electronic communication management
US6633839B2 (en) * 2001-02-02 2003-10-14 Motorola, Inc. Method and apparatus for speech reconstruction in a distributed speech recognition system
US20020178004A1 (en) * 2001-05-23 2002-11-28 Chienchung Chang Method and apparatus for voice recognition
ES2190342B1 (es) * 2001-06-25 2004-11-16 Universitat Pompeu Fabra Metodo para identificacion de secuencias de audio.
US8495002B2 (en) * 2003-05-06 2013-07-23 International Business Machines Corporation Software tool for training and testing a knowledge base
US20050187913A1 (en) 2003-05-06 2005-08-25 Yoram Nelken Web-based customer service interface
US20060271368A1 (en) * 2005-05-25 2006-11-30 Yishay Carmiel Voice interface for consumer products
CN101165779B (zh) * 2006-10-20 2010-06-02 索尼株式会社 信息处理装置和方法、程序及记录介质
US20100057452A1 (en) * 2008-08-28 2010-03-04 Microsoft Corporation Speech interfaces
DK2328363T3 (en) * 2009-09-11 2016-08-22 Starkey Labs Inc SOUND CLASSIFICATION SYSTEM FOR HEARING DEVICES
US8670980B2 (en) * 2009-10-26 2014-03-11 Panasonic Corporation Tone determination device and method
US8719019B2 (en) * 2011-04-25 2014-05-06 Microsoft Corporation Speaker identification
US20160283864A1 (en) * 2015-03-27 2016-09-29 Qualcomm Incorporated Sequential image sampling and storage of fine-tuned features
DE102017109736A1 (de) 2017-05-05 2018-11-08 Storopack Hans Reichenecker Gmbh Vorrichtung und Verfahren zum Polstern mindestens eines Gegenstands in einem Behälter
CN108154883A (zh) * 2018-03-23 2018-06-12 南昌航空大学 一种具备语音控制功能的密集架管理系统
CN108694951B (zh) * 2018-05-22 2020-05-22 华南理工大学 一种基于多流分层融合变换特征和长短时记忆网络的说话人辨识方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA1232686A (en) 1985-01-30 1988-02-09 Northern Telecom Limited Speech recognition
JP2760096B2 (ja) * 1989-10-31 1998-05-28 日本電気株式会社 音声認識方式
US5097509A (en) * 1990-03-28 1992-03-17 Northern Telecom Limited Rejection method for speech recognition
JP2973805B2 (ja) * 1993-12-10 1999-11-08 日本電気株式会社 標準パターン作成装置
JP3537949B2 (ja) * 1996-03-06 2004-06-14 株式会社東芝 パターン認識装置及び同装置における辞書修正方法
JPH10149190A (ja) * 1996-11-19 1998-06-02 Matsushita Electric Ind Co Ltd 音声認識方法及び音声認識装置
US6029124A (en) * 1997-02-21 2000-02-22 Dragon Systems, Inc. Sequential, nonparametric speech recognition and speaker identification
GB9706174D0 (en) * 1997-03-25 1997-11-19 Secr Defence Recognition system

Also Published As

Publication number Publication date
KR20000071366A (ko) 2000-11-25
CN1264889A (zh) 2000-08-30
GB2347775B (en) 2001-08-08
KR100321464B1 (ko) 2002-03-18
GB2347775A (en) 2000-09-13
GB0003949D0 (en) 2000-04-12
JP4912518B2 (ja) 2012-04-11
JP2000250576A (ja) 2000-09-14
US6182036B1 (en) 2001-01-30

Similar Documents

Publication Publication Date Title
CN1132147C (zh) 语音识别系统中的特征提取方法
EP1301922B1 (en) System and method for voice recognition with a plurality of voice recognition engines
Hermansky et al. RASTA processing of speech
Shrawankar et al. Techniques for feature extraction in speech recognition system: A comparative study
CN1160698C (zh) 噪声信号中语音的端点定位
JP4202124B2 (ja) 話者独立音声認識システムのための音声テンプレートを構成するための方法及び装置
US6836758B2 (en) System and method for hybrid voice recognition
CN100527224C (zh) 有效存储语音识别模型的系统和方法
CN103377651B (zh) 语音自动合成装置及方法
CN1352787A (zh) 分布式语音识别系统
WO2002095729A1 (en) Method and apparatus for adapting voice recognition templates
US5943647A (en) Speech recognition based on HMMs
Kaur et al. Optimizing feature extraction techniques constituting phone based modelling on connected words for Punjabi automatic speech recognition
KR20040038419A (ko) 음성을 이용한 감정인식 시스템 및 감정인식 방법
KR20010093325A (ko) 스피치 인에이블 장치의 유저 인터페이스 보존성을테스트하기 위한 방법 및 장치
Li et al. An auditory system-based feature for robust speech recognition
Gemello et al. Multi-source neural networks for speech recognition: a review of recent results
Chakraborty et al. An automatic speaker recognition system
Marković et al. Recognition of normal and whispered speech based on RASTA filtering and DTW algorithm
CN108986794B (zh) 一种基于幂函数频率变换的说话人补偿方法
Marković et al. Recognition of Whispered Speech Based on PLP Features and DTW Algorithm
Marković et al. Whispered Speech Recognition Based on DTW algorithm and µFCC feature
Leibman et al. Perceptual time-varying modelling of speech signals for ASR and compression application
TAKAGI et al. s po I RECOGNITION VVITH RAPID ENVIRONMENT ADAPTATION BY SPECTRUM EQUALIZATION
O'Shaughnessy Improving analysis techniques for automatic speech recognition

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MOTOROLA MOBILITY, INC.

Free format text: FORMER OWNER: MOTOROLA INC.

Effective date: 20110126

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20110126

Address after: Illinois Instrunment

Patentee after: MOTOROLA MOBILITY, Inc.

Address before: Illinois Instrunment

Patentee before: Motorola, Inc.

C41 Transfer of patent application or patent right or utility model
C56 Change in the name or address of the patentee
CP01 Change in the name or title of a patent holder

Address after: Illinois State

Patentee after: MOTOROLA MOBILITY LLC

Address before: Illinois State

Patentee before: MOTOROLA MOBILITY, Inc.

CP02 Change in the address of a patent holder

Address after: Illinois State

Patentee after: MOTOROLA MOBILITY, Inc.

Address before: Illinois Instrunment

Patentee before: MOTOROLA MOBILITY, Inc.

TR01 Transfer of patent right

Effective date of registration: 20160612

Address after: California, USA

Patentee after: Google Technology Holdings LLC

Address before: Illinois State

Patentee before: MOTOROLA MOBILITY LLC

CX01 Expiry of patent term
CX01 Expiry of patent term

Granted publication date: 20031224