CN1125433C - 在交谈语言中识别密钥字的方法 - Google Patents

在交谈语言中识别密钥字的方法 Download PDF

Info

Publication number
CN1125433C
CN1125433C CN98809296A CN98809296A CN1125433C CN 1125433 C CN1125433 C CN 1125433C CN 98809296 A CN98809296 A CN 98809296A CN 98809296 A CN98809296 A CN 98809296A CN 1125433 C CN1125433 C CN 1125433C
Authority
CN
China
Prior art keywords
confidence
degree
key word
state
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN98809296A
Other languages
English (en)
Other versions
CN1270688A (zh
Inventor
J·容卡维特施
H·赫格
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Publication of CN1270688A publication Critical patent/CN1270688A/zh
Application granted granted Critical
Publication of CN1125433C publication Critical patent/CN1125433C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

在每个扫描时刻假设一个密钥字的开端,这样就以交谈语言识别了该密钥字。然后尝试在一组描述密钥字的HMM状态上映射该密钥字。在表象空间内借助于Viterbi算法确定最好的路径,一个局部置信度代替一个在Viterbi算法中使用的附属概率使用。如果对于最好的Viterbi路径来说由局部置信度结合成的一个完整置信度低于一个下面的界限,则识别密钥字,该路径作为假设密钥字的开端的扫描时刻得到证实。

Description

在交谈语言中识别密钥字的方法
本发明涉及在交谈语言中识别密钥字的方法。
在交谈语言中识别密钥字时,迄今为止始终必需模拟完整交谈的表现。专业人员基本上已知了二种方法:
从[1]中公开了一个识别密钥字的方法,该方法使用了具有大量词汇的语言识别器。对此试图完全识别所交谈的语言。紧接着根据可能存在的密钥字检查已识别的字。由于大量词汇并由于在模拟突发语言的表现时的问题和噪音,该方法也不能明确一个附加于语言信号部分的字,该方法是费劲的并且有错误的。
为了模拟不属于密钥字的词汇的表现部分(所谓的OOV部分,OOV=超出词汇),一个另外的方法使用了特殊的填充模型(也就是:填充符-无用结构)。如此的语言识别器在[2]中说明,并且包含密钥字以及一个填充结构或多个填充结构。该方法提供了一组填充字定义符和密钥字定义符。对此,拟定或者训练一个适合的填充结构是困难的,这更好地突出模拟的密钥字,也表明关于密钥字结构的高的鉴别。
此外从[3]或[4]中公开了隐式-Markov结构(HMMs),从[3]或[4]中公开了,借助于Viterbi算法确定的一个最好路径。
隐式-Markov结构(HMMs)服务于个别随机过程(也就是所谓的Markov过程)的描述。在语言识别的范围内隐式-Markov结构(HMMs)此外用于建立一个字典,在该字典中记录由各子单元构成的字结构。
通过
       λ=(A,B,π)                      (0-1)
正式描述隐式-Markov结构,其中该等式具有一个二次状态转移矩阵A,其包含状态转移概率Aij
        A={Aij},其中,i,j=1...N        (0-2)
并且具有一个发送矩阵B,其包括发送概率Bik
        B={Bik},其中i=1...N,k=1...M   (0-3)
一个N维矢量π用于初始化,对于时刻t=1,N个状态的出现概率确定:
        π={πi}=P(s(1)=si)             (0-4)
对此,概率一般以
         P(s(t)=qt)                          (0-5)
表明,Markov链
    s={s(1),S(2),S(3),...,s(t)...}        (0-6)
在时刻t处于状态qt。对此Markov链 s具有一个取值范围
    s(t)∈{s1,s2,...,sN}                (0-7)
其中,该取值范围包含一个有限数量的N个状态。这样的状态称为qt,在该状态中Markov过程处于时刻t。
在状态si中从一个确定的标记σk的出现得出发送概率Bik
    Bik=P(σk|qt=si)                     (0-8)其中,根据
    ∑={σ1,σ2,...,σM}                (0-9)数值M的字符组包∑含确定的标记σk(k=1...M)。
隐式-Markov结构的每个状态可能有预先确定数量的随机状态:本身、最近状态、再下一个状态、等等,这样就从隐式-Markov结构中得出状态空间。具有所有可能转变的状态空间称作 格子结构。在1阶的隐式-Markov结构中大于一个时间间距的后面的经历是不重要的。
Viterbi算法基于这种思想。即如果处于状态空间内的最佳路径上,则该路径一直是整体最佳路径的组成部分。由于1阶的隐式-Markov结构,仅仅考虑了一个状态的最好的原型(Vorgaenger),因为差的原型事先已经包含一个差的求值。这也意味着,对于每个时间间隔确定路径的所有可能的连续并选出最好的连续,这样就可以递推地、从第一时刻开始、逐个时间间隔地寻找最佳路径。
在二个在[1]和[2]中说明的方法中,各一个OOV部分的模拟是必须的。在第一种情况[1]中,表现的字必须明确地存在于识别器的词汇中,在第二种情况[2]中通过特殊的填充结构描述所有的字和OOV噪声。
本发明的任务在于,说明一个方法,该方法能够在交谈语言中识别密钥字,因此避免上述的缺点。
1.根据如下的技术特征解决了这个任务,即在交谈语言中识别密钥字的方法,
a)在该方法中,通过一组隐式-Markov模型的状态W描述密钥字,
b)在该方法中,以一个预先确定的速率扫描交谈语言,并且在每个扫描时刻t从交谈语言中产生对于一个属于扫描时刻t的语言信号的特征矢量Ot
c)在该方法中,借助于Viterbi算法在一组状态上映射特征矢量Ot的组O,其中在一个状态中根据发送程度计算局部置信度,
d)在该方法中Viterbi算法提供一个完整的置信度C,
e)在该方法中,如果得出
       C(W,O)<T
其中,各符号表示:
C()      置信度,
W        密钥字,描述为一组状态,
O        一组特征矢量Ot
T        一个预先确定的阈值,
则在交谈语言中识别密钥字,
在该方法中,否则不以交谈语言识别密钥字。
根据本发明描述了一个以交谈语言识别密钥字的方法,其中,通过一组状态W描述密钥字。以预先确定的速率扫描交谈语言,并且在每个扫描时刻t从交谈语言中产生一个属于扫描时刻t的语言信号的特征矢量Ot。借助于一个Viterbi算法在一组状态W上映射特征矢量Ot的一组O,其中,在一个状态中一个局部置信度代替发送程度,主要是发送概率的负对数。Viterbi算法提供了一个完整的置信度C(也就是:置信度C)。如果得出:
        C(W,O)<T                                (1)
其中,各符号表示:
C()           置信度,
W             密钥字,描述为一组状态,
O             一组特征矢量Ot
T             一个预先确定的阈值则以交谈语言识别密钥字。
否则,不以交谈语言识别密钥字。
本发明的优点在于,不必全部模拟表现,就可以在交谈语言内部识别密钥字。因此得出在执行时明显地降低了费用,并且因此也得出一个高效(较快的)的方法。通过(完整的)置信度C作为一个基本的译码原理使用,在译码过程内声音的模拟局限于密钥字。
改进在于,在每个扫描时刻t,通过隐式-Markov结构的状态空间在一组状态W的一个第一状态中开始一个新的路径。因此,在每个扫描时刻假设,在交谈语言中包含密钥字的开端。根据置信度在密钥字的通过隐式-Markov结构体现的状态上映射由后面的扫描时刻产生的特征矢量。在映射的结尾,也就是路径结尾,得出完整的置信度,根据该置信度逻辑判断作出,是否密钥字的假定开端是确实是如此的。如果是。则识别密钥字,否则不识别。
在本发明的改进的范围内,通过
C=-logP(w|o)                                    (2)确定完整的置信度C,并且通过 c = - log P ( O t | s j ) · P ( s j ) P ( O t ) - - - ( 3 ) , 确定附属的局部置信度c,其中各符号表示:
sj          一组状态的一个状态,
P(W|O)       在一组特征矢量Ot的条件下密钥字的一个概率,
P(Ot|sj)  发送概率,
P(sj)       状态sj的概率,
P(Ot)       特征矢量Ot的概率。
合适的完整置信度是通过这个性质表征的,即说明关于一个可靠度的情况,以该可靠性证明密钥字。在负的对数范围内完整置信度C的较小值表达一个高度的可靠性。
在一个附加改进的范围内,通过 C = - log P ( O | W ) P ( O | W ‾ ) - - - - - ( 4 ) 确定置信度C,并且通过 c = - log P ( O t | s j ) P ( O t | s j ‾ ) - - - ( 5 ) 确定附属的局部置信度,其中各符号表示:
P(O|W)         在不出现密钥字W的条件下特征矢量Ot组的概率,
sj            状态sj的反情况(也就是:非状态sj)。
所描述的置信度的优点此外在于,其是可以计算的,也就是前面的训练和/或评估是不必的。
从完整的置信度的定义中能够分别推导出局部置信度的定义。在与这个密钥字的表现同步的时刻,局部密钥字进行密钥字的置信度的计算。
通过关系式 P ( O t ) = Σ k P ( O t | s k ) · P ( s k ) - - - - ( 6 ) P ( O t | s j ‾ ) = Σ k ≠ j P ( O t | s k ) · P ( s k ) - - - ( 7 ) 能够计算局部置信度。
此外,可以通过合适的近似方法确定P(Ot)或者P(Ot|sj)。对于如此的近似方法的一个实例是在每个时刻t对n个最好的发送-logP(Ot|sj)取平均值。
通常借助于Viterbi算法实施译码过程: c t , s j = min k ( c t - 1 , s k + c t , s j + a kj ) , 其中,各符号表示:
Ct,sj      在状态sj中在时刻t的完整的累加置信度,
Ct-1,sk     在状态sk中在时刻t-1的完整的累加置信度,
Ct,sj      在状态sj中在时刻t的局部置信度,
akj        在状态sj状态sk的转移附加量(Strafe)。
因为对于一个密钥字的完整置信度的描述来说,除时间限度外不需要局部置信度,所以在对密钥字的寻找中放弃OOV部分的声音模拟。
通过使用Viterbi算法可能在每个时刻t、在密钥字的第一状态中开始一个新的路径,其中首先密钥字划分为隐式-Markov结构(HMMs)的各个状态,对于密钥字来说优化完整的置信度,并且同时确定最佳的开始时刻(Viterbi算法的后台跟踪)。
此外,对于预先确定的时期来说在阈值T之下寻找一个最小值是按照目的的。因此避免了,在这个预先确定的时期内多次识别密钥字。
如果得出密钥字,这些密钥字鉴于其通过各自的状态组体现的说明形式彼此是类似的,则使用一个机理是有利的,该程序在识别密钥字时排消除了在识别密钥字的时期内有时包含在交谈的语言信号内的另外的密钥字。
下面给出本发明的改进,发送程度是发送概率的一个负对数。
在每个扫描时刻t在状态W的组的第一状态中开始一个新的路径。
在每个扫描时刻t,Viterbi算法提供一个完整的置信度。
通过
         C=-logP(W|O)
确定置信度C,并且通过 c = - log P ( O t | s j ) · P ( s j ) P ( O t ) ,
确定附属的局部置信度,其中,P表示可能性,t表示时间,j表示数量编号,sj表示一组状态中的一个状态。
通过 C = - log P ( O | W ) P ( O | W ‾ ) , 确定置信度C,并且通过 c = - log P ( O t | s j ) P ( O t | s j ‾ ) , 确定附属的局部置信度,其中
P      表示可能性,
T      表示时间,
J      表示数量编号,
W      表示非密钥字。
sj    表示非状态sj
确定用于一个预先给出的持续时间的完整的置信度,并且从完整置信度的最小值中推断出密钥字的开始时刻。
该最小值低于一个预先确定的阈值。
用于识别多个密钥字,其中只要低于多个预先确定的阈值,就以较好的置信度识别密钥字。
对于这个时期,在该时期内要识别的密钥字包含在交谈语言中,不识别另外的密钥字。
根据下面的附图详细描述本发明的实施例。
图示
图1以交谈语言识别密钥字的方法的方框图,
图2阐明确定置信度的示意图,
图3图3的示意图,其描述了在一个预先确定的持续时期中假设置信度的曲线。
在图1中描述了以连续的语言识别密钥字的方法的方框图。
在步骤101中通过一组状态W描述密钥字。对此首先以各三个状态替换音位HMMs(参见[3])。在下一步骤102中扫描连续的语言,并且在每个时刻t从连续的语言信号中为一个属于扫描时刻t的语言信号建立一个特征矢量Ot。对此,特征矢量Ot1包含预先确定数量的特征,这些特征表明在扫描时刻t的语言信号的特征,也就是组成部分。
在步骤103中在一组状态W上映射一组特征矢量,这些特征对于不同的扫描时刻t是从语言信号中获得的。对此映射规则说明Viterbi算法(参见[3])。用一个局部的置信度代替在Viterbi算法中使用的发送概率-logP(Ot|sj)。在步骤104中Viterbi算法在每个时刻提供一个完整的置信度C,其对于一组状态W中所找到的状态来说累积包含各个局部置信度。如果得出
        C(W,O)<T                                 (1),则在步骤105中以连续语言识别密钥字,其中各符号表示:
C()       完整置信度,
W         密钥字,描述为一组状态,
O         一组特征矢量Ot
T         一个预先确定的阈值。
否则不以连续语言识别密钥字。
下面说明对于一个完整置信度的二个可能的实现和各一个从属的局部置信度。另外置信度是可以想象的。
第一置信度
从密钥字的一个后验概率的负对数中第一完整置信度定义为一个置信度:
      C1=-logP(W|O)                               (2)。
下面联系以下假定运用Bayes的准则: P ( O ) = Π t P ( O t ) - - - ( 8 ) , P ( W ) = Π t P ( s ψ ( t ) ) - - - ( 9 ) , P ( O | W ) = Π t [ P ( O t | s ψ ( t ) ) · a ψ ( t - 1 ) , ψ ( t ) ] - - - ( 10 ) .
一组特征矢量P(O)的概率对此表达为各个特征矢量P(Ot)的概率的乘数。通过一个HMMs的全部各个选择的状态的各个概率P(sφ(t))相乘的方法,以相同的方式计算整个字的P(W)的概率。其中函数φ(t)是在密钥字的状态上的特征矢量(也就是时间)的映射。有条件的概率P(O|W)与HMMs的通常的概率一致,其可以借助于发送概率P(Ot|sφ(t))和跃迁概率aφ(t-1),φ(t)进行计算。因此得出完整置信度C1 c 1 = Σ t - log ( P ( O t | s ψ ( t ) ) · P ( s ψ ( t ) ) P ( O t ) · a ψ ( t - 1 ) , ψ ( t ) ) - - - ( 11 ) .
如果考虑Viterbi算法的工作方式,则推荐局部置信度c1(Ot|sj)的定义,该置信度在Vterbi算法的寻找过程的内部使用: c 1 ( O t | s j ) = - log P ( O t | s j ) · P ( s j ) P ( O t ) - - - ( 12 ) .
考虑到HMMs的所有状态,就可以计算在等式(12)的分母中出现的特征矢量的概率的概率: P ( O t ) = Σ k P ( O t | s k ) · P ( s k ) - - - ( 13 )
(参见等式(6))。
在前面的训练中确定这些状态的后验概率P(sk)。因此局部置信度c1(Ot|sj)是完全可以计算的。
第二置信度
第二置信度的定义包括一次在状态W的表征密钥字的组的条件下特征矢量Ot的一组O的有条件的概率比例,和另一次在对此相反结构W的条件下的比例。对此得出: C 2 = - log P ( O | W ) P ( O | W ‾ ) - - - ( 4 ) .
对此W仅仅表明一种实际不存在的结构,可是可以计算其发送概率。与第一完整的置信度的定义不同,这个定义导致一个对称的完整置信度,如果满足
         P(O|W)=P(O|W)                            (14)则其在0时具有一个对称中心。类似于定义完整置信度的情况,通过代入等式(8)、(9)和(10)在考虑各个相反的结构a φ(t-1),φ(t)和s φ(t)的情况下得出如下等式: c 2 = Σ t - log P ( O t | s ψ ( t ) ) a ψ ( t - 1 ) , ψ ( t ) P ( O t | s ψ ( t ) ‾ ) · a ψ ( t - 1 ) , ψ ( t ) ‾ - - - ( 15 ) .
一个适合的、在由Viterbi算法实施的寻找中可以使用的局部置信度c 2(O t)被定义为: c 2 ( O t | s j ) = - log P ( O t | s j ) P ( O t | s j ‾ ) - - - ( 16 ) .
在这种情况下也可以计算局部置信度c2(Ot|sj),因为,除了对于P(Ot|sj)之外可以自身计算所有加权的发送概率: P ( O t | s j ‾ ) = Σ k ≠ j P ( O t | s k ) · P ( s k ) - - - ( 7 ) 这样就可以计算分母,(也参见等式(7))。
因此对置信度进行了二重定义,在低值的情况下(在这个置信度C2是一个负值的情况下),一个高的可靠性表明,已经正确识别密钥字。
作为这个可计算的置信度的优点说明,即不必训练附加的HMMs,也不必高明地处理另外相关的参数。在使用普通的音位HMMs的情况下可以计算置信度。
正如上面示出的,置信度的定义可以与一个基于隐式-Markov结构的Viterbi寻找结合。HMMs的全部的各个状态sj不确定概率P(Ot|sj)的负对数,而是确定一个局部置信度c1或c2代替该对数。
在图2中描述了一个示意图,其阐明一个置信度的确定。
在图2的上图中,在横坐标上描述了离散的时刻t1、t2...,并且在纵坐标上通过一组状态ZS表征的密钥字SW。在图2中示出了对时间轴t的一个连续的语言信号。
连续的语言信号可以包含多个的,也可以包含不同的密钥字,其中在一个时刻主要仅仅包含一个密钥字。
在离散时刻扫描连续的语言信号,并且以特征矢量Ot存储在各个扫描时刻存在的信息。根据本发明,以此为出发点,即密钥字开始于全部的这些扫描时刻。也就是在每个扫描时刻t1、t2或t3每次开始一个电位的密钥字,以Viterbi算法的曲线可以复合其路径。为了简化,以一个密钥字为出发点,其中多个密钥字每次都需要每个要识别的密钥字的方法。
如果该密钥字也在时刻t1开始,则根据从连续语言中获得的特征矢量Ot进行紧跟在时刻t1的特征矢量的映射。分别确定关于累加置信度的最好的路径PF。对于每个时刻t得出一个置信度C。置信度的值产生关于此的情况,即密钥字是否包含在连续的语言中,或不,并且在时刻t结束。
在图2中示范地画入了路径,其开始于时刻t1、t2和t3,并且在时刻t4、t5和t6导致完整的置信度CI、CII和CIII。属于CI和CII的完整置信度对应于在t1内的可能的密钥字开端,而完整置信度CIII最好通过在t2内开始的路径实现。
在此可以看出,在每个时刻t发现一个完整的置信度C,其中通过使用Viterbi算法确定一个附属的开始时刻。
如果连续的语言包含一些完全另外的东西作为密钥字,则置信度相应地变差,不能进行识别。根据Viterbi算法的工作方式,确定的完整置信度的不同路径的长度是不同的,因此预示,由四个状态的局部置信度形成完整置信度C1,而完整置信度CII和CIII包括五个状态的局部置信度。因此相应密钥字的持续时间为4Δt和5Δt。
图3阐明了这种关系。从图2中确定的完整置信度CI、CII和CIII示范地在图3中绘在纵坐标上。横坐标再表征时间t。
对于每个时刻t分别得出一个适当的完整置信度C。
首先确定完整置信度C的最小值MIN,并且因此以此为出发点,密钥字以该最小值MIN存在于连续的语言中。
就此而言这是重要的,因为在时刻ta已经低于完整置信度C的阈值,也就是识别密钥字。可是,正如在图3中示范描述的,鉴于可变的动态匹配(确定位置置信度的不同持续时间),在紧接着到来的时刻ta+i“较好地”识别密钥字,为了断定什么时候最佳地识别密钥字,在附属时刻tMIN确定MIN。从这个时刻tMIN开始,借助于后台跟踪(参见[3])确定在连续语言信号中的开始时刻。也确定在连续语言信号中交谈密钥字的开端。
在此可以看出,对于每个密钥字可以实施一个如此的最小值确定,对于一个密钥字的持续时间不能识别另外的密钥字。如果同时进行连续语言叠加的多个密钥字,则密钥字首先是正确的密钥字,与另外密钥字相比其置信度表现较高的可靠性。
在文献的范围内引用了如下出版物:
[1]M.Weintraub:“使用SRI译码的大词汇量语言识别系统的键盘点”,Proc.IEEE ICASSP,1993,第2册,463-466页。
[2]H.Boulard,B.D’hoore和J.-M.Boite:“在字点系统中的优化识别和拒绝性能”,Proc.IEEE ICASSP,1994,第1册,373-376页。
[3]L.R.Rabiner,B.H.Juang:“隐式markov模型的介绍”,IEEE ASSP杂志,1986,4-16页。
[4]A.Hauenstein:“用于自动语言识别的算法优化和处理器的设计”,在慕尼黑技术大学的关于集成电路的博士论文,19.07.1993,13-35页。

Claims (10)

1.在交谈语言中识别密钥字的方法,
a)在该方法中,通过一组隐式-Markov模型的状态W描述密钥字,
f)在该方法中,以一个预先确定的速率扫描交谈语言,并且在每个扫描时刻t从交谈语言中产生对于一个属于扫描时刻t的语言信号的特征矢量Ot
g)在该方法中,借助于Viterbi算法在一组状态上映射特征矢量Ot的组O,其中在一个状态中根据发送程度计算局部置信度,
h)在该方法中Viterbi算法提供一个完整的置信度C,
i)在该方法中,如果得出
          C(W,O)<T
其中,各符号表示:
C()    置信度,
W      密钥字,描述为一组状态,
O      一组特征矢量Ot
T      一个预先确定的阈值,
则在交谈语言中识别密钥字,
j)在该方法中,否则不以交谈语言识别密钥字。
2.按照权利要求1的方法,其中,发送程度是发送概率的一个负对数。
3.按照权利要求1或2的方法,其中,在每个扫描时刻t在状态W的组的第一状态中开始一个新的路径。
4.按照权利要求1或2的方法,其中,在每个扫描时刻t,Viterbi算法提供一个完整的置信度。
5.按照权利要求1或2的方法,其中,通过
       C=-logP(W|O)
确定置信度C,并且通过 c = - log P ( O t | s j ) · P ( s j ) P ( O t ) ,
确定附属的局部置信度,其中,P表示可能性,t表示时间,j表示数量编号,sj表示一组状态中的一个状态。
6.按照权利要求1或2的方法,其中,通过 C = - log P ( O | W ) P ( O | W ‾ ) , 确定置信度C,并且通过 c = - log P ( O t | s j ) P ( O t | s j ‾ ) ,
确定附属的局部置信度,其中
P      表示可能性,
T      表示时间,
J      表示数量编号,
W      表示非密钥字。
sj    表示非状态sj
7.按照权利要求1或2的方法,其中,确定用于一个预先给出的持续时间的完整的置信度,并且从完整置信度的最小值中推断出密钥字的开始时刻。
8.按照权利要求7的方法,其中,该最小值低于一个预先确定的阈值。
9.按照权利要求1的方法,用于识别多个密钥字,其中只要低于多个预先确定的阈值,就以较好的置信度识别密钥字。
10.按照权利要求9的方法,其中,对于这个时期,在该时期内要识别的密钥字包含在交谈语言中,不识别另外的密钥字。
CN98809296A 1997-09-18 1998-09-07 在交谈语言中识别密钥字的方法 Expired - Fee Related CN1125433C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE19741211.4 1997-09-18
DE19741211 1997-09-18

Publications (2)

Publication Number Publication Date
CN1270688A CN1270688A (zh) 2000-10-18
CN1125433C true CN1125433C (zh) 2003-10-22

Family

ID=7842841

Family Applications (1)

Application Number Title Priority Date Filing Date
CN98809296A Expired - Fee Related CN1125433C (zh) 1997-09-18 1998-09-07 在交谈语言中识别密钥字的方法

Country Status (7)

Country Link
US (1) US6505156B1 (zh)
EP (1) EP1012828B1 (zh)
JP (1) JP2001516904A (zh)
CN (1) CN1125433C (zh)
DE (1) DE59801227D1 (zh)
ES (1) ES2161550T3 (zh)
WO (1) WO1999014741A1 (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU1767200A (en) * 1999-12-23 2001-07-09 Intel Architecture Development Shanghai Co., Ltd. A global approach for segmenting characters into words
EP1215654B1 (en) * 2000-12-13 2006-05-24 Sony Deutschland GmbH Method for recognizing speech
US6985859B2 (en) * 2001-03-28 2006-01-10 Matsushita Electric Industrial Co., Ltd. Robust word-spotting system using an intelligibility criterion for reliable keyword detection under adverse and unknown noisy environments
US7356466B2 (en) * 2002-06-28 2008-04-08 Samsung Electronics Co., Ltd. Method and apparatus for performing observation probability calculations
US20040006470A1 (en) * 2002-07-03 2004-01-08 Pioneer Corporation Word-spotting apparatus, word-spotting method, and word-spotting program
US7978853B2 (en) * 2008-01-31 2011-07-12 International Business Machines Corporation System and computer program product for protecting audio content
US7974411B2 (en) * 2008-01-31 2011-07-05 International Business Machines Corporation Method for protecting audio content
US9293130B2 (en) * 2008-05-02 2016-03-22 Nuance Communications, Inc. Method and system for robust pattern matching in continuous speech for spotting a keyword of interest using orthogonal matching pursuit
CN105261356A (zh) * 2015-10-30 2016-01-20 桂林信通科技有限公司 一种语音识别系统及方法
US10311874B2 (en) 2017-09-01 2019-06-04 4Q Catalyst, LLC Methods and systems for voice-based programming of a voice-controlled device
CN108010515B (zh) * 2017-11-21 2020-06-30 清华大学 一种语音端点检测和唤醒方法及装置
CN108959262B (zh) * 2018-07-09 2022-07-26 鼎富智能科技有限公司 一种命名实体识别方法及装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5440662A (en) * 1992-12-11 1995-08-08 At&T Corp. Keyword/non-keyword classification in isolated word speech recognition
US5832430A (en) * 1994-12-29 1998-11-03 Lucent Technologies, Inc. Devices and methods for speech recognition of vocabulary words with simultaneous detection and verification
US5842163A (en) * 1995-06-21 1998-11-24 Sri International Method and apparatus for computing likelihood and hypothesizing keyword appearance in speech
US5797123A (en) * 1996-10-01 1998-08-18 Lucent Technologies Inc. Method of key-phase detection and verification for flexible speech understanding
US6125345A (en) * 1997-09-19 2000-09-26 At&T Corporation Method and apparatus for discriminative utterance verification using multiple confidence measures
US6571210B2 (en) * 1998-11-13 2003-05-27 Microsoft Corporation Confidence measure system using a near-miss pattern

Also Published As

Publication number Publication date
DE59801227D1 (de) 2001-09-20
CN1270688A (zh) 2000-10-18
EP1012828A1 (de) 2000-06-28
ES2161550T3 (es) 2001-12-01
WO1999014741A1 (de) 1999-03-25
JP2001516904A (ja) 2001-10-02
US6505156B1 (en) 2003-01-07
EP1012828B1 (de) 2001-08-16

Similar Documents

Publication Publication Date Title
CN1125433C (zh) 在交谈语言中识别密钥字的方法
CN1296886C (zh) 语音识别系统和方法
CN1145872C (zh) 手写汉字自动分割和识别方法以及使用该方法的系统
CN1150515C (zh) 语音识别方法和装置
CN1236423C (zh) 说话人声音的后台学习
CN1573926A (zh) 用于文本和语音分类的区别性语言模型训练
CN1157712C (zh) 语音识别方法和装置
CN1781102A (zh) 低速存储器判定树
CN1123863C (zh) 基于语音识别的信息校核方法
CN1253821C (zh) 基于语言模型的信息检索方法
CN1202512C (zh) 用于识别连续和分立语音的语音识别系统
CN1256714C (zh) 语音识别方法及语境模型分级结构生成方法
CN1199148C (zh) 语音识别装置、语音识别方法
CN1249667C (zh) 声控服务
CN1591415A (zh) 机器翻译装置以及机器翻译计算机程序
CN108922521B (zh) 一种语音关键词检索方法、装置、设备及存储介质
CN1253353A (zh) 使用本征话音技术使说话者规范化并使其与环境相适应
CN1551101A (zh) 压缩声音模型的自适应
CN1534597A (zh) 利用具有转换状态空间模型的变化推理的语音识别方法
CN1667699A (zh) 为字母-声音转换生成有互信息标准的大文法音素单元
CN1619643A (zh) 语音识别评价装置和语音识别评价方法
CN1601912A (zh) 用于提供数字音频信号的高质量扩展和压缩的系统和方法
CN1703734A (zh) 从声音确定音符的方法和装置
CN1591570A (zh) 用于紧凑声学建模的泡分裂法
CN1758263A (zh) 基于得分差加权融合的多模态身份识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C19 Lapse of patent right due to non-payment of the annual fee
CF01 Termination of patent right due to non-payment of annual fee