CN101548285A - 自动语音识别方法和设备 - Google Patents

自动语音识别方法和设备 Download PDF

Info

Publication number
CN101548285A
CN101548285A CNA2008800009507A CN200880000950A CN101548285A CN 101548285 A CN101548285 A CN 101548285A CN A2008800009507 A CNA2008800009507 A CN A2008800009507A CN 200880000950 A CN200880000950 A CN 200880000950A CN 101548285 A CN101548285 A CN 101548285A
Authority
CN
China
Prior art keywords
speech
language model
probability
see
order
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2008800009507A
Other languages
English (en)
Inventor
陈浪舟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Publication of CN101548285A publication Critical patent/CN101548285A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/285Memory allocation or algorithm optimisation to reduce hardware requirements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Machine Translation (AREA)
  • Character Discrimination (AREA)

Abstract

一种用于计算在语言模型前看树中的节点处的前看概率的系统,其中语言的词汇表的词位于所述树的叶处,所述设备包括:装置,用于使用第一低阶语言模型向所述词汇表的所述词中的每一个词分配语言模型概率;装置,用于使用第一语言模型计算所述树中的所有节点的语言前看概率;装置,用于确定是否可以使用较高阶语言模型计算所述词汇表的一个或多个词的语言模型概率并使用所述较高阶语言模型更新所述词;以及装置,用于仅仅更新受到其中语言模型已被更新的词的影响的节点处的前看概率。

Description

自动语音识别方法和设备
技术领域
本发明涉及自动语音识别(ASR)领域。更具体而言,本发明涉及用于计算语言模型前看(look ahead)概率的方法和设备。
背景技术
在ASR中使用独立于声学观测的语言模型LM来限制应该如何将语言中的词连接起来以形成句子。通常使用的语言模型基于其中考虑了n-1个历史词的n元(n-gram)。当语言模型由于将被应用而需要完成的词时,引入语言模型前看LMLA概率,其允许在一个词完成之前应用语言模型。
语言模型前看(LMLA)可以加速n元解码过程。LMLA的主要思想为当不知道当前词id时使用LMLA概率作为语言得分(linguistic score)。该技术导致解码过程的更有效率的修剪。然而,在常规方法中产生LMLA概率的计算成本很高。当采用高阶LMLA例如三元LMLA时,在搜索空间中出现的不同三元语境(context)的数目与二元语境的数目相比急剧增加。结果,三元LMLA的计算成本远远高于二元LMLA,这甚至不能通过使用该技术减少搜索空间来补偿。为了克服该问题,提出了一些好的方法,包括基于节点的LMLA概率高速缓存(cache)、预计算LM概率以及完美散列(perfect hashing)。这些方法中的大多数集中于怎样有效地高速缓存和查询LMLA概率。然而,产生LMLA概率本身就是耗时的过程。
发明内容
本发明解决了该问题,并在第一方面提供了一种用于计算在语言模型前看树中的节点处的前看概率的系统,其中语言的词汇表的词位于所述树的叶处,
所述设备包括:
装置,用于使用第一低阶语言模型向所述词汇表的所述词中的每一个词分配语言模型概率;
装置,用于使用第一语言模型计算所述树中的所有节点的语言前看概率;
装置,用于确定是否可以使用较高阶语言模型计算所述词汇表的一个或多个词的所述语言模型概率并使用所述较高阶语言模型更新所述词;以及
装置,用于仅仅更新受到其中语言模型已被更新的词的影响的节点处的前看概率。
本发明从较低阶LMLA树产生较高阶LMLA概率。所述方法基于稀少的n元LM。在基于回退(backoff)的LM中,给定词语境信息,仅仅显式(explicitly)估计n元概率的一小部分,而通过回退估计来计算剩下的n元概率。基于该事实,从(n-1)元LMLA树开始计算n元LMLA树。如果n元LMLA树中的节点与显式估计的n元值不相关,那么可以从(n-1)元LMLA树直接得到该节点的LMLA概率。
使用该方法,产生二元LMLA树的过程加速到3倍,产生三元LMLA树的过程加速到12倍。
常规方法将计算LM概率和LMLA概率作为两个独立的过程处理。然而,LMLA概率的计算和LM概率的计算有很强的关联。利用该关系,可以极大地加速LMLA概率的计算。
本发明减少了在以统计语言模型和语言模型前看运行的解码器中计算语言模型(LM)前看概率的数目。此外,本发明减少了LM前看的存储器成本。
当考虑n元语言模型时,需要比较与词和出现的之前词相关的统计信息。然而,并不总能得到该数据。为了解决该问题,得出了回退参数的概念,其允许当不能得到特定的词的二元数据时,从例如用于该词的一元模型来估计二元概率。所述系统将优选使用回退参数用于较低阶语言模型。所述系统被配置为存储或计算该回退参数。
为了确定是否可以使用较高阶语言模型计算所述词汇表的一个或多个词的所述语言模型概率,所述系统优选被配置为确定一个词是否与预先识别的词相结合出现。
所述较高阶模型优选为二元、三元、四元或更高阶n元模型。
在优选的实施例中,所述系统还包括具有多高速缓存结构的存储器,其中所述存储器的高速缓存的数目等于在所述系统中使用的所述n元模型的阶。
在第二方面,本发明提供了一种自动语音识别系统,包括:
装置,用于接收语音;
装置,用于从所述语音提取声学信号并确定在所述语音中包含的词的第一概率;
装置,用于提供语言模型以确定在所述语音中包含的词的第二概率,其包括用于计算在上述语言模型前看树中的节点处的前看概率的系统;以及
装置,用于组合所述第一和第二概率并输出从所述接收的语音中识别的词。
用于接收语音的装置可以是麦克风、语音记录等。
在第三方面,本发明提供了一种用于计算在语言模型前看树中的节点处的语言模型前看概率的方法,其中语言的词汇表的词位于所述树的叶处,
所述方法包括:
使用第一低阶语言模型向所述词汇表的所述词中的每一个词分配语言模型概率;
使用第一语言模型计算所述树中的所有节点的语言前看概率;
确定是否可以使用较高阶语言模型计算所述词汇表的一个或多个词的所述语言模型概率并使用所述较高阶语言模型概率更新所述词;以及
仅仅更新受到其中语言模型已被更新的词的影响的节点处的前看概率。
优选地,确定较低阶语言模型概率使用回退参数。
所述方法为动态方法,并且需要连续解码新的声学信号以形成词。如果需要新LMLA树,其可以这样构建:
重新设定语言模型前看概率至较低阶语言模型;
确定是否可以使用较高阶语言模型计算词汇表的一个或多个词的语言模型概率并使用所述较高阶语言模型概率更新所述词;以及
仅仅更新受到其中语言模型已被更新的词的影响的节点处的前看概率。
不必为接收的每一个声矢量更新LMLA树。例如,确定了新的矢量不会导致新LM语境,或可以在高速缓存中找到该语境的LMLA树,便不需要更新LMLA。
在第四方面,本发明提供了一种自动语音识别方法,包括:
接收语音;
从所述语音提取声学信号并基于所述声学信号确定在所述语音中包含的词的概率;
提供语言模型,该模型包括计算在上述语言模型前看树中的节点处的前看概率;以及
输出从所述接收的语音中识别的词。
虽然说明书将集中于语音识别,但本领域的技术人员可以理解本发明还可以应用于语音到语音翻译、OCR、手写识别、或其他使用统计语言模型信息的动态编程搜索。所述系统甚至可以应用于DNA基因组排序。
本发明可以通过硬件或通用计算机中的软件来实施。此外,本发明还可以由硬件和软件的组合来实施。本发明还可以通过单处理设备或处理设备的分布网络来实施。
因为本发明可以通过软件实施,所以本发明涵盖在任何适当的载体介质上为通用计算机提供的计算机代码。所述载体介质包括任何存储介质,例如,软盘、CDROM、磁装置或可编程的存储器器件、或任何瞬态介质,例如,任何信号,例如电、光或微波信号。
附图说明
图1为ASR的搜索空间的示意图;
图2为发音网络的示意图;
图3为示出了基于词汇网络和二元LM的搜索空间的示意图;
图4为LM前看概率树的示意图;
图5示出了根据现有技术的方法计算语言模型前看概率的步骤;
图6示出了根据本发明的实施例计算语言模型前看概率的步骤;
图7示出了基于多高速缓存结构的三元LMLA;以及
图8是使用LMLA的常规信号处理系统的示意图。
具体实施方式
现在将参考下列非限制性的优选实施例更详细地描述本发明。
在自动语音识别(ASR)期间,首先将有待识别的语音数字化,然后计算表示语音的谱域内容的特征。为了将这些特征匹配到识别系统的词汇表内的词,使用两种类型的概率分布。一种为声学语音学或声学模型,表示将从上述特征得出的声矢量匹配到已说出的词的概率,另一种为语言模型。语言模型完全独立于声学观测并被用于限制如何连接词汇表的词以形成完整的句子。
本发明涉及语言模型。然而,为了描述本发明,首先给出通常的ASR的描述。
如这里所使用的,数语“词”表示统计语言模型的基础单元。与“词”相关的,词序列、子词序列和词汇的概念如下:
a.词序列
i.解码的通常问题为找到在输入信号中包含的“词”的序列。“词”为语言模型(LM)中的统计单位的序列。
ii.可以通过称为n元模型的统计LM建模词的序列,该n元模型使用最近的n-1个历史词来计算当前词的概率。假设存在词的序列w1w2…wK,基于n元模型,w1w2…wK的概率可以被计算为:
P ( w 1 w 2 · · · w K ) = Π i = 1 K P ( w i | w 1 · · · w i - 1 ) ≈ Π i = 1 K P ( w i | w i - n + 1 · · · w i - 1 ) - - - ( 1 )
在公式1中,如果i-n+1<1,词历史从w1开始。
b.子词序列
对于本专利中考虑的解码任务,每一个词可以被表示为1个或多个子词单元的序列,子词为,例如,语音中的音素、OCR等中的字母,例如“sat/sAt/,sang/sAng/”。
c.词汇
词汇为搜索空间中的词组(word set)的一般表示,并通常由词汇网络表示,词汇网络中的每一条路径表示一个词的子词序列。广泛使用的词汇前缀树为词汇网络的特殊情况。
解码的主要任务为从极大的搜索空间选择具有最大似然的词序列。对于基于隐马尔科夫模型(HMM)的大词汇表连续语音识别(LVCSR),解码问题为,在给出了声学特征序列时,组合词汇、声学模型和语言模型信息并以给定的时间从其中每一节点关联于一个HMM状态的格状搜索空间寻找最佳路径(具有最大后验似然),即,最佳HMM状态序列。图1示出了ASR的搜索空间(Ney及Ortmanns 2000)的实例。
图2示出了发音网络。出于效率原因,通常将ASR的发音词汇组织为其中每一个圆弧表示一个音位模型的发音网络。音位模型可以依赖或独立于语境。广泛使用的发音前缀树为发音网络的特殊情况。
图3示出了H.Ney和S.Ortmanns在2000年8月的Proceedings of theIEEE,pp 1224-pp1240中的“Progress in Dynamic Programming Searchfor LVCSR”中所采用的ASR的搜索空间的示意图。在图3中,词汇网络包含3个词A、B、C和静音(silence)。在每个帧t中,以相同词结束的所有假设被重新组合并按照对应的词历史被传播到新的词汇网络中。
给定声学特征序列,解码原理可以被表达为
w ^ 1 K = arg max w 1 K { P ( w 1 K ) &CenterDot; max s 1 T P ( x 1 T , s 1 T , lw 1 K ) } - - - ( 2 )
其中
Figure A200880000950D00122
为搜索空间中的词序列,
Figure A200880000950D00123
为从帧1到帧T的声学特征序列,以及
Figure A200880000950D00124
为从帧1到帧T的HMM状态序列。在使用SLM信息的时间同步维特比(viterbi)解码中,对于每一个帧t,动态编程过程可以分为两部分,在词内的过程和在词的边界处的过程。如果采用二元解码,在词内的过程可以表示为如下
Q V ( t , s ) = max s &prime; { p ( x t , s | s &prime; ) &CenterDot; Q V ( t - 1 , s &prime; ) } - - - ( 3 )
B V ( t , s ) = B V ( t - 1 , s V max ( t , s ) )
其中,Qv(t,s)为前趋(predecessor)v的结束于时间t且处于词汇网络的状态s的最佳局部路径的得分,系统使用Qv(t,s)来传播假设。Bv(t,s)为前趋v的结束于时间t且处于词汇网络的状态s的最佳局部路径中的最后的历史词的结束时间。系统使用Bv(t,s)存储追溯信息。
Figure A200880000950D00127
为假设(t,s)和前驱v的最优前趋状态。
在词的边界处,LM得分必须被加到局部路径的总得分,然后,应该重新组合在时间t以词w结束的所用假设,即,
H ( w ; t ) = max v { P ( w | v ) &CenterDot; Q v ( t , S w ) } - - - ( 4 )
其中Sw为词汇网络中的词w的终点状态。在增加了LM得分之后,使用新的得分以执行下一步骤的动态编程过程,即,
Qv(t-1,s=0)=H(v;t-1)
                              (5)
Bv(t-1,s=0)=t-1
通过修剪除去得分小的假设。修剪方法包括声束修剪、语言模型束修剪和直方图修剪等。对于每一帧t,声束修剪选择最佳状态假设,并且仅仅保留其得分接近最佳得分的假设,即,
Q AC ( t ) = max ( v , s ) { Q v ( t , s ) } - - - ( 6 )
如果Qv(t,s)<fAC·QAC(t)             (7)
那么状态假设(t,s,v)将被修剪掉,其中fAC为修剪阈值。
语言模型修剪仅仅被应用于到达当前帧t的词边界的假设。这可以被描述为:
Q LM ( t ) = max ( v , s ) { Q v ( t , s = 0 ) } - - - ( 8 )
如果Qv(t,s=0)<fLM·QLM(t)         (9)
词边界处的假设(t,s=0,v)将被修剪掉。
如之前所述,本发明涉及语言模型,并且具体而言涉及LM前看技术。
上述解码算法基于词汇发音网络,其中直到到达其他词不能分享的第一圆弧系统才可以获得词ID。因此,词ID通常邻近词汇发音网络的尾部。因为语言模型限制了如何连接词,所以当检测词ID时仅仅可以非常晚地将其并入到解码过程中。
然而,为了尽可能早地引入LM得分,S.Ortmanns、H.Ney和A.Eiden在1996年10月的“Language-Model Look-ahead for Large VocabularySpeech Recognition”,Proc.Int.Conf.Spoken Language Processing,Philadelphia,PA,pp 2095-pp 2098,中提出了LM前看技术。
给定LM语境,对于LM前看网络中的每一个节点,将LM前看概率限定为从该特定的节点可以达到的所有词的最大LM概率,即,
&pi; ( n | h ) = max w &Element; W ( n ) P ( w | h ) - - - ( 10 )
其中,W(n)表示从节点n可以到达的词的组。
LM前看的基本思想为将LM前看概率并入到动态编程过程中以获得更有效的修剪。没有LM前看技术,在词内的假设的得分不包含当前词的LM得分,因为当前词ID是未知的。当使用LM前看技术时,将LM前看概率并入到假设的原始得分中,并基于这些新的得分进行修剪。
图4是LM前看概率树的图。LM前看网络为例如在图2中示出的类型的发音网络的副本。在图4的LM前看树中,给定特定的LM语境,每一个节点包含其LM前看概率。可以通过去除仅具有一个后继节点的所有节点来压缩LM前看网络。
计算LM前看概率的常规方法采用动态编程过程。因为LM前看网络中的每一个叶节点对应于单独的词,所以首先,LM前看网络中的叶节点的LM前看概率被分配为不同的词的真实LM概率。然后,对于每一个特定的节点,通过其后继节点的最大LM前看概率来确定LM前看概率。可以从底部到顶部递归计算整个LM前看网络的LM前看概率,即,
&pi; ( n | h ) = max n &prime; &Element; s ( n ) &pi; ( n &prime; | h ) - - - ( 11 )
其中,s(n)为节点n的后继节点的组。
典型地,LM前看概率必须在解码过程期间即时产生。因此,计算LM前看概率的效率会极大影响解码速度。虽然动态编程过程提供了计算LM前看概率的有效方法,但是其会导致过量的计算次数。
图5示出了LM前看概率的计算。计算可以分为两部分,即,图5a示出的第一部分和图5b示出的第二部分。第一部分基于LM语境例如词的n元模型概率计算词汇表中的每一个词的LM概率。第二部分通过为每一个节点求和从特定节点可以达到的所有词的LM概率来为LM前看网络中的每一个节点分配LM前看概率。
通过动态编程过程分配LM前看概率。假定词汇表包含V个词,LM前看网络包含M个节点。这意味着对于发生在搜索空间中的每一个LM历史,LVCSR系统必须在步骤1中查询V个概率,在步骤2中产生M个前看概率。在LVCSR系统中,V和M的值非常大。典型地在识别一个句子的期间,在搜索空间中存在几百个二元语境和几千个三元语境。对于更高阶的n元,例如,4元,搜索空间中的LM语境的数目甚至更大。对于每一个LM语境,必须进行上述的LM概率计算。因此,使用常规方法计算LM前看概率时,CPU成本很高。
同时,如果高速缓存出现在搜索空间中的LM前看概率,假定LM前看网络包含M个节点,并且在搜索空间中出现N个不同的LM语境,那么,需要存储M×N个LM概率。在LVCSR系统中,当使用高阶n元解码时,M和N都很大,因此进行LM前看的存储器成本同样很高。
图6示意性地示出了根据本发明的实施例计算LM前看概率的方法。
在实施例中,使用低阶LM前看信息以减小较高阶LM前看的计算。参考图5描述的方法没有使用低阶LM前看信息,LM前看网络中的每一个节点必须被分配一个LM前看概率。
在根据本发明的实施例的方法中,仅仅需要更新小子集的节点的LM前看概率,而对于LM前看网络中的大多数节点,可以直接从低阶LM前看网络复制其LM前看概率。
基于回退(backoff)的n元模型的可以被表达为如下:
Figure A200880000950D00151
其中,f(.)为从n元文件中读取的折扣(discounted)LM概率,C(.)为训练语料(training corpus)中出现的事件的频率,回退(h)为使得所有w的概率的和等于1的历史h的回退参数,以及h′表示h的较低阶历史。
公式12指示了当在n元数据中不能找到历史-词对时,可以使用较低阶模型作为回退估计。实际而言,对于大词汇表应用,给定历史h,可以在训练数据中找到的不同的历史-词对的数目远小于词汇表V的尺寸。这意味着,对于每个词历史h,大多数的n元概率通过回退估计给出。可以使用该现象加速语言建模的计算。
当考虑n元语言模型时,需要比较与词和出现的之前的词相关的统计信息。然而,并不总能得到该数据。为了解决该问题,得出了回退参数的概念,其允许当不能获得特定的词的二元数据时,通过例如用于该词的一元模型来估计二元概率。例如,在图6的实施例中,回退参数计算如下:
n元LM可被计算为:
P ( w | h ) = f ( w | h ) if ( C ( h , w ) > 0 ) f ( w | h &prime; ) * Backoff ( h ) otherwise - - - ( a )
作为概率,其应该满足:
&Sigma; w P ( w | h ) = 1 - - - ( b )
根据公式a,公式b可以被重新写为:
&Sigma; w P ( w | h ) = &Sigma; w . C ( h , w ) > 0 f ( w | h ) + &Sigma; w . C ( w , h ) = 0 backoff ( h ) * f ( w | h &prime; ) = 1 - - - ( c )
由此,可以通过下式计算回退参数:
backoff ( h ) = 1 - &Sigma; w . C ( h , w ) > 0 f ( w | h ) &Sigma; w . C ( h , w ) = 0 f ( w | h &prime; ) = 1 - &Sigma; w . C ( h , w ) > 0 f ( w | h ) 1 - &Sigma; w . C ( h , w ) > 0 f ( w | h &prime; ) - - - ( d )
可以提前计算并存储回退参数。
节点n中的LM前看的定义为从n可以到达的所有词的最大LM概率,其可以被表示为:
&pi; ( n | h ) = max w &Element; W ( n ) P ( w | h ) - - - ( 13 )
其中W(n)表示从节点n可以到达的词的组。
根据公式(12),可以将LM前看的定义重新写为:
π(n|h)=max{π1(n|h),π2(n|h)}      (14)
其中
并且
Figure A200880000950D00172
因此,LMLA树中的节点可以被分为两部分,即,
N=N1∪N2
Nx={n|π(n|h)=π1(n|h)}   (17)
N2={n|π(n|h)=π2(n|h)}
给定词历史h,仅仅需要使用显式n元估计来计算与N1相关的LMLA概率,而使用回退估计计算与N2相关的其余的LMLA概率。
基于上述分析,给出了用于计算LMLA概率的新的方法。
根据上述分析,LM前看的计算可以分为4个步骤。
步骤1:产生低阶LM前看网络,T,对于T中的每一个节点n
&pi; ( n | h &prime; ) = max w &Element; W ( n ) P ( w | h &prime; ) - - - ( 17 )
步骤2:用历史h的回退参数乘以低阶LM前看概率,以产生新的LM前看网络(树),
Figure A200880000950D00174
对于
Figure A200880000950D00175
中的每一个节点n
&pi; ~ ( n | h ) = Backoff ( h ) * max w &Element; W ( n ) P ( w | h &prime; ) - - - ( 18 )
步骤3:对于在训练语料中的与LM语境h共同出现的每一个词w,用n元模型中的折扣LM概率代替
Figure A200880000950D00177
的叶节点中的回退LM概率,即,如果C(h,w)>0,使用f(w|h)代替
Figure A200880000950D00178
中的f(w|h′)*backoff(h)。
步骤4:对于W={w|C(h,w)>0}中的每一个词w,使用动态编程过程,更新从其可以到达w的节点中的LM前看概率。
图6示出了基于新方法的LMLA概率的计算。图6a示出了步骤1和2,图6b示出了步骤3和4。计算LMLA概率的新方法从回退LMLA树开始。图6中的LMLA树包含8个叶,即,8个单独的词。给定LM语境h,假定仅仅两个词:w1和w3具有显式LM概率,新方法仅仅需要计算从其可以到达w1和w3的节点,即,图6中的黑节点,的LMLA概率,而可以从回退LMLA树直接复制其余的LMLA概率,即,灰节点中的LMLA概率。
实施例的方法通过仅仅计算LM前看树中的节点的子集,即,属于公式17中的N1的节点,而不是像旧方法一样更新每个节点,显著减少了CPU成本。对于特定的LM语境h,词组w={w|C(h,w)>0}远小于整个识别词汇库。因此N1中的节点仅仅是LM前看树中的节点的小的子集。
由此,可以非常有效率地计算高阶LM前看概率例如三元前看概率。传统方法保持一个缓冲器以高速缓存出现在搜索空间中的LM前看网络,以便可以在将来重新使用这些LM前看网络。在提出的方法中,为了计算n元LM前看概率,不仅需要高速缓存n元前看网络而且需要高速缓存n-1元前看网络。在计算n元前看概率之前,进行检测以观察需要的n元前看网络是否已经高速缓存在n元前看缓冲器中。如果没有,在n-1元前看缓冲器中搜索对应的n-1元前看网络。然后,使用提出的方法从n-1元前看网络产生n元前看网络。当计算n-1元前看网络时也进行相同的相似的操作,即,需要高速缓存n-2元前看网络以产生n-1元前看网络。迭代地进行该操作,总是缓存较低阶前看网络以产生较高阶前看网络。
使用实施例的方法,可以显现减小计算LM前看概率的CPU成本。
在常规方法中,对于LM前看树中的每一个节点,都需要计算对应的LM前看概率。
在提出的方法中,仅仅需要更新LM前看树的子集节点的LM前看概率。将节点(w)(Node(w))限定为通过其可以到达词w的节点的组。于是,LM前看网络中需要更新LM前看概率的所有节点可以表达为:
N = &cup; w . C ( h , w ) > 0 Node ( w ) - - - ( 19 )
对于特定的LM语境h,词组W={w|C(h,w)>0}远小于整个识别词汇表。因此,组N中的节点的数目远小于LM前看网络中的总节点数目。
实施例的方法还可以减少存储器成本。乍一看,提出的方法需要高速缓存较高阶和较低阶前看网络,所以存储成本高。然而,用于高速缓存较低阶前看网络的缓冲器的大小远小于用于高速缓存较高阶前看网络的缓冲器。另一方面,提出的方法远快于常规方法,因此仅仅需要高速缓存最频繁出现的前看网络,在要求时才产生剩余的较不频繁的前看网络而不会具有太大的CPU成本。因为最频繁出现的前看网络相比于出现在搜索空间中的所有前看网络仅仅占据存储器的一小部分,因此提出的方法实际上减小了存储器成本。
此外,常规方法高速缓存搜索空间中的所有LM前看网络。在提出的方法中,对于每一个n元语境,系统可以检查在模型中是否真的存在基于该语境的n元概率。如果没有为特定n元语境存储n元概率,便不需要存储与该语境相关的n元前看网络,n-1元前看网络将被直接使用。因此,在根据本发明的实施例的方法中,可以进一步减小存储的n元前看网络。
1.实施例的方法显著加速了LM前看概率的计算。
2.实施例的方法可以减小三元或更高阶n元前看的存储器成本。
在实施例的方法中,较高阶LMLA概率的计算依赖于较低阶LMLA概率的值,设计多高速缓存结构以执行高阶LMLA。系统所具有的高速缓存的数目与解码器采用的LM的阶相同。每一阶的LMLA概率具有一个高速缓存。如果在高速缓存中不存在需要的LMLA树,使用对应的回退树从低阶LMLA高速缓存来产生需要的LMLA树。
图7示出了基于多高速缓存的三元LMLA的框架结构。基于多高速缓存结构,三元LMLA被分为5个步骤:
步骤1:解码器从LMLA评分模块请求节点n的LMLA得分和词历史wjwj,LMLA评分模块检查请求的LMLA概率是否已存在于三元LMLA高速缓存中,如果是,那么就返回该LMLA概率,否则,到步骤2。
步骤2:使用二元词历史wi查寻二元LMLA高速缓存,如果wi的LMLA缓冲已存在于高速缓存中,进行到步骤4,否则,到步骤3。
步骤3:使用一元LMLA缓冲器,产生并高速缓存wi的二元LMLA缓冲。
步骤4:使用wi的二元LMLA缓冲器,产生并高速缓存wjwi的三元LMLA缓冲。
步骤5:将请求的LMLA概率返回到解码器。
将图6的方法用于具有WSJ 20K词汇表系统的三元LMLA。训练语音为WSJ0和WSJ1语料、SI284训练组。词汇表为具有语言数据联盟(LDC)提供的约20k个词的封闭词汇表(closed vocabulary)。声学模型包含6000绑定(tied)HMM状态,每一状态具有10高斯混合分量。语音特征矢量为33维,包括10C-MFCKL、1 LOG能量(energy)及其一阶和二阶时间导数。LM是利用具有约40M个词的WSJ87-89文本语料训练的三元语言模型。
 
LMLA的配置 MIPS LMLA的CPU成本
常规二元LMLA 6054 25.8%
新方法的二元LMLA 5328 7.5%
常规三元LMLA 9589 65.8%
新方法的三元LMLA 5280 10.0%
表1 常规方法和新方法之间的LMLA的CPU成本比较
表1示出了基于相同束宽的具有不同配置的LMLA的CPU成本。可以看出,本发明提出的方法极大地减小了LMLA概率的计算成本。产生二元LMLA树的处理加速到3倍,产生三元LMLA树的处理加速到12倍。当使用三元LMLA时,在搜索空间中出现的不同三元语境的数目远大于二元语境的数目。在旧的方法中,三元LMLA的益处不能补偿由于LMLA所产生的额外的计算,系统甚至比二元LMLA系统更慢。另一方面,因为新方法计算LMLA概率比常规方法快得多,因此当使用新方法时,三元LMLA相比于二元LMLA进一步提速了系统。
表2示出了基于新方法的三元LMLA和二元LMLA的性能。为了获得相同的WER,基于三元LMLA的解码总是比使用二元LMLA的解码快。在快速解码中三元更有效率,当束宽度为160时,三元LMLA的WER比二元LMLA好1%,当束宽度增加到200时,差异减小到0.3%。
如在部分4中所述,新方法中的三元LMLA基于多高速缓存结构,在该结构中从二元LMLA概率产生三元LMLA概率,并从一元LMLA概率产生二元LMLA概率。表3示出了基于WSJ 20K任务中的一个测试话语的不同阶的LMLA的计算量。可以看出,即使产生了多出三倍的三元LMLA树,也仅仅占用了1.26%的CPU成本,而二元LMLA占据了7.63%的CPU成本。这主要由于三元数据的稀少。因为三元数据相比于二元数据非常稀少,在三元LMLA中将更新的节点远小于二元LMLA中的节点。因此,大多数的计算成本来自二元LMLA,即使其不经常被调用。
Figure A200880000950D00211
表2:基于新方法的三元LMLA和二元LMLA的比较结果
 
产生的LMLA树的# LMLA的CPU成本
二元LMLA 322 7.63%
三元LMLA 1247 1.26%
表3:基于新方法的不同阶的LMLA的计算量。
如前所述,本发明还可以应用于其中需要结合语言模型动态处理输入信号的一系列系统。图8示出了基础系统,其中在输入单元1提供输入信号的。然后,将单元1的输出提供给单元3,在单元3中声学模型或其他模型可以产生在确定的输入信号中的可能的词的第一概率分布。例如,在语音识别时,该单元将提供声学语音学模型。单元5提供可以限制如何在语言中连接词的语言模型。在语言模型和声学模型单元3之间可以存在通讯。最终,解码器7产生输出,在语音识别的情况下,所述输出为词。
该系统可以为语音-语音翻译系统的一部分,在所述翻译系统中使用TTS系统等进一步将所述输出翻译并输出为语音。
同样,该系统可以用于OCR,其中,输入单元1处的输入将为扫描的文本而不是语音,并且代替提供声学模型,单元3将输出扫描的文本中的词的概率。语言模型5的操作方式与之前描述的相同。解码器7将输出计算机可以读和处理的文本用于词处理等等的。相似地,可以将该系统应用于其中输入为手写文本的手写分析,并且单元3解码手写文本。同样语言模型的操作方式与上面描述的相同。
最后,该系统还可以用于例如DNA基因组测序的非常规语言模型。

Claims (19)

1.一种用于计算在语言模型前看树中的节点处的前看概率的系统,其中语言的词汇表的词位于所述树的叶处,
所述设备包括:
装置,用于使用第一低阶语言模型向所述词汇表的所述词中的每一个词分配语言模型概率;
装置,用于使用所述第一低阶语言模型计算所述树中的所有节点的语言前看概率;
装置,用于确定是否可以使用较高阶语言模型计算所述词汇表的一个或多个词的所述语言模型概率并使用所述较高阶语言模型更新所述词;以及
装置,用于仅仅更新受到其中语言模型已被更新的词的影响的节点处的前看概率。
2.根据权利要求1的系统,其中用于使用较低阶语言模型分配语言模型概率的所述装置被配置为使用回退参数。
3.根据权利要求1的系统,其中用于确定是否可以使用较高阶语言模型计算所述词汇表的一个或多个词的所述语言模型概率的所述装置被配置为确定词是否已经与预先识别的词相结合出现。
4.根据权利要求1的系统,其中所述较高阶模型为二元、三元、四元或更高阶n元模型。
5.根据权利要求4的系统,还包括具有多高速缓存结构的存储器,其中所述存储器的高速缓存的数目等于在所述系统中使用的所述n元模型的阶。
6.一种自动语音识别系统,包括:
装置,用于接收语音;
装置,用于从所述语音提取声学信号并确定在所述语音中包含的词的第一概率;
装置,用于提供语言模型以确定在所述语音中包含的词的第二概率,包括根据上述权利要求中的任何一项的用于计算在语言模型前看树中的节点处的前看概率的系统;以及
装置,用于组合所述第一和第二概率并输出从所接收的语音中识别的词。
7.一种语音到语音翻译系统,包括权利要求6的自动语音识别系统和用于将输出的词翻译为另一语言的装置。
8.一种OCR系统,包括:
装置,用于接收扫描的文本;
装置,用于确定在所述文本中包含的词的第一概率;
装置,用于提供语言模型以确定在所述文本中包含的词的第二概率,包括根据权利要求1到5中的任何一项的用于计算在语言模型前看树中的节点处的前看概率的系统;以及
装置,用于组合所述第一和第二概率并以计算机可以读取的形式输出从所述扫描的文本中识别的词。
9.一种手写识别系统,包括:
装置,用于接收手写的文本;
装置,用于确定在所述文本中包含的词的第一概率;
装置,用于提供语言模型以确定在所述文本中包含的词的第二概率,包括根据权利要求1到5中的任何一项的用于计算在语言模型前看树中的节点处的前看概率的系统;以及
装置,用于组合所述第一和第二概率并输出从所述手写的文本中识别的词。
10.一种用于计算在语言模型前看树中的节点处的语言模型前看概率的方法,其中语言的词汇表的词位于所述树的叶处,
所述方法包括:
使用第一低阶语言模型向所述词汇表的所述词中的每一个词分配语言模型概率;
使用所述第一语言模型计算所述树中的所有节点的语言前看概率;
确定是否可以使用较高阶语言模型计算所述词汇表的一个或多个词的语言模型概率并使用较高阶语言模型概率更新所述词;以及
仅仅更新受到其中语言模型已被更新的词的影响的节点处的前看概率。
11.根据权利要求10的方法,其中确定较低阶语言模型概率使用回退参数。
12.根据权利要求10的方法,其中确定是否可以使用较高阶语言模型计算所述词汇表的一个或多个词的语言模型概率确定词是否已经与预先识别的词相结合出现。
13.根据权利要求10的方法,其中所述较高阶模型为二元、三元、四元或更高阶n元模型。
14.根据权利要求10的方法,还包括通过将所述语言模型前看概率重新设定至较低阶语言模型来解码序列信号;
确定是否可以使用较高阶语言模型计算所述词汇表的一个或多个词的语言模型概率并使用较高阶语言模型概率更新所述词;以及
仅仅更新受到其中语言模型已被更新的词的影响的节点处的前看概率。
15.一种自动语音识别方法,包括:
接收语音;
从所述语音提取声学信号并基于所述声学信号确定在所述语音中包含的词的概率;
提供语言模型,包括根据权利要求10到14中的任何一项的计算在语言模型前看树中的节点处的前看概率;以及
输出从所接收的语音中识别的词。
16.一种语音到语音翻译方法,包括权利要求15的自动语音识别方法和将输出的词翻译为另一语言。
17.一种OCR方法,包括:
接收扫描的文本;
确定在所述文本中包含的词的第一概率;
提供语言模型以确定在所述文本中包含的词的第二概率,包括根据权利要求10到14中的任何一项的用于计算在语言模型前看树中的节点处的前看概率的方法;以及
组合所述第一和第二概率并以计算机可以读取的形式输出从所述扫描的文本中识别的词。
18.一种手写识别方法,包括:
接收手写的文本;
确定在所述文本中包含的词的第一概率;
提供语言模型以确定在所述文本中包含的词的第二概率,包括根据权利要求10到14中的任何一项的用于计算在语言模型前看树中的节点处的前看概率的方法;以及
组合所述第一和第二概率并输出从所述手写的文本中识别的词。
19.一种载体介质,其被配置为记载用于控制计算机以实施权利要求10到18中的任何一项的方法的计算机可读指令。
CNA2008800009507A 2007-10-04 2008-10-02 自动语音识别方法和设备 Pending CN101548285A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB0719453.3 2007-10-04
GB0719453A GB2453366B (en) 2007-10-04 2007-10-04 Automatic speech recognition method and apparatus

Publications (1)

Publication Number Publication Date
CN101548285A true CN101548285A (zh) 2009-09-30

Family

ID=38739167

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2008800009507A Pending CN101548285A (zh) 2007-10-04 2008-10-02 自动语音识别方法和设备

Country Status (5)

Country Link
US (1) US8311825B2 (zh)
JP (1) JP5331801B2 (zh)
CN (1) CN101548285A (zh)
GB (1) GB2453366B (zh)
WO (1) WO2009044931A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103035238A (zh) * 2012-11-27 2013-04-10 中国科学院自动化研究所 音频数据的编码方法及解码方法
CN106062868A (zh) * 2014-07-25 2016-10-26 谷歌公司 提供预先计算的热词模型
CN108305634A (zh) * 2018-01-09 2018-07-20 深圳市腾讯计算机系统有限公司 解码方法、解码器及存储介质
CN111813891A (zh) * 2019-04-12 2020-10-23 北京地平线机器人技术研发有限公司 语言模型的训练、预测词的出现概率的方法和装置

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8510109B2 (en) 2007-08-22 2013-08-13 Canyon Ip Holdings Llc Continuous speech transcription performance indication
US9973450B2 (en) 2007-09-17 2018-05-15 Amazon Technologies, Inc. Methods and systems for dynamically updating web service profile information by parsing transcribed message strings
US8718202B2 (en) 2008-08-11 2014-05-06 Texas Instruments Incorporated Reduced complexity viterbi decoding
JP5408631B2 (ja) * 2009-02-26 2014-02-05 国立大学法人豊橋技術科学大学 音声検索装置および音声検索方法
JP4757936B2 (ja) * 2009-07-23 2011-08-24 Kddi株式会社 パターン認識方法および装置ならびにパターン認識プログラムおよびその記録媒体
US8655647B2 (en) * 2010-03-11 2014-02-18 Microsoft Corporation N-gram selection for practical-sized language models
US9069755B2 (en) * 2010-03-11 2015-06-30 Microsoft Technology Licensing, Llc N-gram model smoothing with independently controllable parameters
US9093061B1 (en) 2011-04-14 2015-07-28 Canyon IP Holdings, LLC. Speech recognition with hierarchical networks
US8676580B2 (en) * 2011-08-16 2014-03-18 International Business Machines Corporation Automatic speech and concept recognition
US20130194448A1 (en) 2012-01-26 2013-08-01 Qualcomm Incorporated Rules for merging blocks of connected components in natural images
US9064191B2 (en) 2012-01-26 2015-06-23 Qualcomm Incorporated Lower modifier detection and extraction from devanagari text images to improve OCR performance
US9514739B2 (en) * 2012-06-06 2016-12-06 Cypress Semiconductor Corporation Phoneme score accelerator
US9224384B2 (en) * 2012-06-06 2015-12-29 Cypress Semiconductor Corporation Histogram based pre-pruning scheme for active HMMS
US9489940B2 (en) * 2012-06-11 2016-11-08 Nvoq Incorporated Apparatus and methods to update a language model in a speech recognition system
US9224386B1 (en) 2012-06-22 2015-12-29 Amazon Technologies, Inc. Discriminative language model training using a confusion matrix
US9141874B2 (en) 2012-07-19 2015-09-22 Qualcomm Incorporated Feature extraction and use with a probability density function (PDF) divergence metric
US9047540B2 (en) 2012-07-19 2015-06-02 Qualcomm Incorporated Trellis based word decoder with reverse pass
US9262699B2 (en) 2012-07-19 2016-02-16 Qualcomm Incorporated Method of handling complex variants of words through prefix-tree based decoding for Devanagiri OCR
US9183458B2 (en) 2012-07-19 2015-11-10 Qualcomm Incorporated Parameter selection and coarse localization of interest regions for MSER processing
US9076242B2 (en) 2012-07-19 2015-07-07 Qualcomm Incorporated Automatic correction of skew in natural images and video
US9292487B1 (en) * 2012-08-16 2016-03-22 Amazon Technologies, Inc. Discriminative language model pruning
US9922641B1 (en) * 2012-10-01 2018-03-20 Google Llc Cross-lingual speaker adaptation for multi-lingual speech synthesis
US9047268B2 (en) * 2013-01-31 2015-06-02 Google Inc. Character and word level language models for out-of-vocabulary text input
US9454240B2 (en) 2013-02-05 2016-09-27 Google Inc. Gesture keyboard input of non-dictionary character strings
US20140278357A1 (en) * 2013-03-14 2014-09-18 Wordnik, Inc. Word generation and scoring using sub-word segments and characteristic of interest
US8756499B1 (en) * 2013-04-29 2014-06-17 Google Inc. Gesture keyboard input of non-dictionary character strings using substitute scoring
US9460088B1 (en) * 2013-05-31 2016-10-04 Google Inc. Written-domain language modeling with decomposition
US10102851B1 (en) * 2013-08-28 2018-10-16 Amazon Technologies, Inc. Incremental utterance processing and semantic stability determination
US9507852B2 (en) * 2013-12-10 2016-11-29 Google Inc. Techniques for discriminative dependency parsing
JP6404564B2 (ja) 2013-12-24 2018-10-10 株式会社東芝 デコーダ、デコード方法およびプログラム
JP6315980B2 (ja) 2013-12-24 2018-04-25 株式会社東芝 デコーダ、デコード方法およびプログラム
JP6301647B2 (ja) 2013-12-24 2018-03-28 株式会社東芝 探索装置、探索方法およびプログラム
US9195656B2 (en) 2013-12-30 2015-11-24 Google Inc. Multilingual prosody generation
US9189708B2 (en) * 2013-12-31 2015-11-17 Google Inc. Pruning and label selection in hidden markov model-based OCR
JP6301664B2 (ja) 2014-01-31 2018-03-28 株式会社東芝 変換装置、パターン認識システム、変換方法およびプログラム
JP6301794B2 (ja) 2014-09-18 2018-03-28 株式会社東芝 オートマトン変形装置、オートマトン変形方法およびプログラム
JP6453631B2 (ja) 2014-11-28 2019-01-16 株式会社東芝 認識システム、認識方法およびプログラム
JP6562698B2 (ja) 2015-04-28 2019-08-21 株式会社東芝 ラティス確定装置、パターン認識装置、ラティス確定方法およびプログラム
CN106683677B (zh) 2015-11-06 2021-11-12 阿里巴巴集团控股有限公司 语音识别方法及装置
US20180018973A1 (en) 2016-07-15 2018-01-18 Google Inc. Speaker verification
JP2018013590A (ja) 2016-07-20 2018-01-25 株式会社東芝 生成装置、認識システム、有限状態トランスデューサの生成方法、および、データ
US10311046B2 (en) * 2016-09-12 2019-06-04 Conduent Business Services, Llc System and method for pruning a set of symbol-based sequences by relaxing an independence assumption of the sequences
US10460727B2 (en) 2017-03-03 2019-10-29 Microsoft Technology Licensing, Llc Multi-talker speech recognizer
US10461152B2 (en) * 2017-07-10 2019-10-29 Globalfoundries Inc. Radio frequency switches with air gap structures
CN112767921A (zh) * 2021-01-07 2021-05-07 国网浙江省电力有限公司 一种基于缓存语言模型的语音识别自适应方法和系统
RU209152U1 (ru) * 2021-04-18 2022-02-03 Общество с ограниченной ответственностью "Информационные технологии" (ООО "ИнфоТех") Планка стопорная для крепления боковых накладок изолирующего стыка

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4831550A (en) * 1986-03-27 1989-05-16 International Business Machines Corporation Apparatus and method for estimating, from sparse data, the probability that a particular one of a set of events is the next event in a string of events
US5241619A (en) * 1991-06-25 1993-08-31 Bolt Beranek And Newman Inc. Word dependent N-best search method
CA2126380C (en) * 1993-07-22 1998-07-07 Wu Chou Minimum error rate training of combined string models
JP2905674B2 (ja) * 1993-10-04 1999-06-14 株式会社エイ・ティ・アール音声翻訳通信研究所 不特定話者連続音声認識方法
JP3304665B2 (ja) * 1995-02-17 2002-07-22 松下電器産業株式会社 音声認識装置
US5999902A (en) * 1995-03-07 1999-12-07 British Telecommunications Public Limited Company Speech recognition incorporating a priori probability weighting factors
JPH11344991A (ja) * 1998-05-30 1999-12-14 Brother Ind Ltd 音声認識装置および記憶媒体
JP2938865B1 (ja) * 1998-08-27 1999-08-25 株式会社エイ・ティ・アール音声翻訳通信研究所 音声認識装置
JP3252815B2 (ja) * 1998-12-04 2002-02-04 日本電気株式会社 連続音声認識装置及び方法
US6374217B1 (en) * 1999-03-12 2002-04-16 Apple Computer, Inc. Fast update implementation for efficient latent semantic language modeling
JP4289715B2 (ja) * 1999-04-02 2009-07-01 キヤノン株式会社 音声認識装置及び音声認識方法並びにその方法に用いられる木構造辞書の作成方法
AU7938300A (en) * 1999-10-06 2001-05-10 Lernout And Hauspie Speech Products N.V. Attribute-based word modeling
US7392185B2 (en) * 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
US7725307B2 (en) * 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
CN1201286C (zh) * 1999-12-23 2005-05-11 英特尔公司 使用基于词汇树的n格拉姆语言模式的执行语音识别的方法
JP2001249684A (ja) * 2000-03-02 2001-09-14 Sony Corp 音声認識装置および音声認識方法、並びに記録媒体
US6856956B2 (en) * 2000-07-20 2005-02-15 Microsoft Corporation Method and apparatus for generating and displaying N-best alternatives in a speech recognition system
JP2002366187A (ja) * 2001-06-08 2002-12-20 Sony Corp 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
JP4215418B2 (ja) * 2001-08-24 2009-01-28 インターナショナル・ビジネス・マシーンズ・コーポレーション 単語予測方法、音声認識方法、その方法を用いた音声認識装置及びプログラム
US20040148170A1 (en) * 2003-01-23 2004-07-29 Alejandro Acero Statistical classifiers for spoken language understanding and command/control scenarios
US7464031B2 (en) * 2003-11-28 2008-12-09 International Business Machines Corporation Speech recognition utilizing multitude of speech features
US8069045B2 (en) * 2004-02-26 2011-11-29 International Business Machines Corporation Hierarchical approach for the statistical vowelization of Arabic text
JP4521631B2 (ja) * 2004-03-16 2010-08-11 株式会社国際電気通信基礎技術研究所 木構造辞書を記録した記憶媒体、及び木構造辞書の言語スコアテーブル作成プログラム
GB0420464D0 (en) * 2004-09-14 2004-10-20 Zentian Ltd A speech recognition circuit and method
US7634406B2 (en) * 2004-12-10 2009-12-15 Microsoft Corporation System and method for identifying semantic intent from acoustic information
US7574358B2 (en) * 2005-02-28 2009-08-11 International Business Machines Corporation Natural language system and method based on unisolated performance metric
JP4769031B2 (ja) * 2005-06-24 2011-09-07 マイクロソフト コーポレーション 言語モデルを作成する方法、かな漢字変換方法、その装置、コンピュータプログラムおよびコンピュータ読み取り可能な記憶媒体
US7809568B2 (en) * 2005-11-08 2010-10-05 Microsoft Corporation Indexing and searching speech with text meta-data
US20070164782A1 (en) * 2006-01-17 2007-07-19 Microsoft Corporation Multi-word word wheeling
US20070179784A1 (en) * 2006-02-02 2007-08-02 Queensland University Of Technology Dynamic match lattice spotting for indexing speech content
JP4689497B2 (ja) * 2006-02-28 2011-05-25 三菱電機株式会社 音声認識装置
US7617103B2 (en) * 2006-08-25 2009-11-10 Microsoft Corporation Incrementally regulated discriminative margins in MCE training for speech recognition
JP5319141B2 (ja) * 2007-03-19 2013-10-16 株式会社東芝 言語モデルの枝刈り方法及び装置
US20090326945A1 (en) * 2008-06-26 2009-12-31 Nokia Corporation Methods, apparatuses, and computer program products for providing a mixed language entry speech dictation system

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103035238A (zh) * 2012-11-27 2013-04-10 中国科学院自动化研究所 音频数据的编码方法及解码方法
CN103035238B (zh) * 2012-11-27 2014-09-17 中国科学院自动化研究所 音频数据的编码方法及解码方法
CN106062868A (zh) * 2014-07-25 2016-10-26 谷歌公司 提供预先计算的热词模型
CN106062868B (zh) * 2014-07-25 2019-10-29 谷歌有限责任公司 提供预先计算的热词模型
CN108305634A (zh) * 2018-01-09 2018-07-20 深圳市腾讯计算机系统有限公司 解码方法、解码器及存储介质
CN108305634B (zh) * 2018-01-09 2020-10-16 深圳市腾讯计算机系统有限公司 解码方法、解码器及存储介质
CN111813891A (zh) * 2019-04-12 2020-10-23 北京地平线机器人技术研发有限公司 语言模型的训练、预测词的出现概率的方法和装置
CN111813891B (zh) * 2019-04-12 2024-03-26 北京地平线机器人技术研发有限公司 语言模型的训练、预测词的出现概率的方法和装置

Also Published As

Publication number Publication date
GB2453366A (en) 2009-04-08
GB0719453D0 (en) 2007-11-14
US20090099841A1 (en) 2009-04-16
WO2009044931A1 (en) 2009-04-09
GB2453366B (en) 2011-04-06
JP2010540976A (ja) 2010-12-24
JP5331801B2 (ja) 2013-10-30
US8311825B2 (en) 2012-11-13

Similar Documents

Publication Publication Date Title
CN101548285A (zh) 自动语音识别方法和设备
CN106683677B (zh) 语音识别方法及装置
US8990084B2 (en) Method of active learning for automatic speech recognition
CN111210807B (zh) 语音识别模型训练方法、系统、移动终端及存储介质
EP4018437B1 (en) Optimizing a keyword spotting system
CN111916058A (zh) 一种基于增量词图重打分的语音识别方法及系统
JP2004362584A (ja) テキストおよび音声の分類のための言語モデルの判別トレーニング
Ney et al. The RWTH large vocabulary continuous speech recognition system
CN112509560A (zh) 一种基于缓存语言模型的语音识别自适应方法和系统
JP2886121B2 (ja) 統計的言語モデル生成装置及び音声認識装置
JP2938866B1 (ja) 統計的言語モデル生成装置及び音声認識装置
Breslin et al. Generating complementary systems for speech recognition.
Lei et al. Data-driven lexicon expansion for Mandarin broadcast news and conversation speech recognition
JP3836607B2 (ja) 音声認識のための統計的言語モデル作成装置
JP2938865B1 (ja) 音声認識装置
Lei et al. Development of the 2008 SRI Mandarin speech-to-text system for broadcast news and conversation.
US20110010165A1 (en) Apparatus and method for optimizing a concatenate recognition unit
Sarikaya et al. Continuous space language modeling techniques
Sui et al. A general framework for multi-accent Mandarin speech recognition using adaptive neural networks
Lecouteux et al. Semantic cache model driven speech recognition
JP2000250581A (ja) 言語モデル生成装置及び音声認識装置
CN116168688A (zh) 语音识别模型的训练、语音识别方法、装置、设备及介质
CN117542353A (zh) 一种基于知识图谱和语音特征融合网络的语音理解方法
Oparin et al. Large-scale language modeling with random forests for mandarin Chinese speech-to-text
CN113763939A (zh) 基于端到端模型的混合语音识别系统及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20090930