CN102027534B - 语言模型得分前瞻值赋值方法及设备 - Google Patents
语言模型得分前瞻值赋值方法及设备 Download PDFInfo
- Publication number
- CN102027534B CN102027534B CN200980117762.7A CN200980117762A CN102027534B CN 102027534 B CN102027534 B CN 102027534B CN 200980117762 A CN200980117762 A CN 200980117762A CN 102027534 B CN102027534 B CN 102027534B
- Authority
- CN
- China
- Prior art keywords
- language model
- model score
- phoneme
- prediction value
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 32
- 238000009499 grossing Methods 0.000 claims abstract description 39
- 238000012552 review Methods 0.000 claims description 7
- 238000013138 pruning Methods 0.000 abstract 1
- 238000004364 calculation method Methods 0.000 description 28
- 230000001186 cumulative effect Effects 0.000 description 12
- 238000004458 analytical method Methods 0.000 description 8
- 235000021185 dessert Nutrition 0.000 description 5
- 239000012141 concentrate Substances 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000005039 memory span Effects 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
一种通过使用语言模型得分前瞻值来执行帧同步集束搜索的话音识别装置防止了正确答案假设的删减,同时抑制假设数目的增长。一种语言模型得分前瞻值赋值设备108被设置有定义词语音素串的词语词典203、赋值词语的出现容易度得分的语言模型202、以及平滑化语言模型得分前瞻值计算装置201。平滑化语言模型得分前瞻值计算装置201从由词语词典203定义的词语的音素串以及由语言模型202定义的语言模型得分获得词语中每个音素处的语言模型得分前瞻值,使得防止语言模型得分前瞻值集中在词语的开头。
Description
技术领域
本发明涉及通过使用语言模型得分前瞻值来执行帧同步集束搜索的话音识别装置,以及适用于该话音识别装置的语言模型得分前瞻值赋值设备。
背景技术
诸如大词汇量连续话音识别装置的高性能话音识别装置将从声学模型的知识、词语词典和语言模型所预测的各种假设(识别候选)和未知输入话音之间的声学相似度和语言相似度计算为声学模型得分和语言模型得分,并且输出最可能的假设作为识别结果。此外,为了限制装置中保持的假设的数目以消除计算量和存储器容量,每次都对声学模型得分和语言模型得分进行综合评估。然后,得分低的假设由于较小的概率而被删减(pruned),由此防止随后的假设被采用。该方法被称为帧同步集束搜索方法(下文中简单称为集束搜索方法)。
图6中示出了话音识别装置的一个示例。在图6中,作为话音识别目标的话音波形被输入到话音输入装置301,并且被传送到声学分析装置302。声学分析装置302以帧为单位计算声学特征量,并且将该声学特征量输出到距离计算装置303。距离计算装置303计算输入声学特征量和声学模型304中的每个模型之间的距离,并且根据该距离将声学模型得分输出到搜索装置305。搜索装置305通过将声学模型得分和由语言模型402从语言模型得分前瞻值赋值设备308获得的语言模型得分相加获得要搜索的所有假设的累计得分,并且删减累计得分低的假设。对其余假设进行处理,并且从识别结果输出装置309输出最优识别结果。
图7示出了词语词典403的一部分的一个示例。该示例中的词语词典403是树形结构词典。此外,在图7中,对语言模型402所给出的每个词语中的语言模型得分进行相加。例如,词语“握手”(日语发音:“akusyu”)具有音素串“a-k-u-sy-u”,并且其语言模型得分为80。此外,词语“红色”(日语发音:“akai”)具有音素串“a-k-a-i”,并且其语言模型得分为50。在该示例中,较小的语言模型得分表示高得分。
当使用这样的树形结构词典时,树形结构的根部被连接到词语间迁移中先前的假设。然而,由于这时无法指定连接的词语,所以语言模型得分无法被添加到累计得分。如果语言模型得分在假设到达任何的词语末端时第一次被添加到累计得分,则得分会由于词语间迁移的假设而大幅变化。因此,需要使得集束宽度很大以即使在正确答案假设的得分大幅变化时也防止进行删减,这抑制了有效的集束搜索。
为了尽可能早地添加语言模型得分,语言模型得分前瞻值赋值设备308包括最优语言模型得分获得装置401,其获得与树形结构词典的每个分支相对应的词语的语言模型得分的最优值作为该分支中的最优语言模型得分。
更具体地,最优语言将模型得分获得装置401获得属于词语集合W(s)的词语w中的语言模型得分的最优值-log{p(w|h)},如表达式(1)所示,对于具有词语历史h的音素s的假设的语言模型得分前瞻值πh(s),其能够使用词语词典403和语言模型402在词典中从音素s进行追溯。当假设迁移到搜索装置305进行的搜索过程中的音素s时,如表达式(2)所示的先前音素s~的语言模型得分前瞻值和当前音素s的语言模型得分前瞻值之间的差值δh(s)被添加到该假设的累计得分。
πh(s)=min w∈W(s){-log p(w|h)} ...(1)
δh(s)=πh(s)-πh(s~) ...(2)
图8中示出了通过以上操作所给出的语言模型得分前瞻值的示例。末端音素右侧的值表示每个词语的语言模型得分,并且每个分支中的值表示赋值给分支的语言模型得分前瞻差值。在该示例中,当树形结构的根部被连接到先前的假设时,语言模型得分50可以被添加到累计得分。因此,与其中语言模型得分在假设到达词语末端时第一次被添加到累计得分的情况相比,能够执行有效的集束搜索。
在非专利文献1中公开了以上的最优语言模型得分获得装置401。非专利文献1公开了一元语言模型得分的前瞻和二元语言模型得分的前瞻两种方法。一元语言模型得分的前瞻使用一元语言模型得分作为语言模型得分前瞻差值。在该方法中,当假设到达树形结构词典的词语末端并且定义了该词语时,丢弃已经使用的一元语言模型得分,并且添加定义的二元语言模型得分。在假设到达词语末端时执行的该处理被称作词语末端处理。另一方面,二元语言模型得分的前瞻使用前瞻步骤中的二元语言模型得分。除了执行原始搜索的原始搜索装置306之外,图6所示的搜索装置305包括词语末端处理装置307,并且与使用一元语言模型得分的前瞻方法的示例相对应。
参考文献列表
非专利文献1
S.Ortmanns等人的“LANGUAGE-MODEL LOOK-AHEAD FORLARGE VOCABULARY SPEECH RECOGNITION”ICSLP 1996
发明内容
技术问题
在上述由最优语言模型得分获得装置401进行的语言模型得分的前瞻中,与树形结构词典中的每个分支相对应的词语的语言模型得分的最优值被设置为该分支中的语言模型得分。当与每个分支相对应的 词语的所有语言模型得分低时,大多数低语言得分在较早的点被添加到这些词语,并且即使在假设是正确的答案假设时,也可能被删减。以下将描述特定的示例。
图9示出了使用树形结构词典作为词语词典403的语言模型得分前瞻值和词语词典的示例。在图9中,识别目标词语包括“点心”(日语发音:“okasi”),并且除了“okasi”(意思为:“点心”)之外没有词语以音素“o”和“k”的链(chain)开始。在该情况下,最优语言模型得分获得装置401向指向“o”的分支赋值语言模型得分前瞻值“50”。由于音素“k”和随后进行分支的音素中没有音素,所以对指向“k”的分支赋值语言模型得分前瞻值“90”(差值为40)。通常,在话音识别中,在考虑到周围上下文的情况下,三音素(三组音素)被用作识别单元。因此,关于“okasi”(意思为:“点心”)的假设,在“o-k-a-s-i”(意思为:“点心”)的音素串开头的音素“o”处也考虑右侧的上下文“k”,并且添加所有低语言模型得分“90”。因此,通过检测音素“k”和随后音素的一致性,即使在获得高的声学模型得分并且“okasi”(意思为:“点心”)为正确的答案假设时,在较早阶段添加大的语言模型得分前瞻值也会促进删减,这导致了识别错误。
此外,图10示出了使用树形结构词典作为词语词典403的语言模型得分前瞻值和词语词典的示例。在图10中,识别目标词语包括“取消”(日语发音:“kyanseru”)。虽然存在多个以音素“ky”和“a”的链开始的识别目标词语,但是每个语言模型得分都像“100”那么低。在该情况下,最优语言模型得分获得装置401对指向“ky”的分支赋值语言模型得分前瞻值“50”,并且对指向“a”的分支赋值语言模型得分前瞻值“100”(差值为50)。以该方式,低的语言模型得分“100”在音素“ky”处于词语开头时全部被添加到以音素“ky”和“a”的链开始的词语假设。因此,通过检测音素“a”和随后音素的一致性,即使在获得高的声学模型得分并且“kyanseru”(意思为“取消”)是正确的回答假设时,在较早阶段添加大的语言模型得分前瞻值也会促进 删减,这导致了识别错误。
以上的示例是树形结构词典。同样的问题也会在使用线性词典被用作词语词典403时出现。图11是使用线性词典作为词语词典403的语言模型得分前瞻值和词语词典的示例。在图11中,识别目标词语包括“带”(日语发音:“beruto”)。在线性词典中,词语的语言模型得分可以被赋值为每个词语的词头中的语言模型得分前瞻值。然而,如示例中所示,当“beruto”(意思为“带”)的语言模型得分像“100”那么低时,所有的语言模型得分都在词语的头部被连接到先前假设时被添加到累计得分,这促进了删减。
用于防止正确答案假设被删减的方法之一是加宽集束宽度。然而,通过加宽集束宽度所产生的另一个问题是假设的数目增加并且计算量增加。
本发明的目标是提供一种防止正确答案假设删减同时抑制假设的数目的增加的语言模型得分前瞻值赋值设备、语言模型得分前瞻值赋值方法和程序存储介质。
问题解决方案
根据本发明的语言模型得分前瞻值赋值设备包括:定义词语的音素串的词语词典;赋值词语的出现容易度的得分的语言模型;以及平滑化语言模型得分前瞻值计算装置,所述平滑化语言模型得分前瞻值计算装置从由词语词典定义的词语的音素串和由语言模型定义的得分来获得词语中每个音素处的语言模型得分前瞻值,使得防止语言模型得分前瞻值集中在词语的开头。
本发明的有益效果
根据本发明,能够防止正确答案假设的删减同时抑制假设数目的增加。其原因在于获得词语中每个音素处的语言模型得分前瞻值,使 得防止了语言模型得分前瞻值集中在词语的开头。
附图说明
图1是示出本发明第一示例性实施例的配置的框图;
图2是示出本发明第一示例性实施例的操作的流程图;
图3是平滑化语言模型得分前瞻值计算装置的第一示例的操作示图;
图4是平滑化语言模型得分前瞻值计算装置的第二示例的操作示图;
图5是平滑化语言模型得分前瞻值计算装置的第三示例的操作示图;
图6是示出涉及本发明的话音识别装置的配置的框图;
图7是示出树形结构词典的一个示例的示图;
图8是示出通过使用最优语言模型得分获得装置给出语言模型得分前瞻值的一个示例的示图;
图9是示出通过使用最优语言模型得分获得装置给出语言模型得分前瞻值的另一个示例的示图;
图10是示出通过使用最优语言模型得分获得装置给出语言模型得分前瞻值的另一个示例的示图;以及
图11是示出线性词典和语言模型得分前瞻值的示例的示图。
附图标记列表
101 话音输入装置
102 声学分析装置
103 距离计算装置
104 声学模型
105 搜索装置
106 原始搜索装置
107 词语末尾处理装置
108 语言模型得分前瞻值赋值设备
109 识别结果输出装置
201 平滑化语言模型得分前瞻值计算装置
202 语言模型
203 词语词典
301 话音输入装置
302 声学分析装置
303 距离计算装置
304 声学模型
305 搜索装置
306 原始搜索装置
307 词语末尾处理装置
308 语言模型得分前瞻值赋值设备
309 识别结果输出装置
401 最优语言模型得分获得装置
402 语言模型
403 词语词典
具体实施方式
将参考附图来对本发明的特定示例性实施例进行具体描述。
[第一示例性实施例]
参考图1,根据本发明第一示例性实施例的话音识别装置包括:话音输入装置101、声学分析装置102、距离计算装置103、声学模型104、搜索装置105、语言模型得分前瞻值赋值设备108和识别结果输出装置109。此外,搜索装置105包括原始搜索装置106和词语末尾处理装置107。此外,语言模型得分前瞻值赋值设备108包括平滑化语言模型得分前瞻值计算装置201、语言模型202和词语词典203。这些部件中的每一个具有以下功能。
声学模型104向音素或音素串赋值音素或音素串的声学特征量。 词语词典203定义词语的音素串,并且在第一实施例中使用树形结构词典。树形结构词典记录词语及其音素串的对应关系。在树形结构词典中,通过在词语之间共享共用的头部音素串来形成树形结构。语言模型202向词语或词语串赋值该词语或词语串的出现容易度的得分。在第一示例性实施例中,语言模型202包括一元语言模型和二元语言模型。
平滑化语言模型得分前瞻值计算装置201从由词语词典203定义的词语的音素串和由语言模型202定义的语言模型得分(第一示例性实施例中的一元语言模型得分)获得词语中每个音素处的语言模型得分前瞻值,使得防止语言模型得分前瞻值集中在词语的开头。更具体地,基于词语中音素的出现顺序获得词语中每个音素处的语言模型得分前瞻值,以便于防止头部音素处或接近词语头部音素的音素的语言模型得分前瞻值基本上等于该词语的语言模型得分。需要针对所有词语防止语言模型得分前瞻值集中于词语开头并不是必要手段。仅需要针对部分词语或者与其它词语相比具有相对低的语言模型得分的所有词语来防止语言模型得分前瞻值集中于词语的开头。
话音输入装置101提供作为话音识别目标的话音波形。声学分析装置102针对每个帧从输入的话音波形来计算声学特征。距离计算装置103针对每个帧根据声学模型和输入话音波形的声学特征量之间的距离来计算声学模型得分。
搜索装置105根据通过合并词语词典203中的词语所获得的候选词语串(假设)来搜索和输出词语串,该词语串具有使用声学模型104计算为声学模型得分的每个词语的发音输出输入话音波形的概率值和使用语言模型202计算为语言模型得分的词语链的概率值的最大累计得分。搜索装置105包括执行词语末尾处理的词语末尾处理装置107和执行其它搜索处理的搜索装置106。
识别结果输出装置109输出从搜索装置105输出的识别结果。
将参考图1以及图2所示的流程图来对第一示例性实施例的整体操作进行详细描述。
首先,在步骤S1,使用话音输入装置101提供话音波形。
接下来,在步骤S2,声学分析装置102接收话音波形、计算诸如倒谱的声学特征量,并且输出该声学特征量。
接下来,在步骤S3,距离计算装置103接收声学特征量、从每个模型计算声学模型104的距离,并且输出声学模型得分。
接下来,在步骤S4,平滑化语言模型得分前瞻值计算装置201计算要搜索的所有假设中的语言模型得分前瞻值。
接下来,在步骤S5,原始搜索装置106针对每个假设将声学模型得分和语言模型得分前瞻值添加到的累计得分,以便于更新累计得分。
接下来,在步骤S6,确定假设是否为词语末尾。当假设是词语末尾时,在步骤S7,词语末尾处理装置107通过将一元语言模型添加到从语言模型203获得的二元语言模型得分来更正语言模型得分前瞻值。
接下来,在步骤S8,删减累计得分低的假设。例如,通过丢弃低于可能性阈值的假设的方法或者留下特定数目的高级别假设并且丢弃其它假设的方法来执行删减。
接下来,在步骤S9,确定话音输入是否被终止。当输入仍然继续时,该过程返回步骤S1,以便于对新的输入执行类似处理。当输入被终止时,该过程前进到步骤S10。
最后,在步骤S10,识别结果输出装置109接受来自搜索装置105的结果,并且输出最优识别结果。替选地,识别结果输出装置109可以输出除了最优识别结果之外的一些好的识别结果。
接下来,将对第一示例性实施例的有利效果进行描述。
根据第一示例性实施例,可以防止正确的答案假设被删减,从而降低识别错误率。其原因在于,因为防止了语言模型得分前瞻值集中于词语的开头,所以防止了由于语言模型得分前瞻值集中于词语开头而导致的正确答案假设的过早删减。
此外,根据本发明,与加宽集束宽度的情况相比,可以抑制假设数目的增加。其原因在于,虽然由于防止语言模型得分前瞻值集中于词语开头的操作而导致计算量有所增加,但是仅由于语言模型得分前瞻值集中于词语开头而被删减的假设的计算量有所增加,这仅是略有增加而已。另一方面,在加宽集束宽度的方法中,即使声学模型得分低的假设和词语末尾得分低的词语保留在搜索空间中而没有被删减,这也进一步增加了假设的计算量。
接下来,将详细描述平滑化语言模型得分前瞻值计算装置201的示例。
[平滑化语言模型得分前瞻值计算装置201的第一示例]
第一示例的平滑化语言模型得分前瞻值计算装置201基于从词语头部到该音素的音素数目来计算词语的每个音素中的语言模型得分前瞻值。更具体地,通过定义如表达式(3)和(4)中所表达的平滑化语言模型得分前瞻值来执行计算。
π’h(s)=min w∈W(s){-log p(w|h)} ...(3)
πh(s)=π’h(s)如果π’h(s)<=T(d(s))或s∈E
=T(d(s))其它 ...(4)
在表达式(3)中,如表达式(1)中获得语言模型得分的最优值π’h(s)。在表达式(4)中,根据音素s是从头部起的(第n个音素)的音素数目来确定阈值T(n)。当音素s是从头部起的第d(s)个音素时,如果π’h(s)超过T(d(s)),则仅将语言模型得分前瞻值添加最多阈值T(d(s))的值。这里,确定阈值,使得T(n)随n的减小而减小。相应地,可以防止语言模型得分前瞻值集中于词语的开头。符号E是词语的最后音素的集合。
图3示出了当第一示例使用树形结构词典进行操作时的语言模型得分前瞻值的特定示例。
首先,针对从词语头部起的多个音素中的每一个来确定语言模型前瞻值的阈值T(d)。例如,阈值按顺序从第一音素到第四音素被确定为“45”、“70”、“90”和“100”。阈值T(d)可以在平滑化语言模型得分前瞻值计算装置201、词语词典203或语言模型202中被预先确定和设置。替选地,阈值T(d)可以在计算平滑化语言模型得分前瞻值时由平滑化语言模型得分前瞻值计算装置201来确定。
接下来,当第一音素的最优语言得分超过第一音素的阈值时,指向第一音素的分支的语言模型得分前瞻差值为第一音素的阈值,并且超过第一音素阈值的值被带到指向下一个音素的分支。例如,第一音素“a”的最优语言得分为“50”,其比第一音素的阈值“45”超出了“5”。因此,指向第一音素“a”的分支的语言模型得分前瞻差值被设置为“45”,其等于第一音素的阈值,而超出阈值的值“5”则被带到指向下一个音素的分支。此外,还针对指向下一个音素的分支重复类似的处理。在词语的末尾音素,赋值语言模型得分前瞻差值,使得最优语言得分即使在得分超过音素阈值时也为语言模型得分前瞻值。例 如,第二音素“k”的最优语言得分为“90”,其比第二音素的阈值“70”超出了“20”。因此,第二音素的阈值“70”是第二音素“k”的语言模型得分前瞻值。通过从该值“70”减去添加到第一音素“a”的语言模型得分前瞻值“45”所获得的值“25”为指向第二音素“k”的分支的语言模型前瞻差值,并且超过阈值的值“20”被带到指向下一个音素的分支。根据以上的过程,可以防止过多超过阈值的语言模型前瞻值被添加。
[平滑化语言模型得分前瞻值计算装置201的第二示例]
第二示例的平滑化语言模型得分前瞻值计算装置201基于能够从音素追溯的词语音素数目来计算词语中每个音素中的语言模型得分前瞻值。更具体地,通过定义如表达式(5)和(6)中所表达的平滑化语言模型得分前瞻值来执行计算。
δh(s)=min w ∈W(s)[{-log p(w|h)-πh(s~)}/{N(w)-d(s)+1}] ...(5)
πh(s)=πh(s~)+δh(s) ...(6)
符号N(w)表示词语w的音素数目。与第一示例类似,符号d(s)指示音素s是第d(s)个音素。
在第二示例中,通过词语的音素数目来对语言模型得分进行均分所获得的值被用作语言模型前瞻差值。表达式(5)中的分子是通过从语言模型得分减去在先前音素s~前添加的语言模型得分前瞻值所获得的值,并且分母是词语w中的音素s和后续音素的音素的数目。因此,语言模型得分通过音素的数目来进行均分,并且将能够从s追溯的词语w中的最小数值赋值给指向音素s的分支,作为语言模型得分前瞻差值δh(s)。根据表达式(6),能够通过将差值添加到先前音素s~的语言模型得分前瞻值来获得语言模型得分前瞻值πh(s)。
图4示出了当第二示例使用树形结构词典进行操作时的语言模型 得分前瞻值的特定示例。
在图4所示的第一音素中,能够追溯四个词语。词语“a-k-u-sy-u”(意思为:“握手”)具有五个音素,并且其语言模型得分为“50”。因此,由于按5对“50”进行均分而导致每个分支具有值“10”。此外,词语“a-k-a-i”(意思为:“红色”)具有四个音素,并且其语言模型得分为“60”。因此,由于按4对“60”进行均分而导致每个分支具有值“15”。当对所有词语进行计算时,最小值为“10”,其是通过对“a-k-u-sy-u”(意思为:“握手”)的语言模型得分进行均分而得到的。因此,语言模型得分前瞻差值“10”被赋值给指向第一音素“a”的分支。接下来,关于音素“s”和后续的音素“a-s-o-b-i”(意思为:“玩耍”),没有在“a”处添加的语言模型得分为“80”,其是通过从语言模型得分“90”减去音素“a”的语言模型得分前瞻差值“10”来计算的,并且音素“s”和后续音素的数目为4。当值“80”按4进行均分时,每个分支具有值“20”。也对下一个音素重复执行该处理,以便于确定语言模型得分前瞻值。
根据以上的描述,由于语言模型得分前瞻值从词语的头部到末端进行分布,所以语言模型前瞻值被平滑化,并且没有在词语头部添加过多的语言模型前瞻值。
[平滑化语言模型得分前瞻值计算装置201的第三示例]
在第三示例的平滑化语言模型得分前瞻值计算装置201中,基于没有进行分支并且包括音素的音素串的音素数目来获得词语中每个音素的语言模型得分前瞻值。更具体地,通过定义如表达式(7)中所表达的平滑化语言模型得分前瞻值来执行计算。
δh(s)={πh(s)-πh(s~)}/m(s)如果s~∈B
=δh(s~)其它 ....(7)
符号B是在树形结构词典中进行分支的音素的集合。符号m(s)指示始于在s之后首次出现的在树形结构中进行分支的音素头部的音素数目和从头部到先前音素s~的音素数目之间的差。当树形结构中在s之后没有进行分支时,符号m(s)指示从头部到词语末尾的音素的音素数目和从头部到先前音素s~的音素数目之间的差。
首先,以与现有技术类似的方式通过表达式(1)获得语言模型得分的最优值πh(s)。在第三示例中,当存在没有进行分支的分支时,作为赋值最优值的差值的代替,按指示没有进行分支的分支的数目的m(s)对其进行均分,以便于对语言模型得分前瞻值进行平滑化。
图5示出了当第三示例使用树形结构词典进行操作时的语言模型得分前瞻值的特定示例。
在相关方法中,关于图5中的最低部分“a-s-o-b-i”(意思为“玩耍”),连接“a”和“s”的分支“a-s”具有语言模型得分前瞻差值“40”。在第三示例中,“s”、“o”和“b”中的每一个仅具有一个分支,并且不进行分支。因此,赋值给分支“a-s”的语言模型得分前瞻差值也被分配给这些分支。由于在音素“s”之后和其中不进行分支,所以使用从头部到词语末端的音素的数目。由于词语末尾的音素“i”是从头部音素起的第五个音素,并且s~是第一音素“a”,所以差m(s)为“4”。因此,分支“a-s”的语言模型得分前瞻差值“40”被等同分配到四个分支“a-s”、“s-o”、“o-b”和“b-i”中的每一个,使得每个分支都具有语言模型得分前瞻差值“10”。
类似地,语言模型得分前瞻差值也在“k-u-sy-u”和“a-r-i”中进行分配。根据以上描述,语言模型得分前瞻值被平滑化,并且能够防止过多语言模型前瞻值被添加在词语的开头。
[其它示例性实施例]
虽然在以上示例性实施例中,利用一元语言模型执行前瞻,并且一元语言模型在词语末尾处理中由二元语言模型所替代,但是前瞻中所使用的语言模型或在词语末尾处理中被替代的语言模型可以进行各种变化。例如,可以利用二元语言模型来执行前瞻,并且二元语言模型可以通过词语末尾处理由三元语言模型所替代。此外,这样的实施例可能不执行词语末尾处理,并且从前瞻的时间点起使用二元语言模型或三元语言模型。
虽然在示例性实施例以及第一至第三示例中使用树形结构词典作为词语词典203,但是即使在使用线性词典作为词语词典203时也可以使用相同的方法。
在上述示例性实施例中,每次都计算平滑化语言模型得分前瞻值。然而,例如,平滑化语言模型得分前瞻值可以事先被计算并存储在词语词典203或语言模型202中。然后,平滑化语言模型得分前瞻值计算装置201可以在搜索过程中从所存储的平滑化语言模型得分前瞻值中搜索并获得相应数值。
此外,除了硬件之外,平滑化语言模型得分前瞻值计算装置201、话音输入装置101、声学分析装置102、距离计算装置103、搜索装置105和识别结果输出装置109可以通过计算机和程序来执行。程序被记录在计算机可读记录介质中,诸如在开机时由计算机提供、读取的磁盘、半导体存储器等,并且程序控制计算机的操作,以便于按照装置的每一个来操作计算机,并且使得计算机执行以上所描述的处理。
虽然已经参考示例性实施例(和示例)对本发明进行了描述,但是本发明不局限于上述示例性实施例(和示例)。可以在本发明的范围内对本发明的结构和细节进行本领域技术人员所能够理解的各种改变。
本申请要求于2008年5月16日提交的日本专利申请No.2008-129937的优先权,并且通过引用其全部内容结合于此。
工业实用性
本发明适用于诸如话音转换系统的一般话音识别系统、信息搜索和使用话音识别的声学解释。
Claims (16)
1.一种语言模型得分前瞻值赋值设备,其特征是,包括:
词语词典,所述词语词典定义词语的音素串;
语言模型,所述语言模型对词语的出现容易度得分赋值;以及
平滑化语言模型得分前瞻值计算单元,所述平滑化语言模型得分前瞻值计算单元从由所述词语词典定义的所述词语的音素串和由所述语言模型定义的所述得分获得所述词语中每个音素处的语言模型得分前瞻值,使得防止所述语言模型得分前瞻值集中在所述词语的开头,其中,所述词语中每个音素处的语言模型得分前瞻值由所述平滑化语言模型得分前瞻值计算单元基于所述音素在所述词语中的出现顺序而获得。
2.如权利要求1所述的语言模型得分前瞻值赋值设备,其中,所述词语中每个音素处的语言模型得分前瞻值由所述平滑化语言模型得分前瞻值计算单元基于从词语头部到所述音素的音素数目来获得。
3.如权利要求2所述的语言模型得分前瞻值赋值设备,其中,所述平滑化语言模型得分前瞻值计算单元获得处于基于从词语头部到音素的音素数目而设置的所述语言模型得分前瞻值的阈值内的语言模型得分前瞻值。
4.如权利要求1所述的语言模型得分前瞻值赋值设备,其中,所述词语中每个音素处的语言模型得分前瞻值由所述平滑化语言模型得分前瞻值计算单元基于能够从所述音素追溯的词语的音素数目来获得。
5.如权利要求4所述的语言模型得分前瞻值赋值设备,其中,所述平滑化语言模型得分前瞻值计算单元基于能够从所述音素追溯的词语的音素数目来获得所述语言模型得分前瞻值,使得语言模型得分前瞻差值按能够从所述音素追溯的音素来进行均分。
6.如权利要求1所述的语言模型得分前瞻值赋值设备,其中,所述平滑化语言模型得分前瞻值计算单元基于不进行分支并且包括所述音素的音素串的音素数目来获得所述词语中每个音素处的所述语言模型得分前瞻值。
7.如权利要求6所述的语言模型得分前瞻值赋值设备,其中,所述平滑化语言模型得分前瞻值计算单元基于不进行分支并且包括所述音素的音素串的音素数目获得所述语言模型得分前瞻值,使得语言模型得分前瞻差值由不进行分支的音素来进行均分。
8.一种使用语言模型得分前瞻值来执行帧同步集束搜索的话音识别装置,包括:如权利要求1所述的语言模型得分前瞻值赋值设备。
9.一种语言模型得分前瞻值赋值方法,其特征是,所述方法从由词语词典定义的词语的音素串和由语言模型定义的得分来获得所述词语中每个音素处的语言模型得分前瞻值,使得防止所述语言模型得分前瞻值集中于所述词语的开头,其中,所述词语中每个音素处的语言模型得分前瞻值基于所述音素在所述词语中的出现顺序来获得。
10.如权利要求9所述的语言模型得分前瞻值赋值方法,其中,所述词语中每个音素处的语言模型得分前瞻值基于从词语头部到所述音素的音素数目来获得。
11.如权利要求10所述的语言模型得分前瞻值赋值方法,其中,获得处于基于从词语头部到音素的音素数目而设置的所述语言模型得分前瞻值的阈值内的语言模型得分前瞻值。
12.如权利要求10所述的语言模型得分前瞻值赋值方法,其中,所述词语中的每个音素处的语言模型得分前瞻值基于能够从所述音素追溯的词语的音素数目来获得。
13.如权利要求12所述的语言模型得分前瞻值赋值方法,其中,所述语言模型得分前瞻值基于能够从所述音素追溯的词语的音素数目获得,使得语言模型得分前瞻差值由能够从所述音素追溯的音素来进行均分。
14.如权利要求10所述的语言模型得分前瞻值赋值方法,其中,所述词语中每个音素处的语言模型得分前瞻值基于不进行分支并且包括所述音素的音素串的音素数目来获得。
15.如权利要求14所述的语言模型得分前瞻值赋值方法,其中,基于不进行分支并且包括所述音素的音素串的音素数目来获得所述语言模型得分前瞻值,使得语言模型得分前瞻差值由不进行分支的音素来进行均分。
16.一种使用语言模型得分前瞻值执行帧同步集束搜索的话音识别方法,所述语言模型得分前瞻值通过如权利要求10所述的语言模型得分前瞻值赋值方法来获得。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008-129937 | 2008-05-16 | ||
JP2008129937 | 2008-05-16 | ||
PCT/JP2009/056324 WO2009139230A1 (ja) | 2008-05-16 | 2009-03-27 | 言語モデルスコア先読み値付与装置およびその方法ならびにプログラム記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102027534A CN102027534A (zh) | 2011-04-20 |
CN102027534B true CN102027534B (zh) | 2013-07-31 |
Family
ID=41318603
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200980117762.7A Expired - Fee Related CN102027534B (zh) | 2008-05-16 | 2009-03-27 | 语言模型得分前瞻值赋值方法及设备 |
Country Status (4)
Country | Link |
---|---|
US (1) | US8682668B2 (zh) |
JP (1) | JP5447373B2 (zh) |
CN (1) | CN102027534B (zh) |
WO (1) | WO2009139230A1 (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9683862B2 (en) * | 2015-08-24 | 2017-06-20 | International Business Machines Corporation | Internationalization during navigation |
TWI731921B (zh) * | 2017-01-20 | 2021-07-01 | 香港商阿里巴巴集團服務有限公司 | 語音識別方法及裝置 |
CN108733739B (zh) * | 2017-04-25 | 2021-09-07 | 上海寒武纪信息科技有限公司 | 支持集束搜索的运算装置和方法 |
CN108959421B (zh) * | 2018-06-08 | 2021-04-13 | 腾讯科技(深圳)有限公司 | 候选回复评价装置和问询回复设备及其方法、存储介质 |
KR102177741B1 (ko) * | 2018-10-26 | 2020-11-11 | 아주대학교산학협력단 | 순환신경망 및 분기예측에 기반한 통신 메시지 해석 장치 및 그 방법 |
CN112242144A (zh) * | 2019-07-17 | 2021-01-19 | 百度在线网络技术(北京)有限公司 | 基于流式注意力模型的语音识别解码方法、装置、设备以及计算机可读存储介质 |
CN113838462B (zh) * | 2021-09-09 | 2024-05-10 | 北京捷通华声科技股份有限公司 | 语音唤醒方法、装置、电子设备及计算机可读存储介质 |
Family Cites Families (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE4130631A1 (de) * | 1991-09-14 | 1993-03-18 | Philips Patentverwaltung | Verfahren zum erkennen der gesprochenen woerter in einem sprachsignal |
DE4130633A1 (de) * | 1991-09-14 | 1993-03-18 | Philips Patentverwaltung | Verfahren zum erkennen der gesprochenen woerter in einem sprachsignal |
JP2905674B2 (ja) | 1993-10-04 | 1999-06-14 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 不特定話者連続音声認識方法 |
DE4412745A1 (de) * | 1994-04-14 | 1996-11-07 | Philips Patentverwaltung | Verfahren zum Ermitteln einer Folge von Wörtern und Anordnung zur Durchführung des Verfahrens |
JP3454959B2 (ja) * | 1995-03-15 | 2003-10-06 | 株式会社東芝 | 携帯電話装置 |
US5799065A (en) * | 1996-05-06 | 1998-08-25 | Matsushita Electric Industrial Co., Ltd. | Call routing device employing continuous speech |
US5822730A (en) * | 1996-08-22 | 1998-10-13 | Dragon Systems, Inc. | Lexical tree pre-filtering in speech recognition |
DE19639844A1 (de) * | 1996-09-27 | 1998-04-02 | Philips Patentverwaltung | Verfahren zum Ableiten wenigstens einer Folge von Wörtern aus einem Sprachsignal |
JP3061114B2 (ja) * | 1996-11-25 | 2000-07-10 | 日本電気株式会社 | 音声認識装置 |
JP3027543B2 (ja) | 1996-12-11 | 2000-04-04 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 連続音声認識装置 |
US6285786B1 (en) * | 1998-04-30 | 2001-09-04 | Motorola, Inc. | Text recognizer and method using non-cumulative character scoring in a forward search |
JP2938865B1 (ja) | 1998-08-27 | 1999-08-25 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 音声認識装置 |
JP3252815B2 (ja) * | 1998-12-04 | 2002-02-04 | 日本電気株式会社 | 連続音声認識装置及び方法 |
US6928404B1 (en) * | 1999-03-17 | 2005-08-09 | International Business Machines Corporation | System and methods for acoustic and language modeling for automatic speech recognition with large vocabularies |
US6963837B1 (en) * | 1999-10-06 | 2005-11-08 | Multimodal Technologies, Inc. | Attribute-based word modeling |
US6871341B1 (en) * | 2000-03-24 | 2005-03-22 | Intel Corporation | Adaptive scheduling of function cells in dynamic reconfigurable logic |
JP4105841B2 (ja) * | 2000-07-11 | 2008-06-25 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声認識方法、音声認識装置、コンピュータ・システムおよび記憶媒体 |
WO2002029615A1 (en) * | 2000-09-30 | 2002-04-11 | Intel Corporation | Search method based on single triphone tree for large vocabulary continuous speech recognizer |
US7043422B2 (en) * | 2000-10-13 | 2006-05-09 | Microsoft Corporation | Method and apparatus for distribution-based language model adaptation |
JP2002215187A (ja) * | 2001-01-23 | 2002-07-31 | Matsushita Electric Ind Co Ltd | 音声認識方法及びその装置 |
JP3813491B2 (ja) * | 2001-10-30 | 2006-08-23 | 日本放送協会 | 連続音声認識装置およびそのプログラム |
GB2391679B (en) * | 2002-02-04 | 2004-03-24 | Zentian Ltd | Speech recognition circuit using parallel processors |
US7181398B2 (en) * | 2002-03-27 | 2007-02-20 | Hewlett-Packard Development Company, L.P. | Vocabulary independent speech recognition system and method using subword units |
US7930181B1 (en) * | 2002-09-18 | 2011-04-19 | At&T Intellectual Property Ii, L.P. | Low latency real-time speech transcription |
JP2004191705A (ja) | 2002-12-12 | 2004-07-08 | Renesas Technology Corp | 音声認識装置 |
US7031915B2 (en) * | 2003-01-23 | 2006-04-18 | Aurilab Llc | Assisted speech recognition by dual search acceleration technique |
US20040158468A1 (en) * | 2003-02-12 | 2004-08-12 | Aurilab, Llc | Speech recognition with soft pruning |
US7725319B2 (en) * | 2003-07-07 | 2010-05-25 | Dialogic Corporation | Phoneme lattice construction and its application to speech recognition and keyword spotting |
EP1654727A4 (en) * | 2003-07-23 | 2007-12-26 | Nexidia Inc | INTERROGATIONS FOR THE DETECTION OF WORDS |
JP4583772B2 (ja) | 2004-02-05 | 2010-11-17 | 日本電気株式会社 | 音声認識システム、音声認識方法および音声認識用プログラム |
JP4541781B2 (ja) * | 2004-06-29 | 2010-09-08 | キヤノン株式会社 | 音声認識装置および方法 |
US8036893B2 (en) * | 2004-07-22 | 2011-10-11 | Nuance Communications, Inc. | Method and system for identifying and correcting accent-induced speech recognition difficulties |
JP4822829B2 (ja) * | 2005-12-14 | 2011-11-24 | キヤノン株式会社 | 音声認識装置および方法 |
US7734460B2 (en) * | 2005-12-20 | 2010-06-08 | Microsoft Corporation | Time asynchronous decoding for long-span trajectory model |
US7774197B1 (en) * | 2006-09-27 | 2010-08-10 | Raytheon Bbn Technologies Corp. | Modular approach to building large language models |
-
2009
- 2009-03-27 WO PCT/JP2009/056324 patent/WO2009139230A1/ja active Application Filing
- 2009-03-27 CN CN200980117762.7A patent/CN102027534B/zh not_active Expired - Fee Related
- 2009-03-27 US US12/992,760 patent/US8682668B2/en not_active Expired - Fee Related
- 2009-03-27 JP JP2010511918A patent/JP5447373B2/ja not_active Expired - Fee Related
Non-Patent Citations (4)
Title |
---|
Coenen, N..Look-ahead techniques for fast beam search.《ICASSP-97》.1997, * |
Ney, H. * |
Ortmanns,S.,Eiden,A * |
S. Ortmanns,H.Ney, A.Eiden.LANGUAGE-MODEL LOOK-AHEAD FOR LARGE VOCABULARY SPEECH RECOGNITION.《ICSLP-1996》.1996, * |
Also Published As
Publication number | Publication date |
---|---|
JP5447373B2 (ja) | 2014-03-19 |
US8682668B2 (en) | 2014-03-25 |
JPWO2009139230A1 (ja) | 2011-09-15 |
US20110191100A1 (en) | 2011-08-04 |
CN102027534A (zh) | 2011-04-20 |
WO2009139230A1 (ja) | 2009-11-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102027534B (zh) | 语言模型得分前瞻值赋值方法及设备 | |
CN111145728B (zh) | 语音识别模型训练方法、系统、移动终端及存储介质 | |
CN110364171B (zh) | 一种语音识别方法、语音识别系统及存储介质 | |
US10210862B1 (en) | Lattice decoding and result confirmation using recurrent neural networks | |
US8321218B2 (en) | Searching in audio speech | |
Bridle et al. | An algorithm for connected word recognition | |
JP5207642B2 (ja) | 語句として新たに認識するべき文字列を取得するためのシステム、方法及びコンピュータプログラム | |
Ney | The use of a one-stage dynamic programming algorithm for connected word recognition | |
CN111210807B (zh) | 语音识别模型训练方法、系统、移动终端及存储介质 | |
US8532990B2 (en) | Speech recognition of a list entry | |
KR20140028174A (ko) | 음성 인식 방법 및 이를 적용한 전자 장치 | |
CN1171592A (zh) | 采用连续密度隐藏式马尔克夫模型的语音识别方法和系统 | |
CN108074562B (zh) | 语音识别装置、语音识别方法以及存储介质 | |
CN1613107A (zh) | 基于hmm的文字-音素分析器及其训练方法 | |
CN111916064A (zh) | 一种端到端的神经网络语音识别模型的训练方法 | |
US10042345B2 (en) | Conversion device, pattern recognition system, conversion method, and computer program product | |
US20110218802A1 (en) | Continuous Speech Recognition | |
Katsurada et al. | Evaluation of fast spoken term detection using a suffix array | |
KR101483947B1 (ko) | 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체 | |
CN113763939B (zh) | 基于端到端模型的混合语音识别系统及方法 | |
Katsurada et al. | Utilization of Suffix Array for Quick STD and Its Evaluation on the NTCIR-9 SpokenDoc Task. | |
US20040148163A1 (en) | System and method for utilizing an anchor to reduce memory requirements for speech recognition | |
Hu et al. | On-line handwriting recognition with constrained n-best decoding | |
Oonishi et al. | Generalization of specialized on-the-fly composition | |
JP3818154B2 (ja) | 音声認識方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20130731 Termination date: 20210327 |