CN101894549A - 一种语音识别应用领域中的置信度快速计算方法 - Google Patents

一种语音识别应用领域中的置信度快速计算方法 Download PDF

Info

Publication number
CN101894549A
CN101894549A CN2010102180369A CN201010218036A CN101894549A CN 101894549 A CN101894549 A CN 101894549A CN 2010102180369 A CN2010102180369 A CN 2010102180369A CN 201010218036 A CN201010218036 A CN 201010218036A CN 101894549 A CN101894549 A CN 101894549A
Authority
CN
China
Prior art keywords
probability
confidence
recognition unit
degree
current
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2010102180369A
Other languages
English (en)
Inventor
刘常亮
董滨
潘复平
颜永红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
Original Assignee
Institute of Acoustics CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS filed Critical Institute of Acoustics CAS
Priority to CN2010102180369A priority Critical patent/CN101894549A/zh
Publication of CN101894549A publication Critical patent/CN101894549A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种语音识别应用领域中的置信度的快速计算方法。此方法采用一种改进的后验概率作为置信度。此后验概率的分母用当前语音段在所有识别单元上的累积概率的最大值来代替。在分母的计算过程中,首先构建了一个包含所有识别单元的隐马尔可夫模型网络,然后采用Viterbi算法在此网络上搜索最佳路径累积概率。在搜索过程中,采用了beam剪枝和n-best剪枝的方法来降低观察概率的计算次数,有效降低了时间复杂度。本算法可大大提高置信度的计算效率,而且基本不降低置信度的性能,便于推广应用。

Description

一种语音识别应用领域中的置信度快速计算方法
技术领域
本发明属于语音识别技术领域,具体的说,本发明涉及一种语音识别应用领域中的置信度快速计算方法。
背景技术
在语音识别及其相关的诸多应用领域中,置信度的计算都是一个非常重要的部分。置信度用于评价某事件的可靠程度,在形式上,可以将其定义为函数C(A),A为事件空间{A1,A2,...Ak...}中的一个元素,C(A)满足:若发生事件A1的可靠性比发生A2高,则有C(A1)>C(A2)。置信度可以对语音识别系统的识别结果进行假设检验,通过试验设定的阈值对识别结果的可靠性进行评价,定位结果中的错误,从而提高识别系统的识别率和稳健性。在关键词检测中,置信度被用于对虚警和漏检率的控制;而在发音评估中,置信度被当作为发音是否正确的测度;在命令词识别领域,置信度被用于某些无关词汇的拒识。总之,与语音识别相关的各个应用中,几乎都需应用到置信度这一指标。
置信度有很多种计算方式,包括基于假设检验的置信度,基于后验概率的置信度,以及基于多种预测特征融合的置信度等等。在目前的基于隐马尔可夫模型的语音识别系统中,最常用且有效的置信度是基于后验概率的置信度。传统的基于声学层信息的后验概率主要有以下两种:
1)基于帧平均的后验概率
2)基于音素累计概率的后验概率
前者需要对每一帧语音在整个声学空间(所有的隐马尔可夫状态)上计算观察概率,后者在计算后验概率的分母的时候需要对一个音素循环网络进行解码。这两个算法的时间复杂度都相当高,因此在实际应用中难以推广。
发明内容
本发明的目的是克服现有技术计算复杂度高的缺点,提供一种快速而又不降低性能的声学层置信度(下文中简称为置信度)计算方法。此方法以后验概率置信度为基础,做了一系列的改进。
本发明中,对某个识别单元的置信度采用如下公式计算:
CONF cph = P ( O | M cph ) MAX ph ∈ all P ( O | M ph ) - - - ( 1 )
其中分子P(O|Mcph)表示当前识别单元语音段O在表征当前识别单元cph的隐马尔可夫模型Mcph上计算的累积概率;分母表示当前语音段在识别单元集合中所有识别单元模型上的累积概率的最大值。
在实际的计算过程中,对分母部分,本发明首先构建了一个包含所有识别单元的隐马尔可夫模型网络,如图1所示。网络中的每条路径代表一个识别单元,如图中的ph1、ph2等表示的是识别单元1、识别单元2等。此处的识别单元是音素(phone),也可以是其他的语音单元(如音节等)。在图1中,一个识别单元用一个包含三个状态的隐马尔科夫模型来表征,此处的状态数也可以是其他的任意数目。对当前的语音帧序列,在这个网络上进行Viterbi搜索,在结束节点上的最优累积概率即为分母
Figure BSA00000173019600023
在这个过程中,本发明还可以采用有效的剪枝策略减少计算量,比如,可采用beam剪枝和/或n-best剪枝。其中,Beam剪枝是语音识别中常用的一种提高搜索效率的方法,其基本思想是在搜索过程中,将那些累积概率比较低的路径当做不应该出现的路径而直接剪掉。N-best剪枝的思想是在搜索过程中,始终保持一定数量的路径,将所有路径按照累积概率排序,剪除那些概率较低且超出规定数量的路径。
Beam剪枝的具体方法如下:
1.计算当前帧在所有状态上的累积概率;
2.计算所有状态上的当前累积概率的最大值maxProb;
3.检查每一条路径,如果这条路径上所有状态的最大累积概率小于maxProb-curBeam,这条路径即被剪掉,之后的计算中不再考虑此路径;
4.重新设定curBeam为curBeam+beamStep;
5.新的语音帧到来,转到步骤1,重复以上步骤。
其中,curBeam的处理当前语音帧时所设定的beam值,在搜索过程开始时,为其设定一初始值,此初始值表示为beamBase;beamStep是随着搜索过程的推进,每次对curBeam的增加量,它的值等于(beamMax-beamBase)/frameNum,其中beamMax为剪枝过程中所允许的最大beam值,frameNum是当前语音段的帧数。
n-best剪枝的具体方法如下:
1.计算当前帧的所有状态的累积概率;
2.将所有路径按照此路径上的最大累积概率降序排序;
3.保留前curBestNum条路径,剪除其后概率较小的路径
4.重新设定curBestNum为bestNumBase-bestNumStep×curFrameNum
5.新的语音帧到来,转到1,重复以上步骤。
其中,curBestNum是在处理当前语音帧时所需保留的路径数目,在搜索过程开始时,为其设定初始值,此初始值表示为bestNumBase,curFrameNum是当前已处理的语音帧数,bestNumStep设为(bestMin-bestBase)/frameNum,bestNumMin为搜索过程结束时所保留的最少的路径数目。
在实际执行过程中,beam剪枝和n-best剪枝是同时进行的。
本发明具有下列技术效果:
通过简化后验概率分母的计算方式,以及通过采用多种剪枝方式,在不降低性能的前提下,大大减少所需概率计算次数,有效降低算法的时间复杂度,提高置信度计算速度。
附图说明
图1是为计算本发明中的后验概率的分母所构建的识别单元隐马尔可夫模型网络的示意图;
图2是本发明用于发音准确度的计算时的流程图。
具体实施方式
下面结合附图及具体实施例对本发明做进一步描述:
实施例
本实施例是一个用于发音评估中的置信度计算方法。在发音评估中,置信度实际上就是发音准确度。如图2所示,该用于发音评估中的置信度计算方法包含如下步骤:
1)前端处理:对输入语音进行预处理,进行特征提取;
在本实施例中,将输入数据进行16K采样率数字化(此处也可采用其他的采样率,比如,8K,32K等等),并进行预加重、分帧、加窗处理,对每一帧提取MFCC(mel-frequency cepstral coefficient)特征矢量及两阶差分矢量。
2)强制对齐:将1)中得到的语音特征序列与参考文本进行强制对齐,得到特征序列与识别单元序列的对应关系。此处以音素作为本实施例的识别单元。在实际应用中,识别单元还可以是音节,单词等语音单元。
在本实施例中,其处理过程为首先将参考文本根据字典以及声学模型转化为隐马尔可夫模型状态序列,然后采用Viterbi算法解码得到最佳匹配路径,即得到语音特征帧与音素的对应序列。这个对应序列描述了每个音素在整段语音中的位置,即起始的时间点。这些时间点将整段的特征序列切分成一个个的音素片段。在下面的步骤中,将根据这些时间点,对每一个音素计算其后验概率。
3)后验概率计算:对音素序列中的每一个音素用本发明中的计算方法计算其后验概率,作为置信度输出,也即为此音素的发音准确度。
此处,公式(1)中的O即为本音素所对应的特征帧序列,也即在强制对齐过程中所切分出来的音素特征片段
本实施例中的剪枝算法中所涉及的各项参数在本实施例中设置如下:
beamBase=5000
beamMax=16000
bestNumBase=音素总数-10
bestNumMin=5
实验验证:
采用汉语单词和句子数据(包含100个单字词,100个双字词,以及100个短句,短句的长度在15个字以内)作为测试数据。由30个人在安静环境下朗读这些单词和句子,男女各15个。语音数据按照16K,16bit,单声道的格式来存储。采用如下方法来构造负样本(发音错误的样本):对上述的朗读数据,从中随机挑选一些音节,通过修改参考文本的方式来构造负样本。这样,对单字词数据和句子数据,分别包含约30%的负样本(以音节为单位来计算)。对发音质量评估的性能采用对错读音节检测的等错率(EER)来评价,系统的速度采用实时率来评价。
使用两种不同的方法来计算发音准确度,一种是前面所述的基于音素累计概率的后验概率方法,一种是本文所提出的快速置信度计算方法。它们的准确性和实时率比较如下:
Figure BSA00000173019600051
从上表中看出,本文所提出的快速置信度计算方法,在保证等错率指标基本不变的情况下,速度提高了约3倍,提升效果显著。

Claims (7)

1.一种语音识别应用领域中的置信度快速计算方法,其特征在于,
1)对一个识别单元,计算当前语音段在当前识别单元模型上的累积概率,将其作为后验概率的分子;
2)计算当前语音段在所有识别单元模型上的累积概率的最大值,将其作为后验概率的分母;
3)将步骤1)的分子与步骤2)得出的分母相除得出后验概率,并将该后验概率作为当前识别单元的置信度。
2.如权利要求1所述的置信度快速计算方法,其特征在于,所述的后验概率采用如下公式计算:
CONF cph = P ( O | M cph ) MAX ph ∈ all P ( O | M ph )
其中,分子P(O|Mcph)表示当前识别单元语音段O在当前识别单元cph的隐马尔可夫模型Mcph上计算的累积概率;分母
Figure FSA00000173019500012
表示当前语音段在当前语言的识别单元集合中所有识别单元模型上的累积概率的最大值。
3.如权利要求1所述的置信度快速计算方法,其特征在于,所述步骤1)中,构建一个包含所有识别单元模型的模型并联网络,然后通过Viterbi搜索算法搜索最佳的路径,以结束节点上的最优概率作为所述后验概率的分母。
4.如权利要求1所述的置信度快速计算方法,其特征在于,所述步骤2)中,在Viterbi搜索算法中,采用beam剪枝和/或n-best剪枝的方法以降低搜索复杂度。
5.如权利要求3所述的置信度快速计算方法,其特征在于,所述的模型并联网络中的每条路径表示一个隐马尔可夫模型,每个隐马尔可夫模型代表一个识别单元,由若干个状态组成;所述的模型并联网络包含一个连接到所有隐马尔可夫模型起始状态的开始节点和一个连接到所有隐马尔可夫模型结束状态的结束节点。
6.如权利要求4所述的置信度快速计算方法,其特征在于,所述的beam剪枝方法包含如下步骤:
a)设定初始的beam为curBeam;
b)计算当前帧在所有状态上的累积概率;
c)计算所有状态上的当前累积概率的最大值maxProb;
d)检查每一条路径,如果这条路径上的最大累积概率小于maxProb-curBeam,这条路径即被剪掉,之后的计算中不再考虑此路径;
e)curBeam累加beamStep,为事先设定的累加量,即每过一帧,当前的beam增加beamStep;
f)新的语音帧到来,重新执行步骤a)。
7.如权利要求4所述的置信度快速计算方法,其特征在于,所述的n-best剪枝方法包含如下步骤:
a)设定初始的需保留的路径数目curBestNum;
b)计算当前帧的所有状态的累积概率;
c)将所有路径按照此路径上的最大累积概率降序排序;
d)保留前curBestNum条路径,剪除其后概率较小的路径;
e)根据当前已处理的语音帧数重新设定curBestNum;
f)新的语音帧到来,重新执行步骤a)。
CN2010102180369A 2010-06-24 2010-06-24 一种语音识别应用领域中的置信度快速计算方法 Pending CN101894549A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010102180369A CN101894549A (zh) 2010-06-24 2010-06-24 一种语音识别应用领域中的置信度快速计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010102180369A CN101894549A (zh) 2010-06-24 2010-06-24 一种语音识别应用领域中的置信度快速计算方法

Publications (1)

Publication Number Publication Date
CN101894549A true CN101894549A (zh) 2010-11-24

Family

ID=43103720

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010102180369A Pending CN101894549A (zh) 2010-06-24 2010-06-24 一种语音识别应用领域中的置信度快速计算方法

Country Status (1)

Country Link
CN (1) CN101894549A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102436809A (zh) * 2011-10-21 2012-05-02 东南大学 英语口语机考系统中网络语音识别方法
CN103366734A (zh) * 2012-03-31 2013-10-23 佳能株式会社 声音识别结果检验方法和设备、声音识别及音频监视系统
CN105190746A (zh) * 2013-05-07 2015-12-23 高通股份有限公司 用于检测目标关键词的方法和设备
CN106875936A (zh) * 2017-04-18 2017-06-20 广州视源电子科技股份有限公司 语音识别方法及装置
CN110176251A (zh) * 2019-04-03 2019-08-27 苏州驰声信息科技有限公司 一种声学数据自动标注方法及装置
CN111289829A (zh) * 2020-03-18 2020-06-16 西南石油大学 一种基于多源信息融合的配电变压器在线监测方法及系统
CN112951211A (zh) * 2021-04-22 2021-06-11 中国科学院声学研究所 一种语音唤醒方法及装置
CN113763960A (zh) * 2021-11-09 2021-12-07 深圳市友杰智新科技有限公司 模型输出的后处理方法、装置和计算机设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6631346B1 (en) * 1999-04-07 2003-10-07 Matsushita Electric Industrial Co., Ltd. Method and apparatus for natural language parsing using multiple passes and tags
CN1979638A (zh) * 2005-12-02 2007-06-13 中国科学院自动化研究所 一种语音识别结果纠错方法
CN101118745A (zh) * 2006-08-04 2008-02-06 中国科学院声学研究所 语音识别系统中的置信度快速求取方法
CN101609672A (zh) * 2009-07-21 2009-12-23 北京邮电大学 一种语音识别语义置信特征提取的方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6631346B1 (en) * 1999-04-07 2003-10-07 Matsushita Electric Industrial Co., Ltd. Method and apparatus for natural language parsing using multiple passes and tags
CN1979638A (zh) * 2005-12-02 2007-06-13 中国科学院自动化研究所 一种语音识别结果纠错方法
CN101118745A (zh) * 2006-08-04 2008-02-06 中国科学院声学研究所 语音识别系统中的置信度快速求取方法
CN101609672A (zh) * 2009-07-21 2009-12-23 北京邮电大学 一种语音识别语义置信特征提取的方法和装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
《10TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2009》 20090910 Liu Changliang; Ge Fengpei; Pan Fuping;et al A One-Step Tone Recognition Approach Using MSD-HMM for Continuous Speech 2975-2978 , 2 *
《2010 INTERNATIONAL CONFERENCE ON E-EDUCATION, E-BUSINESS, E-MANAGEMENT AND E-LEARNING: IC4E 2010, PROCEEDINGS》 20100124 Sun,YQ;Zhao,QW;Liu,CL;et al Combining phoneme loop posteriori with decoding posteriori as confidence measure for speech recognition in e-Service 238-241 , 2 *
《Speech Communication 》 20001231 S.M.Witt et al Phone-level pronunciation scoring and assessment for interactive language learning 95-108 , *
《声学技术》 20061031 董滨; 赵庆卫; 颜永红; 用于电话语音识别系统的置信度估计方法的研究 , 2 *
《电子与信息学报》 20070930 张鹏远; 韩疆; 颜永红; 关键词检测系统中基于音素网格的置信度计算 , 2 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102436809A (zh) * 2011-10-21 2012-05-02 东南大学 英语口语机考系统中网络语音识别方法
CN103366734A (zh) * 2012-03-31 2013-10-23 佳能株式会社 声音识别结果检验方法和设备、声音识别及音频监视系统
CN103366734B (zh) * 2012-03-31 2015-11-25 佳能株式会社 声音识别结果检验方法和设备、声音识别及音频监视系统
CN105190746A (zh) * 2013-05-07 2015-12-23 高通股份有限公司 用于检测目标关键词的方法和设备
CN105190746B (zh) * 2013-05-07 2019-03-15 高通股份有限公司 用于检测目标关键词的方法和设备
CN106875936A (zh) * 2017-04-18 2017-06-20 广州视源电子科技股份有限公司 语音识别方法及装置
CN110176251A (zh) * 2019-04-03 2019-08-27 苏州驰声信息科技有限公司 一种声学数据自动标注方法及装置
CN111289829A (zh) * 2020-03-18 2020-06-16 西南石油大学 一种基于多源信息融合的配电变压器在线监测方法及系统
CN111289829B (zh) * 2020-03-18 2022-07-12 西南石油大学 一种基于多源信息融合的配电变压器在线监测方法及系统
CN112951211A (zh) * 2021-04-22 2021-06-11 中国科学院声学研究所 一种语音唤醒方法及装置
CN112951211B (zh) * 2021-04-22 2022-10-18 中国科学院声学研究所 一种语音唤醒方法及装置
CN113763960A (zh) * 2021-11-09 2021-12-07 深圳市友杰智新科技有限公司 模型输出的后处理方法、装置和计算机设备

Similar Documents

Publication Publication Date Title
CN101894549A (zh) 一种语音识别应用领域中的置信度快速计算方法
US6104989A (en) Real time detection of topical changes and topic identification via likelihood based methods
US9002705B2 (en) Interactive device that recognizes input voice of a user and contents of an utterance of the user, and performs a response corresponding to the recognized contents
CN101118745B (zh) 语音识别系统中的置信度快速求取方法
Szoke et al. Sub-word modeling of out of vocabulary words in spoken term detection
CN101645271A (zh) 发音质量评估系统中的置信度快速求取方法
Chen et al. Improved pronunciation features for construct-driven assessment of non-native spontaneous speech
US20050038647A1 (en) Program product, method and system for detecting reduced speech
Gandhe et al. Using web text to improve keyword spotting in speech
US20040148169A1 (en) Speech recognition with shadow modeling
Scharenborg et al. A two-pass strategy for handling OOVs in a large vocabulary recognition task
Heigold et al. Investigations on exemplar-based features for speech recognition towards thousands of hours of unsupervised, noisy data
Novotney et al. Analysis of low-resource acoustic model self-training
Chelba et al. Distributed acoustic modeling with back-off n-grams
JP6026224B2 (ja) パターン認識方法および装置ならびにパターン認識プログラムおよびその記録媒体
Doumpiotis et al. Discriminative training for segmental minimum Bayes risk decoding
US20040148163A1 (en) System and method for utilizing an anchor to reduce memory requirements for speech recognition
Ogawa et al. Discriminative recognition rate estimation for n-best list and its application to n-best rescoring
KR100842754B1 (ko) 조음 특징의 신뢰도를 이용한 음성 인식 방법 및 장치
US20040267529A1 (en) N-gram spotting followed by matching continuation tree forward and backward from a spotted n-gram
Liu et al. Training data selection for improving discriminative training of acoustic models
JP2000075885A (ja) 音声認識装置
Taguchi et al. Learning lexicons from spoken utterances based on statistical model selection
JP4689497B2 (ja) 音声認識装置
Anguita et al. Word confusability prediction in automatic speech recognition.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20101124