CN102402984A - 基于置信度的关键词检出系统裁剪方法 - Google Patents

基于置信度的关键词检出系统裁剪方法 Download PDF

Info

Publication number
CN102402984A
CN102402984A CN2011102806038A CN201110280603A CN102402984A CN 102402984 A CN102402984 A CN 102402984A CN 2011102806038 A CN2011102806038 A CN 2011102806038A CN 201110280603 A CN201110280603 A CN 201110280603A CN 102402984 A CN102402984 A CN 102402984A
Authority
CN
China
Prior art keywords
local path
confidence
keyword
degree
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011102806038A
Other languages
English (en)
Inventor
韩纪庆
袁浩
李海洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN2011102806038A priority Critical patent/CN102402984A/zh
Publication of CN102402984A publication Critical patent/CN102402984A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

基于置信度的关键词检出系统裁剪方法,涉及关键词检出系统中的局部路径裁剪方法。解决现有基于似然分的路径裁剪不能最大程度地缩减搜索空间,从而导致系统效率低,关键词确认阶段计算量大的问题。将语音特征提取得特征矢量序列,根据Viterbi解码,计算局部路径上活动模型状态产生特征矢量的概率,并累加得局部路径概率得分,再计算特征矢量的后验概率,累加得局部路径置信度得分;然后依次进行基于似然分和置信度的状态层局部路径裁剪,然后判断是否到达语音末尾,是则据解码过程生成的网格回溯找关键词,得到识别结果,否则重新解码。本发明能最大程度地缩减搜索空间,能减少30%的关键词候选。本发明适用于确认阶段计算量大的任务中。

Description

基于置信度的关键词检出系统裁剪方法
技术领域
本发明涉及一种关键词检出系统中的局部路径裁剪方法,具体是在基于似然分裁剪的基础上添加基于置信度裁剪的方法。
背景技术
关键词检出是从连续语音中识别出一组给定词的过程,它是一种非受限的语音信号处理系统,允许用户采用自然的说话方式,而不必局限于特定的语法。虽然近年来关键词检出技术获得了长足的进步,但是其检出效率仍不够高。一般的关键词检出系统,检出率通常能达到90%以上,但是系统效率始终是制约其进一步发展的瓶颈。为此,人们引入ViterbiBeam解码过程来对未知语音进行解码,它基于似然分进行局部路径的裁剪。但是这种方法具有一定的局限性,如在解码过程中,没有考虑观察矢量的先验概率,解码得到的只是所有可能的词序列中与输入语音最匹配的词串,但是其置信度不一定足够高,也就是最匹配的词串不一定就是实际语音对应的词串。它只是扩展那些似然分高的局部路径,而忽略那些似然分低的局部路径,解码过程中完全没有考虑各条路径的可信程度。造成裁剪过程不充分,搜索空间中保留一些不可能的路径,增加系统的计算量,降低系统的实时性。因此,需要研究关键词检出中的裁剪过程,进一步提高系统的检出速度,改善系统的实时性。
发明内容
本发明的目的是为了解决现有关键词检出系统解码过程中,基于似然分的路径裁剪不能最大程度地缩减搜索空间,从而导致系统效率低下,关键词确认阶段计算量大的问题,本发明提供了一种基于置信度的关键词检出系统裁剪方法。
本发明的基于置信度的关键词检出系统裁剪方法是通过以下步骤实现的:
步骤一、输入语音信号,对输入的语音信号进行预处理,特征提取得到特征矢量序列X={x1,x2,...xs},其中S代表自然数;
步骤二、根据Viterbi解码算法,对每帧语音特征在预先定义的识别网络上进行解码,解码之前,为每条局部路径增加一个变量,用于记录该条局部路径上的累积置信度得分,并将累积置信度得分初始化为0;
步骤三、在t时刻,所有局部路径向前扩展一次,得相应局部路径的活动模块,然后计算每个活动模型的状态q产生特征矢量xt的概率,并累加到该条局部路径的似然分中,同时计算每个活动模型中状态q相对于xt的后验概率,再将后验概率累加到对应的局部路径的置信度得分中,获得每条局部路径的置信度得分,其中,xt∈X,1≤t≤S,t取自然数;
步骤四、进行基于似然分的状态层局部路径裁剪;
步骤五、进行基于置信度的状态层局部路径裁剪;
步骤六、判断是否到达语音末尾,是则转步骤七,否则转步骤二;
步骤七、根据解码过程中生成的网格回溯查找关键词,并基于后验概率确认关键词候选从而得到最终的识别结果,完成基于置信度的关键词检出系统裁剪方法。
本发明步骤三中获得每条局部路径的置信度得分的过程为:
步骤1、计算每个活动模型的状态q产生特征矢量xt的先验概率P(xt):设在处理xt时,系统存在N个活动模型,累加每个活动模型中包含的所有状态q产生特征矢量xt的概率,作为P(xt)的近似值,即:
P ( x t ) = Σ m ∈ A _ mode l Σ q ∈ m P ( x t | q ) ,
其中,A_model表示t时刻系统中存在的N个活动模型的集合,m表示集合中任意一个活动模型,q为活动模型m中的状态;
步骤2、t时刻系统中每个活动模型中状态q的对数后验概率按下式进行计算:
logP(q|xt)=logP(xt|q)+logP(q)-logP(xt),
其中,P(xt)为步骤1中计算的特征矢量xt的先验概率,P(xt|q)为状态q产生特征矢量xt的声学概率,P(q)为状态q的先验概率,可以离线计算得到,也可以忽略不计;
步骤3、将状态q的后验概率累加到其对应的局部路径置信度得分中。
本发明步骤四中进行基于似然分的状态层局部路径裁剪的过程为:
步骤1、按照从大到小的顺序依次保存任意t时刻所有局部路径似然分(步骤三中得到的)到数组score[1...N]中,假设t时刻共N条局部路径;
步骤2、任意时刻t,根据和该时刻t的N条局部路径中的最大似然分Smax,计算得到t时刻的裁剪门限:
threshhold(t)=α×(Smax(t)-beam(t))
其中,beam(t)为第时刻t(t帧)时的束宽度;
步骤3、遍历数组score[1...N],对于其中的每一个得分score[i],如果score[i]<threshhold(t),则终止在其对应的局部路径上的搜索,否则,继续在该条局部路径上进行搜索,其中,1≤i≤N。
其中步骤2中的束宽度beam(t)可以采用预先设定的固定束宽度,也可以自适应获得beam(t),如根据t时刻所有局部路径得分中最大的和所有得分的平均值计算得到beam(t)等方法。束宽度beam(t)的设定是本领域技术人员公知的。
本发明步骤五中进行基于置信度的状态层局部路径裁剪的过程为:
步骤1、按照从大到小的顺序依次保存任意t时刻所有局部路径的置信度得分(步骤三中得到的)到数组score[1...N]中,假设t时刻共N条局部路径;
步骤2、任意时刻t,根据裁剪宽度beam(t)和该时刻t的N条局部路径中的最大置信度得分Smax,计算得到t时刻的裁剪门限:
threshhold(t)=α×(Smax(t)-beam(t))
其中,beam(t)为第时刻t(t帧)时的束宽度;
步骤3、遍历数组score,对于其中的每一个得分score[i],如果score[i]<threshhold(t),则终止在其对应的局部路径上的搜索,否则,继续在该条局部路径上进行搜索。
其中步骤2中的束宽度beam(t)可以采用预先设定的固定束宽度,也可以自适应获得beam(t),如根据t时刻所有局部路径得分中最大的和所有得分的平均值计算得到beam(t)等方法。束宽度beam(t)的设定是本领域技术人员公知的。
本发明步骤一中特征提取得到特征矢量序列的过程为:对说话人信号s(n)(即待检测语音信号)进行采样量化和预加重处理,假设说话人信号是短时平稳的,所以说话人信号可以进行分帧处理,具体分帧方法是采用可移动的有限长度窗口进行加权的方法来实现的,对加权后的语音信号sw(n)计算Mel倒谱系数(MFCC参数),从而得到特征矢量序列X={x1,x2,...,xs},其中,MFCC参数的提取过程如下:
(1)将语音信号进行分帧,预加重和加汉明窗处理,然后进行短时傅里叶变换,得到语音信号的频谱;
(2)求出频谱平方(即能量谱),并用M个Mel带通滤波器进行滤波,由于每个频带中分量的作用在人耳中是叠加的,因此将每个滤波器频带内的能量进行叠加,这时第k个滤波器输出功率谱为x′(k),1≤k≤M,k取整数;
(3)将每个滤波器的输出取对数,得到相应频带的对数功率谱;并进行反离散余弦变换,得到L个MFCC系数,一般L取12~16个。MFCC系数为
C n = Σ k = 1 M log x ′ ( k ) cos [ π ( k - 0.5 ) n / M ] , n=1,2,...L
(4)将步骤(3)直接得到的MFCC系数作为静态特征,再将静态特征做一阶和二阶差分,得到相应的动态特征。
本发明步骤二中所述的预先定义的识别网络是由关键词模型和垃圾模型构成的。
本发明采用基于似然分和置信度相结合进行状态层裁剪的新方法,能最大程度地缩减搜索空间。与传统的仅基于似然分进行状态层裁剪的方法相比,本发明的新方法的识别时间比降低了4%~10%,本发明的新方法能够减少30%的关键词候选,而系统识别性能没有明显的改变。这种方法尤其适用于确认阶段计算量大的任务中。
附图说明
图1是具体实施方式一的步骤二中预先定义的识别网络的结构示意图;图2是关键词检出方法的系统性能识别曲线图,其中,曲线1是试验1的基于置信度的关键词检出系统裁剪方法的统性能识别曲线,曲线2是试验2的似然分的关键词检出系统裁剪方法的系统识别性能曲线。
具体实施方式
本发明技术方案不局限于以下所列举具体实施方式,还包括各具体实施方式间的任意组合。
具体实施方式一:本实施方式为基于置信度的关键词检出系统裁剪方法,其是通过以下步骤实现的:
步骤一、输入语音信号,对输入的语音信号进行预处理,特征提取得到特征矢量序列X={x1,x2,...xs},其中S代表自然数;
步骤二、根据Viterbi解码算法,对每帧语音特征在预先定义的识别网络上进行解码,解码之前,为每条局部路径增加一个变量,用于记录该条局部路径上的累积置信度得分,并将累积置信度得分初始化为0;
步骤三、在t时刻,所有局部路径向前扩展一次,得相应局部路径的活动模块,然后计算每个活动模型的状态q产生特征矢量xt的概率,并累加到该条局部路径的似然分中,同时计算每个活动模型中状态q相对于xt的后验概率,再将后验概率累加到对应的局部路径的置信度得分中,获得每条局部路径的置信度得分,其中,xt∈X,1≤t≤S,t取自然数;
步骤四、进行基于似然分的状态层局部路径裁剪;
步骤五、进行基于置信度的状态层局部路径裁剪;
步骤六、判断是否到达语音末尾,是则转步骤七,否则转步骤二;
步骤七、根据解码过程中生成的网格回溯查找关键词,并基于后验概率确认关键词候选从而得到最终的识别结果,完成基于置信度的关键词检出系统裁剪方法。
本实施方式步骤七为本领域技术人员的公知常识,结合现有技术,即可完成。
本实施方式步骤一中对于一个语音文件,S是有限的。但是如果直接用麦克风输入语音,那么理论上S可以无限大,但这种情况在实际中很少。实际上是对输入的语音每隔一段时间就提取一帧特征矢量,可以随着时间向后推移,那么S就逐渐增大。
本实施方式采用基于似然分和置信度相结合进行状态层裁剪的新方法,能最大程度地缩减搜索空间。与传统的仅基于似然分进行状态层裁剪的方法相比,本实施方式的新方法的识别时间比降低了4%~10%,本发明的新方法能够减少30%的关键词候选,而系统识别性能没有明显的改变。这种方法尤其适用于确认阶段计算量大的任务中。
本实施方式步骤一中特征提取得到特征矢量序列的过程为:对说话人信号s(n)(即待检测语音信号)进行采样量化和预加重处理,假设说话人信号是短时平稳的,所以说话人信号可以进行分帧处理,具体分帧方法是采用可移动的有限长度窗口进行加权的方法来实现的,对加权后的语音信号sw(n)计算Mel倒谱系数(MFCC参数),从而得到特征矢量序列X={x1,x2,...,xs}。其中,MFCC参数的提取过程如下:
(1)将待检测语音信号进行分帧,预加重和加汉明窗处理,然后进行短时傅里叶变换,得到待检测语音信号的频谱;
(2)求出频谱平方(即能量谱),并用M个Mel带通滤波器进行滤波,由于每个频带中分量的作用在人耳中是叠加的,因此将每个滤波器频带内的能量进行叠加,这时第k个滤波器输出功率谱为x′(k),1≤k≤M,k取整数;
(3)将每个滤波器的输出取对数,得到相应频带的对数功率谱;并进行反离散余弦变换,得到L个MFCC系数,一般L取12~16个。MFCC系数为
C n = Σ k = 1 M log x ′ ( k ) cos [ π ( k - 0.5 ) n / M ] , n=1,2,...L
(4)将步骤(3)直接得到的MFCC系数作为静态特征,再将静态特征做一阶和二阶差分,得到相应的动态特征。
本实施方式中步骤二中所述预先定义的识别网络是由关键词模型和垃圾模型构成的。预先定义的识别网络结构示意图,如图1所示。如图1所示,左右两处的节点把其他节点连接起来。箭头表示实际识别过程中,局部路径扩展的方向,对应于具体实施方式一的关键词检出系统裁剪方法中的步骤二。用户首先根据自己的需要设定一组希望监听的词(即图1中关键词模型1至关键词模型N),那么就根据这组词和单音素(即图1中的垃圾模型1至垃圾模型N)构成如图1中的识别网络。其中单音素是确定的。用户自己设定的希望监听的词,需要根据字典扩展成三音素的形式。
具体实施方式二:本实施方式与具体实施方式一不同的是步骤三中获得每条局部路径的置信度得分的过程为:
步骤1、计算每个活动模型的状态q产生特征矢量xt的先验概率P(xt):设在处理xt时,系统存在N个活动模型,累加每个活动模型中包含的所有状态q产生特征矢量xt的概率,作为P(xt)的近似值,即:
P ( x t ) = Σ m ∈ A _ mode l Σ q ∈ m P ( x t | q ) ,
其中,A_model表示t时刻系统中存在的N个活动模型的集合,m表示集合中任意一个活动模型,q为活动模型m中的状态;
步骤2、t时刻系统中每个活动模型中状态q的对数后验概率按下式进行计算:
logP(q|xt)=logP(xt|q)+logP(q)-logP(xt),
其中,P(xt)为步骤1中计算的特征矢量xt的先验概率,P(xt|q)为状态q产生特征矢量xt的声学概率,P(q)为状态q的先验概率;
步骤3、将状态q的后验概率累加到其对应的局部路径置信度得分中。
其它步骤及参数与具体实施方式一相同。
本实施方式的步骤2中的P(q)可以离线计算得到,也可以忽略不计。
具体实施方式三:本实施方式与具体实施方式一或二不同的是步骤四的进行基于似然分的状态层局部路径裁剪的过程为:
步骤1、按照从大到小的顺序依次保存任意t时刻所有局部路径似然分(步骤三中得到的)到数组score[1...N]中,假设t时刻共N条局部路径;
步骤2、任意时刻t,根据和该时刻t的N条局部路径中的最大似然分Smax,计算得到t时刻的裁剪门限:
threshhold(t)=α×(Smax(t)-beam(t))
其中,beam(t)为第时刻t(t帧)时的束宽度;
步骤3、遍历数组score[1...N],对于其中的每一个得分score[i],如果score[i]<threshhold(t),则终止在其对应的局部路径上的搜索,否则,继续在该条局部路径上进行搜索,其中,1≤i≤N。
本实施方式的步骤2中的束宽度beam(t)可以采用预先设定的固定束宽度,也可以自适应获得beam(t),如根据t时刻所有局部路径得分中最大的和所有得分的平均值计算得到beam(t)等方法。束宽度beam(t)的设定是本领域技术人员公知的。
具体实施方式四:本实施方式与具体实施方式一、二或三不同的是步骤五中进行基于置信度的状态层局部路径裁剪的过程为:
步骤1、按照从大到小的顺序依次保存任意t时刻所有局部路径的置信度得分(步骤三中得到的)到数组score[1...N]中,假设t时刻共N条局部路径;
步骤2、任意时刻t,根据裁剪宽度beam(t)和该时刻t的N条局部路径中的最大置信度得分Smax,计算得到t时刻的裁剪门限:
threshhold(t)=α×(Smax(t)-beam(t))
其中,beam(t)为第时刻t(t帧)时的束宽度;
步骤3、遍历数组score,对于其中的每一个得分score[i],如果score[i]<threshhold(t),则终止在其对应的局部路径上的搜索,否则,继续在该条局部路径上进行搜索。
本实施方式的步骤2中的束宽度beam(t)可以采用预先设定的固定束宽度,也可以自适应获得beam(t),如根据t时刻所有局部路径得分中最大的和所有得分的平均值计算得到beam(t)等方法。束宽度beam(t)的设定是本领域技术人员公知的。
为了验证本发明的效果,进行如下试验:
试验1:基于置信度的关键词检出系统裁剪方法,通过以下步骤实现:
步骤一、输入语音信号,对输入的语音信号进行预处理,特征提取得到特征矢量序列X={x1,x2,...xs},其中S代表自然数;
步骤二、根据Viterbi解码算法,对每帧语音特征在预先定义的识别网络上进行解码,解码之前,为每条局部路径增加一个变量,用于记录该条局部路径上的累积置信度得分,并将累积置信度得分初始化为0;
步骤三、在t时刻,所有局部路径向前扩展一次,得相应局部路径的活动模块,然后计算每个活动模型的状态q产生特征矢量xt的概率,并累加到该条局部路径的似然分中,同时计算每个活动模型中状态q相对于xt的后验概率,再将后验概率累加到对应的局部路径的置信度得分中,获得每条局部路径的置信度得分,其中,xt∈X,1≤t≤S,t取自然数;
步骤四、进行基于似然分的状态层局部路径裁剪;
步骤五、进行基于置信度的状态层局部路径裁剪;
步骤六、判断是否到达语音末尾,是则转步骤七,否则转步骤二;
步骤七、根据解码过程中生成的网格回溯查找关键词,并基于后验概率确认关键词候选从而得到最终的识别结果,完成基于置信度的关键词检出系统裁剪方法。
试验1中步骤七为本领域技术人员的公知常识,结合现有技术,即可完成。
试验1中,实验使用PC机,CPU为奔腾4双核,3.0GHz,1GB内存,步骤一中输入的待检测语音信号的语料时长为53min,其中包含710个测试文件,每个文件中的语音时长为3到6秒。
试验1的步骤二中所述预先定义的识别网络是由关键词模型和垃圾模型构成的,如图1所示。其中,用户首先根据自己的需要设定一组希望监听的词,那么就根据这组词和单音素构成如图1中的识别网络。其中单音素是确定的。用户自己设定的希望监听的词,需要根据字典扩展成三音素的形式。
试验1步骤一中的S取值会依据待检测语音信号的具体时长,系统会自己运行。
试验1步骤三中获得每条局部路径的置信度得分的过程如具体实施方式二中所述。步骤四按具体实施方式三进行。步骤五按具体实施方式四进行(其中控制裁剪门限threshhold(t)为固定值)。步骤四及步骤五中的N的取值,在每一时刻,系统中存在的局部路径的个数是不同的。实际有多少条局部路径,那么N就是多少。系统运行过程中会自动记录这个值。
试验1的基于基于置信度的关键词检出系统裁剪方法的系统识别性能曲线如图2中曲线1所示。
试验1的基于置信度的关键词检出系统裁剪方法对语料时长为53min的待检测语音信号的识别时间为39min13s,计算观察概率的时间为20min6s,识别时间比为73%。
试验1在随机选择的10个语音数据文件上解码,关键词初选阶段得到的词网格中关键词数目如表1中所示。
试验2:为对比试验,仅采用基于似然分的关键词检出系统裁剪方法,与试验1的区别在于进行完步骤四的基于似然分的状态层局部路径裁剪后,不进行步骤五的基于置信度的状态层局部路径裁剪,直接进入步骤六。其它步骤及参数与试验1相同。
试验2中,实验使用PC机,CPU为奔腾4双核,3.0GHz,1GB内存,步骤一中输入的待检测语音信号的语料与试验1相同。
试验2的基于似然分的关键词检出系统裁剪方法的系统识别性能曲线如图2中曲线2所示。
试验2的基于似然分的关键词检出系统裁剪方法对语料时长为53min的待检测语音信号的识别时间为41min34s,计算观察概率的时间为23min38s,识别时间比为77%。
由图2可见,试验1的基于基于置信度的关键词检出系统裁剪方法的系统识别性能曲线与试验2的基于似然分的关键词检出系统裁剪方法的系统识别性能曲线几乎完全重合。
试验1的基于置信度的关键词检出系统裁剪方法的系统识别时间比(识别时间与测试语料时长之比)由基于似然分的关键词检出系统裁剪方法的77%降低到了73%,系统效率有了的提高。
试验2在随机选择的10个语音数据文件上解码,关键词初选阶段得到的词网格中关键词数目如表1中所示。
表1是试验1和试验2中10个语音数据文件的关键词初选阶段得到的词网格中关键词数目。
表1
由表1可以看出,相比于试验2的基于似然分的关键词检出系统裁剪方法,试验1的基于置信度的关键词检出系统裁剪方法大约能够减少30%的关键词候选,而系统识别性能没有明显的改变。试验1的方法尤其适用于确认阶段计算量大的任务中。

Claims (4)

1.基于置信度的关键词检出系统裁剪方法,其特征在于基于置信度的关键词检出系统裁剪方法是通过以下步骤实现的:
步骤一、输入语音信号,对输入的语音信号进行预处理,特征提取得到特征矢量序列X={x1,x2,...xs},其中S代表自然数;
步骤二、根据Viterbi解码算法,对每帧语音特征在预先定义的识别网络上进行解码,解码之前,为每条局部路径增加一个变量,用于记录该条局部路径上的累积置信度得分,并将累积置信度得分初始化为0;
步骤三、在t时刻,所有局部路径向前扩展一次,得相应局部路径的活动模块,然后计算每个活动模型的状态q产生特征矢量xt的概率,并累加到该条局部路径的似然分中,同时计算每个活动模型中状态q相对于xt的后验概率,再将后验概率累加到对应的局部路径的置信度得分中,获得每条局部路径的置信度得分,其中,xt∈X,1≤t≤S,t取自然数;
步骤四、进行基于似然分的状态层局部路径裁剪;
步骤五、进行基于置信度的状态层局部路径裁剪;
步骤六、判断是否到达语音末尾,是则转步骤七,否则转步骤二;
步骤七、根据解码过程中生成的网格回溯查找关键词,并基于后验概率确认关键词候选从而得到最终的识别结果,完成基于置信度的关键词检出系统裁剪方法。
2.根据权利要求1所述的基于置信度的关键词检出系统裁剪方法,其特征在于步骤三中获得每条局部路径的置信度得分的过程为:
步骤1、计算每个活动模型的状态q产生特征矢量xt的先验概率P(xt):设在处理xt时,系统存在N个活动模型,累加每个活动模型中包含的所有状态q产生特征矢量xt的概率,作为P(xt)的近似值,即:
P ( x t ) = Σ m ∈ A _ mod el Σ q ∈ m P ( x t | q ) ,
其中,A_model表示t时刻系统中存在的N个活动模型的集合,m表示集合中任意一个活动模型,q为活动模型m中的状态;
步骤2、t时刻系统中每个活动模型中状态q的对数后验概率按下式进行计算:
logP(q|xt)=logP(xt|q)+logP(q)-logP(xt),
其中,P(xt)为步骤1中计算的特征矢量xt的先验概率,P(xt|q)为状态q产生特征矢量xt的声学概率,P(q)为状态q的先验概率;
步骤3、将状态q的后验概率累加到其对应的局部路径置信度得分中。
3.根据权利要求1或2所述的基于置信度的关键词检出系统裁剪方法,其特征在于步骤四中进行基于似然分的状态层局部路径裁剪的过程为:
步骤1、按照从大到小的顺序依次保存任意t时刻所有局部路径似然分到数组score[1...N]中,假设t时刻共N条局部路径;
步骤2、任意时刻t,根据和该时刻t的N条局部路径中的最大似然分Smax,计算得到t时刻的裁剪门限:
threshhold(t)=α×(Smax(t)-beam(t))
其中,beam(t)为第时刻t时的束宽度;
步骤3、遍历数组score[1...N],对于其中的每一个得分score[i],如果score[i]<threshhold(t),则终止在其对应的局部路径上的搜索,否则,继续在该条局部路径上进行搜索,其中,1≤i≤N。
4.根据权利要求1或2所述的基于置信度的关键词检出系统裁剪方法,其特征在于步骤五中进行基于置信度的状态层局部路径裁剪的过程为:
步骤1、按照从大到小的顺序依次保存任意t时刻所有局部路径的置信度得分到数组score[1...N]中,假设t时刻共N条局部路径;
步骤2、任意时刻t,根据裁剪宽度beam(t)和该时刻t的N条局部路径中的最大置信度得分Smax,计算得到t时刻的裁剪门限:
threshhold(t)=α×(Smax(t)-beam(t))
其中,beam(t)为第时刻t时的束宽度;
步骤3、遍历数组score,对于其中的每一个得分score[i],如果score[i]<threshhold(t),则终止在其对应的局部路径上的搜索,否则,继续在该条局部路径上进行搜索。
CN2011102806038A 2011-09-21 2011-09-21 基于置信度的关键词检出系统裁剪方法 Pending CN102402984A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011102806038A CN102402984A (zh) 2011-09-21 2011-09-21 基于置信度的关键词检出系统裁剪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011102806038A CN102402984A (zh) 2011-09-21 2011-09-21 基于置信度的关键词检出系统裁剪方法

Publications (1)

Publication Number Publication Date
CN102402984A true CN102402984A (zh) 2012-04-04

Family

ID=45885135

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011102806038A Pending CN102402984A (zh) 2011-09-21 2011-09-21 基于置信度的关键词检出系统裁剪方法

Country Status (1)

Country Link
CN (1) CN102402984A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104978963A (zh) * 2014-04-08 2015-10-14 富士通株式会社 语音识别装置、方法以及电子设备
CN105632487A (zh) * 2015-12-31 2016-06-01 北京奇艺世纪科技有限公司 一种语音识别方法和装置
CN107248410A (zh) * 2017-07-19 2017-10-13 浙江联运知慧科技有限公司 声纹识别垃圾箱开门的方法
CN107767861A (zh) * 2016-08-22 2018-03-06 科大讯飞股份有限公司 语音唤醒方法、系统及智能终端
CN108091334A (zh) * 2016-11-17 2018-05-29 株式会社东芝 识别装置、识别方法以及存储介质
CN110706700A (zh) * 2019-09-29 2020-01-17 深圳市元征科技股份有限公司 一种车内骚扰预防报警方法及装置、服务器、存储介质
CN113223495A (zh) * 2021-04-25 2021-08-06 北京三快在线科技有限公司 一种基于语音识别的异常检测方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5842163A (en) * 1995-06-21 1998-11-24 Sri International Method and apparatus for computing likelihood and hypothesizing keyword appearance in speech
WO2000051107A1 (en) * 1999-02-25 2000-08-31 Marius Calin Silaghi Speech recognition and signal analysis by straight search of subsequences with maximal confidence measure
CN1293428A (zh) * 2000-11-10 2001-05-02 清华大学 基于语音识别的信息校核方法
CN102122506A (zh) * 2011-03-08 2011-07-13 天脉聚源(北京)传媒科技有限公司 一种语音识别的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5842163A (en) * 1995-06-21 1998-11-24 Sri International Method and apparatus for computing likelihood and hypothesizing keyword appearance in speech
WO2000051107A1 (en) * 1999-02-25 2000-08-31 Marius Calin Silaghi Speech recognition and signal analysis by straight search of subsequences with maximal confidence measure
CN1293428A (zh) * 2000-11-10 2001-05-02 清华大学 基于语音识别的信息校核方法
CN102122506A (zh) * 2011-03-08 2011-07-13 天脉聚源(北京)传媒科技有限公司 一种语音识别的方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
《计算机科学》 20080131 郑铁然,张站,韩纪庆 基于限制模型规模和声学置信度的关键词检出方法 全文 1-4 , *
郑铁然,张站,韩纪庆: "基于限制模型规模和声学置信度的关键词检出方法", 《计算机科学》 *
郝杰 李星: "汉语连续语音识别中关键词可信度的贝叶斯估计", 《声学学报》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104978963A (zh) * 2014-04-08 2015-10-14 富士通株式会社 语音识别装置、方法以及电子设备
CN105632487A (zh) * 2015-12-31 2016-06-01 北京奇艺世纪科技有限公司 一种语音识别方法和装置
CN107767861A (zh) * 2016-08-22 2018-03-06 科大讯飞股份有限公司 语音唤醒方法、系统及智能终端
CN108091334A (zh) * 2016-11-17 2018-05-29 株式会社东芝 识别装置、识别方法以及存储介质
CN107248410A (zh) * 2017-07-19 2017-10-13 浙江联运知慧科技有限公司 声纹识别垃圾箱开门的方法
CN110706700A (zh) * 2019-09-29 2020-01-17 深圳市元征科技股份有限公司 一种车内骚扰预防报警方法及装置、服务器、存储介质
CN110706700B (zh) * 2019-09-29 2022-06-14 深圳市元征科技股份有限公司 一种车内骚扰预防报警方法及装置、服务器、存储介质
CN113223495A (zh) * 2021-04-25 2021-08-06 北京三快在线科技有限公司 一种基于语音识别的异常检测方法及装置
CN113223495B (zh) * 2021-04-25 2022-08-26 北京三快在线科技有限公司 一种基于语音识别的异常检测方法及装置

Similar Documents

Publication Publication Date Title
CN102402984A (zh) 基于置信度的关键词检出系统裁剪方法
Yang et al. Characterizing speech adversarial examples using self-attention u-net enhancement
CN109272990B (zh) 基于卷积神经网络的语音识别方法
Hu et al. Generative adversarial networks based data augmentation for noise robust speech recognition
Yu et al. Densely Connected Time Delay Neural Network for Speaker Verification.
CN111276125B (zh) 一种面向边缘计算的轻量级语音关键词识别方法
CN110739003B (zh) 基于多头自注意力机制的语音增强方法
US20160189730A1 (en) Speech separation method and system
CN109584896A (zh) 一种语音芯片及电子设备
CN107293306B (zh) 一种基于输出的客观语音质量的评估方法
Patel et al. Speech recognition using hidden Markov model with MFCC-subband technique
KR20170081883A (ko) 개인화된 음성 인식을 수행하기 위한 음성 인식 단말, 음성 인식 서버 및 음성 인식 방법
EP4018437A1 (en) Optimizing a keyword spotting system
Meyer et al. Efficient convolutional neural network for audio event detection
CN113724718B (zh) 目标音频的输出方法及装置、系统
CN113436609B (zh) 语音转换模型及其训练方法、语音转换方法及系统
CN105448302A (zh) 一种环境自适应的语音混响消除方法和系统
CN102426836B (zh) 基于分位数自适应裁剪的快速关键词检出方法
CN115148211A (zh) 音频敏感内容检测方法、计算机设备和计算机程序产品
CN113129908B (zh) 基于循环帧级特征融合的端到端猕猴声纹验证方法及系统
JP2002268698A (ja) 音声認識装置と標準パターン作成装置及び方法並びにプログラム
CN110211568A (zh) 一种语音识别方法及装置
WO2018001125A1 (zh) 一种音频识别方法和装置
CN108022588B (zh) 一种基于双特征模型的鲁棒语音识别方法
CN103778914A (zh) 基于信噪比加权模板特征匹配的抗噪语音识别方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20120404