CN101625859B - 语音端点检测中的短时能频值波形斜率门限的确定方法 - Google Patents

语音端点检测中的短时能频值波形斜率门限的确定方法 Download PDF

Info

Publication number
CN101625859B
CN101625859B CN2008101164624A CN200810116462A CN101625859B CN 101625859 B CN101625859 B CN 101625859B CN 2008101164624 A CN2008101164624 A CN 2008101164624A CN 200810116462 A CN200810116462 A CN 200810116462A CN 101625859 B CN101625859 B CN 101625859B
Authority
CN
China
Prior art keywords
short
time energy
eze
frame
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2008101164624A
Other languages
English (en)
Other versions
CN101625859A (zh
Inventor
李祺
马华东
郑侃彦
韩忠涛
张婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Digital Video Beijing Ltd
Original Assignee
China Digital Video Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Digital Video Beijing Ltd filed Critical China Digital Video Beijing Ltd
Priority to CN2008101164624A priority Critical patent/CN101625859B/zh
Publication of CN101625859A publication Critical patent/CN101625859A/zh
Application granted granted Critical
Publication of CN101625859B publication Critical patent/CN101625859B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明涉及自动字幕生成系统中的语音检测技术,具体涉及一种语音端点检测中的短时能频值波形斜率门限的确定方法。该方法通过分析当前的短时能频值序列,找出其最小值EZE-featuremin和最大值EZE-featuremax,然后计算EZE-featuremax/100;比较EZE-featuremin和EZE-featuremax/100,取其中较大者,记为EZE-featureslope;确定短时能频值波形斜率门限值为Rm=EZE-featureslope×2。通过本发明所述方法找到的短时能频值斜率门限对于整个短时能频值序列都有效,因此在语音端点检测过程中不需要再次进行修改,而且在绝大部分情况下基本可以满足寻找语句端点的需要,因此,可以提高语音端点的检测效率。

Description

语音端点检测中的短时能频值波形斜率门限的确定方法
技术领域
本发明涉及自动字幕生成系统中的语音检测技术,具体涉及一种语音端点检测中的短时能频值波形斜率门限的确定方法。
背景技术
语音端点检测技术是语音技术研究的一个新的领域,其应用于自动字幕生成系统中。当前的字幕制作方法首先需要准备好字幕文稿,这种字幕文稿是指在制作电视节目之前,事先写好的一个文本文件,记录着节目的标题、主持人要说的话,以及被采访人所讲的话等内容。在制作电视节目时,编辑人员把音、视频素材添加到非线性编辑软件的故事板上,然后按照节目的主旨,对其进行编辑。编辑操作一般包括对素材位置的修改,添加一些特技,添加字幕等等。添加字幕时,一般是先在字幕文稿中选择多段文字(每一段就是一句话),然后以这些文字生成一个新的字幕文件,将这个文件拖上非线性编辑软件的轨道,此时字幕中的每一句话就会按顺序播出,但是往往会出现“声画不同步”的现象,即字幕出现的时刻和音频文件中播出的声音对不上。这时就需要编辑人员一边听声音,一边一句句地修改字幕的入点和出点的值。这就非常耗费人力和时间,影响唱词文件生成的质量和效率。
从复杂背景噪声中找出语音的起始点和结束点,即语音端点检测技术,一直是语音信号处理中的基本问题。由于语音端点检测的重要性,人们已经提出了很多种语音端点检测方法。这些方法大致可以分为基于模型的方法和基于门限的方法两类。
基于门限的语音端点检测方法是根据语音的特点,选择合适的特征参数,然后将该特征参数与预先设定的门限值进行比较,或者是先对特征参数进行一系列的后期处理然后再与门限进行比较。
现有的基于门限的端点检测参数主要有:
1)能量:以声音的强度作为判断参数。这种方法在高信噪比的情况下会有很好的效果。但是,在信噪比低的情况下,如在汽车引擎声、关门声等噪声的干扰下,这种方法的准确率很低。
2)频率:采用频率域的特征作为判断依据。这种方法可以准确的区分语音和汽车引擎、关门声等噪声,但是,对于语音和乐音的区别效果较差。
无论采用哪种音频参数,传统的语音端点检测方法在特定的噪声环境下都存在很大的不足。比如,基于能量的方法在低SNR的环境中表现不好;基于信息熵的算法在音乐背景下则会失效。
通过对大量仿真试验数据的分析,发明人将时域和频域的音频特征参数结合在一起,提出了一种新的音频参数--短时能频值(见同期申请的专利),通过计算音频文件中每一帧的短时能频值,形成一个短时能频值序列,通过寻找短时能频值上升区间或下降区间,计算上升区间或下降区间的短时能频值序列波形的平均斜率,根据波形斜率门限值的设定,就可以对语音的起点或终点进行判断,从而实现语音端点的检测。
在语音端点检测的实际判断过程中,语音、背景音乐和背景噪声的短时能频值波形之间都没有明确的界限,设定不同的门限值会得到不同的语音端点检测结果。可见,短时能频值波形斜率门限值设定的是否合适将直接影响语音端点检测的准确性。
发明内容
本发明的目的在于针对应用短时能频值序列进行语音端点检测的技术特点,提供一种短时能频值波形斜率门限的确定方法,以满足语音端点检测技术的需要。
本发明的技术方案如下:一种语音端点检测中的短时能频值波形斜率门限的确定方法,包括如下步骤:
(1)分析当前的短时能频值序列,找出其最小值,记为EZE-featuremin;找出其最大值,记为EZE-featuremax,然后计算EZE-featuremax/100;
(2)比较EZE-featuremin和EZE-feturemax/100,取其中较大者,记为EZE-featureslope
(3)确定短时能频值波形斜率门限值Rm=EZE-featureslope×2。
进一步,如上所述的语音端点检测中的短时能频值波形斜率门限的确定方法,短时能频值序列中的第i帧的短时能频值为:
EZE-featurei=(Ei-Eb)·(Zi-Zb)·(Hi-Hb)
其中,RZE-featurei表示第i帧的短时能频值;Ei、Zi和Hi分别表示第i帧的短时能量、短时过零率和短时信息熵;Eb、Zb和Hb分别表示当前背景噪声的短时能量,短时过零率和短时信息熵。
进一步,如上所述的语音端点检测中的短时能频值波形斜率门限的确定方法,第i帧的短时能量为:
E i = Σ n = 1 N S n 2
其中,N表示第i帧中所包含的音频采样数量;Sn表示第n个采样的取样值。
进一步,如上所述的语音端点检测中的短时能频值波形斜率门限的确定方法,第i帧的短时过零率为:
Z n = 1 2 Σ n = 1 N | sgn ( S n ) - sgn ( S n - 1 ) |
其中,N表示第i帧中所包含的音频采样数量;Sn表示第n个采样的取样值;sgn()为符号函数,定义为
sgn ( S n ) = 1 , S n ≥ 0 - 1 , S n ≤ 0 .
进一步,如上所述的语音端点检测中的短时能频值波形斜率门限的确定方法,提取第i帧短时信息熵的步骤如下:
(a)利用短时傅里叶变换(FFT)对每一帧的信号进行由时域向频域的转换:
X ( ω ) = Σ n = - ∞ ∞ S n e - jωn
其中,Sn表示第n个音频采样, ω = 2 π N , N为总采样数;
(b)计算每一频率的出现概率:
p i = s ( f i ) Σ k = 1 M s ( f k )
其中,s(fi)表示频率f的频谱能量,pi表示相应频率的出现概率,M表示傅里叶变换计算得出的频率的总数,即窗口宽度,
所规定的约束条件为:
s(fi)=0 if fi≤250HZ or fi≥3750HZ
pi=0 if pi≥0.9
(c)计算语音信息熵:
H i = Σ j = 1 M p j log p j
其中,M表示傅里叶变换计算得出的频率的总数,即窗口宽度,pi表示相应频率的出现概率,Hi表示第i帧的短时信息熵。
本发明的有益效果如下:通过本发明所述方法找到的短时能频值斜率门限对于整个短时能频值序列都有效,因此在语音端点检测过程中不需要再次进行修改,而且在绝大部分情况下基本可以满足寻找语句端点的需要,因此,可以提高语音端点的检测效率。另外,通过结合适当的人工干预,可以通过修改短时能频值斜率的门限来调整检测的结果,从而提高语句端点检测的精度。
附图说明
图1为确定短时能频值波形斜率门限的流程图。
图2为短时能频值的提取流程图。
图3为短时能频值波形的标示图。
具体实施方式
首先,对与短时能频值波形斜率门限相关的技术内容进行介绍。
(一)短时能量、短时过零率和短时信息熵三个音频特征参数的提取
1.短时能量
能量是最经常使用的音频特征参数之一,是对语音信号最直观的表示。语音信号的能量分析基于语音信号幅度随时间有相当的变化这一现象。能量可以用于区别发音的清音段和浊音段,能量值较大的对应于清音段,能量值较小的对应于浊音段。对于高信噪比的信号,可以用能量来判断有无语音。无语音信号的噪声能量较小,而有语音信号时能量会显著增大,由此可以粗略区分语音信号的起始点和中止点。另外,能量还可以用来区分声母和韵母的分界、以及连字的分界等。
在本发明中,采用“短时能量”作为主要的特征参数之一。所谓短时能量,就是先对音频信号进行分帧处理,然后对每一帧求其能量,它被定义为一帧中所有采样值平方的和。第i帧的短时能量定义为:
E i = Σ n = 1 N S n 2
其中,N表示第i帧中所包含的音频采样数量;Sn表示第n个采样的取样值。
2.短时过零率
过零率是声音信号处理过程中一个常用的音频特征参数。当离散语音信号的时域波形通过时间横轴时,相邻时刻的采样值如果具有不同的符号,称为“过零”。单位时间的过零次数称为“过零率”,即单位时间内音频采样值符号变换的次数。同上,在本发明中将单位时间限定为一帧,每一帧的过零率就是“短时过零率”。第i帧的短时过零率定义如下:
Z n = 1 2 Σ n = 1 N | sgn ( S n ) - sgn ( S n - 1 ) |
其中,Sn表示第n个采样的取样值;sgn()为符号函数,定义为
sgn ( S n ) = 1 , S n ≥ 0 - 1 , S n ≤ 0
过零分析是语音的时域分析中最简单的一种分析。它可以区别语音的发音是清音还是浊音。由于清音语音的多数能量出现在较高的频率上,因此清音的过零率较高;而浊音语音具有高频跌落的频谱,因此浊音的过零率低。利用短时过零率还可以从背景噪声中找出语音信号。在孤立词的语音识别中,必须要在一串连续的语音信号中进行适当分割,用以确定每个单词语音的信号,也即找出每个单词的开始和终止位置。用平均过零率来确定单词的起始点时,判断依据是语音开始点以前的过零率低,而开始点以后的过零率有明显的数值。在有背景噪声的情况下,一般背景噪声的平均过零率较低,而单词起始段的平均过零率急剧增大,由此可判定此单词的起始点。
3.短时信息熵
语音的感知过程与人类听觉系统具有频谱分析功能是紧密相关的。因此,对语音信号进行频谱分析,是认识语音信号和处理语音信号的重要方法。语音信号是一种典型的非平稳信号,但是其非平稳性是由发音器官的物理运动过程而产生的,由此可以假定其频域也是短时平稳的。
信息熵是频域的重要音频参数,它反应了语音信号所传达的信息量的大小。信息熵在语音编解码中经常被使用,J.L.Shen首次将它应用在语音端点检测技术中。本发明同样对每一帧都计算其信息熵,称为短时信息熵,计算方法如下:
(a)利用短时傅里叶变换(FFT)对每一帧的信号进行由时域向频域的转换:
X ( ω ) = Σ n = - ∞ ∞ S n e - jωn
其中,Sn表示第n个音频采样, ω = 2 π N , N为总采样数;
由于此处的傅立叶变换都是对某一帧进行的,因此相当于对傅立叶变换加上了一个窗口函数w(n-k)。k的取值取决于要对哪一帧进行短时傅立叶变换。
(b)计算每一频率的出现概率:
p i = s ( f i ) Σ k = 1 M s ( f k )
其中,s(fi)表示频率f的频谱能量,pi表示相应频率的出现概率,M表示傅里叶变换计算得出的频率的总数,即窗口宽度,此处取480。
所规定的约束条件为:
s(fi)=0 if fi≤250HZ or fi≥3750HZ
pi=0 if pi≥0.9
第一个约束公式用来保证语音信号的频率范围。因为人的发音频率基本集中在250Hz到3750Hz之间,所以我们把频率限定在这个范围之内。第二个约束公式用来滤除在某些频率上持续发生的噪声。
(c)计算语音信息熵:
H i = Σ j = 1 M p j log p j
其中,M表示傅里叶变换计算得出的频率的总数,即窗口宽度,pi表示相应频率的出现概率,Hi表示第i帧的短时信息熵。
试验证明,语音信号的信息熵和非语音信号的信息熵之间存在很大的差别,由此可以用来寻找语音端点的位置。在很多情况下,尤其是当背景噪声主要是机械噪声时,使用信息熵作为特征参数比单纯使用能量更加可靠。
但是,在连续不断的背景噪声或者音乐背景下,使用信息熵来进行语音端点检测会非常不可靠。因为同语音一样,连续的背景噪声或者背景音乐也含有很多信息。相对而言,在这种情况下使用能量作为特征参数反而会取得较好的效果,因为语音与背景噪声的叠加总会大过单纯的背景噪声。
(二)短时能频值的确定
在上述三个音频特征参数的基础上,提出了一个结合时域和频域的语音特征参数,称作短时能频值,记做EZE-feature。
1.短时能频值的定义
第i帧的短时能频值EZE-featurei的定义如下:
EZE-featurei=(Ei-Eb)·(Zi-Zb)·(Hi-Hb)
其中,EZE-featurei表示第i帧的短时能频值;Ei、Zi和Hi分别表示第i帧的短时能量、短时过零率和短时信息熵;而Eb、Zb和Hb则分别表示了当前背景噪声的短时能量、短时过零率和短时信息熵。
短时能频值同时结合了时域和频域的语音特征。短时能量和短时过零率属于时域的音频特征参数,短时信息熵则属于频域的音频特征参数。将时域和频域的音频特征参数结合在一起,能够发挥他们各自的长处,同时又可以在一定程度上规避他们各自的缺点,从而能够有效的应对各种不同类型的背景噪声。
鉴于背景噪声和背景音乐的这种不确定性,我们不可能一直使用音频信号的前几帧作为背景噪声。而是应该在端点检测过程中,根据检测出的语音情况,自动选取新的音频帧作为背景噪声进行处理。
首先,默认音频文件最初的10ms为环境音,将这10ms的音频信号的短时能量平均值、短时过零率平均值和短时信息熵平均值作为最初的背景噪声的短时能量Eb、短时过零率Zb和短时信息熵Hb。自适应的语音端点检测算法对于噪声采取了一种反馈机制:当发现背景噪声可能已经发生变化时,算法要回退到噪声发生变化之前的语音帧,重新进行检测。其过程如下所述:
1)找到了某个语音起点,记为第Fh帧,当Fh与上一个语音终点Ft帧相距300ms以上时,则进行环境噪声的提取。
2)从第Ft帧开始,取接下来的10帧当作背景噪声,重新计算Eb、Zb和Hb的值。计算方法为取算术平均,以Eb为例:
E b = E t + E t + 1 + E t + 2 + E t + 3 + E t + 4 + E t + 5 + E t + 6 + E t + 7 + E t + 8 + E t + 9 10
3)从第Ft+1帧开始,使用更新后的Eb、Zb和Hb,重新计算每一帧的短时能频值,得到新的短时能频值序列。
4)从第Ft+1帧开始,使用新的短时能频值序列重新执行端点检测过程。
2.短时能频值的提取过程
在语音端点检测过程中,我们需要求得每一帧的短时能频值。求第i帧的短时能频值,就要用到第i帧的短时能量、短时过零率和短时信息熵。其提取过程如图2所示。
步骤1:首先对音频信号序列进行分帧处理,得到一个音频帧序列。在本发明中将10ms规定为一帧。例如,如果音频文件的采样率是48k/s,那么每帧就应该包含480个采样。
步骤2:从步骤1中得到的帧序列里的第一帧开始直到最后,计算每一帧的三个音频特征参数,得到短时能量序列、短时过零率序列和短时信息熵序列。
步骤3:从帧序列里的第一帧开始直到最后,应用步骤2里求得的三个音频特征参数序列,并应用每一帧所对应的背景噪声的相应音频特征参数,按照短时能频值的定义公式进行计算。重复此过程直到所有帧的短时能频值都计算完成。最后得到一个与帧序列相对应的短时能频值序列。
(三)基于短时能频值的语音端点检测
短时能频值充分考虑了背景噪声对语音端点检测造成的影响,应用这个参数,提出了自适应的语音端点检测算法。可以通过不断调整Eb和Zb的值来有效应对背景噪声突发性改变所带来的不确定性。
通过仿真工具软件matlab对很多音频文件的短时能频值波形研究后发现:在语音和音乐叠加的时间段中,或者在只有语音的时间段中,短时能频值波形的变化非常剧烈:变化频率很高,而且变化的幅度非常大。而在即没有语音又没有音乐,只有背景噪声的时间段中,短时能频值基本保持很小的变化幅度,而且变化的频率比较小。另外,在只有音乐没有语音的时间段中,不管有没有背景噪声出现,由于经过了滤波器滤波后,音乐的高频部分已经被滤掉,所以虽然短时能频值变化的幅度仍然非常大,但是,其变化的频率却比有语音时要缓和的多。
因此,通过计算一个音频文件的短时能频值序列,并研究其波形,找出其中变化剧烈而且变化幅度较大的部分,就能够找到此音频文件中的语音部分,从而可以找到其语音端点。所以,寻找语音端点的重点就是找出短时能频值序列波形中斜率比较大的那些部分,并判断出它们是否是语音的端点。
1.语音起点和终点的检测流程
本方法从音频的第一帧开始检测,对短时能频值序列的波形进行分析,依次寻找每一对相匹配的语音起点和语音终点,直到检测完最后一帧。该方法主要包括以下4个步骤:
步骤1:计算音频文件中每一帧的短时能频值,形成一个短时能频值序列
X1X2X3X4.....Xn
在算法开始时首先要计算所有音频帧的短时能频值,作为初始值。但是并不是所有初始值序列中的值都会被使用到。随着分析的进行,在分析到后面的帧的时候可能会发现背景噪声发生了变化,此时背景噪声的音频特征参数Eb、Zb等的值就需要进行调整。从而短时能频值序列也就相应的需要进行调整。从发现背景噪声改变的那一帧开始,之前的短时能频值不用调整,之后的都需要重新计算。重新计算得到的短时能频值序列也仍然只是暂时的,直到分析完最后一帧之前,短时能频值序列有可能不断被修改。
步骤2:寻找语音的起点
1)假设从第t帧(对应短时能频值Xt)开始寻找,检测第t帧之后每一帧的短时能频值,直到找到一帧j(对应短时能频值Xj),使得
Xt≤Xt+1≤Xt+2≤......≤Xj且Xj+1≥Xj+2
即寻找从第t帧开始的短时能频值序列的上升区间,记为At
2)计算刚找到的上升区间At的短时能频值序列波形的平均斜率
R t = X j - X t j - t
在上升区间At中,由于人语音的特点,其短时能频值序列波形不可能平稳上升,其斜率可能会不断变化,时大时小。因此虽然在区间At中短时能频值波形一直保持上升的趋势,却只能计算其平均斜率。
3)设定一个门限值Rm,如果有Rt≥Rm,即斜率Rt非常的陡峭,则认为上升区间At属于语音部分。此时有两种情况,一种是如果第t帧之前的区间已经被认为是语音区间了,那就说明已经找到了一个语音起点,现在需要寻找与之相对应的语音终点,因此令t=j+1,进入步骤3。另一种情况是第t帧之前的区间没有被认为是语音区间,则将第t帧记为语音的起点,然后令t=j+1,进入步骤3去寻找与之相匹配的语音终点。
反之,如果Rt<Rm,即斜率Rt比较平缓。此时也有两种可能,一种是Rt远远小于Rm,主要是因为Xt、Xj等短时能频值都比较小,说明上升区间At属于背景噪声。另一种情况是Rt的值比较大,仅略小于Rm,这说明上升区间At很有可能属于背景音乐。上述两种情况之间没有严格的界限,就是说无法确定非语音区间到底属于噪声还是背景音乐,不过在这两种情况下,都认为区间At不是语音,因此令t=j+1,循环执行步骤2。
步骤3:寻找语音终点
1)假设从第t帧(对应短时能频值Xt)开始寻找,检测第t帧之后每一帧的短时能频值,直到找到一帧j(对应短时能频值Xj),使得
Xt≥Xt+1≥Xt+2≥......≥Xj且Xj+1≤Xj+2
即寻找从第t帧开始的短时能频值序列的下降区间,记为Dt
2)计算刚找到的下降区间Dt的短时能频值序列波形的平均斜率
R t = X t - X j j - t
与步骤2的情况类似,在下降区间Dt中,由于人语音的特点,其短时能频值序列波形也不可能平稳下降。因此虽然在下降区间Dt中短时能频值波形一直保持下降的趋势,也只能计算其平均斜率。对下降区间Dt而言,其平均斜率Rt应该是负值,但为了方便起见,使用Xt-Xj来使Rt变成正值。
3)与步骤2类似,设定一个门限值Rm,如果有Rt≥Rm,即斜率Rt非常的陡峭,则认为下降区间Dt属于语音部分。此时有两种情况,一种是如果第t帧之前已经找到了一个语音起点,则现在找到了与之相对应的语音终点,因此将第t帧记为语音的终点,然后令t=j+1,进入步骤2,再去寻找下一个语音起点。另一种情况是第t帧之前还没有找到一个单独的语音起点,即找到了一个不对应任何语音起点的下降区间,则下降区间Dt为一段单独的语音区间。此时将第t帧记为语音起点,将第j帧记为语音终点。然后令t=t+1,回到步骤2,继续寻找下一个语音起点。
反之,如果Rt<Rm,即斜率Rt比较平缓。同步骤2中所论述的一样,认为区间Dt属于背景噪声或者背景音乐,此时令t=j+1,循环执行步骤2。
步骤4:按照步骤2和步骤3所述循环检测,直到检测到最后一帧
如果最后检测到了一个语音起点,而没有与之相对应的语音终点,则认为在音频文件的最后,语音突然中断。这可能是由于音频文件在压制过程中丢失了某些内容或者其它原因造成的。
基于以上技术的介绍,现提出语音端点检测中的短时能频值波形斜率门限的确定方法。
通过使用matlab进行了大量仿真试验,观察短时能频值序列的波形后发现:在一般的新闻访谈类等背景音乐较少的音频节目中,短时能频值的极大值和极小值相比一般相差80倍左右,如图3所示。
图3是一段访谈类节目的短时能频值波形片段。从中可以看到,短时能频值的极大值EZE-featurea出现在第1650ms、第1850ms、2100ms以及2260ms左右的时间段。而极小值EZE-featurei则出现在第1750ms、第1910ms、第1990ms以及第2210ms左右的时间段。对比EZE-featurea和EZE-featurei可以发现,两者相差大概80倍左右。
经过分析,如图1所示,本发明提出以下方法来确定短时能频值波形斜率的门限:
步骤1:分析短时能频值序列,找出其最小值,记为EZE-featuremin;找出其最大值,记为EZE-featuremax,然后计算EZE-featuremax/100。
纵观整个短时能频值波形可以发现,其最大值EZE-featuremax比那些极大值EZE-featurea(即波形中每个波的峰值)要稍微大一些。而短时能频值的最小值EZE-featuremin和极小值EZE-featurei(即波形中比较平缓的部分)则相差不大,因为两者都是非常小的值,因此其差别可以忽略不计。因此采用最大值EZE-featuremax的1/100与最小值EZE-featuremin进行比较。
步骤2:比较EZE-featuremin和EZE-featuremax/100,取其中较大者,记为EZE-featureslope
步骤3:短时能频值斜率的门限定为:Rm=EZE-featureslope×2。
使用上述方法找到的短时能频值斜率门限对于整个短时能频值序列都有效,因此在语音端点检测过程中不需要再次进行修改。在没有或者较少出现背景音乐的情况下,使用该方法基本可以满足寻找语句端点的需要,在寻找词语端点时的精确性稍差。但是当背景音乐在音频中持续出现时,短时能频值序列的波形将变得非常复杂,此时使用该方法就得不到满足要求的斜率门限值,因此需要人工设定。不论在哪种情况下,由人手工设定和调整短时能频值斜率的门限,都将大大提高语音端点检测的准确性。
如果发现语音端点检测的结果有较大的误差,无法满足需求,则可以通过修改短时能频值斜率的门限来调整检测的结果。
如果发现检测得到的语音端点中,语音起点普遍提前,而语音终点普遍延迟出现,则说明有可能是斜率门限的值选取的过小,导致一部分背景噪声也被认为是语音。此时只需将斜率门限的值适当调大,即可得到令人满意的结果。
相反,如果发现语音起点普遍延迟,而语音终点普遍提前出现,则说明有可能是斜率门限的值选取的过大,导致一部分语音也被认为是背景噪声。此时则需要将斜率门限的值适当调小。
必须注意,由于背景噪声或者背景音乐的存在,通过本发明所述语音端点检测方法得到的语音端点不可能完全精确。但是,由于人对于微小时间误差的感知是有极限的,因此在50ms之内的语音端点检测误差可以接受。通过选取适当的短时能频值斜率门限,可以将语音端点检测的误差控制在50ms以内。
另外,语句端点的时间间隔门限值也可以由人工进行调整。不同的人说话有不同的语速,因此语句间也有不同的时间间隔,人工对语句端点时间间隔进行调整,可以提高语句端点检测的精度。
本发明所述的方法并不限于具体实施方式中所述的实施例,本领域技术人员根据本发明的技术方案得出其他的实施方式,同样属于本发明的技术创新范围。

Claims (5)

1. 一种语音端点检测中的短时能频值波形斜率门限的确定方法,包括如下步骤:
(1)分析当前的短时能频值序列,找出其最小值,记为EZE-featuremin;找出其最大值,记为EZE-featuremax,然后计算EZE-featuremax/100;
(2)比较EZE-featuremin和EZE-featuremax/100,取其中较大者,记为EZE-featureslope
(3)确定短时能频值波形斜率门限值Rm=EZE-featureslope×2。
2. 如权利要求1所述的语音端点检测中的短时能频值波形斜率门限的确定方法,其特征在于:短时能频值序列中的第i帧的短时能频值为:
EZE-featurei=(Ei-Eb)·(Zi-Zb)·(Hi-Hb)
其中,EZE-featurei表示第i帧的短时能频值;Ei、Zi和Hi分别表示第i帧的短时能量、短时过零率和短时信息熵;Eb、Zb和Hb分别表示当前背景噪声的短时能量,短时过零率和短时信息熵。
3. 如权利要求2所述的语音端点检测中的短时能频值波形斜率门限的确定方法,其特征在于:第i帧的短时能量为:
E i = Σ n = 1 N S n 2
其中,N表示第i帧中所包含的音频采样数量;Sn表示第n个采样的取样值。
4. 如权利要求2所述的语音端点检测中的短时能频值波形斜率门限的确定方法,其特征在于:第i帧的短时过零率为:
Z n = 1 2 Σ n = 1 N | sgn ( S n ) - sgn ( S n - 1 ) |
其中,N表示第i帧中所包含的音频采样数量;Sn表示第n个采样的取样值;sgn()为符号函数,定义为
sgn ( S n ) = 1 , S n ≥ 0 - 1 , S n ≤ 0 .
5. 如权利要求2所述的语音端点检测中的短时能频值波形斜率门限的确定方法,其特征在于:提取第i帧短时信息熵的步骤如下:
(a)利用短时傅里叶变换(FFT)对每一帧的信号进行由时域向频域的转换:
X ( ω ) = Σ n = - ∞ ∞ S n e - jωn
其中,Sn表示第n个音频采样, ω = 2 π N , N为总采样数;
(b)计算每一频率的出现概率:
p i = s ( f i ) Σ k = 1 M s ( f k )
其中,s(fi)表示频率f的频谱能量,pi表示相应频率的出现概率,M表示傅里叶变换计算得出的频率的总数,即窗口宽度,
所规定的约束条件为:
s(fi)=0 if fi≤250HZ or fi≥3750HZ
pi=0 if pi≥0.9
(c)计算语音信息熵:
H i = Σ j = 1 M p j log p j
其中,M表示傅里叶变换计算得出的频率的总数,即窗口宽度,pi表示相应频率的出现概率,Hi表示第i帧的短时信息熵。
CN2008101164624A 2008-07-10 2008-07-10 语音端点检测中的短时能频值波形斜率门限的确定方法 Expired - Fee Related CN101625859B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2008101164624A CN101625859B (zh) 2008-07-10 2008-07-10 语音端点检测中的短时能频值波形斜率门限的确定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008101164624A CN101625859B (zh) 2008-07-10 2008-07-10 语音端点检测中的短时能频值波形斜率门限的确定方法

Publications (2)

Publication Number Publication Date
CN101625859A CN101625859A (zh) 2010-01-13
CN101625859B true CN101625859B (zh) 2012-06-06

Family

ID=41521678

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008101164624A Expired - Fee Related CN101625859B (zh) 2008-07-10 2008-07-10 语音端点检测中的短时能频值波形斜率门限的确定方法

Country Status (1)

Country Link
CN (1) CN101625859B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1763844A (zh) * 2004-10-18 2006-04-26 中国科学院声学研究所 基于滑动窗口的端点检测方法、装置和语音识别系统
EP1780704A1 (en) * 2005-10-28 2007-05-02 Samsung Electronics Co., Ltd. Voice signal detection system and method
CN101197130A (zh) * 2006-12-07 2008-06-11 华为技术有限公司 声音活动检测方法和声音活动检测器

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1763844A (zh) * 2004-10-18 2006-04-26 中国科学院声学研究所 基于滑动窗口的端点检测方法、装置和语音识别系统
EP1780704A1 (en) * 2005-10-28 2007-05-02 Samsung Electronics Co., Ltd. Voice signal detection system and method
CN101197130A (zh) * 2006-12-07 2008-06-11 华为技术有限公司 声音活动检测方法和声音活动检测器

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Qi Li et al.A ROBUST,REAL-TIME ENDPOINT DETECTOR WITH ENERGY NORMALIZATION FOR ASR IN ADVERSE ENVIRONMENTS.《ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, 2001, PROCEEDINGS,(ICASSP"01,2001 IEEE INTERNATIONAL CONFERENCE)》.2001, *
QI Li et al.ROBUST ENDPOINT DETECTION AND ENERGY NORMALIZATION FOR REAL-TIME SPEECH AND SPEAKER RECOGNITION.《SPEECH AND AUDIO PROCESSING,IEEE TRANSACTION》.2002, *

Also Published As

Publication number Publication date
CN101625859A (zh) 2010-01-13

Similar Documents

Publication Publication Date Title
CN101625857B (zh) 一种自适应的语音端点检测方法
CN101625860B (zh) 语音端点检测中的背景噪声自适应调整方法
CN101625862B (zh) 自动字幕生成系统中语音区间的检测方法
CN101625858B (zh) 语音端点检测中短时能频值的提取方法
CN104021789A (zh) 一种利用短时时频值的自适应端点检测方法
Yeh et al. Segment-based emotion recognition from continuous Mandarin Chinese speech
US8326610B2 (en) Producing phonitos based on feature vectors
CN108154879B (zh) 一种基于倒谱分离信号的非特定人语音情感识别方法
CN106601230B (zh) 基于连续混合高斯hmm模型的物流分拣地名语音识别方法、系统及物流分拣系统
CN101290766A (zh) 安多藏语语音音节切分的方法
Silén et al. Ways to implement global variance in statistical speech synthesis.
Mittal et al. Study of characteristics of aperiodicity in Noh voices
CN106782508A (zh) 语音音频的切分方法和语音音频的切分装置
Narayanan et al. The role of binary mask patterns in automatic speech recognition in background noise
CN108091340B (zh) 声纹识别方法、声纹识别系统和计算机可读存储介质
CN103077728A (zh) 一种病人虚弱语音端点检测方法
CN108986844B (zh) 一种基于说话人语音特征的语音端点检测方法
Narayanan et al. Speech rate estimation via temporal correlation and selected sub-band correlation
Stanek et al. Algorithms for vowel recognition in fluent speech based on formant positions
CA2947957A1 (en) Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system
CN101625859B (zh) 语音端点检测中的短时能频值波形斜率门限的确定方法
Jayasankar et al. Automatic continuous speech segmentation to improve Tamil text-to-speech synthesis
Park et al. Improving pitch detection through emphasized harmonics in time-domain
CN112786071A (zh) 面向语音交互场景语音片段的数据标注方法
Rana et al. Effect of windowing on the calculation of MFCC statistical parameter for different gender in Hindi speech

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120606

Termination date: 20170710