CN103117067A - 一种低信噪比下语音端点检测方法 - Google Patents

一种低信噪比下语音端点检测方法 Download PDF

Info

Publication number
CN103117067A
CN103117067A CN2013100190317A CN201310019031A CN103117067A CN 103117067 A CN103117067 A CN 103117067A CN 2013100190317 A CN2013100190317 A CN 2013100190317A CN 201310019031 A CN201310019031 A CN 201310019031A CN 103117067 A CN103117067 A CN 103117067A
Authority
CN
China
Prior art keywords
frame
noise
voice
energy
short
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013100190317A
Other languages
English (en)
Other versions
CN103117067B (zh
Inventor
王健
韩志艳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bohai University
Original Assignee
Bohai University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bohai University filed Critical Bohai University
Priority to CN201310019031.7A priority Critical patent/CN103117067B/zh
Publication of CN103117067A publication Critical patent/CN103117067A/zh
Application granted granted Critical
Publication of CN103117067B publication Critical patent/CN103117067B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Collating Specific Patterns (AREA)

Abstract

本发明涉及一种低信噪比下语音端点检测方法,其包括:语音信号预处理、短时能零积计算、子带能量鉴别信息计算、噪声更新因子计算及帧判决。综合短时能量积和鉴别信息的互补优势,首先利用短时能零积进行判决,当遇到噪声帧与语音帧的转折帧时,再利用基于子带能量鉴别信息的方法进行复检,因此避免了因噪声幅度急剧变化和结尾语音帧被噪声淹没而导致的误检。与现有方法相比,即使在信噪比变化剧烈的情况下仍能准确快速地检测出语音的起止点,对语音信号的后续研究起了很好的铺垫作用。

Description

一种低信噪比下语音端点检测方法
技术领域
本发明涉及一种用于低信噪比环境下的语音端点检测方法,特别涉及一种基于短时能零积和鉴别信息的语音端点检测方法。
背景技术
人们在讲话的过程中有大量显著的停顿,语音的端点检就是从包含有背景噪声的一段语音信号中判断出哪些是有音片段,哪些是无音片段,并且要准确找出起点和终点。研究表明,即使在安静环境下语音识别系统一半以上的识别错误都来自于端点检测,端点检测的准确性甚至在某种程度上直接决定了整个语音识别系统的成败。
到目前为止端点检测的研究已经经历了几十年,产生了很多方法,传统的能量和过零率方法在低信噪比下已不再稳健。近年来,随着各行业对语音通信质量及语音识别等技术实用化的强烈需求,又出现了很多的端点检测算法,它们主要是通过采用各种新的特征参数,以提高算法的抗噪声性能。比如:基于频带方差的方法、基于HMM模型的检测方法、基于信息熵的特征、基于频域能量的特征、基于差分能量和差分过零率的特征、基于TF参数的方法、自相关相似距离法、基于高阶统计量的特征、基于短时能零积的特征及基于鉴别信息的方法等。
在实验室环境下,利用上述方法进行语音端点检测可以达到比较好的检测效果。但是当背景噪声较强时,有音片段的开始部分和结束部分容易被噪声淹没,从而会大大影响端点检测的准确性。比如基于频带方差的方法,在实际应用中会遇到一些脉冲干扰,在这些区域短时频带方差也可能较大,门限值就难以确定;而对于HMM检测法虽然准确率很高,但是需要事先训练;基于信息熵的方法,能有效区分语音信号中的浊音和噪声,但是难以区分清音和噪声;短时能零积法虽然简单,但是采用固定的门限阈值,导致抗噪性能差;而鉴别信息作为衡量信号与噪声相似度的特征,在噪声较低的情况下,效果不是很好,但在噪声能量急剧变化的环境中,效果却很好。
 
发明内容
本发明所要解决的技术问题是提供一种简单且高鲁棒性的基于短时能零积和鉴别信息的语音端点检测方法,通过使用该方法,在信噪比较低的情况下仍能准确地检测出语音的起止点。
本发明的技术解决方案是:
1. 一种低信噪比环境下的语音端点检测方法,包括以下步骤:
(1)、语音信号预处理
通过麦克风输入语音信号,由处理单元采样量化后获得相应语音数据,然后进行预加重、分帧和加窗处理;
(2)、短时能零积计算
第                                                
Figure 2013100190317100002DEST_PATH_IMAGE001
帧的短时平均能量
Figure 2013100190317100002DEST_PATH_IMAGE002
和短时平均过零率
Figure 2013100190317100002DEST_PATH_IMAGE003
之积称为第
Figure 2013100190317100002DEST_PATH_IMAGE004
帧语音信号的短时能零积
Figure 2013100190317100002DEST_PATH_IMAGE005
Figure 2013100190317100002DEST_PATH_IMAGE006
其中,
Figure 864859DEST_PATH_IMAGE001
表示语音信号的第
Figure 879738DEST_PATH_IMAGE001
帧;
Figure 2013100190317100002DEST_PATH_IMAGE008
是加汉明窗或矩形窗的语音信号,
Figure 2013100190317100002DEST_PATH_IMAGE009
 为帧长;
Figure 2013100190317100002DEST_PATH_IMAGE010
(3)、子带能量鉴别信息计算
鉴别信息是用来衡量当前帧频谱分布与噪声帧频谱分布相似程度的,并采用子带能量分布代替概率分布,假设当前帧为噪声帧,
Figure 2013100190317100002DEST_PATH_IMAGE012
假设当前帧为语音帧,鉴别信息
Figure 2013100190317100002DEST_PATH_IMAGE013
为对数
Figure 2013100190317100002DEST_PATH_IMAGE014
在假设
Figure 2013100190317100002DEST_PATH_IMAGE015
下的期望,即
Figure 2013100190317100002DEST_PATH_IMAGE016
其中,
Figure 2013100190317100002DEST_PATH_IMAGE017
表示噪声帧中第
Figure 2013100190317100002DEST_PATH_IMAGE018
个子带能量所占总能量的比例;
Figure 2013100190317100002DEST_PATH_IMAGE019
表示当前帧中第
Figure 2013100190317100002DEST_PATH_IMAGE020
个子带能量所占总能量的比例;
Figure 2013100190317100002DEST_PATH_IMAGE021
为划分的子带个数,
Figure 2013100190317100002DEST_PATH_IMAGE022
=8~12;
(4)、噪声更新因子计算
利用获得的鉴别信息来计算噪声更新因子
Figure 2013100190317100002DEST_PATH_IMAGE023
Figure 2013100190317100002DEST_PATH_IMAGE024
其中,
Figure 2013100190317100002DEST_PATH_IMAGE025
是常数,取值范围分别为0.8~0.9,0.2~0.3,0.2~0.3;
Figure 2013100190317100002DEST_PATH_IMAGE026
是一个计数值,代表到当前帧为止
Figure 2013100190317100002DEST_PATH_IMAGE027
的连续帧的数目;
(5)、帧判决
取待判决语音数据前5帧作为无音片段进行处理,并规定待判决语音数据的第一帧认为是噪声帧;
将计算出的每帧短时能零积与噪声门限阈值进行比较,所述噪声门限阈值按下式进行更新:
Figure 2013100190317100002DEST_PATH_IMAGE028
其中,
Figure 2013100190317100002DEST_PATH_IMAGE029
代表经过第帧更新后噪声的门限阈值,
Figure 2013100190317100002DEST_PATH_IMAGE030
代表经过第
Figure 2013100190317100002DEST_PATH_IMAGE031
帧更新后噪声的门限阈值,
Figure 2013100190317100002DEST_PATH_IMAGE032
为噪声更新因子;
用短时能零积法进行判决过程中当遇到噪声帧与语音帧的转折帧时,采用基于子带能量鉴别信息的方法再次进行判决,其整个判决过程如下:
1)如果前一帧被判为噪声帧,且当前帧
Figure 2013100190317100002DEST_PATH_IMAGE033
,则此帧继续为噪声帧;
2)如果前一帧被判为噪声帧,且当前帧
Figure 2013100190317100002DEST_PATH_IMAGE034
Figure 2013100190317100002DEST_PATH_IMAGE035
,则记录该帧位置为start,然后继续计算比较后面连续6帧,如果都满足
Figure 2013100190317100002DEST_PATH_IMAGE036
Figure 2013100190317100002DEST_PATH_IMAGE037
,则认为start为语音的起点,否则仍为噪声帧;
其中
Figure 2013100190317100002DEST_PATH_IMAGE038
为鉴别信息判决边界,是距离当前帧最近的五帧噪声的鉴别信息平均值;
3)如果前一帧被判为语音帧,且当前帧
Figure 2013100190317100002DEST_PATH_IMAGE039
,则该帧继续为语音帧;
4)如果前一帧被判为语音帧,且当前帧
Figure 2013100190317100002DEST_PATH_IMAGE040
Figure 2013100190317100002DEST_PATH_IMAGE041
,则记录该帧位置为end,然后继续计算比较后面4帧,如果都满足
Figure 2013100190317100002DEST_PATH_IMAGE043
,则认为end为语音的终点,否则仍为语音帧;
5)每判决完一帧都要通过加权对噪声门限阈值进行更新:
Figure 2013100190317100002DEST_PATH_IMAGE044
6)如果已经取完最后一帧,就结束语音的端点检测,否则继续进行上面的操作。
所述短时能零积计算时,加的是汉明窗,帧长
所述子带能量鉴别信息计算时,子带个数
Figure 2013100190317100002DEST_PATH_IMAGE046
,即将0Hz到5512Hz的全频带分成8个频带,每16个点构成一个频带。
所述噪声更新因子计算时,常数
Figure 2013100190317100002DEST_PATH_IMAGE047
的取值分别为
Figure 2013100190317100002DEST_PATH_IMAGE048
本发明的有益效果如下:
(1)本发明综合了短时能零积与鉴别信息的互补作用,避免了因噪声幅度急剧变化和开头结尾语音帧被噪声淹没而导致的误检。
(2)在遇到噪声帧与语音帧的转折帧时,本发明提出采用基于能量的鉴别信息来进行二次复判,明显提高了端点检测的准确率。
(3)本发明采用加权平均的方法对噪声门限阈值进行了动态更新,较好地解决了传统方法由于采用固定的无音片段作为噪声样本而引起的误差。
附图说明
图1为干净语音信号时域波形图;
图2为带噪语音信号时域波形图;
图3为干净语音信号短时能零积曲线图;
图4为带噪语音信号短时能零积曲线图;
图5为干净语音信号鉴别信息曲线图;
图6为带噪语音信号鉴别信息曲线图;
图7为基于短时能零积的方法在平稳噪声环境下的端点检测图;
图8是本发明在平稳噪声环境下的端点检测图;
图9是基于短时能零积的方法在非平稳噪声环境下的端点检测图;
图10是本发明在平稳噪声环境下的端点检测图;
图11为几种端点检测方法识别率比较曲线图;
图1、图2、图7、图8、图9、图10中横坐标为时间,纵坐标为语音信号幅度值;图3、图4中横坐标为语音帧数,纵坐标为短时能零积值;图5、图6中横坐标为语音帧数,纵坐标为鉴别信息值;图11中横坐标为信噪比,纵坐标为识别正确率。
具体实施方式
下面结合附图和实施例,对本发明所述的技术方案作详细说明:
该方法包括语音信号预处理、短时能零积计算、子带能量鉴别信息计算、噪声更新因子计算及帧判决,具体过程如下:
一、语音信号预处理
通过麦克风输入语音信号进行采样,采样频率可以是8kHz、11.025kHz、16kHz、22.050kHz,量化精度可为8bit或16bit,本实例由处理单元以11.025kHz的采样频率、16bit的量化精度进行采样量化,获得相应语音数据,然后用一阶数字预加重滤波器实现预加重,其预加重滤波器的系数取值范围为0.93~0.97之间,本实例取0.9375。接下来以帧长点的标准进行分帧,其帧长
Figure DEST_PATH_IMAGE049
的取值范围为0.01
Figure 2013100190317100002DEST_PATH_IMAGE050
~0.03
Figure 480441DEST_PATH_IMAGE050
之间的偶数,
Figure 473805DEST_PATH_IMAGE050
为采样频率,本实例取
Figure 41183DEST_PATH_IMAGE045
,并对分帧后的数据加汉明窗处理(也可用矩形窗)。所述的处理单元可采用计算机、单片机或DSP芯片等,本实例以计算机为例。
二、短时能零积计算
第 
Figure 43774DEST_PATH_IMAGE001
帧的短时平均能量
Figure 629476DEST_PATH_IMAGE002
和短时平均过零率
Figure 606791DEST_PATH_IMAGE003
之积称为第
Figure 848416DEST_PATH_IMAGE004
帧语音信号的短时能零积
Figure 389119DEST_PATH_IMAGE005
Figure 829328DEST_PATH_IMAGE006
其中,表示语音信号的第帧;
Figure 47929DEST_PATH_IMAGE007
Figure 280327DEST_PATH_IMAGE008
是加汉明窗(也可是矩形窗)的语音信号,本实例加的是汉明窗;
Figure 114291DEST_PATH_IMAGE010
三、子带能量鉴别信息计算
鉴别信息是用来衡量当前帧频谱分布与噪声帧频谱分布相似程度的,并采用子带能量分布代替概率分布,将0Hz到5512Hz的全频带分成
Figure 64930DEST_PATH_IMAGE021
个频带(子带),
Figure 760484DEST_PATH_IMAGE021
取8~12,本实例取
Figure 112968DEST_PATH_IMAGE021
=8,即每16个点构成一个频带,每一个频带的能量为:
Figure DEST_PATH_IMAGE051
其中,是对应子带
Figure 2013100190317100002DEST_PATH_IMAGE052
的相应的Fourier变换第个幅度值。相应子带能量在总能量中所占比例为:
Figure 2013100190317100002DEST_PATH_IMAGE054
Figure 431134DEST_PATH_IMAGE011
假设当前帧为噪声帧,
Figure 117330DEST_PATH_IMAGE012
假设当前帧为语音帧,鉴别信息
Figure 324321DEST_PATH_IMAGE013
为对数
Figure 250820DEST_PATH_IMAGE014
在假设
Figure 176050DEST_PATH_IMAGE015
下的期望,即
Figure 462675DEST_PATH_IMAGE016
其中,
Figure 789751DEST_PATH_IMAGE017
表示噪声帧中第
Figure 808523DEST_PATH_IMAGE018
个子带能量所占总能量的比例;
Figure 48747DEST_PATH_IMAGE019
表示当前帧中第
Figure 76746DEST_PATH_IMAGE020
个子带能量所占总能量的比例。
四、噪声更新因子计算
利用获得的鉴别信息来计算噪声更新因子
Figure 320646DEST_PATH_IMAGE023
Figure 775898DEST_PATH_IMAGE024
其中,是常数,取值范围分别为0.8~0.9,0.2~0.3,0.2~0.3,本实例取
Figure 851618DEST_PATH_IMAGE026
是一个计数值,代表到当前帧为止
Figure 153287DEST_PATH_IMAGE027
的连续帧的数目。
五、帧判决
取待判决语音数据前5帧作为无音片段进行处理,并规定待判决语音数据的第一帧认为是噪声帧,其整个判决过程如下:
1)将计算出的当前帧短时能零积值与噪声门限阈值进行比较,如果前一帧被判为噪声帧,且当前帧
Figure 779440DEST_PATH_IMAGE033
,则此帧继续为噪声帧。其中,
Figure 714029DEST_PATH_IMAGE030
代表经过第
Figure 83831DEST_PATH_IMAGE031
帧更新后噪声的门限阈值,可根据步骤5)进行噪声门限阈值的更新;代表当前帧的短时能零积;
2)如果前一帧被判为噪声帧,且当前帧
Figure 99377DEST_PATH_IMAGE034
,则记录该帧位置为start,然后继续计算比较后面连续6帧,如果都满足
Figure 439857DEST_PATH_IMAGE037
,则认为start为语音的起点,否则仍为噪声帧;其中
Figure 470130DEST_PATH_IMAGE038
为鉴别信息判决边界,是距离当前帧最近的五帧噪声的鉴别信息平均值;
3)如果前一帧被判为语音帧,且当前帧
Figure 566262DEST_PATH_IMAGE039
,则该帧继续为语音帧;
4)如果前一帧被判为语音帧,且当前帧
Figure 277866DEST_PATH_IMAGE040
,则记录该帧位置为end,然后继续计算比较后面4帧,如果都满足
Figure 92030DEST_PATH_IMAGE042
Figure 737775DEST_PATH_IMAGE043
,则认为end为语音的终点,否则仍为语音帧;
5)每判决完一帧都要通过加权对噪声门限阈值进行更新:
Figure 253070DEST_PATH_IMAGE044
6)如果已经取完最后一帧,就结束语音的端点检测,否则继续进行上面的操作。
 举例如下:
1、如图1-图6所示,短时能零积曲线在噪声较低的情况下效果很好,但在噪声较大或噪声急剧变化的环境下出现了很大的失真,会严重影响判决效果。而鉴别信息作为衡量信号与噪声相似度的特征,在噪声较低的情况下,效果不是很好,但在噪声急剧变化的环境中,效果却很好。所以二者在单独运用时,各有其不足,联合运用时,可以优势互补。
2、如图7、图8所示,用短时能零积法中间的两个音完全淹没在噪声中了,且有很多噪声帧被判为语音帧,而本发明方法却能较准确地检测出语音起始点。
3、如图9、图10所示,在噪声能量变化较快的环境中,本发明方法明显优于短时能零积方法。在一开始噪声能量比较低的情况下,若噪声能量突然增大,后面的输入信号被完全当作了语音信号,则基于短时能零积的方法完全失效。
4、如图11所示,几种方法在信噪比高的语音中端点检测的正确率都较好,识别效果几乎相同。但是随着信噪比的降低,前四种方法的正确了明显降低,而本发明方法正确率仍然很高,即使是在-5dB的信噪比下,本发明方法仍能取得96.83%的正确率,明显优于其他方法。
本发明请求保护的范围并不仅仅局限于本具体实施方式的描述。

Claims (4)

1.一种低信噪比环境下的语音端点检测方法,其特征是:包括以下步骤:
(1)、语音信号预处理
通过麦克风输入语音信号,由处理单元采样量化后获得相应语音数据,然后进行预加重、分帧和加窗处理;
(2)、短时能零积计算
第                                                
Figure 2013100190317100001DEST_PATH_IMAGE001
帧的短时平均能量
Figure 2013100190317100001DEST_PATH_IMAGE002
和短时平均过零率之积称为第
Figure 2013100190317100001DEST_PATH_IMAGE004
帧语音信号的短时能零积
Figure 2013100190317100001DEST_PATH_IMAGE005
Figure 2013100190317100001DEST_PATH_IMAGE006
其中,表示语音信号的第
Figure 839103DEST_PATH_IMAGE001
帧;
Figure 2013100190317100001DEST_PATH_IMAGE007
Figure 2013100190317100001DEST_PATH_IMAGE008
是加汉明窗或矩形窗的语音信号,
Figure 2013100190317100001DEST_PATH_IMAGE009
 为帧长;
Figure 2013100190317100001DEST_PATH_IMAGE010
(3)、子带能量鉴别信息计算
鉴别信息是用来衡量当前帧频谱分布与噪声帧频谱分布相似程度的,并采用子带能量分布代替概率分布,
Figure 2013100190317100001DEST_PATH_IMAGE011
假设当前帧为噪声帧,假设当前帧为语音帧,鉴别信息
Figure 2013100190317100001DEST_PATH_IMAGE013
为对数
Figure 2013100190317100001DEST_PATH_IMAGE014
在假设
Figure 2013100190317100001DEST_PATH_IMAGE015
下的期望,即
其中,表示噪声帧中第个子带能量所占总能量的比例;
Figure DEST_PATH_IMAGE019
表示当前帧中第个子带能量所占总能量的比例;为划分的子带个数,
Figure 2013100190317100001DEST_PATH_IMAGE022
=8~12;
(4)、噪声更新因子计算
利用获得的鉴别信息来计算噪声更新因子
Figure 2013100190317100001DEST_PATH_IMAGE024
其中,
Figure DEST_PATH_IMAGE025
是常数,取值范围分别为0.8~0.9,0.2~0.3,0.2~0.3;
Figure 2013100190317100001DEST_PATH_IMAGE026
是一个计数值,代表到当前帧为止
Figure DEST_PATH_IMAGE027
的连续帧的数目;
(5)、帧判决
取待判决语音数据前5帧作为无音片段进行处理,并规定待判决语音数据的第一帧认为是噪声帧;
将计算出的每帧短时能零积与噪声门限阈值进行比较,所述噪声门限阈值按下式进行更新:
Figure 2013100190317100001DEST_PATH_IMAGE028
其中,
Figure DEST_PATH_IMAGE029
代表经过第帧更新后噪声的门限阈值,
Figure 2013100190317100001DEST_PATH_IMAGE030
代表经过第
Figure DEST_PATH_IMAGE031
帧更新后噪声的门限阈值,
Figure 2013100190317100001DEST_PATH_IMAGE032
为噪声更新因子;
用短时能零积法进行判决过程中当遇到噪声帧与语音帧的转折帧时,采用基于子带能量鉴别信息的方法再次进行判决,其整个判决过程如下:
1)如果前一帧被判为噪声帧,且当前帧
Figure DEST_PATH_IMAGE033
,则此帧继续为噪声帧;
2)如果前一帧被判为噪声帧,且当前帧
Figure 2013100190317100001DEST_PATH_IMAGE034
Figure DEST_PATH_IMAGE035
,则记录该帧位置为start,然后继续计算比较后面连续6帧,如果都满足
Figure DEST_PATH_IMAGE037
,则认为start为语音的起点,否则仍为噪声帧;
其中为鉴别信息判决边界,是距离当前帧最近的五帧噪声的鉴别信息平均值;
3)如果前一帧被判为语音帧,且当前帧
Figure DEST_PATH_IMAGE039
,则该帧继续为语音帧;
4)如果前一帧被判为语音帧,且当前帧
Figure DEST_PATH_IMAGE041
,则记录该帧位置为end,然后继续计算比较后面4帧,如果都满足
Figure 2013100190317100001DEST_PATH_IMAGE042
Figure DEST_PATH_IMAGE043
,则认为end为语音的终点,否则仍为语音帧;
5)每判决完一帧都要通过加权对噪声门限阈值进行更新:
Figure 2013100190317100001DEST_PATH_IMAGE044
6)如果已经取完最后一帧,就结束语音的端点检测,否则继续进行上面的操作。
2.根据权利要求1所述的低信噪比环境下的语音端点检测方法,其特征是:所述短时能零积计算时,加的是汉明窗,帧长
Figure DEST_PATH_IMAGE045
3.根据权利要求1所述的低信噪比环境下的语音端点检测方法,其特征是:所述子带能量鉴别信息计算时,子带个数
Figure 2013100190317100001DEST_PATH_IMAGE046
,即将0Hz到5512Hz的全频带分成8个频带,每16个点构成一个频带。
4.根据权利要求1所述的低信噪比环境下的语音端点检测方法,其特征是:所述噪声更新因子计算时,常数的取值分别为
Figure 2013100190317100001DEST_PATH_IMAGE048
CN201310019031.7A 2013-01-19 2013-01-19 一种低信噪比下语音端点检测方法 Expired - Fee Related CN103117067B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310019031.7A CN103117067B (zh) 2013-01-19 2013-01-19 一种低信噪比下语音端点检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310019031.7A CN103117067B (zh) 2013-01-19 2013-01-19 一种低信噪比下语音端点检测方法

Publications (2)

Publication Number Publication Date
CN103117067A true CN103117067A (zh) 2013-05-22
CN103117067B CN103117067B (zh) 2015-07-15

Family

ID=48415424

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310019031.7A Expired - Fee Related CN103117067B (zh) 2013-01-19 2013-01-19 一种低信噪比下语音端点检测方法

Country Status (1)

Country Link
CN (1) CN103117067B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014177084A1 (zh) * 2013-08-30 2014-11-06 中兴通讯股份有限公司 激活音检测方法和装置
CN104318927A (zh) * 2014-11-04 2015-01-28 东莞市北斗时空通信科技有限公司 一种抗噪声的低速率语音编码方法及解码方法
CN104575498A (zh) * 2015-01-30 2015-04-29 深圳市云之讯网络技术有限公司 有效语音识别方法及系统
CN104966518A (zh) * 2015-03-02 2015-10-07 腾讯科技(深圳)有限公司 一种音乐文件的音质检测方法及装置
CN106486136A (zh) * 2016-11-18 2017-03-08 腾讯科技(深圳)有限公司 一种声音识别方法、装置及语音交互方法
CN106887241A (zh) * 2016-10-12 2017-06-23 阿里巴巴集团控股有限公司 一种语音信号检测方法与装置
WO2017181772A1 (zh) * 2016-04-22 2017-10-26 腾讯科技(深圳)有限公司 语音检测方法、装置及存储介质
CN107810529A (zh) * 2015-06-29 2018-03-16 亚马逊技术公司 语言模型语音端点确定
CN108154880A (zh) * 2016-12-05 2018-06-12 广东大仓机器人科技有限公司 能实时分辨环境噪音进行语音识别的机器人
CN108847218A (zh) * 2018-06-27 2018-11-20 郑州云海信息技术有限公司 一种自适应门限整定语音端点检测方法,设备及可读存储介质
CN108962225A (zh) * 2018-06-27 2018-12-07 西安理工大学 一种多尺度自适应语音端点检测方法
CN108986844A (zh) * 2018-08-06 2018-12-11 东北大学 一种基于说话人语音特征的语音端点检测方法
CN109412763A (zh) * 2018-11-15 2019-03-01 电子科技大学 一种基于信号能熵比的数字信号存在性检测方法
CN112634921A (zh) * 2019-10-09 2021-04-09 北京中关村科金技术有限公司 一种语音处理方法、装置和存储介质
CN115862685A (zh) * 2023-02-27 2023-03-28 全时云商务服务股份有限公司 一种实时语音活动的检测方法、装置和电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7277853B1 (en) * 2001-03-02 2007-10-02 Mindspeed Technologies, Inc. System and method for a endpoint detection of speech for improved speech recognition in noisy environments
CN102522081A (zh) * 2011-12-29 2012-06-27 北京百度网讯科技有限公司 一种检测语音端点的方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7277853B1 (en) * 2001-03-02 2007-10-02 Mindspeed Technologies, Inc. System and method for a endpoint detection of speech for improved speech recognition in noisy environments
CN102522081A (zh) * 2011-12-29 2012-06-27 北京百度网讯科技有限公司 一种检测语音端点的方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
刘晓明等: "语音端点检测的仿真研究", 《系统仿真学报》 *
李晔等: "基于能量和鉴别信息的语音端点检测算法", 《清华大学学报(自然科学版)》 *
韩志艳等: "基于短时能零积和鉴别信息的语音端点检测", 《东北大学学报(自然科学版)》 *

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9978398B2 (en) 2013-08-30 2018-05-22 Zte Corporation Voice activity detection method and device
CN104424956A (zh) * 2013-08-30 2015-03-18 中兴通讯股份有限公司 激活音检测方法和装置
CN104424956B9 (zh) * 2013-08-30 2022-11-25 中兴通讯股份有限公司 激活音检测方法和装置
WO2014177084A1 (zh) * 2013-08-30 2014-11-06 中兴通讯股份有限公司 激活音检测方法和装置
CN104424956B (zh) * 2013-08-30 2018-09-21 中兴通讯股份有限公司 激活音检测方法和装置
CN104318927A (zh) * 2014-11-04 2015-01-28 东莞市北斗时空通信科技有限公司 一种抗噪声的低速率语音编码方法及解码方法
CN104575498A (zh) * 2015-01-30 2015-04-29 深圳市云之讯网络技术有限公司 有效语音识别方法及系统
CN104575498B (zh) * 2015-01-30 2018-08-17 深圳市云之讯网络技术有限公司 有效语音识别方法及系统
CN104966518A (zh) * 2015-03-02 2015-10-07 腾讯科技(深圳)有限公司 一种音乐文件的音质检测方法及装置
CN107810529A (zh) * 2015-06-29 2018-03-16 亚马逊技术公司 语言模型语音端点确定
CN107810529B (zh) * 2015-06-29 2021-10-08 亚马逊技术公司 语言模型语音端点确定
WO2017181772A1 (zh) * 2016-04-22 2017-10-26 腾讯科技(深圳)有限公司 语音检测方法、装置及存储介质
US10872620B2 (en) 2016-04-22 2020-12-22 Tencent Technology (Shenzhen) Company Limited Voice detection method and apparatus, and storage medium
CN106887241A (zh) * 2016-10-12 2017-06-23 阿里巴巴集团控股有限公司 一种语音信号检测方法与装置
US10706874B2 (en) 2016-10-12 2020-07-07 Alibaba Group Holding Limited Voice signal detection method and apparatus
CN106486136A (zh) * 2016-11-18 2017-03-08 腾讯科技(深圳)有限公司 一种声音识别方法、装置及语音交互方法
CN108154880A (zh) * 2016-12-05 2018-06-12 广东大仓机器人科技有限公司 能实时分辨环境噪音进行语音识别的机器人
CN108962225A (zh) * 2018-06-27 2018-12-07 西安理工大学 一种多尺度自适应语音端点检测方法
CN108847218B (zh) * 2018-06-27 2020-07-21 苏州浪潮智能科技有限公司 一种自适应门限整定语音端点检测方法,设备及可读存储介质
CN108847218A (zh) * 2018-06-27 2018-11-20 郑州云海信息技术有限公司 一种自适应门限整定语音端点检测方法,设备及可读存储介质
CN108986844A (zh) * 2018-08-06 2018-12-11 东北大学 一种基于说话人语音特征的语音端点检测方法
CN109412763A (zh) * 2018-11-15 2019-03-01 电子科技大学 一种基于信号能熵比的数字信号存在性检测方法
CN112634921A (zh) * 2019-10-09 2021-04-09 北京中关村科金技术有限公司 一种语音处理方法、装置和存储介质
CN112634921B (zh) * 2019-10-09 2024-02-13 北京中关村科金技术有限公司 一种语音处理方法、装置和存储介质
CN115862685A (zh) * 2023-02-27 2023-03-28 全时云商务服务股份有限公司 一种实时语音活动的检测方法、装置和电子设备
CN115862685B (zh) * 2023-02-27 2023-09-15 全时云商务服务股份有限公司 一种实时语音活动的检测方法、装置和电子设备

Also Published As

Publication number Publication date
CN103117067B (zh) 2015-07-15

Similar Documents

Publication Publication Date Title
CN103117067B (zh) 一种低信噪比下语音端点检测方法
Moattar et al. A simple but efficient real-time voice activity detection algorithm
CN108538310B (zh) 一种基于长时信号功率谱变化的语音端点检测方法
US9305567B2 (en) Systems and methods for audio signal processing
US7756700B2 (en) Perceptual harmonic cepstral coefficients as the front-end for speech recognition
US9454976B2 (en) Efficient discrimination of voiced and unvoiced sounds
CN105023572A (zh) 一种含噪语音端点鲁棒检测方法
Lokhande et al. Voice activity detection algorithm for speech recognition applications
CN108682432B (zh) 语音情感识别装置
CN104091593B (zh) 采用感知语谱结构边界参数的语音端点检测算法
EP3262641A1 (en) Systems and methods for speech restoration
CN110379438B (zh) 一种语音信号基频检测与提取方法及系统
Zhang et al. An improved speech endpoint detection based on adaptive sub-band selection spectral variance
Jin et al. An improved speech endpoint detection based on spectral subtraction and adaptive sub-band spectral entropy
Sundaram et al. Usable Speech Detection Using Linear Predictive Analysis–A Model-Based Approach
CN111128244B (zh) 基于过零率检测的短波通信语音激活检测方法
Moattar et al. A Weighted Feature Voting Approach for Robust and Real‐Time Voice Activity Detection
Heese et al. Speech-codebook based soft voice activity detection
CN110610724A (zh) 基于非均匀子带分离方差的语音端点检测方法及装置
Graf et al. Improved performance measures for voice activity detection
Li et al. Robust speech endpoint detection based on improved adaptive band-partitioning spectral entropy
Pham et al. Performance analysis of wavelet subband based voice activity detection in cocktail party environment
Zhiyan et al. Research on speech endpoint detection under low signal-to-noise ratios
CN115862685B (zh) 一种实时语音活动的检测方法、装置和电子设备
Zhigang et al. An adaptive voice activity detection algorithm

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150715

Termination date: 20160119

EXPY Termination of patent right or utility model