CN103117067A - 一种低信噪比下语音端点检测方法 - Google Patents
一种低信噪比下语音端点检测方法 Download PDFInfo
- Publication number
- CN103117067A CN103117067A CN2013100190317A CN201310019031A CN103117067A CN 103117067 A CN103117067 A CN 103117067A CN 2013100190317 A CN2013100190317 A CN 2013100190317A CN 201310019031 A CN201310019031 A CN 201310019031A CN 103117067 A CN103117067 A CN 103117067A
- Authority
- CN
- China
- Prior art keywords
- frame
- noise
- voice
- energy
- short
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 32
- 238000000034 method Methods 0.000 claims abstract description 45
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000001228 spectrum Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 5
- 238000009432 framing Methods 0.000 claims description 2
- 230000000295 complement effect Effects 0.000 abstract description 3
- 230000007704 transition Effects 0.000 abstract 1
- 230000000694 effects Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000036039 immunity Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
Images
Landscapes
- Collating Specific Patterns (AREA)
Abstract
本发明涉及一种低信噪比下语音端点检测方法,其包括:语音信号预处理、短时能零积计算、子带能量鉴别信息计算、噪声更新因子计算及帧判决。综合短时能量积和鉴别信息的互补优势,首先利用短时能零积进行判决,当遇到噪声帧与语音帧的转折帧时,再利用基于子带能量鉴别信息的方法进行复检,因此避免了因噪声幅度急剧变化和结尾语音帧被噪声淹没而导致的误检。与现有方法相比,即使在信噪比变化剧烈的情况下仍能准确快速地检测出语音的起止点,对语音信号的后续研究起了很好的铺垫作用。
Description
技术领域
本发明涉及一种用于低信噪比环境下的语音端点检测方法,特别涉及一种基于短时能零积和鉴别信息的语音端点检测方法。
背景技术
人们在讲话的过程中有大量显著的停顿,语音的端点检就是从包含有背景噪声的一段语音信号中判断出哪些是有音片段,哪些是无音片段,并且要准确找出起点和终点。研究表明,即使在安静环境下语音识别系统一半以上的识别错误都来自于端点检测,端点检测的准确性甚至在某种程度上直接决定了整个语音识别系统的成败。
到目前为止端点检测的研究已经经历了几十年,产生了很多方法,传统的能量和过零率方法在低信噪比下已不再稳健。近年来,随着各行业对语音通信质量及语音识别等技术实用化的强烈需求,又出现了很多的端点检测算法,它们主要是通过采用各种新的特征参数,以提高算法的抗噪声性能。比如:基于频带方差的方法、基于HMM模型的检测方法、基于信息熵的特征、基于频域能量的特征、基于差分能量和差分过零率的特征、基于TF参数的方法、自相关相似距离法、基于高阶统计量的特征、基于短时能零积的特征及基于鉴别信息的方法等。
在实验室环境下,利用上述方法进行语音端点检测可以达到比较好的检测效果。但是当背景噪声较强时,有音片段的开始部分和结束部分容易被噪声淹没,从而会大大影响端点检测的准确性。比如基于频带方差的方法,在实际应用中会遇到一些脉冲干扰,在这些区域短时频带方差也可能较大,门限值就难以确定;而对于HMM检测法虽然准确率很高,但是需要事先训练;基于信息熵的方法,能有效区分语音信号中的浊音和噪声,但是难以区分清音和噪声;短时能零积法虽然简单,但是采用固定的门限阈值,导致抗噪性能差;而鉴别信息作为衡量信号与噪声相似度的特征,在噪声较低的情况下,效果不是很好,但在噪声能量急剧变化的环境中,效果却很好。
发明内容
本发明所要解决的技术问题是提供一种简单且高鲁棒性的基于短时能零积和鉴别信息的语音端点检测方法,通过使用该方法,在信噪比较低的情况下仍能准确地检测出语音的起止点。
本发明的技术解决方案是:
1. 一种低信噪比环境下的语音端点检测方法,包括以下步骤:
(1)、语音信号预处理
通过麦克风输入语音信号,由处理单元采样量化后获得相应语音数据,然后进行预加重、分帧和加窗处理;
(2)、短时能零积计算
(3)、子带能量鉴别信息计算
(4)、噪声更新因子计算
(5)、帧判决
取待判决语音数据前5帧作为无音片段进行处理,并规定待判决语音数据的第一帧认为是噪声帧;
将计算出的每帧短时能零积与噪声门限阈值进行比较,所述噪声门限阈值按下式进行更新:
用短时能零积法进行判决过程中当遇到噪声帧与语音帧的转折帧时,采用基于子带能量鉴别信息的方法再次进行判决,其整个判决过程如下:
5)每判决完一帧都要通过加权对噪声门限阈值进行更新:
6)如果已经取完最后一帧,就结束语音的端点检测,否则继续进行上面的操作。
所述短时能零积计算时,加的是汉明窗,帧长。
本发明的有益效果如下:
(1)本发明综合了短时能零积与鉴别信息的互补作用,避免了因噪声幅度急剧变化和开头结尾语音帧被噪声淹没而导致的误检。
(2)在遇到噪声帧与语音帧的转折帧时,本发明提出采用基于能量的鉴别信息来进行二次复判,明显提高了端点检测的准确率。
(3)本发明采用加权平均的方法对噪声门限阈值进行了动态更新,较好地解决了传统方法由于采用固定的无音片段作为噪声样本而引起的误差。
附图说明
图1为干净语音信号时域波形图;
图2为带噪语音信号时域波形图;
图3为干净语音信号短时能零积曲线图;
图4为带噪语音信号短时能零积曲线图;
图5为干净语音信号鉴别信息曲线图;
图6为带噪语音信号鉴别信息曲线图;
图7为基于短时能零积的方法在平稳噪声环境下的端点检测图;
图8是本发明在平稳噪声环境下的端点检测图;
图9是基于短时能零积的方法在非平稳噪声环境下的端点检测图;
图10是本发明在平稳噪声环境下的端点检测图;
图11为几种端点检测方法识别率比较曲线图;
图1、图2、图7、图8、图9、图10中横坐标为时间,纵坐标为语音信号幅度值;图3、图4中横坐标为语音帧数,纵坐标为短时能零积值;图5、图6中横坐标为语音帧数,纵坐标为鉴别信息值;图11中横坐标为信噪比,纵坐标为识别正确率。
具体实施方式
下面结合附图和实施例,对本发明所述的技术方案作详细说明:
该方法包括语音信号预处理、短时能零积计算、子带能量鉴别信息计算、噪声更新因子计算及帧判决,具体过程如下:
一、语音信号预处理
通过麦克风输入语音信号进行采样,采样频率可以是8kHz、11.025kHz、16kHz、22.050kHz,量化精度可为8bit或16bit,本实例由处理单元以11.025kHz的采样频率、16bit的量化精度进行采样量化,获得相应语音数据,然后用一阶数字预加重滤波器实现预加重,其预加重滤波器的系数取值范围为0.93~0.97之间,本实例取0.9375。接下来以帧长点的标准进行分帧,其帧长的取值范围为0.01~0.03之间的偶数,为采样频率,本实例取,并对分帧后的数据加汉明窗处理(也可用矩形窗)。所述的处理单元可采用计算机、单片机或DSP芯片等,本实例以计算机为例。
二、短时能零积计算
三、子带能量鉴别信息计算
鉴别信息是用来衡量当前帧频谱分布与噪声帧频谱分布相似程度的,并采用子带能量分布代替概率分布,将0Hz到5512Hz的全频带分成个频带(子带),取8~12,本实例取=8,即每16个点构成一个频带,每一个频带的能量为:
四、噪声更新因子计算
五、帧判决
取待判决语音数据前5帧作为无音片段进行处理,并规定待判决语音数据的第一帧认为是噪声帧,其整个判决过程如下:
1)将计算出的当前帧短时能零积值与噪声门限阈值进行比较,如果前一帧被判为噪声帧,且当前帧,则此帧继续为噪声帧。其中,代表经过第帧更新后噪声的门限阈值,可根据步骤5)进行噪声门限阈值的更新;代表当前帧的短时能零积;
2)如果前一帧被判为噪声帧,且当前帧且,则记录该帧位置为start,然后继续计算比较后面连续6帧,如果都满足且,则认为start为语音的起点,否则仍为噪声帧;其中为鉴别信息判决边界,是距离当前帧最近的五帧噪声的鉴别信息平均值;
5)每判决完一帧都要通过加权对噪声门限阈值进行更新:
6)如果已经取完最后一帧,就结束语音的端点检测,否则继续进行上面的操作。
举例如下:
1、如图1-图6所示,短时能零积曲线在噪声较低的情况下效果很好,但在噪声较大或噪声急剧变化的环境下出现了很大的失真,会严重影响判决效果。而鉴别信息作为衡量信号与噪声相似度的特征,在噪声较低的情况下,效果不是很好,但在噪声急剧变化的环境中,效果却很好。所以二者在单独运用时,各有其不足,联合运用时,可以优势互补。
2、如图7、图8所示,用短时能零积法中间的两个音完全淹没在噪声中了,且有很多噪声帧被判为语音帧,而本发明方法却能较准确地检测出语音起始点。
3、如图9、图10所示,在噪声能量变化较快的环境中,本发明方法明显优于短时能零积方法。在一开始噪声能量比较低的情况下,若噪声能量突然增大,后面的输入信号被完全当作了语音信号,则基于短时能零积的方法完全失效。
4、如图11所示,几种方法在信噪比高的语音中端点检测的正确率都较好,识别效果几乎相同。但是随着信噪比的降低,前四种方法的正确了明显降低,而本发明方法正确率仍然很高,即使是在-5dB的信噪比下,本发明方法仍能取得96.83%的正确率,明显优于其他方法。
本发明请求保护的范围并不仅仅局限于本具体实施方式的描述。
Claims (4)
1.一种低信噪比环境下的语音端点检测方法,其特征是:包括以下步骤:
(1)、语音信号预处理
通过麦克风输入语音信号,由处理单元采样量化后获得相应语音数据,然后进行预加重、分帧和加窗处理;
(2)、短时能零积计算
(3)、子带能量鉴别信息计算
(4)、噪声更新因子计算
利用获得的鉴别信息来计算噪声更新因子:
(5)、帧判决
取待判决语音数据前5帧作为无音片段进行处理,并规定待判决语音数据的第一帧认为是噪声帧;
将计算出的每帧短时能零积与噪声门限阈值进行比较,所述噪声门限阈值按下式进行更新:
用短时能零积法进行判决过程中当遇到噪声帧与语音帧的转折帧时,采用基于子带能量鉴别信息的方法再次进行判决,其整个判决过程如下:
其中为鉴别信息判决边界,是距离当前帧最近的五帧噪声的鉴别信息平均值;
5)每判决完一帧都要通过加权对噪声门限阈值进行更新:
6)如果已经取完最后一帧,就结束语音的端点检测,否则继续进行上面的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310019031.7A CN103117067B (zh) | 2013-01-19 | 2013-01-19 | 一种低信噪比下语音端点检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310019031.7A CN103117067B (zh) | 2013-01-19 | 2013-01-19 | 一种低信噪比下语音端点检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103117067A true CN103117067A (zh) | 2013-05-22 |
CN103117067B CN103117067B (zh) | 2015-07-15 |
Family
ID=48415424
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310019031.7A Expired - Fee Related CN103117067B (zh) | 2013-01-19 | 2013-01-19 | 一种低信噪比下语音端点检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103117067B (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014177084A1 (zh) * | 2013-08-30 | 2014-11-06 | 中兴通讯股份有限公司 | 激活音检测方法和装置 |
CN104318927A (zh) * | 2014-11-04 | 2015-01-28 | 东莞市北斗时空通信科技有限公司 | 一种抗噪声的低速率语音编码方法及解码方法 |
CN104575498A (zh) * | 2015-01-30 | 2015-04-29 | 深圳市云之讯网络技术有限公司 | 有效语音识别方法及系统 |
CN104966518A (zh) * | 2015-03-02 | 2015-10-07 | 腾讯科技(深圳)有限公司 | 一种音乐文件的音质检测方法及装置 |
CN106486136A (zh) * | 2016-11-18 | 2017-03-08 | 腾讯科技(深圳)有限公司 | 一种声音识别方法、装置及语音交互方法 |
CN106887241A (zh) * | 2016-10-12 | 2017-06-23 | 阿里巴巴集团控股有限公司 | 一种语音信号检测方法与装置 |
WO2017181772A1 (zh) * | 2016-04-22 | 2017-10-26 | 腾讯科技(深圳)有限公司 | 语音检测方法、装置及存储介质 |
CN107810529A (zh) * | 2015-06-29 | 2018-03-16 | 亚马逊技术公司 | 语言模型语音端点确定 |
CN108154880A (zh) * | 2016-12-05 | 2018-06-12 | 广东大仓机器人科技有限公司 | 能实时分辨环境噪音进行语音识别的机器人 |
CN108847218A (zh) * | 2018-06-27 | 2018-11-20 | 郑州云海信息技术有限公司 | 一种自适应门限整定语音端点检测方法,设备及可读存储介质 |
CN108962225A (zh) * | 2018-06-27 | 2018-12-07 | 西安理工大学 | 一种多尺度自适应语音端点检测方法 |
CN108986844A (zh) * | 2018-08-06 | 2018-12-11 | 东北大学 | 一种基于说话人语音特征的语音端点检测方法 |
CN109412763A (zh) * | 2018-11-15 | 2019-03-01 | 电子科技大学 | 一种基于信号能熵比的数字信号存在性检测方法 |
CN112634921A (zh) * | 2019-10-09 | 2021-04-09 | 北京中关村科金技术有限公司 | 一种语音处理方法、装置和存储介质 |
CN115862685A (zh) * | 2023-02-27 | 2023-03-28 | 全时云商务服务股份有限公司 | 一种实时语音活动的检测方法、装置和电子设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7277853B1 (en) * | 2001-03-02 | 2007-10-02 | Mindspeed Technologies, Inc. | System and method for a endpoint detection of speech for improved speech recognition in noisy environments |
CN102522081A (zh) * | 2011-12-29 | 2012-06-27 | 北京百度网讯科技有限公司 | 一种检测语音端点的方法及系统 |
-
2013
- 2013-01-19 CN CN201310019031.7A patent/CN103117067B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7277853B1 (en) * | 2001-03-02 | 2007-10-02 | Mindspeed Technologies, Inc. | System and method for a endpoint detection of speech for improved speech recognition in noisy environments |
CN102522081A (zh) * | 2011-12-29 | 2012-06-27 | 北京百度网讯科技有限公司 | 一种检测语音端点的方法及系统 |
Non-Patent Citations (3)
Title |
---|
刘晓明等: "语音端点检测的仿真研究", 《系统仿真学报》 * |
李晔等: "基于能量和鉴别信息的语音端点检测算法", 《清华大学学报(自然科学版)》 * |
韩志艳等: "基于短时能零积和鉴别信息的语音端点检测", 《东北大学学报(自然科学版)》 * |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9978398B2 (en) | 2013-08-30 | 2018-05-22 | Zte Corporation | Voice activity detection method and device |
CN104424956A (zh) * | 2013-08-30 | 2015-03-18 | 中兴通讯股份有限公司 | 激活音检测方法和装置 |
CN104424956B9 (zh) * | 2013-08-30 | 2022-11-25 | 中兴通讯股份有限公司 | 激活音检测方法和装置 |
WO2014177084A1 (zh) * | 2013-08-30 | 2014-11-06 | 中兴通讯股份有限公司 | 激活音检测方法和装置 |
CN104424956B (zh) * | 2013-08-30 | 2018-09-21 | 中兴通讯股份有限公司 | 激活音检测方法和装置 |
CN104318927A (zh) * | 2014-11-04 | 2015-01-28 | 东莞市北斗时空通信科技有限公司 | 一种抗噪声的低速率语音编码方法及解码方法 |
CN104575498A (zh) * | 2015-01-30 | 2015-04-29 | 深圳市云之讯网络技术有限公司 | 有效语音识别方法及系统 |
CN104575498B (zh) * | 2015-01-30 | 2018-08-17 | 深圳市云之讯网络技术有限公司 | 有效语音识别方法及系统 |
CN104966518A (zh) * | 2015-03-02 | 2015-10-07 | 腾讯科技(深圳)有限公司 | 一种音乐文件的音质检测方法及装置 |
CN107810529A (zh) * | 2015-06-29 | 2018-03-16 | 亚马逊技术公司 | 语言模型语音端点确定 |
CN107810529B (zh) * | 2015-06-29 | 2021-10-08 | 亚马逊技术公司 | 语言模型语音端点确定 |
WO2017181772A1 (zh) * | 2016-04-22 | 2017-10-26 | 腾讯科技(深圳)有限公司 | 语音检测方法、装置及存储介质 |
US10872620B2 (en) | 2016-04-22 | 2020-12-22 | Tencent Technology (Shenzhen) Company Limited | Voice detection method and apparatus, and storage medium |
CN106887241A (zh) * | 2016-10-12 | 2017-06-23 | 阿里巴巴集团控股有限公司 | 一种语音信号检测方法与装置 |
US10706874B2 (en) | 2016-10-12 | 2020-07-07 | Alibaba Group Holding Limited | Voice signal detection method and apparatus |
CN106486136A (zh) * | 2016-11-18 | 2017-03-08 | 腾讯科技(深圳)有限公司 | 一种声音识别方法、装置及语音交互方法 |
CN108154880A (zh) * | 2016-12-05 | 2018-06-12 | 广东大仓机器人科技有限公司 | 能实时分辨环境噪音进行语音识别的机器人 |
CN108962225A (zh) * | 2018-06-27 | 2018-12-07 | 西安理工大学 | 一种多尺度自适应语音端点检测方法 |
CN108847218B (zh) * | 2018-06-27 | 2020-07-21 | 苏州浪潮智能科技有限公司 | 一种自适应门限整定语音端点检测方法,设备及可读存储介质 |
CN108847218A (zh) * | 2018-06-27 | 2018-11-20 | 郑州云海信息技术有限公司 | 一种自适应门限整定语音端点检测方法,设备及可读存储介质 |
CN108986844A (zh) * | 2018-08-06 | 2018-12-11 | 东北大学 | 一种基于说话人语音特征的语音端点检测方法 |
CN109412763A (zh) * | 2018-11-15 | 2019-03-01 | 电子科技大学 | 一种基于信号能熵比的数字信号存在性检测方法 |
CN112634921A (zh) * | 2019-10-09 | 2021-04-09 | 北京中关村科金技术有限公司 | 一种语音处理方法、装置和存储介质 |
CN112634921B (zh) * | 2019-10-09 | 2024-02-13 | 北京中关村科金技术有限公司 | 一种语音处理方法、装置和存储介质 |
CN115862685A (zh) * | 2023-02-27 | 2023-03-28 | 全时云商务服务股份有限公司 | 一种实时语音活动的检测方法、装置和电子设备 |
CN115862685B (zh) * | 2023-02-27 | 2023-09-15 | 全时云商务服务股份有限公司 | 一种实时语音活动的检测方法、装置和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN103117067B (zh) | 2015-07-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103117067B (zh) | 一种低信噪比下语音端点检测方法 | |
Moattar et al. | A simple but efficient real-time voice activity detection algorithm | |
CN108538310B (zh) | 一种基于长时信号功率谱变化的语音端点检测方法 | |
US9305567B2 (en) | Systems and methods for audio signal processing | |
US7756700B2 (en) | Perceptual harmonic cepstral coefficients as the front-end for speech recognition | |
US9454976B2 (en) | Efficient discrimination of voiced and unvoiced sounds | |
CN105023572A (zh) | 一种含噪语音端点鲁棒检测方法 | |
Lokhande et al. | Voice activity detection algorithm for speech recognition applications | |
CN108682432B (zh) | 语音情感识别装置 | |
CN104091593B (zh) | 采用感知语谱结构边界参数的语音端点检测算法 | |
EP3262641A1 (en) | Systems and methods for speech restoration | |
CN110379438B (zh) | 一种语音信号基频检测与提取方法及系统 | |
Zhang et al. | An improved speech endpoint detection based on adaptive sub-band selection spectral variance | |
Jin et al. | An improved speech endpoint detection based on spectral subtraction and adaptive sub-band spectral entropy | |
Sundaram et al. | Usable Speech Detection Using Linear Predictive Analysis–A Model-Based Approach | |
CN111128244B (zh) | 基于过零率检测的短波通信语音激活检测方法 | |
Moattar et al. | A Weighted Feature Voting Approach for Robust and Real‐Time Voice Activity Detection | |
Heese et al. | Speech-codebook based soft voice activity detection | |
CN110610724A (zh) | 基于非均匀子带分离方差的语音端点检测方法及装置 | |
Graf et al. | Improved performance measures for voice activity detection | |
Li et al. | Robust speech endpoint detection based on improved adaptive band-partitioning spectral entropy | |
Pham et al. | Performance analysis of wavelet subband based voice activity detection in cocktail party environment | |
Zhiyan et al. | Research on speech endpoint detection under low signal-to-noise ratios | |
CN115862685B (zh) | 一种实时语音活动的检测方法、装置和电子设备 | |
Zhigang et al. | An adaptive voice activity detection algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20150715 Termination date: 20160119 |
|
EXPY | Termination of patent right or utility model |