CN107833582B - 基于弧长的语音信号端点检测方法 - Google Patents
基于弧长的语音信号端点检测方法 Download PDFInfo
- Publication number
- CN107833582B CN107833582B CN201711155073.8A CN201711155073A CN107833582B CN 107833582 B CN107833582 B CN 107833582B CN 201711155073 A CN201711155073 A CN 201711155073A CN 107833582 B CN107833582 B CN 107833582B
- Authority
- CN
- China
- Prior art keywords
- arc length
- short
- time
- voice signal
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 31
- 238000000034 method Methods 0.000 claims abstract description 13
- 238000005070 sampling Methods 0.000 claims description 2
- 238000005457 optimization Methods 0.000 abstract description 6
- 230000008054 signal transmission Effects 0.000 abstract description 2
- 238000009432 framing Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了一种基于弧长的语音信号端点检测方法。首先计算语音信号的短时弧长,然后设置一个阈值,根据阈值将语音信号划分为有声段和无声段,最后,将所有有声段所对应的起、止位置成对组成数组,作为端点检测的最终结果输出,完成语音端点检测。本发明的计算量较少,参数调节和优化也较为方便,特别适用于语音编、解码和信号传输等对实时性要求较高的场合。
Description
技术领域
本发明属于语音信号处理领域,具体是一种基于弧长的语音信号端点检测方法。
背景技术
语音信号可以分为有声段和无声段,在语音信号编码、语音识别和说话人识别系统中,无声段的混入会显著降低系统的工作效率与性能。因此,在语音信号处理阶段,需要将相应的有声段起止点检测出来,即语音信号的端点检测技术。
近年来,研究者提出了多种语音信号端点检测方法,如基于短时能量的方法、基于短时能量和短时过零率相结合的双门限法、基于谱熵的方法、基于梅尔倒谱相似度的方法、基于子带信噪比的方法等。在这些端点检测方法中,大多原理复杂,计算耗时,参数过多,不方便调节优化,也不利于信号的高速、实时处理。以最简单,也是最常用的基于短时能量和短时过零率相结合的双门限法为例,该方法以短时能量为主,短时过零率为辅,需要同时计算语音信号的短时能量及短时过零率;然后对短时能量设置两个阈值,对短时过零率设置一个阈值,采用多阈值逻辑进行综合判断。与双门限法相比,上述其它语音端点检测方法的复杂度更高,处理起来更为耗时。
发明内容
本发明的目的在于提供一种基于弧长的语音信号端点检测方法,用来克服其它语音端点检测方法复杂度较高、处理耗时的问题。
实现本发明目的的技术解决方案为:一种基于弧长的语音信号端点检测方法,首先计算语音信号的短时弧长,然后设置一个阈值,根据阈值将语音信号划分为有声段和无声段,最后将有声段作为结果输出,完成语音端点检测。
检测方法的流程包括如下步骤:
(1)分帧
将语音信号采样序列划分为一系列固定长度的帧;
(2)按帧计算弧长
对每帧信号,计算其弧长,即短时弧长;
(3)设定阈值
根据短时弧长的平均值,取其平均值的5%作为阈值;
(4)初步检测
根据步骤(3)设定的阈值,对所有帧进行比较。将短时弧长大于或等于阈值的语音帧,标记为有声段,用“1”表示;其余帧标记为无声段,用“0”表示;
(5)结果优化
将很短的有声段,即前后连续标为“1”且连续帧数小于某固定值的段所对应帧,重新标记为无声段,即标为“0”;
(6)结果输出
将所有有声段所对应的起、止位置成对组成数组,作为端点检测的最终结果输出。
本发明与现有技术相比,其显著优点:本发明是基于短时弧长的检测,计算量更小,实现更为简单。特别适用于语音编、解码和信号传输等对实时性要求较高的场合。
附图说明
图1为本发明基于弧长的语音信号端点检测的流程图。
图2为样例语音信号的波形。
图3为样例语音信号的弧长曲线。
图4为样例语音信号的弧长阈值设置图。
图5为样例语音信号的语音端点检测初步结果。
图6为样例语音信号的语音端点检测优化结果。
具体实施方式
本发明是一种基于弧长的语音信号端点检测方法。语音信号的弧长特征即和其振幅,即能量有关,也和其频率(包括过零率)有关,综合表征了振幅和频率两个变量的综合情况。因为特征参数只有一种,所以,只设置一个门限阈值即可,计算简单,参数调节和优化也较为方便。
下面结合附图和实施例对本发明作进一步说明。
以某条语音信号为例,来说明具体实施步骤。该条语音的波形如图2所示。
步骤1:语音信号是一种短时平稳信号,在较短的时间内(10~30ms)是相对平稳的。根据语音信号的短时平稳性,可将语音信号划分为一系列的时间段进行分析,在一个时段内语音信号是平稳的,一个时段称为一帧。该条语音信号x(t),t=[1,2,...,T],采样频率为16000Hz,帧长设为N=256个抽样数据(帧长对应的时间为16ms),共分为大约L=T/N(如不能整除,向上取整)个帧;
步骤2:语音信号的短时能量表征了语音信号振幅特征,反映了语音信号的能量特性;而语音信号的短时过零率表征了幅值符号变化的次数,反映了语音信号的频率特性。然而在时域上,弧长特征即和语音信号的振幅有关,也和其频率有关,表征了振幅和频率两个变量的综合情况。
第i帧的短时弧长ai为,
其中,△t抽样时间间隔。假设△t很小,忽略不计,则上式可写成,
样例语音信号的短时弧长曲线如图3所示。
从图3可以看出,短时弧长在浊音段较高,在清音段中等,在无声段较小。
步骤3:基于短时弧长,仅设置单一的阈值,便可以完成语音信号的端点检测。阈值如图4所示;
步骤4:根据步骤3设定的阈值H,对所有帧进行比较。将短时弧长大于或等于阈值的语音帧,标记为有声段,用“1”表示;其余帧标记为无声段,用“0”表示。端点检测初步结果如图5所示;
步骤5:将很短的有声段,即前后连续标为“1”的帧数小于5所对应的帧,重新标记为无声段,即标为“0”。端点检测的优化结果如图6所示;
步骤6:根据步骤5的结果,将所有有声段所对应的起、止位置成对组成数组,作为端点检测的最终结果输出。
相比于双门限法等其它端点检测方法,基于短时弧长的检测方法计算量显然更小,实现也更为简单。
Claims (1)
1.一种基于弧长的语音信号端点检测方法,其特征在于:首先计算语音信号的短时弧长,然后设置一个阈值,根据阈值将语音信号划分为有声段和无声段,最后,将有声段作为结果输出,完成语音端点检测;
该方法包含以下步骤:
(1)将语音信号采样序列划分为一系列固定长度的帧,帧长对应的时间取10~30ms之间;
(2)计算每帧信号的弧长,即短时弧长;
第i帧的短时弧长ai为,
其中,△t抽样时间间隔;假设△t很小,忽略不计,则上式可写成,
(3)根据短时弧长的平均值,取其平均值的5%作为阈值;
(4)根据步骤(3)设定的阈值,对所有帧进行比较;将短时弧长大于或等于阈值的语音帧,标记为有声段,用“1”表示;其余帧标记为无声段,用“0”表示;
(5)将较短的有声段,即前后连续标为“1”且连续帧数小于某固定值的段所对应的帧,重新标记为无声段,即标为“0”;
(6)将所有有声段所对应的起、止位置成对组成数组,作为端点检测的最终结果输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711155073.8A CN107833582B (zh) | 2017-11-20 | 2017-11-20 | 基于弧长的语音信号端点检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711155073.8A CN107833582B (zh) | 2017-11-20 | 2017-11-20 | 基于弧长的语音信号端点检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107833582A CN107833582A (zh) | 2018-03-23 |
CN107833582B true CN107833582B (zh) | 2021-02-09 |
Family
ID=61652983
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711155073.8A Expired - Fee Related CN107833582B (zh) | 2017-11-20 | 2017-11-20 | 基于弧长的语音信号端点检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107833582B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109412763B (zh) * | 2018-11-15 | 2021-03-30 | 电子科技大学 | 一种基于信号能熵比的数字信号存在性检测方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101206858A (zh) * | 2007-12-12 | 2008-06-25 | 北京中星微电子有限公司 | 一种孤立词语音端点检测的方法及系统 |
CN102342858A (zh) * | 2010-08-06 | 2012-02-08 | 上海中医药大学 | 中医声诊采集与分析系统 |
CN102579010A (zh) * | 2012-03-01 | 2012-07-18 | 上海大学 | 据鼾声确定阻塞性睡眠呼吸暂停与低通气综合症的方法 |
CN103593048A (zh) * | 2013-10-28 | 2014-02-19 | 浙江大学 | 动物机器人系统的语音导航系统及方法 |
-
2017
- 2017-11-20 CN CN201711155073.8A patent/CN107833582B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101206858A (zh) * | 2007-12-12 | 2008-06-25 | 北京中星微电子有限公司 | 一种孤立词语音端点检测的方法及系统 |
CN102342858A (zh) * | 2010-08-06 | 2012-02-08 | 上海中医药大学 | 中医声诊采集与分析系统 |
CN102579010A (zh) * | 2012-03-01 | 2012-07-18 | 上海大学 | 据鼾声确定阻塞性睡眠呼吸暂停与低通气综合症的方法 |
CN103593048A (zh) * | 2013-10-28 | 2014-02-19 | 浙江大学 | 动物机器人系统的语音导航系统及方法 |
Non-Patent Citations (2)
Title |
---|
Matlab 在数字语音处理课程教学中的应用;时翔,廖红华;《咸宁学院学报》;20090630;第29卷(第3期);全文 * |
Reducing Waiting Time in Automatic Captioned;Kiettiphong Manovisut etc;<IEEE>;20170327;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN107833582A (zh) | 2018-03-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101625857B (zh) | 一种自适应的语音端点检测方法 | |
CN107045870B (zh) | 一种基于特征值编码的语音信号端点检测方法 | |
CN104091603B (zh) | 基于基频的端点检测系统及其计算方法 | |
CN101197130B (zh) | 声音活动检测方法和声音活动检测器 | |
CN106653056B (zh) | 基于lstm循环神经网络的基频提取模型及训练方法 | |
CN109545188A (zh) | 一种实时语音端点检测方法及装置 | |
CN101625858B (zh) | 语音端点检测中短时能频值的提取方法 | |
CN105023572A (zh) | 一种含噪语音端点鲁棒检测方法 | |
CN101625860B (zh) | 语音端点检测中的背景噪声自适应调整方法 | |
CN1815552B (zh) | 基于线谱频率及其阶间差分参数的频谱建模与语音增强方法 | |
CN101625862B (zh) | 自动字幕生成系统中语音区间的检测方法 | |
CN103366739A (zh) | 面向孤立词语音识别的自适应端点检测方法及其系统 | |
CN103117067A (zh) | 一种低信噪比下语音端点检测方法 | |
CN110136709A (zh) | 语音识别方法及基于语音识别的视频会议系统 | |
CN109360585A (zh) | 一种语音激活检测方法 | |
CN105679312A (zh) | 一种噪声环境下声纹识别的语音特征处理方法 | |
CN101887722A (zh) | 快速声纹认证方法 | |
CN112071308A (zh) | 一种基于语音合成数据增强的唤醒词训练方法 | |
Labied et al. | An overview of automatic speech recognition preprocessing techniques | |
CN111724809A (zh) | 一种基于变分自编码器的声码器实现方法及装置 | |
CN107833582B (zh) | 基于弧长的语音信号端点检测方法 | |
CN115966218A (zh) | 一种骨导辅助的气导语音处理方法、装置、介质及设备 | |
Xu et al. | An improved pitch detection of speech combined with speech enhancement | |
CN203748009U (zh) | 一种数字助听器 | |
Yang et al. | Fundamental Frequency Extraction and Tone Recognition of Chinese Continuous Two-character-words |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210209 |
|
CF01 | Termination of patent right due to non-payment of annual fee |