CN107833582B - 基于弧长的语音信号端点检测方法 - Google Patents

基于弧长的语音信号端点检测方法 Download PDF

Info

Publication number
CN107833582B
CN107833582B CN201711155073.8A CN201711155073A CN107833582B CN 107833582 B CN107833582 B CN 107833582B CN 201711155073 A CN201711155073 A CN 201711155073A CN 107833582 B CN107833582 B CN 107833582B
Authority
CN
China
Prior art keywords
arc length
short
time
voice signal
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201711155073.8A
Other languages
English (en)
Other versions
CN107833582A (zh
Inventor
蒋晔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Finance and Economics
Original Assignee
Nanjing University of Finance and Economics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Finance and Economics filed Critical Nanjing University of Finance and Economics
Priority to CN201711155073.8A priority Critical patent/CN107833582B/zh
Publication of CN107833582A publication Critical patent/CN107833582A/zh
Application granted granted Critical
Publication of CN107833582B publication Critical patent/CN107833582B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种基于弧长的语音信号端点检测方法。首先计算语音信号的短时弧长,然后设置一个阈值,根据阈值将语音信号划分为有声段和无声段,最后,将所有有声段所对应的起、止位置成对组成数组,作为端点检测的最终结果输出,完成语音端点检测。本发明的计算量较少,参数调节和优化也较为方便,特别适用于语音编、解码和信号传输等对实时性要求较高的场合。

Description

基于弧长的语音信号端点检测方法
技术领域
本发明属于语音信号处理领域,具体是一种基于弧长的语音信号端点检测方法。
背景技术
语音信号可以分为有声段和无声段,在语音信号编码、语音识别和说话人识别系统中,无声段的混入会显著降低系统的工作效率与性能。因此,在语音信号处理阶段,需要将相应的有声段起止点检测出来,即语音信号的端点检测技术。
近年来,研究者提出了多种语音信号端点检测方法,如基于短时能量的方法、基于短时能量和短时过零率相结合的双门限法、基于谱熵的方法、基于梅尔倒谱相似度的方法、基于子带信噪比的方法等。在这些端点检测方法中,大多原理复杂,计算耗时,参数过多,不方便调节优化,也不利于信号的高速、实时处理。以最简单,也是最常用的基于短时能量和短时过零率相结合的双门限法为例,该方法以短时能量为主,短时过零率为辅,需要同时计算语音信号的短时能量及短时过零率;然后对短时能量设置两个阈值,对短时过零率设置一个阈值,采用多阈值逻辑进行综合判断。与双门限法相比,上述其它语音端点检测方法的复杂度更高,处理起来更为耗时。
发明内容
本发明的目的在于提供一种基于弧长的语音信号端点检测方法,用来克服其它语音端点检测方法复杂度较高、处理耗时的问题。
实现本发明目的的技术解决方案为:一种基于弧长的语音信号端点检测方法,首先计算语音信号的短时弧长,然后设置一个阈值,根据阈值将语音信号划分为有声段和无声段,最后将有声段作为结果输出,完成语音端点检测。
检测方法的流程包括如下步骤:
(1)分帧
将语音信号采样序列划分为一系列固定长度的帧;
(2)按帧计算弧长
对每帧信号,计算其弧长,即短时弧长;
(3)设定阈值
根据短时弧长的平均值,取其平均值的5%作为阈值;
(4)初步检测
根据步骤(3)设定的阈值,对所有帧进行比较。将短时弧长大于或等于阈值的语音帧,标记为有声段,用“1”表示;其余帧标记为无声段,用“0”表示;
(5)结果优化
将很短的有声段,即前后连续标为“1”且连续帧数小于某固定值的段所对应帧,重新标记为无声段,即标为“0”;
(6)结果输出
将所有有声段所对应的起、止位置成对组成数组,作为端点检测的最终结果输出。
本发明与现有技术相比,其显著优点:本发明是基于短时弧长的检测,计算量更小,实现更为简单。特别适用于语音编、解码和信号传输等对实时性要求较高的场合。
附图说明
图1为本发明基于弧长的语音信号端点检测的流程图。
图2为样例语音信号的波形。
图3为样例语音信号的弧长曲线。
图4为样例语音信号的弧长阈值设置图。
图5为样例语音信号的语音端点检测初步结果。
图6为样例语音信号的语音端点检测优化结果。
具体实施方式
本发明是一种基于弧长的语音信号端点检测方法。语音信号的弧长特征即和其振幅,即能量有关,也和其频率(包括过零率)有关,综合表征了振幅和频率两个变量的综合情况。因为特征参数只有一种,所以,只设置一个门限阈值即可,计算简单,参数调节和优化也较为方便。
下面结合附图和实施例对本发明作进一步说明。
以某条语音信号为例,来说明具体实施步骤。该条语音的波形如图2所示。
步骤1:语音信号是一种短时平稳信号,在较短的时间内(10~30ms)是相对平稳的。根据语音信号的短时平稳性,可将语音信号划分为一系列的时间段进行分析,在一个时段内语音信号是平稳的,一个时段称为一帧。该条语音信号x(t),t=[1,2,...,T],采样频率为16000Hz,帧长设为N=256个抽样数据(帧长对应的时间为16ms),共分为大约L=T/N(如不能整除,向上取整)个帧;
步骤2:语音信号的短时能量表征了语音信号振幅特征,反映了语音信号的能量特性;而语音信号的短时过零率表征了幅值符号变化的次数,反映了语音信号的频率特性。然而在时域上,弧长特征即和语音信号的振幅有关,也和其频率有关,表征了振幅和频率两个变量的综合情况。
第i帧的短时弧长ai为,
Figure BDA0001473912500000031
其中,△t抽样时间间隔。假设△t很小,忽略不计,则上式可写成,
Figure BDA0001473912500000032
样例语音信号的短时弧长曲线如图3所示。
从图3可以看出,短时弧长在浊音段较高,在清音段中等,在无声段较小。
步骤3:基于短时弧长,仅设置单一的阈值,便可以完成语音信号的端点检测。阈值如图4所示;
Figure BDA0001473912500000033
步骤4:根据步骤3设定的阈值H,对所有帧进行比较。将短时弧长大于或等于阈值的语音帧,标记为有声段,用“1”表示;其余帧标记为无声段,用“0”表示。端点检测初步结果如图5所示;
步骤5:将很短的有声段,即前后连续标为“1”的帧数小于5所对应的帧,重新标记为无声段,即标为“0”。端点检测的优化结果如图6所示;
步骤6:根据步骤5的结果,将所有有声段所对应的起、止位置成对组成数组,作为端点检测的最终结果输出。
相比于双门限法等其它端点检测方法,基于短时弧长的检测方法计算量显然更小,实现也更为简单。

Claims (1)

1.一种基于弧长的语音信号端点检测方法,其特征在于:首先计算语音信号的短时弧长,然后设置一个阈值,根据阈值将语音信号划分为有声段和无声段,最后,将有声段作为结果输出,完成语音端点检测;
该方法包含以下步骤:
(1)将语音信号采样序列划分为一系列固定长度的帧,帧长对应的时间取10~30ms之间;
(2)计算每帧信号的弧长,即短时弧长;
第i帧的短时弧长ai为,
Figure FDA0002657926370000011
其中,△t抽样时间间隔;假设△t很小,忽略不计,则上式可写成,
Figure FDA0002657926370000012
(3)根据短时弧长的平均值,取其平均值的5%作为阈值;
(4)根据步骤(3)设定的阈值,对所有帧进行比较;将短时弧长大于或等于阈值的语音帧,标记为有声段,用“1”表示;其余帧标记为无声段,用“0”表示;
(5)将较短的有声段,即前后连续标为“1”且连续帧数小于某固定值的段所对应的帧,重新标记为无声段,即标为“0”;
(6)将所有有声段所对应的起、止位置成对组成数组,作为端点检测的最终结果输出。
CN201711155073.8A 2017-11-20 2017-11-20 基于弧长的语音信号端点检测方法 Expired - Fee Related CN107833582B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711155073.8A CN107833582B (zh) 2017-11-20 2017-11-20 基于弧长的语音信号端点检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711155073.8A CN107833582B (zh) 2017-11-20 2017-11-20 基于弧长的语音信号端点检测方法

Publications (2)

Publication Number Publication Date
CN107833582A CN107833582A (zh) 2018-03-23
CN107833582B true CN107833582B (zh) 2021-02-09

Family

ID=61652983

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711155073.8A Expired - Fee Related CN107833582B (zh) 2017-11-20 2017-11-20 基于弧长的语音信号端点检测方法

Country Status (1)

Country Link
CN (1) CN107833582B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109412763B (zh) * 2018-11-15 2021-03-30 电子科技大学 一种基于信号能熵比的数字信号存在性检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101206858A (zh) * 2007-12-12 2008-06-25 北京中星微电子有限公司 一种孤立词语音端点检测的方法及系统
CN102342858A (zh) * 2010-08-06 2012-02-08 上海中医药大学 中医声诊采集与分析系统
CN102579010A (zh) * 2012-03-01 2012-07-18 上海大学 据鼾声确定阻塞性睡眠呼吸暂停与低通气综合症的方法
CN103593048A (zh) * 2013-10-28 2014-02-19 浙江大学 动物机器人系统的语音导航系统及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101206858A (zh) * 2007-12-12 2008-06-25 北京中星微电子有限公司 一种孤立词语音端点检测的方法及系统
CN102342858A (zh) * 2010-08-06 2012-02-08 上海中医药大学 中医声诊采集与分析系统
CN102579010A (zh) * 2012-03-01 2012-07-18 上海大学 据鼾声确定阻塞性睡眠呼吸暂停与低通气综合症的方法
CN103593048A (zh) * 2013-10-28 2014-02-19 浙江大学 动物机器人系统的语音导航系统及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Matlab 在数字语音处理课程教学中的应用;时翔,廖红华;《咸宁学院学报》;20090630;第29卷(第3期);全文 *
Reducing Waiting Time in Automatic Captioned;Kiettiphong Manovisut etc;<IEEE>;20170327;全文 *

Also Published As

Publication number Publication date
CN107833582A (zh) 2018-03-23

Similar Documents

Publication Publication Date Title
CN101625857B (zh) 一种自适应的语音端点检测方法
CN107045870B (zh) 一种基于特征值编码的语音信号端点检测方法
CN104091603B (zh) 基于基频的端点检测系统及其计算方法
CN101197130B (zh) 声音活动检测方法和声音活动检测器
CN106653056B (zh) 基于lstm循环神经网络的基频提取模型及训练方法
CN109545188A (zh) 一种实时语音端点检测方法及装置
CN101625858B (zh) 语音端点检测中短时能频值的提取方法
CN105023572A (zh) 一种含噪语音端点鲁棒检测方法
CN101625860B (zh) 语音端点检测中的背景噪声自适应调整方法
CN1815552B (zh) 基于线谱频率及其阶间差分参数的频谱建模与语音增强方法
CN101625862B (zh) 自动字幕生成系统中语音区间的检测方法
CN103366739A (zh) 面向孤立词语音识别的自适应端点检测方法及其系统
CN103117067A (zh) 一种低信噪比下语音端点检测方法
CN110136709A (zh) 语音识别方法及基于语音识别的视频会议系统
CN109360585A (zh) 一种语音激活检测方法
CN105679312A (zh) 一种噪声环境下声纹识别的语音特征处理方法
CN101887722A (zh) 快速声纹认证方法
CN112071308A (zh) 一种基于语音合成数据增强的唤醒词训练方法
Labied et al. An overview of automatic speech recognition preprocessing techniques
CN111724809A (zh) 一种基于变分自编码器的声码器实现方法及装置
CN107833582B (zh) 基于弧长的语音信号端点检测方法
CN115966218A (zh) 一种骨导辅助的气导语音处理方法、装置、介质及设备
Xu et al. An improved pitch detection of speech combined with speech enhancement
CN203748009U (zh) 一种数字助听器
Yang et al. Fundamental Frequency Extraction and Tone Recognition of Chinese Continuous Two-character-words

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210209

CF01 Termination of patent right due to non-payment of annual fee