CN105869658B - 一种采用非线性特征的语音端点检测方法 - Google Patents
一种采用非线性特征的语音端点检测方法 Download PDFInfo
- Publication number
- CN105869658B CN105869658B CN201610204170.0A CN201610204170A CN105869658B CN 105869658 B CN105869658 B CN 105869658B CN 201610204170 A CN201610204170 A CN 201610204170A CN 105869658 B CN105869658 B CN 105869658B
- Authority
- CN
- China
- Prior art keywords
- audio signal
- sections
- frame
- lyapunov index
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 230000005236 sound signal Effects 0.000 claims abstract description 38
- 238000012545 processing Methods 0.000 claims abstract description 19
- 230000011218 segmentation Effects 0.000 claims abstract description 7
- 238000005070 sampling Methods 0.000 claims description 18
- 239000000284 extract Substances 0.000 claims description 5
- 238000012216 screening Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 abstract description 12
- 238000004364 calculation method Methods 0.000 abstract description 3
- 230000000694 effects Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 239000004568 cement Substances 0.000 description 1
- 230000000739 chaotic effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005183 dynamical system Methods 0.000 description 1
- 230000005713 exacerbation Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 210000004704 glottis Anatomy 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000003928 nasal cavity Anatomy 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
Abstract
本发明公开了一种采用非线性特征的语音端点检测方法,包括对音频信号进行预加重处理;对经过预加重处理的音频信号进行分帧处理;对每一帧音频信号进行幅值分割,计算此帧音频信号的李亚普诺夫指数;将每一帧音频信号的李亚普诺夫指数与设定的阈值做比较,判别出音频信号的端点。本发明更加针对语音的本质,在降低运算复杂度的同时,也提供了更准确的信息去完善语音端点检测系统的性能。正确有效地检测出语音段不仅可以减少计算量和缩短处理时间,而且能排除非有效语音段的噪声干扰,从而使后续语音处理工作及整个系统的识别性能得到较大的提高。
Description
技术领域
本发明公开了一种采用非线性特征的语音端点检测方法,涉及音频处理技术领域。
背景技术
计算机技术、网络技术和通讯技术的飞速发展已带领我们步入了大数据时代,信息的获取方式不断丰富和多样化,音频数据的种类和数量也日益繁多,如:电话录音、新闻广播、音频采访、会议录音、语音邮件等。这些音频文件中包含着有效语音段,也夹杂着许多冗余的部分,这给存储和语音处理造成了很重的负担。因此,语音端点检测就显得尤为重要,其作用是找出语音的起始点和结束点,分离出有效声段。语音端点检测作为一种语音信号预处理技术,在语音识别、语音增强、语音编码等系统中起着非常重要的作用。尤其是对孤立词识别系统而言,研究表明端点检测效果是影响识别率的重要因素,正确有效地检测出语音段不仅可以减少计算量和缩短处理时间,而且能排除非有效语音段的噪声干扰,从而使后续语音处理工作及整个系统的识别性能得到较大的提高。
目前端点检测技术大体上可以分成两类,一类是基于阈值的方法,另一类是基于模式识别的方法。相比之下,前者不需要大量的训练数据来估计参数和建立模型,算法简单快速,在高信噪比的情况下有较好的检测效果。阈值法通常是提取语音的能量特征并根据特征的统计分析特性经验性地设定阈值来进行检测,其典型代表是基于短时能量特征和短时过零率特征的双门限判决方法,该方法以短时能量门限为主,以短时过零率门限为辅。在这些方法中,提取的特征一般为线性特征,忽略了语音信号的实质。而空气动力学的研究表明语音信号本质是非线性的,语音的产生是个复杂的过程,对于声道系统的建模往往需要考虑声道形状的时变、声道的共振、气流摩擦、鼻腔的耦合、口唇的辐射及声门效应等等。其中一些要素可以通过时变的线性滤波器进行建模,但是还有一些非线性的动态特征则很难明确地用数学模型去描述,而基于混沌理论,则可以有效地去分析和提取语音的非线性特性。
发明内容
本发明所要解决的技术问题是:针对现有技术的缺陷,提供一种采用非线性特征的语音端点检测方法,将语音的采样点视为空间中的点,将波形视为由各采样点衍生的轨迹,在此基础上提取出各帧语音的李亚普诺夫指数作为端点检测的判别参数。
本发明为解决上述技术问题采用以下技术方案:
一种采用非线性特征的语音端点检测方法,具体包括以下步骤:
步骤一、对音频信号进行预加重处理;
步骤二、对经过预加重处理的音频信号进行分帧处理;
步骤三、对每一帧音频信号进行幅值分割,计算此帧音频信号的李亚普诺夫指数;
步骤四、将每一帧音频信号的李亚普诺夫指数与设定的阈值做比较,判别出音频信号的端点。
作为本发明的进一步优选方案,所述步骤三中,将每一帧音频信号根据幅值分割为M段,M为自然数;
选取其中的第m段,m=1…M,判断第m段的采样点数是否大于或者等于2;
当第m段的采样点数大于或者等于2时,计算李亚普诺夫指数;
当第m段的采样点数小于2时,对m值进行叠加;
统计计算M段音频信号李亚普诺夫指数的平均值。
作为本发明的进一步优选方案,所述步骤二中,将音频信号分为K帧,K为自然数,对K帧音频信号均进行阈值筛选,提取有效声段。
作为本发明的进一步优选方案,计算李亚普诺夫指数的具体步骤包括:
1、从位于第m段中的第一个采样点起,依次计算该段中两两采样点之间的
幅度差,d0d1d2…dn;,n的取值为自然数;
2、在时域波形曲线上依次找到第m段中每一个采样点的后续采样点,计算
它们两两之间的幅度差,d′0d′1d′2…d′n;
3、通过下式计算第m段的李亚普诺夫指数,
4、当第m段的采样点数小于2时,对m值进行叠加;
5、统计计算M段音频信号李亚普诺夫指数的平均值,作为每一帧的判别参数。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:本发明更加针对语音的本质,在降低运算复杂度的同时,也提供了更准确的信息去完善语音端点检测系统的性能。正确有效地检测出语音段不仅可以减少计算量和缩短处理时间,而且能排除非有效语音段的噪声干扰,从而使后续语音处理工作及整个系统的识别性能得到较大的提高。
附图说明
图1是本发明的方法流程示意图。
图2是本发明的一个具体实施例中,第m段中采样点幅度差的计算示意图。
图3是本发明的一个具体实施例中,数字语音“9”的端点检测结果。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
在动力系统中,李亚普诺夫指数是指示系统混沌特性的重要特征。考虑空间中无限接近的两个点,且每个点将在空间中产生一条轨迹,这两条轨迹可以视为时间变量的函数。如果以其中一条轨迹作为参考,则两条轨迹之间的分离程度也是时间的函数,其基于时间的比值量化为李亚普诺夫指数。根据这一思想,本发明将语音的采样点视为空间中的点,将波形视为由各采样点衍生的轨迹,在此基础上提取出各帧语音的李亚普诺夫指数作为端点检测的判别参数。这一非线性特征与传统方法中的双门限特征相比,更加体现了语音的本质,在降低运算复杂度的同时,也提供了更准确的信息去完善语音端点检测系统的性能。
下面结合附图对本发明的技术方案做进一步的详细说明:
在语音拨号系统中,需要实现对0-9这十个孤立数字语音的识别,当语音录取模块功能响应后,系统会存储每个语音进行识别,由于发音的起始时间不同,会严重影响后续的模式匹配过程,降低识别率。因此,在识别模块之前如何快速有效的实现端点检测是本设计的着眼点。
本发明的方法流程示意图如图1所示,所述采用非线性特征的语音端点检测方法,具体包括以下步骤:
步骤一、对0-9孤立数字的音频信号采样,采样频率为8000Hz,对采样信号进行预加重处理;
步骤二、对经过预加重处理的音频信号进行时域分帧处理,帧长为10ms;
步骤三、对每一帧音频信号加汉明窗,在幅值的最大值与最小值之间进行纵向均匀分割,分段数与每一帧的采样点数一致,计算此帧音频信号的李亚普诺夫指数;
步骤四、将每一帧音频信号的李亚普诺夫指数与设定的阈值做比较,判别出音频信号的端点。
更进一步的,所述步骤三中,将每一帧音频信号根据幅值分割为M段,M为自然数;
选取其中的第m段,m=1…M,判断第m段的采样点数是否大于或者等于2;
当第m段的采样点数大于或者等于2时,由下列步骤计算该段的李亚普诺夫指数:
(1)从位于第m段中的第一个采样点起,依次计算该段中两两采样点之间的幅度差,d0d1d2…dn,如图2所示;
(2)在时域波形曲线上依次找到第m段中每一个采样点的后续采样点,计算它们两两之间的幅度差,d′0d′1d′2…d′n,如图2所示;
(3)通过下式计算第m段的李亚普诺夫指数,
当第m段的采样点数小于2时,对m值进行叠加;
统计计算M段音频信号李亚普诺夫指数的平均值作为每一帧的判别参数。
更进一步的,所述步骤二中,将音频信号分为K帧,K为自然数,对K帧音频信号均进行阈值筛选,提取有效声段,如图3所示,采用本设计提出的方法有效地提取出了数字“9”的语音端点。
上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案内容,依据本发明的技术实质,在本发明的精神和原则之内,对以上实施例所作的任何简单的修改、等同替换与改进等,均仍属于本发明技术方案的保护范围之内。
Claims (4)
1.一种采用非线性特征的语音端点检测方法,其特征在于,具体包括以下步骤:
步骤一、对音频信号进行预加重处理;
步骤二、对经过预加重处理的音频信号进行分帧处理;
步骤三、对每一帧音频信号进行幅值分割,计算此帧音频信号的李亚普诺夫指数;
步骤四、将每一帧音频信号的李亚普诺夫指数与设定的阈值做比较,判别出音频信号的端点。
2.如权利要求1所述的一种采用非线性特征的语音端点检测方法,其特征在于:所述步骤三中,将每一帧音频信号根据幅值分割为M段,M为自然数;
选取其中的第m段,m=1…M,判断第m段的采样点数是否大于或者等于2;
当第m段的采样点数大于或者等于2时,计算李亚普诺夫指数;
当第m段的采样点数小于2时,对m值进行叠加,进行m+1;
统计计算M段音频信号李亚普诺夫指数的平均值。
3.如权利要求1或2所述的一种采用非线性特征的语音端点检测方法,其特征在于:所述步骤二中,将音频信号分为K帧,K为自然数,对K帧音频信号均进行阈值筛选,提取有效声段。
4.如权利要求2所述的一种采用非线性特征的语音端点检测方法,其特征在于:计算李亚普诺夫指数的具体步骤包括:
1)、从位于第m段中的第一个采样点起,依次计算该段中两两采样点之间的幅度差,d0,d1,d2…dn;n的取值为自然数;
2)、在时域波形曲线上依次找到第m段中每一个采样点的后续采样点,计算它们两两之间的幅度差d′0,d′1,d′2…d′n;
3)、通过下式计算第m段的李亚普诺夫指数,
4)、当第m段的采样点数小于2时,对m值进行叠加,进行m+1;
5)、统计计算M段音频信号李亚普诺夫指数的平均值,作为每一帧的判别参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610204170.0A CN105869658B (zh) | 2016-04-01 | 2016-04-01 | 一种采用非线性特征的语音端点检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610204170.0A CN105869658B (zh) | 2016-04-01 | 2016-04-01 | 一种采用非线性特征的语音端点检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105869658A CN105869658A (zh) | 2016-08-17 |
CN105869658B true CN105869658B (zh) | 2019-08-27 |
Family
ID=56626945
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610204170.0A Active CN105869658B (zh) | 2016-04-01 | 2016-04-01 | 一种采用非线性特征的语音端点检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105869658B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107799124A (zh) * | 2017-10-12 | 2018-03-13 | 安徽咪鼠科技有限公司 | 一种应用于智能语音鼠标的vad检测方法 |
CN107799126B (zh) * | 2017-10-16 | 2020-10-16 | 苏州狗尾草智能科技有限公司 | 基于有监督机器学习的语音端点检测方法及装置 |
CN108053841A (zh) * | 2017-10-23 | 2018-05-18 | 平安科技(深圳)有限公司 | 利用语音进行疾病预测的方法及应用服务器 |
CN110049270B (zh) * | 2019-03-12 | 2023-05-30 | 平安科技(深圳)有限公司 | 多人会议语音转写方法、装置、系统、设备及存储介质 |
CN110600018B (zh) * | 2019-09-05 | 2022-04-26 | 腾讯科技(深圳)有限公司 | 语音识别方法及装置、神经网络训练方法及装置 |
CN112185426B (zh) * | 2020-09-30 | 2022-12-27 | 青岛信芯微电子科技股份有限公司 | 一种语音端点检测设备及方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002306492A (ja) * | 2001-04-16 | 2002-10-22 | Electronic Navigation Research Institute | カオス論的ヒューマンファクタ評価装置 |
CN101080765A (zh) * | 2005-05-09 | 2007-11-28 | 株式会社东芝 | 语音活动检测装置和方法 |
CN102646415A (zh) * | 2012-04-10 | 2012-08-22 | 苏州大学 | 一种语音识别中的特征参数提取方法 |
CN104091603A (zh) * | 2014-05-23 | 2014-10-08 | 普强信息技术(北京)有限公司 | 基于基频的端点检测系统及其计算方法 |
-
2016
- 2016-04-01 CN CN201610204170.0A patent/CN105869658B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002306492A (ja) * | 2001-04-16 | 2002-10-22 | Electronic Navigation Research Institute | カオス論的ヒューマンファクタ評価装置 |
CN101080765A (zh) * | 2005-05-09 | 2007-11-28 | 株式会社东芝 | 语音活动检测装置和方法 |
CN102646415A (zh) * | 2012-04-10 | 2012-08-22 | 苏州大学 | 一种语音识别中的特征参数提取方法 |
CN104091603A (zh) * | 2014-05-23 | 2014-10-08 | 普强信息技术(北京)有限公司 | 基于基频的端点检测系统及其计算方法 |
Non-Patent Citations (1)
Title |
---|
基于C0复杂度和能量的语音端点检测算法;马伟荣等;《计算机工程与应用》;20091231;第45卷(第27期);第143-145页 * |
Also Published As
Publication number | Publication date |
---|---|
CN105869658A (zh) | 2016-08-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105869658B (zh) | 一种采用非线性特征的语音端点检测方法 | |
CN105405439B (zh) | 语音播放方法及装置 | |
CN110263322A (zh) | 用于语音识别的音频语料筛选方法、装置及计算机设备 | |
US20040143434A1 (en) | Audio-Assisted segmentation and browsing of news videos | |
Patel et al. | Speech recognition and verification using MFCC & VQ | |
CN106782615A (zh) | 语音数据情感检测方法和装置及系统 | |
CN104376250A (zh) | 基于音型像特征的真人活体身份验证方法 | |
CN111128128B (zh) | 一种基于互补模型评分融合的语音关键词检测方法 | |
CN105931635B (zh) | 一种音频分割方法及装置 | |
CN103578481A (zh) | 一种跨语言的语音情感识别方法 | |
WO2023088448A1 (zh) | 语音处理方法、设备及存储介质 | |
Zhang et al. | Multimodal Deception Detection Using Automatically Extracted Acoustic, Visual, and Lexical Features. | |
Fagerlund et al. | New parametric representations of bird sounds for automatic classification | |
Jena et al. | Gender recognition of speech signal using knn and svm | |
Eray et al. | An application of speech recognition with support vector machines | |
Partila et al. | Fundamental frequency extraction method using central clipping and its importance for the classification of emotional state | |
Ling | An acoustic model for English speech recognition based on deep learning | |
Ghosal et al. | Automatic male-female voice discrimination | |
CN114022923A (zh) | 智能采编系统 | |
Jančovic et al. | Bird species recognition using HMM-based unsupervised modelling of individual syllables with incorporated duration modelling | |
CN108520740B (zh) | 基于多种特征的音频内容一致性分析方法和分析系统 | |
Kamble et al. | Emotion recognition for instantaneous Marathi spoken words | |
CN111445924A (zh) | 基于自回归模型系数检测定位语音片段内平滑处理的方法 | |
CN112466287B (zh) | 一种语音分割方法、装置以及计算机可读存储介质 | |
CN110782917B (zh) | 一种诗词吟诵风格的分类方法与系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20231114 Address after: 200241 room 1001, 1st floor, building B, 555 Dongchuan Road, Minhang District, Shanghai Patentee after: Shanghai Enterprise Information Technology Co.,Ltd. Address before: No. 99 Jiangning Road, Nanjing District hirokage 211169 cities in Jiangsu Province Patentee before: JINLING INSTITUTE OF TECHNOLOGY |