CN105869658B

CN105869658B - 一种采用非线性特征的语音端点检测方法

Info

Publication number: CN105869658B
Application number: CN201610204170.0A
Authority: CN
Inventors: 王丹丹; 臧娴
Original assignee: Jinling Institute of Technology
Current assignee: Shanghai Enterprise Information Technology Co ltd
Priority date: 2016-04-01
Filing date: 2016-04-01
Publication date: 2019-08-27
Anticipated expiration: 2036-04-01
Also published as: CN105869658A

Abstract

本发明公开了一种采用非线性特征的语音端点检测方法，包括对音频信号进行预加重处理；对经过预加重处理的音频信号进行分帧处理；对每一帧音频信号进行幅值分割，计算此帧音频信号的李亚普诺夫指数；将每一帧音频信号的李亚普诺夫指数与设定的阈值做比较，判别出音频信号的端点。本发明更加针对语音的本质，在降低运算复杂度的同时，也提供了更准确的信息去完善语音端点检测系统的性能。正确有效地检测出语音段不仅可以减少计算量和缩短处理时间，而且能排除非有效语音段的噪声干扰，从而使后续语音处理工作及整个系统的识别性能得到较大的提高。

Description

一种采用非线性特征的语音端点检测方法

技术领域

本发明公开了一种采用非线性特征的语音端点检测方法，涉及音频处理技术领域。

背景技术

计算机技术、网络技术和通讯技术的飞速发展已带领我们步入了大数据时代，信息的获取方式不断丰富和多样化，音频数据的种类和数量也日益繁多，如：电话录音、新闻广播、音频采访、会议录音、语音邮件等。这些音频文件中包含着有效语音段，也夹杂着许多冗余的部分，这给存储和语音处理造成了很重的负担。因此，语音端点检测就显得尤为重要，其作用是找出语音的起始点和结束点，分离出有效声段。语音端点检测作为一种语音信号预处理技术，在语音识别、语音增强、语音编码等系统中起着非常重要的作用。尤其是对孤立词识别系统而言，研究表明端点检测效果是影响识别率的重要因素，正确有效地检测出语音段不仅可以减少计算量和缩短处理时间，而且能排除非有效语音段的噪声干扰，从而使后续语音处理工作及整个系统的识别性能得到较大的提高。

目前端点检测技术大体上可以分成两类，一类是基于阈值的方法，另一类是基于模式识别的方法。相比之下，前者不需要大量的训练数据来估计参数和建立模型，算法简单快速，在高信噪比的情况下有较好的检测效果。阈值法通常是提取语音的能量特征并根据特征的统计分析特性经验性地设定阈值来进行检测，其典型代表是基于短时能量特征和短时过零率特征的双门限判决方法，该方法以短时能量门限为主，以短时过零率门限为辅。在这些方法中，提取的特征一般为线性特征，忽略了语音信号的实质。而空气动力学的研究表明语音信号本质是非线性的，语音的产生是个复杂的过程，对于声道系统的建模往往需要考虑声道形状的时变、声道的共振、气流摩擦、鼻腔的耦合、口唇的辐射及声门效应等等。其中一些要素可以通过时变的线性滤波器进行建模，但是还有一些非线性的动态特征则很难明确地用数学模型去描述，而基于混沌理论，则可以有效地去分析和提取语音的非线性特性。

发明内容

本发明所要解决的技术问题是：针对现有技术的缺陷，提供一种采用非线性特征的语音端点检测方法，将语音的采样点视为空间中的点，将波形视为由各采样点衍生的轨迹，在此基础上提取出各帧语音的李亚普诺夫指数作为端点检测的判别参数。

本发明为解决上述技术问题采用以下技术方案：

一种采用非线性特征的语音端点检测方法，具体包括以下步骤：

步骤一、对音频信号进行预加重处理；

步骤二、对经过预加重处理的音频信号进行分帧处理；

步骤三、对每一帧音频信号进行幅值分割，计算此帧音频信号的李亚普诺夫指数；

步骤四、将每一帧音频信号的李亚普诺夫指数与设定的阈值做比较，判别出音频信号的端点。

作为本发明的进一步优选方案，所述步骤三中，将每一帧音频信号根据幅值分割为M段，M为自然数；

选取其中的第m段，m＝1…M，判断第m段的采样点数是否大于或者等于2；

当第m段的采样点数大于或者等于2时，计算李亚普诺夫指数；

当第m段的采样点数小于2时，对m值进行叠加；

统计计算M段音频信号李亚普诺夫指数的平均值。

作为本发明的进一步优选方案，所述步骤二中，将音频信号分为K帧，K为自然数，对K帧音频信号均进行阈值筛选，提取有效声段。

作为本发明的进一步优选方案，计算李亚普诺夫指数的具体步骤包括:

1、从位于第m段中的第一个采样点起，依次计算该段中两两采样点之间的

幅度差，d₀d₁d₂…d_n；，n的取值为自然数；

2、在时域波形曲线上依次找到第m段中每一个采样点的后续采样点，计算

它们两两之间的幅度差，d′₀d′₁d′₂…d′_n；

3、通过下式计算第m段的李亚普诺夫指数，

4、当第m段的采样点数小于2时，对m值进行叠加；

5、统计计算M段音频信号李亚普诺夫指数的平均值，作为每一帧的判别参数。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：本发明更加针对语音的本质，在降低运算复杂度的同时，也提供了更准确的信息去完善语音端点检测系统的性能。正确有效地检测出语音段不仅可以减少计算量和缩短处理时间，而且能排除非有效语音段的噪声干扰，从而使后续语音处理工作及整个系统的识别性能得到较大的提高。

附图说明

图1是本发明的方法流程示意图。

图2是本发明的一个具体实施例中，第m段中采样点幅度差的计算示意图。

图3是本发明的一个具体实施例中，数字语音“9”的端点检测结果。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

在动力系统中，李亚普诺夫指数是指示系统混沌特性的重要特征。考虑空间中无限接近的两个点，且每个点将在空间中产生一条轨迹，这两条轨迹可以视为时间变量的函数。如果以其中一条轨迹作为参考，则两条轨迹之间的分离程度也是时间的函数，其基于时间的比值量化为李亚普诺夫指数。根据这一思想，本发明将语音的采样点视为空间中的点，将波形视为由各采样点衍生的轨迹，在此基础上提取出各帧语音的李亚普诺夫指数作为端点检测的判别参数。这一非线性特征与传统方法中的双门限特征相比，更加体现了语音的本质，在降低运算复杂度的同时，也提供了更准确的信息去完善语音端点检测系统的性能。

下面结合附图对本发明的技术方案做进一步的详细说明：

在语音拨号系统中，需要实现对0-9这十个孤立数字语音的识别，当语音录取模块功能响应后，系统会存储每个语音进行识别，由于发音的起始时间不同，会严重影响后续的模式匹配过程，降低识别率。因此，在识别模块之前如何快速有效的实现端点检测是本设计的着眼点。

本发明的方法流程示意图如图1所示，所述采用非线性特征的语音端点检测方法，具体包括以下步骤：

步骤一、对0-9孤立数字的音频信号采样，采样频率为8000Hz，对采样信号进行预加重处理；

步骤二、对经过预加重处理的音频信号进行时域分帧处理，帧长为10ms；

步骤三、对每一帧音频信号加汉明窗，在幅值的最大值与最小值之间进行纵向均匀分割，分段数与每一帧的采样点数一致，计算此帧音频信号的李亚普诺夫指数；

更进一步的，所述步骤三中，将每一帧音频信号根据幅值分割为M段，M为自然数；

当第m段的采样点数大于或者等于2时，由下列步骤计算该段的李亚普诺夫指数:

(1)从位于第m段中的第一个采样点起，依次计算该段中两两采样点之间的幅度差，d₀d₁d₂…d_n，如图2所示；

(2)在时域波形曲线上依次找到第m段中每一个采样点的后续采样点，计算它们两两之间的幅度差，d′₀d′₁d′₂…d′_n，如图2所示；

(3)通过下式计算第m段的李亚普诺夫指数，

当第m段的采样点数小于2时，对m值进行叠加；

统计计算M段音频信号李亚普诺夫指数的平均值作为每一帧的判别参数。

更进一步的，所述步骤二中，将音频信号分为K帧，K为自然数，对K帧音频信号均进行阈值筛选，提取有效声段，如图3所示，采用本设计提出的方法有效地提取出了数字“9”的语音端点。

上面结合附图对本发明的实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明，任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内，当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本发明技术方案内容，依据本发明的技术实质，在本发明的精神和原则之内，对以上实施例所作的任何简单的修改、等同替换与改进等，均仍属于本发明技术方案的保护范围之内。

Claims

1.一种采用非线性特征的语音端点检测方法，其特征在于，具体包括以下步骤：

步骤一、对音频信号进行预加重处理；

步骤二、对经过预加重处理的音频信号进行分帧处理；

2.如权利要求1所述的一种采用非线性特征的语音端点检测方法，其特征在于：所述步骤三中，将每一帧音频信号根据幅值分割为M段，M为自然数；

当第m段的采样点数小于2时，对m值进行叠加，进行m+1；

统计计算M段音频信号李亚普诺夫指数的平均值。

3.如权利要求1或2所述的一种采用非线性特征的语音端点检测方法，其特征在于：所述步骤二中，将音频信号分为K帧，K为自然数，对K帧音频信号均进行阈值筛选，提取有效声段。

4.如权利要求2所述的一种采用非线性特征的语音端点检测方法，其特征在于：计算李亚普诺夫指数的具体步骤包括:

1)、从位于第m段中的第一个采样点起，依次计算该段中两两采样点之间的幅度差，d₀，d₁，d₂…d_n；n的取值为自然数；

2)、在时域波形曲线上依次找到第m段中每一个采样点的后续采样点，计算它们两两之间的幅度差d′₀，d′₁，d′₂…d′_n；

3)、通过下式计算第m段的李亚普诺夫指数，

4)、当第m段的采样点数小于2时，对m值进行叠加，进行m+1；

5)、统计计算M段音频信号李亚普诺夫指数的平均值，作为每一帧的判别参数。