CN108847252B

CN108847252B - 基于声信号语谱图纹理分布的声特征提取方法

Info

Publication number: CN108847252B
Application number: CN201810385668.0A
Authority: CN
Inventors: 曹九稳; 裴雷雨
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2018-04-26
Filing date: 2018-04-26
Publication date: 2022-12-02
Anticipated expiration: 2038-04-26
Also published as: CN108847252A

Abstract

本发明公开了一种基于声信号语谱图纹理分布的声特征提取方法。本发明包括如下步骤：步骤1：将采集到的声音信号预处理。步骤2：将增强的声音信号以语谱图的形式输出。步骤3：将彩色语谱图转换成灰度图。步骤4：将灰度图二值化处理，转换成对应的二值图。步骤5：根据转换后的二值图纹理分布特征提取相应特征数据。步骤6：通过分类器对提取到的声信号进行训练建模分类。本发明对于远距离声信号，通过本方法提取的特征其识别率有所提高。在复杂噪音环境下通过本方法提取到的声特征能有效的与噪音信号区分开。

Description

基于声信号语谱图纹理分布的声特征提取方法

技术领域

本发明属于信号处理的技术领域，涉及一种基于声信号语谱图纹理分布的声特征提取方法。

背景技术

传统的对声信号特征提取的方法有LPCC(线性预测倒谱系数)和MFCC(梅尔倒谱系数)等。

LPCC是基于线性预测分析(LPC)的方法求取声音信号的特征参数，基本思想为，通过声音信号在某个时间点之前的P个样本预测此点的声音样本，并且可以由这P个样本的线性组合表示。由工程器械声音信号的LPCC特征图(1)可以看到，不同器械信号的分布各有特点，但仅从第一个系数来看，这几类器械的参数都有重合，没有表现出对特征信号很好的区分性。

MFCC是基于人耳对声音的感知模型特性提出的，人的听觉对声音的感知能力与其频率呈非线性关系，对不同频率声音的灵敏程度不同，总体上对低频有更好的分辨能力。从声音信号的MFCC特征分布图上可以看出不同器械特征分布整体上有所区别，由工程器械声音信号的MFCC特征分布图(2)中可以看出，第一个系数的取值相互之间差别较大，但存在一定范围的参数重合，如第2、3、5以及高频部分较多的参数。因此使用MFCC特征可以实现基本的描述，但是对特征的区分度不够理想。

发明内容

针对以上传统的声信号特征参数存在的问题，本发明提供了一种基于声信号转换语谱图纹理分布的声特征提取方法。

本发明解决其技术问题所采用的技术方案包括如下步骤：

步骤1：将采集到的声音信号预处理。

步骤2：将增强的声音信号以语谱图的形式输出。

步骤3：将彩色语谱图转换成灰度图。

步骤4：将灰度图二值化处理，转换成对应的二值图。

步骤5：根据转换后的二值图纹理分布特征提取相应特征数据。

步骤6：通过分类器对提取到的声信号进行训练建模分类。

本发明有益效果如下：

对于远距离声信号，通过本方法提取的特征其识别率有所提高。

在复杂噪音环境下通过本方法提取到的声特征能有效的与噪音信号区分开。

附图说明

图1是四种工程器械声音信号的LPCC特征分布图。

图2是四种工程器械声音信号的MFCC特征分布图。

图3是对声信号进行语谱图纹理分布特征提取的步骤流程图。

图4是本发明方法中声信号转换为语谱图的过程示意图。

图5是灰度图二值化示意图。

图6是针对四种工程器械声音信号通过本发明方法得到的二值图。

图7、图8、图9是以实际工程器械声音信号为例的二值图纹理特

征分布图描述。

具体实施方式

下面结合附图和具体实现方法对本发明作详细的说明，并采用实际工程器械所产生声音信号为例，描述该特征提取算法，此描述仅作为示范和解释，并不对本发明方法作任何形式上的限制。

如图1-9所示，基于声信号语谱图纹理分布的声特征提取方法，具体步骤如下：

步骤1：将采集到的声音信号预处理。

步骤2：将增强的声音信号以语谱图的形式输出。

步骤3：将彩色语谱图转换成灰度图。

步骤4：将灰度图二值化处理，转换成对应的二值图。

步骤6：通过分类器对提取到的声信号进行训练建模分类。

所述步骤1的具体实现包括如下：

1.1声音信号的采集及归一化处理

声音信号在长时间内属于非平稳过程且是时变的，为了能对声音信号进行特征处理，首先需要对声音信号进行预处理。预处理是整个特征提取算法的基础，也是必不可少的部分。声音信号预处理过程主要包含了声音信号归一化、预加重、分帧和加窗这三个部分。

对一维声音信号进行归一化的目的在于减少不同样本之间的差异，并且使得声信号的幅值范围投影到[-1,1]之间。

1.2预加重

声音信号在传播过程中高频能量的衰减较快，通常采用预加重技术提高声音信号的高频成分，使得声音信号从低频到高频变得相对平坦。典型的方法是采用一阶高通滤波器提升高频分量，滤波器的响应特性如下：

H(z)＝1-uz^-1

其中系数u的取值范围为[0.9,1]。

1.3分帧加窗

声音信号在10ms～30ms内被认为是平稳状态，因此为了得到短时信号，对声音信号进行分帧处理，为了防止帧与帧之间的跳变，采用帧重叠使其平稳度过。对每帧信号加上窗函数用来减少频谱泄露现象。

声音信号采样归一化后的数据x(n)进行分帧加窗处理。可以采用一定长度的窗函数w(n)乘以声音信号x(n)得到每帧加窗后的信号xi(n)，常用的窗函数有汉明窗、汉宁窗和矩形窗。其公式为：

x_i(n)＝w(n)*x(n)

汉明窗：

汉宁窗：

矩形窗：

所述步骤2的具体实现包括如下：

语谱图也称声谱图，是时间和频率的分布图。语谱图不仅体现了声信号的频域和时域特征，还同时展现出时域和频域两者的相互关系，从语谱图上可以观察到频域的一些特征随声音信号的发生而变化的情况；还可以观察到能量随声音过程的变化情况。所以语谱图所承载的声音信号的信息远大于单纯时域信号和单纯频域信号承载的信息。语谱图综合了频谱图和时域波形的特点，明显地显示出了声音频谱随时间的变化情况，或者说语谱图是一种动态的频谱。

首先通过矩阵将分帧后的声音信号按帧信号拼接起来，其流程如图4所示；通过本发明方法，我们把声音信号转换成语谱图，将声音信号转换成数字图像来提取其特征，具体提取特征方法见步骤5。

所述步骤3的具体实现包括如下：

语谱图是一种三维频谱，它是表示声音频谱随时间变化的图形，其纵轴为频率，横轴为时间。对于任意一个给定的频率成分在某时刻的强弱由相应点的灰度或色调的浓淡来表示。由于语谱图数据存在冗余且会对数据处理产生干扰，为便于观察并方便研究语谱图的纹理分布特征。因此，在声信号转换成语谱图进行可视化处理时，本发明将彩色语谱图转成灰色语谱图。以R、G、B为轴建立空间直角坐标系，则彩色语谱图的每个象素的颜色可以用该三维空间的一个点来表示，而灰度图的每个象素的颜色可以用直线R＝G＝B上的一个点来表示。于是彩色语谱图转换成灰度图的本质就是寻找一个三维空间到一维空间的映射，最容易想到的就是射影：即过彩色语谱图空间的一个点(i，j)向直线R＝G＝B做垂线。

本发明中采用的是对R、G、B分量进行加权平均的算法来进行灰度化处理：

Gray(i，j)＝0.299*R(i，j)+0.578*G(i，j)+0.114*B(i，j)B(i，j)

所述步骤4的具体实现包括如下：

图像二值化是图像分析与处理中最常见最重要的处理手段，对灰色语谱图进行二值化处理可以有效的将语谱图频谱与背景分离。

常用的图像二值化方法有固定阈值法和自适应阈值法。固定阈值法是按照经验或实验自己设定阈值，自适应阈值法一般采用最大类间方差法通过计算像素点与邻域像素点的关系得到一个变化的浮动的阈值。本发明采用自适应阈值法对灰色语谱图进行二值化处理。使用最大类间方差法找到图片的一个合适的阈值(threshold)。在使用MATLAB函数将灰度图像转换为二值图像时，需要设定一个阈值，这个函数可以帮助我们获得一个合适的阈值。利用这个阈值通常比人为设定的阈值能更好地把一张灰度图像转换为二值图像。

其中，Sum是灰度值与其点数的乘积的总和，Amount是灰度值总和。

最大类间方差法也被称为自适应阈值法。我们假设T是图像前景和背景的分割阈值。

u＝w₀·u₀+w₁×u₁

其中w₀是指前景占的比例，u₀是他的平均灰度值，w₁是背景点的比例，u₁是其平均灰度值，u是图像的平均灰度。

所以，

g＝w₀·(u₀-u)²+w₁·(u₁-u)²

通过以上分析，我们可以得出以下公式：

g＝w₀·w₁·(u₀-u₁)²

或者，

当g取最大值时，前景和背景之间的差异此时可视为最大值。

所述步骤5的具体实现包括如下：

由图6可以看出，不同器械的声音信号的二值图不论是局部分布情况还是纹理分布方面都有很大的差异，通过利用图像处理技术对不同器械声音信号的二值图纹理特征进行提取。此方法创造性的将数字图像处理的方法运用到对声音信号处理中，从不同的角度分析，对声音信号进行识别。

利用上述基于语谱图提取的声信号二值图，本发明提出了基于其纹理特征及分布统计特征等五类新的特征表示方法，分别为：欧拉值参数特征(Euler)、面积分布参数(ADC)，垂直分布参数(CDC)、水平分布参数(RDC)以及局部分布参数特征(LDC)。下面给出每一个特征的具体定义，并以实际工程器械所产生的声音信号为例做详细阐述说明。

特征1：欧拉值表示一个二进制图像区域中的总数量和连接部分的数量之间的差异。欧拉数可以描述物体的结构。不同的二值图，其对应的欧拉值也是不同的，所以根据不同声音信号的二值图，我们可以计算其对应的欧拉值来表示二值图的一个特征参数。其计算方法如下：

Euler＝V-E+F

其中，V是二进制映射中像素值为1的总数目，E是二进制图中相邻像素值为1的情况的总数，F是二进制图中四个相邻像素值为1的情况的总数。

特征2：由不同器械声音信号的二值图纹理分布图7可以看出，不同二值图前景和背景的面积占比有比较大的差异，根据不同声音信号对

应二值图统计其相应前景面积值参数来作为一种特征参数，面积分布值的不同代表着不同类型的声音信号。可以以此作为一维特征输入。其，面积求取方法如下：

其中x、y分别为二值图的像素长度。

特征3：由不同器械声音信号的二值图纹理分布图7可以看出，不同声音信号转成的二值图按垂直方向看，不同的像素列对应的面积分布有一定的纹理差异，根据此，我们可以统计出不同声信号二值图的垂直分布情况，以此作为一维特征参数。其垂直分布求取方法如下：

其中，x、y分别为二值图的像素长度和垂直方向分的像素宽度。

特征4：由不同器械声音信号的二值图纹理分布图7可以看出，不同声音信号转成的二值图按水平方向看，不同的像素行对应的面积分布有一定的纹理差异。因此，我们也可以统计出不同声信号二值图的水平分布情况，以此来作为特征参数。其垂直分布求取方法如下：

其中，x、y分别为二值图的像素长度和水平方向分的像素宽度。

特征5：由不同器械声音信号的二值图纹理分布图7可以看出，我们可以把二值图平分成四个小方块区域，分别为左上，左下，右上，右下如图9所示；由不同声音信号转成的二值图可以看出，不同声音信号对应相同局部块的前景面积分布情况差异不同。因此，我们可以分别统计出不同局域块的分布情况，以此来作为区别不同声音信号的一种特征参数，其求取方法如下：

其中,x,y的取值根据具体区域选取的范围来选择。

以上就是基于本发明方法中提及的根据不同声音信号二值图的纹理分布差异等来提取的特征参数。

所述步骤6的具体实现包括如下：

特征参数选取的好坏决定了不同信号之间的差异性。分类识别是特征提取后的重要环节，好的分类器则决定了识别结果的准确性、稳定性和快速性等各方面的特征。本发明方法中采用ELM极限学习机结合本方法中提及的特征来进行分类，通过对提取的特征参数进行训练分类测试试验。结果证实，将从二值图里提取的纹理等特征能够有效的对不同声音信号进行分类识别。

在实际应用中时，本方法的具体实施流程参考图3所示。

Claims

1.基于声信号语谱图纹理分布的声特征提取方法，其特征在于，包括：

步骤1：将采集到的声音信号预处理；

步骤2：将增强的声音信号以语谱图的形式输出；

步骤3：将彩色语谱图转换成灰度图；

步骤4：将灰度图二值化处理，转换成对应的二值图；

步骤5：根据转换后的二值图纹理分布特征提取相应特征数据；

步骤6：通过分类器对提取到的声信号进行训练建模分类；

所述步骤1的具体实现包括如下：

声音信号预处理过程包含声音信号归一化、预加重、分帧和加窗；

1.1声音信号的采集及归一化处理

对一维声音信号进行归一化的目的在于减少不同样本之间的差异，并且使得声信号的幅值范围投影到[-1，1]之间；

1.2预加重

采用预加重技术提高声音信号的高频成分，使得声音信号从低频到高频变得相对平坦；采用一阶高通滤波器提升高频分量，滤波器的响应特性如下：

H(z)＝1-uz^-1

其中系数u的取值范围为[0.9，1]；

1.3分帧加窗

声音信号采样归一化后的数据x(n)进行分帧加窗处理；采用一定长度的窗函数w(n)乘以声音信号x(n)得到每帧加窗后的信号x_i(n)，常用的窗函数有汉明窗、汉宁窗和矩形窗；其公式为：

x_i(n)＝w(n)*x(n)

汉明窗：

汉宁窗：

矩形窗：

所述步骤2的具体实现包括如下：

首先通过矩阵将分帧后的声音信号按帧信号拼接起来，然后将声音信号转换成语谱图，将声音信号转换成数字图像来提取其特征；

所述步骤3的具体实现包括如下：

在声音信号转换成语谱图进行可视化处理时，将彩色语谱图转成灰色语谱图；以R、G、B为轴建立空间直角坐标系，则彩色语谱图的每个像素的颜色用该三维空间的一个点来表示，而灰度图的每个像素的颜色用直线R＝G＝B上的一个点来表示；即过彩色语谱图空间的一个点(i，j)向直线R＝G＝B做垂线；

采用对R、G、B分量进行加权平均的算法来进行灰度化处理：

Gray(i，j)＝0.299*R(i，j)+0.578*G(i，j)+0.114*B(i，j)

所述步骤4的具体实现包括如下：

采用自适应阈值法对灰色语谱图进行二值化处理；使用最大类间方差法找到图片的一个合适的阈值threshold；在使用MATLAB函数将灰度图像转换为二值图像时，需要设定一个阈值，MATLAB函数能够帮助获得一个合适的阈值；该阈值比人为设定的阈值能更好地将一张灰度图像转换为二值图像；

其中，Sum是灰度值与其点数的乘积的总和，Amount是灰度值总和；

最大类间方差法也被称为自适应阈值法；假设T是图像前景和背景的分割阈值；

u＝w₀·u₀+w₁×u₁

其中w₀是指前景占的比例，u₀是他的平均灰度值，w₁是背景点的比例，u₁是其平均灰度值，u是图像的平均灰度；

所以，

g＝w₀·(u₀-u)²+w₁·(u₁-u)²

通过以上分析，得出以下公式：

g＝w₀·w₁·(u₀-u₁)²

或者，

当g取最大值时，前景和背景之间的差异此时可视为最大值；

所述步骤5的具体实现包括如下：

通过利用图像处理技术对不同器械声音信号的二值图纹理特征进行提取；利用基于语谱图提取的声信号二值图，提出了基于其纹理特征及分布统计特征的五类新的特征表示方法，分别为：欧拉值参数特征Euler、面积分布参数ADC，垂直分布参数CDC、水平分布参数RDC以及局部分布参数特征LDC；

特征1：欧拉值表示一个二进制图像区域中的总数量和连接部分的数量之间的差异；欧拉数能够描述物体的结构；不同的二值图，其对应的欧拉值也是不同的，所以根据不同声音信号的二值图，能够计算其对应的欧拉值来表示二值图的一个特征参数；其计算方法如下：

Euler＝V-E+F

其中，V是二进制映射中像素值为1的总数目，E是二进制图中相邻像素值为1的情况的总数，F是二进制图中四个相邻像素值为1的情况的总数；

特征2：不同二值图前景和背景的面积占比有比较大的差异，根据不同声音信号对应二值图统计其相应前景面积值参数来作为一种特征参数，面积分布值的不同代表着不同类型的声音信号；能够以此作为一维特征输入；其面积求取方法如下：

其中x、y分别为二值图的像素长度；

特征3：不同声音信号转成的二值图按垂直方向看，不同的像素列对应的面积分布有一定的纹理差异，因此能够统计出不同声信号二值图的垂直分布情况，以此作为一维特征参数；其垂直分布求取方法如下：

其中，x、y分别为二值图的像素长度和垂直方向分的像素宽度；

特征4：由不同器械声音信号的二值图纹理分布可以看出，不同声音信号转成的二值图按水平方向看，不同的像素行对应的面积分布有一定的纹理差异；因此能够统计出不同声信号二值图的水平分布情况，以此来作为特征参数；其垂直分布求取方法如下：

其中，x、y分别为二值图的像素长度和水平方向分的像素宽度；

特征5：把二值图平分成四个小方块区域，分别为左上，左下，右上，右下；由不同声音信号转成的二值图能够看出，不同声音信号对应相同局部块的前景面积分布情况差异不同；因此能够分别统计出不同局域块的分布情况，以此来作为区别不同声音信号的一种特征参数，其求取方法如下：

其中，x，y的取值根据具体区域选取的范围来选择。

2.根据权利要求1所述的基于声信号语谱图纹理分布的声特征提取方法，其特征在于所述步骤6的具体实现包括如下：

采用ELM极限学习机结合本方法中提及的特征来进行分类，通过对提取的特征参数进行训练分类测试试验；结果证实，将从二值图里提取的纹理等特征能够有效的对不同声音信号进行分类识别。