CN114694640A

CN114694640A - 基于音频频谱图的异常声音提取识别方法及装置

Info

Publication number: CN114694640A
Application number: CN202210245234.7A
Authority: CN
Inventors: 谢小良; 张樊; 姚欣平; 张媛媛; 周晴情; 晋友迪; 毕胜男; 乔玲; 贺婷婷; 宋子睿; 黄楚然
Original assignee: Hunan University of Technology
Current assignee: Hunan University of Technology
Priority date: 2022-03-14
Filing date: 2022-03-14
Publication date: 2022-07-01

Abstract

本发明公开了基于音频频谱图的异常声音提取识别方法，涉及异常声音提取识别技术领域，用于解决现有技术中音频信息提取识别方法在进行匹配提取识别语音时精确度不高，所需训练样本很大的问题，本发明包括对音频数据进行预处理；对训练样本进行时频转换，对训练样本的音频信号进行时频转换，形成频谱动画图；提取频谱动画图的梯度特征；获得新特征矩阵；构建模型，通过机器学习算法构建SVM模型；获得模型，将新特征矩阵作为输入，音频数据的标记作为预期输出，使用SVM模型进行训练，得到异常声音识别模型。本发明中将图像识别技术与音频识别技术结合，所以可以提高对音频信息提取识别的精确度，并减小相应的训练样本。

Description

基于音频频谱图的异常声音提取识别方法及装置

技术领域

本发明涉及异常声音提取识别技术领域，更具体的是涉及基于音频频谱图的异常声音提取识别方法及装置。

背景技术

随着信息产业与计算机技术的快速发展，图像、视频、音频等多媒体数据的数据量高速增长，并已逐渐成为信息处理领域中主要的信息媒体形式，其中音频信息占有很重要的地位，这时人们面临的不是缺乏多媒体数据，而是如何对浩如烟海的多媒体大数据进行有效的处理、深入分析和充分利用，音频信息的大数据化，一方面为人们的需求提供了条件，但是另一方面也使得人们对于这些音频信息的管理和检索增加了难度。

为了让音频信息更好的为人们所利用，需要相应音频信息的提取识别方法，相应技术中频信息的提取识别方法主要有三类：基于模版匹配的，基于概率统计模型的以及基于判别模型的，动态时间规整(DTW)算法属于模版匹配模型，隐马尔可夫模型(HiddenMarkov Model,HMM)和高斯混合模型(Gaussian Mixture Model,GMM)是基于概率统计的模型,基于判决模型的算法有K均值法、模糊C均值法、支持向量机(Support Vector Machine,SVM)、神经网络等，上述音频信息的提取识别方法可以对音频信息进行提取。

但是，相应技术中的音频信息提取识别方法在进行匹配提取识别语音时精确度不高，而且所需训练样本也很大。

发明内容

本发明的目的在于：为了解决现有技术中音频信息提取识别方法在进行匹配提取识别语音时精确度不高，所需训练样本很大的问题，本发明提供基于音频频谱图的异常声音提取识别方法及装置，以能提高对音频信息提取识别的精确度，并减小训练样本。

本发明为了实现上述目的具体采用以下技术方案：

基于音频频谱图的异常声音提取识别方法，包括如下步骤：

对音频数据进行预处理，对采用的音频数据进行预处理，并对音频数据进行分类和标记，将预处理后的数据分为训练样本和测试样本；

对训练样本进行时频转换，对训练样本的音频信号进行时频转换，形成频谱动画图；

提取频谱动画图的梯度特征，对频谱动画图进行强化降噪处理，再进行图像增强和二值化，然后利用短时傅里叶变换进行时频分析，并计算图像水平方向和垂直方向的梯度，形成频谱动画图的特征矩阵，最后分析频谱动画图并提取图像梯度特征；

获得新特征矩阵，对提取出的图像梯度特征进行降维，得到新特征矩阵；

构建模型，通过机器学习算法构建SVM模型；

获得模型，将新特征矩阵作为输入，音频数据的标记作为预期输出，使用SVM模型进行训练，得到异常声音识别模型。

进一步的，所述并计算图像水平方向和垂直方向的梯度包括：

分别使用f₁＝(一1，0，1)和f₂＝(-1，0，1)^T作为卷积核，与提取出的骨皮质图像做卷积得到x方向的梯度g_x和y方向的梯度g_y；

设像素点(x，y)的像素值为H(x，y)，则水平方向的梯度G_x(x，y)和垂直方向梯度G_y(x，y)分别表示为：

G_x(x，y)＝(H(x-1，y)，H(x，y)，H(x+1，y))·(-1，0，1)＝H(x+1，y)-H(x-1 ，y)

G_y(x，y)＝(H(x ，y-1)，H(x，y)，H(x，y+1))^T·(-1，0，1)^T＝H(x，y+1)-H(x，y-1)

其中，T表示转置。

进一步的，所述形成频谱动画图的特征矩阵包括：

每个像素点的图像梯度的辐值G(x，y)和方向θ(x，y)可以由下式得到：

将图像分成若干像素块，并把每个像素块中各像素的辐值与角度对应到九个数的数组中，得到新的矩阵就是该图像的特征矩阵。

进一步的，所述通过机器学习算法构建SVM模型包括：

划分超平面，在给定的样本空间中，通过如下的线性方程划分超平面，

ω^T·x+b＝0

其中，ω＝(ω₁，ω₂，...，ω_d)为特征向量，b为位移项；

求解最大几何间隔，通过如下公式求解最大几何间隔：

其中，n为训练样本数；

建立拉格朗日公式，通过如下公式建立拉格朗日公式：

其中，α代表αx的集合，α_i表示第i个拉格朗日乘子，x_i表示超平面上点的横坐标，y_i表示超平面上点的纵坐标，s.t.为约束条件；

优化目标变为：

求对偶问题为：

对ω、b求极小值，即对ω、b求偏导，则得到：

把ω、b回代入L(ω，b，α)得到SVM模型为：

基于音频频谱图的异常声音提取识别装置，包括：

对音频数据进行预处理模块，用于对采用的音频数据进行预处理，并对音频数据进行分类和标记，将预处理后的数据分为训练样本和测试样本；

对训练样本进行时频转换模块，用于对训练样本的音频信号进行时频转换，形成频谱动画图；

提取频谱动画图的梯度特征模块，用于对频谱动画图进行强化降噪处理，再进行图像增强和二值化，然后利用短时傅里叶变换进行时频分析，并计算图像水平方向和垂直方向的梯度，形成频谱动画图的特征矩阵，最后分析频谱动画图并提取图像梯度特征；

获得新特征矩阵模块，用于对提取出的图像梯度特征进行降维，得到新特征矩阵；

构建模型模块，用于通过机器学习算法构建SVM模型；

获得模型模块，用于将新特征矩阵作为输入，音频数据的标记作为预期输出，使用SVM模型进行训练，得到异常声音识别模型。

本发明的有益效果如下：

本发明中将图像识别技术与音频识别技术结合，对声音的频谱特征采用图像增强与二值化等音频识别技术，生成图像的梯度特征，对图像梯度特征进行降维后，得到新特征矩阵，然后将新特征矩阵作为输入，音频数据的标记作为预期输出，使用SVM模型进行训练，得到异常声音识别模型，最后得到的异常声音识别模型识别不同类的音频，由于将图像识别技术与音频识别技术结合，所以可以提高对音频信息提取识别的精确度，并减小相应的训练样本。

附图说明

图1为本发明基于音频频谱图的异常声音提取识别方法的流程图；

图2为本发明异常声音样本的示意图；

图3为本发明降噪后音频的示意图；

图4为本发明音频频谱图的示意图；

图5为本发明经过图像增强并二值化后的音频图像特征示意图；

图6为本发明短时傅立叶变换的示意图；

图7为本发明三段报警声1s的经过图像增强的频谱图；

图8为本发明骨皮质图像的示意图；

图9为本发明骨皮质图像的水平方向梯度特征的示意图；

图10为本发明骨皮质图像的垂直方向梯度特征的示意图；

图11为本发明图像特征矩阵的第一梯度直方图；

图12为本发明图像特征矩阵的第二梯度直方图；

图13为本发明SVM模型的示意图；

图14为本发明训练SVM模型的示意图；

图15为本发明基于音频频谱图的异常声音提取识别装置的简图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

基于端点的异常声音检测算法：在报警声识别系统中，需要采用端点检测算法确定异常声音的起点和终点，进而只存储和处理有效的声音信号，端点检测最传统的方法是短时能量和短时过零率双门限端点检测。

与正常的环境背景声音相比，报警识别系统关注的几类异常声音的声强大、能量更高，考虑到监控前端设备部署环境不确定，需要具备一定的抗噪声干扰鲁棒性。因此，使用依靠短时幅度和短时过动态门限率这两个特征完成声音端点的判决工作，与传统的基于短时能量和短时过零率的端点检测方法相比，短时幅度和短时能量都反映了声音的能量特征，但是短时幅度计算时无需求平方运算，有利于减轻系统的负担；短时过动态门限率相较于短时过零率，能有效地减少噪声的影响。

端点检测算法流程如下：

(1)、对音频信号进行预加重并用汉明窗对其进行分帧，得到音频帧xi(n)(i为音频帧序号，n为帧中采样点序号)，因为汉明窗系数在每次计算时保持不变，可以通过预先求值并以数组形式保存，这样有利于加快处理速度。

(2)、标定短时幅度阈值Mth，系统刚启动时最初采集的音频信号大多为无声段或是背景噪声，因此采用前1帧～第100帧计算每帧的短时幅度，得到均值为Mave，将Mave乘以一个系数得到阈值Mth。

(3)、标定短时过动态门限率阈值ZCRth，计算前101帧～第200帧的短时过动态门限率，得到均值为ZCRave，将ZCRave乘以一个系数得到阈值ZCRth。

(4)、从第201帧开始，系统进入正常工作流程：当连续2帧的Mi>Mth并且ZCRi>ZCRth，标记该2帧的前1帧为声音起点S，同理当连续2帧的Mi≤Mth且ZCRi≤ZCRth时，标记该2帧的前1帧为声音终点E，当E–S的长度满足一定值时，认为这是一段有效的声音，为了适应周围噪声环境的变化可能对端点检测带来影响，需要动态地更新短时幅度阈值Mth和短时过动态门限率阈值ZCRth，方法如下：当连续200帧音频数据都处于无声段时，利用前100帧重新计算Mth，后100帧重新计算值ZCRth。

以上异常声音提取识别的技术主要有如下客观缺点：

1)、DTW算法需要进行模版匹配，由于报警声是一段音频的重复，可以被视为一个周期函数，如果按时间进行匹配会出现一个时间段内的周期个数与模版的周期个数不同的情况或者两端音频相差一个相位；若按周期进行匹配则较难以准确的分隔出单个周期，造成判断的精度不高。

2)、算法需要大量的训练样本，同时要求异常声音的为等长，从而限制了算法的使用范围。

3)、SVM分类器存在分类性能依赖参数设置的问题，其中惩罚因子和核参数的取值对SVM的分类性能有很大影响，同时，参数选择都存在算法复杂度较高、鲁棒性差等缺点。

4)、智能优化算法存在收敛速度慢、易陷入局部最优值等问题，存在权值退化、粒子贫化和计算效率低等问题。

5)、匹配追踪算法选取原子比较困难，须根据声音种类分别做出不同的调整。

综合来讲，上述技术主要存在在进行匹配提取识别语音时精确度不高，所需训练样本很大的问题，为了解决该技术问题特别提出了如下技术方案。

第一方面，如图1所示，图1给出了该方法的流程图，本实施例提供基于音频频谱图的异常声音提取识别方法，包括如下步骤：

步骤S1：对音频数据进行预处理，对采用的音频数据进行预处理，并对音频数据进行分类和标记，将预处理后的数据分为训练样本和测试样本；采样的同时，对采样数据进行简单的分类并作标记，如区分刚采样的数据是人声、机器人声、唱歌声、鼓掌声、汽车鸣笛声等。

步骤S2：对训练样本进行时频转换，对训练样本的音频信号进行时频转换，以一秒为一帧，形成频谱动画图；

步骤S3：提取频谱动画图的梯度特征，对频谱动画图进行强化降噪处理，再进行图像增强和二值化，然后利用短时傅里叶变换进行时频分析，并计算图像水平方向和垂直方向的梯度，形成频谱动画图的特征矩阵，最后分析频谱动画图并提取图像梯度特征，其中，特征矩阵由梯度特征通过现有技术计算得到；

如图2为异常声音样本示意图；如图3为降噪处理后的音频，图3中横坐标以上最上端的两组音频表示报警声的区间；图4为频谱动画图的示意图，频谱动画图表现了信号频率与能量的关系，频谱动画图的横轴表示时间，纵轴表示频率，数值代表能量大小，将音频分成较短时间的段，对每一小段进行短时傅立叶变换，再将每个段的结果拼在一起；图5为对图4进行图像增强和二值化后的音频图像特征的示意图。

如图6所示为短时傅里叶变换的示意图，短时傅里叶变换(STFT)是一种傅里叶相关变换，用于确定信号局部截面随时间变化的正弦频率和相位内容，计算STFT的过程是将较长时间的信号分成相等长度的较短段，然后在每个较短的段上分别计算傅里叶变换，得到如图7所示的三段报警声1s的经过图像增强的频谱图。

由于样本较少，且特征差异明显，对三类报警声分类任务，先提取图像的梯度特征，再使用支持向量机算法对提取的特征进行分类，在向量微积分中，标量场的梯度是一个向量场，标量场中某一点的梯度是指向标量场增长最快的方向，梯度的长度是标量场增长最快方向的变化率，在图像中梯度就是图像像素灰度值变化最快的方向，图像中物体的边缘和图像的梯度方向垂直。

进一步的，计算图像水平方向和垂直方向的梯度包括如下步骤：

如图8为骨皮质图像的示意图，如图9为图8中骨皮质图像的水平方向梯度特征，如图10为图8中骨皮质图像的垂直方向梯度特征，分别使用f₁＝(一1，0，1)和f₂＝(-1，0，1)^T作为卷积核，与提取出的骨皮质图像做卷积得到x方向的梯度g_x和y方向的梯度g_y；

G_x(x，y)＝(H(x-1，y)，H(x，y)，H(x+1，y))·(-1，0，1)＝H(x+1，y)-H(x-1，y)

G_y(x，y)＝(H(x，y-1)，H(x，y)，H(x，y+1))^T·(-1，0，1)^T＝H(x，y+1)-H(x，y-1)

其中，T表示转置。

进一步的，形成频谱动画图的特征矩阵包括：

如图11为图像的特征矩阵的第一梯度直方图，如图12为图像的特征矩阵的第二梯度直方图，将图像分成若干像素块，并把每个像素块中各像素的辐值与角度对应到九个数的数组中，得到新的矩阵就是该图像的特征矩阵。

步骤S4：获得新特征矩阵，对提取出的图像梯度特征进行降维，得到新特征矩阵；

步骤S5：构建模型，通过机器学习算法构建SVM模型。

支持向量机(Support Vector Machine，SVM，又名支持向量网络)是在分类与回归分析中分析数据的监督式学习模型与相关的学习算法，基本模型是定义在特征空间上的间隔最大的线性分类器，即其学习策略是间隔最大化，最终可以转化为一个凸型二次规划问题的求解，其基本思想可以概况为：在样本空间中找到唯一的一个具有最大“间隔”的划分超平面，将训练样本分类。

具体的，如图13所示，通过机器学习算法构建SVM模型包括如下步骤：

步骤S51：划分超平面，在给定的样本空间中，通过如下的线性方程划分超平面，

ω^T·x+b＝0

其中，ω＝(ω₁，ω₂，...，ω_d)为特征向量，b为位移项；

步骤S52：求解最大几何间隔，通过如下公式求解最大几何间隔：

其中，n为训练样本数；

步骤S53：建立拉格朗日公式，通过如下公式建立拉格朗日公式：

其中，α代表α_i的集合，α_i表示第i个拉格朗日乘子，x_i表示超平面上点的横坐标，y_i表示超平面上点的纵坐标，s.t.为约束条件；

步骤S54：优化目标变为：

步骤S55：求对偶问题为：

步骤S56：对ω、b求极小值，即对ω、b求偏导，则得到：

步骤S57：把ω、b回代入L(ω，b，α)得到如图13所示的SVM模型为：

步骤S6：获得模型，将新特征矩阵作为输入，音频数据的标记作为预期输出，使用SVM模型进行训练，得到异常声音识别模型。

如图14所示为训练SVM模型是示意图，在整个训练集上进行K折交叉验证，在划分的训练集中抽取一小部分，比如百分之五作为验证集，然后将验证集上效果最佳的模型置于测试集中测试，然后进行K次，误差约等于K次测试误差的平均，这样将所有的样本在测试集中出现，不存在说服力不足问题，同时得出的模型效果会更接近模型的真实泛化误差。

通过上述方法将图像识别技术与音频识别技术结合，对声音的频谱特征采用图像增强与二值化等音频识别技术，生成图像的梯度特征，对图像梯度特征进行降维后，得到新特征矩阵，然后将新特征矩阵作为输入，音频数据的标记作为预期输出，使用SVM模型进行训练，得到异常声音识别模型，最后得到的异常声音识别模型识别不同类的音频，由于将图像识别技术与音频识别技术结合，所以可以提高对音频信息提取识别的精确度，并减小相应的训练样本。

如图15给出了相应装置的示意图，第二方面，基于音频频谱图的异常声音提取识别装置，包括：

对音频数据进行预处理模块，用于对采用的音频数据进行预处理，并对音频数据进行分类和标记，将预处理后的数据分为训练样本和测试样本；采样的同时，对采样数据进行简单的分类并作标记，如区分刚采样的数据是人声、机器人声、唱歌声、鼓掌声、汽车鸣笛声等。

构建模型模块，用于通过机器学习算法构建SVM模型；

具体的，构建模型模块包括：

划分超平面单元，用于在给定的样本空间中，通过如下的线性方程划分超平面，

ω^T·x+b＝0

其中，ω＝(ω₁，ω₂，...，ω_d)为特征向量，b为位移项；

求解最大几何间隔单元，用于通过如下公式求解最大几何间隔：

其中，n为训练样本数；

建立拉格朗日公式单元，用于通过如下公式建立拉格朗日公式：

其中，α代表α_i的集合，α_i、x_i、y_i分别α_i表示第i个拉格朗日乘子，x_i表示超平面上点的横坐标，y_i表示超平面上点的纵坐标，s.t.为约束条件；

优化目标单元：

求对偶问题单元：

对ω、b求极小值单元，即对ω、b求偏导，则得到：

把ω、b回代入L(ω，b，α)得到如图13所示的SVM模型为：

通过上述装置将图像识别技术与音频识别技术结合，对声音的频谱特征采用图像增强与二值化等音频识别技术，生成图像的梯度特征，对图像梯度特征进行降维后，得到新特征矩阵，然后将新特征矩阵作为输入，音频数据的标记作为预期输出，使用SVM模型进行训练，得到异常声音识别模型，最后得到的异常声音识别模型识别不同类的音频，由于将图像识别技术与音频识别技术结合，所以可以提高对音频信息提取识别的精确度，并减小相应的训练样本。