CN114694640A - 基于音频频谱图的异常声音提取识别方法及装置 - Google Patents

基于音频频谱图的异常声音提取识别方法及装置 Download PDF

Info

Publication number
CN114694640A
CN114694640A CN202210245234.7A CN202210245234A CN114694640A CN 114694640 A CN114694640 A CN 114694640A CN 202210245234 A CN202210245234 A CN 202210245234A CN 114694640 A CN114694640 A CN 114694640A
Authority
CN
China
Prior art keywords
image
gradient
audio
model
frequency spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202210245234.7A
Other languages
English (en)
Inventor
谢小良
张樊
姚欣平
张媛媛
周晴情
晋友迪
毕胜男
乔玲
贺婷婷
宋子睿
黄楚然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University of Technology
Original Assignee
Hunan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University of Technology filed Critical Hunan University of Technology
Priority to CN202210245234.7A priority Critical patent/CN114694640A/zh
Publication of CN114694640A publication Critical patent/CN114694640A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于音频频谱图的异常声音提取识别方法,涉及异常声音提取识别技术领域,用于解决现有技术中音频信息提取识别方法在进行匹配提取识别语音时精确度不高,所需训练样本很大的问题,本发明包括对音频数据进行预处理;对训练样本进行时频转换,对训练样本的音频信号进行时频转换,形成频谱动画图;提取频谱动画图的梯度特征;获得新特征矩阵;构建模型,通过机器学习算法构建SVM模型;获得模型,将新特征矩阵作为输入,音频数据的标记作为预期输出,使用SVM模型进行训练,得到异常声音识别模型。本发明中将图像识别技术与音频识别技术结合,所以可以提高对音频信息提取识别的精确度,并减小相应的训练样本。

Description

基于音频频谱图的异常声音提取识别方法及装置
技术领域
本发明涉及异常声音提取识别技术领域,更具体的是涉及基于音频频谱图的异常声音提取识别方法及装置。
背景技术
随着信息产业与计算机技术的快速发展,图像、视频、音频等多媒体数据的数据量高速增长,并已逐渐成为信息处理领域中主要的信息媒体形式,其中音频信息占有很重要的地位,这时人们面临的不是缺乏多媒体数据,而是如何对浩如烟海的多媒体大数据进行有效的处理、深入分析和充分利用,音频信息的大数据化,一方面为人们的需求提供了条件,但是另一方面也使得人们对于这些音频信息的管理和检索增加了难度。
为了让音频信息更好的为人们所利用,需要相应音频信息的提取识别方法,相应技术中频信息的提取识别方法主要有三类:基于模版匹配的,基于概率统计模型的以及基于判别模型的,动态时间规整(DTW)算法属于模版匹配模型,隐马尔可夫模型(HiddenMarkov Model,HMM)和高斯混合模型(Gaussian Mixture Model,GMM)是基于概率统计的模型,基于判决模型的算法有K均值法、模糊C均值法、支持向量机(Support Vector Machine,SVM)、神经网络等,上述音频信息的提取识别方法可以对音频信息进行提取。
但是,相应技术中的音频信息提取识别方法在进行匹配提取识别语音时精确度不高,而且所需训练样本也很大。
发明内容
本发明的目的在于:为了解决现有技术中音频信息提取识别方法在进行匹配提取识别语音时精确度不高,所需训练样本很大的问题,本发明提供基于音频频谱图的异常声音提取识别方法及装置,以能提高对音频信息提取识别的精确度,并减小训练样本。
本发明为了实现上述目的具体采用以下技术方案:
基于音频频谱图的异常声音提取识别方法,包括如下步骤:
对音频数据进行预处理,对采用的音频数据进行预处理,并对音频数据进行分类和标记,将预处理后的数据分为训练样本和测试样本;
对训练样本进行时频转换,对训练样本的音频信号进行时频转换,形成频谱动画图;
提取频谱动画图的梯度特征,对频谱动画图进行强化降噪处理,再进行图像增强和二值化,然后利用短时傅里叶变换进行时频分析,并计算图像水平方向和垂直方向的梯度,形成频谱动画图的特征矩阵,最后分析频谱动画图并提取图像梯度特征;
获得新特征矩阵,对提取出的图像梯度特征进行降维,得到新特征矩阵;
构建模型,通过机器学习算法构建SVM模型;
获得模型,将新特征矩阵作为输入,音频数据的标记作为预期输出,使用SVM模型进行训练,得到异常声音识别模型。
进一步的,所述并计算图像水平方向和垂直方向的梯度包括:
分别使用f1=(一1,0,1)和f2=(-1,0,1)T作为卷积核,与提取出的骨皮质图像做卷积得到x方向的梯度gx和y方向的梯度gy
设像素点(x,y)的像素值为H(x,y),则水平方向的梯度Gx(x,y)和垂直方向梯度Gy(x,y)分别表示为:
Gx(x,y)=(H(x-1,y),H(x,y),H(x+1,y))·(-1,0,1)=H(x+1,y)-H(x-1 ,y)
Gy(x,y)=(H(x ,y-1),H(x,y),H(x,y+1))T·(-1,0,1)T=H(x,y+1)-H(x,y-1)
其中,T表示转置。
进一步的,所述形成频谱动画图的特征矩阵包括:
每个像素点的图像梯度的辐值G(x,y)和方向θ(x,y)可以由下式得到:
Figure BDA0003545569450000031
Figure BDA0003545569450000032
将图像分成若干像素块,并把每个像素块中各像素的辐值与角度对应到九个数的数组中,得到新的矩阵就是该图像的特征矩阵。
进一步的,所述通过机器学习算法构建SVM模型包括:
划分超平面,在给定的样本空间中,通过如下的线性方程划分超平面,
ωT·x+b=0
其中,ω=(ω1,ω2,...,ωd)为特征向量,b为位移项;
求解最大几何间隔,通过如下公式求解最大几何间隔:
Figure BDA0003545569450000033
其中,n为训练样本数;
建立拉格朗日公式,通过如下公式建立拉格朗日公式:
Figure BDA0003545569450000034
其中,α代表αx的集合,αi表示第i个拉格朗日乘子,xi表示超平面上点的横坐标,yi表示超平面上点的纵坐标,s.t.为约束条件;
优化目标变为:
Figure BDA0003545569450000035
求对偶问题为:
Figure BDA0003545569450000036
对ω、b求极小值,即对ω、b求偏导,则得到:
Figure BDA0003545569450000037
把ω、b回代入L(ω,b,α)得到SVM模型为:
Figure BDA0003545569450000041
基于音频频谱图的异常声音提取识别装置,包括:
对音频数据进行预处理模块,用于对采用的音频数据进行预处理,并对音频数据进行分类和标记,将预处理后的数据分为训练样本和测试样本;
对训练样本进行时频转换模块,用于对训练样本的音频信号进行时频转换,形成频谱动画图;
提取频谱动画图的梯度特征模块,用于对频谱动画图进行强化降噪处理,再进行图像增强和二值化,然后利用短时傅里叶变换进行时频分析,并计算图像水平方向和垂直方向的梯度,形成频谱动画图的特征矩阵,最后分析频谱动画图并提取图像梯度特征;
获得新特征矩阵模块,用于对提取出的图像梯度特征进行降维,得到新特征矩阵;
构建模型模块,用于通过机器学习算法构建SVM模型;
获得模型模块,用于将新特征矩阵作为输入,音频数据的标记作为预期输出,使用SVM模型进行训练,得到异常声音识别模型。
本发明的有益效果如下:
本发明中将图像识别技术与音频识别技术结合,对声音的频谱特征采用图像增强与二值化等音频识别技术,生成图像的梯度特征,对图像梯度特征进行降维后,得到新特征矩阵,然后将新特征矩阵作为输入,音频数据的标记作为预期输出,使用SVM模型进行训练,得到异常声音识别模型,最后得到的异常声音识别模型识别不同类的音频,由于将图像识别技术与音频识别技术结合,所以可以提高对音频信息提取识别的精确度,并减小相应的训练样本。
附图说明
图1为本发明基于音频频谱图的异常声音提取识别方法的流程图;
图2为本发明异常声音样本的示意图;
图3为本发明降噪后音频的示意图;
图4为本发明音频频谱图的示意图;
图5为本发明经过图像增强并二值化后的音频图像特征示意图;
图6为本发明短时傅立叶变换的示意图;
图7为本发明三段报警声1s的经过图像增强的频谱图;
图8为本发明骨皮质图像的示意图;
图9为本发明骨皮质图像的水平方向梯度特征的示意图;
图10为本发明骨皮质图像的垂直方向梯度特征的示意图;
图11为本发明图像特征矩阵的第一梯度直方图;
图12为本发明图像特征矩阵的第二梯度直方图;
图13为本发明SVM模型的示意图;
图14为本发明训练SVM模型的示意图;
图15为本发明基于音频频谱图的异常声音提取识别装置的简图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
基于端点的异常声音检测算法:在报警声识别系统中,需要采用端点检测算法确定异常声音的起点和终点,进而只存储和处理有效的声音信号,端点检测最传统的方法是短时能量和短时过零率双门限端点检测。
与正常的环境背景声音相比,报警识别系统关注的几类异常声音的声强大、能量更高,考虑到监控前端设备部署环境不确定,需要具备一定的抗噪声干扰鲁棒性。因此,使用依靠短时幅度和短时过动态门限率这两个特征完成声音端点的判决工作,与传统的基于短时能量和短时过零率的端点检测方法相比,短时幅度和短时能量都反映了声音的能量特征,但是短时幅度计算时无需求平方运算,有利于减轻系统的负担;短时过动态门限率相较于短时过零率,能有效地减少噪声的影响。
端点检测算法流程如下:
(1)、对音频信号进行预加重并用汉明窗对其进行分帧,得到音频帧xi(n)(i为音频帧序号,n为帧中采样点序号),因为汉明窗系数在每次计算时保持不变,可以通过预先求值并以数组形式保存,这样有利于加快处理速度。
(2)、标定短时幅度阈值Mth,系统刚启动时最初采集的音频信号大多为无声段或是背景噪声,因此采用前1帧~第100帧计算每帧的短时幅度,得到均值为Mave,将Mave乘以一个系数得到阈值Mth。
(3)、标定短时过动态门限率阈值ZCRth,计算前101帧~第200帧的短时过动态门限率,得到均值为ZCRave,将ZCRave乘以一个系数得到阈值ZCRth。
(4)、从第201帧开始,系统进入正常工作流程:当连续2帧的Mi>Mth并且ZCRi>ZCRth,标记该2帧的前1帧为声音起点S,同理当连续2帧的Mi≤Mth且ZCRi≤ZCRth时,标记该2帧的前1帧为声音终点E,当E–S的长度满足一定值时,认为这是一段有效的声音,为了适应周围噪声环境的变化可能对端点检测带来影响,需要动态地更新短时幅度阈值Mth和短时过动态门限率阈值ZCRth,方法如下:当连续200帧音频数据都处于无声段时,利用前100帧重新计算Mth,后100帧重新计算值ZCRth。
以上异常声音提取识别的技术主要有如下客观缺点:
1)、DTW算法需要进行模版匹配,由于报警声是一段音频的重复,可以被视为一个周期函数,如果按时间进行匹配会出现一个时间段内的周期个数与模版的周期个数不同的情况或者两端音频相差一个相位;若按周期进行匹配则较难以准确的分隔出单个周期,造成判断的精度不高。
2)、算法需要大量的训练样本,同时要求异常声音的为等长,从而限制了算法的使用范围。
3)、SVM分类器存在分类性能依赖参数设置的问题,其中惩罚因子和核参数的取值对SVM的分类性能有很大影响,同时,参数选择都存在算法复杂度较高、鲁棒性差等缺点。
4)、智能优化算法存在收敛速度慢、易陷入局部最优值等问题,存在权值退化、粒子贫化和计算效率低等问题。
5)、匹配追踪算法选取原子比较困难,须根据声音种类分别做出不同的调整。
综合来讲,上述技术主要存在在进行匹配提取识别语音时精确度不高,所需训练样本很大的问题,为了解决该技术问题特别提出了如下技术方案。
第一方面,如图1所示,图1给出了该方法的流程图,本实施例提供基于音频频谱图的异常声音提取识别方法,包括如下步骤:
步骤S1:对音频数据进行预处理,对采用的音频数据进行预处理,并对音频数据进行分类和标记,将预处理后的数据分为训练样本和测试样本;采样的同时,对采样数据进行简单的分类并作标记,如区分刚采样的数据是人声、机器人声、唱歌声、鼓掌声、汽车鸣笛声等。
步骤S2:对训练样本进行时频转换,对训练样本的音频信号进行时频转换,以一秒为一帧,形成频谱动画图;
步骤S3:提取频谱动画图的梯度特征,对频谱动画图进行强化降噪处理,再进行图像增强和二值化,然后利用短时傅里叶变换进行时频分析,并计算图像水平方向和垂直方向的梯度,形成频谱动画图的特征矩阵,最后分析频谱动画图并提取图像梯度特征,其中,特征矩阵由梯度特征通过现有技术计算得到;
如图2为异常声音样本示意图;如图3为降噪处理后的音频,图3中横坐标以上最上端的两组音频表示报警声的区间;图4为频谱动画图的示意图,频谱动画图表现了信号频率与能量的关系,频谱动画图的横轴表示时间,纵轴表示频率,数值代表能量大小,将音频分成较短时间的段,对每一小段进行短时傅立叶变换,再将每个段的结果拼在一起;图5为对图4进行图像增强和二值化后的音频图像特征的示意图。
如图6所示为短时傅里叶变换的示意图,短时傅里叶变换(STFT)是一种傅里叶相关变换,用于确定信号局部截面随时间变化的正弦频率和相位内容,计算STFT的过程是将较长时间的信号分成相等长度的较短段,然后在每个较短的段上分别计算傅里叶变换,得到如图7所示的三段报警声1s的经过图像增强的频谱图。
由于样本较少,且特征差异明显,对三类报警声分类任务,先提取图像的梯度特征,再使用支持向量机算法对提取的特征进行分类,在向量微积分中,标量场的梯度是一个向量场,标量场中某一点的梯度是指向标量场增长最快的方向,梯度的长度是标量场增长最快方向的变化率,在图像中梯度就是图像像素灰度值变化最快的方向,图像中物体的边缘和图像的梯度方向垂直。
进一步的,计算图像水平方向和垂直方向的梯度包括如下步骤:
如图8为骨皮质图像的示意图,如图9为图8中骨皮质图像的水平方向梯度特征,如图10为图8中骨皮质图像的垂直方向梯度特征,分别使用f1=(一1,0,1)和f2=(-1,0,1)T作为卷积核,与提取出的骨皮质图像做卷积得到x方向的梯度gx和y方向的梯度gy
设像素点(x,y)的像素值为H(x,y),则水平方向的梯度Gx(x,y)和垂直方向梯度Gy(x,y)分别表示为:
Gx(x,y)=(H(x-1,y),H(x,y),H(x+1,y))·(-1,0,1)=H(x+1,y)-H(x-1,y)
Gy(x,y)=(H(x,y-1),H(x,y),H(x,y+1))T·(-1,0,1)T=H(x,y+1)-H(x,y-1)
其中,T表示转置。
进一步的,形成频谱动画图的特征矩阵包括:
每个像素点的图像梯度的辐值G(x,y)和方向θ(x,y)可以由下式得到:
Figure BDA0003545569450000081
Figure BDA0003545569450000091
如图11为图像的特征矩阵的第一梯度直方图,如图12为图像的特征矩阵的第二梯度直方图,将图像分成若干像素块,并把每个像素块中各像素的辐值与角度对应到九个数的数组中,得到新的矩阵就是该图像的特征矩阵。
步骤S4:获得新特征矩阵,对提取出的图像梯度特征进行降维,得到新特征矩阵;
步骤S5:构建模型,通过机器学习算法构建SVM模型。
支持向量机(Support Vector Machine,SVM,又名支持向量网络)是在分类与回归分析中分析数据的监督式学习模型与相关的学习算法,基本模型是定义在特征空间上的间隔最大的线性分类器,即其学习策略是间隔最大化,最终可以转化为一个凸型二次规划问题的求解,其基本思想可以概况为:在样本空间中找到唯一的一个具有最大“间隔”的划分超平面,将训练样本分类。
具体的,如图13所示,通过机器学习算法构建SVM模型包括如下步骤:
步骤S51:划分超平面,在给定的样本空间中,通过如下的线性方程划分超平面,
ωT·x+b=0
其中,ω=(ω1,ω2,...,ωd)为特征向量,b为位移项;
步骤S52:求解最大几何间隔,通过如下公式求解最大几何间隔:
Figure BDA0003545569450000092
其中,n为训练样本数;
步骤S53:建立拉格朗日公式,通过如下公式建立拉格朗日公式:
Figure BDA0003545569450000093
其中,α代表αi的集合,αi表示第i个拉格朗日乘子,xi表示超平面上点的横坐标,yi表示超平面上点的纵坐标,s.t.为约束条件;
步骤S54:优化目标变为:
Figure BDA0003545569450000101
步骤S55:求对偶问题为:
Figure BDA0003545569450000102
步骤S56:对ω、b求极小值,即对ω、b求偏导,则得到:
Figure BDA0003545569450000103
步骤S57:把ω、b回代入L(ω,b,α)得到如图13所示的SVM模型为:
Figure BDA0003545569450000104
步骤S6:获得模型,将新特征矩阵作为输入,音频数据的标记作为预期输出,使用SVM模型进行训练,得到异常声音识别模型。
如图14所示为训练SVM模型是示意图,在整个训练集上进行K折交叉验证,在划分的训练集中抽取一小部分,比如百分之五作为验证集,然后将验证集上效果最佳的模型置于测试集中测试,然后进行K次,误差约等于K次测试误差的平均,这样将所有的样本在测试集中出现,不存在说服力不足问题,同时得出的模型效果会更接近模型的真实泛化误差。
通过上述方法将图像识别技术与音频识别技术结合,对声音的频谱特征采用图像增强与二值化等音频识别技术,生成图像的梯度特征,对图像梯度特征进行降维后,得到新特征矩阵,然后将新特征矩阵作为输入,音频数据的标记作为预期输出,使用SVM模型进行训练,得到异常声音识别模型,最后得到的异常声音识别模型识别不同类的音频,由于将图像识别技术与音频识别技术结合,所以可以提高对音频信息提取识别的精确度,并减小相应的训练样本。
如图15给出了相应装置的示意图,第二方面,基于音频频谱图的异常声音提取识别装置,包括:
对音频数据进行预处理模块,用于对采用的音频数据进行预处理,并对音频数据进行分类和标记,将预处理后的数据分为训练样本和测试样本;采样的同时,对采样数据进行简单的分类并作标记,如区分刚采样的数据是人声、机器人声、唱歌声、鼓掌声、汽车鸣笛声等。
对训练样本进行时频转换模块,用于对训练样本的音频信号进行时频转换,形成频谱动画图;
提取频谱动画图的梯度特征模块,用于对频谱动画图进行强化降噪处理,再进行图像增强和二值化,然后利用短时傅里叶变换进行时频分析,并计算图像水平方向和垂直方向的梯度,形成频谱动画图的特征矩阵,最后分析频谱动画图并提取图像梯度特征;
获得新特征矩阵模块,用于对提取出的图像梯度特征进行降维,得到新特征矩阵;
构建模型模块,用于通过机器学习算法构建SVM模型;
具体的,构建模型模块包括:
划分超平面单元,用于在给定的样本空间中,通过如下的线性方程划分超平面,
ωT·x+b=0
其中,ω=(ω1,ω2,...,ωd)为特征向量,b为位移项;
求解最大几何间隔单元,用于通过如下公式求解最大几何间隔:
Figure BDA0003545569450000111
其中,n为训练样本数;
建立拉格朗日公式单元,用于通过如下公式建立拉格朗日公式:
Figure BDA0003545569450000112
其中,α代表αi的集合,αi、xi、yi分别αi表示第i个拉格朗日乘子,xi表示超平面上点的横坐标,yi表示超平面上点的纵坐标,s.t.为约束条件;
优化目标单元:
Figure BDA0003545569450000121
求对偶问题单元:
Figure BDA0003545569450000122
对ω、b求极小值单元,即对ω、b求偏导,则得到:
Figure BDA0003545569450000123
把ω、b回代入L(ω,b,α)得到如图13所示的SVM模型为:
Figure BDA0003545569450000124
获得模型模块,用于将新特征矩阵作为输入,音频数据的标记作为预期输出,使用SVM模型进行训练,得到异常声音识别模型。
通过上述装置将图像识别技术与音频识别技术结合,对声音的频谱特征采用图像增强与二值化等音频识别技术,生成图像的梯度特征,对图像梯度特征进行降维后,得到新特征矩阵,然后将新特征矩阵作为输入,音频数据的标记作为预期输出,使用SVM模型进行训练,得到异常声音识别模型,最后得到的异常声音识别模型识别不同类的音频,由于将图像识别技术与音频识别技术结合,所以可以提高对音频信息提取识别的精确度,并减小相应的训练样本。

Claims (5)

1.基于音频频谱图的异常声音提取识别方法,其特征在于,包括如下步骤:
对音频数据进行预处理,对采用的音频数据进行预处理,并对音频数据进行分类和标记,将预处理后的数据分为训练样本和测试样本;
对训练样本进行时频转换,对训练样本的音频信号进行时频转换,形成频谱动画图;
提取频谱动画图的梯度特征,对频谱动画图进行降噪处理,再进行图像增强和二值化,然后利用短时傅里叶变换进行时频分析,并计算图像水平方向和垂直方向的梯度,形成频谱动画图的特征矩阵,最后分析频谱动画图并提取图像梯度特征;
获得新特征矩阵,对提取出的图像梯度特征进行降维,得到新特征矩阵;
构建模型,通过机器学习算法构建SVM模型;
获得模型,将新特征矩阵作为输入,音频数据的标记作为预期输出,使用SVM模型进行训练,得到异常声音识别模型。
2.根据权利要求1所述的基于音频频谱图的异常声音提取识别方法,其特征在于,所述并计算图像水平方向和垂直方向的梯度包括:
分别使用f1=(一1,0,1)和f2=(-1,0,1)T作为卷积核,与提取出的骨皮质图像做卷积得到x方向的梯度gx和y方向的梯度gy
设像素点(x,y)的像素值为H(x,y),则水平方向的梯度Gx(x,y)和垂直方向梯度Gy(x,y)分别表示为:
Gx(x,y)=(H(x-1,y),H(x,y),H(x+1,y))·(-1,01)=H(x+1y)-H(x-1,y)
Gy(x,y)=(H(x,y-1),H(x,y),H(x,y+1))T·(-1,0,1)T=H(x,y+1)-H(x,y-1)
其中,T表示转置。
3.根据权利要求2所述的基于音频频谱图的异常声音提取识别方法,其特征在于,所述形成频谱动画图的特征矩阵包括:
每个像素点的图像梯度的辐值G(x,y)和方向θ(x,y)可以由下式得到:
Figure FDA0003545569440000021
Figure FDA0003545569440000022
将图像分成若干像素块,并把每个像素块中各像素的辐值与角度对应到九个数的数组中,得到新的矩阵就是该图像的特征矩阵。
4.根据权利要求1所述的基于音频频谱图的异常声音提取识别方法,其特征在于,所述通过机器学习算法构建SVM模型包括:
划分超平面,在给定的样本空间中,通过如下的线性方程划分超平面,
ωT·x+b=0
其中,ω=(ω1,ω2,...,ωd)为特征向量,b为位移项;
求解最大几何间隔,通过如下公式求解最大几何间隔:
Figure FDA0003545569440000023
s.t.,yiT·xi+b)≥1,i=1,...,n
其中,n为训练样本数;
建立拉格朗日公式,通过如下公式建立拉格朗日公式:
Figure FDA0003545569440000024
其中,α代表αi的集合,αi表示第i个拉格朗日乘子,xi表示超平面上点的横坐标,yi表示超平面上点的纵坐标,s.t.为约束条件;
优化目标变为:
Figure FDA0003545569440000025
求对偶问题为:
Figure FDA0003545569440000026
对ω、b求极小值,即对ω、b求偏导,则得到:
Figure FDA0003545569440000031
把ω、b回代入L(ω,b,α)得到SVM模型为:
Figure FDA0003545569440000032
5.根据权利要求4所述的基于音频频谱图的异常声音提取识别装置,其特征在于,包括:
对音频数据进行预处理模块,用于对采用的音频数据进行预处理,并对音频数据进行分类和标记,将预处理后的数据分为训练样本和测试样本;
对训练样本进行时频转换模块,用于对训练样本的音频信号进行时频转换,形成频谱动画图;
提取频谱动画图的梯度特征模块,用于对频谱动画图进行降噪处理,再进行图像增强和二值化,然后利用短时傅里叶变换进行时频分析,并计算图像水平方向和垂直方向的梯度,形成频谱动画图的特征矩阵,最后分析频谱动画图并提取图像梯度特征;
获得新特征矩阵模块,用于对提取出的图像梯度特征进行降维,得到新特征矩阵;
构建模型模块,用于通过机器学习算法构建SVM模型;
获得模型模块,用于将新特征矩阵作为输入,音频数据的标记作为预期输出,使用SVM模型进行训练,得到异常声音识别模型。
CN202210245234.7A 2022-03-14 2022-03-14 基于音频频谱图的异常声音提取识别方法及装置 Withdrawn CN114694640A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210245234.7A CN114694640A (zh) 2022-03-14 2022-03-14 基于音频频谱图的异常声音提取识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210245234.7A CN114694640A (zh) 2022-03-14 2022-03-14 基于音频频谱图的异常声音提取识别方法及装置

Publications (1)

Publication Number Publication Date
CN114694640A true CN114694640A (zh) 2022-07-01

Family

ID=82138855

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210245234.7A Withdrawn CN114694640A (zh) 2022-03-14 2022-03-14 基于音频频谱图的异常声音提取识别方法及装置

Country Status (1)

Country Link
CN (1) CN114694640A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115761713A (zh) * 2022-07-05 2023-03-07 广西北投信创科技投资集团有限公司 一种车牌识别方法、系统、电子设备和可读存储介质
CN117116290A (zh) * 2023-08-03 2023-11-24 中科航迈数控软件(深圳)有限公司 基于多维特征的数控机床部件缺陷定位方法和相关设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115761713A (zh) * 2022-07-05 2023-03-07 广西北投信创科技投资集团有限公司 一种车牌识别方法、系统、电子设备和可读存储介质
CN115761713B (zh) * 2022-07-05 2023-05-23 广西北投信创科技投资集团有限公司 一种车牌识别方法、系统、电子设备和可读存储介质
CN117116290A (zh) * 2023-08-03 2023-11-24 中科航迈数控软件(深圳)有限公司 基于多维特征的数控机床部件缺陷定位方法和相关设备
CN117116290B (zh) * 2023-08-03 2024-05-24 中科航迈数控软件(深圳)有限公司 基于多维特征的数控机床部件缺陷定位方法和相关设备

Similar Documents

Publication Publication Date Title
CN109034046B (zh) 一种基于声学检测的电能表内异物自动识别方法
CN110120218B (zh) 基于gmm-hmm的高速公路大型车辆识别方法
Harb et al. Gender identification using a general audio classifier
US8036884B2 (en) Identification of the presence of speech in digital audio data
US8831942B1 (en) System and method for pitch based gender identification with suspicious speaker detection
CN109599120B (zh) 一种基于大规模养殖场厂哺乳动物异常声音监测方法
WO2016155047A1 (zh) 低信噪比声场景下声音事件的识别方法
CN110310666B (zh) 一种基于se卷积网络的乐器识别方法及系统
CN114694640A (zh) 基于音频频谱图的异常声音提取识别方法及装置
US20070129941A1 (en) Preprocessing system and method for reducing FRR in speaking recognition
US10354632B2 (en) System and method for improving singing voice separation from monaural music recordings
CN111724770B (zh) 一种基于深度卷积生成对抗网络的音频关键词识别方法
Socoró et al. Development of an Anomalous Noise Event Detection Algorithm for dynamic road traffic noise mapping
CN112735442B (zh) 一种具有音频分离声纹识别的湿地生态监测系统及其音频分离方法
CN107424625A (zh) 一种基于向量机框架的多通道语音活动检测方法
CN112735435A (zh) 具备未知类别内部划分能力的声纹开集识别方法
CN113345443A (zh) 基于梅尔频率倒谱系数的海洋哺乳动物发声检测识别方法
Li et al. A comparative study on physical and perceptual features for deepfake audio detection
CN113282785A (zh) 一种基于未标注关键词数据的关键词检测方法及系统
CN115510909A (zh) 一种dbscan进行异常声音特征的无监督算法
CN117877516A (zh) 一种基于跨模型两阶段训练的声音事件检测方法
Yarra et al. A mode-shape classification technique for robust speech rate estimation and syllable nuclei detection
CN117312548A (zh) 一种多源异构灾情数据融合理解方法
CN117198324A (zh) 一种基于聚类模型的鸟声识别方法、装置和系统
Cipli et al. Multi-class acoustic event classification of hydrophone data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20220701