CN116230015B - 一种基于音频时序信息加权的频域特征表示异音检测方法 - Google Patents

一种基于音频时序信息加权的频域特征表示异音检测方法 Download PDF

Info

Publication number
CN116230015B
CN116230015B CN202310240262.4A CN202310240262A CN116230015B CN 116230015 B CN116230015 B CN 116230015B CN 202310240262 A CN202310240262 A CN 202310240262A CN 116230015 B CN116230015 B CN 116230015B
Authority
CN
China
Prior art keywords
audio
frequency domain
mel
log
time sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310240262.4A
Other languages
English (en)
Other versions
CN116230015A (zh
Inventor
关键
张合静
柳友德
肖飞扬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN202310240262.4A priority Critical patent/CN116230015B/zh
Publication of CN116230015A publication Critical patent/CN116230015A/zh
Application granted granted Critical
Publication of CN116230015B publication Critical patent/CN116230015B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本发明提出一种基于音频时序信息加权的频域特征表示异音检测方法,能够有效区分正常信息和异常信息,提升异常声音检测的稳定性和对不同机器的适应性。本发明通过对原始音频信号获取Log‑Mel谱频域特征,并在时间维度上对其应用全局加权排序池化,得到音频信号的基于音频时序信息加权的频域特征表示,解决了对稳定音频信号和非稳定音频信号的平衡问题。并基于音频时序信息加权的频域特征表示,针对不同机器类型,根据最佳检测性能,找到全局加权排序池化最合适的池化参数,实现用于异常声音检测的更鲁棒性的音频特征表示。

Description

一种基于音频时序信息加权的频域特征表示异音检测方法
技术领域
本发明涉及于声音检测技术领域,具体是一种基于音频时序信息加权的频域特征表示异音检测方法。
背景技术
异常声音检测(Anomalous Sound Detection,ASD),通过识别目标设备或机器发出的声音是正常还是异常,从而及时检测机器的异常状态。
随着深度学习在音频处理方向的应用,现有研究提供了无监督和自监督这两种实现声音异常检测的方法。因为实际的异常声音很少发生且非常多样,所以在无监督的异常声音检测系统中,通常只接受正常声音样本作为训练数据来检测未知的异常声音。无监督方法中最常用的是自编码器模型,通过最小化重构误差来学习正常声音的特征,并将重构误差作为异常分数来检测异常。这样的工业异常声音检测方法能够提供一定程度的异常声音检测性能,但其误检率较高,受先验设置的阈值影响大。
虽然深度学习是无监督异常声音检测中的主流方法,如常用的自编码器,但以统计音频表示作为输入的高斯混合模型(Gaussian Mixture Model,GMM)可以用低得多的模型复杂度和更少的参数获得可以比较的结果。
在现有的声音异常检测中,大部分方法所处理的音频特征是对数梅尔谱(Log-MelSpectrogram)。Log-Mel谱特征是一种模仿人类主观听觉感知所设计的频率滤波特征,Log-Mel会过滤掉人类不易察觉的声学频带,从而压缩数据维度,突出人类听觉所敏感的声学频带区间。
现有的统计音频表示,例如对Log-Mel谱图在时间维度上取平均值或最大值,对于不同的机器并不总是工作良好。对Log-Mel谱取最大值(Max-GMM)只考虑了有着最大声音能量的时间帧,忽略了其它所有时间帧,因此静态特征(正常声音的关键特征之一)没有被考虑到。相反,对Log-Mel谱取均值(Mean-GMM)考虑了整个时间跨度上的每个时间帧,这很好地捕捉了静态特征,但是由于平均操作,可能不能捕捉到短期信号的瞬态特征。
发明内容
为了解决统计音频表示模型对不同机器的适用性差、模型复杂性高以及如何对音频信号的平稳特征和非平稳特征进行适当的折中等问题,本发明提供了一种基于音频时序信息加权的频域特征表示异音检测策略异音检测方法,为声音异常检测方法提供能有效区分正常信息和异常信息的统计音频表示特征,提升异常声音检测的稳定性和对不同机器的适应性,并进一步对平稳音频信号和非平稳音频信号都提供了有效的音频特征表示。同时,相对于深度学习方法本发明具有较低的模型复杂度的优势。
一种基于音频时序信息加权的频域特征表示异音检测方法,包括如下步骤:通过对原始音频信号获取Log-Mel谱频域特征,并在时间维度上对其应用全局加权排序池化,得到音频信号的基于音频时序信息加权的频域特征表示,解决了对稳定音频信号和非稳定音频信号的平衡问题。
进一步的,基于音频时序信息加权的频域特征表示,针对不同机器类型,根据最佳检测性能,找到全局加权排序池化最合适的池化参数,实现用于异常声音检测的更鲁棒性的音频特征表示。
进一步的,定义原始音频信号为L为原始音频信号的时长,声学目标的原始单通道音频信号/>经过短时傅里叶变换转变为频谱图特征,并经过Mel滤波器组完成滤波过程,得到Mel谱图,对Mel谱图进行对数放缩,最终结果为Log-Mel谱频域特征X:
其中,Log-Mel谱频域特征M表示Mel滤波的维数,而N表示频域特征的时间帧数,log(·)为对数化运算,/>为Mel滤波器组的滤波器矩阵,||STFT(x)||2为由声学目标的原始信号x提取得到的频谱图特征。
优选的,短时傅里叶变换采用重叠时间窗的方式进行采样,时间窗长度为1024个采样点,即16kHz采样频率下的64ms时长,重叠步长为512个采样点,即16kHz采样频率下的32ms时长,Mel滤波器组维数M为128维。
进一步的,Log-Mel谱频域特征X的第i个行向量Xi 中的数值降序排列,按照声音能量递减顺序重新排列行向量上Xi的值,以忽略时间顺序影响,得到时间维度能量降序行向量Yi。由此,所有时间维度能量降序行向量,组合产生了时间维度能量降维序列Y=[Y1,Y2,...,YM]。
Log-Mel谱频域特征X的基于音频时序信息加权的频域特征表示为:
其中,P(r)是池化向量,池化方式具体为:
其中,r是池化参数(0<r<1),是池化向量中的数值约束项,用于进行规范化操作约束池化向量内权重数值大小,上标T表示转置操作;通过该池化方式给拥有更高能量的声音时间帧更大的权重,用以平衡平稳信号和非平稳信号,以形成音频信号的简单频域表示。
优选的,针对不同机器类型,从0到1按0.01的间隔选取池化参数r的数值,并分别在测试数据集进行异常声音检测,根据其最佳检测性能,为不同机器找到最合适的池化参数r,适用于不同的机器类型以实现用于异常声音检测的更鲁棒性的音频特征表示。
进一步的,使用高斯混合模型估计器计算每条音频的异常分数,作为判断异常音频的判断标准,减少模型所用参数,降低模型复杂度。
用事件训练好的高斯混合模型,对测试数据进行负对数似然性的计算,并将计算结果作为每条测试音频的异常分数。
其中,高斯混合模型估计器训练过程是:
首先,输入正常声音的音频数据,高斯混合模型用于将正常声音的分数拟合成有限数量的高斯分布的混合物,
得到对于每种机器类型最佳的高斯混合模型估计器后,对测试音频数据的Log-Mel声谱图提取基于音频时序信息加权的频域特征表示/>
将测试音频的基于音频时序信息加权的频域特征表示输入高斯混合模型估计器,并根据负对数似然性计算测试音频的异常。
其中,对数似然性计算测试音频的异常公式为:
其中,表示测试音频的异常分数。测试时,会针对一类机器的测试音频提供一个阈值θ,当异常分数大于阈值θ时,将判断测试音频为异常,反之则判断测试音频为正常。/>是已训练好的高斯混合模型的第k个高斯分布,/>是均值向量,是协方差矩阵,/>是测试数据的Log-Mel声谱图。
与现有技术相比,本发明的有益效果:
本发明提供了一种基于音频时序信息加权的频域特征表示异音检测策略异音检测方法,可以有效解决统计音频表示模型对不同机器的适用性差、模型复杂性高以及如何对音频信号的平稳特征和非平稳特征进行适当的折中等问题。本发明为声音异常检测方法提供能有效区分正常信息和异常信息的统计音频表示特征,提升异常声音检测的稳定性和对不同机器的适应性,并进一步对平稳音频信号和非平稳音频信号都提供了有效的音频特征表示。同时,相对于深度学习方法本发明具有较低的模型复杂度的优势。
1、本发明针对不同机器类型,分别根据其最佳检测性能,为其找到最合适的池化参数r,因此本发明中的基于音频时序信息加权的频域特征表示可以适用于不同的机器类型以实现用于异常声音检测的更鲁棒性的音频特征表示。
2、本发明基于音频时序信息加权的频域特征表示通过应用预先选择的简单时域加权来适应每种机器类型,这种加权用于平衡稳定和非稳定音频信号,以形成音频信号的简单统计频域表示。
3、本发明使用非深度学习方法,应用高斯混合模型估计器估计异常声音,降低了模型复杂度。
附图说明
图1是本发明的总体技术路线图;
图2是本发明中模型参数量与现有常用模型参数量比较图。
具体实施方式
下面结合附图以及具体实施方法对本发明一种基于音频时序信息加权的频域特征表示异音检测方法作进一步详细说明。
本发明提出一种基于音频时序信息加权的频域特征表示异音检测方法,如图1所示,包括Log-Mel声谱图的提取、对Log-Mel声谱图在时间维度上应用全局加权排序池(Global Weighted Ranking Pooling,GWRP)、使用高斯混合模型估计器识别异常以及针对不同机器类型设置不同的加权参数r:
待检测的声学目标原始音频经过频率数据域的Log-Mel谱滤波器组得到频域的Log-Mel谱特征(Log-Mel Spectrogram)。
随后,对Log-Mel谱图在时间维度上应用全局加权排序池化(Global WeightedRanking Pooling,GWRP),以对具有较高声能的时间帧基于较高的权重。具体池化过程是:先对Log-Mel谱中的每个频率组分别进行降序排序,按能量递减顺序重新排列每个频率组的时间帧上的值,并忽略时间顺序,得到新的特征谱图;将新的特征谱图与池化向量P(r)进行矩阵乘运算,得到一维的TWFR特征。
最后,使用正常声音的TWFR特征训练高斯混合模型(Gaussian Mixture Model,GMM),并根据负对数似然性检测测试声音是否异常。
对于异常声音检测系统,非深度学习方法通过使用GMM估计器来进行尝试,该估计器的输入来自时间维度上的Log-Mel谱的统计音频表示。这种模型通常包含更少的参数和更低的复杂度,但是提供了可比较的检测性能。
该模型在训练阶段为每种机器类型的最佳检测性能找到从0到1的合适的池化参数r,从而使TWFR可以适应不同的机器类型,以实现由于异常声音检测的更鲁棒的音频特征表示。
本发明在实现过程中包括如下具体步骤:
1.得到声学信号的基于音频时序信息加权的频域特征表示
将每一条原始音频加载为浮点时间序列,即得到原始音频单通道信号。假定声学目标所对应的原始音频单通道信号为其中1通道维度为1,L表示音频数字信号的采样点数,反映了原始音频的时长,原始声学信号的采样频率为16000Hz。
(1)Log-Mel声谱特征提取
首先,原始音频信号经过短时傅里叶变换(Short-Time FourierTransform,STFT),转换为频谱图特征(Spectrogram),频谱图特征包含了采样频率所规定的频段范围。其中,原始音频信号定义为/>L为原始音频信号的时长。短时傅里叶变换计算过程的时间窗为1024个采样点(即64ms),相邻的时间窗之间重叠率为50%,即时间窗的偏移步长为512个采样点(32ms)。
随后,频谱图特征经过Mel滤波器组完成滤波过程,从而得到Mel谱图。为放大频谱特征中人类听觉感知所敏感的区间,对Mel谱图进行对数放缩,得到频域特征Log-Mel谱图。log-Mel谱图特征的整体计算流程可归纳如下:
其中,X表示频域特征Log-Mel谱,M表示Mel滤波器组的维数,而N表示频域特征的时间帧数。/>表示Mel滤波器组,Mel滤波器组的维数为128维。||STFT(x)||2表示对频谱图特征取其功率谱,从而忽略短时傅里叶变换结果在复数域所带来的计算成本。
(2)在时间维度上对Log-Mel声谱图应用全局加权排序池化(GWRP)
为了给更高声能的时间帧更大的权重,在时间维度上对Log-Mel声谱图特征应用全局加权排序池(GWRP)。
考虑具有M个Mel滤波器组和N个时间帧的音频信号的Log-Mel谱特征把X的第i个行向量Xi/>中的数值降序排列得到时间维度能量降序行向量Yi,按照声音能量递减顺序重新排列每个频率组的时间帧上的值,并忽略时间顺序。由此产生的时间维度能量降维序列Y=[Y1,Y2,...,YM]是从X按时间降序排序获得的。X的基于音频时序信息加权的频域特征表示/>可写为
其中,
池化向量是:
其中,r是池化参数(0<r<1),是池化向量中的数值约束项,用于进行规范化操作,作为池化向量内权重数值的分母,从而约束池化向量内权重数值大小,上标T表示转置操作。
上面所述的池化方式能给拥有更高能量的声音时间帧更大的权重,这种加权用以平衡平稳信号和非平稳信号,以形成音频信号的简单频域表示。其中,非平稳信号是指音频谱图中声能突然增加的时间帧,其中可能包含异音检测所需要的有效信息。
2.使用高斯混合模型估计器估计异常声音
高斯混合模型(Gaussian Mixture Model,GMM)用于将正常声音的分布拟合为有限数量的高斯分布的混合物。GMM在正常声音上被训练,并将负对数似然作为测试声音的异常分数,负对数似然性被定义为:
其中,是已训练的GMM的第k个高斯分布,使用均值向量/>和协方差矩阵/> 是测试音频的Log-Mel声谱图。
对于某一测试音频的Log-Mel声谱图 是其异常分数值,θ是用以检测异常音频的阈值。当/>时,则认为该段音频是异常的,反之,认为该段音频是正常的。对测试音频的状态判定如下式所示:
其中,为了确定异常检测阈值θ,假设服从训练正常声音的异常分数的伽马分布,而θ确定为该伽马分布中第90%的值。
使用非深度学习方法,应用高斯混合模型(Gaussian Mixture Model,GMM)估计器根据上述的基于音频时序信息加权的频域特征表示计算每条音频的异常分数,作为判断异常音频的判断标准。由于使用的是非深度学习方法,与常用的深度学习方法(如自编码器)相比,可以有效降低模型复杂度及减少所用参数。具体模型参数量比较见附图2。其中,TWFR-GMM是上述步骤所涉及的技术方案简写,SMOTE-TWFR-GMM是在TWFR-GMM的基础上对机器音频样本进行数据扩充,对数据量较少的机器类型进行随机增广,从而缓解样本不足、机器类型分布不均的问题。
3.实现用于异常声音检测的更具鲁棒性的音频特征表示
上述步骤1中(2)记录了一种池化向量,计算方式如下:
其中,r是池化参数(0<r<1),是进行归一化操作,上标T表示转置操作。
针对不同机器类型,从0到1按0.01的间隔选取池化参数r的数值,并分别在测试数据集进行异常声音检测,根据其最佳检测性能,为不同机器找到最合适的池化参数r,因此基于音频时序信息加权的频域特征表示(Time-Weighted Frequency DomainRepresentation,TWFR)可以适用于不同的机器类型以实现用于异常声音检测的更鲁棒性的音频特征表示。
池化参数r的选取对于异常声音检测性能的表现有着较大影响。平均池化和最大池化是全局加权排序池化(GWRP)的两种特殊情况。r=0,GWRP退化为最大池化;r=1,GWRP变成平均池化。该发明中在训练阶段为每种机器类型的最佳检测性能在0到1的范围内选择r。因此,基于音频时序信息加权的频域特征表示(TWFR)可以适应不同的机器类型,生成用于异常声音检测的更鲁棒性的音频特征表示。
本发明涉及的机器类型有Toycar、ToyTrain、Fan、Gearbox、Bearing、Slider和Valve,其各自对应的池化参数r如下所示:
机器类型 池化参数r取值
Toycar 0.99
ToyTrain 0.81
Fan 1.00
Gearbox 0.99
Bearing 1.00
Slider 0.88
Valve 0.45
上述实施例只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人士能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围。凡根据本发明精神实质所作的等效变化或修饰,都应涵盖在本发明的保护范围之内。

Claims (8)

1.一种基于音频时序信息加权的频域特征表示异音检测方法,其特征在于:
通过对原始音频信号获取Log-Mel谱频域特征,并在时间维度上对其应用全局加权排序池化,得到音频信号的基于音频时序信息加权的频域特征表示,解决了对稳定音频信号和非稳定音频信号的平衡问题,
定义原始音频信号为L为原始音频信号的时长,声学目标的原始单通道音频信号/>经过短时傅里叶变换转变为频谱图特征,并经过Mel滤波器组完成滤波过程,得到Mel谱图,对Mel谱图进行对数放缩,最终结果为Log-Mel谱频域特征X:
其中,Log-Mel谱频域特征M表示Mel滤波的维数,而N表示频域特征的时间帧数,log(·)为对数化运算,/>为Mel滤波器组的滤波器矩阵,||STFT(x)||2为由声学目标的原始信号x提取得到的频谱图特征;
Log-Mel谱频域特征X的第i个行向量中的数值降序排列,按照声音能量递减顺序重新排列行向量上Xi的值,以忽略时间顺序影响,得到时间维度能量降序行向量Yi,由此,所有时间维度能量降序行向量,组合产生了时间维度能量降维序列Y=[Y1,Y2,...,YM],
Log-Mel谱频域特征X的基于音频时序信息加权的频域特征表示为:
其中,P(r)是池化向量,池化方式具体为:
其中,r是池化参数(0<r<1),是池化向量中的数值约束项,用于进行规范化操作约束池化向量内权重数值大小,上标T表示转置操作;通过该池化方式给拥有更高能量的声音时间帧更大的权重,用以平衡平稳信号和非平稳信号,以形成音频信号的简单频域表示。
2.根据权利要求1所述的一种基于音频时序信息加权的频域特征表示异音检测方法,其特征在于:
基于音频时序信息加权的频域特征表示,针对不同机器类型,根据最佳检测性能,找到全局加权排序池化最合适的池化参数,实现用于异常声音检测的更鲁棒性的音频特征表示。
3.根据权利要求1所述的一种基于音频时序信息加权的频域特征表示异音检测方法,其特征在于:
短时傅里叶变换采用重叠时间窗的方式进行采样,时间窗长度为1024个采样点,即16kHz采样频率下的64ms时长,重叠步长为512个采样点,即16kHz采样频率下的32ms时长,Mel滤波器组维数M为128维。
4.根据权利要求2所述的一种基于音频时序信息加权的频域特征表示异音检测方法,其特征在于:
针对不同机器类型,从0到1按0.01的间隔选取池化参数r的数值,并分别在测试数据集进行异常声音检测,根据其最佳检测性能,为不同机器找到最合适的池化参数r,适用于不同的机器类型以实现用于异常声音检测的更鲁棒性的音频特征表示。
5.根据权利要求1所述的一种基于音频时序信息加权的频域特征表示异音检测方法,其特征在于:
使用高斯混合模型估计器计算每条音频的异常分数,作为判断异常音频的判断标准,减少模型所用参数,降低模型复杂度。
6.根据权利要求5所述的一种基于音频时序信息加权的频域特征表示异音检测方法,其特征在于:
用事先训练好的高斯混合模型,对测试数据进行负对数似然性的计算,并将计算结果作为每条测试音频的异常分数。
7.根据权利要求6所述的一种基于音频时序信息加权的频域特征表示异音检测方法,其特征在于,
高斯混合模型估计器训练过程是:
首先,输入正常声音的音频数据,高斯混合模型用于将正常声音的分数拟合成有限数量的高斯分布的混合物,
得到对于每种机器类型最佳的高斯混合模型估计器后,对测试音频数据的Log-Mel声谱图提取基于音频时序信息加权的频域特征表示/>
将测试音频的基于音频时序信息加权的频域特征表示输入高斯混合模型估计器,并根据负对数似然性计算测试音频的异常。
8.根据权利要求7所述的一种基于音频时序信息加权的频域特征表示异音检测方法,其特征在于,对数似然性计算测试音频的异常公式为:
其中,表示测试音频的异常分数,测试时,会针对一类机器的测试音频提供异常阈值θ,当异常分数大于阈值θ时,将判断测试音频为异常,反之则判断测试音频为正常,是已训练好的高斯混合模型的第k个高斯分布,/>是均值向量,/> 是协方差矩阵,/>是测试数据的Log-Mel声谱图。
CN202310240262.4A 2023-03-14 2023-03-14 一种基于音频时序信息加权的频域特征表示异音检测方法 Active CN116230015B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310240262.4A CN116230015B (zh) 2023-03-14 2023-03-14 一种基于音频时序信息加权的频域特征表示异音检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310240262.4A CN116230015B (zh) 2023-03-14 2023-03-14 一种基于音频时序信息加权的频域特征表示异音检测方法

Publications (2)

Publication Number Publication Date
CN116230015A CN116230015A (zh) 2023-06-06
CN116230015B true CN116230015B (zh) 2023-08-08

Family

ID=86587226

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310240262.4A Active CN116230015B (zh) 2023-03-14 2023-03-14 一种基于音频时序信息加权的频域特征表示异音检测方法

Country Status (1)

Country Link
CN (1) CN116230015B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110189769A (zh) * 2019-05-23 2019-08-30 复钧智能科技(苏州)有限公司 基于多个卷积神经网络模型结合的异常声音检测方法
WO2021075709A1 (ko) * 2019-10-14 2021-04-22 고려대학교 산학협력단 잡음 환경에 강인한 동물 종 식별 장치 및 방법
CN112820275A (zh) * 2021-01-15 2021-05-18 华中农业大学 一种基于声音信号分析哺乳仔猪异常的自动监测方法
CN114120974A (zh) * 2021-11-24 2022-03-01 江苏华电灌云风力发电有限公司 一种基于深度学习的风机叶片故障诊断方法
CN114154538A (zh) * 2021-11-26 2022-03-08 哈尔滨工程大学 一种基于相位编码和设备信息的工业声音异常检测系统
CN114822512A (zh) * 2022-06-29 2022-07-29 腾讯科技(深圳)有限公司 音频数据的处理方法、装置、电子设备及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11100920B2 (en) * 2019-03-25 2021-08-24 Mitsubishi Electric Research Laboratories, Inc. System and method for end-to-end speech recognition with triggered attention
US11756551B2 (en) * 2020-10-07 2023-09-12 Mitsubishi Electric Research Laboratories, Inc. System and method for producing metadata of an audio signal
US20220155263A1 (en) * 2020-11-19 2022-05-19 International Business Machines Corporation Sound anomaly detection using data augmentation

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110189769A (zh) * 2019-05-23 2019-08-30 复钧智能科技(苏州)有限公司 基于多个卷积神经网络模型结合的异常声音检测方法
WO2021075709A1 (ko) * 2019-10-14 2021-04-22 고려대학교 산학협력단 잡음 환경에 강인한 동물 종 식별 장치 및 방법
CN112820275A (zh) * 2021-01-15 2021-05-18 华中农业大学 一种基于声音信号分析哺乳仔猪异常的自动监测方法
CN114120974A (zh) * 2021-11-24 2022-03-01 江苏华电灌云风力发电有限公司 一种基于深度学习的风机叶片故障诊断方法
CN114154538A (zh) * 2021-11-26 2022-03-08 哈尔滨工程大学 一种基于相位编码和设备信息的工业声音异常检测系统
CN114822512A (zh) * 2022-06-29 2022-07-29 腾讯科技(深圳)有限公司 音频数据的处理方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于维修日志的飞机设备故障原因判别方法;王锐光;吴际;刘超;杨海燕;;软件学报(第05期);全文 *

Also Published As

Publication number Publication date
CN116230015A (zh) 2023-06-06

Similar Documents

Publication Publication Date Title
US9666183B2 (en) Deep neural net based filter prediction for audio event classification and extraction
EP2058797B1 (en) Discrimination between foreground speech and background noise
CN108538310B (zh) 一种基于长时信号功率谱变化的语音端点检测方法
KR100745976B1 (ko) 음향 모델을 이용한 음성과 비음성의 구분 방법 및 장치
US10242677B2 (en) Speaker dependent voiced sound pattern detection thresholds
CN110232933B (zh) 音频检测方法、装置、存储介质及电子设备
CN106875938B (zh) 一种改进的非线性自适应语音端点检测方法
WO2012158156A1 (en) Noise supression method and apparatus using multiple feature modeling for speech/noise likelihood
CN111816185A (zh) 一种对混合语音中说话人的识别方法及装置
CN112542174A (zh) 基于vad的多维特征参数声纹识别方法
CN108962285A (zh) 一种基于人耳掩蔽效应划分子带的语音端点检测方法
CN116230015B (zh) 一种基于音频时序信息加权的频域特征表示异音检测方法
CN113345443A (zh) 基于梅尔频率倒谱系数的海洋哺乳动物发声检测识别方法
Yan et al. An improved ranking-based feature enhancement approach for robust speaker recognition
Visser et al. Speech enhancement using blind source separation and two-channel energy based speaker detection
Varela et al. Combining pulse-based features for rejecting far-field speech in a HMM-based voice activity detector
Chen et al. Speech detection using microphone array
KR101811635B1 (ko) 스테레오 채널 잡음 제거 장치 및 방법
US20230116052A1 (en) Array geometry agnostic multi-channel personalized speech enhancement
Dov et al. Voice activity detection in presence of transients using the scattering transform
Arslan A new approach to real time impulsive sound detection for surveillance applications
Krijnders et al. Tone-fit and MFCC scene classification compared to human recognition
Górriz et al. Generalized LRT-based voice activity detector
CN114093385A (zh) 一种无人机检测方法及装置
Li et al. Robust speech endpoint detection based on improved adaptive band-partitioning spectral entropy

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant