CN116230015A - 一种基于音频时序信息加权的频域特征表示异音检测方法 - Google Patents
一种基于音频时序信息加权的频域特征表示异音检测方法 Download PDFInfo
- Publication number
- CN116230015A CN116230015A CN202310240262.4A CN202310240262A CN116230015A CN 116230015 A CN116230015 A CN 116230015A CN 202310240262 A CN202310240262 A CN 202310240262A CN 116230015 A CN116230015 A CN 116230015A
- Authority
- CN
- China
- Prior art keywords
- audio
- frequency domain
- time sequence
- mel
- log
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 64
- 238000001514 detection method Methods 0.000 title claims abstract description 54
- 238000011176 pooling Methods 0.000 claims abstract description 43
- 230000005236 sound signal Effects 0.000 claims abstract description 33
- 238000001228 spectrum Methods 0.000 claims abstract description 24
- 238000012163 sequencing technique Methods 0.000 claims abstract description 6
- 238000000034 method Methods 0.000 claims description 36
- 238000012360 testing method Methods 0.000 claims description 31
- 239000000203 mixture Substances 0.000 claims description 28
- 239000013598 vector Substances 0.000 claims description 25
- 238000005070 sampling Methods 0.000 claims description 13
- 238000009826 distribution Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 5
- 238000013459 approach Methods 0.000 claims description 4
- 230000003595 spectral effect Effects 0.000 claims description 4
- 230000017105 transposition Effects 0.000 claims description 3
- 238000013135 deep learning Methods 0.000 description 9
- 230000005856 abnormality Effects 0.000 description 7
- 241000282414 Homo sapiens Species 0.000 description 4
- 238000012935 Averaging Methods 0.000 description 3
- 230000002547 anomalous effect Effects 0.000 description 3
- 238000010606 normalization Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000004611 spectroscopical analysis Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明提出一种基于音频时序信息加权的频域特征表示异音检测方法,能够有效区分正常信息和异常信息,提升异常声音检测的稳定性和对不同机器的适应性。本发明通过对原始音频信号获取Log‑Mel谱频域特征,并在时间维度上对其应用全局加权排序池化,得到音频信号的基于音频时序信息加权的频域特征表示,解决了对稳定音频信号和非稳定音频信号的平衡问题。并基于音频时序信息加权的频域特征表示,针对不同机器类型,根据最佳检测性能,找到全局加权排序池化最合适的池化参数,实现用于异常声音检测的更鲁棒性的音频特征表示。
Description
技术领域
本发明涉及于声音检测技术领域,具体是一种基于音频时序信息加权的频域特征表示异音检测方法。
背景技术
异常声音检测(Anomalous Sound Detection,ASD),通过识别目标设备或机器发出的声音是正常还是异常,从而及时检测机器的异常状态。
随着深度学习在音频处理方向的应用,现有研究提供了无监督和自监督这两种实现声音异常检测的方法。因为实际的异常声音很少发生且非常多样,所以在无监督的异常声音检测系统中,通常只接受正常声音样本作为训练数据来检测未知的异常声音。无监督方法中最常用的是自编码器模型,通过最小化重构误差来学习正常声音的特征,并将重构误差作为异常分数来检测异常。这样的工业异常声音检测方法能够提供一定程度的异常声音检测性能,但其误检率较高,受先验设置的阈值影响大。
虽然深度学习是无监督异常声音检测中的主流方法,如常用的自编码器,但以统计音频表示作为输入的高斯混合模型(Gaussian Mixture Model,GMM)可以用低得多的模型复杂度和更少的参数获得可以比较的结果。
在现有的声音异常检测中,大部分方法所处理的音频特征是对数梅尔谱(Log-MelSpectrogram)。Log-Mel谱特征是一种模仿人类主观听觉感知所设计的频率滤波特征,Log-Mel会过滤掉人类不易察觉的声学频带,从而压缩数据维度,突出人类听觉所敏感的声学频带区间。
现有的统计音频表示,例如对Log-Mel谱图在时间维度上取平均值或最大值,对于不同的机器并不总是工作良好。对Log-Mel谱取最大值(Max-GMM)只考虑了有着最大声音能量的时间帧,忽略了其它所有时间帧,因此静态特征(正常声音的关键特征之一)没有被考虑到。相反,对Log-Mel谱取均值(Mean-GMM)考虑了整个时间跨度上的每个时间帧,这很好地捕捉了静态特征,但是由于平均操作,可能不能捕捉到短期信号的瞬态特征。
发明内容
为了解决统计音频表示模型对不同机器的适用性差、模型复杂性高以及如何对音频信号的平稳特征和非平稳特征进行适当的折中等问题,本发明提供了一种基于音频时序信息加权的频域特征表示异音检测策略异音检测方法,为声音异常检测方法提供能有效区分正常信息和异常信息的统计音频表示特征,提升异常声音检测的稳定性和对不同机器的适应性,并进一步对平稳音频信号和非平稳音频信号都提供了有效的音频特征表示。同时,相对于深度学习方法本发明具有较低的模型复杂度的优势。
一种基于音频时序信息加权的频域特征表示异音检测方法,包括如下步骤:通过对原始音频信号获取Log-Mel谱频域特征,并在时间维度上对其应用全局加权排序池化,得到音频信号的基于音频时序信息加权的频域特征表示,解决了对稳定音频信号和非稳定音频信号的平衡问题。
进一步的,基于音频时序信息加权的频域特征表示,针对不同机器类型,根据最佳检测性能,找到全局加权排序池化最合适的池化参数,实现用于异常声音检测的更鲁棒性的音频特征表示。
进一步的,定义原始音频信号为L为原始音频信号的时长,声学目标的原始单通道音频信号/>经过短时傅里叶变换转变为频谱图特征,并经过Mel滤波器组完成滤波过程,得到Mel谱图,对Mel谱图进行对数放缩,最终结果为Log-Mel谱频域特征X:
其中,Log-Mel谱频域特征M表示Mel滤波的维数,而N表示频域特征的时间帧数,log(·)为对数化运算,/>为Mel滤波器组的滤波器矩阵,||STFT(x)||2为由声学目标的原始信号x提取得到的频谱图特征。
优选的,短时傅里叶变换采用重叠时间窗的方式进行采样,时间窗长度为1024个采样点,即16kHz采样频率下的64ms时长,重叠步长为512个采样点,即16kHz采样频率下的32ms时长,Mel滤波器组维数M为128维。
进一步的,Log-Mel谱频域特征X的第i个行向量Xi 中的数值降序排列,按照声音能量递减顺序重新排列行向量上Xi的值,以忽略时间顺序影响,得到时间维度能量降序行向量Yi。由此,所有时间维度能量降序行向量,组合产生了时间维度能量降维序列Y=[Y1,Y2,...,YM]。
其中,P(r)是池化向量,池化方式具体为:
其中,r是池化参数(0<r<1),是池化向量中的数值约束项,用于进行规范化操作约束池化向量内权重数值大小,上标T表示转置操作;通过该池化方式给拥有更高能量的声音时间帧更大的权重,用以平衡平稳信号和非平稳信号,以形成音频信号的简单频域表示。
优选的,针对不同机器类型,从0到1按0.01的间隔选取池化参数r的数值,并分别在测试数据集进行异常声音检测,根据其最佳检测性能,为不同机器找到最合适的池化参数r,适用于不同的机器类型以实现用于异常声音检测的更鲁棒性的音频特征表示。
进一步的,使用高斯混合模型估计器计算每条音频的异常分数,作为判断异常音频的判断标准,减少模型所用参数,降低模型复杂度。
用事件训练好的高斯混合模型,对测试数据进行负对数似然性的计算,并将计算结果作为每条测试音频的异常分数。
其中,高斯混合模型估计器训练过程是:
首先,输入正常声音的音频数据,高斯混合模型用于将正常声音的分数拟合成有限数量的高斯分布的混合物,
其中,对数似然性计算测试音频的异常公式为:
其中,表示测试音频的异常分数。测试时,会针对一类机器的测试音频提供一个阈值θ,当异常分数大于阈值θ时,将判断测试音频为异常,反之则判断测试音频为正常。/>是已训练好的高斯混合模型的第k个高斯分布,/>是均值向量,是协方差矩阵,/>是测试数据的Log-Mel声谱图。
与现有技术相比,本发明的有益效果:
本发明提供了一种基于音频时序信息加权的频域特征表示异音检测策略异音检测方法,可以有效解决统计音频表示模型对不同机器的适用性差、模型复杂性高以及如何对音频信号的平稳特征和非平稳特征进行适当的折中等问题。本发明为声音异常检测方法提供能有效区分正常信息和异常信息的统计音频表示特征,提升异常声音检测的稳定性和对不同机器的适应性,并进一步对平稳音频信号和非平稳音频信号都提供了有效的音频特征表示。同时,相对于深度学习方法本发明具有较低的模型复杂度的优势。
1、本发明针对不同机器类型,分别根据其最佳检测性能,为其找到最合适的池化参数r,因此本发明中的基于音频时序信息加权的频域特征表示可以适用于不同的机器类型以实现用于异常声音检测的更鲁棒性的音频特征表示。
2、本发明基于音频时序信息加权的频域特征表示通过应用预先选择的简单时域加权来适应每种机器类型,这种加权用于平衡稳定和非稳定音频信号,以形成音频信号的简单统计频域表示。
3、本发明使用非深度学习方法,应用高斯混合模型估计器估计异常声音,降低了模型复杂度。
附图说明
图1是本发明的总体技术路线图;
图2是本发明中模型参数量与现有常用模型参数量比较图。
具体实施方式
下面结合附图以及具体实施方法对本发明一种基于音频时序信息加权的频域特征表示异音检测方法作进一步详细说明。
本发明提出一种基于音频时序信息加权的频域特征表示异音检测方法,如图1所示,包括Log-Mel声谱图的提取、对Log-Mel声谱图在时间维度上应用全局加权排序池(Global Weighted Ranking Pooling,GWRP)、使用高斯混合模型估计器识别异常以及针对不同机器类型设置不同的加权参数r:
待检测的声学目标原始音频经过频率数据域的Log-Mel谱滤波器组得到频域的Log-Mel谱特征(Log-Mel Spectrogram)。
随后,对Log-Mel谱图在时间维度上应用全局加权排序池化(Global WeightedRanking Pooling,GWRP),以对具有较高声能的时间帧基于较高的权重。具体池化过程是:先对Log-Mel谱中的每个频率组分别进行降序排序,按能量递减顺序重新排列每个频率组的时间帧上的值,并忽略时间顺序,得到新的特征谱图;将新的特征谱图与池化向量P(r)进行矩阵乘运算,得到一维的TWFR特征。
最后,使用正常声音的TWFR特征训练高斯混合模型(Gaussian Mixture Model,GMM),并根据负对数似然性检测测试声音是否异常。
对于异常声音检测系统,非深度学习方法通过使用GMM估计器来进行尝试,该估计器的输入来自时间维度上的Log-Mel谱的统计音频表示。这种模型通常包含更少的参数和更低的复杂度,但是提供了可比较的检测性能。
该模型在训练阶段为每种机器类型的最佳检测性能找到从0到1的合适的池化参数r,从而使TWFR可以适应不同的机器类型,以实现由于异常声音检测的更鲁棒的音频特征表示。
本发明在实现过程中包括如下具体步骤:
1.得到声学信号的基于音频时序信息加权的频域特征表示
将每一条原始音频加载为浮点时间序列,即得到原始音频单通道信号。假定声学目标所对应的原始音频单通道信号为其中1通道维度为1,L表示音频数字信号的采样点数,反映了原始音频的时长,原始声学信号的采样频率为16000Hz。
(1)Log-Mel声谱特征提取
首先,原始音频信号经过短时傅里叶变换(Short-Time FourierTransform,STFT),转换为频谱图特征(Spectrogram),频谱图特征包含了采样频率所规定的频段范围。其中,原始音频信号定义为/>L为原始音频信号的时长。短时傅里叶变换计算过程的时间窗为1024个采样点(即64ms),相邻的时间窗之间重叠率为50%,即时间窗的偏移步长为512个采样点(32ms)。
随后,频谱图特征经过Mel滤波器组完成滤波过程,从而得到Mel谱图。为放大频谱特征中人类听觉感知所敏感的区间,对Mel谱图进行对数放缩,得到频域特征Log-Mel谱图。log-Mel谱图特征的整体计算流程可归纳如下:
其中,X表示频域特征Log-Mel谱,M表示Mel滤波器组的维数,而N表示频域特征的时间帧数。/>表示Mel滤波器组,Mel滤波器组的维数为128维。||STFT(x)||2表示对频谱图特征取其功率谱,从而忽略短时傅里叶变换结果在复数域所带来的计算成本。
(2)在时间维度上对Log-Mel声谱图应用全局加权排序池化(GWRP)
为了给更高声能的时间帧更大的权重,在时间维度上对Log-Mel声谱图特征应用全局加权排序池(GWRP)。
考虑具有M个Mel滤波器组和N个时间帧的音频信号的Log-Mel谱特征把X的第i个行向量Xi/>中的数值降序排列得到时间维度能量降序行向量Yi,按照声音能量递减顺序重新排列每个频率组的时间帧上的值,并忽略时间顺序。由此产生的时间维度能量降维序列Y=[Y1,Y2,...,YM]是从X按时间降序排序获得的。X的基于音频时序信息加权的频域特征表示/>可写为
池化向量是:
上面所述的池化方式能给拥有更高能量的声音时间帧更大的权重,这种加权用以平衡平稳信号和非平稳信号,以形成音频信号的简单频域表示。其中,非平稳信号是指音频谱图中声能突然增加的时间帧,其中可能包含异音检测所需要的有效信息。
2.使用高斯混合模型估计器估计异常声音
高斯混合模型(Gaussian Mixture Model,GMM)用于将正常声音的分布拟合为有限数量的高斯分布的混合物。GMM在正常声音上被训练,并将负对数似然作为测试声音的异常分数,负对数似然性被定义为:
使用非深度学习方法,应用高斯混合模型(Gaussian Mixture Model,GMM)估计器根据上述的基于音频时序信息加权的频域特征表示计算每条音频的异常分数,作为判断异常音频的判断标准。由于使用的是非深度学习方法,与常用的深度学习方法(如自编码器)相比,可以有效降低模型复杂度及减少所用参数。具体模型参数量比较见附图2。其中,TWFR-GMM是上述步骤所涉及的技术方案简写,SMOTE-TWFR-GMM是在TWFR-GMM的基础上对机器音频样本进行数据扩充,对数据量较少的机器类型进行随机增广,从而缓解样本不足、机器类型分布不均的问题。
3.实现用于异常声音检测的更具鲁棒性的音频特征表示
上述步骤1中(2)记录了一种池化向量,计算方式如下:
针对不同机器类型,从0到1按0.01的间隔选取池化参数r的数值,并分别在测试数据集进行异常声音检测,根据其最佳检测性能,为不同机器找到最合适的池化参数r,因此基于音频时序信息加权的频域特征表示(Time-Weighted Frequency DomainRepresentation,TWFR)可以适用于不同的机器类型以实现用于异常声音检测的更鲁棒性的音频特征表示。
池化参数r的选取对于异常声音检测性能的表现有着较大影响。平均池化和最大池化是全局加权排序池化(GWRP)的两种特殊情况。r=0,GWRP退化为最大池化;r=1,GWRP变成平均池化。该发明中在训练阶段为每种机器类型的最佳检测性能在0到1的范围内选择r。因此,基于音频时序信息加权的频域特征表示(TWFR)可以适应不同的机器类型,生成用于异常声音检测的更鲁棒性的音频特征表示。
本发明涉及的机器类型有Toycar、ToyTrain、Fan、Gearbox、Bearing、Slider和Valve,其各自对应的池化参数r如下所示:
机器类型 | 池化参数r取值 |
Toycar | 0.99 |
ToyTrain | 0.81 |
Fan | 1.00 |
Gearbox | 0.99 |
Bearing | 1.00 |
Slider | 0.88 |
Valve | 0.45 |
上述实施例只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人士能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围。凡根据本发明精神实质所作的等效变化或修饰,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种基于音频时序信息加权的频域特征表示异音检测方法,其特征在于:
通过对原始音频信号获取Log-Mel谱频域特征,并在时间维度上对其应用全局加权排序池化,得到音频信号的基于音频时序信息加权的频域特征表示,解决了对稳定音频信号和非稳定音频信号的平衡问题。
2.根据权利要求1所述的一种基于音频时序信息加权的频域特征表示异音检测方法,其特征在于:
基于音频时序信息加权的频域特征表示,针对不同机器类型,根据最佳检测性能,找到全局加权排序池化最合适的池化参数,实现用于异常声音检测的更鲁棒性的音频特征表示。
4.根据权利要求3所述的一种基于音频时序信息加权的频域特征表示异音检测方法,其特征在于:
短时傅里叶变换采用重叠时间窗的方式进行采样,时间窗长度为1024个采样点,即16kHz采样频率下的64ms时长,重叠步长为512个采样点,即16kHz采样频率下的32ms时长,Mel滤波器组维数M为128维。
5.根据权利要求3或4所述的一种基于音频时序信息加权的频域特征表示异音检测方法,其特征在于:
Log-Mel谱频域特征X的第i个行向量中的数值降序排列,按照声音能量递减顺序重新排列行向量上Xi的值,以忽略时间顺序影响,得到时间维度能量降序行向量Yi,由此,所有时间维度能量降序行向量,组合产生了时间维度能量降维序列Y=[Y1,Y2,...,YM],
其中,P(r)是池化向量,池化方式具体为:
6.根据权利要求5所述的一种基于音频时序信息加权的频域特征表示异音检测方法,其特征在于:
针对不同机器类型,从0到1按0.01的间隔选取池化参数r的数值,并分别在测试数据集进行异常声音检测,根据其最佳检测性能,为不同机器找到最合适的池化参数r,适用于不同的机器类型以实现用于异常声音检测的更鲁棒性的音频特征表示。
7.根据权利要求6所述的一种基于音频时序信息加权的频域特征表示异音检测方法,其特征在于:
使用高斯混合模型估计器计算每条音频的异常分数,作为判断异常音频的判断标准,减少模型所用参数,降低模型复杂度。
8.根据权利要求7所述的一种基于音频时序信息加权的频域特征表示异音检测方法,其特征在于:
用事件训练好的高斯混合模型,对测试数据进行负对数似然性的计算,并将计算结果作为每条测试音频的异常分数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310240262.4A CN116230015B (zh) | 2023-03-14 | 2023-03-14 | 一种基于音频时序信息加权的频域特征表示异音检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310240262.4A CN116230015B (zh) | 2023-03-14 | 2023-03-14 | 一种基于音频时序信息加权的频域特征表示异音检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116230015A true CN116230015A (zh) | 2023-06-06 |
CN116230015B CN116230015B (zh) | 2023-08-08 |
Family
ID=86587226
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310240262.4A Active CN116230015B (zh) | 2023-03-14 | 2023-03-14 | 一种基于音频时序信息加权的频域特征表示异音检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116230015B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110189769A (zh) * | 2019-05-23 | 2019-08-30 | 复钧智能科技(苏州)有限公司 | 基于多个卷积神经网络模型结合的异常声音检测方法 |
US20200312306A1 (en) * | 2019-03-25 | 2020-10-01 | Mitsubishi Electric Research Laboratories, Inc. | System and Method for End-to-End Speech Recognition with Triggered Attention |
WO2021075709A1 (ko) * | 2019-10-14 | 2021-04-22 | 고려대학교 산학협력단 | 잡음 환경에 강인한 동물 종 식별 장치 및 방법 |
CN112820275A (zh) * | 2021-01-15 | 2021-05-18 | 华中农业大学 | 一种基于声音信号分析哺乳仔猪异常的自动监测方法 |
CN114120974A (zh) * | 2021-11-24 | 2022-03-01 | 江苏华电灌云风力发电有限公司 | 一种基于深度学习的风机叶片故障诊断方法 |
CN114154538A (zh) * | 2021-11-26 | 2022-03-08 | 哈尔滨工程大学 | 一种基于相位编码和设备信息的工业声音异常检测系统 |
US20220108698A1 (en) * | 2020-10-07 | 2022-04-07 | Mitsubishi Electric Research Laboratories, Inc. | System and Method for Producing Metadata of an Audio Signal |
US20220155263A1 (en) * | 2020-11-19 | 2022-05-19 | International Business Machines Corporation | Sound anomaly detection using data augmentation |
CN114822512A (zh) * | 2022-06-29 | 2022-07-29 | 腾讯科技(深圳)有限公司 | 音频数据的处理方法、装置、电子设备及存储介质 |
-
2023
- 2023-03-14 CN CN202310240262.4A patent/CN116230015B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200312306A1 (en) * | 2019-03-25 | 2020-10-01 | Mitsubishi Electric Research Laboratories, Inc. | System and Method for End-to-End Speech Recognition with Triggered Attention |
CN110189769A (zh) * | 2019-05-23 | 2019-08-30 | 复钧智能科技(苏州)有限公司 | 基于多个卷积神经网络模型结合的异常声音检测方法 |
WO2021075709A1 (ko) * | 2019-10-14 | 2021-04-22 | 고려대학교 산학협력단 | 잡음 환경에 강인한 동물 종 식별 장치 및 방법 |
US20220108698A1 (en) * | 2020-10-07 | 2022-04-07 | Mitsubishi Electric Research Laboratories, Inc. | System and Method for Producing Metadata of an Audio Signal |
US20220155263A1 (en) * | 2020-11-19 | 2022-05-19 | International Business Machines Corporation | Sound anomaly detection using data augmentation |
CN112820275A (zh) * | 2021-01-15 | 2021-05-18 | 华中农业大学 | 一种基于声音信号分析哺乳仔猪异常的自动监测方法 |
CN114120974A (zh) * | 2021-11-24 | 2022-03-01 | 江苏华电灌云风力发电有限公司 | 一种基于深度学习的风机叶片故障诊断方法 |
CN114154538A (zh) * | 2021-11-26 | 2022-03-08 | 哈尔滨工程大学 | 一种基于相位编码和设备信息的工业声音异常检测系统 |
CN114822512A (zh) * | 2022-06-29 | 2022-07-29 | 腾讯科技(深圳)有限公司 | 音频数据的处理方法、装置、电子设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
YOUDE LIU ET AL.: "ANOMALOUS SOUND DETECTION USING SPECTRAL-TEMPORAL INFORMATION FUSION", 《ICASSP 2022》 * |
王锐光;吴际;刘超;杨海燕;: "基于维修日志的飞机设备故障原因判别方法", 软件学报, no. 05 * |
Also Published As
Publication number | Publication date |
---|---|
CN116230015B (zh) | 2023-08-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9666183B2 (en) | Deep neural net based filter prediction for audio event classification and extraction | |
Pelecanos et al. | Feature warping for robust speaker verification | |
CN108538310B (zh) | 一种基于长时信号功率谱变化的语音端点检测方法 | |
US10242677B2 (en) | Speaker dependent voiced sound pattern detection thresholds | |
CN109034046B (zh) | 一种基于声学检测的电能表内异物自动识别方法 | |
CN110232933B (zh) | 音频检测方法、装置、存储介质及电子设备 | |
US20150228277A1 (en) | Voiced Sound Pattern Detection | |
CN102968990B (zh) | 说话人识别方法和系统 | |
WO2012158156A1 (en) | Noise supression method and apparatus using multiple feature modeling for speech/noise likelihood | |
CN106875938A (zh) | 一种改进的非线性自适应语音端点检测方法 | |
CN112542174A (zh) | 基于vad的多维特征参数声纹识别方法 | |
CN111816185A (zh) | 一种对混合语音中说话人的识别方法及装置 | |
CN108538306A (zh) | 提高语音设备doa估计的方法及装置 | |
CN108962285A (zh) | 一种基于人耳掩蔽效应划分子带的语音端点检测方法 | |
US20230116052A1 (en) | Array geometry agnostic multi-channel personalized speech enhancement | |
Smolenski et al. | Usable speech processing: A filterless approach in the presence of interference | |
CN116230015B (zh) | 一种基于音频时序信息加权的频域特征表示异音检测方法 | |
CN113345443A (zh) | 基于梅尔频率倒谱系数的海洋哺乳动物发声检测识别方法 | |
Varela et al. | Combining pulse-based features for rejecting far-field speech in a HMM-based voice activity detector | |
Chen et al. | Speech detection using microphone array | |
Dov et al. | Voice activity detection in presence of transients using the scattering transform | |
KR101811635B1 (ko) | 스테레오 채널 잡음 제거 장치 및 방법 | |
CN114093385A (zh) | 一种无人机检测方法及装置 | |
Mirabilii et al. | Simulating wind noise with airflow speed-dependent characteristics | |
Li et al. | Robust speech endpoint detection based on improved adaptive band-partitioning spectral entropy |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |