CN114582325A - 音频检测方法、装置、计算机设备、存储介质 - Google Patents
音频检测方法、装置、计算机设备、存储介质 Download PDFInfo
- Publication number
- CN114582325A CN114582325A CN202210224726.8A CN202210224726A CN114582325A CN 114582325 A CN114582325 A CN 114582325A CN 202210224726 A CN202210224726 A CN 202210224726A CN 114582325 A CN114582325 A CN 114582325A
- Authority
- CN
- China
- Prior art keywords
- audio
- abnormal
- audio data
- score
- sequences
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 120
- 230000002159 abnormal effect Effects 0.000 claims abstract description 191
- 238000000034 method Methods 0.000 claims abstract description 47
- 238000004590 computer program Methods 0.000 claims abstract description 42
- 238000012545 processing Methods 0.000 claims abstract description 40
- 230000011218 segmentation Effects 0.000 claims abstract description 37
- 230000015654 memory Effects 0.000 claims description 38
- 230000005856 abnormality Effects 0.000 claims description 31
- 230000003595 spectral effect Effects 0.000 claims description 21
- 238000000605 extraction Methods 0.000 claims description 11
- 238000001228 spectrum Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000000052 comparative effect Effects 0.000 description 3
- 238000009432 framing Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 230000003213 activating effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000007620 mathematical function Methods 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 206010011224 Cough Diseases 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种音频检测方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:获取音频数据;将所述音频数据进行分段处理得到多个音频序列;对所述多个音频序列分别进行检测;若所述音频序列中存在异常音频数据,则对所述存在异常音频数据的所述音频序列求取异常分数;根据所述异常分数输出音频检测报告。采用本方法能够提高音频检测的准确性。
Description
技术领域
本申请涉及计算机应用领域,特别是涉及一种音频检测方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
由于声音信息可在光线较差、视觉盲区等场景下使用,因此音频异常检测技术是对现有视频监控系统的重要补充。由于应用场景下发生故障的异常声音稀缺,传统的二分类模型在检测时容易出现漏检。
发明内容
基于此,有必要针对上述技术问题,提供一种音频检测方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种音频检测方法。所述方法包括:
获取音频数据;
将所述音频数据进行分段处理得到多个音频序列;
对所述多个音频序列分别进行检测;
若所述音频序列中存在异常音频数据,则对所述存在异常音频数据的所述音频序列求取异常分数;
根据所述异常分数输出音频检测报告。
在其中一个实施例中,所述将所述音频数据进行分段处理得到多个音频序列,包括:
根据预设的帧长,对所述音频数据进行分帧处理,得到相同帧长的多个音频序列。
在其中一个实施例中,所述对所述多个音频序列分别进行检测,包括:
计算音频序列的频谱能量;
通过所述频谱能量检测所述多个音频序列。
在其中一个实施例中,所述若所述音频序列中存在异常音频数据,则对所述存在异常音频数据的所述音频序列求取异常分数,包括:
对所述存在异常音频数据的所述音频序列进行特征提取,得到所述存在异常音频数据的所述音频序列的第一声学特征;
调取第一检测模型,将所述第一声学特征输入所述第一检测模型求取异常分数。
在其中一个实施例中,所述调取第一检测模型,将所述第一声学特征输入所述第一检测模型求取异常分数,包括:
计算所述第一声学特征与存储器中的异常音频数据的声学特征之间的第一相似度;
将所述第一声学特征输入预设的异常检测器计算异常程度分数;
利用所述第一相似度和所述异常程度分数求取异常分数。
在其中一个实施例中,上述方法还包括:
若所述音频序列中不存在异常音频数据,则将所述多个音频序列进行声学特征提取,得到所述多个音频序列中每个音频序列对应的第二声学特征;
将所述第二声学特征输入第二检测模型,计算所述多个音频序列之间的第二相似度;
根据所述第二相似度求取异常分数。
第二方面,本申请还提供了一种音频检测装置。所述装置包括:
数据获取模块,用于获取音频数据;
处理模块,用于将所述音频数据进行分段处理得到多个音频序列;
检测模块,用于对所述多个音频序列分别进行检测;
分数求取模块,用于若所述音频序列中存在异常音频数据,则对所述存在异常音频数据的所述音频序列求取异常分数;
输出模块,用于根据所述异常分数输出音频检测报告。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取音频数据;
将所述音频数据进行分段处理得到多个音频序列;
对所述多个音频序列分别进行检测;
若所述音频序列中存在异常音频数据,则对所述存在异常音频数据的所述音频序列求取异常分数;
根据所述异常分数输出音频检测报告。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取音频数据;
将所述音频数据进行分段处理得到多个音频序列;
对所述多个音频序列分别进行检测;
若所述音频序列中存在异常音频数据,则对所述存在异常音频数据的所述音频序列求取异常分数;
根据所述异常分数输出音频检测报告。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取音频数据;
将所述音频数据进行分段处理得到多个音频序列;
对所述多个音频序列分别进行检测;
若所述音频序列中存在异常音频数据,则对所述存在异常音频数据的所述音频序列求取异常分数;
根据所述异常分数输出音频检测报告。
上述音频检测方法、装置、计算机设备、存储介质和计算机程序产品,获取音频数据;将所述音频数据进行分段处理得到多个音频序列;对所述多个音频序列分别进行检测;若所述音频序列中存在异常音频数据,则对所述存在异常音频数据的所述音频序列求取异常分数;根据所述异常分数输出音频检测报告。通过获取音频数据,对音频数据进行分段处理得到多个音频序列,检测音频序列是否存在异常音频数据,对存在异常音频数据的音频序列进行异常分数的求取,再输出音频检测报告,能够实施对音频的全面检测。
附图说明
图1为一个实施例中音频检测方法的应用环境图;
图2为一个实施例中音频检测方法的流程示意图;
图3为一个实施例中音频检测方法中记忆式检测模型求取异常分数过程示意图;
图4为一个实施例中音频检测方法中对比式检测模型求取异常分数过程示意图;
图5为另一个实施例中音频检测方法的流程示意图;
图6为一个实施例中音频检测方法中特征提取流程示意图;
图7为一个实施例中音频检测装置的结构框图;
图8为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的音频检测方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。服务器104获取终端102的音频数据;将音频数据进行分段处理得到多个音频序列;对多个音频序列分别进行检测;若音频序列中存在异常音频数据,则对存在异常音频数据的音频序列求取异常分数;根据异常分数输出音频检测报告。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
可以理解的是,本申请实施例提供的语音处理方法除了可应用于包含终端与服务器的系统,也可以单独应用于终端或服务器上。
在一个实施例中,如图2所示,提供了一种音频检测方法,以该方法应用于图1中的服务器104或终端102为例进行说明,包括以下步骤:
步骤202,获取音频数据。
其中,音频数据可以是实时采集的声音信号,也可以是采集后存放在存储空间中的声音信号。用户可以是从声音收集设备直接获取音频信号,也可以从视音频信号等其他含音频的混合信号中分离出音频数据。
在一个可能的实现方式中,终端的处理器获取声音收集设备收集的音频数据。
在另一个可能的实现方式中,终端将声音收集设备收集的音频数据上传到服务器。
步骤204,将音频数据进行分段处理得到多个音频序列。
其中,音频序列是指将音频数据切分成标签的音频片段。音频的分段处理是完整的音频数据切分成若干音频小片段,每个片段之间相互独立。音频的切分方法包括:基于距离的音频切分方法,基于模型选择的音频切分方法,基于模型的音频切分方法和混合的音频切分方法等。基于距离的音频切分方法中定义了距离尺度来评估两个相邻窗之间的相似度,从而形成一条距离曲线。根据设定的阈值,距离曲线的峰值位置被选为一个变化点。假设相邻窗中的特征向量遵循着一定的概率密度,并且距离是两个概率密度的差异。常见的距离尺度有KL距离(Kullback-Lcibler Distance),GLR距离(Generalized LikelihoodRatio),马氏距离(Mahalanobis Distance),巴氏距离(Bhattacharyya Distance)。基于模型选择的音频切分方法中,普遍使用的是基于贝叶斯信息准则(BIC)的音频切分方法,它将寻找跳变点的问题模拟成两个模型进行选择的问题。基于模型的音频切分方法中,通过对不同的音频类型进行建模,然后利用最大似然估计对每一帧音频分类。混合的音频切分方法通常是基于距离的音频切分方法,基于模型选择的音频切分方法,基于模型的音频切分方法的组合后,得出的全新的混合算法。CLDNNs结构用于解决语音端点检测(VoiceActivityDetection,VAD)问题,它将卷积神经网络(Convolutional Neural Network,CNN),长短期记忆网络(Long Short-Term Memory,LSTM)和深度神经网络(DeepNeuralNetwork,DNN)组合建模。
具体地,处理器按照预设的音频切分方法将音频数据切分成多个音频序列。该预设的音频切分方法可以包括基于距离的音频切分方法,基于模型选择的音频切分方法,基于模型的音频切分方法和混合的音频切分方法等任一种。
步骤206,对多个音频序列分别进行检测。
其中,对音频序列检测是指检测音频序列是否存在异常音频数据。
具体地,处理器对多个音频序列分别进行是否存在异常音频数据的检测。
步骤208,若音频序列中存在异常音频数据,则对存在异常音频数据的音频序列求取异常分数。
其中,异常音频数据是指音频中容易被混淆并且造成消极影响的音频信息,例如,在实际会议场景中,由于敲击键盘声和关门声容易识别为枪声,脚步声也容易与枪声混淆,且咳嗽声与尖叫声具有一定相似性,爆炸声、枪声、尖叫声等威胁公共安全事件的数据属于异常音频数据。异常分数是表示存在异常音频数据的音频序列的异常程度。对存在异常音频数据的音频序列求取异常分数的方式一般通过模型进行求取。
具体地,若音频序列中存在异常音频数据,处理器对存在异常音频数据的音频序列求取异常分数。
步骤210,根据异常分数输出音频检测报告。
其中,音频检测报告包括存在异常音频数据的音频序列的异常分数、异常等级等。
具体地,处理器根据异常分数输出音频检测报告。
上述音频检测方法中,获取音频数据;将音频数据进行分段处理得到多个音频序列;对多个音频序列分别进行检测;若音频序列中存在异常音频数据,则对存在异常音频数据的音频序列求取异常分数;根据异常分数输出音频检测报告。通过获取音频数据,对音频数据进行分段处理得到多个音频序列,检测音频序列是否存在异常音频数据,对存在异常音频数据的音频序列进行异常分数的求取,再输出音频检测报告,能够实施对音频的全面检测。
在一个实施例中,将音频数据进行分段处理得到多个音频序列,包括:根据预设的帧长,对音频数据进行分帧处理,得到相同帧长的多个音频序列。
具体地,处理器根据预设的帧长对音频数据进行分帧处理得到音频序列,所有音频序列的帧长相同。通过统一音频序列的帧长,方便后续的数据处理。其中,在音频数据的位置相邻的两个音频序列之间偏移的帧数不超过预设的帧长,以确保音频数据中的每一帧数据都在音频序列中有对应的数据。
本实施例中,通过将音频序列分段,能够方便后续的音频序列中数据的处理。
在一个实施例中,对多个音频序列分别进行检测,包括:计算音频序列的频谱能量;根据频谱能量检测多个音频序列。
具体地,处理器计算音频序列中音频频点的频谱能量,通过预设的音频频谱能量进行对比确定音频序列是否存在异常音频数据。
本实施例中,通过对比频谱能量,能够达到有效的检测音频序列中是否存在异常音频数据。
在一个实施例中,若音频序列中存在异常音频数据,则对存在异常音频数据的音频序列求取异常分数,包括:对存在异常音频数据的音频序列进行特征提取,得到存在异常音频数据的音频序列的第一声学特征;调取第一检测模型,将第一声学特征输入第一检测模型求取异常分数。
其中,声学特征可以包括时域特征、频域特征以及倒谱域特征中至少一种。时域特征可以包括短时能量、低能量帧比率、短时过零率、高过零率帧比率等特征矢量;频域特征可以包括频域能量、频率中心、带宽、频谱滚降系数、线性预测系数等特征矢量;倒谱域特征可以包括梅尔频率倒谱系数和线性预测倒谱系数等特征矢量。时域是描述数学函数或物理信号对时间的关系,频域是描述数学函数或物理信号对时间的关系,倒谱域是一种信号的傅里叶变换经对数运算后再进行傅里叶反变换得到的时域。检测模型是指用于求取异常分数的模型。
第一检测模型可为记忆式异常检测模型。该记忆式异常检测模型可如图3所示,通过添加预设数量的异常音频样本数据到存储器(即异常存储器)中,使得记忆式异常检测模型能够保存异常音频样本数据,在识别过程中起到辅助作用。该存储器独立于自动编码器,记忆式异常检测模型利用加性操作将自动编码器的重建误差和相似度分数统一起来。输入样本会和存储器中的异常音频样本数据进行相似度计算,如果输入的是正常样本则相似度会比较小,否则相似度值就比较大,然后把相似度得分与异常检测器估计的异常程度分数加在一起作为声音样本的异常分数。通过加法操作,即使异常检测器对异常声音样本估计的异常程度较低,即异常得分较小,但是再加上较大的相似度得分仍然使异常声音样本的异常得分较大,从而与正常样本区分开来。其中,二者的得分是以加权和的方式组合在一起。加权和中所使用的权重是将用于训练记忆式异常检测模型的机器样本异常得分归一化之后,再利用网格搜索的方法得到最佳的权重值。
具体地,处理器将存在异常音频数据的音频序列进行归一化,分帧、加窗后每帧信号通过离散傅里叶变换计算每帧的频谱,然后将所有帧的频谱组合在一起,生成二维时频图谱,根据二维时频图谱得到存在异常音频数据的音频序列的第一声学特征,该第一声学特征包括频域特征和梅尔频谱特征,即将二维时频图谱通过对数转换得到频域特征,以及将二维时频图谱通过梅尔滤波器并进行对数转换获得梅尔倒谱系数,然后再将梅尔倒谱系数经离散余弦变换得到梅尔倒谱特征;调取第一检测模型,将频域特征、梅尔频谱特征和梅尔倒谱系数输入第一检测模型求取存在异常音频数据的音频序列的异常分数。
本实施例中,通过调取第一检测模型,能够精准计算异常分数。
在一个实施例中,调取第一检测模型,将第一声学特征输入第一检测模型求取异常分数,包括:计算第一声学特征与存储器中的异常音频数据的声学特征之间的第一相似度;将第一声学特征输入预设的异常检测器计算异常程度分数;利用第一相似度和所述异常程度分数求取异常分数。
具体地,处理器计算第一声学特征与存储器中的异常音频数据的声学特征之间的第一相似度。将第一声学特征输入预设的异常检测器,根据接受者操作特征曲线(ReceiverOperating Characteristic,简称ROC)与坐标轴围成的面积(Area Under Curve,简称AUC)计算异常程度分数。利用第一相似度和所述异常程度分数通过加权和求取异常分数。其中,ROC曲线的横坐标是伪阳性率(也叫假正类率,False Positive Rate)与正常音频被识别为异常音频的概率有感,ROC曲线的纵坐标是真阴性率(真负类率,True Negative Rate)或检测率,与异常音频被准确识别出的概率。
本实施例中,通过第一相似度和异常检测的异常程度求取异常程度,能够提高异常分数求取的准确性。
在一个实施例中,上述音频检测方法还包括:若音频序列中不存在异常音频数据,则将多个音频序列进行声学特征提取,得到多个音频序列中每个音频序列对应的第二声学特征;将第二声学特征输入第二检测模型,计算多个音频序列之间的第二相似度;根据第二相似度求取异常分数。
其中,第二检测模型可为对比式异常检测模型。对比式异常检测模型是基于异常声音样本训练得到,其中,该异常声音样本是对正常声音样本的声学模式进行改变所得到。由于异常声音样本与正常声音样本越接近,并且有略微差异,即对于第二检测模型来讲,异常声音样本为困难样本,难以被区分但能够给分类器带来更大的信息量。从几何意义来说,分类器表征的空间能够正好模拟正常样本数据分布。所以,本申请的数据增强方法均是基于正常声音样本得到的,仅仅改变正常样本的声学模式,将新生成的样本视为异常声音样本。对比式异常检测模型可如图4所示,采用数据增强的方法生成异常声音样本。对于输入对比式异常检测模型的音频数据分定义为样本对,其中样本对的定义包括两类,如果都是正常音频数据则定义为正样本对,其标签设置为0;如果一个为正常音频数据,另一个为异常音频数据,定义为负样本对,其标签设置为1。卷积神经网络能够提取样本对具有区分度的信息,然后计算输入的样品对的高级语义特征的相似度。由于采用的是完全相同的网络结构,使得相似的样本被映射到高级空间相近的位置,同时使差异很大的样本对被映射到间隔很远的位置。可采用了对比能量函数,在训练过程中降低相似样本对的对比能量,增加不相似样本对的对比能量。利用欧式距离来衡量样本对在高维嵌入空间差异,同时不再将能量函数作为损失函数,而是在距离矢量差值操作后面再通过全连接层处理,经S型曲线激活输出概率分布,此概率衡量样本对的相似度。如果是正样本对,其相似度值较大,否则其相似度较小,所以样本对的标签表达的就是样本对相似度。从而可以通过有监督二分类学习来训练网络,损失函数采用常用的交叉嫡函数。最终训练的网络可作为特征提取器,将正常和异常声音在高级空间区分开来。图4中虚线代表推理阶段,将相似度部分的网络结构去掉,只保留特征提取部分,测试时比较待测样本和正常样本高级特征的相似度,如果是正常的则相似度越大,否则越小。
具体地,若音频序列中不存在异常音频数据,则将多个音频序列进行声学特征提取,得到多个音频序列中每个音频序列对应的第二声学特征;将第二声学特征输入第二检测模型,利用欧式距离衡量第二声学特征在高维嵌入空间差异,通过全连接层处理,再经过S层曲线激活输出概率分布,计算多个音频序列之间的第二相似度;取第二相似度值的相反数作为异常分数。
本实施例中,通过相似度求取异常分数,能够提高异常分数求取的准确性。
为了更好理解本申请实施例提供的音频检测方法,下面结合一个详细实施例,如图5所示,描述音频检测方法的具体步骤:
(1)处理器获取待检测的音频数据;
(2)处理器根据预设的帧长对待检测的音频数据进行分帧处理得到帧长相同的多个音频序列;
(3)处理器计算音频序列的音频频点的频谱能量,若音频序列的音频频点的频谱能量大于预设的频谱能量,则音频序列存在异常音频数据;
(4)若音频序列中存在异常音频数据,处理器将存在异常音频数据的音频序列进行归一化,分帧、加窗后每帧信号通过离散傅里叶变换计算每帧的频谱,然后将所有帧的频谱组合在一起,生成二维时频图谱,二维时频图谱通过对数转换得到频域特征,以及将二维时频图谱通过梅尔滤波器并进行对数转换获得梅尔倒谱系数,然后再将梅尔倒谱系数经离散余弦变换得到梅尔倒谱特征;调取第一检测模型,将频域特征、梅尔频谱特征和梅尔倒谱系数输入预设的异常检测器,根据接受者操作特征曲线(Receiver OperatingCharacteristic,简称ROC)与坐标轴围成的面积(Area Under Curve,简称AUC)计算异常程度分数;处理器计算第一声学特征与存储器中的异常音频数据的声学特征之间的第一相似度利用第一相似度和异常程度分数通过加权和求取异常分数,如图3所示;
(5)若音频序列中不存在异常音频数据,处理器将多个音频序列进行声学特征提取,得到多个音频序列中每个音频序列对应的第二声学特征;将第二声学特征输入第二检测模型,通过卷积神经网络能够提取第二声学特征具有区分度的信息,利用欧式距离衡量第二声学特征在高维嵌入空间差异,通过全连接层处理,再经过S层曲线激活输出概率分布,计算多个音频序列之间的第二相似度;取第二相似度值的相反数作为异常分数。如图4所示。
(6)处理器根据异常分数输出检测报告。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的音频检测方法的音频检测装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个音频检测装置实施例中的具体限定可以参见上文中对于音频检测方法的限定,在此不再赘述。
在一个实施例中,如图7所示,提供了一种音频检测装置,包括:数据获取模块710、处理模块720、检测模块730、分数求取模块740和输出模块750,其中:
数据获取模块710,用于获取音频数据;
处理模块720,用于将音频数据进行分段处理得到多个音频序列;
检测模块730,用于对多个音频序列分别进行检测;
分数求取模块740,用于若音频序列中存在异常音频数据,则对存在异常音频数据的音频序列求取异常分数;
输出模块750,用于根据异常分数输出音频检测报告。
上述音频检测装置中,获取音频数据;将音频数据进行分段处理得到多个音频序列;对多个音频序列分别进行检测;若音频序列中存在异常音频数据,则对存在异常音频数据的音频序列求取异常分数;根据异常分数输出音频检测报告。通过获取音频数据,对音频数据进行分段处理得到多个音频序列,检测音频序列是否存在异常音频数据,对存在异常音频数据的音频序列进行异常分数的求取,再输出音频检测报告,能够实施对音频的全面检测。
在一个实施例中,处理模块720用于根据预设的帧长,对音频数据进行分帧处理,得到相同帧长的多个音频序列。
在一个实施例中,述音频检测装置还包括:计算模块。计算模块用于计算音频序列的频谱能量;检测模块730用于根据频谱能量检测所述多个音频序列。
在一个实施例中,上述音频检测装置还包括:特征提取模块。特征提取模块用于对存在异常音频数据的音频序列进行特征提取,得到存在异常音频数据的音频序列的第一声学特征;分数求取模块740还用于调取第一检测模型,将第一声学特征输入第一检测模型求取异常分数。
在一个实施例中,上述音频检测装置还包括:计算模块。计算模块用于计算第一声学特征与存储器中的异常音频数据的声学特征之间的第一相似度;将第一声学特征输入预设的异常检测器计算异常程度分数;分数求取模块740还用于利用第一相似度和所述异常程度分数求取异常分数。
在一个实施例中,处理模块720用于若音频序列中不存在异常音频数据,则将多个音频序列进行声学特征提取,得到多个音频序列中每个音频序列对应的第二声学特征;计算模块用于将第二声学特征输入第二检测模型,计算多个音频序列之间的第二相似度;分数求取模块740用于根据第二相似度求取异常分数。
上述音频检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储噪声数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种音频检测方法。
本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取音频数据;
将音频数据进行分段处理得到多个音频序列;
对多个音频序列分别进行检测;
若音频序列中存在异常音频数据,则对存在异常音频数据的音频序列求取异常分数;
根据异常分数输出音频检测报告。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
根据预设的帧长,对音频数据进行分帧处理,得到相同帧长的多个音频序列。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
计算音频序列的频谱能量;
根据频谱能量检测所述多个音频序列。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
对存在异常音频数据的音频序列进行特征提取,得到存在异常音频数据的音频序列的第一声学特征;
调取第一检测模型,将第一声学特征输入第一检测模型求取异常分数。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
计算第一声学特征与存储器中的异常音频数据的声学特征之间的第一相似度;
将第一声学特征输入预设的异常检测器计算异常程度分数;
利用第一相似度和异常程度分数求取异常分数。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
若音频序列中不存在异常音频数据,则将多个音频序列进行声学特征提取,得到多个音频序列中每个音频序列对应的第二声学特征;
将第二声学特征输入第二检测模型,计算多个音频序列之间的第二相似度;
根据第二相似度求取异常分数。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取音频数据;
将音频数据进行分段处理得到多个音频序列;
对多个音频序列分别进行检测;
若音频序列中存在异常音频数据,则对存在异常音频数据的音频序列求取异常分数;
根据异常分数输出音频检测报告。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
根据预设的帧长,对音频数据进行分帧处理,得到相同帧长的多个音频序列。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
计算音频序列的频谱能量;
根据频谱能量检测所述多个音频序列。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
根据预设的帧长,对音频数据进行分帧处理,得到相同帧长的多个音频序列。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
计算音频序列的频谱能量;
根据频谱能量检测所述多个音频序列。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
对存在异常音频数据的音频序列进行特征提取,得到存在异常音频数据的音频序列的第一声学特征;
调取第一检测模型,将第一声学特征输入第一检测模型求取异常分数。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
计算第一声学特征与存储器中的异常音频数据的声学特征之间的第一相似度;
将第一声学特征输入预设的异常检测器计算异常程度分数;
利用第一相似度和异常程度分数求取异常分数。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
若音频序列中不存在异常音频数据,则将多个音频序列进行声学特征提取,得到多个音频序列中每个音频序列对应的第二声学特征;
将第二声学特征输入第二检测模型,计算多个音频序列之间的第二相似度;
根据第二相似度求取异常分数。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取音频数据;
将音频数据进行分段处理得到多个音频序列;
对多个音频序列分别进行检测;
若音频序列中存在异常音频数据,则对存在异常音频数据的音频序列求取异常分数;
根据异常分数输出音频检测报告。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
根据预设的帧长,对音频数据进行分帧处理,得到相同帧长的多个音频序列。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
计算音频序列的频谱能量;
根据频谱能量检测所述多个音频序列。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
对存在异常音频数据的音频序列进行特征提取,得到存在异常音频数据的音频序列的第一声学特征;
调取第一检测模型,将第一声学特征输入第一检测模型求取异常分数。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
计算第一声学特征与存储器中的异常音频数据的声学特征之间的第一相似度;
将第一声学特征输入预设的异常检测器计算异常程度分数;
利用第一相似度和异常程度分数求取异常分数。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
若音频序列中不存在异常音频数据,则将多个音频序列进行声学特征提取,得到多个音频序列中每个音频序列对应的第二声学特征;
将第二声学特征输入第二检测模型,计算多个音频序列之间的第二相似度;
根据第二相似度求取异常分数。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (10)
1.一种音频检测方法,其特征在于,所述方法包括:
获取音频数据;
将所述音频数据进行分段处理得到多个音频序列;
对所述多个音频序列分别进行检测;
若所述音频序列中存在异常音频数据,则对所述存在异常音频数据的所述音频序列求取异常分数;
根据所述异常分数输出音频检测报告。
2.根据权利要求1所述的方法,其特征在于,所述将所述音频数据进行分段处理得到多个音频序列,包括:
根据预设的帧长,对所述音频数据进行分帧处理,得到相同帧长的多个音频序列。
3.根据权利要求1所述的方法,其特征在于,所述对所述多个音频序列分别进行检测,包括:
计算音频序列的频谱能量;
通过所述频谱能量检测所述多个音频序列。
4.根据权利要求1所述的方法,其特征在于,所述若所述音频序列中存在异常音频数据,则对所述存在异常音频数据的所述音频序列求取异常分数,包括:
对所述存在异常音频数据的所述音频序列进行特征提取,得到所述存在异常音频数据的所述音频序列的第一声学特征;
调取第一检测模型,将所述第一声学特征输入所述第一检测模型求取异常分数。
5.根据权利要求4所述的方法,其特征在于,所述调取第一检测模型,将所述第一声学特征输入所述第一检测模型求取异常分数,包括:
计算所述第一声学特征与存储器中的异常音频数据的声学特征之间的第一相似度;
将所述第一声学特征输入预设的异常检测器计算异常程度分数;
利用所述第一相似度和所述异常程度分数求取异常分数。
6.根据权利要求1所述的方法,其特征在于,上述方法还包括:
若所述音频序列中不存在异常音频数据,则将所述多个音频序列进行声学特征提取,得到所述多个音频序列中每个音频序列对应的第二声学特征;
将所述第二声学特征输入第二检测模型,计算所述多个音频序列之间的第二相似度;
根据所述第二相似度求取异常分数。
7.一种音频检测装置,其特征在于,所述装置包括:
数据获取模块,用于获取音频数据;
处理模块,用于将所述音频数据进行分段处理得到多个音频序列;
检测模块,用于对所述多个音频序列分别进行检测;
分数求取模块,用于若所述音频序列中存在异常音频数据,则对所述存在异常音频数据的所述音频序列求取异常分数;
输出模块,用于根据所述异常分数输出音频检测报告。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210224726.8A CN114582325A (zh) | 2022-03-07 | 2022-03-07 | 音频检测方法、装置、计算机设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210224726.8A CN114582325A (zh) | 2022-03-07 | 2022-03-07 | 音频检测方法、装置、计算机设备、存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114582325A true CN114582325A (zh) | 2022-06-03 |
Family
ID=81778191
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210224726.8A Pending CN114582325A (zh) | 2022-03-07 | 2022-03-07 | 音频检测方法、装置、计算机设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114582325A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115862681A (zh) * | 2023-03-01 | 2023-03-28 | 深圳市新凯来技术有限公司 | 转子碰摩故障声信号诊断方法、装置及电子设备 |
CN116007742A (zh) * | 2022-11-30 | 2023-04-25 | 中国南方电网有限责任公司超高压输电公司广州局 | 变压器异常声音检测方法、装置、设备和存储介质 |
-
2022
- 2022-03-07 CN CN202210224726.8A patent/CN114582325A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116007742A (zh) * | 2022-11-30 | 2023-04-25 | 中国南方电网有限责任公司超高压输电公司广州局 | 变压器异常声音检测方法、装置、设备和存储介质 |
CN115862681A (zh) * | 2023-03-01 | 2023-03-28 | 深圳市新凯来技术有限公司 | 转子碰摩故障声信号诊断方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3806089B1 (en) | Mixed speech recognition method and apparatus, and computer readable storage medium | |
Cao et al. | Urban noise recognition with convolutional neural network | |
CN109308912B (zh) | 音乐风格识别方法、装置、计算机设备及存储介质 | |
CN114582325A (zh) | 音频检测方法、装置、计算机设备、存储介质 | |
Jiang et al. | An Improved Speech Segmentation and Clustering Algorithm Based on SOM and K‐Means | |
CN111986699B (zh) | 基于全卷积网络的声音事件检测方法 | |
CN111429943B (zh) | 音频中音乐及音乐相对响度的联合检测方法 | |
Yogesh et al. | Bispectral features and mean shift clustering for stress and emotion recognition from natural speech | |
CN103489445A (zh) | 一种识别音频中人声的方法及装置 | |
JPWO2019220620A1 (ja) | 異常検出装置、異常検出方法及びプログラム | |
Ozer et al. | Lanczos kernel based spectrogram image features for sound classification | |
Park et al. | Voice Activity Detection in Noisy Environments Based on Double‐Combined Fourier Transform and Line Fitting | |
Li et al. | Animal sound recognition based on double feature of spectrogram in real environment | |
Marković et al. | Partial mutual information based input variable selection for supervised learning approaches to voice activity detection | |
CN117150402A (zh) | 基于生成式对抗网络的电力数据异常检测方法及模型 | |
WO2016152132A1 (ja) | 音声処理装置、音声処理システム、音声処理方法、および記録媒体 | |
Chuchra et al. | A deep learning approach for splicing detection in digital audios | |
Fennir et al. | Acoustic scene classification for speaker diarization | |
Ali et al. | The identification and localization of speaker using fusion techniques and machine learning techniques | |
Li et al. | Membership Information Leakage in Well-Generalized Auto Speech Recognition Systems | |
CN115985347B (zh) | 基于深度学习的语音端点检测方法、装置和计算机设备 | |
Abou-Zleikha et al. | Non-linguistic vocal event detection using online random forest | |
최인규 | Data-Efficient and Weakly Supervised Techniques for Audio Event Detection | |
Debnath et al. | Automatic speech recognition based on clustering technique | |
Narisetty et al. | Modelling of sound events with hidden imbalances based on clustering and separate Sub-Dictionary learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |