CN112700792A - 音频场景识别分类方法 - Google Patents
音频场景识别分类方法 Download PDFInfo
- Publication number
- CN112700792A CN112700792A CN202011545446.4A CN202011545446A CN112700792A CN 112700792 A CN112700792 A CN 112700792A CN 202011545446 A CN202011545446 A CN 202011545446A CN 112700792 A CN112700792 A CN 112700792A
- Authority
- CN
- China
- Prior art keywords
- classification
- layer
- classification result
- class
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000012549 training Methods 0.000 claims abstract description 44
- 238000012360 testing method Methods 0.000 claims abstract description 26
- 238000013507 mapping Methods 0.000 claims abstract description 14
- 230000000694 effects Effects 0.000 claims abstract description 8
- 239000011159 matrix material Substances 0.000 claims description 39
- 238000010606 normalization Methods 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 13
- 238000011176 pooling Methods 0.000 claims description 13
- 230000003595 spectral effect Effects 0.000 claims description 11
- 238000007781 pre-processing Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000009432 framing Methods 0.000 claims description 7
- 210000002569 neuron Anatomy 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 2
- 238000001514 detection method Methods 0.000 abstract description 3
- 238000013527 convolutional neural network Methods 0.000 description 31
- 230000006872 improvement Effects 0.000 description 9
- 238000012706 support-vector machine Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004907 flux Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种音频场景识别分类方法,属于音频场景和事件的检测和分类技术领域。该方法通过将测试集数据输入到使用训练集数据训练完成的CNN模型中进行分类并得到分类结果,再对分类结果进行判断,若分类结果是初次分类,则保存为初次识别分类结果,并对训练集数据重新标记后继续进行分类;若分类结果不是初次分类,则保存为二次分类结果,并对二次分类结果进行维度映射,融合初次识别分类结果和二次分类结果得到最终分类结果。本发明的音频场景识别分类方法实现了在不扩大数据集的情况下,充分利用数据,有针对性地提高初次分类效果不好的类别,从而提高整体识别准确率,且该方法能有效减小分类结果的偏差。
Description
技术领域
本发明涉及一种音频场景识别分类方法,属于音频场景和事件的检测和分类技术领域。
背景技术
音频场景识别分类是音频场景和事件的检测和分类领域中的一个主要课题,作为一个通用分类问题,为设备、机器人和许多其他应用中的文本感知奠定了基础。通常用于表示的音频特征是Mel频率倒谱系数(MFCC),它能够在简洁的计算下得到信号的谱结构,并且多次被证明在各种音频分类问题中是正确的,包括语音、说话人识别、歌手和乐器门类分类。其它用于音频场景识别分类的低维度规范特征包括例如过零率、平均能量、谱质心、谱滚降、谱通量和线性预测系数。常用的传统方法包括高斯混合模型(GMM),隐马尔可夫模型(HMM)和支持向量机(SVM)。目前最流行的是深度学习方法,其中卷积神经网络(CNN)是最通用有效的方法。
近年来,为了提高音频场景识别分类的准确率,使其广泛地适用于市场和各类服务领域,科研人员提出了许多基于CNN的改进识别分类方法,在某些情况下,CNN被用作集成的一部分,与多种技术相结合,如多层感知器(MLP)、递归神经网络(RNN)、支持向量机(SVM)和高斯混合模型(GMM)。CNN作为图像处理的一种形式被用于音频场景识别分类中,其连接模式利用信号的时频信息,因此能够捕获信号的时间和频率的变换信息。多数研究方法使用双声道音频处理,这主要是用来为深度学习训练获取更多数据的一种方法,不同的声道在录制的音频数据中有细微的变化。另一个新元素是使用特定的数据增强技术,大量使用了块混合、基音偏移、时间拉伸、混合同一类文件以及添加高斯噪声,在某些情况下,所有技术都在同一个系统中使用。还有一种新颖而独特的方法是使用生成对抗网络(GAN)对数据集进行扩充,该系统也实现了更高的准确率。以上提高准确率的方法均未对分类结果准确率有针对性的优化,虽然整体的平均准确率良好,但忽视了分类结果不佳的类别,会导致结果的偏差较高。
有鉴于此,确有必要提出一种音频场景识别分类方法,以解决上述问题。
发明内容
本发明的目的在于提供一种音频场景识别分类方法,该方法有针对性地提高初次分类效果不好的类别,从而提高整体识别准确率,且该方法能有效减小分类结果的偏差。
为实现上述目的,本发明提供一种音频场景识别分类方法,用于对不同场景下的音频数据进行分类,所述音频场景识别分类方法包括以下步骤:
步骤1、获取音频数据及音频数据标记,所述音频数据包括训练集数据和测试集数据;
步骤2、对音频数据进行预处理,然后再对音频数据做傅立叶变换并计算通过滤波器的能量,以获取特征数据;
步骤3、定义CNN模型的结构以及CNN模型的训练参数;
步骤4、使用训练集数据对CNN模型进行训练;
步骤5、将测试集数据输入到训练完成的CNN模型中进行分类,得出分类结果;
步骤6、判断分类结果是否为初次分类,若是,则转入步骤7;否则转入步骤9;
步骤7、将分类结果保存为初次识别分类结果并对训练集数据进行重新标记;
步骤8、将重新标记的训练集数据进行重新整理后转入步骤2;
步骤9、将分类结果保存为二次分类结果并对该二次分类结果进行维度映射;
步骤10、融合初次识别分类结果和维度映射后的二次分类结果,得到测试集数据的概率矩阵;
步骤11、在概率矩阵的每一列中选取概率最高的类别作为该列的识别分类类别,统计概率矩阵中所有的识别分类类别,生成最终结果的准确率混淆矩阵,分类结束。
作为本发明的进一步改进,步骤1中的音频数据标记具体为:训练集数据可进行自我标记,测试集数据自身带有正确的标记。
作为本发明的进一步改进,步骤2中的预处理包括预加重、分帧处理和加窗函数,预加重的滤波器设为:H(z)=1-az-1,其中,a为一个常数;分帧处理使相邻两帧之间有部分重叠;加窗函数用于将每一帧乘以海宁窗;利用傅立叶变换并计算通过滤波器的能量来获取特征数据的计算公式为:
X(i,k)=FFT[xi(m)];
E(i,k)=[X(i,k)]2;
其中,xi(m)为经过预处理后的时域数据,X(i,k)为频域数据,E(i,k)为谱线能量,S(i,m)为通过滤波器的能量,m是指第m个滤波器,M为滤波器的数量,i是指第i帧,MFCC(i,n)为将通过滤波器的能量取对数且计算DCT后的滤波器倒谱图,即特征数据,DCT为离散余弦变换,n是进行DCT计算后的谱线。
作为本发明的进一步改进,步骤3中CNN模型的结构包括输入层、第一批量归一化层、卷积模块、平均池化层、丢弃层、全连接层、softmax层和分类层,所述输入层用于向网络输入元素;所述第一批量归一化层用于对小批量中的每个输入通道进行归一化;所述平均池化层通过将输入的元素划分为矩形池化区域并计算每个区域的平均值来执行采样;所述丢弃层用于以给定的概率将输入的元素随机设置为零;所述全连接层用于将输入的元素乘以权重矩阵并与偏置向量相加;所述softmax层用于对输入的元素应用softmax函数;所述分类层用于计算具有互斥类的多类分类问题的交叉熵损失。
作为本发明的进一步改进,所述卷积模块由卷积块组成,所述卷积块包括卷积层、第二批量归一化层、ReLU层和最大池化层,所述卷积层用于对输入的元素采取滑动卷积过滤器,所述卷积层内设有卷积核,卷积层之间通过神经元连接;所述ReLU层用于对输入的元素执行阈值运算;所述第二批量归一化层用于对小批量中的每个输入通道进行归一化;所述最大池化层通过将输入的元素划分为矩形池化区域并计算每个区域的最大值来执行采样。
作为本发明的进一步改进,步骤3中CNN模型的训练参数包括将卷积核设为3个,每一层所述卷积层对应神经元的核数设为32、2*32、4*32、8*32;丢弃率(dropout)设为0.5;初始学习率设为0.05;小批量(MiniBatchzise)设为128;周期(Epoch)设为8;学习率丢弃周期设为2;学习率丢弃参数设为0.2。
作为本发明的进一步改进,步骤5具体为:在训练后的CNN模型中输入所述测试集数据并将所述测试集数据分类到各类别中,得出测试集数据在各类别中的概率矩阵,在概率矩阵的每一列中选取概率最高的类别作为该列的预测类,统计所有预测类,生成准确率混淆矩阵。
作为本发明的进一步改进,步骤6具体为:若分类结果是初次分类,则保存为概率矩阵A,观察预测类中效果最差的一类,设为a类,寻找误分到a类中数量最多的真实类,设为b类,转入步骤7;若分类结果不是初次分类,则保存为概率矩阵B,转入步骤9。
作为本发明的进一步改进,步骤7中重新标记训练集数据的步骤具体为:将a类保持为a类;将b类保持为b类;剩余类别标记为default类。
作为本发明的进一步改进,步骤9具体为:对概率矩阵B进行维度映射得出概率矩阵f(B),使所述概率矩阵f(B)的维度与所述概率矩阵A的维度相同,维度映射规则为:a类的概率值保持为a类概率值;b类的概率值保持为b类概率值;剩余类的概率值设为default类概率值。
本发明的有益效果是:本发明的音频场景识别分类方法通过改进特征分类识别效果,对初次识别分类结果中易混淆的种类进行再次分类获得二次分类结果,通过对二次分类结果进行维度映射,融合初次识别分类结果和二次分类结果得到最终结果,实现了在不扩大数据集的情况下,充分利用数据,有针对性地提高初次分类效果不好的类别,从而提高整体识别准确率,且该方法能有效减小分类结果的偏差。
附图说明
图1是本发明音频场景识别分类方法的流程图。
图2是图1中CNN模型的结构示意图。
图3是图1中二次分类结果的维度映射图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
本发明提供了一种音频场景识别分类方法,该方法基于深度学习常用的CNN模型,通过音频数据读取和获取特征数据、定义CNN模型的结构和CNN模型的训练参数以及测试集数据分类结果获取和处理三个部分,针对分类结果中容易混淆的两类进行再分类得到二次分类结果,从而提高音频数据的识别分类准确率。
请参阅图1所示,音频数据读取和获取特征数据包括如下两个步骤:
步骤1、获取音频数据及音频数据标记,所述音频数据包括训练集数据和测试集数据。
其中,训练集数据可进行自我标记,测试集数据自身带有正确的标记。
步骤2、对音频数据进行预处理,然后再对音频数据做傅立叶变换并计算通过滤波器的能量,以获取特征数据。
其中预处理包括预加重、分帧处理和加窗函数,预加重的目的是为了补偿高频分量的损失,提升高频分量,预加重的滤波器设为:H(z)=1-az-1,其中a为一个常数;分帧处理是为了使相邻两帧之间的参数能比较平稳地过度,在相邻两帧之间互相有部分重叠;加窗函数的目的是减少频域中的泄漏,将对每一帧的语音乘以海宁窗,音频数据x(n)经预处理后为时域数据xi(m),其中下标i表示分帧后的第i帧。
随后对xi(m)做傅立叶变换并计算通过滤波器的能量来获取音频数据的特征数据,对每一帧进行FFT(傅立叶变换)变换,变换公式为:X(i,k)=FFT[xi(m)],使音频数据从时域数据转变为频域数据;然后对每一帧FFT后的数据计算谱线能量,计算公式为:E(i,k)=[X(i,k)]2;随后计算通过滤波器的能量,计算公式为:
将通过滤波器的能量去对数后计算DCT进而计算出滤波器倒谱图MFCC(i,n),即特征数据,计算公式为:
其中,xi(m)为经预处理后的时域数据,X(i,k)为频域数据,E(i,k)为谱线能量,S(i,m)为通过滤波器的能量,m是指第m个滤波器,M为滤波器的数量,i是指第i帧,DCT为离散余弦变换,n是进行DCT计算后的谱线,本实施例中,滤波器优选为Mel滤波器,但不应以此为限。
请参阅图1~图2所示,定义CNN模型的结构和CNN模型的训练参数部分包括如下两个步骤:
步骤3、定义CNN模型的结构以及CNN模型的训练参数。
CNN模型的结构包括输入层、第一批量归一化层(即图2中的批量归一化层1)、卷积模块、平均池化层、丢弃层、全连接层、softmax层和分类层,输入层向程序网络中输入二维图像;第一批量归一化层(即图2中的批量归一化层1)对小批量中的每个输入通道进行归一化,可以加快卷积神经网络的训练并降低对网络初始化的敏感度;平均池化层通过将输入元素划分为矩形池化区域并计算每个区域的平均值来执行采样;丢弃层以给定的概率将输入元素随机设置为零;全连接层将输入元素乘以权重矩阵,然后与偏置向量相加;softmax层对输入元素应用softmax函数;分类层计算具有互斥类的多类分类问题的交叉熵损失。
其中,卷积模块由卷积块(即图2中的卷积块1、卷积块2、卷积块3和卷积块4)组成,卷积块包括卷积层(即图2中的卷积层1和卷积层2)、第二批量归一化层(即图2中的批量归一化层2和批量归一化层3)、ReLU层(即ReLU层1和ReLU层2)和最大池化层(即图2中的最大池化层1),卷积层对输入元素采取滑动卷积过滤器,卷积层内设有卷积核,卷积层之间通过神经元连接;ReLU层对输入的每个元素执行阈值运算,其中任何小于零的值都设置为零,第二批量归一化层(即图2中的批量归一化层2和批量归一化层3)对小批量中的每个输入通道进行归一化,最大池化层通过将输入元素划分为矩形池化区域并计算每个区域的最大值来执行采样,其中,卷积块1、卷积块2、卷积块3和卷积块4的功能均相同,卷积层1和卷积层2的功能均相同,ReLU层1和ReLU层2的功能均相同,批量归一化层1、批量归一化层2和批量归一化层3的功能均相同。
CNN模型的训练参数包括将卷积核设为3,每一层卷积层对应神经元核数可设为32、2*32、4*32、8*32;丢弃率(dropout)设为0.5;优化器选择sgdm;初始学习率为0.05;小批量(MiniBatchzise)为128;周期(Epoch)为8;学习率丢弃周期为2;学习率丢弃参数为0.2;其余参数均可设为默认值。
步骤4、使用训练集数据对CNN模型进行训练。
将经过标记的训练集数据输入结构和训练参数均已定义好的CNN模型中,对CNN模型进行训练。
请参阅图1~图3所示,测试集数据分类结果获取和处理部分包括以下步骤:
步骤5、将测试集数据输入到训练完成的CNN模型中进行分类,得出分类结果。
通过训练集数据训练前述CNN模型,在训练后的CNN模型中输入测试集数据并对测试集数据进行分类到各类别中,得到测试集数据分类在各类别中的概率矩阵,选取概率最高的类别作为该条数据的预测类,统计所有的测试集数据,生成准确率混淆矩阵。
步骤6、判断分类结果是否为初次分类,若是,则转入步骤7;否则转入步骤9。
当分类结果是初次分类,则将分类结果保存为概率矩阵A,观察预测类中效果最差的一类,设为a类,寻找误分到a类中数量最多的真实类,设为b类,转入步骤7;当分类结果不是初次分类,则将分类结果保存为概率矩阵B并转入步骤9。
步骤7、将分类结果保存为初次识别分类结果并对训练集数据进行重新标记。
标记规则为:将a类保持为a类;将b类保持为b类;将剩余类别标记为default类。
步骤8、将重新标记的所述训练集数据进行重新整理后转入步骤2。
将带有重新标记的a类、b类和default类训练集数据进行重新整理,作为新的训练集数据重新输入CNN模型训练并获取分类结果。
步骤9、将分类结果保存为二次分类结果并对该二次分类结果进行维度映射。
将二次分类结果的概率矩阵B进行维度映射得出概率矩阵f(B),使二次分类结果中概率矩阵f(B)的维度与初次识别分类结果中概率矩阵A的维度相同。
维度映射规则为:a类的概率值保持为a类概率值;b类的概率值保持为b类概率值;剩余类的概率值设为default类概率值。
步骤10、融合初次识别分类结果和维度映射后的二次分类结果,得到测试集数据的概率矩阵。
步骤11、在概率矩阵的每一列中选取概率最高的类别作为该列的识别分类类别,统计概率矩阵中所有的识别分类类别,生成最终结果的准确率混淆矩阵,分类结束。
综上所述,本发明提供了一种音频场景识别分类方法,通过使用训练集数据训练好的CNN模型对测试集数据进行分类,得到初次识别分类结果,对初次识别分类结果进行分析,寻找容易混淆的两个分类,保留这两个分类的标签,将剩余各类重新标记为default类,共计三类,将这三类再次送入CNN模型进行分类判断后得到二次分类结果,将得到的二次分类结果映射到与初次识别分类结果相同的维度,融合二次分类结果和初次识别分类结果作为最终判断结果。这种算法的实现,有针对性地提高初次分类效果不好的类别,从而提高整体识别准确率,且该方法能有效减小分类结果的偏差。
以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围。
Claims (10)
1.一种音频场景识别分类方法,用于对不同场景下的音频数据进行分类,其特征在于,所述音频场景识别分类方法包括以下步骤:
步骤1、获取音频数据及音频数据标记,所述音频数据包括训练集数据和测试集数据;
步骤2、对音频数据进行预处理,然后再对音频数据做傅立叶变换并计算通过滤波器的能量,以获取特征数据;
步骤3、定义CNN模型的结构以及CNN模型的训练参数;
步骤4、使用训练集数据对CNN模型进行训练;
步骤5、将测试集数据输入到训练完成的CNN模型中进行分类,得出分类结果;
步骤6、判断分类结果是否为初次分类,若是,则转入步骤7;否则转入步骤9;
步骤7、将分类结果保存为初次识别分类结果并对训练集数据进行重新标记;
步骤8、将重新标记的训练集数据进行重新整理后转入步骤2;
步骤9、将分类结果保存为二次分类结果并对该二次分类结果进行维度映射;
步骤10、融合初次识别分类结果和维度映射后的二次分类结果,得到测试集数据的概率矩阵;
步骤11、在概率矩阵的每一列中选取概率最高的类别作为该列的识别分类类别,统计概率矩阵中所有的识别分类类别,生成最终结果的准确率混淆矩阵,分类结束。
2.根据权利要求1所述的音频场景识别分类方法,其特征在于,步骤1中的音频数据标记具体为:训练集数据可进行自我标记,测试集数据自身带有正确的标记。
3.根据权利要求1所述的音频场景识别分类方法,其特征在于:步骤2中的预处理包括预加重、分帧处理和加窗函数,预加重的滤波器设为:H(z)=1-az-1,其中,a为一个常数;分帧处理使相邻两帧之间有部分重叠;加窗函数用于将每一帧乘以海宁窗;利用傅立叶变换并计算通过滤波器的能量来获取特征数据的计算公式为:
X(i,k)=FFT[xi(m)];
E(i,k)=[X(i,k)]2;
其中,xi(m)为经过预处理后的时域数据,X(i,k)为频域数据,E(i,k)为谱线能量,S(i,m)为通过滤波器的能量,m是指第m个滤波器,M为滤波器的数量,i是指第i帧,MFCC(i,n)为将通过滤波器的能量取对数且计算DCT后的滤波器倒谱图,即特征数据,DCT为离散余弦变换,n是进行DCT计算后的谱线。
4.根据权利要求1所述的音频场景识别分类方法,其特征在于:步骤3中CNN模型的结构包括输入层、第一批量归一化层、卷积模块、平均池化层、丢弃层、全连接层、softmax层和分类层,所述输入层用于向网络输入元素;所述第一批量归一化层用于对小批量中的每个输入通道进行归一化;所述平均池化层通过将输入的元素划分为矩形池化区域并计算每个区域的平均值来执行采样;所述丢弃层用于以给定的概率将输入的元素随机设置为零;所述全连接层用于将输入的元素乘以权重矩阵并与偏置向量相加;所述softmax层用于对输入的元素应用softmax函数;所述分类层用于计算具有互斥类的多类分类问题的交叉熵损失。
5.根据权利要求4所述的音频场景识别分类方法,其特征在于:所述卷积模块由卷积块组成,所述卷积块包括卷积层、第二批量归一化层、ReLU层和最大池化层,所述卷积层用于对输入的元素采取滑动卷积过滤器,所述卷积层内设有卷积核,卷积层之间通过神经元连接;所述ReLU层用于对输入的元素执行阈值运算;所述第二批量归一化层用于对小批量中的每个输入通道进行归一化;所述最大池化层通过将输入的元素划分为矩形池化区域并计算每个区域的最大值来执行采样。
6.根据权利要求5所述的音频场景识别分类方法,其特征在于:步骤3中CNN模型的训练参数包括将卷积核设为3个,每一层所述卷积层对应神经元的核数设为32、2*32、4*32、8*32;丢弃率设为0.5;初始学习率设为0.05;小批量设为128;周期设为8;学习率丢弃周期设为2;学习率丢弃参数设为0.2。
7.根据权利要求1所述的音频场景识别分类方法,其特征在于,步骤5具体为:在训练后的CNN模型中输入所述测试集数据并将所述测试集数据分类到各类别中,得出测试集数据在各类别中的概率矩阵,在概率矩阵的每一列中选取概率最高的类别作为该列的预测类,统计所有预测类,生成准确率混淆矩阵。
8.根据权利要求7所述的音频场景识别分类方法,其特征在于,步骤6具体为:若分类结果是初次分类,则保存为概率矩阵A,观察预测类中效果最差的一类,设为a类,寻找误分到a类中数量最多的真实类,设为b类,转入步骤7;若分类结果不是初次分类,则保存为概率矩阵B,转入步骤9。
9.根据权利要求8所述的音频场景识别分类方法,其特征在于,步骤7中重新标记训练集数据的步骤具体为:将a类保持为a类;将b类保持为b类;剩余类别标记为default类。
10.根据权利要求9所述的音频场景识别分类方法,其特征在于,步骤9具体为:对概率矩阵B进行维度映射得出概率矩阵f(B),使所述概率矩阵f(B)的维度与所述概率矩阵A的维度相同,维度映射规则为:a类的概率值保持为a类概率值;b类的概率值保持为b类概率值;剩余类的概率值设为default类概率值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011545446.4A CN112700792B (zh) | 2020-12-24 | 2020-12-24 | 音频场景识别分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011545446.4A CN112700792B (zh) | 2020-12-24 | 2020-12-24 | 音频场景识别分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112700792A true CN112700792A (zh) | 2021-04-23 |
CN112700792B CN112700792B (zh) | 2024-02-06 |
Family
ID=75509513
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011545446.4A Active CN112700792B (zh) | 2020-12-24 | 2020-12-24 | 音频场景识别分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112700792B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105074822A (zh) * | 2013-03-26 | 2015-11-18 | 杜比实验室特许公司 | 用于音频分类和处理的装置和方法 |
CN108231067A (zh) * | 2018-01-13 | 2018-06-29 | 福州大学 | 基于卷积神经网络与随机森林分类的声音场景识别方法 |
US20190066675A1 (en) * | 2017-08-23 | 2019-02-28 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Artificial intelligence based method and apparatus for classifying voice-recognized text |
KR20190110939A (ko) * | 2018-03-21 | 2019-10-01 | 한국과학기술원 | 합성곱 신경망 기반 환경음 인식 방법 및 시스템 |
US20200035259A1 (en) * | 2018-07-27 | 2020-01-30 | Microsoft Technology Licensing, Llc | Systems, methods, and computer-readable media for improved audio feature discovery using a neural network |
CN111477250A (zh) * | 2020-04-07 | 2020-07-31 | 北京达佳互联信息技术有限公司 | 音频场景识别方法、音频场景识别模型的训练方法和装置 |
CN111477220A (zh) * | 2020-04-15 | 2020-07-31 | 南京邮电大学 | 一种面向家居口语环境的神经网络语音识别方法及系统 |
US10783434B1 (en) * | 2019-10-07 | 2020-09-22 | Audio Analytic Ltd | Method of training a sound event recognition system |
-
2020
- 2020-12-24 CN CN202011545446.4A patent/CN112700792B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105074822A (zh) * | 2013-03-26 | 2015-11-18 | 杜比实验室特许公司 | 用于音频分类和处理的装置和方法 |
US20190066675A1 (en) * | 2017-08-23 | 2019-02-28 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Artificial intelligence based method and apparatus for classifying voice-recognized text |
CN108231067A (zh) * | 2018-01-13 | 2018-06-29 | 福州大学 | 基于卷积神经网络与随机森林分类的声音场景识别方法 |
KR20190110939A (ko) * | 2018-03-21 | 2019-10-01 | 한국과학기술원 | 합성곱 신경망 기반 환경음 인식 방법 및 시스템 |
US20200035259A1 (en) * | 2018-07-27 | 2020-01-30 | Microsoft Technology Licensing, Llc | Systems, methods, and computer-readable media for improved audio feature discovery using a neural network |
US10783434B1 (en) * | 2019-10-07 | 2020-09-22 | Audio Analytic Ltd | Method of training a sound event recognition system |
CN111477250A (zh) * | 2020-04-07 | 2020-07-31 | 北京达佳互联信息技术有限公司 | 音频场景识别方法、音频场景识别模型的训练方法和装置 |
CN111477220A (zh) * | 2020-04-15 | 2020-07-31 | 南京邮电大学 | 一种面向家居口语环境的神经网络语音识别方法及系统 |
Non-Patent Citations (2)
Title |
---|
XIAOQIAN FAN: "Deep neural network based environment sound classification and its implementation on hearing aid app", 《MEASUREMENT》, vol. 159, pages 1 - 7 * |
李琪: "基于深度学习的音频场景识别方法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 1, pages 140 - 228 * |
Also Published As
Publication number | Publication date |
---|---|
CN112700792B (zh) | 2024-02-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bai et al. | Speaker recognition based on deep learning: An overview | |
Jahangir et al. | Text-independent speaker identification through feature fusion and deep neural network | |
CN110400579B (zh) | 基于方向自注意力机制和双向长短时网络的语音情感识别 | |
US7457749B2 (en) | Noise-robust feature extraction using multi-layer principal component analysis | |
CN103854645B (zh) | 一种基于说话人惩罚的独立于说话人语音情感识别方法 | |
CN107393554A (zh) | 一种声场景分类中融合类间标准差的特征提取方法 | |
CN108986824A (zh) | 一种回放语音检测方法 | |
CN113571067A (zh) | 一种基于边界攻击的声纹识别对抗样本生成方法 | |
CN104538036A (zh) | 一种基于语义细胞混合模型的说话人识别方法 | |
CN112863521B (zh) | 一种基于互信息估计的说话人识别方法 | |
CN111986699B (zh) | 基于全卷积网络的声音事件检测方法 | |
CN111653267A (zh) | 一种基于时延神经网络的快速语种识别方法 | |
CN111932056A (zh) | 客服质量评分方法、装置、计算机设备和存储介质 | |
CN113763965A (zh) | 一种多重注意力特征融合的说话人识别方法 | |
Kamaruddin et al. | Features extraction for speech emotion | |
CN115101077A (zh) | 一种声纹检测模型训练方法及声纹识别方法 | |
Nasrun et al. | Human emotion detection with speech recognition using Mel-frequency cepstral coefficient and support vector machine | |
Stefanidi et al. | Application of convolutional neural networks for multimodal identification task | |
CN116564340A (zh) | 一种基于深度卷积编码器的说话人识别方法 | |
CN112700792A (zh) | 音频场景识别分类方法 | |
Zi et al. | Joint filter combination-based central difference feature extraction and attention-enhanced Dense-Res2Block network for short-utterance speaker recognition | |
CN115064175A (zh) | 一种说话人识别方法 | |
CN115472182A (zh) | 一种基于注意力特征融合的多通道自编码器的语音情感识别方法及装置 | |
CN113628639A (zh) | 一种基于多头注意力机制的语音情感识别方法 | |
Fan et al. | Cat Face Recognition Based on MFCC and GMM |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |