CN110600054B - 基于网络模型融合的声场景分类方法 - Google Patents
基于网络模型融合的声场景分类方法 Download PDFInfo
- Publication number
- CN110600054B CN110600054B CN201910845467.9A CN201910845467A CN110600054B CN 110600054 B CN110600054 B CN 110600054B CN 201910845467 A CN201910845467 A CN 201910845467A CN 110600054 B CN110600054 B CN 110600054B
- Authority
- CN
- China
- Prior art keywords
- model
- channel
- cutting
- layer
- scene classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 230000004927 fusion Effects 0.000 title claims abstract description 27
- 238000000926 separation method Methods 0.000 claims abstract description 31
- 238000001228 spectrum Methods 0.000 claims abstract description 21
- 238000012706 support-vector machine Methods 0.000 claims abstract description 18
- 239000000284 extract Substances 0.000 claims abstract description 5
- 238000007781 pre-processing Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 5
- 238000011176 pooling Methods 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 5
- 238000009432 framing Methods 0.000 claims description 4
- 238000007476 Maximum Likelihood Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000037433 frameshift Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 abstract description 13
- 238000013528 artificial neural network Methods 0.000 abstract description 6
- 230000005236 sound signal Effects 0.000 abstract 1
- 238000004422 calculation algorithm Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 238000007500 overflow downdraw method Methods 0.000 description 4
- 238000003909 pattern recognition Methods 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000000428 dust Substances 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Stereophonic System (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开了一种基于网络模型融合的声场景分类方法,并通过声道分离方式和音频切割等方式构造出多种不同的输入特征,提取音频信号的伽马通滤波器倒谱系数、梅尔频谱特征及其一阶和二阶差分作为输入特征,分别训练对应的多种不同的卷积神经网络模型,最后采用支撑向量机堆叠方法实现最终的融合模型。本发明采用声道分离和音频切割等方式提取出识别性强的音频输入特征,构造了单双两种通道的卷积神经网络,最终生成独特的模型融合结构,能够获得更加丰富与立体的信息,有效提高了不同的声场景分类识别率和鲁棒性,具有良好的应用前景。
Description
技术领域
本发明涉及声场景分类技术领域,特别是涉及一种基于网络模型融合的声场景分类方法。
背景技术
声场景分类技术,就是利用计算手段根据不同声场景所包含的信息来完成对声场景的类别划分。该技术在提升机器的自动化程度,让机器能够自动感知环境特征,对音频内容进行检索和改进多媒体电子产品性能等方面具有十分重要的意义。
传统的声场景分类采用的特征主要包括:时域的过零率和能量等特征或频域和倒谱域的特征,常用的分类方法有:简单的阈值判断方法、高斯混合模型(Gaussian MixtureModel,GMM)方法、基于隐马尔科夫模型(Hiden Markov Model,HMM)方法、基于人工神经网络(Artificial Neural Network,ANN)的方法、基于支持向量机的方法(Support VextorMachine,SVM)和基于规则的方法等。
二十年代初,随着机器学习发展,声音场景分类任务从传统的模式识别任务转变为机器学习任务。模式识别重在建立模型刻画已有的特征,样本被用于估计模型中的参数,模式识别的落脚点是感知。支持向量机和梯度提升树等机器学习算法替代传统的HMM,GMM算法,被更多的应用到声音场景分类任务中来。2005年,Temko与Nadeu等人收集了包含16类声音事件的数据集,并在此基础上训练了SVM多分类模型,与GMM模型相比,将平均正确率提高了31.5%。2015年,Phan与Maaβ等人将传统MFCC等声学特征与随机森林算法(RandomForest,RF)相结合,在低信噪比的情况下,取得一定的效果。
以上研究极大地促进了声场景监测的发展,但仍然存在几个缺陷:
1)采用较传统声音降噪策略来提升前端音频采集质量,适用环境有限;
2)模式识别算法的识别能力随环境变化影响较大,鲁棒性较差;
3)传统的分类器的分类能力较弱,没有学习能力。
此外,现有技术中采用的一种基于视频的事件检测方法,因光线不足环境昏暗,空气漂浮粉尘过多等不良因素导致回传视画面模糊,容易造成误判和漏判、以及声场景分类,识别率较低且鲁棒性较差的问题。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明提供了一种基于网络模型融合的声场景分类方法,采用声道分离和音频切割等方式提取出识别性强的音频输入特征,构造了单双两种通道的卷积神经网络,最终生成独特的模型融合结构,能够获得更加丰富与立体的信息,有效提高了不同的声场景分类识别率和鲁棒性,具有良好的应用前景。
技术方案:为实现上述目的,本发明采用如下技术方案:
一种基于网络模型融合的声场景分类方法,其特征在于,包括以下步骤:
步骤A、对采集到的声场景数据进行预处理,获得音频数据样本;
步骤B、对步骤A中的预处理后的音频数据样本,采用声道分离方式和音频切割方式分成N组音频数据,并对各组数据提取对应的伽马通滤波器倒谱系数和梅尔频谱特征,并计算梅尔频谱特征一阶及二阶差分特征,构造成N组不同的输入特征;
步骤C、针对步骤B中N组不同的输入特征,设计N种不同结构的CNN模型作为弱分类器并训练各模型;
步骤D、采用支撑向量机为强分类器,将步骤C中的N种模型的输出结果堆叠作为支撑向量机的输入特征,训练融合后的新模型,新模型的分类结果作为声场景分类的最终结果。
优选地,所述步骤C中采用六种CNN模型,分别记为模型1、模型2、模型3、模型4、模型5和模型6,模型1、模型2和模型3均为单通道CNN模型,模型4、模型5和模型6均为双通道CNN网络模型。
优选地,所述模型1、模型2、模型3、模型4、模型5和模型6中的每个通道均包括卷积层、批量化归一层、全连接层和输出层;将所述模型4、模型5和模型6三个模型自身具备的两个通道的卷积层输出的特征图一维化处理,然后拼接在一起输入自身的全连接层;模型1与模型4、模型2与模型5、模型3与模型6对应,相对应的两个模型的每个通道的卷积层、全连接层的结构一致。
优选地,所述卷积层包含三段卷积块,每段卷积块之后紧接着最大池化层,每段卷积块包含两层卷积层,每层卷积层后连接ReLU激活函数,全连接层共两层,输出层为Softmax层,输出每个类别的预测概率,各模型的代价函数采用交叉熵损失函数。
优选地,所述步骤B中,声道分离方式包括不分离方法、谐波源和冲击源分离方法,不分离方法采用原始音频数据提取伽马通滤波器倒谱系数、梅尔频谱及其一阶二阶差分特征作为输入特征;谐波源和冲击源分离方法将语音信号分离为谐波分量与冲击源分量,然后再分别提取伽马通滤波器倒谱系数、梅尔频谱及其一阶二阶差分特征作为输入特征。
优选地,所述谐波源和冲击源分离方法是通过使最大后验估计准则估计的目标函数J(H,P)达到最大值,将语音信号分离为谐波分量H与冲击源分量P,
J(H,P)=log p(W|H,P)+log p(H)+log p(P)+C (1)
其中,W代表信号的短时能量谱;等式右边的四项分别为最大似然值,H的先验值、P的先验值和一常量。
优选地,所述步骤B中,音频切割方法包括非切割、重叠切割和非重叠切割,所采用音频数据时长为3秒;不切割方法使用原始音频提取伽马通滤波器倒谱系数、梅尔谱及其差分特征;不重叠切割将音频按1秒划分为四个片段,分别提取特征后堆叠获得四通道特征作为输入特征;重叠切割将语音按照2秒划分,重叠部分为1秒,分别提取特征后堆叠获得双通道特征作为输入特征。
优选地,所述步骤C中,以不分离方法获得、然后以非切割、重叠切割、非重叠切割方法提取的三组特征分别作为模型1、模型2和模型3的输入特征;以谐波源和冲击源分离方法获得、然后以非切割、重叠切割、非重叠切割方法提取的三组双通道特征分别作为模型4、模型5和模型6的输入特征。
优选地,所述步骤A中,预处理包括对音频数据进行分帧和计算FFT,帧长为50ms,帧移20ms,FFT点数为2048。
所述步骤A中,预处理包括对音频数据进行分帧和计算FFT,帧长为50ms,帧移20ms,FFT点数为2048。
优选地,所述步骤B中,梅尔频谱特征采用具有若干个子带滤波器的梅尔滤波器组计算获得,伽马通滤波器倒谱系数采用具有若干个伽马通滤波器组计算获得。
有益效果:本发明具有以下优点:
(1)、采用声道分离和音频切割等方式提取出识别性强的音频输入特征,构造了单双两种通道的卷积神经网络,最终生成独特的模型融合结构,能够获得更加丰富与立体的信息,有效提高了不同的声场景分类识别率和鲁棒性;
(2)、双通道卷积神经网络使用不同的卷积通道处理双通道特征,保留了每个通道特征的特点,在全连接层拼接后统一处理,使两个通道间的联系与区别被更好的发掘,获得了更加丰富与立体的信息,因此在实际应用中,能够有效地区分出不同的声场景;
(3)、本发明的基于网络模型融合的声场景分类方法,能够克服现有技术中采用的基于视频的事件检测方法,容易造成误判和漏判、以及声场景分类,识别率较低且鲁棒性较差的问题。
附图说明
图1为本发明的基于网络模型融合的声场景分类方法的模型结构示意图;
图2是本发明模型1的网络结构图;
图3是本发明模型2的网络结构图;
图4是本发明模型3的网络结构图;
图5是本发明模型4的网络结构图;
图6是本发明模型5的网络结构图;
图7是本发明模型6的网络结构图。
具体实施方式
下面结合附图对本发明作更进一步的说明。
如图1至7所示,以6种模型为例,介绍本发明的基于网络模型融合的声场景分类方法。包括以下步骤,
步骤(1)、首先对样本进行分帧,帧长为50ms,帧移20ms;其次对每帧数据计算FFT,FFT点数为2048;再次,利用80个伽马通滤波器组计算得到伽马通滤波器倒谱系数;利用具有80个子带滤波器的梅尔滤波器组计算得到对数梅尔频谱图;最后,计算梅尔频谱一阶及二阶差分,最终得到多通道输入特征。
步骤(2)、通过声道分离方式和音频切割方式的不同构造六种不同的输入特征;通过将两种声道分离方式和三种音频切割方式组合构造六种不同的输入特征。
音频声道分离方法包括不分离和谐波源-冲击源分离。不分离方法采用原始音频数据提取伽马通滤波器倒谱系数、梅尔频谱及其一阶二阶差分特征作为输入特征。谐波源-冲击源分离方法通过使最大后验估计准则估计的目标函数J(H,P)达到最大值将语音信号分离为谐波分量H与打击源分量P,然后再分别提取伽马通滤波器倒谱系数、梅尔频谱及其一阶二阶差分特征作为输入特征。
J(H,P)=log p(W|H,P)+log p(H)+log p(P)+C (1)
其中,W代表信号的短时能量谱;该式右边第一部分是最大似然,第二部分和第三部分是H和P的先验,第四部分C是一个不包含在H和P中的常量。
音频切割方法包括非切割,重叠切割和非重叠切割。数据集中音频数据时长3s。不切割方法使用原始音频提取伽马通滤波器倒谱系数、梅尔谱及其差分特征;不重叠切割将音频按1s划分为4个片段,分别提取特征后堆叠获得4通道特征作为输入特征;重叠切割将语音按照2s划分,重叠部分为1s,分别提取特征后堆叠获得2通道特征作为输入特征。
步骤(3)、针对六种不同的特征输入,设计了六种不同的CNN模型作为弱分类器,并训练六种模型。具体结构如下:
本发明中的模型1的结构如图2所示:鉴于不切割音频所提取的特征尺寸较大,在底层卷积层采用较大的卷积核。卷积层包含三段卷积块,每段卷积块之后紧接着最大池化层。每段卷积块包含两层卷积层,每层卷积层后连接ReLU激活函数,卷积块的最后添加批量化归一层。全连接层共两层,输出层为Softmax层,输出每个类别的预测概率。模型的代价函数为交叉熵损失函数。
本发明中的模型2的结构如图3所示:鉴于不重叠切割音频所提取的特征尺寸较小,在底层卷积层采用较小的卷积核。卷积层包含三段卷积块,每段卷积块之后紧接着最大池化层。每段卷积块包含两层卷积层,每层卷积层后连接ReLU激活函数,卷积块的最后添加批量化归一层。全连接层共两层,输出层为Softmax层,输出每个类别的预测概率。模型的代价函数为交叉熵损失函数。
本发明中的模型3的结构如图4所示。鉴于重叠切割音频所提取的特征尺寸较小,在底层卷积层采用较小的卷积核。但整体音频特征规模较大,因此比模型2的结构多一个卷积块。卷积层包含四段卷积块,每段卷积块之后紧接着最大池化层。每段卷积块包含两层卷积层,每层卷积层后连接ReLU激活函数,卷积块的最后添加批量化归一层。全连接层共两层,输出层为Softmax层,输出每个类别的预测概率。模型的代价函数为交叉熵损失函数。
本发明中的模型4的结构如图5所示。网络为双通道CNN网络。每个通道的卷积层部分与模型1的卷积层部分保持一致,并将两个通道的卷积层输出的特征图一维化后拼接在一起输入全连接层。全连接层部分与模型1的全连接层部分保持一致。
本发明中的模型5的结构如图6所示。网络为双通道CNN网络。每个通道的卷积层部分与模型2的卷积层部分保持一致,并将两个通道的卷积层输出的特征图一维化后拼接在一起输入全连接层。全连接层部分与模型2的全连接层部分保持一致。
本发明中的模型6的结构如图7所示。网络为双通道CNN网络。每个通道的卷积层部分与模型3的卷积层部分保持一致,并将两个通道的卷积层输出的特征图一维化后拼接在一起输入全连接层。全连接层部分与模型3的全连接层部分保持一致。
设计的双通道CNN模型处理由谐波源-冲击源分离方法提取的双通道输入特征。该模型在全连接层之前,使用单独的卷积层处理不同通道的特征。将两个通道的卷积层输出的特征图一维化后拼接在一起输入全连接层。双通道CNN模型使用不同的卷积通道处理双通道特征,保留了每个通道特征的特点,在全连接层拼接后统一处理,使两个通道间的联系与区别被更好的发掘,获得了更加丰富与立体的信息,有利于提高声场景分类系统的识别率。
步骤(4)、对于由六种不同输入特征得到的六种不同模型,采用以支撑向量机为强分类器的堆叠方法实现融合模型。以支撑向量机为强分类器的堆叠方法,将6个模型的输出结果堆叠作为支撑向量机的输入特征训练新模型,以支撑向量机的分类结果作为最终结果。
如表1所示,根据本发明的基于网络模型融合的声场景分类方法,实验对比了5类算法:高斯混合模型(GMM)算法、K最近邻(KNN)算法、支撑向量机算法、深度神经网络(DNN)算法和本发明提出的模型融合算法。支撑向量机算法采用径向基核函数。其中,支撑向量机模型采用高斯核作为核函数,惩罚系数为1.5;KNN模型的邻居数k=15;DNN模型有四个完全连接的层,每层中的神经元数量为[988,1024,512,5]。识别的场景包括机场、室内购物中心、地铁站、步行街、公共广场、中等交通水平的街道、公共汽车、城市公园八个场景。实验结果如表1所示,本发明的基于网络模型融合的声场景分类方法的平均准确率可达到95.1%。该方法效果最好是机场场景,可以达到99%。
表1
模型 | GMM | SVM | KNN | DNN | 模型融合法 |
平均识别率 | 0.842 | 0.879 | 0.808 | 0.882 | 0.962 |
此外,为了验证算法的鲁棒性,实验对比了添加白噪声情况下的场景识别情况。以添加10dB的白噪声为例,实验对比了结合基于维纳滤波的声音降噪算法的识别算法和提出的模型融合法,结果如表2所示。相比于结合声音降噪算法的识别算法来说,模型融合法的平均识别率下降最少,表明提出的算法比采用较传统声音降噪策略来提升前端音频采集质量的方法更有效,对环境的适应性更强。
表2
模型 | GMM | SVM | KNN | DNN | 模型融合法 |
平均识别率 | 0.682 | 0.779 | 0.758 | 0.802 | 0.901 |
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种基于网络模型融合的声场景分类方法,其特征在于,包括以下步骤:
步骤A、对采集到的声场景数据进行预处理,获得音频数据样本;
步骤B、对步骤A中的预处理后的音频数据样本,采用声道分离方式和音频切割方式分成N组音频数据,并对各组数据提取对应的伽马通滤波器倒谱系数和梅尔频谱特征,并计算梅尔频谱特征一阶及二阶差分特征,构造成N组不同的输入特征;
步骤C、针对步骤B中N组不同的输入特征,设计N种不同结构的CNN模型作为弱分类器并训练各模型;
其中,CNN模型包括单通道CNN模型与双通道CNN模型,CNN模型的每个通道均包括卷积层、批量化归一层、全连接层和输出层;双通道CNN模型的两个通道的卷积层输出的特征图一维化处理,然后拼接在一起输入自身的全连接层;单通道CNN模型与双通道CNN模型一一对应,相对应的两个CNN模型的每个通道的卷积层、全连接层的结构一致;
步骤D、采用支撑向量机为强分类器,将步骤C中的N种模型的输出结果堆叠作为支撑向量机的输入特征,训练融合后的新模型,新模型的分类结果作为声场景分类的最终结果。
2.根据权利要求1所述的基于网络模型融合的声场景分类方法,其特征在于:所述步骤C中采用六种CNN模型,分别记为模型1、模型2、模型3、模型4、模型5和模型6,模型1、模型2和模型3均为单通道CNN模型,模型4、模型5和模型6均为双通道CNN网络模型。
3.根据权利要求2所述的基于网络模型融合的声场景分类方法,其特征在于:所述模型1、模型2、模型3、模型4、模型5和模型6中的每个通道均包括卷积层、批量化归一层、全连接层和输出层;将所述模型4、模型5和模型6三个模型自身具备的两个通道的卷积层输出的特征图一维化处理,然后拼接在一起输入自身的全连接层;模型1与模型4、模型2与模型5、模型3与模型6对应,相对应的两个模型的每个通道的卷积层、全连接层的结构一致。
4.根据权利要求3所述的基于网络模型融合的声场景分类方法,其特征在于:所述卷积层包含三段卷积块,每段卷积块之后紧接着最大池化层,每段卷积块包含两层卷积层,每层卷积层后连接ReLU激活函数,全连接层共两层,输出层为Softmax层,输出每个类别的预测概率,各模型的代价函数采用交叉熵损失函数。
5.根据权利要求1所述的基于网络模型融合的声场景分类方法,其特征在于:所述步骤B中,声道分离方式包括不分离方法、谐波源和冲击源分离方法,不分离方法采用原始音频数据伽马通滤波器倒谱系数、提取梅尔频谱及其一阶二阶差分特征作为输入特征;谐波源和冲击源分离方法将语音信号分离为谐波分量与冲击源分量,然后再分别提取伽马通滤波器倒谱系数、梅尔频谱及其一阶二阶差分特征作为输入特征。
6.根据权利要求5所述的基于网络模型融合的声场景分类方法,其特征在于:所述谐波源和冲击源分离方法是通过使最大后验估计准则估计的目标函数J(H,P)达到最大值,将语音信号分离为谐波分量H与冲击源分量P,
J(H,P)=logp(W|H,P)+logp(H)+logp(P)+C (1)
其中,W代表信号的短时能量谱;等式右边的四项分别为最大似然值,H的先验值、P的先验值和一常量。
7.根据权利要求1所述的基于网络模型融合的声场景分类方法,其特征在于:所述步骤B中,音频切割方法包括非切割、重叠切割和非重叠切割,所采用音频数据时长为3秒;不切割方法使用原始音频提取伽马通滤波器倒谱系数、梅尔谱及其差分特征;不重叠切割将音频按1秒划分为四个片段,分别提取特征后堆叠获得四通道特征作为输入特征;重叠切割将语音按照2秒划分,重叠部分为1秒,分别提取特征后堆叠获得双通道特征作为输入特征。
8.根据权利要求2所述的基于网络模型融合的声场景分类方法,其特征在于:声道分离方式包括不分离方法、谐波源和冲击源分离方法,音频切割方法包括非切割、重叠切割和非重叠切割,所述步骤C中,以不分离方法获得、然后以非切割、重叠切割、非重叠切割方法提取的三组特征分别作为模型1、模型2和模型3的输入特征;以谐波源和冲击源分离方法获得、然后以非切割、重叠切割、非重叠切割方法提取的三组双通道特征分别作为模型4、模型5和模型6的输入特征。
9.根据权利要求1所述的基于网络模型融合的声场景分类方法,其特征在于:所述步骤A中,预处理包括对音频数据进行分帧和计算FFT,帧长为50ms,帧移20ms,FFT点数为2048。
10.根据权利要求1所述的基于网络模型融合的声场景分类方法,其特征在于:所述步骤B中,梅尔频谱特征采用具有若干个子带滤波器的梅尔滤波器组计算获得,伽马通滤波器倒谱系数采用具有若干个伽马通滤波器组计算获得。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910845467.9A CN110600054B (zh) | 2019-09-06 | 2019-09-06 | 基于网络模型融合的声场景分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910845467.9A CN110600054B (zh) | 2019-09-06 | 2019-09-06 | 基于网络模型融合的声场景分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110600054A CN110600054A (zh) | 2019-12-20 |
CN110600054B true CN110600054B (zh) | 2021-09-21 |
Family
ID=68858378
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910845467.9A Active CN110600054B (zh) | 2019-09-06 | 2019-09-06 | 基于网络模型融合的声场景分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110600054B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3855432A1 (en) * | 2020-01-22 | 2021-07-28 | Infineon Technologies AG | Classification system and method for classifying an external impact on a window or on an access opening of an enclosed structure |
CN111754988B (zh) * | 2020-06-23 | 2022-08-16 | 南京工程学院 | 基于注意力机制和双路径深度残差网络的声场景分类方法 |
CN112750462B (zh) * | 2020-08-07 | 2024-06-21 | 腾讯科技(深圳)有限公司 | 一种音频处理方法、装置及设备 |
CN112466333A (zh) * | 2020-11-24 | 2021-03-09 | 深圳信息职业技术学院 | 一种声学场景分类方法与系统 |
CN112767967A (zh) * | 2020-12-30 | 2021-05-07 | 深延科技(北京)有限公司 | 语音分类方法、装置及自动语音分类方法 |
CN113160844A (zh) * | 2021-04-27 | 2021-07-23 | 山东省计算中心(国家超级计算济南中心) | 基于噪声背景分类的语音增强方法及系统 |
CN113808604B (zh) * | 2021-09-16 | 2023-11-14 | 江南大学 | 基于伽马通频谱分离的声场景分类方法 |
CN115713945A (zh) * | 2022-11-10 | 2023-02-24 | 杭州爱华仪器有限公司 | 一种音频数据处理方法和预测方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106653032A (zh) * | 2016-11-23 | 2017-05-10 | 福州大学 | 低信噪比环境下基于多频带能量分布的动物声音检测方法 |
CN108231067A (zh) * | 2018-01-13 | 2018-06-29 | 福州大学 | 基于卷积神经网络与随机森林分类的声音场景识别方法 |
CN108305616A (zh) * | 2018-01-16 | 2018-07-20 | 国家计算机网络与信息安全管理中心 | 一种基于长短时特征提取的音频场景识别方法及装置 |
CN109658943A (zh) * | 2019-01-23 | 2019-04-19 | 平安科技(深圳)有限公司 | 一种音频噪声的检测方法、装置、存储介质和移动终端 |
CN109767785A (zh) * | 2019-03-06 | 2019-05-17 | 河北工业大学 | 基于卷积神经网络的环境噪声识别分类方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170061978A1 (en) * | 2014-11-07 | 2017-03-02 | Shannon Campbell | Real-time method for implementing deep neural network based speech separation |
-
2019
- 2019-09-06 CN CN201910845467.9A patent/CN110600054B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106653032A (zh) * | 2016-11-23 | 2017-05-10 | 福州大学 | 低信噪比环境下基于多频带能量分布的动物声音检测方法 |
CN108231067A (zh) * | 2018-01-13 | 2018-06-29 | 福州大学 | 基于卷积神经网络与随机森林分类的声音场景识别方法 |
CN108305616A (zh) * | 2018-01-16 | 2018-07-20 | 国家计算机网络与信息安全管理中心 | 一种基于长短时特征提取的音频场景识别方法及装置 |
CN109658943A (zh) * | 2019-01-23 | 2019-04-19 | 平安科技(深圳)有限公司 | 一种音频噪声的检测方法、装置、存储介质和移动终端 |
CN109767785A (zh) * | 2019-03-06 | 2019-05-17 | 河北工业大学 | 基于卷积神经网络的环境噪声识别分类方法 |
Non-Patent Citations (1)
Title |
---|
A Layer-wise Score Level Ensemble Framework for Acoustic Scene Classification;Arshdeep Singh et al.;《2018 26th European Signal Processing Conference (EUSIPCO)》;20181203;第837-840页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110600054A (zh) | 2019-12-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110600054B (zh) | 基于网络模型融合的声场景分类方法 | |
CN110827837B (zh) | 一种基于深度学习的鲸鱼活动音频分类方法 | |
Chang et al. | Robust CNN-based speech recognition with Gabor filter kernels. | |
George et al. | Vehicle detection and classification from acoustic signal using ANN and KNN | |
CN103646649B (zh) | 一种高效的语音检测方法 | |
CN111754988B (zh) | 基于注意力机制和双路径深度残差网络的声场景分类方法 | |
CN106952644A (zh) | 一种基于瓶颈特征的复杂音频分割聚类方法 | |
CN104916289A (zh) | 行车噪声环境下快速声学事件的检测方法 | |
Socoró et al. | Development of an Anomalous Noise Event Detection Algorithm for dynamic road traffic noise mapping | |
Valero et al. | Hierarchical classification of environmental noise sources considering the acoustic signature of vehicle pass-bys | |
CN111341319A (zh) | 一种基于局部纹理特征的音频场景识别方法及系统 | |
CN108877812B (zh) | 一种声纹识别方法、装置及存储介质 | |
CN110544482A (zh) | 一种单通道语音分离系统 | |
Ceolini et al. | Event-driven pipeline for low-latency low-compute keyword spotting and speaker verification system | |
CN108806725A (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
Alzahra et al. | Bird sounds classification by combining PNCC and robust Mel-log filter bank features | |
Rouvier et al. | Studying squeeze-and-excitation used in CNN for speaker verification | |
CN112466333A (zh) | 一种声学场景分类方法与系统 | |
CN110580915B (zh) | 基于可穿戴式设备的声源目标识别系统 | |
Rakowski et al. | Frequency-aware CNN for open set acoustic scene classification | |
Bai et al. | CIAIC-BAD system for DCASE2018 challenge task 3 | |
CN115273908A (zh) | 一种基于分类器融合的生猪咳嗽声音识别方法 | |
CN115331678A (zh) | 利用Mel频率倒谱系数的广义回归神经网络声信号识别方法 | |
Ashhad et al. | Improved vehicle sub-type classification for acoustic traffic monitoring | |
CN113936667A (zh) | 一种鸟鸣声识别模型训练方法、识别方法及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20220914 Address after: 210000 floor 5, block a, Chuangzhi building, No. 17 Xinghuo Road, Jiangbei new area, Nanjing, Jiangsu Patentee after: Nanjing Tianyue Electronic Technology Co.,Ltd. Address before: 1 No. 211167 Jiangsu city of Nanjing province Jiangning Science Park Hongjing Road Patentee before: NANJING INSTITUTE OF TECHNOLOGY |