CN115631771A - 基于组合卷积神经网络的声音事件检测与定位方法 - Google Patents
基于组合卷积神经网络的声音事件检测与定位方法 Download PDFInfo
- Publication number
- CN115631771A CN115631771A CN202211268616.8A CN202211268616A CN115631771A CN 115631771 A CN115631771 A CN 115631771A CN 202211268616 A CN202211268616 A CN 202211268616A CN 115631771 A CN115631771 A CN 115631771A
- Authority
- CN
- China
- Prior art keywords
- layer
- neural network
- convolution
- convolutional neural
- function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 77
- 238000000034 method Methods 0.000 title claims abstract description 62
- 238000001514 detection method Methods 0.000 title claims abstract description 28
- 238000013528 artificial neural network Methods 0.000 claims abstract description 43
- 238000012549 training Methods 0.000 claims abstract description 19
- 238000010276 construction Methods 0.000 claims abstract description 18
- 238000012360 testing method Methods 0.000 claims abstract description 13
- 238000000605 extraction Methods 0.000 claims abstract description 6
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 230000006870 function Effects 0.000 claims description 116
- 230000004913 activation Effects 0.000 claims description 39
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 30
- 238000011156 evaluation Methods 0.000 claims description 28
- 238000011176 pooling Methods 0.000 claims description 21
- 230000009466 transformation Effects 0.000 claims description 17
- 238000010606 normalization Methods 0.000 claims description 15
- 238000001228 spectrum Methods 0.000 claims description 11
- 239000011800 void material Substances 0.000 claims description 11
- 230000004927 fusion Effects 0.000 claims description 9
- 230000004807 localization Effects 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 9
- 230000001364 causal effect Effects 0.000 claims description 8
- 238000012937 correction Methods 0.000 claims description 7
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 5
- 206010011224 Cough Diseases 0.000 claims description 3
- 230000003213 activating effect Effects 0.000 claims description 3
- 239000002131 composite material Substances 0.000 claims description 3
- 238000012886 linear function Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 6
- 102100032202 Cornulin Human genes 0.000 description 3
- 101000920981 Homo sapiens Cornulin Proteins 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 230000000052 comparative effect Effects 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008909 emotion recognition Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Hospice & Palliative Care (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Child & Adolescent Psychology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Complex Calculations (AREA)
Abstract
一种基于组合卷积神经网络的声音事件检测与定位方法,由数据集预处理、提取特征、构建组合卷积神经网络、训练组合卷积神经网络、测试组合卷积神经网络、检测和定位声音事件步骤组成。本发明采用了双分支卷积神经网络与线性密集连接混合神经网络,条件参数化卷积神经网络根据输入信号动态计算卷积核,将卷积核参数化为n个卷积核的线性组合,提升了网络的学习能力和计算效率;采用了线性密集连接混合神经网络,关注声音中重要的信息而忽略不相关的声音信息,增加了网络的感受野,提升了声音事件检测与定位的准确率。本发明具有识别准确率高、网络稳定、提取特征信息完整等优点,可用于声音事件检测与定位。
Description
技术领域
本发明属于语音信号处理及人工智能技术领域,具体地涉及到对声音信号的检测和定位。
背景技术
声音事件检测与定位是识别每个声音事件的时间活动,估计它们各自的空间位置轨迹,进一步与各自的声音事件标签相关联,是声音事件检测和到达方向估计的组合任务,声音事件检测与定位在机器人、智能城市、智能家庭和工业、智能会议、生物多样性监测等多个技术领域有广泛的应用,具有十分广阔的应用前景和重要的研究价值。
早期的声音事件检测与定位是分别处理检测和定位这两个问题,而没有将源位置和声音事件联系起来。检测通常使用高斯混合模型、隐马尔可夫模型或支持向量机等方法。而定位通常使用基于高分辨率谱估计的方法、基于时延估计的方法和基于可控波束形成的方法。
随着深度学习技术的快速发展,越来越多基于深度神经网络模型方法使声音事件检测与定位的性能得到了很大提升。深度神经网络用于声音事件检测取得了较好的效果,显示了声音事件检测与定位联合建模的能力。现在大部分的结构都采用卷积神经网络和循环神经网络结合的方法,但是使用卷积循环神经网络提取的特征信息比较单一且通常忽略重要的声音特征信息,无法进一步提高声音事件检测与定位的准确率。
发明内容
本发明所要解决的技术问题在于克服上述现有技术的缺点,提供一种语音情感识别准确、识别率高、网络稳定性好的基于组合卷积神经网络的声音事件检测与定位方法。
解决上述技术问题所采用的技术方案步骤如下:
(1)数据集预处理
从TAU空间声音事件数据集中提取语音信号,包含11种声音事件类别,清嗓、咳嗽声、摁门铃、推门声、抽屉声、键盘声、敲门声、说话声、笑声、翻书声、电话铃声,将TAU空间声音事件数据集按照4:1的比例分成训练集、测试集。
(2)提取特征
将语音信号按下式提取梅尔频谱图特征m:
其中,f表示实际频率,按下式确定广义互相关-相位变换特征Ry1y2(τ):
(3)构建组合卷积神经网络
组合卷积神经网络由双分支卷积神经网络与线性密集连接混合神经网络、全连接层依次串联构成。
所述的双分支卷积神经网络由第一分支卷积神经网络、第二分支卷积神经网络、特征融合网络构成,第一分支卷积神经网络与第二分支卷积神经网络并联后的输出端与特征融合网络的输入端相连。
所述的线性密集连接混合神经网络由因果卷积层与第一空洞残差块、第二空洞残差块、Transformer网络、第三空洞残差块、深度可分离卷积层依次串联构成。
(4)训练组合卷积神经网络
1)确定目标函数
目标函数包括二进制交叉熵损失函数L、均方误差损失函数MSE、评价函数F1、评价函数ER、评价函数DOAerror、评价函数Framerecall,按下式确定二进制交叉熵损失函数L:
其中,n是样本的数量,n为有限的正整数,yi是第i个样本的实际值,yi′是第i个样本的预测值。
按下式确定准确率和召回率两者综合指标的评价函数F1:
其中,P是准确率,R是召回率,TP是真正例,FP是假正例,FN是假负例。
按下式确定错误发生数目的评价函数ER:
S(k)=min(FN(k),FP(k))
D(k)=max(0,FN(k)-FP(k))
I(k)=max(0,FP(k)-FN(k))
其中,FN(k)表示系统输出中第k段中的假负例事件,FP(k)表示系统输出中第k段中的假正例事件。
按下式确定评价函数DOAerror:
按下式确定评价函数Framerecall:
2)训练组合卷积神经网络
将提取的梅尔频谱图特征m和广义互相关-相位变换特征Ry1y2(τ)送入双分支卷积神经网络中,进行深度语音特征提取,将双分支卷积神经网络输出的深度语音特征,输入线性密集连接混合神经网络中对语音的时间依赖性进行建模,在训练过程中,组合卷积神经网络的学习率r∈[10-5,10-3],优化器采用Adam优化器,迭代至损失函数L和MSE收敛。
(5)测试组合卷积神经网络
将测试集输入到训练好的组合卷积神经网络中进行测试。
(6)检测和定位声音事件
使用全连接层中的Sigmoid激活函数进行激活,Sigmoid激活函数的取值范围为0~1之间,Sigmoid激活函数的值大于0.5时,检测声音事件存在,则对其进行到达方向的估计;声音事件位置距离为1m时,参考方位角为[-180°,180°]、参考仰角为[-40°,40°],声音事件位置距离为2m时,参考方位角为[-180°,180°]、参考仰角为[-20°,20°],以每间隔10°为一个划分。
取标签中所有的参考方位角为数组M,按下式确定估计方位角γ:
取标签中所有的参考仰角为数组N,按下式确定估计仰角β:
将估计方位角γ和估计仰角β与参考方位角和参考仰角通过评价函数DOAerror计算得到两者之间的平均角度误差。
在本发明的(3)步骤中,所述的第一分支卷积神经网络由第一条件参数化卷积层与第一批量归一化层、第一修正线性单元层依次串联构成。
第一分支卷积神经网络的构建方法为:
Output1(x)=ReLU(BN(CPConv1(x)))
其中,CPConv1是第一条件参数化卷积,BN是批量归一化,ReLU是修正线性单元,x是提取的梅尔频谱图特征和广义互相关-相位变换特征。
第二分支卷积神经网络由第二条件参数化卷积层与第二批量归一化层、第二修正线性单元层依次串联构成。
第二分支卷积神经网络的构建方法为:
Output2(x)=ReLU(BN(CPConv2(x)))
其中,CPConv2是第二条件参数化卷积,BN是批量归一化,ReLU是修正线性单元,x是提取的梅尔频谱图特征和广义互相关-相位变换特征。
所述的特征融合网络由卷积层与全局平均池化层、全连接层、softmax函数层依次串联构成,卷积层的卷积核大小为1×1、步长为1。
本发明的第一条件参数化卷积层由平均池化层与第一全连接层、反卷积层、sigmoid激活函数层依次串联构成。
第一条件参数化卷积层的构建方法为:
CPConv1(x)=(α1W1+...+αnWn)*x
其中,α为路由函数λ计算得到的权重,W是初始化权重,n为有限的正整数,*为卷积操作。
路由函数λ由平均池化层与第一全连接层、反卷积层、Sigmoid激活函数层依次串联构成。
路由函数λ的构建方法为:
λ=Sigmoid(Tconv(FC(AvgPool(x))))
其中AvgPool是平均池化、FC是全连接,Tconv是反卷积,Sigmoid是激活函数。
本发明的第二条件参数化卷积层由局部重要性池化层与第二全连接层、双线性插值层、修正线性单元层依次串联构成。
第二条件参数化卷积层的构建方法为:
CPConv2(x)=(α1′W1+...+αn′Wn)*x
其中,α′为路由函数ξ计算得到的权重,W是初始化权重,n为有限的正整数;
路由函数ξ由局部重要性池化层与第二全连接层、双线性插值层、修正线性单元层依次串联构成,路由函数ξ的构建方法为:
ξ=ReLU(BI(FC(LIPool(x))))
其中,LIPool是局部重要性池化,FC是全连接,BI是双线性插值操作,ReLU是修正线性单元。
在本发明的(3)步骤中,所述的线性密集连接混合神经网络由因果卷积层与第一空洞残差块、第二空洞残差块、Transformer网络、第三空洞残差块、深度可分离卷积层依次串联构成。
线性密集连接混合神经网络的构建方法为:
Zl=Hl([Z0,Z1,...,Zl-1])
其中,[Z0,Z1,...,Zl-1]是指第0层到第l层生成的特征图的串联,l的取值范围为1-5。Hl是一个复合操作,包括批量归一化、修正线性单元、卷积操作。
在本发明的(3)步骤中,所述的因果卷积层的卷积核大小为1×1、步长为1;所述的第一空洞残差块由空洞卷积层、sigmoid激活函数层、tanh激活函数层、第一线性层、第二线性层、卷积层构成,空洞卷积层的输出端与并联的sigmoid激活函数层、tanh激活函数层的输入端相连,sigmoid激活函数层的输出端与第一线性层的输入端相连,tanh激活函数层的输出端与第二线性层的输入端相连,第一线性层的输出端和第二线性层的输出端与卷积层的输入端相连;所述的第二空洞残差块和第三空洞残差块的结构与第一空洞残差块的结构相同。
各空洞残差块的输出方法为:
Y=(Vg,i(sigmoid(Wg,i*ui+b))+b′)⊙(Vf,i(tanh(Wf,i*ui+c))+c′)
其中,*为卷积操作,⊙为逐元素点积,W和V是可学习的权重,b、b′、c、c′是偏差,i是层的索引,i的取值为1,2,3,f和g是滤波器和门,tanh和sigmoid是激活函数,ui为空洞卷积层的输入。
本发明的空洞卷积层的卷积核大小为3×3、步长为1、空洞率为2,卷积层的卷积核大小为1×1、步长为1。
在本发明的(3)步骤中,所述的深度可分离卷积层的卷积核大小为3×3、步长为1。
本发明采用双分支条件参数化卷积神经网络与含有线性层的密集连接混合神经网络,通过双分支条件参数化卷积神经网络将卷积核参数化为n个卷积核的线性组合,增强了网络的学习能力,使网络可以提取更丰富的声音特征信息,其次含有线性层的密集连接混合神经网络可以使网络关注声音中重要的信息而忽略不相关的声音信息,解决了卷积神经网络提取的特征信息比较单一以及忽略重要的声音特征信息问题。
附图说明
图1是本发明实施1的流程图。
图2是组合卷积神经网络的结构示意图。
图3是图2中双分支卷积神经网络的结构示意图。
图4是图3中第一条件参数化卷积层的结构示意图。
图5是图3中第二条件参数化卷积层的结构示意图。
图6是图2中线性密集连接混合神经网络的结构示意图。
图7是图6中第一空洞残差块的结构示意图。
具体实施方式
下面结合附图和实施例对本发明进一步说明,但本发明不限于下述的实施方式。
实施例1
在图1中,本实施例的基于组合卷积神经网络的声音事件检测与定位方法由下述步骤组成。
(1)数据集预处理
从TAU空间声音事件数据集中提取语音信号,包含11种声音事件类别,清嗓、咳嗽声、摁门铃、推门声、抽屉声、键盘声、敲门声、说话声、笑声、翻书声、电话铃声,将TAU空间声音事件数据集按照4:1的比例分成训练集、测试集。
(2)提取特征
将语音信号按下式提取梅尔频谱图特征m:
式中,f表示实际频率,按下式确定广义互相关-相位变换特征Ry1y2(τ):
(3)构建组合卷积神经网络
在图2中,本实施例的组合卷积神经网络由双分支卷积神经网络与线性密集连接混合神经网络、全连接层依次串联构成。
在图3中,本实施例的双分支卷积神经网络由第一分支卷积神经网络、第二分支卷积神经网络、特征融合网络构成,第一分支卷积神经网络与第二分支卷积神经网络并联后的输出端与特征融合网络的输入端相连。
本实施例的第一分支卷积神经网络由第一条件参数化卷积层与第一批量归一化层、第一修正线性单元层依次串联构成,第二分支卷积神经网络由第二条件参数化卷积层与第二批量归一化层、第二修正线性单元层依次串联构成。
本实施例的第一分支卷积神经网络的构建方法为:
Output1(x)=ReLU(BN(CPConv1(x)))
其中,CPConv1是第一条件参数化卷积,BN是批量归一化,ReLU是修正线性单元,x是提取的梅尔频谱图特征和广义互相关-相位变换特征。
本实施例的第二分支卷积神经网络的构建方法为:
Output2(x)=ReLU(BN(CPConv2(x)))
其中,CPConv2是第二条件参数化卷积,BN是批量归一化,ReLU是修正线性单元,x是提取的梅尔频谱图特征和广义互相关-相位变换特征。
本实施例的特征融合网络由卷积层与全局平均池化层、全连接层、softmax函数层依次串联构成,卷积层的卷积核大小为1×1、步长为1。
在图4中,本实施例的第一条件参数化卷积层由平均池化层与第一全连接层、反卷积层、sigmoid激活函数层依次串联构成。
第一条件参数化卷积层的构建方法为:
CPConv1(x)=(α1W1+...+αnWn)*x
其中,α为路由函数λ计算得到的权重,W是初始化权重,n为有限的正整数,*为卷积操作。
路由函数λ由平均池化层与第一全连接层、反卷积层、Sigmoid激活函数层依次串联构成。
路由函数λ的构建方法为:
λ=Sigmoid(Tconv(FC(AvgPool(x))))
其中,AvgPool是平均池化、FC是全连接,Tconv是反卷积,Sigmoid是激活函数。
在图5中,本实施例的第二条件参数化卷积层由局部重要性池化层与第二全连接层、双线性插值层、修正线性单元层依次串联构成。
第二条件参数化卷积层的构建方法为:
CPConv2(x)=(α1′W1+...+αn′Wn)*x
其中,α′为路由函数ξ计算得到的权重,W是初始化权重,n为有限的正整数。
路由函数ξ由局部重要性池化层与第二全连接层、双线性插值层、修正线性单元层依次串联构成,路由函数ξ的构建方法为:
ξ=ReLU(BI(FC(LIPool(x))))
其中,LIPool是局部重要性池化,FC是全连接,BI是双线性插值操作,ReLU是修正线性单元。
在图6、7中,本实施例的线性密集连接混合神经网络由因果卷积层与第一空洞残差块、第二空洞残差块、Transformer网络、第三空洞残差块、深度可分离卷积层依次串联构成。
线性密集连接混合神经网络的构建方法为:
Zl=Hl([Z0,Z1,...,Zl-1])
其中,[Z0,Z1,...,Zl-1]是指第0层到第l层生成的特征图的串联,l的取值范围为1-5。Hl是一个复合操作,包括批量归一化、修正线性单元、卷积操作。
各空洞残差块的输出方法为:
Y=(Vg,i(sigmoid(Wg,i*ui+b))+b′)⊙(Vf,i(tanh(Wf,i*ui+c))+c′)
其中,⊙为逐元素点积,W和V是可学习的权重,b、b′、c、c′是偏差,i是层的索引,i的取值为1,2,3,f和g是滤波器和门,tanh和sigmoid是激活函数,ui为空洞卷积层的输入。
本实施例的因果卷积层的卷积核大小为1×1、步长为1。本实施例的第一空洞残差块由空洞卷积层、sigmoid激活函数层、tanh激活函数层、第一线性层、第二线性层、卷积层构成,空洞卷积层的输出端与并联的sigmoid激活函数层、tanh激活函数层的输入端相连,sigmoid激活函数层的输出端与第一线性层的输入端相连,tanh激活函数层的输出端与第二线性层的输入端相连,第一线性层的输出端和第二线性层的输出端与卷积层的输入端相连。第二空洞残差块和第三空洞残差块的结构与第一空洞残差块的结构相同。空洞卷积层的卷积核大小为3×3、步长为1、空洞率为2,卷积层的卷积核大小为1×1、步长为1。本实施例的深度可分离卷积层的卷积核大小为3×3、步长为1。
(4)训练组合卷积神经网络
1)确定目标函数
目标函数包括二进制交叉熵损失函数L、均方误差损失函数MSE、评价函数F1、评价函数ER、评价函数DOAerror、评价函数Framerecall,按下式确定二进制交叉熵损失函数L:
其中,n是样本的数量,n为有限的正整数,yi是第i个样本的实际值,yi′是第i个样本的预测值。
按下式确定准确率和召回率两者综合指标的评价函数F1:
其中,P是准确率,R是召回率,TP是真正例,FP是假正例,FN是假负例。
按下式确定错误发生数目的评价函数ER:
S(k)=min(FN(k),FP(k))
D(k)=max(0,FN(k)-FP(k))
I(k)=max(0,FP(k)-FN(k))
其中,FN(k)表示系统输出中第k段中的假负例事件,FP(k)表示系统输出中第k段中的假正例事件。
按下式确定评价函数DOAerror:
按下式确定评价函数Framerecall:
2)训练组合卷积神经网络
将提取的梅尔频谱图特征m和广义互相关-相位变换特征Ry1y2(τ)送入双分支卷积神经网络中,进行深度语音特征提取,将双分支卷积神经网络输出的深度语音特征,输入线性密集连接混合神经网络中对语音的时间依赖性进行建模,在训练过程中,组合卷积神经网络的学习率r∈[10-5,10-3],本实施例的学习率r取值为10-4,优化器采用Adam优化器,迭代至损失函数L和MSE收敛。
(5)测试组合卷积神经网络
将测试集输入到训练好的组合卷积神经网络中进行测试。
(6)检测和定位声音事件
使用全连接层中的Sigmoid激活函数进行激活,Sigmoid激活函数的取值范围为0~1之间,Sigmoid激活函数的值大于0.5时,检测声音事件存在,则对其进行到达方向的估计;声音事件位置距离为1m时,参考方位角为[-180°,180°]、参考仰角为[-40°,40°],声音事件位置距离为2m时,参考方位角为[-180°,180°]、参考仰角为[-20°,20°],以每间隔10°为一个划分。
取标签中所有的参考方位角为数组M,按下式确定估计方位角γ:
取标签中所有的参考仰角为数组N,按下式确定估计仰角β:
将估计方位角γ和估计仰角β与参考方位角和参考仰角通过评价函数DOAerror计算得到两者之间的平均角度误差。误差越小,说明定位越准确。
完成基于组合卷积神经网络的声音事件检测与定位方法。
实施例2
本实施例的基于组合卷积神经网络的声音事件检测与定位方法由下述步骤组成。
(1)数据集预处理
该步骤与实施例1相同。
(2)提取特征
该步骤与实施例1相同。
(3)构建组合卷积神经网络
该步骤与实施例1相同。
(4)训练组合卷积神经网络
1)确定目标函数
该步骤与实施例1相同。
2)训练组合卷积神经网络
将提取的梅尔频谱图特征m和广义互相关-相位变换特征Ry1y2(τ)送入双分支卷积神经网络中,进行深度语音特征提取,将双分支卷积神经网络输出的深度语音特征,输入线性密集连接混合神经网络中对语音的时间依赖性进行建模,在训练过程中,组合卷积神经网络的学习率r∈[10-5,10-3],本实施例的学习率r的取值为10-5,优化器采用Adam优化器,迭代至损失函数L和MSE收敛。
其他步骤与实施例1相同。完成基于组合卷积神经网络的声音事件检测与定位方法。
实施例3
本实施例的基于组合卷积神经网络的声音事件检测与定位方法由下述步骤组成。
(1)数据集预处理
该步骤与实施例1相同。
(2)提取特征
该步骤与实施例1相同。
(3)构建组合卷积神经网络
该步骤与实施例1相同。
(4)训练组合卷积神经网络
1)确定目标函数
该步骤与实施例1相同。
2)训练组合卷积神经网络
将提取的梅尔频谱图特征m和广义互相关-相位变换特征Ry1y2(τ)送入双分支卷积神经网络中,进行深度语音特征提取,将双分支卷积神经网络输出的深度语音特征,输入线性密集连接混合神经网络中对语音的时间依赖性进行建模,在训练过程中,组合卷积神经网络的学习率r∈[10-5,10-3],本实施例的学习率r的取值为10-3,优化器采用Adam优化器,迭代至损失函数L和MSE收敛。
其他步骤与实施例1相同。完成基于组合卷积神经网络的声音事件检测与定位方法。
为了验证本发明的有益效果,发明人采用本发明实施例1的组合卷积神经网络的声音事件检测与定位方法与卷积循环神经网络(以下简称CRNN)、挤压激励的卷积循环神经网络(以下简称SE-CRNN)、上下文门控的卷积循环神经网络(以下简称CG-CRNN)进行了对比实验,实验结果见表1。
表1本发明与3种方法的对比实验结果
实验方法 | 错误率ER | F分数F1(%) | 误差DOA error(°) | 帧召回Frame recall(%) |
CRNN | 0.28 | 85.4 | 24.6 | 85.7 |
SE-CRNN | 0.25 | 85.8 | 23.9 | 86.7 |
CG-CRNN | 0.19 | 88.7 | 24.4 | 90.3 |
本发明方法 | 0.23 | 87.1 | 22.4 | 90.2 |
由表1可知,以DOA error为主要的衡量指标,本发明方法比CRNN方法的DOA error降低了2.2,比SE-CRNN方法的DOA error降低了1.5,比CG-CRNN方法的DOA error降低了2.0。
Claims (7)
1.一种基于组合卷积神经网络的声音事件检测与定位方法,其特征在于它由下述步骤组成:
(1)数据集预处理
从TAU空间声音事件数据集中提取语音信号,包含11种声音事件类别,清嗓、咳嗽声、摁门铃、推门声、抽屉声、键盘声、敲门声、说话声、笑声、翻书声、电话铃声,将TAU空间声音事件数据集按照4:1的比例分成训练集、测试集;
(2)提取特征
将语音信号按下式提取梅尔频谱图特征m:
其中,f表示实际频率,按下式确定广义互相关-相位变换特征Ry1y2(τ):
(3)构建组合卷积神经网络
组合卷积神经网络由双分支卷积神经网络与线性密集连接混合神经网络、全连接层依次串联构成;
所述的双分支卷积神经网络由第一分支卷积神经网络、第二分支卷积神经网络、特征融合网络构成,第一分支卷积神经网络与第二分支卷积神经网络并联后的输出端与特征融合网络的输入端相连;
所述的线性密集连接混合神经网络由因果卷积层与第一空洞残差块、第二空洞残差块、Transformer网络、第三空洞残差块、深度可分离卷积层依次串联构成;
(4)训练组合卷积神经网络
1)确定目标函数
目标函数包括二进制交叉熵损失函数L、均方误差损失函数MSE、评价函数F1、评价函数ER、评价函数DOAerror、评价函数Framerecall,按下式确定二进制交叉熵损失函数L:
其中n是样本的数量,n为有限的正整数,yi是第i个样本的实际值,yi′是第i个样本的预测值;
按下式确定准确率和召回率两者综合指标的评价函数F1:
其中,P是准确率,R是召回率,TP是真正例,FP是假正例,FN是假负例;
按下式确定错误发生数目的评价函数ER:
S(k)=min(FN(k),FP(k))
D(k)=max(0,FN(k)-FP(k))
I(k)=max(0,FP(k)-FN(k))
其中,FN(k)表示系统输出中第k段中的假负例事件,FP(k)表示系统输出中第k段中的假正例事件;
按下式确定评价函数DOAerror:
按下式确定评价函数Framerecall:
2)训练组合卷积神经网络
将提取的梅尔频谱图特征m和广义互相关-相位变换特征Ry1y2(τ)送入双分支卷积神经网络中,进行深度语音特征提取,将双分支卷积神经网络输出的深度语音特征,输入线性密集连接混合神经网络中对语音的时间依赖性进行建模,在训练过程中,组合卷积神经网络的学习率r∈[10-5,10-3],优化器采用Adam优化器,迭代至损失函数L和MSE收敛;
(5)测试组合卷积神经网络
将测试集输入到训练好的组合卷积神经网络中进行测试;
(6)检测和定位声音事件
使用全连接层中的Sigmoid激活函数进行激活,Sigmoid激活函数的取值范围为0~1之间,Sigmoid激活函数的值大于0.5时,检测声音事件存在,则对其进行到达方向的估计;声音事件位置距离为1m时,参考方位角为[-180°,180°]、参考仰角为[-40°,40°],声音事件位置距离为2m时,参考方位角为[-180°,180°]、参考仰角为[-20°,20°],以每间隔10°为一个划分;
取标签中所有的参考方位角为数组M,按下式确定估计方位角γ:
取标签中所有的参考仰角为数组N,按下式确定估计仰角β:
将估计方位角γ和估计仰角β与参考方位角和参考仰角通过评价函数DOAerror计算得到两者之间的平均角度误差。
2.根据权利要求1所述的基于组合卷积神经网络的声音事件检测与定位方法,其特征在于:在(3)步骤中,所述的第一分支卷积神经网络由第一条件参数化卷积层与第一批量归一化层、第一修正线性单元层依次串联构成;
第一分支卷积神经网络的构建方法为:
Output1(x)=ReLU(BN(CPConv1(x)))
其中,CPConv1是第一条件参数化卷积,BN是批量归一化,ReLU是修正线性单元,x是提取的梅尔频谱图特征和广义互相关-相位变换特征;
第二分支卷积神经网络由第二条件参数化卷积层与第二批量归一化层、第二修正线性单元层依次串联构成;
第二分支卷积神经网络的构建方法为:
Output2(x)=ReLU(BN(CPConv2(x)))
其中,CPConv2是第二条件参数化卷积,BN是批量归一化,ReLU是修正线性单元,x是提取的梅尔频谱图特征和广义互相关-相位变换特征。
所述的特征融合网络由卷积层与全局平均池化层、全连接层、softmax函数层依次串联构成,卷积层的卷积核大小为1×1、步长为1。
3.根据权利要求2所述的基于组合卷积神经网络的声音事件检测与定位方法,其特征在于:所述的第一条件参数化卷积层由平均池化层与第一全连接层、反卷积层、sigmoid激活函数层依次串联构成;
第一条件参数化卷积层的构建方法为:
CPConv1(x)=(α1W1+...+αnWn)*x
其中,α为路由函数λ计算得到的权重,W是初始化权重,n为有限的正整数,*为卷积操作;
路由函数λ由平均池化层与第一全连接层、反卷积层、Sigmoid激活函数层依次串联构成;
路由函数λ的构建方法为:
λ=Sigmoid(Tconv(FC(AvgPool(x))))
其中AvgPool是平均池化、FC是全连接,Tconv是反卷积,Sigmoid是激活函数;
所述的第二条件参数化卷积层由局部重要性池化层与第二全连接层、双线性插值层、修正线性单元层依次串联构成;
第二条件参数化卷积层的构建方法为:
CPConv2(x)=(α1′W1+...+αn′Wn)*x
其中,α′为路由函数ξ计算得到的权重,W是初始化权重,n为有限的正整数;
路由函数ξ由局部重要性池化层与第二全连接层、双线性插值层、修正线性单元层依次串联构成,路由函数ξ的构建方法为:
ξ=ReLU(BI(FC(LIPool(x))))
其中,LIPool是局部重要性池化,FC是全连接,BI是双线性插值操作,ReLU是修正线性单元。
4.根据权利要求1所述的基于组合卷积神经网络的声音事件检测与定位方法,其特征在于:在(3)步骤中,所述的线性密集连接混合神经网络由因果卷积层与第一空洞残差块、第二空洞残差块、Transformer网络、第三空洞残差块、深度可分离卷积层依次串联构成;
线性密集连接混合神经网络的构建方法为:
Zl=Hl([Z0,Z1,...,Zl-1])
其中,[Z0,Z1,...,Zl-1]是指第0层到第l层生成的特征图的串联,l的取值范围为1-5。Hl是一个复合操作,包括批量归一化、修正线性单元、卷积操作。
5.根据权利要求1所述的基于组合卷积神经网络的声音事件检测与定位方法,其特征在于:在(3)步骤中,所述的因果卷积层的卷积核大小为1×1、步长为1;所述的第一空洞残差块由空洞卷积层、sigmoid激活函数层、tanh激活函数层、第一线性层、第二线性层、卷积层构成,空洞卷积层的输出端与并联的sigmoid激活函数层、tanh激活函数层的输入端相连,sigmoid激活函数层的输出端与第一线性层的输入端相连,tanh激活函数层的输出端与第二线性层的输入端相连,第一线性层的输出端和第二线性层的输出端与卷积层的输入端相连;所述的第二空洞残差块和第三空洞残差块的结构与第一空洞残差块的结构相同。
各空洞残差块的输出方法为:
Y=(Vg,i(sigmoid(Wg,i*ui+b))+b′)⊙(Vf,i(tanh(Wf,i*ui+c))+c′)
其中,*为卷积操作,⊙为逐元素点积,W和V是可学习的权重,b、b′、c、c′是偏差,i是层的索引,i的取值为1,2,3,f和g是滤波器和门,tanh和sigmoid是激活函数,ui为空洞卷积层的输入。
6.根据权利要求5所述的基于组合卷积神经网络的声音事件检测与定位方法,其特征在于:所述的空洞卷积层的卷积核大小为3×3、步长为1、空洞率为2,卷积层的卷积核大小为1×1、步长为1。
7.根据权利要求1所述的基于组合卷积神经网络的声音事件检测与定位方法,其特征在于:在(3)步骤中,所述的深度可分离卷积层的卷积核大小为3×3、步长为1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211268616.8A CN115631771A (zh) | 2022-10-17 | 2022-10-17 | 基于组合卷积神经网络的声音事件检测与定位方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211268616.8A CN115631771A (zh) | 2022-10-17 | 2022-10-17 | 基于组合卷积神经网络的声音事件检测与定位方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115631771A true CN115631771A (zh) | 2023-01-20 |
Family
ID=84905056
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211268616.8A Pending CN115631771A (zh) | 2022-10-17 | 2022-10-17 | 基于组合卷积神经网络的声音事件检测与定位方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115631771A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117111013A (zh) * | 2023-08-22 | 2023-11-24 | 南京慧尔视智能科技有限公司 | 一种雷达目标跟踪航迹起始方法、装置、设备及介质 |
-
2022
- 2022-10-17 CN CN202211268616.8A patent/CN115631771A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117111013A (zh) * | 2023-08-22 | 2023-11-24 | 南京慧尔视智能科技有限公司 | 一种雷达目标跟踪航迹起始方法、装置、设备及介质 |
CN117111013B (zh) * | 2023-08-22 | 2024-04-30 | 南京慧尔视智能科技有限公司 | 一种雷达目标跟踪航迹起始方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108596327B (zh) | 一种基于深度学习的地震速度谱人工智能拾取方法 | |
CN109841226A (zh) | 一种基于卷积递归神经网络的单通道实时降噪方法 | |
CN109036467B (zh) | 基于tf-lstm的cffd提取方法、语音情感识别方法及系统 | |
CN114220271A (zh) | 基于动态时空图卷积循环网络的交通流预测方法、设备及存储介质 | |
CN112799128B (zh) | 一种地震信号检测和震相提取的方法 | |
CN110287770B (zh) | 一种基于卷积神经网络的水中个体目标匹配识别方法 | |
CN114022812B (zh) | 一种基于轻量化SSD的DeepSort水面漂浮物多目标跟踪方法 | |
CN112949821B (zh) | 基于双重注意力机制的网络安全态势感知方法 | |
CN112414715B (zh) | 基于混合特征与改进灰度共生算法的轴承故障诊断方法 | |
CN112766229A (zh) | 基于注意力机制的人脸点云图像智能识别系统及方法 | |
CN112949481A (zh) | 一种用于说话人无关的唇语识别方法及系统 | |
CN115631771A (zh) | 基于组合卷积神经网络的声音事件检测与定位方法 | |
CN111858565B (zh) | 一种基于线段聚类的多维度高精度航迹智能预测方法 | |
CN115862319A (zh) | 一种面向时空图自编码器的交通流量预测方法 | |
Mustika et al. | Comparison of keras optimizers for earthquake signal classification based on deep neural networks | |
CN112711032B (zh) | 一种基于图数据和gcn的雷达目标检测方法及系统 | |
CN114282647A (zh) | 基于脉冲神经网络的神经形态视觉传感器目标检测方法 | |
CN117390506A (zh) | 一种基于网格编码与TextRCNN的船舶路径分类方法 | |
CN116630728A (zh) | 基于注意力残差孪生网络的加工精度预测方法 | |
CN111652021B (zh) | 一种基于bp神经网络的人脸识别方法及系统 | |
CN111797979A (zh) | 基于lstm模型的振动传递系统 | |
CN111626324A (zh) | 基于边缘计算的海底观测网数据异构解析集成方法 | |
CN114742265B (zh) | 一种vhf信号传播路径误差预测方法及系统 | |
CN116451131A (zh) | 一种基于自监督时间卷积网络的雷达脉冲序列识别方法 | |
CN115937524A (zh) | 一种基于动态知识蒸馏的类增量语义分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |