CN115631771A

CN115631771A - 基于组合卷积神经网络的声音事件检测与定位方法

Info

Publication number: CN115631771A
Application number: CN202211268616.8A
Authority: CN
Inventors: 郭敏; 闫乐安; 马苗
Original assignee: Shaanxi Normal University
Current assignee: Shaanxi Normal University
Priority date: 2022-10-17
Filing date: 2022-10-17
Publication date: 2023-01-20

Abstract

一种基于组合卷积神经网络的声音事件检测与定位方法，由数据集预处理、提取特征、构建组合卷积神经网络、训练组合卷积神经网络、测试组合卷积神经网络、检测和定位声音事件步骤组成。本发明采用了双分支卷积神经网络与线性密集连接混合神经网络，条件参数化卷积神经网络根据输入信号动态计算卷积核，将卷积核参数化为n个卷积核的线性组合，提升了网络的学习能力和计算效率；采用了线性密集连接混合神经网络，关注声音中重要的信息而忽略不相关的声音信息，增加了网络的感受野，提升了声音事件检测与定位的准确率。本发明具有识别准确率高、网络稳定、提取特征信息完整等优点，可用于声音事件检测与定位。

Description

基于组合卷积神经网络的声音事件检测与定位方法

技术领域

本发明属于语音信号处理及人工智能技术领域，具体地涉及到对声音信号的检测和定位。

背景技术

声音事件检测与定位是识别每个声音事件的时间活动，估计它们各自的空间位置轨迹，进一步与各自的声音事件标签相关联，是声音事件检测和到达方向估计的组合任务，声音事件检测与定位在机器人、智能城市、智能家庭和工业、智能会议、生物多样性监测等多个技术领域有广泛的应用，具有十分广阔的应用前景和重要的研究价值。

早期的声音事件检测与定位是分别处理检测和定位这两个问题，而没有将源位置和声音事件联系起来。检测通常使用高斯混合模型、隐马尔可夫模型或支持向量机等方法。而定位通常使用基于高分辨率谱估计的方法、基于时延估计的方法和基于可控波束形成的方法。

随着深度学习技术的快速发展，越来越多基于深度神经网络模型方法使声音事件检测与定位的性能得到了很大提升。深度神经网络用于声音事件检测取得了较好的效果，显示了声音事件检测与定位联合建模的能力。现在大部分的结构都采用卷积神经网络和循环神经网络结合的方法，但是使用卷积循环神经网络提取的特征信息比较单一且通常忽略重要的声音特征信息，无法进一步提高声音事件检测与定位的准确率。

发明内容

本发明所要解决的技术问题在于克服上述现有技术的缺点，提供一种语音情感识别准确、识别率高、网络稳定性好的基于组合卷积神经网络的声音事件检测与定位方法。

解决上述技术问题所采用的技术方案步骤如下：

(1)数据集预处理

从TAU空间声音事件数据集中提取语音信号，包含11种声音事件类别，清嗓、咳嗽声、摁门铃、推门声、抽屉声、键盘声、敲门声、说话声、笑声、翻书声、电话铃声，将TAU空间声音事件数据集按照4：1的比例分成训练集、测试集。

(2)提取特征

将语音信号按下式提取梅尔频谱图特征m：

其中，f表示实际频率，按下式确定广义互相关-相位变换特征R_y1y2(τ)：

其中，G_x1x2(f)表示x1、x2两路信号的功率谱，

表示相位变换加权函数，τ表示时间延迟。

(3)构建组合卷积神经网络

组合卷积神经网络由双分支卷积神经网络与线性密集连接混合神经网络、全连接层依次串联构成。

所述的双分支卷积神经网络由第一分支卷积神经网络、第二分支卷积神经网络、特征融合网络构成，第一分支卷积神经网络与第二分支卷积神经网络并联后的输出端与特征融合网络的输入端相连。

所述的线性密集连接混合神经网络由因果卷积层与第一空洞残差块、第二空洞残差块、Transformer网络、第三空洞残差块、深度可分离卷积层依次串联构成。

(4)训练组合卷积神经网络

1)确定目标函数

目标函数包括二进制交叉熵损失函数L、均方误差损失函数MSE、评价函数F1、评价函数ER、评价函数DOAerror、评价函数Framerecall，按下式确定二进制交叉熵损失函数L：

其中，y是真实的标签值，y∈{0,1}，

是预测的概率值，

按下式确定均方误差损失函数MSE：

其中，n是样本的数量，n为有限的正整数，y_i是第i个样本的实际值，y_i′是第i个样本的预测值。

按下式确定准确率和召回率两者综合指标的评价函数F1：

其中，P是准确率，R是召回率，TP是真正例，FP是假正例，FN是假负例。

按下式确定错误发生数目的评价函数ER：

S(k)＝min(FN(k),FP(k))

D(k)＝max(0,FN(k)-FP(k))

I(k)＝max(0,FP(k)-FN(k))

其中，FN(k)表示系统输出中第k段中的假负例事件，FP(k)表示系统输出中第k段中的假正例事件。

按下式确定评价函数DOAerror：

其中，

表示第t时间的参考角度，

表示第t时间的估计角度，

表示估计

在第t个时间的总的角度数，H是指解决任务分配的匈牙利方法。

按下式确定评价函数Framerecall：

其中，1()表示满足

的条件，输出1，否则输出0，

表示参考

在第t个时间总的角度数，T表示时间帧，且不等于0。

2)训练组合卷积神经网络

将提取的梅尔频谱图特征m和广义互相关-相位变换特征R_y1y2(τ)送入双分支卷积神经网络中，进行深度语音特征提取，将双分支卷积神经网络输出的深度语音特征，输入线性密集连接混合神经网络中对语音的时间依赖性进行建模，在训练过程中，组合卷积神经网络的学习率r∈[10^-5,10^-3]，优化器采用Adam优化器，迭代至损失函数L和MSE收敛。

(5)测试组合卷积神经网络

将测试集输入到训练好的组合卷积神经网络中进行测试。

(6)检测和定位声音事件

使用全连接层中的Sigmoid激活函数进行激活，Sigmoid激活函数的取值范围为0～1之间，Sigmoid激活函数的值大于0.5时，检测声音事件存在，则对其进行到达方向的估计；声音事件位置距离为1m时，参考方位角为[-180°,180°]、参考仰角为[-40°,40°]，声音事件位置距离为2m时，参考方位角为[-180°,180°]、参考仰角为[-20°,20°]，以每间隔10°为一个划分。

取标签中所有的参考方位角为数组M，按下式确定估计方位角γ：

取标签中所有的参考仰角为数组N，按下式确定估计仰角β：

将估计方位角γ和估计仰角β与参考方位角和参考仰角通过评价函数DOAerror计算得到两者之间的平均角度误差。

在本发明的(3)步骤中，所述的第一分支卷积神经网络由第一条件参数化卷积层与第一批量归一化层、第一修正线性单元层依次串联构成。

第一分支卷积神经网络的构建方法为：

Output1(x)＝ReLU(BN(CPConv1(x)))

其中，CPConv1是第一条件参数化卷积，BN是批量归一化，ReLU是修正线性单元，x是提取的梅尔频谱图特征和广义互相关-相位变换特征。

第二分支卷积神经网络由第二条件参数化卷积层与第二批量归一化层、第二修正线性单元层依次串联构成。

第二分支卷积神经网络的构建方法为：

Output2(x)＝ReLU(BN(CPConv2(x)))

其中，CPConv2是第二条件参数化卷积，BN是批量归一化，ReLU是修正线性单元，x是提取的梅尔频谱图特征和广义互相关-相位变换特征。

所述的特征融合网络由卷积层与全局平均池化层、全连接层、softmax函数层依次串联构成，卷积层的卷积核大小为1×1、步长为1。

本发明的第一条件参数化卷积层由平均池化层与第一全连接层、反卷积层、sigmoid激活函数层依次串联构成。

第一条件参数化卷积层的构建方法为：

CPConv1(x)＝(α₁W₁+...+α_nW_n)*x

其中，α为路由函数λ计算得到的权重，W是初始化权重，n为有限的正整数，*为卷积操作。

路由函数λ由平均池化层与第一全连接层、反卷积层、Sigmoid激活函数层依次串联构成。

路由函数λ的构建方法为：

λ＝Sigmoid(Tconv(FC(AvgPool(x))))

其中AvgPool是平均池化、FC是全连接，Tconv是反卷积，Sigmoid是激活函数。

本发明的第二条件参数化卷积层由局部重要性池化层与第二全连接层、双线性插值层、修正线性单元层依次串联构成。

第二条件参数化卷积层的构建方法为：

CPConv2(x)＝(α₁′W₁+...+α_n′W_n)*x

其中，α′为路由函数ξ计算得到的权重，W是初始化权重，n为有限的正整数；

路由函数ξ由局部重要性池化层与第二全连接层、双线性插值层、修正线性单元层依次串联构成，路由函数ξ的构建方法为：

ξ＝ReLU(BI(FC(LIPool(x))))

其中，LIPool是局部重要性池化，FC是全连接，BI是双线性插值操作，ReLU是修正线性单元。

在本发明的(3)步骤中，所述的线性密集连接混合神经网络由因果卷积层与第一空洞残差块、第二空洞残差块、Transformer网络、第三空洞残差块、深度可分离卷积层依次串联构成。

线性密集连接混合神经网络的构建方法为：

Z_l＝H_l([Z₀,Z₁,...,Z_l-1])

其中，[Z₀,Z₁,...,Z_l-1]是指第0层到第l层生成的特征图的串联，l的取值范围为1-5。H_l是一个复合操作，包括批量归一化、修正线性单元、卷积操作。

在本发明的(3)步骤中，所述的因果卷积层的卷积核大小为1×1、步长为1；所述的第一空洞残差块由空洞卷积层、sigmoid激活函数层、tanh激活函数层、第一线性层、第二线性层、卷积层构成，空洞卷积层的输出端与并联的sigmoid激活函数层、tanh激活函数层的输入端相连，sigmoid激活函数层的输出端与第一线性层的输入端相连，tanh激活函数层的输出端与第二线性层的输入端相连，第一线性层的输出端和第二线性层的输出端与卷积层的输入端相连；所述的第二空洞残差块和第三空洞残差块的结构与第一空洞残差块的结构相同。

各空洞残差块的输出方法为：

Y＝(V_g,i(sigmoid(W_g,i*u_i+b))+b′)⊙(V_f,i(tanh(W_f,i*u_i+c))+c′)

其中，*为卷积操作，⊙为逐元素点积，W和V是可学习的权重，b、b′、c、c′是偏差，i是层的索引，i的取值为1，2，3，f和g是滤波器和门，tanh和sigmoid是激活函数，u_i为空洞卷积层的输入。

本发明的空洞卷积层的卷积核大小为3×3、步长为1、空洞率为2，卷积层的卷积核大小为1×1、步长为1。

在本发明的(3)步骤中，所述的深度可分离卷积层的卷积核大小为3×3、步长为1。

本发明采用双分支条件参数化卷积神经网络与含有线性层的密集连接混合神经网络，通过双分支条件参数化卷积神经网络将卷积核参数化为n个卷积核的线性组合，增强了网络的学习能力，使网络可以提取更丰富的声音特征信息，其次含有线性层的密集连接混合神经网络可以使网络关注声音中重要的信息而忽略不相关的声音信息，解决了卷积神经网络提取的特征信息比较单一以及忽略重要的声音特征信息问题。

附图说明

图1是本发明实施1的流程图。

图2是组合卷积神经网络的结构示意图。

图3是图2中双分支卷积神经网络的结构示意图。

图4是图3中第一条件参数化卷积层的结构示意图。

图5是图3中第二条件参数化卷积层的结构示意图。

图6是图2中线性密集连接混合神经网络的结构示意图。

图7是图6中第一空洞残差块的结构示意图。

具体实施方式

下面结合附图和实施例对本发明进一步说明，但本发明不限于下述的实施方式。

实施例1

在图1中，本实施例的基于组合卷积神经网络的声音事件检测与定位方法由下述步骤组成。

(1)数据集预处理

(2)提取特征

将语音信号按下式提取梅尔频谱图特征m：

式中，f表示实际频率，按下式确定广义互相关-相位变换特征R_y1y2(τ)：

式中，G_x1x2(f)表示x1、x2两路信号的功率谱，

表示相位变换加权函数，τ表示时间延迟。

(3)构建组合卷积神经网络

在图2中，本实施例的组合卷积神经网络由双分支卷积神经网络与线性密集连接混合神经网络、全连接层依次串联构成。

在图3中，本实施例的双分支卷积神经网络由第一分支卷积神经网络、第二分支卷积神经网络、特征融合网络构成，第一分支卷积神经网络与第二分支卷积神经网络并联后的输出端与特征融合网络的输入端相连。

本实施例的第一分支卷积神经网络由第一条件参数化卷积层与第一批量归一化层、第一修正线性单元层依次串联构成，第二分支卷积神经网络由第二条件参数化卷积层与第二批量归一化层、第二修正线性单元层依次串联构成。

本实施例的第一分支卷积神经网络的构建方法为：

Output1(x)＝ReLU(BN(CPConv1(x)))

本实施例的第二分支卷积神经网络的构建方法为：

Output2(x)＝ReLU(BN(CPConv2(x)))

本实施例的特征融合网络由卷积层与全局平均池化层、全连接层、softmax函数层依次串联构成，卷积层的卷积核大小为1×1、步长为1。

在图4中，本实施例的第一条件参数化卷积层由平均池化层与第一全连接层、反卷积层、sigmoid激活函数层依次串联构成。

第一条件参数化卷积层的构建方法为：

CPConv1(x)＝(α₁W₁+...+α_nW_n)*x

路由函数λ的构建方法为：

λ＝Sigmoid(Tconv(FC(AvgPool(x))))

其中，AvgPool是平均池化、FC是全连接，Tconv是反卷积，Sigmoid是激活函数。

在图5中，本实施例的第二条件参数化卷积层由局部重要性池化层与第二全连接层、双线性插值层、修正线性单元层依次串联构成。

第二条件参数化卷积层的构建方法为：

CPConv2(x)＝(α₁′W₁+...+α_n′W_n)*x

其中，α′为路由函数ξ计算得到的权重，W是初始化权重，n为有限的正整数。

ξ＝ReLU(BI(FC(LIPool(x))))

在图6、7中，本实施例的线性密集连接混合神经网络由因果卷积层与第一空洞残差块、第二空洞残差块、Transformer网络、第三空洞残差块、深度可分离卷积层依次串联构成。

线性密集连接混合神经网络的构建方法为：

Z_l＝H_l([Z₀,Z₁,...,Z_l-1])

各空洞残差块的输出方法为：

Y＝(V_g,i(sigmoid(W_g,i*u_i+b))+b′)⊙(V_f,i(tanh(W_f,i*u_i+c))+c′)

其中，⊙为逐元素点积，W和V是可学习的权重，b、b′、c、c′是偏差，i是层的索引，i的取值为1，2，3，f和g是滤波器和门，tanh和sigmoid是激活函数，u_i为空洞卷积层的输入。

本实施例的因果卷积层的卷积核大小为1×1、步长为1。本实施例的第一空洞残差块由空洞卷积层、sigmoid激活函数层、tanh激活函数层、第一线性层、第二线性层、卷积层构成，空洞卷积层的输出端与并联的sigmoid激活函数层、tanh激活函数层的输入端相连，sigmoid激活函数层的输出端与第一线性层的输入端相连，tanh激活函数层的输出端与第二线性层的输入端相连，第一线性层的输出端和第二线性层的输出端与卷积层的输入端相连。第二空洞残差块和第三空洞残差块的结构与第一空洞残差块的结构相同。空洞卷积层的卷积核大小为3×3、步长为1、空洞率为2，卷积层的卷积核大小为1×1、步长为1。本实施例的深度可分离卷积层的卷积核大小为3×3、步长为1。

(4)训练组合卷积神经网络

1)确定目标函数

其中，y是真实的标签值，y∈{0,1}，

是预测的概率值，

按下式确定均方误差损失函数MSE：

按下式确定准确率和召回率两者综合指标的评价函数F1：

按下式确定错误发生数目的评价函数ER：

S(k)＝min(FN(k),FP(k))

D(k)＝max(0,FN(k)-FP(k))

I(k)＝max(0,FP(k)-FN(k))

按下式确定评价函数DOAerror：

其中，

表示第t时间的参考角度，

表示第t时间的估计角度，

表示估计

在第t个时间的总的角度数，H是指解决任务分配的匈牙利方法，评价函数DOAerror是实际参考角度与系统估计角度之间的误差。

按下式确定评价函数Framerecall：

其中，1()表示满足

的条件，输出1，否则输出0，

表示参考

在第t个时间总的角度数，T表示时间帧，且不等于0。

2)训练组合卷积神经网络

将提取的梅尔频谱图特征m和广义互相关-相位变换特征R_y1y2(τ)送入双分支卷积神经网络中，进行深度语音特征提取，将双分支卷积神经网络输出的深度语音特征，输入线性密集连接混合神经网络中对语音的时间依赖性进行建模，在训练过程中，组合卷积神经网络的学习率r∈[10^-5,10^-3]，本实施例的学习率r取值为10^-4，优化器采用Adam优化器，迭代至损失函数L和MSE收敛。

(5)测试组合卷积神经网络

将测试集输入到训练好的组合卷积神经网络中进行测试。

(6)检测和定位声音事件

取标签中所有的参考仰角为数组N，按下式确定估计仰角β：

将估计方位角γ和估计仰角β与参考方位角和参考仰角通过评价函数DOAerror计算得到两者之间的平均角度误差。误差越小，说明定位越准确。

完成基于组合卷积神经网络的声音事件检测与定位方法。

实施例2

本实施例的基于组合卷积神经网络的声音事件检测与定位方法由下述步骤组成。

(1)数据集预处理

该步骤与实施例1相同。

(2)提取特征

该步骤与实施例1相同。

(3)构建组合卷积神经网络

该步骤与实施例1相同。

(4)训练组合卷积神经网络

1)确定目标函数

该步骤与实施例1相同。

2)训练组合卷积神经网络

将提取的梅尔频谱图特征m和广义互相关-相位变换特征R_y1y2(τ)送入双分支卷积神经网络中，进行深度语音特征提取，将双分支卷积神经网络输出的深度语音特征，输入线性密集连接混合神经网络中对语音的时间依赖性进行建模，在训练过程中，组合卷积神经网络的学习率r∈[10^-5,10^-3]，本实施例的学习率r的取值为10^-5，优化器采用Adam优化器，迭代至损失函数L和MSE收敛。

其他步骤与实施例1相同。完成基于组合卷积神经网络的声音事件检测与定位方法。

实施例3

(1)数据集预处理

该步骤与实施例1相同。

(2)提取特征

该步骤与实施例1相同。

(3)构建组合卷积神经网络

该步骤与实施例1相同。

(4)训练组合卷积神经网络

1)确定目标函数

该步骤与实施例1相同。

2)训练组合卷积神经网络

将提取的梅尔频谱图特征m和广义互相关-相位变换特征R_y1y2(τ)送入双分支卷积神经网络中，进行深度语音特征提取，将双分支卷积神经网络输出的深度语音特征，输入线性密集连接混合神经网络中对语音的时间依赖性进行建模，在训练过程中，组合卷积神经网络的学习率r∈[10^-5,10^-3]，本实施例的学习率r的取值为10^-3，优化器采用Adam优化器，迭代至损失函数L和MSE收敛。

为了验证本发明的有益效果，发明人采用本发明实施例1的组合卷积神经网络的声音事件检测与定位方法与卷积循环神经网络(以下简称CRNN)、挤压激励的卷积循环神经网络(以下简称SE-CRNN)、上下文门控的卷积循环神经网络(以下简称CG-CRNN)进行了对比实验，实验结果见表1。

表1本发明与3种方法的对比实验结果

实验方法	错误率ER	F分数F1(％)	误差DOA error(°)	帧召回Frame recall(％)
					CRNN	0.28	85.4	24.6	85.7
SE-CRNN	0.25	85.8	23.9	86.7
					CG-CRNN	0.19	88.7	24.4	90.3
本发明方法	0.23	87.1	22.4	90.2

由表1可知，以DOA error为主要的衡量指标，本发明方法比CRNN方法的DOA error降低了2.2，比SE-CRNN方法的DOA error降低了1.5，比CG-CRNN方法的DOA error降低了2.0。

Claims

1.一种基于组合卷积神经网络的声音事件检测与定位方法，其特征在于它由下述步骤组成：

(1)数据集预处理

从TAU空间声音事件数据集中提取语音信号，包含11种声音事件类别，清嗓、咳嗽声、摁门铃、推门声、抽屉声、键盘声、敲门声、说话声、笑声、翻书声、电话铃声，将TAU空间声音事件数据集按照4：1的比例分成训练集、测试集；

(2)提取特征

将语音信号按下式提取梅尔频谱图特征m：

其中，G_x1x2(f)表示x1、x2两路信号的功率谱，

表示相位变换加权函数，τ表示时间延迟；

(3)构建组合卷积神经网络

组合卷积神经网络由双分支卷积神经网络与线性密集连接混合神经网络、全连接层依次串联构成；

所述的双分支卷积神经网络由第一分支卷积神经网络、第二分支卷积神经网络、特征融合网络构成，第一分支卷积神经网络与第二分支卷积神经网络并联后的输出端与特征融合网络的输入端相连；

所述的线性密集连接混合神经网络由因果卷积层与第一空洞残差块、第二空洞残差块、Transformer网络、第三空洞残差块、深度可分离卷积层依次串联构成；

(4)训练组合卷积神经网络

1)确定目标函数

其中y是真实的标签值，y∈{0,1}，

是预测的概率值，

按下式确定均方误差损失函数MSE：

其中n是样本的数量，n为有限的正整数，y_i是第i个样本的实际值，y_i′是第i个样本的预测值；

按下式确定准确率和召回率两者综合指标的评价函数F1：

其中，P是准确率，R是召回率，TP是真正例，FP是假正例，FN是假负例；

按下式确定错误发生数目的评价函数ER：

S(k)＝min(FN(k),FP(k))

D(k)＝max(0,FN(k)-FP(k))

I(k)＝max(0,FP(k)-FN(k))

其中，FN(k)表示系统输出中第k段中的假负例事件，FP(k)表示系统输出中第k段中的假正例事件；

按下式确定评价函数DOAerror：

其中，

表示第t时间的参考角度，DOAt_E表示第t时间的估计角度，

表示估计

在第t个时间的总的角度数，H是指解决任务分配的匈牙利方法；

按下式确定评价函数Framerecall：

其中，1()表示满足

的条件，输出1，否则输出0，

表示参考

在第t个时间总的角度数，T表示时间帧，且不等于0；

2)训练组合卷积神经网络

将提取的梅尔频谱图特征m和广义互相关-相位变换特征R_y1y2(τ)送入双分支卷积神经网络中，进行深度语音特征提取，将双分支卷积神经网络输出的深度语音特征，输入线性密集连接混合神经网络中对语音的时间依赖性进行建模，在训练过程中，组合卷积神经网络的学习率r∈[10^-5,10^-3]，优化器采用Adam优化器，迭代至损失函数L和MSE收敛；

(5)测试组合卷积神经网络

将测试集输入到训练好的组合卷积神经网络中进行测试；

(6)检测和定位声音事件

使用全连接层中的Sigmoid激活函数进行激活，Sigmoid激活函数的取值范围为0～1之间，Sigmoid激活函数的值大于0.5时，检测声音事件存在，则对其进行到达方向的估计；声音事件位置距离为1m时，参考方位角为[-180°,180°]、参考仰角为[-40°,40°]，声音事件位置距离为2m时，参考方位角为[-180°,180°]、参考仰角为[-20°,20°]，以每间隔10°为一个划分；

取标签中所有的参考仰角为数组N，按下式确定估计仰角β：

2.根据权利要求1所述的基于组合卷积神经网络的声音事件检测与定位方法，其特征在于：在(3)步骤中，所述的第一分支卷积神经网络由第一条件参数化卷积层与第一批量归一化层、第一修正线性单元层依次串联构成；

第一分支卷积神经网络的构建方法为：

Output1(x)＝ReLU(BN(CPConv1(x)))

其中，CPConv1是第一条件参数化卷积，BN是批量归一化，ReLU是修正线性单元，x是提取的梅尔频谱图特征和广义互相关-相位变换特征；

第二分支卷积神经网络由第二条件参数化卷积层与第二批量归一化层、第二修正线性单元层依次串联构成；

第二分支卷积神经网络的构建方法为：

Output2(x)＝ReLU(BN(CPConv2(x)))

3.根据权利要求2所述的基于组合卷积神经网络的声音事件检测与定位方法，其特征在于：所述的第一条件参数化卷积层由平均池化层与第一全连接层、反卷积层、sigmoid激活函数层依次串联构成；

第一条件参数化卷积层的构建方法为：

CPConv1(x)＝(α₁W₁+...+α_nW_n)*x

其中，α为路由函数λ计算得到的权重，W是初始化权重，n为有限的正整数，*为卷积操作；

路由函数λ由平均池化层与第一全连接层、反卷积层、Sigmoid激活函数层依次串联构成；

路由函数λ的构建方法为：

λ＝Sigmoid(Tconv(FC(AvgPool(x))))

其中AvgPool是平均池化、FC是全连接，Tconv是反卷积，Sigmoid是激活函数；

所述的第二条件参数化卷积层由局部重要性池化层与第二全连接层、双线性插值层、修正线性单元层依次串联构成；

第二条件参数化卷积层的构建方法为：

CPConv2(x)＝(α₁′W₁+...+α_n′W_n)*x

ξ＝ReLU(BI(FC(LIPool(x))))

4.根据权利要求1所述的基于组合卷积神经网络的声音事件检测与定位方法，其特征在于：在(3)步骤中，所述的线性密集连接混合神经网络由因果卷积层与第一空洞残差块、第二空洞残差块、Transformer网络、第三空洞残差块、深度可分离卷积层依次串联构成；

线性密集连接混合神经网络的构建方法为：

Z_l＝H_l([Z₀,Z₁,...,Z_l-1])

5.根据权利要求1所述的基于组合卷积神经网络的声音事件检测与定位方法，其特征在于：在(3)步骤中，所述的因果卷积层的卷积核大小为1×1、步长为1；所述的第一空洞残差块由空洞卷积层、sigmoid激活函数层、tanh激活函数层、第一线性层、第二线性层、卷积层构成，空洞卷积层的输出端与并联的sigmoid激活函数层、tanh激活函数层的输入端相连，sigmoid激活函数层的输出端与第一线性层的输入端相连，tanh激活函数层的输出端与第二线性层的输入端相连，第一线性层的输出端和第二线性层的输出端与卷积层的输入端相连；所述的第二空洞残差块和第三空洞残差块的结构与第一空洞残差块的结构相同。

各空洞残差块的输出方法为：

Y＝(V_g,i(sigmoid(W_g,i*u_i+b))+b′)⊙(V_f,i(tanh(W_f,i*u_i+c))+c′)

6.根据权利要求5所述的基于组合卷积神经网络的声音事件检测与定位方法，其特征在于：所述的空洞卷积层的卷积核大小为3×3、步长为1、空洞率为2，卷积层的卷积核大小为1×1、步长为1。

7.根据权利要求1所述的基于组合卷积神经网络的声音事件检测与定位方法，其特征在于：在(3)步骤中，所述的深度可分离卷积层的卷积核大小为3×3、步长为1。