CN115631771A - 基于组合卷积神经网络的声音事件检测与定位方法 - Google Patents

基于组合卷积神经网络的声音事件检测与定位方法 Download PDF

Info

Publication number
CN115631771A
CN115631771A CN202211268616.8A CN202211268616A CN115631771A CN 115631771 A CN115631771 A CN 115631771A CN 202211268616 A CN202211268616 A CN 202211268616A CN 115631771 A CN115631771 A CN 115631771A
Authority
CN
China
Prior art keywords
layer
neural network
convolution
convolutional neural
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211268616.8A
Other languages
English (en)
Inventor
郭敏
闫乐安
马苗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shaanxi Normal University
Original Assignee
Shaanxi Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shaanxi Normal University filed Critical Shaanxi Normal University
Priority to CN202211268616.8A priority Critical patent/CN115631771A/zh
Publication of CN115631771A publication Critical patent/CN115631771A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Hospice & Palliative Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Child & Adolescent Psychology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Complex Calculations (AREA)

Abstract

一种基于组合卷积神经网络的声音事件检测与定位方法,由数据集预处理、提取特征、构建组合卷积神经网络、训练组合卷积神经网络、测试组合卷积神经网络、检测和定位声音事件步骤组成。本发明采用了双分支卷积神经网络与线性密集连接混合神经网络,条件参数化卷积神经网络根据输入信号动态计算卷积核,将卷积核参数化为n个卷积核的线性组合,提升了网络的学习能力和计算效率;采用了线性密集连接混合神经网络,关注声音中重要的信息而忽略不相关的声音信息,增加了网络的感受野,提升了声音事件检测与定位的准确率。本发明具有识别准确率高、网络稳定、提取特征信息完整等优点,可用于声音事件检测与定位。

Description

基于组合卷积神经网络的声音事件检测与定位方法
技术领域
本发明属于语音信号处理及人工智能技术领域,具体地涉及到对声音信号的检测和定位。
背景技术
声音事件检测与定位是识别每个声音事件的时间活动,估计它们各自的空间位置轨迹,进一步与各自的声音事件标签相关联,是声音事件检测和到达方向估计的组合任务,声音事件检测与定位在机器人、智能城市、智能家庭和工业、智能会议、生物多样性监测等多个技术领域有广泛的应用,具有十分广阔的应用前景和重要的研究价值。
早期的声音事件检测与定位是分别处理检测和定位这两个问题,而没有将源位置和声音事件联系起来。检测通常使用高斯混合模型、隐马尔可夫模型或支持向量机等方法。而定位通常使用基于高分辨率谱估计的方法、基于时延估计的方法和基于可控波束形成的方法。
随着深度学习技术的快速发展,越来越多基于深度神经网络模型方法使声音事件检测与定位的性能得到了很大提升。深度神经网络用于声音事件检测取得了较好的效果,显示了声音事件检测与定位联合建模的能力。现在大部分的结构都采用卷积神经网络和循环神经网络结合的方法,但是使用卷积循环神经网络提取的特征信息比较单一且通常忽略重要的声音特征信息,无法进一步提高声音事件检测与定位的准确率。
发明内容
本发明所要解决的技术问题在于克服上述现有技术的缺点,提供一种语音情感识别准确、识别率高、网络稳定性好的基于组合卷积神经网络的声音事件检测与定位方法。
解决上述技术问题所采用的技术方案步骤如下:
(1)数据集预处理
从TAU空间声音事件数据集中提取语音信号,包含11种声音事件类别,清嗓、咳嗽声、摁门铃、推门声、抽屉声、键盘声、敲门声、说话声、笑声、翻书声、电话铃声,将TAU空间声音事件数据集按照4:1的比例分成训练集、测试集。
(2)提取特征
将语音信号按下式提取梅尔频谱图特征m:
Figure BDA0003894142440000021
其中,f表示实际频率,按下式确定广义互相关-相位变换特征Ry1y2(τ):
Figure BDA0003894142440000022
其中,Gx1x2(f)表示x1、x2两路信号的功率谱,
Figure BDA0003894142440000023
表示相位变换加权函数,τ表示时间延迟。
(3)构建组合卷积神经网络
组合卷积神经网络由双分支卷积神经网络与线性密集连接混合神经网络、全连接层依次串联构成。
所述的双分支卷积神经网络由第一分支卷积神经网络、第二分支卷积神经网络、特征融合网络构成,第一分支卷积神经网络与第二分支卷积神经网络并联后的输出端与特征融合网络的输入端相连。
所述的线性密集连接混合神经网络由因果卷积层与第一空洞残差块、第二空洞残差块、Transformer网络、第三空洞残差块、深度可分离卷积层依次串联构成。
(4)训练组合卷积神经网络
1)确定目标函数
目标函数包括二进制交叉熵损失函数L、均方误差损失函数MSE、评价函数F1、评价函数ER、评价函数DOAerror、评价函数Framerecall,按下式确定二进制交叉熵损失函数L:
Figure BDA0003894142440000031
其中,y是真实的标签值,y∈{0,1},
Figure BDA0003894142440000032
是预测的概率值,
Figure BDA0003894142440000033
按下式确定均方误差损失函数MSE:
Figure BDA0003894142440000034
其中,n是样本的数量,n为有限的正整数,yi是第i个样本的实际值,yi′是第i个样本的预测值。
按下式确定准确率和召回率两者综合指标的评价函数F1:
Figure BDA0003894142440000035
Figure BDA0003894142440000036
Figure BDA0003894142440000037
其中,P是准确率,R是召回率,TP是真正例,FP是假正例,FN是假负例。
按下式确定错误发生数目的评价函数ER:
Figure BDA0003894142440000038
S(k)=min(FN(k),FP(k))
D(k)=max(0,FN(k)-FP(k))
I(k)=max(0,FP(k)-FN(k))
其中,FN(k)表示系统输出中第k段中的假负例事件,FP(k)表示系统输出中第k段中的假正例事件。
按下式确定评价函数DOAerror:
Figure BDA0003894142440000041
其中,
Figure BDA0003894142440000042
表示第t时间的参考角度,
Figure BDA0003894142440000043
表示第t时间的估计角度,
Figure BDA0003894142440000044
表示估计
Figure BDA0003894142440000045
在第t个时间的总的角度数,H是指解决任务分配的匈牙利方法。
按下式确定评价函数Framerecall:
Figure BDA0003894142440000046
其中,1()表示满足
Figure BDA0003894142440000047
的条件,输出1,否则输出0,
Figure BDA0003894142440000048
表示参考
Figure BDA0003894142440000049
在第t个时间总的角度数,T表示时间帧,且不等于0。
2)训练组合卷积神经网络
将提取的梅尔频谱图特征m和广义互相关-相位变换特征Ry1y2(τ)送入双分支卷积神经网络中,进行深度语音特征提取,将双分支卷积神经网络输出的深度语音特征,输入线性密集连接混合神经网络中对语音的时间依赖性进行建模,在训练过程中,组合卷积神经网络的学习率r∈[10-5,10-3],优化器采用Adam优化器,迭代至损失函数L和MSE收敛。
(5)测试组合卷积神经网络
将测试集输入到训练好的组合卷积神经网络中进行测试。
(6)检测和定位声音事件
使用全连接层中的Sigmoid激活函数进行激活,Sigmoid激活函数的取值范围为0~1之间,Sigmoid激活函数的值大于0.5时,检测声音事件存在,则对其进行到达方向的估计;声音事件位置距离为1m时,参考方位角为[-180°,180°]、参考仰角为[-40°,40°],声音事件位置距离为2m时,参考方位角为[-180°,180°]、参考仰角为[-20°,20°],以每间隔10°为一个划分。
取标签中所有的参考方位角为数组M,按下式确定估计方位角γ:
Figure BDA0003894142440000051
取标签中所有的参考仰角为数组N,按下式确定估计仰角β:
Figure BDA0003894142440000052
将估计方位角γ和估计仰角β与参考方位角和参考仰角通过评价函数DOAerror计算得到两者之间的平均角度误差。
在本发明的(3)步骤中,所述的第一分支卷积神经网络由第一条件参数化卷积层与第一批量归一化层、第一修正线性单元层依次串联构成。
第一分支卷积神经网络的构建方法为:
Output1(x)=ReLU(BN(CPConv1(x)))
其中,CPConv1是第一条件参数化卷积,BN是批量归一化,ReLU是修正线性单元,x是提取的梅尔频谱图特征和广义互相关-相位变换特征。
第二分支卷积神经网络由第二条件参数化卷积层与第二批量归一化层、第二修正线性单元层依次串联构成。
第二分支卷积神经网络的构建方法为:
Output2(x)=ReLU(BN(CPConv2(x)))
其中,CPConv2是第二条件参数化卷积,BN是批量归一化,ReLU是修正线性单元,x是提取的梅尔频谱图特征和广义互相关-相位变换特征。
所述的特征融合网络由卷积层与全局平均池化层、全连接层、softmax函数层依次串联构成,卷积层的卷积核大小为1×1、步长为1。
本发明的第一条件参数化卷积层由平均池化层与第一全连接层、反卷积层、sigmoid激活函数层依次串联构成。
第一条件参数化卷积层的构建方法为:
CPConv1(x)=(α1W1+...+αnWn)*x
其中,α为路由函数λ计算得到的权重,W是初始化权重,n为有限的正整数,*为卷积操作。
路由函数λ由平均池化层与第一全连接层、反卷积层、Sigmoid激活函数层依次串联构成。
路由函数λ的构建方法为:
λ=Sigmoid(Tconv(FC(AvgPool(x))))
其中AvgPool是平均池化、FC是全连接,Tconv是反卷积,Sigmoid是激活函数。
本发明的第二条件参数化卷积层由局部重要性池化层与第二全连接层、双线性插值层、修正线性单元层依次串联构成。
第二条件参数化卷积层的构建方法为:
CPConv2(x)=(α1′W1+...+αn′Wn)*x
其中,α′为路由函数ξ计算得到的权重,W是初始化权重,n为有限的正整数;
路由函数ξ由局部重要性池化层与第二全连接层、双线性插值层、修正线性单元层依次串联构成,路由函数ξ的构建方法为:
ξ=ReLU(BI(FC(LIPool(x))))
其中,LIPool是局部重要性池化,FC是全连接,BI是双线性插值操作,ReLU是修正线性单元。
在本发明的(3)步骤中,所述的线性密集连接混合神经网络由因果卷积层与第一空洞残差块、第二空洞残差块、Transformer网络、第三空洞残差块、深度可分离卷积层依次串联构成。
线性密集连接混合神经网络的构建方法为:
Zl=Hl([Z0,Z1,...,Zl-1])
其中,[Z0,Z1,...,Zl-1]是指第0层到第l层生成的特征图的串联,l的取值范围为1-5。Hl是一个复合操作,包括批量归一化、修正线性单元、卷积操作。
在本发明的(3)步骤中,所述的因果卷积层的卷积核大小为1×1、步长为1;所述的第一空洞残差块由空洞卷积层、sigmoid激活函数层、tanh激活函数层、第一线性层、第二线性层、卷积层构成,空洞卷积层的输出端与并联的sigmoid激活函数层、tanh激活函数层的输入端相连,sigmoid激活函数层的输出端与第一线性层的输入端相连,tanh激活函数层的输出端与第二线性层的输入端相连,第一线性层的输出端和第二线性层的输出端与卷积层的输入端相连;所述的第二空洞残差块和第三空洞残差块的结构与第一空洞残差块的结构相同。
各空洞残差块的输出方法为:
Y=(Vg,i(sigmoid(Wg,i*ui+b))+b′)⊙(Vf,i(tanh(Wf,i*ui+c))+c′)
其中,*为卷积操作,⊙为逐元素点积,W和V是可学习的权重,b、b′、c、c′是偏差,i是层的索引,i的取值为1,2,3,f和g是滤波器和门,tanh和sigmoid是激活函数,ui为空洞卷积层的输入。
本发明的空洞卷积层的卷积核大小为3×3、步长为1、空洞率为2,卷积层的卷积核大小为1×1、步长为1。
在本发明的(3)步骤中,所述的深度可分离卷积层的卷积核大小为3×3、步长为1。
本发明采用双分支条件参数化卷积神经网络与含有线性层的密集连接混合神经网络,通过双分支条件参数化卷积神经网络将卷积核参数化为n个卷积核的线性组合,增强了网络的学习能力,使网络可以提取更丰富的声音特征信息,其次含有线性层的密集连接混合神经网络可以使网络关注声音中重要的信息而忽略不相关的声音信息,解决了卷积神经网络提取的特征信息比较单一以及忽略重要的声音特征信息问题。
附图说明
图1是本发明实施1的流程图。
图2是组合卷积神经网络的结构示意图。
图3是图2中双分支卷积神经网络的结构示意图。
图4是图3中第一条件参数化卷积层的结构示意图。
图5是图3中第二条件参数化卷积层的结构示意图。
图6是图2中线性密集连接混合神经网络的结构示意图。
图7是图6中第一空洞残差块的结构示意图。
具体实施方式
下面结合附图和实施例对本发明进一步说明,但本发明不限于下述的实施方式。
实施例1
在图1中,本实施例的基于组合卷积神经网络的声音事件检测与定位方法由下述步骤组成。
(1)数据集预处理
从TAU空间声音事件数据集中提取语音信号,包含11种声音事件类别,清嗓、咳嗽声、摁门铃、推门声、抽屉声、键盘声、敲门声、说话声、笑声、翻书声、电话铃声,将TAU空间声音事件数据集按照4:1的比例分成训练集、测试集。
(2)提取特征
将语音信号按下式提取梅尔频谱图特征m:
Figure BDA0003894142440000081
式中,f表示实际频率,按下式确定广义互相关-相位变换特征Ry1y2(τ):
Figure BDA0003894142440000082
式中,Gx1x2(f)表示x1、x2两路信号的功率谱,
Figure BDA0003894142440000083
表示相位变换加权函数,τ表示时间延迟。
(3)构建组合卷积神经网络
在图2中,本实施例的组合卷积神经网络由双分支卷积神经网络与线性密集连接混合神经网络、全连接层依次串联构成。
在图3中,本实施例的双分支卷积神经网络由第一分支卷积神经网络、第二分支卷积神经网络、特征融合网络构成,第一分支卷积神经网络与第二分支卷积神经网络并联后的输出端与特征融合网络的输入端相连。
本实施例的第一分支卷积神经网络由第一条件参数化卷积层与第一批量归一化层、第一修正线性单元层依次串联构成,第二分支卷积神经网络由第二条件参数化卷积层与第二批量归一化层、第二修正线性单元层依次串联构成。
本实施例的第一分支卷积神经网络的构建方法为:
Output1(x)=ReLU(BN(CPConv1(x)))
其中,CPConv1是第一条件参数化卷积,BN是批量归一化,ReLU是修正线性单元,x是提取的梅尔频谱图特征和广义互相关-相位变换特征。
本实施例的第二分支卷积神经网络的构建方法为:
Output2(x)=ReLU(BN(CPConv2(x)))
其中,CPConv2是第二条件参数化卷积,BN是批量归一化,ReLU是修正线性单元,x是提取的梅尔频谱图特征和广义互相关-相位变换特征。
本实施例的特征融合网络由卷积层与全局平均池化层、全连接层、softmax函数层依次串联构成,卷积层的卷积核大小为1×1、步长为1。
在图4中,本实施例的第一条件参数化卷积层由平均池化层与第一全连接层、反卷积层、sigmoid激活函数层依次串联构成。
第一条件参数化卷积层的构建方法为:
CPConv1(x)=(α1W1+...+αnWn)*x
其中,α为路由函数λ计算得到的权重,W是初始化权重,n为有限的正整数,*为卷积操作。
路由函数λ由平均池化层与第一全连接层、反卷积层、Sigmoid激活函数层依次串联构成。
路由函数λ的构建方法为:
λ=Sigmoid(Tconv(FC(AvgPool(x))))
其中,AvgPool是平均池化、FC是全连接,Tconv是反卷积,Sigmoid是激活函数。
在图5中,本实施例的第二条件参数化卷积层由局部重要性池化层与第二全连接层、双线性插值层、修正线性单元层依次串联构成。
第二条件参数化卷积层的构建方法为:
CPConv2(x)=(α1′W1+...+αn′Wn)*x
其中,α′为路由函数ξ计算得到的权重,W是初始化权重,n为有限的正整数。
路由函数ξ由局部重要性池化层与第二全连接层、双线性插值层、修正线性单元层依次串联构成,路由函数ξ的构建方法为:
ξ=ReLU(BI(FC(LIPool(x))))
其中,LIPool是局部重要性池化,FC是全连接,BI是双线性插值操作,ReLU是修正线性单元。
在图6、7中,本实施例的线性密集连接混合神经网络由因果卷积层与第一空洞残差块、第二空洞残差块、Transformer网络、第三空洞残差块、深度可分离卷积层依次串联构成。
线性密集连接混合神经网络的构建方法为:
Zl=Hl([Z0,Z1,...,Zl-1])
其中,[Z0,Z1,...,Zl-1]是指第0层到第l层生成的特征图的串联,l的取值范围为1-5。Hl是一个复合操作,包括批量归一化、修正线性单元、卷积操作。
各空洞残差块的输出方法为:
Y=(Vg,i(sigmoid(Wg,i*ui+b))+b′)⊙(Vf,i(tanh(Wf,i*ui+c))+c′)
其中,⊙为逐元素点积,W和V是可学习的权重,b、b′、c、c′是偏差,i是层的索引,i的取值为1,2,3,f和g是滤波器和门,tanh和sigmoid是激活函数,ui为空洞卷积层的输入。
本实施例的因果卷积层的卷积核大小为1×1、步长为1。本实施例的第一空洞残差块由空洞卷积层、sigmoid激活函数层、tanh激活函数层、第一线性层、第二线性层、卷积层构成,空洞卷积层的输出端与并联的sigmoid激活函数层、tanh激活函数层的输入端相连,sigmoid激活函数层的输出端与第一线性层的输入端相连,tanh激活函数层的输出端与第二线性层的输入端相连,第一线性层的输出端和第二线性层的输出端与卷积层的输入端相连。第二空洞残差块和第三空洞残差块的结构与第一空洞残差块的结构相同。空洞卷积层的卷积核大小为3×3、步长为1、空洞率为2,卷积层的卷积核大小为1×1、步长为1。本实施例的深度可分离卷积层的卷积核大小为3×3、步长为1。
(4)训练组合卷积神经网络
1)确定目标函数
目标函数包括二进制交叉熵损失函数L、均方误差损失函数MSE、评价函数F1、评价函数ER、评价函数DOAerror、评价函数Framerecall,按下式确定二进制交叉熵损失函数L:
Figure BDA0003894142440000111
其中,y是真实的标签值,y∈{0,1},
Figure BDA0003894142440000112
是预测的概率值,
Figure BDA0003894142440000113
按下式确定均方误差损失函数MSE:
Figure BDA0003894142440000114
其中,n是样本的数量,n为有限的正整数,yi是第i个样本的实际值,yi′是第i个样本的预测值。
按下式确定准确率和召回率两者综合指标的评价函数F1:
Figure BDA0003894142440000121
Figure BDA0003894142440000122
Figure BDA0003894142440000123
其中,P是准确率,R是召回率,TP是真正例,FP是假正例,FN是假负例。
按下式确定错误发生数目的评价函数ER:
Figure BDA0003894142440000124
S(k)=min(FN(k),FP(k))
D(k)=max(0,FN(k)-FP(k))
I(k)=max(0,FP(k)-FN(k))
其中,FN(k)表示系统输出中第k段中的假负例事件,FP(k)表示系统输出中第k段中的假正例事件。
按下式确定评价函数DOAerror:
Figure BDA0003894142440000125
其中,
Figure BDA0003894142440000126
表示第t时间的参考角度,
Figure BDA0003894142440000127
表示第t时间的估计角度,
Figure BDA0003894142440000128
表示估计
Figure BDA0003894142440000129
在第t个时间的总的角度数,H是指解决任务分配的匈牙利方法,评价函数DOAerror是实际参考角度与系统估计角度之间的误差。
按下式确定评价函数Framerecall:
Figure BDA00038941424400001210
其中,1()表示满足
Figure BDA00038941424400001211
的条件,输出1,否则输出0,
Figure BDA00038941424400001212
表示参考
Figure BDA00038941424400001213
在第t个时间总的角度数,T表示时间帧,且不等于0。
2)训练组合卷积神经网络
将提取的梅尔频谱图特征m和广义互相关-相位变换特征Ry1y2(τ)送入双分支卷积神经网络中,进行深度语音特征提取,将双分支卷积神经网络输出的深度语音特征,输入线性密集连接混合神经网络中对语音的时间依赖性进行建模,在训练过程中,组合卷积神经网络的学习率r∈[10-5,10-3],本实施例的学习率r取值为10-4,优化器采用Adam优化器,迭代至损失函数L和MSE收敛。
(5)测试组合卷积神经网络
将测试集输入到训练好的组合卷积神经网络中进行测试。
(6)检测和定位声音事件
使用全连接层中的Sigmoid激活函数进行激活,Sigmoid激活函数的取值范围为0~1之间,Sigmoid激活函数的值大于0.5时,检测声音事件存在,则对其进行到达方向的估计;声音事件位置距离为1m时,参考方位角为[-180°,180°]、参考仰角为[-40°,40°],声音事件位置距离为2m时,参考方位角为[-180°,180°]、参考仰角为[-20°,20°],以每间隔10°为一个划分。
取标签中所有的参考方位角为数组M,按下式确定估计方位角γ:
Figure BDA0003894142440000131
取标签中所有的参考仰角为数组N,按下式确定估计仰角β:
Figure BDA0003894142440000132
将估计方位角γ和估计仰角β与参考方位角和参考仰角通过评价函数DOAerror计算得到两者之间的平均角度误差。误差越小,说明定位越准确。
完成基于组合卷积神经网络的声音事件检测与定位方法。
实施例2
本实施例的基于组合卷积神经网络的声音事件检测与定位方法由下述步骤组成。
(1)数据集预处理
该步骤与实施例1相同。
(2)提取特征
该步骤与实施例1相同。
(3)构建组合卷积神经网络
该步骤与实施例1相同。
(4)训练组合卷积神经网络
1)确定目标函数
该步骤与实施例1相同。
2)训练组合卷积神经网络
将提取的梅尔频谱图特征m和广义互相关-相位变换特征Ry1y2(τ)送入双分支卷积神经网络中,进行深度语音特征提取,将双分支卷积神经网络输出的深度语音特征,输入线性密集连接混合神经网络中对语音的时间依赖性进行建模,在训练过程中,组合卷积神经网络的学习率r∈[10-5,10-3],本实施例的学习率r的取值为10-5,优化器采用Adam优化器,迭代至损失函数L和MSE收敛。
其他步骤与实施例1相同。完成基于组合卷积神经网络的声音事件检测与定位方法。
实施例3
本实施例的基于组合卷积神经网络的声音事件检测与定位方法由下述步骤组成。
(1)数据集预处理
该步骤与实施例1相同。
(2)提取特征
该步骤与实施例1相同。
(3)构建组合卷积神经网络
该步骤与实施例1相同。
(4)训练组合卷积神经网络
1)确定目标函数
该步骤与实施例1相同。
2)训练组合卷积神经网络
将提取的梅尔频谱图特征m和广义互相关-相位变换特征Ry1y2(τ)送入双分支卷积神经网络中,进行深度语音特征提取,将双分支卷积神经网络输出的深度语音特征,输入线性密集连接混合神经网络中对语音的时间依赖性进行建模,在训练过程中,组合卷积神经网络的学习率r∈[10-5,10-3],本实施例的学习率r的取值为10-3,优化器采用Adam优化器,迭代至损失函数L和MSE收敛。
其他步骤与实施例1相同。完成基于组合卷积神经网络的声音事件检测与定位方法。
为了验证本发明的有益效果,发明人采用本发明实施例1的组合卷积神经网络的声音事件检测与定位方法与卷积循环神经网络(以下简称CRNN)、挤压激励的卷积循环神经网络(以下简称SE-CRNN)、上下文门控的卷积循环神经网络(以下简称CG-CRNN)进行了对比实验,实验结果见表1。
表1本发明与3种方法的对比实验结果
实验方法 错误率ER F分数F1(%) 误差DOA error(°) 帧召回Frame recall(%)
CRNN 0.28 85.4 24.6 85.7
SE-CRNN 0.25 85.8 23.9 86.7
CG-CRNN 0.19 88.7 24.4 90.3
本发明方法 0.23 87.1 22.4 90.2
由表1可知,以DOA error为主要的衡量指标,本发明方法比CRNN方法的DOA error降低了2.2,比SE-CRNN方法的DOA error降低了1.5,比CG-CRNN方法的DOA error降低了2.0。

Claims (7)

1.一种基于组合卷积神经网络的声音事件检测与定位方法,其特征在于它由下述步骤组成:
(1)数据集预处理
从TAU空间声音事件数据集中提取语音信号,包含11种声音事件类别,清嗓、咳嗽声、摁门铃、推门声、抽屉声、键盘声、敲门声、说话声、笑声、翻书声、电话铃声,将TAU空间声音事件数据集按照4:1的比例分成训练集、测试集;
(2)提取特征
将语音信号按下式提取梅尔频谱图特征m:
Figure FDA0003894142430000011
其中,f表示实际频率,按下式确定广义互相关-相位变换特征Ry1y2(τ):
Figure FDA0003894142430000012
其中,Gx1x2(f)表示x1、x2两路信号的功率谱,
Figure FDA0003894142430000013
表示相位变换加权函数,τ表示时间延迟;
(3)构建组合卷积神经网络
组合卷积神经网络由双分支卷积神经网络与线性密集连接混合神经网络、全连接层依次串联构成;
所述的双分支卷积神经网络由第一分支卷积神经网络、第二分支卷积神经网络、特征融合网络构成,第一分支卷积神经网络与第二分支卷积神经网络并联后的输出端与特征融合网络的输入端相连;
所述的线性密集连接混合神经网络由因果卷积层与第一空洞残差块、第二空洞残差块、Transformer网络、第三空洞残差块、深度可分离卷积层依次串联构成;
(4)训练组合卷积神经网络
1)确定目标函数
目标函数包括二进制交叉熵损失函数L、均方误差损失函数MSE、评价函数F1、评价函数ER、评价函数DOAerror、评价函数Framerecall,按下式确定二进制交叉熵损失函数L:
Figure FDA0003894142430000021
其中y是真实的标签值,y∈{0,1},
Figure FDA0003894142430000022
是预测的概率值,
Figure FDA0003894142430000023
按下式确定均方误差损失函数MSE:
Figure FDA0003894142430000024
其中n是样本的数量,n为有限的正整数,yi是第i个样本的实际值,yi′是第i个样本的预测值;
按下式确定准确率和召回率两者综合指标的评价函数F1:
Figure FDA0003894142430000025
Figure FDA0003894142430000026
Figure FDA0003894142430000027
其中,P是准确率,R是召回率,TP是真正例,FP是假正例,FN是假负例;
按下式确定错误发生数目的评价函数ER:
Figure FDA0003894142430000028
S(k)=min(FN(k),FP(k))
D(k)=max(0,FN(k)-FP(k))
I(k)=max(0,FP(k)-FN(k))
其中,FN(k)表示系统输出中第k段中的假负例事件,FP(k)表示系统输出中第k段中的假正例事件;
按下式确定评价函数DOAerror:
Figure FDA0003894142430000031
其中,
Figure FDA0003894142430000032
表示第t时间的参考角度,DOAtE表示第t时间的估计角度,
Figure FDA0003894142430000033
表示估计
Figure FDA0003894142430000034
在第t个时间的总的角度数,H是指解决任务分配的匈牙利方法;
按下式确定评价函数Framerecall:
Figure FDA0003894142430000035
其中,1()表示满足
Figure FDA0003894142430000036
的条件,输出1,否则输出0,
Figure FDA0003894142430000037
表示参考
Figure FDA0003894142430000038
在第t个时间总的角度数,T表示时间帧,且不等于0;
2)训练组合卷积神经网络
将提取的梅尔频谱图特征m和广义互相关-相位变换特征Ry1y2(τ)送入双分支卷积神经网络中,进行深度语音特征提取,将双分支卷积神经网络输出的深度语音特征,输入线性密集连接混合神经网络中对语音的时间依赖性进行建模,在训练过程中,组合卷积神经网络的学习率r∈[10-5,10-3],优化器采用Adam优化器,迭代至损失函数L和MSE收敛;
(5)测试组合卷积神经网络
将测试集输入到训练好的组合卷积神经网络中进行测试;
(6)检测和定位声音事件
使用全连接层中的Sigmoid激活函数进行激活,Sigmoid激活函数的取值范围为0~1之间,Sigmoid激活函数的值大于0.5时,检测声音事件存在,则对其进行到达方向的估计;声音事件位置距离为1m时,参考方位角为[-180°,180°]、参考仰角为[-40°,40°],声音事件位置距离为2m时,参考方位角为[-180°,180°]、参考仰角为[-20°,20°],以每间隔10°为一个划分;
取标签中所有的参考方位角为数组M,按下式确定估计方位角γ:
Figure FDA0003894142430000041
取标签中所有的参考仰角为数组N,按下式确定估计仰角β:
Figure FDA0003894142430000042
将估计方位角γ和估计仰角β与参考方位角和参考仰角通过评价函数DOAerror计算得到两者之间的平均角度误差。
2.根据权利要求1所述的基于组合卷积神经网络的声音事件检测与定位方法,其特征在于:在(3)步骤中,所述的第一分支卷积神经网络由第一条件参数化卷积层与第一批量归一化层、第一修正线性单元层依次串联构成;
第一分支卷积神经网络的构建方法为:
Output1(x)=ReLU(BN(CPConv1(x)))
其中,CPConv1是第一条件参数化卷积,BN是批量归一化,ReLU是修正线性单元,x是提取的梅尔频谱图特征和广义互相关-相位变换特征;
第二分支卷积神经网络由第二条件参数化卷积层与第二批量归一化层、第二修正线性单元层依次串联构成;
第二分支卷积神经网络的构建方法为:
Output2(x)=ReLU(BN(CPConv2(x)))
其中,CPConv2是第二条件参数化卷积,BN是批量归一化,ReLU是修正线性单元,x是提取的梅尔频谱图特征和广义互相关-相位变换特征。
所述的特征融合网络由卷积层与全局平均池化层、全连接层、softmax函数层依次串联构成,卷积层的卷积核大小为1×1、步长为1。
3.根据权利要求2所述的基于组合卷积神经网络的声音事件检测与定位方法,其特征在于:所述的第一条件参数化卷积层由平均池化层与第一全连接层、反卷积层、sigmoid激活函数层依次串联构成;
第一条件参数化卷积层的构建方法为:
CPConv1(x)=(α1W1+...+αnWn)*x
其中,α为路由函数λ计算得到的权重,W是初始化权重,n为有限的正整数,*为卷积操作;
路由函数λ由平均池化层与第一全连接层、反卷积层、Sigmoid激活函数层依次串联构成;
路由函数λ的构建方法为:
λ=Sigmoid(Tconv(FC(AvgPool(x))))
其中AvgPool是平均池化、FC是全连接,Tconv是反卷积,Sigmoid是激活函数;
所述的第二条件参数化卷积层由局部重要性池化层与第二全连接层、双线性插值层、修正线性单元层依次串联构成;
第二条件参数化卷积层的构建方法为:
CPConv2(x)=(α1′W1+...+αn′Wn)*x
其中,α′为路由函数ξ计算得到的权重,W是初始化权重,n为有限的正整数;
路由函数ξ由局部重要性池化层与第二全连接层、双线性插值层、修正线性单元层依次串联构成,路由函数ξ的构建方法为:
ξ=ReLU(BI(FC(LIPool(x))))
其中,LIPool是局部重要性池化,FC是全连接,BI是双线性插值操作,ReLU是修正线性单元。
4.根据权利要求1所述的基于组合卷积神经网络的声音事件检测与定位方法,其特征在于:在(3)步骤中,所述的线性密集连接混合神经网络由因果卷积层与第一空洞残差块、第二空洞残差块、Transformer网络、第三空洞残差块、深度可分离卷积层依次串联构成;
线性密集连接混合神经网络的构建方法为:
Zl=Hl([Z0,Z1,...,Zl-1])
其中,[Z0,Z1,...,Zl-1]是指第0层到第l层生成的特征图的串联,l的取值范围为1-5。Hl是一个复合操作,包括批量归一化、修正线性单元、卷积操作。
5.根据权利要求1所述的基于组合卷积神经网络的声音事件检测与定位方法,其特征在于:在(3)步骤中,所述的因果卷积层的卷积核大小为1×1、步长为1;所述的第一空洞残差块由空洞卷积层、sigmoid激活函数层、tanh激活函数层、第一线性层、第二线性层、卷积层构成,空洞卷积层的输出端与并联的sigmoid激活函数层、tanh激活函数层的输入端相连,sigmoid激活函数层的输出端与第一线性层的输入端相连,tanh激活函数层的输出端与第二线性层的输入端相连,第一线性层的输出端和第二线性层的输出端与卷积层的输入端相连;所述的第二空洞残差块和第三空洞残差块的结构与第一空洞残差块的结构相同。
各空洞残差块的输出方法为:
Y=(Vg,i(sigmoid(Wg,i*ui+b))+b′)⊙(Vf,i(tanh(Wf,i*ui+c))+c′)
其中,*为卷积操作,⊙为逐元素点积,W和V是可学习的权重,b、b′、c、c′是偏差,i是层的索引,i的取值为1,2,3,f和g是滤波器和门,tanh和sigmoid是激活函数,ui为空洞卷积层的输入。
6.根据权利要求5所述的基于组合卷积神经网络的声音事件检测与定位方法,其特征在于:所述的空洞卷积层的卷积核大小为3×3、步长为1、空洞率为2,卷积层的卷积核大小为1×1、步长为1。
7.根据权利要求1所述的基于组合卷积神经网络的声音事件检测与定位方法,其特征在于:在(3)步骤中,所述的深度可分离卷积层的卷积核大小为3×3、步长为1。
CN202211268616.8A 2022-10-17 2022-10-17 基于组合卷积神经网络的声音事件检测与定位方法 Pending CN115631771A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211268616.8A CN115631771A (zh) 2022-10-17 2022-10-17 基于组合卷积神经网络的声音事件检测与定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211268616.8A CN115631771A (zh) 2022-10-17 2022-10-17 基于组合卷积神经网络的声音事件检测与定位方法

Publications (1)

Publication Number Publication Date
CN115631771A true CN115631771A (zh) 2023-01-20

Family

ID=84905056

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211268616.8A Pending CN115631771A (zh) 2022-10-17 2022-10-17 基于组合卷积神经网络的声音事件检测与定位方法

Country Status (1)

Country Link
CN (1) CN115631771A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117111013A (zh) * 2023-08-22 2023-11-24 南京慧尔视智能科技有限公司 一种雷达目标跟踪航迹起始方法、装置、设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117111013A (zh) * 2023-08-22 2023-11-24 南京慧尔视智能科技有限公司 一种雷达目标跟踪航迹起始方法、装置、设备及介质
CN117111013B (zh) * 2023-08-22 2024-04-30 南京慧尔视智能科技有限公司 一种雷达目标跟踪航迹起始方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN108596327B (zh) 一种基于深度学习的地震速度谱人工智能拾取方法
CN109841226A (zh) 一种基于卷积递归神经网络的单通道实时降噪方法
CN109036467B (zh) 基于tf-lstm的cffd提取方法、语音情感识别方法及系统
CN114220271A (zh) 基于动态时空图卷积循环网络的交通流预测方法、设备及存储介质
CN112799128B (zh) 一种地震信号检测和震相提取的方法
CN110287770B (zh) 一种基于卷积神经网络的水中个体目标匹配识别方法
CN114022812B (zh) 一种基于轻量化SSD的DeepSort水面漂浮物多目标跟踪方法
CN112949821B (zh) 基于双重注意力机制的网络安全态势感知方法
CN112414715B (zh) 基于混合特征与改进灰度共生算法的轴承故障诊断方法
CN112766229A (zh) 基于注意力机制的人脸点云图像智能识别系统及方法
CN112949481A (zh) 一种用于说话人无关的唇语识别方法及系统
CN115631771A (zh) 基于组合卷积神经网络的声音事件检测与定位方法
CN111858565B (zh) 一种基于线段聚类的多维度高精度航迹智能预测方法
CN115862319A (zh) 一种面向时空图自编码器的交通流量预测方法
Mustika et al. Comparison of keras optimizers for earthquake signal classification based on deep neural networks
CN112711032B (zh) 一种基于图数据和gcn的雷达目标检测方法及系统
CN114282647A (zh) 基于脉冲神经网络的神经形态视觉传感器目标检测方法
CN117390506A (zh) 一种基于网格编码与TextRCNN的船舶路径分类方法
CN116630728A (zh) 基于注意力残差孪生网络的加工精度预测方法
CN111652021B (zh) 一种基于bp神经网络的人脸识别方法及系统
CN111797979A (zh) 基于lstm模型的振动传递系统
CN111626324A (zh) 基于边缘计算的海底观测网数据异构解析集成方法
CN114742265B (zh) 一种vhf信号传播路径误差预测方法及系统
CN116451131A (zh) 一种基于自监督时间卷积网络的雷达脉冲序列识别方法
CN115937524A (zh) 一种基于动态知识蒸馏的类增量语义分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination