CN110580915B

CN110580915B - 基于可穿戴式设备的声源目标识别系统

Info

Publication number: CN110580915B
Application number: CN201910874151.2A
Authority: CN
Inventors: 崔敏; 王彦博; 李剑; 王小亮; 刘泽鹏; 李冒金; 王鹏程; 刘志伟
Original assignee: North University of China
Current assignee: North University of China
Priority date: 2019-09-17
Filing date: 2019-09-17
Publication date: 2022-03-25
Anticipated expiration: 2039-09-17
Also published as: CN110580915A

Abstract

本发明属于声音信号处理技术领域，具体涉及一种基于可穿戴式设备的声源目标识别系统。本发明技术方案中，首先，两组训练稠密卷积编码‑解码网络对输入数据与人工提取特征分别训练编码网络抽象高级特征，基于稠密卷积的使用可以使我们能够训练深度更深的编码网络并增强重复特征的使用。其次，设计融合层融合两种编码网络提取的特征，最后利用一个卷积网络实现声源信号的分类。最终，本发明技术方案解决了现有技术中对识别精度产生负面影响、以及卷积网络当层数加深时还存在梯度消失或爆炸，特征重复利用率等缺陷的问题。

Description

基于可穿戴式设备的声源目标识别系统

技术领域

本发明属于声音信号处理技术领域，具体涉及一种基于可穿戴式设备的声源目标识别系统。

背景技术

声源目标识别是智能机器人系统两项关键技术--视觉目标识别与声源目标识别技术之一。特别地当智能机器人在遮挡、烟雾、伪装、干扰等场景，光学和电磁探测设备无法使用的情况下，声学传感器仍然可以维持机器人对环境的感知，实现声源目标识别从而辅助机器人控制与决策。

声源目标识别的难点在于从复杂噪声环境中精确识别目标。传统的声源目标识别基于特征工程方法，即预先经过人工设计并从音频信号中提取的特征。提取特征后采用高斯混合模型、支撑向量机等模型聚类或分类，对其分类精度通常在65％～75％范围之内(TUT Acoustic Scenes 2017测试集)。传统声源目标识别技术识别精度不高的原因是人工设计特征偏重于对声音信号的整体认识如声高、音调以及沉默率，对于输入声音信号的逐层抽象能力不足。

目前流行的声源目标识别方法是基于不同卷积网络架构的深度学习方法。不同于传统方法依赖于特征工程，深度学习自动从输入数据(通常为经过短时傅里叶变换后的原始数据)逐层抽象并凝练特征最终用于声源目标识别任务，调参后，该方法通常可达到75％～85％(TUT Acoustic Scenes 2017测试集)的识别精度。卷积神经网络理论上仍有进一步提升的空间，由于卷积神经网络基于局部连接并权值共享使得卷积滤波器很难提取整体的高频(边缘和细节)信息，从而对识别精度产生负面影响。另外卷积网络当层数加深时还存在梯度消失或爆炸，特征重复利用率等缺陷。

发明内容

(一)要解决的技术问题

本发明要解决的技术问题是：如何提供一种基于可穿戴式设备的声源目标识别系统。

(二)技术方案

为解决上述技术问题，本发明提供一种基于可穿戴式设备的声源目标识别系统，所述系统包括：传感器网络布设模块、声源信号采集模块、梅尔波段能量特征提取模块、人工设计特征提取模块、第一网络训练模块、第二网络训练模块、测试模块；

(1)传感器网络布设模块

所述传感器网络布设模块用于布阵声源识别传感器网络，其采用25元声音传感器构成立体阵列，进行声源信息探测定位，坐标原点设置声音传感器1，以XOY为平面，以1m为半径，等间距布设12个声音传感器，以XOZ为平面，以1m为半径，等间距布设12个声音传感器；由此共布设25个声音传感器；

(2)声源信号采集模块

所述声源信号采集模块用于采集声源传感器阵列信号；其包括：训练样本信号采集单元及测试样本信号采集单元；

(2.1)训练样本信号采集单元

所述训练样本信号采集单元用于采集训练样本信号，其将K类声源发生装置随机放置到传感器网络布阵区域内，由每类发生装置产生M个t秒声源样本信号共随机放置s次，声源信号发生后采用多路信号调理模块和多通道数据采集传输模块，采集到K类25通道M×s个t秒时长的传感器接收信号，作为声源信号传输至控制终端传感器：

X⁽ⁱ⁾(i＝1,2,...K×M×s)

并记录相应声源样本信号类型标签：

Y⁽ⁱ⁾∈R^K(i＝1,2,...K×M×s)

标记传感器接收信号类型的标签同样为Y⁽ⁱ⁾；

将(X⁽ⁱ⁾,Y⁽ⁱ⁾)作为训练样本，并对训练样本分别通过梅尔波段能量特征提取模块、人工设计特征提取模块来进行处理；

(2.2)测试样本信号采集单元

所述测试样本信号采集单元用于采集测试样本信号，其根据所述训练样本信号采集单元的采集方法再采集产生M^test个t秒共随机放置s^test次，获得声源样本信号并记录相应类型标签作为测试样本：

(3)梅尔波段能量特征提取模块，其包括：分帧单元、加窗单元、

所述梅尔波段能量特征提取模块用于提取声源信号的梅尔波段能量特征，其对采集到的25通道t秒时长的训练样本信号：

(X⁽ⁱ⁾,Y⁽ⁱ⁾)(i＝1,2,...K×M×s)；

所述梅尔波段能量特征提取模块包括：第一分帧单元、加窗单元、梅尔谱能量计算单元；

(3.1)第一分帧单元，其用于分帧声源信号；

为了做频域变换时，不损失声音信号的时序信息，首先将s秒训练样本信号X⁽ⁱ⁾∈R^(K×M×s)分为P帧，每一帧信号T₁毫秒，相邻帧间有T₂毫秒重叠；满足关系：

得到分帧训练样本信号：

(3.2)加窗单元，其用于加窗分帧后的声源信号；

为了消除各帧信号两端的不连续性，对分帧训练样本信号

加上40毫秒的哈明窗口；

(3.3)梅尔谱能量计算单元，其用于计算梅尔谱能量；

对于每一帧信号使用短时傅立叶变换，计算对数梅尔谱能量：

然后分割为P个尺度的梅尔波段能量特征样本

共得到K×M×s个梅尔波段能量特征

训练样本；

(4)人工设计特征提取模块

所述人工设计特征提取模块用于提取声源信号的人工设计特征；

对采集到的25通道t秒时长的训练样本信号

(X⁽ⁱ⁾,Y⁽ⁱ⁾)(i＝1,2,...K×M×s)；

所述人工设计特征提取模块包括：第二分帧单元、人工设计特征提取单元；

(4.1)第二分帧单元，其用于分帧声源信号；

为了做频域变换时，不损失声音信号的时序信息，首先将s秒训练样本信号X⁽ⁱ⁾∈R^(K×M×s)分为Q帧，每一帧信号T₁'毫秒，相邻帧间有T₂'毫秒重叠；满足关系：

得到分帧训练样本信号

(4.2)人工设计特征提取单元，其利用开源工具提取人工设计特征；

对于单通道内每一帧训练样本信号

进行人工设计特征提取，使用开源工具进行人工设计特征提取；选用的特征包括：大声喊叫域能量、等效矩形带宽能量、梅尔能量、谱能量、声调、音高、沉默率、梅尔倒谱系数、伽马语调系数共计Q个手工特征，得人工设计特征

共得到K×M×s个人工设计特征

训练样本；

(5)第一网络训练模块

所述第一网络训练模块用于训练稠密卷积编码网络，获得特征编码方式；

所述第一网络训练模块包括：第一编码解码网络训练单元、第二编码解码网络训练单元；

(5.1)所述第一编码解码网络训练单元用于训练编码解码网络ECNet₁；

对于梅尔波段能量特征提取模块的K×M×s个25通道梅尔波段能量特征

训练样本；通过梅尔波段能量特征

训练样本训练编码解码网络ECNet₁；编码解码网络ECNet₁由卷积层C1、稠密模块、卷积层C2、卷积层C3、卷积层C4、卷积层C5组成，输出为解码信号

其中，稠密模块由3个稠密卷积层组成，通过两两组合组成10种连接方式；除了第C1个卷积层，其余卷积层都按概率20％使用了隐正则化处理方法；编码解码网络的优化准则为最小化下列损失函数：

训练得到编解码网络ECNet₁的参数

(5.2)第二编码解码网络训练单元

所述第二编码解码网络训练单元用于训练编码解码网络ECNet₂；

所述第二编码解码网络训练单元通过梅尔波段能量特征提取模块的K×M×s个25通道人工设计特征

训练样本训练编码解码网络ECNet₂，编码解码网络ECNet₂由卷积层C1、稠密模块、卷积层C2、卷积层C3、卷积层C4、卷积层C5组成，输出为解码信号

其中密连模块由3个稠密卷积层组成，通过两两组合组成10种连接方式；除了第C1个卷积层,其余卷积层都按概率20％使用了隐正则化处理方法；编码解码网络的优化准则为最小化如下损失函数：

训练得到网络ECNet₂的参数

(6)第二网络训练模块

所述第二网络训练模块用于训练特征融合网络FusedNet；

特征融合网络由3部分组成：预训练的编码网络1和预训练的编码网络2，特征融合层以及卷积分类层；其中，预训练的编码网络1和预训练的编码网络2的参数分别为

所述第二网络训练模块包括：数据输入单元、编码特征融合单元、卷积子网络构建及训练单元；

(6.1)所述数据输入单元用于利用编码网络编码输入数据；

其将25通道梅尔波段能量特征

训练样本当作能量谱特征输入编码网络1编码梅尔波段能量特征；

编码网络1：将P×P×25梅尔谱能级特征输入编码网络1，提取到P×P×100个特征图F₁₁；

将25通道人工提取特征

训练样本当人工设计特征输入编码网络2编码人工设计能量特征；

编码网络2：将Q×Q×25人工设计特征输入编码网络2，提取到Q×Q×100个特征图F₁₂；

(6.2)编码特征融合单元

所述编码特征融合单元用于融合编码特征；

其对编码网络1得到的P×P×100个特征图F₁₁经过W₁×W₁的池化单元池化为W×W×100个特征图F₂₁；满足关系：

对编码网络2得到的Q×Q×100个特征图F₁₂经过W₂×W₂的池化单元池化为W×W×100个特征图F₂₂；满足关系：

将特征图F₁₁与F₁₂堆叠成W×W×200个特征图F；

F＝[F₂₁,F₂₂]；

(6.3)卷积子网络构建及训练单元

所述卷积子网络构建及训练单元用于构建并训练FusedNet中用于分类的卷积子网络Lenet-5；

所述卷积子网络构建及训练单元构建卷积子网络Lenet-5的过程如下：

将W×W×200个特征图F输入卷积分类网络，以Lenet-5为例，卷积分类网络由卷积层C6、池化层P6、卷积层C7、池化层P7与一个全连接层组成；全连接层输出特征的5维稠密表示[y₁,y₂,y₃,y₄,y₅]，

经过Softmax变换

后，

表示属于五类中某类的概率；卷积分类网络(Lenet-5)结构具体如表4所示；

表4.卷积分类网络(Lenet-5)具体结构

所述卷积子网络构建及训练单元训练卷积子网络Lenet-5的过程如下：

把K×M×s个样本输入卷积分类网络，输入交叉熵损失函数进行分类预测

对比，优化参数；

各层都按概率20％使用了隐正则化处理方法；采用交叉熵损失函数，迭代50次，训练过程中一次取1000批次样本训练，学习率取0.01；得到卷积分类网络的参数Θ^conv；

(7)测试模块

所述测试模块用于测试FusedNet分类结果；

其将测试样本

输入网络得到预测分类结果Y_i ^pred,与真实标签Y_i ^test对比，统计预测正确率。

其中，所述声音传感器采用i436型拾音器。

其中，所述K类声源发生装置包括：枪声、炮声、喊话声、脚步声、机车声。

其中，所述开源工具采用Freesound开源工具。

其中，所述隐正则化处理方法包括随机失活算法。

其中，所述多通道数据采集传输模块嵌入在上位机当中，便于便携式采集数据。

其中，所述信号调理模块采用AGC自动增益放大电路。

其中，所述多通道数据采集传输模块采用24通道A/D采集卡。

其中，所述编码解码网络ECNet₁结构具体如表2所示；迭代训练20次，训练过程中一次取1000批次样本训练，学习率取0.01；训练得到编解码网络ECNet₁的参数

表2.编解码网络ECNet₁具体结构

其中，编码解码网络ECNet₂结构具体如表3所示；迭代训练ECNet₂ 20次，训练过程中一次取1000批次样本训练，学习率取0.01；训练得到网络ECNet₂的参数

表3.编解码网络具体结构

(三)有益效果

与现有技术相比较，本发明提出了一种基于可穿戴式设备的声源目标识别系统。首先，两组训练稠密卷积编码-解码网络对输入数据与人工提取特征分别训练编码网络抽象高级特征，基于稠密卷积的使用可以使我们能够训练深度更深的编码网络并增强重复特征的使用。其次，设计融合层融合两种编码网络提取的特征，最后利用一个卷积网络实现声源信号的分类。最终，本发明技术方案解决了现有技术中对识别精度产生负面影响、以及卷积网络当层数加深时还存在梯度消失或爆炸，特征重复利用率等缺陷的问题。

附图说明

图1为声源获取传感器阵列布置示意图。

图2为编码解码网络示意图。

图3为特征融合声源分类网络示意图。

图4为训练特征融合网络流程图。

具体实施方式

为使本发明的目的、内容、和优点更加清楚，下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。

为解决现有技术问题，本发明提供一种基于可穿戴式设备的声源目标识别系统，所述系统包括：传感器网络布设模块、声源信号采集模块、梅尔波段能量特征提取模块、人工设计特征提取模块、第一网络训练模块、第二网络训练模块、测试模块；

(1)传感器网络布设模块

所述传感器网络布设模块用于布阵声源识别传感器网络，其采用25元声音传感器构成立体阵列，进行声源信息探测定位，如图1所示，坐标原点设置声音传感器1，以XOY为平面，以1m为半径，等间距布设12个声音传感器，以XOZ为平面，以1m为半径，等间距布设12个声音传感器；由此共布设25个声音传感器；

(2)声源信号采集模块

(2.1)训练样本信号采集单元

X⁽ⁱ⁾(i＝1,2,...K×M×s)

并记录相应声源样本信号类型标签：

Y⁽ⁱ⁾∈R^K(i＝1,2,...K×M×s)的一位有效编码(one-hot向量)；

标记传感器接收信号类型的标签同样为Y⁽ⁱ⁾；

(2.2)测试样本信号采集单元

(X⁽ⁱ⁾,Y⁽ⁱ⁾)(i＝1,2,...K×M×s)；

(3.1)第一分帧单元，其用于分帧声源信号；

得到分帧训练样本信号：

(3.2)加窗单元，其用于加窗分帧后的声源信号；

为了消除各帧信号两端的不连续性，对分帧训练样本信号

加上40毫秒的哈明(Hamming)窗口；

(3.3)梅尔谱能量计算单元，其用于计算梅尔(Mel)谱能量；

对于每一帧信号使用短时傅立叶变换(SFT)，计算对数梅尔谱能量：

然后分割为P个尺度的梅尔波段能量特征样本

共得到K×M×s个梅尔波段能量特征

训练样本；

(4)人工设计特征提取模块

对采集到的25通道t秒时长的训练样本信号

(X⁽ⁱ⁾,Y⁽ⁱ⁾)(i＝1,2,...K×M×s)；

(4.1)第二分帧单元，其用于分帧声源信号；

得到分帧训练样本信号

对于单通道内每一帧训练样本信号

进行人工设计特征提取，使用开源工具进行人工设计特征提取；选用的特征包括：大声喊叫域(Bark)能量、等效矩形带宽(ERB)能量、梅尔能量、谱能量、声调(Tonal)、音高(Pitch)、沉默(Silence)率、梅尔倒谱系数、伽马语调系数共计Q个手工特征如表1所示，得人工设计特征

表1.Freesound特征提取器提取到的特征(以Q＝362为例)

共得到K×M×s个人工设计特征

训练样本；

(5)第一网络训练模块

训练样本；通过梅尔波段能量特征

其中，稠密模块由3个稠密卷积层组成，如图2所示，通过两两组合组成10种连接方式；除了第C1个卷积层，其余卷积层都按概率20％使用了隐正则化处理方法如：随机失活(dropout算法)；编码解码网络的优化准则为最小化下列损失函数：

网络具体分层设计如表2.示例为佳；

编码解码网络ECNet₁结构具体如表2所示。迭代训练20次，训练过程中一次取1000批次样本训练，学习率取0.01；训练得到编解码网络ECNet₁的参数

表2.编解码网络ECNet₁具体结构

(5.2)第二编码解码网络训练单元

其中密连模块由3个稠密卷积层组成，如图2所示，通过两两组合组成10种连接方式；除了第C1个卷积层,其余卷积层都按概率20％使用了隐正则化处理方法如：随机失活(dropout算法)；编码解码网络的优化准则为最小化如下损失函数：

网络具体设计如表3示例为佳。

编码解码网络ECNet₂结构具体如表3所示。迭代训练ECNet₂20次，训练过程中一次取1000批次样本训练，学习率取0.01；训练得到网络ECNet₂的参数

表3.编解码网络具体结构

(6)第二网络训练模块

所述第二网络训练模块用于训练特征融合网络FusedNet；

如图3，特征融合网络由3部分组成：预训练的编码网络1和预训练的编码网络2，特征融合层以及卷积分类层(以Lenet-5为例，参数为Θ^conv)；具体流程图如图4；其中，预训练的编码网络1和预训练的编码网络2的参数分别为

(6.1)所述数据输入单元用于利用编码网络编码输入数据；

其将25通道梅尔波段能量特征

将25通道人工提取特征

(6.2)编码特征融合单元

所述编码特征融合单元用于融合编码特征；

将特征图F₁₁与F₁₂堆叠成W×W×200个特征图F；

F＝[F₂₁,F₂₂]；

(6.3)卷积子网络构建及训练单元

经过Softmax变换

后，

表4.卷积分类网络(Lenet-5)具体结构

对比，优化参数；

各层都按概率20％使用了隐正则化处理方法如：随机失活(dropout算法)；采用交叉熵损失函数，迭代50次，训练过程中一次取1000批次样本训练，学习率取0.01；得到卷积分类网络的参数Θ^conv；

(7)测试模块

所述测试模块用于测试FusedNet分类结果；

其将测试样本

其中，所述声音传感器采用i436型拾音器。

其中，所述开源工具采用Freesound开源工具。

其中，所述隐正则化处理方法包括随机失活算法(dropout算法)。

其中，所述信号调理模块采用AGC自动增益放大电路。

其中，所述多通道数据采集传输模块采用24通道A/D采集卡。

表2.编解码网络ECNet₁具体结构

表3.编解码网络具体结构

此外，本发明还提供一种基于特征融合网络的声源目标识别方法，所述方法包括如下步骤：

步骤1：布阵声源识别传感器网络；

采用25元声音传感器构成立体阵列，进行声源信息探测定位，如图1所示，坐标原点设置声音传感器1，以XOY为平面，以1m为半径，等间距布设12个声音传感器，以XOZ为平面，以1m为半径，等间距布设12个声音传感器；由此共布设25个声音传感器；

步骤2：采集声源传感器阵列信号；包括：

步骤21：采集训练样本信号；

将K类声源发生装置随机放置到传感器网络布阵区域内，由每类发生装置产生M个t秒声源样本信号共随机放置s次，声源信号发生后采用多路信号调理模块和多通道数据采集传输模块，采集到K类25通道M×s个t秒时长的传感器接收信号，作为声源信号传输至控制终端传感器：

X⁽ⁱ⁾(i＝1,2,...K×M×s)

并记录相应声源样本信号类型标签：

Y⁽ⁱ⁾∈R^K(i＝1,2,...K×M×s)，包含一位有效编码(one-hot向量)；

标记传感器接收信号类型的标签同样为Y⁽ⁱ⁾；

将(X⁽ⁱ⁾,Y⁽ⁱ⁾)作为训练样本，并对训练样本分别进行步骤3、步骤4处理；

步骤22：采集测试样本信号；

以上述步骤21的方法再采集产生M^test个t秒共随机放置s^test次，获得声源样本信号并记录相应类型标签作为测试样本：

步骤3：提取声源信号的梅尔波段能量特征；

对采集到的25通道t秒时长的训练样本信号：

(X⁽ⁱ⁾,Y⁽ⁱ⁾)(i＝1,2,...K×M×s)

采用如下操作提取梅尔波段能量特征：

步骤31：分帧声源信号；

得到分帧训练样本信号：

步骤32：加窗分帧后的声源信号；

为了消除各帧信号两端的不连续性，对分帧训练样本信号

加上40毫秒的哈明(Hamming)窗口；

步骤33：计算梅尔(Mel)谱能量；

然后分割为P个尺度的梅尔波段能量特征样本

共得到K×M×s个梅尔波段能量特征

训练样本；

步骤4：提取声源信号的人工设计特征；

对采集到的25通道t秒时长的训练样本信号

(X⁽ⁱ⁾,Y⁽ⁱ⁾)(i＝1,2,...K×M×s)；

采用如下操作提取人工设计特征：

步骤41：分帧声源信号；

得到分帧训练样本信号

步骤42：利用开源工具提取人工设计特征；

对于单通道内每一帧训练样本信号

表1.Freesound特征提取器提取到的特征(以Q＝362为例)

共得到K×M×s个人工设计特征

训练样本；

步骤5：训练稠密卷积编码网络，获得特征编码方式；具体包括：

步骤5.1：训练编码解码网络ECNet₁；

对于步骤3的K×M×s个25通道梅尔波段能量特征

训练样本；通过梅尔波段能量特征

网络具体分层设计如表2.示例为佳；

表2.编解码网络ECNet₁具体结构

步骤5.2：训练编码解码网络ECNet₂；

通过步骤3的K×M×s个25通道人工设计特征

网络具体设计如表3示例为佳。

表3.编解码网络具体结构

步骤6：训练特征融合网络FusedNet；

步骤6包括：

步骤61：利用编码网络编码输入数据；

将25通道梅尔波段能量特征

将25通道人工提取特征

步骤62：融合编码特征；

对编码网络1得到的P×P×100个特征图F₁₁经过W₁×W₁的池化单元池化为W×W×100个特征图F₂₁；满足关系：

将特征图F₁₁与F₁₂堆叠成W×W×200个特征图F；

F＝[F₂₁,F₂₂]；

步骤63：构建并训练FusedNet中用于分类的卷积子网络Lenet-5；

步骤631：构建卷积子网络Lenet-5；

经过Softmax变换

后，

表4.卷积分类网络(Lenet-5)具体结构

步骤632：训练卷积子网络Lenet-5；

对比，优化参数；

步骤7：测试FusedNet分类结果；

将测试样本

其中，所述声音传感器采用i436型拾音器。

其中，所述开源工具采用Freesound开源工具。

其中，所述信号调理模块采用AGC自动增益放大电路。

其中，所述多通道数据采集传输模块采用24通道A/D采集卡。

表2.编解码网络ECNet₁具体结构

表3.编解码网络具体结构

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于可穿戴式设备的声源目标识别系统，其特征在于，所述系统包括：传感器网络布设模块、声源信号采集模块、梅尔波段能量特征提取模块、人工设计特征提取模块、第一网络训练模块、第二网络训练模块、测试模块；

(1)传感器网络布设模块

(2)声源信号采集模块

(2.1)训练样本信号采集单元

X⁽ⁱ⁾，其中，i＝1,2,...K×M×s；

并记录相应声源样本信号类型标签：

Y⁽ⁱ⁾∈R^K，其中，i＝1,2,...K×M×s；

标记传感器接收信号类型的标签同样为Y⁽ⁱ⁾；

(2.2)测试样本信号采集单元

其中，i＝1,2,...K×M^test×s^test；

(X⁽ⁱ⁾,Y⁽ⁱ⁾)，其中，i＝1,2,...K×M×s；

(3.1)第一分帧单元，其用于分帧声源信号；

为了做频域变换时，不损失声音信号的时序信息，首先将s秒训练样本信号X⁽ⁱ⁾∈R^(K ^×M×s)分为P帧，每一帧信号T₁毫秒，相邻帧间有T₂毫秒重叠；满足关系：

得到分帧训练样本信号：

(3.2)加窗单元，其用于加窗分帧后的声源信号；

为了消除各帧信号两端的不连续性，对分帧训练样本信号

加上40毫秒的哈明窗口；

(3.3)梅尔谱能量计算单元，其用于计算梅尔谱能量；

然后分割为P个尺度的梅尔波段能量特征样本

共得到K×M×s个梅尔波段能量特征

训练样本；

(4)人工设计特征提取模块

对采集到的25通道t秒时长的训练样本信号(X⁽ⁱ⁾,Y⁽ⁱ⁾)，其中，i＝1,2,...K×M×s；

(4.1)第二分帧单元，其用于分帧声源信号；

为了做频域变换时，不损失声音信号的时序信息，首先将s秒训练样本信号X⁽ⁱ⁾∈R^(K ^×M×s)分为Q帧，每一帧信号T₁′毫秒，相邻帧间有T′₂毫秒重叠；满足关系：

得到分帧训练样本信号

对于单通道内每一帧训练样本信号

共得到K×M×s个人工设计特征

训练样本；

(5)第一网络训练模块

训练样本；通过梅尔波段能量特征

训练得到编解码网络ECNet₁的参数

(5.2)第二编码解码网络训练单元

训练得到网络ECNet₂的参数

(6)第二网络训练模块

所述第二网络训练模块用于训练特征融合网络FusedNet；

(6.1)所述数据输入单元用于利用编码网络编码输入数据；

其将25通道梅尔波段能量特征

其中i＝1,2,...K×M×s，训练样本当作能量谱特征输入编码网络1编码梅尔波段能量特征；

将25通道人工提取特征

其中i＝1,2,...K×M×s，训练样本当人工设计特征输入编码网络2编码人工设计能量特征；

(6.2)编码特征融合单元

所述编码特征融合单元用于融合编码特征；

将特征图F₁₁与F₁₂堆叠成W×W×200个特征图F；

F＝[F₂₁,F₂₂]；

(6.3)卷积子网络构建及训练单元

将W×W×200个特征图F输入卷积分类网络，在Lenet-5的情况下，卷积分类网络由卷积层C6、池化层P6、卷积层C7、池化层P7与一个全连接层组成；全连接层输出特征的K维稠密表示[y₁,y₂,y₃,y₄,......y_K]，

经过Softmax变换

后，

表示属于K类中某类的概率；卷积分类网络Lenet-5结构具体如下所示；

层名：卷积层C6；输入大小：W×W×200；卷积核大小/数量/填充列数/步长：3×3×200/16/1/1；输出大小：W×W×16；

层名：池化层P6；输入大小：W×W×16；卷积核大小/数量/填充列数/步长：10×10/0/0/4；输出大小：

层名：卷积层C7；输入大小：

卷积核大小/数量/填充列数/步长：3×3×64/4/1/1；输出大小：

层名：池化层P7；输入大小：

卷积核大小/数量/填充列数/步长：4×4/0/0/4；输出大小：

层名：全连接层；输入大小：

输出大小：5；

对比，优化参数；

(7)测试模块

所述测试模块用于测试FusedNet分类结果；

其将测试样本

2.如权利要求1所述的基于可穿戴式设备的声源目标识别系统，其特征在于，所述声音传感器采用i436型拾音器。

3.如权利要求1所述的基于可穿戴式设备的声源目标识别系统，其特征在于，所述K类声源发生装置包括：枪声、炮声、喊话声、脚步声、机车声。

4.如权利要求1所述的基于可穿戴式设备的声源目标识别系统，其特征在于，所述开源工具采用Freesound开源工具。

5.如权利要求1所述的基于可穿戴式设备的声源目标识别系统，其特征在于，所述隐正则化处理方法包括随机失活算法。

6.如权利要求1所述的基于可穿戴式设备的声源目标识别系统，其特征在于，所述多通道数据采集传输模块嵌入在上位机当中，便于便携式采集数据。

7.如权利要求1所述的基于可穿戴式设备的声源目标识别系统，其特征在于，所述信号调理模块采用AGC自动增益放大电路。

8.如权利要求1所述的基于可穿戴式设备的声源目标识别系统，其特征在于，所述多通道数据采集传输模块采用24通道A/D采集卡。

9.如权利要求1所述的基于可穿戴式设备的声源目标识别系统，其特征在于，所述编码解码网络ECNet₁结构具体如下所示；迭代训练20次，训练过程中一次取1000批次样本训练，学习率取0.01；训练得到编解码网络ECNet₁的参数

编码解码网络ECNet₁结构：

层名：卷积层C1；输入大小：P×P×25；卷积核大小/数量/填充列数/步长：3×3×25/16/1/1；输出大小：P×P×16；

层名：稠密卷积层DC1～3，密连模块1；输入大小：P×P×16；卷积核大小/数量/填充列数/步长：3×3×16/100/1/1；输出大小：P×P×100；

层名：卷积层2；输入大小：P×P×100；卷积核大小/数量/填充列数/步长：3×3×100/24/1/1；输出大小：P×P×24；

层名：卷积层3；输入大小：P×P×24；卷积核大小/数量/填充列数/步长：3×3×24/16/1/1；输出大小：P×P×16；

层名：卷积层4；输入大小：P×P×16；卷积核大小/数量/填充列数/步长：3×3×12/12/1/1；输出大小：P×P×12；

层名：卷积层5；输入大小：P×P×12；卷积核大小/数量/填充列数/步长：3×3×12/12/1/1；输出大小：P×P×12。

10.如权利要求1所述的基于可穿戴式设备的声源目标识别系统，其特征在于，编码解码网络ECNet₂结构具体如下所示；迭代训练ECNet₂ 20次，训练过程中一次取1000批次样本训练，学习率取0.01；训练得到网络ECNet₂的参数

编码解码网络ECNet₂结构：

层名：卷积层C1；输入大小：Q×Q×25；卷积核大小/数量/填充列数/步长：3×3×25/16/1/1；输出大小：Q×Q×16；

层名：稠密卷积层DC1～3，密连模块1；输入大小：Q×Q×16；卷积核大小/数量/填充列数/步长：3×3×16/100/1/1；输出大小：Q×Q×100；

层名：卷积层2；输入大小：Q×Q×100；卷积核大小/数量/填充列数/步长：3×3×100/24/1/1；输出大小：Q×Q×24；

层名：卷积层3；输入大小：Q×Q×24；卷积核大小/数量/填充列数/步长：3×3×24/16/1/1；输出大小：Q×Q×16；

层名：卷积层4；输入大小：Q×Q×16；卷积核大小/数量/填充列数/步长：3×3×12/12/1/1；输出大小：Q×Q×12；

层名：卷积层5；输入大小：Q×Q×12；卷积核大小/数量/填充列数/步长：3×3×12/12/1/1；输出大小：Q×Q×12。