CN110580915B - 基于可穿戴式设备的声源目标识别系统 - Google Patents

基于可穿戴式设备的声源目标识别系统 Download PDF

Info

Publication number
CN110580915B
CN110580915B CN201910874151.2A CN201910874151A CN110580915B CN 110580915 B CN110580915 B CN 110580915B CN 201910874151 A CN201910874151 A CN 201910874151A CN 110580915 B CN110580915 B CN 110580915B
Authority
CN
China
Prior art keywords
network
training
size
coding
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910874151.2A
Other languages
English (en)
Other versions
CN110580915A (zh
Inventor
崔敏
王彦博
李剑
王小亮
刘泽鹏
李冒金
王鹏程
刘志伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
North University of China
Original Assignee
North University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by North University of China filed Critical North University of China
Priority to CN201910874151.2A priority Critical patent/CN110580915B/zh
Publication of CN110580915A publication Critical patent/CN110580915A/zh
Application granted granted Critical
Publication of CN110580915B publication Critical patent/CN110580915B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Complex Calculations (AREA)

Abstract

本发明属于声音信号处理技术领域,具体涉及一种基于可穿戴式设备的声源目标识别系统。本发明技术方案中,首先,两组训练稠密卷积编码‑解码网络对输入数据与人工提取特征分别训练编码网络抽象高级特征,基于稠密卷积的使用可以使我们能够训练深度更深的编码网络并增强重复特征的使用。其次,设计融合层融合两种编码网络提取的特征,最后利用一个卷积网络实现声源信号的分类。最终,本发明技术方案解决了现有技术中对识别精度产生负面影响、以及卷积网络当层数加深时还存在梯度消失或爆炸,特征重复利用率等缺陷的问题。

Description

基于可穿戴式设备的声源目标识别系统
技术领域
本发明属于声音信号处理技术领域,具体涉及一种基于可穿戴式设备的声源目标识别系统。
背景技术
声源目标识别是智能机器人系统两项关键技术--视觉目标识别与声源目标识别技术之一。特别地当智能机器人在遮挡、烟雾、伪装、干扰等场景,光学和电磁探测设备无法使用的情况下,声学传感器仍然可以维持机器人对环境的感知,实现声源目标识别从而辅助机器人控制与决策。
声源目标识别的难点在于从复杂噪声环境中精确识别目标。传统的声源目标识别基于特征工程方法,即预先经过人工设计并从音频信号中提取的特征。提取特征后采用高斯混合模型、支撑向量机等模型聚类或分类,对其分类精度通常在65%~75%范围之内(TUT Acoustic Scenes 2017测试集)。传统声源目标识别技术识别精度不高的原因是人工设计特征偏重于对声音信号的整体认识如声高、音调以及沉默率,对于输入声音信号的逐层抽象能力不足。
目前流行的声源目标识别方法是基于不同卷积网络架构的深度学习方法。不同于传统方法依赖于特征工程,深度学习自动从输入数据(通常为经过短时傅里叶变换后的原始数据)逐层抽象并凝练特征最终用于声源目标识别任务,调参后,该方法通常可达到75%~85%(TUT Acoustic Scenes 2017测试集)的识别精度。卷积神经网络理论上仍有进一步提升的空间,由于卷积神经网络基于局部连接并权值共享使得卷积滤波器很难提取整体的高频(边缘和细节)信息,从而对识别精度产生负面影响。另外卷积网络当层数加深时还存在梯度消失或爆炸,特征重复利用率等缺陷。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是:如何提供一种基于可穿戴式设备的声源目标识别系统。
(二)技术方案
为解决上述技术问题,本发明提供一种基于可穿戴式设备的声源目标识别系统,所述系统包括:传感器网络布设模块、声源信号采集模块、梅尔波段能量特征提取模块、人工设计特征提取模块、第一网络训练模块、第二网络训练模块、测试模块;
(1)传感器网络布设模块
所述传感器网络布设模块用于布阵声源识别传感器网络,其采用25元声音传感器构成立体阵列,进行声源信息探测定位,坐标原点设置声音传感器1,以XOY为平面,以1m为半径,等间距布设12个声音传感器,以XOZ为平面,以1m为半径,等间距布设12个声音传感器;由此共布设25个声音传感器;
(2)声源信号采集模块
所述声源信号采集模块用于采集声源传感器阵列信号;其包括:训练样本信号采集单元及测试样本信号采集单元;
(2.1)训练样本信号采集单元
所述训练样本信号采集单元用于采集训练样本信号,其将K类声源发生装置随机放置到传感器网络布阵区域内,由每类发生装置产生M个t秒声源样本信号共随机放置s次,声源信号发生后采用多路信号调理模块和多通道数据采集传输模块,采集到K类25通道M×s个t秒时长的传感器接收信号,作为声源信号传输至控制终端传感器:
X(i)(i=1,2,...K×M×s)
并记录相应声源样本信号类型标签:
Y(i)∈RK(i=1,2,...K×M×s)
标记传感器接收信号类型的标签同样为Y(i)
将(X(i),Y(i))作为训练样本,并对训练样本分别通过梅尔波段能量特征提取模块、人工设计特征提取模块来进行处理;
(2.2)测试样本信号采集单元
所述测试样本信号采集单元用于采集测试样本信号,其根据所述训练样本信号采集单元的采集方法再采集产生Mtest个t秒共随机放置stest次,获得声源样本信号并记录相应类型标签作为测试样本:
Figure BDA0002203792090000031
(3)梅尔波段能量特征提取模块,其包括:分帧单元、加窗单元、
所述梅尔波段能量特征提取模块用于提取声源信号的梅尔波段能量特征,其对采集到的25通道t秒时长的训练样本信号:
(X(i),Y(i))(i=1,2,...K×M×s);
所述梅尔波段能量特征提取模块包括:第一分帧单元、加窗单元、梅尔谱能量计算单元;
(3.1)第一分帧单元,其用于分帧声源信号;
为了做频域变换时,不损失声音信号的时序信息,首先将s秒训练样本信号X(i)∈R(K×M×s)分为P帧,每一帧信号T1毫秒,相邻帧间有T2毫秒重叠;满足关系:
Figure BDA0002203792090000032
得到分帧训练样本信号:
Figure BDA0002203792090000033
(3.2)加窗单元,其用于加窗分帧后的声源信号;
为了消除各帧信号两端的不连续性,对分帧训练样本信号
Figure BDA0002203792090000034
加上40毫秒的哈明窗口;
(3.3)梅尔谱能量计算单元,其用于计算梅尔谱能量;
对于每一帧信号使用短时傅立叶变换,计算对数梅尔谱能量:
Figure BDA0002203792090000041
然后分割为P个尺度的梅尔波段能量特征样本
Figure BDA0002203792090000042
共得到K×M×s个梅尔波段能量特征
Figure BDA0002203792090000043
训练样本;
(4)人工设计特征提取模块
所述人工设计特征提取模块用于提取声源信号的人工设计特征;
对采集到的25通道t秒时长的训练样本信号
(X(i),Y(i))(i=1,2,...K×M×s);
所述人工设计特征提取模块包括:第二分帧单元、人工设计特征提取单元;
(4.1)第二分帧单元,其用于分帧声源信号;
为了做频域变换时,不损失声音信号的时序信息,首先将s秒训练样本信号X(i)∈R(K×M×s)分为Q帧,每一帧信号T1'毫秒,相邻帧间有T2'毫秒重叠;满足关系:
Figure BDA0002203792090000044
得到分帧训练样本信号
Figure BDA0002203792090000045
(4.2)人工设计特征提取单元,其利用开源工具提取人工设计特征;
对于单通道内每一帧训练样本信号
Figure BDA0002203792090000046
进行人工设计特征提取,使用开源工具进行人工设计特征提取;选用的特征包括:大声喊叫域能量、等效矩形带宽能量、梅尔能量、谱能量、声调、音高、沉默率、梅尔倒谱系数、伽马语调系数共计Q个手工特征,得人工设计特征
Figure BDA0002203792090000047
共得到K×M×s个人工设计特征
Figure BDA0002203792090000048
训练样本;
(5)第一网络训练模块
所述第一网络训练模块用于训练稠密卷积编码网络,获得特征编码方式;
所述第一网络训练模块包括:第一编码解码网络训练单元、第二编码解码网络训练单元;
(5.1)所述第一编码解码网络训练单元用于训练编码解码网络ECNet1
对于梅尔波段能量特征提取模块的K×M×s个25通道梅尔波段能量特征
Figure BDA0002203792090000051
训练样本;通过梅尔波段能量特征
Figure BDA0002203792090000052
训练样本训练编码解码网络ECNet1;编码解码网络ECNet1由卷积层C1、稠密模块、卷积层C2、卷积层C3、卷积层C4、卷积层C5组成,输出为解码信号
Figure BDA0002203792090000053
其中,稠密模块由3个稠密卷积层组成,通过两两组合组成10种连接方式;除了第C1个卷积层,其余卷积层都按概率20%使用了隐正则化处理方法;编码解码网络的优化准则为最小化下列损失函数:
Figure BDA0002203792090000054
训练得到编解码网络ECNet1的参数
Figure BDA0002203792090000055
(5.2)第二编码解码网络训练单元
所述第二编码解码网络训练单元用于训练编码解码网络ECNet2
所述第二编码解码网络训练单元通过梅尔波段能量特征提取模块的K×M×s个25通道人工设计特征
Figure BDA0002203792090000056
训练样本训练编码解码网络ECNet2,编码解码网络ECNet2由卷积层C1、稠密模块、卷积层C2、卷积层C3、卷积层C4、卷积层C5组成,输出为解码信号
Figure BDA0002203792090000057
其中密连模块由3个稠密卷积层组成,通过两两组合组成10种连接方式;除了第C1个卷积层,其余卷积层都按概率20%使用了隐正则化处理方法;编码解码网络的优化准则为最小化如下损失函数:
Figure BDA0002203792090000061
训练得到网络ECNet2的参数
Figure BDA0002203792090000062
(6)第二网络训练模块
所述第二网络训练模块用于训练特征融合网络FusedNet;
特征融合网络由3部分组成:预训练的编码网络1和预训练的编码网络2,特征融合层以及卷积分类层;其中,预训练的编码网络1和预训练的编码网络2的参数分别为
Figure BDA0002203792090000063
所述第二网络训练模块包括:数据输入单元、编码特征融合单元、卷积子网络构建及训练单元;
(6.1)所述数据输入单元用于利用编码网络编码输入数据;
其将25通道梅尔波段能量特征
Figure BDA0002203792090000064
训练样本当作能量谱特征输入编码网络1编码梅尔波段能量特征;
编码网络1:将P×P×25梅尔谱能级特征输入编码网络1,提取到P×P×100个特征图F11
将25通道人工提取特征
Figure BDA0002203792090000065
训练样本当人工设计特征输入编码网络2编码人工设计能量特征;
编码网络2:将Q×Q×25人工设计特征输入编码网络2,提取到Q×Q×100个特征图F12
(6.2)编码特征融合单元
所述编码特征融合单元用于融合编码特征;
其对编码网络1得到的P×P×100个特征图F11经过W1×W1的池化单元池化为W×W×100个特征图F21;满足关系:
Figure BDA0002203792090000066
对编码网络2得到的Q×Q×100个特征图F12经过W2×W2的池化单元池化为W×W×100个特征图F22;满足关系:
Figure BDA0002203792090000071
将特征图F11与F12堆叠成W×W×200个特征图F;
F=[F21,F22];
(6.3)卷积子网络构建及训练单元
所述卷积子网络构建及训练单元用于构建并训练FusedNet中用于分类的卷积子网络Lenet-5;
所述卷积子网络构建及训练单元构建卷积子网络Lenet-5的过程如下:
将W×W×200个特征图F输入卷积分类网络,以Lenet-5为例,卷积分类网络由卷积层C6、池化层P6、卷积层C7、池化层P7与一个全连接层组成;全连接层输出特征的5维稠密表示[y1,y2,y3,y4,y5],
经过Softmax变换
Figure BDA0002203792090000072
后,
Figure BDA0002203792090000073
表示属于五类中某类的概率;卷积分类网络(Lenet-5)结构具体如表4所示;
表4.卷积分类网络(Lenet-5)具体结构
Figure BDA0002203792090000074
所述卷积子网络构建及训练单元训练卷积子网络Lenet-5的过程如下:
把K×M×s个样本输入卷积分类网络,输入交叉熵损失函数进行分类预测
Figure BDA0002203792090000081
对比,优化参数;
各层都按概率20%使用了隐正则化处理方法;采用交叉熵损失函数,迭代50次,训练过程中一次取1000批次样本训练,学习率取0.01;得到卷积分类网络的参数Θconv
(7)测试模块
所述测试模块用于测试FusedNet分类结果;
其将测试样本
Figure BDA0002203792090000082
输入网络得到预测分类结果Yi pred,与真实标签Yi test对比,统计预测正确率。
其中,所述声音传感器采用i436型拾音器。
其中,所述K类声源发生装置包括:枪声、炮声、喊话声、脚步声、机车声。
其中,所述开源工具采用Freesound开源工具。
其中,所述隐正则化处理方法包括随机失活算法。
其中,所述多通道数据采集传输模块嵌入在上位机当中,便于便携式采集数据。
其中,所述信号调理模块采用AGC自动增益放大电路。
其中,所述多通道数据采集传输模块采用24通道A/D采集卡。
其中,所述编码解码网络ECNet1结构具体如表2所示;迭代训练20次,训练过程中一次取1000批次样本训练,学习率取0.01;训练得到编解码网络ECNet1的参数
Figure BDA0002203792090000083
表2.编解码网络ECNet1具体结构
Figure BDA0002203792090000084
Figure BDA0002203792090000091
其中,编码解码网络ECNet2结构具体如表3所示;迭代训练ECNet2 20次,训练过程中一次取1000批次样本训练,学习率取0.01;训练得到网络ECNet2的参数
Figure BDA0002203792090000092
表3.编解码网络具体结构
Figure BDA0002203792090000093
(三)有益效果
与现有技术相比较,本发明提出了一种基于可穿戴式设备的声源目标识别系统。首先,两组训练稠密卷积编码-解码网络对输入数据与人工提取特征分别训练编码网络抽象高级特征,基于稠密卷积的使用可以使我们能够训练深度更深的编码网络并增强重复特征的使用。其次,设计融合层融合两种编码网络提取的特征,最后利用一个卷积网络实现声源信号的分类。最终,本发明技术方案解决了现有技术中对识别精度产生负面影响、以及卷积网络当层数加深时还存在梯度消失或爆炸,特征重复利用率等缺陷的问题。
附图说明
图1为声源获取传感器阵列布置示意图。
图2为编码解码网络示意图。
图3为特征融合声源分类网络示意图。
图4为训练特征融合网络流程图。
具体实施方式
为使本发明的目的、内容、和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
为解决现有技术问题,本发明提供一种基于可穿戴式设备的声源目标识别系统,所述系统包括:传感器网络布设模块、声源信号采集模块、梅尔波段能量特征提取模块、人工设计特征提取模块、第一网络训练模块、第二网络训练模块、测试模块;
(1)传感器网络布设模块
所述传感器网络布设模块用于布阵声源识别传感器网络,其采用25元声音传感器构成立体阵列,进行声源信息探测定位,如图1所示,坐标原点设置声音传感器1,以XOY为平面,以1m为半径,等间距布设12个声音传感器,以XOZ为平面,以1m为半径,等间距布设12个声音传感器;由此共布设25个声音传感器;
(2)声源信号采集模块
所述声源信号采集模块用于采集声源传感器阵列信号;其包括:训练样本信号采集单元及测试样本信号采集单元;
(2.1)训练样本信号采集单元
所述训练样本信号采集单元用于采集训练样本信号,其将K类声源发生装置随机放置到传感器网络布阵区域内,由每类发生装置产生M个t秒声源样本信号共随机放置s次,声源信号发生后采用多路信号调理模块和多通道数据采集传输模块,采集到K类25通道M×s个t秒时长的传感器接收信号,作为声源信号传输至控制终端传感器:
X(i)(i=1,2,...K×M×s)
并记录相应声源样本信号类型标签:
Y(i)∈RK(i=1,2,...K×M×s)的一位有效编码(one-hot向量);
标记传感器接收信号类型的标签同样为Y(i)
将(X(i),Y(i))作为训练样本,并对训练样本分别通过梅尔波段能量特征提取模块、人工设计特征提取模块来进行处理;
(2.2)测试样本信号采集单元
所述测试样本信号采集单元用于采集测试样本信号,其根据所述训练样本信号采集单元的采集方法再采集产生Mtest个t秒共随机放置stest次,获得声源样本信号并记录相应类型标签作为测试样本:
Figure BDA0002203792090000111
(3)梅尔波段能量特征提取模块,其包括:分帧单元、加窗单元、
所述梅尔波段能量特征提取模块用于提取声源信号的梅尔波段能量特征,其对采集到的25通道t秒时长的训练样本信号:
(X(i),Y(i))(i=1,2,...K×M×s);
所述梅尔波段能量特征提取模块包括:第一分帧单元、加窗单元、梅尔谱能量计算单元;
(3.1)第一分帧单元,其用于分帧声源信号;
为了做频域变换时,不损失声音信号的时序信息,首先将s秒训练样本信号X(i)∈R(K×M×s)分为P帧,每一帧信号T1毫秒,相邻帧间有T2毫秒重叠;满足关系:
Figure BDA0002203792090000112
得到分帧训练样本信号:
Figure BDA0002203792090000113
(3.2)加窗单元,其用于加窗分帧后的声源信号;
为了消除各帧信号两端的不连续性,对分帧训练样本信号
Figure BDA0002203792090000114
加上40毫秒的哈明(Hamming)窗口;
(3.3)梅尔谱能量计算单元,其用于计算梅尔(Mel)谱能量;
对于每一帧信号使用短时傅立叶变换(SFT),计算对数梅尔谱能量:
Figure BDA0002203792090000115
然后分割为P个尺度的梅尔波段能量特征样本
Figure BDA0002203792090000116
共得到K×M×s个梅尔波段能量特征
Figure BDA0002203792090000121
训练样本;
(4)人工设计特征提取模块
所述人工设计特征提取模块用于提取声源信号的人工设计特征;
对采集到的25通道t秒时长的训练样本信号
(X(i),Y(i))(i=1,2,...K×M×s);
所述人工设计特征提取模块包括:第二分帧单元、人工设计特征提取单元;
(4.1)第二分帧单元,其用于分帧声源信号;
为了做频域变换时,不损失声音信号的时序信息,首先将s秒训练样本信号X(i)∈R(K×M×s)分为Q帧,每一帧信号T1'毫秒,相邻帧间有T2'毫秒重叠;满足关系:
Figure BDA0002203792090000122
得到分帧训练样本信号
Figure BDA0002203792090000123
(4.2)人工设计特征提取单元,其利用开源工具提取人工设计特征;
对于单通道内每一帧训练样本信号
Figure BDA0002203792090000124
进行人工设计特征提取,使用开源工具进行人工设计特征提取;选用的特征包括:大声喊叫域(Bark)能量、等效矩形带宽(ERB)能量、梅尔能量、谱能量、声调(Tonal)、音高(Pitch)、沉默(Silence)率、梅尔倒谱系数、伽马语调系数共计Q个手工特征如表1所示,得人工设计特征
Figure BDA0002203792090000125
表1.Freesound特征提取器提取到的特征(以Q=362为例)
Figure BDA0002203792090000126
Figure BDA0002203792090000131
共得到K×M×s个人工设计特征
Figure BDA0002203792090000132
训练样本;
(5)第一网络训练模块
所述第一网络训练模块用于训练稠密卷积编码网络,获得特征编码方式;
所述第一网络训练模块包括:第一编码解码网络训练单元、第二编码解码网络训练单元;
(5.1)所述第一编码解码网络训练单元用于训练编码解码网络ECNet1
对于梅尔波段能量特征提取模块的K×M×s个25通道梅尔波段能量特征
Figure BDA0002203792090000133
训练样本;通过梅尔波段能量特征
Figure BDA0002203792090000134
训练样本训练编码解码网络ECNet1;编码解码网络ECNet1由卷积层C1、稠密模块、卷积层C2、卷积层C3、卷积层C4、卷积层C5组成,输出为解码信号
Figure BDA0002203792090000135
其中,稠密模块由3个稠密卷积层组成,如图2所示,通过两两组合组成10种连接方式;除了第C1个卷积层,其余卷积层都按概率20%使用了隐正则化处理方法如:随机失活(dropout算法);编码解码网络的优化准则为最小化下列损失函数:
Figure BDA0002203792090000136
网络具体分层设计如表2.示例为佳;
编码解码网络ECNet1结构具体如表2所示。迭代训练20次,训练过程中一次取1000批次样本训练,学习率取0.01;训练得到编解码网络ECNet1的参数
Figure BDA0002203792090000141
表2.编解码网络ECNet1具体结构
Figure BDA0002203792090000142
(5.2)第二编码解码网络训练单元
所述第二编码解码网络训练单元用于训练编码解码网络ECNet2
所述第二编码解码网络训练单元通过梅尔波段能量特征提取模块的K×M×s个25通道人工设计特征
Figure BDA0002203792090000143
训练样本训练编码解码网络ECNet2,编码解码网络ECNet2由卷积层C1、稠密模块、卷积层C2、卷积层C3、卷积层C4、卷积层C5组成,输出为解码信号
Figure BDA0002203792090000144
其中密连模块由3个稠密卷积层组成,如图2所示,通过两两组合组成10种连接方式;除了第C1个卷积层,其余卷积层都按概率20%使用了隐正则化处理方法如:随机失活(dropout算法);编码解码网络的优化准则为最小化如下损失函数:
Figure BDA0002203792090000145
网络具体设计如表3示例为佳。
编码解码网络ECNet2结构具体如表3所示。迭代训练ECNet220次,训练过程中一次取1000批次样本训练,学习率取0.01;训练得到网络ECNet2的参数
Figure BDA0002203792090000146
表3.编解码网络具体结构
Figure BDA0002203792090000151
(6)第二网络训练模块
所述第二网络训练模块用于训练特征融合网络FusedNet;
如图3,特征融合网络由3部分组成:预训练的编码网络1和预训练的编码网络2,特征融合层以及卷积分类层(以Lenet-5为例,参数为Θconv);具体流程图如图4;其中,预训练的编码网络1和预训练的编码网络2的参数分别为
Figure BDA0002203792090000152
所述第二网络训练模块包括:数据输入单元、编码特征融合单元、卷积子网络构建及训练单元;
(6.1)所述数据输入单元用于利用编码网络编码输入数据;
其将25通道梅尔波段能量特征
Figure BDA0002203792090000153
训练样本当作能量谱特征输入编码网络1编码梅尔波段能量特征;
编码网络1:将P×P×25梅尔谱能级特征输入编码网络1,提取到P×P×100个特征图F11
将25通道人工提取特征
Figure BDA0002203792090000154
训练样本当人工设计特征输入编码网络2编码人工设计能量特征;
编码网络2:将Q×Q×25人工设计特征输入编码网络2,提取到Q×Q×100个特征图F12
(6.2)编码特征融合单元
所述编码特征融合单元用于融合编码特征;
其对编码网络1得到的P×P×100个特征图F11经过W1×W1的池化单元池化为W×W×100个特征图F21;满足关系:
Figure BDA0002203792090000161
对编码网络2得到的Q×Q×100个特征图F12经过W2×W2的池化单元池化为W×W×100个特征图F22;满足关系:
Figure BDA0002203792090000162
将特征图F11与F12堆叠成W×W×200个特征图F;
F=[F21,F22];
(6.3)卷积子网络构建及训练单元
所述卷积子网络构建及训练单元用于构建并训练FusedNet中用于分类的卷积子网络Lenet-5;
所述卷积子网络构建及训练单元构建卷积子网络Lenet-5的过程如下:
将W×W×200个特征图F输入卷积分类网络,以Lenet-5为例,卷积分类网络由卷积层C6、池化层P6、卷积层C7、池化层P7与一个全连接层组成;全连接层输出特征的5维稠密表示[y1,y2,y3,y4,y5],
经过Softmax变换
Figure BDA0002203792090000163
后,
Figure BDA0002203792090000164
表示属于五类中某类的概率;卷积分类网络(Lenet-5)结构具体如表4所示;
表4.卷积分类网络(Lenet-5)具体结构
Figure BDA0002203792090000165
Figure BDA0002203792090000171
所述卷积子网络构建及训练单元训练卷积子网络Lenet-5的过程如下:
把K×M×s个样本输入卷积分类网络,输入交叉熵损失函数进行分类预测
Figure BDA0002203792090000172
对比,优化参数;
各层都按概率20%使用了隐正则化处理方法如:随机失活(dropout算法);采用交叉熵损失函数,迭代50次,训练过程中一次取1000批次样本训练,学习率取0.01;得到卷积分类网络的参数Θconv
(7)测试模块
所述测试模块用于测试FusedNet分类结果;
其将测试样本
Figure BDA0002203792090000173
输入网络得到预测分类结果Yi pred,与真实标签Yi test对比,统计预测正确率。
其中,所述声音传感器采用i436型拾音器。
其中,所述K类声源发生装置包括:枪声、炮声、喊话声、脚步声、机车声。
其中,所述开源工具采用Freesound开源工具。
其中,所述隐正则化处理方法包括随机失活算法(dropout算法)。
其中,所述多通道数据采集传输模块嵌入在上位机当中,便于便携式采集数据。
其中,所述信号调理模块采用AGC自动增益放大电路。
其中,所述多通道数据采集传输模块采用24通道A/D采集卡。
其中,所述编码解码网络ECNet1结构具体如表2所示;迭代训练20次,训练过程中一次取1000批次样本训练,学习率取0.01;训练得到编解码网络ECNet1的参数
Figure BDA0002203792090000181
表2.编解码网络ECNet1具体结构
Figure BDA0002203792090000182
其中,编码解码网络ECNet2结构具体如表3所示;迭代训练ECNet2 20次,训练过程中一次取1000批次样本训练,学习率取0.01;训练得到网络ECNet2的参数
Figure BDA0002203792090000183
表3.编解码网络具体结构
Figure BDA0002203792090000184
此外,本发明还提供一种基于特征融合网络的声源目标识别方法,所述方法包括如下步骤:
步骤1:布阵声源识别传感器网络;
采用25元声音传感器构成立体阵列,进行声源信息探测定位,如图1所示,坐标原点设置声音传感器1,以XOY为平面,以1m为半径,等间距布设12个声音传感器,以XOZ为平面,以1m为半径,等间距布设12个声音传感器;由此共布设25个声音传感器;
步骤2:采集声源传感器阵列信号;包括:
步骤21:采集训练样本信号;
将K类声源发生装置随机放置到传感器网络布阵区域内,由每类发生装置产生M个t秒声源样本信号共随机放置s次,声源信号发生后采用多路信号调理模块和多通道数据采集传输模块,采集到K类25通道M×s个t秒时长的传感器接收信号,作为声源信号传输至控制终端传感器:
X(i)(i=1,2,...K×M×s)
并记录相应声源样本信号类型标签:
Y(i)∈RK(i=1,2,...K×M×s),包含一位有效编码(one-hot向量);
标记传感器接收信号类型的标签同样为Y(i)
将(X(i),Y(i))作为训练样本,并对训练样本分别进行步骤3、步骤4处理;
步骤22:采集测试样本信号;
以上述步骤21的方法再采集产生Mtest个t秒共随机放置stest次,获得声源样本信号并记录相应类型标签作为测试样本:
Figure BDA0002203792090000191
步骤3:提取声源信号的梅尔波段能量特征;
对采集到的25通道t秒时长的训练样本信号:
(X(i),Y(i))(i=1,2,...K×M×s)
采用如下操作提取梅尔波段能量特征:
步骤31:分帧声源信号;
为了做频域变换时,不损失声音信号的时序信息,首先将s秒训练样本信号X(i)∈R(K×M×s)分为P帧,每一帧信号T1毫秒,相邻帧间有T2毫秒重叠;满足关系:
Figure BDA0002203792090000192
得到分帧训练样本信号:
Figure BDA0002203792090000193
步骤32:加窗分帧后的声源信号;
为了消除各帧信号两端的不连续性,对分帧训练样本信号
Figure BDA0002203792090000201
加上40毫秒的哈明(Hamming)窗口;
步骤33:计算梅尔(Mel)谱能量;
对于每一帧信号使用短时傅立叶变换(SFT),计算对数梅尔谱能量:
Figure BDA0002203792090000202
然后分割为P个尺度的梅尔波段能量特征样本
Figure BDA0002203792090000203
共得到K×M×s个梅尔波段能量特征
Figure BDA0002203792090000204
训练样本;
步骤4:提取声源信号的人工设计特征;
对采集到的25通道t秒时长的训练样本信号
(X(i),Y(i))(i=1,2,...K×M×s);
采用如下操作提取人工设计特征:
步骤41:分帧声源信号;
为了做频域变换时,不损失声音信号的时序信息,首先将s秒训练样本信号X(i)∈R(K×M×s)分为Q帧,每一帧信号T1'毫秒,相邻帧间有T2'毫秒重叠;满足关系:
Figure BDA0002203792090000205
得到分帧训练样本信号
Figure BDA0002203792090000206
步骤42:利用开源工具提取人工设计特征;
对于单通道内每一帧训练样本信号
Figure BDA0002203792090000207
进行人工设计特征提取,使用开源工具进行人工设计特征提取;选用的特征包括:大声喊叫域(Bark)能量、等效矩形带宽(ERB)能量、梅尔能量、谱能量、声调(Tonal)、音高(Pitch)、沉默(Silence)率、梅尔倒谱系数、伽马语调系数共计Q个手工特征如表1所示,得人工设计特征
Figure BDA0002203792090000208
表1.Freesound特征提取器提取到的特征(以Q=362为例)
Figure BDA0002203792090000209
Figure BDA0002203792090000211
共得到K×M×s个人工设计特征
Figure BDA0002203792090000212
训练样本;
步骤5:训练稠密卷积编码网络,获得特征编码方式;具体包括:
步骤5.1:训练编码解码网络ECNet1
对于步骤3的K×M×s个25通道梅尔波段能量特征
Figure BDA0002203792090000213
训练样本;通过梅尔波段能量特征
Figure BDA0002203792090000214
训练样本训练编码解码网络ECNet1;编码解码网络ECNet1由卷积层C1、稠密模块、卷积层C2、卷积层C3、卷积层C4、卷积层C5组成,输出为解码信号
Figure BDA0002203792090000215
其中,稠密模块由3个稠密卷积层组成,如图2所示,通过两两组合组成10种连接方式;除了第C1个卷积层,其余卷积层都按概率20%使用了隐正则化处理方法如:随机失活(dropout算法);编码解码网络的优化准则为最小化下列损失函数:
Figure BDA0002203792090000216
网络具体分层设计如表2.示例为佳;
编码解码网络ECNet1结构具体如表2所示。迭代训练20次,训练过程中一次取1000批次样本训练,学习率取0.01;训练得到编解码网络ECNet1的参数
Figure BDA0002203792090000217
表2.编解码网络ECNet1具体结构
Figure BDA0002203792090000221
步骤5.2:训练编码解码网络ECNet2
通过步骤3的K×M×s个25通道人工设计特征
Figure BDA0002203792090000222
训练样本训练编码解码网络ECNet2,编码解码网络ECNet2由卷积层C1、稠密模块、卷积层C2、卷积层C3、卷积层C4、卷积层C5组成,输出为解码信号
Figure BDA0002203792090000223
其中密连模块由3个稠密卷积层组成,如图2所示,通过两两组合组成10种连接方式;除了第C1个卷积层,其余卷积层都按概率20%使用了隐正则化处理方法如:随机失活(dropout算法);编码解码网络的优化准则为最小化如下损失函数:
Figure BDA0002203792090000224
网络具体设计如表3示例为佳。
编码解码网络ECNet2结构具体如表3所示。迭代训练ECNet220次,训练过程中一次取1000批次样本训练,学习率取0.01;训练得到网络ECNet2的参数
Figure BDA0002203792090000225
表3.编解码网络具体结构
Figure BDA0002203792090000226
Figure BDA0002203792090000231
步骤6:训练特征融合网络FusedNet;
如图3,特征融合网络由3部分组成:预训练的编码网络1和预训练的编码网络2,特征融合层以及卷积分类层(以Lenet-5为例,参数为Θconv);具体流程图如图4;其中,预训练的编码网络1和预训练的编码网络2的参数分别为
Figure BDA0002203792090000232
步骤6包括:
步骤61:利用编码网络编码输入数据;
将25通道梅尔波段能量特征
Figure BDA0002203792090000233
训练样本当作能量谱特征输入编码网络1编码梅尔波段能量特征;
编码网络1:将P×P×25梅尔谱能级特征输入编码网络1,提取到P×P×100个特征图F11
将25通道人工提取特征
Figure BDA0002203792090000234
训练样本当人工设计特征输入编码网络2编码人工设计能量特征;
编码网络2:将Q×Q×25人工设计特征输入编码网络2,提取到Q×Q×100个特征图F12
步骤62:融合编码特征;
对编码网络1得到的P×P×100个特征图F11经过W1×W1的池化单元池化为W×W×100个特征图F21;满足关系:
Figure BDA0002203792090000235
对编码网络2得到的Q×Q×100个特征图F12经过W2×W2的池化单元池化为W×W×100个特征图F22;满足关系:
Figure BDA0002203792090000236
将特征图F11与F12堆叠成W×W×200个特征图F;
F=[F21,F22];
步骤63:构建并训练FusedNet中用于分类的卷积子网络Lenet-5;
步骤631:构建卷积子网络Lenet-5;
将W×W×200个特征图F输入卷积分类网络,以Lenet-5为例,卷积分类网络由卷积层C6、池化层P6、卷积层C7、池化层P7与一个全连接层组成;全连接层输出特征的5维稠密表示[y1,y2,y3,y4,y5],
经过Softmax变换
Figure BDA0002203792090000241
后,
Figure BDA0002203792090000242
表示属于五类中某类的概率;卷积分类网络(Lenet-5)结构具体如表4所示;
表4.卷积分类网络(Lenet-5)具体结构
Figure BDA0002203792090000243
步骤632:训练卷积子网络Lenet-5;
把K×M×s个样本输入卷积分类网络,输入交叉熵损失函数进行分类预测
Figure BDA0002203792090000244
对比,优化参数;
各层都按概率20%使用了隐正则化处理方法如:随机失活(dropout算法);采用交叉熵损失函数,迭代50次,训练过程中一次取1000批次样本训练,学习率取0.01;得到卷积分类网络的参数Θconv
步骤7:测试FusedNet分类结果;
将测试样本
Figure BDA0002203792090000251
输入网络得到预测分类结果Yi pred,与真实标签Yi test对比,统计预测正确率。
其中,所述声音传感器采用i436型拾音器。
其中,所述K类声源发生装置包括:枪声、炮声、喊话声、脚步声、机车声。
其中,所述开源工具采用Freesound开源工具。
其中,所述隐正则化处理方法包括随机失活算法(dropout算法)。
其中,所述多通道数据采集传输模块嵌入在上位机当中,便于便携式采集数据。
其中,所述信号调理模块采用AGC自动增益放大电路。
其中,所述多通道数据采集传输模块采用24通道A/D采集卡。
其中,所述编码解码网络ECNet1结构具体如表2所示;迭代训练20次,训练过程中一次取1000批次样本训练,学习率取0.01;训练得到编解码网络ECNet1的参数
Figure BDA0002203792090000252
表2.编解码网络ECNet1具体结构
Figure BDA0002203792090000253
其中,编码解码网络ECNet2结构具体如表3所示;迭代训练ECNet2 20次,训练过程中一次取1000批次样本训练,学习率取0.01;训练得到网络ECNet2的参数
Figure BDA0002203792090000254
表3.编解码网络具体结构
Figure BDA0002203792090000255
Figure BDA0002203792090000261
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (10)

1.一种基于可穿戴式设备的声源目标识别系统,其特征在于,所述系统包括:传感器网络布设模块、声源信号采集模块、梅尔波段能量特征提取模块、人工设计特征提取模块、第一网络训练模块、第二网络训练模块、测试模块;
(1)传感器网络布设模块
所述传感器网络布设模块用于布阵声源识别传感器网络,其采用25元声音传感器构成立体阵列,进行声源信息探测定位,坐标原点设置声音传感器1,以XOY为平面,以1m为半径,等间距布设12个声音传感器,以XOZ为平面,以1m为半径,等间距布设12个声音传感器;由此共布设25个声音传感器;
(2)声源信号采集模块
所述声源信号采集模块用于采集声源传感器阵列信号;其包括:训练样本信号采集单元及测试样本信号采集单元;
(2.1)训练样本信号采集单元
所述训练样本信号采集单元用于采集训练样本信号,其将K类声源发生装置随机放置到传感器网络布阵区域内,由每类发生装置产生M个t秒声源样本信号共随机放置s次,声源信号发生后采用多路信号调理模块和多通道数据采集传输模块,采集到K类25通道M×s个t秒时长的传感器接收信号,作为声源信号传输至控制终端传感器:
X(i),其中,i=1,2,...K×M×s;
并记录相应声源样本信号类型标签:
Y(i)∈RK,其中,i=1,2,...K×M×s;
标记传感器接收信号类型的标签同样为Y(i)
将(X(i),Y(i))作为训练样本,并对训练样本分别通过梅尔波段能量特征提取模块、人工设计特征提取模块来进行处理;
(2.2)测试样本信号采集单元
所述测试样本信号采集单元用于采集测试样本信号,其根据所述训练样本信号采集单元的采集方法再采集产生Mtest个t秒共随机放置stest次,获得声源样本信号并记录相应类型标签作为测试样本:
Figure FDA0003293306060000021
其中,i=1,2,...K×Mtest×stest
(3)梅尔波段能量特征提取模块,其包括:分帧单元、加窗单元、
所述梅尔波段能量特征提取模块用于提取声源信号的梅尔波段能量特征,其对采集到的25通道t秒时长的训练样本信号:
(X(i),Y(i)),其中,i=1,2,...K×M×s;
所述梅尔波段能量特征提取模块包括:第一分帧单元、加窗单元、梅尔谱能量计算单元;
(3.1)第一分帧单元,其用于分帧声源信号;
为了做频域变换时,不损失声音信号的时序信息,首先将s秒训练样本信号X(i)∈R(K ×M×s)分为P帧,每一帧信号T1毫秒,相邻帧间有T2毫秒重叠;满足关系:
Figure FDA0003293306060000022
得到分帧训练样本信号:
Figure FDA0003293306060000023
(3.2)加窗单元,其用于加窗分帧后的声源信号;
为了消除各帧信号两端的不连续性,对分帧训练样本信号
Figure FDA0003293306060000024
加上40毫秒的哈明窗口;
(3.3)梅尔谱能量计算单元,其用于计算梅尔谱能量;
对于每一帧信号使用短时傅立叶变换,计算对数梅尔谱能量:
Figure FDA0003293306060000025
然后分割为P个尺度的梅尔波段能量特征样本
Figure FDA0003293306060000026
共得到K×M×s个梅尔波段能量特征
Figure FDA0003293306060000027
训练样本;
(4)人工设计特征提取模块
所述人工设计特征提取模块用于提取声源信号的人工设计特征;
对采集到的25通道t秒时长的训练样本信号(X(i),Y(i)),其中,i=1,2,...K×M×s;
所述人工设计特征提取模块包括:第二分帧单元、人工设计特征提取单元;
(4.1)第二分帧单元,其用于分帧声源信号;
为了做频域变换时,不损失声音信号的时序信息,首先将s秒训练样本信号X(i)∈R(K ×M×s)分为Q帧,每一帧信号T1′毫秒,相邻帧间有T′2毫秒重叠;满足关系:
Figure FDA0003293306060000031
得到分帧训练样本信号
Figure FDA0003293306060000032
(4.2)人工设计特征提取单元,其利用开源工具提取人工设计特征;
对于单通道内每一帧训练样本信号
Figure FDA0003293306060000033
进行人工设计特征提取,使用开源工具进行人工设计特征提取;选用的特征包括:大声喊叫域能量、等效矩形带宽能量、梅尔能量、谱能量、声调、音高、沉默率、梅尔倒谱系数、伽马语调系数共计Q个手工特征,得人工设计特征
Figure FDA0003293306060000034
共得到K×M×s个人工设计特征
Figure FDA0003293306060000035
训练样本;
(5)第一网络训练模块
所述第一网络训练模块用于训练稠密卷积编码网络,获得特征编码方式;
所述第一网络训练模块包括:第一编码解码网络训练单元、第二编码解码网络训练单元;
(5.1)所述第一编码解码网络训练单元用于训练编码解码网络ECNet1
对于梅尔波段能量特征提取模块的K×M×s个25通道梅尔波段能量特征
Figure FDA0003293306060000041
训练样本;通过梅尔波段能量特征
Figure FDA0003293306060000042
训练样本训练编码解码网络ECNet1;编码解码网络ECNet1由卷积层C1、稠密模块、卷积层C2、卷积层C3、卷积层C4、卷积层C5组成,输出为解码信号
Figure FDA0003293306060000043
其中,稠密模块由3个稠密卷积层组成,通过两两组合组成10种连接方式;除了第C1个卷积层,其余卷积层都按概率20%使用了隐正则化处理方法;编码解码网络的优化准则为最小化下列损失函数:
Figure FDA0003293306060000044
训练得到编解码网络ECNet1的参数
Figure FDA0003293306060000045
(5.2)第二编码解码网络训练单元
所述第二编码解码网络训练单元用于训练编码解码网络ECNet2
所述第二编码解码网络训练单元通过梅尔波段能量特征提取模块的K×M×s个25通道人工设计特征
Figure FDA0003293306060000046
训练样本训练编码解码网络ECNet2,编码解码网络ECNet2由卷积层C1、稠密模块、卷积层C2、卷积层C3、卷积层C4、卷积层C5组成,输出为解码信号
Figure FDA0003293306060000047
其中密连模块由3个稠密卷积层组成,通过两两组合组成10种连接方式;除了第C1个卷积层,其余卷积层都按概率20%使用了隐正则化处理方法;编码解码网络的优化准则为最小化如下损失函数:
Figure FDA0003293306060000048
训练得到网络ECNet2的参数
Figure FDA0003293306060000049
(6)第二网络训练模块
所述第二网络训练模块用于训练特征融合网络FusedNet;
特征融合网络由3部分组成:预训练的编码网络1和预训练的编码网络2,特征融合层以及卷积分类层;其中,预训练的编码网络1和预训练的编码网络2的参数分别为
Figure FDA0003293306060000051
所述第二网络训练模块包括:数据输入单元、编码特征融合单元、卷积子网络构建及训练单元;
(6.1)所述数据输入单元用于利用编码网络编码输入数据;
其将25通道梅尔波段能量特征
Figure FDA0003293306060000052
其中i=1,2,...K×M×s,训练样本当作能量谱特征输入编码网络1编码梅尔波段能量特征;
编码网络1:将P×P×25梅尔谱能级特征输入编码网络1,提取到P×P×100个特征图F11
将25通道人工提取特征
Figure FDA0003293306060000053
其中i=1,2,...K×M×s,训练样本当人工设计特征输入编码网络2编码人工设计能量特征;
编码网络2:将Q×Q×25人工设计特征输入编码网络2,提取到Q×Q×100个特征图F12
(6.2)编码特征融合单元
所述编码特征融合单元用于融合编码特征;
其对编码网络1得到的P×P×100个特征图F11经过W1×W1的池化单元池化为W×W×100个特征图F21;满足关系:
Figure FDA0003293306060000054
对编码网络2得到的Q×Q×100个特征图F12经过W2×W2的池化单元池化为W×W×100个特征图F22;满足关系:
Figure FDA0003293306060000055
将特征图F11与F12堆叠成W×W×200个特征图F;
F=[F21,F22];
(6.3)卷积子网络构建及训练单元
所述卷积子网络构建及训练单元用于构建并训练FusedNet中用于分类的卷积子网络Lenet-5;
所述卷积子网络构建及训练单元构建卷积子网络Lenet-5的过程如下:
将W×W×200个特征图F输入卷积分类网络,在Lenet-5的情况下,卷积分类网络由卷积层C6、池化层P6、卷积层C7、池化层P7与一个全连接层组成;全连接层输出特征的K维稠密表示[y1,y2,y3,y4,......yK],
经过Softmax变换
Figure FDA0003293306060000061
后,
Figure FDA0003293306060000062
表示属于K类中某类的概率;卷积分类网络Lenet-5结构具体如下所示;
层名:卷积层C6;输入大小:W×W×200;卷积核大小/数量/填充列数/步长:3×3×200/16/1/1;输出大小:W×W×16;
层名:池化层P6;输入大小:W×W×16;卷积核大小/数量/填充列数/步长:10×10/0/0/4;输出大小:
Figure FDA0003293306060000063
层名:卷积层C7;输入大小:
Figure FDA0003293306060000064
卷积核大小/数量/填充列数/步长:3×3×64/4/1/1;输出大小:
Figure FDA0003293306060000065
层名:池化层P7;输入大小:
Figure FDA0003293306060000066
卷积核大小/数量/填充列数/步长:4×4/0/0/4;输出大小:
Figure FDA0003293306060000067
层名:全连接层;输入大小:
Figure FDA0003293306060000068
输出大小:5;
所述卷积子网络构建及训练单元训练卷积子网络Lenet-5的过程如下:
把K×M×s个样本输入卷积分类网络,输入交叉熵损失函数进行分类预测
Figure FDA0003293306060000069
对比,优化参数;
各层都按概率20%使用了隐正则化处理方法;采用交叉熵损失函数,迭代50次,训练过程中一次取1000批次样本训练,学习率取0.01;得到卷积分类网络的参数Θconv
(7)测试模块
所述测试模块用于测试FusedNet分类结果;
其将测试样本
Figure FDA0003293306060000071
输入网络得到预测分类结果Yi pred,与真实标签Yi test对比,统计预测正确率。
2.如权利要求1所述的基于可穿戴式设备的声源目标识别系统,其特征在于,所述声音传感器采用i436型拾音器。
3.如权利要求1所述的基于可穿戴式设备的声源目标识别系统,其特征在于,所述K类声源发生装置包括:枪声、炮声、喊话声、脚步声、机车声。
4.如权利要求1所述的基于可穿戴式设备的声源目标识别系统,其特征在于,所述开源工具采用Freesound开源工具。
5.如权利要求1所述的基于可穿戴式设备的声源目标识别系统,其特征在于,所述隐正则化处理方法包括随机失活算法。
6.如权利要求1所述的基于可穿戴式设备的声源目标识别系统,其特征在于,所述多通道数据采集传输模块嵌入在上位机当中,便于便携式采集数据。
7.如权利要求1所述的基于可穿戴式设备的声源目标识别系统,其特征在于,所述信号调理模块采用AGC自动增益放大电路。
8.如权利要求1所述的基于可穿戴式设备的声源目标识别系统,其特征在于,所述多通道数据采集传输模块采用24通道A/D采集卡。
9.如权利要求1所述的基于可穿戴式设备的声源目标识别系统,其特征在于,所述编码解码网络ECNet1结构具体如下所示;迭代训练20次,训练过程中一次取1000批次样本训练,学习率取0.01;训练得到编解码网络ECNet1的参数
Figure FDA0003293306060000072
编码解码网络ECNet1结构:
层名:卷积层C1;输入大小:P×P×25;卷积核大小/数量/填充列数/步长:3×3×25/16/1/1;输出大小:P×P×16;
层名:稠密卷积层DC1~3,密连模块1;输入大小:P×P×16;卷积核大小/数量/填充列数/步长:3×3×16/100/1/1;输出大小:P×P×100;
层名:卷积层2;输入大小:P×P×100;卷积核大小/数量/填充列数/步长:3×3×100/24/1/1;输出大小:P×P×24;
层名:卷积层3;输入大小:P×P×24;卷积核大小/数量/填充列数/步长:3×3×24/16/1/1;输出大小:P×P×16;
层名:卷积层4;输入大小:P×P×16;卷积核大小/数量/填充列数/步长:3×3×12/12/1/1;输出大小:P×P×12;
层名:卷积层5;输入大小:P×P×12;卷积核大小/数量/填充列数/步长:3×3×12/12/1/1;输出大小:P×P×12。
10.如权利要求1所述的基于可穿戴式设备的声源目标识别系统,其特征在于,编码解码网络ECNet2结构具体如下所示;迭代训练ECNet2 20次,训练过程中一次取1000批次样本训练,学习率取0.01;训练得到网络ECNet2的参数
Figure FDA0003293306060000081
编码解码网络ECNet2结构:
层名:卷积层C1;输入大小:Q×Q×25;卷积核大小/数量/填充列数/步长:3×3×25/16/1/1;输出大小:Q×Q×16;
层名:稠密卷积层DC1~3,密连模块1;输入大小:Q×Q×16;卷积核大小/数量/填充列数/步长:3×3×16/100/1/1;输出大小:Q×Q×100;
层名:卷积层2;输入大小:Q×Q×100;卷积核大小/数量/填充列数/步长:3×3×100/24/1/1;输出大小:Q×Q×24;
层名:卷积层3;输入大小:Q×Q×24;卷积核大小/数量/填充列数/步长:3×3×24/16/1/1;输出大小:Q×Q×16;
层名:卷积层4;输入大小:Q×Q×16;卷积核大小/数量/填充列数/步长:3×3×12/12/1/1;输出大小:Q×Q×12;
层名:卷积层5;输入大小:Q×Q×12;卷积核大小/数量/填充列数/步长:3×3×12/12/1/1;输出大小:Q×Q×12。
CN201910874151.2A 2019-09-17 2019-09-17 基于可穿戴式设备的声源目标识别系统 Active CN110580915B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910874151.2A CN110580915B (zh) 2019-09-17 2019-09-17 基于可穿戴式设备的声源目标识别系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910874151.2A CN110580915B (zh) 2019-09-17 2019-09-17 基于可穿戴式设备的声源目标识别系统

Publications (2)

Publication Number Publication Date
CN110580915A CN110580915A (zh) 2019-12-17
CN110580915B true CN110580915B (zh) 2022-03-25

Family

ID=68813103

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910874151.2A Active CN110580915B (zh) 2019-09-17 2019-09-17 基于可穿戴式设备的声源目标识别系统

Country Status (1)

Country Link
CN (1) CN110580915B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111314934B (zh) * 2020-02-14 2021-08-10 西北工业大学 一种统一最优判决的网络协同探测方法
CN115587337B (zh) * 2022-12-14 2023-06-23 中国汽车技术研究中心有限公司 车门异响识别方法、设备和存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107610692A (zh) * 2017-09-22 2018-01-19 杭州电子科技大学 基于神经网络堆叠自编码器多特征融合的声音识别方法
CN108694951A (zh) * 2018-05-22 2018-10-23 华南理工大学 一种基于多流分层融合变换特征和长短时记忆网络的说话人辨识方法
CN108804453A (zh) * 2017-04-28 2018-11-13 上海荆虹电子科技有限公司 一种视音频识别方法及装置
CN109166593A (zh) * 2018-08-17 2019-01-08 腾讯音乐娱乐科技(深圳)有限公司 音频数据处理方法、装置及存储介质
CN109406147A (zh) * 2018-10-29 2019-03-01 安徽大学 一种变速工况下的列车轴承轨边声学诊断方法
CN110136745A (zh) * 2019-05-08 2019-08-16 西北工业大学 一种基于卷积神经网络的汽车鸣笛识别方法
CN110164476A (zh) * 2019-05-24 2019-08-23 广西师范大学 一种基于多输出特征融合的blstm的语音情感识别方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050027530A1 (en) * 2003-07-31 2005-02-03 Tieyan Fu Audio-visual speaker identification using coupled hidden markov models
CN106710599A (zh) * 2016-12-02 2017-05-24 深圳撒哈拉数据科技有限公司 一种基于深度神经网络的特定声源检测方法与系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108804453A (zh) * 2017-04-28 2018-11-13 上海荆虹电子科技有限公司 一种视音频识别方法及装置
CN107610692A (zh) * 2017-09-22 2018-01-19 杭州电子科技大学 基于神经网络堆叠自编码器多特征融合的声音识别方法
CN108694951A (zh) * 2018-05-22 2018-10-23 华南理工大学 一种基于多流分层融合变换特征和长短时记忆网络的说话人辨识方法
CN109166593A (zh) * 2018-08-17 2019-01-08 腾讯音乐娱乐科技(深圳)有限公司 音频数据处理方法、装置及存储介质
CN109406147A (zh) * 2018-10-29 2019-03-01 安徽大学 一种变速工况下的列车轴承轨边声学诊断方法
CN110136745A (zh) * 2019-05-08 2019-08-16 西北工业大学 一种基于卷积神经网络的汽车鸣笛识别方法
CN110164476A (zh) * 2019-05-24 2019-08-23 广西师范大学 一种基于多输出特征融合的blstm的语音情感识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Novel TEO-based Gammatone Features for Environmental Sound Classification;Dharmesh M. Agrawal et al;《2017 25th European Signal Processing Conference (EUSIPCO)》;20171231;第1809-1813页 *
基于特征融合的开挖器械声音识别算法研究;程飞;《中国优秀硕士学位论文全文数据库》;20190115;第23-34页 *

Also Published As

Publication number Publication date
CN110580915A (zh) 2019-12-17

Similar Documents

Publication Publication Date Title
CN109065030B (zh) 基于卷积神经网络的环境声音识别方法及系统
CN107393542B (zh) 一种基于双通道神经网络的鸟类物种识别方法
US7457749B2 (en) Noise-robust feature extraction using multi-layer principal component analysis
Sawhney et al. Situational awareness from environmental sounds
CN108198561A (zh) 一种基于卷积神经网络的翻录语音检测方法
CN112735473B (zh) 基于声音识别无人机的方法及系统
CN110580915B (zh) 基于可穿戴式设备的声源目标识别系统
CN110600054A (zh) 基于网络模型融合的声场景分类方法
Dogan et al. A novel ternary and signum kernelled linear hexadecimal pattern and hybrid feature selection based environmental sound classification method
CN113191178A (zh) 一种基于听觉感知特征深度学习的水声目标识别方法
CN110444225B (zh) 基于特征融合网络的声源目标识别方法
CN117095694B (zh) 一种基于标签层级结构属性关系的鸟类鸣声识别方法
CN111613240A (zh) 一种基于注意力机制和Bi-LSTM的伪装语音检测方法
CN112183582A (zh) 一种多特征融合的水下目标识别方法
Wang et al. A novel underground pipeline surveillance system based on hybrid acoustic features
CN111429916B (zh) 一种声音信号记录系统
CN113793624A (zh) 一种声学场景分类方法
CN111179959B (zh) 一种基于说话人嵌入空间的竞争说话人数量估计方法及系统
CN108735230A (zh) 基于混合音频的背景音乐识别方法、装置及设备
CN110808067A (zh) 基于二值多频带能量分布的低信噪比声音事件检测方法
CN115238738A (zh) 构建水声目标识别模型的方法和装置
CN113782051B (zh) 广播效果分类方法及系统、电子设备和存储介质
CN113539298B (zh) 一种基于云边端的声音大数据分析计算图像化系统
CN114898773A (zh) 基于深度自注意力神经网络分类器的合成语音检测方法
CN113936667A (zh) 一种鸟鸣声识别模型训练方法、识别方法及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant