CN115657118A

CN115657118A - 基于深度学习的声震信号数据识别方法及系统

Info

Publication number: CN115657118A
Application number: CN202211064478.1A
Authority: CN
Inventors: 丁凯; 荣英佼; 徐跃林; 黄文军; 冉光政; 邓斌
Original assignee: 63983 Troops of PLA
Current assignee: 63983 Troops of PLA
Priority date: 2022-09-01
Filing date: 2022-09-01
Publication date: 2023-01-31
Anticipated expiration: 2042-09-01
Also published as: CN115657118B

Abstract

本发明公开了一种基于深度学习的声震信号数据识别方法及系统，所述方法包括通过声震传感器阵列采集目标原始声震信号数据并将原始声震信号数据传输至样本数据库；利用声震信号增强技术对样本数据库中的原始声震信号数据进行增强；将增强后的数据和原始数据合并，利用合并后的数据对声震信号分类模型进行训练，将待检测声震信号输入训练好的声震信号分类模型，得到分类结果。本发明利用样本数据库进行监督式学习，将待检测目标的声震信号送入计算系统，最终识别出目标的真实类别和型号，实现了将目标识别系统的嵌入式部署，极大提升了区域态势感知的速度和准确性。

Description

基于深度学习的声震信号数据识别方法及系统

技术领域

本发明属于目标探测领域，具体为一种基于深度学习的声震信号数据增强方法及系统。

背景技术

为实现对防区内态势的准确把握，须实时感知区域内可能出现的目标及其运动状态。态势感知的信息来源是区域中的各探测器节点，由探测器采集目标产生的多种物理场信号，依据不同的特征量区分不同的目标。近年来，数据增强是为了防止出现数据匮乏和防止出现过拟合从而构建高鲁棒性声震识别系统的关键技术。现有的区域级别的增强方法，如SpecAugment，它大大提高了训练的灵活性，减少了生成新样本的时间。然而SpecAugment有两个缺点：(1)它减少了频谱图上有用信息的比例，从而降低了训练效率；(2)随机为频谱图进行掩膜，不仅效率低下，同时也会引入过多的歧义。

发明内容

为了解决现有技术中的上述技术缺陷，本发明提出了一种基于深度学习的声震信号数据增强方法。

实现本发明目的的技术方案为：一种基于深度学习的声震信号识别方法，具体步骤为：

S1：通过声震传感器阵列采集目标原始声震信号数据并将原始声震信号数据传输至样本数据库；

S2：利用声震信号增强技术对样本数据库中的原始声震信号数据进行增强；

S3：将增强后的数据和原始数据合并，利用合并后的数据对声震信号分类模型进行训练，将待检测声震信号输入训练好的声震信号分类模型，得到分类结果。

优选地，所述声震传感器阵列包括MEMS声传感器阵列和MEMS震动传感器阵列。

优选地，利用声震信号增强技术对样本数据库中的原始声震信号数据进行增强的具体步骤为：

S201：提取声震信号的共振峰参数特征和Gammatone频率倒谱系数特征，形成频谱图；

S202：随机选择两个频谱图，输入到ResNet网络中得到两个频谱图的热力图；

S203：分别将两幅热力图划分为若干个候选区域，计算每个候选区域的重要性分数，并按重要性得分进行排序；

S204：将其中一幅热力图重要性分数高于第一设定阈值的候选区域填补另一幅热力图重要性分数低于第二设定阈值的候选区域；

S205：重复S202～204，对所有原始声震信号数据进行增强。

优选地，提取声震信号的共振峰参数特征的具体方法为：

(1)通过对声震信号x(n)进行预加重、加窗和分帧，得到x_i(n)，i表示声音信号的第i帧；

(2)对x_i(n)进行离散傅里叶变换获得：

其中，N为桢长度。

(3)取X_i(k)的振幅，并取对数，得到：

(4)对

执行傅立叶逆变获得倒谱序列：

(5)在倒置的频域轴上设置低通窗函数window(n)，将窗函数乘以倒谱序列

得到：

(6)对h_i(n)进行傅立叶变换后，得到X_i(k)的包络：

(7)通过在包络上搜索最大值来获得共振峰参数。

优选地，低通窗函数设置为矩形窗：

其中，n₀是窗函数的宽度。

优选地，提取Gammatone频率倒谱系数特征的Gammatone滤波器的时域表达式如下：

h(t)＝kt^n-1e^-2πbtcos(2πf_ct+φ)，t≥0

其中，φ是相位，f_c是中心频率，n是滤波器的阶数，k是滤波器增益，b是衰减因子，t为时间。

优选地，热力图h具体为：

h₂＝Resize(h₁，[T，F])

式中，C是指ResNet网络的最后一层中的通道数，f_i表示ResNet网络输出的第i 个特征图，Resize是通过插值将裁切的特征图映射到输入大小的函数，T和F分别代表频谱图的帧数和维度数。

优选地，候选区域的重要性分数定义为：

式中，h(i，j)表示热力图h第i行第j列的数值。

优选地，对声震信号分类模型进行训练的具体过程为：

将增强后的数据和原始数据合并后输入ResNet网络，网络最后一层使用Softmax层，将网络输入结果映射到维度数为训练样本类别数，取值范围在(0，1)的向量中；

利用反向传播算法训练，使训练过程中损失函数值不断减小，直至收敛，从而完成训练过程。

本发明还提出了一种基于深度学习的声震信号识别系统，包括：

声震传感器阵列，用于对目标进行识别，获取得到样本的原始数据；

样本数据库，用于对原始数据进行简单预处理后得到的样本数据；

特征提取模块，用于从样本数据中提取声震信号的共振峰参数特征和GFCC特征；

特征增强模块，用于将样本的声震信号特征进行特征增强；

声震信号识别模块，用于对增强后的声震信号特征和原数据特征使用ResNet网络进行分类，得到样本的目标信息；

结果输出模块，用于对目标样本的信息进行结果输出；

模型压缩和移植模块，将声震信号识别模型部署至嵌入式设备上，实现模型压缩和移植。

本发明与现有技术相比，其显著优点为：(1)本发明结构设计合理，利用样本数据库进行监督式学习，将待检测目标的声震信号送入计算系统，最终计算出目标的实际类型与型号，协助用户检测和认知目标，并实现了将识别系统部署在嵌入式开发板中，极大提升了区域态势感知的速度和准确性。

(2)本发明采用数据增强技术，利用迁移学习实现深度神经网络的快速收敛，通过选择人工智能芯片实现深度神经网络的嵌入式部署，使用模型剪枝、压缩技术加速模型推理时间，提高检测和识别效率，实现实时在线检测识别。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分的从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

附图仅用于示出具体实施例的目的，而并不认为是对本发明的限制，在整个附图中，相同的参考符号表示相同的部件。

图1为本发明的结构框图。

图2为本发明中的共振峰参数特征提取示意图。

图3为本发明中的GFCC特征提取示意图。

图4为本发明中的数据增强和识别的结构示意图。

具体实施方式

容易理解，依据本发明的技术方案，在不变更本发明的实质精神的情况下，本领域的一般技术人员可以想象出本发明的多种实施方式。因此，以下具体实施方式和附图仅是对本发明的技术方案的示例性说明，而不应当视为本发明的全部或者视为对本发明技术方案的限制或限定。相反，提供这些实施例的目的是为了使本领域的技术人员更透彻地理解本发明。下面结合附图来具体描述本发明的优选实施例，其中，附图构成本申请一部分，并与本发明的实施例一起用于阐释本发明的创新构思。

如图1所示，本发明实施例提出了一种基于深度学习的近地面目标声震信号分类识别系统，包括声震传感器阵列、样本数据库、特征提取模块、特征增强模块、声震分类模块、结果输出模块和模型压缩和移植模块，其中：

特征增强模块，用于将样本的声震信号特征进行特征增强；

结果输出模块，用于对目标样本的信息进行结果输出；

在本实施方式中，所述声震信号通过声震传感器阵列进行获取。声震传感器阵列包括声传感器阵列以及震动传感器阵列，其中，声传感器阵列也称为麦克风阵列。麦克风阵列，其主要是一种由多个单独的麦克风个体根据一定的平面几何形状或者空间几何形状组成的声音接收阵列。麦克风阵列相对于单独的麦克风，其具有较多的优势。麦克风阵列接收信号的方式是一种空间扫描的接收方式，因此可以增加接收信号中的有效成分，抑制接收信号中的无效成分或者干扰成分，从而实现声音信号的精确定位和跟踪。影响麦克风阵列的信号接收性能的主要因素包括阵列中麦克风的平面或者空间几何形状，麦克风的数量以及各个麦克风之间的间距。目前，比较常见的麦克风阵列形状有直线麦克风阵列，圆形麦克风阵列，十字形麦克风阵列，方形麦克风阵列以及球面麦克风阵列。其中，实际应用较多的阵列形状为直线麦克风阵列，圆形麦克风阵列以及球面。在目前的麦克风阵列系统中，较为广泛使用的是MEMS麦克风和驻极体麦克风两种。其中，MEMS 麦克风虽然成本较高，但是其在传感器性能、可靠性和可制造性方面都有着显著的优势。本发明选用的WMM7035DTFN0具有低噪声、全向性和出色的射频抗扰性。本发明通过选型和设计，拟采用圆形阵列方式进行设计。对于震动传感器，JFMJ2000系列加速度(高带宽震动)传感器是一款全硅三明治电容式MEMS加速度(高带宽震动)传感器。采用相关双采样技术，对检测电路的热漂移变化具有较强的抑制作用。相较传统压电式震动传感器，JFMJ2000系列振动传感器，通过敏感结构的隔应力设计和低应力封装，传感器具有优秀的长期稳定性性能。除此之外，传感器具备在线自检测功能，可通过自检测及时发现敏感结构或检测电路的异常和失效。过载自保护功能可促使传感器感受搭配超出量程的加速度后快速恢复测试功能。

在本实施方式中，所述结果输出模块信号连接有显示屏。通过设置结果输出模块信号连接有显示屏，实现诊断报告的屏幕显示。

以下列举所述基于深度学习的近地面目标声震信号分类识别系统的较优实施例，以清楚的说明本发明的内容，应当明确的是，本发明的内容并不限制于以下实施例，其他通过本领域普通技术人员的常规技术手段的改进亦在本发明的思想范围之内。

如图2所示，本实施例提出了一种基于深度学习的近地面目标声震信号特征提取方法，包括如下步骤：

S1、原始数据采集：通过声震传感器阵列获取原始数据，并将原始声震信号数据传输至样本数据库；

具体的，在原始信号输入样本数据库之前，需对原始信号对声震信号进行语音活动检测，去除静音部分，以及将所有数据的采样率进行统一，旨在说明声震信号价值目标区域；

S2、样本数据增强：将样本数据库中的原始数据使用声震信号增强技术进行增强，并存储至样本数据库中，增强后的声震信号扩充了原本包含信息量少的数据，包括提取共振峰参数特征和Gammatone频率倒谱系数(GFCC)，通过有选择性的切割重要区域和填补容易区分的区域来控制混合结果的保真度。具体步骤如下：

S201、声学特征提取：提取声震信号的共振峰参数特征和Gammatone频率倒谱系数(GFCC)特征，形成频谱图。GFCC相比传统的MFCC，可以将不同的频率分量与基膜的不同位置进行匹配，并将频率的张量转换为基膜的振幅。提取共振峰参数特征步骤共包含如下七个步骤：

(1)通过对声震信号x(n)进行预加重、加窗和分帧(帧长度N)，得到x_i(n)，i表示声音信号的第i帧；

(2)对x_i(n)进行离散傅里叶变换获得：

(3)取X_i(k)的振幅，然后取对数，得到：

(4)对

执行傅立叶逆变换以获得倒谱序列：

(5)在倒置的频域轴上设置低通窗函数window(n)，通常可以设置为矩形窗：

其中n₀是窗函数的宽度，然后将窗函数乘以倒谱序列

得到：

(6)对h_i(n)进行傅立叶变换后，得到X_i(k)的包络：

(7)通过在包络上搜索最大值来获得共振峰参数。

声震信号经过预处理后，根据人耳蜗的听觉特性，通过Gammatone滤波器组可以获得一组倒谱特征参数。该参数被记录为GFCC(Gammatone频率倒谱系数)，可进一步用于声震信号识别系统。在存在噪声的情况下，该特征参数的识别率和鲁棒性优于传统的特征参数MFCC，并且在低信噪比的情况下具有更大的优势。可以组合具有不同中心频率的多个Gammatone滤波器以形成滤波器组。使用该滤波器组的信号可以表示原始语音信号在不同频率分量下的响应特性。

如图3所示，对于GFCC特征，Gammatone滤波器的时域表达式如下：

h(t)＝kt^n-1e^-2πbtcos(2πf_ct+φ)，t≥0

其中，φ是相位，f_c是中心频率，n是滤波器的阶数。当n＝3，4，5时，Gammatone 滤波器可以更好地模拟人耳基底膜的听觉特性。k是滤波器增益。b是衰减因子，它取决于滤波器带宽。它控制脉冲响应的衰减速率。其与中心频率f的关系为：

b＝1.019×24.7×(4.37×f_c/1000+1)

S202、提取热力图：随机选择两个频谱图，输入到ResNet网络中得到两个频谱图的热力图；

热力图h定义为：

h₂＝Resize(h₁，[T，F])

其中C是指ResNet网络的最后一层中的通道数，f_i表示ResNet网络输出的第i个特征图，Resize是通过插值将裁切的特征图映射到输入大小的函数，T和F分别代表频谱图的帧数和维度数，h₁和h₂是计算的到最终热力图的中间结果。

S203、剪切粘贴实现频谱图混合：分别将两幅热力图使用指定大小，指定步长的方式划分为若干个候选区域，计算每个候选区域的重要性分数，候选区域的重要性分数定义为：

对所有候选区域的重要性I得分进行排序，并将排序映射到(0，1)的区间作为排名分数τ。所有候选区域中的排名分数τ被用作衡量当前训练模型关注度的最终重要性。例如，如果候选区域S的重要性得分高于其他候选区域区域，则τ(S)＝1。排名分数的高低决定了候选区域对声震信号的深层嵌入的贡献的大小。

S204：对于随机抽取的两个语音频谱图作为训练样本(x_A，y_A)和(x_B，y_B)和给定阈值 (τ_A，τ_B)，其中x_A和x_B分别代表训练样本A和B样本的频谱图，y_A和y_B分别代表A和B样本的真实标签。对x_A中随机抽样一个候选区域S_A，其排名分数τ(S_A)小于第一阈值τ_A，以及在x_B中随机采样一个候选区域S_B，其排名分数τ(S_B)大于第二阈值τ_B，且第二阈值τ_B大于第一阈值τ_A，然后将排名分数较高的候选区域S_B填补到S_A对应的位置，使得被S_B填补的x_A作为增强后的新样本，同时对于新样本的标签也将融合两个训练样本的标签。相应定义为：

其中，M(S)是M_ij＝1，(i，j)∈S的二进制掩码，

和

分别表示混合后的声震信号频谱图数据和混合后的声震信号标签，圈点是逐元素乘法，λ是两个训练样本之间的组合比，从(0，1)的均匀分布中采样，δ在该数据增强方法中取值为1。使用自监督方法训练提取热力图的ResNet网络，提高网络提取频谱图热力图的能力。

S205：重复S202～204，对所有原始声震信号数据进行增强。

S3、样本数据识别：将增强后的数据和原始数据合并，利用合并后的数据对声震信号分类模型进行训练，在测试阶段为声震信号分类模型输入待测声震型号，得到声震信号的目标信息，并将得到的识别结果传输出，为了降低模型参数量，本发明中，声震信号分类模型使用ResNet网络作为骨干网络。

训练声震信号分类网络并进行分类具体包括如下步骤：

S301、将增强后的数据和原始数据合并后输入ResNet网络，网络最后一层使用Softmax层，将网络输入结果映射到维度数为训练样本类别数，取值范围在(0，1)的向量中。利用反向传播算法训练，使训练过程中损失函数值不断减小，直至收敛，从而完成训练过程；

S302、声震信号分类网络训练完成后，输入测试声震信号数据，网络预测出声震型号所属类别完成对声震信号的识别和分类。

分析结果展示：结果输出模块对目标类型进行输出，通过显示屏显示结果和打印机打印输出报告结果。

本发明的创新点在于使用了新的数据增强方法，提高了声震信号识别的准确性和鲁棒性，提高了探测系统的目标识别效率和定位准确性，对提升区域态势感知能力具有及其重要的作用。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

应当理解，为了精简本发明并帮助本领域的技术人员理解本发明的各个方面，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时在单个实施例中进行描述，或者参照单个图进行描述。但是，不应将本发明解释成示例性实施例中包括的特征均为本专利权利要求的必要技术特征。

应当理解，可以对本发明的一个实施例的设备中包括的模块、单元、组件等进行自适应性地改变以把它们设置在与该实施例不同的设备中。可以把实施例的设备包括的不同模块、单元或组件组合成一个模块、单元或组件，也可以把它们分成多个子模块、子单元或子组件。

Claims

1.一种基于深度学习的声震信号识别方法，其特征在于，具体步骤为：

2.根据权利要求1所述的基于深度学习的声震信号识别方法，其特征在于，所述声震传感器阵列包括MEMS声传感器阵列和MEMS震动传感器阵列。

3.根据权利要求1所述的基于深度学习的声震信号识别方法，其特征在于，利用声震信号增强技术对样本数据库中的原始声震信号数据进行增强的具体步骤为：

S201:提取声震信号的共振峰参数特征和Gammatone频率倒谱系数特征，形成频谱图；

S203:分别将两幅热力图划分为若干个候选区域，计算每个候选区域的重要性分数，并按重要性得分进行排序；

S204:将其中一幅热力图重要性分数高于第一设定阈值的候选区域填补另一幅热力图重要性分数低于第二设定阈值的候选区域；

S205：重复S202～204，对所有原始声震信号数据进行增强。

4.根据权利要求3所述的基于深度学习的声震信号识别方法，其特征在于，提取声震信号的共振峰参数特征的具体方法为：

(2)对x_i(n)进行离散傅里叶变换获得：

其中，N为桢长度。

(3)取X_i(k)的振幅，并取对数，得到：

(4)对

执行傅立叶逆变获得倒谱序列：

得到：

(6)对h_i(n)进行傅立叶变换后，得到X_i(k)的包络：

(7)通过在包络上搜索最大值来获得共振峰参数。

5.根据权利要求4所述的基于深度学习的声震信号识别方法，其特征在于，低通窗函数设置为矩形窗：

其中，n₀是窗函数的宽度。

6.根据权利要求3所述的基于深度学习的声震信号识别方法，其特征在于，提取Gammatone频率倒谱系数特征的Gammatone滤波器的时域表达式如下：

h(t)＝kt^n-1e^-2πbtcos(2πf_ct+φ),t≥0

7.根据权利要求3所述的基于深度学习的声震信号识别方法，其特征在于，热力图h具体为：

h₂＝Resize(h₁,[T,F])

式中，C是指ResNet网络的最后一层中的通道数，f_i表示ResNet网络输出的第i个特征图，Resize是通过插值将裁切的特征图映射到输入大小的函数，T和F分别代表频谱图的帧数和维度数。

8.根据权利要求3所述的基于深度学习的声震信号识别方法，其特征在于，候选区域的重要性分数定义为：

式中，h(i,j)表示热力图h第i行第j列的数值。

9.根据权利要求1所述的基于深度学习的声震信号识别方法，其特征在于，对声震信号分类模型进行训练的具体过程为：

10.基于权利要求1～10任一所述方法的声震信号识别系统，其特征在于，包括：

特征增强模块，用于将样本的声震信号特征进行特征增强；

结果输出模块，用于对目标样本的信息进行结果输出；