CN115952434A - 一种面向信号识别深度学习模型训练的数据增强方法 - Google Patents

一种面向信号识别深度学习模型训练的数据增强方法 Download PDF

Info

Publication number
CN115952434A
CN115952434A CN202211660707.6A CN202211660707A CN115952434A CN 115952434 A CN115952434 A CN 115952434A CN 202211660707 A CN202211660707 A CN 202211660707A CN 115952434 A CN115952434 A CN 115952434A
Authority
CN
China
Prior art keywords
signal
data
time
time domain
baseband
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211660707.6A
Other languages
English (en)
Inventor
欧阳玫丹
张宇阳
解韦桐
冯佳
刘昊
李贵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 10 Research Institute
Original Assignee
CETC 10 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 10 Research Institute filed Critical CETC 10 Research Institute
Priority to CN202211660707.6A priority Critical patent/CN115952434A/zh
Publication of CN115952434A publication Critical patent/CN115952434A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种面向信号识别深度学习模型训练的数据增强方法,该方法包括在电磁信号识别场景中,通过频谱可视化软件确定信号出联的频点及带宽并控制信号采集处理设备进行采集,获取实际信号的基带数据;将IQ基带数据根据信号的出现时间进行频域、时域提取等预处理操作,得到单信号基带时域波形数据;采用重采样、抖动变频、时域平移、增减噪声等手段,对时域波形数据进行数据增强扩充;将增强后的信号时域波形数据根据智能识别算法输入所需的长度进行切分或添补,形成定长信号时域数据样本集;最后,进行变换域变换,通过短时傅里叶变换将信号时域波形数据转换为时频矩阵数据。本发明能够有效提升信号识别深度学习算法性能。

Description

一种面向信号识别深度学习模型训练的数据增强方法
技术领域
本发明涉及信号识别技术领域,尤其涉及到一种面向信号识别深度学习模型训练的数据增强方法。
背景技术
信号识别是对信号体制、网台类型的识别,对目标属性的判定有着重大意义,也可用于认知无线电、自适应通信等领域。传统的信号识别算法是通过对单一信号进行详细分析,人工提取高阶累积量、瞬时参数、循环平稳谱等特征,逐一形成单类别信号识别算法,研发难度大、周期长。随着通信技术的蓬勃发展,电磁环境中的信号种类迭代更新速度快、数量多、体制复杂,对信号识别算法的研发速度及识别准确度有更为严苛的要求。
基于神经网络的深度学习人工智能算法近年来引起了多个领域的关注,在计算机视觉、语音识别、自然语言处理等方向的应用都有远超传统算法的表现,智能信号识别已是大势所趋。鉴于计算机视觉领域的应用最为成熟,且时频数据同时反映了信号在时间和频率的二维信息,更有利于神经网络提取多维特征,目前大部分智能信号识别算法使用时频矩阵数据作为神经网络算法的输入。多项研究表明,神经网络的性能与模型大小是强相关的,而大模型需要的更多的样本数据训练优化参数,但对信号识别任务而言,复杂电磁环境应用背景下的目标信号,特别是短猝发、非协作类信号,数据样本的采集、分析、标注等环节所需时间成本、人力成本巨大,使得构建大规模样本数据集较为困难。
发明内容
本发明的主要目的在于提供一种面向信号识别深度学习模型训练的数据增强方法,旨在解决目前基于时频矩阵作为网络输入的人工智能信号识别算法的研发所存在的数据样本难以大量获取,数据标注专业性要求高、难度大,主流数据集构建及数据增强方法无法直接套用的技术问题。
为实现上述目的,本发明提供一种面向信号识别深度学习模型训练的数据增强方法,所述方法包括以下步骤:
S1:使用信号采集处理设备采集实际电磁环境下的基带信号样本数据;
S2:对信号进行预处理,形成单信号时域样本集,并确认样本标签信息;
S3:对单信号样本集进行多手段数据增强,形成扩充时域样本集;
S4:根据信号识别算法所需数据点数,对扩充时域样本集按信号属性进行切片或截取操作,形成定长时域样本集;
S5:根据信号识别算法输入时频图大小,对定长时域样本集进行短时傅里叶变换,形成可直接用于训练的数据增强后时域图像数据集。
可选的,所述步骤S2中,对信号进行预处理,分别在频域、时域对实际采集目标信号进行获取,具体包括:
对实际采集数据进行频域获取时,通过下变频、滤波、抽取,形成信号中心频率对应0Hz,滤波带宽为信号带宽,抽取后信号采样率为四倍信号带宽的基带IQ数据,确保数据集单样本仅包含单一频点信号;
对实际采集数据进行时域获取时,通过时域波形信号幅度的变化,找到信号的开始时间与结束时间,进行截取,形成多个单突发信号基带IQ数据,确保数据集单样本仅包含单一频点的单突发信号。
可选的,所述步骤S3,具体包括:采用信号重采样技术、频域抖动、时域抖动、人工加噪、人工去噪手段中的一种或多种,对信号基带IQ数据进行数据增强扩充并进行定长处理后,再通过特征域变换,采用短时傅里叶变换进行时频域的转换。
可选的,所述对信号基带IQ数据进行数据增强时,采用基于数字上、下变频的频域抖动,表达式具体为:
fshift=αBw,α∈[-0.25,0.25]
Figure BDA0004013755150000021
其中,x(n)为信号原始基带IQ数据,Bw为信号带宽,α是频域抖动系数,为-0.25到0.25间的随机数,xfshift(n)为随机频域抖动后的信号基带IQ数据,为基带IQ数据长度。
可选的,所述对信号基带IQ数据进行数据增强时,采用基于增添噪声点的时域抖动;
若时域抖动方向为向右,则为时域延迟,表达式具体为:
Nshift=βN,β∈[-0.25,0.25]
Figure BDA0004013755150000031
若时域抖动方向为向左,则为时域提前,表达式具体为:
Figure BDA0004013755150000032
其中,β为时域抖动系数,为-0.25到0.25间的随机数,N为基带IQ数据长度。
可选的,所述对信号基带IQ数据进行数据增强时,采用基于能量计算的人工加噪,表达式具体为:
Figure BDA0004013755150000033
Paddnoise=Px(n),γ∈(0,0.1]
xaddnoise()=G(n)×Paddnoise+x()
其中Px(n)为原始基带数据功率,γ为添加噪声功率与原始基带数据功率的比值系数,G(n)为与原始基带数据等长的均值为0,方差为1的正态分布随机序列。
可选的,所述对信号基带IQ数据进行数据增强时,采用基于小波变换的人工去噪,具体为:选取小波基函数为Harr基及分解层数为2,对信号原始基带数据进行小波分解,计算每一层的小波系数;对每一分解层采用固定阈值估计法设置全局阈值,按照设定的阈值对每一层的小波高阶系数进行软阈值处理;根据处理后的小波系数对信号进行重构,得到去噪增强后的信号数据。
可选的,所述对信号基带IQ数据进行数据增强时,采用基于多相滤波器实现的信号重采样,具体为:采用先插值,再滤波,最后进行抽取的分数倍变采样处理流程,设重采样后采样率与原始信号采样率的比值关系为L/M,且L=100,M=δL,δ∈[-0.3,0.3],先将原始信号基带数据进行L倍上采样插值,再通过FIR低通滤波器进行滤波,再进行M倍抽取下采样,得到重采样L/M倍后的增强数据;其中,低通滤波器的截止频率为
Figure BDA0004013755150000034
增益为L。
可选的,所述步骤S4,具体包括:根据样本数据的采样点数与智能信号识别算法设定的输入所需的采样点数之间的关系,每一条样本数据需选择进行如下三种操作之一:1)对数据点数大于算法输入所需5倍的数据样本进行定长切分,2)对数据点数大于算法输入所需1倍且小于5倍的数据样本从起始点处进行定长截取,3)对数据点数小于算法输入所需的数据样本先进行补零填充,获得算法所需的数据点数,再添加噪声,最终将所有扩充后的所有单信号、单突发时域波形数据样本转换为定长信号时域波形数据样本集。
可选的,所述方法还包括步骤S5:对处理后的定长信号时域波形数据样本集进行特征域变换;具体包括:采用短时傅里叶变换操作,对数据进行有重叠率的、从前往后的滑动窗操作,选择合适的窗函数限制窗内信号的时频域范围,计算每一时刻滑动窗内的信号功率谱;其中,FFT点数为1024,窗函数选取长度为256点的汉宁窗,重叠率设为0.5;根据滑动窗到达的先后次序,将计算得到的功率谱结果沿时间域进行拼接,形成二维时频矩阵即时频矩阵数据,拼接帧数为256帧,将信号时域波形数据转换为智能信号识别算法训练所需的时频矩阵数据,大小为256×256。
本发明具有的有益技术效果:
(1)降低了训练数据集采集信号样本的工作量。本发明针对面向深度学习人工智能信号识别算法的训练所用数据集提出了数据增强的扩充数据集方法;根据已有数据样本,可直接通过计算生成大量样本,扩大数据集的规模,降低了信号采集处理的时间、人力成本,并且,对于有监督神经网络算法,数据增强仅仅增加了数据样本量而不改变标签,减少了人工分析、标注的工作量;通过重采样数据增强手段,可以直接得到不同采样率下的信号数据,无需改变信号采集处理设备采样率参数设置,对同一信号进行多次不同采样率下的采集与分析处理,并且使用了基于多相滤波器结构的重采样计算方法,加快了处理变换速度;通过频域抖动数据增强手段,对已有数据进行微小的频率搬移,调整频偏,替代不同采集中心频率下的同一信号的信号采集处理工作;通过时域抖动数据增强方法,可快速获取信号样本的不同时间片段,避免对同一信号进行不同时隙的采集工作;通过人工加噪及人工去躁数据增强手段,可一定程度上模拟不同环境噪声等级下的信号样本数据,减少对同一信号不同信噪比情况下的信号采集处理工作。
(2)优化了主流数据增强方法,提升了数据增强样本质量,同时可用于多种信号识别算法输入形式。本发明针对信号识别算法所用信号数据,改进了现有图像数据增强方法,提出了基于电磁信号处理的专用数据增强手段,通过对原始时域波形进行处理,再进行特征域变换,采用短时傅里叶变换计算,使增强后的信号时频数据不仅有类似图像数据的增强效果,并且更贴近信号本身特性,更利于神经网络模型提取多维特征;针对现有面向图像数据的缩放增强技术,通过对原始数据采样率进行改变,变换信号带宽与采样率之间的关系,使信号时频数据中信号部分占据的大小发生改变,达到图像缩放的效果;针对现有面向图像数据的平移增强技术,通过对原始数据加入微小频偏,达到信号目标在时频矩阵沿频率轴进行平移的效果,通过对原始数据进行时域搬移,达到信号目标在时频矩阵沿时间轴进行平移的效果;针对现有面向图像数据的加噪增强技术,通过对时域信号进行人工加噪或去噪技术,改变信号数据的信噪比,再经过时频转化达到时频矩阵的加噪或去噪的效果。不同于直接对信号时频矩阵进行图像数据增强操作,通过对原始时域信号进行处理再转换为时频矩阵数据保证了信号数据的本质特性未发生改变,降低了数据增强对样本标签的影响,提高了信号样本集的质量;并且,提出的信号数据增强方法是通过对信号原始时域数据进行增强扩充操作,当信号识别算法以基带时域数据或其它变换域数据作为输入时,该数据增强方法同样适用,有一定的通用性。
(3)提高了智能信号识别算法的性能。本发明针对智能信号识别算法,提出了专用数据增强优化方式,通过提前对原有数据集进行增强扩充的离线实现方式或在训练过程中随机选择增强手段的在线实现方式,使网络结构参数能更充分地利用已有信号数据集,最大化数据集对网络训练的增益。通过专用的信号数据增强方式,增强后的数据集中将包含与已有原始数据集不同的数据样本,且本发明基于信号处理提出的信号数据增强手段一定程度上模拟了采集信号样本可能出现的情况,使增强数据更为真实。在进行网络模型的训练来优化网络参数时,数据样本的数量大大增加,降低了同等规模网络过拟合的倾向;数据样本的多样性,如:不同采样率、不同频偏、不同信噪比,提高了网络的鲁棒性、泛化性。在无法快速采集更多真实信号样本的情况下,本发明对已有网络算法的性能提升有较好效果。
附图说明
图1为本发明一种面向信号识别深度学习模型训练的数据增强方法的流程示意图。
图2为本发明基于信号处理的信号识别数据集构建及数据增强的处理流程图。
图3为本发明基于信号处理的信号识别数据集构建预处理原理示意图。
图4为本发明基于信号处理的信号识别数据集数据增强原理示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
目前,在相关技术领域中,基于时频矩阵作为网络输入的人工智能信号识别算法的研发所存在的数据样本难以大量获取,数据标注专业性要求高、难度大,主流数据集构建及数据增强方法无法直接套用。
为了解决这一问题,提出本发明的面向信号识别深度学习模型训练的数据增强方法的各个实施例。本发明提供的面向信号识别深度学习模型训练的数据增强方法通过频谱可视化软件确定信号出联的频点及带宽并控制信号采集处理设备进行采集,获取实际信号的基带数据;将IQ基带数据根据信号的出现时间进行频域、时域提取等预处理操作,得到单信号基带时域波形数据;采用重采样、抖动变频、时域平移、增减噪声等手段,对时域波形数据进行数据增强扩充;将增强后的信号时域波形数据根据智能识别算法输入所需的长度进行切分或添补,形成定长信号时域数据样本集;最后,进行变换域变换,通过短时傅里叶变换将信号时域波形数据转换为时频矩阵数据,能够有效提升信号识别深度学习算法性能。
本发明实施例提供了一种面向信号识别深度学习模型训练的数据增强方法,参照图1,图1为本发明面向信号识别深度学习模型训练的数据增强方法实施例的流程示意图。
本实施例中,所述面向信号识别深度学习模型训练的数据增强方法包括以下步骤:
S1:使用信号采集处理设备采集实际电磁环境下的基带信号样本数据;
S2:对信号进行预处理,形成单信号时域样本集,并确认样本标签信息;
S3:对单信号样本集进行多手段数据增强,形成扩充时域样本集;
S4:根据信号识别算法所需数据点数,对扩充时域样本集按信号属性进行切片或截取操作,形成定长时域样本集;
S5:根据信号识别算法输入时频图大小,对定长时域样本集进行短时傅里叶变换,形成可直接用于训练的数据增强后时域图像数据集。
需要说明的是,数据增强是解决数据样本不足问题的主流手段,通过使用一定的方式手段,对有限的样本数据集进行处理,使训练数据集的分布可以基于先验信息进行调整,达到丰富样本的数量和多样性的效果,低成本、高效地增加模型隐式约束,避免网络模型的过拟合,提高模型算法的鲁棒性及泛化性,同时还可一定程度上解决不同类别样本间的数据不均衡问题。
数据增强通常是在不影响数据语义信息的情况下,通过对已有数据人为添加微小变化或从已有数据中合成新数据、扩充数据集,使模型参数能更好的学习到样本数据的不变性(invariant)特征,有能力识别出不同于训练样本个体的、处于不同背景噪声中的、不同上下文环境下的目标样本,同时分辨出外在表现形式相近,但本质特征不同的非目标负样本。
在计算机视觉领域,常见的数据增强手段可基于几何变换或像素变换。基于几何变换的图像数据增强方法通过对原始数据的局部或整体进行直接操作,改变目标的位置、相对大小等不影响原始属性的几何特征,如:翻转,旋转,裁剪,缩放,平移,抖动等;基于像素变换的图像数据增强方法则作用于单个像素点,对图像背景或光学特征的分布进行调整改变,一定程度上扩充了图像的环境背景噪声的丰富性。如:添加噪声(椒盐噪声、高斯噪声等),进行高斯模糊,调整HSV对比度、亮度或饱和度,直方图均衡化等。
不同于计算机视觉领域的图像数据,信号识别领域所用的时频矩阵数据有其特殊性,简单套用图像数据增强手段会对使得训练数据背离信号特性,对神经网络学习信号本源特征造成误导,网络模型的参数迭代更新方向发生偏移,造成模型算法的效能下降。信号时频矩阵对比光学图像数据具有以下特点:1)信号时频矩阵不存在像素点。信号时频矩阵并非光学图像,其每一个色块仅代表该点在一定时间分辨率、一定频率分辨率下,瞬时频率分量能量的大小。其颜色本身并无特定的物理意义,只是能量强弱对比的一种展现形式,更不存在诸如HSV、RGB等多项分量,大多数基于像素变换的图像数据增强方法无法直接应用于信号时频矩阵数据增强中;2)信号时频矩阵不是信号的原始表达。信号时频矩阵是信号在变换域的一种特殊表现,不同于光学图像直接反映了物体形状、纹理、颜色等本源特性,信号时频矩阵无法直接表达信号的频点、带宽、采样率、码速率等固有特性,直接通过对时频矩阵的变换增强数据集,无法保证信号本质特征不受影响。例如,直接对时频矩阵进行旋转后,通过逆傅立叶变换等操作得到信号时域波形数据并解调,获取增强后的信号码流数据或解调后波形数据,因为时频矩阵的翻转改变了信号时域和频域之间的对照关系,其码元排列或波形变化与原始信号相比发生了改变,即信号本质发生变化,改变了本身的类别标签,违背了数据增强的原则。3)信号多样性无法通过直接增强时频矩阵实现。数据多样性的本质是人为对目标在现实情况下的不同表现形式进行模拟,对于光学图像而言,目标的不同姿态、距离、角度等变化可通过简单的图像翻转、缩放等操作进行丰富。而信号的多样性通常是由于采样率不同、频率偏移、信噪比不同等产生,难以直接对时频矩阵变换来模拟各种情况,完备训练数据集,优化模型的泛化性能。4)信号为时间序列,因果关系不可忽略。不同于图像数据仅仅是对空间信息的一种表达,仅有空间内的相对关系,时间上绝对的先后因果关系。而时频矩阵展现的是信号在原始域中变换域的表达,即在时域上同时表征频域信息,时间的因果关系是重中之重,不可颠倒,所以图像域的翻转、旋转等数据增强手段不可用于信号时频矩阵的数据增强。
在此基础上,为了更清楚的解释本申请,下面提供一种面向信号识别深度学习模型训练的数据增强方法的具体实例。
参阅图2。在电磁信号识别场景中,通过频谱可视化软件确定信号出联的频点及带宽,控制信号采集处理设备对天线接收到的射频信号进行模拟变频、匹配滤波、放大、自动AD采样、数字信道预处理、数字下变频、滤波抽取等操作,获取信号对应频点和带宽下的IQ基带数据;确定信号采集处理设备得到的IQ基带数据,满足采集时间、采集带宽范围内仅单一频点出现信号(单信道)且采样率与带宽为固定比值的条件,若不满足该要求则需再次进行数字下变频、滤波抽取等信号处理操作;观察信号的基带时域波形,根据信号的出现时刻与消失时刻,选择信号的起始点和终止点进行时域截取,得到单信号、单突发的时域波形数据,使每条样本数据在时间域和频率域都存在且仅存在一个信号,并对信号进行分析,人工标注信号类型;采用信号处理领域的重采样、频域抖动、时域抖动、人工加噪、人工去噪等手段,对信号时域波形数据进行多维度、多尺度、多场景下的扩充增强,根据设置不同的增强系数及不同增强手段的组合关系,原始单信号、单突发数据样本可被增强扩充至任意倍数;基于智能识别算法输入的时频矩阵设定的FFT点数及时间帧数,计算所需的时域数据点数,将增强后的单信号、单突发时域波形数据样本长度逐一与算法输入所需点数进行比较,采用不同的数据截取或添加方法,形成固定长度的单信号、单突发时域波形数据的标准扩充数据集;最后,进行特征域变换,采用短时傅里叶变换(STFT)操作,对数据进行有重叠率的、从前往后的滑动窗操作,选择合适的窗函数限制窗内信号的时频域范围,计算每一时刻滑动窗内的信号功率谱,根据滑动窗到达的先后次序,将计算得到的功率谱结果沿时间域进行拼接,形成二维时频矩阵即时频矩阵数据,达到将信号时域波形数据转换为智能信号识别算法训练所需的时频矩阵数据增强样本集的效果。
参阅图3,针对面向智能信号识别算法构建数据集时,对实际采集数据需要进行预处理,分别在频域、时域对实际采集目标信号进行获取。对实际采集数据进行频域获取时,通过下变频、滤波、抽取,形成信号中心频率对应0Hz,滤波带宽为信号带宽,抽取后信号采样率为四倍信号带宽的基带IQ数据,确保数据集单样本仅包含单一频点信号;对于非持续通联信号,即信号持续时间小于单次采集时间的目标信号,基于频域获取后的基带IQ数据进行时域突发检测,对实际采集数据进行时域获取,通过时域波形信号幅度的变化,找到信号的开始时间与结束时间,进行截取,形成多个单突发信号基带IQ数据,确保数据集单样本仅包含单一频点的单突发信号。对信号进行时频域截取后,去除了非信号部分的时频域特征,使神经网络结构更易学习到信号本身的细节特征,极大避免了背景环境对网络算法带来的偏向性。
参阅图4,针对面向智能信号识别算法训练的数据集进行数据增强时,采用信号重采样技术、频域抖动、时域抖动、人工加噪、人工去噪等手段,各手段处理独立,互不影响,可随机选取增强手段进行组合,增加了增强样式的多样性;其后,进行样本定长截取处理,减少了对神经网络结构的限制,再进行特征域变换,通过短时傅里叶变换进行时频域的转换,达到对时频矩阵数据集的数据增强效果。
对信号基带IQ数据采用基于数字上(下)变频的频域抖动技术进行数据增强时,其计算公式如下:
fshift=αBW,α∈[-0.25,0.25]
Figure BDA0004013755150000101
其中,x(n)为信号原始基带IQ数据,Bw为信号带宽,α是频域抖动系数,为-0.25到0.25间的随机数,xfshift(n)为随机频域抖动后的信号基带IQ数据,为基带IQ数据长度。
对信号基带IQ数据采用基于增添噪声点的时域抖动技术进行数据增强时,若时域抖动方向为向右,即时域延迟,其计算公式如下:
Nshift=βN,β∈[-0.25,0.25]
Figure BDA0004013755150000111
若时域抖动方向为向左,即时域提前,其计算公式如下:
Figure BDA0004013755150000112
其中β为时域抖动系数,为-0.25到0.25间的随机数,N为基带IQ数据长度。
对信号基带IQ数据采用基于能量计算的人工加噪技术进行数据增强时,其计算公式如下:
Figure BDA0004013755150000113
Paddnoise=Px(n),γ∈(0,0.1]
xaddnoise()=G(n)×Paddnoise+(n)
其中Px(n)为原始基带数据功率,γ为添加噪声功率与原始基带数据功率的比值系数,G(n)为与原始基带数据等长的随机序列。在可选的实施例中,选取均值为0,方差为1的正态分布随机序列。
在可选的实施例中,对信号基带IQ数据采用基于小波变换的人工去噪技术进行数据增强时,首先,选取小波基函数为Harr基及分解层数为2,对信号原始基带数据进行小波分解,计算每一层的小波系数;其次,对每一分解层采用固定阈值估计法设置全局阈值,按照设定的阈值对每一层的小波高阶系数进行软阈值处理;最后,根据处理后的小波系数对信号进行重构,得到去噪增强后的信号数据。
对信号基带IQ数据采用基于多相滤波器实现的信号重采样技术进行数据增强时,使用内插滤波采样流程,先对信号数据进行插值,再通过低通滤波器滤波,最后进行抽取下采样,相对单独的插值滤波器、抽取滤波器而言,结构简单,计算方便。设重采样后采样率与原始信号采样率的比值关系为L/M,且
L=100,M=δL,δ∈[-0.3,0.3]
则先将原始信号基带数据进行L倍上采样插值,再通过FIR低通滤波器进行滤波,防止频率混叠,再进行M倍抽取下采样,得到重采样L/M倍后的增强数据。其中,低通滤波器的截止频率为
Figure BDA0004013755150000121
增益为L。重采样实现采用多项滤波器结构实现,进一步加快了处理速度。
将数据增强后的信号基带IQ数据转换为标准定长数据集时,根据样本数据的采样点数与智能信号识别算法设定的输入所需的采样点数之间的关系,每一条样本数据需选择进行如下三种操作之一:1)对数据点数远大于算法输入所需(大于5倍)的数据样本进行定长切分,2)对数据点数略大于算法输入所需(大于一倍且小于5倍)的数据样本从起始点处进行定长截取,3)对数据点数小于算法输入所需的数据样本先进行补零填充,获得算法所需的数据点数,再添加噪声,最终将所有扩充后的所有单信号、单突发时域波形数据样本转换为定长信号时域波形数据样本集。
对处理后的定长信号时域波形数据样本集进行特征域变换,采用短时傅里叶变换(STFT)操作,将数据进行有重叠率的、从前往后的滑动窗操作,选择合适的窗函数限制窗内信号的时频域范围,计算每一时刻滑动窗内的信号功率谱,其中,FFT点数为1024,窗函数选取长度为256点的汉宁窗,重叠率设为0.5;根据滑动窗到达的先后次序,将计算得到的功率谱结果沿时间域进行拼接,形成二维时频矩阵即时频矩阵数据,拼接帧数为256帧,将信号时域波形数据转换为智能信号识别算法训练所需的时频矩阵数据,大小为256×256。
本实施例提供了一种面向信号识别深度学习模型训练的数据增强方法,该方法包括在电磁信号识别场景中,通过频谱可视化软件确定信号出联的频点及带宽并控制信号采集处理设备进行采集,获取实际信号的基带数据;将IQ基带数据根据信号的出现时间进行频域、时域提取等预处理操作,得到单信号基带时域波形数据;采用重采样、抖动变频、时域平移、增减噪声等手段,对时域波形数据进行数据增强扩充;将增强后的信号时域波形数据根据智能识别算法输入所需的长度进行切分或添补,形成定长信号时域数据样本集;最后,进行变换域变换,通过短时傅里叶变换将信号时域波形数据转换为时频矩阵数据,能够有效提升信号识别深度学习算法性能。
以上仅为发明的优选实施例,并非因此限制发明的专利范围,凡是利用发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在发明的专利保护范围内。

Claims (10)

1.一种面向信号识别深度学习模型训练的数据增强方法,其特征在于,所述方法包括以下步骤:
S1:使用信号采集处理设备采集实际电磁环境下的基带信号样本数据;
S2:对信号进行预处理,形成单信号时域样本集,并确认样本标签信息;
S3:对单信号样本集进行多手段数据增强,形成扩充时域样本集;
S4:根据信号识别算法所需数据点数,对扩充时域样本集按信号属性进行切片或截取操作,形成定长时域样本集;
S5:根据信号识别算法输入时频图大小,对定长时域样本集进行短时傅里叶变换,形成可直接用于训练的数据增强后时域图像数据集。
2.如权利要求1所述的面向信号识别深度学习模型训练的数据增强方法,其特征在于,所述步骤S2中,对信号进行预处理,分别在频域、时域对实际采集目标信号进行获取,具体包括:
对实际采集数据进行频域获取时,通过下变频、滤波、抽取,形成信号中心频率对应0Hz,滤波带宽为信号带宽,抽取后信号采样率为四倍信号带宽的基带IQ数据,确保数据集单样本仅包含单一频点信号;
对实际采集数据进行时域获取时,通过时域波形信号幅度的变化,找到信号的开始时间与结束时间,进行截取,形成多个单突发信号基带IQ数据,确保数据集单样本仅包含单一频点的单突发信号。
3.如权利要求1所述的面向信号识别深度学习模型训练的数据增强方法,其特征在于,所述步骤S3,具体包括:采用信号重采样技术、频域抖动、时域抖动、人工加噪、人工去噪手段中的一种或多种,对信号基带IQ数据进行数据增强扩充并进行定长处理后,再通过特征域变换,采用短时傅里叶变换进行时频域的转换。
4.如权利要求3所述的面向信号识别深度学习模型训练的数据增强方法,其特征在于,所述对信号基带IQ数据进行数据增强时,采用基于数字上、下变频的频域抖动,表达式具体为:
fshift=αBw,α∈[-0.25,0.25]
Figure FDA0004013755140000011
其中,x(n)为信号原始基带IQ数据,Bw为信号带宽,α是频域抖动系数,为-0.25到0.25间的随机数,xfshift(n)为随机频域抖动后的信号基带IQ数据,为基带IQ数据长度。
5.如权利要求3所述的面向信号识别深度学习模型训练的数据增强方法,其特征在于,所述对信号基带IQ数据进行数据增强时,采用基于增添噪声点的时域抖动;
若时域抖动方向为向右,则为时域延迟,表达式具体为:
Nshift=βN,β∈[-0.25,0.25]
Figure FDA0004013755140000021
若时域抖动方向为向左,则为时域提前,表达式具体为:
Figure FDA0004013755140000022
其中,β为时域抖动系数,为-0.25到0.25间的随机数,N为基带IQ数据长度。
6.如权利要求3所述的面向信号识别深度学习模型训练的数据增强方法,其特征在于,所述对信号基带IQ数据进行数据增强时,采用基于能量计算的人工加噪,表达式具体为:
Figure FDA0004013755140000023
Paddnoise=Px(n),γ∈(0,0.1]
xaddnoise()=G(n)×Paddnoise+x()
其中Px(n)为原始基带数据功率,γ为添加噪声功率与原始基带数据功率的比值系数,G(n)为与原始基带数据等长的均值为0,方差为1的正态分布随机序列。
7.如权利要求3所述的面向信号识别深度学习模型训练的数据增强方法,其特征在于,所述对信号基带IQ数据进行数据增强时,采用基于小波变换的人工去噪,具体为:选取小波基函数为Harr基及分解层数为2,对信号原始基带数据进行小波分解,计算每一层的小波系数;对每一分解层采用固定阈值估计法设置全局阈值,按照设定的阈值对每一层的小波高阶系数进行软阈值处理;根据处理后的小波系数对信号进行重构,得到去噪增强后的信号数据。
8.如权利要求3所述的面向信号识别深度学习模型训练的数据增强方法,其特征在于,所述对信号基带IQ数据进行数据增强时,采用基于多相滤波器实现的信号重采样,具体为:采用先插值,再滤波,最后进行抽取的分数倍变采样处理流程,设重采样后采样率与原始信号采样率的比值关系为L/M,且L=100,M=δL,δ∈[-0.3,0.3],先将原始信号基带数据进行L倍上采样插值,再通过FIR低通滤波器进行滤波,再进行M倍抽取下采样,得到重采样L/M倍后的增强数据;其中,低通滤波器的截止频率为
Figure FDA0004013755140000031
增益为L。
9.如权利要求1所述的面向信号识别深度学习模型训练的数据增强方法,其特征在于,所述步骤S4,具体包括:根据样本数据的采样点数与智能信号识别算法设定的输入所需的采样点数之间的关系,每一条样本数据需选择进行如下三种操作之一:1)对数据点数大于算法输入所需5倍的数据样本进行定长切分,2)对数据点数大于算法输入所需1倍且小于5倍的数据样本从起始点处进行定长截取,3)对数据点数小于算法输入所需的数据样本先进行补零填充,获得算法所需的数据点数,再添加噪声,最终将所有扩充后的所有单信号、单突发时域波形数据样本转换为定长信号时域波形数据样本集。
10.如权利要求1所述的面向信号识别深度学习模型训练的数据增强方法,其特征在于,所述方法还包括步骤S5:对处理后的定长信号时域波形数据样本集进行特征域变换;具体包括:采用短时傅里叶变换操作,对数据进行有重叠率的、从前往后的滑动窗操作,选择合适的窗函数限制窗内信号的时频域范围,计算每一时刻滑动窗内的信号功率谱;其中,FFT点数为1024,窗函数选取长度为256点的汉宁窗,重叠率设为0.5;根据滑动窗到达的先后次序,将计算得到的功率谱结果沿时间域进行拼接,形成二维时频矩阵即时频矩阵数据,拼接帧数为256帧,将信号时域波形数据转换为智能信号识别算法训练所需的时频矩阵数据,大小为256×256。
CN202211660707.6A 2022-12-23 2022-12-23 一种面向信号识别深度学习模型训练的数据增强方法 Pending CN115952434A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211660707.6A CN115952434A (zh) 2022-12-23 2022-12-23 一种面向信号识别深度学习模型训练的数据增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211660707.6A CN115952434A (zh) 2022-12-23 2022-12-23 一种面向信号识别深度学习模型训练的数据增强方法

Publications (1)

Publication Number Publication Date
CN115952434A true CN115952434A (zh) 2023-04-11

Family

ID=87281802

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211660707.6A Pending CN115952434A (zh) 2022-12-23 2022-12-23 一种面向信号识别深度学习模型训练的数据增强方法

Country Status (1)

Country Link
CN (1) CN115952434A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116527461A (zh) * 2023-04-28 2023-08-01 哈尔滨工程大学 一种基于遮挡分析的电磁信号时域增强方法
CN117294322A (zh) * 2023-11-24 2023-12-26 北京雷格讯电子股份有限公司 一种微波传输系统及传输方法
CN117455013A (zh) * 2023-11-10 2024-01-26 无锡鸣石峻致医疗科技有限公司 一种训练样本数据生成方法、系统、电子设备及介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116527461A (zh) * 2023-04-28 2023-08-01 哈尔滨工程大学 一种基于遮挡分析的电磁信号时域增强方法
CN116527461B (zh) * 2023-04-28 2024-05-24 哈尔滨工程大学 一种基于遮挡分析的电磁信号时域增强方法
CN117455013A (zh) * 2023-11-10 2024-01-26 无锡鸣石峻致医疗科技有限公司 一种训练样本数据生成方法、系统、电子设备及介质
CN117294322A (zh) * 2023-11-24 2023-12-26 北京雷格讯电子股份有限公司 一种微波传输系统及传输方法
CN117294322B (zh) * 2023-11-24 2024-02-09 北京雷格讯电子股份有限公司 一种微波传输系统及传输方法

Similar Documents

Publication Publication Date Title
CN115952434A (zh) 一种面向信号识别深度学习模型训练的数据增强方法
CN110163282B (zh) 基于深度学习的调制方式识别方法
O'Shea et al. Learning approximate neural estimators for wireless channel state information
CN109890043B (zh) 一种基于生成式对抗网络的无线信号降噪方法
CN110287863B (zh) 一种基于WiFi信号的手势识别方法
CN110610717B (zh) 复杂频谱环境混合信号的分离方法
CN104091341A (zh) 一种基于显著性检测的图像模糊检测方法
CN110751612A (zh) 多通道多尺度卷积神经网络的单幅图像去雨方法
CN107133929A (zh) 基于背景估计和能量最小化的低质量文档图像二值化方法
CN115664898B (zh) 一种基于复数卷积神经网络的ofdm系统信道估计方法及系统
CN110417694A (zh) 一种通信信号调制方式识别方法
CN113139904B (zh) 一种图像盲超分辨率方法及系统
CN113726711B (zh) Ofdm接收方法和装置、信道估计模型训练方法和装置
CN108627241A (zh) 一种基于高斯混合模型的宽吻海豚click信号检测方法
CN111738954A (zh) 一种基于双层空洞U-Net模型的单帧湍流退化图像去畸变方法
CN111612130B (zh) 一种频移键控通信信号调制方式识别方法
Kong et al. A transformer-based CTDNN structure for automatic modulation recognition
CN116153329A (zh) 一种基于cwt-lbp的声音信号时频纹理特征提取方法
CN111555990A (zh) 基于长短时记忆残差网络的信道插值估计方法
CN111431825A (zh) 一种基于深度多流神经网络的信号自动分类识别方法
CN113902095A (zh) 一种无线通信自动调制识别方法、装置与系统
CN116415152A (zh) 用于人体动作识别的基于扩散模型的自监督对比学习方法
CN114244675B (zh) 一种基于深度学习的mimo-ofdm系统信道估计方法
CN116016071A (zh) 一种基于双流融合CNN-BiLSTM网络的调制信号识别方法
CN115913849A (zh) 基于一维复值残差网络的电磁信号辨识方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination