CN113296087A

CN113296087A - 一种基于数据增强的调频连续波雷达人体动作识别方法

Info

Publication number: CN113296087A
Application number: CN202110569715.9A
Authority: CN
Inventors: 屈乐乐; 王禹桐; 杨天虹; 张丽丽; 孙延鹏
Original assignee: Shenyang Aerospace University
Current assignee: Shenyang Aerospace University
Priority date: 2021-05-25
Filing date: 2021-05-25
Publication date: 2021-08-24
Anticipated expiration: 2041-05-25
Also published as: CN113296087B

Abstract

本发明提供一种基于数据增强的调频连续波雷达人体动作识别方法，首先采集不同人体动作的雷达回波数据，对得到的雷达回波数据进行预处理，获得相应人体动作的微多普勒时频谱图像；然后使用基于梯度惩罚的生成对抗网络进行数据增强，得到各动作相应的生成图像，最后向训练集添加生成图像组成新训练集用于深度卷积神经网络的训练，使用深度卷积神经网络进行人体动作识别；本发明提供的方法可有效解决雷达数据过少的问题，充分发挥深度学习模型的性能，提高人体动作识别精度。

Description

一种基于数据增强的调频连续波雷达人体动作识别方法

技术领域

本发明涉及雷达目标识别技术领域，具体涉及一种基于数据增强的调频连续波雷达人体动作识别方法。

背景技术

人体动作识别是图像处理、计算机视觉等多个学科的交叉研究课题，在智能安防、智慧养老和人机交互等多个领域都有深远的研究意义和很强的使用价值。随着人体动作识别的应用场景逐渐增多，越来越多的学术机构和商业机构投入到该领域的研究中。但所使用的摄像机、红外、惯性等传感器都存在一些实际的应用问题，例如红外传感器和摄像机有距离限制，只在视距范围内有效，并且摄像机对光线要求较高，在弱光条件下不适用，另外监测目标的隐私无法得到保障。而惯性传感器由于是接触式的，使用不方便，并且能耗受限。因此，非接触式的传感器系统更适合对人体动作进行识别。由于雷达可对人体进行全天候的监测，可有效的防止外界因素的干扰和避免目标的隐私泄露问题、且是非接触式的。因此，在智能安防、智慧养老和人机交互等领域内，基于调频连续波雷达的人体动作识别技术应运而生。当雷达探测目标具有非刚体运动时会产生微多普勒特征，是由于雷达探测目标除平动多普勒频率之外因振动、旋转等微运动而产生的额外频率调制的物理现象。使用调频连续波雷达获取目标的微多普勒特征，并对目标运动产生的微多普勒效应进行分析可以得到微多普勒时频谱图像，微多普勒时频谱图像可有效地应用于人体动作识别。

目前，深度学习技术发展迅速、应用场景不断扩大，深度学习的算法和模型不断提出并改进，深度学习在图像识别、语音识别等领域的表现也越来越好。数据的数量和质量对于深度学习十分重要，因为深度学习模型需要大量的数据进行训练才能使其具有较强的自我学习能力，数据量的大小和质量直接影响深度学习模型的性能。数据量越多，质量越高，深度学习模型才能更容易的学习到深层特征，从而使识别分类的能力越强。目前，各种深度学习方法被广泛应用于基于雷达图像的人体动作识别，其中深度卷积神经网络无需进行复杂的手动特征提取和目标建模就能够学习到微多普勒时频谱图像的潜在特征，从而进行人体动作识别。但是在实际应用中，由于雷达数据采集成本过高，数据量往往有限，因此无法有效训练深度学习模型。

发明内容

针对雷达数据过少而导致深度学习模型训练受限制的问题，本发明提供一种基于数据增强的调频连续波雷达人体动作识别方法，该方法首先通过基于梯度惩罚的生成对抗网络(Wasserstein Generative Adversarial Network with Gradient Penalty，WGAN-GP)进行数据增强，然后使用深度卷积神经网络进行人体动动作识别。

为实现上述技术效果，本发明提出了一种基于数据增强的调频连续波雷达人体动作识别方法，包括：

步骤1:采集不同人体动作的雷达回波数据，对得到的雷达回波数据进行预处理，获得相应人体动作的微多普勒时频谱图像；

步骤2：将微多普勒时频谱图像划分成训练集、验证集和测试集，其中训练集用来训练WGAN-GP和深度卷积神经网络，验证集用来确定WGAN-GP生成图像的添加倍数，测试集用来测试人体动作识别准确率；

步骤3:搭建WGAN-GP，将训练集按动作类别分别输入到WGAN-GP中进行无监督学习，得到各动作相应的生成图像；

步骤4:搭建深度卷积神经网络，向训练集添加生成图像组成新训练集，将新训练集中的数据输入到建立的深度卷积神经网络中进行训练，训练结束后获得具有人体动作识别功能的网络模型，利用验证集确定最佳的添加生成图像倍数，确定最佳添加倍数后，将测试集作为数据输入到训练完成的深度卷积神经网络模型中，得到人体动作识别结果。

所述步骤1包括：

(1)在室内环境下，使用调频连续波雷达系统，针对不同的人体动作进行测量，获取相应的雷达回波数据；

(2)将每个动作对应的回波样本数据表示为M×N维数据矩阵S(m',n)，m'＝0,1,…,M-1，n＝0,1,…,N-1，其中M为快时间采样个数，即为每个调频周期对应的数据采样点数，N为慢时间采样个数，即为每个动作回波样本数据对应的chirps数量；

(3)对数据矩阵S(m',n)的每一列在快时间维进行快速傅里叶变换得到距离像矩阵T(m',n)；

(4)采用动目标显示(MTI)滤波器对距离像矩阵T(m',n)进行杂波抑制得到杂波抑制后的距离像矩阵X(m',n)；

(5)确定人体与雷达之间的距离选择目标对应的距离单元范围，采用短时傅里叶变换得到微多普勒时频谱矩阵，包括：

对距离像矩阵X(m',n)的第m行沿慢时间维进行STFT：

式中，k为多普勒频率索引，p为窗函数移动步数索引，U为窗函数移动步长，[h,H]为选择的距离单元范围，h、H∈{0,1,2,…,M-1}，ω(·)为Hamming窗函数，L为窗函数的长度，j为虚数单位；

然后对每个距离单元的STFT结果进行相干叠加取模值后再取dB值得到矩阵

将所有距离单元的

根据设定的阈值α得到微多普勒时频谱矩阵F(k,p)的所有元素，如果

则取值为

否则取值为α；

(6)采用伪彩色处理将微多普勒时频谱矩阵转换为微多普勒时频谱彩色图像；

(7)将微多普勒时频谱矩阵转换为微多普勒时频谱图像后，将每张图像统一缩放成64×64像素，以减少网络训练的计算复杂度。

所述步骤(6)采用伪彩色处理将微多普勒时频谱矩阵转换为微多普勒时频谱彩色图像，其具体方法为：

将微多普勒时频谱矩阵F(k,p)映射到范围为[1,256]的颜色索引区间：

式中，F(k,p)为微多普勒时频谱矩阵(k,p)处的取值，F_max为微多普勒时频谱矩阵中的最大值，F_min为微多普勒时频谱矩阵中的最小值，N(k,p)为微多普勒时频谱矩阵(k,p)处的颜色索引值，(k,p)表示矩阵中的第k行、第p列；

根据颜色索引值分别得到F(k,p)对应彩色图像的R、G、B通道矩阵，将微多普勒时频谱矩阵转换为微多普勒时频谱彩色图像：

所述步骤3包括：

步骤3.1：构建WGAN-GP的目标函数为：

式中，x为真实数据，P_r为真实数据分布，P_g为生成数据

分布，z为生成器的输入噪声，λ为梯度惩罚项系数，

为梯度惩罚项的抽样分布，

表示判别器最大化，

表示生成器最小化，D(x)表示判别器对真实数据的判别结果，

表示判别器对生成数据的判别结果，

表示

对

求偏导，

表示样本为真实数据分布时的期望，

表示样本为生成数据分布时的期望，

表示样本为抽样分布时的期望；

步骤3.2：构建生成器，生成器包含一个全连接层和4个反卷积层，并设置每层的卷积核尺寸、步长和卷积核个数，其中全连接层和前三个反卷积层之后都经过批标准化和修正线性单元处理，最后一个反卷积层后经过tanh激活函数处理输出一定尺寸的图像；

步骤3.3：构建判别器，判别器包含一个全连接层和4个卷积层，并设置每层的卷积核尺寸、步长和卷积核个数，每个卷积层之后都经过层标准化和带泄露修正线性单元处理，最后全连接层输出判别结果；

步骤3.4：使用每种动作对应的微多普勒时频谱图像分别训练WGAN-GP，训练时，首先将图像的RGB各通道分别经过归一化处理：

式中，C(k,p)为微多普勒时频谱图像对应R、G、B通道中(k,p)处的像素值，

为相应位置归一化后的像素值；

经过归一化后，图像的每一个像素值均在[-1,1]区间，将归一化后的微多普勒时频谱图像输入到WGAN-GP中训练，当达到预设迭代次数后输出相应人体动作的生成图像。

本发明的有益效果是：

本发明提出了一种基于数据增强的调频连续波雷达人体动作识别方法，采用WGAN-GP进行数据增强，WGAN-GP拥有稳定的训练过程，可以稳定的生成与微多普勒时频谱图像高度相似的图像，生成图像可以作为深度学习模型的训练数据，减少雷达数据量不足的问题；通过验证集确定WGAN-GP生成图像的最佳添加数量，通过在训练集中添加最佳数量的生成图像后，训练出的深度卷积神经网络具有更强的鲁棒性和泛化能力，从而达到较好的人体动作分类效果；相比于其他人体动作识别方法，本发明提供的方法可有效解决雷达数据过少的问题，提高人体动作识别精度。

附图说明

图1为本发明提供的一种基于数据增强的调频连续波雷达人体动作识别方法流程图；

图2为本发明提供的一种基于数据增强的调频连续波雷达人体动作识别方法原理图；

图3为本发明实施例提供的WGAN-GP生成器和判别器的网络结构图；

图4为本发明实施例提供的深度卷积神经网络结构图；

图5为本发明实施例提供的验证集的动作识别准确率随着添加生成图像倍数增加而变化的曲线图；

图6为本发明实施例提供的确定最佳添加生成图像倍数后，测试集的动作识别准确率随着迭代轮次增加而变化的曲线图。

具体实施方式

下面结合附图和具体实施实例对发明做进一步说明。本发明所要解决技术问题是，当前有大量基于深度学习的调频连续波雷达人体动作识别方法，但是其所需要的雷达数据量过大、不易获取。针对以上问题，本发明提供一种基于数据增强的调频连续波雷达人体动作识别方法，该方法可以解决雷达数据不足的问题，充分发挥深度学习模型的性能，提高动作识别精度。

如图1～2所示，一种基于数据增强的调频连续波雷达人体动作识别方法，包括：

步骤1:采集不同人体动作的雷达回波数据，对得到的雷达回波数据进行预处理，获得相应人体动作的微多普勒时频谱图像，包括：

(2)将每个动作对应的回波样本数据表示为M×N维数据矩阵S(m',n)，m'＝0,1,…,M-1，n＝0,1,…,N-1，其中M为快时间采样个数，即为每个调频周期对应的数据采样点数，N为慢时间采样个数，即为每个动作回波样本数据对应的线性调频信号chirps数量；

(3)对数据矩阵S(m',n)的每一列在快时间维进行快速傅里叶变换(FFT)得到距离像矩阵T(m',n)；

(5)确定人体与雷达之间的距离选择目标对应的距离单元范围，采用短时傅里叶变换(STFT)得到微多普勒时频谱矩阵，包括：

对距离像矩阵X(m',n)的第m行沿慢时间维进行STFT：

然后对每个距离单元的STFT结果进行相干叠加取模值后再取dB值(分贝值)得到矩阵

将所有距离单元的

则取值为

否则取值为α；

(6)采用伪彩色处理将微多普勒时频谱矩阵转换为微多普勒时频谱彩色图像，其具体方法为：

式中，F(k,p)为微多普勒时频谱矩阵(k,p)处的取值，F_max为微多普勒时频谱矩阵中的最大值，F_min为微多普勒时频谱矩阵中的最小值，N(k,p)为微多普勒时频谱矩阵(k,p)处的颜色索引值，(k,p)表示矩阵中的第k行第p列；

将微多普勒时频谱矩阵转换为微多普勒时频谱图像后，将每张图像统一缩放成64×64像素，以减少网络训练的计算复杂度；

步骤3:搭建WGAN-GP，将训练集按动作类别分别输入到WGAN-GP中进行无监督学习，得到各动作相应的生成图像，包括：

WGAN-GP使用Wasserstein距离作为训练生成对抗网络的优化方法，并通过梯度惩罚改进了Lipschitz连续性约束条件。WGAN-GP提供了一种稳定的训练方法，几乎不需要调整参数，通过生成器和判别器的对抗训练就可以生成质量高多样性强的图像，解决了训练梯度消失和梯度爆炸的问题，提高了生成图像的质量和多样性。

步骤3.1：构建WGAN-GP的目标函数为：

式中，x为真实数据，P_r为真实数据分布，P_g为生成数据

分布，z为生成器的输入噪声，λ为梯度惩罚项系数，

为梯度惩罚项的抽样分布，

表示判别器最大化，

表示生成器最小化，D(x)表示判别器对真实数据的判别结果，

表示判别器对生成数据的判别结果，

表示

对

求偏导，

表示样本为真实数据分布时的期望，

表示样本为生成数据分布时的期望，

表示样本为抽样分布时的期望；

WGAN-GP的结构如图3所示，生成器输入一个尺寸为128×1服从均匀分布的随机噪声，然后经过一个全连接层和4个反卷积层，其中：全连接层包含8192个神经元，第一层反卷积层的卷积核尺寸为5×5，步长为2，卷积核个数为256个。第二层反卷积层的卷积核尺寸为5×5，步长为2，卷积核个数为128个。第三层反卷积层的卷积核尺寸为5×5，步长为2，卷积核个数为64个。第四层反卷积层的卷积核尺寸为5×5，步长为2，卷积核个数为3个。全连接层和前三个反卷积层之后都经过批标准化和修正线性单元处理，最后一个反卷积层后经过tanh激活函数处理，最终输出一个64×64×3的图像。

判别器输入一个64×64×3的图像，然后经过4个卷积层和一个全连接层，其中：第一层卷积层卷积核个数为64个，尺寸为5×5，步长为2，第二层卷积层卷积核个数为128个，尺寸为5×5，步长为2，第三层卷积层卷积核个数为256个，尺寸为5×5，步长为2，第四层卷积层卷积核个数为512个，尺寸为5×5，步长为2。每个卷积层之后都经过层标准化和带泄露修正线性单元处理，最后全连接层输出判别结果。

为相应位置归一化后的像素值；

经过归一化后，图像的每一个像素值均在[-1,1]区间，将归一化后的微多普勒时频谱图像输入到WGAN-GP中训练，每迭代100次保存32个该动作的生成图像。

如图4所示，设计一个深度卷积神经网络，包括7个卷积层和3个全连接层，其中：第一、二层卷积层的卷积核个数为32个，尺寸为5×5，步长为1。第三、四层卷积层的卷积核个数为64个，尺寸为3×3，步长为1。第五、六层卷积层的卷积核个数为128个，尺寸为3×3，步长为1。第七层卷积层的卷积核个数为256个，尺寸为3×3，步长为1。第一层全连接层神经元个数为512个，第二层全连接层神经元个数为1024个，第三层全连接层神经元个数为6个，即类别数。每一个卷积层都进行补0填充，之后都经过批标准化和修正线性单元处理。在第二层、第四层、第六层和第七层卷积层之后包含有最大池化层，尺寸均为2×2，步长均为2，每个最大池化层都不进行填充。在第一层、第二层全连接层后使用dropout层防止网络过拟合，神经元丢弃率为40％。

设置深度卷积神经网络的相关参数，包括每次送入网络训练的样本数量、优化方法、学习速率、参数初始化方式等。将添加生成图像后的新训练集输入到该深度卷积神经网络进行有监督训练，记录并保存网络参数，得到具有人体动作识别功能的网络模型，之后利用验证集确定最佳的添加生成图像倍数，确定最佳添加倍数后将测试集作为数据输入到训练完成的深度卷积神经网络模型里，得到人体动作识别结果。

为验证本发明方法的有效性，下面设计具体实验进行验证：

本实施例中，将调频连续波雷达系统置于1.2米高的桌子，在室内环境下对28名志愿者测量了6种不同的人体动作，包括(a)摆臂走、(b)夹臂走、(c)蹲起、(d)喝水、(e)弯腰、(f)坐下。使用的调频连续波雷达系统主要参数为：中心频率为5.8GHz，带宽400MHz，快时间采样频率为256KHz，慢时间采样频率为1KHz，每种动作的测量时长为5秒，重复测量五次。每种动作包括140个雷达回波数据，总计6种动作得到840个回波数据。

对回波数据进行预处理，其中使用4阶截止频率为0.0075Hz的Butterworth高通滤波器作为MTI滤波器对背景杂波进行抑制，根据人体目标与雷达之间的距离选择的距离单元范围为[10,30]，STFT采用窗长度为0.2s，重叠系数为95％的Hamming窗函数，最终得到相应的微多普勒时频谱图像。

对于每一种动作，选取25名志愿者、每人进行4次测量得到的100幅微多普勒时频谱图像作为训练集，选取与训练集相同的25名志愿者、每人进行1次测量得到的25幅微多普勒时频谱图像作为验证集，选取另外的3名志愿者，每人进行5次测量得到的15幅微多普勒时频谱图像作为测试集。

训练集总计600(25名志愿者×测量4次×6种动作＝600)幅图像，验证集总计150(25名志愿者×测量1次×6种动作＝150)幅图像，测试集总计90(3名志愿者×测量5次×6种动作＝90)幅图像。

将训练集按动作类别分别输入到WGAN-GP中，进行无监督学习。本发明使用的深度学习框架为TensorFlow，CPU为AMD R9 3900X，同时使用NVIDA GTX 2060和CUDA加速训练。WGAN-GP模型中所有的参数初始化服从均值为0，标准差为0.2的正态分布，判别器和生成器的学习率设置为0.0002，采用Adam优化算法，带泄露修正线性单元斜率设置为0.2，批大小设置为32，梯度惩罚项系数为10，WGAN-GP经过训练后，得到各动作相应的生成图像，生成图像与真实的微多普勒时频谱图像在宏观上非常相似，并且训练过程较为稳定，未发生模式坍塌。

分别向训练集中添加其0倍(不添加)、1倍、2倍、3倍、4倍、5倍、6倍、7倍数量的生成图像组成不同的新训练集。使用添加了不同倍数生成图像后的新训练集分别训练深度卷积神经网络，输入到深度卷积神经网络的图像尺寸为64×64×3，网络权重使用Xavier初始化方式，偏置初始化为0，训练时采用Adam优化算法，学习率设置为0.0005，每一次训练输入32张样本数据，迭代轮次为240轮，每隔30轮保存一次模型参数。

使用不同新训练集训练的深度卷积神经网络对验证集进行动作识别分类以确定最佳的添加生成图像倍数，实验结果如图5所示，当训练集中加入的生成图像在一定数量内时，随着加入的生成图像越多，深度卷积神经网络的分类准确率越高，生成图像可有效地增强深度卷积神经网络的泛化能力，验证集的识别准确率得到提高。但当加入过多的生成图像时准确率骤降，这是因为生成图像与真实的微多普勒时频谱图像虽然看起来十分相似，但图像质量仍不如真实的微多普勒时频谱图像，如果训练集中的生成图像超过一定数量时会影响网络模型对微多普勒时频谱图像特征的学习，导致验证集准确率降低。

当向训练集加入四倍数量的生成图像时，深度卷积神经网络的泛化能力最强，验证集的动作识别准确率达到最高，达到95.8％。确定最佳的添加生成图像倍数后，使用添加四倍生成图像的训练集训练的深度卷积神经网络在测试集上测试人体动作识别准确率，实验结果如图6所示，仅使用训练集时，随着迭代轮次的增加，测试集准确率稳定在90.2％左右，添加四倍生成图像后，测试集准确率稳定在93.5％左右。实验结果表明，使用WGAN-GP数据增强后的深度卷积神经网络的泛化能力得到进一步提升，无论是验证集，还是与训练集关联性较小的测试集，其动作识别准确率均得到提高。

本发明提供的一种基于数据增强的调频连续波雷达人体动作识别方法，可以稳定地生成与微多普勒时频谱图像高度相似的生成图像，进行数据增强、有效解决雷达数据不足的问题、充分发挥深度卷积神经网络的动作识别性能，验证集和测试集的准确率得到明显提升。