CN113516242A

CN113516242A - 一种基于自注意力机制的神经网络模型的训练方法

Info

Publication number: CN113516242A
Application number: CN202110911898.8A
Authority: CN
Inventors: 叶盛波; 郑之杰; 方广有
Original assignee: Aerospace Information Research Institute of CAS
Current assignee: Aerospace Information Research Institute of CAS
Priority date: 2021-08-10
Filing date: 2021-08-10
Publication date: 2021-10-19
Anticipated expiration: 2041-08-10
Also published as: CN113516242B

Abstract

本发明公开了一种基于自注意力机制的神经网络模型的训练方法，包括：获取训练集，其中，训练集包括带有标签的雷达回波信号，不同的雷达回波信号用于表示不同类别的动作信息；将训练集输入到基于自注意力机制的神经网络模型中，其中，神经网络模型包括自注意力编码器和自注意力解码器；通过自注意力编码器对训练集进行处理，将处理后的结果输入到自注意力解码器中，经过自注意解码器的处理后输出判别结果；将判别结果和训练集输入到神经网络模型的损失函数中；根据损失函数的计算结果，反向传播更新神经网络模型参数。本发明还公开了一种基于自注意力机制的穿墙雷达人体动作识别方法及系统。

Description

一种基于自注意力机制的神经网络模型的训练方法

技术领域

本发明涉及神经网络模型领域，尤其涉及一种基于自注意力机制的神经网络模型的训练方法、人体动作识别方法及系统。

背景技术

人体动作识别是计算机视觉领域的重要问题之一，旨在从图像或视频中识别出人体目标的不同动作，是实现人体信息感知的重要环节。但是光学系统和人类的视觉系统无法直接观测到墙后的人体目标，使得有墙壁等障碍物遮挡时的人体动作识别几乎无法实现。穿墙雷达能够穿过墙体等障碍物并探测人体信号，若能使用穿墙雷达对墙后人体进行动作识别，将对生命救援等领域产生重要影响。目前针对穿墙雷达系统设计的人体动作识别方法，大多先对雷达回波信号应用成像算法，再根据雷达成像信号中的低阶统计量(如位置、密度分布等)人工区分人体动作。但由于穿墙雷达信号的成像分辨率相较于光学系统更低，直接从成像信号中识别动作的准确率较低，而且人工识别需耗费大量时间和精力；并且接收信号、成像、处理和人工识别的过程缺少连续性，无法实现整个系统端到端的处理(端到端是指计算机接收信号后直接输出所需结果，无需人工干预中间过程)。近年来深度学习技术在信号处理与模式识别领域取得较大突破，许多研究人员开始研究基于深度学习技术的穿墙雷达人体动作识别方法。

发明内容

有鉴于此，本发明的主要目的在于提供一种基于自注意力机制的神经网络模型的训练方法，人体动作识别方法及系统，以期至少部分地解决上述提及的技术问题中的至少之一。

为实现上述目的，本发明的技术方案包括：

根据本发明公开的一个方面，提供一种基于自注意力机制的神经网络模型的训练方法，包括：获取训练集，其中，训练集包括带有标签的雷达回波信号，不同的雷达回波信号用于表示不同类别的动作信息；将训练集输入到基于自注意力机制的神经网络模型中，其中，神经网络模型包括自注意力编码器和自注意力解码器；通过自注意力编码器对训练集进行处理，将处理后的结果输入到自注意力解码器中，经过自注意力解码器的处理后输出判别结果；将判别结果和训练集输入到神经网络模型的损失函数中；根据所述损失函数的计算结果，反向传播更新神经网络模型参数。

根据本发明公开的实施例，上述训练方法中，自注意力编码器包括多个交替堆叠的第一自注意力层、第一层标准化层和第一全连接层，自注意力编码器用于处理所述雷达回波信号并输出编码后的雷达回波信号。

根据本发明公开的实施例，上述训练方法中，第一自注意力层用于提取所述雷达回波信号的特征，所述第一层标准化层用于将所述特征进行标准化，所述第一全连接层用于不同层之间的非线性交互。

根据本发明公开的实施例，上述训练方法中，自注意力解码器包括多个交替堆叠的第二自注意力层、第二层标准化层和第二全连接层，自注意力解码器用于接收编码后的雷达回波信号并结合类别查询信号，输出动作类别判别结果。

根据本发明公开的实施例，上述训练方法中，编码后的雷达回波信号与类别查询信号进行运算，将运算后的结果输入到第二自注意力层，第二自注意力层提取运算后的结果的特征，第二层标准化层用于将特征进行标准化，第二全连接层用于不同层之间的非线性交互。

根据本发明公开的实施例，上述训练方法中，损失函数采用交叉熵损失函数作为神经网络模型的总损失函数，总损失函数如式(1)所示：

其中C为动作总类别，y、

分别表示原始标记和神经网络模型预测的动作类别，N是训练集的样本总数，I是示性函数。

根据本发明公开的实施例，上述训练方法中，示性函数I，当y_i＝c时，I的值是1；当y_i≠c时，I的值是0。

根据本发明公开的另一个方面，还提供一种基于自注意力机制的穿墙雷达人体动作识别方法，包括：穿墙雷达发出探测信号，对墙后的人体目标进行探测，捕捉墙后人体目标的动作信息，采集并接收雷达回波信号；将雷达回波信号输入到基于自注意力机制的神经网络模型中，通过神经网络模型的自注意力编码器和解码器进行处理，输出人体目标的动作类别，其中基于自注意力机制的神经网络模型由本发明公开的上述训练方法训练得到。

根据本发明公开的另一个方面，还提供一种基于自注意力机制的穿墙雷达人体动作识别系统，包括：雷达模块，用于对墙后的人体目标进行探测，捕捉墙后人体目标的动作信息，采集并接收雷达回波信号；神经网络模块，用于将雷达回波信号输入到基于自注意力机制的神经网络模型中，通过神经网络模型的自注意力编码器和解码器进行处理，输出人体目标的动作类别。

基于上述技术方案，本发明提供的基于自注意力机制的神经网络模型的训练方法能够提高数据的处理效率并提高分类结果的准确性；同时本发明提供的基于自注意力机制的穿墙雷达人体动作识别方法及系统能够实现对采集的穿墙雷达人体回波数据进行动作识别并提升识别的效果，同时还能够将上述识别方法及系统应用于灾害救援、安全检测等实际任务中，既能实现系统端到端的处理过程，又兼顾了识别准确率和识别速度的平衡。

附图说明

图1是根据本发明实施例的基于自注意力机制的神经网络模型训练方法的流程图；

图2是根据本发明实施例的自注意力编码器的结构示意图；

图3是根据本发明实施例的自注意力解码器的结构示意图

图4示意性的示出了根据本发明实施例提供的穿墙雷达人体动作识别模型结构示意图；

图5是根据本发明实施例的基于自注意力机制的穿墙雷达人体动作识别系统；

图6示意性的示出了根据本发明实施例提供的训练方法进行墙后人体目标动作识别的应用场景图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

在实现本发明的过程中发现，基于深度学习的穿墙雷达人体动作识别方法可以划分为基于卷积神经网络实现的方法和基于循环神经网络实现的方法这两种类别。基于卷积神经网络实现的识别方法首先使用卷积神经网络从雷达成像信号中提取包含人体动作信息的特征，再使用全连接神经网络等简单的分类器将这些特征分类为不同的人体动作。这类方法使用计算机代替人工识别，极大地提高了动作识别的准确率和速度，但是由于其依赖雷达成像信号，仍然需要使用成像算法，阻碍了信号接收和处理之间的连续性。基于循环神经网络实现的识别方法则是将雷达回波信号看作序列数据，使用循环神经网络处理并将其提取为动作类别，由于不需要成像算法使得整个方法具有连续性，实现了端到端的处理。但是由于循环神经网络的计算是线性的，只有完成这一轮的所有计算才能够进行下一轮计算，这使得整个处理过程很难并行实现，需要较大的计算量和较长的处理时间，阻碍了识别的实时性。

当前提出的基于深度学习的两种穿墙雷达信号的人体动作识别方法，存在一些缺陷，将其归纳总结如下：(1)基于卷积神经网络的识别方法相较于传统方法具有更高的识别准确率和识别速度，但仍需引入成像算法，无法实现端到端的识别；(2)基于循环神经网络的识别方法可以实现端到端的识别，无需额外的人工干预，但其循环处理过程需要较长的计算实际，阻碍了方法的实时性；(3)目前仍然缺少合适的穿墙雷达人体动作识别方法，既能实现端到端的识别，又能兼顾准确率和实时性。

图1是根据本发明实施例的基于自注意力机制的神经网络模型训练方法的流程图。

如图1所示，作为本发明实施例一种基于自注意力机制的神经网络模型训练方法包括操作S110-S150，

在操作110，获取训练集，其中，训练集包括带有标签的雷达回波信号，不同的雷达回波信号用于表示不同类别的动作信息。

根据本发明的实施例，训练集的采集地点为有墙体遮挡的封闭场地，采集时人体目标可以摆出若干种人体动作，例如蹲、坐、站等，此时穿墙雷达发出探测信号探测墙后人体目标摆出不同的动作，并且采集和接收雷达回波信号，并且为这些信号加上标签。根据发明的实施例，人可以观察到墙后人体的动作类别，预先指定所有的动作类别，例如可以预先指定5种动作类别，如站立、展臂、抱头、蹲下、躺下等，将其作为监督训练的训练集。

在操作120，将训练集输入到基于自注意力机制的神经网络模型中，其中，神经网络模型包括自注意力编码器和自注意力解码器。

根据本发明的实施例，训练集所包括的雷达回波信号可以看作是序列数据，其中雷达回波信号的两个维度分别表示通道数与每道数据的采样点数，因此可以自然地使用基于自注意力机制的神经网络模型来处理该训练集。

在操作130，通过自注意力编码器对训练集进行处理，将处理后的结果输入到自注意力解码器中，经过自注意力解码器的处理后输出判别结果。

在操作140，将判别结果和训练集输入到神经网络模型的损失函数中。

在操作150，根据损失函数的计算结果，反向传播更新神经网络模型参数。

根据本发明的实施例，损失函数可以很好地反映模型与实际数据差距，通过损失函数在多次训练过程中的结果，可以更好地优化模型，得到训练好的神经网络模型。

通过上述训练方法，得到模型参数优化后的基于自注意力机制的神经网络模型，该模型可以充分发挥自注意力机制在处理序列数据上的优势，充分挖掘序列数据潜在的信息，增强模型捕捉序列数据之间依存关系的能力，同时加强了模型并行计算的效率。

图2是根据本发明实施例的自注意力编码器的结构示意图。

如图2所示，自注意力编码器包括多个交替堆叠的第一自注意力层、第一层标准化层和第一全连接层，所述自注意力编码器用于处理所述雷达回波信号并输出编码后的雷达回波信号。

根据本发明的实施例，自注意力编码器优选为6层结构，用于平衡计算的复杂度和计算的速度。自注意力编码器接收序列化的雷达回波信号，输出编码后的信号。输出信号与输入信号尺寸相同，携带更多特征信息。

根据本发明的实施例，上述自注意力编码器的第一自注意力层用于提取所述雷达回波信号的特征，上述自注意力编码器的第一层标准化层用于将所述特征进行标准化，上述自注意力编码器的第一全连接层用于不同层之间的非线性交互。

根据本发明的实施例，第一自注意力层可以提取雷达回波信号的语义特征，例如信号的均值、方差等。通过第一自注意力层处理后的训练集中的数据符合概率分布，通过第一层标准化层处理后的训练集中的数据符合正态分布。

根据本发明的实施例，第一自注意力层用于提取所述雷达回波信号的特征包括：将雷达回波信号通过齐次变换分别得到查询矩阵Q、键矩阵K和值矩阵V；将查询矩阵和键矩阵进行运算，得到自注意力分布；对自注意力分布进行归一化，并与值矩阵进行运算，得到雷达回波信号的特征。

根据本发明的实施例，其中将训练集中输入序列记作

其中X是序列矩阵，D_x是矩阵X的行数，N是矩阵的列数，查询矩阵Q通过式(2)得到：

其中W^q是查询矩阵Q的权值矩阵，D_k和D_x分别是W^q的行数与列数，通过与序列矩阵X进行矩阵相乘得到查询矩阵Q，查询矩阵Q用来检测矩阵中的向量哪些更重要，将相对重要的向量设置更高的权重。键矩阵K通过式(3)得到：

其中，W^k是键矩阵K的权值矩阵，D_k和D_x分别是W^k的行数与列数，通过与序列矩阵X进行矩阵相乘得到键矩阵K。值矩阵V通过式(4)得到：

其中，W^v是键矩阵V的权值矩阵，D_k和D_x分别是W^v的行数与列数，通过与序列矩阵X进行矩阵相乘得到值矩阵V；上述键矩阵K和值矩阵V主要用于检索信息。自注意力分布A∈R^N×N由式(5)得到：

使用Softmax函数对自注意力分布进行归一化，并与值矩阵V进行运算得到输出结果

如式(5)所示：

Y＝V·softmax(A) (5)。

图3是根据本发明实施例的自注意力解码器的结构示意图。

如图3所示，自注意力解码器包括多个交替堆叠的第二自注意力层、第二层标准化层和第二全连接层，自注意力解码器用于接收编码后的雷达回波信号并结合类别查询信号，输出动作类别判别结果。

根据本发明的实施例，自注意力解码器在结构上与自注意力编码器类似，也是由自注意力层、层标准化层和全连接层交替堆叠而成的。但解码器的输入与编码器不同。解码器的主输入端是一个类别查询信号，分别对应每一个动作类别，用于查询雷达信号中是否包含该动作的人体目标。输出信号与输入信号尺寸相同，代表每一个动作是否存在。解码器的中间输入是编码器的输出信号，这个输入作用于每一个自注意力层之前。

根据本发明的实施例，自注意力解码器旨在接收自注意力编码器编码输出的信号，并经过多个自注意力层、层标准化层和全连接层的处理后，输出动作类别的判定结果；由于该解码器的多层次结构，可以有效的提高判别结果的准确率。

根据本发明的实施例，经过自注意力编码器编码后的雷达回波信号与类别查询信号进行运算，将运算后的结果输入到第二自注意力层，第二自注意力层提取运算后的结果的特征，第二层标准化层用于将特征进行标准化，第二全连接层用于不同层之间的非线性交互。

根据本发明的实施例，雷达回波信号与类别查询信号在结构上相似，属于同型矩阵，可以进行矩阵运算，例如矩阵的加法、乘法、转置、线性变换等。信号的特征由基于自注意力机制的神经网络模型进行自动提取，如提取信号的均值、方差等。

根据本发明的实施例，上述神经网络模型的总损失函数采用交叉熵损失函数来计算模型的在多次训练过程中的损失，总损失函数如式(6)所示：

其中C为动作总类别，一般定义为C＝5，表示5个不同的人体动作(站立、展臂、抱头、蹲下、躺下或者其他类别的动作)；y、

分别表示原始标记和神经网络模型预测的动作类别，N是训练集的样本总数，I是示性函数用于表示原始标记是否与动作类别一致。

根据本发明的实施例，上述示性函数I，当y_i＝c时，I的值是1；当y_i≠c时，I的值是0。

将上述损失函数作为优化目标，可以较好的表示上述模型的预测值与实际值的差距程度，更好的对上述神经网络模型进行训练，从而使得上述神经网络模型的各项参数趋向最优化；同时通过合理的网络模型设计避免了梯度爆炸现象，使预测结果更准确，能够更有效的识别墙后人体动作。

根据本发明的一个方面，还提供了一种基于自注意力机制的穿墙雷达人体动作识别方法，包括：穿墙雷达发出探测信号，对墙后的人体目标进行探测，捕捉墙后人体目标的动作信息，采集并接收雷达回波信号；将雷达回波信号输入到基于自注意力机制的神经网络模型中，通过神经网络模型的自注意力编码器和解码器进行处理，输出人体目标的动作类别，其中基于自注意力机制的神经网络模型由本发明实施例公开的上述训练方法训练得到。

图4示意性的示出了根据本发明实施例提供的穿墙雷达人体动作识别模型结构示意图。

如图4所示，穿墙雷达发出探测信号，用于探测墙后人体目标发出的动作信息，通过采集雷达回波信号，利用雷达的处理器接收上述雷达回波信号并将其转换成序列化的雷达回波信号，以方便后续进行数值处理。将序列化后的雷达回波信号输入到自注意力编码器中，经过编码器内部多个的第一自注意力层、第一层标准化层和第一全连接层进行编码后，将编码后的信号与使用者输入的类别查询信号进行矩阵运算后，输入到自注意力解码器中，自注意力解码器将上述信号进行处理，输出人体目标识别的判定结果，如人体目标发出的信号代表的是坐、蹲还是站。从图4可以清晰地看到，雷达回波信号经过神经网络模型处理后，最终输出墙后人体目标的动作类型。

通过使用本发明提供的人体动作识别方法，能够高效准确地对墙后的人体目标进行识别，并判定该目标所发出的动作类别；上述识别方法简单可靠，能够实现端到端的识别，大大地提高了实时性。

图5是根据本发明实施例的一种基于自注意力机制的穿墙雷达人体动作识别系统500。

如图5所示，本发明实施例公开的识别系统500包括雷达模块510和神经网络模块520，其中：

雷达模块510，用于对墙后的人体目标进行探测，捕捉墙后人体目标的动作信息，采集并接收雷达回波信号；

神经网络模块520，用于将雷达回波信号输入到基于自注意力机制的神经网络模型中，通过神经网络模型的自注意力编码器和解码器进行处理，输出人体目标的动作类别，其中基于自注意力机制的神经网络模型由本发明实施例公开的训练方法训练得到。

上述系统集成了雷达模块和神经网络模块，实现了对墙后人体目标动作进行探测、信号采集、信号接收、信号处理、动作类别判别等多项功能，有利于使用者方便地进行实时判别墙后人体目标的动作类别，在多种情境下有着广泛的应用。

下面参考图6，对本发明所提供的上述训练方法在现实应用场景中的使用做进一步的说明。

根据本发明的实施例，训练集的采集地点为有墙体遮挡的封闭场地，采集时人体目标摆出若干种人体动作。采集的雷达回波信号尺寸为(Dx,N)＝(2048，32)，人为定义c＝5个不同的人体动作(站立、展臂、抱头、蹲下、躺下等)，并为训练集的信号人工加上相应标签。

根据本发明的实施例，自注意力编码器网络选用6层结构，用于平衡计算复杂度和计算速度。在本实验中，自注意力层的中间特征选用512，全连接层的中间特征选用2048。

根据本发明的实施例，自注意力解码器网络结构上与自注意力编码器网络相同，额外增加了一层输出层。类别查询信号长度设置为5，即最多可以识别出五种不同的人体动作。整个网络的具体结构如表3.1所示。

根据本发明的实施例，训练总轮数为1000，使用Adam算法进行梯度更新，初始学习率设定0.0001，每10轮衰减5％。其余超参数均使用默认值，整个系统使用Pytorch框架实现，训练和测试过程使用了一块RTX3090。

根据本发明的实施例，训练完成后，实际采集雷达信号进行测试，能够实时给出识别出的人体动作，部分结果展示于表1中。

表1实例训练的神经网络结构表

通过上述实例训练，可以训练得到神经网络模型参数最优化的神经网络模型，需要特别指出的是，上述训练过程中输入特征数、输出特征数、中间特征数的值仅仅是为了举例说明训练过程，并不是为了限定训练过程中各项参数的值，本领域技术人员应当理解是，上述各项特征数的值可以选择其他合理的数值。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于自注意力机制的神经网络模型的训练方法，包括：

获取训练集，其中，所述训练集包括带有标签的雷达回波信号，不同的所述雷达回波信号用于表示不同类别的动作信息；

将所述训练集输入到基于自注意力机制的神经网络模型中，其中，所述神经网络模型包括自注意力编码器和自注意力解码器；

通过所述自注意力编码器对所述训练集进行处理，将处理后的结果输入到所述自注意力解码器中，经过所述自注意力解码器的处理后输出判别结果；

将所述判别结果和所述训练集输入到所述神经网络模型的损失函数中；

根据所述损失函数的计算结果，反向传播更新所述神经网络模型参数。

2.根据权利要求1所述的训练方法，其中，所述自注意力编码器包括多个交替堆叠的第一自注意力层、第一层标准化层和第一全连接层，所述自注意力编码器用于处理所述雷达回波信号并输出编码后的雷达回波信号。

3.根据权利要求2所述的训练方法，其中，所述第一自注意力层用于提取所述雷达回波信号的特征，所述第一层标准化层用于将所述特征进行标准化，所述第一全连接层用于不同层之间的非线性交互。

4.根据权利要求3所述的训练方法，其中，所述第一自注意力层用于提取所述雷达回波信号的特征包括：

将所述雷达回波信号通过齐次变换分别得到查询矩阵、键矩阵和值矩阵；

将查询矩阵和键矩阵进行运算，得到自注意力分布；

对所述自注意力分布进行归一化，并与值矩阵进行运算，得到所述雷达回波信号的特征。

5.根据权利要求1所述的训练方法，其中，所述自注意力解码器包括多个交替堆叠的第二自注意力层、第二层标准化层和第二全连接层，所述自注意力解码器用于接收编码后的雷达回波信号并结合类别查询信号，输出动作类别判别结果。

6.根据权利要求5所述的训练方法，其中，所述编码后的雷达回波信号与类别查询信号进行运算，将运算后的结果输入到所述第二自注意力层，所述第二自注意力层提取所述运算后的结果的特征，所述第二层标准化层用于将所述特征进行标准化，所述第二全连接层用于不同层之间的非线性交互。

7.根据权利要求1所述的训练方法，其中，所述损失函数采用交叉熵损失函数作为所述神经网络模型的总损失函数，所述总损失函数如式(1)所示：

其中C为动作总类别，y、

分别表示原始标记和所述神经网络模型预测的动作类别，N是训练集的样本总数，I是示性函数。

8.根据权利要求7所述的训练方法，其中，所述示性函数I，当y_i＝c时，I的值是1；当y_i≠c时，I的值是0。

9.一种基于自注意力机制的穿墙雷达人体动作识别方法，包括：

穿墙雷达发出探测信号，对墙后的人体目标进行探测，捕捉墙后人体目标的动作信息，采集并接收雷达回波信号；

将所述雷达回波信号输入到基于自注意力机制的神经网络模型中，通过所述神经网络模型的自注意力编码器和解码器进行处理，输出人体目标的动作类别，其中所述基于自注意力机制的神经网络模型由权利要求1-8任一所述的方法训练得到。

10.一种基于自注意力机制的穿墙雷达人体动作识别系统，包括：

雷达模块，用于对墙后的人体目标进行探测，捕捉墙后人体目标的动作信息，采集并接收雷达回波信号；

神经网络模块，用于将所述雷达回波信号输入到基于自注意力机制的神经网络模型中，通过所述神经网络模型的自注意力编码器和解码器进行处理，输出人体目标的动作类别，其中所述基于自注意力机制的神经网络模型由权利要求1-8任一所述的训练方法训练得到。