CN113516232A

CN113516232A - 一种基于自注意力机制的神经网络模型的训练方法

Info

Publication number: CN113516232A
Application number: CN202110916211.XA
Authority: CN
Inventors: 方广有; 郑之杰; 叶盛波
Original assignee: Aerospace Information Research Institute of CAS
Current assignee: Aerospace Information Research Institute of CAS
Priority date: 2021-08-10
Filing date: 2021-08-10
Publication date: 2021-10-19
Anticipated expiration: 2041-08-10
Also published as: CN113516232B

Abstract

本发明公开了一种基于自注意力机制的神经网络模型的训练方法，包括：获取训练集，训练集包括雷达回波信号，雷达回波信号为通过人体的关节点反射后接收到的信号；将训练集输入到基于自注意力机制的神经网络模型中，其中，神经网络模型包括姿态编码器和姿态解码器；通过姿态编码器处理训练集，得到携带多个姿态特征的编码信号；姿态解码器将编码信号与关节点查询信号进行运算，运算后的结果经姿态解码器进行处理后，输出关节点坐标判别结果；将判别结果与训练集输入到神经网络模型的损失函数中，输出损失结果；根据损失结果更新神经网络模型的参数。本发明同时还公开了一种基于自注意力机制的穿墙雷达人体姿态重构方法及系统。

Description

一种基于自注意力机制的神经网络模型的训练方法

技术领域

本发明涉及神经网络模型领域，尤其涉及一种基于自注意力机制的神经网络模型的训练方法、人体姿态重构方法及系统。

背景技术

人体姿态重构是计算机视觉领域研究的关键问题之一，旨在从图像中估计人体的若干关节点，由这些关节点组成完整的人体骨架结构，并最终形成人体姿态，是实现人体感知的重要问题。但是人类的视觉系统和光学系统无法直接观测到墙后的人体目标，使得有墙壁等障碍物遮挡时的人体姿态几乎无法重构出来。穿墙雷达能够穿透墙体等障碍物并反射人体信号，若能使用穿墙雷达对墙后人体进行姿态重构，将对生命探测、行为识别等领域产生重大影响。但由于穿墙雷达的成像分辨率相较于光学系统更低，直接从雷达信号中成像并进行姿态重构较为困难，且需要大量人工处理阶段，需耗费大量时间和精力。近年来深度学习技术在模式识别与信号处理领域飞速发展，许多研究人员开始研究基于深度学习技术的穿墙雷达人体姿态重构方法。

目前为穿墙雷达设计的无论是非深度学习还是基于深度学习的人体姿态重构方法都存在一些缺陷，将其归纳总结如下：(1)传统的穿墙雷达人体姿态重构方法直接从雷达成像信号中人工分辨目标姿态，分辨准确率低且耗费时间精力；(2)基于卷积神经网络的穿墙雷达人体姿态重构方法相较于传统方法具有更高的重构准确率和速度，但仍需引入成像算法，无法实现端到端的识别；(3)目前仍然缺少合适的穿墙雷达人体姿态重构方法，既能兼顾准确率和速度，又能实现端到端的处理。

发明内容

有鉴于此，本发明的主要目的在于提供一种基于自注意力机制的神经网络模型的训练方法，人体姿态重构方法及系统，以期至少部分地解决上述提及的技术问题中的至少之一。

根据本发明公开的一个方面，提供了一种基于自注意力机制的神经网络模型的训练方法，包括：获取训练集，训练集包括雷达回波信号，雷达回波信号为通过人体的关节点反射后接收到的信号；将训练集输入到基于自注意力机制的神经网络模型中，其中，神经网络模型包括姿态编码器和姿态解码器；通过姿态编码器处理所述训练集，得到携带多个姿态特征的编码信号；姿态解码器将所述编码信号与关节点查询信号进行运算，运算后的结果经姿态解码器进行处理后，输出关节点坐标判别结果；将判别结果与训练集输入到所述神经网络模型的损失函数中，输出损失结果；根据损失结果更新所述神经网络模型的参数。

根据本发明公开的实施例，其中，在上述训练方法中，获取训练集包括：预先选定人体的多个关节点；利用光学成像系统捕捉墙后人体的关节点信息；计算关节点信息生成关节点坐标信息；利用穿墙雷达发出探测信号，探测墙后人体在预设姿态下的关节点信息；利用穿墙雷达采集所述雷达回波信号；

根据本发明公开的实施例，为所述雷达回波信号添加标签包括：将用于估计人体三维姿态的关节点坐标信息与雷达回波信号通过时间标记进行同步对齐。

根据本发明公开的实施例，在上述训练方法中，损失函数采用L2损失函数作为神经网络模型的总损失函数，总损失函数如式(1)所示：

其中y、

分别表示原始标记和神经网络模型重构的关节点坐标，N是训练集的样本总数。

根据本发明公开的实施例，神经网络模型的总损失函数采用Adam算法进行梯度更新。

根据本发明公开的实施例，姿态编码器包括多个交替叠加的第一自注意力层、第一层标准化层和第一全连接层；姿态解码器用于提取训练集中雷达回波信号的姿态特征，并输出与训练集维度相同的编码信号；其中，第一自注意力层用于提取雷达回波信号的特征，第一层标准化层用于将特征进行标准化，第一全连接层用于不同层之间的非线性交互。

根据本发明公开的实施例，第一自注意力层用于提取雷达回波信号的特征包括：将雷达回波信号通过齐次变换分别得到查询张量、键张量和值张量；将查询张量和键张量进行运算，得到自注意力分布；对自注意力分布进行归一化，并与值张量进行运算，得到雷达回波信号的特征。

根据本发明公开的实施例，姿态解码器包括多个交替堆叠的第二自注意力层、第二层标准化层和第二全连接层；其中，编码信号与类别查询信号进行运算，将运算后的结果输入到第二自注意力层，第二自注意力层提取运算后的结果的特征，第二层标准化层用于将特征进行标准化，第二全连接层用于不同层之间的非线性交互。

根据本发明公开的另一个方面，还提供了一种基于自注意力机制的穿墙雷达人体姿态重构方法，包括：穿墙雷达发出探测信号，对墙后的人体目标进行探测，捕捉墙后人体目标的关节点，采集并接收雷达回波信号；将雷达回波信号输入到基于自注意力机制的神经网络模型中，通过神经网络模型的姿态编码器和姿态解码器进行处理，输出人体目标的关节点坐标，其中基于自注意力机制的神经网络模型由本发明公开的训练方法训练得到。

根据本发明公开的另一个方面，还提供了一种基于自注意力机制的穿墙雷达人体动作识别系统，包括：雷达模块，用于对墙后的人体目标进行探测，捕捉墙后人体目标的关节点信息，采集并接收雷达回波信号；神经网络模块，用于将雷达回波信号输入到基于自注意力机制的神经网络模型中，通过神经网络模型的姿态编码器和姿态解码器进行处理，输出人体目标的关节点坐标，其中基于自注意力机制的神经网络模型由本发明公开的训练方法训练得到。

基于上述技术方案，本发明提供的基于自注意力机制的神经网络模型的训练方法能够提高数据的处理效率并提高分类结果的准确性；同时本发明提出了一种使用穿墙雷达对墙后人体进行姿态重构的方法，实现了对采集的穿墙雷达人体回波数据进行姿态重构的效果，能够将其应用于行为识别、安全救援等实际任务中；此外本发明提出了使用自注意力机制处理穿墙雷达人体回波信号，既兼顾了识别准确率和识别速度的平衡，又能实现系统端到端的处理过程。

附图说明

图1是根据本发明实施例的基于自注意力机制的神经网络模型训练方法的流程图；

图2是根据本发明实施例获取训练集的流程图；

图3是根据本发明的实施例的姿态编码器的结构示意图；

图4是根据本发明的实施例的姿态解码器的结构示意图；

图5示意性的示出了根据本发明实施例提供的穿墙雷达人体姿态重构模型结构示意图；

图6是根据本发明实施例的一种基于自注意力机制的穿墙雷达人体姿态重构系统；

图7示意性的示出了根据本发明实施例提供的训练方法进行墙后人体目标姿态重构的应用场景图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

目前基于深度学习的穿墙雷达人体姿态重构方法可以采用以卷积神经网络为基础的监督学习方法，监督学习是指人工为训练数据加上标签，对于姿态重构任务则是指人工为采集的穿墙雷达成像数据标记对应的人体关节点坐标，而这些关节点坐标可以由预先布置在被检测空间中的光学成像系统捕获并计算得到。这些技术在实现时，首先使用穿墙雷达采集包含人体目标的回波信号，应用成像算法处理这些信号得到雷达成像信号，再使用卷积神经网络从这些雷达成像信号中提取包含人体姿态信息的特征，并最终输出重构的人体各关节点坐标值。这类方法使用计算机代替人工处理阶段，提高了姿态重构的准确率和速度，但是由于其依赖雷达成像信号，即需要使用合适的成像算法，阻碍了信号接收和处理之间的连续性，无法实现整个系统端到端的处理，即端到端是指计算机接收信号后直接输出所需结果，无需人工干预中间过程。

图1是根据本发明实施例的基于自注意力机制的神经网络模型训练方法的流程图。

如图1所示，本发明实施例公开的一种基于自注意力机制的神经网络模型训练方法包括操作S110-S160。

在操作S110，获取训练集，训练集包括雷达回波信号，雷达回波信号为通过人体的关节点反射后接收到的信号。

根据本发明的实施例，利用穿墙雷达探测墙后人体目标的关节点信息，通过雷达回波信号记录墙后人体目标的关节点信息。

在操作S120，将训练集输入到基于自注意力机制的神经网络模型中，其中，神经网络模型包括姿态编码器和姿态解码器。

根据本发明的实施例，由于雷达回波信号是基于时间的序列数据，所以能够通过构造基于自注意力机制的神经网络模型来处理。

在操作S130，通过姿态编码器处理所述训练集，得到携带多个姿态特征的编码信号。

根据本发明的实施例，姿态编码器可以包括多个数据处理层的网络结构，能够处理灵活的处理序列数据，例如雷达回波信号。

在操作S140，姿态解码器将所述编码信号与关节点查询信号进行运算，运算后的结果经姿态解码器进行处理后，输出关节点坐标判别结果。

根据本发明的实施例，姿态解码器旨在将姿态编码器处理后的数据与关节点查询信号进行张量运算，最终将张量运算后的结果经过多层次的数据处理后，输出关节点坐标判别结果。

在操作S150，将判别结果与训练集输入到所述神经网络模型的损失函数中，输出损失结果。

根据本发明的实施例，基于自注意力机制的神经网络模型的参数可以通过损失函数的计算结果进行优化。

在操作S160，根据损失结果更新所述神经网络模型的参数。

通过上述训练方法，可以获得一个参数经过优化的基于自注意力机制的神经网络模型，该模型可以有效的处理序列数据，如雷达回波信号，提高了序列数据处理的效率；同时对于该模型还能够提升对判别结果的准确性，有着广泛的使用场景。

图2是根据本发明的实施例获取训练集的流程图。

如图2所示，本发明的实施例获取训练集包括操作S210-S240。

在操作S210，预先选定人体的多个关节点。

根据本发明实施例，预先选定人体的k个关节点，例如可以选定k＝14，选取人体的头部、脖子、肩部、肘部、腕部、臀部、膝部、踝部等，上述关节点可以用来重构墙后人体目标的姿态。

在操作S220，利用光学成像系统捕捉墙后人体的关节点信息。

根据本发明实施例，光学成像系统可以是手机或专业照相机等。

在操作S230，计算所述关节点信息生成关节点坐标信息。

在操作S240，利用穿墙雷达发出探测信号，探测墙后人体在预设姿态下的关节点信息。

在操作S250，利用穿墙雷达采集雷达回波信号。

在操作S260，为雷达回波信号添加标签，其中标签与关节点坐标信息一致。

根据本发明的实施例，将用于估计人体三维姿态的所述关节点坐标信息与所述雷达回波信号通过时间标记进行同步对齐。

上述获取训练集的过程，可以得到用于训练基于自注意力机制的神经网络模型的数据集合，通过光学成像系统获取墙后人体目标关节点的信息，并将上述信息标记到与之时间对应的雷达回波信号，可以提高训练集的有效性和准确性，大大提升了模型的训练效果。

根据本发明的实施例，上述训练方法中，损失函数采用L2损失函数作为神经网络模型的总损失函数，总损失函数如式(2)所示：

其中y、

本发明实施例公开的训练方法使用L2损失函数作为优化目标，通过合理的网络模型设计避免了梯度爆炸和消失现象，使训练过程中重构结果更准确，能够更有效的加强对模型的训练。

根据本发明的实施例，神经网络模型的总损失函数采用Adam算法进行梯度更新。

利用Adam算法，通过设定初始学习率、训练轮数和梯度衰减率，可以高效地得到模型优化参数。

图3是根据本发明的实施例的姿态编码器的结构示意图。

如图3所示，根据本发明的实施例，姿态编码器包括多个交替叠加的第一自注意力层、第一层标准化层和第一全连接层；姿态解码器用于提取训练集中雷达回波信号的姿态特征，并输出与训练集维度相同的编码信号；其中，第一自注意力层用于提取雷达回波信号的特征，第一层标准化层用于将特征进行标准化，第一全连接层用于不同层之间的非线性交互。

根据本发明的实施例，第一自注意力层可以提取雷达回波信号的语义特征，例如信号的均值、方差等。通过第一自注意力层处理后的训练集中的数据符合概率分布，通过第一层标准化层处理后的训练集中的数据符合正态分布。

姿态编码器旨在将序列数据如雷达回波信号处理后，使其符合概率分布，方便后续结构的处理。

根据本发明的实施例，第一自注意力层用于提取所述雷达回波信号的特征包括：将雷达回波信号通过齐次变换分别得到查询张量Q、键张量K和值张量V；将查询张量和键张量进行运算，得到自注意力分布；对自注意力分布进行归一化，并与值张量进行运算，得到雷达回波信号的特征。

根据本发明的实施例，其中将训练集中输入序列记作

其中I是序列张量，D_x是张量I的行数，N是张量的列数，查询张量Q通过式(3)得到：

其中W^q是查询张量Q的权值张量，D_k和D_x分别是W^q的行数与列数，通过与序列张量I进行张量相乘得到查询张量Q，查询张量Q用来检测张量中的向量哪些更重要，将相对重要的向量设置更高的权重。键张量K通过式(4)得到：

其中，W^k是键张量K的权值矩阵，D_k和D_x分别是W^k的行数与列数，通过与序列张量I进行张量相乘得到键矩阵K。值张量V通过式(5)得到：

其中，W^v是键张量V的权值张量，D_k和D_x分别是W^v的行数与列数，通过与序列张量I进行张量相乘得到值张量V；上述键张量K和值张量V主要用于检索信息。自注意力分布S∈R^N×N由式(6)得到：

使用Softmax函数对自注意力分布进行归一化，并与值矩阵V进行运算得到输出结果

如式(7)所示：

O＝V·soft max(S) (7)。

图4是根据本发明实施例的姿态解码器的结构示意图。

如图4所示，姿态解码器包括多个交替堆叠的第二自注意力层、第二层标准化层和第二全连接层；其中，编码信号与类别查询信号进行运算，将运算后的结果输入到第二自注意力层，第二自注意力层提取运算后的结果的特征，第二层标准化层用于将特征进行标准化，第二全连接层用于不同层之间的非线性交互。

根据本发明的实施例，姿态解码器在结构上与姿态编码器类似，也是由自注意力层、层标准化层和全连接层交替堆叠而成的。但解码器的输入与编码器不同。解码器的主输入端是一个关节点查询信号，分别对应关节点坐标信息，用于查询雷达信号中是否包含该关节点信息。输出信号与输入信号尺寸相同，代表每一个关节点是否存在。解码器的中间输入是编码器的输出信号，这个输入作用于每一个自注意力层之前。

根据本发明的实施例，姿态解码器旨在接收姿态编码器编码输出的信号，并经过多个自注意力层、层标准化层和全连接层的处理后，输出关节点坐标的判定结果；由于该解码器的多层次结构，可以有效的提高判别结果的准确率。

根据本发明的实施例，雷达回波信号与关节点查询信号在结构上相似，属于同型张量，可以进行张量运算，例如张量的加法、乘法、转置、线性变换等。信号的特征由基于自注意力机制的神经网络模型进行自动提取，如提取信号的均值、方差等。

根据本发明的一个方面，还提供了一种基于自注意力机制的穿墙雷达人体姿态重构方法，包括：穿墙雷达发出探测信号，对墙后的人体目标进行探测，捕捉墙后人体目标的关节点，采集并接收雷达回波信号；将雷达回波信号输入到基于自注意力机制的神经网络模型中，通过神经网络模型的姿态编码器和姿态解码器进行处理，输出人体目标的关节点坐标，其中基于自注意力机制的神经网络模型由本发明实施例公开的训练方法训练得到。

图5示意性的示出了根据本发明实施例提供的穿墙雷达人体姿态重构模型结构示意图。

如图5所示，穿墙雷达发出探测信号，用于探测墙后人体目标发出的姿态信息，通过采集雷达回波信号，利用雷达的处理器接收上述雷达回波信号并将其转换成序列化的雷达回波信号，以方便后续进行数值处理。将序列化后的雷达回波信号输入到姿态编码器中，经过编码器内部多个的第一自注意力层、第一层标准化层和第一全连接层进行编码后，将编码后的信号与使用者输入的关节点查询信号进行张量运算后，输入到姿态解码器中，姿态解码器将上述信号进行处理，输出人体姿态关节点坐标的判定结果，如人体目标发出的信号代表的是人体的头部、脖子、肩部、肘部、腕部、臀部、膝部、踝部等。从图5可以清晰地看到，雷达回波信号经过神经网络模型处理后，最终输出墙后人体目标的关节点坐标信息。

通过使用本发明提供的人体姿态重构方法，能够高效准确地对墙后的人体目标进行识别，并判定该目标所处于的姿态；上述重构方法简单可靠，能够实现端到端的识别，大大地提高了实时性。

图6是根据本发明实施例的一种基于自注意力机制的穿墙雷达人体姿态重构系统600。

如图6所示，本发明实施例公开的重构系统600包括雷达模块610和神经网络模块620，其中：

雷达模块610，用于对墙后的人体目标进行探测，捕捉墙后人体目标的关节点信息，采集并接收雷达回波信号；以及

神经网络模块620，将雷达回波信号输入到基于自注意力机制的神经网络模型中，通过神经网络模型的姿态编码器和姿态解码器进行处理，输出人体目标的关节点坐标，其中基于自注意力机制的神经网络模型由本发明实施例公开的训练方法训练得到。

上述系统集成了雷达模块和神经网络模块，实现了对墙后人体目标动作进行探测、信号采集、信号接收、信号处理、动作类别判别等多项功能，有利于使用者方便地进行实时判别墙后人体目标的动作类别，在多种情境下有着广泛的应用。

下面参考图7，对本发明所提供的上述训练方法在现实应用场景中的使用做进一步的说明。

根据本发明的实施例，训练集的采集地点为有墙体遮挡的封闭场地，采集时人体目标摆出若干种姿态。采集的雷达回波信号尺寸为(Dx，N)＝(2048，32)，人为定义人体的k＝14个关键点(头部、脖子、肩部、肘部、腕部、臀部、膝部、踝部)作为最终的输出结果，并为训练集的信号人工加上相应标签。姿态编码器网络选用6层结构，用于平衡计算复杂度和计算速度。在本实验中，自注意力层的中间特征选用512，全连接层的中间特征选用2048。姿态解码器网络结构上与姿态编码器网络相同，额外增加了一层输出层。输出层输出长度为28的向量，用来表示14个关节点的空间坐标值。整个网络的具体结构如表1所示。训练总轮数为1000，使用Adam算法进行梯度更新，初始学习率设定0.0001，每10轮衰减5％。其余超参数均使用默认值，整个系统使用Pytorch框架实现，训练和测试过程使用了一块RTX3090。训练完成后，实际采集雷达信号进行测试，能够实时给出重构出的人体姿态，部分结果展示于图7中。

表1实例训练的神经网络结构表

通过上述实例训练，可以训练得到神经网络模型参数最优化的神经网络模型，需要特别指出的是，上述训练过程中输入特征数、输出特征数、中间特征数的值仅仅是为了举例说明训练过程，并不是为了限定训练过程中各项参数的值，本领域技术人员应当理解是，上述各项特征数的值可以选择其他合理的数值。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于自注意力机制的神经网络模型的训练方法，包括：

获取训练集，所述训练集包括雷达回波信号，所述雷达回波信号为通过人体的关节点反射后接收到的信号；

将所述训练集输入到基于自注意力机制的神经网络模型中，其中，所述神经网络模型包括姿态编码器和姿态解码器；

通过所述姿态编码器处理所述训练集，得到携带多个姿态特征的编码信号；

所述姿态解码器将所述编码信号与关节点查询信号进行运算，运算后的结果经所述姿态解码器进行处理后，输出关节点坐标判别结果；

将所述判别结果与训练集输入到所述神经网络模型的损失函数中，输出损失结果；

根据所述损失结果更新所述神经网络模型的参数。

2.根据权利要求1所述的训练方法，其中，所述获取训练集包括：

预先选定人体的多个关节点；

利用光学成像系统捕捉墙后人体的关节点信息；

计算所述关节点信息生成关节点坐标信息；

利用穿墙雷达发出探测信号，探测所述墙后人体在预设姿态下的关节点信息；

利用所述穿墙雷达采集所述雷达回波信号；

为所述雷达回波信号添加标签，其中，所述标签与所述关节点坐标信息一致。

3.根据权利要求2所述的训练方法，其中，所述为所述雷达回波信号添加标签包括：

将用于估计人体三维姿态的所述关节点坐标信息与所述雷达回波信号通过时间标记进行同步对齐。

4.根据权利要求1所述的训练方法，其中，所述损失函数采用L2损失函数作为所述神经网络模型的总损失函数，所述总损失函数如式(1)所示：

其中y、

分别表示原始标记和所述神经网络模型重构的关节点坐标，N是训练集的样本总数。

5.根据权利要求3所述的训练方法，其中，所述神经网络模型的总损失函数采用Adam算法进行梯度更新。

6.根据权利要求1所述的训练方法，其中，所述姿态编码器包括多个交替叠加的第一自注意力层、第一层标准化层和第一全连接层；所述姿态解码器用于提取训练集中雷达回波信号的姿态特征，并输出与训练集维度相同的编码信号；

其中，所述第一自注意力层用于提取所述雷达回波信号的特征，所述第一层标准化层用于将所述特征进行标准化，所述第一全连接层用于不同层之间的非线性交互。

7.根据权利要求6所述的训练方法，其中，所述第一自注意力层用于提取所述雷达回波信号的特征包括：

将所述雷达回波信号通过齐次变换分别得到查询张量、键张量和值张量；

将查询张量和键张量进行运算，得到自注意力分布；

对所述自注意力分布进行归一化，并与值张量进行运算，得到所述雷达回波信号的特征。

8.根据权利要求1所述的训练方法，其中，所述姿态解码器包括多个交替堆叠的第二自注意力层、第二层标准化层和第二全连接层；

其中，所述编码信号与类别查询信号进行运算，将运算后的结果输入到所述第二自注意力层，所述第二自注意力层提取所述运算后的结果的特征，所述第二层标准化层用于将所述特征进行标准化，所述第二全连接层用于不同层之间的非线性交互。

9.一种基于自注意力机制的穿墙雷达人体姿态重构方法，包括：

穿墙雷达发出探测信号，对墙后的人体目标进行探测，捕捉墙后人体目标的关节点，采集并接收雷达回波信号；

将所述雷达回波信号输入到基于自注意力机制的神经网络模型中，通过所述神经网络模型的姿态编码器和姿态解码器进行处理，输出人体目标的关节点坐标，其中所述基于自注意力机制的神经网络模型由权利要求1-8任一所述的方法训练得到。

10.一种基于自注意力机制的穿墙雷达人体动作识别系统，包括：

雷达模块，用于对墙后的人体目标进行探测，捕捉墙后人体目标的关节点信息，采集并接收雷达回波信号；

神经网络模块，用于将所述雷达回波信号输入到基于自注意力机制的神经网络模型中，通过所述神经网络模型的姿态编码器和姿态解码器进行处理，输出人体目标的关节点坐标，其中所述基于自注意力机制的神经网络模型由权利要求1-8任一所述的训练方法训练得到。