CN112668413A

CN112668413A - 人体姿态估计方法、装置、电子设备及可读存储介质

Info

Publication number: CN112668413A
Application number: CN202011485374.9A
Authority: CN
Inventors: 路兆铭; 王一鸣; 郭凌超; 温向明; 周爽
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2020-12-16
Filing date: 2020-12-16
Publication date: 2021-04-16
Anticipated expiration: 2040-12-16
Also published as: CN112668413B

Abstract

本公开实施例公开了一种人体姿态估计方法、装置、电子设备及可读存储介质，所述人体姿态估计方法包括：处理接收到的视频数据，获取人体姿态的真实关键点坐标；处理接收到的信道状态信息，并将处理后的所述信道状态信息输入神经网络模型进行训练，得到人体姿态的预测关键点坐标；其中，所述信道状态信息与视频数据为在时间同步下采集到的数据，所述神经网络模型的损失函数由根据所述真实关键点坐标与所述预测关键点坐标计算得到。

Description

人体姿态估计方法、装置、电子设备及可读存储介质

技术领域

本公开涉及通信和计算机技术领域，具体涉及一种人体姿态估计方法、装置、电子设备及可读存储介质。

背景技术

随着Wi-Fi架构和软件工具的提升，可以很方便的利用普通的商用Wi-Fi设备获取信道状态信息(Channel State Information，CSI)，捕捉和处理人体在空间中的自由活动所引起的反射的Wi-Fi信号的幅度和相位变化，建立无线信号与目标姿态之间的映射关系，从而准确有效的对空间中的人类活动进行感知。

现有技术中，基于无线感知的人体姿态估计方法可以估计出二维或三维的人体姿态，但是它们都在某些方面存在着缺陷。二维的姿态估计方法只能返回固定视角的姿态信息，包含的信息量不充足，并且没办法估计某些特殊姿势(例如某些肢体在视角方向被遮挡)。三维的姿态估计方法往往要求人在一个定点上做动作，导致其应用场景受到了很大限制。

发明内容

为了至少部分解决相关技术问题，本公开实施例提供一种人体姿态估计方法和装置。

第一方面，本公开实施例中提供了一种人体姿态估计方法。

具体地，所述人体姿态估计方法，包括：

处理接收到的视频数据，获取人体姿态的真实关键点坐标；

处理接收到的信道状态信息，并将处理后的所述信道状态信息输入神经网络模型进行训练，得到人体姿态的预测关键点坐标；

其中，所述信道状态信息与视频数据为在时间同步下采集到的数据，所述神经网络模型的损失函数由根据所述真实关键点坐标与所述预测关键点坐标计算得到。

结合第一方面，本公开在第一方面的第一种实现方式中，所述方法还包括：利用训练好的神经网络模型进行人体姿态估计。

结合第一方面，本公开在第一方面的第二种实现方式中，所述处理接收到的视频数据，获取人体姿态的真实关键点坐标，包括：

从视频数据中依次提取人体的二维姿态、三维姿态，得到人体骨架关键点坐标；

基于时间序列形成所述人体骨架关键点坐标的关键点坐标集合，作为人体姿态的真实关键点坐标。

结合第一方面，本公开在第一方面的第三种实现方式中，所述处理接收到的信道状态信息，并将处理后的信息输入神经网络模型进行训练，得到人体姿态的预测关键点坐标，包括：

利用同步的视频数据分割预处理后的信道状态信息，将一个视频帧与基于采集速率得到的n个信道状态信息的采样样本对应；其中，n为自然数；

分别根据所述采样样本的振幅得到振幅图像以及根据所述采样样本的相位信息得到相位图像；其中，所述振幅图像以及相位图像的像素为M×T，M为载波数量，T为选择的采样样本数，T≥n；

将所述振幅图像以及相位图像输入神经网络模型进行训练，得到人体姿态的预测关键点坐标。

结合第一方面的第三种实现方式，本公开在第一方面的第四种实现方式中，所述预处理后的信道状态信息的预处理方式包括：

确定不同天线接收到的信道状态信息中静态路径成分与动态路径成分的方差；

将方差最大的信道状态信息去噪后作为预处理后的信道状态信息。

结合第一方面，本公开在第一方面的第五种实现方式中，所述神经网络模型包括以下至少一种：CNN、LSTM。

第二方面，本公开实施例中提供了一种人体姿态估计装置。

具体地，所述人体姿态估计装置，包括：

视频图像处理模块，用于处理接收到的视频数据，获取人体姿态的真实关键点坐标；

信道状态信息处理模块，用于处理接收到的信道状态信息，并将处理后的所述信道状态信息输入神经网络模型进行训练，得到人体姿态的预测关键点坐标；

其中，所述信道状态信息与视频数据为在同步时间下采集到的数据，所述神经网络模型的损失函数由根据所述真实关键点坐标与所述预测关键点坐标计算得到。

结合第二方面，本公开在第二方面的第一种实现方式中，还包括：

人体姿态估计模块，用于利用训练好的神经网络模型进行人体姿态估计。

结合第二方面，本公开在第二方面的第二种实现方式中，所述视频图像处理模块包括：

第一获取子模块，用于从视频数据中依次提取人体的二维姿态、三维姿态，得到人体骨架关键点坐标；

形成子模块，用于基于时间序列形成所述人体骨架关键点坐标的关键点坐标集合，作为人体姿态的真实关键点坐标。

结合第二方面，本公开在第二方面的第三种实现方式中，所述信道状态信息处理模块包括：

分割子模块，用于利用同步的视频数据分割预处理后的信道状态信息，将一个视频帧与基于采集速率得到的n个信道状态信息的采样样本对应；其中，n为自然数；

第二获取子模块，用于分别根据所述采样样本的振幅得到振幅图像以及根据所述采样样本的相位信息得到相位图像；其中，所述振幅图像以及相位图像的像素为M×T，M为载波数量，T为选择的采样样本数，T≥n；

训练子模块，用于将所述振幅图像以及相位图像输入神经网络模型进行训练，得到人体姿态的预测关键点坐标。

结合第二方面的第三种实现方式，本公开在第二方面的第四种实现方式中，所述预处理后的信道状态信息的预处理方式包括：

结合第二方面，本公开在第二方面的第五种实现方式中，所述神经网络模型包括以下至少一种：CNN、LSTM。

附图说明

结合附图，通过以下非限制性实施方式的详细描述，本公开的其它目的和优点将变得更加明显。在附图中：

图1示出了根据本公开实施例的应用场景的示意图；

图2示出了根据本公开实施例的人体姿态估计方法的流程图；

图3示出了根据本公开实施例的人体姿态估计方法的流程图；

图4示出了根据本公开实施例的人体姿态估计装置的框图；

图5示出根据本公开的实施例的电子设备的结构框图；

图6示出适于用来实现根据本公开实施例的方法的计算机系统的结构示意图。

具体实施方式

下文中，将参考附图详细描述本公开的示例性实施方式，以使本领域技术人员可容易地实现它们。此外，为了清楚起见，在附图中省略了与描述示例性实施方式无关的部分。

在本公开中，应理解，诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在，并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。

另外还需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。

图1示出了根据本公开实施例的应用场景的示意图。可以理解，图1所示应用场景仅为了说明本公开的概念和原理，而并非意味着本公开仅适用于这样的应用场景。

如图1所示，所述应用场景至少包括一个Wi-Fi信号发送设备(以下称为发射端T_x)以及两个Wi-Fi信号接收设备(以下称为接收端R_x1,R_x2)，其中，发射端T_x分别与接收端R_x1，R_x2组成信号发送-接收设备对(T_x-R_x1)以及(T_x-R_x2)。根据菲涅尔区模型(Fresnel zonemodel)可知，只有一条Wi-Fi链路没有办法检测到平行于链路方向的目标移动。为了在活动空间中估计自由移动的目标人体的三维姿态，需要使用两条相互垂直的链路Link₁和Link₂去获取目标人体移动引起的信道状态信息(CSI)变化。因此，在布置两对信号发送-接收设备对的相对位置时，(T_x-R_x1)与(T_x-R_x2)的连线接近于垂直，以构建相互正交的人体姿态变化分析空间。同时，发射端T_x配置单根发射天线，接收端R_x1，R_x2采用多个接收天线接收发射天线发送的Wi-Fi信号，可以选择敏感性最强的天线接收的CSI数据，通过分析接收到的CSI数据的动态变化，提取与目标人体活动相关的特征成分，从而恢复空间中目标人体的三维姿态。

本公开仅以两对信号发送-接收设备对为例进行示意性说明，可以理解，信号发送-接收设备对的数量可以不受限制。

图2示出了根据本公开实施例的人体姿态估计方法的流程图。

在步骤S201中，处理接收到的视频数据，获取人体姿态的真实关键点坐标；

在步骤S202中，处理接收到的信道状态信息，并将处理后的所述信道状态信息输入神经网络模型进行训练，得到人体姿态的预测关键点坐标；

请参考图1，Wi-Fi信号经过发射端T_x到达接收端R_x1，R_x2的过程中，目标人体101在空间自由活动时产生动态路径102和103，通过分析经由动态路径102和103接收到的CSI数据的动态变化，提取与目标人体101相关的特征成分，可以恢复空间中目标人体101的三维姿态。但是，Wi-Fi信号还会经过地面104、墙壁105、天花板106的反射，由此产生了包含直射路径107、108以及多条不随时间变化的静态反射路径109-114。动态路径102和103能够反映人体姿态的变化，称其为动态路径成分，其它路径107～114称为静态路径成分，在进行特征提取前，这些静态路径成分都需要在信号处理过程中滤除。

在数据收集环境中，使用单目摄像机115对目标人体101进行同步的视频数据采集，后续处理视频数据以获取表征目标人体的三维姿态的标签数据，用于神经网络模型监督学习，而神经网络模型用于将经过处理的CSI数据恢复成三维人体姿态。需要说明的是，在实际人体姿态估计的应用场景中，如图1所示，不需要设置单目摄像机115，只需要设置一个发射端T_x以及两个接收端R_x1，R_x2，通过采集CSI数据输入训练好的神经网络模型即可进行三维人体姿态恢复。

根据本公开的实施例，两个接收端R_x1，R_x2接收到的由发射端T_x发射的Wi-Fi信号定义为{C₁,C₂}，其中，每个接收端都包含了三个天线的接收数据，即C_i＝{A_i1,A_i2,A_i3},i＝1,2，A_ij代表第i个接收端的第j根天线，包含了30个子载波的信息。视频数据由单目摄像机115获取，拍摄的视频帧V与原始CSI共同构成待处理数据集D＝{C₁,C₂,V}。

目标人体在空间中的自由移动会在Link₁，Link₂上产生不同的影响，在R_x1，R_x2收集到的原始CSI信息C₁，C₂在不同时刻对不同的运动方向及动作有不同的敏感性，通过提取出每条链路的动态特征，可以在同步的视频数据的监督下恢复出目标人体的三维姿态。在数据收集过程中，R_x1，R_x2接收时间的同步通过NTP服务器(Network Time Protocol)实现，视频数据与CSI数据的同步通过将单目摄像机115与R_x1，R_x2连接，共用同一系统时钟实现。

根据本公开的实施例，所述方法还包括：利用训练好的神经网络模型进行人体姿态估计。

采用上述方法，基于视频数据对神经网络模型进行监督学习，从而能够基于信道状态信息实现人体姿态变化的高灵敏度感知，生成高质量的人体三维姿态图像，实现了轻量化、低成本对全空间三维人体姿态估计。

根据本公开的实施例，步骤S201中所述处理接收到的视频数据，获取人体姿态的真实关键点坐标，包括：

在本公开方式中，可以引入自动标签获取工具来从视频数据中得到人体骨架关键点坐标，自动标签获取工具是由基于计算机视觉的二维姿态估计和三维姿态估计系统组成。从视频帧V中获取包括人体姿态的有效帧后，将有效帧输入训练好的二维关键点提取网络，提取人体的二维姿态，获得每一帧视频中人体姿态的二维关键点坐标后，将二维关键点坐标按照时间顺序输入进三维关键点提取网络，提取人体的三维姿态，三维关键点网络根据二维关键点坐标的前后时间关联性恢复出人体姿态的三维关键点坐标集合，得到人体骨架关键点坐标K。

图3示出了根据本公开实施例的人体姿态估计方法的流程图，具体示出了图2的步骤S202中处理接收到的信道状态信息，并将处理后的信息输入神经网络模型进行训练，得到人体姿态的预测关键点坐标的流程图。

在步骤S301中，利用同步的视频数据分割预处理后的的信道状态信息，将一个视频帧与基于采集速率得到的n个信道状态信息的采样样本对应；其中，n为自然数；

在步骤S302中，分别根据所述采样样本的振幅得到振幅图像以及根据所述采样样本的相位信息得到相位图像；其中，所述振幅图像以及相位图像的像素为M×T，M为载波数量，T为选择的采样样本数，T≥n；

在步骤S303中，将所述振幅图像以及相位图像输入神经网络模型进行训练，得到人体姿态的预测关键点坐标。

根据本公开的实施例，步骤S301中预处理后的信道状态信息的预处理方式包括：

在本公开方式中，采集的CSI数据{C₁,C₂}中，每个接收端都包含了三个天线的接收数据。根据接收自每个天线的CSI数据中动态路径成分和静态路径成分的表现形式差异，确定信道状态信息中静态路径成分与动态路径成分的方差，由于方差大的接收信号包含了更多的动态信息，在接收端的三根天线中，选择方差最大、敏感性最强的天线作为参考天线，使用它的幅度信息。之后经过离散小波变换(Discrete Wavelet Transform，DWT)对参考天线的振幅进行去噪，利用共轭相乘算法进行动态路径成分提取、相位偏移的校正，得到预处理后的信道状态信息。

具体地，在理想状态下，无线信道在时间t和频率f上的响应可以表示为:

其中N是多径数，α_i(t)和α_i(t)分别是第i条多径的衰减和信号飞行时间。根据路径长度是否改变，可以把信道响应分为静态路径成分和动态路径成分，写做：

其中H_s(f,t)代表静态路径成分，是直射路径和其他反射静态路径的集合，P_d是动态路径成分的集合，是一个随时间变化的量。原始CSI中的动态路径成分相较于静态路径成分非常的弱，很容易受到不可预测的干扰。为了消除由接收端的时间不同步引起的相位偏移

引入共轭相乘算法，写做：

其中，H₁(f,t+t₀)是第一天线的CSI，

是第二天线CSI的共轭。通过共轭相乘可以消除

之后通过对结果减去均值可以去除大部分静态路径成分的影响。这里第一天线为方差最大的天线，第二天线的方差次之，方差最小的天线的信息量少，在处理时中不对其进行使用。

根据本公开的实施例，考虑到目标人体移动的时间和空间连续性，使用同步的视频数据对预处理后的CSI进行分割，根据数据采集速率，n个CSI采样对应一个视频帧，但考虑到目标人体移动的空间和时间连续性以及Wi-Fi信号分辨率比较低的特性，将采样样本进行扩展以提高Wi-Fi信号分辨率。

具体地，可以将n个样本与这些样本之前的m个样本进行组合，使用敏感振幅以及去噪后的相关相位信息分别组成M×T像素的CSI图像，其中，M代表载波数量，T＝m+n是选择的组合样本数。在接收端R_x1，R_x2上分别可以获得两张分别代表幅度信息和相位信息的二维CSI图像记作

其中每一项中包含两张图像，在不同的时刻，CSI图像存在着明显的差异。

通过链路选择、去噪和分割方法能够有针对性地处理CSI数据，以对数据进行筛选和优化，进而有效地节约了运算资源，提高了系统效率和准确度。

根据本公开的实施例，将处理后的数据集合

中的CSI图像

输入神经网络模型中特征提取网络进行特征提取，获取高维的深层姿态特征，之后将提取特征输入神经网络模型中姿态回归网络，得到人体姿态的预测关键点坐标P。

根据本公开的实施例，所述神经网络模型包括以下至少一种：CNN、LSTM。

在本公开方式中，构建CSI图像与目标人体的三维姿态的关系模型。所选用的网络模型可以是卷积神经网络(Convolutional Neural Networks，CNN)，也可以是长短期记忆网络(Long Short Term Memory，LSTM)，或者是两者的结合。CNN对特征的提取能力更强，LSTM在对动作前后关联性的学习方面能力更强。通过对输入的CSI图像进行特征提取，之后将特征映射为人体关键点坐标或者人体动力学的参数，然后对映射结果进行后期的绘制处理，即可获取可视化的目标人体的三维姿态。

根据本公开的实施例，得到人体骨架关键点坐标K以及人体姿态的预测关键点坐标P后，将K与P进行比较以获取损失函数L，然后根据损失函数L选择合适的优化器对整个神经网络模型的参数进行优化。

具体地，损失函数L需要考虑目标人体动作的连续性与目标人体关节定位的准确性，可以选用平均关节点定位误差损失或者Huber损失等损失函数。然后通过选择合适的优化器，例如Adam优化器，对损失函数L进行优化，使得损失降到最小，最后完成模型训练。

图4示出了根据本公开实施例的人体姿态估计装置的框图。

如图4所示，人体姿态估计装置400包括：

视频图像处理模块401，用于处理接收到的视频数据，获取人体姿态的真实关键点坐标；

信道状态信息处理模块402，用于处理接收到的信道状态信息，并将处理后的所述信道状态信息输入神经网络模型进行训练，得到人体姿态的预测关键点坐标；

根据本公开的实施例，所述装置还包括：

根据本公开的实施例，所述视频图像处理模块401包括：

根据本公开的实施例，所述信道状态信息处理模块402包括：

根据本公开的实施例，所述预处理后的信道状态信息的预处理方式包括：

本公开还公开了一种电子设备，图5示出根据本公开的实施例的电子设备的结构框图。

如图5所示，所述电子设备500包括存储器501和处理器502，其中，存储器501用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器502执行以实现根据本公开的实施例的方法：

处理接收到的视频数据，获取人体姿态的真实关键点坐标；

如图6所示，计算机系统600包括处理单元601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行上述实施例中的各种方法。在RAM 603中，还存储有系统600操作所需的各种程序和数据。处理单元601、ROM 602以及RAM 603通过总线605彼此相连。输入/输出(I/O)接口605也连接至总线605。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信过程。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。其中，所述处理单元601可实现为CPU、GPU、TPU、FPGA、NPU等处理单元。

特别地，根据本公开的实施例，上文描述的方法可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，所述计算机程序包含用于执行上述方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元或模块可以通过软件的方式实现，也可以通过可编程硬件的方式来实现。所描述的单元或模块也可以设置在处理器中，这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。

作为另一方面，本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中电子设备或计算机系统中所包含的计算机可读存储介质；也可以是单独存在，未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序，所述程序被一个或者一个以上的处理器用来执行描述于本公开的方法。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种人体姿态估计方法，其特征在于，包括：

处理接收到的视频数据，获取人体姿态的真实关键点坐标；

2.根据权利要求1所述的方法，其特征在于，还包括：

利用训练好的神经网络模型进行人体姿态估计。

3.根据权利要求1所述的方法，其特征在于，所述处理接收到的视频数据，获取人体姿态的真实关键点坐标，包括：

4.根据权利要求1所述的方法，其特征在于：所述处理接收到的信道状态信息，并将处理后的信息输入神经网络模型进行训练，得到人体姿态的预测关键点坐标，包括：

5.根据权利要求4所述的方法，其特征在于，所述预处理后的信道状态信息的预处理方式包括：

6.根据权利要求1所述的方法，其特征在于：

所述神经网络模型包括以下至少一种：CNN、LSTM。

7.一种人体姿态估计装置，其特征在于，包括：

8.一种电子设备，其特征在于，包括存储器和处理器；其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现权利要求1-6任一项所述的方法步骤。

9.一种可读存储介质，其上存储有计算机指令，其特征在于，该计算机指令被处理器执行时实现权利要求1-6任一项所述的方法步骤。