CN115082962A

CN115082962A - 一种人体姿态估计方法、装置、终端及存储介质

Info

Publication number: CN115082962A
Application number: CN202210742382.XA
Authority: CN
Inventors: 潘哲; 钱贝贝; 廖振生
Original assignee: Orbbec Inc
Current assignee: Orbbec Inc
Priority date: 2022-06-28
Filing date: 2022-06-28
Publication date: 2022-09-20

Abstract

本发明公开了一种人体姿态估计方法、装置、终端及存储介质，本发明提供的人体姿态估计方法包括：获取相同目标场景的RGBD图像数据和无线通信信号数据；其中，无线通信信号数据包括蓝牙信号数据和/或无线网络信道状态信息数据；根据RGBD图像数据和无线通信信号数据，分别估计所述目标场景中目标用户的第一姿态和第二姿态；融合第一姿态和第二姿态，得到所述目标用户的目标人体姿态。本发明可以提升在有遮挡情况下的人体姿态估计的准确性。

Description

一种人体姿态估计方法、装置、终端及存储介质

技术领域

本发明涉及人体姿态估计技术领域，特别涉及一种人体姿态估计方法、装置、终端及存储介质。

背景技术

人体姿态估计的应用非常广泛，包括人机交互、运动分析等，传统的人体姿态估计一般使用摄像机获取图像，从图像中识别中人体的一些关键点，如关节、五官等，通过关键点来描述人体姿态，但基于摄像机的方法在目标存在遮挡的情况下无法准确进行识别。

因此，现有技术还有待改进和提高。

发明内容

针对现有技术的上述缺陷，本发明提供一种人体姿态估计方法、装置、终端及存储介质，旨在解决现有技术中目标存在遮挡时人体姿态估计准确度低的问题。

为了解决上述技术问题，本发明所采用的技术方案如下：

本发明的第一方面，提供一种人体姿态估计方法，所述方法包括：获取相同目标场景的RGBD图像数据和无线通信信号数据；其中，无线通信信号数据包括蓝牙信号数据和/或无线网络信道状态信息数据；根据RGBD图像数据和无线通信信号数据，分别估计目标场景中目标用户的第一姿态和第二姿态；融合第一姿态和第二姿态，得到目标用户的目标人体姿态。

本发明的第二方面，提供一种人体姿态估计装置，包括：数据获取模块，用于获取相同目标场景的RGBD图像数据和无线通信信号数据，其中，无线通信信号数据包括蓝牙信号数据和/或无线网络信道状态信息数据；姿态获取模块，用于根据RGBD图像数据和无线通信信号数据，分别估计所述目标场景中目标用户的第一姿态和第二姿态；融合模块，用于融合第一姿态和第二姿态，得到目标用户的目标人体姿态。

本发明的第三方面，提供一种终端，包括处理器、与处理器通信连接的计算机可读存储介质，计算机可读存储介质适于存储多条指令，处理器适于调用计算机可读存储介质中的指令，以执行实现上述的人体姿态估计方法的步骤。

本发明的第四方面，提供一种计算机可读存储介质，存储有一个或者多个程序，一个或者多个程序可被一个或者多个处理器执行，以实现上述的人体姿态估计方法的步骤。

与现有技术相比，本发明不仅根据图像数据进行姿态识别，还采用无线通信信号数据进行姿态识别作为图像姿态识别结果的补充，将二者的识别结果进行融合后得到最终的人体姿态，基于目标之间的遮挡会影响无线通信信号数据的变化，解决了图像数据无法解决的目标被遮挡的问题，有效提升了人体姿态估计的准确度。

附图说明

图1为本发明提供的人体姿态估计方法的实施例的流程图；

图2为本发明提供的人体姿态估计方法的实施例中人体姿态的示意图；

图3为本发明提供的人体姿态估计方法的实施例的应用场景示意图；

图4为本发明提供的人体姿态估计方法的实施例中蓝牙信号数据获取示意图一；

图5为本发明提供的人体姿态估计方法的实施例中蓝牙信号数据获取示意图二；

图6为本发明提供的人体姿态估计方法的实施例中使用神经网络提取人体姿态的示意图；

图7为本发明提供的人体姿态估计装置的实施例的结构原理图；

图8为本发明提供的终端的实施例的原理示意图。

具体实施方式

为使本发明的目的、技术方案及效果更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明提供的人体姿态估计方法，可以应用于具有计算能力的终端中，终端可以执行本发明提供的人体姿态估计方法进行人体姿态估计，终端可以但不限于是各种计算机、移动终端、智能家电、可穿戴式设备、路由器等。

图1为根据本申请提供的一种人体姿态估计方法流程示意图，在一个实施例中，方法包括步骤：

S100、获取相同目标场景的RGBD图像数据和无线通信信号数据。

具体地，RGBD图像数据是通过采集设备采集的目标场景内的RGB图像和深度图像，在本实施例中，采集设备包括深度相机和彩色相机，用于分别采集目标场景的深度图像和彩色图像。需要说明的是，深度相机和彩色相机可一体化设置或互相独立设置；其中，深度相机可为结构光相机、TOF相机、双目相机或夺目相机中的一种或多种组合，此处不作限制。

但仅仅通过图像数据来提取图像中的人体的姿态存在人体被其他人体或物体遮挡的情况导致不能准确识别的情况。在一种可能的实现方式中，可以通过设置多个摄像机拍摄多个角度的图像来解决这个问题，但是上述实现方式显然会产生更高的成本，也不利于所述目标场景内的用户的隐私保护。

由此，为了提升当存在遮挡时人体姿态估计的准确性，在另一个实施例中，如图3所示，还采用无线通信设备获取同一目标场景的无线通信信号数据；其中，无线通信信号数据包括蓝牙信号数据和/或无线网络信道状态信息数据。在信号传输过程中，无线通信设备的信号数据会受到存在的物体的影响，不同的物体遮挡情况会导致无线通信信号数据不用的变化，即在存在物体遮挡的情况下，通过无线通信设备的信号数据亦可准确反映出目标用户的当前人体姿态。

在一个实施例中，当无线通信信号数据为蓝牙信号数据，获取目标场景中的无线通信数据包括：获取第一蓝牙设备接收到的第一信号，并根据第一信号计算蓝牙信号数据；其中，第一信号为第二蓝牙设备发送的蓝牙信号。在本实施例中，由于一对一的发射天线和接收天线之间的信号传输存在不能反映发射天线和接收天线之间的物体存在情况，因此优选采用AoA(Angle ofArrival)或AoD(Angle ofDeparture)的方式获取第一信号，如图4-5所示，更具体包括：获取第一蓝牙设备上的多个接收天线分别接收到的由第二蓝牙设备的一个发送天线发送的第一信号；或者获取第一蓝牙设备上的一个接收天线接收到的由第二蓝牙设备上的多个发送天线分别发送的多个第一信号。

进一步地，在一个实施例中，当第一蓝牙设备上为多个接收天线分别接收由第二蓝牙设备的一个发送天线发送的第一信号时，多个接收天线阵列接收的第一信号会因距离不同产生相位差，由此可根据各第一信号计算相位差得到蓝牙信号数据；或者，在另一个实施例中，当第一蓝牙设备为一个接收天线接收获取第一蓝牙设备上的多个接收天线分别接收到的由第二蓝牙设备的一个发送天线发送的第一信号时，可直接根据接收到的第一信号直接计算相位差从而得到蓝牙信号数据；其中，蓝牙信号数据由一个1*n维的向量组成，n为接收到的第一信号的个数。

需要说明的是，为提高蓝牙信号数据的准确度，还可对蓝牙信号数据进行滤波得到滤波后的蓝牙信号数据。

在一个实施例中，当无线通信信号数据为无线网络信道状态信息数据，获取目标场景中的无线通信数据包括：获取第一无线网络设备的无线网络信道状态信息数据；其中，第一无线网络设备可以是无线网络路由器，信道状态信息数据，也称为CSI(Channel StateInformation)，是无线网络设备的多个信道的状态信息，而信道状态信息与信号传输过程中遇到的物体相关，因此，第一无线网络设备的无线网络信道状态信息数据可以反映出第一无线网络设备的信号传输范围中的人体姿态。

S200、根据RGBD图像数据和无线通信信号数据，分别估计目标场景中目标用户的第一姿态和第二姿态。

具体地，如图2所示，人体姿态可由一系列的人体关键点(例如关节、五官等)和关键点之间的连线构成，也可称为3D骨架或3D骨骼等。根据RGBD图像数据获取第一姿态，可以是采用已有的从图像中识别人体姿态的算法或基于深度学习的神经网络实现，如OpenPose或DeepCut等。

在一个实施例中，根据RGBD图像数据估计目标场景中目标用户的第一姿态更具体包括：优选将RGBD图像数据输入至第一神经网络，获取目标用户的第一姿态；其中，第一神经网络包括基础网络和分别连接所述基础网络的二维分支网络和三维分支网络，基础神经网络分别对RGB图像和深度图像进行特征提取分别得到对应的特征图像，后将RGB图像对应的特征图像输入二维分支网络得到二维姿态数据，利用二维姿态数据和深度图像数据输入三维分支网络，得到目标用户的第一姿态。需要说明的是，第一神经网络的二维分支网络和二维分支网络共用了共享网络，使得二维分支网络起到对三维分支网络的约束作用，可提高目标用户的人体姿态估计的准确率。

在另一个实施例中，为了提升根据所述无线通信信号数据获取第二姿态的准确性，根据无线通信信号数据估计目标场景中第二姿态更具体包括：采用神经网络来提取所述第二姿态，具体地，所述根据无线通信信号数据获取第二姿态，包括：将无线通信信号数据输入至第二神经网络，获取目标用户的第二姿态。

在一个实施例中，基于图6所示的第二神经网络，无线通信信号数据包括垂直热图和水平热图的两种格式，其中，无线通信信号在垂直于地面的平面投影为垂直热图，平行于地面的平面投影为水平热图，可等效于深度图，其相应的值越高，其表示信号反射强度越强。进一步地，分别对垂直热图和水平热图进行卷积编码并拼接得到通道合并的热图，更具体地，分别对垂直热图和水平热图在空间维度上进行隔层卷积，每一层卷积后均执行激活函数并进行批归一化，从而去除空间维度以便从无线通信信号中得到人体的相关信息。得到通道合并的热图后，需要对通道合并的热图进行反卷积解码得到人体的关键点，进而实现人体姿态估计。

在一种可能的实现方式中，第二神经网络可以采用样本图像数据的人体姿态估计结果作为监督来训练，如图6所示，将包括目标前景的样本图像数据输入至结构复杂且深度高的姿态识别网络(如Resnet 152)获取基于样本图像数据的标准人体姿态估计，将包括相同目标前景的若干无线通信信号数据作为训练集输入至第二神经网络，获取第二神经网络输出的预测人体姿态估计，将标准人体姿态估计作为第二神经网络的输出的监督数据对第二神经网络进行训练，使得第二神经网络输出的预测人体姿态估计符合标准。

需要说明的是，由于无线通信信号数据可包括蓝牙信号数据和/或无线网络信道状态信息数据，因此，可基于成本、准确性要求和目标场景中的已有无线通信设备的情况，自适应选择相应的无线通信信号数据，即既可以只根据蓝牙信号数据得到第二姿态，也可以只根据无线网络信道状态信息数据得到第二姿态，还可以同时根据所述蓝牙信号数据和无线网络信道状态信息数据得到相应的第二姿态；其中，同时利用蓝牙信号数据和无线网络信道状态信息数据获取相应的第二姿态可提升最终的人体姿态估计结果的准确性，但会面临计算量和成本的问题，故具体可根据实际情况选择，此处不作限制。

如图1所示，在得到所述第一姿态和所述第二姿态之后，本实施例提供的人体姿态估计方法，还包括步骤：

S300、融合第一姿态和第二姿态，得到目标用户的目标人体姿态。

在一个实施例中，将第一姿态和第二姿态进行融合可通过神经网络实现，具体地，将具有相同时间戳的第一姿态和第二姿态输入预设第三神经网络，获取第三神经网络输出的姿态数据作为目标用户在当前时间戳相应的目标人体姿态。需要说明的是，预设第三神经网络可以采用现有的神经网络的结构，例如FCN、GCN等，此处不作限制。

在实际操作中，每个第一姿态和每个第二姿态对应的时间戳是分别基于采集设备采集的图像的采集时刻和无线通信设备获取获取数据的时刻确定的，即每个第一姿态对应的时间戳是采集设备采集相应图像对应的时间，每个第二姿态对应的时间戳是基于获取无线通信信号数据对应的时间确定的。

显然，不同时间戳的人体姿态是不一样的，为了防止不同的设备间的时间戳不一致产生的问题，在本实施例中，在融合第一姿态和第二姿态之前，需先将第一姿态和第二姿态的时间戳进行对齐。在第一姿态和第二姿态的时间戳对齐后，第二姿态的时间戳上的时刻t对应的第二姿态与第一姿态的时间戳上的时刻t对应的第一姿态对应的真实时刻是一致的。因此，在对第一姿态和第二姿态进行融合时，将相同时刻对应的第二姿态和第一姿态进行融合，得到当前时刻对应的目标姿态，即目标用户在当前时刻对应的目标人体姿态。

在一种可能的实现方式中，为了进一步提升姿态识别结果的准确性，在提取第一姿态和第二姿态时，还可同时提取的第一姿态和第二姿态的置信度，该置信度反映了获取的姿态的准确性可信度，即置信度越高，该置信度对应的姿态是准确的可能性越高。结合第一姿态和第二姿态的置信度对第一姿态和第二姿态进行融合可以降低可能不准确的数据对最终姿态识别结果的影响。

在一个实施例中，将相同时刻的第二姿态和第一姿态进行融合，具体地包括：分别获取第二姿态和第一姿态对应的置信度；根据对应的置信度对相同时刻的第二姿态和第一姿态进行融合。更具体地，利用第二神经网络和第一神经网络分别获取第二姿态和第一姿态时，还可通过在第二神经网络和第一神经网络最后一层使用softmax函数计算第二姿态和第一姿态中各人体骨架点坐标及每个坐标相应的置信度；在获取各人体骨架点坐标及相应的置信度后，则可根据第一姿态中各人体骨架点坐标及相应的置信度和第二姿态中各人体骨架点坐标及相应的置信度，并通过预设第三神经网络或concat函数融合第一姿态和第二姿态得到目标人体姿态。

进一步地，在获取到目标姿态后，可以基于目标姿态进行人体行为识别，如图3所示，可以将目标姿态发送到远程服务器进行人体行为识别。

综上所述，本实施例提供一种人体姿态估计方法，在获取图像数据，根据图像数据进行姿态识别之外，还采用无线通信信号数据进行姿态识别作为图像姿态识别结果的补充，将二者的识别结果进行融合后得到最终的人体姿态，目标之间的遮挡会产生无线通信信号数据的变化，即，无线通信信号数据可以反映目标的遮挡情况，将二者进行融合可以有效提升人体姿态估计的准确度。

应该理解的是，虽然本发明说明书附图中给出的的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

基于上述实施例，图7为根据本发明提供的一种人体姿态估计装置结构示意图，该装置中未详细描述之处请详见前述人体姿态估计方法实施例中的描述，下述不再赘述。在一个实施例中，装置包括：

数据获取模块，用于获取相同目标场景的RGBD图像数据和无线通信信号数据，其中，无线通信信号数据包括蓝牙信号数据和/或无线网络信道状态信息数据；

姿态获取模块，用于根据RGBD图像数据和无线通信信号数据，分别估计目标场景中目标用户的第一姿态和第二姿态；

融合模块，用于融合所述第一姿态和所述第二姿态，得到所述目标用户的目标人体姿态。

基于上述实施例，本发明还相应提供了一种终端，如图8所示，所述终端包括处理器10以及存储器20。图8仅示出了终端的部分组件，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

在一个实施例中，存储器20为终端的内部存储单元，例如终端的硬盘或内存。存储器20在另一些实施例中也可以是终端的外部存储设备，例如终端上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(FlashCard)等。进一步地，存储器20还可以既包括所述终端的内部存储单元也包括外部存储设备。存储器20用于存储安装于所述终端的应用软件及各类数据。存储器20还可以用于暂时地存储已经输出或者将要输出的数据。在一实施例中，存储器20上存储有人体姿态估计程序30，该人体姿态估计程序30可被处理器10所执行，从而实现本申请中人体姿态估计方法。

在一个实施例中，处理器10为中央处理器(Central Processing Unit,CPU)，微处理器或其他芯片，用于运行存储器20中存储的程序代码或处理数据，例如执行人体姿态估计方法等。

在一实施例中，当处理器10执行所述存储器20中人体姿态估计程序30时实现以下步骤：获取相同目标场景的RGBD图像数据和无线通信信号数据；其中，无线通信信号数据包括蓝牙信号数据和/或无线网络信道状态信息数据；根据RGBD图像数据和无线通信信号数据，分别估计目标场景中目标用户的第一姿态和第二姿态；融合第一姿态和所述第二姿态，得到目标用户的目标人体姿态。

在一个实施例中，终端还包括采集设备和无线设备，用于分别采集相同目标场景的RGBD图像数据和无线通信信号数据并传输至处理器实现人体姿态估计。需要说明的是，采集设备与无线设备的排布方式可为交错排布或对立排布，获取的是相同目标场景的数据即可，此处不作限制。

本发明还提供一种计算机可读存储介质，其中，存储有一个或者多个程序，一个或者多个程序可被一个或者多个处理器执行，以实现如上的人体姿态估计方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取计算机可读存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种人体姿态估计方法，其特征在于，所述方法包括：

获取相同目标场景的RGBD图像数据和无线通信信号数据；其中，所述无线通信信号数据包括蓝牙信号数据和/或无线网络信道状态信息数据；

根据所述RGBD图像数据和所述无线通信信号数据，分别估计所述目标场景中目标用户的第一姿态和第二姿态；

融合所述第一姿态和所述第二姿态，得到所述目标用户的目标人体姿态。

2.根据权利要求1所述的人体姿态估计方法，其特征在于，当所述无线通信信号数据为蓝牙信号数据时，获取所述目标场景中的所述无线通信数据，包括：

获取所述第一蓝牙设备上的多个接收天线分别接收到的由所述第二蓝牙设备的一个发送天线发送的所述第一信号；

根据所述多个接收天线阵列接收的各第一信号计算相位差，得到所述蓝牙信号数据。

3.根据权利要求1所述的人体姿态估计方法，其特征在于，当所述无线通信信号数据为蓝牙信号数据时，获取所述目标场景中的所述无线通信数据，包括：

获取所述第一蓝牙设备上的一个接收天线接收到的由所述第二蓝牙设备上的多个发送天线分别发送的所述第一信号；

根据所述一个接收天线接收到的多个第一信号计算相位差，得到所述蓝牙信号数据。

4.根据权利要求1所述的人体姿态估计方法，其特征在于，根据所述RGBD图像数据估计所述目标场景中目标用户的第一姿态，包括：

将RGBD图像数据输入至第一神经网络，获取目标用户的第一姿态；其中，所述第一神经网络包括用于特征提取的基础网络和分别连接所述基础网络的二维分支网络和三维分支网络，所述二维分支网络用于利用RGB图像得到二维姿态数据，所述三维分支网络用于利用所述二维姿势数据和深度图像估计所述目标用户的第一姿态。

5.根据权利要求1所述的人体姿态估计方法，其特征在于，根据所述无线通信信号数据估计所述目标场景中目标用户的第二姿态，包括：

将所述无线通信信号数据输入至第二神经网络，获取目标用户的第二姿态；其中，所述无线通信信号数据包括垂直热图和水平热图的两种格式，所述第二神经网络对各热图进行卷积编码并合并通道，对合并通道后的热图进行解码以估计所述目标用户的第二姿态。

6.根据权利要求1所述的人体姿态估计方法，其特征在于，所述融合所述第一姿态和所述第二姿态，得到所述目标用户的目标人体姿态，包括：

将所述第二姿态和所述第一姿态的时间戳进行对齐；

将相同时间戳的所述第二姿态和所述第一姿态进行融合，得到当前时刻对应的所述目标人体姿态。

7.根据权利要求6所述的人体姿态估计方法，其特征在于，所述将相同时刻的所述第二姿态和所述第一姿态进行融合，包括：

分别获取所述第一姿态和所述第二姿态中各人体骨架点坐标及每个坐标相应的置信度；

基于对应的置信度及所述相同时间戳对所述第二姿态和所述第一姿态进行融合。

8.一种人体姿态估计装置，其特征在于，包括：

数据获取模块，用于获取相同目标场景的RGBD图像数据和无线通信信号数据，其中，所述无线通信信号数据包括蓝牙信号数据和/或无线网络信道状态信息数据；

姿态获取模块，用于根据所述RGBD图像数据和所述无线通信信号数据，分别估计所述目标场景中目标用户的第一姿态和第二姿态；

9.一种终端，其特征在于，所述终端包括：处理器、与处理器通信连接的计算机可读存储介质，所述计算机可读存储介质适于存储多条指令，所述处理器适于调用所述计算机可读存储介质中的指令，以执行实现权利要求1-7任一项所述的人体姿态估计方法的步骤。

10.根据权利要求9所述的终端，其特征在于，还包括采集设备和无线设备，用于分别采集相同目标场景的RGBD图像数据和无线通信信号数据并传输至所述处理器以实现权利要求1-7任一项所述的人体姿态估计方法的步骤。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如权利要求1-7任一项所述的人体姿态估计方法的步骤。