CN113673469A

CN113673469A - 基于视频流的人体关键点分析训练和推理方法、装置

Info

Publication number: CN113673469A
Application number: CN202111005243.0A
Authority: CN
Inventors: 不公告发明人
Original assignee: Guangzhou Shenling Technology Co ltd
Current assignee: Guangzhou Shenling Technology Co ltd
Priority date: 2021-08-30
Filing date: 2021-08-30
Publication date: 2021-11-19

Abstract

本发明公开了一种基于视频流的人体关键点分析训练和推理方法、装置，该方法包括如下步骤：将历史连续视频帧的所有人体关键点和遮挡标示作为样本训练数据，训练人体关键点分析模型；以当前连续视频帧的所有人体关键点和遮挡标示作为原始数据，初始化所述人体关键点分析模型；通过所述人体关键点分析模型对所述当前连续视频帧的每一所述遮挡标示对应的人体关键点的位置进行推理，以获得所述当前连续视频帧的人体姿势；本发明引入遮挡标示，并将遮挡标示融入人体关键点分析训练和推理中，大大提升人体关键点的识别精度。

Description

基于视频流的人体关键点分析训练和推理方法、装置

技术领域

本发明涉及人体关键点分析技术领域，尤其涉及基于视频流的人体关键点分析训练和推理方法、装置。

背景技术

传统人体关键点分析算法主要以图像为输入，通过算法分析，输出人体的关键点。但是当人体的关键点出现被遮挡时，算法的分析和推理出关键点正确位置的能力往往很差。

然而，传统人体关键点分析算法在视频流人体关键点分析中，未考虑前后帧视频信息，算法精度有限，且训练和推理使用中，并未做到充分利用未遮挡关键点的信息提升关键识别的精度，往往导致推理出来的关键点正确位置与实际存在较大差异。

发明内容

本发明的目的是提供一种基于视频流的人体关键点分析训练和推理方法，引入遮挡标示，并将遮挡标示融入人体关键点分析训练和推理中，大大提升人体关键点的识别精度。

为了实现上有目的，本发明公开了一种基于视频流的人体关键点分析训练和推理方法，其包括如下步骤：

S1、将历史连续视频帧的所有人体关键点和遮挡标示作为样本训练数据，训练人体关键点分析模型；

S2、以当前连续视频帧的所有人体关键点和遮挡标示作为原始数据，初始化所述人体关键点分析模型；

S3、通过所述人体关键点分析模型对所述当前连续视频帧的每一所述遮挡标示对应的人体关键点的位置进行推理，以获得所述当前连续视频帧的人体姿势。

较佳地，所述步骤(1)具体包括：

S11、按照第一预设帧数随机对所述历史连续视频帧进行截取，得到临时历史连续视频帧；

S12、将所述临时历史连续视频帧的人体关键点和遮挡标示进行双向循环神经网络分析训练，以得到所述临时历史连续视频帧的所有遮挡标示对应的人体关键点的位置；

S13、依据所述临时历史连续视频帧的所有遮挡标示对应的人体关键点的位置更新所述临时历史连续视频帧；

S14、将新的所述临时历史连续视频帧更新至所述历史连续视频帧；

S15、依据新的所述历史连续视频帧迭代训练所述人体关键点分析模型。

具体地，每一所述临时历史连续视频帧中的任一视频帧中的遮挡标示需要在所述临时历史连续视频帧中的其余视频帧中具有至少一个对应的未被遮挡的人体关键点。

较佳地，所述步骤(3)具体包括：

S31、按照第二预设帧数将所述当前连续视频帧划分为多个当前连续视频帧单元；

S32、对每一所述当前连续视频帧单元的人体关键点和遮挡标示进行双向循环神经网络推理，以得到每一所述当前连续视频帧单元的遮挡标示对应的人体关键点的位置；

S33、联合所有当前连续视频帧单元的人体关键点和遮挡标示对应的人体关键点的位置，分析得到所述当前连续视频帧对应的人体姿势。

具体地，所述步骤(32)进一步包括：

S321、计算每一所述当前连续视频帧单元中的遮挡标示的数量；

S322、计算每一所述当前连续视频帧单元中的遮挡标示的数量与预设阈值的差值；

S323、依据每一所述差值判断是否对对应的当前连续视频帧单元的人体关键点和遮挡标示进行双向循环神经网络推理。

具体地，所述步骤(323)具体包括：

S3231、若所述差值大于或等于所述预设阈值，则对当前连续视频帧单元的人体关键点和遮挡标示进行双向循环神经网络推理；

S3232、若所述差值小于所述预设阈值，则忽略当前连续视频帧单元的遮挡标示对应的人体关键点的位置。

较佳地，每一所述当前连续视频帧单元中的任一视频帧中的遮挡标示需要在所述当前连续视频帧单元中的其余视频帧中具有至少一个对应的未被遮挡的人体关键点。

较佳地，所述步骤(1)之前还包括：

S101、获取所述历史连续视频帧；

S102、对所述历史连续视频帧进行人体关键点算法分析，得到所述历史视频帧的人体关键点特征值；

S103、对所述历史视频帧的人体关键点特征值进行分析，得到所述历史视频帧的人体关键点和遮挡标示。

较佳地，所述步骤(2)之前还包括：

S201、获取所述当前连续视频帧；

S202、对所述当前连续视频帧进行人体关键点算法分析，得到所述当前视频帧的人体关键点特征值；

S203、对所述当前视频帧的人体关键点特征值进行分析，得到所述当前视频帧的人体关键点和遮挡标示。

相应地，本发明还提供了一种基于视频流的人体关键点分析训练和推理装置，其包括：

训练模块，用于将历史连续视频帧的所有人体关键点和遮挡标示作为样本训练数据，训练人体关键点分析模型；

初始化模块，用于以当前连续视频帧的所有人体关键点和遮挡标示作为原始数据，初始化所述人体关键点分析模型；

推理模块，用于通过所述人体关键点分析模型对所述当前连续视频帧的每一所述遮挡标示对应的人体关键点的位置进行推理，以获得所述当前连续视频帧的人体姿势。

与现有技术相比，本发明将历史连续视频帧的所有人体关键点和遮挡标示作为样本训练数据，训练人体关键点分析模型，通过所述人体关键点分析模型对所述当前连续视频帧的每一所述遮挡标示对应的人体关键点的位置进行推理，以获得所述当前连续视频帧的人体姿势，一方面，通过引入遮挡标示训练人体关键点分析模型，使得人体关键点分析模型具备较高的遮挡标示对应的人体关键点的位置识别能力，从而提升人体关键点分析模型识别遮挡标示对应的人体关键点的位置的能力；另一方面，利用连续帧进行训练和推理，充分利用前后帧的人体关键点和遮挡标示的关联性，进一步提升人体关键点分析模型识别遮挡标示对应的人体关键点的位置的能力。

附图说明

图1是本发明的基于视频流的人体关键点分析训练和推理方法的流程框图；

图2是本发明的基于视频流的人体关键点分析训练和推理方法中步骤(1)的流程框图；

图3是本发明的基于视频流的人体关键点分析训练和推理方法中步骤(1)中历史连续视频帧的人体关键点分析模型的执行流程图；

图4是本发明的基于视频流的人体关键点分析训练和推理方法中步骤(3)的流程框图；

图5是本发明的基于视频流的人体关键点分析训练和推理方法中步骤(2)和步骤(3)中当前连续视频帧的通过人体关键点分析模型对遮挡标示对应的人体关键点的位置进行推理的执行流程图；

图6是本发明的基于视频流的人体关键点分析训练和推理装置的结构框图。

具体实施方式

为详细说明本发明的技术内容、构造特征、所实现目的及效果，以下结合实施方式并配合附图详予说明。

请参阅图1-图3所示，本实施例的基于视频流的人体关键点分析训练和推理方法，能够通过双向循环神经网络对连续视频帧的人体关键点及遮挡位置进行模型学习和推理，有效提升视频流的人体关键点的识别精度。本实施例的基于视频流的人体关键点分析训练和推理方法包括如下步骤：

可以理解的是，这里所说的历史连续视频帧和当前连续视频帧为同一视频流的不同时间段的连续视频帧。而这里的连续视频帧指构成该对应时间段的视频流的所有连续图像，如常规情况下的时长为一秒钟的视频流由二十四张连续图像构成。当然，历史连续视频帧和当前连续视频帧还可以为不同视频流的相同类型的连续视频帧，以满足更多样化的素材训练和推理要求。

为便于理解，图3给出了步骤(1)中的历史连续视频帧的人体关键点分析模型的流程图。

算法训练的目标值p^*是根据关键点位置通过高斯分布生成的关键点的热力图。算法训练使用的损失函数L为：

p^* _i,j,c,t表示在时刻t坐标位置i,j和通道c上的目标概率值，p_i,j,c表示在时刻t坐标位置i,j和通道c上的预测的概率值。即将每个点的预测概率值与高斯分布生成的概率值求均方差和遮挡标示的均方差。

较佳地，所述步骤(1)具体包括：

可以理解的是，由于不同的历史连续视频帧的视频帧数量不同，且视频流一般具有较大数量的视频帧，因此，为了保证模型训练的硬件要求、软件要求模型训练的效率、稳定性，每次以具有第一预设帧数的临时历史连续视频帧进行模型训练，这里的第一预设帧数可以为二十四，也可以为三十等其他数值，该数值的设定根据实际硬件和软件参数进行设定。

另外，每次使用的临时历史连续视频帧均为随机抽取的，以满足模型训练的随机性，便于提高后续推理精度。

具体地，每一所述临时历史连续视频帧中的任一视频帧中的遮挡标示需要在所述临时历史连续视频帧中的其余视频帧中具有至少一个对应的未被遮挡的人体关键点。可以理解的是，这里将连续视频的前后帧限定具有至少一个对应的未被遮挡的人体关键点，以使得识别和推理遮挡标示的位置时具有对应的人体关键点作为参考依据，以提升人体关键点分析模型对遮挡标示的识别和推理精度。

较佳地，所述步骤(1)之前还包括：

S101、获取所述历史连续视频帧。

S102、对所述历史连续视频帧进行人体关键点算法分析，得到所述历史视频帧的人体关键点特征值。

可以理解的是，步骤(103)是通过人体关键点分析算法获得所述历史视频帧的人体关键点特征值的，该人体关键点分析算法可以采用现有的人体关键点分析算法，也可以采用其他算法替代。

而步骤(103)是通过双向循环神经网络(LSTM)推理，得到所述历史视频帧的人体关键点和遮挡标示的，该双向循环神经网络包括正向LSTM层和反向LSTM层，正向LSTM层是按照正向时间顺序对历史连续视频帧进行推演、训练，而反向LSTM层是按照反向时间顺序对历史连续视频帧进行推演、训练，采用双向循环神经网络的好处在于，能够对于同一视频帧，结合前帧和后帧进行正向及反向推演、训练，以提升推理识别效果。

请参阅图1-图5所示，为便于理解，图5步给出了骤(2)和步骤(3)中当前连续视频帧的通过人体关键点分析模型对遮挡标示对应的人体关键点的位置进行推理的流程图。

较佳地，所述步骤(3)具体包括：

S31、按照第二预设帧数将所述当前连续视频帧划分为多个当前连续视频帧单元。

S32、对每一所述当前连续视频帧单元的人体关键点和遮挡标示进行双向循环神经网络推理，以得到每一所述当前连续视频帧单元的遮挡标示对应的人体关键点的位置。

可以理解的是，由于不同的当前连续视频帧的视频帧数量不同，且视频流一般具有较大数量的视频帧，因此，为了保证模型训练的硬件要求、软件要求的效率、稳定性，每次以具有第二预设帧数的临时历史连续视频帧进行模型训练，这里的第二预设帧数可以为二十四，也可以为三十等其他数值，该数值的设定根据实际硬件和软件参数进行设定。

通过将所述当前连续视频帧划分为多个当前连续视频帧单元，以对每个当前连续视频帧单元进行独立推理，以得到每个当前连续视频帧单元的遮挡标示对应的人体关键点的位置，降低模型训练负荷量。

由于步骤(32)已经完成全部当前连续视频帧单元的遮挡标示对应的人体关键点的位置的推理，因此，步骤(33)只需要对所有当前连续视频帧单元的人体关键点和遮挡标示对应的人体关键点的位置进行联合计算，即可得到所述当前连续视频帧对应的人体姿势。

具体地，所述步骤(32)进一步包括：

S321、计算每一所述当前连续视频帧单元中的遮挡标示的数量。

S322、计算每一所述当前连续视频帧单元中的遮挡标示的数量与预设阈值的差值。

可以理解的是，由于进行对当前连续视频帧单元的人体关键点和遮挡标示进行双向循环神经网络推理是需要一定的运算量及时间，因此，上述步骤的意义在于，根据所述当前连续视频帧单元中的遮挡标示的数量判断是否需要对该当前连续视频帧单元进行双向循环神经网络推理，一般将这步判断作为仲裁分析使用。由于存在某一当前连续视频帧单元的遮挡标示数量极少或为零的情况，而该当前连续视频帧单元进行双向循环神经网络推理时，实际能够解推理得到的遮挡标示对应的人体关键点的位置有限，而该部分的推理计算量和时间和其余当前连续视频帧单元相近，忽略该部分的遮挡标示的推理，对整体推理的影响极小。因此，通过引入仲裁分析机制，节约推理运算量及时间，提升整体推理的识别精度。

具体地，所述步骤(323)具体包括：

S3231、若所述差值大于或等于所述预设阈值，则对当前连续视频帧单元的人体关键点和遮挡标示进行双向循环神经网络推理。

仲裁分析根据前一步分析所得人体关键点的是否被遮挡的输出，决定开启双向LSTM算法的分析。开启策略如下。设定V_k(t)表示人体关键点k在t时刻是否被遮挡，则判断是否被遮挡的公式如下：

以上条件描述的是如果历史w个视频帧中，有至少w/a个视频帧没有被遮挡，则开启策略。参数w和a是可根据实际情况调节。

可以理解的是，这里将连续视频的前后帧限定具有至少一个对应的未被遮挡的人体关键点，以使得识别和推理遮挡标示的位置时具有对应的人体关键点作为参考依据，以提升人体关键点分析模型对遮挡标示的识别和推理精度。

较佳地，所述步骤(2)之前还包括：

S201、获取所述当前连续视频帧。

S202、对所述当前连续视频帧进行人体关键点算法分析，得到所述当前视频帧的人体关键点特征值。

请参阅图6所示，相应地，本发明还提供了一种基于视频流的人体关键点分析训练和推理装置，其包括：

训练模块10，用于将历史连续视频帧的所有人体关键点和遮挡标示作为样本训练数据，训练人体关键点分析模型；

初始化模块20，用于以当前连续视频帧的所有人体关键点和遮挡标示作为原始数据，初始化所述人体关键点分析模型；

推理模块30，用于通过所述人体关键点分析模型对所述当前连续视频帧的每一所述遮挡标示对应的人体关键点的位置进行推理，以获得所述当前连续视频帧的人体姿势。

结合图1-图6，本发明将历史连续视频帧的所有人体关键点和遮挡标示作为样本训练数据，训练人体关键点分析模型，通过所述人体关键点分析模型对所述当前连续视频帧的每一所述遮挡标示对应的人体关键点的位置进行推理，以获得所述当前连续视频帧的人体姿势，一方面，通过引入遮挡标示训练人体关键点分析模型，使得人体关键点分析模型具备较高的遮挡标示对应的人体关键点的位置识别能力，从而提升人体关键点分析模型识别遮挡标示对应的人体关键点的位置的能力；另一方面，利用连续帧进行训练和推理，充分利用前后帧的人体关键点和遮挡标示的关联性，进一步提升人体关键点分析模型识别遮挡标示对应的人体关键点的位置的能力。

以上所揭露的仅为本发明的优选实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明申请专利范围所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种基于视频流的人体关键点分析训练和推理方法，其特征在于，包括如下步骤：

将历史连续视频帧的所有人体关键点和遮挡标示作为样本训练数据，训练人体关键点分析模型；

以当前连续视频帧的所有人体关键点和遮挡标示作为原始数据，初始化所述人体关键点分析模型；

通过所述人体关键点分析模型对所述当前连续视频帧的每一所述遮挡标示对应的人体关键点的位置进行推理，以获得所述当前连续视频帧的人体姿势。

2.如权利要求1所述的基于视频流的人体关键点分析训练和推理方法，其特征在于，所述将历史连续视频帧的所有人体关键点和遮挡标示作为样本训练数据，训练人体关键点分析模型，具体包括：

按照第一预设帧数随机对所述历史连续视频帧进行截取，得到临时历史连续视频帧；

将所述临时历史连续视频帧的人体关键点和遮挡标示进行双向循环神经网络分析训练，以得到所述临时历史连续视频帧的所有遮挡标示对应的人体关键点的位置；

依据所述临时历史连续视频帧的所有遮挡标示对应的人体关键点的位置更新所述临时历史连续视频帧；

将新的所述临时历史连续视频帧更新至所述历史连续视频帧；

依据新的所述历史连续视频帧迭代训练所述人体关键点分析模型。

3.如权利要求2所述的基于视频流的人体关键点分析训练和推理方法，其特征在于，每一所述临时历史连续视频帧中的任一视频帧中的遮挡标示需要在所述临时历史连续视频帧中的其余视频帧中具有至少一个对应的未被遮挡的人体关键点。

4.如权利要求1所述的基于视频流的人体关键点分析训练和推理方法，其特征在于，所述通过所述人体关键点分析模型对所述当前连续视频帧的每一所述遮挡标示对应的人体关键点的位置进行推理，以获得所述当前连续视频帧的人体姿势，具体包括：

按照第二预设帧数将所述当前连续视频帧划分为多个当前连续视频帧单元；

对每一所述当前连续视频帧单元的人体关键点和遮挡标示进行双向循环神经网络推理，以得到每一所述当前连续视频帧单元的遮挡标示对应的人体关键点的位置；

联合所有当前连续视频帧单元的人体关键点和遮挡标示对应的人体关键点的位置，分析得到所述当前连续视频帧对应的人体姿势。

5.如权利要求4所述的基于视频流的人体关键点分析训练和推理方法，其特征在于，所述对每一所述当前连续视频帧单元的人体关键点和遮挡标示进行双向循环神经网络推理，以得到每一当前连续视频帧单元的遮挡标示对应的人体关键点的位置，进一步包括：

计算每一所述当前连续视频帧单元中的遮挡标示的数量；

计算每一所述当前连续视频帧单元中的遮挡标示的数量与预设阈值的差值；

依据每一所述差值判断是否对对应的当前连续视频帧单元的人体关键点和遮挡标示进行双向循环神经网络推理。

6.如权利要求5所述的基于视频流的人体关键点分析训练和推理方法，其特征在于，所述依据每一所述差值判断是否对对应的当前连续视频帧单元的人体关键点和遮挡标示进行双向循环神经网络推理，具体包括：

若所述差值大于或等于所述预设阈值，则对当前连续视频帧单元的人体关键点和遮挡标示进行双向循环神经网络推理；

若所述差值小于所述预设阈值，则忽略当前连续视频帧单元的遮挡标示对应的人体关键点的位置。

7.如权利要求4所述的基于视频流的人体关键点分析训练和推理方法，其特征在于，每一所述当前连续视频帧单元中的任一视频帧中的遮挡标示需要在所述当前连续视频帧单元中的其余视频帧中具有至少一个对应的未被遮挡的人体关键点。

8.如权利要求1所述的基于视频流的人体关键点分析训练和推理方法，其特征在于，所述将历史连续视频帧的所有人体关键点和遮挡标示作为样本训练数据，训练人体关键点分析模型，之前还包括：

获取所述历史连续视频帧；

对所述历史连续视频帧进行人体关键点算法分析，得到所述历史视频帧的人体关键点特征值；

对所述历史视频帧的人体关键点特征值进行分析，得到所述历史视频帧的人体关键点和遮挡标示。

9.如权利要求1所述的基于视频流的人体关键点分析训练和推理方法，其特征在于，所述以当前连续视频帧的所有人体关键点和遮挡标示作为原始数据，初始化所述人体关键点分析模型，之前还包括：

获取所述当前连续视频帧；

对所述当前连续视频帧进行人体关键点算法分析，得到所述当前视频帧的人体关键点特征值；

对所述当前视频帧的人体关键点特征值进行分析，得到所述当前视频帧的人体关键点和遮挡标示。

10.一种基于视频流的人体关键点分析训练和推理装置，其特征在于，包括：