CN113780197A

CN113780197A - 动作姿态信息补全方法、电子设备及计算机可读存储介质

Info

Publication number: CN113780197A
Application number: CN202111080248.XA
Authority: CN
Inventors: 钱立辉; 韩欣彤
Original assignee: Guangzhou Huya Technology Co Ltd
Current assignee: Guangzhou Huya Technology Co Ltd
Priority date: 2021-09-15
Filing date: 2021-09-15
Publication date: 2021-12-10

Abstract

本申请实施例提供的动作姿态信息补全方法、电子设备及计算机可读存储介质，涉及人工智能技术领域。基于动作姿态序列信息中时序上的多个动作姿态帧中可见关键点的相对位置关系对不可见关键点的相对位置关系进行预测，相对于基于单个动作姿态帧或单张图像对不可见关键点进行预测，可以避免因关键点之间缺乏时序上的相对位置变化关系而导致不可见关键点的相对位置关系无法预测的问题，通过基于关键点的相对位置关系在时序上的变化采用训练好的动作姿态补全模型对不可见关键点的相对位置关系进行预测，可以使动作姿态信息补全后的第二动作姿态帧序列信息与目标对象的实际动作姿态相符。

Description

动作姿态信息补全方法、电子设备及计算机可读存储介质

技术领域

本申请涉及人工智能技术领域，具体而言，涉及一种动作姿态信息补全方法、电子设备及计算机可读存储介质。

背景技术

姿态识别技术是人工智能的一个重要技术分支，通过目标对象的关键点(比如，关节中心点)对目标对象进行动作姿态预测是姿态识别的一个重要实现方式。然而，目标对象的关键点可能存在不可见的情况，在进行后端应用(比如虚拟对象姿态驱动)时需要先补全不可见关键点的相对位置信息。基于这种方式，可能会因为补全过程中的补全效果不佳而导致补全后的动作姿态信息与目标对象实际的动作姿态相差较大的问题，最终导致虚拟对象动作姿态与目标对象实际的动作姿态差别很大。因此，如何减小补全后的动作姿态信息与目标对象实际的动作姿态之间的差异是本领域技术人员急需要解决的技术问题。

发明内容

为了至少克服现有技术中的上述不足，本申请的目的在于提供一种动作姿态信息补全方法、电子设备及计算机可读存储介质。

第一方面，本申请实施例提供一种动作姿态信息补全方法，所述方法包括：

获取目标对象的第一动作姿态帧序列信息，其中，所述第一动作姿态帧序列信息包括所述目标对象中的各关键点在每一动作姿态帧中的可见性信息及各所述关键点中的可见关键点在每一动作姿态帧中的相对位置信息，各所述关键点中至少存在一个不可见关键点；

将所述第一动作姿态帧序列信息输入训练好的动作姿态补全模型中进行预测，补全所述第一动作姿态帧序列信息中不可见关键点的相对位置信息，得到第二动作姿态帧序列信息，其中，所述训练好的动作姿态补全模型基于时序上的各所述动作姿态帧中可见关键点的相对位置信息预测不可见关键点的相对位置信息。

在上述方案中，通过将目标对象的第一动作姿态序列信息输入训练好的动作姿态补全模型中进行预测，得到第一动作姿态帧序列信息中不可见关键点的相对位置信息。基于动作姿态序列信息中时序上的多个动作姿态帧中可见关键点的相对位置关系对不可见关键点的相对位置关系进行预测，相对于基于单个动作姿态帧或单张图像对不可见关键点进行预测，可以避免因关键点之间缺乏时序上的相对位置变化关系而导致不可见关键点的相对位置关系无法预测的问题，通过基于关键点的相对位置关系在时序上的变化采用训练好的动作姿态补全模型对不可见关键点的相对位置关系进行预测，可以使动作姿态信息补全后的第二动作姿态帧序列信息与目标对象的实际动作姿态相符。

在一种可能的实现方式中，所述动作姿态补全模型包括生成器，所述生成器包括编码器及解码器，所述编码器及所述解码器由层数相同的多层全连接网络组成，所述编码器与所述解码器连接，所述编码器对输入所述生成器的数据进行降维处理，所述解码器对所述编码器输出的数据进行升维处理。

在一种可能的实现方式中，所述编码器最后一层全连接网络的输出数据的维度包括512维度至32维度中的一个维度。

在一种可能的实现方式中，所述方法还包括训练所述动作姿态补全模型的步骤，该步骤包括：

获取目标对象的第三动作姿态帧序列信息；

基于所述目标对象中关键点的不可见概率及所述第三动作姿态帧序列信息，得到所述动作姿态帧序列样本信息；

将所述动作姿态帧序列样本信息输入所述生成器进行训练，由所述生成器对所述动作姿态帧序列样本信息中不可见关键点的相对位置信息进行预测得到补全后的动作姿态帧序列信息；

基于所述第三动作姿态帧序列信息与补全后的动作姿态帧序列信息判断所述动作姿态补全模型是否收敛，在未收敛时，调整所述生成器的网络参数后回到所述获取目标对象的第三动作姿态帧序列信息的步骤，直到所述动作姿态补全模型收敛，得到训练好的动作姿态补全模型。

在一种可能的实现方式中，所述关键点的相对位置信息为三维轴角，所述基于所述目标对象中关键点的不可见概率及所述第三动作姿态帧序列信息，得到所述动作姿态帧序列样本信息的步骤，包括：

基于所述目标对象中不同关键点的不可见概率确定第三动作姿态帧序列信息中每一动作姿态帧中的关键点对应的关键点掩码，其中，可见关键点对应的关键点掩码设置为第一预设值，不可见关键点对应的关键点掩码设置为第二预设值；

将所述第三动作姿态帧序列信息中关键点的三维轴角以及对应的关键点掩码进行叠加，得到所述动作姿态帧序列样本信息，其中，在所述关键点不可见时，将该关键点对应的三维轴角设置为所述第二预设值。

在一种可能的实现方式中，所述生成器包括编码器及解码器，所述由所述生成器对所述动作姿态帧序列样本信息中不可见关键点的相对位置信息进行预测得到补全后的动作姿态帧序列信息的步骤，包括：

将所述动作姿态帧序列样本信息输入所述编码器中进行特征提取；

将提取的特征输入所述解码器进行特征重构得到重构特征；

采用第三动作姿态帧序列信息中可见关键点的相对位置信息替换所述重构特征中对应的可见关键点的相对位置信息，得到更新后的重构特征，将所述更新后的重构特征作为所述补全后的动作姿态帧序列信息。

在一种可能的实现方式中，所述基于所述第三动作姿态帧序列信息与补全后的动作姿态帧序列信息判断所述动作姿态补全模型是否收敛的步骤，包括：

基于所述第三动作姿态帧序列信息与补全后的动作姿态帧序列信息计算生成器的第一损失函数值，并基于所述生成器的第一损失函数值判断所述动作姿态补全模型是否收敛；

其中所述生成器的第一损失函数值Lg的计算公式为：

其中，T为时序帧数量，t为时序帧中的第t帧，G为目标对象的关键点数量，g表达第g个关键点，M(t,g)为第t帧中第g个关键点的掩码，关键点可见时M(t,g)为第一预设值，关键点不可见时M(t,g)为第二预设值，

为所述第三动作姿态帧序列信息中关键点的真实相对位置信息，

为补全后的动作姿态帧序列信息中关键点的预测相对位置信息。

在一种可能的实现方式中，所述动作姿态补全模型包括生成器与判别器组成的对抗网络，所述生成器包括编码器及解码器，所述编码器及所述解码器由层数相同的多层全连接网络组成，所述编码器与所述解码器连接，所述编码器对输入所述生成器的数据进行降维处理，所述解码器对所述编码器输出的数据进行升维处理，所述判别器由多层全连接网络组成，所述判别器与所述生成器连接，其中，所述编码器最后一层全连接网络的输出数据的维度包括512维度至32维度中的一个维度。

获取目标对象的第三动作姿态帧序列信息及动作姿态时序帧信息；

将所述补全后的动作姿态帧序列信息及所述动作姿态时序帧信息作为输入信息输入所述判别器进行训练，得到所述判别器输出的所述输入信息为非补全的动作姿态帧序列信息的判别概率；

基于所述生成器的第一损失函数值、所述判别器对所述动作姿态时序帧信息的判别概率及所述判别器对所述补全后的动作姿态帧序列信息的判别概率，计算所述生成器的第二损失函数值及所述判别器的损失函数值；

在所述生成器的第二损失函数值与所述判别器的损失函数值不满足收敛条件时，调整所述生成器及所述判别器中的网络参数，回到所述获取目标对象的第三动作姿态帧序列信息及动作姿态时序帧信息的步骤，直到所述生成器的第二损失函数值与所述判别器的损失函数值满足收敛条件。

在一种可能的实现方式中，所述生成器的第一损失函数值Lg通过以下计算公式计算得到：

所述生成器的第二损失函数值LG通过以下计算公式计算得到：

L_G＝L_g+(D(G(input))-1)²

所述判别器的损失函数值Ld的计算公式如下：

L_d＝(1-D(gt))²+(D(G(input)))²

其中，T为时序帧数量，t为时序帧中的第t帧，G为目标对象的关键点数量，g表达第g个关键点，M(t，g)为第t帧中第g个关键点的掩码，关键点可见时M(t，g)为第一预设值，关键点不可见时M(t，g)为第二预设值，

为补全后的动作姿态帧序列信息中关键点的预测相对位置信息，input为动作姿态帧序列样本信息，G(input)为生成器输出的补全后的动作姿态帧序列信息，D(G(input))为判别器对补全后的动作姿态帧序列信息的判别概率，gt为动作姿态时序帧信息，D(gt)为判别器对动作姿态时序帧信息的判别概率。

在一种可能的实现方式中，在将所述第一动作姿态帧序列信息输入训练好的动作姿态补全模型中进行训练，补全所述第一动作姿态帧序列信息中不可见关键点的相对位置信息，得到第二动作姿态帧序列信息的步骤之后，所述方法还包括：

基于所述第二动作姿态帧序列信息驱动所述目标对象所对应的虚拟形象的姿态动作。

第二方面，本申请实施例还提供动作姿态信息补全装置，所述装置包括：

获取模块，用于获取目标对象的第一动作姿态帧序列信息，其中，所述第一动作姿态帧序列信息包括所述目标对象中的各关键点在每一动作姿态帧中的可见性信息及各所述关键点中的可见关键点在每一动作姿态帧中的相对位置信息，各所述关键点中至少存在一个不可见关键点；

补全模块，用于将所述第一动作姿态帧序列信息输入训练好的动作姿态补全模型中进行预测，补全所述第一动作姿态帧序列信息中不可见关键点的相对位置信息，得到第二动作姿态帧序列信息，其中，所述训练好的动作姿态补全模型基于时序上的各所述动作姿态帧中可见关键点的相对位置信息预测不可见关键点的相对位置信息。

第三方面，本申请实施例还提供一种电子设备，所述电子设备包括处理器及计算机可读存储介质，所述处理器及所述计算机可读存储介质之间通过总线系统连接，所述计算机可读存储介质用于存储程序、指令或代码，所述处理器用于执行所述计算机可读存储介质中的程序、指令或代码，以实现第一方面所述的动作姿态信息补全方法。

第四方面，本申请实施例提供一种计算机可读存储介质，计算机可读存储介质中存储有指令，当其被执行时，使得计算机执行上述第一方面或者第一方面中任意一个可能的实现方式中的动作姿态信息补全方法。

基于上述任意一个方面，本申请实施例提供的动作姿态信息补全方法、电子设备及计算机可读存储介质。基于动作姿态序列信息中时序上的多个动作姿态帧中可见关键点的相对位置关系对不可见关键点的相对位置关系进行预测，相对于基于单个动作姿态帧或单张图像对不可见关键点进行预测的方式，可以避免因关键点之间缺乏时序上的相对位置变化关系而导致不可见关键点的相对位置关系无法预测的问题。此外，通过基于关键点的相对位置关系在时序上的变化采用训练好的动作姿态补全模型对不可见关键点的相对位置关系进行预测，可以使动作姿态信息补全后的第二动作姿态帧序列信息与目标对象的实际动作姿态相符。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要调用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它相关的附图。

图1为本申请实施例提供的动作姿态信息补全方法的一种流程示意图；

图2为本申请实施例提供的动作姿态补全模型的一种训练步骤流程示意图；

图3为本申请实施例提供的一种动作姿态补全模型的模型示意图；

图4为本申请实施例提供的动作姿态补全模型的另一种训练步骤流程示意图；

图5为本申请实施例提供的另一种动作姿态补全模型的模型示意图；

图6为本申请实施例提供的动作姿态信息补全方法的另一种流程示意图；

图7为本申请实施例提供的动作姿态信息补全装置的一种功能模块示意图；

图8为本申请实施例提供的动作姿态信息补全装置的另一种功能模块示意图；

图9为本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面结合说明书附图对本申请进行具体说明，方法实施例中的具体操作方法也可以应用于装置实施例或系统实施例中。

为了方便理解背景技术中提及的技术问题，本实施例以基于虚拟直播的场景作为示例，以通过检测的目标对象(比如，主播)的关键点驱动相应的虚拟对象的动作姿态为例，因目标对象的手臂和腿部可能不可见(比如，被遮挡或位于动作捕捉设备的捕捉范围以外)，会导致检测时无法检测到手臂和腿部对应的关键点，在基于关键点驱动相应虚拟对象的动作姿态时，因手臂和腿部对应的关键点不可见，会导致驱动的虚拟对象的动作姿态与目标对象的实际动作姿态相差很大。特别是在目标对象的所有关键点可见和目标对象的部分关键点不可见的过渡阶段，会存在虚拟对象的动作姿态变化过大而引起的画面抖动，严重影响直播效果。

为了解决上述技术问题，现有技术存在以下两种可能的解决方案。

第一种可能的解决方案是图像驱动肢体方案，该方案通过用户输入的RGB图像来预测目标对象的关键点(比如，关节的中心点)的转角朝向。具体地，可以通过计算量较大的ResNet50网络来提取特征，结合循环神经网络预测用于肢体驱动的信号数据，然后再使用优化算法优化预测的信号数据，确定目标对象的关键点的转角朝向。

第二种可能的解决方案是关键点驱动肢体方案，该方案通过用户输入的RGB图像，预测出所有关键点(比如，关节的中心点)的坐标，然后再根据关键点的坐标得到目标对象的各个关键点的转角朝向。

发明人研究发现，上述两种可能的解决方案存在以下不足。

针对第一种可能的解决方案，在部分肢体(比如，下半身)不可见时，由于输入图片与模型训练时的样本图片相差较大，在训练过程中可能并未采用这种部分肢体不可见的样本图片进行训练，这会导致对不可见肢体部分的预测发生错误。

针对第二种可能的解决方案，在部分肢体(比如，下半身)不可见时，该方案的鲁棒性更差，由于可见关键点与不可见关键点之间缺乏必然联系，基于可见关键点预测不可见关键点的预测效果很差，在肢体部位被遮挡的情况下，如手臂被遮挡时，手臂对应关键点预测不准确，会造成手臂对应关键点抖动剧烈，对后续姿态预测产生较大的影响。

为了克服上述缺陷，本申请实施例提供一种动作姿态信息补全方法。如图1所示，为本申请实施例提供的一种动作姿态信息补全方法的流程示意图，本申请实施例提供的动作姿态信息补全方法可以由具有数据处理能力的电子设备执行，下面结合图1对本实施例提供的动作姿态信息补全方法进行详细介绍。

步骤S11，获取目标对象的第一动作姿态帧序列信息。

在本申请实施例中，目标对象可以是人(比如，网络主播)，也可以是其它动物(比如，熊猫)。本实施例中，以目标对象为人(如直播场景的主播)为例进行说明。

其中，第一动作姿态帧序列信息可以由时序上连续的多个动作姿态帧的信息组成，每一动作姿态帧的信息包括目标对象中各关键点的可见性信息及各关键点中的可见关键点在该动作姿态帧中的相对位置信息。其中，可见性信息可以包括关键点是否可见的指示信息，例如包括关键点可见的第一指示信息与关键点不可见的第二指示信息两种，具体的，可以通过数字标记表示可见性信息，比如，针对可见的关键点可以采用数字1表示该关键点的可见性信息，针对不可见的关键点可以采用数字0表示该关键点的可见性信息。其中，动作姿态帧可以通过动作捕捉设备获取，动作捕捉设备可以包括光学动作捕捉设备及热成像动作捕捉设备等。关节点的相对位置信息是指用于确认该关键点与其他关键点相对位置的信息，其中，其他关键点可以是该关键点的相邻关键点，也可以是一参考关键点。

其中，关键点可以为目标对象对应的关节中心点，具体地，可以将能用于驱动肢体的主要关节的中心点作为关键点，比如，在目标对象为人时，关键点可以包括盆骨关节中心点、左髋关节中心点、右髋关节中心点、第一脊柱关节中心点、左膝盖关节中心点、右膝盖关节中心点、第二脊柱关节中心点、左踝关节中心点、右踝关节中心点、第三脊柱关节中心点、左脚关节中心点、右脚关节中心点、脖子关节中心点、左颈关节中心点、右颈关节中心点、头部关节中心点、左肩关节中心点、右肩关节中心点、左肘关节中心点、右肘关节中心点、左手腕关节中心点、右手腕关节中心点、左手关节中心点及右手关节中心点。可以理解的是，上述仅仅是为了说明关键点组成的一种示例，在本申请其它实施例中，关键点的数量及类型可以做相应的调整。

步骤S12，将第一动作姿态帧序列信息输入训练好的动作姿态补全模型中进行预测，补全第一动作姿态帧序列信息中不可见关键点的相对位置信息，得到第二动作姿态帧序列信息。

具体地，训练好的动作姿态补全模型可以根据第一动作姿态帧序列信息中时序上连续的各动作姿态帧中可见关键点的相对位置信息预测不可见关键点的相对位置信息。

基于上述方案，基于动作姿态序列信息中时序上的多个动作姿态帧中可见关键点的相对位置关系对不可见关键点的相对位置关系进行预测，相对于基于单个动作姿态帧或单张图像对不可见关键点进行预测，可以避免因关键点之间缺乏时序上的相对位置变化关系而导致不可见关键点的相对位置关系无法预测的问题，通过基于关键点的相对位置关系在时序上的变化采用训练好的动作姿态补全模型对不可见关键点的相对位置关系进行预测，可以使动作姿态信息补全后的第二动作姿态帧序列信息与目标对象的实际动作姿态相符。

在本申请实施例的一种可能实施方式中，本申请实施例提供的动作姿态信息补全方法还包括训练动作姿态补全模型的步骤，其中，动作姿态补全模型可以包括生成器，请参照图2及图3，图示2出了训练动作姿态补全模型的一种步骤流程示意图，图3示出了动作姿态补全模型的一种模型结构示意图，下面结合图2及图3对训练动作姿态补全模型的步骤进行详细介绍。

步骤S131，获取目标对象的第三动作姿态帧序列信息。

其中，第三动作姿态帧序列信息可以是关键点检测模型中导出的动作姿态帧序列信息，其中，关键点检测模型可以检测出目标对象的各关键点的相对位置信息，第三动作姿态帧序列信息中的所有关键点可以均为可见关键点，即在第三动作姿态帧序列所对应的每一动作姿态帧序列中关键点均可见。

步骤S132，基于目标对象中关键点的不可见概率及第三动作姿态帧序列信息，得到动作姿态帧序列样本信息。

在实际应用场景中，各个关键点的不可见概率可能是不同的，以直播场景为例，如表1所示手腕、脚的不可见的概率要高于手肘、膝盖及髋骨的不可见的概率，因此在获得的动作姿态帧序列样本信息中需要针对不同关节对应的关键点设置不同的不可见概率。

关节	手腕、脚	膝盖	手肘	髋骨	其他
						不可见概率	0.9	0.8	0.7	0.5	0.1

表1

如此设置，可以使得动作姿态补全模型有针对的对不可见概率大的关键点进行相对位置信息训练，提高动作姿态补全模型对此类不可见关键点的相对位置信息的预测准确度。

本申请实施例的动作姿态补全模型不与进行关键点检测的关键点检测模型耦合，为此，本申请实施例提供的动作姿态信息补全方法需要通过模拟的方式获得动作姿态帧序列样本信息。

在本申请实施例中，关键点的相对位置信息可以为三维轴角，其中，三维轴角是指关键点所对应关节的关节轴之间的夹角，一般可以以α、β、γ等表示，获得动作姿态帧序列样本信息的方式可以如下。

具体地，可以基于目标对象中不同关键点的不可见概率确定第三动作姿态帧序列信息中每一动作姿态帧中的关键点对应的关键点掩码，其中，可见关键点对应的关键点掩码可以设置为第一预设值(比如为1)，不可见关键点对应的关键点掩码可以设置为第二预设值(比如为0)；然后，将第三动作姿态帧序列信息中关键点的三维轴角以及对应的关键点掩码进行叠加，得到动作姿态帧序列样本信息，其中，在关键点不可见时，将该关键点对应的三维轴角可以设置为第二预设值(比如为0)。如此设置，可以防止动作姿态信息补全模型直接将不可见关键点的三维轴角直接输出，将不可见关键点的三维轴角设置为0，可以在训练时让动作姿态信息补全模型对其进行三维轴角预测。

以每一动作姿态帧包括24个关键点，动作姿态帧序列包括T个时序连续的动作姿态帧为例，在训练时，输入的动作姿态帧序列的关键点的相对位置信息为T*72维度的实数集即D∈R^T×72，其中T为时序连续的动作姿态帧的数量，72表示一动作姿态帧中所有三维轴角的维度(72＝24*3)，关键点对应的掩码可以为24维度的实数集，如M∈R^T×24，其中，24对应关键点的数量，其中，可采用1表示关键点可见，采用0表示关键点不可见。将动作姿态帧序列的关键点的相对位置信息与关键点对应的掩码叠加，可以得到T*96维度的实数集，如I∈R^T×96，其表示动作姿态帧序列样本信息为T*96维度的实数集。

在本申请实施例提供的技术方案中，一方面需要考虑采用较多的时序连续的动作姿态帧进行预测，以提高不可见关键点相对位置信息的预测准确性，另一方面，还需要考虑时序连续的动作姿态帧的数量过大时对计算资源的占用，结合两方面的考虑，优选地，可将T设置为8。

步骤S133，将动作姿态帧序列样本信息输入生成器进行训练，由生成器对动作姿态帧序列样本信息中不可见关键点的相对位置信息进行预测得到补全后的动作姿态帧序列信息。

请参照图3，生成器可以包括编码器及解码器，其中，编码器和解码器均由多层全连接网络组成，编码器与解码器连接，编码器对输入生成器的数据进行降维处理，解码器对编码器输出的数据进行升维处理，步骤S133可以通过以下方式实现。

首先，将动作姿态帧序列样本信息输入编码器中进行特征提取。

以上述8*96维的动作姿态帧序列样本信息为例，编码器可以为三层全连接网络，编码器对输入动作姿态帧序列样本信息通过降维方式提取特征，具体地，编码器的第一层全连接网络的输入数据的维度为8*96维度，编码器的第一层全连接网络的输出数据的维度为512维度；编码器的第二层全连接网络的输入数据的维度为512维度，编码器的第二层全连接网络的输出数据的维度为512维度；编码器的第三层全连接网络的输入数据的维度为512维度，编码器的第三层全连接网络的输出数据的维度为256维度。

接着，将提取的特征输入解码器进行特征重构得到重构特征。

具体地，在上述8*96维度的动作姿态帧序列样本信息的示例中，解码器也可以为三层全连接网络，解码器通过对输入数据进行升维处理进行特征重构，具体地，解码器的第一层全连接网络的输入数据为编码器的第三层全连接网络的输出数据(数据的维度为256维度)，解码器的第一层全连接网络的输出数据的维度为512维度；解码器的第二层全连接网络的输入数据的维度为512维度，解码器的第二层全连接网络的输出数据的维度为512维度；解码器的第三层全连接网络的输入数据的维度为512维度，解码器的第三层全连接网络的输出数据的维度为8*96维度。即解码器输出的数据与编码器输入的数据具有相同的维度。

最后，采用第三动作姿态帧序列信息中可见关键点的相对位置信息替换重构特征中对应的可见关键点的相对位置信息，得到更新后的重构特征，将更新后的重构特征作为所述补全后的动作姿态帧序列信息。

可以理解的是，上述示例仅仅是本申请实施例提供的一种可实现动作姿态帧序列信息补全的生成器的可能架构，在其他实施例中，生成器的架构还可以做相应的调整，比如，编码器与解码器的全连接网络层数，以及对应每一层全连接网络输入输出数据的维度均可以对应调整。在一些实施例中，编码器的输出数据的维度可以在512维度至32度维之间选择，即编码器的第三层全连接网络的输出数据的维度可以选择512维度，还可以选择至128维度、64维度或者32维度中的一种。解码器的第一层全连接网络的输入数据也可以在512维度至32维度之间选择，即解码器的第一层全连接网络的输入数据的维度可以选择512维度，还可以选择至128维度、64维度或者32维度中的一种。

步骤S134，基于第三动作姿态帧序列信息与补全后的动作姿态帧序列信息判断动作姿态补全模型是否收敛。

在判定动作姿态补全模型收敛时，进入步骤S135；在判定动作姿态补全模型不收敛时，进入步骤S136。

在步骤S134中，可以基于第三动作姿态帧序列信息与补全后的动作姿态帧序列信息计算生成器的第一损失函数值，并基于生成器的第一损失函数值判断动作姿态补全模型是否收敛。

具体地，生成器的第一损失函数值Lg的计算公式为：

其中，T为时序帧数量，t为时序帧中的第t帧，G为目标对象的关键点数量，g表达第g个关键点，M(t,g)为第t帧中第g个关键点的掩码，关键点可见时M(t,g)为第一预设值(比如为1)，关键点不可见时M(t,g)为第二预设值(比如为0)，

进一步地，在一种可能的实施方式中，可以在生成器的第一损失函数值Lg小于预设的第一损失函数阈值时，判定动作姿态补全模型收敛，反之判定动作姿态补全模型不收敛。

步骤S135，得到训练好的动作姿态补全模型。

步骤S136，调整生成器的网络参数，然后返回步骤S131，进行下一轮的训练过程。

本实施例中，基于上述训练过程得到的动作姿态补全模型可以基于时序连续的多个动作姿态帧中可见关键点的相对位置关系对不可见关键点进行相对位置关系预测，可以使得补全后的动作姿态帧序列信息与目标对象的实际动作姿态基本相符。

进一步地，为了使得补全的动作姿态帧序列信息更加贴合目标对象的姿态动作，请参照图4及图5，图示4出了训练动作姿态补全模型的另一种步骤流程示意图，图5示出了动作姿态补全模型的另一种模型结构示意图，在本申请实施例的另一种可能实施方式中，动作姿态补全模型可以包括生成器及判别器，编码器及解码器由层数相同的多层全连接网络组成，编码器与解码器连接，编码器对输入生成器的数据进行降维处理，解码器对编码器输出的数据进行升维处理，判别器由多层全连接网络组成，判别器与生成器连接。下面结合图4及图5对训练动作姿态补全模型的步骤进行详细介绍。

步骤S141，获取目标对象的第三动作姿态帧序列信息及动作姿态时序帧信息。

其中，获取目标对象的第三动作姿态帧序列信息的方式与步骤S131相同，在此不再赘述。

在本步骤中，获得的动作姿态时序帧信息可以是通过对动作捕捉设备采集的动作姿态数据进行采样后得到的真实的动作姿态序列帧信息。

步骤S142，基于目标对象中关键点的不可见概率及第三动作姿态帧序列信息，得到动作姿态帧序列样本信息。

其中，得到动作姿态帧序列样本信息的方式与步骤S132相同，在此不再赘述。

步骤S143，将动作姿态帧序列样本信息输入生成器进行训练，由生成器对动作姿态帧序列样本信息中不可见关键点的相对位置信息进行预测得到补全后的动作姿态帧序列信息。

其中，生成器对动作姿态帧序列样本信息中不可见关键点的相对位置信息进行预测的过程和步骤S133相同在此不再赘述。

步骤S144，将补全后的动作姿态帧序列信息及动作姿态时序帧信息作为输入信息输入判别器进行训练，得到判别器输出的输入信息为非补全的动作姿态帧序列信息的判别概率。

在本申请实施例中，以8*96维度的动作姿态帧序列信息为例，判别器可以为三层全连接网络，具体地，判别器的第一层全连接网络的输入数据的维度为8*96维度，判别器的第一层全连接网络的输出数据的维度为512维度；判别器的第二层全连接网络的输入数据的维度为512维度，判别器的第二层全连接网络的输出数据的维度为512维度；判别器的第三层全连接网络的输入数据的维度为512维度，判别器的第三层全连接网络的输出数据的维度为1维度，其中1维度数据即是该输入信息为非补全(真实)的动作姿态帧序列信息的判别概率。

具体地，通过生成器与判别器组成的对抗网络，使得判别器对采样得到的真实的动作姿态序列帧信息更倾向于输出概率1，而对于生成器生成的补全的动作姿态序列帧信息更倾向于输出概率0，通过对抗网络，最终使得生成器生成的补全的动作姿态序列帧信息趋近于采样得到的真实的动作姿态序列帧信息，以使得生成器生成的补全的动作姿态序列帧信息让判别器输出的概率为1。

步骤S145，基于生成器的第一损失函数值、判别器对所述动作姿态时序帧信息的判别概率及判别器对补全后的动作姿态帧序列信息的判别概率，计算生成器的第二损失函数值及判别器的损失函数值。

具体地，生成器的第二损失函数值LG通过以下计算公式计算得到：

L_G＝L_g+(D(G(input))-1)²

其中，生成器的第一损失函数值Lg的计算公式为：

判别器的损失函数值Ld的计算公式如下：

L_d＝(1-D(gt))²+(D(G(input)))²

其中，T为时序帧数量，t为时序帧中的第t帧，G为目标对象的关键点数量，g表达第g个关键点，M(t，g)为第t帧中第g个关键点的掩码，关键点可见时M(t，g)为第一预设值(比如为1)，关键点不可见时M(t，g)为第二预设值(比如为0)，

步骤S146，判断生成器的第二损失函数值与判别器的损失函数值是否满足收敛条件。

具体地，在生成器的第二损失函数值小于第二损失函数域值且判别器的损失函数值小于第三损失函数域值时，判定生成器的第二损失函数值与判别器的损失函数值满足收敛条件；反之，判定生成器的第二损失函数值与判别器的损失函数值满足收敛条件。在判定生成器的第二损失函数值与判别器的损失函数值满足收敛条件时进入步骤S147，在判定生成器的第二损失函数值与判别器的损失函数值不满足收敛条件时进入步骤S148。

步骤S147，得到训练好的动作姿态补全模型。

步骤S148，调整生成器及判别器中的网络参数，回到步骤S141，进行下一轮的训练过程。

本实施例中，通过上述训练过程得到的动作姿态补全模型可以使得补全后的动作姿态帧序列信息更加贴合目标对象的姿态动作，比如，对于某些目标对象(比如主播)的下半身不可见而上半身可见的情形，预测得到动作姿态帧序列信息可以包括下半身关键点丰富的相对位置关系。

请参照图6，本申请实施例提供的动作姿态信息补全方法还可以包括步骤S13。

步骤S13，基于第二动作姿态帧序列信息驱动目标对象所对应的虚拟形象的姿态动作。

基于动作姿态序列信息中时序上的多个动作姿态帧中可见关键点的相对位置关系对不可见关键点进行相对位置关系进行预测，得到第二动作姿态帧序列信息；并根据第二动作姿态帧序列信息驱动目标对象所对应的虚拟形象的姿态动作，可以使得虚拟形象跟随目标对象的姿态动作进行相应的动作，使得在目标对象的所有关键点可见和目标对象的部分关键点不可见的过渡阶段，虚拟对象的动作姿态更加流畅，提升直播效果。

综上所述，本申请实施例中提供的动作姿态信息补全方法，基于动作姿态序列信息中时序上的多个动作姿态帧中可见关键点的相对位置关系对不可见关键点进行相对位置关系预测，以确保基于关键点的相对位置关系在时序上的变化通过训练好的动作姿态补全模型对不可见关键点的相对位置关系进行预测，以得到补全后的第二动作姿态帧序列信息。上述动作姿态信息补全方法可单独作为独立的模块，可以通过与以往的模型(比如关键点检测模型)耦合，实现对目标对象中某些部分不可见时进行很好的动作姿态信息补全，另外上述动作姿态信息补全方法相对于现有的动作姿态信息补全模型的网络结构(如ResNet50网络和循环神经网络)更加简单，相应的计算量也小很多(比如，为现有动作姿态信息补全模型的计算量的10％左右)。在引入生成器和判别器的对抗网络之后，补全后的第二动作姿态帧序列信息所驱动的虚拟形象更加符合目标对象的姿态变化，使得目标对象的所有关键点可见和目标对象的部分关键点不可见的过渡阶段，虚拟对象的动作姿态更加流畅，提升直播效果。

进一步地，请参照图7，图7为本申请实施例提供的动作姿态信息补全装置200的一种功能模块示意图，本实施例可以根据电子设备执行的方法实施例对动作姿态信息补全装置200进行功能模块的划分，也即该动作姿态信息补全装置200所对应的以下各个功能模块可以用于执行上述各个方法实施例。其中，该基于动作姿态信息补全装置200可以包括获取模块210及补全模块220，下面分别对该动作姿态信息补全装置200的各个功能模块的功能进行详细阐述。

获取模块210，用于获取目标对象的第一动作姿态帧序列信息。

在本申请实施例中，目标对象可以是人(比如，网络主播)，也可以是其它动物(比如，熊猫)。

获取模块210可以用于执行上述的步骤S11，关于获取模块210的详细实现方式可以参照上述针对步骤S11的详细描述。

补全模块220，用于将第一动作姿态帧序列信息输入训练好的动作姿态补全模型中进行预测，补全第一动作姿态帧序列信息中不可见关键点的相对位置信息，得到第二动作姿态帧序列信息。

补全模块220可以用于执行上述的步骤S12，关于补全模块220的详细实现方式可以参照上述针对步骤S12的详细描述。

请参照图8为本申请实施例提供的动作姿态信息补全装置200的另一种功能模块示意图。

在本申请实施例中，动作姿态信息补全装置200还可以包括训练模块230。

在本申请实施例的一种实施方式中，动作姿态补全模型包括生成器，训练模块230可以用于：

获取目标对象的第三动作姿态帧序列信息；

基于所述动作姿态帧序列样本信息与补全后的动作姿态帧序列信息判断所述动作姿态补全模型是否收敛，在未收敛时，调整所述生成器的网络参数后回到所述获得动作姿态帧序列样本信息的步骤，直到所述动作姿态补全模型收敛，得到训练好的动作姿态补全模型。

在该种实施方式中，训练模块230可以用于执行上述的步骤S131～步骤S136，关于训练模块230的详细实现方式可以参照上述针对步骤S131～步骤S136的详细描述。

在本申请实施例的另一种实施方式中，动作姿态补全模型包括生成器及判别器，训练模块230可以用于：

在该种实施方式中，训练模块230可以用于执行上述的步骤S141～步骤S148，关于训练模块230的详细实现方式可以参照上述针对步骤S141～步骤S148的详细描述。

请再次参照图8，动作姿态信息补全装置200还可以包括驱动模块240。

驱动模块240用于基于第二动作姿态帧序列信息驱动目标对象所对应的虚拟形象的姿态动作。

需要说明的是，应理解以上装置或系统中的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以在物理上分开。且这些模块可以全部以软件(比如，开源软件)可以通过处理器调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理器调用软件的形式实现，部分模块通过硬件的形式实现。作为一种示例，训练模块230可以由单独处理器运行实现，可以以程序代码的形式存储于上述装置或系统的存储器中，由上述装置或系统的某一个处理器调用并执行以上训练模块230的功能，其它模块的实现与之类似，在此就不再赘述。此外这些模块可以全部或部分集成在一起，也可以独立实现。这里所描述的处理器可以是一种具有信号的处理能力的集成电路，在实现过程中，上述技术方案中的各步骤或各个模块可以通过处理器中的集成逻辑电路或者执行软件程序的形式完成。

请参照图9，图9示出了本公开实施例提供的用于实现上述的动作姿态信息补全方法的电子设备10的硬件结构示意图。如图9所示，电子设备10可包括处理器11、计算机可读存储介质12及总线13。

在具体实现过程中，处理器11执行计算机可读存储介质12存储的计算机执行指令(例如图8中所示的动作姿态信息补全装置200包括的获取模块210、平滑模块220、确定模块230及合成模块240)，使得处理器11可以执行如上方法实施例的动作姿态信息补全方法，其中，处理器11以及计算机可读存储介质12可以通过总线13连接。

处理器11的具体实现过程可参见上述电子设备10执行的各个方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

计算机可读存储介质12可以是，但不限于，随机存取存储器(RandomAccessMemory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(ProgrammableRead-Only Memory，PROM)，可擦除只读存储器(Erasable ProgrammableRead-OnlyMemory，EPROM)，电可擦除只读存储器(Electric Erasable ProgrammableRead-OnlyMemory，EEPROM)等。其中，存储器111用于存储程序或者数据。

总线13可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

上述图9仅仅是本申请实施例提供的电子设备10的一种可能结构示意图，在其他实施例中电子设备10还可以包括更多的部件，比如动作捕捉设备，电子设备10可以通过动作捕捉设获取动作姿态帧。

此外，本申请实施例还提供一种可读存储介质，所述可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如上所述的动作姿态信息补全方法。

综上所述，本申请实施例提供的动作姿态信息补全方法、电子设备及计算机可读存储介质，基于动作姿态序列信息中时序上的多个动作姿态帧中可见关键点的相对位置关系对不可见关键点进行相对位置关系预测，以确保基于关键点的相对位置关系在时序上的变化通过训练好的动作姿态补全模型对不可见关键点的相对位置关系进行预测，以得到补全后的第二动作姿态帧序列信息。上述动作姿态信息补全方法可单独作为独立的模块，可以通过与以往的模型(比如关键点检测模型)耦合，实现对目标对象中某些部分不可见时进行很好的动作姿态信息补全，另外上述动作姿态信息补全方法相对于现有动作姿态信息补全模型网络结构更加简单，相应的计算量也小很多(比如，为现有动作姿态信息补全模型的计算量的10％左右)。在引入生成器和判别器的对抗网络之后，补全后的第二动作姿态帧序列信息所驱动的虚拟形象更加符合目标对象的姿态变化，使得目标对象的所有关键点可见和目标对象的部分关键点不可见的过渡阶段，虚拟对象的动作姿态更加流畅，提升直播效果。

此外，除非权利要求中明确说明，本说明书处理元素和序列的顺序、数字字母的使用、或其它名称的使用，并非用于限定本说明书流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例，但应当理解的是，该类细节仅起到说明的目的，附加的权利要求并不仅限于披露的实施例，相反，权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如，虽然以上所描述的系统组件可以通过硬件设备实现，但是也可以只通过软件的解决方案得以实现，如在现有的服务器或移动设备上安装所描述的系统。

同理，应当注意的是，为了简化本说明书披露的表述，从而帮助对一个或多个发明实施例的理解，前文对本说明书实施例的描述中，有时会将多种特征归并至一个实施例、附图或对其的描述中。但是，这种披露方法并不意味着本说明书对象所需要的特征比权利要求中提及的特征多。实际上，实施例的特征要少于上述披露的单个实施例的全部特征。

以上所描述的实施例仅仅是本申请的一部分实施例，而不是全部的实施例。通常在附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，在附图中提供的本申请的实施例的详细描述并非旨在限制本申请的保护范围，而仅仅是表示本申请的选定实施例。基于此，本申请的保护范围应以权利要求的保护范围为准。此外，基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下可获得的所有其它实施例，都应属于本申请保护的范围。

Claims

1.一种动作姿态信息补全方法，其特征在于，所述方法包括：

2.如权利要求1所述的动作姿态信息补全方法，其特征在于，所述动作姿态补全模型包括生成器，所述生成器包括编码器及解码器，所述编码器及所述解码器由层数相同的多层全连接网络组成，所述编码器与所述解码器连接，所述编码器对输入所述生成器的数据进行降维处理，所述解码器对所述编码器输出的数据进行升维处理。

3.如权利要求2所述的动作姿态信息补全方法，其特征在于，所述编码器最后一层全连接网络的输出数据的维度包括512维度至32维度中的一个维度。

4.如权利要求2所述的动作姿态信息补全方法，其特征在于，所述方法还包括训练所述动作姿态补全模型的步骤，该步骤包括：

获取目标对象的第三动作姿态帧序列信息；

5.如权利要求4所述的动作姿态信息补全方法，其特征在于，所述关键点的相对位置信息为三维轴角，所述基于所述目标对象中关键点的不可见概率及所述第三动作姿态帧序列信息，得到所述动作姿态帧序列样本信息的步骤，包括：

6.如权利要求5所述的动作姿态信息补全方法，其特征在于，所述由所述生成器对所述动作姿态帧序列样本信息中不可见关键点的相对位置信息进行预测得到补全后的动作姿态帧序列信息的步骤，包括：

将提取的特征输入所述解码器进行特征重构得到重构特征；

7.如权利要求6所述的动作姿态信息补全方法，其特征在于，所述基于所述第三动作姿态帧序列信息与补全后的动作姿态帧序列信息判断所述动作姿态补全模型是否收敛的步骤，包括：

其中所述生成器的第一损失函数值Lg的计算公式为：

8.如权利要求1所述的动作姿态信息补全方法，其特征在于，所述动作姿态补全模型包括生成器与判别器组成的对抗网络，所述生成器包括编码器及解码器，所述编码器及所述解码器由层数相同的多层全连接网络组成，所述编码器与所述解码器连接，所述编码器对输入所述生成器的数据进行降维处理，所述解码器对所述编码器输出的数据进行升维处理，所述判别器由多层全连接网络组成，所述判别器与所述生成器连接。

9.如权利要求8所述的动作姿态信息补全方法，其特征在于，所述方法还包括训练所述动作姿态补全模型的步骤，该步骤包括：

10.如权利要求9所述的动作姿态信息补全方法，其特征在于，所述生成器的第一损失函数值Lg通过以下计算公式计算得到：

L_G＝L_g+(D(G(input))-1)²

所述判别器的损失函数值Ld的计算公式如下：

L_d＝(1-D(gt))²+(D(G(input)))²

11.如权利要求1-10中任意一项所述的动作姿态信息补全方法，其特征在于，在将所述第一动作姿态帧序列信息输入训练好的动作姿态补全模型中进行训练，补全所述第一动作姿态帧序列信息中不可见关键点的相对位置信息，得到第二动作姿态帧序列信息的步骤之后，所述方法还包括：

12.一种电子设备，其特征在于，所述电子设备包括处理器及计算机可读存储介质，所述处理器及所述计算机可读存储介质之间通过总线系统连接，所述计算机可读存储介质用于存储程序、指令或代码，所述处理器用于执行所述计算机可读存储介质中的程序、指令或代码，以实现权利要求1-11中任意一项所述的动作姿态信息补全方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当其被执行时，使得电子设备执行权利要求1-11中任意一项所述动作姿态信息补全方法。