CN116664730A

CN116664730A - 感知模型的生成方法、装置、计算机设备及存储介质

Info

Publication number: CN116664730A
Application number: CN202310707536.6A
Authority: CN
Inventors: 杨黔生
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2023-06-14
Filing date: 2023-06-14
Publication date: 2023-08-29

Abstract

本公开提出一种感知模型的生成方法、装置、计算机设备及存储介质，涉及人工智能技术领域，具体为计算机视觉、增强现实、虚拟现实、深度学习等技术领域，可应用于元宇宙等场景。包括：获取训练数据集，对图像序列中的每个图像帧进行特征提取及分割，得到每个图像帧对应的图像特征序列，然后分别输入初始感知模型中的时空特征提取网络，获取对应的时空特征序列，之后输入到初始感知模型中的感知网络，获取感知结果，然后再基于感知结果与训练数据集中的标注数据间的差异，对时空特征提取网络及感知网络进行修正，直至获取训练后的感知模型。由此，感知模型可以一次性对多个主体分别进行感知，提高了生成的感知模型在多主体场景下的效率和感知速度。

Description

感知模型的生成方法、装置、计算机设备及存储介质

技术领域

本公开涉及人工智能技术领域，尤其涉及计算机视觉、增强现实、虚拟现实、深度学习等技术领域，可应用于元宇宙等场景，具体涉及一种感知模型的生成方法、装置、计算机设备及存储介质。

背景技术

随着短视频、直播、在线教育等行业的不断兴起，在各种交互场景中，基于人体模型重建信息进行互动的功能需求越来越多，因此需要一种更能精准地对人体模型进行3D姿态和形态感知的方法。

发明内容

本公开旨在至少在一定程度上解决相关技术中的技术问题之一。

本公开第一方面实施例，提出了一种感知模型的生成方法，包括：

获取训练数据集，其中，所述训练数据集中包括多个图像序列及每个所述图像序列对应的3D姿态及形态标注数据；

对所述图像序列中的每个图像帧进行特征提取及分割，以获取每个所述图像帧对应的图像特征序列，其中所述图像特征序列中包括多个图像块的特征；

将每个所述图像特征序列，分别输入初始感知模型中的时空特征提取网络，以获取所述图像序列对应的时空特征序列；

将所述时空特征序列输入所述初始感知模型中的感知网络，以获取所述图像序列对应的感知结果；

基于所述感知结果与所述标注数据间的差异，对所述时空特征提取网络及所述感知网络进行修正，直至获取训练后的感知模型。

本公开第二方面实施例，提出了一种感知模型的生成装置，包括：

第一获取模块，用于获取训练数据集，其中，所述训练数据集中包括多个图像序列及每个所述图像序列对应的3D姿态及形态标注数据；

第二获取模块，用于对所述图像序列中的每个图像帧进行特征提取及分割，以获取每个所述图像帧对应的图像特征序列，其中所述图像特征序列中包括多个图像块的特征；

第三获取模块，用于将每个所述图像特征序列，分别输入初始感知模型中的时空特征提取网络，以获取所述图像序列对应的时空特征序列；

第四获取模块，用于将所述时空特征序列输入所述初始感知模型中的感知网络，以获取所述图像序列对应的感知结果；

第五获取模块，用于基于所述感知结果与所述标注数据间的差异，对所述时空特征提取网络及所述感知网络进行修正，直至获取训练后的感知模型。

本公开第三方面实施例提出了一种计算机设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如本公开第一方面实施例提出的感知模型的生成方法。

本公开第四方面实施例提出了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，实现如本公开第一方面实施例提出的感知模型的生成方法。

本公开第五方面实施例提出了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时，实现如本公开第一方面实施例提出的感知模型的生成方法。

本公开提供的感知模型的生成方法、装置、计算机设备及存储介质，存在如下有益效果：

本公开实施例中，首先获取训练数据集，对图像序列中的每个图像帧进行特征提取及分割，得到每个图像帧对应的图像特征序列，然后将每个图像特征序列分别输入初始感知模型中的时空特征提取网络，获取图像序列对应的时空特征序列，之后将时空特征序列输入到初始感知模型中的感知网络，获取图像序列对应的感知结果，然后再基于感知结果与训练数据集中的标注数据间的差异，对时空特征提取网络及感知网络进行修正，直至获取训练后的感知模型。由此，感知模型可以一次性对多个主体分别进行感知，提高了生成的感知模型在多主体场景下的效率和感知速度。

本公开附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本公开的实践了解到。

附图说明

本公开上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本公开一实施例所提供的一种感知模型的生成方法的流程示意图；

图2为本公开另一实施例所提供的一种感知模型的生成方法的流程示意图

图3为本公开一实施例所提供的一种3D姿态及形态感知方法的流程示意图；

图4为本公开一实施例所提供的一种感知模型的生成装置的结构示意图；

图5为本公开一实施例所提供的一种3D姿态及形态感知装置的结构示意图；

图6示出了适于用来实现本公开实施方式的示例性计算机设备的框图。

具体实施方式

下面详细描述本公开的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本公开，而不能理解为对本公开的限制。

本公开实施例涉及计算机视觉、深度学习、图像处理等人工智能技术领域。

人工智能(Artificial Intelligence)，英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。

深度学习是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。深度学习的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。

计算机视觉，指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。

图像处理(image processing)，通常指用计算机对图像进行分析，以达到所需结果的技术。又称影像处理。图像处理一般指数字图像处理。数字图像是指用工业相机、摄像机、扫描仪等设备经过拍摄得到的一个大的二维数组，该数组的元素称为像素，其值称为灰度值。图像处理技术一般包括图像压缩，增强和复原，匹配、描述和识别3个部分。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

本公开实施例中的感知模型的生成方法，可以由本公开实施例中的感知模型的生成装置执行，该装置可以配置到计算机设备中，本公开对此不做限定。其中，计算机设备可以为任一具有计算能力的设备，例如可以为手机、平板电脑、个人电脑、个人数字助理等具有各种操作系统、触摸屏和/或显示屏的硬件设备。本公开实施例以感知模型的生成装置被配置到感知模型的生成系统中为例。

下面参考附图描述本公开实施例的感知模型的生成方法、装置、计算机设备和存储介质。

图1为本公开一实施例所提供的一种感知模型的生成方法的流程示意图。

如图1所示，该感知模型的生成方法，可以包括：

步骤101，获取训练数据集，其中，训练数据集中包括多个图像序列及每个图像序列对应的3D姿态及形态标注数据。

其中，图像序列，是指在一段视频中有序的多张图像。

其中，3D姿态及形态标注数据，是指在图像序列中用于描述人体姿态和动作的信息。

在一些可能的实现形式中，感知模型生成系统在获取到训练数据集后，还可以对训练数据集进行预处理，比如，将图像序列中的图像进行不同尺度缩放、旋转角度、彩色空间的扰动增强等处理，生成新的图像序列，之后再将新生成的图像序列及对应的3D姿态及形态标注数据加入到训练数据集中，以实现对训练数据集的扩展，本公开对此不做限定。

步骤102，对图像序列中的每个图像帧进行特征提取及分割，以获取每个图像帧对应的图像特征序列，其中，图像特征序列中包括多个图像块的特征。

在一些可能的实现形式中，感知模型的生成系统可以对图像序列中的每个图像帧，首先利用基座网络(Backbone Network)进行特征提取得到该图像帧对应的深度特征Ft，及其维度为H*W*C，其中，H和W为图像分辨率，C为特征纬度(如256、512等)。然后将深度特征Ft在H*W的纬度上分成L＝B*B个图像块，每个图像块编码为纬度为D的特征，以获取每个图像帧对应的图像特征序列。其中，L的值可以是根据图像帧的分辨率而确定的值，或者可以是感知模型的生成系统中预置的固定值等等，纬度D可以通过对特征维度C进行压缩或放大来得到，本公开对此不做限定。

需要说明的是，在本公开中，通过将每个图像帧分割成多个图像块对应的图像特征序列，以对每个图像块的特征都可以进行时空特征提取及感知，从而使得图像序列为多人场景的图像时，可以识别到每个人的特征。

步骤103，将每个图像特征序列，分别输入初始感知模型中的时空特征提取网络，以获取图像序列对应的时空特征序列。

其中，初始感知模型，可以是现有的感知模型，也可以是通过对现有感知模型进行微调或迁移学习得到的模型等等，本公开对此不做限定。

其中，时空特征提取网络，可以包括时间特征提取网络和空间特征提取网络两部分。

在一些可能的实现形式中，可以首先将图像序列中每个时刻的图像帧对应的多个区域块作为一个patch，输入到初始感知模型中的空间特征提取网络，以将深度特征经过空间感知(Spatial Perception,SE)得到深度特征编码为L*D的空间融合特征。然后，通过将图像序列中各图像帧对应的空间融合特征作为一个patch，输入到初始感知模型中的时间特征提取网络，从而将所有图像帧对应的空间融合特征通过时序感知(TemporalPerception,TE)得到多个图像帧间的时空融合特征。之后可以保持SE和TE网络的参数不变，将SE和TE过程可进行2-6次的循环，以得到图像序列对应的时空特征序列，纬度为T*L*D，其中L＝B*B。

步骤104，将时空特征序列输入初始感知模型中的感知网络，以获取图像序列对应的感知结果。

其中，感知网络，可以包括关键点预测模块和形态预测模块，因此获取到的感知结果可以包括图像序列中代表每个主体的三维(3D)关键点和描述了每个主体的第二姿态及形态参数等等。

在一些可能的实现形式中，感知模型的生成系统基于图像序列的时空特征序列，可以通过初始感知模型中的感知网络对于每个图像帧上的每个区域块分别进行关键点预测和形态预测，利用关键点预测(Pose Detection,PD)模块直接回归图像序列中每个人体的3D关键点的坐标，以及利用形态预测(Shape Detection,SD)模块可以预测到SMPL(Skinned Multi-Person Linear)。

步骤105，基于感知结果与标注数据间的差异，对时空特征提取网络及感知网络进行修正，直至获取训练后的感知模型。

本公开实施例中，感知模型的生成系统可以基于感知结果与标注数据间的差异，确定修正梯度，从而基于该修正梯度对时空特征提取网络及感知网络对应的参数分别进行多次修正，以获取训练后的感知模型。

在一些可能的实现形式中，标注数据中可能包括2D关键点，此时感知模型的生成系统就需要将预测的SMPL参数投影到二维平面中得到2D关键点信息，然后再基于两者的差异对网络进行修正。

本实施例中，首先获取训练数据集，对训练数据集中的图像序列中的每个图像帧进行特征提取及分割，得到每个图像帧对应的图像特征序列，然后将每个图像特征序列分别输入初始感知模型中的时空特征提取网络，获取图像序列对应的时空特征序列，之后将时空特征序列输入到初始感知模型中的感知网络，获取图像序列对应的感知结果，然后再基于感知结果与训练数据集中的标注数据间的差异，对时空特征提取网络及感知网络进行修正，直至获取训练后的感知模型。由此，通过将图像序列中每个图像帧分为多个图像块，之后再进行模型训练，从而使得生成的感知模型可以一次性感知到多个主体分别对应的3D姿态及形态，提高了生成的感知模型在多主体场景下的效率和感知速度。

图2为本公开另一实施例所提供的一种感知模型的生成方法的流程示意图。

如图2所示，该感知模型的生成方法，可以包括：

步骤201，获取训练数据集，其中，训练数据集中包括多个图像序列及每个图像序列对应的3D姿态及形态标注数据。

上述步骤201的具体实现形式，可以参考本公开上述实施例，此处不再赘述。

步骤202，在任一图像序列中包含的图像数量大于第一数量，且任一图像序列中包含的图像数量与第一数量的第一差值大于第一阈值的情况下，将任一图像序列分为第一数量个子序列，其中，每两个子序列中包含的图像数量间的第二差值小于第二阈值。

步骤203，从每个子序列中抽取一张图像，以生成新的图像序列。

其中，第一数量，是指,预设的感知模型每次可同时处理的图像数量，比如5、10等等，本公开对此不做限定。

其中，第一阈值，可以是预设在感知模型的生成系统中的固定值，也可以是根据第一数量而变化的值，比如第一数量为5时，第一阈值可以为3、4或5，或者第一数量为10时，第一阈值可以为7、8、9或10等等，本公开对此不做限定。

其中，第二阈值，是指预设在感知模型的生成系统中，用于控制所有子序列中的图像数量尽可能相等的值，比如，第二阈值为0,1或者2等等，本公开对此不做限定。

举例来说，当第一数量为5，第一阈值为4，第二阈值为2时，且任一图像序列中包含的12张图像，由于第一差值为12-5＝7，7>4，则此时可以将上述图像序列分成5个子序列，并且每两个子序列中包含的图像数量间的第二差值小于2，则5个子序列中包含的图像数量可能分别为3、3、2、2、2。然后就可以分别从每个子序列中随机抽取一张图像，以生成新的图像序列。

本公开实施例中，在任一图像序列中包含的图像数量远大于感知模型每次可同时处理的图像数量时，通过将任一图像序列先尽量均分成多个图像子序列，之后再从每个图像子序列中抽取一张图像生成新的图像序列以进行处理，从而可以保证抽取的图像帧能够最大程度地反应整个图像序列中包含的主体，覆盖了主体在运动时的快慢动作变化而产生的偏差影响。

可选地，在任一图像序列中包含的图像数量大于第一数量，且任一图像序列中包含的图像数量与第一数量的第一差值小于或等于第一阈值的情况下，可以从任一图像序列中随机抽取第一数量张图像，以生成新的图像序列。由此，在任一图像序列中包含的图像数量比感知模型每次可同时处理的图像数量多有限张图像时，可以直接对任一图像序列直接抽取图像生成新的图像序列，从而即保证了新的图像序列为感知模型可处理的图像序列，又提高了图像提取的效率。

需要说明的是，由于图像序列中每两张连续的图像间的特征变化不大，因此为了使得抽取的图像具有代表性，可以抽取不完全连续的第一数量个图像作为新的图像序列。

以上述示例为例，当图像序列中包含的图像数量为7时，由于第一差值为7-5＝2，2<4,则可以从上述图像序列中随机抽取不完全连续的5张图像生成新的图像序列。或者，当图像序列中包含的图像数量为8，由于第一差值为8-5＝3,3<5，则也可以从该图像序列中随机抽取不完全连续的5张图像生成新的图像序列。

可选地，在任一图像序列中包含的图像数量大于第一数量的情况下，可以将任一图像序列分割为多个图像子序列，其中，分割后的每个图像子序列中包含的图像数量等于第一数量。

也就是说，当任一图像序列中包含的图像数量大于感知模型每次可同时处理的图像数量时，可以将该图像序列分割成多个包含第一数量个图像的图像序列。从而不仅使得分割后的图像序列可以被感知模型处理，且进一步地丰富了训练数据量，为进一步提高感知模型的鲁棒性提供了条件。

需要说明的是，若任一图像序列中包含的图像数量小于第一数量，那么可以对任一图像序列中的图像进行上采样，以得到感知模型可处理的图像序列。

步骤204，对图像序列中的每个图像帧进行特征提取及分割，以获取每个图像帧对应的图像特征序列，其中图像特征序列中包括多个图像块的特征。

步骤205，将每个图像特征序列，分别输入初始感知模型中的时空特征提取网络，以获取图像序列对应的时空特征序列。

步骤206，将时空特征序列输入初始感知模型中的感知网络，以获取图像序列对应的感知结果。

上述步骤204-206的具体实现形式，可以参考本公开上述实施例，此处不再赘述。

步骤207，确定标注数据中的目标块与感知结果中的预测块间的第一差异、及标注数据中的第一姿态及形态参数与感知结果中的第二姿态及形态参数间的第二差异。

其中，目标块，是指在3D姿态及形态标注数据中，3D姿态及形态数据关联的主体在图像中的区域块，该目标块可能为图像中的一个区域块，也可能为图像中的多个区域块。可选的，由于图像序列中可能包括多个主体，且多个主体间可能有重叠区域，因此本公开中，每个主体可以对应一个目标块，比如将主体中心所在块确定为其目标块等，本公开对此不做限定。

其中，预测块，是指通过感知网络预测得到的姿态及形态参数关联的主体在图像中的块，其可能为一个图像块，也可能为多个图像块。可选的，该预测块可能为感知网络预测的主体的中心所在的块。

其中，姿态及形态参数，可以为任意形式的可描述人体的身高、胸围、腰围、臀围等尺寸和形态、及所有身体关节的旋转状况的参数或向量，本公开对此不做限定。

在本公开实施例中，可以根据目标块与预测块间的距离确定第一差异，并将第一姿态及形态参数与第二姿态及形态参数中每个对应参数间的差的平均值，确定为第二差异。

步骤208，基于第一差异及第二差异，确定修正梯度。

本公开实施例中，可以对第一差异和第二差异进行(加权)求平均，以得到修正梯度。

可选地，也可以基于不同的权重对，分别确定时空特征提取网络及感知网络对应的修正梯度。比如，可以基于第一差异、第二差异及第一权重对，确定感知网络对应的第一修正梯度，然后基于第一差异、第二差异及第二权重对，确定时空特征提取网络对应的第二修正梯度。

其中，第一权重对中包含2个分别表示第一差异与第二差异对感知网络的影响权重值，其可以为预置在感知模型的生成系统中的。同样，第二权重对也包含2个分别表示第一差异与第二差异对特征提取网络的影响的权重值。

在本公开实施例中，通过基于不同的权重对，分别计算感知网络及时空特征提取网络对应的修正梯度，从而使得可以对感知网络及时空特征提取网络分别进行不同梯度的修正，为进一步提高感知模型的训练效率提供了条件。

步骤209，基于修正梯度对时空特征提取网络及感知网络分别进行修正，直至获取训练后的感知模型。

本公开实施例中，若时空特征提取网络及感知网络分别对应不同的修正梯度，那么在得到第一修正梯度和第二修正梯度后，可以基于第一修正梯度对感知网络的关键点预测模块和形态预测模块进行修正，以及基于第二修正梯度对时空提取网络中的时间特征提取网络和空间特征提取网络分别对应的参数，进行修正，直至获取训练后的感知模型。

本公开实施例中，通过基于标注数据中的目标块与感知结果中的预测块间的第一差异、及标注数据中的第一姿态及形态参数与感知结果中的第二姿态及形态参数间的第二差异，对感知模型进行修正训练，从而使得训练生成的感知模型不仅可以对单个主体的3D姿态及形态进行感知，在图像序列中包含多个主体的情况下，还可以对每个主体的3D姿态及形态进行进行感知，不仅提高了感知模型的鲁棒性，还扩展了感知模型的适用范围。

本实施例中，感知模型的生成系统首先获取训练数据集，然后在任一图像序列中包含的图像数量大于第一数量，且任一图像序列中包含的图像数量与第一数量的第一差值大于第一阈值的情况下，将任一图像序列分为第一数量个子序列，其中，每两个子序列中包含的图像数量间的第二差值小于第二阈值。之后从每个子序列中抽取一张图像，生成新的图像序列，然后再对图像序列中的每个图像帧进行特征提取及分割，获取到每个图像帧对应的图像特征序列，然后再将每个图像特征序列，分别输入初始感知模型中的时空特征提取网络，获取图像序列对应的时空特征序列，再将其输入初始感知模型中的感知网络，获取到图像序列对应的感知结果，之后再确定标注数据中的目标块与感知结果中的预测块间的第一差异、及标注数据中的第一姿态及形态参数与感知结果中的第二姿态及形态参数间的第二差异，基于第一差异及第二差异，确定修正梯度，对时空特征提取网络及感知网络分别进行修正，直至获取训练后的感知模型。由此，通过基于多维差异对感知模型进行修正训练，从而使得训练生成的感知模型不仅可以对单个主体的3D姿态及形态进行感知，在图像序列中包含多个主体的情况下，还可以对每个主体的3D姿态及形态进行进行感知，不仅提高了感知模型的鲁棒性，还扩展了感知模型的适用范围。

图3为本公开一实施例所提供的一种3D姿态及形态感知方法的流程示意图。

如图3所示，该3D姿态及形态感知方法，可以包括：

步骤301，获取待处理的图像序列。

步骤302，对图像序列中的每个图像帧进行特征提取及分割，以获取每个图像帧对应的图像特征序列，其中图像特征序列中包括多个图像块的特征。其中，上述步骤301及步骤302的具体实现过程，可以参照本公开其他实施例的详细描述，此处不再赘述。

步骤303，将每个图像特征序列，输入预设的感知模型，以获取图像序列中包含的主体的3D姿态及形态参数。

其中，预设的感知模型是利用本公开上述实施例的感知模型的生成方法生成的。

由于感知模型可处理的图像序列的尺寸有限，也就是说感知模型每次可同时处理的图像数量有限，因此，在获取到要处理的图像序列后，需要首先确定该图像序列的尺寸是否满足感知模型要求。若不满足感知模型要求，则需要先对要处理的图像序列进行处理，比如上采样、下采样处理等等，本公开对此不做限定。

可选地，在图像序列中包含的图像数量大于第一数量，且图像序列中包含的图像数量与第一数量的第一差值大于第一阈值的情况下，可以将图像序列分为第一数量个子序列，其中，每两个子序列中包含的图像数量间的第二差值小于第二阈值。然后从每个子序列中抽取一张图像，生成新的待处理的图像序列，再对该新的待处理的图像序列中的每个图像帧进行特征提取及分割。从而可以保证抽取的图像帧能够最大程度地反应整个图像序列中包含的主体，覆盖了主体在运动时的快慢动作变化而产生的偏差影响。

可选地，在任一图像序列中包含的图像数量大于第一数量的情况下，也可以将任一图像序列分割为多个图像子序列，其中，分割后的每个图像子序列中包含的图像数量等于第一数量，之后再将每个图像子序列中的每个图像帧进行特征提取及分割，再利用感知模型对每个图像子序列对应的图像特征序列进行处理，确定每个图像子序列中包含的主体的3D姿态及形态参数。从而不仅使得分割后的图像序列可以被感知模型处理，且进一步地丰富了训练数据量，为进一步提高感知模型的鲁棒性提供了条件。

可以理解的是，由于不同图像子序列中可能包括相同的图像帧，从而导致不同图像子序列对应的识别结果可能有重合。此时，将各个图像子序列分别包含的主体的3D姿态及形态参数进行融合，就可以得到待处理的图像序列中包含的主体的3D姿态及形态参数。

本实施例中，首先获取待处理的图像序列，在图像序列中包含的图像数量大于第一数量，且图像序列中包含的图像数量与第一数量的第一差值大于第一阈值的情况下，将图像序列分为第一数量个子序列，然后从每个子序列中抽取一张图像，以生成新的待处理的图像序列，之后对新的图像序列中的每个图像帧进行特征提取及分割，以获取每个图像帧对应的图像特征序列，然后再将每个图像特征序列，输入预设的感知模型，以获取图像序列中包含的主体的3D姿态及形态参数。由此，在对图像序列进行感知前，先将图像序列中的每个图像帧分为了多个图像块，从而使得感知模型可以通过一次性处理，感知到图像序列中包含的多个主体的3D姿态及形态参数，提高了多主体场景下的感知效率。

为了实现上述实施例，本公开还提出一种感知模型的生成装置。

图4为本公开实施例所提供的感知模型的生成装置的结构示意图。

如图4所示，该感知模型的生成装置400，包括：

第一获取模块401，用于获取训练数据集，其中，训练数据集中包括多个图像序列及每个图像序列对应的3D姿态及形态标注数据。

第二获取模块402，用于对图像序列中的每个图像帧进行特征提取及分割，以获取每个图像帧对应的图像特征序列，其中图像特征序列中包括多个图像块的特征。

第三获取模块403，用于将每个图像特征序列，分别输入初始感知模型中的时空特征提取网络，以获取图像序列对应的时空特征序列。

第四获取模块404，用于将时空特征序列输入初始感知模型中的感知网络，以获取图像序列对应的感知结果。

第五获取模块405，用于基于感知结果与标注数据间的差异，对时空特征提取网络及感知网络进行修正，直至获取训练后的感知模型。

可选地，上述第一获取模块402还包括：

第一分割单元，用于在任一图像序列中包含的图像数量大于第一数量，且任一图像序列中包含的图像数量与第一数量的第一差值大于第一阈值的情况下，将任一图像序列分为第一数量个子序列，其中，每两个子序列中包含的图像数量间的第二差值小于第二阈值。

第一生成单元，用于从每个子序列中抽取一张图像，以生成新的图像序列。

可选地，上述第一获取模块402还包括：

第二生成单元，用于在任一图像序列中包含的图像数量大于第一数量，且任一图像序列中包含的图像数量与第一数量的第一差值小于或于第一阈值的情况下，从任一图像序列中随机抽取第一数量张图像，以生成新的图像序列。或者，

第二分割单元，用于在任一图像序列中包含的图像数量大于第一数量的情况下，将任一图像序列分割为多个图像子序列，其中，分割后的每个图像子序列中包含的图像数量等于第一数量。

可选地，上述第五获取模块405，具体用于：

确定标注数据中的目标块与感知结果中的预测块间的第一差异、及标注数据中的第一姿态及形态参数与感知结果中的第二姿态及形态参数间的第二差异，

基于第一差异及第二差异，确定修正梯度。

基于修正梯度对时空特征提取网络及感知网络分别进行修正。

可选地，上述第五获取模块405，还可以用于：

基于第一差异、第二差异及第一权重对，确定感知网络对应的第一修正梯度。

基于第一差异、第二差异及第二权重对，确定时空特征提取网络对应的第二修正梯度。

需要说明的是，前述对感知模型的生成方法的解释说明也适用于本实施例的感知模型的生成装置，此处不再赘述。

本实施例中，首先获取训练数据集，对训练数据集中的图像序列中的每个图像帧进行特征提取及分割，得到每个图像帧对应的图像特征序列，然后将每个图像特征序列分别输入初始感知模型中的时空特征提取网络，获取图像序列对应的时空特征序列，之后将时空特征序列输入到初始感知模型中的感知网络，获取图像序列对应的感知结果，然后再基于感知结果与训练数据集中的标注数据间的差异，对时空特征提取网络及感知网络进行修正，直至获取训练后的感知模型。由此，生成的感知模型可以一次性感知到多个主体分别对应的3D姿态及形态，提高了生成的感知模型在多主体场景下的效率和感知速度。

图5为本公开实施例所提供的3D姿态及形态感知装置的结构示意图。

如图5所示，该3D姿态及形态感知装置500，包括：

第六获取模块501，用于获取待处理的图像序列。

第七获取模块502，用于对图像序列中的每个图像帧进行特征提取及分割，以获取每个图像帧对应的图像特征序列，其中图像特征序列中包括多个图像块的特征。

第八获取模块503，用于将每个图像特征序列，输入预设的感知模型，以获取图像序列中包含的主体的3D姿态及形态参数，其中，预设的感知模型为本公开上述实施例中生成的感知模型。

可选地，其中，第七获取模块，还包括：

在图像序列中包含的图像数量大于第一数量，且图像序列中包含的图像数量与第一数量的第一差值大于第一阈值的情况下，将图像序列分为第一数量个子序列，其中，每两个子序列中包含的图像数量间的第二差值小于第二阈值。

从每个子序列中抽取一张图像，以生成新的待处理的图像序列。

将新的待处理的图像序列中的每个图像帧进行特征提取及分割。

可选地，其中，第七获取模块，还包括：

在任一图像序列中包含的图像数量大于第一数量的情况下，将任一图像序列分割为多个图像子序列，其中，分割后的每个图像子序列中包含的图像数量等于第一数量；

将每个图像子序列中的每个图像帧进行特征提取及分割。

需要说明的是，前述对3D姿态及形态感知方法的解释说明也适用于本实施例的3D姿态及形态感知装置，此处不再赘述。

为了实现上述实施例，本公开还提出一种计算机设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时，实现如本公开前述实施例提出的感知模型的生成方法或3D姿态及形态感知方法。

为了实现上述实施例，本公开还提出一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，实现如本公开前述实施例提出的感知模型的生成方法或3D姿态及形态感知方法。

为了实现上述实施例，本公开还提出一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时，实现如本公开前述实施例提出的感知模型的生成方法或3D姿态及形态感知方法。

图6示出了适于用来实现本公开实施方式的示例性计算机设备的框图。图6显示的计算机设备601仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图6所示，计算机设备601以通用计算设备的形式表现。计算机设备601的组件可以包括但不限于：一个或者多个处理器或者处理单元602，系统存储器603，连接不同系统组件(包括系统存储器603和处理单元602)的总线604。

总线604表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture；以下简称：ISA)总线，微通道体系结构(Micro Channel Architecture；以下简称：MAC)总线，增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation；以下简称：VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection；以下简称：PCI)总线。

计算机设备601典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备601访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器603可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(Random Access Memory；以下简称：RAM)605和/或高速缓存存储器606。计算机设备601可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统607可以用于读写不可移动的、非易失性磁介质(图6未显示，通常称为“硬盘驱动器”)。尽管图6中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如：光盘只读存储器(Compact Disc ReadOnly Memory；以下简称：CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory；以下简称：DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线604相连。存储器603可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本公开各实施例的功能。

具有一组(至少一个)程序模块608的程序/实用工具609，可以存储在例如存储器603中，这样的程序模块608包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块608通常执行本公开所描述的实施例中的功能和/或方法。

计算机设备601也可以与一个或多个外部设备610(例如键盘、指向设备、显示器611等)通信，还可与一个或者多个使得用户能与该计算机设备601交互的设备通信，和/或与使得该计算机设备601能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口612进行。并且，计算机设备601还可以通过网络适配器613与一个或者多个网络(例如局域网(Local Area Network；以下简称：LAN)，广域网(Wide Area Network；以下简称：WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器613通过总线604与计算机设备601的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备601使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元602通过运行存储在系统存储器603中的程序，从而执行各种功能应用以及数据处理，例如实现前述实施例中提及的方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本公开的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本公开的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本公开的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序，然后将其存储在计算机存储器中。

应当理解，本公开的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本公开各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本公开的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本公开的限制，本领域的普通技术人员在本公开的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种感知模型的生成方法，包括：

2.如权利要求1所述的方法，其中，还包括：

在任一图像序列中包含的图像数量大于第一数量，且所述任一图像序列中包含的图像数量与所述第一数量的第一差值大于第一阈值的情况下，将所述任一图像序列分为所述第一数量个子序列，其中，每两个子序列中包含的图像数量间的第二差值小于第二阈值；

从每个所述子序列中抽取一张图像，以生成新的图像序列。

3.如权利要求1所述的方法，其中，还包括：

在任一图像序列中包含的图像数量大于第一数量，且所述任一图像序列中包含的图像数量与所述第一数量的第一差值小于或于第一阈值的情况下，从所述任一图像序列中随机抽取所述第一数量张图像，以生成新的图像序列；或者，

在任一图像序列中包含的图像数量大于第一数量的情况下，将所述任一图像序列分割为多个图像子序列，其中，分割后的每个图像子序列中包含的图像数量等于所述第一数量。

4.如权利要求1所述的方法，其中，所述基于所述感知结果与所述标注数据间的差异，对所述时空特征提取网络及所述感知网络进行修正，包括：

确定所述标注数据中的目标块与所述感知结果中的预测块间的第一差异、及所述标注数据中的第一姿态及形态参数与所述感知结果中的第二姿态及形态参数间的第二差异；

基于所述第一差异及所述第二差异，确定修正梯度；

基于所述修正梯度对所述时空特征提取网络及所述感知网络分别进行修正。

5.如权利要求4所述的方法，其中，所述基于所述第一差异及所述第二差异，确定修正梯度，包括：

基于所述第一差异、所述第二差异及第一权重对，确定所述感知网络对应的第一修正梯度；

基于所述第一差异、所述第二差异及第二权重对，确定所述时空特征提取网络对应的第二修正梯度。

6.一种3D姿态及形态感知方法，包括：

获取待处理的图像序列；

将每个所述图像特征序列，输入预设的感知模型，以获取所述图像序列中包含的主体的3D姿态及形态参数，其中，所述预设的感知模型为利用如权利要求1-5任一所述的方法生成的。

7.如权利要求6所述的方法，其中，所述对所述图像序列中的每个图像帧进行特征提取及分割，包括：

在所述图像序列中包含的图像数量大于第一数量，且所述图像序列中包含的图像数量与所述第一数量的第一差值大于第一阈值的情况下，将所述图像序列分为所述第一数量个子序列，其中，每两个子序列中包含的图像数量间的第二差值小于第二阈值；

从每个所述子序列中抽取一张图像，以生成新的待处理的图像序列；

将所述新的待处理的图像序列中的每个图像帧进行特征提取及分割。

8.如权利要求6所述的方法，其中，所述对所述图像序列中的每个图像帧进行特征提取及分割，包括：

在任一图像序列中包含的图像数量大于第一数量的情况下，将所述任一图像序列分割为多个图像子序列，其中，分割后的每个图像子序列中包含的图像数量等于所述第一数量；

将每个所述图像子序列中的每个图像帧进行特征提取及分割。

9.一种感知模型的生成装置，包括：

10.如权利要求9所述的装置，其中，所述第二获取模块，还包括：

第一分割单元，用于在任一图像序列中包含的图像数量大于第一数量，且所述任一图像序列中包含的图像数量与所述第一数量的第一差值大于第一阈值的情况下，将所述任一图像序列分为所述第一数量个子序列，其中，每两个子序列中包含的图像数量间的第二差值小于第二阈值；

第一生成单元，用于从每个所述子序列中抽取一张图像，以生成新的图像序列。

11.如权利要求9所述的装置，其中，所述第二获取模块，还包括：

第二生成单元，用于在任一图像序列中包含的图像数量大于第一数量，且所述任一图像序列中包含的图像数量与所述第一数量的第一差值小于或于第一阈值的情况下，从所述任一图像序列中随机抽取所述第一数量张图像，以生成新的图像序列；或者，

第二分割单元，用于在任一图像序列中包含的图像数量大于阈值的情况下，将所述任一图像序列分割为多个图像子序列，其中，分割后的每个图像子序列中包含的图像数量等于所述阈值。

12.如权利要求9所述的装置，其中，所述第五获取模块，还用于：

基于所述第一差异及所述第二差异，确定修正梯度；

13.如权利要求12所述的装置，其中，所述第五获取模块，还用于：

14.一种3D姿态及形态感知装置，包括：

第六获取模块，用于获取待处理的图像序列；

第七获取模块，用于对所述图像序列中的每个图像帧进行特征提取及分割，以获取每个所述图像帧对应的图像特征序列，其中所述图像特征序列中包括多个图像块的特征；

第八获取模块，用于将每个所述图像特征序列，输入预设的感知模型，以获取所述图像序列中包含的主体的3D姿态及形态参数，其中，所述预设的感知模型为利用如权利要求1-5任一所述的方法生成的。

15.如权利要求14所述的装置，其中，所述第七获取模块，还用于：

16.如权利要求14所述的装置，其中，所述第七获取模块，还用于：

17.一种计算机设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如权利要求1-5中任一所述的感知模型的生成方法。

18.一种计算机设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如权利要求6-8中任一所述的3D姿态及形态感知方法。

19.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1-5中任一所述的感知模型的生成方法。

20.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求6-8中任一所述的3D姿态及形态感知方法。

21.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时，实现如权利要求1-5中任一所述的感知模型的生成方法。

22.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时，实现如权利要求6-8中任一所述的3D姿态及形态感知方法。