CN114359965A

CN114359965A - 训练方法及训练装置

Info

Publication number: CN114359965A
Application number: CN202111680419.2A
Authority: CN
Inventors: 王瑶; 张珏; 程和平
Original assignee: Beijing Chaoweijing Biological Technology Co ltd; Peking University
Current assignee: Beijing Chaoweijing Biological Technology Co ltd; Peking University
Priority date: 2021-12-30
Filing date: 2021-12-30
Publication date: 2022-04-15

Abstract

本申请提供了一种训练方法及训练装置。所述方法包括：进行神经网络模型的训练时，在损失函数中增加时间约束项和空间约束项。其中，时间约束项用于约束所述运动生物的姿态中的关键点在所述图像序列中的相邻图像帧之间的位置，空间约束项用于限定所述运动生物的姿态中的关键点在同一图像帧中的位置。根据上述方法训练的神经网络模型在处理遮挡和模糊图像时能够确保具有较高的准确率，同时也能够确保识别结果在时域上的连续性。

Description

训练方法及训练装置

技术领域

本申请涉及人工智能技术领域，具体涉及一种训练方法及训练装置。

背景技术

姿态识别是指利用神经网络模型，对图像或视频中的运动生物的动作和/或关键点进行识别和/或提取。

现有技术中，在对记录运动生物的行为的图像序列中的关键点进行识别时，通常依赖于对单个图像或运动生物视频中的单个图像帧中的特征进行提取和匹配。通过这种单个识别的方式获得的识别结果在时域上不够平滑连续。另外；同时，在待识别的图像存在模糊或关键点被遮挡的情况下，图像中的关键点可能无法被正确识别，导致识别的准确率较低。

发明内容

有鉴于此，本申请实施例提供一种训练方法及训练装置，以提高神经网络模型在进行运动生物姿态识别时的准确度和识别效率。

第一方面，提供了一种训练方法，所述方法包括：获取训练样本，所述训练样本为记录运动生物的行为的图像序列；将所述训练样本输入神经网络模型，得到所述运动生物的姿态的识别结果；根据所述运动生物的姿态的识别结果，利用损失函数，对所述神经网络模型进行训练；其中，所述损失函数包括时间约束项和空间约束项，所述时间约束项用于约束所述运动生物的姿态中的关键点在所述图像序列中的相邻图像帧之间的位置，所述空间约束项用于限定所述运动生物的姿态中的关键点在同一图像帧中的位置。

可选地，所述训练方法还包括：根据利用跟踪方法获取的关键点的位置与所述识别结果中关键点的位置的误差，确定所述时间约束项。

可选地，所述根据利用跟踪方法获取的关键点的位置与所述识别结果中关键点的位置的误差，确定所述时间约束项，包括：将所述训练样本中的m个图像中的第一个图像帧作为初始帧，利用所述初始帧的识别结果进行前向跟踪，得到第一前向跟踪结果，所述第一前向跟踪结果包括第m个图像帧中的关键点的跟踪位置；确定所述第一前向跟踪结果与第m个图像帧的识别结果之间的第一差值；将所述m个图像中的第m个图像帧作为终止帧，利用所述终止帧的识别结果进行后向跟踪，得到第一后向跟踪结果，所述第一后向跟踪结果包括第一个图像帧中的关键点的跟踪位置；确定所述第一后向跟踪结果与所述第一个图像帧的识别结果之间的第二差值；当所述第一差值和所述第二差值均小于或等于预设阈值时，确定所述时间约束项为0；当所述第一差值和/或所述第二差值大于所述预设阈值时，根据所述第一前向跟踪结果和/或所述第一后向跟踪结果确定所述时间约束项；其中，m为大于或等于2的正整数。

可选地，所述根据所述第一前向跟踪结果和/或所述第一后向跟踪结果确定所述时间约束项，包括：利用所述第一前向跟踪结果进行后向跟踪，得到第二后向跟踪结果；将所述第二后向跟踪结果与所述第一个图像帧的识别结果之间的差值确定为所述时间约束项；或，利用所述第一后向跟踪结果进行前向跟踪，得到第二前向跟踪结果；将所述第二前向跟踪结果与所述第m个图像帧的识别结果之间的差值确定为所述时间约束项。

可选地，在所述对所述神经网络模型进行训练之前，所述训练方法还包括：根据所述识别结果中的多个关键点的位置，确定所述多个关键点的位置之间的差值；根据所述差值，确定所述空间约束项。

可选地，所述根据所述识别结果中的多个关键点的位置，确定所述多个关键点的位置之间的差值，包括：确定所述训练样本中的同一个图像中的两个关键点之间的距离；当所述距离在预设范围内时，确定所述空间约束项为0；当所述距离不在所述预设范围内时，根据所述距离确定所述空间约束项。

可选地，所述根据所述距离确定所述空间约束项，包括：确定所述空间约束项为e^d，其中，d表示所述距离。

可选地，所述预设范围是根据所述距离的均值和方差确定的。

可选地，所述损失函数还包括误差约束项，所述误差约束项用于约束所述运动生物的姿态中的关键点在所述识别结果和标注结果中的误差。

可选地，所述误差损失项为均方误差损失项。

可选地，所述利用损失函数，对所述神经网络模型进行训练，包括：

根据所述损失函数，使用梯度下降法对所述神经网络模型进行训练。

可选地，所述神经网络模型包括HRNet网络。

第二方面，提供一种训练装置，所述训练装置包括：获取模块，用于获取训练样本，所述训练样本为记录运动生物的行为的图像序列；输入模块，用于将所述训练样本输入神经网络模型，得到所述运动生物的姿态的识别结果；训练模块，用于根据所述运动生物的姿态的识别结果，利用损失函数，对所述神经网络模型进行训练；其中，所述损失函数包括时间约束项和空间约束项，所述时间约束项用于约束所述运动生物的姿态中的关键点在所述图像序列中的相邻图像帧之间的位置，所述空间约束项用于限定所述运动生物的姿态中的多个关键点在同一图像帧中的相对位置。

可选地，在所述对所述神经网络模型进行训练之前，所述训练装置还包括：第一确定模块，用于根据利用跟踪方法获取的关键点的位置与所述识别结果中关键点的位置的误差，确定所述时间约束项。

可选地，所述第一确定模块用于：将所述训练样本中的m个图像中的第一个图像帧作为初始帧，利用所述初始帧的识别结果进行前向跟踪，得到第一前向跟踪结果，所述第一前向跟踪结果包括第m个图像帧中的关键点的跟踪位置；确定所述第一前向跟踪结果与第m个图像帧的识别结果之间的第一差值；将所述m个图像中的第m个图像帧作为终止帧，利用所述终止帧的识别结果进行后向跟踪，得到第一后向跟踪结果，所述第一后向跟踪结果包括第一个图像帧中的关键点的跟踪位置；确定所述第一后向跟踪结果与所述第一个图像帧的识别结果之间的第二差值；当所述第一差值和所述第二差值均小于或等于预设阈值时，确定所述时间约束项为0；当所述第一差值和/或所述第二差值大于所述预设阈值时，根据所述第一前向跟踪结果和/或所述第一后向跟踪结果确定所述时间约束项；其中，m为大于或等于2的正整数。

可选地，所述训练装置还包括：第二确定模块，用于根据所述识别结果中的多个关键点的位置，确定所述多个关键点的位置之间的差值；根据所述差值，确定所述空间约束项。

可选地，所述第二确定模块用于：确定所述训练样本中的同一个图像中的任意两个关键点之间的距离；当所述距离在预设范围内时，确定所述空间约束项为0；当所述距离不在所述预设范围内时，根据所述距离确定所述空间约束项。

可选地，所述第二确定模块用于：确定所述空间约束项为e^d，其中，d表示所述距离。

可选地，所述误差损失项为均方误差损失项。

可选地，所述训练模块用于：根据所述损失函数，使用梯度下降法对所述神经网络模型进行训练。

可选地，所述神经网络模型包括HRNet网络。

本申请通过在神经网络模型的训练过程中引入时间和空间约束，使得所述神经网络模型在处理遮挡和模糊图像时能够确保具有较高的准确率，同时也能够确保识别结果在时域上的连续性。

附图说明

图1为本申请一实施例提供的训练方法的示意性流程图。

图2为本申请一实施例提供的时间约束项的确定方法的示意性流程图。

图3为本申请一实施例提供的空间约束项的确定方法的示意性流程图。

图4为本申请一实施例提供的误差约束项的确定方法的示意性流程图。

图5为本申请一实施例提供的训练装置的示意性框图。

图6为本申请另一实施例提供的训练装置的示意性框图。

图7为本申请实施例的应用场景的示意性框图。

具体实施方式

本申请实施例中的方法及装置可以应用于对各种基于图像序列中的运动生物的姿态识别的场景。该图像序列可以为视频中的多个图像帧。多个图像帧可以为视频中连续的多个图像帧。图像序列也可以是摄像机等图像采集设备采集的动物的多张图像。该运动生物可以是动物。该动物例如可以为啮齿类动物，如小鼠等。

为了便于理解本申请实施例，首先以动物的姿态识别为例，对本申请的背景进行详细的举例说明。

生物神经元的行为与动物的活动息息相关，动物的姿态变化通常会引起神经元的相应变化。因此，对特定行为下由神经元构成的复杂的网络的连接和交互方式的探索对神经科学和医学领域是非常重要的。本领域一般采用定量分析的方法，即通过获取动物的姿态信息及神经元的行为，确定其对应关系。

获取动物神经元的行为例如可以利用射线扫描以及微型化多光子显微镜等方法获取。

获取动物的姿态信息的方法有多种。例如，可以通过对图像序列中的关键点进行人工标注，以获取动物的姿态信息。但是，面对海量的数据，人工处理的效率较低且容易出错，无法保证得到的姿态信息的准确性。

又例如，还可以在动物身体的关键点处设置标记物(例如位移或加速度传感器)，根据标记物位置等信息的变化确定动物的姿态变化。但是，对于啮齿类动物来说，由于其体型较小，设置标记物会干扰其自然行为，从而导致采集到的数据的准确性降低。

再例如，还可以利用深度相机等图像采集装置对空间中的动物进行定位，以获取其姿态信息。但是，该方法对成像条件以及场景变化较为敏感，并不适用于所有场合。

随着人工智能领域的发展，基于神经网络的动物姿态识别方法正逐步取代传统技术。但是，目前的神经网络模型在训练时通常不会考虑图像序列中运动生物的关键点随时间的运动规律、和/或同一图像帧上不同关键点之间的联系。这些神经网络模型在姿态识别过程中具有以下问题：

在识别图像序列中的动物姿态时，神经网络模型通常是基于每一帧图像本身进行识别的。例如，待识别图像序列按照时间顺序包括第一帧图像和第二帧图像。神经网络模型根据第一帧的图像对第一帧图像中的动物姿态进行识别，得到第一帧图像对应的第一姿态识别结果。根据第二帧的图像对第二帧图像中的动物姿态进行识别，得到第二帧图像对应的第二姿态识别结果。采用上述直接利用当前帧图像对动物姿态进行识别的方法，得到的识别结果在时域上不够平滑。此外，当采集的图像序列中的图像帧存在模糊或被遮挡的情况时，以啮齿类动物为例，小鼠的尾巴发生卷曲或被遮挡时，神经网络模型输出的关键点位置信息的准确性较低。

此外，现有的神经网络模型通常是基于识别结果与人工标注结果之间的误差来构造损失函数，利用反向传播算法进行训练的。这种神经网络模型在训练时并不会考虑关键点在时域上的连续变化以及各个关键点在空间上的位置关系的影响，从而导致在执行运动生物姿态识别时会出现准确率较低的问题。另一方面，利用上述识别结果与人工标注结果的误差构造损失函数对神经网络模型进行训练，通常会使初始训练过程较慢。

有鉴于上述问题，本申请实施例提供了一种训练方法及训练装置。本申请实施例提供的方法通过在神经网络模型的训练过程中引入时间约束和空间约束，使得所述神经网络模型在处理遮挡和模糊图像时能够具有较高的准确率，同时有效抑制了神经网络模型的识别结果在时域上的抖动现象。

下面结合图1-图4，对本申请实施例提供的训练方法进行详细介绍。图1是本申请实施例提供的训练方法的示意性流程图。图1所示的训练方法可包括步骤S11-S13。

步骤S11，获取训练样本。

在本申请的一个实施例中，训练样本可包括记录运动生物行为的图像序列以及标记结果。可以理解，标记结果可包括预设数目个运动生物身体关键点的位置信息。例如，关键点可以是身体各关节点和关键部位。以动物为例，该关键点可以是动物四肢上的关节点以及尾巴、眼睛、鼻子、耳朵等。该位置信息可以为关键点的坐标信息。

本申请实施例对预先标注的结果的获取方式不做限定。例如，可以使用人工标注的方法对图像序列中的图像帧做逐帧标注。作为可能的实现方式，也可使用其他置信度较高的方法进行标注。

获取训练样本的方式可以有很多种，本申请实施例对此也不做限定。例如，作为一种实现方式，可以通过图像获取设备(如摄像机、摄像头、医疗影像设备、激光雷达等)直接获取的图像序列，该图像序列可包括按时间顺序排列的多张运动生物的图像。又例如，可以从服务器(例如本地服务器或云服务器等)获取训练样本。或者，还可以在网络上或其他内容平台上获取训练样本，例如可以使用MSCOCO数据集、MPII数据集以及POSETTRACK数据集等开源的训练数据集等；或者，还可以是预先存储在本地的图像序列。

步骤S12，将前述步骤S11中获取的训练样本输入神经网络模型，得到运动生物姿态的识别结果。

本申请实施例对神经网络模型不做具体限定，任何能够实现本申请所述姿态识别的神经网络模型均可。例如，神经网络模型可以是VGG、ResNet、HRNet等2D卷积神经网络。可选地，HRNet(高分辨率网络HighResolution Network)在进行特征提取时能够全程保持高分辨率，并且在特征提取过程中能够进行不同分辨率特征的较差融合。尤其适合应用在语义分割、人体姿态、图像分类、面部标志物检测、通用目标识别等场景。

其中，识别结果可以包括由神经网络模型识别的预设数目个运动生物身体关键点的位置信息(也可以简称为识别位置)。

步骤S13，根据步骤S12中的识别结果，利用损失函数，对神经网络模型进行训练。

在一些实施例中，损失函数可包括时间约束项L_temporal和/或空间约束项L_spatical。

下面分别结合附图2-3分别对各约束项的确定方法做以详细的描述。

参阅图2，图2示出的是一种时间约束项的确定方法。

时间约束项L_temporal可用于约束运动生物的姿态中的关键点在图像序列中的相邻图像帧之间的位置。在一些实施例中，时间约束项L_temporal可以根据利用跟踪方法获取的关键点的位置信息与识别结果中关键节点的位置信息的误差来确定。

本申请实施例提供的训练方法中，跟踪方法可以为无监督的跟踪方法。本申请实施例对跟踪方法不做具体限定。该跟踪方法例如可以为利用回归网络的目标跟踪算法、对象跟踪算法、光流法。光流法例如可以为Lucas-Kanade光流法等。

图2所示的方法可包括步骤S1311-S1316。

步骤S1311，将所述训练样本中的m个图像中的第一个图像帧作为初始帧，利用所述初始帧的识别结果进行前向跟踪，得到第一前向跟踪结果，所述第一前向跟踪结果包括第m个图像帧中的关键点的跟踪位置。其中，m为大于或等于2的正整数。

可选地，在步骤S1311之前，图2所示的方法还可以包括：从训练样本中选择m个图像。

所述m个图像为训练样本中的任意m个图像。该m个图像可以为训练样本中的连续的m个图像。可以理解的是，该m个图像也可以为训练样本中的所有图像。

步骤S1312，确定所述第一前向跟踪结果与第m个图像帧的识别结果之间的第一差值。换句话说，该第一差值可以为第m个图像帧中的同一个关键点的跟踪位置与识别位置之间的差值。

为方便描述，下文将将m个图像构成的集合记为I_1,i(i＝1,2,…,m)，将该集合I_1,i的识别结果记为

其中，ω为每个图像帧中的关键点的个数。

本申请实施例可以将m个图像中的第一帧作为初始帧，利用该初始帧的识别结果

进行前向跟踪，得到第一前向跟踪结果

确定第一前向跟踪结果和集合I_1,i中的第m帧的识别结果

之间的差值F₁为：

步骤S1313，将所述m个图像中的第m个图像帧作为终止帧，利用所述终止帧的识别结果进行后向跟踪，得到第一后向跟踪结果，所述第一后向跟踪结果包括第一个图像帧中的关键点的跟踪位置。可以理解的是，第m个图像也可以称为m个图像中的最后一个图像帧。

步骤S1314，确定所述第一后向跟踪结果与所述第一个图像帧的识别结果之间的第二差值。换句话说，该第二差值可以为第一个图像帧中的同一个关键点的跟踪位置与识别位置之间的差值。

本申请实施例可以将m个图像中的最后一帧作为终止帧，利用该终止帧的识别结果

进行后向跟踪，得到第一后向跟踪结果

确定第一后向跟踪结果和集合I_1,i中的第一帧的识别结果

之间的差值F₂为：

在步骤S1315，当所述第一差值和所述第二差值均小于或等于预设阈值时，确定所述时间约束项为0。

在步骤S1316，当所述第一差值和/或所述第二差值大于所述预设阈值时，根据所述第一前向跟踪结果和/或所述第一后向跟踪结果确定所述时间约束项。

该预设阈值与生物的运动特性相关。需要说明的是，相比于神经网络模型的预测结果，利用跟踪方法得到的跟踪结果能够确保同一个关键点跟踪位置在时域上平滑变化。因此，当差值(如第一差值或第二差值)小于预设阈值时，表示识别结果接近跟踪结果，神经网络模型的识别结果在时域上比较平滑，此时可以不设置时间约束项。而当差值大于预设阈值时，表示识别结果与跟踪结果相差较大。也就是说，识别结果在时域上较为抖动。此时可以通过设置时间约束项对神经网络模型进行训练，以使神经网络模型输出的识别结果更加平滑。

本申请实施例对确定所述时间约束项的方式不做具体限定。例如，可以将第一差值作为时间约束项。又例如，可以将第二差值作为时间约束项。再例如，可以对第一前向跟踪结果进行后向跟踪，得到第二后向跟踪结果；根据第二后向跟踪结果与第一个图像帧的识别结果之间的差值，确定时间约束项。再例如，可以对第一后向跟踪结果进行前向跟踪，得到第二前向跟踪结果；根据第二前向跟踪结果与第一个图像帧的识别结果之间的差值，确定时间约束项。

下面结合具体的示例，对确定时间约束项的方式进行详细描述。

例如，可以将m个图像中的第一帧作为初始帧

利用该初始帧的识别结果

进行前向跟踪，得到第一前向跟踪结果

再以第一前向跟踪结果

作为终止帧，进行后向跟踪，确定第二后向跟踪结果

确定时间约束项为：

又例如，可以将m个图像中的最后一帧作为终止帧

利用该终止帧的识别结果

进行后向跟踪，得到第一后向跟踪结果

再以第一后向跟踪结果

作为初始帧，进行前向跟踪，确定第二前向跟踪结果

确定时间约束项为：

本申请实施例可以根据预设阈值E₁确定时间约束项为：

参阅图3，图3示出的是一种空间约束项的确定方法。

空间约束项L_spatical可用于限定运动生物的姿态中的关键点在同一图像帧中的位置。在一些实施例中，空间约束项L_spatical可根据识别结果中的多个关键点的位置之间的差值来确定。

本申请一实施例提供的确定空间约束项L_spatical的方法可包括步骤S1321-S1322。

步骤S1321，确定所述训练样本中的同一个图像中的两个关键点之间的距离。

该两个关键点之间的距离可以是同一个图像中所有关键点中任意两个关键点之间的距离。也可以是同一图像中部分关键点中的任意两个关键点之间的距离。

举例说明，假设图像中包括关键点1、关键点2、关键点3和关键点4。两个关键点之间的距离包括关键点1分别与其他三个关键点之间的距离。或者两个关键点之间的距离可以是关键点1与其他任一关键点之间的距离。再或者，两个关键点之间距离可以是每个关键点分别与其他三个关键点之间的距离。

可选地，在步骤S1321之前，图3所示的方法还可以包括：从训练样本中选择p个图像。

所述p个图像为训练样本中的任意p个图像。该p个图像可以为训练样本中的连续的p个图像。可以理解的是，该p个图像也可以为训练样本中的所有图像。其中，p为大于或等于2的正整数。

为方便描述，下文将将m个图像构成的集合记为I_2,j(j＝1,2,…,p)，将该集合I_2,j的识别结果记为

其中，ω为每个图像帧中的关键点的个数。

本申请实施例中，所述确定训练样本中的同一个图像中的两个关键点之间的距离可以是p个图像中同一图像的两个关键点之间的距离。

步骤S1322，当所述距离在预设范围内时，确定所述空间约束项为0。当所述距离不在所述预设范围内时，根据所述距离确定所述空间约束项。

该预设范围与生物的运动特性相关。以小鼠为例，若两个关键点分别为小鼠的一个前爪和该前爪所在的前肢与小鼠身体连接的关节点，两个关键点之间的距离为前爪与关节点之间的距离。当小鼠的前肢伸直时，前爪与关节点之间的距离最长，假设该长度为a。前爪与关节点之间的最短距离为0。根据小鼠的运动特性，该预设范围可以设置为[0,a]。因此，当该两个关键点的距离小于或等于a时，则可以认为该识别结果的误差较小。而当识别结果中该两个关键的距离大于a时，可以认为该识别结果的准确度较低，此时可以通过设置空间约束项对神经网络模型进行训练，使神经网络模型输出的识别结果更加准确。

下面结合具体的示例，对确定空间约束项的方式进行详细描述。

例如，可以计算集合I_2,j的识别结果

中的两个关键点之间的距离d。

当距离d在预设范围内时，确定空间约束项为0。当距离d超出预设范围时，确定空间约束项为e^d。

可选地，预设范围可以根据距离d的分布规律确定。例如，当距离d符合均值为μ和方差为σ²的高斯分布时，可以选择不同的置信度来确定预设范围，例如可以为{μ±3σ}。

本申请实施例可以根据上述预设范围，确定空间约束项为：

需要说明的是，上述步骤S1321-S1323提供的确定空间约束项L_spatical的方法仅为示例，也可通过其他方式来确定。例如，也可以基于识别结果中两两关键点的距离与对应的标注结果中两两关键点的距离的误差来确定空间约束项，本申请对此不作限定。

在一些实施例中，损失函数还可以包括误差约束项L_MSE。在一些实施例中，误差约束项L_MSE可以根据训练样本的识别结果与标注结果中同一关键点的位置信息的误差确定。参阅图4，以均方误差为例，确定误差约束项可包括步骤S1331-S1333。

步骤S1331，从由步骤S11获取的训练样本中选择n个图像构成样本集I_3,k(k＝1,2,…,n)，其中n为大于或等于1的正整数。

所述n个图像为训练样本中的任意n个图像。该n个图像可以为训练样本中的连续的n个图像。可以理解的是，该n个图像也可以为训练样本中的所有图像。

步骤S1332，确定样本集I_3,k的识别结果

以及标注结果

步骤S1333，计算前述识别结果

和标注结果

的均方误差，确定误差损失项为：

对于误差损失项来说，除了均方误差损失，还可采用本领域常用的交叉熵损失、0-1损失、绝对值损失等。上述步骤S1331-S1333所示的方法仅为示例，并不具有对本申请保护范围的限定作用。

在一些实施例中，还可将前述误差约束项L_MSE、时间约束项L_temporal以及空间约束项L_spatical加权求和来确定损失函数。即，损失函数L＝L_MSE+aL_temporal+bL_spatical，其中，a和b为超参数，其取值为大于或等于0。

在一些实施例中，前述训练方法还包括利用损失函数，对神经网络模型进行训练，得到训练后的神经网络模型。

神经网络模型训练的方式可以有很多种，本申请实施例对此不作限定。例如，可以采用梯度下降算法根据前述损失函数对神经网络模型的参数进行更新，以使神经网络模型收敛，得到训练后的神经网络模型。

下面结合图5详细描述本申请提供的训练装置的实施例。应理解，装置实施例与前述方法实施例的描述相互对应。因此，未详细描述的部分可参见前述方法实施例。

图5是本申请一个实施例提供的训练装置50的示意性框图。应理解，图5示出的装置50仅是示例，本发明实施例的装置50还可包括其他模块或单元。

应理解，装置50能够执行图1-图4的方法中的各个步骤，为了避免重复，此处不再赘述。

作为一种可能的实现方式，所述装置包括：

获取模块51，用于获取训练样本。

其中，训练样本及其获取方式可与前述方法的步骤S11一致，此处不再赘述。

输入模块52，将所述训练样本输入神经网络模型，得到所述运动生物的姿态的识别结果。

训练模块53，用于根据识别结果，利用损失函数，对神经网络模型进行训练。

可选地，所述误差损失项为均方误差损失项。

可选地，所述神经网络模型包括HRNet网络。

可选地，所述损失函数包括时间约束项L_temporal、空间约束项L_spatical以及误差约束项L_MSE中的至少一种。其中，时间约束项L_temporal、空间约束项L_spatical以及误差约束项L_MSE可以是根据前述图2-图4所示的方法确定的。

可选地，神经网络模型训练的方式可以有很多种，本申请实施例对此不作限定。例如，可以采用梯度下降算法根据前述损失函数对神经网络模型的参数进行更新，以使神经网络模型收敛，得到训练后的神经网络模型。

应理解，这里的训练神经网络模型的装置50以功能模块的形式体现。这里的术语“模块”可以通过软件和/或硬件形式实现，对此不作具体限定。例如，“模块”可以是实现上述功能的软件程序、硬件电路或二者结合。所述硬件电路可能包括应用特有集成电路(application specific integrated circuit，ASIC)、电子电路、用于执行一个或多个软件或固件程序的处理器(例如共享处理器、专有处理器或组处理器等)和存储器、合并逻辑电路和/或其它支持所描述的功能的合适组件。

作为一个示例，本发明实施例提供的训练神经网络模型的装置50可以是处理器或芯片，以用于执行本发明实施例所述的方法。

图6是本申请另一实施例提供的训练装置60的示意性框图。图6所示的装置60包括包括存储器61、处理器62、通信接口63以及总线64。其中，存储器61、处理器62、通信接口63通过总线64实现彼此之间的通信连接。

存储器61可以是只读存储器(read only memory，ROM)，静态存储设备，动态存储设备或者随机存取存储器(random access memory，RAM)。存储器61可以存储程序，当存储器61中存储的程序被处理器62执行时，处理器62用于执行本发明实施例提供的训练方法的各个步骤，例如，可以执行图1-图4所示实施例的各个步骤。

处理器62可以采用通用的中央处理器(central processing unit，CPU)，微处理器，应用专用集成电路(application specific integrated circuit，ASIC)，或者一个或多个集成电路，用于执行相关程序，以实现本发明方法实施例的训练方法。

处理器62还可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，本发明实施例提供的训练方法的各个步骤可以通过处理器62中的硬件的集成逻辑电路或者软件形式的指令完成。

上述处理器62还可以是通用处理器、数字信号处理器(digital signalprocessing，DSP)、专用集成电路(ASIC)、现成可编程门阵列(field programmable gatearray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器61，处理器62读取存储器61中的信息，结合其硬件完成本发明实施例中姿态识别的装置包括的单元所需执行的功能，或者，执行本发明方法实施例的训练方法。例如，可以执行图1-图4所示实施例的各个步骤/功能。

通信接口63可以使用但不限于收发器一类的收发装置，来实现装置60与其他设备或通信网络之间的通信。

总线64可以包括在装置60各个部件(例如，存储器61、处理器62、通信接口63)之间传送信息的通路。

应理解，本发明实施例所示的装置60可以是处理器或芯片，以用于执行本发明实施例所述的方法。

应理解，本发明实施例中的处理器可以为中央处理单元(central processingunit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(digital signalprocessor，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现成可编程门阵列(field programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

下面结合图7的应用场景，对本申请实施例的具体应用进行介绍。需要说明的是，下述关于图7的描述仅为示例而非限定，本申请实施例中的方法并不限于此，也可以应用于其他姿态识别的场景。

图7中的应用场景可以包括图像获取装置71及图像处理装置72。

其中，图像获取装置71可用于获取运动生物的图像序列。图像处理装置72可以集成在电子设备中，该电子设备可以是服务器也可以是终端等设备，本申请实施例对此不作限定。例如，服务器可以是独立的物理服务器，也可是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云计算、云存储、云通信以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以使智能手机、平板电脑、计算机以及智能物联网设备等。终端以及服务器可以通过有线或无线通信方式进行直接或间接的连接，本申请对此不作限制。

图像处理装置72中可以部署有神经网络模型，可用于在利用上述图像获取装置71获取的图像序列后，采用神经网络模型对图像进行识别，得到待处理图像中的关键点的位置信息。其中，关键点的位置信息可包括例如运动生物身体关节、躯干或五官的位置坐标信息等。

上述电子设备还可以利用图像获取装置71获取训练样本，根据训练样本的识别结果以及人为标注的结果，利用损失函数对神经网络模型进行训练。图像处理装置72还可以通过训练后的神经网络模型对待处理图像进行识别，进而达到精准识别图像的目的。

上文描述的实施例仅是本申请一部分实施例，而不是全部的实施例。上述实施例的描述顺序不作为对实施例优选顺序的限定。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

应理解，在本申请实施例中，“与A相应的B”表示B与A相关联，根据A可以确定B。但还应理解，根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其它信息确定B。

应理解，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber Line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够读取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，数字通用光盘(digital video disc，DVD))或者半导体介质(例如，固态硬盘(solid state disk，SSD))等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种训练方法，其特征在于，包括：

获取训练样本，所述训练样本为记录运动生物的行为的图像序列；

将所述训练样本输入神经网络模型，得到所述运动生物的姿态的识别结果；

根据所述运动生物的姿态的识别结果，利用损失函数，对所述神经网络模型进行训练；

其中，所述损失函数包括时间约束项和空间约束项，所述时间约束项用于约束所述运动生物的姿态中的关键点在所述图像序列中的相邻图像帧之间的位置，所述空间约束项用于限定所述运动生物的姿态中的关键点在同一图像帧中的位置。

2.根据权利要求1所述的训练方法，其特征在于，在所述对所述神经网络模型进行训练之前，所述训练方法还包括：

根据利用跟踪方法获取的关键点的位置与所述识别结果中关键点的位置的误差，确定所述时间约束项。

3.根据权利要求2所述的训练方法，其特征在于，所述根据利用跟踪方法获取的关键点的位置与所述识别结果中关键点的位置的误差，确定所述时间约束项，包括：

将所述训练样本中的m个图像中的第一个图像帧作为初始帧，利用所述初始帧的识别结果进行前向跟踪，得到第一前向跟踪结果，所述第一前向跟踪结果包括第m个图像帧中的关键点的跟踪位置；

确定所述第一前向跟踪结果与第m个图像帧的识别结果之间的第一差值；

将所述m个图像中的第m个图像帧作为终止帧，利用所述终止帧的识别结果进行后向跟踪，得到第一后向跟踪结果，所述第一后向跟踪结果包括第一个图像帧中的关键点的跟踪位置；

确定所述第一后向跟踪结果与所述第一个图像帧的识别结果之间的第二差值；

当所述第一差值和所述第二差值均小于或等于预设阈值时，确定所述时间约束项为0；

当所述第一差值和/或所述第二差值大于所述预设阈值时，根据所述第一前向跟踪结果和/或所述第一后向跟踪结果确定所述时间约束项；

其中，m为大于或等于2的正整数。

4.根据权利要求3所述的训练方法，其特征在于，所述根据所述第一前向跟踪结果和/或所述第一后向跟踪结果确定所述时间约束项，包括：

利用所述第一前向跟踪结果进行后向跟踪，得到第二后向跟踪结果；

将所述第二后向跟踪结果与所述第一个图像帧的识别结果之间的差值确定为所述时间约束项；或，

利用所述第一后向跟踪结果进行前向跟踪，得到第二前向跟踪结果；

将所述第二前向跟踪结果与所述第m个图像帧的识别结果之间的差值确定为所述时间约束项。

5.根据权利要求1所述的训练方法，其特征在于，在所述对所述神经网络模型进行训练之前，所述训练方法还包括：

根据所述识别结果中的多个关键点的位置，确定所述多个关键点的位置之间的差值；

根据所述差值，确定所述空间约束项。

6.根据权利要求5所述的训练方法，其特征在于，所述根据所述识别结果中的多个关键点的位置，确定所述多个关键点的位置之间的差值，包括：

确定所述训练样本中的同一个图像中的两个关键点之间的距离；

当所述距离在预设范围内时，确定所述空间约束项为0；

当所述距离不在所述预设范围内时，根据所述距离确定所述空间约束项。

7.根据权利要求6所述的训练方法，其特征在于，所述根据所述距离确定所述空间约束项，包括：

确定所述空间约束项为e^d，其中，d表示所述距离。

8.根据权利要求6所述的训练方法，其特征在于，所述预设范围是根据所述距离的均值和方差确定的。

9.根据权利要求1所述的训练方法，其特征在于，所述损失函数还包括误差约束项，所述误差约束项用于约束所述运动生物的姿态中的关键点在所述识别结果和标注结果中的误差。

10.根据权利要求9所述的训练方法，其特征在于，所述误差损失项为均方误差损失项。

11.根据权利要求1所述的训练方法，其特征在于，所述利用损失函数，对所述神经网络模型进行训练，包括：

12.根据权利要求1-11任一所述的训练方法，其特征在于，所述神经网络模型包括HRNet网络。

13.一种训练装置，其特征在于，包括：

获取模块，用于获取训练样本，所述训练样本为记录运动生物的行为的图像序列；

输入模块，用于将所述训练样本输入神经网络模型，得到所述运动生物的姿态的识别结果；

训练模块，用于根据所述运动生物的姿态的识别结果，利用损失函数，对所述神经网络模型进行训练；

其中，所述损失函数包括时间约束项和空间约束项，所述时间约束项用于约束所述运动生物的姿态中的关键点在所述图像序列中的相邻图像帧之间的位置，所述空间约束项用于限定所述运动生物的姿态中的多个关键点在同一图像帧中的相对位置。

14.根据权利要求13所述的训练装置，其特征在于，在所述对所述神经网络模型进行训练之前，所述训练装置还包括：

第一确定模块，用于根据利用跟踪方法获取的关键点的位置与所述识别结果中关键点的位置的误差，确定所述时间约束项。

15.根据权利要求14所述的训练装置，其特征在于，所述第一确定模块用于：

其中，m为大于或等于2的正整数。

16.根据权利要求15所述的训练装置，其特征在于，所述根据所述第一前向跟踪结果和/或所述第一后向跟踪结果确定所述时间约束项，包括：

17.根据权利要求13所述的训练装置，其特征在于，所述训练装置还包括：

第二确定模块，用于根据所述识别结果中的多个关键点的位置，确定所述多个关键点的位置之间的差值；

根据所述差值，确定所述空间约束项。

18.根据权利要求17所述的训练装置，其特征在于，所述第二确定模块用于：

确定所述训练样本中的同一个图像中的任意两个关键点之间的距离；

当所述距离在预设范围内时，确定所述空间约束项为0；

19.根据权利要求18所述的训练装置，其特征在于，所述第二确定模块用于：

确定所述空间约束项为e^d，其中，d表示所述距离。

20.根据权利要求18所述的训练装置，其特征在于，所述预设范围是根据所述距离的均值和方差确定的。

21.根据权利要求13所述的训练装置，其特征在于，所述损失函数还包括误差约束项，所述误差约束项用于约束所述运动生物的姿态中的关键点在所述识别结果和标注结果中的误差。

22.根据权利要求21所述的训练装置，其特征在于，所述误差损失项为均方误差损失项。

23.根据权利要求13所述的训练装置，其特征在于，所述训练模块用于：

24.根据权利要求12-23任一所述的训练装置，其特征在于，所述神经网络模型包括HRNet网络。