CN113920583A

CN113920583A - 细粒度行为识别模型构建方法及系统

Info

Publication number: CN113920583A
Application number: CN202111197488.8A
Authority: CN
Inventors: 王海滨; 纪文峰
Original assignee: Root Sports Science And Technology Beijing Co ltd
Current assignee: Root Sports Science And Technology Beijing Co ltd
Priority date: 2021-10-14
Filing date: 2021-10-14
Publication date: 2022-01-11

Abstract

本发明提出了细粒度行为识别模型构建方法及系统，包括：对获得的视频数据的帧序列进行关键点预测，每帧中包含人体的多个关键点坐标信息；针对帧序列，按照得到的关键点坐标为中心进行裁剪，每帧图像得到多个图像分块；将同一关键点对应的图像分块按照时序进行拼接操作，将拼接后的图像分块，按照每个图像分块对应的关键点坐标作为位置嵌入，得到处理结果；将处理结果输入至深度自注意变换网络中，通过损失函数测量真实分类结果与预测分类结果之间的误差大小，然后基于该误差对网络权值进行优化和修正，获得细粒度行为识别模型。本发明实现了更精确地预测。

Description

细粒度行为识别模型构建方法及系统

技术领域

本发明属于计算机视觉技术领域，尤其涉及基于姿态位置和表观编码的细粒度行为识别方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

随着深度自注意变换网络(Transformer)在自然语言处理领域的成功应用，人们开始尝试将其应用到计算机视觉任务中。其中，一些工作尝试将标准Transformer直接应用于图像，即将图像拆分为小块，并提供这些小块的线性嵌入序列作为transformer的输入。以监督方式对模型进行图像分类训练。

目前的细粒度行为识别存在的技术问题是：细粒度行为识别属于行为识别的一个分支，当前基于视觉信息的行为识别技术例如：Temporal Shift Module(TSM)，Action-net等方法的粒度都在于行为类别,而对执行行为的个体区别不予关注。因此最先进的方法在识别一些具有细微差别的行为时的精度远低于人类的水平。当前的基于视觉信息的行为识别技术由于粒度在行为类别上，可能在分类过程中过于依赖视频背景，从而忽略了个体才是行为识别任务中最应该关注的。

发明内容

为克服上述现有技术的不足，本发明提供了细粒度行为识别模型构建方法及系统，实现了对视频数据中人体行为的准确预测。

为实现上述目的，本发明的一个或多个实施例提供了如下技术方案：

第一方面，公开了细粒度行为识别模型构建方法，包括：

对获得的视频数据的帧序列进行关键点预测，每帧中包含人体的多个关键点坐标信息；

针对帧序列，按照得到的关键点坐标为中心进行裁剪，每帧图像得到多个图像分块；

将同一关键点对应的图像分块按照时序进行拼接操作，将拼接后的图像分块，按照每个图像分块对应的关键点坐标作为位置嵌入，得到处理结果；

将处理结果输入至深度自注意变换网络中，通过损失函数测量真实分类结果与预测分类结果之间的误差大小，然后基于该误差对网络权值进行优化和修正，获得细粒度行为识别模型。

在一些实施例子中，对获得的视频数据首先进行预处理得到帧序列，帧序列中的元素调整为统一大小。

在一些实施例子中，将拼接后的图像分块之后，还包括利用线性投影模块处理为线性向量。

在一些实施例子中，将处理结果输入至深度自注意变换网络中之后，利用softmax作为最后的分类输出，优化交叉熵损失函数。

在一些实施例子中，对网络权值进行优化和修正的过程中，利用现有的细粒度行为数据集作为模型的训练数据，利用数据集视频的行为类别作为分类真值标签，采用反向传播算法和随机梯度下降法来减小误差以训练模型，经过多次迭代训练得到最终的预测模型。

第二方面，公开了视频数据中人体行为识别方法，包括：

将待识别视频数据输入至细粒度行为识别模型，预测视频数据中人的行为，继而得到视频数据中人的行为预测标签。

第三方面，公开了细粒度行为识别模型构建系统，包括：

关键点预测模块，被配置为：对获得的视频数据的帧序列进行关键点预测，每帧中包含人体的多个关键点坐标信息；

图像分块模块，被配置为：针对帧序列，按照得到的关键点坐标为中心进行裁剪，每帧图像得到多个图像分块；

模型优化模块，被配置为：将处理结果输入至深度自注意变换网络中，通过损失函数测量真实分类结果与预测分类结果之间的误差大小，然后基于该误差对网络权值进行优化和修正，获得细粒度行为识别模型。

以上一个或多个技术方案存在以下有益效果：

本发明为更精确地预测细粒度行为，利用人体姿态位置对行为进行建模，另一方面引入了Transformer网络，扩充基于骨架预测行为的网路，最后，为更好的建模，以姿态估计得到的关键点坐标为中心裁剪图片，得到的图像分块作为网络的输入，实现了更精确地预测。

本发明首先利用人体姿态估计技术对输入的视频数据进行预处理，得到带有人体关键点位置的帧序列，然后将每帧图像以人体关键点为中心取固定大小的裁剪区块，裁剪区块经过线性投影后，结合关键点坐标，输入到Transformer网络中，得到输入视频中人体的细粒度行为预测结果。

本发明方法具有通用性并且兼顾了精确度的要求。通过测试实验中的应用验证了上述方法的有效性。

本发明的方法采用人体姿态关节点信息对行为进行识别，基于关节点信息的关注点就在个体，因此，该方法更容易关注到个体行为之间的细微差异。其次，本发明的方法结合了最新的Transformer技术，为后续细粒度行为识别的研究提供了新的思路。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例基于姿态位置和表观编码的细粒度行为识别方法示意图；

图2为本发明实施例算法流程图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

基于深度学习的方法的测试实验利用公开数据集，对模型进行训练以及测试，获得测试效果。本发明公开了具体的网络模型架构示意图，如图1。

参见附图1、2所示，本实施例公开了细粒度行为识别模型构建方法，以细粒度行为数据集A为例，共包含个6000多个视频，99类行为。本发明具体包括如下步骤：

步骤S0，视频数据预处理，得到帧序列，共T帧，记为∑{f_t},t∈ [1,2,…,T-1,T]，f_t均调整为统一大小，记为w×h×c，实际选择为256× 256×3；

步骤S1，利用OpenPose姿态估计算法对步骤S0得到的帧序列进行关键点预测，得到每帧中人体的N个关键点坐标信息，记为

步骤S2，将步骤S0中得到的帧序列，按照步骤S1中得到的关键点坐标为中心进行裁剪，大小为p×p×c，具体为60×60×3，最终每帧图像得到18个图像分块，所有图像分块记为

需要说明的是，将图片分块是因为Transformer最先是用于NLP(自然语言处理)领域的方法，在NLP里面，Transformer的输入是一个序列，每个元素是一个“单词嵌入”。因此将Transformer用于图像时也要在图像输入种找出“单词”的概念，于是就有了图像分块。只有这样，才可以在计算机视觉任务中应用Transformer方法。

步骤S3，假定选取连续M帧作为网络的输入，M＝6，将6帧中同一关键点对应的图像分块按照时序进行拼接(Concat)操作，记为

x∈R^{18×60×60×18}；

基于动作是有时序性的，时序改变，动作可能完全不一样。将图像分块进行拼接作为网络输入可以使网络学习到行为的时序信息，可以更精确的进行行为识别。

步骤S4，将步骤S3得到的拼接后的图像分块，利用线性投影模块处理为线性向量；

在该步骤中，利用线性投影模块将图像分块处理成线性向量，即“词嵌入”，这是得到Transformer编码器输入的基本步骤。

步骤S5，将步骤S4得到的拼接后的图像分块，按照对应的关键点坐标作为步骤S4种得到的图像分块线性向量的嵌入，得到：

其中：E∈R^360×18×1，E_pos为位置嵌入，E_pos∈R^6×2，y为输入视频的细粒度行为类别标签，作为Transformer编码器输入；

步骤S6，将步骤S5得到的z₀输入到Transformer网络中，输出记为

z_t＝MSA(LN(z_t-1))+z_t-1

z_t＝MLP(LN(z_t′))+z_t′

其中MSA表示多头注意力机制，MLP表示多层感知机，LN表示层归一化操作。

步骤S7，利用softmax作为最后的分类输出，优化交叉熵损失函数，见公式(1)，其中y表示当前样本的行为类别标签，Z_i表示网络提取到的属于第i类的特征值，通过损失函数可以测量真实分类结果与预测分类结果之间的误差大小，然后基于该误差对网络权值进行优化和修正；

步骤S8，利用现有的细粒度行为数据集作为模型的训练数据，利用数据集视频的行为类别作为分类真值标签，采用反向传播算法和随机梯度下降法来减小误差Loss以训练模型，经过多次迭代训练得到最终的预测模型。

在具体实施数据集中，行为类别有99种，例如：splitjump，stagjump， split leapforward等。

在模型的训练过程种，每个类别用一个标签表示，比如，用0表示split jump，1表示stag jump，2表示split leap forward。

该模型一方面可应用到任意的人体细粒度行为预测任务中，另一方面该模型利用Transformer网络，将人体关键点信息与图像数据结合，扩充了可用于基于骨架的细粒度行为预测这一任务的网络，具有创新性。

实施例二

本实施例公开了细粒度行为识别方法，如图2所示，基于实施例一中的模型，还包括：

步骤S9，利用训练好的细粒度行为预测模型预测视频数据中人的行为；

步骤S10，得到视频数据中人的行为预测标签。

考虑如何将Transformer应用于细粒度行为识别领域，考虑到行为识别包含两个分支：基于姿态位置的行为识别和基于视频的行为识别，为保证对人体细粒度行为的精确性，考虑将姿态位置信息与Transformer网络进行结合，实现对视频数据中人体细粒度行为的预测。扩充了基于姿态的行为识别的方法，为细粒度行为识别提供了新的可行思路，对利用姿态位置和表征编码的结合解决细粒度行为识别任务进行了探索，其中包括：利用姿态位置信息进行图像分块，利用位置坐标作为位置嵌入，对带时序的分块进行拼接(Concat)操作，实现了对视频数据中人体行为的预测。

需要说明的是，上述步骤S5所述的将分块的图像对应的关节点坐标作为位置嵌入即为“表征编码”。

结合方式见步骤S5，即利用对应的关节点坐标将姿态关节点的图像分块编码作为Transformer模型的输入。

本发明利用了当下广泛研究的Transformer网络，结合人体关键点定位技术，用于视频中人体细粒度行为的预测。

Transformer网络的引入扩充了基于骨架的细粒度行为识别的方法，且该方法具有通用性，可应用于任意视频细粒度行为预测任务中，具有良好的泛化性。

本发明提出以人体关键点为中心裁剪得到网络输入的图像分块，使得网络能够更好的对人体信息进行建模，因此，模型具有较强的实用性。

实施例三

本实施例的目的是提供一种计算装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述实施例一或二中的方法的步骤。

实施例四

本实施例的目的是提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时执行上述实施例一或二中的方法的步骤。

实施例四

本实施例的目的是提供了细粒度行为识别模型构建系统，包括：

基于同样的构思，公开了细粒度行为识别系统，包括：

利用训练好的细粒度行为预测模型预测视频数据中人的行为；

得到视频数据中人的行为预测标签。

为更精确地预测细粒度行为，利用人体姿态位置对行为进行建模，另一方面引入了Transformer网络，扩充基于骨架预测行为的网路，最后，为更好的建模，以姿态估计得到的关键点坐标为中心裁剪图片，得到的图像分块作为网络的输入，实现了更精确地预测。

具体的，利用人体姿态估计技术对输入的视频数据进行预处理，得到带有人体关键点位置的帧序列，然后将每帧图像以人体关键点为中心取固定大小的裁剪区块，裁剪区块经过线性投影后，结合关键点坐标，输入到 Transformer网络中，得到输入视频中人体的细粒度行为预测结果。

本发明解决在预测视频中的人体细粒度行为任务中，考虑到高成本细粒度行为视频数据以及方法局限性的问题，利用人体姿态估计与深度自注意变换网络(Transformer)结合的技术来实现细粒度的行为识别。人体姿态估计技术预测人体的关节点位置，以关键点坐标为中心的裁剪区块作为深度自注意变换网络的图像分块输入，结合每个分块对应的关键点坐标信息作为位置嵌入输入到Transformer网络中，实现对细粒度行为的分类。首先，利用人体姿态估计技术对输入的视频数据进行预处理，得到带有人体关键点位置的帧序列，然后将每帧图像以人体关键点为中心取固定大小的裁剪区块，裁剪区块经过线性投影后，结合关键点坐标，输入到Transformer 网络中，最后得到输入视频中人体的细粒度行为预测结果。该方法具有通用、高效、新颖和预测高精度的特点。该方法在对细粒度行为预测任务上具有较高的预测精度。通过在现有细粒度行为数据集上进行实验，验证了本发明提出方法的准确性。

以上实施例装置中涉及的各步骤与方法实施例一相对应，具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质；还应当被理解为包括任何介质，所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。

本领域技术人员应该明白，上述本发明的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.细粒度行为识别模型构建方法，其特征是，包括：

2.如权利要求1所述的细粒度行为识别模型构建方法，其特征是，对获得的视频数据首先进行预处理得到帧序列，帧序列中的元素调整为统一大小。

3.如权利要求1所述的细粒度行为识别模型构建方法，其特征是，将拼接后的图像分块之后，还包括利用线性投影模块处理为线性向量。

4.如权利要求1所述的细粒度行为识别模型构建方法，其特征是，将处理结果输入至深度自注意变换网络中之后，利用softmax作为最后的分类输出，优化交叉熵损失函数。

5.如权利要求1所述的细粒度行为识别模型构建方法，其特征是，对网络权值进行优化和修正的过程中，利用现有的细粒度行为数据集作为模型的训练数据，利用数据集视频的行为类别作为分类真值标签，采用反向传播算法和随机梯度下降法来减小误差以训练模型，经过多次迭代训练得到最终的预测模型。

6.视频数据中人体行为识别方法，其特征是，包括：

将待识别视频数据输入至细粒度行为识别模型，预测视频数据中人的行为，继而得到视频数据中人的行为预测标签，细粒度行为识别模型采用权利要求1-5任一所述的方法获得。

7.细粒度行为识别模型构建系统，其特征是，包括：

8.一种计算装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征是，所述处理器执行所述程序时实现上述权利要求1-5任一所述方法或权利要求6所述的方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征是，该程序被处理器执行时执行上述权利要求1-5任一所述方法或权利要求6所述的方法的步骤。

10.细粒度行为识别系统，其特征是，包括：

得到视频数据中人的行为预测标签，预测模型采用权利要求1-5任一所述的方法获得。