CN114818989A

CN114818989A - 基于步态的行为识别方法、装置、终端设备及存储介质

Info

Publication number: CN114818989A
Application number: CN202210703237.0A
Authority: CN
Inventors: 苏航; 刘海亮; 汤武惊; 张怡
Original assignee: Shenzhen Research Institute of Sun Yat Sen University
Current assignee: Shenzhen Research Institute of Sun Yat Sen University
Priority date: 2022-06-21
Filing date: 2022-06-21
Publication date: 2022-07-29
Anticipated expiration: 2042-06-21
Also published as: CN114818989B

Abstract

本申请适用于设备管理技术领域，提供了一种基于步态的行为识别方法、装置、终端设备及存储介质，方法包括：接收待识别的目标视频数据；将所述目标视频数据导入预设的帧间动作提取网络，得到帧间动作特征数据；将所述帧间动作特征数据导入池化融合网络，输出所述目标视频数据对应的融合特征数据；将所述目标视频数据导入上下文注意力网络，确定所述目标视频数据中目标对象的步态行为数据；根据所述步态行为数据以及所述融合特征数据，得到所述目标对象的行为类别。采用上述方法能够大大降低了视频数据在进行行为识别过程中的计算成本，继而提高了运算效率。

Description

基于步态的行为识别方法、装置、终端设备及存储介质

技术领域

本申请属于数据处理技术领域，尤其涉及基于步态的行为识别方法、装置、终端设备及存储介质。

背景技术

随着人工智能技术的不断发展，计算机能够协助用户执行多种类型的识别操作，以提高用户的处理效率。例如，在用户对视频数据进行解析时，可以通过人工智能算法确定该视频数据中目标人物的行为类型，从而能够方便用户对目标人物进行分析，例如在对目标人物进行行为追踪，抑或在重点区域对危险动作进行监控时，人工智能的行为识别会大大降低用户的工作量，从而提高了分析效率。

现有的行为识别技术，往往是使用光流信息以确定目标对象在视频中的时间信息和空间信息，从而确定该目标对象的行为类型，但是逐帧提取光流从而构建整个视频数据的光流信息则需要较大的计算量，从而大大提高了运算设备的计算成本，以及降低了运算效率。

发明内容

本申请实施例提供了一种基于步态的行为识别方法、装置、终端设备及存储介质，可以解决现有的行为识别技术，往往是使用光流信息以确定目标对象在视频中的时间信息和空间信息，从而确定该目标对象的行为类型，但是逐帧提取光流从而构建整个视频数据的光流信息则需要较大的计算量，从而大大提高了运算设备的计算成本，以及降低了运算效率的问题。

第一方面，本申请实施例提供了一种基于步态的行为识别方法，包括：

接收待识别的目标视频数据；

将所述目标视频数据导入预设的帧间动作提取网络，得到帧间动作特征数据；所述帧间动作特征数据用于确定所述目标视频数据中相邻的视频图像帧之间的动作特征信息；

将所述帧间动作特征数据导入池化融合网络，输出所述目标视频数据对应的融合特征数据；

将所述目标视频数据导入上下文注意力网络，确定所述目标视频数据中目标对象的步态行为数据；所述上下文注意力网络用于提取所述目标视频数据中所述目标对象与环境对象之间的相互位置关系；

根据所述步态行为数据以及所述融合特征数据，得到所述目标对象的行为类别。

在第一方面的一种可能的实现方式中，所述将所述目标视频数据导入预设的帧间动作提取网络，得到帧间动作特征数据，包括：

确定所述目标视频数据内任意两个连续的视频图像帧的图像张量；

根据所述目标对象在所述视频图像帧的关键位置，确定多个特征点坐标；所述特征点坐标是根据所述目标对象的步态行为确定的；

在所述图像张量中确定各个特征点坐标的张量表达，并基于所有所述特征点的坐标表达生成所述目标对象在所述视频图像帧中的特征向量；

根据所述任意两个连续的视频图像帧的所述特征向量，构建位移相关矩阵；所述位移相关矩阵用于确定视频图像帧中各个特征点坐标与另一视频图像帧中各个坐标点之间的位移相关分数；

根据所述位移相关矩阵确定各个所述特征点坐标在所述两个连续的视频图像帧间的最大位移距离，并基于所有所述最大位移距离确定所述目标对象的位移矩阵；

将所述位移矩阵导入到预设的特征变换模型，生成所述任意两个连续的视频图像帧的动作特征子数据；

基于所有所述视频图像帧的所述动作特征子数据得到所述帧间动作特征数据。

在第一方面的一种可能的实现方式中，所述根据所述位移相关矩阵确定各个所述特征点坐标在所述两个连续的视频图像帧间的最大位移距离，并基于所有所述最大位移距离确定所述目标对象的位移矩阵，包括：

在所述位移相关矩阵中确定各个特征点坐标对应的位移相关数组；

从所述位移相关数组中确定相关系数最大的参数值作为所述特征点坐标的所述最大位移距离；

根据所有所述特征点坐标的所述最大位移距离构建所述目标对象在二维空间上的位移场；

通过激活函数softmax将所述位移场进行池化降维，得到一维置信度张量；

将所述位移场以及所述一维置信度张量进行融合，构建用于表达三维空间的位移矩阵。

在第一方面的一种可能的实现方式中，在所述接收待识别的目标视频数据之前，还包括：

获取用于对行为识别模块进行训练的样本视频数据；所述行为识别模块包括所述帧间动作提取网络、所述池化融合网络以及所述上下文注意力网络；

根据所述样本视频数据生成正样本数据以及负样本数据；所述正样本数据是对所述样本视频数据中的背景信息进行干扰处理后得到的；所述负样本数据是对所述样本视频数据中的样本视频帧的帧序列进行干扰处理后得到的；

通过所述正样本数据生成第一空间信息以及第一光流信息，以及通过所述负样本数据生成第二空间信息以及第二光流信息；

根据所述第一空间信息以及所述第二空间信息得到空间增强信息；

根据所述第二光流信息以及所述第一光流信息得到光流增强信息；

将所述空间增强信息以及所述光流增强信息导入所述行为识别模块，得到所述样本视频数据的训练识别结果；

基于所有所述样本视频数据的所述训练识别结果对初始识别模块内的位置学习参量进行预训练，得到所述行为识别模块。

在第一方面的一种可能的实现方式中，所述根据所述样本视频数据生成正样本数据以及负样本数据，包括：

标记出所述样本视频数据的各个样本视频帧中的样本对象，并将除所述样本对象外的其他区域识别为背景区域；

通过预设的薄板样条对所述背景区域进行插值处理，得到空间干扰图像帧；

根据各个空间干扰图像帧在所述样本视频数据中的帧序号进行封装，得到所述正样本数据。

根据预设的动作时间时长，将所述样本视频数据划分为多个视频段；每个所述视频段的段落时长不大于所述动作时间时长；

根据预设的乱序处理算法，分别更新各个所述视频段内的所述样本视频帧的帧序号；

基于更新后的帧序号对各个所述样本视频帧进行封装，得到所述负样本数据。

在第一方面的一种可能的实现方式中，所述将所述目标视频数据导入上下文注意力网络，确定所述目标视频数据中目标对象的步态行为数据，还包括：

确定所述目标视频数据的各个视频图像帧内的目标对象以及至少一个环境对象；

基于所有所述视频图像帧中的所述目标对象的各个关键特征点的第一位置坐标，确定第一上下文特征；所述关键特征点是与所述目标对象的步态相关的人体关键点；

基于各个所述视频帧中所述目标对象与所述环境对象之间的相对位置关系，确定第二上下文特征；

将所述第一上下文特征以及所述第二上下文特征导入所述上下文注意力网络，生成所述步态行为数据。

第二方面，本申请实施例提供了一种基于步态的行为识别装置，包括：

目标视频数据接收单元，用于接收待识别的目标视频数据；

帧间动作特征数据提取单元，用于将所述目标视频数据导入预设的帧间动作提取网络，得到帧间动作特征数据；所述帧间动作特征数据用于确定所述目标视频数据中相邻的视频图像帧之间的动作特征信息；

融合特征数据单元，用于将所述帧间动作特征数据导入池化融合网络，输出所述目标视频数据对应的融合特征数据；

步态行为数据识别单元，用于将所述目标视频数据导入上下文注意力网络，确定所述目标视频数据中目标对象的步态行为数据；所述上下文注意力网络用于提取所述目标视频数据中所述目标对象与环境对象之间的相互位置关系；

行为识别单元，用于根据所述步态行为数据以及所述融合特征数据，得到所述目标对象的行为类别。

第三方面，本申请实施例提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面任一项所述的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面任一项所述的方法。

第五方面，本申请实施例提供了一种计算机程序产品，当计算机程序产品在服务器上运行时，使得服务器执行上述第一方面中任一项所述的方法。

本申请实施例与现有技术相比存在的有益效果是：在接收到需要进行行为识别的目标视频数据后，将该目标视频数据导入到帧间动作提取网络，提取每个视频图像帧之间的动作特征信息，并基于所有视频图像帧之间的动作特征信息生成动作特征数据，继而将该动作特征数据导入到池化融合网络进行特征提取，以得到对应的融合特征数据，为了进一步提高行为识别的准确性，以及考虑动作行为在全局维度之间的关系，引入了上下文注意网络，确定该目标对象在整个目标视频数据中的步态行为数据，最后通过提取得到两个类型的数据确定目标对象在目标视频数据内的行为类别，实现了自动识别行为类别的目的。与现有的行为识别技术相比，本申请实施例并不需要计算整个视频数据的光流信息，而是通过即插即用的帧间动作提取网络确定各个视频帧之间的动作特征信息，从而大大降低了运算设备的运算成本，从而提高了行为识别的效率，并且为了在保持识别准确率的同时减少运算量，本申请实施例还引入了上下文注意网络，能够关注全局目标视频数据的上下文信息，在确保帧间局部的动作的同时，也能够加入全局相关的上下文信息，能够在减少运算压力的同时，确保了动态识别的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提供的一种基于步态的行为识别方法的实现示意图；

图2是本申请一实施例提供的帧间动作提取网络的结构示意图；

图3是本申请一实施例提供的池化融合网络的结构示意图；

图4是本申请一实施例提供的上下文注意力网络的结构示意图；

图5是本申请一实施例提供的一种基于步态的行为识别方法的S102一种实现方式示意图；

图6是本申请一实施例提供的一种基于步态的行为识别方法的一种实现方式示意图；

图7是本申请一实施例提供的一种基于步态的行为识别方法S104的一种实现方式示意图；

图8是本申请实施例提供的基于步态的行为识别装置的结构示意图；

图9是本申请实施例提供的终端设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

本申请实施例提供的基于步态的行为识别方法可以应用于智能手机、服务器、平板电脑、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本等能够实现对视频数据进行行为识别的终端设备上。本申请实施例对终端设备的具体类型不作任何限制。

请参阅图1，图1示出了本申请实施例提供的一种基于步态的行为识别方法的实现示意图，该方法包括如下步骤：

在S101中，接收待识别的目标视频数据。

在本实施例中，电子设备可以配置有一视频数据库，该视频数据库内包含多个视频数据。在需要对视频数据库内的某一视频数据进行行为识别时，终端设备会将该视频数据识别为目标视频数据，并进行后续处理。其中，在视频数据库内的每个视频数据可以配置有行为标识，对于已经识别完成行为类别的视频数据，其行为标识内包含有已经识别的行为类别，而并未进行行为类别识别的视频数据，该行为标识为空。在该情况下，终端设备可以读取行为标识是否为空，将行为标识为空的视频数据识别为目标视频数据。

在一种可能的实现方式中，该目标视频数据具体可以为一视频服务器。用户在需要对某一视频进行行为识别时，可以通过本地的用户终端安装对应的客户端程序，将所需识别的目标视频数据导入到该客户端程序内，并发起识别请求，用户终端在接收到该识别请求后，可以通过客户端程序建立与视频服务器之间的通信连接，并将目标视频数据发送给视频服务器，并通过识别服务器进行行为识别。

在一种可能的实现方式中，为了提高行为识别的效率，终端设备可以设置有对应的视频时长阈值，若原始视频数据的视频时长大于上述的视频时长阈值，则可以将原始视频数据划分为两个以上的视频段，每个视频段的视频时长不大于上述的视频时长阈值，将划分为的视频段识别为目标视频数据，并执行后续的行为识别操作。

在S102中，将所述目标视频数据导入预设的帧间动作提取网络，得到帧间动作特征数据；所述帧间动作特征数据用于确定所述目标视频数据中相邻的视频图像帧之间的动作特征信息。

在本实施例中，为了减少行为识别的运算压力，终端设备的动作行为识别模块中配置有帧间动作提取网络，该帧间动作提取网络具体用于确定相邻的任一两个视频图像帧之间的动作特征信息，即帧间动作提取网络的识别重点并非用户在全局中的行为，而是每两帧之间的动作变化，继而将所有帧间的动作变化进行梳理，即可以得到整个视频完整的行为动作，以便于后续进行行为识别。与全局的光流信息相比，本申请实施例提供的帧间动作提取网络具有即插即用的特点，每次输入至帧间提取动作网络的数据量具体为两个视频图像帧的数据量，而并非需要将整个目标视频数据导入到识别网络中提取光流信息，减少了缓存空间的占用率，也同时降低了计算机的运算能力的要求。

在一种可能的实现方式中，确定上述视频图像帧之间的动作特征信息的方式具体可以为：通过上述帧间动作提取网络，识别出目标对象的对象区域，继而识别两个对象区域之间的面积偏差，根据偏差面积的方向、位置以及大小，确定该目标对象的动作特征信息，继而根据各个视频图像帧的帧序号，确定各个动作特征信息的编号，并根据该编号对所有动作特征信息进行封装，生成上述的动作特征数据。

示例性地，图2示出了本申请一实施例提供的帧间动作提取网络的结构示意图。参见图2所示，该帧间动作提取网络的输入数据为两个视频图像帧，即图像t以及图像t+1，上述两个视频图像帧是帧序号相邻的两个视频图像帧，电子设备可以通过向量转换模块将上述两个视频图像帧进行向量转换，然后通过池化层进行降维处理以及通过激活层和位移计算模块确定两个视频图像帧对应的向量标识之间的位移信息，继而通过动作识别单元确定两个视频图像帧间的动作信息。其中，上述动作识别单元具体可以由多个卷积层构成，如图所示的可以包括基于1*7*7的卷积核构成的第一卷积层、基于1*3*3的卷积核构成的第二卷积层、基于1*3*3的卷积核构成的第三卷积层以及基于1*3*3的卷积核构成的第四卷积层。

在S103中，将所述帧间动作特征数据导入池化融合网络，输出所述目标视频数据对应的融合特征数据。

在本实施例中，由于上述帧间动作提取模块中各个动作特征信息是离散的，在该基础上需要进行特征提取，以确定连续的动作，以便后续进行动作识别，基于此，终端设备可以将帧间动作特征数据导入到上述池化融合网络中，进程池化降维处理，进行特征融合，从而输出对应的融合特征数据。其中，上述融合特征数据可以表示为：

其中，Maxpool为所述融合特征数据；

为第i个视频图像帧对应的帧间动作信息；N为所述目标视频数据中的帧总数；T为特征转置。

进一步地，作为本申请的另一实施例，该池化融合网络具体为一同源双线性池化网络，同源双线性池化就是通过计算不同空间位置特征的外积，从而生成一个对称矩阵，然后再对该矩阵做平均池化来获得双线性特征，它可以提供比线性模型更强的特征表示，并且可以以端到端的方式优化。传统的全局平均池化（GAP）只捕获一阶统计信息，而忽略了对行为识别有用的更精细的细节特征，针对这个问题，拟借鉴细粒度分类中所使用的双线性池化方法并与GAP方法融合，使得对于相似度较高的行为可以提取更精细的特征，从而得到更好的识别结果。

示例性地，图3示出了本申请一实施例提供的池化融合网络的结构示意图。参见图3所示，池化融合网络包括双线性池化与一阶池化融合。最后一层卷积层提取的特征，在全局平均池化之前插入双线性池化模块，捕获空间特征图的二阶统计量，从而获得二阶分类输出，并于全局平均池化得到的一阶特征向量相加从而得到分类输出向量。通过结合一阶和二阶向量，可以捕捉大的上下文线索和行为的细粒度信息，丰富了现有的行为识别网络的分类层。同时，原始的GAP 分支对于端到端训练过程中的反向传播至关重要，它可以减轻双线性池模块的训练难度。

在S104中，将所述目标视频数据导入上下文注意力网络，确定所述目标视频数据中目标对象的步态行为数据；所述上下文注意力网络用于提取所述目标视频数据中所述目标对象与环境对象之间的相互位置关系。

在本实施例中，由于帧间动作提取网络主要是关注局部的动作变化，为了确保识别的准确性，终端设备引入了上下文注意力网络，能够实现对全局的动作变化的识别。该上下文注意力网络具体是确定目标对象与环境对象之间的相互位置关系的变化，确定全局的动作变化，因此在上下文注意网络内，会对目标视频数据中的各个视频图像帧进行目标对象的标注以及环境对象的标注，并识别每一个视频图像帧中目标对象与环境对象之间的位置变化向量，根据各个视频图像帧之间的位置变化向量，进行特征提取以及上下文注意力识别，从而得到上述的步态行为数据。

示例性地，图4示出了本申请一实施例提供的上下文注意力网络的结构示意图。参见图4所示，该上下文注意力网络在可以对目标视频数据进行特征提取，进行物体检测、关键节点检测以及人体检测，物体检测具体用于确定环境对象，而人体检测具体用于识别目标对象，关键点检测具体用于确定人体的步态变化，最后通过图神经网络卷积层，进行上下文注意力关注，从而输出对应的步态行为数据。

在S105中，根据所述步态行为数据以及所述融合特征数据，得到所述目标对象的行为类别。

在本实施例中，终端设备在得到步态行为数据以及融合特征数据后，可以导入全连接层，确定与各个候选的行为类别之间的置信度，选取所述置信度最高的一个候选的行为类别作为该目标对象的行为类别，以实现对目标对象的行为识别的目的。

在一种可能的实现方式中，该目标视频数据的视频长度较长，因此目标对象在整个视频长度的过程中可能包含有多个类型的行为动作，在该情况下，终端设备可以根据各个行为的出现先后次序，输出一个行为序列，该行为序列包含有多个元素，每一个元素对应一个行为类别。

以上可以看出，本申请实施例提供的一种基于步态的行为识别方法通过在接收到需要进行行为识别的目标视频数据后，将该目标视频数据导入到帧间动作提取网络，提取每个视频图像帧之间的动作特征信息，并基于所有视频图像帧之间的动作特征信息生成动作特征数据，继而将该动作特征数据导入到池化融合网络进行特征提取，以得到对应的融合特征数据，为了进一步提高行为识别的准确性，以及考虑动作行为在全局维度之间的关系，引入了上下文注意网络，确定该目标对象在整个目标视频数据中的步态行为数据，最后通过提取得到两个类型的数据确定目标对象在目标视频数据内的行为类别，实现了自动识别行为类别的目的。与现有的行为识别技术相比，本申请实施例并不需要计算整个视频数据的光流信息，而是通过即插即用的帧间动作提取网络确定各个视频帧之间的动作特征信息，从而大大降低了运算设备的运算成本，从而提高了行为识别的效率，并且为了在保持识别准确率的同时减少运算量，本申请实施例还引入了上下文注意网络，能够关注全局目标视频数据的上下文信息，在确保帧间局部的动作的同时，也能够加入全局相关的上下文信息，能够在减少运算压力的同时，确保了动态识别的准确性。

图5示出了本发明第二实施例提供的一种基于步态的行为识别方法S102的具体实现流程图。参见图5，相对于图1所述实施例，本实施例提供的一种基于步态的行为识别方法中S102包括：S1021~S1027，具体详述如下：

进一步地，所述将所述目标视频数据导入预设的帧间动作提取网络，得到帧间动作特征数据，包括：

在S1021中，确定所述目标视频数据内任意两个连续的视频图像帧的图像张量。

在本实施例中，终端设备在提取两个视频图像帧之间的动作特征信息之前，需要对视频图像帧进行预处理，需要将以图形表达的视频图像帧转换为以向量表达的张量。每个视频图像帧对应的图像张量是根据该视频图像帧的图像尺寸确定的，示例性地，该图像长相可以为一H*W*C尺寸的张量，其中，H是根据视频图像帧的图像长度确定的，W是根据视频图像帧的图像宽度确定的，即H*W是用于表示该视频图像帧的空间分辨率，C用于标识目标对象所在的空间位置，示例性，两个连续的视频图像帧可以标识为F（t）以及F（t+1），即第t个视频图像帧以及第t+1个视频图像帧对应的图像张量。

在S1022中，根据所述目标对象在所述视频图像帧的关键位置，确定多个特征点坐标；所述特征点坐标是根据所述目标对象的步态行为确定的。

在本实施例中，终端设备可以在每个视频图像帧中标记出目标对象所在的位置，即上述的关键位置。其中，该目标对象具体为一实体人，在该情况下，终端设备可以通过人体模板在视频图像帧中进行滑动框取，计算该人体模板与框取区域的匹配度，从而能够识别得到人体所在的区域，即目标对象所在的区域，又例如可以通过人脸识别算法，定位出该视频图像帧中包含的人脸区域，并基于人脸区域识别出目标对象所在的区域，从而确定目标对象所在的关键位置。

在本实施例中，终端设备在确定了关键位置后，可以该关键位置为基准，识别出目标对象内的多个关键点，每个关键点对应一个特征点坐标。示例性地，与步态行为相关的关键点包括：膝关节、大腿中心、小腿中心、躯干中心、头部、左手手臂、右手手臂等，在标记出各个关键点后，可以确定该关键点在视频图像帧内的坐标，即确定上述的特征点坐标。

在S1023中，在所述图像张量中确定各个特征点坐标的张量表达，并基于所有所述特征点的坐标表达生成所述目标对象在所述视频图像帧中的特征向量。

在本实施例中，终端设备在确定了多个特征点坐标后，可以在图像张量中定位出各个特征点坐标所在的元素，从而能够得到各个特征点坐标通过张量的表达式，即上述张量表达，最后将所有特征点坐标的张量表达进行封装，则得到该目标对象与步态相关的特征向量。

在S1024中，根据所述任意两个连续的视频图像帧的所述特征向量，构建位移相关矩阵；所述位移相关矩阵用于确定视频图像帧中各个特征点坐标与另一视频图像帧中各个坐标点之间的位移相关分数。

在本实施例中，终端设备在确定与关键点的特征点坐标对应的张量表达，并得到基于所有关键点的张量表达构成的特征向量后，可以计算两个视频图像帧之间的向量偏差，从而可以根据该向量偏差确定在两个视频图像帧间，该目标对象各个关键点对应的位移，从而确定得到上述的位移相关矩阵。

在本实施例中，由于根据视频的相邻两帧中某一个位置来说，大概率不会发生大的位移，可以把位移限制在某一个特定的区域，假设该区域以X为中心点且包含P2 个特征点，然后可以通过X位置的特征与相邻的视频图像帧中对应的候选区域中的特征做点乘运算得到位置X与该候选区域内所有特征的相关性分数矩阵，该矩阵的维度为HⅹWⅹP2，即上述的位移相关矩阵，反映了相邻帧间的位置之间的关系。

在S1025中，根据所述位移相关矩阵确定各个所述特征点坐标在所述两个连续的视频图像帧间的最大位移距离，并基于所有所述最大位移距离确定所述目标对象的位移矩阵。

在本实施例中，终端设备在确定了各个特征点坐标相对于另一视频图像帧在关键区域中的各个坐标点之间的相关分数后，可以选取相关分数最大的数值确定该特征点坐标对应的最大位移距离，即在另一视频图像帧中定位出与该特征点坐标相关联的坐标点，由于上述相关分数是确定两个坐标点之间的相关度，若两个坐标点之间的相关分数最大，即表示上述两个坐标点属于相同的坐标点，因此可以将该相关分数最大的坐标点，确定该关键点坐标对应的最大位移距离，从而基于所有关键点坐标的最大位移距离，可以确定该目标对象的位移矩阵。

进一步地，作为本申请的另一实施例，上述S1025具体包含以下步骤：

步骤1：在所述位移相关矩阵中确定各个特征点坐标对应的位移相关数组；

步骤2：从所述位移相关数组中确定相关系数最大的参数值作为所述特征点坐标的所述最大位移距离；

步骤3：根据所有所述特征点坐标的所述最大位移距离构建所述目标对象在二维空间上的位移场；

步骤4：通过激活函数softmax将所述位移场进行池化降维，得到一维置信度张量；

步骤5：将所述位移场以及所述一维置信度张量进行融合，构建用于表达三维空间的位移矩阵。

在本实施例中，根据相关分数矩阵，只要找出视频图像帧中相关分数矩阵中每个特征点的最大分数对应在另一视频图像帧中对应的点，就可以估计运动信息的位移场，由于上述相关分数是用于确定两个坐标点之间的相关性的，因此可以根据上述的位移相关矩阵，分离各个特征点坐标在另一视频图像帧上各个坐标点之间的相关分数，即上述的位移相关数组，并确定相关系数最大的参数值确定该特征点坐标在另一视频图像帧内的对应坐标点，并将另个点之间的距离作为上述的最大位移距离，从而构建该目标对象在二维空间内的位移场,由于该视频图像帧是一二维图像，即构建得到的位移场是也是二维的。具体来说，可以通过添加一层softmax 层来对该二维场进行特征提取，即进行最大池化处理，从而得到该目标对象的置信图，最后将二维的位移场和一维的置信图结合形成具有三维特征的位移矩阵。

在本申请实施例中，通过构建二维位移场确定目标对象的运动情况，并进行池化降维确定该位移场内各个点的置信度，方便对位移情况进行有效评估，从而能够便于进行后续的动作识别，提高了动作识别的准确性

在S1026中，将所述位移矩阵导入到预设的特征变换模型，生成所述任意两个连续的视频图像帧的动作特征子数据。

在本实施例中，为了和下游层的特征匹配，位移张量需要转换为匹配下游层维度的运动特征矩阵。可将馈送到四个深度可分卷积层中，一个1×7 层，三个1×3 层，将其转换成与原始输入F(t)相同通道数C 的运动特征。以便输入至网络的下一层。

在S1027中，基于所有所述视频图像帧的所述动作特征子数据得到所述帧间动作特征数据。

在本实施例中，终端设备在确定了每个视频图像帧相对于后一视频图像帧对应的动作特征子数据后，可以根据各个视频图像帧的帧序号进行封装，从而得到关于整个目标视频数据的帧间动作特征数据。

在本申请实施例中，通过在目标对象中标记出与步态相关的多个关键点坐标，并通过关键点坐标的位移去那个看构建对应的位移矩阵，通过关键点的位移确定该目标对象的动作特征子数据，能够减少所需运算的点的个数，从而进一步减少运算量，以及提高运算效率。

图6示出了本发明第三实施例提供的一种基于步态的行为识别方法的具体实现流程图。参见图6，相对于图1所述实施例，本实施例提供的一种基于步态的行为识别方法在所述接收待识别的目标视频数据之前，还包括：S601~S607，具体详述如下：

进一步地，在所述接收待识别的目标视频数据之前，还包括：

在S601中，获取用于对行为识别模块进行训练的样本视频数据；所述行为识别模块包括所述帧间动作提取网络、所述池化融合网络以及所述上下文注意力网络。

在本实施例中，终端设备在对目标视频数据进行行为识别之前，可以对本地的行为识别模块进行训练学习，从而能够提高后续行为识别的准确性。其中，上述行为识别模块具体包含有三大网络，分别为帧间动作提取网络，具体用于提取帧间动作运动数据，池化融合网络，具体用于对帧间动作运动数据进行特征提取以及特征融合，以及上下文注意力网络，具体用于确定目标对象与环境对象之间的相对位置，从而能够从全局维度上确定该目标对象的行为类别，基于此，终端设备可以从视频库内获取样本视频数据。需要说明的是，上述样本视频数据具体为并未进行行为类别标注的视频数据，或者弱标注的视频数据。该训练方法可以通过对抗学习的方式进行训练学习，从而能够减少用户标记的耗时，既能够提高训练的效率，还能够提高训练的准确性。

本实施例引入深度双向转换器以便更好地利用位置嵌入和多头注意力机制自动选择视频中的关键信息，设计面向视频理解的序列自监督学习方法，充分利用海量互联网大数据和已有的公开数据集对行为预训练模型进行不断优化和训练，进而获得具有领域通用性和任务共用能力的鲁棒行为预训练模型。

在S602中，根据所述样本视频数据生成正样本数据以及负样本数据；所述正样本数据是对所述样本视频数据中的背景信息进行干扰处理后得到的；所述负样本数据是对所述样本视频数据中的样本视频帧的帧序列进行干扰处理后得到的。

在本实施例中，终端设备在获取得到任一个样本视频数据后，可以将该样本视频数据转换为两种不同种类的样本数据，一种是通过对背景信息进行干扰，即干扰空间维度而得到的正样本数据，以及对帧序列进行干扰，即干扰时间维度而得到的负样本数据，从而解耦动作和空间场景，使网络对动作的敏感性进一步增强。这种构建正负样本的方式使得网络必须关注全局统计信息才能分辨出正负样本。

其中，生成正样本的过程具体可以包含以下步骤：

步骤1.1标记出所述样本视频数据的各个样本视频帧中的样本对象，并将除所述样本对象外的其他区域识别为背景区域。

步骤1.2通过预设的薄板样条对所述背景区域进行插值处理，得到空间干扰图像帧。

步骤1.3根据各个空间干扰图像帧在所述样本视频数据中的帧序号进行封装，得到所述正样本数据。

在本实施例中，终端设备可以通过对象识别算法（如人脸识别算法或者人体关键点识别算法等方式）定位出该样本视频数据中的样本对象，该样本对象也可为以实体人，在标记出该样本视频数据中的样本对象后，可以将除样本对象所在区域外的其他区域识别为背景区域，由于需要对空间进行干扰，终端设备可以通过薄板样条的方式在背景区域进行插值处理，从而对部分背景区域进行遮挡，以消除样本视频帧之间在空间的相关性，并根据帧序号重新对添加了薄板样条之后的空间干扰图像帧进行重新封装，从而得到正样本数据。

在本申请实施例中，通过薄板样条对背景区域进行插值处理，破坏局部场景信息从而构建正样本，能够提高后续识别对于用户动作的敏感度，继而提高训练的准确性。

其中，生成负样本的过程具体可以包含以下步骤：

步骤2.1根据预设的动作时间时长，将所述样本视频数据划分为多个视频段；每个所述视频段的段落时长不大于所述动作时间时长。

步骤2.2根据预设的乱序处理算法，分别更新各个所述视频段内的所述样本视频帧的帧序号。

步骤2.3基于更新后的帧序号对各个所述样本视频帧进行封装，得到所述负样本数据。

在本实施例中，为了实现对时间维度上的干扰，终端设备可以对样本视频数据进行划分，划分为多个视频段，对每个视频段内的视频图像帧进行乱序处理。由于一个动作具有一定的时长，通过划分视频段能够实现对不同动作的分离，继而能够提高后续对每一个动作识别的灵敏度。其中，上述动作时间时长是根据大数据分析确定一个动作的平均时长而确定的。终端设备会通过随机算法对视频段内的各个样本视频帧重新配置帧序号，从而根据更新后的帧序号的样本视频帧进行封装，从而得到负样本数据。

通常对比学习采用的负样本都是直接用其他视频，但是换用其他视频的话，除了动作信息不同之外，可能还会引入许多的可能使得网络分辨起来更容易的特征，所以这样的选取负样本的方式并不能保证网络会专注于运动，基于此本项目拟使用局部时间干扰破坏光流信息，以此来构建负样本。这种构建正负样本的方式使得网络必须关注全局统计信息才能分辨出正负样本。

在S603中，通过所述正样本数据生成第一空间信息以及第一光流信息，以及通过所述负样本数据生成第二空间信息以及第二光流信息。

在本实施例中，终端设备可以将正样本数据通过编码算法进行数据转换，得到该正样本数据中各个图像帧的编码数据，即得到多个特征图，然后通过学习的位置编码添加到提取得到的特征图中，融合位置编码后利用深度双向转换器对时间信息进行建模，从得到该正样本数据的时间信息，即第一光流信息，对空间信息进行建模，从而得到正样本数据的空间信息，即第一空间信息。对应地，对于负样本数据也进行相应处理，得到第二空间信息以及所述第二光流信息。

在S604中，根据所述第一空间信息以及所述第二空间信息得到空间增强信息。

在本实施例中，由于第一空间信息中对背景区域进行干扰，从而空间上是不具有相关性的，而第二空间信息并没有对背景区域进行干扰，且上述两个样本数据均出自同一样本视频数据，从而融合上述两个空间信息，能够提高空间信息捕捉的敏感度，从而得到空间增强信息。

在S605中，根据所述第二光流信息以及所述第一光流信息得到光流增强信息。

在本实施例中，由于第一光流信息中没有对时间序列进行干扰，从而时间维度上是具有相关性的，而第二光流信息对时间序列进行干扰，且上述两个样本数据均出自同一样本视频数据，从而融合上述两个光流信息，能够提高时间信息捕捉的敏感度，从而得到光流增强信息。

在S606中，将所述空间增强信息以及所述光流增强信息导入所述行为识别模块，得到所述样本视频数据的训练识别结果。

在S607中，基于所有所述样本视频数据的所述训练识别结果对初始识别模块内的位置学习参量进行预训练，得到所述行为识别模块。

在本实施例中，行为识别包括两个关键信息：空间信息和时间信息。空间信息属于场景中的静态信息，如对象、上下文信息等，其在视频的单个帧中是容易捕捉的，时间信息主要捕捉动作的动态特性，其通过整合帧间的空间信息而获得，对于行为识别来说，如何更好地捕捉到动作信息对于模型性能至关重要，现有的 3D 卷积神经网络的末尾使用的全局平均池化层阻碍了时间信息的丰富性。针对这个问题，拟采用深度双向转换器(Transformer)来替代全局平均池化。从输入视频中采样的 K 帧通过 3D 卷积编码器编码，得到的特征图（feature map）在网络的最后不使用全局平均池化，而是将特征向量分割成固定长度的 tokens 序列, 然后，为了保存位置信息，将学习的位置编码添加到提取的特征中，融合位置编码后利用深度双向转换器中的 Transformer 块对时间信息进行建模，通过深度双向转换器的多头注意力机制得出的特征向量融合了时间信息，之后将这些向量连接到一起通过多层感知机进行特征维度的变换，在通过计算对比损失来完成端到端的训练。从而得到一个泛化性能良好的预训练模型。

在本申请实施例中，通过确定正样本数据以及负样本数据，从而能够提高对于动作以及时空信息识别的敏感度，从而在不需要标注的情况下，也能够完成行为类别的训练，从而提高了预训练的效果。

图7示出了本发明第四实施例提供的一种基于步态的行为识别方法S104的具体实现流程图。参见图7，相对于图1-6任一项所述实施例，本实施例提供的一种基于步态的行为识别方法S104包括：S1041~S1044，具体详述如下：

在S1041中，确定所述目标视频数据的各个视频图像帧内的目标对象以及至少一个环境对象。

在S1042中，基于所有所述视频图像帧中的所述目标对象的各个关键特征点的第一位置坐标，确定第一上下文特征；所述关键特征点是与所述目标对象的步态相关的人体关键点。

在S1043中，基于各个所述视频帧中所述目标对象与所述环境对象之间的相对位置关系，确定第二上下文特征。

在S1044中，将所述第一上下文特征以及所述第二上下文特征导入所述上下文注意力网络，生成所述步态行为数据。

在本实施例中，深度卷积神经网络能够从 RGB 图像中提取纹理、外观特征，能够直接或间接使用其他视觉任务中经过大规模数据训练的预训练深度学习模型，从而有效地迁移图像特征表达知识，易受场景和物体的干扰。而基于高层语义人体关键点或其他关系建模的行为识别数据相对轻便且不受场景和物体干扰，但缺乏纹理和外观信息，无法有效利用行为所依赖的场景和物体信息，只能用于以人体为中心的相关动作进行行为识别。因此，有必要融合基于 RGB 图像的特征表达和基于高层上下文关系建模的信息，从而更好地挖掘时空特征之间时序关系以及人‐人、人‐物间的相互作用模式，同时充分利用卷积神经网络对底层视觉特征信息的抽象提取能力和时空图神经网络对高层语义关系推理能力。具体来说，使用注意力 3D 卷积神经网络提取人体区域的视频特征，该特征一方面用于进行基于 RGB 图像的行为识别，另一方面作为人体关键节点预测的子网络输入。人体关键节点估计自网络输出多帧的人体关键节点，将关键节点序列图像视频图像，送入图卷积上下文神经网络模型中进行基于人体关键节点的行为识别。此外，利用目标检测模型对画面中的人和物进行实时检测，然后将关注目标人体周围的其他人体特征表达、目标特征表达送入图卷积上下文神经网络模型进行联合优化训练。这样将检测到的目标特征表达、周围相关的人体特征以及人的关键节点作为关注对象行为的上下文信息通过图神经网络融入到模型中，从而降低从底层视觉特征到高层语义信息鸿沟的映射不一致鸿沟问题的同时，增强模型对人‐人、人‐物间的关联关系建模和表达能力，提升行为识别在不同复杂常见的关键信息学习能力和建模能力。

在本申请实施例中，通过识别环境对象，确定环境对象于目标对象之间的相互关系，能够提高动作类型的识别准确性。

图8示出了本发明一实施例提供的一种基于步态的行为识别装置的结构框图，该基于步态的行为识别装置包括的各单元用于执行图1对应的实施例中加密装置实现的各步骤。具体请参阅图1与图1所对应的实施例中的相关描述。为了便于说明，仅示出了与本实施例相关的部分。

参见图8，所述基于步态的行为识别装置包括：

目标视频数据接收单元81，用于接收待识别的目标视频数据；

帧间动作特征数据提取单元82，用于将所述目标视频数据导入预设的帧间动作提取网络，得到帧间动作特征数据；所述帧间动作特征数据用于确定所述目标视频数据中相邻的视频图像帧之间的动作特征信息；

融合特征数据单元83，用于将所述帧间动作特征数据导入池化融合网络，输出所述目标视频数据对应的融合特征数据；

步态行为数据识别单元84，用于将所述目标视频数据导入上下文注意力网络，确定所述目标视频数据中目标对象的步态行为数据；所述上下文注意力网络用于提取所述目标视频数据中所述目标对象与环境对象之间的相互位置关系；

行为识别单元85，用于根据所述步态行为数据以及所述融合特征数据，得到所述目标对象的行为类别。

可选地，所述帧间动作特征数据提取单元82包括：

图像张量转换单元，用于确定所述目标视频数据内任意两个连续的视频图像帧的图像张量；

特征点坐标确定单元，用于根据所述目标对象在所述视频图像帧的关键位置，确定多个特征点坐标；所述特征点坐标是根据所述目标对象的步态行为确定的；

特征向量生成单元，用于在所述图像张量中确定各个特征点坐标的张量表达，并基于所有所述特征点的坐标表达生成所述目标对象在所述视频图像帧中的特征向量；

位移相关矩阵构建单元，用于根据所述任意两个连续的视频图像帧的所述特征向量，构建位移相关矩阵；所述位移相关矩阵用于确定视频图像帧中各个特征点坐标与另一视频图像帧中各个坐标点之间的位移相关分数；

位移矩阵构建单元，用于根据所述位移相关矩阵确定各个所述特征点坐标在所述两个连续的视频图像帧间的最大位移距离，并基于所有所述最大位移距离确定所述目标对象的位移矩阵；

动作特征子数据确定单元，用于将所述位移矩阵导入到预设的特征变换模型，生成所述任意两个连续的视频图像帧的动作特征子数据；

动作特征子数据封装单元，用于基于所有所述视频图像帧的所述动作特征子数据得到所述帧间动作特征数据。

可选地，所述位移矩阵构建单元包括：

位移相关数组确定单元，用于在所述位移相关矩阵中确定各个特征点坐标对应的位移相关数组；

最大位移距离确定单元，用于从所述位移相关数组中确定相关系数最大的参数值作为所述特征点坐标的所述最大位移距离；

位移场确定单元，用于根据所有所述特征点坐标的所述最大位移距离构建所述目标对象在二维空间上的位移场；

位移场池化单元，用于通过激活函数softmax将所述位移场进行池化降维，得到一维置信度张量；

位移场融合单元，用于将所述位移场以及所述一维置信度张量进行融合，构建用于表达三维空间的位移矩阵。

可选地，行为识别装置还包括：

样本视频数据获取单元，用于获取用于对行为识别模块进行训练的样本视频数据；所述行为识别模块包括所述帧间动作提取网络、所述池化融合网络以及所述上下文注意力网络；

样本数据转换单元，用于根据所述样本视频数据生成正样本数据以及负样本数据；所述正样本数据是对所述样本视频数据中的背景信息进行干扰处理后得到的；所述负样本数据是对所述样本视频数据中的样本视频帧的帧序列进行干扰处理后得到的；

信息提取单元，用于通过所述正样本数据生成第一空间信息以及第一光流信息，以及通过所述负样本数据生成第二空间信息以及第二光流信息；

空间增强信息生成单元，用于根据所述第一空间信息以及所述第二空间信息得到空间增强信息；

光流增强信息提取单元，用于根据所述第二光流信息以及所述第一光流信息得到光流增强信息；

训练识别结果输出单元，用于将所述空间增强信息以及所述光流增强信息导入所述行为识别模块，得到所述样本视频数据的训练识别结果；

模块训练单元，用于基于所有所述样本视频数据的所述训练识别结果对初始识别模块内的位置学习参量进行预训练，得到所述行为识别模块。

可选地，所述样本数据转换单元包括：

背景区域识别单元，用于标记出所述样本视频数据的各个样本视频帧中的样本对象，并将除所述样本对象外的其他区域识别为背景区域；

背景区域处理单元，用于通过预设的薄板样条对所述背景区域进行插值处理，得到空间干扰图像帧；

正样本生成单元，用于根据各个空间干扰图像帧在所述样本视频数据中的帧序号进行封装，得到所述正样本数据。

可选地，所述样本数据转换单元包括：

视频划分单元，用于根据预设的动作时间时长，将所述样本视频数据划分为多个视频段；每个所述视频段的段落时长不大于所述动作时间时长；

乱序处理单元，用于根据预设的乱序处理算法，分别更新各个所述视频段内的所述样本视频帧的帧序号；

负样本生成单元，用于基于更新后的帧序号对各个所述样本视频帧进行封装，得到所述负样本数据。

可选地，所述步态行为数据识别单元84包括：

环境对象识别单元，用于确定所述目标视频数据的各个视频图像帧内的目标对象以及至少一个环境对象；

第一上下文特征生成单元，用于基于所有所述视频图像帧中的所述目标对象的各个关键特征点的第一位置坐标，确定第一上下文特征；所述关键特征点是与所述目标对象的步态相关的人体关键点；

第二上下文特征生成单元，用于基于各个所述视频帧中所述目标对象与所述环境对象之间的相对位置关系，确定第二上下文特征；

步态行为数据确定单元，用于将所述第一上下文特征以及所述第二上下文特征导入所述上下文注意力网络，生成所述步态行为数据。

因此，本发明实施例提供的基于步态的行为识别装置同样可以通过在接收到需要进行行为识别的目标视频数据后，将该目标视频数据导入到帧间动作提取网络，提取每个视频图像帧之间的动作特征信息，并基于所有视频图像帧之间的动作特征信息生成动作特征数据，继而将该动作特征数据导入到池化融合网络进行特征提取，以得到对应的融合特征数据，为了进一步提高行为识别的准确性，以及考虑动作行为在全局维度之间的关系，引入了上下文注意网络，确定该目标对象在整个目标视频数据中的步态行为数据，最后通过提取得到两个类型的数据确定目标对象在目标视频数据内的行为类别，实现了自动识别行为类别的目的。与现有的行为识别技术相比，本申请实施例并不需要计算整个视频数据的光流信息，而是通过即插即用的帧间动作提取网络确定各个视频帧之间的动作特征信息，从而大大降低了运算设备的运算成本，从而提高了行为识别的效率，并且为了在保持识别准确率的同时减少运算量，本申请实施例还引入了上下文注意网络，能够关注全局目标视频数据的上下文信息，在确保帧间局部的动作的同时，也能够加入全局相关的上下文信息，能够在减少运算压力的同时，确保了动态识别的准确性。

应当理解的是，图8示出的基于步态的行为识别装置的结构框图中，各模块用于执行图1至图7对应的实施例中的各步骤，而对于图1至图7对应的实施例中的各步骤已在上述实施例中进行详细解释，具体请参阅图1至图7以及图1至图7所对应的实施例中的相关描述，此处不再赘述。

图9是本申请另一实施例提供的一种终端设备的结构框图。如图9所示，该实施例的终端设备900包括：处理器910、存储器920以及存储在存储器920中并可在处理器910运行的计算机程序930，例如基于步态的行为识别方法的程序。处理器910执行计算机程序930时实现上述各个基于步态的行为识别方法各实施例中的步骤，例如图1所示的S101至S105。或者，处理器910执行计算机程序930时实现上述图9对应的实施例中各模块的功能，例如，图8所示的单元81至85的功能，具体请参阅图8对应的实施例中的相关描述。

示例性的，计算机程序930可以被分割成一个或多个模块，一个或者多个模块被存储在存储器920中，并由处理器910执行，以完成本申请。一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序930在终端设备900中的执行过程。例如，计算机程序930可以被分割成各个单元模块，各模块具体功能如上。

终端设备900可包括，但不仅限于，处理器910、存储器920。本领域技术人员可以理解，图9仅仅是终端设备900的示例，并不构成对终端设备900的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如终端设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器910可以是中央处理单元，还可以是其他通用处理器、数字信号处理器、专用集成电路、现成可编程门阵列或者其他可编程逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。

存储器920可以是终端设备900的内部存储单元，例如终端设备900的硬盘或内存。存储器920也可以是终端设备900的外部存储设备，例如终端设备900上配备的插接式硬盘，智能存储卡，闪存卡等。进一步地，存储器920还可以既包括终端设备900的内部存储单元也包括外部存储设备。

以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种基于步态的行为识别方法，其特征在于，包括：

接收待识别的目标视频数据；

2.根据权利要求1所述的行为识别方法，其特征在于，所述将所述目标视频数据导入预设的帧间动作提取网络，得到帧间动作特征数据，包括：

3.根据权利要求2所述的行为识别方法，其特征在于，所述根据所述位移相关矩阵确定各个所述特征点坐标在所述两个连续的视频图像帧间的最大位移距离，并基于所有所述最大位移距离确定所述目标对象的位移矩阵，包括：

4.根据权利要求1所述的行为识别方法，其特征在于，在所述接收待识别的目标视频数据之前，还包括：

5.根据权利要求4所述的行为识别方法，其特征在于，所述根据所述样本视频数据生成正样本数据以及负样本数据，包括：

6.根据权利要求4所述的行为识别方法，其特征在于，所述根据所述样本视频数据生成正样本数据以及负样本数据，包括：

7.根据权利要求1-5任一项所述的行为识别方法，其特征在于，所述将所述目标视频数据导入上下文注意力网络，确定所述目标视频数据中目标对象的步态行为数据，还包括：

8.一种基于步态的行为识别装置，其特征在于，包括：

目标视频数据接收单元，用于接收待识别的目标视频数据；

9.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。