CN112580559A

CN112580559A - 基于骨架特征和视频表征结合的双流视频行为识别方法

Info

Publication number: CN112580559A
Application number: CN202011562113.2A
Authority: CN
Inventors: 张宇昂; 庄云亮; 杨青翰; 吴琼; 吕晨; 吕蕾
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2021-03-30

Abstract

本发明公开一种基于骨架特征和视频表征结合的双流视频行为识别方法，包括：提取视频帧的多通道特征图，对多通道特征图进行时间维度和空间维度的卷积操作后得到视觉特征向量，根据视觉特征向量得到第一行为分类结果；提取视频帧中的人体骨骼关键点，根据空间结构划分人体骨骼关键点并以此构建骨骼时序图，根据骨骼时序图得到第二行为分类结果；对第一行为分类结果与第二行为分类结果加权后得到行为识别结果。通过对视频帧的视觉特征和视频帧中人体的骨架特征的提取实现双流特征提取，双流特征提取相对于单一的骨架特征而言，能够融合生成的视觉特征信息和骨架特征信息，能够更好的识别视频行为。

Description

基于骨架特征和视频表征结合的双流视频行为识别方法

技术领域

本发明涉及人体行为识别技术领域，特别是涉及一种基于骨架特征和视频表征结合的双流视频行为识别方法。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

近年来，随着互联网的普及以及网络速度的进一步提升，视频成为社会信息传递的主要途径，视频中不良信息的审核工作依旧需要大量的人力，视频内容自动分析的需求越来越高；此外，在智能监控领域，自动对监控视频中出现的异常行为进行分析也成为关注的焦点。视频行为识别技术可以完成端到端识别过程，只需要给定一段视频就能对视频中发生的行为进行识别。

目前，深度学习领域的相关知识已经被广泛的应用的视频行为识别中，将一段视频帧输入到定义好的行为识别模型中就可以输出该视频中的行为类型。目前行为识别模型普遍的做法是对视频中出现的人进行关键点检测，提取人体的骨架信息进行建模，通过不断的迭代训练得到一个效果最好的权重信息，再使用训练好的权重信息进行行为的预测，进而得到行为的类别。

然而，发明人发现影响现有方法性能的主要原因是，仅使用视频中人体的骨架信息，造成了其他关键特征的缺失；对于整个视频帧的RGB、光流和目标边缘等信息基本上很难检测到；虽然采用骨架信息可以减少光照等因素的影响，但是这也直接摒弃了视觉方面的信息，在视频的行为识别中，结合RGB、光流等信息对整体以及局部特征的表示具有至关重要的作用。

发明内容

为了解决上述问题，本发明提出了一种基于骨架特征和视频表征结合的双流视频行为识别方法，通过对视频帧的视觉特征和视频帧中人体的骨架特征的提取实现双流特征提取，双流特征提取相对于单一的骨架特征而言，能够融合生成的视觉特征信息和骨架特征信息，能够更好的识别视频行为。

为了实现上述目的，本发明采用如下技术方案：

第一方面，本发明提供一种基于骨架特征和视频表征结合的双流视频行为识别方法，包括：

提取视频帧的多通道特征图，对多通道特征图进行时间维度和空间维度的卷积操作后得到视觉特征向量，根据视觉特征向量得到第一行为分类结果；

提取视频帧中的人体骨骼关键点，根据空间结构划分人体骨骼关键点并以此构建骨骼时序图，根据骨骼时序图得到第二行为分类结果；

对第一行为分类结果与第二行为分类结果加权后得到行为识别结果。

第二方面，本发明提供一种基于骨架特征和视频表征结合的双流视频行为识别系统，包括：

第一识别模块，被配置为提取视频帧的多通道特征图，对多通道特征图进行时间维度和空间维度的卷积操作后得到视觉特征向量，根据视觉特征向量得到第一行为分类结果；

第二识别模块，被配置为提取视频帧中的人体骨骼关键点，根据空间结构划分人体骨骼关键点并以此构建骨骼时序图，根据骨骼时序图得到第二行为分类结果；

融合模块，被配置为对第一行为分类结果与第二行为分类结果加权后得到行为识别结果。

第三方面，本发明提供一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成第一方面所述的方法。

第四方面，本发明提供一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面所述的方法。

与现有技术相比，本发明的有益效果为：

本发明基于骨架特征和视频表征结合的双流视频行为识别网络模型创新性的提出一种双流特征提取模型，两个工作流的网络模型完全不同，通过不同的工作流提取各具优点的特征信息。

本发明基于骨架特征和视频表征结合的双流视频行为识别网络模型使用空间结构划分的方法将骨架信息进行图建模，将人体骨架的重心作为空间信息划分的关键点，人体骨架的关节作为图的节点，将图的邻域划分为不同的邻域，分别进行GCN提取特征。

本发明基于骨架特征和视频表征结合的双流视频行为识别网络模型相对于单一的骨架信息而言，能够更好的识别视频中出现的行为，能够很好的融合生成的视觉特征信息和骨架特征信息，实现对视频行为的高效和准确的识别，鲁棒性更好。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例1提供的基于骨架特征和视频表征结合的双流视频行为识别方法框架图；

图2为本发明实施例1提供的图建模中邻居点的子集划分；

图3为本发明实施例1提供的双流结果融合图。

具体实施方式：

下面结合附图与实施例对本发明做进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例1

如图1所示，本实施例提供一种基于骨架特征和视频表征结合的双流视频行为识别方法，包括：

S1：提取视频帧的多通道特征图，对多通道特征图进行时间维度和空间维度的卷积操作后得到视觉特征向量，根据视觉特征向量得到第一行为分类结果；

S2：提取视频帧中的人体骨骼关键点，根据空间结构划分人体骨骼关键点并以此构建骨骼时序图，根据骨骼时序图得到第二行为分类结果；

S3：对第一行为分类结果与第二行为分类结果加权后得到行为识别结果。

本实施例采用的数据集为Kinetics数据集，该数据集视频来源于YouTube，一共有600个类别，每个类别至少600个视频以上，每段视频持续10秒左右，该数据集主要分为三大类：人与物互动，比如演奏乐器；人人互动，比如握手、拥抱；运动等，即person、person-person、person-object；

使用搜索引擎搜索下载Kinetics数据集后，由于数据集解压之后为很短的视频片段，且视频片段的时间关联性十分的密切，相邻两帧之间的内容相似度非常高，所以为了减少后续进行模型训练所消耗的资源，本实施例首先对获取的视频进行预处理，即对每一段视频进行稀疏采样，视频每隔一帧采样一次，将稀疏采样之后的视频帧用于后续的特征提取。

本实施例将特征提取分成两个工作流，一个工作流将原始视频片段使用3D卷积模型提取视频视觉特征，3D卷积模型能够更好的提取视频中的空间特征和时间特征；另外一个工作流将人体骨骼关键点通过图模型进行建模，通过时空图卷积神经网络提取骨架信息的运动特征，该方法可以减少光照等噪点信息对行为识别工作的干扰；上述两个工作流网络结构最后一层由softmax分类器构成，本实施例对两个工作流输出的视觉特征和骨架信息的运动特征采用加权求和方式得到最后的行为识别分类结果。

具体地：

所述步骤S1中，提取视频帧的多通道特征图包括：连续输入7张大小为60*40的连续帧，应用一组硬连线内核(hardwired kernels)从输入的连续的帧中获取多个通道信息，分别是：灰度、x方向梯度、y方向梯度、x方向光流和y方向光流5种通道信息；其中，前三种通道信息可以直接对每一帧进行提取，后边两种光流信息需要利用相邻帧的信息提取；最终得到33*(7+7+7+6+6)个通道数，每个通道的大小是60*40。

上述为对数据进行的建模工作，将视频数据转换成3D卷积神经网络可以进行训练的形式，接下来是对数据信息在模型中进行学习的过程：

对于视觉信息特征来说，上述操作已经将视觉信息提取为33个60*40的特征图，然后对多通道特征图进行时间维度和空间维度的卷积操作后得到视觉特征向量，包括：

对于输入的5个通道信息分别采用7*7*3的3D卷积核进行卷积操作，其中，7*7在空间维度，3是时间维度，为了提取更好的表示信息，本实施例采用两个相同大小的卷积核同时提取特征，然后采用一个2*2的最大池化进行下采样操作，在这个过程中使用BP算法迭代训练3D卷积核的权重，3D卷积运算如下：

经过多层卷积和下采样之后，每连续7帧的输入图像被转化为一个128维的视觉特征向量，该视觉特征向量捕捉输入帧的运动信息；输出层的节点数与行为的类型数目一致，而且每个节点与最后一层输出的128个节点是全连接的；

最后，本实施例采用softmax分类器对这128维的视觉特征向量进行分类，得到第一行为分类结果。

所述步骤S2中，提取骨架信息并利用骨架信息进行图建模处理：

将视频帧采用openpose开源算法识别视频中的人体骨骼关键点，生成人体骨架信息，根据人体骨架信息构建骨骼时序图G＝(V，E)，其节点集合V＝{v_ti|t＝1，...，T，i＝1，...，N}。其中t表示帧的序列，i表示关键点的序列；E为图结构的边集合，在形式上将E看做两个子集，E_S＝{v_tiv_tj|(i，j)∈H}和E_F＝{v_tiv_(t+1)j|(i，j)∈H}，其中E_S集合表示空间上的骨架关键点之间的联系，E_F集合表示在时间序列上相对应骨架之间的联系。

本实施例采用空间结构划分的方法将骨架信息进行图建模，将人体骨架的重心作为空间信息划分的关键点，人体骨架的关节作为图的节点，构建骨骼时序图，具体包括：

首先对人体骨骼关键点进行采样，采样函数P(h，w)以x像素周边的邻居像素作为采样信息，在骨骼时序图中，邻居顶点集合被定义为：

B(v_ti)＝{v_tj|d(v_tj，v_ti)≤D}；

其中，d(v_tj，v_ti)是从v_tj到v_ti的最短距离；

在骨骼时序图中，本实施例将邻居节点划分为不同的子集，并且将不同的子集映射到对应的子集标签：

l_ti：B(v_ti)→{0，...，K-1}；

邻域划分子集的方式通常包括直接划分、根据距离划分和根据空间结构划分的方式，本实施例中采用根据空间结构划分的方式，这种方式能够更好的表示结构化的信息；如图2所示，采用根据空间结构划分节点的方式需要借助重心的概念，将整个邻域中根节点作为一个子集，到根节点距离的长度小于根节点到重心的距离划分为一个子集，剩下的邻居节点划分为一个子集：

权重方程：w(v_ti，v_tj)＝w′(l_ti(v_tj))；

下面对采样区域和权重方程进行空间图卷积操作：

其中，归一化项Z_ti(v_tj)＝|{v_tk|l_ti(v_tk)＝l_ti(v_tj)}|等价于对应子集的基。

本实施例将输入的骨架图信息每个序列使用9个ST-GCN图卷积单元提取特征，接着使用global pooling抽取为256维的向量，最后训练softmax分类器进行分类，得到第二行为分类结果。

最后，在所述步骤S3中，本实施例将根据不同类别的信息中得到的各类别分数进行加权求和，如图3所示，本实施例主要依赖视觉信息的特征，视觉特征得到的分数权重值取0.6，骨架信息得到的分数权重取0.4，加权求和之后得到各类别的最终分数，完成整个行为识别任务；本实施例基于骨架特征和视频表征结合的双流视频行为识别网络模型更好的结合骨架信息和视觉特征信息，达到更好的识别效果。

实施例2

本实施例提供一种基于骨架特征和视频表征结合的双流视频行为识别系统，包括：

此处需要说明的是，上述模块对应于实施例1中的步骤S1至S3，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

在更多实施例中，还提供：

一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例1中所述的方法。为了简洁，在此不再赘述。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例1中所述的方法。

实施例1中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元即算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于骨架特征和视频表征结合的双流视频行为识别方法，其特征在于，包括：

2.如权利要求1所述的基于骨架特征和视频表征结合的双流视频行为识别方法，其特征在于，所述多通道特征图包括5个通道信息，具体为灰度、x方向梯度、y方向梯度、x方向光流和y方向光流。

3.如权利要求2所述的基于骨架特征和视频表征结合的双流视频行为识别方法，其特征在于，所述灰度、x方向梯度和y方向梯度的通道信息通过对每一视频帧进行提取得到，所述x方向光流和y方向光流的通道信息通过对相邻视频帧进行提取得到。

4.如权利要求1所述的基于骨架特征和视频表征结合的双流视频行为识别方法，其特征在于，所述卷积操作采用两个相同大小的卷积核同时提取时间维度和空间维度的特征，然后采用最大池化进行下采样操作后得到视觉特征向量。

5.如权利要求1所述的基于骨架特征和视频表征结合的双流视频行为识别方法，其特征在于，根据空间结构划分人体骨骼关键点，将人体骨架重心作为关键点，将人体骨架关节点作为图节点，以此构建骨骼时序图。

6.如权利要求1所述的基于骨架特征和视频表征结合的双流视频行为识别方法，其特征在于，将骨骼时序图划分为多个邻域，对每个邻域通过时空图卷积网络提取骨架特征，根据骨架特征得到第二行为分类结果。

7.如权利要求6所述的基于骨架特征和视频表征结合的双流视频行为识别方法，其特征在于，所述将骨骼时序图划分为多个邻域包括：将骨骼时序图中根节点作为第一子集，将与根节点的距离小于根节点到重心的距离的图节点划分为第二子集，剩下的图节点划分为第三子集。

8.一种基于骨架特征和视频表征结合的双流视频行为识别系统，其特征在于，包括：

9.一种电子设备，其特征在于，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-7任一项所述的方法。