CN113343950B

CN113343950B - 一种基于多特征融合的视频行为识别方法

Info

Publication number: CN113343950B
Application number: CN202110891347.XA
Authority: CN
Inventors: 李太豪; 马诗洁; 刘昱龙
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2021-08-04
Filing date: 2021-08-04
Publication date: 2021-11-16
Anticipated expiration: 2041-08-04
Also published as: CN113343950A

Abstract

本发明属于图像识别技术领域，涉及一种基于多特征融合的视频行为识别方法，通过将采集的视频信息从多个视角进行处理，对视频信息进行图像帧采样，进行人物的骨骼点信息提取，获得视频中人物行为的关键点热度图信息，人物的前景语义分割信息，并与RGB信息进行融合，从而提高视频行为识别的准确率。本发明同端到端的处理RGB视频信息进行行为识别的方法比较，通过提取的骨骼点信息可以更多的关注人物的动作信息，通过语义分割网络，获取场景中的前景信息，屏蔽无关的背景干扰，通过这三者的融合进行特征的互补，提高行为识别的准确率。

Description

一种基于多特征融合的视频行为识别方法

技术领域

本发明属于图像识别技术领域，涉及一种基于多特征融合的视频行为识别方法。

背景技术

行为识别是视频理解中的一个重要任务，在视频推荐系统，人机交互，游戏娱乐等领域有重要的应用。

为了更好的理解行为识别，需要从多个角度对视频中的信息进行分析。目前人们常采集RGB信息，通过端到端的方法对视频中的行为进行分类。

随着传感器和多种信息提取算法的出现，人们可以从多个视角来提取对特定人物有用的信息。目前多特征融合的行为识别方法，如通过提取光流信息和图像空间信息，对动作和外形信息进行融合，如slowfast，通过两个支路，提取空间和时间的信息进行融合。视频中的人体骨骼信息，常常作为简单行为识别的特征描述。语义分割信息，可以用以区分前景和背景信息，屏蔽无效的背景信息。

基于上述有效信息，本发明针对单一特征表达能力有限的问题，通过提取多个视角的特征，进行互补性的融合操作，对识别效果进行增强，视频中的行为，人物和场景信息对行为识别而言，都是重要的线索。

发明内容

为了解决现有技术中存在的上述技术问题，本发明提出一种基于多特征融合的视频行为识别方法，其具体技术方案如下：

一种基于多特征融合的视频行为识别方法，包括如下步骤：

步骤一，对视频序列进行图像帧采样，得到原始的RGB图像序列

，后送入 3DCNN网络进行特征提取，获取特征

后通过全连接进行全连接维度变换生成

；

步骤二，对原始的RGB图像序列

进行 skeleton提取，获取关键点热度图视频序列

，后送入3DCNN网络中进行特征提取，获取特征

后通过全连接进行全连接变换生成

；

步骤三，对原始的RGB图像序列

进行语义分割，获取语义分割热度图序列

，将语义分割热度图序列

跟对应的原始的RGB图像序列

进行与操作，生成前景分割图像序列

，再将

送入3DCNN网络中进行特征提取，获取特征

后通过全连接进行全连接维度变换生成

；

步骤四，将

、

、

通过全连接，进行全连接维度变换后融合，进行分类操作。

进一步的，所述3DCNN网络包括8个3*3*3卷积层，5个池化层，2个全连接层，和1个softmax分类层。

进一步的，所述原始的RGB图像序列

的大小为T×3×H×W，其中T为视频采样的帧数，3为图像的通道数，H为图像高度，W为图像宽度；其中的

，

，

是进行展平之后的一维特征向量。

进一步的，所述步骤二，具体包括：

步骤201,将原始的RGB图像序列

送入用于处理二维图像的人体关键点检测网络OpenPose网络中进行处理，输出骨骼点和骨骼点之间的关系生成骨骼图序列

，即关键点热度图视频序列；

步骤202，将骨骼图序列

送入 3DCNN中进行特征提取，获取特征

，然后通过全连接进行全连接维度变换生成

。

进一步的，所述OpenPose网络，首先检测属于图像中每个人骨骼点，输出表征关键点置信度的关键点热度图和关键点对应的连接关系的关键点亲和力图，通过关键点亲和力图将关键点进行分组，指定给不同的个体，然后对属于同一个个体的关键点进行连接，生成关键点连接图。

进一步的，所述步骤三，具体包括：

步骤301，将原始的RGB图像序列

送入语义分割网络Unet网络中进行语义分割，即对每个像素点进行分类，获取每张图像的语义分割结果Mask，即语义分割热度图序列Mask；

步骤302，将Mask同

进行与操作，获取前景信息，背景信息置0，生成前景分割图像序列

；

步骤303，将前景分割图像序列

送入 3DCNN中进行特征提取，获取特征

，然后通过全连接进行全连接维度变换生成

。

进一步的，所述步骤四，具体包括如下步骤：

步骤401，将提取生成的特征

，

，

进行全连接操作后，映射为

，

，

；

步骤402，将

，

，

进行concat操作生成

；

步骤403，将

进行全连接操作后，映射为

；

步骤404，将

进行sigmoid激活，生成的向量元素值介于0~1之间，以及split操作，分为

，

，

，分别与

，

，

进行点成操作生成

，

，

；

步骤405，将

，

，

进行concat操作输出

；,

步骤406，

全连接操作映射为

,；

步骤407，

全连接操作映射为

并进行分类。

本发明通过对RGB视频信息进行骨骼点信息提取，语义分割信息的提取，结合RGB信息，对这三者信息进行融合，提高特征提取的多样性，结合多个特征之间的互补关系，从而更好的识别视频中的行为。

附图说明

图 1 为本发明方法的流程图；

图 2 为本发明采用的3DCNN网络结构图；

图 3 为本发明的骨骼点连接图示例；

图 4 为本发明的语义分割Mask图示例；

图 5 为本发明的多特征融合的结构图。

具体实施方式

为了使本发明的目的、技术方案和技术效果更加清楚明白，以下结合说明书附图，对本发明作进一步详细说明。

如图1所示，本发明的一种基于多特征融合的视频行为识别方法，将视频序列按照一定的帧率进行采样，采样后的图像序列进行三种处理方式：第一种图像序列为原始的RGB图像序列，即原始图像序列进行关键帧采样后的图像序列；第二种图像序列为骨骼点图像序列；第三种图像序列为前景分割后的图像序列；再分别送入3DCNN网络进行特征提取，后融合输出，具体步骤如下：

，后送入 3DCNN网络进行特征提取，获取特征

后通过全连接进行全连接维度变换生成

；

步骤二，对原始的RGB图像序列

进行 skeleton提取，获取关键点热度图视频序列

，后送入3DCNN网络中进行特征提取，获取特征

后通过全连接进行全连接变换生成

；

步骤三，对原始的RGB图像序列

进行语义分割，获取语义分割热度图序列

，将语义分割热度图序列

跟对应的原始的RGB图像序列

进行与操作，生成前景分割图像序列

，再将

送入3DCNN网络中进行特征提取，获取特征

后通过全连接进行全连接维度变换生成

；

步骤四，将

、

、

通过全连接，进行全连接维度变换后融合，进行分类操作。

其中，所述原始的RGB图像序列

的大小为T×3×H×W，其中T为视频采样的帧数，3为图像的通道数，H为图像高度，W为图像宽度。

其中的

，

，

是进行展平之后的一维特征向量。

卷积网络CNN具有强大的空间特征提取能力。传统的2DCNN没有考虑时间维度上帧间的运动信息，3DCNN能够捕获视频中时间和空间的特征信息，同时对外观和运动进行建模，相对于2DCNN多了一个维度，可以捕获运动信息，是目前行为识别中获取空间和时间特征的常用方法。其中3DCNN的网络结构，如图2所示，即本发明采用的C3D网络，用于提取三种输入的特征，所述C3D网络共8个3*3*3卷积层，5个池化层，2个全连接层，和1个softmax分类层。

所述步骤二，具体包括：

步骤201,将原始的RGB图像序列

，即关键点热度图视频序列；

步骤202，将骨骼图序列

送入 3DCNN中进行特征提取，获取特征

，然后通过全连接进行全连接维度变换生成

。

所述关键点热度图视频序列

的获取采用现成的骨骼点提取算法 Openpose获取骨骼点连接图。对于OpenPose网络，是用于多人人体姿势估计的自下而上算法，首先检测属于图像中每个人骨骼点，然后将部件分配给不同的个体。OpenPose输出表征关键点置信度的关键点热度图和关键点对应的连接关系的关键点亲和力图，通过关键点亲和力图将关键点进行分组，指定给不同的个体，然后对属于同一个个体的关键点进行连接，生成关键点连接图，最终生成的人体骨架示例图，如图3所示。

所述步骤三，具体包括：

步骤301，将原始的RGB图像序列

步骤302，将Mask同

；

步骤303，将前景分割图像序列

送入 3DCNN中进行特征提取，获取特征

，然后通过全连接进行全连接维度变换生成

。

所述语义分割网络Unet对于每一帧进行语义分割处理之后，对于像素分类属于前景的像素赋值为1，对于像素分类属于背景的像素赋值为0，其中分割处理后生成的图片序列为mask。Unet网络是一个对称的结构，左半边是Encoder，右半边是Decoder，先经过Encoder处理，再经过Decoder处理，最终实现对图像中的像素进行分类，如图4所示。

所述步骤四，将

，

，

进行融合，融合方式如图5所示，采用自适应的方式进行融合，融合的权值通过网络进行自适应学习而得到，然后将

，

，

与学习的权值

，

，

加权融合，具体包括如下步骤：

步骤401，将提取生成的特征

，

，

进行全连接操作后，映射为

，

，

；

步骤402，将

，

，

进行concat操作生成

；

步骤403，将

进行全连接操作后，映射为

；

步骤404，将

，

，

，分别与

，

，

进行点成操作生成

，

，

；

步骤405，将

，

，

进行concat操作输出

；,

步骤406，

全连接操作映射为

,；

步骤407，

全连接操作映射为

并进行分类。

综上所述，本发明通过将采集的视频信息从多个视角进行处理，对视频信息进行骨骼点信息提取，获得视频中人物行为的骨骼点信息，包含人物的前景语义分割信息，并与RGB信息进行融合，从而提高视频行为识别的准确率。本发明同端到端的处理RGB视频信息进行行为识别的方法比较，通过提取的骨骼点信息可以更多的关注人物的动作信息，通过语义分割网络，获取场景中的前景信息，屏蔽无关的背景干扰。通过这三者的融合进行特征的互补，提高行为识别的准确率。

以上所述，仅为本发明的优选实施案例，并非对本发明做任何形式上的限制。虽然前文对本发明的实施过程进行了详细说明，对于熟悉本领域的人员来说，其依然可以对前述各实例记载的技术方案进行修改，或者对其中部分技术特征进行同等替换。凡在本发明精神和原则之内所做修改、同等替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多特征融合的视频行为识别方法，其特征在于，包括如下步骤：

，后送入3DCNN网络进行特征提取，获取特征

后通过全连接进行全连接维度变换生成

；

步骤二，对原始的RGB图像序列

进行 skeleton提取，获取关键点热度图视频序列

，后送入3DCNN网络中进行特征提取，获取特征

后通过全连接进行全连接变换生成

；

步骤三，对原始的RGB图像序列

进行语义分割，获取语义分割热度图序列

，将语义分割热度图序列

跟对应的原始的RGB图像序列

进行与操作，生成前景分割图像序列

，再将

送入3DCNN网络中进行特征提取，获取特征后通过全连接进行全连接维度变换生成

；

步骤四，将

、

、

通过全连接，进行全连接维度变换后融合，进行分类操作，具体包括以下步骤：

步骤401，将提取生成的特征

，

，

进行全连接操作后，映射为

，

，

；

步骤402，将

，

，

进行concat操作生成

；

步骤403，将

进行全连接操作后，映射为

；

步骤404，将

，

，

，分别与

，

，

进行点乘操作生成

，

，

；

步骤405，将

，

，

进行concat操作输出

；

步骤406，

全连接操作映射为

；

步骤407，

全连接操作映射为

并进行分类。

2.如权利要求1所述的一种基于多特征融合的视频行为识别方法，其特征在于，所述3DCNN网络包括8个3*3*3卷积层，5个池化层，2个全连接层，和1个softmax分类层。

3.如权利要求1所述的一种基于多特征融合的视频行为识别方法，其特征在于，所述原始的RGB图像序列

，

，

是进行展平之后的一维特征向量。

4.如权利要求1所述的一种基于多特征融合的视频行为识别方法，其特征在于，所述步骤二，具体包括：

步骤201,将原始的RGB图像序列

，即关键点热度图视频序列；

步骤202，将骨骼图序列

送入 3DCNN中进行特征提取，获取特征

，然后通过全连接进行全连接维度变换生成

。

5.如权利要求4所述的一种基于多特征融合的视频行为识别方法，其特征在于，所述OpenPose网络，首先检测属于图像中每个人骨骼点，输出表征关键点置信度的关键点热度图和关键点对应的连接关系的关键点亲和力图，通过关键点亲和力图将关键点进行分组，指定给不同的个体，然后对属于同一个个体的关键点进行连接，生成关键点连接图。

6.如权利要求1所述的一种基于多特征融合的视频行为识别方法，其特征在于，所述步骤三，具体包括：

步骤301，将原始的RGB图像序列

步骤302，将Mask同

；

步骤303，将前景分割图像序列

送入 3DCNN中进行特征提取，获取特征

，然后通过全连接进行全连接维度变换生成

。