CN111027448A

CN111027448A - 一种基于时域推理图的视频行为类别识别方法

Info

Publication number: CN111027448A
Application number: CN201911229970.8A
Authority: CN
Inventors: 徐行; 张静然; 沈复民; 贾可; 申恒涛
Original assignee: Chengdu Koala Youran Technology Co ltd
Current assignee: Chengdu Koala Youran Technology Co ltd
Priority date: 2019-12-04
Filing date: 2019-12-04
Publication date: 2020-04-17
Anticipated expiration: 2039-12-04
Also published as: CN111027448B

Abstract

本发明属于机器识别技术领域，具体为一种基于时域推理图的视频行为类别识别方法，所述视频行为类别识别方法，依据视频帧间动作依赖关系构建多个时域推理图的多头时域邻接矩阵来推理行为先后动作间的隐式关系，同时构建语意融合器在多个时间尺度提取不同依赖关系的动作时域特征并融合成一个强语义的语义特征，进行视频行为类别识别。本发明通过时序建模提高视频行为的类别识别准确度。

Description

一种基于时域推理图的视频行为类别识别方法

技术领域

本发明属于视频行为识别技术领域，具体的说，是一种对视频时域间动作依赖关系进行推理的行为类别识别方法。

背景技术

在移动互联时代，视频非常易获取和分享，对视频内容进行分析，不仅可以避免犯罪，还能进行相应推荐提升用户体验。视频中行为识别作为该领域一个研究方向，不仅有重要学术意义，而且有广泛的商业潜在价值，如交通、楼宇、及学校等监控视频行为分析。

视频行为识别的目标是识别出视频中所发生行为的类别，以深度网络为基础的视频行为分析方法中有两类比较常用的网络结构：

1)视频帧空域建模的2D卷积神经网：该结构直接对视频中的帧提取空域特征然后进行融合得到视频特征，用于后续分类识别。但不同于静态图像，视频除了有特定的空域结构，还有长短程的时序模式，而对时序进行建模是视频分析中比较重要的步骤，2D卷积神经网络没有时序建模的能力；

2)视频帧序列时域上下文建模的3D卷积神经网络或循环神经网络：该结构除了提取视频时域特征外，也可以对视频中时序结构进行某种程度的建模。但这类结构主要对粗粒度的长程时序进行建模，而对细粒度的短程时序关系表现差。

现有的这两类方法在实际中都易于识别有较强空域依赖的动作，而不利于捕获那种由时域动作变化和依赖关系主导的动作结构。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于时域推理图的视频行为类别识别方法，通过时序建模提高视频行为的类别识别准确度。

本发明通过下述技术方案实现：一种基于时域推理图的视频行为类别识别方法，其特征在于：依据视频帧间动作依赖关系构建多个时域推理图的多头时域邻接矩阵来推理行为先后动作间的隐式关系，同时构建语意融合器在多个时间尺度提取不同依赖关系的动作时域特征并融合成一个强语义的语义特征，进行视频行为类别识别。

本发明中，以新构建的多头时序邻接矩阵来表征行为间的动作粗细粒度依赖关系，避免了无法进行时序建模和只能进行长程尺度的粗粒度动作关系建模问题，同时，以该多头邻接矩阵为基础进行图卷积，对视频中的长短动作时序关系进行推理，并应用新创建的多头语意融合器对各种类型的动作关系进行特征语意融合，从而提高了视频行为的类别识别准确度。

本发明中有两个重要的内容：

第一、多头时域邻接矩阵：

时域邻接矩阵用来表征长短程的依赖，多头旨在建模同一依赖间的多种动作关系。邻接矩阵中元素a_i,j表征帧i，j间的依赖关系(i和j间的距离代表是长短程)，可以构造多个这样的矩阵也就是多头的意思。多头时域邻接矩阵A，表示为A＝{A¹,A²,…,A^N}，

本发明中构建的时域邻接矩阵具有可学习性，这与现有技术有非常大的区别。现有技术中邻接矩阵是构造完后就定死了的，一直以这种关系进行后续的过程，而我们的时域邻接矩阵为了图卷积网络进行服务，通过学习，不断优化分类识别的精准度。

多头时域邻接矩阵是为了进行图卷积推理时，尽可能多的提取长短程依赖特征，但推理时需一个语意信息更加丰富的综合特征序列，所以构造了一个多头语意融合器。

第二、多头语意融合器：原输入的空域特征序列X中x_i经多头时域邻接矩阵A构造的时域图G变换后得到全局信息

多头语意融合器就是对全局信息

进行语意融合的结构。

本发明与现有技术相比，具有以下优点及有益效果：

(1)依据视频帧间动作依赖关系，而非帧内的背景等非本征形态特征构建多个时域图来推理行为先后动作间的隐式关系，解决复杂行为中基础动作长程的依赖和细粒度特性不易识别的问题，同时，构造一种多头的时域推理图和语意关系融合器，在多个时间尺度提取不同依赖关系的动作时域特征并融合成一个强语意的特征来指导识别。

(2)以新构建的多头时域邻接矩阵来表征行为间的动作粗细粒度依赖关系，避免了无法进行时序建模和只能进行长程尺度的粗粒度动作关系建模问题。

(3)在以新构建的多头时域邻接矩阵来表征行为间的动作粗细粒度依赖关系的同时，以该多头时域邻接矩阵为基础进行图卷积，对视频中的长短动作时序关系进行推理，并应用新创建的多头语意融合器对各种类型的动作关系进行特征语意融合，从而提高了视频行为的类别识别准确度。

进一步，本发明所述的视频行为类别识别方法，具体包括以下步骤：

步骤S1:对视频进行采样；

步骤S2:运用卷积网络提取视频帧序列的空域特征X；

步骤S3:构建有动作依赖关系的多头时域邻接矩阵A；

步骤S4:运用时域图卷积网络进行推理；

步骤S5:对整个网络进行监督式训练；

步骤S6:对视频进行测试分类。

进一步地，为了更好的实现本发明，所述步骤S2具体包括以下步骤：

步骤S21:运用卷积网络获取视频帧序列的特征图；

步骤S22:构建时域推理图来表征视频中前后帧间的动作依赖关系。

进一步地，为了更好的实现本发明，所述步骤S3具体包括以下步骤：

步骤S31:构建可学习多头时域邻接矩阵来表征帧节点间的关系；

步骤S32:计算多头时域邻接矩阵中两个帧节点间的边E的权重。

进一步地，为了更好的实现本发明，所述步骤S4具体包括以下步骤：

步骤S41:构造一个视频中行为推理的图卷积网络，运用图卷积网络对空域特征X进行推理变换，建模长短程动作依赖特征；

步骤S42:由空域特征X推理变换后提取与帧相对应的时域特征Z；

步骤S43:构造多头语意融合器，对空域特征X和时域特征Z进行语意融合。

进一步地，为了更好的实现本发明，所述步骤S42具体包括以下步骤：

步骤S421：运用全局池化提取动作依赖特征序列Z的全局信息；

步骤S422：在全局信息的基础上，计算不同动作依赖特征序列间的权重系数；

步骤S423：根据权重系数来融合动作依赖特征序列，获得语意特征。

进一步地，为了更好的实现本发明，所述步骤S5具体包括以下步骤：

步骤S51:提取卷积网络的最终输出分数特征S；

步骤S52:从训练集中提取表征视频行为真实分类的真实标签向量Y；

步骤S53:真实标签向量Y的类别真实索引与该视频类别对应的预测分类特征向量中最大值索引进行比较，采用交叉熵作为损失函数对整个网络进行训练。

进一步地，为了更好的实现本发明，所述步骤S6具体包括以下步骤：

步骤S61:对一段给定包含行为的视频，提取该视频中包含多个预测特征向量的时空分数特征V，时空分数特征V为一个行向量；

步骤S62:对时空分数特征V中各个向量的模按数值大小进行排序，模的数值最大的预测特征向量所对应的类别索引即是该行为的类别。

附图说明

图1是基于本发明时域推理图的一种神经网络连接框架；

图2是本发明具体实施方式的流程图；

图3是多头时域推理图的多头时域邻接矩阵中相应节点的相似性计算示意图；

图4是多头语意特征的融合方法流程示意图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

实施例1：

一种基于时域推理图的视频行为类别识别方法，依据视频帧间动作依赖关系构建多个时域推理图的多头时域邻接矩阵来推理行为先后动作间的隐式关系，同时构建语意融合器在多个时间尺度提取不同依赖关系的动作时域特征并融合成一个强语义的语义特征，进行视频行为类别识别。

一个基本行为有长程的和短程的依赖关系，而且通常在视频中帧间的前后依赖可抽象出多种关系，例如：考虑视频中一个人类行为“将一个球丢到空中，然后抓住它”，这个行为有很多短程和长程的基本依赖，首先有短程的关系“丢”、“丢到空中”、“掉落”、“抓”；还有一些长程的关系“丢然后抓”。

短程：指前后帧间时间隔较小；

长程：指前后帧间时间隔较大；

所以本实施例中构造了多头的时域邻接矩阵，来建模这种复杂行为有多种基本动作和长短程依赖的特性。

本实施例提供的视频行为类别识别方法，以新构建的多头时域邻接矩阵来表征行为间的动作粗细粒度依赖关系，避免了无法进行时序建模和只能进行长程尺度的粗粒度动作关系建模问题，同时，以该多头时域邻接矩阵为基础进行图卷积，对视频中的长短动作时序关系进行推理，并应用新创建的多头语意融合器对各种类型的动作关系进行特征语意融合，从而提高了视频行为的类别识别准确度。

实施例2：

如图2所示，一种基于时域推理图的视频行为类别识别方法，具体包括以下步骤：

步骤S1:对视频进行采样；

步骤S2:运用卷积网络提取视频帧序列的空域特征X；

步骤S3:构建有动作依赖关系的多头时域邻接矩阵A；

步骤S4:运用时域图卷积网络进行推理；

步骤S5:对整个网络进行监督式训练；

步骤S6:对视频进行测试分类。

实施例3：

如图1至图4所示，一种基于时域推理图的视频行为类别识别方法包括以下步骤：

步骤S1:对视频进行采样。

一段视频通常有大量的帧，如果都当做输入进行后续运算，需要花费巨大计算代价，而且这其中有很多信息是相似的，存在冗余，所以首先需对视频进行采样。

本实施中采样方式有两种：第一种，如果用2D的卷积网络提取特征图采用全局稀疏采样；第二种，如果用3D的卷积网络提取特征图采用局部密集采样。

步骤S2:运用卷积网络提取视频帧序列的空域特征X。

对已采样的视频帧，运用卷积网络进行特征提取，如2D的Inception或者基于3D扩张技术的ResNet-50。

所述步骤S2具体包括以下步骤：

步骤S21:运用卷积网络获取视频帧序列的特征图；

具体地：空域特征序列表示为X＝{x₁,x₂,...,x_T}；其中：T为帧序列的个数；

每帧特征图为x_i∈R^C×H×W；所有帧序列特征表示为X∈R^T×C×H×W；其中，C、H、W分别表示特征图的通道、高度和宽度。

步骤S22:构建时域推理图来表征视频中前后帧间的动作依赖关系；

具体地：构建时域图G＝(X；E)，其中X表示空域特征序列，E表示有相邻关系的帧节点间的边；

步骤S3:构建有动作依赖关系的多头时域邻接矩阵A。

构建可学习多头邻接矩阵来表征帧节点间的关系，矩阵中相应位置的点代表按时序顺序的两相应帧间的关系；具体的矩阵中节点相关性计算细节如图3所示；

在多头时域邻接矩阵中，时序帧在多头邻接矩阵按行列放置，在时域图中，两个帧节点间的边E的权重按以下式计算：

其中，

表示两帧节点间的相似性，

k表示某个上标，k∈{1,2,...,N}，N是多头时域邻接矩阵的个数；

表示相似性度量函数。

在计算得到多个时域图的边权重

后，组合成多头时域邻接矩阵A＝{A¹,A²,...,A^N}；

步骤S4:运用时域图卷积网络进行推理。

所述步骤S4具体包括：

步骤S41:构造一个视频中行为推理的图卷积网络，运用图卷积网络对包含可学习邻域关系的时域图进行推理，建模长短程动作依赖特征；

具体地：

由步骤2中提取的空域特征序列X和步骤3中构建的多头时域邻接矩阵A，进行图卷积：

其中，

表示以多头时域邻接矩阵A中第n个邻接关系为基础进行图卷积推理后的语意特征，

表示非线性函数。

进一步，本实施例中

表示的非线性函数采用ReLU函数。

将步骤2中视频空域特征序列X输入到时域推理图中进行图卷积，由步骤S41推理变换后可提取某帧x_i相应的动作依赖特征序列

紧接着对该特征采用下式进行语意融合：

其中，

表示语意融合函数。

由于语意融合函数

是用来对经不同时域图推理后的特征进行语意融合，需要先运用全局池化，再计算表征帧节点特征重要性的权重系数，具体包括以下步骤：

步骤S421：运用全局池化提取各个动作依赖特征序列

的全局信息，具体操作为：

其中，

表示包含全局信息的实数值；

步骤S422：在全局信息

的基础上，计算不同动作依赖特征序列间的权重系数(β′₁,β′₂,...,β′_N)，其中β′_i由以下式实现：

其中，

表示未进行归一化的权重系数；

步骤S423：根据权重系数(β′₁,β′₂,...,β′_N)来融合动作依赖特征序列

获得语意特征z_i；

由多头语意融合器融合后的语意特征z_i组合成时域特征序列Z＝{z₁,z₂,...,z_T}；

时域特征序列Z和空域特征序列X有相同特征维数表示。

步骤S43:对空域和时域视频行为特征进行建模。

由步骤2提取视频帧序列的特征图X还是空域特征X和由步骤S42提取的时域图推理融合后的时域特征Z相加进行融合，即：

H＝X+Z (7)

步骤S5:对整个网络进行监督式训练；

步骤S51:提取卷积网络的最终输出分数特征S；

记输出分数特征S＝fs₁；s₂；:::；s_M；其中，g∈R^M×C；该输出分数特征的行数为样本个数M，列数为类别个数C；

对应真实标签向量Y为一个行向量，长度为样本个数M，真实标签向量Y的模的数值为类别真实索引；

步骤S53:真实标签向量Y的类别真实索引与该视频类别对应的预测分类特征向量中最大值索引进行比较，采用交叉熵作为损失函数对整个网络进行训练；

分类标签向量用于分类的技术，属于本领域公知常识。比如有3个类别：猪、狗、猫，第一步就是数学建模，通常写成0(代表猪)、1(代表狗)、2(代表猫)。但为了配合后面的交叉熵损失，会对这个数字标签进行one-hot编码成一个向量：100(0)、010(1)、001(2)。(也就是向量索引所在位置等于标签，则此处值为1，其他为0)。训练和测试时会输出一个向量(a,b,c),这就是分类向量。(a+b+c＝1)。假如一个样本的标签为2(猫)，如果测试满足c比a和b都大，就认为正确分类。

本实施例中，交叉熵损失函数为现有技术，可以参见文章名称为《经典损失函数：交叉熵(附tensorflow)》的公开文献。

步骤S6:对视频进行测试分类。

具体包括以下步骤：

本实施例公开的一种基于时域推理图的动作行为识别方法，依据视频帧间动作依赖关系，而非帧内的背景等非本征形态特征构建多个时域图来推理行为先后动作间的隐式关系，解决复杂行为中基础动作长程的依赖和细粒度特性不易识别的问题，同时，构造一种多头的时域推理图和语意关系融合器，在多个时间尺度提取不同依赖关系的动作时域特征并融合成一个强语意的特征来指导识别。本发明的时域推理图能非常灵活的嵌入到已有的网络结构当中，并对有较强时域依赖关系的序列数据进行关系特征提取，在跳转连接的基础上，可以同时提取空域和时域特征，采用最大交叉熵分数作为动作类别识别，这样提取的判别性的特征提高的视频中行为类别识别的准确度。

实施例4：

本实施例在实施例2或实施例3的基础上，进一步优化，采用top-k指标来评估我们的模型。top-k指模型返回的分类特征分数中前k个结果中有正确标签的视频序列所占的比例，是最常用的分类评估方法。在本实例中，k分别为1和5。

在大规模视频行为分类数据集Something-Something数据集上测试本发明。该数据集包含174个动作类别，220,847个样本，选取168,913个样本作为训练集，24,777作为验证集，27,157作为测试集。测试比较结果如下表1所示：

表1

从表1可以看出，本发明在所有的测试集上均优于现有的方法。

在Something-Something数据集上，本发明在top-1上比之前最优的方法提升了1.9％，本发明在V1上top-5较之前最优的方法提升9.3％。在所有度量方式上均优于现有方法提高了视频行为分类的识别准确度。

以上所述，仅是本发明的较佳实施例，并非对本发明做任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化，均落入本发明的保护范围之内。

Claims

1.一种基于时域推理图的视频行为类别识别方法，其特征在于：依据视频帧间动作依赖关系构建多个时域推理图的多头时域邻接矩阵来推理行为先后动作间的隐式关系，同时构建语意融合器在多个时间尺度提取不同依赖关系的动作时域特征并融合成一个强语义的语义特征，进行视频行为类别识别。

2.根据权利要求1所述的一种基于时域推理图的视频行为类别识别方法，其特征在于：具体包括以下步骤：

步骤S1:对视频进行采样；

步骤S2:运用卷积网络提取视频帧序列的空域特征X；

步骤S3:构建有动作依赖关系的多头时域邻接矩阵A；

步骤S4:运用时域图卷积网络进行推理；

步骤S5:对整个网络进行监督式训练；

步骤S6:对视频进行测试分类。

3.根据权利要求2所述的一种基于时域推理图的视频行为类别识别方法，其特征在于：所述步骤S2具体包括以下步骤：

步骤S21:运用卷积网络获取视频帧序列的特征图；

4.根据权利要求3所述的一种基于时域推理图的视频行为类别识别方法，其特征在于：所述步骤S3具体包括以下步骤：

5.根据权利要求4所述的一种基于时域推理图的视频行为类别识别方法，其特征在于：所述步骤S4具体包括以下步骤：

6.根据权利要求5所述的一种基于时域推理图的视频行为类别识别方法，其特征在于：所述步骤S42具体包括以下步骤：

7.根据权利要求6所述的一种基于时域推理图的视频行为类别识别方法，其特征在于：所述步骤S5具体包括以下步骤：

步骤S51:提取卷积网络的最终输出分数特征S；

8.根据权利要求7所述的一种基于时域推理图的视频行为类别识别方法，其特征在于：所述步骤S6具体包括以下步骤：