CN111626121A

CN111626121A - 基于视频中多层次交互推理的复杂事件识别方法及系统

Info

Publication number: CN111626121A
Application number: CN202010330808.1A
Authority: CN
Inventors: 杨华; 李室呈; 孙军
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2020-04-24
Filing date: 2020-04-24
Publication date: 2020-09-04
Anticipated expiration: 2040-04-24
Also published as: CN111626121B

Abstract

本发明公开了一种基于视频中多层次交互推理的复杂事件识别方法及系统，该方法包括：提取视频中对象的形态与类别特征；建图G＝(V,E,A)表示事件中的交互，考虑对应的对象间的交互；利用三维卷积对视频做卷积，通过视频纹理，图样提取事件的环境特征；将环境特征自适应投影到构建的图中；通过图卷积网络对投影后得到的图进行卷积实现视频中对象与对象、对象与环境、环境与环境的多层次的交互的推理，从而理解视频中所发生的复杂事件。该系统包括：形态与类别特征提取模块、建图模块、环境特征提取模块、投影模块以及图卷积模块。通过本发明，可以识别长时长事件，多层次交互推理提升了识别复杂事件的能力，提高了准确率。

Description

基于视频中多层次交互推理的复杂事件识别方法及系统

技术领域

本发明涉及计算机视觉技术领域，特别涉及一种基于视频中多层次交互推理的复杂事件识别方法及系统。

背景技术

视频的行为识别技术在实际应用中发挥着越来越重要的作用，比如在安全监控，在线内容审核，自动字幕生成，视频检索等。现如今大部分的计算机视觉研究者将行为识别技术集中在短时间内简单场景下的动作识别，但是，在实际应用中，例如现实中情况下的犯罪行为，嫌疑人会倾向于在复杂的场景中隐蔽的完成犯罪事件。事件可能长达数分钟，远远超过现有模型所致力的范围(30秒-1分钟)。事件本身可能是由数个行为组成，有着复杂的逻辑。

从方法上来看，主流的模型皆是基于堆叠对像素做卷积的卷积核，通过提取视频里每一帧的图样的特征来识别视频的内容。另有部分工作尝试通过推理事件中目标间的交互做行为识别，然而，这部分工作只局限于考虑视频中对象间的交互，未利用视频中的环境信息，推理对象和环境间的交互。因此现有方法将难以识别视频中发生的复杂事件。

发明内容

本发明针对上述现有技术中存在的问题，提出一种基于视频中多层次交互推理的复杂事件识别方法及系统，具备理解长时长事件的能力；综合了多层次交互推理提升了识别复杂事件的能力。

为解决上述技术问题，本发明是通过如下技术方案实现的：

本发明提供一种基于视频中多层次交互推理的复杂事件识别方法，其包括：

S11：利用重构的Faster-RCNN目标检测模型提取视频中对象的形态与类别特征；

S12：建图G＝(V,E,A)表示事件中的交互，将所述S11中提取到的上述特征作为图中的节点

代表对应的对象；节点经特征变化后在特征空间的欧氏距离作为图的边，被邻接矩阵

表示，作为对应的对象间的交互系数；

S13：利用三维卷积对视频做卷积，通过视频纹理，图样提取事件的环境特征

S14：将所述S13中得到的环境特征自适应投影到所述S12构建的图中；

S15：通过图卷积网络对所述S14投影后得到的图进行卷积实现视频中对象与对象、对象与环境、环境与环境的多层次的交互的推理，从而理解视频中所发生的复杂事件。

较佳地，所述S11进一步包括：

所述Faster-RCNN目标检测模型包括：图像卷积模块、候选框提取模块、特征提取模块、过滤模块以及特征变换模块；其中，

利用所述图像卷积模块、候选框提取模块、特征提取模块以及过滤模块检测到对象并提取出对象的形态特征；利用特征变换模块提取出对象的类别特征；进一步地，

所述Faster-RCNN目标检测模型的训练采用多任务的方式，利用所述图像卷积模块、候选框提取模块、特征提取模块以及过滤模块学习到目标检测的回归误差；利用特征变换模块学习到目标检测的分类误差。

较佳地，所述S12进一步包括：

对任意两个对象的特征v_i,v_j，其在特征空间中的欧氏距离：

其中φ₁,φ₂是原始特征的两个不同变换，φ₁＝W₁v,φ₂＝W₂v，W₁,W₂均为

且通过反向传播进行训练，归一化得到邻接矩阵中对应的值：

一个节点v_i受到其他对象的影响的总和为：

较佳地，所述S13进一步包括：

利用三维卷积对视频中每一个像素进行卷积，通过视频纹理，得到携带事件的环境信息的特征图

较佳地，所述S14进一步包括：

将所述S13中得到的环境特征自适应投影到所述S12构建的图中，实现了对象与环境、环境与环境之间交互的推理；进一步地，

对于特征图X，通过对其进行1×1的卷积得到投影矩阵

其中L＝H×W×T，则投影后新的图中的特征为：

V_tot＝V+V_env＝V+BX

其中，V_tot为更新后的特征，V视频中对象的特征，V_env为环境特征。

较佳地，所述S15进一步包括：

通过图卷积网络对所述S14投影后得到的图进行卷积实现视频中对象与环境的多层次的交互的推理，从而理解视频中所发生的复杂事件，公式为：

V^l+1＝AV^lW

其中V^l是当前层第l层的输入节点的特征，即当前层的V_tot，V^l+1为该层的输出，亦为下一层的输入，A为邻接矩阵，W为该层图卷积的参数。

本发明还提供一种基于视频中多层次交互推理的复杂事件识别系统，其包括：形态与类别特征提取模块、建图模块、环境特征提取模块、投影模块以及图卷积模块；其中，

所述形态与类别特征提取模块用于利用重构的Faster-RCNN目标检测模型提取视频中对象的形态与类别特征；

所述建图模块用于建图G＝(V,E,A)表示事件中的交互，将所述形态与类别特征提取模块中提取到的上述特征作为图中的节点

表示，作为对应的对象间的交互系数；

所述环境特征提取模块用于利用三维卷积对视频做卷积，通过视频纹理，图样提取事件的环境特征

所述投影模块用于将所述环境特征提取模块中得到的环境特征自适应投影到所述建图模块构建的图中；

所述图卷积模块用于通过图卷积网络对所述投影模块投影后得到的图进行卷积实现视频中对象与对象、对象与环境、环境与环境的多层次的交互的推理，从而理解视频中所发生的复杂事件。

较佳地，所述Faster-RCNN目标检测模型包括：图像卷积模块、候选框提取模块、特征提取模块、过滤模块以及特征变换模块；其中，

所述图像卷积模块、候选框提取模块、特征提取模块以及过滤模块用于检测到对象并提取出对象的形态特征；

所述特征变换模块用于提取出对象的类别特征；进一步地，

所述Faster-RCNN目标检测模型的训练采用多任务的方式，所述图像卷积模块、候选框提取模块、特征提取模块以及过滤模块用于学习到目标检测的回归误差，所述特征变换模块用于学习到目标检测的分类误差。

较佳地，所述投影模块进一步用于：对于特征图X，通过对其进行1×1的卷积得到投影矩阵

其中L＝H×W×T，则投影后新的图中的特征为：

V_tot＝V+V_env＝V+BX

较佳地，所述图卷积模块进一步用于通过图卷积网络对所述投影模块投影后得到的图进行卷积实现视频中对象与环境的多层次的交互的推理，从而理解视频中所发生的复杂事件，公式为：

V^l+1＝AV^lW

相较于现有技术，本发明具有以下优点：

(1)本发明提供的基于视频中多层次交互推理的复杂事件识别方法及系统，通过利用视频中对象的语义信息，并对其交互建模，算法具抗环境干扰，从语义上理解长时长事件的能力；

(2)本发明提供的基于视频中多层次交互推理的复杂事件识别方法及系统，通过有效利用环境信息，在推理对象间交互的同时考虑对象与环境，环境与环境的交互，这样综合地多层次交互推理提升了算法识别复杂事件的能力，在复杂事件数据集上取得了最佳的准确率，超越了现有主流模型3.5％。

当然，实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

下面结合附图对本发明的实施方式作进一步说明：

图1为本发明的一实施例的基于视频中多层次交互推理的复杂事件识别方法的流程图；

图2为本发明的一实施例的一具体应用的原理示意图；

图3为本发明的一实施例的一具体应用的视频中采样到的图像送入到特征提取网络的示意图；

图4为本发明的一实施例的一具体应用的将环境特征自适应投影到构建的图中的示意图；

图5为本发明的一实施例的基于视频中多层次交互推理的复杂事件识别方法的结构示意图。

标号说明：1-形态与类别特征提取模块，2-建图模块，3-环境特征提取模块，4-投影模块，5-图卷积模块。

具体实施方式

下面对本发明的实施例作详细说明，本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

如图1所示为本发明一实施例的基于视频中多层次交互推理的复杂事件识别方法的流程图。

请参考图1，本实施例的复杂事件识别方法包括以下步骤：

S12：建图G＝(V,E,A)表示事件中的交互，将S11中提取到的上述特征作为图中的节点

表示，作为对应的对象间的交互系数；

S14：将S13中得到的环境特征自适应投影到S12构建的图中；

S15：通过图卷积网络对S14投影后得到的图进行卷积实现视频中对象与对象、对象与环境、环境与环境的多层次的交互的推理，从而理解视频中所发生的复杂事件。

较佳实施例中，S11进一步包括：

Faster-RCNN目标检测模型包括：图像卷积模块、候选框提取模块、特征提取模块、过滤模块以及特征变换模块；其中，利用图像卷积模块、候选框提取模块、特征提取模块以及过滤模块检测到对象并提取出对象的形态特征；利用特征变换模块提取出对象的类别特征。进一步地，Faster-RCNN目标检测模型的训练采用多任务的方式，利用图像卷积模块、候选框提取模块、特征提取模块以及过滤模块学习到目标检测的回归误差；利用特征变换模块学习到目标检测的分类误差。

较佳实施例中，S12进一步包括：

对任意两个对象的特征v_i,v_j，其在特征空间中的欧氏距离：

一个节点vi受到其他对象的影响的总和为：

较佳实施例中，S13进一步包括：

较佳实施例中，S14进一步包括：

将S13中得到的环境特征自适应投影到所述S12构建的图中，实现了对象与环境、环境与环境之间交互的推理；进一步地，

对于特征图X，通过对其进行1×1的卷积得到投影矩阵

其中L＝H×W×T，则投影后新的图中的特征为：

V_tot＝V+V_env＝V+BX

较佳实施例中，S15进一步包括：

通过图卷积网络对S14投影后得到的图进行卷积实现视频中对象与环境的多层次的交互的推理，从而理解视频中所发生的复杂事件，公式为：

V^l+1＝AV^lW

本实施例的基于视频中多层次交互推理的复杂事件识别方法，利用视频中对象的语义信息，并对其交互建模，算法具抗环境干扰，从语义上理解长时长事件的能力；不仅考虑了视频中对象间的交互，还利用了视频中的环境信息，推理对象和环境间的交互替身了识别复杂事件的能力。

下面结合具体实例对本实施例进一步描述。

本实施例在具有挑战性的事件识别数据集上执行本实施例的方法：UCF-Crime。它包含1900个长时间且未修剪的现实世界监控视频，其中包括13个现实异常，例如逮捕，抢劫，纵火，偷窃等。这些视频的总长度为128小时，平均每个视频长度为4分钟，它比Charades中的长8倍，比Kinetics数据集中的长24倍，比UCF-101中的长40倍。持续时间长和复杂的事件使它异常地具有挑战性。

此算法的模型在训练时随机将剪辑的32个连续帧作为输入。这32帧以0.5fps采样，因此此剪辑片段大约需要1分钟。空间大小为224×224像素，是从缩放后的视频中随机裁剪的，其短边在[256,320]像素中被随机采样，同时保持长宽比。本实施例在2个GPU上训练模型，每个GPU有4个片段。因此，总的来说，本实施例的批次大小为8。学习率是0.01，每10个周期将乘以衰减因子0.1。本实施例使用0.9的动量和0.0001的权重衰减。本实施例的dropout为0.5。按照常见做法，本实施例沿视频的时间轴从视频中均匀采样10个剪辑。对于每个剪辑，本实施例将较短的空间边缩放为256像素，并进行3片256×256的裁剪以覆盖空间尺寸，作为全卷积测试的近似。最终的预测是所有片段的平均softmax得分。本实施例在表1中报告本实施例的结果。评估是根据UCF-Crime的测试集进行的。可以发现，本实施例的多层次交互的推理模型在这个具有挑战性的数据集上取得了最佳的准确率，从而证明了本实施例的方法能够识别视频中的复杂事件。

表1

下面结合一具体应用对本发明的复杂事件识别方法进行进一步地描述。

如图2所示为利用本发明的方式实现结合人脸与外观的两阶段行人搜索方法的原理示意图，如图3所示为将视频中以0.5fps的帧率采样到的图像被逐帧送入到特征提取网络。该网络通过一个三维卷积网络作为backbone提取每一张图片的特征图。RPN模块根据特征图生成视频中对象的候选框。ROI-Align模块根据候选框提取对象各自对应的特征。经过滤模块选出20个置信度最高的对象的特征，经变换后输出作为图的节点。上述特征经再一次变换后在特征空间的欧式距离作为图邻接矩阵的值，描述图中边的连接，代表对象的交互系数。同时，上述从视频中采样的图像送入模型的三位卷积支路，提取视频中的环境信息。环境特征送入投影模块中。投影模块内，特征图首先经过1×1的卷积生成投影矩阵，同时特征图经过维度压缩，最后矩阵相乘投影到每一层图卷积网络的输入图中。图卷积网络负责对图中所携带的信息从低级到高级进行推理，从而通过后续的分类器识别视频中的事件。具体步骤如下：

S101：获取包含事件的视频；

本实施例中，视频数据集包含了时长较长(数分钟)，场景密集，逻辑复杂的事件。

S102：从视频中以0.5fps的帧率提取出图片；

优选地，采用Opencv从视频中采样图片。

可选地，使用FFMPEG进行采样也可以达到同样的效果。

S103：获取视频中对象的形态与类别特征；

图片逐帧输入到特征提取网络中，如图3所示，网络的架构和作用如下：

首先经过backbone模块，得到每一张图像的特征图。backbone模块为一个三维卷积网络，本实施例采用了ResNet-50结构；

特征图传入到Region Proposal Network(RPN)模块。该模块是一个两层的回归网络，可以提出视频中对象的候选框以及这些候选框的置信度。候选框，置信度与特征图一起从此模块输出；

候选框，置信度与特征图传入到ROI-Align模块。此模块通过候选框从特征图里截取出对应的特征，置信度依据提取出的特征在此模块中被更新。特征和置信度从此模块输出；

特征和置信度被传入过滤模块，其将截取置信度最高的数个候选对象的特征，这些特征被分别乘以对应的置信度。特征从此模块输出；

优选地，每帧中提取的对象的个数设定为20；

特征被传入特征变换模块。此模块为一个两层的网络，将为这些特征编码类别信息。

输出为变换后的特征；

预训练此特征提取网络时，特征被输入到分类器。分类器依据特征对视频中对象的类别进行判断，分类误差将反向传播到特征变换模块以及更前面的模块中。

预训练采用分步训练的策略，在MSCOCO数据集上进行。具体地，利用候选框的位置偏差作为回归误差训练RPN模块和backbone模块，分类误差训练特征变换模块。

优选地，使用梯度下降算法；

优选地，学习率为0.001；

实际应用时，特征直接从特征变换模块输出；

S104：每一特征经过max-polling,维度转换为1×C；

S105：设定对象间的交互系数：

输出的特征表示为

其中v_i为第i个对象的特征。N为视频截取的所有帧内的对象的总数。这些特征即为图的节点，代表相应的对象；

将对象的特征进行特征变换，得到

φ₁＝W₁v,φ₂＝W₂v

其中W₁,W₂均为

是可学习的参数矩阵，能够通过反向传播进行训练；

经变化后的特征在特征空间的欧氏距离作为图的边，被邻接矩阵表示，作为对象间的交互系数。具体而言：对任意两个对象的特征v₁,v₂，其在特征空间中的欧氏距离：

归一化得到邻接矩阵中对应的值：

则一个节点v_i受到其他对象的影响的总和为：

节点和邻接矩阵的确定，使得该图能数学上表示事件中对象与对象的交互。接下来算法利用一个三维卷积网络提取环境特征；

优选地，模型选用R3D-34模型作为三维卷积支路；

S106：视频的帧被输入进三维卷积支路，在层间可以得到不同层次的特征图

优选地，选取R3D-34的模块间特征图作为环境特征；

S107：将环境特征投影到图中：

特征图输入进投影模块作为不同层次的环境特征

其中L＝H×W×T；

投影模块的一条支路里环境特征经过1×1的三维卷积得到投影矩阵

其中N为图中节点的个数；

投影模块的另一条支路里环境特征经过1×1的三维卷积进行维度缩减，从C'缩减到C'。

现在

投影矩阵B和维度压缩后的环境特征X矩阵乘，得到将被添加进图中的特征V_env，如图4所示。公式如下；

V_tot＝V+V_env＝V+BX

其中V_tot为更新后的特征。此特征中携带了视频中对象的特征V，也包含了环境特征V_env；

S108：综合地进行多层次交互的推理：

将V_tot输入到模型的另一条支路，图卷积网络。此网络将综合地推理事件中对象与对象的交互，对象与环境的交互，以及环境与环境的交互；

优选地，图卷积网络的层数设定为三；

每一层中：

V^l+1＝AV^lW

优选地，每一场图卷积的输出经过RELU函数；

优选地，训练时使用比率为0.7的dropout；

图卷积网络支路的输出为

对该支路的输出做节点维度的max-pooling，即从维度N×C变换到1×C。

S109：将

送入分类器，实现对视频中事件的判定。

优选地，模型的训练使用梯度下降算法；

优选地；学习率0.001。

如图5所示为本发明的一实施例的基于视频中多层次交互推理的复杂事件识别方法的结构示意图。

请参考图5，该实施例时用于实现上述实施例的复杂事件识别方法的系统，其包括：形态与类别特征提取模块1、建图模块2、环境特征提取模块3、投影模块4以及图卷积模块5；其中，

形态与类别特征提取模块1用于利用重构的Faster-RCNN目标检测模型提取视频中对象的形态与类别特征；

建图模块2用于建图G＝(V,E,A)表示事件中的交互，将形态与类别特征提取模块1中提取到的上述特征作为图中的节点

表示，作为对应的对象间的交互系数；

环境特征提取模块3用于利用三维卷积对视频做卷积，通过视频纹理，图样提取事件的环境特征

投影模块4用于将环境特征提取模块3中得到的环境特征自适应投影到建图模块2构建的图中；

图卷积模块5用于通过图卷积网络对投影模块4投影后得到的图进行卷积实现视频中对象与对象、对象与环境、环境与环境的多层次的交互的推理，从而理解视频中所发生的复杂事件。

较佳实施例中，Faster-RCNN目标检测模型包括：图像卷积模块、候选框提取模块、特征提取模块、过滤模块以及特征变换模块；其中，图像卷积模块、候选框提取模块、特征提取模块以及过滤模块用于检测到对象并提取出对象的形态特征；特征变换模块用于提取出对象的类别特征。进一步地，Faster-RCNN目标检测模型的训练采用多任务的方式，图像卷积模块、候选框提取模块、特征提取模块以及过滤模块用于学习到目标检测的回归误差，特征变换模块用于学习到目标检测的分类误差。

较佳实施例中，投影模块4进一步用于：对于特征图X，通过对其进行1×1的卷积得到投影矩阵

其中L＝H×W×T，则投影后新的图中的特征为：

V_tot＝V+V_env＝V+BX

较佳实施例中，图卷积模块5进一步用于通过图卷积网络对投影模块4投影后得到的图进行卷积实现视频中对象与环境的多层次的交互的推理，从而理解视频中所发生的复杂事件，公式为：

V^l+1＝AV^lW

此处公开的仅为本发明的优选实施例，本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，并不是对本发明的限定。任何本领域技术人员在说明书范围内所做的修改和变化，均应落在本发明所保护的范围内。