CN111626121B - 基于视频中多层次交互推理的复杂事件识别方法及系统 - Google Patents

基于视频中多层次交互推理的复杂事件识别方法及系统 Download PDF

Info

Publication number
CN111626121B
CN111626121B CN202010330808.1A CN202010330808A CN111626121B CN 111626121 B CN111626121 B CN 111626121B CN 202010330808 A CN202010330808 A CN 202010330808A CN 111626121 B CN111626121 B CN 111626121B
Authority
CN
China
Prior art keywords
module
video
convolution
graph
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010330808.1A
Other languages
English (en)
Other versions
CN111626121A (zh
Inventor
杨华
李室呈
孙军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN202010330808.1A priority Critical patent/CN111626121B/zh
Publication of CN111626121A publication Critical patent/CN111626121A/zh
Application granted granted Critical
Publication of CN111626121B publication Critical patent/CN111626121B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于视频中多层次交互推理的复杂事件识别方法及系统,该方法包括:提取视频中对象的形态与类别特征;建图G=(V,E,A)表示事件中的交互,考虑对应的对象间的交互;利用三维卷积对视频做卷积,通过视频纹理,图样提取事件的环境特征;将环境特征自适应投影到构建的图中;通过图卷积网络对投影后得到的图进行卷积实现视频中对象与对象、对象与环境、环境与环境的多层次的交互的推理,从而理解视频中所发生的复杂事件。该系统包括:形态与类别特征提取模块、建图模块、环境特征提取模块、投影模块以及图卷积模块。通过本发明,可以识别长时长事件,多层次交互推理提升了识别复杂事件的能力,提高了准确率。

Description

基于视频中多层次交互推理的复杂事件识别方法及系统
技术领域
本发明涉及计算机视觉技术领域,特别涉及一种基于视频中多层次交互推理的复杂事件识别方法及系统。
背景技术
视频的行为识别技术在实际应用中发挥着越来越重要的作用,比如在安全监控,在线内容审核,自动字幕生成,视频检索等。现如今大部分的计算机视觉研究者将行为识别技术集中在短时间内简单场景下的动作识别,但是,在实际应用中,例如现实中情况下的犯罪行为,嫌疑人会倾向于在复杂的场景中隐蔽的完成犯罪事件。事件可能长达数分钟,远远超过现有模型所致力的范围(30秒-1分钟)。事件本身可能是由数个行为组成,有着复杂的逻辑。
从方法上来看,主流的模型皆是基于堆叠对像素做卷积的卷积核,通过提取视频里每一帧的图样的特征来识别视频的内容。另有部分工作尝试通过推理事件中目标间的交互做行为识别,然而,这部分工作只局限于考虑视频中对象间的交互,未利用视频中的环境信息,推理对象和环境间的交互。因此现有方法将难以识别视频中发生的复杂事件。
发明内容
本发明针对上述现有技术中存在的问题,提出一种基于视频中多层次交互推理的复杂事件识别方法及系统,具备理解长时长事件的能力;综合了多层次交互推理提升了识别复杂事件的能力。
为解决上述技术问题,本发明是通过如下技术方案实现的:
本发明提供一种基于视频中多层次交互推理的复杂事件识别方法,其包括:
S11:利用重构的Faster-RCNN目标检测模型提取视频中对象的形态与类别特征;
S12:建图G=(V,E,A)表示事件中的交互,将所述S11中提取到的上述特征作为图中的节点
Figure GDA0003873341930000011
代表对应的对象;节点经特征变化后在特征空间的欧氏距离作为图的边,被邻接矩阵
Figure GDA0003873341930000021
表示,作为对应的对象间的交互系数;
S13:利用三维卷积对视频做卷积,通过视频纹理,图样提取事件的环境特征
Figure GDA0003873341930000022
S14:将所述S13中得到的环境特征自适应投影到所述S12构建的图中;
S15:通过图卷积网络对所述S14投影后得到的图进行卷积实现视频中对象与对象、对象与环境、环境与环境的多层次的交互的推理,从而理解视频中所发生的复杂事件。
较佳地,所述S11进一步包括:
所述Faster-RCNN目标检测模型包括:图像卷积模块、候选框提取模块、特征提取模块、过滤模块以及特征变换模块;其中,
利用所述图像卷积模块、候选框提取模块、特征提取模块以及过滤模块检测到对象并提取出对象的形态特征;利用特征变换模块提取出对象的类别特征;进一步地,
所述Faster-RCNN目标检测模型的训练采用多任务的方式,利用所述图像卷积模块、候选框提取模块、特征提取模块以及过滤模块学习到目标检测的回归误差;利用特征变换模块学习到目标检测的分类误差。
较佳地,所述S12进一步包括:
对任意两个对象的特征vi,vj,其在特征空间中的欧氏距离:
Figure GDA0003873341930000023
其中φ12是原始特征的两个不同变换,φ1=W1v,φ2=W2v,W1,W2均为
Figure GDA0003873341930000024
且通过反向传播进行训练,归一化得到邻接矩阵中对应的值:
Figure GDA0003873341930000025
一个节点vi受到其他对象的影响的总和为:
Figure GDA0003873341930000026
较佳地,所述S13进一步包括:
利用三维卷积对视频中每一个像素进行卷积,通过视频纹理,图样得到携带事件的环境信息的特征图
Figure GDA0003873341930000027
较佳地,所述S14进一步包括:
将所述S13中得到的环境特征自适应投影到所述S12构建的图中,实现了对象与环境、环境与环境之间交互的推理;进一步地,
对于特征图X,通过对其进行1×1的卷积得到投影矩阵
Figure GDA0003873341930000031
其中L=H×W×T,则投影后新的图中的特征为:
Vtot=V+Venv=V+BX
其中,Vtot为更新后的特征,V视频中对象的特征,Venv为环境特征。
较佳地,所述S15进一步包括:
通过图卷积网络对所述S14投影后得到的图进行卷积实现视频中对象与环境的多层次的交互的推理,从而理解视频中所发生的复杂事件,公式为:
Vl+1=AVlWt
其中Vl是当前层第l层的输入节点的特征,即当前层的Vtot,Vl+1为该层的输出,亦为下一层的输入,A为邻接矩阵,Wt为该层图卷积的参数。
本发明还提供一种基于视频中多层次交互推理的复杂事件识别系统,其包括:形态与类别特征提取模块、建图模块、环境特征提取模块、投影模块以及图卷积模块;其中,
所述形态与类别特征提取模块用于利用重构的Faster-RCNN目标检测模型提取视频中对象的形态与类别特征;
所述建图模块用于建图G=(V,E,A)表示事件中的交互,将所述形态与类别特征提取模块中提取到的上述特征作为图中的节点
Figure GDA0003873341930000032
代表对应的对象;节点经特征变化后在特征空间的欧氏距离作为图的边,被邻接矩阵
Figure GDA0003873341930000033
表示,作为对应的对象间的交互系数;
所述环境特征提取模块用于利用三维卷积对视频做卷积,通过视频纹理,图样提取事件的环境特征
Figure GDA0003873341930000034
所述投影模块用于将所述环境特征提取模块中得到的环境特征自适应投影到所述建图模块构建的图中;
所述图卷积模块用于通过图卷积网络对所述投影模块投影后得到的图进行卷积实现视频中对象与对象、对象与环境、环境与环境的多层次的交互的推理,从而理解视频中所发生的复杂事件。
较佳地,所述Faster-RCNN目标检测模型包括:图像卷积模块、候选框提取模块、特征提取模块、过滤模块以及特征变换模块;其中,
所述图像卷积模块、候选框提取模块、特征提取模块以及过滤模块用于检测到对象并提取出对象的形态特征;
所述特征变换模块用于提取出对象的类别特征;进一步地,
所述Faster-RCNN目标检测模型的训练采用多任务的方式,所述图像卷积模块、候选框提取模块、特征提取模块以及过滤模块用于学习到目标检测的回归误差,所述特征变换模块用于学习到目标检测的分类误差。
较佳地,所述投影模块进一步用于:对于特征图X,通过对其进行1×1的卷积得到投影矩阵
Figure GDA0003873341930000041
其中L=H×W×T,则投影后新的图中的特征为:
Vtot=V+Venv=V+BX
其中,Vtot为更新后的特征,V视频中对象的特征,Venv为环境特征。
较佳地,所述图卷积模块进一步用于通过图卷积网络对所述投影模块投影后得到的图进行卷积实现视频中对象与环境的多层次的交互的推理,从而理解视频中所发生的复杂事件,公式为:
Vl+1=AVlWt
其中Vl是当前层第l层的输入节点的特征,即当前层的Vtot,Vl+1为该层的输出,亦为下一层的输入,A为邻接矩阵,Wt为该层图卷积的参数。
相较于现有技术,本发明具有以下优点:
(1)本发明提供的基于视频中多层次交互推理的复杂事件识别方法及系统,通过利用视频中对象的语义信息,并对其交互建模,算法具抗环境干扰,从语义上理解长时长事件的能力;
(2)本发明提供的基于视频中多层次交互推理的复杂事件识别方法及系统,通过有效利用环境信息,在推理对象间交互的同时考虑对象与环境,环境与环境的交互,这样综合地多层次交互推理提升了算法识别复杂事件的能力,在复杂事件数据集上取得了最佳的准确率,超越了现有主流模型3.5%。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
下面结合附图对本发明的实施方式作进一步说明:
图1为本发明的一实施例的基于视频中多层次交互推理的复杂事件识别方法的流程图;
图2为本发明的一实施例的一具体应用的原理示意图;
图3为本发明的一实施例的一具体应用的视频中采样到的图像送入到特征提取网络的示意图;
图4为本发明的一实施例的一具体应用的将环境特征自适应投影到构建的图中的示意图;
图5为本发明的一实施例的基于视频中多层次交互推理的复杂事件识别方法的结构示意图。
标号说明:1-形态与类别特征提取模块,2-建图模块,3-环境特征提取模块,4-投影模块,5-图卷积模块。
具体实施方式
下面对本发明的实施例作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
如图1所示为本发明一实施例的基于视频中多层次交互推理的复杂事件识别方法的流程图。
请参考图1,本实施例的复杂事件识别方法包括以下步骤:
S11:利用重构的Faster-RCNN目标检测模型提取视频中对象的形态与类别特征;
S12:建图G=(V,E,A)表示事件中的交互,将S11中提取到的上述特征作为图中的节点
Figure GDA0003873341930000051
代表对应的对象;节点经特征变化后在特征空间的欧氏距离作为图的边,被邻接矩阵
Figure GDA0003873341930000052
表示,作为对应的对象间的交互系数;
S13:利用三维卷积对视频做卷积,通过视频纹理,图样提取事件的环境特征
Figure GDA0003873341930000053
S14:将S13中得到的环境特征自适应投影到S12构建的图中;
S15:通过图卷积网络对S14投影后得到的图进行卷积实现视频中对象与对象、对象与环境、环境与环境的多层次的交互的推理,从而理解视频中所发生的复杂事件。
较佳实施例中,S11进一步包括:
Faster-RCNN目标检测模型包括:图像卷积模块、候选框提取模块、特征提取模块、过滤模块以及特征变换模块;其中,利用图像卷积模块、候选框提取模块、特征提取模块以及过滤模块检测到对象并提取出对象的形态特征;利用特征变换模块提取出对象的类别特征。进一步地,Faster-RCNN目标检测模型的训练采用多任务的方式,利用图像卷积模块、候选框提取模块、特征提取模块以及过滤模块学习到目标检测的回归误差;利用特征变换模块学习到目标检测的分类误差。
较佳实施例中,S12进一步包括:
对任意两个对象的特征vi,vj,其在特征空间中的欧氏距离:
Figure GDA0003873341930000061
其中φ12是原始特征的两个不同变换,φ1=W1v,φ2=W2v,W1,W2均为
Figure GDA0003873341930000062
且通过反向传播进行训练,归一化得到邻接矩阵中对应的值:
Figure GDA0003873341930000063
一个节点vi受到其他对象的影响的总和为:
Figure GDA0003873341930000064
较佳实施例中,S13进一步包括:
利用三维卷积对视频中每一个像素进行卷积,通过视频纹理,图样得到携带事件的环境信息的特征图
Figure GDA0003873341930000065
较佳实施例中,S14进一步包括:
将S13中得到的环境特征自适应投影到所述S12构建的图中,实现了对象与环境、环境与环境之间交互的推理;进一步地,
对于特征图X,通过对其进行1×1的卷积得到投影矩阵
Figure GDA0003873341930000066
其中L=H×W×T,则投影后新的图中的特征为:
Vtot=V+Venv=V+BX
其中,Vtot为更新后的特征,V视频中对象的特征,Venv为环境特征。
较佳实施例中,S15进一步包括:
通过图卷积网络对S14投影后得到的图进行卷积实现视频中对象与环境的多层次的交互的推理,从而理解视频中所发生的复杂事件,公式为:
Vl+1=AVlWt
其中Vl是当前层第l层的输入节点的特征,即当前层的Vtot,Vl+1为该层的输出,亦为下一层的输入,A为邻接矩阵,Wt为该层图卷积的参数。
本实施例的基于视频中多层次交互推理的复杂事件识别方法,利用视频中对象的语义信息,并对其交互建模,算法具抗环境干扰,从语义上理解长时长事件的能力;不仅考虑了视频中对象间的交互,还利用了视频中的环境信息,推理对象和环境间的交互替身了识别复杂事件的能力。
下面结合具体实例对本实施例进一步描述。
本实施例在具有挑战性的事件识别数据集上执行本实施例的方法:UCF-Crime。它包含1900个长时间且未修剪的现实世界监控视频,其中包括13个现实异常,例如逮捕,抢劫,纵火,偷窃等。这些视频的总长度为128小时,平均每个视频长度为4分钟,它比Charades中的长8倍,比Kinetics数据集中的长24倍,比UCF-101中的长40倍。持续时间长和复杂的事件使它异常地具有挑战性。
此算法的模型在训练时随机将剪辑的32个连续帧作为输入。这32帧以0.5fps采样,因此此剪辑片段大约需要1分钟。空间大小为224×224像素,是从缩放后的视频中随机裁剪的,其短边在[256,320]像素中被随机采样,同时保持长宽比。本实施例在2个GPU上训练模型,每个GPU有4个片段。因此,总的来说,本实施例的批次大小为8。学习率是0.01,每10个周期将乘以衰减因子0.1。本实施例使用0.9的动量和0.0001的权重衰减。本实施例的dropout为0.5。按照常见做法,本实施例沿视频的时间轴从视频中均匀采样10个剪辑。对于每个剪辑,本实施例将较短的空间边缩放为256像素,并进行3片256×256的裁剪以覆盖空间尺寸,作为全卷积测试的近似。最终的预测是所有片段的平均softmax得分。本实施例在表1中报告本实施例的结果。评估是根据UCF-Crime的测试集进行的。可以发现,本实施例的多层次交互的推理模型在这个具有挑战性的数据集上取得了最佳的准确率,从而证明了本实施例的方法能够识别视频中的复杂事件。
表1
Figure GDA0003873341930000071
Figure GDA0003873341930000081
下面结合一具体应用对本发明的复杂事件识别方法进行进一步地描述。
如图2所示为利用本发明的方式实现结合人脸与外观的两阶段行人搜索方法的原理示意图,如图3所示为将视频中以0.5fps的帧率采样到的图像被逐帧送入到特征提取网络。该网络通过一个三维卷积网络作为backbone提取每一张图片的特征图。RPN模块根据特征图生成视频中对象的候选框。ROI-Align模块根据候选框提取对象各自对应的特征。经过滤模块选出20个置信度最高的对象的特征,经变换后输出作为图的节点。上述特征经再一次变换后在特征空间的欧式距离作为图邻接矩阵的值,描述图中边的连接,代表对象的交互系数。同时,上述从视频中采样的图像送入模型的三位卷积支路,提取视频中的环境信息。环境特征送入投影模块中。投影模块内,特征图首先经过1×1的卷积生成投影矩阵,同时特征图经过维度压缩,最后矩阵相乘投影到每一层图卷积网络的输入图中。图卷积网络负责对图中所携带的信息从低级到高级进行推理,从而通过后续的分类器识别视频中的事件。具体步骤如下:
S101:获取包含事件的视频;
本实施例中,视频数据集包含了时长较长(数分钟),场景密集,逻辑复杂的事件。
S102:从视频中以0.5fps的帧率提取出图片;
优选地,采用Opencv从视频中采样图片。
可选地,使用FFMPEG进行采样也可以达到同样的效果。
S103:获取视频中对象的形态与类别特征;
图片逐帧输入到特征提取网络中,如图3所示,网络的架构和作用如下:
首先经过backbone模块,得到每一张图像的特征图。backbone模块为一个三维卷积网络,本实施例采用了ResNet-50结构;
特征图传入到Region Proposal Network(RPN)模块。该模块是一个两层的回归网络,可以提出视频中对象的候选框以及这些候选框的置信度。候选框,置信度与特征图一起从此模块输出;
候选框,置信度与特征图传入到ROI-Align模块。此模块通过候选框从特征图里截取出对应的特征,置信度依据提取出的特征在此模块中被更新。特征和置信度从此模块输出;
特征和置信度被传入过滤模块,其将截取置信度最高的数个候选对象的特征,这些特征被分别乘以对应的置信度。特征从此模块输出;
优选地,每帧中提取的对象的个数设定为20;
特征被传入特征变换模块。此模块为一个两层的网络,将为这些特征编码类别信息。输出为变换后的特征;
预训练此特征提取网络时,特征被输入到分类器。分类器依据特征对视频中对象的类别进行判断,分类误差将反向传播到特征变换模块以及更前面的模块中。
预训练采用分步训练的策略,在MSCOCO数据集上进行。具体地,利用候选框的位置偏差作为回归误差训练RPN模块和backbone模块,分类误差训练特征变换模块。
优选地,使用梯度下降算法;
优选地,学习率为0.001;
实际应用时,特征直接从特征变换模块输出;
S104:每一特征经过max-polling,维度转换为1×C;
S105:设定对象间的交互系数:
输出的特征表示为
Figure GDA0003873341930000091
其中vi为第i个对象的特征。N为视频截取的所有帧内的对象的总数。这些特征即为图的节点,代表相应的对象;
将对象的特征进行特征变换,得到
φ1=W1v,φ2=W2v
其中W1,W2均为
Figure GDA0003873341930000092
是可学习的参数矩阵,能够通过反向传播进行训练;
经变化后的特征在特征空间的欧氏距离作为图的边,被邻接矩阵表示,作为对象间的交互系数。具体而言:对任意两个对象的特征v1,v2,其在特征空间中的欧氏距离:
Figure GDA0003873341930000093
归一化得到邻接矩阵中对应的值:
Figure GDA0003873341930000101
则一个节点vi受到其他对象的影响的总和为:
Figure GDA0003873341930000102
节点和邻接矩阵的确定,使得该图能数学上表示事件中对象与对象的交互。接下来算法利用一个三维卷积网络提取环境特征;
优选地,模型选用R3D-34模型作为三维卷积支路;
S106:视频的帧被输入进三维卷积支路,在层间可以得到不同层次的特征图
Figure GDA0003873341930000103
优选地,选取R3D-34的模块间特征图作为环境特征;
S107:将环境特征投影到图中:
特征图输入进投影模块作为不同层次的环境特征
Figure GDA0003873341930000104
其中L=H×W×T;
投影模块的一条支路里环境特征经过1×1的三维卷积得到投影矩阵
Figure GDA0003873341930000105
其中N为图中节点的个数;
投影模块的另一条支路里环境特征经过1×1的三维卷积进行维度缩减,从C'缩减到C。现在
Figure GDA0003873341930000106
投影矩阵B和维度压缩后的环境特征X矩阵乘,得到将被添加进图中的特征Venv,如图4所示。公式如下;
Vtot=V+Venv=V+BX
其中Vtot为更新后的特征。此特征中携带了视频中对象的特征V,也包含了环境特征Venv
S108:综合地进行多层次交互的推理:
将Vtot输入到模型的另一条支路,图卷积网络。此网络将综合地推理事件中对象与对象的交互,对象与环境的交互,以及环境与环境的交互;
优选地,图卷积网络的层数设定为三;
每一层中:
Vl+1=AVlWt
其中Vl是当前层第l层的输入节点的特征,即当前层的Vtot,Vl+1为该层的输出,亦为下一层的输入,A为邻接矩阵,Wt为该层图卷积的参数。
优选地,每一场图卷积的输出经过RELU函数;
优选地,训练时使用比率为0.7的dropout;
图卷积网络支路的输出为
Figure GDA0003873341930000111
对该支路的输出做节点维度的max-pooling,即从维度N×C变换到1×C。
S109:将
Figure GDA0003873341930000112
送入分类器,实现对视频中事件的判定。
优选地,模型的训练使用梯度下降算法;
优选地;学习率0.001。
如图5所示为本发明的一实施例的基于视频中多层次交互推理的复杂事件识别方法的结构示意图。
请参考图5,该实施例时用于实现上述实施例的复杂事件识别方法的系统,其包括:形态与类别特征提取模块1、建图模块2、环境特征提取模块3、投影模块4以及图卷积模块5;其中,
形态与类别特征提取模块1用于利用重构的Faster-RCNN目标检测模型提取视频中对象的形态与类别特征;
建图模块2用于建图G=(V,E,A)表示事件中的交互,将形态与类别特征提取模块1中提取到的上述特征作为图中的节点
Figure GDA0003873341930000113
代表对应的对象;节点经特征变化后在特征空间的欧氏距离作为图的边,被邻接矩阵
Figure GDA0003873341930000114
表示,作为对应的对象间的交互系数;
环境特征提取模块3用于利用三维卷积对视频做卷积,通过视频纹理,图样提取事件的环境特征
Figure GDA0003873341930000115
投影模块4用于将环境特征提取模块3中得到的环境特征自适应投影到建图模块2构建的图中;
图卷积模块5用于通过图卷积网络对投影模块4投影后得到的图进行卷积实现视频中对象与对象、对象与环境、环境与环境的多层次的交互的推理,从而理解视频中所发生的复杂事件。
较佳实施例中,Faster-RCNN目标检测模型包括:图像卷积模块、候选框提取模块、特征提取模块、过滤模块以及特征变换模块;其中,图像卷积模块、候选框提取模块、特征提取模块以及过滤模块用于检测到对象并提取出对象的形态特征;特征变换模块用于提取出对象的类别特征。进一步地,Faster-RCNN目标检测模型的训练采用多任务的方式,图像卷积模块、候选框提取模块、特征提取模块以及过滤模块用于学习到目标检测的回归误差,特征变换模块用于学习到目标检测的分类误差。
较佳实施例中,投影模块4进一步用于:对于特征图X,通过对其进行1×1的卷积得到投影矩阵
Figure GDA0003873341930000121
其中L=H×W×T,则投影后新的图中的特征为:
Vtot=V+Venv=V+BX
其中,Vtot为更新后的特征,V视频中对象的特征,Venv为环境特征。
较佳实施例中,图卷积模块5进一步用于通过图卷积网络对投影模块4投影后得到的图进行卷积实现视频中对象与环境的多层次的交互的推理,从而理解视频中所发生的复杂事件,公式为:
Vl+1=AVlWt
其中Vl是当前层第l层的输入节点的特征,即当前层的Vtot,Vl+1为该层的输出,亦为下一层的输入,A为邻接矩阵,Wt为该层图卷积的参数。
此处公开的仅为本发明的优选实施例,本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,并不是对本发明的限定。任何本领域技术人员在说明书范围内所做的修改和变化,均应落在本发明所保护的范围内。

Claims (10)

1.一种基于视频中多层次交互推理的复杂事件识别方法,其特征在于,包括:
S11:利用重构的Faster-RCNN目标检测模型提取视频中对象的形态与类别特征;
S12:建图G=(V,E,A)表示事件中的交互,将所述S11中提取到的上述特征作为图中的节点
Figure FDA0003873341920000011
代表对应的对象;节点经特征变化后在特征空间的欧氏距离作为图的边,被邻接矩阵
Figure FDA0003873341920000012
表示,作为对应的对象间的交互系数;
S13:利用三维卷积对视频做卷积,通过视频纹理,图样提取事件的环境特征
Figure FDA0003873341920000013
S14:将所述S13中得到的环境特征自适应投影到所述S12构建的图中;
S15:通过图卷积网络对所述S14投影后得到的图进行卷积实现视频中对象与对象、对象与环境、环境与环境的多层次的交互的推理,从而理解视频中所发生的复杂事件。
2.根据权利要求1所述的基于视频中多层次交互推理的复杂事件识别方法,其特征在于,所述S11进一步包括:
所述Faster-RCNN目标检测模型包括:图像卷积模块、候选框提取模块、特征提取模块、过滤模块以及特征变换模块;其中,
利用所述图像卷积模块、候选框提取模块、特征提取模块以及过滤模块检测到对象并提取出对象的形态特征;利用特征变换模块提取出对象的类别特征;进一步地,
所述Faster-RCNN目标检测模型的训练采用多任务的方式,利用所述图像卷积模块、候选框提取模块、特征提取模块以及过滤模块学习到目标检测的回归误差;利用特征变换模块学习到目标检测的分类误差。
3.根据权利要求1所述的基于视频中多层次交互推理的复杂事件识别方法,其特征在于,所述S12进一步包括:
对任意两个对象的特征vi,vj,其在特征空间中的欧氏距离:
Figure FDA0003873341920000014
其中φ12是原始特征的两个不同变换,φ1=W1v,φ2=W2v,W1,W2均为
Figure FDA0003873341920000015
且通过反向传播进行训练,归一化得到邻接矩阵中对应的值:
Figure FDA0003873341920000021
一个节点vi受到其他对象的影响的总和为:
Figure FDA0003873341920000022
4.根据权利要求1所述的基于视频中多层次交互推理的复杂事件识别方法,其特征在于,所述S13进一步包括:
利用三维卷积对视频中每一个像素进行卷积,通过视频纹理,图样得到携带事件的环境信息的特征图
Figure FDA0003873341920000023
5.根据权利要求1所述的基于视频中多层次交互推理的复杂事件识别方法,其特征在于,所述S14进一步包括:
将所述S13中得到的环境特征自适应投影到所述S12构建的图中,实现了对象与环境、环境与环境之间交互的推理;进一步地,
对于特征图X,通过对其进行1×1的卷积得到投影矩阵
Figure FDA0003873341920000024
其中L=H×W×T,则投影后新的图中的特征为:
Vtot=V+Venv=V+BX
其中,Vtot为更新后的特征,V视频中对象的特征,Venv为环境特征。
6.根据权利要求1所述的基于视频中多层次交互推理的复杂事件识别方法,其特征在于,所述S15进一步包括:
通过图卷积网络对所述S14投影后得到的图进行卷积实现视频中对象与环境的多层次的交互的推理,从而理解视频中所发生的复杂事件,公式为:
Vl+1=AVlWt
其中Vl是当前层第l层的输入节点的特征,即当前层的Vtot,Vl+1为该层的输出,亦为下一层的输入,A为邻接矩阵,Wt为该层图卷积的参数。
7.一种基于视频中多层次交互推理的复杂事件识别系统,其特征在于,包括:形态与类别特征提取模块、建图模块、环境特征提取模块、投影模块以及图卷积模块;其中,
所述形态与类别特征提取模块用于利用重构的Faster-RCNN目标检测模型提取视频中对象的形态与类别特征;
所述建图模块用于建图G=(V,E,A)表示事件中的交互,将所述形态与类别特征提取模块中提取到的上述特征作为图中的节点
Figure FDA0003873341920000031
代表对应的对象;节点经特征变化后在特征空间的欧氏距离作为图的边,被邻接矩阵
Figure FDA0003873341920000032
表示,作为对应的对象间的交互系数;
所述环境特征提取模块用于利用三维卷积对视频做卷积,通过视频纹理,图样提取事件的环境特征
Figure FDA0003873341920000033
所述投影模块用于将所述环境特征提取模块中得到的环境特征自适应投影到所述建图模块构建的图中;
所述图卷积模块用于通过图卷积网络对所述投影模块投影后得到的图进行卷积实现视频中对象与对象、对象与环境、环境与环境的多层次的交互的推理,从而理解视频中所发生的复杂事件。
8.根据权利要求7所述的基于视频中多层次交互推理的复杂事件识别系统,其特征在于,所述Faster-RCNN目标检测模型包括:图像卷积模块、候选框提取模块、特征提取模块、过滤模块以及特征变换模块;其中,
所述图像卷积模块、候选框提取模块、特征提取模块以及过滤模块用于检测到对象并提取出对象的形态特征;
所述特征变换模块用于提取出对象的类别特征;进一步地,
所述Faster-RCNN目标检测模型的训练采用多任务的方式,所述图像卷积模块、候选框提取模块、特征提取模块以及过滤模块用于学习到目标检测的回归误差,所述特征变换模块用于学习到目标检测的分类误差。
9.根据权利要求7所述的基于视频中多层次交互推理的复杂事件识别系统,其特征在于,所述投影模块进一步用于:对于特征图X,通过对其进行1×1的卷积得到投影矩阵
Figure FDA0003873341920000034
其中L=H×W×T,则投影后新的图中的特征为:
Vtot=V+Venv=V+BX
其中,Vtot为更新后的特征,V视频中对象的特征,Venv为环境特征。
10.根据权利要求7所述的基于视频中多层次交互推理的复杂事件识别系统,其特征在于,所述图卷积模块进一步用于通过图卷积网络对所述投影模块投影后得到的图进行卷积实现视频中对象与环境的多层次的交互的推理,从而理解视频中所发生的复杂事件,公式为:
Vl+1=AVlWt
其中Vl是当前层第l层的输入节点的特征,即当前层的Vtot,Vl+1为该层的输出,亦为下一层的输入,A为邻接矩阵,Wt为该层图卷积的参数。
CN202010330808.1A 2020-04-24 2020-04-24 基于视频中多层次交互推理的复杂事件识别方法及系统 Active CN111626121B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010330808.1A CN111626121B (zh) 2020-04-24 2020-04-24 基于视频中多层次交互推理的复杂事件识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010330808.1A CN111626121B (zh) 2020-04-24 2020-04-24 基于视频中多层次交互推理的复杂事件识别方法及系统

Publications (2)

Publication Number Publication Date
CN111626121A CN111626121A (zh) 2020-09-04
CN111626121B true CN111626121B (zh) 2022-12-20

Family

ID=72270803

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010330808.1A Active CN111626121B (zh) 2020-04-24 2020-04-24 基于视频中多层次交互推理的复杂事件识别方法及系统

Country Status (1)

Country Link
CN (1) CN111626121B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103748992B (zh) * 2010-06-09 2012-02-08 北京理工大学 基于时间自动机的网络攻击意图动态识别系统
CN103942575A (zh) * 2014-04-02 2014-07-23 公安部第三研究所 基于场景和马尔科夫逻辑网的智能行为分析系统及方法
CN105539430A (zh) * 2015-12-29 2016-05-04 北京理工大学 一种基于手持终端的人车交互智能泊车方法
CN108009285A (zh) * 2017-12-22 2018-05-08 重庆邮电大学 基于自然语言处理的林业生态环境人机交互方法
CN108647585A (zh) * 2018-04-20 2018-10-12 浙江工商大学 一种基于多尺度循环注意力网络的交通标识符检测方法
CN110147807A (zh) * 2019-01-04 2019-08-20 上海海事大学 一种船舶智能识别跟踪方法
CN110175596A (zh) * 2019-06-04 2019-08-27 重庆邮电大学 基于双流卷积神经网络的虚拟学习环境微表情识别与交互方法
CN110378281A (zh) * 2019-07-17 2019-10-25 青岛科技大学 基于伪3d卷积神经网络的组群行为识别方法
CN110660082A (zh) * 2019-09-25 2020-01-07 西南交通大学 一种基于图卷积与轨迹卷积网络学习的目标跟踪方法
CN110674869A (zh) * 2019-09-23 2020-01-10 腾讯科技(深圳)有限公司 分类处理、图卷积神经网络模型的训练方法和装置
CN110688491A (zh) * 2019-09-25 2020-01-14 暨南大学 基于深度学习的机器阅读理解方法、系统、设备及介质
CN110827415A (zh) * 2019-11-11 2020-02-21 吉林大学 一种全天候未知环境无人自主工作平台

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11151992B2 (en) * 2017-04-06 2021-10-19 AIBrain Corporation Context aware interactive robot

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103748992B (zh) * 2010-06-09 2012-02-08 北京理工大学 基于时间自动机的网络攻击意图动态识别系统
CN103942575A (zh) * 2014-04-02 2014-07-23 公安部第三研究所 基于场景和马尔科夫逻辑网的智能行为分析系统及方法
CN105539430A (zh) * 2015-12-29 2016-05-04 北京理工大学 一种基于手持终端的人车交互智能泊车方法
CN108009285A (zh) * 2017-12-22 2018-05-08 重庆邮电大学 基于自然语言处理的林业生态环境人机交互方法
CN108647585A (zh) * 2018-04-20 2018-10-12 浙江工商大学 一种基于多尺度循环注意力网络的交通标识符检测方法
CN110147807A (zh) * 2019-01-04 2019-08-20 上海海事大学 一种船舶智能识别跟踪方法
CN110175596A (zh) * 2019-06-04 2019-08-27 重庆邮电大学 基于双流卷积神经网络的虚拟学习环境微表情识别与交互方法
CN110378281A (zh) * 2019-07-17 2019-10-25 青岛科技大学 基于伪3d卷积神经网络的组群行为识别方法
CN110674869A (zh) * 2019-09-23 2020-01-10 腾讯科技(深圳)有限公司 分类处理、图卷积神经网络模型的训练方法和装置
CN110660082A (zh) * 2019-09-25 2020-01-07 西南交通大学 一种基于图卷积与轨迹卷积网络学习的目标跟踪方法
CN110688491A (zh) * 2019-09-25 2020-01-14 暨南大学 基于深度学习的机器阅读理解方法、系统、设备及介质
CN110827415A (zh) * 2019-11-11 2020-02-21 吉林大学 一种全天候未知环境无人自主工作平台

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
《Videos as space-time region graphs》;Xiaolong Wang;Abhinav Gupta;《Proceedings of the European conference on computer vision (ECCV)》;20181231;全文 *
《一种大规模网络中基于节点结构特征映射的链接预测方法》;李志宇;梁循;周小平;张海燕;马跃峰;《计算机学报》;20161031;全文 *
《基于3D骨架的肢体动作识别研究》;陈星宏;《中国优秀硕士学位论文全文数据库 (信息科技辑)》;20200115;全文 *

Also Published As

Publication number Publication date
CN111626121A (zh) 2020-09-04

Similar Documents

Publication Publication Date Title
Sun et al. Lattice long short-term memory for human action recognition
CN113196289B (zh) 人体动作识别方法、人体动作识别系统及设备
CN112149459B (zh) 一种基于交叉注意力机制的视频显著性物体检测模型及系统
CN109360156A (zh) 基于生成对抗网络的图像分块的单张图像去雨方法
CN111915525B (zh) 基于改进深度可分离生成对抗网络的低照度图像增强方法
CN112699786B (zh) 一种基于空间增强模块的视频行为识别方法及系统
Ng et al. Temporal difference networks for video action recognition
CN111985281B (zh) 图像生成模型的生成方法、装置及图像生成方法、装置
CN110532959B (zh) 基于双通道三维卷积神经网络的实时暴力行为检测系统
CN113255616B (zh) 一种基于深度学习的视频行为识别方法
CN112507920B (zh) 一种基于时间位移和注意力机制的考试异常行为识别方法
CN112164011A (zh) 基于自适应残差与递归交叉注意力的运动图像去模糊方法
CN111126278A (zh) 针对少类别场景的目标检测模型优化与加速的方法
CN112084952B (zh) 一种基于自监督训练的视频点位跟踪方法
CN111160555A (zh) 基于神经网络的处理方法、装置及电子设备
CN111079864A (zh) 一种基于优化视频关键帧提取的短视频分类方法及系统
CN115761627A (zh) 一种火灾烟雾火焰图像识别方法
CN113553954A (zh) 行为识别模型的训练方法及装置、设备、介质和程序产品
CN116453232A (zh) 人脸活体检测方法、人脸活体检测模型的训练方法和装置
Sun et al. Learning adaptive patch generators for mask-robust image inpainting
Wu et al. Recent progress in image denoising: A training strategy perspective
CN111626121B (zh) 基于视频中多层次交互推理的复杂事件识别方法及系统
CN112802048A (zh) 具有不对称结构的图层生成对抗网络生成方法及装置
CN111815529A (zh) 一种基于模型融合和数据增强的低质图像分类增强方法
CN115205793A (zh) 基于深度学习二次确认的电力机房烟雾检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant