CN111027448A - 一种基于时域推理图的视频行为类别识别方法 - Google Patents

一种基于时域推理图的视频行为类别识别方法 Download PDF

Info

Publication number
CN111027448A
CN111027448A CN201911229970.8A CN201911229970A CN111027448A CN 111027448 A CN111027448 A CN 111027448A CN 201911229970 A CN201911229970 A CN 201911229970A CN 111027448 A CN111027448 A CN 111027448A
Authority
CN
China
Prior art keywords
video
time domain
action
method based
identification method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911229970.8A
Other languages
English (en)
Other versions
CN111027448B (zh
Inventor
徐行
张静然
沈复民
贾可
申恒涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Koala Youran Technology Co ltd
Original Assignee
Chengdu Koala Youran Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Koala Youran Technology Co ltd filed Critical Chengdu Koala Youran Technology Co ltd
Priority to CN201911229970.8A priority Critical patent/CN111027448B/zh
Publication of CN111027448A publication Critical patent/CN111027448A/zh
Application granted granted Critical
Publication of CN111027448B publication Critical patent/CN111027448B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于机器识别技术领域,具体为一种基于时域推理图的视频行为类别识别方法,所述视频行为类别识别方法,依据视频帧间动作依赖关系构建多个时域推理图的多头时域邻接矩阵来推理行为先后动作间的隐式关系,同时构建语意融合器在多个时间尺度提取不同依赖关系的动作时域特征并融合成一个强语义的语义特征,进行视频行为类别识别。本发明通过时序建模提高视频行为的类别识别准确度。

Description

一种基于时域推理图的视频行为类别识别方法
技术领域
本发明属于视频行为识别技术领域,具体的说,是一种对视频时域间动作依赖关系进行推理的行为类别识别方法。
背景技术
在移动互联时代,视频非常易获取和分享,对视频内容进行分析,不仅可以避免犯罪,还能进行相应推荐提升用户体验。视频中行为识别作为该领域一个研究方向,不仅有重要学术意义,而且有广泛的商业潜在价值,如交通、楼宇、及学校等监控视频行为分析。
视频行为识别的目标是识别出视频中所发生行为的类别,以深度网络为基础的视频行为分析方法中有两类比较常用的网络结构:
1)视频帧空域建模的2D卷积神经网:该结构直接对视频中的帧提取空域特征然后进行融合得到视频特征,用于后续分类识别。但不同于静态图像,视频除了有特定的空域结构,还有长短程的时序模式,而对时序进行建模是视频分析中比较重要的步骤,2D卷积神经网络没有时序建模的能力;
2)视频帧序列时域上下文建模的3D卷积神经网络或循环神经网络:该结构除了提取视频时域特征外,也可以对视频中时序结构进行某种程度的建模。但这类结构主要对粗粒度的长程时序进行建模,而对细粒度的短程时序关系表现差。
现有的这两类方法在实际中都易于识别有较强空域依赖的动作,而不利于捕获那种由时域动作变化和依赖关系主导的动作结构。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于时域推理图的视频行为类别识别方法,通过时序建模提高视频行为的类别识别准确度。
本发明通过下述技术方案实现:一种基于时域推理图的视频行为类别识别方法,其特征在于:依据视频帧间动作依赖关系构建多个时域推理图的多头时域邻接矩阵来推理行为先后动作间的隐式关系,同时构建语意融合器在多个时间尺度提取不同依赖关系的动作时域特征并融合成一个强语义的语义特征,进行视频行为类别识别。
本发明中,以新构建的多头时序邻接矩阵来表征行为间的动作粗细粒度依赖关系,避免了无法进行时序建模和只能进行长程尺度的粗粒度动作关系建模问题,同时,以该多头邻接矩阵为基础进行图卷积,对视频中的长短动作时序关系进行推理,并应用新创建的多头语意融合器对各种类型的动作关系进行特征语意融合,从而提高了视频行为的类别识别准确度。
本发明中有两个重要的内容:
第一、多头时域邻接矩阵:
时域邻接矩阵用来表征长短程的依赖,多头旨在建模同一依赖间的多种动作关系。邻接矩阵中元素ai,j表征帧i,j间的依赖关系(i和j间的距离代表是长短程),可以构造多个这样的矩阵也就是多头的意思。多头时域邻接矩阵A,表示为A={A1,A2,…,AN},
Figure BDA0002303262610000021
本发明中构建的时域邻接矩阵具有可学习性,这与现有技术有非常大的区别。现有技术中邻接矩阵是构造完后就定死了的,一直以这种关系进行后续的过程,而我们的时域邻接矩阵为了图卷积网络进行服务,通过学习,不断优化分类识别的精准度。
多头时域邻接矩阵是为了进行图卷积推理时,尽可能多的提取长短程依赖特征,但推理时需一个语意信息更加丰富的综合特征序列,所以构造了一个多头语意融合器。
第二、多头语意融合器:原输入的空域特征序列X中xi经多头时域邻接矩阵A构造的时域图G变换后得到全局信息
Figure BDA0002303262610000022
多头语意融合器就是对全局信息
Figure BDA0002303262610000023
进行语意融合的结构。
本发明与现有技术相比,具有以下优点及有益效果:
(1)依据视频帧间动作依赖关系,而非帧内的背景等非本征形态特征构建多个时域图来推理行为先后动作间的隐式关系,解决复杂行为中基础动作长程的依赖和细粒度特性不易识别的问题,同时,构造一种多头的时域推理图和语意关系融合器,在多个时间尺度提取不同依赖关系的动作时域特征并融合成一个强语意的特征来指导识别。
(2)以新构建的多头时域邻接矩阵来表征行为间的动作粗细粒度依赖关系,避免了无法进行时序建模和只能进行长程尺度的粗粒度动作关系建模问题。
(3)在以新构建的多头时域邻接矩阵来表征行为间的动作粗细粒度依赖关系的同时,以该多头时域邻接矩阵为基础进行图卷积,对视频中的长短动作时序关系进行推理,并应用新创建的多头语意融合器对各种类型的动作关系进行特征语意融合,从而提高了视频行为的类别识别准确度。
进一步,本发明所述的视频行为类别识别方法,具体包括以下步骤:
步骤S1:对视频进行采样;
步骤S2:运用卷积网络提取视频帧序列的空域特征X;
步骤S3:构建有动作依赖关系的多头时域邻接矩阵A;
步骤S4:运用时域图卷积网络进行推理;
步骤S5:对整个网络进行监督式训练;
步骤S6:对视频进行测试分类。
进一步地,为了更好的实现本发明,所述步骤S2具体包括以下步骤:
步骤S21:运用卷积网络获取视频帧序列的特征图;
步骤S22:构建时域推理图来表征视频中前后帧间的动作依赖关系。
进一步地,为了更好的实现本发明,所述步骤S3具体包括以下步骤:
步骤S31:构建可学习多头时域邻接矩阵来表征帧节点间的关系;
步骤S32:计算多头时域邻接矩阵中两个帧节点间的边E的权重。
进一步地,为了更好的实现本发明,所述步骤S4具体包括以下步骤:
步骤S41:构造一个视频中行为推理的图卷积网络,运用图卷积网络对空域特征X进行推理变换,建模长短程动作依赖特征;
步骤S42:由空域特征X推理变换后提取与帧相对应的时域特征Z;
步骤S43:构造多头语意融合器,对空域特征X和时域特征Z进行语意融合。
进一步地,为了更好的实现本发明,所述步骤S42具体包括以下步骤:
步骤S421:运用全局池化提取动作依赖特征序列Z的全局信息;
步骤S422:在全局信息的基础上,计算不同动作依赖特征序列间的权重系数;
步骤S423:根据权重系数来融合动作依赖特征序列,获得语意特征。
进一步地,为了更好的实现本发明,所述步骤S5具体包括以下步骤:
步骤S51:提取卷积网络的最终输出分数特征S;
步骤S52:从训练集中提取表征视频行为真实分类的真实标签向量Y;
步骤S53:真实标签向量Y的类别真实索引与该视频类别对应的预测分类特征向量中最大值索引进行比较,采用交叉熵作为损失函数对整个网络进行训练。
进一步地,为了更好的实现本发明,所述步骤S6具体包括以下步骤:
步骤S61:对一段给定包含行为的视频,提取该视频中包含多个预测特征向量的时空分数特征V,时空分数特征V为一个行向量;
步骤S62:对时空分数特征V中各个向量的模按数值大小进行排序,模的数值最大的预测特征向量所对应的类别索引即是该行为的类别。
附图说明
图1是基于本发明时域推理图的一种神经网络连接框架;
图2是本发明具体实施方式的流程图;
图3是多头时域推理图的多头时域邻接矩阵中相应节点的相似性计算示意图;
图4是多头语意特征的融合方法流程示意图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
实施例1:
一种基于时域推理图的视频行为类别识别方法,依据视频帧间动作依赖关系构建多个时域推理图的多头时域邻接矩阵来推理行为先后动作间的隐式关系,同时构建语意融合器在多个时间尺度提取不同依赖关系的动作时域特征并融合成一个强语义的语义特征,进行视频行为类别识别。
一个基本行为有长程的和短程的依赖关系,而且通常在视频中帧间的前后依赖可抽象出多种关系,例如:考虑视频中一个人类行为“将一个球丢到空中,然后抓住它”,这个行为有很多短程和长程的基本依赖,首先有短程的关系“丢”、“丢到空中”、“掉落”、“抓”;还有一些长程的关系“丢然后抓”。
短程:指前后帧间时间隔较小;
长程:指前后帧间时间隔较大;
所以本实施例中构造了多头的时域邻接矩阵,来建模这种复杂行为有多种基本动作和长短程依赖的特性。
本实施例提供的视频行为类别识别方法,以新构建的多头时域邻接矩阵来表征行为间的动作粗细粒度依赖关系,避免了无法进行时序建模和只能进行长程尺度的粗粒度动作关系建模问题,同时,以该多头时域邻接矩阵为基础进行图卷积,对视频中的长短动作时序关系进行推理,并应用新创建的多头语意融合器对各种类型的动作关系进行特征语意融合,从而提高了视频行为的类别识别准确度。
实施例2:
如图2所示,一种基于时域推理图的视频行为类别识别方法,具体包括以下步骤:
步骤S1:对视频进行采样;
步骤S2:运用卷积网络提取视频帧序列的空域特征X;
步骤S3:构建有动作依赖关系的多头时域邻接矩阵A;
步骤S4:运用时域图卷积网络进行推理;
步骤S5:对整个网络进行监督式训练;
步骤S6:对视频进行测试分类。
实施例3:
如图1至图4所示,一种基于时域推理图的视频行为类别识别方法包括以下步骤:
步骤S1:对视频进行采样。
一段视频通常有大量的帧,如果都当做输入进行后续运算,需要花费巨大计算代价,而且这其中有很多信息是相似的,存在冗余,所以首先需对视频进行采样。
本实施中采样方式有两种:第一种,如果用2D的卷积网络提取特征图采用全局稀疏采样;第二种,如果用3D的卷积网络提取特征图采用局部密集采样。
步骤S2:运用卷积网络提取视频帧序列的空域特征X。
对已采样的视频帧,运用卷积网络进行特征提取,如2D的Inception或者基于3D扩张技术的ResNet-50。
所述步骤S2具体包括以下步骤:
步骤S21:运用卷积网络获取视频帧序列的特征图;
具体地:空域特征序列表示为X={x1,x2,...,xT};其中:T为帧序列的个数;
每帧特征图为xi∈RC×H×W;所有帧序列特征表示为X∈RT×C×H×W;其中,C、H、W分别表示特征图的通道、高度和宽度。
步骤S22:构建时域推理图来表征视频中前后帧间的动作依赖关系;
具体地:构建时域图G=(X;E),其中X表示空域特征序列,E表示有相邻关系的帧节点间的边;
步骤S3:构建有动作依赖关系的多头时域邻接矩阵A。
构建可学习多头邻接矩阵来表征帧节点间的关系,矩阵中相应位置的点代表按时序顺序的两相应帧间的关系;具体的矩阵中节点相关性计算细节如图3所示;
在多头时域邻接矩阵中,时序帧在多头邻接矩阵按行列放置,在时域图中,两个帧节点间的边E的权重按以下式计算:
Figure BDA0002303262610000051
其中,
Figure BDA0002303262610000052
表示两帧节点间的相似性,
Figure BDA0002303262610000053
k表示某个上标,k∈{1,2,...,N},N是多头时域邻接矩阵的个数;
Figure BDA0002303262610000054
表示相似性度量函数。
在计算得到多个时域图的边权重
Figure BDA0002303262610000055
后,组合成多头时域邻接矩阵A={A1,A2,...,AN};
步骤S4:运用时域图卷积网络进行推理。
所述步骤S4具体包括:
步骤S41:构造一个视频中行为推理的图卷积网络,运用图卷积网络对包含可学习邻域关系的时域图进行推理,建模长短程动作依赖特征;
具体地:
由步骤2中提取的空域特征序列X和步骤3中构建的多头时域邻接矩阵A,进行图卷积:
Figure BDA0002303262610000061
其中,
Figure BDA0002303262610000062
表示以多头时域邻接矩阵A中第n个邻接关系为基础进行图卷积推理后的语意特征,
Figure BDA0002303262610000063
表示非线性函数。
进一步,本实施例中
Figure BDA0002303262610000064
表示的非线性函数采用ReLU函数。
步骤S42:由空域特征X推理变换后提取与帧相对应的时域特征Z;
将步骤2中视频空域特征序列X输入到时域推理图中进行图卷积,由步骤S41推理变换后可提取某帧xi相应的动作依赖特征序列
Figure BDA0002303262610000065
紧接着对该特征采用下式进行语意融合:
Figure BDA0002303262610000066
其中,
Figure BDA0002303262610000067
表示语意融合函数。
由于语意融合函数
Figure BDA0002303262610000068
是用来对经不同时域图推理后的特征进行语意融合,需要先运用全局池化,再计算表征帧节点特征重要性的权重系数,具体包括以下步骤:
步骤S421:运用全局池化提取各个动作依赖特征序列
Figure BDA0002303262610000069
的全局信息,具体操作为:
Figure BDA00023032626100000613
其中,
Figure BDA00023032626100000612
表示包含全局信息的实数值;
步骤S422:在全局信息
Figure BDA00023032626100000611
的基础上,计算不同动作依赖特征序列间的权重系数(β′1,β′2,...,β′N),其中β′i由以下式实现:
Figure BDA00023032626100000610
其中,
Figure BDA0002303262610000073
表示未进行归一化的权重系数;
步骤S423:根据权重系数(β′1,β′2,...,β′N)来融合动作依赖特征序列
Figure BDA0002303262610000071
获得语意特征zi
Figure BDA0002303262610000072
由多头语意融合器融合后的语意特征zi组合成时域特征序列Z={z1,z2,...,zT};
时域特征序列Z和空域特征序列X有相同特征维数表示。
步骤S43:对空域和时域视频行为特征进行建模。
由步骤2提取视频帧序列的特征图X还是空域特征X和由步骤S42提取的时域图推理融合后的时域特征Z相加进行融合,即:
H=X+Z (7)
步骤S5:对整个网络进行监督式训练;
步骤S51:提取卷积网络的最终输出分数特征S;
记输出分数特征S=fs1;s2;:::;sM;其中,g∈RM×C;该输出分数特征的行数为样本个数M,列数为类别个数C;
步骤S52:从训练集中提取表征视频行为真实分类的真实标签向量Y;
对应真实标签向量Y为一个行向量,长度为样本个数M,真实标签向量Y的模的数值为类别真实索引;
步骤S53:真实标签向量Y的类别真实索引与该视频类别对应的预测分类特征向量中最大值索引进行比较,采用交叉熵作为损失函数对整个网络进行训练;
分类标签向量用于分类的技术,属于本领域公知常识。比如有3个类别:猪、狗、猫,第一步就是数学建模,通常写成0(代表猪)、1(代表狗)、2(代表猫)。但为了配合后面的交叉熵损失,会对这个数字标签进行one-hot编码成一个向量:100(0)、010(1)、001(2)。(也就是向量索引所在位置等于标签,则此处值为1,其他为0)。训练和测试时会输出一个向量(a,b,c),这就是分类向量。(a+b+c=1)。假如一个样本的标签为2(猫),如果测试满足c比a和b都大,就认为正确分类。
本实施例中,交叉熵损失函数为现有技术,可以参见文章名称为《经典损失函数:交叉熵(附tensorflow)》的公开文献。
步骤S6:对视频进行测试分类。
具体包括以下步骤:
步骤S61:对一段给定包含行为的视频,提取该视频中包含多个预测特征向量的时空分数特征V,时空分数特征V为一个行向量;
步骤S62:对时空分数特征V中各个向量的模按数值大小进行排序,模的数值最大的预测特征向量所对应的类别索引即是该行为的类别。
本实施例公开的一种基于时域推理图的动作行为识别方法,依据视频帧间动作依赖关系,而非帧内的背景等非本征形态特征构建多个时域图来推理行为先后动作间的隐式关系,解决复杂行为中基础动作长程的依赖和细粒度特性不易识别的问题,同时,构造一种多头的时域推理图和语意关系融合器,在多个时间尺度提取不同依赖关系的动作时域特征并融合成一个强语意的特征来指导识别。本发明的时域推理图能非常灵活的嵌入到已有的网络结构当中,并对有较强时域依赖关系的序列数据进行关系特征提取,在跳转连接的基础上,可以同时提取空域和时域特征,采用最大交叉熵分数作为动作类别识别,这样提取的判别性的特征提高的视频中行为类别识别的准确度。
实施例4:
本实施例在实施例2或实施例3的基础上,进一步优化,采用top-k指标来评估我们的模型。top-k指模型返回的分类特征分数中前k个结果中有正确标签的视频序列所占的比例,是最常用的分类评估方法。在本实例中,k分别为1和5。
在大规模视频行为分类数据集Something-Something数据集上测试本发明。该数据集包含174个动作类别,220,847个样本,选取168,913个样本作为训练集,24,777作为验证集,27,157作为测试集。测试比较结果如下表1所示:
Figure BDA0002303262610000081
表1
从表1可以看出,本发明在所有的测试集上均优于现有的方法。
在Something-Something数据集上,本发明在top-1上比之前最优的方法提升了1.9%,本发明在V1上top-5较之前最优的方法提升9.3%。在所有度量方式上均优于现有方法提高了视频行为分类的识别准确度。
以上所述,仅是本发明的较佳实施例,并非对本发明做任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化,均落入本发明的保护范围之内。

Claims (8)

1.一种基于时域推理图的视频行为类别识别方法,其特征在于:依据视频帧间动作依赖关系构建多个时域推理图的多头时域邻接矩阵来推理行为先后动作间的隐式关系,同时构建语意融合器在多个时间尺度提取不同依赖关系的动作时域特征并融合成一个强语义的语义特征,进行视频行为类别识别。
2.根据权利要求1所述的一种基于时域推理图的视频行为类别识别方法,其特征在于:具体包括以下步骤:
步骤S1:对视频进行采样;
步骤S2:运用卷积网络提取视频帧序列的空域特征X;
步骤S3:构建有动作依赖关系的多头时域邻接矩阵A;
步骤S4:运用时域图卷积网络进行推理;
步骤S5:对整个网络进行监督式训练;
步骤S6:对视频进行测试分类。
3.根据权利要求2所述的一种基于时域推理图的视频行为类别识别方法,其特征在于:所述步骤S2具体包括以下步骤:
步骤S21:运用卷积网络获取视频帧序列的特征图;
步骤S22:构建时域推理图来表征视频中前后帧间的动作依赖关系。
4.根据权利要求3所述的一种基于时域推理图的视频行为类别识别方法,其特征在于:所述步骤S3具体包括以下步骤:
步骤S31:构建可学习多头时域邻接矩阵来表征帧节点间的关系;
步骤S32:计算多头时域邻接矩阵中两个帧节点间的边E的权重。
5.根据权利要求4所述的一种基于时域推理图的视频行为类别识别方法,其特征在于:所述步骤S4具体包括以下步骤:
步骤S41:构造一个视频中行为推理的图卷积网络,运用图卷积网络对空域特征X进行推理变换,建模长短程动作依赖特征;
步骤S42:由空域特征X推理变换后提取与帧相对应的时域特征Z;
步骤S43:构造多头语意融合器,对空域特征X和时域特征Z进行语意融合。
6.根据权利要求5所述的一种基于时域推理图的视频行为类别识别方法,其特征在于:所述步骤S42具体包括以下步骤:
步骤S421:运用全局池化提取动作依赖特征序列Z的全局信息;
步骤S422:在全局信息的基础上,计算不同动作依赖特征序列间的权重系数;
步骤S423:根据权重系数来融合动作依赖特征序列,获得语意特征。
7.根据权利要求6所述的一种基于时域推理图的视频行为类别识别方法,其特征在于:所述步骤S5具体包括以下步骤:
步骤S51:提取卷积网络的最终输出分数特征S;
步骤S52:从训练集中提取表征视频行为真实分类的真实标签向量Y;
步骤S53:真实标签向量Y的类别真实索引与该视频类别对应的预测分类特征向量中最大值索引进行比较,采用交叉熵作为损失函数对整个网络进行训练。
8.根据权利要求7所述的一种基于时域推理图的视频行为类别识别方法,其特征在于:所述步骤S6具体包括以下步骤:
步骤S61:对一段给定包含行为的视频,提取该视频中包含多个预测特征向量的时空分数特征V,时空分数特征V为一个行向量;
步骤S62:对时空分数特征V中各个向量的模按数值大小进行排序,模的数值最大的预测特征向量所对应的类别索引即是该行为的类别。
CN201911229970.8A 2019-12-04 2019-12-04 一种基于时域推理图的视频行为类别识别方法 Active CN111027448B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911229970.8A CN111027448B (zh) 2019-12-04 2019-12-04 一种基于时域推理图的视频行为类别识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911229970.8A CN111027448B (zh) 2019-12-04 2019-12-04 一种基于时域推理图的视频行为类别识别方法

Publications (2)

Publication Number Publication Date
CN111027448A true CN111027448A (zh) 2020-04-17
CN111027448B CN111027448B (zh) 2023-05-05

Family

ID=70207938

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911229970.8A Active CN111027448B (zh) 2019-12-04 2019-12-04 一种基于时域推理图的视频行为类别识别方法

Country Status (1)

Country Link
CN (1) CN111027448B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114022957A (zh) * 2021-11-03 2022-02-08 四川大学 基于深度学习的行为识别方法

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102905200A (zh) * 2012-08-07 2013-01-30 上海交通大学 一种视频感兴趣区域双流编码传输方法及系统
CN103914149A (zh) * 2014-04-01 2014-07-09 复旦大学 一种面向互动电视的手势交互方法和系统
CN106815579A (zh) * 2017-01-22 2017-06-09 深圳市唯特视科技有限公司 一种基于多区域双流卷积神经网络模型的动作检测方法
CN106845351A (zh) * 2016-05-13 2017-06-13 苏州大学 一种用于视频的基于双向长短时记忆单元的行为识别方法
CN106937121A (zh) * 2015-12-31 2017-07-07 中兴通讯股份有限公司 图像解码和编码方法、解码和编码装置、解码器及编码器
US20170255832A1 (en) * 2016-03-02 2017-09-07 Mitsubishi Electric Research Laboratories, Inc. Method and System for Detecting Actions in Videos
CN107609460A (zh) * 2017-05-24 2018-01-19 南京邮电大学 一种融合时空双重网络流和attention机制的人体行为识别方法
US20180130324A1 (en) * 2016-11-08 2018-05-10 Nec Laboratories America, Inc. Video security system using a siamese reconstruction convolutional neural network for pose-invariant face recognition
CN109325435A (zh) * 2018-09-15 2019-02-12 天津大学 基于级联神经网络的视频动作识别及定位算法
CN109784269A (zh) * 2019-01-11 2019-05-21 中国石油大学(华东) 一种基于时空联合的人体动作检测和定位方法
CN110222574A (zh) * 2019-05-07 2019-09-10 杭州智尚云科信息技术有限公司 基于结构化双流卷积神经网络的生产操作行为识别方法、装置、设备、系统及存储介质
CN110287870A (zh) * 2019-06-25 2019-09-27 大连大学 基于综合光流特征描述符及轨迹的人群异常行为检测方法
US20190361994A1 (en) * 2018-05-22 2019-11-28 Adobe Inc. Compositing Aware Digital Image Search

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102905200A (zh) * 2012-08-07 2013-01-30 上海交通大学 一种视频感兴趣区域双流编码传输方法及系统
CN103914149A (zh) * 2014-04-01 2014-07-09 复旦大学 一种面向互动电视的手势交互方法和系统
CN106937121A (zh) * 2015-12-31 2017-07-07 中兴通讯股份有限公司 图像解码和编码方法、解码和编码装置、解码器及编码器
US20170255832A1 (en) * 2016-03-02 2017-09-07 Mitsubishi Electric Research Laboratories, Inc. Method and System for Detecting Actions in Videos
CN106845351A (zh) * 2016-05-13 2017-06-13 苏州大学 一种用于视频的基于双向长短时记忆单元的行为识别方法
US20180130324A1 (en) * 2016-11-08 2018-05-10 Nec Laboratories America, Inc. Video security system using a siamese reconstruction convolutional neural network for pose-invariant face recognition
CN106815579A (zh) * 2017-01-22 2017-06-09 深圳市唯特视科技有限公司 一种基于多区域双流卷积神经网络模型的动作检测方法
CN107609460A (zh) * 2017-05-24 2018-01-19 南京邮电大学 一种融合时空双重网络流和attention机制的人体行为识别方法
US20190361994A1 (en) * 2018-05-22 2019-11-28 Adobe Inc. Compositing Aware Digital Image Search
CN109325435A (zh) * 2018-09-15 2019-02-12 天津大学 基于级联神经网络的视频动作识别及定位算法
CN109784269A (zh) * 2019-01-11 2019-05-21 中国石油大学(华东) 一种基于时空联合的人体动作检测和定位方法
CN110222574A (zh) * 2019-05-07 2019-09-10 杭州智尚云科信息技术有限公司 基于结构化双流卷积神经网络的生产操作行为识别方法、装置、设备、系统及存储介质
CN110287870A (zh) * 2019-06-25 2019-09-27 大连大学 基于综合光流特征描述符及轨迹的人群异常行为检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
XIAOCHUN LUO等: "Towards efficient and objective work sampling: Recognizing workers\" activities in site surveillance videos with two-stream convolutional networks", 《AUTOMATION IN CONSTRUCTION》 *
YANG HU等: "A fully convolutional two-stream fusion network for interactive image segmentation", 《NEURAL NETWORKS》 *
李庆辉等: "结合有序光流图和双流卷积网络的行为识别", 《光学学报》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114022957A (zh) * 2021-11-03 2022-02-08 四川大学 基于深度学习的行为识别方法
CN114022957B (zh) * 2021-11-03 2023-09-22 四川大学 基于深度学习的行为识别方法

Also Published As

Publication number Publication date
CN111027448B (zh) 2023-05-05

Similar Documents

Publication Publication Date Title
CN110472531B (zh) 视频处理方法、装置、电子设备及存储介质
CN112507901B (zh) 一种基于伪标签自纠正的无监督行人重识别方法
CN111079594B (zh) 一种基于双流协同网络的视频动作分类识别方法
CN109117883A (zh) 基于长短时记忆网络的sar影像海冰分类方法及系统
CN110633667B (zh) 一种基于多任务随机森林的动作预测方法
JP2024513596A (ja) 画像処理方法および装置、ならびにコンピュータ可読ストレージ媒体
CN113314188B (zh) 图结构增强的小样本学习方法、系统、设备及存储介质
CN111723667A (zh) 基于人体关节点坐标的智慧灯杆人群行为识别方法和装置
CN110717090A (zh) 一种旅游景点网络口碑评价方法、系统及电子设备
CN113971496A (zh) 活动影响下的城市交通路网状态演化趋势预测方法及系统
CN114445121A (zh) 一种广告点击率预测模型构建及广告点击率预测方法
CN115690549A (zh) 一种基于并联交互架构模型实现多维度特征融合的目标检测方法
CN111898704A (zh) 对内容样本进行聚类的方法和装置
Li et al. Volume estimation using traffic signal event-based data from video-based sensors
CN111027448B (zh) 一种基于时域推理图的视频行为类别识别方法
CN116881017B (zh) 一种协同虚拟维修训练系统和方法
CN115705706A (zh) 视频处理方法、装置、计算机设备和存储介质
CN110674265B (zh) 面向非结构化信息的特征判别与信息推荐系统
Han et al. NSNP-DFER: a nonlinear spiking neural P network for dynamic facial expression recognition
CN115269998A (zh) 信息推荐方法、装置、电子设备及存储介质
CN116310925A (zh) 一种建筑材料的视频计数方法、装置、设备及存储介质
JP7543944B2 (ja) 機械学習プログラム、機械学習方法及び推定装置
CN115048530A (zh) 融合邻居重要度和特征学习的图卷积推荐系统
CN112118486B (zh) 内容项投放方法、装置、计算机设备及存储介质
Yang et al. Differentiated analysis for music traffic in software defined networks: A method of deep learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant