CN111626171A - 基于视频片段注意力机制与交互关系活动图建模的群组行为识别方法 - Google Patents

基于视频片段注意力机制与交互关系活动图建模的群组行为识别方法 Download PDF

Info

Publication number
CN111626171A
CN111626171A CN202010434393.2A CN202010434393A CN111626171A CN 111626171 A CN111626171 A CN 111626171A CN 202010434393 A CN202010434393 A CN 202010434393A CN 111626171 A CN111626171 A CN 111626171A
Authority
CN
China
Prior art keywords
group
activity
convolution
video
segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010434393.2A
Other languages
English (en)
Other versions
CN111626171B (zh
Inventor
王传旭
孔玮
邓海刚
闫春娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanxi Huarui Electronic Engineering Co.,Ltd.
Shenzhen Litong Information Technology Co ltd
Original Assignee
Qingdao University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao University of Science and Technology filed Critical Qingdao University of Science and Technology
Priority to CN202010434393.2A priority Critical patent/CN111626171B/zh
Publication of CN111626171A publication Critical patent/CN111626171A/zh
Application granted granted Critical
Publication of CN111626171B publication Critical patent/CN111626171B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出一种基于视频片段注意力机制与交互关系活动图建模的群组行为识别方法,主要用于解决视频监控场景下群组行为识别的精度问题,以提高群组行为识别精度并排除视频中大量冗余信息;首先,利用片段注意力机制提取视频中的关键片段,并通过P3D网络提取其时空特征;然后利用卷积关系机制构建群组活动图以捕获人与人之间的交互关系,并通过多个阶段、不同类型的卷积操作对活动图进行优化,形成对组群关系的动态描述;进一步,通过融合机制将优化后的组群关系活动图与原始的P3D特征进行融合,旨在将底层的P3D特征和高层的组群特征进行结合,避免特征丢失;最后,将融合后的特征利用softmax分类器对群组行为进行识别,以获得更高的组群行为识别精度和效果。

Description

基于视频片段注意力机制与交互关系活动图建模的群组行为 识别方法
技术领域
本发明属于组群行为识别领域,具体涉及一种基于视频片段注意力机制与交互关系活动图建模的群组行为识别方法。
背景技术
近年来,基于视频的人体行为识别技术受到了学术界的广泛关注,并且在许多工业领域也有着非常重要的应用前景,例如智能监控领域,公共安全领域以及人机交互领域等。卷积神经网络的出现,极大程度地促进了图像分类、图像分割以及目标检测等任务的发展。许多科研人员通过建立各种不同深度和宽度的网络结构,从图像中提取复杂的特征。而行为识别系统性能的好坏,在很大程度上取决于是否可以有效的利用这些重要信息。针对基于视频的群组行为识别而言,不仅要考虑场景中单人的行为,而且要考虑场景中人与人之间的交互关系。
公开号为【CN109064484A】的发明专利公开一种“基于子群组划分与动量特征融合的人群运动行为识别方法”,包括以下步骤:第一步:输入连续的视频帧,并对视频帧进行划分,将每一帧中的每个人作为一个特征跟踪点,并跟踪每个特征点的三种动量信息,包括每个点的空间坐标、位移大小以及运动方向;并将所有跟踪点的动量信息进行统计;第二步:子群体的移动特征由动量特征决定,以子群体和子群体内的特征跟踪点为基础,定义三种不同的动量特征:运动方向一致性、空间稳定性、人群摩擦冲突性;第三步:计算连续5帧内的描述因子的平均值,用三个平均值构造一个向量,共同组成一个三通道的图像,并输入到微分递归卷积神经网络中进行训练,最后采用输出函数将特征向量转化为人群行为标签,实现人群运动行为识别。
但是,该方案中:(1)第一步采用Harris角点跟踪算法获取视频图像帧中运动目标的空间信息,该算法虽然对L型、X型和Y型的角点提取效果较好,但在提取型T斜T型角点时存在定位偏差;另外,Harris算法不具有尺度不变性,而且检测时间较长;(2)第三步中所使用的微分循环神经网络是将VGG-16网络与LSTM网络进行连接,实现端到端的特征提取;这样做虽然可以有效捕获连续帧间的时空特征,但无法提取底层信息之间的依存关系,容易丢失上下文信息;(3)另外,该方案采用人工标注的方法,根据行为发生的主体、地点以及行为本身的特点来对训练样本进行标注,需要耗费大量的时间和人力成本,对模型训练数据集的规模扩大带来了限制,且人工标注的数据集掺杂了很多人为因素,不利于网络的学习。
发明内容
为克服现有技术的缺点和不足,综合考虑各种行为识别网络的性能和有效性,本发明提出了一种基于片段注意机制与卷积关系机制的深度网络模型,该网络能够通过片段注意力机制提取视频中的关键片段,并利用卷积关系机制提取群组活动中人与人之间的交互关系,二者相结合能够获得更好的群组行为识别效果。
本发明是采用以下的技术方案实现的:一种基于视频片段注意力机制与交互关系活动图建模的群组行为识别方法,其特征在于,包括以下步骤:
步骤A、基于片段注意力机制提取关键视频片段;
步骤A1、将待识别视频数据等时长分段,并利用稀疏采样策略在每个分段视频中随机抽取一帧代表一个小的片段,然后对每个视频帧进行空间特征提取;
步骤A2、构建片段注意力模型对不同视频帧分配不同权重,并对权重进行迭代优化,实现对关键片段的有效利用;
步骤A3、提取迭代优化后的最高权重对应的关键视频帧,进而得到其所对应的关键视频片段;
步骤B、提取关键视频片段的时空特征;
步骤C、基于卷积关系机制提取上述时空特征中的组群成员活动强度交互关系,所述卷积关系机制是指基于单人和群组活动,通过其学习产生一个活动图,并通过多个阶段、不同类型的卷积操作对活动图进行优化,形成对组群关系的动态描述;
步骤D、融合步骤B提取的时空特征与步骤C提取的交互关系进行群组行为识别。
进一步的,所述步骤B中,提取关键视频片段的时空特征时具体采用以下方式:
步骤B1、构建P3DResNet网络;
(1)P3DResNet网络中的卷积核为3D卷积核,将3*3*3的卷积核分解成1*3*3的二维空间卷积和3*1*1的一维时间卷积,二维空间卷积用S表示,一维时间卷积用T表示;
(2)设计P3D-A、P3D-B和P3D-C三种块结构:
P3D-A的表示形式为:
(I+T·S)·xt=xt+T(S(xt))=xt+1 (7)
其中,I表示原始视频图像,xt和xt+1分别表示残差单元在时间t的输入和输出,S(xt)表示对xt进行空间卷积,T(S(xt)表示对S(xt)进行时域卷积;
P3D-B的表示形式为:
(I+S+T)·xt=xt+S(xt)+T(xt)=xt+1 (8)
P3D-C的表示形式为:
(I+S+T·S)·xt=xt+S(xt)+T(S(xt))=xt+1 (9)
(3)将P3D-A、P3D-B和P3D-C三种块结构进行顺次连接组合形成P3D-ResNet网络结构;
步骤B2、提取时空特征:将步骤A3中提取的关键视频片段输入至所构建的P3DResNet网络中,得到整个关键片段的时空特征向量Fp3d,也称之为初始特征;
进一步的,所述步骤C具体采用以下方式实现:
步骤C1、构建单人活动图AI
基于每个人的边界框、单人行为类别以及群组活动类别,通过二维高斯概率密度函数构建活动图,进而得到单人活动图AI,设第m个人的活动图为
Figure BDA0002501695160000031
其中,
Figure BDA0002501695160000032
m∈[1,Np],Np表示组群中成员的总数,则;
Figure BDA0002501695160000033
Figure BDA0002501695160000034
Figure BDA0002501695160000035
fm(z)为二维高斯概率密度函数,第m个人的边界框为
Figure BDA0002501695160000036
单人行为类别为i,z是第m人运动属性i中运动特征变量Fp3d,μm为第m个人边界框的中心位置坐标,∑m是一个协方差矩阵,根据每个人边界框的宽度和高度计算得到;
步骤C2、构建整体群组活动图
Figure BDA0002501695160000037
以初始特征Fp3d作为卷积关系机制网络的输入,产生初始群组活动图
Figure BDA0002501695160000038
初始群组活动图
Figure BDA0002501695160000039
是由卷积函数φ生成每个个人的单人活动图AI、并分配不同的初始权重构建出的整体性联合高斯混合模型,且所有人的权重之和为1;权重初始化时采用均匀分布策略,使得每个个体活动图权重均为
Figure BDA00025016951600000310
再经过几个阶段的迭代优化,得到最后的群组活动图
Figure BDA00025016951600000311
具体表示为:
Figure BDA00025016951600000312
Figure BDA00025016951600000313
其中,T为总的优化阶段数,
Figure BDA00025016951600000314
表示融合,函数φ和ψ是卷积机制中的不同卷积层的卷积函数;定义conv(x)是含有x个卷积核的卷积层并且步长为1,φ为由三个conv(3)和两个conv(1)组成的函数;所有的ψ与φ具有相同的卷积层数,仅卷积核的尺寸不同,ψt为由三个conv(7)和两个conv(1)组成的函数,在第t阶段产生当前活动图
Figure BDA00025016951600000315
其中N=NI+NG,NI和NG分别为个人行为类别数量和群组活动类别的数量。
进一步的,所述步骤D具体通过以下方式实现:
步骤D1、特征融合;
融合初始特征Fp3d以及最终的群租活动图
Figure BDA0002501695160000041
作为最终的组群行为特征,以预测最终的群组行为类别,得到融合特征:
Figure BDA0002501695160000042
其中,
Figure BDA0002501695160000043
是组群行为特征;
步骤D2、模型训练;
(1)设计损失函数:
L=wALA+wGLG, (16)
Figure BDA0002501695160000044
Figure BDA0002501695160000047
Figure BDA0002501695160000045
其中LA是T时间段内总活动图的损失函数,
Figure BDA0002501695160000048
是第t个阶段活动图的损失函数,LG是群组活动损失函数,L是该模型所有阶段的损失函数,Pi表示群组活动真实标签,
Figure BDA0002501695160000046
表示实际输出标签,wA和wG分别控制总活动图损失和群组活动损失的重要性;
(2)构建优化函数:采用Adam算法作为模型的优化函数,使损失函数中的损失值最小;
步骤D3、群组行为识别;
将步骤D1中的融合特征输入至softmax分类器中,输出预测的群组行为标签,并通过LG计算预测值与真实值之间的损失函数,通过反向传播对参数进行不断优化,输出最终的群组行为标签,进而实现对群租行为的识别。
进一步的,所述步骤A1中,在进行预处理时具体采用以下方式:
Step1:对某一视频V进行等时长分组,分组数为α,将视频划分为α个等时长的片段{S1,S2,...Si,...Sα};
Step2:从每个片段中随机选择一帧组成一个新的重组序列{T1,T2,...Ti,Tα},每个帧Ti为片段Si的代表,从其对应的分段中随机抽取;
Step3:基于Step2中的采样策略对该视频执行K次,以生成K组重组片段N={N1,N2,...,NK};
N={N1,N2,....Nk}
{[T11,T12,...,T],[T21,T22,...,T],......,[Ti1,Ti2,...,T],......,[TK1,TK2,...,T]};
Step4:将K组重组片段分别作为一个独立的单元,基于卷积神经网络提取其空间特征。
进一步的,所述步骤A2通过构建片段注意力模型实现关键片段的有效利用,具体采用以下方式实现:
Step1:视频稀疏采样,并提取多通道特征;
提取空间特征后,重组视频片段中的每一帧将产生多个特征通道,每个特征通道代表一个特征检测器;
Step2:通过平均池化压缩每个通道的空间特征,得到压缩后的特征图,实现降维以减少计算负荷,全局平均池化公式如下:
Figure BDA0002501695160000051
其中,C=[C1,C2,...,Cαβ]表示所有特征检测器,Gs-ave表示空间全局池化函数,xm表示C中一个通道的特征统计信息,m∈[1,αβ],Cm是C中的第m个通道;
Step3:设计两个全连接层子网络,基于高阶非线性激活函数得到片段注意力权重;
(1)将压缩后的特征图输入到依次连接的两个全连接层以捕获全局时间依赖关系,第一个全连接层的尺寸为1×αβ×r,其中r表示减少率,第二个全连接层尺寸为1×αβ,α·β表示通道特征的数量;
(2)基于高阶非线性激活函数计算片段权重,并通过原始向量与该权重的点乘操作实现对输入特征的优化。
进一步的,所述步骤B2具体采用以下方式实现:
首先,将输入层或时空特征提取层的输出经过一个1*1*1的卷积层调整特征维度;
然后输入1*3*3的空间卷积层提取空间特征,进一步输入3*1*1的时间卷积层得到时空特征;
最后,使用1*1*1的卷积核进行特征融合得到时空特征表示,通过平均池化层和全连接层得到整个关键片段的时空特征向量Fp3d
与现有技术相比,本发明的优点和积极效果在于:
(1)基于分段稀疏采样策略对原始视频帧进行分组采样,并利用片段注意力机制提取对行为识别贡献率最大的视频片段,以极大程度的降低视频的冗余信息的干扰;减少了数据存储的空间,提高了网络的运行效率,具有更低的计算成本和更优的普适性;
(2)利用卷积关系机制进行群组行为识别,通过构建交互活动图捕获群组活动中人与人之间的交互关系,经过多个阶段的卷积优化策略,对交互活动图进行不断更新,从而使得到的特征更加精细,识别效果更佳精确;
(3)基于片段注意力机制与卷积关系机制相结合的方法进行群组行为识别,能够有效地利用深度神经网络,对组群成员活动强弱分布关系进行精确建模,从而提高对复杂行为的识别精度。
附图说明
图1为本发明实施例所述片段注意力模型示意图;
图2为本发明实施例三种不同P3D-ResNet块结构示意图;
图3为本发明实施例P3D-ResNet网络结构示意图;
图4为本发明实施例所述卷积关系机制结构示意图;
图5为本发明实施例所述组群行为识别方法整体流程示意图。
具体实施方式
为了能够更加清楚地理解本发明的上述目的、特征和优点,下面结合附图及实施例对本发明做进一步说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用不同于在此描述的其他方式来实施,因此,本发明并不限于下面公开的具体实施例。
本发明公开一种基于视频片段注意力机制与交互关系活动图建模的群组行为识别方法,包括以下步骤:
第一步:基于片段注意力机制提取关键视频片段;
第二步:基于P3DResNet提取关键视频片段的时空特征;
第三步:基于卷积关系机制提取上述时空特征中的组群成员活动强度交互关系;
第四步:融合第二步提取的时空特征与第三步提取的交互关系进行群组行为识别。
具体的:
第一步:基于片段注意力机制提取关键视频片段
考虑到在整个视频片段中,每个视频帧的重要程度并不相同,有些视频帧对行为的识别是至关重要的,而有些视频帧是冗余的。针对该问题,本方案引入片段注意力机制对特征信息进行建模,在增强重要特征信息的同时抑制次要特征信息,从而提高模型的识别精度,其基本原理为:
首先,利用随机采样策略对待识别视频进行预处理;然后,将预处理好的数据通过卷积神经网络提取空间特征;进而通过特征变换,将所有空间特征进行级联,形成具有多个通道的时空特征;进一步利用片段注意力机制,为每一代表帧分配不同的权重,并通过反向传播对权重参数进行优化,权重值越大表示特征所对应的视频片段越重要;最后,提取权重值较大的视频片段,即为关键片段(注:片段注意力机制需要经过单独训练实现对关键片段自动赋予较大权重,具体链接softmax层,本实施例以groundtruth(volleyball)为例的样本实现训练,习得对关键片段的重视),具体实施步骤如下所示:
1.1.利用随机采样策略对数据集进行预处理
本实施例以Volleyball数据集为例进行处理,该数据集共有160个视频,其中带有标注的有55个视频,共标注的视频帧数有4830帧,其中个人行为标签有9种:waiting,setting(二传),digging(救球:接对方的扣球),failing,spiking,blocking,jumping,moving,standing;群组行为标签有8种:rightset,rightspike,rightpass,rightwinpoint,leftwinpoint,leftpass,left spike,leftset.
在某种程度上,由于连续若干视频帧中提取的视觉特征不会发生显著变化,因此密集的时间采样通常会导致相邻采样帧之间存在较大信息冗余,采用稀疏时间采样策略可以去除冗余信息,同时降低计算量,提高运行速率。因此,基于该思路,本实施例对Volleyball数据集进行等时长分段,然后利用稀疏采样策略在每个分段视频中随机抽取一帧代表一个小的片段,具体操作如下:
Step1:对某一视频V进行等时长分组,分组数为α,即将视频划分为α个等时长的片段{S1,S2,...Si,...Sα};
Step2:从每个片段中随机选择一帧组成一个新的重组序列{T1,T2,...Ti,Tα},每个帧Ti为片段Si的代表,它是从其对应的分段中随机抽取;
Step3:为了避免上述随机抽取的偏差,将Step2中的采样策略对该视频执行K次,以生成K组重组片段N={N1,N2,...,NK},该步骤旨在增强训练样本,提高模型训练效果;
N={N1,N2,....Nk}
{[T11,T12,...,T],[T21,T22,...,T],......,[Ti1,Ti2,...,T],......,[TK1,TK2,...,T]};
Step4:将K组重组片段,分别以一个独立的单元输入卷积神经网络中提取空间特征,以便提高片段注意力模型的训练效果和模型精度。
1.2.构建片段注意力模型
一段完整的监控视频,无论在时间维度还是空间维度上都有大量的冗余信息,因此,增加了无关的干扰信息以及网络训练的负担。为了解决该问题,本发明提出一种片段注意力模型,通过网络训练让网络自动将更多注意力放在重要的视频片段上,实现对视频中与组群行为密切关联的重要片段的关注,来减少视频中的冗余信息,并降低网络的运算成本,同时提高识别精度。
受人类注意力感知机制的启发,注意力机制本质上是为了模仿人脑收集信息的方式,一般来说,人脑在进行人体活动识别时,除了从全局把握信息外,还更加关注某个时间段的信息。因此,本实施例通过构建片段注意力模型,实现关键片段的有效利用,如图1所示,其具体实现过程如下。
Step1:视频稀疏采样,并提取多通道特征
将步骤1.1中得到的重组视频片段{[T11,T12,...,T],[T21,T22,...,T],...[Ti1,Ti2,...T]分别单独输入卷积神经网络中,以提取每个片段中每一帧的空间特征,以样本片段[T11,T12,...,T]为例,在经过卷积神经网络提取特征后,样本片段中的每一帧都会产生多个特征通道,每个通道代表一个特征检测器(例如:β个卷积核就能产生β个特征通道)。
传统意义上的通道注意力机制是为每个卷积核分配不同权重,通过学习找到贡献率最大的卷积核,而在本方案中,通过设计为每β个卷积核分配一个权重,即为每一帧分配不同权重,通过学习找到贡献率最大的视频帧。
如,以样本片段[T11,T12,...,T]为例,经过卷积神经网络所提取特征表示为:F1=[F11,F12,...,F],F1i表示第i帧的β个通道特征,它是由F1i分别与β个通道卷积核卷积运算获得。然后,将所有帧的特征进行级联,形成α·β个通道特征,将变换后的特征表示为
Figure BDA0002501695160000081
其中
Figure BDA0002501695160000082
表示级联。
F{α,β,W×H}→F'{1,αβ,W×H} (1)
其中,W和H表示每个特征检测器的宽度和高度。
Step2:通过平均池化压缩每个通道的空间特征,实现降维以减少计算负荷。
进一步执行空间全局平均池化操作,以将每个通道的空间信息进行压缩。全局平均池化计算公式如下:
Figure BDA0002501695160000083
其中,C=[C1,C2,...,Cαβ]表示所有特征检测器,Gs-ave表示空间全局池化函数,xm表示C中一个通道的特征统计信息,m∈[1,αβ],Cm是C中的第m个通道,从而,可以将特征形状进一步更改为如下形式:
F'{1,αβ,W×H}→F”{1,αβ,1×1} (3)
Step3:通过两个全连接层和激活函数,以更高阶的非线性激活函数计算出片段注意力权重。
将压缩后的特征图输入到由两个全连接层组成的子网络中,目的是捕获全局时间依赖关系,构建第一个全连接层的尺寸为1×αβ×r,其中r表示减少率,这样设计的目的是将输入特征向量维度降低为原来的1/r,以降低参数量和计算开销(在实验中设置r=1/16),构建第二个全连接层尺寸为1×αβ,它等于输入的特征图数量,这样设计的目的是再将通道维度恢复至初始水平,目的是为了保持特征尺寸的不变性。
经过上述两层网络设计可以通过高阶非线性激活函数计算片段权重:
Figure BDA0002501695160000091
原始向量与该权重进行点乘运算,实现对输入特征的优化选择:
Figure BDA0002501695160000092
其中,FT表示分配了权重的特征检测器,
Figure BDA0002501695160000093
表示sigmoid函数,δ表示ReLU函数,FC和FC’分别表示两个全连接层。相比一层全连接层,本实施例设置的优点是在降低计算开销的同时增加更高阶的非线性,增强网络的表达能力。
1.3.提取关键视频片段
根据步骤1.2为不同视频帧分配不同权重,通过迭代对权重进行优化经过反向传播算法对参数进行不断优化,提取最高权重所对应的关键视频帧,并将关键帧返回,找到其所对应的视频片段,即为关键的片段。
需要说明的是,本实施例中,在对所构建的片段注意力模型进行训练时采用以下方式:
本实施例采用分段训练方式,将上述得到的K组重组片段N={N1,N2,...,NK}分别单独训练,以增强训练样本。所有片段在经过两个全连接层后,通过softmax归一化层获取属于每个行为类别的概率;最后,将所有的预测值取平均,以生成最终的预测结果,该策略不仅可以覆盖整个视频结构,而且还更适合本方案的片段注意力网络模型,它可以在保持准确性的同时降低计算成本。
设计损失函数:根据标准的交叉熵损失函数,损失函数如下:
Figure BDA0002501695160000094
其中,Λ=ave(f(N1;w),f(N2;w),f(Nk;w)),Λ是带有参数w的平均聚合函数,表示从所有片段中推断出属于同一行为类别的分类得分;Λi是第i片段中推断出属于同一行为类别的分类得分;Ni为第i个样本片段,U为群组行为类别总数,yi为类别i的groundtruth标签。
第二步:基于P3DResNet提取关键视频片段的时空特征
2.1.构建P3DResNet网络
为了构建P3DResNet网络,将ResNet中的2D残差单元的卷积核替换成3D卷积核,将3*3*3的卷积核分解成1*3*3的二维空间卷积(用S表示)和3*1*1的一维时间卷积(用T表示)。构建网络时,需要考虑的一个问题是,空间2D卷积和时间1D卷积应该具有直接作用还是间接作用。直接作用是指,将空间卷积运算的结果直接作为时间卷积的输入;间接作用是指,空间卷积运算和时间卷积运算并行执行;另外需要考虑的问题是两个卷积核的结果是否应直接应用于残差单元的输出,基于以上两种设计思想,本实施例采用三种P3D-ResNet块结构,如图2所示;
·P3D-A:
该方式是S直接影响T,首先完成特征图的2D卷积,然后执行时间1D卷积,T卷积的结果与原始特征进行融合一起作为残差块的输出,可以由以下公式进行表示:
(I+T·S)·xt=xt+T(S(xt))=xt+1 (7)
其中xt和xt+1分别表示残差单元中时间t的输入和输出;
·P3D-B:
该方法与P3D-A的不同之处在于,空间卷积和时间卷积之间没有直接联系,二者单独进行卷积运算,最后将它们的结果进行级联作为残差块的输出;
(I+S+T)·xt=xt+S(xt)+T(xt)=xt+1 (8)
·P3D-C:
该方法是前两种方法的组合,并且将S的结果融合在最终结果中;
(I+S+T·S)·xt=xt+S(xt)+T(S(xt))=xt+1 (9)
在设计残差单元时,将瓶颈结构添加到基本的2D残差块中以降低计算复杂性,具体来说,在3*3卷积层的前面和后面添加1*1的卷积层,以缩小和恢复特征图的尺寸;并且在将2D网络扩展成3D网络的过程中也保留了此想法。将P3D-A,P3D-B,P3D-C结构组合在一起,构成本实施例最终所需要的P3D-ResNet网络结构,如图3所示。
2.2.提取时空特征
输入步骤1.3所提取的关键视频片段Si∈D×H×W×C到步骤2.1构建好的P3D-ResNet网络中,产生初始特征Fp3d,它将进一步输入卷积关系机制中,用来进行活动图预测以及最终的群组活动预测,其中W和H分别为输入视频帧的宽度和高度,D为输入的视频帧数,C为输入的通道数。
首先,将输入层或时空特征提取层的输出经过一个1*1*1的卷积层调整特征维度;然后输入1*3*3的空间卷积层提取空间特征,进一步输入3*1*1的时间卷积层得到时空特征;最后,使用1*1*1的卷积核进行特征融合得到时空特征表示。在经过若干个(比如取经验值33)时空特征提取模块后,通过平均池化层和全连接层得到整个关键片段的时空特征向量Fp3d,进而可以将初始特征Fp3d输入卷积关系机制中,捕获群组活动中人与人之间的交互关系。
第三步:组群交互关系活动图建模
本方案提出了一种描述组群中所有成员运动强弱的整体结构图,来表征组群成员交互关系强弱整体分布的建模方法,刻画组群整体的时空关系,用于捕获群组活动中人与人之间的交互关系,并将这种关系用一种活动图进行描述,通过设置多个阶段对活动图进行优化,以获得整体组群的活动图特征,具体的:
将步骤2.2所得到的时空特征向量Fp3d(初始特征)作为卷积关系机制网络的输入,产生初始活动图
Figure BDA0002501695160000111
经过多个阶段的优化过程,在第t阶段产生活动图
Figure BDA0002501695160000112
其中N=NI+NG,NI和NG分别为个人行为类别数量和群组活动类别的数量。经过多个阶段的优化后,将会产生最终的活动图
Figure BDA0002501695160000113
其中T为优化阶段的总次数,t∈[1,T]。
其中,构建卷积关系机制实现组群关系活动图的建模的核心原理如下:
个人和组群的活动图的时序演变优化是由图4的卷积关系机制网络实现的,初始活动图
Figure BDA0002501695160000114
是由φ产生的,在空间形式上表示个人活动图
Figure BDA0002501695160000115
和群组活动图
Figure BDA0002501695160000116
其中,群组活动图可以看成是个人活动图联合分布,是对个人活动图的整合。定义conv(x)是含有x个卷积核的卷积层并且步长为1,φ是由三个conv(3)和两个conv(1)组成的函数;接下来,活动图经过T个阶段,使用ψt对其进行优化,ψt是由三个conv(7)和两个conv(1)组成的函数。
提取人与人之间的交互关系的具体步骤如下:
Stage1.构建单人活动图
根据数据集中所标注的每个人的边界框、单人行为类别以及群组活动类别,通过二维高斯概率密度函数来构建活动图,并将活动图表示为一组2D字段,用来描述该个体运动区域的中心坐标、运动强度、活动范围,并且每种行为对应一个活动图,每个人的活动图用活动区域的单高斯模型表示;
在训练过程中,假设将单人作为输入,通过获取地面真实人物边界框B∈RM×4来构建活动图,其中单人行为类别为I∈{1,...,NI}M,群组活动类别G∈{1,...,NG}。设第m个人的边界框为
Figure BDA0002501695160000117
单人行为类别为i,群组活动为g,第m个人的单人活动图
Figure BDA0002501695160000118
产生过程如下:
Figure BDA0002501695160000119
Figure BDA00025016951600001110
Figure BDA00025016951600001111
fm(z)为二维高斯概率密度函数,z是运动属性i中运动特征变量Fp3d,μm为第m个人边界框的中心位置坐标,∑m是一个协方差矩阵,根据每个人边界框的宽度和高度计算得到。由于边界框是沿垂直和水平方向,因此协方差矩阵成对角线型。
Stage2:整体组群活动图的动态过程建模
群组活动图是对每个人活动区域的融合,采用高斯混合模型表示,并通过对每个个人的单人活动图分配不同的权重,构建整体性联合高斯混合模型,其中,活动剧烈的个体模型获得较大权重,以示其在组群行为中的主导作用,所有人的权重之和等于1;群组活动图优化过程描述如下:
给定输入的初始特征Fp3d,通过函数φ在第一阶段产生初始活动图
Figure BDA0002501695160000121
然后,通过另一个函数ψ1,将Fp3d
Figure BDA0002501695160000122
进行结合产生优化后的活动图
Figure BDA0002501695160000123
这样可以递推优化下去。卷积关系机制中的优化组件可以通过如下公式表示:
Figure BDA0002501695160000124
Figure BDA0002501695160000125
其中,T为总的优化阶段数,
Figure BDA0002501695160000126
表示融合。函数φ和ψ是由不同卷积层组成的卷积函数。定义conv(x)是含有x个卷积核的卷积层并且步长为1。φ是由三个conv(3)和两个conv(1)组成的函数。所有的ψ与φ具有相同的卷积层数,只是卷积核的尺寸不同,ψt是由三个conv(7)和两个conv(1)组成的。
第四步:融合时空特征与活动图交互关系进行群组行为识别
4.1.特征融合
优化后的活动图
Figure BDA0002501695160000127
为特征图Fp3d中个体之间的空间关系做一个丰富的描述,本方案接下来通过联合特征图Fp3d以及最终的活动图
Figure BDA0002501695160000128
作为最终的组群行为特征,用来预测最终的群组行为类别,由公式(15)计算得到:
Figure BDA0002501695160000129
其中,
Figure BDA00025016951600001210
是组群行为特征,它是ζ通过使用卷积层和池化层将原始特征F和活动图
Figure BDA00025016951600001211
进行融合,以产生最终的群组活动预测。假设定义一个形式为pool(x)的池化层表示过滤器的尺寸为x,步长为2。ζ的网络结构由conv(7),pool(2),conv(7),pool(2),conv(1)和一个全局平均池化层组成。对于ζ而言,共同推理特征图和活动图是很重要的。如果ζ的输入只有活动图,则网络将无法考虑到视觉表示与相应活动图之间的匹配,从而无法准确识别群组活动。
4.2网络模型训练
本实施例按照7:2:1的比例划分数据集,70%用来做训练集,20%用来做测试集,10%用来做验证集;为了让模型更加容易训练,本方案采用两阶段的训练策略进行训练:
Step1.构建损失函数
卷积关系机制具有多任务目标,必须尽可能准确的预测阶段t的活动图
Figure BDA0002501695160000131
进而生成正确的群组活动标签,根据单人和群组活动的活动图,将损失函数定义如下:
L=wALA+wGLG, (16)
Figure BDA0002501695160000132
Figure BDA0002501695160000133
Figure BDA0002501695160000134
其中LA是T时间段内总活动图的损失函数,
Figure BDA0002501695160000135
是第t个阶段活动图的损失函数,LG是群组活动损失函数,L是该模型所有阶段的损失函数。另外,P表示群组活动标签,
Figure BDA0002501695160000136
表示实际输出标签,wA和wG分别控制总活动图损失和群组活动损失的重要性。
在网络设计过程中,将第一阶段的wG设置为0,使模型只专注于学习真实的活动图的生成。在第一个阶段结束后,将wG和wA都赋予非零值,以使所有权重一起得到优化。由于本方案的主要目标是进行群组活动识别,因此wA的设定值应该小于wG,以便将更多的注意力放在群组活动类别的预测上。
Step2.构建优化函数
使用Adam算法作为模型的优化函数,使损失函数中的损失值最小,本实施例设置学习率为0.01,其他超参数使用PyTorch中的默认值。比如,在PyTorch中,定义Adam优化函数可用如下代码实现:Optim=torch.optim.Adam(lr=0.001)。
4.3.群组行为识别
将步骤4.1中所得到的融合特征,输入softmax分类器中,输出预测的群组行为标签,并通过LG计算预测值与真实值之间的损失函数,通过反向传播对参数进行不断优化,直到网络收敛,输出最终的群组行为标签,进而实现对群租行为的识别。
在传统的行为识别工作中,通常将所有采样片段独立作为卷积神经网络的输入提取特征,进而通过对所有采样片段的分类得分进行平均,以此来评估整个视频的分类情况,这样做的缺点是容易忽略不同片段之间的依存关系。而本发明的目的是让网络自动将更多注意力放在视频中的重要片段(时间上的概念)上,基于此,引入了片段注意力机制,在经过卷积神经网络提取特征后,每个样本帧会产生多个通道,每个通道代表一个特征检测器,利用片段注意力机制为相应视频片段分配合理的权重,使网络可以更加关注重要片段,以此来有效降低网络的运算成本;
另外,支撑群组行为识别任务的信息有两大类:一种信息是每个人的外观特征,以及连续视频帧间的时间信息;另一种是群组活动中人与人之间的交互关系。在现有的一些方法中,通过使用各种池化操作来提取部分关系线索,但它们并没有完全利用所有可获取的信息来建模人与人之间的交互关系。另外一些工作希望通过使用卷积神经网络来提取人与人之间的内部关系,但相关实验表明,卷积神经网络很难学习到高级的交互关系。因此,本发明提出一种卷积关系机制,利用人体之间的空间关系信息来进行群组活动识别,基于单人和群组活动,通过学习产生一个中间描述符(又称为活动图),进而通过多个阶段的优化来减少活动图中的错误预测,最后,通过融合组件将优化后的活动图与原始特征图进行融合,并输入softmax分了器中进行群组行为识别。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例应用于其它领域,但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。

Claims (7)

1.基于视频片段注意力机制与交互关系活动图建模的群组行为识别方法,其特征在于,包括以下步骤:
步骤A、基于片段注意力机制提取关键视频片段;
步骤A1、将待识别视频数据等时长分段,并利用稀疏采样策略在每个分段视频中随机抽取一帧代表一个小的片段,然后对每个视频帧进行空间特征提取;
步骤A2、构建片段注意力模型对不同视频帧分配不同权重,并对权重进行迭代优化,实现对关键片段的有效利用;
步骤A3、提取迭代优化后的最高权重对应的关键视频帧,进而得到其所对应的关键视频片段;
步骤B、提取关键视频片段的时空特征;
步骤C、基于卷积关系机制提取上述时空特征中的组群成员活动强度交互关系,所述卷积关系机制是指基于单人和群组活动,通过其学习产生一个活动图,并通过多个阶段、不同类型的卷积操作对活动图进行优化,形成对组群关系的动态描述;
步骤D、融合步骤B提取的时空特征与步骤C提取的交互关系进行群组行为识别。
2.根据权利要求1所述的基于视频片段注意力机制与交互关系活动图建模的群组行为识别方法,其特征在于:所述步骤B中,提取关键视频片段的时空特征时具体采用以下方式:
步骤B1、构建P3D ResNet网络;
(1)P3D ResNet网络中的卷积核为3D卷积核,将3*3*3的卷积核分解成1*3*3的二维空间卷积和3*1*1的一维时间卷积,二维空间卷积用S表示,一维时间卷积用T表示;
(2)设计P3D-A、P3D-B和P3D-C三种块结构:
P3D-A的表示形式为:
(I+T·S)·xt=xt+T(S(xt))=xt+1 (7)
其中,I表示原始视频图像,xt和xt+1分别表示残差单元在时间t的输入和输出,S(xt)表示对xt进行空间卷积,T(S(xt)表示对S(xt)进行时域卷积;
P3D-B的表示形式为:
(I+S+T)·xt=xt+S(xt)+T(xt)=xt+1 (8)
P3D-C的表示形式为:
(I+S+T·S)·xt=xt+S(xt)+T(S(xt))=xt+1 (9)
(3)将P3D-A、P3D-B和P3D-C三种块结构进行顺次连接组合形成P3D-ResNet网络结构;
步骤B2、提取时空特征:将步骤A3中提取的关键视频片段输入至所构建的P3D ResNet网络中,得到整个关键片段的时空特征向量Fp3d,也称之为初始特征。
3.根据权利要求1或2所述的基于视频片段注意力机制与交互关系活动图建模的群组行为识别方法,其特征在于:所述步骤C具体采用以下方式实现:
步骤C1、构建单人活动图AI
基于每个人的边界框、单人行为类别以及群组活动类别,通过二维高斯概率密度函数构建活动图,进而得到单人活动图AI,设第m个人的活动图为
Figure FDA0002501695150000021
其中,
Figure FDA0002501695150000022
m∈[1,Np],Np表示组群中成员的总数,则;
Figure FDA0002501695150000023
Figure FDA0002501695150000024
Figure FDA0002501695150000025
fm(z)为二维高斯概率密度函数,第m个人的边界框为
Figure FDA0002501695150000026
单人行为类别为i,z是第m人运动属性i中运动特征变量Fp3d,μm为第m个人边界框的中心位置坐标,∑m是一个协方差矩阵,根据每个人边界框的宽度和高度计算得到;
步骤C2、构建整体群组活动图
Figure FDA0002501695150000027
以初始特征Fp3d作为卷积关系机制网络的输入,产生初始群组活动图
Figure FDA0002501695150000028
初始群组活动图
Figure FDA0002501695150000029
是由卷积函数φ生成每个个人的单人活动图AI、并分配不同的初始权重构建出的整体性联合高斯混合模型,且所有人的权重之和为1;权重初始化时采用均匀分布策略,使得每个个体活动图权重均为
Figure FDA00025016951500000210
再经过几个阶段的迭代优化,得到最后的群组活动图
Figure FDA00025016951500000211
具体表示为:
Figure FDA00025016951500000212
Figure FDA00025016951500000213
其中,T为总的优化阶段数,
Figure FDA00025016951500000214
表示融合,函数φ和ψ是卷积机制中的不同卷积层的卷积函数;定义conv(x)是含有x个卷积核的卷积层并且步长为1,φ为由三个conv(3)和两个conv(1)组成的函数;所有的ψ与φ具有相同的卷积层数,仅卷积核的尺寸不同,ψt为由三个conv(7)和两个conv(1)组成的函数,在第t阶段产生当前活动图
Figure FDA00025016951500000215
其中N=NI+NG,NI和NG分别为个人行为类别数量和群组活动类别的数量。
4.根据权利要求1所述的基于视频片段注意力机制与交互关系活动图建模的群组行为识别方法,其特征在于:所述步骤D具体通过以下方式实现:
步骤D1、特征融合;
融合初始特征Fp3d以及最终的群租活动图
Figure FDA0002501695150000031
作为最终的组群行为特征,以预测最终的群组行为类别,得到融合特征:
Figure FDA0002501695150000032
其中,
Figure FDA0002501695150000033
是组群行为特征;
步骤D2、模型训练;
(1)设计损失函数:
L=wALA+wGLG, (16)
Figure FDA0002501695150000034
Figure FDA0002501695150000035
Figure FDA0002501695150000036
其中LA是T时间段内总活动图的损失函数,
Figure FDA0002501695150000037
是第t个阶段活动图的损失函数,LG是群组活动损失函数,L是该模型所有阶段的损失函数,Pi表示群组活动真实标签,
Figure FDA0002501695150000038
表示实际输出标签,wA和wG分别控制总活动图损失和群组活动损失的重要性;
(2)构建优化函数:采用Adam算法作为模型的优化函数,使损失函数中的损失值最小;
步骤D3、群组行为识别;
将步骤D1中的融合特征输入至softmax分类器中,输出预测的群组行为标签,并通过LG计算预测值与真实值之间的损失函数,通过反向传播对参数进行不断优化,输出最终的群组行为标签,进而实现对群租行为的识别。
5.根据权利要求1所述的基于视频片段注意力机制与交互关系活动图建模的群组行为识别方法,其特征在于:所述步骤A1中,在进行预处理时具体采用以下方式:
Step1:对某一视频V进行等时长分组,分组数为α,将视频划分为α个等时长的片段{S1,S2,...Si,...Sα};
Step2:从每个片段中随机选择一帧组成一个新的重组序列{T1,T2,...Ti,Tα},每个帧Ti为片段Si的代表,从其对应的分段中随机抽取;
Step3:基于Step2中的采样策略对该视频执行K次,以生成K组重组片段N={N1,N2,...,NK};
N={N1,N2,....Nk}
{[T11,T12,...,T],[T21,T22,...,T],......,[Ti1,Ti2,...,T],......,[TK1,TK2,...,T]};
Step4:将K组重组片段分别作为一个独立的单元,基于卷积神经网络提取其空间特征。
6.根据权利要求1所述的基于视频片段注意力机制与交互关系活动图建模的群组行为识别方法,其特征在于:所述步骤A2通过构建片段注意力模型实现关键片段的有效利用,具体采用以下方式实现:
Step1:视频稀疏采样,并提取多通道特征;
提取空间特征后,重组视频片段中的每一帧将产生多个特征通道,每个特征通道代表一个特征检测器;
Step2:通过平均池化压缩每个通道的空间特征,得到压缩后的特征图,实现降维以减少计算负荷,全局平均池化公式如下:
Figure FDA0002501695150000041
其中,C=[C1,C2,...,Cαβ]表示所有特征检测器,Gs-ave表示空间全局池化函数,xm表示C中一个通道的特征统计信息,m∈[1,αβ],Cm是C中的第m个通道;
Step3:设计两个全连接层子网络,基于高阶非线性激活函数得到片段注意力权重;
(1)将压缩后的特征图输入到依次连接的两个全连接层以捕获全局时间依赖关系,第一个全连接层的尺寸为1×αβ×r,其中r表示减少率,第二个全连接层尺寸为1×αβ,α·β表示通道特征的数量;
(2)基于高阶非线性激活函数计算片段权重,并通过原始向量与该权重的点乘操作实现对输入特征的优化。
7.根据权利要求1所述的基于视频片段注意力机制与交互关系活动图建模的群组行为识别方法,其特征在于:所述步骤B2具体采用以下方式实现:
首先,将输入层或时空特征提取层的输出经过一个1*1*1的卷积层调整特征维度;
然后输入1*3*3的空间卷积层提取空间特征,进一步输入3*1*1的时间卷积层得到时空特征;
最后,使用1*1*1的卷积核进行特征融合得到时空特征表示,通过平均池化层和全连接层得到整个关键片段的时空特征向量Fp3d
CN202010434393.2A 2020-05-21 2020-05-21 基于视频片段注意力机制与交互关系活动图建模的群组行为识别方法 Active CN111626171B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010434393.2A CN111626171B (zh) 2020-05-21 2020-05-21 基于视频片段注意力机制与交互关系活动图建模的群组行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010434393.2A CN111626171B (zh) 2020-05-21 2020-05-21 基于视频片段注意力机制与交互关系活动图建模的群组行为识别方法

Publications (2)

Publication Number Publication Date
CN111626171A true CN111626171A (zh) 2020-09-04
CN111626171B CN111626171B (zh) 2023-05-16

Family

ID=72271944

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010434393.2A Active CN111626171B (zh) 2020-05-21 2020-05-21 基于视频片段注意力机制与交互关系活动图建模的群组行为识别方法

Country Status (1)

Country Link
CN (1) CN111626171B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112150442A (zh) * 2020-09-25 2020-12-29 帝工(杭州)科技产业有限公司 基于深度卷积神经网络及多实例学习的新冠诊断系统
CN112183310A (zh) * 2020-09-25 2021-01-05 华东计算技术研究所(中国电子科技集团公司第三十二研究所) 冗余监控画面过滤及无效监控画面筛选的方法及系统
CN112330644A (zh) * 2020-11-11 2021-02-05 复旦大学 基于深度学习的医疗影像诊断系统
CN112580557A (zh) * 2020-12-25 2021-03-30 深圳市优必选科技股份有限公司 行为识别方法、装置、终端设备和可读存储介质
CN112686194A (zh) * 2021-01-06 2021-04-20 中山大学 第一人称视角动作识别方法、系统及存储介质
CN113177455A (zh) * 2021-04-23 2021-07-27 中国科学院计算技术研究所 一种用于识别运动强度的方法和系统
CN113283343A (zh) * 2021-05-26 2021-08-20 上海商汤智能科技有限公司 人群定位方法及装置、电子设备和存储介质
CN113516028A (zh) * 2021-04-28 2021-10-19 南通大学 一种基于混合注意力机制的人体异常行为识别方法及系统
CN115529475A (zh) * 2021-12-29 2022-12-27 北京智美互联科技有限公司 视频流量内容检测与风控的方法和系统
CN117574259A (zh) * 2023-10-12 2024-02-20 南京工业大学 适用于高端装备的注意力孪生智能迁移可解释性诊断方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017133009A1 (zh) * 2016-02-04 2017-08-10 广州新节奏智能科技有限公司 一种基于卷积神经网络的深度图像人体关节定位方法
CN109101896A (zh) * 2018-07-19 2018-12-28 电子科技大学 一种基于时空融合特征和注意力机制的视频行为识别方法
CN109241834A (zh) * 2018-07-27 2019-01-18 中山大学 一种基于隐变量的嵌入的群体行为识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017133009A1 (zh) * 2016-02-04 2017-08-10 广州新节奏智能科技有限公司 一种基于卷积神经网络的深度图像人体关节定位方法
CN109101896A (zh) * 2018-07-19 2018-12-28 电子科技大学 一种基于时空融合特征和注意力机制的视频行为识别方法
CN109241834A (zh) * 2018-07-27 2019-01-18 中山大学 一种基于隐变量的嵌入的群体行为识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨兴明;范楼苗;: "基于区域特征融合网络的群组行为识别" *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112183310A (zh) * 2020-09-25 2021-01-05 华东计算技术研究所(中国电子科技集团公司第三十二研究所) 冗余监控画面过滤及无效监控画面筛选的方法及系统
CN112150442A (zh) * 2020-09-25 2020-12-29 帝工(杭州)科技产业有限公司 基于深度卷积神经网络及多实例学习的新冠诊断系统
CN112330644A (zh) * 2020-11-11 2021-02-05 复旦大学 基于深度学习的医疗影像诊断系统
CN112580557A (zh) * 2020-12-25 2021-03-30 深圳市优必选科技股份有限公司 行为识别方法、装置、终端设备和可读存储介质
CN112686194B (zh) * 2021-01-06 2023-07-18 中山大学 第一人称视角动作识别方法、系统及存储介质
CN112686194A (zh) * 2021-01-06 2021-04-20 中山大学 第一人称视角动作识别方法、系统及存储介质
CN113177455A (zh) * 2021-04-23 2021-07-27 中国科学院计算技术研究所 一种用于识别运动强度的方法和系统
CN113516028A (zh) * 2021-04-28 2021-10-19 南通大学 一种基于混合注意力机制的人体异常行为识别方法及系统
CN113516028B (zh) * 2021-04-28 2024-01-19 南通大学 一种基于混合注意力机制的人体异常行为识别方法及系统
CN113283343A (zh) * 2021-05-26 2021-08-20 上海商汤智能科技有限公司 人群定位方法及装置、电子设备和存储介质
WO2022247091A1 (zh) * 2021-05-26 2022-12-01 上海商汤智能科技有限公司 人群定位方法及装置、电子设备和存储介质
CN115529475A (zh) * 2021-12-29 2022-12-27 北京智美互联科技有限公司 视频流量内容检测与风控的方法和系统
CN117574259A (zh) * 2023-10-12 2024-02-20 南京工业大学 适用于高端装备的注意力孪生智能迁移可解释性诊断方法
CN117574259B (zh) * 2023-10-12 2024-05-07 南京工业大学 适用于高端装备的注意力孪生智能迁移可解释性诊断方法

Also Published As

Publication number Publication date
CN111626171B (zh) 2023-05-16

Similar Documents

Publication Publication Date Title
CN111626171B (zh) 基于视频片段注意力机制与交互关系活动图建模的群组行为识别方法
CN111612206B (zh) 一种基于时空图卷积神经网络的街区人流预测方法及系统
CN107679491B (zh) 一种融合多模态数据的3d卷积神经网络手语识别方法
CN109389055B (zh) 基于混合卷积和注意力机制的视频分类方法
Abdali et al. Robust real-time violence detection in video using cnn and lstm
CN114882421B (zh) 一种基于时空特征增强图卷积网络的骨架行为识别方法
Fan et al. Point spatio-temporal transformer networks for point cloud video modeling
CN108537818B (zh) 基于集群压力lstm的人群轨迹预测方法
Mehralian et al. RDCGAN: Unsupervised representation learning with regularized deep convolutional generative adversarial networks
CN113297936B (zh) 一种基于局部图卷积网络的排球群体行为识别方法
EP4099213A1 (en) A method for training a convolutional neural network to deliver an identifier of a person visible on an image, using a graph convolutional neural network
Jiang et al. An efficient attention module for 3d convolutional neural networks in action recognition
CN113379771A (zh) 带有边缘约束的层次化人体解析语义分割方法
CN117237559B (zh) 面向数字孪生城市的三维模型数据智能分析方法及系统
CN117746260B (zh) 遥感数据智能解析方法及系统
Fu et al. Learning semantic motion patterns for dynamic scenes by improved sparse topical coding
CN112183464A (zh) 基于深度神经网络和图卷积网络的视频行人识别方法
CN115410222A (zh) 一种姿态感知的视频行人再识别网络
CN112052940A (zh) 基于向量压缩与重构的社交网络特征动态提取方法
Liu et al. HECR-Net: Height-embedding context reassembly network for semantic segmentation in aerial images
CN115050093A (zh) 一种基于分阶段多级金字塔的跨视角步态识别方法
CN114783053A (zh) 基于空间注意力和分组卷积的行为识别方法及系统
Liu et al. Social graph transformer networks for pedestrian trajectory prediction in complex social scenarios
CN112348033B (zh) 一种协同显著性目标检测方法
Han et al. Real-time adversarial GAN-based abnormal crowd behavior detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240418

Address after: 030000 Shanxi Province Taiyuan City Shanxi Transformation Comprehensive Reform Demonstration Zone Tanghuai Industrial Park No.12 Dachang South Road Shanxi An Taixin Technology Industrial Park C1002

Patentee after: Shanxi Huarui Electronic Engineering Co.,Ltd.

Country or region after: China

Address before: 509 Kangrui Times Square, Keyuan Business Building, 39 Huarong Road, Gaofeng Community, Dalang Street, Longhua District, Shenzhen, Guangdong Province, 518000

Patentee before: Shenzhen Litong Information Technology Co.,Ltd.

Country or region before: China

Effective date of registration: 20240416

Address after: 509 Kangrui Times Square, Keyuan Business Building, 39 Huarong Road, Gaofeng Community, Dalang Street, Longhua District, Shenzhen, Guangdong Province, 518000

Patentee after: Shenzhen Litong Information Technology Co.,Ltd.

Country or region after: China

Address before: 266000 Songling Road, Laoshan District, Qingdao, Shandong Province, No. 99

Patentee before: QINGDAO University OF SCIENCE AND TECHNOLOGY

Country or region before: China

TR01 Transfer of patent right