CN113673489A - 一种基于级联Transformer的视频群体行为识别方法 - Google Patents
一种基于级联Transformer的视频群体行为识别方法 Download PDFInfo
- Publication number
- CN113673489A CN113673489A CN202111225547.8A CN202111225547A CN113673489A CN 113673489 A CN113673489 A CN 113673489A CN 202111225547 A CN202111225547 A CN 202111225547A CN 113673489 A CN113673489 A CN 113673489A
- Authority
- CN
- China
- Prior art keywords
- layer
- target
- transformer
- human body
- layers
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及计算机视觉及深度学习领域,尤其涉及一种基于级联Transformer的视频群体行为识别方法,首先采集生成视频数据集,将视频数据集经过三维骨干网络提取三维时空特征,选取关键帧图像空间特征图;对关键帧图像空间特征图进行预处理后送入人体目标检测Transformer,输出关键帧图像中的人体目标框;然后,映射筛选后人体目标框在关键帧图像特征图上所对应的子特征图,结合关键帧图像周围帧特征图计算query/key/value,输入群体行为识别Transfomer,输出群体级别时空编码特征图;最后,经过多层感知机对群体行为进行分类。本发明具有有效提高群体行为识别准确率的效果。
Description
技术领域
本发明涉及计算机视觉及深度学习领域,尤其涉及一种基于级联Transformer的视频群体行为识别方法。
背景技术
现如今,监控视频已经广泛应用于社会公共场所,在维护社会公共安全上发挥着极为重要的作用。对监控视频中的异常行为和事件进行有效的识别,能更好的发挥监控视频的作用。群体行为是视频中最常出现的人类行为活动,群体行为识别通过自动识别视频中的群体行为,能有效预防危险事件的发生,有着广泛的应用价值。
在自然场景下,视频群体行为识别主要面临两个较大的挑战。一是场景较为复杂,主要表现为人体尺度变换较大,背景光照、群体之间相互遮挡等,导致个体行为特征的提取难度加大;二是个体与群体的层次关系较难建模,群体行为中某些个体对群体行为有着较大的影响,某些个体贡献相对较小,个体间差异增大了个体间上下文关系的复杂度,如何突出不同个体对于群体行为贡献的差异性,是群体行为得到有效识别的关键。
近期的群体行为识别方法大多基于深度学习实现,主要分为两类:一是采用单阶三维卷积神经网络模型提取时空特征,送入全连接层进行群体行为识别;二是采用两阶识别方法,第一阶段提取个体特征,个体特征提取多采用目标检测算法检测人体目标框,再利用三维卷积网络提取目标框个体时空特征,或采用基于骨骼的方法提取目标框个体骨架特征;第二阶段对个体和群体的层次关系进行建模,获取第一阶段所提取个体特征之间的联系,输出群体级别特征,送入全连接层进行群体行为识别,该阶段主要采用基于循环卷积网络、图网络或加权融合方法。
专利CN110991375A公开了构建目标损失函数,通过多通道编码器和解码器构建单阶目标深度神经网络进行群体行为识别,其缺点在于单阶网络模型无法同时较好的提取个体和群体特征,导致识别准确率较低。
专利CN111178323A公开了首先使用目标检测算法SSD提取视频每帧图像中人体框,使用open pose算法提取单个个体骨骼特征,再通过人工设计方法融合个体骨骼特征以提取群体表示特征。其缺点在于目标检测与骨骼提取算法无法实现端到端的训练,两个算法需要针对实际使用场景离线微调训练后再送入群体特征提取网络中,增加了算法实际应用的难度;群体特征提取依靠人工设计,无法有效自动提取群体级别时空特征,研究表明手工设计特征容易受到场景及光照影响,鲁棒性较差。
专利CN110796081A公开了首先使用目标检测网络检测人体目标,通过卷积网络提取单帧人体目标特征,再根据单个个体之间外貌和位置关系构建图模型,利用图卷积神经网络提取单帧群体行为表示特征,最后对多帧群体行为特征进行融合得到视频群体行为表征特征。其缺点在于图卷积网络提取单帧群体空间特征时,未对群体中具有判别性的个体特征进行突出,且在视频时间特征维度仅进行简单的加权融合,无法较好的提取视频时序特征。
发明内容
为了解决现有技术中存在的上述技术问题,本发明提出一种基于级联Transformer的视频群体行为识别方法,由两级Transformer网络实现,第一级人体目标检测Transformer检测人体目标框并提取群体中具有判别性的个体特征,第二级群体行为识别Transformer通过自注意力机制提取单帧空间特征及帧间时序特征,有效融合个体行为特征提取群体级别特征,最后通过多层感知机输出群体行为类别,能实现端到端的训练,其具体技术方案如下:
一种基于级联Transformer的视频群体行为识别方法,包括以下步骤:
步骤一:利用开源打架数据集RWF-2000、网络搜集及本地独立采集并标注的监控视频数据,即原始视频序列,共同构造数据集;
步骤二:输入从步骤一获得的原始视频序列到骨干网络,在骨干网络的卷积层Conv5层获取时间和空间特征图,选取视频关键帧图像特征图,并对关键帧图像特征图进行预处理;
步骤三:将步骤二预处理后的关键帧图像特征图尺度变换后输入到人体目标检测Transformer编码器,通过自注意力机制提取图像编码特征,将图像编码特征与可学习查询向量送入人体目标检测Transformer解码器,输出目标查询向量,最后经过全连接层和多层感知机层构建分类头和回归头,分别预测输出目标类别置信度及目标框图像位置坐标;
步骤四:将步骤二预处理后的关键帧图像特征图、步骤三输出的目标类别置信度及目标框图像坐标作为输入,利用目标类别置信度筛选人体目标框,在该特征图上映射筛选人体目标框所对应的子特征图,并对该子特征图做预处理得到query,将关键帧周围的帧图像通过线性映射得到key和value;
步骤五:将query、key及value送入群体行为识别Transformer编码器模块,输出群体级别时空编码特征图,通过多层感知机层输出群体行为识别预测值及其置信度;
步骤六:构造损失函数并训练网络模型。
进一步的,所述步骤一具体为:利用开源打架数据集RWF-2000、网络搜集及本地独立采集并标注的监控视频数据,将采集的视频按照30帧每秒的帧率,以5秒切割视频,删除含噪声和画面模糊的视频片段,标注视频每帧图像中人体所在区域目标框左上角坐标和宽高及群体行为类别,并构建对应类别数据集,所述行为类别包括打架、聚集、奔跑三个类别。
进一步的,所述步骤二具体包括如下步骤:
(2.1)选择3D ResNet50深度残差网络为骨干网络, 3D Rensnet50的Conv2、
Conv3、Conv4及Conv5层在时间维度不进行下采样,仅在空间维度进行下采样,获取Conv5层
特征图,T表示T帧;
进一步的,所述步骤三具体为:将步骤(2.2)输出特征图宽高矩阵变化为一维向
量,形成新的特征图输入到人体目标检测Transformer编码器,经过其6层编码器层后输出
联系图像上下文的特征图;然后设定一组固定的可学习嵌入目标查询向量,将其与特征
图输入到人体目标检测Transformer解码器,经过6层解码器层,人体目标检测
Transformer解码器根据图像特征的上下文推理对象之间的关系,并行输出个目标查询向
量即目标预测输出数目,并送入分类头和目标框回归头,其中分类头由一层全连接层构成
并输出人体和背景两个类别的置信度,目标框回归头由一层前馈神经网络构成并输出目标
框在图像上的位置坐标信息。
进一步的,所述人体目标检测Transformer编码器和解码器均采用DEtectionTransformer即DETR中的编码器及解码器结构,编码器包含M个编码器层,每个编码器层由1个多头自注意力层、2个层归一化层及1个前馈神经网络层组成;解码器包含M个解码器层,每个解码器层由2个多头自注意力层、3个归一化层及1个前馈神经网络层组成。
进一步的,所述步骤四具体包括如下步骤:
进一步的,所述步骤五具体为:将、K及V送入群体行为识别Transformer编码器
模块,该编码器模块有3层,每层并排两个头,每个头为一个群体行为识别Transformer基础
模块,将、K及V送入第一层中的两个头,并行输出两个编码矩阵,对这两个输出编码矩阵
进行连接操作,得到该层更新后的query,并作为下一层的输入,通过3层Transformer编码
层后,输出群体级别时空编码特征图,最后将群体级别时空编码特征图送入多层感知机层,
得到群体行为识别预测值及其置信度。
进一步的,所述步骤五包括以下步骤:
(5.2)通过步骤(5.1)得到的注意力权重矩阵和步骤四得到的value矩阵加权求
和,求和结果经过dropout层后与原始相加得到,经过层归一化后与经过
两层前馈神经网络层和dropout层的矩阵进行残差连接,最后再经过一层归一化层得到更
新后的;
(5.4)将步骤(5.3)输出的编码特征图送入一层多层感知机层,得到群体行为识别预测值及其置信度。
其中α、β及γ为权重,是一个指示函数,当时为1,反之为0;所述二分
类损失由分类头输出的预测值与匹配上的目标框真实值计算得到,所述回归损失由回归头目标框位置预测值与匹配上的目标框真实值计算得到,所述多分类损失由多层感知机层即多分类头的输出预测值与真实标签值计算得到。
进一步的,所述网络模型训练为初始化人体目标检测Transformer,所述人体目标
检测Transformer采用DEtection Transformer即DETR, DETR中使用的是2D resnet50,通
过在时间维度重复2D resnet50参数值T次,使得RGB图像变为进行初始化,
基于损失函数对网络进行反向传播,并通过批量梯度下降法不断更新网络参数,在批量训
练后模型达到收敛。
与现有技术相比,本发明的有益效果在于:
(1)设计了一种基于级联Transformer的视频群体行为识别模型,将人体目标检测Transformer和群体行为识别Transformer联合实现端到端的训练,避免手工特征提取和离线训练,减少算法的复杂度。
(2)改进的三维卷积神经网络有效提取时空特征图,结合第一级人体目标检测Transformer回归的高置信度人体目标框,在特征图上映射人体目标框子特征图,使第二级网络重点关注人体行为特征,避免背景噪声干扰,使得算法对复杂场景更具有鲁棒性。
(3)群体行为识别Transformer通过多层多头的自注意力机制,通过自注意力权重计算,区分群体中个体贡献程度,实现复杂个体间空间和时间上下文关系的特征融合,有效提高群体行为识别准确率。本发明方法在重新标注人体目标框后的RWF-2000打架验证数据集上达到92.3%的准确率,有效提升了准确率。
(4)本发明方法能有效识别视频中的群体行为,预防危险事件的发生,有着广泛的应用价值,适用于室内外复杂场景下的视频监控,特别适用于识别打架、奔跑、聚集群体行为。
附图说明
图1是本发明的数据集生成流程图;
图2是本发明的一种基于级联Transformer的视频群体行为识别方法流程图;
图3是本发明的人体目标检测Transformer网络架构图;
图4是本发明的群体行为识别Transformer网络架构图;
图5是本发明的群体行为识别Transformer编码器层基础模块示意图。
具体实施方式
为了使本发明的目的、技术方案和技术效果更加清楚明白,以下结合说明书附图和实施例,对本发明作进一步详细说明。
如图2所示,一种基于级联Transformer的视频群体行为识别方法,首先,采集生成视频数据集,将视频数据集经过三维骨干网络提取三维时空特征,选取关键帧图像空间特征图;对关键帧图像空间特征图进行预处理后送入人体目标检测Transformer,输出关键帧图像中的人体目标框;然后,映射筛选后人体目标框在关键帧图像特征图上所对应的子特征图,结合关键帧图像周围帧特征图计算query/key/value,输入群体行为识别Transfomer,输出群体级别时空编码特征图;最后,经过多层感知机对群体行为进行分类。具体包括以下步骤:
步骤一:采集生成视频数据集。利用开源打架数据集RWF-2000、网络搜集及本地独立采集并标注的监控视频数据共同构造数据集,并按照4:1分为训练集和测试集。具体的,如图1所示,首先网络搜集视频,在网站输入行为类别关键字并下载相关视频,为了数据的多样性,更换关键字语言类别重复搜索;其次筛选网络搜集及本地摄像头独立采集的视频,将重复和行为不相关的视频删除;将视频按照30帧每秒的帧率,以5秒切割视频,删除含噪声和画面模糊的视频片段;最后,标注视频每帧图像中人体所在区域目标框左上角坐标和宽高及群体行为类别,并构建对应类别数据集,所述行为类别分为打架、聚集、奔跑三个类别。
步骤二和步骤三如图3所示,将原始视频序列经过三维卷积神经网络提取时间和空间特征图,选取关键帧图像的空间特征图并加上位置编码信息合成新的嵌入向量,嵌入向量经过尺度变换后输入人体目标检测Transformer编码器,通过自注意力机制提取图像编码特征,将图像编码特征与可学习查询向量送入人体目标检测Transformer解码器,输出目标查询向量,最后经过全连接层和多层感知机层构建分类头和回归头,分别预测目标框类别置信度及目标框图像坐标。
所述人体目标检测Transformer编码器和解码器均采用DEtection Transformer即DETR中的编码器及解码器结构,包含M个编码器层,每个编码器层由1个多头自注意力层、2个层归一化层及1个前馈神经网络层组成;解码器包含M个解码器层,每个解码器层由2个多头自注意力层、3个归一化层及1个前馈神经网络层组成。本实施例中M=6。
其中,步骤二为:输入原始视频序列到骨干网络,在骨干网络的Conv5层获取时间和空间特征图,选取视频关键帧图像特征图,并对关键帧图像特征图进行预处理;具体的,包括以下步骤:
(2.1)骨干网络获取图像序列时间空间特征图。设输入原始视频序列表示T帧高宽为H×W的RGB图像,选择3D ResNet50深度残差网络为骨干网络,
为表征更细节的帧间运动信息,3D Rensnet50的Conv2、Conv3、Conv4及Conv5层在时间维度
不进行下采样,仅在空间维度进行下采样,则可获取Conv5层特征图,,Conv5层特征图大小为,其中C=2048表示通道维度。
(2.2)关键帧图像特征图及其预处理。选取时间序列中间帧图像为关键帧图像,获
取关键帧图像特征图,并使用1×1卷积降低特征图通道维度,以减少运算的复杂度,新
的特征图表示为,由于Transformer不能表征位置关系,引入位置编码矩阵,位置编码采用二维正弦编码方式。设新特征图矩阵为,,其中d=256表示降维后的通道维数。
步骤三为:在编码阶段,将步骤(2.2)输出特征图宽高矩阵变化为一维向量,形成
大小为的特征图输入到DETR的编码器的第一层,经过6层编码器层后输出联系图
像上下文的特征图,其中N 表示图像中需要检测的人体目标物数量;在解码阶
段,预设一组固定的可学习嵌入目标查询(object query)向量,及编码阶段输出特征图
输入到解码器的第一层,经过6层解码器层,Transformer解码器根据图像特征的上下文推
理对象之间的关系,并行输出N个目标查询向量并送入分类头和目标框回归头,其中分类头
由一层全连接层构成并输出人体和背景两个类别的置信度,目标框回归头由一层前馈神经
网络构成并输出目标框在图像上的坐标信息,其中表示目标框中心点坐标,表示目标框宽和高。
步骤四和步骤五如图4所示,将步骤(2.2)输出的关键帧图像特征图、步骤三输出的类别置信度及目标框在图像上的坐标作为输入,计算query、key及value并送入群体行为识别Transformer编码器模块,该编码器模块有3层,每层并排2个头,输出联系图像上下文的特征图,最后,该特征图通过多层感知机层输出群体行为类别及其置信度。
其中,步骤四为:将步骤(2.2)输出的关键帧特征图、步骤三输出的目标类别置
信度及目标框在图像上的坐标作为输入,利用目标类别置信度筛选人体目标框,在特征图上映射筛选人体目标框所对应的子特征图,并对该子特征图做预处理得到query,将关
键帧周围的帧图像通过线性映射得到key和value;具体的,包括以下步骤:
(4.1)人体目标特征图映射。
将步骤三输出的人体目标框按置信度降序排列,选取前k个人体目标框,通过
RoiAlign算法映射该k个人体目标框在步骤(2.2)输出特征图上所对应的子特征图,子
特征图,其中,表示特征图高宽,通道维数d=256,k=30。
(4.2)query、key、value计算。
(4.3)将步骤(2.1)输出的Conv5层特征图先通过1×1卷积较低通
道维度至256,再将特征宽高矩阵变为一维向量,形成大小为的特征图,后续
处理同query一致,得到key即K和value即V;具体表达式如下:
步骤五为:将、K及V送入群体行为识别Transformer编码器模块,通过每层每个
头计算更新后的query,每个头为一个Transformer基础模块,将、K及V送入第一层中的
两个头,并行输出两个编码矩阵,对这两个输出编码矩阵进行连接操作,得到该层更新后的
query,并作为下一层的输入,通过3层Transformer编码层后,输出群体级别时空编码特征
图,最后将群体级别时空编码特征图送入多层感知机层,得到群体行为识别预测值及其置
信度;具体的,包括以下步骤:
(5.2)第层第个头编码特征图计算。如图5所示,通过步骤(5.1)得到的注
意力权重矩阵和步骤四得到的value矩阵加权求和,求和结果经过dropout层后与原始相加得到,经过层归一化后与经过两层前馈神经网络层和dropout层的矩
阵进行残差连接,最后再经过一层归一化层得到更新后的,可通过以下公式实现:
其中FFN()表示前馈神经网络层。
(5.3)编码特征图计算。
(5.4)群体行为类别及其置信度。
根据步骤三构建的分类头输出预测值与匹配上的目标真实值计算二分类损失,设y表示目标真值集合,表示目标预测值,其中N表示目标物预测输出
数目,本实施例中取N=50,由于预测输出值大于图像中真值,将集合y用补齐,表示没
有目标,使用匈牙利算法匹配预测值与真实值,再计算已匹配上的预测值与真实值之间的
损失。
使用DETR在COCO上的预训练模型初始化步骤三中的人体目标检测Transformer,
使网络具备先验知识,避免训练初始阶段损失过大,模型难以收敛的情况。由于本实施例中
骨干网络使用的是3D resnet50,DETR中使用的是2D resnet50,通过在时间维度重复2D
resnet50参数值T次,使得变为进行初始化。基于损失函数对网络进行反向
传播,并通过批量梯度下降法不断更新网络参数,在10万次批量训练后模型达到收敛。
以上所述,仅为本发明的优选实施案例,并非对本发明做任何形式上的限制。虽然前文对本发明的实施过程进行了详细说明,对于熟悉本领域的人员来说,其依然可以对前述各实例记载的技术方案进行修改,或者对其中部分技术特征进行同等替换。凡在本发明精神和原则之内所做修改、同等替换等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于级联Transformer的视频群体行为识别方法,其特征在于,包括以下步骤:
步骤一:利用开源打架数据集RWF-2000、网络搜集及本地独立采集并标注的监控视频数据,即原始视频序列,共同构造数据集;
步骤二:输入从步骤一获得的原始视频序列到骨干网络,在骨干网络的卷积层Conv5层获取时间和空间特征图,选取视频关键帧图像特征图,并对关键帧图像特征图进行预处理;
步骤三:将步骤二预处理后的关键帧图像特征图尺度变换后输入到人体目标检测Transformer编码器,通过自注意力机制提取图像编码特征,将图像编码特征与可学习查询向量送入人体目标检测Transformer解码器,输出目标查询向量,最后经过全连接层和多层感知机层构建分类头和回归头,分别预测输出目标类别置信度及目标框图像位置坐标;
步骤四:将步骤二预处理后的关键帧图像特征图、步骤三输出的目标类别置信度及目标框图像坐标作为输入,利用目标类别置信度筛选人体目标框,在该特征图上映射筛选人体目标框所对应的子特征图,并对该子特征图做预处理得到query,将关键帧周围的帧图像通过线性映射得到key和value;
步骤五:将query、key及value送入群体行为识别Transformer编码器模块,输出群体级别时空编码特征图,经多层感知机层输出群体行为识别预测值及其置信度;
步骤六:构造损失函数并训练网络模型。
2.如权利要求1所述的一种基于级联Transformer的视频群体行为识别方法,其特征在于,所述步骤一具体为:利用开源打架数据集RWF-2000、网络搜集及本地独立采集并标注的监控视频数据,将采集的视频按照30帧每秒的帧率,以5秒切割视频,删除含噪声和画面模糊的视频片段,标注视频每帧图像中人体所在区域目标框左上角坐标和宽高及群体行为类别,并构建对应类别数据集,所述行为类别包括打架、聚集、奔跑三个类别。
4.如权利要求3所述的一种基于级联Transformer的视频群体行为识别方法,其特征在
于,所述步骤三具体为:将步骤(2.2)输出特征图宽高矩阵变化为一维向量,形成新的特
征图输入到人体目标检测Transformer编码器,经过其6层编码器层后输出联系图像上下文
的特征图;然后设定一组固定的可学习嵌入目标查询向量,将其与特征图输入到人体
目标检测Transformer解码器,经过6层解码器层,人体目标检测Transformer解码器根据图
像特征的上下文推理对象之间的关系,并行输出N个目标查询向量即目标预测输出数目,并
送入分类头和目标框回归头,其中分类头由一层全连接层构成并输出人体和背景两个类别
的置信度,目标框回归头由一层前馈神经网络构成并输出目标框在图像上的位置坐标信
息。
5.如权利要求4所述的一种基于级联Transformer的视频群体行为识别方法,其特征在于,所述人体目标检测Transformer编码器和解码器均采用DEtection Transformer即DETR中的编码器及解码器结构,编码器包含M个编码器层,每个编码器层由1个多头自注意力层、2个层归一化层及1个前馈神经网络层组成;解码器包含M个解码器层,每个解码器层由2个多头自注意力层、3个归一化层及1个前馈神经网络层组成。
6.如权利要求4所述的一种基于级联Transformer的视频群体行为识别方法,其特征在于,所述步骤四具体包括如下步骤:
8.如权利要求7所述的一种基于级联Transformer的视频群体行为识别方法,其特征在于,所述步骤五包括以下步骤:
(5.2)通过步骤(5.1)得到的注意力权重矩阵和步骤四得到的value矩阵加权求和,求
和结果经过dropout层后与原始相加得到,经过层归一化后与经过两层
前馈神经网络层和dropout层的矩阵进行残差连接,最后再经过一层归一化层得到更新后
的;
(5.4)将步骤(5.3)输出的群体级别时空编码特征图送入一层多层感知机层,得到群体行为识别预测值及其置信度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111225547.8A CN113673489B (zh) | 2021-10-21 | 2021-10-21 | 一种基于级联Transformer的视频群体行为识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111225547.8A CN113673489B (zh) | 2021-10-21 | 2021-10-21 | 一种基于级联Transformer的视频群体行为识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113673489A true CN113673489A (zh) | 2021-11-19 |
CN113673489B CN113673489B (zh) | 2022-04-08 |
Family
ID=78550756
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111225547.8A Active CN113673489B (zh) | 2021-10-21 | 2021-10-21 | 一种基于级联Transformer的视频群体行为识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113673489B (zh) |
Cited By (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113888541A (zh) * | 2021-12-07 | 2022-01-04 | 南方医科大学南方医院 | 一种腹腔镜手术阶段的图像识别方法、装置及存储介质 |
CN113936339A (zh) * | 2021-12-16 | 2022-01-14 | 之江实验室 | 基于双通道交叉注意力机制的打架识别方法和装置 |
CN114153973A (zh) * | 2021-12-07 | 2022-03-08 | 内蒙古工业大学 | 基于t-m bert预训练模型的蒙古语多模态情感分析方法 |
CN114170558A (zh) * | 2021-12-14 | 2022-03-11 | 北京有竹居网络技术有限公司 | 用于视频处理的方法、系统、设备、介质和产品 |
CN114339403A (zh) * | 2021-12-31 | 2022-04-12 | 西安交通大学 | 一种视频动作片段生成方法、系统、设备及可读存储介质 |
CN114519813A (zh) * | 2022-02-22 | 2022-05-20 | 广东工业大学 | 一种机械臂目标抓取方法及系统 |
CN114648723A (zh) * | 2022-04-28 | 2022-06-21 | 之江实验室 | 基于时间一致性对比学习的动作规范性检测方法和装置 |
CN114758360A (zh) * | 2022-04-24 | 2022-07-15 | 北京医准智能科技有限公司 | 一种多模态图像分类模型训练方法、装置及电子设备 |
CN114863356A (zh) * | 2022-03-10 | 2022-08-05 | 西南交通大学 | 一种基于残差聚合图网络的群体活动识别方法及系统 |
CN114863352A (zh) * | 2022-07-07 | 2022-08-05 | 光谷技术有限公司 | 基于视频分析的人员群体行为监控方法 |
CN114898241A (zh) * | 2022-02-21 | 2022-08-12 | 上海科技大学 | 基于计算机视觉的视频重复动作计数系统 |
CN114926770A (zh) * | 2022-05-31 | 2022-08-19 | 上海人工智能创新中心 | 视频动作识别方法、装置、设备和计算机可读存储介质 |
CN114973049A (zh) * | 2022-01-05 | 2022-08-30 | 上海人工智能创新中心 | 一种统一卷积与自注意力的轻量视频分类方法 |
CN115171029A (zh) * | 2022-09-09 | 2022-10-11 | 山东省凯麟环保设备股份有限公司 | 基于无人驾驶的城市场景下的实例分割方法及系统 |
CN115169673A (zh) * | 2022-07-01 | 2022-10-11 | 扬州大学 | 一种智慧校园疫情风险监测与预警系统及方法 |
CN115761444A (zh) * | 2022-11-24 | 2023-03-07 | 张栩铭 | 一种非完整信息目标识别模型的训练方法及目标识别方法 |
CN116246338A (zh) * | 2022-12-20 | 2023-06-09 | 西南交通大学 | 一种基于图卷积和Transformer复合神经网络的行为识别方法 |
CN116402811A (zh) * | 2023-06-05 | 2023-07-07 | 长沙海信智能系统研究院有限公司 | 一种打架斗殴行为识别方法及电子设备 |
CN116542290A (zh) * | 2023-06-25 | 2023-08-04 | 城云科技(中国)有限公司 | 基于多源多维数据的信息预测模型构建方法、装置及应用 |
CN116895038A (zh) * | 2023-09-11 | 2023-10-17 | 中移(苏州)软件技术有限公司 | 视频动作识别方法、装置、电子设备及可读存储介质 |
CN116958739A (zh) * | 2023-06-25 | 2023-10-27 | 南京矩视科技有限公司 | 一种基于注意力机制的碳纤维丝道实时动态编号方法 |
CN116978051A (zh) * | 2023-08-03 | 2023-10-31 | 杭州海量信息技术有限公司 | 一种表格图像关键信息提取方法和装置 |
CN117132788A (zh) * | 2023-06-09 | 2023-11-28 | 中国人民解放军战略支援部队航天工程大学 | 基于运动跟踪Transformer的卫星视频多车辆在线跟踪方法及装置 |
CN117392168A (zh) * | 2023-08-21 | 2024-01-12 | 浙江大学 | 一种利用单光子钙成像视频数据进行神经解码的方法 |
CN117496323A (zh) * | 2023-12-27 | 2024-02-02 | 泰山学院 | 基于Transformer的多尺度二阶病理图像分类方法及系统 |
CN118015520A (zh) * | 2024-03-15 | 2024-05-10 | 上海摩象网络科技有限公司 | 一种基于视觉的看护检测系统和方法 |
CN118172838A (zh) * | 2024-05-15 | 2024-06-11 | 四川旅游学院 | 一种景区的行为识别方法以及系统 |
CN118351571A (zh) * | 2024-04-17 | 2024-07-16 | 淮阴工学院 | 一种基于视频音频识别的变电站鸟类识别方法及系统 |
WO2024179485A1 (zh) * | 2023-02-28 | 2024-09-06 | 华为技术有限公司 | 一种图像处理方法及其相关设备 |
CN118675114B (zh) * | 2024-08-21 | 2024-10-22 | 华东交通大学 | 一种基于群体行为识别的危险行为告警方法及系统 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105426820A (zh) * | 2015-11-03 | 2016-03-23 | 中原智慧城市设计研究院有限公司 | 基于安防监控视频数据的多人异常行为检测方法 |
CN105574489A (zh) * | 2015-12-07 | 2016-05-11 | 上海交通大学 | 基于层次级联的暴力群体行为检测方法 |
WO2017168889A1 (en) * | 2016-04-01 | 2017-10-05 | Yamaha Hatsudoki Kabushiki Kaisha | Object detection device and vehicle having the object detection device |
CN108805080A (zh) * | 2018-06-12 | 2018-11-13 | 上海交通大学 | 基于上下文的多层次深度递归网络群体行为识别方法 |
CN110348312A (zh) * | 2019-06-14 | 2019-10-18 | 武汉大学 | 一种区域视频人体动作行为实时识别方法 |
US20200175334A1 (en) * | 2018-11-29 | 2020-06-04 | Qualcomm Incorporated | Edge computing |
CN111460889A (zh) * | 2020-02-27 | 2020-07-28 | 平安科技(深圳)有限公司 | 一种基于语音及图像特征的异常行为识别方法、装置及设备 |
CN112131943A (zh) * | 2020-08-20 | 2020-12-25 | 深圳大学 | 一种基于双重注意力模型的视频行为识别方法及系统 |
CN112149563A (zh) * | 2020-09-23 | 2020-12-29 | 中科人工智能创新技术研究院(青岛)有限公司 | 一种注意力机制人体图像关键点姿态估计方法及系统 |
CN112861691A (zh) * | 2021-01-29 | 2021-05-28 | 中国科学技术大学 | 基于部位感知建模的遮挡场景下的行人重识别方法 |
CN113486708A (zh) * | 2021-05-24 | 2021-10-08 | 浙江大华技术股份有限公司 | 人体姿态预估方法、模型训练方法、电子设备和存储介质 |
-
2021
- 2021-10-21 CN CN202111225547.8A patent/CN113673489B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105426820A (zh) * | 2015-11-03 | 2016-03-23 | 中原智慧城市设计研究院有限公司 | 基于安防监控视频数据的多人异常行为检测方法 |
CN105574489A (zh) * | 2015-12-07 | 2016-05-11 | 上海交通大学 | 基于层次级联的暴力群体行为检测方法 |
WO2017168889A1 (en) * | 2016-04-01 | 2017-10-05 | Yamaha Hatsudoki Kabushiki Kaisha | Object detection device and vehicle having the object detection device |
CN108805080A (zh) * | 2018-06-12 | 2018-11-13 | 上海交通大学 | 基于上下文的多层次深度递归网络群体行为识别方法 |
US20200175334A1 (en) * | 2018-11-29 | 2020-06-04 | Qualcomm Incorporated | Edge computing |
CN110348312A (zh) * | 2019-06-14 | 2019-10-18 | 武汉大学 | 一种区域视频人体动作行为实时识别方法 |
CN111460889A (zh) * | 2020-02-27 | 2020-07-28 | 平安科技(深圳)有限公司 | 一种基于语音及图像特征的异常行为识别方法、装置及设备 |
CN112131943A (zh) * | 2020-08-20 | 2020-12-25 | 深圳大学 | 一种基于双重注意力模型的视频行为识别方法及系统 |
CN112149563A (zh) * | 2020-09-23 | 2020-12-29 | 中科人工智能创新技术研究院(青岛)有限公司 | 一种注意力机制人体图像关键点姿态估计方法及系统 |
CN112861691A (zh) * | 2021-01-29 | 2021-05-28 | 中国科学技术大学 | 基于部位感知建模的遮挡场景下的行人重识别方法 |
CN113486708A (zh) * | 2021-05-24 | 2021-10-08 | 浙江大华技术股份有限公司 | 人体姿态预估方法、模型训练方法、电子设备和存储介质 |
Non-Patent Citations (4)
Title |
---|
ALI AL-RAZIQI 等: "Unsupervised Group Activity Detection by Hierarchical Dirichlet Processes", 《SPRINGER》 * |
HAO CHEN 等: "A framework for group activity detection and recognition using smartphone sensors and beacons", 《BUILDING AND ENVIRONMENT》 * |
叶齐祥 等: "基于多尺度方向特征的快速鲁棒人体检测算法", 《软件学报》 * |
李定 等: "面向群体行为识别的注意力池化机制", 《中国科学:信息科学》 * |
Cited By (44)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114153973A (zh) * | 2021-12-07 | 2022-03-08 | 内蒙古工业大学 | 基于t-m bert预训练模型的蒙古语多模态情感分析方法 |
CN113888541A (zh) * | 2021-12-07 | 2022-01-04 | 南方医科大学南方医院 | 一种腹腔镜手术阶段的图像识别方法、装置及存储介质 |
CN114170558A (zh) * | 2021-12-14 | 2022-03-11 | 北京有竹居网络技术有限公司 | 用于视频处理的方法、系统、设备、介质和产品 |
CN113936339A (zh) * | 2021-12-16 | 2022-01-14 | 之江实验室 | 基于双通道交叉注意力机制的打架识别方法和装置 |
CN113936339B (zh) * | 2021-12-16 | 2022-04-22 | 之江实验室 | 基于双通道交叉注意力机制的打架识别方法和装置 |
CN114339403A (zh) * | 2021-12-31 | 2022-04-12 | 西安交通大学 | 一种视频动作片段生成方法、系统、设备及可读存储介质 |
CN114973049A (zh) * | 2022-01-05 | 2022-08-30 | 上海人工智能创新中心 | 一种统一卷积与自注意力的轻量视频分类方法 |
CN114973049B (zh) * | 2022-01-05 | 2024-04-26 | 上海人工智能创新中心 | 一种统一卷积与自注意力的轻量视频分类方法 |
CN114898241B (zh) * | 2022-02-21 | 2024-04-30 | 上海科技大学 | 基于计算机视觉的视频重复动作计数系统 |
CN114898241A (zh) * | 2022-02-21 | 2022-08-12 | 上海科技大学 | 基于计算机视觉的视频重复动作计数系统 |
CN114519813A (zh) * | 2022-02-22 | 2022-05-20 | 广东工业大学 | 一种机械臂目标抓取方法及系统 |
CN114863356A (zh) * | 2022-03-10 | 2022-08-05 | 西南交通大学 | 一种基于残差聚合图网络的群体活动识别方法及系统 |
CN114863356B (zh) * | 2022-03-10 | 2023-02-03 | 西南交通大学 | 一种基于残差聚合图网络的群体活动识别方法及系统 |
CN114758360A (zh) * | 2022-04-24 | 2022-07-15 | 北京医准智能科技有限公司 | 一种多模态图像分类模型训练方法、装置及电子设备 |
CN114648723A (zh) * | 2022-04-28 | 2022-06-21 | 之江实验室 | 基于时间一致性对比学习的动作规范性检测方法和装置 |
CN114926770A (zh) * | 2022-05-31 | 2022-08-19 | 上海人工智能创新中心 | 视频动作识别方法、装置、设备和计算机可读存储介质 |
CN114926770B (zh) * | 2022-05-31 | 2024-06-07 | 上海人工智能创新中心 | 视频动作识别方法、装置、设备和计算机可读存储介质 |
CN115169673A (zh) * | 2022-07-01 | 2022-10-11 | 扬州大学 | 一种智慧校园疫情风险监测与预警系统及方法 |
CN114863352A (zh) * | 2022-07-07 | 2022-08-05 | 光谷技术有限公司 | 基于视频分析的人员群体行为监控方法 |
CN115171029A (zh) * | 2022-09-09 | 2022-10-11 | 山东省凯麟环保设备股份有限公司 | 基于无人驾驶的城市场景下的实例分割方法及系统 |
CN115171029B (zh) * | 2022-09-09 | 2022-12-30 | 山东省凯麟环保设备股份有限公司 | 基于无人驾驶的城市场景下的实例分割方法及系统 |
CN115761444B (zh) * | 2022-11-24 | 2023-07-25 | 张栩铭 | 一种非完整信息目标识别模型的训练方法及目标识别方法 |
CN115761444A (zh) * | 2022-11-24 | 2023-03-07 | 张栩铭 | 一种非完整信息目标识别模型的训练方法及目标识别方法 |
CN116246338A (zh) * | 2022-12-20 | 2023-06-09 | 西南交通大学 | 一种基于图卷积和Transformer复合神经网络的行为识别方法 |
CN116246338B (zh) * | 2022-12-20 | 2023-10-03 | 西南交通大学 | 一种基于图卷积和Transformer复合神经网络的行为识别方法 |
WO2024179485A1 (zh) * | 2023-02-28 | 2024-09-06 | 华为技术有限公司 | 一种图像处理方法及其相关设备 |
CN116402811A (zh) * | 2023-06-05 | 2023-07-07 | 长沙海信智能系统研究院有限公司 | 一种打架斗殴行为识别方法及电子设备 |
CN116402811B (zh) * | 2023-06-05 | 2023-08-18 | 长沙海信智能系统研究院有限公司 | 一种打架斗殴行为识别方法及电子设备 |
CN117132788A (zh) * | 2023-06-09 | 2023-11-28 | 中国人民解放军战略支援部队航天工程大学 | 基于运动跟踪Transformer的卫星视频多车辆在线跟踪方法及装置 |
CN116542290A (zh) * | 2023-06-25 | 2023-08-04 | 城云科技(中国)有限公司 | 基于多源多维数据的信息预测模型构建方法、装置及应用 |
CN116542290B (zh) * | 2023-06-25 | 2023-09-08 | 城云科技(中国)有限公司 | 基于多源多维数据的信息预测模型构建方法、装置及应用 |
CN116958739A (zh) * | 2023-06-25 | 2023-10-27 | 南京矩视科技有限公司 | 一种基于注意力机制的碳纤维丝道实时动态编号方法 |
CN116978051A (zh) * | 2023-08-03 | 2023-10-31 | 杭州海量信息技术有限公司 | 一种表格图像关键信息提取方法和装置 |
CN117392168A (zh) * | 2023-08-21 | 2024-01-12 | 浙江大学 | 一种利用单光子钙成像视频数据进行神经解码的方法 |
CN117392168B (zh) * | 2023-08-21 | 2024-06-04 | 浙江大学 | 一种利用单光子钙成像视频数据进行神经解码的方法 |
CN116895038B (zh) * | 2023-09-11 | 2024-01-26 | 中移(苏州)软件技术有限公司 | 视频动作识别方法、装置、电子设备及可读存储介质 |
CN116895038A (zh) * | 2023-09-11 | 2023-10-17 | 中移(苏州)软件技术有限公司 | 视频动作识别方法、装置、电子设备及可读存储介质 |
CN117496323A (zh) * | 2023-12-27 | 2024-02-02 | 泰山学院 | 基于Transformer的多尺度二阶病理图像分类方法及系统 |
CN117496323B (zh) * | 2023-12-27 | 2024-03-29 | 泰山学院 | 基于Transformer的多尺度二阶病理图像分类方法及系统 |
CN118015520A (zh) * | 2024-03-15 | 2024-05-10 | 上海摩象网络科技有限公司 | 一种基于视觉的看护检测系统和方法 |
CN118351571A (zh) * | 2024-04-17 | 2024-07-16 | 淮阴工学院 | 一种基于视频音频识别的变电站鸟类识别方法及系统 |
CN118172838B (zh) * | 2024-05-15 | 2024-07-26 | 四川旅游学院 | 一种景区的行为识别方法以及系统 |
CN118172838A (zh) * | 2024-05-15 | 2024-06-11 | 四川旅游学院 | 一种景区的行为识别方法以及系统 |
CN118675114B (zh) * | 2024-08-21 | 2024-10-22 | 华东交通大学 | 一种基于群体行为识别的危险行为告警方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113673489B (zh) | 2022-04-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113673489B (zh) | 一种基于级联Transformer的视频群体行为识别方法 | |
CN113936339B (zh) | 基于双通道交叉注意力机制的打架识别方法和装置 | |
CN110119703B (zh) | 一种安防场景下融合注意力机制和时空图卷积神经网络的人体动作识别方法 | |
CN111310707B (zh) | 基于骨骼的图注意力网络动作识别方法及系统 | |
CN106650653B (zh) | 基于深度学习的人脸识别和年龄合成联合模型的构建方法 | |
Deng et al. | Extreme learning machines: new trends and applications | |
CN113749657B (zh) | 一种基于多任务胶囊的脑电情绪识别方法 | |
Theodoridis et al. | Cross-modal variational alignment of latent spaces | |
CN112801068B (zh) | 一种视频多目标跟踪与分割系统和方法 | |
CN114973097A (zh) | 电力机房内异常行为识别方法、装置、设备及存储介质 | |
CN111723667A (zh) | 基于人体关节点坐标的智慧灯杆人群行为识别方法和装置 | |
CN114648535A (zh) | 一种基于动态transformer的食品图像分割方法及系统 | |
CN117475216A (zh) | 一种基于aglt网络的高光谱与激光雷达数据融合分类方法 | |
Dong et al. | Research on image classification based on capsnet | |
CN115908896A (zh) | 基于带自注意力机制脉冲神经网络的图片识别系统 | |
CN116630369A (zh) | 基于时空记忆网络的无人机目标跟踪方法 | |
CN113850182B (zh) | 基于DAMR_3DNet的动作识别方法 | |
CN113936333A (zh) | 一种基于人体骨架序列的动作识别算法 | |
Zhao et al. | Adaptive Dual-Stream Sparse Transformer Network for Salient Object Detection in Optical Remote Sensing Images | |
CN117893957A (zh) | 用于流计数的系统和方法 | |
CN115690917B (zh) | 一种基于外观和运动智能关注的行人动作识别方法 | |
Zhao et al. | Research on human behavior recognition in video based on 3DCCA | |
CN116402811A (zh) | 一种打架斗殴行为识别方法及电子设备 | |
CN116543338A (zh) | 一种基于注视目标估计的学生课堂行为检测方法 | |
CN116452750A (zh) | 一种基于移动终端的物体三维重建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |