CN113673489A - 一种基于级联Transformer的视频群体行为识别方法 - Google Patents

一种基于级联Transformer的视频群体行为识别方法 Download PDF

Info

Publication number
CN113673489A
CN113673489A CN202111225547.8A CN202111225547A CN113673489A CN 113673489 A CN113673489 A CN 113673489A CN 202111225547 A CN202111225547 A CN 202111225547A CN 113673489 A CN113673489 A CN 113673489A
Authority
CN
China
Prior art keywords
layer
target
transformer
human body
layers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111225547.8A
Other languages
English (en)
Other versions
CN113673489B (zh
Inventor
李玲
徐晓刚
王军
祝敏航
曹卫强
朱亚光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202111225547.8A priority Critical patent/CN113673489B/zh
Publication of CN113673489A publication Critical patent/CN113673489A/zh
Application granted granted Critical
Publication of CN113673489B publication Critical patent/CN113673489B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及计算机视觉及深度学习领域,尤其涉及一种基于级联Transformer的视频群体行为识别方法,首先采集生成视频数据集,将视频数据集经过三维骨干网络提取三维时空特征,选取关键帧图像空间特征图;对关键帧图像空间特征图进行预处理后送入人体目标检测Transformer,输出关键帧图像中的人体目标框;然后,映射筛选后人体目标框在关键帧图像特征图上所对应的子特征图,结合关键帧图像周围帧特征图计算query/key/value,输入群体行为识别Transfomer,输出群体级别时空编码特征图;最后,经过多层感知机对群体行为进行分类。本发明具有有效提高群体行为识别准确率的效果。

Description

一种基于级联Transformer的视频群体行为识别方法
技术领域
本发明涉及计算机视觉及深度学习领域,尤其涉及一种基于级联Transformer的视频群体行为识别方法。
背景技术
现如今,监控视频已经广泛应用于社会公共场所,在维护社会公共安全上发挥着极为重要的作用。对监控视频中的异常行为和事件进行有效的识别,能更好的发挥监控视频的作用。群体行为是视频中最常出现的人类行为活动,群体行为识别通过自动识别视频中的群体行为,能有效预防危险事件的发生,有着广泛的应用价值。
在自然场景下,视频群体行为识别主要面临两个较大的挑战。一是场景较为复杂,主要表现为人体尺度变换较大,背景光照、群体之间相互遮挡等,导致个体行为特征的提取难度加大;二是个体与群体的层次关系较难建模,群体行为中某些个体对群体行为有着较大的影响,某些个体贡献相对较小,个体间差异增大了个体间上下文关系的复杂度,如何突出不同个体对于群体行为贡献的差异性,是群体行为得到有效识别的关键。
近期的群体行为识别方法大多基于深度学习实现,主要分为两类:一是采用单阶三维卷积神经网络模型提取时空特征,送入全连接层进行群体行为识别;二是采用两阶识别方法,第一阶段提取个体特征,个体特征提取多采用目标检测算法检测人体目标框,再利用三维卷积网络提取目标框个体时空特征,或采用基于骨骼的方法提取目标框个体骨架特征;第二阶段对个体和群体的层次关系进行建模,获取第一阶段所提取个体特征之间的联系,输出群体级别特征,送入全连接层进行群体行为识别,该阶段主要采用基于循环卷积网络、图网络或加权融合方法。
专利CN110991375A公开了构建目标损失函数,通过多通道编码器和解码器构建单阶目标深度神经网络进行群体行为识别,其缺点在于单阶网络模型无法同时较好的提取个体和群体特征,导致识别准确率较低。
专利CN111178323A公开了首先使用目标检测算法SSD提取视频每帧图像中人体框,使用open pose算法提取单个个体骨骼特征,再通过人工设计方法融合个体骨骼特征以提取群体表示特征。其缺点在于目标检测与骨骼提取算法无法实现端到端的训练,两个算法需要针对实际使用场景离线微调训练后再送入群体特征提取网络中,增加了算法实际应用的难度;群体特征提取依靠人工设计,无法有效自动提取群体级别时空特征,研究表明手工设计特征容易受到场景及光照影响,鲁棒性较差。
专利CN110796081A公开了首先使用目标检测网络检测人体目标,通过卷积网络提取单帧人体目标特征,再根据单个个体之间外貌和位置关系构建图模型,利用图卷积神经网络提取单帧群体行为表示特征,最后对多帧群体行为特征进行融合得到视频群体行为表征特征。其缺点在于图卷积网络提取单帧群体空间特征时,未对群体中具有判别性的个体特征进行突出,且在视频时间特征维度仅进行简单的加权融合,无法较好的提取视频时序特征。
发明内容
为了解决现有技术中存在的上述技术问题,本发明提出一种基于级联Transformer的视频群体行为识别方法,由两级Transformer网络实现,第一级人体目标检测Transformer检测人体目标框并提取群体中具有判别性的个体特征,第二级群体行为识别Transformer通过自注意力机制提取单帧空间特征及帧间时序特征,有效融合个体行为特征提取群体级别特征,最后通过多层感知机输出群体行为类别,能实现端到端的训练,其具体技术方案如下:
一种基于级联Transformer的视频群体行为识别方法,包括以下步骤:
步骤一:利用开源打架数据集RWF-2000、网络搜集及本地独立采集并标注的监控视频数据,即原始视频序列,共同构造数据集;
步骤二:输入从步骤一获得的原始视频序列到骨干网络,在骨干网络的卷积层Conv5层获取时间和空间特征图,选取视频关键帧图像特征图,并对关键帧图像特征图进行预处理;
步骤三:将步骤二预处理后的关键帧图像特征图尺度变换后输入到人体目标检测Transformer编码器,通过自注意力机制提取图像编码特征,将图像编码特征与可学习查询向量送入人体目标检测Transformer解码器,输出目标查询向量,最后经过全连接层和多层感知机层构建分类头和回归头,分别预测输出目标类别置信度及目标框图像位置坐标;
步骤四:将步骤二预处理后的关键帧图像特征图、步骤三输出的目标类别置信度及目标框图像坐标作为输入,利用目标类别置信度筛选人体目标框,在该特征图上映射筛选人体目标框所对应的子特征图,并对该子特征图做预处理得到query,将关键帧周围的帧图像通过线性映射得到key和value;
步骤五:将query、key及value送入群体行为识别Transformer编码器模块,输出群体级别时空编码特征图,通过多层感知机层输出群体行为识别预测值及其置信度;
步骤六:构造损失函数并训练网络模型。
进一步的,所述步骤一具体为:利用开源打架数据集RWF-2000、网络搜集及本地独立采集并标注的监控视频数据,将采集的视频按照30帧每秒的帧率,以5秒切割视频,删除含噪声和画面模糊的视频片段,标注视频每帧图像中人体所在区域目标框左上角坐标和宽高及群体行为类别,并构建对应类别数据集,所述行为类别包括打架、聚集、奔跑三个类别。
进一步的,所述步骤二具体包括如下步骤:
(2.1)选择3D ResNet50深度残差网络为骨干网络, 3D Rensnet50的Conv2、 Conv3、Conv4及Conv5层在时间维度不进行下采样,仅在空间维度进行下采样,获取Conv5层 特征图
Figure DEST_PATH_IMAGE001
,T表示T帧;
(2.2)选取时间序列中间帧图像为关键帧图像,获取关键帧图像特征图
Figure DEST_PATH_IMAGE002
,并使 用11卷积降低特征图通道维度,新的特征图表示为
Figure DEST_PATH_IMAGE003
,引入位置编码矩阵
Figure DEST_PATH_IMAGE004
,位置编码 采用二维正弦编码方式,得到新特征图矩阵为
Figure DEST_PATH_IMAGE005
进一步的,所述步骤三具体为:将步骤(2.2)输出特征图
Figure DEST_PATH_IMAGE006
宽高矩阵变化为一维向 量,形成新的特征图输入到人体目标检测Transformer编码器,经过其6层编码器层后输出 联系图像上下文的特征图
Figure DEST_PATH_IMAGE007
;然后设定一组固定的可学习嵌入目标查询向量,将其与特征 图
Figure 273342DEST_PATH_IMAGE007
输入到人体目标检测Transformer解码器,经过6层解码器层,人体目标检测 Transformer解码器根据图像特征的上下文推理对象之间的关系,并行输出个目标查询向 量即目标预测输出数目,并送入分类头和目标框回归头,其中分类头由一层全连接层构成 并输出人体和背景两个类别的置信度,目标框回归头由一层前馈神经网络构成并输出目标 框在图像上的位置坐标信息。
进一步的,所述人体目标检测Transformer编码器和解码器均采用DEtectionTransformer即DETR中的编码器及解码器结构,编码器包含M个编码器层,每个编码器层由1个多头自注意力层、2个层归一化层及1个前馈神经网络层组成;解码器包含M个解码器层,每个解码器层由2个多头自注意力层、3个归一化层及1个前馈神经网络层组成。
进一步的,所述步骤四具体包括如下步骤:
(4.1)将步骤三输出的人体目标框按置信度降序排列,选取前k个人体目标框,通 过RoiAlign算法映射该k个人体目标框在步骤(2.2)输出特征图
Figure 190483DEST_PATH_IMAGE003
上所对应的子特征图;
(4.2)将子特征图宽高矩阵变为一维向量,形成新的特征图,并加入可学习的位置 编码矩阵,经过层归一化后通过可学习投影矩阵做投影变换,得到query即
Figure DEST_PATH_IMAGE008
(4.3)将步骤(2.1)输出的Conv5层特征图
Figure DEST_PATH_IMAGE009
先通过1×1卷积降低通道维度,再将 特征宽高矩阵变为一维向量,形成新的特征图,后续处理同query一致,得到key即K和value 即V。
进一步的,所述步骤五具体为:将
Figure 235799DEST_PATH_IMAGE008
、K及V送入群体行为识别Transformer编码器 模块,该编码器模块有3层,每层并排两个头,每个头为一个群体行为识别Transformer基础 模块,将
Figure 631008DEST_PATH_IMAGE008
、K及V送入第一层中的两个头,并行输出两个编码矩阵,对这两个输出编码矩阵 进行连接操作,得到该层更新后的query,并作为下一层的输入,通过3层Transformer编码 层后,输出群体级别时空编码特征图,最后将群体级别时空编码特征图送入多层感知机层, 得到群体行为识别预测值及其置信度。
进一步的,所述步骤五包括以下步骤:
(5.1)利用步骤四输出的
Figure 445381DEST_PATH_IMAGE008
、K,通过点积运算计算第
Figure DEST_PATH_IMAGE010
层第
Figure DEST_PATH_IMAGE011
个头自注意力权重矩 阵
Figure DEST_PATH_IMAGE012
(5.2)通过步骤(5.1)得到的注意力权重矩阵和步骤四得到的value矩阵加权求 和,求和结果经过dropout层后与原始
Figure DEST_PATH_IMAGE013
相加得到
Figure DEST_PATH_IMAGE014
Figure 192144DEST_PATH_IMAGE014
经过层归一化后与经过 两层前馈神经网络层和dropout层的矩阵进行残差连接,最后再经过一层归一化层得到更 新后的
Figure DEST_PATH_IMAGE015
(5.3)连接步骤(5.2)输出的第层每个头输出
Figure 724757DEST_PATH_IMAGE015
得到新的
Figure DEST_PATH_IMAGE016
Figure 923657DEST_PATH_IMAGE016
作为
Figure DEST_PATH_IMAGE017
层 输入,并按步骤(5.2)迭代计算query更新值,直至经过三层Transformer编码层后,得到最 终群体级别时空编码特征图;
(5.4)将步骤(5.3)输出的编码特征图送入一层多层感知机层,得到群体行为识别预测值及其置信度。
进一步的,所述损失函数包括:二分类损失
Figure DEST_PATH_IMAGE018
、回归损失
Figure DEST_PATH_IMAGE019
和多分类损失
Figure DEST_PATH_IMAGE020
, 对每个损失进行加权求和,并使用超参数α、β及γ调节各损失函数的权重得到总 的损失
Figure DEST_PATH_IMAGE021
Figure DEST_PATH_IMAGE022
其中α、β及γ为权重,
Figure DEST_PATH_IMAGE023
是一个指示函数,当
Figure DEST_PATH_IMAGE024
时为1,反之为0;所述二分 类损失
Figure DEST_PATH_IMAGE025
由分类头输出的预测值与匹配上的目标框真实值计算得到,所述回归损失
Figure DEST_PATH_IMAGE026
由回归头目标框位置预测值与匹配上的目标框真实值计算得到,所述多分类损失
Figure DEST_PATH_IMAGE027
由多层感知机层即多分类头的输出预测值与真实标签值计算得到。
进一步的,所述网络模型训练为初始化人体目标检测Transformer,所述人体目标 检测Transformer采用DEtection Transformer即DETR, DETR中使用的是2D resnet50,通 过在时间维度重复2D resnet50参数值T次,使得RGB图像
Figure DEST_PATH_IMAGE028
变为
Figure DEST_PATH_IMAGE029
进行初始化, 基于损失函数对网络进行反向传播,并通过批量梯度下降法不断更新网络参数,在批量训 练后模型达到收敛。
与现有技术相比,本发明的有益效果在于:
(1)设计了一种基于级联Transformer的视频群体行为识别模型,将人体目标检测Transformer和群体行为识别Transformer联合实现端到端的训练,避免手工特征提取和离线训练,减少算法的复杂度。
(2)改进的三维卷积神经网络有效提取时空特征图,结合第一级人体目标检测Transformer回归的高置信度人体目标框,在特征图上映射人体目标框子特征图,使第二级网络重点关注人体行为特征,避免背景噪声干扰,使得算法对复杂场景更具有鲁棒性。
(3)群体行为识别Transformer通过多层多头的自注意力机制,通过自注意力权重计算,区分群体中个体贡献程度,实现复杂个体间空间和时间上下文关系的特征融合,有效提高群体行为识别准确率。本发明方法在重新标注人体目标框后的RWF-2000打架验证数据集上达到92.3%的准确率,有效提升了准确率。
(4)本发明方法能有效识别视频中的群体行为,预防危险事件的发生,有着广泛的应用价值,适用于室内外复杂场景下的视频监控,特别适用于识别打架、奔跑、聚集群体行为。
附图说明
图1是本发明的数据集生成流程图;
图2是本发明的一种基于级联Transformer的视频群体行为识别方法流程图;
图3是本发明的人体目标检测Transformer网络架构图;
图4是本发明的群体行为识别Transformer网络架构图;
图5是本发明的群体行为识别Transformer编码器层基础模块示意图。
具体实施方式
为了使本发明的目的、技术方案和技术效果更加清楚明白,以下结合说明书附图和实施例,对本发明作进一步详细说明。
如图2所示,一种基于级联Transformer的视频群体行为识别方法,首先,采集生成视频数据集,将视频数据集经过三维骨干网络提取三维时空特征,选取关键帧图像空间特征图;对关键帧图像空间特征图进行预处理后送入人体目标检测Transformer,输出关键帧图像中的人体目标框;然后,映射筛选后人体目标框在关键帧图像特征图上所对应的子特征图,结合关键帧图像周围帧特征图计算query/key/value,输入群体行为识别Transfomer,输出群体级别时空编码特征图;最后,经过多层感知机对群体行为进行分类。具体包括以下步骤:
步骤一:采集生成视频数据集。利用开源打架数据集RWF-2000、网络搜集及本地独立采集并标注的监控视频数据共同构造数据集,并按照4:1分为训练集和测试集。具体的,如图1所示,首先网络搜集视频,在网站输入行为类别关键字并下载相关视频,为了数据的多样性,更换关键字语言类别重复搜索;其次筛选网络搜集及本地摄像头独立采集的视频,将重复和行为不相关的视频删除;将视频按照30帧每秒的帧率,以5秒切割视频,删除含噪声和画面模糊的视频片段;最后,标注视频每帧图像中人体所在区域目标框左上角坐标和宽高及群体行为类别,并构建对应类别数据集,所述行为类别分为打架、聚集、奔跑三个类别。
步骤二和步骤三如图3所示,将原始视频序列经过三维卷积神经网络提取时间和空间特征图,选取关键帧图像的空间特征图并加上位置编码信息合成新的嵌入向量,嵌入向量经过尺度变换后输入人体目标检测Transformer编码器,通过自注意力机制提取图像编码特征,将图像编码特征与可学习查询向量送入人体目标检测Transformer解码器,输出目标查询向量,最后经过全连接层和多层感知机层构建分类头和回归头,分别预测目标框类别置信度及目标框图像坐标。
所述人体目标检测Transformer编码器和解码器均采用DEtection Transformer即DETR中的编码器及解码器结构,包含M个编码器层,每个编码器层由1个多头自注意力层、2个层归一化层及1个前馈神经网络层组成;解码器包含M个解码器层,每个解码器层由2个多头自注意力层、3个归一化层及1个前馈神经网络层组成。本实施例中M=6。
其中,步骤二为:输入原始视频序列到骨干网络,在骨干网络的Conv5层获取时间和空间特征图,选取视频关键帧图像特征图,并对关键帧图像特征图进行预处理;具体的,包括以下步骤:
(2.1)骨干网络获取图像序列时间空间特征图。设输入原始视频序列
Figure DEST_PATH_IMAGE030
表示T帧高宽为H×W的RGB图像,选择3D ResNet50深度残差网络为骨干网络, 为表征更细节的帧间运动信息,3D Rensnet50的Conv2、Conv3、Conv4及Conv5层在时间维度 不进行下采样,仅在空间维度进行下采样,则可获取Conv5层特征图
Figure DEST_PATH_IMAGE031
Figure DEST_PATH_IMAGE032
,Conv5层特征图大小为
Figure DEST_PATH_IMAGE033
,其中C=2048表示通道维度。
(2.2)关键帧图像特征图及其预处理。选取时间序列中间帧图像为关键帧图像,获 取关键帧图像特征图
Figure DEST_PATH_IMAGE034
,并使用1×1卷积降低特征图通道维度,以减少运算的复杂度,新 的特征图表示为
Figure DEST_PATH_IMAGE035
,由于Transformer不能表征位置关系,引入位置编码矩阵
Figure DEST_PATH_IMAGE036
,位置编码采用二维正弦编码方式。设新特征图矩阵为
Figure DEST_PATH_IMAGE037
Figure DEST_PATH_IMAGE038
,其中d=256表示降维后的通道维数。
步骤三为:在编码阶段,将步骤(2.2)输出特征图宽高矩阵变化为一维向量,形成 大小为
Figure DEST_PATH_IMAGE039
的特征图输入到DETR的编码器的第一层,经过6层编码器层后输出联系图 像上下文的特征图
Figure DEST_PATH_IMAGE040
,其中N 表示图像中需要检测的人体目标物数量;在解码阶 段,预设一组固定的可学习嵌入目标查询(object query)向量,及编码阶段输出特征图
Figure DEST_PATH_IMAGE041
输入到解码器的第一层,经过6层解码器层,Transformer解码器根据图像特征的上下文推 理对象之间的关系,并行输出N个目标查询向量并送入分类头和目标框回归头,其中分类头 由一层全连接层构成并输出人体和背景两个类别的置信度,目标框回归头由一层前馈神经 网络构成并输出目标框在图像上的坐标信息
Figure DEST_PATH_IMAGE042
,其中
Figure DEST_PATH_IMAGE043
表示目标框中心点坐标,
Figure DEST_PATH_IMAGE044
表示目标框宽和高。
步骤四和步骤五如图4所示,将步骤(2.2)输出的关键帧图像特征图、步骤三输出的类别置信度及目标框在图像上的坐标作为输入,计算query、key及value并送入群体行为识别Transformer编码器模块,该编码器模块有3层,每层并排2个头,输出联系图像上下文的特征图,最后,该特征图通过多层感知机层输出群体行为类别及其置信度。
其中,步骤四为:将步骤(2.2)输出的关键帧特征图
Figure DEST_PATH_IMAGE045
、步骤三输出的目标类别置 信度及目标框在图像上的坐标作为输入,利用目标类别置信度筛选人体目标框,在特征图
Figure 144599DEST_PATH_IMAGE045
上映射筛选人体目标框所对应的子特征图,并对该子特征图做预处理得到query,将关 键帧周围的帧图像通过线性映射得到key和value;具体的,包括以下步骤:
(4.1)人体目标特征图映射。
将步骤三输出的人体目标框按置信度降序排列,选取前k个人体目标框,通过 RoiAlign算法映射该k个人体目标框在步骤(2.2)输出特征图
Figure 200279DEST_PATH_IMAGE045
上所对应的子特征图,子 特征图
Figure DEST_PATH_IMAGE046
,其中
Figure DEST_PATH_IMAGE047
,表示特征图高宽,通道维数d=256,k=30。
(4.2)query、key、value计算。
将子特征图
Figure DEST_PATH_IMAGE048
宽高矩阵变为一维向量,形成大小为
Figure DEST_PATH_IMAGE049
的特征图,加入可学习 的位置编码矩阵,经过层归一化后通过可学习投影矩阵做投影变换,得到query即Q;具体表 达式如下:
Figure DEST_PATH_IMAGE050
其中LN()表示层归一化,
Figure DEST_PATH_IMAGE051
,A 表示自注意力头的个数,
Figure DEST_PATH_IMAGE052
,L表 示组成Transformer编码器模块的个数,
Figure DEST_PATH_IMAGE053
表示可学习投影矩阵,
Figure DEST_PATH_IMAGE054
表示可学习编码矩 阵;
(4.3)将步骤(2.1)输出的Conv5层特征图
Figure DEST_PATH_IMAGE055
先通过1×1卷积较低通 道维度至256,再将特征宽高矩阵变为一维向量,形成大小为
Figure DEST_PATH_IMAGE056
的特征图
Figure DEST_PATH_IMAGE057
,后续 处理同query一致,得到key即K和value即V;具体表达式如下:
Figure DEST_PATH_IMAGE058
其中
Figure DEST_PATH_IMAGE059
表示可学习投影矩阵,
Figure DEST_PATH_IMAGE060
表示可学习编码矩阵。
步骤五为:将
Figure 203876DEST_PATH_IMAGE008
、K及V送入群体行为识别Transformer编码器模块,通过每层每个 头计算更新后的query,每个头为一个Transformer基础模块,将
Figure 6135DEST_PATH_IMAGE008
、K及V送入第一层中的 两个头,并行输出两个编码矩阵,对这两个输出编码矩阵进行连接操作,得到该层更新后的 query,并作为下一层的输入,通过3层Transformer编码层后,输出群体级别时空编码特征 图,最后将群体级别时空编码特征图送入多层感知机层,得到群体行为识别预测值及其置 信度;具体的,包括以下步骤:
(5.1)自注意力计算。利用步骤四得到
Figure 529520DEST_PATH_IMAGE008
、K,通过点积运算计算第
Figure DEST_PATH_IMAGE061
层第
Figure DEST_PATH_IMAGE062
个头自 注意力权重矩阵
Figure DEST_PATH_IMAGE063
,具体表达式如下:
Figure DEST_PATH_IMAGE064
其中SM()表示softmax激活函数,
Figure DEST_PATH_IMAGE065
表示每个注意力头的维度,D为key的 维度。
(5.2)第
Figure 83998DEST_PATH_IMAGE061
层第
Figure 325624DEST_PATH_IMAGE062
个头编码特征图
Figure DEST_PATH_IMAGE066
计算。如图5所示,通过步骤(5.1)得到的注 意力权重矩阵和步骤四得到的value矩阵加权求和,求和结果经过dropout层后与原始
Figure DEST_PATH_IMAGE067
相加得到
Figure DEST_PATH_IMAGE068
Figure 663064DEST_PATH_IMAGE068
经过层归一化后与经过两层前馈神经网络层和dropout层的矩 阵进行残差连接,最后再经过一层归一化层得到更新后的
Figure DEST_PATH_IMAGE069
,可通过以下公式实现:
Figure DEST_PATH_IMAGE070
Figure DEST_PATH_IMAGE071
其中FFN()表示前馈神经网络层。
(5.3)编码特征图计算。
由步骤(5.2)得到
Figure 368852DEST_PATH_IMAGE069
后,连接该层每个头输出得到
Figure DEST_PATH_IMAGE072
Figure DEST_PATH_IMAGE073
作为
Figure DEST_PATH_IMAGE074
层输入,并按步骤(5.2)计算query更新值,直至 经过3层Transformer编码层后,得到最终群体级别时空编码特征图
Figure DEST_PATH_IMAGE075
(5.4)群体行为类别及其置信度。
将步骤(5.3)输出的群体级别时空编码特征图送入多层感知机层,得到群体行为 识别预测值及其置信度,表达式为
Figure DEST_PATH_IMAGE076
,其中y表示群体行为识别预测值。
步骤六:损失函数构造及模型训练。整个网络包含三个损失:二分类损失
Figure DEST_PATH_IMAGE077
、 回归损失
Figure DEST_PATH_IMAGE078
和多分类损失
Figure DEST_PATH_IMAGE079
根据步骤三构建的分类头输出预测值与匹配上的目标真实值计算二分类损失
Figure 890969DEST_PATH_IMAGE077
,设y表示目标真值集合,
Figure DEST_PATH_IMAGE080
表示目标预测值,其中N表示目标物预测输出 数目,本实施例中取N=50,由于预测输出值大于图像中真值,将集合y用
Figure DEST_PATH_IMAGE081
补齐,
Figure 685137DEST_PATH_IMAGE081
表示没 有目标,使用匈牙利算法匹配预测值与真实值,再计算已匹配上的预测值与真实值之间的 损失
Figure DEST_PATH_IMAGE082
Figure DEST_PATH_IMAGE083
其中
Figure DEST_PATH_IMAGE084
表示第i个目标真实标签值,
Figure DEST_PATH_IMAGE085
表示使用匈牙利算法匹配上第i个真值所对 应的预测值的下标,
Figure DEST_PATH_IMAGE086
表示与第i个真值匹配上的预测值属于类别
Figure 888585DEST_PATH_IMAGE084
的概率。
根据步骤三构建的回归头输出目标框位置预测值与匹配上的目标框真实值计算 回归损失
Figure DEST_PATH_IMAGE087
Figure DEST_PATH_IMAGE088
Figure DEST_PATH_IMAGE089
Figure DEST_PATH_IMAGE090
其中
Figure DEST_PATH_IMAGE091
表示第i个目标真实回归框位置,
Figure DEST_PATH_IMAGE092
表示与第i个真值匹配上预测回归 框位置值,Area()表示目标框面积,
Figure DEST_PATH_IMAGE093
Figure DEST_PATH_IMAGE094
是超参数,本实施例中
Figure DEST_PATH_IMAGE095
Figure DEST_PATH_IMAGE096
根据步骤(5.4)多分类头输出预测值与真实标签值计算多分类损失
Figure DEST_PATH_IMAGE097
Figure DEST_PATH_IMAGE098
其中K表示行为类别数,
Figure DEST_PATH_IMAGE099
表示行为类别真实标签,
Figure DEST_PATH_IMAGE100
表示预测值为
Figure 698147DEST_PATH_IMAGE099
的概率。
对每个损失进行加权求和,并使用超参数α、β及γ调节各损失函数的权重得到总 的损失
Figure DEST_PATH_IMAGE101
Figure DEST_PATH_IMAGE102
其中α、β及γ为权重,本实施例中α=1、β=1,γ=0.5。
Figure DEST_PATH_IMAGE103
是一个指示函数,当
Figure DEST_PATH_IMAGE104
时为1,反之为0。
使用DETR在COCO上的预训练模型初始化步骤三中的人体目标检测Transformer, 使网络具备先验知识,避免训练初始阶段损失过大,模型难以收敛的情况。由于本实施例中 骨干网络使用的是3D resnet50,DETR中使用的是2D resnet50,通过在时间维度重复2D resnet50参数值T次,使得
Figure DEST_PATH_IMAGE105
变为
Figure DEST_PATH_IMAGE106
进行初始化。基于损失函数对网络进行反向 传播,并通过批量梯度下降法不断更新网络参数,在10万次批量训练后模型达到收敛。
以上所述,仅为本发明的优选实施案例,并非对本发明做任何形式上的限制。虽然前文对本发明的实施过程进行了详细说明,对于熟悉本领域的人员来说,其依然可以对前述各实例记载的技术方案进行修改,或者对其中部分技术特征进行同等替换。凡在本发明精神和原则之内所做修改、同等替换等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于级联Transformer的视频群体行为识别方法,其特征在于,包括以下步骤:
步骤一:利用开源打架数据集RWF-2000、网络搜集及本地独立采集并标注的监控视频数据,即原始视频序列,共同构造数据集;
步骤二:输入从步骤一获得的原始视频序列到骨干网络,在骨干网络的卷积层Conv5层获取时间和空间特征图,选取视频关键帧图像特征图,并对关键帧图像特征图进行预处理;
步骤三:将步骤二预处理后的关键帧图像特征图尺度变换后输入到人体目标检测Transformer编码器,通过自注意力机制提取图像编码特征,将图像编码特征与可学习查询向量送入人体目标检测Transformer解码器,输出目标查询向量,最后经过全连接层和多层感知机层构建分类头和回归头,分别预测输出目标类别置信度及目标框图像位置坐标;
步骤四:将步骤二预处理后的关键帧图像特征图、步骤三输出的目标类别置信度及目标框图像坐标作为输入,利用目标类别置信度筛选人体目标框,在该特征图上映射筛选人体目标框所对应的子特征图,并对该子特征图做预处理得到query,将关键帧周围的帧图像通过线性映射得到key和value;
步骤五:将query、key及value送入群体行为识别Transformer编码器模块,输出群体级别时空编码特征图,经多层感知机层输出群体行为识别预测值及其置信度;
步骤六:构造损失函数并训练网络模型。
2.如权利要求1所述的一种基于级联Transformer的视频群体行为识别方法,其特征在于,所述步骤一具体为:利用开源打架数据集RWF-2000、网络搜集及本地独立采集并标注的监控视频数据,将采集的视频按照30帧每秒的帧率,以5秒切割视频,删除含噪声和画面模糊的视频片段,标注视频每帧图像中人体所在区域目标框左上角坐标和宽高及群体行为类别,并构建对应类别数据集,所述行为类别包括打架、聚集、奔跑三个类别。
3.如权利要求1所述的一种基于级联Transformer的视频群体行为识别方法,其特征在于,所述步骤二具体包括如下步骤:
(2.1)选择3D ResNet50深度残差网络为骨干网络, 3D Rensnet50的Conv2、Conv3、 Conv4及Conv5层在时间维度不进行下采样,仅在空间维度进行下采样,获取Conv5层特征图
Figure 116661DEST_PATH_IMAGE001
,T表示T帧;
(2.2)选取时间序列中间帧图像为关键帧图像,获取关键帧图像特征图
Figure 873264DEST_PATH_IMAGE002
,并使用1× 1卷积降低特征图通道维度,新的特征图表示为
Figure 321563DEST_PATH_IMAGE003
,引入位置编码矩阵
Figure 429197DEST_PATH_IMAGE004
,位置编码采 用二维正弦编码方式,得到新特征图矩阵为
Figure 630329DEST_PATH_IMAGE005
4.如权利要求3所述的一种基于级联Transformer的视频群体行为识别方法,其特征在 于,所述步骤三具体为:将步骤(2.2)输出特征图
Figure 241439DEST_PATH_IMAGE006
宽高矩阵变化为一维向量,形成新的特 征图输入到人体目标检测Transformer编码器,经过其6层编码器层后输出联系图像上下文 的特征图
Figure 391798DEST_PATH_IMAGE007
;然后设定一组固定的可学习嵌入目标查询向量,将其与特征图
Figure 455569DEST_PATH_IMAGE007
输入到人体 目标检测Transformer解码器,经过6层解码器层,人体目标检测Transformer解码器根据图 像特征的上下文推理对象之间的关系,并行输出N个目标查询向量即目标预测输出数目,并 送入分类头和目标框回归头,其中分类头由一层全连接层构成并输出人体和背景两个类别 的置信度,目标框回归头由一层前馈神经网络构成并输出目标框在图像上的位置坐标信 息。
5.如权利要求4所述的一种基于级联Transformer的视频群体行为识别方法,其特征在于,所述人体目标检测Transformer编码器和解码器均采用DEtection Transformer即DETR中的编码器及解码器结构,编码器包含M个编码器层,每个编码器层由1个多头自注意力层、2个层归一化层及1个前馈神经网络层组成;解码器包含M个解码器层,每个解码器层由2个多头自注意力层、3个归一化层及1个前馈神经网络层组成。
6.如权利要求4所述的一种基于级联Transformer的视频群体行为识别方法,其特征在于,所述步骤四具体包括如下步骤:
(4.1)将步骤三输出的人体目标框按置信度降序排列,选取前k个人体目标框,通过 RoiAlign算法映射该k个人体目标框在步骤(2.2)输出特征图
Figure 952672DEST_PATH_IMAGE008
上所对应的子特征图;
(4.2)将子特征图宽高矩阵变为一维向量,形成新的特征图,并加入可学习的位置编码 矩阵,经过层归一化后通过可学习投影矩阵做投影变换,得到query即
Figure 949446DEST_PATH_IMAGE009
(4.3)将步骤(2.1)输出的Conv5层特征图
Figure 598602DEST_PATH_IMAGE010
先通过11卷积降低通道维度,再将特征宽 高矩阵变为一维向量,形成新的特征图,后续处理同query一致,得到key即K和value即V。
7.如权利要求6所述的一种基于级联Transformer的视频群体行为识别方法,其特征在 于,所述步骤五具体为:将
Figure 916714DEST_PATH_IMAGE011
、K及V送入群体行为识别Transformer编码器模块,该编码器模 块有3层,每层并排两个头,每个头为一个群体行为识别Transformer基础模块,将
Figure 981622DEST_PATH_IMAGE011
、K及V 送入第一层中的两个头,并行输出两个编码矩阵,对这两个输出编码矩阵进行连接操作,得 到该层更新后的query,并作为下一层的输入,通过3层Transformer编码层后,输出群体级 别时空编码特征图,最后将群体级别时空编码特征图送入多层感知机层,得到群体行为识 别预测值及其置信度。
8.如权利要求7所述的一种基于级联Transformer的视频群体行为识别方法,其特征在于,所述步骤五包括以下步骤:
(5.1)利用步骤四输出的
Figure 567324DEST_PATH_IMAGE011
、K,通过点积运算计算第
Figure 997168DEST_PATH_IMAGE012
层第
Figure 68154DEST_PATH_IMAGE013
个头自注意力权重矩阵
Figure 671174DEST_PATH_IMAGE014
(5.2)通过步骤(5.1)得到的注意力权重矩阵和步骤四得到的value矩阵加权求和,求 和结果经过dropout层后与原始
Figure 111383DEST_PATH_IMAGE015
相加得到
Figure 508866DEST_PATH_IMAGE016
Figure 535990DEST_PATH_IMAGE016
经过层归一化后与经过两层 前馈神经网络层和dropout层的矩阵进行残差连接,最后再经过一层归一化层得到更新后 的
Figure 942701DEST_PATH_IMAGE017
(5.3)连接步骤(5.2)输出的第层每个头输出
Figure 299733DEST_PATH_IMAGE017
得到新的
Figure 868117DEST_PATH_IMAGE018
Figure 648117DEST_PATH_IMAGE018
作为
Figure 327360DEST_PATH_IMAGE019
层输入, 并按步骤(5.2)迭代计算query更新值,直至经过三层Transformer编码层后,得到最终群体 级别时空编码特征图;
(5.4)将步骤(5.3)输出的群体级别时空编码特征图送入一层多层感知机层,得到群体行为识别预测值及其置信度。
9.如权利要求1所述的一种基于级联Transformer的视频群体行为识别方法,其特征在 于,所述损失函数包括:二分类损失
Figure 742160DEST_PATH_IMAGE020
、回归损失
Figure 481446DEST_PATH_IMAGE021
和多分类损失
Figure 653802DEST_PATH_IMAGE022
, 对每 个损失进行加权求和,并使用超参数α、β及γ调节各损失函数的权重得到总的损失
Figure 638201DEST_PATH_IMAGE023
Figure 907508DEST_PATH_IMAGE024
其中α、β及γ为权重,
Figure 880012DEST_PATH_IMAGE025
是一个指示函数,当
Figure 867559DEST_PATH_IMAGE026
时为1,反之为0;所述二分类 损失
Figure 655649DEST_PATH_IMAGE027
由分类头输出的预测值与匹配上的目标框真实值计算得到,所述回归损失
Figure 779463DEST_PATH_IMAGE028
由回归头目标框位置预测值与匹配上的目标框真实值计算得到,所述多分类损失
Figure 798235DEST_PATH_IMAGE029
由多层感知机层即多分类头的输出预测值与真实标签值计算得到。
10.如权利要求1所述的一种基于级联Transformer的视频群体行为识别方法,其特征 在于,所述网络模型训练为初始化人体目标检测Transformer,所述人体目标检测 Transformer采用DEtection Transformer即DETR, DETR中使用的是2D resnet50,通过在 时间维度重复2D resnet50参数值T次,使得RGB图像
Figure 7499DEST_PATH_IMAGE030
变为
Figure 832236DEST_PATH_IMAGE031
进行初始化,基 于损失函数对网络进行反向传播,并通过批量梯度下降法不断更新网络参数,在批量训练 后模型达到收敛。
CN202111225547.8A 2021-10-21 2021-10-21 一种基于级联Transformer的视频群体行为识别方法 Active CN113673489B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111225547.8A CN113673489B (zh) 2021-10-21 2021-10-21 一种基于级联Transformer的视频群体行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111225547.8A CN113673489B (zh) 2021-10-21 2021-10-21 一种基于级联Transformer的视频群体行为识别方法

Publications (2)

Publication Number Publication Date
CN113673489A true CN113673489A (zh) 2021-11-19
CN113673489B CN113673489B (zh) 2022-04-08

Family

ID=78550756

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111225547.8A Active CN113673489B (zh) 2021-10-21 2021-10-21 一种基于级联Transformer的视频群体行为识别方法

Country Status (1)

Country Link
CN (1) CN113673489B (zh)

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113888541A (zh) * 2021-12-07 2022-01-04 南方医科大学南方医院 一种腹腔镜手术阶段的图像识别方法、装置及存储介质
CN113936339A (zh) * 2021-12-16 2022-01-14 之江实验室 基于双通道交叉注意力机制的打架识别方法和装置
CN114153973A (zh) * 2021-12-07 2022-03-08 内蒙古工业大学 基于t-m bert预训练模型的蒙古语多模态情感分析方法
CN114170558A (zh) * 2021-12-14 2022-03-11 北京有竹居网络技术有限公司 用于视频处理的方法、系统、设备、介质和产品
CN114339403A (zh) * 2021-12-31 2022-04-12 西安交通大学 一种视频动作片段生成方法、系统、设备及可读存储介质
CN114519813A (zh) * 2022-02-22 2022-05-20 广东工业大学 一种机械臂目标抓取方法及系统
CN114648723A (zh) * 2022-04-28 2022-06-21 之江实验室 基于时间一致性对比学习的动作规范性检测方法和装置
CN114758360A (zh) * 2022-04-24 2022-07-15 北京医准智能科技有限公司 一种多模态图像分类模型训练方法、装置及电子设备
CN114863356A (zh) * 2022-03-10 2022-08-05 西南交通大学 一种基于残差聚合图网络的群体活动识别方法及系统
CN114863352A (zh) * 2022-07-07 2022-08-05 光谷技术有限公司 基于视频分析的人员群体行为监控方法
CN114898241A (zh) * 2022-02-21 2022-08-12 上海科技大学 基于计算机视觉的视频重复动作计数系统
CN114926770A (zh) * 2022-05-31 2022-08-19 上海人工智能创新中心 视频动作识别方法、装置、设备和计算机可读存储介质
CN114973049A (zh) * 2022-01-05 2022-08-30 上海人工智能创新中心 一种统一卷积与自注意力的轻量视频分类方法
CN115171029A (zh) * 2022-09-09 2022-10-11 山东省凯麟环保设备股份有限公司 基于无人驾驶的城市场景下的实例分割方法及系统
CN115169673A (zh) * 2022-07-01 2022-10-11 扬州大学 一种智慧校园疫情风险监测与预警系统及方法
CN115761444A (zh) * 2022-11-24 2023-03-07 张栩铭 一种非完整信息目标识别模型的训练方法及目标识别方法
CN116246338A (zh) * 2022-12-20 2023-06-09 西南交通大学 一种基于图卷积和Transformer复合神经网络的行为识别方法
CN116402811A (zh) * 2023-06-05 2023-07-07 长沙海信智能系统研究院有限公司 一种打架斗殴行为识别方法及电子设备
CN116542290A (zh) * 2023-06-25 2023-08-04 城云科技(中国)有限公司 基于多源多维数据的信息预测模型构建方法、装置及应用
CN116895038A (zh) * 2023-09-11 2023-10-17 中移(苏州)软件技术有限公司 视频动作识别方法、装置、电子设备及可读存储介质
CN116958739A (zh) * 2023-06-25 2023-10-27 南京矩视科技有限公司 一种基于注意力机制的碳纤维丝道实时动态编号方法
CN116978051A (zh) * 2023-08-03 2023-10-31 杭州海量信息技术有限公司 一种表格图像关键信息提取方法和装置
CN117132788A (zh) * 2023-06-09 2023-11-28 中国人民解放军战略支援部队航天工程大学 基于运动跟踪Transformer的卫星视频多车辆在线跟踪方法及装置
CN117392168A (zh) * 2023-08-21 2024-01-12 浙江大学 一种利用单光子钙成像视频数据进行神经解码的方法
CN117496323A (zh) * 2023-12-27 2024-02-02 泰山学院 基于Transformer的多尺度二阶病理图像分类方法及系统
CN118015520A (zh) * 2024-03-15 2024-05-10 上海摩象网络科技有限公司 一种基于视觉的看护检测系统和方法
CN118172838A (zh) * 2024-05-15 2024-06-11 四川旅游学院 一种景区的行为识别方法以及系统
CN118351571A (zh) * 2024-04-17 2024-07-16 淮阴工学院 一种基于视频音频识别的变电站鸟类识别方法及系统
WO2024179485A1 (zh) * 2023-02-28 2024-09-06 华为技术有限公司 一种图像处理方法及其相关设备
CN118675114B (zh) * 2024-08-21 2024-10-22 华东交通大学 一种基于群体行为识别的危险行为告警方法及系统

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105426820A (zh) * 2015-11-03 2016-03-23 中原智慧城市设计研究院有限公司 基于安防监控视频数据的多人异常行为检测方法
CN105574489A (zh) * 2015-12-07 2016-05-11 上海交通大学 基于层次级联的暴力群体行为检测方法
WO2017168889A1 (en) * 2016-04-01 2017-10-05 Yamaha Hatsudoki Kabushiki Kaisha Object detection device and vehicle having the object detection device
CN108805080A (zh) * 2018-06-12 2018-11-13 上海交通大学 基于上下文的多层次深度递归网络群体行为识别方法
CN110348312A (zh) * 2019-06-14 2019-10-18 武汉大学 一种区域视频人体动作行为实时识别方法
US20200175334A1 (en) * 2018-11-29 2020-06-04 Qualcomm Incorporated Edge computing
CN111460889A (zh) * 2020-02-27 2020-07-28 平安科技(深圳)有限公司 一种基于语音及图像特征的异常行为识别方法、装置及设备
CN112131943A (zh) * 2020-08-20 2020-12-25 深圳大学 一种基于双重注意力模型的视频行为识别方法及系统
CN112149563A (zh) * 2020-09-23 2020-12-29 中科人工智能创新技术研究院(青岛)有限公司 一种注意力机制人体图像关键点姿态估计方法及系统
CN112861691A (zh) * 2021-01-29 2021-05-28 中国科学技术大学 基于部位感知建模的遮挡场景下的行人重识别方法
CN113486708A (zh) * 2021-05-24 2021-10-08 浙江大华技术股份有限公司 人体姿态预估方法、模型训练方法、电子设备和存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105426820A (zh) * 2015-11-03 2016-03-23 中原智慧城市设计研究院有限公司 基于安防监控视频数据的多人异常行为检测方法
CN105574489A (zh) * 2015-12-07 2016-05-11 上海交通大学 基于层次级联的暴力群体行为检测方法
WO2017168889A1 (en) * 2016-04-01 2017-10-05 Yamaha Hatsudoki Kabushiki Kaisha Object detection device and vehicle having the object detection device
CN108805080A (zh) * 2018-06-12 2018-11-13 上海交通大学 基于上下文的多层次深度递归网络群体行为识别方法
US20200175334A1 (en) * 2018-11-29 2020-06-04 Qualcomm Incorporated Edge computing
CN110348312A (zh) * 2019-06-14 2019-10-18 武汉大学 一种区域视频人体动作行为实时识别方法
CN111460889A (zh) * 2020-02-27 2020-07-28 平安科技(深圳)有限公司 一种基于语音及图像特征的异常行为识别方法、装置及设备
CN112131943A (zh) * 2020-08-20 2020-12-25 深圳大学 一种基于双重注意力模型的视频行为识别方法及系统
CN112149563A (zh) * 2020-09-23 2020-12-29 中科人工智能创新技术研究院(青岛)有限公司 一种注意力机制人体图像关键点姿态估计方法及系统
CN112861691A (zh) * 2021-01-29 2021-05-28 中国科学技术大学 基于部位感知建模的遮挡场景下的行人重识别方法
CN113486708A (zh) * 2021-05-24 2021-10-08 浙江大华技术股份有限公司 人体姿态预估方法、模型训练方法、电子设备和存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ALI AL-RAZIQI 等: "Unsupervised Group Activity Detection by Hierarchical Dirichlet Processes", 《SPRINGER》 *
HAO CHEN 等: "A framework for group activity detection and recognition using smartphone sensors and beacons", 《BUILDING AND ENVIRONMENT》 *
叶齐祥 等: "基于多尺度方向特征的快速鲁棒人体检测算法", 《软件学报》 *
李定 等: "面向群体行为识别的注意力池化机制", 《中国科学:信息科学》 *

Cited By (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114153973A (zh) * 2021-12-07 2022-03-08 内蒙古工业大学 基于t-m bert预训练模型的蒙古语多模态情感分析方法
CN113888541A (zh) * 2021-12-07 2022-01-04 南方医科大学南方医院 一种腹腔镜手术阶段的图像识别方法、装置及存储介质
CN114170558A (zh) * 2021-12-14 2022-03-11 北京有竹居网络技术有限公司 用于视频处理的方法、系统、设备、介质和产品
CN113936339A (zh) * 2021-12-16 2022-01-14 之江实验室 基于双通道交叉注意力机制的打架识别方法和装置
CN113936339B (zh) * 2021-12-16 2022-04-22 之江实验室 基于双通道交叉注意力机制的打架识别方法和装置
CN114339403A (zh) * 2021-12-31 2022-04-12 西安交通大学 一种视频动作片段生成方法、系统、设备及可读存储介质
CN114973049A (zh) * 2022-01-05 2022-08-30 上海人工智能创新中心 一种统一卷积与自注意力的轻量视频分类方法
CN114973049B (zh) * 2022-01-05 2024-04-26 上海人工智能创新中心 一种统一卷积与自注意力的轻量视频分类方法
CN114898241B (zh) * 2022-02-21 2024-04-30 上海科技大学 基于计算机视觉的视频重复动作计数系统
CN114898241A (zh) * 2022-02-21 2022-08-12 上海科技大学 基于计算机视觉的视频重复动作计数系统
CN114519813A (zh) * 2022-02-22 2022-05-20 广东工业大学 一种机械臂目标抓取方法及系统
CN114863356A (zh) * 2022-03-10 2022-08-05 西南交通大学 一种基于残差聚合图网络的群体活动识别方法及系统
CN114863356B (zh) * 2022-03-10 2023-02-03 西南交通大学 一种基于残差聚合图网络的群体活动识别方法及系统
CN114758360A (zh) * 2022-04-24 2022-07-15 北京医准智能科技有限公司 一种多模态图像分类模型训练方法、装置及电子设备
CN114648723A (zh) * 2022-04-28 2022-06-21 之江实验室 基于时间一致性对比学习的动作规范性检测方法和装置
CN114926770A (zh) * 2022-05-31 2022-08-19 上海人工智能创新中心 视频动作识别方法、装置、设备和计算机可读存储介质
CN114926770B (zh) * 2022-05-31 2024-06-07 上海人工智能创新中心 视频动作识别方法、装置、设备和计算机可读存储介质
CN115169673A (zh) * 2022-07-01 2022-10-11 扬州大学 一种智慧校园疫情风险监测与预警系统及方法
CN114863352A (zh) * 2022-07-07 2022-08-05 光谷技术有限公司 基于视频分析的人员群体行为监控方法
CN115171029A (zh) * 2022-09-09 2022-10-11 山东省凯麟环保设备股份有限公司 基于无人驾驶的城市场景下的实例分割方法及系统
CN115171029B (zh) * 2022-09-09 2022-12-30 山东省凯麟环保设备股份有限公司 基于无人驾驶的城市场景下的实例分割方法及系统
CN115761444B (zh) * 2022-11-24 2023-07-25 张栩铭 一种非完整信息目标识别模型的训练方法及目标识别方法
CN115761444A (zh) * 2022-11-24 2023-03-07 张栩铭 一种非完整信息目标识别模型的训练方法及目标识别方法
CN116246338A (zh) * 2022-12-20 2023-06-09 西南交通大学 一种基于图卷积和Transformer复合神经网络的行为识别方法
CN116246338B (zh) * 2022-12-20 2023-10-03 西南交通大学 一种基于图卷积和Transformer复合神经网络的行为识别方法
WO2024179485A1 (zh) * 2023-02-28 2024-09-06 华为技术有限公司 一种图像处理方法及其相关设备
CN116402811A (zh) * 2023-06-05 2023-07-07 长沙海信智能系统研究院有限公司 一种打架斗殴行为识别方法及电子设备
CN116402811B (zh) * 2023-06-05 2023-08-18 长沙海信智能系统研究院有限公司 一种打架斗殴行为识别方法及电子设备
CN117132788A (zh) * 2023-06-09 2023-11-28 中国人民解放军战略支援部队航天工程大学 基于运动跟踪Transformer的卫星视频多车辆在线跟踪方法及装置
CN116542290A (zh) * 2023-06-25 2023-08-04 城云科技(中国)有限公司 基于多源多维数据的信息预测模型构建方法、装置及应用
CN116542290B (zh) * 2023-06-25 2023-09-08 城云科技(中国)有限公司 基于多源多维数据的信息预测模型构建方法、装置及应用
CN116958739A (zh) * 2023-06-25 2023-10-27 南京矩视科技有限公司 一种基于注意力机制的碳纤维丝道实时动态编号方法
CN116978051A (zh) * 2023-08-03 2023-10-31 杭州海量信息技术有限公司 一种表格图像关键信息提取方法和装置
CN117392168A (zh) * 2023-08-21 2024-01-12 浙江大学 一种利用单光子钙成像视频数据进行神经解码的方法
CN117392168B (zh) * 2023-08-21 2024-06-04 浙江大学 一种利用单光子钙成像视频数据进行神经解码的方法
CN116895038B (zh) * 2023-09-11 2024-01-26 中移(苏州)软件技术有限公司 视频动作识别方法、装置、电子设备及可读存储介质
CN116895038A (zh) * 2023-09-11 2023-10-17 中移(苏州)软件技术有限公司 视频动作识别方法、装置、电子设备及可读存储介质
CN117496323A (zh) * 2023-12-27 2024-02-02 泰山学院 基于Transformer的多尺度二阶病理图像分类方法及系统
CN117496323B (zh) * 2023-12-27 2024-03-29 泰山学院 基于Transformer的多尺度二阶病理图像分类方法及系统
CN118015520A (zh) * 2024-03-15 2024-05-10 上海摩象网络科技有限公司 一种基于视觉的看护检测系统和方法
CN118351571A (zh) * 2024-04-17 2024-07-16 淮阴工学院 一种基于视频音频识别的变电站鸟类识别方法及系统
CN118172838B (zh) * 2024-05-15 2024-07-26 四川旅游学院 一种景区的行为识别方法以及系统
CN118172838A (zh) * 2024-05-15 2024-06-11 四川旅游学院 一种景区的行为识别方法以及系统
CN118675114B (zh) * 2024-08-21 2024-10-22 华东交通大学 一种基于群体行为识别的危险行为告警方法及系统

Also Published As

Publication number Publication date
CN113673489B (zh) 2022-04-08

Similar Documents

Publication Publication Date Title
CN113673489B (zh) 一种基于级联Transformer的视频群体行为识别方法
CN113936339B (zh) 基于双通道交叉注意力机制的打架识别方法和装置
CN110119703B (zh) 一种安防场景下融合注意力机制和时空图卷积神经网络的人体动作识别方法
CN111310707B (zh) 基于骨骼的图注意力网络动作识别方法及系统
CN106650653B (zh) 基于深度学习的人脸识别和年龄合成联合模型的构建方法
Deng et al. Extreme learning machines: new trends and applications
CN113749657B (zh) 一种基于多任务胶囊的脑电情绪识别方法
Theodoridis et al. Cross-modal variational alignment of latent spaces
CN112801068B (zh) 一种视频多目标跟踪与分割系统和方法
CN114973097A (zh) 电力机房内异常行为识别方法、装置、设备及存储介质
CN111723667A (zh) 基于人体关节点坐标的智慧灯杆人群行为识别方法和装置
CN114648535A (zh) 一种基于动态transformer的食品图像分割方法及系统
CN117475216A (zh) 一种基于aglt网络的高光谱与激光雷达数据融合分类方法
Dong et al. Research on image classification based on capsnet
CN115908896A (zh) 基于带自注意力机制脉冲神经网络的图片识别系统
CN116630369A (zh) 基于时空记忆网络的无人机目标跟踪方法
CN113850182B (zh) 基于DAMR_3DNet的动作识别方法
CN113936333A (zh) 一种基于人体骨架序列的动作识别算法
Zhao et al. Adaptive Dual-Stream Sparse Transformer Network for Salient Object Detection in Optical Remote Sensing Images
CN117893957A (zh) 用于流计数的系统和方法
CN115690917B (zh) 一种基于外观和运动智能关注的行人动作识别方法
Zhao et al. Research on human behavior recognition in video based on 3DCCA
CN116402811A (zh) 一种打架斗殴行为识别方法及电子设备
CN116543338A (zh) 一种基于注视目标估计的学生课堂行为检测方法
CN116452750A (zh) 一种基于移动终端的物体三维重建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant