CN116453025A - 一种缺帧环境下融合时空信息的排球比赛群体行为识别方法 - Google Patents

一种缺帧环境下融合时空信息的排球比赛群体行为识别方法 Download PDF

Info

Publication number
CN116453025A
CN116453025A CN202310528875.8A CN202310528875A CN116453025A CN 116453025 A CN116453025 A CN 116453025A CN 202310528875 A CN202310528875 A CN 202310528875A CN 116453025 A CN116453025 A CN 116453025A
Authority
CN
China
Prior art keywords
time
space
individual
representing
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310528875.8A
Other languages
English (en)
Inventor
陈志�
刘洁
岳文静
袁强健
王俊
王晓晓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202310528875.8A priority Critical patent/CN116453025A/zh
Publication of CN116453025A publication Critical patent/CN116453025A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/62Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于计算机视觉、图像处理、群体行为识别等交叉技术领域,公开一种缺帧环境下融合时空信息的排球比赛群体行为识别方法,该方法使用VGG16网络处理输入的排球视频帧序列得到全局特征,然后把特征向量和个体边框输入到RoiAlign层,得到个体特征,将个体特征输入推理网络得到初始群体特征和个体时空交互特征,得到原始特征,将原始特征输入至时空Transformer模块进行时空交互信息的建模,通过推理网络模块处理有效改善不连续特征过渡的复杂性。本发明能够完成对时空依赖关系进行整体建模,降低缺少帧带来的影响,捕获个体的复杂交互关系,有效提高排球比赛群体行为识别能力。

Description

一种缺帧环境下融合时空信息的排球比赛群体行为识别方法
技术领域
本发明属于计算机视觉、图像处理、群体行为识别等交叉技术领域,具体的说是涉及一种缺帧环境下融合时空信息的排球比赛群体行为识别方法。
背景技术
群体行为识别通常是指对同一场景下的多人参与的整体活动进行识别,具有丰富的应用领域,包括体育赛事分析、社交场景理解和社会关系识别等。群体行为识别与动作识别方法不同,群体活动识别的关键在于对场景中个体交互关系进行时空建模,以此获得群体活动表示。由于受到不同环境干扰,视频容易出现帧丢失问题,增加了场景内空间和时间信息过渡的复杂性。在缺帧环境下,直接依靠个体之间的时空关系无法准确地判断群体行为,因为个体行为、位置和交互关系是不断变化的,并且是不连续的。
传统的方法都是手工提取特征,然后经过概率图模型处理来推断群体活动。近期一些研究人员利用长短时记忆神经网络从时序角度对群体行为进行处理的识别模型进行群体行为识别,以及使用循环神经网络(RNN)对个体特征进行建模,但是需要大量的计算成本;对于层次LSTM模型,只体现出时序关系而忽略了个体的空间关系。后来一些方法开始应用基于注意力机制的方法来建模个体关系,以推断群体活动,比如利用注意力机制分别捕获空间和时间上的自我注意;在一些新工作中又使用标准Transformer编码器来提取特征,在不考虑时间动态信息的情况下选择性地提取空间角色关系,但是上述方法要么将时空信息分解,要么只是简单融合时空信息,并没有结合时空交互关系。
目前并没有一个有效方法解决缺帧环境下的群体行为识别问题,因此,设计一个可以在缺帧环境下融合时空信息的方法尤为重要。
发明内容
为了解决上述技术问题,本发明提供了一种缺帧环境下融合时空信息的排球比赛群体行为识别方法,该方法首先从一段不连续的排球比赛视频序列中提取特征,将特征向量输入至推理网络推断初始单体交互特征以弥补丢失的特征信息,最终输入至基于自注意力机制的时空Transformer,实现对时空关系进行整体建模,以此来提高排球比赛群体行为识别能力。
为了达到上述目的,本发明是通过以下技术方案实现的:
本发明是一种缺帧环境下融合时空信息的排球比赛群体行为识别方法,包括如下步骤:
步骤1)输入一段不连续的排球比赛视频序列;
步骤2)对步骤1获取到的排球比赛视频序列使用VGG16网络提取特征,VGG16模型的最后一层的输出作为特征表示,可以作为全局特征;
步骤3)把个体边框信息和获取到的全局特征输入到RoiAlign网络模块,该模块会根据输入的边框信息得到每张图中全部的个体特征;
步骤4)将个体特征输入推理网络得到初始群体特征和细化后的个体时空交互特征,使用FC层进行特征映射,得到的结果称为原始特征;
步骤5)将提取的原始特征输入时空Transformer模块进行时空交互信息的建模,完成时空依赖关系的整体建模;
步骤6)对步骤5)和步骤4)采用了残差连接将最后的输出特征和原始特征进行融合,使用群体分类层得到最后的识别结果。
本发明的进一步改进在于:步骤3)提取图中个体特征具体包括以下步骤:
步骤31)输入图像和区域坐标,根据RoiAlign的大小和位置从卷积特征图中裁剪出相应的子区域;
步骤32)将步骤31)将RoiAlign子区域分成网格,并计算每个网格的位置,通过双线性插值在每个网格上计算出RoiAlign子区域内的像素值;
步骤33)将每个网格内的像素值作为RoiAlign子区域内相应位置的特征值,所有网格的特征值堆叠在一起,形成一个固定大小的特征映射;
步骤34)返回该特征映射并作为个体特征。
本发明的进一步改进在于:步骤4)获取初始群体特征和细化后的个体时空交互特征包括以下步骤:
步骤41)首先该网络会根据空间位置信息和时间步长初始化一个时空交互图,图中每个个体相邻的区域称为时空交互域;
步骤42)随着网络的推理运行会对于图中个体的交互域会预测出一个关系矩阵来代表交互关系,而且推理模块的输出特征包含了时空信息;在推理过程中,通过点积和归一化计算两个个体的关系,对于某个个体交互域中的全部个体关系进行更新,最后使用/>表示输出的特征。公式如下:
其中Rt,k表示个体关系,Xt表示时间特征,Wk表示权重参数矩阵,K是交互域的大小,σ表示ReLU激活函数,ri,j表示成对的个体关系,wi与wj为权重参数矩阵,与/>为个体特征,Ri,j表示个体关系,N代表个体数;
步骤43)通过全局时空池化得到初始群体特征表示。
本发明的进一步改进在于:所述步骤5)包括以下步骤:
步骤51)输入原始特征之前进行位置编码,将位置信息嵌入到输入序列中,边界框的中心点位置表示每个参与者的空间位置信息,并用PE函数对空间位置进行编码,公式如下;
其中,PE为二维矩阵,pos表示参与者的位置,D表示参与者的特征维度,i为向量维度,然后直接将位置编码与原始特征拼接表示输入;
步骤52)将包含位置信息的特征输入空间Transformer网络模块对个体的空间和外观特征进行建模,空间Transformer网络中每层有一个多头注意层和一个前馈层,对于其中一个注意头的计算公式如下:
Ys=Us+M*s
其中维度均是RD×D,在每个节点上应用一个共享三层前馈神经网络,改进基于学习节点特征的预测,等式M*s=X*s+Ms是残差连接,/>是三层权重矩阵,最后融合特征得到Ys,Ss表示动态空间依赖关系,Us代表空间特征,Ys表示最终的融合特征,Qs、Ks和Vs表示查询、键和值三个矩阵;
步骤5-3、将包含位置信息的特征做最大池化处理获得时序特征,然后输入时序Transformer网络模块完成时空信息的建模,时序Transformer网络由多层组成,每层有两个子层,一个多头注意层和一个前馈层,对于其中一个注意头的计算公式为:
X*t=Gt([XT,DT])∈RT×N×D
YT=UT+M*T
其中:X*t表示时序特征,Gt是一个1×1的卷积层,ST表示动态时序依赖关系,UT代表时序特征,YT表示最终的融合特征,QT、KT和VT表示查询、键和值三个矩阵,Gt卷积层在每个时间点生成D维向量,采用自注意力机制对时间依赖性进行建模;在时序Transformers的每一层中可以有效地获得长距离双向时间依赖性,在保持很高的计算效率的同时也很容易扩展到长序列;
步骤54)最后一层加入解码器增强群体行为表示,输入为推理网络输出的初始群体特征表示,融合输出结果实现对群体行为的预测,解码器遵循标准的Transformer解码器。
本发明的进一步改进在于:所述步骤6)包括:
将时空Transformer的输出与推理网络的输出做融合得到最终特征表示,个体损失和群体损失共同组成损失函数,其公式如下:
其中,L1和L2代表交叉熵损失函数,yg和ya代表群体行为和个体行为预测分数,和/>是代表不同的真实行为标签。
本发明的有益效果是:本发明首先获取一段不连续的排球比赛视频序列,对获取到的视频序列使用骨干网络VGG16进行特征提取,将提取的特征向量输入至推理网络推测初始单体交互特征以弥补丢失的特征信息,最终输入至基于自注意力机制的时空Transformer,实现对时空关系进行整体建模,使用该模型的群体行为识别能够联合提取参与者的时空信息,保证参与者时空信息的一致性,有效增强了排球比赛个体和群体表示,提高了缺帧环境下排球比赛中群体行为识别准确度。
具体来说:
(1)本发明对初始视频序列采用VGG网络完成特征提取,模型的最后一层的输出作为特征表示,并使用RoiAlign层根据输入的边框信息得到每张图中全部的个体特征。
(2)本发明运用推理网络模块对缺帧数据进行处理,推理网络将这些信息以及历史数据结合起来进行推理,对未来的群体行为进行预测。经过网络推理可以弥补丢失的特征信息,并且可以获得具有时空信息的个体交互特征和初始群体行为特征。
(3)本发明运用基于自注意力机制的时空Transformer实现对时空关系进行整体建模。把具有时空信息的特征作为空间Transformer与时序Transformer的输入,完成对时空依赖关系进行整体建模,以捕获个体的复杂交互关系。
附图说明
图1是本发明排球比赛群体行为识别方法流程图。
图2是本发明空间Transformer原理图。
具体实施方式
以下将以图式揭露本发明的实施方式,为明确说明起见,许多实务上的细节将在以下叙述中一并说明。然而,应了解到,这些实务上的细节不应用以限制本发明。也就是说,在本发明的部分实施方式中,这些实务上的细节是非必要的。
如图1-2所示,本发明是一种基于非局部步态特征的多目标跟踪与识别方法,包括以下步骤:
步骤一、输入一段不连续的排球比赛视频序列。
步骤二、对步骤一获取到的排球比赛视频序列使用VGG16网络提取特征,VGG16模型的最后一层的输出作为特征表示,可以作为全局特征。
步骤三、把个体边框信息和步骤二获取到的全局特征输入到RoiAlign网络模块,该模块会根据输入的边框信息得到每张图中全部的个体特征。
其中,RoiAlign网络模块提取图中个体特征具体包括以下步骤:
步骤31、输入图像和区域坐标,根据RoiAlign的大小和位置从卷积特征图中裁剪出相应的子区域;
步骤32、将RoiAlign子区域分成网格,并计算每个网格的位置,通过双线性插值在每个网格上计算出RoiAlign子区域内的像素值;
步骤33、将每个网格内的像素值作为RoiAlign子区域内相应位置的特征值,所有网格的特征值堆叠在一起,形成一个固定大小的特征映射;
步骤34、返回该特征映射并作为个体特征。
步骤四、将个体特征输入推理网络得到初始群体特征和细化后的个体时空交互特征,使用FC层进行特征映射,得到的结果称为原始特征。
其中,将个体特征输入推理网络得到初始群体特征和细化后的个体时空交互特征具体包括以下步骤:
步骤41、首先该网络会根据空间位置信息和时间步长初始化一个时空交互图,图中每个个体相邻的区域称为时空交互域;
步骤42、随着网络的推理运行会对于图中个体的交互域会预测出一个关系矩阵来代表交互关系,而且推理模块的输出特征包含了时空信息;在推理过程中,通过点积和归一化计算两个个体的关系,对于某个个体交互域中的全部个体关系进行更新,最后使用/>表示输出的特征。公式如下:
其中Rt,k表示个体关系,Xt表示时间特征,Wk表示权重参数矩阵,K是交互域的大小,σ表示ReLU激活函数,ri,j表示成对的个体关系,wi与wj为权重参数矩阵,与/>为个体特征,Ri,j表示个体关系,N代表个体数;
步骤43、通过全局时空池化得到初始群体特征表示。
步骤五、将提取的原始特征输入时空Transformer模块进行时空交互信息的建模,完成时空依赖关系的整体建模,具体包括以下步骤:
步骤51、输入原始特征之前进行位置编码,将位置信息嵌入到输入序列中,边界框的中心点位置表示每个参与者的空间位置信息,并用PE函数对空间位置进行编码,公式如下;
其中,PE为二维矩阵,pos表示参与者的位置,D表示参与者的特征维度,i为向量维度。然后直接将位置编码与原始特征拼接表示输入;
步骤52、将包含位置信息的特征输入空间Transformer网络模块对个体的空间和外观特征进行建模,空间Transformer网络中每层有一个多头注意层和一个前馈层,对于其中一个注意头的计算公式如下:
Ys=Us+M*s
其中维度均是RD×D,在每个节点上应用一个共享三层前馈神经网络,改进基于学习节点特征的预测,等式M*s=X*s+Ms是残差连接,/>是三层权重矩阵,最后融合特征得到Ys,Ss表示动态空间依赖关系,Us代表空间特征,Ys表示最终的融合特征,Qs、Ks和Vs表示查询、键和值三个矩阵;
步骤5-3、将包含位置信息的特征做最大池化处理获得时序特征,然后输入时序Transformer网络模块完成时空信息的建模,时序Transformer网络由多层组成,每层有两个子层,一个多头注意层和一个前馈层,对于其中一个注意头的计算公式为:
X*t=Gt([XT,DT])∈RT×N×D
YT=UT+M*T
其中:X*t表示时序特征,Gt是一个1×1的卷积层,ST表示动态时序依赖关系,UT代表时序特征,YT表示最终的融合特征,QT、KT和VT表示查询、键和值三个矩阵,Gt卷积层在每个时间点生成D维向量,采用自注意力机制对时间依赖性进行建模;在时序Transformers的每一层中可以有效地获得长距离双向时间依赖性,在保持很高的计算效率的同时也很容易扩展到长序列;
步骤54、最后一层加入解码器增强群体行为表示,输入为推理网络输出的初始群体特征表示,融合输出结果实现对群体行为的预测,解码器遵循标准的Transformer解码器。
步骤六、采用了残差连接将最后的输出特征和原始特征进行融合,使用群体分类层得到最后的识别结果,具体为:将时空Transformer的输出与推理网络的输出做融合得到最终特征表示,个体损失和群体损失共同组成损失函数,其公式如下:
其中,L1和L2代表交叉熵损失函数,yg和ya代表群体行为和个体行为预测分数,和/>是代表不同的真实行为标签。
本发明能够完成对时空依赖关系进行整体建模,降低缺少帧带来的影响,捕获个体的复杂交互关系,有效提高排球比赛群体行为识别能力。
以上所述仅为本发明的实施方式而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理的内所作的任何修改、等同替换、改进等,均应包括在本发明的权利要求范围之内。

Claims (5)

1.一种缺帧环境下融合时空信息的排球比赛群体行为识别方法,其特征在于:所述识别方法包括以下步骤:
步骤1、输入一段不连续的排球比赛视频序列;
步骤2、对步骤1获取到的排球比赛视频序列使用VGG16模型提取特征,所述VGG16模型的最后一层的输出作为特征表示,作为全局特征;
步骤3、对步骤2把个体边框信息和获取到的全局特征输入到RoiAlign网络模块,所述RoiAlign网络模块根据输入的个体边框信息得到每张图中全部的个体特征;
步骤4、将步骤3得到的个体特征输入推理网络得到初始群体特征和细化后的个体时空交互特征,使用全连接层(FC)进行特征映射,得到原始特征;
步骤5、对步骤4将提取的原始特征输入时空Transformer模块进行时空交互信息的建模,完成时空依赖关系的整体建模,得到输出特征;
步骤6、采用了残差连接将步骤5得出的输出特征和步骤4得出的原始特征进行融合,使用群体分类层得到最后的识别结果。
2.根据权利要求1所述的一种缺帧环境下融合时空信息的排球比赛群体行为识别方法,其特征在于:步骤3提取图中全部的个体特征具体包括以下步骤:
步骤3-1、输入图像和区域坐标,根据所述RoiAlign网络模块的大小和位置从卷积特征图中裁剪出相应的子区域;
步骤3-2、将步骤3-1裁剪出的子区域分成网格,并计算每个网格的位置,通过双线性插值在每个网格上计算出RoiAlign子区域内的像素值;
步骤3-3、将步骤3-2得到的每个网格内的像素值作为RoiAlign子区域内相应位置的特征值,所有网格的特征值堆叠在一起,形成一个特征映射;
步骤3-4、返回所述步骤3-3的特征映射并作为个体特征。
3.根据权利要求1所述的一种缺帧环境下融合时空信息的排球比赛群体行为识别方法,其特征在于:步骤4获取初始群体特征和细化后的个体时空交互特征包括以下步骤:
步骤4-1、首先所述推理网络根据空间位置信息和时间步长初始化一个时空交互图,图中每个个体相邻的区域称为时空交互域;
步骤4-2、随着所述推理网络的推理运行会对于图中个体的交互域预测出一个关系矩阵来代表交互关系,推理模块的输出特征包含了时空信息,在推理过程中,通过点积和归一化计算两个个体的关系,对于某个个体交互域中的全部个体关系进行更新,最后使用/>表示输出的特征,公式如下:
其中Rt,k表示个体关系,Xt表示时间特征,Wk表示权重参数矩阵,K是交互域的大小,σ表示ReLU激活函数,ri,j表示成对的个体关系,wi与wj为权重参数矩阵,与/>为个体特征,Ri,j表示个体关系,N代表个体数;
步骤4-3、通过全局时空池化得到初始群体特征表示。
4.根据权利要求1所述的一种缺帧环境下融合时空信息的排球比赛群体行为识别方法,其特征在于:所述步骤5包括以下步骤:
步骤5-1、输入原始特征之前进行位置编码,将位置信息嵌入到输入序列中,边界框的中心点位置表示每个参与者的空间位置信息,并用PE函数对空间位置进行编码,公式如下:
其中,PE为二维矩阵,pos表示参与者的位置,D表示参与者的特征维度,i为向量维度,然后直接将位置编码与原始特征拼接表示输入;
步骤5-2、将步骤5-1中包含位置信息的特征输入空间Transformer网络模块对个体的空间和外观特征进行建模,空间Transformer网络中每层有一个多头注意层和一个前馈层,对于其中一个注意头的计算公式如下:
Ms=SsVs
Ys=Us+M*s
其中维度均是RD×D,在每个节点上应用一个共享三层前馈神经网络,改进基于学习节点特征的预测,等式M*s=X*s+Ms是残差连接,/>是三层权重矩阵,最后融合特征得到Ys,Ss表示动态空间依赖关系,Us代表空间特征,Ys表示最终的融合特征,Qs、Ks和Vs表示查询、键和值三个矩阵;
步骤5-3、将包含位置信息的特征做最大池化处理获得时序特征,然后输入时序Transformer网络模块完成时空信息的建模,时序Transformer网络由多层组成,每层有两个子层,一个多头注意层和一个前馈层,对于其中一个注意头的计算公式为:
X*t=Gt([XT,DT])∈RT×N×D
MT=STVT
YT=UT+M*T
其中:X*t表示时序特征,Gt是一个1×1的卷积层,ST表示动态时序依赖关系,UT代表时序特征,YT表示最终的融合特征,QT、KT和VT表示查询、键和值三个矩阵,Gt卷积层在每个时间点生成D维向量,采用自注意力机制对时间依赖性进行建模;
步骤5-4、最后一层加入解码器增强群体行为表示,输入为推理网络输出的初始群体特征表示,融合输出结果实现对群体行为的预测,解码器遵循标准的Transformer解码器。
5.根据权利要求1所述的一种缺帧环境下融合时空信息的排球比赛群体行为识别方法,其特征在于:步骤6采用了残差连接将输出特征和原始特征进行融合,使用群体分类层得到最后的识别结果具体为:
将时空Transformer的输出与推理网络的输出做融合得到最终特征表示,个体损失和群体损失共同组成损失函数,其公式如下:
其中,L1和L2代表交叉熵损失函数,yg和ya代表群体行为和个体行为预测分数,和/>是代表不同的真实行为标签。
CN202310528875.8A 2023-05-11 2023-05-11 一种缺帧环境下融合时空信息的排球比赛群体行为识别方法 Pending CN116453025A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310528875.8A CN116453025A (zh) 2023-05-11 2023-05-11 一种缺帧环境下融合时空信息的排球比赛群体行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310528875.8A CN116453025A (zh) 2023-05-11 2023-05-11 一种缺帧环境下融合时空信息的排球比赛群体行为识别方法

Publications (1)

Publication Number Publication Date
CN116453025A true CN116453025A (zh) 2023-07-18

Family

ID=87130207

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310528875.8A Pending CN116453025A (zh) 2023-05-11 2023-05-11 一种缺帧环境下融合时空信息的排球比赛群体行为识别方法

Country Status (1)

Country Link
CN (1) CN116453025A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116895038A (zh) * 2023-09-11 2023-10-17 中移(苏州)软件技术有限公司 视频动作识别方法、装置、电子设备及可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116895038A (zh) * 2023-09-11 2023-10-17 中移(苏州)软件技术有限公司 视频动作识别方法、装置、电子设备及可读存储介质
CN116895038B (zh) * 2023-09-11 2024-01-26 中移(苏州)软件技术有限公司 视频动作识别方法、装置、电子设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN110135319B (zh) 一种异常行为检测方法及其系统
CN110119703B (zh) 一种安防场景下融合注意力机制和时空图卷积神经网络的人体动作识别方法
CN110263912B (zh) 一种基于多目标关联深度推理的图像问答方法
WO2021043168A1 (zh) 行人再识别网络的训练方法、行人再识别方法和装置
WO2021022521A1 (zh) 数据处理的方法、训练神经网络模型的方法及设备
CN114596520A (zh) 一种第一视角视频动作识别方法及装置
CN110728183A (zh) 一种基于注意力机制的神经网络的人体动作识别方法
WO2021073311A1 (zh) 图像识别方法、装置、计算机可读存储介质及芯片
US11495055B1 (en) Pedestrian trajectory prediction method and system based on multi-interaction spatiotemporal graph network
CN112991350A (zh) 一种基于模态差异缩减的rgb-t图像语义分割方法
CN111597929A (zh) 基于通道信息融合和组群关系空间结构化建模的组群行为识别方法
CN116309725A (zh) 基于多尺度可形变注意力机制的多目标跟踪方法
CN113128424A (zh) 基于注意力机制的图卷积神经网络动作识别方法
CN114581502A (zh) 基于单目图像的三维人体模型联合重建方法、电子设备及存储介质
CN114708665A (zh) 一种基于多流融合的骨骼图人体行为识别方法及系统
CN116258757A (zh) 一种基于多尺度交叉注意力的单目图像深度估计方法
CN116453025A (zh) 一种缺帧环境下融合时空信息的排球比赛群体行为识别方法
CN113935435A (zh) 基于时空特征融合的多模态情感识别方法
CN112906520A (zh) 一种基于姿态编码的动作识别方法及装置
CN116563355A (zh) 一种基于时空交互注意力机制的目标跟踪方法
CN112528077B (zh) 基于视频嵌入的视频人脸检索方法及系统
Jiang et al. Cross-level reinforced attention network for person re-identification
CN116246338B (zh) 一种基于图卷积和Transformer复合神经网络的行为识别方法
CN116543338A (zh) 一种基于注视目标估计的学生课堂行为检测方法
CN113780305B (zh) 一种基于两种线索交互的显著性目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination