CN113297936A - 一种基于局部图卷积网络的排球群体行为识别方法 - Google Patents

一种基于局部图卷积网络的排球群体行为识别方法 Download PDF

Info

Publication number
CN113297936A
CN113297936A CN202110531225.XA CN202110531225A CN113297936A CN 113297936 A CN113297936 A CN 113297936A CN 202110531225 A CN202110531225 A CN 202110531225A CN 113297936 A CN113297936 A CN 113297936A
Authority
CN
China
Prior art keywords
individual
graph
local
training
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110531225.XA
Other languages
English (en)
Other versions
CN113297936B (zh
Inventor
毋立芳
王�琦
郎相龙
相叶
简萌
石戈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202110531225.XA priority Critical patent/CN113297936B/zh
Publication of CN113297936A publication Critical patent/CN113297936A/zh
Application granted granted Critical
Publication of CN113297936B publication Critical patent/CN113297936B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

一种基于局部图卷积网络的排球群体行为识别方法,涉及智能媒体计算和计算机视觉领域;首先对训练视频样本进行时域稀疏采样,对采样出的视频帧使用卷积神经网络提取全图特征图,并利用RoI Align根据图像中的个体候选框的位置提取个体视觉特征图;其次建立个体自连接图模型和个体间连接图模型,并以图卷积网络对图模型中的个体局部特征进行交互信息的传递得到关系特征图,并将其与个体视觉特征图进行融合;将训练样本进行预处理后传入网络中,利用损失函数和优化器对模型的参数进行迭代更新直至达到收敛,完成训练;最后将测试数据送入网络中,得到模型对测试数据的预测结果以及分类准确率。本发明有助于提升群体行为识别算法的性能。

Description

一种基于局部图卷积网络的排球群体行为识别方法
技术领域
本发明属于计算机视觉群体行为识别领域,具体涉及一种基于局部图卷积网络的排球群体行为识别方法。
背景技术
随着互联网技术的飞速发展,视频数据的数量迎来爆炸式增长。大部分视频的主体都是人,实际场景中的视频往往包括多人,群体行为识别任务是使计算机能够自动分析多人场景视频中发生的行为,不仅需要描述每个个体在场景中的个体行为,还需要推断他们的群体行为。群体行为识别在体育视频分析、监控视频分析、社交视频理解以及视频检索等方面有广泛的应用。因此,群体行为识别成为了最近的研究热点之一。
早期的群体行为识别方法主要利用方向直方图HOG、尺度不变特征变换SIFT等手工设计的描述子来对个体以及场景信息进行描述,但是这样的低级图像特征难以很好的表达个体特征以及挖掘出个体之间复杂的关系表示,因此并没有取得很好的行为识别效果。近年来,随着深度卷积网络在图像分类、语义分割和目标检测等计算机视觉领域获得了巨大的成功,很多研究者开始尝试使用深度网络来处理视频行为识别问题。2018年,Qi等人使用个体行为的词语标签和视觉信息建立语义图,利用Structural-RNN来融合个体时域上下文信息。Wang等人在2018年提出一种非局部神经网络,利用非局部操作来捕获长距离依赖关系,在行为识别领域取得了很好的效果。Wu等人在2019年提出一种基于图卷积网络的群体行为识别方法,将个体作为图的结点,利用视觉和位置关系进行边的构建,利用图卷积来推理个体间关系。2020年,Gavrilyuk等人使用Transformer模型来探究个体之间的交互关系信息,利用Self-Attention机制自适应地提取对于群体行为重要的信息,进一步提高了群体行为识别的准确率。
上述的一些研究成果激发了我们的灵感。最近的一些群体行为识别方法大体可以总结为三个步骤:1)根据目标跟踪得到的轨迹提取每个个体在全连接层输出的特征向量作为个体视觉特征;2)根据个体视觉特征探究个体间的交互信息,得到每个个体的关系特征表示;3)融合个体特征信息为最终的群体行为特征,并进行分类。这样的一个方案是切实有效的,但是它忽略了人体局部区域这一更细层级的特征信息。现有的方法都是通过全连接层得到人体全局特征向量,这种方式会损失掉人体的局部细节特征,然而局部细节特征对于关系的建模以及识别个体行为和群体行为是很重要的,这也导致了其模型具有局限性、性能提升有限。在此基础上,我们设计了一种基于局部图卷积网络的群体行为识别方法,提取特征时保留个体的局部细节特征和空间模式,利用图卷积模型探究了个体局部区域间的交互关系,充分挖掘个体的交互上下文信息,使得群体行为识别准确率得到提升。
发明内容
本发明的目的是设计一种基于局部图卷积网络的群体行为识别方法,其框架图如图1所示。
针对现有研究方法存在的问题,我们在提取特征时不使用全连接层提取个体全局视觉特征,而是提取个体的深度特征图,保留个体特征的空间模式和局部区域的细节特征。通过嵌入空间点乘的计算方式进行建图,为了探究每个个体内各局部区域的交互信息,建立了个体自连接图;为了探究个体间的各局部区域的交互信息,建立了个体间连接图,利用图卷积模型在两种图上推理局部区域间的关系特征,并与原始视觉外观特征相结合,挖掘出丰富的高级语义特征,提高了群体行为识别的准确率。
本发明的具体步骤如下:
步骤1,提取个体局部特征:使用Inception-v3深度卷积神经网络来提取视频帧的特征图,使用RoI Algin根据输入的个体候选框位置提取个体视觉外观特征图。特征图上每一个位置的特征作为一个局部区域的特征。
步骤2,建立个体自连接图:以所有个体的所有局部区域特征集合作为图的节点集合,使用嵌入空间点乘的方式计算各节点之间边的权重,对得到的邻接矩阵施加个体自连接约束,令每个个体内各局部区域间存在相连的边,个体间的局部区域间不存在相连的边,建立个体自连接图。
步骤3,建立个体间连接图:个体间连接图的节点集合和边的权重计算方式与步骤2中建立个体自连接图的方式相同,区别在于对于邻接矩阵施加个体间连接约束,令每个个体间各局部区域存在相连的边,个体内的局部区域间不存在相连的边,建立个体间连接图。
步骤4,提取交互关系特征:在步骤2和步骤3中建立的个体自连接图和个体间连接图上进行图卷积运算来推理节点间的关系特征,通过最大池化运算来融合两种图输出的结果,完成关系特征图的提取。
步骤5,建立分类层:将深度卷积神经网络模型Inception-v3输出的原始视觉外观特征图和步骤4中得到的关系特征图相加进行融合,输入到全连接层输出个体分类特征进行个体行为的分类,将所有个体的分类特征通过最大池化计算得到群体特征进行群体行为的分类。
步骤6,训练模型:采用时域稀疏采样策略,在训练的时候将视频分为K个片段,然后从K个片段中各采样1帧,将K帧图像经过缩放进行预处理后,输入到网络模型中,网络同时处理K帧图像并将K帧的结果进行融合。使用Adam梯度下降方法进行优化,利用交叉熵函数评价模型性能并对模型参数进行学习。
步骤7,预测群体行为和个体行为:在测试的时候采用与步骤5相同的预处理方式,将视频帧输入到步骤4训练好的模型中,对每个视频帧预测个体行为和群体行为类别的得分,将所有帧的得分进行均匀池化来构成整段视频的预测得分。
本发明与现有技术相比较,具有如下显而易见的突出实质性特点和显著技术进步:
本发明提出了一种新型的基于局部图卷积网络的群体行为识别方法,针对现有方法无法建模更细粒度的局部区域间的关系特征,设计了个体自连接图和个体间连接图,分别探究个体内局部区域间的交互信息和个体间局部区域间的交互信息,在高级视觉特征的基础上增加了丰富的交互上下文特征,使得个体特征和群体特征表示更具判别力,获得更好的群体行为识别效果。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细的说明:
图1为训练基于本方法的群体行为识别卷积神经网络的架构图。
图2为基于本方法进行群体行为识别的整体流程图。
具体实施方式
本发明提出了一种基于局部图卷积网络的群体行为识别方法。本发明的整体结构如图1所示。本发明在Windows10和PyCharm环境下进行仿真。本发明的具体实现流程如图2所示,具体实现步骤如下:
步骤1,提取个体局部特征:使用Inception-v3深度卷积神经网络来提取视频帧的特征图,使用RoI Algin根据输入的个体候选框位置提取个体视觉外观特征图。特征图上每一个位置的特征作为一个局部区域的特征。
步骤2,建立个体自连接图:以所有个体的所有局部区域特征集合作为图的节点集合,使用嵌入空间点乘的方式计算各节点之间边的权重,对得到的邻接矩阵施加个体自连接约束,令每个个体内各局部区域间存在相连的边,个体间的局部区域间不存在相连的边,建立个体自连接图。
步骤3,建立个体间连接图:个体间连接图的节点集合和边的权重计算方式与步骤2中建立个体自连接图的方式相同,区别在于对于邻接矩阵施加个体间连接约束,令每个个体间各局部区域存在相连的边,个体内的局部区域间不存在相连的边,建立个体间连接图。
步骤4,提取交互关系特征:在步骤2和步骤3中建立的个体自连接图和个体间连接图上进行图卷积运算来推理节点间的关系特征,通过最大池化运算来融合两种图输出的结果,完成关系特征图的提取。
步骤5,建立分类层:将深度卷积神经网络模型Inception-v3输出的原始视觉外观特征图和步骤4中得到的关系特征图相加进行融合,输入到全连接层输出个体分类特征进行个体行为的分类,将所有个体的分类特征通过最大池化计算得到群体特征进行群体行为的分类。
步骤6,训练模型:采用时域稀疏采样策略,在训练的时候将视频分为K个片段,然后从K个片段中各采样1帧,将K帧图像经过缩放进行预处理后,输入到网络模型中,网络同时处理K帧图像并将K帧的结果进行融合。使用Adam梯度下降方法进行优化,利用交叉熵函数评价模型性能并对模型参数进行学习。
步骤7,预测群体行为和个体行为:在测试的时候采用与步骤5相同的预处理方式,将视频帧输入到步骤4训练好的模型中,对每个视频帧预测个体行为和群体行为类别的得分,将所有帧的得分进行均匀池化来构成整段视频的预测得分。
在所述步骤1中,设计了局部特征的提取方法:
本方法可以用于多人对抗类体育项目排球视频的群体行为识别,故在本实例中选取“Volleyball”公开数据集,该数据集收集于排球比赛的广播视频,具有数据规模大,个体间交互复杂的特点。
给出一帧图像和N个个体的候选框
Figure BDA0003067978890000051
其中n表示个体的索引,bn表示第n个个体候选框的坐标,使用Inception-v3卷积神经网络提取帧图像的特征图,并使用RoIAlign根据每个目标的候选框与特征图的对应关系,提取出每个个体大小为H×W,通道为D维的视觉外观特征图Fn,D是网络中最后一个卷积层的卷积核个数。将大小为H×W的特征图中的每一个位置作为一个局部区域,每个局部区域都是一个D维特征向量,这个局部区域可能包括人的特定部位、衣服或背景等。定义第n个个体的局部特征集合为
Figure BDA0003067978890000052
其中
Figure BDA0003067978890000053
表示第n个人的第m个局部区域的特征,M=H*W是局部区域的总个数。
在这一步骤中,可能存在个别图像帧中的个体数目不一致的现象,为此设计了补齐的方法,即在个体数目少于N的图像中,使用已有目标按照位置坐标从左到右顺序依次复制补齐,在Volleyball数据集中N为12。提取个体的特征图大小H=W=3,此参数的确定是通过实验不同的参数设置取获得最好结果时的参数设置。每个个体一共有M=9个局部区域,局部区域特征维度D=732,最终实现了每张图片中(H*W*N)×D维度的局部特征提取。
在所述步骤2中,设计了建立个体自连接图模型的方法:
在个体自连接图中,节点为所有个体的所有局部特征的集合
Figure BDA0003067978890000061
我们首先构建初始图
Figure BDA0003067978890000062
Figure BDA0003067978890000063
来表示局部特征间成对的关系,其中Gij表示在图中的第j个局部特征对于第i个局部特征的重要性。我们使用如下公式来计算Gij
Gij=ga(fi,fj)
Figure BDA0003067978890000064
其中fi是图G中的第i个局部特征,ga(fi,fj)表示两个局部特征间的视觉关系计算函数,其中θ(fi)=Wθfi+bθ和φ(fj)=Wφfj+bφ是两个不同的可学习的线性变换函数,
Figure BDA0003067978890000065
Figure BDA0003067978890000066
是权重矩阵,
Figure BDA0003067978890000067
Figure BDA0003067978890000068
是偏置向量,权重矩阵和偏置向量由随机初始化得到并在训练过程中根据损失函数进行训练、调整直到训练结束。
为了探究每个个体内不同局部特征之间的交互,我们设计了个体自连接约束
Figure BDA0003067978890000069
该约束是一个与邻接矩阵G大小相同的0-1二值掩膜,若局部区域i和局部区域j属于同一个体,则
Figure BDA00030679788900000610
反之则
Figure BDA00030679788900000611
之后对G加入约束Sself并利用softmax函数进行归一化,得到最终的个体自连接图,⊙表示Hadamard乘积:
Gself=softmax(G⊙Sself)
在这一步骤中,个体数目N=12,个体局部区域数目M=9,d=732表示每个局部区域的输入特征维度,dk=256表示经过线性变换函数后得到的嵌入特征维度。
在所述步骤3中,设计了建立个体间连接图模型的方法:
在这一步骤中,构建初始图G的方式与步骤2相同,为了探究个体间不同局部特征之间的交互,我们对初始图G施加个体间连接约束
Figure BDA0003067978890000071
该约束同样是一个与邻接矩阵G大小相同的0-1二值掩膜,若局部区域i和局部区域j不属于同一个体,则
Figure BDA0003067978890000072
反之则
Figure BDA0003067978890000073
之后对G加入约束Sinter并利用softmax函数进行归一化,得到最终的个体间连接图,⊙表示Hadamard乘积:
Ginter=softmax(G⊙Sinter)
在所述步骤4中,提取交互关系特征:
利用GCN模型提取关系特征。使用单层GCN结构,GCN的一层运算方式可以表达为如下公式,其中当前层k的输入特征X(k-1)为前一层的输出:
X(k)=σ(GX(k-1)W(k))
其中G是图的邻接矩阵,X(k-1)是第k-1层的节点特征表示,W(k)是对应层的学习权重矩阵,由随机初始化得到并在训练过程中根据损失函数进行训练、调整直到训练结束。σ(·)表示非线性激活函数ReLU函数,通过图卷积运算将邻域节点的特征进行聚合,更新当前节点特征。
这里对步骤2和步骤3建立的个体自连接图Gself和个体间连接图Ginter两种图结构分别经过GCN模型的计算,其输入X均为步骤1中得到的局部区域的原始视觉特征,并将两种图经过GCN运算的输出特征使用最大池化运算进行融合:
Rn=maxpool(σ(GselfXWself),σ(GinterXWinter))
最终在这一步骤中输出N个个体的关系特征图
Figure BDA0003067978890000074
其中
Figure BDA0003067978890000075
表示第n个人的第m个局部区域的关系特征,M是局部区域的个数,Wself和Winter是两个权重矩阵,由随机初始化得到并在训练过程中根据损失函数进行训练、调整直到训练结束。σ(·)表示非线性激活函数ReLU函数。M是局部区域的个数。其中个体数目N=12,个体局部区域个数M=9,特征维度D=732。
在所述步骤5中,建立分类层:
将步骤4最终得到的个体关系特征图Rn与步骤1得到的原始的个体视觉特征图Fn相加融合得到每个个体用于分类的特征图,并经过一层全连接层得到每个个体的1024维的分类特征向量表示,用于个体行为的分类,个体行为分类器为1024*9的全连接层,对应9类个体行为。将场景中所有N=12个个体的分类特征通过最大池化运算得到1024维的群体级特征向量,用于群体行为的分类,群体行为分类器为1024*8,对应8类群体行为。分类器输出每一类的分类得分,取最大得分所属位置的对应行为类别即为一帧图像输出的行为类别。
在所述步骤6中,通过数据预处理、数据输入、计算损失函数等操作实现模型的训练:
我们采用时域稀疏采样策略来融合时域上下文信息。在训练的时候我们将视频划分为K个片段,然后每个片段中均随机采样1帧,采样出的K帧作为一个训练样本,在本例中K=3。针对每一帧图像,我们将其放缩到1280*720大小,按固定大小为一批次,输入到网络模型中,在本实例中固定批次的大小设置为4。通过最后的分类层,得到每帧图像的预测得分,将每个训练样本的K帧图像结果进行平均作为训练样本的预测结果,并将预测结果与输入的训练集标签进行自动比对,统计正确样本数量占整体训练样本的比例记为训练集在此轮的准确率。同时在得到预测得分时,利用下文所示损失函数可以计算得到当前模型的损失值,损失值将反馈给优化器处理后进行反向传播更新模型中各个参数。
整个模型能够以端到端的方式进行训练,使用标准的交叉熵损失函数,最终的损失函数表示如下:
Figure BDA0003067978890000081
其中
Figure BDA0003067978890000091
Figure BDA0003067978890000092
是标准的交叉熵损失函数,yg和yi是群体行为和个体行为的真实标签,
Figure BDA0003067978890000093
Figure BDA0003067978890000094
是群体行为和个体行为的模型预测结果。第一项对应群体行为分类的损失,第二项对应个体行为分类的损失,λ1和λ2是两个损失项的各自权重来平衡两个任务,在本实例中λ1=λ2=1。
出于对收敛速度和收敛效果的考虑,本方法中的优化器选取Adam梯度下降方法作为优化方法。优化器的参数设置主要有指数衰减率β1、β2,模糊因子∈以及初始学习率,其中指数衰减率和模糊因子本例中推荐选取Adam梯度下降法中的默认值,β1=0.9,β2=0.999,∈=10-8,初始学习率一般为0.1、0.01、0.0001、0.00001等值中视模型收敛情况选取,本实例推荐取0.0001,由于固定学习率的设置不利于深度网络在训练后半程中寻找更好的参数,本方法在训练过程中增加固定轮次降低学习率的策略。其中降低的轮次推荐在每50轮降低2倍,总训练轮数建议在150-200轮。在本实例中对优化器进行了每50轮降低学习率的设置,并对模型参数进行200轮训练学习以保证训练效果的有效收敛,设置轮数过少可能还未收敛,轮数过多则会增加训练时间但不会提高效果。
在每两轮训练样本训练完成后,固定模型的参数并采用Volleyball数据集中的验证集数据进行验证。将一个视频的T帧关键帧视作一个测试样本,将T帧图像经放缩传入到网络模型中,本实例中放缩参数设置为1280*720,网络输出T帧图像的预测得分并取平均得到测试视频的预测得分,在本实例中T=10,将预测结果与样本的标签进行对比并统计正确样本所占比例即验证集准确率,如果当前轮数的验证集群体行为分类准确率比先前最高的验证集群体行为分类准确率要高就保存当前准确率为最高的验证集准确率,并保存当前轮数训练的模型。当所有轮次训练完毕后,最终保存的最高验证集准确率下的模型,即为训练好的最优模型。
在所述步骤7中,预测群体行为和个体行为类别:
将Volleyball数据集中的测试集数据或任意视频按同步骤6中验证集视频一样经稀疏采样以及固定大小放缩的预处理步骤后输入模型即可。本实例中固定大小放缩的参数设置为1280*720。经过模型处理,将个体行为分类器和群体行为分类器后的输出结果与样本的标签进行对比并统计正确样本所占比例即测试集的个体行为和群体行为准确率。输出结果得分最高的对应的行为类别即为该模型判断的行为类别。
在Volleyball数据集中的测试集经过本实例中的模型测试,准确率结果为92.7%,高于目前同样使用图卷积来进行关系建模的同类方法研究内容中的最好效果:发表在2019年计算机视觉领域顶级会议Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition上的Learning Actor Relation Graphs for Group Activity Recognition的92.5%,同时也高于2020年发表于高水平杂志IEEETRANSACTIONS ON MULTIMEDIA上的GAIM:Graph Attention Interaction Model for Collective Activity Recognition的92.1%。

Claims (7)

1.基于局部图卷积网络的排球群体行为识别方法,其特征在于,包含如下步骤:
步骤1,提取个体局部特征:使用Inception-v3深度卷积神经网络来提取视频帧的特征图,使用RoI Algin根据输入的个体候选框位置提取个体视觉外观特征图;特征图上每一个位置的特征作为一个局部区域的特征;
步骤2,建立个体自连接图:以所有个体的所有局部区域特征集合作为图的节点集合,使用嵌入空间点乘的方式计算各节点之间边的权重,对得到的邻接矩阵施加个体自连接约束,令每个个体内各局部区域间存在相连的边,个体间的局部区域间不存在相连的边,建立个体自连接图;
步骤3,建立个体间连接图:个体间连接图的节点集合和边的权重计算方式与步骤2中建立个体自连接图的方式相同,区别在于对于邻接矩阵施加个体间连接约束,令每个个体间各局部区域存在相连的边,个体内的局部区域间不存在相连的边,建立个体间连接图;
步骤4,提取交互关系特征:在步骤2和步骤3中建立的个体自连接图和个体间连接图上进行图卷积运算来推理节点间的关系特征,通过最大池化运算来融合两种图输出的结果,完成关系特征图的提取;
步骤5,建立分类层:将深度卷积神经网络模型Inception-v3输出的原始视觉外观特征图和步骤4中得到的关系特征图相加进行融合,输入到全连接层输出个体分类特征进行个体行为的分类,将所有个体的分类特征通过最大池化计算得到群体特征进行群体行为的分类;
步骤6,训练模型:采用时域稀疏采样策略,在训练的时候将视频分为K个片段,然后从K个片段中各采样1帧,将K帧图像经过缩放进行预处理后,输入到网络模型中,网络同时处理K帧图像并将K帧的结果进行融合;使用Adam梯度下降方法进行优化,利用交叉熵函数评价模型性能并对模型参数进行学习;
步骤7,预测群体行为和个体行为:在测试的时候采用与步骤5相同的预处理方式,将视频帧输入到步骤4训练好的模型中,对每个视频帧预测个体行为和群体行为类别的得分,将所有帧的得分进行均匀池化来构成整段视频的预测得分。
2.根据权利要求1所述的方法,其特征在于:在所述步骤1中,给出一帧图像和N个个体的候选框
Figure FDA0003067978880000021
其中n表示个体的索引,bn表示第n个个体候选框的坐标,使用Inception-v3卷积神经网络提取帧图像的特征图,并使用RoIAlign根据每个目标的候选框与特征图的对应关系,提取出每个个体大小为H×W,通道为D维的视觉外观特征图Fn,D是网络中最后一个卷积层的卷积核个数;将大小为H×W的特征图中的每一个位置作为一个局部区域,每个局部区域都是一个D维特征向量,这个局部区域可能包括人的特定部位、衣服或背景等;定义第n个个体的局部特征集合为
Figure FDA0003067978880000022
其中
Figure FDA0003067978880000023
表示第n个人的第m个局部区域的特征,M=H*W是局部区域的总个数。
3.根据权利要求1所述的方法,其特征在于:在所述步骤2中,建立了个体自连接图模型;在个体自连接图中,节点为所有个体的所有局部特征的集合
Figure FDA0003067978880000024
我们首先构建初始图
Figure FDA0003067978880000025
来表示局部特征间成对的关系,其中Gij表示在图中的第j个局部特征对于第i个局部特征的重要性;我们使用如下公式来计算Gij
Gij=ga(fi,fj)
Figure FDA0003067978880000026
其中fi是图G中的第i个局部特征,ga(fi,fj)表示两个局部特征间的视觉关系计算函数,其中θ(fi)=Wθfi+bθ和φ(fj)=Wφfj+bφ是两个不同的可学习的线性变换函数,
Figure FDA0003067978880000027
Figure FDA0003067978880000028
是权重矩阵,
Figure FDA0003067978880000029
Figure FDA00030679788800000210
是偏置向量,权重矩阵和偏置向量由随机初始化得到并在训练过程中根据损失函数进行训练、调整直到训练结束;
为了探究每个个体内不同局部特征之间的交互,我们设计了个体自连接约束
Figure FDA00030679788800000211
该约束是一个与邻接矩阵G大小相同的0-1二值掩膜,若局部区域i和局部区域j属于同一个体,则
Figure FDA0003067978880000031
反之则
Figure FDA0003067978880000032
之后对G加入约束Sself并利用softmax函数进行归一化,得到最终的个体自连接图,⊙表示Hadamard乘积:
Gself=softmax(G⊙Sself)。
4.根据权利要求1所述的方法,其特征在于:在所述步骤3中,建立个体间连接图模型;在这一步骤中,构建初始图G的方式与步骤2相同,为了探究个体间不同局部特征之间的交互,对初始图G施加个体间连接约束
Figure FDA0003067978880000033
该约束同样是一个与邻接矩阵G大小相同的0-1二值掩膜,若局部区域i和局部区域j不属于同一个体,则
Figure FDA0003067978880000034
反之则
Figure FDA0003067978880000035
之后对G加入约束Sinter并利用softmax函数进行归一化,得到最终的个体间连接图,⊙表示Hadamard乘积:
Ginter=softmax(G⊙Sinter)。
5.根据权利要求1所述的方法,其特征在于:在所述步骤4中,
利用GCN模型提取关系特征;使用单层GCN结构,GCN的一层运算方式表达为如下公式,其中当前层k的输入特征X(k-1)为前一层的输出:
X(k)=σ(GX(k-1)W(k))
其中G是图的邻接矩阵,X(k-1)是第k-1层的节点特征表示,W(k)是对应层的学习权重矩阵,由随机初始化得到并在训练过程中根据损失函数进行训练、调整直到训练结束;σ(·)表示非线性激活函数ReLU函数,通过图卷积运算将邻域节点的特征进行聚合,更新当前节点特征;
这里对步骤2和步骤3建立的个体自连接图Gself和个体间连接图Ginter两种图结构分别经过GCN模型的计算,其输入X均为步骤一中得到的局部区域的原始视觉特征,并将两种图经过GCN运算的输出特征使用最大池化运算进行融合:
Rn=maxpool(σ(GselfXWself),σ(GinterXWinter))
最终在这一步骤中输出N个个体的关系特征图
Figure FDA0003067978880000036
其中
Figure FDA0003067978880000037
表示第n个人的第m个局部区域的关系特征,M是局部区域的个数,Wself和Winter是两个权重矩阵,由随机初始化得到并在训练过程中根据损失函数进行训练、调整直到训练结束;σ(·)表示非线性激活函数ReLU函数。
6.根据权利要求1所述的方法,其特征在于:在所述步骤5中,建立分类层,进行最终的行为分类;将步骤4最终得到的个体关系特征图Rn与步骤1得到的原始的个体视觉特征图Fn相加融合得到每个个体最终的特征图,并经过一层全连接层得到每个个体的1024维的分类特征向量表示,用于个体行为的分类,个体行为分类器为1024*9的全连接层,对应9类个体行为;将场景中所有N=12个个体的分类特征通过最大池化运算得到1024维的群体级特征向量,用于群体行为的分类,群体行为分类器为1024*8,对应8类群体行为;分类器输出每一类的分类得分,取最大得分所属位置的对应行为类别即为一帧图像输出的行为类别。
7.根据权利要求1所述的方法,其特征在于:在所述步骤6中,
采用时域稀疏采样策略来融合时域上下文信息;在训练的时候我们将视频划分为K个片段,然后每个片段中均随机采样1帧,采样出的K帧作为一个训练样本,在本例中K=3;针对每一帧图像,我们将其放缩到1280*720大小,按固定大小为一批次,输入到网络模型中,在本实例中固定批次的大小设置为4;通过最后的分类层,得到每帧图像的预测得分,将每个训练样本的K帧图像结果进行平均作为训练样本的预测结果,并将预测结果与输入的训练集标签进行自动比对,统计正确样本数量占整体训练样本的比例记为训练集在此轮的准确率;同时在得到预测得分时,利用下文所示损失函数可以计算得到当前模型的损失值,损失值将反馈给优化器处理后进行反向传播更新模型中各个参数;
整个模型能够以端到端的方式进行训练,使用标准的交叉熵损失函数,最终的损失函数表示如下:
Figure FDA0003067978880000041
其中
Figure FDA0003067978880000042
Figure FDA0003067978880000043
是标准的交叉熵损失函数,yg和yi是群体行为和个体行为的真实标签,
Figure FDA0003067978880000044
Figure FDA0003067978880000045
是群体行为和个体行为的模型预测结果;第一项对应群体行为分类的损失,第二项对应个体行为分类的损失,λ1和λ2是平衡两个损失项的超参数,设置为λ1=λ2=1;
在训练过程中,以0.0001为初始学习率,学习率每50轮下降为当前学习率的二分之一,训练次数达到200以上后结束训练。
CN202110531225.XA 2021-05-17 2021-05-17 一种基于局部图卷积网络的排球群体行为识别方法 Active CN113297936B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110531225.XA CN113297936B (zh) 2021-05-17 2021-05-17 一种基于局部图卷积网络的排球群体行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110531225.XA CN113297936B (zh) 2021-05-17 2021-05-17 一种基于局部图卷积网络的排球群体行为识别方法

Publications (2)

Publication Number Publication Date
CN113297936A true CN113297936A (zh) 2021-08-24
CN113297936B CN113297936B (zh) 2024-05-28

Family

ID=77322238

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110531225.XA Active CN113297936B (zh) 2021-05-17 2021-05-17 一种基于局部图卷积网络的排球群体行为识别方法

Country Status (1)

Country Link
CN (1) CN113297936B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113743384A (zh) * 2021-11-05 2021-12-03 广州思德医疗科技有限公司 一种胃部图片识别方法及装置
CN113822188A (zh) * 2021-09-13 2021-12-21 合肥工业大学 一种时间因果诱导的斗殴行为的识别方法
CN114119977A (zh) * 2021-12-01 2022-03-01 昆明理工大学 一种基于图卷积的Transformer胃癌癌变区域图像分割方法
WO2024124957A1 (zh) * 2022-12-15 2024-06-20 中国计量科学研究院 针对智能感知系统的测试方法、系统、电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2018102037A4 (en) * 2018-12-09 2019-01-17 Ge, Jiahao Mr A method of recognition of vehicle type based on deep learning
CN111401174A (zh) * 2020-03-07 2020-07-10 北京工业大学 一种基于多模态信息融合的排球群体行为识别方法
CN111488815A (zh) * 2020-04-07 2020-08-04 中山大学 基于图卷积网络和长短时记忆网络的篮球比赛进球事件预测方法
CN111695460A (zh) * 2020-05-29 2020-09-22 天津师范大学 一种基于局部图卷积网络的行人再识别方法
CN112613552A (zh) * 2020-12-18 2021-04-06 北京工业大学 一种结合情感类别注意力损失的卷积神经网络情感图像分类方法
CN112712127A (zh) * 2021-01-07 2021-04-27 北京工业大学 一种结合图卷积神经网络的图像情感极性分类方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2018102037A4 (en) * 2018-12-09 2019-01-17 Ge, Jiahao Mr A method of recognition of vehicle type based on deep learning
CN111401174A (zh) * 2020-03-07 2020-07-10 北京工业大学 一种基于多模态信息融合的排球群体行为识别方法
CN111488815A (zh) * 2020-04-07 2020-08-04 中山大学 基于图卷积网络和长短时记忆网络的篮球比赛进球事件预测方法
CN111695460A (zh) * 2020-05-29 2020-09-22 天津师范大学 一种基于局部图卷积网络的行人再识别方法
CN112613552A (zh) * 2020-12-18 2021-04-06 北京工业大学 一种结合情感类别注意力损失的卷积神经网络情感图像分类方法
CN112712127A (zh) * 2021-01-07 2021-04-27 北京工业大学 一种结合图卷积神经网络的图像情感极性分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张聪聪;何宁;: "基于关键帧的双流卷积网络的人体动作识别方法", 南京信息工程大学学报(自然科学版), no. 06, 28 November 2019 (2019-11-28) *
李志欣;周韬;张灿龙;马慧芳;赵卫中;: "利用对抗网络改进多标记图像分类", 计算机辅助设计与图形学学报, no. 01, 15 January 2020 (2020-01-15) *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113822188A (zh) * 2021-09-13 2021-12-21 合肥工业大学 一种时间因果诱导的斗殴行为的识别方法
CN113822188B (zh) * 2021-09-13 2024-06-11 合肥工业大学 一种时间因果诱导的斗殴行为的识别方法
CN113743384A (zh) * 2021-11-05 2021-12-03 广州思德医疗科技有限公司 一种胃部图片识别方法及装置
CN113743384B (zh) * 2021-11-05 2022-04-05 广州思德医疗科技有限公司 一种胃部图片识别方法及装置
CN114119977A (zh) * 2021-12-01 2022-03-01 昆明理工大学 一种基于图卷积的Transformer胃癌癌变区域图像分割方法
WO2024124957A1 (zh) * 2022-12-15 2024-06-20 中国计量科学研究院 针对智能感知系统的测试方法、系统、电子设备

Also Published As

Publication number Publication date
CN113297936B (zh) 2024-05-28

Similar Documents

Publication Publication Date Title
CN109961034B (zh) 基于卷积门控循环神经单元的视频目标检测方法
Fu et al. Fast crowd density estimation with convolutional neural networks
CN110689086B (zh) 基于生成式对抗网络的半监督高分遥感图像场景分类方法
CN113378632B (zh) 一种基于伪标签优化的无监督域适应行人重识别方法
CN113297936B (zh) 一种基于局部图卷积网络的排球群体行为识别方法
CN110598598A (zh) 基于有限样本集的双流卷积神经网络人体行为识别方法
CN111582397B (zh) 一种基于注意力机制的cnn-rnn图像情感分析方法
CN109743642B (zh) 基于分层循环神经网络的视频摘要生成方法
Wen et al. Improving face recognition with domain adaptation
CN111414461A (zh) 一种融合知识库与用户建模的智能问答方法及系统
CN108427740B (zh) 一种基于深度度量学习的图像情感分类与检索算法
CN109033107A (zh) 图像检索方法和装置、计算机设备和存储介质
CN111639719A (zh) 基于时空运动和特征融合的足迹图像检索方法
WO2022062419A1 (zh) 基于非督导金字塔相似性学习的目标重识别方法及系统
CN114360067A (zh) 一种基于深度学习的动态手势识别方法
CN112712127A (zh) 一种结合图卷积神经网络的图像情感极性分类方法
CN112115849A (zh) 基于多粒度视频信息和注意力机制的视频场景识别方法
CN113920472A (zh) 一种基于注意力机制的无监督目标重识别方法及系统
CN113807176A (zh) 一种基于多知识融合的小样本视频行为识别方法
Wang et al. Basketball shooting angle calculation and analysis by deeply-learned vision model
CN115240024A (zh) 一种联合自监督学习和半监督学习的地外图片分割方法和系统
CN112183464A (zh) 基于深度神经网络和图卷积网络的视频行人识别方法
CN116206327A (zh) 一种基于在线知识蒸馏的图像分类方法
CN115203471A (zh) 一种基于注意力机制的多模融合视频推荐方法
Pang et al. Federated learning for crowd counting in smart surveillance systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant