CN111598032B - 一种基于图神经网络的群体行为识别方法 - Google Patents
一种基于图神经网络的群体行为识别方法 Download PDFInfo
- Publication number
- CN111598032B CN111598032B CN202010437098.2A CN202010437098A CN111598032B CN 111598032 B CN111598032 B CN 111598032B CN 202010437098 A CN202010437098 A CN 202010437098A CN 111598032 B CN111598032 B CN 111598032B
- Authority
- CN
- China
- Prior art keywords
- graph
- node
- neural network
- virtual
- nodes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/44—Event detection
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于图神经网络的群体行为识别方法,方法包括以下步骤:特征提取,对单位时间内视频段的个体视觉特征进行提取,获取每个人的特征表达与整个场景特征表达;生成虚图,根据得到的每个人的特征表达与场景特征表达生成全连接的无向图,在无向图中引入虚节点,生成虚图;图神经网络更新,对虚图进行图神经网络更新;构建图神经网络,根据图神经网络层构建图神经网络模型;群体行为识别,将完整的虚图导入到图神经网络,对预测类标和真实类标进行误差计算。本发明定义了一种新型的基于虚节点的图神经网络,可以学习到视频中丰富的时间空间特征,从而帮助对视频中的群体行为进行准确的识别。
Description
技术领域
本发明属于计算机视觉领域,具体涉及一种基于图神经网络的群体行为识别方法。
背景技术
给定一段视频,智能识别系统需要对该段视频中所涉及的群体行为进行识别。这涉及对视频中的内容在空间上和时间上进行分析。
目前主要的识别方法是将视频片段输入一个三维卷积神经网络,由三维卷积神经网络在三维空间里进行特征提取,并直接输出对视频的识别结果。或者抽取视频中的多帧图片,对每帧图片都输入一个二维卷积神经网络,由二维卷积神经网络对每帧图片进行识别结果判别,并平均多个帧的识别结果作为最终结果。
一般的识别方法无论用的是二维卷积神经网络还是三维卷积神经网络,都存在一定的不足。对二维卷积神经网络来说,对帧进行特征提取,每次输入二维卷积网络只有一帧图像,所得到特征缺少时间维度的信息。三维卷积神经网络解决了二维卷积神经网络时间维度上的不足,但这种时间维度缺少在不同时刻上的信息交流。并且,两者都由于输入为整张图片或整个视频片段,因此是基于全局的特征,缺少对局部关键信息、各个局部信息之间互相影响、各个局部信息和整体信息互相影响的刻画,如人与人互动的信息和人与环境互动信息的刻画。
发明内容
本发明的主要目的在于克服现有技术的缺点与不足,提出一种基于图神经网络的群体行为识别方法;本发明定义了一种新型的基于虚节点的图神经网络,可以学习到视频中丰富的时间空间特征,从而帮助对视频中的群体行为进行准确的识别。
为了达到上述目的,本发明采用以下技术方案:
一种基于图神经网络的群体行为识别方法,包括以下步骤:
特征提取,对单位时间视频端的个体进行检测,并依据检测到个体的位置,在空间和时间上进行视频切片,然后将视频切片输入到三维残差卷积网络进行特征提取,获取每个个体的特征表达与整个场景特征表达;
生成虚图,根据得到的每个个体的特征表达与场景特征表达,将每个个体视为图的一个节点,计为实节点,将所有实节点两两相连,得到全连接的无向图,在无向图中引入虚节点,将虚节点与原图中的节点连接,形成虚图;
对多个图进行虚拟节点引入形成的虚图进行图神经网络的更新,更新后的图神经网络层具有充分的特征表达能力;
构建图神经网络,表达图神经网络层,根据图神经网络层的表达式构建图神经网络模型;
群体行为识别,将完整的虚图导入到图神经网络模型,进行非线性变换归一化处理,对预测类标和真实类标进行误差计算。
进一步的,所述特征提取具体为:
对于单位时间的视频段,随机采样图像并按时间顺序排列;
将最后一帧图像送进yolo-v3检测网络,得到多个包含个体的检测框;
对于每个个体的检测框,按照检测框的位置和大小,对随机抽取图片进行截取;
对每个截取的分割图,对其大小进行改变并将多张同个检测框的分割图按时间顺序叠加,得到图像块;
将图像块送入三维残差卷积神经网络进行特征提取,特征取残差网络最后一个池化层的输出,特征维度为512维。
进一步的,所述yolo-v3使用的是经过COCO数据库预训练的参数;所述三维残差卷积神经网络使用经过Kinetics预训练的34层三维残差卷积网络参数。
进一步的,所述生成虚图具体为:
根据得到的每个个体的特征表达与整体场景特征表达,将每个个体视为图的一个节点,将所有节点两两相连,得到全连接的无向图;
在得到的无向图中引入一个新节点,称其为虚拟节点,将原图中所有节点与虚拟节点连接,形成包含虚拟节点的子图;在此基础上,将多个子图中的虚拟节点两两连接,形成完整的虚图;则虚拟节点特征代表该图的整体特征,虚拟节点与原图节点的边的连接,代表了该图整体特征与局部特征之间的交互,将引入虚拟节点后的新图称为虚图,实节点与实节点之间的连接称为实连接,实节点与虚拟节点之间的连接称为虚连接,虚节点与虚节点之间的连接也称为虚连接。
进一步的,所述图神经网络更新具体为:
对所有节点特征进行一个线性变换,每个节点特征线性变换后得到的特征yi表示为:
yi=Θxi
其中Θ为一个所有节点共享的线性变换矩阵,xi为节点特征,Θ∈RF′xF,xi∈RF,yi∈RF′,R代表实数空间,其右上角上标为实数空间的维度,RF代表其为F维的实数空间,RF′代表其为F′维的实数空间,RF′xF代表其为F′xF维的实数空间;Θ是一个可学习的参数,由所有节点特征共享。
进一步的,所述节点的新特征由该节点特征和与其相邻节点特征的加权和表示,表示为:
其中N(i)代表与节点i相邻的所有节点的集合;αij为归一化的权重参数,αij满足∑j∈N(i)∪{i}αij=1,0<αij<1,当j与i相等时,αij则表示为αii,表示节点本身的加权系数;y′i为节点i经过信息传播后整合相邻节点的信息和自身信息的特征。
进一步的,所述图神经网络更新还包括下述步骤:
区分实节点和虚节点的作用,对αij做如下的区分:
当节点i和节点j相连且都是实节点时,节点i和节点j连接到同一个虚拟节点V(i,j);引入注意力机制对节点i和节点j之间的αij参数进行信息嵌入,将αij表示为特征yi、yj和yV(i,j)的函数,其表示如下:
αij=exp{LeakyReLU(aT[yi||yj||yV(i,j)])}
其中LeakyReLU是一种常见的神经网络激活函数,a∈R3F′,R3F′代表一个维度为3乘以F′的实数空间,该空间所有的元素为一个3乘以F′的向量,该向量的数值为实数;a是由所有节点共享的可学习的参数;||代表将两个向量拼接成一个向量;V(i,j)表示节点i和节点j连接到的同一虚拟节点;
当节点i和节点j相连且其中一个为虚拟节点时,通过节点i的特征yi和节点j的特征yj之间的向量相似性的大小来确定系数αij;当相似程度大时,系数取值大,当相似程度小,系数也相应取值小,用向量之间的内积来衡量这种相似性,此时αij表示如下:
当αij的所有取值确定时,对其进行归一化处理,得到归一化后的α′ij:
所述节点的特征的表示改为:
为了得到更高维度的空间,对y′i进行非线性变换:
x′i=ReLU(y′i)
x′i为图卷积层新的节点特征。
进一步的,所述构建图神经网络具体为:
构建图神经网络层,用如下公式表示:
其中Θ∈RF′xF,a∈R3F′为学习参数;βij为αij未进行归一化时的数值;
图神经网络层将虚图的节点特征集合X作为输入,将新的节点特征集合X′作为输出,将其抽象为:
X′=f(X)
将n个图神经网络层叠加,将当前层的输出作为下一层的输入,则图神经网络第L层表示为:
XL=fL(XL-1)
其中1≤L≤n,XL-1为第L层输入的节点特征集合;为表征整个图的特征,将最后一层图神经网络层输出的所有节点特征进行平均,作为该图的全局特征hgraph,表示如下:
其中N为图节点的个数,Xn为图神经网络第n层的节点特征集合。
进一步的,所述导入到图神经网络具体为:
将得到的完整的虚图导入到图神经网络,表示为:
hgraph=g(X)
其中函数g代表图神经网络,hgraph为图神经网络输出的全局特征;
非线性变换归一化处理,得到识别的群体行为类别的后验概率为:
p(y|hgraph)=φ(Wouthgraph)
其中,φ为softmax激活函数,Wout是可学习参数矩阵,其行数为群体行为类别数,y为群体行为类别的概率变量的向量表示;
在得到分类的后验概率后,利用交叉熵损失函数对预测类标和真实类标进行误差计算:
其中θ为模型需要学习的参数,n是群体行为类标的个数,yk为真实类标,yk为1则该视频片段属于第k类群体行为,为0则不属于;pk为所述群体行为类别后验概率p的第k个元素。
进一步的,当预测的结果与现实真实结果不一致时,L(θ)取值较大,从而在训练时对网络中的参数进行惩罚,最终使得预测的结果与真实事件类标更为接近。
本发明与现有技术相比,具有如下优点和有益效果:
1、本发明在每个时间单位引入代表该单位时间内整体信息的虚拟节点,通过不同时刻上多个虚拟节点之间的信息传递,每个虚拟节点与该时间单位的实际图节点之间的信息流动,每个单位时间内的实际图节点内部的信息交换这三种信息流动方式,使得该图神经网络在信息交互的过程中充分考虑到了个体和个体的交互,个体和整体环境的交互,整体环境在不同时间单位上的交互,使得视频特征得到充分的表达,让模型既能聚焦局部,又能兼顾整体,同时跨时间整合信息。本发明提出的模型能对视频进行良好的特征描述,从而实现对视频中群体行为进行准确识别。
2、本发明为捕捉视频中所有个体与个体之间关系的交互,个体与环境之间的交互,不同时间环境的信息交流,定义了新型的基于虚节点的图神经网络,从而获得一个更加完整的行为特征描述,进而有效地对群体行为进行识别。
3、本发明在对图神经网络进行更新时,对于实连接,引入注意力机制,注意力机制是一种被验证过得有效提升序列学习任务效果的一种方法。
4、对于虚连接,本发明通过内积充分考虑向量空间的相似性,从而对目标数据进行加权变换,有效地提高对信息的获取能力和筛选能力。
附图说明
图1是本发明的整体流程示意图;
图2是本发明单个图虚拟节点引入的示意图;
图3是本发明多个图虚拟节点引入的示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
本发明提出使用虚拟节点图神经网络对视频中的群体行为进行识别。为了捕捉视频中人与人之间的关系,人与环境之间的关系,不同时刻环境之间的关系,本发明利用虚拟节点图神经网络,对视频中人和环境特征的信息进行刻画。与一般的图神经网络不同,本发明在每个时间单位引入代表该单位时间内整体信息的虚拟节点,通过不同时刻上多个虚拟节点之间的信息传递,每个虚拟节点与该时间单位的实际图节点之间的信息流动,每个单位时间内的实际图节点内部的信息交换这三种信息流动方式,使得该图神经网络在信息交互的过程中充分考虑到了人和人的交互,人和整体环境的交互,整体环境在不同时间单位上的交互,使得视频特征得到充分的表达,既能聚焦局部,又能兼顾整体,同时跨时间整合信息。本发明能对视频进行良好的特征描述,从而实现对视频中群体行为进行准确识别。
实施例
如图1所示,本实施例中的个体以人为例进行说明,当然动物的群体行为识别也在本发明的保护范围之内,本发明提出的基于图神经网络的群体行为识别方法,包括以下步骤:
S1、特征提取;
对单位时间的视频,首先随机采样16帧RGB图像,并按时间顺序排列,随后,将随机采样到的最后一帧RGB图像送进yolo-v3检测网络,对每个人的位置进行检测,得到多个包含人的检测框;其中yolo-v3使用的是经过COCO数据库预训练的参数;
然后,对于每个人的检测框,按照检测框的位置和大小,对16帧随机抽取的图片都进行截取,得到16张检测框大小的分割图;对每个截取的分割图,将其大小转变为112x112x3,将16张同个检测框的分割图按时间顺序叠加,得到112x112x3x16图像块,送入三维残差卷积神经网络进行特征提取;其中三维残差卷积网络使用经过Kinetics预训练的34层三维残差卷积网络(3D-RetNet-34)参数;特征取残差网络最后一个池化层的输出,特征维度为512维;
通过对单位时间视频段中个体特征进行三维残差卷积网络的特征提取,得到了单位时视频中每个人的特征表达其中vp代表视频场景中的每个人;此外,将随机抽取到的16帧RGB图像,输入三维残差卷积神经网络,可以得到单位时间视频的整体场景特征表达xscene。
S2、生成虚图;
根据得到的每个人的特征表达与整体场景特征表达xscene,将每个人视为图的一个节点,其节点特征为xi。将所有节点两两相连,即可得到全连接的无向图。在全连接无向图中引入虚节点得到子图,将多个子图的虚拟节点两两连接得到完整的虚图。
对T个时间单位的视频片段进行生成无向连接图的操作并引入虚拟节点,得到T个子图,对T个子图进行虚连接,得到一个完整的虚图。
引入虚拟节点的操作具体如下。
如图2所示,单个图结构虚节点的引入具体为:
如图2左半部所示,单个图结构时,记图有N个节点,每个节点具有F维特征,由一个F维的向量表征,则节点特征集合可表示为X={x1,x2,...,xN},xi∈RF。记图所有边的集合为E={eij|i=1,2,...N,j=1,2,...,N,节点i,j有边相连}。当i=j时,代表节点i存在连向自己的边。此时,假设存在一个虚拟节点,该虚拟节点特征记为xN+1,将该节点加入原图并将原图中所有节点与这个虚拟节点连接,构成一个包含虚拟节点的新图,如图2右半部所示;则新图相对原图所增加的节点特征集合为Xadd={xN+1},新增加的边集合为Eadd={eij|i=1,2,...N,j=N+1,节点i,j有边相连}。一般而言,虚拟节点特征代表该图的整体特征,虚拟节点与原图节点的边的连接,代表了该图整体特征与局部特征之间的交互。将引入虚拟节点后的新图称为虚图,虚拟节点简称为虚节点,原图存在的节点称为实节点,实节点与实节点之间的连接称为实连接,实节点与虚拟节点之间的连接称为虚连接。
如图3所示,多个图结构虚拟节点的引入具体为:
如图3左半部所示,当存在多个图时,先将单个图按照上述单个图的情况引入虚拟节点。在此基础上,将多个图的虚拟节点两两进行连接,如图3右半部所示。同样的,虚节点与虚节点之间边的连接也称为虚连接。
S3、图神经网络更新;
对形成的虚图进行图神经网络层更新。同样的,我们记虚图有N个节点,这些节点既有实节点,又有虚节点。每个节点具有F维特征,由一个F维的向量表征,则节点特征集合可表示为X={x1,x2,...,xN},xi∈RF。记虚图所有边的集合为E={eij|i=1,2,...N,j=1,2,...,N,节点i,j有边相连}。当i=j时,代表节点i存在连向自己的边。
为了让图神经网络具有充分的特征表达能力,首先对所有节点特征进行一个线性变换。每个节点特征线性变换后得到的特征yi可表示为:
yi=Θxi(1)
其中Θ为一个所有节点共享的线性变换矩阵,Θ∈RF′xF,xi∈RF,yi∈RF′,R代表实数空间,其右上角上标为实数空间的维度,RF代表其为F维的实数空间,RF′代表其为F′维的实数空间,RF′xF代表其为F′xF维的实数空间;Θ是一个可学习的参数,由所有节点特征共享。
为了实现变换后的节点特征的信息传播,定义每个节点的新特征由该节点特征和与其相邻节点特征的加权和表示,可表示为:
其中N(i)代表与节点i相邻的所有节点的集合;αij为归一化的权重参数,其满足∑j∈N(i)U{i}αij=1,0<αij<1,当j与i相等时,αij则表示为αii,表示节点本身的加权系数。y′i为节点i经过信息传播后整合相邻节点的信息和自身信息的特征。由于αij控制着节点i和节点j之间交流的信息的多少,因此αij对图卷积层的表达能力有至关重要的作用。
为了正确挖掘网络的表达能力,同时区分实节点和虚节点的作用,对αij进行两方面的讨论:
当节点i和节j相连且都是实节点时,节点i和节点j虚连接到同一个虚节点V(i,j)。引入注意力机制对节点i和节点j之间的αij参数进行信息嵌入。注意力机制是一种被验证过的,能够有效提升序列学习任务效果的一种方法。将αij表示为特征yi、yj和yV(i,j)的函数,其表示如下:
αij=exp{LeakyReLU(aT[yi||yj||yV(i,j)])} (3)
当节点i,j相连且i,j均为实节点其中LeakyReLU是是一种常见的神经网络激活函数,a∈R3F′,R3F′代表一个维度为3乘以F′的实数空间,该空间所有的元素为一个3乘以F′的向量,该向量的数值为实数;a是由所有节点共享的可学习的参数,||代表将两个向量拼接成一个向量;V(i,j)表示节点i和节点j连接到的同一虚拟节点。该公式表明,节点i和节点j的之间的连接参数,不仅由节点i和节点j决定,同时还和节点i和j所同时归属的虚节点V(i,j)决定,当V(i,j)代表节点i和j所处的共同环境时,公式(3)表明节点系数是由相连节点和节点所处环境共同决定。
当节点i和节点j相连且其中一个为虚节点时,通过节点i的特征yi和节点j的特征yj之间的向量相似性的大小来确定系数αij;当相似程度大时,系数取值大,当相似程度小,系数也相应取值小,用向量之间的内积来衡量这种相似性,此时,αij表示为:
当节点i,j相连,且i、j其中一个为虚节点时当αij的所有取值确定时,对其进行归一化,得到归一化后的α′ij:
则公式(2)改为:
为了得到更高维度的空间,对y′i进行非线性变换:
x′i=ReLU(y′i) (7)
x′i为图卷积层新的节点特征。
S4、构建图神经网络;
综合公式(1)至公式(7),图神经网络层可用如下公式表示:
其中Θ∈RF′xF,a∈R3F′为可学习参数,βij为αij未进行归一化时的数值;
图神经网络层将虚图的节点特征集合X作为输入,将新的节点特征集合X′作为输出,可将其抽象为:
X′=f(X)
将n个图神经网络层叠加,将当前层的输出作为下一层的输入,则图神经网络第L层表示为:
XL=fL(XL-1)
其中1≤L≤n,XL-1为第L层输入的节点特征集合。
为了表征整个图的特征,将最后一层图神经网络层输出的所有节点特征进行平均,作为该图的全局特征hgraph,这个步骤称为全局平均,可用如下公式表示:
其中N为图节点的个数,Xn为图神经网络第n层的节点特征集合;在实现过程中,图神经网络的层数设为4。第一层输入的节点特征维度为512,输出的节点特征维度为512;第二层的输入的节点特征维度为512,输出节点特征为256;第三层输入的节点特征维度为256,输出节点特征为256;第四层输入的节点特征维度为256,输出节点特征维度为128。
S5、群体行为识别,具体操作如下:
将得到的虚图导入到图神经网络模型,其表示为:
hgraph=g(X)
其中函数g代表图神经网络,hgraph为图神经网络输出的全局特征。
对图神经网络模型进行非线性变换归一化处理,得到识别的群体行为类别的后验概率为:
p(y|hgraph)=φ(Wouthgraph)
其中,中为softmax激活函数,Wout是可学习参数矩阵,其行数为群体行为类别数,y为群体行为类别的概率变量的向量表示;
利用交叉熵损失函数对预测类标和真实类标进行误差计算:
其中θ模型需要学习的参数,n是群体行为类标的个数,yk为真实类标,yk为1则该视频片段属于第k类群体行为,为0则不属于;pk为所述群体行为类别后验概率p的第k个元素。因此当预测的结果与现实真实结果不一致时,L(θ)取值较大,从而在训练对网络中的参数进行惩罚,最终使得预测的结果与真实事件类标更为接近。本发明基于深度图神经网络,因此模型的参数由反向传播算法(Back PropagationThrough Time,BPTT)算法更新与优化。
还需要说明的是,在本说明书中,诸如术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其他实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (8)
1.一种基于图神经网络的群体行为识别方法,其特征在于,包括以下步骤:
特征提取,对单位时间视频端的个体进行检测,并依据检测到个体的位置,在空间和时间上进行视频切片,然后将视频切片输入到三维残差卷积网络进行特征提取,获取每个个体的特征表达与整个场景特征表达;
生成虚图,根据得到的每个个体的特征表达与场景特征表达,将每个个体视为图的一个节点,计为实节点,将所有实节点两两相连,得到全连接的无向图,在无向图中引入虚节点,将虚节点与原图中的节点连接,形成虚图;
对多个图进行虚拟节点引入形成的虚图进行图神经网络的更新,更新后的图神经网络层具有充分的特征表达能力;所述图神经网络的更新具体为:
对所有节点特征进行一个线性变换,每个节点特征线性变换后得到的特征yi表示为:
yi=Θxi
其中Θ为一个所有节点共享的线性变换矩阵,xi为节点特征,Θ∈RF′xF,xi∈RF,yi∈RF′,R代表实数空间,其右上角上标为实数空间的维度,RF代表其为F维的实数空间,RF′代表其为F′维的实数空间,RF′xF代表其为F′xF维的实数空间;Θ是一个可学习的参数,由所有节点特征共享;
构建图神经网络,表达图神经网络层,根据图神经网络层的表达式构建图神经网络模型;所述构建图神经网络具体为:
构建图神经网络层,用如下公式表示:
其中Θ∈RF′xF,a∈R3F′为学习参数;βij为αij未进行归一化时的数值;
图神经网络层将虚图的节点特征集合X作为输入,将新的节点特征集合X′作为输出,将其抽象为:
X′=f(X)
将n个图神经网络层叠加,将当前层的输出作为下一层的输入,则图神经网络第L层表示为:
XL=fL(XL-1)
其中1L≤n,XL-1为第L层输入的节点特征集合;为表征整个图的特征,将最后一层图神经网络层输出的所有节点特征进行平均,作为该图的全局特征hgraph,表示如下:
其中N为图节点的个数,Xn为图神经网络第n层的节点特征集合;
群体行为识别,将完整的虚图导入到图神经网络模型,进行非线性变换归一化处理,对预测类标和真实类标进行误差计算。
2.根据权利要求1所述的一种基于图神经网络的群体行为识别方法,其特征在于,所述特征提取具体为:
对于单位时间的视频段,随机采样图像并按时间顺序排列;
将最后一帧图像送进yolo-v3检测网络,得到多个包含个体的检测框;
对于每个个体的检测框,按照检测框的位置和大小,对随机抽取图片进行截取;
对每个截取的分割图,对其大小进行改变并将多张同个检测框的分割图按时间顺序叠加,得到图像块;
将图像块送入三维残差卷积神经网络进行特征提取,特征取残差网络最后一个池化层的输出,特征维度为512维。
3.根据权利要求2所述的一种基于图神经网络的群体行为识别方法,其特征在于,所述yolo-v3使用的是经过COCO数据库预训练的参数;所述三维残差卷积神经网络使用经过Kinetics预训练的34层三维残差卷积网络参数。
4.根据权利要求1所述的一种基于图神经网络的群体行为识别方法,其特征在于,所述生成虚图具体为:
根据得到的每个个体的特征表达与整体场景特征表达,将每个个体视为图的一个节点,将所有节点两两相连,得到全连接的无向图;
在得到的无向图中引入一个新节点,称其为虚拟节点,将原图中所有节点与虚拟节点连接,形成包含虚拟节点的子图;在此基础上,将多个子图中的虚拟节点两两连接,形成完整的虚图;则虚拟节点特征代表该图的整体特征,虚拟节点与原图节点的边的连接,代表了该图整体特征与局部特征之间的交互,将引入虚拟节点后的新图称为虚图,实节点与实节点之间的连接称为实连接,实节点与虚拟节点之间的连接称为虚连接,虚节点与虚节点之间的连接也称为虚连接。
6.根据权利要求5所述的一种基于图神经网络的群体行为识别方法,其特征在于,所述图神经网络更新还包括下述步骤:
区分实节点和虚节点的作用,对αij做如下的区分:
当节点i和节点j相连且都是实节点时,节点i和节点j连接到同一个虚拟节点V(i,j);引入注意力机制对节点i和节点j之间的αij参数进行信息嵌入,将αij表示为特征yi、yj和yV(i,j)的函数,其表示如下:
αij=exp{LeakyReLU(aT[yi||yj||yv(i,j)])}
其中LeakyReLU是一种常见的神经网络激活函数,a∈R3F′,R3F′代表一个维度为3乘以F′的实数空间,该空间所有的元素为一个3乘以F′的向量,该向量的数值为实数;a是由所有节点共享的可学习的参数;||代表将两个向量拼接成一个向量;V(i,j表示节点i和节点j连接到的同一虚拟节点;
当节点i和节点j相连且其中一个为虚拟节点时,通过节点i的特征yi和节点j的特征yj之间的向量相似性的大小来确定系数αij;当相似程度大时,系数取值大,当相似程度小,系数也相应取值小,用向量之间的内积来衡量这种相似性,此时αij表示如下:
当αij的所有取值确定时,对其进行归一化处理,得到归一化后的αi′j:
所述节点的特征的表示改为:
为了得到更高维度的空间,对yi′进行非线性变换:
xi′=ReLU(yi′)
xi′为图卷积层新的节点特征。
7.据权利要求1所述的一种基于图神经网络的群体行为识别方法,其特征在于,所述导入到图神经网络具体为:
将得到的完整的虚图导入到图神经网络,表示为:
hgraph=g(X)
其中函数g代表图神经网络,hgraph为图神经网络输出的全局特征;
非线性变换归一化处理,得到识别的群体行为类别的后验概率为:
p(y|hgraph)=φ(Wouthgraph)
其中,φ为softmax激活函数,Wout是可学习参数矩阵,其行数为群体行为类别数,y为群体行为类别的概率变量的向量表示;
在得到分类的后验概率后,利用交叉熵损失函数对预测类标和真实类标进行误差计算:
其中θ为模型需要学习的参数,n是群体行为类标的个数,yk为真实类标,yk为1则视频片段属于第k类群体行为,为0则不属于;pk为所述群体行为类别后验概率p的第k个元素。
8.据权利要求7所述的一种基于图神经网络的群体行为识别方法,其特征在于,当预测的结果与现实真实结果不一致时,L(θ)取值较大,从而在训练时对网络中的参数进行惩罚,最终使得预测的结果与真实事件类标更为接近。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010437098.2A CN111598032B (zh) | 2020-05-21 | 2020-05-21 | 一种基于图神经网络的群体行为识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010437098.2A CN111598032B (zh) | 2020-05-21 | 2020-05-21 | 一种基于图神经网络的群体行为识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111598032A CN111598032A (zh) | 2020-08-28 |
CN111598032B true CN111598032B (zh) | 2023-04-18 |
Family
ID=72192200
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010437098.2A Active CN111598032B (zh) | 2020-05-21 | 2020-05-21 | 一种基于图神经网络的群体行为识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111598032B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113006774B (zh) * | 2021-03-16 | 2022-05-17 | 西南石油大学 | 一种压裂施工中油压峰值的在线图神经网络预测方法 |
CN115708359A (zh) * | 2021-08-20 | 2023-02-21 | 小米科技(武汉)有限公司 | 视频片段的截取方法、装置及存储介质 |
CN116758010B (zh) * | 2023-05-24 | 2024-06-07 | 成都飞机工业(集团)有限责任公司 | 一种飞机蒙皮表面缺陷识别方法、系统、设备及介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109241834A (zh) * | 2018-07-27 | 2019-01-18 | 中山大学 | 一种基于隐变量的嵌入的群体行为识别方法 |
CN110175596A (zh) * | 2019-06-04 | 2019-08-27 | 重庆邮电大学 | 基于双流卷积神经网络的虚拟学习环境微表情识别与交互方法 |
-
2020
- 2020-05-21 CN CN202010437098.2A patent/CN111598032B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109241834A (zh) * | 2018-07-27 | 2019-01-18 | 中山大学 | 一种基于隐变量的嵌入的群体行为识别方法 |
CN110175596A (zh) * | 2019-06-04 | 2019-08-27 | 重庆邮电大学 | 基于双流卷积神经网络的虚拟学习环境微表情识别与交互方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111598032A (zh) | 2020-08-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | SaliencyGAN: Deep learning semisupervised salient object detection in the fog of IoT | |
CN107704877B (zh) | 一种基于深度学习的图像隐私感知方法 | |
CN111598032B (zh) | 一种基于图神经网络的群体行为识别方法 | |
CN109886121B (zh) | 一种遮挡鲁棒的人脸关键点定位方法 | |
CN108921051B (zh) | 基于循环神经网络注意力模型的行人属性识别网络及技术 | |
CN110728209A (zh) | 一种姿态识别方法、装置、电子设备及存储介质 | |
CN113642634A (zh) | 一种基于混合注意力的阴影检测方法 | |
CN109033107A (zh) | 图像检索方法和装置、计算机设备和存储介质 | |
CN108573499A (zh) | 一种基于尺度自适应和遮挡检测的视觉目标跟踪方法 | |
CN112257741B (zh) | 一种基于复数神经网络的生成性对抗虚假图片的检测方法 | |
CN105574848A (zh) | 用于对象的自动分割的方法和装置 | |
CN114119803B (zh) | 一种基于因果图谱的场景图像生成方法 | |
CN112507920B (zh) | 一种基于时间位移和注意力机制的考试异常行为识别方法 | |
CN110348434A (zh) | 相机来源鉴别方法、系统、存储介质和计算设备 | |
Zhang et al. | Tensor graph convolutional neural network | |
CN112329771A (zh) | 一种基于深度学习的建筑材料样本识别方法 | |
CN115861246A (zh) | 应用于工业互联网的产品质量异常检测方法及其系统 | |
He et al. | Patch tracking-based streaming tensor ring completion for visual data recovery | |
CN115761888A (zh) | 基于nl-c3d模型的塔吊操作人员异常行为检测方法 | |
CN114187506A (zh) | 视点意识的动态路由胶囊网络的遥感图像场景分类方法 | |
CN111444957B (zh) | 图像数据处理方法、装置、计算机设备和存储介质 | |
CN116306780B (zh) | 一种动态图链接生成方法 | |
Zhang et al. | Skeleton-based action recognition with attention and temporal graph convolutional network | |
CN115620342A (zh) | 跨模态行人重识别方法、系统及计算机 | |
Miao et al. | Robust monocular 3D car shape estimation from 2D landmarks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |