CN113420628A - 一种群体行为识别方法、装置、计算机设备及存储介质 - Google Patents

一种群体行为识别方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN113420628A
CN113420628A CN202110667328.9A CN202110667328A CN113420628A CN 113420628 A CN113420628 A CN 113420628A CN 202110667328 A CN202110667328 A CN 202110667328A CN 113420628 A CN113420628 A CN 113420628A
Authority
CN
China
Prior art keywords
individual
group behavior
graph
network
individuals
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110667328.9A
Other languages
English (en)
Other versions
CN113420628B (zh
Inventor
李岩山
宗海琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Xinghai IoT Technology Co Ltd
Original Assignee
Shenzhen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen University filed Critical Shenzhen University
Priority to CN202110667328.9A priority Critical patent/CN113420628B/zh
Publication of CN113420628A publication Critical patent/CN113420628A/zh
Application granted granted Critical
Publication of CN113420628B publication Critical patent/CN113420628B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例属于视频分析技术领域,涉及一种基于图注意力网络的群体行为识别方法、装置、计算机设备及存储介质。此外,本申请还涉及区块链技术,用户的群体行为结果可存储于区块链中。本申请提出了基于图注意力网络的群体行为识别,此方法可以利用节点自身以及邻居节点的表达来计算自身的隐式表达,基于图注意力机制,网络能够学习群体中个体的隐性特征以及个体间的关系特征,通过赋予注意力系数的方式,逐渐将其他个体的影响施加到目标个体上,学习到个体间的相互影响力大小,进而有效提高群体识别的识别准确率;此外,群体行为识别的数据量往往较大,通过高效的图注意力网络可以极大程度提高识别速度。

Description

一种群体行为识别方法、装置、计算机设备及存储介质
技术领域
本申请涉及视频分析技术领域,尤其涉及一种基于图注意力网络的群体行为识别方法、装置、计算机设备及存储介质。
背景技术
行为识别作为计算机视觉的重要分支,被广泛地应用于视频内容分析领域,近年来受到广泛的关注。当前,大多数研究都主要关注单人行为识别,分析提取个体行为的时空特征并对单人行为做出预测。然而,很多情况下,我们需要分析群体行为,近年来,越来越多的研究者开始关注群体行为识别。通过从整体的角度出发识别群体行为,不仅可以提高个体行为预测的准确率,同时也能提高群体行为的预测能力。如何分析群体行为中个体之间的时间和空间上的相互关系是预测群体行为的一个关键问题。
现有一种群体行为识别方法,即基于根据深度two-stage时间模型将模型分为单人级别特征提取与群体级别特征提取。两个阶段都基于LSTM学习时间关系的优良特性,从而视线识别群体行为的目的。
然而,申请人发现传统的群体行为识别方法普遍不智能,由于上述的工作都忽略了个体之间的互动性,认为群体行为仅仅是个体行为的简单聚合,从而导致传统的群体行为识别方法存在识别准确率较低的问题。
发明内容
本申请实施例的目的在于提出一种基于图注意力网络的群体行为识别方法、装置、计算机设备及存储介质,以解决传统的群体行为识别方法存在识别准确率较低的问题。
为了解决上述技术问题,本申请实施例提供一种基于图注意力网络的群体行为识别方法,采用了如下所述的技术方案:
接收携带有原始视频数据的行为识别请求;
根据卷积网络对所述原始视频数据进行特征提取操作,得到初始个体特征;
根据图构建方法对所述初始个体特征进行图构建操作,得到邻接矩阵数据;
根据图注意力网络对所述初始个体特征以及所述邻接矩阵数据进行关系计算操作,得到各个个体在各个时间中的相互注意力系数;
对所述相互注意力系数以及所述邻接矩阵数据中邻居节点初始特征线性变化后的数据进行加权求和操作,并根据非线性激活函数获取所述各个个体的最终个体特征;
在所述各个时间中筛选最大值的所述最终个体特征,得到最值特征;
将所述最值特征输入至群体行为线性分类器进行预测操作,得到各个所述最值特征所对应的群体行为预测分数;
对所述群体行为预测分数进行平均计算,得到目标行为分数;
获取与所述目标行为分数相对应的群体行为结果。
为了解决上述技术问题,本申请实施例还提供一种基于图注意力网络的群体行为识别装置,采用了如下所述的技术方案:
请求接收模块,用于接收携带有原始视频数据的行为识别请求;
特征提取模块,用于根据卷积网络对所述原始视频数据进行特征提取操作,得到初始个体特征;
图构建模块,用于根据图构建方法对所述初始个体特征进行图构建操作,得到邻接矩阵数据;
关系计算模块,用于根据图注意力网络对所述初始个体特征以及所述邻接矩阵数据进行关系计算操作,得到各个个体在各个时间中的相互注意力系数;
加权求和模块,用于对所述相互注意力系数以及所述邻接矩阵数据中邻居节点初始特征线性变化后的数据进行加权求和操作,并根据非线性激活函数获取所述各个个体的最终个体特征;
筛选模块,在所述各个时间中筛选最大值的所述最终个体特征,得到最值特征;
行为预测模块,用于将所述最值特征输入至群体行为线性分类器进行预测操作,得到各个所述最值特征所对应的群体行为预测分数;
分数平均模块,用于对所述群体行为预测分数进行平均计算,得到目标行为分数;
结果获取模块,用于获取与所述目标行为分数相对应的群体行为结果。
为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述的技术方案:
包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如上所述的基于图注意力网络的群体行为识别方法的步骤。
为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如上所述的基于图注意力网络的群体行为识别方法的步骤。
与现有技术相比,本申请实施例主要有以下有益效果:
本申请提供了一种基于图注意力网络的群体行为识别方法,包括:接收携带有原始视频数据的行为识别请求;根据卷积网络对所述原始视频数据进行特征提取操作,得到初始个体特征;根据图构建方法对所述初始个体特征进行图构建操作,得到邻接矩阵数据;根据图注意力网络对所述初始个体特征以及所述邻接矩阵数据进行关系计算操作,得到各个个体在各个时间中的相互注意力系数;对所述相互注意力系数以及所述邻接矩阵数据中邻居节点初始特征线性变化后的数据进行加权求和操作,并根据非线性激活函数获取所述各个个体的最终个体特征;在所述各个时间中筛选最大值的所述最终个体特征,得到最值特征;将所述最值特征输入至群体行为线性分类器进行预测操作,得到各个所述最值特征所对应的群体行为预测分数;对所述群体行为预测分数进行平均计算,得到目标行为分数;获取与所述目标行为分数相对应的群体行为结果。本申请提出了基于图注意力网络的群体行为识别,此方法可以利用节点自身以及邻居节点的表达来计算自身的隐式表达,基于图注意力机制,网络能够学习群体中个体的隐性特征以及个体间的关系特征,通过赋予注意力系数的方式,逐渐将其他个体的影响施加到目标个体上,学习到个体间的相互影响力大小,进而有效提高群体识别的识别准确率;此外,群体行为识别的数据量往往较大,通过高效的图注意力网络可以极大程度提高识别速度。
附图说明
为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例一提供的基于图注意力网络的群体行为识别方法的实现流程图;
图2是本申请实施例一提供的注意力系数生成过程的实现流程图;
图3是图1中步骤S102的一种具体实施方式的流程图;
图4是本申请实施例一提供的初始个体特征提取过程的实现流程图;
图5是图1中步骤S103的一种具体实施方式的流程图;
图6是本申请实施例一提供的个体关系图构建的实现流程图;
图7是本申请实施例二提供的基于图注意力网络的群体行为识别装置的结构示意图:
图8是图7中特征提取模块120的结构示意图;
图9是根据本申请的计算机设备的一个实施例的结构示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为了使本技术领域的人员更好地理解本申请方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。
如图1所示,示出了本申请实施例一提供的基于图注意力网络的群体行为识别方法的实现流程图,为了便于说明,仅示出与本申请相关的部分。
上述的基于图注意力网络的群体行为识别方法,包括以下步骤:
在步骤S101中,接收携带有原始视频数据的行为识别请求。
在本申请实施例中,原始视频数据指的是包括多个个体组成的群体的行为视频内容。
在步骤S102中,根据卷积网络对原始视频数据进行特征提取操作,得到初始个体特征。
在本申请实施例中,群体行为是由随时间变化的图像序列所呈现,个体的表观特征应基于每一帧获取,为了探究群体行为中的个体间的时空关系特征,需要每一个单人在多帧中的特征。为了保证识别的效果,本工作使用卷积网络学习到的高维特征。
在本申请实施例中,特征提取操作可以是根据卷积网络提取原始视频数据中每帧图像的多尺度特征图;根据每个个体在每帧图像中的边界框在多尺度特征图中得到独立个体特征;根据全连接层将所有独立个体特征统一为初始个体特征。
在步骤S103中,根据图构建方法对初始个体特征进行图构建操作,得到邻接矩阵数据。
在本申请实施例中,图构建操作可以是获取不同的个体之间的位置关系和表观特征关系;根据位置关系和表观特征关系计算不同的个体之间相互关系;根据所有个体之间的相互关系进行建模操作,得到邻接矩阵数据。
在步骤S104中,根据图注意力网络对初始个体特征以及邻接矩阵数据进行关系计算操作,得到各个个体在各个时间中的相互注意力系数。
在本申请实施例中,图像场景中的群体行为经过特征提取与个体间图关系的构建后,图注意力网络可以将每个个体的特征作为节点数据,邻接矩阵作为图结构,最后,网络通过注意力机制学习到群体中个体间的互动关系,如图2所示,表示第j点对第1个节点的注意力系数的生成过程,其中,eij表示第j个人对第j个人的重要值,□表示串联操作,经过串联操作后形成维度为2F'的表示两人特征联合的关系特征。
Figure BDA0003117886630000061
是一个前馈神经网络的参数,前馈神经网络可以将串联后的特征映射为一个关系实数,LeakyReLU表示前馈神经网络的激活函数。此外,引入上节所得的节点之间的由邻接矩阵表示的图结构,只考虑节点的邻居节点对节点施加的影响。
在本申请实施例中,为了使单人节点之间的重要性具有更强的比较性,使用softmax函数对注意力系数进行归一化:
Figure BDA0003117886630000071
其中,k是节点i的邻居节点。
在本申请实施例中,,将注意力系数与邻居节点线性变换后的特征进行加权求和,使用非线性激活函数取得获得最终的输出特征,可用下式表示:
Figure BDA0003117886630000072
在本申请实施例中,为了能够学习到更加完整和稳定的特征,图注意力网络引入多头机制,为每一组单人之间的关系学习多个注意力系数,即使用多个图注意力层,将每个节点经过多头注意力层之后获得的输出特征进行平均,K为注意力系数的数量,计算过程可用如下公式表示:
Figure BDA0003117886630000073
在步骤S105中,对相互注意力系数以及邻接矩阵数据中邻居节点初始特征线性变化后的数据进行加权求和操作,并根据非线性激活函数获取各个个体的最终个体特征。
在步骤S106中,在各个时间中筛选最大值的最终个体特征,得到最值特征。
在本申请实施例中,图注意力网络的输出特征为所有时间上的所有单人的新特征pi,t,将特征pi′经过线性分类器获得其最终的预测分数,将不同时间上每个单人的预测分数进行平均计算,预测整个视频片段下的单人的最终行为。
在步骤S107中,将最值特征输入至群体行为线性分类器进行预测操作,得到各个最值特征所对应的群体行为预测分数。
在本申请实施例中,对于群体行为的预测而言,挑选出每个时间上最大的特征后,通过线性分类器获得群体行为的预测结果,在此基础上,对不同时间的预测分数进行平均计算,获得最终的群体行为预测结果。
利用交叉熵损失作为损失函数:
Figure BDA0003117886630000081
其中,y为行为真实的标签,
Figure BDA0003117886630000082
是网络预测的标签,G表示群体行为,I表示个人的行为。
在步骤S108中,对群体行为预测分数进行平均计算,得到目标行为分数。
在步骤S109中,获取与目标行为分数相对应的群体行为结果。
在本申请实施例中,提供了一种基于图注意力网络的群体行为识别方法,包括:接收携带有原始视频数据的行为识别请求;根据卷积网络对原始视频数据进行特征提取操作,得到初始个体特征;根据图构建方法对初始个体特征进行图构建操作,得到邻接矩阵数据;根据图注意力网络对初始个体特征以及邻接矩阵数据进行关系计算操作,得到各个个体在各个时间中的相互注意力系数;对相互注意力系数以及邻接矩阵数据中邻居节点初始特征线性变化后的数据进行加权求和操作,并根据非线性激活函数获取各个个体的最终个体特征;在各个时间中筛选最大值的最终个体特征,得到最值特征;将最值特征输入至群体行为线性分类器进行预测操作,得到各个最值特征所对应的群体行为预测分数;对群体行为预测分数进行平均计算,得到目标行为分数;获取与目标行为分数相对应的群体行为结果。本申请提出了基于图注意力网络的群体行为识别,此方法可以利用节点自身以及邻居节点的表达来计算自身的隐式表达,基于图注意力机制,网络能够学习群体中个体的隐性特征以及个体间的关系特征,通过赋予注意力系数的方式,逐渐将其他个体的影响施加到目标个体上,学习到个体间的相互影响力大小,进而有效提高群体识别的识别准确率;此外,群体行为识别的数据量往往较大,通过高效的图注意力网络可以极大程度提高识别速度。
继续参阅图3,示出了图1中步骤S102的一种具体实施方式的流程图,为了便于说明,仅示出与本申请相关的部分。
在本实施例的一些可选的实现方式中,步骤S102具体包括:
在步骤S301中,根据卷积网络提取原始视频数据中每帧图像的多尺度特征图。
在步骤S302中,根据每个个体在每帧图像中的边界框在多尺度特征图中得到独立个体特征。
在步骤S303中,根据全连接层将所有独立个体特征统一为初始个体特征。
在本申请实施例中,图4示出了初始个体特征提取过程的实现流程图,首先,本工作使用inception-v3卷积网络提取每帧图像的多尺度特征图,该特征图表示了整个场景的表观特征。然后,RoIAlign方法可以基于每个个体在场景中的边界框从多尺度特征图中获得独立个体的特征。最后,通过全连接层将所有个体的特征统一为d维的特征向量
Figure BDA0003117886630000093
经过特征提取后获得N个独立的个体特征,形成N×d特征矩阵,即上述初始个体特征。
在本实施例的一些可选的实现方式中,每帧图像为原始视频数据的3帧序列图像。
在本申请实施例中,因为表观信息在短时间内变化不大,为降低计算复杂度,本工作只需要视频序列中的3帧图像。
继续参阅图5,示出了图1中步骤S103的一种具体实施方式的流程图,为了便于说明,仅示出与本申请相关的部分。
在本实施例的一些可选的实现方式中,步骤S103具体包括:
在步骤S501中,获取不同的个体之间的位置关系和表观特征关系。
在步骤S502中,根据位置关系和表观特征关系计算不同的个体之间的相互关系。
在步骤S503中,根据所有个体之间的相互关系进行建模操作,得到邻接矩阵数据。
在本申请实施例中,通过深度网络提取的个体特征并不具有图结构,需要为群体行为构建以个体为节点的初始图网络。本文采用Wu所提出的图构建方法,如图6所示。
首先,将个体pi与pj的关系分为位置关系
Figure BDA0003117886630000091
和表观特征关系
Figure BDA0003117886630000092
两个个体之间的总的关系为:
Figure BDA0003117886630000101
其中,位置关系可由基于个体间中心坐标的欧式距离的位置掩码表示,μ作为超参数表示欧氏距离的阈值,Ⅱ是指标函数:
Figure BDA0003117886630000102
表观关系通过嵌入式点积表示:
Figure BDA0003117886630000103
其中
Figure BDA0003117886630000104
Figure BDA0003117886630000105
是可学习的线性变换函数。
通过对每个个体间的相互关系进行建模,可以获得大小为N×N的邻接矩阵。
需要强调的是,为进一步保证上述群体行为结果的私密和安全性,上述群体行为结果还可以存储于一区块链的节点中。
本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
本申请可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,该计算机可读指令可存储于一计算机可读取存储介质中,该计算机可读指令在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
实施例二
进一步参考图7,作为对上述图2所示方法的实现,本申请提供了一种基于图注意力网络的群体行为识别装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图7所示,本实施例的基于图注意力网络的群体行为识别装置100包括:请求接收模块110、特征提取模块120、图构建模块130、关系计算模块140、加权求和模块150、筛选模块160、行为预测模块170、分数平均模块180以及结果获取模块190。其中:
请求接收模块110,用于接收携带有原始视频数据的行为识别请求;
特征提取模块120,用于根据卷积网络对原始视频数据进行特征提取操作,得到初始个体特征;
图构建模块130,用于根据图构建方法对初始个体特征进行图构建操作,得到邻接矩阵数据;
关系计算模块140,用于根据图注意力网络对初始个体特征以及邻接矩阵数据进行关系计算操作,得到各个个体在各个时间中的相互注意力系数;
加权求和模块150,用于对相互注意力系数以及邻接矩阵数据中邻居节点初始特征线性变化后的数据进行加权求和操作,并根据非线性激活函数获取各个个体的最终个体特征;
筛选模块160,在各个时间中筛选最大值的最终个体特征,得到最值特征;
行为预测模块170,用于将最值特征输入至群体行为线性分类器进行预测操作,得到各个最值特征所对应的群体行为预测分数;
分数平均模块180,用于对群体行为预测分数进行平均计算,得到目标行为分数;
结果获取模块190,用于获取与目标行为分数相对应的群体行为结果。
在本申请实施例中,原始视频数据指的是包括多个个体组成的群体的行为视频内容。
在本申请实施例中,群体行为是由随时间变化的图像序列所呈现,个体的表观特征应基于每一帧获取,为了探究群体行为中的个体间的时空关系特征,需要每一个单人在多帧中的特征。为了保证识别的效果,本工作使用卷积网络学习到的高维特征。
在本申请实施例中,特征提取操作可以是根据卷积网络提取原始视频数据中每帧图像的多尺度特征图;根据每个个体在每帧图像中的边界框在多尺度特征图中得到独立个体特征;根据全连接层将所有独立个体特征统一为初始个体特征。
在本申请实施例中,图构建操作可以是获取不同的个体之间的位置关系和表观特征关系;根据位置关系和表观特征关系计算不同的个体之间相互关系;根据所有个体之间的相互关系进行建模操作,得到邻接矩阵数据。
在本申请实施例中,图像场景中的群体行为经过特征提取与个体间图关系的构建后,图注意力网络可以将每个个体的特征作为节点数据,邻接矩阵作为图结构,最后,网络通过注意力机制学习到群体中个体间的互动关系,如图2所示,表示第j点对第1个节点的注意力系数的生成过程,其中,eij表示第j个人对第j个人的重要值,□表示串联操作,经过串联操作后形成维度为2F'的表示两人特征联合的关系特征。
Figure BDA0003117886630000134
是一个前馈神经网络的参数,前馈神经网络可以将串联后的特征映射为一个关系实数,LeakyReLU表示前馈神经网络的激活函数。此外,引入上节所得的节点之间的由邻接矩阵表示的图结构,只考虑节点的邻居节点对节点施加的影响。
在本申请实施例中,为了使单人节点之间的重要性具有更强的比较性,使用softmax函数对注意力系数进行归一化:
Figure BDA0003117886630000131
其中,k是节点i的邻居节点。
在本申请实施例中,将注意力系数与邻居节点线性变换后的特征进行加权求和,使用非线性激活函数取得获得最终的输出特征,可用下式表示:
Figure BDA0003117886630000132
在本申请实施例中,为了能够学习到更加完整和稳定的特征,图注意力网络引入多头机制,为每一组单人之间的关系学习多个注意力系数,即使用多个图注意力层,将每个节点经过多头注意力层之后获得的输出特征进行平均,K为注意力系数的数量,计算过程可用如下公式表示:
Figure BDA0003117886630000133
在本申请实施例中,图注意力网络的输出特征为所有时间上的所有单人的新特征pi,t,将特征pi′经过线性分类器获得其最终的预测分数,将不同时间上每个单人的预测分数进行平均计算,预测整个视频片段下的单人的最终行为。
在本申请实施例中,对于群体行为的预测而言,挑选出每个时间上最大的特征后,通过线性分类器获得群体行为的预测结果,在此基础上,对不同时间的预测分数进行平均计算,获得最终的群体行为预测结果。
利用交叉熵损失作为损失函数:
Figure BDA0003117886630000141
其中,y为行为真实的标签,
Figure BDA0003117886630000142
是网络预测的标签,G表示群体行为,I表示个人的行为。
在本申请实施例中,提供了一种基于图注意力网络的群体行为识别装置,包括:请求接收模块110,用于接收携带有原始视频数据的行为识别请求;
特征提取模块120,用于根据卷积网络对原始视频数据进行特征提取操作,得到初始个体特征;图构建模块130,用于根据图构建方法对初始个体特征进行图构建操作,得到邻接矩阵数据;关系计算模块140,用于根据图注意力网络对初始个体特征以及邻接矩阵数据进行关系计算操作,得到各个个体在各个时间中的相互注意力系数;加权求和模块150,用于对相互注意力系数以及邻接矩阵数据中邻居节点初始特征线性变化后的数据进行加权求和操作,并根据非线性激活函数获取各个个体的最终个体特征;筛选模块160,在各个时间中筛选最大值的最终个体特征,得到最值特征;行为预测模块170,用于将最值特征输入至群体行为线性分类器进行预测操作,得到各个最值特征所对应的群体行为预测分数;分数平均模块180,用于对群体行为预测分数进行平均计算,得到目标行为分数;结果获取模块190,用于获取与目标行为分数相对应的群体行为结果。本申请提出了基于图注意力网络的群体行为识别,此方法可以利用节点自身以及邻居节点的表达来计算自身的隐式表达,基于图注意力机制,网络能够学习群体中个体的隐性特征以及个体间的关系特征,通过赋予注意力系数的方式,逐渐将其他个体的影响施加到目标个体上,学习到个体间的相互影响力大小,进而有效提高群体识别的识别准确率;此外,群体行为识别的数据量往往较大,通过高效的图注意力网络可以极大程度提高识别速度。
继续参阅图8,示出了本申请实施例二提供的图7中特征提取模块120的结构示意图,为了便于说明,仅示出与本申请相关的部分。
在本实施例的一些可选的实现方式中,上述特征提取模块120包括:特征图提取子模块121、个体特征获取子模块122以及特征提取统一子模块123。其中:
特征图提取子模块121,用于根据卷积网络提取原始视频数据中每帧图像的多尺度特征图;
个体特征获取子模块122,用于根据每个个体在每帧图像中的边界框在多尺度特征图中得到独立个体特征;
特征提取统一子模块123,用于根据全连接层将所有独立个体特征统一为初始个体特征。
在本申请实施例中,图4示出了初始个体特征提取过程的实现流程图,首先,本工作使用inception-v3卷积网络提取每帧图像的多尺度特征图,该特征图表示了整个场景的表观特征。然后,RoIAlign方法可以基于每个个体在场景中的边界框从多尺度特征图中获得独立个体的特征。最后,通过全连接层将所有个体的特征统一为d维的特征向量
Figure BDA0003117886630000151
经过特征提取后获得N个独立的个体特征,形成N×d特征矩阵,即上述初始个体特征。
在本实施例的一些可选的实现方式中,每帧图像为原始视频数据的3帧序列图像。
在本申请实施例中,因为表观信息在短时间内变化不大,为降低计算复杂度,本工作只需要视频序列中的3帧图像。
在本实施例的一些可选的实现方式中,图构建模块130包括:关系获取子模块、相互关系计算子模块以及图建模子模块。其中:
关系获取子模块,用于获取不同的个体之间的位置关系和表观特征关系;
相互关系计算子模块,用于根据位置关系和表观特征关系计算不同的个体之间相互关系;
图建模子模块,用于根据所有个体之间的相互关系进行建模操作,得到邻接矩阵数据。
在本申请实施例中,通过深度网络提取的个体特征并不具有图结构,需要为群体行为构建以个体为节点的初始图网络。本文采用Wu所提出的图构建方法,如图6所示。
首先,将个体pi与pj的关系分为位置关系
Figure BDA0003117886630000161
和表观特征关系
Figure BDA0003117886630000162
两个个体之间的总的关系为:
Figure BDA0003117886630000163
其中,位置关系可由基于个体间中心坐标的欧式距离的位置掩码表示,μ作为超参数表示欧氏距离的阈值,Ⅱ是指标函数:
Figure BDA0003117886630000164
表观关系通过嵌入式点积表示:
Figure BDA0003117886630000165
其中
Figure BDA0003117886630000166
Figure BDA0003117886630000167
是可学习的线性变换函数。
通过对每个个体间的相互关系进行建模,可以获得大小为N×N的邻接矩阵。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图9,图9为本实施例计算机设备基本结构框图。
所述计算机设备200包括通过系统总线相互通信连接存储器210、处理器220、网络接口230。需要指出的是,图中仅示出了具有组件210-230的计算机设备200,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器210至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器210可以是所述计算机设备200的内部存储单元,例如该计算机设备200的硬盘或内存。在另一些实施例中,所述存储器210也可以是所述计算机设备200的外部存储设备,例如该计算机设备200上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器210还可以既包括所述计算机设备200的内部存储单元也包括其外部存储设备。本实施例中,所述存储器210通常用于存储安装于所述计算机设备200的操作系统和各类应用软件,例如基于图注意力网络的群体行为识别方法的计算机可读指令等。此外,所述存储器210还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器220在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器220通常用于控制所述计算机设备200的总体操作。本实施例中,所述处理器220用于运行所述存储器210中存储的计算机可读指令或者处理数据,例如运行所述基于图注意力网络的群体行为识别方法的计算机可读指令。
所述网络接口230可包括无线网络接口或有线网络接口,该网络接口230通常用于在所述计算机设备200与其他电子设备之间建立通信连接。
本申请提供的计算机设备200,提出了基于图注意力网络的群体行为识别,此方法可以利用节点自身以及邻居节点的表达来计算自身的隐式表达,基于图注意力机制,网络能够学习群体中个体的隐性特征以及个体间的关系特征,通过赋予注意力系数的方式,逐渐将其他个体的影响施加到目标个体上,学习到个体间的相互影响力大小,进而有效提高群体识别的识别准确率;此外,群体行为识别的数据量往往较大,通过高效的图注意力网络可以极大程度提高识别速度。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令可被至少一个处理器执行,以使所述至少一个处理器执行如上述的基于图注意力网络的群体行为识别方法的步骤。
本申请提供的计算机可读存储介质,提出了基于图注意力网络的群体行为识别,此方法可以利用节点自身以及邻居节点的表达来计算自身的隐式表达,基于图注意力机制,网络能够学习群体中个体的隐性特征以及个体间的关系特征,通过赋予注意力系数的方式,逐渐将其他个体的影响施加到目标个体上,学习到个体间的相互影响力大小,进而有效提高群体识别的识别准确率;此外,群体行为识别的数据量往往较大,通过高效的图注意力网络可以极大程度提高识别速度。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。

Claims (10)

1.一种基于图注意力网络的群体行为识别方法,其特征在于,包括下述步骤:
接收携带有原始视频数据的行为识别请求;
根据卷积网络对所述原始视频数据进行特征提取操作,得到初始个体特征;
根据图构建方法对所述初始个体特征进行图构建操作,得到邻接矩阵数据;
根据图注意力网络对所述初始个体特征以及所述邻接矩阵数据进行关系计算操作,得到各个个体在各个时间中的相互注意力系数;
对所述相互注意力系数以及所述邻接矩阵数据中邻居节点初始特征线性变化后的数据进行加权求和操作,并根据非线性激活函数获取所述各个个体的最终个体特征;
在所述各个时间中筛选最大值的所述最终个体特征,得到最值特征;
将所述最值特征输入至群体行为线性分类器进行预测操作,得到各个所述最值特征所对应的群体行为预测分数;
对所述群体行为预测分数进行平均计算,得到目标行为分数;
获取与所述目标行为分数相对应的群体行为结果。
2.根据权利要求1所述的基于图注意力网络的群体行为识别方法,其特征在于,所述根据卷积网络对所述原始视频数据进行特征提取操作,得到初始个体特征的步骤,具体包括下述步骤:
根据所述卷积网络提取所述原始视频数据中每帧图像的多尺度特征图;
根据每个个体在所述每帧图像中的边界框在所述多尺度特征图中得到独立个体特征;
根据全连接层将所有所述独立个体特征统一为所述初始个体特征。
3.根据权利要求2所述的基于图注意力网络的群体行为识别方法,其特征在于,所述每帧图像为所述原始视频数据的3帧序列图像。
4.根据权利要求1所述的基于图注意力网络的群体行为识别方法,其特征在于,所述根据图构建方法对所述初始个体特征进行图构建操作,得到邻接矩阵数据的步骤,具体包括下述步骤:
获取不同的所述个体之间的位置关系和表观特征关系;
根据所述位置关系和表观特征关系计算不同的所述个体之间相互关系;
根据所有所述个体之间的所述相互关系进行建模操作,得到所述邻接矩阵数据。
5.根据权利要求4所述的基于图注意力网络的群体行为识别方法,其特征在于,所述位置关系表示为:
Figure FDA0003117886620000021
其中,pi表示第i个个体;pj表示第j个个体;μ作为超参数表示欧氏距离的阈值;Ⅱ表示指标函数;
所述表观特征关系根据嵌入式点积表示为:
Figure FDA0003117886620000022
其中,
Figure FDA0003117886620000023
Figure FDA0003117886620000024
是可学习的线性变换函数;
所述相互关系表示为:
Figure FDA0003117886620000025
6.根据权利要求5所述的基于图注意力网络的群体行为识别方法,其特征在于,在所述获取与所述目标行为分数相对应的群体行为结果的步骤之后还包括:
将所述群体行为结果存储至区块链中。
7.一种基于图注意力网络的群体行为识别装置,其特征在于,包括:
请求接收模块,用于接收携带有原始视频数据的行为识别请求;
特征提取模块,用于根据卷积网络对所述原始视频数据进行特征提取操作,得到初始个体特征;
图构建模块,用于根据图构建方法对所述初始个体特征进行图构建操作,得到邻接矩阵数据;
关系计算模块,用于根据图注意力网络对所述初始个体特征以及所述邻接矩阵数据进行关系计算操作,得到各个个体在各个时间中的相互注意力系数;
加权求和模块,用于对所述相互注意力系数以及所述邻接矩阵数据中邻居节点初始特征线性变化后的数据进行加权求和操作,并根据非线性激活函数获取所述各个个体的最终个体特征;
筛选模块,在所述各个时间中筛选最大值的所述最终个体特征,得到最值特征;
行为预测模块,用于将所述最值特征输入至群体行为线性分类器进行预测操作,得到各个所述最值特征所对应的群体行为预测分数;
分数平均模块,用于对所述群体行为预测分数进行平均计算,得到目标行为分数;
结果获取模块,用于获取与所述目标行为分数相对应的群体行为结果。
8.根据权利要求7所述的基于图注意力网络的群体行为识别装置,其特征在于,所述特征提取模块包括:
特征图提取子模块,用于根据所述卷积网络提取所述原始视频数据中每帧图像的多尺度特征图;
个体特征获取子模块,用于根据每个个体在所述每帧图像中的边界框在所述多尺度特征图中得到独立个体特征;
特征提取统一子模块,用于根据全连接层将所有所述独立个体特征统一为所述初始个体特征。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如权利要求1至6中任一项所述的基于图注意力网络的群体行为识别方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如权利要求1至6中任一项所述的基于图注意力网络的群体行为识别方法的步骤。
CN202110667328.9A 2021-06-16 2021-06-16 一种群体行为识别方法、装置、计算机设备及存储介质 Active CN113420628B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110667328.9A CN113420628B (zh) 2021-06-16 2021-06-16 一种群体行为识别方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110667328.9A CN113420628B (zh) 2021-06-16 2021-06-16 一种群体行为识别方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN113420628A true CN113420628A (zh) 2021-09-21
CN113420628B CN113420628B (zh) 2022-09-09

Family

ID=77788768

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110667328.9A Active CN113420628B (zh) 2021-06-16 2021-06-16 一种群体行为识别方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN113420628B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111310707A (zh) * 2020-02-28 2020-06-19 山东大学 基于骨骼的图注意力网络动作识别方法及系统
CN111681204A (zh) * 2020-04-30 2020-09-18 北京深睿博联科技有限责任公司 基于图神经网络的ct肋骨骨折病灶关系建模方法及装置
WO2021000674A1 (zh) * 2019-07-03 2021-01-07 平安科技(深圳)有限公司 细胞图片识别方法、系统、计算机设备及可读存储介质
CN112508085A (zh) * 2020-12-05 2021-03-16 西安电子科技大学 基于感知神经网络的社交网络链路预测方法
CN112818843A (zh) * 2021-01-29 2021-05-18 山东大学 基于通道注意力导向时间建模的视频行为识别方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021000674A1 (zh) * 2019-07-03 2021-01-07 平安科技(深圳)有限公司 细胞图片识别方法、系统、计算机设备及可读存储介质
CN111310707A (zh) * 2020-02-28 2020-06-19 山东大学 基于骨骼的图注意力网络动作识别方法及系统
CN111681204A (zh) * 2020-04-30 2020-09-18 北京深睿博联科技有限责任公司 基于图神经网络的ct肋骨骨折病灶关系建模方法及装置
CN112508085A (zh) * 2020-12-05 2021-03-16 西安电子科技大学 基于感知神经网络的社交网络链路预测方法
CN112818843A (zh) * 2021-01-29 2021-05-18 山东大学 基于通道注意力导向时间建模的视频行为识别方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DANFENG HONG ET AL: "Graph Convolutional Networks for Hyperspectral", 《IEEE》, 18 September 2020 (2020-09-18), pages 5966 - 5978 *
范楼苗: "基于图注意力网络的群组行为识别", 《中国硕士学位论文全文数据库》, 15 February 2021 (2021-02-15), pages 1 - 63 *

Also Published As

Publication number Publication date
CN113420628B (zh) 2022-09-09

Similar Documents

Publication Publication Date Title
CN110728209A (zh) 一种姿态识别方法、装置、电子设备及存储介质
CN112395979B (zh) 基于图像的健康状态识别方法、装置、设备及存储介质
CN111784528A (zh) 异常社群检测方法、装置、计算机设备及存储介质
CN113127633B (zh) 智能会议管理方法、装置、计算机设备及存储介质
CN112699297A (zh) 基于用户画像的服务推荐方法、装置、设备及存储介质
CN114550053A (zh) 一种交通事故定责方法、装置、计算机设备及存储介质
CN113343898B (zh) 基于知识蒸馏网络的口罩遮挡人脸识别方法、装置及设备
CN112560753A (zh) 基于特征融合的人脸识别方法、装置、设备及存储介质
CN112308237A (zh) 一种问答数据增强方法、装置、计算机设备及存储介质
CN112528029A (zh) 文本分类模型处理方法、装置、计算机设备及存储介质
CN110795714A (zh) 一种身份验证方法、装置、计算机设备及存储介质
CN112330331A (zh) 基于人脸识别的身份验证方法、装置、设备及存储介质
CN113254491A (zh) 一种信息推荐的方法、装置、计算机设备及存储介质
CN112733645A (zh) 手写签名校验方法、装置、计算机设备及存储介质
CN114282059A (zh) 视频检索的方法、装置、设备及存储介质
CN114359582A (zh) 一种基于神经网络的小样本特征提取方法及相关设备
CN114420107A (zh) 基于非自回归模型的语音识别方法及相关设备
CN115510186A (zh) 基于意图识别的即时问答方法、装置、设备及存储介质
CN110659997A (zh) 数据聚类识别方法、装置、计算机系统及可读存储介质
CN114677611A (zh) 数据识别方法、存储介质及设备
CN113420628B (zh) 一种群体行为识别方法、装置、计算机设备及存储介质
CN116416645A (zh) 基于双分支Transformer网络的属性与图像跨模态行人再辨识方法及装置
CN115273110A (zh) 基于TensorRT的文本识别模型部署方法、装置、设备及存储介质
CN115099875A (zh) 基于决策树模型的数据分类方法及相关设备
CN113988223A (zh) 证件图像识别方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230411

Address after: 518000 26-1, block C, World Trade Plaza, Fuhong Road, Futian street, Shenzhen City, Guangdong Province

Patentee after: SHENZHEN XINGHAI IOT TECHNOLOGY Co.,Ltd.

Address before: 518000 No. 3688 Nanhai Road, Shenzhen, Guangdong, Nanshan District

Patentee before: SHENZHEN University

TR01 Transfer of patent right