CN112052816B - 基于自适应图卷积对抗网络的人体行为预测方法及系统 - Google Patents
基于自适应图卷积对抗网络的人体行为预测方法及系统 Download PDFInfo
- Publication number
- CN112052816B CN112052816B CN202010966572.0A CN202010966572A CN112052816B CN 112052816 B CN112052816 B CN 112052816B CN 202010966572 A CN202010966572 A CN 202010966572A CN 112052816 B CN112052816 B CN 112052816B
- Authority
- CN
- China
- Prior art keywords
- network
- agcn
- classifier
- action
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
- G06V20/42—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本公开提出了基于自适应图卷积对抗网络的人体行为预测方法及系统,方法包括如下步骤:获取人体行为动作序列,并按照不同的观测比进行分割;将分割后的动作序列输入至训练好的AGCN‑AL网络和局部网络分别进行行为预测;将局部网络与AGCN‑AL网络的预测结果融合,作为最终的行为预测结果;所述AGCN‑AL网络包括设置有图自适应图卷积网络模块的特征提取网络,以及分别与特征提取网络连接的鉴别器和分类器,局部网络包括依次连接的特征提取网络和分类器。本公开针对人体骨架数据,融合自适应图卷积对抗网络AGCN‑AL以及自适应图卷积对抗网络AGCN‑AL的局部网络,实现全局信息和局部信息的预测结果融合,提高了人体行为预测的准确性。
Description
技术领域
本公开涉及图像处理相关技术领域,具体的说,是涉及基于自适应图卷积对抗网络的人体行为预测方法及系统。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,并不必然构成在先技术。
行为预测的目的是在动作结束前对其进行识别。行为预测在实际的生产生活中存在着广泛的应用前景,例如在安防监控和医疗监护等监控场景中可以尽早发现并预防危险事件的发生,提高监控的智能等级。行为预测还可应用于辅助驾驶、自动驾驶、人机协作等领域,不但可以对危险事件进行预警,还可以使机器能够快速地响应人类指令,理解人的意图,改善用户体验,提高工作效率。行为预测可以看作是动作识别任务的延伸,但相比于动作识别,行为预测因为无法观测到完整的动作执行过程而无疑更具挑战性。
相关研究表明,骨架数据所包含的信息足以判断人类行为。随着MicrosoftKinect、Asus Xtion等深度传感器技术的进步,可以很容易地获取人类的三维骨架信息,而且成本在不断下降,精度在不断提高。另外,人体姿态估计算法也在快速发展,比如OpenPose、AlphaPose等算法可以快速、准确地从RGB数据中估计出多人的骨架、手势、面部等数据。这些算法的发展使得基于人体骨架的行为分析得以应用于普通监控系统中,在不更换硬件设备的前提下大大增加了其应用场景。而且,相对于RGB数据,骨架数据的数据维度小,不受光照、背景、人物服饰等因素的影响,抗干扰能力强,鲁棒性强。因此,基于人体骨架的动作分析具有巨大的优势。
发明人发现,现有的基于人体骨架的行为预测的相关算法较少,基于骨架数据的行为预测的现有方法要么预测的效果较差,要么网络结构复杂,不利于实际应用。
发明内容
本公开为了解决上述问题,提出了基于自适应图卷积对抗网络的人体行为预测方法及系统,针对人体骨架数据,融合自适应图卷积对抗网络AGCN-AL以及自适应图卷积对抗网络AGCN-AL的局部网络,实现全局信息和局部信息的预测结果融合,提高了人体行为预测的准确性。
为了实现上述目的,本公开采用如下技术方案:
一个或多个实施例提供了基于自适应图卷积对抗网络的人体行为预测方法,包括如下步骤:
获取人体行为动作序列,并按照不同的观测比进行分割;
将分割后的动作序列输入至训练好的AGCN-AL网络和局部网络分别进行行为预测;
将局部网络与AGCN-AL网络的预测结果融合,作为最终的行为预测结果;
所述AGCN-AL网络包括设置有图自适应图卷积网络模块的特征提取网络,以及分别与特征提取网络连接的鉴别器和分类器,局部网络包括依次连接的特征提取网络和分类器。
一个或多个实施例提供了基于自适应图卷积对抗网络的人体行为预测系统,包括:
获取模块:被配置为用于获取人体行为动作序列,并按照不同的观测比进行分割;
预测模块:被配置为用于将分割后的动作序列输入至训练好的AGCN-AL网络和局部网络分别进行行为预测;
融合模块:被配置为用于将局部网络与AGCN-AL网络的预测结果融合,作为最终的行为预测结果;
所述AGCN-AL网络包括设置有图自适应图卷积网络模块的特征提取网络,以及分别与特征提取网络连接的鉴别器和分类器,局部网络包括依次连接的特征提取网络和分类器。
一个或多个实施例提供了一种计算机可读存储介质,其特征是,用于存储计算机指令,所述计算机指令被处理器执行时,完成上述方法所述的步骤。
与现有技术相比,本公开的有益效果为:
(1)本公开基于对抗式学习的思想提出了AGCN-AL网络架构,聚焦于动作执行过程中的早期阶段,学习当前所观察到的部分动作序列中潜在的长期全局信息,从而提高行为预测的效果。
(2)本公开提出了与时间相关的损失函数,防止网络对小观测比的部分序列过度拟合,影响大观测比的部分动作序列的预测效果。
(3)本公开的预测使用局部网络与AGCN-AL行为预测网络组合成双流架构,将局部信息与潜在的全局信息互补,进一步提高了行为预测效果。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的限定。
图1是本公开实施例1的方法流程图;
图2是本公开实施例1的AGCN-AL的网络结构图;
图3是本公开实施例1的特征提取网络结构图。
具体实施方式:
下面结合附图与实施例对本公开作进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。需要说明的是,在不冲突的情况下,本公开中的各个实施例及实施例中的特征可以相互组合。下面将结合附图对实施例进行详细描述。
目前人们提出了一系列基于骨架的行为识别方法,并取得了良好的效果。但行为识别存在滞后性,而行为预测则可以尽早地识别出人类行为,改善人机交互体验,预防危险事件的发生。为了识别出动作类型,整个动作的全局信息很重要。但是与动作识别相比,行为预测要求在动作完成前就要进行识别,也就是说,用于行为预测的输入数据是一个动作的部分执行过程。与拥有完整执行过程作为输入的动作识别任务相比,行为预测因无法获取到全局信息而无疑更具挑战性。
本公开基于生成式对抗式学习的思想,提出了一种基于自适应图卷积对抗网络AGCN-AL,来挖掘部分动作序列中潜在的全局信息,以此提高行为预测效果。另外本公开提出了时间相关的损失函数来防止网络对小观测比的部分序列过度拟合,其中,观测比指的是观察到的不完整的动作时长占完整动作时长的比例。从而提高对观测比较大的部分动作序列的预测效果。最后将局部网络与行为预测网络组合成双流结构,进一步提高了行为预测效果。
实施例1
在一个或多个实施方式中公开的技术方案中,如图1所示,基于自适应图卷积对抗网络的人体行为预测方法,包括如下步骤:
步骤1、获取人体行为动作序列,并按照不同的观测比进行分割;
步骤2、将分割后的动作序列输入至训练好的AGCN-AL网络和局部网络分别进行行为预测;
步骤3、将局部网络与AGCN-AL网络的预测结果融合,作为最终的行为预测结果;
所述AGCN-AL网络包括设置有图自适应图卷积网络模块(AGCN模块)的特征提取网络,以及分别与特征提取网络连接的鉴别器和分类器,局部网络包括依次连接的特征提取网络和分类器。
其中,所述鉴别器用来判断输入是部分序列还是完整序列;分类器用来判断动作类型,同时分类器用于衰弱鉴别器的判断能力,使其无法判断出输入的是部分序列还是完整序列。
本实施例分别建立了包括局部网络与AGCN-AL网络的双流网络结构,AGCN-AL网络提取人体行为动作序列的全局信息,局部网络提取人体行为动作序列的局部信息,将局部信息与潜在的全局信息互补,进一步提高了行为预测效果,提高行为预测的准确性。
步骤1中,按照不同的观测比进行分割的方法,具体为:将完整的动作执行过程分割出多个不同时长的部分序列,每个部分序列从完整序列的第一帧开始。
如果s(1:T)为从第1帧到第T帧的完整序列,每个完整序列分割出共N个不同观测比的序列,例如可以取N为10),则第i个序列可表示为s(1:[(i·T)/N]),该序列的观测比则为i/N,且当i=N时,该序列就是完整序列,观测比为1。
可选的,所述AGCN-AL的网络结构,可以采用如图2所示。该网络包含三部分:特征提取网络、鉴别器和分类器。
可选的,如图3所示,特征提取网络可以包括一个批标准化层(BN)、多个AGCN模块和一个全局平均池化层(GAP)。特征提取网络,以各种不同观测比的部分动作序列和完整动作序列作为输入,提取动作序列的时间和空间特征;
其中,特征提取网络中的网络结构可根据需求进行调整,采用任意骨架序列特征提取模块,为了保证良好的特征提取效果,本实施例中的特征提取网络可以采用动作识别网络2s-AGCN中的AGCN模块。
具体的,特征提取网络的网络结构包括依次连接的一个批标准化层(BN)、10个AGCN模块和一个全局平均池化层(GAP),其中各个模块的网络参数如图2所示。
可选的,分类器包含依次连接的一个全连接层和一个Softmax层。鉴别器包含依次连接的一个全连接层和一个Sigmoid层。
全局信息对于动作识别来说非常重要,而动作预测因为无法获取到全局信息而无疑更加困难。本实施例提出的AGCN-AL的网络结构可以通过对抗式学习使同一动作的完整序列特征和部分序列特征在特征空间中尽可能相近,从而达到提取部分序列中潜在的全局信息的效果。
局部网络的网络结构为AGCN-AL网络的一部分,包括AGCN-AL网络中的特征提取网络和分类器,即采用图2所示网络结构中的特征提取网络和分类器。
步骤2中,将分割后的动作序列输入至训练好的AGCN-AL网络和局部网络分别进行行为预测,具体为;AGCN-AL网络使用特征提取网络和分类器对输入序列进行预测,生成第一动作类型概率值;局部网络的特征提取网络和分类器对输入序列进行预测,生成第二动作类型概率值。
步骤3中,局部网络与AGCN-AL的融合方式为求均值,融合公式为:
其中,CG(si)表示AGCN-AL网络输出的第一动作类型概率值,CA(si)表示局部网络输出的第二动作类型概率值。
融合后可以获得各类动作类型的预测概率值,取预测结果中概率最大的动作类型作为最终的行为预测结果输出。可选的,动作类型包括推、拉、鞭打、缓冲、蹬伸、摆动、扭动和相向运动等动作类型。
局部网络与AGCN-AL网络构建后,为确定网络参数,还包括局部网络与AGCN-AL网络分别进行训练的过程,AGCN-AL网络训练包括如下步骤:
步骤21、获取人体行为完整动作序列并进行分割建立训练集;
步骤22、将训练集的数据传输至AGCN-AL网络分别根据设定的与时间相关的损失函数对鉴别器、以及特征提取网络和分类器分别进行训练,获得网络参数;
训练过程中,以各种不同观测比的部分动作序列和完整动作序列作为输入,特征提取网络用于提取动作序列的时间和空间特征,将提取到的特征输入到鉴别器和分类器;鉴别器用来判断输入是部分序列还是完整序列,分类器用来判断动作类型,同时衰弱鉴别器的判断能力,使其无法判断出输入的是部分序列还是完整序列。
步骤21中,具体的,人体行为完整动作序列可以采用现有已知的动作数据集作为训练集,如可以采用NTU RGB+D数据集,NTU RGB+D数据集是一个目前得到广泛使用的大型数据集,包含60个动作类型,56880个视频样本,其中提供了由Kinect获取的三维骨骼数据。其中数据的分割方法与步骤1中相同,此处不再赘述。
为了提高网络的训练效果,防止网络过拟合,影响模型的泛化能力,在训练时,对分割后的数据组成的训练集可以将各种观测比、各种动作类型的动作序列打乱,再输入到特征提取网络中。
步骤22中,与时间相关的损失函数的确定,如下:
在训练时,将样本输入到特征提取网络中,输出动作序列的隐藏特征h。鉴别器对该隐藏特征h进行分类,判断输入序列是完整序列还是部分序列。鉴别器的输出是由Sigmoid层生成的一维概率值,记为D(·)。将所有完整序列的真实值标签设为1,将所有的部分序列的真实值标签设为0。则鉴别器的预测值与真实值之间的二元交叉熵为:
ld=-ydlog(D(h))-(1-yd)log(1-D(h)) (1)
其中,yd表示该样本的真实值。设每个完整动作时长为T,共切分出N-1个不同观测比的部分动作序列和1个完整动作序列,ti表示第i个部分序列时长,并且tN为T,则不同时长的动作序列的权重fd(t)为:
最终可以得到鉴别器的损失函数为:
lD=E[fd(t)ld] (3)
其中E(·)表示对所有训练样本的损失值求平均。
分类器的对抗性损失函数可以表示为:
la=-E[fc(t)log(D(h))] (4)
其中fc(t)表示时长为t(t∈[0,T])的动作序列的对抗性损失函数权重。其具体表示为:
分类器的输出记为C(·),是一个由Softmax层生成的m维概率值,其中m表示动作类别数。由全连接层生成的特征向量记为z=[z1,…,zm]T∈Rm,输入到Softmax层生成每个类别的概率值。则第k类动作的预测概率表示为:
所以C(·)=[p1,…,pm]T∈Rm。采用时间相关的损失函数作为分类器的分类损失函数,具体表示为:
lc=-E[fc(t)yclog(C(h))] (7)
其中,yc∈Rm是一个0-1向量。输入动作序列的真实值对应的元素为1,其他为0。
最终分类器在训练时的损失函数为对抗性损失函数和分类损失函数的线性组合,即:
lC=lc+λla (8)
其中λ是平衡两种损失函数的权重。
步骤22中,对鉴别器进行训练的方法为:
步骤221、设定特征提取网络和分类器的参数,将训练集的数据传输至AGCN-AL网络进行训练;
步骤222、计算鉴别器的损失函数,直到鉴别器的损失函数达到设定的数值,确定鉴别器的参数。
鉴别器的损失函数为:训练样本的预测值与真实值之间的二元交叉熵及其不同时长的动作序列的权重乘积的平均值,可以为;
lD=E[fd(t)ld] (3)
其中ld表示鉴别器的预测值与真实值之间的二元交叉熵,fd(t)表示不同时长的动作序列的权重。
不同时长的动作序列的权重fd(t)为:
式中T为每个完整动作时长,共切分出N-1个不同观测比的部分动作序列和1个完整动作序列,ti表示第i个部分序列时长,并且tN=T。
步骤22中,对特征提取网络和分类器进行训练的方法为:
步骤22-1、固定鉴别器的参数,将训练集种将各种观测比、各种动作类型的动作序列全部打乱作为特征提取网络的输入,传输至AGCN-AL网络进行训练;
步骤22-2、计算分类器的损失函数,直到分类器的损失函数达到设定的数值,确定征提取网络和分类器的参数。
分类器的损失函数可以采用公式(8)作为损失函数:
lC=lc+λla (8)
其中lc表示分类损失函数,la表示对抗性损失函数,λ是平衡两种损失函数的权重,λ取值可以为0.005。la具体为:
la=-E[fc(t)log(D(h))] (4)
其中D(·)为鉴别器的输出,而fc(t)则如公式(5)所示。
局部网络的训练包括如下步骤:
步骤2-1、获取人体行为完整动作序列并进行分割建立训练集;
步骤2-2、将训练集的数据传输至局部网络根据设定的与时间相关的损失函数进行训练,获得局部网络参数。
局部网络使用公式(7)作为损失函数进行训练,具体为分类器输出概率值的对数、真实值表征向量与动作序列的对抗性损失函数权重三者乘积的平均值。
lc=-E[fc(t)yclog(C(h))] (7)
其中yc∈Rm是一个0-1真实值表征向量,真实值表征向量具体的输入动作序列的真实值对应的元素为1,其他为0。分类器的输出记为C(·)=[p1,…,pm]T∈Rm,是一个由Softmax层生成的m维概率值,其中m表示动作类别数。h表示输入动作序列的隐藏特征。设每个完整动作时长为T,其中fc(t)表示时长为t(t∈[0,T])的动作序列的对抗性损失函数权重。其具体表示为:
将AGCN-AL和局部网络结合起来组成双流结构2s-AGCN-AL,可以进一步提高行为预测效果。
在训练时,AGCN-AL和局部网络分开单独进行训练,AGCN-AL使用公式(3)和公式(8)作为损失函数进行训练;局部网络使用公式(7)作为损失函数进行训练。在测试时,AGCN-AL只使用特征提取网络和分类器对输入序列进行预测,生成动作类型概率值,然后与局部网络生成的概率值加和求平均,作为2s-AGCN-AL的最终输出结果,可以进一步提高预测的效果。
为说明本实施例方法的效果,进行了实验进行验证,分别在NTU RGB+D和SYSU3DHOI数据集上进行实验。
NTU RGB+D数据集是一个目前得到广泛使用的大型数据集,包含60个动作类型,56880个视频样本,其中提供了由Kinect获取的三维骨骼数据。
采用跨对象(Cross-subject)的评估方式,即根据拍摄对象的不同,把一部分人表演的动作作为训练集(40320个样本),把另一部分人表演的动作作为测试集(16560个样本),采用本实施例的方法在不同观测比下不同网络结构下的行为预测的准确率如下:
表1
SYSU 3DHOI数据集包含12个动作类型,480个视频样本,由40名志愿者拍摄完成。每个动作都会涉及到人与物品的互动,而物品在骨骼数据中是无法体现出来的;除此之外这个数据集在一些动作的早期阶段具有相似的动作或相同的操作对象,这两个因素给行为预测任务带来了较大的挑战。
同样采用跨对象的评估方式测试该数据集,其中20个人物对象用于训练,另外20个人物对象用于测试。该数据集提供了30种不同的训练、测试划分方案,对这30种不同的划分方案分别进行训练、测试,取所有结果的平均值作为最终实验结果。行为预测的准确率如下:
表2
表1和表2中,LGN算法为2018年提出的行为预测算法,目前为止比较先进的算法,局部网络为单独采用本实施例中的局部网络进行预测,AGCN-AL为单独采用本实施例中的AGCN-AL网络进行预测,2s-AGCN-AL为融合本实施例中的局部网络和AGCN-AL网络进行预测。可相比于单网络及现有方法预测准确度明显提高。
实施例2
基于实施例1的方法,本实施例提出基于自适应图卷积对抗网络的人体行为预测系统,包括:
获取模块:被配置为用于获取人体行为动作序列,并按照不同的观测比进行分割;
预测模块:被配置为用于将分割后的动作序列输入至训练好的AGCN-AL网络和局部网络分别进行行为预测;
融合模块:被配置为用于将局部网络与AGCN-AL网络的预测结果融合,作为最终的行为预测结果;
所述AGCN-AL网络包括设置有图自适应图卷积网络模块的特征提取网络,以及分别与特征提取网络连接的鉴别器和分类器,局部网络包括依次连接的特征提取网络和分类器。
实施例3
本实施例提供一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成实施例1的方法所述的步骤。
实施例4
本实施例提供一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例1的方法所述的步骤。
本公开所提出的电子设备可以是移动终端以及非移动终端,非移动终端包括台式计算机,移动终端包括智能手机(Smart Phone,如Android手机、IOS手机等)、智能眼镜、智能手表、智能手环、平板电脑、笔记本电脑、个人数字助理等可以进行无线通信的移动互联网设备。
应理解,在本公开中,该处理器可以是中央处理单元CPU,该处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC,现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
该存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。
在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本公开所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元即算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本公开的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本公开所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其他的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能的划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外一点,所显示或讨论的相互之间的耦合或者直接耦合或者通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
上述虽然结合附图对本公开的具体实施方式进行了描述,但并非对本公开保护范围的限制,所属领域技术人员应该明白,在本公开的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。
Claims (8)
1.基于自适应图卷积对抗网络的人体行为预测方法,其特征是,包括如下步骤:
获取人体行为动作序列,并按照不同的观测比进行分割;
将分割后的动作序列输入至训练好的AGCN-AL网络和局部网络分别进行行为预测;
将局部网络与AGCN-AL网络的预测结果融合,作为最终的行为预测结果;
所述AGCN-AL网络包括设置有自适应图卷积网络模块的特征提取网络,以及分别与特征提取网络连接的鉴别器和分类器,局部网络包括依次连接的特征提取网络和分类器;
按照不同的观测比进行分割的方法,具体为:将完整的动作执行过程分割出多个不同时长的部分序列,每个部分序列动从完整序列的第一帧开始;
特征提取网络用于提取动作序列的时间和空间特征,所述鉴别器用来判断输入是部分序列还是完整序列;分类器用来判断动作类型,并用于衰弱鉴别器的判断能力。
2.如权利要求1所述的基于自适应图卷积对抗网络的人体行为预测方法,其特征是:特征提取网络包括一个批标准化层、多个AGCN模块和一个全局平均池化层;或/和,分类器包含依次连接的一个全连接层和一个Softmax层;或/和,鉴别器包含依次连接的一个全连接层和一个Sigmoid层。
3.如权利要求1所述的基于自适应图卷积对抗网络的人体行为预测方法,其特征是:局部网络与AGCN-AL的融合方式为求均值。
4.如权利要求1所述的基于自适应图卷积对抗网络的人体行为预测方法,其特征是:还包括局部网络与AGCN-AL网络分别进行训练的过程,AGCN-AL网络训练包括如下步骤:
获取人体行为完整动作序列并进行分割建立训练集;
将训练集的数据传输至AGCN-AL网络分别根据设定的与时间相关的损失函数对鉴别器、以及特征提取网络和分类器分别进行训练,获得网络参数。
5.如权利要求1所述的基于自适应图卷积对抗网络的人体行为预测方法,其特征是:
对鉴别器进行训练的方法为:
设定特征提取网络和分类器的参数,将训练集的数据传输至AGCN-AL网络进行训练;
计算鉴别器的损失函数,直到鉴别器的损失函数达到设定的数值,确定鉴别器的参数;
其中,鉴别器的损失函数为:训练样本的预测值与真实值之间的二元交叉熵及其不同时长的动作序列的权重乘积的平均值;
或者
对特征提取网络和分类器进行训练的方法为:
固定鉴别器的参数,将训练集种将各种观测比、各种动作类型的动作序列全部打乱作为特征提取网络的输入,传输至AGCN-AL网络进行训练;
计算分类器的损失函数,直到分类器的损失函数达到设定的数值,确定征提取网络和分类器的参数;
其中,分类器的对抗性损失函数和分类损失函数的线性组合。
6.如权利要求1所述的基于自适应图卷积对抗网络的人体行为预测方法,其特征是:局部网络的训练包括如下步骤:
获取人体行为完整动作序列并进行分割建立训练集;
将训练集的数据传输至局部网络根据设定的与时间相关的损失函数进行训练,获得局部网络参数;
其中,局部网络训练设定的与时间相关的损失函数为:分类器输出概率值的对数、真实值表征向量与动作序列的对抗性损失函数权重三者乘积的平均值。
7.基于自适应图卷积对抗网络的人体行为预测系统,其特征是,包括:
获取模块:被配置为用于获取人体行为动作序列,并按照不同的观测比进行分割;
预测模块:被配置为用于将分割后的动作序列输入至训练好的AGCN-AL网络和局部网络分别进行行为预测;
融合模块:被配置为用于将局部网络与AGCN-AL网络的预测结果融合,作为最终的行为预测结果;
所述AGCN-AL网络包括设置有图自适应图卷积网络模块的特征提取网络,以及分别与特征提取网络连接的鉴别器和分类器,局部网络包括依次连接的特征提取网络和分类器;
按照不同的观测比进行分割的方法,具体为:将完整的动作执行过程分割出多个不同时长的部分序列,每个部分序列动从完整序列的第一帧开始;
特征提取网络用于提取动作序列的时间和空间特征,所述鉴别器用来判断输入是部分序列还是完整序列;分类器用来判断动作类型,并用于衰弱鉴别器的判断能力。
8.一种计算机可读存储介质,其特征是,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1-6任一项方法所述的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010966572.0A CN112052816B (zh) | 2020-09-15 | 2020-09-15 | 基于自适应图卷积对抗网络的人体行为预测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010966572.0A CN112052816B (zh) | 2020-09-15 | 2020-09-15 | 基于自适应图卷积对抗网络的人体行为预测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112052816A CN112052816A (zh) | 2020-12-08 |
CN112052816B true CN112052816B (zh) | 2022-07-12 |
Family
ID=73602954
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010966572.0A Active CN112052816B (zh) | 2020-09-15 | 2020-09-15 | 基于自适应图卷积对抗网络的人体行为预测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112052816B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112818879A (zh) * | 2021-02-05 | 2021-05-18 | 四川大学 | 一种基于部分序列的多动作早识别方法及系统 |
CN113837005A (zh) * | 2021-08-20 | 2021-12-24 | 广州杰赛科技股份有限公司 | 一种人体跌倒的检测方法、装置、存储介质及终端设备 |
CN114170687B (zh) * | 2021-12-08 | 2024-05-07 | 山东大学 | 基于指导信息的人体骨架动作早期识别方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019238560A1 (en) * | 2018-06-12 | 2019-12-19 | Tomtom Global Content B.V. | Generative adversarial networks for image segmentation |
CN110598598A (zh) * | 2019-08-30 | 2019-12-20 | 西安理工大学 | 基于有限样本集的双流卷积神经网络人体行为识别方法 |
CN110796110A (zh) * | 2019-11-05 | 2020-02-14 | 西安电子科技大学 | 一种基于图卷积网络的人体行为识别方法及系统 |
CN111325099A (zh) * | 2020-01-21 | 2020-06-23 | 南京邮电大学 | 一种基于双流时空图卷积神经网络的手语识别方法及系统 |
-
2020
- 2020-09-15 CN CN202010966572.0A patent/CN112052816B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019238560A1 (en) * | 2018-06-12 | 2019-12-19 | Tomtom Global Content B.V. | Generative adversarial networks for image segmentation |
CN110598598A (zh) * | 2019-08-30 | 2019-12-20 | 西安理工大学 | 基于有限样本集的双流卷积神经网络人体行为识别方法 |
CN110796110A (zh) * | 2019-11-05 | 2020-02-14 | 西安电子科技大学 | 一种基于图卷积网络的人体行为识别方法及系统 |
CN111325099A (zh) * | 2020-01-21 | 2020-06-23 | 南京邮电大学 | 一种基于双流时空图卷积神经网络的手语识别方法及系统 |
Non-Patent Citations (3)
Title |
---|
《GCAN: Graph Convolutional Adversarial Network for Unsupervised Domain Adaptation》;Xinhong Ma 等;《Published in: 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR)》;20200109;全文 * |
《Two-Stream Adaptive Graph Convolutional Networks for Skeleton-Based Action Recognition》;Lei Shi等;《aparXiv:1805.07694v3》;20190710;全文 * |
《基于对抗图卷积的网络表征学习框架》;陈梦雪等;《模式识别与人工智能》;20191130;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112052816A (zh) | 2020-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6855098B2 (ja) | 顔検出トレーニング方法、装置及び電子機器 | |
CN112052816B (zh) | 基于自适应图卷积对抗网络的人体行为预测方法及系统 | |
JP6862579B2 (ja) | 画像特徴の取得 | |
US11631248B2 (en) | Video watermark identification method and apparatus, device, and storage medium | |
Sebe et al. | Skin detection: A bayesian network approach | |
CN108229262B (zh) | 一种色情视频检测方法及装置 | |
Lin et al. | PSOLDA: A particle swarm optimization approach for enhancing classification accuracy rate of linear discriminant analysis | |
WO2020238353A1 (zh) | 数据处理方法和装置、存储介质及电子装置 | |
Kumaran et al. | Recognition of human actions using CNN-GWO: a novel modeling of CNN for enhancement of classification performance | |
Luo et al. | SFA: small faces attention face detector | |
KR20190125029A (ko) | 시계열 적대적인 신경망 기반의 텍스트-비디오 생성 방법 및 장치 | |
WO2022063076A1 (zh) | 对抗样本的识别方法及装置 | |
Zhao et al. | Protein secondary structure prediction based on generative confrontation and convolutional neural network | |
CN112906586A (zh) | 时序动作提名生成方法和相关产品 | |
CN110765956A (zh) | 基于部件特征的双人交互行为识别方法 | |
CN112380369B (zh) | 图像检索模型的训练方法、装置、设备和存储介质 | |
Aufar et al. | Face recognition based on Siamese convolutional neural network using Kivy framework | |
CN115222047A (zh) | 一种模型训练方法、装置、设备及存储介质 | |
CN114037056A (zh) | 一种生成神经网络的方法、装置、计算机设备和存储介质 | |
Herout et al. | EnMS: early non-maxima suppression: Speeding up pattern localization and other tasks | |
Bekele et al. | Implementing a robust explanatory bias in a person re-identification network | |
Miakshyn et al. | Face Recognition Technology Improving Using Convolutional Neural Networks | |
CN116610783B (zh) | 基于人工智能决策的服务优化方法及数字化在线页面系统 | |
Mi et al. | Matrix regression-based classification for face recognition | |
CN112347893B (zh) | 用于视频行为识别的模型训练方法、装置和计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |