CN112633377A - 一种基于生成对抗网络的人体行为预测方法及系统 - Google Patents
一种基于生成对抗网络的人体行为预测方法及系统 Download PDFInfo
- Publication number
- CN112633377A CN112633377A CN202011550178.5A CN202011550178A CN112633377A CN 112633377 A CN112633377 A CN 112633377A CN 202011550178 A CN202011550178 A CN 202011550178A CN 112633377 A CN112633377 A CN 112633377A
- Authority
- CN
- China
- Prior art keywords
- frame number
- true
- training
- behavior prediction
- feature generator
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000012549 training Methods 0.000 claims abstract description 104
- 230000009471 action Effects 0.000 claims abstract description 14
- 238000007781 pre-processing Methods 0.000 claims abstract description 9
- 230000006399 behavior Effects 0.000 claims description 181
- 230000006870 function Effects 0.000 claims description 19
- 230000004913 activation Effects 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 7
- 230000003042 antagnostic effect Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000013135 deep learning Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000008485 antagonism Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 210000003813 thumb Anatomy 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明提出了一种基于生成对抗网络的人体行为预测方法及系统,所述预测方法包括如下步骤:获取完整视频数据,并对完整视频数据进行预处理,获得预处理后的完整视频数据,作为样本数据集;构建基于生成对抗网络的人体行为预测模型;利用样本数据集对人体行为预测模型进行训练,获得训练后的人体行为预测模型;将待预测视频段输入训练后的人体行为预测模型,在训练后的人体行为预测模型中进行前向传播,输出待预测视频段的后预设帧数的时间段的动作类别。本发明利用生成对抗网络的特征生成器生成后预设帧数的视频帧图像,然后利用行为分类器对后预设帧数的视频帧图像进行识别,获得行为识别结果,实现了对不完整的视频序列的行为识别。
Description
技术领域
本发明涉及动作识别技术领域,特别是涉及一种基于生成对抗网络的人体行为预测方法及系统。
背景技术
随着深度学习的出现,基于深度学习人体行为识别已经取得巨大突破。人体行为预测是计算机视觉领域一个比较基础和重要的任务,在安防、自动驾驶、人机交互等方面有着广泛的应用前景和研究价值。与人体行为识别任务不同,人体行为预测是对一段只能观测到部分的视频序列,基于当前的观测结果,给出视频所属的行为类别。而现有的基于深度学习的人体行为识别中,视频的观测率是100%,无法实现对一段只能观测到部分的视频序列的行为识别。
发明内容
本发明的目的是提供一种基于生成对抗网络的人体行为预测方法及系统,以实现对不完整的视频序列的行为识别。
为实现上述目的,本发明提供了如下方案:
一种基于生成对抗网络的人体行为预测方法,所述预测方法包括如下步骤:
获取完整视频数据,并对完整视频数据进行预处理,获得预处理后的完整视频数据,作为样本数据集;
构建基于生成对抗网络的人体行为预测模型;
利用所述样本数据集对所述人体行为预测模型进行训练,获得训练后的人体行为预测模型;
将待预测视频段输入训练后的人体行为预测模型,在训练后的人体行为预测模型中进行前向传播,输出待预测视频段的后预设帧数的时间段的动作类别。
可选的,所述人体行为预测模型包括特征生成器、真假判别器和行为分类器;
所述特征生成器分别与所述真假判别器和所述行为分类器连接;
所述特征生成器包括存在时序依赖关系的多个卷积长短时记忆模块,每个所述卷积长短时记忆模块均包括多个卷积长短时记忆单元;
所述真假判别器和所述行为分类器均包括两个全连接层和一个激活函数层。
可选的,所述利用所述样本数据集对所述人体行为预测模型进行训练,获得训练后的人体行为预测模型,具体包括:
利用样本数据集对特征生成器和真假判别器进行预训练,获得预训练后的特征生成器和预训练后的真假判别器;
利用样本数据集对预训练后的特征生成器和行为分类器进行训练,获得训练后的人体行为预测模型。
可选的,所述利用样本数据集对特征生成器和真假判别器进行预训练,获得预训练后的特征生成器和预训练后的真假判别器,具体包括:
将样本数据集中的预处理后的完整视频数据的前预设帧数的真实图像输入特征生成器,获得后预设帧数的生成图像;将后预设帧数的生成图像与前预设帧数的真实图像进行合并,并将合并后的视频数据与预处理后的完整视频数据输入真假判别器,对真假判别器进行训练,直到真假判别器能够识别生成图像与真实图像,获得第n次预训练后的真假判别器;
将样本数据集中的预处理后的完整视频数据的前预设帧数的真实图像输入特征生成器,获得后预设帧数的生成图像,将后预设帧数的生成图像与前预设帧数的真实图像进行合并,并将合并后的视频数据与预处理后的完整视频数据输入真假判别器,对特征生成器进行训练,直到真假判别器无法识别生成图像与真实图像,获得第n次预训练后的真假判别器;
令n的数值增加1,重复上述步骤,直到n的数值达到预训练次数阈值,得到预训练后的特征生成器和预训练后的真假判别器。
可选的,所述利用样本数据集对预训练后的特征生成器和行为分类器进行训练,获得训练后的人体行为预测模型,具体包括:
将样本数据集中的预处理后的完整视频数据的前预设帧数的真实图像输入预训练后的特征生成器,获得后预设帧数的生成图像;
后预设帧数的生成图像输入行为分类器,获得后预设帧数的生成图像的分类结果;
根据所述分类结果,利用公式loss=Ladv+λLce,计算训练过程中的总损失误差;其中,loss表示总损失误差,Lce表示交叉熵损失误差,Ladv表示对抗损失误差,λ表示调节系数,N表示类别数量,yi表示行为类别i的标签,Si表示后预设帧数的生成图像经过激活函数后在类别i的概率;G(g(k))为特征生成器生成的样本,g(k)为输入特征生成器的前预设帧数的真实图像,D(x)为真假判别器输出的样本x的判别概率,x为前预设帧数的真实图像或特征生成器生成的样本,D(G(g(k)))为真假判别器输出的特征生成器生成的样本的判别概率,为样本x服从p(data)概率分布时logD(x)的均值,为前预设帧数的真实图像g(k)服从p(g(k))概率分布时1-D(G(g(k)))的均值;
根据所述总损失误差使用随机梯度下降算法进行误差反向传播,更新预训练后的特征生成器和行为分类器的参数,返回步骤“将样本数据集中的预处理后的完整视频数据的前预设帧数的真实图像输入预训练后的特征生成器,获得后预设帧数的生成图像”,直到训练次数达到训练次数阈值,输出训练后的人体行为预测模型。
一种基于生成对抗网络的人体行为预测系统,所述预测系统包括:
样本数据集获取模块,用于获取完整视频数据,并对完整视频数据进行预处理,获得预处理后的完整视频数据,作为样本数据集;
人体行为预测模型构建模块,用于构建基于生成对抗网络的人体行为预测模型;
人体行为预测模型训练模块,用于利用所述样本数据集对所述人体行为预测模型进行训练,获得训练后的人体行为预测模型;
动作类别预测模块,用于将待预测视频段输入训练后的人体行为预测模型,在训练后的人体行为预测模型中进行前向传播,输出待预测视频段的后预设帧数的时间段的动作类别。
可选的,所述人体行为预测模型包括特征生成器、真假判别器和行为分类器;
所述特征生成器分别与所述真假判别器和所述行为分类器连接;
所述特征生成器包括存在时序依赖关系的多个卷积长短时记忆模块,每个所述卷积长短时记忆模块均包括多个卷积长短时记忆单元;
所述真假判别器和所述行为分类器均包括两个全连接层和一个激活函数层。
可选的,所述人体行为预测模型训练模块,具体包括:
人体行为预测模型预训练子模块,用于利用样本数据集对特征生成器和真假判别器进行预训练,获得预训练后的特征生成器和预训练后的真假判别器;
人体行为预测模型训练子模块,用于利用样本数据集对预训练后的特征生成器和行为分类器进行训练,获得训练后的人体行为预测模型。
可选的,人体行为预测模型预训练子模块,具体包括:
真假判别器预训练单元,用于将样本数据集中的预处理后的完整视频数据的前预设帧数的真实图像输入特征生成器,获得后预设帧数的生成图像;将后预设帧数的生成图像与前预设帧数的真实图像进行合并,并将合并后的视频数据与预处理后的完整视频数据输入真假判别器,对真假判别器进行训练,直到真假判别器能够识别生成图像与真实图像,获得第n次预训练后的真假判别器;
特征生成器预训练单元,用于将样本数据集中的预处理后的完整视频数据的前预设帧数的真实图像输入特征生成器,获得后预设帧数的生成图像,将后预设帧数的生成图像与前预设帧数的真实图像进行合并,并将合并后的视频数据与预处理后的完整视频数据输入真假判别器,对特征生成器进行训练,直到真假判别器无法识别生成图像与真实图像,获得第n次预训练后的真假判别器。
可选的,所述人体行为预测模型训练子模块,具体包括:
生成图像获取单元,用于将样本数据集中的预处理后的完整视频数据的前预设帧数的真实图像输入预训练后的特征生成器,获得后预设帧数的生成图像;
分类结果获取单元,用于后预设帧数的生成图像输入行为分类器,获得后预设帧数的生成图像的分类结果;
总损失误差计算单元,用于根据所述分类结果,利用公式loss=Ladv+λLce,计算训练过程中的总损失误差;其中,loss表示总损失误差,Lce表示交叉熵损失误差,Ladv表示对抗损失误差,λ表示调节系数,N表示类别数量,yi表示行为类别i的标签,Si表示后预设帧数的生成图像经过激活函数后在类别i的概率; G(g(k))为特征生成器生成的样本,g(k)为输入特征生成器的前预设帧数的真实图像,D(x)为真假判别器输出的样本x的判别概率,x为前预设帧数的真实图像或特征生成器生成的样本,D(G(g(k)))为真假判别器输出的特征生成器生成的样本的判别概率,为样本x服从p(data)概率分布时logD(x)的均值,为前预设帧数的真实图像g(k)服从p(g(k))概率分布时1-D(G(g(k)))的均值;
参数更新单元,用于根据所述总损失误差使用随机梯度下降算法进行误差反向传播,更新预训练后的特征生成器和行为分类器的参数,返回步骤“将样本数据集中的预处理后的完整视频数据的前预设帧数的真实图像输入预训练后的特征生成器,获得后预设帧数的生成图像”,直到训练次数达到训练次数阈值,输出训练后的人体行为预测模型。
与现有技术相比,本发明的有益效果是:
本发明提出了一种基于生成对抗网络的人体行为预测方法及系统,所述预测方法包括如下步骤:获取完整视频数据,并对完整视频数据进行预处理,获得预处理后的完整视频数据,作为样本数据集;构建基于生成对抗网络的人体行为预测模型;利用所述样本数据集对所述人体行为预测模型进行训练,获得训练后的人体行为预测模型;将待预测视频段输入训练后的人体行为预测模型,在训练后的人体行为预测模型中进行前向传播,输出待预测视频段的后预设帧数的时间段的动作类别。本发明利用生成对抗网络的特征生成器生成后预设帧数的视频帧图像,然后利用行为分类器对后预设帧数的视频帧图像进行识别,获得行为识别结果,实现了对不完整的视频序列的行为识别。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种基于生成对抗网络的人体行为预测方法的流程图;
图2为本发明提供的人体行为预测模型的结构图;
图3为本发明提供的特征生成器的结构图;
图4为本发明提供的真假判别器的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种基于生成对抗网络的人体行为预测方法及系统,以实现对不完整的视频序列的行为识别。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本发明一种基于生成对抗网络的人体行为预测方法,所述预测方法包括如下步骤:
步骤101,获取完整视频数据,并对完整视频数据进行预处理,获得预处理后的完整视频数据,作为样本数据集。
预处理包括提帧、尺寸裁剪、片段分割、稀疏采样等。
具体的,假设输入网络的视频序列为Sin={Vi},i∈[t-Tenc,t],其中Vi是视频的片段表示,Tenc为输入的视频片段的长度,t为当前时间点。选取THUMOS14数据集进行人体行为预测模型的训练和测试。THUMOS14数据集包含200个带有时序行为标注的未分割的训练数据和213个测试数据。首先,从所有的视频中以25fps的帧率提取视频帧,同时设定每个视频片段的大小为6帧。本发明使用VGG16(Visual Geometry Group16,计算机视觉组)网络提取每个片段的中间帧的fc6层的特征,以此作为真假判别器D的real正样本,与此相对应的是使用特征生成器G生成的fake假样本。
步骤102,构建基于生成对抗网络的人体行为预测模型。
生成对抗网络(GAN)是近年来来获得大量关注的图像生成模型,由一个生成网络与一个判别网络组成,通过让两个神经网络相互博弈的方式进行学习。是非监督式学习的一种方法。生成网络从潜在空间中随机采样作为输入,其输出结果需要尽量模仿训练集里的真实样本。判别网络的输入则为真实样本或生成网络的输出,其目的是将生成网络的输出从真实样本中尽可能分辨出来。生成网络则要尽可能地欺骗判别网络。两个网络相互对抗、不断调整参数,最终目的是使判别网络无法判断生成网络的输出结果是否真实。
如图2所示,所述人体行为预测模型包括特征生成器G、真假判别器D和行为分类器C。所述特征生成器分别与所述真假判别器D和所述行为分类器C连接。
所述特征生成器G包括存在时序依赖关系的多个卷积长短时记忆模块,每个所述卷积长短时记忆模块均包括多个卷积长短时记忆单元。
如图3所示,本发明使用ConvLSTM(Convolutional LSTM Network,卷积长短时记忆模块)作为特征生成器的基本单元,不同于FC-LSTM,ConvLSTM输入门与各个门之间的连接是卷积而不是全连接,这种固有的卷积和LSTM结构,能更好地处理和保留数据的时空特征。ConvLSTM计算表达式如下:
其中*表示卷积操作,°表示哈达玛积操作。Xt为输入序列,ht为隐藏层状态,ct为一个细胞cell的输出,W为权重矩阵,b为偏置值,bi、bf、bc、b中分别表示输入门、遗忘门、细胞和输出门的偏置值,it、ft、中t分别为输入门、遗忘门和输出门,Wxi、Whi、Wci为可学习的权重矩阵。
本发明使用多个ConvLSTM级联作为特征生成器G的基本结构,如图3所示。本发明使用视频片段作为特征生成器G的输入,让模型学习与输入片段相类似的特征数据,然后通过LSTM结构预测生成类似的数据。
所述真假判别器和所述行为分类器均包括两个全连接层和一个激活函数层。
生成对抗网络包括一个特征生成器G和一个真假判别器D,其中特征生成器G用来生成和输入相类似的数据分布,真假判别器D能够准确地把生成的数据和真实数据进行分类。简而言之,真假判别器D就是一个二分类器,对生成的数据输出0,表示假;对真实的数据输出1,表示真。所谓的对抗,指的是特征生成器G和真假判别器D的互相对抗。特征生成器G尽可能生成逼真样本,真假判别器D则尽可能去判别该样本是真实样本还是生成的假样本。
如图4所示,本发明的真假判别器由两个全连接层FC和一个sigmoid激活函数组成,两个全连接层的维度分别为4096和1024。
行为分类器C与真假判别器D相类似,行为行为分类器由两个全连接层FC和一个softmax激活函数组成,对于每个生成的特征输出对应类别的概率分布。同时,对于真实特征样本,本发明也通过行为分类器得到它们的概率分布,以此来得到更优的动作预测和分类的结果。该行为分类器中使用的全连接层的维度与真假判别器一致,分别为4096和1024。
步骤103,利用所述样本数据集对所述人体行为预测模型进行训练,获得训练后的人体行为预测模型。
步骤103所述利用所述样本数据集对所述人体行为预测模型进行训练,获得训练后的人体行为预测模型,具体包括:
利用样本数据集对特征生成器和真假判别器进行预训练,获得预训练后的特征生成器和预训练后的真假判别器。具体包括:将样本数据集中的预处理后的完整视频数据的前预设帧数的真实图像输入特征生成器,获得后预设帧数的生成图像;将后预设帧数的生成图像与前预设帧数的真实图像进行合并,并将合并后的视频数据与预处理后的完整视频数据输入真假判别器,对真假判别器进行训练,直到真假判别器能够识别生成图像与真实图像,获得第n次预训练后的真假判别器;将样本数据集中的预处理后的完整视频数据的前预设帧数的真实图像输入特征生成器,获得后预设帧数的生成图像,将后预设帧数的生成图像与前预设帧数的真实图像进行合并,并将合并后的视频数据与预处理后的完整视频数据输入真假判别器,对特征生成器进行训练,直到真假判别器无法识别生成图像与真实图像,获得第n次预训练后的真假判别器;令n的数值增加1,重复上述步骤,直到n的数值达到预训练次数阈值,得到预训练后的特征生成器和预训练后的真假判别器。
利用样本数据集对预训练后的特征生成器和行为分类器进行训练,获得训练后的人体行为预测模型,具体包括:将样本数据集中的预处理后的完整视频数据的前预设帧数的真实图像输入预训练后的特征生成器,获得后预设帧数的生成图像;后预设帧数的生成图像输入行为分类器,获得后预设帧数的生成图像的分类结果;根据所述分类结果,利用公式loss=Ladv+λLce,计算训练过程中的总损失误差;其中,loss表示总损失误差,Lce表示交叉熵损失误差,Ladv表示对抗损失误差,λ表示调节系数,N表示类别数量,yi表示行为类别i的标签,Si表示后预设帧数的生成图像经过激活函数后在类别i的概率; G(g(k))为特征生成器生成的样本,g(k)为输入特征生成器的前预设帧数的真实图像,D(x)为真假判别器输出的样本x的判别概率,x为前预设帧数的真实图像或特征生成器生成的样本,D(G(g(k)))为真假判别器输出的特征生成器生成的样本的判别概率,为样本x服从p(data)概率分布时logD(x)的均值,为前预设帧数的真实图像g(k)服从p(g(k))概率分布时1-D(G(g(k)))的均值;根据所述总损失误差使用随机梯度下降算法进行误差反向传播,更新预训练后的特征生成器和行为分类器的参数,返回步骤“将样本数据集中的预处理后的完整视频数据的前预设帧数的真实图像输入预训练后的特征生成器,获得后预设帧数的生成图像”,直到训练次数达到训练次数阈值,输出训练后的人体行为预测模型。
生成对抗网络优化的目标函数如下:
其中,LGAN(G,D)表示生成对抗网络的目标函数值,g(k)为输入的视频片段,G(g(k))为特征生成器生成的样本,D(g(k))为真假判别器输出的样本g(k)的判别概率,Ex~p(data)logD(g(k))为样本g(k)服从p(data)概率分布时logD(g(k))的均值。对于真假判别器D来说,这是一个二分类问题,LGAN(G,D)为二分类问题中常见的交叉熵损失。对于特征生成器G来说,为了尽可能欺骗D,所以需要最大化生成样本的判别概率D(G(g(k))),即最小化log(1-D(G(g(k))))。实际训练时,特征生成器G和真假判别器D采取交替训练,即先训练D,然后训练G,不断往复。
行为分类的损失函数定义如下:
其中,s∈RC表示最后一个分类层输出的特征向量,C为行为的类别数目,y∈RC表示标签的one-hot编码向量,g(k)为生成的特征表示,P(g(k))生成的特征表示的识别结果。yi表示行为类别i的标签,Si表示输出向量a经过激活函数softmax后在类别i的概率,
综上,网络的整体目标函数表达式如下:
Ltotal=LGAN(G,D)+λLcls
其中,λ为调节系数,主要用来调节两项损失的占比。
步骤104,将待预测视频段输入训练后的人体行为预测模型,在训练后的人体行为预测模型中进行前向传播,输出待预测视频段的后预设帧数的时间段的动作类别。
本发明还提供一种基于生成对抗网络的人体行为预测系统,所述预测系统包括:
样本数据集获取模块,用于获取完整视频数据,并对完整视频数据进行预处理,获得预处理后的完整视频数据,作为样本数据集;
人体行为预测模型构建模块,用于构建基于生成对抗网络的人体行为预测模型;所述人体行为预测模型包括特征生成器、真假判别器和行为分类器;所述特征生成器分别与所述真假判别器和所述行为分类器连接;所述特征生成器包括存在时序依赖关系的多个卷积长短时记忆模块,每个所述卷积长短时记忆模块均包括多个卷积长短时记忆单元;
所述真假判别器和所述行为分类器均包括两个全连接层和一个激活函数层。
人体行为预测模型训练模块,用于利用所述样本数据集对所述人体行为预测模型进行训练,获得训练后的人体行为预测模型。
所述人体行为预测模型训练模块,具体包括:人体行为预测模型预训练子模块,用于利用样本数据集对特征生成器和真假判别器进行预训练,获得预训练后的特征生成器和预训练后的真假判别器;人体行为预测模型训练子模块,用于利用样本数据集对预训练后的特征生成器和行为分类器进行训练,获得训练后的人体行为预测模型。
人体行为预测模型预训练子模块,具体包括:真假判别器预训练单元,用于将样本数据集中的预处理后的完整视频数据的前预设帧数的真实图像输入特征生成器,获得后预设帧数的生成图像;将后预设帧数的生成图像与前预设帧数的真实图像进行合并,并将合并后的视频数据与预处理后的完整视频数据输入真假判别器,对真假判别器进行训练,直到真假判别器能够识别生成图像与真实图像,获得第n次预训练后的真假判别器;特征生成器预训练单元,用于将样本数据集中的预处理后的完整视频数据的前预设帧数的真实图像输入特征生成器,获得后预设帧数的生成图像,将后预设帧数的生成图像与前预设帧数的真实图像进行合并,并将合并后的视频数据与预处理后的完整视频数据输入真假判别器,对特征生成器进行训练,直到真假判别器无法识别生成图像与真实图像,获得第n次预训练后的真假判别器。
所述人体行为预测模型训练子模块,具体包括:生成图像获取单元,用于将样本数据集中的预处理后的完整视频数据的前预设帧数的真实图像输入预训练后的特征生成器,获得后预设帧数的生成图像;分类结果获取单元,用于后预设帧数的生成图像输入行为分类器,获得后预设帧数的生成图像的分类结果;总损失误差计算单元,用于根据所述分类结果,利用公式loss=Ladv+λLce,计算训练过程中的总损失误差;其中,loss表示总损失误差,Lce表示交叉熵损失误差,Ladv表示对抗损失误差,λ表示调节系数, N表示类别数量,yi表示行为类别i的标签,Si表示后预设帧数的生成图像经过激活函数后在类别i的概率;G(g(k))为特征生成器生成的样本,g(k)为输入特征生成器的前预设帧数的真实图像,D(x)为真假判别器输出的样本x的判别概率,x为前预设帧数的真实图像或特征生成器生成的样本,D(G(g(k)))为真假判别器输出的特征生成器生成的样本的判别概率,为样本x服从p(data)概率分布时logD(x)的均值,为前预设帧数的真实图像g(k)服从p(g(k))概率分布时1-D(G(g(k)))的均值;参数更新单元,用于根据所述总损失误差使用随机梯度下降算法进行误差反向传播,更新预训练后的特征生成器和行为分类器的参数,返回步骤“将样本数据集中的预处理后的完整视频数据的前预设帧数的真实图像输入预训练后的特征生成器,获得后预设帧数的生成图像”,直到训练次数达到训练次数阈值,输出训练后的人体行为预测模型。
动作类别预测模块,用于将待预测视频段输入训练后的人体行为预测模型,在训练后的人体行为预测模型中进行前向传播,输出待预测视频段的后预设帧数的时间段的动作类别。
与现有技术相比,本发明的有益效果是:
本发明提出了一种基于生成对抗网络的人体行为预测方法及系统,所述预测方法涉及深度学习,动作识别以及特征预测等领域,包括如下步骤:构建基于对抗生成网络的人体行为预测模型;人体行为预测模型包括:特征生成器,真假判别器,行为分类器;采用特征生成器对训练数据集进行未来帧的特征级预测,真假判别器对生成的特征进行真假判别,同时,由行为分类器对其进行行为类别的判定;本发明提出一种新型的人体行为预测方法,具有广泛的应用价值。
本发明所述基于生成对抗网络的人体行为预测方法,是视频分析的新方法,利用生成对抗网络生成未来帧特征,进而对特征进行分类,增加了分类的可靠性,相比于传统的特征提取分类预测的方法来对未来帧进行分类,更精确。
本发明对抗生成网络在图像生成领域有突破性进展,但是其用在行为预测领域,缺少对时序信息的捕捉,本发明采用卷积长短时记忆模块作为特征生成器的主要组成部分,除了对人体行为空间特征的提取之外,还加入对时序信息的捕捉,能够对人体行为的判断做出更准确的估计。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种基于生成对抗网络的人体行为预测方法,其特征在于,所述预测方法包括如下步骤:
获取完整视频数据,并对完整视频数据进行预处理,获得预处理后的完整视频数据,作为样本数据集;
构建基于生成对抗网络的人体行为预测模型;
利用所述样本数据集对所述人体行为预测模型进行训练,获得训练后的人体行为预测模型;
将待预测视频段输入训练后的人体行为预测模型,在训练后的人体行为预测模型中进行前向传播,输出待预测视频段的后预设帧数的时间段的动作类别。
2.根据权利要求1所述的基于生成对抗网络的人体行为预测方法,其特征在于,所述人体行为预测模型包括特征生成器、真假判别器和行为分类器;
所述特征生成器分别与所述真假判别器和所述行为分类器连接;
所述特征生成器包括存在时序依赖关系的多个卷积长短时记忆模块,每个所述卷积长短时记忆模块均包括多个卷积长短时记忆单元;
所述真假判别器和所述行为分类器均包括两个全连接层和一个激活函数层。
3.根据权利要求1所述的基于生成对抗网络的人体行为预测方法,其特征在于,所述利用所述样本数据集对所述人体行为预测模型进行训练,获得训练后的人体行为预测模型,具体包括:
利用样本数据集对特征生成器和真假判别器进行预训练,获得预训练后的特征生成器和预训练后的真假判别器;
利用样本数据集对预训练后的特征生成器和行为分类器进行训练,获得训练后的人体行为预测模型。
4.根据权利要求3所述的基于生成对抗网络的人体行为预测方法,其特征在于,所述利用样本数据集对特征生成器和真假判别器进行预训练,获得预训练后的特征生成器和预训练后的真假判别器,具体包括:
将样本数据集中的预处理后的完整视频数据的前预设帧数的真实图像输入特征生成器,获得后预设帧数的生成图像;将后预设帧数的生成图像与前预设帧数的真实图像进行合并,并将合并后的视频数据与预处理后的完整视频数据输入真假判别器,对真假判别器进行训练,直到真假判别器能够识别生成图像与真实图像,获得第n次预训练后的真假判别器;
将样本数据集中的预处理后的完整视频数据的前预设帧数的真实图像输入特征生成器,获得后预设帧数的生成图像,将后预设帧数的生成图像与前预设帧数的真实图像进行合并,并将合并后的视频数据与预处理后的完整视频数据输入真假判别器,对特征生成器进行训练,直到真假判别器无法识别生成图像与真实图像,获得第n次预训练后的真假判别器;
令n的数值增加1,重复上述步骤,直到n的数值达到预训练次数阈值,得到预训练后的特征生成器和预训练后的真假判别器。
5.根据权利要求3所述的基于生成对抗网络的人体行为预测方法,其特征在于,所述利用样本数据集对预训练后的特征生成器和行为分类器进行训练,获得训练后的人体行为预测模型,具体包括:
将样本数据集中的预处理后的完整视频数据的前预设帧数的真实图像输入预训练后的特征生成器,获得后预设帧数的生成图像;
后预设帧数的生成图像输入行为分类器,获得后预设帧数的生成图像的分类结果;
根据所述分类结果,利用公式loss=Ladv+λLce,计算训练过程中的总损失误差;其中,loss表示总损失误差,Lce表示交叉熵损失误差,Ladv表示对抗损失误差,λ表示调节系数,N表示类别数量,yi表示行为类别i的标签,Si表示后预设帧数的生成图像经过激活函数后在类别i的概率;G(g(k))为特征生成器生成的样本,g(k)为输入特征生成器的前预设帧数的真实图像,D(x)为真假判别器输出的样本x的判别概率,x为前预设帧数的真实图像或特征生成器生成的样本,D(G(g(k)))为真假判别器输出的特征生成器生成的样本的判别概率,为样本x服从p(data)概率分布时logD(x)的均值,为前预设帧数的真实图像g(k)服从p(g(k))概率分布时1-D(G(g(k)))的均值;
根据所述总损失误差使用随机梯度下降算法进行误差反向传播,更新预训练后的特征生成器和行为分类器的参数,返回步骤“将样本数据集中的预处理后的完整视频数据的前预设帧数的真实图像输入预训练后的特征生成器,获得后预设帧数的生成图像”,直到训练次数达到训练次数阈值,输出训练后的人体行为预测模型。
6.一种基于生成对抗网络的人体行为预测系统,其特征在于,所述预测系统包括:
样本数据集获取模块,用于获取完整视频数据,并对完整视频数据进行预处理,获得预处理后的完整视频数据,作为样本数据集;
人体行为预测模型构建模块,用于构建基于生成对抗网络的人体行为预测模型;
人体行为预测模型训练模块,用于利用所述样本数据集对所述人体行为预测模型进行训练,获得训练后的人体行为预测模型;
动作类别预测模块,用于将待预测视频段输入训练后的人体行为预测模型,在训练后的人体行为预测模型中进行前向传播,输出待预测视频段的后预设帧数的时间段的动作类别。
7.根据权利要求6所述的基于生成对抗网络的人体行为预测系统,其特征在于,所述人体行为预测模型包括特征生成器、真假判别器和行为分类器;
所述特征生成器分别与所述真假判别器和所述行为分类器连接;
所述特征生成器包括存在时序依赖关系的多个卷积长短时记忆模块,每个所述卷积长短时记忆模块均包括多个卷积长短时记忆单元;
所述真假判别器和所述行为分类器均包括两个全连接层和一个激活函数层。
8.根据权利要求6所述的基于生成对抗网络的人体行为预测系统,其特征在于,所述人体行为预测模型训练模块,具体包括:
人体行为预测模型预训练子模块,用于利用样本数据集对特征生成器和真假判别器进行预训练,获得预训练后的特征生成器和预训练后的真假判别器;
人体行为预测模型训练子模块,用于利用样本数据集对预训练后的特征生成器和行为分类器进行训练,获得训练后的人体行为预测模型。
9.根据权利要求8所述的基于生成对抗网络的人体行为预测系统,其特征在于,人体行为预测模型预训练子模块,具体包括:
真假判别器预训练单元,用于将样本数据集中的预处理后的完整视频数据的前预设帧数的真实图像输入特征生成器,获得后预设帧数的生成图像;将后预设帧数的生成图像与前预设帧数的真实图像进行合并,并将合并后的视频数据与预处理后的完整视频数据输入真假判别器,对真假判别器进行训练,直到真假判别器能够识别生成图像与真实图像,获得第n次预训练后的真假判别器;
特征生成器预训练单元,用于将样本数据集中的预处理后的完整视频数据的前预设帧数的真实图像输入特征生成器,获得后预设帧数的生成图像,将后预设帧数的生成图像与前预设帧数的真实图像进行合并,并将合并后的视频数据与预处理后的完整视频数据输入真假判别器,对特征生成器进行训练,直到真假判别器无法识别生成图像与真实图像,获得第n次预训练后的真假判别器。
10.根据权利要求8所述的基于生成对抗网络的人体行为预测系统,其特征在于,所述人体行为预测模型训练子模块,具体包括:
生成图像获取单元,用于将样本数据集中的预处理后的完整视频数据的前预设帧数的真实图像输入预训练后的特征生成器,获得后预设帧数的生成图像;
分类结果获取单元,用于后预设帧数的生成图像输入行为分类器,获得后预设帧数的生成图像的分类结果;
总损失误差计算单元,用于根据所述分类结果,利用公式loss=Ladv+λLce,计算训练过程中的总损失误差;其中,loss表示总损失误差,Lce表示交叉熵损失误差,Ladv表示对抗损失误差,λ表示调节系数,N表示类别数量,yi表示行为类别i的标签,Si表示后预设帧数的生成图像经过激活函数后在类别i的概率; G(g(k))为特征生成器生成的样本,g(k)为输入特征生成器的前预设帧数的真实图像,D(x)为真假判别器输出的样本x的判别概率,x为前预设帧数的真实图像或特征生成器生成的样本,D(G(g(k)))为真假判别器输出的特征生成器生成的样本的判别概率,为样本x服从p(data)概率分布时logD(x)的均值,为前预设帧数的真实图像g(k)服从p(g(k))概率分布时1-D(G(g(k)))的均值;
参数更新单元,用于根据所述总损失误差使用随机梯度下降算法进行误差反向传播,更新预训练后的特征生成器和行为分类器的参数,返回步骤“将样本数据集中的预处理后的完整视频数据的前预设帧数的真实图像输入预训练后的特征生成器,获得后预设帧数的生成图像”,直到训练次数达到训练次数阈值,输出训练后的人体行为预测模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011550178.5A CN112633377A (zh) | 2020-12-24 | 2020-12-24 | 一种基于生成对抗网络的人体行为预测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011550178.5A CN112633377A (zh) | 2020-12-24 | 2020-12-24 | 一种基于生成对抗网络的人体行为预测方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112633377A true CN112633377A (zh) | 2021-04-09 |
Family
ID=75324401
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011550178.5A Pending CN112633377A (zh) | 2020-12-24 | 2020-12-24 | 一种基于生成对抗网络的人体行为预测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112633377A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113239819A (zh) * | 2021-05-18 | 2021-08-10 | 西安电子科技大学广州研究院 | 一种基于视角归一化的骨架行为识别方法、装置及设备 |
CN113378718A (zh) * | 2021-06-10 | 2021-09-10 | 中国石油大学(华东) | 一种WiFi环境下基于生成对抗网络的动作识别方法 |
CN113468703A (zh) * | 2021-07-23 | 2021-10-01 | 河南工业大学 | 一种ads-b报文异常检测器及检测方法 |
CN114495265A (zh) * | 2021-07-15 | 2022-05-13 | 电子科技大学 | 多跨域场景下基于活动图加权的人体行为识别方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109308450A (zh) * | 2018-08-08 | 2019-02-05 | 杰创智能科技股份有限公司 | 一种基于生成对抗网络的脸部变化预测方法 |
US20190251401A1 (en) * | 2018-02-15 | 2019-08-15 | Adobe Inc. | Image composites using a generative adversarial neural network |
CN110769196A (zh) * | 2019-10-17 | 2020-02-07 | 天津大学 | 一种用于非连续监控路段的视频预测方法 |
CN111832516A (zh) * | 2020-07-22 | 2020-10-27 | 西安电子科技大学 | 基于无监督视频表示学习的视频行为识别方法 |
-
2020
- 2020-12-24 CN CN202011550178.5A patent/CN112633377A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190251401A1 (en) * | 2018-02-15 | 2019-08-15 | Adobe Inc. | Image composites using a generative adversarial neural network |
CN109308450A (zh) * | 2018-08-08 | 2019-02-05 | 杰创智能科技股份有限公司 | 一种基于生成对抗网络的脸部变化预测方法 |
CN110769196A (zh) * | 2019-10-17 | 2020-02-07 | 天津大学 | 一种用于非连续监控路段的视频预测方法 |
CN111832516A (zh) * | 2020-07-22 | 2020-10-27 | 西安电子科技大学 | 基于无监督视频表示学习的视频行为识别方法 |
Non-Patent Citations (5)
Title |
---|
程凯: "基于生成对抗网络的自动细胞核分割半监督学习方法", 《计算机应用》 * |
穆咏麟: "基于生成对抗网络的多智能体轨迹预测", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
蒋红亮: "基于深度学习的共享电动汽车碰撞检测与预警研究", 《中国优秀硕士学位论文全文数据库 工程科技II辑》 * |
袁帅等: "应用残差生成对抗网络的路况视频帧预测模型", 《西安交通大学学报》 * |
黄文琦等: "基于生成对抗网络的变电站工作人员行为预测的方法", 《南方电网技术》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113239819A (zh) * | 2021-05-18 | 2021-08-10 | 西安电子科技大学广州研究院 | 一种基于视角归一化的骨架行为识别方法、装置及设备 |
CN113239819B (zh) * | 2021-05-18 | 2022-05-03 | 西安电子科技大学广州研究院 | 一种基于视角归一化的骨架行为识别方法、装置及设备 |
CN113378718A (zh) * | 2021-06-10 | 2021-09-10 | 中国石油大学(华东) | 一种WiFi环境下基于生成对抗网络的动作识别方法 |
CN114495265A (zh) * | 2021-07-15 | 2022-05-13 | 电子科技大学 | 多跨域场景下基于活动图加权的人体行为识别方法 |
CN114495265B (zh) * | 2021-07-15 | 2023-04-07 | 电子科技大学 | 多跨域场景下基于活动图加权的人体行为识别方法 |
CN113468703A (zh) * | 2021-07-23 | 2021-10-01 | 河南工业大学 | 一种ads-b报文异常检测器及检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109446923B (zh) | 基于训练特征融合的深度监督卷积神经网络行为识别方法 | |
CN108830252B (zh) | 一种融合全局时空特征的卷积神经网络人体动作识别方法 | |
CN107341452B (zh) | 基于四元数时空卷积神经网络的人体行为识别方法 | |
CN110334705B (zh) | 一种结合全局和局部信息的场景文本图像的语种识别方法 | |
CN112633377A (zh) | 一种基于生成对抗网络的人体行为预测方法及系统 | |
CN106599797B (zh) | 一种基于局部并行神经网络的红外人脸识别方法 | |
CN110084151B (zh) | 基于非局部网络深度学习的视频异常行为判别方法 | |
CN113496217B (zh) | 视频图像序列中人脸微表情识别方法 | |
CN112784763B (zh) | 基于局部与整体特征自适应融合的表情识别方法及系统 | |
CN111652903B (zh) | 一种自动驾驶场景下基于卷积关联网络的行人目标跟踪方法 | |
CN110717431A (zh) | 一种结合多视角注意力机制的细粒度视觉问答方法 | |
CN111340105A (zh) | 一种图像分类模型训练方法、图像分类方法、装置及计算设备 | |
Balasubramanian et al. | Analysis of facial emotion recognition | |
CN113065460A (zh) | 基于多任务级联的猪脸面部表情识别框架的建立方法 | |
CN112149616A (zh) | 基于动态信息的人物交互行为识别方法 | |
CN113688761A (zh) | 一种基于图像序列的行人行为类别检测方法 | |
CN109239670A (zh) | 基于结构嵌入和深度神经网络的雷达hrrp识别方法 | |
CN113642505B (zh) | 一种基于特征金字塔的人脸表情识别方法及装置 | |
CN113420179B (zh) | 基于时序高斯混合空洞卷积的语义重构视频描述方法 | |
Li et al. | Fire flame image detection based on transfer learning | |
CN113221683A (zh) | 教学场景下基于cnn模型的表情识别方法 | |
Elbarawy et al. | Facial expressions recognition in thermal images based on deep learning techniques | |
CN112560668A (zh) | 一种基于场景先验知识的人体行为识别方法 | |
CN115953736A (zh) | 一种基于视频监控与深度神经网络的人群密度估计方法 | |
CN115690658A (zh) | 一种融合先验知识的半监督视频异常行为检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210409 |