CN112200102B - 一种自适应数据增强的二维人体姿态估计方法和系统 - Google Patents

一种自适应数据增强的二维人体姿态估计方法和系统 Download PDF

Info

Publication number
CN112200102B
CN112200102B CN202011103590.2A CN202011103590A CN112200102B CN 112200102 B CN112200102 B CN 112200102B CN 202011103590 A CN202011103590 A CN 202011103590A CN 112200102 B CN112200102 B CN 112200102B
Authority
CN
China
Prior art keywords
data enhancement
data
training
neural network
enhancement module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011103590.2A
Other languages
English (en)
Other versions
CN112200102A (zh
Inventor
邹腊梅
车鑫
乔森
聂士伟
杨卫东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN202011103590.2A priority Critical patent/CN112200102B/zh
Publication of CN112200102A publication Critical patent/CN112200102A/zh
Application granted granted Critical
Publication of CN112200102B publication Critical patent/CN112200102B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种自适应数据增强的二维人体姿态估计方法和系统,属于计算机视觉和深度学习领域。本发明不同于将数据增强作为一个独立的数据预处理步骤的常规做法,将数据增强和用于执行计算机视觉任务的卷积神经网络的训练两个独立的过程联合起来,使得数据增强能跟随卷积神经网络的训练过程实现动态更新,自适应的根据具体数据集特点和应用任务产生数据增强操作的概率分布,产生对卷积神经网络优化更加有效的训练样本,提升卷积神经网络的训练效率,同时有效增强卷积神经网络的泛化能力;本发明以数据增强模块为生成器,以卷积神经网络为判别器,通过两者“博弈”实现共同优化,最终实现执行计算机视觉任务的卷积神经网络模型更优的表现。

Description

一种自适应数据增强的二维人体姿态估计方法和系统
技术领域
本发明属于计算机视觉和深度学习领域,更具体地,涉及一种自适应数据增强的计算机视觉任务执行方法和系统。
背景技术
从本质上说,深度学习是用复杂模型拟合大量数据的过程,数据的质量和数量是决定卷积神经网络模型泛化性能的重要因素。在使用深度学习方法解决具体计算机视觉任务时,训练样本不充足是一个普遍存在的障碍。一方面,数据集的制作需要花费高昂的成本;另一方面,通过数据增强增加数据的多样性可以有效缓解卷积神经网络在训练过程中的过拟合现象。因此,数据增强是深度学习中不可或缺的关键一环。
目前普遍采用的常规数据增强操作有颜色变化、几何变换、翻转、尺度缩放、添加噪声等,这些操作一定程度上模拟了现实场景中的视角、光线、尺度等方面的变换,因此可提升卷积神经网络的泛化性能。但是,常规数据增强操作作为卷积神经网络训练的数据预处理的步骤之一,独立于卷积神经网络训练过程,直接从静态分布中采样,是一种“盲目”的操作,会增加部分无关的数据,不能跟踪动态的卷积神经网络训练过程,导致卷积神经网络的训练效率不高。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种自适应数据增强的计算机视觉任务执行方法和系统,其目的在于解决常规数据增强是“盲目”的,会增加无关数据,不能自适应具体数据集特点和应用任务,导致训练效率不高的技术问题。
为实现上述目的,按照本发明的一个方面,提供了一种自适应数据增强的计算机视觉任务执行方法,包括:
S1.构建用于执行计算机视觉任务的卷积神经网络,并进行预训练得到卷积神经网络的预训练模型;
S2.构建数据增强模块,并进行预训练得到数据增强模块的预训练模型;所述数据增强模块的输入为卷积神经网络不同尺度的层间特征图,输出为数据增强操作的概率分布;
S3.以数据增强模块为生成器,以所述卷积神经网络作为判别器,采用奖励惩罚措施对数据增强模块与卷积神经网络进行联合优化;其中,卷积神经网络的预训练模型和数据增强模块的预训练模型作为联合优化的初始值;所述卷积神经网络根据数据增强模块生成的概率分布实施自适应数据增强操作;
S4.采用训练好的卷积神经网络和数据增强模块执行计算机视觉任务。
进一步地,数据增强模块包括:跨阶段瓶颈模块、池化层和全连接层;
数据增强模块对卷积神经网络不同尺度的层间特征图进行融合,融合后的特征图输入全连接层得到概率分布,在数据送入卷积神经网络进行训练之前,数据要根据此概率分布进行数据增强操作;其中,每两个相邻的层间特征图融合过程为:尺度较大的特征图通过跨阶段瓶颈模块提取特征后,通过池化层进行下采样,再与尺度较小的特征图经过跨阶段瓶颈模块提取得到的特征进行融合。
进一步地,对数据增强模块进行预训练,具体包括:
从m个有界高斯分布中采样,对应的采样概率为{p1,p2,…,pm},满足
Figure GDA0003930184240000021
m表示设定的常数;
对每一个训练样本,根据采样结果进行数据增强操作,得到m个新的训练样本;
将m个新的训练样本输入到卷积神经网络的预训练模型中计算相应的损失函数;损失函数的值{l1,l2,…,lm}表征对应采样结果进行数据增强操作生成的样本对于卷积神经网络学习的难易程度,损失函数的值越大,表明样本越难学习;
将m个样本对应的损失函数值{l1,l2,…,lm}进行归一化,得到相应的归一化损失函数值{l1′,l2′,…,lm′},使其满足
Figure GDA0003930184240000031
将{l1′,l2′,…,lm′}作为联合优化阶段数据增强模块的监督值。
进一步地,数据增强模块使用的损失函数为KL散度(Kullback-LeiblerDivergence)损失函数LKL
Figure GDA0003930184240000032
其中,N为样本数量,Pi为第i个样本标签生成的概率分布,
Figure GDA0003930184240000033
为数据增强模块输出的概率分布预测值。
进一步地,采用奖励惩罚措施对数据增强模块与卷积神经网络进行联合优化,具体包括:
将同一张数据样本分别做常规数据增强操作和根据数据增强模块输出的概率分布进行采样得到的自适应数据增强操作;
若实施常规数据增强操作的样本输入卷积神经网络后计算出的损失函数的数值大于根据数据增强模块输出的概率分布实施自适应数据增强操作后的样本输入卷积神经网络后计算出的损失函数的数值,则惩罚,即减小数据增强模块输出的概率分布的取值;反之,若实施常规数据增强操作的样本输入卷积神经网络后计算出的损失函数的数值小于根据数据增强模块输出的概率分布实施自适应数据增强操作后的样本输入卷积神经网络后计算出的损失函数的数值,则奖励,即增大数据增强模块输出的概率分布的取值。
进一步地,常规数据增强操作包括颜色变化、几何变换、翻转、缩放和添加噪声。
按照本发明的另一方面提供了一种自适应数据增强的计算机视觉任务执行系统,包括:计算机可读存储介质和处理器;
所述计算机可读存储介质用于存储可执行指令;
所述处理器用于读取所述计算机可读存储介质中存储的可执行指令,执行上述自适应数据增强的计算机视觉任务执行方法。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果。
(1)本发明不同于将数据增强作为一个独立的数据预处理步骤的常规做法,将数据增强和用于执行计算机视觉任务的卷积神经网络的训练两个独立的过程联合起来,使得数据增强能跟随卷积神经网络的训练过程实现动态更新,自适应的根据具体数据集特点和应用任务产生数据增强操作的概率分布,产生对卷积神经网络优化更加有效的训练样本,提升卷积神经网络的训练效率,同时更有效的增强卷积神经网络的泛化性能。
(2)本发明方法使用生成对抗学习策略,其中,生成器是数据增强模块,判别器是适合具体计算机视觉任务的卷积神经网络,判别器从生成器生成的“难样本”中提升学习能力,而生成器也根据判别器的输出不断调整,尽可能产生对于判别器而言更“难”的样本,通过生成器和判别器之间“博弈”实现数据增强模块和卷积神经网络的共同优化,最终实现适合具体计算机视觉任务的卷积神经网络模型更优的表现。
(3)本发明方法使用奖励惩罚措施进行联合优化。不同于常规的生成对抗学习网络中分别对生成器和判别器迭代优化的方法,本发明使用奖励惩罚措施进行联合优化,“在线更新”数据增强模块输出的概率分布,把不可微分的数据增强操作与卷积神经网络的训练结合到一起,实现数据增强模块跟踪动态的卷积神经网络训练过程,根据具体数据集特点和应用任务自适应地增加困难样本的数量,进一步增强适合具体计算机视觉任务的卷积神经网络的泛化能力。
(4)本发明提出的数据增强模块生成的是数据增强操作的概率分布,而不是直接生成数据增强的图像数据,因此效率更高,且引入了不确定性,可以更进一步地增加数据样本的多样性,更加有效地防止适合具体计算机视觉任务的卷积神经网络训练时出现的过拟合现象。
附图说明
图1是本发明实施例提供的数据增强模块和卷积神经网络的训练联合优化的方法的流程图;
图2是本发明实施例提供的数据增强模块的网络结构图;
图3是本发明实施例提供的数据增强模块中跨阶段瓶颈模块的具体结构图;
图4是本发明实施例提供的适用于二维人体姿态估计的卷积神经网络——堆叠沙漏模型的网络结构图;
图5是本发明实施例提供的二维人体姿态估计中,数据增强模块和卷积神经网络的训练联合优化的整体架构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明提供的一种自适应数据增强的计算机视觉任务执行方法,不需要额外的数据样本、不改变具体计算机视觉任务其卷积神经网络结构,但经过对数据增强模块和卷积神经网络的联合优化,对原始数据集进行“自适应”的数据增强,可产生更高效的训练样本,提升训练效率,从而更有效地防止卷积神经网络训练过程中出现的过拟合现象,增强卷积神经网络的泛化性能。如图1所示,具体包括以下步骤:
S1.构建用于执行计算机视觉任务的卷积神经网络,并进行预训练得到卷积神经网络的预训练模型;
S2.构建数据增强模块,并进行预训练;数据增强模块的输入为卷积神经网络不同尺度的层间特征图,输出为数据增强操作的概率分布;
S3.以数据增强模块为生成器,以卷积神经网络作为判别器,采用奖励惩罚措施对数据增强模块与卷积神经网络进行联合优化;
S4.采用训练好的卷积神经网络和数据增强模块执行计算机视觉任务。
不同于常规基于图像处理的数据增强操作,本发明提供的数据增强模块是一个轻量化的卷积神经网络,其结构如图2所示,包括:跨阶段瓶颈模块、池化层和全连接层,跨阶段瓶颈模块的具体结构如图3所示;数据增强模块的输入为具体计算机视觉任务的卷积神经网络的层间特征图,将卷积神经网络不同尺度的层间特征图进行融合,其优点为可利用不同尺度的特征图中包含的空间约束提高联合优化的效率;数据增强模块的输出为自适应数据增强操作的概率分布。其中,如图2所示,每两个相邻的层间特征图融合过程为:尺度较大的特征图通过跨阶段瓶颈模块提取特征后,通过池化层进行下采样,再与尺度较小的特征图经过跨阶段瓶颈模块提取得到的特征进行融合;最终融合后的特征图输入全连接层得到概率分布。
适合具体计算机视觉任务的卷积神经网络可根据数据增强模块生成的概率分布来采样,实施典型的数据增强操作,如缩放、旋转、色彩变化。相比于利用指定概率直接输出数据增强后的图像数据的常规数据增强方法,本发明通过自适应输出数据增强操作的概率分布,一方面能加快卷积神经网络训练时的收敛速度,另一方面从概率分布中采样引入了不确定性,可以增强卷积神经网络的鲁棒性。
在联合优化之前,要分别对适合具体计算机视觉任务的卷积神经网络和数据增强模块进行预训练,获取适合具体计算机视觉任务的卷积神经网络预训练模型和数据增强模块预训练模型,在联合优化阶段,两个预训练模型分别作为对应网络的初始值。
在对适合具体计算机视觉任务的卷积神经网络进行预训练时,其监督值与具体计算机视觉任务相关。数据增强模块的预训练以适合具体计算机视觉任务的卷积神经网络的预训练模型为基础;对数据增强模块进行预训练时,首先从m个有界高斯分布中采样,对应的采样概率为{p1,p2,…,pm},且满足
Figure GDA0003930184240000071
对每一张训练样本,根据采样结果进行数据增强操作,得到m个新的训练样本,然后将它们输入到适合具体计算机视觉任务的卷积神经网络的预训练模型中计算相应的损失函数,损失函数的值{l1,l2,…,lm}表征对应数据增强分布生成的样本对于卷积神经网络学习的难易程度,损失函数的值越大,表明样本越难学习。将m个样本对应的损失函数值{l1,l2,…,lm}进行归一化,得到相应的归一化损失函数值{l1′,l2′,…,lm′},使其满足
Figure GDA0003930184240000072
将{l1′,l2′,…,lm′}作为联合优化阶段数据增强模块的监督值。
数据增强模块和卷积神经网络的训练联合优化的网络架构是基于生成对抗学习策略设计的。在生成对抗网络架构中,生成器(Generator)是数据增强模块,判别器(Discriminator)是适合具体计算机视觉任务的卷积神经网络。生成器的目标是生成令判别器难以辨别的“难例”,而判别器的目标是尽可能辨别出生成器生成的“伪样本”。通过生成器和判别器之间的博弈,生成器在联合优化的过程中探索判别器的弱点,而判别器通过学习生成器产生的“难例”的克服不足,增强对“难例”的学习能力,从而提升自身表现。
联合优化具体采用一种奖励惩罚措施。常规的数据增强操作是不可微分的,因此,直接对常规数据增强操作和卷积神经网络的训练进行联合优化是不可行的。本发明提出一种奖励惩罚措施,通过数据增强模块“在线”输出自适应数据增强操作的概率分布实现联合优化。
奖励惩罚措施具体为:将同一张数据样本分别做常规数据增强操作和根据数据增强模块输出的概率分布进行采样得到的自适应数据增强操作,若实施常规数据增强操作的样本输入卷积神经网络后计算出的损失函数的数值,大于根据数据增强模块输出的概率分布实施自适应数据增强操作后的样本输入卷积神经网络后计算出的损失函数的数值,说明根据后者生成的数据样本对卷积神经网络是容易的,则惩罚,即减小该概率分布的取值;若实施常规数据增强操作的样本输入卷积神经网络后计算出的损失函数的数值,小于根据数据增强模块输出的概率分布实施自适应数据增强操作后的样本输入卷积神经网络后计算出的损失函数的数值,说明根据后者生成的数据样本对卷积神经网络是困难的,则奖励,即增大该概率分布的取值。通过奖励惩罚措施可“在线更新”数据增强模块输出的概率分布,增加困难样本的数量,增强适合具体计算机视觉任务的卷积神经网络的泛化能力;
在联合优化过程中,卷积神经网络对应的损失函数与具体的计算机视觉任务有关,数据增强模块使用的损失函数为KL散度(Kullback-Leibler Divergence)损失函数LKL,具体为:
Figure GDA0003930184240000081
其中,N为样本数量,Pi为第i个样本标签生成的概率分布,
Figure GDA0003930184240000082
为数据增强模块输出的概率分布预测值。
本发明实施例以二维人体姿态估计任务为例对上述方法进行详细说明,具体分为4个步骤:
S1.对姿态估计网络进行预训练,得到姿态估计网络预训练模型;姿态估计网络选用经典的堆叠“沙漏型”编码解码结构,包括池化层、残差模块、上采样模块和跳跃连接四部分,其具体结构如图4所示;
S2.对数据增强模块进行预训练,得到数据增强模块预训练模型;
S3.对姿态估计网络和数据增强模块进行联合优化;
S4.利用获得的姿态估计网络模型实现姿态估计。
步骤S1具体包括:
S1.1.数据准备:从数据集接口中获取每张图像中每个人体的关节点坐标、尺度、中心点坐标,根据关节点位置信息计算每个人体的归一化距离,具体为左肩与右肩或左臀与右臀之间的欧式距离,并利用高斯分布将每个人体的关节点位置信息转换成概率图;
S1.2.数据处理:对数据集中的图像进行裁剪,重塑数据尺寸,使样本数据为统一大小;
S1.3.常规数据增强:对S1.2得到的数据进行色彩变换、几何变换等常规数据增强操作;
S1.4网络预训练:将S1.3得到的数据输入姿态估计网络,对其进行预训练和模型参数优化,得到姿态估计网络预训练模型。
步骤S2具体包括:
S2.1.搭建数据增强模块:数据增强模块是一个轻量化的卷积神经网络;
S2.2.数据增强模块预训练:数据增强模块的输入是姿态估计网络对应相同尺度的层间特征图。数据增强模块的预训练过程中,数据增强模块为训练模式,姿态估计网络为验证模式,即姿态估计网络不更新网络参数,而直接使用步骤S1中获得的姿态估计网络的预训练模型;只更新数据增强模块的网络参数,获得数据增强模块的预训练模型。对数据增强模块进行预训练时,首先从m个有界高斯分布中采样,对应的采样概率为{p1,p2,…,pm},且满足
Figure GDA0003930184240000091
对每一张训练样本,根据采样结果进行数据增强操作,得到m个新的训练样本,然后将它们输入到姿态估计网络的预训练模型中计算相应的损失函数,损失函数的值{l1,l2,…,lm}表征对应数据增强分布生成的样本对于姿态估计网络而言学习的难易程度,损失函数的值越大,表明样本越难学习;将m个样本对应的损失函数值{l1,l2,…,lm}进行归一化,得到相应的归一化损失函数值{l1′,l2′,…,lm′},使其满足
Figure GDA0003930184240000092
将{l1′,l2′,…,lm′}作为联合优化阶段数据增强模块的监督值。
参考图5,步骤S3具体包括:
S3.1.网络初始化;在联合优化阶段,步骤S1中获得的姿态估计网络预训练模型和步骤S2中获得的数据增强模块的预训练模型分别作为姿态估计网络和数据增强模块的参数初始值。
S3.2.奖励惩罚;将同一张数据样本分别做常规数据增强操作和根据数据增强模块输出的概率分布进行采样得到的自适应数据增强操作,若实施常规数据增强操作的样本输入姿态估计网络后计算出的损失函数的数值,大于根据数据增强模块输出的概率分布实施自适应数据增强操作后的样本输入姿态估计网络后计算出的损失函数的数值,说明根据后者生成的数据样本对姿态估计网络是容易学习的,则惩罚,即减小该概率分布的取值;反之,若实施常规数据增强操作的样本输入姿态估计网络后计算出的损失函数的数值,小于根据数据增强模块输出的概率分布实施数据增强操作后的数据输入姿态估计网络后计算出的损失函数的数值,说明根据后者生成的数据样本对姿态估计网络是较难学习的,则奖励,即增大该概率分布的取值。通过奖励惩罚措施可“在线更新”数据增强模块输出的概率分布,增加困难样本的数量,进一步增强姿态估计网络的泛化能力。步骤S4具体为:在完成步骤S3的联合优化后,得到姿态估计网络模型,通过姿态估计网络前向预测实现姿态估计,并输出人体姿态骨架和评价指标。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种自适应数据增强的二维人体姿态估计方法,其特征在于,包括:
S1.构建姿态估计网络,并进行预训练得到姿态估计网络预训练模型;
步骤S1具体包括:
从数据集接口中获取每张图像中每个人体的关节点位置信息,根据关节点位置信息计算每个人体的归一化距离,并利用高斯分布将每个人体的关节点位置信息转换成概率图;
对数据集中的图像进行裁剪,重塑数据尺寸,使样本数据为统一大小;
对统一大小的数据进行常规数据增强后,输入姿态估计网络进行预训练;
S2.构建数据增强模块,并进行预训练得到数据增强模块的预训练模型;所述数据增强模块的输入为姿态估计网络不同尺度的层间特征图,输出为数据增强操作的概率分布;对数据增强模块进行预训练,具体包括:
从m个有界高斯分布中采样,对应的采样概率为{p1,p2,…,pm},满足
Figure FDA0003930184230000011
m表示设定的常数;
对每一个训练样本,根据采样结果进行数据增强操作,得到m个新的训练样本;
将m个新的训练样本输入到姿态估计网络的预训练模型中计算相应的损失函数;损失函数的值{l1,l2,…,lm}表征对应采样结果进行数据增强操作生成的样本对于姿态估计网络学习的难易程度,损失函数的值越大,表明样本越难学习;
将m个样本对应的损失函数值{l1,l2,…,lm}进行归一化,得到相应的归一化损失函数值{l1′,l2′,…,lm′},使其满足
Figure FDA0003930184230000012
将{l1′,l2′,…,lm′}作为联合优化阶段数据增强模块的监督值;
S3.以数据增强模块为生成器,以姿态估计网络作为判别器,采用奖励惩罚措施对数据增强模块与姿态估计网络进行联合优化;其中,姿态估计网络预训练模型和数据增强模块的预训练模型作为联合优化的初始值;所述姿态估计网络根据数据增强模块生成的概率分布实施自适应的数据增强操作;
S4.采用训练好的姿态估计网络实现人体姿态估计。
2.根据权利要求1所述的一种自适应数据增强的二维人体姿态估计方法,其特征在于,数据增强模块包括:跨阶段瓶颈模块、池化层和全连接层;
数据增强模块对姿态估计网络不同尺度的层间特征图进行融合,融合后的特征图输入全连接层得到概率分布,在数据送入姿态估计网络进行训练之前,数据要根据此概率分布进行自适应的数据增强操作;其中,每两个相邻的层间特征图融合过程为:尺度较大的特征图通过跨阶段瓶颈模块提取特征后,通过池化层进行下采样,再与尺度较小的特征图经过跨阶段瓶颈模块提取得到的特征进行融合。
3.根据权利要求2所述的一种自适应数据增强的二维人体姿态估计方法,其特征在于,数据增强模块使用的损失函数为KL散度损失函数LKL
Figure FDA0003930184230000021
其中,N为样本数量,Pi为第i个样本标签生成的概率分布,
Figure FDA0003930184230000022
为数据增强模块输出的概率分布预测值。
4.根据权利要求1-3任一项所述的一种自适应数据增强的二维人体姿态估计方法,其特征在于,采用奖励惩罚措施对数据增强模块与姿态估计网络进行联合优化,具体包括:
将同一张数据样本分别做常规数据增强操作和根据数据增强模块输出的概率分布进行采样得到的自适应数据增强操作;
若实施常规数据增强操作的样本输入姿态估计网络后计算出的损失函数的数值大于根据数据增强模块输出的概率分布实施自适应数据增强操作后的样本输入姿态估计网络后计算出的损失函数的数值,则惩罚,即减小数据增强模块输出的概率分布的取值;反之,若实施常规数据增强操作的样本输入姿态估计网络后计算出的损失函数的数值小于根据数据增强模块输出的概率分布实施自适应数据增强操作后的样本输入姿态估计网络后计算出的损失函数的数值,则奖励,即增大数据增强模块输出的概率分布的取值。
5.根据权利要求4所述的一种自适应数据增强的二维人体姿态估计方法,其特征在于,常规数据增强操作包括颜色变化、几何变换、翻转、缩放和添加噪声。
6.一种自适应数据增强的二维人体姿态估计系统,其特征在于,包括:计算机可读存储介质和处理器;
所述计算机可读存储介质用于存储可执行指令;
所述处理器用于读取所述计算机可读存储介质中存储的可执行指令,执行权利要求1至5任一项所述的自适应数据增强的二维人体姿态估计方法。
CN202011103590.2A 2020-10-15 2020-10-15 一种自适应数据增强的二维人体姿态估计方法和系统 Active CN112200102B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011103590.2A CN112200102B (zh) 2020-10-15 2020-10-15 一种自适应数据增强的二维人体姿态估计方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011103590.2A CN112200102B (zh) 2020-10-15 2020-10-15 一种自适应数据增强的二维人体姿态估计方法和系统

Publications (2)

Publication Number Publication Date
CN112200102A CN112200102A (zh) 2021-01-08
CN112200102B true CN112200102B (zh) 2023-02-14

Family

ID=74010215

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011103590.2A Active CN112200102B (zh) 2020-10-15 2020-10-15 一种自适应数据增强的二维人体姿态估计方法和系统

Country Status (1)

Country Link
CN (1) CN112200102B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117806364B (zh) * 2023-12-22 2024-05-28 华中科技大学 航行器路径跟踪控制器的对抗学习架构、控制方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003001340A2 (en) * 2001-06-22 2003-01-03 Motion Sense Corporation Gesture recognition system and method
CN108171209A (zh) * 2018-01-18 2018-06-15 中科视拓(北京)科技有限公司 一种基于卷积神经网络进行度量学习的人脸年龄估计方法
CN109977841A (zh) * 2019-03-20 2019-07-05 中南大学 一种基于对抗深度学习网络的人脸识别方法
CN110135366A (zh) * 2019-05-20 2019-08-16 厦门大学 基于多尺度生成对抗网络的遮挡行人重识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180349526A1 (en) * 2016-06-28 2018-12-06 Cognata Ltd. Method and system for creating and simulating a realistic 3d virtual world

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003001340A2 (en) * 2001-06-22 2003-01-03 Motion Sense Corporation Gesture recognition system and method
CN108171209A (zh) * 2018-01-18 2018-06-15 中科视拓(北京)科技有限公司 一种基于卷积神经网络进行度量学习的人脸年龄估计方法
CN109977841A (zh) * 2019-03-20 2019-07-05 中南大学 一种基于对抗深度学习网络的人脸识别方法
CN110135366A (zh) * 2019-05-20 2019-08-16 厦门大学 基于多尺度生成对抗网络的遮挡行人重识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘田丰 ; 马力.一种基于GAN的手势图像生成方法.《计算机与数字工程》.2020, *

Also Published As

Publication number Publication date
CN112200102A (zh) 2021-01-08

Similar Documents

Publication Publication Date Title
CN110335290B (zh) 基于注意力机制的孪生候选区域生成网络目标跟踪方法
CN113039563B (zh) 学习生成用于训练神经网络的合成数据集
CN112784092A (zh) 一种混合融合模型的跨模态图像文本检索方法
CN113158862B (zh) 一种基于多任务的轻量级实时人脸检测方法
CN112949647B (zh) 三维场景描述方法、装置、电子设备和存储介质
CN114332578A (zh) 图像异常检测模型训练方法、图像异常检测方法和装置
CN111476285B (zh) 一种图像分类模型的训练方法及图像分类方法、存储介质
CN115147891A (zh) 用于生成合成深度数据的系统、方法和存储介质
CN112926655B (zh) 一种图像内容理解与视觉问答vqa方法、存储介质和终端
CN112215101A (zh) 一种基于注意力机制的三维目标识别方法及系统
CN112767447A (zh) 基于深度霍夫优化投票的时敏单目标跟踪方法、存储介质和终端
CN114937083A (zh) 一种应用于动态环境的激光slam系统及方法
CN113343974A (zh) 考虑模态间语义距离度量的多模态融合分类优化方法
CN112200102B (zh) 一种自适应数据增强的二维人体姿态估计方法和系统
Sun et al. Two-stage deep regression enhanced depth estimation from a single RGB image
CN116091823A (zh) 一种基于快速分组残差模块的单特征无锚框目标检测方法
CN112287662B (zh) 基于多个机器学习模型的自然语言处理方法、装置和设备
CN114332565A (zh) 一种基于分布估计的条件生成对抗网络文本生成图像方法
CN113747168A (zh) 多媒体数据描述模型的训练方法和描述信息的生成方法
CN115311550A (zh) 遥感影像语义变化检测方法、装置、电子设备及存储介质
CN114626284A (zh) 一种模型处理方法及相关装置
CN111815658B (zh) 一种图像识别方法及装置
CN113066094A (zh) 一种基于生成对抗网络的地理栅格智能化局部脱敏方法
Zhao et al. End-to-end autonomous driving based on the convolution neural network model
CN118010009B (zh) 一种教育机器人在复杂环境下的多模态导航系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant