CN112580570A - 人体姿态图像的关键点检测方法 - Google Patents
人体姿态图像的关键点检测方法 Download PDFInfo
- Publication number
- CN112580570A CN112580570A CN202011568007.5A CN202011568007A CN112580570A CN 112580570 A CN112580570 A CN 112580570A CN 202011568007 A CN202011568007 A CN 202011568007A CN 112580570 A CN112580570 A CN 112580570A
- Authority
- CN
- China
- Prior art keywords
- human body
- unit
- convolution
- body posture
- channel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 230000007246 mechanism Effects 0.000 claims abstract description 33
- 238000001514 detection method Methods 0.000 claims abstract description 6
- 238000012549 training Methods 0.000 claims description 38
- 239000011159 matrix material Substances 0.000 claims description 36
- 238000011176 pooling Methods 0.000 claims description 14
- 230000009466 transformation Effects 0.000 claims description 14
- 230000011218 segmentation Effects 0.000 claims description 12
- 238000012795 verification Methods 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 11
- 238000013527 convolutional neural network Methods 0.000 claims description 11
- 238000012360 testing method Methods 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 8
- 238000002372 labelling Methods 0.000 claims description 7
- 210000003423 ankle Anatomy 0.000 claims description 5
- 210000003127 knee Anatomy 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 210000000707 wrist Anatomy 0.000 claims description 5
- 239000002131 composite material Substances 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 210000000697 sensory organ Anatomy 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 4
- 238000012986 modification Methods 0.000 abstract description 4
- 230000004048 modification Effects 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 7
- 230000009286 beneficial effect Effects 0.000 description 2
- 210000005069 ears Anatomy 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 210000001508 eye Anatomy 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 239000003086 colorant Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 210000003414 extremity Anatomy 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000010977 unit operation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- Image Analysis (AREA)
Abstract
本发明提供的人体姿态图像的关键点检测方法,本发明通过使用本发明的估计网络模型,通过设计分割通道块,将特征分成不同的通道,使得图像特征变得更加丰富,可以有效提升人体姿态检测的准确率。另外,本发明设计姿态修正机,通过改进通道注意力机制和空间注意力机制,引入上下文注意力机制提升修改的效果。可以有效地提高了人体姿态估计的准确率。
Description
技术领域
本发明涉及图像处理领域,尤其是涉及一种人体姿态图像的关键点检测方法。
背景技术
Cascaded Pyramid Network(CPN)是一种由粗到细的网络模型,通过利用单人的上下文信息完成人体姿态估计。Regional Multi-Person Pose Estimation(RMPE)由对称空间变换网络(SSTN),参数姿态非极大抑制(NMS)和姿态引导提议生成器(PGPG)三个部分组成,通过处理不精确的人体定位框和冗余检测,有效地提高了人体姿态估计的准确率。这些人体估计算法有效地提高了模型识别的准确率,但存在模型过大、预测速度较慢的问题,不利于在实际中使用。
发明内容
本发明提供了一种人体姿态图像的关键点检测方法,通过使用本发明的估计网络模型,通过设计分割通道块,将特征分成不同的通道,使得图像特征变得更加丰富,可以有效提升人体姿态检测的准确率。
本发明提供一种人体姿态图像的关键点检测方法,包括:第一获取步骤,获取若干张人体姿态图像并进行标注,生成一样本集;搭建步骤,搭建一个用于提取所述人体姿态图像的特征信息的估计网络,所述估计网络包括依次连接的卷积神经网络、残差阶梯网络、姿态修正机以及损失函数;训练步骤,输入所述训练样本集至所述估计网络中进行训练,得到一个人体姿态估计模型;测试步骤,输入一待分析的人体姿态图像,并执行姿态估计操作,以得到所述人体姿态的关键点信息;其中,所述残差阶梯网络用以接收所述卷积神经网络输出的特征信息并减少特征通道中的冗余信息,所述姿态修正机的通道注意力机制中具有空间注意力机制。
进一步地,所述第一获取步骤包括:第一采集步骤,采集一帧图像;以及预处理步骤,在所述一帧图像中定位每一个行人,形成若干张人体图像;打标签步骤,对所述若干张人体图像标注人体关键点后生成一样本集。
进一步地,所述标注的实例为人体关节点,具体包括:五官、左右肩、左右胳膊肘、左右手腕、左右臀、左右膝盖以及左右脚踝。
进一步地,所述卷积神经网络为7*7的二维卷积单元,其步长为2,用以输出64个通道的特征。
进一步地,所述训练步骤包括:样本集分类步骤,随机划分所述样本集为训练样本及测试样本;第一输入步骤,顺序读取所述训练样本的人体图像,并分批输入所述训练样本至所述估计网络的中,以执行训练操作;初级模型构建步骤,在训练过程中对所述估计网络的网络参数权重进行调整,以获得训练后的第一训练模型;验证步骤,输入所述测试样本至所述第一训练模型中进行验证操作;初级模型优化步骤,根据所述验证步骤的验证结果对所述第一训练模型进行优化,以获得所述估计模型;输出步骤,输出通过所述估计网络模型的卷积模块所计算得到的人体姿态的特征表示,输出通过所述估计网络模型的定位模块所计算得到的人体姿态的关键点位置信息,输出所述估计网络模型的人体姿态信息。
进一步地,所述残差阶梯网络包括4组残差阶梯单元,每组残差阶梯单元包括2个残差阶梯块;其中,每个残差阶梯块具有4个分支,每个分支包括若干个1*1和3*3的卷积单元,并且上层分支向下层传递特征信息。
进一步地,最后一路分支中还包括一通道切分模块,与所述卷积单元相连接;所述通道切分模块包括:分割单元,将输入的特征分成k个部分,其中,k>2,每一部分皆具有相同大小的通道,将该通道标号为C1~Ck;特征增强单元,分别连接通道C2~Ck-1,所述特征增强单元用以去除特征中的冗余结构,其中每一通道经所述特征增强单元输出的特征传递至下一通道中;拼接单元,将所述多个通道的输出进行特征拼接并输出;其中,通道C1的特征直接传递至所述拼接单元进行拼接,通道Ck接收通道Ck-1经所述特征增强单元输出的特征后,经过卷积操作输出至所述拼接单元。
进一步地,所述特征增强模块包括:第二分割单元,将所述特征增强模块每一个输入特征Fi平均分成第一组特征以及第二组特征;若干卷积单元,连接所述第一组特征以及所述第二组特征,所述第一组特征通过3×3卷积进行特征提取以获取内在特征,所述第二组特征通过1×1卷积进行特征提取以获取差异特征;若所述第一组特征包括多组子特征,则所述卷积单元对不同组别进行卷积。
进一步地,所述姿态修正机包括:第一卷积单元,对输入特征进行一3×3卷积操作;通道注意力机制路径,用以生成一通道注意力权重向量作用于输入特征的通道上;空间注意力机制路径,用以生成一空间注意力矩阵作用于输入特征的通道上;复合路径,将所述通道注意力权重向量与所述空间注意力矩阵作用于输入特征上;其中,所述通道注意力机制路径包括两个分支;在第一条分支上,输入特征经过两次1×1卷积单元后传递至第二条分支;在所述第二条分支上,输入特征依次经过全局平均池化与两次1×1卷积操作,最后将这两条分支的输出特征相加再经过激活函数生成权重向量;其中,空间注意力机制路径将输入特征依次经过一个1×1卷积单元、9×9深度可分离卷积单元以及上下文注意力模块后得到所述空间注意力矩阵。
进一步地,所述上下文注意力模块包括:第一卷积单元,用以将输入特征进行卷积操作;第二卷积单元,用以将输入特征进行卷积操作;第一变换单元,将所述第一卷积单元输出特征的尺寸转变成第一二维矩阵R;第二变换单元,将所述第二卷积单元输出特征的尺寸转变成二维矩阵并转置输出第二二维矩阵Q;关联单元,将所述第一二维矩阵R所述第二二维矩阵Q进行构建关联特征;第三变换单元,将所述关联特征转变为三维矩阵特征;平均池化单元,接收所述三维矩阵进行平均池化;sigmoid激活单元,连接所述平均池化单元;第三卷积单元,连接所述sigmoid激活单元,将三维矩阵特征的维度从三维变成二维,并输出注意力矩阵。
本发明的有益效果是:本发明提供的人体姿态图像的关键点检测方法,通过使用本发明的估计网络模型,通过设计分割通道块,将特征分成不同的通道,使得图像特征变得更加丰富,可以有效提升人体姿态检测的准确率。另外,本发明设计姿态修正机,通过改进通道注意力机制和空间注意力机制,引入上下文注意力机制提升修改的效果。可以有效地提高了人体姿态估计的准确率。
附图说明
下面结合附图,通过对本发明的具体实施方式详细描述,将使本发明的技术方案及其它有益效果显而易见。
图1为本发明实施例提供的估计网络模型的功能模块图。
图2为本发明实施例提供的残差阶梯网络的功能模块图。
图3为本发明实施例提供的残差阶梯块的功能模块图。
图4为本发明实施例提供的通道切分模块的功能模块图。
图5为本发明实施例提供的所述特征增强单元的功能模块图。
图6为本发明实施例提供的所述姿态修正机的功能模块图。
图7为本发明实施例提供的所述上下文注意力模块的功能模块图。
图8为本发明实施例提供的人体姿态图像的关键点检测方法的流程图。
图9为本发明实施例提供的训练步骤的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下文的公开提供了许多不同的实施方式或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。当然,它们仅仅为示例,并且目的不在于限制本发明。此外,本发明可以在不同例子中重复参考数字和/或参考字母,这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施方式和/或设置之间的关系。此外,本发明提供了的各种特定的工艺和材料的例子,但是本领域普通技术人员可以意识到其他工艺的应用和/或其他材料的使用。
如图1所示,本发明提供一种估计网络模型,其包括依次连接的卷积神经网络、残差阶梯网络、姿态修正机以及损失函数。
所述卷积神经网络为7*7的二维卷积单元,其步长为2,用以输出64个通道的特征,所述卷积神经网络用以接收训练图片并输出特征信息。。
如图2及图3所示,所述残差阶梯网络包括4组残差阶梯单元,每组残差阶梯单元(图2中的虚线框)包括2个残差阶梯块(图2中的RSB);其中,每个残差阶梯块具有4个分支,每个分支包括若干个1*1和3*3的卷积单元,并且上层分支向下层传递特征信息。具体地,每个残差阶梯块(Residual Steps Block,RSB)的结构如图2所示,具有4个分支,分别是第一分支f1、第二分支f2、第三分支f3、第四分支f4,每个分支包含若干1*1和3*3的卷积操作,并且上层分支向下层分支交换信息,最后经合并单元将四路分支的特征信息合并经1*1卷积单元卷积后输出特征信息。
如图4所示。最后一路分支,即第四分支f4中还包括一通道切分模块(Channel-Split Block,CSB),与所述卷积单元相连接;所述通道切分模块包括:分割单元、特征增强单元(图4中标记FEB,Feature-enhancemet Block)以及拼接单元。
所述分割单元将输入的特征分成k个部分,其中,k>2,每一部分皆具有相同大小的通道,将该通道标号为C1~Ck;所述特征增强单元分别连接通道C2~Ck-1,所述特征增强单元用以去除特征中的冗余结构,其中每一通道经所述特征增强单元输出的特征传递至下一通道中;所述拼接单元将所述多个通道的输出进行特征拼接并输出;其中,通道C1的特征直接传递至所述拼接单元进行拼接,通道Ck接收通道Ck-1经所述特征增强单元输出的特征后,经过卷积操作输出至所述拼接单元。具体地工作原理如下,通道切分模块首先将输入的特征分成k个部分(k>2),每个部分用Fi表示(1<=i<=k)。每一个Fi都有着相同大小的通道,通道数记为w。每一个Fi(1<i<=k-1)要经过特征增强单元,对应的特征增强单元记为Hi,用以去除特征中的部分冗余结构。Hi输出的特征记为Fi,1和Fi,2。然后Fi,1和下一组Fi+1进行拼接,当k-2个部分全部经过特征增强单元,输出的Fi,2和最后一个部分3×3卷积的输出特征一起拼接,拼接后的特征经过一个1×1卷积再和通道切分模块输入特征相加得到整个通道切分模块的输出。
所述特征增强单元包括:第二分割单元以及若干卷积单元。所述第二分割单元将所述特征增强模块每一个输入特征Fi平均分成第一组特征以及第二组特征;若干卷积单元连接所述第一组特征以及所述第二组特征,所述第一组特征通过3×3卷积进行特征提取以获取内在特征,所述第二组特征通过1×1卷积进行特征提取以获取差异特征。若所述第一组特征包括多组子特征,则所述卷积单元对不同组别进行卷积。如图5所示,其工作原理为:将每一个输入特征平均分成Yi,1、Yi,2,Yi,1通过3×3逐点卷积(Pointwise Convolution)进行特征提取以获取内在特征,而Yi,2通过1×1卷积对Yi,2进行特征提取以获取差异特征和补充微小精细的信息,同时降低计算量。为了进一步减少Yi,1内部通道中的相似特征,使用3×3分组卷积(Group Convolution),分组数为2。Yi,1的通道可以分成若干模块,每个模块都表示着一个主要的特征,例如:条纹、颜色等,分组卷积导致各个模块间的信息交流被隔断。针对这个问题,将分组卷积和逐点卷积同时对Yi,1提取特征,。完成特征提取后直接将这两个部分相加,既可以减少Yi,1内部通道中的相似特征和获得丰富的特征,也可减少Yi,1中的信息流失。
如图6所示,所述姿态修正机包括:第一卷积单元、通道注意力机制路径、空间注意力机制路径以及复合路径。所述第一卷积单元对输入特征进行一3×3卷积操作;所述通道注意力机制路径用以生成一通道注意力权重向量(Weight Vctor)作用于输入特征的通道上;所述空间注意力机制路径用以生成一空间注意力矩阵(Attention Matrix)作用于输入特征的通道上;所述复合路径将所述通道注意力权重向量与所述空间注意力矩阵作用于输入特征上;其中,所述通道注意力机制路径包括两个分支;在第一条分支上,输入特征经过两次1×1卷积单元后传递至第二条分支;在所述第二条分支上,输入特征依次经过全局平均池化(GP)与两次1×1卷积操作,最后将这两条分支的输出特征相加再经过激活函数生成权重向量;其中,空间注意力机制路径将输入特征依次经过一个1×1卷积单元、9×9深度可分离卷积单元以及上下文注意力模块后得到一空间注意力矩阵。其工作原理为:输入特征首先经过一个3×3卷积,接着被输入进三个路径,第一条路径是空间注意力机制路径,生成一个权重向量作用于输入特征的通道上;第二条为复合路径主要用于生成空间注意力,第二条路径将第一部分和第三部分生成的通道注意力和空间注意力作用于输入特征上,新的通道注意力机制在原有通道注意力机制的基础上增加空间信息。空间注意力机制可以有效提升肢体关键部位的定位效果。
如图7所示,所述上下文注意力模块包括:第一卷积单元、第二卷积单元、第一变换单元、第二变换单元、关联单元、第三变换单元、平均池化单元、sigmoid激活单元以及第三卷积单元。所述第一卷积单元用以将输入特征进行卷积操作;所述第二卷积单元用以将输入特征进行卷积操作;所述第一变换单元将所述第一卷积单元输出特征的尺寸转变成第一二维矩阵R;所述第二变换单元将所述第二卷积单元输出特征的尺寸转变成二维矩阵并转置输出第二二维矩阵Q;所述关联单元将所述第一二维矩阵R所述第二二维矩阵Q进行构建关联特征;所述第三变换单元将所述关联特征转变为三维矩阵特征;所述平均池化单元接收所述三维矩阵进行平均池化;所述sigmoid激活单元连接所述平均池化单元;所述第三卷积单元连接所述sigmoid激活单元,将三维矩阵特征的维度从三维变成二维,并输出注意力矩阵。其工作原理:将输入特征首先分别经过两个1×1卷积,之后将输出特征的尺寸分别通过第一变换单元以及第一变换单元操作变成二维,得到两个输出第一二维矩阵R以及第二二维矩阵Q。为了得到两个特征间的关联性并将两个特征相结合,这里构造一个关联特征A。接着将A通过第三变换单元操作变成三维。为了将得到的关联特征A归一化,采用平均池化以及sigmoid激活函数。最后,通过1×1卷积将A的维度从三维变成二维得到注意力矩阵。
如图8所示,本发明还提供一种人体姿态图像的关键点检测方法,包括如下步骤S1~ S4。关键点即人体关节点,具体包括鼻子、左右眼、左右耳、左右肩、左右胳膊肘、左右手腕、左右臀、左右膝盖、左右脚踝。
S1)第一获取步骤,获取若干张人体姿态图像并进行标注,生成一样本集。步骤S1包括:S101)采集一帧图像;以及预处理步骤,在所述一帧图像中定位每一个行人,形成若干张人体图像;S102)打标签步骤,对所述若干张人体图像标注人体关键点后生成一样本集。所述标注的实例为人体关节点,具体包括:五官、左右肩、左右胳膊肘、左右手腕、左右臀、左右膝盖以及左右脚踝。
S2)搭建步骤,搭建一个用于提取所述人体姿态图像的特征信息的估计网络,所述估计网络包括级联的卷积神经网络、残差阶梯网络、姿态修正机以及损失函数。
S3)训练步骤,输入所述训练样本集至所述估计网络中进行训练,得到一个人体姿态估计模型;如图9所示,步骤S3具体包括:S301)样本集分类步骤,随机划分所述样本集为训练样本及测试样本;S302)第一输入步骤,顺序读取所述训练样本的人体图像,并分批输入所述训练样本至所述估计网络的中,以执行训练操作;S303)初级模型构建步骤,在训练过程中对所述估计网络的网络参数权重进行调整,以获得训练后的第一训练模型;S304)验证步骤,输入所述测试样本至所述第一训练模型中进行验证操作;S305)初级模型优化步骤,根据所述验证步骤的验证结果对所述第一训练模型进行优化,以获得所述估计模型;S306)输出步骤,输出通过所述估计网络模型的卷积模块所计算得到的人体姿态的特征表示,输出通过所述估计网络模型的定位模块所计算得到的人体姿态的关键点位置信息,输出所述估计网络模型的人体姿态信息。
S4)测试步骤,输入一待分析的人体姿态图像,并执行姿态估计操作,以得到所述人体姿态的关键点信息。其中,所述残差阶梯网络用以接收所述卷积神经网络输出的特征信息并减少特征通道中的冗余信息,在所述姿态修正机的通道注意力机制中,通过增强姿态修正机中的空间注意力机制。
本发明提供的人体姿态图像的关键点检测方法,通过使用本发明的估计网络模型,通过设计分割通道块,将特征分成不同的通道,使得图像特征变得更加丰富,可以有效提升人体姿态检测的准确率。另外,本发明设计姿态修正机,通过改进通道注意力机制和空间注意力机制,引入上下文注意力机制提升修改的效果。可以有效地提高了人体姿态估计的准确率。
在公开的COCO数据集上,使用COCO train2017作为训练集,其中包含50K张行人图片和150K个person标注实例,每个标注实例包含了人体的17个关键点(包括鼻子、左右眼、左右耳、左右肩、左右胳膊肘、左右手腕、左右臀、左右膝盖、左右脚踝)作为标签,输入到图1的估计网络中,训练该人体姿态估计深度学习模型。接着,使用该训练好的模型,把testing-dev(包含20K图片)作为测试集,测试人体姿态估计模型的性能。常用的性能指标:平均精度(Average Precision)达到74.9%,相较于最新的Residual Steps Network18和Residual Steps Network50,模型的AP分别提高3.9%和2.4%。
以上对本发明进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的技术方案及其核心思想;本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例的技术方案的范围。
Claims (10)
1.一种人体姿态图像的关键点检测方法,其特征在于,包括:
第一获取步骤,获取若干张人体姿态图像并进行标注,生成一样本集;
搭建步骤,搭建一个用于提取所述人体姿态图像的特征信息的估计网络,所述估计网络包括依次连接的卷积神经网络、残差阶梯网络、姿态修正机以及损失函数;
训练步骤,输入所述训练样本集至所述估计网络中进行训练,得到一个人体姿态估计模型;
测试步骤,输入一待分析的人体姿态图像,并执行姿态估计操作,以得到所述人体姿态的关键点信息;
其中,所述残差阶梯网络用以接收所述卷积神经网络输出的特征信息并减少特征通道中的冗余信息,所述姿态修正机的通道注意力机制中具有空间注意力机制。
2.如权利要求1所述的人体姿态图像的关键点检测方法,其特征在于,
所述第一获取步骤包括:
第一采集步骤,采集一帧图像;以及预处理步骤,在所述一帧图像中定位每一个行人,形成若干张人体图像;
打标签步骤,对所述若干张人体图像标注人体关键点后生成一样本集。
3.如权利要求1所述的人体姿态图像的关键点检测方法,其特征在于,
所述标注的实例为人体的关节点,具体包括:五官、左右肩、左右胳膊肘、左右手腕、左右臀、左右膝盖以及左右脚踝。
4.如权利要求1所述的人体姿态图像的关键点检测方法,其特征在于,
所述卷积神经网络为7*7的二维卷积单元,其步长为2,用以输出64个通道的特征。
5.如权利要求1所述的人体姿态图像的关键点检测方法,其特征在于,
所述训练步骤包括:
样本集分类步骤,随机划分所述样本集为训练样本及测试样本;
第一输入步骤,顺序读取所述训练样本的人体图像,并分批输入所述训练样本至所述估计网络的中,以执行训练操作;
初级模型构建步骤,在训练过程中对所述估计网络的网络参数权重进行调整,以获得训练后的第一训练模型;
验证步骤,输入所述测试样本至所述第一训练模型中进行验证操作;
初级模型优化步骤,根据所述验证步骤的验证结果对所述第一训练模型进行优化,以获得所述估计模型;
输出步骤,输出通过所述估计网络模型的卷积模块所计算得到的人体姿态的特征表示,输出通过所述估计网络模型的定位模块所计算得到的人体姿态的关键点位置信息,输出所述估计网络模型的人体姿态信息。
6.如权利要求1所述的人体姿态图像的关键点检测方法,其特征在于,
所述残差阶梯网络包括4组残差阶梯单元,每组残差阶梯单元包括2个残差阶梯块;
其中,每个残差阶梯块具有4个分支,每个分支包括若干个1*1和3*3的卷积单元,并且上层分支向下层传递特征信息。
7.如权利要求6所述的人体姿态图像的关键点检测方法,其特征在于,
最后一路分支中还包括一通道切分模块,与所述卷积单元相连接;
所述通道切分模块包括:
分割单元,将输入的特征分成k个部分,其中,k>2,每一部分皆具有相同大小的通道,将该通道标号为C1~Ck;
特征增强单元,分别连接通道C2~Ck-1,所述特征增强单元用以去除特征中的冗余结构,其中每一通道经所述特征增强单元输出的特征传递至下一通道中;
拼接单元,将所述多个通道的输出进行特征拼接并输出;
其中,通道C1的特征直接传递至所述拼接单元进行拼接,通道Ck接收通道Ck-1经所述特征增强单元输出的特征后,经过卷积操作输出至所述拼接单元。
8.如权利要求7所述的人体姿态图像的关键点检测方法,其特征在于,
所述特征增强模块包括:
第二分割单元,将所述特征增强模块每一个输入特征Fi平均分成第一组特征以及第二组特征;
若干卷积单元,连接所述第一组特征以及所述第二组特征,所述第一组特征通过3×3卷积进行特征提取以获取内在特征,所述第二组特征通过1×1卷积进行特征提取以获取差异特征;
若所述第一组特征包括多组子特征,则所述卷积单元对不同组别进行卷积。
9.如权利要求1所述的人体姿态图像的关键点检测方法,其特征在于,
所述姿态修正机包括:
第一卷积单元,对输入特征进行一3×3卷积操作;
通道注意力机制路径,用以生成一通道注意力权重向量作用于输入特征的通道上;
空间注意力机制路径,用以生成一空间注意力矩阵作用于输入特征的通道上;
复合路径,将所述通道注意力权重向量与所述空间注意力矩阵作用于输入特征上;
其中,所述通道注意力机制路径包括两个分支;
在第一条分支上,输入特征经过两次1×1卷积单元后传递至第二条分支;在所述第二条分支上,输入特征依次经过全局平均池化与两次1×1卷积操作,最后将这两条分支的输出特征相加再经过激活函数生成权重向量;
其中,空间注意力机制路径将输入特征依次经过一个1×1卷积单元、9×9深度可分离卷积单元以及上下文注意力模块后得到所述空间注意力矩阵。
10.如权利要求9所述的人体姿态图像的关键点检测方法,其特征在于,
所述上下文注意力模块包括:
第一卷积单元,用以将输入特征进行卷积操作;
第二卷积单元,用以将输入特征进行卷积操作;
第一变换单元,将所述第一卷积单元输出特征的尺寸转变成第一二维矩阵R;
第二变换单元,将所述第二卷积单元输出特征的尺寸转变成二维矩阵并转置输出第二二维矩阵Q;
关联单元,将所述第一二维矩阵R所述第二二维矩阵Q进行构建关联特征;
第三变换单元,将所述关联特征转变为三维矩阵特征;
平均池化单元,接收所述三维矩阵进行平均池化;
sigmoid激活单元,连接所述平均池化单元;
第三卷积单元,连接所述sigmoid激活单元,将三维矩阵特征的维度从三维变成二维,并输出注意力矩阵。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011568007.5A CN112580570B (zh) | 2020-12-25 | 人体姿态图像的关键点检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011568007.5A CN112580570B (zh) | 2020-12-25 | 人体姿态图像的关键点检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112580570A true CN112580570A (zh) | 2021-03-30 |
CN112580570B CN112580570B (zh) | 2024-06-21 |
Family
ID=
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109874029A (zh) * | 2019-04-22 | 2019-06-11 | 腾讯科技(深圳)有限公司 | 视频描述生成方法、装置、设备及存储介质 |
CN110647893A (zh) * | 2019-09-20 | 2020-01-03 | 北京地平线机器人技术研发有限公司 | 目标对象识别方法、装置、存储介质和设备 |
CN111640121A (zh) * | 2020-04-28 | 2020-09-08 | 南京理工大学 | 基于改进U-net的直肠CT图像肿瘤分割方法 |
CN111738295A (zh) * | 2020-05-22 | 2020-10-02 | 南通大学 | 图像的分割方法及存储介质 |
CN111915531A (zh) * | 2020-08-06 | 2020-11-10 | 温州大学 | 一种多层次特征融合和注意力引导的神经网络图像去雾方法 |
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109874029A (zh) * | 2019-04-22 | 2019-06-11 | 腾讯科技(深圳)有限公司 | 视频描述生成方法、装置、设备及存储介质 |
CN110647893A (zh) * | 2019-09-20 | 2020-01-03 | 北京地平线机器人技术研发有限公司 | 目标对象识别方法、装置、存储介质和设备 |
CN111640121A (zh) * | 2020-04-28 | 2020-09-08 | 南京理工大学 | 基于改进U-net的直肠CT图像肿瘤分割方法 |
CN111738295A (zh) * | 2020-05-22 | 2020-10-02 | 南通大学 | 图像的分割方法及存储介质 |
CN111915531A (zh) * | 2020-08-06 | 2020-11-10 | 温州大学 | 一种多层次特征融合和注意力引导的神经网络图像去雾方法 |
Non-Patent Citations (1)
Title |
---|
YUANHAO CAI ET AL.: "Learning Delicate Local Representations for Multi-person Pose Estimation", 《ECCV 2020》, 3 December 2020 (2020-12-03), pages 455 - 472 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111563508B (zh) | 一种基于空间信息融合的语义分割方法 | |
CN111626300B (zh) | 基于上下文感知的图像语义分割模型的图像分割方法及建模方法 | |
CN112541501B (zh) | 一种基于视觉语言建模网络的场景文字识别方法 | |
CN112001931A (zh) | 图像分割方法、装置、设备及存储介质 | |
CN112954399B (zh) | 一种图像处理方法、装置以及计算机设备 | |
CN114612902A (zh) | 图像语义分割方法、装置、设备、存储介质及程序产品 | |
CN117237559A (zh) | 面向数字孪生城市的三维模型数据智能分析方法及系统 | |
CN117033609B (zh) | 文本视觉问答方法、装置、计算机设备和存储介质 | |
CN113255597A (zh) | 一种基于transformer的行为分析方法、装置及其终端设备 | |
CN112580570A (zh) | 人体姿态图像的关键点检测方法 | |
CN110490876B (zh) | 一种基于轻量级神经网络的图像分割方法 | |
CN116977822A (zh) | 一种融合CNN与Transformer模型的图像识别网络 | |
CN115861861A (zh) | 一种基于无人机配电线路巡检的轻量级验收方法 | |
CN116796287A (zh) | 图文理解模型的预训练方法、装置、设备及存储介质 | |
CN112580570B (zh) | 人体姿态图像的关键点检测方法 | |
CN113255675B (zh) | 基于扩张卷积和残差路径的图像语义分割网络结构及方法 | |
CN113554655B (zh) | 基于多特征增强的光学遥感图像分割方法及装置 | |
CN115171052A (zh) | 基于高分辨率上下文网络的拥挤人群姿态估计方法 | |
CN115331261A (zh) | 基于YOLOv6的移动端实时人体检测方法及系统 | |
CN115131551A (zh) | 一种基于互相关自注意力机制的目标特征提取方法 | |
CN114627370A (zh) | 一种基于transformer特征融合的高光谱影像分类方法 | |
CN113496228A (zh) | 一种基于Res2Net、TransUNet和协同注意力的人体语义分割方法 | |
CN113569886A (zh) | 网络结构调整方法、装置和存储介质及电子设备 | |
CN113825148A (zh) | 网络节点告警等级的确定方法、装置及计算设备 | |
Yang et al. | RUW-Net: A Dual Codec Network for Road Extraction From Remote Sensing Images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |