CN114529944A

CN114529944A - 一种结合人体关键点热图特征的人像景别识别方法

Info

Publication number: CN114529944A
Application number: CN202210137627.6A
Authority: CN
Inventors: 沈思成; 孔彦; 吴富章; 武延军
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2022-02-15
Filing date: 2022-02-15
Publication date: 2022-05-24
Anticipated expiration: 2042-02-15
Also published as: CN114529944B

Abstract

本发明公开了一种结合人体关键点热图特征的人像景别识别方法。本发明首先通过人体检测器检测出人体区域，然后基于深度学习的特征提取器和卷积姿态机分别提取人体的特征和人体骨骼关键点热图特征，将这两个特征进行通道融合得到融合特征；将融合特征分别送入两个分支网络，其中分类网络用于分类当前的景别类型；另一个分支回归网络则是对人体骨骼关键点的预测，在L2loss损失函数的监督下，对景别分类网络起到正反馈的作用，有利于分类网络能够学习到与人体骨骼关键点相关的强特征。这种输入输出双监督的机制，能够有效监督网络重点学习有利于判断景别的人体骨骼关键区域；本发明提供的方法能够较为稳定的识别景别，并且鲁棒性很好。

Description

一种结合人体关键点热图特征的人像景别识别方法

技术领域

本发明属于智能图像美学领域，具体涉及一种结合人体关键点热图特征的人像景别识别方法。

背景技术

景别识别在图像领域应用十分广泛，从我们的日常拍照到专业摄影学制作等等，景别的识别都是非常重要的一项技术，不同的景别能够展现出不同的情感需要，根据景别的不同也能够判断出人物的感情色彩，景别的识别对于摄影来说也越来越成为刚需。

景别识别广泛应用于图像领域，尤其是在摄影学行业，景别作为照片的一种隐藏属性，发挥着不可或缺的作用。景别的具体定义是根据摄像机与对象之间的距离和镜头焦距的长短来确定的，距离越远表现的信息越抽象，距离越近表现的信息就越具体，从而实现不同的景别展示当前画面的不同程度的信息。通常景别被分为5种：远景、全景、中景、近景、特写，不同景别的画面给人视觉上的感受是不同的，表现的情感也不同。例如在电影视频中，观众可根据当前画面不同的景别判断画面中人物的情感，同一个人不同的景别切换，也可以给人们带来巧妙地视觉变化，表现力更加丰富，不同艺术效果的景别组合在一起，也能够让观众更加深刻感受到主人公的情绪变化。另外景别的识别为AI拍照也提供了基础技术支持。例如在做智能构图、姿势推荐等高级功能时，首先需要解决的问题就是判断当前被拍摄主体的景别，所以景别的识别是一项重要且基础的功能。

在深度学习没有问世之前，人们采用传统机器学习的方法，像贝叶斯分类器、SVM(Support Vector Machines)分类器等来做景别的识别，这些方法在表达图像位置信息的能力有限，做图像分类任务时效果并不是很好，导致景别识别的准确率不高。深度学习广泛应用之后，深度学习模型也被应用到各种图像识别任务中，目前基于深度学习模型的景别识别方法主要是基于特征提取和基于人体骨骼关键点这两种方法。其中基于特征提取是通过卷积神经网络提取当前画面的特征，然后再将提取到的特征通过分类器来做出最终的分类。这种基于卷积神经网络提取特征的方法相比传统机器学习方法效果要好，因为卷积神经网络一定程度上能够表达当前画面各像素点之间的位置关系。但是这种方法也还有缺点，网络在学习特征时是针对整个人体区域，而无法聚焦于关键部分，其实人体骨骼关键点和景别之间存在着强关联性，人体骨骼关键点对景别的识别起着至关重要的作用，景别的识别本质上就是判断人体某个部位的骨骼关键点是否出现在当前画面中。例如当前画面中如果出现脚部的关键点，可以将当前景别为中景以上的类型直接排除。所以解决这个问题的关键就是为模型提供更多的先验知识，让网络有重点的学习需要学习的部分。而基于人体骨骼关键点检测是通过人体姿态估计算法提取出人体骨骼关键点坐标，然后依据人体骨骼关键点和景别之间的强关联性直接判断景别。这种方法对于人体姿态估计算法依赖性过强，由于人体姿态估计是一项极为复杂的任务，在预测人体关键点坐标绝对位置时容易出错，对景别的识别有很大的影响。目前国内外大多数景别识别的技术都是基于深度学习模型，还有一些是在构建大量数据集的基础上训练传统的机器学习模型，像通过贝叶斯分类器，SVM分类器，随机森林等等。

以上这些技术各有优缺点，对于传统的机器学习模型其优点就是容易部署，对硬件要求不高，但是在做景别的分类这样的任务时，尤其是图像的分类任务，不如深度卷积神经网络的效果好，因为它最大的一个缺点就是无法表达当前图片中各像素点之间的位置信息，而这点对于图像的识别尤为重要。相反卷积神经网络是通过卷积核不断地对原图做卷积，在卷积的过程中能够一定程度保留图像中各像素点之间的的位置信息，同时卷积核的大小数目和步长尺寸能够决定提取的特征信息为高维特征还是低维特征。针对一些复杂情况，例如图像中人体被遮挡时，采取大的卷积核拥有大的感受野对于图像的识别十分有帮助。相比于传统机器学习模型，深度学习模型可以更为灵活的提取图像的特征信息。

虽然基于特征提取的深度学习模型在做图像分类任务时略胜一筹，但是针对具体的图像分类任务，这种方法还有很大的提升空间。针对景别识别任务，深度学习模型提取特征时，是将整个人体区域送入网络，然后提取人体全局特征，缺少重点，对于景别识别这个具体任务，关键是要重点提取人体的骨骼关键位置的特征信息，因为景别和人体骨骼关键点之间是一种强关系。而对于基于特征提取的深度学习模型并没有这些先验知识，只能提取全局特征，缺少一种监督。基于人体关键点的深度学习模型先检测出人体关键点坐标，利用人体骨骼关键点和景别之间的强关系直接判断景别，这种方法理论上是可行的，但是这种方法完全依赖于人体姿态估计算法，而人体姿态估计算法比较复杂，在预测人体关键点绝对位置时不稳定，这会对景别的识别有很大的影响。

发明内容

针对现有技术中存在的技术问题，本发明的目的在于提供一种结合人体关键点热图特征的人像景别识别方法。本发明根据景别对应关系，主要针对人体区域，把景别分为了更为具体的六种：分别为远景、接近远景、中景、接近中景、近景、接近近景，并且取得了很好的识别效果。本方法如图1所示，具体流程包括：首先通过人体检测器检测出人体区域，然后基于深度学习的特征提取器和卷积姿态机分别提取人体的特征和人体骨骼关键点热图特征，将这两个特征进行通道拼接得到拼接特征。将拼接特征分别送入两个分支网络，其中景别分类网络用于分类当前的景别类型。另一个分支监督网络输出人体骨骼关键点，在L2loss损失函数的监督下，对景别分类网络起到正反馈的作用，有利于景别分类网络学习到与人体骨骼关键点相关的强特征。这种输入输出双监督的机制，能够有效监督网络重点学习有利于判断景别的人体骨骼关键区域。本发明提供的方法能够较为稳定的识别景别，并且鲁棒性很好。

本发明的技术方案为：

一种结合人体关键点热图特征的人像景别识别方法，其步骤包括：

1)收集不同场景下包含人体图像的数据集，对所述数据集中每一张图像进行景别的标注和人体骨骼关键点坐标的标注；

2)利用所述数据集训练人像景别识别网络；其中，所述人像景别识别网络包括人体检测器、特征提取器模型、卷积姿态机模型、分类网络和监督网络；训练方法为：

21)人体检测器检测所述数据集中图像X_i的人体区域，得到图像X_i的人体图像I_i并分别发送给特征提取器模型、卷积姿态机模型；特征提取器模型从图像I_i中获取人体的全局特征向量M_w，卷积姿态机模型从图像I_i中获取人体骨骼关键点热图的局部特征向量N_v；

22)将特征向量M_w和特征向量N_v拼接得到拼接特征F_k并分别发送给分类网络、监督网络；分类网络根据输入的拼接特征F_k得到图像X_i的景别类别，然后根据分类网络输出的景别类别与图像X_i标注的景别类别计算交叉熵损失函数L₁；监督网络根据输入的拼接特征F_k得到图像X_i的人体骨骼关键点坐标，然后根据监督网络输出的人体骨骼关键点坐标与图像X_i上标注的真实骨骼关键点坐标计算均方误差损失L₂；

23)采用Adam优化器对总损失L＝L₁+L₂进行优化并对总损失L进行反向传播，最小化总损失；

3)将待人像景别识别的图像输入训练后的人像景别识别网络，所述人像景别识别网络中的人体检测器、特征提取器模型、卷积姿态机模型对输入图像进行处理得到对应的拼接特征并将其发送给分类网络，输出对应的人像景别类别。

进一步的，所述分类网络包括依次连接的第一全连接层、激活层、Dropout层和第二全连接层；将拼接特征F_k输入到分类网络，依次经过由M(M∈[640,1280])个神经元组成的第一全连接层，激活层再按照

激活神经元；然后通过Dropout层以设定概率随机失活部分神经元防止过拟合，最后通过由N(N∈[640,1280])个神经元组成的第二全连接层，第二全连接层采用线性函数y＝x′A^T+b，x′表示Dropout层的输出结果，A和b是需要学习的参数。

进一步的，所述交叉熵损失函数

其中，C是景别种类的个数，y是样本标签，n是样本数，w_c是每个类别占L₁的权重。

进一步的，监督网络根据其输出的人体骨骼关键点坐标(x_j,y_j)和标注的真实人体骨骼关键点坐标(x_i,y_i)之间的欧式距离，计算均方误差损失

进一步的，所述景别包括远景、接近远景、中景、接近中景、近景和接近近景。

进一步的，所述人体骨骼关键点包括右肩、右肘、右腕、左肩、左肘、左腕、右髋、右膝、右踝、左髋、左膝、左踝、头顶和脖子。

一种人像景别识别网络，其特征在于，包括人体检测器、特征提取器模型、卷积姿态机模型、分类网络；其中，

所述人体检测器，用于检测输入图像X_i的人体区域，得到图像X_i的人体图像I_i；

所述特征提取器模型，用于从图像I_i中获取人体的全局特征向量M_w；

所述卷积姿态机模型，用于从图像I_i中获取人体骨骼关键点热图的局部特征向量N_v；

所述分类网络，用于根据特征向量M_w和特征向量N_v拼接所得拼接特征F_k得到图像X_i的景别类别。

一种服务器，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行上述方法中各步骤的指令。

一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述方法的步骤。

本发明的优点如下：

本发明采用了一种新型的特征提取方法，融合了CNN(Convolutional NeuralNetwork)提取的全局特征和卷积姿态机提取的人体骨骼关键点热图的局部特征，全局特征能够拥有全局的感受野，局部特征能够为全局特征提供监督，可以让网络重点学习我们想要关注的部分的同时而不会丢失其他次要部分信息。同时监督网络输出的人体骨骼关键点通过均方误差损失函数的反向传播为景别分类提供监督。这种输入输出双监督的方法对于人体姿势比较复杂的情况，更能体现出优势，因为普通的深度学习模型提取的景别特征不够充分，很难达到景别识别的标准，但是基于人体骨骼关键点热图的拼接特征能够为较为模糊的特征提供进一步的精细信息。由于总损失是L₁和L₂组成，要最小化总损失就需要平衡L₁和L₂之间的关系，这也使得L₁和L₂之间是相互影响相互促进的关系，即景别分类网络分类的越准对监督网络有正反馈的作用，同时监督网络预测的人体骨骼关键点坐标越精确对景别分类网络也起到正反馈的作用。这样对于景别分类网络来说，有利于景别分类网络更准确的学习到跟景别相关的强特征，从而使得模型能够对当前景别做一个更为准确的分类。这种方法在景别识别中取得了较好的效果，有效提高了模型的准确率和鲁棒性，不管是针对单人景别识别还是多人景别识别都能够很好的完成任务，同时也能够为智能构图、姿势推荐这样的高级任务提供准确的基础服务。

附图说明

图1为基于人体骨骼关键点热图特征的景别识别流程图。

图2为分类网络和监督网络结构示意图。

具体实施方式

下面结合附图对本发明进行进一步详细描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

本发明的流程包括：

1.收集不同场景下包含人体照片的数据集，对每一张照片进行景别的标注和人体骨骼关键点坐标的标注。对于照片X_i，标注人体景别的标签Y_i，Y_i的取值范围为0～5，我们将景别分为六类分别为：远景、接近远景、中景、接近中景、近景、接近近景。其中各个景别的定义如下：

(1)远景：人体从头顶到脚，全部可见

(2)接近远景：人体从头顶到(膝盖以下与脚之间)

(3)中景：从人体头顶到(膝盖以上与腰部之间)

(4)接近中景：人体从头顶到(膝盖区间)

(5)近景：人体从头顶到(腰部以上与胸部以下之间)

(6)接近近景：人体从头顶到(胸部以上)

对于人体骨骼关键点坐标的标注，标注形式为(x_i,y_i)，标注的关键点我们分为以下部分：

(1)右肩

(2)右肘

(3)右腕

(4)左肩

(5)左肘

(6)左腕

(7)右髋

(8)右膝

(9)右踝

(10)左髋

(11)左膝

(12)左踝

(13)头顶

(14)脖子

2.构建人体检测器模型。人体检测器模型用于检测当前图片中的人体区域，景别是相对于人体区域而言的，所以人体检测器的构建也会直接影响最终景别识别的准确率。图片X_i经过人体检测器之后得到图像I_i。

3.分别构造双分支模型，特征提取器模型和卷积姿态机模型。特征提取器模型用于学习人体的全局特征，卷积姿态机模型用于学习人体的局部特征。图像I_i经过特征提取器编码后得到的特征向量M_w＝[M₁,M₂,…,M_w],

图像I_i经过卷积姿态机编码后得到特征向量N_v＝[N₁,N₂,…,N_v],

4.将特征向量M_w＝[M₁,M₂,…,M_w],

和特征向量N_v＝[N₁,N₂,…,N_v],

拼接得到拼接特征F_k＝f(M_k,N_k)。

5.构建双分支网络，分类网络和监督网络。其中，分类网络用于景别的分类，监督网络的作用是在输出人体骨骼关键点坐标时L的反向传播为分类网络提供监督。分类网络依次由第一全连接层，激活层，Dropout层，第二全连接层组成。如图1中分支1所示，将拼接特征F_k输入到分类网络，依次经过由M(M∈[640,1280])个神经元组成的第一全连接层得到x，激活层再按照如下方式激活神经元：

然后通过Dropout层以20％概率随机失活部分神经元防止过拟合，最后再次通过由

T N(N∈[640,1280])个神经元组成的第二全连接层。第二全连接层采用线性函数y＝x′A+b，x′表示Dropout层的输出结果，A和b是需要学习的参数。最终得到各个景别的分数。

监督网络则是由两个全连接层组成，如图1分支2所示，拼接特征F_k经过两个全连接层之后输出14个人体骨骼关键点的坐标。根据输出的人体骨骼关键点坐标和对应的真实骨骼关键点坐标计算L2损失函数，监督网络就是靠损失函数的反向传播来为分类网络提供监督。

6.根据不同的网络分别定义损失函数，景别分类采用交叉熵损失函数CrossentropyLoss，公式如下：

其中，C是景别种类的个数，y是样本标签，n是样本数，w_c是每个类别c占L₁的权重，F_k是输入(即拼接特征)。监督网络根据其输出的人体骨骼关键点坐标(x_j,y_j)和真实人体骨骼关键点坐标(x_i,y_i)之间的欧式距离，计算均方误差损失：

总损失为：

L＝L₁+L₂

7.采用Adam优化器对上述总损失进行优化。

8.将融合特征F_k同时输入到分类网络和监督网络中，分别计算损失函数，然后再将两个损失相加得到总损失L，再通过backward函数，对总损失进行反向传播。总损失反向传播的过程中，要使总损失最小，就需要两个分支网络的损失达到一种平衡，这样L₁和L₂之间就能够互相起到约束的作用，互相监督着对方朝着最优的方向优化，以达到两个任务相互监督的效果。

9.将待人像景别识别的图像输入训练后的人体检测器、特征提取器模型、卷积姿态机模型，得到对应的拼接特征并将其发送给分类网络，输出对应的人像景别类别。

尽管为说明目的公开了本发明的具体实施例，其目的在于帮助理解本发明的内容并据以实施，本领域的技术人员可以理解：在不脱离本发明及所附的权利要求的精神和范围内，各种替换、变化和修改都是可能的。因此，本发明不应局限于最佳实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种结合人体关键点热图特征的人像景别识别方法，其步骤包括：

23)采用Adam优化器对总损失L＝L₁+L₂进行优化并对总损失L进行反向传播，

最小化总损失；

2.根据权利要求1所述的方法，其特征在于，所述分类网络包括依次连接的第一全连接层、激活层、Dropout层和第二全连接层；将拼接特征F_k输入到分类网络，依次经过由M个神经元组成的第一全连接层，再按照激活层

激活神经元；然后通过Dropout层以设定概率随机失活部分神经元防止过拟合，最后通过由N个神经元组成的第二全连接层，第二全连接层采用线性函数y＝x′A^T+b，x′表示Dropout的输出结果，A和b是需要学习的参数。

3.根据权利要求1或2所述的方法，其特征在于，所述交叉熵损失函数

4.根据权利要求1所述的方法，其特征在于，监督网络根据其输出的人体骨骼关键点坐标(x_j,y_j)和标注的真实人体骨骼关键点坐标(x_i,y_i)之间的欧式距离，计算均方误差损失

5.根据权利要求1所述的方法，其特征在于，所述景别包括远景、接近远景、中景、接近中景、近景和接近近景。

6.根据权利要求1所述的方法，其特征在于，所述人体骨骼关键点包括右肩、右肘、右腕、左肩、左肘、左腕、右髋、右膝、右踝、左髋、左膝、左踝、头顶和脖子。

7.一种人像景别识别网络，其特征在于，包括人体检测器、特征提取器模型、卷积姿态机模型、分类网络；其中，

8.一种服务器，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行权利要求1至7任一所述方法中各步骤的指令。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7任一所述方法的步骤。