CN109190458B - 一种基于深度学习的小人头检测方法 - Google Patents

一种基于深度学习的小人头检测方法 Download PDF

Info

Publication number
CN109190458B
CN109190458B CN201810800214.5A CN201810800214A CN109190458B CN 109190458 B CN109190458 B CN 109190458B CN 201810800214 A CN201810800214 A CN 201810800214A CN 109190458 B CN109190458 B CN 109190458B
Authority
CN
China
Prior art keywords
image
head
training
small
test
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810800214.5A
Other languages
English (en)
Other versions
CN109190458A (zh
Inventor
陈梓蓉
金连文
孙梓凯
彭德智
蔡子瑞
谢乐乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201810800214.5A priority Critical patent/CN109190458B/zh
Publication of CN109190458A publication Critical patent/CN109190458A/zh
Application granted granted Critical
Publication of CN109190458B publication Critical patent/CN109190458B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/35Categorising the entire scene, e.g. birthday party or wedding scene
    • G06V20/36Indoor scenes

Abstract

本发明公开了一种基于深度学习的小人头检测方法,包括下述步骤:(1)采集大量图像形成训练集和测试集;(2)对训练集和测试集进行精准贴边的人头标注;(3)利用R‑FCN框架,构造深度卷积神经网络,然后利用训练集图像并采用批量训练的随机梯度下降法对所构造的深度神经网络进行训练;(4)基于视觉透视变换对测试图像进行切割再部分放大;(5)将切割并放大后的测试图像,输入步骤(3)所构造的深度卷积神经网络,神经网络输出结果通过Softmax激活函数得到每个预测框的概率分布,计算最小损失函数,根据最小损失函数输出检测结果。本发明通过深度学习算法从图片样本中自动学习出人头与其它背景的不同特征,能够智能的对密集的小人头进行检测。

Description

一种基于深度学习的小人头检测方法
技术领域
本发明涉及模式识别与人工智能技术领域,特别涉及一种基于深度学习的小人头检测方法。
背景技术
随着计算机技术的快速发展和安全意识的增强,监控摄像头在安防方面有重要的作用。同时小人头检测在监控安全,智慧教室,智能交通等各行各业也有了广泛的运用,人们对小人头检测的精度也有更高的要求。小人头检测的应用具有很大的便利,因此提高小人头检测的准确性具有重要意义。
卷积神经网络是人工神经网络的一种,是为了识别二维形状而设计的多层感知器这种网络结构平移,比例缩放,倾斜或者其他形式的变形具有不变性,已经成为当前语音和图像识别领域的研究热点。卷积神经网络类似于生物神经网络,具有权值共享网络结构,大大降低了网络模型的复杂度,减少了权值的数量。该优点在网络的输入是多维图像时表现的比较明显,图像可以作为网络输入,避免了传统识别算法复杂特征提取和数据重建过程。
近几年来,卷积神经的研究工作不断深入,已经取得了很大的进展,其在语音和图片领域解决了许多问题表现出了良好的智能特性。
发明内容
本发明的目的在于克服现有技术中的缺点与不足,提供一种基于深度学习的小人头检测方法,该方法能够学习检测出人头特征从而更好的检测不同角度,不同像素的人头,具有效率高、识别率高的特点。
为实现以上目的,本发明采取如下技术方案:
一种基于深度学习的小人头检测方法,包括下述步骤:
(1)获取数据:采集不同室内场景的大量图像形成训练集和测试集;
(2)对所述训练集和测试集图像进行精准贴边的人头标注;
(3)利用R-FCN框架,构造深度卷积神经网络,然后利用训练集图像并采用批量训练的随机梯度下降法对所构造的深度神经网络进行训练,设定网络初始参数及迭代更新方式;
(4)对测试集图像进行变换处理,具体为:基于视觉透视变换对测试集图像进行聚类切割再部分放大;
(5)将变换处理后的测试集图像输入步骤(3)训练完成的深度卷积神经网络,得到概率分布,再通过计算损失函数,输出识别结果。
作为优选的技术方案,在步骤(1)中,通过采集课室内监控以及网络爬虫后再通过人工筛选出复杂的图像样本来获得数据,在所形成的训练集中,人头样本包括不同角度不同人数的大小人头,部分遮挡人头,重叠人头的正、侧、后部和顶部。
作为优选的技术方案,步骤(2)中,通过人工严格标注,将训练集和测试集图像放大到原来的5倍,并紧贴人头边缘进行标注。
作为优选的技术方案,步骤(3)中,利用R-FCN框架,构造深度卷积神经网络,具体过程如下:
基于R-FCN框架,将图像输入宽为Wtrain,高为Htrain的图像作为训练图像;
构造深度卷积神经网络,该网络包括:输入层、13个卷积层、RPN部分、RoI部分和输出层,其中,每个卷积层紧跟一个RELU激活层,在第二、第四、第七、第十、第十三个RELU激活层后紧跟一个池化层;
所述输入层接收的图片尺寸大小为1000×600像素;所述13个卷积层的卷积核大小都为3×3,步长都为1,输出特征图分别为64,64,128,128,256,256,256,512,512,512,512,512,512;所述ReLu激活层对卷积得到的特征进行线性修正;所述池化层采用最大池化法对修正后的特征提取极大值;输出层为softmax层,输出的是图像中人头的概率分布。
作为优选的技术方案,步骤(3)中,对所构造的深度神经网络进行训练的步骤,具体过程如下:
设定每一次批量训练的图像数目为Btrain张,将所述训练图像输入到构建的深度卷积神经网络中进行批量训练,并采用随机梯度下降方法对构建的深度卷积神经网络进行训练;
设定网络初始参数,所述参数包括:初始学习率lr0、学习率变化的底数gamma、学习率变化的间隔数stepsize和最大训练迭代次数itersmax;其中,所述初始学习率lr0即表示网络在训练样本中寻找最优解的起始迭代速率;
学习速率的更新方式为梯度递减,更新方式如下:
lritem=lr0×gammafloor(iter-stepsize)
其中初始学习率lr0取值为0.01,学习率变化的底数gamma取值为0.1,最大训练迭代次数itersmax的范围为40000~60000,学习率变化的间隔数stepsize的范围为10000~15000。
作为优选的技术方案,步骤(4)中,所述基于视觉透视变换对测试集图像进行切割再部分放大,具体为:
基于R-FCN框架,将图像输入宽为Wtrain,高为Htrain的图像作为测试图像;根据视觉成像近大远小的成像原理,将分布于图像上方的人头定为小人头,由xml文件计算出训练集和测试集图像中每个人头标注的长宽,用k-means聚类划分成大人头和小人头以及计算大人头和小人头的平均长宽,由计算出的平均长宽对比原来xml文件中的每个人头标注的长宽,计算大小人头在图像中的行列位置,所述行列位置是指大人头和小人头所在的区域分别在图像的前部和后部,其中图像的前部为大人头区域,分界线位置距离图片底部为Wtest,图像的前部为小人头区域,分界线距离图片顶部距离为L,然后将分类后小人头区域的图像部分放大η倍,其中η为大小人头的平均面积比例。
作为优选的技术方案,使用k-means算法计算人头大小及位置,其具体过程如下:
(a)通过xml文件中的位置计算人头的面积,记作Si,其中i为第i个人头,任意选取2个人头的面积作为初始聚类中心Sc1、Sc2
(b)将初始聚类中心Sc1、Sc2与其他人头面积Si的欧氏距离作为聚类中心与其他人头面积数据的距离,计算聚类中心与其他人头面积的距离,将之归到最近的聚类中心并作为一类;
(c)重新计算聚类中心Sc1、Sc2,要求聚类中心是与类间的人头数据的距离之和最小,计算出聚类中心之后,应算出小人头区域分界线距离该图片顶端的长度L以及大人头与小人头平均面积比例η,迭代步骤(b)和步骤(c)。
作为优选的技术方案,步骤(5),具体过程如下:
(501)设定每一次批量测试的图像数为Btest,且将每一张变换处理过的图像与其原图像作为一组测试图像imgtest,并依次通过测试网络;
(502)将步骤(501)所述的测试图像输入训练完成的深度卷积神经网络,将深度卷积神经网络卷积的输出结果通过Softmax激活函数得到每个预测框的概率分布,Softmax激活函数公式如下:
Figure BDA0001736917270000041
其中,Z表示为一个数组,包含n个元素;zi和zj分别表示为Z中的第i个和第j个元素的值;
再通过使用交叉熵来计算分类的损失函数,使用SmoothL1loss损失函数来计算回归的损失函数,根据分类和回归的损失函数的和,要求损失最小作为输出识别结果;
总的损失函数公式如下:
Figure BDA0001736917270000042
分类的损失函数使用交叉熵计算,公式如下:
Figure BDA0001736917270000043
回归损失函数使用SmoothL1loss损失函数进行计算,公式如下:
Figure BDA0001736917270000044
其中
Figure BDA0001736917270000045
上式中,Ncls为分类的样本数量;Nreg为回归的样本数量;i是输入图片中的类别数;pi是预测概率;
Figure BDA0001736917270000046
为有无物体的判决,有物体时
Figure BDA0001736917270000047
为1,否则为0;ti为一个预测坐标的向量;
Figure BDA0001736917270000051
为一个标注包围盒的坐标向量;λ为规定系数。
作为优选的技术方案,测试过程中,对任意一组测试图像imgtest,将变换处理过的图像缩小到宽与原图一致,高为小人头区域分界线距离图片顶部的距离,即宽为Wtrain,高为L,然后与原图像一同通过非极大值抑制筛选出置信度最高的输出。
本发明相对于现有技术具有如下的优点和效果:
(1)本发明针对于监控等低分辨率的图片,能够较好的从较模糊的图像中得到需要的人头的准确性特征,避免低分辨率图片增强等复杂过程。
(2)本发明使用深度卷积神经网络,能够提取到较好的局部特征,具备平移不变性,避免传统算法中复杂的特征提取和数据重建过程,提高本发明的检测准确性能与健壮性。
(3)本发明的算法识别率高,鲁棒性强,能够从训练图像集中学习到人头特征,并且在测试结构上进行优化获得更好的检测性能,并且提高了检测效率。
附图说明
图1为本发明的基于深度学习的小人头检测方法流程图;
图2为本发明构建的神经网络结构图。
具体实施方式
为了使本发明的目的、技术方案以及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施例仅用于解释本发明,并不限于本发明。
实施例
如图1所示,一种基于深度学习的小人头检测方法,包括下述步骤:
(1)获取数据:采集课室等不同室内场景的大量图像形成训练集和测试集;
通过采集课室内监控以及网络爬虫后再通过人工筛选出复杂的图像样本来获得数据,在所形成的训练集中,人头样本包括不同角度不同人数的大小人头,部分遮挡人头,重叠人头的正、侧、后部和顶部。
(2)对所述训练集和测试集图像进行精准贴边的人头标注,具体为:通过人工严格标注,将训练集和测试集图像放大到原来的5倍,并紧贴人头边缘进行标注。
(3)利用R-FCN框架,构造深度卷积神经网络,然后利用训练集图像并采用批量训练的随机梯度下降法对所构造的深度神经网络进行训练,设定网络初始参数及迭代更新方式;
所述步骤(3)具体包括下述步骤:
(301)基于R-FCN框架,将图像输入宽为Wtrain,高为Htrain的图像作为训练图像;
(302)构造深度卷积神经网络,该网络包括:输入层、13个卷积层、RPN部分、RoI部分和输出层,其中每个卷积层紧跟一个RELU激活层,在第二、第四、第七、第十、第十三个RELU激活层后紧跟一个池化层;
如图2所示,本实施例构建的深度卷积神经网络如下:
Input(1000×600)->64C(3×3)S1P1->ReLu->64C(3×3)S1P1->ReLu->MP2->128C(3×3)
S1P1->ReLu->128C(3×3)S1P1->ReLu->MP2->256C(3×3)S1P1->ReLu->256C(3×3)
S1P1->ReLu->256C(3×3)S1P1->ReLu->MP2->512C(3×3)S1P1->ReLu->512C(3×3)
S1P1->ReLu->512C(3×3)S1P1->ReLu->MP2->512C(3×3)S1P1->ReLu->512C(3×3)
S1P1->ReLu->512C(3×3)S1P1->ReLu->MP2->->RPN->RoIPooling->Softmax/Output。
其中Input(1000×600)表示输入层接受的图片大小为1000×600像素,64C(3×3)S1P1表示对输入图像进行特征提取的卷积层,核大小为3×3,步长为1,输出64的特征图;ReLu表示对卷积得到的特征层进行修正的线性纠正激活层;MP2表示对修正后的特征进行提取极大值的最大池化层,核大小为2×2,步长为2;RPN表示R-FCN框架内的RPN部分;RoIPooling表示R-FCN框架内ROI部分;Softmax/Output表示输出层为softmax层,输出的是图片中人头的概率分布。
(303)利用训练集图像训练所构建的深度卷积神经网络:
(3031)设定每一次批量训练的图像数目为64张,将所述训练图像输入到构建的深度卷积神经网络中进行批量训练,并采用随机梯度下降方法对构建的深度卷积神经网络进行训练;
(3032)设定网络初始参数,所述参数包括:初始学习率(网络在训练样本中寻找最优解的起始迭代速率)lr0、学习率变化的底数gamma、学习率变化的间隔数stepsize和最大训练迭代次数itersmax
学习速率的更新方式为梯度递减,更新方式如下:
lritem=lr0×gammafloor(iter-stepsize)
其中初始学习率lr0取值为0.01,学习率变化的底数gamma取值为0.1,最大训练迭代次数itersmax的范围为40000~60000,学习率变化的间隔数stepsize的范围为10000~15000。
(4)对测试集图像进行变换处理,具体为:基于视觉透视变换对测试集图像进行切割再部分放大;
(401)基于R-FCN框架,将图像输入为1200*1000的图像作为测试图像。
(402)根据视觉成像近大远小的成像原理,将分布于图像上方的人头定为小人头,由xml文件计算出训练集和测试集图像中每个人头标注的长宽,用k-means聚类划分成大人头和小人头以及计算大人头和小人头的平均长宽,由计算出的平均长宽对比原来xml文件中的每个人头标注的长宽,计算大小人头在图像中的行列位置,所述行列位置是指大人头和小人头所在的区域分别在图像的前部和后部,其中图像的前部为大人头区域,分界线位置距离图片底部为Wtest,图像的前部为小人头区域,分界线距离图片顶部距离为L;
其中,使用k-means算法计算人头大小及位置,其具体过程如下:
(a)通过xml文件中的位置计算人头的面积,记作Si,其中i为第i个人头,任意选取2个人头的面积作为初始聚类中心Sc1、Sc2
(b)将初始聚类中心Sc1、Sc2与其他人头面积Si的欧氏距离作为聚类中心与其他人头面积数据的距离,计算聚类中心与其他人头面积的距离,将之归到最近的聚类中心并作为一类;
(c)重新计算聚类中心Sc1、Sc2,要求聚类中心是与类间的人头数据的距离之和最小,计算出聚类中心之后,应算出小人头区域分界线距离该图片顶端的长度L以及大人头与小人头平均面积比例η,迭代步骤(b)和步骤(c)。
(403)将经过步骤(4-2)产生的部分图像(宽为300的小人头图像)放大,放大倍数为η=1.3。
(5)将变换处理后的测试集图像输入步骤(3)所训练完成的深度卷积神经网络,得到概率分布,再通过计算损失函数,输出识别结果;
所述步骤(5)具体包括下述步骤:
(501)设定每一次批量测试的图像数为32,且将每一张变换处理过的图像与其原图像作为一组测试图像imgtest,并依次通过测试网络;测试过程中,对任意一组测试图像imgtest,将变换处理过的图像缩小到宽与原图一致,高为小人头区域分界线距离图片顶部的距离,即宽为Wtrain,高为L,然后与原图像一同通过NMS(非极大值抑制)筛选出置信度最高的输出。
(502)将步骤(501)所述的测试图像输入训练完成的深度卷积神经网络,将深度卷积神经网络卷积的输出结果通过Softmax激活函数得到每个预测框的概率分布,Softmax激活函数公式如下:
Figure BDA0001736917270000081
其中,Z表示为一个数组,包含n个元素;zi和zj分别表示为Z中的第i个和第j个元素的值;
再通过使用交叉熵来计算分类的损失函数,使用SmoothL1loss损失函数来计算回归的损失函数,根据分类和回归的损失函数的和,要求损失最小作为输出识别结果;
总的损失函数公式如下:
Figure BDA0001736917270000082
分类的损失函数使用交叉熵计算,公式如下:
Figure BDA0001736917270000083
回归损失函数使用SmoothL1loss损失函数进行计算,公式如下:
Figure BDA0001736917270000084
其中
Figure BDA0001736917270000085
上式中,Ncls为分类的样本数量;Nreg为回归的样本数量;i是输入图片中的类别数;pi是预测概率;
Figure BDA0001736917270000091
为有无物体的判决,有物体时
Figure BDA0001736917270000092
为1,否则为0;ti为一个预测坐标的向量;
Figure BDA0001736917270000093
为一个标注包围盒的坐标向量;λ为规定系数。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以权利要求所述为准。

Claims (8)

1.一种基于深度学习的小人头检测方法,其特征在于,包括下述步骤:
(1)获取数据:采集不同室内场景的大量图像形成训练集和测试集;
(2)对所述训练集和测试集图像进行精准贴边的人头标注;
(3)利用R-FCN框架,构造深度卷积神经网络,然后利用训练集图像并采用批量训练的随机梯度下降法对所构造的深度神经网络进行训练,设定网络初始参数及迭代更新方式;
(4)对测试集图像进行变换处理,具体为:基于视觉透视变换对测试集图像进行聚类切割再部分放大;
(5)将变换处理后的测试集图像输入步骤(3)训练完成的深度卷积神经网络,得到每个预测框的概率分布,再通过计算损失函数,输出识别结果;
步骤(4)中,所述基于视觉透视变换对测试集图像进行切割再部分放大,具体为:
基于R-FCN框架,将图像输入宽为Wtrain,高为Htrain的图像作为测试图像;根据视觉成像近大远小的成像原理,将分布于图像上方的人头定为小人头,由xml文件计算出训练集和测试集图像中每个人头标注的长宽,用k-means聚类划分成大人头和小人头以及计算大人头和小人头的平均长宽,由计算出的平均长宽对比原来xml文件中的每个人头标注的长宽,计算大小人头在图像中的行列位置,所述行列位置是指大人头和小人头所在的区域分别在图像的前部和后部,其中图像的前部为大人头区域,分界线位置距离图片底部为Wtest,图像的前部为小人头区域,分界线距离图片顶部距离为L,然后将分类后小人头区域的图像部分放大η倍,其中η为大小人头的平均面积比例。
2.根据权利要求1所述的基于深度学习的小人头检测方法,其特征在于,在步骤(1)中,通过采集课室内监控以及网络爬虫后再通过人工筛选出复杂的图像样本来获得数据,在所形成的训练集中,人头样本包括不同角度不同人数的大小人头,部分遮挡人头,重叠人头的正、侧、后部和顶部。
3.根据权利要求1所述的基于深度学习的小人头检测方法,其特征在于,步骤(2)中,通过人工严格标注,将训练集和测试集图像放大到原来的5倍,并紧贴人头边缘进行标注。
4.根据权利要求1所述的基于深度学习的小人头检测方法,其特征在于,步骤(3)中,利用R-FCN框架,构造深度卷积神经网络,具体过程如下:
基于R-FCN框架,将图像输入宽为Wtrain,高为Htrain的图像作为训练图像;
构造深度卷积神经网络,该网络包括:输入层、13个卷积层、RPN部分、RoI部分和输出层,其中,每个卷积层紧跟一个RELU激活层,在第二、第四、第七、第十、第十三个RELU激活层后紧跟一个池化层;
所述输入层接收的图片尺寸大小为1000×600像素;所述13个卷积层的卷积核大小都为3×3,步长都为1,输出特征图分别为64,64,128,128,256,256,256,512,512,512,512,512,512;所述ReLu激活层对卷积得到的特征进行线性修正;所述池化层采用最大池化法对修正后的特征提取极大值;输出层为softmax层,输出的是图像中人头的概率分布。
5.根据权利要求4所述的基于深度学习的小人头检测方法,其特征在于,步骤(3)中,对所构造的深度神经网络进行训练的步骤,具体过程如下:
设定每一次批量训练的图像数目为Btrain张,将所述训练图像输入到构建的深度卷积神经网络中进行批量训练,并采用随机梯度下降方法对构建的深度卷积神经网络进行训练;
设定网络初始参数,所述参数包括:初始学习率lr0、学习率变化的底数gamma、学习率变化的间隔数stepsize和最大训练迭代次数itersmax;其中,所述初始学习率lr0即表示网络在训练样本中寻找最优解的起始迭代速率;
学习速率的更新方式为梯度递减,更新方式如下:
lritem=lr0×gammafloor(iter-stepsize)
其中初始学习率lr0取值为0.01,学习率变化的底数gamma取值为0.1,最大训练迭代次数itersmax的范围为40000~60000,学习率变化的间隔数stepsize的范围为10000~15000。
6.根据权利要求1所述的基于深度学习的小人头检测方法,其特征在于,使用k-means算法计算人头大小及位置,其具体过程如下:
(a)通过xml文件中的位置计算人头的面积,记作Si,其中i为第i个人头,任意选取2个人头的面积作为初始聚类中心Sc1、Sc2
(b)将初始聚类中心Sc1、Sc2与其他人头面积Si的欧氏距离作为聚类中心与其他人头面积数据的距离,计算聚类中心与其他人头面积的距离,将之归到最近的聚类中心并作为一类;
(c)重新计算聚类中心Sc1、Sc2,要求聚类中心是与类间的人头数据的距离之和最小,计算出聚类中心之后,应算出小人头区域分界线距离该图片顶端的长度L以及大人头与小人头平均面积比例η,迭代步骤(b)和步骤(c)。
7.根据权利要求1所述的基于深度学习的小人头检测方法,其特征在于,步骤(5),具体过程如下:
(501)设定每一次批量测试的图像数为Btest,且将每一张变换处理过的图像与其原图像作为一组测试图像imgtest,并依次通过测试网络;
(502)将步骤(501)所述的测试图像输入训练完成的深度卷积神经网络,将深度卷积神经网络卷积的输出结果通过Softmax激活函数得到每个预测框的概率分布,Softmax激活函数公式如下:
Figure FDA0003269318120000031
其中,Z表示为一个数组,包含n个元素;zi和zj分别表示为Z中的第i个和第j个元素的值;
再通过使用交叉熵来计算分类的损失函数,使用SmoothL1loss损失函数来计算回归的损失函数,根据分类和回归的损失函数的和,要求损失最小作为输出识别结果;
总的损失函数公式如下:
Figure FDA0003269318120000032
分类的损失函数使用交叉熵计算,公式如下:
Figure FDA0003269318120000033
回归损失函数使用SmoothL1loss损失函数进行计算,公式如下:
Figure FDA0003269318120000034
其中
Figure FDA0003269318120000041
上式中,Ncls为分类的样本数量;Nreg为回归的样本数量;i是输入图片中的类别数;pi是预测概率;
Figure FDA0003269318120000042
为有无物体的判决,有物体时
Figure FDA0003269318120000043
为1,否则为0;ti为一个预测坐标的向量;
Figure FDA0003269318120000044
为一个标注包围盒的坐标向量;λ为规定系数。
8.根据权利要求1所述的基于深度学习的小人头检测方法,其特征在于,测试过程中,对任意一组测试图像imgtest,将变换处理过的图像缩小到宽与原图一致,高为小人头区域分界线距离图片顶部的距离,即宽为Wtrain,高为L,然后与原图像一同通过非极大值抑制筛选出置信度最高的输出。
CN201810800214.5A 2018-07-20 2018-07-20 一种基于深度学习的小人头检测方法 Active CN109190458B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810800214.5A CN109190458B (zh) 2018-07-20 2018-07-20 一种基于深度学习的小人头检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810800214.5A CN109190458B (zh) 2018-07-20 2018-07-20 一种基于深度学习的小人头检测方法

Publications (2)

Publication Number Publication Date
CN109190458A CN109190458A (zh) 2019-01-11
CN109190458B true CN109190458B (zh) 2022-03-25

Family

ID=64936466

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810800214.5A Active CN109190458B (zh) 2018-07-20 2018-07-20 一种基于深度学习的小人头检测方法

Country Status (1)

Country Link
CN (1) CN109190458B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109977997B (zh) * 2019-02-13 2021-02-02 中国科学院自动化研究所 基于卷积神经网络快速鲁棒的图像目标检测与分割方法
CN109948497B (zh) * 2019-03-12 2022-01-28 北京旷视科技有限公司 一种物体检测方法、装置及电子设备
CN109934949A (zh) * 2019-03-12 2019-06-25 上海商汤智能科技有限公司 考勤方法及装置、设备、存储介质
CN110942142B (zh) * 2019-11-29 2021-09-17 广州市百果园信息技术有限公司 神经网络的训练及人脸检测方法、装置、设备和存储介质
CN111931670A (zh) * 2020-08-14 2020-11-13 成都数城科技有限公司 基于卷积神经网的深度图像头部检测与定位方法及系统
CN113129306B (zh) * 2021-05-10 2022-12-02 电子科技大学成都学院 一种基于深度学习的遮挡物体分割求解方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018028255A1 (zh) * 2016-08-11 2018-02-15 深圳市未来媒体技术研究院 基于对抗网络的图像显著性检测方法
CN108154110A (zh) * 2017-12-22 2018-06-12 任俊芬 一种基于深度学习人头检测的密集人流量统计方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9905104B1 (en) * 2016-08-15 2018-02-27 Nec Corporation Baby detection for electronic-gate environments
CN106650725B (zh) * 2016-11-29 2020-06-26 华南理工大学 基于全卷积神经网络的候选文本框生成和文本检测方法
CN108229242A (zh) * 2016-12-13 2018-06-29 上海安维尔信息科技股份有限公司 针对固定野外场景中样本缺失情况下的行人检测方法
CN106874894B (zh) * 2017-03-28 2020-04-14 电子科技大学 一种基于区域全卷积神经网络的人体目标检测方法
CN107292333B (zh) * 2017-06-05 2019-11-29 浙江工业大学 一种基于深度学习的快速图像分类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018028255A1 (zh) * 2016-08-11 2018-02-15 深圳市未来媒体技术研究院 基于对抗网络的图像显著性检测方法
CN108154110A (zh) * 2017-12-22 2018-06-12 任俊芬 一种基于深度学习人头检测的密集人流量统计方法

Also Published As

Publication number Publication date
CN109190458A (zh) 2019-01-11

Similar Documents

Publication Publication Date Title
CN109190458B (zh) 一种基于深度学习的小人头检测方法
CN108830144B (zh) 一种基于改进Faster-R-CNN的哺乳母猪姿态识别方法
CN110334765B (zh) 基于注意力机制多尺度深度学习的遥感影像分类方法
CN113065558A (zh) 一种结合注意力机制的轻量级小目标检测方法
CN110348319B (zh) 一种基于人脸深度信息和边缘图像融合的人脸防伪方法
CN107610087B (zh) 一种基于深度学习的舌苔自动分割方法
CN107480649B (zh) 一种基于全卷积神经网络的指纹汗孔提取方法
CN109165623B (zh) 基于深度学习的水稻病斑检测方法及系统
CN110532970B (zh) 人脸2d图像的年龄性别属性分析方法、系统、设备和介质
CN111753828B (zh) 一种基于深度卷积神经网络的自然场景水平文字检测方法
CN109684922B (zh) 一种基于卷积神经网络的多模型对成品菜的识别方法
CN111275082A (zh) 一种基于改进端到端神经网络的室内物体目标检测方法
CN106407986A (zh) 一种基于深度模型的合成孔径雷达图像目标识别方法
CN107871316B (zh) 基于深度神经网络的x光片手骨兴趣区域自动提取方法
CN103778436B (zh) 一种基于图像处理的行人姿态检测方法
US20200250487A1 (en) Target detection method and apparatus, and computer device
CN111178177A (zh) 一种基于卷积神经网络的黄瓜病害识别方法
CN111080615B (zh) 基于卷积神经网络的pcb缺陷检测系统及检测方法
US8094971B2 (en) Method and system for automatically determining the orientation of a digital image
CN108875819B (zh) 一种基于长短期记忆网络的物体和部件联合检测方法
CN110705565A (zh) 淋巴结肿瘤区域识别方法与装置
CN113139481B (zh) 基于yolov3的教室人数统计方法
CN110751072B (zh) 基于知识嵌入图卷积网络的双人交互识别方法
CN113221956B (zh) 基于改进的多尺度深度模型的目标识别方法及装置
Guo et al. Using multi-scale and hierarchical deep convolutional features for 3D semantic classification of TLS point clouds

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant