CN109934081A - 一种基于深度神经网络的行人属性识别方法、装置及存储介质 - Google Patents
一种基于深度神经网络的行人属性识别方法、装置及存储介质 Download PDFInfo
- Publication number
- CN109934081A CN109934081A CN201810992084.XA CN201810992084A CN109934081A CN 109934081 A CN109934081 A CN 109934081A CN 201810992084 A CN201810992084 A CN 201810992084A CN 109934081 A CN109934081 A CN 109934081A
- Authority
- CN
- China
- Prior art keywords
- convolutional layer
- neural network
- deep neural
- layer
- human body
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Image Analysis (AREA)
Abstract
本发明提供了一种基于深度神经网络的行人属性识别方法、装置及存储介质,该方法包括:获取步骤,获取待识别的行人图像;检测步骤,使用第一深度神经网络模型对行人图像进行人体部位检测,获得人体部位信息和附属物信息;识别步骤,使用第二深度神经网络模型对人体部位信息和附属物信息进行识别得到行人属性信息。本发明通过第一深度神经网络模型获得人体部位信息和附属物信息,然后再使用第二深度神经网络模型对所述人体部位信息和附属物信息进行识别得到行人属性信息,即本发明中采用由粗到细对行人进行精细识别,并在第二深度神经网络模型设计了对人体部位及附属物进行局部细粒度属性识别的局部处理块,提高了人体部位和附属物识别的准确度。
Description
技术领域
本发明涉及数据人工智能技术领域,特别是一种基于深度神经网络的行人属性识别方法、装置及存储介质。
背景技术
随着信息技术迅速的发展,现如今监控系统在各行业应用日渐广泛,如车站、商场、公园、学校、公司等公共场所都安装着大量的监控摄像头,这些摄像头实时监控着行人的一举一动,为相关部门的人员管理,案件侦破提供有利线索。面对如此多的摄像头如果仅仅是靠人工监控无疑是一项艰巨的任务。于是研究通过计算机视觉技术实现自动视频图像识别是一个非常有意义的课题。传统的图像识别技术一般都是人工手动设计特征,根据特征对图像进行分类完成识别任务。
早期主要基于人工设计特征,如方向梯度直方图(HOG)等,然后采用支持向量机等分类器对提取的特征进行分类识别。近年来特别是随着计算机视觉社区中深度卷积神经网络研究的不断深入,基于深度神经网络在图像识别中的研究是主流。基于卷积神经网络对行人属性识别方法,一般是抠出行人样本,输入到CNN分类器,输出多个行人属性标签。
现有技术中存在一些难以解决的问题,提取的特征对训练数据具有依赖性,不易泛化到其他数据,计算开销太大,延时较高。深度学习能自动提取隐藏在数据间的多层特征表示,已经成功应用于图像识别与分类,分割等领域。通过卷积神经网络对图像进行整体分类方式,结构简单、训练方便,然而总体的准确性很难提高,尤其是对较小的局部属性识别,比如是否带眼镜,鞋子类型等识别度都比较低,当属性类别较多时也很容易造成各类别识别精度不均衡问题。现有技术中的分割方法和网络设计上在实际应用中准确率仍有待提高,尤其是对携带物的识别都较为粗糙。
发明内容
本发明针对上述现有技术中的缺陷,提出了如下技术方案。
一种基于深度神经网络的行人属性识别方法,该方法包括:
获取步骤,获取待识别的行人图像;
检测步骤,使用第一深度神经网络模型对所述行人图像进行人体部位检测,获得人体部位信息和附属物信息;
识别步骤,使用第二深度神经网络模型对所述人体部位信息和附属物信息进行识别得到行人属性信息。
更进一步地,人体部位包括:头部、上身、全身、下身和脚部。
更进一步地,所述第二深度神经网络模型包括头部识别模型、上身识别模型、全身识别模型、下身识别模型、脚部识别模型和附属物识别模型。
更进一步地,将所述行人图像划分为S*S个格子,使用所述第一深度神经网络模型检测人体部位落在格子中的范围以确定人体部位信息,其中,人体部位信息为人体部位在所述行人图像中的位置,所述第一深度神经网络模型的卷积核用3*1和1*3大小的卷积核。
更进一步地,所述第二深度神经网络模型包括依次连接的第一卷积层、第一最大池化层、第二卷积层、第三卷积层、第二最大池化层、六个局部处理块、平均池化层、丢弃层和多个softmax分类器(例如两个softmax分类器);
其中,第一卷积层的卷积核大小为5*5,第二卷积层的卷积核大小为1*1,第三卷积层的卷积核大小为3*3;
其中,所述局部处理块包括:第一过滤连接层、第四卷积层和第二过滤连接层,所述第四卷积层的输入与所述第一过滤连接层连接,所述第四卷积层的输出与所述第二过滤连接层连接;所述局部处理块还包括:第五卷积层、第六卷积层和第七卷积层,所述第五卷积层的输入与所述第一过滤连接层连接,所述第七卷积层的输出与所述第二过滤连接层连接,所述第六卷积层的输入和输出与第五卷积层的输出和第七卷积层的输入相连接;所述局部处理块还包括:第三最大池化层和第八卷积层,所述第三最大池化层的输入与所述第一过滤连接层连接,所述第八卷积层的输出与所述第二过滤连接层连接,所述第三最大池化层的输出和所述第八卷积层的输出相连接;
其中,第四卷积层的卷积核大小为1*1,第五卷积层的卷积核大小为1*1,第六卷积层的卷积核大小为3*3,第七卷积层的卷积核大小为3*3,第八卷积层的卷积核大小为1*1。
更进一步地,对所述第一深度神经网络模型进行训练的参数为:图像输入大小为416*416、训练批次大小为64、学习率为0.001和动量为0.9;对所述第二深度神经网络模型进行训练的参数为:训练批次大小为64、学习率为0.001。
本发明还提出了一种基于深度神经网络的行人属性识别装置,该装置包括:
获取单元,用于获取待识别的行人图像;
检测单元,使用第一深度神经网络模型对所述行人图像进行人体部位检测,获得人体部位信息和附属物信息;
识别单元,使用第二深度神经网络模型对所述人体部位信息和附属物信息进行识别得到行人属性信息。
更进一步地,人体部位包括:头部、上身、全身、下身和脚部。
更进一步地,所述第二深度神经网络模型包括头部识别模型、上身识别模型、全身识别模型、下身识别模型、脚部识别模型和附属物识别模型。
更进一步地,将所述行人图像划分为S*S个格子,使用所述第一深度神经网络模型检测人体部位落在格子中的范围以确定人体部位信息,其中,人体部位信息为人体部位在所述行人图像中的位置,所述第一深度神经网络模型的卷积核用3*1和1*3大小的卷积核。
更进一步地,所述第二深度神经网络模型包括依次连接的第一卷积层、第一最大池化层、第二卷积层、第三卷积层、第二最大池化层、六个局部处理块、平均池化层、丢弃层和多个softmax分类器(例如两个softmax分类器);
其中,第一卷积层的卷积核大小为5*5,第二卷积层的卷积核大小为1*1,第三卷积层的卷积核大小为3*3;
其中,所述局部处理块包括:第一过滤连接层、第四卷积层和第二过滤连接层,所述第四卷积层的输入与所述第一过滤连接层连接,所述第四卷积层的输出与所述第二过滤连接层连接;所述局部处理块还包括:第五卷积层、第六卷积层和第七卷积层,所述第五卷积层的输入与所述第一过滤连接层连接,所述第七卷积层的输出与所述第二过滤连接层连接,所述第六卷积层的输入和输出与第五卷积层的输出和第七卷积层的输入相连接;所述局部处理块还包括:第三最大池化层和第八卷积层,所述第三最大池化层的输入与所述第一过滤连接层连接,所述第八卷积层的输出与所述第二过滤连接层连接,所述第三最大池化层的输出和所述第八卷积层的输出相连接;
其中,第四卷积层的卷积核大小为1*1,第五卷积层的卷积核大小为1*1,第六卷积层的卷积核大小为3*3,第七卷积层的卷积核大小为3*3,第八卷积层的卷积核大小为1*1。
更进一步地,对所述第一深度神经网络模型进行训练的参数为:图像输入大小为416*416、训练批次大小为64、学习率为0.001和动量为0.9;对所述第二深度神经网络模型进行训练的参数为:训练批次大小为64、学习率为0.001。
本发明还提出了一种计算机可读存储介质,所述存储介质上存储有计算机程序代码,当所述计算机程序代码被计算机执行时执行上述之任一的方法。
本发明的技术效果为:本发明通过第一深度神经网络模型对行人图像进行人体部位检测,获得人体部位信息和附属物信息,然后再使用第二深度神经网络模型对所述人体部位信息和附属物信息进行识别得到行人属性信息,即本发明中采用由粗到细对行人进行精细识别,并在第二深度神经网络模型设计了对人体部位及附属物进行局部细粒度属性识别的局部处理块,提高了人体部位和附属物识别的准确度。该识别方法具有较低的延时,对目前辅助监控有很大的帮助。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显。
图1是根据本发明的实施例的一种基于深度神经网络的行人属性识别方法的流程图。
图2是根据本发明的实施例的第二深度神经网络模型的结构图。
图3是根据本发明的实施例的局部处理块的结构图。
图4是根据本发明的实施例的一种基于深度神经网络的行人属性识别装置的结构图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
行人属性识别的任务是从监控图像中识别出每一个行人的视觉属性,如性别、体态、发型,衣服类型,携带物等。通过对行人属性的识别可以更加准确和直观地对图像进行描述,同时为进一步行人重识别、行人跟踪和行人行为分析提供基础。
图1示出了本发明的一种基于深度神经网络的行人属性识别方法,该方法包括:
获取步骤S101,获取待识别的行人图像。
获取步骤S101中获取的图像方式可以网络下载,视频监控或者所拍摄的图像,例如,通过提取视频监控所采集的视频中的每一帧具有行人的图像作为行人图像。
检测步骤S102,使用第一深度神经网络模型对所述行人图像进行人体部位检测,获得人体部位信息和附属物信息。
检测步骤S102中,人体部位包括:头部、上身、全身、下身和脚部。在检测过程中,将所述行人图像划分为S*S个格子,使用所述第一深度神经网络模型检测人体部位落在格子中的范围以确定人体部位信息,其中,人体部位信息为人体部位在所述行人图像中的位置,这样便于在后续的识别中进行分割图像,该位置可以以坐标的形式表示。所述第一深度神经网络模型的卷积核用3*1和1*3大小的卷积核,其中S为整数(例如是13),附属物可以是手提袋、手机和伞等等。
一个具体的实施例,基于检测速度与准确率的权衡,选择YOLOV3作为第一深度神经网络模型进行检测。YOLO的核心思想是将输入图像分成S*S个格子,若某个物体的中心位置的坐标落入到某个格子,那么这个格子就负责检测出这个物体。每个格子预测B个bbox及其置信度,以及C个类别概率。bbox信息(x,y,w,h)为物体的中心位置相对格子位置的偏移及宽度和高度,置信度反映的是否包含物体以及包含物体情况下位置的准确性。YOLOV3借鉴了ResNet思想,引入残差结构设计,在原有网络结基础上减少了9个卷积层,并将最后4个3*3卷积核用3*1和1*3来替换。此外YOLOV3用多个logistic分类器替代Softmax支持多标签分类。为提高小目标检测的精确度融合粗细粒度特征,进行多尺度预测。这是本发明的中重点之一,通过第一深度神经网络模型进行人体部位的准确识别。
识别步骤S103,使用第二深度神经网络模型对所述人体部位信息和附属物信息进行识别得到行人属性信息。
为进行细粒度的识别,本发明研究出了第二深度神经网络模型,如图2所示,其包括依次连接的第一卷积层、第一最大池化层、第二卷积层、第三卷积层、第二最大池化层、六个局部处理块、平均池化层、丢弃层和多个softmax分类器(例如两个softmax分类器);其中,第一卷积层的卷积核大小为5*5,第二卷积层的卷积核大小为1*1,第三卷积层的卷积核大小为3*3;
如图3所示,所述局部处理块包括:第一过滤连接层、第四卷积层和第二过滤连接层,所述第四卷积层的输入与所述第一过滤连接层连接,所述第四卷积层的输出与所述第二过滤连接层连接;所述局部处理块还包括:第五卷积层、第六卷积层和第七卷积层,所述第五卷积层的输入与所述第一过滤连接层连接,所述第七卷积层的输出与所述第二过滤连接层连接,所述第六卷积层的输入和输出与第五卷积层的输出和第七卷积层的输入相连接;所述局部处理块还包括:第三最大池化层和第八卷积层,所述第三最大池化层的输入与所述第一过滤连接层连接,所述第八卷积层的输出与所述第二过滤连接层连接,所述第三最大池化层的输出和所述第八卷积层的输出相连接;其中,第四卷积层的卷积核大小为1*1,第五卷积层的卷积核大小为1*1,第六卷积层的卷积核大小为3*3,第七卷积层的卷积核大小为3*3,第八卷积层的卷积核大小为1*1。
所述第二深度神经网络模型的六个局部处理块分别对应头部识别模型、上身识别模型、全身识别模型、下身识别模型、脚部识别模型和附属物识别模型,该六个局部处理块并行进行识别,即支持多分类任务,大大提高了识别效率。所述第二深度神经网络模型具体结果及六个局部处理块的具体结构是本发明的重要发明点之另一,通过该第二深度神经网络模型可以准确的识别行人的属性特征。通过采用不同大小的卷积核融合不同尺度特征,这个结构很好地利用了网络中的计算资源,并且在不增加计算负载的情况下,增加网络的宽度和深度。同时在每一个卷积层后面做批归一化处理。各部件图片尺寸不尽相同,对于类别之间存在样本不均衡现象,通过在损失函数中加入样本权重来解决。
在神经模型使用前必须要对其进行训练,下面介绍一下,对其第一、二深度神经网络模型训练过程。
第一步:数据收集、标注:数据来源于公司内部各楼层的多个高清摄像头,为保证数据的差异性,按不同季节和时间点从中选取10000张图片进行标注。标注的主要内容包括行人及行人主要附属物,行人再划分为头部、上身、下身、脚五个部件,附属物标注了一些常见物品,如手提袋、伞、小的手持物。标注信息以xml文件格式保存。
第二步,数据准备与增强:将数据集分成训练集和测试集,比例为8:2。由于训练集数量较少,因此对数据做了模糊、高亮、灰度化、增加对比度、水平翻转等增强操作;
第三步,训练:
对所述第一深度神经网络模型进行训练的参数为:生成训练集图片名称列表文件train_image_path.txt(文件名字可随意定义),根据列表文件与标注信息xml文件转化成darknet标准输入格式;执行训练:设置图片输入尺寸416*416、训练批次大小为64、学习率为0.001、动量为0.9。
对所述第二深度神经网络模型进行训练的参数为:制作lmdb数据集:将每张图片绝对路径与分类标识按空格分割组成一行存储在train.txt和val.txt文件中,执行转换角本生成lmdb文件;执行训练:训练批次大小为64、学习率为0.001。
进一步参考图4,作为对上述图1所示方法的实现,本申请提供了一种基于深度神经网络的行人属性识别装置的一个实施例,该装置实施例与图1所示的方法实施例相对应,该装置具体可以包含于各种电子设备中。
图2示出了本发明的一种基于深度神经网络的行人属性识别装置,该装置包括:
获取单元401,用于获取待识别的行人图像。
获取单元401中获取的图像方式可以网络下载,视频监控或者所拍摄的图像,例如,通过提取视频监控所采集的视频中的每一帧具有行人的图像作为行人图像。
检测单元402,使用第一深度神经网络模型对所述行人图像进行人体部位检测,获得人体部位信息和附属物信息。
检测单元402中,人体部位包括:头部、上身、全身、下身和脚部。在检测过程中,将所述行人图像划分为S*S个格子,使用所述第一深度神经网络模型检测人体部位落在格子中的范围以确定人体部位信息,其中,人体部位信息为人体部位在所述行人图像中的位置,这样便于在后续的识别中进行分割图像,该位置可以以坐标的形式表示。所述第一深度神经网络模型的卷积核用3*1和1*3大小的卷积核,其中S为整数(例如是13),附属物可以是手提袋、手机和伞等等。
一个具体的实施例,基于检测速度与准确率的权衡,选择YOLOV3作为第一深度神经网络模型进行检测。YOLO的核心思想是将输入图像分成S*S个格子,若某个物体的中心位置的坐标落入到某个格子,那么这个格子就负责检测出这个物体。每个格子预测B个bbox及其置信度,以及C个类别概率。bbox信息(x,y,w,h)为物体的中心位置相对格子位置的偏移及宽度和高度,置信度反映的是否包含物体以及包含物体情况下位置的准确性。YOLOV3借鉴了ResNet思想,引入残差结构设计,在原有网络结基础上减少了9个卷积层,并将最后4个3*3卷积核用3*1和1*3来替换。此外YOLOV3用多个logistic分类器替代Softmax支持多标签分类。为提高小目标检测的精确度融合粗细粒度特征,进行多尺度预测。这是本发明的重点之一,通过第一深度神经网络模型进行人体部位的准确识别。
识别单元403,使用第二深度神经网络模型对所述人体部位信息和附属物信息进行识别得到行人属性信息。
为进行细粒度的识别,本发明研究出了第二深度神经网络模型,如图2所示,其包括依次连接的第一卷积层、第一最大池化层、第二卷积层、第三卷积层、第二最大池化层、六个局部处理块、平均池化层、丢弃层和多个softmax分类器(例如两个softmax分类器);其中,第一卷积层的卷积核大小为5*5,第二卷积层的卷积核大小为1*1,第三卷积层的卷积核大小为3*3。
如图3所示,所述局部处理块包括:第一过滤连接层、第四卷积层和第二过滤连接层,所述第四卷积层的输入与所述第一过滤连接层连接,所述第四卷积层的输出与所述第二过滤连接层连接;所述局部处理块还包括:第五卷积层、第六卷积层和第七卷积层,所述第五卷积层的输入与所述第一过滤连接层连接,所述第七卷积层的输出与所述第二过滤连接层连接,所述第六卷积层的输入和输出与第五卷积层的输出和第七卷积层的输入相连接;所述局部处理块还包括:第三最大池化层和第八卷积层,所述第三最大池化层的输入与所述第一过滤连接层连接,所述第八卷积层的输出与所述第二过滤连接层连接,所述第三最大池化层的输出和所述第八卷积层的输出相连接;其中,第四卷积层的卷积核大小为1*1,第五卷积层的卷积核大小为1*1,第六卷积层的卷积核大小为3*3,第七卷积层的卷积核大小为3*3,第八卷积层的卷积核大小为1*1。
所述第二深度神经网络模型的六个局部处理块分别对应头部识别模型、上身识别模型、全身识别模型、下身识别模型、脚部识别模型和附属物识别模型,该六个局部处理块并行进行识别,即支持多分类任务,大大提高了识别效率。所述第二深度神经网络模型具体结果及六个局部处理块的具体结构是本发明的重要发明点之另一,通过该第二深度神经网络模型可以准确的识别行人的属性特征。通过采用不同大小的卷积核融合不同尺度特征,这个结构很好地利用了网络中的计算资源,并且在不增加计算负载的情况下,增加网络的宽度和深度。同时在每一个卷积层后面做批归一化处理。各部件图片尺寸不尽相同,对于类别之间存在样本不均衡现象,通过在损失函数中加入样本权重来解决。在一个示例中,头部识别模型包括以下分类:帽子、发型、眼睛、口罩;上身识别模型包括以下分类:上衣类型、上衣纹理、上衣颜色、包类型、包颜色;全身识别模型包括以下分类:性别、朝向、体态、年龄、民族;下身分类模型包括以下分类:下衣类型、下衣颜色;脚步分类模型包括以下分类:鞋子类型、鞋子颜色。
在神经模型使用前必须要对其进行训练,下面介绍一下,对其第一、二深度神经网络模型训练过程。
第一步:数据收集、标注:数据来源于公司内部各楼层的多个高清摄像头,为保证数据的差异性,按不同季节和时间点从中选取10000张图片进行标注。标注的主要内容包括行人及行人主要附属物,行人再划分为头部、上身、下身、脚五个部件,附属物标注了一些常见物品,如手提袋、伞、小的手持物。标注信息以xml文件格式保存。
第二步,数据准备与增强:将数据集分成训练集和测试集,比例为8:2。由于训练集数量较少,因此对数据做了模糊、高亮、灰度化、增加对比度、水平翻转等增强操作;
第三步,训练:
对所述第一深度神经网络模型进行训练的参数为:生成训练集图片名称列表文件train_image_path.txt(文件名字可随意定义),根据列表文件与标注信息xml文件转化成darknet标准输入格式;执行训练:设置图片输入尺寸416*416、训练批次大小为64、学习率为0.001、动量为0.9。
对所述第二深度神经网络模型进行训练的参数为:制作lmdb数据集:将每张图片绝对路径与分类标识按空格分割组成一行存储在train.txt和val.txt文件中,执行转换角本生成lmdb文件;执行训练:训练批次大小为64、学习率为0.001。
本发明通过第一深度神经网络模型对行人图像进行人体部位检测,获得人体部位信息和附属物信息,然后再使用第二深度神经网络模型对所述人体部位信息和附属物信息进行识别得到行人属性信息,即本发明中采用由粗到细对行人进行精细识别,并在第二深度神经网络模型设计了对人体部位及附属物进行局部细粒度属性识别的局部处理块,提高了人体部位和附属物识别的准确度。该识别方法具有较低的延时,对目前辅助监控有很大的帮助。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
最后所应说明的是:以上实施例仅以说明而非限制本发明的技术方案,尽管参照上述实施例对本发明进行了详细说明,本领域的普通技术人员应当理解:依然可以对本发明进行修改或者等同替换,而不脱离本发明的精神和范围的任何修改或局部替换,其均应涵盖在本发明的权利要求范围当中。
Claims (13)
1.一种基于深度神经网络的行人属性识别方法,其特征在于,该方法包括:
获取步骤,获取待识别的行人图像;
检测步骤,使用第一深度神经网络模型对所述行人图像进行人体部位检测,获得人体部位信息和附属物信息;
识别步骤,使用第二深度神经网络模型对所述人体部位信息和附属物信息进行识别得到行人属性信息。
2.根据权利要求1所述的方法,其特征在于,人体部位包括:头部、上身、全身、下身和脚部。
3.根据权利要求2所述的方法,其特征在于,所述第二深度神经网络模型包括头部识别模型、上身识别模型、全身识别模型、下身识别模型、脚部识别模型和附属物识别模型。
4.根据权利要求1所述的方法,其特征在于,将所述行人图像划分为S*S个格子,使用所述第一深度神经网络模型检测人体部位落在格子中的范围以确定人体部位信息,其中,人体部位信息为人体部位在所述行人图像中的位置,所述第一深度神经网络模型的卷积核用3*1和1*3大小的卷积核。
5.根据权利要求4所述的方法,其特征在于,所述第二深度神经网络模型包括依次连接的第一卷积层、第一最大池化层、第二卷积层、第三卷积层、第二最大池化层、六个局部处理块、平均池化层、丢弃层和多个softmax分类器;
其中,第一卷积层的卷积核大小为5*5,第二卷积层的卷积核大小为1*1,第三卷积层的卷积核大小为3*3;
其中,所述局部处理块包括:第一过滤连接层、第四卷积层和第二过滤连接层,所述第四卷积层的输入与所述第一过滤连接层连接,所述第四卷积层的输出与所述第二过滤连接层连接;所述局部处理块还包括:第五卷积层、第六卷积层和第七卷积层,所述第五卷积层的输入与所述第一过滤连接层连接,所述第七卷积层的输出与所述第二过滤连接层连接,所述第六卷积层的输入和输出与第五卷积层的输出和第七卷积层的输入相连接;所述局部处理块还包括:第三最大池化层和第八卷积层,所述第三最大池化层的输入与所述第一过滤连接层连接,所述第八卷积层的输出与所述第二过滤连接层连接,所述第三最大池化层的输出和所述第八卷积层的输出相连接;
其中,第四卷积层的卷积核大小为1*1,第五卷积层的卷积核大小为1*1,第六卷积层的卷积核大小为3*3,第七卷积层的卷积核大小为3*3,第八卷积层的卷积核大小为1*1。
6.根据权利要求5所述的方法,其特征在于,对所述第一深度神经网络模型进行训练的参数为:图像输入大小为416*416、训练批次大小为64、学习率为0.001和动量为0.9;对所述第二深度神经网络模型进行训练的参数为:训练批次大小为64、学习率为0.001。
7.一种基于深度神经网络的行人属性识别装置,其特征在于,该装置包括:
获取单元,用于获取待识别的行人图像;
检测单元,使用第一深度神经网络模型对所述行人图像进行人体部位检测,获得人体部位信息和附属物信息;
识别单元,使用第二深度神经网络模型对所述人体部位信息和附属物信息进行识别得到行人属性信息。
8.根据权利要求7所述的装置,其特征在于,人体部位包括:头部、上身、全身、下身和脚部。
9.根据权利要求7所述的装置,其特征在于,所述第二深度神经网络模型包括头部识别模型、上身识别模型、全身识别模型、下身识别模型、脚部识别模型和附属物识别模型。
10.根据权利要求7所述的装置,其特征在于,将所述行人图像划分为S*S个格子,使用所述第一深度神经网络模型检测人体部位落在格子中的范围以确定人体部位信息,其中,人体部位信息为人体部位在所述行人图像中的位置,所述第一深度神经网络模型的卷积核用3*1和1*3大小的卷积核。
11.根据权利要求10所述的装置,其特征在于,所述第二深度神经网络模型包括依次连接的第一卷积层、第一最大池化层、第二卷积层、第三卷积层、第二最大池化层、六个局部处理块、平均池化层、丢弃层和多个softmax分类器;
其中,第一卷积层的卷积核大小为5*5,第二卷积层的卷积核大小为1*1,第三卷积层的卷积核大小为3*3;
其中,所述局部处理块包括:第一过滤连接层、第四卷积层和第二过滤连接层,所述第四卷积层的输入与所述第一过滤连接层连接,所述第四卷积层的输出与所述第二过滤连接层连接;所述局部处理块还包括:第五卷积层、第六卷积层和第七卷积层,所述第五卷积层的输入与所述第一过滤连接层连接,所述第七卷积层的输出与所述第二过滤连接层连接,所述第六卷积层的输入和输出与第五卷积层的输出和第七卷积层的输入相连接;所述局部处理块还包括:第三最大池化层和第八卷积层,所述第三最大池化层的输入与所述第一过滤连接层连接,所述第八卷积层的输出与所述第二过滤连接层连接,所述第三最大池化层的输出和所述第八卷积层的输出相连接;
其中,第四卷积层的卷积核大小为1*1,第五卷积层的卷积核大小为1*1,第六卷积层的卷积核大小为3*3,第七卷积层的卷积核大小为3*3,第八卷积层的卷积核大小为1*1。
12.根据权利要求11所述的装置,其特征在于,对所述第一深度神经网络模型进行训练的参数为:图像输入大小为416*416、训练批次大小为64、学习率为0.001和动量为0.9;对所述第二深度神经网络模型进行训练的参数为:训练批次大小为64、学习率为0.001。
13.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序代码,当所述计算机程序代码被计算机执行时执行权利要求1-6之任一的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810992084.XA CN109934081A (zh) | 2018-08-29 | 2018-08-29 | 一种基于深度神经网络的行人属性识别方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810992084.XA CN109934081A (zh) | 2018-08-29 | 2018-08-29 | 一种基于深度神经网络的行人属性识别方法、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109934081A true CN109934081A (zh) | 2019-06-25 |
Family
ID=66984522
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810992084.XA Pending CN109934081A (zh) | 2018-08-29 | 2018-08-29 | 一种基于深度神经网络的行人属性识别方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109934081A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110569779A (zh) * | 2019-08-28 | 2019-12-13 | 西北工业大学 | 基于行人局部和整体属性联合学习的行人属性识别方法 |
CN110796079A (zh) * | 2019-10-29 | 2020-02-14 | 深圳龙岗智能视听研究院 | 基于人脸深度特征和人体局部深度特征的多相机访客识别的方法及系统 |
CN110992397A (zh) * | 2019-10-21 | 2020-04-10 | 浙江大华技术股份有限公司 | 人员出入轨迹追踪方法、系统、计算机设备和存储介质 |
CN111553392A (zh) * | 2020-04-17 | 2020-08-18 | 东南大学 | 一种基于卷积神经网络的细粒度犬类图像识别方法 |
CN111626276A (zh) * | 2020-07-30 | 2020-09-04 | 之江实验室 | 一种基于两级神经网络的工鞋穿戴检测方法及装置 |
CN111931661A (zh) * | 2020-08-12 | 2020-11-13 | 桂林电子科技大学 | 一种基于卷积神经网络的实时口罩佩戴检测方法 |
CN115331262A (zh) * | 2022-09-06 | 2022-11-11 | 通号通信信息集团有限公司 | 图像识别方法和装置 |
CN116386106A (zh) * | 2023-03-16 | 2023-07-04 | 宁波星巡智能科技有限公司 | 伴睡婴幼儿时婴幼儿头部智能识别方法、装置及设备 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104992142A (zh) * | 2015-06-03 | 2015-10-21 | 江苏大学 | 一种基于深度学习和属性学习相结合的行人识别方法 |
CN105740892A (zh) * | 2016-01-27 | 2016-07-06 | 北京工业大学 | 一种高准确率的基于卷积神经网络的人体多部位识别方法 |
CN106127173A (zh) * | 2016-06-30 | 2016-11-16 | 北京小白世纪网络科技有限公司 | 一种基于深度学习的人体属性识别方法 |
CN106600595A (zh) * | 2016-12-21 | 2017-04-26 | 厦门可睿特信息科技有限公司 | 一种基于人工智能算法的人体特征尺寸自动测量方法 |
CN106611156A (zh) * | 2016-11-03 | 2017-05-03 | 桂林电子科技大学 | 一种自适应深度空间特征的行人识别方法和系统 |
CN106683666A (zh) * | 2016-12-23 | 2017-05-17 | 上海语知义信息技术有限公司 | 一种基于深度神经网络的领域自适应方法 |
CN106845415A (zh) * | 2017-01-23 | 2017-06-13 | 中国石油大学(华东) | 一种基于深度学习的行人精细化识别方法及装置 |
CN106951872A (zh) * | 2017-03-24 | 2017-07-14 | 江苏大学 | 一种基于无监督深度模型与层次属性的行人再识别方法 |
CN106960181A (zh) * | 2017-02-28 | 2017-07-18 | 中科唯实科技(北京)有限公司 | 一种基于rgbd数据的行人属性识别方法 |
CN107729805A (zh) * | 2017-09-01 | 2018-02-23 | 北京大学 | 用于行人再识别的神经网络和基于深度学习的行人再识别算法 |
CN107944403A (zh) * | 2017-11-29 | 2018-04-20 | 青岛海信网络科技股份有限公司 | 一种图像中的行人属性检测方法及装置 |
CN108460407A (zh) * | 2018-02-02 | 2018-08-28 | 东华大学 | 一种基于深度学习的行人属性精细化识别方法 |
-
2018
- 2018-08-29 CN CN201810992084.XA patent/CN109934081A/zh active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104992142A (zh) * | 2015-06-03 | 2015-10-21 | 江苏大学 | 一种基于深度学习和属性学习相结合的行人识别方法 |
CN105740892A (zh) * | 2016-01-27 | 2016-07-06 | 北京工业大学 | 一种高准确率的基于卷积神经网络的人体多部位识别方法 |
CN106127173A (zh) * | 2016-06-30 | 2016-11-16 | 北京小白世纪网络科技有限公司 | 一种基于深度学习的人体属性识别方法 |
CN106611156A (zh) * | 2016-11-03 | 2017-05-03 | 桂林电子科技大学 | 一种自适应深度空间特征的行人识别方法和系统 |
CN106600595A (zh) * | 2016-12-21 | 2017-04-26 | 厦门可睿特信息科技有限公司 | 一种基于人工智能算法的人体特征尺寸自动测量方法 |
CN106683666A (zh) * | 2016-12-23 | 2017-05-17 | 上海语知义信息技术有限公司 | 一种基于深度神经网络的领域自适应方法 |
CN106845415A (zh) * | 2017-01-23 | 2017-06-13 | 中国石油大学(华东) | 一种基于深度学习的行人精细化识别方法及装置 |
CN106960181A (zh) * | 2017-02-28 | 2017-07-18 | 中科唯实科技(北京)有限公司 | 一种基于rgbd数据的行人属性识别方法 |
CN106951872A (zh) * | 2017-03-24 | 2017-07-14 | 江苏大学 | 一种基于无监督深度模型与层次属性的行人再识别方法 |
CN107729805A (zh) * | 2017-09-01 | 2018-02-23 | 北京大学 | 用于行人再识别的神经网络和基于深度学习的行人再识别算法 |
CN107944403A (zh) * | 2017-11-29 | 2018-04-20 | 青岛海信网络科技股份有限公司 | 一种图像中的行人属性检测方法及装置 |
CN108460407A (zh) * | 2018-02-02 | 2018-08-28 | 东华大学 | 一种基于深度学习的行人属性精细化识别方法 |
Non-Patent Citations (2)
Title |
---|
CHRISTIAN SZEGEDY ET AL.: "Inception-v4,Inception-ResNet and the Impact of Residual Connections on Learning", 《ARXIV:1602.07261V2[CS.CV]》 * |
JOSEPH REDMON ET AL.: "You Only Look Once:Unified, Real-Time Object Detection", 《ARXIV:1506.02640V5 [CS.CV]》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110569779A (zh) * | 2019-08-28 | 2019-12-13 | 西北工业大学 | 基于行人局部和整体属性联合学习的行人属性识别方法 |
CN110569779B (zh) * | 2019-08-28 | 2022-10-04 | 西北工业大学 | 基于行人局部和整体属性联合学习的行人属性识别方法 |
CN110992397A (zh) * | 2019-10-21 | 2020-04-10 | 浙江大华技术股份有限公司 | 人员出入轨迹追踪方法、系统、计算机设备和存储介质 |
CN110796079A (zh) * | 2019-10-29 | 2020-02-14 | 深圳龙岗智能视听研究院 | 基于人脸深度特征和人体局部深度特征的多相机访客识别的方法及系统 |
CN111553392A (zh) * | 2020-04-17 | 2020-08-18 | 东南大学 | 一种基于卷积神经网络的细粒度犬类图像识别方法 |
CN111553392B (zh) * | 2020-04-17 | 2024-03-01 | 东南大学 | 一种基于卷积神经网络的细粒度犬类图像识别方法 |
CN111626276A (zh) * | 2020-07-30 | 2020-09-04 | 之江实验室 | 一种基于两级神经网络的工鞋穿戴检测方法及装置 |
CN111931661A (zh) * | 2020-08-12 | 2020-11-13 | 桂林电子科技大学 | 一种基于卷积神经网络的实时口罩佩戴检测方法 |
CN115331262A (zh) * | 2022-09-06 | 2022-11-11 | 通号通信信息集团有限公司 | 图像识别方法和装置 |
CN116386106A (zh) * | 2023-03-16 | 2023-07-04 | 宁波星巡智能科技有限公司 | 伴睡婴幼儿时婴幼儿头部智能识别方法、装置及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109934081A (zh) | 一种基于深度神经网络的行人属性识别方法、装置及存储介质 | |
TWI773189B (zh) | 基於人工智慧的物體檢測方法、裝置、設備及儲存媒體 | |
CN112131978B (zh) | 一种视频分类方法、装置、电子设备和存储介质 | |
JP7172472B2 (ja) | ルール生成装置、ルール生成方法及びルール生成プログラム | |
CN111160249A (zh) | 基于跨尺度特征融合的光学遥感图像多类目标检测方法 | |
Mandhala et al. | Object detection using machine learning for visually impaired people | |
CN110298297A (zh) | 火焰识别方法和装置 | |
Hobson et al. | HEp-2 staining pattern recognition at cell and specimen levels: datasets, algorithms and results | |
CN114387499A (zh) | 一种海岛滨海湿地水鸟识别方法、分布查询系统及介质 | |
CN110413825B (zh) | 面向时尚电商的街拍推荐系统 | |
CN113569895A (zh) | 图像处理模型训练方法、处理方法、装置、设备及介质 | |
CN108647703B (zh) | 一种基于显著性的分类图像库的类型判断方法 | |
CN110110727A (zh) | 基于条件随机场和贝叶斯后处理的图像分割方法 | |
CN109993187A (zh) | 一种用于识别物体类别的建模方法、机器人及存储装置 | |
CN109948702A (zh) | 一种基于卷积神经网络的服装分类和推荐模型 | |
Zhang | Half century for image segmentation | |
CN111310531B (zh) | 图像分类方法、装置、计算机设备及存储介质 | |
CN113822134A (zh) | 一种基于视频的实例跟踪方法、装置、设备及存储介质 | |
Yin et al. | Road Damage Detection and Classification based on Multi-level Feature Pyramids. | |
CN116188501B (zh) | 基于多尺度交叉注意力的医学图像分割方法 | |
Wang et al. | Self-attention deep saliency network for fabric defect detection | |
CN111738186A (zh) | 目标定位方法、装置、电子设备及可读存储介质 | |
Gowda | Age estimation by LS-SVM regression on facial images | |
Annbuselvi et al. | A competent multimodal recognition using imperfect region based face and gait cues using Median-LBPF and Median-LBPG based PCA followed by LDA | |
CN114973107A (zh) | 基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190625 |