CN112036249B - 端对端行人检测及属性识别的方法、系统、介质及终端 - Google Patents
端对端行人检测及属性识别的方法、系统、介质及终端 Download PDFInfo
- Publication number
- CN112036249B CN112036249B CN202010772244.7A CN202010772244A CN112036249B CN 112036249 B CN112036249 B CN 112036249B CN 202010772244 A CN202010772244 A CN 202010772244A CN 112036249 B CN112036249 B CN 112036249B
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- detection
- attribute
- data set
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种端对端行人检测及属性识别的方法、系统、介质及终端;所述方法包括以下步骤:获取第一行人图像数据集;搭建行人检测及属性识别模型;行人检测及属性识别模型包括检测网络和属性预测分支;利用第一行人图像数据集对检测网络进行训练,获取训练好的检测网络;获取第二行人图像数据集;利用第二行人图像数据集对属性预测分支进行训练,获取训练好的属性预测分支;本发明采用分步训练的方法,使得行人属性的标注的优劣情况不会对行人检测造成影响,能保证获得准确检出的前提下,得到行人的属性,且能够针对性地对不同类别的行人检测框训练对应该框的属性。
Description
技术领域
本发明属于计算机视觉技术领域,特别是涉及一种端对端行人检测及属性识别的方法、 系统、介质及终端。
背景技术
利用视频或图像对行人进行检测,得到行人的属性具有重要的意义,对行人视频或图像 进行处理的主要任务可分为行人目标检测和属性分析这两部分;目前,目标检测与属性识别 大多是采用分阶段的方式实现;具体为:先对图像中的行人进行检测,根据检测结果对图片 中的行人对象进行裁剪,再输入到属性识别网络中得到该行人对象的相关属性,这种分阶段 的方法具有以下缺陷:
(1)目标检测误差会引起属性分析的累积误差。
(2)无法利用到行人对象之外的图像全局信息来辅助属性检测,特别是对于行人是否被 遮挡的属性判断。
(3)当行人数量较多的时候,整个系统中裁图和属性推理的负担变大,给实时监测增加 难度。
除此之外,在目前存在的端到端系统实现中,常常将检测和属性识别同时训练,而同时 具有行人检测以及各种属性的标注数据来源非常有限,当属性标注不全或错误的时候,常常 很大程度上影响检测的效果。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种端对端行人检测及属性识别 的方法、系统、介质及终端,能够提高行人检测及属性识别的准确度,且不受行人数量的限 制,使得行人检测及属性识别的效率大大提升。
为实现上述目的及其他相关目的,本发明提供一种端对端行人检测及属性识别的方法, 包括以下步骤:获取第一行人图像数据集;搭建行人检测及属性识别模型;所述行人检测及 属性识别模型包括检测网络和属性预测分支;其中,所述检测网络用于输出行人检测框;所 述属性预测分支用于输出对应所述行人检测框的属性;利用所述第一行人图像数据集对所述 检测网络进行训练,获取训练好的检测网络;获取第二行人图像数据集;利用所述第二行人 图像数据集对所述属性预测分支进行训练,获取训练好的属性预测分支,以基于训练好的检 测网络和训练好的属性预测分支实现行人检测及属性识别。
于本发明的一实施例中,获取第一行人图像数据集包括以下步骤:从互联网开源获取目 标检测数据;从所述目标检测数据中提取进行了行人标注的行人图像作为所述第一行人图像 数据集。
于本发明的一实施例中,所述检测网络输出所述行人检测框包括以下步骤:对所述第一 行人图像数据集中的行人图像进行特征提取,获取行人特征图;基于所述行人特征图进行目 标预测,以获取所述行人检测框。
于本发明的一实施例中,所述第二行人图像数据集中的行人图像均预先进行了行人标注, 标注内容包括:行人标注框及对应所述行人标注框的至少一属性。
于本发明的一实施例中,通过损失函数对所述属性预测分支进行迭代训练;所述损失函 数的计算方法包括以下步骤:对于所述行人标注框,计算所述行人标注框与所有所述行人检 测框的重叠交并比值,并将重叠交并比值最大的行人检测框作为对应所述行人标注框的行人 候选框;计算所述行人候选框的属性分类损失;损失函数的计算公式为:
其中,Lossattr表示所述属性分类损失;S2表示所述行人候选框的大小;表示网格单元 i的第j个锚点框负责该框的预测,即为所述行人候选框;attr_num为属性个数;c表示属性 中的其中一类;为一属性类别对应的二分类交叉熵;表示网格 单元i的第j个锚点框预测样本是正例的概率;表示样本标签。
于本发明的一实施例中,还包括:在对所述属性预测分支进行训练前,冻结所述检测网 络。
于本发明的一实施例中,所述属性包括性别和/或遮挡程度。
本发明提供一种端对端行人检测及属性识别的系统,包括:第一获取模块、模型搭建模 块、第一训练模块、第二获取模块及第二训练模块;所述第一获取模块用于获取第一行人图 像数据集;所述模型搭建模块用于搭建行人检测及属性识别模型;所述行人检测及属性识别 模型包括检测网络和属性预测分支;其中,所述检测网络用于输出行人检测框;所述属性预 测分支用于输出对应所述行人检测框的属性;所述第一训练模块用于利用所述第一行人图像 数据集对所述检测网络进行训练,获取训练好的检测网络;所述第二获取模块用于获取第二 行人图像数据集;所述第二训练模块用于利用所述第二行人图像数据集对所述属性预测分支 进行训练,获取训练好的属性预测分支,以基于训练好的检测网络和训练好的属性预测分支 实现行人检测及属性识别。
本发明提供一种存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现 上述的端对端行人检测及属性识别的方法。
本发明提供一种终端,包括:处理器及存储器;所述存储器用于存储计算机程序;所述 处理器用于执行所述存储器存储的计算机程序,以使所述终端执行上述的端对端行人检测及 属性识别的方法。
如上所述,本发明所述的端对端行人检测及属性识别的方法、系统、介质及终端,具有 以下有益效果:
(1)与现有技术相比,本发明可以在一次前向传播中完成端到端的行人检测与属性识别 任务,整个过程不需要依靠人工提取特征,可全部由深度神经网络自身进行学习,端到端的 方式节约了裁剪行人图像,单独进行行人属性识别的时间,减少了重复提取特征的损耗,极 大地提升了行人检测与属性识别的效率;
(2)本发明提出的行人检测与属性识别模型为轻量化小网络,便于部署,且对其的训练 方式不受限于行人检测和属性识别用同一个数据集,便于拓展,且通过基于全图提取特征进 行属性识别,不会因行人数目增加而增加系统的计算负担;
(3)本发明采用分步训练的方法,使得行人属性的标注的优劣情况不会对行人检测造成 影响,能保证获得准确检出的前提下,得到行人的属性,且能够针对性地对不同类别的行人 检测框训练对应该框的属性。
附图说明
图1显示为本发明的端对端行人检测及属性识别的方法于一实施例中的流程图。
图2显示为本发明的行人检测及属性识别模型于一实施例中的结构示意图。
图3显示为本发明的类Yolo层于一实施例中的结构示意图。
图4显示为本发明的端对端行人检测及属性识别的方法于一实施例中的效果图。
图5显示为本发明的端对端行人检测及属性识别的系统于一实施例中的结构示意图。
图6显示为本发明的终端于一实施例中的结构示意图。
标号说明
51 第一获取模块
52 模型搭建模块
53 第一训练模块
54 第二获取模块
55 第二训练模块
61 处理器
62 存储器
S1~S5 步骤
具体实施方式
以下通过特定的具体实施例说明本发明的实施方式,本领域技术人员可由本说明书所揭 露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式 加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的 精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特 征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图 示中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实 际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复 杂。
本发明的端对端行人检测及属性识别的方法、系统、介质及终端,与现有技术相比,本 发明可以在一次前向传播中完成端到端的行人检测与属性识别任务,整个过程不需要依靠人 工提取特征,可全部由深度神经网络自身进行学习,端到端的方式节约了裁剪行人图像,单 独进行行人属性识别的时间,减少了重复提取特征的损耗,极大地提升了行人检测与属性识 别的效率;本发明提出的行人检测与属性识别模型为轻量化小网络,便于部署,且对其的训 练方式不受限于行人检测和属性识别用同一个数据集,便于拓展,且通过基于全图提取特征 进行属性识别,不会因行人数目增加而增加系统的计算负担;本发明采用分步训练的方法, 使得行人属性的标注的优劣情况不会对行人检测造成影响,能保证获得准确检出的前提下, 得到行人的属性,且能够针对性地对不同类别的行人检测框训练对应该框的属性。
如图1所示,于一实施例中,本发明的端对端行人检测及属性识别的方法包括以下步骤:
步骤S1、获取第一行人图像数据集。
于一实施例中,获取第一行人图像数据集包括以下步骤:
(11)从互联网开源获取目标检测数据。
具体地,从互联网开源网站获取目标检测数据,该目标检测数据中通常包括多种物体类 别及检测框。
(12)从所述目标检测数据中提取进行了行人标注的行人图像作为所述第一行人图像数 据集。
步骤S2、搭建行人检测及属性识别模型。
需要说明的是,所述行人检测及属性识别模型包括检测网络和属性预测分支。
其中,所述检测网络用于输出行人检测框。
优选地,该检测网络采用TinyYoloV3模型。
需要说明的是,TinyYoloV3是YoloV3的简化版,相比较YoloV3速度更快、精度较低; YoloV3是YOLO(You Only Look Once)系列目标检测算法中的第三版,YOLO目标检测算法 是将物体检测作为回归问题求解,基于一个单独的端对端网络,完成从原始图像的输入到物 体位置和类别的输出。
于一实施例中,所述检测网络输出所述行人检测框包括以下步骤:
(21)对所述第一行人图像数据集中的行人图像进行特征提取,获取行人特征图。
(22)基于所述行人特征图进行目标预测,以获取所述行人检测框。
如图2所示,TinyYoloV3包括主干模块(Tiny-YoloV3 Backbone)和检测模块(Detect Block);其中,主干模块用来对行人图像进行特征提取,并将特征提取后的结果给到检测模 块和属性预测分支,以进行后续的预测;经检测模块进行目标预测后,通过Yolo层,最终输 出行人检测框。
其中,所述属性预测分支用于输出对应所述行人检测框的属性。
如图2所示,在TinyYoloV3模型基础上增加属性预测分支(Attribute Block),经步骤(21) 获取的行人特征图经属性预测分支进行属性预测后,通过类Yolo层(具体结构见图3所示), 最终输出带有对应该行人检测框属性的检测框(该属性预测分支的结构与检测模块的结构相 同,不同之处在于,将检测模块后的Yolo层更改为了类Yolo层,以实现同时输出行人检测 框及其对应的属性)。
需要说明的是,通过在检测网络的基础上增加属性预测分支,使得该分支能够配合检测 网络的输出,在输出行人检测框的同时,输出对应该框的属性,比如对检测出的人脸框能输 出行人性别,对检测的人体框能输出人体是否被遮挡及被遮挡的程度,应用场景不受限于行 人图像中的行人数量。
进一步地,在实际应用中,可根据需求,使该行人检测及属性识别模型只输出行人检测 框或只输出包含有对应属性的行人检测框,亦或是同时输出两者,具有较强的适用性。
于一实施例中,所述属性包括但不限于包括性别和/或遮挡程度。
需要说明的是,该性别包括男、女;该遮挡程度包括无遮挡、轻度遮挡、重度遮挡。
步骤S3、利用所述第一行人图像数据集对所述检测网络进行训练,获取训练好的检测网 络。
具体地,经步骤S1获取的第一行人图像数据集作为该检测网络的训练集,用于对该检测 网络进行训练。
需要说明的是,通过加载TinyYoloV3的预训练权重对该检测网络进行训练。
进一步地,在训练完成后,还需验证主干模块到检测模块的输出是否正确,选择检测效 果最优的检测网络,为后续的训练备用;具体地,可根据AP(Average Precision)来衡量模型优 劣,其意义相当于计算precision(精确率)/recall(召回率)曲线下方的面积。
步骤S4、获取第二行人图像数据集。
需要说明的是,该第二行人图像数据集可以跟步骤S1中获取的第一行人图像数据集不相 同,同样也可以从互联网开源数据集获得。
于一实施例中,所述第二行人图像数据集中的行人图像均预先进行了行人标注。
需要说明的是,对第二行人图像数据集中行人图像的标注可通过人工标注的方法来实现, 标注内容包括行人标注框及对应所述行人标注框的至少一属性。
步骤S5、利用所述第二行人图像数据集对所述属性预测分支进行训练,获取训练好的属 性预测分支,以基于训练好的检测网络和训练好的属性预测分支实现行人检测及属性识别。
具体地,将经步骤S4获取的第二行人图像数据集作为训练集,对该属性预测分支进行训 练,以获取训练好的属性预测分支。
于一实施例中,通过损失函数对所述属性预测分支进行迭代训练。
具体地,所述损失函数的计算方法包括以下步骤:
(31)对于所述行人标注框,计算所述行人标注框与所有所述行人检测框的重叠交并比 (交并比,英文全称Intersection over Union,简称IoU,是衡量检测物体准确度的一个标准, IoU的值越大,表明测量结果就越准确)值,并将重叠交并比值最大的行人检测框作为对应 所述行人标注框的行人候选框。
(32)计算所述行人候选框的属性分类损失;损失函数的计算公式为:
其中,Lossattr表示所述属性分类损失;S2表示所述行人候选框的大小;表示网格单元 i的第j个锚点框负责该框的预测,即为所述行人候选框;attr_num为属性个数;c表示属性 中的其中一类;为一属性类别对应的二分类交叉熵;表示网格 单元i的第j个锚点框预测样本是正例的概率;表示样本标签。
于一实施例中,还包括在对所述属性预测分支进行训练前,冻结所述检测网络。
具体地,先加载出经步骤S3获取的训练好的检测网络的参数,然后冻结检测网络的参数, 训练该属性预测分支。
下面通过具体实施例来进一步解释说明本发明的端对端行人检测及属性识别的方法。
于本实施例中,该端对端行人检测及属性识别的方法包括以下步骤:
步骤一、准备训练Tiny-YoloV3模型的数据,具体是从互联网开源数据集获得,检测数据 标注内容包括行人检测框坐标、检测框类别。
需要说明的是,检测框坐标为绝对坐标表示,由检测框左上角和右下角坐标组成(xmin, ymin,xmax,ymax);检测框类别为一类或多类,编码方式如(0,1)代表人脸框;(1,0)代表 人体框。
步骤二、搭建Tiny-YoloV3模型,此模型为darknet提供的TinyYoloV3模型,加载darknet 提供的预训练权重对其进行训练。
需要说明的是,该Tiny-YoloV3网络模型最后一层卷积输出的通道数由以下公式计算:
det_ch_num=anchor_num×(1+class_num+4);
其中1代表是否为行人的置信度(confidence),4代表框的4位,分别是x、y、w、h,其中,x、y是指最后一层卷积输出的特征图中每个网格单元预测得到的物体的框的中心位置 的坐标;w、h分别指框的宽度和高度;anchor_num为Yolo锚点框数量,锚点框坐标可以在训练数据集上用K-means聚类生成;class_num为检测框分类数目。
于本实施例中,沿用TinyYoloV3的锚点框,有3个锚点框,即anchor_num=3;于本实 施例中,检测框分类为人脸和人体这两类。
步骤三、验证Tiny-YoloV3模型,选择检测效果最优的模型为下一步训练备用。
步骤四、准备用来训练属性预测分支的数据。
步骤五、在TinyYoloV3模型增加属性预测分支Attribute Block,其中属性预测分支最后 一层卷积输出的通道数由以下公式计算:
attr_ch_num=anchor_num×(1+attr_num)
其中,attr_num为属性个数,于本实施例中,attr_num=5,分为女性、男性、无遮挡、轻 度遮挡、重度遮挡5类,如男性、无遮挡的框可编码为(0,1,1,0,0)进行训练。
步骤六、更改属性预测分支训练的损失计算方法,具体的方法步骤如下:
(41)输入图片,TinyYoloV3模型输出13×13×det_ch_num、26×26×det_ch_num的 特征图,其各自代表13×13、26×26个网格的行人预选框。
(42)对应每一个标注行人框,依次计算它与行人预选框的IoU值,IoU值最大的预选 框负责该行人框的类别预测;具体地,
(43)计算行人候选框的属性分类损失,分类损失函数为:
其中,Lossattr表示所述属性分类损失;S2表示所述行人候选框的大小,于本实施例中为 13x13或26x26;表示网格单元i的第j个锚点框负责该框的预测,即为所述行人候选框; attr_num为属性个数;c表示属性中的其中一类;为一属性类别对 应的二分类交叉熵;表示网格单元i的第j个锚点框预测样本是正例的概率;表示样本 标签,如果样本属于正例,取值为1,否则取值为0。
需要说明的是,于本实施例中,女性、男性、无遮挡、轻度遮挡、重度遮挡5类都计算是否为该类的交叉熵,再累加起来就是网格单元i的第j个锚点框的属性分类损失,整张图的 分类损失由所有网格的分类损失累加起来。
步骤七、加载步骤三选出来的Tiny-YoloV3模型参数,冻结其网络参数,训练属性预测 分支Attribute Block,属性分类损失仅在属性预测分支中回传。
步骤八、更改yolo层实现为类yolo层。
如图3所示,其中conf、box、class分别为Tiny-YoloV3模型输出的行人检测框的置信度、 框的坐标、框的类别、框的属性;NMS(Non-Maximum-Suppresion)为非极大值抑制,经过NMS 筛选后的检测框带有类别和属性,类别的判断方式同TinyYoloV3;某框的属性由属性编码最 大值所在的位决定。
于本实施例中,对人脸类别框,取性别编码位的最大值所在位作为其性别;对人体类别 框,取遮挡编码位的最大值所在位作为其遮挡度;例如,某个人体框的属性输出为(0.55, 0.45,0.15,0.34,0.70),对应类别分别为女性、男性、无遮挡、轻度遮挡、重度遮挡,由于 人体属性框训练的属性为是否有遮挡,则结果只取与遮挡有关的位—(0.15,0.34,0.7),最 大值所在位为重度遮挡,那么该人体框属于重度遮挡。最终结果呈现如图4所示。
需要说明的是,本发明所述的端对端行人检测及属性识别的方法的保护范围不限于本实 施例列举的步骤(步骤S1~S5)执行顺序,凡是根据本发明的原理所做的现有技术的步骤增 减、步骤替换所实现的方案都包括在本发明的保护范围内。
如图5所示,于一实施例中,本发明的端对端行人检测及属性识别的系统包括第一获取 模块51、模型搭建模块52、第一训练模块53、第二获取模块54及第二训练模块55。
所述第一获取模块51用于获取第一行人图像数据集。
所述模型搭建模块52用于搭建行人检测及属性识别模型;所述行人检测及属性识别模型 包括检测网络和属性预测分支;其中,所述检测网络用于输出行人检测框;所述属性预测分 支用于输出对应所述行人检测框的属性。
所述第一训练模块53用于利用所述第一行人图像数据集对所述检测网络进行训练,获取 训练好的检测网络。
所述第二获取模块54用于获取第二行人图像数据集。
所述第二训练模块55用于利用所述第二行人图像数据集对所述属性预测分支进行训练, 获取训练好的属性预测分支,以基于训练好的检测网络和训练好的属性预测分支实现行人检 测及属性识别。
需要说明的是,所述第一获取模块51、所述模型搭建模块52、所述第一训练模块53、 所述第二获取模块54及所述第二训练模块55的结构及原理与上述端对端行人检测及属性识 别的方法中的步骤(步骤S1~S5)一一对应,故在此不再赘述。
需要说明的是,应理解以上系统的各个模块的划分仅仅是一种逻辑功能的划分,实际实 现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软 件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理 元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,x模块可以为单独设立的 处理元件,也可以集成在上述系统的某一个芯片中实现,此外,也可以以程序代码的形式存 储于上述系统的存储器中,由上述系统的某一个处理元件调用并执行以上x模块的功能。其 它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里 所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各 步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个 或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个 数字信号处理器(Digital Singnal Processor,简称DSP),或,一个或者多个现场可编程门阵 列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件 调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(Central Processing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在 一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。
本发明的存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述的端对 端行人检测及属性识别的方法。所述存储介质包括:ROM、RAM、磁碟、U盘、存储卡或者 光盘等各种可以存储程序代码的介质。
如图6所示,本发明的终端包括处理器61及存储器62。
所述存储器62用于存储计算机程序;优选地,所述存储器62包括:ROM、RAM、磁碟、U盘、存储卡或者光盘等各种可以存储程序代码的介质。
所述处理器61与所述存储器62相连,用于执行所述存储器62存储的计算机程序,以使 所述终端执行上述的端对端行人检测及属性识别的方法。
优选地,所述处理器61可以是通用处理器,包括中央处理器(Central ProcessingUnit, 简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称 ASIC)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)或者其他可编程 逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
需要说明的是,本发明的端对端行人检测及属性识别的系统可以实现本发明的端对端行 人检测及属性识别的方法,但本发明的端对端行人检测及属性识别的方法的实现装置包括但 不限于本实施例列举的端对端行人检测及属性识别的系统的结构,凡是根据本发明的原理所 做的现有技术的结构变形和替换,都包括在本发明的保护范围内。
综上所述,本发明的端对端行人检测及属性识别的方法、系统、介质及终端,与现有技 术相比,本发明可以在一次前向传播中完成端到端的行人检测与属性识别任务,整个过程不 需要依靠人工提取特征,可全部由深度神经网络自身进行学习,端到端的方式节约了裁剪行 人图像,单独进行行人属性识别的时间,减少了重复提取特征的损耗,极大地提升了行人检 测与属性识别的效率;本发明提出的行人检测与属性识别模型为轻量化小网络,便于部署, 且对其的训练方式不受限于行人检测和属性识别用同一个数据集,便于拓展,且通过基于全 图提取特征进行属性识别,不会因行人数目增加而增加系统的计算负担;本发明采用分步训 练的方法,使得行人属性的标注的优劣情况不会对行人检测造成影响,能保证获得准确检出 的前提下,得到行人的属性,且能够针对性地对不同类别的行人检测框训练对应该框的属性; 所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技 术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡 所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等 效修饰或改变,仍应由本发明的权利要求所涵盖。
Claims (9)
1.一种端对端行人检测及属性识别的方法,其特征在于,包括以下步骤:
获取第一行人图像数据集;
搭建行人检测及属性识别模型;所述行人检测及属性识别模型包括检测网络和属性预测分支;其中,所述检测网络用于输出行人检测框;所述属性预测分支用于输出对应所述行人检测框的属性;
利用所述第一行人图像数据集对所述检测网络进行训练,获取训练好的检测网络;
获取第二行人图像数据集;所述获取第一行人图像数据集和所述获取第二行人图像数据集相互独立,且所述第一行人图像数据集和所述第二行人图像数据集不受限于为同一数据集;
利用所述第二行人图像数据集对所述属性预测分支进行训练,获取训练好的属性预测分支,以基于训练好的检测网络和训练好的属性预测分支实现行人检测及属性识别;
还包括:在对所述属性预测分支进行训练前,冻结所述检测网络;所述利用所述第一行人图像数据集对所述检测网络进行训练与所述利用所述第二行人图像数据集对所述属性预测分支进行训练相互独立。
2.根据权利要求1所述的端对端行人检测及属性识别的方法,其特征在于,获取第一行人图像数据集包括以下步骤:
从互联网开源获取目标检测数据;
从所述目标检测数据中提取进行了行人标注的行人图像作为所述第一行人图像数据集。
3.根据权利要求1所述的端对端行人检测及属性识别的方法,其特征在于,所述检测网络输出所述行人检测框包括以下步骤:
对所述第一行人图像数据集中的行人图像进行特征提取,获取行人特征图;
基于所述行人特征图进行目标预测,以获取所述行人检测框。
4.根据权利要求1所述的端对端行人检测及属性识别的方法,其特征在于,所述第二行人图像数据集中的行人图像均预先进行了行人标注,标注内容包括:行人标注框及对应所述行人标注框的至少一属性。
5.根据权利要求4所述的端对端行人检测及属性识别的方法,其特征在于,通过损失函数对所述属性预测分支进行迭代训练;所述损失函数的计算方法包括以下步骤:
对于所述行人标注框,计算所述行人标注框与所有所述行人检测框的重叠交并比值,并将重叠交并比值最大的行人检测框作为对应所述行人标注框的行人候选框;
计算所述行人候选框的属性分类损失;损失函数的计算公式为:
6.根据权利要求1所述的端对端行人检测及属性识别的方法,其特征在于,所述属性包括性别和/或遮挡程度。
7.一种端对端行人检测及属性识别的系统,其特征在于,包括:第一获取模块、模型搭建模块、第一训练模块、第二获取模块及第二训练模块;
所述第一获取模块用于获取第一行人图像数据集;
所述模型搭建模块用于搭建行人检测及属性识别模型;所述行人检测及属性识别模型包括检测网络和属性预测分支;其中,所述检测网络用于输出行人检测框;所述属性预测分支用于输出对应所述行人检测框的属性;
所述第一训练模块用于利用所述第一行人图像数据集对所述检测网络进行训练,获取训练好的检测网络;
所述第二获取模块用于获取第二行人图像数据集;所述获取第一行人图像数据集和所述获取第二行人图像数据集相互独立,且所述第一行人图像数据集和所述第二行人图像数据集不受限于为同一数据集;
所述第二训练模块用于利用所述第二行人图像数据集对所述属性预测分支进行训练,获取训练好的属性预测分支,以基于训练好的检测网络和训练好的属性预测分支实现行人检测及属性识别;还包括:在对所述属性预测分支进行训练前,冻结所述检测网络;所述利用所述第一行人图像数据集对所述检测网络进行训练与所述利用所述第二行人图像数据集对所述属性预测分支进行训练相互独立。
8.一种存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至7中任一项所述的端对端行人检测及属性识别的方法。
9.一种终端,其特征在于,包括:处理器及存储器;
所述存储器用于存储计算机程序;
所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行权利要求1至7中任一项所述的端对端行人检测及属性识别的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010772244.7A CN112036249B (zh) | 2020-08-04 | 2020-08-04 | 端对端行人检测及属性识别的方法、系统、介质及终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010772244.7A CN112036249B (zh) | 2020-08-04 | 2020-08-04 | 端对端行人检测及属性识别的方法、系统、介质及终端 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112036249A CN112036249A (zh) | 2020-12-04 |
CN112036249B true CN112036249B (zh) | 2023-01-03 |
Family
ID=73582297
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010772244.7A Active CN112036249B (zh) | 2020-08-04 | 2020-08-04 | 端对端行人检测及属性识别的方法、系统、介质及终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112036249B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112418344B (zh) * | 2020-12-07 | 2023-11-21 | 汇纳科技股份有限公司 | 一种训练方法、目标检测方法、介质及电子设备 |
CN112633159B (zh) * | 2020-12-22 | 2024-04-12 | 北京迈格威科技有限公司 | 人-物交互关系识别方法、模型训练方法及对应装置 |
CN112668508B (zh) * | 2020-12-31 | 2023-08-15 | 中山大学 | 基于垂直俯视角的行人标注、检测和性别识别方法 |
CN117079311A (zh) * | 2023-10-18 | 2023-11-17 | 爱芯元智半导体(宁波)有限公司 | 行人检测及属性识别方法、系统、电子设备及存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110427795A (zh) * | 2019-01-28 | 2019-11-08 | 厦门瑞为信息技术有限公司 | 一种基于头部照片的属性分析方法、系统和计算机设备 |
CN110110611A (zh) * | 2019-04-16 | 2019-08-09 | 深圳壹账通智能科技有限公司 | 人像属性模型构建方法、装置、计算机设备和存储介质 |
CN110287856A (zh) * | 2019-06-21 | 2019-09-27 | 上海闪马智能科技有限公司 | 一种执勤人员行为分析系统、方法及装置 |
CN110532970B (zh) * | 2019-09-02 | 2022-06-24 | 厦门瑞为信息技术有限公司 | 人脸2d图像的年龄性别属性分析方法、系统、设备和介质 |
-
2020
- 2020-08-04 CN CN202010772244.7A patent/CN112036249B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112036249A (zh) | 2020-12-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112036249B (zh) | 端对端行人检测及属性识别的方法、系统、介质及终端 | |
CN110781756A (zh) | 基于遥感图像的城市道路提取方法及装置 | |
CN112862774B (zh) | 一种遥感影像建筑物精确分割方法 | |
CN114998220B (zh) | 一种基于改进的Tiny-YOLO v4自然环境下舌像检测定位方法 | |
CN110245683B (zh) | 一种少样本目标识别的残差关系网络构建方法及应用 | |
CN114972191A (zh) | 一种耕地变化检测方法和装置 | |
CN112070069A (zh) | 遥感图像的识别方法和装置 | |
CN110705573A (zh) | 一种目标检测模型的自动建模方法及装置 | |
CN113537070B (zh) | 一种检测方法、装置、电子设备及存储介质 | |
CN110246579B (zh) | 一种病理诊断方法及装置 | |
CN112529005B (zh) | 基于语义特征一致性监督金字塔网络的目标检测方法 | |
CN113420619A (zh) | 一种遥感影像建筑物提取方法 | |
CN112464717A (zh) | 一种遥感图像目标检测方法、系统、电子设备和存储介质 | |
CN111091101A (zh) | 基于一步法的高精度行人检测方法、系统、装置 | |
CN113988147A (zh) | 基于图网络的遥感图像场景多标签分类方法及装置、多标签检索方法及装置 | |
CN114550014A (zh) | 道路分割方法及计算机装置 | |
CN114170446A (zh) | 一种基于深层融合神经网络的温度、亮度特征提取方法 | |
CN116310850B (zh) | 基于改进型RetinaNet的遥感图像目标检测方法 | |
CN117496347A (zh) | 遥感影像建筑物提取方法、装置及介质 | |
CN115620083B (zh) | 模型训练方法、人脸图像质量评价方法、设备及介质 | |
CN117173595A (zh) | 基于改进YOLOv7的无人机航拍图像目标检测方法 | |
CN116503376A (zh) | 生态挡土墙砌块及其智能化制备方法 | |
CN116258877A (zh) | 土地利用场景相似度变化检测方法、装置、介质及设备 | |
CN111144422A (zh) | 一种飞机部件的定位识别方法和系统 | |
CN116206201A (zh) | 一种监督目标检测识别方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 201203 No. 6, Lane 55, Chuanhe Road, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai Applicant after: Winner Technology Co.,Ltd. Address before: 201505 Room 216, 333 Tingfeng Highway, Tinglin Town, Jinshan District, Shanghai Applicant before: Winner Technology Co.,Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |