CN112036249B

CN112036249B - 端对端行人检测及属性识别的方法、系统、介质及终端

Info

Publication number: CN112036249B
Application number: CN202010772244.7A
Authority: CN
Inventors: 袁德胜; 游浩泉; 马卫民; 成西锋; 林治强; 党毅飞; 崔龙; 李伟超; 王海涛
Original assignee: Winner Technology Co ltd
Current assignee: Winner Technology Co ltd
Priority date: 2020-08-04
Filing date: 2020-08-04
Publication date: 2023-01-03
Anticipated expiration: 2040-08-04
Also published as: CN112036249A

Abstract

本发明提供一种端对端行人检测及属性识别的方法、系统、介质及终端；所述方法包括以下步骤：获取第一行人图像数据集；搭建行人检测及属性识别模型；行人检测及属性识别模型包括检测网络和属性预测分支；利用第一行人图像数据集对检测网络进行训练，获取训练好的检测网络；获取第二行人图像数据集；利用第二行人图像数据集对属性预测分支进行训练，获取训练好的属性预测分支；本发明采用分步训练的方法，使得行人属性的标注的优劣情况不会对行人检测造成影响，能保证获得准确检出的前提下，得到行人的属性，且能够针对性地对不同类别的行人检测框训练对应该框的属性。

Description

端对端行人检测及属性识别的方法、系统、介质及终端

技术领域

本发明属于计算机视觉技术领域，特别是涉及一种端对端行人检测及属性识别的方法、系统、介质及终端。

背景技术

利用视频或图像对行人进行检测，得到行人的属性具有重要的意义，对行人视频或图像进行处理的主要任务可分为行人目标检测和属性分析这两部分；目前，目标检测与属性识别大多是采用分阶段的方式实现；具体为：先对图像中的行人进行检测，根据检测结果对图片中的行人对象进行裁剪，再输入到属性识别网络中得到该行人对象的相关属性，这种分阶段的方法具有以下缺陷：

(1)目标检测误差会引起属性分析的累积误差。

(2)无法利用到行人对象之外的图像全局信息来辅助属性检测，特别是对于行人是否被遮挡的属性判断。

(3)当行人数量较多的时候，整个系统中裁图和属性推理的负担变大，给实时监测增加难度。

除此之外，在目前存在的端到端系统实现中，常常将检测和属性识别同时训练，而同时具有行人检测以及各种属性的标注数据来源非常有限，当属性标注不全或错误的时候，常常很大程度上影响检测的效果。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种端对端行人检测及属性识别的方法、系统、介质及终端，能够提高行人检测及属性识别的准确度，且不受行人数量的限制，使得行人检测及属性识别的效率大大提升。

为实现上述目的及其他相关目的，本发明提供一种端对端行人检测及属性识别的方法，包括以下步骤：获取第一行人图像数据集；搭建行人检测及属性识别模型；所述行人检测及属性识别模型包括检测网络和属性预测分支；其中，所述检测网络用于输出行人检测框；所述属性预测分支用于输出对应所述行人检测框的属性；利用所述第一行人图像数据集对所述检测网络进行训练，获取训练好的检测网络；获取第二行人图像数据集；利用所述第二行人图像数据集对所述属性预测分支进行训练，获取训练好的属性预测分支，以基于训练好的检测网络和训练好的属性预测分支实现行人检测及属性识别。

于本发明的一实施例中，获取第一行人图像数据集包括以下步骤：从互联网开源获取目标检测数据；从所述目标检测数据中提取进行了行人标注的行人图像作为所述第一行人图像数据集。

于本发明的一实施例中，所述检测网络输出所述行人检测框包括以下步骤：对所述第一行人图像数据集中的行人图像进行特征提取，获取行人特征图；基于所述行人特征图进行目标预测，以获取所述行人检测框。

于本发明的一实施例中，所述第二行人图像数据集中的行人图像均预先进行了行人标注，标注内容包括：行人标注框及对应所述行人标注框的至少一属性。

于本发明的一实施例中，通过损失函数对所述属性预测分支进行迭代训练；所述损失函数的计算方法包括以下步骤：对于所述行人标注框，计算所述行人标注框与所有所述行人检测框的重叠交并比值，并将重叠交并比值最大的行人检测框作为对应所述行人标注框的行人候选框；计算所述行人候选框的属性分类损失；损失函数的计算公式为：

其中，Loss_attr表示所述属性分类损失；S²表示所述行人候选框的大小；

表示网格单元 i的第j个锚点框负责该框的预测，即为所述行人候选框；attr_num为属性个数；c表示属性中的其中一类；

为一属性类别对应的二分类交叉熵；

表示网格单元i的第j个锚点框预测样本是正例的概率；

表示样本标签。

于本发明的一实施例中，还包括：在对所述属性预测分支进行训练前，冻结所述检测网络。

于本发明的一实施例中，所述属性包括性别和/或遮挡程度。

本发明提供一种端对端行人检测及属性识别的系统，包括：第一获取模块、模型搭建模块、第一训练模块、第二获取模块及第二训练模块；所述第一获取模块用于获取第一行人图像数据集；所述模型搭建模块用于搭建行人检测及属性识别模型；所述行人检测及属性识别模型包括检测网络和属性预测分支；其中，所述检测网络用于输出行人检测框；所述属性预测分支用于输出对应所述行人检测框的属性；所述第一训练模块用于利用所述第一行人图像数据集对所述检测网络进行训练，获取训练好的检测网络；所述第二获取模块用于获取第二行人图像数据集；所述第二训练模块用于利用所述第二行人图像数据集对所述属性预测分支进行训练，获取训练好的属性预测分支，以基于训练好的检测网络和训练好的属性预测分支实现行人检测及属性识别。

本发明提供一种存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述的端对端行人检测及属性识别的方法。

本发明提供一种终端，包括：处理器及存储器；所述存储器用于存储计算机程序；所述处理器用于执行所述存储器存储的计算机程序，以使所述终端执行上述的端对端行人检测及属性识别的方法。

如上所述，本发明所述的端对端行人检测及属性识别的方法、系统、介质及终端，具有以下有益效果：

(1)与现有技术相比，本发明可以在一次前向传播中完成端到端的行人检测与属性识别任务，整个过程不需要依靠人工提取特征，可全部由深度神经网络自身进行学习，端到端的方式节约了裁剪行人图像，单独进行行人属性识别的时间，减少了重复提取特征的损耗，极大地提升了行人检测与属性识别的效率；

(2)本发明提出的行人检测与属性识别模型为轻量化小网络，便于部署，且对其的训练方式不受限于行人检测和属性识别用同一个数据集，便于拓展，且通过基于全图提取特征进行属性识别，不会因行人数目增加而增加系统的计算负担；

(3)本发明采用分步训练的方法，使得行人属性的标注的优劣情况不会对行人检测造成影响，能保证获得准确检出的前提下，得到行人的属性，且能够针对性地对不同类别的行人检测框训练对应该框的属性。

附图说明

图1显示为本发明的端对端行人检测及属性识别的方法于一实施例中的流程图。

图2显示为本发明的行人检测及属性识别模型于一实施例中的结构示意图。

图3显示为本发明的类Yolo层于一实施例中的结构示意图。

图4显示为本发明的端对端行人检测及属性识别的方法于一实施例中的效果图。

图5显示为本发明的端对端行人检测及属性识别的系统于一实施例中的结构示意图。

图6显示为本发明的终端于一实施例中的结构示意图。

标号说明

51 第一获取模块

52 模型搭建模块

53 第一训练模块

54 第二获取模块

55 第二训练模块

61 处理器

62 存储器

S1～S5 步骤

具体实施方式

以下通过特定的具体实施例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图示中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

本发明的端对端行人检测及属性识别的方法、系统、介质及终端，与现有技术相比，本发明可以在一次前向传播中完成端到端的行人检测与属性识别任务，整个过程不需要依靠人工提取特征，可全部由深度神经网络自身进行学习，端到端的方式节约了裁剪行人图像，单独进行行人属性识别的时间，减少了重复提取特征的损耗，极大地提升了行人检测与属性识别的效率；本发明提出的行人检测与属性识别模型为轻量化小网络，便于部署，且对其的训练方式不受限于行人检测和属性识别用同一个数据集，便于拓展，且通过基于全图提取特征进行属性识别，不会因行人数目增加而增加系统的计算负担；本发明采用分步训练的方法，使得行人属性的标注的优劣情况不会对行人检测造成影响，能保证获得准确检出的前提下，得到行人的属性，且能够针对性地对不同类别的行人检测框训练对应该框的属性。

如图1所示，于一实施例中，本发明的端对端行人检测及属性识别的方法包括以下步骤：

步骤S1、获取第一行人图像数据集。

于一实施例中，获取第一行人图像数据集包括以下步骤：

(11)从互联网开源获取目标检测数据。

具体地，从互联网开源网站获取目标检测数据，该目标检测数据中通常包括多种物体类别及检测框。

(12)从所述目标检测数据中提取进行了行人标注的行人图像作为所述第一行人图像数据集。

步骤S2、搭建行人检测及属性识别模型。

需要说明的是，所述行人检测及属性识别模型包括检测网络和属性预测分支。

其中，所述检测网络用于输出行人检测框。

优选地，该检测网络采用TinyYoloV3模型。

需要说明的是，TinyYoloV3是YoloV3的简化版，相比较YoloV3速度更快、精度较低； YoloV3是YOLO(You Only Look Once)系列目标检测算法中的第三版，YOLO目标检测算法是将物体检测作为回归问题求解，基于一个单独的端对端网络，完成从原始图像的输入到物体位置和类别的输出。

于一实施例中，所述检测网络输出所述行人检测框包括以下步骤：

(21)对所述第一行人图像数据集中的行人图像进行特征提取，获取行人特征图。

(22)基于所述行人特征图进行目标预测，以获取所述行人检测框。

如图2所示，TinyYoloV3包括主干模块(Tiny-YoloV3 Backbone)和检测模块(Detect Block)；其中，主干模块用来对行人图像进行特征提取，并将特征提取后的结果给到检测模块和属性预测分支，以进行后续的预测；经检测模块进行目标预测后，通过Yolo层，最终输出行人检测框。

其中，所述属性预测分支用于输出对应所述行人检测框的属性。

如图2所示，在TinyYoloV3模型基础上增加属性预测分支(Attribute Block)，经步骤(21) 获取的行人特征图经属性预测分支进行属性预测后，通过类Yolo层(具体结构见图3所示)，最终输出带有对应该行人检测框属性的检测框(该属性预测分支的结构与检测模块的结构相同，不同之处在于，将检测模块后的Yolo层更改为了类Yolo层，以实现同时输出行人检测框及其对应的属性)。

需要说明的是，通过在检测网络的基础上增加属性预测分支，使得该分支能够配合检测网络的输出，在输出行人检测框的同时，输出对应该框的属性，比如对检测出的人脸框能输出行人性别，对检测的人体框能输出人体是否被遮挡及被遮挡的程度，应用场景不受限于行人图像中的行人数量。

进一步地，在实际应用中，可根据需求，使该行人检测及属性识别模型只输出行人检测框或只输出包含有对应属性的行人检测框，亦或是同时输出两者，具有较强的适用性。

于一实施例中，所述属性包括但不限于包括性别和/或遮挡程度。

需要说明的是，该性别包括男、女；该遮挡程度包括无遮挡、轻度遮挡、重度遮挡。

步骤S3、利用所述第一行人图像数据集对所述检测网络进行训练，获取训练好的检测网络。

具体地，经步骤S1获取的第一行人图像数据集作为该检测网络的训练集，用于对该检测网络进行训练。

需要说明的是，通过加载TinyYoloV3的预训练权重对该检测网络进行训练。

进一步地，在训练完成后，还需验证主干模块到检测模块的输出是否正确，选择检测效果最优的检测网络，为后续的训练备用；具体地，可根据AP(Average Precision)来衡量模型优劣，其意义相当于计算precision(精确率)/recall(召回率)曲线下方的面积。

步骤S4、获取第二行人图像数据集。

需要说明的是，该第二行人图像数据集可以跟步骤S1中获取的第一行人图像数据集不相同，同样也可以从互联网开源数据集获得。

于一实施例中，所述第二行人图像数据集中的行人图像均预先进行了行人标注。

需要说明的是，对第二行人图像数据集中行人图像的标注可通过人工标注的方法来实现，标注内容包括行人标注框及对应所述行人标注框的至少一属性。

步骤S5、利用所述第二行人图像数据集对所述属性预测分支进行训练，获取训练好的属性预测分支，以基于训练好的检测网络和训练好的属性预测分支实现行人检测及属性识别。

具体地，将经步骤S4获取的第二行人图像数据集作为训练集，对该属性预测分支进行训练，以获取训练好的属性预测分支。

于一实施例中，通过损失函数对所述属性预测分支进行迭代训练。

具体地，所述损失函数的计算方法包括以下步骤：

(31)对于所述行人标注框，计算所述行人标注框与所有所述行人检测框的重叠交并比 (交并比，英文全称Intersection over Union，简称IoU，是衡量检测物体准确度的一个标准， IoU的值越大，表明测量结果就越准确)值，并将重叠交并比值最大的行人检测框作为对应所述行人标注框的行人候选框。

(32)计算所述行人候选框的属性分类损失；损失函数的计算公式为：

为一属性类别对应的二分类交叉熵；

表示网格单元i的第j个锚点框预测样本是正例的概率；

表示样本标签。

于一实施例中，还包括在对所述属性预测分支进行训练前，冻结所述检测网络。

具体地，先加载出经步骤S3获取的训练好的检测网络的参数，然后冻结检测网络的参数，训练该属性预测分支。

下面通过具体实施例来进一步解释说明本发明的端对端行人检测及属性识别的方法。

于本实施例中，该端对端行人检测及属性识别的方法包括以下步骤：

步骤一、准备训练Tiny-YoloV3模型的数据，具体是从互联网开源数据集获得，检测数据标注内容包括行人检测框坐标、检测框类别。

需要说明的是，检测框坐标为绝对坐标表示，由检测框左上角和右下角坐标组成(xmin， ymin，xmax，ymax)；检测框类别为一类或多类，编码方式如(0,1)代表人脸框；(1,0)代表人体框。

步骤二、搭建Tiny-YoloV3模型，此模型为darknet提供的TinyYoloV3模型，加载darknet 提供的预训练权重对其进行训练。

需要说明的是，该Tiny-YoloV3网络模型最后一层卷积输出的通道数由以下公式计算：

det_ch_num＝anchor_num×(1+class_num+4)；

其中1代表是否为行人的置信度(confidence)，4代表框的4位，分别是x、y、w、h，其中，x、y是指最后一层卷积输出的特征图中每个网格单元预测得到的物体的框的中心位置的坐标；w、h分别指框的宽度和高度；anchor_num为Yolo锚点框数量，锚点框坐标可以在训练数据集上用K-means聚类生成；class_num为检测框分类数目。

于本实施例中，沿用TinyYoloV3的锚点框，有3个锚点框，即anchor_num＝3；于本实施例中，检测框分类为人脸和人体这两类。

步骤三、验证Tiny-YoloV3模型，选择检测效果最优的模型为下一步训练备用。

步骤四、准备用来训练属性预测分支的数据。

步骤五、在TinyYoloV3模型增加属性预测分支Attribute Block，其中属性预测分支最后一层卷积输出的通道数由以下公式计算：

attr_ch_num＝anchor_num×(1+attr_num)

其中，attr_num为属性个数，于本实施例中，attr_num＝5，分为女性、男性、无遮挡、轻度遮挡、重度遮挡5类，如男性、无遮挡的框可编码为(0，1，1，0，0)进行训练。

步骤六、更改属性预测分支训练的损失计算方法，具体的方法步骤如下：

(41)输入图片，TinyYoloV3模型输出13×13×det_ch_num、26×26×det_ch_num的特征图，其各自代表13×13、26×26个网格的行人预选框。

(42)对应每一个标注行人框，依次计算它与行人预选框的IoU值，IoU值最大的预选框负责该行人框的类别预测；具体地，

(43)计算行人候选框的属性分类损失，分类损失函数为：

其中，Loss_attr表示所述属性分类损失；S²表示所述行人候选框的大小，于本实施例中为 13x13或26x26；

表示网格单元i的第j个锚点框负责该框的预测，即为所述行人候选框； attr_num为属性个数；c表示属性中的其中一类；

为一属性类别对应的二分类交叉熵；

表示网格单元i的第j个锚点框预测样本是正例的概率；

表示样本标签，如果样本属于正例，取值为1，否则取值为0。

需要说明的是，于本实施例中，女性、男性、无遮挡、轻度遮挡、重度遮挡5类都计算是否为该类的交叉熵，再累加起来就是网格单元i的第j个锚点框的属性分类损失，整张图的分类损失由所有网格的分类损失累加起来。

步骤七、加载步骤三选出来的Tiny-YoloV3模型参数，冻结其网络参数，训练属性预测分支Attribute Block，属性分类损失仅在属性预测分支中回传。

步骤八、更改yolo层实现为类yolo层。

如图3所示，其中conf、box、class分别为Tiny-YoloV3模型输出的行人检测框的置信度、框的坐标、框的类别、框的属性；NMS(Non-Maximum-Suppresion)为非极大值抑制，经过NMS 筛选后的检测框带有类别和属性，类别的判断方式同TinyYoloV3；某框的属性由属性编码最大值所在的位决定。

于本实施例中，对人脸类别框，取性别编码位的最大值所在位作为其性别；对人体类别框，取遮挡编码位的最大值所在位作为其遮挡度；例如，某个人体框的属性输出为(0.55， 0.45，0.15，0.34，0.70)，对应类别分别为女性、男性、无遮挡、轻度遮挡、重度遮挡，由于人体属性框训练的属性为是否有遮挡，则结果只取与遮挡有关的位—(0.15，0.34，0.7)，最大值所在位为重度遮挡，那么该人体框属于重度遮挡。最终结果呈现如图4所示。

需要说明的是，本发明所述的端对端行人检测及属性识别的方法的保护范围不限于本实施例列举的步骤(步骤S1～S5)执行顺序，凡是根据本发明的原理所做的现有技术的步骤增减、步骤替换所实现的方案都包括在本发明的保护范围内。

如图5所示，于一实施例中，本发明的端对端行人检测及属性识别的系统包括第一获取模块51、模型搭建模块52、第一训练模块53、第二获取模块54及第二训练模块55。

所述第一获取模块51用于获取第一行人图像数据集。

所述模型搭建模块52用于搭建行人检测及属性识别模型；所述行人检测及属性识别模型包括检测网络和属性预测分支；其中，所述检测网络用于输出行人检测框；所述属性预测分支用于输出对应所述行人检测框的属性。

所述第一训练模块53用于利用所述第一行人图像数据集对所述检测网络进行训练，获取训练好的检测网络。

所述第二获取模块54用于获取第二行人图像数据集。

所述第二训练模块55用于利用所述第二行人图像数据集对所述属性预测分支进行训练，获取训练好的属性预测分支，以基于训练好的检测网络和训练好的属性预测分支实现行人检测及属性识别。

需要说明的是，所述第一获取模块51、所述模型搭建模块52、所述第一训练模块53、所述第二获取模块54及所述第二训练模块55的结构及原理与上述端对端行人检测及属性识别的方法中的步骤(步骤S1～S5)一一对应，故在此不再赘述。

需要说明的是，应理解以上系统的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。例如，x模块可以为单独设立的处理元件，也可以集成在上述系统的某一个芯片中实现，此外，也可以以程序代码的形式存储于上述系统的存储器中，由上述系统的某一个处理元件调用并执行以上x模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起，也可以独立实现。这里所述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，简称ASIC)，或，一个或多个数字信号处理器(Digital Singnal Processor，简称DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，简称FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(Central Processing Unit，简称CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，简称SOC)的形式实现。

本发明的存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述的端对端行人检测及属性识别的方法。所述存储介质包括：ROM、RAM、磁碟、U盘、存储卡或者光盘等各种可以存储程序代码的介质。

如图6所示，本发明的终端包括处理器61及存储器62。

所述存储器62用于存储计算机程序；优选地，所述存储器62包括：ROM、RAM、磁碟、U盘、存储卡或者光盘等各种可以存储程序代码的介质。

所述处理器61与所述存储器62相连，用于执行所述存储器62存储的计算机程序，以使所述终端执行上述的端对端行人检测及属性识别的方法。

优选地，所述处理器61可以是通用处理器，包括中央处理器(Central ProcessingUnit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称 ASIC)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

需要说明的是，本发明的端对端行人检测及属性识别的系统可以实现本发明的端对端行人检测及属性识别的方法，但本发明的端对端行人检测及属性识别的方法的实现装置包括但不限于本实施例列举的端对端行人检测及属性识别的系统的结构，凡是根据本发明的原理所做的现有技术的结构变形和替换，都包括在本发明的保护范围内。

综上所述，本发明的端对端行人检测及属性识别的方法、系统、介质及终端，与现有技术相比，本发明可以在一次前向传播中完成端到端的行人检测与属性识别任务，整个过程不需要依靠人工提取特征，可全部由深度神经网络自身进行学习，端到端的方式节约了裁剪行人图像，单独进行行人属性识别的时间，减少了重复提取特征的损耗，极大地提升了行人检测与属性识别的效率；本发明提出的行人检测与属性识别模型为轻量化小网络，便于部署，且对其的训练方式不受限于行人检测和属性识别用同一个数据集，便于拓展，且通过基于全图提取特征进行属性识别，不会因行人数目增加而增加系统的计算负担；本发明采用分步训练的方法，使得行人属性的标注的优劣情况不会对行人检测造成影响，能保证获得准确检出的前提下，得到行人的属性，且能够针对性地对不同类别的行人检测框训练对应该框的属性；所以，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种端对端行人检测及属性识别的方法，其特征在于，包括以下步骤：

获取第一行人图像数据集；

搭建行人检测及属性识别模型；所述行人检测及属性识别模型包括检测网络和属性预测分支；其中，所述检测网络用于输出行人检测框；所述属性预测分支用于输出对应所述行人检测框的属性；

利用所述第一行人图像数据集对所述检测网络进行训练，获取训练好的检测网络；

获取第二行人图像数据集；所述获取第一行人图像数据集和所述获取第二行人图像数据集相互独立，且所述第一行人图像数据集和所述第二行人图像数据集不受限于为同一数据集；

利用所述第二行人图像数据集对所述属性预测分支进行训练，获取训练好的属性预测分支，以基于训练好的检测网络和训练好的属性预测分支实现行人检测及属性识别；

还包括：在对所述属性预测分支进行训练前，冻结所述检测网络；所述利用所述第一行人图像数据集对所述检测网络进行训练与所述利用所述第二行人图像数据集对所述属性预测分支进行训练相互独立。

2.根据权利要求1所述的端对端行人检测及属性识别的方法，其特征在于，获取第一行人图像数据集包括以下步骤：

从互联网开源获取目标检测数据；

从所述目标检测数据中提取进行了行人标注的行人图像作为所述第一行人图像数据集。

3.根据权利要求1所述的端对端行人检测及属性识别的方法，其特征在于，所述检测网络输出所述行人检测框包括以下步骤：

对所述第一行人图像数据集中的行人图像进行特征提取，获取行人特征图；

基于所述行人特征图进行目标预测，以获取所述行人检测框。

4.根据权利要求1所述的端对端行人检测及属性识别的方法，其特征在于，所述第二行人图像数据集中的行人图像均预先进行了行人标注，标注内容包括：行人标注框及对应所述行人标注框的至少一属性。

5.根据权利要求4所述的端对端行人检测及属性识别的方法，其特征在于，通过损失函数对所述属性预测分支进行迭代训练；所述损失函数的计算方法包括以下步骤：

对于所述行人标注框，计算所述行人标注框与所有所述行人检测框的重叠交并比值，并将重叠交并比值最大的行人检测框作为对应所述行人标注框的行人候选框；

计算所述行人候选框的属性分类损失；损失函数的计算公式为：

表示网格单元i的第j个锚点框负责该框的预测，即为所述行人候选框；attr_num为属性个数；c表示属性中的其中一类；

为一属性类别对应的二分类交叉熵；

表示网格单元i的第j个锚点框预测样本是正例的概率；

表示样本标签。

6.根据权利要求1所述的端对端行人检测及属性识别的方法，其特征在于，所述属性包括性别和/或遮挡程度。

7.一种端对端行人检测及属性识别的系统，其特征在于，包括：第一获取模块、模型搭建模块、第一训练模块、第二获取模块及第二训练模块；

所述第一获取模块用于获取第一行人图像数据集；

所述模型搭建模块用于搭建行人检测及属性识别模型；所述行人检测及属性识别模型包括检测网络和属性预测分支；其中，所述检测网络用于输出行人检测框；所述属性预测分支用于输出对应所述行人检测框的属性；

所述第一训练模块用于利用所述第一行人图像数据集对所述检测网络进行训练，获取训练好的检测网络；

所述第二获取模块用于获取第二行人图像数据集；所述获取第一行人图像数据集和所述获取第二行人图像数据集相互独立，且所述第一行人图像数据集和所述第二行人图像数据集不受限于为同一数据集；

所述第二训练模块用于利用所述第二行人图像数据集对所述属性预测分支进行训练，获取训练好的属性预测分支，以基于训练好的检测网络和训练好的属性预测分支实现行人检测及属性识别；还包括：在对所述属性预测分支进行训练前，冻结所述检测网络；所述利用所述第一行人图像数据集对所述检测网络进行训练与所述利用所述第二行人图像数据集对所述属性预测分支进行训练相互独立。

8.一种存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至7中任一项所述的端对端行人检测及属性识别的方法。

9.一种终端，其特征在于，包括：处理器及存储器；

所述存储器用于存储计算机程序；

所述处理器用于执行所述存储器存储的计算机程序，以使所述终端执行权利要求1至7中任一项所述的端对端行人检测及属性识别的方法。