CN110580499A

CN110580499A - 基于众包重复标签的深度学习目标检测方法及系统

Info

Publication number: CN110580499A
Application number: CN201910770300.0A
Authority: CN
Inventors: 欧中洪; 胡钰程; 宋美娜
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2019-08-20
Filing date: 2019-08-20
Publication date: 2019-12-17
Anticipated expiration: 2039-08-20
Also published as: CN110580499B

Abstract

本发明公开了一种基于众包重复标签的深度学习目标检测方法及系统，其中，方法包括以下步骤：接收应用场景下原始训练集图片，并收集数据标签；对原始训练集图片进行预处理，得到预处理好的数据；根据预处理好的数据训练CrowdR‑CNN目标检测模型，其中，CrowdR‑CNN目标检测模型的输入为带众包重复标签的图片，其中，在两阶段模型的基础上，根据数据标签增添标签聚集层，使得依据标注者个体敏感性推理目标真实类别，以根据检测数据通过CrowdR‑CNN网络得到预测结果。该方法有效降低了深度学习目标检测模型实现成本，几乎没有引入额外的计算成本，并且能够获得与无误差标签训练的目标检测模型相当的检测精度。

Description

基于众包重复标签的深度学习目标检测方法及系统

技术领域

本发明涉及目标检测技术领域，特别涉及一种基于众包重复标签的深度学习目标检测方法及系统。

背景技术

随着科技的不断发展，对图像处理技术的需求量不断加大，目标检测作为诸多上层应用的支撑技术，具有广阔的应用前景。得益于深度学习的快速发展，大部分目标检测系统基于此修改创新获得了检测精度的大幅提升。总的来讲，目前目标检测技术可以分为以下几类：

(1)基于滑动窗口的方法：该方案采用多尺度滑动窗口，对每个窗口提取手工特征，然后采用分类器分类。具体实现有：Haar特征+Adaboost算法、HOG特征+SVM算法；

(2)DMP(Deformable Part Model)。该方案使用改进后的HOG特征，针对某个物件制作出相应的激励模版，在原始的图像中计算，得到该激励效果图，根据激励的分布，确定目标位置；

(3)基于深度学习的方法：使用卷积神经网络提取图片特征，之后再通过RPN(RegionProposalNetwork，区域建议网络)生成建议区域，基于建议区域或者先验划分区域对当前区域进行分类以及boundingbox回归。

如上所述，目前针对目标检测系统的实现方式主要有两种：1)通过传统图像处理的方式提取手工特征来进行目标检测；2)使用深度学习提取图像特征图，在特征图上划分空间区域并对区域内特征判断类别。

方式(1)简单高效，但由于目标的形态多样性、光照变化多样性、背景多样性等因素，硬编码特征泛化能力差，很难在复杂场景下取得理想的效果；方式(2)能带来目标检测精度的大幅提升主要依赖于越来越多的神经网络层数和大型的训练数据集。深度神经网络层数的提升能更多地提取图像中所包含的特征信息，从而提高识别精度。但详细特征信息的提取强烈依赖于大量的训练样本，少量的数据集很容易在网络层数过多时出现过拟合现象，从而影响识别精度，所以高质量带标注数据集的收集成本给深度学习目标检测提出了挑战。

发明内容

本申请是基于发明人对以下问题的认识和发现做出的：

当前针对目标检测主要有基于图像处理和深度学习的方法，图像处理的方法鲁棒性较差，对复杂场景的适应能力较弱；深度学习的方法鲁棒性较好，但依赖大型标注数据集提供泛化能力。因此以往的方法在低成本实现高精度模型上都有所不足。

本发明实施例的方法拟解决高精度目标检测系统实现过程中，因数据集带来的高成本问题，本发明实施例的方法提出了采取深度学习的方式，结合众包途径，通过互联网将标注任务转变为大众参与的网络活动，提供一种以低成本收集数据标签的便捷方式，但从众包获得的标签通常是不完美的，真实标签推理是通过从重复收集的标签集中估计实例的真实标签来提高标签质量的直接方法。本发明实施例采用聚类算法和概率推理算法，考虑标注者个体差异的情况，提出全新的真实标签推理方案，并应用于目标检测模型的训练中。整体来说，这种目标检测系统能够基于噪音标签学习，相比于其他深度学习目标检测框架降低了对数据标注质量的要求，相比于传统方法，检测效果大幅领先。

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种基于众包重复标签的深度学习目标检测方法，该方法有效降低了深度学习目标检测模型实现成本，几乎没有引入额外的计算成本，并且能够获得与无误差标签训练的目标检测模型相当的检测精度。

本发明的另一个目的在于提出一种基于众包重复标签的深度学习目标检测系统。

为达到上述目的，本发明一方面实施例提出了一种基于众包重复标签的深度学习目标检测方法，包括以下步骤：接收应用场景下原始训练集图片，并收集数据标签；对所述原始训练集图片进行预处理，得到预处理好的数据；根据所述预处理好的数据训练CrowdR-CNN目标检测模型，其中，所述CrowdR-CNN目标检测模型的输入为带众包重复标签的图片，其中，在两阶段模型的基础上，根据所述数据标签增添标签聚集层，使得依据标注者个体敏感性推理目标真实类别，以根据检测数据通过所述CrowdR-CNN网络得到预测结果。

本发明实施例的基于众包重复标签的深度学习目标检测方法，利用聚类算法对众包重复标签进行预处理，推理可能的目标框坐标信息，简单高效抑制目标框噪音；并提出CrowdR-CNN目标检测模型，在两阶段模型的基础上增添标签聚集层，依据标注者个体敏感性推理目标真实类别，从而有效降低了深度学习目标检测模型实现成本，几乎没有引入额外的计算成本，并且能够获得与无误差标签训练的目标检测模型相当的检测精度。

另外，根据本发明上述实施例的基于众包重复标签的深度学习目标检测方法还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，还包括：对噪音标签进行聚类预处理，得到可能目标的边框描述。

进一步地，在本发明的一个实施例中，所述对噪音标签进行聚类预处理，包括：获取四维坐标点集，并随机初始化多个聚类中心；在第k次迭代中，对任意一个样本点，将没有同属于一个标注者的样本点的聚类作为候选聚类；获取到各候选聚类中心的欧式距离，并将该样本点归到距离最短的中心所在的候选聚类；利用均值更新每个聚类的中心，对于K个聚类中心，迭代法更新后，若值保持不变，则迭代结束。

进一步地，在本发明的一个实施例中，还包括：推理目标框所包含的目标类别增添RPN聚集层和R-CNN聚集层于两阶段检测器，其中，所述RPN聚集层利用贝叶斯公式推理出目标框所描述为前景的概率：

其中，a为真实标签为正类时当前众包标签的期望，b为真实标签为负类时当前众包标签的期望，p为RPN正向传播预测该目标框为前景的概率。

进一步地，在本发明的一个实施例中，所述对所述原始训练集图片进行预处理，包括：将所述原始训练集图片处理为预设尺寸的图片，并进行归一化处理，并且根据预设均值和方差将图片像素的范围调整到预设范围内。

为达到上述目的，本发明另一方面实施例提出了一种基于众包重复标签的深度学习目标检测系统，包括：数据上传模块，用于接收应用场景下原始训练集图片；在线标注模块，用于收集数据标签；数据预处理模块，用于对所述原始训练集图片进行预处理，得到预处理好的数据；网络训练模块，用于根据所述预处理好的数据训练CrowdR-CNN目标检测模型，其中，所述CrowdR-CNN目标检测模型的输入为带众包重复标签的图片，其中，在两阶段模型的基础上，根据所述数据标签增添标签聚集层，使得依据标注者个体敏感性推理目标真实类别；预测模块，用于根据检测数据通过所述CrowdR-CNN网络得到预测结果。

本发明实施例的基于众包重复标签的深度学习目标检测系统，利用聚类算法对众包重复标签进行预处理，推理可能的目标框坐标信息，简单高效抑制目标框噪音；并提出CrowdR-CNN目标检测模型，在两阶段模型的基础上增添标签聚集层，依据标注者个体敏感性推理目标真实类别，从而有效降低了深度学习目标检测模型实现成本，几乎没有引入额外的计算成本，并且能够获得与无误差标签训练的目标检测模型相当的检测精度。

另外，根据本发明上述实施例的基于众包重复标签的深度学习目标检测系统还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，还包括：聚类预处理模块，用于对噪音标签进行聚类预处理，得到可能目标的边框描述。

进一步地，在本发明的一个实施例中，所述聚类预处理模块进一步用于获取四维坐标点集，并随机初始化多个聚类中心；在第k次迭代中，对任意一个样本点，将没有同属于一个标注者的样本点的聚类作为候选聚类；获取到各候选聚类中心的欧式距离，并将该样本点归到距离最短的中心所在的候选聚类；利用均值更新每个聚类的中心，对于K个聚类中心，迭代法更新后，若值保持不变，则迭代结束。

进一步地，在本发明的一个实施例中，所述数据预处理模块进一步用于将所述原始训练集图片处理为预设尺寸的图片，并进行归一化处理，并且根据预设均值和方差将图片像素的范围调整到预设范围内。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明实施例的基于众包重复标签的深度学习目标检测方法的流程图；

图2为根据本发明一个实施例的基于众包重复标签的深度学习目标检测系统的流程图；

图3为根据本发明实施例的网络结构图；

图4为根据本发明实施例的基于众包重复标签的深度学习目标检测系统的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参照附图描述根据本发明实施例提出的基于众包重复标签的深度学习目标检测方法及系统，首先将参照附图描述根据本发明实施例提出的基于众包重复标签的深度学习目标检测方法。

图1是本发明一个实施例的基于众包重复标签的深度学习目标检测方法的流程图。

如图1所示，该基于众包重复标签的深度学习目标检测方法包括以下步骤：

在步骤S101中，接收应用场景下原始训练集图片，并收集数据标签。

可以理解的是，如图2所示，本发明实施例首先为整个系统准备原始训练集图片{x₁,x₂,…,x_N}，N为训练集大小，数据集为RBG格式，可来源于相机采集、网络爬虫等，上传至标注平台供后续处理。

然后，收集数据标签，作为监督信息供模块训练。该标签是一种低成本带噪音的重复标签M代表互相独立的标注者人数，具体来说第j个人对第张i图片的标注包含个目标，对于每个目标：表示目标边框左上角和右下角的像素坐标，c∈{0,…,C}表示目标的类别(0代表背景)。不同标注者对同一张图片上标注目标数可能是不同的。

在步骤S102中，对原始训练集图片进行预处理，得到预处理好的数据。

其中，在本发明的一个实施例中，对原始训练集图片进行预处理，包括：将原始训练集图片处理为预设尺寸的图片，并进行归一化处理，并且根据预设均值和方差将图片像素的范围调整到预设范围内。

具体而言，在步骤S101之后，如图2所示，本发明实施例对图像进行归一化和标准化操作，具体为：将图片resize到同一尺寸；对数据进行归一化处理；利用数据集中预先计算好的均值和方差将图片像素的范围调整到[-1,1]，其计算方式如下：

channel指原始图片中R,G,B三个颜色通道，mean，std为基于数据计算出的每个通道的均值和方差。

在步骤S103中，根据预处理好的数据训练CrowdR-CNN目标检测模型，其中，CrowdR-CNN目标检测模型的输入为带众包重复标签的图片，其中，在两阶段模型的基础上，根据数据标签增添标签聚集层，使得依据标注者个体敏感性推理目标真实类别，以根据检测数据通过CrowdR-CNN网络得到预测结果。

可以理解的是，如图2所示，本发明实施例在对数据预处理之后，利用预处理好的数据训练本发明实施例提出的CrowdR-CNN，然后，根据训练好的CrowdR-CNN对输入进行预测，其中，CrowdR-CNN的结构如图3所示。

具体而言，CrowdR-CNN的输入是带众包重复标签的图片，噪音标签要经过聚类预处理得到可能目标的边框描述。聚类处理具体步骤如下：

(1)输入为r^{1,…,M}四维坐标点集，随机初始化K＝max(L^{1,…,M})个聚类中心；

(2)在第k次迭代中，对任意一个样本点，将没有同属于一个标注者的样本点的聚类作为候选聚类；

(3)求其到各候选聚类中心的欧式距离，将该样本点归到距离最短的中心所在的候选聚类；

(4)利用均值更新每个聚类的中心；

(5)对于K个聚类中心，如果利用2、3、4的迭代法更新后，值保持不变，则迭代结束，否则继续。

进一步地，在本发明的一个实施例中，还包括：推理目标框所包含的目标类别增添RPN聚集层和R-CNN聚集层于两阶段检测器，其中，RPN聚集层利用贝叶斯公式推理出目标框所描述为前景的概率：

具体而言，经过聚类处理，用每个聚类中心代表作为监督信息的目标框坐标，图片经过卷积骨干网络提取特征后进入RPN和R-CNN阶段，这两个阶段除了需要目标框的位置信息还需要类别信息，该模块为推理目标框所包含的目标类别增添RPN聚集层和R-CNN聚集层于两阶段检测器。RPN聚集层利用贝叶斯公式推理出目标框所描述为前景的概率：

其中，p为RPN正向传播预测该目标框为前景的概率，

在这里描述了不同标注者对不同类别的敏感性，RPN以聚类中心代表的坐标点和μ作为真实标签监督训练。这一阶段过后，RPN生成的建议框通过RoIAlign映射到卷积层生成的特征图上，R-CNN进一步依据映射后的对应特征预测建议框所包含的目标类别以及修正目标框。类似的，R-CNN聚集层推理目标具体类别作为该阶段的真实标签：

其中，μ_i,c表示第i个目标框所包含目标类别为c的概率，这里的p_i,c表示R-CNN对第i个目标框属于c类别的预测概率，同样依据μ推理标签。通过反向传播更新网络参数，同时α作为CrowdR-CNN的网络参数在每一个batch反向传播的同时完成更新，端到端训练。

进一步地，如图2所示，本发明实施例对测试数据进行推理，移除RPN聚集层和R-CNN聚集层，对测试图片进行预处理，包括归一化和标准化等操作，送入CrowdR-CNN得到预测结果。

综上，与现有技术相比，本发明实施例具有如下优点：

(1)基于众包重复标签训练深度学习网络大幅降低数据收集成本，但现有目标检测模型不支持直接使用重复标签训练。如图3所示，先将图片重复标注框进行聚类处理能得到目标的唯一坐标描述，使其能够在现有的二阶段检测模型上训练，并且k-means算法在理论上被证明一定收敛，所以该步骤为目标检测系统带来的计算和耗时成本相比于模型本身计算来说可以忽略不计。

(2)使用现有的二阶段检验机制除了得到唯一的目标边界框描述之外，还需要从重复标签中推理目标真实类别，RPN聚集层和R-CNN聚集层的设计相比于传统标签推理方案考虑了标注者的个体差异以及标注倾向，聚集层中的参数和网络一起动态更新，推理准确度更高，能够在同样的重复标签数据集上获得更高的精度。

根据本发明实施例提出的基于众包重复标签的深度学习目标检测方法，利用聚类算法对众包重复标签进行预处理，推理可能的目标框坐标信息，简单高效抑制目标框噪音；并提出CrowdR-CNN目标检测模型，在两阶段模型的基础上增添标签聚集层，依据标注者个体敏感性推理目标真实类别，从而有效降低了深度学习目标检测模型实现成本，几乎没有引入额外的计算成本，并且能够获得与无误差标签训练的目标检测模型相当的检测精度。

其次参照附图描述根据本发明实施例提出的基于众包重复标签的深度学习目标检测系统。

图4是本发明一个实施例的基于众包重复标签的深度学习目标检测系统的结构示意图。

如图4所示，该基于众包重复标签的深度学习目标检测系统10包括：数据上传模块100、在线标注模块200、数据预处理模块300、网络训练模块400和预测模块500。

其中，数据上传模块100用于接收应用场景下原始训练集图片。在线标注模块200用于收集数据标签。数据预处理模块300用于对原始训练集图片进行预处理，得到预处理好的数据。网络训练模块400用于根据预处理好的数据训练CrowdR-CNN目标检测模型，其中，CrowdR-CNN目标检测模型的输入为带众包重复标签的图片，其中，在两阶段模型的基础上，根据数据标签增添标签聚集层，使得依据标注者个体敏感性推理目标真实类别。预测模块500用于根据检测数据通过CrowdR-CNN网络得到预测结果。本发明实施例的系统10有效降低了深度学习目标检测模型实现成本，几乎没有引入额外的计算成本，并且能够获得与无误差标签训练的目标检测模型相当的检测精度。

进一步地，在本发明的一个实施例中，本发明实施例的系统10还包括：聚类预处理模块。其中，聚类预处理模块用于对噪音标签进行聚类预处理，得到可能目标的边框描述。

进一步地，在本发明的一个实施例中，聚类预处理模块进一步用于获取四维坐标点集，并随机初始化多个聚类中心；在第k次迭代中，对任意一个样本点，将没有同属于一个标注者的样本点的聚类作为候选聚类；获取到各候选聚类中心的欧式距离，并将该样本点归到距离最短的中心所在的候选聚类；利用均值更新每个聚类的中心，对于K个聚类中心，迭代法更新后，若值保持不变，则迭代结束。

进一步地，在本发明的一个实施例中，数据预处理模块200进一步用于将原始训练集图片处理为预设尺寸的图片，并进行归一化处理，并且根据预设均值和方差将图片像素的范围调整到预设范围内。

需要说明的是，前述对基于众包重复标签的深度学习目标检测方法实施例的解释说明也适用于该实施例的基于众包重复标签的深度学习目标检测系统，此处不再赘述。

根据本发明实施例提出的基于众包重复标签的深度学习目标检测系统，利用聚类算法对众包重复标签进行预处理，推理可能的目标框坐标信息，简单高效抑制目标框噪音；并提出CrowdR-CNN目标检测模型，在两阶段模型的基础上增添标签聚集层，依据标注者个体敏感性推理目标真实类别，从而有效降低了深度学习目标检测模型实现成本，几乎没有引入额外的计算成本，并且能够获得与无误差标签训练的目标检测模型相当的检测精度。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“N个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或N个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，N个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于众包重复标签的深度学习目标检测方法，其特征在于，包括以下步骤：

接收应用场景下原始训练集图片，并收集数据标签；

对所述原始训练集图片进行预处理，得到预处理好的数据；以及

根据所述预处理好的数据训练CrowdR-CNN目标检测模型，其中，所述CrowdR-CNN目标检测模型的输入为带众包重复标签的图片，其中，在两阶段模型的基础上，根据所述数据标签增添标签聚集层，使得依据标注者个体敏感性推理目标真实类别，以根据检测数据通过所述CrowdR-CNN网络得到预测结果。

2.根据权利要求1所述的方法，其特征在于，还包括：

对噪音标签进行聚类预处理，得到可能目标的边框描述。

3.根据权利要求2所述的方法，其特征在于，所述对噪音标签进行聚类预处理，包括：

获取四维坐标点集，并随机初始化多个聚类中心；

在第k次迭代中，对任意一个样本点，将没有同属于一个标注者的样本点的聚类作为候选聚类；

获取到各候选聚类中心的欧式距离，并将该样本点归到距离最短的中心所在的候选聚类；

利用均值更新每个聚类的中心，对于K个聚类中心，迭代法更新后，若值保持不变，则迭代结束。

4.根据权利要求2或3所述的方法，其特征在于，还包括：

推理目标框所包含的目标类别增添RPN聚集层和R-CNN聚集层于两阶段检测器，其中，所述RPN聚集层利用贝叶斯公式推理出目标框所描述为前景的概率：

5.根据权利要求1所述的方法，其特征在于，所述对所述原始训练集图片进行预处理，包括：

将所述原始训练集图片处理为预设尺寸的图片，并进行归一化处理，并且根据预设均值和方差将图片像素的范围调整到预设范围内。

6.一种基于众包重复标签的深度学习目标检测系统，其特征在于，包括：

数据上传模块，用于接收应用场景下原始训练集图片；

在线标注模块，用于收集数据标签；

数据预处理模块，用于对所述原始训练集图片进行预处理，得到预处理好的数据；

网络训练模块，用于根据所述预处理好的数据训练CrowdR-CNN目标检测模型，其中，所述CrowdR-CNN目标检测模型的输入为带众包重复标签的图片，其中，在两阶段模型的基础上，根据所述数据标签增添标签聚集层，使得依据标注者个体敏感性推理目标真实类别；

预测模块，用于根据检测数据通过所述CrowdR-CNN网络得到预测结果。

7.根据权利要求6所述的系统，其特征在于，还包括：

聚类预处理模块，用于对噪音标签进行聚类预处理，得到可能目标的边框描述。

8.根据权利要求7所述的系统，其特征在于，所述聚类预处理模块进一步用于获取四维坐标点集，并随机初始化多个聚类中心；在第k次迭代中，对任意一个样本点，将没有同属于一个标注者的样本点的聚类作为候选聚类；获取到各候选聚类中心的欧式距离，并将该样本点归到距离最短的中心所在的候选聚类；利用均值更新每个聚类的中心，对于K个聚类中心，迭代法更新后，若值保持不变，则迭代结束。

9.根据权利要求7或8所述的系统，其特征在于，还包括：

10.根据权利要求6所述的系统，其特征在于，所述数据预处理模块进一步用于将所述原始训练集图片处理为预设尺寸的图片，并进行归一化处理，并且根据预设均值和方差将图片像素的范围调整到预设范围内。