CN108537269A

CN108537269A - 一种弱交互式的物体检测深度学习方法及其系统

Info

Publication number: CN108537269A
Application number: CN201810299109.8A
Authority: CN
Inventors: 林倞; 陈浩钧; 王青; 江波
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2018-04-04
Filing date: 2018-04-04
Publication date: 2018-09-14
Anticipated expiration: 2038-04-04
Also published as: CN108537269B

Abstract

本发明公开了一种弱交互式的物体检测深度学习方法及系统，该方法包括：步骤S1，选取一些无标签数据进行物体识别的人工标注，并与公开的数据集组合成初始数据集；步骤S2，选定一深度学习模型，利用步骤S1中的有标签数据对模型进行训练；步骤S3，利用训练得到的模型对初始数据集的无标签数据及有标签数据进行特征提取；步骤S4，将特征进行组合，建立特征矩阵，利用有标签的数据对无标签数据进行标签映射，将标签映射到无标签数据中，完成对无标签数据的标注；步骤S5，根据步骤S4的结果与步骤S1中的有标签数据组合成一个新的有标签数据训练集；步骤S6，利用新的有标签数据训练集重复对模型训练，直至模型表现达到预期效果为止。

Description

一种弱交互式的物体检测深度学习方法及其系统

技术领域

本发明涉及深度神经网络技术领域，特别是涉及一种弱交互式的物体检测深度学习方法及其系统。

背景技术

图像物体分类与检测是计算机视觉研究中的两个重要的基本问题，也是图像分割、物体跟踪、行为分析等其他高层视觉任务的基础，是计算机视觉、模式识别与机器学习领域非常活跃的研究方向。物体分类与检测在很多领域得到广泛应用，包括安防领域的人脸识别、行人检测、智能视频分析、行人跟踪等，交通领域的交通场景物体识别、车辆计数、逆行检测、车牌检测与识别，以及互联网领域的基于内容的图像检索、相册自动归类等。计算机自动分类与检测技术也在一定程度上减轻了人的负担，改变了人类的生活方式。因此，物体分类与检测的研究可以说是计算机视觉研究的基石，研究鲁棒、准确的物体分类与检测算法，提高物体分类与检测算法的准确性，有着重要的理论意义和实际意义。

深度学习在物体检测与分类的应用，使物体检测与分类的准确性与传统方法相比有较大的提升。可是，一方面，由于数据的复杂性以及场景应用的多样性，利用深度学习训练出来的模型并不一定能适用于全部情况，对于增强深度学习上模型在检测与识别中的鲁棒性，数据的多样化无疑有着重要的地位；另一方面，在学术上使用的数据与真实场景相比还是有很大的差异性，学术上一些表现好的算法或模型应用到实际场景下并不一定好。在大数据时代，我们可以获取得到海量的图像和视频数据，但这些数据绝大多数是没有标签的，对无标签数据大量进行标注也是不现实的。从大量的没有标签的图像数据中自动挖掘知识或者找到能够减轻人工标注工作量的方法从而提高数据的利用率，无疑有着重要的意义。但目前，大多数研究者都是从算法网络模型方面的创新进行研究，很少从如何提高数据利用率(大量的无标签数据)方面以及提高错误样本的利用率方面进行研究。

发明内容

为克服上述现有技术存在的不足，本发明之目的在于提供一种弱交互式的物体检测深度学习方法及其系统，以提高无标签数据的利用率。

为达上述及其它目的，本发明提出一种弱交互式的物体检测深度学习方法，包括：

步骤S1，选取一些无标签数据进行物体识别的人工标注，并与一些公开的数据集组合成初始数据集；

步骤S2，选定一深度学习模型，利用步骤S1中的有标签数据对所述深度学习模型进行模型训练；

步骤S3，利用步骤S2训练得到的模型对步骤S1获得的初始数据集中的无标签数据及有标签数据分别进行特征提取；

步骤S4，于得到无标签数据以及有标签数据的特征后，将特征进行组合，建立特征矩阵，并利用有标签的数据对无标签数据进行标签映射，将标签映射到无标签数据中，完成对无标签数据的标注；

步骤S5，根据步骤S4的结果与步骤S1中的有标签数据组合成一个新的有标签数据训练集。

步骤S6，利用新的有标签数据训练集重复步骤S2-S5对所述深度学习模型再次训练，直至模型表现达到预期效果为止。

优选地，于步骤S5之前，还包括对步骤S4得到的结果进行人工筛选的步骤，于步骤S5中，将经人工筛选剔除错误识别后的数据以及步骤S1中的有标签数据组合成所述新的有标签数据训练集。

优选地，步骤S4进一步包括：

步骤S400，将所有有标签数据的特征向量构建成一个特征矩阵A，并获得相应的标签矩阵L以及所选取的物体类别的阈值向量

步骤S401，利用所述特征矩阵A以及无标签数据计算无标签数据特征相对于有标签数据特征的距离

步骤S402，利用阈值向量以及所述无标签数据特征相对于有标签数据特征的距离计算获得标签仿射矩阵

步骤S403，利用所述标签仿射矩阵求得无标签数据的标签值；

步骤S404，将所述无标签数据特征向量添加到所述特征矩阵A，生成新的特征矩阵A’，并更新相应的标签向量和阈值向量；

步骤S405，当有新的无标签数据时重复以上步骤。

优选地，于步骤S400中，设有标签数据的归一化特征向量为标签记为 l₁、l₂、l_n为所选取的物体类别的标签，设无标签数据的归一化特征向量为将所有有标签数据的特征向量构建成一个特征矩阵相应的标签矩阵为然后利用标签矩阵L求得物体类别的阈值向量为代表类别l_n对应的阈值。

优选地，于步骤S401中，利用用求得无标签数据特征相对于有标签数据特征的距离

优选地，于步骤S402中，利用求得第一个物体类别的标签仿射向量，利用求得第二个物体类别的标签仿射向量，以此类推，求得各个物体类别的标签仿射向量；其中当大于0时，当小于0时，然后将各个物体类别的标签仿射向量组合成标签仿射矩阵

优选地，于步骤S2中，选取Faster R-CNN网络作为所述深度学习模型。

为达到上述目的，本发明还提供一种弱交互式的物体检测深度学习系统，包括：

初始数据集生成单元，用于选取一些无标签数据进行物体识别的人工标注，并与一些公开的数据集组合成初始数据集；

深度学习模型选择训练单元，用于选定一深度学习模型，利用所述初始数据集生成单元中的有标签数据对所述深度学习模型进行训练；

特征提取单元，用于利用所述深度学习模型选择训练单元训练得到的模型对所述初始数据集生成单元的初始数据集中的无标签数据和有标签数据分别进行特征提取；

标签映射单元，用于于得到无标签数据以及有标签数据的特征后，将特征进行组合，建立特征矩阵，并利用有标签的数据对无标签数据进行标签映射，将标签映射到无标签数据中，完成对无标签数据的标注；

新数据训练集生成单元，用于将标注后的数据以及所述初始数据集生成单元中的有标签数据组合成一个新的有标签数据训练集。

重复训练单元，利用新的有标签数据训练集重复对深度学习模型再次训练，直至模型表现达到预期效果为止。

优选地，所述系统还包括人工筛选单元，用于对所述标签映射单元得到的结果进行人工筛选，所述新数据训练集生成单元将经人工筛选剔除错误识别后的数据以及所述初始数据集生成单元中的有标签数据组合成所述新的有标签数据训练集。

优选地，所述标签映射单元进一步包括：

特征矩阵构建单元，用于将所有有标签数据的特征向量构建成一个特征矩阵A，并获得相应的标签矩阵L以及所选取的物体类别的阈值向量

距离计算单元，用于利用所述特征矩阵以及无标签数据计算无标签数据特征相对于有标签数据特征的距离

标签仿射矩阵计算单元，用于利用阈值向量以及所述无标签数据特征相对于有标签数据特征的距离计算获得标签仿射矩阵

标签值计算单元，利用所述标签仿射矩阵求得无标签数据的标签值；

更新单元，用于将无标签数据的归一化特征向量添加到特征矩阵A，生成新的特征矩阵A’及更新相应的标签向量和标签矩阵。

与现有技术相比，本发明一种弱交互式的物体检测深度学习方法及系统通过利用弱交互式的形式将海量的无标签数据快速地应用到用于图像物体检测与识别的深度学习模型训练中，实现机器对无标签数据的全标注，从而提高了无标签数据利用率以及深度学习模型的识别鲁棒性。

附图说明

图1为本发明一种弱交互式的物体检测深度学习方法的步骤流程图；

图2为本发明具体实施例的步骤流程图；

图3为本发明具体实施例中可视化系统设计流程图；

图4为本发明一种弱交互式的物体检测深度学习系统的系统架构图；

图5为本发明具体实施例中标签映射单元的细部结构图。

具体实施方式

以下通过特定的具体实例并结合附图说明本发明的实施方式，本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用，本说明书中的各项细节亦可基于不同观点与应用，在不背离本发明的精神下进行各种修饰与变更。

图1为本发明一种弱交互式的物体检测深度学习方法的步骤流程图。如图1所示，本发明一种弱交互式的物体检测深度学习方法，包括：

步骤S1，选取若干无标签数据进行物体识别的人工标注，并与一些公开的数据集组合成初始数据集。具体地，选取一些少量的无标签数据进行物体识别的人工标注，并与一些公开的数据集组合成一个初始数据集。

由于互联网娱乐产业比较发达，在线视频网站数量多，在线视频种类丰富，各种直播软件的盛行也推动了直播、短视频行业的发展，全民掀起了一阵直播潮。由于全民的参与，所以在线视频网站、直播以及短视频网站上的视频足以涵盖实际应用场景下的方方面面，以及视频数量繁多。因此，在本发明具体实施例中，只需要在一些大型的在线视频网站或者直播、短视频网站如优酷、快手、秒拍等下载大量质量好的、物体数量多的视频，就能得到用于模型训练的大量无标签数据。

对于公开的数据集，目前公开的用于物体检测的大型数据集主要有：

1、Caltech-101:

这是第一个规模较大的一般物体识别标准数据库，除背景类别外，它一共包含了101类物体，共9146张图片，每类图像数目从40-800不等，图像尺寸也达到300左右。该数据集以物体为中心构建数据库，每张图像基本只包含一个物体实例，且居于图像中间位置，物体尺寸相对图像尺寸比例较大。

2、Caltech-256:

与Caltech-101类似，物体类别增加到256类，且每个类至少包含80张图像。

3、PASCAL VOC 2007:

PASCAL VOC数据库中物体类别为常见物体，如交通工具、家具、人、动物等。从2007年开始，该数据集物体类别固定为20类。PASCAL VOC 2007共包含9963张图片，每类含有96-2008张图像。该数据集中，图像中物体较系列相比变化较大，图像可能包含多个不同类别物体实例，物体尺度变化大，物体分类检测难度较大。

4、COCO：

该数据集是由微软团队发布，除了图片之外还提供了物体检测、分割和对图像的语义文本描述信息，COCO数据集每一类的图像比较多，有利于获得更多的每类中位于某种特定场景的能力。目前为止，COCO数据集有超过200,000张图片，90多种物体类别。COCO2014版本包含82,783个训练数据、40,504个验证数据和40,775个测试数据。

5、ImageNet：

该数据集是由FeiFei Li主持构建的大规模图像数据库，图像类别按照WordNet构建，共有1400万张图像，2.2万个类别，平均每类包含1000张图像。同时，ImageNet还构建了一个包含1000类物体120万图像的子集，并以此作为ImageNet大尺度视觉识别竞赛的数据平台，逐渐成为物体分类算法评测的标准数据集。

对于上述5种公开的用于物体检测的数据集，Caltech-101、Caltech-256和PASCALVOC数据集中图片的总体数量相对较少，而且每一类物体包含的图像也相对较少；ImageNet虽然其图片数量较多，物体类别丰富，但是它含有大多没标注的数据，数据差异性较大，数据相对不干净；由于COCO数据集中包含的图像总数相对较多，每类物体图像数量较多而且相对均匀，数据变化较小，所以在本发明具体实施例中选取COCO数据集作为公开的数据集。

具体地，于步骤S1中，首先，从公开的数据集(如COCO数据集)中选取确认一些要进行识别的生活中常见的物体类别如小车、摩托车、自行车、花瓶等，数量以10-20个为宜，然后在大量的无标签数据中选取少量的无标签数据出来对这些物体类别进行人工标注，若数据中物体出现则在相应位置记为1，若物体没有出现，则在相应位置记为0，例如若数据中出现小车、摩托车、自行车、花瓶，则该数据标记为1111；若数据中只出现小车、摩托车、自行车，则标记为1110，以此类推。因为公开的数据集一般包含其他物体类别(亦即不需要进行识别的物体类别)的标注结果，所以需要在公开的数据集的标注结果中剔除我们不需要的物体类别得到新的标注结果，格式同上，然后将人工标注的少量无标签数据与公开的数据集(如COCO数据集)组合成初始训练数据集。也就是说，该初始数据集由COCO数据集以及人工标注的一些少量(其数量为COCO数据集中数据总数量的1/10左右)无标签数据组成。

步骤S2，选定一深度学习模型，利用步骤S1中的有标签数据对所述深度学习模型进行训练。具体地，选定一种在学术上表现比较好的深度学习模型，利用上述数据对其进行模型训练。

由于深度学习在特征表达方面的出色表现，其被广泛应用在计算机视觉研究方面。其基本思想是通过有监督或者无监督的方式学习层次化的特征表达，来对物体进行从底层到高层的描述，其中CNN卷积神经网络使用较为广泛。目前，物体检测识别效果较好的CNN神经网络有R-CNN、Fast R-CNN、Faster R-CNN、YOLO等。

1、R-CNN：去掉早期通过滑动窗口进行图像扫描的方法，用聚类方式，对图像进行分割分组，得到多个候选框的层次组。其步骤包括：1、原始图片通过Selective Search提取候选框2、候选框缩放成固定大小3、经过CNN进行特征提取4、全连接层分类。

2、Fast R-CNN：对R-CNN的改进，Fast R-CNN去掉了R-CNN的重复计算，并微调选框位置。其步骤包括：1、整图经过CNN，得到特征图2、提取域候选框3、把候选框投影到特征图上，Pooling采样成固定大小4、全连接层分类与微调选框位置。Fast R-CNN训练和测试不再分多步，不再需要额外的硬盘来存储中间层的特征，梯度也能通过RoI Pooling层直接传递。

3、Faster R-CNN：直接利用RPN(Region Proposal Networks)网络来计算候选框。RPN以一张任意大小的图片为输入，输出一批矩形区域，每个区域对应一个目标分数和位置信息。其步骤包括：1、整图经过CNN，得到特征图2、经过卷积并在每个点上预测k个anchorbox是否是物体，并微调anchor box的位置3、提取物体框后，采用Fast R-CNN的方式进行分类。

4、YOLO：Faster R-CNN需要对多个anchor box进行判断是否是物体，然后再进行物体识别，分成了两步。YOLO则可以一次性预测多个box位置和类别，把物体框的选择与识别进行了结合，一步输出。其主要步骤包括：1、把原始图片缩放成统一大小，并把图片分割成N个单元格2、每个单元格输出B个矩形框(冗余设计)，包含框的位置信息与物体的置信度3、每个单元格再输出C个类别的条件概率。

对于上述各深度模型，R-CNN网络的训练步骤繁琐、训练和测试速度慢、训练占空间；而Fast R-CNN依然沿用R-CNN的方法提取候选框，耗时长，无法满足实时应用，没有真正实现端到端训练测试，所以，目前实际应用下物体检测的模型主要是Faster R-CNN、YOLO等。虽然YOLO检测速度很快，但由于YOLO没有使用Region Proposal，而是相对暴力地对图像进行网格划分，所以检测性能效果大多与格子的划分有关，大多数实际应用下，对于小目标检测来说，其效果并不好。所以在本发明具体实施例中，选取Faster R-CNN网络作为深度学习的模型，并利用步骤S1的有标签数据对选择的深度学习模型进行训练。

步骤S3，利用步骤S2训练得到的模型对无标签数据进行特征提取，同时对有标签数据也进行特征提取。利用步骤S2训练得到的模型对步骤S1获得的初始数据集中的无标签数据进行特征提取，同时对该初始数据集中的有标签数据也进行特征提取。

步骤S4，得到无标签数据以及有标签数据的特征后，将特征进行组合，建立特征矩阵，并利用有标签的数据对无标签数据进行标签映射，将标签映射到无标签数据中，完成对无标签数据的标注。

具体地，步骤S4进一步包括：

具体地，设有标签数据的归一化特征向量为标签记为 l₁、l₂、l_n为所选取的物体类别的标签。设无标签数据的归一化特征向量为将所有有标签数据的特征向量构建成一个特征矩阵相应的标签矩阵为然后利用标签矩阵L求得物体类别的阈值向量为代表类别l_n对应的阈值，计算方法如下：

设标签矩阵L的行数为N，标签矩阵L中某一列中出现1的数量为N(1),若N(1)/N大于等于0.5，则该列代表的物体类别的阈值为0.6；反之，则该列代表的物体类别的阈值为0.5。例如，记在L的第一列中出现1的数量为N₁(1),若N₁(1)/N的值大于等于0.5，则若N₁(1)/N的值小于0.5，则以此类推。

步骤S401，利用所述特征矩阵以及无标签数据计算无标签数据特征相对于有标签数据特征的距离具体地，利用求得无标签数据特征相对于有标签数据特征的距离

步骤S402，利用阈值向量以及所述无标签数据特征相对于有标签数据特征的距离计算获得标签仿射矩阵具体地，利用求得第一个物体类别的标签仿射向量，利用求得第二个物体类别的标签仿射向量，以此类推，求得各个物体类别的标签仿射向量；其中当大于0时，当小于0时，然后，将各个物体类别的标签仿射向量组合成标签仿射矩阵

步骤S403,利用标签仿射矩阵求得无标签数据的标签值。具体地，设中某一列中出现1的个数为n(1)，行数为n，当n(1)/n大于等于0.8时，则该列代表的物体类别标记为1，即l＝1。例如，记在的第一列中出现1的数量为n₁(1),若n₁(1)/n的值大于等于0.8，则l₁＝1；反之l₁＝0，以此类推；从而可以求得该无标签数据的标签向量

步骤S404，将无标签数据的归一化特征向量添加到特征矩阵A，生成新的特征矩阵并更新相应的标签矩阵

步骤S405，当有新的无标签数据时重复以上步骤。

步骤S5，对步骤S4得到的结果进行人工筛选。由于无标签数据的海量性，因此人工筛选只需要对机器标注错误的结果进行剔除即可。

步骤S6，将步骤S5剔除错误识别后的数据以及步骤S1中的有标签数据组合成一个新的有标签数据训练集。

步骤S7，利用新的有标签数据训练集重复步骤S2-S6对深度学习模型再次训练，直至模型表现达到预期效果为止。

图2为本发明具体实施例的步骤流程图。如图2所示，在本发明具体实施例中，该弱交互式的物体检测深度学习方法的步骤如下：

1)选定一种在学术上表现比较好的深度学习模型，选取一些有标签数据对深度学习模型进行训练；

2)利用深度学习模型对有标签数据和无标签数据进行特征提取；

3)模型输出相应的特征，对特征进行组合得到特征矩阵；

4)利用该特征矩阵进行标签映射，即利用有标签的数据对无标签数据进行标签映射，将标签映射到无标签数据中，完成机器对无标签数据的标注；

5)对映射后无标签数据得到的标签进行人工筛选，人工筛选只需对机器标注错误的结果进行剔除；

6)将筛选后的无标签数据与原有的有标签数据组合成新的有标签数据集；

7)利用新的有标签数据集对深度学习模型再次训练，直至模型表现达到预期效果为止。

深度学习的基本框架主要有caffe、torch、tensorflow等，但这些框架的产生目的主要是用于学术研究，要实现对这些框架的工程化应用还需要对这些框架进行封装，生成相应的sdk或者静态/动态库，这些sdk或者静态/动态库需要暴露相应的接口(如模型的初始化、数据的处理接口等)以予调用、处理无标签数据，然后提供配置文件进行相关配置(如模型的存放位置等)。

为了实现对大量无标签数据的处理(如特征提取、展示等)，可通过设计一套可视化的系统，将深度学习基本框架的处理细节进行隐藏等，这样只需要输入数据源，系统便可以自动执行任务调度、进行任务处理、任务处理结果返回，并将处理结果以可视化的形式进行展示，以便于人工筛选。

要实现数据处理结果的友好展示，还需要提供界面的展示。如今web技术相当成熟，因此本发明可以采用Javascript+HTML+Css作为开发语言用于编写客户端界面的展示及操作；然后，用node.js语言作为开发语言编写视频数据服务器，用于响应客户端的请求，并调用sdk进行处理；由于开发语言的不一致，所以视频数据服务器并不能直接调用相应的sdk，所以还需要编写一个视频处理引擎用于从视频数据服务器中获取视频处理任务，并作相应的处理，视频数据服务器与视频处理引擎可用RPC服务进行通信。

处理后的数据要与人工进行交互就需要对数据处理结果进行展示，因此客户端需要提供对处理结果进行预览的功能，以供人工进行线上筛选，并且需要提供对相应视频处理结果进行导出的功能，以供人工进行线下审核。

对审核完成的无标签数据，若数据处理结果比较好，即通过审核的数据可以将机器结果连同源数据直接用于模型的训练；若数据处理结果比较差，则直接进行剔除。

具体地，如图3所示，该可视化的系统的设计过程如下：

0、用模型初始化深度学习框架；

1、用户从互联网上下载相关视频数据，例如短视频视频、在线视频以及直播网站视频等；

2、用户将视频上传到客户端前端界面；

3、利用相关web技术，将待处理视频数据添加到视频处理服务器的任务队列；

4、视频数据服务器获取任务后调用视频处理引擎；

5/6、视频处理引擎调用相关sdk进行数据处理；

7/8/9/10/11、数据处理后的结果从底层的深度学习框架往上层层返回，最终在客户端前端对用户进行可视化展示；

12/13、用户筛选后导出机器标注正确的数据特征用于弱交互式学习以及更新相应的模型。

图4为本发明一种弱交互式的物体检测深度学习系统的系统架构图。如图4所示，本发明一种弱交互式的物体检测深度学习系统，包括：

初始数据集生成单元401，用于选取一些无标签数据进行物体识别的人工标注，并与一些公开的数据集组合成初始数据集。

具体地，初始数据集生成单元401首先从公开的数据集(如COCO数据集)中选取确认一些要进行识别的生活中常见的物体类别如小车、摩托车、自行车、花瓶等，数量以10-20个为宜，然后在大量的无标签数据中选取少量的无标签数据出来对这些物体类别进行人工标注，若数据中物体出现则在相应位置记为1，若物体没有出现，则在相应位置记为0，例如若数据中出现小车、摩托车、自行车、花瓶，则该数据标记为1111；若数据中只出现小车、摩托车、自行车，则标记为1110，以此类推。因为公开的数据集一般包含其他物体类别(亦即不需要进行识别的物体类别)的标注结果，所以需要在公开的数据集的标注结果中剔除我们不需要的物体类别得到新的标注结果，格式同上，然后将人工标注的少量无标签数据与公开的数据集(如COCO数据集)组合成初始训练数据集。也就是说，该初始数据集由COCO数据集以及人工标注的一些少量(其数量为COCO数据集中数据总数量的1/10左右)无标签数据组成。

深度学习模型选择训练单元402，用于选定一深度学习模型，利用初始数据集生成单元401中的数据对所述深度学习模型进行训练。具体地，选定一种在学术上表现比较好的深度学习模型，利用上述数据对其进行模型训练。

特征提取单元403，用于利用深度学习模型选择训练单元402训练得到的模型对初始数据集中的无标签数据进行特征提取，同时对该初始数据集中的有标签数据也进行特征提取。

标签映射单元404，用于于得到无标签数据以及有标签数据的特征后，将特征进行组合，建立特征矩阵，并利用有标签的数据对无标签数据进行标签映射，将标签映射到无标签数据中，完成对无标签数据的标注。

具体地，如图5所示，标签映射单元404进一步包括：

特征矩阵构建单元4041，用于将所有有标签数据的特征向量构建成一个特征矩阵A，并获得相应的标签矩阵L以及所选取的物体类别的阈值向量

距离计算单元4042，用于利用所述特征矩阵以及无标签数据计算无标签数据特征相对于有标签数据特征的距离具体地，利用用求得无标签数据特征相对于有标签数据特征的距离

标签仿射矩阵计算单元4043，用于利用阈值向量以及所述无标签数据特征相对于有标签数据特征的距离计算获得标签仿射矩阵具体地，标签仿射矩阵计算单元4043利用求得第一个物体类别的标签仿射向量，利用求得第二个物体类别的标签仿射向量，以此类推，求得各个物体类别的标签仿射向量；其中当大于0时，当小于0时，然后，将各个物体类别的标签仿射向量组合成标签仿射矩阵

标签值计算单元4044,用于利用标签仿射矩阵求得无标签数据的标签值。具体地，设中某一列中出现1的个数为n(1)，行数为n，当n(1)/n大于等于0.8时，则该列代表的物体类别标记为1，即l＝1。例如，记在的第一列中出现1的数量为n₁(1),若n₁(1)/n的值大于等于0.8，则l₁＝1；反之l₁＝0，以此类推；从而可以求得该无标签数据的标签向量

更新单元4045，用于将无标签数据的归一化特征向量添加到特征矩阵A，生成新的特征矩阵并更新相应的标签矩阵

人工筛选单元405，用于对标签映射单元404得到的结果进行人工筛选。由于无标签数据的海量性，因此人工筛选只需要对机器标注错误的结果进行剔除即可。

新数据训练集生成单元406，用于将人工筛选单元405剔除错误识别后的数据以及初始数据集生成单元401中的有标签数据组合成一个新的有标签数据训练集。

重复训练单元407，利用新的有标签数据训练集重复对深度学习模型再次训练，直至模型表现达到预期效果为止。

综上所述，本发明一种弱交互式的物体检测深度学习方法及系统通过利用弱交互式的形式将海量的无标签数据快速地应用到用于图像物体检测与识别的深度学习模型训练中，实现机器对无标签数据的全标注，从而提高了无标签数据利用率以及深度学习模型的识别鲁棒性。本发明利用机器对无标签数据进行标注，可以减轻人工标注的压力，人工只需要对机器标注结果进行筛选即可，并且随着训练数据以及模型迭代次数的增多，即通过不断“学习”，机器对无标签数据的标注结果会越来越好，对机器标注结果进行筛选的次数会越来越少，同时本发明还提出了一种用于实现该方法的系统设计形式，系统可将方法实现的细节隐藏，支持任务的大量、快速处理，并提供可视化界面予以操作。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下，对上述实施例进行修饰与改变。因此，本发明的权利保护范围，应如权利要求书所列。

Claims

1.一种弱交互式的物体检测深度学习方法，包括：

2.如权利要求1所述的一种弱交互式的物体检测深度学习方法，其特征在于，于步骤S5之前，还包括对步骤S4得到的结果进行人工筛选的步骤，于步骤S5中，将经人工筛选剔除错误识别后的数据以及步骤S1中的有标签数据组合成所述新的有标签数据训练集。

3.如权利要求1所述的一种弱交互式的物体检测深度学习方法，其特征在于，步骤S4进一步包括：

步骤S403，利用所述标签仿射矩阵求得无标签数据的标签值；

步骤S404，将所述无标签数据特征向量添加到所述特征矩阵A，生成新的特征矩阵A’，并更新相应的标签矩阵；

步骤S405，当有新的无标签数据时重复以上步骤。

4.如权利要求3所述的一种弱交互式的物体检测深度学习方法，其特征在于：于步骤S400中，设有标签数据的归一化特征向量为标签记为其中l₁、l₂、l_n为所选取的物体类别的标签，设无标签数据的归一化特征向量为将所有有标签数据的特征向量构建成一个特征矩阵相应的标签矩阵为然后利用标签矩阵L求得物体类别的阈值向量为代表类别l_n对应的阈值。

5.如权利要求4所述的一种弱交互式的物体检测深度学习方法，其特征在于：于步骤S401中，利用用求得无标签数据特征相对于有标签数据特征的距离

6.如权利要求5所述的一种弱交互式的物体检测深度学习方法，其特征在于：于步骤S402中，利用求得第一个物体类别的标签仿射向量，利用求得第二个物体类别的标签仿射向量，以此类推，求得各个物体类别的标签仿射向量；其中当大于0时，当小于0时，然后将各个物体类别的标签仿射向量组合成标签仿射矩阵

7.如权利要求1所述的一种弱交互式的物体检测深度学习方法，其特征在于：于步骤S2中，选取Faster R-CNN网络作为所述深度学习模型。

8.一种弱交互式的物体检测深度学习系统，包括：

9.如权利要求8所述的一种弱交互式的物体检测深度学习系统，其特征在于：所述系统还包括人工筛选单元，用于对所述标签映射单元得到的结果进行人工筛选，所述新数据训练集生成单元将经人工筛选剔除错误识别后的数据以及所述初始数据集生成单元中的有标签数据组合成所述新的有标签数据训练集。

10.如权利要求8所述的一种弱交互式的物体检测深度学习系统，其特征在于，所述标签映射单元进一步包括：