CN108537269B - 一种弱交互式的物体检测深度学习方法及其系统 - Google Patents

一种弱交互式的物体检测深度学习方法及其系统 Download PDF

Info

Publication number
CN108537269B
CN108537269B CN201810299109.8A CN201810299109A CN108537269B CN 108537269 B CN108537269 B CN 108537269B CN 201810299109 A CN201810299109 A CN 201810299109A CN 108537269 B CN108537269 B CN 108537269B
Authority
CN
China
Prior art keywords
data
label
matrix
feature
deep learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810299109.8A
Other languages
English (en)
Other versions
CN108537269A (zh
Inventor
林倞
陈浩钧
王青
江波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201810299109.8A priority Critical patent/CN108537269B/zh
Publication of CN108537269A publication Critical patent/CN108537269A/zh
Application granted granted Critical
Publication of CN108537269B publication Critical patent/CN108537269B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Abstract

本发明公开了一种弱交互式的物体检测深度学习方法及系统,该方法包括:步骤S1,选取一些无标签数据进行物体识别的人工标注,并与公开的数据集组合成初始数据集;步骤S2,选定一深度学习模型,利用步骤S1中的有标签数据对模型进行训练;步骤S3,利用训练得到的模型对初始数据集的无标签数据及有标签数据进行特征提取;步骤S4,将特征进行组合,建立特征矩阵,利用有标签的数据对无标签数据进行标签映射,将标签映射到无标签数据中,完成对无标签数据的标注;步骤S5,根据步骤S4的结果与步骤S1中的有标签数据组合成一个新的有标签数据训练集;步骤S6,利用新的有标签数据训练集重复对模型训练,直至模型表现达到预期效果为止。

Description

一种弱交互式的物体检测深度学习方法及其系统
技术领域
本发明涉及深度神经网络技术领域,特别是涉及一种弱交互式的物体检测深度学习方法及其系统。
背景技术
图像物体分类与检测是计算机视觉研究中的两个重要的基本问题,也是图像分割、物体跟踪、行为分析等其他高层视觉任务的基础,是计算机视觉、模式识别与机器学习领域非常活跃的研究方向。物体分类与检测在很多领域得到广泛应用,包括安防领域的人脸识别、行人检测、智能视频分析、行人跟踪等,交通领域的交通场景物体识别、车辆计数、逆行检测、车牌检测与识别,以及互联网领域的基于内容的图像检索、相册自动归类等。计算机自动分类与检测技术也在一定程度上减轻了人的负担,改变了人类的生活方式。因此,物体分类与检测的研究可以说是计算机视觉研究的基石,研究鲁棒、准确的物体分类与检测算法,提高物体分类与检测算法的准确性,有着重要的理论意义和实际意义。
深度学习在物体检测与分类的应用,使物体检测与分类的准确性与传统方法相比有较大的提升。可是,一方面,由于数据的复杂性以及场景应用的多样性,利用深度学习训练出来的模型并不一定能适用于全部情况,对于增强深度学习上模型在检测与识别中的鲁棒性,数据的多样化无疑有着重要的地位;另一方面,在学术上使用的数据与真实场景相比还是有很大的差异性,学术上一些表现好的算法或模型应用到实际场景下并不一定好。在大数据时代,我们可以获取得到海量的图像和视频数据,但这些数据绝大多数是没有标签的,对无标签数据大量进行标注也是不现实的。从大量的没有标签的图像数据中自动挖掘知识或者找到能够减轻人工标注工作量的方法从而提高数据的利用率,无疑有着重要的意义。但目前,大多数研究者都是从算法网络模型方面的创新进行研究,很少从如何提高数据利用率(大量的无标签数据)方面以及提高错误样本的利用率方面进行研究。
发明内容
为克服上述现有技术存在的不足,本发明之目的在于提供一种弱交互式的物体检测深度学习方法及其系统,以提高无标签数据的利用率。
为达上述及其它目的,本发明提出一种弱交互式的物体检测深度学习方法,包括:
步骤S1,选取一些无标签数据进行物体识别的人工标注,并与一些公开的数据集组合成初始数据集;
步骤S2,选定一深度学习模型,利用步骤S1中的有标签数据对所述深度学习模型进行模型训练;
步骤S3,利用步骤S2训练得到的模型对步骤S1获得的初始数据集中的无标签数据及有标签数据分别进行特征提取;
步骤S4,于得到无标签数据以及有标签数据的特征后,将特征进行组合,建立特征矩阵,并利用有标签的数据对无标签数据进行标签映射,将标签映射到无标签数据中,完成对无标签数据的标注;
步骤S5,根据步骤S4的结果与步骤S1中的有标签数据组合成一个新的有标签数据训练集。
步骤S6,利用新的有标签数据训练集重复步骤S2-S5对所述深度学习模型再次训练,直至模型表现达到预期效果为止。
优选地,于步骤S5之前,还包括对步骤S4得到的结果进行人工筛选的步骤,于步骤S5中,将经人工筛选剔除错误识别后的数据以及步骤S1中的有标签数据组合成所述新的有标签数据训练集。
优选地,步骤S4进一步包括:
步骤S400,将所有有标签数据的特征向量构建成一个特征矩阵A,并获得相应的标签矩阵L以及所选取的物体类别的阈值向量
Figure BDA0001619363320000031
步骤S401,利用所述特征矩阵A以及无标签数据
Figure BDA0001619363320000032
计算无标签数据特征相对于有标签数据特征的距离
Figure BDA0001619363320000033
步骤S402,利用阈值向量
Figure BDA0001619363320000034
以及所述无标签数据特征相对于有标签数据特征的距离
Figure BDA0001619363320000035
计算获得标签仿射矩阵
Figure BDA0001619363320000036
步骤S403,利用所述标签仿射矩阵
Figure BDA0001619363320000037
求得无标签数据
Figure BDA0001619363320000038
的标签值;
步骤S404,将所述无标签数据特征向量添加到所述特征矩阵A,生成新的特征矩阵A’,并更新相应的标签向量和阈值向量;
步骤S405,当有新的无标签数据
Figure BDA0001619363320000039
时重复以上步骤。
优选地,于步骤S400中,设有标签数据的归一化特征向量为
Figure BDA00016193633200000310
标签记为
Figure BDA00016193633200000311
Figure BDA00016193633200000312
l1、l2、ln为所选取的物体类别的标签,设无标签数据的归一化特征向量为
Figure BDA00016193633200000313
将所有有标签数据的特征向量构建成一个特征矩阵
Figure BDA00016193633200000314
相应的标签矩阵为
Figure BDA00016193633200000315
然后利用标签矩阵L求得物体类别的阈值向量为
Figure BDA00016193633200000316
Figure BDA00016193633200000317
代表类别ln对应的阈值。
优选地,于步骤S401中,利用用
Figure BDA00016193633200000318
求得无标签数据特征相对于有标签数据特征的距离
Figure BDA00016193633200000319
优选地,于步骤S402中,利用
Figure BDA00016193633200000320
求得第一个物体类别的标签仿射向量,利用
Figure BDA00016193633200000321
求得第二个物体类别的标签仿射向量,以此类推,求得各个物体类别的标签仿射向量;其中当
Figure BDA00016193633200000322
大于0时,
Figure BDA00016193633200000323
Figure BDA00016193633200000324
小于0时,
Figure BDA00016193633200000325
然后将各个物体类别的标签仿射向量组合成标签仿射矩阵
Figure BDA0001619363320000041
优选地,于步骤S2中,选取Faster R-CNN网络作为所述深度学习模型。
为达到上述目的,本发明还提供一种弱交互式的物体检测深度学习系统,包括:
初始数据集生成单元,用于选取一些无标签数据进行物体识别的人工标注,并与一些公开的数据集组合成初始数据集;
深度学习模型选择训练单元,用于选定一深度学习模型,利用所述初始数据集生成单元中的有标签数据对所述深度学习模型进行训练;
特征提取单元,用于利用所述深度学习模型选择训练单元训练得到的模型对所述初始数据集生成单元的初始数据集中的无标签数据和有标签数据分别进行特征提取;
标签映射单元,用于于得到无标签数据以及有标签数据的特征后,将特征进行组合,建立特征矩阵,并利用有标签的数据对无标签数据进行标签映射,将标签映射到无标签数据中,完成对无标签数据的标注;
新数据训练集生成单元,用于将标注后的数据以及所述初始数据集生成单元中的有标签数据组合成一个新的有标签数据训练集。
重复训练单元,利用新的有标签数据训练集重复对深度学习模型再次训练,直至模型表现达到预期效果为止。
优选地,所述系统还包括人工筛选单元,用于对所述标签映射单元得到的结果进行人工筛选,所述新数据训练集生成单元将经人工筛选剔除错误识别后的数据以及所述初始数据集生成单元中的有标签数据组合成所述新的有标签数据训练集。
优选地,所述标签映射单元进一步包括:
特征矩阵构建单元,用于将所有有标签数据的特征向量构建成一个特征矩阵A,并获得相应的标签矩阵L以及所选取的物体类别的阈值向量
Figure BDA0001619363320000042
距离计算单元,用于利用所述特征矩阵以及无标签数据
Figure BDA0001619363320000051
计算无标签数据特征相对于有标签数据特征的距离
Figure BDA0001619363320000052
标签仿射矩阵计算单元,用于利用阈值向量
Figure BDA0001619363320000053
以及所述无标签数据特征相对于有标签数据特征的距离
Figure BDA0001619363320000054
计算获得标签仿射矩阵
Figure BDA0001619363320000055
标签值计算单元,利用所述标签仿射矩阵
Figure BDA0001619363320000056
求得无标签数据
Figure BDA0001619363320000057
的标签值;
更新单元,用于将无标签数据的归一化特征向量
Figure BDA0001619363320000058
添加到特征矩阵A,生成新的特征矩阵A’及更新相应的标签向量和标签矩阵。
与现有技术相比,本发明一种弱交互式的物体检测深度学习方法及系统通过利用弱交互式的形式将海量的无标签数据快速地应用到用于图像物体检测与识别的深度学习模型训练中,实现机器对无标签数据的全标注,从而提高了无标签数据利用率以及深度学习模型的识别鲁棒性。
附图说明
图1为本发明一种弱交互式的物体检测深度学习方法的步骤流程图;
图2为本发明具体实施例的步骤流程图;
图3为本发明具体实施例中可视化系统设计流程图;
图4为本发明一种弱交互式的物体检测深度学习系统的系统架构图;
图5为本发明具体实施例中标签映射单元的细部结构图。
具体实施方式
以下通过特定的具体实例并结合附图说明本发明的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用,本说明书中的各项细节亦可基于不同观点与应用,在不背离本发明的精神下进行各种修饰与变更。
图1为本发明一种弱交互式的物体检测深度学习方法的步骤流程图。如图1所示,本发明一种弱交互式的物体检测深度学习方法,包括:
步骤S1,选取若干无标签数据进行物体识别的人工标注,并与一些公开的数据集组合成初始数据集。具体地,选取一些少量的无标签数据进行物体识别的人工标注,并与一些公开的数据集组合成一个初始数据集。
由于互联网娱乐产业比较发达,在线视频网站数量多,在线视频种类丰富,各种直播软件的盛行也推动了直播、短视频行业的发展,全民掀起了一阵直播潮。由于全民的参与,所以在线视频网站、直播以及短视频网站上的视频足以涵盖实际应用场景下的方方面面,以及视频数量繁多。因此,在本发明具体实施例中,只需要在一些大型的在线视频网站或者直播、短视频网站如优酷、快手、秒拍等下载大量质量好的、物体数量多的视频,就能得到用于模型训练的大量无标签数据。
对于公开的数据集,目前公开的用于物体检测的大型数据集主要有:
1、Caltech-101:
这是第一个规模较大的一般物体识别标准数据库,除背景类别外,它一共包含了101类物体,共9146张图片,每类图像数目从40-800不等,图像尺寸也达到300左右。该数据集以物体为中心构建数据库,每张图像基本只包含一个物体实例,且居于图像中间位置,物体尺寸相对图像尺寸比例较大。
2、Caltech-256:
与Caltech-101类似,物体类别增加到256类,且每个类至少包含80张图像。
3、PASCAL VOC 2007:
PASCAL VOC数据库中物体类别为常见物体,如交通工具、家具、人、动物等。从2007年开始,该数据集物体类别固定为20类。PASCAL VOC 2007共包含9963张图片,每类含有96-2008张图像。该数据集中,图像中物体较系列相比变化较大,图像可能包含多个不同类别物体实例,物体尺度变化大,物体分类检测难度较大。
4、COCO:
该数据集是由微软团队发布,除了图片之外还提供了物体检测、分割和对图像的语义文本描述信息,COCO数据集每一类的图像比较多,有利于获得更多的每类中位于某种特定场景的能力。目前为止,COCO数据集有超过200,000张图片,90多种物体类别。COCO2014版本包含82,783个训练数据、40,504个验证数据和40,775个测试数据。
5、ImageNet:
该数据集是由FeiFei Li主持构建的大规模图像数据库,图像类别按照WordNet构建,共有1400万张图像,2.2万个类别,平均每类包含1000张图像。同时,ImageNet还构建了一个包含1000类物体120万图像的子集,并以此作为ImageNet大尺度视觉识别竞赛的数据平台,逐渐成为物体分类算法评测的标准数据集。
对于上述5种公开的用于物体检测的数据集,Caltech-101、Caltech-256和PASCALVOC数据集中图片的总体数量相对较少,而且每一类物体包含的图像也相对较少;ImageNet虽然其图片数量较多,物体类别丰富,但是它含有大多没标注的数据,数据差异性较大,数据相对不干净;由于COCO数据集中包含的图像总数相对较多,每类物体图像数量较多而且相对均匀,数据变化较小,所以在本发明具体实施例中选取COCO数据集作为公开的数据集。
具体地,于步骤S1中,首先,从公开的数据集(如COCO数据集)中选取确认一些要进行识别的生活中常见的物体类别如小车、摩托车、自行车、花瓶等,数量以10-20个为宜,然后在大量的无标签数据中选取少量的无标签数据出来对这些物体类别进行人工标注,若数据中物体出现则在相应位置记为1,若物体没有出现,则在相应位置记为0,例如若数据中出现小车、摩托车、自行车、花瓶,则该数据标记为1111;若数据中只出现小车、摩托车、自行车,则标记为1110,以此类推。因为公开的数据集一般包含其他物体类别(亦即不需要进行识别的物体类别)的标注结果,所以需要在公开的数据集的标注结果中剔除我们不需要的物体类别得到新的标注结果,格式同上,然后将人工标注的少量无标签数据与公开的数据集(如COCO数据集)组合成初始训练数据集。也就是说,该初始数据集由COCO数据集以及人工标注的一些少量(其数量为COCO数据集中数据总数量的1/10左右)无标签数据组成。
步骤S2,选定一深度学习模型,利用步骤S1中的有标签数据对所述深度学习模型进行训练。具体地,选定一种在学术上表现比较好的深度学习模型,利用上述数据对其进行模型训练。
由于深度学习在特征表达方面的出色表现,其被广泛应用在计算机视觉研究方面。其基本思想是通过有监督或者无监督的方式学习层次化的特征表达,来对物体进行从底层到高层的描述,其中CNN卷积神经网络使用较为广泛。目前,物体检测识别效果较好的CNN神经网络有R-CNN、Fast R-CNN、Faster R-CNN、YOLO等。
1、R-CNN:去掉早期通过滑动窗口进行图像扫描的方法,用聚类方式,对图像进行分割分组,得到多个候选框的层次组。其步骤包括:1、原始图片通过Selective Search提取候选框2、候选框缩放成固定大小3、经过CNN进行特征提取4、全连接层分类。
2、Fast R-CNN:对R-CNN的改进,Fast R-CNN去掉了R-CNN的重复计算,并微调选框位置。其步骤包括:1、整图经过CNN,得到特征图2、提取域候选框3、把候选框投影到特征图上,Pooling采样成固定大小4、全连接层分类与微调选框位置。Fast R-CNN训练和测试不再分多步,不再需要额外的硬盘来存储中间层的特征,梯度也能通过RoI Pooling层直接传递。
3、Faster R-CNN:直接利用RPN(Region Proposal Networks)网络来计算候选框。RPN以一张任意大小的图片为输入,输出一批矩形区域,每个区域对应一个目标分数和位置信息。其步骤包括:1、整图经过CNN,得到特征图2、经过卷积并在每个点上预测k个anchorbox是否是物体,并微调anchor box的位置3、提取物体框后,采用Fast R-CNN的方式进行分类。
4、YOLO:Faster R-CNN需要对多个anchor box进行判断是否是物体,然后再进行物体识别,分成了两步。YOLO则可以一次性预测多个box位置和类别,把物体框的选择与识别进行了结合,一步输出。其主要步骤包括:1、把原始图片缩放成统一大小,并把图片分割成N个单元格2、每个单元格输出B个矩形框(冗余设计),包含框的位置信息与物体的置信度3、每个单元格再输出C个类别的条件概率。
对于上述各深度模型,R-CNN网络的训练步骤繁琐、训练和测试速度慢、训练占空间;而Fast R-CNN依然沿用R-CNN的方法提取候选框,耗时长,无法满足实时应用,没有真正实现端到端训练测试,所以,目前实际应用下物体检测的模型主要是Faster R-CNN、YOLO等。虽然YOLO检测速度很快,但由于YOLO没有使用Region Proposal,而是相对暴力地对图像进行网格划分,所以检测性能效果大多与格子的划分有关,大多数实际应用下,对于小目标检测来说,其效果并不好。所以在本发明具体实施例中,选取Faster R-CNN网络作为深度学习的模型,并利用步骤S1的有标签数据对选择的深度学习模型进行训练。
步骤S3,利用步骤S2训练得到的模型对无标签数据进行特征提取,同时对有标签数据也进行特征提取。利用步骤S2训练得到的模型对步骤S1获得的初始数据集中的无标签数据进行特征提取,同时对该初始数据集中的有标签数据也进行特征提取。
步骤S4,得到无标签数据以及有标签数据的特征后,将特征进行组合,建立特征矩阵,并利用有标签的数据对无标签数据进行标签映射,将标签映射到无标签数据中,完成对无标签数据的标注。
具体地,步骤S4进一步包括:
步骤S400,将所有有标签数据的特征向量构建成一个特征矩阵A,并获得相应的标签矩阵L以及所选取的物体类别的阈值向量
Figure BDA0001619363320000091
具体地,设有标签数据的归一化特征向量为
Figure BDA0001619363320000092
标签记为
Figure BDA0001619363320000093
Figure BDA0001619363320000101
l1、l2、ln为所选取的物体类别的标签。设无标签数据的归一化特征向量为
Figure BDA0001619363320000102
将所有有标签数据的特征向量构建成一个特征矩阵
Figure BDA0001619363320000103
相应的标签矩阵为
Figure BDA0001619363320000104
然后利用标签矩阵L求得物体类别的阈值向量为
Figure BDA0001619363320000105
Figure BDA0001619363320000106
代表类别ln对应的阈值,计算方法如下:
设标签矩阵L的行数为N,标签矩阵L中某一列中出现1的数量为N(1),若N(1)/N大于等于0.5,则该列代表的物体类别的阈值为0.6;反之,则该列代表的物体类别的阈值为0.5。例如,记在L的第一列中出现1的数量为N1(1),若N1(1)/N的值大于等于0.5,则
Figure BDA0001619363320000107
若N1(1)/N的值小于0.5,则
Figure BDA0001619363320000108
以此类推。
步骤S401,利用所述特征矩阵以及无标签数据
Figure BDA0001619363320000109
计算无标签数据特征相对于有标签数据特征的距离
Figure BDA00016193633200001010
具体地,利用
Figure BDA00016193633200001011
求得无标签数据特征相对于有标签数据特征的距离
Figure BDA00016193633200001012
步骤S402,利用阈值向量
Figure BDA00016193633200001013
以及所述无标签数据特征相对于有标签数据特征的距离
Figure BDA00016193633200001014
计算获得标签仿射矩阵
Figure BDA00016193633200001015
具体地,利用
Figure BDA00016193633200001016
求得第一个物体类别的标签仿射向量,利用
Figure BDA00016193633200001017
求得第二个物体类别的标签仿射向量,以此类推,求得各个物体类别的标签仿射向量;其中当
Figure BDA00016193633200001018
大于0时,
Figure BDA00016193633200001019
Figure BDA00016193633200001020
小于0时,
Figure BDA00016193633200001021
然后,将各个物体类别的标签仿射向量组合成标签仿射矩阵
Figure BDA00016193633200001022
步骤S403,利用标签仿射矩阵
Figure BDA00016193633200001023
求得无标签数据
Figure BDA00016193633200001024
的标签值。具体地,设
Figure BDA00016193633200001025
中某一列中出现1的个数为n(1),
Figure BDA00016193633200001026
行数为n,当n(1)/n大于等于0.8时,则该列代表的物体类别标记为1,即l=1。例如,记在
Figure BDA00016193633200001027
的第一列中出现1的数量为n1(1),若n1(1)/n的值大于等于0.8,则l1=1;反之l1=0,以此类推;从而可以求得该无标签数据
Figure BDA0001619363320000111
的标签向量
Figure BDA0001619363320000112
步骤S404,将无标签数据的归一化特征向量
Figure BDA0001619363320000113
添加到特征矩阵A,生成新的特征矩阵
Figure BDA0001619363320000114
并更新相应的标签矩阵
Figure BDA0001619363320000115
步骤S405,当有新的无标签数据
Figure BDA0001619363320000116
时重复以上步骤。
步骤S5,对步骤S4得到的结果进行人工筛选。由于无标签数据的海量性,因此人工筛选只需要对机器标注错误的结果进行剔除即可。
步骤S6,将步骤S5剔除错误识别后的数据以及步骤S1中的有标签数据组合成一个新的有标签数据训练集。
步骤S7,利用新的有标签数据训练集重复步骤S2-S6对深度学习模型再次训练,直至模型表现达到预期效果为止。
图2为本发明具体实施例的步骤流程图。如图2所示,在本发明具体实施例中,该弱交互式的物体检测深度学习方法的步骤如下:
1)选定一种在学术上表现比较好的深度学习模型,选取一些有标签数据对深度学习模型进行训练;
2)利用深度学习模型对有标签数据和无标签数据进行特征提取;
3)模型输出相应的特征,对特征进行组合得到特征矩阵;
4)利用该特征矩阵进行标签映射,即利用有标签的数据对无标签数据进行标签映射,将标签映射到无标签数据中,完成机器对无标签数据的标注;
5)对映射后无标签数据得到的标签进行人工筛选,人工筛选只需对机器标注错误的结果进行剔除;
6)将筛选后的无标签数据与原有的有标签数据组合成新的有标签数据集;
7)利用新的有标签数据集对深度学习模型再次训练,直至模型表现达到预期效果为止。
深度学习的基本框架主要有caffe、torch、tensorflow等,但这些框架的产生目的主要是用于学术研究,要实现对这些框架的工程化应用还需要对这些框架进行封装,生成相应的sdk或者静态/动态库,这些sdk或者静态/动态库需要暴露相应的接口(如模型的初始化、数据的处理接口等)以予调用、处理无标签数据,然后提供配置文件进行相关配置(如模型的存放位置等)。
为了实现对大量无标签数据的处理(如特征提取、展示等),可通过设计一套可视化的系统,将深度学习基本框架的处理细节进行隐藏等,这样只需要输入数据源,系统便可以自动执行任务调度、进行任务处理、任务处理结果返回,并将处理结果以可视化的形式进行展示,以便于人工筛选。
要实现数据处理结果的友好展示,还需要提供界面的展示。如今web技术相当成熟,因此本发明可以采用Javascript+HTML+Css作为开发语言用于编写客户端界面的展示及操作;然后,用node.js语言作为开发语言编写视频数据服务器,用于响应客户端的请求,并调用sdk进行处理;由于开发语言的不一致,所以视频数据服务器并不能直接调用相应的sdk,所以还需要编写一个视频处理引擎用于从视频数据服务器中获取视频处理任务,并作相应的处理,视频数据服务器与视频处理引擎可用RPC服务进行通信。
处理后的数据要与人工进行交互就需要对数据处理结果进行展示,因此客户端需要提供对处理结果进行预览的功能,以供人工进行线上筛选,并且需要提供对相应视频处理结果进行导出的功能,以供人工进行线下审核。
对审核完成的无标签数据,若数据处理结果比较好,即通过审核的数据可以将机器结果连同源数据直接用于模型的训练;若数据处理结果比较差,则直接进行剔除。
具体地,如图3所示,该可视化的系统的设计过程如下:
0、用模型初始化深度学习框架;
1、用户从互联网上下载相关视频数据,例如短视频视频、在线视频以及直播网站视频等;
2、用户将视频上传到客户端前端界面;
3、利用相关web技术,将待处理视频数据添加到视频处理服务器的任务队列;
4、视频数据服务器获取任务后调用视频处理引擎;
5/6、视频处理引擎调用相关sdk进行数据处理;
7/8/9/10/11、数据处理后的结果从底层的深度学习框架往上层层返回,最终在客户端前端对用户进行可视化展示;
12/13、用户筛选后导出机器标注正确的数据特征用于弱交互式学习以及更新相应的模型。
图4为本发明一种弱交互式的物体检测深度学习系统的系统架构图。如图4所示,本发明一种弱交互式的物体检测深度学习系统,包括:
初始数据集生成单元401,用于选取一些无标签数据进行物体识别的人工标注,并与一些公开的数据集组合成初始数据集。
具体地,初始数据集生成单元401首先从公开的数据集(如COCO数据集)中选取确认一些要进行识别的生活中常见的物体类别如小车、摩托车、自行车、花瓶等,数量以10-20个为宜,然后在大量的无标签数据中选取少量的无标签数据出来对这些物体类别进行人工标注,若数据中物体出现则在相应位置记为1,若物体没有出现,则在相应位置记为0,例如若数据中出现小车、摩托车、自行车、花瓶,则该数据标记为1111;若数据中只出现小车、摩托车、自行车,则标记为1110,以此类推。因为公开的数据集一般包含其他物体类别(亦即不需要进行识别的物体类别)的标注结果,所以需要在公开的数据集的标注结果中剔除我们不需要的物体类别得到新的标注结果,格式同上,然后将人工标注的少量无标签数据与公开的数据集(如COCO数据集)组合成初始训练数据集。也就是说,该初始数据集由COCO数据集以及人工标注的一些少量(其数量为COCO数据集中数据总数量的1/10左右)无标签数据组成。
深度学习模型选择训练单元402,用于选定一深度学习模型,利用初始数据集生成单元401中的数据对所述深度学习模型进行训练。具体地,选定一种在学术上表现比较好的深度学习模型,利用上述数据对其进行模型训练。
特征提取单元403,用于利用深度学习模型选择训练单元402训练得到的模型对初始数据集中的无标签数据进行特征提取,同时对该初始数据集中的有标签数据也进行特征提取。
标签映射单元404,用于于得到无标签数据以及有标签数据的特征后,将特征进行组合,建立特征矩阵,并利用有标签的数据对无标签数据进行标签映射,将标签映射到无标签数据中,完成对无标签数据的标注。
具体地,如图5所示,标签映射单元404进一步包括:
特征矩阵构建单元4041,用于将所有有标签数据的特征向量构建成一个特征矩阵A,并获得相应的标签矩阵L以及所选取的物体类别的阈值向量
Figure BDA0001619363320000141
具体地,设有标签数据的归一化特征向量为
Figure BDA0001619363320000142
标签记为
Figure BDA0001619363320000143
Figure BDA0001619363320000144
l1、l2、ln为所选取的物体类别的标签。设无标签数据的归一化特征向量为
Figure BDA0001619363320000145
将所有有标签数据的特征向量构建成一个特征矩阵
Figure BDA0001619363320000146
相应的标签矩阵为
Figure BDA0001619363320000147
然后利用标签矩阵L求得物体类别的阈值向量为
Figure BDA0001619363320000148
Figure BDA0001619363320000149
代表类别ln对应的阈值,计算方法如下:
设标签矩阵L的行数为N,标签矩阵L中某一列中出现1的数量为N(1),若N(1)/N大于等于0.5,则该列代表的物体类别的阈值为0.6;反之,则该列代表的物体类别的阈值为0.5。例如,记在L的第一列中出现1的数量为N1(1),若N1(1)/N的值大于等于0.5,则
Figure BDA00016193633200001410
若N1(1)/N的值小于0.5,则
Figure BDA00016193633200001411
以此类推。
距离计算单元4042,用于利用所述特征矩阵以及无标签数据
Figure BDA00016193633200001412
计算无标签数据特征相对于有标签数据特征的距离
Figure BDA00016193633200001413
具体地,利用用
Figure BDA00016193633200001414
求得无标签数据特征相对于有标签数据特征的距离
Figure BDA00016193633200001415
标签仿射矩阵计算单元4043,用于利用阈值向量
Figure BDA00016193633200001416
以及所述无标签数据特征相对于有标签数据特征的距离
Figure BDA00016193633200001417
计算获得标签仿射矩阵
Figure BDA00016193633200001418
具体地,标签仿射矩阵计算单元4043利用
Figure BDA0001619363320000151
求得第一个物体类别的标签仿射向量,利用
Figure BDA0001619363320000152
求得第二个物体类别的标签仿射向量,以此类推,求得各个物体类别的标签仿射向量;其中当
Figure BDA0001619363320000153
大于0时,
Figure BDA0001619363320000154
Figure BDA0001619363320000155
小于0时,
Figure BDA0001619363320000156
然后,将各个物体类别的标签仿射向量组合成标签仿射矩阵
Figure BDA0001619363320000157
标签值计算单元4044,用于利用标签仿射矩阵
Figure BDA0001619363320000158
求得无标签数据
Figure BDA0001619363320000159
的标签值。具体地,设
Figure BDA00016193633200001510
中某一列中出现1的个数为n(1),
Figure BDA00016193633200001511
行数为n,当n(1)/n大于等于0.8时,则该列代表的物体类别标记为1,即l=1。例如,记在
Figure BDA00016193633200001512
的第一列中出现1的数量为n1(1),若n1(1)/n的值大于等于0.8,则l1=1;反之l1=0,以此类推;从而可以求得该无标签数据
Figure BDA00016193633200001513
的标签向量
Figure BDA00016193633200001514
更新单元4045,用于将无标签数据的归一化特征向量
Figure BDA00016193633200001515
添加到特征矩阵A,生成新的特征矩阵
Figure BDA00016193633200001516
并更新相应的标签矩阵
Figure BDA00016193633200001517
人工筛选单元405,用于对标签映射单元404得到的结果进行人工筛选。由于无标签数据的海量性,因此人工筛选只需要对机器标注错误的结果进行剔除即可。
新数据训练集生成单元406,用于将人工筛选单元405剔除错误识别后的数据以及初始数据集生成单元401中的有标签数据组合成一个新的有标签数据训练集。
重复训练单元407,利用新的有标签数据训练集重复对深度学习模型再次训练,直至模型表现达到预期效果为止。
综上所述,本发明一种弱交互式的物体检测深度学习方法及系统通过利用弱交互式的形式将海量的无标签数据快速地应用到用于图像物体检测与识别的深度学习模型训练中,实现机器对无标签数据的全标注,从而提高了无标签数据利用率以及深度学习模型的识别鲁棒性。本发明利用机器对无标签数据进行标注,可以减轻人工标注的压力,人工只需要对机器标注结果进行筛选即可,并且随着训练数据以及模型迭代次数的增多,即通过不断“学习”,机器对无标签数据的标注结果会越来越好,对机器标注结果进行筛选的次数会越来越少,同时本发明还提出了一种用于实现该方法的系统设计形式,系统可将方法实现的细节隐藏,支持任务的大量、快速处理,并提供可视化界面予以操作。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下,对上述实施例进行修饰与改变。因此,本发明的权利保护范围,应如权利要求书所列。

Claims (8)

1.一种弱交互式的物体检测深度学习方法,包括:
步骤S1,选取一些无标签数据进行物体识别的人工标注,并与一些公开的数据集组合成初始数据集;
步骤S2,选定一深度学习模型,利用步骤S1中的有标签数据对所述深度学习模型进行模型训练;
步骤S3,利用步骤S2训练得到的模型对步骤S1获得的初始数据集中的无标签数据及有标签数据分别进行特征提取;
步骤S4,于得到无标签数据以及有标签数据的特征后,将特征进行组合,建立特征矩阵,并利用有标签的数据对无标签数据进行标签映射,将标签映射到无标签数据中,完成对无标签数据的标注;
步骤S5,根据步骤S4的结果与步骤S1中的有标签数据组合成一个新的有标签数据训练集;
步骤S6,利用新的有标签数据训练集重复步骤S2-S5对所述深度学习模型再次训练,直至模型表现达到预期效果为止;
步骤S4进一步包括:
步骤S400,将所有有标签数据的特征向量构建成一个特征矩阵A,并获得相应的标签矩阵L以及所选取的物体类别的阈值向量
Figure FDA0003406349470000011
步骤S401,利用所述特征矩阵A以及无标签数据
Figure FDA0003406349470000012
计算无标签数据特征相对于有标签数据特征的距离
Figure FDA0003406349470000013
步骤S402,利用阈值向量
Figure FDA0003406349470000014
以及所述无标签数据特征相对于有标签数据特征的距离
Figure FDA0003406349470000015
计算获得标签仿射矩阵
Figure FDA0003406349470000016
步骤S403,利用所述标签仿射矩阵
Figure FDA0003406349470000017
求得无标签数据
Figure FDA0003406349470000018
的标签值;
步骤S404,将所述无标签数据特征向量添加到所述特征矩阵A,生成新的特征矩阵A’,并更新相应的标签矩阵;
步骤S405,当有新的无标签数据
Figure FDA0003406349470000021
时重复以上步骤。
2.如权利要求1所述的一种弱交互式的物体检测深度学习方法,其特征在于,于步骤S5之前,还包括对步骤S4得到的结果进行人工筛选的步骤,于步骤S5中,将经人工筛选剔除错误识别后的数据以及步骤S1中的有标签数据组合成所述新的有标签数据训练集。
3.如权利要求1所述的一种弱交互式的物体检测深度学习方法,其特征在于:于步骤S400中,设有标签数据的归一化特征向量为
Figure FDA0003406349470000022
标签记为
Figure FDA0003406349470000023
Figure FDA0003406349470000024
其中l1、l2、ln为所选取的物体类别的标签,设无标签数据的归一化特征向量为
Figure FDA0003406349470000025
将所有有标签数据的特征向量构建成一个特征矩阵
Figure FDA0003406349470000026
相应的标签矩阵为
Figure FDA0003406349470000027
然后利用标签矩阵L求得物体类别的阈值向量为
Figure FDA0003406349470000028
Figure FDA0003406349470000029
代表类别ln对应的阈值。
4.如权利要求3所述的一种弱交互式的物体检测深度学习方法,其特征在于:于步骤S401中,利用用
Figure FDA00034063494700000210
求得无标签数据特征相对于有标签数据特征的距离
Figure FDA00034063494700000211
5.如权利要求4所述的一种弱交互式的物体检测深度学习方法,其特征在于:于步骤S402中,利用
Figure FDA00034063494700000212
求得第一个物体类别的标签仿射向量,利用
Figure FDA00034063494700000213
求得第二个物体类别的标签仿射向量,以此类推,求得各个物体类别的标签仿射向量;其中当
Figure FDA00034063494700000214
大于0时,
Figure FDA00034063494700000215
Figure FDA00034063494700000216
小于0时,
Figure FDA00034063494700000217
然后将各个物体类别的标签仿射向量组合成标签仿射矩阵
Figure FDA00034063494700000218
6.如权利要求1所述的一种弱交互式的物体检测深度学习方法,其特征在于:于步骤S2中,选取Faster R-CNN网络作为所述深度学习模型。
7.一种弱交互式的物体检测深度学习系统,包括:
初始数据集生成单元,用于选取一些无标签数据进行物体识别的人工标注,并与一些公开的数据集组合成初始数据集;
深度学习模型选择训练单元,用于选定一深度学习模型,利用所述初始数据集生成单元中的有标签数据对所述深度学习模型进行训练;
特征提取单元,用于利用所述深度学习模型选择训练单元训练得到的模型对所述初始数据集生成单元的初始数据集中的无标签数据和有标签数据分别进行特征提取;
标签映射单元,用于于得到无标签数据以及有标签数据的特征后,将特征进行组合,建立特征矩阵,并利用有标签的数据对无标签数据进行标签映射,将标签映射到无标签数据中,完成对无标签数据的标注;
新数据训练集生成单元,用于将标注后的数据以及所述初始数据集生成单元中的有标签数据组合成一个新的有标签数据训练集;
重复训练单元,利用新的有标签数据训练集重复对深度学习模型再次训练,直至模型表现达到预期效果为止;
所述标签映射单元进一步包括:
特征矩阵构建单元,用于将所有有标签数据的特征向量构建成一个特征矩阵A,并获得相应的标签矩阵L以及所选取的物体类别的阈值向量
Figure FDA0003406349470000031
距离计算单元,用于利用所述特征矩阵以及无标签数据
Figure FDA0003406349470000032
计算无标签数据特征相对于有标签数据特征的距离
Figure FDA0003406349470000033
标签仿射矩阵计算单元,用于利用阈值向量
Figure FDA0003406349470000034
以及所述无标签数据特征相对于有标签数据特征的距离
Figure FDA0003406349470000039
计算获得标签仿射矩阵
Figure FDA0003406349470000035
标签值计算单元,利用所述标签仿射矩阵
Figure FDA0003406349470000036
求得无标签数据
Figure FDA0003406349470000037
的标签值;
更新单元,用于将无标签数据的归一化特征向量
Figure FDA0003406349470000038
添加到特征矩阵A,生成新的特征矩阵A’及更新相应的标签向量和标签矩阵。
8.如权利要求7所述的一种弱交互式的物体检测深度学习系统,其特征在于:所述系统还包括人工筛选单元,用于对所述标签映射单元得到的结果进行人工筛选,所述新数据训练集生成单元将经人工筛选剔除错误识别后的数据以及所述初始数据集生成单元中的有标签数据组合成所述新的有标签数据训练集。
CN201810299109.8A 2018-04-04 2018-04-04 一种弱交互式的物体检测深度学习方法及其系统 Active CN108537269B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810299109.8A CN108537269B (zh) 2018-04-04 2018-04-04 一种弱交互式的物体检测深度学习方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810299109.8A CN108537269B (zh) 2018-04-04 2018-04-04 一种弱交互式的物体检测深度学习方法及其系统

Publications (2)

Publication Number Publication Date
CN108537269A CN108537269A (zh) 2018-09-14
CN108537269B true CN108537269B (zh) 2022-03-25

Family

ID=63483133

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810299109.8A Active CN108537269B (zh) 2018-04-04 2018-04-04 一种弱交互式的物体检测深度学习方法及其系统

Country Status (1)

Country Link
CN (1) CN108537269B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109460897A (zh) * 2018-09-29 2019-03-12 中国南方电网有限责任公司超高压输电公司检修试验中心 一种基于数据审核的自学习方法
CN109492675B (zh) * 2018-10-22 2021-02-05 深圳前海达闼云端智能科技有限公司 医学影像的识别方法、装置、存储介质和电子设备
CN109766780A (zh) * 2018-12-20 2019-05-17 武汉理工大学 一种基于深度学习的船舶烟雾排放在线检测和追踪方法
CN109803013B (zh) * 2019-01-21 2020-10-23 浙江大学 一种基于人工智能的弱交互系统及其控制方法
CN110009015A (zh) * 2019-03-25 2019-07-12 西北工业大学 基于轻量化网络和半监督聚类的高光谱小样本分类方法
CN110096574B (zh) * 2019-05-07 2023-08-15 上海宝尊电子商务有限公司 电商评论分类任务中数据集的建立和后续优化及扩充方案
CN110222593A (zh) * 2019-05-18 2019-09-10 四川弘和通讯有限公司 一种基于小规模神经网络的车辆实时检测方法
CN110163296B (zh) * 2019-05-29 2020-12-18 北京达佳互联信息技术有限公司 图像识别的方法、装置、设备及存储介质
CN110263853B (zh) * 2019-06-20 2023-05-23 杭州睿琪软件有限公司 利用错误样本检查人工客户端状态的方法及装置
CN110533159B (zh) * 2019-06-26 2022-04-08 中国科学院过程工程研究所 一种基于介科学指导提高深度学习数据集质量及模型可解释性的方法
CN111046425B (zh) * 2019-12-12 2021-07-13 支付宝(杭州)信息技术有限公司 多方联合进行风险识别的方法和装置
CN111476165A (zh) * 2020-04-07 2020-07-31 同方赛威讯信息技术有限公司 基于深度学习的电子文档中标题印章指纹特征检测方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103605667A (zh) * 2013-10-28 2014-02-26 中国计量学院 一种图像自动标注算法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10296846B2 (en) * 2015-11-24 2019-05-21 Xerox Corporation Adapted domain specific class means classifier
CN105631473A (zh) * 2015-12-24 2016-06-01 大连理工大学 一种有限有标签样本条件的相机来源鉴别方法
CN105808752B (zh) * 2016-03-10 2018-04-10 大连理工大学 一种基于cca和2pknn的自动图像标注方法
CN107563445A (zh) * 2017-09-06 2018-01-09 苏州大学 一种基于半监督学习的提取图像特征的方法与装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103605667A (zh) * 2013-10-28 2014-02-26 中国计量学院 一种图像自动标注算法

Also Published As

Publication number Publication date
CN108537269A (zh) 2018-09-14

Similar Documents

Publication Publication Date Title
CN108537269B (zh) 一种弱交互式的物体检测深度学习方法及其系统
Fan et al. Salient objects in clutter: Bringing salient object detection to the foreground
CN106547880B (zh) 一种融合地理区域知识的多维度地理场景识别方法
CN112966684B (zh) 一种注意力机制下的协同学习文字识别方法
JP6397144B2 (ja) 画像からの事業発見
CN109993102B (zh) 相似人脸检索方法、装置及存储介质
Gao et al. Counting from sky: A large-scale data set for remote sensing object counting and a benchmark method
Hu et al. Hand-model-aware sign language recognition
CN104572804A (zh) 一种视频物体检索的方法及其系统
CN112819686B (zh) 基于人工智能的图像风格处理方法、装置及电子设备
CN111209897B (zh) 视频处理的方法、装置和存储介质
CN110796143A (zh) 一种基于人机协同的场景文本识别方法
CN113609896A (zh) 基于对偶相关注意力的对象级遥感变化检测方法及系统
US11501110B2 (en) Descriptor learning method for the detection and location of objects in a video
CN112861575A (zh) 一种行人结构化方法、装置、设备和存储介质
Zhang et al. Learning to detect salient object with multi-source weak supervision
Liu et al. Robust salient object detection for RGB images
CN113761253A (zh) 视频标签确定方法、装置、设备及存储介质
CN112101344A (zh) 一种视频文本跟踪方法及装置
Zhao et al. Bitnet: A lightweight object detection network for real-time classroom behavior recognition with transformer and bi-directional pyramid network
Akallouch et al. ASAYAR: a dataset for Arabic-Latin scene text localization in highway traffic panels
Chen et al. STRAN: Student expression recognition based on spatio-temporal residual attention network in classroom teaching videos
Li A deep learning-based text detection and recognition approach for natural scenes
CN112037239A (zh) 基于多层次显式关系选择的文本指导图像分割方法
CN116258937A (zh) 基于注意力机制的小样本分割方法、装置、终端及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant