CN112613548A

CN112613548A - 基于弱监督学习的用户定制化目标检测方法、系统和存储介质

Info

Publication number: CN112613548A
Application number: CN202011497649.0A
Authority: CN
Inventors: 郑伟诗; 罗京
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2020-12-17
Filing date: 2020-12-17
Publication date: 2021-04-06
Anticipated expiration: 2040-12-17
Also published as: CN112613548B

Abstract

本发明公开了一种基于弱监督学习的用户定制化目标检测方法、系统及存储介质，方法包括下述步骤：构建目标检测架构，包括客户端和服务端；在客户端上传训练所需的图像数据和图像类别标注数据，服务端根据标注类别数构建WSDDN‑PCL弱监督目标检测模型；服务端使用用户上传的图像和标注数据训练弱监督目标检测模型，训练好的模型保存在服务端；在客户端上传需要检测的图像数据，服务端加载训练好的目标检测模型，并对用户上传的图像数据进行检测，将检测结果存储在服务端；用户从服务端下载检测结果，完成目标检测任务。本发明的方法可以定制化地从线上图库中爬取数据并训练目标检测模型，并将复杂的计算过程放到服务器进行，同时满足易用性和快速性的要求。

Description

基于弱监督学习的用户定制化目标检测方法、系统和存储介质

技术领域

本发明属于图像目标检测的技术领域，具体涉及一种基于弱监督学习的用户定制化目标检测方法、系统和存储介质。

背景技术

图像目标检测是计算机视觉领域的一项基础且重要的研究，近年来随着智慧城市和摄像技术的发展，目标检测任务越来越得到重视。目标检测的任务是从图像中找出所有感兴趣的目标，确定它们的位置和类别，并且将目标用矩形方框完整地框出。

目标检测有很多方面的应用，例如自动驾驶、人脸识别、行人检测、物体跟踪等。比如在自动驾驶技术中，为了判断汽车周围环境的情况，可通过电子摄像头获取周围场景的图像，并利用目标检测技术从图像中识别汽车周围是否有行人等物体，以此来指导汽车的行驶过程。

目前的目标检测模型以卷积神经网络为主要组成部分。卷积神经网络具有强大的表征学习的能力，能够有效提取图像特征，可以满足高精度目标检测任务的要求。但是，训练高精度的目标检测模型，需要使用大量的以矩形包围框为形式的精细的图像标注作为监督信息，对图像进行标注时将会耗费大量的人力成本。随着近年来大数据的迅速发展，面对海量的视觉数据和越来越复杂的业务，通过人工标注来获取训练数据在很多情况下已经不可行。

为了减少人工标注的工作量，出现了弱监督目标检测技术；弱监督目标检测使用弱化的监督信息进行学习，即模型仅需要图片的类别标注就可以学习目标检测，而不需要标注目标的矩形包围框，大大降低了人工标注的难度。而且网络中有大量的包含类别标注的图像，这使模型从海量数据中学习目标检测成为可能。

目前最先进的弱监督目标检测模型，在准确率上已经接近经典的有监督目标检测模型，如RCNN。因为需要更少的监督信息，弱监督目标检测模型能够使用更大规模的数据来进行训练，因此在某些情况下，其准确率要优于有监督目标检测模型。

目前主流的目标检测系统，以有监督目标检测模型为主，需要用户提供图像以及精细的标注作为训练数据，而用户在标注数据时需要耗费大量的人力，且提供的数据量有限，训练出的模型在准确率上未必能满足用户的需求。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提供一种基于弱监督学习的用户定制化目标检测方法、系统和存储介质，可以定制化地从线上图库中爬取数据并训练目标检测模型，并将复杂的计算过程放到服务器进行，同时满足易用性和快速性的要求。

为了达到上述目的，本发明采用以下技术方案：

本发明一方面提出了一种基于弱监督学习的用户定制化目标检测方法，包括下述步骤：

构建目标检测架构，所述目标检测架构包括客户端和服务端，所述客户端采用PyQT设计，用于与服务端交互、采集网络数据及过滤不良数据；所述服务端使用tornado搭建，用于接收用户上传数据、创建目标检测模型、训练模型、存储模型、存储训练数据和检测结果，所述服务器数据库使用MySQL管理，用于图像数据、标注数据和模型的存储，所述目标检测模型使用Pytorch搭建；

在客户端上传训练所需的图像数据和图像类别标注数据，服务端根据标注类别数构建WSDDN-PCL弱监督目标检测模型；

服务端使用用户上传的图像和标注数据训练弱监督目标检测模型，训练好的模型保存在服务端；

在客户端上传需要检测的图像数据，服务端加载训练好的目标检测模型，并对用户上传的图像数据进行检测，将检测结果存储在服务端；

用户从服务端下载检测结果，完成目标检测任务。

优先的，所述客户端采用PyQT设计，具体为：

项目设计，所述项目设计包括创建项目和打开项目，若选择创建项目，则服务端生成项目文件夹用于管理新项目；若选择打开项目，则选择要打开某一具体项目；

模型检测，所述模型检测包括模型训练和目标检测；当选择模型训练，服务端自动生成模型并进行训练，训练好的模型被保存到服务端并由用户命名；当选择目标检测，则选择已经训练好的模型版本，并选择一个测试集，最终服务端会将测试集的图像数据输入所选模型进行目标检测，并输出结果到服务端；

数据传输，所述数据传输包括上传训练集、上传测试集和下载检测结果；若选择上传训练集，则用户从本地文件中选择训练集后上传，上传的数据集将被合并到该项目的训练集中，一个项目只能有一个训练集；若选择上传测试集，则用户从本地文件中选择测试集，命名后上传，一个项目可有多个测试集；若选择下载检测结果，则用户从服务端中下载模型的检测结果；

数据爬取，输入检测和爬取数量，自动从网络图库中爬取相关图像，爬取结果将展示在界面中，过滤数据之后，并输入该数据集的分类标签并为数据集命名，将数据集上传至服务端。

优先的，所述所述服务端使用tornado搭建，所述服务端用于训练模型和目标检测；训练模型时，服务端分配GPU和内存资源，导入客户端指定的训练集，生成模型并训练，训练好的模型将保存于服务端并由相应项目管理；进行目标检测时，服务端分配GPU和内存资源，导入客户端指定的模型和测试集并执行目标检测，目标检测的结果将保存于服务端并由相应项目管理。

优先的，所述图像数据和图像类别标注数据从本地上传；

或者使用图像自动采集功能从互联网图库中收集图像数据，用户在数据采集模块中输入关键字和采集数量，由系统从互联网图库中爬取相关图像，爬取结果将以略缩图形式展示给用户，并剔除不良数据，完成图像爬取后，为爬取到的数据集命名，作为该数据集的类别标注。

优先的，使用ResNet-50模型作为提取图片特征的主干网络，网络在ImageNet分类数据集上经过预训练。训练时，使用Adam优化算法来优化网络参数。

优先的，所述WSDDN-PCL弱监督目标检测模型是在传统的以MIL方式为基础的弱监督目标检测模型上，增加了多层自训练的细化网络层，最终将多层细化网络层的输出取均值，作为模型的输出。

优先的，所述WSDDN-PCL弱监督目标检测模型在训练时，记录训练集每轮迭代的平均损失，并返回在最后一轮中损失较高的图像及其标注，由用户判断是否为不良数据或错误标注，并由用户清除或修改标注。用户将决定是否重新训练或者继续训练。模型训练完成后，将存储在服务器中；

用户进行目标检测时，选择相应的项目和模型版本，将待检测图像上传至服务端，服务端加载模型并进行检测，检测完成后，结果将存储于服务端，用户通过客户端下载图像检测结果。

优先的，模型输出的结果包括图像以及将图像中目标所包围的矩形标注框，标注框中包括目标类别及其置信度。

本发明的另一方面还提出了一种基于弱监督学习的用户定制化目标检测系统，应用于所述的基于弱监督学习的用户定制化目标检测方法，包括目标检测架构构建模块、弱监督目标检测模型构建模块、训练模块、检测模块以及下载模块；

所述目标检测架构构建模块，用于构建目标检测架构，所述目标检测架构包括客户端和服务端，所述客户端采用PyQT设计，用于与服务端交互、采集网络数据及过滤不良数据；所述服务端使用tornado搭建，用于接收用户上传数据、创建目标检测模型、训练模型、存储模型、存储训练数据和检测结果，所述服务器数据库使用MySQL管理，用于图像数据、标注数据和模型的存储，所述目标检测模型使用Pytorch搭建；

所述弱监督目标检测模型构建模块，用于在客户端上传训练所需的图像数据和图像类别标注数据，服务端根据标注类别数构建WSDDN-PCL弱监督目标检测模型；

所述训练模块，用于服务端使用用户上传的图像和标注数据训练弱监督目标检测模型，训练好的模型保存在服务端；

所述检测模块，用于在客户端上传需要检测的图像数据，服务端加载训练好的目标检测模型，并对用户上传的图像数据进行检测，将检测结果存储在服务端；

所述下载模块，用于用户从服务端下载检测结果，完成目标检测任务。

本发明的又一方面还提出了一种存储介质，存储有程序，所述程序被处理器执行时，实现权利要求1-8任一项所述的基于弱监督学习的用户定制化目标检测方法。

本发明与现有技术相比，具有如下优点和有益效果：

1.相比于有监督的目标检测方案，本发明采用了弱监督目标检测模型，仅需要图像及其类别标注信息，就可以训练目标检测模型，显著降低了人工标注成本。

2.本发明提出了数据自动采集的功能，能根据用户的需求，在短时间内采集大量的数据，进一步降低了用户采集数据的人力成本。

3.本发明提出了客户端/服务端的架构，将复杂的计算过程放到服务端执行，利用高性能的GPU大大提高了模型的推理速度，满足了实时性的要求。

4.本发明采用的弱监督目标检测模型，由于可以使用海量的互联网图像数据进行训练，在准确度上与目前较先进的有监督目标检测模型相当，能够满足准确性的要求。

附图说明

图1是本发明实施例基于弱监督学习的用户定制化目标检测方法的流程图；

图2是本发明实施例客户端的结构示意图；

图3是本发明实施例服务端的结构示意图；

图4是本发明WSDDN-PCL模型的结构示意图；

图5是本发明检测图像目标的流程图；

图6是本发明基于弱监督学习的用户定制化目标检测系统的结构示意图；

图7是本发明存储介质的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

实施例

为了减少图像目标检测数据集的收集成本和标注成本，本发明试图实现基于弱监督学习的用户可定制化目标检测方案。用户从本地上传图像及其类别标注数据，或通过客户端自动采集网络图像数据，服务端根据用户提供的数据集，生成弱监督目标检测模型，并分配高性能的显卡(例如2080Ti)训练模型。训练好的模型保存在服务端，用户上传需要检测的图像，由服务器加载模型并进行目标检测，检测结果返回给客户端。

由于弱监督目标检测模型训练时仅需要图像和图像类别标注数据，因此可大大节省用户标注数据的成本。本方法提供了数据自动采集的功能，可节省用户收集数据的时间成本。由于数据是由用户提供的，因此模型检测的目标完全由用户定制，可以灵活满足用户对目标检测的需求。由于服务器可以配备高端显卡(如2080Ti)，能大大提高深度学习中矩阵运算的速度，因此可以满足目标检测效率上的需求。该方法可以被用到行人检测、车辆检测等场景中。

如图1所示，本实施例提供了一种基于弱监督学习的用户定制化目标检测方法，包括下述步骤：

S100、构建目标检测架构，所述目标检测架构包括客户端和服务端，所述客户端采用PyQT设计，用于与服务端交互、采集网络数据及过滤不良数据；所述服务端使用tornado搭建，用于接收用户上传数据、创建目标检测模型、训练模型、存储模型、存储训练数据和检测结果，所述服务器数据库使用MySQL管理，用于图像数据、标注数据和模型的存储，所述目标检测模型使用Pytorch搭建。

如图2所示，本实施例客户端的设计如下：

数据爬取，需要输入检测和爬取数量，点击爬取之后之后，客户端自动从网络图库中爬取相关图像；爬取结果将展示在界面中，用户可用鼠标选择图像，选择后图像将被虚线包围。选择图像后，点击删除，可将该图删除，用于过滤不良数据；用户可通过拉动界面右侧按钮来浏览爬取结果；用户手动过滤数据之后，点击上传，并输入该数据集的分类标签并为数据集命名，数据集将上传至服务端。

如图3所示，所述服务端通过tornado框架设计。服务端用于数据、模型的存储，以及模型的训练和目标检测。

在服务端中管理着多个项目，每个项目下管理着数据集和模型，服务端负责训练模型和目标检测。训练模型时，服务端分配GPU和内存资源，导入客户端指定的训练集，生成模型并训练，训练好的模型将保存于服务端并由相应项目管理。进行目标检测时，服务端分配GPU和内存资源，导入客户端指定的模型和测试集并执行目标检测，目标检测的结果将保存于服务端并由相应项目管理。

在服务端中，项目和数据的地址由MySQL进行管理，MySQL中维护着项目名-项目地址和数据名-数据地址的键值对，服务端通过项目或数据的名字，从MySQL中获取其地址并访问。

更进一步的，模型通过Pytorch进行搭建，存储于服务端上的.py文件中。其中，模型的卷积层固定，为ResNet-50，但是模型的全连接层规模由服务端设定。服务端根据训练集的类别标签，统计出类别数，并根据类别数设定模型全连接层的规模参数。

更进一步的，所述WSDDN-PCL模型如图4所示，Conv layers是固定的，为ResNet-50，但是模型中的全连接层的规模，是由数据的类别数来决定的。比如数据包含C个类别的标签，那么全连接层的输出就要被设置为C。因此训练前，服务端先统计训练集的标签类别数，然后调整模型的全连接层规模，再生成模型并进行训练。

S200、用户创建目标检测项目，管理数据集和模型。本发明为用户定制化的目标检测方法，用户可使用多种数据集，训练多个模型。同一个项目共享一个数据集，并管理多个版本的目标检测模型。更具体的，用户上传的数据集将由项目管理，在项目中对数据集增删查改。训练好的模型由项目管理，用户可选择其一用于目标检测，或继续训练。

S300、用户提供训练数据，包括本地数据和网络采集数据。用户用本地上传图像数据及其标注数据。图像数据可为任意格式的图像文件。标注数据为xml格式文件，包含每个图像文件名字及其对应的类别标注。为了帮助用户快速获取大规模数据，方法提供数据采集功能，用户在数据收集模块中输入关键词和爬取数量，由系统从百度图片数据库中，根据关键词自动爬取相应数量的相关图片，并将爬取结果暂存在本地。

爬取的每张图片将以略缩图的形式展示给用户。由于网络爬取结果会包含部分不良数据，用户需浏览爬取结果，手动去除不良数据。用户可选择继续爬取更多图像，或者重新爬取图像。

爬取完成后，用户定义爬取结果的类别标注，确认后客户端自动生成新的xml标注文件，并将图像和标注数据通过网络上传至服务端。服务端会将多个xml标注文件合并为单个xml文件，以方便管理。

训练的具体步骤为：

用户从本地向服务器上传图像及其标注数据。图像和标注数据以压缩包的形式上传。标注数据为xml文件，内容包括图像数据中每个图像的文件名以及该图像的类别标注信息。

客户端提供数据收集功能。用户在数据收集模块中输入关键词和爬取数量，由系统从百度图片数据库中，根据关键词自动爬取相应数量的相关图片，并将爬取结果暂存在本地。

爬取的每张图片将以略缩图的形式展示给用户。用户浏览爬取结果，手动去除不良数据。用户可选择继续爬取更多图像，或者重新爬取图像。

爬取完成后，用户定义爬取结果的类别标注，确认后客户端自动生成新的xml标注文件，并将图像和标注数据通过网络上传至服务端。

数据上传后，用户通过客户端向服务器发送模型训练请求。服务端将对数据进行预处理。方法采用WSDDN-PCL作为目标检测模型。

服务端解析xml标注文件，统计目标类别数量，为每个类别标注生成one-hot编码标签。

服务端根据目标类别数量，确定模型的输出格式，生成WSDDN-PCL目标检测模型。

服务端分配服务器硬件资源，利用用户上传的图像数据和标注数据，对WSDDN-PCL模型进行训练。

服务端在训练过程中实时记录损失函数的情况，在每轮迭代中统计本次迭代的平均损失。

训练完成后，服务端将向客户端返回损失函数的统计结果，以折线图的形式展示在每轮迭代中整个训练集的平均损失。

服务端向客户端返回最后一轮迭代中损失较大的图像及其类别信息，由用户判断是否为不良数据或标注错误，用户在客户端剔除不良数据或修改图像标注信息，服务端将同步剔除图像数据或修改标注信息。

用户决定是否要重新训练或是继续训练。

S400、服务端创建目标检测模型并训练。服务端解析xml标注文件，统计目标类别数量，为每个类别标注生成one-hot编码标签。服务端根据目标类别数量，确定模型的输出格式，生成WSDDN-PCL目标检测模型。服务端分配服务器硬件资源，利用用户上传的图像数据和标注数据，对WSDDN-PCL模型进行训练。模型通过Adam优化算法进行参数优化。

更进一步的，使用预训练的ResNet-50作为提取图片特征的主干网络，该网络在ImageNet分类数据集上经过预训练。训练时，使用Adam优化算法来优化网络参数。

更进一步的，所述WSDDN-PCL是将弱监督目标检测中经典的WSDDN模型，结合簇学习的优化方式(PCL)得到的模型。WSDDN在弱监督目标检测领域中是一个经典的模型，该模型将MIL(多示例学习)方法用于弱监督目标检测中。WSDDN首先通过选择性搜索算法，从图像中生成2000余个候选框，然后将图像通过卷积神经网络获得图像特征，从图像特征中截取每个候选框的特征，并对每个候选框特征使用SPP池化，得到固定长度的特征向量。最后将候选框的特征向量输入全连接神经网络，输出每个特征向量的类别分数，选出类别分数高的结果作为分类结果，进行图像分类训练。进行目标检测时，将类别分数高的候选框作为检测结果。

PCL方法在WSDDN的基础上，增加了多层自训练的细化网络层。通过多层级细化，PCL可以有效改善WSDDN模型的缺陷，其缺陷是WSDDN模型只会检测到图像目标最显著的区域，而不能完整地检测到目标区域。

更具体的，PCL模型首先对由WSDDN计算出来每个候选框的评分进行排序，选出分数较高的候选框，并通过图优化的方式，选取出高分且相互之间覆盖率较低的候选框作为目标中心；然后在候选框中寻找与目标中心有较高覆盖率的候选框，将其打上和目标中心相同的标签，作为伪监督信息，用于训练另一个目标检测网络；该流程可以多次执行，每个目标检测网络的输出结果又可以作为伪标签训练另一个目标检测网络。最终将多个目标检测网络的结果取均值后输出。

更进一步的，模型的损失函数由两部分组成：

其中L_WSDDN是WSDDN模型的多元交叉熵损失函数，

是第i层自训练网络的损失函数。

S500、训练完成后，服务端向客户端传送训练结果并由客户端展示给用户。具体的，服务端将训练时，记录每轮迭代的平均损失，绘制成折线图。用户可通过该记录判定是否需要继续训练。服务端将最后一轮训练中损失较大的数据记录下来，并展示给客户端。用户查看其中是否包含不良数据或标注错误，删除不良数据或修改错误标注，并决定是否继续训练或重新训练。若用户满意训练结果，则确认结束训练，模型将被保存在服务端，并由用户设定版本号。

如图5所示，在执行目标检测时，包括如下步骤：

S600、用户在客户端中选择项目和模型版本，并向服务端上传待检测图像数据。

S700、服务端接收待检测图像数据，根据用户指定的项目和版本号，加载WSDDN-PCL模型。服务端分配服务器硬件资源，以用户上传的图像作为模型输入，模型最终输出的结果为图像以及图像中物体的包围框，输出结果将暂存在服务端。服务端检测完成后，用户在客户端中下载服务端的输出结果，输出结果将通过网络传送给客户端，并保存在客户端本地。

如图6所示，在另一个实施例中，提供了一种基于弱监督学习的用户定制化目标检测系统，应用于基于弱监督学习的用户定制化目标检测方法，包括目标检测架构构建模块、弱监督目标检测模型构建模块、训练模块、检测模块以及下载模块；

如图7所示，在本申请的另一个实施例中，还提供了一种存储介质，存储有程序，所述程序被处理器执行时，实现基于弱监督学习的用户定制化目标检测方法，具体为：

用户从服务端下载检测结果，完成目标检测任务。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.基于弱监督学习的用户定制化目标检测方法，其特征在于，包括下述步骤：

用户从服务端下载检测结果，完成目标检测任务。

2.根据权利要求1所述基于弱监督学习的用户定制化目标检测方法，其特征在于，所述客户端采用PyQT设计，具体为：

3.根据权利要求1所述基于弱监督学习的用户定制化目标检测方法，其特征在于，所述所述服务端使用tornado搭建，所述服务端用于训练模型和目标检测；训练模型时，服务端分配GPU和内存资源，导入客户端指定的训练集，生成模型并训练，训练好的模型将保存于服务端并由相应项目管理；进行目标检测时，服务端分配GPU和内存资源，导入客户端指定的模型和测试集并执行目标检测，目标检测的结果将保存于服务端并由相应项目管理。

4.根据权利要求1所述基于弱监督学习的用户定制化目标检测方法，其特征在于，所述图像数据和图像类别标注数据从本地上传；

5.根据权利要求1所述基于弱监督学习的用户定制化目标检测方法，其特征在于，使用ResNet-50模型作为提取图片特征的主干网络，网络在ImageNet分类数据集上经过预训练，训练时，使用Adam优化算法来优化网络参数。

6.根据权利要求1所述基于弱监督学习的用户定制化目标检测方法，其特征在于，所述WSDDN-PCL弱监督目标检测模型是在传统的以MIL方式为基础的弱监督目标检测模型上，增加了多层自训练的细化网络层，最终将多层细化网络层的输出取均值，作为模型的输出。

7.根据权利要求6所述基于弱监督学习的用户定制化目标检测方法，其特征在于，所述WSDDN-PCL弱监督目标检测模型在训练时，记录训练集每轮迭代的平均损失，并返回在最后一轮中损失较高的图像及其标注，由用户判断是否为不良数据或错误标注，并由用户清除或修改标注，用户将决定是否重新训练或者继续训练，模型训练完成后，将存储在服务器中；

8.根据权利要求6或7所述基于弱监督学习的用户定制化目标检测方法，其特征在于，模型输出的结果包括图像以及将图像中目标所包围的矩形标注框，标注框中包括目标类别及其置信度。

9.基于弱监督学习的用户定制化目标检测系统，其特征在于，应用于权利要求1-8中任一项所述的基于弱监督学习的用户定制化目标检测方法，包括目标检测架构构建模块、弱监督目标检测模型构建模块、训练模块、检测模块以及下载模块；

10.一种存储介质，存储有程序，其特征在于，所述程序被处理器执行时，实现权利要求1-8任一项所述的基于弱监督学习的用户定制化目标检测方法。