CN114638322A

CN114638322A - 开放场景下基于给定描述的全自动目标检测系统和方法

Info

Publication number: CN114638322A
Application number: CN202210548406.8A
Authority: CN
Inventors: 许封元; 吴昊; 李书城; 唐华骜
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2022-05-20
Filing date: 2022-05-20
Publication date: 2022-06-17
Anticipated expiration: 2042-05-20
Also published as: CN114638322B

Abstract

本发明涉及开放场景下基于给定描述的全自动目标检测系统和方法，包括数据准备模块、数据筛选模块和目标检测模块，数据准备模块以输入器中给定描述为关键词，在网页上爬取相关的图片并进行预处理，构建图片数据集，数据筛选模块通过无监督的数据筛选算法对图片进行数据筛选；目标检测模块使用弱监督的目标检测方法，基于筛选后的图片数据集进行训练，获取给定描述目标的目标检测模型。方法，包括1.数据获取，2.数据筛选，3.目标检测。本发明能够基于输入的任意给定目标物体描述，自动化地返回所描述物体的目标检测模型；从开放的环境中获得数据，并自动化地构建相应的目标检测数据集，训练并返回相应的目标检测模型，用于用户的部署和推断。

Description

开放场景下基于给定描述的全自动目标检测系统和方法

技术领域

本发明涉及一种开放场景下基于给定描述的全自动目标检测方法，属于计算机视觉技术领域。

背景技术

目标检测系统主要存在两个问题，一是它们只针对特定的目标类别，例如人脸识别只针对人脸，果蔬识别只针对超市所关心的各种水果和蔬菜，在目标的设定上不具备开放性，可能无法应对新的目标物体的需求；二是构筑这样目标检测系统，需要用户自己构建目标检测数据集，例如超市的自助果蔬计价系统，需要超市构建或提供水果和蔬菜的目标检测数据集，而目标检测数据集的标注，不仅需要对每张图片的目标类别（class label）进行标注，还需要对目标所处的位置划出边框（Boundingbox，Bbox），目前这些标注通常是依靠有一定领域知识的工人手动完成，这需要耗费大量的人力成本，因而如上的系统不具备自动化的特点。

现有的目标检测技术，针对的数据的类别是选定的，是根据用户的需求而拟定的，而不同的用户可能有不同的需求，同样的系统可能无法适用于不同的需求。同时，使用现有的目标检测技术，用户不可避免地需要根据其需求构建其所关心的特定物体的目标检测数据集，这会耗费其大量的人力物力。

发明内容

为了解决上述技术问题，本发明提供一种开放场景下基于给定描述的全自动目标检测方法，其具体技术方案如下：

开放场景下基于给定描述的全自动目标检测系统，包括数据准备模块、数据筛选模块和目标检测模块，所述数据准备模块的输入端连接有输入器，所述数据准备模块的输出端与数据筛选模块的输入端连接，所述数据筛选模块的输出端与目标检测模块的输入端连接，所述目标检测模块的输出端连接有显示器，所述数据准备模块基于输入器给定描述的关键词，在网页上通过网络爬虫技术爬取与关键词相关的图片并进行预处理，构建图片数据集，所述数据筛选模块通过内部数据筛选算法对图片进行数据筛选；所述目标检测模块使用弱监督的目标检测方法，结合图片数据集，训练获取给定描述目标的目标检测模型。

进一步的，所述数据筛选模块在数据筛选时结合基于搜索引擎图片和基于图片多样性的两种聚类增强方法进行数据筛选。

开放场景下基于给定描述的全自动目标检测方法，包括以下步骤：

步骤1：数据获取：建立数据源，根据用户给定的描述，从数据源中获取原始的图片数据，并对图片数据进行预处理，得到目标图片数据；

步骤2：数据筛选：构建弱监督的目标检测数据集，采用KMeans划分聚类算法，对得到的目标图片数据进行筛选，对于给定的N个样本的目标检测数据集，给定聚类簇的个数K，K<N，初始化K个中心点，在每一轮迭代中计算数据集中所有的样本到中心点的距离，将每个样本分配到距离最近的中心点的簇中，然后更新每个簇中心点位置，重复上述步骤，直到输入的含有噪声目标图片输出为纯净的目标图片子集为止；

步骤3：目标检测：使用数据筛选部分构建好的目标检测数据集，通过弱监督的方式进行目标检测的训练并返回训练好的目标检测模型，作为整个系统的输出。

进一步的，所述步骤1中以网页图片作为原始数据构建数据源，所述网页图片在搜索引擎或图片分享网站中使用网络爬虫技术获取。

进一步的，所述步骤1中图片数据预处理，包括图片格式转换、图片去重和图片统一编号，

所述图片格式转换是将数据源中获取的各种格式的原始的图片数据统一转换为同一格式；

所述图片去重是使用MD5加密的方式对图片数据进行加密，并通过对图片数据的密文进行去重的方式对类似目标图片去重，获取目标图片数据；

所述图片统一编号是在图片数据进行有序的添加类别前缀和数字编号实现。

进一步的，所述步骤2中由于搜索引擎自带的相关度算法，在搜索结果靠前的图片数据与用户给定的描述相关性高，且包含的噪声比例比图片分享网站中的图片数据低，因此，引入搜索引擎的图片对数据筛选部分的聚类方法进行改进，包括以下步骤：

步骤4.1：对于用户给定的描述，除了在图片分享网站获取图片，同时在各大搜索引擎上面搜索同样描述，并获取排在搜索结果靠前的图片；

步骤4.2：将搜索引擎的图片以及图片分享网站的图片经过相同的卷积神经网络进行特征提取，并计算它们特征之间的距离；

步骤4.3：根据计算得到的距离，结合聚类的结果，得到每张图片的用于筛选的得分。

进一步的，所述步骤2中为增强数据筛选中图片与给定描述的相关性，引入聚类簇的纯净程度，而聚类簇内部的纯净程度使用聚类簇内部样本之间的相似度来衡量，即一个聚类簇内部的样本之间相似程度越高，则这个聚类簇相对越纯，包括以下步骤：

步骤5.1：对于用户给定的描述，对获取到的图片分享网站的图片使用聚类方法进行处理；

步骤5.2：计算各个聚类簇内的相似度，衡量其聚类簇内的图片的纯净程度；

步骤5.3：根据相似度的结果，计算得到一张图片最终的用于筛选的得分。

进一步的，所述步骤2中数据筛选算法如公式（1）-（6）所示，

（1）

（2）

（3）

（4）

（5）

（6）

式中，CNN表示卷积神经网络，用于处理图片并获取其图像特征，concatenate函数表示将复数向量拼接在一起，Num函数表示求一个样本所在聚类簇的大小，原始图片

，（

,2,3,...n），调节系数

，各图片得分

，（

,2,3,...n），

表示基于搜索引擎的图片得分，其中

表示图片分享网站的第

个样本的特征，

表示第

个搜索引擎所有图片样本的特征，meanDis表示求一个样本和多个样本距离的平均，

表示搜索引擎的个数，

表示基于图片多样性的得分，mean表示求平均，各式距离求得之后需要进行归一化。

进一步的，所述步骤4中目标检测模型是基于弱监督深度检测网络构建。

本发明的有益效果：

本发明能够输入任意给定的目标物体描述，自动化地返回所描述物体的目标检测模型；本发明能够从开放的环境中获得数据，并自动化地构建相应的目标检测数据集，训练并返回相应的目标检测模型，用于用户的部署和推断；本发明满足大多数潜在的应用需求，在整个系统运行的过程中，不需要人做额外的数据集标注。

附图说明

图1是本发明的方法流程图，

图2是本发明的图片分类与目标检测的对比图，

图3是本发明的监督的目标检测流程图，

图4是本发明的网页搜索汽车返回的图，

图5是本发明的目标检测部分WSDDN的基本框架图，

图6是本发明的目标检测部分WSDDN的网络结构图，

图7是本发明的图片分享网站Flickr搜索汽车返回的图片筛选前后对比图，

图8是本发明的开放场景下类别的目标检测可视化结果图。

具体实施方式

现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图，仅以示意方式说明本发明的基本结构，因此其仅显示与本发明有关的构成。

随着计算机技术的发展和普及，目标检测的各种应用正逐渐走进人们的生活，无论是身份认证需要用到的人脸识别系统，还是正在普及的智能驾驶系统，都使用到了目标检测技术。图2展示了目标检测与图片分类任务的区别，目标检测（Object Detection）是计算机视觉下的重要任务，该任务负责回答数字图像中的目标物体在哪里以及是什么的问题。监督的目标检测基本工作流程如图3所示，步骤包括：1）准备数据集：通常目标检测的数据集由三部分组成，它们是图片（Images），标注（Annotations），图片集合（Image Sets），分别表示原始图片文件，表述边框（bounding box，Bbox）的标注文件，以及数据集元信息的汇总（如数据集中的图片类别有哪些，数据集是如何划分的）；2）准备目标检测模型（通常是深度学习模型）；3）模型的训练：将准备好的数据集作为输入，传递给目标检测模型，根据模型输出的结果，对比数据集中的真实值，更新模型的参数直到收敛；4）进行预测：训练完成后将已训练的模型部署并在必要时进行推断。以超市的自助果蔬计价系统为例，该系统用于帮助购买果蔬的消费者给所购买的果蔬按重量打上价格标签，在训练时，超市需要构筑相应的水果和蔬菜的目标检测数据集，用于目标检测模型的训练，之后将训练好的模型部署。在推断时，消费者需要将购买的果蔬放在秤台上，系统会检测并返回多个可能的蔬菜水果类别，如果存在所购买的类别，消费者可以选择该类别并打上价格标签。

如图1所示，本发明的一种开放场景下基于给定描述的全自动目标检测方法。首先，数据获取。数据获取部分负责整个框架的原始数据的获得，本发明基于开放场景的设定，选择了网页图片作为数据源。公共的能够进行下载的图片网站又可细分为两类：1）搜索引擎，例如谷歌、百度、必应等搜索引擎，都提供了专门的图片搜索功能，输入给定的描述，能够按描述的相关度返回图片；2）图片分享网站，例如Flickr，这类图片分享网站往往带有社交平台的功能，它们鼓励并支持平台的使用者上传并分享他们生活中的照片。事实上，如图4所示的，来自搜索引擎的图片分布和来自图片分享网站的图片分布存在着明显的差异，搜索引擎中出现的图片，往往是所描述的关键词的单个物体的特写，并且图片的背景常常是单一的底色，而图片分享网站得到的图片由于是日常生活中拍摄得到的图片，图片中的物体可能不再单一，图片的背景也可能不再是单一的底色。另一个区别是，搜索引擎自带的相关度排序功能，使得搜索一个关键词的图片时，排在前面的图片对于所描述的关键词，大多是符合预期的，而图片分享网站返回的结果，并不存在这一功能特性，这也导致了其中的噪声所占的比例相较于搜索引擎的结果更高。同时，搜索引擎虽然搜索同样的关键词，但返回的图片却存在明显的偏好，偏好的原因可能来自不同搜索引擎的抓取网页信息能力的差异，相关性的排序算法的差异等，这些都会导致搜索引擎对应的内容服务器和索引服务器上保存的信息不同，进而导致搜索的结果存在差异。但不同的搜索引擎在输入给定描述的关键词之后，返回的排在靠前的搜索结果又都大多是符合描述的，这些图片在语义抽象层面上存在相似性。基于以上的分析，结合开放场景的设定，本发明更加关心的是开放的场景，故会选用来自图片分享网站的图片作为原始数据。选用来自图片分享网站的图片会存在的问题是，图片会含有一定比例的噪声，事实上，经过实验的验证这些噪声会对下游目标检测的效果产生严重的影响，而来自搜索引擎的图片，噪声的比例的相对较低，虽然在图像上存在各自的偏好，但在语义层面上它们大多是符合给定的描述的，尤其是对于排在搜索结果靠前的图片，故本发明考虑获得一部分的搜索引擎图片辅助后续的图片筛选操作。本发明所使用的数据获取的具体方法源于经典的网络爬虫技术与图片预处理技术。

网络爬虫能够根据给定的描述，得到本发明原始的网页图片，在上述的过程中，由于网页的开放性和复杂性，可能会遇见诸多的问题，故在图片集送入下游任务之前，还需要对图片集进行预处理。首先，图片网络爬虫的过程中，某些图片可能会下载失败，这通常是由于原始图片网站不可达造成的，本发明的做法是舍弃这些图片，删除它们的索引。即使图片下载成功了，这些图片可能还是不符合要求，需要进行统一的处理。对于图片格式不符合要求的图片，例如本发明统一使用的是JPEG图片格式，如果遇见PNG等其它类型的图片格式，需要将其转换成JPEG图片格式；由于不同的搜索引擎以及图片分享网站，其图片的来源可能有重合的部分，这会导致下载的过程中重复下载完全相同的图片，而构建深度学习的数据集时，通常是不应该出现完全相同的样本的，故需要对图片进行去重，本发明的处理办法是使用MD5加密的方式对图片进行加密，然后对密文进行去重，从而对图片进行去重；最后，为了方便下游任务的进行，本发明需要对所有的图片进行统一的编号及命名，这可以通过添加类别前缀以及数字编号的方式实现。

其次，数据筛选。数据筛选部分主要完成对得到的原始数据进行筛选除杂的过程。通过网页搜索得到的图片，特别是本发明重点关注的图片分享网站得到的图片，由于来自平台使用者自主上传的缘故，会存在一定比例的噪声。符合预期的图片应该是包含给定描述实例的图片，并且实例占有整个图片的比例不应过小，而噪声图片不符合上述要求，数据筛选的目的就是为了去除或削弱这些噪声图片对下游的目标检测任务的影响。由于预先并不知道每一张图片的真实标注（指是否含有给定描述的目标），所以该任务只能在无监督的场景下进行，本发明选择使用无监督聚类的方法进行数据的筛选。数据筛选部分的输入是含有噪声的原始图片，输出是相对纯净的原始图片的子集，此过程应尽可能的剔除掉与给定描述无关的图片。在网页上搜索一个给定的描述，返回的图片虽然可能含有噪声，但包含给定描述的图片至少应该占多数，基于这一点，一张图片在聚类完成之后，其所处在簇的大小应该作为筛选的考量指标。本发明采用了常用的划分聚类算法——KMeans算法，对数据获取部分得到的图片进行筛选。对于给定的N个样本的数据集，给定聚类（簇）的个数K（K<N），KMeans算法首先初始化K个中心点，在每一轮迭代中计算数据集中所有的样本到中心点的距离，将每个样本分配到距离最近的中心点的簇中，然后更新每个簇中心点位置，重复上述步骤直到达到终止条件为止。

从开放性的角度考虑，本发明更加关注的是图片分享网站提供的图片，它们更加贴近真实场景。虽然搜索引擎图片和图片分享网站的图片分布不同，但搜索引擎返回的图片，由于搜索引擎自带的相关度算法，处在搜索结果靠前的部分的图片，它们与搜索的描述相关性高，并且相对于图片分享网站的图片，其中包含的噪声比例也更低。由此，可以使用搜索引擎的图片作为指引，优化数据筛选的过程。引入搜索引擎的图片对数据筛选部分的聚类方法进行改进的具体做法如下：1）对于给定的描述，除了在图片分享网站获取图片，在各大搜索引擎上面搜索同样描述，并获取排在搜索结果靠前的图片；2）将搜索引擎的图片以及图片分享网站的图片经过相同的卷积神经网络进行特征提取，并计算它们特征之间的距离；3）根据计算得到的距离，结合聚类的结果，得到每张图片的用于筛选的得分。同时，搜索一个给定描述的目标，噪声相对于所描述的物体更具有随机性，它们在聚类的过程中，更倾向于混入不同的聚类簇中，而符合给定描述的物体，则会优先聚集起来，因为它们存在语义上的近似关系。由此，本发明考虑引入聚类簇的纯净程度来增强数据筛选中图片与给定描述的相关性，而簇内部的纯净程度可以使用簇内部样本之间的相似度来衡量，即一个簇内部的样本之间相似程度越高，则这个簇相对越纯，反之若一个簇内部的样本之间相似程度越低，则说明这个簇相对越杂。具体的做法如下：1）对于给定的描述，对获取到的图片分享网站的图片使用聚类方法进行处理；2）计算各个簇内的相似度，衡量其簇内的图片的纯净程度；3）根据相似度的结果，计算得到一张图片最终的用于筛选的得分。综上，本发明的数据筛选的算法如公式（1）至（6）所示，

（1）

（2）

（3）

（4）

（5）

（6）

，（

,2,3,...n），调节系数

，各图片得分

，（

,2,3,...n），

表示基于搜索引擎的图片得分，其中

表示图片分享网站的第i个样本的特征，

表示第k个搜索引擎所有图片样本的特征，meanDis表示求一个样本和多个样本距离的平均，

表示搜索引擎的个数，

最后，目标检测。目标检测部分，基于开放场景以及自动化的设定，额外的人工标注无法被引入，故本发明选择不需要实例粒度标签的目标检测模型，即弱监督的目标检测模型。本发明选择使用的弱监督目标检测模型是现有文献中的弱监督深度检测网络（Weakly Supervised Deep Detection Networks，WSDDN）。WSDDN的基本框架如图5所示，使用ImageNet预训练好的CNN，通过经典的候选区域生成方式（例如选择性搜索窗口Selective Search Windows，SSW）生成候选区域，候选区域在图片特征上对应得到特征区域，然后通过空间金字塔池化层将生成的区域的特征进行维度的降低和统一，再将特征传入识别和检测两个分支，将两个分支的结果进行合并得到图片得分，这个得分综合了图片各候选区域包含各类别的概率。图6是 WSDDN的网络结构图，整个过程输入目标图片的数据集，使用VGG16卷积神经网络骨架生成整张图片的特征，通过 SSW 的方法生成备选区域，使用空间金字塔池化层对备选区域进行适应性池化，得到备选区域的特征，再经过分类分支与检测分支的处理，其中，分类分支负责识别这些候选区域中特征对应的目标的类别，检测分支从候选区域的维度得到某一类别最可能出现在哪一个区域，最后将两个分支的结果进行整合，得到整个网络的输出，即各候选区域包含各类别的概率，将该输出对比图片类别的监督信号，即可进行WSDDN的训练，将训练完成后的模型返回，即作为本系统的输出。

实施例1

本实施例设置了六组实验来验证本发明的可行性与有效性，结果如表1所示。

表1

其中，原始数据中的VOC2007是目标检测常用的公共数据集，SEimage指搜索引擎的图片，除杂方式中的manual表示人工筛选除杂，SE表示本发明数据筛选部分基于搜索引擎的图片聚类增强，DE表示本发明数据筛选部分基于图片多样性的聚类增强，测试的类别是汽车，瓶子，人，测试集来自VOC2007，mAP表示平均准确率的按类平均。从汽车，瓶子，人三类的平均结果看，相较于使用VOC2007训练的WSDDN，使用网页数据，并使用基于搜索引擎的图片对数据筛选部分进行增强，可以得到0.2%mAP的微弱提升，而使用基于图片多样性的方法可以得到2.1%mAP的较大提升，综合使用的情况下，能够得到3.0%mAP的提升。特别地，为了进一步验证本发明数据筛选部分的有效性，本实施例对数据筛选的前后结果进行了可视化，随机选取了汽车在使用本发明的筛选方法前后的正负例各8张进行了对比，结果如图7所示，其中真实值来自数据筛选之前人工标注的结果，筛选后表示使用本发明的数据筛选方法之后的结果，对于图7而言，汽车是正例，汽车以外的是负例。可以观察到，真实值的正例汽车的样式多样，有各种颜色及款型，拍摄角度多样，有正面、侧面、背面等，背景多样，有雪地及城市等，拍摄距离多样，有近景拍摄及远景拍摄，这些都是Flickr这样的图片分享网站贴近真实生活的体现。而Flickr在搜索汽车时除了返回符合描述的汽车的图片，还会返回和它相关的一些概念的图片，这些概念涵盖的种类也十分丰富，例如火车，电车，轮胎，汽车清洁用品，汽车工具箱等，这些图片都属于真实值的负例，在Flickr上搜索汽车会返回这些噪声图片；同时，对于目标检测而言，例如汽车的内部，或是不完整的汽车（只拍摄到其中的一小部分或局部）也属于负例；在经过本发明的数据筛选方法处理之后，得到的正例中，绝大多数的样本是真正例，即被划分为汽车的图片里绝大多数都属于汽车，并且各式各样的汽车本发明一定程度都能够筛选出来，例如普通轿车，面包车，跑车，敞篷车等；负例方面，大多数的负例是真负例，如汽车清洁剂，火车，电车，汽车内部等概念可以被成功地筛选出来，但也出现了少数的误判，一些本身是汽车的图片被划分成了噪声。

实施例2

本实施例以医用口罩（medical mask）和交通信号灯（traffic light）为例。首先，用户输入给定的描述，即medical mask和traffic light，然后，本发明的全自动目标检测系统会自动地从搜索引擎以及图片分享网站爬取给定描述的图片。本发明的全自动目标检测系统会自动地对上述的图片进行诸如去重之类的预处理操作；本发明的全自动目标检测系统会自动地运用技术方案中提到的基于无监督聚类的数据筛选方法对图片进行筛选；本发明的全自动目标检测系统会自动地利用筛选后的图片构建目标检测数据集，并使用弱监督的方式训练并返回一个WSDDN模型作为系统的输出。技术人员将上述返回的模型进行部署，即可在需要的场合进行推断。本实施例对推断的效果进行了可视化展示，其可视化结果如图8所示，本实施例选取了部分在训练时未出现的图片，使用训练好的模型进行推断，其中label后出现的数字表示置信度。从检测的可视化结果看，虽然本发明受限于弱监督目标检测的性能限制，不能非常精确地将目标物体按照其边缘在图片中的位置切取出来，但目标物体的大致的位置是能够通过本发明的目标检测模型得到的。交通信号灯以及医用口罩都是人们生产生活息息相关的目标物体，本实施例实现了对这样任意的满足用户潜在需求的目标物体的自动化的目标检测。

以上述依据本发明的理想实施例为启示，通过上述的说明内容，相关工作人员完全可以在不偏离本项发明技术思想的范围内，进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容，必须要根据权利要求范围来确定其技术性范围。

Claims

1.开放场景下基于给定描述的全自动目标检测系统，其特征在于：包括数据准备模块、数据筛选模块和目标检测模块，所述数据准备模块的输入端连接有输入器，所述数据准备模块的输出端与数据筛选模块的输入端连接，所述数据筛选模块的输出端与目标检测模块的输入端连接，所述目标检测模块的输出端连接有显示器，所述数据准备模块基于输入器给定描述的关键词，在网页上通过网络爬虫技术爬取与关键词相关的图片并进行预处理，构建图片数据集，所述数据筛选模块通过内部数据筛选算法对图片进行数据筛选；所述目标检测模块使用弱监督的目标检测方法，结合图片数据集，训练获取给定描述目标的目标检测模型。

2.根据权利要求1所述的开放场景下基于给定描述的全自动目标检测系统，其特征在于：所述数据筛选模块在数据筛选时结合基于搜索引擎图片和基于图片多样性的两种聚类增强方法进行数据筛选。

3.开放场景下基于给定描述的全自动目标检测方法，其特征在于，包括以下步骤：

4.根据权利要求3所述的开放场景下基于给定描述的全自动目标检测方法，其特征在于：所述步骤1中以网页图片作为原始数据构建数据源，所述网页图片在搜索引擎或图片分享网站中使用网络爬虫技术获取。

5.根据权利要求3所述的开放场景下基于给定描述的全自动目标检测方法，其特征在于：所述步骤1中图片数据预处理，包括图片格式转换、图片去重和图片统一编号，

6.根据权利要求3所述的开放场景下基于给定描述的全自动目标检测方法，其特征在于：所述步骤2中由于搜索引擎自带的相关度算法，在搜索结果靠前的图片数据与用户给定的描述相关性高，且包含的噪声比例比图片分享网站中的图片数据低，因此，引入搜索引擎的图片对数据筛选部分的聚类方法进行改进，包括以下步骤：

7.根据权利要求6所述的开放场景下基于给定描述的全自动目标检测方法，其特征在于：所述步骤2中为增强数据筛选中图片与给定描述的相关性，引入聚类簇的纯净程度，而聚类簇内部的纯净程度使用聚类簇内部样本之间的相似度来衡量，即一个聚类簇内部的样本之间相似程度越高，则这个聚类簇相对越纯，包括以下步骤：

8.根据权利要求7所述的开放场景下基于给定描述的全自动目标检测方法，其特征在于：所述步骤2中数据筛选算法如公式（1）-（6）所示，