CN110717534A

CN110717534A - 一种基于网络监督的目标分类和定位方法

Info

Publication number: CN110717534A
Application number: CN201910941413.2A
Authority: CN
Inventors: 叶齐祥; 付梦莹; 万方; 韩振军; 焦建彬
Original assignee: University of Chinese Academy of Sciences
Current assignee: University of Chinese Academy of Sciences
Priority date: 2019-09-30
Filing date: 2019-09-30
Publication date: 2020-01-21
Anticipated expiration: 2039-09-30
Also published as: CN110717534B

Abstract

本发明提供了一种基于网络监督的目标分类和定位方法，包括以下步骤：根据待测目标的类别自动从搜索引擎获取大量网络图像数据；过滤去除噪声图像，形成训练样本集；初步构建分类和定位网络；将训练样本集中的样本输入到初步构建的分类和定位网络中进行特征提取，将特征分类，并得到目标物体的位置信息，实施对分类和定位网络的训练。本发明中该端到端的基于网络监督的精细分类与定位方法，利用海量易获取的网络图像作为训练集，完全去除人工标注，仅使用图像级别标签，设计一个高效的卷积网络，融入全局平均池化和类激活映射图等算法，使得本发明在精细分类任务及定位任务上性能超越弱监督学习方法。

Description

一种基于网络监督的目标分类和定位方法

技术领域

本发明涉及计算机视觉和图像处理领域，尤其涉及一种可用于智能化自动识别等方向的基于网络监督的目标分类及定位方法，该方法可以广泛应用于手机拍照自动识别领域。

背景技术

全监督和弱监督学习下的目标定位及检测任务在近几年内发展迅速，最先进的性能在被不断刷新，如何进一步提高性能呢？显然，设计更深层的网络或使用更多的训练数据是研究者们探索的两个方向。事实上，设计更深层的网络势必要扩充数据，因此，如何向网络提供更多的数据是有待研究的关键问题。

凭借大量的在线视觉数据，网络和社交媒体成为了视觉研究的最重要的数据来源。目前有一些解决视觉任务的数据集如：ImageNet、PASCAL VOC、MS COCO等等，它们从Google或Flickr网络下载大量的图像，利用昂贵的人力，人为剔除网络图像中的噪声图像，并对图像中目标物体的位置进行标注。这些人工标注确实在相关视觉任务中表现良好。

但是，人工标注有两个很大的弊端，其一是人工标注成本非常昂贵且耗时，对于一些需要大型数据集的任务，由于资金限制，良好且适合的人工标注数据集往往很难获得；其二是人工标注的数据集带有很多的主观因素，不同人对于一些比较模糊的概念的理解可能带有不同的偏见，标注结果很可能会因人而异，导致整个数据集的划分标准不统一或不完整。

因此，一种更高效、廉价的数据集获取渠道——网络监督在近几年发展迅速，吸引了一批工作者。网络监督学习利用从网络上爬取的免费图像进行视觉特征学习，完成目标分类或检测任务。

目前网络监督研究工作倾向于解决噪声图像标签和域名转移问题。例如NEIL使用半监督学习算法，依靠多实例学习(MIL)来减少网络图像中的噪声图像，企图建立一个永无止境的学习器，自动从网络数据中提取视觉知识，尝试使用最少的人为干预构建世界上最大的视觉结构知识库。LEAA介绍了一种全自动的方法，用于学习任何概念中各种变化的广泛模型(例如操作、交互、属性等)。该方法利用了大量的在线图书资源来发现词汇的差异，并将数据收集和建模步骤交织在一起，以减少在培训模型时需要明确的人工监督。Chen等人提出了一种两阶段网络监督方法,首先通过谷歌浏览器下载简单图像训练CNN网络，得到初始化视觉特征，该网络用来找到简单图像中的相似性关系，利用关系图在更真实的Flickr图像上训练，微调初始网络。

上述网络监督学习方法或多或少都加入了人为干预或辅助标记，并且性能上仍然无法与弱监督学习匹敌。因此，网络监督学习方法仍存在诸多问题，有很大的进步空间。

发明内容

为了克服上述问题，本发明人进行了锐意研究，针对网络监督中存在的问题，提出了一种全新的基于网络监督的精细分类与定位任务的方法，完全去除人为干预，利用海量易获取的网络图像，通过重复使用图像数据让嘈杂的网络图像数据集内部相互验证达到过滤的效果，最终得到干净的网络图像训练集，减轻了噪声图像数据对分类定位性能的影响；仅使用图像级别标签，减轻了人为标注的压力；设计了一个高效的卷积网络，融入全局平均池化和类激活映射图等算法，使其同时在精细分类任务及定位任务性能上超越弱监督学习，从而完成本发明。

本发明的目的在于提供以下技术方案：

本发明的目的在于提供一种基于网络监督的目标分类和定位方法，该方法包括训练分类和定位网络用以进行目标分类和定位的过程，分类和定位网络的训练过程包括以下步骤：

步骤1)，根据待测目标的类别自动从搜索引擎获取大量网络图像数据；

步骤2)，过滤去除噪声图像，形成训练样本集；

步骤3)，初步构建分类和定位网络；

步骤4)，将训练样本集中的样本输入到初步构建的分类和定位网络中进行特征提取，将特征分类，并得到目标物体的位置信息，实施对分类和定位网络的训练。

优选地，步骤3)中，分类和定位网络的构建可以通过以下方式实施：

将卷积神经网络最后一层卷积层后的池化层和所有的全连接层删除，在最后一层卷积层后增加一个通道数为其通道数2倍的卷积层，其后连接全局平均池化层和一个softmax回归层，得到用于分类和定位的网络。

或者，该分类和定位网络的构建可以通过以下方式实施：

将卷积神经网络最后一层卷积层后的池化层和所有的全连接层删除，在最后一层卷积层后增加一个通道数为预测类别总数C的卷积层，其后连接全局平均池化层和一个softmax回归层，得到用于分类和定位的网络；

其中，预测类别总数C为训练样本集中图像类别总数。

根据本发明提供的一种基于网络监督的目标分类和定位方法，具有包括以下的有益效果：

(1)本发明中方法基于网络监督学习，只需要与目标类别相关的弱标注数据(即只有图像级别标签，不需要对图像中的目标的位置信息)进行训练，完全去除了人为标注，可行性和实用性大大提高；

(2)针对网络图像中噪声图像的影响，设计了图像过滤器，通过重复使用图像数据让嘈杂的网络图像数据集内部相互验证达到过滤的效果，最终得到干净的网络图像数据集，使得精细分类性能进一步提高；

(3)本发明中方法利用卷积层具有良好的定位性能的特点，放弃使用全连接层，而是使用全局平均池化层作为特征图和分类结果之间的连接，不仅减少了参数，避免了网络过拟合，还能够一直保持网络的定位能力。

附图说明

图1示出本发明中基于网络监督的目标分类和定位方法的流程示意图；

图2示出爬取的网络图片的保存方式示意图；

图3示出过滤器中训练样本集分配规则；

图4示出用于确定滤除噪声图像时，用于确定C_max值的小提琴图；

图5示出方案一中分类和定位网络的结构；

图6示出方案二中分类和定位网络的结构；

图7示出分类和定位网络输出结果示例；

图8示出CUB_200_2011数据集中图像示例(Black_footed_Albatross、Laysan_Albatross、Least_Auklet、和Parakeet_Auklet)。

具体实施方式

下面通过附图对本发明进一步详细说明。通过这些说明，本发明的特点和优点将变得更为清楚明确。

如图1所示，本发明提供了一种基于网络监督的目标分类和定位方法，该方法包括训练分类和定位网络用以进行目标分类和定位的过程，分类和定位网络的训练过程包括以下步骤：

步骤2)，过滤去除噪声图像，形成训练样本集；

步骤3)，初步构建分类和定位网络；

本发明步骤1)中，根据待测目标类别自动从搜索引擎获取大量网络图像数据。待测目标类别可以不止一种，且优选从搜索引擎获取的大量网络图像数据包括待测目标类别的图像，但不限于仅仅包括待测目标类别的图像。

本发明中，本发明中待测目标的类别可以达到精细类别的程度，例如属于同一父类别的子类别，例如鸟类下所有品种的鸟，或者犬类下所有品种的犬。精细类别的识别存在很大难度，以鸟类为例，世界上共有14000种鸟类，不同鸟类之间的区别细微，因此标注数据集的人需要有很丰富的专业知识；并且，14000种鸟类的数量非常庞大，人工标注一个完整的数据集是不现实的。

为此，本发明人以图像类别名称作为关键词在选取的网站中爬取所有网络图片作为训练使用的数据集。

在一种优选的实施方式中，为了得到优质的训练集，需选择合适的搜索引擎，使得其中图像满足以下要求：图像数量充足并且质量较高，噪声图像所占比例较小。搜索引擎可以选择百度、Yahoo、必应、谷歌等等，对于某一特定关键词搜索得到的图片结果，百度图片虽然数量充足，但质量不高，噪声图片占所有图片的四分之一左右，这对模型的训练有很大的负面影响；谷歌网络虽然图片质量很高，但是在国内无法连接，对之后系统的应用有所限制，因此谷歌图片也不适合；必应图片既可以方便的连接，图片的质量也很好，噪声图片占所有图片十分之一左右，相对较为干净。因此，优选选择从必应搜索引擎上爬取网络图片作为训练样本集。

本发明中，通过设计爬虫软件，根据待测目标类别的提示，自动爬取所有关于关键词的可用图像，并根据每张图像的类别名称保存在相应文件夹下。其中，关键词是指在搜索引擎中输入的图像类别的名称。

本发明中，使用爬虫软件Selenium中的driver.find_elements_by_class_name()函数可以找到网页上所有需要下载的图片。使用Selenium工具，让程序自动按照指令操作网页界面，但由于该工具本身并不具有网页界面，因此本项目使用PhantomJS工具与其配合，共同完成高效大量准确爬取图像的任务。PhantomJS工具将待爬取的网页内容复制到本地内存中，不存储网页中的图形等显示界面，再自动爬取相应图像。

例如，爬虫指令具体形式可以为：“python3image_downloader.py–output103.Sayornis Sayornis”。操作者只需在终端输入爬虫程序路径和想要爬取图片的类别关键词和图片想要保存到的文件夹名称，即可自动快速下载对应关键词的全部必应图片。下载的网络图片的保存方式如图2所示。

作为一种优选的实施方式，从搜索引擎上爬取的网络图片生成一个包含其所有图片路径的列表文本文件，格式为：文件夹名称+‘/’+图片名称+‘’+类别序号+‘\n’。这个列表文本文件用来作为输入数据的索引。

本发明步骤2)，过滤去除噪声图像，形成训练样本集。

本发明中对噪声图像的定义如下：若网络图像中不包含关键词目标，或虽然有目标类别存在，但是目标所处环境很复杂，目标过小不易分辨，则均定义为噪声图像。

本发明中，基于卷积神经网络设计过滤器，对下载的图像集处理，得到较为干净的训练样本集。具体的，步骤2)可以通过以下子步骤实现：

步骤2.1)，将训练样本集对应的列表文本文件中的所有图像列表分成N份，形成的N份图像列表之间互斥且其中均包括各类别列表中的数据；

步骤2.2)，在N份图像列表中依次选择不同的N-1份组合成一个训练集的图像索引，剩下的那一份作为测试集的图像索引，可以形成N组训练集的图像索引和对应的测试集的图像索引；

步骤2.3)，将步骤2.2)中每组训练集在卷积神经网络上训练，再输入测试集，删除测试集中分类测试结果中置信度小于阈值的图像，从而得到干净的训练样本集。

在步骤2.1)中，形成的N份图像列表之间互斥是指形成的各份图像列表中不含有相同的图像数据。

在步骤2.1)中，采用分层抽样的方法，将训练样本集对应的列表文本文件中的所有图像列表分成N份。其中，分层抽样方法是指：将每个类别的图像列表均分为N份，从各类图像列表中抽取一份进行组合，抽取N次，得到N组含有各类别图像列表的组合。分层抽样的方法，能够实现训练样本集中图像的均匀分配，保证后续步骤2.2)中各训练集和测试集中各类别样本的分布与最初的未经分组的训练样本集一致。

步骤2.2)中训练样本集的分配方式可以通过图3清楚的示出。如图3所示，将训练样本集对应的所有图像列表均分成10份，在10份图像列表中分别选择其中的九份组合成一个训练集的图像索引，剩下的那一份作为测试集的图像索引，形成10组训练集的图像索引和对应的测试集的图像索引。

在步骤2.3)中，该卷积神经网络与步骤3)或步骤4)中用于分类和定位的网络类型一致，可以选用VGG16网络、GoogLeNet或ResNet。

利用训练集训练完模型后，输入测试集图片，每张测试图片在通过全连接层后会产生一个n维的特征向量

n值取值为目标类别总数。向量中的每个值b₁,b₂,…,b_n分别代表了测试图片被分类为某个类别的得分情况，将特征向量

送入归一化指数函数中，便可得到图片被分类为某个类别的概率大小

选择向量

中的最大值c_max，其对应的类别名称即为卷及神经网络对这张测试图片分类的预测值，c_max的值代表测试图片被评估为对应类别的概率，也可以理解为可信度。

对于测试集中不属于训练集类别中的任何一类的噪声图像，它被评估为任何一个类别的概率或可信度都很低，因此在训练结束后，删除分类测试结果中可信度c_max小于阈值的图像，从而得到干净的训练样本集。

阈值的选取是自适应的，根据不同的数据集有不同的阈值。本发明中，统计每组测试中测试图像的分类得分分布情况，取少数得分极低的图像分数的上限作为划分噪声图像的阈值。这种方案即保证可以删除极端的噪声图像，又能使数据集尽可能的保留更多的图像数据，减少误删率。例如，可以采用Seaborn工具绘制每轮测试中所有测试图片c_max值的小提琴图，小提琴图结合了箱型图和核密度估计图的特点，拥有相同c_max的同一种类的测试图片越多，琴型图的宽度越大，每个琴型图中间的一个点即代表一张测试图片。这张图可以直观的反应测试图片c_max的分布情况。如图4示出一张小提琴图，横坐标为目标类别编号、纵坐标为c_max值大小。除了个别种类对应的c_max值偏低外，大部分测试图片的c_max值集中在0.50以上。因此，过滤器将c_max的阈值设为0.50，去除可信度低于0.50的图片，得到最终较为干净的网络图片训练样本集。

作为一种优选的实施方式，在步骤2.3)中，由于网络下载的图片大小各异，在输入卷积神经网络前，对所有图片进行预处理，该预处理包括重置图像分辨率和归一化处理，其中，重置图像分辨率是将所有样本图像分辨率调整为相同像素大小，对于输入VGG16网络的图像，将所有图像的分辨率调整为256*256像素大小，再裁剪为224*224像素大小。

在本发明步骤3)中，初步构建分类和定位网络。

卷积神经网络不但可以用于目标分类，其中的卷积层是一个很好的目标定位器，卷积层本身在提取特征时就带有能够定位物体的能力，能够保持物体的空间信息，特征图中激活值较大的区域往往是目标物体所在区域。例如，一只喜鹊，在原输入图像中的位置是左上角，卷积之后的特征图中同样是左上角的激活值比较大；将喜鹊移动到右下角，那么卷积层之后的特征图的较大激活值也会相应的移到右下角。

以往用于分类的卷积神经网络如VGG网络往往在卷积层的最后加几层全连接层，把网络中每一层卷积层输出的特征值通过权值矩阵计算加权平均数中的每个数的频数形成一个完整的特征图，实现分类功能。但是，全连接层是将卷积层产生的特征图中所有位置信息组合后输出，与目标物体所处位置无关，例如上例中，无论喜鹊在图片中的任何位置，全连接层的输出都是一样的，因此卷积层良好的定位能力在使用全连接层中丢失了。为此，本发明放弃使用全连接层，使用全局平均池化层作为特征图和分类结果之间的连接，全局平均池化层的作用不仅是对整个网络结构做正则化减少参数，避免网络过拟合，还能够一直保持网络的定位能力。

具体地，分类和定位网络的构建包括以下两个方案：

方案一：将卷积神经网络最后一层卷积层后的池化层和所有的全连接层删除，在最后一层卷积层后增加一个通道数为其通道数2倍的卷积层，其后连接全局平均池化层(GAP)和一个softmax回归层，得到用于分类和定位的网络。

该方案的网络结构如图5所示，在正向传播过程中，卷积神经网络中的卷积滤波器作为对象检测器，在反向传播过程中，特征映射被激活生成类激活映射，从而识别特定对象类的区别性区域。

分类和定位的过程具体为：在最后一个卷积层后加一层全局平均池化层，并将得到的结果送入全连接softmax回归层，最终全局平均池化层输出的是最后一层卷积层每个通道的特征图的空间平均值，将其加权和就可以得到网络的分类结果；最后一层卷积层得到的每个通道的特征图加权和就是类激活映射图，即网络的定位结果。

假设将最后一层卷积层得到的所有特征映射图表示为

其中U*U表示空间大小，K表示通道数。特征图F中通道k在某一空间位置(x,y)的值是f_k(x,y)。通道k通过全局平均池化层后的值为P_k，则

P_k＝∑_(x,y)f_k(x,y) 式(1-1)

用符号C表示所有的目标类别，某通道k的特征图在类别c上的权重用

表示，它的大小代表了P_k对于分辨目标物体是否为类别c的重要程度。对于某一特定的类别c，将输入softmax回归的值用符号I_c表示，则

将softmax回归的输出值用符号O_c表示，则

O_c即为网络的分类结果。在这里所有公式都忽略了偏差值b，因为b对于回归分类结果不会产生影响，因此将所有softmax回归中的偏差b设为0。

对于定位任务，用权重与分类网络中的特征图的乘积来产生类激活映射图，从而定位目标的区别性区域。用符号M_c表示类别c对应的类激活映射图，则M_c中每个空间坐标(x,y)的值可以表示为：

同时可以将I_c的表达式简化为：

I_c＝∑_x,yM_c(x,y) 式(1-5)

M_c(x,y)直接表示了空间坐标为(x,y)的点对于图片分类为类别c的重要性。而类激活映射图就是不同空间位置视觉区域的加权和，将类激活映射图的大小上采样到输入图片的大小即可清晰的在图片上显示最具区别性的区域。

方案二：将卷积神经网络最后一层卷积层后的池化层和所有的全连接层删除，在最后一层卷积层后增加一个通道数为预测类别总数C的卷积层(优选该卷积层的内核大小为1*1，跨步大小为1)，其后连接全局平均池化层和一个softmax回归层，得到用于分类和定位的网络。其中，预测类别总数C为训练样本集中图像类别总数。

方案一中利用全局平均池化层和类激活映射图可以很好的完成目标分类与定位任务，然而产生类激活映射图需要在正向传播后额外增加特征图加权和的步骤来获取，这增加了很多额外的计算量，因此本发明在类激活映射图的基础上对其进行了改进，在正向传播的过程中产生用于定位的对应特定类别的特征图，避免产生额外的计算量，节省计算成本。并且，直接从最后一层卷积层生成的特征图中选取的特定类别的定位图，不但可以达到与原来的类激活映射图相同的效果和质量，还可以更加便捷的融入任何一个复杂的基础框架。

改进的类激活映射图结构如图6所示。将卷积网络最后一层输出的特征映射图表示为

其中U*U表示空间大小，K表示通道数,f_k表示第k个通道对应的特征图。用符号C表示所有可能的预测类别，最后一个卷积层对应的权重矩阵用符号表示，

指权重矩阵W^conv中第k行，第c列对应的元素；将针对特定类别的定位图(类激活映射图)表示为

则可以得到：

类激活映射图中得分较高的区域是最具辨别力的区域，即目标所在区域。如图7所示，将类激活映射图的大小上采样到输入图像大小即可在原图像上显示出于特定类别最具辨别力的区域。将类激活映射图中大于某一阈值的所有点的最大连通域的外接框作为目标物体的定位预测边界框。

对于某一特定预测类别c，将输入softmax回归的值设为

输入softmax回归的值是将类激活映射图

全局平均后的值，因此：

经过回归层后的分类结果输出向量O_c如下式(2-3)所示：

显然，如果以相同的方式初始化两个网络的参数，直接从卷积层得到的累激活映射图对应的

与方案一中softmax回归的输入值I_c相等；由于M_c与

的数学形式相同，因此在网络收敛后，会得到相同的目标激活映射定位图。

本发明中，该基于网络监督的目标分类和定位方法，步骤4)中还包括分类和定位网络的优化过程，主要用于对分类过程的优化，该过程包括以下步骤：

步骤4.1)设计交叉熵损失函数，根据损失函数计算梯度，对整个卷积层网络进行梯度反传，并更新卷积层网络参数；

步骤4.2)根据交叉熵损失函数计算得到的分类误差判定网络是否已经达到最大迭代次数，如果已经达到最大迭代次数，停止网络训练，否则继续实施网络的训练。

在本发明步骤4.1)中，所述交叉熵损失函数＝arg_αminL(α)；

其中，y_c∈{0,1}，表示类别C的标签，α是网络的参数，p_c为类别置信度。

本发明中，该基于网络监督的目标分类和定位方法，还包括利用训练完成的分类和定位网络对测试样本集中的未知图像(没有任何标注信息的图像)进行分类预测以及定位信息预测的过程，以方案二中分类和定位网络为例，具体步骤如下：

步骤5.1)：将给定的未知图像输入训练好的分类和定位网络；

步骤5.2)：在最后一个卷积层即最深层卷积层的特征图上使用激活的方法进行特征提取，得到类激活映射图，即图像中目标的位置信息；

步骤5.3)：利用全局平均池化层对步骤5.2)中提取出的类激活映射图分类，得到该图像属于每个类别的概率，即图像中目标的分类信息。

本发明利用torchvision模块中的transforms函数进行数据预处理。由于网络爬取的图像大小不一，因此将所有输入网络的测试样本集图像都调整到256*256像素大小，并随机裁剪为224*224像素大小。

实施例

实施例1

1、数据库和样本分类

采用本发明进行网络监督目标分类与定位，在应用阶段不需要任何数据集帮助，然而在分类及定位网络训练完成后，本发明需要一个稳定的测试集来验证分类网络的分类准确率和定位网络的定位精确度，因此训练集的选择受到测试集的限制。目前已有的用于弱监督分类及定位任务的数据集中，CUB_200_2011数据集可以很好的满足实验测试集需求。

如图8所示，CUB_200_2011数据集是对CUB_200数据集的改进版，其中包含200种鸟类的图像数据，总图像数11788张，测试集5794张，可以很好的用来评价精细分类任务；测试集中的每张图像都有15个标记对应目标物体部分的位置定位，312个二进制属性，1个边界框，可以很好的用来评价定位任务。因此在分类及定位网络设计阶段，我们使用CUB_200_2011数据集作为测试样本集，训练样本集也要爬取对应类别的网络图像。

从必应搜索引擎上爬取的网络图片生成一个包含其所有图片路径的列表文本文件，格式为：文件夹名称+‘/’+图片名称+‘’+类别序号+‘\n’。本发明利用图像路径索引来完成数据集的输入。由于200种鸟类的名称过于复杂，在测试分类准确率时会造成不必要的麻烦，因此输入到分类和定位网络中的类别名称不是鸟类原本的名字，而是用代号0,1,2,…,199代替的。

分类和定位网络的构建通过方案二中的方式实施，采用VGG16网络作为卷积神经网络的骨干，删除VGG16网络中所有的全连接层以及conv5的池化层，在此基础上增加了一个大小为1*1，步幅为1，通道数为预测类别总数C(即200)的卷积层，之后连接一个全局平均池化层和一个softmax回归层，构建得到初步的分类和定位网路，采用训练样本集对该网络进行训练。

2、性能评测准则

2.1分类性能评测准则

为了进行算法分类性能的评测以及与其它方法的对比，本发明设置两个分类评价指标：Top1分类正确率和Top5分类正确率。

Top1分类正确率指输出分类得分排名第一的预测类别是正确的测试图像占全部测试图像的百分比。Top5分类正确率指输出分类得分排名前五的预测类别中存在正确类别的测试图像占全部测试图像的百分比。

2.2定位性能评测准则

实验中定位性能的评测为框定位准确率，将满足图像的类别被正确预测且预测边界框与人工标注的边界框的交并比(IoU)超过50％的图像所占百分比作为衡量网络定位能力的指标。

为了能够实现目标定位的评测，在测试集上的图像除了标定目标类之外，也利用类激活映射图(最后一个卷积层输出的特征映射图)的值来确定目标物体边界框对目标进行了框标注。假设一个阈值th对类激活映射图进行分割，找出类激活映射图中大于th的值，取这些点的最大连通区域的外接框作为预测边界框E。将类激活映射图的大小上采样至输入图像大小即可在原图像上显示出于特定类别最具辨别力的区域的边界框E，CUB测试集图像中人工标注的定位框G已知，计算预测定位框E和真实定位框G之间的IoU，定位框交并比的计算结果大于50％，则认为测试图像中的目标定位准确。否则认为测试图像的定位结果错误。

阈值th针对不同的样本又不同的取值。对于CUB测试集，本实验选取了0.05、0.1、0.15、0.2、0.25、0.3等值分别作为阈值th，对测试图像进行测试，通过大量实验验证，无论对于Top1正确率还是Top5正确率，当th取值为0.1时，网络的定位性能最佳。

本发明设置两个定位评价指标：Top1定位正确率和Top5定位正确率。

Top1定位正确率：若测试图像输出分类得分排名第一的分类结果和定位结果均正确，则认为测试图像中的目标定位准确。否则认为测试图像的定位结果错误。目标定位准确的图像占全部测试图像的百分比即为Top1定位正确率。

Top5定位正确率：若测试图像输出分类得分排名前五的分类结果中存在预测正确的类别，且与正确类别对应的定位结果准确，则认为测试图像中的目标定位准确。否则认为测试图像的定位结果错误。目标定位准确的图像占全部测试图像的百分比即为Top5定位正确率。

3、实验结果与分析

3.1实验结果以及和baseline(基准实验)的对比

本实验是基于网络监督的目标分类与定位实验，baseline选择同一目标分类定位网络下使用CUB自带的训练集进行弱监督学习后的分类及定位结果。两个实验均在VGG16网络框架下进行，对比精细分类和定位实验结果如下表。

表1网络监督与弱监督分类及定位性能对比(％)

本发明提出的网络监督方法整体性能优于弱监督方法，其中Top1分类正确率提高了4.34％，Top5分类正确率提高了1.99％；Top1定位正确率提高了4.95％，Top5分类正确率提高了3.56％。这说明大量的网络图像数据集可以取代传统的人工标注数据集，并大大提高卷积网络的分类学习能力，使得完全没有人为干预的分类网络的发展成为可能。

3.2与现有的弱监督目标分类与定位方法比较

采用CUB_200_2011数据集，使用目前已有的弱监督目标分类与定位方法ACoL和CAM进行测试。

ACoL在文献“X.Zhang,Y.Wei,J.Feng,Y.Yang,and T.Huang.Adversarialcomplementary learning for weakly supervised object localization.In Proc.IEEEInt.Conf.Comput.Vis.Pattern Recognit.(CVPR),pages 1325–1334,2018.”中提出；

CAM在文献“B.Zhou,A.Khosla,A.Lapedriza,A.Oliva,and A.Torralba.Learningdeep features for discriminative localization.In Proc.IEEEInt.Conf.Comput.Vis.Pattern Recognit.(CVPR),pages 2921–2929,2016.”中提出。

对比实验结果如表2所示。

表2.分类及定位性能对比(％)

从表2中可以看出，本发明所提出的网络监督方法在测试中的准确率均高于已有的弱监督学习算法CAM和ACoL。可以看出，在使用网络监督后，本发明提出的方法能够在更大量的样本中提取目标的分类和定位特征，进而得到更准确的结果。

3.3针对网络中的图像过滤器验证其有效性

从网络上下载的图像训练集中包含一些噪声图像，为了防止噪声图像影响网络的学习能力，本发明设计了一个过滤器，剔除爬取图像集中的噪声图像，旨在得到干净的训练集。为了评估本发明设计的过滤器对网络学习性能的影响，分别将下载的原始全部图像和过滤后的干净图像作为训练集输入网络训练，用同样的CUB测试集进行测试，得到的测试集分类正确率如表3所示。

表3.有无使用过滤器分类性能对比(％)

从表中可以发现，使用过滤后的干净网络图像训练网络比使用噪声网络图像训练网络分类能力提高了1.02％，说明过滤器对去除噪声图像的影响有积极作用。

3.4网络普适性

只用鸟类数据集CUB测试网络的分类及定位能力过于片面，因此本项目从ILSVRC数据集中随机抽取了20类，将其对应的网络图像放入分类及定位网络中训练，用ILSVRC数据集中的测试集对分类及定位性能进行测试，以证明本发明可以实现任意类别目标的分类和定位。

从ILSVRC数据集中的1000类别中随机选取20种类别，本项目选取的20类物体分别为：电吉他、消防车、旗杆、喷泉、平底锅、皮毛大衣、高尔夫球、竖琴、马车、和服、口红、邮箱、火柴、麦克风、清真寺、蚊帐、山地自行车、公园长椅、枕头、塑料袋。爬取对应的网络图像训练集并通过过滤器过滤，将干净的网络图像训练集输入分类及定位网络中训练。

使用相同的分类及定位网络，只改变输入训练集和测试集，分别测试有无过滤器时网络的分类及定位能力，测试结果如表4所示。

表4.有无过滤器在ILSVRC子集上分类及定位正确率对比(％)

分析上表可以发现，分类及定位网络在ILSVRC子集上表现良好。其中Top1分类正确率为80.15％，Top5分类正确率可达95.29％，说明分类网络在ILSVRC子集上的执行效果较好。Top1定位正确率为54.83％，Top5定位正确率可达61.39％，说明定位网络在ILSVRC子集上可以适用。使用过滤后的干净网络图像训练网络比使用噪声网络图像训练网络分类能力提高了0.53％，定位能力提高了1.08％，说明过滤器对网络学习能力的改善有一定效果。实验结果证明了本发明可以实现任意类别目标的分类和定位。

以上结合了优选的实施方式对本发明进行了说明，不过这些实施方式仅是范例性的，仅起到说明性的作用。在此基础上，可以对本发明进行多种替换和改进，这些均落入本发明的保护范围内。

Claims

1.一种基于网络监督的目标分类和定位方法，该方法包括训练分类和定位网络用以进行目标分类和定位的过程，分类和定位网络的训练过程包括以下步骤：

步骤2)，过滤去除噪声图像，形成训练样本集；

步骤3)，初步构建分类和定位网络；

2.根据权利要求1所述的方法，其特征在于，步骤1)中，从搜索引擎上爬取的网络图片生成一个包含其所有图片路径的列表文本文件，以该列表文本文件作为输入数据的索引。

3.根据权利要求1所述的方法，其特征在于，步骤2)可以通过以下子步骤实现：

4.根据权利要求3所述的方法，其特征在于，在步骤2.1)中，采用分层抽样的方法，将训练样本集对应的列表文本文件中的所有图像列表分成N份。

5.根据权利要求1所述的方法，其特征在于，在步骤2.3)中，该卷积神经网络与步骤3)或步骤4)中用于分类和定位的网络类型一致。

6.根据权利要求1所述的方法，其特征在于，步骤3)中，分类和定位网络的构建可以通过以下方式实施：

7.根据权利要求1所述的方法，其特征在于，步骤3)中，分类和定位网络的构建可以通过以下方式实施：

其中，预测类别总数C为训练样本集中图像类别总数。

8.根据权利要求1所述的方法，其特征在于，步骤4)中还包括分类和定位网络的优化过程，主要用于对分类过程的优化，该过程包括以下步骤：

步骤4.2)根据交叉熵损失函数计算得到的分类误差判定网络是否已经达到最大迭代次数，如果已经达到最大迭代次数，停止网络训练，否则继续实施网络的训练；

任选地，步骤4.1)中，所述交叉熵损失函数＝arg_αminL(α)；

9.根据权利要求7所述的方法，其特征在于，该基于网络监督的目标分类和定位方法还包括利用训练完成的分类和定位网络对没有任何标注信息的未知图像进行分类预测以及定位信息预测的过程，具体步骤如下：

步骤5.1)：将给定的未知图像输入训练好的分类和定位网络；

步骤5.2)：在最后一个卷积层的特征图上使用激活的方法进行特征提取，得到类激活映射图，即图像中目标的位置信息；

10.根据权利要求1至9之一所述的方法，其特征在于，对训练样本集和测试样本集中的图片重置图像分辨率，即将图像分辨率调整至相同大小且满足分类和定位网络的输入要求。