CN106503047B

CN106503047B - 一种基于卷积神经网络的图像爬虫优化方法

Info

Publication number: CN106503047B
Application number: CN201610839591.0A
Authority: CN
Inventors: 傅晨波; 肖浩泉; 宣琦; 方宾伟; 王金宝; 郑雅羽; 俞立
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2016-09-22
Filing date: 2016-09-22
Publication date: 2019-10-11
Anticipated expiration: 2036-09-22
Also published as: CN106503047A

Abstract

一种基于卷积神经网络的网络爬虫优化方法，包括以下步骤：1)利用网络爬虫从各网站爬取初始数据，人工将数据分为无噪声数据集Free_Noisy和完全噪声数据集Pure_Noisy；2)使用初始数据集训练NoisyCNN网络；3)利用网络爬虫开始对主流搜索引擎和图像分享网站中搜集大量目标分类的图像数据，同时定期执行步骤4；4)利用NoisyCNN网络对数据筛选，将数据将分为Weak_Noisy和Pure_Noisy；5)使用扩充后数据更新NoisyCNN网络；6)判断Pure_Noisy数据量是否合理，决定是否继续爬虫；7)停止爬虫。本发明能有效减少数据噪声、提升工作效率。

Description

一种基于卷积神经网络的图像爬虫优化方法

技术领域

本发明涉及卷积神经网络(CNN)和网络爬虫技术，特别针对主流图像搜索引擎以及图像分享网站的图像爬虫。

背景技术

近年来，随着计算机视觉技术的不断发展，特别是卷积神经网络的迅速发展，人们对计算机视觉训练所需图像数据的需求特别是对标签信息准确的图像数据的需求日益增大。

卷积神经网络(Convolutional Neural Networks，CNN)是深度学习算法的一种，是当前语音分析和图像识别等领域重要的处理分析工具，近年来已经成为众多科学领域的研究热点之一。卷积神经网络算法的优点在于训练模型时不需要使用任何人工标注的特征。算法可以自动探索输入变量所隐含的特征，同时网络的权值共享特性，大大降低了模型的复杂度，减少了权值的数量。这些优点在网络的输入是图像时表现的尤为明显，原始图像可以直接作为网络的输入，避免了传统识别算法中复杂的特征提取和数据重建过程。此外，卷积神经网络的池化层对平移、倾斜具有不变性，提高了算法处理图像的鲁棒性。

为获取训练卷积神经网络所需的大量图像数据，最便捷的方式是通过网络获取，采用网络爬虫的方法。网络爬虫是指一种按照一定的规则，自动地抓取万维网信息的程序或者脚本，它能够按照设定的条件将符合该条件的信息从互联网的海量信息中抓取出来。

目前常见的网络图像数据源主要包含两种类型：

1.图像搜索引擎，如百度(Baidu)，谷歌(Google)和必应(Bing)；

2.图像分享网站，如Flickr和Instagram等。

当使用传统网络爬虫技术获取图像数据时，使用图像搜索引擎爬取的图像质量随显示的顺序大体呈现下降的趋势，使用图像分享网站爬取的图像质量尽管与图像搜索引擎相比与显示的顺序相关性较小，但随爬取的数量增加，质量也会有所下降。这些特性导致传统网络爬虫爬取的数据存在较大的噪声，影响后续的训练结果。

发明内容

为了克服现有技术中网络爬虫得到的图像数据存在数据噪声过大、工作效率较低的不足，本发明提供了一种能有效减少数据噪声、提升工作效率的基于卷积神经网络的图像爬虫优化方法，深度学习方法为卷积神经网络(CNN)，卷积神经网络算法直接使用图像作为输入，避免了传统识别算法中复杂的特征提取和数据重建过程，更适合于本发明的图像分类。

本发明为解决上述技术问题所采用的技术方案如下：

一种基于卷积神经网络的图像爬虫优化方法，所述方法包括以下步骤：

S1：利用网络爬虫从各网站爬取图像数据，人工将数据分为无噪声数据集Free_Noisy和完全噪声数据集Pure_Noisy；

S2：使用Free_Noisy数据集训练NoisyCNN网络，得到一个初始识别子类的图像分类器，对输入的图像输出该图像属于每一子类的概率，按概率从大到小排列子类名单；

S3：利用网络爬虫开始对主流搜索引擎和图像分享网站中搜集大量目标分类的图像数据，同时定期利用NoisyCNN网络筛选数据；

S4：利用NoisyCNN网络对数据判断，将数据将分为Weak_Noisy和Pure_Noisy；

S5：使用扩充后的数据更新NoisyCNN网络；

S6：判断Pure_Noisy数据量的合理性：统计Pure_Noisy数据集占总数据集的比例，若未超过预设阈值则执行步骤S3，否则执行步骤S7；

S7：停止爬虫。

进一步，所述步骤S1包含以下内容：

S1.1：网络爬虫的搜索范围包括主流搜索引擎百度、谷歌、必应和图像分享网站Flickr和Instagram；

S1.2：数据由人工筛选判定该数据所属分类，数据类型包括属于目标分类的数据集和不属于目标分类的数据集，属于目标分类的数据集为无噪声数据集Free_Noisy，不属于目标分类的数据集为完全噪声数据集Pure_Noisy。

再进一步，所述步骤S3包括以下步骤：

S3.1：分别爬取主流搜索引擎百度、谷歌和必应的数据，分别爬取分享网站Flickr、Instagram的数据；

S3.2：每完成爬取设定数量张图像，执行步骤S4。

更进一步，所述步骤S4包括以下步骤：

S4.1：使用NoisyCNN网络对爬虫获取到的数据进行判决；

S4.2：如果数据标签与NoisyCNN判定的前五个可能的标签中一个相符，则认为该数据有很大可能属于目标分类，判定该数据属于Weak_Noisy，保存该数据至Weak_Noisy数据集；

S4.3：如果数据标签与NoisyCNN判定的前五个可能的标签，没有一个相符，则认为该数据标签与其真实分类不符，判定该数据属于Pure_Noisy，保存该数据至Pure_Noisy数据集；

S4.3：执行步骤S5。

具体来说，本发明所述的方法具有如下的有益效果：

(1)本发明所述的方法通过卷积神经网络对定期对爬虫获取的数据进行判断，适时终止爬虫，提高了爬虫的工作效率。

(2)本发明所述的方法利用爬虫获取到的数据训练卷积神经网络，能够不断增强卷积神经网络的鲁棒性。

(3)本发明所述的方法将卷积神经网络与网络爬虫相结合，实现双向互惠，形成一个不断优化的可持续系统，能够不断获取互联网中准确的目标分类图像。

附图说明

图1为基于卷积神经网络的爬虫初始数据获取的流程图；

图2为基于卷积神经网络的爬虫优化方法流程图；

图3为NoisyCNN精度与图像爬取数量的关系曲线。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1～图3，一种基于卷积神经网络的网络爬虫优化方法，包括以下步骤：

步骤1：随机获取初始图像数据：

利用网络爬虫从主流图像搜索引擎百度、谷歌和图像分享网站Flickr、Instagram中随机获取少量的目标分类的数据，经过人工筛选，判定该数据是否属于目标分类，将属于目标分类的数据集划为Free_Noisy并作为初始图像训练数据；

步骤2：训练初始卷积神经网络

使用Free_Noisy的数据训练NoisyCNN网络，得到一个初始识别子类的图像分类器，对输入的图像输出该图像属于每一子类的概率，按概率从大到小排列子类名单；

步骤3：爬取扩充数据：

再次利用爬虫开始对谷歌、百度、必应等主流搜索引擎和Flickr、Instagram等图像分享网站中搜集大量目标分类的图像数据，与此同时，定期执行步骤4；

步骤4：利用NoisyCNN网络对数据分类

定期使用NoisyCNN网络对爬虫此时获取到的数据进行判决；

如果数据标签与NoisyCNN判定的前五个可能的标签中一个相符，则认为该数据有很大可能属于目标分类，保存该数据于Weak_Noisy数据集；

如果数据标签与NoisyCNN判定的前五个可能的标签，没有一个相符，则认为该数据标签与其真实分类不符，保存此数据至Pure_Noisy数据集；

执行步骤5；

步骤5：利用Weak_Noisy数据集更新NoisyCNN网络

使用Weak_Noisy数据更新NoisyCNN网络权重参数，得到识别准确率更高的分类器；

步骤6：判断Pure_Noisy数据量合理性

若Pure_Noisy的数据量小于新爬取的数据总量的预设阈值(例如取70％)，则执行步骤3；

若Pure_Noisy的数据量不小于新爬取的数据总量的预设阈值(例如取70％)，则执行步骤7；

步骤7：停止爬虫

停止爬虫，结束程序。

本发明对互联网公开的图像数据进行数据爬取。以本实例研究对37类猫狗子类的图像数据爬取为例，介绍本发明的具体流程：

步骤1：随机获取初始数据：

参照图1，利用网络爬虫从主流搜索引擎百度、谷歌和图像分享网站Flickr、Instagram中对每一种猫狗子类各爬取100张目标分类的数据，经过人工筛选，将每张属于猫狗子类的图像数据集归到Free_Noisy数据集，Free_Noisy数据集由37个特定种类猫狗图像的子数据集组成；

步骤2：训练初始卷积神经网络

使用Free_Noisy的数据训练NoisyCNN网络，得到一个能够粗略识别猫狗种类的图像分类器，对输入的图像输出该图像属于每一种类的概率，按概率从大到小排列子类名单；

步骤3：爬取数据：

参照图2，利用爬虫开始对谷歌、百度、必应等主流搜索引擎和Flickr、Instagram等图像分享网站中搜集大量属于此37类猫狗的图像数据，记录下对应的标签；与此同时，在每个网站各爬取50张图像后执行步骤4；

步骤4：利用NoisyCNN网络对数据判断

使用NoisyCNN网络对爬虫此时获取到的数据进行判决，若图像标签与NoisyCNN分类概率排名前五的结果中有相同，则认为该图像有较大可能属于对应标签所述的猫狗子类，将数据添加至Weak_Noisy数据集；

如果标签与NoisyCNN分类概率排名前五的结果中没有相同，则判定该图像有很大可能与对应标签不符，保存数据至Pure_Noisy数据集；

执行步骤5；

步骤5：更新NoisyCNN

使用Weak_Noisy数据集更新NoisyCNN网络参数，得到识别准确率更高的猫狗子类分类器；

NoisyCNN分类器关于图像爬取数量的精度变化如图3；

步骤6：判断Pure_Noisy数据量合理性

对此时获取到的数据进行判决，

若Pure_Noisy数据集的数据量小于新爬取的图像数据总量的70％，则执行步骤3；

若Pure_Noisy数据集的数据量不小于新爬取的图像数据总量的70％，则执行步骤7；

步骤7：停止爬虫

停止爬虫，结束程序。

如上所述为本发明在37类猫狗图像数据爬取的实施例介绍，本发明通过对图像分类器的迭代更新和网络爬取数据的自动筛选，由初始的少量数据量扩展成大量数据量，同时明显提高了图像分类器的分类精度，减少了大量人力和财力。对发明而言仅仅是说明性的，而非限制性的。本专业技术人员理解，在发明权利要求所限定的精神和范围内可对其进行许多改变，修改，甚至等效，但都将落入本发明的保护范围内。

Claims

1.一种基于卷积神经网络的图像爬虫优化方法，其特征在于：所述方法包括以下步骤：

所述步骤S4包括以下步骤：

S4.1：使用NoisyCNN网络对爬虫获取到的数据进行判决；

S4.3：执行步骤S5；

S5：使用扩充后的数据更新NoisyCNN网络；

S7：停止爬虫。

2.根据权利要求1所述的基于卷积神经网络的图像爬虫优化方法，其特征在于：所述步骤S1包含以下内容：

3.根据权利要求1或2所述的基于卷积神经网络的图像爬虫优化方法，其特征在于：所述步骤S3包括以下步骤：

S3.2：每完成爬取设定数量张图像，执行步骤S4。