CN106503047B - 一种基于卷积神经网络的图像爬虫优化方法 - Google Patents

一种基于卷积神经网络的图像爬虫优化方法 Download PDF

Info

Publication number
CN106503047B
CN106503047B CN201610839591.0A CN201610839591A CN106503047B CN 106503047 B CN106503047 B CN 106503047B CN 201610839591 A CN201610839591 A CN 201610839591A CN 106503047 B CN106503047 B CN 106503047B
Authority
CN
China
Prior art keywords
data
noisy
noisycnn
image
pure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610839591.0A
Other languages
English (en)
Other versions
CN106503047A (zh
Inventor
傅晨波
肖浩泉
宣琦
方宾伟
王金宝
郑雅羽
俞立
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201610839591.0A priority Critical patent/CN106503047B/zh
Publication of CN106503047A publication Critical patent/CN106503047A/zh
Application granted granted Critical
Publication of CN106503047B publication Critical patent/CN106503047B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于卷积神经网络的网络爬虫优化方法,包括以下步骤:1)利用网络爬虫从各网站爬取初始数据,人工将数据分为无噪声数据集Free_Noisy和完全噪声数据集Pure_Noisy;2)使用初始数据集训练NoisyCNN网络;3)利用网络爬虫开始对主流搜索引擎和图像分享网站中搜集大量目标分类的图像数据,同时定期执行步骤4;4)利用NoisyCNN网络对数据筛选,将数据将分为Weak_Noisy和Pure_Noisy;5)使用扩充后数据更新NoisyCNN网络;6)判断Pure_Noisy数据量是否合理,决定是否继续爬虫;7)停止爬虫。本发明能有效减少数据噪声、提升工作效率。

Description

一种基于卷积神经网络的图像爬虫优化方法
技术领域
本发明涉及卷积神经网络(CNN)和网络爬虫技术,特别针对主流图像搜索引擎以及图像分享网站的图像爬虫。
背景技术
近年来,随着计算机视觉技术的不断发展,特别是卷积神经网络的迅速发展,人们对计算机视觉训练所需图像数据的需求特别是对标签信息准确的图像数据的需求日益增大。
卷积神经网络(Convolutional Neural Networks,CNN)是深度学习算法的一种,是当前语音分析和图像识别等领域重要的处理分析工具,近年来已经成为众多科学领域的研究热点之一。卷积神经网络算法的优点在于训练模型时不需要使用任何人工标注的特征。算法可以自动探索输入变量所隐含的特征,同时网络的权值共享特性,大大降低了模型的复杂度,减少了权值的数量。这些优点在网络的输入是图像时表现的尤为明显,原始图像可以直接作为网络的输入,避免了传统识别算法中复杂的特征提取和数据重建过程。此外,卷积神经网络的池化层对平移、倾斜具有不变性,提高了算法处理图像的鲁棒性。
为获取训练卷积神经网络所需的大量图像数据,最便捷的方式是通过网络获取,采用网络爬虫的方法。网络爬虫是指一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,它能够按照设定的条件将符合该条件的信息从互联网的海量信息中抓取出来。
目前常见的网络图像数据源主要包含两种类型:
1.图像搜索引擎,如百度(Baidu),谷歌(Google)和必应(Bing);
2.图像分享网站,如Flickr和Instagram等。
当使用传统网络爬虫技术获取图像数据时,使用图像搜索引擎爬取的图像质量随显示的顺序大体呈现下降的趋势,使用图像分享网站爬取的图像质量尽管与图像搜索引擎相比与显示的顺序相关性较小,但随爬取的数量增加,质量也会有所下降。这些特性导致传统网络爬虫爬取的数据存在较大的噪声,影响后续的训练结果。
发明内容
为了克服现有技术中网络爬虫得到的图像数据存在数据噪声过大、工作效率较低的不足,本发明提供了一种能有效减少数据噪声、提升工作效率的基于卷积神经网络的图像爬虫优化方法,深度学习方法为卷积神经网络(CNN),卷积神经网络算法直接使用图像作为输入,避免了传统识别算法中复杂的特征提取和数据重建过程,更适合于本发明的图像分类。
本发明为解决上述技术问题所采用的技术方案如下:
一种基于卷积神经网络的图像爬虫优化方法,所述方法包括以下步骤:
S1:利用网络爬虫从各网站爬取图像数据,人工将数据分为无噪声数据集Free_Noisy和完全噪声数据集Pure_Noisy;
S2:使用Free_Noisy数据集训练NoisyCNN网络,得到一个初始识别子类的图像分类器,对输入的图像输出该图像属于每一子类的概率,按概率从大到小排列子类名单;
S3:利用网络爬虫开始对主流搜索引擎和图像分享网站中搜集大量目标分类的图像数据,同时定期利用NoisyCNN网络筛选数据;
S4:利用NoisyCNN网络对数据判断,将数据将分为Weak_Noisy和Pure_Noisy;
S5:使用扩充后的数据更新NoisyCNN网络;
S6:判断Pure_Noisy数据量的合理性:统计Pure_Noisy数据集占总数据集的比例,若未超过预设阈值则执行步骤S3,否则执行步骤S7;
S7:停止爬虫。
进一步,所述步骤S1包含以下内容:
S1.1:网络爬虫的搜索范围包括主流搜索引擎百度、谷歌、必应和图像分享网站Flickr和Instagram;
S1.2:数据由人工筛选判定该数据所属分类,数据类型包括属于目标分类的数据集和不属于目标分类的数据集,属于目标分类的数据集为无噪声数据集Free_Noisy,不属于目标分类的数据集为完全噪声数据集Pure_Noisy。
再进一步,所述步骤S3包括以下步骤:
S3.1:分别爬取主流搜索引擎百度、谷歌和必应的数据,分别爬取分享网站Flickr、Instagram的数据;
S3.2:每完成爬取设定数量张图像,执行步骤S4。
更进一步,所述步骤S4包括以下步骤:
S4.1:使用NoisyCNN网络对爬虫获取到的数据进行判决;
S4.2:如果数据标签与NoisyCNN判定的前五个可能的标签中一个相符,则认为该数据有很大可能属于目标分类,判定该数据属于Weak_Noisy,保存该数据至Weak_Noisy数据集;
S4.3:如果数据标签与NoisyCNN判定的前五个可能的标签,没有一个相符,则认为该数据标签与其真实分类不符,判定该数据属于Pure_Noisy,保存该数据至Pure_Noisy数据集;
S4.3:执行步骤S5。
具体来说,本发明所述的方法具有如下的有益效果:
(1)本发明所述的方法通过卷积神经网络对定期对爬虫获取的数据进行判断,适时终止爬虫,提高了爬虫的工作效率。
(2)本发明所述的方法利用爬虫获取到的数据训练卷积神经网络,能够不断增强卷积神经网络的鲁棒性。
(3)本发明所述的方法将卷积神经网络与网络爬虫相结合,实现双向互惠,形成一个不断优化的可持续系统,能够不断获取互联网中准确的目标分类图像。
附图说明
图1为基于卷积神经网络的爬虫初始数据获取的流程图;
图2为基于卷积神经网络的爬虫优化方法流程图;
图3为NoisyCNN精度与图像爬取数量的关系曲线。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1~图3,一种基于卷积神经网络的网络爬虫优化方法,包括以下步骤:
步骤1:随机获取初始图像数据:
利用网络爬虫从主流图像搜索引擎百度、谷歌和图像分享网站Flickr、Instagram中随机获取少量的目标分类的数据,经过人工筛选,判定该数据是否属于目标分类,将属于目标分类的数据集划为Free_Noisy并作为初始图像训练数据;
步骤2:训练初始卷积神经网络
使用Free_Noisy的数据训练NoisyCNN网络,得到一个初始识别子类的图像分类器,对输入的图像输出该图像属于每一子类的概率,按概率从大到小排列子类名单;
步骤3:爬取扩充数据:
再次利用爬虫开始对谷歌、百度、必应等主流搜索引擎和Flickr、Instagram等图像分享网站中搜集大量目标分类的图像数据,与此同时,定期执行步骤4;
步骤4:利用NoisyCNN网络对数据分类
定期使用NoisyCNN网络对爬虫此时获取到的数据进行判决;
如果数据标签与NoisyCNN判定的前五个可能的标签中一个相符,则认为该数据有很大可能属于目标分类,保存该数据于Weak_Noisy数据集;
如果数据标签与NoisyCNN判定的前五个可能的标签,没有一个相符,则认为该数据标签与其真实分类不符,保存此数据至Pure_Noisy数据集;
执行步骤5;
步骤5:利用Weak_Noisy数据集更新NoisyCNN网络
使用Weak_Noisy数据更新NoisyCNN网络权重参数,得到识别准确率更高的分类器;
步骤6:判断Pure_Noisy数据量合理性
若Pure_Noisy的数据量小于新爬取的数据总量的预设阈值(例如取70%),则执行步骤3;
若Pure_Noisy的数据量不小于新爬取的数据总量的预设阈值(例如取70%),则执行步骤7;
步骤7:停止爬虫
停止爬虫,结束程序。
本发明对互联网公开的图像数据进行数据爬取。以本实例研究对37类猫狗子类的图像数据爬取为例,介绍本发明的具体流程:
步骤1:随机获取初始数据:
参照图1,利用网络爬虫从主流搜索引擎百度、谷歌和图像分享网站Flickr、Instagram中对每一种猫狗子类各爬取100张目标分类的数据,经过人工筛选,将每张属于猫狗子类的图像数据集归到Free_Noisy数据集,Free_Noisy数据集由37个特定种类猫狗图像的子数据集组成;
步骤2:训练初始卷积神经网络
使用Free_Noisy的数据训练NoisyCNN网络,得到一个能够粗略识别猫狗种类的图像分类器,对输入的图像输出该图像属于每一种类的概率,按概率从大到小排列子类名单;
步骤3:爬取数据:
参照图2,利用爬虫开始对谷歌、百度、必应等主流搜索引擎和Flickr、Instagram等图像分享网站中搜集大量属于此37类猫狗的图像数据,记录下对应的标签;与此同时,在每个网站各爬取50张图像后执行步骤4;
步骤4:利用NoisyCNN网络对数据判断
使用NoisyCNN网络对爬虫此时获取到的数据进行判决,若图像标签与NoisyCNN分类概率排名前五的结果中有相同,则认为该图像有较大可能属于对应标签所述的猫狗子类,将数据添加至Weak_Noisy数据集;
如果标签与NoisyCNN分类概率排名前五的结果中没有相同,则判定该图像有很大可能与对应标签不符,保存数据至Pure_Noisy数据集;
执行步骤5;
步骤5:更新NoisyCNN
使用Weak_Noisy数据集更新NoisyCNN网络参数,得到识别准确率更高的猫狗子类分类器;
NoisyCNN分类器关于图像爬取数量的精度变化如图3;
步骤6:判断Pure_Noisy数据量合理性
对此时获取到的数据进行判决,
若Pure_Noisy数据集的数据量小于新爬取的图像数据总量的70%,则执行步骤3;
若Pure_Noisy数据集的数据量不小于新爬取的图像数据总量的70%,则执行步骤7;
步骤7:停止爬虫
停止爬虫,结束程序。
如上所述为本发明在37类猫狗图像数据爬取的实施例介绍,本发明通过对图像分类器的迭代更新和网络爬取数据的自动筛选,由初始的少量数据量扩展成大量数据量,同时明显提高了图像分类器的分类精度,减少了大量人力和财力。对发明而言仅仅是说明性的,而非限制性的。本专业技术人员理解,在发明权利要求所限定的精神和范围内可对其进行许多改变,修改,甚至等效,但都将落入本发明的保护范围内。

Claims (3)

1.一种基于卷积神经网络的图像爬虫优化方法,其特征在于:所述方法包括以下步骤:
S1:利用网络爬虫从各网站爬取图像数据,人工将数据分为无噪声数据集Free_Noisy和完全噪声数据集Pure_Noisy;
S2:使用Free_Noisy数据集训练NoisyCNN网络,得到一个初始识别子类的图像分类器,对输入的图像输出该图像属于每一子类的概率,按概率从大到小排列子类名单;
S3:利用网络爬虫开始对主流搜索引擎和图像分享网站中搜集大量目标分类的图像数据,同时定期利用NoisyCNN网络筛选数据;
S4:利用NoisyCNN网络对数据判断,将数据将分为Weak_Noisy和Pure_Noisy;
所述步骤S4包括以下步骤:
S4.1:使用NoisyCNN网络对爬虫获取到的数据进行判决;
S4.2:如果数据标签与NoisyCNN判定的前五个可能的标签中一个相符,则认为该数据有很大可能属于目标分类,判定该数据属于Weak_Noisy,保存该数据至Weak_Noisy数据集;
S4.3:如果数据标签与NoisyCNN判定的前五个可能的标签,没有一个相符,则认为该数据标签与其真实分类不符,判定该数据属于Pure_Noisy,保存该数据至Pure_Noisy数据集;
S4.3:执行步骤S5;
S5:使用扩充后的数据更新NoisyCNN网络;
S6:判断Pure_Noisy数据量的合理性:统计Pure_Noisy数据集占总数据集的比例,若未超过预设阈值则执行步骤S3,否则执行步骤S7;
S7:停止爬虫。
2.根据权利要求1所述的基于卷积神经网络的图像爬虫优化方法,其特征在于:所述步骤S1包含以下内容:
S1.1:网络爬虫的搜索范围包括主流搜索引擎百度、谷歌、必应和图像分享网站Flickr和Instagram;
S1.2:数据由人工筛选判定该数据所属分类,数据类型包括属于目标分类的数据集和不属于目标分类的数据集,属于目标分类的数据集为无噪声数据集Free_Noisy,不属于目标分类的数据集为完全噪声数据集Pure_Noisy。
3.根据权利要求1或2所述的基于卷积神经网络的图像爬虫优化方法,其特征在于:所述步骤S3包括以下步骤:
S3.1:分别爬取主流搜索引擎百度、谷歌和必应的数据,分别爬取分享网站Flickr、Instagram的数据;
S3.2:每完成爬取设定数量张图像,执行步骤S4。
CN201610839591.0A 2016-09-22 2016-09-22 一种基于卷积神经网络的图像爬虫优化方法 Active CN106503047B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610839591.0A CN106503047B (zh) 2016-09-22 2016-09-22 一种基于卷积神经网络的图像爬虫优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610839591.0A CN106503047B (zh) 2016-09-22 2016-09-22 一种基于卷积神经网络的图像爬虫优化方法

Publications (2)

Publication Number Publication Date
CN106503047A CN106503047A (zh) 2017-03-15
CN106503047B true CN106503047B (zh) 2019-10-11

Family

ID=58290694

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610839591.0A Active CN106503047B (zh) 2016-09-22 2016-09-22 一种基于卷积神经网络的图像爬虫优化方法

Country Status (1)

Country Link
CN (1) CN106503047B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107958263A (zh) * 2017-11-13 2018-04-24 浙江工业大学 一种半监督的图像分类器训练方法
CN109063784B (zh) * 2018-08-23 2021-03-05 深圳码隆科技有限公司 一种人物服饰图像数据筛选方法及其装置
CN111435437A (zh) * 2019-12-26 2020-07-21 珠海大横琴科技发展有限公司 一种pcb行人重识别模型训练方法及pcb行人重识别方法
CN112541544B (zh) * 2020-12-09 2022-05-13 福州大学 一种基于深度学习的垃圾分类方法
CN114638322B (zh) * 2022-05-20 2022-09-13 南京大学 开放场景下基于给定描述的全自动目标检测系统和方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7409372B2 (en) * 2003-06-20 2008-08-05 Hewlett-Packard Development Company, L.P. Neural network trained with spatial errors
CN102334985A (zh) * 2010-07-16 2012-02-01 香港理工大学 利用多层前馈网络的心音分析法检测肺动脉血压的方法
CN104572965A (zh) * 2014-12-31 2015-04-29 南京理工大学 基于卷积神经网络的以图搜图系统
CN105701507A (zh) * 2016-01-13 2016-06-22 吉林大学 基于动态随机池化卷积神经网络的图像分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7409372B2 (en) * 2003-06-20 2008-08-05 Hewlett-Packard Development Company, L.P. Neural network trained with spatial errors
CN102334985A (zh) * 2010-07-16 2012-02-01 香港理工大学 利用多层前馈网络的心音分析法检测肺动脉血压的方法
CN104572965A (zh) * 2014-12-31 2015-04-29 南京理工大学 基于卷积神经网络的以图搜图系统
CN105701507A (zh) * 2016-01-13 2016-06-22 吉林大学 基于动态随机池化卷积神经网络的图像分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
面向人脸检测的主题网络爬虫系统;杨东权;《中国优秀硕士学位论文全文数据库 信息科技辑》;20160615(第6期);I138-1342 *

Also Published As

Publication number Publication date
CN106503047A (zh) 2017-03-15

Similar Documents

Publication Publication Date Title
CN106529564B (zh) 一种基于卷积神经网络的食物图像自动分类方法
CN106503047B (zh) 一种基于卷积神经网络的图像爬虫优化方法
US10621755B1 (en) Image file compression using dummy data for non-salient portions of images
US8718383B2 (en) Image and website filter using image comparison
CN108960499B (zh) 一种融合视觉和非视觉特征的服装流行趋势预测系统
CN109993102B (zh) 相似人脸检索方法、装置及存储介质
CN107563406B (zh) 一种自主学习的图像精细分类方法
CN109583325A (zh) 人脸样本图片标注方法、装置、计算机设备及存储介质
CN110413786B (zh) 基于网页文本分类的数据处理方法、智能终端及存储介质
CN113919442B (zh) 一种基于卷积神经网络烟叶成熟度状态识别方法
CN112257066A (zh) 面向带权异质图的恶意行为识别方法、系统和存储介质
CN105740773A (zh) 基于深度学习和多尺度信息的行为识别方法
CN109522562B (zh) 一种基于文本图像融合识别的网页知识抽取方法
CN108596338A (zh) 一种神经网络训练集的获取方法及其系统
CN109634924A (zh) 基于机器学习的文件系统参数自动调优方法及系统
CN111179216A (zh) 一种基于图像处理与卷积神经网络的作物病害识别方法
CN107958263A (zh) 一种半监督的图像分类器训练方法
CN107066548B (zh) 一种双维度分类提取网页链接的方法
CN110264407B (zh) 图像超分辨模型训练及重建方法、装置、设备及存储介质
CN112434210B (zh) 一种服装流行趋势预测系统与方法
CN114170137A (zh) 一种辣椒病害识别方法、识别系统、计算机可读存储介质
CN110163268A (zh) 一种图像处理方法、装置及服务器、存储介质
CN114881861A (zh) 基于双采样纹理感知蒸馏学习的不均衡图像超分方法
CN116612386A (zh) 基于分级检测双任务模型的辣椒病虫害识别方法及系统
CN111767216A (zh) 一种可缓解类重叠问题的跨版本深度缺陷预测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant