CN112445924A - 一种基于互联网图片资源的数据挖掘和迁移学习系统及其方法和应用 - Google Patents

一种基于互联网图片资源的数据挖掘和迁移学习系统及其方法和应用 Download PDF

Info

Publication number
CN112445924A
CN112445924A CN201910831948.4A CN201910831948A CN112445924A CN 112445924 A CN112445924 A CN 112445924A CN 201910831948 A CN201910831948 A CN 201910831948A CN 112445924 A CN112445924 A CN 112445924A
Authority
CN
China
Prior art keywords
picture
model
data mining
pictures
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910831948.4A
Other languages
English (en)
Inventor
秦迎梅
门聪
卢梅丽
韩春晓
车艳秋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University of Technology and Education China Vocational Training Instructor Training Center
Original Assignee
Tianjin University of Technology and Education China Vocational Training Instructor Training Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University of Technology and Education China Vocational Training Instructor Training Center filed Critical Tianjin University of Technology and Education China Vocational Training Instructor Training Center
Priority to CN201910831948.4A priority Critical patent/CN112445924A/zh
Publication of CN112445924A publication Critical patent/CN112445924A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/535Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于互联网图片资源的数据挖掘和迁移学习系统及其方法和应用,所述方法包括以下步骤:步骤1,指定关键词和组合方式,生成搜索引擎的搜索词;步骤2,通过python语言自带库基于所述搜索词访问图片搜索引擎的相关url,网络将返回该url对应的html文本,然后解析该html文本,匹配出相关搜索图片结果的url,并把这些url对应的图片下载到本地;步骤3,过滤步骤2得到的所述图片中特征偏离整体分布的样本点;步骤4,利用基于公开数据集训练好的模型,对过滤后的图片进行预标注,再过滤掉图片中明显不符合要求的类别,得到样本合集。人工智能项目初期可通过该方法快速且低成本的构建较大的样本集合,以提高深度学习系统的准确度和泛化能力。

Description

一种基于互联网图片资源的数据挖掘和迁移学习系统及其方 法和应用
技术领域
本发明涉及图像处理技术领域,特别是涉及一种基于互联网图片资源的数据挖掘和迁移学习系统及其方法和应用。
背景技术
传统行业图片识别的落地场景很多,但在项目初期大多数项目的预算有限、而且对时间有一定要求。目前云端开放AI平台只能解决通用的识别问题,且精度有限,对于个性化的业务场景需要单独构建训练数据集合。如果分类涉及的物体类型较多,样本采集需要耗费大量的人力和资金。
发明内容
本发明的目的是针对现有技术中存在的构建图片识别数据集合精度低、成本高的问题,而提供一种基于互联网图片资源的数据挖掘和迁移学习系统,该系统可快速且低成本的构建图片识别数据集合的方法。
为实现本发明的目的所采用的技术方案是:
一种基于互联网图片资源的数据挖掘和迁移学习系统,包括关键词生成模块、图片抓取模块、图片数据过滤模块和图片预标注模块,其中:
关键词生成模块,用于指定关键词和组合方式,生成搜索引擎的搜索词;
图片抓取模块,用所述搜索词通过爬虫访问搜索引擎,下载相关图片;
图片数据过滤模块,过滤所述图片中特征偏离整体分布的样本点;
迁移学习算法的校正模块,利用基于公开数据集训练好的模型,对过滤后的图片进行预标注,再过滤掉图片中明显不符合要求的类别,得到样本合集。
在上述技术方案中,所述模型可采用基于imagenet训练的inceptionV3模型,ResNet模型,DenseNet模型或NasNet模型。
在上述技术方案中,所述图片数据过滤模块过滤初级特征和整体分布明显不符的图片。在上述技术方案中,所述图片数据过滤模块过滤长或宽小于100像素的图表和灰度分布的标准差小于0.05的图片。
本发明的另一方面,还包括所述互联网图片资源的数据挖掘和迁移学习系统在快速搭建图像识别系统原型应用。所述样本合集经过人工筛选后供图像识别模型训练使用。
本发明的另一方面,还包括基于互联网图片资源的数据挖掘和迁移学习方法,包括以下步骤:
步骤1,指定关键词和组合方式,生成搜索引擎的搜索词;
步骤2,通过python语言自带库基于所述搜索词访问图片搜索引擎的相关url,网络将返回该url对应的html文本,然后解析该html文本,匹配出相关搜索图片结果的url,并把这些url对应的图片下载到本地;
步骤3,过滤步骤2得到的所述图片中特征偏离整体分布的样本点;
步骤4,利用基于公开数据集训练好的模型,对过滤后的图片进行预标注,再过滤掉图片中明显不符合要求的类别,得到样本合集。
在上述技术方案中,所述步骤2中,图片下载过程中通过python的多线程模块进行加速。
在上述技术方案中,所述步骤2中,通过正则表达式方式匹配出相关搜索图片结果的url。
在上述技术方案中,所述步骤4中模型为基于imagenet训练的inceptionV3模型,ResNet模型,DenseNet模型或NasNet模型。
在上述技术方案中,所述步骤3中,图片数据过滤模块过滤初级特征和整体分布明显不符的图片。
在上述技术方案中,所述步骤3中,所述图片数据过滤模块过滤长或宽小于100像素的图表和灰度分布的标准差小于0.05的图片。
本发明的另一方面,还包括所述基于互联网图片资源的数据挖掘和迁移学习方法在快速搭建图像识别系统原型应用。所述样本合集经过人工筛选后供图像识别模型训练使用。
与现有技术相比,本发明的有益效果是:
人工智能项目初期可通过该方法快速且低成本的构建较大的样本集合,以提高深度学习系统的准确度和泛化能力。对于人工智能产品来说,可以快速确定方向可行性,构建产品原型。
附图说明
图1所示为实施例3中该垃圾分类模型应用于真实样本得到的预测信息。
图2是实施例3中智能分类垃圾桶的应用场景。
具体实施方式
以下结合具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例1
一种基于互联网图片资源的数据挖掘和迁移学习系统,包括关键词生成模块、图片抓取模块、图片数据过滤模块和图片预标注模块,其中:
关键词生成模块,用于指定关键词和组合方式,生成搜索引擎的搜索词;在此模块中输入为各图片类别的核心关键词作为搜索词。比如,想要选取一批塑料瓶作为样本,核心关键词选择碳酸饮料瓶、果汁瓶、功能饮料瓶等
图片抓取模块,用所述搜索词通过爬虫访问搜索引擎,下载相关图片;
图片数据过滤模块,过滤所述图片中特征偏离整体分布的样本点;
迁移学习算法的校正模块,利用基于公开数据集训练好的模型,对过滤后的图片进行预标注,再过滤掉图片中明显不符合要求的类别,得到样本合集。比如,目标采集样本为物体,如果图片预标注中“人”这个属性的分值较高,则过滤该图片。
作为优选方式,所述模型可采用基于imagenet训练的inceptionV3模型或ResNet,DenseNet,NasNet等模型。
作为优选方式,所述图片数据过滤模块过滤初级特征和整体分布明显不符的图片,更具体的:1,图片长和宽的像素,长或宽小于100像素则过滤;2,图片灰度分布的标准差,该值小于0.05过滤。去除搜索引擎返回的部分质量不高或相关性不好的图片。
实施例2
基于互联网图片资源的数据挖掘和迁移学习方法,包括以下步骤:
步骤1,指定关键词和组合方式,生成搜索引擎的搜索词;
步骤2,通过python语言自带库基于所述搜索词访问图片搜索引擎的相关url,网络将返回该url对应的html文本,然后解析该html文本,匹配出相关搜索图片结果的url,并把这些url对应的图片下载到本地;
步骤3,过滤步骤2得到的所述图片中特征偏离整体分布的样本点;
步骤4,利用基于公开数据集训练好的模型,对过滤后的图片进行预标注,再过滤掉图片中明显不符合要求的类别,得到样本合集。
作为优选方式,所述步骤2中,图片下载过程中通过python的多线程模块进行加速。
作为优选方式,所述步骤2中,通过正则表达式方式匹配出相关搜索图片结果的url。
实施例3
如实施例1所述的基于互联网图片资源的数据挖掘和迁移学习系统或实施例2所述的方法在快速搭建图像识别系统原型应用,实施例1所述的系统或实施例2所述的方法所得样本集合经过简单人工筛选后供模型训练使用。
比如其可应用于垃圾分类模型的初期构建中,对玻璃、金属、塑料、纸张、其他垃圾等分类进行样本集合(样本库)构建。可以使垃圾分类模型的预测准确率迅速达到80%,然后再通过进一步收集真实样本,进一步提升准确率。如图1所示,是该垃圾分类模型应用于真实样本的达到的预测信息。
该垃圾分类模型可应用于智能垃圾桶中,如图2所示,对各类垃圾在线预测分类。
以上所述仅是本发明的优选实施方式,应当指出的是,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种基于互联网图片资源的数据挖掘和迁移学习系统,其特征在于,包括关键词生成模块、图片抓取模块、图片数据过滤模块和图片预标注模块,其中:
关键词生成模块,用于指定关键词和组合方式,生成搜索引擎的搜索词;
图片抓取模块,用所述搜索词通过爬虫访问搜索引擎,下载相关图片;
图片数据过滤模块,过滤所述图片中特征偏离整体分布的样本点;
迁移学习算法的校正模块,利用基于公开数据集训练好的模型,对过滤后的图片进行预标注,再过滤掉图片中明显不符合要求的类别,得到样本合集。
2.如权利要求1所述的基于互联网图片资源的数据挖掘和迁移学习系统,其特征在于,所述模型可采用基于imagenet训练的inceptionV3模型,ResNet模型,DenseNet模型或NasNet模型。
3.如权利要求1所述的基于互联网图片资源的数据挖掘和迁移学习系统,其特征在于,所述图片数据过滤模块过滤初级特征和整体分布明显不符的图片。
4.如权利要求1所述的基于互联网图片资源的数据挖掘和迁移学习系统,其特征在于,所述图片数据过滤模块过滤长或宽小于100像素的图表和灰度分布的标准差小于0.05的图片。
5.如权利要求1所述的基于互联网图片资源的数据挖掘和迁移学习系统在快速搭建图像识别系统原型应用,其特征在于,所述样本合集经过人工筛选后供图像识别模型训练使用。
6.基于互联网图片资源的数据挖掘和迁移学习方法,其特征在于,包括以下步骤:
步骤1,指定关键词和组合方式,生成搜索引擎的搜索词;
步骤2,通过python语言自带库基于所述搜索词访问图片搜索引擎的相关url,网络将返回该url对应的html文本,然后解析该html文本,匹配出相关搜索图片结果的url,并把这些url对应的图片下载到本地;
步骤3,过滤步骤2得到的所述图片中特征偏离整体分布的样本点;
步骤4,利用基于公开数据集训练好的模型,对过滤后的图片进行预标注,再过滤掉图片中明显不符合要求的类别,得到样本合集。
7.如权利要求6所述的互联网图片资源的数据挖掘和迁移学习方法,其特征在于,所述步骤2中,图片下载过程中通过python的多线程模块进行加速。
8.如权利要求6所述的互联网图片资源的数据挖掘和迁移学习方法,其特征在于,通过正则表达式方式匹配出相关搜索图片结果的url。
9.如权利要求6所述的互联网图片资源的数据挖掘和迁移学习方法,其特征在于,所述步骤4中模型为基于imagenet训练的inceptionV3模型,ResNet模型,DenseNet模型或NasNet模型。
10.如权利要求6所述的互联网图片资源的数据挖掘和迁移学习方法在快速搭建图像识别系统原型应用其特征在于,所述样本合集经过人工筛选后供图像识别模型训练使用。
CN201910831948.4A 2019-09-04 2019-09-04 一种基于互联网图片资源的数据挖掘和迁移学习系统及其方法和应用 Pending CN112445924A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910831948.4A CN112445924A (zh) 2019-09-04 2019-09-04 一种基于互联网图片资源的数据挖掘和迁移学习系统及其方法和应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910831948.4A CN112445924A (zh) 2019-09-04 2019-09-04 一种基于互联网图片资源的数据挖掘和迁移学习系统及其方法和应用

Publications (1)

Publication Number Publication Date
CN112445924A true CN112445924A (zh) 2021-03-05

Family

ID=74734609

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910831948.4A Pending CN112445924A (zh) 2019-09-04 2019-09-04 一种基于互联网图片资源的数据挖掘和迁移学习系统及其方法和应用

Country Status (1)

Country Link
CN (1) CN112445924A (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649610A (zh) * 2016-11-29 2017-05-10 北京智能管家科技有限公司 图片标注方法及装置
CN107066521A (zh) * 2017-02-16 2017-08-18 国网上海市电力公司 基于文本关键字的输电线路设备关联图片爬取方法
CN107122450A (zh) * 2017-04-26 2017-09-01 广州图匠数据科技有限公司 一种网络图片舆情监测方法
CN107562742A (zh) * 2016-06-30 2018-01-09 苏宁云商集团股份有限公司 一种图像数据处理方法及装置
CN109190691A (zh) * 2018-08-20 2019-01-11 小黄狗环保科技有限公司 基于深度神经网络的废弃饮料瓶与易拉罐分类识别的方法
CN109389161A (zh) * 2018-09-28 2019-02-26 广州大学 基于深度学习的垃圾识别进化学习方法、装置、系统及介质
CN109784391A (zh) * 2019-01-04 2019-05-21 杭州比智科技有限公司 基于多模型的样本标注方法及装置
CN109886590A (zh) * 2019-02-28 2019-06-14 燊赛(上海)智能科技有限公司 一种基于深度学习的产品封装质量检测系统
CN109948639A (zh) * 2019-05-23 2019-06-28 君库(上海)信息科技有限公司 一种基于深度学习的图片垃圾识别方法
CN109977790A (zh) * 2019-03-04 2019-07-05 浙江工业大学 一种基于迁移学习的视频烟雾检测与识别方法
CN110009620A (zh) * 2019-04-03 2019-07-12 国网四川省电力公司检修公司 基于迁移学习算法进行电网防震锤智能识别的方法及系统

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107562742A (zh) * 2016-06-30 2018-01-09 苏宁云商集团股份有限公司 一种图像数据处理方法及装置
CN106649610A (zh) * 2016-11-29 2017-05-10 北京智能管家科技有限公司 图片标注方法及装置
CN107066521A (zh) * 2017-02-16 2017-08-18 国网上海市电力公司 基于文本关键字的输电线路设备关联图片爬取方法
CN107122450A (zh) * 2017-04-26 2017-09-01 广州图匠数据科技有限公司 一种网络图片舆情监测方法
CN109190691A (zh) * 2018-08-20 2019-01-11 小黄狗环保科技有限公司 基于深度神经网络的废弃饮料瓶与易拉罐分类识别的方法
CN109389161A (zh) * 2018-09-28 2019-02-26 广州大学 基于深度学习的垃圾识别进化学习方法、装置、系统及介质
CN109784391A (zh) * 2019-01-04 2019-05-21 杭州比智科技有限公司 基于多模型的样本标注方法及装置
CN109886590A (zh) * 2019-02-28 2019-06-14 燊赛(上海)智能科技有限公司 一种基于深度学习的产品封装质量检测系统
CN109977790A (zh) * 2019-03-04 2019-07-05 浙江工业大学 一种基于迁移学习的视频烟雾检测与识别方法
CN110009620A (zh) * 2019-04-03 2019-07-12 国网四川省电力公司检修公司 基于迁移学习算法进行电网防震锤智能识别的方法及系统
CN109948639A (zh) * 2019-05-23 2019-06-28 君库(上海)信息科技有限公司 一种基于深度学习的图片垃圾识别方法

Similar Documents

Publication Publication Date Title
CN109117777A (zh) 生成信息的方法和装置
WO2021082589A1 (zh) 内容审核模型的训练方法和装置、视频内容的审核方法和装置、计算机设备以及存储介质
CN102855480A (zh) 一种图像文字识别方法和装置
CN112214707A (zh) 网页内容表征方法、分类方法、装置及设备
CN110210550A (zh) 基于集成学习策略的图像细粒度识别方法
CN115953788A (zh) 基于ocr和nlp技术的绿色金融属性智能认定方法及系统
CN115830610A (zh) 一种多模态广告识别方法、系统、电子设备及存储介质
CN110929032B (zh) 一种软件系统的用户需求处理系统及处理方法
CN110019827B (zh) 一种语料库生成方法、装置、设备和计算机存储介质
CN111008329A (zh) 基于内容分类的页面内容推荐方法及装置
CN116994021A (zh) 图像检测方法、装置、计算机可读介质及电子设备
CN112381114A (zh) 一种深度学习图像标注系统及方法
CN106204103A (zh) 一种移动广告平台寻找相似用户的方法
CN114973086A (zh) 视频处理方法、装置、电子设备及存储介质
CN114782752A (zh) 基于自训练的小样本图像集成分类方法及装置
CN113901924A (zh) 一种文档表格的检测方法及装置
CN116756576B (zh) 数据处理方法、模型训练方法、电子设备及存储介质
CN112749556A (zh) 多语言模型的训练方法和装置、存储介质和电子设备
CN112445924A (zh) 一种基于互联网图片资源的数据挖掘和迁移学习系统及其方法和应用
CN113806536B (zh) 文本分类方法及其装置、设备、介质、产品
CN114565804A (zh) 一种nlp模型训练识别系统
CN115131065A (zh) 一种基于计算机视觉的短视频沉浸式广告推广方法及系统
CN116502173A (zh) 一种状态识别方法、装置、存储介质及设备
CN114005054A (zh) 一种ai智能评分系统
CN111209807A (zh) 一种基于yolov3的视频结构化方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210305