CN107066521A - 基于文本关键字的输电线路设备关联图片爬取方法 - Google Patents

基于文本关键字的输电线路设备关联图片爬取方法 Download PDF

Info

Publication number
CN107066521A
CN107066521A CN201710083706.2A CN201710083706A CN107066521A CN 107066521 A CN107066521 A CN 107066521A CN 201710083706 A CN201710083706 A CN 201710083706A CN 107066521 A CN107066521 A CN 107066521A
Authority
CN
China
Prior art keywords
picture
text keyword
keyword
association
transmission line
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710083706.2A
Other languages
English (en)
Inventor
何冰
袁奇
王媚
印明骋
王欣庭
赖志超
柴忠良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Shanghai Electric Power Co Ltd
Original Assignee
State Grid Shanghai Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Shanghai Electric Power Co Ltd filed Critical State Grid Shanghai Electric Power Co Ltd
Priority to CN201710083706.2A priority Critical patent/CN107066521A/zh
Publication of CN107066521A publication Critical patent/CN107066521A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/10Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM]
    • G06F21/16Program or content traceability, e.g. by watermarking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Technology Law (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于文本关键字的输电线路设备关联图片爬取方法,包括步骤:S1:获取文本关键字;S2:根据获取的文本关键字扩展得到相关关键字;S3:基于文本关键字和相关关键字利用搜索引擎的图片搜索服务器搜索得到关联图片;S4:下载关联图片。与现有技术相比,本发明利用本地的联想功能,而不是利用搜索引擎自身的联想能力,可以让联想更加符合电力系统特点,从而搜索到更加符合要求的关联图片,有利于智能检测系统有效训练。

Description

基于文本关键字的输电线路设备关联图片爬取方法
技术领域
本发明涉及一种图片爬取方法,尤其是涉及一种基于文本关键字的输电线路设备关联图片爬取方法。
背景技术
电力是现代工业发展的根本,也是我国的重要资源。为确保电力网络的安全运行,如何对电力网络进行安全巡检,是我们目前研究关注的重点。电线路巡检目前主要可分为人工巡检、机器人巡检、载人直升机巡检和无人机巡检4种方式。传统的人工巡检不仅要求巡检人员具有相关的专业知识,而且还极大的依赖于巡检员的工作态度,并且恶劣的环境也对人工巡检提出了极大的挑战。相比于人工巡检,其他3种巡检方式不仅提高了检修效率,而且人力成本低、风险小。在这类现代的电路巡检方法过程中,会拍摄大量的电路巡检图片,而利用这些巡检图片作为资源,可以开发出一个通过电力图像来分析电力器件安全性的智能系统。在开发一个具有智能检测的系统时,系统的图像资源集的大小对系统的智能识别准备率具有决定性的影响。目前,仅仅依靠巡检过程中现场采集的图片非常有限,而且单一电力企业没有足够的训练数据,计算机的训练集太小,学习训练不够充分,所以导致识别率不高。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于文本关键字的输电线路设备关联图片爬取方。
本发明的目的可以通过以下技术方案来实现:
一种基于文本关键字的输电线路设备关联图片爬取方法,包括步骤:
S1:获取文本关键字;
S2:根据获取的文本关键字扩展得到相关关键字;
S3:基于文本关键字和相关关键字利用搜索引擎的图片搜索服务器搜索得到关联图片;
S4:下载关联图片。
所述步骤S3具体包括步骤:
S31:基于文本关键字和相关关键字向搜索引擎的图片搜索服务器发送HTTP搜索请求;
S32:接收并获取由搜索服务器返回的关联图片的下载链接;
S33:保存获取的关联图片的下载链接。
所述步骤S32包括步骤:
S321:接收由搜索服务器返回的每一张关联图片的下载链接属性;
S322:从反馈的每一张关联图片的下载链接属性中获取该关联图片的下载链接。
所述步骤S4中,下载关联图片时更新并保存下载状态和源搜索引擎。
所述步骤S4中,采用异步多线程方式下载关联图片。
所述步骤S3中,利用多个搜索引擎的图片搜索服务器搜索得到关联图片。
与现有技术相比,本发明具有以下优点:
1)利用本地的联想功能,而不是利用搜索引擎自身的联想能力,可以让联想更加符合电力系统特点,从而搜索到更加符合要求的关联图片,有利于智能检测系统有效训练。
2)将获取的关联图片的下载链接进行本地保存,从而实现断点续传。
3)从服务器返回的下载链接属性筛选出下载链接,避免了搜索引擎的反爬机制影响。
附图说明
图1为本发明方法的主要步骤流程示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
一种基于文本关键字的输电线路设备关联图片爬取方法,如图1所示,包括步骤:
S1:获取文本关键字;
S2:根据获取的文本关键字扩展得到相关关键字;
S3:基于文本关键字和相关关键字利用多个搜索引擎的图片搜索服务器搜索得到关联图片,具体包括步骤:
S31:基于文本关键字和相关关键字向搜索引擎的图片搜索服务器发送HTTP搜索请求;
S32:接收并获取由搜索服务器返回的关联图片的下载链接,具体包括步骤:
S321:接收由搜索服务器返回的每一张关联图片的下载链接属性;
S322:从反馈的每一张关联图片的下载链接属性中获取该关联图片的下载链接。
S33:保存获取的关联图片的下载链接。
S4:采用异步多线程方式下载关联图片,其中,下载关联图片时更新并保存下载状态和源搜索引擎。
利用此方法得到的关联图片可以为后续的图像识别系统研发提供结构化的训练集数据,进一步提升电力图像识别算法的有效性和准确率,提高系统的鲁棒性。自动的从互联网上异步多线程爬取关键字关联图片,对用户请求内容扩展关联内容,并且全自动操作,操作简单,提升工作效率。首先客户端向搜索引擎的图片搜索服务器发送关键字搜索请求,服务器接受到客户端的搜索请求后,根据用户请求的信息返回相关图片下载链接,客户端接收到服务器返回的图片下载链接,将图片下载链接信息存入到数据库,等待下载,最后客户端的本地下载器异步多线程下载数据库中未下载的资源。
1)搜索引擎的反爬虫机制。各大搜索引擎具有反爬虫机制,在搜索引擎的图片服务器接收到查询信息后返回到图片下载链接是不能直接被程序下载的。在申请中,根据搜索引擎返回的html代码,利用html解析器与正则表达式等相关技术,将html代码中图片的原始网站地址提取出来,图片的原始网站地址是能够被程序下载器下载的。以百度图片为例:下载百度图片中的图片,百度返回给用户的图片信息中包含thumbURL、middleURL、objURL、fromURL这四个图片下载链接属性,其中只有通过objURL属性得到的图片原始下载链接可以被程序自动下载。通过其他3个属性得到图片下载链接利用程序自动下载时,都会被百度图片网站的反爬虫机制限制。
2)断点续传;从服务器得到的待下载图片URL存入数据库,将待下载图片URL存入数据库中的目的是为了便于实现对图片下载任务的断点续传。同时这也能够在数据库中保存图片的其他相关信息,例如图片下载状态、源搜索引擎等。
3)相似关键字关联下载;本方法提出对单一关键词进行相似关键词扩展,将对单一关键词的爬取扩展为与这一关键词相似的多关键词爬取。以关键字电塔为例,电塔为单一关键词,对电塔关键字进行相似扩展,得到电力塔、风电塔、高压电塔、电线塔、高压线等相似关键词
利用本申请方法,将从前用户手动下载图片转变为程序自动下载关联图片,减少用户等待时间,提升用户体验感,使用方便,具有GUI界面,极易上手。使用者可以自定义感兴趣的关键字本文,爬虫就能自动匹配互联网上相关的图片并保存到本地磁盘中。同时本方法支持并行图片爬取,对需要下载大量图片,同时又需要快速获取数据的用户而言使用其并行功能,可以达到令人满意的效果。

Claims (6)

1.一种基于文本关键字的输电线路设备关联图片爬取方法,其特征在于,包括步骤:
S1:获取文本关键字;
S2:根据获取的文本关键字扩展得到相关关键字;
S3:基于文本关键字和相关关键字利用搜索引擎的图片搜索服务器搜索得到关联图片;
S4:下载关联图片。
2.根据权利要求1所述的一种基于文本关键字的输电线路设备关联图片爬取方法,其特征在于,所述步骤S3具体包括步骤:
S31:基于文本关键字和相关关键字向搜索引擎的图片搜索服务器发送HTTP搜索请求;
S32:接收并获取由搜索服务器返回的关联图片的下载链接;
S33:保存获取的关联图片的下载链接。
3.根据权利要求2所述的一种基于文本关键字的输电线路设备关联图片爬取方法,其特征在于,所述步骤S32包括步骤:
S321:接收由搜索服务器返回的每一张关联图片的下载链接属性;
S322:从反馈的每一张关联图片的下载链接属性中获取该关联图片的下载链接。
4.根据权利要求1所述的一种基于文本关键字的输电线路设备关联图片爬取方法,其特征在于,所述步骤S4中,下载关联图片时更新并保存下载状态和源搜索引擎。
5.根据权利要求1所述的一种基于文本关键字的输电线路设备关联图片爬取方法,其特征在于,所述步骤S4中,采用异步多线程方式下载关联图片。
6.根据权利要求1所述的一种基于文本关键字的输电线路设备关联图片爬取方法,其特征在于,所述步骤S3中,利用多个搜索引擎的图片搜索服务器搜索得到关联图片。
CN201710083706.2A 2017-02-16 2017-02-16 基于文本关键字的输电线路设备关联图片爬取方法 Pending CN107066521A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710083706.2A CN107066521A (zh) 2017-02-16 2017-02-16 基于文本关键字的输电线路设备关联图片爬取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710083706.2A CN107066521A (zh) 2017-02-16 2017-02-16 基于文本关键字的输电线路设备关联图片爬取方法

Publications (1)

Publication Number Publication Date
CN107066521A true CN107066521A (zh) 2017-08-18

Family

ID=59621456

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710083706.2A Pending CN107066521A (zh) 2017-02-16 2017-02-16 基于文本关键字的输电线路设备关联图片爬取方法

Country Status (1)

Country Link
CN (1) CN107066521A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112445924A (zh) * 2019-09-04 2021-03-05 天津职业技术师范大学(中国职业培训指导教师进修中心) 一种基于互联网图片资源的数据挖掘和迁移学习系统及其方法和应用

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101414307A (zh) * 2008-11-26 2009-04-22 阿里巴巴集团控股有限公司 提供图片搜索的方法和服务器
CN101876992A (zh) * 2009-11-17 2010-11-03 中国科学院自动化研究所 一种图像数据仓库管理方法
CN102033955A (zh) * 2010-12-24 2011-04-27 常华 扩展用户搜索结果的方法及服务器
CN102867042A (zh) * 2012-09-03 2013-01-09 北京奇虎科技有限公司 多媒体文件搜索方法及装置
CN104462528A (zh) * 2011-12-28 2015-03-25 优视科技有限公司 基于移动终端的网页图片浏览方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101414307A (zh) * 2008-11-26 2009-04-22 阿里巴巴集团控股有限公司 提供图片搜索的方法和服务器
CN101876992A (zh) * 2009-11-17 2010-11-03 中国科学院自动化研究所 一种图像数据仓库管理方法
CN102033955A (zh) * 2010-12-24 2011-04-27 常华 扩展用户搜索结果的方法及服务器
CN104462528A (zh) * 2011-12-28 2015-03-25 优视科技有限公司 基于移动终端的网页图片浏览方法及装置
CN102867042A (zh) * 2012-09-03 2013-01-09 北京奇虎科技有限公司 多媒体文件搜索方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李彦等: "面向创新设计的多层次Web信息检索研究", 《工程设计学报》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112445924A (zh) * 2019-09-04 2021-03-05 天津职业技术师范大学(中国职业培训指导教师进修中心) 一种基于互联网图片资源的数据挖掘和迁移学习系统及其方法和应用

Similar Documents

Publication Publication Date Title
CN108292323B (zh) 使用数据源的元数据的数据库操作
US11843505B1 (en) System and method of generation of a predictive analytics model and performance of centralized analytics therewith
US20200364033A1 (en) API Specification Generation
CN104951539B (zh) 互联网数据中心有害信息监测系统
WO2020164276A1 (zh) 网页数据爬取方法、装置、系统及计算机可读存储介质
CN108737423B (zh) 基于网页关键内容相似性分析的钓鱼网站发现方法及系统
CN107092639A (zh) 一种搜索引擎系统
US9665647B2 (en) System and method for indexing mobile applications
CN104899324B (zh) 一种基于idc有害信息监测系统的样本训练系统
CN105550206B (zh) 结构化查询语句的版本控制方法及装置
CN103218431A (zh) 一种能识别网页信息自动采集的系统与方法
CN112989348B (zh) 攻击检测方法、模型训练方法、装置、服务器及存储介质
US10482390B2 (en) Information discovery system
CN112257472B (zh) 一种文本翻译模型的训练方法、文本翻译的方法及装置
CN106294219A (zh) 一种设备识别、数据处理方法、装置及系统
CN113239290A (zh) 用于舆情监测的数据分析方法、装置和电子装置
CN113918794B (zh) 企业网络舆情效益分析方法、系统、电子设备及存储介质
CN103886033B (zh) 用于安全产业链的智能垂直搜索装置和方法
JP2023544925A (ja) データ評価方法、トレーニング方法および装置、電子機器、記憶媒体、コンピュータプログラム
CN107066521A (zh) 基于文本关键字的输电线路设备关联图片爬取方法
CN106844747A (zh) 基于种子图片识别的输电线路设备关联图片爬取方法
CN113704420A (zh) 文本中的角色识别方法、装置、电子设备及存储介质
CN109246069B (zh) 网页登录方法、装置和可读存储介质
CN110263283A (zh) 网站检测方法和装置
CN103902707A (zh) 基于专家系统url清洗知识库的“垃圾”内容过滤方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170818