CN103514171B - 基于光学字符识别与垂直搜索的自定义爬虫方法 - Google Patents

基于光学字符识别与垂直搜索的自定义爬虫方法 Download PDF

Info

Publication number
CN103514171B
CN103514171B CN201210204733.8A CN201210204733A CN103514171B CN 103514171 B CN103514171 B CN 103514171B CN 201210204733 A CN201210204733 A CN 201210204733A CN 103514171 B CN103514171 B CN 103514171B
Authority
CN
China
Prior art keywords
reptile
configuration
url
character recognition
automatization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210204733.8A
Other languages
English (en)
Other versions
CN103514171A (zh
Inventor
王专
吴志祥
张海龙
马和平
吴剑
郭凤林
王晓钟
庞绍进
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongcheng Network Technology Co Ltd
Original Assignee
Tongcheng Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongcheng Network Technology Co Ltd filed Critical Tongcheng Network Technology Co Ltd
Priority to CN201210204733.8A priority Critical patent/CN103514171B/zh
Publication of CN103514171A publication Critical patent/CN103514171A/zh
Application granted granted Critical
Publication of CN103514171B publication Critical patent/CN103514171B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于光学字符识别与垂直搜索的自定义爬虫方法,其特点是:采用光学字符识别与垂直搜索的自定义爬虫相结合,包括自动化爬虫配置阶段与程序执行阶段。这样,可以有效减少程序的维护成本和提高数据获取的灵活性。并且,将本发明的内容实施到搜索引擎的相关程序执行上后,可以有效提升程序的运行工作效率,进而优化搜索过程,为使用者和实施者均带来了便利性。

Description

基于光学字符识别与垂直搜索的自定义爬虫方法
技术领域
本发明涉及一种自定义爬虫方法,尤其涉及一种基于光学字符识别与垂直搜索的自定义爬虫方法。
背景技术
对于庞大的互联网数据,不同领域关注的数据类型不同,传统的搜索引擎不能准确的搜索到高质量的数据,于是垂直搜索引擎被广泛使用。
垂直搜索中数据获取方式一般是由一定编程功底的人员,通过正则表达式对网页上的数据进行抽取。但是,由于需求与网页源代码的多变性要求编程人员对程序不断的进行更改,这样大大增加了程序的维护成本。
另外,有些数据的获取需要进行登录,登录一般需要输入验证码。这样导致程序自动获取数据的难度增加。
发明内容
本发明的目的就是为了解决现有技术中存在的上述问题,提供一种基于光学字符识别与垂直搜索的自定义爬虫方法。
本发明的目的通过以下技术方案来实现:
基于光学字符识别与垂直搜索的自定义爬虫方法,其包括自动化爬虫配置阶段与程序执行阶段,
所述自动化爬虫配置阶段包括以下步骤,步骤①,根据网页是否需要登录浏览来判断是否需要配置登录,需要登录则进入步骤②,不需要登录则进入步骤③;步骤②,配置登录信息,并配置验证码图片获取规则;步骤③,配置起始页URL与相关规则;步骤④,判断标识是否终页,若是则终页执行步骤⑦,若不是则进入步骤⑤;步骤⑤,配置下一页URL获取规则;步骤⑥,配置URL有效数据抽取规则,进入步骤④;步骤⑦,配置以上步骤中抽取的有效数据的整合;步骤,配置步骤⑦整合数据的存储设置;步骤,保存自动化爬虫配置信息。
程序执行阶段包括以下步骤:步骤①,程序读取自动化爬虫配置信息;步骤②,根据自动化爬虫配置信息登录相关配置判断是否需要进行登录,需要登录则进入步骤③,不需要则进入步骤⑦;步骤③,根据自动化爬虫配置信息中包含的验证码配置判断是否需要验证码识别,需要验证码识别则进入步骤④,否则进入步骤⑥;步骤④,服务器下载验证码图片;步骤⑤,图片数据发送到光学字符识别服务器,该服务器读取图片信息并返回;步骤⑥,尝试登陆,若登陆成功则进入步骤⑦,否则进入步骤;步骤⑦,取出起始页的URL;步骤,访问给定的URL;步骤,按照相应URL的配置信息抽取此URL网页中的有效数据,有数据既为想要的内容;步骤,判断当前页面是不是终页,若是则进入步骤,若不是则进入步骤;步骤按照相应URL的配置信息获取下一层的URL,进入步骤;步骤,整合以上步骤抽取的数据。
上述的基于光学字符识别与垂直搜索的自定义爬虫方法,其中:所述的登录信息包括cookie、用户名、密码。
进一步地,上述的基于光学字符识别与垂直搜索的自定义爬虫方法,其中:所述的储存设置是文本存储或是数据库存储,文本存储需写明输出路径,数据库则配置数据库的地址、用户名、密码。
更进一步地,上述的基于光学字符识别与垂直搜索的自定义爬虫方法,其中:所述的相应URL的配置信息是正则表达式,用于抽取页面中的想要内容。
本发明技术方案的优点主要体现在:依托于OCR(OpticalCharacterRecognition\光学字符识别)技术与自定义垂直搜索爬虫的配合,可以有效减少程序的维护成本和提高数据获取的灵活性。并且,将本发明的内容实施到搜索引擎的相关程序执行上后,可以有效提升程序的运行工作效率,进而优化搜索过程,为使用者和实施者均带来了便利性。
附图说明
本发明的目的、优点和特点,将通过下面优选实施例的非限制性说明进行图示和解释。这些实施例仅是应用本发明技术方案的典型范例,凡采取等同替换或者等效变换而形成的技术方案,均落在本发明要求保护的范围之内。这些附图当中,
图1是自动化爬虫配置阶段的流程示意图;
图2是自动化爬虫程序执行阶段的流程示意图。
具体实施方式
如图1、2所示的基于光学字符识别与垂直搜索的自定义爬虫方法,其特别之处在于:包括自动化爬虫配置阶段与程序执行阶段。
具体来说,采用的自动化爬虫配置阶段包括以下步骤:步骤①,根据网页是否需要登录浏览来判断是否需要配置登录,需要登录则进入步骤②,不需要登录则进入步骤③。步骤②,配置登录信息,并配置验证码图片获取规则。为了便于程序的处理,提高整体的工作效率,采用的登录信息包括cookie、用户名、密码。当然,可以追加其他的相关内容到登录信息中,便于网站判断是否登录的相关信息,即模拟登录的必要信息。在此期间,若不需要验证码识别,则不配置验证码图片获取规则。
步骤③,配置起始页URL与相关规则。步骤④,判断标识是否终页,若是则终页执行步骤⑦,若不是则进入步骤⑤。步骤⑤,配置下一页URL获取规则。步骤⑥,配置URL有效数据抽取规则,进入步骤④。步骤⑦,配置以上步骤中抽取的有效数据的整合。步骤,配置步骤⑦整合数据的存储设置。具体来说,考虑到不同的实施方式,采用的储存设置是文本存储或是数据库存储,文本存储需写明输出路径,数据库则配置数据库的地址、用户名、密码。步骤,保存自动化爬虫配置信息。这样,为后续的执行进行准备。
进一步来看,本发明采用的程序执行阶段包括以下步骤:步骤①,程序读取自动化爬虫配置信息。步骤②,根据自动化爬虫配置信息登录相关配置判断是否需要进行登录,需要登录则进入步骤③,不需要则进入步骤⑦。
步骤③,根据自动化爬虫配置信息中包含的验证码配置判断是否需要验证码识别,需要验证码识别则进入步骤④,否则进入步骤⑥。步骤④,服务器下载验证码图片。步骤⑤,图片数据发送到光学字符识别(OCROpticalCharacterRecognition)服务器,该服务器读取图片信息并返回。步骤⑥,尝试登陆,若登陆成功则进入步骤⑦,否则进入步骤。步骤⑦,取出起始页的URL。步骤,访问给定的URL。步骤,按照相应URL的配置信息抽取此URL网页中的有效数据,有数据既为想要的内容。具体来说,去了便于相关内容的抽取,相应URL的配置信息是正则表达式,用于抽取页面中的想要内容。
步骤,判断当前页面是不是终页,若是则进入步骤,若不是则进入步骤。步骤按照相应URL的配置信息获取下一层的URL,进入步骤。步骤,整合以上步骤抽取的数据。
通过上述的文字表述可以看出,采用本发明后,依托于OCR(OpticalCharacterRecognition\光学字符识别)技术与自定义垂直搜索爬虫的配合,可以有效减少程序的维护成本和提高数据获取的灵活性。并且,将本发明的内容实施到搜索引擎的相关程序执行上后,可以有效提升程序的运行工作效率,进而优化搜索过程,为使用者和实施者均带来了便利性。

Claims (4)

1.基于光学字符识别与垂直搜索的自定义爬虫方法,其特征在于:包括自动化爬虫配置阶段与程序执行阶段,
所述自动化爬虫配置阶段包括以下步骤,
步骤①,根据网页是否需要登录浏览来判断是否需要配置登录,需要登录则进入步骤②,不需要登录则进入步骤③;
步骤②,配置登录信息,并配置验证码图片获取规则;
步骤③,配置起始页URL与相关规则;
步骤④,判断标识是否终页,若是终页则执行步骤⑦,若不是则进入步骤⑤;
步骤⑤,配置下一页URL获取规则;
步骤⑥,配置URL有效数据抽取规则,进入步骤④;
步骤⑦,配置以上步骤中抽取的有效数据的整合;
步骤⑧,配置步骤⑦整合数据的存储设置;
步骤⑨,保存自动化爬虫配置信息;
程序执行阶段包括以下步骤:
步骤(1),程序读取自动化爬虫配置信息;
步骤(2),根据自动化爬虫配置信息登录相关配置判断是否需要进行登录,需要登录则进入步骤(3),不需要则进入步骤(7);
步骤(3),根据自动化爬虫配置信息中包含的验证码配置判断是否需要验证码识别,需要验证码识别则进入步骤(4),否则进入步骤(6);
步骤(4),服务器下载验证码图片;
步骤(5),图片数据发送到光学字符识别服务器,该服务器读取图片信息并返回;
步骤(6),尝试登陆,若登陆成功则进入步骤(7),否则进入步骤(4);
步骤(7),取出起始页的URL;
步骤(8),访问给定的URL;
步骤(9),按照相应URL的配置信息抽取此URL网页中的有效数据,有数据既为想要的内容;
步骤(10),判断当前页面是不是终页,若是则进入步骤(12),若不是则进入步骤(11);
步骤(11)按照相应URL的配置信息获取下一层的URL,进入步骤⑧;
步骤(12),整合以上步骤抽取的数据。
2.根据权利要求1所述的基于光学字符识别与垂直搜索的自定义爬虫方法,其特征在于:所述的登录信息包括cookie、用户名、密码。
3.根据权利要求1所述的基于光学字符识别与垂直搜索的自定义爬虫方法,其特征在于:所述的存储设置是文本存储或是数据库存储,文本存储需写明输出路径,数据库则配置数据库的地址、用户名、密码。
4.根据权利要求1所述的基于光学字符识别与垂直搜索的自定义爬虫方法,其特征在于:所述的相应URL的配置信息是正则表达式,用于抽取页面中想要的内容。
CN201210204733.8A 2012-06-20 2012-06-20 基于光学字符识别与垂直搜索的自定义爬虫方法 Active CN103514171B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210204733.8A CN103514171B (zh) 2012-06-20 2012-06-20 基于光学字符识别与垂直搜索的自定义爬虫方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210204733.8A CN103514171B (zh) 2012-06-20 2012-06-20 基于光学字符识别与垂直搜索的自定义爬虫方法

Publications (2)

Publication Number Publication Date
CN103514171A CN103514171A (zh) 2014-01-15
CN103514171B true CN103514171B (zh) 2016-08-03

Family

ID=49896911

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210204733.8A Active CN103514171B (zh) 2012-06-20 2012-06-20 基于光学字符识别与垂直搜索的自定义爬虫方法

Country Status (1)

Country Link
CN (1) CN103514171B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103984719A (zh) * 2014-05-12 2014-08-13 浪潮电子信息产业股份有限公司 一种爬虫模拟登陆采集的方法
CN104484424A (zh) * 2014-12-19 2015-04-01 浪潮通用软件有限公司 基于互联网建筑施工企业资源价格信息库的构建方法
CN105930727B (zh) * 2016-04-25 2018-11-09 无锡中科富农物联科技有限公司 基于Web的爬虫识别方法
CN106095918B (zh) * 2016-06-06 2020-03-06 山东科技大学 一种基于ocr技术的网络受保护指数数据的获取方法
CN106897357B (zh) * 2017-01-04 2023-07-18 北京京拍档科技股份有限公司 一种用于带验证分布式智能爬取网络信息的方法
CN108076067B (zh) * 2017-12-27 2021-05-18 北京中关村科金技术有限公司 一种授权爬虫配置化模拟登录的方法及系统
CN108345641B (zh) * 2018-01-12 2021-02-05 深圳壹账通智能科技有限公司 一种爬取网站数据的方法、存储介质和服务器
CN109783714A (zh) * 2019-01-08 2019-05-21 上海因致信息科技有限公司 接口数据获取方法及系统
CN110119468A (zh) * 2019-05-15 2019-08-13 重庆八戒传媒有限公司 一种提高抓取公开数据种子精度的方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101291304A (zh) * 2008-06-13 2008-10-22 清华大学 可移植的网络信息共享方法
CN101635718A (zh) * 2009-08-26 2010-01-27 中兴通讯股份有限公司 网络爬虫系统及其获取资源的方法和网络资源抓取装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ITRM20030589A1 (it) * 2003-12-22 2005-06-23 Salvatore Pappalardo Metodo esperto di ricerca, redazione ed edizione di

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101291304A (zh) * 2008-06-13 2008-10-22 清华大学 可移植的网络信息共享方法
CN101635718A (zh) * 2009-08-26 2010-01-27 中兴通讯股份有限公司 网络爬虫系统及其获取资源的方法和网络资源抓取装置

Also Published As

Publication number Publication date
CN103514171A (zh) 2014-01-15

Similar Documents

Publication Publication Date Title
CN103514171B (zh) 基于光学字符识别与垂直搜索的自定义爬虫方法
US20150295942A1 (en) Method and server for performing cloud detection for malicious information
US10290028B2 (en) Computer implemented system for managing advertisements and a method thereof
CN107526776A (zh) 呈现搜索结果的计算机化方法及系统
CN102098331A (zh) 一种还原web类应用内容的方法及其系统
CN109976840B (zh) 一种基于前后台分离平台下实现多语言自动适配的方法及系统
CN104598577A (zh) 一种网页正文的提取方法
WO2014161455A1 (zh) 一种基于浏览器的数据访问控制方法和装置
CN106446113A (zh) 移动大数据解析方法及装置
CN107590236B (zh) 一种面向建筑施工企业的大数据采集方法和系统
CN106302849A (zh) 一种通过运营商数据进行移固融合的方法
CN102306201A (zh) 一种网页标题分析的方法和系统
CN106547895B (zh) 一种网页信息的提取方法及装置
CN103345532A (zh) 一种网页信息抽取方法及装置
CN104572934A (zh) 一种基于dom的网页关键内容抽取方法
CN103425931A (zh) 一种网页异常脚本检测方法及系统
CN107436931B (zh) 网页正文抽取方法及装置
CN102486792B (zh) 一种将通用论坛页面重新组织和显示的方法及系统
CN104899203B (zh) 一种网页页面的生成方法、装置及终端设备
CN105204806A (zh) 移动终端网页个性化显示方法及装置
CN113239256A (zh) 生成网站签名的方法、识别网站的方法及装置
CN100590623C (zh) 基于视觉的Web数据抽取系统和方法
CN109165264B (zh) 一种基于多样化热力图的网页分析方法及装置
CN107451215B (zh) 特征文本抽取方法及装置
CN109088873A (zh) 一种基于人脸识别大数据的登录系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant