CN103514171A - 基于光学字符识别与垂直搜索的自定义爬虫方法 - Google Patents

基于光学字符识别与垂直搜索的自定义爬虫方法 Download PDF

Info

Publication number
CN103514171A
CN103514171A CN201210204733.8A CN201210204733A CN103514171A CN 103514171 A CN103514171 A CN 103514171A CN 201210204733 A CN201210204733 A CN 201210204733A CN 103514171 A CN103514171 A CN 103514171A
Authority
CN
China
Prior art keywords
configuration
reptile
url
optical character
page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201210204733.8A
Other languages
English (en)
Other versions
CN103514171B (zh
Inventor
王专
吴志祥
张海龙
马和平
吴剑
郭凤林
王晓钟
庞绍进
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongcheng Network Technology Co Ltd
Original Assignee
Tongcheng Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongcheng Network Technology Co Ltd filed Critical Tongcheng Network Technology Co Ltd
Priority to CN201210204733.8A priority Critical patent/CN103514171B/zh
Publication of CN103514171A publication Critical patent/CN103514171A/zh
Application granted granted Critical
Publication of CN103514171B publication Critical patent/CN103514171B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于光学字符识别与垂直搜索的自定义爬虫方法,其特点是:采用光学字符识别与垂直搜索的自定义爬虫相结合,包括自动化爬虫配置阶段与程序执行阶段。这样,可以有效减少程序的维护成本和提高数据获取的灵活性。并且,将本发明的内容实施到搜索引擎的相关程序执行上后,可以有效提升程序的运行工作效率,进而优化搜索过程,为使用者和实施者均带来了便利性。

Description

基于光学字符识别与垂直搜索的自定义爬虫方法
技术领域
本发明涉及一种自定义爬虫方法,尤其涉及一种基于光学字符识别与垂直搜索的自定义爬虫方法。
背景技术
对于庞大的互联网数据,不同领域关注的数据类型不同,传统的搜索引擎不能准确的搜索到高质量的数据,于是垂直搜索引擎被广泛使用。
垂直搜索中数据获取方式一般是由一定编程功底的人员,通过正则表达式对网页上的数据进行抽取。但是,由于需求与网页源代码的多变性要求编程人员对程序不断的进行更改,这样大大增加了程序的维护成本。
另外,有些数据的获取需要进行登录,登录一般需要输入验证码。这样导致程序自动获取数据的难度增加。
发明内容
本发明的目的就是为了解决现有技术中存在的上述问题,提供一种基于光学字符识别与垂直搜索的自定义爬虫方法。
本发明的目的通过以下技术方案来实现:
基于光学字符识别与垂直搜索的自定义爬虫方法,其包括自动化爬虫配置阶段与程序执行阶段,
所述自动化爬虫配置阶段包括以下步骤,步骤①,根据网页是否需要登录浏览来判断是否需要配置登录,需要登录则进入步骤②,不需要登录则进入步骤③;步骤②,配置登录信息,并配置验证码图片获取规则;步骤③,配置起始页URL与相关规则;步骤④,判断标识是否终页,若是则终页执行步骤⑦,若不是则进入步骤⑤;步骤⑤,配置下一页URL获取规则;步骤⑥,配置URL有效数据抽取规则,进入步骤④;步骤⑦,配置以上步骤中抽取的有效数据的整合;步骤                                               
Figure 2012102047338100002DEST_PATH_IMAGE002
,配置步骤⑦整合数据的存储设置;步骤,保存自动化爬虫配置信息。
程序执行阶段包括以下步骤:步骤①,程序读取自动化爬虫配置信息;步骤②,根据自动化爬虫配置信息登录相关配置判断是否需要进行登录,需要登录则进入步骤③,不需要则进入步骤⑦;步骤③,根据自动化爬虫配置信息中包含的验证码配置判断是否需要验证码识别,需要验证码识别则进入步骤④,否则进入步骤⑥;步骤④,服务器下载验证码图片; 步骤⑤,图片数据发送到光学字符识别服务器,该服务器读取图片信息并返回;步骤⑥,尝试登陆,若登陆成功则进入步骤⑦,否则进入步骤
Figure 2012102047338100002DEST_PATH_IMAGE006
;步骤⑦,取出起始页的URL;步骤
Figure 54180DEST_PATH_IMAGE002
,访问给定的URL;步骤
Figure 564796DEST_PATH_IMAGE004
,按照相应URL的配置信息抽取此URL网页中的有效数据,有数据既为想要的内容;步骤
Figure 2012102047338100002DEST_PATH_IMAGE008
,判断当前页面是不是终页,若是则进入步骤
Figure 2012102047338100002DEST_PATH_IMAGE010
,若不是则进入步骤
Figure 2012102047338100002DEST_PATH_IMAGE012
;步骤
Figure 875692DEST_PATH_IMAGE012
按照相应URL的配置信息获取下一层的URL,进入步骤
Figure 864376DEST_PATH_IMAGE002
;步骤,整合以上步骤抽取的数据。
上述的基于光学字符识别与垂直搜索的自定义爬虫方法,其中:所述的登录信息包括cookie、用户名、密码。
进一步地,上述的基于光学字符识别与垂直搜索的自定义爬虫方法,其中:所述的储存设置是文本存储或是数据库存储,文本存储需写明输出路径,数据库则配置数据库的地址、用户名、密码。
更进一步地,上述的基于光学字符识别与垂直搜索的自定义爬虫方法,其中:所述的相应URL的配置信息是正则表达式,用于抽取页面中的想要内容。
本发明技术方案的优点主要体现在:依托于OCR(Optical Character Recognition\光学字符识别)技术与自定义垂直搜索爬虫的配合,可以有效减少程序的维护成本和提高数据获取的灵活性。并且,将本发明的内容实施到搜索引擎的相关程序执行上后,可以有效提升程序的运行工作效率,进而优化搜索过程,为使用者和实施者均带来了便利性。
附图说明
本发明的目的、优点和特点,将通过下面优选实施例的非限制性说明进行图示和解释。这些实施例仅是应用本发明技术方案的典型范例,凡采取等同替换或者等效变换而形成的技术方案,均落在本发明要求保护的范围之内。这些附图当中,
图1是自动化爬虫配置阶段的流程示意图;
图2是自动化爬虫程序执行阶段的流程示意图。
具体实施方式
如图1、2所示的基于光学字符识别与垂直搜索的自定义爬虫方法,其特别之处在于:包括自动化爬虫配置阶段与程序执行阶段。
具体来说,采用的自动化爬虫配置阶段包括以下步骤:步骤①,根据网页是否需要登录浏览来判断是否需要配置登录,需要登录则进入步骤②,不需要登录则进入步骤③。步骤②,配置登录信息,并配置验证码图片获取规则。为了便于程序的处理,提高整体的工作效率,采用的登录信息包括cookie、用户名、密码。当然,可以追加其他的相关内容到登录信息中,便于网站判断是否登录的相关信息,即模拟登录的必要信息。在此期间,若不需要验证码识别,则不配置验证码图片获取规则。
步骤③,配置起始页URL与相关规则。步骤④,判断标识是否终页,若是则终页执行步骤⑦,若不是则进入步骤⑤。步骤⑤,配置下一页URL获取规则。步骤⑥,配置URL有效数据抽取规则,进入步骤④。步骤⑦,配置以上步骤中抽取的有效数据的整合。步骤
Figure 235632DEST_PATH_IMAGE002
,配置步骤⑦整合数据的存储设置。具体来说,考虑到不同的实施方式,采用的储存设置是文本存储或是数据库存储,文本存储需写明输出路径,数据库则配置数据库的地址、用户名、密码。步骤
Figure 96140DEST_PATH_IMAGE004
,保存自动化爬虫配置信息。这样,为后续的执行进行准备。
进一步来看,本发明采用的程序执行阶段包括以下步骤:步骤①,程序读取自动化爬虫配置信息。步骤②,根据自动化爬虫配置信息登录相关配置判断是否需要进行登录,需要登录则进入步骤③,不需要则进入步骤⑦。
步骤③,根据自动化爬虫配置信息中包含的验证码配置判断是否需要验证码识别,需要验证码识别则进入步骤④,否则进入步骤⑥。步骤④,服务器下载验证码图片。步骤⑤,图片数据发送到光学字符识别(OCR  Optical Character Recognition)服务器,该服务器读取图片信息并返回。步骤⑥,尝试登陆,若登陆成功则进入步骤⑦,否则进入步骤
Figure 498303DEST_PATH_IMAGE006
。步骤⑦,取出起始页的URL。步骤
Figure 760657DEST_PATH_IMAGE002
,访问给定的URL。步骤
Figure 222862DEST_PATH_IMAGE004
,按照相应URL的配置信息抽取此URL网页中的有效数据,有数据既为想要的内容。具体来说,去了便于相关内容的抽取,相应URL的配置信息是正则表达式,用于抽取页面中的想要内容。
步骤
Figure 242771DEST_PATH_IMAGE008
,判断当前页面是不是终页,若是则进入步骤
Figure 573258DEST_PATH_IMAGE010
,若不是则进入步骤
Figure 299906DEST_PATH_IMAGE012
。步骤
Figure 323225DEST_PATH_IMAGE012
按照相应URL的配置信息获取下一层的URL,进入步骤
Figure 830430DEST_PATH_IMAGE002
。步骤,整合以上步骤抽取的数据。
通过上述的文字表述可以看出,采用本发明后,依托于OCR(Optical Character Recognition\光学字符识别)技术与自定义垂直搜索爬虫的配合,可以有效减少程序的维护成本和提高数据获取的灵活性。并且,将本发明的内容实施到搜索引擎的相关程序执行上后,可以有效提升程序的运行工作效率,进而优化搜索过程,为使用者和实施者均带来了便利性。

Claims (4)

1.基于光学字符识别与垂直搜索的自定义爬虫方法,其特征在于:包括自动化爬虫配置阶段与程序执行阶段,
所述自动化爬虫配置阶段包括以下步骤,
步骤①,根据网页是否需要登录浏览来判断是否需要配置登录,需要登录则进入步骤②,不需要登录则进入步骤③;
步骤②,配置登录信息,并配置验证码图片获取规则;
步骤③,配置起始页URL与相关规则;
步骤④,判断标识是否终页,若是则终页执行步骤⑦,若不是则进入步骤⑤;
步骤⑤,配置下一页URL获取规则;
步骤⑥,配置URL有效数据抽取规则,进入步骤④;
步骤⑦,配置以上步骤中抽取的有效数据的整合;
步骤                                               ,配置步骤⑦整合数据的存储设置;
步骤,保存自动化爬虫配置信息;
程序执行阶段包括以下步骤:
步骤①,程序读取自动化爬虫配置信息;
步骤②,根据自动化爬虫配置信息登录相关配置判断是否需要进行登录,需要登录则进入步骤③,不需要则进入步骤⑦;
步骤③,根据自动化爬虫配置信息中包含的验证码配置判断是否需要验证码识别,需要验证码识别则进入步骤④,否则进入步骤⑥;
步骤④,服务器下载验证码图片; 
步骤⑤,图片数据发送到光学字符识别服务器,该服务器读取图片信息并返回;
步骤⑥,尝试登陆,若登陆成功则进入步骤⑦,否则进入步骤
Figure DEST_PATH_IMAGE006
步骤⑦,取出起始页的URL;
步骤,访问给定的URL;
步骤,按照相应URL的配置信息抽取此URL网页中的有效数据,有数据既为想要的内容;
步骤,判断当前页面是不是终页,若是则进入步骤,若不是则进入步骤
Figure DEST_PATH_IMAGE012
步骤
Figure 654620DEST_PATH_IMAGE012
按照相应URL的配置信息获取下一层的URL,进入步骤
Figure 326909DEST_PATH_IMAGE002
步骤
Figure 559308DEST_PATH_IMAGE010
,整合以上步骤抽取的数据。
2.根据权利要求1所述的基于光学字符识别与垂直搜索的自定义爬虫方法,其特征在于:所述的登录信息包括cookie、用户名、密码。
3.根据权利要求1所述的基于光学字符识别与垂直搜索的自定义爬虫方法,其特征在于:所述的储存设置是文本存储或是数据库存储,文本存储需写明输出路径,数据库则配置数据库的地址、用户名、密码。
4.根据权利要求1所述的基于光学字符识别与垂直搜索的自定义爬虫方法,其特征在于:所述的相应URL的配置信息是正则表达式,用于抽取页面中的想要内容。
CN201210204733.8A 2012-06-20 2012-06-20 基于光学字符识别与垂直搜索的自定义爬虫方法 Active CN103514171B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210204733.8A CN103514171B (zh) 2012-06-20 2012-06-20 基于光学字符识别与垂直搜索的自定义爬虫方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210204733.8A CN103514171B (zh) 2012-06-20 2012-06-20 基于光学字符识别与垂直搜索的自定义爬虫方法

Publications (2)

Publication Number Publication Date
CN103514171A true CN103514171A (zh) 2014-01-15
CN103514171B CN103514171B (zh) 2016-08-03

Family

ID=49896911

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210204733.8A Active CN103514171B (zh) 2012-06-20 2012-06-20 基于光学字符识别与垂直搜索的自定义爬虫方法

Country Status (1)

Country Link
CN (1) CN103514171B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103984719A (zh) * 2014-05-12 2014-08-13 浪潮电子信息产业股份有限公司 一种爬虫模拟登陆采集的方法
CN104484424A (zh) * 2014-12-19 2015-04-01 浪潮通用软件有限公司 基于互联网建筑施工企业资源价格信息库的构建方法
CN105930727A (zh) * 2016-04-25 2016-09-07 无锡中科富农物联科技有限公司 基于Web的爬虫识别算法
CN106095918A (zh) * 2016-06-06 2016-11-09 山东科技大学 一种基于ocr技术的网络受保护指数数据的获取方法
CN106897357A (zh) * 2017-01-04 2017-06-27 北京京拍档科技股份有限公司 一种用于带验证分布式智能爬取网络信息的方法
CN108076067A (zh) * 2017-12-27 2018-05-25 北京中关村科金技术有限公司 一种授权爬虫配置化模拟登录的方法及系统
CN109783714A (zh) * 2019-01-08 2019-05-21 上海因致信息科技有限公司 接口数据获取方法及系统
WO2019136960A1 (zh) * 2018-01-12 2019-07-18 深圳壹账通智能科技有限公司 一种爬取网站数据的方法、存储介质、服务器及装置
CN110119468A (zh) * 2019-05-15 2019-08-13 重庆八戒传媒有限公司 一种提高抓取公开数据种子精度的方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070150463A1 (en) * 2003-12-22 2007-06-28 Claudio Cannella Advanced method of searching, drafting and editing of electronic files
CN101291304A (zh) * 2008-06-13 2008-10-22 清华大学 可移植的网络信息共享方法
CN101635718A (zh) * 2009-08-26 2010-01-27 中兴通讯股份有限公司 网络爬虫系统及其获取资源的方法和网络资源抓取装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070150463A1 (en) * 2003-12-22 2007-06-28 Claudio Cannella Advanced method of searching, drafting and editing of electronic files
CN101291304A (zh) * 2008-06-13 2008-10-22 清华大学 可移植的网络信息共享方法
CN101635718A (zh) * 2009-08-26 2010-01-27 中兴通讯股份有限公司 网络爬虫系统及其获取资源的方法和网络资源抓取装置

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103984719A (zh) * 2014-05-12 2014-08-13 浪潮电子信息产业股份有限公司 一种爬虫模拟登陆采集的方法
CN104484424A (zh) * 2014-12-19 2015-04-01 浪潮通用软件有限公司 基于互联网建筑施工企业资源价格信息库的构建方法
CN105930727B (zh) * 2016-04-25 2018-11-09 无锡中科富农物联科技有限公司 基于Web的爬虫识别方法
CN105930727A (zh) * 2016-04-25 2016-09-07 无锡中科富农物联科技有限公司 基于Web的爬虫识别算法
CN106095918A (zh) * 2016-06-06 2016-11-09 山东科技大学 一种基于ocr技术的网络受保护指数数据的获取方法
CN106095918B (zh) * 2016-06-06 2020-03-06 山东科技大学 一种基于ocr技术的网络受保护指数数据的获取方法
CN106897357A (zh) * 2017-01-04 2017-06-27 北京京拍档科技股份有限公司 一种用于带验证分布式智能爬取网络信息的方法
CN106897357B (zh) * 2017-01-04 2023-07-18 北京京拍档科技股份有限公司 一种用于带验证分布式智能爬取网络信息的方法
CN108076067A (zh) * 2017-12-27 2018-05-25 北京中关村科金技术有限公司 一种授权爬虫配置化模拟登录的方法及系统
CN108076067B (zh) * 2017-12-27 2021-05-18 北京中关村科金技术有限公司 一种授权爬虫配置化模拟登录的方法及系统
WO2019136960A1 (zh) * 2018-01-12 2019-07-18 深圳壹账通智能科技有限公司 一种爬取网站数据的方法、存储介质、服务器及装置
CN109783714A (zh) * 2019-01-08 2019-05-21 上海因致信息科技有限公司 接口数据获取方法及系统
CN110119468A (zh) * 2019-05-15 2019-08-13 重庆八戒传媒有限公司 一种提高抓取公开数据种子精度的方法和装置

Also Published As

Publication number Publication date
CN103514171B (zh) 2016-08-03

Similar Documents

Publication Publication Date Title
CN103514171A (zh) 基于光学字符识别与垂直搜索的自定义爬虫方法
US10049096B2 (en) System and method of template creation for a data extraction tool
CN102098331B (zh) 一种还原web类应用内容的方法及其系统
EP2938044B1 (en) System, method, apparatus, and server for displaying network medium information
CN105094775B (zh) 网页生成方法和装置
CN104598577A (zh) 一种网页正文的提取方法
US20240054802A1 (en) System and method for spatial encoding and feature generators for enhancing information extraction
WO2014154033A1 (en) Method and apparatus for extracting web page content
CN103294953B (zh) 一种手机恶意代码检测方法及系统
CN113657395B (zh) 文本识别方法、视觉特征提取模型的训练方法及装置
CN106302849A (zh) 一种通过运营商数据进行移固融合的方法
CN103246641A (zh) 一种文本语义信息分析系统和方法
CN103425931A (zh) 一种网页异常脚本检测方法及系统
CN103246709A (zh) 一种网页数据抓取的方法
CN110555145A (zh) 一种基于浏览器的网页内容采集系统及其采集方法
CN104899203A (zh) 一种网页页面的生成方法、装置及终端设备
CN103309851A (zh) 短文本的垃圾识别方法及系统
CN103678284A (zh) 页面文字翻译方法及装置
CN105874470A (zh) 交互光学码
CN109088873A (zh) 一种基于人脸识别大数据的登录系统
US11281901B2 (en) Document extraction system and method
CN103559195A (zh) 一种搜索方法和终端
CN106815249B (zh) 竖向文本广告过滤方法和装置
US10572146B2 (en) Electronic device and method for receiving and displaying user gesture inputs in accordance with one of multiple operation types
CN105183818B (zh) 一种搜索结果的显示方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant