CN103514171A

CN103514171A - 基于光学字符识别与垂直搜索的自定义爬虫方法

Info

Publication number: CN103514171A
Application number: CN201210204733.8A
Authority: CN
Inventors: 王专; 吴志祥; 张海龙; 马和平; 吴剑; 郭凤林; 王晓钟; 庞绍进
Original assignee: Tongcheng Network Technology Co Ltd
Current assignee: Tongcheng Network Technology Co Ltd
Priority date: 2012-06-20
Filing date: 2012-06-20
Publication date: 2014-01-15
Anticipated expiration: 2032-06-20
Also published as: CN103514171B

Abstract

本发明涉及一种基于光学字符识别与垂直搜索的自定义爬虫方法，其特点是：采用光学字符识别与垂直搜索的自定义爬虫相结合，包括自动化爬虫配置阶段与程序执行阶段。这样，可以有效减少程序的维护成本和提高数据获取的灵活性。并且，将本发明的内容实施到搜索引擎的相关程序执行上后，可以有效提升程序的运行工作效率，进而优化搜索过程，为使用者和实施者均带来了便利性。

Description

基于光学字符识别与垂直搜索的自定义爬虫方法

技术领域

本发明涉及一种自定义爬虫方法，尤其涉及一种基于光学字符识别与垂直搜索的自定义爬虫方法。

背景技术

对于庞大的互联网数据，不同领域关注的数据类型不同，传统的搜索引擎不能准确的搜索到高质量的数据，于是垂直搜索引擎被广泛使用。

垂直搜索中数据获取方式一般是由一定编程功底的人员，通过正则表达式对网页上的数据进行抽取。但是，由于需求与网页源代码的多变性要求编程人员对程序不断的进行更改，这样大大增加了程序的维护成本。

另外，有些数据的获取需要进行登录，登录一般需要输入验证码。这样导致程序自动获取数据的难度增加。

发明内容

本发明的目的就是为了解决现有技术中存在的上述问题，提供一种基于光学字符识别与垂直搜索的自定义爬虫方法。

本发明的目的通过以下技术方案来实现：

基于光学字符识别与垂直搜索的自定义爬虫方法，其包括自动化爬虫配置阶段与程序执行阶段，

所述自动化爬虫配置阶段包括以下步骤，步骤①，根据网页是否需要登录浏览来判断是否需要配置登录，需要登录则进入步骤②，不需要登录则进入步骤③；步骤②，配置登录信息，并配置验证码图片获取规则；步骤③，配置起始页URL与相关规则；步骤④，判断标识是否终页，若是则终页执行步骤⑦，若不是则进入步骤⑤；步骤⑤，配置下一页URL获取规则；步骤⑥，配置URL有效数据抽取规则，进入步骤④；步骤⑦，配置以上步骤中抽取的有效数据的整合；步骤

Figure 2012102047338100002DEST_PATH_IMAGE002

，配置步骤⑦整合数据的存储设置；步骤，保存自动化爬虫配置信息。

程序执行阶段包括以下步骤：步骤①，程序读取自动化爬虫配置信息；步骤②，根据自动化爬虫配置信息登录相关配置判断是否需要进行登录，需要登录则进入步骤③，不需要则进入步骤⑦；步骤③，根据自动化爬虫配置信息中包含的验证码配置判断是否需要验证码识别，需要验证码识别则进入步骤④，否则进入步骤⑥；步骤④，服务器下载验证码图片；步骤⑤，图片数据发送到光学字符识别服务器，该服务器读取图片信息并返回；步骤⑥，尝试登陆，若登陆成功则进入步骤⑦，否则进入步骤

Figure 2012102047338100002DEST_PATH_IMAGE006

；步骤⑦，取出起始页的URL；步骤

，访问给定的URL；步骤

，按照相应URL的配置信息抽取此URL网页中的有效数据，有数据既为想要的内容；步骤

Figure 2012102047338100002DEST_PATH_IMAGE008

，判断当前页面是不是终页，若是则进入步骤

Figure 2012102047338100002DEST_PATH_IMAGE010

，若不是则进入步骤

Figure 2012102047338100002DEST_PATH_IMAGE012

；步骤

按照相应URL的配置信息获取下一层的URL，进入步骤

；步骤，整合以上步骤抽取的数据。

上述的基于光学字符识别与垂直搜索的自定义爬虫方法，其中：所述的登录信息包括cookie、用户名、密码。

进一步地，上述的基于光学字符识别与垂直搜索的自定义爬虫方法，其中：所述的储存设置是文本存储或是数据库存储，文本存储需写明输出路径，数据库则配置数据库的地址、用户名、密码。

更进一步地，上述的基于光学字符识别与垂直搜索的自定义爬虫方法，其中：所述的相应URL的配置信息是正则表达式，用于抽取页面中的想要内容。

本发明技术方案的优点主要体现在：依托于OCR（Optical Character Recognition\光学字符识别）技术与自定义垂直搜索爬虫的配合，可以有效减少程序的维护成本和提高数据获取的灵活性。并且，将本发明的内容实施到搜索引擎的相关程序执行上后，可以有效提升程序的运行工作效率，进而优化搜索过程，为使用者和实施者均带来了便利性。

附图说明

本发明的目的、优点和特点，将通过下面优选实施例的非限制性说明进行图示和解释。这些实施例仅是应用本发明技术方案的典型范例，凡采取等同替换或者等效变换而形成的技术方案，均落在本发明要求保护的范围之内。这些附图当中，

图1是自动化爬虫配置阶段的流程示意图；

图2是自动化爬虫程序执行阶段的流程示意图。

具体实施方式

如图1、2所示的基于光学字符识别与垂直搜索的自定义爬虫方法，其特别之处在于：包括自动化爬虫配置阶段与程序执行阶段。

具体来说，采用的自动化爬虫配置阶段包括以下步骤：步骤①，根据网页是否需要登录浏览来判断是否需要配置登录，需要登录则进入步骤②，不需要登录则进入步骤③。步骤②，配置登录信息，并配置验证码图片获取规则。为了便于程序的处理，提高整体的工作效率，采用的登录信息包括cookie、用户名、密码。当然，可以追加其他的相关内容到登录信息中，便于网站判断是否登录的相关信息，即模拟登录的必要信息。在此期间，若不需要验证码识别，则不配置验证码图片获取规则。

步骤③，配置起始页URL与相关规则。步骤④，判断标识是否终页，若是则终页执行步骤⑦，若不是则进入步骤⑤。步骤⑤，配置下一页URL获取规则。步骤⑥，配置URL有效数据抽取规则，进入步骤④。步骤⑦，配置以上步骤中抽取的有效数据的整合。步骤

，配置步骤⑦整合数据的存储设置。具体来说，考虑到不同的实施方式，采用的储存设置是文本存储或是数据库存储，文本存储需写明输出路径，数据库则配置数据库的地址、用户名、密码。步骤

，保存自动化爬虫配置信息。这样，为后续的执行进行准备。

进一步来看，本发明采用的程序执行阶段包括以下步骤：步骤①，程序读取自动化爬虫配置信息。步骤②，根据自动化爬虫配置信息登录相关配置判断是否需要进行登录，需要登录则进入步骤③，不需要则进入步骤⑦。

步骤③，根据自动化爬虫配置信息中包含的验证码配置判断是否需要验证码识别，需要验证码识别则进入步骤④，否则进入步骤⑥。步骤④，服务器下载验证码图片。步骤⑤，图片数据发送到光学字符识别（OCR Optical Character Recognition）服务器，该服务器读取图片信息并返回。步骤⑥，尝试登陆，若登陆成功则进入步骤⑦，否则进入步骤

。步骤⑦，取出起始页的URL。步骤

，访问给定的URL。步骤

，按照相应URL的配置信息抽取此URL网页中的有效数据，有数据既为想要的内容。具体来说，去了便于相关内容的抽取，相应URL的配置信息是正则表达式，用于抽取页面中的想要内容。

步骤

，判断当前页面是不是终页，若是则进入步骤

，若不是则进入步骤

。步骤

按照相应URL的配置信息获取下一层的URL，进入步骤

。步骤，整合以上步骤抽取的数据。

通过上述的文字表述可以看出，采用本发明后，依托于OCR（Optical Character Recognition\光学字符识别）技术与自定义垂直搜索爬虫的配合，可以有效减少程序的维护成本和提高数据获取的灵活性。并且，将本发明的内容实施到搜索引擎的相关程序执行上后，可以有效提升程序的运行工作效率，进而优化搜索过程，为使用者和实施者均带来了便利性。

Claims

1.基于光学字符识别与垂直搜索的自定义爬虫方法，其特征在于：包括自动化爬虫配置阶段与程序执行阶段，

所述自动化爬虫配置阶段包括以下步骤，

步骤①，根据网页是否需要登录浏览来判断是否需要配置登录，需要登录则进入步骤②，不需要登录则进入步骤③；

步骤②，配置登录信息，并配置验证码图片获取规则；

步骤③，配置起始页URL与相关规则；

步骤④，判断标识是否终页，若是则终页执行步骤⑦，若不是则进入步骤⑤；

步骤⑤，配置下一页URL获取规则；

步骤⑥，配置URL有效数据抽取规则，进入步骤④；

步骤⑦，配置以上步骤中抽取的有效数据的整合；

步骤，配置步骤⑦整合数据的存储设置；

步骤，保存自动化爬虫配置信息；

程序执行阶段包括以下步骤：

步骤①，程序读取自动化爬虫配置信息；

步骤②，根据自动化爬虫配置信息登录相关配置判断是否需要进行登录，需要登录则进入步骤③，不需要则进入步骤⑦；

步骤③，根据自动化爬虫配置信息中包含的验证码配置判断是否需要验证码识别，需要验证码识别则进入步骤④，否则进入步骤⑥；

步骤④，服务器下载验证码图片；

步骤⑤，图片数据发送到光学字符识别服务器，该服务器读取图片信息并返回；

步骤⑥，尝试登陆，若登陆成功则进入步骤⑦，否则进入步骤

；

步骤⑦，取出起始页的URL；

步骤，访问给定的URL；

步骤，按照相应URL的配置信息抽取此URL网页中的有效数据，有数据既为想要的内容；

步骤，判断当前页面是不是终页，若是则进入步骤，若不是则进入步骤

；

步骤

按照相应URL的配置信息获取下一层的URL，进入步骤

；

步骤

，整合以上步骤抽取的数据。

2.根据权利要求1所述的基于光学字符识别与垂直搜索的自定义爬虫方法，其特征在于：所述的登录信息包括cookie、用户名、密码。

3.根据权利要求1所述的基于光学字符识别与垂直搜索的自定义爬虫方法，其特征在于：所述的储存设置是文本存储或是数据库存储，文本存储需写明输出路径，数据库则配置数据库的地址、用户名、密码。

4.根据权利要求1所述的基于光学字符识别与垂直搜索的自定义爬虫方法，其特征在于：所述的相应URL的配置信息是正则表达式，用于抽取页面中的想要内容。