CN107092670A

CN107092670A - 一种基于内嵌浏览器的可视化网络爬虫系统及分析方法

Info

Publication number: CN107092670A
Application number: CN201710234111.2A
Authority: CN
Inventors: 李煜; 王小龙; 李鹏
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2017-04-11
Filing date: 2017-04-11
Publication date: 2017-08-25

Abstract

本发明涉及一种基于内嵌浏览器的可视化网络爬虫系统及分析方法，包括可视化操作界面、元素选择模式和爬虫结构树。该系统以浏览器为载体，在载体上通过多种元素选择模式获取对应元素的路径，按照多个页面层次对待爬站点进行配置。手动配置爬虫结构树的一个分支，系统即可自动完成整个结构树的配置。按照配置好的结构树，将所有元素的文本下载到数据库中。另外，该系统可以爬取任何主题。因此，本发明具有可视化程度高、自动化程度高、适用性广和配置简单的优势。

Description

一种基于内嵌浏览器的可视化网络爬虫系统及分析方法

技术领域

本发明属于计算机网络技术领域，特别是涉及一种基于内嵌浏览器的可视化网络爬虫系统及分析方法。

背景技术

网络爬虫是一种高效的信息抓取工具，它集成了搜索引擎技术，并通过技术手段进行优化，用以从互联网搜索、抓取并保存任何通过HTML超文本标记语言进行标准化的网页信息。网络爬虫分为通用网络爬虫如谷歌、百度浏览器和主题网络爬虫等。由于通用网络爬虫的检索效果不理想，准确率和召回率都很低，所以主题网络爬虫逐渐成为专业用户及研究人员的首选。主题网络爬虫主要采用最佳优先抓取策略，即按照一定的网页评价算法，计算网页与主题的相关性，选取“价值”最高的网页中的链接进行抓取。但是主题网络爬虫存在一定的问题和缺陷，如当前的网页评价算法不完善，配置复杂，爬取效率低等。

另外，网页元素Xpath获取需要一些组件或浏览器的辅助，以Google浏览器为例，具体方法为：打开Chrome→输入网址→右击感兴趣的元素→点击“检查”→右击开发者页面对应元素→点击“Copy”→点击“Copy Xpath”，完成网页元素Xpath获取任务。很明显这一过程过于繁琐，若元素数量多，则会耗费大量精力。

目前，国内外与可视化爬虫配置相关的文献少之又少，而已有的成熟的可视化网络爬虫不多且各有各的缺陷。比如八爪鱼采集器，其配置步骤虽然少，但是配置过程复杂，层次不清晰。它以分页页面为起点，直接对详细页面进行配置，各种界面操作没有进行分类，而是一次性让用户选择，这对于普通用户而言难度过大。

综上，当前市场上的爬虫存在的缺陷有：1、配置复杂；2、爬取效率低；3、Xpath获取步骤繁琐；4、可视化程度低。

发明内容

本发明致力于解决现有爬虫配置难、操作复杂及效率低的问题。

为达到上述目的，本发明通过以下技术方案实现：

一种基于内嵌浏览器的可视化网络爬虫系统，其特征在于，包括：

页面查看模式：包括浏览器模式、HTML元素树形结构模式、脚本页面模式和HTML源代码模式；

页面元素选择：包括单选页面元素、多选页面元素和网页元素相似选择

爬虫结构树：包括分支页面、分页页面和详细页面；配置分支页面是利用所述的页面元素选择，将某类元素提取到分支列表，加入所述的爬虫结构树。

在上述的基于内嵌浏览器的可视化网络爬虫系统，所述的单选页面元素是通过单击页面元素获取其Xpath；所述的多选页面元素是通过按住Ctrl键同时多次单击页面元素获取多个元素的Xpath；所述的网页元素相似选择是通过按住Shift键同时多次单击页面元素获取相似元素的Xpath。

在上述的基于内嵌浏览器的可视化网络爬虫系统，所述的分页页面包括：列表同类链接信息和分页信息。

在上述的基于内嵌浏览器的可视化网络爬虫系统，所述的列表同类链接信息是利用所述的网页元素相似选择，点击两个链接，自动进行相似提取和智能计算，提取包括列表父节点Xpath、单项Item节点Xpath列表、超链接节点Xpath和链接相对Item的相对Xpath。

在上述的基于内嵌浏览器的可视化网络爬虫系统，所述的分页信息是利用所述的单选页面元素，点击分页页面中的首尾页链接，提取首尾页的Xpath和链接信息，进行智能比较算法，算出网址的格式化信息和首尾页数值索引。

在上述的基于内嵌浏览器的可视化网络爬虫系统，配置所述的详细页面是利用所述的单选页面元素，提取元素XPath，绑定数据库，为对应字段赋值。

一种基于内嵌浏览器的可视化网络爬虫分析方法，其特征在于，包括：

步骤1：分析待爬网站的层次结构，输入首页网址；

步骤2：根据网站的结构，选择对应的配置方式：

配置方式一：若是配置同类元素，且有下级链接，则选用分支页面，选择一种单选、多选或相似选择的方式，提取分支列表；

配置方式二：若是配置分页信息和列表同类链接信息，则选用分页页面，使用相似选择的方式，点击分页页面的首尾页链接，通过智能比较算法，算出网址的格式化信息和首尾页数值索引；

配置方式三：若是配置最底层的页面，则选用详细页面，通过单选元素的方式，提取每一个感兴趣的页面元素的Xpath，绑定数据库，选择对应的表信息，为字段赋值，完善表信息；

步骤3：根据配置好的爬虫方案树，程序自动按照所有分支下的详细页面内各个元素的Xpath获取(下载)元素的文本，并存入与之关联的数据库内，最终完成数据采集任务。

本发明的主要内容分为两部分，一为在软件内部实现可视化操作，二为实现通用网络爬虫结构，即映射部分。在软件的内嵌浏览器组件直接输入目标网址，采用网页页面、元素结构树、脚本页面、网页源代码四种模式中查看网页信息。在浏览器模式下利用三种方式进行页面元素选择，依次完成分支、分页、页面配置，最终构造出爬虫方案的结构树，实现可视化爬虫配置，此为关键技术。

可视化通用爬虫的页面查看分为四种模式：浏览器模式，HTML元素树形结构模式，脚本页面模式和HTML源代码模式。而基于浏览器还可以实现页面元素的选择，点击页面元素，查询到要素文本、链接和Xpath信息，其中包括有单选页面元素在页面元素中单击、多选页面元素按住Ctrl键，多次点击页面元素上和网页元素相似选择按住Shift键，多次点击页面元素。

在内嵌浏览器组件中实现可视化操作为该专利技术的前提，而关键技术为映射部分，也就是通用网络爬虫结构，也就是根据常用的网页信息所采用的的链接跳转、分页/列表显示、详细信息展示这几类页面设计基于分支、分页、详细三类逐级递进的页面组合爬虫方案。

分支页面，第一级分支为城市列表，通过页面元素选择上文中提到的单选，多选，相似搜索，提取分支列表，加入爬虫方案。分页页面，分页信息中包含列表同类链接信息和分页信息。列表同类链接信息使用网页元素相似选择，点击两个链接，软件自动进行相似提取和智能计算，提取包括列表父节点Xpath，单项Item节点Xpath列表，超链接节点Xpath，链接相对Item的相对Xpath。而分页信息通过单选元素，点击分页页面中的首尾页链接，提取首尾页的Xpath和链接信息，进行智能比较算法，算出网址的格式化信息和首尾页数值索引。详细页面，详细信息页面主要为点击页面元素单选元素方式，提取元素XPath，通过绑定数据库，选择页面对应表信息，为对应字段赋值，完善表信息。

通过分支、分页、详细三类逐级递进的页面组合爬虫方案，能够完成大部分网页的信息提取，因此也就能够生成一个爬虫方案元素结构树。

本发明具有以下几个优点：1、将载体、操作和层次区分开，功能性强；2、配置一个页面即可自动完成同类页面的配置，自动化程度高；3、理论上可适用于任何主题，适用性广；4、相对于主题网络爬虫而言，配置速度快且简单，实操性强；5、无需编程思想，已提前制定好方案模板，只需输入搜索网址套用模板即可完成爬虫任务。使用本发明可以达到的效果是：可视化快速配置、配置可复用、爬取速度快且爬取范围限定在配置范围内，切合主题。

附图说明

图1为本发明中一线城市分支列表示意图。

图2为本发明中详细页面配置示意图。

图3为本发明中爬虫结构树示意图。

图4为本发明中浏览器模式示意图。

图5为本发明中HTML元素树形结构模式示意图。

图6为本发明中脚本页面模式示意图。

图7为本发明中HTML源代码模式示意图。

具体实施方法

本发明专利通过内嵌浏览器，经过直观简单的操作即可完成爬虫配置问题，省去繁琐的人工查询以及编写规则的过程，配置过程无需重复操作。同时，本发明爬虫爬取范围限定在配置范围内，保证爬取的信息准确、精确。

以两个示例展示具体实施方案，第一个是以房价为主题，第二个以电影为主题，我们依次用本发明详细介绍爬虫方案树配置流程，并爬取有关这两个主题的网页。

1、以房价为主题，搜房网http://fang.com/SoufunFamily.htm为入口进行说明。

分析搜房网的结构，可以按照分支、分页和详细页面的方案树进行配置。首先点击“分支”，用相似选择Shift+多次单击提取一线城市分支列表，加入爬虫方案如图1；然后用相同的方法依次提取小区、二手房和出租房分支列表，加入爬虫方案；然后点击“分页”，选择小区页面，通过单选元素单击，点击页面的首尾页链接，提取首尾页的Xpath和链接信息，通过智能比较算法算出网址的格式化信息和首尾页数值索引，提取分页信息；选择二手房和出租房页面，使用网页元素相似选择Shift+多次点击，点击两个以上房源，提取列表同类链接信息；最后点击“详情”，通过单选元素单击，点击小区页面、二手房和出租房房源页面中感兴趣的元素绑定数据库，为对应字段赋值如图2，完成整个爬虫方案树的配置如图3。

2、以电影为主题，电影网 http://www.1905.com/mdb/film/list/year-2017为入口进行说明。

以2017年电影为对象，分析电影网的结构。首先点击“分支”，通过单选元素单击，点击“中国”，再用相似选择提取不同的电影类型，如按Shift并同时点击“爱情”、“悬疑”等元素，提取分支列表；然后任选一个类型进入下一个页面，点击“分页”，点击首尾页链接，提取分页信息；通过相似选择，点击两部以上的电影，提取列表同类链接信息；最后任选一部电影进入详细页面，点击“详情”，通过单选元素，点击片名、上映日期等元素，绑定数据库并为字段赋值，完成爬虫方案树的配置。

根据配置好的爬虫方案树，程序自动按照所有分支下的详细页面内各个元素的Xpath获取下载元素的文本，并存入与之关联的数据库内，最终完成房价数据采集任务。

Claims

1.一种基于内嵌浏览器的可视化网络爬虫系统，其特征在于，包括：

页面查看模式(1)：包括浏览器模式(4)、HTML元素树形结构模式(5)、脚本页面模式(6)和HTML源代码模式(7)；

页面元素选择(2)：包括单选页面元素(8)、多选页面元素(9)和网页元素相似选择(10)

爬虫结构树(3)：包括分支页面(11)、分页页面(12)和详细页面(13)；配置分支页面(11)是利用所述的页面元素选择(2)，将某类元素提取到分支列表，加入所述的爬虫结构树(3)。

2.根据权利要求1所述的基于内嵌浏览器的可视化网络爬虫系统，其特征在于：所述的单选页面元素(8)是通过单击页面元素获取其Xpath；所述的多选页面元素(9)是通过按住Ctrl键同时多次单击页面元素获取多个元素的Xpath；所述的网页元素相似选择(10)是通过按住Shift键同时多次单击页面元素获取相似元素的Xpath。

3.根据权利要求2所述的基于内嵌浏览器的可视化网络爬虫系统，其特征在于：所述的分页页面(11)包括：列表同类链接信息(14)和分页信息(15)。

4.根据权利要求3所述的基于内嵌浏览器的可视化网络爬虫系统，其特征在于：所述的列表同类链接信息(14)是利用所述的网页元素相似选择(10)，点击两个链接，自动进行相似提取和智能计算，提取包括列表父节点Xpath、单项Item节点Xpath列表、超链接节点Xpath和链接相对Item的相对Xpath。

5.根据权利要求3所述的基于内嵌浏览器的可视化网络爬虫系统，其特征在于：所述的分页信息(15)是利用所述的单选页面元素(8)，点击分页页面中的首尾页链接，提取首尾页的Xpath和链接信息，进行智能比较算法，算出网址的格式化信息和首尾页数值索引。

6.根据权利要求3所述的基于内嵌浏览器的可视化网络爬虫系统，其特征在于：配置所述的详细页面(13)是利用所述的单选页面元素(8)，提取元素XPath，绑定数据库，为对应字段赋值。

7.一种基于内嵌浏览器的可视化网络爬虫分析方法，其特征在于，包括：

步骤1：分析待爬网站的层次结构，输入首页网址；

步骤2：根据网站的结构，选择对应的配置方式：