CN107092670A - 一种基于内嵌浏览器的可视化网络爬虫系统及分析方法 - Google Patents

一种基于内嵌浏览器的可视化网络爬虫系统及分析方法 Download PDF

Info

Publication number
CN107092670A
CN107092670A CN201710234111.2A CN201710234111A CN107092670A CN 107092670 A CN107092670 A CN 107092670A CN 201710234111 A CN201710234111 A CN 201710234111A CN 107092670 A CN107092670 A CN 107092670A
Authority
CN
China
Prior art keywords
page
xpath
paging
elements
similar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201710234111.2A
Other languages
English (en)
Inventor
李煜
王小龙
李鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201710234111.2A priority Critical patent/CN107092670A/zh
Publication of CN107092670A publication Critical patent/CN107092670A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及一种基于内嵌浏览器的可视化网络爬虫系统及分析方法,包括可视化操作界面、元素选择模式和爬虫结构树。该系统以浏览器为载体,在载体上通过多种元素选择模式获取对应元素的路径,按照多个页面层次对待爬站点进行配置。手动配置爬虫结构树的一个分支,系统即可自动完成整个结构树的配置。按照配置好的结构树,将所有元素的文本下载到数据库中。另外,该系统可以爬取任何主题。因此,本发明具有可视化程度高、自动化程度高、适用性广和配置简单的优势。

Description

一种基于内嵌浏览器的可视化网络爬虫系统及分析方法
技术领域
本发明属于计算机网络技术领域,特别是涉及一种基于内嵌浏览器的可视化网络爬虫系统及分析方法。
背景技术
网络爬虫是一种高效的信息抓取工具,它集成了搜索引擎技术,并通过技术手段进行优化,用以从互联网搜索、抓取并保存任何通过HTML超文本标记语言进行标准化的网页信息。网络爬虫分为通用网络爬虫如谷歌、百度浏览器和主题网络爬虫等。由于通用网络爬虫的检索效果不理想,准确率和召回率都很低,所以主题网络爬虫逐渐成为专业用户及研究人员的首选。主题网络爬虫主要采用最佳优先抓取策略,即按照一定的网页评价算法,计算网页与主题的相关性,选取“价值”最高的网页中的链接进行抓取。但是主题网络爬虫存在一定的问题和缺陷,如当前的网页评价算法不完善,配置复杂,爬取效率低等。
另外,网页元素Xpath获取需要一些组件或浏览器的辅助,以Google浏览器为例,具体方法为:打开Chrome→输入网址→右击感兴趣的元素→点击“检查”→右击开发者页面对应元素→点击“Copy”→点击“Copy Xpath”,完成网页元素Xpath获取任务。很明显这一过程过于繁琐,若元素数量多,则会耗费大量精力。
目前,国内外与可视化爬虫配置相关的文献少之又少,而已有的成熟的可视化网络爬虫不多且各有各的缺陷。比如八爪鱼采集器,其 配置步骤虽然少,但是配置过程复杂,层次不清晰。它以分页页面为起点,直接对详细页面进行配置,各种界面操作没有进行分类,而是一次性让用户选择,这对于普通用户而言难度过大。
综上,当前市场上的爬虫存在的缺陷有:1、配置复杂;2、爬取效率低;3、Xpath获取步骤繁琐;4、可视化程度低。
发明内容
本发明致力于解决现有爬虫配置难、操作复杂及效率低的问题。
为达到上述目的,本发明通过以下技术方案实现:
一种基于内嵌浏览器的可视化网络爬虫系统,其特征在于,包括:
页面查看模式:包括浏览器模式、HTML元素树形结构模式、脚本页面模式和HTML源代码模式;
页面元素选择:包括单选页面元素、多选页面元素和网页元素相似选择
爬虫结构树:包括分支页面、分页页面和详细页面;配置分支页面是利用所述的页面元素选择,将某类元素提取到分支列表,加入所述的爬虫结构树。
在上述的基于内嵌浏览器的可视化网络爬虫系统,所述的单选页面元素是通过单击页面元素获取其Xpath;所述的多选页面元素是通过按住Ctrl键同时多次单击页面元素获取多个元素的Xpath;所述的网页元素相似选择是通过按住Shift键同时多次单击页面元素获取相似元素的Xpath。
在上述的基于内嵌浏览器的可视化网络爬虫系统,所述的分页页面包括:列表同类链接信息和分页信息。
在上述的基于内嵌浏览器的可视化网络爬虫系统,所述的列表同 类链接信息是利用所述的网页元素相似选择,点击两个链接,自动进行相似提取和智能计算,提取包括列表父节点Xpath、单项Item节点Xpath列表、超链接节点Xpath和链接相对Item的相对Xpath。
在上述的基于内嵌浏览器的可视化网络爬虫系统,所述的分页信息是利用所述的单选页面元素,点击分页页面中的首尾页链接,提取首尾页的Xpath和链接信息,进行智能比较算法,算出网址的格式化信息和首尾页数值索引。
在上述的基于内嵌浏览器的可视化网络爬虫系统,配置所述的详细页面是利用所述的单选页面元素,提取元素XPath,绑定数据库,为对应字段赋值。
一种基于内嵌浏览器的可视化网络爬虫分析方法,其特征在于,包括:
步骤1:分析待爬网站的层次结构,输入首页网址;
步骤2:根据网站的结构,选择对应的配置方式:
配置方式一:若是配置同类元素,且有下级链接,则选用分支页面,选择一种单选、多选或相似选择的方式,提取分支列表;
配置方式二:若是配置分页信息和列表同类链接信息,则选用分页页面,使用相似选择的方式,点击分页页面的首尾页链接,通过智能比较算法,算出网址的格式化信息和首尾页数值索引;
配置方式三:若是配置最底层的页面,则选用详细页面,通过单选元素的方式,提取每一个感兴趣的页面元素的Xpath,绑定数据库,选择对应的表信息,为字段赋值,完善表信息;
步骤3:根据配置好的爬虫方案树,程序自动按照所有分支下的详细页面内各个元素的Xpath获取(下载)元素的文本,并存入与之关联的数据库内,最终完成数据采集任务。
本发明的主要内容分为两部分,一为在软件内部实现可视化操作,二为实现通用网络爬虫结构,即映射部分。在软件的内嵌浏览器组件直接输入目标网址,采用网页页面、元素结构树、脚本页面、网页源代码四种模式中查看网页信息。在浏览器模式下利用三种方式进行页面元素选择,依次完成分支、分页、页面配置,最终构造出爬虫方案的结构树,实现可视化爬虫配置,此为关键技术。
可视化通用爬虫的页面查看分为四种模式:浏览器模式,HTML元素树形结构模式,脚本页面模式和HTML源代码模式。而基于浏览器还可以实现页面元素的选择,点击页面元素,查询到要素文本、链接和Xpath信息,其中包括有单选页面元素在页面元素中单击、多选页面元素按住Ctrl键,多次点击页面元素上和网页元素相似选择按住Shift键,多次点击页面元素。
在内嵌浏览器组件中实现可视化操作为该专利技术的前提,而关键技术为映射部分,也就是通用网络爬虫结构,也就是根据常用的网页信息所采用的的链接跳转、分页/列表显示、详细信息展示这几类页面设计基于分支、分页、详细三类逐级递进的页面组合爬虫方案。
分支页面,第一级分支为城市列表,通过页面元素选择上文中提到的单选,多选,相似搜索,提取分支列表,加入爬虫方案。分页页面,分页信息中包含列表同类链接信息和分页信息。列表同类链接信息使用网页元素相似选择,点击两个链接,软件自动进行相似提取和智能计算,提取包括列表父节点Xpath,单项Item节点Xpath列表,超链接节点Xpath,链接相对Item的相对Xpath。而分页信息通过单选元素,点击分页页面中的首尾页链接,提取首尾页的Xpath和链接信息,进行智能比较算法,算出网址的格式化信息和首尾页数值索引。详细页面,详细信息页面主要为点击页面元素单选元素方式,提取元 素XPath,通过绑定数据库,选择页面对应表信息,为对应字段赋值,完善表信息。
通过分支、分页、详细三类逐级递进的页面组合爬虫方案,能够完成大部分网页的信息提取,因此也就能够生成一个爬虫方案元素结构树。
本发明具有以下几个优点:1、将载体、操作和层次区分开,功能性强;2、配置一个页面即可自动完成同类页面的配置,自动化程度高;3、理论上可适用于任何主题,适用性广;4、相对于主题网络爬虫而言,配置速度快且简单,实操性强;5、无需编程思想,已提前制定好方案模板,只需输入搜索网址套用模板即可完成爬虫任务。使用本发明可以达到的效果是:可视化快速配置、配置可复用、爬取速度快且爬取范围限定在配置范围内,切合主题。
附图说明
图1为本发明中一线城市分支列表示意图。
图2为本发明中详细页面配置示意图。
图3为本发明中爬虫结构树示意图。
图4为本发明中浏览器模式示意图。
图5为本发明中HTML元素树形结构模式示意图。
图6为本发明中脚本页面模式示意图。
图7为本发明中HTML源代码模式示意图。
具体实施方法
本发明专利通过内嵌浏览器,经过直观简单的操作即可完成爬虫配置问题,省去繁琐的人工查询以及编写规则的过程,配置过程无需 重复操作。同时,本发明爬虫爬取范围限定在配置范围内,保证爬取的信息准确、精确。
以两个示例展示具体实施方案,第一个是以房价为主题,第二个以电影为主题,我们依次用本发明详细介绍爬虫方案树配置流程,并爬取有关这两个主题的网页。
1、以房价为主题,搜房网http://fang.com/SoufunFamily.htm为入口进行说明。
分析搜房网的结构,可以按照分支、分页和详细页面的方案树进行配置。首先点击“分支”,用相似选择Shift+多次单击提取一线城市分支列表,加入爬虫方案如图1;然后用相同的方法依次提取小区、二手房和出租房分支列表,加入爬虫方案;然后点击“分页”,选择小区页面,通过单选元素单击,点击页面的首尾页链接,提取首尾页的Xpath和链接信息,通过智能比较算法算出网址的格式化信息和首尾页数值索引,提取分页信息;选择二手房和出租房页面,使用网页元素相似选择Shift+多次点击,点击两个以上房源,提取列表同类链接信息;最后点击“详情”,通过单选元素单击,点击小区页面、二手房和出租房房源页面中感兴趣的元素绑定数据库,为对应字段赋值如图2,完成整个爬虫方案树的配置如图3。
2、以电影为主题,电影网 http://www.1905.com/mdb/film/list/year-2017为入口进行说明。
以2017年电影为对象,分析电影网的结构。首先点击“分支”,通过单选元素单击,点击“中国”,再用相似选择提取不同的电影类型,如按Shift并同时点击“爱情”、“悬疑”等元素,提取分支列表;然后任选一个类型进入下一个页面,点击“分页”,点击首尾页链接,提取分页信息;通过相似选择,点击两部以上的电影,提取列表同类 链接信息;最后任选一部电影进入详细页面,点击“详情”,通过单选元素,点击片名、上映日期等元素,绑定数据库并为字段赋值,完成爬虫方案树的配置。
根据配置好的爬虫方案树,程序自动按照所有分支下的详细页面内各个元素的Xpath获取下载元素的文本,并存入与之关联的数据库内,最终完成房价数据采集任务。

Claims (7)

1.一种基于内嵌浏览器的可视化网络爬虫系统,其特征在于,包括:
页面查看模式(1):包括浏览器模式(4)、HTML元素树形结构模式(5)、脚本页面模式(6)和HTML源代码模式(7);
页面元素选择(2):包括单选页面元素(8)、多选页面元素(9)和网页元素相似选择(10)
爬虫结构树(3):包括分支页面(11)、分页页面(12)和详细页面(13);配置分支页面(11)是利用所述的页面元素选择(2),将某类元素提取到分支列表,加入所述的爬虫结构树(3)。
2.根据权利要求1所述的基于内嵌浏览器的可视化网络爬虫系统,其特征在于:所述的单选页面元素(8)是通过单击页面元素获取其Xpath;所述的多选页面元素(9)是通过按住Ctrl键同时多次单击页面元素获取多个元素的Xpath;所述的网页元素相似选择(10)是通过按住Shift键同时多次单击页面元素获取相似元素的Xpath。
3.根据权利要求2所述的基于内嵌浏览器的可视化网络爬虫系统,其特征在于:所述的分页页面(11)包括:列表同类链接信息(14)和分页信息(15)。
4.根据权利要求3所述的基于内嵌浏览器的可视化网络爬虫系统,其特征在于:所述的列表同类链接信息(14)是利用所述的网页元素相似选择(10),点击两个链接,自动进行相似提取和智能计算,提取包括列表父节点Xpath、单项Item节点Xpath列表、超链接节点Xpath和链接相对Item的相对Xpath。
5.根据权利要求3所述的基于内嵌浏览器的可视化网络爬虫系统,其特征在于:所述的分页信息(15)是利用所述的单选页面元素(8),点击分页页面中的首尾页链接,提取首尾页的Xpath和链接信息,进行智能比较算法,算出网址的格式化信息和首尾页数值索引。
6.根据权利要求3所述的基于内嵌浏览器的可视化网络爬虫系统,其特征在于:配置所述的详细页面(13)是利用所述的单选页面元素(8),提取元素XPath,绑定数据库,为对应字段赋值。
7.一种基于内嵌浏览器的可视化网络爬虫分析方法,其特征在于,包括:
步骤1:分析待爬网站的层次结构,输入首页网址;
步骤2:根据网站的结构,选择对应的配置方式:
配置方式一:若是配置同类元素,且有下级链接,则选用分支页面,选择一种单选、多选或相似选择的方式,提取分支列表;
配置方式二:若是配置分页信息和列表同类链接信息,则选用分页页面,使用相似选择的方式,点击分页页面的首尾页链接,通过智能比较算法,算出网址的格式化信息和首尾页数值索引;
配置方式三:若是配置最底层的页面,则选用详细页面,通过单选元素的方式,提取每一个感兴趣的页面元素的Xpath,绑定数据库,选择对应的表信息,为字段赋值,完善表信息;
步骤3:根据配置好的爬虫方案树,程序自动按照所有分支下的详细页面内各个元素的Xpath获取(下载)元素的文本,并存入与之关联的数据库内,最终完成数据采集任务。
CN201710234111.2A 2017-04-11 2017-04-11 一种基于内嵌浏览器的可视化网络爬虫系统及分析方法 Withdrawn CN107092670A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710234111.2A CN107092670A (zh) 2017-04-11 2017-04-11 一种基于内嵌浏览器的可视化网络爬虫系统及分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710234111.2A CN107092670A (zh) 2017-04-11 2017-04-11 一种基于内嵌浏览器的可视化网络爬虫系统及分析方法

Publications (1)

Publication Number Publication Date
CN107092670A true CN107092670A (zh) 2017-08-25

Family

ID=59637100

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710234111.2A Withdrawn CN107092670A (zh) 2017-04-11 2017-04-11 一种基于内嵌浏览器的可视化网络爬虫系统及分析方法

Country Status (1)

Country Link
CN (1) CN107092670A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107784113A (zh) * 2017-11-08 2018-03-09 深圳市科盾科技有限公司 Html网页数据采集方法、装置和计算机可读存储介质
CN109408701A (zh) * 2018-11-08 2019-03-01 网易(杭州)网络有限公司 一种网络爬虫爬取路径的展示方法和装置
CN110134841A (zh) * 2018-02-09 2019-08-16 鼎复数据科技(北京)有限公司 自定义实时获取网站数据的方法
CN110765402A (zh) * 2019-10-31 2020-02-07 同方知网(北京)技术有限公司 一种基于网络资源的可视化采集系统及采集方法
CN110955414A (zh) * 2019-11-29 2020-04-03 电子科技大学 自定义数据采集系统及方法
CN111045659A (zh) * 2019-11-11 2020-04-21 国家计算机网络与信息安全管理中心 采集互联网金融网页的项目列表的方法及系统
CN112099778A (zh) * 2020-11-13 2020-12-18 北京智慧星光信息技术有限公司 基于xpath的数据采集方法、电子设备及存储介质
CN112579862A (zh) * 2020-12-22 2021-03-30 福建江夏学院 基于MD5值比对的Xpath自动提取方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110252040A1 (en) * 2010-04-07 2011-10-13 Oracle International Corporation Searching document object model elements by attribute order priority
CN104142985A (zh) * 2014-07-23 2014-11-12 哈尔滨工业大学(威海) 一种半自动化的垂直爬虫生成工具及方法
CN106445986A (zh) * 2016-05-26 2017-02-22 成都好房通科技股份有限公司 一种用于解决二手房交易信息行业联网的方法及系统
CN106528769A (zh) * 2016-11-04 2017-03-22 乐视控股(北京)有限公司 一种数据采集方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110252040A1 (en) * 2010-04-07 2011-10-13 Oracle International Corporation Searching document object model elements by attribute order priority
CN104142985A (zh) * 2014-07-23 2014-11-12 哈尔滨工业大学(威海) 一种半自动化的垂直爬虫生成工具及方法
CN106445986A (zh) * 2016-05-26 2017-02-22 成都好房通科技股份有限公司 一种用于解决二手房交易信息行业联网的方法及系统
CN106528769A (zh) * 2016-11-04 2017-03-22 乐视控股(北京)有限公司 一种数据采集方法及装置

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107784113A (zh) * 2017-11-08 2018-03-09 深圳市科盾科技有限公司 Html网页数据采集方法、装置和计算机可读存储介质
CN110134841A (zh) * 2018-02-09 2019-08-16 鼎复数据科技(北京)有限公司 自定义实时获取网站数据的方法
CN109408701A (zh) * 2018-11-08 2019-03-01 网易(杭州)网络有限公司 一种网络爬虫爬取路径的展示方法和装置
CN110765402A (zh) * 2019-10-31 2020-02-07 同方知网(北京)技术有限公司 一种基于网络资源的可视化采集系统及采集方法
CN111045659A (zh) * 2019-11-11 2020-04-21 国家计算机网络与信息安全管理中心 采集互联网金融网页的项目列表的方法及系统
CN110955414A (zh) * 2019-11-29 2020-04-03 电子科技大学 自定义数据采集系统及方法
CN112099778A (zh) * 2020-11-13 2020-12-18 北京智慧星光信息技术有限公司 基于xpath的数据采集方法、电子设备及存储介质
CN112099778B (zh) * 2020-11-13 2021-02-02 北京智慧星光信息技术有限公司 基于xpath的数据采集方法、电子设备及存储介质
CN112579862A (zh) * 2020-12-22 2021-03-30 福建江夏学院 基于MD5值比对的Xpath自动提取方法
CN112579862B (zh) * 2020-12-22 2022-06-14 福建江夏学院 基于MD5值比对的Xpath自动提取方法

Similar Documents

Publication Publication Date Title
CN107092670A (zh) 一种基于内嵌浏览器的可视化网络爬虫系统及分析方法
US10459938B1 (en) Punchcard chart visualization for machine data search and analysis system
CN107145496A (zh) 基于关键词将图像与内容项目匹配的方法
US20140108418A1 (en) Searching code by specifying its behavior
CN102890692A (zh) 一种网页信息抽取方法及抽取系统
CN102096581B (zh) 生成微件的方法及装置
CN103678509B (zh) 生成网页模板的方法及装置
TW201250492A (en) Method and system of extracting web page information
US20180232351A1 (en) Joining web data with spreadsheet data using examples
Weltevrede et al. Where do bloggers blog? Platform transitions within the historical Dutch blogosphere
CN102176200A (zh) 一种软件测试用例自动生成方法
CN103678510B (zh) 对网页提供可视化标注的方法及装置
CN107145497A (zh) 基于图像和内容的元数据选择与内容匹配的图像的方法
CN106599299A (zh) 一种网站关键词的确定方法及装置
CN110309386A (zh) 一种网页爬取的方法和装置
KR100987330B1 (ko) 사용자 웹 사용 정보에 기반한 멀티 컨셉 네트워크 생성시스템 및 방법
CN106156098A (zh) 一种纠错对挖掘方法及系统
CN108153754B (zh) 一种数据处理方法及其装置
CN106681994A (zh) 查询词分类样本自动挖掘以及游戏项目推荐的方法和装置
CN104268246B (zh) 生成访问互联网站点指令脚本的方法及访问方法和装置
Dincturk Model-based crawling-an approach to design efficient crawling strategies for rich internet applications
CN110309214A (zh) 一种指令执行方法及其设备、存储介质、服务器
CN104376066A (zh) 一种网络特定内容挖掘方法和装置、及一种电子设备
Bostandjiev et al. Wigipedia: A tool for improving structured data in wikipedia
CN106055714A (zh) 一种从ria页面中抓取云计算数据的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20170825