CN107092670A - 一种基于内嵌浏览器的可视化网络爬虫系统及分析方法 - Google Patents
一种基于内嵌浏览器的可视化网络爬虫系统及分析方法 Download PDFInfo
- Publication number
- CN107092670A CN107092670A CN201710234111.2A CN201710234111A CN107092670A CN 107092670 A CN107092670 A CN 107092670A CN 201710234111 A CN201710234111 A CN 201710234111A CN 107092670 A CN107092670 A CN 107092670A
- Authority
- CN
- China
- Prior art keywords
- page
- xpath
- paging
- elements
- similar
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
- G06F16/986—Document structures and storage, e.g. HTML extensions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- User Interface Of Digital Computer (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明涉及一种基于内嵌浏览器的可视化网络爬虫系统及分析方法,包括可视化操作界面、元素选择模式和爬虫结构树。该系统以浏览器为载体,在载体上通过多种元素选择模式获取对应元素的路径,按照多个页面层次对待爬站点进行配置。手动配置爬虫结构树的一个分支,系统即可自动完成整个结构树的配置。按照配置好的结构树,将所有元素的文本下载到数据库中。另外,该系统可以爬取任何主题。因此,本发明具有可视化程度高、自动化程度高、适用性广和配置简单的优势。
Description
技术领域
本发明属于计算机网络技术领域,特别是涉及一种基于内嵌浏览器的可视化网络爬虫系统及分析方法。
背景技术
网络爬虫是一种高效的信息抓取工具,它集成了搜索引擎技术,并通过技术手段进行优化,用以从互联网搜索、抓取并保存任何通过HTML超文本标记语言进行标准化的网页信息。网络爬虫分为通用网络爬虫如谷歌、百度浏览器和主题网络爬虫等。由于通用网络爬虫的检索效果不理想,准确率和召回率都很低,所以主题网络爬虫逐渐成为专业用户及研究人员的首选。主题网络爬虫主要采用最佳优先抓取策略,即按照一定的网页评价算法,计算网页与主题的相关性,选取“价值”最高的网页中的链接进行抓取。但是主题网络爬虫存在一定的问题和缺陷,如当前的网页评价算法不完善,配置复杂,爬取效率低等。
另外,网页元素Xpath获取需要一些组件或浏览器的辅助,以Google浏览器为例,具体方法为:打开Chrome→输入网址→右击感兴趣的元素→点击“检查”→右击开发者页面对应元素→点击“Copy”→点击“Copy Xpath”,完成网页元素Xpath获取任务。很明显这一过程过于繁琐,若元素数量多,则会耗费大量精力。
目前,国内外与可视化爬虫配置相关的文献少之又少,而已有的成熟的可视化网络爬虫不多且各有各的缺陷。比如八爪鱼采集器,其 配置步骤虽然少,但是配置过程复杂,层次不清晰。它以分页页面为起点,直接对详细页面进行配置,各种界面操作没有进行分类,而是一次性让用户选择,这对于普通用户而言难度过大。
综上,当前市场上的爬虫存在的缺陷有:1、配置复杂;2、爬取效率低;3、Xpath获取步骤繁琐;4、可视化程度低。
发明内容
本发明致力于解决现有爬虫配置难、操作复杂及效率低的问题。
为达到上述目的,本发明通过以下技术方案实现:
一种基于内嵌浏览器的可视化网络爬虫系统,其特征在于,包括:
页面查看模式:包括浏览器模式、HTML元素树形结构模式、脚本页面模式和HTML源代码模式;
页面元素选择:包括单选页面元素、多选页面元素和网页元素相似选择
爬虫结构树:包括分支页面、分页页面和详细页面;配置分支页面是利用所述的页面元素选择,将某类元素提取到分支列表,加入所述的爬虫结构树。
在上述的基于内嵌浏览器的可视化网络爬虫系统,所述的单选页面元素是通过单击页面元素获取其Xpath;所述的多选页面元素是通过按住Ctrl键同时多次单击页面元素获取多个元素的Xpath;所述的网页元素相似选择是通过按住Shift键同时多次单击页面元素获取相似元素的Xpath。
在上述的基于内嵌浏览器的可视化网络爬虫系统,所述的分页页面包括:列表同类链接信息和分页信息。
在上述的基于内嵌浏览器的可视化网络爬虫系统,所述的列表同 类链接信息是利用所述的网页元素相似选择,点击两个链接,自动进行相似提取和智能计算,提取包括列表父节点Xpath、单项Item节点Xpath列表、超链接节点Xpath和链接相对Item的相对Xpath。
在上述的基于内嵌浏览器的可视化网络爬虫系统,所述的分页信息是利用所述的单选页面元素,点击分页页面中的首尾页链接,提取首尾页的Xpath和链接信息,进行智能比较算法,算出网址的格式化信息和首尾页数值索引。
在上述的基于内嵌浏览器的可视化网络爬虫系统,配置所述的详细页面是利用所述的单选页面元素,提取元素XPath,绑定数据库,为对应字段赋值。
一种基于内嵌浏览器的可视化网络爬虫分析方法,其特征在于,包括:
步骤1:分析待爬网站的层次结构,输入首页网址;
步骤2:根据网站的结构,选择对应的配置方式:
配置方式一:若是配置同类元素,且有下级链接,则选用分支页面,选择一种单选、多选或相似选择的方式,提取分支列表;
配置方式二:若是配置分页信息和列表同类链接信息,则选用分页页面,使用相似选择的方式,点击分页页面的首尾页链接,通过智能比较算法,算出网址的格式化信息和首尾页数值索引;
配置方式三:若是配置最底层的页面,则选用详细页面,通过单选元素的方式,提取每一个感兴趣的页面元素的Xpath,绑定数据库,选择对应的表信息,为字段赋值,完善表信息;
步骤3:根据配置好的爬虫方案树,程序自动按照所有分支下的详细页面内各个元素的Xpath获取(下载)元素的文本,并存入与之关联的数据库内,最终完成数据采集任务。
本发明的主要内容分为两部分,一为在软件内部实现可视化操作,二为实现通用网络爬虫结构,即映射部分。在软件的内嵌浏览器组件直接输入目标网址,采用网页页面、元素结构树、脚本页面、网页源代码四种模式中查看网页信息。在浏览器模式下利用三种方式进行页面元素选择,依次完成分支、分页、页面配置,最终构造出爬虫方案的结构树,实现可视化爬虫配置,此为关键技术。
可视化通用爬虫的页面查看分为四种模式:浏览器模式,HTML元素树形结构模式,脚本页面模式和HTML源代码模式。而基于浏览器还可以实现页面元素的选择,点击页面元素,查询到要素文本、链接和Xpath信息,其中包括有单选页面元素在页面元素中单击、多选页面元素按住Ctrl键,多次点击页面元素上和网页元素相似选择按住Shift键,多次点击页面元素。
在内嵌浏览器组件中实现可视化操作为该专利技术的前提,而关键技术为映射部分,也就是通用网络爬虫结构,也就是根据常用的网页信息所采用的的链接跳转、分页/列表显示、详细信息展示这几类页面设计基于分支、分页、详细三类逐级递进的页面组合爬虫方案。
分支页面,第一级分支为城市列表,通过页面元素选择上文中提到的单选,多选,相似搜索,提取分支列表,加入爬虫方案。分页页面,分页信息中包含列表同类链接信息和分页信息。列表同类链接信息使用网页元素相似选择,点击两个链接,软件自动进行相似提取和智能计算,提取包括列表父节点Xpath,单项Item节点Xpath列表,超链接节点Xpath,链接相对Item的相对Xpath。而分页信息通过单选元素,点击分页页面中的首尾页链接,提取首尾页的Xpath和链接信息,进行智能比较算法,算出网址的格式化信息和首尾页数值索引。详细页面,详细信息页面主要为点击页面元素单选元素方式,提取元 素XPath,通过绑定数据库,选择页面对应表信息,为对应字段赋值,完善表信息。
通过分支、分页、详细三类逐级递进的页面组合爬虫方案,能够完成大部分网页的信息提取,因此也就能够生成一个爬虫方案元素结构树。
本发明具有以下几个优点:1、将载体、操作和层次区分开,功能性强;2、配置一个页面即可自动完成同类页面的配置,自动化程度高;3、理论上可适用于任何主题,适用性广;4、相对于主题网络爬虫而言,配置速度快且简单,实操性强;5、无需编程思想,已提前制定好方案模板,只需输入搜索网址套用模板即可完成爬虫任务。使用本发明可以达到的效果是:可视化快速配置、配置可复用、爬取速度快且爬取范围限定在配置范围内,切合主题。
附图说明
图1为本发明中一线城市分支列表示意图。
图2为本发明中详细页面配置示意图。
图3为本发明中爬虫结构树示意图。
图4为本发明中浏览器模式示意图。
图5为本发明中HTML元素树形结构模式示意图。
图6为本发明中脚本页面模式示意图。
图7为本发明中HTML源代码模式示意图。
具体实施方法
本发明专利通过内嵌浏览器,经过直观简单的操作即可完成爬虫配置问题,省去繁琐的人工查询以及编写规则的过程,配置过程无需 重复操作。同时,本发明爬虫爬取范围限定在配置范围内,保证爬取的信息准确、精确。
以两个示例展示具体实施方案,第一个是以房价为主题,第二个以电影为主题,我们依次用本发明详细介绍爬虫方案树配置流程,并爬取有关这两个主题的网页。
1、以房价为主题,搜房网http://fang.com/SoufunFamily.htm为入口进行说明。
分析搜房网的结构,可以按照分支、分页和详细页面的方案树进行配置。首先点击“分支”,用相似选择Shift+多次单击提取一线城市分支列表,加入爬虫方案如图1;然后用相同的方法依次提取小区、二手房和出租房分支列表,加入爬虫方案;然后点击“分页”,选择小区页面,通过单选元素单击,点击页面的首尾页链接,提取首尾页的Xpath和链接信息,通过智能比较算法算出网址的格式化信息和首尾页数值索引,提取分页信息;选择二手房和出租房页面,使用网页元素相似选择Shift+多次点击,点击两个以上房源,提取列表同类链接信息;最后点击“详情”,通过单选元素单击,点击小区页面、二手房和出租房房源页面中感兴趣的元素绑定数据库,为对应字段赋值如图2,完成整个爬虫方案树的配置如图3。
2、以电影为主题,电影网 http://www.1905.com/mdb/film/list/year-2017为入口进行说明。
以2017年电影为对象,分析电影网的结构。首先点击“分支”,通过单选元素单击,点击“中国”,再用相似选择提取不同的电影类型,如按Shift并同时点击“爱情”、“悬疑”等元素,提取分支列表;然后任选一个类型进入下一个页面,点击“分页”,点击首尾页链接,提取分页信息;通过相似选择,点击两部以上的电影,提取列表同类 链接信息;最后任选一部电影进入详细页面,点击“详情”,通过单选元素,点击片名、上映日期等元素,绑定数据库并为字段赋值,完成爬虫方案树的配置。
根据配置好的爬虫方案树,程序自动按照所有分支下的详细页面内各个元素的Xpath获取下载元素的文本,并存入与之关联的数据库内,最终完成房价数据采集任务。
Claims (7)
1.一种基于内嵌浏览器的可视化网络爬虫系统,其特征在于,包括:
页面查看模式(1):包括浏览器模式(4)、HTML元素树形结构模式(5)、脚本页面模式(6)和HTML源代码模式(7);
页面元素选择(2):包括单选页面元素(8)、多选页面元素(9)和网页元素相似选择(10)
爬虫结构树(3):包括分支页面(11)、分页页面(12)和详细页面(13);配置分支页面(11)是利用所述的页面元素选择(2),将某类元素提取到分支列表,加入所述的爬虫结构树(3)。
2.根据权利要求1所述的基于内嵌浏览器的可视化网络爬虫系统,其特征在于:所述的单选页面元素(8)是通过单击页面元素获取其Xpath;所述的多选页面元素(9)是通过按住Ctrl键同时多次单击页面元素获取多个元素的Xpath;所述的网页元素相似选择(10)是通过按住Shift键同时多次单击页面元素获取相似元素的Xpath。
3.根据权利要求2所述的基于内嵌浏览器的可视化网络爬虫系统,其特征在于:所述的分页页面(11)包括:列表同类链接信息(14)和分页信息(15)。
4.根据权利要求3所述的基于内嵌浏览器的可视化网络爬虫系统,其特征在于:所述的列表同类链接信息(14)是利用所述的网页元素相似选择(10),点击两个链接,自动进行相似提取和智能计算,提取包括列表父节点Xpath、单项Item节点Xpath列表、超链接节点Xpath和链接相对Item的相对Xpath。
5.根据权利要求3所述的基于内嵌浏览器的可视化网络爬虫系统,其特征在于:所述的分页信息(15)是利用所述的单选页面元素(8),点击分页页面中的首尾页链接,提取首尾页的Xpath和链接信息,进行智能比较算法,算出网址的格式化信息和首尾页数值索引。
6.根据权利要求3所述的基于内嵌浏览器的可视化网络爬虫系统,其特征在于:配置所述的详细页面(13)是利用所述的单选页面元素(8),提取元素XPath,绑定数据库,为对应字段赋值。
7.一种基于内嵌浏览器的可视化网络爬虫分析方法,其特征在于,包括:
步骤1:分析待爬网站的层次结构,输入首页网址;
步骤2:根据网站的结构,选择对应的配置方式:
配置方式一:若是配置同类元素,且有下级链接,则选用分支页面,选择一种单选、多选或相似选择的方式,提取分支列表;
配置方式二:若是配置分页信息和列表同类链接信息,则选用分页页面,使用相似选择的方式,点击分页页面的首尾页链接,通过智能比较算法,算出网址的格式化信息和首尾页数值索引;
配置方式三:若是配置最底层的页面,则选用详细页面,通过单选元素的方式,提取每一个感兴趣的页面元素的Xpath,绑定数据库,选择对应的表信息,为字段赋值,完善表信息;
步骤3:根据配置好的爬虫方案树,程序自动按照所有分支下的详细页面内各个元素的Xpath获取(下载)元素的文本,并存入与之关联的数据库内,最终完成数据采集任务。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710234111.2A CN107092670A (zh) | 2017-04-11 | 2017-04-11 | 一种基于内嵌浏览器的可视化网络爬虫系统及分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710234111.2A CN107092670A (zh) | 2017-04-11 | 2017-04-11 | 一种基于内嵌浏览器的可视化网络爬虫系统及分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107092670A true CN107092670A (zh) | 2017-08-25 |
Family
ID=59637100
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710234111.2A Withdrawn CN107092670A (zh) | 2017-04-11 | 2017-04-11 | 一种基于内嵌浏览器的可视化网络爬虫系统及分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107092670A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107784113A (zh) * | 2017-11-08 | 2018-03-09 | 深圳市科盾科技有限公司 | Html网页数据采集方法、装置和计算机可读存储介质 |
CN109408701A (zh) * | 2018-11-08 | 2019-03-01 | 网易(杭州)网络有限公司 | 一种网络爬虫爬取路径的展示方法和装置 |
CN110134841A (zh) * | 2018-02-09 | 2019-08-16 | 鼎复数据科技(北京)有限公司 | 自定义实时获取网站数据的方法 |
CN110765402A (zh) * | 2019-10-31 | 2020-02-07 | 同方知网(北京)技术有限公司 | 一种基于网络资源的可视化采集系统及采集方法 |
CN110955414A (zh) * | 2019-11-29 | 2020-04-03 | 电子科技大学 | 自定义数据采集系统及方法 |
CN111045659A (zh) * | 2019-11-11 | 2020-04-21 | 国家计算机网络与信息安全管理中心 | 采集互联网金融网页的项目列表的方法及系统 |
CN112099778A (zh) * | 2020-11-13 | 2020-12-18 | 北京智慧星光信息技术有限公司 | 基于xpath的数据采集方法、电子设备及存储介质 |
CN112579862A (zh) * | 2020-12-22 | 2021-03-30 | 福建江夏学院 | 基于MD5值比对的Xpath自动提取方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110252040A1 (en) * | 2010-04-07 | 2011-10-13 | Oracle International Corporation | Searching document object model elements by attribute order priority |
CN104142985A (zh) * | 2014-07-23 | 2014-11-12 | 哈尔滨工业大学(威海) | 一种半自动化的垂直爬虫生成工具及方法 |
CN106445986A (zh) * | 2016-05-26 | 2017-02-22 | 成都好房通科技股份有限公司 | 一种用于解决二手房交易信息行业联网的方法及系统 |
CN106528769A (zh) * | 2016-11-04 | 2017-03-22 | 乐视控股(北京)有限公司 | 一种数据采集方法及装置 |
-
2017
- 2017-04-11 CN CN201710234111.2A patent/CN107092670A/zh not_active Withdrawn
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110252040A1 (en) * | 2010-04-07 | 2011-10-13 | Oracle International Corporation | Searching document object model elements by attribute order priority |
CN104142985A (zh) * | 2014-07-23 | 2014-11-12 | 哈尔滨工业大学(威海) | 一种半自动化的垂直爬虫生成工具及方法 |
CN106445986A (zh) * | 2016-05-26 | 2017-02-22 | 成都好房通科技股份有限公司 | 一种用于解决二手房交易信息行业联网的方法及系统 |
CN106528769A (zh) * | 2016-11-04 | 2017-03-22 | 乐视控股(北京)有限公司 | 一种数据采集方法及装置 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107784113A (zh) * | 2017-11-08 | 2018-03-09 | 深圳市科盾科技有限公司 | Html网页数据采集方法、装置和计算机可读存储介质 |
CN110134841A (zh) * | 2018-02-09 | 2019-08-16 | 鼎复数据科技(北京)有限公司 | 自定义实时获取网站数据的方法 |
CN109408701A (zh) * | 2018-11-08 | 2019-03-01 | 网易(杭州)网络有限公司 | 一种网络爬虫爬取路径的展示方法和装置 |
CN110765402A (zh) * | 2019-10-31 | 2020-02-07 | 同方知网(北京)技术有限公司 | 一种基于网络资源的可视化采集系统及采集方法 |
CN111045659A (zh) * | 2019-11-11 | 2020-04-21 | 国家计算机网络与信息安全管理中心 | 采集互联网金融网页的项目列表的方法及系统 |
CN110955414A (zh) * | 2019-11-29 | 2020-04-03 | 电子科技大学 | 自定义数据采集系统及方法 |
CN112099778A (zh) * | 2020-11-13 | 2020-12-18 | 北京智慧星光信息技术有限公司 | 基于xpath的数据采集方法、电子设备及存储介质 |
CN112099778B (zh) * | 2020-11-13 | 2021-02-02 | 北京智慧星光信息技术有限公司 | 基于xpath的数据采集方法、电子设备及存储介质 |
CN112579862A (zh) * | 2020-12-22 | 2021-03-30 | 福建江夏学院 | 基于MD5值比对的Xpath自动提取方法 |
CN112579862B (zh) * | 2020-12-22 | 2022-06-14 | 福建江夏学院 | 基于MD5值比对的Xpath自动提取方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107092670A (zh) | 一种基于内嵌浏览器的可视化网络爬虫系统及分析方法 | |
US10459938B1 (en) | Punchcard chart visualization for machine data search and analysis system | |
CN107145496A (zh) | 基于关键词将图像与内容项目匹配的方法 | |
US20140108418A1 (en) | Searching code by specifying its behavior | |
CN102890692A (zh) | 一种网页信息抽取方法及抽取系统 | |
CN102096581B (zh) | 生成微件的方法及装置 | |
CN103678509B (zh) | 生成网页模板的方法及装置 | |
TW201250492A (en) | Method and system of extracting web page information | |
US20180232351A1 (en) | Joining web data with spreadsheet data using examples | |
Weltevrede et al. | Where do bloggers blog? Platform transitions within the historical Dutch blogosphere | |
CN102176200A (zh) | 一种软件测试用例自动生成方法 | |
CN103678510B (zh) | 对网页提供可视化标注的方法及装置 | |
CN107145497A (zh) | 基于图像和内容的元数据选择与内容匹配的图像的方法 | |
CN106599299A (zh) | 一种网站关键词的确定方法及装置 | |
CN110309386A (zh) | 一种网页爬取的方法和装置 | |
KR100987330B1 (ko) | 사용자 웹 사용 정보에 기반한 멀티 컨셉 네트워크 생성시스템 및 방법 | |
CN106156098A (zh) | 一种纠错对挖掘方法及系统 | |
CN108153754B (zh) | 一种数据处理方法及其装置 | |
CN106681994A (zh) | 查询词分类样本自动挖掘以及游戏项目推荐的方法和装置 | |
CN104268246B (zh) | 生成访问互联网站点指令脚本的方法及访问方法和装置 | |
Dincturk | Model-based crawling-an approach to design efficient crawling strategies for rich internet applications | |
CN110309214A (zh) | 一种指令执行方法及其设备、存储介质、服务器 | |
CN104376066A (zh) | 一种网络特定内容挖掘方法和装置、及一种电子设备 | |
Bostandjiev et al. | Wigipedia: A tool for improving structured data in wikipedia | |
CN106055714A (zh) | 一种从ria页面中抓取云计算数据的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20170825 |