CN106294885A - 一种面向异构网页的数据收集与标注方法 - Google Patents

一种面向异构网页的数据收集与标注方法 Download PDF

Info

Publication number
CN106294885A
CN106294885A CN201610879670.4A CN201610879670A CN106294885A CN 106294885 A CN106294885 A CN 106294885A CN 201610879670 A CN201610879670 A CN 201610879670A CN 106294885 A CN106294885 A CN 106294885A
Authority
CN
China
Prior art keywords
data
mark
webpage
request
resolve
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201610879670.4A
Other languages
English (en)
Inventor
孙仕亮
陈俊宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN201610879670.4A priority Critical patent/CN106294885A/zh
Publication of CN106294885A publication Critical patent/CN106294885A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种面向异构网页的数据收集与标注方法,该方法采用XPath与正则表达式的对收集到的数据进行解析,通过查询是否存在对应的DOM节点从而判断对应的网页页面结构,并给下面的标注工作提供了一个先验知识,在标注过程中仅需对预标注的数据进行标注修正,即可完成标注。本发明能够有效地整合数据的收集与数据的分类操作,使得数据挖掘的进展能够高效地进行。相比传统的数据收集方法,本发明收集质量更高,垃圾数据收集率低,数据分类准确。

Description

一种面向异构网页的数据收集与标注方法
技术领域
本发明涉及互联网信息检索和挖掘技术领域,尤其涉及一种面向异构网页的数据收集与标注方法。
背景技术
网络爬虫,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。网络爬虫一般驻留在服务器上,通过给定的一些 URL(Uniform Resource Locator,统一资源定位符),利用 HTTP(Hyper Text Transfer Protocol,超文本传输协议 ) 等标准协议读取相应文档,然后以文档中包括的所有未访问 URL 作为新的起点,继续进行漫游,直到没有满足条件的新URL为止。互联网作为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。
传统的网络爬虫技术的通常做法是,在已获得的网页中,抽取出所有的URL,并根据这些新的URL链接获取新的网页。然而,随着互联网信息的爆炸式增长,传统的网络爬虫采集系统已经逐渐显示出劣势。传统网络爬虫系统的目标是尽可能高速、全面地将网络上的网页爬取到本地存储中,在收集数据时并不会对数据进行相应的划分工作。因此,传统的爬虫技术只会漫无目的地爬取网页,从而导致了资源的浪费。在数据挖掘等领域的后续工作中,无法得以良好的应用。除此之外,虽然网页的数据量是极其庞大的,但是实际上用户所关心的在页面上数据只是页面中的一块内容。例如,在新闻页面中,可能会存在广告栏,导航栏等等文本信息,这些都不是用户所关心的部分,而传统的网络爬虫技术无法准确识别页面的内容,只会单纯地将整个页面下载下来,而不会根据一定的要求,将网页上的文本,图片等数据下载下来,形成结构化数据。
此外,对于带有AJAX请求的页面,传统的网络爬虫在执行方式上就需要一个模拟的浏览器加载该网页的页面并且执行该网页需要执行的 JavaScript 脚本(其中包括异步请求),并且在加载完成之后,还支持通过该AJAX抓取配置来模拟用户操作,例如点击按钮、提交表单等,然后再根据元素路径提取该网页的页面中的元素所需要的值,例如内容、链接、图像识别结果等。这种方式通常要等待JavaScript脚本在页面的运行,需要同步地去获取信息,获取效率慢。因此,现有技术还有待改进与发展。
发明内容
本发明的目的是针对现有技术存在的问题而提供的一种面向异构网页的数据收集与标注方法,旨在解决数据收集与分类的整合问题,使得下一步工作的应用得以良好的进行。
本发明的目的是这样实现的:
一种面向异构网页的数据收集与标注方法,特点是该方法包括以下具体步骤:
步骤1:从初始的URL中获取网页;
步骤2:向所获取的网页的服务器发送HTTP请求,并将请求的内容返回到客户端;
步骤3:客户端接到请求后,使用解析器对HTML页面进行解析;
步骤4:使用正则表达式匹配所需的信息,并获取其中的超链接,筛选出数据库中重复的超链接后,将该超链接加入到爬虫队列中;
步骤5:重复上述步骤2-4,依次完成并添加结构化的数据到数据库中;
步骤6:对数据库中获取到的数据进行数据清洗工作;
步骤7:标注人使用标注系统,从数据库中分配相应的标注任务开始标注;
步骤8:标注人完成一个标注任务后,重复请求服务器进行分配任务;
步骤9:重复标注步骤7、步骤8直至数据已标注完毕。
所述步骤3中,使用解析器对HTML页面进行解析:针对AJAX请求进行解析,对请求的参数进行自定义,遍历参数进行多次请求,从而得到更多的链接,并存储到文本中。
所述步骤4具体包括:
对于不同的网站内容会有不同的网页页面结构,通过采用Xpath与正则表达式的方式解析当前页面是否存在特定页面DOM节点,从而判定属于哪类网页页面结构,以便于下面步骤中解析数据的工作,同时,在解析数据的同时,采用正则表达式对URL链接进行匹配,用以判断该页面内容是否属于所需内容,从而给下面的分类工作提供一个先验知识,简化标注人的工作量。
所述步骤7中,所述开始标注:在数据收集过程中的初始分类信息会自动地在分类中默认勾选,从而标注人只需要判断默认标注是否正确、标注小类和数据是否有误即可。
本发明的方法,在数据收集上解决了传统网络爬虫无法收集含有AJAX动态技术的页面。
同时,本发明还将数据的收集与分类一体化整合,在数据收集后能直接通过标注对数据进行分类,形成流水线式的工作,增加了工作效率,以便于下面数据挖掘等工作的开展。
与现有技术相比,本发明通过将数据的收集与分类一体化整合,在数据收集上解决了传统网络爬虫无法收集含有AJAX动态技术的页面,提高了工作效率,节约了CPU资源,大大节约了服务器的存储空间。同时,在分类上,给出一个默认的分类信息,并具有一定的准确性,用户只需判别这个默认的分类信息是否准确并细分小类即可,提高了识别效率。
本发明提出的一种面向异构网页的数据收集与标注方法,能够有效地整合数据的收集与数据的分类操作,使得接下来工作(例如数据挖掘)的进展能够高效地进行。相比传统的数据收集方法,本发明收集质量更高,垃圾数据收集率低,数据分类准确。
附图说明
图1为本发明实施例的流程图;
图2为本发明网页数据标注的流程图。
具体实施方式
下面结合附图及实施例对本发明进一步说明,但并不因此将本发明限制在所述的实施例范围之中。本实施例提供一种以教育与非教育数据为例的面向异构网页的数据收集与标注方法,如图1所示,包括以下步骤:
在本实施例的数据收集阶段,采用了基于Python的一款网络爬虫框架Scrapy,用于收集互联网的教育与非教育数据。Scrapy提供了一个快速,高层次的屏幕抓取和WEB抓取框架,用于抓取WEB站点并从页面中提取结构化的数据。通过这款框架简单快速地开发爬虫应用,并抽取相应的数据到数据库中,从而用于各式各样的用途,例如:数据挖掘,信息处理等等。
在本实例的数据标注阶段,将数据分为教育类与非教育类。在教育类下又细分学前教育、小学教育、初中教育、高中教育、大学教育、留学教育和其他教育。数据同时又分为文本型数据、图片型数据和混合型数据。
以腾讯教育网为例,2015年后的页面与2015年之前的页面有着结构上的不同。因此需要在数据收集前对网站的结构进行匹配,从而进一步选择对应的收集算法来抽取页面上的数据。一种互联网资源的收集方法包括以下步骤:
S1、客户端将一预设URL(Uniform Resource Locator,统一资源定位符)链接的请求发送至服务器;
S2、该服务器根据该预设URL链接的请求响应相应的HTML代码,并返回客户端;
S3、客户端根据相应的HTML代码,通过使用XPath将其进行解析网页上的超链接,使用正则表达式匹配期望链接的URL,过滤URL并加入到请求队列;
S4、客户端通过解析到不同的代码,判断是否存在对应页面的特征DOM节点,从而采用不同的爬虫算法抽取数据;
S5、使用对应的抓取算法收集到网页数据后,通过采用正则表达式对获取的HTML代码进行去除标签代码的工作,从而获得更为干净的数据,将数据结构化;
S6、将结构化的数据存入数据库。数据收集阶段结束,接下来进行数据的标注阶段;
S7、标注开始前,先为每位标注用户注册一个账号用于登录与记录标注;
S8、标注用户登录系统开始进行标注,系统开始分配标注任务;
S9、该系统会采用按文档收集时间顺序抽取一些未标注的数据,并对数据进行预标注,然后标注者根据页面上数据显示的内容进行标注修正;
S10、重复上述步骤S8、S9直至标注阶段完成。
在本实施例中,客户端预设了一个URL的去重操作,在每次请求前可以到数据库中与已经获取的数据进行比对。若该URL已在数据库中已经存在,则抛弃该数据而无需进一步解析。大大节约了服务器的存储空间,又减少了后续工作展开的复杂性。
在步骤S4中,判断页面结构的代码案例如下:
def create_strategy(response, site=None):
if site is Site.tencent: # 腾讯新闻
current_sel = response.xpath("//div[@id='Cnt-Main-Article-QQ']")
outdated_sel = response.xpath("//div[@id='cntL']")
if current_sel: # http://edu.qq.com/a/20160323/013157.htm
return CurrentStrategy(response, current_sel)
if outdated_sel: # http://edu.qq.com/a/20081231/000007.htm
return OutdatedStrategy(response, outdated_sel)
return None
步骤S5中,使用正则表达式去除标签代码的实例代码如下:
content = re.sub(r'<\s*script[^>]*>[^<]*<\s*/\s*script\s*>', '', content)
content = re.sub(r'<\s*style[^>]*>[^<]*<\s*/\s*style\s*>', '', content)
content = re.sub(r'<[^>]*>', '', content)
在步骤S9中,标注任务的具体步骤如下:
1)、根据数据收集时获得的初始数据标注信息,在教育与非教育类下分别抽取10条数据,并以时间顺序进行排序。
2)、在用户标注界面,前十条默认选中教育类,后十条默认选中非教育类。标注者需要点击相应的链接查看数据的来源是否正确,是否存在问题,修改所收集数据的内容,修改标注信息。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这些仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。

Claims (4)

1.一种面向异构网页的数据收集与标注方法,其特征在于,该方法包括以下具体步骤:
步骤1:从初始的URL中获取网页;
步骤2:向所获取的网页的服务器发送HTTP请求,并将请求的内容返回到客户端;
步骤3:客户端接到请求后,使用解析器对HTML页面进行解析;
步骤4:使用正则表达式匹配所需的信息,并获取其中的超链接,筛选出数据库中重复的超链接后,将该超链接加入到爬虫队列中;
步骤5:重复上述步骤2-4,依次完成并添加结构化的数据到数据库中;
步骤6:对数据库中获取到的数据进行数据清洗工作;
步骤7:标注人使用标注系统,从数据库中分配相应的标注任务开始标注;
步骤8:标注人完成一个标注任务后,重复请求服务器进行分配任务;
步骤9:重复标注步骤7、步骤8直至数据已标注完毕。
2.根据权利要求1所述的方法,其特征在于,步骤3中,所述使用解析器对HTML页面进行解析:针对AJAX请求进行解析,对请求的参数进行自定义,遍历参数进行多次请求,从而得到更多的链接,并存储到文本中。
3.根据权利要求1所述的方法,其特征在于,所述步骤4具体包括:
对于不同的网站内容会有不同的网页页面结构,通过采用Xpath与正则表达式的方式解析当前页面是否存在特定页面DOM节点,从而判定属于哪类网页页面结构,以便于下面步骤中解析数据的工作,同时,在解析数据的同时,采用正则表达式对URL链接进行匹配,用以判断该页面内容是否属于所需内容,从而给下面的分类工作提供一个先验知识,简化标注人的工作量。
4.根据权利要求1所述的方法,其特征在于,步骤7中,所述开始标注:在数据收集过程中的初始分类信息会自动地在分类中默认勾选,从而标注人只需要判断默认标注是否正确、标注小类和数据是否有误即可。
CN201610879670.4A 2016-10-09 2016-10-09 一种面向异构网页的数据收集与标注方法 Withdrawn CN106294885A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610879670.4A CN106294885A (zh) 2016-10-09 2016-10-09 一种面向异构网页的数据收集与标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610879670.4A CN106294885A (zh) 2016-10-09 2016-10-09 一种面向异构网页的数据收集与标注方法

Publications (1)

Publication Number Publication Date
CN106294885A true CN106294885A (zh) 2017-01-04

Family

ID=57717565

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610879670.4A Withdrawn CN106294885A (zh) 2016-10-09 2016-10-09 一种面向异构网页的数据收集与标注方法

Country Status (1)

Country Link
CN (1) CN106294885A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107729475A (zh) * 2017-10-16 2018-02-23 深圳视界信息技术有限公司 网页元素采集方法、装置、终端与计算机可读存储介质
CN108038245A (zh) * 2017-12-28 2018-05-15 中译语通科技(青岛)有限公司 一种基于多语言的数据挖掘方法
CN108416034A (zh) * 2018-03-12 2018-08-17 宿州学院 基于金融异构大数据的信息采集系统及其控制方法
CN109885754A (zh) * 2019-02-18 2019-06-14 浪潮软件集团有限公司 一种互联网非结构化文本数据的采集方法
CN110069683A (zh) * 2017-09-18 2019-07-30 北京国双科技有限公司 一种基于浏览器爬取数据的方法及装置
CN112347332A (zh) * 2020-11-17 2021-02-09 南开大学 一种基于XPath的爬虫目标定位方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101582075A (zh) * 2009-06-24 2009-11-18 大连海事大学 Web信息抽取系统
CN103838732A (zh) * 2012-11-21 2014-06-04 大连灵动科技发展有限公司 一种生活服务领域垂直搜索引擎
CN105844424A (zh) * 2016-05-30 2016-08-10 中国计量学院 基于网络评论的产品质量问题发现及风险评估方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101582075A (zh) * 2009-06-24 2009-11-18 大连海事大学 Web信息抽取系统
CN103838732A (zh) * 2012-11-21 2014-06-04 大连灵动科技发展有限公司 一种生活服务领域垂直搜索引擎
CN105844424A (zh) * 2016-05-30 2016-08-10 中国计量学院 基于网络评论的产品质量问题发现及风险评估方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
管翠花: "支持Ajax技术的Deep Web网络爬虫模型研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110069683A (zh) * 2017-09-18 2019-07-30 北京国双科技有限公司 一种基于浏览器爬取数据的方法及装置
CN110069683B (zh) * 2017-09-18 2021-08-13 北京国双科技有限公司 一种基于浏览器爬取数据的方法及装置
CN107729475A (zh) * 2017-10-16 2018-02-23 深圳视界信息技术有限公司 网页元素采集方法、装置、终端与计算机可读存储介质
CN108038245A (zh) * 2017-12-28 2018-05-15 中译语通科技(青岛)有限公司 一种基于多语言的数据挖掘方法
CN108416034A (zh) * 2018-03-12 2018-08-17 宿州学院 基于金融异构大数据的信息采集系统及其控制方法
CN108416034B (zh) * 2018-03-12 2021-11-16 宿州学院 基于金融异构大数据的信息采集系统及其控制方法
CN109885754A (zh) * 2019-02-18 2019-06-14 浪潮软件集团有限公司 一种互联网非结构化文本数据的采集方法
CN112347332A (zh) * 2020-11-17 2021-02-09 南开大学 一种基于XPath的爬虫目标定位方法

Similar Documents

Publication Publication Date Title
CN106294885A (zh) 一种面向异构网页的数据收集与标注方法
CN108399150B (zh) 文本处理方法、装置、计算机设备和存储介质
US9767082B2 (en) Method and system of retrieving ajax web page content
CN107423391B (zh) 网页结构化数据的信息提取方法
CN107766344B (zh) 一种模板渲染的方法、装置及浏览器
CN108416011B (zh) 一种页面处理方法、装置、终端及计算机可读存储介质
CN103294781A (zh) 一种用于处理页面数据的方法与设备
CN107153716B (zh) 网页内容提取方法和装置
CN105022803B (zh) 一种提取网页正文内容的方法及系统
CN105243159A (zh) 一种基于可视化脚本编辑器的分布式网络爬虫系统
CN104063401B (zh) 一种网页样式地址合并的方法和装置
TW201250492A (en) Method and system of extracting web page information
CN103544176A (zh) 用于生成多个页面所对应的页面结构模板的方法和设备
CN109408701B (zh) 一种网络爬虫爬取路径的展示方法和装置
CN102135976B (zh) 超文本标识语言页面结构化数据提取方法及装置
CN103699591A (zh) 一种基于示例页面的网页正文提取方法
US20210064453A1 (en) Automated application programming interface (api) specification construction
CN107590236B (zh) 一种面向建筑施工企业的大数据采集方法和系统
CN103345532A (zh) 一种网页信息抽取方法及装置
CN107220250A (zh) 一种模板配置方法及系统
CN110309386B (zh) 一种网页爬取的方法和装置
CN103853770B (zh) 一种抽取论坛网页中帖子内容的方法及系统
CN103488675A (zh) 一种多网页新闻评论内容自动精确提取装置
CN101763432A (zh) 一种轻量级网页动态视图快速构建方法
CN110309457A (zh) 网页数据处理方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20170104