CN110020054B - 网页内容爬取方法、装置、计算机设备和存储介质 - Google Patents

网页内容爬取方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN110020054B
CN110020054B CN201711396765.1A CN201711396765A CN110020054B CN 110020054 B CN110020054 B CN 110020054B CN 201711396765 A CN201711396765 A CN 201711396765A CN 110020054 B CN110020054 B CN 110020054B
Authority
CN
China
Prior art keywords
webpage
link
content
web page
expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711396765.1A
Other languages
English (en)
Other versions
CN110020054A (zh
Inventor
王炼
孙亚星
吕远方
邱彬
黄晓晖
林佳涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201711396765.1A priority Critical patent/CN110020054B/zh
Publication of CN110020054A publication Critical patent/CN110020054A/zh
Application granted granted Critical
Publication of CN110020054B publication Critical patent/CN110020054B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种网页内容爬取方法、装置、计算机设备和存储介质,该方法包括:获取预配置的用于访问初始爬取网页的完整访问链接;根据所述完整访问链接获取所述初始爬取网页的第一网页内容;获取对应于所述完整访问链接所配置的网页元素路径表达式;按照所述网页元素路径表达式,从所述第一网页内容中定位深入链接;在当前定位的深入链接与预配置的目标网页链接匹配表达式匹配时,则根据当前定位的深入链接爬取相应目标网页中的第二网页内容。本申请的方法节省了系统资源。

Description

网页内容爬取方法、装置、计算机设备和存储介质
技术领域
本发明涉及计算机技术领域,特别是涉及一种网页内容爬取方法、装置、计算机设备和存储介质。
背景技术
随着互联网的飞速发展,网络上的信息日益丰富,获取网络上的丰富信息非常重要。这种情况下,网络爬虫应运而生,网络爬虫是用来搜集网页的程序。
传统方法中,网络爬虫是从起始网页的内容开始爬取,然后递归地跟踪网页中的超链接到达其它页面,爬取所达到的所有页面的内容,最终爬取的内容覆盖整个网站内容。然而,爬取的整个网站内容大多时候都不是必须的,这样一来,就需要对爬取的整个网站内容进行额外大量的数据计算,以进行数据清洗处理,浪费了大量的系统资源。
发明内容
基于此,有必要针对传统方法在获取网页内容时浪费大量的系统资源的问题,提供一种网页内容爬取方法、装置、计算机设备和存储介质。
一种网页内容爬取方法,所述方法包括:
获取预配置的用于访问初始爬取网页的完整访问链接;
根据所述完整访问链接获取所述初始爬取网页的第一网页内容;
获取对应于所述完整访问链接所配置的网页元素路径表达式;
按照所述网页元素路径表达式,从所述第一网页内容中定位深入链接;
在当前定位的深入链接与预配置的目标网页链接匹配表达式匹配时,则
根据当前定位的深入链接爬取相应目标网页中的第二网页内容。
一种网页内容爬取装置,所述装置包括:
获取模块,用于获取预配置的用于访问初始爬取网页的完整访问链接;根据所述完整访问链接获取所述初始爬取网页的第一网页内容;获取对应于所述完整访问链接所配置的网页元素路径表达式;
深入链接定位模块,用于按照所述网页元素路径表达式,从所述第一网页内容中定位深入链接;
内容爬取模块,用于在当前定位的深入链接与预配置的目标网页链接匹配表达式匹配时,则根据当前定位的深入链接爬取相应目标网页中的第二网页内容。
一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
获取预配置的用于访问初始爬取网页的完整访问链接;
根据所述完整访问链接获取所述初始爬取网页的第一网页内容;
获取对应于所述完整访问链接所配置的网页元素路径表达式;
按照所述网页元素路径表达式,从所述第一网页内容中定位深入链接;
在当前定位的深入链接与预配置的目标网页链接匹配表达式匹配时,则
根据当前定位的深入链接爬取相应目标网页中的第二网页内容。
一种存储有计算机程序的存储介质,所述计算机程序被处理器执行时,使得处理器执行如下步骤:
获取预配置的用于访问初始爬取网页的完整访问链接;
根据所述完整访问链接获取所述初始爬取网页的第一网页内容;
获取对应于所述完整访问链接所配置的网页元素路径表达式;
按照所述网页元素路径表达式,从所述第一网页内容中定位深入链接;
在当前定位的深入链接与预配置的目标网页链接匹配表达式匹配时,则
根据当前定位的深入链接爬取相应目标网页中的第二网页内容。
上述网页内容爬取方法、装置、计算机设备和存储介质,配置了用于访问初始爬取网页的完整访问链接、对应于该完整访问链接的网页元素路径表达式、以及配置了目标网页链接匹配表达式。按照配置的网页元素路径表达式,从初始爬取网页的第一网页内容中定位深入链接,而不是对第一网页内容中所有链接都做进一步处理,减少了数据处理量,而且按照配置的网页元素路径表达式定位筛选出的深入链接,比传统方法中获取的全量链接更加的精准。根据与预配置的目标网页链接匹配表达式匹配的当前定位的深入链接,爬取相应目标网页中的第二网页内容,通过目标网页链接匹配表达式对深入链接进行了二次过滤,进一步地减少了数据处理量,节省了系统资源。
附图说明
图1为一个实施例中网页内容爬取方法的应用场景图;
图2为一个实施例中网页内容爬取方法的流程示意图;
图3为一个实施例中网页元素路径表达式定位网页元素的示意图;
图4为一个实施例中完整访问链接获取步骤的流程示意图;
图5为一个实施例中得到完整访问链接的界面示意图;
图6为一个实施例中网页内容爬取原理示意图;
图7A至图7B为一个实施例中初始爬取网页配置页面的示意图;
图8为一个实施例中爬取任务组成示意图;
图9为另一个实施例中网页内容爬取方法的流程示意图;
图10为一个实施例中网页内容爬取装置的框图;
图11为另一个实施例中网页内容爬取装置的框图;
图12为一个实施例中计算机设备的内部结构示意图。
具体实施方式
以下结合附图及实施例,对本发明进行进一步详细说明。
图1为一个实施例中网页内容爬取方法的应用场景图。参照图1,该应用场景中包括计算机设备110、终端120和网页内容提供服务器130,计算机设备110分别与终端120和网页内容提供服务器130之间通过网络连接。其中,计算机设备110是用于从网页内容提供服务器130中爬取网页内容的设备。网页内容提供服务器130用于提供需爬取的网页内容。终端120可以获取用户输入的、在爬取过程中需要的配置信息,并将获取的配置信息发送至计算机设备110。计算机设备110可以根据获取的配置信息,对爬取逻辑进行相应配置,以根据相应配置从网页内容提供服务器130中爬取相应的网页内容。
计算机设备110可以是终端或服务器。终端可以是智能电视机、台式计算机或移动终端,移动终端可以包括手机、平板电脑、笔记本电脑、个人数字助理和穿戴式设备等中的至少一种。服务器可以用独立的服务器或者是多个物理服务器组成的服务器集群来实现。
计算机设备110可以获取预配置的用于访问初始爬取网页的完整访问链接;根据完整访问链接获取初始爬取网页的第一网页内容;获取对应于完整访问链接所配置的网页元素路径表达式;按照网页元素路径表达式,从第一网页内容中定位深入链接;在当前定位的深入链接与预配置的目标网页链接匹配表达式匹配时,根据当前定位的深入链接爬取相应目标网页中的第二网页内容。
图2为一个实施例中网页内容爬取方法的流程示意图。本实施例主要以该网页内容爬取方法应用于图1中的计算机设备来举例说明。参照图2,该方法具体包括如下步骤:
S202,获取预配置的用于访问初始爬取网页的完整访问链接。
其中,完整访问链接,是格式完整的、能够用于直接访问相应网页的链接。比如,“http://news.qq.com”就属于完整访问链接,而“http://sports.qq.com/*/”中的“*”就属于通配符,并未明确表达出完整的访问链接,不能用于直接访问相应网页,属于非完整访问链接。
在一个实施例中,本申请各实施例中的“访问链接”可以是统一资源定位符(URL,Uniform Resource Locator)。
初始爬取网页,是开始爬取的初始网页,即爬取的起点。可以理解,计算机设备可以从初始爬取网页起,逐步爬取网页内容。
在一个实施例中,初始爬取网页可以包括深入链接。深入链接,是继续深入的下一级网页的访问链接。在一个实施例中,初始爬取网页可以是网站的首页或栏目列表页等。初始爬取网页可以为一个或多个。
在一个实施例中,计算机设备可以直接获取已经配置为格式完整的用于访问初始爬取网页的完整访问链接。比如,配置的用于访问初始爬取网页的访问链接就是“http://news.qq.com/l/milite/milgn/list2010122872223_2.htm”这一格式完整的完整访问链接。
在一个实施例中,计算机设备也可以获取预配置的用于访问初始爬取网页的访问链接模板,通过在访问链接模板中填入不同的取值,来得到相应的完整访问链接。
S204,根据完整访问链接获取初始爬取网页的第一网页内容。
具体地,计算机设备可以触发该完整访问链接,以从网页内容提供服务器中下载该完整访问链接所对应的初始爬取网页的第一网页内容。
S206,获取对应于完整访问链接所配置的网页元素路径表达式。
其中,网页元素路径表达式,是描述网页内容中网页元素的查找路径的字符。可以理解,通过网页元素路径表达式所描述的路径可以定位查找网页内容中的网页元素。需要说明的是,一个网页元素路径表达式,可描述出网页内容中的一个或多个网页元素的查找路径。
在一个实施例中,网页元素路径表达式可以是XPath(Xml Path Language,Xml路径语言)。其中,XPath是一种用来确定Xml(可扩展标记语言)文档中某部分位置的语言。
S208,按照网页元素路径表达式,从第一网页内容中定位深入链接。
其中,深入链接,是继续深入的下一级网页的访问链接。
具体地,计算机设备可以从第一网页内容中查找与该网页元素路径表达式匹配的网页元素路径,通过匹配的网页元素路径定位深入链接。即计算机设备可以沿着该网页元素路径,确定出该路径所指向的深入链接。
在一个实施例中,步骤S208包括:确定第一网页内容中的网页元素树形结构;在网页元素树形结构中,搜索与预配置的网页元素路径表达式匹配的网页元素路径;在搜索到的网页元素路径中定位深入链接。
其中,树是节点的集合。网页元素树形结构,是将网页元素作为树的各个节点所组成的类似树的形状的结构。可以理解,网页内容是由网页元素按照相应的网页元素树形结构组合构成的。网页元素路径,是在网页元素树形结构中搜索网页元素所经历的路径。树形结构中包括至少一条网页元素路径。
具体地,计算机设备可以在网页元素树形结构中,搜索与预配置的网页元素路径表达式匹配的网页元素路径,确定搜索到的网页元素路径所指向的深入链接。
可以理解,一个网页元素路径表达式有至少一个匹配的网页元素路径。
图3为一个实施例中网页元素路径表达式定位网页元素的示意图。参照图3,左侧是一个网页,右侧是该网页的html内容,右侧最下方输入框中输入的“//div[@class='leftList']/ul[@class='list01font_s_14line_h_25'][*]/li[*]/a/@href”为网页元素路径表达式。如图3所示,与该网页元素路径表达式匹配的网页元素路径有30个,每个网页元素路径分别对应有深入链接。比如,右侧中的http://news.qq.com/a/20161203/003018.htm;以及http://news.qq.com/a/20161203/002917.htm,分别是与该网页元素路径表达式匹配的第一个网页元素路径和第二个网页元素路径相应的深入链接。
S210,在当前定位的深入链接与预配置的目标网页链接匹配表达式匹配时,则根据当前定位的深入链接爬取相应目标网页中的第二网页内容。
其中,当前定位的深入链接,是当前进行定位得到的深入链接。可以理解,一个网页元素路径表达式有至少一个匹配的网页元素路径,所以,按照网页元素路径表达式可以从第一网页内容中定位至少一个深入链接。
目标网页,是要从中爬取目标的网页内容的网页。可以理解,目标的网页内容,是需要的网页内容。在一个实施例中,目标网页可以是详情页。详情页即描述详细内容的页面。比如,https://news.qq.com/a/20171106/000760.htm可以为一个目标网页。
链接匹配表达式,是定义访问链接格式的字符。链接匹配表达式用于匹配出符合该定义的访问链接格式的访问链接。目标网页链接匹配表达式,用于识别出目标网页的访问链接。
在一个实施例中,链接匹配表达式包括通配符表达式和/或正则表达式。
其中,通配符表达式,是包括通配符的访问链接。通配符表达式用通配符来代替一个或多个真正的字符,以实现对深入链接的模糊匹配。
比如,http://news.qq.com/a/*.htm即为一个通配符表达式,其中,通配符“*”代替任意长度的字符串。则该通配符表达式可以分别与下述深入链接匹配:http://news.qq.com/a/20161203/003018.htm;以及http://news.qq.com/a/20161203/002917.htm。
正则表达式(Regular Expression),是一种文本模式,该文本模式用于描述在搜索文本时要匹配的一个或多个字符串。
比如,http:\/\/news\.qq\.com\/a\/.*?\.htm即为一个正则表达式。同样地,该正则表达式可与下述深入链接匹配:http://news.qq.com/a/20161203/003018.htm;以及http://news.qq.com/a/20161203/002917.htm。
具体地,计算机设备中预配置了目标网页链接匹配表达式,计算机设备可以将当前定位的深入链接与预配置的目标网页链接匹配表达式进行匹配,在当前定位的深入链接与预配置的目标网页链接匹配表达式匹配时,则根据当前定位的深入链接,爬取相应目标网页中的第二网页内容。
可以理解,预配置的目标网页链接匹配表达式为至少一个。与预配置的目标网页链接匹配表达式匹配的深入链接,是目标网页的访问链接,所以该深入链接可用于获取目标网页中的第二网页内容。
在一个实施例中,计算机设备可以触发该匹配的当前定位的深入链接,以从网页内容提供服务器中爬取相应目标网页中的第二网页内容。
在一个实施例中,计算机设备中还可以预配置中间网页链接匹配表达式。其中,中间网页,是在爬取深入过程中路过的、且所包括的网页内容属于非目标的网页内容的网页。在一个实施例中,中间网页可以是列表页。中间网页链接匹配表达式,用于匹配出中间网页的链接。
计算机设备可以将当前定位的深入链接与预配置的目标网页链接匹配表达式和中间网页链接匹配表达式分别进行匹配,在当前定位的深入链接与预配置的目标网页链接匹配表达式匹配时,则根据当前定位的深入链接爬取相应目标网页中的第二网页内容。
上述网页内容爬取方法,配置了用于访问初始爬取网页的完整访问链接、对应于该完整访问链接的网页元素路径表达式、以及配置了目标网页链接匹配表达式。按照配置的网页元素路径表达式,从初始爬取网页的第一网页内容中定位深入链接,而不是对第一网页内容中所有链接都做进一步处理,减少了数据处理量,而且按照配置的网页元素路径表达式定位筛选出的深入链接,比传统方法中获取的全量链接更加的精准。根据与预配置的目标网页链接匹配表达式匹配的当前定位的深入链接,爬取相应目标网页中的第二网页内容,通过目标网页链接匹配表达式对深入链接进行了二次过滤,进一步地减少了数据处理量,节省了系统资源。
此外,通过配置的方式来实现网页内容的爬取,相较于写代码,大大降低了爬取网页内容的难度,从而提高了网页内容爬取的效率。
如图4所示,在一个实施例中,步骤S202(简称完整访问链接获取步骤),具体包括以下步骤:
S402,获取预配置的用于访问初始爬取网页的访问链接模板。
其中,访问链接模板,是用于生成初始爬取网页的完整访问链接的模板。可以理解,访问链接模板可与预设位置填入的取值结合,得到完整访问链接。
在一个实施例中,该访问链接模板可以是包括占位符的非完整访问链接。可以理解,将非完整访问链接中的占位符替换为填入的取值,可以得到完整访问链接。其中,占位符是先占住一个固定的位置、以使得可向该位置中添加内容的符号。在一个实施例中,占位符可以是“*”。
S404,获取预配置的与访问链接模板对应的预设取值集合。
其中,预设取值集合,包括一个或多个预设的可选取的取值。
在一个实施例中,预设取值集合可以是由离散型的取值组成的集合。在一个实施例中,预设取值集合也可以是连续型的取值范围组成的集合,在该实施例中,该取值可以是取值范围中的任意值。
S406,遍历预设取值集合中的取值。
S408,在访问链接模板的预设位置分别填入遍历的取值,得到完整访问链接。
具体地,计算机设备可以遍历获取预设取值集合中的每个取值。计算机设备可以将遍历的每个取值分别填入访问链接模板中的预设位置中,得到完整访问链接。
图5为一个实施例中得到完整访问链接的界面示意图。Urls中填入的即为预配置的用于访问初始爬取网页的访问链接模板,比如,包括占位符“*”的非完整访问链接http://news.qq.com/l/milite/milgn/list2010122872223_*.htm。预设取值集合为1到100这一范围内的取值。计算机设备可以遍历预设取值集合中的取值,得到取值1、2、3……100,并将遍历的取值填入该链接访问模板——即非完整访问链接中,得到完整访问链接,比如,http://news.qq.com/l/milite/milgn/list2010122872223_2.htm。
上述实施例中,预配置访问链接模板、以及与访问链接模板对应的预设取值集合,通过遍历预设取值集合取值,将取值填入访问链接模板中得到用于访问初始爬取网页的完整访问链接,提高了初始爬取网页的完整访问链接配置的效率。
在一个实施例中,该方法还包括:在当前定位的深入链接与预配置的中间网页链接匹配表达式匹配时,则根据当前定位的深入链接爬取相应中间网页的第三网页内容;按照预配置的网页元素路径表达式,从第三网页内容中继续定位深入链接。
其中,中间网页,是在爬取深入过程中路过的、且所包括的网页内容属于非目标的网页内容的网页。在一个实施例中,中间网页可以是列表页。
中间网页链接匹配表达式,用于匹配出中间网页的访问链接。
具体地,计算机设备中还预配置了中间网页链接匹配表达式。计算机设备可以将当前定位的深入链接与预配置的目标网页链接匹配表达式和中间网页链接匹配表达式分别进行匹配,在当前定位的深入链接与预配置的中间网页链接匹配表达式匹配时,则根据当前定位的深入链接爬取相应中间网页的第三网页内容。
可以理解,预配置的中间网页链接匹配表达式为至少一个。
计算机设备可以获取与第三网页内容相应预配置的网页元素路径表达式,并按照获取的预配置的网页元素路径表达式,从根据该深入链接爬取相应中间网页得到的第三网页内容中,继续定位深入链接。
在一个实施例中,计算机设备针对每个中间网页链接匹配表达式预配置了网页元素路径表达式,计算机设备可以根据该预先配置关系,获取与当前定位的深入链接所匹配的中间网页链接匹配表达式相应预配置的网页元素路径表达式,即得到与第三网页内容相应预配置的网页元素路径表达式。在一个实施例中,计算机设备也可以针对匹配于中间网页链接匹配表达式的深入链接预配置了网页元素路径表达式,计算机设备可以按照该预先配置关系,获取与当前的深入链接相应预配置的网页元素路径表达式,即得到与第三网页内容相应预配置的网页元素路径表达式。
可以理解,在继续定位过程中,计算机设备可以将当前定位的深入链接,与预配置的目标网页链接匹配表达式和中间网页链接匹配表达式匹配。计算机设备可以在当前定位的深入链接与预配置的目标网页链接匹配表达式匹配时,返回执行根据当前定位的深入链接爬取相应目标网页中的第二网页内容的步骤;在当前定位的深入链接与预配置的中间网页链接匹配表达式匹配时,返回执行根据当前定位的深入链接爬取相应中间网页的第三网页内容的步骤。以此类推,直至不存在与第三网页内容相应预配置的网页元素路径表达式,所匹配的中间网页链接匹配表达式不存在配置的网页元素路径表达式时,停止继续定位深入链接。可以理解,不存在与第三网页内容相应预配置的网页元素路径表达式的情况,可以包括当前定位的深入链接所匹配的中间网页链接匹配表达式不存在配置的网页元素路径表达式或当前定位的深入链接不存在相应配置的网页元素路径表达式等。
图6为一个实施例中网页内容爬取原理示意图。参照图6,针对初始爬取网页的完整访问链接(即完整URL)预配置有网页元素路径表达式,按照预配置的网页元素路径表达式XPath,可以从初始爬取网页中定位得到深入链接,将定位的深入链接与预配置的目标网页链接匹配表达式和中间网页链接匹配表达式进行匹配,可以分别得到与目标网页链接匹配表达式对应的目标网页,以及与中间网页链接匹配表达式对应的中间网页。对于目标网页,则可以直接爬取相应的网页内容。而对于中间网页,针对对应于中间网页的深入链接分别预配置有网页元素路径表达式,按照配置的网页元素路径表达式,可以继续从中间网页中定位得到深入链接,以此类推。可以理解,图6中并未示出针对全部中间网页定位深入链接的过程,仅以其中一个中间网页进行举例示意。
上述实施例中,在当前定位的深入链接与预配置的中间网页链接匹配表达式匹配时,则根据当前定位的深入链接爬取相应中间网页的第三网页内容;按照预配置的网页元素路径表达式,从第三网页内容中继续定位深入链接。实现了多层级配置的网页元素路径表达式,来指定需要继续深入的深入链接,减少了数据处理量,同时提高了所定位的深入链接的准确性。
在一个实施例中,该方法还包括:在当前定位的深入链接与预配置的目标网页链接匹配表达式不匹配、且与预配置的中间网页链接匹配表达式不匹配时,则将当前定位的深入链接过滤,继续按照网页元素路径表达式,从第一网页内容中定位深入链接。
可以理解,将深入链接过滤,即将该深入链接排除、以不再进行爬取该深入链接相应网页内容的处理。
可以理解,一个网页元素路径表达式可描述出网页内容中的一个或多个网页元素的查找路径。当按照网页元素路径表达式定位得到的当前定位的深入链接,与预配置的目标网页链接匹配表达式不匹配、且与预配置的中间网页链接匹配表达式不匹配时,则将当前定位的深入链接过滤,继续按照该网页元素路径表达式,从第一网页内容中定位下一个深入链接。
比如,图3中的网页元素路径表达式就对应30个网页元素路径,则对应30个深入链接,第一个深入链接为:http://news.qq.com/a/20161203/003018.htm;第二个深入链接为:http://news.qq.com/a/20161203/002917.htm。计算机设备可以在第一个深入链接与预配置的目标网页链接匹配表达式不匹配、且与预配置的中间网页链接匹配表达式不匹配时,将第一个深入链接http://news.qq.com/a/20161203/003018.htm过滤掉,再继续定位下一个深入链接:http://news.qq.com/a/20161203/002917.htm。
上述实施例中,在当前定位的深入链接与预配置的目标网页链接匹配表达式不匹配,且与预配置的中间网页链接匹配表达式不匹配时,则将当前定位的深入链接过滤,从而过滤掉无价值的深入链接,提高了所使用的深入链接的准确性。
在一个实施例中,根据当前定位的深入链接爬取相应目标网页中的第二网页内容,包括:确定当前定位的深入链接所匹配的目标网页链接匹配表达式;查询与确定的目标网页链接匹配表达式对应的同类网页爬取方式;按照同类网页爬取方式,从当前定位的深入链接所对应的目标网页爬取第二网页内容。
其中,网页爬取方式,是指爬取网页内容的方式。同类网页爬取方式,是爬取同类网页的网页内容的方式。可以理解,匹配于同一个目标网页链接匹配表达式的各深入链接所对应的网页即为同类网页。
在一个实施例中,网页爬取方式包括对爬取的位置、爬取的网页内容的类型或爬取的网页内容的大小等方面的定义。其中,网页内容的类型可以包括图片、音视频或文字等。
具体地,计算机设备中预先配置了各目标网页链接匹配表达式与同类网页爬取方式之间的对应关系,计算机设备可以确定当前定位的深入链接所匹配的目标网页链接匹配表达式,并按照上述对应关系,查询与确定的目标网页链接匹配表达式对应的同类网页爬取方式。计算机设备可以按照同类网页爬取方式,从当前定位的深入链接所对应的目标网页爬取第二网页内容。
上述实施例中,针对目标网页链接匹配表达式配置了对应的同类网页爬取方式;按照同类网页爬取方式,从当前定位的深入链接所对应的目标网页爬取第二网页内容,使得爬取的第二网页内容更加的准确。
在一个实施例中,该方法还包括:查询与确定的目标网页链接匹配表达式对应的同类网页分析方式;按照同类网页分析方式,对第二网页内容进行分析;输出分析的结果。
其中,网页分析方式,是对网页内容进行分析的方式。同类网页分析方式,是对同类网页的网页内容进行分析的方式。可以理解,匹配于同一个目标网页链接匹配表达式的各深入链接所对应的网页即为同类网页。为目标网页链接匹配表达式设置的同类网页分析方式,可以根据实际需求进行设置。
在一个实施例中,网页分析方式可以包括对网页内容的不同分析维度(比如,时间维度或主题维度等)等方面进行定义。
具体地,计算机设备中预先配置了各目标网页链接匹配表达式与同类网页分析方式之间的对应关系,计算机设备可以按照上述对应关系,查询与确定的目标网页链接匹配表达式对应的同类网页分析方式。计算机设备可以按照同类网页分析方式,对第二网页内容进行分析;输出分析的结果。
上述实施例中,针对目标网页链接匹配表达式配置对应的同类网页分析方式;按照同类网页分析方式,对第二网页内容进行分析;输出分析的结果。使得分析的结果更加的准确。
在一个实施例中,该方法还包括:当不存在对应于完整访问链接配置的网页元素路径表达式时,则根据第一网页内容中存在的每个访问链接分别爬取网页内容,并根据当前爬取的网页内容中的访问链接继续爬取网页内容,直至满足以下任意条件:当前爬取的网页内容中不存在任意的访问链接,或者,当前爬取的网页层级达到预设层级。
具体地,当不存在对应于完整访问链接配置的网页元素路径表达式(即没有针对完整访问链接配置相应的网页元素路径表达式)时,计算机设备可以提取第一网页内容中存在的每个访问链接,并根据各访问链接分别爬取相应的网页内容。计算机设备可以根据当前爬取的网页内容中的访问链接继续爬取网页内容,直至满足以下任意条件:当前爬取的网页内容中不存在任意的访问链接,或者,当前爬取的网页层级达到预设层级。
比如,预设层级为5级,则从初始爬取网页(即为第一层级)开始,爬取至位于第5层级的网页中的网页内容,则停止爬取网页内容。
上述实施例中,当不存在对应于完整访问链接配置的网页元素路径表达式时,可以通过设置爬取的网页层级来控制爬取深度,避免了无限制爬取网页造成不必要的资源浪费。
在一个实施例中,该方法还包括:提供对应于爬取任务的初始爬取网页配置页面;获取在初始爬取网页配置页面中录入的链接内容;对应于爬取任务记录链接内容。本实施例中,步骤S202包括:当执行爬取任务时,读取对应于爬取任务记录的链接内容;根据读取的链接内容确定用于访问初始爬取网页的完整访问链接。
其中,爬取任务,是爬取网页内容的任务。初始爬取网页配置页面,是用来配置用于访问初始爬取网页的完整访问链接的页面。其中,链接内容是用于描述访问链接的内容。
访问链接可以包括完整的访问链接或遍历取值或访问链接文本文件等类型。其中,针对完整的访问链接的类型所录入的链接内容为完整的访问链接。针对遍历取值这一类型,所录入的链接内容可以包括访问链接模板和相应的预设取值集合。针对访问链接文本文件这一类型,所录入的链接内容可以是包括完整的访问链接的文本文件。
具体地,计算机设备可以响应于爬取任务创建操作,创建爬取任务。可以理解,当计算机设备为终端时,计算机设备可以获取对应于爬取任务的初始爬取网页配置页面并进行显示,以及获取在显示的初始爬取网页配置页面中录入的链接内容。计算机设备可以将录入的链接内容与相应的爬取任务进行对应记录。当计算机设备是服务器时,可以提供对应于爬取任务的初始爬取网页配置页面至终端,并获取终端发送的在初始爬取网页配置页面中录入的链接内容,将录入的链接内容与相应的爬取任务进行对应记录。
在一个实施例中,计算机设备可以获取在初始爬取网页配置页面中录入的文本形式的链接内容。可以理解,文本形式的链接内容可以是完整的访问链接或访问链接模板。
在一个实施例中,计算机设备也可以获取在初始爬取网页配置页面中上传的访问链接文件。计算机设备可以提取该访问链接文件,
图7A至图7B为一个实施例中初始爬取网页配置页面的示意图。参照图7A,即为一个用于录入完整的访问链接的初始爬取网页配置页面,在图7A中的“Urls”处可以录入一个或多个完整的访问链接。参照图7B,即为一个用于上传访问链接文件的初始爬取网页配置页面。可以理解,图5中所示的界面也是一种初始爬取网页配置页面,在图5的“Urls”处录入的是访问链接模板,然后在范围处填入的即为用于录入访问链接模板的预设位置处的各取值的范围。
在一个实施例中,一个爬取任务可以包括配置的初始爬取网页的完整访问链接、与完整访问链接对应预配置的网页元素路径表达式XPath、预配置的目标网页链接匹配表达式和中间网页链接匹配表达式、针对各中间网页链接匹配表达式分别配置的网页元素路径表达式、针对各目标网页链接匹配表达式分别配置的同类网页爬取方式。其中,目标网页链接匹配表达式可以为至少一个,中间网页链接匹配表达式也可以为至少一个。
可以理解,同一个中间网页链接匹配式所配置的网页元素路径表达式可以为多个。可以理解,同一个中间网页链接匹配式所匹配的深入链接可以为多个,那么,可以按照不同的网页元素路径表达式,从根据各个深入链接爬取的相应中间网页的第三网页内容中继续定位深入链接。图8为一个实施例中爬取任务组成示意图。
在一个实施例中,计算机设备可以分别按照中间网页链接匹配式所配置的各网页元素路径表达式,从相应第三网页内容中继续定位深入链接。可以理解,针对无法从相应第三网页内容中定位深入链接的网页元素路径表达式,则可以跳过,继续按照该中间网页链接匹配式所配置的下一个网页元素路径表达式,从相应第三网页内容中定位深入链接。
在一个实施例中,计算机设备还可以将匹配于中间网页链接匹配式的深入链接与该中间网页链接匹配式所配置的网页元素路径表达式之间配置对应关系,计算机设备可以根据该对应关系,获取与当前定位的深入链接对应的预配置的网页元素路径表达式,按照对应的网页元素路径表达式,从该当前定位的深入链接的第三网页内容中定位深入链接。
上述实施例中,通过将在初始爬取网页配置页面中录入的链接内容与爬取任务对应记录,当执行爬取任务时,根据与该爬取任务对应记录的链接内容确定用于访问初始爬取网页的完整访问链接,避免了不同爬取任务之间的完整访问链接混淆,提高了完整访问链接确定的准确性。
如图9所示,在一个实施例中,提供了一种网页内容爬取方法,该方法具体包括以下步骤:
S902,提供对应于爬取任务的初始爬取网页配置页面;获取在所述初始爬取网页配置页面中录入的用于访问初始爬取网页的访问链接模板和与访问链接模板对应的预设取值集合。
S904,对应于爬取任务记录访问链接模板和对应的预设取值集合。当执行爬取任务时,读取对应于爬取任务记录的预配置的访问链接模板和预设取值集合。
S906,遍历预设取值集合中的取值;在访问链接模板的预设位置分别填入遍历的取值,得到用于访问初始爬取网页的完整访问链接。
S908,根据完整访问链接获取初始爬取网页的第一网页内容;获取对应于完整访问链接所配置的网页元素路径表达式。
在一个实施例中,当不存在对应于完整访问链接配置的网页元素路径表达式时,则可以根据第一网页内容中存在的每个访问链接分别爬取网页内容,并根据当前爬取的网页内容中的访问链接继续爬取网页内容,直至满足以下任意条件:当前爬取的网页内容中不存在任意的访问链接,或者,当前爬取的网页层级达到预设层级。
S910,确定第一网页内容中的网页元素树形结构,在网页元素树形结构中,搜索与预配置的网页元素路径表达式匹配的网页元素路径;在搜索到的网页元素路径中定位深入链接。
S912,将当前定位的深入链接分别与预配置的目标网页链接匹配表达式和中间网页链接匹配表达式进行匹配。
需要说明的是,在当前定位的深入链接与预配置的目标网页链接匹配表达式匹配时,进入步骤S914。在当前定位的深入链接与预配置的中间网页链接匹配表达式匹配时,进入步骤S918。在当前定位的深入链接与预配置的目标网页链接匹配表达式不匹配、且与预配置的中间网页链接匹配表达式不匹配时,进入步骤S920。
S914,确定当前定位的深入链接所匹配的目标网页链接匹配表达式;查询与确定的目标网页链接匹配表达式对应的同类网页爬取方式;按照同类网页爬取方式,从当前定位的深入链接所对应的目标网页爬取第二网页内容。
S916,查询与确定的目标网页链接匹配表达式对应的同类网页分析方式;按照同类网页分析方式,对第二网页内容进行分析;输出分析的结果。
S918,根据当前定位的深入链接爬取相应中间网页的第三网页内容;按照预配置的网页元素路径表达式,从第三网页内容中继续定位深入链接。
可以理解,从第三网页内容中继续定位深入链接,与从第一网页内容中定位深入链接的方法一致,即可以将步骤S910中的第一网页内容替换为第三网页内容,以执行从第三网页内容中继续定位深入链接的步骤。
S920,将当前定位的深入链接过滤,继续在第一网页内容中的网页元素树形结构中,搜索与预配置的网页元素路径表达式匹配的网页元素路径;在搜索到的网页元素路径中定位深入链接。
上述网页内容爬取方法,配置了用于访问初始爬取网页的完整访问链接、对应于该完整访问链接的网页元素路径表达式、以及配置了目标网页链接匹配表达式。按照配置的网页元素路径表达式,从初始爬取网页的第一网页内容中定位深入链接,而不是对第一网页内容中所有链接都做进一步处理,减少了数据处理量,而且按照配置的网页元素路径表达式定位筛选出的深入链接,比传统方法中获取的全量链接更加的精准。根据与预配置的目标网页链接匹配表达式匹配的当前定位的深入链接,爬取相应目标网页中的第二网页内容,通过目标网页链接匹配表达式对深入链接进行了二次过滤,进一步地减少了数据处理量,节省了系统资源。
如图10所示,在一个实施例中,提供了一种网页内容爬取装置1000,该装置包括:获取模块1002、深入链接定位模块1004以及内容爬取模块1006,其中:
获取模块1002,用于获取预配置的用于访问初始爬取网页的完整访问链接;根据完整访问链接获取初始爬取网页的第一网页内容;获取对应于完整访问链接所配置的网页元素路径表达式。
深入链接定位模块1004,用于按照网页元素路径表达式,从第一网页内容中定位深入链接。
内容爬取模块1006,用于在当前定位的深入链接与预配置的目标网页链接匹配表达式匹配时,则根据当前定位的深入链接爬取相应目标网页中的第二网页内容。
在一个实施例中,获取模块1002还用于获取预配置的用于访问初始爬取网页的访问链接模板;获取预配置的与访问链接模板对应的预设取值集合;遍历预设取值集合中的取值;在访问链接模板的预设位置分别填入遍历的取值,得到完整访问链接。
在一个实施例中,深入链接定位模块1004还用于确定第一网页内容中的网页元素树形结构;在网页元素树形结构中,搜索与预配置的网页元素路径表达式匹配的网页元素路径;在搜索到的网页元素路径中定位深入链接。
深入链接定位模块1004还用于在当前定位的深入链接与预配置的中间网页链接匹配表达式匹配时,则根据当前定位的深入链接爬取相应中间网页的第三网页内容;按照预配置的网页元素路径表达式,从第三网页内容中继续定位深入链接。
如图11所示,在一个实施例中,该装置还包括:
链接过滤模块1005,用于在当前定位的深入链接与预配置的目标网页链接匹配表达式不匹配、且与预配置的中间网页链接匹配表达式不匹配时,则将当前定位的深入链接过滤,并通知深入链接定位模块1004继续按照对应于完整访问链接所配置的网页元素路径表达式,从第一网页内容中定位深入链接。
在一个实施例中,内容爬取模块1006还用于确定当前定位的深入链接所匹配的目标网页链接匹配表达式;查询与确定的目标网页链接匹配表达式对应的同类网页爬取方式;按照同类网页爬取方式,从当前定位的深入链接所对应的目标网页爬取第二网页内容。
在一个实施例中,该装置还包括:
爬取内容分析模块(图中未示出),用于查询与确定的目标网页链接匹配表达式对应的同类网页分析方式;按照同类网页分析方式,对第二网页内容进行分析;输出分析的结果。
在一个实施例中,内容爬取模块1006还用于当不存在对应于完整访问链接配置的网页元素路径表达式时,则根据第一网页内容中存在的每个访问链接分别爬取网页内容,并根据当前爬取的网页内容中的访问链接继续爬取网页内容,直至满足以下任意条件:当前爬取的网页内容中不存在任意的访问链接,或者,当前爬取的网页层级达到预设层级。
在一个实施例中,获取模块1002还用于提供对应于爬取任务的初始爬取网页配置页面;获取在初始爬取网页配置页面中录入的链接内容;对应于爬取任务记录链接内容;当执行爬取任务时,读取对应于爬取任务记录的链接内容;根据读取的链接内容确定用于访问初始爬取网页的完整访问链接。
图12为一个实施例中计算机设备的内部结构示意图。参照图12,该计算机设备可以是图1中所示的服务器,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,存储器包括非易失性存储介质和主存储器。该计算机设备的非易失性存储介质可存储操作系统和计算机程序。该计算机程序被执行时,可使得处理器执行一种网页内容爬取方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该主存储器中可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行一种网页内容爬取方法。计算机设备的网络接口用于进行网络通信。
本领域技术人员可以理解,图12中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的网页内容爬取装置可以实现为一种计算机程序的形式,计算机程序可在如图12所示的计算机设备上运行,计算机设备的非易失性存储介质可存储组成该网页内容爬取装置的各个程序模块,比如,图12所示的获取模块1002、深入链接定位模块1004以及内容爬取模块1006。各个程序模块所组成的计算机程序用于使该计算机设备执行本说明书中描述的本申请各个实施例的网页内容爬取方法中的步骤,例如,计算机设备可以通过如图10所示的网页内容爬取装置1000中的获取模块1002获取预配置的用于访问初始爬取网页的完整访问链接;根据完整访问链接获取初始爬取网页的第一网页内容;获取对应于完整访问链接所配置的网页元素路径表达式。计算机设备可以通过深入链接定位模块1004按照网页元素路径表达式,从第一网页内容中定位深入链接。计算机设备可以通过内容爬取模块1006在当前定位的深入链接与预配置的目标网页链接匹配表达式匹配时,则根据当前定位的深入链接爬取相应目标网页中的第二网页内容。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,计算机程序被处理器执行时,使得处理器执行如下步骤:获取预配置的用于访问初始爬取网页的完整访问链接;根据完整访问链接获取初始爬取网页的第一网页内容;获取对应于完整访问链接所配置的网页元素路径表达式;按照网页元素路径表达式,从第一网页内容中定位深入链接;在当前定位的深入链接与预配置的目标网页链接匹配表达式匹配时,则根据当前定位的深入链接爬取相应目标网页中的第二网页内容。
在一个实施例中,获取预配置的用于访问初始爬取网页的完整访问链接,包括:获取预配置的用于访问初始爬取网页的访问链接模板;获取预配置的与访问链接模板对应的预设取值集合;遍历预设取值集合中的取值;在访问链接模板的预设位置分别填入遍历的取值,得到完整访问链接。
在一个实施例中,按照网页元素路径表达式,从第一网页内容中定位深入链接,包括:确定第一网页内容中的网页元素树形结构;在网页元素树形结构中,搜索与预配置的网页元素路径表达式匹配的网页元素路径;在搜索到的网页元素路径中定位深入链接。
在一个实施例中,计算机程序还使得处理器执行以下步骤:在当前定位的深入链接与预配置的中间网页链接匹配表达式匹配时,则根据当前定位的深入链接爬取相应中间网页的第三网页内容;按照预配置的网页元素路径表达式,从第三网页内容中继续定位深入链接。
在一个实施例中,计算机程序还使得处理器执行以下步骤:在当前定位的深入链接与预配置的目标网页链接匹配表达式不匹配、且与预配置的中间网页链接匹配表达式不匹配时,则将当前定位的深入链接过滤,继续按照网页元素路径表达式,从第一网页内容中定位深入链接。
在一个实施例中,根据当前定位的深入链接爬取相应目标网页中的第二网页内容,包括:确定当前定位的深入链接所匹配的目标网页链接匹配表达式;查询与确定的目标网页链接匹配表达式对应的同类网页爬取方式;按照同类网页爬取方式,从当前定位的深入链接所对应的目标网页爬取第二网页内容。
在一个实施例中,计算机程序还使得处理器执行以下步骤:查询与确定的目标网页链接匹配表达式对应的同类网页分析方式;按照同类网页分析方式,对第二网页内容进行分析;输出分析的结果。
在一个实施例中,计算机程序还使得处理器执行以下步骤:当不存在对应于完整访问链接配置的网页元素路径表达式时,则根据第一网页内容中存在的每个访问链接分别爬取网页内容,并根据当前爬取的网页内容中的访问链接继续爬取网页内容,直至满足以下任意条件:当前爬取的网页内容中不存在任意的访问链接,或者,当前爬取的网页层级达到预设层级。
在一个实施例中,计算机程序还使得处理器执行以下步骤:提供对应于爬取任务的初始爬取网页配置页面;获取在初始爬取网页配置页面中录入的链接内容;对应于爬取任务记录链接内容。本实施例中,获取预配置的用于访问初始爬取网页的完整访问链接,包括:当执行爬取任务时,读取对应于爬取任务记录的链接内容;根据读取的链接内容确定用于访问初始爬取网页的完整访问链接。
在一个实施例中,提供了一种存储有计算机程序的存储介质,计算机程序被处理器执行时,使得处理器执行如下步骤:获取预配置的用于访问初始爬取网页的完整访问链接;根据完整访问链接获取初始爬取网页的第一网页内容;获取对应于完整访问链接所配置的网页元素路径表达式;按照网页元素路径表达式,从第一网页内容中定位深入链接;在当前定位的深入链接与预配置的目标网页链接匹配表达式匹配时,则根据当前定位的深入链接爬取相应目标网页中的第二网页内容。
在一个实施例中,获取预配置的用于访问初始爬取网页的完整访问链接,包括:获取预配置的用于访问初始爬取网页的访问链接模板;获取预配置的与访问链接模板对应的预设取值集合;遍历预设取值集合中的取值;在访问链接模板的预设位置分别填入遍历的取值,得到完整访问链接。
在一个实施例中,按照网页元素路径表达式,从第一网页内容中定位深入链接,包括:确定第一网页内容中的网页元素树形结构;在网页元素树形结构中,搜索与预配置的网页元素路径表达式匹配的网页元素路径;在搜索到的网页元素路径中定位深入链接。
在一个实施例中,计算机程序还使得处理器执行以下步骤:在当前定位的深入链接与预配置的中间网页链接匹配表达式匹配时,则根据当前定位的深入链接爬取相应中间网页的第三网页内容;按照预配置的网页元素路径表达式,从第三网页内容中继续定位深入链接。
在一个实施例中,计算机程序还使得处理器执行以下步骤:在当前定位的深入链接与预配置的目标网页链接匹配表达式不匹配、且与预配置的中间网页链接匹配表达式不匹配时,则将当前定位的深入链接过滤,继续按照网页元素路径表达式,从第一网页内容中定位深入链接。
在一个实施例中,根据当前定位的深入链接爬取相应目标网页中的第二网页内容,包括:确定当前定位的深入链接所匹配的目标网页链接匹配表达式;查询与确定的目标网页链接匹配表达式对应的同类网页爬取方式;按照同类网页爬取方式,从当前定位的深入链接所对应的目标网页爬取第二网页内容。
在一个实施例中,计算机程序还使得处理器执行以下步骤:查询与确定的目标网页链接匹配表达式对应的同类网页分析方式;按照同类网页分析方式,对第二网页内容进行分析;输出分析的结果。
在一个实施例中,计算机程序还使得处理器执行以下步骤:当不存在对应于完整访问链接配置的网页元素路径表达式时,则根据第一网页内容中存在的每个访问链接分别爬取网页内容,并根据当前爬取的网页内容中的访问链接继续爬取网页内容,直至满足以下任意条件:当前爬取的网页内容中不存在任意的访问链接,或者,当前爬取的网页层级达到预设层级。
在一个实施例中,计算机程序还使得处理器执行以下步骤:提供对应于爬取任务的初始爬取网页配置页面;获取在初始爬取网页配置页面中录入的链接内容;对应于爬取任务记录链接内容。本实施例中,获取预配置的用于访问初始爬取网页的完整访问链接,包括:当执行爬取任务时,读取对应于爬取任务记录的链接内容;根据读取的链接内容确定用于访问初始爬取网页的完整访问链接。
应该理解的是,虽然本申请各实施例中的各个步骤并不是必然按照步骤标号指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,各实施例中至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。

Claims (13)

1.一种网页内容爬取方法,所述方法包括:
获取预配置的用于访问初始爬取网页的完整访问链接;
根据所述完整访问链接获取所述初始爬取网页的第一网页内容;
获取对应于所述完整访问链接所配置的网页元素路径表达式;所述网页元素路径表达式用于从所述第一网页内容中筛选深入链接;所述深入链接,是继续深入的下一级网页的访问链接;
按照所述网页元素路径表达式,从所述第一网页内容中定位深入链接,包括:确定所述第一网页内容中的网页元素树形结构;在所述网页元素树形结构中,搜索与预配置的网页元素路径表达式匹配的网页元素路径;确定搜索到的网页元素路径所指向的深入链接;
在当前定位的深入链接与预配置的目标网页链接匹配表达式匹配时,则
根据当前定位的深入链接爬取相应目标网页中的第二网页内容;链接匹配表达式,是定义访问链接格式的字符;链接匹配表达式用于匹配识别出符合定义的访问链接格式的访问链接;所述目标网页链接匹配表达式,用于识别出目标网页的访问链接。
2.根据权利要求1所述的方法,其特征在于,所述获取预配置的用于访问初始爬取网页的完整访问链接,包括:
获取预配置的用于访问初始爬取网页的访问链接模板;
获取预配置的与所述访问链接模板对应的预设取值集合;
遍历所述预设取值集合中的取值;
在所述访问链接模板的预设位置分别填入遍历的取值,得到完整访问链接。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在当前定位的深入链接与预配置的中间网页链接匹配表达式匹配时,则
根据当前定位的深入链接爬取相应中间网页的第三网页内容;
按照预配置的网页元素路径表达式,从所述第三网页内容中继续定位深入链接。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
在当前定位的深入链接与预配置的目标网页链接匹配表达式不匹配、且与预配置的中间网页链接匹配表达式不匹配时,则
将当前定位的深入链接过滤,继续按照所述网页元素路径表达式,从所述第一网页内容中定位深入链接。
5.根据权利要求1所述的方法,其特征在于,所述根据当前定位的深入链接爬取相应目标网页中的第二网页内容,包括:
确定当前定位的深入链接所匹配的目标网页链接匹配表达式;
查询与确定的所述目标网页链接匹配表达式对应的同类网页爬取方式;
按照所述同类网页爬取方式,从当前定位的深入链接所对应的目标网页爬取第二网页内容。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
查询与确定的所述目标网页链接匹配表达式对应的同类网页分析方式;
按照所述同类网页分析方式,对所述第二网页内容进行分析;
输出分析的结果。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当不存在对应于所述完整访问链接配置的网页元素路径表达式时,则
根据所述第一网页内容中存在的每个访问链接分别爬取网页内容,并根据当前爬取的网页内容中的访问链接继续爬取网页内容,直至满足以下任意条件:
当前爬取的网页内容中不存在任意的访问链接,或者,当前爬取的网页层级达到预设层级。
8.根据权利要求1至7中任一项所述的方法,其特征在于,还包括:
提供对应于爬取任务的初始爬取网页配置页面;
获取在所述初始爬取网页配置页面中录入的链接内容;
对应于所述爬取任务记录所述链接内容;
所述获取预配置的用于访问初始爬取网页的完整访问链接,包括:
当执行所述爬取任务时,读取对应于所述爬取任务记录的所述链接内容;
根据读取的所述链接内容确定用于访问初始爬取网页的完整访问链接。
9.一种网页内容爬取装置,其特征在于,所述装置包括:
获取模块,用于获取预配置的用于访问初始爬取网页的完整访问链接;根据所述完整访问链接获取所述初始爬取网页的第一网页内容;获取对应于所述完整访问链接所配置的网页元素路径表达式;所述网页元素路径表达式用于从所述第一网页内容中筛选深入链接;所述深入链接,是继续深入的下一级网页的访问链接;
深入链接定位模块,用于按照所述网页元素路径表达式,从所述第一网页内容中定位深入链接,包括:确定所述第一网页内容中的网页元素树形结构;在所述网页元素树形结构中,搜索与预配置的网页元素路径表达式匹配的网页元素路径;确定搜索到的网页元素路径所指向的深入链接;
内容爬取模块,用于在当前定位的深入链接与预配置的目标网页链接匹配表达式匹配时,则根据当前定位的深入链接爬取相应目标网页中的第二网页内容;链接匹配表达式,是定义访问链接格式的字符;链接匹配表达式用于匹配识别出符合定义的访问链接格式的访问链接;所述目标网页链接匹配表达式,用于识别出目标网页的访问链接。
10.根据权利要求9所述的装置,其特征在于,所述深入链接定位模块还用于在当前定位的深入链接与预配置的中间网页链接匹配表达式匹配时,则根据当前定位的深入链接爬取相应中间网页的第三网页内容;按照预配置的网页元素路径表达式,从所述第三网页内容中继续定位深入链接。
11.根据权利要求10所述的装置,其特征在于,所述装置还包括:
链接过滤模块,用于在当前定位的深入链接与预配置的目标网页链接匹配表达式不匹配、且与预配置的中间网页链接匹配表达式不匹配时,则将当前定位的深入链接过滤,并通知所述深入链接定位模块继续按照对应于所述完整访问链接所配置的网页元素路径表达式,从所述第一网页内容中定位深入链接。
12.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至8中任一项所述方法的步骤。
13.一种存储有计算机程序的存储介质,所述计算机程序被处理器执行时,使得处理器执行如权利要求1至8中任一项所述方法的步骤。
CN201711396765.1A 2017-12-21 2017-12-21 网页内容爬取方法、装置、计算机设备和存储介质 Active CN110020054B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711396765.1A CN110020054B (zh) 2017-12-21 2017-12-21 网页内容爬取方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711396765.1A CN110020054B (zh) 2017-12-21 2017-12-21 网页内容爬取方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN110020054A CN110020054A (zh) 2019-07-16
CN110020054B true CN110020054B (zh) 2022-10-25

Family

ID=67187110

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711396765.1A Active CN110020054B (zh) 2017-12-21 2017-12-21 网页内容爬取方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN110020054B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111931113B (zh) * 2020-09-16 2021-01-05 深圳壹账通智能科技有限公司 一种数据清洗方法及相关设备
CN116010729A (zh) * 2023-01-03 2023-04-25 网易(杭州)网络有限公司 信息处理方法、装置、电子设备及计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012059212A (ja) * 2010-09-13 2012-03-22 Nippon Telegr & Teleph Corp <Ntt> 抽出装置、抽出方法及び抽出プログラム
CN106951451A (zh) * 2017-02-22 2017-07-14 北京麒麟合盛网络技术有限公司 一种网页内容提取方法、装置及计算设备
CN107045507A (zh) * 2016-02-05 2017-08-15 北京国双科技有限公司 网页爬取方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012059212A (ja) * 2010-09-13 2012-03-22 Nippon Telegr & Teleph Corp <Ntt> 抽出装置、抽出方法及び抽出プログラム
CN107045507A (zh) * 2016-02-05 2017-08-15 北京国双科技有限公司 网页爬取方法及装置
CN106951451A (zh) * 2017-02-22 2017-07-14 北京麒麟合盛网络技术有限公司 一种网页内容提取方法、装置及计算设备

Also Published As

Publication number Publication date
CN110020054A (zh) 2019-07-16

Similar Documents

Publication Publication Date Title
CN101971172B (zh) 移动站点地图
US8645353B2 (en) Anchor image identification for vertical video search
US8645354B2 (en) Scalable metadata extraction for video search
CN101599089B (zh) 视频服务网站内容更新信息的自动搜索与抽取系统及方法
US20180197002A1 (en) Mathematical formula learner support system
CN108021598B (zh) 页面抽取模板匹配方法、装置及服务器
US20120102390A1 (en) Method and apparatus for generating widget
CN107305527B (zh) 代码文件的处理方法和装置
CN106503211B (zh) 面向信息发布类网站的移动版自动生成的方法
US20110208715A1 (en) Automatically mining intents of a group of queries
CN110929058B (zh) 商标图片的检索方法、装置、存储介质及电子装置
CN106547749B (zh) 网页数据采集的方法和装置
CN110020054B (zh) 网页内容爬取方法、装置、计算机设备和存储介质
KR100671077B1 (ko) 페이지 묶음을 이용한 정보 검색 서비스 제공 서버, 방법및 시스템
CN103761028A (zh) 一种点击联想、目录式文件收藏的智能阅读器及实现方法
CN103778238A (zh) 一种从维基百科半结构化数据自动构建分类树的方法
CN106446055B (zh) 网页的生成方法及系统
CN111367595A (zh) 数据处理方法、程序运行方法、装置及处理设备
CN103838862A (zh) 一种视频搜索的方法、装置及终端
KR20040017824A (ko) 웹 문서와 리스트정보의 패턴을 이용한 패턴예상분석에따른 정보검색시스템
KR101372942B1 (ko) 소셜 미디어 콘텐츠 공유 장치 및 방법
US20120192046A1 (en) Generation of a source complex document to facilitate content access in complex document creation
CN104850608A (zh) 在信息展示页面上检索关键字的方法
CN103631886A (zh) 在浏览器侧进行输入的方法和设备
Geel et al. Sift: an end-user tool for gathering web content on the go

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant