CN108804620A

CN108804620A - 互联网数据采集方法、系统及计算机终端

Info

Publication number: CN108804620A
Application number: CN201810547488.8A
Authority: CN
Inventors: 赵淦森; 林成创; 列海权; 纪求华; 王欣明; 赵淑娴; 李胜龙; 金明宙; 赵磊; 刘秋敏; 朱俊杰; 颜志鸿
Original assignee: Guangdong Weihai Big Data Technology Co Ltd
Current assignee: Guangdong Weihai Big Data Technology Co Ltd
Priority date: 2018-05-31
Filing date: 2018-05-31
Publication date: 2018-11-13
Anticipated expiration: 2038-05-31
Also published as: CN108804620B

Abstract

本发明公开了一种互联网数据采集方法、系统及计算机终端。该方法包括：S1从所述待采集列表中获取待采集对象，根据预设规则构造该待采集对象的访问链接；S2根据所述访问链接获取所述待采集对象的网页内容，对所述网页内容进行解析以获取包含所述待采集对象的相关对象的有用信息，存储所述有用信息及将所述待采集对象加入已采集列表中；S3判断所述相关对象是否在待采集列表或已采集列表中，若均不存在，将所述相关对象加入到待采集列表中，重新执行步骤S1及后续步骤直至所述待采集列表内所有对象的有用信息采集完毕。本发明解决了如何通过一个访问链接发现新的价值链接的情况，实现互联网数据采集的自动化及全面化。

Description

互联网数据采集方法、系统及计算机终端

技术领域

本发明涉及大数据技术领域，具体而言，涉及一种互联网数据采集方法、系统及计算机终端。

背景技术

现在的社会是一个高速发展的社会，科技发达，信息流通，人们之间的交流越来越密切，生活也越来越方便，大数据就是这个高科技时代的产物。随着大数据时代的到来，互联网的信息每天海量增长，大量的信息中潜在着巨大的价值，人们对数据的需求越来越旺盛，而数据采集(数据采集也成为网络爬虫)是很多应用构建的基础，也是大数据应用中数据来源的保障。

由于互联网的信息量过于巨大，数据采集的能力、采集的全面性等都面临着巨大的考验，如何通过网络资源发现其他新的网络资源成为数据采集过程中需要解决的一大问题。

发明内容

鉴于上述问题，本发明提供了一种互联网数据采集方法、系统及计算机终端，以解决现有技术的不足。

需要说明的是，本发明中提及的术语“计算机终端”是广义上的术语，其可包括例如服务器、个人电脑、笔记本电脑、平板电脑、智能手机等，其既可以是例如服务器和个人电脑、智能手机的组合，也可以是单个计算机设备。另外，“计算机设备”也是一个广义上的术语，可以是例如服务器、个人电脑、笔记本电脑、平板电脑、智能手机等。

此外，在本发明的方法描述中，可能对各个步骤进行了编号，然而，这样的编号仅仅是为了方便描述，而并不意味着，这些方法必须按照所列序号依次进行，除非，在描述中明确地指出了执行这些步骤的先后顺序或者根据上下文的逻辑关系这些步骤必须先后进行。否则，这些步骤的执行顺序可以根据需要调整。

根据本发明的一个实施方式，提供一种互联网数据采集方法，该方法包括：

S1从待采集列表中获取待采集对象，根据预设规则构造该待采集对象的访问链接；

S2根据所述访问链接获取所述待采集对象的网页内容，对所述网页内容进行解析以获取包含所述待采集对象的相关对象的有用信息，存储所述有用信息及将所述待采集对象加入已采集列表中；

S3判断所述相关对象是否在所述待采集列表或所述已采集列表中，若均不存在，将所述相关对象加入到所述待采集列表中，重新执行步骤S1及后续步骤直至所述待采集列表内所有对象的有用信息采集完毕。

在上述的互联网数据采集方法中，所述步骤S1之前还包括：

从种子对象列表中获取种子对象及将所述种子对象加入到所述待采集列表中。

在上述的互联网数据采集方法中，所述预设规则包括：

根据知识源网站的统一资源定位符前缀及所述待采集对象的名称构造所述访问链接。

在上述的互联网数据采集方法中，所述“对所述网页内容进行解析以获取包含所述待采集对象的相关对象的有用信息”包括：

根据所述网页内容中标签的属性信息，抽取预设属性标签对应的内容值，及通过预设的提取规则获取所述待采集对象的相关对象；

将所述内容值及所述相关对象形成具有预定结构的有用信息。

在上述的互联网数据采集方法中，所述提取规则包括：

遍历所述网页内容，查找具有超链接属性的标签；

判断所述标签之间的内容是否为空，若所述标签之间内容不为空，抓取所述标签之间内容值。

在上述的互联网数据采集方法中，还包括：

根据存储的所述有用信息生成知识图谱。

本发明的另一实施方式提供一种互联网数据采集系统，该系统包括：

构造模块，用于从所述待采集列表中获取待采集对象，根据预设规则构造该待采集对象的访问链接；

解析模块，用于根据所述访问链接获取所述待采集对象的网页内容，对所述网页内容进行解析以获取包含所述待采集对象的相关对象的有用信息，存储所述有用信息及将所述待采集对象加入已采集列表中；

加入模块，判断所述相关对象是否在待采集列表或已采集列表中，若均不存在，所述加入模块用于将所述相关对象加入到待采集列表中，并且所述构造模块重新执行构造操作直至所述待采集列表内所有对象的有用信息采集完毕。

在上述的互联网数据采集系统中，还包括：

获取模块，用于从种子对象列表中获取种子对象及将所述种子对象加入到所述待采集列表中。

本发明的又一实施方式提供一种计算机终端，包括存储器以及处理器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述移动终端执行上述的互联网数据采集方法。

本发明的再一实施方式提供一种计算机可读存储介质，其存储有上述的移动终端中所使用的所述计算机程序。

本发明互联网数据采集方法、系统及计算机终端至少提供以下技术效果：在采集开始阶段，仅仅需要在不同领域内加入启动的种子对象，根据知识之间的内部联系，自动采集与种子对象相关的对象，并自动对该相关对象进行分析，从而构建完善的知识体系；避免数据的重复采集和陷入死循环的情况。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对本发明保护范围的限定。

图1示出了本发明第一实施例提供的一种互联网数据采集方法的流程示意图。

图2示出了本发明第二实施例提供的一种互联网数据采集方法的流程示意图。

图3示出了本发明第三实施例提供的一种互联网数据采集系统结构示意图。

主要元件符号说明：

10-互联网数据采集系统；110-构造模块；120-解析模块；130-加入模块。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在多尺度标定板的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。

下面结合附图，对本发明的具体实施方式作详细说明。

实施例1

步骤S110，从所述待采集列表中获取待采集对象，根据预设规则构造该待采集对象的访问链接。

该待采集列表可以通过队列、集合、图等数据存储方式进行描述。优选为队列的存储方式。

其中，预设规则包括：

本实施例中，可定义访问链接格式为“统一资源定位符前缀”+“待采集对象的名称”。本发明的其他实施例中，还可以通过其他方式构造访问链接。

针对同一个待采集对象，不同的知识源网站URL(统一资源定位符)前缀是不同的，可以根据该预设规则构造不同的访问链接。

本实施例中，所述知识源网站可包括百度百科、互动百科、维基百科等知识库。

步骤S120，根据所述访问链接获取所述待采集对象的网页内容，对所述网页内容进行解析以获取包含所述待采集对象的相关对象的有用信息，存储所述有用信息及将所述待采集对象加入已采集列表中。

点击步骤S110构造的所诉待采集对象的访问链接，获取该访问链接的web网页内容。

根据所述网页内容中标签的属性信息，抽取预设属性标签对应的内容值。

例如，在标签<meta>中，<meta name＝"description"content>或<meta content>部分即表示该待采集对象的简介或摘要或说明书等。

根据用户需求抽取预设属性标签对应的内容值。

通过预设的提取规则获取所述待采集对象的相关对象。

其中，所述预设规则包括：

遍历所述网页内容，查找具有超链接属性的标签；

例如，所述相关对象在网页内容中的表现形式为带有鼠标可点击的“超链接”形式，在网页内容源代码中，该相关对象嵌入在标签内，以<a>标签的形式存在，且<a>标签不为空。

因此，遍历网页内容内所有的标签，查找全文中所有成对出现的标签，针对每一对标签之间的内容，查找该内容内是否出现成对的<a></a>标签，若出现成对的<a></a>标签，判断<a></a>标签之间的内容是否为空，若<a></a>标签之间的内容不为空，那么判定该内容为所述待采集对象的相关对象。

如何判断<a></a>标签之间的内容是否为空，举例如下：

网页内容中若出现<a href＝“url”></a>，可以看出在<a href＝“url”>和</a>之间内容为空，判定该标签为空标签，不能提取出相关对象；网页内容中若出现<a href＝“url”>乳酸小口袋</a>，可以看出在<a href＝“url”>和</a>之间内容为“乳酸小口袋”，判定该标签为不空的标签，“乳酸小口袋”即为相关对象。

不同知识源网站的网页内容具有不同的知识组织结构，也即HTML(超文本标记语言)标签的名称不同，因此，针对不同的知识源网站，可对HTML标签的属性信息进行分析，抽取预设属性标签对应的内容值。

并将获取的预设属性标签对应的内容值进行分类整理，将分类整理后的内容值和相关对象形成结构化的有用信息。

优选地，用户还可以提前自定义设置有用信息的数据结构，根据所述自定义设置有用信息的数据结构抽取预设属性标签对应的内容值。

例如，有用信息的数据结构可定义如下：

Public class entity{

Private string abstracts；//实体的简介

Private string entity；//实体名称

Private set<string>category；//实体分类

Private map<string,list<string>>infobox；//实体分类信息

Private list<string>relatedobject；//相关对象

获取有用信息后，将该待采集对象的有用信息存储到数据库中。至此，对该待采集对象的数据采集完成，将该待采集对象加入到已采集列表中。

步骤S130，判断所述相关对象是否在待采集列表或已采集列表中。

判断由步骤S120得到的待采集对象的相关对象是否在待采集列表和已采集列表中，即，在此之前采集的其他的对象是否同样与该相关对象相关，若所述相关对象均不在待采集列表和已采集列表中，即之前采集的所有对象均不与该相关对象相关，前进至步骤140，将该相关对象加入至待采集列表中进行采集，通过有限的种子对象获取其他新的对象，扩大知识的采集范围，通过持续采集相关对象的有用信息形成知识图谱。若所述相关对象在待采集列表或已采集列表中，前进至步骤S150，判断待采集列表是否为空，避免数据的重复采集及数据采集陷入死循环的状态。

步骤S140，将所述相关对象加入到待采集列表中。

步骤S150，判断待采集列表是否为空。

判断待采集列表是否为空，若所述待采集列表不为空，意味着待采集列表还有对象需要采集有用信息，前进至步骤S110，重新执行该方法直至待采集列表中所有对象的有用信息均被采集完毕。

若所述待采集列表为空，意味着关于该种子对象领域的所有有用信息都采集完毕。

并根据获取的有用信息生成知识图谱。

在步骤S110之前还包括：

本实施例中，可首先初始化一种子对象列表，该种子对象列表中包括至少一个种子对象，将从种子对象列表中获取的种子对象加入到待采集列表中。

本发明的其他实施例中，还可以响应用户的输入操作获取至少一个种子对象并将该种子对象加入到待采集列表中。或者，还可以通过特定场景自动生成所述种子对象。

其中，所述种子对象为第一次加入待采集列表中的对象，为该互联网数据采集的启动对象。

该种子对象可以是人、物体、概念等等。该种子对象可以根据用户所使用的具体应用场景而定。

实施例2

图2示出了本发明第二实施例提供的另一种互联网数据采集方法的流程示意图。本实施例以“中国菜”这个意图领域为例对互联网数据采集方法进行具体阐述。

步骤S210，获取用户输入的种子对象。

例如，想要采集“中国菜”这个应用场景中尽可能多的数据的话，可以初始化至少一个种子对象，如“糖醋排骨”、“口水鸭”、“麻婆豆腐”等。

步骤S220，将种子对象加入到待采集列表中。

初始化一个待采集列表和已采集列表，该待采集列表和已采集列表均可通过队列、集合、图等数据存储方式进行存储数据。

将该至少一个种子对象“糖醋排骨”、“口水鸭”、“麻婆豆腐”加入到待采集列表中。

此时，待采集列表头指针指向列表头部所在地址，即“糖醋排骨”所在地址。

步骤S230，从待采集列表中获取待采集对象。

从待采集列表中获取待采集对象，该待采集对象为列表头指针所指向位置的对象，即“糖醋排骨”，获取到待采集对象后，将该待采集对象从待采集列表中删除，待采集列表头指针指向“糖醋排骨”所在地址的下一个地址，即“口水鸭”所在待采集列表中的地址。

步骤S240，构造该待采集对象的访问链接。

例如，开始采集互联网数据时，根据预设规则构造“糖醋排骨”的访问链接URL1＝“http://baike.baidu.com/item/”+“糖醋排骨”；

其中，“http://baike.baidu.com/item/”为百度百科的URL前缀。

访问链接URL2＝“http://www.baike.com/wiki/”+“糖醋排骨”；

其中，“http://www.baike.com/wiki/”为互动百科的URL前缀。

访问链接URL3＝“http://zh.wikipedia.org/wiki/”+“糖醋排骨”等。

其中，“http://zh.wikipedia.org/wiki/”为维基百科的前缀。

步骤S250，根据访问链接获取网页内容。

本实施例以访问链接URL1为例进行说明。

例如，进入访问链接URL1“http://baike.baidu.com/item/糖醋排骨”，获取URL1对应的网页内容。

步骤S260，对该网页内容进行解析获取有用信息。

对该知识信息所在网页内容中标签进行解析，根据标签的属性信息抽取预设属性标签对应的内容值。

例如，获取标签<meta name＝"description"content>的内容值，该内容值即表示“糖醋排骨”的简介，同时，还可以根据标签属性获取“糖醋排骨”的名称、分类等内容值。

根据预设规则获取“糖醋排骨”的含“土豆烧牛腩”、“东坡肉”、“烧茄子”、“手撕包菜”、“鱼香肉丝”等在内的所有相关对象。

该相关对象在网页内容中为超链接的形式，根据网页内容标签属性查找所有具有超链接属性的标签，如成对出现的<a></a>标签，获取该<a></a>标签之间的内容，该内容即为相关对象。

将获取的内容值及相关对象形成具有预定结构的有用信息。

步骤S270，存储有用信息及将该待采集对象添加至已采集列表。

此时，“糖醋排骨”已经采集到有用信息，将该有用信息存储至数据库中，并将“糖醋排骨”加入到已采集列表中。

步骤S280，判断相关对象是否在待采集列表或已采集列表。

以“土豆烧牛腩”为例进行说明，判断“土豆烧牛腩”是否在待采集列表中或已采集列表中，若不在所述待采集列表中或已采集列表中，意味着“土豆烧牛腩”为一未采集的新的对象，前进至步骤S290。

若在所述待采集列表中或已采集列表中，意味着“土豆烧牛腩”已经被其他已采集的对象相关联并已经将有用信息采集完毕，前进至步骤S300。

步骤S290，将相关对象加入到待采集列表中。

步骤S300，判断待采集列表是否为空。

判断当前列表是否为空，若列表为空，意味着所有对象采集完毕，形成一个完整的知识体系。

若列表不为空，意味着还存在待采集的对象，前进至步骤S230，继续采集待采集列表中剩余对象的有用信息。

实施例3

互联网数据采集系统10包括构造模块110、解析模块120和加入模块130。

构造模块110，用于从所述待采集列表中获取待采集对象，根据预设规则构造该待采集对象的访问链接。

解析模块120，用于根据所述访问链接获取所述待采集对象的网页内容，对所述网页内容进行解析以获取包含所述待采集对象的相关对象的有用信息，存储所述有用信息及将所述待采集对象加入已采集列表中。

加入模块130，判断所述相关对象是否在所述待采集列表或所述已采集列表中，若均不存在，所述加入模块130用于将所述相关对象加入到所述待采集列表中，并且所述构造模块110重新执行构造操作直至所述待采集列表内所有对象的有用信息采集完毕。

该互联网数据采集系统还包括获取模块，用于从种子对象列表中获取种子对象及将所述种子对象加入到所述待采集列表中。

该互联网数据采集系统还包括生成模块，用于根据存储的所述有用信息生成知识图谱。

本实施例还提出一种计算机终端，该计算机终端包括存储器以及处理器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述计算机终端执行上述的互联网数据采集方法。

本实施例还提出一种计算机可读存储介质，该计算机可读存储介质存储上述的计算机终端中所使用的所述计算机程序

本发明在采集开始阶段，仅仅需要在不同领域内加入启动的种子对象，根据知识之间的内部联系，自动采集与种子对象相关的对象，并自动对该相关对象进行分析，从而构建完善的知识体系；避免数据的重复采集和陷入死循环的情况。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统和方法，也可以通过其它的方式实现。以上所描述的系统实施例仅仅是示意性的，例如，附图中的流程图和结构图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，结构图和/或流程图中的每个方框、以及结构图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块或单元可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或更多个模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是智能手机、个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random AccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种互联网数据采集方法，其特征在于，包括：

2.根据权利要求1所述的互联网数据采集方法，其特征在于，所述步骤S1之前还包括：

3.根据权利要求1所述的互联网数据采集方法，其特征在于，所述预设规则包括：

4.根据权利要求1所述的数据采集方法，其特征在于，所述“对所述网页内容进行解析以获取包含所述待采集对象的相关对象的有用信息”包括：

5.根据权利要求4所述的数据采集方法，其特征在于，所述提取规则包括：

遍历所述网页内容，查找具有超链接属性的标签；

6.根据权利要求1所述的互联网数据采集方法，其特征在于，还包括：

根据存储的所述有用信息生成知识图谱。

7.一种互联网数据采集系统，其特征在于，包括：

构造模块，用于从待采集列表中获取待采集对象，根据预设规则构造该待采集对象的访问链接；

加入模块，判断所述相关对象是否在所述待采集列表或所述已采集列表中，若均不存在，所述加入模块用于将所述相关对象加入到所述待采集列表中，并且所述构造模块重新执行构造操作直至所述待采集列表内所有对象的有用信息采集完毕。

8.根据权利要求7所述的互联网数据采集系统，其特征在于，还包括：

9.一种计算机终端，其特征在于，包括存储器以及处理器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述计算机终端执行根据权利要求1至6中任一项所述的互联网数据采集方法。

10.一种计算机可读存储介质，其特征在于，其存储有权利要求9所述的计算机终端中所使用的所述计算机程序。