CN108804620A - 互联网数据采集方法、系统及计算机终端 - Google Patents

互联网数据采集方法、系统及计算机终端 Download PDF

Info

Publication number
CN108804620A
CN108804620A CN201810547488.8A CN201810547488A CN108804620A CN 108804620 A CN108804620 A CN 108804620A CN 201810547488 A CN201810547488 A CN 201810547488A CN 108804620 A CN108804620 A CN 108804620A
Authority
CN
China
Prior art keywords
collected
list
useful information
acquisition
data acquisition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810547488.8A
Other languages
English (en)
Other versions
CN108804620B (zh
Inventor
赵淦森
林成创
列海权
纪求华
王欣明
赵淑娴
李胜龙
金明宙
赵磊
刘秋敏
朱俊杰
颜志鸿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Weihai Big Data Technology Co Ltd
Original Assignee
Guangdong Weihai Big Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Weihai Big Data Technology Co Ltd filed Critical Guangdong Weihai Big Data Technology Co Ltd
Priority to CN201810547488.8A priority Critical patent/CN108804620B/zh
Publication of CN108804620A publication Critical patent/CN108804620A/zh
Application granted granted Critical
Publication of CN108804620B publication Critical patent/CN108804620B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种互联网数据采集方法、系统及计算机终端。该方法包括:S1从所述待采集列表中获取待采集对象,根据预设规则构造该待采集对象的访问链接;S2根据所述访问链接获取所述待采集对象的网页内容,对所述网页内容进行解析以获取包含所述待采集对象的相关对象的有用信息,存储所述有用信息及将所述待采集对象加入已采集列表中;S3判断所述相关对象是否在待采集列表或已采集列表中,若均不存在,将所述相关对象加入到待采集列表中,重新执行步骤S1及后续步骤直至所述待采集列表内所有对象的有用信息采集完毕。本发明解决了如何通过一个访问链接发现新的价值链接的情况,实现互联网数据采集的自动化及全面化。

Description

互联网数据采集方法、系统及计算机终端
技术领域
本发明涉及大数据技术领域,具体而言,涉及一种互联网数据采集方法、系统及计算机终端。
背景技术
现在的社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流越来越密切,生活也越来越方便,大数据就是这个高科技时代的产物。随着大数据时代的到来,互联网的信息每天海量增长,大量的信息中潜在着巨大的价值,人们对数据的需求越来越旺盛,而数据采集(数据采集也成为网络爬虫)是很多应用构建的基础,也是大数据应用中数据来源的保障。
由于互联网的信息量过于巨大,数据采集的能力、采集的全面性等都面临着巨大的考验,如何通过网络资源发现其他新的网络资源成为数据采集过程中需要解决的一大问题。
发明内容
鉴于上述问题,本发明提供了一种互联网数据采集方法、系统及计算机终端,以解决现有技术的不足。
需要说明的是,本发明中提及的术语“计算机终端”是广义上的术语,其可包括例如服务器、个人电脑、笔记本电脑、平板电脑、智能手机等,其既可以是例如服务器和个人电脑、智能手机的组合,也可以是单个计算机设备。另外,“计算机设备”也是一个广义上的术语,可以是例如服务器、个人电脑、笔记本电脑、平板电脑、智能手机等。
此外,在本发明的方法描述中,可能对各个步骤进行了编号,然而,这样的编号仅仅是为了方便描述,而并不意味着,这些方法必须按照所列序号依次进行,除非,在描述中明确地指出了执行这些步骤的先后顺序或者根据上下文的逻辑关系这些步骤必须先后进行。否则,这些步骤的执行顺序可以根据需要调整。
根据本发明的一个实施方式,提供一种互联网数据采集方法,该方法包括:
S1从待采集列表中获取待采集对象,根据预设规则构造该待采集对象的访问链接;
S2根据所述访问链接获取所述待采集对象的网页内容,对所述网页内容进行解析以获取包含所述待采集对象的相关对象的有用信息,存储所述有用信息及将所述待采集对象加入已采集列表中;
S3判断所述相关对象是否在所述待采集列表或所述已采集列表中,若均不存在,将所述相关对象加入到所述待采集列表中,重新执行步骤S1及后续步骤直至所述待采集列表内所有对象的有用信息采集完毕。
在上述的互联网数据采集方法中,所述步骤S1之前还包括:
从种子对象列表中获取种子对象及将所述种子对象加入到所述待采集列表中。
在上述的互联网数据采集方法中,所述预设规则包括:
根据知识源网站的统一资源定位符前缀及所述待采集对象的名称构造所述访问链接。
在上述的互联网数据采集方法中,所述“对所述网页内容进行解析以获取包含所述待采集对象的相关对象的有用信息”包括:
根据所述网页内容中标签的属性信息,抽取预设属性标签对应的内容值,及通过预设的提取规则获取所述待采集对象的相关对象;
将所述内容值及所述相关对象形成具有预定结构的有用信息。
在上述的互联网数据采集方法中,所述提取规则包括:
遍历所述网页内容,查找具有超链接属性的标签;
判断所述标签之间的内容是否为空,若所述标签之间内容不为空,抓取所述标签之间内容值。
在上述的互联网数据采集方法中,还包括:
根据存储的所述有用信息生成知识图谱。
本发明的另一实施方式提供一种互联网数据采集系统,该系统包括:
构造模块,用于从所述待采集列表中获取待采集对象,根据预设规则构造该待采集对象的访问链接;
解析模块,用于根据所述访问链接获取所述待采集对象的网页内容,对所述网页内容进行解析以获取包含所述待采集对象的相关对象的有用信息,存储所述有用信息及将所述待采集对象加入已采集列表中;
加入模块,判断所述相关对象是否在待采集列表或已采集列表中,若均不存在,所述加入模块用于将所述相关对象加入到待采集列表中,并且所述构造模块重新执行构造操作直至所述待采集列表内所有对象的有用信息采集完毕。
在上述的互联网数据采集系统中,还包括:
获取模块,用于从种子对象列表中获取种子对象及将所述种子对象加入到所述待采集列表中。
本发明的又一实施方式提供一种计算机终端,包括存储器以及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述移动终端执行上述的互联网数据采集方法。
本发明的再一实施方式提供一种计算机可读存储介质,其存储有上述的移动终端中所使用的所述计算机程序。
本发明互联网数据采集方法、系统及计算机终端至少提供以下技术效果:在采集开始阶段,仅仅需要在不同领域内加入启动的种子对象,根据知识之间的内部联系,自动采集与种子对象相关的对象,并自动对该相关对象进行分析,从而构建完善的知识体系;避免数据的重复采集和陷入死循环的情况。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对本发明保护范围的限定。
图1示出了本发明第一实施例提供的一种互联网数据采集方法的流程示意图。
图2示出了本发明第二实施例提供的一种互联网数据采集方法的流程示意图。
图3示出了本发明第三实施例提供的一种互联网数据采集系统结构示意图。
主要元件符号说明:
10-互联网数据采集系统;110-构造模块;120-解析模块;130-加入模块。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在多尺度标定板的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
下面结合附图,对本发明的具体实施方式作详细说明。
实施例1
图1示出了本发明第一实施例提供的一种互联网数据采集方法的流程示意图。
步骤S110,从所述待采集列表中获取待采集对象,根据预设规则构造该待采集对象的访问链接。
该待采集列表可以通过队列、集合、图等数据存储方式进行描述。优选为队列的存储方式。
其中,预设规则包括:
根据知识源网站的统一资源定位符前缀及所述待采集对象的名称构造所述访问链接。
本实施例中,可定义访问链接格式为“统一资源定位符前缀”+“待采集对象的名称”。本发明的其他实施例中,还可以通过其他方式构造访问链接。
针对同一个待采集对象,不同的知识源网站URL(统一资源定位符)前缀是不同的,可以根据该预设规则构造不同的访问链接。
本实施例中,所述知识源网站可包括百度百科、互动百科、维基百科等知识库。
步骤S120,根据所述访问链接获取所述待采集对象的网页内容,对所述网页内容进行解析以获取包含所述待采集对象的相关对象的有用信息,存储所述有用信息及将所述待采集对象加入已采集列表中。
点击步骤S110构造的所诉待采集对象的访问链接,获取该访问链接的web网页内容。
根据所述网页内容中标签的属性信息,抽取预设属性标签对应的内容值。
例如,在标签<meta>中,<meta name="description"content>或<meta content>部分即表示该待采集对象的简介或摘要或说明书等。
根据用户需求抽取预设属性标签对应的内容值。
通过预设的提取规则获取所述待采集对象的相关对象。
其中,所述预设规则包括:
遍历所述网页内容,查找具有超链接属性的标签;
判断所述标签之间的内容是否为空,若所述标签之间内容不为空,抓取所述标签之间内容值。
例如,所述相关对象在网页内容中的表现形式为带有鼠标可点击的“超链接”形式,在网页内容源代码中,该相关对象嵌入在<p></p>标签内,以<a>标签的形式存在,且<a>标签不为空。
因此,遍历网页内容内所有的标签,查找全文中所有成对出现的<p></p>标签,针对每一对<p></p>标签之间的内容,查找该内容内是否出现成对的<a></a>标签,若出现成对的<a></a>标签,判断<a></a>标签之间的内容是否为空,若<a></a>标签之间的内容不为空,那么判定该内容为所述待采集对象的相关对象。
如何判断<a></a>标签之间的内容是否为空,举例如下:
网页内容中若出现<a href=“url”></a>,可以看出在<a href=“url”>和</a>之间内容为空,判定该标签为空标签,不能提取出相关对象;网页内容中若出现<a href=“url”>乳酸小口袋</a>,可以看出在<a href=“url”>和</a>之间内容为“乳酸小口袋”,判定该标签为不空的标签,“乳酸小口袋”即为相关对象。
不同知识源网站的网页内容具有不同的知识组织结构,也即HTML(超文本标记语言)标签的名称不同,因此,针对不同的知识源网站,可对HTML标签的属性信息进行分析,抽取预设属性标签对应的内容值。
并将获取的预设属性标签对应的内容值进行分类整理,将分类整理后的内容值和相关对象形成结构化的有用信息。
优选地,用户还可以提前自定义设置有用信息的数据结构,根据所述自定义设置有用信息的数据结构抽取预设属性标签对应的内容值。
例如,有用信息的数据结构可定义如下:
Public class entity{
Private string abstracts;//实体的简介
Private string entity;//实体名称
Private set<string>category;//实体分类
Private map<string,list<string>>infobox;//实体分类信息
Private list<string>relatedobject;//相关对象
获取有用信息后,将该待采集对象的有用信息存储到数据库中。至此,对该待采集对象的数据采集完成,将该待采集对象加入到已采集列表中。
步骤S130,判断所述相关对象是否在待采集列表或已采集列表中。
判断由步骤S120得到的待采集对象的相关对象是否在待采集列表和已采集列表中,即,在此之前采集的其他的对象是否同样与该相关对象相关,若所述相关对象均不在待采集列表和已采集列表中,即之前采集的所有对象均不与该相关对象相关,前进至步骤140,将该相关对象加入至待采集列表中进行采集,通过有限的种子对象获取其他新的对象,扩大知识的采集范围,通过持续采集相关对象的有用信息形成知识图谱。若所述相关对象在待采集列表或已采集列表中,前进至步骤S150,判断待采集列表是否为空,避免数据的重复采集及数据采集陷入死循环的状态。
步骤S140,将所述相关对象加入到待采集列表中。
步骤S150,判断待采集列表是否为空。
判断待采集列表是否为空,若所述待采集列表不为空,意味着待采集列表还有对象需要采集有用信息,前进至步骤S110,重新执行该方法直至待采集列表中所有对象的有用信息均被采集完毕。
若所述待采集列表为空,意味着关于该种子对象领域的所有有用信息都采集完毕。
并根据获取的有用信息生成知识图谱。
在步骤S110之前还包括:
从种子对象列表中获取种子对象及将所述种子对象加入到所述待采集列表中。
本实施例中,可首先初始化一种子对象列表,该种子对象列表中包括至少一个种子对象,将从种子对象列表中获取的种子对象加入到待采集列表中。
本发明的其他实施例中,还可以响应用户的输入操作获取至少一个种子对象并将该种子对象加入到待采集列表中。或者,还可以通过特定场景自动生成所述种子对象。
其中,所述种子对象为第一次加入待采集列表中的对象,为该互联网数据采集的启动对象。
该种子对象可以是人、物体、概念等等。该种子对象可以根据用户所使用的具体应用场景而定。
实施例2
图2示出了本发明第二实施例提供的另一种互联网数据采集方法的流程示意图。本实施例以“中国菜”这个意图领域为例对互联网数据采集方法进行具体阐述。
步骤S210,获取用户输入的种子对象。
例如,想要采集“中国菜”这个应用场景中尽可能多的数据的话,可以初始化至少一个种子对象,如“糖醋排骨”、“口水鸭”、“麻婆豆腐”等。
步骤S220,将种子对象加入到待采集列表中。
初始化一个待采集列表和已采集列表,该待采集列表和已采集列表均可通过队列、集合、图等数据存储方式进行存储数据。
将该至少一个种子对象“糖醋排骨”、“口水鸭”、“麻婆豆腐”加入到待采集列表中。
此时,待采集列表头指针指向列表头部所在地址,即“糖醋排骨”所在地址。
步骤S230,从待采集列表中获取待采集对象。
从待采集列表中获取待采集对象,该待采集对象为列表头指针所指向位置的对象,即“糖醋排骨”,获取到待采集对象后,将该待采集对象从待采集列表中删除,待采集列表头指针指向“糖醋排骨”所在地址的下一个地址,即“口水鸭”所在待采集列表中的地址。
步骤S240,构造该待采集对象的访问链接。
例如,开始采集互联网数据时,根据预设规则构造“糖醋排骨”的访问链接URL1=“http://baike.baidu.com/item/”+“糖醋排骨”;
其中,“http://baike.baidu.com/item/”为百度百科的URL前缀。
访问链接URL2=“http://www.baike.com/wiki/”+“糖醋排骨”;
其中,“http://www.baike.com/wiki/”为互动百科的URL前缀。
访问链接URL3=“http://zh.wikipedia.org/wiki/”+“糖醋排骨”等。
其中,“http://zh.wikipedia.org/wiki/”为维基百科的前缀。
步骤S250,根据访问链接获取网页内容。
本实施例以访问链接URL1为例进行说明。
例如,进入访问链接URL1“http://baike.baidu.com/item/糖醋排骨”,获取URL1对应的网页内容。
步骤S260,对该网页内容进行解析获取有用信息。
对该知识信息所在网页内容中标签进行解析,根据标签的属性信息抽取预设属性标签对应的内容值。
例如,获取标签<meta name="description"content>的内容值,该内容值即表示“糖醋排骨”的简介,同时,还可以根据标签属性获取“糖醋排骨”的名称、分类等内容值。
根据预设规则获取“糖醋排骨”的含“土豆烧牛腩”、“东坡肉”、“烧茄子”、“手撕包菜”、“鱼香肉丝”等在内的所有相关对象。
该相关对象在网页内容中为超链接的形式,根据网页内容标签属性查找所有具有超链接属性的标签,如成对出现的<a></a>标签,获取该<a></a>标签之间的内容,该内容即为相关对象。
将获取的内容值及相关对象形成具有预定结构的有用信息。
步骤S270,存储有用信息及将该待采集对象添加至已采集列表。
此时,“糖醋排骨”已经采集到有用信息,将该有用信息存储至数据库中,并将“糖醋排骨”加入到已采集列表中。
步骤S280,判断相关对象是否在待采集列表或已采集列表。
以“土豆烧牛腩”为例进行说明,判断“土豆烧牛腩”是否在待采集列表中或已采集列表中,若不在所述待采集列表中或已采集列表中,意味着“土豆烧牛腩”为一未采集的新的对象,前进至步骤S290。
若在所述待采集列表中或已采集列表中,意味着“土豆烧牛腩”已经被其他已采集的对象相关联并已经将有用信息采集完毕,前进至步骤S300。
步骤S290,将相关对象加入到待采集列表中。
步骤S300,判断待采集列表是否为空。
判断当前列表是否为空,若列表为空,意味着所有对象采集完毕,形成一个完整的知识体系。
若列表不为空,意味着还存在待采集的对象,前进至步骤S230,继续采集待采集列表中剩余对象的有用信息。
实施例3
图3示出了本发明第三实施例提供的一种互联网数据采集系统结构示意图。
互联网数据采集系统10包括构造模块110、解析模块120和加入模块130。
构造模块110,用于从所述待采集列表中获取待采集对象,根据预设规则构造该待采集对象的访问链接。
解析模块120,用于根据所述访问链接获取所述待采集对象的网页内容,对所述网页内容进行解析以获取包含所述待采集对象的相关对象的有用信息,存储所述有用信息及将所述待采集对象加入已采集列表中。
加入模块130,判断所述相关对象是否在所述待采集列表或所述已采集列表中,若均不存在,所述加入模块130用于将所述相关对象加入到所述待采集列表中,并且所述构造模块110重新执行构造操作直至所述待采集列表内所有对象的有用信息采集完毕。
该互联网数据采集系统还包括获取模块,用于从种子对象列表中获取种子对象及将所述种子对象加入到所述待采集列表中。
该互联网数据采集系统还包括生成模块,用于根据存储的所述有用信息生成知识图谱。
本实施例还提出一种计算机终端,该计算机终端包括存储器以及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述计算机终端执行上述的互联网数据采集方法。
本实施例还提出一种计算机可读存储介质,该计算机可读存储介质存储上述的计算机终端中所使用的所述计算机程序
本发明在采集开始阶段,仅仅需要在不同领域内加入启动的种子对象,根据知识之间的内部联系,自动采集与种子对象相关的对象,并自动对该相关对象进行分析,从而构建完善的知识体系;避免数据的重复采集和陷入死循环的情况。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统和方法,也可以通过其它的方式实现。以上所描述的系统实施例仅仅是示意性的,例如,附图中的流程图和结构图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,结构图和/或流程图中的每个方框、以及结构图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块或单元可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或更多个模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是智能手机、个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random AccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种互联网数据采集方法,其特征在于,包括:
S1从待采集列表中获取待采集对象,根据预设规则构造该待采集对象的访问链接;
S2根据所述访问链接获取所述待采集对象的网页内容,对所述网页内容进行解析以获取包含所述待采集对象的相关对象的有用信息,存储所述有用信息及将所述待采集对象加入已采集列表中;
S3判断所述相关对象是否在所述待采集列表或所述已采集列表中,若均不存在,将所述相关对象加入到所述待采集列表中,重新执行步骤S1及后续步骤直至所述待采集列表内所有对象的有用信息采集完毕。
2.根据权利要求1所述的互联网数据采集方法,其特征在于,所述步骤S1之前还包括:
从种子对象列表中获取种子对象及将所述种子对象加入到所述待采集列表中。
3.根据权利要求1所述的互联网数据采集方法,其特征在于,所述预设规则包括:
根据知识源网站的统一资源定位符前缀及所述待采集对象的名称构造所述访问链接。
4.根据权利要求1所述的数据采集方法,其特征在于,所述“对所述网页内容进行解析以获取包含所述待采集对象的相关对象的有用信息”包括:
根据所述网页内容中标签的属性信息,抽取预设属性标签对应的内容值,及通过预设的提取规则获取所述待采集对象的相关对象;
将所述内容值及所述相关对象形成具有预定结构的有用信息。
5.根据权利要求4所述的数据采集方法,其特征在于,所述提取规则包括:
遍历所述网页内容,查找具有超链接属性的标签;
判断所述标签之间的内容是否为空,若所述标签之间内容不为空,抓取所述标签之间内容值。
6.根据权利要求1所述的互联网数据采集方法,其特征在于,还包括:
根据存储的所述有用信息生成知识图谱。
7.一种互联网数据采集系统,其特征在于,包括:
构造模块,用于从待采集列表中获取待采集对象,根据预设规则构造该待采集对象的访问链接;
解析模块,用于根据所述访问链接获取所述待采集对象的网页内容,对所述网页内容进行解析以获取包含所述待采集对象的相关对象的有用信息,存储所述有用信息及将所述待采集对象加入已采集列表中;
加入模块,判断所述相关对象是否在所述待采集列表或所述已采集列表中,若均不存在,所述加入模块用于将所述相关对象加入到所述待采集列表中,并且所述构造模块重新执行构造操作直至所述待采集列表内所有对象的有用信息采集完毕。
8.根据权利要求7所述的互联网数据采集系统,其特征在于,还包括:
获取模块,用于从种子对象列表中获取种子对象及将所述种子对象加入到所述待采集列表中。
9.一种计算机终端,其特征在于,包括存储器以及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述计算机终端执行根据权利要求1至6中任一项所述的互联网数据采集方法。
10.一种计算机可读存储介质,其特征在于,其存储有权利要求9所述的计算机终端中所使用的所述计算机程序。
CN201810547488.8A 2018-05-31 2018-05-31 互联网数据采集方法、系统及计算机终端 Active CN108804620B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810547488.8A CN108804620B (zh) 2018-05-31 2018-05-31 互联网数据采集方法、系统及计算机终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810547488.8A CN108804620B (zh) 2018-05-31 2018-05-31 互联网数据采集方法、系统及计算机终端

Publications (2)

Publication Number Publication Date
CN108804620A true CN108804620A (zh) 2018-11-13
CN108804620B CN108804620B (zh) 2021-12-07

Family

ID=64089702

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810547488.8A Active CN108804620B (zh) 2018-05-31 2018-05-31 互联网数据采集方法、系统及计算机终端

Country Status (1)

Country Link
CN (1) CN108804620B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101118553A (zh) * 2007-08-09 2008-02-06 姜边 一种策略导向的面向领域的互联网信息采集方法
CN101620608A (zh) * 2008-07-04 2010-01-06 全国组织机构代码管理中心 信息采集方法及系统
CN102663023A (zh) * 2012-03-22 2012-09-12 浙江盘石信息技术有限公司 一种提取网页内容的实现方法
CN102662969A (zh) * 2012-03-11 2012-09-12 复旦大学 一种基于网页结构语义的互联网信息对象定位方法
CN103310026A (zh) * 2013-07-08 2013-09-18 焦点科技股份有限公司 一种基于搜索引擎的轻量级通用网页主题爬虫方法
US20150295951A1 (en) * 2012-12-24 2015-10-15 Tencent Technology (Shenzhen) Company Limited Method, server, and system for automatically rating reputation of a web site
CN106980651A (zh) * 2017-03-02 2017-07-25 中电海康集团有限公司 一种基于知识图谱的爬取种子列表更新方法及装置
CN107544994A (zh) * 2016-06-27 2018-01-05 北京国双科技有限公司 关联数据的处理方法和装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101118553A (zh) * 2007-08-09 2008-02-06 姜边 一种策略导向的面向领域的互联网信息采集方法
CN101620608A (zh) * 2008-07-04 2010-01-06 全国组织机构代码管理中心 信息采集方法及系统
CN102662969A (zh) * 2012-03-11 2012-09-12 复旦大学 一种基于网页结构语义的互联网信息对象定位方法
CN102663023A (zh) * 2012-03-22 2012-09-12 浙江盘石信息技术有限公司 一种提取网页内容的实现方法
US20150295951A1 (en) * 2012-12-24 2015-10-15 Tencent Technology (Shenzhen) Company Limited Method, server, and system for automatically rating reputation of a web site
CN103310026A (zh) * 2013-07-08 2013-09-18 焦点科技股份有限公司 一种基于搜索引擎的轻量级通用网页主题爬虫方法
CN107544994A (zh) * 2016-06-27 2018-01-05 北京国双科技有限公司 关联数据的处理方法和装置
CN106980651A (zh) * 2017-03-02 2017-07-25 中电海康集团有限公司 一种基于知识图谱的爬取种子列表更新方法及装置

Also Published As

Publication number Publication date
CN108804620B (zh) 2021-12-07

Similar Documents

Publication Publication Date Title
CN109033358B (zh) 新闻聚合与智能实体关联的方法
CN103365924B (zh) 一种互联网信息搜索的方法、装置和终端
US7660783B2 (en) System and method of ad-hoc analysis of data
CN102930059B (zh) 一种聚焦爬虫的设计方法
CN105446973B (zh) 社交网络中用户推荐模型的建立及应用方法和装置
US20120259859A1 (en) Method for recommending best information in real time by appropriately obtaining gist of web page and user&#39;s preference
CN107784059A (zh) 用于搜索和选择图像的方法和系统以及机器可读媒体
JP6165955B1 (ja) 検索クエリに応答してホワイトリストとブラックリストを使用し画像とコンテンツをマッチングする方法及びシステム
WO2018019289A1 (zh) 基于结构化网络知识自动生成中文本体库的方法、系统、计算机设备和计算机可读介质
CN105302876A (zh) 基于正则表达式的url过滤方法
Ly et al. Automated information extraction from web APIs documentation
KR101556743B1 (ko) 웹 수집에 기반한 관심 정보 생성 장치 및 그 방법
CN114117242A (zh) 数据查询方法和装置、计算机设备、存储介质
CN104281629A (zh) 从网页中提取图片的方法、装置及客户端设备
CN106776640A (zh) 一种股票资讯信息展示方法和装置
CN108280102A (zh) 上网行为记录方法、装置及用户终端
CN106959995A (zh) 兼容双向自动化网页内容采集方法
CN110955855A (zh) 一种信息拦截的方法、装置及终端
CN106951429B (zh) 增强网页评论显示的方法、浏览器及设备
CN107562954A (zh) 基于移动终端的推荐搜索方法、装置以及移动终端
Khan et al. A relational aggregated disjoint multimedia search results approach using semantics
CN108804620A (zh) 互联网数据采集方法、系统及计算机终端
US8645381B2 (en) Document taxonomy generation from tag data using user groupings of tags
Fung et al. Discover information and knowledge from websites using an integrated summarization and visualization framework
WO2017113324A1 (zh) 基于正则表达式的url过滤方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant