CN107861974A - 一种自适应网络爬虫系统及其数据获取方法 - Google Patents
一种自适应网络爬虫系统及其数据获取方法 Download PDFInfo
- Publication number
- CN107861974A CN107861974A CN201710846722.2A CN201710846722A CN107861974A CN 107861974 A CN107861974 A CN 107861974A CN 201710846722 A CN201710846722 A CN 201710846722A CN 107861974 A CN107861974 A CN 107861974A
- Authority
- CN
- China
- Prior art keywords
- data
- acquisition system
- data acquisition
- keyword
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开一种自适应网络爬虫系统及其数据获取方法,其中,方法包括:在目标网站进行改版前提取目标网站中目标网页信息部分的关键词及关键词周围的关键标签格式并基于该关键词形成第一数据集合;在无法提取目标网页中的数据时确定目标网站已进行改版,基于所述关键标签格式,根据当前目标网页URL链接,抓取当前目标网页预设深度的所有页面,形成第二数据集合;判断第一数据集合与第二数据集合的信息是否相似;若是则在当前目标网页中搜索目标关键词下的内容标签区域,获得所需内容数据,该目标关键词为第二数据集合中与第一数据集合中关键词相同或相似的元素。可在网站改版后自动适应改版后网站的DOM结构,获取改版后网站中目标网页内的数据。
Description
技术领域
本发明实施例涉及网络爬虫技术领域,具体涉及一种自适应网络爬虫系统及其数据获取方法。
背景技术
随着大数据时代的到来,人们对数据的需求越来越旺盛。互联网上的公开数据,网站改版是比较频繁的,例如,很多网站十至十五天便会改版一次。一般每改版一次,都需要重新写代码以适应其网页结构。
网络爬虫是一种“自动化浏览网络”的程序,或者说是一种网络机器人,可以自动采集所有搜索引擎或网站中其能够访问到的页面内容。在现有技术中,当某个网站改版后,需要根据改版后的网站重新编写网络爬虫的代码,以适应其网页结构,这非常费时费力。
鉴于此,如何提供一种自适应网络爬虫系统及其数据获取方法,以使其在网站改版后,能够自动适应改版后的网站的DOM(文档对象模型)结构,获取改版后的网站中目标网页内的数据成为目前需要解决的技术问题。
发明内容
由于现有方法存在上述问题,本发明实施例提出一种自适应网络爬虫系统及其数据获取方法。
第一方面,本发明实施例提出一种自适应网络爬虫系统的数据获取方法,包括:
在目标网站进行改版前,提取所述目标网站中的目标网页信息部分的关键词以及关键词周围的关键标签格式,并基于所提取的关键词,形成第一数据集合;
在无法对所述目标网页进行数据提取时,确定所述目标网站已进行改版,基于所述关键标签格式,根据当前目标网页的统一资源定位符URL链接,抓取当前目标网页预设深度的所有页面,形成第二数据集合;
判断所述第一数据集合与所述第二数据集合的信息是否相似;
若判断获知所述第一数据集合与所述第二数据集合的信息相似,则在当前目标网页中搜索目标关键词下的内容标签区域,以获得所需内容数据,其中,所述目标关键词为所述第二数据集合中与所述第一数据集合中的关键词相同或相似的元素。
可选地,在当前目标网页中所述目标关键词下的内容标签区域,以获得所需内容数据之后,所述方法还包括:
将获得的所需内容数据与数据库在目标网站进行改版前所抓取存入的数据进行对比,判断获得的所需内容数据中的每个数据是否是正确的数据类型;
若获得的所需内容数据中的某一数据不是正确的数据类型,则进行报错。
可选地,所述根据当前所述目标网页的统一资源定位符URL链接,抓取所述目标网页预设深度的所有页面,形成第二数据集合,包括:
根据当前所述目标网页的统一资源定位符URL链接,在当前目标网页预设深度的所有页面中,查找与所述关键标签格式相同或者相似的标签格式;
提取出所查找到的标签格式中所有标签中的文字内容,形成第二数据集合。
可选地,所述判断所述第一数据集合与所述第二数据集合的信息是否相似,包括:
根据预先建立的目标特定领域的近义词对库,将所述第一数据集合中的每一元素与所述第二数据集合中的每一元素分别进行比对;
若所述第一数据集合与所述第二数据集合中相同或相似的元素个数大于预设阈值,则确定所述第一数据集合与所述第二数据集合的信息相似。
可选地,所述预设阈值为所述第一数据集合中元素个数的一半或2/3。
可选地,所述关键标签格式为:在<tr>和</tr>之间包含<td和</td>或者<th和</th>,并且在<td和</td>之间或者<th和</th>之间包含与关键词相关的文字内容。
第二方面,本发明实施例还提出一种自适应网络爬虫系统,包括:
提取模块,用于在目标网站进行改版前,提取所述目标网站中的目标网页信息部分的关键词以及关键词周围的关键标签格式,并基于所提取的关键词,形成第一数据集合;
抓取模块,用于在无法对所述目标网页进行数据提取时,确定所述目标网站已进行改版,基于所述关键标签格式,根据当前目标网页的统一资源定位符URL链接,抓取当前目标网页预设深度的所有页面,形成第二数据集合;
判断模块,用于判断所述第一数据集合与所述第二数据集合的信息是否相似;
搜索模块,用于若判断获知所述第一数据集合与所述第二数据集合的信息相似,则在当前目标网页中搜索目标关键词下的内容标签区域,以获得所需内容数据,其中,所述目标关键词为所述第二数据集合中与所述第一数据集合中的关键词相同或相似的元素。
可选地,所述系统还包括:
第二判断模块,用于将获得的所需内容数据与数据库在目标网站进行改版前所抓取存入的数据进行对比,判断获得的所需内容数据中的每个数据是否是正确的数据类型;
报错模块,用于若获得的所需内容数据中的某一数据不是正确的数据类型,则进行报错。
第三方面,本发明实施例还提出一种电子设备,包括:处理器、存储器、总线及存储在存储器上并可在处理器上运行的计算机程序;
其中,所述处理器,存储器通过所述总线完成相互间的通信;
所述处理器执行所述计算机程序时实现上述方法。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述方法。
由上述技术方案可知,本发明实施例通过在目标网站进行改版前提取目标网站中目标网页信息部分的关键词及关键词周围的关键标签格式并基于该关键词形成第一数据集合;在无法对所述目标网页进行数据提取时,确定目标网站已进行改版,并基于所述关键标签格式,根据当前目标网页URL链接,抓取当前目标网页预设深度的所有页面,形成第二数据集合;判断第一数据集合与第二数据集合的信息是否相似;若是则在当前目标网页中搜索目标关键词下的内容标签区域,获得所需内容数据,该目标关键词为第二数据集合中与第一数据集合中关键词相同或相似的元素,由此,在网站改版后,能够自动适应改版后的网站的DOM结构,获取改版后的网站中目标网页内的数据,不必针对改版后的网站重新撰写新的网络爬虫系统代码,节约了开发的时间和成本,省时省力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些图获得其他的附图。
图1为本发明一实施例提供的一种自适应网络爬虫系统的数据获取方法的流程示意图;
图2为本发明一实施例提供的一种自适应网络爬虫系统的结构示意图;
图3为本发明一实施例提供的电子设备的逻辑框图。
具体实施方式
下面结合附图,对本发明的具体实施方式作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
图1示出了本发明一实施例提供的一种自适应网络爬虫系统的数据获取方法的流程示意图,如图1所示,本实施例的自适应网络爬虫系统的数据获取方法,包括:
S101、在目标网站进行改版前,提取所述目标网站中的目标网页信息部分的关键词以及关键词周围的关键标签格式,并基于所提取的关键词,形成第一数据集合。
具体地,可以将所提取的关键词封装成一个数据集合,得到第一数据集合。以获取开庭公告的网页数据为例,本步骤所提取的关键词可以如“原告、被告、案号、案由、开庭日期”等。
举例来说,本步骤对所述目标网页信息部分所提取的关键词周围的关键标签格式可以为:在<tr>和</tr>之间包含<td和</td>或者<th和</th>,并且在<td和</td>之间或者<th和</th>之间包含与关键词相关的文字内容,即<tr><td……</td></tr>或者<tr><th……</th></tr>。
可以理解的是,本实施例所述方法的执行主体为自适应网络爬虫系统,可以利用处理器来实现。
S102、在无法对所述目标网页进行数据提取时,确定所述目标网站已进行改版,并基于所述关键标签格式,根据当前目标网页的统一资源定位符URL链接,抓取当前目标网页预设深度的所有页面,形成第二数据集合。
其中,所述预设深度可以优选为3,本实施例并不对其进行限制,也可以根据实际情况对所述预设深度进行具体设置,例如也可以是2、4或5等。
可以理解的是,本实施例实时对本自适应网络爬虫系统提取所述目标网页的数据的行为进行监控,若能够正常对所述目标网页进行数据提取,则不做处理继续进行监控。
具体地,本步骤可以根据当前所述目标网页的统一资源定位符URL链接,在当前目标网页预设深度的所有页面中,查找与所述关键标签格式相同或者相似的标签格式;提取出所查找到的标签格式中所有标签中的文字内容,形成第二数据集合。
以获取开庭公告的网页数据为例,所述步骤S101对所述目标网页信息部分所提取的关键词周围的关键标签格式可以为<tr><td……</td></tr>,本步骤在当前目标网页预设深度的所有页面中,所查找到的与所述关键标签格式相似的标签格式可以为<tr><th……</th></tr>,具体可以如下所示:
提取出所查找到的标签格式中所有标签中的文字内容后形成的第二数据集合可以为{“开庭日期”,“审判庭”,“案号”,“案由”,“主审法官”,“当事人”}。
S103、判断所述第一数据集合与所述第二数据集合的信息是否相似。
具体地,本步骤可以根据预先建立的目标特定领域的近义词对库,将所述第一数据集合中的每一元素与所述第二数据集合中的每一元素分别进行比对;若所述第一数据集合与所述第二数据集合中相同或相似的元素个数大于预设阈值,则确定所述第一数据集合与所述第二数据集合的信息相似。
其中,所述预设阈值可以为所述第一数据集合中元素个数的一半,也可以为2/3等,本实施例并不对其进行限制,也可以根据实际情况对所述预设阈值进行具体设置。
以获取开庭公告的网页数据为例,假设预先建立的目标特定领域的近义词对库中的近义词对包括:“被告—被告人、被上诉人”,“审判长—法官、主审人、主审法官”,“法庭—审判庭”,“开庭日期—开庭时间”;
所述第一数据集合为:{“法庭”,“案号”,“主审人”,“原告”,“被告”,“开庭日期”};
所述第二数据集合为:{“审判庭”、“案号”、“案由”、“主审法官”,“当事人”,“开庭时间”};
根据目标特定领域的近义词对库中所包含的近义词对,将所述第一数据集合中的每一元素与所述第二数据集合中的每一元素分别进行比对,可以得到所述第一数据集合与所述第二数据集合中相同或相似的元素个数;若所述第一数据集合与所述第二数据集合中相同或相似的元素个数大于预设阈值,则可以确定所述第一数据集合与所述第二数据集合的信息相似。
可以理解的是,专业的网络爬虫系统只处理结构化数据,网站进行改版后,该网站基本的结构化数据(如表格等)内容并不会有很大变更,所以,本实施例所述方法利用预先建立的目标特定领域的近义词对库和预设阈值,可以准确地判断所述第一数据集合与所述第二数据集合的信息是否相似。
S104、若判断获知所述第一数据集合与所述第二数据集合的信息相似,则在当前目标网页中搜索目标关键词下的内容标签区域,以获得所需内容数据,其中,所述目标关键词为所述第二数据集合中与所述第一数据集合中的关键词相同或相似的元素。
以上述获取开庭公告的网页数据为例,所述第一数据集合中的“法庭”与所述第二数据集合中的“审判庭”为一组近义词对,则本步骤可以将“审判庭”作为一个目标关键词,在当前目标网页中搜索目标关键词“审判庭”下的内容标签区域,以获得所需内容数据。
可以理解的是,所述步骤S104还可以包括:
若判断获知所述第一数据集合与所述第二数据集合的信息不相似,则发出警报,以提醒用户对当前目标网页进行人工解析处理。
本实施例的自适应网络爬虫系统的数据获取方法,通过在目标网站进行改版前,提取所述目标网站中的目标网页信息部分的关键词以及关键词周围的关键标签格式,并基于所提取的关键词,形成第一数据集合;在无法对所述目标网页进行数据提取时,确定所述目标网站已进行改版,并基于所述关键标签格式,根据当前目标网页的统一资源定位符URL链接,抓取当前目标网页预设深度的所有页面,形成第二数据集合;判断所述第一数据集合与所述第二数据集合的信息是否相似;若判断获知所述第一数据集合与所述第二数据集合的信息相似,则在当前目标网页中搜索目标关键词下的内容标签区域,以获得所需内容数据,其中,所述目标关键词为所述第二数据集合中与所述第一数据集合中的关键词相同或相似的元素,由此,在网站改版后,能够自动适应改版后的网站的DOM结构,获取改版后的网站中目标网页内的数据,不必针对改版后的网站重新撰写新的网络爬虫系统代码,节约了开发的时间和成本,省时省力。
进一步地,在上述方法实施例的基础上,在上述步骤S104之后,本实施例所述方法还可以包括图中未示出的步骤S105-S106:
S105、将获得的所需内容数据与数据库在目标网站进行改版前所抓取存入的数据进行对比,判断获得的所需内容数据中的每个数据是否是正确的数据类型。
以上述获取开庭公告的网页数据为例,本步骤在判断的过程中:
如果获得的所需内容数据中包含“人民法院”这四个字,则可认为是开庭所在的法院;
可以根据获得的所需内容数据中各元素的长度和各元素的第一个汉字是否包含在姓氏表中,来判断是否是人名,如正常的中文名为2~3位,如果存入的数据都为2或者3位长度,并且第一个汉字包含在姓氏表中,则可认为是人名;
可以根据获得的所需内容数据中各元素的格式可以区分出是否是日期,如果是日期类型,并且与之对应的页面位置包含文本“开庭日期”,则可认为存入数据库的日期便是开庭日期;
可以根据案号的组成规则:(年份)+地区+数字+案件类型+案件编号(数字),来判断获得的所需内容数据中各元素是否是案号。
S106、若获得的所需内容数据中的某一数据不是正确的数据类型,则进行报错。
可以理解的是,若获得的所需内容数据中的某一数据不是正确的数据类型,则可确定获得的所需内容数据中出现了错误,并进行报错处理。
本实施例的自适应网络爬虫系统的数据获取方法,在网站改版后能够自动适应改版后的网站的DOM结构,获取改版后的网站中目标网页内的数据,不必针对改版后的网站重新撰写新的网络爬虫系统代码,节约了开发的时间和成本,省时省力。
图2示出了本发明一实施例提供的一种自适应网络爬虫系统的结构示意图,如图2所示,本实施例的自适应网络爬虫系统,包括:提取模块21、抓取模块22、第一判断模块23和搜索模块24;其中:
所述提取模块21,用于在目标网站进行改版前,提取所述目标网站中的目标网页信息部分的关键词以及关键词周围的关键标签格式,并基于所提取的关键词,形成第一数据集合;
所述抓取模块22,用于在无法对所述目标网页进行数据提取时,确定所述目标网站已进行改版,基于所述关键标签格式,根据当前目标网页的统一资源定位符URL链接,抓取当前目标网页预设深度的所有页面,形成第二数据集合;
所述第一判断模块23,用于判断所述第一数据集合与所述第二数据集合的信息是否相似;
所述搜索模块24,用于若判断获知所述第一数据集合与所述第二数据集合的信息相似,则在当前目标网页中搜索目标关键词下的内容标签区域,以获得所需内容数据,其中,所述目标关键词为所述第二数据集合中与所述第一数据集合中的关键词相同或相似的元素。
具体地,所述提取模块21在目标网站进行改版前,提取所述目标网站中的目标网页信息部分的关键词以及关键词周围的关键标签格式,并基于所提取的关键词,形成第一数据集合;所述抓取模块22在无法对所述目标网页进行数据提取时,确定所述目标网站已进行改版,基于所述关键标签格式,根据当前目标网页的统一资源定位符URL链接,抓取当前目标网页预设深度的所有页面,形成第二数据集合;所述第一判断模块23判断所述第一数据集合与所述第二数据集合的信息是否相似;所述搜索模块24若判断获知所述第一数据集合与所述第二数据集合的信息相似,则在当前目标网页中搜索目标关键词下的内容标签区域,以获得所需内容数据,其中,所述目标关键词为所述第二数据集合中与所述第一数据集合中的关键词相同或相似的元素。
在具体应用中,所述提取模块21可以将所提取的关键词封装成一个数据集合,得到第一数据集合。
在具体应用中,所述预设深度可以优选为3,本实施例并不对其进行限制,也可以根据实际情况对所述预设深度进行具体设置,例如也可以是2、4或5等。
可以理解的是,本实施例所述自适应网络爬虫系统可实时对本系统提取所述目标网页的数据的行为进行监控,若能够正常对所述目标网页进行数据提取,则不做处理继续进行监控。
在具体应用中,所述抓取模块22可以具体用于
在无法对所述目标网页进行数据提取时,确定所述目标网站已进行改版,根据当前所述目标网页的URL链接,在当前目标网页预设深度的所有页面中,查找与所述关键标签格式相同或者相似的标签格式;提取出所查找到的标签格式中所有标签中的文字内容,形成第二数据集合。
在具体应用中,所述第一判断模块23可以具体用于
根据预先建立的目标特定领域的近义词对库,将所述第一数据集合中的每一元素与所述第二数据集合中的每一元素分别进行比对;若所述第一数据集合与所述第二数据集合中相同或相似的元素个数大于预设阈值,则确定所述第一数据集合与所述第二数据集合的信息相似。
其中,所述预设阈值可以为所述第一数据集合中元素个数的一半,也可以为2/3等,本实施例并不对其进行限制,也可以根据实际情况对所述预设阈值进行具体设置。
可以理解的是,专业的网络爬虫系统只处理结构化数据,网站进行改版后,该网站基本的结构化数据(如表格等)内容并不会有很大变更,所以,本实施例所述系统利用预先建立的目标特定领域的近义词对库和预设阈值,可以准确地判断所述第一数据集合与所述第二数据集合的信息是否相似。
可以理解的是,本实施例所述系统还可以包括图中未示出的:
报警模块,用于若判断获知所述第一数据集合与所述第二数据集合的信息不相似,则发出警报,以提醒用户对当前目标网页进行人工解析处理。
本实施例的自适应网络爬虫系统,在网站改版后,能够自动适应改版后的网站的DOM结构,获取改版后的网站中目标网页内的数据,不必针对改版后的网站重新撰写新的网络爬虫系统代码,节约了开发的时间和成本,省时省力。
进一步地,在上述方法实施例的基础上,本实施例所述系统还可以包括图中未示出的:
第二判断模块,用于将获得的所需内容数据与数据库在目标网站进行改版前所抓取存入的数据进行对比,判断获得的所需内容数据中的每个数据是否是正确的数据类型;
报错模块,用于若获得的所需内容数据中的某一数据不是正确的数据类型,则进行报错。
可以理解的是,若获得的所需内容数据中的某一数据不是正确的数据类型,则可确定获得的所需内容数据中出现了错误,并进行报错处理。
本实施例的自适应网络爬虫系统,可以用于执行前述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
本实施例的自适应网络爬虫系统,在网站改版后能够自动适应改版后的网站的DOM结构,获取改版后的网站中目标网页内的数据,不必针对改版后的网站重新撰写新的网络爬虫系统代码,节约了开发的时间和成本,省时省力。
图3示出了本发明实施例提供的一种电子设备的实体结构示意图,如图3所示,该电子设备可以包括:处理器11、存储器12、总线13及存储在存储器12上并可在处理器11上运行的计算机程序;
其中,所述处理器11,存储器12通过所述总线13完成相互间的通信;
所述处理器11执行所述计算机程序时实现上述各方法实施例所提供的方法,例如包括:在目标网站进行改版前,提取所述目标网站中的目标网页信息部分的关键词以及关键词周围的关键标签格式,并基于所提取的关键词,形成第一数据集合;在无法对所述目标网页进行数据提取时,确定所述目标网站已进行改版,并基于所述关键标签格式,根据当前目标网页的统一资源定位符URL链接,抓取当前目标网页预设深度的所有页面,形成第二数据集合;判断所述第一数据集合与所述第二数据集合的信息是否相似;若判断获知所述第一数据集合与所述第二数据集合的信息相似,则在当前目标网页中搜索目标关键词下的内容标签区域,以获得所需内容数据,其中,所述目标关键词为所述第二数据集合中与所述第一数据集合中的关键词相同或相似的元素。
本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例所提供的方法,例如包括:在目标网站进行改版前,提取所述目标网站中的目标网页信息部分的关键词以及关键词周围的关键标签格式,并基于所提取的关键词,形成第一数据集合;在无法对所述目标网页进行数据提取时,确定所述目标网站已进行改版,并基于所述关键标签格式,根据当前目标网页的统一资源定位符URL链接,抓取当前目标网页预设深度的所有页面,形成第二数据集合;判断所述第一数据集合与所述第二数据集合的信息是否相似;若判断获知所述第一数据集合与所述第二数据集合的信息相似,则在当前目标网页中搜索目标关键词下的内容标签区域,以获得所需内容数据,其中,所述目标关键词为所述第二数据集合中与所述第一数据集合中的关键词相同或相似的元素。
本领域内的技术人员应明白,本申请的实施例可提供为方法、装置、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、装置、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置/系统。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
本发明的说明书中,说明了大量具体细节。然而能够理解的是,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。类似地,应当理解,为了精简本发明公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释呈反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。本发明并不局限于任何单一的方面,也不局限于任何单一的实施例,也不局限于这些方面和/或实施例的任意组合和/或置换。而且,可以单独使用本发明的每个方面和/或实施例或者与一个或更多其他方面和/或其实施例结合使用。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。
Claims (10)
1.一种自适应网络爬虫系统的数据获取方法,其特征在于,包括:
在目标网站进行改版前,提取所述目标网站中的目标网页信息部分的关键词以及关键词周围的关键标签格式,并基于所提取的关键词,形成第一数据集合;
在无法对所述目标网页进行数据提取时,确定所述目标网站已进行改版,并基于所述关键标签格式,根据当前目标网页的统一资源定位符URL链接,抓取当前目标网页预设深度的所有页面,形成第二数据集合;
判断所述第一数据集合与所述第二数据集合的信息是否相似;
若判断获知所述第一数据集合与所述第二数据集合的信息相似,则在当前目标网页中搜索目标关键词下的内容标签区域,以获得所需内容数据,其中,所述目标关键词为所述第二数据集合中与所述第一数据集合中的关键词相同或相似的元素。
2.根据权利要求1所述的方法,其特征在于,在当前目标网页中所述目标关键词下的内容标签区域,以获得所需内容数据之后,所述方法还包括:
将获得的所需内容数据与数据库在目标网站进行改版前所抓取存入的数据进行对比,判断获得的所需内容数据中的每个数据是否是正确的数据类型;
若获得的所需内容数据中的某一数据不是正确的数据类型,则进行报错。
3.根据权利要求1所述的方法,其特征在于,所述基于所述关键标签格式,根据当前所述目标网页的统一资源定位符URL链接,抓取所述目标网页预设深度的所有页面,形成第二数据集合,包括:
根据当前所述目标网页的统一资源定位符URL链接,在当前目标网页预设深度的所有页面中,查找与所述关键标签格式相同或者相似的标签格式;
提取出所查找到的标签格式中所有标签中的文字内容,形成第二数据集合。
4.根据权利要求3所述的方法,其特征在于,所述判断所述第一数据集合与所述第二数据集合的信息是否相似,包括:
根据预先建立的目标特定领域的近义词对库,将所述第一数据集合中的每一元素与所述第二数据集合中的每一元素分别进行比对;
若所述第一数据集合与所述第二数据集合中相同或相似的元素个数大于预设阈值,则确定所述第一数据集合与所述第二数据集合的信息相似。
5.根据权利要求4所述的方法,其特征在于,所述预设阈值为所述第一数据集合中元素个数的一半或2/3。
6.根据权利要求1所述的方法,其特征在于,所述关键标签格式为:在<tr>和</tr>之间包含<td和</td>或者<th和</th>,并且在<td和</td>之间或者<th和</th>之间包含与关键词相关的文字内容。
7.一种自适应网络爬虫系统,其特征在于,包括:
提取模块,用于在目标网站进行改版前,提取所述目标网站中的目标网页信息部分的关键词以及关键词周围的关键标签格式,并基于所提取的关键词,形成第一数据集合;
抓取模块,用于在无法对所述目标网页进行数据提取时,确定所述目标网站已进行改版,基于所述关键标签格式,根据当前目标网页的统一资源定位符URL链接,抓取当前目标网页预设深度的所有页面,形成第二数据集合;
第一判断模块,用于判断所述第一数据集合与所述第二数据集合的信息是否相似;
搜索模块,用于若判断获知所述第一数据集合与所述第二数据集合的信息相似,则在当前目标网页中搜索目标关键词下的内容标签区域,以获得所需内容数据,其中,所述目标关键词为所述第二数据集合中与所述第一数据集合中的关键词相同或相似的元素。
8.根据权利要求7所述的系统,其特征在于,所述系统还包括:
第二判断模块,用于将获得的所需内容数据与数据库在目标网站进行改版前所抓取存入的数据进行对比,判断获得的所需内容数据中的每个数据是否是正确的数据类型;
报错模块,用于若获得的所需内容数据中的某一数据不是正确的数据类型,则进行报错。
9.一种电子设备,其特征在于,包括:处理器、存储器、总线及存储在存储器上并可在处理器上运行的计算机程序;
其中,所述处理器,存储器通过所述总线完成相互间的通信;
所述处理器执行所述计算机程序时实现如权利要求1-6中任一项所述的方法。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现如权利要求1-6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710846722.2A CN107861974B (zh) | 2017-09-19 | 2017-09-19 | 一种自适应网络爬虫系统及其数据获取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710846722.2A CN107861974B (zh) | 2017-09-19 | 2017-09-19 | 一种自适应网络爬虫系统及其数据获取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107861974A true CN107861974A (zh) | 2018-03-30 |
CN107861974B CN107861974B (zh) | 2018-12-25 |
Family
ID=61699327
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710846722.2A Active CN107861974B (zh) | 2017-09-19 | 2017-09-19 | 一种自适应网络爬虫系统及其数据获取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107861974B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110968758A (zh) * | 2018-09-30 | 2020-04-07 | 北京国双科技有限公司 | 网页数据的爬取方法及装置 |
CN111078905A (zh) * | 2018-10-22 | 2020-04-28 | 北京国双科技有限公司 | 一种数据处理方法、装置、介质以及设备 |
CN112925968A (zh) * | 2021-02-25 | 2021-06-08 | 深圳壹账通智能科技有限公司 | 基于爬虫的数据抓取方法、装置、计算机设备及存储介质 |
CN112930547A (zh) * | 2018-10-25 | 2021-06-08 | 伯克希尔格雷股份有限公司 | 用于学习外推最佳物体运送和搬运参数的系统和方法 |
CN115297042A (zh) * | 2022-08-01 | 2022-11-04 | 明阳产业技术研究院(沈阳)有限公司 | 检测不同网络下网页一致性的方法及相关设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060041597A1 (en) * | 2004-08-23 | 2006-02-23 | West Services, Inc. | Information retrieval systems with duplicate document detection and presentation functions |
CN105677862A (zh) * | 2016-01-08 | 2016-06-15 | 上海数道信息科技有限公司 | 一种抓取网页内容的方法及装置 |
CN106033468A (zh) * | 2015-03-20 | 2016-10-19 | 腾讯科技(深圳)有限公司 | 网页内容抽取方法、装置及系统 |
CN106339378A (zh) * | 2015-07-07 | 2017-01-18 | 中国科学院信息工程研究所 | 基于关键词导向的主题网络爬虫的数据搜集方法 |
CN106874495A (zh) * | 2017-02-23 | 2017-06-20 | 山东浪潮云服务信息科技有限公司 | 基于机器学习建模抽取网页结构的方法 |
CN107066576A (zh) * | 2017-04-12 | 2017-08-18 | 成都四方伟业软件股份有限公司 | 一种大数据网络爬虫分页选择方法和系统 |
-
2017
- 2017-09-19 CN CN201710846722.2A patent/CN107861974B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060041597A1 (en) * | 2004-08-23 | 2006-02-23 | West Services, Inc. | Information retrieval systems with duplicate document detection and presentation functions |
CN106033468A (zh) * | 2015-03-20 | 2016-10-19 | 腾讯科技(深圳)有限公司 | 网页内容抽取方法、装置及系统 |
CN106339378A (zh) * | 2015-07-07 | 2017-01-18 | 中国科学院信息工程研究所 | 基于关键词导向的主题网络爬虫的数据搜集方法 |
CN105677862A (zh) * | 2016-01-08 | 2016-06-15 | 上海数道信息科技有限公司 | 一种抓取网页内容的方法及装置 |
CN106874495A (zh) * | 2017-02-23 | 2017-06-20 | 山东浪潮云服务信息科技有限公司 | 基于机器学习建模抽取网页结构的方法 |
CN107066576A (zh) * | 2017-04-12 | 2017-08-18 | 成都四方伟业软件股份有限公司 | 一种大数据网络爬虫分页选择方法和系统 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110968758A (zh) * | 2018-09-30 | 2020-04-07 | 北京国双科技有限公司 | 网页数据的爬取方法及装置 |
CN110968758B (zh) * | 2018-09-30 | 2023-05-12 | 北京国双科技有限公司 | 网页数据的爬取方法及装置 |
CN111078905A (zh) * | 2018-10-22 | 2020-04-28 | 北京国双科技有限公司 | 一种数据处理方法、装置、介质以及设备 |
CN112930547A (zh) * | 2018-10-25 | 2021-06-08 | 伯克希尔格雷股份有限公司 | 用于学习外推最佳物体运送和搬运参数的系统和方法 |
CN112925968A (zh) * | 2021-02-25 | 2021-06-08 | 深圳壹账通智能科技有限公司 | 基于爬虫的数据抓取方法、装置、计算机设备及存储介质 |
CN115297042A (zh) * | 2022-08-01 | 2022-11-04 | 明阳产业技术研究院(沈阳)有限公司 | 检测不同网络下网页一致性的方法及相关设备 |
Also Published As
Publication number | Publication date |
---|---|
CN107861974B (zh) | 2018-12-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107861974B (zh) | 一种自适应网络爬虫系统及其数据获取方法 | |
Endarnoto et al. | Traffic condition information extraction & visualization from social media twitter for android mobile application | |
CN108959383A (zh) | 网络舆情的分析方法、装置及计算机可读存储介质 | |
CN109145216A (zh) | 网络舆情监控方法、装置及存储介质 | |
CN103246644B (zh) | 一种网络舆情信息处理方法和装置 | |
CN101661513A (zh) | 网络热点和舆情的检测方法 | |
CN107391675A (zh) | 用于生成结构化信息的方法和装置 | |
CN104750754A (zh) | 网站所属行业的分类方法和服务器 | |
CN104021185B (zh) | 对网页中数据的信息属性进行识别的方法和装置 | |
CN102609427A (zh) | 舆情垂直搜索分析系统及方法 | |
CN105022803A (zh) | 一种提取网页正文内容的方法及系统 | |
CN105843796A (zh) | 一种微博情感倾向分析方法及装置 | |
CN102306177B (zh) | 一种多策略组合的本体或实例匹配方法 | |
Rendl et al. | Constraint models for the container pre-marshaling problem | |
CN103020295A (zh) | 一种问题标签标注方法及装置 | |
CN104462540A (zh) | 网页信息抽取方法 | |
CA2912460A1 (en) | Method and system of intelligent generation of structured data and object discovery from the web using text, images, video and other data | |
CN105630813A (zh) | 基于用户自定义模板的关键词推荐方法和系统 | |
CN103491116A (zh) | 正文相关的结构化数据的处理方法及装置 | |
WO2014194808A1 (zh) | Pcb工程问题对比分析及其结果发送的方法和装置 | |
CN111625748A (zh) | 网站的导航栏信息提取方法、装置、电子设备及存储介质 | |
CN105550253A (zh) | 一种类型关系的获取方法及装置 | |
US20150205769A1 (en) | System and method for recognizing non-body text in webpage | |
CN104199893A (zh) | 一种快速将全媒体内容发布的系统和方法 | |
CN103377225A (zh) | 知识库系统的构建方法和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |