CN111723265A

CN111723265A - 一种可扩展的新闻网站通用爬虫方法及系统

Info

Publication number: CN111723265A
Application number: CN202010617010.5A
Authority: CN
Inventors: 赵粉玉; 邱彦林; 陈尚武
Original assignee: Hangzhou Xujian Science And Technology Co ltd
Current assignee: Hangzhou Xujian Science And Technology Co ltd
Priority date: 2020-07-01
Filing date: 2020-07-01
Publication date: 2020-09-29

Abstract

本发明涉及及计算机领域，尤其涉及一种可扩展的新闻网站通用爬虫方法及系统，方法包括：添加需要爬取的网站url以及相关配置；获取需要爬取的网站以及相关配置；对网址使用通用解析规则解析并返回解析效果，如果解析错误，则加入网站相应的xpath解析规则；对加入xpath解析规则的网站使用配置解析，其它网站使用默认解析规则；对解析结果进行存储。本发明对网址使用通用解析规则解析并返回解析效果，如果解析错误，则加入网站相应的xpath解析规则；对加入xpath解析规则的网站使用配置解析，其它网站使用默认解析规则，以实现对所有网站的爬取新闻解析都具有很高的正确率。

Description

一种可扩展的新闻网站通用爬虫方法及系统

技术领域

本发明涉及及计算机领域，尤其涉及一种可扩展的新闻网站通用爬虫方法及系统。

背景技术

新闻网站爬虫系统是一种从网络中自动抓取新闻并解析新闻详情的系统，抓取的内容可供下游任务使用。

随着大数据时代的到来，已经有一些通用新闻网站的爬虫方法，但是这些新闻解析方式只针对部分网站效果很好，难以做到所有网站获取的新闻解析正确率达到百分之百，而且增大爬取新闻网站数量，正确率会随之下降。

发明内容

为解决上述问题，本发明提出一种可扩展的新闻网站通用爬虫方法及系统，以提高爬取新闻解析的正确率。

一方面，本发明提出一种可扩展的新闻网站通用爬虫方法，包括：

添加需要爬取的网站url以及相关配置；

获取需要爬取的网站以及相关配置；

对网址使用通用解析规则解析并返回解析效果，如果解析错误，则加入网站相应的xpath解析规则；

对加入xpath解析规则的网站使用配置解析，其它网站使用默认解析规则；

对解析结果进行存储。

优选的，在所述添加需要爬取的网站url以及相关配置之前包括：

判断各网站url是否在指纹文件，若无则添加指纹文件。

优选的，所述对网址使用通用解析规则解析包括：

使用scrapy框架下载网页源码；

去除网站中的脚本以及样式；

构建dom树，计算每个节点要求的变量；

根据c计算每个节点的分数，找出分数最大的节点，提取网页正文，并格式化输出。

优选的，所述构建dom树，计算每个节点要求的变量包括：

计算该节点的文本密度；

计算符号密度为文字数量与符号数量的比值；

计算Dom树标签分数score，score越大，则该结点属于正文内容的可能性较大。

优选的，所述计算该节点的文本密度包括：

设定i 为 Dom 树的一个结点，则该节点的文本密度 TDi 为：

，

其中，T_i表示结点 i的字符串字数；LT_i表示结点 i的带链接的字符串字数；TG_i表示结点 i的标签数；LTG_i表示结点 i带链接的标签数。

优选的，所述计算符号密度为文字数量与符号数量的比值的计算公式为：

，

其中，Ti 表示结点 i的字符串字数； LTi 表示结点 i的带链接的字符串字数；Sbi 表示符号数量。

优选的，所述计算Dom树标签分数score包括：

建立模型为：

score = log(SD)*ND_i* log10(PNum_i + 2)* log(SbDi)，

其中，SD表示节点文本密度的标准差； NDi表示节点i的文本密度； PNumi 表示节点 i的 p标签数。

优选的，所述默认解析规则包括：

使用scrapy框架获取网站某模块源码；

移除网页中的无用的部分；

提取剩余内容中所有a标签下href链接和标签文字；

过滤标签文字字数小于某一阈值的href链接；

去除长度不一致的链接。

优选的，所述使用scrapy框架获取网站某模块源码包括：

使用Scrapy框架中提供的url指纹对爬取的网站url进行过滤，每次爬取前将该网站url转换为url指纹，在指纹文件中比对，若出现重复指纹，则跳过该页面。

另一方面，本发明还提出一种可扩展的新闻网站爬虫系统，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行所述一种可扩展的新闻网站通用爬虫方法的步骤。

本发明具备以下有益效果：

对网址使用通用解析规则解析并返回解析效果，如果解析错误，则加入网站相应的xpath解析规则；对加入xpath解析规则的网站使用配置解析，其它网站使用默认解析规则，以实现对所有网站的爬取新闻解析都具有很高的正确率。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1是本发明一实施例一种可扩展的新闻网站通用爬虫方法的流程示意图；

图2是本发明一实施例一种可扩展的新闻网站通用爬虫方法中步骤S3的流程示意图；

图3是本发明一实施例一种可扩展的新闻网站通用爬虫方法中步骤S4的流程示意图；

图4是本发明一实施例一种可扩展的新闻网站通用爬虫系统的硬件示意图。

具体实施方式

以下结合附图，对本发明的技术方案作进一步的描述，但本发明并不限于这些实施例。

本发明的基本思想是对网址使用通用解析规则解析并返回解析效果，如果解析错误，则加入网站相应的xpath解析规则；对加入xpath解析规则的网站使用配置解析，其它网站使用默认解析规则，以实现对所有网站的爬取新闻解析都具有很高的正确率。

基于以上基本思想，本发明实施例提出一种可扩展的新闻网站通用爬虫方法，能够有效准确地将各网站新闻信息收集起来，以便后续进行下游任务，如数据分析，自然语言处理、以及舆情监测等，如图1所示，包括以下步骤：

S1：添加需要爬取的网站url以及相关配置。

本发明基于Scrapy爬虫框架，首先构建新闻网站需爬取的网站url集合：如只需要娱乐新闻，则添加一些新闻网站中的娱乐新闻模块即可，一般新闻网站各模块中新闻首页会显示最新的新闻，所以只需定期爬取网站相关模块首页新闻的新闻并且去重即可。为避免重复爬取，使用Scrapy框架中提供的url指纹对爬取的网站url进行过滤，每次爬取前将该网站url转换为url指纹，在指纹文件中比对，若出现重复指纹，则跳过该页面。

具体的，添加需要爬取新闻网站url，将网站url以及相关配置记录至数据库配置表中。配置包括但不限于新闻列表、内容、时间以及标题的xpath解析规则。

每次将网站url加入任务队列之前，需要判断url指纹是否在指纹文件，有则跳过，无则添加进指纹文件，这样可以防止爬虫在多次运行中，对已经爬取过的页面进行重复爬取。

S2：获取需要爬取的网站以及相关配置。

具体的，获取需要爬取新闻网站的url集合，爬取或预览网页需要从数据库中读取网页的相关配置项，其中预览结果不正确需要修改或添加网站url的相关配置。

S3：对网址使用通用解析规则解析并返回解析效果，如果解析错误，则加入网站相应的xpath解析规则。

对需要爬取的网站url使用通用解析规则解析，并返回解析效果，如果某项解析出的内容有误，则在网站url的配置中加入其相对应的xpath解析规则。例如某网页根据默认的解析规则返回的标题和时间正确，但是内容有偏差，则在网页的配置项中加入新闻内容的xpath解析规则即可。

新闻内容解析基于文本密度提取，即将网页解析为dom树，判断每个节点属于正文内容的可能性。在本实施例中，使用通用解析规则解析新闻的标题、内容以及发布时间，如图2所示，具体包括以下步骤：

S31：使用scrapy框架下载网页源码。

S32：去除网站中的脚本以及样式。即移除 JavaScript脚本，CSS样式，IFrame 等。

S33：构建dom树，计算每个节点要求的变量。每个网页都可以被解析成一颗Dom树，所有的标签都是节点，而文字和图片等都是叶子节点。

第一点，计算该节点的文本密度。TD_i是衡量一个网页的每个结点文本密度，如果一个结点的纯文本字数比带链接的文本字数明显多很多，则该结点属于正文内容的可能性较大。如果 i 为 Dom 树的一个结点，那么该节点的文本密度 TDi 为：

第二点，计算符号密度为文字数量与符号数量的比值。如果 i 为 Dom 树的一个结点，那么该节点的SbDi 为一段文字的符号密度：符号密度为文字数量与符号数量的比值，通常正文的 SbDi 会比非正文要大。非正文可能没有符号，而且由于非正文通常会比较少字，可能就是一些导航的信息之类的，所以，在相同字数下它的 SbDi 相对正文来说就会比较小。

第三点，计算Dom树标签分数score，score越大，该结点属于正文内容的可能性较大。

因为繁多的网页采用的布局各不相同，所以如果想要一个算法可以通用提取不同的网页，我们需要考虑的因素还有很多，于是我们建立了一个数学模型，该公式为：

score = log(SD)*ND_i* log10(PNum_i + 2)* log(SbDi)

第四点，根据c计算每个节点的分数，找出分数最大的节点，提取网页正文，并格式化输出。

S34：根据c计算每个节点的分数，找出分数最大的节点，提取网页正文，并格式化输出.

一些很规范的新闻网站，会把新闻的发布时间放在 META 中，因此可以优先检查 META数据，可以配置一些新闻网站标题的获取方式，从html中的meta数据中获取发布时间以及新闻标题。如果没有检测到标题，则根据一个网页中，正文标题通常会用<h*></h>（*:1-6）标签包含原则，提取此标签中标签文字即可。如果没有检测到时间，时间可以从正文中采用正则匹配的方式进行获取。

每个网站中的模块url先使用以上通用解析方法进行解析，如果返回结果与原网页新闻标题、时间等不一致，则添加网页的相关xpath解析规则，使用scrapy中的xpath方法加载相关解析规则进行解析即可。

规则如：列表xpath：//div[@class='xxx']，通过此xpath可以获取一定范围中的html内容，解析时直接获取此内容下所有a标签下的href链接即可。标题xpath://div[@class='xxx']/.../text()调用后可以直接获取到新闻标题。

S4：对加入xpath解析规则的网站使用配置解析，其它网站使用默认解析规则。

通用解析规则包括解析模块url中新闻列表和解析具体新闻网页中的新闻内容、新闻发布时间、新闻标题。如图3所示，其它网站使用默认解析规则的步骤如下：

S41：使用scrapy框架获取网站某模块源码。

S42：移除网页中的无用的部分。

一个网页中头部、页脚、导航等部分是非所需内容，所以需要移除网页中的一些无用的部分。例如去除标签<div>下class或id属性为footer的部分。

S43：提取剩余内容中所有a标签下href链接和标签文字。

提取剩余内容中所有a标签下href链接和标签文字。其中标签文字与herf链接一一对应。

S44：过滤标签文字字数小于某一阈值的href链接。

过滤标签文字字数小于某一阈值的href链接，阈值可以提取一些网站中所有的href链接和标签文字，对其是新闻链接的字数进行统计，再根据字数分布进行取值。如若标签文字是新闻的字数一般大于7，则阈值设置为7即可。

S45：去除长度不一致的链接。

有一部分网站的标签文字字数大于阈值，但不是指向具体的新闻但被误认为是新闻链接，此时去除长度不一致的链接即可，因为列表中的新闻链接一般是统一长度。

使用scrapy对已配置的网站进行爬取，解析步骤如图2新闻网站解析流程图，大规模爬取网站之前，先读取网站相关配置，如果有xpath相关解析配置，则使用scrapy中的xpath方法调用解析配置解析网页相关项，如无解析配置，则使用默认的解析规则。

S5：对解析结果进行存储.

在本实施例中，对解析出的新闻内容、来源、标题、时间等进行存储。

如需加入新的新闻网站，只需使用上述步骤预览新闻网站，即获取其具体新闻列表、列表中某个链接中新闻的标题、时间、内容。如某项返回有误则添加其xpath规则至数据库即可。爬虫框架检测到有新配置的网站，加载配置项重启爬虫即可。

基于一种可扩展的新闻网站通用爬虫方法，在硬件方面，本实施例还提出一种可扩展的新闻网站爬虫系统，如图4所示，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行上述一种可扩展的新闻网站通用爬虫方法的步骤。

需要说明的是，上述处理器及存储器的具体功能实现已在方法实施例中详细说明，本实施例中不再赘述。

本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种可扩展的新闻网站通用爬虫方法，其特征在于，包括：

添加需要爬取的网站url以及相关配置；

获取需要爬取的网站以及相关配置；

对解析结果进行存储。

2.根据权利要求1所述的一种可扩展的新闻网站通用爬虫方法，其特征在于，在所述添加需要爬取的网站url以及相关配置之前包括：

判断各网站url是否在指纹文件，若无则添加指纹文件。

3.根据权利要求1所述的一种可扩展的新闻网站通用爬虫方法，其特征在于，所述对网址使用通用解析规则解析包括：

使用scrapy框架下载网页源码；

去除网站中的脚本以及样式；

构建dom树，计算每个节点要求的变量；

4.根据权利要求3所述的一种可扩展的新闻网站通用爬虫方法，其特征在于，所述构建dom树，计算每个节点要求的变量包括：

计算该节点的文本密度；

计算符号密度为文字数量与符号数量的比值；

5.根据权利要求4所述的一种可扩展的新闻网站通用爬虫方法，其特征在于，所述计算该节点的文本密度包括：

设定i 为 Dom 树的一个结点，则该节点的文本密度 TDi 为：

，

其中，T_i 表示结点 i的字符串字数；LT_i 表示结点 i的带链接的字符串字数；TG_i 表示结点 i的标签数；LTG_i 表示结点 i带链接的标签数。

6.根据权利要求4所述的一种可扩展的新闻网站通用爬虫方法，其特征在于，所述计算符号密度为文字数量与符号数量的比值的计算公式为：

，

7.根据权利要求4所述的一种可扩展的新闻网站通用爬虫方法，其特征在于，所述计算Dom树标签分数score包括：

建立模型为：

score = log(SD)*ND_i* log10(PNum_i + 2)* log(SbDi)，

8.根据权利要求1所述的一种可扩展的新闻网站通用爬虫方法，其特征在于，所述默认解析规则包括：

使用scrapy框架获取网站某模块源码；

移除网页中的无用的部分；

提取剩余内容中所有a标签下href链接和标签文字；

过滤标签文字字数小于某一阈值的href链接；

去除长度不一致的链接。

9.根据权利要求8所述的一种可扩展的新闻网站通用爬虫方法，其特征在于，所述使用scrapy框架获取网站某模块源码包括：

10.一种可扩展的新闻网站爬虫系统，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至9任一项所述一种可扩展的新闻网站通用爬虫方法的步骤。