CN110673968A

CN110673968A - 一种基于令牌环的舆情监控目标保护方法

Info

Publication number: CN110673968A
Application number: CN201910917251.9A
Authority: CN
Inventors: 赵龙; 张子龙; 李森; 李飞
Original assignee: Section Big Country Wound Software Inc Co
Current assignee: Section Big Country Wound Software Inc Co
Priority date: 2019-09-26
Filing date: 2019-09-26
Publication date: 2020-01-10

Abstract

本发明公开了一种基于令牌环的舆情监控目标保护方法，涉及舆情数据采集技术领域。本发明包括如下步骤：步骤S01：第一层网络爬虫从门户网站的入口进行采集，并获取下一层的url；步骤S02：爬虫根据规则对url进行过滤，将符合条件的url进行hash处理，得到对应的整数值；步骤S03：根据计算结果，并与令牌环上格子的总量取余，得到存储位置的索引，并将结果存储到对应的格子中；步骤S04：网络爬虫获取下层数据进行处理。本发明通过hash算法和取余计算将待采集的url分散到不同的令牌环格子里，根据计算结果以令牌环上格子的总量取余后得到索引值，并将索引值存储在令牌环格子的任务队列中，缓解高并发下对链接的集中访问,提高了网站访问效率和安全等级。

Description

一种基于令牌环的舆情监控目标保护方法

技术领域

本发明属于舆情数据采集技术领域，特别是涉及一种基于令牌环的舆情监控目标保护方法。

背景技术

目前大多数大型舆情项目的采集都是多层架构，每层之间采用队列进行解耦。随着监控要求的提高，爬虫的规模越来越庞大，多达上万的线程进行采集。按照目前的队列解耦方式，很容易造成对单个网站的高并发访问。

当系统在进行数据采集时，可能会一次性产生大量待处理页面，这个时候，处理线程会将待处理页面一次性推入任务队列，队列就会出现如图一的任务分布情况。由于线程比较多，可能会在1-2秒时间内就取走所有待处理页面，并对系统进行并发访问。而对于很多网站来说，每一层的待处理链接的量是很庞大的，例如新浪网，从门户进到第二层，再从第二层到第三层可能有多达200多万的目标链接。所以在某些极端情况下，因为爬虫就可能会给新浪造成每秒上万次的并发请求。可能对于新浪而言还是可以接受的，但是对于一些小网站或者行政事业单位的网站来说，就会产生过大的压力，甚至导致宕机。

发明内容

本发明的目的在于提供一种基于令牌环的舆情监控目标保护方法，通过hash算法和取余计算将待采集的url分散到不同的令牌环格子里，根据计算结果以令牌环上格子的总量取余后得到索引值，并将索引值存储在令牌环格子的任务队列中，当一个线程完成后，从下一个线程第一格继续处理，解决了现有的网站访问压力大、安全不足的问题。

为解决上述技术问题，本发明是通过以下技术方案实现的：

本发明为一种基于令牌环的舆情监控目标保护方法，包括如下步骤：

步骤S01：第一层网络爬虫从门户网站的入口进行采集，并获取下一层的url；

步骤S02：爬虫根据规则对url进行过滤，将符合条件的url进行hash处理，得到对应的整数值；

步骤S03：根据计算结果，并与令牌环上格子的总量取余，得到存储位置的索引，并将结果存储到对应的格子中；

步骤S04：网络爬虫获取下层数据进行处理。

优选地，所述步骤S03中，将计算结果以令牌环上格子的总量取余后得到索引值，并将索引值存储在令牌环格子的任务队列rangeBuffer中，所述任务队列为hash环。

优选地，步骤S03中，将计算结果以令牌环上格子的总量取余后得到索引值，这个取余的过程可以采用更好的方式代替：当lenth＝2n时，X％length＝X&(length-1)，即如果格子的数量是2的n次方时，那么链接的URL通过hash得到的整数值与格子的数量可以按照与运算进行运算，与取余运算结果相同，但效率更高。

优选地，所述步骤S04中，对下层数据进行处理的实现方法如下：

步骤S41：所有线程从第一个格子开始取数据处理；

步骤S42：第一个格子处理完成，按顺序依次处理第二个格子；

步骤S43：每个处理线程处理完第一个任务后，按顺序处理从第一个格子领取任务；

步骤S44：当所有格子里的数据都处理完成后，爬虫线程将不再进行处理，采集结束。

本发明具有以下有益效果：

本发明通过hash算法和取余计算将待采集的url分散到不同的令牌环格子里，根据计算结果以令牌环上格子的总量取余后得到索引值，并将索引值存储在令牌环格子的任务队列中，当一个线程完成后，从下一个线程第一格继续处理，缓解高并发下对链接的集中访问,提高了网站访问效率和安全等级。

当然，实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的一种基于令牌环的舆情监控目标保护方法步骤图；

图2为本发明的方法处理新浪网后的数据分布图；

图3为本发明的接口交互能力的协议适配方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1、3所示，本发明为一种基于令牌环的舆情监控目标保护方法，包括如下步骤：

步骤S04：网络爬虫获取下层数据进行处理。

其中，步骤S03中，将计算结果以令牌环上格子的总量取余后得到索引值，并将索引值存储在令牌环格子的任务队列rangeBuffer中，这个任务队列可以是hash环；每个实施项目对于监控量的要求，以及监控周期的要求不同，格子总数也会适当的变化调整，本实施例采用的令牌环上格子总量为900个，并不是一定非要和900求余，只不过900是一个很小的监控周期；请参阅图2为按照此方法调整后，新浪网的数据分布，由于url不是规则字符串，hash后没有办法得到顺序的数值，所以求余后分布不是很均匀，但是也不会堆积在一个格子里。

由于现有技术是用采集程序集中对网站的链接进行访问采集，而采用这种方式带来的益处就是缓解高并发下对链接的集中访问，同时对目标网站形成保护，避免对目标造成高并发访问。

其中，步骤S03中，将计算结果以令牌环上格子的总量取余后得到索引值，这个取余的过程可以采用更好的方式代替：当lenth＝2n时，X％length＝X&(length-1)，即如果格子的数量是2的n次方时，那么链接的URL通过hash得到的整数值与格子的数量可以按照与运算进行运算，与取余运算结果相同，但效率更高。

其中，步骤S04中，对下层数据进行处理的实现方法如下：

步骤S41：所有线程从第一个格子开始取数据处理；

这么做的好处是因为现有技术中都是直接对待处理的url进行集中采集，对目标url造成了很大的压力，而通过这种格子打散的方式，每次访问url时，只访问一小部分，所以实现缓解对目标网站访问的压力。

值得注意的是，上述系统实施例中，所包括的各个单元只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

另外，本领域普通技术人员可以理解实现上述各实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，相应的程序可以存储于一计算机可读取存储介质中。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种基于令牌环的舆情监控目标保护方法，其特征在于，包括如下步骤：

步骤S04：网络爬虫获取下层数据进行处理。

2.根据权利要求1所述的一种基于令牌环的舆情监控目标保护方法，其特征在于，所述步骤S03中，将计算结果以令牌环上格子的总量取余后得到索引值，并将索引值存储在令牌环格子的任务队列rangeBuffer中，所述任务队列为hash环。

3.根据权利要求1所述的一种基于令牌环的舆情监控目标保护方法，其特征在于，所述步骤S03中，将计算结果以令牌环上格子的总量取余后得到索引值，这个取余的过程可以采用更好的方式代替：当lenth＝2n时，X％length＝X&(length-1)，即如果格子的数量是2的n次方时，那么链接的URL通过hash得到的整数值与格子的数量可以按照与运算进行运算，与取余运算结果相同。

4.根据权利要求1所述的一种基于令牌环的舆情监控目标保护方法，其特征在于，所述步骤S04中，对下层数据进行处理的实现方法如下：

步骤S41：所有线程从第一个格子开始取数据处理；