CN117725284A

CN117725284A - 一种基于爬虫的社交网络数据采集系统

Info

Publication number: CN117725284A
Application number: CN202311774815.0A
Authority: CN
Inventors: 黄春燕; 郑志亮; 彭高山
Original assignee: Wuhan Wickert Technology Co ltd
Current assignee: Wuhan Wickert Technology Co ltd
Priority date: 2023-12-22
Filing date: 2023-12-22
Publication date: 2024-03-19
Anticipated expiration: 2043-12-22
Also published as: CN117725284B

Abstract

本发明属于数据处理领域，公开了一种基于爬虫的社交网络数据采集系统，包括爬取间隔计算模块、爬取模块和存储模块；爬取间隔计算模块用于计算爬取间隔；爬取模块用于基于爬取间隔对目标用户发布信息的主页进行爬取，得到网页数据；存储模块用于对网页数据进行存储；爬取间隔计算模块包括参数更新单元、网页数据分析单元和计算单元；参数更新单元用于获取网络延迟；网页数据分析单元用于基于预设时间段内爬取所得到的网页数据获取用户发布信息的发布时间的集合和发布的信息所占用的空间的集合；计算单元用于计算爬取间隔。本发明能够在及时获取目标用户在社交网络中发布的信息的同时，避免过于密集地对目标用户发布信息的主页进行数据爬取。

Description

一种基于爬虫的社交网络数据采集系统

技术领域

本发明涉及数据处理领域，尤其涉及一种基于爬虫的社交网络数据采集系统。

背景技术

现有技术中，为了获取社交网络中的目标用户的所发布的信息，通常会采用爬虫技术对目标用户的主页进行数据爬取。但是由于过于密集的爬虫访问会增加社交网络的服务器的处理压力，导致正常用户的访问速度变慢，因此，服务器中通常会设置有反爬虫机制。为了应对反爬虫机制，常用的方法是采用较大的爬取间隔，避免出现短时间内爬取大量数据的情况。但是，由于相关的爬取间隔都是人为设定的，这就导致可能出现爬取间隔过大的情况，从而无法及时获取目标用户所发布的信息。

发明内容

本发明的目的在于公开一种基于爬虫的社交网络数据采集系统，解决如何确定合适的爬取间隔，在降低服务器的处理压力的同时，更加及时地获取目标用户在社交网络中发布的信息的问题。

为了达到上述目的，本发明提供如下技术方案：

本发明提供了一种基于爬虫的社交网络数据采集系统，包括爬取间隔计算模块、爬取模块和存储模块；

爬取间隔计算模块用于计算爬取间隔；

爬取模块用于基于爬取间隔对目标用户发布信息的主页进行爬取，得到网页数据；

存储模块用于对网页数据进行存储；

其中，爬取间隔计算模块包括参数更新单元、网页数据分析单元和计算单元；

参数更新单元用于在计算爬取间隔时，对目标用户的主页进行访问，获得网络延迟；

网页数据分析单元用于在计算爬取间隔时，对预设时间段内爬取所得到的网页数据进行分析，得到用户发布信息的发布时间的集合和发布的信息所占用的空间的集合；

计算单元用于采用如下公式计算爬取间隔：

crawitr_q+1和crawitr_q分别表示第q+1次和第q次计算爬取间隔时得到的爬取间隔；lat_q+1和lat_q分别表示第q+1次和第q次计算爬取间隔时所得到的网络延迟；获取预设时间段内每次爬取所得到的网页数据的发布时间，将发布时间从早到晚进行排序，得到集合timeU；reltim_q+1,1和reltim_q+1,2分别表示第一时间长度和第二时间长度；reltim_q+1,1＝actim_K-actim_K-1，reltim_q+1,2＝actim_K-1-actim_K-2；K表示timeU中的发布时间的总数，actim_K、actim_K-1和actim_K-2分别表示timeU中的第K个、第K-1个和第K-2个发布时间；spa_q+1,1和spa_q+1,2分别表示发布时间为actim_K和actim_K-1的网页数据的大小，w₁、w₂和w₃分别表示网络延迟的权重、时间长度的权重和数据大小的权重。

可选的，用t_q+1表示第q+1次计算爬取间隔的开始时间，则预设时间段为T表示设定的时间长度。

可选的，还包括设置模块；

设置模块用于设置爬虫参数，爬虫参数包括目标用户发布信息的主页的网址。

可选的，第q次对目标用户发布信息的主页进行爬取的过程完成后，爬取间隔计算模块便立刻开始第q+1次计算爬取间隔。

可选的，基于爬取间隔对目标用户发布信息的主页进行爬取，得到网页数据，包括：

基于爬取间隔计算下一次对目标用户发布信息的主页进行爬取的开始时间；

判断当前的时间是否为下一次对目标用户发布信息的主页进行爬取的开始时间，若是，则采用爬虫算法对目标用户发布信息的主页进行爬取。

可选的，基于爬取间隔计算下一次对目标用户发布信息的主页进行爬取的开始时间，包括：

用gt_q表示第q次对目标用户发布信息的主页进行爬取的开始时间，则第q+1次对目标用户发布信息的主页进行爬取的开始时间的计算公式为：

gt_q+1＝gt_q+crawitr_q

gt_q+1表示第q+1次对目标用户发布信息的主页进行爬取的开始时间。

可选的，采用爬虫算法对目标用户发布信息的主页进行爬取，包括：

判断目标用户发布信息的主页是否有更新的网页数据，若是，则对更新的网页数据进行爬取，得到本次爬取所得到的网页数据。

可选的，判断目标用户发布信息的主页是否有更新的网页数据，包括：

获取目标用户发布信息的主页的URL链接的集合A；

获取前一次对发布信息的主页进行爬取时，获得的用户发布信息的主页的URL链接的集合B；

判断集合A中是否包含不属于集合B的URL链接，若是，则表示发布信息的主页有更新的网页数据。

可选的，对更新的网页数据进行爬取，得到本次爬取所得到的网页数据，包括：

对集合A中不属于集合B的所有URL链接对应的页面进行爬取，得到本次爬取所得到的网页数据。

可选的，对目标用户的主页进行访问，获得网络延迟，包括：

在开始计算爬取间隔之后，对目标用户的主页进行N次访问，基于N次访问的网络延迟获取最终确定的网络延迟。

有益效果：

与现有技术相比，本发明并不是采用固定的爬取间隔来对目标用户发布信息的主页进行爬取，而是基于相邻两次计算爬取间隔的网络延迟、相邻两次发布的时间之间的时间差值以及相邻两次发布的信息所对应的网页数据的大小三个方面来综合计算爬取间隔，使得爬取间隔能够随着网络延迟、时间差值以及网页数据的大小的变化而自适应地变化，从而能够在及时获取目标用户在社交网络中发布的信息的同时，避免过于密集地对目标用户发布信息的主页进行数据爬取，有效地降低社交网络的服务器的处理压力。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的一种基于爬虫的社交网络数据采集系统的一种示意图。

图2为本发明的一种基于爬虫的社交网络数据采集系统的另一种示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

如图1所示的一种实施例，本发明提供了一种基于爬虫的社交网络数据采集系统，包括爬取间隔计算模块、爬取模块和存储模块；

爬取间隔计算模块用于计算爬取间隔；

存储模块用于对网页数据进行存储；

计算单元用于采用如下公式计算爬取间隔：

本发明在进行网页数据的爬取过程中，并不是采用固定的爬取间隔来对目标用户发布信息的主页进行爬取，而是基于相邻两次计算爬取间隔的网络延迟、相邻两次发布的时间之间的时间差值以及相邻两次发布的信息所对应的网页数据的大小三个方面来综合计算爬取间隔，使得爬取间隔能够随着网络延迟、时间差值以及网页数据的大小的变化而自适应地变化，从而能够在及时获取目标用户在社交网络中发布的信息的同时，避免过于密集地对目标用户发布信息的主页进行数据爬取，有效地降低社交网络的服务器的处理压力。

具体而言，若时间长度和数据大小这两个方面的参数保持不变，而相邻两次计算爬取间隔时获得的网络延迟呈现缩小的趋势，即lat_q+1小于lat_q，则表示发布信息的主页的所在的服务器的处理压力减小，此时本发明会相应地缩小爬取间隔，以使得能够更加及时地获取目标用户在社交网络中发布的信息，爬取间隔的缩小幅度与处理压力减少的幅度相关，处理压力减少的幅度越大，则爬取间隔的缩小幅度越大；反之，则增加爬取间隔，以降低的服务器的处理压力；

若网络延迟和数据大小这两个方面的参数保持不变，而时间长度呈现减少的趋势，即reltim_q+1,1小于reltim_q+1,2，表示目标用户发布信息的时间间隔呈现缩小的趋势，此时，本发明会相应地缩小爬取间隔，以使得能够更加及时地获取目标用户在社交网络中发布的信息，爬取间隔的缩小幅度与时间间隔的减少的幅度相关，时间间隔减少的幅度越大，则爬取间隔的缩小幅度越大；反之，则增加爬取间隔，从而能够在一定程度上保持及时获取目标用户更新的信息的同时，降低爬取间隔，避免被反爬虫机制识别出而导致爬虫程序所在的计算机的IP被封的概率；

若时间长度和网络延迟这两个方面的参数保持不变，而数据大小呈现减少的趋势，即spa_q+1,1小于spa_q+1,2，表示目标用户发布信息的数据大小呈现缩小的趋势，此时，本发明会相应地缩小爬取间隔，以使得能够更加及时地获取目标用户在社交网络中发布的信息，爬取间隔的缩小幅度与数据大小的减少的幅度相关，数据大小减少的幅度越大，则爬取间隔的缩小幅度越大；因为当信息比较小时，服务器的发送压力相应地也会比较小，可以适当地缩小爬取间隔；反之，则增加爬取间隔，降低服务器的处理压力。

本发明是在上面的三个方向进行综合考虑，从而实现了及时获取目标用户更新的信息的同时，降低服务器的处理压力。

可选的，爬取间隔计算模块在爬虫算法刚开始运行时，前D次均采用固定的爬取间隔。例如，D可以是5。因为爬取间隔模块计算爬取间隔，需要利用到前面的爬取结果，因此，可以先让爬虫程序试运行一段时间，然后再基于本发明的爬取间隔获取方式来获取爬取间隔。

具体的，在试运行时，每次结束对目标用户发送信息的主页进行爬取之后，便对目标用户的主页进行访问，获得网络延迟，将得到的网络延迟作为在试运行时，计算爬取间隔时得到的爬取间隔。

q的数值大于等于D。

可选的，网络延迟的权重、时间长度的权重和数据大小的权重分别为0.2、0.4和0.4。

可选的，用t_q+1表示第q+1次计算爬取间隔的开始时间，则预设时间段为[t_q+1-T，t_q+1]，T表示设定的时间长度。

设定的时间长度可以是1小时，1天等。

可选的，如图2所示，还包括设置模块；

爬虫参数还包括爬取的数据的类型，数据的类型包括视频、图像、文字中的至少一种。

在本发明中，在前一次爬取的过程完成后，便立刻开始计算下一次开始进行爬取与前一次开始进行爬取之间的时间间隔。

在本发明中，爬取模块获得的网页数据保存到存储模块中。

具体的，爬虫算法包括深度优先搜索算法、广度优先搜索算法和启发式搜索算法中的任一种。

深度优先搜索算法是指网络爬虫会从选定的一个超链接开始,按照一条线路,一个一个链接访问下去,直到达到这条线路的叶子节点,即不包含任何超链接的HTML文件,处理完这条线路之后再转入下一个起始页,继续访问新的起始页面所包含的链接中的一条,直到到达叶子结点。这个方法有个优点是网络爬虫在设计的时候比较容易。

广度优先搜索算法指网络爬虫会先抓取起始网页中包含链接的所有网页,然后再选择其中的一个链接网页,继续抓取在这个网页中链接的所有网页。这种搜索方法是实现通用网络爬虫的最佳方法,因为它的特点是易于实现,并且能够避免陷进一个无穷尽的深层分支中去,可以让网络爬虫并行处理,从而提高其抓取速度。

启发式搜索算法源于人工智能,即先通过在线获得的领域知识评价待访问链接的价值,借以推断信息资源的分布情况,然后按一定的原则选择价值最大的链接进行下步的搜索,找到到达目标节点的最佳路径,删除不好节点,保留那些好的节点,该算法主要用于主题爬虫。

gt_q+1＝gt_q+crawitr_q；

在本发明中，相邻两次对目标用户进行发布信息的主页进行爬取时，采用本发明计算出的爬取间隔来进行，从而能够保证爬取的及时性的同时降低服务器的处理压力。

通过判断是否有更新的网页数据，能够避免对已经爬取过的网页数据重复进行爬取，从而进一步降低目标用户发布信息的主页所在的服务器的运算压力。

获取目标用户发布信息的主页的URL链接的集合A；

当主页中有数据更新时，一般都会产生新的URL链接，因此，通过对URL进行比较，便能够判断是否有数据更新。

仅对新出现的URL链接对应的页面进行爬取，能够提高爬取的针对性，降低运行爬虫算法的计算设备的运算能力要求，从而使得本发明能够部署在性能较差的甲酸设备中。

具体的，由于单次获得的网络延迟会受到突发因素的影响，例如目标用户发布信息的主页的服务器突然接收到大量的访问请求，因此单次获得的网络延迟并不能很好地反映用户的主页的真实延迟情况，因此，本发明通过获取多次访问所得到的网络延迟来计算得到最终确定的网络延迟，提高了得到的网络延迟的代表性。

可选的，基于N次访问的网络延迟获取最终确定的网络延迟，包括：

将N次访问所得到的网络延迟存入集合netdly；

删除netdly中的网络延迟的最大值和最小值，得到集合caldly；

将caldly中获取时间最晚的网络延迟表示为z，将z从caldly中删除，得到集合deldly；

则使用如下公式计算最终确定的网络延迟：

fnldly表示最终确定的网络延迟，gettime_z和gettime_j分别表示网络延迟z和网络延迟j的获取时间，gettime_cef表示deldly中的网络延迟的获取时间与网络延迟z的获取时间的差值的方差，ndeldly表示deldly中的网络延迟的总数，value_z和value_j分别表示网络延迟z和网络延迟j的数值，value_cef表示deldly中的网络延迟的数值与网络延迟z的数值的差值的方差，

本发明在获取最终确定的网络延迟时，通过先将最大值和最小值进行删除，能够降低最终确定的网络延迟受到偶发性的数值过大及过小的网络延迟的影响，提高最终确定的网络延迟的代表性。

在基于caldly计算最终确定的网络延迟时，本发明是在获取时间最晚的网络延迟z的基础行进行计算得到的，通过对不包含z的集合deldly中的网络延迟在获取时间以及数值两个方面求取对应的权重，使得获取时间距离z越近、数值与z越接近的网络延迟对最终确定的网络延迟的影响越大，从而能够避免简单地求取均值来得到最终确定的网络延迟，使得最终确定的网络延迟更加准确，从而使得本发明在计算爬取间隔时，能够得到更加准确的爬取间隔。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的请求报文的硬件配置装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于爬虫的社交网络数据采集系统，其特征在于，包括爬取间隔计算模块、爬取模块和存储模块；

爬取间隔计算模块用于计算爬取间隔；

存储模块用于对网页数据进行存储；

计算单元用于采用如下公式计算爬取间隔：

2.根据权利要求1所述的一种基于爬虫的社交网络数据采集系统，其特征在于，用t_q+1表示第q+1次计算爬取间隔的开始时间，则预设时间段为T表示设定的时间长度。

3.根据权利要求1所述的一种基于爬虫的社交网络数据采集系统，其特征在于，还包括设置模块；

4.根据权利要求1所述的一种基于爬虫的社交网络数据采集系统，其特征在于，第q次对目标用户发布信息的主页进行爬取的过程完成后，爬取间隔计算模块便立刻开始第q+1次计算爬取间隔。

5.根据权利要求1所述的一种基于爬虫的社交网络数据采集系统，其特征在于，基于爬取间隔对目标用户发布信息的主页进行爬取，得到网页数据，包括：

6.根据权利要求5所述的一种基于爬虫的社交网络数据采集系统，其特征在于，基于爬取间隔计算下一次对目标用户发布信息的主页进行爬取的开始时间，包括：

gt_q+1＝gt_q+crawitr_q

7.根据权利要求5所述的一种基于爬虫的社交网络数据采集系统，其特征在于，采用爬虫算法对目标用户发布信息的主页进行爬取，包括：

8.根据权利要求7所述的一种基于爬虫的社交网络数据采集系统，其特征在于，判断目标用户发布信息的主页是否有更新的网页数据，包括：

获取目标用户发布信息的主页的URL链接的集合A；

9.根据权利要求8所述的一种基于爬虫的社交网络数据采集系统，其特征在于，对更新的网页数据进行爬取，得到本次爬取所得到的网页数据，包括：

10.根据权利要求8所述的一种基于爬虫的社交网络数据采集系统，其特征在于，对目标用户的主页进行访问，获得网络延迟，包括：