CN115904416A

CN115904416A - 全网数据监控系统的部署方法、装置、设备及存储介质

Info

Publication number: CN115904416A
Application number: CN202211672486.4A
Authority: CN
Inventors: 麦淼; 王梦环; 李梓华
Original assignee: Guangdong Southern New Media Technology Co ltd
Current assignee: Guangdong Southern New Media Technology Co ltd
Priority date: 2022-12-22
Filing date: 2022-12-22
Publication date: 2023-04-04

Abstract

本申请公开了一种全网数据监控系统的部署方法、装置、设备及存储介质，通过采用Docker打包Scrapyd代码镜像，并将所述Scrapyd代码镜像推送至Kubernetes环境下进行部署，以完成Scrapyd容器化部署；采用Docker打包Spiderkeeper服务镜像，并将镜像推送至Kubernetes环境下进行部署，以完成Spiderkeeper容器化部署；基于部署完成的Scrapyd容器和Spiderkeeper容器，根据Spiderkeeper源码，新增安全认证机制；基于所述安全认证机制登录Spiderkeeper，以创建用于采集全网数据的爬虫定时调度任务。实现了数据采集服务的高效性、安全性和稳定性。

Description

全网数据监控系统的部署方法、装置、设备及存储介质

技术领域

本申请涉及数据处理技术领域，尤其涉及一种全网数据监控系统的部署方法、装置、设备及存储介质。

背景技术

社会热点事件一直备受广大网民关注，在新媒体与大数据时代，热点资讯在各大互联网平台与大数据技术的加持下，传播路径和速度呈指数性上增。为了确保发布信息的时效性和权威性，对数据采集服务的高效性、安全性、稳定性提出了更高要求。

目前，主要通过爬虫方式对全网热点数据进行数据采集和监测，但是传统爬虫框架的代码量大和爬虫调度成本高，无法稳定高效地数据监控，从而难以应对高频发的全网大数据。

发明内容

本申请提供了一种全网数据监控系统的部署方法、装置、设备及存储介质，以解决当前数据监控系统难以满足数据采集服务高效性、安全性和稳定性的要求的技术问题。

为了解决上述技术问题，第一方面，本申请提供了一种全网数据监控系统的部署方法，包括：

采用Docker打包Scrapyd代码镜像，并将所述Scrapyd代码镜像推送至Kubernetes环境下进行部署，以完成Scrapyd容器化部署；

采用Docker打包Spiderkeeper服务镜像，并将所述Spiderkeeper服务镜像推送至Kubernetes环境下进行部署，以完成Spiderkeeper容器化部署；

基于部署完成的Scrapyd容器和Spiderkeeper容器，根据Spiderkeeper源码，新增用于在Spiderkeeper后台与Scrapyd后台验证身份凭证的安全认证机制；

基于所述安全认证机制登录Spiderkeeper，以创建用于采集全网数据的爬虫定时调度任务。

在一些实现方式中，所述采用Docker打包Scrapyd代码镜像，并将所述Scrapyd代码镜像推送至Kubernetes环境下进行部署，包括：

配置Jenkinsfile第一配置文件、Dockerfile第一配置文件、deployment.yaml第一配置文件；

将Scrapyd代码、Jenkinsfile第一配置文件、Dockerfile第一配置文件、deployment.yaml第一配置文件上传到GitLab代码管理平台上，完成代码同步更新；

通过Jenkins从所述GitLab代码管理平台拉取Scrapyd最新代码，并结合Jenkinsfile第一配置文件和Dockerfile第一配置文件生成所述Scrapyd代码镜像；

通过Jenkins将所述Scrapyd代码镜像推送至Kunbernets环境，并结合deployment.yaml第一配置文件进行项目部署。

在一些实现方式中，所述采用Docker打包Spiderkeeper服务镜像，并将所述Spiderkeeper服务镜像推送至Kubernetes环境下进行部署，以完成Spiderkeeper容器化部署：

配置Jenkinsfile第二配置文件、Dockerfile第二配置文件、deployment.yaml第二配置文件；

将Spiderkeeper代码、Jenkinsfile第二配置文件、Dockerfile第二配置文件、deployment.yaml第二配置文件上传到GitLab代码管理平台上，完成代码同步更新；

通过Jenkins从所述GitLab代码管理平台拉取Spiderkeeper最新代码，并结合Jenkinsfile第二配置文件和Dockerfile第二配置文件生成所述Spiderkeeper服务镜像；

通过Jenkins将所述Spiderkeeper服务镜像推送至Kunbernets环境，并结合deployment.yaml第二配置文件进行项目部署。

在一些实现方式中，所述基于部署完成的Scrapyd容器和Spiderkeeper容器，根据Spiderkeeper源码，新增用于在Spiderkeeper后台与Scrapyd后台验证身份凭证的安全认证机制，包括：

通过pip命令下载Scrapyd依赖；

在scrapyd.conf配置文件中设置Scrapyd服务安全认证的用户名和密码；

登陆GitHub网站，下载Spiderkeeper项目源码；

向Spiderkeeper项目源码中的requests请求代码添加用户身份认证信息，用户身份认证信息为scrapyd.conf配置文件中的用户名和密码。

在一些实现方式中，所述基于所述安全认证机制登录Spiderkeeper，以创建用于采集全网数据的爬虫定时调度任务，包括：

基于所述安全认证机制，登录Spiderkeeper用户界面；

在Spiderkeeper用户界面中的Manage界面创建爬虫项目；

基于预设命令，打包所述爬虫项目，并通过Deploy界面将打包后的所述爬虫项目上传到Spiderkeeper服务；

在Spiderkeeper服务的Periodic Jobs页面添加爬虫任务，并在调度器上配置所述爬虫任务的调度周期。

第二方面，本申请还提供一种全网数据监控系统的部署装置，包括：

第一部署模块，用于采用Docker打包Scrapyd代码镜像，并将所述Scrapyd代码镜像推送至Kubernetes环境下进行部署，以完成Scrapyd容器化部署；

第二部署模块，用于采用Docker打包Spiderkeeper服务镜像，并将所述Spiderkeeper服务镜像推送至Kubernetes环境下进行部署，以完成Spiderkeeper容器化部署；

新增模块，用于基于部署完成的Scrapyd容器和Spiderkeeper容器，根据Spiderkeeper源码，新增用于在Spiderkeeper后台与Scrapyd后台验证身份凭证的安全认证机制；

创建模块，用于基于所述安全认证机制登录Spiderkeeper，以创建用于采集全网数据的爬虫定时调度任务。

在一些实现方式中，所述新增模块，具体用于：

通过pip命令下载Scrapyd依赖；

登陆GitHub网站，下载Spiderkeeper项目源码；

在一些实现方式中，所述创建模块，具体用于：

基于所述安全认证机制，登录Spiderkeeper用户界面；

在Spiderkeeper用户界面中的Manage界面创建爬虫项目；

第三方面，本申请还提供一种计算机设备，包括处理器和存储器，所述存储器用于存储计算机程序，所述计算机程序被所述处理器执行时实现如第一方面所述的全网数据监控系统的部署方法。

第四方面，本申请还提供一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的全网数据监控系统的部署方法。

与现有技术相比，本申请至少具备以下有益效果：

通过采用Docker打包Scrapyd代码镜像，并将所述Scrapyd代码镜像推送至Kubernetes环境下进行部署，以完成Scrapyd容器化部署；采用Docker打包Spiderkeeper服务镜像，并将镜像推送至Kubernetes环境下进行部署，以完成Spiderkeeper容器化部署；基于部署完成的Scrapyd容器和Spiderkeeper容器，根据Spiderkeeper源码，新增用于在Spiderkeeper后台与Scrapyd后台验证身份凭证的安全认证机制；基于所述安全认证机制登录Spiderkeeper，以创建用于采集全网数据的爬虫定时调度任务。以应用Scrapy爬虫框架的代码量仅占原来的三分之一，实现数据采集的敏捷开发，有利于产品定制化开发以及迭代更新的快速响应；以Scrapyd+Spiderkeeper提供爬虫任务的界面式调度管理和安全认证机制，降低爬虫调度的维护成本，同时加强了爬虫服务的安全保障。并且项目支持容器化部署，在Kubernets环境下可支持一键化自动部署，实现项目上线、资源分配、任务调度以及后台监控的一体化管理。

附图说明

图1为本申请实施例示出的全网数据监控系统的部署方法的流程示意图；

图2为本申请实施例示出的全网数据监控系统的结构示意图；

图3为本申请实施例示出的容器化部署的流程示意图；

图4为本申请实施例示出的数据采集安全认证的流程示意图；

图5为本申请实施例示出的全网数据监控系统的部署装置的结构示意图；

图6为本申请实施例示出的计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参照图1，图1为本申请实施例提供的一种距离保护多定值区整定方法的流程示意图。本申请实施例的距离保护多定值区整定方法可应用于计算机设备，该计算机设备包括但不限于智能手机、笔记本电脑、平板电脑、桌上型计算机、物理服务器和云服务器等设备。如图1所示，本实施例的距离保护多定值区整定方法包括步骤S101至步骤S104，详述如下：

步骤S101，采用Docker打包Scrapyd代码镜像，并将所述Scrapyd代码镜像推送至Kubernetes环境下进行部署，以完成Scrapyd容器化部署；

步骤S102，采用Docker打包Spiderkeeper服务镜像，并将镜像推送至Kubernetes环境下进行部署，以完成Spiderkeeper容器化部署；

步骤S103，基于部署完成的Scrapyd容器和Spiderkeeper容器，根据Spiderkeeper源码，新增用于在Spiderkeeper后台与Scrapyd后台验证身份凭证的安全认证机制；

步骤S104，基于所述安全认证机制登录Spiderkeeper，以创建用于采集全网数据的爬虫定时调度任务。

在本实施例中，全网数据监控系统如图2所示。针对全网热点数据采集，实现全网用户热搜话题自动化监测，其中，数据采集项目采用了Scrapy、Scrapyd、Spiderkeeper作为底层架构：相比于传统的爬虫，应用了Scrapy爬虫框架的代码量仅占原来的三分之一，实现数据采集的敏捷开发，有利于产品定制化开发以及迭代更新的快速响应；Scrapyd+Spiderkeeper提供了爬虫任务的界面式调度管理和安全认证机制，降低爬虫调度的维护成本，同时加强了爬虫服务的安全保障。另一方面，项目支持容器化部署，在Kubernets环境下可支持一键化自动部署，实现项目上线、资源分配、任务调度以及后台监控的一体化管理。

在一些实施例中，所述步骤S101，包括：

在本实施例中，如图3所示，配置Jenkinsfile配置文件、Dockerfile配置文件、deployment.yaml配置文件：Jenkinsfile配置文件：分为三个Stage：Stage1配置Dokcer镜像信息(包括：仓库地址、项目名称、环境变量、镜像标签等)，Stage2配置Docker镜像的构建命令，Stage3配置Docker镜像部署到Kubernetes命令；Dockerfile配置文件：配置Docker镜像的内部信息，包括：Python版本、项目目录、第三方依赖的下载方式、时区设置，项目端口、启动命令等；deployment.yaml配置文件：配置Kubernetes环境下的相关信息，包括：所属名称空间、镜像名称、环境变量、挂载路径、项目端口等。将Scrapyd代码、Jenkinsfile、Dockerfile、deployment.yaml上传到GitLab代码管理平台上，完成代码更新同步的操作。通过Jenkins从GitLab代码管理平台拉取最新代码，结合Jenkinfile的配置信息与Dockerfile镜像配置文件实现镜像一键式生成。镜像构建完成后，通过Jenkins将镜像推送至Kunbernets环境，结合deployment.yaml配置文件进行项目部署。

在一些实施例中，所述步骤S102，包括：

在本实施例中，配置Jenkinsfile配置文件、Dockerfile配置文件、deployment.yaml配置文件：Jenkinsfile配置文件：分为三个Stage：Stage1配置Dokcer镜像信息(包括：仓库地址、项目名称、环境变量、镜像标签等)，Stage2配置Docker镜像的构建命令，Stage3配置Docker镜像部署到Kubernetes命令；Dockerfile配置文件：配置Docker镜像的内部信息，包括：Python版本、项目目录、第三方依赖的下载方式、时区设置，项目端口、启动命令等；deployment.yaml配置文件：配置Kubernetes环境下的相关信息，包括：所属名称空间、镜像名称、环境变量、挂载路径、项目端口等。将Spiderkeeper代码、Jenkinsfile、Dockerfile、deployment.yaml上传到GitLab代码管理平台上，完成代码更新同步的操作。通过Jenkins从GitLab代码管理平台拉取最新代码，结合Jenkinfile的配置信息与Dockerfile镜像配置文件实现镜像一键式生成。镜像构建完成后，通过Jenkins将镜像推送至Kunbernets环境，结合deployment.yaml配置文件进行项目部署。

在一些实施例中，所述步骤S103，包括：

通过pip命令下载Scrapyd依赖；

登陆GitHub网站，下载Spiderkeeper项目源码；

在本实施例中，通过pip命令下载Scrapyd依赖，其中旧版的Scrapyd不支持用户身份认证功能，目前Scrapyd－1.3.0版本支持该功能。在scrapyd.conf配置文件中设置Scrapyd服务安全认证的用户名和密码。登陆GitHub网站，下载Spiderkeeper项目源码。基于Spiderkeeper源码，修改源码中util目录下http.py代码，涉及requests请求部分的代码统一加上用户身份认证，认证的用户名和密码为scrapyd.conf中的用户名和密码。

在一些实施例中，所述步骤S104，包括：

基于所述安全认证机制，登录Spiderkeeper用户界面；

在Spiderkeeper用户界面中的Manage界面创建爬虫项目；

在本实施例中，登录Spiderkeeper用户界面，输入用户名和密码；在Manage界面创建一个爬虫项目；通过scrapyd－deploy－－build－egg output.egg命令，将爬虫项目打包，并通过Deploy界面将output.egg包上传到Spiderkeeper服务；在Periodic Jobs页面添加爬虫任务，并在调度器上配置任务的调度周期。其中数据采集安全认证过程如图4所示。

为了执行上述方法实施例对应的全网数据监控系统的部署方法，以实现相应的功能和技术效果。参见图5，图5示出了本申请实施例提供的一种全网数据监控系统的部署装置的结构框图。为了便于说明，仅示出了与本实施例相关的部分，本申请实施例提供的全网数据监控系统的部署装置，包括：

第一部署模块501，用于采用Docker打包Scrapyd代码镜像，并将所述Scrapyd代码镜像推送至Kubernetes环境下进行部署，以完成Scrapyd容器化部署；

第二部署模块502，用于采用Docker打包Spiderkeeper服务镜像，并将镜像推送至Kubernetes环境下进行部署，以完成Spiderkeeper容器化部署；

新增模块503，用于基于部署完成的Scrapyd容器和Spiderkeeper容器，根据Spiderkeeper源码，新增用于在Spiderkeeper后台与Scrapyd后台验证身份凭证的安全认证机制；

创建模块504，用于基于所述安全认证机制登录Spiderkeeper，以创建用于采集全网数据的爬虫定时调度任务。

在一些实施例中，所述第一部署模块501，具体用于：

在一些实施例中，所述第二部署模块502，具体用于：

在一些实施例中，所述新增模块503，具体用于：

通过pip命令下载Scrapyd依赖；

登陆GitHub网站，下载Spiderkeeper项目源码；

在一些实施例中，所述创建模块504，具体用于：

基于所述安全认证机制，登录Spiderkeeper用户界面；

在Spiderkeeper用户界面中的Manage界面创建爬虫项目；

上述的全网数据监控系统的部署装置可实施上述方法实施例的全网数据监控系统的部署方法。上述方法实施例中的可选项也适用于本实施例，这里不再详述。本申请实施例的其余内容可参照上述方法实施例的内容，在本实施例中，不再进行赘述。

图6为本申请一实施例提供的计算机设备的结构示意图。如图6所示，该实施例的计算机设备6包括：至少一个处理器60(图6中仅示出一个)、存储器61以及存储在所述存储器61中并可在所述至少一个处理器60上运行的计算机程序62，所述处理器60执行所述计算机程序62时实现上述任意方法实施例中的步骤。

所述计算机设备6可以是智能手机、平板电脑、桌上型计算机和云端服务器等计算设备。该计算机设备可包括但不仅限于处理器60、存储器61。本领域技术人员可以理解，图6仅仅是计算机设备6的举例，并不构成对计算机设备6的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如还可以包括输入输出设备、网络接入设备等。

所称处理器60可以是中央处理单元(Central Processing Unit，CPU)，该处理器60还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器61在一些实施例中可以是所述计算机设备6的内部存储单元，例如计算机设备6的硬盘或内存。所述存储器61在另一些实施例中也可以是所述计算机设备6的外部存储设备，例如所述计算机设备6上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器61还可以既包括所述计算机设备6的内部存储单元也包括外部存储设备。所述存储器61用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等，例如所述计算机程序的程序代码等。所述存储器61还可以用于暂时地存储已经输出或者将要输出的数据。

另外，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述任意方法实施例中的步骤。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在计算机设备上运行时，使得计算机设备执行时实现上述各个方法实施例中的步骤。

在本申请所提供的几个实施例中，可以理解的是，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意的是，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read－Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述的具体实施例，对本申请的目的、技术方案和有益效果进行了进一步的详细说明，应当理解，以上所述仅为本申请的具体实施例而已，并不用于限定本申请的保护范围。特别指出，对于本领域技术人员来说，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种全网数据监控系统的部署方法，其特征在于，包括：

2.如权利要求1所述的全网数据监控系统的部署方法，其特征在于，所述采用Docker打包Scrapyd代码镜像，并将所述Scrapyd代码镜像推送至Kubernetes环境下进行部署，包括：

3.如权利要求1所述的全网数据监控系统的部署方法，其特征在于，所述采用Docker打包Spiderkeeper服务镜像，并将所述Spiderkeeper服务镜像推送至Kubernetes环境下进行部署，包括：

4.如权利要求1所述的全网数据监控系统的部署方法，其特征在于，所述基于部署完成的Scrapyd容器和Spiderkeeper容器，根据Spiderkeeper源码，新增用于在Spiderkeeper后台与Scrapyd后台验证身份凭证的安全认证机制，包括：

通过pip命令下载Scrapyd依赖；

登陆GitHub网站，下载Spiderkeeper项目源码；

5.如权利要求1所述的全网数据监控系统的部署方法，其特征在于，所述基于所述安全认证机制登录Spiderkeeper，以创建用于采集全网数据的爬虫定时调度任务，包括：

基于所述安全认证机制，登录Spiderkeeper用户界面；

在Spiderkeeper用户界面中的Manage界面创建爬虫项目；

6.一种全网数据监控系统的部署装置，其特征在于，包括：

7.如权利要求6所述的全网数据监控系统的部署装置，其特征在于，所述新增模块，具体用于：

通过pip命令下载Scrapyd依赖；

登陆GitHub网站，下载Spiderkeeper项目源码；

8.如权利要求6所述的全网数据监控系统的部署装置，其特征在于，所述创建模块，具体用于：

基于所述安全认证机制，登录Spiderkeeper用户界面；

在Spiderkeeper用户界面中的Manage界面创建爬虫项目；

9.一种计算机设备，其特征在于，包括处理器和存储器，所述存储器用于存储计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至5任一项所述的全网数据监控系统的部署方法。

10.一种计算机可读存储介质，其特征在于，其存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的全网数据监控系统的部署方法。