CN109299371A - 一种基于分布式爬虫技术的政策资讯采集管理系统 - Google Patents

一种基于分布式爬虫技术的政策资讯采集管理系统 Download PDF

Info

Publication number
CN109299371A
CN109299371A CN201811200703.3A CN201811200703A CN109299371A CN 109299371 A CN109299371 A CN 109299371A CN 201811200703 A CN201811200703 A CN 201811200703A CN 109299371 A CN109299371 A CN 109299371A
Authority
CN
China
Prior art keywords
data
module
processing center
centralized processing
policy information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811200703.3A
Other languages
English (en)
Inventor
冯瑞伦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuhai Wisdom Creative Technology Ltd
Original Assignee
Zhuhai Wisdom Creative Technology Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhuhai Wisdom Creative Technology Ltd filed Critical Zhuhai Wisdom Creative Technology Ltd
Priority to CN201811200703.3A priority Critical patent/CN109299371A/zh
Publication of CN109299371A publication Critical patent/CN109299371A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于分布式爬虫技术的政策资讯采集管理系统,包括数据集中处理中心,所述数据集中处理中心输出端分别设有紧急预警端、数据查看端和管理操控端,所述紧急预警端、数据查看端和管理操控端相互连通,所述数据集中处理中心通过以太网传输线缆分别连接有数据备份数据库和数据存储数据库,所述数据集中处理中心连接端设有多个网络爬虫处理模块。本发明通过设有网络爬虫处理模块,网络爬虫处理模块通过ZooKeeper调节各模块工作,分布式协调工具,并且可以监控各个爬虫的运行状态,政策资讯详细信息通过网络爬虫处理模块处理后可以进一步传输至数据集中处理中心,可以确保提取信息的准确度且提高了数据的提取速率。

Description

一种基于分布式爬虫技术的政策资讯采集管理系统
技术领域
本发明涉及政策资讯系统,特别涉及一种基于分布式爬虫技术的政策资讯采集管理系统。
背景技术
目前出台了很多对企业有帮扶作用的政策,但因为相关政策数量大,且制定机关不同,企业无法了解清楚和全面,通常通过人工查询对政策进行查询获取相关信息,并在自行筛选后获取政策并进行解读,在这个过程中会浪费了大量的人力资源,对政策的人工筛选也加大了企业的人力成本,因此,发明一种基于分布式爬虫技术的政策资讯采集管理系统来解决上述问题很有必要。
发明内容
本发明的目的在于提供一种基于分布式爬虫技术的政策资讯采集管理系统,通过设有网络爬虫处理模块,网络爬虫处理模块通过ZooKeeper调节各模块工作,分布式协调工具,并且可以监控各个爬虫的运行状态,页面下载模块下载URL仓库存储的网络页面并通过网页分析模块进行网页分析,解析出相关的需要的信息后传输至判断模块,判断模块将信息传输至SQL数据库后,政策资讯详细信息可以进一步传输至数据集中处理中心将信息进行进一步整合,并传输至数据查看端为工作人员进行查看,可以确保提取信息的准确度且提高了数据的提取速率,以解决通过人工查询对政策进行查询获取相关信息,并在自行筛选后获取政策并进行解读,在这个过程中会浪费了大量的人力资源,对政策的人工筛选也加大了企业的人力成本的问题。
为实现上述目的,本发明提供如下技术方案:一种基于分布式爬虫技术的政策资讯采集管理系统,包括数据集中处理中心,所述数据集中处理中心输出端分别设有紧急预警端、数据查看端和管理操控端,所述紧急预警端、数据查看端和管理操控端相互连通,所述数据集中处理中心通过以太网传输线缆分别连接有数据备份数据库和数据存储数据库,所述数据集中处理中心连接端设有多个网络爬虫处理模块,所述网络爬虫处理模块包括SQL数据库、判断模块、网页分析模块、页面下载模块和URL仓库。
优选的,所述数据集中处理中心包括数据接收模块、数据传输模块、数据处理模块、数据分析模块和数据提取模块,所述数据集中处理中心用于接收网络爬虫处理模块传输数据并进行处理和传输,可以分别传输信号至紧急预警端、数据查看端和管理操控端并可以将需要存储的数据传输至数据备份数据库和数据存储数据库内部进行存储。
优选的,所述紧急预警端包括警报器和预警装置,所述预警装置内部设有SIM卡且输出端设有手机APP端,用于及时将预警信息传输至工作人员。
优选的,所述数据查看端用于工作人员进行查看数据集中处理中心处理后所提取的政策资讯信息,所述数据查看端设置为多个显示屏。
优选的,所述管理操控端与数据集中处理中心之间连通有输入模块,所述输入模块用于工作人员输入关键词至数据集中处理中心后数据集中处理中心对关键词在网络爬虫内进行搜寻并获取相应的资讯信息,所述管理操控端内部设有密码验证模块,所述密码验证模块用于验证工作人员身份。
优选的,所述数据备份数据库用于存储系统工作过程中可用的资讯信息,所述数据存储数据库用于存储系统工作过程中由网络爬虫处理模块传输至数据集中处理中心的数据,所述数据备份数据库与数据存储数据库相互连通。
优选的,所述SQL数据库与数据集中处理中心连通,所述SQL数据库连接端设有判断模块,所述判断模块连接端设有网页分析模块,所述网页分析模块连接端设有页面下载模块,所述判断模块和页面下载模块连接端均设有URL仓库,所述URL仓库通过以太网与网络爬虫连通。
优选的,所述网络爬虫处理模块通过ZooKeeper调节各模块工作,分布式协调工具,并且可以监控各个爬虫的运行状态,所述URL仓库用于存储临时的网络页面,所述页面下载模块用于下载网络页面可设置为HttpClient,所述网页分析模块用于网页分析,解析出相关的需要的信息,可设置为HtmlCleaner或xPath,所述判断模块用于判断网页分析模块传输信息是否需要进一步传输至SQL数据库,所述SQL数据库用于存储爬取过来的政策资讯详细信息。
本发明的技术效果和优点:
1、通过设有网络爬虫处理模块,网络爬虫处理模块通过ZooKeeper调节各模块工作,分布式协调工具,并且可以监控各个爬虫的运行状态,页面下载模块下载URL仓库存储的网络页面并通过网页分析模块进行网页分析,解析出相关的需要的信息后传输至判断模块,判断模块将信息传输至SQL数据库后,政策资讯详细信息可以进一步传输至数据集中处理中心将信息进行进一步整合,并传输至数据查看端为工作人员进行查看,可以确保提取信息的准确度且提高了数据的提取速率;
2、通过设有管理操控端和输入模块,工作人员可以由管理操控端连接的输入模块输入所需资讯信息的关键词传输至数据集中处理中心,数据集中处理中心控制网络爬虫处理模块对关键词在网络爬虫内进行搜寻和提取,从而可以针对单一需求进行系统的提取和选择,能够得到更多的需求信息;
3、通过设有数据集中处理中心和紧急预警端,数据集中处理中心工作对网络爬虫处理模块传输信息进行整合和传输,整合过程中对信息的搜寻量和传输量进行统计,当资讯信息的搜寻量和传输量达到预警值时发出信号至紧急预警端从而可以及时提醒工作人员对信息进查看和处理,确保热点信息不被忽略且能够得到及时的处理。
附图说明
图1为本发明的整体结构原理图;
图2为本发明的网络爬虫处理模块原理图;
图中:1数据集中处理中心、2紧急预警端、3数据查看端、4管理操控端、41输入模块、42密码验证模块、5数据备份数据库、6数据存储数据库、7网络爬虫处理模块、71SQL数据库、72判断模块、73网页分析模块、74页面下载模块、75URL仓库。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一:
本发明提供了如图1-2所示的一种基于分布式爬虫技术的政策资讯采集管理系统,包括数据集中处理中心1,所述数据集中处理中心1输出端分别设有紧急预警端2、数据查看端3和管理操控端4,所述紧急预警端2、数据查看端3和管理操控端4相互连通,所述数据集中处理中心1通过以太网传输线缆分别连接有数据备份数据库5和数据存储数据库6,所述数据集中处理中心1连接端设有多个网络爬虫处理模块7,所述网络爬虫处理模块7包括SQL数据库71、判断模块72、网页分析模块73、页面下载模块74和URL仓库75。
所述数据集中处理中心1包括数据接收模块、数据传输模块、数据处理模块、数据分析模块和数据提取模块,所述数据集中处理中心1用于接收网络爬虫处理模块7传输数据并进行处理和传输,可以分别传输信号至紧急预警端2、数据查看端3和管理操控端4并可以将需要存储的数据传输至数据备份数据库5和数据存储数据库6内部进行存储。
所述紧急预警端2包括警报器和预警装置,所述预警装置内部设有SIM卡且输出端设有手机APP端,用于及时将预警信息传输至工作人员。
本实施例有益效果:数据集中处理中心1工作对网络爬虫处理模块7传输信息进行整合和传输,整合过程中对信息的搜寻量和传输量进行统计,当资讯信息的搜寻量和传输量达到预警值时发出信号至紧急预警端2从而可以及时提醒工作人员对信息进查看和处理,确保热点信息不被忽略且能够得到及时的处理。
实施例二:
所述数据查看端3用于工作人员进行查看数据集中处理中心1处理后所提取的政策资讯信息,所述数据查看端3设置为多个显示屏。
所述管理操控端4与数据集中处理中心1之间连通有输入模块41,所述输入模块41用于工作人员输入关键词至数据集中处理中心1后数据集中处理中心1对关键词在网络爬虫内进行搜寻并获取相应的资讯信息,所述管理操控端4内部设有密码验证模块42,所述密码验证模块42用于验证工作人员身份。
所述数据备份数据库5用于存储系统工作过程中可用的资讯信息,所述数据存储数据库6用于存储系统工作过程中由网络爬虫处理模块7传输至数据集中处理中心1的数据,所述数据备份数据库5与数据存储数据库6相互连通。
本实施例有益效果:工作人员可以由管理操控端4连接的输入模块41输入所需资讯信息的关键词传输至数据集中处理中心1,数据集中处理中心1控制网络爬虫处理模块7对关键词在网络爬虫内进行搜寻和提取,从而可以针对单一需求进行系统的提取和选择,能够得到更多的需求信息。
实施例三:
所述SQL数据库71与数据集中处理中心1连通,所述SQL数据库71连接端设有判断模块72,所述判断模块72连接端设有网页分析模块73,所述网页分析模块73连接端设有页面下载模块74,所述判断模块72和页面下载模块74连接端均设有URL仓库75,所述URL仓库75通过以太网与网络爬虫连通。
所述网络爬虫处理模块7通过ZooKeeper调节各模块工作,分布式协调工具,并且可以监控各个爬虫的运行状态,所述URL仓库75用于存储临时的网络页面,所述页面下载模块74用于下载网络页面可设置为HttpClient,所述网页分析模块73用于网页分析,解析出相关的需要的信息,可设置为HtmlCleaner或xPath,所述判断模块72用于判断网页分析模块73传输信息是否需要进一步传输至SQL数据库71,所述SQL数据库71用于存储爬取过来的政策资讯详细信息。
本实施例有益效果:网络爬虫处理模块7通过ZooKeeper调节各模块工作,分布式协调工具,并且可以监控各个爬虫的运行状态,页面下载模块74下载URL仓库75存储的网络页面并通过网页分析模块73进行网页分析,解析出相关的需要的信息后传输至判断模块72,判断模块72将信息传输至SQL数据库71后,政策资讯详细信息可以进一步传输至数据集中处理中心1将信息进行进一步整合并传输至数据查看端3为工作人员进行查看,可以确保提取信息的准确度且提高了数据的提取速率。
本发明工作原理:
参照说明书附图1和图2:网络爬虫处理模块7通过ZooKeeper调节各模块工作,分布式协调工具,并且可以监控各个爬虫的运行状态,页面下载模块74下载URL仓库75存储的网络页面并通过网页分析模块73进行网页分析,解析出相关的需要的信息后传输至判断模块72,判断模块72将信息传输至SQL数据库71后,政策资讯详细信息可以进一步传输至数据集中处理中心1将信息进行进一步整合并传输至数据查看端3为工作人员进行查看,可以确保提取信息的准确度且提高了数据的提取速率;
参照说明书附图1:数据集中处理中心1工作对网络爬虫处理模块7传输信息进行整合和传输,整合过程中对信息的搜寻量和传输量进行统计,当资讯信息的搜寻量和传输量达到预警值时发出信号至紧急预警端2从而可以及时提醒工作人员对信息进查看和处理,确保热点信息不被忽略且能够得到及时的处理;
参照说明书附图1和图2:工作人员可以由管理操控端4连接的输入模块41输入所需资讯信息的关键词传输至数据集中处理中心1,数据集中处理中心1控制网络爬虫处理模块7对关键词在网络爬虫内进行搜寻和提取,从而可以针对单一需求进行系统的提取和选择,能够得到更多的需求信息。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于分布式爬虫技术的政策资讯采集管理系统,包括数据集中处理中心(1),其特征在于:所述数据集中处理中心(1)输出端分别设有紧急预警端(2)、数据查看端(3)和管理操控端(4),所述紧急预警端(2)、数据查看端(3)和管理操控端(4)相互连通,所述数据集中处理中心(1)通过以太网传输线缆分别连接有数据备份数据库(5)和数据存储数据库(6),所述数据集中处理中心(1)连接端设有多个网络爬虫处理模块(7),所述网络爬虫处理模块(7)包括SQL数据库(71)、判断模块(72)、网页分析模块(73)、页面下载模块(74)和URL仓库(75)。
2.根据权利要求1所述的一种基于分布式爬虫技术的政策资讯采集管理系统,其特征在于:所述数据集中处理中心(1)包括数据接收模块、数据传输模块、数据处理模块、数据分析模块和数据提取模块,所述数据集中处理中心(1)用于接收网络爬虫处理模块(7)传输数据并进行处理和传输,可以分别传输信号至紧急预警端(2)、数据查看端(3)和管理操控端(4)并可以将需要存储的数据传输至数据备份数据库(5)和数据存储数据库(6)内部进行存储。
3.根据权利要求1所述的一种基于分布式爬虫技术的政策资讯采集管理系统,其特征在于:所述紧急预警端(2)包括警报器和预警装置,所述预警装置内部设有SIM卡且输出端设有手机APP端,用于及时将预警信息传输至工作人员。
4.根据权利要求1所述的一种基于分布式爬虫技术的政策资讯采集管理系统,其特征在于:所述数据查看端(3)用于工作人员进行查看数据集中处理中心(1)处理后所提取的政策资讯信息,所述数据查看端(3)设置为多个显示屏。
5.根据权利要求1所述的一种基于分布式爬虫技术的政策资讯采集管理系统,其特征在于:所述管理操控端(4)与数据集中处理中心(1)之间连通有输入模块(41),所述输入模块(41)用于工作人员输入关键词至数据集中处理中心(1)后数据集中处理中心(1)对关键词在网络爬虫内进行搜寻并获取相应的资讯信息,所述管理操控端(4)内部设有密码验证模块(42),所述密码验证模块(42)用于验证工作人员身份。
6.根据权利要求1所述的一种基于分布式爬虫技术的政策资讯采集管理系统,其特征在于:所述数据备份数据库(5)用于存储系统工作过程中可用的资讯信息,所述数据存储数据库(6)用于存储系统工作过程中由网络爬虫处理模块(7)传输至数据集中处理中心(1)的数据,所述数据备份数据库(5)与数据存储数据库(6)相互连通。
7.根据权利要求1所述的一种基于分布式爬虫技术的政策资讯采集管理系统,其特征在于:所述SQL数据库(71)与数据集中处理中心(1)连通,所述SQL数据库(71)连接端设有判断模块(72),所述判断模块(72)连接端设有网页分析模块(73),所述网页分析模块(73)连接端设有页面下载模块(74),所述判断模块(72)和页面下载模块(74)连接端均设有URL仓库(75),所述URL仓库(75)通过以太网与网络爬虫连通。
8.根据权利要求1所述的一种基于分布式爬虫技术的政策资讯采集管理系统,其特征在于:所述网络爬虫处理模块(7)通过ZooKeeper调节各模块工作,分布式协调工具,并且可以监控各个爬虫的运行状态,所述URL仓库(75)用于存储临时的网络页面,所述页面下载模块(74)用于下载网络页面可设置为HttpClient,所述网页分析模块(73)用于网页分析,解析出相关的需要的信息,可设置为HtmlCleaner或xPath,所述判断模块(72)用于判断网页分析模块(73)传输信息是否需要进一步传输至SQL数据库(71),所述SQL数据库(71)用于存储爬取过来的政策资讯详细信息。
CN201811200703.3A 2018-10-16 2018-10-16 一种基于分布式爬虫技术的政策资讯采集管理系统 Pending CN109299371A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811200703.3A CN109299371A (zh) 2018-10-16 2018-10-16 一种基于分布式爬虫技术的政策资讯采集管理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811200703.3A CN109299371A (zh) 2018-10-16 2018-10-16 一种基于分布式爬虫技术的政策资讯采集管理系统

Publications (1)

Publication Number Publication Date
CN109299371A true CN109299371A (zh) 2019-02-01

Family

ID=65162717

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811200703.3A Pending CN109299371A (zh) 2018-10-16 2018-10-16 一种基于分布式爬虫技术的政策资讯采集管理系统

Country Status (1)

Country Link
CN (1) CN109299371A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110442768A (zh) * 2019-08-01 2019-11-12 广州高企云信息科技有限公司 一种智能的政策信息采集和查询方法及其系统
CN112615744A (zh) * 2020-12-18 2021-04-06 安徽中杰信息科技有限公司 一种机房资产云安全管理平台

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105045838A (zh) * 2015-07-01 2015-11-11 华东师范大学 基于分布式存储系统的网络爬虫系统
CN107071009A (zh) * 2017-03-28 2017-08-18 江苏飞搏软件股份有限公司 一种负载均衡的分布式大数据爬虫系统
CN108280790A (zh) * 2018-01-31 2018-07-13 合肥和钧正策信息技术有限公司 基于大数据分析的政策信息服务系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105045838A (zh) * 2015-07-01 2015-11-11 华东师范大学 基于分布式存储系统的网络爬虫系统
CN107071009A (zh) * 2017-03-28 2017-08-18 江苏飞搏软件股份有限公司 一种负载均衡的分布式大数据爬虫系统
CN108280790A (zh) * 2018-01-31 2018-07-13 合肥和钧正策信息技术有限公司 基于大数据分析的政策信息服务系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110442768A (zh) * 2019-08-01 2019-11-12 广州高企云信息科技有限公司 一种智能的政策信息采集和查询方法及其系统
CN112615744A (zh) * 2020-12-18 2021-04-06 安徽中杰信息科技有限公司 一种机房资产云安全管理平台

Similar Documents

Publication Publication Date Title
CN110134674B (zh) 一种货币信贷大数据监测分析系统
CN107577805A (zh) 一种面向日志大数据分析的业务服务系统
CN110796470A (zh) 一种面向市场主体监管和服务的数据分析系统
CN109189782A (zh) 一种区块链商品交易查询中的索引方法
CN107995120A (zh) 构造多区块链的方法及多区块链系统
CN110147360A (zh) 一种数据整合方法、装置、存储介质和服务器
CN103473636B (zh) 一种收集、分析和分发网络商业信息的系统数据组件
CN102622443A (zh) 一种面向微博的定制化筛选系统及方法
WO2002037395A3 (en) Item specification object management system
CN104408587A (zh) 一种政府项目管理信息系统
CN107480988A (zh) 一种区块链来实现股票交易的监管系统
CN103793399A (zh) 一种政法系统信息资源整合方法
CN109299371A (zh) 一种基于分布式爬虫技术的政策资讯采集管理系统
CN110458296A (zh) 目标事件的标记方法和装置、存储介质及电子装置
CN104811506A (zh) 基于无线传感器网络的油脂储藏远程监管系统及方法
CN108038666A (zh) 一种基于互联网的企业信息采集系统
CN102346901A (zh) 一种互联网药品交易主体信用评估系统及其方法
CN109767227A (zh) 通过rds实现支付风险智能判断和控制的系统及方法
CN109241097A (zh) 一种流程的配置方法、计算机可读存储介质及终端设备
CN107682395A (zh) 一种大数据云计算运行系统及方法
CN108776878A (zh) 一种物流云大数据信息平台
CN109785055A (zh) 一种互联网票务商业化模式
CN106845946A (zh) 一种财务数据访问分析系统及使用方法
CN107918816A (zh) 水务巡查系统
CN108228787A (zh) 按照多级类目处理信息的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190201

RJ01 Rejection of invention patent application after publication