CN206728054U - 保密单位网络信息采集分析系统 - Google Patents
保密单位网络信息采集分析系统 Download PDFInfo
- Publication number
- CN206728054U CN206728054U CN201720595003.3U CN201720595003U CN206728054U CN 206728054 U CN206728054 U CN 206728054U CN 201720595003 U CN201720595003 U CN 201720595003U CN 206728054 U CN206728054 U CN 206728054U
- Authority
- CN
- China
- Prior art keywords
- network information
- data
- crawl
- subsystem
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Computer And Data Communications (AREA)
Abstract
本实用新型的保密单位网络信息采集分析系统,爬取设置客户、爬取节点、爬取主控节点、URL索引服务器以及、据接收、汇总服务器处于同一局域网中,通过内网通信,简化了网络信息采集子系统的同步、协调和管理工作,爬取节点通过VPN拨号的方式连入远程VPN代理服务器,解决了爬取节点抓取数据时的IP地址单一问题;通过网闸的隔离,爬取节点抓取的Internet中的数据只能单向传输到网络信息分析子系统中,网络信息分析子系统通过统筹处理Internet数据和保密数据,既保证保密数据的安全性又满足专网内用户对外网信息的需求。
Description
技术领域
本实用新型涉及一种保密单位网络信息采集分析系统,更具体的说,尤其涉及一种在保证专网数据安全性的基础上通过VPN代理服务器来解决访问IP地址单一问题的保密单位网络信息采集分析系统。
背景技术
随着互联网和移动互联网技术的不断发展,人们迎来了数据呈爆炸式增长的大数据时代。保密单位若能在自有保密数据的基础上更好的引入外部Web网络所承载的各类数据,对于更好地理解、丰富和使用自有数据有着积极地提升作用。网络爬虫系统可以帮助用户从外网中获取数据,为保密单位采集外部数据提供技术手段。
保密单位的自有保密数据及用户一般都部署在与外网物理隔离的专网中,这样既可保证保密数据的安全性又兼顾了单位内用户的正常使用。然而如何在保证专网内自有保密数据安全的基础上,有效地从Web网络中外部获取数据是此类单位所面临的第一个问题。
此外,由于保密单位的专网是与外网物理隔离的,一般不具备与外网通信的公网IP,其连入外网也大多是通过路由器接入运营商的方式访问Internet。在访问Internet过程中,所有接入Internet的设备共享运营商分配的同一个IP地址。
保密单位对Web信息的需求可能并不仅局限于政策导向类的网站或新闻发布类的网站,为更好地了解自身所涉及领域的热点、风向、倾向、动态等,可能还会涉及论坛、微博等即时互动平台数据的抓取。此类公众参与的即时互动平台数据更新频率远远高于网站,受服务器的限制,同一IP的爬虫在一定时间内只能采集同一目标数据源限定的数据。即使配置了多个爬虫,这些爬虫在访问目标数据源的过程中也将被运营商分配相同的IP地址,因此当其中一个爬虫达到访问上限时,其余爬虫也将被拒绝访问。如何保证即时互动平台数据采集的实时性是保密单位所面临的第二个问题。
发明内容
本实用新型为了克服上述技术问题的缺点,提供了一种保密单位网络信息采集分析系统。
本实用新型的保密单位网络信息采集分析系统,包括网络信息采集子系统、网络信息分析子系统以及最终用户,网络信息采集子系统部署于局域网内,网络信息分析子系统和最终用户均部署于保密隔离的专网内;其特征在于: 所述网络信息采集子系统由爬取设置客户端、爬取主控节点、多个爬取节点、URL索引服务器以及数据接收、汇总服务器构成,网络信息采集子系统经路由器接入运营商访问Internet;爬取设置客户端用于配置数据源、关键词和爬取策略,爬取主控节点根据爬取设置客户端的配置为各爬取节点分配任务,爬取节点根据爬取主控节点分配的任务选择一个VPN连接连入远程代理服务器,使用代理服务器访问Internet中的目标数据源;爬取节点采集的数据存储至数据接收、汇总服务器中,网络信息采集子系统经网闸与网络信息分析子系统相连接,网闸用于实现数据接收、汇总服务器至网络分析子系统的单向数据发送。
本实用新型的保密单位网络信息采集分析系统,所述网络信息分析子系统由Hadoop集群、保密数据服务器和应用服务器组成,Hadoop集群由一台主节点NameNode和多台从节点DataNode组成,主节点NameNode用于接收和存储数据接收、汇总服务器发送的单向数据;保密数据服务器用于存储各类保密性数据,应用服务器根据最终用于的请求返回从Internet中采集的数据和/或保密数据服务器中的数据。
本实用新型的保密单位网络信息采集分析系统,所述最终用户通过应用服务器提交请求并获取所需信息;最终用户与应用服务器间通过B/S形式或C/S形式交互信息。
本实用新型的保密单位网络信息采集分析系统,所述网络信息采集子系统和网络信息分析子系统中的各设备均为逻辑划分,并非每个设备均需一个物理设备与其对应;在设备性能富有余地的情况下,网络信息采集子系统中的爬取主控节点的功能可由某一个爬取节点承担,URL索引服务器和数据接收、汇总服务器也可由爬取主控节点承担;网络信息分析子系统中的应用服务器可并入Hadoop集群,由其中的某台服务器承担其功能。
本实用新型的有益效果是:首先,负责数据源采集的爬取节点、负责爬取管理的主控节点、负责数据查重过滤URL索引服务器、数据接收、汇总服务器以及爬取设置客户端共处于同一局域网中,相互之间可直接通过内网通信,简化了网络信息采集子系统的同步、协调和管理工作;其次,爬取节点通过VPN拨号的方式连入远程VPN代理服务器,进而使用代理服务器的公网IP地址访问数据源,通过切换VPN连接获取足够的公网IP,从而解决即时互动平台数据采集覆盖性和完整性问题。通过网闸的隔离,爬取节点抓取的Internet中的数据只能单向传输到网络信息分析子系统中,网络信息分析子系统通过统筹处理Internet数据和保密数据,既保证保密数据的安全性又满足专网内用户对外网信息的需求。
附图说明
图1为本实用新型的保密单位网络信息采集分析系统的部署结构图;
图2为本实用新型的保密单位网络信息采集分析系统的工作原理图。
具体实施方式
下面结合附图与实施例对本实用新型作进一步说明。
针对保密单位在接入外网的同时需保证专网数据的安全性要求,以及即时互动平台数据采集的实时性要求,本实用新型方案提出了一种保密单位网络信息采集分析系统。如图1和图2所示,分别给出了本实用新型的保密单位网络信息采集分析系统的部署结构图和工作原理图,其由网络信息采集子系统、网络信息分析子系统和最终用户组成,网络信息采集子系统部署于局域网内,网络信息分析子系统以及最终用户均部署于保密隔离的专网内,局域网与专网之间通过网闸连接。局域网内的服务器及客户端通过路由器接入运营商访问Internet。网闸负责局域网与专网之间的数据转发和隔离,通过在网闸上设置规则,只允许数据接收、汇总服务器向NameNode节点的数据单向传输,禁止专网数据向外网的传输,尽量减少内网与专网之间的数据交互,从而在保证专网数据安全性的基础上,有效引入外网数据。
所示的网络信息采集子系统由爬取设置客户端、爬取主控节点、多个爬取节点、URL索引服务器和数据接收、汇总服务器组成。爬取设置客户端用于配置数据源、关键词、爬取策略等;爬取主控节点根据爬取设置客户端的配置为多个爬取节点分配任务;爬取节点中部署着网络爬虫系统,在接到爬取主控节点分配的采集任务后选择一个VPN连接连入远程VPN代理服务器,使用代理服务器访问Internet中的目标数据源。
爬取主控节点在收到数据源和关键词后,根据抓取策略为各爬取节点分配数据采集任务。爬取主控节点将定时接收各爬取节点的心跳及任务完成情况,以确定可用的爬取节点及各节点的任务完成进度,并根据所配置的抓取策略动态调整各爬取节点的任务分配,以均衡网络信息采集子系统的负载。当一段时间内接收不到某爬取节点的心跳信号,则认为此爬取节点宕机,将其所承担的任务根据负载分配给其他爬取节点。而当有新的心跳产生时,则认为有新的爬取节点加入,可为新的节点分配新任务。
当爬取主控节点有新的任务分配时,爬取节点首先将目标数据源的URL与URL索引服务器所维护的URL列表进行比对,当URL列表中包含目标数据源URL时,说明系统已采集过此目标数据源的数据,可直接结束此任务,等待爬取主控节点下一个任务的分配。当URL列表中不包含目标数据源URL时,URL索引服务器将此目标数据源URL记录到URL列表,同时爬取节点在自身所维护的VPN连接列表中选择一个连接接入远程VPN代理服务器,通过代理服务器访问Internet中的目标数据源,通过连接VPN使用远程代理服务器的IP地址访问目标数据源的方式解决访问时IP地址单一问题。
当爬取节点所接到的任务是采集同一即时互动类目标数据源的数据时,在采集到一定数据后记录采集状态,断开与当前VPN代理服务器的连接,重新在VPN连接列表中选择一个新的连接,接着之前记录的采集状态继续后续采集任务。各个爬取节点所采集的数据均交由数据接收、汇总服务器统一处理。数据接收、汇总服务器在接收到各个爬取节点所采集的数据后进行汇总,通过网闸发送给网络信息分析子系统的NameNode节点,交由Hadoop集群存储。
所示网络信息分析子系统由Hadoop集群、保密数据服务器和应用服务器组成,其中Hadoop集群由一台主节点(NameNode)和多台从节点(DataNode)组成;网络信息分析子系统中Hadoop的NameNode节点从网络信息采集子系统的数据接收、汇总服务器处获取数据,存储于Hadoop平台HDFS文件系统或HBase中;保密数据服务器负责存储保密单位的各级各类保密性数据;应用服务器接收用户请求并交由Hadoop平台MapReduce模型处理数据进行加工分析,处理结果由应用服务器返回给用户;Hadoop平台在接收到用户请求后利用MapReduce模型统筹分析处理从Internet中采集的数据及保密数据服务器中的数据,生成用户所需信息返回给应用服务器。
网闸在接收到数据后,根据规则设定的链路,只接来自于接收、汇总服务器的数据,并将接收到的数据转发给网络信息分析子系统中Hadoop集群的NameNode节点,而其他非设定链路的数据转发请求直接被网闸丢弃。网络信息分析子系统中Hadoop集群的NameNode节点在接收到数据接收、汇总服务器发送的数据后将其分布式地存储于HDFS或HBase。用户需要检索某方面的数据时将向应用服务器提出请求,应用服务器在接收到用户请求后,将请求提交给网络信息分析子系统中的NameNode节点,交由Hadoop集群处理。
网络信息分析子系统中Hadoop集群的NameNode节点在接收到应用服务器的处理请求时从HDFS或HBase以及保密数据服务器中抽取所需数据,按照MapReduce模式生成处理任务交由DataNode节点并行处理,并将最终处理结果返回给应用服务器,由应用服务器以图形化的方式展现给用户。
网络信息采集子系统和网络信息分析子系统中的各设备均为逻辑划分,并非每个设备均需一个物理设备与其对应。在设备性能富有余地的情况下,网络信息采集子系统中的爬取主控节点的功能可由某一个爬取节点承担;而URL索引服务器和数据接收、汇总服务器也可由爬取主控节点承担;网络信息分析子系统中的应用服务器可并入Hadoop集群,由其中的某台服务器承担其功能。用户通过应用服务器提交请求并获取所需信息。用户与应用服务器间可通过B/S形式或C/S形式交互信息。
Claims (4)
1.一种保密单位网络信息采集分析系统,包括网络信息采集子系统、网络信息分析子系统以及最终用户,网络信息采集子系统部署于局域网内,网络信息分析子系统和最终用户均部署于保密隔离的专网内;其特征在于: 所述网络信息采集子系统由爬取设置客户端、爬取主控节点、多个爬取节点、URL索引服务器以及数据接收、汇总服务器构成,网络信息采集子系统经路由器接入运营商访问Internet;爬取设置客户端用于配置数据源、关键词和爬取策略,爬取主控节点根据爬取设置客户端的配置为各爬取节点分配任务,爬取节点根据爬取主控节点分配的任务选择一个VPN连接连入远程代理服务器,使用代理服务器访问Internet中的目标数据源;爬取节点采集的数据存储至数据接收、汇总服务器中,网络信息采集子系统经网闸与网络信息分析子系统相连接,网闸用于实现数据接收、汇总服务器至网络分析子系统的单向数据发送。
2.根据权利要求1所述的保密单位网络信息采集分析系统,其特征在于:所述网络信息分析子系统由Hadoop集群、保密数据服务器和应用服务器组成,Hadoop集群由一台主节点NameNode和多台从节点DataNode组成,主节点NameNode用于接收和存储数据接收、汇总服务器发送的单向数据;保密数据服务器用于存储各类保密性数据,应用服务器根据最终用于的请求返回从Internet中采集的数据和/或保密数据服务器中的数据。
3.根据权利要求2所述的保密单位网络信息采集分析系统,其特征在于:所述最终用户通过应用服务器提交请求并获取所需信息;最终用户与应用服务器间通过B/S形式或C/S形式交互信息。
4.根据权利要求1或2所述的保密单位网络信息采集分析系统,其特征在于:所述网络信息采集子系统和网络信息分析子系统中的各设备均为逻辑划分,并非每个设备均需一个物理设备与其对应;在设备性能富有余地的情况下,网络信息采集子系统中的爬取主控节点的功能可由某一个爬取节点承担,URL索引服务器和数据接收、汇总服务器也可由爬取主控节点承担;网络信息分析子系统中的应用服务器可并入Hadoop集群,由其中的某台服务器承担其功能。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201720595003.3U CN206728054U (zh) | 2017-05-26 | 2017-05-26 | 保密单位网络信息采集分析系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201720595003.3U CN206728054U (zh) | 2017-05-26 | 2017-05-26 | 保密单位网络信息采集分析系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN206728054U true CN206728054U (zh) | 2017-12-08 |
Family
ID=60511583
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201720595003.3U Active CN206728054U (zh) | 2017-05-26 | 2017-05-26 | 保密单位网络信息采集分析系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN206728054U (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109996031A (zh) * | 2017-12-29 | 2019-07-09 | 浙江宇视科技有限公司 | 监控系统及监控方法 |
CN110213318A (zh) * | 2018-09-21 | 2019-09-06 | 腾讯科技(深圳)有限公司 | 一种数据传输控制的方法、设备及存储介质 |
CN111488508A (zh) * | 2020-04-10 | 2020-08-04 | 长春博立电子科技有限公司 | 一种支持多协议分布式高并发的互联网信息采集系统及方法 |
-
2017
- 2017-05-26 CN CN201720595003.3U patent/CN206728054U/zh active Active
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109996031A (zh) * | 2017-12-29 | 2019-07-09 | 浙江宇视科技有限公司 | 监控系统及监控方法 |
CN109996031B (zh) * | 2017-12-29 | 2021-06-01 | 浙江宇视科技有限公司 | 监控系统及监控方法 |
CN110213318A (zh) * | 2018-09-21 | 2019-09-06 | 腾讯科技(深圳)有限公司 | 一种数据传输控制的方法、设备及存储介质 |
CN110213318B (zh) * | 2018-09-21 | 2021-09-28 | 腾讯科技(深圳)有限公司 | 一种数据传输控制的方法、设备及存储介质 |
CN111488508A (zh) * | 2020-04-10 | 2020-08-04 | 长春博立电子科技有限公司 | 一种支持多协议分布式高并发的互联网信息采集系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69909839T3 (de) | Optimierte Lokalisierung von Netzwerkbetriebsmittel | |
CN105247529B (zh) | 在目录服务之间同步凭证散列 | |
DE60019997T2 (de) | Ggesicherte Kommunikation mit mobilen Rechnern | |
DE69719963T2 (de) | Proxyserversystem zur verbesserung der funktionalität von rechnern, die auf internetserver zugreifen | |
DE60019640T2 (de) | Digitales Rechnersystem und Verfahren zur Beantwortung von über ein externes Netzwerk empfangenen Anfragen | |
DE602004010519T2 (de) | Fernzugriffs-vpn-aushandlungsverfahren und aushandlungseinrichtung | |
DE69838769T2 (de) | System und Verfahren zum anonymen, personalisierten Browsen in einem Netzwerk | |
DE60122782T2 (de) | Adressierungsverfahren und system zur verwendung einer anycast-adresse | |
CN105721420B (zh) | 访问权限控制方法和反向代理服务器 | |
CN206728054U (zh) | 保密单位网络信息采集分析系统 | |
CN108921551A (zh) | 基于Kubernetes平台的联盟区块链系统 | |
DE112010005474T5 (de) | Vorrichtung und Verfahren zum Zuordnen von Nutzern für Online-Sitzungen | |
CN107241319A (zh) | 基于vpn的分布式网络爬虫系统及调度方法 | |
CN102217273A (zh) | 用于应用流畅性策略的系统和方法 | |
CN108924199A (zh) | 爬虫程序自动获取网络代理服务器的方法、装置、计算机存储介质及终端设备 | |
DE102012218575B4 (de) | Schützen der Privatsphäre beim Austauschen von Daten mit einem Webserver | |
CN109513206A (zh) | 网络游戏的网络架构及用于网络游戏的数据转发方法 | |
DE60035348T2 (de) | Verlängerbarer Bereitstellungsmechanismus für einen Diensten-gateway | |
CN108737527A (zh) | 一种适用于平台大规模用户访问方法及系统 | |
CN110351288A (zh) | 一种一个产品含有多个栏目的数据推送方法 | |
CN106559787A (zh) | 网络接入方法、装置及系统 | |
EP3152884B1 (de) | Verfahren zur weiterleitung von daten zwischen computersystemen, computernetz-infrastruktur sowie computerprogramm-produkt | |
CN103957124A (zh) | 一种采集任务的分布式采集方法及采集系统 | |
CN101686170B (zh) | 基于多出口用户路由的分级传输品质保障系统 | |
CN1997005B (zh) | 网络通信数据管控系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
GR01 | Patent grant | ||
GR01 | Patent grant |