CN206728054U - 保密单位网络信息采集分析系统 - Google Patents

保密单位网络信息采集分析系统 Download PDF

Info

Publication number
CN206728054U
CN206728054U CN201720595003.3U CN201720595003U CN206728054U CN 206728054 U CN206728054 U CN 206728054U CN 201720595003 U CN201720595003 U CN 201720595003U CN 206728054 U CN206728054 U CN 206728054U
Authority
CN
China
Prior art keywords
network information
data
crawl
subsystem
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201720595003.3U
Other languages
English (en)
Inventor
魏墨济
刘向阳
朱世伟
李宪毅
李晨
杨爱芹
于俊凤
徐蓓蓓
刘翠琴
张铭君
董婷
李思思
冯海洲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
INFORMATION RESEARCH INSTITUTE OF SHANDONG ACADEMY OF SCIENCES
Original Assignee
INFORMATION RESEARCH INSTITUTE OF SHANDONG ACADEMY OF SCIENCES
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by INFORMATION RESEARCH INSTITUTE OF SHANDONG ACADEMY OF SCIENCES filed Critical INFORMATION RESEARCH INSTITUTE OF SHANDONG ACADEMY OF SCIENCES
Priority to CN201720595003.3U priority Critical patent/CN206728054U/zh
Application granted granted Critical
Publication of CN206728054U publication Critical patent/CN206728054U/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Computer And Data Communications (AREA)

Abstract

本实用新型的保密单位网络信息采集分析系统,爬取设置客户、爬取节点、爬取主控节点、URL索引服务器以及、据接收、汇总服务器处于同一局域网中,通过内网通信,简化了网络信息采集子系统的同步、协调和管理工作,爬取节点通过VPN拨号的方式连入远程VPN代理服务器,解决了爬取节点抓取数据时的IP地址单一问题;通过网闸的隔离,爬取节点抓取的Internet中的数据只能单向传输到网络信息分析子系统中,网络信息分析子系统通过统筹处理Internet数据和保密数据,既保证保密数据的安全性又满足专网内用户对外网信息的需求。

Description

保密单位网络信息采集分析系统
技术领域
本实用新型涉及一种保密单位网络信息采集分析系统,更具体的说,尤其涉及一种在保证专网数据安全性的基础上通过VPN代理服务器来解决访问IP地址单一问题的保密单位网络信息采集分析系统。
背景技术
随着互联网和移动互联网技术的不断发展,人们迎来了数据呈爆炸式增长的大数据时代。保密单位若能在自有保密数据的基础上更好的引入外部Web网络所承载的各类数据,对于更好地理解、丰富和使用自有数据有着积极地提升作用。网络爬虫系统可以帮助用户从外网中获取数据,为保密单位采集外部数据提供技术手段。
保密单位的自有保密数据及用户一般都部署在与外网物理隔离的专网中,这样既可保证保密数据的安全性又兼顾了单位内用户的正常使用。然而如何在保证专网内自有保密数据安全的基础上,有效地从Web网络中外部获取数据是此类单位所面临的第一个问题。
此外,由于保密单位的专网是与外网物理隔离的,一般不具备与外网通信的公网IP,其连入外网也大多是通过路由器接入运营商的方式访问Internet。在访问Internet过程中,所有接入Internet的设备共享运营商分配的同一个IP地址。
保密单位对Web信息的需求可能并不仅局限于政策导向类的网站或新闻发布类的网站,为更好地了解自身所涉及领域的热点、风向、倾向、动态等,可能还会涉及论坛、微博等即时互动平台数据的抓取。此类公众参与的即时互动平台数据更新频率远远高于网站,受服务器的限制,同一IP的爬虫在一定时间内只能采集同一目标数据源限定的数据。即使配置了多个爬虫,这些爬虫在访问目标数据源的过程中也将被运营商分配相同的IP地址,因此当其中一个爬虫达到访问上限时,其余爬虫也将被拒绝访问。如何保证即时互动平台数据采集的实时性是保密单位所面临的第二个问题。
发明内容
本实用新型为了克服上述技术问题的缺点,提供了一种保密单位网络信息采集分析系统。
本实用新型的保密单位网络信息采集分析系统,包括网络信息采集子系统、网络信息分析子系统以及最终用户,网络信息采集子系统部署于局域网内,网络信息分析子系统和最终用户均部署于保密隔离的专网内;其特征在于: 所述网络信息采集子系统由爬取设置客户端、爬取主控节点、多个爬取节点、URL索引服务器以及数据接收、汇总服务器构成,网络信息采集子系统经路由器接入运营商访问Internet;爬取设置客户端用于配置数据源、关键词和爬取策略,爬取主控节点根据爬取设置客户端的配置为各爬取节点分配任务,爬取节点根据爬取主控节点分配的任务选择一个VPN连接连入远程代理服务器,使用代理服务器访问Internet中的目标数据源;爬取节点采集的数据存储至数据接收、汇总服务器中,网络信息采集子系统经网闸与网络信息分析子系统相连接,网闸用于实现数据接收、汇总服务器至网络分析子系统的单向数据发送。
本实用新型的保密单位网络信息采集分析系统,所述网络信息分析子系统由Hadoop集群、保密数据服务器和应用服务器组成,Hadoop集群由一台主节点NameNode和多台从节点DataNode组成,主节点NameNode用于接收和存储数据接收、汇总服务器发送的单向数据;保密数据服务器用于存储各类保密性数据,应用服务器根据最终用于的请求返回从Internet中采集的数据和/或保密数据服务器中的数据。
本实用新型的保密单位网络信息采集分析系统,所述最终用户通过应用服务器提交请求并获取所需信息;最终用户与应用服务器间通过B/S形式或C/S形式交互信息。
本实用新型的保密单位网络信息采集分析系统,所述网络信息采集子系统和网络信息分析子系统中的各设备均为逻辑划分,并非每个设备均需一个物理设备与其对应;在设备性能富有余地的情况下,网络信息采集子系统中的爬取主控节点的功能可由某一个爬取节点承担,URL索引服务器和数据接收、汇总服务器也可由爬取主控节点承担;网络信息分析子系统中的应用服务器可并入Hadoop集群,由其中的某台服务器承担其功能。
本实用新型的有益效果是:首先,负责数据源采集的爬取节点、负责爬取管理的主控节点、负责数据查重过滤URL索引服务器、数据接收、汇总服务器以及爬取设置客户端共处于同一局域网中,相互之间可直接通过内网通信,简化了网络信息采集子系统的同步、协调和管理工作;其次,爬取节点通过VPN拨号的方式连入远程VPN代理服务器,进而使用代理服务器的公网IP地址访问数据源,通过切换VPN连接获取足够的公网IP,从而解决即时互动平台数据采集覆盖性和完整性问题。通过网闸的隔离,爬取节点抓取的Internet中的数据只能单向传输到网络信息分析子系统中,网络信息分析子系统通过统筹处理Internet数据和保密数据,既保证保密数据的安全性又满足专网内用户对外网信息的需求。
附图说明
图1为本实用新型的保密单位网络信息采集分析系统的部署结构图;
图2为本实用新型的保密单位网络信息采集分析系统的工作原理图。
具体实施方式
下面结合附图与实施例对本实用新型作进一步说明。
针对保密单位在接入外网的同时需保证专网数据的安全性要求,以及即时互动平台数据采集的实时性要求,本实用新型方案提出了一种保密单位网络信息采集分析系统。如图1和图2所示,分别给出了本实用新型的保密单位网络信息采集分析系统的部署结构图和工作原理图,其由网络信息采集子系统、网络信息分析子系统和最终用户组成,网络信息采集子系统部署于局域网内,网络信息分析子系统以及最终用户均部署于保密隔离的专网内,局域网与专网之间通过网闸连接。局域网内的服务器及客户端通过路由器接入运营商访问Internet。网闸负责局域网与专网之间的数据转发和隔离,通过在网闸上设置规则,只允许数据接收、汇总服务器向NameNode节点的数据单向传输,禁止专网数据向外网的传输,尽量减少内网与专网之间的数据交互,从而在保证专网数据安全性的基础上,有效引入外网数据。
所示的网络信息采集子系统由爬取设置客户端、爬取主控节点、多个爬取节点、URL索引服务器和数据接收、汇总服务器组成。爬取设置客户端用于配置数据源、关键词、爬取策略等;爬取主控节点根据爬取设置客户端的配置为多个爬取节点分配任务;爬取节点中部署着网络爬虫系统,在接到爬取主控节点分配的采集任务后选择一个VPN连接连入远程VPN代理服务器,使用代理服务器访问Internet中的目标数据源。
爬取主控节点在收到数据源和关键词后,根据抓取策略为各爬取节点分配数据采集任务。爬取主控节点将定时接收各爬取节点的心跳及任务完成情况,以确定可用的爬取节点及各节点的任务完成进度,并根据所配置的抓取策略动态调整各爬取节点的任务分配,以均衡网络信息采集子系统的负载。当一段时间内接收不到某爬取节点的心跳信号,则认为此爬取节点宕机,将其所承担的任务根据负载分配给其他爬取节点。而当有新的心跳产生时,则认为有新的爬取节点加入,可为新的节点分配新任务。
当爬取主控节点有新的任务分配时,爬取节点首先将目标数据源的URL与URL索引服务器所维护的URL列表进行比对,当URL列表中包含目标数据源URL时,说明系统已采集过此目标数据源的数据,可直接结束此任务,等待爬取主控节点下一个任务的分配。当URL列表中不包含目标数据源URL时,URL索引服务器将此目标数据源URL记录到URL列表,同时爬取节点在自身所维护的VPN连接列表中选择一个连接接入远程VPN代理服务器,通过代理服务器访问Internet中的目标数据源,通过连接VPN使用远程代理服务器的IP地址访问目标数据源的方式解决访问时IP地址单一问题。
当爬取节点所接到的任务是采集同一即时互动类目标数据源的数据时,在采集到一定数据后记录采集状态,断开与当前VPN代理服务器的连接,重新在VPN连接列表中选择一个新的连接,接着之前记录的采集状态继续后续采集任务。各个爬取节点所采集的数据均交由数据接收、汇总服务器统一处理。数据接收、汇总服务器在接收到各个爬取节点所采集的数据后进行汇总,通过网闸发送给网络信息分析子系统的NameNode节点,交由Hadoop集群存储。
所示网络信息分析子系统由Hadoop集群、保密数据服务器和应用服务器组成,其中Hadoop集群由一台主节点(NameNode)和多台从节点(DataNode)组成;网络信息分析子系统中Hadoop的NameNode节点从网络信息采集子系统的数据接收、汇总服务器处获取数据,存储于Hadoop平台HDFS文件系统或HBase中;保密数据服务器负责存储保密单位的各级各类保密性数据;应用服务器接收用户请求并交由Hadoop平台MapReduce模型处理数据进行加工分析,处理结果由应用服务器返回给用户;Hadoop平台在接收到用户请求后利用MapReduce模型统筹分析处理从Internet中采集的数据及保密数据服务器中的数据,生成用户所需信息返回给应用服务器。
网闸在接收到数据后,根据规则设定的链路,只接来自于接收、汇总服务器的数据,并将接收到的数据转发给网络信息分析子系统中Hadoop集群的NameNode节点,而其他非设定链路的数据转发请求直接被网闸丢弃。网络信息分析子系统中Hadoop集群的NameNode节点在接收到数据接收、汇总服务器发送的数据后将其分布式地存储于HDFS或HBase。用户需要检索某方面的数据时将向应用服务器提出请求,应用服务器在接收到用户请求后,将请求提交给网络信息分析子系统中的NameNode节点,交由Hadoop集群处理。
网络信息分析子系统中Hadoop集群的NameNode节点在接收到应用服务器的处理请求时从HDFS或HBase以及保密数据服务器中抽取所需数据,按照MapReduce模式生成处理任务交由DataNode节点并行处理,并将最终处理结果返回给应用服务器,由应用服务器以图形化的方式展现给用户。
网络信息采集子系统和网络信息分析子系统中的各设备均为逻辑划分,并非每个设备均需一个物理设备与其对应。在设备性能富有余地的情况下,网络信息采集子系统中的爬取主控节点的功能可由某一个爬取节点承担;而URL索引服务器和数据接收、汇总服务器也可由爬取主控节点承担;网络信息分析子系统中的应用服务器可并入Hadoop集群,由其中的某台服务器承担其功能。用户通过应用服务器提交请求并获取所需信息。用户与应用服务器间可通过B/S形式或C/S形式交互信息。

Claims (4)

1.一种保密单位网络信息采集分析系统,包括网络信息采集子系统、网络信息分析子系统以及最终用户,网络信息采集子系统部署于局域网内,网络信息分析子系统和最终用户均部署于保密隔离的专网内;其特征在于: 所述网络信息采集子系统由爬取设置客户端、爬取主控节点、多个爬取节点、URL索引服务器以及数据接收、汇总服务器构成,网络信息采集子系统经路由器接入运营商访问Internet;爬取设置客户端用于配置数据源、关键词和爬取策略,爬取主控节点根据爬取设置客户端的配置为各爬取节点分配任务,爬取节点根据爬取主控节点分配的任务选择一个VPN连接连入远程代理服务器,使用代理服务器访问Internet中的目标数据源;爬取节点采集的数据存储至数据接收、汇总服务器中,网络信息采集子系统经网闸与网络信息分析子系统相连接,网闸用于实现数据接收、汇总服务器至网络分析子系统的单向数据发送。
2.根据权利要求1所述的保密单位网络信息采集分析系统,其特征在于:所述网络信息分析子系统由Hadoop集群、保密数据服务器和应用服务器组成,Hadoop集群由一台主节点NameNode和多台从节点DataNode组成,主节点NameNode用于接收和存储数据接收、汇总服务器发送的单向数据;保密数据服务器用于存储各类保密性数据,应用服务器根据最终用于的请求返回从Internet中采集的数据和/或保密数据服务器中的数据。
3.根据权利要求2所述的保密单位网络信息采集分析系统,其特征在于:所述最终用户通过应用服务器提交请求并获取所需信息;最终用户与应用服务器间通过B/S形式或C/S形式交互信息。
4.根据权利要求1或2所述的保密单位网络信息采集分析系统,其特征在于:所述网络信息采集子系统和网络信息分析子系统中的各设备均为逻辑划分,并非每个设备均需一个物理设备与其对应;在设备性能富有余地的情况下,网络信息采集子系统中的爬取主控节点的功能可由某一个爬取节点承担,URL索引服务器和数据接收、汇总服务器也可由爬取主控节点承担;网络信息分析子系统中的应用服务器可并入Hadoop集群,由其中的某台服务器承担其功能。
CN201720595003.3U 2017-05-26 2017-05-26 保密单位网络信息采集分析系统 Active CN206728054U (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201720595003.3U CN206728054U (zh) 2017-05-26 2017-05-26 保密单位网络信息采集分析系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201720595003.3U CN206728054U (zh) 2017-05-26 2017-05-26 保密单位网络信息采集分析系统

Publications (1)

Publication Number Publication Date
CN206728054U true CN206728054U (zh) 2017-12-08

Family

ID=60511583

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201720595003.3U Active CN206728054U (zh) 2017-05-26 2017-05-26 保密单位网络信息采集分析系统

Country Status (1)

Country Link
CN (1) CN206728054U (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109996031A (zh) * 2017-12-29 2019-07-09 浙江宇视科技有限公司 监控系统及监控方法
CN110213318A (zh) * 2018-09-21 2019-09-06 腾讯科技(深圳)有限公司 一种数据传输控制的方法、设备及存储介质
CN111488508A (zh) * 2020-04-10 2020-08-04 长春博立电子科技有限公司 一种支持多协议分布式高并发的互联网信息采集系统及方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109996031A (zh) * 2017-12-29 2019-07-09 浙江宇视科技有限公司 监控系统及监控方法
CN109996031B (zh) * 2017-12-29 2021-06-01 浙江宇视科技有限公司 监控系统及监控方法
CN110213318A (zh) * 2018-09-21 2019-09-06 腾讯科技(深圳)有限公司 一种数据传输控制的方法、设备及存储介质
CN110213318B (zh) * 2018-09-21 2021-09-28 腾讯科技(深圳)有限公司 一种数据传输控制的方法、设备及存储介质
CN111488508A (zh) * 2020-04-10 2020-08-04 长春博立电子科技有限公司 一种支持多协议分布式高并发的互联网信息采集系统及方法

Similar Documents

Publication Publication Date Title
DE69909839T3 (de) Optimierte Lokalisierung von Netzwerkbetriebsmittel
CN105247529B (zh) 在目录服务之间同步凭证散列
DE60019997T2 (de) Ggesicherte Kommunikation mit mobilen Rechnern
DE60019640T2 (de) Digitales Rechnersystem und Verfahren zur Beantwortung von über ein externes Netzwerk empfangenen Anfragen
DE602004010519T2 (de) Fernzugriffs-vpn-aushandlungsverfahren und aushandlungseinrichtung
DE69838769T2 (de) System und Verfahren zum anonymen, personalisierten Browsen in einem Netzwerk
DE60122782T2 (de) Adressierungsverfahren und system zur verwendung einer anycast-adresse
CN105721420B (zh) 访问权限控制方法和反向代理服务器
CN206728054U (zh) 保密单位网络信息采集分析系统
CN107409079A (zh) 用于全局虚拟网络的系统和方法
CN107079060A (zh) 用于运营商级nat优化的系统和方法
DE112010005474T5 (de) Vorrichtung und Verfahren zum Zuordnen von Nutzern für Online-Sitzungen
EP1854261A1 (de) Verfahren zur übertragung von digitalen inhalten eines inhalteanbieters an die nutzer eines online-inhalteübertragungssystems
CN103957282B (zh) 一种域内终端用户域名解析加速系统及其方法
DE60035348T2 (de) Verlängerbarer Bereitstellungsmechanismus für einen Diensten-gateway
CN106844111A (zh) 云存储网络文件系统的访问方法
DE102012218575A1 (de) Schützen der Privatsphäre beim Austauschen von Daten mit einem Webserver
CN108737527A (zh) 一种适用于平台大规模用户访问方法及系统
CN110351288A (zh) 一种一个产品含有多个栏目的数据推送方法
CN106559787A (zh) 网络接入方法、装置及系统
CN106713283A (zh) 一种基于PaaS媒体技术的网间安全交互的系统及其方法
CN105262800B (zh) 一种应用于集群nas文件系统的权限控制方法及系统
EP3152884B1 (de) Verfahren zur weiterleitung von daten zwischen computersystemen, computernetz-infrastruktur sowie computerprogramm-produkt
CN103401705A (zh) 一种视频监控网络内集中式存储管理方法
CN100365591C (zh) 基于客户端的网络地址分配方法

Legal Events

Date Code Title Description
GR01 Patent grant
GR01 Patent grant