CN111277560A - 一种基于高带宽物理隔离单向传输的安全情报采集导入整编方法及系统 - Google Patents

一种基于高带宽物理隔离单向传输的安全情报采集导入整编方法及系统 Download PDF

Info

Publication number
CN111277560A
CN111277560A CN201911344502.5A CN201911344502A CN111277560A CN 111277560 A CN111277560 A CN 111277560A CN 201911344502 A CN201911344502 A CN 201911344502A CN 111277560 A CN111277560 A CN 111277560A
Authority
CN
China
Prior art keywords
information
data
receiving end
acquisition
collection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911344502.5A
Other languages
English (en)
Inventor
周萍
缪嘉嘉
李海锋
邹德强
毛捍东
郭磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Universal Nanjing Intelligent Technology Co Ltd
Original Assignee
Universal Nanjing Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Universal Nanjing Intelligent Technology Co Ltd filed Critical Universal Nanjing Intelligent Technology Co Ltd
Priority to CN201911344502.5A priority Critical patent/CN111277560A/zh
Publication of CN111277560A publication Critical patent/CN111277560A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/02Network architectures or network communication protocols for network security for separating internal from external traffic, e.g. firewalls
    • H04L63/0209Architectural arrangements, e.g. perimeter networks or demilitarized zones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems

Abstract

本发明提出了一种基于高带宽物理隔离单向传输的安全情报采集导入整编方法及系统,各采集节点读取本地sqlite获取情报采集计划;执行采集任务,并将采集结果以json形式组成文件上传到服务器;发送端服务器根据调度策略调度采集任务,将采集的文件发送到单向传输设备的发送端;单向设备通过光盘介质将数据传送到对应设备接收端;接收端服务器收到单向设备的文件后进行MD5校验后导入情报系统;使用大数据分析技术,将接收端网络中的情报信息与采集的情报数据进行关联,形成知识库,生成知识图谱,便于情报信息的检索和分析。

Description

一种基于高带宽物理隔离单向传输的安全情报采集导入整编 方法及系统
技术领域
本发明属于信息整合领域,具体为一种基于高带宽物理隔离单向传输的安全情报采集导入整编方法及系统,适用于在两个相互隔离的网络之间,进行情报信息采集、发送、导入和整编。
背景技术
有保密需求的行业,如党政军保护国家秘密,企事业单位保护商业秘密或客户隐私,常见的安全手段是将涉密网络和公共网络(如互联网)之间进行物理隔离,在党政军口均有相关的管理规定,要求内部网络与互联网进行物理隔离,公安部推行的等级保护也对物理隔离有明确要求。物理隔离的定义是指两个网络之间不能有任何物理器件进行连接。
光盘摆渡机,采用光盘作为媒介,可自动在两张物理隔离网络之间进行数据传输,且数据传输带宽大,目前在公安、军队等信息安全认证部门对光盘摆渡机、二维码摆渡机等设备认可,颁发物理隔离传输设备的销售许可。
如今互联网迅速发展,各大新闻门户网站层出不穷,如:新浪、网易、凤凰网、新华社等,每个门户网站都包含不同的情报信息,每天有多达几十G到上百G的情报数据,随着大数据时代到来,人们对数据的利用不再局限于查阅数据,还需要深度挖掘数据价值,如何快速收集这些数据、在物理隔离的网络中及时检索这些数据、利用数据与内部情报信息结合分析成为一个难题,目前市面上存在较多的爬虫工具,可实现采集,但是如何快速采集并保证数据在物理隔离的网络上实时检索和分析,且实现整个过程自动完成的方法,目前还没有。
发明内容
针对物理隔离网络之间的情报数据共享和利用的需求,需要解决在隔离网络中情报信息的采集、传输、导入和整编,并确保整个过程自动、安全、可靠,本发明提出了一种基于高带宽物理隔离单向传输的安全情报采集导入整编方法,解决在物理隔离网络中情报信息的自动、及时、安全传输,并自动分析数据与内网情报系统的实体、关系等进行关联,方便情报人员及时查看情报并分析问题。
一方面,本发明提出的一种基于高带宽物理隔离单向传输的安全情报采集导入整编方法,其核心是将采集和发布分开处理,中间加入光盘摆渡机设备自动完成数据交换,同时在发布端结合知识图谱技术分析数据,整个过程分四个步骤完成:采集、传输、导入、整编,该方法包括:
采集端根据xpath+xslt方法编写采集规则,使用爬虫技术进行各大网站情报信息采集;
发送端使用调度算法,结合蓝光光盘和多光驱并发刻录技术,刻录数据到光盘;
发送端使用光盘摆渡机,自动将已刻录的光盘移到只读光驱;
接收端监听只读光驱、读取光盘内容、弹出光盘,完成跨网数据交换;
接收端读取到采集文件导入内网情报系统,支持数据库:神通、达梦、人大金仓、Oracle、MySQL、SQL Server;
接收端使用知识图谱分析方法,将采集数据与内网情报系统中实体、关系等结合,挖掘数据价值;
另一方面,本发明提出的一种基于高带宽物理隔离单向传输的安全情报采集导入整编系统,所述系统包括:
采集模块,在采集节点上定时采集情报数据并处理成json格式上报采集服务器;
传输模块,在发送端,接收采集模块的输入,并将文件刻到光盘中,通过光盘介质传送到接收端;
导入模块,在接收端,接收光盘数据,根据配置文件导入到内网情报系统;
整编模块,在接收端,将采集数据和内部情报系统进行实体、关系结合,使用大数据分析技术,形成知识库、知识图谱;
上述技术方案具有如下有益效果:整个过程分4个步骤完成,合力实现物理隔离网络中情报信息的采集、传输、导入和整编,采用xpath+xslt编写采集规则,可采集目前98%以上的情报网站,采用多节点并发采集方式,保证采集数据的及时、高效,采用光盘摆渡机设备保证在隔离网络中数据自动、安全、可靠传输,采用蓝光光盘结合多光驱并发技术,保证数据高带宽传输,采用导入方式,保证数据在隔离网络中实时共享,使用知识图谱技术整编数据,挖掘数据价值,帮助情报人员分析数据。该物理隔离网络之间的情报采集导入整编系统,能够在确保符合安全保护要求的情况下,自动完成情报数据收集、传输、导入和整编。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明之方法流程图;
图2为本发明之系统实施例的结构框图;
图3为本发明之系统分析后人物关系图谱;
具体实施方式
下面结合具体实施例描述本发明:
本实施例中需要采集和导入的网址是:新浪娱乐https://ent.sina.com.cn/、搜狐娱乐http://yule.sohu.com/。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,为本发明实施例一种基于高带宽物理隔离单向传输的安全情报采集导入整编方法的流程图,所述方法包括:
101、启动两个采集节点,分别采集两个网站,节点1采集新浪新闻,节点2采集百度新闻,采集节点定时读取本地sqlite文件,获取采集计划,执行计划,以json方式上传采集结果到服务器;
102、发送端服务器调度模块收到两个采集节点发送的文件时,根据调度策略,使用两个光驱并发刻录的方式,将两个任务的文件分别刻录到两张蓝光光盘中,参见图2系统结构框图;
103、光盘库设备按照先后顺序,依次将刻录完成的光盘移到只读光驱;
104、接收端导入模块监听只读光驱,有盘时读取内容,解析文件导入到内网情报系统,并弹出光盘,等待发送端服务器监听到只读光驱弹出后,将光盘取走;
105、接收端整编模块,将采集的情报信息与内网情报系统中数据进行结合,通过语义分析、分类、聚类等算法分析后,形成知识库、知识图谱,以孙俪为例,分析人物关系,形成知识图谱参见图3。

Claims (12)

1.一种基于高带宽物理隔离单向传输的安全情报采集导入整编方法,其特征在于,所述方法应用在物理隔离的网络间情报信息的采集、单向传输、导入和整编,该方法包括:
发送端服务器制定情报采集计划并以接口的形式下发到对应的采集节点;
采集节点收到消息后,将计划存入本地的sqlite中,定时执行情报采集任务,并将采集结果以json形式上传到服务器;
发送端服务器根据调度策略进行任务调度,将任务文件通过单向设备的刻录光驱刻录到光盘;
单向传输设备自动将刻录光驱中的刻录完成的光盘移到只读光驱中,完成物理隔离网络上数据跨网交换;
接收端收到文件后导入情报系统,支持各大主流数据库的导入;
接收端使用大数据分析技术,分析采集数据,并与接收端情报系统中的实体关系进行自动关联,充分挖掘数据价值,生成知识图谱。
2.根据权利要求1所述的一种基于高带宽物理隔离单向传输的安全情报采集导入整编方法,其特征在于,将跨网情报数据传输利用分成4个步骤,实现从发送端的采集到接收端的整编,具体步骤如下:
步骤1:采集,使用爬虫技术,实现各大情报网站的数据采集和组织成json上报服务器;
步骤2:传输,将发送端的采集数据通过蓝光光盘摆渡机传输到接收端,完成跨网数据交换;
步骤3:导入,接收端收到情报数据后导入情报系统;
步骤4:整编,接收端读取采集数据使用语义分析、分类聚类等技术结合内网实体关系进行构建知识库,生成知识图谱;
四个步骤互相独立,根据任务状态确定步骤的开始和结束,完成物理隔离网络中情报数据的分析利用。
3.根据权利要求1所述的一种基于高带宽物理隔离单向传输的安全情报采集导入整编方法,其特征在于,支持多节点分布式采集,保证情报数据的实时性,系统支持自定义采集计划,将不同的情报采集计划下发到不同的采集节点,实现高并发采集,同时采集结果组织成json文件上传服务器,降低数据损坏的可能性。
4.根据权利要求1所述的一种基于高带宽物理隔离单向传输的安全情报采集导入整编方法,其特征在于,采用蓝光光盘和多光驱并发的形式实现高带宽单向传输,具体步骤如下:
步骤1:发送端配置调度策略,包括:光驱信息、光盘信息、刻录参数等;
步骤2:发送服务器根据调度策略一次性读取多个任务,使用多光驱并发刻录到蓝光光盘中;
步骤3:刻录完成后单向设备自动将光盘移到只读光驱;
步骤4:接收端监听只读光驱是否有盘,有盘时进行读取光盘内容存入服务器,并弹出光驱;
步骤5:发送端检测只读光驱是否打开,打开后将光盘移到片匣,完成数据单向跨网交换。
5.根据权利要求1所述的一种基于高带宽物理隔离单向传输的安全情报采集导入整编方法,其特征在于,接收端收到文件后进行MD5校验,保证接收数据的正确后,导入到内部情报系统,支持数据库类型:神通、达梦、人大金仓、Oracle、MySQL、SQL Server。
6.根据权利要求1所述的一种基于高带宽物理隔离单向传输的安全情报采集导入整编方法,其特征在于,接收端使用大数据分析技术,如:语义分析,词汇挖掘、分类、聚类算法等,将采集的数据进行整编处理,与内部情报系统中已有的实体、关系等进行关联,形成完整的情报体系,生成知识图谱,便于情报人员的快速检索和分析。
7.一种基于高带宽物理隔离单向传输的安全情报采集导入整编系统,其特征在于,所述系统包括:
采集模块、传输模块、导入模块、整编模块四部分组成;
采集模块,在发送端,负责根据网址和规则采集内容,并上报给发送服务器;
传输模块,使用光盘摆渡机,负责将采集数据通过光盘介质从低密网传送到高密网;
导入模块,在接收端,负责将采集数据导入到情报系统;
整编模块,在接收端,使用大数据分析技术,结合情报系统中实体关系分析采集数据,生成知识图谱。
8.根据权利要求7所述的一种基于高带宽物理隔离单向传输的安全情报采集导入整编系统,其特征在于,所述系统的实现采用权利要求2中的方法分4个模块完成。
9.根据权利要求7所述的一种基于高带宽物理隔离单向传输的安全情报采集导入整编系统,其特征在于,所述采集模块采用权利要求3中的方法进行采集内容和上传数据。
10.根据权利要求7所述的一种基于高带宽物理隔离单向传输的安全情报采集导入整编系统,其特征在于,所述传输模块采用权利要求4中的方法进行高速、安全发送数据。
11.根据权利要求7所述的一种基于高带宽物理隔离单向传输的安全情报采集导入整编系统,其特征在于,所述导入模块采用权利要求5中的方法进行导入到情报系统。
12.根据权利要求7所述的一种基于高带宽物理隔离单向传输的安全情报采集导入整编系统,其特征在于,所述导入模块采用权利要求6中的方法对情报数据进行整编处理。
CN201911344502.5A 2019-12-24 2019-12-24 一种基于高带宽物理隔离单向传输的安全情报采集导入整编方法及系统 Pending CN111277560A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911344502.5A CN111277560A (zh) 2019-12-24 2019-12-24 一种基于高带宽物理隔离单向传输的安全情报采集导入整编方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911344502.5A CN111277560A (zh) 2019-12-24 2019-12-24 一种基于高带宽物理隔离单向传输的安全情报采集导入整编方法及系统

Publications (1)

Publication Number Publication Date
CN111277560A true CN111277560A (zh) 2020-06-12

Family

ID=71000121

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911344502.5A Pending CN111277560A (zh) 2019-12-24 2019-12-24 一种基于高带宽物理隔离单向传输的安全情报采集导入整编方法及系统

Country Status (1)

Country Link
CN (1) CN111277560A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115793986A (zh) * 2023-01-09 2023-03-14 普世(南京)智能科技有限公司 面向海量数据传输的多路并发光盘数据交换方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015134008A1 (en) * 2014-03-05 2015-09-11 Foreground Security Automated internet threat detection and mitigation system and associated methods
CN106815293A (zh) * 2016-12-08 2017-06-09 中国电子科技集团公司第三十二研究所 一种面向情报分析的构建知识图谱的系统及方法
CN106874424A (zh) * 2017-01-25 2017-06-20 杭州淘淘搜科技有限公司 一种基于MongoDB和Redis的网页数据采集处理方法及系统
CN108197136A (zh) * 2017-11-14 2018-06-22 南方电网科学研究院有限责任公司 一种竞争情报收集系统
CN109088908A (zh) * 2018-06-06 2018-12-25 武汉酷犬数据科技有限公司 一种面向网络的分布式通用数据采集方法和系统
CN109857917A (zh) * 2018-12-21 2019-06-07 中国科学院信息工程研究所 面向威胁情报的安全知识图谱构建方法及系统
CN110297960A (zh) * 2019-06-17 2019-10-01 中电科大数据研究院有限公司 一种基于配置的分布式公文数据采集系统
CN110602213A (zh) * 2019-09-16 2019-12-20 北京计算机技术及应用研究所 一种基于光盘摆渡的不同密级网络间的数据交换方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015134008A1 (en) * 2014-03-05 2015-09-11 Foreground Security Automated internet threat detection and mitigation system and associated methods
CN106815293A (zh) * 2016-12-08 2017-06-09 中国电子科技集团公司第三十二研究所 一种面向情报分析的构建知识图谱的系统及方法
CN106874424A (zh) * 2017-01-25 2017-06-20 杭州淘淘搜科技有限公司 一种基于MongoDB和Redis的网页数据采集处理方法及系统
CN108197136A (zh) * 2017-11-14 2018-06-22 南方电网科学研究院有限责任公司 一种竞争情报收集系统
CN109088908A (zh) * 2018-06-06 2018-12-25 武汉酷犬数据科技有限公司 一种面向网络的分布式通用数据采集方法和系统
CN109857917A (zh) * 2018-12-21 2019-06-07 中国科学院信息工程研究所 面向威胁情报的安全知识图谱构建方法及系统
CN110297960A (zh) * 2019-06-17 2019-10-01 中电科大数据研究院有限公司 一种基于配置的分布式公文数据采集系统
CN110602213A (zh) * 2019-09-16 2019-12-20 北京计算机技术及应用研究所 一种基于光盘摆渡的不同密级网络间的数据交换方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
汤华茂,王璐烽: "XML编程与应用开发教程", 27 April 2018, 电子科技大学出版社, pages: 83 *
王家彬: "企业竞争力分析进化论", 30 August 2019, 企业管理出版社, pages: 239 *
胜刚,吴志明: "公共信用信息采集技术及其应用研究", 29 June 2018, 中国金融出版社, pages: 272 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115793986A (zh) * 2023-01-09 2023-03-14 普世(南京)智能科技有限公司 面向海量数据传输的多路并发光盘数据交换方法及系统

Similar Documents

Publication Publication Date Title
CN109542733B (zh) 一种高可靠的实时日志收集及可视化检索方法
CN111459766B (zh) 一种面向微服务系统的调用链跟踪与分析方法
CN114143020B (zh) 一种基于规则的网络安全事件关联分析方法和系统
CN102158355B (zh) 一种可并发和断续分析的日志事件关联分析方法和装置
KR20210019564A (ko) 운영 유지 시스템 및 방법
Gao et al. Continuous pattern detection over billion-edge graph using distributed framework
CN112433998B (zh) 一种基于电力系统的多源异构数据采集汇聚系统及方法
CN106599197B (zh) 数据采集交换引擎
CN108763957A (zh) 一种数据库的安全审计系统、方法及服务器
CN104504014B (zh) 基于大数据平台的数据处理方法和装置
CN105589791A (zh) 一种云计算环境下应用系统日志监控管理的方法
CN111046000B (zh) 一种面向政府数据交换共享的安全监管元数据组织方法
Sanjappa et al. Analysis of logs by using logstash
CN103856354A (zh) 一种集群存储系统日志统一管理实现方法
CN109710667A (zh) 一种基于大数据平台的多源数据融合共享实现方法及系统
CN105956932A (zh) 配用电数据融合方法和系统
CN111127250B (zh) 一种电力数据监控事件分析系统及方法
CN111277560A (zh) 一种基于高带宽物理隔离单向传输的安全情报采集导入整编方法及系统
Li et al. Research on big data architecture, key technologies and its measures
CN111538720B (zh) 电力行业基础数据清理的方法及系统
CN111782618B (zh) 一种数据同步系统
CN111104441A (zh) 一种数据采集方法及系统
CN112465480A (zh) 一种用于建筑行业的劳务实名制管理系统
CN111221967A (zh) 一种基于区块链架构的语言数据分类存储系统
CN115344633A (zh) 数据处理方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination