CN107733834A - 一种数据泄露防护方法及装置 - Google Patents

一种数据泄露防护方法及装置 Download PDF

Info

Publication number
CN107733834A
CN107733834A CN201610652403.3A CN201610652403A CN107733834A CN 107733834 A CN107733834 A CN 107733834A CN 201610652403 A CN201610652403 A CN 201610652403A CN 107733834 A CN107733834 A CN 107733834A
Authority
CN
China
Prior art keywords
server
data
sensitive data
operation system
network flow
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610652403.3A
Other languages
English (en)
Other versions
CN107733834B (zh
Inventor
保晶
豆晓瑜
蒋宝成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Group Gansu Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Group Gansu Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Group Gansu Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201610652403.3A priority Critical patent/CN107733834B/zh
Publication of CN107733834A publication Critical patent/CN107733834A/zh
Application granted granted Critical
Publication of CN107733834B publication Critical patent/CN107733834B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/30Network architectures or network communication protocols for network security for supporting lawful interception, monitoring or retaining of communications or communication related information
    • H04L63/302Network architectures or network communication protocols for network security for supporting lawful interception, monitoring or retaining of communications or communication related information gathering intelligence information for situation awareness or reconnaissance
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/02Network architectures or network communication protocols for network security for separating internal from external traffic, e.g. firewalls
    • H04L63/0227Filtering policies
    • H04L63/0245Filtering by information in the payload
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/30Network architectures or network communication protocols for network security for supporting lawful interception, monitoring or retaining of communications or communication related information
    • H04L63/306Network architectures or network communication protocols for network security for supporting lawful interception, monitoring or retaining of communications or communication related information intercepting packet switched data communications, e.g. Web, Internet or IMS communications

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Technology Law (AREA)
  • Evolutionary Computation (AREA)
  • Computer And Data Communications (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明的实施例提供了一种数据泄露防护方法及装置,其中,该方法包括:检测到业务系统中的服务器接收到终端发送的文件请求消息时,获取终端的网络流量数据;判断网络流量数据中是否包含敏感数据;若网络流量数据中包含敏感数据,则对终端与服务器之间的连接进行处理。本发明的实施例能实时阻断敏感数据的泄露。

Description

一种数据泄露防护方法及装置
技术领域
本发明涉及网络数据泄露防护领域,特别涉及一种数据泄露防护方法及装置。
背景技术
数据泄漏防护(DLP,Data leakage prevention)技术日渐成为目前市场上最为重要的安全技术之一。DLP是通过一定的技术手段,防止企业的指定数据或信息资产以违反安全策略规定的形式流出企业的一种策略。其中,数据泄漏的途径可归类为三种:在使用状态下的泄漏、在存储状态下的泄漏以及在传输状态下的泄漏。本提案主要提到的是传输状态下数据泄密防护,也就是我们常说的网络型敏感数据防护。
其中,针对在传输状态下的泄漏而言,普遍通过网络型敏感数据防护的方式来防护。目前市场上常见的网络型敏感数据防护设备(netDLP)是利用深度内容感知技术,对特定的网络协议流量,例如文件传输协议(FTP,File Transfer Protocol)、简单邮件传输协议(SMTP,Simple Mail Transfer Protocol)等进行分析,发现其中的敏感数据,并对连接实施响应(例如重定向、隔离、阻断、记录、告警等),防护敏感数据的网关型产品。此类产品主要侧重于协议解析、内容检测和响应控制等方面。
但上述DLP设备存在的缺陷为:DLP设备对于敏感数据的感知需要对于敏感数据的载体采集完成后才能进行分析,无法进行实时的阻断。例如一个载有敏感数据的文档被用户下载,只有下载完成后DLP设备才能对内容进行分析然后发现存在敏感数据泄露,可此时文件已经下载我们只能做事后的发现与告警。
发明内容
本发明实施例的目的在于提供一种数据泄露防护方法及装置,能实时阻断敏感数据的泄露。
为了达到上述目的,本发明的实施例提供了一种数据泄露防护方法,包括:
检测到业务系统中的服务器接收到终端发送的文件请求消息时,获取终端的网络流量数据;
判断网络流量数据中是否包含敏感数据;
若网络流量数据中包含敏感数据,则对终端与服务器之间的连接进行处理。
其中,对终端与服务器之间的连接进行处理的步骤,包括:
中断终端与服务器之间的连接;或者
在操作界面上显示一用于提示网络流量数据中包含敏感数据的告警信息。
其中,判断网络流量数据中是否包含敏感数据的步骤,包括:
对网络流量数据进行结构分析,得到网络流量数据的格式;
根据网络流量数据的格式,对网络流量数据进行数据区域分割,得到多个分段数据;
对每个分段数据进行解压缩处理,得到多个普通数据;
对每个普通数据进行编码转换,得到多个编码数据,编码数据为文本数据或图片数据;
根据每个编码数据,判断网络流量数据中是否包含敏感数据。
其中,根据每个编码数据,判断网络流量数据中是否包含敏感数据的步骤,包括:
判断编码数据中是否包含预先得到的敏感数据的特征;
若编码数据中包含预先得到的敏感数据的特征,则确定网络流量数据中包含敏感数据;否则,则确定网络流量数据中不包含敏感数据。
其中,方法还包括:
获取业务系统中各服务器的日志数据;
对获取到的日志数据进行标准化处理,得到标准化后的日志数据;
通过多线程模式,对标准化后的日志数据进行协议解析,得到解析结果,并将解析结果存储至Hadoop平台中。
其中,方法还包括:
通过聚类分析,对业务系统中各服务器进行分类操作;
在业务系统中的任一服务器发生敏感数据泄露时,在操作界面上显示一用于提示与该服务器属于同一类的服务器可能发生敏感数据泄露的第一信息。
其中,通过聚类分析,对业务系统中各服务器进行分类操作的步骤,包括:
通过公式Y=a1*x1+a2*x2+...an*xn,计算业务系统中每个服务器的判别分数,其中,Y表示服务器的判别分数,x1表示服务器的第一个特征变量,a1表示第一个特征变量的权重系数,x2表示服务器的第二个特征变量,a2表示第二个特征变量的权重系数,xn表示服务器的第n个特征变量,an表示第n个特征变量的权重系数,n表示服务器的特征变量的数量;
根据每个服务器的判别分数以及预先存储的判别分数范围与类之间的对应关系,确定出每个服务器对应的类。
其中,方法还包括:
通过关联分析模型判断业务系统中的服务器是否疑似发生敏感数据泄露事件;
若业务系统中的服务器疑似发生敏感数据泄露事件,则在操作界面上显示一用于提示业务系统中的服务器疑似发生敏感数据泄露事件的第二信息。
其中,通过关联分析模型判断业务系统中的服务器是否疑似发生敏感数据泄露事件的步骤,包括:
通过公式计算业务系统中的服务器的各相关性因素的关联度,其中,r表示关联度,ξ(k)表示服务器的第k个相关性因素,N表示服务器的相关性因素的数量;
若r的值小于第一预设值,则确定业务系统中的服务器疑似发生敏感数据泄露事件;
若r的值大于或等于第一预设值,则确定业务系统中的服务器未发生敏感数据泄露事件。
其中,方法还包括:
获取业务系统中的服务器在预设历史时间段内发生敏感数据泄露的模式和概率;
根据获取到的模式和概率,通过马尔科夫链模型得到业务系统中的服务器在未来时刻发生敏感数据泄露的概率;
判断得到的概率是否大于第二预设值;
若得到的概率大于第二预设值,则在操作界面上显示一用于提示业务系统中的服务器在未来时刻可能发生敏感数据泄露的第三信息。
本发明的实施例还提供了一种数据泄露防护装置,包括:
第一获取模块,用于检测到业务系统中的服务器接收到终端发送的文件请求消息时,获取终端的网络流量数据;
第一判断模块,用于判断网络流量数据中是否包含敏感数据,并若网络流量数据中包含敏感数据,则触发第一处理模块;
第一处理模块,用于根据第一判断模块的触发,对终端与服务器之间的连接进行处理。
其中,第一处理模块包括:
第一处理单元,用于中断终端与服务器之间的连接;或者
第二处理单元,用于在操作界面上显示一用于提示网络流量数据中包含敏感数据的告警信息。
其中,第一判断模块包括:
分析单元,用于对网络流量数据进行结构分析,得到网络流量数据的格式;
分割单元,用于根据网络流量数据的格式,对网络流量数据进行数据区域分割,得到多个分段数据;
解压缩单元,用于对每个分段数据进行解压缩处理,得到多个普通数据;
转换单元,用于对每个普通数据进行编码转换,得到多个编码数据,编码数据为文本数据或图片数据;
判断单元,用于根据每个编码数据,判断网络流量数据中是否包含敏感数据。
其中,判断单元包括:
判断子单元,用于判断编码数据中是否包含预先得到的敏感数据的特征,并若编码数据中包含预先得到的敏感数据的特征,则触发确定子单元;
确定子单元,用于根据判断子单元的触发,确定网络流量数据中包含敏感数据;否则,则确定网络流量数据中不包含敏感数据。
其中,装置还包括:
第二获取模块,用于获取业务系统中各服务器的日志数据;
第二处理模块,用于对获取到的日志数据进行标准化处理,得到标准化后的日志数据;
解析模块,用于通过多线程模式,对标准化后的日志数据进行协议解析,得到解析结果,并将解析结果存储至Hadoop平台中。
其中,装置还包括:
分类模块,用于通过聚类分析,对业务系统中各服务器进行分类操作;
第一显示模块,用于在业务系统中的任一服务器发生敏感数据泄露时,在操作界面上显示一用于提示与该服务器属于同一类的服务器可能发生敏感数据泄露的第一信息。
其中,分类模块包括:
第一分类单元,用于通过公式Y=a1*x1+a2*x2+...an*xn,计算业务系统中每个服务器的判别分数,其中,Y表示服务器的判别分数,x1表示服务器的第一个特征变量,a1表示第一个特征变量的权重系数,x2表示服务器的第二个特征变量,a2表示第二个特征变量的权重系数,xn表示服务器的第n个特征变量,an表示第n个特征变量的权重系数,n表示服务器的特征变量的数量;
第二分类单元,用于根据每个服务器的判别分数以及预先存储的判别分数范围与类之间的对应关系,确定出每个服务器对应的类。
其中,装置还包括:
第二判断模块,用于通过关联分析模型判断业务系统中的服务器是否疑似发生敏感数据泄露事件,并若业务系统中的服务器疑似发生敏感数据泄露事件,则触发第二显示模块;
第二显示模块,用于根据第二判断模块的触发,在操作界面上显示一用于提示业务系统中的服务器疑似发生敏感数据泄露事件的第二信息。
其中,第二判断模块包括:
计算单元,用于通过公式计算业务系统中的服务器的各相关性因素的关联度,其中,r表示关联度,ξ(k)表示服务器的第k个相关性因素,N表示服务器的相关性因素的数量;
第一确定单元,用于若r的值小于第一预设值,则确定业务系统中的服务器疑似发生敏感数据泄露事件;
第二确定单元,用于若r的值大于或等于第一预设值,则确定业务系统中的服务器未发生敏感数据泄露事件。
其中,装置还包括:
第三获取模块,用于获取业务系统中的服务器在预设历史时间段内发生敏感数据泄露的模式和概率;
第四获取模块,用于根据获取到的模式和概率,通过马尔科夫链模型得到业务系统中的服务器在未来时刻发生敏感数据泄露的概率;
第三判断模块,用于判断得到的概率是否大于第二预设值,并若得到的概率大于第二预设值,则触发第三显示模块;
第三显示模块,用于根据第三判断模块的触发,在操作界面上显示一用于提示业务系统中的服务器在未来时刻可能发生敏感数据泄露的第三信息。
本发明的上述方案至少包括以下有益效果:
在本发明的实施例中,通过在检测到业务系统中的服务器接收到终端发送的文件请求消息时,获取终端的网络流量数据,并判断该网络流量数据中是否包含敏感数据,且若该网络流量数据中包含敏感数据,则对终端与服务器之间的连接进行处理,解决了不能实时阻断敏感数据泄露的问题,达到了实时阻断敏感数据泄露的效果。
附图说明
图1为本发明第一实施例中数据泄露防护方法的流程图;
图2为本发明第一实施例中图1中步骤102的具体步骤流程图;
图3为本发明第一实施例中对业务系统中各服务器的日志数据进行处理的步骤的流程图;
图4为本发明第一实施例中通过聚类分析对业务系统中各服务器进行分析的步骤的流程图;
图5为本发明第一实施例中通过关联分析模型对业务系统中各服务器进行分析的步骤的流程图;
图6为本发明第一实施例中通过马尔科夫链模型对业务系统中服务器进行分析的步骤的流程图;
图7为本发明第二实施例中数据泄露防护装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
如图1所示,本发明的第一实施例提供了一种数据泄露防护方法,该方法包括:
步骤101,检测到业务系统中的服务器接收到终端发送的文件请求消息时,获取终端的网络流量数据。
其中,服务器在接收到上述文件请求消息后,会向终端传输终端所请求下载的文件。需要说明的是,上述业务系统可以为企业的业务系统。
步骤102,判断网络流量数据中是否包含敏感数据。
其中,上述敏感数据是指企业的指定数据或者信息资产等。
步骤103,若网络流量数据中包含敏感数据,则对终端与服务器之间的连接进行处理。
在本发明的第一实施例中,上述步骤103主要包括以下两种具体的实现方式。
其中,第一种实现方式为:中断终端与服务器之间的连接,从而实时阻断敏感数据的泄露。
第二种实现方式为:在操作界面上显示一用于提示网络流量数据中包含敏感数据的告警信息,使管理员对终端与服务器之间的连接进行相应的处理(例如阻断等),进而实时阻断敏感数据的泄露。
在本发明的第一实施例中,上述步骤103除上述两种实现方式外,还可通过指示终端重定向其与服务器的连接;或者隔离终端与服务器之间的连接等方式实现。
在本发明的第一实施例中,如图2所示,上述步骤102具体包括如下步骤:
步骤201,对网络流量数据进行结构分析,得到网络流量数据的格式。
其中,上述网络流量数据的格式可以为便携式文档格式(PDF,Portable DocumentFormat)、文档(DOC,Document)格式等。
步骤202,根据网络流量数据的格式,对网络流量数据进行数据区域分割,得到多个分段数据。
其中,上述网络流量数据可以为一二进制文件,因此,按照网络流量数据的格式对其进行数据区域分割,便可得到多个分段数据。
步骤203,对每个分段数据进行解压缩处理,得到多个普通数据。
其中,若分段数据为加密数据,在对其进行解压缩处理之前,需要对其进行解密操作。
步骤204,对每个普通数据进行编码转换,得到多个编码数据。
其中,上述编码数据为文本数据或图片数据。
步骤205,根据每个编码数据,判断网络流量数据中是否包含敏感数据。
其中,可通过判断编码数据中是否包含预先得到的敏感数据的特征的方式,判断出网络流量数据中是否包含敏感数据。具体的,若判断出编码数据中包含预先得到的敏感数据的特征,则确定网络流量数据中包含敏感数据;否则,则确定网络流量数据中不包含敏感数据。其中,上述敏感数据的特征可以由管理员根据经验进行设定,其主要用于表征敏感数据的特征。
需要说明的是,上述步骤101、步骤102以及步骤103均可以通过一Esper(Esper是一种开源的轻量级的复杂事件处理框架,其包括简单事件处理、事件流处理以及复杂事件处理这3中处理模式)引擎来执行。具体的,Esper引擎可将获取到的终端的网络流量数据送至Esper引擎的消息队列,由消息队列对其进行重新排列和梳理,然后Esper引擎的每个规则声明会从事件流中过滤出满足过滤规则(该过滤规则可以为包含敏感数据的特征)的事件(即包含敏感数据的网络流量数据),并将满足规则的网络流量数据输出,最后按照预先设定处理规则对终端与服务器之间的连接进行处理(例如,中断终端与服务器之间的连接等)。
其中,可通过EPL查询语言在Esper引擎中添加新的过滤规则和处理规则,以灵活处理多种阻断敏感数据泄露的条件,同时在Esper引擎的内存中对实时获取到的网络流量数据进行实时过滤,使其单个事件处理时间保证在毫秒级,从而确保实时阻断敏感数据的泄露。
此外,由于网络流量数据的统计,不需要依托统计数据库,使网络流量数据的统计达到低延迟,高性能,支持分布式,容易扩展的优点。且Esper引擎在优化后可支持每秒10万次客户事件的处理能力,对于高优先级的事件,处理延时小于200毫秒(ms),对于低优先级事件如批量业务等,处理延时小于1秒(s)。
可见,在本发明的第一实施例中,通过在检测到业务系统中的服务器接收到终端发送的文件请求消息时,获取终端的网络流量数据,并判断该网络流量数据中是否包含敏感数据,且若该网络流量数据中包含敏感数据,则对终端与服务器之间的连接进行处理,解决了不能实时阻断敏感数据泄露的问题,实现了在敏感数据的载体(即服务器向终端传输的文件)未传输完成时,阻断该载体的传输,从而实时阻断敏感数据泄露的目的。
其中,在本发明的第一实施例中,如图3所示,上述方法还包括对业务系统中各服务器的日志数据进行处理的步骤,具体包括如下步骤:
步骤301,获取业务系统中各服务器的日志数据。
其中,上述日志数据包括系统日志数据和应用日志数据。
在本发明的第一实施例中,可基于用户数据报协议(UDP,User DatagramProtocol)的数据传输能力从各服务器获取日志数据。且这种获取日志数据的方式具备横向扩展能力,获取能力线性增长,具备对全业务系统的服务器全面综合获取的处理能力。
步骤302,对获取到的日志数据进行标准化处理,得到标准化后的日志数据。
步骤303,通过多线程模式,对标准化后的日志数据进行协议解析,得到解析结果,并将解析结果存储至Hadoop平台中。
其中,协议解析节点可根据日志数据的数据量的大小实时进行资源的动态分配,从而提高解析效率。
在本发明的第一实施例中,通过上述步骤301、步骤302以及步骤303将解析结果存储至Hadoop平台中,从而实现基于关键字、正则匹配、模糊匹配等多种方式实现DLP敏感数据的快速识别。
其中,上述Hadoop为一分布式的存储架构。标准Hadoop的MapReduce模型,包括Mappers、Reduces、Combiners、Partitioners以及sorting。而在本发明的第一实施例中主要采用Mapper和Reducer来实现,其将数据切分成多份作为每个Mapper的输入,每个Mapper处理一份数据,执行同样的运算,产生结果,Reducer把多个Mapper的结果组合成一个,具体的算法代码如下:
其中,在本发明的第一实施例中,如图4所示,上述方法还包括通过聚类分析对业务系统中各服务器进行分析的步骤,具体包括如下步骤:
步骤401,通过聚类分析,对业务系统中各服务器进行分类操作。
其中,聚类分析是指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。具体的,可通过公式Y=a1*x1+a2*x2+...an*xn,计算业务系统中每个服务器的判别分数,然后根据每个服务器的判别分数以及预先存储的判别分数范围与类之间的对应关系,确定出每个服务器对应的类。其中,Y表示服务器的判别分数,x1表示服务器的第一个特征变量,a1表示第一个特征变量的权重系数,x2表示服务器的第二个特征变量,a2表示第二个特征变量的权重系数,xn表示服务器的第n个特征变量,an表示第n个特征变量的权重系数,n表示服务器的特征变量的数量。其中,公式中的各权重系数可由管理员很据经验设定,且服务器的特征变量可以为所属安全域(所属安全域对应的x的数值越大代表所属安全域敏感度越高)、所在网段(所在网段对应的x的数值越大代表所在网段敏感度越高)、数据敏感程度(数据敏感程度对应的x的数值越大代表数据敏感度越高)等。
步骤402,在业务系统中的任一服务器发生敏感数据泄露时,在操作界面上显示一用于提示与该服务器属于同一类的服务器可能发生敏感数据泄露的第一信息。
在本发明的第一实施例中,通过上述步骤401和步骤402可以帮助管理员快速对企业敏感数据的泄露的主要途径/方式、不同敏感数据内容分布情况、泄露时间发生的主要分布时间等敏感数据泄露的共同特征进行直观展示,方便企业进行有效的数据防泄漏整改。
此外,在敏感数据发生泄漏后,可通过分析随着时间泄漏的范围的动态情况,模拟出数据泄漏在同一网络区域类的扩散程度以及可能的扩散链路,为敏感数据的及时封堵给予参考。
其中,在本发明的第一实施例中,如图5所示,上述方法还包括通过关联分析模型对业务系统中各服务器进行分析的步骤,具体包括如下步骤:
步骤501,通过关联分析模型判断业务系统中的服务器是否疑似发生敏感数据泄露事件。
其中,关联分析又称关联挖掘,就是在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。或者说,关联分析是发现数据库中不同项之间的联系。
在本发明的第一实施例中,上述步骤501的具体实现方式为:通过公式计算业务系统中的服务器的各相关性因素的关联度,且若r的值小于第一预设值,则确定业务系统中的服务器疑似发生敏感数据泄露事件;而若r的值大于或等于第一预设值,则确定业务系统中的服务器未发生敏感数据泄露事件。其中,r表示关联度,ξ(k)表示服务器的第k个相关性因素,N表示服务器的相关性因素的数量。具体的,服务器的相关性因素可以为访问的源IP地址、访问的时间段、访问的用户账号等。
在通过公式计算业务系统中的服务器的各相关性因素的关联度时,当在正常情况下访问时,服务器的各相关性因素均取值为1,关联度r也等于1,表示数据访问为正常情况;而当出现异常情况时(例如非常用源IP地址访问或非正常业务时间段访问等),服务器的对应的相关性因素(例如访问的源IP地址)取值为0,关联度r小于1,且当关联度r小于第一预设值(该第一预设值小于1)时,确定服务器疑似发生敏感数据泄露事件。
步骤502,若业务系统中的服务器疑似发生敏感数据泄露事件,则在操作界面上显示一用于提示业务系统中的服务器疑似发生敏感数据泄露事件的第二信息。
在本发明的第一实施例中,通过上述步骤501和步骤502可发现服务器上不同于平常访问规律的行为,并通过上述第二信息的方式提醒该服务器发生了不同于平常访问规律的行为,以使企业进行有效的数据防泄漏整改。其中,上述不同于平常访问规律的行为可能属于违规的行为或者潜在的类似于高级持续性威胁(ATP,Advanced Persistent Threat)攻击。
此外,通过上述步骤501和步骤502显示第二信息后,管理员可根据这些疑似发生敏感数据泄露事件的服务器,分析出敏感数据的泄露原因、途径等,以使企业进行有效的数据防泄漏整改。
其中,在本发明的第一实施例中,如图6所示,上述方法还包括通过马尔科夫链模型对业务系统中服务器进行分析的步骤,具体包括如下步骤:
步骤601,获取业务系统中的服务器在预设历史时间段内发生敏感数据泄露的模式和概率。
其中,上述预设历史时间段可以为上个月等历史时间段,可以理解的是,在本发明的第一实施例中,并不限定预设历史时间段的具体形式。
步骤602,根据获取到的模式和概率,通过马尔科夫链模型得到业务系统中的服务器在未来时刻发生敏感数据泄露的概率。
在此,采用过去时间(即历史时间)敏感数据泄漏的模式和概率与未来的趋势大体相一致的假定,利用平稳特性,通过马尔科夫链模型得出在未来时刻敏感数据泄漏的概率。
步骤603,判断得到的概率是否大于第二预设值。
在本发明的第一实施例中,并不限定上述第二预设值的具体数值,其可以由管理员根据经验进行设定。
步骤604,若得到的概率大于第二预设值,则在操作界面上显示一用于提示业务系统中的服务器在未来时刻可能发生敏感数据泄露的第三信息。
在本发明的第一实施例中,通过上述步骤601、步骤602、步骤603以及步骤604,可分析出企业敏感数据的访问概率,为一段时间内的敏感数据泄露防护工作提供依据,以使企业进行有效的数据防泄漏整改。
由此可见,在本发明的第一实施例中,可通过聚类分析、关联分析模型以及马尔科夫链模型对企业的敏感数据泄露进行分析,并进行相应的预警(即上述第一信息、第二信息和第三信息),以使企业进行有效的数据防泄漏整改。
第二实施例
如图7所示,本发明的第二实施例提供了一种数据泄露防护装置,该装置包括:
第一获取模块701,用于检测到业务系统中的服务器接收到终端发送的文件请求消息时,获取终端的网络流量数据;
第一判断模块702,用于判断网络流量数据中是否包含敏感数据,并若网络流量数据中包含敏感数据,则触发第一处理模块703;
第一处理模块703,用于根据第一判断模块702的触发,对终端与服务器之间的连接进行处理。
其中,第一处理模块703包括:
第一处理单元,用于中断终端与服务器之间的连接;或者
第二处理单元,用于在操作界面上显示一用于提示网络流量数据中包含敏感数据的告警信息。
其中,第一判断模块702包括:
分析单元,用于对网络流量数据进行结构分析,得到网络流量数据的格式;
分割单元,用于根据网络流量数据的格式,对网络流量数据进行数据区域分割,得到多个分段数据;
解压缩单元,用于对每个分段数据进行解压缩处理,得到多个普通数据;
转换单元,用于对每个普通数据进行编码转换,得到多个编码数据,编码数据为文本数据或图片数据;
判断单元,用于根据每个编码数据,判断网络流量数据中是否包含敏感数据。
其中,判断单元包括:
判断子单元,用于判断编码数据中是否包含预先得到的敏感数据的特征,并若编码数据中包含预先得到的敏感数据的特征,则触发确定子单元;
确定子单元,用于根据判断子单元的触发,确定网络流量数据中包含敏感数据;否则,则确定网络流量数据中不包含敏感数据。
其中,装置还包括:
第二获取模块,用于获取业务系统中各服务器的日志数据;
第二处理模块,用于对获取到的日志数据进行标准化处理,得到标准化后的日志数据;
解析模块,用于通过多线程模式,对标准化后的日志数据进行协议解析,得到解析结果,并将解析结果存储至Hadoop平台中。
其中,装置还包括:
分类模块,用于通过聚类分析,对业务系统中各服务器进行分类操作;
第一显示模块,用于在业务系统中的任一服务器发生敏感数据泄露时,在操作界面上显示一用于提示与该服务器属于同一类的服务器可能发生敏感数据泄露的第一信息。
其中,分类模块包括:
第一分类单元,用于通过公式Y=a1*x1+a2*x2+...an*xn,计算业务系统中每个服务器的判别分数,其中,Y表示服务器的判别分数,x1表示服务器的第一个特征变量,a1表示第一个特征变量的权重系数,x2表示服务器的第二个特征变量,a2表示第二个特征变量的权重系数,xn表示服务器的第n个特征变量,an表示第n个特征变量的权重系数,n表示服务器的特征变量的数量;
第二分类单元,用于根据每个服务器的判别分数以及预先存储的判别分数范围与类之间的对应关系,确定出每个服务器对应的类。
其中,装置还包括:
第二判断模块,用于通过关联分析模型判断业务系统中的服务器是否疑似发生敏感数据泄露事件,并若业务系统中的服务器疑似发生敏感数据泄露事件,则触发第二显示模块;
第二显示模块,用于根据第二判断模块的触发,在操作界面上显示一用于提示业务系统中的服务器疑似发生敏感数据泄露事件的第二信息。
其中,第二判断模块包括:
计算单元,用于通过公式计算业务系统中的服务器的各相关性因素的关联度,其中,r表示关联度,ξ(k)表示服务器的第k个相关性因素,N表示服务器的相关性因素的数量;
第一确定单元,用于若r的值小于第一预设值,则确定业务系统中的服务器疑似发生敏感数据泄露事件;
第二确定单元,用于若r的值大于或等于第一预设值,则确定业务系统中的服务器未发生敏感数据泄露事件。
其中,装置还包括:
第三获取模块,用于获取业务系统中的服务器在预设历史时间段内发生敏感数据泄露的模式和概率;
第四获取模块,用于根据获取到的模式和概率,通过马尔科夫链模型得到业务系统中的服务器在未来时刻发生敏感数据泄露的概率;
第三判断模块,用于判断得到的概率是否大于第二预设值,并若得到的概率大于第二预设值,则触发第三显示模块;
第三显示模块,用于根据第三判断模块的触发,在操作界面上显示一用于提示业务系统中的服务器在未来时刻可能发生敏感数据泄露的第三信息。
在本发明的第二实施例中,数据泄露防护装置通过在检测到业务系统中的服务器接收到终端发送的文件请求消息时,获取终端的网络流量数据,并判断该网络流量数据中是否包含敏感数据,且若该网络流量数据中包含敏感数据,则对终端与服务器之间的连接进行处理,解决了不能实时阻断敏感数据泄露的问题,实现了在敏感数据的载体(即服务器向终端传输的文件)未传输完成时,阻断该载体的传输,从而实时阻断敏感数据泄露的目的。
此外,数据泄露防护装置还能基于关键字、正则匹配、模糊匹配等多种方式实现DLP敏感数据的快速识别。且除此之外,数据泄露防护装置还可通过聚类分析、关联分析模型以及马尔科夫链模型对企业的敏感数据泄露进行分析,并进行相应的预警,以使企业进行有效的数据防泄漏整改。
需要说明的是,上述数据泄露防护装置适用于DLP设备。
需要进一步说明的是,本发明第二实施例提供的数据泄露防护装置是应用上述数据泄露防护方法的装置,即上述方法的所有实施例均适用于该装置,且均能达到相同或相似的有益效果。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (20)

1.一种数据泄露防护方法,其特征在于,包括:
检测到业务系统中的服务器接收到终端发送的文件请求消息时,获取所述终端的网络流量数据;
判断所述网络流量数据中是否包含敏感数据;
若所述网络流量数据中包含敏感数据,则对所述终端与所述服务器之间的连接进行处理。
2.根据权利要求1所述的方法,其特征在于,所述对所述终端与所述服务器之间的连接进行处理的步骤,包括:
中断所述终端与所述服务器之间的连接;或者
在操作界面上显示一用于提示所述网络流量数据中包含敏感数据的告警信息。
3.根据权利要求1所述的方法,其特征在于,所述判断所述网络流量数据中是否包含敏感数据的步骤,包括:
对所述网络流量数据进行结构分析,得到所述网络流量数据的格式;
根据所述网络流量数据的格式,对所述网络流量数据进行数据区域分割,得到多个分段数据;
对每个分段数据进行解压缩处理,得到多个普通数据;
对每个普通数据进行编码转换,得到多个编码数据,所述编码数据为文本数据或图片数据;
根据每个编码数据,判断所述网络流量数据中是否包含敏感数据。
4.根据权利要求3所述的方法,其特征在于,所述根据每个编码数据,判断所述网络流量数据中是否包含敏感数据的步骤,包括:
判断所述编码数据中是否包含预先得到的敏感数据的特征;
若所述编码数据中包含预先得到的敏感数据的特征,则确定所述网络流量数据中包含敏感数据;否则,则确定所述网络流量数据中不包含敏感数据。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取业务系统中各服务器的日志数据;
对获取到的日志数据进行标准化处理,得到标准化后的日志数据;
通过多线程模式,对标准化后的日志数据进行协议解析,得到解析结果,并将解析结果存储至Hadoop平台中。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
通过聚类分析,对业务系统中各服务器进行分类操作;
在业务系统中的任一服务器发生敏感数据泄露时,在操作界面上显示一用于提示与该服务器属于同一类的服务器可能发生敏感数据泄露的第一信息。
7.根据权利要求6所述的方法,其特征在于,所述通过聚类分析,对业务系统中各服务器进行分类操作的步骤,包括:
通过公式Y=a1*x1+a2*x2+...an*xn,计算业务系统中每个服务器的判别分数,其中,Y表示服务器的判别分数,x1表示服务器的第一个特征变量,a1表示第一个特征变量的权重系数,x2表示服务器的第二个特征变量,a2表示第二个特征变量的权重系数,xn表示服务器的第n个特征变量,an表示第n个特征变量的权重系数,n表示服务器的特征变量的数量;
根据每个服务器的判别分数以及预先存储的判别分数范围与类之间的对应关系,确定出每个服务器对应的类。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
通过关联分析模型判断业务系统中的服务器是否疑似发生敏感数据泄露事件;
若所述业务系统中的服务器疑似发生敏感数据泄露事件,则在操作界面上显示一用于提示所述业务系统中的服务器疑似发生敏感数据泄露事件的第二信息。
9.根据权利要求8所述的方法,其特征在于,所述通过关联分析模型判断业务系统中的服务器是否疑似发生敏感数据泄露事件的步骤,包括:
通过公式计算所述业务系统中的服务器的各相关性因素的关联度,其中,r表示关联度,ξ(k)表示服务器的第k个相关性因素,N表示服务器的相关性因素的数量;
若r的值小于第一预设值,则确定所述业务系统中的服务器疑似发生敏感数据泄露事件;
若r的值大于或等于第一预设值,则确定所述业务系统中的服务器未发生敏感数据泄露事件。
10.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取业务系统中的服务器在预设历史时间段内发生敏感数据泄露的模式和概率;
根据获取到的模式和概率,通过马尔科夫链模型得到所述业务系统中的服务器在未来时刻发生敏感数据泄露的概率;
判断得到的所述概率是否大于第二预设值;
若得到的所述概率大于第二预设值,则在操作界面上显示一用于提示所述业务系统中的服务器在未来时刻可能发生敏感数据泄露的第三信息。
11.一种数据泄露防护装置,其特征在于,包括:
第一获取模块,用于检测到业务系统中的服务器接收到终端发送的文件请求消息时,获取所述终端的网络流量数据;
第一判断模块,用于判断所述网络流量数据中是否包含敏感数据,并若所述网络流量数据中包含敏感数据,则触发第一处理模块;
第一处理模块,用于根据所述第一判断模块的触发,对所述终端与所述服务器之间的连接进行处理。
12.根据权利要求11所述的装置,其特征在于,所述第一处理模块包括:
第一处理单元,用于中断所述终端与所述服务器之间的连接;或者
第二处理单元,用于在操作界面上显示一用于提示所述网络流量数据中包含敏感数据的告警信息。
13.根据权利要求11所述的装置,其特征在于,所述第一判断模块包括:
分析单元,用于对所述网络流量数据进行结构分析,得到所述网络流量数据的格式;
分割单元,用于根据所述网络流量数据的格式,对所述网络流量数据进行数据区域分割,得到多个分段数据;
解压缩单元,用于对每个分段数据进行解压缩处理,得到多个普通数据;
转换单元,用于对每个普通数据进行编码转换,得到多个编码数据,所述编码数据为文本数据或图片数据;
判断单元,用于根据每个编码数据,判断所述网络流量数据中是否包含敏感数据。
14.根据权利要求13所述的装置,其特征在于,所述判断单元包括:
判断子单元,用于判断所述编码数据中是否包含预先得到的敏感数据的特征,并若所述编码数据中包含预先得到的敏感数据的特征,则触发确定子单元;
确定子单元,用于根据所述判断子单元的触发,确定所述网络流量数据中包含敏感数据;否则,则确定所述网络流量数据中不包含敏感数据。
15.根据权利要求11所述的装置,其特征在于,所述装置还包括:
第二获取模块,用于获取业务系统中各服务器的日志数据;
第二处理模块,用于对获取到的日志数据进行标准化处理,得到标准化后的日志数据;
解析模块,用于通过多线程模式,对标准化后的日志数据进行协议解析,得到解析结果,并将解析结果存储至Hadoop平台中。
16.根据权利要求11所述的装置,其特征在于,所述装置还包括:
分类模块,用于通过聚类分析,对业务系统中各服务器进行分类操作;
第一显示模块,用于在业务系统中的任一服务器发生敏感数据泄露时,在操作界面上显示一用于提示与该服务器属于同一类的服务器可能发生敏感数据泄露的第一信息。
17.根据权利要求16所述的装置,其特征在于,所述分类模块包括:
第一分类单元,用于通过公式Y=a1*x1+a2*x2+...an*xn,计算业务系统中每个服务器的判别分数,其中,Y表示服务器的判别分数,x1表示服务器的第一个特征变量,a1表示第一个特征变量的权重系数,x2表示服务器的第二个特征变量,a2表示第二个特征变量的权重系数,xn表示服务器的第n个特征变量,an表示第n个特征变量的权重系数,n表示服务器的特征变量的数量;
第二分类单元,用于根据每个服务器的判别分数以及预先存储的判别分数范围与类之间的对应关系,确定出每个服务器对应的类。
18.根据权利要求11所述的装置,其特征在于,所述装置还包括:
第二判断模块,用于通过关联分析模型判断业务系统中的服务器是否疑似发生敏感数据泄露事件,并若所述业务系统中的服务器疑似发生敏感数据泄露事件,则触发第二显示模块;
第二显示模块,用于根据所述第二判断模块的触发,在操作界面上显示一用于提示所述业务系统中的服务器疑似发生敏感数据泄露事件的第二信息。
19.根据权利要求18所述的装置,其特征在于,所述第二判断模块包括:
计算单元,用于通过公式计算所述业务系统中的服务器的各相关性因素的关联度,其中,r表示关联度,ξ(k)表示服务器的第k个相关性因素,N表示服务器的相关性因素的数量;
第一确定单元,用于若r的值小于第一预设值,则确定所述业务系统中的服务器疑似发生敏感数据泄露事件;
第二确定单元,用于若r的值大于或等于第一预设值,则确定所述业务系统中的服务器未发生敏感数据泄露事件。
20.根据权利要求11所述的装置,其特征在于,所述装置还包括:
第三获取模块,用于获取业务系统中的服务器在预设历史时间段内发生敏感数据泄露的模式和概率;
第四获取模块,用于根据获取到的模式和概率,通过马尔科夫链模型得到所述业务系统中的服务器在未来时刻发生敏感数据泄露的概率;
第三判断模块,用于判断得到的所述概率是否大于第二预设值,并若得到的所述概率大于第二预设值,则触发第三显示模块;
第三显示模块,用于根据所述第三判断模块的触发,在操作界面上显示一用于提示所述业务系统中的服务器在未来时刻可能发生敏感数据泄露的第三信息。
CN201610652403.3A 2016-08-10 2016-08-10 一种数据泄露防护方法及装置 Active CN107733834B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610652403.3A CN107733834B (zh) 2016-08-10 2016-08-10 一种数据泄露防护方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610652403.3A CN107733834B (zh) 2016-08-10 2016-08-10 一种数据泄露防护方法及装置

Publications (2)

Publication Number Publication Date
CN107733834A true CN107733834A (zh) 2018-02-23
CN107733834B CN107733834B (zh) 2020-12-04

Family

ID=61199435

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610652403.3A Active CN107733834B (zh) 2016-08-10 2016-08-10 一种数据泄露防护方法及装置

Country Status (1)

Country Link
CN (1) CN107733834B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108521435A (zh) * 2018-07-06 2018-09-11 武汉思普崚技术有限公司 一种用户网络行为画像的方法及系统
CN108683551A (zh) * 2018-08-08 2018-10-19 武汉思普崚技术有限公司 一种管道式流控的方法及装置
CN111131183A (zh) * 2019-12-05 2020-05-08 任子行网络技术股份有限公司 网络安全监控方法、计算机设备及计算机可读存储介质
CN112272173A (zh) * 2020-10-22 2021-01-26 苏州斯玛维科技有限公司 信息分析报警方法、装置和存储介质
CN112565196A (zh) * 2020-11-10 2021-03-26 杭州神甲科技有限公司 具有网络监控能力的数据防泄漏方法、装置及存储介质
CN112671849A (zh) * 2020-12-08 2021-04-16 北京健康之家科技有限公司 基于实时流量分析的敏感数据处理方法及装置
CN113132297A (zh) * 2019-12-30 2021-07-16 北京国双科技有限公司 数据泄露的检测方法及装置
CN113542264A (zh) * 2021-07-13 2021-10-22 杭州安恒信息技术股份有限公司 一种文件传输控制方法、装置、设备及可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130212710A1 (en) * 2012-02-09 2013-08-15 Alcatel-Lucent Usa, Inc. Data Leakage Prevention for Cloud and Enterprise Networks
CN103780457A (zh) * 2014-01-02 2014-05-07 东南大学 一种基于边界检测的移动智能终端安全检测方法
CN104866780A (zh) * 2015-04-24 2015-08-26 广东电网有限责任公司信息中心 基于分级分类的非结构化数据资产防泄露方法
CN105610818A (zh) * 2015-12-25 2016-05-25 亿阳安全技术有限公司 一种敏感数据的模糊化装置及其方法
CN105681298A (zh) * 2016-01-13 2016-06-15 成都安信共创检测技术有限公司 公共信息平台中的数据安全异常监测方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130212710A1 (en) * 2012-02-09 2013-08-15 Alcatel-Lucent Usa, Inc. Data Leakage Prevention for Cloud and Enterprise Networks
CN103780457A (zh) * 2014-01-02 2014-05-07 东南大学 一种基于边界检测的移动智能终端安全检测方法
CN104866780A (zh) * 2015-04-24 2015-08-26 广东电网有限责任公司信息中心 基于分级分类的非结构化数据资产防泄露方法
CN105610818A (zh) * 2015-12-25 2016-05-25 亿阳安全技术有限公司 一种敏感数据的模糊化装置及其方法
CN105681298A (zh) * 2016-01-13 2016-06-15 成都安信共创检测技术有限公司 公共信息平台中的数据安全异常监测方法及系统

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108521435A (zh) * 2018-07-06 2018-09-11 武汉思普崚技术有限公司 一种用户网络行为画像的方法及系统
CN108521435B (zh) * 2018-07-06 2021-09-03 武汉思普崚技术有限公司 一种用户网络行为画像的方法及系统
CN108683551B (zh) * 2018-08-08 2021-09-14 武汉思普崚技术有限公司 一种管道式流控的方法及装置
CN108683551A (zh) * 2018-08-08 2018-10-19 武汉思普崚技术有限公司 一种管道式流控的方法及装置
CN111131183A (zh) * 2019-12-05 2020-05-08 任子行网络技术股份有限公司 网络安全监控方法、计算机设备及计算机可读存储介质
CN111131183B (zh) * 2019-12-05 2022-05-31 任子行网络技术股份有限公司 网络安全监控方法、计算机设备及计算机可读存储介质
CN113132297B (zh) * 2019-12-30 2023-04-18 北京国双科技有限公司 数据泄露的检测方法及装置
CN113132297A (zh) * 2019-12-30 2021-07-16 北京国双科技有限公司 数据泄露的检测方法及装置
CN112272173A (zh) * 2020-10-22 2021-01-26 苏州斯玛维科技有限公司 信息分析报警方法、装置和存储介质
CN112565196A (zh) * 2020-11-10 2021-03-26 杭州神甲科技有限公司 具有网络监控能力的数据防泄漏方法、装置及存储介质
CN112671849A (zh) * 2020-12-08 2021-04-16 北京健康之家科技有限公司 基于实时流量分析的敏感数据处理方法及装置
CN113542264A (zh) * 2021-07-13 2021-10-22 杭州安恒信息技术股份有限公司 一种文件传输控制方法、装置、设备及可读存储介质
CN113542264B (zh) * 2021-07-13 2022-08-26 杭州安恒信息技术股份有限公司 一种文件传输控制方法、装置、设备及可读存储介质

Also Published As

Publication number Publication date
CN107733834B (zh) 2020-12-04

Similar Documents

Publication Publication Date Title
CN107733834A (zh) 一种数据泄露防护方法及装置
CN113098892B (zh) 基于工业互联网的数据防泄漏系统以及方法
CN109960729A (zh) Http恶意流量的检测方法及系统
US5557742A (en) Method and system for detecting intrusion into and misuse of a data processing system
CN115733681A (zh) 一种防止数据丢失的数据安全管理平台
CN106790023A (zh) 网络安全联合防御方法和装置
JP5960978B2 (ja) 通信ネットワーク内のメッセージのレイテンシを制御することによって重要システム内のサイバー攻撃を軽減するための知的なシステムおよび方法
CN110443048A (zh) 数据中心查数系统
CN114372286A (zh) 数据安全管理方法、装置、计算机设备及存储介质
Komisarek et al. Machine Learning Based Approach to Anomaly and Cyberattack Detection in Streamed Network Traffic Data.
CN107770174A (zh) 一种面向sdn网络的入侵防御系统和方法
EP2936772A1 (en) Network security management
Razaq et al. A big data analytics based approach to anomaly detection
Hua et al. Computer network security technology based on artificial intelligence
Farooq et al. Signature-Based Intrusion Detection System in Wireless 6G IoT Networks.
US11552985B2 (en) Method for predicting events using a joint representation of different feature types
Qing et al. Research on key technology of network security situation awareness of private cloud in enterprises
CN112948822A (zh) 一种应用于智慧教育系统的大数据审计场景分析方法和系统
Zhang et al. Software defined security architecture with deep learning-based network anomaly detection module
CN115442159B (zh) 一种基于家用路由的风险管控方法、系统和存储介质
CN110149303B (zh) 一种党校的网络安全预警方法及预警系统
KR102314557B1 (ko) 보안 통제 관리 시스템 및 그 방법
CN112437070B (zh) 一种基于操作生成树状态机完整性验证计算方法及系统
CN112085590A (zh) 规则模型的安全性的确定方法、装置和服务器
KR102471618B1 (ko) 넷플로우 기반 대규모 서비스망 불법 접속 추적 방법 및 그를 위한 장치 및 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant