CN103336927A

CN103336927A - 一种基于数据分类的数据防泄漏方法及其系统

Info

Publication number: CN103336927A
Application number: CN2013102242551A
Authority: CN
Inventors: 张亮
Original assignee: Hangzhou Shiping Information & Technology Co Ltd
Current assignee: Hangzhou Shiping Information & Technology Co Ltd
Priority date: 2013-06-07
Filing date: 2013-06-07
Publication date: 2013-10-02

Abstract

本发明涉及一种基于数据分类的数据防泄漏方法及其系统，进一步提高数据防泄漏效果。一种基于数据分类的数据防泄漏方法，包括如下步骤：A.设计基础数据分类器；B.定义领域特定语言的各个要素，形成数据泄露策略库；C.根据领域特定语言策略库对输入的数据进行检测，并执行策略中定义的响应，将违反策略的时间写入数据泄露事件库；D.获取数据；E.对违规数据执行已定义的相应操作；F.对违规的数据泄露事件进行统计分型，并在客户端展示。一种基于数据分类的数据防泄漏系统，包括基本分类器管理模块、DSL策略定义和编辑模块、DSL策略解析执行模块、数据访问模块、数据防护响应模块以及事件管理模块。

Description

一种基于数据分类的数据防泄漏方法及其系统

技术领域

本发明涉及一种数据防泄漏方法以及采用此方法的数据防泄漏系统，尤其涉及一种基于数据分类的数据防泄漏方法及其系统。

背景技术

数据泄露防护（Data Leakage Prevention， DLP）是通过一定的技术和管理手段，防止指定数据或信息资产以违反安全策略的形式被存储、使用和传输。数据泄露防护具有保护国家数据安全的战略地位和保障信息安全的重要作用，是国家安全的重要组成部分。对企业而言，数据泄露更是一个更需要重视的问题。无论企业处于何种规模，都存在数据泄密的风险，而这些风险将会让企业面临安全、知识产权、财产、隐私和法规遵从方面的威胁，从而导致企业时间、资金的双重浪费，进而会影响企业的声誉。当前，信息内容安全主要表现为文档或数据的安全，其威胁主要包括黑客入侵、国外间谍人员的窃密或内部泄密造成的文档或者数据泄露，如黑客通过网络攻击等非法手段获取用户文件，计算机病毒盗取文件资料，员工无保密意识的误操作、移动存储设备的遗失等。传统的信息安全产品如：防火墙、防病毒、入侵检测、漏洞扫描分别属于以防护（Prevention）、检测（Detection）和响应（Response）为核心的PDR模型和以策略（Policy）、保护（Protection）、检测（Detection）、反应（Response）为核心的闭环控制P2DR模型中的防护和检测环节，它们是从网络层或者应用层进行安全防护，缺乏对网络中存储和传输的数据层面进行保护。

数据泄露防护产品目前主要采用如下四类技术：权限控制技术、加密技术、虚拟化技术和数据识别技术，其中数据识别技术是针对数据本身进行防护，具有准确率高、管理简单、部署容易等特点，也是目前国外产品采用的主流技术。上述的数据包括结构化数据和非结构化数据，而对于非结构化数据，数据识别技术的优势更加明显。目前普遍采用的数据识别技术主要包括：关键字、数据字典、正则表达式、特定的验证规则（如：身份证）、数据描述属性、样本数据指纹、基于训练样本的分类算法等技术，不同的产品包括其中多种或全部识别技术，但是已有的产品都是基于以上技术的简单逻辑组合，并不能准确描述真实世界的数据内容，同时对于用户的专业知识要求较高，如用户需要理解复杂的逻辑表达式，逻辑运算符的优先级等，因此，用户对产品的使用和最终的数据泄露防护效果都不尽满意。

发明内容

针对现有技术的上述缺陷，本发明提供一种基于数据分类的数据防泄漏方法，该方法通过形成各数据识别领域的特定语言，用户根据该领域特定语言（Domain Specific Languages，DSL）定义策略描述各种需要保护的数据，进而进行准确的数据泄露防护；本发明的另一方面，提供一种基于数据分类的数据防泄漏系统。

为实现上述发明目的，本发明采用如下的技术方案：

一种基于数据分类的数据防泄漏方法，包括如下步骤：

A. 设计基础数据分类器；按特定的数据分类方法，设计基础数据分类器，以此检测目标数据中是否包含特定分类法中指定的数据特征，同时返回该特征的信息；

B. 定义领域特定语言的各个要素，由用户形成由领域特定语言描述的数据泄露策略库；

C. 根据领域特定语言策略库对输入的数据进行检测，并执行策略中定义的响应，将违反策略的时间写入数据泄露事件库；

D. 获取数据，包括静态存储的数据、来自网络的数据以及正在使用的各类数据；

E. 对违规数据执行已定义的响应操作；

F. 对违规的数据泄露事件进行统计分型，并在客户端展示。

进一步地，步骤A中的数据分类方法包括下述的一种或多种：关键字/短语分类法、数据字典分类法、正则表达式分类法、样本数据指纹分类法、数据描述属性分类法，特定验证规则分类法以及基于训练样本的分类算法。

进一步地，步骤B包括下述三个步骤：

B1、定义DSL的类型，根据用户需要用到的特定数据分类方法的种类，定义相应数量的类型；

B2、从用户描述数据的需求中抽象和定义DSL的关键字；

B3、定义DSL的语法，采用用户便于理解同时程序也可以解析的表达方式。

一种基于数据分类的数据防泄漏系统，其特征在于：包括基本分类器管理模块、DSL策略定义和编辑模块、DSL策略解析执行模块、数据访问模块、数据防护响应模块以及事件管理模块。

基本分类器管理模块用于定义基础的数据分类器，主要包括关键字/短语分类器、数据字典分类器、正则表达式分类器、样本数据指纹分类器、数据描述属性分类器，特定验证规则分类器以及基于训练样本的分类算法分类器，其中：

关键字短语分类器：用于检测目标数据中是否包含分类器中指定的关键词，同时返回关键词出现的次数；

字典分类器：用于检测目标数据中是否存在字典中所指定的单词，字典中每个单词根据其价值和敏感度具有不同的权重，分类器根据匹配的单词返回总的权重值；

正则表达式分类器：根据用户定义的正则表达式检测目标数据中是否存在可以匹配的内容，同时，该分类器还支持用户通过正则表达式或者字典定义例外情况，即先检测例外情况，如果匹配例外情况，则不进行正则表达式的匹配。采用该技术一是为了减少虚警，二是可以提高运行速度，三是可以排除已有正则表达式引擎无法处理的情况；

样本数据指纹分类器：本分类器的定义需要用户提供包含敏感信息的结构化和非结构化样本数据，系统对结构化数据通过散列算法得到其指纹，对于非结构化文档，系统通过提取文档的文本信息，去除定词，然后利用winnowing算法计算其指纹；

特定验证规则分类器：主要用于识别满足特殊规则的数据，如身份证号码、信用卡等数据、源代码等数据；

数据属性分类器：主要检测结构化数据和非结构化数据的其他属性，如非结构化数据中文件的类型、名称、体积等属性，数据在传输过程中的源和目的属性，数据存储的位置等属性；

基于训练样本的分类算法：根据用户提供的包含敏感信息和不包含敏感信息的非结构化训练样本，系统通过提取样本中的文本信息，去除定词，提取文本的特征矢量，然后进行训练，得出分类器的参数。

DSL策略定义和编辑模块的主要功能是根据用户描述数据的需求，定义DSL语言的各个要素，主要包括以下三个步骤：

①定义DSL的类型，如用户需要用到上述七种分类器，则可以定义七种类型；

②定义DSL的关键字，这些关键词需要从用户描述数据的需求中抽象，如：用户需要保护的敏感数据是“关键字A”出现在某个“正则表达式B”之前，此时我们就需要定义关键字“之前”；

③定义DSL的语法，由于计算机程序无法理解人类的全部语言，此处的语法是既方便用户理解，同时程序也可以解析的表达方式。

DSL策略解析执行模块主要用于根据DSL策略库对输入的数据进行检测，并执行策略中定义的响应，最后将违反策略的时间写入数据泄露事件库。

数据访问模块主要用于获取数据，主要包括：静态存储的数据，如：数据库、各类文件系统、SharePoint、Lotus Notes等；来自网络的数据，如：从路由器镜像端口或者以inline方式接入而捕获的网络数据包；正在使用的各类数据。

数据防护响应模块定义用户对违规数据执行何种操作，如删除、隔离、加密、修改等，该模块供DSL策略引擎调用。

事件管理模块对违规的数据泄露事件进行统计分型，并展示给用户，用户可以以此为依据评估自身的数据威胁，进而采取各种措施提升安全防护水平。

本发明的基于数据分类的数据防泄漏方法及其系统，基于领域特定语言（DSL），将目前已有的多种数据识别技术抽象为数据识别领域模型，并根据用户对数据描述的需求，形成领域语言中的类型，定义该领域语言的关键字和语法，进而形成数据识别领域的DSL，用户可以根据该DSL定义策略描述各种需要保护的数据，以及对于泄露数据采用的响应，进而实现准确的数据泄露防护。

附图说明

图1为本发明实施例数据防泄漏方法的示范性流程图；

图2为本发明实施例数据防泄漏系统的结构示意图。

具体实施方式

下面结合图1-2与具体实施方式对本发明做进一步的说明。

如图1所示，一种基于数据分类的数据防泄漏方法，包括如下步骤：

A.设计基础数据分类器；选择下述数据分类方法中的一种或者多种检测目标数据中是否包含特定分类法中指定的数据特征，同时返回该特征的信息；数据分类方法包括：关键字/短语分类法、数据字典分类法、正则表达式分类法、样本数据指纹分类法、数据描述属性分类法，特定验证规则分类法以及基于训练样本的分类算法；

B. 定义领域特定语言的下述3个要素要素，形成数据泄露策略库：

B2、从用户描述数据的需求中抽象和定义DSL的关键字；

B3、定义DSL的语法，采用用户便于理解同时程序也可以解析的表达方式；

E. 对违规数据执行已定义的相应操作；

F. 对违规的数据泄露事件进行统计分型，并在客户端展示。

如图2所示，根据本发明提出的一种基于数据分类的数据防泄漏系统，包括基本分类器管理模块、DSL策略定义和编辑模块、DSL策略解析执行模块、数据访问模块、数据防护响应模块以及事件管理模块。

基本分类器管理模块用于定义基础的数据分类器，主要包括关键字/短语分类器、数据字典分类器、正则表达式分类器、样本数据指纹分类器、数据描述属性分类器，特定验证规则分类器以及基于训练样本的分类算法分类器；

DSL策略定义和编辑模块的主要功能是根据用户描述数据的需求，定义DSL语言的各个要素；

DSL策略解析执行模块主要用于根据DSL策略库对输入的数据进行检测，并执行策略中定义的响应，最后将违反策略的时间写入数据泄露事件库；

数据访问模块主要用于获取数据，主要包括：静态存储的数据，如：数据库、各类文件系统、SharePoint、Lotus Notes等；来自网络的数据，如：从路由器镜像端口或者以inline方式接入而捕获的网络数据包；正在使用的各类数据；

数据防护响应模块定义用户对违规数据执行何种操作，如删除、隔离、加密、修改等，该模块供DSL策略引擎调用；

综上所述仅为本发明的较佳实施例，并非用来限定本发明的实施范围，凡依本申请专利范围的内容所作的等效变化与修饰，都应为本发明的技术范畴。

Claims

1.一种基于数据分类的数据防泄漏方法，包括如下步骤：

A. 设计基础数据分类器，按特定的数据分类方法，设计基础数据分类器，以此检测目标数据中是否包含特定分类法中指定的数据特征，同时返回该特征的信息;

E. 对违规数据执行已定义的相应操作；

F. 对违规的数据泄露事件进行统计分型，并在客户端展示。

2.根据权利要求1所述的基于数据分类的数据防泄漏方法，其特征在于：步骤A中的数据分类方法包括下述的一种或多种：关键字/短语分类法、数据字典分类法、正则表达式分类法、样本数据指纹分类法、数据描述属性分类法，特定验证规则分类法以及基于训练样本的分类算法。

3.根据权利要求1所述的基于数据分类的数据防泄漏方法，其特征在于：步骤B包括下述三个步骤：

B2、从用户描述数据的需求中抽象和定义DSL的关键字；

4.一种基于数据分类的数据防泄漏系统，其特征在于：包括基本分类器管理模块、DSL策略定义和编辑模块、DSL策略解析执行模块、数据访问模块、数据防护响应模块以及事件管理模块。