CN106682527A

CN106682527A - 一种基于数据分类分级的数据安全管控方法及系统

Info

Publication number: CN106682527A
Application number: CN201611212929.6A
Authority: CN
Inventors: 孙亚东; 王志海; 魏力; 何晋昊; 喻波; 杨巨杰
Original assignee: Beijing Wondersoft Technology Co Ltd
Current assignee: Beijing Wondersoft Technology Co Ltd
Priority date: 2016-12-25
Filing date: 2016-12-25
Publication date: 2017-05-17
Anticipated expiration: 2036-12-25
Also published as: CN106682527B

Abstract

本发明公开了一种基于数据分类分级的数据安全管控方法及系统，该方法包括以下步骤：发现，将管理范围内的数据集合向量化；分类，将发现并向量化后的文档，根据分类模型进行分类；识别重要业务数据，将分类结果根据重要业务数据识别模型，判定所述文档是否是重要业务数据；分级，将识别出的所述重要业务数据根据分级模型，定义所述文档的安全级别；标识，记录分级后所述重要业务数据中的文档重要特征，在所述文档头中记录标识ID和所述文档重要特征，被标识数据的详细内容存储在第三方数据库；对经过所述重要业务数据感知步骤形成的重要业务数据进行分析管控。通过该发明的方案，从安全管理和数据管理相结合视角出发构建数据安全管控体系，客观、准确的评估体系，采用指数评估方式，量化安全管控结果，指导管控改进。

Description

一种基于数据分类分级的数据安全管控方法及系统

技术领域

本发明涉及数据安全领域，具体涉及一种数据安全管控方法及系统。

背景技术

DLP，数据泄密防护技术，是通过一定的技术手段，防止企业的指定数据或信息资产以违反安全策略规定的形式流出企业的一种策略和技术。DLP技术可以对数据存储、使用和传输过程进行处理，对数据内容进行识别和处理，确保数据可以透明处理，智能加密，具有较高的稳定性和系统兼容性，并可以形成详尽的数据内容级别的审计日志。DLP的核心技术点包括传输协议分析、数据格式内容识别、高速规则匹配、自然语义分析、机器学习、聚类分析、数据特征匹配等。

现阶段的DLP，一般采用了三种基础检测技术和三种高级检测技术。基础检测技术中通常有三种方式，正则表达式检测(标示符)、关键字和关键字对检测、文档属性检测。基础检测方法采用常规的检测技术进行内容搜索和匹配，比较常见的都是正则表达式和关键字，这两种方法可以对明确的敏感信息内容进行检测。文档属性检测主要是针对文档的类型、文档的大小、文档的名称进行检测，其中文档的类型的检测是基于文件格式进行检测，不是简单的基于后缀名检测，对于修改后缀名的场景，文件类型检测可以准确的检测出被检测文件的类型，目前支持100多种标准的文件类型，并且可以通过自定义特征，去识别特殊的文件类型格式的文档。高级检测技术中也有三种方式，精确数据比对(EDM)、指纹文档比对(IDM)、向量分类比对(SVM)。EDM用于保护通常为结构化格式的数据，例如客户或员工数据库记录。IDM和SVM用于保护非结构化的数据，例如Microsoft Word或PowerPoint文档。对于EDM、IDM、SVM而言，敏感数据会先由企业标识出来，然后再由DLP判别其特征，以进行精准的持续检测。判别特征的流程包括DLP访问和检索文本及数据、予以正规化，并使用不可逆的打乱方式进行保护。DLP检测是以实际的机密内容为基础，而非根据文件本身。因此，DLP不只能检测敏感数据的检索项或衍生项，而且能够标识文件格式与特征信息格式不同的敏感数据。例如，如果已经判别出机密Microsoft Word文档的特征，DLP就能够在相同的内容以PDF附件的方式通过电子邮件进行提交时，将其准确检测出来。

现有技术存在以下缺点：

不具备定义文档的安全等级的能力；不具备发现重要文档分布情况的能力；不具备在文档内部，标识文档特征属性的能力；不具备文档使用限制控制能力；不具备文档使用异常行为发现的能力；不具备数据安全指数化表示的能力；不具备数据安全评估的能力。

发明内容

为解决上述技术问题，本发明提供了一种基于数据分类分级的数据安全管控方法，包括以下步骤：

1).重要业务数据感知步骤，其包括：

1.1).发现，将管理范围内的数据集合向量化；

1.2).分类，将发现并向量化后的文档，根据分类模型进行分类；

1.3).识别重要业务数据，将分类结果根据重要业务数据识别模型，判定所述文档是否是重要业务数据；

1.4).分级，将识别出的所述重要业务数据根据分级模型，定义所述文档的安全级别；

1.5).标识，记录分级后所述重要业务数据中的文档重要特征，在文档头中记录标识ID和所述文档重要特征，被标识数据的详细内容存储在第三方数据库；

对经过所述重要业务数据感知步骤形成的重要业务数据进行分析管控，包括：对所述重要业务数据进行访问权限控制；对所述重要业务数据进行加密存储；采用行为建模与异常行为发现进行数据动态安全分析；根据分析结果，对所述重要业务数据赋予不同的行为权限；通过隔离方式，确保所述重要业务数据安全；追踪所述重要业务数据外部使用情况。

优选的，采用定性和定量结合的方式量化评估数据安全管控效果。

优选的，所述步骤1.1)具体包括：根据管理要求和分析管控的反馈，将管理范围内的数据集合向量化，向量化后形成重要业务数据分布热力图，通过颜色的深浅程度来区别重要数据的分布情况。

优选的，所述步骤1.2)具体包括：通过初始训练样本，形成数据分类模型，之后通过样本数据进一步训练所述数据分类模型，形成数据分类模型，对重要业务数据进行分类，对于有异议的分类结果，人工参与辅助判断。

优选的，所述步骤1.3)具体包括：按照识别标准可以直接识别的重要业务数据直接标识为重要业务数据，对于无法直接识别的数据采用重要数据重点阈模型进行判定。

优选的，所述步骤1.4)具体包括：根据分级模型，将所述重要业务数据划分为高、中、低、无四种级别。

优选的，所述步骤1.5)具体包括：记录分级后所述重要业务数据中的文档重要特征，在所述文档头中记录所述标识ID和文档重要特征，被标识数据的详细内容存储在第三方数据库，与被分类、分级后的文档，通过所述标识ID与数据库中所述详细内容进行关联，所述被标识数据的详细内容包括：所述标识ID、操作者、操作时间、所在操作系统、安全等级、被赋予的权限六部分内容。

优选的，采用行为建模与异常行为发现进行数据动态安全分析包括：通过建立用户行为模型，依靠数据挖掘和机器学习算法，实现用户行为分析和异常行为的自主监测；在样本容量很小时，采用聚类分析方法，对单一类型的行为数据先采用Canopy算法进行粗聚类，得到数据集聚合的类别数量，然后采用K-Means聚类方法进行更高精度的聚类。

优选的，所述通过隔离方式，确保所述重要业务数据安全，包括：使用云存储技术，将所述重要业务数据存储在云端，而非存储在客户端，通过隔离方式，确保所述重要业务数据安全。

为解决上述技术问题，本发明提供了一种基于数据分类分级的数据安全管控系统，包括重要业务数据感知装置和重要业务数据分析管控装置；

其中，所述重要业务数据感知装置，包括：

发现模块，将管理范围内的数据集合向量化；

分类模块，将发现并向量化后的文档，根据分类模型进行分类；

重要业务数据识别模块，将分类结果根据重要业务数据识别模型，判定所述文档是否是重要业务数据；

分级模块，将识别出的所述重要业务数据根据分级模型，定义所述文档的安全级别；

标识模块，记录分级后所述重要业务数据中的文档重要特征，在所述文档头中记录标识ID和所述文档重要特征，被标识数据的详细内容存储在第三方数据库；

所述重要业务数据分析管控装置对所述重要业务数据感知装置形成的重要业务数据进行分析管控，包括：访问权限模块，对所述重要业务数据进行访问权限控制；数据加密模块，对所述重要业务数据进行加密存储；综合分析模块，采用行为建模与异常行为发现进行数据动态安全分析；管控策略模块，根据分析结果，对所述重要业务数据赋予不同的行为权限；隔离模块，通过隔离方式，确保所述重要业务数据安全；外部使用安全管控模块，追踪所述重要业务数据外部使用情况。

通过本发明的技术方案取得了以下技术效果：

以数据价值为核心，从安全管理和数据管理相结合视角出发构建数据安全管控体系。创新的技术引用，将云存储技术、数据分析技术(分类、标识、识别重点数据)、行为建模与行为分析技术引入安全领域。全面的分析管控体系，采用机器学习相关算法、大数据精神，分析安全、管控安全。客观、准确的评估体系，采用指数评估方式，量化安全管控结果，指导管控改进。

附图说明

图1是本发明安全管控体系框架图

图2是本发明感知体系框架图

图3是本发明分类流程图

图4是本发明分级处理流程图

图5是本发明数据分级模型图

图6是本发明分级流程图

图7是本发明分析管控体系框架图

图8是本发明模型构建与异常行为发现过程流程图

图9是本发明指数评估体系框架图

图10是本发明周期性检查和重新评估流程图

具体实施方式

名词解释：

Windows Session，操作系统会话，是由进程和其他的系统对象(比如窗口站、桌面和窗口)构成的，它们代表了一个用户的工作站登录会话。

JSON，是一种轻量级的数据交换格式，易于阅读和编写，同时也易于机器解析和生成。JSON采用与编程语言无关的文本格式，借用了类C语言的习惯，这些特性使JSON成为理想的数据交换格式。

贝叶斯定理，是关于随机事件A和B的条件概率的一则定理。其中P(A|B)是在B发生的情况下A发生的可能性。

贝叶斯分类，是统计学的一种分类方法，它是一类利用概率统计知识进行分类的算法。

朴素贝叶斯算法，是基于贝叶斯定理与特征条件独立假设的分类方法。

DES(Data Encryption Standard)，密码体制中的对称加密算法，又被称为美国数据加密标准。1977年被美国联邦政府的国家标准局确定为联邦资料处理标准(FIPS)，并授权在非密级政府通信中使用，随后该算法在国际上广泛流传开来。DES算法具有极高安全性，到目前为止，除了用穷举搜索法对DES算法进行攻击外，还没有发现更有效的办法。

云存储，是一种新兴的网络存储技术。将网络中大量各种不同类型的存储设备通过软件集合起来协同工作，共同对外提供数据存储和业务访问功能的一种系统。

分类算法，它是描述或识别数据或概念的模型或函数，以便能够使用分类算法来区分不同的内容。

聚类算法，又称群分析，它是研究样品或指标分类问题的一种统计分析方法，同时也是数据挖掘的一个重要算法。聚类以相似性为基础，在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性。

KNN，K值邻近算法，是数据挖掘技术中的分类算法之一。kNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。

文档标识，通过office提供的api接口，将特定内容写入office文档中。

文档向量化，通过向量化技术，将非结构化的文档，进行以关键词以为主的量化标识，以形成文档的结构化描述。

文档摘要，采取文档摘要算法，提取文档中的关键词，对文档大意进行概括性描述。

机器学习，是一门多领域交叉学科，涉及概率论、统计学等，研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。

针对本发明提出的问题，本发明以综合、整体地解决数据安全管控问题为目标，从数据的发现、数据安全分析管控到管控效果及管控手段评估，形成数据安全管控的体系化模式。

解决数据安全管控面临的数据安全管控范围问题，数据重要按不同安全等级管控问题，数据全生命周期(产生、使用、传输、存储)安全保障问题，发现人为异常操作问题，管控效果和管控手段评价问题。

以重要业务数据安全为宏观指导，制订：重要业务数据感知体系；重要业务数据综合分析与管控体统；重要业务数据评估和审计体系。

从重要业务数据的定义、发现、采集、使用、分析、评估和审计过程，对数据的全生命周期进行管控，确保合理的数据被合理的使用，以达到数据安全管控效果。

重要业务数据感知体系包括：

1.对重要业务数据进行定义，明确需要进行重点管理的数据范围。

2.发现重要业务数据，掌握其存储的物理位置、业务系统、数据库，摸清分布状态。

3.发现重要业务数据后，对其进行标识，为掌握数据使用、流动等全生命周期相关情况，提供统计与分析的基础。

4.采集数据全生命周期过程中的相关信息，用以进行安全管控。

5.数据感知，采用计算机自动与人为主观判断两种方式对数据的集合如文件等，进行分类分级，结合使用场景，判断数据集合的使用权限。

重要业务数据分析管控体系包括：

1.明确重要业务数据访问权限，确保数据在管控范围内生产、使用、传输、存储和销毁。

2.根据管理要求，对数据进行加密传输、加密存储。

3.对数据安全管理范围内的文档等数据进行综合分析。

4.根据分析结果，对管控文档赋予允许阅读权限、允许修改权限、允许复制权限、允许删除权限、允许外发权限、允许打印权限、外发打水印权限。

5.使用云存储技术，将重要文档存储在云端，避免数据在客户端落地，通过隔离方式，确保文档安全。

6.采用文档扩散范围规定、外发登记审批、文档水印方式，追踪文档外部使用。

指数评估体系包括：

1.指数，建立一套用于量化评估数据安全管控效果、管控手段的指标指数体系。以定量和定性两种方式评价，定性方式，主要用于评价，暂时不能定量评估的内容，随着管控手段的提升，管控范围的扩大，逐步加定量管控能力。

2.评估，建立一套用于评估数据安全管控效果、管控手段的评估流程，在流程的规范指导下，展开数据安全管控评估过程。

感知体系包括如附图2所示五个部分。

发现，根据管理要求和分析管控的反馈，将管理范围内的数据集合向量化。向量化后形成重要数据分布热力图，通过颜色的深浅程度来区别重要数据的分布情况。用红黄色标识重要数据密度最大的区域，用浅蓝色标识数据密度最小的区域。

分类，将发现并向量化后的文档，根据分类模型进行分类。数据分类如附图3所示。第一步，以人工方式，根据人的经验，对文档进行分类，形成最初的训练样本。第二步，将训练样本导入优化后的朴素贝叶斯模型，训练模型，逐步形成数据分类模型。第三步，再形成分类后，通过分类实战模拟，进行一步训练分类模型，增加决策数据，提高分类模型应对异常的能力。第四、五步，有异议的分类结果，人工参与辅助判断。人工决策后，将结果数据，再次输入分类模型进行分类模型训练。第六步，投产后，对于有异议的分类结果，由人工进行辅助判断，人工决策后，将数据输入分类模型，作为训练样本，重新学习。

识别重要业务数据，根据重要业务数据识别模型，判定是否是重要业务数据，如附图4所示。将分类结果根据管理要求，首先判断是否为重要数据，对于管理要求中已有明确规定后，直接标识为重要数据(标识内容和方式，在后文说明)。对于管理要求中没有明确要求的数据，使用重要数据重点阈模型进行判定。只有标识为重要数据的文档，才对其进行分级处理。

分级，根据分级模型，定义文档的安全级别。首先，参考等保中相关分级模式，将安全级别划分为高、中、低、无四种级别。其中高安全等级是指，指机构最重要的数据，一旦泄露将对本机构利益、客户利益乃至国家利益和安全造成巨大损害。中安全等级是指，指机构内重要的数据，如发生泄露将对本机构利益、客户利益乃至国家利益和安全造成重大损害。低安全等级是指，指机构内一般的数据，如发生泄露将对本机构利益、客户利益乃至国家利益和安全造成损害。无安全等级是指，指机构内无须安全管理的数据，如发生泄露不会对本机构利益、客户利益乃至国家利益和安全造成损害。分级模型如附图6所示。

标识，记录文档重要特征。在文档头中记录标识ID，被标识数据的详细内容以JSON格式存储在第三方数据库，与被标签化的文档，通过ID与数据库中详细内容进行关联。标识的内容包括，ID唯一码、操作者、操作时间、所在操作系统、安全等级、被赋予的权限六部分内容。

分析管控体系包括如附图7所示六个部分。

访问权限，在产生、使用环节，通过用户名、角色和权限受权，进行访问权限控制。

数据加密，使用https协议进行传输、采用DES算法对重要数据加密存储。

综合分析，采用行为建模与异常行为发现进行数据动态安全分析。通过建立用户行为模型，依靠数据挖掘和机器学习算法，实现用户行为分析和异常行为的自主监测。机器学习包含无监督学习和有监督学习。通常，前者性能较差，只能提供异常行为的粗略识别，后者需要大量训练样本。要对行为建模，必须首先给出行为的明确定义。不同的行为分析视角，决定了不同的行为定义，继而决定了不同的行为模型。本方案分别从独立行为、行为集合和行为转换三个视角，使用基于单个行为特征、行为集合统计特征和行为过程的三类行为建模方法。另外需要说明的是，这里所说的行为与原始数据中的一条记录并不是一一对应关系，平台需要先从原始数据中提取行为数据，然后开始行为分析过程。

模型构建与异常行为发现过程，如附图8所示。

在样本容量很小时，采用聚类分析方法，对单一类型的行为数据先采用Canopy算法进行粗聚类，得到数据集聚合的类别数量，然后采用K-Means聚类方法进行更高精度的聚类。K-Means聚类大概流程为：首先利用Canopy算法确定K个聚类中心，然后分别计算集合中的数据距离这些聚类中心的距离，数据点划分到距离其最近的中心的类别中，接着对每一个类别重新寻找质心，形成新的聚类中心；重复这一过程，直到聚类结果令人满意为止。在聚类结果中，平台可以发现数据集中的孤立点或者稀疏点集，这些点代表的行为即为异常行为。

仅依靠人工研判就可以生成一个小范围的正常行为库。对单一类型的行为数据集，对应存在一个该类型的正常行为库。这种情况下，平台采用KNN算法发现异常行为，新的行为如果与该库中的每一个案例的距离都大于设定的阈值，则该行为是异常行为；异常行为经过人工研判为正常行为的，则用该行为更新正常行为库。

当具有足够的正常行为和违规行为数据时，平台用这些数据作为样本，训练高级分类算法的模型。选择随机森林作为高级分类算法，训练得到的模型分别部署在实时处理模块和离线处理模块，提供较高精度的异常行为发现服务。随机森林算法采用有放回抽样的方式建立多个训练样本，分别训练出多个决策树模型。对于一个未知行为数据，随机森林算法采用多个决策树投票的方式给出该行为是否违规的概率。

总的来说，聚类算法不依赖任何样本数据发现未知异常行为，KNN算法只依赖少量正常行为数据样本发现未知异常行为，随机森林算法需要大量正、负样本找到行为数据的规律，从而提供较高精度的异常行为发现功能。

指数评估体系包括如附图9所示两个部分。

对于重要业务数据安全的评估，用定性和定量两种方式来完成。从业务需求及管控级别上，将安全要求最迫切的数据，用定量及定性两种方式评估，管控范围内的其它数据或暂时无法量化评估的数据，用定性方式评估。随着数据安全管控体系的不断完善和加强，获取评估所需数据能力的加强，定量分析的管控范围也将不断的扩大。越来越多的数据逐步纳入到定量分析的管控范围内。

数据安全评估，是评估和确定与数据安全漏洞相关的风险及后果。为管理层制订安全计划提供基础。是评估数据生命周期过程中与之相关的数据安全风险的程序。可将数据安全风险评估结果作为基准，以反映自上次评估以来所发生的变化，以及尚须做出哪些工作，方能满足广大银行数据管理对数据安全要求。

数据安全评估后，需要采取适当的安全保护措施。根据评估后的结果，采取适当的安全保护措施，以确保数据处于安全的状态，其中包括制订数据安全政策、分派安全职责、采集安全保护措施。

如附图10，周期性检查和重新评估。数据安全评估后，须对措施的执行情况，进行周期性检查和重新评估，以确保安全措施已得到切实执行，达到政策要求，并紧跟安全的发展趋势和不断变化的外界环境。此体系有赖于持续反馈和检查，检查可以通过定期安全审计进行，发现需要改进之处。

文档交互与权限控制过程：

A办公终端将文件传输到数据安全管理平台，由定义文件的操作权限，管理员在数据安全管理平台审批后，将文件提交至云存储，并通过B办公终端，可以使用此文件，B终端收到通知消息后，在预定义的权限范围内使用存储在云端的文件。

文档下载与使用过程：

办公终端访问业务系统请求下载数据，业务系统将数据经由分类分级模块，对文件进行分类分级处理，并赋予相关操作权限后上传至云存储，办公终端在云端使用此文件。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换以及改进等，均应保护在本发明的保护范围之内。

Claims

1.一种基于数据分类分级的数据安全管控方法，包括以下步骤：

1).重要业务数据感知步骤，其包括：

1.1).发现，将管理范围内的数据集合向量化；

2.根据权利要求1所述的方法，采用定性和定量结合的方式量化评估数据安全管控效果。

3.根据权利要求1所述的方法，所述步骤1.1)具体包括：根据管理要求和分析管控的反馈，将管理范围内的数据集合向量化，向量化后形成重要业务数据分布热力图，通过颜色的深浅程度来区别重要数据的分布情况。

4.根据权利要求1所述的方法，所述步骤1.2)具体包括：通过初始训练样本，形成数据分类模型，之后通过样本数据进一步训练所述数据分类模型，形成数据分类模型，对重要业务数据进行分类，对于有异议的分类结果，人工参与辅助判断。

5.根据权利要求1所述的方法，所述步骤1.3)具体包括：按照识别标准可以直接识别的重要业务数据，直接标识为重要业务数据，对于无法直接识别的数据，采用重要数据重点阈模型进行判定。

6.根据权利要求1所述的方法，所述步骤1.4)具体包括：根据分级模型，将所述重要业务数据划分为高、中、低、无四种级别。

7.根据权利要求1所述的方法，所述步骤1.5)具体包括：记录分级后所述重要业务数据中的文档重要特征，在所述文档头中记录所述标识ID和文档重要特征，被标识数据的详细内容存储在第三方数据库，与被分类、分级后的文档，通过所述标识ID与数据库中所述详细内容进行关联，所述被标识数据的详细内容包括：所述标识ID、操作者、操作时间、所在操作系统、安全等级、被赋予的权限六部分内容。

8.根据权利要求1所述的方法，采用行为建模与异常行为发现进行数据动态安全分析包括：通过建立用户行为模型，依靠数据挖掘和机器学习算法，实现用户行为分析和异常行为的自主监测；在样本容量很小时，采用聚类分析方法，对单一类型的行为数据先采用Canopy算法进行粗聚类，得到数据集聚合的类别数量，然后采用K-Means聚类方法进行更高精度的聚类。

9.根据权利要求1所述的方法，所述通过隔离方式，确保所述重要业务数据安全，包括：使用云存储技术，将所述重要业务数据存储在云端，而非存储在客户端，通过隔离方式，确保所述重要业务数据安全。

10.一种基于数据分类分级的数据安全管控系统，包括重要业务数据感知装置和重要业务数据分析管控装置；

其中，所述重要业务数据感知装置，包括：

发现模块，将管理范围内的数据集合向量化；