CN112422503A

CN112422503A - 一种用于审计审查数据的安全分类分级方法及系统

Info

Publication number: CN112422503A
Application number: CN202011055561.3A
Authority: CN
Inventors: 董阳; 何金; 倪家明; 范铮; 黄刚
Original assignee: State Grid Corp of China SGCC; State Grid Tianjin Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Tianjin Electric Power Co Ltd
Priority date: 2020-09-29
Filing date: 2020-09-29
Publication date: 2021-02-26

Abstract

本发明公开了一种用于审计审查数据的安全分类分级方法，包括以下步骤：(1)将文档导入，通过数据分类模型对所述文档进行分类；(2)对(1)文档的词语进行切分，提取该文档中的文档词根，根据提取的文档词根与词根分级数据库的词根进行匹配；(3)所述步骤(2)中未匹配成功的文档，人工辅助判定该文档的等级；(4)所述步骤(3)中存在异议的文档，根据电力的十大域分级要求，对所述文档进行定级；(5)对定级后的文档，根据电力系统管理要求和分析管控的反馈，向量化后形成热力图。以数据价值为核心，通过对文档预先分类后，再对文档分级，对审计审查用的数据进行梳理，从业务数据维度明确整体数据的安全风险点，针对性和指向性强。

Description

一种用于审计审查数据的安全分类分级方法及系统

技术领域

本发明属于数据安全处理技术领域，尤其是涉及一种用于审计审查数据的安全分类分级方法及系统。

背景技术

国家电网公司信息化建设工作的不断深入，在生产、经营、管理等方面对信息系统的依赖性越来越高，对信息系统的安全要求也越来越高。电网系统在采集、存储以及应用的过程中如果发生泄漏，会给企业和用户带来严重的安全隐患。重要的数据如果发生篡改，可能会导致系统的异常或中断，造成经济损失，甚至威胁关键基础设施安全乃至国家安全。

目前，电力系统的审计审查用数据，通常是统一存储进行保护，但数据量大，且无法分类定级，管理数据十分不便。

因此，需要建立和完善电力系统数据的分级分类管理，提升电网的安全防护能力的方法。

发明内容

本发明的目的是提供一种管理数据强、提高电网的安全防护能力的用于审计审查数据的安全分类分级方法。

本发明的另一个目的提供一种用于审计审查数据的安全分类分级系统。

本发明的技术方案如下：

一种用于审计审查数据的安全分类分级方法，包括以下步骤：

(1)通过用户终端将文档传输导入至数据中台，通过数据分类模型对所述文档进行分类，生成分类结果，将分类结果根据电力系统管理要求判定是否为重要数据，若电力系统管理要求中已明确规定，则将所述文档直接标识为重要数据，若电力系统管理要求中未明确规定，则通过重要数据重点阈模型对所述文档进行判定，人工参与辅助判定；

(2)对所述步骤(1)中标识为重要数据的文档的词语进行切分，提取该文档中的文档词根，根据提取的文档词根与词根分级数据库的词根进行匹配，若提取的文档词根与词根分级数据库的词根匹配成功，则根据词根分级数据库已设定的等级对该文档直接定级，若提取的文档词根与词根分级数据库的词根未匹配成功，则执行步骤(3)；

(3)所述步骤(2)中未匹配成功的文档，根据不同业务的管理要求的重要程度，人工辅助判定该文档的等级，若人工辅助判定存在异议，则执行步骤(4)；

(4)所述步骤(3)中存在异议的文档，根据电力的十大域分级要求，对所述文档进行定级；

(5)对定级后的文档，根据电力系统管理要求和分析管控的反馈，将管理范围内的文档数据集合向量化，向量化后形成文档的重要数据分布热力图，通过颜色的深浅程度来区别重要数据的分布情况。

进一步地说，所述步骤(1)中的数据分类模型的建立包括以下步骤：

S1.以人工方式，根据电力系统管理要求，对文档进行分类，形成初始的训练样本；

S2.将训练样本导入训练模型，逐步形成数据分类模型；

S3.在形成分类后，通过分类实战模拟，进一步地训练分类模型，增加决策数据，提高分类模型应对异常的能力；

S4.有异议的分类结果，人工参与辅助判断，人工决策后，将结果数据，再次输入分类模型进行分类模型训练；

S5.在使用分类模型实操时，对于有异议的分类结果，由人工进行辅助判断，人工决策后，将结果数据输入分类模型，作为训练样本，重新学习。

进一步地说，所述步骤(2)中所述词根分级数据库的建立，包括以下步骤：

Q1.以人工方式，根据电力系统的相关法律法规规定，对词根进行分级，形成最初的训练样本；

Q2.将训练样本导入训练模型，逐步形成词根分级模型；

Q3.在形成分级后，通过分级实战模拟，进一步训练词根分级模型，增加决策数据，提高词根分级模型应对异常的能力；

Q4.有异议的分级结果，人工参与辅助判断，人工决策后，将结果数据，再次输入词根分级模型训练；

Q5.将结果数据集合组成词根分级数据库，以供与切分的文档词根与词根分级数据库内的词根匹配，而对词根进行分级。

进一步地说，根据词根分级模型，定义文档的安全级别；

其中，将安全级别划分为绝密、机密、秘密、敏密、公开五种级别；

绝密等级是指机构最重要的数据，一旦泄露将对本机构利益、客户利益乃至国家利益和安全造成巨大损害；

机密等级是指机构内重要的数据，如发生泄露将对本机构利益、客户利益乃至国家利益和安全造成重大损害；

秘密等级是指机构内一般的数据，如发生泄露将对本机构利益、客户利益乃至国家利益和安全造成损害；

敏密等级是指机构内的商业秘密及决策的数据，如发生泄露将对本机构利益、客户利益乃至国家利益和安全造成损害；

公开等级是指机构内无须安全管理的数据，可对外进行公开的数据，如发生泄露不会对本机构利益、客户利益乃至国家利益和安全造成损害。

进一步地说，所述词根分级模型是根据逆文本频率指数算法，计算出词根重要性权重值，提取权重值大的词根作为提炼安全级别的定级规则术语挖掘的结果，其中，对文档的词语进行切分的原则是根据电力系统的法律法规内容、专业术语及保密规定的词语进行分词，并剔除掉对文档区分程度很少的例如称谓词、结构词、语气助词等。

一种基于所述的安全分类分级方法的安全分类分级系统：包括：

用户终端，用于将文档传输导入至数据中台内；

数据中台，用于对文档分析并根据电力系统管理要求进行分类分级；

其中，所述数据中台包括：

分类模块，对导入的文档，根据分类模型进行分类；

重要数据标识模块，对分类后的文档进行识别，判定文档是否为重要数据；

分级模块，将识别出的所述重要数据的文档根据词根分级模型，定义所述文档的安全级别；

标识模块，记录分级后所述重要数据中的文档重要特征，在该文档头中记录标识ID及其文档重要特征，被标识数据的详细内容存储到存储模块中；

存储模块，用于存储标识ID和文档重要特征；

数据输出模块，用于将定级后的文档，根据电力系统管理要求将管理范围内的文档数据集合向量化，向量化后形成重要数据分布热力图。

进一步地说，所述数据中台还包括：

访问权限模块，对所述重要数据进行访问权限控制(在产生、使用环节，通过用户名、角色和权限授权，进行访问权限限制)；

数据加密模块，对所述重要数据进行加密存储；

数据分析模块，对所述重要数据进行安全分析，并生成数据安全评估结果。

本发明具有的优点和积极效果是：

1.以数据价值为核心，通过对文档预先分类后，再对文档切分，通过词根与词根分级数据库匹配对应，从而对文档的分级，对审计审查用的数据进行梳理，从业务数据维度明确整体数据的安全风险点，针对性和指向性强。

2.加强系统内部数据安全管理的强度，细化了管理策略和粒度，更好地适应大数据时代数据安全管理的需要，为大数据平台动态业务数据的安全提供了安全保障。

3.全面的分析管控体系，采用机器学习相关算法，分析安全、管控安全，客观、准确的评估体系，采用指数评估方式，量化安全管控结果，指导管控改进。

附图说明

图1是本发明的数据分类流程图；

图2是本发明的数据分级流程图。

具体实施方式

以下结合具体实施例对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明，决不限制本发明的保护范围。

名词解释：

分类算法，它是描述或识别数据或概念的模型或函数，以便能够使用分类算法来区分不同的内容。

机器学习，是一门多领域交叉学科，涉及概率论、统计学等，研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。

文档摘要，采取文档摘要算法，提取文档中的关键词，对文档大意进行概括性描述。

实施例1

如图所示，本发明的一种用于审计审查数据的安全分类分级方法，包括以下步骤：

(1)通过用户终端将文档传输并导入至数据中台，通过数据分类模型对所述文档进行分类生成分类结果，将分类结果根据电力系统管理要求判定是否为重要数据，若电力系统管理要求中已明确规定，则将所述文档直接标识为重要数据，若电力系统管理要求中未明确规定，则通过重要数据重点阈模型对所述文档进行判定，人工参与辅助判断；

(2)对(1)中标识为重要数据的文档的词语进行切分，提取文档中的词根，通过提取的词根与词根分级数据库的词根进行匹配，若提取的词根与词根匹配成功，则根据词根分级数据库已设定的等级对文档直接定级，若提取的词根与词根未匹配成功，则执行步骤(3)；

(3)所述步骤(2)中未匹配成功的文档，根据不同业务的管理要求的重要程度，人工辅助判定该文档的等级，若人工辅助判断存在异议，则执行步骤(4)；

(5)对所述文档定级后，根据电力系统管理要求和分析管控的反馈，将管理范围内的数据集合向量化，向量化后形成重要数据分布热力图，通过颜色的深浅程度来区别重要数据的分布情况(其中，可采用红黄色标识重要数据密度最大的区域，用浅蓝色标识数据密度最小的区域)。

S1.以人工方式，根据电力系统的管理要求，对文档进行分类，形成初始的训练样本；

S2.将训练样本导入训练模型，逐步形成数据分类模型；

S5.在使用分类模型实操时，对于有异议的分类结果，由人工进行辅助判断，人工决策后，将数据输入分类模型，作为训练样本，重新学习。

进一步地说，所述词根分级数据库的建立，包括以下步骤：

Q2.将训练样本导入训练模型，逐步形成词根分级模型；

Q5.将结果数据集合组成词根分级数据库，以供与切分的词根与词根分级数据库内的词根匹配，而对词根进行分级。

进一步地说，根据词根分级模型，定义文档的安全级别；

其中，绝密等级是指机构最重要的数据，一旦泄露将对本机构利益、客户利益乃至国家利益和安全造成巨大损害；

进一步地说，电力系统的相关法律法规包括：《中华人民共和国网络安全法》、国家电网公司密级范围的规定》(国家电网办〔2018〕342号)、《国家电网公司密级范围的规定国网》(办/4)464-2018(F)、《国家电网公司涉密事项目录》、《国家电网公司评标专家管理细则》。

其中，根据电力系统的管理要求，具体分类见表1

表1

实施例2

在实施例1的基础上，在所述步骤(1)中对文档标识重要数据，通过识别重要业务数据，根据重要业务数据识别模型，判定是否是重要业务数据。

将分类结果根据电力系统管理要求，具体包括如下步骤：

首先，判断是否为重要数据，对于电力系统管理要求中已有明确规定后，直接标识为重要数据(标识内容和方式，在后文说明)；

其次，对于管理要求中没有明确要求的数据，使用重要数据重点阈模型进行判定。只有标识为重要数据的文档，才对其进行分级处理。

标识，记录文档重要特征。在文档头中记录标识ID，被标识数据的详细内容会存储在电力系统的数据中台，与被标签化的文档，通过ID与数据库中详细内容进行管理。

标识的内容包括：唯一ID码、操作者、操作时间、所在操作系统、安全等级、被赋予的权限。

在输出生成热力图后，还需要设置访问权限，在产生、使用环节，通过用户名、角色和权限授权，进行访问权限控制；

2.数据加密，使用https协议进行传输、采用DES算法对重要数据加密存储；

3.数据分析模块，对所述重要数据进行安全分析，并生成数据安全评估结果。

对重要数据安全的评估，从业务需求及管控级别上，将安全要求最迫切的数据，在管控范围内的其他数据或暂时无法量化评估的数据，用定性方式评估。随着数据安全管控体系的不断完善和加强，获取评估所需数据能力的加强，定量分析的管控范围也将不断的扩大。

在对数据分级分类中，可以通过人为设定规则对所需的电力系统管理要求进行条件添加，以扩大对数据筛选分类定级的条件，以适用于更多的数据分析要求。

实施例3

在实施例1的基础上，一种基于实施例1中所述的安全分类分级方法的安全分类分级系统：包括：

用户终端，用于将文档传输导入至数据中台内；

其中，所述数据中台包括：

分类模块，对导入的文档，根据分类模型进行分类；

存储模块，用于存储标识ID和文档重要特征；

进一步地说，所述数据中台还包括：

数据加密模块，对所述重要数据进行加密存储；

文档交互过程如下：

用户终端将文档传输到数据中台，通过系统将数据经由分类模块、分级模块，对文件进行分类分级处理，并赋予相关操作权限后上传至存储器，任一具有操作及访问权限的用户终端可使用该文档进行后续分析操作。

以上对本发明做了示例性的描述，应该说明的是，在不脱离本发明的核心的情况下，任何简单的变形、修改或者其他本领域技术人员能够不花费创造性劳动的等同替换均落入本发明的保护范围。

Claims

1.一种用于审计审查数据的安全分类分级方法，其特征在于，包括以下步骤：

(1)通过用户终端将文档传输导入至数据中台，通过数据分类模型对所述文档进行分类，生成分类结果，将分类结果根据电力系统管理要求判定是否为重要数据，若电力系统管理要求中已有明确规定，则将所述文档直接标识为重要数据，若电力系统管理要求未明确规定，则通过重点数据重点阈模型对所述文档进行判定，并人工参与辅助判定；

(2)对所述步骤(1)中标识为重要数据的文档的词语进行切分，提取该文档中的文档词根，根据提出的文档词根与词根分级数据库的词根进行匹配，若提取的文档词根与词根分级数据库的词根匹配成功，则根据词根分级数据库已设定的等级对该文档直接定级，若提取的文档词根与词根分级数据库的词根未匹配成功，则执行步骤(3)；

(5)对定级后的文档，根据电力系统管理要求和分析管控的反馈，将管理规范内的文档数据集合向量化，向量化后形成文档的重要数据分布热力图，通过颜色的深浅程度来区别重要数据的分布情况。

2.根据权利要求1所述的安全分类分级方法，其特征在于：所述步骤(1)中的所述数据分类模型的建立，包括以下步骤：

S2.将训练样本导入训练模型，逐步形成数据分类模型；

S3.在形成分类后，通过分类实战模拟，进一步地训练分类模型，增加决策数据，提高分类模型对异常的能力；

S4.有异议的分类结果，人工参与辅助判断，人工决策后，将结果数据再次输入分类模型进行分类模型训练，作为训练样本，重新学习。

3.根据权利要求1所述的安全分类分级方法，其特征在于：所述步骤(2)中所述词根分级数据库的建立，包括以下步骤：

Q2.将训练样本导入训练模型，逐步形成词根分级模型；

Q4.有异议的分类结果，人工参与辅助判断，人工决策后，将结果数据再次输入词根分级模型进行词根分级模型训练，作为训练样本，重新学习；

Q5.将结果数据集合组成词根分级数据库，以供与切分的文档词根与词根分级数据库内的词根匹配，从而对词根进行分级。

4.根据权利要求3所述的安全分类分级方法，其特征在于：根据词根分级模型，定义分档的安全级别包括：

密等级是指机构最重要的数据，一旦泄露将对本机构利益、客户利益乃至国家利益和安全造成巨大损害；

5.根据权利要求4所述的安全分类分级方法，其特征在于：所述词根分级模型是根据逆文本频率指数算法，计算出词根重要性权重值，提取权重值大的词根作为提炼安全级别的定级规则术语挖掘的结果。

6.一种基于权利要求1-5中任一项所述的安全分类分级方法的安全分级分类系统，其特征在于，包括：

用户终端，用于将文档传输导入至数据中台内；

其中，所述数据中台包括：

分类模块，对导入的文档，根据分类模型进行分类；

存储模块，用于存储标识ID和文档重要特征；

7.根据权利要求6所述的安全分级分类系统，其特征在于：所述数据中台还包括：

数据加密模块，对所述重要数据进行加密存储；

8.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于：所述处理器执行所述程序时实现如权利要求1-5中任一项所述的安全分类分级方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：该计算机程序被处理器执行时实现如权利要求1-5中任一项所述的安全分类分级方法的步骤。