CN112422503A - 一种用于审计审查数据的安全分类分级方法及系统 - Google Patents

一种用于审计审查数据的安全分类分级方法及系统 Download PDF

Info

Publication number
CN112422503A
CN112422503A CN202011055561.3A CN202011055561A CN112422503A CN 112422503 A CN112422503 A CN 112422503A CN 202011055561 A CN202011055561 A CN 202011055561A CN 112422503 A CN112422503 A CN 112422503A
Authority
CN
China
Prior art keywords
data
document
root
classification
security
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011055561.3A
Other languages
English (en)
Inventor
董阳
何金
倪家明
范铮
黄刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Tianjin Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
State Grid Tianjin Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Tianjin Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN202011055561.3A priority Critical patent/CN112422503A/zh
Publication of CN112422503A publication Critical patent/CN112422503A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/10Network architectures or network communication protocols for network security for controlling access to devices or network resources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/418Document matching, e.g. of document images
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/04Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
    • H04L63/0428Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload
    • H04L63/0435Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload wherein the sending and receiving network entities apply symmetric encryption, i.e. same key used for encryption and decryption

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Marketing (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Game Theory and Decision Science (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Educational Administration (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • Development Economics (AREA)
  • Primary Health Care (AREA)

Abstract

本发明公开了一种用于审计审查数据的安全分类分级方法,包括以下步骤:(1)将文档导入,通过数据分类模型对所述文档进行分类;(2)对(1)文档的词语进行切分,提取该文档中的文档词根,根据提取的文档词根与词根分级数据库的词根进行匹配;(3)所述步骤(2)中未匹配成功的文档,人工辅助判定该文档的等级;(4)所述步骤(3)中存在异议的文档,根据电力的十大域分级要求,对所述文档进行定级;(5)对定级后的文档,根据电力系统管理要求和分析管控的反馈,向量化后形成热力图。以数据价值为核心,通过对文档预先分类后,再对文档分级,对审计审查用的数据进行梳理,从业务数据维度明确整体数据的安全风险点,针对性和指向性强。

Description

一种用于审计审查数据的安全分类分级方法及系统
技术领域
本发明属于数据安全处理技术领域,尤其是涉及一种用于审计审查数据的安全分类分级方法及系统。
背景技术
国家电网公司信息化建设工作的不断深入,在生产、经营、管理等方面对信息系统的依赖性越来越高,对信息系统的安全要求也越来越高。电网系统在采集、存储以及应用的过程中如果发生泄漏,会给企业和用户带来严重的安全隐患。重要的数据如果发生篡改,可能会导致系统的异常或中断,造成经济损失,甚至威胁关键基础设施安全乃至国家安全。
目前,电力系统的审计审查用数据,通常是统一存储进行保护,但数据量大,且无法分类定级,管理数据十分不便。
因此,需要建立和完善电力系统数据的分级分类管理,提升电网的安全防护能力的方法。
发明内容
本发明的目的是提供一种管理数据强、提高电网的安全防护能力的用于审计审查数据的安全分类分级方法。
本发明的另一个目的提供一种用于审计审查数据的安全分类分级系统。
本发明的技术方案如下:
一种用于审计审查数据的安全分类分级方法,包括以下步骤:
(1)通过用户终端将文档传输导入至数据中台,通过数据分类模型对所述文档进行分类,生成分类结果,将分类结果根据电力系统管理要求判定是否为重要数据,若电力系统管理要求中已明确规定,则将所述文档直接标识为重要数据,若电力系统管理要求中未明确规定,则通过重要数据重点阈模型对所述文档进行判定,人工参与辅助判定;
(2)对所述步骤(1)中标识为重要数据的文档的词语进行切分,提取该文档中的文档词根,根据提取的文档词根与词根分级数据库的词根进行匹配,若提取的文档词根与词根分级数据库的词根匹配成功,则根据词根分级数据库已设定的等级对该文档直接定级,若提取的文档词根与词根分级数据库的词根未匹配成功,则执行步骤(3);
(3)所述步骤(2)中未匹配成功的文档,根据不同业务的管理要求的重要程度,人工辅助判定该文档的等级,若人工辅助判定存在异议,则执行步骤(4);
(4)所述步骤(3)中存在异议的文档,根据电力的十大域分级要求,对所述文档进行定级;
(5)对定级后的文档,根据电力系统管理要求和分析管控的反馈,将管理范围内的文档数据集合向量化,向量化后形成文档的重要数据分布热力图,通过颜色的深浅程度来区别重要数据的分布情况。
进一步地说,所述步骤(1)中的数据分类模型的建立包括以下步骤:
S1.以人工方式,根据电力系统管理要求,对文档进行分类,形成初始的训练样本;
S2.将训练样本导入训练模型,逐步形成数据分类模型;
S3.在形成分类后,通过分类实战模拟,进一步地训练分类模型,增加决策数据,提高分类模型应对异常的能力;
S4.有异议的分类结果,人工参与辅助判断,人工决策后,将结果数据,再次输入分类模型进行分类模型训练;
S5.在使用分类模型实操时,对于有异议的分类结果,由人工进行辅助判断,人工决策后,将结果数据输入分类模型,作为训练样本,重新学习。
进一步地说,所述步骤(2)中所述词根分级数据库的建立,包括以下步骤:
Q1.以人工方式,根据电力系统的相关法律法规规定,对词根进行分级,形成最初的训练样本;
Q2.将训练样本导入训练模型,逐步形成词根分级模型;
Q3.在形成分级后,通过分级实战模拟,进一步训练词根分级模型,增加决策数据,提高词根分级模型应对异常的能力;
Q4.有异议的分级结果,人工参与辅助判断,人工决策后,将结果数据,再次输入词根分级模型训练;
Q5.将结果数据集合组成词根分级数据库,以供与切分的文档词根与词根分级数据库内的词根匹配,而对词根进行分级。
进一步地说,根据词根分级模型,定义文档的安全级别;
其中,将安全级别划分为绝密、机密、秘密、敏密、公开五种级别;
绝密等级是指机构最重要的数据,一旦泄露将对本机构利益、客户利益乃至国家利益和安全造成巨大损害;
机密等级是指机构内重要的数据,如发生泄露将对本机构利益、客户利益乃至国家利益和安全造成重大损害;
秘密等级是指机构内一般的数据,如发生泄露将对本机构利益、客户利益乃至国家利益和安全造成损害;
敏密等级是指机构内的商业秘密及决策的数据,如发生泄露将对本机构利益、客户利益乃至国家利益和安全造成损害;
公开等级是指机构内无须安全管理的数据,可对外进行公开的数据,如发生泄露不会对本机构利益、客户利益乃至国家利益和安全造成损害。
进一步地说,所述词根分级模型是根据逆文本频率指数算法,计算出词根重要性权重值,提取权重值大的词根作为提炼安全级别的定级规则术语挖掘的结果,其中,对文档的词语进行切分的原则是根据电力系统的法律法规内容、专业术语及保密规定的词语进行分词,并剔除掉对文档区分程度很少的例如称谓词、结构词、语气助词等。
一种基于所述的安全分类分级方法的安全分类分级系统:包括:
用户终端,用于将文档传输导入至数据中台内;
数据中台,用于对文档分析并根据电力系统管理要求进行分类分级;
其中,所述数据中台包括:
分类模块,对导入的文档,根据分类模型进行分类;
重要数据标识模块,对分类后的文档进行识别,判定文档是否为重要数据;
分级模块,将识别出的所述重要数据的文档根据词根分级模型,定义所述文档的安全级别;
标识模块,记录分级后所述重要数据中的文档重要特征,在该文档头中记录标识ID及其文档重要特征,被标识数据的详细内容存储到存储模块中;
存储模块,用于存储标识ID和文档重要特征;
数据输出模块,用于将定级后的文档,根据电力系统管理要求将管理范围内的文档数据集合向量化,向量化后形成重要数据分布热力图。
进一步地说,所述数据中台还包括:
访问权限模块,对所述重要数据进行访问权限控制(在产生、使用环节,通过用户名、角色和权限授权,进行访问权限限制);
数据加密模块,对所述重要数据进行加密存储;
数据分析模块,对所述重要数据进行安全分析,并生成数据安全评估结果。
本发明具有的优点和积极效果是:
1.以数据价值为核心,通过对文档预先分类后,再对文档切分,通过词根与词根分级数据库匹配对应,从而对文档的分级,对审计审查用的数据进行梳理,从业务数据维度明确整体数据的安全风险点,针对性和指向性强。
2.加强系统内部数据安全管理的强度,细化了管理策略和粒度,更好地适应大数据时代数据安全管理的需要,为大数据平台动态业务数据的安全提供了安全保障。
3.全面的分析管控体系,采用机器学习相关算法,分析安全、管控安全,客观、准确的评估体系,采用指数评估方式,量化安全管控结果,指导管控改进。
附图说明
图1是本发明的数据分类流程图;
图2是本发明的数据分级流程图。
具体实施方式
以下结合具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明,决不限制本发明的保护范围。
名词解释:
分类算法,它是描述或识别数据或概念的模型或函数,以便能够使用分类算法来区分不同的内容。
机器学习,是一门多领域交叉学科,涉及概率论、统计学等,研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
文档摘要,采取文档摘要算法,提取文档中的关键词,对文档大意进行概括性描述。
实施例1
如图所示,本发明的一种用于审计审查数据的安全分类分级方法,包括以下步骤:
(1)通过用户终端将文档传输并导入至数据中台,通过数据分类模型对所述文档进行分类生成分类结果,将分类结果根据电力系统管理要求判定是否为重要数据,若电力系统管理要求中已明确规定,则将所述文档直接标识为重要数据,若电力系统管理要求中未明确规定,则通过重要数据重点阈模型对所述文档进行判定,人工参与辅助判断;
(2)对(1)中标识为重要数据的文档的词语进行切分,提取文档中的词根,通过提取的词根与词根分级数据库的词根进行匹配,若提取的词根与词根匹配成功,则根据词根分级数据库已设定的等级对文档直接定级,若提取的词根与词根未匹配成功,则执行步骤(3);
(3)所述步骤(2)中未匹配成功的文档,根据不同业务的管理要求的重要程度,人工辅助判定该文档的等级,若人工辅助判断存在异议,则执行步骤(4);
(4)所述步骤(3)中存在异议的文档,根据电力的十大域分级要求,对所述文档进行定级;
(5)对所述文档定级后,根据电力系统管理要求和分析管控的反馈,将管理范围内的数据集合向量化,向量化后形成重要数据分布热力图,通过颜色的深浅程度来区别重要数据的分布情况(其中,可采用红黄色标识重要数据密度最大的区域,用浅蓝色标识数据密度最小的区域)。
进一步地说,所述步骤(1)中的数据分类模型的建立包括以下步骤:
S1.以人工方式,根据电力系统的管理要求,对文档进行分类,形成初始的训练样本;
S2.将训练样本导入训练模型,逐步形成数据分类模型;
S3.在形成分类后,通过分类实战模拟,进一步地训练分类模型,增加决策数据,提高分类模型应对异常的能力;
S4.有异议的分类结果,人工参与辅助判断,人工决策后,将结果数据,再次输入分类模型进行分类模型训练;
S5.在使用分类模型实操时,对于有异议的分类结果,由人工进行辅助判断,人工决策后,将数据输入分类模型,作为训练样本,重新学习。
进一步地说,所述词根分级数据库的建立,包括以下步骤:
Q1.以人工方式,根据电力系统的相关法律法规规定,对词根进行分级,形成最初的训练样本;
Q2.将训练样本导入训练模型,逐步形成词根分级模型;
Q3.在形成分级后,通过分级实战模拟,进一步训练词根分级模型,增加决策数据,提高词根分级模型应对异常的能力;
Q4.有异议的分级结果,人工参与辅助判断,人工决策后,将结果数据,再次输入词根分级模型训练;
Q5.将结果数据集合组成词根分级数据库,以供与切分的词根与词根分级数据库内的词根匹配,而对词根进行分级。
进一步地说,根据词根分级模型,定义文档的安全级别;
其中,将安全级别划分为绝密、机密、秘密、敏密、公开五种级别;
其中,绝密等级是指机构最重要的数据,一旦泄露将对本机构利益、客户利益乃至国家利益和安全造成巨大损害;
机密等级是指机构内重要的数据,如发生泄露将对本机构利益、客户利益乃至国家利益和安全造成重大损害;
秘密等级是指机构内一般的数据,如发生泄露将对本机构利益、客户利益乃至国家利益和安全造成损害;
敏密等级是指机构内的商业秘密及决策的数据,如发生泄露将对本机构利益、客户利益乃至国家利益和安全造成损害;
公开等级是指机构内无须安全管理的数据,可对外进行公开的数据,如发生泄露不会对本机构利益、客户利益乃至国家利益和安全造成损害。
进一步地说,所述词根分级模型是根据逆文本频率指数算法,计算出词根重要性权重值,提取权重值大的词根作为提炼安全级别的定级规则术语挖掘的结果,其中,对文档的词语进行切分的原则是根据电力系统的法律法规内容、专业术语及保密规定的词语进行分词,并剔除掉对文档区分程度很少的例如称谓词、结构词、语气助词等。
进一步地说,电力系统的相关法律法规包括:《中华人民共和国网络安全法》、国家电网公司密级范围的规定》(国家电网办〔2018〕342号)、《国家电网公司密级范围的规定国网》(办/4)464-2018(F)、《国家电网公司涉密事项目录》、《国家电网公司评标专家管理细则》。
其中,根据电力系统的管理要求,具体分类见表1
表1
Figure BDA0002710760920000061
Figure BDA0002710760920000071
实施例2
在实施例1的基础上,在所述步骤(1)中对文档标识重要数据,通过识别重要业务数据,根据重要业务数据识别模型,判定是否是重要业务数据。
将分类结果根据电力系统管理要求,具体包括如下步骤:
首先,判断是否为重要数据,对于电力系统管理要求中已有明确规定后,直接标识为重要数据(标识内容和方式,在后文说明);
其次,对于管理要求中没有明确要求的数据,使用重要数据重点阈模型进行判定。只有标识为重要数据的文档,才对其进行分级处理。
标识,记录文档重要特征。在文档头中记录标识ID,被标识数据的详细内容会存储在电力系统的数据中台,与被标签化的文档,通过ID与数据库中详细内容进行管理。
标识的内容包括:唯一ID码、操作者、操作时间、所在操作系统、安全等级、被赋予的权限。
在输出生成热力图后,还需要设置访问权限,在产生、使用环节,通过用户名、角色和权限授权,进行访问权限控制;
2.数据加密,使用https协议进行传输、采用DES算法对重要数据加密存储;
3.数据分析模块,对所述重要数据进行安全分析,并生成数据安全评估结果。
对重要数据安全的评估,从业务需求及管控级别上,将安全要求最迫切的数据,在管控范围内的其他数据或暂时无法量化评估的数据,用定性方式评估。随着数据安全管控体系的不断完善和加强,获取评估所需数据能力的加强,定量分析的管控范围也将不断的扩大。
在对数据分级分类中,可以通过人为设定规则对所需的电力系统管理要求进行条件添加,以扩大对数据筛选分类定级的条件,以适用于更多的数据分析要求。
实施例3
在实施例1的基础上,一种基于实施例1中所述的安全分类分级方法的安全分类分级系统:包括:
用户终端,用于将文档传输导入至数据中台内;
数据中台,用于对文档分析并根据电力系统管理要求进行分类分级;
其中,所述数据中台包括:
分类模块,对导入的文档,根据分类模型进行分类;
重要数据标识模块,对分类后的文档进行识别,判定文档是否为重要数据;
分级模块,将识别出的所述重要数据的文档根据词根分级模型,定义所述文档的安全级别;
标识模块,记录分级后所述重要数据中的文档重要特征,在该文档头中记录标识ID及其文档重要特征,被标识数据的详细内容存储到存储模块中;
存储模块,用于存储标识ID和文档重要特征;
数据输出模块,用于将定级后的文档,根据电力系统管理要求将管理范围内的文档数据集合向量化,向量化后形成重要数据分布热力图。
进一步地说,所述数据中台还包括:
访问权限模块,对所述重要数据进行访问权限控制(在产生、使用环节,通过用户名、角色和权限授权,进行访问权限限制);
数据加密模块,对所述重要数据进行加密存储;
数据分析模块,对所述重要数据进行安全分析,并生成数据安全评估结果。
文档交互过程如下:
用户终端将文档传输到数据中台,通过系统将数据经由分类模块、分级模块,对文件进行分类分级处理,并赋予相关操作权限后上传至存储器,任一具有操作及访问权限的用户终端可使用该文档进行后续分析操作。
以上对本发明做了示例性的描述,应该说明的是,在不脱离本发明的核心的情况下,任何简单的变形、修改或者其他本领域技术人员能够不花费创造性劳动的等同替换均落入本发明的保护范围。

Claims (9)

1.一种用于审计审查数据的安全分类分级方法,其特征在于,包括以下步骤:
(1)通过用户终端将文档传输导入至数据中台,通过数据分类模型对所述文档进行分类,生成分类结果,将分类结果根据电力系统管理要求判定是否为重要数据,若电力系统管理要求中已有明确规定,则将所述文档直接标识为重要数据,若电力系统管理要求未明确规定,则通过重点数据重点阈模型对所述文档进行判定,并人工参与辅助判定;
(2)对所述步骤(1)中标识为重要数据的文档的词语进行切分,提取该文档中的文档词根,根据提出的文档词根与词根分级数据库的词根进行匹配,若提取的文档词根与词根分级数据库的词根匹配成功,则根据词根分级数据库已设定的等级对该文档直接定级,若提取的文档词根与词根分级数据库的词根未匹配成功,则执行步骤(3);
(3)所述步骤(2)中未匹配成功的文档,根据不同业务的管理要求的重要程度,人工辅助判定该文档的等级,若人工辅助判定存在异议,则执行步骤(4);
(4)所述步骤(3)中存在异议的文档,根据电力的十大域分级要求,对所述文档进行定级;
(5)对定级后的文档,根据电力系统管理要求和分析管控的反馈,将管理规范内的文档数据集合向量化,向量化后形成文档的重要数据分布热力图,通过颜色的深浅程度来区别重要数据的分布情况。
2.根据权利要求1所述的安全分类分级方法,其特征在于:所述步骤(1)中的所述数据分类模型的建立,包括以下步骤:
S1.以人工方式,根据电力系统管理要求,对文档进行分类,形成初始的训练样本;
S2.将训练样本导入训练模型,逐步形成数据分类模型;
S3.在形成分类后,通过分类实战模拟,进一步地训练分类模型,增加决策数据,提高分类模型对异常的能力;
S4.有异议的分类结果,人工参与辅助判断,人工决策后,将结果数据再次输入分类模型进行分类模型训练,作为训练样本,重新学习。
3.根据权利要求1所述的安全分类分级方法,其特征在于:所述步骤(2)中所述词根分级数据库的建立,包括以下步骤:
Q1.以人工方式,根据电力系统的相关法律法规规定,对词根进行分级,形成最初的训练样本;
Q2.将训练样本导入训练模型,逐步形成词根分级模型;
Q3.在形成分级后,通过分级实战模拟,进一步训练词根分级模型,增加决策数据,提高词根分级模型应对异常的能力;
Q4.有异议的分类结果,人工参与辅助判断,人工决策后,将结果数据再次输入词根分级模型进行词根分级模型训练,作为训练样本,重新学习;
Q5.将结果数据集合组成词根分级数据库,以供与切分的文档词根与词根分级数据库内的词根匹配,从而对词根进行分级。
4.根据权利要求3所述的安全分类分级方法,其特征在于:根据词根分级模型,定义分档的安全级别包括:
密等级是指机构最重要的数据,一旦泄露将对本机构利益、客户利益乃至国家利益和安全造成巨大损害;
机密等级是指机构内重要的数据,如发生泄露将对本机构利益、客户利益乃至国家利益和安全造成重大损害;
秘密等级是指机构内一般的数据,如发生泄露将对本机构利益、客户利益乃至国家利益和安全造成损害;
敏密等级是指机构内的商业秘密及决策的数据,如发生泄露将对本机构利益、客户利益乃至国家利益和安全造成损害;
公开等级是指机构内无须安全管理的数据,可对外进行公开的数据,如发生泄露不会对本机构利益、客户利益乃至国家利益和安全造成损害。
5.根据权利要求4所述的安全分类分级方法,其特征在于:所述词根分级模型是根据逆文本频率指数算法,计算出词根重要性权重值,提取权重值大的词根作为提炼安全级别的定级规则术语挖掘的结果。
6.一种基于权利要求1-5中任一项所述的安全分类分级方法的安全分级分类系统,其特征在于,包括:
用户终端,用于将文档传输导入至数据中台内;
数据中台,用于对文档分析并根据电力系统管理要求进行分类分级;
其中,所述数据中台包括:
分类模块,对导入的文档,根据分类模型进行分类;
重要数据标识模块,对分类后的文档进行识别,判定文档是否为重要数据;
分级模块,将识别出的所述重要数据的文档根据词根分级模型,定义所述文档的安全级别;
标识模块,记录分级后所述重要数据中的文档重要特征,在该文档头中记录标识ID及其文档重要特征,被标识数据的详细内容存储到存储模块中;
存储模块,用于存储标识ID和文档重要特征;
数据输出模块,用于将定级后的文档,根据电力系统管理要求将管理范围内的文档数据集合向量化,向量化后形成重要数据分布热力图。
7.根据权利要求6所述的安全分级分类系统,其特征在于:所述数据中台还包括:
访问权限模块,对所述重要数据进行访问权限控制(在产生、使用环节,通过用户名、角色和权限授权,进行访问权限限制);
数据加密模块,对所述重要数据进行加密存储;
数据分析模块,对所述重要数据进行安全分析,并生成数据安全评估结果。
8.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于:所述处理器执行所述程序时实现如权利要求1-5中任一项所述的安全分类分级方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:该计算机程序被处理器执行时实现如权利要求1-5中任一项所述的安全分类分级方法的步骤。
CN202011055561.3A 2020-09-29 2020-09-29 一种用于审计审查数据的安全分类分级方法及系统 Pending CN112422503A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011055561.3A CN112422503A (zh) 2020-09-29 2020-09-29 一种用于审计审查数据的安全分类分级方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011055561.3A CN112422503A (zh) 2020-09-29 2020-09-29 一种用于审计审查数据的安全分类分级方法及系统

Publications (1)

Publication Number Publication Date
CN112422503A true CN112422503A (zh) 2021-02-26

Family

ID=74855069

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011055561.3A Pending CN112422503A (zh) 2020-09-29 2020-09-29 一种用于审计审查数据的安全分类分级方法及系统

Country Status (1)

Country Link
CN (1) CN112422503A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112688925A (zh) * 2020-12-17 2021-04-20 崔强 一种企业存储系统状态监控方法
CN112801835A (zh) * 2021-03-31 2021-05-14 北京润尼尔网络科技有限公司 一种实验教学数据管理平台
CN113590559A (zh) * 2021-09-28 2021-11-02 中通服建设有限公司 一种企业项目管理文档管理全过程的方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106682527A (zh) * 2016-12-25 2017-05-17 北京明朝万达科技股份有限公司 一种基于数据分类分级的数据安全管控方法及系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106682527A (zh) * 2016-12-25 2017-05-17 北京明朝万达科技股份有限公司 一种基于数据分类分级的数据安全管控方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112688925A (zh) * 2020-12-17 2021-04-20 崔强 一种企业存储系统状态监控方法
CN112801835A (zh) * 2021-03-31 2021-05-14 北京润尼尔网络科技有限公司 一种实验教学数据管理平台
CN113590559A (zh) * 2021-09-28 2021-11-02 中通服建设有限公司 一种企业项目管理文档管理全过程的方法

Similar Documents

Publication Publication Date Title
WO2022134588A1 (zh) 信息审核分类模型的构建方法和信息审核方法
CN112422503A (zh) 一种用于审计审查数据的安全分类分级方法及系统
CN106682527B (zh) 一种基于数据分类分级的数据安全管控方法及系统
CN109871688B (zh) 漏洞威胁程度评估方法
CN111461216B (zh) 一种基于机器学习的案件风险识别方法
CN109391706A (zh) 基于深度学习的域名检测方法、装置、设备和存储介质
CN107368592B (zh) 一种用于网络安全报告的文本特征模型建模方法及装置
CN112417492A (zh) 基于数据分类分级的服务提供方法
CN111782719B (zh) 数据处理方法及装置
CN114860882A (zh) 一种基于文本分类模型的公平竞争审查辅助方法
CN116861446A (zh) 一种数据安全的评估方法及系统
CN109766715B (zh) 一种面向大数据环境隐私信息防泄露自动识别方法及系统
Harbola et al. Improved intrusion detection in DDoS applying feature selection using rank & score of attributes in KDD-99 data set
CN116562304B (zh) 基于人工智能和多维语义理解的档案智能开放鉴定方法
CN111784360A (zh) 一种基于网络链接回溯的反欺诈预测方法及系统
CN115189966B (zh) 区块链隐私数据加解密服务系统
CN115987687A (zh) 网络攻击取证方法、装置、设备及存储介质
CN115599345A (zh) 一种基于知识图谱的应用安全需求分析推荐方法
Alshamsan et al. A GDPR Compliant Approach to Assign Risk Levels to Privacy Policies.
CN111401067A (zh) 一种蜜罐仿真数据的生成方法及装置
CN117271781B (zh) 一种数据跨境合规评估系统
CN115796285B (zh) 一种基于工程模型的诉讼案件预判方法、装置及电子设备
Kubigenova et al. Prospects for Information Security in Big Data Technology
CN113486243B (zh) 一种社交网络假流量黑灰产自动挖掘方法和系统
Zhao et al. The Application of Artificial Intelligence in Enterprise Auditing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210226

RJ01 Rejection of invention patent application after publication