CN116108393A - 电力敏感数据分类分级方法、装置、存储介质及电子设备 - Google Patents

电力敏感数据分类分级方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN116108393A
CN116108393A CN202310383650.8A CN202310383650A CN116108393A CN 116108393 A CN116108393 A CN 116108393A CN 202310383650 A CN202310383650 A CN 202310383650A CN 116108393 A CN116108393 A CN 116108393A
Authority
CN
China
Prior art keywords
data
power
attribute
classification
sensitivity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310383650.8A
Other languages
English (en)
Other versions
CN116108393B (zh
Inventor
翟雨佳
张涛
石聪聪
朱洪斌
刘圣龙
黄秀丽
张小建
高先周
杨如侠
何阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Big Data Center Of State Grid Corp Of China
State Grid Smart Grid Research Institute Co ltd
State Grid Corp of China SGCC
Original Assignee
Big Data Center Of State Grid Corp Of China
State Grid Smart Grid Research Institute Co ltd
State Grid Corp of China SGCC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Big Data Center Of State Grid Corp Of China, State Grid Smart Grid Research Institute Co ltd, State Grid Corp of China SGCC filed Critical Big Data Center Of State Grid Corp Of China
Priority to CN202310383650.8A priority Critical patent/CN116108393B/zh
Publication of CN116108393A publication Critical patent/CN116108393A/zh
Application granted granted Critical
Publication of CN116108393B publication Critical patent/CN116108393B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2113Multi-level security, e.g. mandatory access control
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本发明公开了一种电力敏感数据分类分级方法、装置、存储介质及电子设备,该方法包括:获取电力业务数据;结合电力业务场景描述和数据流转暴露风险信息,构建电力业务敏感数据属性特征空间;采用改进的注意力机制,根据电力业务敏感数据属性特征空间计算电力业务数据的综合敏感度;进行敏感等级量化,得到电力业务数据的分类分级结果。通过实施本发明,结合电力业务场景描述和数据流转暴露风险信息,构建了属性特征空间,结合该特征空间进行敏感度计算以及分类分级,解决了静态存储存在敏感数据识别策略依赖人工、准确率不高的问题。采用改进的注意力机制,使其能够关联属性特征空间中的动态属性特征,进一步提高敏感数据的识别准确率。

Description

电力敏感数据分类分级方法、装置、存储介质及电子设备
技术领域
本发明涉及信息安全技术领域,具体涉及一种电力敏感数据分类分级方法、装置、存储介质及电子设备。
背景技术
随着信息技术的持续快速发展,数字化时代的电力数据资源规模庞大、内容结构各异、关联关系复杂,电力行业数据呈现海量化、多元化、关联化的特点,电力数据中包含大量的敏感数据,敏感数据泄漏事关国家安全和社会稳定。敏感数据的智能识别和分类分级作为信息安全领域中的重要课题,正越来越受到关注。
传统的电力敏感数据识别和分类分级方式主要以人工经验判别和规则匹配两种方式,敏感数据的识别方法大多基于敏感词库和规则库匹配技术,而敏感数据分类分级策略多为各业务系统人员自定义配置。但是随着电力数据量暴增、数据类型越趋复杂,传统敏感数据识别和分类分级方式的弊端越来越明显。
发明内容
有鉴于此,本发明实施例提供了涉及一种电力敏感数据分类分级方法、装置、存储介质及电子设备,以解决现有技术中人工经验判别和规则匹配的敏感数据识别方式弊端较为突出的技术问题。
本发明提出的技术方案如下:
本发明实施例第一方面提供一种电力敏感数据分类分级方法,包括:获取电力业务数据;结合电力业务场景描述和数据流转暴露风险信息,构建所述电力业务数据的电力业务敏感数据属性特征空间;采用改进的注意力机制,根据所述电力业务敏感数据属性特征空间计算电力业务数据的综合敏感度;根据所述电力业务数据的综合敏感度进行敏感等级量化,得到电力业务数据的分类分级结果。
可选地,结合电力业务场景描述和数据流转暴露风险信息,构建所述电力业务数据的电力业务敏感数据属性特征空间,包括:根据电力业务数据对应的业务场景特征,生成敏感数据场景属性特征;根据电力业务数据在接口处的暴露风险,生成数据流转威胁属性特征;基于电力业务场景描述和电力业务数据在接口处的暴露风险大小,生成敏感数据统计属性特征和敏感数据语义属性特征;根据所述敏感数据场景属性特征、数据流转威胁属性特征、敏感数据统计属性特征和敏感数据语义属性特征构建电力业务敏感数据属性特征空间。
可选地,采用基于改进的注意力机制,根据所述电力业务敏感数据属性特征空间计算电力业务数据的综合敏感度,包括:对电力业务敏感数据属性特征空间进行特征处理,得到电力业务敏感数据属性特征空间的属性特征;采用基于加噪特征的敏感信息增益变化率改进的注意力机制,计算各属性特征的注意力得分;对各属性特征的注意力得分进行加权计算,得到电力业务数据的综合敏感度。
可选地,采用基于加噪特征的敏感信息增益变化率改进的注意力机制,计算各属性特征的注意力得分,包括:基于属性特征的信息熵和条件熵的差值计算敏感信息增益;根据加噪特征的敏感信息增益变化率计算属性特征之间的敏感关联度;采用归一化指数函数计算敏感关联度的注意力打分函数,得到属性特征的注意力得分。
可选地,根据加噪特征的敏感信息增益变化率计算属性特征之间的敏感关联度,包括:计算属性特征中添加噪声之后的加噪敏感信息增益;根据所述敏感信息增益和所述加噪敏感信息增益的变化率计算属性特征之间的敏感关联度。
可选地,根据所述电力业务数据的综合敏感度进行敏感等级量化,得到电力业务数据的分类分级结果,包括:根据预设电力数据敏感度分级规则确定综合敏感度阈值;比较电力业务数据的综合敏感度和综合敏感度阈值,得到分类分级结果。
可选地,该电力敏感数据分类分级方法还包括:计算所述电力业务数据的分类分级结果的准确率;根据所述准确率对分类分级结果进行评估;根据评估结果调节所述综合敏感度阈值。
本发明实施例第二方面提供一种电力敏感数据分类分级装置,包括:数据获取模块,用于获取电力业务数据;特征空间构建模块,用于结合电力业务场景描述和数据流转暴露风险信息,构建所述电力业务数据的电力业务敏感数据属性特征空间;敏感度计算模块,用于采用改进的注意力机制,根据所述电力业务敏感数据属性特征空间计算电力业务数据的综合敏感度;分类分级模块,用于根据所述电力业务数据的综合敏感度进行敏感等级量化,得到电力业务数据的分类分级结果。
可选地,特征空间构建模块具体用于:根据电力业务数据对应的业务场景特征,生成敏感数据场景属性特征;根据电力业务数据在接口处的暴露风险,生成数据流转威胁属性特征;基于电力业务场景描述和电力业务数据在接口处的暴露风险大小,生成敏感数据统计属性特征和敏感数据语义属性特征;根据所述敏感数据场景属性特征、数据流转威胁属性特征、敏感数据统计属性特征和敏感数据语义属性特征构建电力业务敏感数据属性特征空间。
可选地,敏感度计算模块包括:特征处理模块,用于对电力业务敏感数据属性特征空间进行特征处理,得到电力业务敏感数据属性特征空间的属性特征;得分计算模块,用于采用基于加噪特征的敏感信息增益变化率改进的注意力机制,计算各属性特征的注意力得分;计算子模块,用于对各属性特征的注意力得分进行加权计算,得到电力业务数据的综合敏感度。
可选地,得分计算模块包括:增益计算模块,用于基于属性特征的信息熵和条件熵的差值计算敏感信息增益;关联度计算模块,用于根据加噪特征的敏感信息增益变化率计算属性特征之间的敏感关联度;得分计算子模块,用于采用归一化指数函数计算敏感关联度的注意力打分函数,得到属性特征的注意力得分。
可选地,关联度计算模块具体用于:计算属性特征中添加噪声之后的加噪敏感信息增益;根据所述敏感信息增益和所述加噪敏感信息增益的变化率计算属性特征之间的敏感关联度。
可选地,分类分级模块具体用于:根据预设电力数据敏感度分级规则确定综合敏感度阈值;比较电力业务数据的综合敏感度和综合敏感度阈值,得到分类分级结果。
可选地,该电力敏感数据分类分级方法还包括:评估模块,具体用于计算所述电力业务数据的分类分级结果的准确率;根据所述准确率对分类分级结果进行评估;根据评估结果调节所述综合敏感度阈值。
本发明实施例第三方面提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行如本发明实施例第一方面及第一方面任一项所述的电力敏感数据分类分级方法。
本发明实施例第四方面提供一种电子设备,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行如本发明实施例第一方面及第一方面任一项所述的电力敏感数据分类分级方法。
本发明提供的技术方案,具有如下效果:
本发明实施例提供的电力敏感数据分类分级方法、装置、存储介质及电子设备,通过对获取的电力业务数据,结合电力业务场景描述和数据流转暴露风险信息,构建了电力业务数据的电力业务敏感数据属性特征空间,结合该特征空间进行电力业务数据的综合敏感度计算以及分类分级,由此,解决了现有技术中针对静态存储,存在敏感数据识别策略准确率不高的问题。同时,对传统注意力机制进行改进,使其能够关联属性特征空间中属性特征的动态特征,通过衡量不同干扰下的输入单元与目标之间关联度变化率进一步提高敏感数据的识别准确率。
本发明实施例提供的电力敏感数据分类分级方法,通过计算分类分级结果的准确率,根据准确率进行评估,并根据评估结果调节综合敏感度阈值,由此实现了敏感识别的动态调整,解决了现有技术中敏感数据识别策略不能动态调整的问题,并进一步提高了分类分级结果的准确性。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的电力敏感数据分类分级方法的流程图;
图2是根据本发明实施例的基于改进注意力机制的敏感数据识别的流程图;
图3是根据本发明实施例的电力敏感数据分类分级装置的结构框图;
图4是根据本发明实施例提供的计算机可读存储介质的结构示意图;
图5是根据本发明实施例提供的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
正如在背景技术中所述,随着电力数据量暴增、数据类型越趋复杂,传统敏感数据识别和分类分级方式的弊端越来越明显。目前,电力敏感数据识别和分类分级面临着以下问题:现有的敏感数据识别和分类分级方法以人工判别和基于敏感词库/规则库匹配为主,识别范围小,识别效率低,后期人工维护规则库困难;不同业务场景下的敏感数据识别策略和分级标准不同,现有的敏感数据识别和分类分级方法往往针对静态存储,无法关联敏感数据在动态流转过程中的业务场景特征,存在敏感数据识别策略不能动态调整、准确率不高的问题。
有鉴于此,本发明实施例提供一种电力敏感数据分类分级方法,通过对获取的电力业务数据,结合电力业务场景描述和数据流转暴露风险信息,构建了电力业务数据的电力业务敏感数据属性特征空间,结合该特征空间进行电力业务数据的综合敏感度计算以及分类分级,由此,解决了现有技术中针对静态存储,存在敏感数据识别策略依赖人工、准确率不高的问题。
根据本发明实施例,提供了一种电力敏感数据分类分级方法,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
在本实施例中提供了一种电力敏感数据分类分级方法,可用于电子设备,如电脑、手机、平板电脑等,图1是根据本发明实施例电力敏感数据分类分级方法的流程图,如图1所示,该方法包括如下步骤:
步骤S101:获取电力业务数据。其中,电力业务数据可以是从电力系统中获取的业务数据,对于电力业务数据的具体类型不作限定。对于电力业务数据,可以每隔预设时间获取一次,也可以实时获取。为了便于处理,可以将一段时间内获取的电力业务数据构成一个电力业务数据集,之后直接对该电力业务数据集中的数据进行处理。在构建属性特征空间之前,先对电力业务数据集进行预处理和预清洗,例如进行数据去重、数据缺失值和异常值处理、去除无用字符、调整数据格式等等。
步骤S102:结合电力业务场景描述和数据流转暴露风险信息,构建所述电力业务数据的电力业务敏感数据属性特征空间。具体地,为了解决现有技术只针对静态存储、无法关联在动态流转过程中业务场景特征的问题,该步骤结合电力业务数据的业务场景特点以及电力业务数据在接口处流转的暴露风险,构建了电力业务敏感数据属性特征空间。
步骤S103:采用改进的注意力机制,根据所述电力业务敏感数据属性特征空间计算电力业务数据的综合敏感度。具体地,传统的软注意力机制只关注静态输入单元和目标的相关计算,不支持动态计算输入单元与目标的关联度。由此,对传统注意力机制进行改进,使其能够关联属性特征空间中属性特征的动态特征,通过衡量不同干扰下的输入单元与目标之间关联度变化率进一步提高敏感数据的识别准确率。
步骤S104:根据所述电力业务数据的综合敏感度进行敏感等级量化,得到电力业务数据的分类分级结果。具体地,可以预先设置敏感等级量化指标,在计算到电力业务数据的综合敏感度之后,采用该量化指标对敏感度量化,得到相应电力业务数据的分类分级结果。
本发明实施例提供的电力敏感数据分类分级方法,通过对获取的电力业务数据,结合电力业务场景描述和数据流转暴露风险信息,构建了电力业务数据的电力业务敏感数据属性特征空间,结合该特征空间进行电力业务数据的综合敏感度计算以及分类分级,由此,解决了现有技术中针对静态存储,存在敏感数据识别策略依赖人工、准确率不高的问题。同时,对传统注意力机制进行改进,使其能够关联属性特征空间中属性特征的动态特征,通过衡量不同干扰下的输入单元与目标之间关联度变化率进一步提高敏感数据的识别准确率。
在一实施方式中,结合电力业务场景描述和数据流转暴露风险信息,构建所述电力业务数据的电力业务敏感数据属性特征空间,包括如下步骤:
步骤S201:根据电力业务数据对应的业务场景特征,生成敏感数据场景属性特征。具体地,可以提取电力业务数据中的业务场景特征,生成敏感数据场景属性特征,其中,敏感数据场景属性特征包括数据来源属性、数据存储属性以及数据接口行为属性等等。在提取相应特征时,可以采用人工提取也可以采用机器学习提取的方式。
步骤S202:根据电力业务数据在接口处的暴露风险,生成数据流转威胁属性特征。具体地,数据流转威胁属性特征可以基于电力业务数据流信息、接口参数以及服务日志等信息,对数据在接口流转处的暴露风险进行分析确定。其中,得到的数据流转威胁属性特征具体包括数据词频、数据类型、数据业务流安全性等,这些特征可以通过电力业务数据在各接口处是否存在暴露风险计算或确定。
步骤S203:基于电力业务场景描述和电力业务数据在接口处的暴露风险大小,生成敏感数据统计属性特征和敏感数据语义属性特征。具体地,敏感数据统计属性特征包括数值方差、数值均值以及数值最值等。敏感数据语义属性特征包括近义词相似度、敏感词关联度等等。其中,敏感数据统计属性特征可以通过对电力业务数据在各个接口处暴露风险大小计算确定;敏感数据语义属性特征可以根据不同的电力业务场景,计算数据之间的相似度以及关联度等确定。
步骤S204:根据所述敏感数据场景属性特征、数据流转威胁属性特征、敏感数据统计属性特征和敏感数据语义属性特征构建电力业务敏感数据属性特征空间。具体地,敏感数据场景属性特征、数据流转威胁属性特征、敏感数据统计属性特征和敏感数据语义属性特征共同构成了电力业务敏感数据属性特征空间。
在一实施方式中,如图2所示,采用基于改进的注意力机制,根据所述电力业务敏感数据属性特征空间计算电力业务数据的综合敏感度,包括如下步骤:
步骤S301:对电力业务敏感数据属性特征空间进行特征处理,得到电力业务敏感数据属性特征空间的属性特征;具体地,对特征空间进行特征处理具体包括特征编码等一系列特征处理操作。例如,获取的电力业务敏感数据属性特征空间表示为,若属性之间的特征维度不可矩阵计算,则对特征向量进行维度一致化处理,最终得到属性特征或者说特征向量表示为:
步骤S302:采用基于加噪特征的敏感信息增益变化率改进的注意力机制,计算各属性特征的注意力得分。具体地,可以对属性特征添加噪声,基于添加噪声前后的敏感信息增益计算增益变化率,基于该变化率对注意力机制进行改进,并使用改进后的注意力机制计算各属性特征的注意力得分。
步骤S303:对各属性特征的注意力得分进行加权计算,得到电力业务数据的综合敏感度。具体地,由于电力业务数据对应的电力业务敏感数据属性特征空间中包括多个属性特征,因此,将多个属性特征的注意力得分进行加权计算,从而得到电力业务数据的综合敏感度。
在一实施方式中,采用基于加噪特征的敏感信息增益变化率改进的注意力机制,计算各属性特征的注意力得分,包括如下步骤:
步骤S401:基于属性特征的信息熵和条件熵的差值计算敏感信息增益。具体地,信息熵可以用来度量信息的不确定程度,量化敏感数据的信息量,熵越大则信息的不确定程度越高,信息量越大。数据属性特征)的敏感信息熵计算公式为:
其中,表示属性特征中各特征的概率。
条件熵用来衡量在给定条件下的信息不确定程度,属性特征条件下的敏感信息条件熵计算公式为:
信息增益代表在一定条件下,信息不确定性减少的程度。属性特征的敏感信息增益计算公式为:
根据上述公式可知,两个属性特征的敏感信息条件熵越大,则敏感信息增益值越小,代表两个属性特征之间的敏感相关度越小。即敏感信息增益代表属性特征的敏感相关度。
步骤S402:根据加噪特征的敏感信息增益变化率计算属性特征之间的敏感关联度。具体地,计算时,先计算属性特征中添加噪声之后的加噪敏感信息增益;根据所述敏感信息增益和所述加噪敏感信息增益的变化率计算属性特征之间的敏感关联度。
为了对所有的属性特征两两之间的敏感相关度进行统一量化,根据添加噪声干扰前后两次敏感信息增益的变化率判断属性特征的敏感关联度的强弱。假设利用几何机制在属性特征中添加噪声,加噪敏感信息增益为,若属性特征的敏感关联性越强,则噪声对敏感信息增益影响越小,敏感信息增益的变化率越小,根据加噪特征的敏感信息增益变化率计算属性特征之间的敏感关联度公式为:
步骤S403:采用归一化指数函数计算敏感关联度的注意力打分函数,得到属性特征的注意力得分。
具体地,当查询向量为时经典注意力机制公式表示为:
在该实施方式中,查询向量分别对应的敏感度注意力得分;函数用于输出一个概率分布作为注意力权重,即属性特征的注意力得分;函数是注意力打分函数,用于计算之间的注意力影响关系。
如图2所示,该实施例中注意力机制的改进主要是对注意力打分函数进行改进设计。具体地,注意力打分函数采用如下公式表示:
进一步,用函数归一化各属性特征中特征之间的敏感相关性,输出一个概率分布作为注意力权重,即 n个属性特征的敏感度注意力得分。属性特征的敏感度注意力得分计算公式为:
在一实施方式中,根据所述电力业务数据的综合敏感度进行敏感等级量化,得到电力业务数据的分类分级结果,包括如下步骤:
步骤S501:根据预设电力数据敏感度分级规则确定综合敏感度阈值;具体地,可以预先设定敏感度分级规则,再基于该分级规则设定综合敏感度阈值。例如,电力系统中各部门可以根据相应的业务场景以及数据的共享安全情况设定相应的分级规则,如将电力业务数据分为一般数据、重要数据、商密数据和秘密数据,然后根据相应的规则确定综合敏感度阈值。
步骤S502:比较电力业务数据的综合敏感度和综合敏感度阈值,得到分类分级结果。具体地,电力业务数据的综合敏感度通过多个属性特征的注意力得分的加权和确定,即综合敏感度计算公式为。其中,如图2所示,在进行加权和计算之前,可以先对属性特征进行优选,例如,设定敏感阈值,通过属性特征的注意力得分和敏感阈值的比较,淘汰低于敏感阈值的属性特征。
如图2所示,确定综合敏感度后,可以在阈值分类器中将其和设定的综合敏感度阈值进行比较,确定业务数据分类分级结果。例如,当分类分级结果中包括一般数据、重要数据、商密数据和秘密数据时,综合敏感度阈值可以设置多个,将计算的综合敏感度分别和多个阈值比较确定最终结果。其中,多个分类分级结果中即一般数据、重要数据、商密数据和秘密数据的敏感性级别逐渐增加。
在一实施方式中,该电力敏感数据分类分级方法还包括:计算所述电力业务数据的分类分级结果的准确率;根据所述准确率对分类分级结果进行评估;根据评估结果调节所述综合敏感度阈值。其中,计算准确率时将步骤S502得到的分类分级结果和人工对电力业务数据的分类结果进行比较,如二者相同,则准确率为100%,如二者不同,则准确率为0%,可以预先选择一批电力业务数据进行人工敏感度的判定,然后再对这批数据采用本发明实施例的方法进行分类分级,通过比较二者的分类分级结果确定这批电力业务数据的识别准确率。然后对该准确率进行评估,可以预先设置结果准确率阈值,当准确率小于阈值时,则需要返回调节综合敏感度阈值。可以重复该过程,直至结果准确率大于或等于设定阈值。
本发明实施例提供的电力敏感数据分类分级方法,通过计算分类分级结果的准确率,根据准确率进行评估,并根据评估结果调节综合敏感度阈值,由此实现了敏感识别的动态调整,解决了现有技术中敏感数据识别策略不能动态调整的问题,并进一步提高了分类分级结果的准确性。
本发明实施例还提供一种电力敏感数据分类分级装置,如图3所示,该装置包括:
数据获取模块,用于获取电力业务数据;具体内容参见上述方法实施例对应部分,在此不再赘述。
特征空间构建模块,用于结合电力业务场景描述和数据流转暴露风险信息,构建所述电力业务数据的电力业务敏感数据属性特征空间;具体内容参见上述方法实施例对应部分,在此不再赘述。
敏感度计算模块,用于采用改进的注意力机制,根据所述电力业务敏感数据属性特征空间计算电力业务数据的综合敏感度;具体内容参见上述方法实施例对应部分,在此不再赘述。
分类分级模块,用于根据所述电力业务数据的综合敏感度进行敏感等级量化,得到电力业务数据的分类分级结果。具体内容参见上述方法实施例对应部分,在此不再赘述。
本发明实施例提供的电力敏感数据分类分级装置,通过对获取的电力业务数据,结合电力业务场景描述和数据流转暴露风险信息,构建了电力业务数据的电力业务敏感数据属性特征空间,结合该特征空间进行电力业务数据的综合敏感度计算以及分类分级,由此,解决了现有技术中针对静态存储,存在敏感数据识别策略准确率不高的问题。同时,对传统注意力机制进行改进,使其能够关联属性特征空间中属性特征的动态特征,通过衡量不同干扰下的输入单元与目标之间关联度变化率进一步提高敏感数据的识别准确率。
本发明实施例提供的电力敏感数据分类分级装置的功能描述详细参见上述实施例中电力敏感数据分类分级方法描述。
可选地,特征空间构建模块具体用于:根据电力业务数据对应的业务场景特征,生成敏感数据场景属性特征;根据电力业务数据在接口处的暴露风险,生成数据流转威胁属性特征;基于电力业务场景描述和电力业务数据在接口处的暴露风险大小,生成敏感数据统计属性特征和敏感数据语义属性特征;根据所述敏感数据场景属性特征、数据流转威胁属性特征、敏感数据统计属性特征和敏感数据语义属性特征构建电力业务敏感数据属性特征空间。
可选地,敏感度计算模块包括:特征处理模块,用于对电力业务敏感数据属性特征空间进行特征处理,得到电力业务敏感数据属性特征空间的属性特征;得分计算模块,用于采用基于加噪特征的敏感信息增益变化率改进的注意力机制,计算各属性特征的注意力得分;计算子模块,用于对各属性特征的注意力得分进行加权计算,得到电力业务数据的综合敏感度。
可选地,得分计算模块包括:增益计算模块,用于基于属性特征的信息熵和条件熵的差值计算敏感信息增益;关联度计算模块,用于根据加噪特征的敏感信息增益变化率计算属性特征之间的敏感关联度;得分计算子模块,用于采用归一化指数函数计算敏感关联度的注意力打分函数,得到属性特征的注意力得分。
可选地,关联度计算模块具体用于:计算属性特征中添加噪声之后的加噪敏感信息增益;根据所述敏感信息增益和所述加噪敏感信息增益的变化率计算属性特征之间的敏感关联度。
可选地,分类分级模块具体用于:根据预设电力数据敏感度分级规则确定综合敏感度阈值;比较电力业务数据的综合敏感度和综合敏感度阈值,得到分类分级结果。
可选地,该电力敏感数据分类分级方法还包括:评估模块,具体用于计算所述电力业务数据的分类分级结果的准确率;根据所述准确率对分类分级结果进行评估;根据评估结果调节所述综合敏感度阈值。
本发明实施例还提供一种存储介质,如图4所示,其上存储有计算机程序601,该指令被处理器执行时实现上述实施例中电力敏感数据分类分级方法的步骤。该存储介质上还存储有音视频流数据,特征帧数据、交互请求信令、加密数据以及预设数据大小等。其中,存储介质可为磁碟、光盘、只读存储记忆体 (Read-Only Memory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘 (Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(RandomAccessMemory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
本发明实施例还提供了一种电子设备,如图5所示,该电子设备可以包括处理器51和存储器52,其中处理器51和存储器52可以通过总线或者其他方式连接,图5中以通过总线连接为例。
处理器51可以为中央处理器(Central Processing Unit,CPU)。处理器51还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
存储器52作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本发明实施例中的对应的程序指令/模块。处理器51通过运行存储在存储器52中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述方法实施例中的电力敏感数据分类分级方法。
存储器52可以包括存储程序区和存储数据区,其中,存储程序区可存储操作装置、至少一个功能所需要的应用程序;存储数据区可存储处理器51所创建的数据等。此外,存储器52可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器52可选包括相对于处理器51远程设置的存储器,这些远程存储器可以通过网络连接至处理器51。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
所述一个或者多个模块存储在所述存储器52中,当被所述处理器51执行时,执行如图1-2所示实施例中的电力敏感数据分类分级方法。
上述电子设备具体细节可以对应参阅图1至图2所示的实施例中对应的相关描述和效果进行理解,此处不再赘述。
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (10)

1.一种电力敏感数据分类分级方法,其特征在于,包括:
获取电力业务数据;
结合电力业务场景描述和数据流转暴露风险信息,构建所述电力业务数据的电力业务敏感数据属性特征空间;
采用改进的注意力机制,根据所述电力业务敏感数据属性特征空间计算电力业务数据的综合敏感度;
根据所述电力业务数据的综合敏感度进行敏感等级量化,得到电力业务数据的分类分级结果。
2.根据权利要求1所述的电力敏感数据分类分级方法,其特征在于,结合电力业务场景描述和数据流转暴露风险信息,构建所述电力业务数据的电力业务敏感数据属性特征空间,包括:
根据电力业务数据对应的业务场景特征,生成敏感数据场景属性特征;
根据电力业务数据在接口处的暴露风险,生成数据流转威胁属性特征;
基于电力业务场景描述和电力业务数据在接口处的暴露风险大小,生成敏感数据统计属性特征和敏感数据语义属性特征;
根据所述敏感数据场景属性特征、数据流转威胁属性特征、敏感数据统计属性特征和敏感数据语义属性特征构建电力业务敏感数据属性特征空间。
3.根据权利要求1所述的电力敏感数据分类分级方法,其特征在于,采用基于改进的注意力机制,根据所述电力业务敏感数据属性特征空间计算电力业务数据的综合敏感度,包括:
对电力业务敏感数据属性特征空间进行特征处理,得到电力业务敏感数据属性特征空间的属性特征;
采用基于加噪特征的敏感信息增益变化率改进的注意力机制,计算各属性特征的注意力得分;
对各属性特征的注意力得分进行加权计算,得到电力业务数据的综合敏感度。
4.根据权利要求3所述的电力敏感数据分类分级方法,其特征在于,采用基于加噪特征的敏感信息增益变化率改进的注意力机制,计算各属性特征的注意力得分,包括:
基于属性特征的信息熵和条件熵的差值计算敏感信息增益;
根据加噪特征的敏感信息增益变化率计算属性特征之间的敏感关联度;
采用归一化指数函数计算敏感关联度的注意力打分函数,得到属性特征的注意力得分。
5.根据权利要求4所述的电力敏感数据分类分级方法,其特征在于,根据加噪特征的敏感信息增益变化率计算属性特征之间的敏感关联度,包括:
计算属性特征中添加噪声之后的加噪敏感信息增益;
根据所述敏感信息增益和所述加噪敏感信息增益的变化率计算属性特征之间的敏感关联度。
6.根据权利要求1所述的电力敏感数据分类分级方法,其特征在于,根据所述电力业务数据的综合敏感度进行敏感等级量化,得到电力业务数据的分类分级结果,包括:
根据预设电力数据敏感度分级规则确定综合敏感度阈值;
比较电力业务数据的综合敏感度和综合敏感度阈值,得到分类分级结果。
7.根据权利要求6所述的电力敏感数据分类分级方法,其特征在于,还包括:
计算所述电力业务数据的分类分级结果的准确率;
根据所述准确率对分类分级结果进行评估;
根据评估结果调节所述综合敏感度阈值。
8.一种电力敏感数据分类分级装置,其特征在于,包括:
数据获取模块,用于获取电力业务数据;
特征空间构建模块,用于结合电力业务场景描述和数据流转暴露风险信息,构建所述电力业务数据的电力业务敏感数据属性特征空间;
敏感度计算模块,用于采用改进的注意力机制,根据所述电力业务敏感数据属性特征空间计算电力业务数据的综合敏感度;
分类分级模块,用于根据所述电力业务数据的综合敏感度进行敏感等级量化,得到电力业务数据的分类分级结果。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行如权利要求1-7任一项所述的电力敏感数据分类分级方法。
10.一种电子设备,其特征在于,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行如权利要求1-7任一项所述的电力敏感数据分类分级方法。
CN202310383650.8A 2023-04-12 2023-04-12 电力敏感数据分类分级方法、装置、存储介质及电子设备 Active CN116108393B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310383650.8A CN116108393B (zh) 2023-04-12 2023-04-12 电力敏感数据分类分级方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310383650.8A CN116108393B (zh) 2023-04-12 2023-04-12 电力敏感数据分类分级方法、装置、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN116108393A true CN116108393A (zh) 2023-05-12
CN116108393B CN116108393B (zh) 2023-06-27

Family

ID=86265845

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310383650.8A Active CN116108393B (zh) 2023-04-12 2023-04-12 电力敏感数据分类分级方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN116108393B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116506217A (zh) * 2023-06-20 2023-07-28 北京门石信息技术有限公司 业务数据流安全风险的分析方法、系统、存储介质及终端
CN116881687A (zh) * 2023-06-25 2023-10-13 国网冀北电力有限公司信息通信分公司 一种基于特征提取的电网敏感数据识别方法及装置
CN116975884A (zh) * 2023-06-30 2023-10-31 萍乡逗花科技有限公司 一种数据安全存储方法及装置
CN117290561A (zh) * 2023-11-27 2023-12-26 北京衡石科技有限公司 业务状态信息反馈方法、装置、设备和计算机可读介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190354718A1 (en) * 2018-05-16 2019-11-21 Microsoft Technology Licensing, Llc. Identification of sensitive data using machine learning
CN110941956A (zh) * 2019-10-26 2020-03-31 华为技术有限公司 一种数据分级方法、装置及相关设备
CN113868497A (zh) * 2021-09-28 2021-12-31 绿盟科技集团股份有限公司 一种数据分类方法、装置和存储介质
CN113947497A (zh) * 2021-04-23 2022-01-18 全球能源互联网研究院有限公司 一种数据的空间特征提取、识别方法及系统
CN114328640A (zh) * 2021-02-07 2022-04-12 湖南科技学院 一种基于移动用户动态敏感数据的差分隐私保护与数据挖掘方法和系统
CN114511019A (zh) * 2022-01-25 2022-05-17 全球能源互联网研究院有限公司 一种敏感数据分类分级标识方法及系统
CN115879017A (zh) * 2022-10-28 2023-03-31 国网智能电网研究院有限公司 一种电力敏感数据自动化分类分级方法、装置及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190354718A1 (en) * 2018-05-16 2019-11-21 Microsoft Technology Licensing, Llc. Identification of sensitive data using machine learning
CN110941956A (zh) * 2019-10-26 2020-03-31 华为技术有限公司 一种数据分级方法、装置及相关设备
CN114328640A (zh) * 2021-02-07 2022-04-12 湖南科技学院 一种基于移动用户动态敏感数据的差分隐私保护与数据挖掘方法和系统
CN113947497A (zh) * 2021-04-23 2022-01-18 全球能源互联网研究院有限公司 一种数据的空间特征提取、识别方法及系统
CN113868497A (zh) * 2021-09-28 2021-12-31 绿盟科技集团股份有限公司 一种数据分类方法、装置和存储介质
CN114511019A (zh) * 2022-01-25 2022-05-17 全球能源互联网研究院有限公司 一种敏感数据分类分级标识方法及系统
CN115879017A (zh) * 2022-10-28 2023-03-31 国网智能电网研究院有限公司 一种电力敏感数据自动化分类分级方法、装置及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
RUXIA YANG等: "Research on Intelligent Recognition and Tracking Technology of Sensitive Data for Electric Power Big Data", 2021 13TH INTERNATIONAL CONFERENCE ON MEASURING TECHNOLOGY AND MECHATRONICS AUTOMATION (ICMTMA) *
刘金;: "基于数据特征的敏感数据识别方法", 信息通信, no. 02 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116506217A (zh) * 2023-06-20 2023-07-28 北京门石信息技术有限公司 业务数据流安全风险的分析方法、系统、存储介质及终端
CN116506217B (zh) * 2023-06-20 2023-09-12 北京门石信息技术有限公司 业务数据流安全风险的分析方法、系统、存储介质及终端
CN116881687A (zh) * 2023-06-25 2023-10-13 国网冀北电力有限公司信息通信分公司 一种基于特征提取的电网敏感数据识别方法及装置
CN116881687B (zh) * 2023-06-25 2024-04-05 国网冀北电力有限公司信息通信分公司 一种基于特征提取的电网敏感数据识别方法及装置
CN116975884A (zh) * 2023-06-30 2023-10-31 萍乡逗花科技有限公司 一种数据安全存储方法及装置
CN117290561A (zh) * 2023-11-27 2023-12-26 北京衡石科技有限公司 业务状态信息反馈方法、装置、设备和计算机可读介质
CN117290561B (zh) * 2023-11-27 2024-03-29 北京衡石科技有限公司 业务状态信息反馈方法、装置、设备和计算机可读介质

Also Published As

Publication number Publication date
CN116108393B (zh) 2023-06-27

Similar Documents

Publication Publication Date Title
CN116108393B (zh) 电力敏感数据分类分级方法、装置、存储介质及电子设备
US10783206B2 (en) Method and system for recommending text content, and storage medium
US10747771B2 (en) Method and apparatus for determining hot event
EP2657884B1 (en) Identifying multimedia objects based on multimedia fingerprint
CN107305611B (zh) 恶意账号对应的模型建立方法和装置、恶意账号识别的方法和装置
CN114265979B (zh) 确定融合参数的方法、信息推荐方法和模型训练方法
CN112711705B (zh) 舆情数据处理方法、设备及存储介质
CN112035549B (zh) 数据挖掘方法、装置、计算机设备及存储介质
CN113688310B (zh) 一种内容推荐方法、装置、设备及存储介质
CN112231592A (zh) 基于图的网络社团发现方法、装置、设备以及存储介质
CN107291774B (zh) 错误样本识别方法和装置
CN111639230B (zh) 一种相似视频的筛选方法、装置、设备和存储介质
CN114882321A (zh) 深度学习模型的训练方法、目标对象检测方法和装置
CN112949914A (zh) 一种产业集群的识别方法、装置、存储介质及电子设备
CN110245684B (zh) 数据处理方法、电子设备和介质
CN113902899A (zh) 训练方法、目标检测方法、装置、电子设备以及存储介质
CN112819056A (zh) 群控账号挖掘方法、装置、设备及存储介质
CN117370798A (zh) 模型压缩方法、训练方法、多媒体数据处理方法及装置
WO2020119533A1 (zh) 基于循环神经网络算法的舆情预警方法、装置、终端及介质
CN114330542A (zh) 一种基于目标检测的样本挖掘方法、装置及存储介质
CN109922359B (zh) 一种用户处理方法、装置、设备和存储介质
CN114611565A (zh) 数据处理方法、装置、设备和存储介质
CN111612783A (zh) 一种数据质量评估方法及系统
CN111209428A (zh) 图像检索方法、装置、设备及计算机可读存储介质
CN117634894B (zh) 生态环境风险评估方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant