CN115879017A - 一种电力敏感数据自动化分类分级方法、装置及存储介质 - Google Patents

一种电力敏感数据自动化分类分级方法、装置及存储介质 Download PDF

Info

Publication number
CN115879017A
CN115879017A CN202211332341.XA CN202211332341A CN115879017A CN 115879017 A CN115879017 A CN 115879017A CN 202211332341 A CN202211332341 A CN 202211332341A CN 115879017 A CN115879017 A CN 115879017A
Authority
CN
China
Prior art keywords
sensitive data
data
identified
classification
power
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211332341.XA
Other languages
English (en)
Inventor
石聪聪
黄秀丽
翟雨佳
许道强
赵磊
费稼轩
于鹏飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Jiangsu Electric Power Co ltd Marketing Service Center
State Grid Smart Grid Research Institute Co ltd
State Grid Corp of China SGCC
State Grid Jiangsu Electric Power Co Ltd
Original Assignee
State Grid Jiangsu Electric Power Co ltd Marketing Service Center
State Grid Smart Grid Research Institute Co ltd
State Grid Corp of China SGCC
State Grid Jiangsu Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Jiangsu Electric Power Co ltd Marketing Service Center, State Grid Smart Grid Research Institute Co ltd, State Grid Corp of China SGCC, State Grid Jiangsu Electric Power Co Ltd filed Critical State Grid Jiangsu Electric Power Co ltd Marketing Service Center
Priority to CN202211332341.XA priority Critical patent/CN115879017A/zh
Publication of CN115879017A publication Critical patent/CN115879017A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种电力敏感数据自动化分类分级方法、装置及存储介质,该方法不依赖于人工分级,可以自动划分待分级的敏感数据的等级,提高了分级的准确性和效率;按照统一的敏感数据分级标准对大规模敏感数据进行自动化地分级,解决了传统方法由于缺乏统一分级标准而导致的分级准确率低问题;采用基于无监督的方法实现对电力敏感数据的自动化分类分级,无需大量的标记数据,减小了监督学习需要人工设置分类类别从而引入人为导致的误差的可能性;使用改进的K‑means算法,解决了传统K‑Means算法容易陷入局部最优状态的缺点,同时算法执行速度快,可解释性好。

Description

一种电力敏感数据自动化分类分级方法、装置及存储介质
技术领域
本发明涉及信息安全技术领域,具体涉及一种电力敏感数据自动化分类分级方法、装置及存储介质。
背景技术
近年来,在国家政策的大力扶持下,电力行业获得快速发展,由此使得相关的行业数据发生爆发式增长。电力数据包括营销、电网、物资、财务等数据,呈现数据量多、用户规模大、数据采集点多、数据类型更多等特点,这给电力行业数据管理带来了严峻挑战。除此之外,电力作为国家关键基础设施,其产生的数据中包含大量业务往来、用户隐私等重要敏感数据,如果无法对这些敏感数据实施有效的管理,那么可能造成海量敏感数据泄露,这不仅会对电力企业自身的业务、信誉和经济利益造成严重损害,甚至可能影响能源供应。
电力敏感数据分级可以按照数据敏感程度和受影响的程度对不同的敏感数据划分不同的等级,分等级进行管理和保护。这一方面可以降低数据泄露的风险,加强对数据隐私的保护,另一方面可以优化数据管理成本,赋能业务运营,提升运营效率。
目前,传统的基于规则匹配的电力敏感数据分级方法存在以下问题:1.缺乏统一和明确的敏感数据划分标准。由于企业各部门业务的独立性和多部门之间业务的重叠性,多数员工对现有业务数据敏感程度很难做出明确判断。2.缺乏可靠的敏感数据划分方法。针对大数据存在的海量数据,传统数据分析工具技术存在局限性,通常很难根据部门业务特征和具体内容准确识别数据的敏感程度。3.严重依赖人工进行敏感数据划分。即使企业已经规范了敏感数据类别,现有方法大多通过人工鉴别的方式将海量数据逐一对应到不同等级中,其消耗的时间和财务成本也是明显过于高昂而无法实现。
发明内容
有鉴于此,本发明实施例提供了涉及一种电力敏感数据自动化分类分级方法、装置及存储介质,以解决现有技术中电力敏感数据识别结果准确性较差的技术问题。
本发明提出的技术方案如下:
本发明实施例第一方面提供一种电力敏感数据自动化分类分级方法,包括:获取电力系统中待识别敏感数据;提取待识别敏感数据中的初级特征向量;对提取的初级特征向量进行降维处理,得到待识别敏感数据中的低维度特征向量;基于机器学习改进的K-means算法对待识别敏感数据中的低维度特征向量进行聚类,将待识别敏感数据划分为不同的簇;基于专家知识对聚类后簇中的数据标记敏感等级,完成待识别敏感数据的分类分级。
可选地,提取待识别敏感数据中的初级特征向量,包括:提取待识别敏感数据中电力数值型数据的方差、极值、期望和均值作为初级特征向量;提取待识别敏感数据中电力字符型数据的字符出现的频次数据、分类编码和序号编码作为初级特征向量;提取待识别敏感数据中电力文本型数据的敏感词出现的次数和词语出现的频数作为初级特征向量。
可选地,对提取的初级特征向量进行降维处理,包括:采用主成分分析算法对提取的初级特征向量进行降维处理。
可选地,在基于机器学习改进的K-means算法对待识别敏感数据中的低维度特征向量进行聚类,将待识别敏感数据划分为不同的簇之前,包括:根据聚类评价指标调整聚类参数,优化聚类结果直至达到预期水平,得到基于机器学习改进的K-means算法。
可选地,基于机器学习改进的K-means算法对待识别敏感数据中的低维度特征向量进行聚类,将待识别敏感数据划分为不同的簇,包括:步骤1:将待识别敏感数据中的低维度特征向量作为一个数据集;步骤2:对于数据集中的每一个数据点,将每一个数据点视为一个特定的类簇;步骤3:对于每一个类簇,计算总误差,在簇上进行K-means聚类;步骤4:对于每一个类簇,计算将该簇一分为二后的总误差;步骤5:选择使得总误差最小的那个簇进行划分操作;步骤6:重复步骤3和4的操作,直到聚类的簇的数目达到指定的簇数要求。
可选地,总误差采用如下公式计算:
Figure SMS_1
式中,SSE表示总误差,总误差是求解簇中每个点和该簇聚类中心之间距离的平方和,其中
Figure SMS_2
为该簇的聚类中欧更新,yi表示簇中一个点,SSE越小,表示聚类的效果越好。
可选地,在提取待识别敏感数据中的初级特征向量之前,包括:对获取的待识别敏感数据进行数据预处理,所述数据预处理包括:去除唯一属性、处理缺失值、异常值,进行数据标准化和归一化操作。
本发明实施例第二方面提供一种电力敏感数据自动化分类分级装置,包括:数据获取模块,用于获取电力系统中待识别敏感数据;第一向量提取模块,用于提取待识别敏感数据中的初级特征向量;第二向量提取模块,用于对提取的初级特征向量进行降维处理,得到待识别敏感数据中的低维度特征向量;聚类模块,用于基于机器学习改进的K-means算法对待识别敏感数据中的低维度特征向量进行聚类,将待识别敏感数据划分为不同的簇;分类分级模块,用于基于专家知识对聚类后簇中的数据标记敏感等级,完成待识别敏感数据的分类分级。
本发明实施例第三方面提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行如本发明实施例第一方面及第一方面任一项所述的电力敏感数据自动化分类分级方法。
本发明实施例第四方面提供一种电子设备,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行如本发明实施例第一方面及第一方面任一项所述的电力敏感数据自动化分类分级方法。
本发明提供的技术方案,具有如下效果:
本发明实施例提供的电力敏感数据自动化分类分级方法、装置及存储介质,不依赖于人工分级,可以自动划分待分级的敏感数据的等级,提高了分级的准确性和效率;按照统一的敏感数据分级标准对大规模敏感数据进行自动化地分级,解决了传统方法由于缺乏统一分级标准而导致的分级准确率低问题;采用基于无监督的方法实现对电力敏感数据的自动化分类分级,无需大量的标记数据,减小了监督学习需要人工设置分类类别从而引入人为导致的误差的可能性;使用改进的K-means算法,解决了传统K-Means算法容易陷入局部最优状态的缺点,同时算法执行速度快,可解释性好。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的电力敏感数据自动化分类分级方法的流程图;
图2是根据本发明另一实施例的电力敏感数据自动化分类分级方法的流程图;
图3是根据本发明另一实施例的电力敏感数据自动化分类分级方法的流程图;
图4是根据本发明实施例的电力敏感数据自动化分类分级装置的结构框图;
图5是根据本发明实施例提供的计算机可读存储介质的结构示意图;
图6是根据本发明实施例提供的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
正如在背景技术中所述,传统的电力敏感数据分级方法存在缺乏统一的分级标准、缺乏可靠的分级方法和严重依赖人工的缺点。然而基于监督学习的电力敏感数据自动化分类分级方法也无法满足电力业务需求。一方面,监督学习需要大量有标记的电力结构化数据,监督学习必须要有训练集与测试样本,因此基于监督学习的电力结构化数据分类分级需要大量的标记数据,而在具体的业务场景中,有标记的数据通常难以获取。另一方面,监督学习需要对电力结构化数据有深入的了解,提前设置好分类类别并获取对应的对应数据。这一过程受人为因素影响巨大,可能引入由于人工经验不足或失误导致的误差。
而基于无监督学习的方法以聚类算法为主。其中,以K-Means为代表的划分式聚类算法具有实现简单、算法效率高等优点,相较于以DBSCAN(Density-Based SpatialClustering of Applications with Noise)为代表的基于密度的算法,更适用于数据量大、数据维度高的电力敏感数据自动化分类分级场景。但是传统的K-means算法对电力数据的基础属性特征进行聚类,存在以下问题:1.无法对电力数据属性特征进行深层次理解和提取。电力数据基础属性特征具有分布不均匀、高冗余的特点,直接使用基础属性特征难以有效区分不同敏感等级的电力数据。2.K-means算法受初始聚类中心选择的影响大,若初始聚类中心选择不当,很容易陷入局部最优解而不是全局最优解。
有鉴于此,本发明实施例提供一种电力敏感数据自动化分类分级方法,包括敏感数据预处理和特征提取以及聚类分析,向量化表示敏感数据,提取低维度主要特征并对敏感数据进行自动化分类分级。本发明实施例对敏感数据利用特征构造方法获取所述待分级敏感数据的初级特征向量,使用特征提取算法获得敏感数据的低维度主要特征,去除冗余特征,从而对所述待分级敏感数据进行深层次的理解,在提升分类分级准确率的同时加速算法运行。同时本发明实施例使用改进K-means算法对电力敏感数据进行聚类,按照敏感数据的特征将相似的敏感数据划分为一个类簇,将不相似的敏感数据划分为不同的类簇,实现敏感数据的自动化分类分级,且无需大量标记数据进行训练,算法复杂度低,效率高。同时,算法无需选择初始聚类中心,聚类结果不受初级聚类中心选择的影响,因此不会陷入局部最优解。
根据本发明实施例,提供了一种电力敏感数据自动化分类分级方法,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
在本实施例中提供了一种电力敏感数据自动化分类分级方法,可用于电子设备,如电脑、手机、平板电脑等,图1是根据本发明实施例电力敏感数据自动化分类分级方法的流程图,如图1所示,该方法包括如下步骤:
步骤S101:获取电力系统中待识别敏感数据;待识别敏感数据具体可以是在电力系统采集需要进行敏感分级的敏感数据,例如用户身份相关数据、用户电能数据、电量数据和电价数据等。
步骤S102:提取待识别敏感数据中的初级特征向量。具体地,电力敏感数据初级特征向量是从电力敏感数据中提取出来的数字化特征等。
步骤S103:对提取的初级特征向量进行降维处理,得到待识别敏感数据中的低维度特征向量;降维处理的作用是在保留敏感数据主要信息的同时提取出敏感数据的低维度特征向量。低维度特征向量是不同电力敏感数据属性特征的向量化表示,是在电力敏感数据初级特征向量的基础上提取出来的、包含电力敏感数据主要特征的低维度特征向量。
步骤S104:基于机器学习改进的K-means算法对待识别敏感数据中的低维度特征向量进行聚类,将待识别敏感数据划分为不同的簇;采用改进K-means聚类算法对电力敏感数据的特征向量进行聚类,将相似的敏感数据划分为同一个类簇,将不相似的敏感数据划分为不同的类簇,从而达到电力敏感数据自动化分类分级的目的。
步骤S105:基于专家知识对聚类后簇中的数据标记敏感等级,完成待识别敏感数据的分类分级。专家知识是指电力专家按照数据敏感程度和受影响的程度对不同的敏感数据划分不同的等级的经验知识。
本发明实施例提供的电力敏感数据自动化分类分级方法,不依赖于人工分级,可以自动划分待分级的敏感数据的等级,提高了分级的准确性和效率;按照统一的敏感数据分级标准对大规模敏感数据进行自动化地分级,解决了传统方法由于缺乏统一分级标准而导致的分级准确率低问题;采用基于无监督的方法实现对电力敏感数据的自动化分类分级,无需大量的标记数据,减小了监督学习需要人工设置分类类别从而引入人为导致的误差的可能性;使用改进的K-means算法,解决了传统K-Means算法容易陷入局部最优状态的缺点,同时算法执行速度快,可解释性好。
在一实施方式中,如图2所示,在提取待识别敏感数据中的初级特征向量之前,包括:对获取的待识别敏感数据进行数据预处理,所述数据预处理包括:去除唯一属性、处理缺失值、异常值,进行数据标准化和归一化操作。具体地,获取的敏感数据会存在有缺失值、重复值等,在使用之前需要进行数据预处理,消除脏数据对分类分级的影响。针对电力系统不同敏感数据的属性,去除唯一属性、处理缺失值、异常值,进行数据标准化和归一化操作。例如,去除用户结算电量数据中明显异常的负值可以防止脏数据干扰后续的分类分级,对用户的零售交易电量、用户发电量增长率等进行标准化处理可以消除不同属性和量级的数据对分类算法的影响。
在一实施方式中,如图2所示,提取待识别敏感数据中的初级特征向量,包括:提取待识别敏感数据中电力数值型数据的方差、极值、期望和均值作为初级特征向量;提取待识别敏感数据中电力字符型数据的字符出现的频次数据、分类编码和序号编码作为初级特征向量;提取待识别敏感数据中电力文本型数据的敏感词出现的次数和词语出现的频数作为初级特征向量。
具体地,针对电力数值型数据,如用户用电数值、用户发电数值、用户发电量增长率等,提取方差、极值、期望和均值等可以反映数据总体分布的特征;针对电力字符型数据,例如电力用户信息、用户的用电/发电状态信息、风险描述、供电营业区信息等,提取字符出现的频次数据、分类编码和序号编码等;针对电力文本型数据,例如电力系统日志记录、电力用户特征描述、电力异常渡边描述等,提取敏感词出现的次数和词语出现的频数等数据。初级特征向量是数据若干统计特征的拼接和组合,可以反映数据的整体分布情况和总体特征。但是,初级特征向量的特征间往往相关性大,存在较大的冗余,直接用于分类分级不仅可能会导致算法过拟合,降低分类的准确性,还会占用不必要的存储空间,降低算法的效率。因此,需要对初级特征向量进行降维处理。
在一实施方式中,如图2所示,对提取的初级特征向量进行降维处理,包括:采用主成分分析算法对提取的初级特征向量进行降维处理。利用主成分分析算法PCA对初级特征向量进行降维处理,在保留敏感数据主要信息的同时提取出敏感数据的低维度特征向量。降维后的特征向量的各个分量之间相关性小,特征向量包含的冗余信息少,用于后续的分类分级时可以加速计算,节省存储和运算空间,提高算法的效率。
在一实施方式中,在基于机器学习改进的K-means算法对待识别敏感数据中的低维度特征向量进行聚类,将待识别敏感数据划分为不同的簇之前,包括:根据聚类评价指标调整聚类参数,优化聚类结果直至达到预期水平,得到基于机器学习改进的K-means算法。具体地,通过聚类参数的调整,能够使得采用该聚类算法进行聚类的划分结果更准确。
在一实施方式中,如图3所示,基于机器学习改进的K-means算法对待识别敏感数据中的低维度特征向量进行聚类,将待识别敏感数据划分为不同的簇,包括:
步骤1:将待识别敏感数据中的低维度特征向量作为一个数据集;
步骤2:对于数据集中的每一个数据点,将每一个数据点视为一个特定的类簇。
步骤3:对于每一个类簇,计算总误差,在簇上进行K-means聚类;
步骤4:对于每一个类簇,计算将该簇一分为二后的总误差;
步骤5:选择使得总误差最小的那个簇进行划分操作;
步骤6:重复步骤3和4的操作,直到聚类的簇的数目达到指定的簇数要求。
其中,总误差采用如下公式计算:
Figure SMS_3
式中,SSE表示总误差,总误差是求解簇中每个点和该簇聚类中心之间距离的平方和,其中
Figure SMS_4
为该簇的聚类中欧更新,yi表示簇中一个点,SSE越小,表示聚类的效果越好。
本发明实施例还提供一种电力敏感数据自动化分类分级装置,如图4所示,该装置包括:
数据获取模块,用于获取电力系统中待识别敏感数据;具体内容参见上述方法实施例对应部分,在此不再赘述。
第一向量提取模块,用于提取待识别敏感数据中的初级特征向量;具体内容参见上述方法实施例对应部分,在此不再赘述。
第二向量提取模块,用于对提取的初级特征向量进行降维处理,得到待识别敏感数据中的低维度特征向量;具体内容参见上述方法实施例对应部分,在此不再赘述。
聚类模块,用于基于机器学习改进的K-means算法对待识别敏感数据中的低维度特征向量进行聚类,将待识别敏感数据划分为不同的簇;具体内容参见上述方法实施例对应部分,在此不再赘述。
分类分级模块,用于基于专家知识对聚类后簇中的数据标记敏感等级,完成待识别敏感数据的分类分级。具体内容参见上述方法实施例对应部分,在此不再赘述。
本发明实施例提供的电力敏感数据自动化分类分级装置,不依赖于人工分级,可以自动划分待分级的敏感数据的等级,提高了分级的准确性和效率;按照统一的敏感数据分级标准对大规模敏感数据进行自动化地分级,解决了传统方法由于缺乏统一分级标准而导致的分级准确率低问题;采用基于无监督的方法实现对电力敏感数据的自动化分类分级,无需大量的标记数据,减小了监督学习需要人工设置分类类别从而引入人为导致的误差的可能性;使用改进的K-means算法,解决了传统K-Means算法容易陷入局部最优状态的缺点,同时算法执行速度快,可解释性好。
本发明实施例提供的电力敏感数据自动化分类分级装置的功能描述详细参见上述实施例中电力敏感数据自动化分类分级方法描述。
本发明实施例还提供一种存储介质,如图5所示,其上存储有计算机程序601,该指令被处理器执行时实现上述实施例中电力敏感数据自动化分类分级方法的步骤。该存储介质上还存储有音视频流数据,特征帧数据、交互请求信令、加密数据以及预设数据大小等。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random AccessMemory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
本发明实施例还提供了一种电子设备,如图6所示,该电子设备可以包括处理器51和存储器52,其中处理器51和存储器52可以通过总线或者其他方式连接,图6中以通过总线连接为例。
处理器51可以为中央处理器(Central Processing Unit,CPU)。处理器51还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
存储器52作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本发明实施例中的对应的程序指令/模块。处理器51通过运行存储在存储器52中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述方法实施例中的电力敏感数据自动化分类分级方法。
存储器52可以包括存储程序区和存储数据区,其中,存储程序区可存储操作装置、至少一个功能所需要的应用程序;存储数据区可存储处理器51所创建的数据等。此外,存储器52可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器52可选包括相对于处理器51远程设置的存储器,这些远程存储器可以通过网络连接至处理器51。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
所述一个或者多个模块存储在所述存储器52中,当被所述处理器51执行时,执行如图1-2所示实施例中的电力敏感数据自动化分类分级方法。
上述电子设备具体细节可以对应参阅图1至图2所示的实施例中对应的相关描述和效果进行理解,此处不再赘述。
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (10)

1.一种电力敏感数据自动化分类分级方法,其特征在于,包括:
获取电力系统中待识别敏感数据;
提取待识别敏感数据中的初级特征向量;
对提取的初级特征向量进行降维处理,得到待识别敏感数据中的低维度特征向量;
基于机器学习改进的K-means算法对待识别敏感数据中的低维度特征向量进行聚类,将待识别敏感数据划分为不同的簇;
基于专家知识对聚类后簇中的数据标记敏感等级,完成待识别敏感数据的分类分级。
2.根据权利要求1所述的电力敏感数据自动化分类分级方法,其特征在于,提取待识别敏感数据中的初级特征向量,包括:
提取待识别敏感数据中电力数值型数据的方差、极值、期望和均值作为初级特征向量;
提取待识别敏感数据中电力字符型数据的字符出现的频次数据、分类编码和序号编码作为初级特征向量;
提取待识别敏感数据中电力文本型数据的敏感词出现的次数和词语出现的频数作为初级特征向量。
3.根据权利要求1所述的电力敏感数据自动化分类分级方法,其特征在于,对提取的初级特征向量进行降维处理,包括:
采用主成分分析算法对提取的初级特征向量进行降维处理。
4.根据权利要求1所述的电力敏感数据自动化分类分级方法,其特征在于,在基于机器学习改进的K-means算法对待识别敏感数据中的低维度特征向量进行聚类,将待识别敏感数据划分为不同的簇之前,包括:
根据聚类评价指标调整聚类参数,优化聚类结果直至达到预期水平,得到基于机器学习改进的K-means算法。
5.根据权利要求1所述的电力敏感数据自动化分类分级方法,其特征在于,基于机器学习改进的K-means算法对待识别敏感数据中的低维度特征向量进行聚类,将待识别敏感数据划分为不同的簇,包括:
步骤1:将待识别敏感数据中的低维度特征向量作为一个数据集;
步骤2:对于数据集中的每一个数据点,将每一个数据点视为一个特定的类簇;
步骤3:对于每一个类簇,计算总误差,在簇上进行K-means聚类;
步骤4:对于每一个类簇,计算将该簇一分为二后的总误差;
步骤5:选择使得总误差最小的那个簇进行划分操作;
步骤6:重复步骤3和4的操作,直到聚类的簇的数目达到指定的簇数要求。
6.根据权利要求5所述的电力敏感数据自动化分类分级方法,其特征在于,总误差采用如下公式计算:
Figure FSA0000287723240000021
式中,SSE表示总误差,总误差是求解簇中每个点和该簇聚类中心之间距离的平方和,其中
Figure FSA0000287723240000031
为该簇的聚类中欧更新,yi表示簇中一个点,SSE越小,表示聚类的效果越好。
7.根据权利要求1所述的电力敏感数据自动化分类分级方法,其特征在于,在提取待识别敏感数据中的初级特征向量之前,包括:
对获取的待识别敏感数据进行数据预处理,所述数据预处理包括:去除唯一属性、处理缺失值、异常值,进行数据标准化和归一化操作。
8.一种电力敏感数据自动化分类分级装置,其特征在于,包括:
数据获取模块,用于获取电力系统中待识别敏感数据;
第一向量提取模块,用于提取待识别敏感数据中的初级特征向量;
第二向量提取模块,用于对提取的初级特征向量进行降维处理,得到待识别敏感数据中的低维度特征向量;
聚类模块,用于基于机器学习改进的K-means算法对待识别敏感数据中的低维度特征向量进行聚类,将待识别敏感数据划分为不同的簇;
分类分级模块,用于基于专家知识对聚类后簇中的数据标记敏感等级,完成待识别敏感数据的分类分级。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行如权利要求1-7任一项所述的电力敏感数据自动化分类分级方法。
10.一种电子设备,其特征在于,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行如权利要求1-7任一项所述的电力敏感数据自动化分类分级方法。
CN202211332341.XA 2022-10-28 2022-10-28 一种电力敏感数据自动化分类分级方法、装置及存储介质 Pending CN115879017A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211332341.XA CN115879017A (zh) 2022-10-28 2022-10-28 一种电力敏感数据自动化分类分级方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211332341.XA CN115879017A (zh) 2022-10-28 2022-10-28 一种电力敏感数据自动化分类分级方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN115879017A true CN115879017A (zh) 2023-03-31

Family

ID=85759083

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211332341.XA Pending CN115879017A (zh) 2022-10-28 2022-10-28 一种电力敏感数据自动化分类分级方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN115879017A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116108393A (zh) * 2023-04-12 2023-05-12 国网智能电网研究院有限公司 电力敏感数据分类分级方法、装置、存储介质及电子设备
CN116305222A (zh) * 2023-05-22 2023-06-23 武汉惠强新能源材料科技有限公司 一种锂电池隔膜生产数据安全权限智能调控方法
CN116628584A (zh) * 2023-07-21 2023-08-22 国网智能电网研究院有限公司 电力敏感数据处理方法、装置、电子设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116108393A (zh) * 2023-04-12 2023-05-12 国网智能电网研究院有限公司 电力敏感数据分类分级方法、装置、存储介质及电子设备
CN116305222A (zh) * 2023-05-22 2023-06-23 武汉惠强新能源材料科技有限公司 一种锂电池隔膜生产数据安全权限智能调控方法
CN116305222B (zh) * 2023-05-22 2023-09-05 武汉惠强新能源材料科技有限公司 一种锂电池隔膜生产数据安全权限智能调控方法
CN116628584A (zh) * 2023-07-21 2023-08-22 国网智能电网研究院有限公司 电力敏感数据处理方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN111444236B (zh) 一种基于大数据的移动终端用户画像构建方法及系统
CN115879017A (zh) 一种电力敏感数据自动化分类分级方法、装置及存储介质
CN106844407B (zh) 基于数据集相关性的标签网络产生方法和系统
CN108241867B (zh) 一种分类方法及装置
CN113254255A (zh) 一种云平台日志的分析方法、系统、设备及介质
CN112949914A (zh) 一种产业集群的识别方法、装置、存储介质及电子设备
CN115238815A (zh) 异常交易数据获取方法、装置、设备、介质和程序产品
CN111914294A (zh) 一种数据库敏感数据识别方法及系统
CN117235608B (zh) 风险检测方法、装置、电子设备及存储介质
Diao et al. Clustering by detecting density peaks and assigning points by similarity-first search based on weighted K-nearest neighbors graph
CN116628584A (zh) 电力敏感数据处理方法、装置、电子设备及存储介质
CN112465397A (zh) 一种审计数据的分析方法和装置
CN112749003A (zh) 系统优化的方法、设备及计算机可读存储介质
CN110795308A (zh) 一种服务器检验方法、装置、设备及存储介质
CN109739840A (zh) 数据空值处理方法、装置及终端设备
CN114528378A (zh) 文本分类方法、装置、电子设备及存储介质
CN115098679A (zh) 文本分类标注样本的异常检测方法、装置、设备及介质
CN114140241A (zh) 一种交易监控指标的异常识别方法及装置
CN109614489B (zh) 一种基于迁移学习和特征提取的Bug报告严重程度识别方法
CN113705920A (zh) 火电厂用水数据样本集的生成方法和终端设备
CN113705625A (zh) 异常生活保障申请家庭的识别方法、装置及电子设备
CN113297249A (zh) 慢查询语句的识别和分析、查询语句的统计方法及装置
CN111475380A (zh) 一种日志分析方法和装置
CN111027296A (zh) 基于知识库的报表生成方法及系统
CN113064597B (zh) 一种冗余代码的识别方法、装置和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination