CN115730592A - 电网冗余数据剔除方法、装置、设备及存储介质 - Google Patents
电网冗余数据剔除方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN115730592A CN115730592A CN202211529993.2A CN202211529993A CN115730592A CN 115730592 A CN115730592 A CN 115730592A CN 202211529993 A CN202211529993 A CN 202211529993A CN 115730592 A CN115730592 A CN 115730592A
- Authority
- CN
- China
- Prior art keywords
- power grid
- data
- working data
- word frequency
- processed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 71
- 230000008030 elimination Effects 0.000 title claims description 23
- 238000003379 elimination reaction Methods 0.000 title claims description 19
- 239000013598 vector Substances 0.000 claims abstract description 174
- 239000011159 matrix material Substances 0.000 claims abstract description 124
- 230000009467 reduction Effects 0.000 claims abstract description 68
- 238000009826 distribution Methods 0.000 claims abstract description 49
- 238000004458 analytical method Methods 0.000 claims abstract description 33
- 230000006835 compression Effects 0.000 claims description 45
- 238000007906 compression Methods 0.000 claims description 45
- 238000012545 processing Methods 0.000 claims description 18
- 238000000513 principal component analysis Methods 0.000 claims description 16
- 238000001914 filtration Methods 0.000 claims description 14
- 230000000007 visual effect Effects 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 238000012216 screening Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 230000005856 abnormality Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 230000002902 bimodal effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Landscapes
- Supply And Distribution Of Alternating Current (AREA)
Abstract
本发明电网信息化技术领域,尤其涉及一种电网冗余数据剔除方法、装置、设备及存储介质,该方法包括:获取待处理电网数据,待处理电网数据包括电网的高压侧电流、低压侧电流、电网的短路损耗、短路电压百分数、空载损耗以及空载电流百分数数据中的至少一项;对待处理电网数据进行降维处理,得到电网工作数据特征向量;对电网工作数据特征向量进行词频统计,得到电网工作数据特征向量的词频矩阵;对词频矩阵进行主题分析,得到主题概率分布;通过主题概率分布剔除所述待处理电网数据中的冗余数据,从而通过待处理电网数据进行词频统计和主题分析,精确快速地完成对待处理电网数据中的冗余数据进行剔除,进而提高电网的信息化和智能化程度。
Description
技术领域
本发明涉及电网信息化技术领域,尤其涉及一种电网冗余数据剔除方法、装置、设备及存储介质。
背景技术
电网规模不断扩大,直接导致电网数据呈现爆发式的增长,同时也导致电网数据中存在大量冗余数据。由于冗余数据的大量存在,降低了从大规模电网数据中查找数据的效率,进一步影响基于电网数据进行分析时的准确率,提高电网的信息化程度。因此,如何及时精确地出剔除电网大量数据中的冗余数据成为当前亟待解决的技术问题,目前传统的方式主要采用人工剔除,工作人员通过预设的剔除标准去剔除电网中存在的冗余数据,但是人工剔除方法很容易受到受专家个人经验和身体状况等主观因素的影响,使得造成剔除不准确和低效的问题。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种电网冗余数据剔除方法、装置、设备及存储介质,旨在解决现有技术中难以及时精确地出剔除电网大量数据中的冗余数据的技术问题。
为实现上述目的,本发明提供一种电网冗余数据剔除方法,所述电网冗余数据剔除方法包括以下步骤:
获取待处理电网数据,所述待处理电网数据包括电网的高压侧电流、低压侧电流、电网的短路损耗、短路电压百分数、空载损耗以及空载电流百分数数据中的至少一项;
对所述待处理电网数据进行降维处理,得到电网工作数据特征向量;
对所述电网工作数据特征向量进行词频统计,得到所述电网工作数据特征向量的词频矩阵;
对所述词频矩阵进行主题分析,得到主题概率分布;
通过所述主题概率分布剔除所述待处理电网数据中的冗余数据。
可选地,所述对所述待处理电网数据进行降维处理,得到电网工作数据特征向量,包括:
采用设定的降维方式对所述待处理电网数据进行压缩处理,得到电网工作数据粗粒度压缩点;
对所述电网工作数据粗粒度压缩点进行分解,得到所述电网工作数据粗粒度压缩点对应的多个电网工作数据细粒度压缩点;
根据所述多个电网工作数据细粒度压缩点,建立电网工作数据特征向量。
可选地,所述采用设定的降维方式对所述待处理电网数据进行压缩处理,得到电网工作数据粗粒度压缩点,包括:
对所述待处理电网数据,通过主成分分析和高相关滤波法进行降维,得到降维后的电网工作数据;
将所述降维后的电网工作数据,按照其数据维度划分为多个电网工作数据集合;
根据所述划分的电网工作数据集合对应的所述降维后的电网工作数据,计算每个划分的电网工作数据集合集的平均值;
根据所述电网工作数据集合集的平均值对降维后的电网工作数据进行压缩,转换成对应的粗粒度压缩点。
可选地,所述对所述电网工作数据特征向量进行词频统计,得到所述电网工作数据特征向量的词频矩阵,包括:
将预设数量的电网工作数据特征向量作为初始聚类中心;
计算剩余数量的电网工作数据特征向量与所述初始聚类中心的相似度,根据所述相似度得到预设数量的聚类簇;
计算所述聚类簇特征向量的平均值,得到新的聚类中心;
通过迭代计算所述聚类簇和所述聚类中心,直到满足迭代停止条件,得到目标聚类中心;
根据所述目标聚类中心确定所述电网工作数据特征向量词频矩阵。
可选地,所述对所述词频矩阵进行主题分析,得到主题概率分布,包括:
确定所述电网工作数据特征向量词频矩阵对应的主题类别;
通过预设迭代算法对所电网工作数据特征向量词频矩阵进行概率分析,得到所述电网工作数据特征向量词频矩阵的主题类别对应的电网工作数据特征向量词频矩阵的主题类别概率;
根据所述电网工作数据特征向量词频矩阵的主题类别概率确定所述电网工作数据特征向量词频矩阵对应的主体类别;
根据所述电网工作数据特征向量词频矩阵的主题类别概率确定主体类别对应的视觉单词;
根据所述电网工作数据特征向量、所述电网工作数据特征向量词频矩阵的主题类别概率以及所述预设电网工作数据特征向量词频矩阵对应的主体类别确定电网工作数据特征向量主题概率分布。
可选地,所述对所述待处理电网数据,通过主成分分析和高相关滤波法进行降维,得到降维后的电网工作数据,包括:
对所述待处理电网数据的每一列数据进行循环判断,是否为常量列;
若不为常量列,对所有不为常量列的维度进行归一化处理;
对所述待处理电网数据各个维度样本之间进行相关系数求解,将相关系数组成第一相关系数矩阵;
将第一相关系数矩阵通过高相关滤波方法进行降维,得到降维后的第二相关系数矩阵;
将降维后的第二相关系数矩阵进行主成分分析降维,得到降维后电网工作数据。
可选地,所述通过所述主题概率分布剔除所述待处理电网数据中的冗余数据之后,还包括:
根据采集数据时间周期,采集电网的高压侧电流、低压侧电流、电网的短路损耗、短路电压百分数、空载损耗以及空载电流百分数数据;
重新对所述采集到的电网的高压侧电流、低压侧电流、电网的短路损耗、短路电压百分数、空载损耗以及空载电流百分数数据进行筛选并剔除,直至剔除所有的电网冗余数据。
此外,为实现上述目的,本发明还提出一种电网冗余数据剔除装置,所述电网冗余数据剔除装置包括:
获取模块,用于获取待处理电网数据,所述待处理电网数据包括电网的高压侧电流、低压侧电流、电网的短路损耗、短路电压百分数、空载损耗以及空载电流百分数数据中的至少一项;
降维模块,对所述待处理电网数据进行降维处理,得到电网工作数据特征向量;
分析模块,用于对所述电网工作数据特征向量进行词频统计,得到所述电网工作数据特征向量的词频矩阵;
所述分析模块,还用于对所述词频矩阵进行主题分析,得到主题概率分布;
剔除模块,用于通过所述主题概率分布剔除所述待处理电网数据中的冗余数据。
此外,为实现上述目的,本发明还提出一种电网冗余数据剔除设备,所述设备包括:存储器、处理器及存储在所述存储器上并在所述处理器上运行的电网冗余数据剔除程序,所述电网冗余数据剔除程序配置为实现如上文所述的电网冗余数据剔除方法。
此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有电网冗余数据剔除程序,所述电网冗余数据剔除程序被处理器执行时实现如上文所述的电网冗余数据剔除方法。
本发明其公开了一种电网冗余数据剔除方法、装置、设备及存储介质,该方法包括:获取待处理电网数据,所述待处理电网数据包括电网的高压侧电流、低压侧电流、电网的短路损耗、短路电压百分数、空载损耗以及空载电流百分数数据中的至少一项;对所述待处理电网数据进行降维处理,得到电网工作数据特征向量;对所述电网工作数据特征向量进行词频统计,得到所述电网工作数据特征向量的词频矩阵;对所述词频矩阵进行主题分析,得到主题概率分布;通过所述主题概率分布剔除所述待处理电网数据中的冗余数据,从而可以通过待处理电网数据进行词频统计和主题分析,精确快速地完成对待处理电网数据中的冗余数据进行剔除,避免出现电网中大量冗余数据,有利于提高电网的信息化发展。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的电网冗余数据剔除设备结构示意图;
图2为本发明电网冗余数据剔除方法第一实施例的流程示意图;
图3为本发明电网冗余数据剔除方法第二实施例的流程示意图;
图4为本发明电网冗余数据剔除方法第三实施例的流程示意图;
图5为本发明电网冗余数据剔除装置第一实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的电网冗余数据剔除设备结构示意图。
如图1所示,该电网冗余数据剔除设备可以包括:处理器1001,例如中央处理器(Central Processing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display),可选用户接口1003还可以包括标准的有线接口、无线接口,对于用户接口1003的有线接口在本发明中可为USB接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(Wireless-Fidelity,Wi-Fi)接口)。存储器1005可以是高速的随机存取存储器(Random Access Memory,RAM)存储器,也可以是稳定的存储器(Non-volatileMemory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对电网冗余数据剔除设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,认定为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及电网冗余数据剔除程序。
在图1所示的电网冗余数据剔除设备中,网络接口1004主要用于连接后台服务器,与所述后台服务器进行数据通信;用户接口1003主要用于连接用户设备;所述电网冗余数据剔除设备通过处理器1001调用存储器1005中存储的电网冗余数据剔除程序,并执行本发明实施例提供的电网冗余数据剔除方法。
基于上述硬件结构,提出本发明电网冗余数据剔除方法的实施例。
参照图2,图2为本发明电网冗余数据剔除方法第一实施例的流程示意图,提出本发明电网冗余数据剔除方法第一实施例。
在第一实施例中,所述电网冗余数据剔除方法包括以下步骤:
步骤S10:获取待处理电网数据,所述待处理电网数据包括电网的高压侧电流、低压侧电流、电网的短路损耗、短路电压百分数、空载损耗以及空载电流百分数数据中的至少一项。
理解的是,本实施例的执行主体是为电网冗余数据剔除设备,该电网冗余数据剔除设备具有数据处理、数据通信及程序运行等功能。
在具体实现中,电网冗余数据剔除设备发送收集指令到电流传感器、电压传感器,以使电流传感器、电压传感器在接受到了收集指令后开始收集和计算待处理电网数据,所述待处理电网数据包括电网的高压侧电流、低压侧电流、电网的短路损耗、短路电压百分数、空载损耗以及空载电流百分数数据中的至少一项。
步骤S20:对所述待处理电网数据进行降维处理,得到电网工作数据特征向量。
在具体实施中,采用设定的降维方式对所述待处理电网数据进行压缩处理,得到电网工作数据粗粒度压缩点;对所述电网工作数据粗粒度压缩点进行分解,得到所述电网工作数据粗粒度压缩点对应的多个电网工作数据细粒度压缩点;根据所述多个电网工作数据细粒度压缩点,建立电网工作数据特征向量,从而可以通过特定的降维方式对对所述待处理电网数据进行处理得到电网工作数据特征向量。
需要说明的是,这里的预设降维方式采用的主成分分析和高相关滤波法,对所述待处理电网数据的每一列数据进行循环判断,是否为常数量列;若不为常数量列,对所有不为常量列的维度进行归一化处理;对所述待处理电网数据各个维度样本之间进行相关系数求解,将相关系数组成第一相关系数矩阵;将第一相关系数矩阵通过高相关滤波方法进行降维,得到降维后的第二相关系数矩阵;将降维后的第二相关系数矩阵进行主成分分析降维,得到降维后的电网工作数据。
应当理解的是,主成分分析(PCA)是一种降维方法,常用于对高维数据集作降维,它会将一个大的变量集合转化为更少的变量集合,同时保留大的变量集合中的大部分信息,PCA算法具体包括下列步骤:将原始的待处理电网数据按列组成n行m列待处理电网数据矩阵X,将待处理电网数据矩阵X的每一行(代表一个属性字段)进行零均值化,即减去这一行的均值求出待处理电网数据矩阵对应的协方差矩阵的电网数据特征值及对应的电网数据特征向量将电网数据特征向量按对应电网数据特征值大小从上到下按行排列成矩阵,取前k行组成矩阵P,Y=PX即为降维到k维后的数据。
步骤S30:对所述电网工作数据特征向量进行词频统计,得到所述电网工作数据特征向量的词频矩阵。
在具体实施中,将预设数量的电网工作数据特征向量作为初始聚类中心;计算剩余数量的电网工作数据特征向量与所述初始聚类中心的相似度,根据所述相似度得到预设数量的聚类簇;计算所述聚类簇特征向量的平均值,得到新的聚类中心;通过迭代计算所述聚类簇和所述聚类中心,直到满足迭代停止条件,得到目标聚类中心;根据所述目标聚类中心确定所述电网工作数据特征向量词频矩阵,从而可以通过聚类簇得到电网工作数据特征向量词频矩阵。
需要说明的是,根据建立电网工作数据特征向量的词频矩阵视觉单词模型,是通过以相似度为判别依据,计算每个电网工作数据特征向量与各聚类的相似度,需要按照预设投票原则,将所述电网工作数据特征向量的词频矩阵判给对应的视觉单词,并统对应的视觉单词出现的频数,得到每个电网工作数据特征向量的词频,统计完所有电网工作数据特征向量的词频后,得到电网工作数据特征向量的词频矩阵。
步骤S40:对所述词频矩阵进行主题分析,得到主题概率分布。
在具体实施中,确定所述电网工作数据特征向量词频矩阵对应的主题类别;通过预设迭代算法对所电网工作数据特征向量词频矩阵进行概率分析,得到所述电网工作数据特征向量词频矩阵的主题类别对应的电网工作数据特征向量词频矩阵的主题类别概率;根据所述电网工作数据特征向量词频矩阵的主题类别概率确定所述电网工作数据特征向量词频矩阵对应的主体类别;根据所述电网工作数据特征向量词频矩阵的主题类别概率确定主体类别对应的视觉单词;根据所述电网工作数据特征向量、所述电网工作数据特征向量词频矩阵的主题类别概率以及所述预设电网工作数据特征向量词频矩阵对应的主体类别确定电网工作数据特征向量主题概率分布,从而通过对所述词频矩阵进行主题分析得到了电网工作数据特征向量对应的主题概率分布
需要说明的是,主题类别可以为电流异常主题、电压异常主题、正常主题等,本实施例对此不作限制,因此,可以确定电网工作数据特征向量词频矩阵对应的电流异常主题、电压异常主题或正常主题等,通过预设主题模型对词频矩阵进行处理,得到所述电网工作数据特征向量中所述主题类别对应的主题概率分布。
应当理解的是,这里的预设主题模型为概率潜在主题分析(Probabilisticlatent semantic analysis,pLSA)模型,pLSA是Thomas Hofmann在潜在语义索引的基础上得到的基于双模式和共现的数据分析方法延伸的统计学方法。模型的结构和电网工作数据特征向量词频矩阵的构成相似,主题可以映射到电网工作数据特征向量词频矩阵的语义内容,LDA生成过程与pLSA模型相似,不同的是LDA在生成过程中,主题分布和词分布服从狄利克雷分布,其中,联合概率分布函数计算公式为:
其中,α和β为两个狄利克雷分布,θ是在参数为α的狄利克雷分布下的主题分布,M为电网工作数据特征向量总数,在具体实施过程中用EM算法来预算电网工作数据特征向量模型参数α、β和θ,求解电网工作数据特征向量主题分布中主题类别对应的主题概率p(zm|θ),最终得到电网工作数据特征向量主题概率分布。
步骤S50:通过所述主题概率分布剔除所述待处理电网数据中的冗余数据。
在具体实施中,通过电网工作数据特征向量主题概率分布对电网工作数据特征向量进行筛查和剔除之后,还包括:根据采集数据时间周期,获取预处理后的电网的高压侧电流、低压侧电流、电网的短路损耗、短路电压百分数、空载损耗以及空载电流百分数数据;重新对所述预处理后的电网的高压侧电流、低压侧电流、电网的短路损耗、短路电压百分数、空载损耗以及空载电流百分数数据进行筛选和剔除,直至筛选和剔除所有的电网冗余数据,则将新采到的样本添加到数据库中,并根据新的数据库来修正电网工作数据特征向量主题概率分布,从而实现不断更新主题概率分布,保证筛选和剔除的准确性。
在本实施例中,获取待处理电网数据,所述待处理电网数据包括电网的高压侧电流、低压侧电流、电网的短路损耗、短路电压百分数、空载损耗以及空载电流百分数数据中的至少一项;对所述待处理电网数据进行降维处理,得到电网工作数据特征向量;对所述电网工作数据特征向量进行词频统计,得到所述电网工作数据特征向量的词频矩阵;对所述词频矩阵进行主题分析,得到主题概率分布;通过所述主题概率分布剔除所述待处理电网数据中的冗余数据,从而可以通过待处理电网数据进行词频统计和主题分析,精确快速地完成对待处理电网数据中的冗余数据进行剔除,避免出现电网中大量冗余数据,有利于提高电网的信息化和智能化。
参照图3,图3为本发明电网冗余数据剔除方法第二实施例的流程示意图,基于上述图2所示的第一实施例,提出本发明电网冗余数据剔除方法的第二实施例。
在第二实施例中,所述步骤S20,包括:
步骤S201:采用设定的降维方式对所述待处理电网数据进行压缩处理,得到电网工作数据粗粒度压缩点。
在具体实施中,对所述预处理后的电网的高压侧电流、低压侧电流、电网的短路损耗、短路电压百分数、空载损耗以及空载电流百分数数据,通过主成分分析和高相关滤波法进行降维,得到降维后的电网工作数据;将所述降维后的电网工作数据,按照其数据维度划分为多个电网工作数据集合;根据所述划分的电网工作数据集合对应的所述降维后的电网工作数据,计算每个划分的电网工作数据集合集的平均值;根据所述电网工作数据集合集的平均值对降维后的电网工作数据进行压缩,转换成对应的粗粒度压缩点,从而实现首先对电网工作数据进行降维,得到电网工作数据粗粒度压缩点。
需要说明的是,这里的降维方式采用的是主缩点进行分解,得到所述电网工作数据粗粒度主成分分析和高相关滤波法进行对电网工作数据进行降维,具体过程为对所述电网工作数据粗粒度压缩点对应的多个电网工作数据细粒度压缩点,对所述预处理后的电网的高压侧电流、低压侧电流、电网的短路损耗、短路电压百分数、空载损耗以及空载电流百分数数据的每一列数据进行循环判断是否为常量列;为非常量列,对所有非常量列的维度进行归一化处理;对归一化后的电网工作数据各个维度样本之间进行相关系数求解,将相关系数组成第一相关系数矩阵;将第一相关系数矩阵通过高相关滤波方法进行降维,得到降维后的第二相关系数矩阵;将降维后的第二相关系数矩阵进行主成分分析降维,得到降维后的电网工作数据,从而实现对电网工作数据进行降维。
需要说明的是,其中第一系数矩阵的基准数值计算公式如下所示。
根据上式,其中,i1表示第一电网数据相关系数矩阵中的第i1行,i2表示第一相关系数矩阵中的第i2列,m1表示第一相关电网数据系数矩阵中的总行数,m2表示第一相关系数矩阵中的总列数,xi1-2表示第i1行的某个样本值,xi1+2表示样本值xi1-2后四行的样本值,yi-2表示i1列的某个样本值,yi1+2表示样本值yi1-2后四列的样本值。
步骤S202:对所述电网工作数据粗粒度压缩点进行分解,得到所述电网工作数据粗粒度压缩点对应的多个电网工作数据细粒度压缩点。
在具体实施中,生成若干个粗粒度的压缩点,同时对于每一个粗压缩点会按照映射关系,生成多个相对应的细粒度压缩。
步骤S203:根据所述多个电网工作数据细粒度压缩点,建立电网工作数据特征向量。
应当理解的是,具体是多个电网工作数据细粒度压缩点,按照其维度进行建立建立电网工作数据特征向量。在电网工作数据中拥有相似属性的数据点,会在在降维数据集中依然相似。将降维后的电网工作数据集划分为若干个部分,每一部分包含至少2个相似的数据点。最后,将每个电网工作数据集的点进行聚会,转换为一个压缩点。
在本实施例中,获取预处理后的电网的高压侧电流、低压侧电流、电网的短路损耗、短路电压百分数、空载损耗以及空载电流百分数数据;对所述预处理后的电网的高压侧电流、低压侧电流、电网的短路损耗、短路电压百分数、空载损耗以及空载电流百分数数据采用设定的降维方式进行压缩处理,得到电网工作数据粗粒度压缩点;对所述电网工作数据粗粒度压缩点进行分解,得到所述电网工作数据粗粒度压缩点对应的多个电网工作数据细粒度压缩点;根据所述多个电网工作数据细粒度压缩点,建立电网工作数据特征向量。对所述电网工作数据特征向量进行词频统计,得到电网工作数据特征向量词频矩阵;对所述电网工作数据特征向量词频矩阵进行主题分析,得到电网工作数据特征向量主题概率分布;通过电网工作数据特征向量主题概率分布对电网工作数据特征向量进行筛查和剔除,从而通过预设的方式对电网工作数据特征向量进行筛查,有利于提高剔除成功率,进而有助于电网的信息化发展。
参照图4,图4为本发明电网冗余数据剔除方法第三实施例的流程示意图,基于上述图2所示的第一实施例,提出本发明电网冗余数据剔除方法的第三实施例。
在第三实施例中,所述步骤S30,包括:
步骤S301:将预设数量的电网工作数据特征向量作为初始聚类中心。
在具体实施中,将通过特征提取模块得到的电网工作数据特征向量通过预设聚类算法进行迭代,得到聚类中心,随机抽取电网工作数据特征向量中K个电网工作数据特征向量作为初始聚类中心。
步骤S302:计算剩余数量的电网工作数据特征向量与所述初始聚类中心的相似度,根据所述相似度得到预设数量的聚类簇。
需要说明的是,随机抽取电网工作数据特征向量样本库中的K个电网工作数据特征向量作为初始聚类中心,其中K为大于1的整数;计算所述电网工作数据特征向量样本库中剩下的所述电网工作数据特征向量训练样本库每个电网工作数据特征向量与所述初始聚类中心的距离;根据所述每个电网工作数据特征向量与所述初始聚类中心的距离,将所述电网工作数据特征向量划分为K个簇;计算所述K个簇的所有特征向量的均值,并将所述均值作为并将此均值作为新的聚类中心;返回执行随机抽取所述电网工作数据特征向量中的K个电网工作数据特征向量作为初始聚类中心步骤,直至所述新的聚类中心的位置不再发生变化,迭代停止,得到目标聚类中心。
步骤S303:计算所述聚类簇特征向量的平均值,得到新的聚类中心。
需要说明的是,计算剩下的所述电网工作数据特征向量库特征向量与所述初始聚类中心的距离,如马氏距离,欧氏距离等,本方法对此不作限制。
步骤S304:通过迭代计算所述聚类簇和所述聚类中心,直到满足迭代停止条件,得到目标聚类中心。
需要说明的是,将所述电网工作数据特征向量分到距离聚类中心最近的聚类中心所对应的类中,当所有电网工作数据特征向量样本库的电网工作数据特征向量都划分以后,形成K个簇。
步骤S305:根据所述目标聚类中心确定所述电网工作数据特征向量词频矩阵。
在具体实施中,确定所述电网工作数据特征向量词频矩阵对应的主题类别;通过预设迭代算法对所电网工作数据特征向量词频矩阵进行概率分析,得到所述电网工作数据特征向量词频矩阵的主题类别对应的电网工作数据特征向量词频矩阵的主题类别概率;根据所述电网工作数据特征向量词频矩阵的主题类别概率确定所述电网工作数据特征向量词频矩阵对应的主体类别;根据所述电网工作数据特征向量词频矩阵的主题类别概率确定主体类别对应的视觉单词;根据所述电网工作数据特征向量、所述电网工作数据特征向量词频矩阵的主题类别概率以及所述预设电网工作数据特征向量词频矩阵对应的主体类别确定电网工作数据特征向量主题概率分布。
需要说明的是,其中,X00表示第一个电网工作数据特征向量到第一个聚类簇中的平均相似度,即特征向量与类内各元素的相似度之和,再除以类内各元素的个数,对应的Xmn为第m+1个电网工作数据特征向量到第n+1个聚类簇中的平均相似度,其中,M=m+1,N=n+1,在具体实施过程中,M和N为本领域技术人员设置,本实施对此不作限制,如果一次判断一个电网工作数据特征向量,则矩阵为1*N维矩阵,N为视觉词汇的大小,也就是k均值聚类个数。在一次投票计算中,各实体对各类的投票值如式:
在本实施例中,获取待处理电网数据,所述待处理电网数据包括电网的高压侧电流、低压侧电流、电网的短路损耗、短路电压百分数、空载损耗以及空载电流百分数数据中的至少一项;对所述待处理电网数据进行降维处理,得到电网工作数据特征向量;将预设数量的电网工作数据特征向量作为初始聚类中心;计算剩余数量的电网工作数据特征向量与所述初始聚类中心的相似度,根据所述相似度得到预设数量的聚类簇;计算所述聚类簇特征向量的平均值,得到新的聚类中心;通过迭代计算所述聚类簇和所述聚类中心,直到满足迭代停止条件,得到目标聚类中心;根据所述目标聚类中心确定所述电网工作数据特征向量词频矩阵。对所述词频矩阵进行主题分析,得到主题概率分布;通过所述主题概率分布剔除所述待处理电网数据中的冗余数据,从而可以通过对所述电网工作数据特征向量进行词频统计,得到所述电网工作数据特征向量的词频矩阵,有利于精确快速地完成对待处理电网数据中的冗余数据进行剔除,进而提高电网的信息化和智能化程度。
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有电网冗余数据剔除程序,所述电网冗余数据剔除程序被处理器执行时实现如上文所述的电网冗余数据剔除方法的步骤。
由于本存储介质可以采用上述所有实施例的技术方案,因此至少具有上述实施例的技术方案所带来的有益效果,在此不再一一赘述。
参照图5,图5为本发明电网冗余数据剔除装置第一实施例的功能模块示意图。
本发明电网冗余数据剔除装置第一实施例中,该电网冗余数据剔除装置包括:
获取模块10,用于获取待处理电网数据,所述待处理电网数据包括电网的高压侧电流、低压侧电流、电网的短路损耗、短路电压百分数、空载损耗以及空载电流百分数数据中的至少一项;
降维模块20,对所述待处理电网数据进行降维处理,得到电网工作数据特征向量;
分析模块30,用于对所述电网工作数据特征向量进行词频统计,得到所述电网工作数据特征向量的词频矩阵;
所述分析模块30,还用于对所述词频矩阵进行主题分析,得到主题概率分布;
剔除模块40,用于通过所述主题概率分布剔除所述待处理电网数据中的冗余数据。
在本实施例中,获取待处理电网数据,所述待处理电网数据包括电网的高压侧电流、低压侧电流、电网的短路损耗、短路电压百分数、空载损耗以及空载电流百分数数据中的至少一项;对所述待处理电网数据进行降维处理,得到电网工作数据特征向量;对所述电网工作数据特征向量进行词频统计,得到所述电网工作数据特征向量的词频矩阵;对所述词频矩阵进行主题分析,得到主题概率分布;通过所述主题概率分布剔除所述待处理电网数据中的冗余数据,从而可以通过待处理电网数据进行词频统计和主题分析,精确快速地完成对待处理电网数据中的冗余数据进行剔除,避免出现电网中大量冗余数据,有利于提高电网的信息化发展。
在一实施例中,所述降维模块20,还用于对所述待处理电网数据进行降维处理,得到电网工作数据特征向量,包括:
采用设定的降维方式对所述待处理电网数据进行压缩处理,得到电网工作数据粗粒度压缩点;
对所述电网工作数据粗粒度压缩点进行分解,得到所述电网工作数据粗粒度压缩点对应的多个电网工作数据细粒度压缩点;
根据所述多个电网工作数据细粒度压缩点,建立电网工作数据特征向量。
在一实施例中,所述降维模块20,还用于采用设定的降维方式对所述待处理电网数据进行压缩处理,得到电网工作数据粗粒度压缩点,包括:
对所述待处理电网数据,通过主成分分析和高相关滤波法进行降维,得到降维后的电网工作数据;
将所述降维后的电网工作数据,按照其数据维度划分为多个电网工作数据集合;
根据所述划分的电网工作数据集合对应的所述降维后的电网工作数据,计算每个划分的电网工作数据集合集的平均值;
根据所述电网工作数据集合集的平均值对降维后的电网工作数据进行压缩,转换成对应的粗粒度压缩点。
在一实施例中,所述分析模块30,还用于对所述电网工作数据特征向量进行词频统计,得到所述电网工作数据特征向量的词频矩阵,包括:
将预设数量的电网工作数据特征向量作为初始聚类中心;
计算剩余数量的电网工作数据特征向量与所述初始聚类中心的相似度,根据所述相似度得到预设数量的聚类簇;
计算所述聚类簇特征向量的平均值,得到新的聚类中心;
通过迭代计算所述聚类簇和所述聚类中心,直到满足迭代停止条件,得到目标聚类中心;
根据所述目标聚类中心确定所述电网工作数据特征向量词频矩阵。
在一实施例中,所述分析模块30,还用于对所述词频矩阵进行主题分析,得到主题概率分布,包括:
确定所述电网工作数据特征向量词频矩阵对应的主题类别;
通过预设迭代算法对所电网工作数据特征向量词频矩阵进行概率分析,得到所述电网工作数据特征向量词频矩阵的主题类别对应的电网工作数据特征向量词频矩阵的主题类别概率;
根据所述电网工作数据特征向量词频矩阵的主题类别概率确定所述电网工作数据特征向量词频矩阵对应的主体类别;
根据所述电网工作数据特征向量词频矩阵的主题类别概率确定主体类别对应的视觉单词;
根据所述电网工作数据特征向量、所述电网工作数据特征向量词频矩阵的主题类别概率以及所述预设电网工作数据特征向量词频矩阵对应的主体类别确定电网工作数据特征向量主题概率分布。
在一实施例中,所述建模模块30,还用于对所述待处理电网数据,通过主成分分析和高相关滤波法进行降维,得到降维后的电网工作数据,包括:
对所述待处理电网数据的每一列数据进行循环判断,是否为常量列;
若不为常量列,对所有不为常量列的维度进行归一化处理;
对所述待处理电网数据各个维度样本之间进行相关系数求解,将相关系数组成第一相关系数矩阵;
将第一相关系数矩阵通过高相关滤波方法进行降维,得到降维后的第二相关系数矩阵;
将降维后的第二相关系数矩阵进行主成分分析降维,得到降维后的电网工作数据。
在一实施例中,所述剔除模块40,还用于通过所述主题概率分布剔除所述待处理电网数据中的冗余数据之后,还包括:
根据采集数据时间周期,采集电网的高压侧电流、低压侧电流、电网的短路损耗、短路电压百分数、空载损耗以及空载电流百分数数据;
重新对所述采集到的电网的高压侧电流、低压侧电流、电网的短路损耗、短路电压百分数、空载损耗以及空载电流百分数数据进行筛选并剔除,直至剔除所有的电网冗余数据。
本发明所述电网冗余数据剔除装置的其他实施例或具体实现方式可参照上述各方法实施例,因此至少具有上述实施例的技术方案所带来的所有有益效果,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。词语第一、第二、以及第三等的使用不表示任何顺序,可将这些词语解释为名称。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器镜像(Read Only Memory image,ROM)/随机存取存储器(Random AccessMemory,RAM)、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种电网冗余数据剔除方法,其特征在于,所述方法包括以下步骤:
获取待处理电网数据,所述待处理电网数据包括电网的高压侧电流、低压侧电流、电网的短路损耗、短路电压百分数、空载损耗以及空载电流百分数数据中的至少一项;
对所述待处理电网数据进行降维处理,得到电网工作数据特征向量;
对所述电网工作数据特征向量进行词频统计,得到所述电网工作数据特征向量的词频矩阵;
对所述词频矩阵进行主题分析,得到主题概率分布;
通过所述主题概率分布剔除所述待处理电网数据中的冗余数据。
2.如权利要求1所述的方法,其特征在于,所述对所述待处理电网数据进行降维处理,得到电网工作数据特征向量,包括:
采用设定的降维方式对所述待处理电网数据进行压缩处理,得到电网工作数据粗粒度压缩点;
对所述电网工作数据粗粒度压缩点进行分解,得到所述电网工作数据粗粒度压缩点对应的多个电网工作数据细粒度压缩点;
根据所述多个电网工作数据细粒度压缩点,建立电网工作数据特征向量。
3.如权利要求2所述的方法,其特征在于,所述采用设定的降维方式对所述待处理电网数据进行压缩处理,得到电网工作数据粗粒度压缩点,包括:
对所述待处理电网数据,通过主成分分析和高相关滤波法进行降维,得到降维后的电网工作数据;
将所述降维后的电网工作数据,按照其数据维度划分为多个电网工作数据集合;
根据所述划分的电网工作数据集合对应的所述降维后的电网工作数据,计算每个划分的电网工作数据集合集的平均值;
根据所述电网工作数据集合集的平均值对降维后的电网工作数据进行压缩,转换成对应的粗粒度压缩点。
4.如权利要求1所述的方法,其特征在于,所述对所述电网工作数据特征向量进行词频统计,得到所述电网工作数据特征向量的词频矩阵,包括:
将预设数量的电网工作数据特征向量作为初始聚类中心;
计算剩余数量的电网工作数据特征向量与所述初始聚类中心的相似度,根据所述相似度得到预设数量的聚类簇;
计算所述聚类簇特征向量的平均值,得到新的聚类中心;
通过迭代计算所述聚类簇和所述聚类中心,直到满足迭代停止条件,得到目标聚类中心;
根据所述目标聚类中心确定所述电网工作数据特征向量词频矩阵。
5.如权利要求1所述的方法,其特征在于,所述对所述词频矩阵进行主题分析,得到主题概率分布,包括:
确定所述电网工作数据特征向量词频矩阵对应的主题类别;
通过预设迭代算法对所电网工作数据特征向量词频矩阵进行概率分析,得到所述电网工作数据特征向量词频矩阵的主题类别对应的电网工作数据特征向量词频矩阵的主题类别概率;
根据所述电网工作数据特征向量词频矩阵的主题类别概率确定所述电网工作数据特征向量词频矩阵对应的主体类别;
根据所述电网工作数据特征向量词频矩阵的主题类别概率确定主体类别对应的视觉单词;
根据所述电网工作数据特征向量、所述电网工作数据特征向量词频矩阵的主题类别概率以及所述预设电网工作数据特征向量词频矩阵对应的主体类别确定电网工作数据特征向量主题概率分布。
6.如权利要求3所述的方法,其特征在于,所述对所述待处理电网数据,通过主成分分析和高相关滤波法进行降维,得到降维后的电网工作数据,包括:
对所述待处理电网数据的每一列数据进行循环判断,是否为常量列;
若不为常量列,对所有不为常量列的维度进行归一化处理;
对所述待处理电网数据各个维度样本之间进行相关系数求解,将相关系数组成第一相关系数矩阵;
将第一相关系数矩阵通过高相关滤波方法进行降维,得到降维后的第二相关系数矩阵;
将降维后的第二相关系数矩阵进行主成分分析降维,得到降维后的电网工作数据。
7.如权利要求1至6中任一项所述方法,其特征在于,所述通过所述主题概率分布剔除所述待处理电网数据中的冗余数据之后,还包括:
根据采集数据时间周期,采集电网的高压侧电流、低压侧电流、电网的短路损耗、短路电压百分数、空载损耗以及空载电流百分数数据;
重新对所述采集到的电网的高压侧电流、低压侧电流、电网的短路损耗、短路电压百分数、空载损耗以及空载电流百分数数据进行筛选并剔除,直至剔除所有的电网冗余数据。
8.一种电网冗余数据剔除装置,其特征在于,所述电网冗余数据剔除装置包括:
获取模块,用于获取待处理电网数据,所述待处理电网数据包括电网的高压侧电流、低压侧电流、电网的短路损耗、短路电压百分数、空载损耗以及空载电流百分数数据中的至少一项;
降维模块,对所述待处理电网数据进行降维处理,得到电网工作数据特征向量;
分析模块,用于对所述电网工作数据特征向量进行词频统计,得到所述电网工作数据特征向量的词频矩阵;
所述分析模块,还用于对所述词频矩阵进行主题分析,得到主题概率分布;
剔除模块,用于通过所述主题概率分布剔除所述待处理电网数据中的冗余数据。
9.一种电网冗余数据剔除设备,其特征在于,所述电网冗余数据剔除设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的电网冗余数据剔除程序,所述电网冗余数据剔除程序被所述处理器执行时实现如权利要求1至7中任一项所述的电网冗余数据剔除方法。
10.一种存储介质,其特征在于,所述存储介质上存储有电网冗余数据剔除程序,所述电网冗余数据剔除程序被处理器执行时实现如权利要求1至7中任一项所述的电网冗余数据剔除方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211529993.2A CN115730592A (zh) | 2022-11-30 | 2022-11-30 | 电网冗余数据剔除方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211529993.2A CN115730592A (zh) | 2022-11-30 | 2022-11-30 | 电网冗余数据剔除方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115730592A true CN115730592A (zh) | 2023-03-03 |
Family
ID=85299726
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211529993.2A Pending CN115730592A (zh) | 2022-11-30 | 2022-11-30 | 电网冗余数据剔除方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115730592A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108052520A (zh) * | 2017-11-01 | 2018-05-18 | 平安科技(深圳)有限公司 | 基于主题模型的关联词分析方法、电子装置及存储介质 |
CN109800891A (zh) * | 2018-12-18 | 2019-05-24 | 北京理工大学 | 一种机器学习冗余数据删除方法及系统 |
CN110866551A (zh) * | 2019-11-06 | 2020-03-06 | 中法渤海地质服务有限公司 | 一种基于高相关滤波算法和pca算法的钻井数据降维方法 |
CN111476100A (zh) * | 2020-03-09 | 2020-07-31 | 咪咕文化科技有限公司 | 基于主成分分析的数据处理方法、装置及存储介质 |
CN112001451A (zh) * | 2020-08-27 | 2020-11-27 | 上海擎感智能科技有限公司 | 数据冗余处理方法、系统、介质及装置 |
CN113223668A (zh) * | 2021-04-15 | 2021-08-06 | 中南民族大学 | 胶囊内镜图像冗余数据筛查方法 |
CN113868304A (zh) * | 2020-06-30 | 2021-12-31 | 中国电力科学研究院有限公司 | 一种配电网冗余数据的确定方法及系统 |
CN115204319A (zh) * | 2022-09-15 | 2022-10-18 | 广东电网有限责任公司中山供电局 | 一种低压配电网拓扑参数识别方法及系统 |
-
2022
- 2022-11-30 CN CN202211529993.2A patent/CN115730592A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108052520A (zh) * | 2017-11-01 | 2018-05-18 | 平安科技(深圳)有限公司 | 基于主题模型的关联词分析方法、电子装置及存储介质 |
CN109800891A (zh) * | 2018-12-18 | 2019-05-24 | 北京理工大学 | 一种机器学习冗余数据删除方法及系统 |
CN110866551A (zh) * | 2019-11-06 | 2020-03-06 | 中法渤海地质服务有限公司 | 一种基于高相关滤波算法和pca算法的钻井数据降维方法 |
CN111476100A (zh) * | 2020-03-09 | 2020-07-31 | 咪咕文化科技有限公司 | 基于主成分分析的数据处理方法、装置及存储介质 |
CN113868304A (zh) * | 2020-06-30 | 2021-12-31 | 中国电力科学研究院有限公司 | 一种配电网冗余数据的确定方法及系统 |
CN112001451A (zh) * | 2020-08-27 | 2020-11-27 | 上海擎感智能科技有限公司 | 数据冗余处理方法、系统、介质及装置 |
CN113223668A (zh) * | 2021-04-15 | 2021-08-06 | 中南民族大学 | 胶囊内镜图像冗余数据筛查方法 |
CN115204319A (zh) * | 2022-09-15 | 2022-10-18 | 广东电网有限责任公司中山供电局 | 一种低压配电网拓扑参数识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109344921B (zh) | 一种基于深度神经网络模型的图像识别方法、装置及设备 | |
CN109284372B (zh) | 用户操作行为分析方法、电子装置及计算机可读存储介质 | |
Hennig et al. | Package ‘fpc’ | |
CN109934301B (zh) | 一种电力负荷聚类分析方法、装置和设备 | |
CN108629375B (zh) | 电力客户分类方法、系统、终端及计算机可读存储介质 | |
CN110503566B (zh) | 风控模型建立方法、装置、计算机设备及存储介质 | |
CN111932146B (zh) | 污染成因的分析方法、装置、计算机设备和可读存储介质 | |
CN115641162A (zh) | 一种基于建筑工程造价的预测数据分析系统和方法 | |
CN115688760A (zh) | 一种智能化导诊方法、装置、设备及存储介质 | |
CN111626346A (zh) | 数据分类方法、设备、存储介质及装置 | |
CN115238815A (zh) | 异常交易数据获取方法、装置、设备、介质和程序产品 | |
CN115879017A (zh) | 一种电力敏感数据自动化分类分级方法、装置及存储介质 | |
CN116628584A (zh) | 电力敏感数据处理方法、装置、电子设备及存储介质 | |
CN117421491A (zh) | 社交媒体账号运行数据的量化方法、装置及电子设备 | |
CN113159211B (zh) | 用于相似图像检索的方法、计算设备和计算机存储介质 | |
JP4143234B2 (ja) | 文書分類装置、文書分類方法及び記憶媒体 | |
CN117150138B (zh) | 一种基于高维空间映射的科技资源组织方法及系统 | |
CN115146890A (zh) | 企业运营风险告警方法、装置、计算机设备和存储介质 | |
CN113821717A (zh) | 信息处理方法、信息处理装置、存储介质与电子设备 | |
CN115730592A (zh) | 电网冗余数据剔除方法、装置、设备及存储介质 | |
CN114817518B (zh) | 基于大数据档案识别的证照办理方法、系统及介质 | |
CN114443843A (zh) | 工业安全事件类型识别方法、装置、设备和存储介质 | |
CN113011503A (zh) | 一种电子设备的数据取证方法、存储介质及终端 | |
CN107844478B (zh) | 一种专利文件的处理方法及装置 | |
CN117272123B (zh) | 一种基于大模型的敏感数据处理方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20230303 |