CN116662412A - 一种电网配用电大数据的数据挖掘方法 - Google Patents
一种电网配用电大数据的数据挖掘方法 Download PDFInfo
- Publication number
- CN116662412A CN116662412A CN202310906278.4A CN202310906278A CN116662412A CN 116662412 A CN116662412 A CN 116662412A CN 202310906278 A CN202310906278 A CN 202310906278A CN 116662412 A CN116662412 A CN 116662412A
- Authority
- CN
- China
- Prior art keywords
- data
- event
- path
- decision
- query
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000007418 data mining Methods 0.000 title claims abstract description 64
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000005065 mining Methods 0.000 claims abstract description 34
- 238000012216 screening Methods 0.000 claims abstract description 10
- 239000011159 matrix material Substances 0.000 claims description 53
- 238000004364 calculation method Methods 0.000 claims description 21
- 239000012634 fragment Substances 0.000 claims description 10
- 238000000354 decomposition reaction Methods 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 8
- 230000005611 electricity Effects 0.000 claims description 5
- 238000012217 deletion Methods 0.000 claims description 4
- 238000004904 shortening Methods 0.000 abstract description 5
- 238000007405 data analysis Methods 0.000 abstract description 2
- 238000012545 processing Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 239000004973 liquid crystal related substance Substances 0.000 description 4
- 238000004891 communication Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
- G06N5/025—Extracting rules from data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Fuzzy Systems (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- Evolutionary Computation (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及能源数据分析技术领域,解决了针对配用电大数据进行数据挖掘过程中,所存在数据挖掘速率以及性能较低,同时易产生大量的结构连接数目的技术问题,尤其涉及一种电网配用电大数据的数据挖掘方法,该方法包括以下步骤:S1、基于电网大数据获取当地电网的配用电数据;S2、对配用电数据进行筛选并剔除其中与决策属性关联性小的数据集合得到决策数据集。本发明解决数据挖掘在决策数据集R中数据量较大情况下的挖掘速率以及性能下降的问题,并快速生成相对应的挖掘目标,从而不仅减少了单个处理器需要处理的数据量,而且多个处理器同时运算,大大缩短了数据挖掘的耗时。
Description
技术领域
本发明涉及能源数据分析技术领域,尤其涉及一种电网配用电大数据的数据挖掘方法。
背景技术
大数据挖掘已经提出了许多基础的、通用的分析方法,包括分类、聚类、孤立点、预测、演变、关联、回归、决策树、神经网络、支持向量机、主成分分析、假设检验等。但是,对于配用电大数据态势感知和知识发现而言,现有的基础、通用的大数据挖掘分析方法并不完全适用。
随着电网规模扩大、量测手段和信息通信技术的不断完善,电网的基础运行数据逐渐呈现出数据量大、处理逻辑复杂、存储周期长等大数据特征,因此在配用电大数据的数据挖掘中,由于数据的类型以及体量较大,导致数据挖掘速率以及性能较低,同时单个处理器的数据处理负载较大,在数据挖掘搜索的过程中易产生大量的结构连接数目,这也为数据挖掘的可靠性带来严峻挑战。
发明内容
针对现有技术的不足,本发明提供了一种电网配用电大数据的数据挖掘方法,解决了针对配用电大数据进行数据挖掘过程中,所存在数据挖掘速率以及性能较低,同时易产生大量的结构连接数目的技术问题。
为解决上述技术问题,本发明提供了如下技术方案:一种电网配用电大数据的数据挖掘方法,该方法包括以下步骤:
S1、基于电网大数据获取当地电网的配用电数据;
S2、对配用电数据进行筛选并剔除其中与决策属性关联性小的数据集合得到决策数据集;
S3、确定与决策数据集相关联的数据挖掘规则,并根据数据挖掘规则生成矩阵挖掘规则;
S4、将决策数据集进行路径分解生成若干个查询路径;
S5、计算若干个查询路径中的任意多个数据片段的威望度;
S6、根据威望度判断查询路径是否为最优的查询路径;
若是,则进入步骤S7;
若否,则返回步骤S4;
S7、采用最优的查询路径根据矩阵挖掘规则在决策数据集中进行数据挖掘。
进一步地,在步骤S2中,具体过程包括以下步骤:
S21、将配用电数据随机划分为若干个数据集合,/>,其中P为配用电数据,/>为随机划分的第i个数据集合;
S22、设任意数据集合中所对应的事件A、事件B为配用电数据P上的两个等价关系族,事件D为决策属性,并根据等价关系族确定事件A和事件B在配用电数据P上的概率分布;
S23、根据概率分布计算事件A的信息熵H(A);
S24、根据信息熵H(A)计算相对于事件B的条件熵H(A|B);
S25、判断决策属性事件D与事件A的关联性大小;
若事件D与事件A的关联性大,则保留事件D所对应的数据集合;
若事件D与事件A的关联性小,则剔除事件D所对应的数据集合;
S26、将剔除的数据集合合并构成决策数据集R。
进一步地,在步骤S23中,信息熵H(A)的计算公式为:
上式中,n、m均表示事件的数量,为事件A在配用电数据上的概率分布。
进一步地,在步骤S24中,条件熵H(A|B)的计算公式为:
上式中,n、m均表示事件的数量,为事件A在配用电数据P上的概率分布,为事件B在配用电数据P上的概率分布。
进一步地,在步骤S25中,通过计算决策属性事件D与事件A的关联度作为关联性大小的判断依据,具体过程包括以下步骤:
S251、计算决策属性事件D的信息熵H(D);
S252、根据信息熵H(D)计算决策属性事件D相对事件A的条件熵H(D|A);
S253、根据信息熵H(D)和条件熵H(D|A)计算决策属性事件D与事件A之间的关联度。
进一步地,在步骤S3中,具体过程包括以下步骤:
S31、定义与配用电数据相对应的项集为/>,事件矩阵为/>,其中,
上标T表示转置矩阵的符号;
S32、根据步骤S31计算与数据集合相对应项集/>的支持度/>;
S33、设处理器的数量为i个,将决策数据集R以数据长度L分割为i-1个数据块,且处理器/>根据数据块产生局部事件矩阵/>;
S34、处理器计算与局部事件矩阵/>对应的支持度/>;
S35、处理器删除支持度/>小于1的所对应的数据块,则完成矩阵挖掘规则的生成。
进一步地,在步骤S32中,支持度的计算公式为:
上式中通过统计求和计算得出与数据集合相对应项集/>的支持度/>。
进一步地,在步骤S4中,具体过程包括以下步骤:
S41、采用树的查找算法在决策数据集中给定一颗查询树,并从查询树R中的路径集合/>中筛选出简单路径,n为查询树R中路径的数量;
S42、判断路径集合中的路径/>是否为简单路径;
若,路径/>是路径/>的父亲节点,且路径集合/>中相邻两个节点之间的边/>不表示祖先-后代关系,且存在路径/>是查询树R中的分支节点或谓词节点,则路径/>为简单路径;
S43、根据简单路径在决策数据集进行路径分解生成若干个查询路径;
若路径集合中的路径/>为简单路径,且查询树R中的每一个节点至少包含在一条路径/>中,则路径/>为决策数据集中的一个路径分解,即为一个查询路径。
进一步地,在步骤S5中,数据片段的威望度的计算公式为:
上式中,表示片段数据i的入度,入度指在查询路径中所有经过片段数据i的边的和,I表示片段数据的总数量。
进一步地,在步骤S6中,具体为:
对查询路径中若干数据片段所对应的威望度求和并求解均值,若均值威望度大于等于阈值1,则该查询路径为最优的查询路径,若小于阈值1,则返回步骤S4。
借由上述技术方案,本发明提供了一种电网配用电大数据的数据挖掘方法,至少具备以下有益效果:
1、本发明解决数据挖掘在决策数据集R中数据量较大情况下的挖掘速率以及性能下降的问题,并快速生成相对应的挖掘目标,从而不仅减少了单个处理器需要处理的数据量,而且多个处理器同时运算,大大缩短了数据挖掘的耗时。
2、本发明解决了数据挖掘在决策数据集R中数据量较大情况下的挖掘速率以及性能下降的问题,利用矩阵挖掘规则快速生成相对应的挖掘目标,以矩阵挖掘规则的并行方式,不仅减少了单个处理器需要处理的数据量,而且多个处理器同时运算,大大缩短了数据挖掘的耗时。
3、本发明将决策数据集进行路径分解生成若干个查询路径,通过筛选出若干路径中的简单路径,并以简单路径为基础要求实现路径分解,即得到若干个查询路径,能够以目标节点为导向的路径查询处理框架,该方法充分利用基本操作的支持,增大了基本查询片段的粒度,从而减少了结构连接的数目,并且能够缩短在数据挖掘过程中的查询路径,提高了数据挖掘效率。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本发明能源数据挖掘方法的流程图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。借此对本申请如何应用技术手段来解决技术问题并达成技术功效的实现过程能充分理解并据以实施。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
传统电力系统分析是基于模型的分析方法,其结果依赖于网络拓扑和模型参数的准确性。现行的无功电压运行准则和规定提出的电压和功率因数评估指标,难以分析无功补偿设备的配置是否合理,也难以帮助用户准确掌握电网的长期运行状态。随着电网规模扩大、量测手段和信息通信技术的不断完善,电网的基础运行数据逐渐呈现出数据量大、处理逻辑复杂、存储周期长等大数据特征。因此,有必要建立一些精细化的评价指标,从大量数据中挖掘电网实际运行过程中薄弱环节,并对新能源汇集站和新能源场站的无功配置提出合理建议,以提高电网运行的安全性和稳定性,降低网损,提高运行经济性。
基于上述数据挖掘在电网运行中的实际应用,本实施例提出了一种具体实施方式,以最优的查询路径和矩阵挖掘规则相结合,最优的查询路径能够给定一个查询路径最短的搜索路径,同时以目标节点为导向的路径查询处理框架,并减少结构连接的数目,而矩阵挖掘规则能够将关联算法和矩阵结合在一起,并提高矩阵运用到关联规则的可行性,解决数据挖掘在决策数据集R中数据量较大情况下的挖掘速率以及性能下降的问题。
请参照图1,本实施例提出了一种电网配用电大数据的数据挖掘方法,该方法包括以下步骤:
S1、基于电网大数据获取当地电网的配用电数据,配用电数据指当地电网在任意一个周期内的配电数据以及用户端的用电数据等,这些数据均能够直接从电力中心的电网大数据中获取,并以配用电数据为数据基础从中进行数据挖掘。
S2、对配用电数据进行筛选并剔除其中与决策属性关联性小的数据集合得到决策数据集;在本实施例中,为了对步骤S2的实现方式进行说明,具体过程是通过以下步骤实现的,详细的实施方法如下:
S21、将配用电数据随机划分为若干个数据集合,/>,其中P为配用电数据,/>为随机划分的第i个数据集合;
S22、设任意数据集合中所对应的事件A、事件B为配用电数据P上的两个等价关系族,事件D为决策属性,并根据等价关系族确定事件A和事件B在配用电数据P上的概率分布,等价关系族即为数据挖掘的事件,也是通过数据挖掘所得到的最终结果,描述为某个事件;两个等价关系族的表达式为:
则,事件A和事件B在配用电数据P上的概率分布为:
其中,表示数据集合/>中的第n个事件的等价关系,/>表示数据集合/>中的第m个事件的等价关系,则概率分布为:
上式中,为数据集合的基数。
S23、根据概率分布计算事件A的信息熵H(A);具体的,信息熵H(A)的计算公式为:
上式中,n、m均表示事件的数量,为事件A在配用电数据上的概率分布。
S24、根据信息熵H(A)计算相对于事件B的条件熵H(A|B);具体的,条件熵H(A|B)的计算公式为:
上式中,n、m均表示事件的数量,为事件A在配用电数据P上的概率分布,为事件B在配用电数据P上的概率分布。
通过上述内容可知,信息熵H(A)度量了事件A发生的不确定性,而条件熵H(A|B)则描述了在事件A发生的情况下,事件B发生的不确定性。
S25、判断决策属性事件D与事件A的关联性大小,具体为通过计算决策属性事件D与事件A的关联度作为关联性大小的判断依据;
若事件D与事件A的关联性大,则保留事件D所对应的数据集合;
若事件D与事件A的关联性小,则剔除事件D所对应的数据集合;
S26、将剔除的数据集合合并构成决策数据集R。
在本实施例中,为了对步骤S25的实现方式进行说明,具体过程是通过以下步骤实现的,详细的实施方法如下:
S251、计算决策属性事件D的信息熵H(D);
在该步骤中,对于事件D的信息熵H(D)的计算可参照信息熵H(A)的计算过程,两者采用同一个公式,因此,根据等价关系族的表达式为:
则,事件D在配电数据P上的概率分布为:
其中,表示与事件D相对应的数据集合/>中的第k个事件的等价关系,则概率分布为:
则,信息熵H(D)的计算公式为:
S252、根据信息熵H(D)计算决策属性事件D相对事件A的条件熵H(D|A);
同样的,与事件D相对应事件A的条件熵H(D|A)与步骤S24的计算原理相同,为:
上式中,t、n均表示事件的数量,为事件D在配用电数据P上的概率分布,/>表示与事件D相对应的数据集合/>中的第k个事件的等价关系,/>与事件A相对应的数据集合/>中的第i个事件的等价关系。
S253、根据信息熵H(D)和条件熵H(D|A)计算决策属性事件D与事件A之间的关联度。
具体的,关联度的计算公式为:
具体的,关联度的值越大,则表明事件D与事件A的关联性大,在本实施例中以数值0.6为界限,大于0.6则认为两个事件的关联性大,反之则关联性小。
在本实施例中,通过关联度作为判断各个事件之间的关联性大小的依据,以三个事件A、B、D来对应不同的数据集合/>,以事件A的信息熵H(A)和相对于事件B的条件熵H(A|B),能够得出事件A和事件B发生的确定性,同时以事件D作为决策属性来判断与事件A或B之间的关联性大小,并根据关联性的大小来决定事件D的保留或剔除,以此达到对配用电数据P中与数据挖掘不相关的事件进行筛选,由此缩小数据量,提高找到具有关联性大的事件的速率以及相关度。
对于关联度来说,记录每个数据集合/>中的每个事件对决策属性的关联度,将若干事件按照对决策属性的关联性大小进行排序,每次保留关联性排前60%的事件,这种事件筛选方法缩小了随机搜索范围,可以加快数据挖掘的收敛速度。
S3、确定与决策数据集相关联的数据挖掘规则,并根据数据挖掘规则生成矩阵挖掘规则;在本实施例中,为了对步骤S3的实现方式进行说明,具体过程是通过以下步骤实现的,详细的实施方法如下:
S31、定义与配用电数据相对应的项集为/>,事件矩阵为/>,其中,
上标T表示转置矩阵的符号,在配用电数据中,每一个数据集合/>可对等的定义为一个项集/>,在数据挖掘中,项集指由一个或多个项组成的集合,比如说在数据集合/>中,项指的是配用电数据的类型名称,如工业配用电、居民配用电、公共设施配用电等,项集就是形成这些配用电类型的集合。
而事件矩阵则是根据传统的PM算法在数据挖掘中的应用所定义的,因此对于支持度/>的计算仅仅是针对与数据集合/>相对应项集/>,具体的,与事件矩阵/>相对应的则是数据块,数据块为将决策数据集R以数据长度L分割为i-1个数据块,分割得到的数据块的数据行数相同,每一行数据代表一个项集,因此,将与数据块相对应的事件矩阵/>与其自身的转置矩阵相乘产生局部事件矩阵/>。
S32、根据步骤S31计算与数据集合相对应项集/>的支持度/>;
具体的,支持度的计算公式为:
上式中通过统计求和计算得出与数据集合相对应项集/>的支持度/>。
S33、设处理器的数量为i个,将决策数据集R以数据长度L分割为i-1个数据块,且处理器/>根据数据块产生局部事件矩阵/>,具体的,分割得到的数据块的数据行数相同,每一行数据代表一个项集,因此,将与数据块相对应的事件矩阵/>与其自身的转置矩阵相乘产生局部事件矩阵/>;事件矩阵/>中的每个元素,即事件,只有0和1两种值,代表某一事件是否存在有项集I中的某一项,因此将事件矩阵/>与其自身的转置矩阵相乘即得到局部事件矩阵/>。
S34、处理器计算与局部事件矩阵/>对应的支持度/>;
具体的,支持度的计算过程参见步骤S32即可,在此处不再详细赘述。
S35、处理器删除支持度/>小于1的所对应的数据块,则完成矩阵挖掘规则的生成。
由于传统PM数据挖掘算法在进行关联规则挖掘时,事件所对应的数据库的增长将导致事件矩阵列数的增长,因此将事件矩阵分割成多个宽度相等的矩阵,即分割得到的n-1个数据块,每个分割矩阵宽度的目标是以保证矩阵的每个向量能够方便地放入计算节点的内存。
每个处理器将本地的局部事件矩阵转换为局部事件矩阵,然后通过计算每个数据块的支持度作为删除依据,将支持度/>小于1的数据块进行删除形成矩阵挖掘规则。
在本实施例中,通过确定与决策数据集相关联的数据挖掘规则并生成矩阵挖掘规则,能够将关联算法和矩阵结合在一起,并提高矩阵运用到关联规则的可行性,通过将决策数据集R进行分割,每个处理器仅处理一部分的数据块,解决了数据挖掘在决策数据集R中数据量较大情况下的挖掘速率以及性能下降的问题,利用矩阵挖掘规则快速生成相对应的挖掘目标,以矩阵挖掘规则的并行方式,不仅减少了单个处理器需要处理的数据量,而且多个处理器同时运算,大大缩短了数据挖掘的耗时。
并且,利用矩阵计算直接生成局部事件矩阵,并通过以支持度为删除依据的矩阵挖掘规则,在很大程度上优化了整体的数据挖掘性能,能够直接定位局部事件矩阵中要搜索的列所对应的时间,从而减少了搜索过程中所耗费的时长,提高了数据挖掘的效率。
S4、将决策数据集进行路径分解生成若干个查询路径;在本实施例中,为了对步骤S4的实现方式进行说明,具体过程是通过以下步骤实现的,详细的实施方法如下:
S41、采用树的查找算法在决策数据集中给定一颗查询树,并从查询树R中的路径集合/>中筛选出简单路径,n为查询树R中路径的数量;
S42、判断路径集合中的路径/>是否为简单路径;
若,路径/>是路径/>的父亲节点,且路径集合/>中相邻两个节点之间的边/>不表示祖先-后代关系,且存在路径/>是查询树R中的分支节点或谓词节点,则路径/>为简单路径;
本实施例通过在路径集合中筛选出简单路径,同时筛选条件定义为:查询树R中的简单路径不包括祖先-后代结构关系,分支节点和值谓词节点只能出现在路径末端的路径,因此它的计算可以直接通过路径索引的查询来完成,如此缩短了查询路径,提高了查询速率。
S43、根据简单路径在决策数据集进行路径分解生成若干个查询路径;
若路径集合中的路径/>为简单路径,且查询树R中的每一个节点至少包含在一条路径/>中,则路径/>为决策数据集中的一个路径分解,即为一个查询路径。
现有技术中,对于数据挖掘过程中的匹配路径查询的基本方式是对数据进行导航式的遍历,导航式的遍历简单、直接,但执行效率不能得到保证,尤其是在大数据量的情况下,导航式遍历方法的低效性促使了类似于关系数据库中“一次一集合”的路径查询计算策略的出现,目前被广泛接受的分解连接查询执行策略的基本思路是,首先定位路径查询树中每个节点的候选元素节点集合,然后通过结构连接操作组合这些中间结果来生成最后的结果,然而采用这种策略会产生大量的结构连接操作,目前,这方面的工作主要集中在高效的结构连接算法上,因此只针对没有分支的路径查询,而且大量的结构连接操作是该方法不可避免的。
基于上述所存在的问题,针对产生大量的结构连接操作这一现象,本实施例提出了一种方法,将决策数据集进行路径分解生成若干个查询路径,通过筛选出若干路径中的简单路径,并以简单路径为基础要求实现路径分解,即得到若干个查询路径,能够以目标节点为导向的路径查询处理框架,该方法充分利用基本操作的支持,增大了基本查询片段的粒度,从而减少了结构连接的数目,并且能够缩短在数据挖掘过程中的查询路径,提高了数据挖掘效率。
S5、计算若干个查询路径中的任意多个数据片段的威望度;
在该步骤中,一个查询路径中对应若干个数据片段,也为查询片段,因此在数据片段中,一个数据片段的威望度是指这个数据片段入度与所有数据片段的入度和的比值,因此数据片段的威望度的计算公式为:
上式中,表示片段数据i的入度,入度指在查询路径中所有经过片段数据i的边的和,I表示片段数据的总数量。
因此,一个片段数据的威望度越高,则该片段数据代表的数据与数据挖掘中的关联次数就越多,而该片段数据与数据挖掘目标之间的关联度就越高。
S6、根据威望度判断查询路径是否为最优的查询路径;
若是,则进入步骤S7;
若否,则返回步骤S4。
在步骤S6中,对查询路径中若干数据片段所对应的威望度求和并求解均值,若均值威望度大于等于阈值1,则该查询路径为最优的查询路径,若小于阈值1,则返回步骤S4。
S7、采用最优的查询路径根据矩阵挖掘规则在决策数据集中进行数据挖掘;在该步骤中,以最优的查询路径和矩阵挖掘规则相结合,最优的查询路径能够给定一个查询路径最短的搜索路径,同时以目标节点为导向的路径查询处理框架,并减少结构连接的数目,而矩阵挖掘规则能够将关联算法和矩阵结合在一起,并提高矩阵运用到关联规则的可行性,解决数据挖掘在决策数据集R中数据量较大情况下的挖掘速率以及性能下降的问题,并快速生成相对应的挖掘目标,从而不仅减少了单个处理器需要处理的数据量,而且多个处理器同时运算,大大缩短了数据挖掘的耗时。
以上实施方式对本发明进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种电网配用电大数据的数据挖掘方法,其特征在于,该方法包括以下步骤:
S1、基于电网大数据获取当地电网的配用电数据;
S2、对配用电数据进行筛选并剔除其中与决策属性关联性小的数据集合得到决策数据集;
S3、确定与决策数据集相关联的数据挖掘规则,并根据数据挖掘规则生成矩阵挖掘规则;
S4、将决策数据集进行路径分解生成若干个查询路径;
S5、计算若干个查询路径中的任意多个数据片段的威望度;
S6、根据威望度判断查询路径是否为最优的查询路径;
若是,则进入步骤S7;
若否,则返回步骤S4;
S7、采用最优的查询路径根据矩阵挖掘规则在决策数据集中进行数据挖掘。
2.根据权利要求1所述的数据挖掘方法,其特征在于,在步骤S2中,具体过程包括以下步骤:
S21、将配用电数据随机划分为若干个数据集合,/>,其中P为配用电数据,/>为随机划分的第i个数据集合;
S22、设任意数据集合中所对应的事件A、事件B为配用电数据P上的两个等价关系族,事件D为决策属性,并根据等价关系族确定事件A和事件B在配用电数据P上的概率分布;
S23、根据概率分布计算事件A的信息熵H(A);
S24、根据信息熵H(A)计算相对于事件B的条件熵H(A|B);
S25、判断决策属性事件D与事件A的关联性大小;
若事件D与事件A的关联性大,则保留事件D所对应的数据集合;
若事件D与事件A的关联性小,则剔除事件D所对应的数据集合;
S26、将剔除的数据集合合并构成决策数据集R。
3.根据权利要求2所述的数据挖掘方法,其特征在于,在步骤S23中,信息熵H(A)的计算公式为:
上式中,n、m均表示事件的数量,/>为事件A在配用电数据上的概率分布。
4.根据权利要求2所述的数据挖掘方法,其特征在于,在步骤S24中,条件熵H(A|B)的计算公式为:
上式中,n、m均表示事件的数量,为事件A在配用电数据P上的概率分布,/>为事件B在配用电数据P上的概率分布。
5.根据权利要求2所述的数据挖掘方法,其特征在于,在步骤S25中,通过计算决策属性事件D与事件A的关联度作为关联性大小的判断依据,具体过程包括以下步骤:
S251、计算决策属性事件D的信息熵H(D);
S252、根据信息熵H(D)计算决策属性事件D相对事件A的条件熵H(D|A);
S253、根据信息熵H(D)和条件熵H(D|A)计算决策属性事件D与事件A之间的关联度。
6.根据权利要求1所述的数据挖掘方法,其特征在于,在步骤S3中,具体过程包括以下步骤:
S31、定义与配用电数据相对应的项集为/>,事件矩阵为/>,其中,
上标T表示转置矩阵的符号;
S32、根据步骤S31计算与数据集合相对应项集/>的支持度/>;
S33、设处理器的数量为i个,将决策数据集R以数据长度L分割为i-1个数据块,且处理器/>根据数据块产生局部事件矩阵/>;
S34、处理器计算与局部事件矩阵/>对应的支持度/>;
S35、处理器删除支持度/>小于1的所对应的数据块,则完成矩阵挖掘规则的生成。
7.根据权利要求6所述的数据挖掘方法,其特征在于,在步骤S32中,支持度的计算公式为:
上式中通过统计求和计算得出与数据集合/>相对应项集/>的支持度/>。
8.根据权利要求1所述的数据挖掘方法,其特征在于,在步骤S4中,具体过程包括以下步骤:
S41、采用树的查找算法在决策数据集中给定一颗查询树,并从查询树R中的路径集合/>中筛选出简单路径,n为查询树R中路径的数量;
S42、判断路径集合中的路径/>是否为简单路径;
若,路径/>是路径/>的父亲节点,且路径集合/>中相邻两个节点之间的边/>不表示祖先-后代关系,且存在路径/>是查询树R中的分支节点或谓词节点,则路径/>为简单路径;
S43、根据简单路径在决策数据集进行路径分解生成若干个查询路径;
若路径集合中的路径/>为简单路径,且查询树R中的每一个节点至少包含在一条路径/>中,则路径/>为决策数据集中的一个路径分解,即为一个查询路径。
9.根据权利要求1所述的数据挖掘方法,其特征在于,在步骤S5中,数据片段的威望度的计算公式为:
上式中,/>表示片段数据i的入度,入度指在查询路径中所有经过片段数据i的边的和,I表示片段数据的总数量。
10.根据权利要求1所述的数据挖掘方法,其特征在于,在步骤S6中,具体为:
对查询路径中若干数据片段所对应的威望度求和并求解均值,若均值威望度大于等于阈值1,则该查询路径为最优的查询路径,若小于阈值1,则返回步骤S4。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310906278.4A CN116662412B (zh) | 2023-07-24 | 2023-07-24 | 一种电网配用电大数据的数据挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310906278.4A CN116662412B (zh) | 2023-07-24 | 2023-07-24 | 一种电网配用电大数据的数据挖掘方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116662412A true CN116662412A (zh) | 2023-08-29 |
CN116662412B CN116662412B (zh) | 2023-10-03 |
Family
ID=87717305
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310906278.4A Active CN116662412B (zh) | 2023-07-24 | 2023-07-24 | 一种电网配用电大数据的数据挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116662412B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116930608A (zh) * | 2023-09-19 | 2023-10-24 | 杭州正华电子科技有限公司 | 一种能耗分摊与统计方法、系统及介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8073731B1 (en) * | 2003-12-30 | 2011-12-06 | ProcessProxy Corporation | Method and system for improving efficiency in an organization using process mining |
US20130346346A1 (en) * | 2012-06-21 | 2013-12-26 | Microsoft Corporation | Semi-supervised random decision forests for machine learning |
CN106250461A (zh) * | 2016-07-28 | 2016-12-21 | 北京北信源软件股份有限公司 | 一种基于Spark框架利用梯度提升决策树进行数据挖掘的算法 |
CN106294715A (zh) * | 2016-08-09 | 2017-01-04 | 中国地质大学(武汉) | 一种基于属性约简的关联规则挖掘方法及装置 |
CN109726246A (zh) * | 2018-12-13 | 2019-05-07 | 贵州电网有限责任公司 | 一种基于数据挖掘和可视化的电网事故关联原因回溯方法 |
CN111553389A (zh) * | 2020-04-08 | 2020-08-18 | 哈尔滨工程大学 | 一种用于理解深度学习模型决策机制的决策树生成方法 |
JP2020203075A (ja) * | 2019-05-12 | 2020-12-24 | オリジン ワイヤレス, インコーポレイテッドOrigin Wireless, Inc. | 無線追跡、スキャニング、及び監視のための方法、装置及びシステム |
US20210259557A1 (en) * | 2015-06-14 | 2021-08-26 | Facense Ltd. | Doorway system that utilizes wearable-based health state verifications |
CN113810233A (zh) * | 2021-09-17 | 2021-12-17 | 重庆邮电大学 | 一种在随机网络中基于算网协同的分布式计算卸载方法 |
CN114996278A (zh) * | 2022-06-27 | 2022-09-02 | 华中科技大学 | 一种基于强化学习的路网最短路径距离计算方法 |
-
2023
- 2023-07-24 CN CN202310906278.4A patent/CN116662412B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8073731B1 (en) * | 2003-12-30 | 2011-12-06 | ProcessProxy Corporation | Method and system for improving efficiency in an organization using process mining |
US20130346346A1 (en) * | 2012-06-21 | 2013-12-26 | Microsoft Corporation | Semi-supervised random decision forests for machine learning |
US20210259557A1 (en) * | 2015-06-14 | 2021-08-26 | Facense Ltd. | Doorway system that utilizes wearable-based health state verifications |
CN106250461A (zh) * | 2016-07-28 | 2016-12-21 | 北京北信源软件股份有限公司 | 一种基于Spark框架利用梯度提升决策树进行数据挖掘的算法 |
CN106294715A (zh) * | 2016-08-09 | 2017-01-04 | 中国地质大学(武汉) | 一种基于属性约简的关联规则挖掘方法及装置 |
CN109726246A (zh) * | 2018-12-13 | 2019-05-07 | 贵州电网有限责任公司 | 一种基于数据挖掘和可视化的电网事故关联原因回溯方法 |
JP2020203075A (ja) * | 2019-05-12 | 2020-12-24 | オリジン ワイヤレス, インコーポレイテッドOrigin Wireless, Inc. | 無線追跡、スキャニング、及び監視のための方法、装置及びシステム |
CN111553389A (zh) * | 2020-04-08 | 2020-08-18 | 哈尔滨工程大学 | 一种用于理解深度学习模型决策机制的决策树生成方法 |
CN113810233A (zh) * | 2021-09-17 | 2021-12-17 | 重庆邮电大学 | 一种在随机网络中基于算网协同的分布式计算卸载方法 |
CN114996278A (zh) * | 2022-06-27 | 2022-09-02 | 华中科技大学 | 一种基于强化学习的路网最短路径距离计算方法 |
Non-Patent Citations (2)
Title |
---|
XIN WANG等: "Vehicle accident severity rules mining using fuzzy granular decision tree", 《INTERNATIONAL CONFERENCE ON ROUGH SETS AND CURRENT TRENDS IN COMPUTING》, pages 280 - 287 * |
施明华: "模糊环境下的多属性决策方法及其应用研究", 《中国博士学位论文全文数据库 经济与管理科学辑》, pages 167 - 1 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116930608A (zh) * | 2023-09-19 | 2023-10-24 | 杭州正华电子科技有限公司 | 一种能耗分摊与统计方法、系统及介质 |
CN116930608B (zh) * | 2023-09-19 | 2023-12-26 | 杭州正华电子科技有限公司 | 一种能耗分摊与统计方法、系统及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116662412B (zh) | 2023-10-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yao et al. | A fast space-saving algorithm for maximal co-location pattern mining | |
CN105117488B (zh) | 一种基于混合层次聚类的分布式存储rdf数据平衡分割方法 | |
US20190005094A1 (en) | Method for approximate processing of complex join queries | |
CN110825769A (zh) | 一种数据指标异常的查询方法和系统 | |
CN116662412B (zh) | 一种电网配用电大数据的数据挖掘方法 | |
CN104200272A (zh) | 一种基于改进遗传算法的复杂网络社区挖掘方法 | |
CN111639191A (zh) | 一种新型冠状病毒知识图谱模拟疫情发展趋势的预测方法 | |
Lin et al. | A frequent itemset mining algorithm based on the Principle of Inclusion–Exclusion and transaction mapping | |
CN104504018A (zh) | 基于浓密树和自顶向下的大数据实时查询优化方法 | |
CN112257950A (zh) | 应用于电力市场的交易路径配置方法及计算机可读存储介质 | |
CN107133321A (zh) | 页面的搜索特性的分析方法和分析装置 | |
Zhang et al. | Glasu: A communication-efficient algorithm for federated learning with vertically distributed graph data | |
Yang et al. | Balanced influence maximization in social networks based on deep reinforcement learning | |
CN116011564A (zh) | 一种面向电力设备的实体关系补全方法、系统及应用 | |
CN116225752A (zh) | 基于故障模式库的微服务系统故障根因分析方法及系统 | |
Wang et al. | AutoTS: Automatic time series forecasting model design based on two-stage pruning | |
CN115001978A (zh) | 一种基于强化学习模型的云租户虚拟网络智能映射方法 | |
Zhou et al. | Information diffusion on communication networks based on Big Data analysis | |
CN107248923A (zh) | 一种基于局部拓扑信息和社团相关性的链路预测方法 | |
Xu et al. | Efficiently answering k-hop reachability queries in large dynamic graphs for fraud feature extraction | |
Ma et al. | InfMatch: Finding isomorphism subgraph on a big target graph based on the importance of vertex | |
Wang et al. | Fast Cycle Structure Detection for Power Grids Based on Graph Computing | |
SZABARI et al. | Performance evaluation of betweenness centrality using clustering methods | |
Lu et al. | Matrix Profile XXX: MADRID: A Hyper-Anytime and Parameter-Free Algorithm to Find Time Series Anomalies of all Lengths | |
Xu et al. | What-if query processing policy for big data in OLAP system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |