CN112330164B - 基于消息总线的数据质量治理系统及方法 - Google Patents
基于消息总线的数据质量治理系统及方法 Download PDFInfo
- Publication number
- CN112330164B CN112330164B CN202011243157.9A CN202011243157A CN112330164B CN 112330164 B CN112330164 B CN 112330164B CN 202011243157 A CN202011243157 A CN 202011243157A CN 112330164 B CN112330164 B CN 112330164B
- Authority
- CN
- China
- Prior art keywords
- data
- power monitoring
- evaluation
- monitoring data
- wolf
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000003326 Quality management system Methods 0.000 title description 5
- 238000011156 evaluation Methods 0.000 claims abstract description 149
- 238000012544 monitoring process Methods 0.000 claims abstract description 137
- 230000002159 abnormal effect Effects 0.000 claims abstract description 23
- 238000012795 verification Methods 0.000 claims abstract description 23
- 238000013441 quality evaluation Methods 0.000 claims abstract description 22
- 238000001514 detection method Methods 0.000 claims abstract description 15
- 238000010845 search algorithm Methods 0.000 claims abstract description 13
- 238000003064 k means clustering Methods 0.000 claims abstract description 11
- 241000282461 Canis lupus Species 0.000 claims description 55
- 241001481710 Cerambycidae Species 0.000 claims description 14
- 239000013598 vector Substances 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000005457 optimization Methods 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 6
- 238000012423 maintenance Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 241000282421 Canidae Species 0.000 claims description 3
- 230000003247 decreasing effect Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 238000007726 management method Methods 0.000 claims description 2
- 238000003908 quality control method Methods 0.000 abstract description 8
- 241000254173 Coleoptera Species 0.000 description 2
- 241000160777 Hipparchia semele Species 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000002688 persistence Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013450 outlier detection Methods 0.000 description 1
- 238000004804 winding Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06395—Quality analysis or management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Data Mining & Analysis (AREA)
- Entrepreneurship & Innovation (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Game Theory and Decision Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Water Supply & Treatment (AREA)
- Biomedical Technology (AREA)
- Evolutionary Biology (AREA)
- Primary Health Care (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Public Health (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Supply And Distribution Of Alternating Current (AREA)
Abstract
本发明涉及一种基于消息总线的数据质量治理系统,本发明通过消息总线接收多个数据发送端的发送的电力监测数据并分类保存;确定电力监测数据质量评估指标,构建数据质量规则校验库;采用基于灰狼‑天牛须搜索算法优化的k‑means聚类法对电力监测数据进行聚类,将电力监测数据划分成多个数据子集;对每个数据子集,通过LOF异常值检测算法进行准确性评估,通过所述数据质量规则校验进行完整性、一致性、可用性、实时性评估;通过改进的层次分析法计算各评估指标的权重,计算电力监测数据质量综合评价结果。本发明实现了电力监测数据多维度质量评估,提高了电力监测数据质量治理的可靠性。
Description
技术领域
本发明涉及自动化信息系统技术邻域,具体涉及一种基于消息总线的数据质量治理系统及方法。
背景技术
随着自动化信息系统数最越来越多,电力系统规模和容量越来越大,信息量日趋庞大。随着监控终端的大力推广,监测对象特性差异,监测数据相关性运算进行预警作用逐步凸显。随着数据迅速增长,不同数据源的数据质量参差不齐,数据质量有不同的概念和标准,数据质量一般包括数据的准确性、完整性、及时性、一致性等定量描述。
对于大数据时代下的电力系统来说,其所需存储、处理的数据量大,数据来源和数据结构繁多复杂,为大数据的分析和应用带来很多挑战。特别是在终端据量不断增长,监测数据量不断上升的清况下,数据质量治理难度也在不断增加。同时,现有的设置校验规则、权重规则进行质量评价的模式还存在评价指标单一、不够准确的问题。
发明内容
本发明的目的在于提供一种基于消息总线的数据质量治理系统及方法,本发明能解决电力系统监测数据质量评估可信度差的问题。
为解决上述技术问题,本发明所设计的基于消息总线的数据质量治理系统,它包括数据接入模块、校验规则构建模块、聚类划分模块、质量评估模块和综合评价模块,其中,所述数据接入模块用于通过消息总线接收多个数据发送端的发送的电力监测数据;
校验规则构建模块用于根据预设的评估指标构建数据质量规则校验库;
聚类划分模块用于采用基于灰狼-天牛须搜索算法优化的 k-means聚类法对电力监测数据进行聚类,从而将电力监测数据划分成多个数据子集;
质量评估模块用于对各个数据子集,分别通过LOF异常值检测算法进行准确性评估得到电力监测数据准确性评估得分,并且,对各个数据子集,分别利用数据质量规则校验库进行电力监测数据完整性评估、电力监测数据一致性评估、电力监测数据可用性评估和电力监测数据实时性评估,得到对应的电力监测数据完整性评估得分、电力监测数据一致性评估得分、电力监测数据可用性评估得分和电力监测数据实时性评估得分;
综合评价模块用于通过改进的层次分析法计算电力监测数据准确性评估指标、电力监测数据完整性评估指标、电力监测数据一致性评估指标、电力监测数据可用性评估指标和电力监测数据实时性评估指标的权重,并利用上述各项指标的权重和各项指标评估得分计算电力监测数据质量综合评价结果。
所述校验规则构建模块还用于确定电力监测数据质量评估指标,所述电力监测数据质量评估指标包括电力监测数据准确性评估指标、电力监测数据完整性评估指标、电力监测数据一致性评估指标、电力监测数据可用性评估指标和电力监测数据实时性评估指标,质量评估指标包括准确性、完整性、一致性、可用性、实时性,可人为指定或根据需求选择。
上述技术方案中,所述采用基于灰狼-天牛须搜索算法优化的 k-means聚类法对电力监测数据进行聚类具体包括:
进行灰狼算法初始化,根据经验或需求设置设置群规模和聚类类别数,进行狼群初始化和聚类质心初始化;
所述灰狼算法的适应度函数为所有的类内距离(每一聚类类别内部数据与聚类中心点的距离)之和,其中 K为聚类类别数,d(Xi,Cj)为第j个聚类类别中每个灰狼对象Xi到其聚类中心点Cj的距离,Cj表示第j个聚类类别的聚类中心点;
其中,表示灰狼的位置向量,为第t+1次迭代时灰狼个体更新位置,与均为系数向量, 均为[0,1]中均匀分布的随机向量,a=a1(1-t/tmax),t为当前迭代次数,t=1,2,…,tmax,a1为常数,a1∈[0,2],tmax为最大迭代次数;的取值范围为-2a~2a,表示第t次迭代时灰狼α的位置,表示第t次迭代时灰狼β的位置,表示第t次迭代时灰狼δ的位置;
表示天牛须搜索的n维随机单位向量, 分别为左侧、右侧天牛须搜索区域的位置,相当于天牛位置;δt是搜索步长,用于调整收敛速度,是迭代次数t的递减函数;sign()表示符号函数,f 为适应度函数,d为两须之间的距离的一半;
上述技术方案中,所述通过LOF异常值检测算法进行准确性评估具体为:
对数据子集中的样本点进行归一化处理;
计算数据子集中样本点p的k邻域Nk(p)内的样本点o与样本点 p之间的k可达距离dk(p,o);
计算p点局部相对密度ρp和相对距离δp:
其中ρo为样本点o的局部相对密度,o:ρo>ρp表示对k邻域Nk(p) 内每一个样本点o,选择满足条件ρo>ρp的样本点;
计算样本点p的局部离群因子LOFk(p):
其中,I为数据子集中数据总数,数据子集中样本点p=1,2,…I,γp为经验参数,若LOFk(p)>1且δp>δτ,δp为相对距离,则p点为异常点;统计当前电力检测数据中的异常点总数,剔除异常点后,根据正常点总数占数据总量的比例计算准确性得分。
上述技术方案中,所述电力监测数据完整性评估包括字段数据格式和字段数据内容的字段完整性校验,根据满足数据完整性的数据比例计算完整性得分;
所述电力监测数据一致性评估包括同一属性数据格式一致性评估,根据满足数据一致性的数据比例计算一致性得分;
所述电力监测数据可用性评估包括字段、流程和事件数据的可用性或使用率评价,根据可用数据比例或数据使用频率计算可用性得分;
所述电力监测数据实时性评估包括数据更新、数据维护周期与相应标准周期的比较,根据数据更新频率或者数据维护周期与相应标准周期的比值计算实时性得分。
上述技术方案中,所述电力监测数据质量综合评价结果C的计算公式为:
其中,wi为各项指标权重,Si为各项指标评估得分,i表示第i 项指标,M为指标总数,公式中已写明i=1到M(前面计算的准确定得分、完整性得分、一致性得分、可用性得分、实时性得分)。
上述技术方案中,所述数据接入模块用于通过KAFKA消息总线接收多个数据发送端的发送的电力监测数据并分类保存,照接收到的数据信息的数据类型,将数据信息分发到不同的数据库,完成数据的分发存储。比如数据类型分为静态模数据和动态数据。KAFKA消息总线具有消息持久化的功能,接收到的消息可以根据配置设定有效时间,减少采集数据丢失。同时结合分布式存储技术,可解决数据接入时数据传输并发能力弱、大数据的存储和访问效率的问题。
一种基于消息总线的数据质量治理方法,它包括如下步骤:
步骤1:数据接入模块通过KAFKA消息总线接收多个数据发送端的发送的电力监测数据,并分类保存;
步骤2:校验规则构建模块根据预设的评估指标构建数据质量规则校验库;
步骤3:聚类划分模块采用基于灰狼-天牛须搜索算法优化的 k-means聚类法对电力监测数据进行聚类,从而将电力监测数据划分成多个数据子集;
步骤4:质量评估模块对各个数据子集,分别通过LOF异常值检测算法进行准确性评估得到电力监测数据准确性评估得分;利用数据质量规则校验库进行电力监测数据完整性评估、电力监测数据一致性评估、电力监测数据可用性评估和电力监测数据实时性评估,得到对应的电力监测数据完整性评估得分、电力监测数据一致性评估得分、电力监测数据可用性评估得分和电力监测数据实时性评估得分(除准确性评估外,其他评估指标可不用根据数据子集分别评估);
步骤5:综合评价模块用于通过改进的层次分析法计算电力监测数据准确性评估指标、电力监测数据完整性评估指标、电力监测数据一致性评估指标、电力监测数据可用性评估指标和电力监测数据实时性评估指标的权重,并利用上述各项指标的权重和各项指标评估得分计算电力监测数据质量综合评价结果。
本发明的有益效果为:
1)本发明将灰狼算法与天牛须搜索算法相结合用于聚类优化,以最快的速度确定最佳搜索方向,减少绕圈,完成电力监测大数据的快速、高效聚类,为电力大数据质量评估提供支撑。
2)基于LOF异常值检测算法和数据质量规则校验库实现了电力监测数据准确性、完整性、一致性、可用性、实时性等多维度评估,提高了电力监测数据质量治理的可靠性。
附图说明
图1为本发明的结构示意图;
图2为本发明的流程图。
其中,1—数据接入模块、2—校验规则构建模块、3—聚类划分模块、4—质量评估模块、5—综合评价模块。
具体实施方式
以下结合具体实施例对本发明作进一步的详细说明:
本发明所设计的一种基于消息总线的数据质量治理系统,如图1 所示,它包括数据接入模块1、校验规则构建模块2、聚类划分模块 3、质量评估模块4和综合评价模块5,其中,所述数据接入模块1 用于通过KAFKA消息总线接收多个数据发送端的发送的电力监测数据,并分类保存;
校验规则构建模块2用于根据预设的评估指标构建数据质量规则校验库,预设的评估指标包括准确性、完整性、一致性、可用性和实时性,根据各个指标建立对应的校验规则,比如完整性评估包括字段数据格式和字段数据内容的字段完整性校验,可根据正则表达式建立完整性校验规则,具体校验规则根据实际数据类型设定;
聚类划分模块3用于采用基于灰狼-天牛须搜索算法优化的k-means聚类法对电力监测数据进行聚类,从而将电力监测数据划分成多个数据子集(若聚类算法的聚类类别数为K,则划分成K个数据子集);
质量评估模块4用于对各个数据子集,分别通过LOF异常值检测算法进行准确性评估得到电力监测数据准确性评估得分;利用数据质量规则校验库进行电力监测数据完整性评估、电力监测数据一致性评估、电力监测数据可用性评估和电力监测数据实时性评估,得到对应的电力监测数据完整性评估得分、电力监测数据一致性评估得分、电力监测数据可用性评估得分和电力监测数据实时性评估得分;
综合评价模块5用于通过改进的层次分析法计算电力监测数据准确性评估指标、电力监测数据完整性评估指标、电力监测数据一致性评估指标、电力监测数据可用性评估指标和电力监测数据实时性评估指标的权重,并利用上述各项指标的权重和各项指标评估得分计算电力监测数据质量综合评价结果。
本发明设计的一种基于消息总线的数据质量治理方法,如图2 所示,它包括如下步骤:
步骤1:数据接入模块1通过KAFKA消息总线接收多个数据发送端的发送的电力监测数据并分类保存;
具体的,可按照接收到的数据信息的的数据类型,将数据信息分发到不同的数据库,完成数据的分发存储。比如讲数据类型分为静态模数据和动态数据。线具有消息持久化的功能,接收到的消息可以根据配置设定有效时间,减少采集数据丢失。同时结合分布式存储技术,可解决数据接入时数据传输并发能力弱、大数据的存储和访问效率的问题。
步骤2:校验规则构建模块2确定电力监测数据质量评估指标,构建数据质量规则校验库;所述电力监测数据质量评估指标包括电力监测数据准确性评估指标、电力监测数据完整性评估指标、电力监测数据一致性评估指标、电力监测数据可用性评估指标和电力监测数据实时性评估指标。
步骤3:采用基于灰狼-天牛须搜索算法优化的k-means聚类法对电力监测数据进行聚类,将电力监测数据划分成多个数据子集,包括如下步骤:
所述采用基于灰狼-天牛须搜索算法优化的k-means聚类法对电力监测数据进行聚类具体包括:
进行灰狼算法初始化,根据经验或需求设置设置群规模和聚类类别数,进行狼群初始化和聚类质心初始化;
所述灰狼算法的适应度函数为所有的类内距离之和(每一聚类类别内部数据与聚类中心点的距离),其中K为聚类类别数,d(Xi,Cj)为第j个聚类类别中每个灰狼对象Xi到其聚类中心点Cj的距离,Cj表示第j个聚类类别的聚类中心点;
其中,表示灰狼的位置向量,为第t+1次迭代时灰狼个体更新位置,与均为系数向量, 均为[0,1]中均匀分布的随机向量,a=a1(1-t/tmax),t为当前迭代次数,t=1,2,…,tmax,a1为(0,2)之间的常数,tmax为最大迭代次数;的取值范围为-2a~2a,表示第t次迭代时灰狼α的位置,表示第t次迭代时灰狼β的位置,表示第t次迭代时灰狼δ的位置;
表示天牛须搜索的n维随机单位向量, 分别为左侧、右侧天牛须搜索区域的位置,相当于天牛位置;δt是搜索步长,用于调整收敛速度,是迭代次数t的递减函数;sign()表示符号函数,f 为适应度函数,d为两须之间的距离的一半;
本发明将灰狼算法与天牛须搜索算法相结合用于聚类优化,在进行位置更新时不直接移动到头狼确定的下一目标位置,而是以头狼确定的下一目标位置作为天牛位置,天牛用两根触角随机探索附近的区域,进一步确定最佳搜索方向,减少绕圈,以最快的速度找到最优位置,提高收敛速度。本发明将大量的电力检测数据进行初步聚类,划分成多个类簇,再基于每个类簇进行并行数据质量评估或治理,可提高数据处理速度,同时防止聚类划分质量不高可能会造成的数据异常点判断错误、影响数据准确性判断等问题。
步骤4:质量评估模块4对每个数据子集,通过LOF(Local Outlier Factor,局部异常因子)异常值检测算法进行准确性评估,通过所述数据质量规则校验进行完整性、一致性、可用性、实时性评估;
所述通过LOF异常值检测算法进行准确性评估具体为:
对数据子集中的样本点进行归一化处理;
计算数据子集中样本点p到k邻域Nk(p)内的样本点o之间的可达距离dk(p,o);
计算p点局部相对密度ρp和相对距离δp:
其中ρo为样本点o的局部相对密度,o:ρo>ρp表示对k邻域Nk(p) 内每一个样本点o,选择满足条件ρo>ρp的样本点;计算样本点p的局部离群因子LOFk(p):
其中,I为数据子集中数据总数,数据子集中样本点p=1,2,… I,γp为经验参数,若LOFk(p)>1且δp>δτ,δp为相对距离,则p点为异常点;统计当前电力检测数据中的异常点总数,剔除异常点后,根据正常点总数占数据总量的比例计算准确性得分。
本发明采用LOF算法结合CFSFDP的局部密度和相对距离的概念进行异常点检测,并进一步用于数据准确度评估。同时引入局部可达密度的概念可弥补CFSFDP对于局部密度变化较大的数据识别能力较弱的缺点。在基于灰狼-天牛须搜索算法优化的k-means聚类法对电力监测数据进行聚类划分的基础上,可以分别对每个数据子集中的数据独立进行异常点检测,减少因为聚类划分不够精确导致全局电力监测数据中的正常数据点在某个局部数据子集中被当做异常点的概率,提高数据准确性评估的可靠性。
所述电力监测数据完整性评估包括字段数据格式和字段数据内容的字段完整性校验,根据满足数据完整性的数据比例计算完整性得分;
所述电力监测数据一致性评估包括同一属性数据格式一致性评估,根据满足数据一致性的数据比例计算一致性得分;
所述电力监测数据可用性评估包括字段、流程和事件数据的可用性或使用率评价,根据可用数据比例或数据使用频率计算可用性得分;
所述电力监测数据实时性评估包括数据更新、数据维护周期与相应标准周期的比较,根据数据更新频率或者数据维护周期与相应标准周期的比值计算实时性得分。
步骤5:综合评价模块(5)通过改进的层次分析法计算各评估指标的权重,计算电力监测数据质量综合评价结果。
所述电力监测数据质量综合评价结果计算公式为:
其中,C为综合评价得分,wi为各项指标权重,Si为各项指标评估得分,i表示第i项指标,M为指标总数,公式中已写明i=1到M (前面计算的准确定得分、完整性得分、一致性得分、可用性得分、实时性得分)。
本说明书未作详细描述的内容属于本邻域专业技术人员公知的现有技术。
Claims (7)
1.一种基于消息总线的数据质量治理系统,其特征在于:它包括数据接入模块(1)、校验规则构建模块(2)、聚类划分模块(3)、质量评估模块(4)和综合评价模块(5),其中,所述数据接入模块(1)用于通过消息总线接收多个数据发送端的发送的电力监测数据;
校验规则构建模块(2)用于构建数据质量规则校验库;
聚类划分模块(3)用于采用基于灰狼-天牛须搜索算法优化的k-means聚类法对电力监测数据进行聚类,从而将电力监测数据划分成多个数据子集;
质量评估模块(4)用于对各个数据子集,分别通过LOF异常值检测算法进行准确性评估得到电力监测数据准确性评估指标,并且,对各个数据子集,分别利用数据质量规则校验库进行电力监测数据完整性评估、电力监测数据一致性评估、电力监测数据可用性评估和电力监测数据实时性评估,得到对应的电力监测数据完整性评估指标、电力监测数据一致性评估指标、电力监测数据可用性评估指标和电力监测数据实时性评估指标;
综合评价模块(5)用于通过改进的层次分析法计算电力监测数据准确性评估指标、电力监测数据完整性评估指标、电力监测数据一致性评估指标、电力监测数据可用性评估指标和电力监测数据实时性评估指标的权重,并利用上述各项指标的权重和各项指标评估得分计算电力监测数据质量综合评价结果;
所述采用基于灰狼-天牛须搜索算法优化的k-means聚类法对电力监测数据进行聚类具体包括:
进行灰狼算法初始化,根据经验或需求设置群规模和聚类类别数,进行狼群初始化和聚类质心初始化;
其中,表示灰狼的位置向量,为第t+1次迭代时灰狼个体更新位置,与均为系数向量, 均为[0,1]中均匀分布的随机向量,a=a1(1-t/tmax),t为当前迭代次数,t=1,2,…,tmax,a1为常数,a1∈[0,2],tmax为最大迭代次数;的取值范围为-2a~2a,表示第t次迭代时灰狼α的位置,表示第t次迭代时灰狼β的位置,表示第t次迭代时灰狼δ的位置;
表示天牛须搜索的n维随机单位向量, 分别为左侧、右侧天牛须搜索区域的位置,相当于天牛位置;δt是搜索步长,用于调整收敛速度,是迭代次数t的递减函数;sign()表示符号函数,f为适应度函数,d为两须之间的距离的一半;
2.根据权利要求1所述的基于消息总线的数据质量治理系统,其特征在于:所述校验规则构建模块(2)还用于确定电力监测数据质量评估指标,所述电力监测数据质量评估指标包括电力监测数据准确性评估指标、电力监测数据完整性评估指标、电力监测数据一致性评估指标、电力监测数据可用性评估指标和电力监测数据实时性评估指标。
3.根据权利要求1所述的基于消息总线的数据质量治理系统,其特征在于:所述通过LOF异常值检测算法进行准确性评估具体为:
对数据子集中的样本点进行归一化处理;
计算数据子集中样本点p的k邻域Nk(p)内的样本点o与样本点p之间的k可达距离dk(p,o);
计算p点局部相对密度ρp和相对距离δp:
其中ρo为样本点o的局部相对密度,o:ρo>ρp表示对k邻域Nk(p)内每一个样本点o,选择满足条件ρo>ρp的样本点;
计算样本点p的局部离群因子LOFk(p):
其中,I为数据子集中数据总数,数据子集中样本点p=1,2,…I,γp为经验参数,若LOFk(p)>1且δp>δτ,δp为相对距离,则p点为异常点;统计当前电力检测数据中的异常点总数,剔除异常点后,根据正常点总数占数据总量的比例计算准确性得分。
4.根据权利要求1所述的基于消息总线的数据质量治理系统,其特征在于:所述电力监测数据完整性评估包括字段数据格式和字段数据内容的字段完整性校验,根据满足数据完整性的数据比例计算完整性得分;
所述电力监测数据一致性评估包括同一属性数据格式一致性评估,根据满足数据一致性的数据比例计算一致性得分;
所述电力监测数据可用性评估包括字段、流程和事件数据的可用性或使用率评价,根据可用数据比例或数据使用频率计算可用性得分;
所述电力监测数据实时性评估包括数据更新、数据维护周期与相应标准周期的比较,根据数据更新频率或者数据维护周期与相应标准周期的比值计算实时性得分。
6.根据权利要求1所述的基于消息总线的数据质量治理系统,其特征在于:所述数据接入模块(1)用于通过KAFKA消息总线接收多个数据发送端的发送的电力监测数据并分类保存,照接收到的数据信息的数据类型,将数据信息分发到不同的数据库,完成数据的分发存储。
7.一种基于权利要求1所述系统的基于消息总线的数据质量治理方法,其特征在于,它包括如下步骤:
步骤1:数据接入模块(1)通过消息总线接收多个数据发送端的发送的电力监测数据;
步骤2:校验规则构建模块(2)根据预设的评估指标构建数据质量规则校验库;
步骤3:聚类划分模块(3)采用基于灰狼-天牛须搜索算法优化的k-means聚类法对电力监测数据进行聚类,从而将电力监测数据划分成多个数据子集;
步骤4:质量评估模块对各个数据子集,分别通过LOF异常值检测算法进行准确性评估得到电力监测数据准确性评估得分;利用数据质量规则校验库进行电力监测数据完整性评估、电力监测数据一致性评估、电力监测数据可用性评估和电力监测数据实时性评估,得到对应的电力监测数据完整性评估得分、电力监测数据一致性评估得分、电力监测数据可用性评估得分和电力监测数据实时性评估得分;
步骤5:综合评价模块(5)用于通过改进的层次分析法计算电力监测数据准确性评估指标、电力监测数据完整性评估指标、电力监测数据一致性评估指标、电力监测数据可用性评估指标和电力监测数据实时性评估指标的权重,并利用上述各项指标的权重和各项指标评估得分计算电力监测数据质量综合评价结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011243157.9A CN112330164B (zh) | 2020-11-09 | 2020-11-09 | 基于消息总线的数据质量治理系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011243157.9A CN112330164B (zh) | 2020-11-09 | 2020-11-09 | 基于消息总线的数据质量治理系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112330164A CN112330164A (zh) | 2021-02-05 |
CN112330164B true CN112330164B (zh) | 2022-06-03 |
Family
ID=74317051
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011243157.9A Active CN112330164B (zh) | 2020-11-09 | 2020-11-09 | 基于消息总线的数据质量治理系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112330164B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115860579B (zh) * | 2023-02-27 | 2023-05-09 | 山东金利康面粉有限公司 | 一种用于面粉加工的生产质量监测系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018072351A1 (zh) * | 2016-10-20 | 2018-04-26 | 北京工业大学 | 一种基于粒子群优化算法对支持向量机的优化方法 |
CN109387715A (zh) * | 2018-10-29 | 2019-02-26 | 全球能源互联网研究院有限公司 | 一种基于灰色聚类的换流阀状态在线评估方法及装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106649840A (zh) * | 2016-12-30 | 2017-05-10 | 国网江西省电力公司经济技术研究院 | 一种适用于电力数据质量评估与规则校验的方法 |
WO2019094729A1 (en) * | 2017-11-09 | 2019-05-16 | Strong Force Iot Portfolio 2016, Llc | Methods and systems for the industrial internet of things |
CN109492683A (zh) * | 2018-10-30 | 2019-03-19 | 国网湖南省电力有限公司 | 一种针对广域量测电力大数据数据质量的快速在线评估方法 |
CN111368077B (zh) * | 2020-02-28 | 2023-07-07 | 大连大学 | 一种基于粒子群位置更新思想灰狼优化算法的K-Means文本分类方法 |
-
2020
- 2020-11-09 CN CN202011243157.9A patent/CN112330164B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018072351A1 (zh) * | 2016-10-20 | 2018-04-26 | 北京工业大学 | 一种基于粒子群优化算法对支持向量机的优化方法 |
CN109387715A (zh) * | 2018-10-29 | 2019-02-26 | 全球能源互联网研究院有限公司 | 一种基于灰色聚类的换流阀状态在线评估方法及装置 |
Non-Patent Citations (1)
Title |
---|
基于BAS-BP神经网络的异步电机电流预测;党盈伟等;《机械设计与制造工程》;20200415(第04期);第101-104页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112330164A (zh) | 2021-02-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Duò et al. | A systematic performance evaluation of clustering methods for single-cell RNA-seq data | |
CN108804641B (zh) | 一种文本相似度的计算方法、装置、设备和存储介质 | |
US6871201B2 (en) | Method for building space-splitting decision tree | |
CN106919957B (zh) | 处理数据的方法及装置 | |
CN108446741B (zh) | 机器学习超参数重要性评估方法、系统及存储介质 | |
CN113282756B (zh) | 一种基于混合聚类的文本聚类智能评估方法 | |
Neamtu et al. | Interactive time series exploration powered by the marriage of similarity distances | |
Bai et al. | Discovering the $ k $ representative skyline over a sliding window | |
CN112330164B (zh) | 基于消息总线的数据质量治理系统及方法 | |
CN114116829A (zh) | 异常数据分析方法、异常数据分析系统和存储介质 | |
CN110796159A (zh) | 基于k-means算法的电力数据分类方法及系统 | |
CN115271237A (zh) | 一种基于改进pso-ga和svm的工业数据质量预测方法 | |
CN109189747A (zh) | 基于Spark大数据平台的电瓶车用户行为习惯分析方法 | |
CN104778480A (zh) | 一种基于局部密度和测地距离的分层谱聚类方法 | |
CN112100177A (zh) | 数据存储方法、装置、计算机设备及存储介质 | |
CN106779245A (zh) | 基于事件的民航需求预测方法和装置 | |
Gias et al. | Samplehst: Efficient on-the-fly selection of distributed traces | |
CN116862035A (zh) | 航延预测方法、装置、设备和计算机可读存储介质 | |
CN111931861B (zh) | 一种异质性数据集的异常检测方法及计算机可读存储介质 | |
CN110175287B (zh) | 一种基于Flink的矩阵分解隐式反馈推荐方法和系统 | |
CN114093055A (zh) | 一种路谱生成的方法、装置、电子设备及介质 | |
CN108346287A (zh) | 基于影响因素分析的交通流量序列模式匹配方法 | |
CN114168733A (zh) | 一种基于复杂网络的法规检索方法及系统 | |
CN113221966A (zh) | 基于F_Max属性度量的差分隐私决策树构建方法 | |
Chen et al. | Meta-learning based Classification for moving object trajectories in Mobile IoT |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |