CN112330164B - 基于消息总线的数据质量治理系统及方法 - Google Patents

基于消息总线的数据质量治理系统及方法 Download PDF

Info

Publication number
CN112330164B
CN112330164B CN202011243157.9A CN202011243157A CN112330164B CN 112330164 B CN112330164 B CN 112330164B CN 202011243157 A CN202011243157 A CN 202011243157A CN 112330164 B CN112330164 B CN 112330164B
Authority
CN
China
Prior art keywords
data
power monitoring
evaluation
monitoring data
wolf
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011243157.9A
Other languages
English (en)
Other versions
CN112330164A (zh
Inventor
陶汉涛
王海涛
方玉河
李健
张磊
林卿
陈玥
姜志博
吴大伟
李旺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan NARI Ltd
NARI Group Corp
Original Assignee
Wuhan NARI Ltd
NARI Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan NARI Ltd, NARI Group Corp filed Critical Wuhan NARI Ltd
Priority to CN202011243157.9A priority Critical patent/CN112330164B/zh
Publication of CN112330164A publication Critical patent/CN112330164A/zh
Application granted granted Critical
Publication of CN112330164B publication Critical patent/CN112330164B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06395Quality analysis or management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Data Mining & Analysis (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Game Theory and Decision Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Water Supply & Treatment (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Primary Health Care (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Public Health (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本发明涉及一种基于消息总线的数据质量治理系统,本发明通过消息总线接收多个数据发送端的发送的电力监测数据并分类保存;确定电力监测数据质量评估指标,构建数据质量规则校验库;采用基于灰狼‑天牛须搜索算法优化的k‑means聚类法对电力监测数据进行聚类,将电力监测数据划分成多个数据子集;对每个数据子集,通过LOF异常值检测算法进行准确性评估,通过所述数据质量规则校验进行完整性、一致性、可用性、实时性评估;通过改进的层次分析法计算各评估指标的权重,计算电力监测数据质量综合评价结果。本发明实现了电力监测数据多维度质量评估,提高了电力监测数据质量治理的可靠性。

Description

基于消息总线的数据质量治理系统及方法
技术领域
本发明涉及自动化信息系统技术邻域,具体涉及一种基于消息总线的数据质量治理系统及方法。
背景技术
随着自动化信息系统数最越来越多,电力系统规模和容量越来越大,信息量日趋庞大。随着监控终端的大力推广,监测对象特性差异,监测数据相关性运算进行预警作用逐步凸显。随着数据迅速增长,不同数据源的数据质量参差不齐,数据质量有不同的概念和标准,数据质量一般包括数据的准确性、完整性、及时性、一致性等定量描述。
对于大数据时代下的电力系统来说,其所需存储、处理的数据量大,数据来源和数据结构繁多复杂,为大数据的分析和应用带来很多挑战。特别是在终端据量不断增长,监测数据量不断上升的清况下,数据质量治理难度也在不断增加。同时,现有的设置校验规则、权重规则进行质量评价的模式还存在评价指标单一、不够准确的问题。
发明内容
本发明的目的在于提供一种基于消息总线的数据质量治理系统及方法,本发明能解决电力系统监测数据质量评估可信度差的问题。
为解决上述技术问题,本发明所设计的基于消息总线的数据质量治理系统,它包括数据接入模块、校验规则构建模块、聚类划分模块、质量评估模块和综合评价模块,其中,所述数据接入模块用于通过消息总线接收多个数据发送端的发送的电力监测数据;
校验规则构建模块用于根据预设的评估指标构建数据质量规则校验库;
聚类划分模块用于采用基于灰狼-天牛须搜索算法优化的 k-means聚类法对电力监测数据进行聚类,从而将电力监测数据划分成多个数据子集;
质量评估模块用于对各个数据子集,分别通过LOF异常值检测算法进行准确性评估得到电力监测数据准确性评估得分,并且,对各个数据子集,分别利用数据质量规则校验库进行电力监测数据完整性评估、电力监测数据一致性评估、电力监测数据可用性评估和电力监测数据实时性评估,得到对应的电力监测数据完整性评估得分、电力监测数据一致性评估得分、电力监测数据可用性评估得分和电力监测数据实时性评估得分;
综合评价模块用于通过改进的层次分析法计算电力监测数据准确性评估指标、电力监测数据完整性评估指标、电力监测数据一致性评估指标、电力监测数据可用性评估指标和电力监测数据实时性评估指标的权重,并利用上述各项指标的权重和各项指标评估得分计算电力监测数据质量综合评价结果。
所述校验规则构建模块还用于确定电力监测数据质量评估指标,所述电力监测数据质量评估指标包括电力监测数据准确性评估指标、电力监测数据完整性评估指标、电力监测数据一致性评估指标、电力监测数据可用性评估指标和电力监测数据实时性评估指标,质量评估指标包括准确性、完整性、一致性、可用性、实时性,可人为指定或根据需求选择。
上述技术方案中,所述采用基于灰狼-天牛须搜索算法优化的 k-means聚类法对电力监测数据进行聚类具体包括:
进行灰狼算法初始化,根据经验或需求设置设置群规模和聚类类别数,进行狼群初始化和聚类质心初始化;
初始化,灰狼算法(GWO,Grey Wolf Optimizer)初始化,设置种群规模N、解空间维度n、狼群初始化
Figure BDA0002769023820000031
其中 i=1,2,…,N;
适应度评价,分别通过适应度函数计算每只灰狼的适应度,筛选出适应度最小的三个灰狼α、β、δ,其对应位置分别为
Figure BDA0002769023820000032
Figure BDA0002769023820000033
输入位置更新单元;
所述灰狼算法的适应度函数为所有的类内距离(每一聚类类别内部数据与聚类中心点的距离)之和,
Figure BDA0002769023820000034
其中 K为聚类类别数,d(Xi,Cj)为第j个聚类类别中每个灰狼对象Xi到其聚类中心点Cj的距离,Cj表示第j个聚类类别的聚类中心点;
位置更新,计算其它灰狼ω到灰狼α、β、δ的距离
Figure BDA0002769023820000035
结合天牛须搜索算法(Beetle Antennae Search Algorithm,BAS)中的触角气味搜索的方式进行灰狼个体位置更新:
Figure BDA0002769023820000036
Figure BDA0002769023820000037
Figure BDA0002769023820000038
其中,
Figure BDA0002769023820000039
表示灰狼的位置向量,
Figure BDA00027690238200000310
为第t+1次迭代时灰狼个体更新位置,
Figure BDA00027690238200000311
Figure BDA00027690238200000312
均为系数向量,
Figure BDA00027690238200000313
Figure BDA00027690238200000314
均为[0,1]中均匀分布的随机向量,a=a1(1-t/tmax),t为当前迭代次数,t=1,2,…,tmax,a1为常数,a1∈[0,2],tmax为最大迭代次数;
Figure BDA00027690238200000315
的取值范围为-2a~2a,
Figure BDA00027690238200000316
表示第t次迭代时灰狼α的位置,
Figure BDA00027690238200000317
表示第t次迭代时灰狼β的位置,
Figure BDA00027690238200000318
表示第t次迭代时灰狼δ的位置;
Figure BDA0002769023820000041
表示天牛须搜索的n维随机单位向量,
Figure BDA0002769023820000042
Figure BDA0002769023820000043
分别为左侧、右侧天牛须搜索区域的位置,
Figure BDA0002769023820000044
相当于天牛位置;δt是搜索步长,用于调整收敛速度,是迭代次数t的递减函数;sign()表示符号函数,f 为适应度函数,d为两须之间的距离的一半;
Figure BDA0002769023820000045
为第t+1次迭代时除头狼外的其它灰狼的位置,
Figure BDA0002769023820000046
分别为位置更新后头狼位置;
根据灰狼个体位置更新结果重新进行适应度计算,进行迭代运算,直至达到最大迭代次数,输出
Figure BDA0002769023820000047
作为优化后的聚类质心,根据聚类质心对电力监测数据聚类。
上述技术方案中,所述通过LOF异常值检测算法进行准确性评估具体为:
对数据子集中的样本点进行归一化处理;
计算数据子集中样本点p的k邻域Nk(p)内的样本点o与样本点 p之间的k可达距离dk(p,o);
计算p点局部相对密度ρp和相对距离δp
Figure BDA0002769023820000048
Figure BDA0002769023820000049
其中ρo为样本点o的局部相对密度,o:ρo>ρp表示对k邻域Nk(p) 内每一个样本点o,选择满足条件ρo>ρp的样本点;
计算样本点p的局部离群因子LOFk(p):
Figure BDA0002769023820000051
令δp的阈值
Figure BDA0002769023820000052
其中,I为数据子集中数据总数,数据子集中样本点p=1,2,…I,γp为经验参数,若LOFk(p)>1且δp>δτ,δp为相对距离,则p点为异常点;统计当前电力检测数据中的异常点总数,剔除异常点后,根据正常点总数占数据总量的比例计算准确性得分。
上述技术方案中,所述电力监测数据完整性评估包括字段数据格式和字段数据内容的字段完整性校验,根据满足数据完整性的数据比例计算完整性得分;
所述电力监测数据一致性评估包括同一属性数据格式一致性评估,根据满足数据一致性的数据比例计算一致性得分;
所述电力监测数据可用性评估包括字段、流程和事件数据的可用性或使用率评价,根据可用数据比例或数据使用频率计算可用性得分;
所述电力监测数据实时性评估包括数据更新、数据维护周期与相应标准周期的比较,根据数据更新频率或者数据维护周期与相应标准周期的比值计算实时性得分。
上述技术方案中,所述电力监测数据质量综合评价结果C的计算公式为:
Figure BDA0002769023820000053
其中,wi为各项指标权重,Si为各项指标评估得分,i表示第i 项指标,M为指标总数,公式中已写明i=1到M(前面计算的准确定得分、完整性得分、一致性得分、可用性得分、实时性得分)。
上述技术方案中,所述数据接入模块用于通过KAFKA消息总线接收多个数据发送端的发送的电力监测数据并分类保存,照接收到的数据信息的数据类型,将数据信息分发到不同的数据库,完成数据的分发存储。比如数据类型分为静态模数据和动态数据。KAFKA消息总线具有消息持久化的功能,接收到的消息可以根据配置设定有效时间,减少采集数据丢失。同时结合分布式存储技术,可解决数据接入时数据传输并发能力弱、大数据的存储和访问效率的问题。
一种基于消息总线的数据质量治理方法,它包括如下步骤:
步骤1:数据接入模块通过KAFKA消息总线接收多个数据发送端的发送的电力监测数据,并分类保存;
步骤2:校验规则构建模块根据预设的评估指标构建数据质量规则校验库;
步骤3:聚类划分模块采用基于灰狼-天牛须搜索算法优化的 k-means聚类法对电力监测数据进行聚类,从而将电力监测数据划分成多个数据子集;
步骤4:质量评估模块对各个数据子集,分别通过LOF异常值检测算法进行准确性评估得到电力监测数据准确性评估得分;利用数据质量规则校验库进行电力监测数据完整性评估、电力监测数据一致性评估、电力监测数据可用性评估和电力监测数据实时性评估,得到对应的电力监测数据完整性评估得分、电力监测数据一致性评估得分、电力监测数据可用性评估得分和电力监测数据实时性评估得分(除准确性评估外,其他评估指标可不用根据数据子集分别评估);
步骤5:综合评价模块用于通过改进的层次分析法计算电力监测数据准确性评估指标、电力监测数据完整性评估指标、电力监测数据一致性评估指标、电力监测数据可用性评估指标和电力监测数据实时性评估指标的权重,并利用上述各项指标的权重和各项指标评估得分计算电力监测数据质量综合评价结果。
本发明的有益效果为:
1)本发明将灰狼算法与天牛须搜索算法相结合用于聚类优化,以最快的速度确定最佳搜索方向,减少绕圈,完成电力监测大数据的快速、高效聚类,为电力大数据质量评估提供支撑。
2)基于LOF异常值检测算法和数据质量规则校验库实现了电力监测数据准确性、完整性、一致性、可用性、实时性等多维度评估,提高了电力监测数据质量治理的可靠性。
附图说明
图1为本发明的结构示意图;
图2为本发明的流程图。
其中,1—数据接入模块、2—校验规则构建模块、3—聚类划分模块、4—质量评估模块、5—综合评价模块。
具体实施方式
以下结合具体实施例对本发明作进一步的详细说明:
本发明所设计的一种基于消息总线的数据质量治理系统,如图1 所示,它包括数据接入模块1、校验规则构建模块2、聚类划分模块 3、质量评估模块4和综合评价模块5,其中,所述数据接入模块1 用于通过KAFKA消息总线接收多个数据发送端的发送的电力监测数据,并分类保存;
校验规则构建模块2用于根据预设的评估指标构建数据质量规则校验库,预设的评估指标包括准确性、完整性、一致性、可用性和实时性,根据各个指标建立对应的校验规则,比如完整性评估包括字段数据格式和字段数据内容的字段完整性校验,可根据正则表达式建立完整性校验规则,具体校验规则根据实际数据类型设定;
聚类划分模块3用于采用基于灰狼-天牛须搜索算法优化的k-means聚类法对电力监测数据进行聚类,从而将电力监测数据划分成多个数据子集(若聚类算法的聚类类别数为K,则划分成K个数据子集);
质量评估模块4用于对各个数据子集,分别通过LOF异常值检测算法进行准确性评估得到电力监测数据准确性评估得分;利用数据质量规则校验库进行电力监测数据完整性评估、电力监测数据一致性评估、电力监测数据可用性评估和电力监测数据实时性评估,得到对应的电力监测数据完整性评估得分、电力监测数据一致性评估得分、电力监测数据可用性评估得分和电力监测数据实时性评估得分;
综合评价模块5用于通过改进的层次分析法计算电力监测数据准确性评估指标、电力监测数据完整性评估指标、电力监测数据一致性评估指标、电力监测数据可用性评估指标和电力监测数据实时性评估指标的权重,并利用上述各项指标的权重和各项指标评估得分计算电力监测数据质量综合评价结果。
本发明设计的一种基于消息总线的数据质量治理方法,如图2 所示,它包括如下步骤:
步骤1:数据接入模块1通过KAFKA消息总线接收多个数据发送端的发送的电力监测数据并分类保存;
具体的,可按照接收到的数据信息的的数据类型,将数据信息分发到不同的数据库,完成数据的分发存储。比如讲数据类型分为静态模数据和动态数据。线具有消息持久化的功能,接收到的消息可以根据配置设定有效时间,减少采集数据丢失。同时结合分布式存储技术,可解决数据接入时数据传输并发能力弱、大数据的存储和访问效率的问题。
步骤2:校验规则构建模块2确定电力监测数据质量评估指标,构建数据质量规则校验库;所述电力监测数据质量评估指标包括电力监测数据准确性评估指标、电力监测数据完整性评估指标、电力监测数据一致性评估指标、电力监测数据可用性评估指标和电力监测数据实时性评估指标。
步骤3:采用基于灰狼-天牛须搜索算法优化的k-means聚类法对电力监测数据进行聚类,将电力监测数据划分成多个数据子集,包括如下步骤:
所述采用基于灰狼-天牛须搜索算法优化的k-means聚类法对电力监测数据进行聚类具体包括:
进行灰狼算法初始化,根据经验或需求设置设置群规模和聚类类别数,进行狼群初始化和聚类质心初始化;
初始化,灰狼算法(GWO,Grey Wolf Optimizer)初始化,设置群规模N、解空间维度n、狼群初始化
Figure BDA0002769023820000091
其中i=1,2,…, N;
适应度评价,通过适应度函数分别计算每只灰狼的适应度,筛选出适应度最小的三个灰狼α、β、δ,其对应位置分别为
Figure BDA0002769023820000092
Figure BDA0002769023820000093
输入位置更新单元;
所述灰狼算法的适应度函数为所有的类内距离之和(每一聚类类别内部数据与聚类中心点的距离),
Figure BDA0002769023820000094
其中K为聚类类别数,d(Xi,Cj)为第j个聚类类别中每个灰狼对象Xi到其聚类中心点Cj的距离,Cj表示第j个聚类类别的聚类中心点;
位置更新,计算其它灰狼ω到灰狼α、β、δ的距离
Figure BDA0002769023820000095
结合天牛须搜索算法(Beetle Antennae Search Algorithm,BAS)中的触角气味搜索的方式进行灰狼个体位置更新:
Figure BDA0002769023820000101
Figure BDA0002769023820000102
Figure BDA0002769023820000103
其中,
Figure BDA0002769023820000104
表示灰狼的位置向量,
Figure BDA0002769023820000105
为第t+1次迭代时灰狼个体更新位置,
Figure BDA0002769023820000106
Figure BDA0002769023820000107
均为系数向量,
Figure BDA0002769023820000108
Figure BDA0002769023820000109
均为[0,1]中均匀分布的随机向量,a=a1(1-t/tmax),t为当前迭代次数,t=1,2,…,tmax,a1为(0,2)之间的常数,tmax为最大迭代次数;
Figure BDA00027690238200001010
的取值范围为-2a~2a,
Figure BDA00027690238200001011
表示第t次迭代时灰狼α的位置,
Figure BDA00027690238200001012
表示第t次迭代时灰狼β的位置,
Figure BDA00027690238200001013
表示第t次迭代时灰狼δ的位置;
Figure BDA00027690238200001014
表示天牛须搜索的n维随机单位向量,
Figure BDA00027690238200001015
Figure BDA00027690238200001016
分别为左侧、右侧天牛须搜索区域的位置,
Figure BDA00027690238200001017
相当于天牛位置;δt是搜索步长,用于调整收敛速度,是迭代次数t的递减函数;sign()表示符号函数,f 为适应度函数,d为两须之间的距离的一半;
Figure BDA00027690238200001018
为第t+1次迭代时除头狼外的其它灰狼的位置,
Figure BDA00027690238200001019
分别为位置更新后头狼位置;
根据灰狼个体位置更新结果重新进行适应度计算,进行迭代运算,直至达到最大迭代次数,输出
Figure BDA00027690238200001020
作为优化后的聚类质心,根据聚类质心对电力监测数据聚类。
本发明将灰狼算法与天牛须搜索算法相结合用于聚类优化,在进行位置更新时不直接移动到头狼确定的下一目标位置,而是以头狼确定的下一目标位置作为天牛位置,天牛用两根触角随机探索附近的区域,进一步确定最佳搜索方向,减少绕圈,以最快的速度找到最优位置,提高收敛速度。本发明将大量的电力检测数据进行初步聚类,划分成多个类簇,再基于每个类簇进行并行数据质量评估或治理,可提高数据处理速度,同时防止聚类划分质量不高可能会造成的数据异常点判断错误、影响数据准确性判断等问题。
步骤4:质量评估模块4对每个数据子集,通过LOF(Local Outlier Factor,局部异常因子)异常值检测算法进行准确性评估,通过所述数据质量规则校验进行完整性、一致性、可用性、实时性评估;
所述通过LOF异常值检测算法进行准确性评估具体为:
对数据子集中的样本点进行归一化处理;
计算数据子集中样本点p到k邻域Nk(p)内的样本点o之间的可达距离dk(p,o);
计算p点局部相对密度ρp和相对距离δp
Figure BDA0002769023820000111
Figure BDA0002769023820000112
其中ρo为样本点o的局部相对密度,o:ρo>ρp表示对k邻域Nk(p) 内每一个样本点o,选择满足条件ρo>ρp的样本点;计算样本点p的局部离群因子LOFk(p):
Figure BDA0002769023820000113
令δp的阈值
Figure BDA0002769023820000121
其中,I为数据子集中数据总数,数据子集中样本点p=1,2,… I,γp为经验参数,若LOFk(p)>1且δp>δτ,δp为相对距离,则p点为异常点;统计当前电力检测数据中的异常点总数,剔除异常点后,根据正常点总数占数据总量的比例计算准确性得分。
本发明采用LOF算法结合CFSFDP的局部密度和相对距离的概念进行异常点检测,并进一步用于数据准确度评估。同时引入局部可达密度的概念可弥补CFSFDP对于局部密度变化较大的数据识别能力较弱的缺点。在基于灰狼-天牛须搜索算法优化的k-means聚类法对电力监测数据进行聚类划分的基础上,可以分别对每个数据子集中的数据独立进行异常点检测,减少因为聚类划分不够精确导致全局电力监测数据中的正常数据点在某个局部数据子集中被当做异常点的概率,提高数据准确性评估的可靠性。
所述电力监测数据完整性评估包括字段数据格式和字段数据内容的字段完整性校验,根据满足数据完整性的数据比例计算完整性得分;
所述电力监测数据一致性评估包括同一属性数据格式一致性评估,根据满足数据一致性的数据比例计算一致性得分;
所述电力监测数据可用性评估包括字段、流程和事件数据的可用性或使用率评价,根据可用数据比例或数据使用频率计算可用性得分;
所述电力监测数据实时性评估包括数据更新、数据维护周期与相应标准周期的比较,根据数据更新频率或者数据维护周期与相应标准周期的比值计算实时性得分。
步骤5:综合评价模块(5)通过改进的层次分析法计算各评估指标的权重,计算电力监测数据质量综合评价结果。
所述电力监测数据质量综合评价结果计算公式为:
Figure BDA0002769023820000131
其中,C为综合评价得分,wi为各项指标权重,Si为各项指标评估得分,i表示第i项指标,M为指标总数,公式中已写明i=1到M (前面计算的准确定得分、完整性得分、一致性得分、可用性得分、实时性得分)。
本说明书未作详细描述的内容属于本邻域专业技术人员公知的现有技术。

Claims (7)

1.一种基于消息总线的数据质量治理系统,其特征在于:它包括数据接入模块(1)、校验规则构建模块(2)、聚类划分模块(3)、质量评估模块(4)和综合评价模块(5),其中,所述数据接入模块(1)用于通过消息总线接收多个数据发送端的发送的电力监测数据;
校验规则构建模块(2)用于构建数据质量规则校验库;
聚类划分模块(3)用于采用基于灰狼-天牛须搜索算法优化的k-means聚类法对电力监测数据进行聚类,从而将电力监测数据划分成多个数据子集;
质量评估模块(4)用于对各个数据子集,分别通过LOF异常值检测算法进行准确性评估得到电力监测数据准确性评估指标,并且,对各个数据子集,分别利用数据质量规则校验库进行电力监测数据完整性评估、电力监测数据一致性评估、电力监测数据可用性评估和电力监测数据实时性评估,得到对应的电力监测数据完整性评估指标、电力监测数据一致性评估指标、电力监测数据可用性评估指标和电力监测数据实时性评估指标;
综合评价模块(5)用于通过改进的层次分析法计算电力监测数据准确性评估指标、电力监测数据完整性评估指标、电力监测数据一致性评估指标、电力监测数据可用性评估指标和电力监测数据实时性评估指标的权重,并利用上述各项指标的权重和各项指标评估得分计算电力监测数据质量综合评价结果;
所述采用基于灰狼-天牛须搜索算法优化的k-means聚类法对电力监测数据进行聚类具体包括:
进行灰狼算法初始化,根据经验或需求设置群规模和聚类类别数,进行狼群初始化和聚类质心初始化;
初始化,灰狼算法初始化,设置种群规模N、解空间维度n、狼群初始化
Figure FDA0003529354840000011
其中i=1,2,...,N;
适应度评价,分别通过适应度函数计算每只灰狼的适应度,筛选出适应度最小的三个灰狼α、β、δ,其对应位置分别为
Figure FDA0003529354840000021
Figure FDA0003529354840000022
输入位置更新单元;
所述灰狼算法的适应度函数为所有的类内距离之和,
Figure FDA0003529354840000023
其中K为聚类类别数,d(Xi,Cj)为第j个聚类类别中每个灰狼对象Xi到其聚类中心点Cj的距离,Cj表示第j个聚类类别的聚类中心点;
位置更新,计算其它灰狼ω到灰狼α、β、δ的距离
Figure FDA0003529354840000024
结合天牛须搜索算法中的触角气味搜索的方式进行灰狼个体位置更新:
Figure FDA0003529354840000025
Figure FDA0003529354840000026
Figure FDA0003529354840000027
其中,
Figure FDA0003529354840000028
表示灰狼的位置向量,
Figure FDA0003529354840000029
为第t+1次迭代时灰狼个体更新位置,
Figure FDA00035293548400000210
Figure FDA00035293548400000211
均为系数向量,
Figure FDA00035293548400000212
Figure FDA00035293548400000213
均为[0,1]中均匀分布的随机向量,a=a1(1-t/tmax),t为当前迭代次数,t=1,2,…,tmax,a1为常数,a1∈[0,2],tmax为最大迭代次数;
Figure FDA00035293548400000214
的取值范围为-2a~2a,
Figure FDA00035293548400000215
表示第t次迭代时灰狼α的位置,
Figure FDA00035293548400000216
表示第t次迭代时灰狼β的位置,
Figure FDA00035293548400000217
表示第t次迭代时灰狼δ的位置;
Figure FDA00035293548400000218
表示天牛须搜索的n维随机单位向量,
Figure FDA00035293548400000219
Figure FDA00035293548400000220
分别为左侧、右侧天牛须搜索区域的位置,
Figure FDA00035293548400000221
相当于天牛位置;δt是搜索步长,用于调整收敛速度,是迭代次数t的递减函数;sign()表示符号函数,f为适应度函数,d为两须之间的距离的一半;
Figure FDA0003529354840000031
为第t+1次迭代时除头狼外的其它灰狼的位置,
Figure FDA0003529354840000032
分别为位置更新后头狼位置;
根据灰狼个体位置更新结果重新进行适应度计算,进行迭代运算,直至达到最大迭代次数,输出
Figure FDA0003529354840000033
作为优化后的聚类质心,根据聚类质心对电力监测数据聚类。
2.根据权利要求1所述的基于消息总线的数据质量治理系统,其特征在于:所述校验规则构建模块(2)还用于确定电力监测数据质量评估指标,所述电力监测数据质量评估指标包括电力监测数据准确性评估指标、电力监测数据完整性评估指标、电力监测数据一致性评估指标、电力监测数据可用性评估指标和电力监测数据实时性评估指标。
3.根据权利要求1所述的基于消息总线的数据质量治理系统,其特征在于:所述通过LOF异常值检测算法进行准确性评估具体为:
对数据子集中的样本点进行归一化处理;
计算数据子集中样本点p的k邻域Nk(p)内的样本点o与样本点p之间的k可达距离dk(p,o);
计算p点局部相对密度ρp和相对距离δp
Figure FDA0003529354840000034
Figure FDA0003529354840000035
其中ρo为样本点o的局部相对密度,o:ρo>ρp表示对k邻域Nk(p)内每一个样本点o,选择满足条件ρo>ρp的样本点;
计算样本点p的局部离群因子LOFk(p):
Figure FDA0003529354840000041
令δp的阈值
Figure FDA0003529354840000042
其中,I为数据子集中数据总数,数据子集中样本点p=1,2,…I,γp为经验参数,若LOFk(p)>1且δp>δτ,δp为相对距离,则p点为异常点;统计当前电力检测数据中的异常点总数,剔除异常点后,根据正常点总数占数据总量的比例计算准确性得分。
4.根据权利要求1所述的基于消息总线的数据质量治理系统,其特征在于:所述电力监测数据完整性评估包括字段数据格式和字段数据内容的字段完整性校验,根据满足数据完整性的数据比例计算完整性得分;
所述电力监测数据一致性评估包括同一属性数据格式一致性评估,根据满足数据一致性的数据比例计算一致性得分;
所述电力监测数据可用性评估包括字段、流程和事件数据的可用性或使用率评价,根据可用数据比例或数据使用频率计算可用性得分;
所述电力监测数据实时性评估包括数据更新、数据维护周期与相应标准周期的比较,根据数据更新频率或者数据维护周期与相应标准周期的比值计算实时性得分。
5.根据权利要求1所述的基于消息总线的数据质量治理系统,其特征在于:所述电力监测数据质量综合评价结果C的计算公式为:
Figure FDA0003529354840000043
其中,wi为各项指标权重,Si为各项指标评估得分,i表示第i项指标,M为指标总数。
6.根据权利要求1所述的基于消息总线的数据质量治理系统,其特征在于:所述数据接入模块(1)用于通过KAFKA消息总线接收多个数据发送端的发送的电力监测数据并分类保存,照接收到的数据信息的数据类型,将数据信息分发到不同的数据库,完成数据的分发存储。
7.一种基于权利要求1所述系统的基于消息总线的数据质量治理方法,其特征在于,它包括如下步骤:
步骤1:数据接入模块(1)通过消息总线接收多个数据发送端的发送的电力监测数据;
步骤2:校验规则构建模块(2)根据预设的评估指标构建数据质量规则校验库;
步骤3:聚类划分模块(3)采用基于灰狼-天牛须搜索算法优化的k-means聚类法对电力监测数据进行聚类,从而将电力监测数据划分成多个数据子集;
步骤4:质量评估模块对各个数据子集,分别通过LOF异常值检测算法进行准确性评估得到电力监测数据准确性评估得分;利用数据质量规则校验库进行电力监测数据完整性评估、电力监测数据一致性评估、电力监测数据可用性评估和电力监测数据实时性评估,得到对应的电力监测数据完整性评估得分、电力监测数据一致性评估得分、电力监测数据可用性评估得分和电力监测数据实时性评估得分;
步骤5:综合评价模块(5)用于通过改进的层次分析法计算电力监测数据准确性评估指标、电力监测数据完整性评估指标、电力监测数据一致性评估指标、电力监测数据可用性评估指标和电力监测数据实时性评估指标的权重,并利用上述各项指标的权重和各项指标评估得分计算电力监测数据质量综合评价结果。
CN202011243157.9A 2020-11-09 2020-11-09 基于消息总线的数据质量治理系统及方法 Active CN112330164B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011243157.9A CN112330164B (zh) 2020-11-09 2020-11-09 基于消息总线的数据质量治理系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011243157.9A CN112330164B (zh) 2020-11-09 2020-11-09 基于消息总线的数据质量治理系统及方法

Publications (2)

Publication Number Publication Date
CN112330164A CN112330164A (zh) 2021-02-05
CN112330164B true CN112330164B (zh) 2022-06-03

Family

ID=74317051

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011243157.9A Active CN112330164B (zh) 2020-11-09 2020-11-09 基于消息总线的数据质量治理系统及方法

Country Status (1)

Country Link
CN (1) CN112330164B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115860579B (zh) * 2023-02-27 2023-05-09 山东金利康面粉有限公司 一种用于面粉加工的生产质量监测系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018072351A1 (zh) * 2016-10-20 2018-04-26 北京工业大学 一种基于粒子群优化算法对支持向量机的优化方法
CN109387715A (zh) * 2018-10-29 2019-02-26 全球能源互联网研究院有限公司 一种基于灰色聚类的换流阀状态在线评估方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649840A (zh) * 2016-12-30 2017-05-10 国网江西省电力公司经济技术研究院 一种适用于电力数据质量评估与规则校验的方法
WO2019094729A1 (en) * 2017-11-09 2019-05-16 Strong Force Iot Portfolio 2016, Llc Methods and systems for the industrial internet of things
CN109492683A (zh) * 2018-10-30 2019-03-19 国网湖南省电力有限公司 一种针对广域量测电力大数据数据质量的快速在线评估方法
CN111368077B (zh) * 2020-02-28 2023-07-07 大连大学 一种基于粒子群位置更新思想灰狼优化算法的K-Means文本分类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018072351A1 (zh) * 2016-10-20 2018-04-26 北京工业大学 一种基于粒子群优化算法对支持向量机的优化方法
CN109387715A (zh) * 2018-10-29 2019-02-26 全球能源互联网研究院有限公司 一种基于灰色聚类的换流阀状态在线评估方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于BAS-BP神经网络的异步电机电流预测;党盈伟等;《机械设计与制造工程》;20200415(第04期);第101-104页 *

Also Published As

Publication number Publication date
CN112330164A (zh) 2021-02-05

Similar Documents

Publication Publication Date Title
Duò et al. A systematic performance evaluation of clustering methods for single-cell RNA-seq data
CN108804641B (zh) 一种文本相似度的计算方法、装置、设备和存储介质
US6871201B2 (en) Method for building space-splitting decision tree
CN106919957B (zh) 处理数据的方法及装置
CN108446741B (zh) 机器学习超参数重要性评估方法、系统及存储介质
CN113282756B (zh) 一种基于混合聚类的文本聚类智能评估方法
Neamtu et al. Interactive time series exploration powered by the marriage of similarity distances
Bai et al. Discovering the $ k $ representative skyline over a sliding window
CN112330164B (zh) 基于消息总线的数据质量治理系统及方法
CN114116829A (zh) 异常数据分析方法、异常数据分析系统和存储介质
CN110796159A (zh) 基于k-means算法的电力数据分类方法及系统
CN115271237A (zh) 一种基于改进pso-ga和svm的工业数据质量预测方法
CN109189747A (zh) 基于Spark大数据平台的电瓶车用户行为习惯分析方法
CN104778480A (zh) 一种基于局部密度和测地距离的分层谱聚类方法
CN112100177A (zh) 数据存储方法、装置、计算机设备及存储介质
CN106779245A (zh) 基于事件的民航需求预测方法和装置
Gias et al. Samplehst: Efficient on-the-fly selection of distributed traces
CN116862035A (zh) 航延预测方法、装置、设备和计算机可读存储介质
CN111931861B (zh) 一种异质性数据集的异常检测方法及计算机可读存储介质
CN110175287B (zh) 一种基于Flink的矩阵分解隐式反馈推荐方法和系统
CN114093055A (zh) 一种路谱生成的方法、装置、电子设备及介质
CN108346287A (zh) 基于影响因素分析的交通流量序列模式匹配方法
CN114168733A (zh) 一种基于复杂网络的法规检索方法及系统
CN113221966A (zh) 基于F_Max属性度量的差分隐私决策树构建方法
Chen et al. Meta-learning based Classification for moving object trajectories in Mobile IoT

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant