CN109409628B - 基于计量大数据聚类模型的采集终端生产厂商评价方法 - Google Patents

基于计量大数据聚类模型的采集终端生产厂商评价方法 Download PDF

Info

Publication number
CN109409628B
CN109409628B CN201810942541.4A CN201810942541A CN109409628B CN 109409628 B CN109409628 B CN 109409628B CN 201810942541 A CN201810942541 A CN 201810942541A CN 109409628 B CN109409628 B CN 109409628B
Authority
CN
China
Prior art keywords
index
acquisition terminal
acquisition
evaluation
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810942541.4A
Other languages
English (en)
Other versions
CN109409628A (zh
Inventor
翟峰
梁晓兵
曹永峰
付义伦
李保丰
刘海港
李熊
王伟峰
贾杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Zhejiang Electric Power Co Ltd
China Electric Power Research Institute Co Ltd CEPRI
Zhejiang Huayun Information Technology Co Ltd
Original Assignee
State Grid Corp of China SGCC
State Grid Zhejiang Electric Power Co Ltd
China Electric Power Research Institute Co Ltd CEPRI
Zhejiang Huayun Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Zhejiang Electric Power Co Ltd, China Electric Power Research Institute Co Ltd CEPRI, Zhejiang Huayun Information Technology Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN201810942541.4A priority Critical patent/CN109409628B/zh
Publication of CN109409628A publication Critical patent/CN109409628A/zh
Application granted granted Critical
Publication of CN109409628B publication Critical patent/CN109409628B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06395Quality analysis or management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0282Rating or review of business operators or products
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Marketing (AREA)
  • Educational Administration (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于计量大数据聚类模型的采集终端生产厂商评价方法,包括步骤:获取采集终端的原始数据,筛选衡量采集终端的评估指标;采用高斯混合模型聚类算法提取典型评估指标数据,获取聚类中心,形成决策矩阵,并对其分别按效益型和成本型进行标准化处理;分别计算采集终端各项评估指标基于层次分析法、熵权法、皮尔逊相关系数法以及变异系数法的权重,用指标权重的组合优化模型获得组合权重,对决策矩阵进行加权处理从而获得采集终端综合评估的评估矩阵;用夹角度量法对采集终端的质量进行综合评估,按照从高至低的顺序将各个采集终端供应商的质量进行优劣排序,获得评价结果。其可以为用用电信息采集系统采集运维工作提供支撑。

Description

基于计量大数据聚类模型的采集终端生产厂商评价方法
技术领域
本发明涉及电力系统领域,特别是涉及基于计量大数据聚类模型的采集终端生产厂商评价方法。
背景技术
自2011年国网开始大范围建设用电信息采集系统以来,用电信息采集系统越来越多得承担了营销侧的计量业务工作,采集终端定时定期地采集电能表数据项,按要求将采集信息上送系统,是用电信息采集系统的核心组成部分,其质量直接影响着用户用电信息的获取,针对其故障导致的运维也浪费了大量的人力物力。
用电信息采集系统覆盖范围的逐步扩大,采集的对象和采集频率逐年提高,各类计量数据和采集数据应用逐渐完善。以浙江的用电信息采集系统为例,用电信息采集每周数据增长量近1TB,历年累积收集的数据十分丰厚,并且在2015年建立的采集运维模块收集了大量的采集终端故障历史信息。但针对这些数据却缺少足够的数据挖掘手段,使数据金矿的价值难以体现。目前浙电采集大数据分析平台已经具备初步的数据分析能力,能够通过大数据技术分析计量装置运行数据,开展可靠性质量评估方法研究,进而提升公司计量精益化管理水平。
供电单位一般对采集终端的厂家运行质量评估停留在一些考核指标的基础上,以及针对地市单位反映的批量性故障收集上,相对比较粗犷。
发明内容
本发明要解决的技术问题和提出的技术任务是对现有技术方案进行完善与改进,提供基于计量大数据聚类模型的采集终端生产厂商评价方法,以达到对采集终端质量作出科学、合理的定量评价的目的。为此,本发明采取以下技术方案。
基于计量大数据聚类模型的采集终端生产厂商评价方法,其特征在于,包括如下步骤:
1)获取每个批次和区域中采集终端的原始数据,筛选获取衡量采集终端的评估指标:评估指标包括负荷采集合格率,电量数据采集率,无故障工作时间,反映采集异常的严重异常次数、一般异常次数、轻微异常次数,维修率和在线率;
2)采用高斯混合模型聚类算法提取采集终端海量数据中的评估指标数据,获取聚类中心,形成采集终端综合评估的决策矩阵,并对其分别按效益型和成本型进行标准化处理;
3)分别计算采集终端各项典型评估指标基于层次分析法、熵权法、皮尔逊相关系数法以及变异系数法的权重,然后用指标权重的组合优化模型获得组合权重,对决策矩阵进行加权处理从而获得采集终端综合评估的评估矩阵;
4)根据评估矩阵,用夹角度量法对采集终端的质量进行综合评估,按照从高至低的顺序将各个采集终端供应商的质量进行优劣排序,获得评价结果。
作为优选技术手段:在步骤1中,采用8个衡量采集终端的评估指标,分别为:负荷采集合格率α1,电量数据采集率α2,无故障工作时间α3,反映采集异常的严重异常次数α4、一般异常次数α5、轻微异常次数α6,维修率α7和在线率α8
Figure GDA0001944828370000021
Figure GDA0001944828370000022
Figure GDA0001944828370000023
Figure GDA0001944828370000024
Figure GDA0001944828370000025
Figure GDA0001944828370000026
Figure GDA0001944828370000027
Figure GDA0001944828370000028
式中:Nsamp是采样时间段的总个数,Tsamp,i是第i次采样的时间长度,
Figure GDA0001944828370000029
即总采样时间;Mi、mi、Ci、ci、bi和Bi分别是第i个采样时间段内采集终端负荷数据总个数、负荷数据合格的个数、理论应采集的数据量、实际采集的数据量、在线的采集终端个数和采集终端总个数;Fser,i、Fgen,i、Fun,i分别是第i个采样时间段内采集终端发生严重、一般和轻微故障的次数;Nsamp,F是首次出现Fser,i+Fgen,i+Fun,i≠0的采样时间段;Trate和TF分别是采集终端的额定运行时间和故障停运时间。
作为优选技术手段:在步骤2)高斯混合模型聚类算法中:
假设GMM由K个高斯分布混合而成,则每个高斯分布称作一个“组分”,这些“组分”线性相加即为GMM的概率密度函数:
Figure GDA0001944828370000031
Figure GDA0001944828370000032
式中:ωk表示第k个多维单高斯分布的权值,Nk(x;μk;Σk)表示第k个多维单高斯分布的概率密度函数,x表示数据样本列向量,μk表示第k个高斯模型的期望向量,Σk表示第k个高斯模型的方差;
采集终端数据的GMM聚类算法流程为:
205)令l=0,随机选择初始化的ω(l)(l)(l),求取第i个样本点xi属于第k类高斯模型的初始化后验概率:
Figure GDA0001944828370000033
206)将第201)步得到的结果代入最大似然公式计算第l+1次迭代的GMM聚类参数:
Figure GDA0001944828370000034
Figure GDA0001944828370000035
Figure GDA0001944828370000036
式中:N为待聚类的数据点个数;
207)若
Figure GDA0001944828370000037
成立(ε一般取10-5),则迭代结束,
Figure GDA0001944828370000038
即为估计得到的GMM聚类参数,继续下一步;否则,回到第202)步;
208)采用贝叶斯概率公式计算第i个样本点xi属于第k类高斯模型的概率:
Figure GDA0001944828370000041
根据贝叶斯概率最大准则,将第i个样本点xi划分到使其概率p(μkk|xi)取得最大的那类高斯模型中。
作为优选技术手段:在步骤2),决策矩阵为:
Figure GDA0001944828370000042
式中:dij表示第i个采集终端供应商第j个指标的值,P为采集终端供应商个数,Q为衡量供应商的采集终端的评价指标个数,其中Q等于8;
效益型指标标准化处理方法为:
Figure GDA0001944828370000043
成本型指标标准化处理方法为:
Figure GDA0001944828370000044
式中:
Figure GDA0001944828370000045
和/>
Figure GDA0001944828370000046
分别表示所有P个采集终端供应商中指标j的最小值和最大值;Ω1表示效益型指标集合,其中Ω1={1,2,3,8};Ω2表示成本型指标集合,其中Ω2={4,5,6,7}。
作为优选技术手段:在步骤3)中,分别采用层次分析法、熵权法、相关系数法和变异系数法计算采集终端指标权重,接着用指标的组合优化模型计算组合权重,其中:
层次分析法为:设Q个指标为U={u1,u2,…,uQ},每次取两个指标ui和uj,按1~9的比例用aij表示指标ui与uj对采集终端的影响程度之比,数值越大表示ui相对于uj越重要;这样即可获得一个采集终端评估问题的判断矩阵A=(aij)Q×Q,该判断矩阵具有如下性质:aij>0,aji=1/aij,(i=1,2,…,Q;j=1,2,…,Q);计算指标权重前首先对判断矩阵A进行一致性检验,如果一致性检验未通过,则说明aij取值前后矛盾,需要重新赋值;如果通过,则说明aij取值前后一致,判断矩阵A可用于求取指标权重;求取指标权重可以用列和求逆法,即:
Figure GDA0001944828370000047
将bj归一化,即可求得归一化后的指标权重为
Figure GDA0001944828370000051
式中:
Figure GDA0001944828370000052
且/>
Figure GDA0001944828370000053
采集终端指标的熵权为:
Figure GDA0001944828370000054
Figure GDA0001944828370000055
式中:κ表示常数κ=1/lnP,
Figure GDA0001944828370000056
并且假定fij=0时,fijlnfij=0;/>
Figure GDA0001944828370000057
且/>
Figure GDA0001944828370000058
计算皮尔逊相关系数权重包括:假设d′x=(d′1x,d′2x,...,d′Px)T和d′y=(d′1y,d′2y,...,d′Py)T表示标准化决策矩阵D′的两个列向量,则第x个指标和第y个指标之间的皮尔逊相关系数定义为
Figure GDA0001944828370000059
式中:
Figure GDA00019448283700000510
和/>
Figure GDA00019448283700000511
分别是向量d′x和d′y的平均值;基于皮尔逊相关系数的权重定义为
Figure GDA00019448283700000512
式中:
Figure GDA00019448283700000513
且/>
Figure GDA00019448283700000514
计算变异系数法权重包括:指标uj的变异系数定义为:
Figure GDA0001944828370000061
式中:
Figure GDA0001944828370000062
表示向量(d′1j,d′2j,...,d′Pj)T的平均值;基于变异系数法的指标权重定义为:
Figure GDA0001944828370000063
式中:
Figure GDA0001944828370000064
且/>
Figure GDA0001944828370000065
指标权重的组合优化模型为:
Figure GDA0001944828370000066
Figure GDA0001944828370000067
Figure GDA0001944828370000068
Figure GDA0001944828370000069
式中:
Figure GDA00019448283700000610
表示待优化的第j个采集终端指标的组合权重,/>
Figure GDA00019448283700000611
表示采用第k种方法求解得到的第j个指标的权重,G表示权重确定方法的数目,/>
Figure GDA00019448283700000612
表示/>
Figure GDA00019448283700000613
的隶属度函数;显然,/>
Figure GDA00019448283700000614
越大,权重/>
Figure GDA00019448283700000615
与最终的组合权重越贴近。
作为优选技术手段:在步骤4)用夹角度量法对采集终端的质量进行综合评估时,包括步骤:
405)形成P个待评估的供应商对应的Q个质量指标的评估矩阵
R=(rij)P×Q
式中:
Figure GDA00019448283700000616
406)计算采集终端评估中的理想点和负理想点,其分别为
Figure GDA00019448283700000617
Figure GDA00019448283700000618
式中:
Figure GDA0001944828370000071
407)分别计算每个供应商下的采集终端指标与理想点、负理想点的夹角距离,即
Figure GDA0001944828370000072
Figure GDA0001944828370000073
式中:ri=(ri1,ri2,...,riQ)表示评估矩阵R的第i个行向量;
408)计算每个供应商下的采集终端指标与理想点的夹角逼近程度,即
Figure GDA0001944828370000074
可以看出:第i个供应商生产的采集终端越好,γi愈接近于1;反之,质量越差,γi越接近于0;因此,可以根据γi取值的大小得到采集终端的评估结果。
有益效果:本技术方案及时利用其用采多年存储的大数据,建立可靠的质量评估指标体系,对采集终端质量作出科学、合理的定量评价,以提供物资招标的信息支持。
附图说明
图1为本发明流程图;
具体实施方式
为了更好地理解本发明的目的、技术方案以及技术效果,以下结合附图对本发明进行进一步的讲解说明。
参考图1,图1所示为本实施例的基于计量大数据聚类模型的采集终端生产厂商评价方法流程图,包括如下步骤:
S10,获取采集终端的原始数据,筛选8个衡量采集终端的评估指标:负荷采集合格率,电量数据采集率,无故障工作时间,反映采集异常的严重异常次数、一般异常次数、轻微异常次数,维修率和在线率;
在本实施例中:
采集终端分为供应商、型号、批次和单个设备四个层次,而计量自动化系统中一般以单个设备为单元存储数据。目前,在计量自动化系统中已采集的采集终端数据包含有负荷采集合格率α1,电量数据采集率α2,无故障工作时间α3,反映采集异常的严重异常次数α4、一般异常次数α5、轻微异常次数α6,维修率α7和在线率α8,其含义分别可以为:
Figure GDA0001944828370000081
Figure GDA0001944828370000082
Figure GDA0001944828370000083
Figure GDA0001944828370000084
Figure GDA0001944828370000085
Figure GDA0001944828370000086
Figure GDA0001944828370000087
式中:Nsamp是采样时间段的总个数,Tsamp,i是第i次采样的时间长度,
Figure GDA0001944828370000088
即总采样时间;Mi、mi、Ci、ci、bi和Bi分别是第i个采样时间段内采集终端负荷数据总个数、负荷数据合格的个数、理论应采集的数据量、实际采集的数据量、在线的采集终端个数和采集终端总个数;Fser,i、Fgen,i、Fun,i分别是第i个采样时间段内采集终端发生严重、一般和轻微故障的次数;Nsamp,F是首次出现Fser,i+Fgen,i+Fun,i≠0的采样时间段;Trate和TF分别是采集终端的额定运行时间和故障停运时间。
S20,采用大数据分析技术中的高斯混合模型聚类算法提取采集终端海量数据中的典型指标数据,获取聚类中心,形成采集终端综合评估的决策矩阵,并对其分别按效益型和成本型进行标准化处理;
在本实施例中:
每个供应商生产的采集终端数量众多、型号复杂,因此从系统中导出的采集终端数据无法直接应用于对每个供应商的质量评估。为此,可以用大数据分析技术中的数据聚类方法,挖掘各个供应商采集终端的典型特征,从而实现对其质量的综合评估。
高斯混合模型(Gaussian Mixture Model,GMM)用高斯分布概率密度函数来描述数据,它可以将一个大数据集分解为若干个符合高斯分布的模型。因此,高斯混合模型可用于数据聚类,提取数据集中的典型特征。假设GMM由K个高斯分布混合而成,则每个高斯分布称作一个“组分”,这些“组分”线性相加即为GMM的概率密度函数:
Figure GDA0001944828370000091
Figure GDA0001944828370000092
式中:ωk表示第k个多维单高斯分布的权值,Nk(x;μk;Σk)表示第k个多维单高斯分布的概率密度函数,x表示数据样本列向量,μk表示第k个高斯模型的期望向量,Σk表示第k个高斯模型的方差。
采集终端的质量受到多个独立因素的影响,且这些因素都不是决定性的。根据中心极限定理,可认为同一批次的采集终端的指标数据符合高斯分布。对于某一采集终端供应商下的K个批次的设备,可认为其质量的指标数据是K个高斯分布模型的叠加。因此,高斯混合模型聚类算法适用于挖掘采集终端的指标数据。在进行GMM聚类之前,首先需要估计各个高斯分布模型的参数,这里采用期望最大化算法进行估计。因此,采集终端数据的GMM聚类算法流程可以为:
201)令l=0,随机选择初始化的ω(l)(l)(l),求取第i个样本点xi属于第k类高斯模型的初始化后验概率:
Figure GDA0001944828370000093
202)将第201)步得到的结果代入最大似然公式计算第l+1次迭代的GMM聚类参数:
Figure GDA0001944828370000094
Figure GDA0001944828370000101
Figure GDA0001944828370000102
式中:N为待聚类的数据点个数。
203)若
Figure GDA0001944828370000103
成立(ε一般取10-5),则迭代结束,
Figure GDA0001944828370000104
即为估计得到的GMM聚类参数,继续下一步;否则,回到第202)步;
204)采用贝叶斯概率公式计算第i个样本点xi属于第k类高斯模型的概率:
Figure GDA0001944828370000105
根据贝叶斯概率最大准则,将第i个样本点xi划分到使其概率p(μkk|xi)取得最大的那类高斯模型中。
当所有的样本点均按照上述步骤划分到各自所属的高斯模型后,GMM聚类完成并获得了相应的聚类中心。GMM聚类算法舍弃了采集终端评估原始指标数据中冗余和不重要的信息,但保留了原始指标数据的重要数据和典型特征。因此,GMM聚类算法大大压缩了数据的规模、减少了综合评估的计算量,却几乎不影响采集终端综合评估的准确性。
设D为采集终端评估问题的决策矩阵,D中的元素dij表示第i个采集终端供应商第j个指标的值。因为不同指标间的量纲不同,所以不能直接对各个指标的重要程度进行比较,需要进行归一化处理。此外,采集终端指标还分为效益型和成本型两类,效益型指标数值越大代表质量越好,成本型指标数值越大代表质量越差。因此,在确定指标权重前首先要对D进行归一化处理以得到归一化后的决策矩阵D′,其归一化处理公式可以为:
Figure GDA0001944828370000106
Figure GDA0001944828370000107
式中:
Figure GDA0001944828370000108
和/>
Figure GDA0001944828370000109
分别表示所有P个采集终端供应商中指标j的最小值和最大值;Ω1表示效益型指标集合,其中Ω1={1,2,3,8};Ω2表示成本型指标集合,其中Ω2={4,5,6,7}。
S30,分别计算采集终端各项指标基于层次分析法、熵权法、皮尔逊相关系数法以及变异系数法的权重,然后用指标权重的组合优化模型获得组合权重,对决策矩阵进行加权处理从而获得采集终端综合评估的评估矩阵;
在本实施例中:
AHP法通过指标间两两比较重要程度,间接获得每个指标的权重,该方法属于一种主观赋权法。设Q个指标为U={u1,u2,…,uQ}。每次取两个指标ui和uj,按1~9的比例用aij表示指标ui与uj对采集终端的影响程度之比,数值越大表示ui相对于uj越重要。这样即可获得一个采集终端评估问题的判断矩阵A=(aij)Q×Q,该判断矩阵具有如下性质:aij>0,aji=1/aij,(i=1,2,…,Q;j=1,2,…,Q)。计算指标权重前首先对判断矩阵A进行一致性检验,如果一致性检验未通过,则说明aij取值前后矛盾,需要重新赋值;如果通过,则说明aij取值前后一致,判断矩阵A可用于求取指标权重。即可以为:
Figure GDA0001944828370000111
将bj归一化,即可求得归一化后的指标权重为
Figure GDA0001944828370000112
式中:
Figure GDA0001944828370000113
且/>
Figure GDA0001944828370000114
在信息学中,熵用来表征系统的无序程度和数据的离差程度。指标的信息熵越大则其在综合评估中提供的信息就越少,相应的权重也应该越小;反之,其信息熵越小,则权重应当越大。因此,采集终端指标uj的熵Hj可以定义为
Figure GDA0001944828370000115
式中:κ表示常数κ=1/lnP,
Figure GDA0001944828370000116
并且假定fij=0时,fijlnfij=0。据此,第j个采集终端指标的熵权可以定义为
Figure GDA0001944828370000117
式中:
Figure GDA0001944828370000121
且/>
Figure GDA0001944828370000122
在统计学中相关系数用于衡量两个变量之间的关联性,包括皮尔逊相关系数、斯皮尔曼相关系数和肯德尔相关系数等,其中皮尔逊相关系数更适用于符合正态分布的数据,因此本发明使用皮尔逊相关系数来计算指标间内在的相关程度。相关程度越大说明指标间信息的重复性越大,相应指标的权重应越小;反之,相关程度越小,权重应越大。假设d′x=(d′1x,d′2x,...,d′Px)T和d′y=(d′1y,d′2y,...,d′Py)T表示标准化决策矩阵D′的两个列向量,则第x个指标和第y个指标之间的皮尔逊相关系数可以定义为:
Figure GDA0001944828370000123
式中:
Figure GDA0001944828370000124
和/>
Figure GDA0001944828370000125
分别是向量d′x和d′y的平均值。因此,基于相关系数法的权重可以定义为
Figure GDA0001944828370000126
式中:
Figure GDA0001944828370000127
且/>
Figure GDA0001944828370000128
变异系数法是一种根据指标数据间的对比强度来确定指标权重的客观赋权法。某个指标的变异程度越大,说明其相对于其它指标的对比强度越大,则在综合评估中对评估对象的重要性越高,从而其权重也应越大;反之,变异程度越小,权重应越小。指标uj的变异系数可以定义为:
Figure GDA0001944828370000129
式中:
Figure GDA00019448283700001210
表示向量(d′1j,d′2j,...,d′Pj)T的平均值。因此,基于变异系数法的指标权重可以定义为/>
Figure GDA00019448283700001211
式中:
Figure GDA00019448283700001212
且/>
Figure GDA00019448283700001213
虽然上述4种主、客观方法简单易行,但均存在一定的不足。主观赋权法仅依照专家的经验,很容易导致主观偏好过强;客观赋权法仅凭借实际数据,但实际数据可能会出现一定误差,从而可能导致评估结果不符合实际。为了充分考虑依据专家经验的主观打分,同时依据数据本身的特征对权重进行修正,本发明基于权重隶属度最大,构建了采集终端指标权重的组合优化模型,即可以为
Figure GDA0001944828370000131
Figure GDA0001944828370000132
Figure GDA0001944828370000133
Figure GDA0001944828370000134
式中:
Figure GDA0001944828370000135
表示待优化的第j个采集终端指标的组合权重,/>
Figure GDA0001944828370000136
表示采用第k种方法求解得到的第j个指标的权重,G表示权重确定方法的数目,/>
Figure GDA0001944828370000137
表示/>
Figure GDA0001944828370000138
的隶属度函数。显然,/>
Figure GDA0001944828370000139
越大,权重/>
Figure GDA00019448283700001310
与最终的组合权重越贴近。
S40,根据评估矩阵,用夹角度量法对采集终端的质量进行综合评估,按照从高至低的顺序将各个采集终端供应商的质量进行优劣排序,获得评价结果。
在本实施例中:
确定各个采集终端指标的组合权重后,采集终端的综合质量评估可以转化为一个多属性决策问题。夹角度量法采用变量之间的夹角作为距离的测度,依据被评估对象与理想化目标的逼近程度进行排序。因此,基于夹角度量法的采集终端综合质量评估的流程可以为:
401)形成P个待评估的供应商对应的Q个质量指标的评估矩阵
R=(rij)P×Q
式中:
Figure GDA00019448283700001311
402)计算采集终端评估中的理想点和负理想点,其分别为
Figure GDA00019448283700001312
Figure GDA00019448283700001313
/>
式中:
Figure GDA0001944828370000141
403)分别计算每个供应商下的采集终端指标与理想点、负理想点的夹角距离,即
Figure GDA0001944828370000142
Figure GDA0001944828370000143
式中:ri=(ri1,ri2,...,riQ)表示评估矩阵R的第i个行向量。
404)计算每个供应商下的采集终端指标与理想点的夹角逼近程度,即
Figure GDA0001944828370000144
可以看出:第i个供应商生产的采集终端越好,γi愈接近于1;反之,质量越差,γi越接近于0。因此,可以根据γi取值的大小得到采集终端的评估结果。
为了进一步理解本发明,以下采用国网浙江省电力公司宁波供电公司管辖的某地区的采集终端数据进行算例仿真,该原始数据集共有11565条数据,经过数据清洗之后可用数据为11312条,共有17个待评估的采集终端供应商,每个供应商下有若干设备批次,所有的设备批次总数为58个。
将17个供应商及其58个批次的数据按顺序重新进行编号,以第1、3、12个供应商为例分析GMM聚类算法的效果。第1个供应商下有2个批次,共142台采集终端;第3个供应商下有4个批次,共496台采集终端,第12个供应商下有6个批次,共1514台采集终端。每台采集终端都有8个指标。
对每个供应商下的采集终端都进行GMM聚类分析,可以获得表征各个供应商的采集终端的典型采集终端,然后将这些典型采集终端相应的指标取平均值即可得到如表1所示的决策矩阵D′。
表1标准化后的采集终端决策矩阵
Figure GDA0001944828370000145
/>
Figure GDA0001944828370000151
表2分别给出了基于AHP、基于熵权法、相关系数法、变异系数法和组合优化模型的指标权重。从表2可以看出:客观权重对主观权重起到了一定的修正作用,按照专家经验,采集终端的严重异常指标α4应占有较大的权重,但另外三种客观赋权法都对α4给出了较小的权重,这是因为原始数据中各个供应商的α4数值差异不大。因此,和其它指标相比,该指标难以辨别各个供应商的采集终端优劣,故应当赋予较小的权重。
表2不同方法计算得到的指标权重
Figure GDA0001944828370000152
然后,基于得到的指标组合权重,形成采集终端的评估矩阵R,进而采用夹角度量法对采集终端的质量进行综合评估,最后得到如表3所示的采集终端综合评估的结果。
表3采集终端综合评估结果
Figure GDA0001944828370000153
Figure GDA0001944828370000161
从表3可以看出:采集终端最好的前9家采集终端供应商分别为:10、9、6、5、7、13、4、11和16,其中第10个供应商在采集终端综合评估中的评估值最高,第8个供应商的评估值最低。

Claims (5)

1.基于计量大数据聚类模型的采集终端生产厂商评价方法,其特征在于,包括如下步骤:
1)获取每个批次和区域中采集终端的原始数据,筛选获取衡量采集终端的评估指标,评估指标包括负荷采集合格率,电量数据采集率,无故障工作时间,反映采集异常的严重异常次数、一般异常次数、轻微异常次数,维修率和在线率;
2)采用高斯混合模型聚类算法提取采集终端海量数据中的评估指标数据,获取聚类中心,形成采集终端综合评估的决策矩阵,并对其分别按效益型和成本型进行标准化处理;
3)分别计算采集终端各项典型评估指标基于层次分析法、熵权法、皮尔逊相关系数法以及变异系数法的权重,然后用指标权重的组合优化模型获得组合权重,对决策矩阵进行加权处理从而获得采集终端综合评估的评估矩阵;
4)根据评估矩阵,用夹角度量法对采集终端的质量进行综合评估,按照从高至低的顺序将各个采集终端供应商的质量进行优劣排序,获得评价结果;
在步骤3)中,分别采用层次分析法、熵权法、相关系数法和变异系数法计算采集终端指标权重,接着用指标的组合优化模型计算组合权重,其中:
层次分析法为:设Q个指标为U={u1,u2,…,uQ},每次取两个指标ui和uj,按1~9的比例用aij表示指标ui与uj对采集终端的影响程度之比,数值越大表示ui相对于uj越重要;这样即可获得一个采集终端评估问题的判断矩阵A=(aij)Q×Q,该判断矩阵具有如下性质:aij>0,aji=1/aij,i=1,2,…,Q;j=1,2,…,Q;计算指标权重前首先对判断矩阵A进行一致性检验,如果一致性检验未通过,则说明aij取值前后矛盾,需要重新赋值;如果通过,则说明aij取值前后一致,判断矩阵A可用于求取指标权重;求取指标权重可以用列和求逆法,即:
Figure FDA0004124978620000011
将bj归一化,即可求得归一化后的指标权重为
Figure FDA0004124978620000012
式中:
Figure FDA0004124978620000013
且/>
Figure FDA0004124978620000014
采集终端指标的熵权为:
Figure FDA0004124978620000021
Figure FDA0004124978620000022
式中:κ表示常数κ=1/ln P,
Figure FDA0004124978620000023
并且假定fij=0时,fijln fij=0;/>
Figure FDA0004124978620000024
且/>
Figure FDA0004124978620000025
计算皮尔逊相关系数权重时:假设d′x=(d′1x,d′2x,...,d′Px)T和d′y=(d′1y,d′2y,...,d′Py)T表示标准化决策矩阵D′的两个列向量,则第x个指标和第y个指标之间的皮尔逊相关系数定义为
Figure FDA0004124978620000026
式中:
Figure FDA0004124978620000027
和/>
Figure FDA0004124978620000028
分别是向量d′x和d′y的平均值;基于皮尔逊相关系数的权重定义为
Figure FDA0004124978620000029
式中:
Figure FDA00041249786200000210
且/>
Figure FDA00041249786200000211
计算变异系数法权重时:指标uj的变异系数定义为:
Figure FDA00041249786200000212
式中:
Figure FDA00041249786200000213
表示向量(d′1j,d′2j,...,d′Pj)T的平均值;基于变异系数法的指标权重定义为:
Figure FDA0004124978620000031
式中:
Figure FDA0004124978620000032
且/>
Figure FDA0004124978620000033
指标权重的组合优化模型为:
Figure FDA0004124978620000034
Figure FDA0004124978620000035
Figure FDA0004124978620000036
Figure FDA0004124978620000037
式中:
Figure FDA0004124978620000038
表示待优化的第j个采集终端指标的组合权重,/>
Figure FDA0004124978620000039
表示采用第k种方法求解得到的第j个指标的权重,G表示权重确定方法的数目,/>
Figure FDA00041249786200000310
表示/>
Figure FDA00041249786200000311
的隶属度函数;显然,
Figure FDA00041249786200000312
越大,权重/>
Figure FDA00041249786200000313
与最终的组合权重越贴近;
在步骤2),决策矩阵为:
Figure FDA00041249786200000314
式中:dij表示第i个采集终端供应商第j个指标的值,P为采集终端供应商个数,Q为衡量供应商的采集终端的评价指标个数;
效益型指标标准化处理方法为:
Figure FDA00041249786200000315
成本型指标标准化处理方法为:
Figure FDA00041249786200000316
式中:
Figure FDA0004124978620000041
和/>
Figure FDA0004124978620000042
分别表示所有P个采集终端供应商中指标j的最小值和最大值;Ω1表示效益型指标集合;Ω2表示成本型指标集合。
2.根据权利要求1所述的基于计量大数据聚类模型的采集终端生产厂商评价方法,其特征在于,在步骤1中,采用8个衡量采集终端的评估指标,分别为:负荷采集合格率α1,电量数据采集率α2,无故障工作时间α3,反映采集异常的严重异常次数α4、一般异常次数α5、轻微异常次数α6,维修率α7和在线率α8
Figure FDA0004124978620000043
Figure FDA0004124978620000044
Figure FDA0004124978620000045
Figure FDA0004124978620000046
Figure FDA0004124978620000047
Figure FDA0004124978620000048
Figure FDA0004124978620000049
Figure FDA00041249786200000410
式中:Nsamp是采样时间段的总个数,Tsamp,i是第i次采样的时间长度,
Figure FDA00041249786200000411
即总采样时间;Mi、mi、Ci、ci、bi和Bi分别是第i个采样时间段内采集终端负荷数据总个数、负荷数据合格的个数、理论应采集的数据量、实际采集的数据量、在线的采集终端个数和采集终端总个数;Fser,i、Fgen,i、Fun,i分别是第i个采样时间段内采集终端发生严重、一般和轻微故障的次数;Nsamp,F是首次出现Fser,i+Fgen,i+Fun,i≠0的采样时间段;Trate和TF分别是采集终端的额定运行时间和故障停运时间。
3.根据权利要求1的基于计量大数据聚类模型的采集终端生产厂商评价方法,其特征在于,在步骤2)高斯混合模型聚类算法中:
假设GMM由K个高斯分布混合而成,则每个高斯分布称作一个“组分”,这些“组分”线性相加即为GMM的概率密度函数:
Figure FDA0004124978620000051
Figure FDA0004124978620000052
式中:ωk表示第k个多维单高斯分布的权值,Nk(x;μk;Σk)表示第k个多维单高斯分布的概率密度函数,x表示数据样本列向量,μk表示第k个高斯模型的期望向量,Σk表示第k个高斯模型的方差;
采集终端数据的GMM聚类算法流程为:
201)令l=0,随机选择初始化的ω(l)(l)(l),求取第i个样本点xi属于第k类高斯模型的初始化后验概率:
Figure FDA0004124978620000053
202)将第201)步得到的结果代入最大似然公式计算第l+1次迭代的GMM聚类参数:
Figure FDA0004124978620000054
Figure FDA0004124978620000055
Figure FDA0004124978620000056
式中:N为待聚类的数据点个数;
203)若
Figure FDA0004124978620000061
成立,则迭代结束,/>
Figure FDA0004124978620000062
即为估计得到的GMM聚类参数,继续下一步;否则,回到第202)步;
204)采用贝叶斯概率公式计算第i个样本点xi属于第k类高斯模型的概率:
Figure FDA0004124978620000063
根据贝叶斯概率最大准则,将第i个样本点xi划分到使其概率p(μkk|xi)取得最大的那类高斯模型中。
4.根据权利要求1的基于计量大数据聚类模型的采集终端生产厂商评价方法,其特征在于,
Q等于8;Ω1={1,2,3,8};Ω2={4,5,6,7}。
5.根据权利要求1的基于计量大数据聚类模型的采集终端生产厂商评价方法,其特征在于,在步骤4)用夹角度量法对采集终端的质量进行综合评估时,包括步骤:
401)形成P个待评估的供应商对应的Q个质量指标的评估矩阵
R=(rij)P×Q
式中:
Figure FDA0004124978620000064
402)计算采集终端评估中的理想点和负理想点,其分别为
Figure FDA0004124978620000065
Figure FDA0004124978620000066
式中:
Figure FDA0004124978620000067
403)分别计算每个供应商下的采集终端指标与理想点、负理想点的夹角距离,即
Figure FDA0004124978620000068
Figure FDA0004124978620000071
式中:ri=(ri1,ri2,...,riQ)表示评估矩阵R的第i个行向量;
404)计算每个供应商下的采集终端指标与理想点的夹角逼近程度,即
Figure FDA0004124978620000072
可以看出:第i个供应商生产的采集终端越好,γi愈接近于1;反之,质量越差,γi越接近于0;因此,可以根据γi取值的大小得到采集终端的评估结果。
CN201810942541.4A 2018-08-17 2018-08-17 基于计量大数据聚类模型的采集终端生产厂商评价方法 Active CN109409628B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810942541.4A CN109409628B (zh) 2018-08-17 2018-08-17 基于计量大数据聚类模型的采集终端生产厂商评价方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810942541.4A CN109409628B (zh) 2018-08-17 2018-08-17 基于计量大数据聚类模型的采集终端生产厂商评价方法

Publications (2)

Publication Number Publication Date
CN109409628A CN109409628A (zh) 2019-03-01
CN109409628B true CN109409628B (zh) 2023-07-04

Family

ID=65463581

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810942541.4A Active CN109409628B (zh) 2018-08-17 2018-08-17 基于计量大数据聚类模型的采集终端生产厂商评价方法

Country Status (1)

Country Link
CN (1) CN109409628B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109977106B (zh) * 2019-04-08 2021-05-28 福建省特种设备检验研究院 一种基于熵权法的压力容器结构化数据质量评估方法
CN112348296B (zh) * 2019-08-07 2023-12-22 中移信息技术有限公司 电信数据获取方法、装置、设备及存储介质
CN111105041B (zh) * 2019-12-02 2022-12-23 成都四方伟业软件股份有限公司 一种用于智慧数据碰撞的机器学习方法及装置
CN111598387A (zh) * 2020-04-08 2020-08-28 中国电力科学研究院有限公司 一种于多维度确定电能表质量的方法及系统
CN111898903A (zh) * 2020-07-28 2020-11-06 北京科技大学 一种钢铁产品均匀性和综合质量评估方法及系统
CN114091796B (zh) * 2020-12-11 2022-08-09 深圳传世智慧科技有限公司 一种用于管理变革项目的多参量评估系统及预警方法
CN113657747B (zh) * 2021-08-12 2023-06-16 中国安全生产科学研究院 一种企业安全生产标准化级别智能评定系统
CN113554366B (zh) * 2021-09-23 2021-12-14 山东大学 消毒产品生产企业的分类监督方法及相关设备
CN115860510B (zh) * 2022-10-31 2023-08-15 浙江淏瀚信息科技有限公司 一种基于大数据的生产效率分析评估方法
CN115496304B (zh) * 2022-11-16 2023-08-29 国网江苏省电力有限公司营销服务中心 一种代理购电量预测算法的立体综合评价方法及系统
CN116523397B (zh) * 2023-04-25 2024-03-08 长安大学 基于熵权法和gmm聚类算法的城市交通网络弹性评估方法
CN116629709B (zh) * 2023-07-21 2023-10-20 国网山东省电力公司青岛市即墨区供电公司 一种供电指标的智能化分析报警系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103530823A (zh) * 2013-10-25 2014-01-22 湖南大学 基于otfn-ahp的微电网规划设计综合评价体系
CN108108875A (zh) * 2017-11-29 2018-06-01 国家电网公司 一种基于合作博弈法和梯形云模型的配电网运行状态模糊综合评价方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101334893B (zh) * 2008-08-01 2011-05-04 天津大学 基于模糊神经网络的融合图像质量综合评价方法
US9760802B2 (en) * 2010-01-27 2017-09-12 Ebay Inc. Probabilistic recommendation of an item
CN103235894A (zh) * 2013-05-08 2013-08-07 华东理工大学 基于自适应优选模糊核聚类的石脑油属性聚类方法
US10210518B2 (en) * 2016-04-13 2019-02-19 Abdullah Abdulaziz I. Alnajem Risk-link authentication for optimizing decisions of multi-factor authentications
CN107480856A (zh) * 2017-07-06 2017-12-15 浙江大学 基于改进逼近理想解排序法的售电公司电力客户评估方法
CN107482626B (zh) * 2017-08-17 2020-09-25 广东电网有限责任公司惠州供电局 一种区域电网关键节点识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103530823A (zh) * 2013-10-25 2014-01-22 湖南大学 基于otfn-ahp的微电网规划设计综合评价体系
CN108108875A (zh) * 2017-11-29 2018-06-01 国家电网公司 一种基于合作博弈法和梯形云模型的配电网运行状态模糊综合评价方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨传明 ; .低碳供应链环境下供应商评价与选择研究.生态经济.2017,(第04期),第73-78页. *

Also Published As

Publication number Publication date
CN109409628A (zh) 2019-03-01

Similar Documents

Publication Publication Date Title
CN109409628B (zh) 基于计量大数据聚类模型的采集终端生产厂商评价方法
CN109389145B (zh) 基于计量大数据聚类模型的电能表生产厂商评价方法
CN108520357B (zh) 一种线损异常原因的判别方法、装置及服务器
CN105046402B (zh) 一种应用于智能变电站二次设备的状态评估方法
CN109597968B (zh) 基于smt大数据的锡膏印刷性能影响因素分析方法
CN113126019B (zh) 一种智能电表误差远程估计方法、系统、终端和存储介质
CN110222991B (zh) 基于rf-gbdt的计量装置故障诊断方法
CN107527114A (zh) 一种基于大数据的线路台区异常分析方法
CN111949939B (zh) 基于改进topsis和聚类分析的智能电表运行状态评价方法
CN109359796A (zh) 一种基于多评估指标的电能表生产厂商评价方法
CN109389282A (zh) 一种基于高斯混合模型的电能表生产厂商评价方法
Ma et al. Topology identification of distribution networks using a split-EM based data-driven approach
CN109389280A (zh) 基于多属性决策模型的电能表生产厂商评价方法
CN111612371A (zh) 一种基于层次分析法的智能电表质量评估方法
CN116187838A (zh) 一种电力设备的质量评估方法、系统、装置及存储介质
CN109409629B (zh) 基于多属性决策模型的采集终端生产厂商评价方法
CN114757572A (zh) 一种考虑不确定性的机电产品关键质量特性确定方法
CN110837952A (zh) 一种基于博弈论的电网新技术设备选择方法及系统
CN107274025B (zh) 一种实现用电模式智能识别与管理的系统和方法
CN117592656A (zh) 基于碳数据核算的碳足迹监控方法及系统
CN109389281A (zh) 一种基于高斯混合模型的采集终端生产厂商评价方法
CN115051363A (zh) 一种配网台区户变关系辨识方法、装置及计算机存储介质
CN114139408A (zh) 一种电力变压器健康状态评估方法
CN112256735A (zh) 一种用电监测方法、装置、计算机设备和存储介质
CN107491576B (zh) 基于性能退化数据的导弹部件可靠性分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant