CN105354685A - 基于图的距离分类和主成分分析的评价指标体系构建方法 - Google Patents

基于图的距离分类和主成分分析的评价指标体系构建方法 Download PDF

Info

Publication number
CN105354685A
CN105354685A CN201510884234.1A CN201510884234A CN105354685A CN 105354685 A CN105354685 A CN 105354685A CN 201510884234 A CN201510884234 A CN 201510884234A CN 105354685 A CN105354685 A CN 105354685A
Authority
CN
China
Prior art keywords
index
distance
principal component
component analysis
pca
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510884234.1A
Other languages
English (en)
Other versions
CN105354685B (zh
Inventor
刘永
招国栋
刘清
张志军
章求才
贺桂成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanhua University
University of South China
Original Assignee
University of South China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of South China filed Critical University of South China
Priority to CN201510884234.1A priority Critical patent/CN105354685B/zh
Publication of CN105354685A publication Critical patent/CN105354685A/zh
Application granted granted Critical
Publication of CN105354685B publication Critical patent/CN105354685B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/02Agriculture; Fishing; Forestry; Mining

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Theoretical Computer Science (AREA)
  • General Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Agronomy & Crop Science (AREA)
  • Primary Health Care (AREA)
  • Mining & Mineral Resources (AREA)
  • Animal Husbandry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Marine Sciences & Fisheries (AREA)
  • Health & Medical Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种基于图的距离分类和主成分分析的评价指标体系构建方法,初始评价指标的选取;进行基于图的距离分类的指标分类;进行基于主成分分析的指标筛选;得到简化后的指标体系。利用相关系数与图论中的最短路径相结合的分类方法-图的距离分类法,将相关程度较高的元素划分为一类,从各类中选取指标代表元进行主成分分析,减少信息处理的工作量。选取主成分分析中保留指标及其与保留指标同属一类的指标作为构建指标体系的重要指标,避免重要指标的缺失。

Description

基于图的距离分类和主成分分析的评价指标体系构建方法
技术领域
本发明属于信息处理技术领域,涉及一种基于图的距离分类和主成分分析的评价指标体系构建方法。
背景技术
评价指标的选取以及指标体系是否合理对评价结果有着至关重要的影响。那么,如何在复杂庞大的指标体系中筛选指标是评价指标体系构建的一个难题。若对所有的指标进行评价,必定会因为指标过细过多而极大地增加信息处理的工作量;若只是单独的选出部分指标,可能会损失很多原始数据信息,导致评价结果的不准确性。
文献:《基于相关-主成分分析的人的全面发展评价指标体系构建》系统工程理论与实践基于相关-主成分分析的指标体系构建方法,其指标筛选思路为:
1)通过相关性分析删除同一准则层内相关系数大的指标,避免了指标的信息重复;
2)通过出成分分析删除因子负载小的指标,保证筛选出的指标对评价结果有显著影响。
指标筛选的相关性分析:
通过计算两个评价指标之间的相关系数,删除相关系数较大的评价指标,消除评价指标所反映的信息重复对评价结果的影响,简化指标体系相关性分析筛选指标的好处是剔除信息重复的指标。
具体步骤如下:
(1)计算各个评价指标之间的相关系数。设rij为第i个指标和第j个指标之间的相关系数,zki为第k个评价对象第i个指标的值,为第i个指标的平均值。
根据相关系数计算公式,则rij
r i j = Σ k = 1 n ( z k i - z ‾ i ) ( z k j - z ‾ j ) Σ k = 1 n ( z k i - z ‾ i ) 2 ( z k j - z ‾ j ) 2
(2)规定一个临界值M(0<M<1),如果|rij|>M,则可以删除其中的一个评价指标;如果|rij|<M,则同时保留两个评价指标。
指标筛选的主成分分析:
主成分的实质是观测指标的线性组合,主成分分析的模型为:
Fj=αj1X1j2X2+Λ+αjiXi+Λ+αjmXm,j=1,2,Λ,k
其中,Xi为第i个指标(i=1,2,Λ,m);Fj为第j个主成分(j=1,2,Λ,k);αji为对应第j个特征值的特征向量的第i个分量;k为主成分的个数;m为指标个数。
主成分分析的具体步骤:
(1)求标准化指标值的相关系数矩阵Rm×m
(2)求矩阵R的特征值λj(j=1,2,Λ,m),λj表示第j个主成分Fj所解释的原始指标数据的总方差,则主成分Fj对原始指标数据的方差贡献率ωj为:
&omega; j = &lambda; j / &Sigma; j = 1 k &lambda; j
(3)将特征值λj按从大到小的顺序排列,根据累积方差贡献率≥85%的要求选取前k个特征值对应的主成分,得到第i个指标在第j个主成分上因子负载bij矩阵
&alpha; i j = b i j / &lambda; i
主成分分析对评价指标的筛选:根据主成分Fj上因子负载的绝对值|bij|筛选指标。|bij|越大表明指标i对评价结果的影响越显著,越应当保留;|bij|越小则表明指标对评价结果的影响越弱,越应当剔除。
现有技术具有以下缺点:
1)相关性分析所得的相关系数所体现的仅是数据之间的相关性,不代表指标之间的影响程度的相关性。A与B的相关系数很大,但两者对评价对象的影响是独立的,若仅根据相关性删除其中一个,可能会造成重要指标的缺失;
2)在指标多样复杂的情况下进行主成分分析,若未进行分类,会增加主成分分析信息处理的工作量,数据分析时舍弃的一部分成分中也可能存在与选取主成分中主要元素相关程度高的元素,影响评价结果。A与B的相关程度很高,数据分析时,若A对评价结果有显著影响,那么B也应对评价结果有显著影响,在主成分分析过程中,很可能出现A为选取主成分中的主要元素,而B为舍弃主成分中的元素,则必然会剔除掉B,这样就会造成重要指标B的缺失。
发明内容
本发明的目的是提供一种基于图的距离分类和主成分分析的评价指标体系构建方法,利用相关系数与图论中的最短路径相结合的分类方法-图的距离分类法,将相关程度较高的元素划分为一类,从各类中选取指标代表元进行主成分分析,减少信息处理的工作量。选取主成分分析中保留指标及其与保留指标同属一类的指标作为构建指标体系的重要指标,避免重要指标的缺失。
本发明所采用的技术方案是,一种基于图的距离分类和主成分分析的评价指标体系构建方法,按照以下步骤进行:
步骤1,初始评价指标的选取;
步骤2,进行基于图的距离分类的指标分类;
步骤3,进行基于主成分分析的指标筛选;
步骤4,得到简化后的指标体系。
本发明的特征还在于,进一步的,所述步骤2按照以下步骤进行:
步骤a,数据标准化;
设xi为某个指标的观察值,其中i=1,2,…,n,xi′为标准化数据,令
x &OverBar; = 1 n &Sigma; i = 1 n x i
s = 1 n &Sigma; i = 1 n ( x i - x &OverBar; ) 2
那么标准化公式为
x i &prime; = x i - x &OverBar; s ;
其中,xi为指标的观察值,n为指标的个数,s分别为指标观察值的均值、标准差,xi′为指标的标准化数据;
步骤b,基于相关系数计算指标之间的距离;
计算指标之间的相关系数,以相关系数的倒数作为两个指标之间的距离,相关系数越大就体现了两个指标之间的距离越短;相关系数计算公式为
r i j = &Sigma; k = 1 n ( x k i - x &OverBar; i ) ( x k j - x &OverBar; j ) &Sigma; k = 1 n ( x k i - x &OverBar; i ) 2 ( x k j - x &OverBar; j ) 2 , i = 1 , 2 , &Lambda; , n ; j = 1 , 2 , &Lambda; , m
其中rij为第i个指标与第j个指标之间的相关系数,xki和xkj分别为第k个评价对象第i和j个指标的值,分别为第i和j个指标的平均值;
通过相关系数来体现指标之间的距离,取相关系数的倒数作为指标之间的距离,设dij为第i个指标与第j个指标之间的距离,即
d i j = 1 r i j , i &NotEqual; j 0 , i = j ;
将标准化数据代入相关系数计算公式,得到相关系数矩阵;指标之间的距离即为指标之间相关系数的倒数;
步骤c,
基于Floyd算法计算指标之间的最短路径距离;
根据指标之间的距离得到距离完全赋权图G,以初始指标作为图G上的顶点,求出图G上任意两点间的最短路径距离,即为指标之间的最短路径距离;
令每一个指标对应图G中的一个顶点v,设G的顶点集为V={v1,v2,Λ,vk},则边集 E = { ( v i , v j ) | &ForAll; v i &Element; V , &ForAll; v j &Element; V , v i &NotEqual; v j } ( 1 &le; i , j &le; k ) , 那么图G是一个完全简单图;
设每条边(vi,vj)(i≠j)所对应的赋权为
wij=dij
将图G中每一条边都赋权wij,则称G是一个完全赋权图,在图G中用最短路算法计算出任意两个顶点之间的最短距离;设d′ij为顶点vi(i=1,2,Λ,k)到顶点vj(j=1,2,Λ,k)的最短路径距离,采用Floyd算法计算图G上任意两点之间的最短路径;
步骤d,基于图论的最短路径距离进行指标分类;
对指标进行分类,其实质就是对图G顶点集的一个划分,即
V=V1YV2YΛYVt
其中ViΙVj=Φ(i,j=1,2,Λ,t)且
ρ为距离参数。
进一步的,所述步骤c中采用Floyd算法按照以下步骤进行:输入完全赋权图的权矩阵W=[wij]n×n;对于顶点vi和vj,在邻接矩阵中,当存在eik+ekj<eij时,则更新数值,用eik+ekj代替eij的值,找出最短路径,得到最短路径矩阵D[d′ij]n×n,其中eij为图G上顶点vi到vj的距离,即边(vi,vj)的赋权值,eik、ekj则分别为边(vi,vk)和边(vk,vj)的赋权值,d′ij=min[e(vi,vj)]。
进一步的,所述步骤3按照以下步骤进行:
步骤a,选取指标代表元;
从指标分类中选出指标代表元作为主成分分析的指标,根据指标分类中各指标之间的最短距离关系图,算出各个指标到其他指标的距离之和,距离之和越小说明该指标与其他指标的关系越密切,选取距离之和最小的指标作为指标代表元进行主成分分析;
步骤b,主成分分析;
主成分分析的基本模型为
z 1 = l 11 x 1 + l 12 x 2 + &Lambda; + l 1 p x p z 2 = l 21 x 1 + l 22 x 2 + &Lambda; + l 2 p x p M z m = l m 1 x 1 + l m 2 x 2 + &Lambda; + l m p x p
其中xi为第i个指标,其中i=1,2,Λ,p,zj为第j个主成分,其中j=1,2,Λ,m,lij为第j个主成分中第i个指标对应的主成分载荷;
主成分分析指标筛选的具体步骤如下:
1:计算标准化指标值的相关系数矩阵R=(rij)p×p,其中rii=1;
2:计算相关系数矩阵R的特征值及特征向量、方差贡献率及累计贡献率、主成分因子载荷;
3:根据特征值或累计贡献率选择主成分,确定主成分个数m;
4:根据主成分上因子载荷的绝对值筛选指标;因子载荷绝对值越大说明指标对评价结果的影响越明显,越应当保留;因子载荷绝对值越小则说明指标对评价结果的影响越弱,越应当剔除。
进一步的,所述步骤4按照以下步骤进行:指标分类中,各类中的指标数据相关性很高,主成分分析中保留下来的指标对评价结果有显著影响,与其同属一类的指标即数据相关性高的对评价结果也有显著影响,应同时作为构建指标体系的重要指标。
本发明的有益效果是在指标复杂多样的情况下,利用相关系数与图论中的最短路径相结合的分类方法——图的距离分类法,将相关程度较高的元素划分为一类,从各类中选取指标代表元进行主成分分析,减少了进行主成分分析的指标个数,也就减少了信息处理的工作量,避免了重复信息的分析工作;根据主成分分析的筛选结果,保留指标作为构建指标体系的重要指标,表明指标对评价结果有显著影响,那么,在指标分类中与保留指标属于同一类的指标也对评价结果有显著影响,也作为重要指标,避免了重要指标的缺失。
附图说明
图1是本发明中指标体系的构建步骤图。
图2是指标分类图。
图3是G2中各指标之间的最短距离关系图。
图4是退役铀尾矿库环境质量评价指标体系图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
一种基于图的距离分类和主成分分析的评价指标体系构建方法,具体按照以下步骤进行:
实施例
以退役铀尾矿库环境质量评价指标体系的构建为例,介绍了图的距离分类与主成分分析相结合的指标体系构建方法,以图的距离分类法来进行指标分类,以主成分分析法来进行指标筛选,具体步骤如图1所示。
1)初始评价指标的选取
根据评价目的,并考虑现有环境监测数据的可获得性以及完整性等因素,在构建环境质量评价指标体系时侧重从污染角度考虑,选择尾矿库渗水环境指标和坝体及周围辐射环境指标作为两大类指标,其中渗水环境指标有PH、∑α、∑β、U、Ra、230Th、∑Th、210Po、210Pb、Mn、NH4-N、F-、SO4 2-、NO3 -、Zn、Cd;周围辐射环境指标主要有氡气、氡析出率、α气溶胶、γ、表面α、表面β。
2)基于图的距离分类的指标分类
(1)数据标准化
实际应用中常存在指标量纲不同的情况,为了消除量纲的影响,需要对数据进行无量纲化处理,常用方法是将原始数据标准化。
设xi(i=1,2,Λ,n)为某个指标的观察值,xi′为标准化数据,令
x &OverBar; = 1 n &Sigma; i = 1 n x i
s = 1 n &Sigma; i = 1 n ( x i - x &OverBar; ) 2
那么标准化公式为
x i &prime; = x i - x &OverBar; s
其中,xi为指标的观察值,n为指标的个数,s分别为指标观察值的均值和标准差,xi′为指标的标准化数据。
选取退役铀尾矿库渗水环境指标作为研究,以现有退役铀尾矿库六个坝段(A-F)渗水的水样监测项目数据作为样本,原始数据来源于现有退役铀尾矿库环境监测报告。退役铀尾矿库渗水指标标准化数据见表1。
表1退役铀尾矿库渗水指标的标准化数据
(2)基于相关系数计算指标之间的距离
计算指标之间的相关系数,以相关系数的倒数作为两个指标之间的距离,相关系数越大就体现了两个指标之间的距离越短。
相关系数计算公式为
r i j = &Sigma; k = 1 n ( x k i - x &OverBar; i ) ( x k j - x &OverBar; j ) &Sigma; k = 1 n ( x k i - x &OverBar; i ) 2 ( x k j - x &OverBar; j ) 2 , i = 1 , 2 , &Lambda; , n ; j = 1 , 2 , &Lambda; , m
其中rij为第i个指标与第j个指标之间的相关系数,xki和xkj分别为第k个评价对象第i和j个指标的值,分别为第i和j个指标的平均值。
通过相关系数来体现指标之间的距离,取相关系数的倒数作为指标之间的距离,设dij为第i个指标与第j个指标之间的距离,即
d i j = 1 r i j , i &NotEqual; j 0 , i = j
将表1中渗水指标标准化数据代入相关系数计算公式,得到相关系数矩阵,如表2所示,指标之间的距离即为指标之间相关系数的倒数。
表2渗水指标之间的相关系数矩阵表
rij v1 v2 v3 v4 v5 v6 v7 v8 v9 v10 v11 v12 v13 v14 v15 v16
v1 1.00 0.40 0.69 0.37 -0.60 -0.46 -0.47 0.33 -0.55 0.32 -0.72 0.80 0.83 0.77 0.36 0.60
v2 0.40 1.00 0.86 0.97 0.12 0.03 0.21 -0.45 0.09 0.91 0.06 0.33 0.13 -0.03 -0.35 -0.30
v3 0.69 0.86 1.00 0.90 -0.39 -0.47 -0.31 -0.34 -0.42 0.90 -0.44 0.40 0.34 0.21 -0.27 -0.05
v4 0.37 0.97 0.90 1.00 -0.01 -0.11 0.08 -0.50 -0.05 0.96 -0.05 0.26 0.06 -0.08 -0.39 -0.33
v5 -0.60 0.12 -0.39 -0.01 1.00 0.91 0.95 -0.25 0.99 -0.14 0.96 -0.23 -0.32 -0.35 -0.24 -0.55
v6 -0.46 0.03 -0.47 -0.11 0.91 1.00 0.96 0.15 0.94 -0.29 0.85 0.07 -0.20 -0.21 0.18 -0.18
v7 -0.47 0.21 -0.31 0.08 0.95 0.96 1.00 -0.08 0.97 -0.10 0.88 0.02 -0.22 -0.25 -0.02 -0.39
v8 0.33 -0.45 -0.34 -0.50 -0.25 0.15 -0.08 1.00 -0.15 -0.59 -0.28 0.61 0.38 0.45 0.98 0.93
v9 -0.55 0.09 -0.42 -0.05 0.99 0.94 0.97 -0.15 1.00 -0.20 0.94 -0.14 -0.25 -0.27 -0.13 -0.46
v10 0.32 0.91 0.90 0.96 -0.14 -0.29 -0.10 -0.59 -0.20 1.00 -0.11 0.06 -0.10 -0.23 -0.52 -0.36
v11 -0.72 0.06 -0.44 -0.05 0.96 0.85 0.88 -0.28 0.94 -0.11 1.00 -0.41 -0.55 -0.58 -0.30 -0.57
v12 0.80 0.33 0.40 0.26 -0.23 0.07 0.02 0.61 -0.14 0.06 -0.41 1.00 0.79 0.76 0.70 0.68
v13 0.83 0.13 0.34 0.06 -0.32 -0.20 -0.22 0.38 -0.25 -0.10 -0.55 0.79 1.00 0.99 0.43 0.52
v14 0.77 -0.03 0.21 -0.08 -0.35 -0.21 -0.25 0.45 -0.27 -0.23 -0.58 0.76 0.99 1.00 0.50 0.56
v15 0.36 -0.35 -0.27 -0.39 -0.24 0.18 -0.02 0.98 -0.13 -0.52 -0.30 0.70 0.43 0.50 1.00 0.90
v16 0.60 -0.30 -0.05 -0.33 -0.55 -0.18 -0.39 0.93 -0.46 -0.36 -0.57 0.68 0.52 0.56 0.90 1.00
(3)基于Floyd算法计算指标之间的最短路径距离
根据指标之间的距离得到距离完全赋权图G(此处距离完全赋权图G不是附图G),以渗水指标作为图G上的顶点,求出图G上任意两点间的最短路径距离,即为指标之间的最短路径距离。
令每一个指标对应图G中的一个顶点v,设G的顶点集为V={v1,v2,Λ,vk},则边集 E = { ( v i , v j ) | &ForAll; v i &Element; V , &ForAll; v j &Element; V , v i &NotEqual; v j } ( 1 &le; i , j &le; k ) , 那么图G是一个完全简单图。
设每条边(vi,vj)(i≠j)所对应的赋权为
wij=dij
将图G中每一条边都赋权wij,则称G是一个完全赋权图,在图G中用最短路算法计算出任意两个顶点之间的最短距离。设d′ij为顶点vi(i=1,2,Λ,k)到顶点vj(j=1,2,Λ,k)的最短路径距离,采用Floyd算法计算图G上任意两点之间的最短路径,Floyd算法步骤如下:
(i)输入完全赋权图的权矩阵W=[wij]n×n
3.(ii)对于顶点vi和vj,在邻接矩阵中,当存在eik+ekj<eij时,则更新数值,用eik+ekj代替eij的值,找出最短路径,得到最短路径矩阵D[d′ij]n×n,其中eij为图G上顶点vi到vj的距离,即边(vi,vj)的赋权值,eik、ekj则分别为边(vi,vk)和边(vk,vj)的赋权值,d′ij=min[e(vi,vj)]。
根据渗水指标的个数确定图G的顶点个数为16个,则G的顶点集为V={v1,v2,Λ,v16},以dij作为图G上每条边(vi,vj)所对应的权wij,得到权矩阵W=[wij]n×n。其中W等于
0 2.49 1.45 2.67 1.67 2.18 2.13 3.07 1.82 3.16 1.39 1.25 1.21 1.31 2.79 1.67 2.49 0 1.17 1.03 8.13 35.7 4.85 2.24 10.9 1.1 15.6 3.05 7.94 38.5 2.85 3.33 1.45 1.17 0 1.12 2.58 2.15 3.25 2.91 2.4 1.12 2.27 2.51 2.97 4.76 3.77 20.8 2.67 1.03 1.12 0 125 8.78 11.9 1.99 20 1.05 19.6 3.82 16.9 12.7 2.56 3.02 1.67 8.13 2.58 125 0 1.1 1.05 3.95 1.01 7.41 1.04 4.37 3.09 2.84 4.22 1.82 2.18 35.7 2.15 8.78 1.1 0 1.04 6.49 1.06 3.43 1.17 14.7 4.98 4.81 5.43 5.68 2.13 4.85 3.25 11.9 1.05 1.04 0 12.7 1.03 9.8 1.14 62.5 4.57 4.03 55.6 2.59 3.07 2.24 2.91 1.99 3.95 6.49 12.7 0 6.8 1.71 3.55 1.65 2.65 2.22 1.02 1.08 1.82 10.9 2.4 20 1.01 1.06 1.03 6.8 0 5.03 1.07 7.35 4.05 3.7 7.81 2.19 3.16 1.1 1.12 1.05 7.41 3.44 9.8 1.71 5.03 0 9.43 15.6 10.5 4.31 1.93 2.75 1.39 15.6 2.27 19.6 1.04 1.17 1.14 3.55 1.07 9.43 0 2.44 1.82 1.74 3.29 1.75 1.25 3.05 2.51 3.83 4.37 14.7 62.5 1.65 7.35 15.6 2.44 0 1.26 1.32 1.43 1.47 1.21 7.94 2.97 16.9 3.09 4.98 4.57 2.65 4.05 10.5 1.82 1.26 0 1.01 2.34 1.94 1.31 38.5 4.77 12.6 2.84 4.81 4.03 2.22 3.7 4.31 1.73 1.32 1.01 0 2.01 1.78 2.79 2.85 3.77 2.56 4.22 5.43 55.6 1.02 7.81 1.93 3.29 1.43 2.34 2.01 0 1.11 1.67 3.33 20.8 3.02 1.82 5.68 2.59 1.08 2.19 2.75 1.75 1.47 1.94 1.78 1.11 0
采用MATLAB语言编程实现Floyd算法求得赋权图G上任意两点之间的最短路径距离,即各指标之间的最短路径距离d′ij,如表3所示。
表3图G各顶点之间的最短路径距离
dij v1 v2 v3 v4 v5 v6 v7 v8 v9 v10 v11 v12 v13 v14 v15 v16
v1 0.00 2.49 1.45 2.57 1.67 2.18 2.13 2.74 1.82 2.57 1.39 1.25 1.21 1.31 2.68 1.67
v2 2.49 0.00 1.17 1.03 3.74 3.32 4.35 2.24 3.57 1.10 3.44 3.05 3.70 3.79 2.85 3.32
v3 1.45 1.17 0.00 1.12 2.58 2.15 3.19 2.83 2.40 1.12 2.27 2.51 2.66 2.76 3.05 3.12
v4 2.57 1.03 1.12 0.00 3.69 3.27 4.30 2.00 3.52 1.05 3.39 3.62 3.77 3.87 2.56 3.02
v5 1.67 3.74 2.58 3.69 0.00 1.10 1.05 2.90 1.01 3.69 1.04 2.92 2.87 2.78 2.94 1.82
v6 2.18 3.32 2.15 3.27 1.10 0.00 1.04 4.01 1.06 3.27 1.17 3.43 3.00 2.91 4.04 2.93
v7 2.13 4.35 3.19 4.30 1.05 1.04 0.00 3.67 1.03 4.30 1.14 3.37 2.97 2.88 3.71 2.59
v8 2.74 2.24 2.83 2.00 2.90 4.01 3.67 0.00 3.28 1.71 2.83 1.65 2.65 2.22 1.02 1.08
v9 1.82 3.57 2.40 3.52 1.01 1.06 1.03 3.28 0.00 3.52 1.07 3.07 2.89 2.81 3.31 2.20
v10 2.57 1.10 1.12 1.05 3.69 3.27 4.30 1.71 3.52 0.00 3.39 3.36 3.77 3.87 1.93 2.75
v11 1.39 3.44 2.27 3.39 1.04 1.17 1.14 2.83 1.07 3.39 0.00 2.45 1.82 1.74 2.87 1.75
v12 1.25 3.05 2.51 3.62 2.92 3.43 3.37 1.65 3.07 3.36 2.45 0.00 1.26 1.32 1.43 1.47
v13 1.21 3.70 2.66 3.77 2.87 3.00 2.97 2.65 2.89 3.77 1.82 1.26 0.00 1.01 2.34 1.94
v14 1.31 3.79 2.76 3.87 2.78 2.91 2.88 2.22 2.81 3.87 1.74 1.32 1.01 0.00 2.01 1.78
v15 2.68 2.85 3.05 2.56 2.94 4.04 3.71 1.02 3.31 1.93 2.87 1.43 2.34 2.01 0.00 1.11
v16 1.67 3.32 3.12 3.02 1.82 2.93 2.59 1.08 2.20 2.75 1.75 1.47 1.94 1.78 1.11 0.00
(4)基于图论的最短路径距离进行指标分类
对指标进行分类,其实质就是对图G顶点集的一个划分,即
V=V1YV2YΛYVt
其中ViΙVj=Φ(i,j=1,2,Λ,t)且ρ为距离参数,根据实际情况而定。
对渗水指标进行分类,给定ρ=1.2,根据表3中的最短距离将顶点集划分为6类:
V1={v1}V2={v2,v3,v4,v10}V3={v5,v6,v7,v9,v11}
V4={v8,v15,v16}V5={v12}V6={v13,v14}
满足V=V1YV2YV3YV4YV5YV6且V1ΙV2ΙV3ΙV4ΙV5ΙV6=Φ。
根据图G的构造方法,可得到图G的6个子图G1,G2,…,G6,如图2所示,指标对应于图G上的顶点得到指标分类结果如表4所示。
表4指标分类结果
类别 指标代表元 指标元素
G1 PH PH
G2 ∑α U,Ra,∑α,NH4-N
G3 210Pb ∑β,230Th,∑Th,210Pb,Mn
G4 210Po 210Po,Zn,Cd
G5 F- F-
G6 NO3 - NO3 -,SO4 2-
3)基于主成分分析的指标筛选
(1)选取指标代表元
从指标分类中选出指标代表元作为主成分分析的指标,根据指标分类中各指标之间的最短距离关系图,算出各个指标到其他指标的距离之和,距离之和越小说明该指标与其他指标的关系越密切,选取距离之和最小的指标作为指标代表元进行主成分分析。
以G2为例,G2中各指标之间的最短距离关系图如图3所示,图中,U到其他指标的距离之和为3.296,Ra到其他指标的距离之和为3.3977,∑α到其他指标的距离之和为3.1888,NH4-N到其他指标的距离之和为3.2659,∑α到其他指标的距离之和最小,与其他指标的关系最密切,所以选取∑α作为G2中的指标代表元。其他分类的指标代表元结果见表4。
(2)主成分分析
主成分分析的基本模型为
z 1 = l 11 x 1 + l 12 x 2 + &Lambda; + l 1 p x p z 2 = l 21 x 1 + l 22 x 2 + &Lambda; + l 2 p x p M z m = l m 1 x 1 + l m 2 x 2 + &Lambda; + l m p x p
其中xi为第i个指标(i=1,2,Λ,p),zj为第j个主成分(j=1,2,Λ,m),lij为第j个主成分中第i个指标对应的主成分载荷。
主成分分析指标筛选的具体步骤如下:
1:计算标准化指标值的相关系数矩阵R=(rij)p×p(其中rii=1)。
2:计算相关系数矩阵R的特征值及特征向量、方差贡献率及累计贡献率、主成分因子载荷。
3:根据特征值或累计贡献率选择主成分,确定主成分个数m。
4:根据主成分上因子载荷的绝对值筛选指标。因子载荷绝对值越大说明指标对评价结果的影响越明显,越应当保留;因子载荷绝对值越小则说明指标对评价结果的影响越弱,越应当剔除。
根据指标代表元的标准化数据,应用SPSS软件做主成分分析,选取主成分特征值大于1或累积方差贡献率超过85%时各个主成分中因子载荷绝对值较大的指标,这里选取第一主成分中因子载荷绝对值大于0.9的指标和第二主成分中因子载荷绝对值最大的指标,分析结果如表5、表6所示,从表5可知,提取前2个主成分,即m=2,从表6可知,PH和F-在第一主成分上有较高载荷,∑α在第二主成分上有较高载荷。
表5主成分的特征值和方差贡献率
主成分 成分1 成分2
特征值 3.053 1.529
贡献率 49.925% 26.43%
累积贡献率 49.925% 76.356%
表6主成分初始因子载荷矩阵表(成分矩阵)
4)简化后的指标体系
指标分类中,各类中的指标数据相关性很高,主成分分析中保留下来的指标对评价结果有显著影响,与其同属一类的指标(数据相关性高)对评价结果也有显著影响,应同时作为构建指标体系的重要指标。
通过指标分类,将尾矿库渗水的16个指标分为6类,从各类中选出指标代表元进行主成分分析,得到的筛选结果见表6,保留指标用来作为构建评价指标体系的重要指标,同时将指标分类中与保留指标属于同一类的指标也用来作为重要指标,所以最终确定的退役铀尾矿库环境质量评价指标体系如图4所示。

Claims (5)

1.一种基于图的距离分类和主成分分析的评价指标体系构建方法,其特征在于,按照以下步骤进行:
步骤1,初始评价指标的选取;
步骤2,进行基于图的距离分类的指标分类;
步骤3,进行基于主成分分析的指标筛选;
步骤4,得到简化后的指标体系。
2.根据权利要求1所述的一种基于图的距离分类和主成分分析的评价指标体系构建方法,其特征在于,所述步骤2按照以下步骤进行:
步骤a,数据标准化;
设xi为某个指标的观察值,其中i=1,2,…,n,xi′为标准化数据,令
x &OverBar; = 1 n &Sigma; i = 1 n x i
s = 1 n &Sigma; i = 1 n ( x i - x &OverBar; ) 2
那么标准化公式为
x i &prime; = x i - x &OverBar; s ;
其中,xi为指标的观察值,n为指标的个数,s分别为指标观察值的均值、标准差,xi′为指标的标准化数据;
步骤b,基于相关系数计算指标之间的距离;
计算指标之间的相关系数,以相关系数的倒数作为两个指标之间的距离,相关系数越大就体现了两个指标之间的距离越短;相关系数计算公式为
r i j = &Sigma; k = 1 n ( x k i - x &OverBar; i ) ( x k j - x &OverBar; j ) &Sigma; k = 1 n ( x k i - x &OverBar; i ) 2 ( x k j - x &OverBar; j ) 2 , i = 1 , 2 , &Lambda; , n ; j = 1 , 2 , &Lambda; , m
其中rij为第i个指标与第j个指标之间的相关系数,xki和xkj分别为第k个评价对象第i和j个指标的值,分别为第i和j个指标的平均值;
通过相关系数来体现指标之间的距离,取相关系数的倒数作为指标之间的距离,设dij为第i个指标与第j个指标之间的距离,即
d i j = 1 r i j , i &NotEqual; j 0 , i = j ;
将标准化数据代入相关系数计算公式,得到相关系数矩阵;指标之间的距离即为指标之间相关系数的倒数;
步骤c,
基于Floyd算法计算指标之间的最短路径距离;
根据指标之间的距离得到距离完全赋权图G,以初始指标作为图G上的顶点,求出图G上任意两点间的最短路径距离,即为指标之间的最短路径距离;
令每一个指标对应图G中的一个顶点v,设G的顶点集为V={v1,v2,Λ,vk},则边集 E = { ( v i , v j ) | &ForAll; v i &Element; V , &ForAll; v j &Element; V , v i &NotEqual; v j } , ( 1 &le; i , j &le; k ) , 那么图G是一个完全简单图;
设每条边(vi,vj)(i≠j)所对应的赋权为
wij=dij
将图G中每一条边都赋权wij,则称G是一个完全赋权图,在图G中用最短路算法计算出任意两个顶点之间的最短距离;设d′ij为顶点vi(i=1,2,Λ,k)到顶点vj(j=1,2,Λ,k)的最短路径距离,采用Floyd算法计算图G上任意两点之间的最短路径;
步骤d,基于图论的最短路径距离进行指标分类;
对指标进行分类,其实质就是对图G顶点集的一个划分,即
V=V1YV2YΛYVt
其中ViΙVj=Φ(i,j=1,2,Λ,t)且
ρ为距离参数。
3.根据权利要求2所述的一种基于图的距离分类和主成分分析的评价指标体系构建方法,其特征在于,所述步骤c中采用Floyd算法按照以下步骤进行:输入完全赋权图的权矩阵W=[wij]n×n;对于顶点vi和vj,在邻接矩阵中,当存在eik+ekj<eij时,则更新数值,用eik+ekj代替eij的值,找出最短路径,得到最短路径矩阵D[d′ij]n×n,其中eij为图G上顶点vi到vj的距离,即边(vi,vj)的赋权值,eik、ekj则分别为边(vi,vk)和边(vk,vj)的赋权值,d′ij=min[e(vi,vj)]。
4.根据权利要求1所述的一种基于图的距离分类和主成分分析的评价指标体系构建方法,其特征在于,所述步骤3按照以下步骤进行:
步骤a,选取指标代表元;
从指标分类中选出指标代表元作为主成分分析的指标,根据指标分类中各指标之间的最短距离关系图,算出各个指标到其他指标的距离之和,距离之和越小说明该指标与其他指标的关系越密切,选取距离之和最小的指标作为指标代表元进行主成分分析;
步骤b,主成分分析;
主成分分析的基本模型为
z 1 = l 11 x 1 + l 12 x 2 + &Lambda; + l 1 p x p z 2 = l 21 x 1 + l 22 x 2 + &Lambda; + l 2 p x p M z m = l m 1 x 1 + l m 2 x 2 + &Lambda; + l m p x p
其中xi为第i个指标,其中i=1,2,Λ,p,zj为第j个主成分,其中j=1,2,Λ,m,lij为第j个主成分中第i个指标对应的主成分载荷;
主成分分析指标筛选的具体步骤如下:
1:计算标准化指标值的相关系数矩阵R=(rij)p×p,其中rii=1;
2:计算相关系数矩阵R的特征值及特征向量、方差贡献率及累计贡献率、主成分因子载荷;
3:根据特征值或累计贡献率选择主成分,确定主成分个数m;
4:根据主成分上因子载荷的绝对值筛选指标;因子载荷绝对值越大说明指标对评价结果的影响越明显,越应当保留;因子载荷绝对值越小则说明指标对评价结果的影响越弱,越应当剔除。
5.根据权利要求1所述的一种基于图的距离分类和主成分分析的评价指标体系构建方法,其特征在于,所述步骤4按照以下步骤进行:指标分类中,各类中的指标数据相关性很高,主成分分析中保留下来的指标对评价结果有显著影响,与其同属一类的指标即数据相关性高的对评价结果也有显著影响,应同时作为构建指标体系的重要指标。
CN201510884234.1A 2015-12-03 2015-12-03 基于图的距离分类和主成分分析的评价指标体系构建方法 Active CN105354685B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510884234.1A CN105354685B (zh) 2015-12-03 2015-12-03 基于图的距离分类和主成分分析的评价指标体系构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510884234.1A CN105354685B (zh) 2015-12-03 2015-12-03 基于图的距离分类和主成分分析的评价指标体系构建方法

Publications (2)

Publication Number Publication Date
CN105354685A true CN105354685A (zh) 2016-02-24
CN105354685B CN105354685B (zh) 2021-08-31

Family

ID=55330652

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510884234.1A Active CN105354685B (zh) 2015-12-03 2015-12-03 基于图的距离分类和主成分分析的评价指标体系构建方法

Country Status (1)

Country Link
CN (1) CN105354685B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107133722A (zh) * 2017-04-18 2017-09-05 国家电网公司 基于电力企业大数据技术的配电网差异特征诊断分析方法
CN107146009A (zh) * 2017-04-27 2017-09-08 杭州电子科技大学 一种供水管网运行状态评估方法
CN107276896A (zh) * 2016-11-24 2017-10-20 北京交通大学 改进迪杰斯特拉算法的两点间最短路径搜索方法
CN107644290A (zh) * 2017-09-05 2018-01-30 河北工程大学 一种专利技术生命周期分析方法
WO2023206875A1 (zh) * 2022-04-29 2023-11-02 上海跬智信息技术有限公司 基于指标距离的指标去重方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103606115A (zh) * 2013-12-05 2014-02-26 国家电网公司 一种节能型电网的评定方法
CN104021272A (zh) * 2014-05-06 2014-09-03 国网上海市电力公司 一种基于主成分分析的工程概算影响因子提取方法
CN104462685A (zh) * 2014-12-03 2015-03-25 江苏省电力公司淮安供电公司 基于网格GIS和Floyd算法的输电线路设计方法
CN105046376A (zh) * 2015-09-06 2015-11-11 河海大学 考虑指标相关性的水库群防洪调度方案优选方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103606115A (zh) * 2013-12-05 2014-02-26 国家电网公司 一种节能型电网的评定方法
CN104021272A (zh) * 2014-05-06 2014-09-03 国网上海市电力公司 一种基于主成分分析的工程概算影响因子提取方法
CN104462685A (zh) * 2014-12-03 2015-03-25 江苏省电力公司淮安供电公司 基于网格GIS和Floyd算法的输电线路设计方法
CN105046376A (zh) * 2015-09-06 2015-11-11 河海大学 考虑指标相关性的水库群防洪调度方案优选方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
周正嵩: "物流企业服务质量评价模型构建及应用研究", 《中国博士学位论文全文数据库经济与管理科学辑》 *
迟国泰 等: "基于相关-主成分分析的人的全面发展评价指标体系构建", 《系统工程理论与实践》 *
高宇虹: "我国编组站评价指标体系构建研究", 《中国优秀硕士学位论文全文数据库》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107276896A (zh) * 2016-11-24 2017-10-20 北京交通大学 改进迪杰斯特拉算法的两点间最短路径搜索方法
CN107276896B (zh) * 2016-11-24 2020-03-27 北京交通大学 改进迪杰斯特拉算法的两点间最短路径搜索方法
CN107133722A (zh) * 2017-04-18 2017-09-05 国家电网公司 基于电力企业大数据技术的配电网差异特征诊断分析方法
CN107146009A (zh) * 2017-04-27 2017-09-08 杭州电子科技大学 一种供水管网运行状态评估方法
CN107146009B (zh) * 2017-04-27 2020-09-04 杭州电子科技大学 一种供水管网运行状态评估方法
CN107644290A (zh) * 2017-09-05 2018-01-30 河北工程大学 一种专利技术生命周期分析方法
WO2023206875A1 (zh) * 2022-04-29 2023-11-02 上海跬智信息技术有限公司 基于指标距离的指标去重方法及装置

Also Published As

Publication number Publication date
CN105354685B (zh) 2021-08-31

Similar Documents

Publication Publication Date Title
CN105354685A (zh) 基于图的距离分类和主成分分析的评价指标体系构建方法
CN106372952A (zh) 一种基于主客观赋权多模型组合验证的企业信用评价方法及系统
CN106339536A (zh) 基于水污染指数法和云模型的水质综合评价方法
Lu et al. Integrating dynamic Bayesian network and physics-based modeling for risk analysis of a time-dependent power distribution system during hurricanes
CN106384092A (zh) 面向监控场景的在线低秩异常视频事件检测方法
CN108289221B (zh) 异常值检测的无参考图像质量评价模型及构建方法
CN102034023A (zh) 基于证据理论的多源信息融合风险分析方法
DE112015006877B4 (de) Verhaltens-Identifizierungseinrichtung, Klimaanlage und Robotersteuerung
CN104809724A (zh) 多波段遥感影像的自动精配准方法
CN112861732B (zh) 一种生态环境脆弱区土地监测方法、系统及装置
Fan et al. Composite quantile regression for the single-index model
CN104536996A (zh) 一种同构环境下计算节点异常检测方法
CN113344470B (zh) 一种基于区块链的供电系统智能管理方法
CN106651195A (zh) 一种确定土壤压实程度的评价方法
CN103268391A (zh) 基于朴素贝叶斯的自适应雷电灾害风险预估方法
DE112021005982T5 (de) Verfahren und vorrichtung für tiefe neuronale netze mit fähigkeit zur adversarial-erkennung
CN1472634A (zh) 高光谱遥感图像联合加权随机分类方法
DE102023113166A1 (de) Bildverarbeitungsverfahren und -einrichtung
CN104462826A (zh) 基于矩阵奇异值分解的多传感器证据冲突检测与度量方法
Yang et al. Quantification classification algorithm of multiple sources of evidence
CN115409776A (zh) 一种基于方位推理的输电线路金具图卷积检测方法及系统
DE112022000915T5 (de) Erstellen eines statistischen modells und auswerten der modellleistung
DE102018210683B4 (de) Verfahren, Vorrichtung, Computerprogramm und Computerprogrammprodukt zur Normierung eines internen Gütemaßes eines Sensors eines Fahrzeuges und zum Ermitteln einer Existenzwahrscheinlichkeit
CN113536415A (zh) 一种基于典型环境差异的综合指标体系桥梁比选方法
CN105404893A (zh) 一种基于理想正则化组合核的高光谱图像分类方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant