CN105354685A

CN105354685A - 基于图的距离分类和主成分分析的评价指标体系构建方法

Info

Publication number: CN105354685A
Application number: CN201510884234.1A
Authority: CN
Inventors: 刘永; 招国栋; 刘清; 张志军; 章求才; 贺桂成
Original assignee: University of South China
Current assignee: University of South China
Priority date: 2015-12-03
Filing date: 2015-12-03
Publication date: 2016-02-24
Anticipated expiration: 2035-12-03
Also published as: CN105354685B

Abstract

一种基于图的距离分类和主成分分析的评价指标体系构建方法，初始评价指标的选取；进行基于图的距离分类的指标分类；进行基于主成分分析的指标筛选；得到简化后的指标体系。利用相关系数与图论中的最短路径相结合的分类方法-图的距离分类法，将相关程度较高的元素划分为一类，从各类中选取指标代表元进行主成分分析，减少信息处理的工作量。选取主成分分析中保留指标及其与保留指标同属一类的指标作为构建指标体系的重要指标，避免重要指标的缺失。

Description

基于图的距离分类和主成分分析的评价指标体系构建方法

技术领域

本发明属于信息处理技术领域，涉及一种基于图的距离分类和主成分分析的评价指标体系构建方法。

背景技术

评价指标的选取以及指标体系是否合理对评价结果有着至关重要的影响。那么，如何在复杂庞大的指标体系中筛选指标是评价指标体系构建的一个难题。若对所有的指标进行评价，必定会因为指标过细过多而极大地增加信息处理的工作量；若只是单独的选出部分指标，可能会损失很多原始数据信息，导致评价结果的不准确性。

文献：《基于相关-主成分分析的人的全面发展评价指标体系构建》系统工程理论与实践基于相关-主成分分析的指标体系构建方法，其指标筛选思路为：

1)通过相关性分析删除同一准则层内相关系数大的指标，避免了指标的信息重复；

2)通过出成分分析删除因子负载小的指标，保证筛选出的指标对评价结果有显著影响。

指标筛选的相关性分析：

通过计算两个评价指标之间的相关系数，删除相关系数较大的评价指标，消除评价指标所反映的信息重复对评价结果的影响，简化指标体系相关性分析筛选指标的好处是剔除信息重复的指标。

具体步骤如下：

(1)计算各个评价指标之间的相关系数。设r_ij为第i个指标和第j个指标之间的相关系数，z_ki为第k个评价对象第i个指标的值，为第i个指标的平均值。

根据相关系数计算公式，则r_ij为

r_{i j} = \frac{Σ_{k = 1}^{n} (z_{k i} - {\overset{&OverBar;}{z}}_{i}) (z_{k j} - {\overset{&OverBar;}{z}}_{j})}{\sqrt{Σ_{k = 1}^{n} {(z_{k i} - {\overset{&OverBar;}{z}}_{i})}^{2} {(z_{k j} - {\overset{&OverBar;}{z}}_{j})}^{2}}}

(2)规定一个临界值M(0<M<1)，如果|r_ij|>M，则可以删除其中的一个评价指标；如果|r_ij|<M，则同时保留两个评价指标。

指标筛选的主成分分析：

主成分的实质是观测指标的线性组合，主成分分析的模型为：

F_j＝α_j1X₁+α_j2X₂+Λ+α_jiX_i+Λ+α_jmX_m,j＝1,2,Λ,k

其中，X_i为第i个指标(i＝1,2,Λ,m)；F_j为第j个主成分(j＝1,2,Λ,k)；α_ji为对应第j个特征值的特征向量的第i个分量；k为主成分的个数；m为指标个数。

主成分分析的具体步骤：

(1)求标准化指标值的相关系数矩阵R_m×m；

(2)求矩阵R的特征值λ_j(j＝1,2,Λ,m)，λ_j表示第j个主成分F_j所解释的原始指标数据的总方差，则主成分F_j对原始指标数据的方差贡献率ω_j为：

ω_{j} = λ_{j} / Σ_{j = 1}^{k} λ_{j}

(3)将特征值λ_j按从大到小的顺序排列，根据累积方差贡献率≥85％的要求选取前k个特征值对应的主成分，得到第i个指标在第j个主成分上因子负载b_ij矩阵

α_{i j} = b_{i j} / \sqrt{λ_{i}}

主成分分析对评价指标的筛选：根据主成分F_j上因子负载的绝对值|b_ij|筛选指标。|b_ij|越大表明指标i对评价结果的影响越显著，越应当保留；|b_ij|越小则表明指标对评价结果的影响越弱，越应当剔除。

现有技术具有以下缺点：

1)相关性分析所得的相关系数所体现的仅是数据之间的相关性，不代表指标之间的影响程度的相关性。A与B的相关系数很大，但两者对评价对象的影响是独立的，若仅根据相关性删除其中一个，可能会造成重要指标的缺失；

2)在指标多样复杂的情况下进行主成分分析，若未进行分类，会增加主成分分析信息处理的工作量，数据分析时舍弃的一部分成分中也可能存在与选取主成分中主要元素相关程度高的元素，影响评价结果。A与B的相关程度很高，数据分析时，若A对评价结果有显著影响，那么B也应对评价结果有显著影响，在主成分分析过程中，很可能出现A为选取主成分中的主要元素，而B为舍弃主成分中的元素，则必然会剔除掉B，这样就会造成重要指标B的缺失。

发明内容

本发明的目的是提供一种基于图的距离分类和主成分分析的评价指标体系构建方法，利用相关系数与图论中的最短路径相结合的分类方法-图的距离分类法，将相关程度较高的元素划分为一类，从各类中选取指标代表元进行主成分分析，减少信息处理的工作量。选取主成分分析中保留指标及其与保留指标同属一类的指标作为构建指标体系的重要指标，避免重要指标的缺失。

本发明所采用的技术方案是，一种基于图的距离分类和主成分分析的评价指标体系构建方法，按照以下步骤进行：

步骤1，初始评价指标的选取；

步骤2，进行基于图的距离分类的指标分类；

步骤3，进行基于主成分分析的指标筛选；

步骤4，得到简化后的指标体系。

本发明的特征还在于，进一步的，所述步骤2按照以下步骤进行：

步骤a，数据标准化；

设x_i为某个指标的观察值，其中i＝1，2，…，n，x_i′为标准化数据，令

\overset{&OverBar;}{x} = \frac{1}{n} Σ_{i = 1}^{n} x_{i}

s = \sqrt{\frac{1}{n} Σ_{i = 1}^{n} {(x_{i} - \overset{&OverBar;}{x})}^{2}}

那么标准化公式为

x_{i}^{'} = \frac{x_{i} - \overset{&OverBar;}{x}}{s};

其中，x_i为指标的观察值，n为指标的个数，s分别为指标观察值的均值、标准差，x_i′为指标的标准化数据；

步骤b，基于相关系数计算指标之间的距离；

计算指标之间的相关系数，以相关系数的倒数作为两个指标之间的距离，相关系数越大就体现了两个指标之间的距离越短；相关系数计算公式为

r_{i j} = \frac{Σ_{k = 1}^{n} (x_{k i} - {\overset{&OverBar;}{x}}_{i}) (x_{k j} - {\overset{&OverBar;}{x}}_{j})}{\sqrt{Σ_{k = 1}^{n} {(x_{k i} - {\overset{&OverBar;}{x}}_{i})}^{2} {(x_{k j} - {\overset{&OverBar;}{x}}_{j})}^{2}}}, i = 1, 2, Λ, n; j = 1, 2, Λ, m

其中r_ij为第i个指标与第j个指标之间的相关系数，x_ki和x_kj分别为第k个评价对象第i和j个指标的值，和分别为第i和j个指标的平均值；

通过相关系数来体现指标之间的距离，取相关系数的倒数作为指标之间的距离，设d_ij为第i个指标与第j个指标之间的距离，即

d_{i j} = \{\begin{matrix} \frac{1}{r_{i j}}, & i &NotEqual; j \\ 0, & i = j \end{matrix};

将标准化数据代入相关系数计算公式，得到相关系数矩阵；指标之间的距离即为指标之间相关系数的倒数；

步骤c，

基于Floyd算法计算指标之间的最短路径距离；

根据指标之间的距离得到距离完全赋权图G，以初始指标作为图G上的顶点，求出图G上任意两点间的最短路径距离，即为指标之间的最短路径距离；

令每一个指标对应图G中的一个顶点v，设G的顶点集为V＝{v₁,v₂,Λ,v_k}，则边集

E = {(v_{i}, v_{j}) | &ForAll; v_{i} &Element; V, &ForAll; v_{j} &Element; V, v_{i} &NotEqual; v_{j}} (1 \leq i, j \leq k),

那么图G是一个完全简单图；

设每条边(v_i,v_j)(i≠j)所对应的赋权为

w_ij＝d_ij

将图G中每一条边都赋权w_ij，则称G是一个完全赋权图，在图G中用最短路算法计算出任意两个顶点之间的最短距离；设d′_ij为顶点v_i(i＝1,2,Λ,k)到顶点v_j(j＝1,2,Λ,k)的最短路径距离，采用Floyd算法计算图G上任意两点之间的最短路径；

步骤d，基于图论的最短路径距离进行指标分类；

对指标进行分类，其实质就是对图G顶点集的一个划分，即

V＝V₁YV₂YΛYV_t，

其中V_iΙV_j＝Φ(i,j＝1,2,Λ,t)且

ρ为距离参数。

进一步的，所述步骤c中采用Floyd算法按照以下步骤进行：输入完全赋权图的权矩阵W＝[w_ij]_n×n；对于顶点v_i和v_j，在邻接矩阵中，当存在e_ik+e_kj<e_ij时，则更新数值，用e_ik+e_kj代替e_ij的值，找出最短路径，得到最短路径矩阵D[d′_ij]_n×n，其中e_ij为图G上顶点v_i到v_j的距离，即边(v_i,v_j)的赋权值，e_ik、e_kj则分别为边(v_i,v_k)和边(v_k,v_j)的赋权值，d′_ij＝min[e(v_i,v_j)]。

进一步的，所述步骤3按照以下步骤进行：

步骤a，选取指标代表元；

从指标分类中选出指标代表元作为主成分分析的指标，根据指标分类中各指标之间的最短距离关系图，算出各个指标到其他指标的距离之和，距离之和越小说明该指标与其他指标的关系越密切，选取距离之和最小的指标作为指标代表元进行主成分分析；

步骤b，主成分分析；

主成分分析的基本模型为

\{\begin{matrix} z_{1} = l_{11} x_{1} + l_{12} x_{2} + Λ + l_{1 p} x_{p} \\ z_{2} = l_{21} x_{1} + l_{22} x_{2} + Λ + l_{2 p} x_{p} \\ M \\ z_{m} = l_{m 1} x_{1} + l_{m 2} x_{2} + Λ + l_{m p} x_{p} \end{matrix}

其中x_i为第i个指标，其中i＝1,2,Λ,p，z_j为第j个主成分，其中j＝1,2,Λ,m，l_ij为第j个主成分中第i个指标对应的主成分载荷；

主成分分析指标筛选的具体步骤如下：

1：计算标准化指标值的相关系数矩阵R＝(r_ij)_p×p，其中r_ii＝1；

2：计算相关系数矩阵R的特征值及特征向量、方差贡献率及累计贡献率、主成分因子载荷；

3：根据特征值或累计贡献率选择主成分，确定主成分个数m；

4：根据主成分上因子载荷的绝对值筛选指标；因子载荷绝对值越大说明指标对评价结果的影响越明显，越应当保留；因子载荷绝对值越小则说明指标对评价结果的影响越弱，越应当剔除。

进一步的，所述步骤4按照以下步骤进行：指标分类中，各类中的指标数据相关性很高，主成分分析中保留下来的指标对评价结果有显著影响，与其同属一类的指标即数据相关性高的对评价结果也有显著影响，应同时作为构建指标体系的重要指标。

本发明的有益效果是在指标复杂多样的情况下，利用相关系数与图论中的最短路径相结合的分类方法——图的距离分类法，将相关程度较高的元素划分为一类，从各类中选取指标代表元进行主成分分析，减少了进行主成分分析的指标个数，也就减少了信息处理的工作量，避免了重复信息的分析工作；根据主成分分析的筛选结果，保留指标作为构建指标体系的重要指标，表明指标对评价结果有显著影响，那么，在指标分类中与保留指标属于同一类的指标也对评价结果有显著影响，也作为重要指标，避免了重要指标的缺失。

附图说明

图1是本发明中指标体系的构建步骤图。

图2是指标分类图。

图3是G₂中各指标之间的最短距离关系图。

图4是退役铀尾矿库环境质量评价指标体系图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

一种基于图的距离分类和主成分分析的评价指标体系构建方法，具体按照以下步骤进行：

实施例

以退役铀尾矿库环境质量评价指标体系的构建为例，介绍了图的距离分类与主成分分析相结合的指标体系构建方法，以图的距离分类法来进行指标分类，以主成分分析法来进行指标筛选，具体步骤如图1所示。

1)初始评价指标的选取

根据评价目的，并考虑现有环境监测数据的可获得性以及完整性等因素，在构建环境质量评价指标体系时侧重从污染角度考虑，选择尾矿库渗水环境指标和坝体及周围辐射环境指标作为两大类指标，其中渗水环境指标有PH、∑α、∑β、U、Ra、²³⁰Th、∑Th、²¹⁰Po、²¹⁰Pb、Mn、NH₄-N、F^-、SO₄ ^2-、NO₃ ^-、Zn、Cd；周围辐射环境指标主要有氡气、氡析出率、α气溶胶、γ、表面α、表面β。

2)基于图的距离分类的指标分类

(1)数据标准化

实际应用中常存在指标量纲不同的情况，为了消除量纲的影响，需要对数据进行无量纲化处理，常用方法是将原始数据标准化。

设x_i(i＝1,2,Λ,n)为某个指标的观察值，x_i′为标准化数据，令

\overset{&OverBar;}{x} = \frac{1}{n} Σ_{i = 1}^{n} x_{i}

s = \sqrt{\frac{1}{n} Σ_{i = 1}^{n} {(x_{i} - \overset{&OverBar;}{x})}^{2}}

那么标准化公式为

x_{i}^{'} = \frac{x_{i} - \overset{&OverBar;}{x}}{s}

其中，x_i为指标的观察值，n为指标的个数，s分别为指标观察值的均值和标准差，x_i′为指标的标准化数据。

选取退役铀尾矿库渗水环境指标作为研究，以现有退役铀尾矿库六个坝段(A-F)渗水的水样监测项目数据作为样本，原始数据来源于现有退役铀尾矿库环境监测报告。退役铀尾矿库渗水指标标准化数据见表1。

表1退役铀尾矿库渗水指标的标准化数据

(2)基于相关系数计算指标之间的距离

计算指标之间的相关系数，以相关系数的倒数作为两个指标之间的距离，相关系数越大就体现了两个指标之间的距离越短。

相关系数计算公式为

r_{i j} = \frac{Σ_{k = 1}^{n} (x_{k i} - {\overset{&OverBar;}{x}}_{i}) (x_{k j} - {\overset{&OverBar;}{x}}_{j})}{\sqrt{Σ_{k = 1}^{n} {(x_{k i} - {\overset{&OverBar;}{x}}_{i})}^{2} {(x_{k j} - {\overset{&OverBar;}{x}}_{j})}^{2}}}, i = 1, 2, Λ, n; j = 1, 2, Λ, m

其中r_ij为第i个指标与第j个指标之间的相关系数，x_ki和x_kj分别为第k个评价对象第i和j个指标的值，和分别为第i和j个指标的平均值。

d_{i j} = \{\begin{matrix} \frac{1}{r_{i j}}, & i &NotEqual; j \\ 0, & i = j \end{matrix}

将表1中渗水指标标准化数据代入相关系数计算公式，得到相关系数矩阵，如表2所示，指标之间的距离即为指标之间相关系数的倒数。

表2渗水指标之间的相关系数矩阵表

r_ij	v₁	v₂	v₃	v₄	v₅	v₆	v₇	v₈	v₉	v₁₀	v₁₁	v₁₂	v₁₃	v₁₄	v₁₅	v₁₆
																	v₁	1.00	0.40	0.69	0.37	-0.60	-0.46	-0.47	0.33	-0.55	0.32	-0.72	0.80	0.83	0.77	0.36	0.60
v₂	0.40	1.00	0.86	0.97	0.12	0.03	0.21	-0.45	0.09	0.91	0.06	0.33	0.13	-0.03	-0.35	-0.30
																	v₃	0.69	0.86	1.00	0.90	-0.39	-0.47	-0.31	-0.34	-0.42	0.90	-0.44	0.40	0.34	0.21	-0.27	-0.05
v₄	0.37	0.97	0.90	1.00	-0.01	-0.11	0.08	-0.50	-0.05	0.96	-0.05	0.26	0.06	-0.08	-0.39	-0.33
																	v₅	-0.60	0.12	-0.39	-0.01	1.00	0.91	0.95	-0.25	0.99	-0.14	0.96	-0.23	-0.32	-0.35	-0.24	-0.55
v₆	-0.46	0.03	-0.47	-0.11	0.91	1.00	0.96	0.15	0.94	-0.29	0.85	0.07	-0.20	-0.21	0.18	-0.18
																	v₇	-0.47	0.21	-0.31	0.08	0.95	0.96	1.00	-0.08	0.97	-0.10	0.88	0.02	-0.22	-0.25	-0.02	-0.39
v₈	0.33	-0.45	-0.34	-0.50	-0.25	0.15	-0.08	1.00	-0.15	-0.59	-0.28	0.61	0.38	0.45	0.98	0.93
																	v₉	-0.55	0.09	-0.42	-0.05	0.99	0.94	0.97	-0.15	1.00	-0.20	0.94	-0.14	-0.25	-0.27	-0.13	-0.46
v₁₀	0.32	0.91	0.90	0.96	-0.14	-0.29	-0.10	-0.59	-0.20	1.00	-0.11	0.06	-0.10	-0.23	-0.52	-0.36
																	v₁₁	-0.72	0.06	-0.44	-0.05	0.96	0.85	0.88	-0.28	0.94	-0.11	1.00	-0.41	-0.55	-0.58	-0.30	-0.57
v₁₂	0.80	0.33	0.40	0.26	-0.23	0.07	0.02	0.61	-0.14	0.06	-0.41	1.00	0.79	0.76	0.70	0.68
																	v₁₃	0.83	0.13	0.34	0.06	-0.32	-0.20	-0.22	0.38	-0.25	-0.10	-0.55	0.79	1.00	0.99	0.43	0.52
v₁₄	0.77	-0.03	0.21	-0.08	-0.35	-0.21	-0.25	0.45	-0.27	-0.23	-0.58	0.76	0.99	1.00	0.50	0.56
																	v₁₅	0.36	-0.35	-0.27	-0.39	-0.24	0.18	-0.02	0.98	-0.13	-0.52	-0.30	0.70	0.43	0.50	1.00	0.90
v₁₆	0.60	-0.30	-0.05	-0.33	-0.55	-0.18	-0.39	0.93	-0.46	-0.36	-0.57	0.68	0.52	0.56	0.90	1.00

(3)基于Floyd算法计算指标之间的最短路径距离

根据指标之间的距离得到距离完全赋权图G(此处距离完全赋权图G不是附图G)，以渗水指标作为图G上的顶点，求出图G上任意两点间的最短路径距离，即为指标之间的最短路径距离。

E = {(v_{i}, v_{j}) | &ForAll; v_{i} &Element; V, &ForAll; v_{j} &Element; V, v_{i} &NotEqual; v_{j}} (1 \leq i, j \leq k),

那么图G是一个完全简单图。

设每条边(v_i,v_j)(i≠j)所对应的赋权为

w_ij＝d_ij

将图G中每一条边都赋权w_ij，则称G是一个完全赋权图，在图G中用最短路算法计算出任意两个顶点之间的最短距离。设d′_ij为顶点v_i(i＝1,2,Λ,k)到顶点v_j(j＝1,2,Λ,k)的最短路径距离，采用Floyd算法计算图G上任意两点之间的最短路径，Floyd算法步骤如下：

(i)输入完全赋权图的权矩阵W＝[w_ij]_n×n；

3.(ii)对于顶点v_i和v_j，在邻接矩阵中，当存在e_ik+e_kj<e_ij时，则更新数值，用e_ik+e_kj代替e_ij的值，找出最短路径，得到最短路径矩阵D[d′_ij]_n×n，其中e_ij为图G上顶点v_i到v_j的距离，即边(v_i,v_j)的赋权值，e_ik、e_kj则分别为边(v_i,v_k)和边(v_k,v_j)的赋权值，d′_ij＝min[e(v_i,v_j)]。

根据渗水指标的个数确定图G的顶点个数为16个，则G的顶点集为V＝{v₁,v₂,Λ,v₁₆}，以d_ij作为图G上每条边(v_i,v_j)所对应的权w_ij，得到权矩阵W＝[w_ij]_n×n。其中W等于

[\begin{matrix} 0 & 2.49 & 1.45 & 2.67 & 1.67 & 2.18 & 2.13 & 3.07 & 1.82 & 3.16 & 1.39 & 1.25 & 1.21 & 1.31 & 2.79 & 1.67 \\ 2.49 & 0 & 1.17 & 1.03 & 8.13 & 35.7 & 4.85 & 2.24 & 10.9 & 1.1 & 15.6 & 3.05 & 7.94 & 38.5 & 2.85 & 3.33 \\ 1.45 & 1.17 & 0 & 1.12 & 2.58 & 2.15 & 3.25 & 2.91 & 2.4 & 1.12 & 2.27 & 2.51 & 2.97 & 4.76 & 3.77 & 20.8 \\ 2.67 & 1.03 & 1.12 & 0 & 125 & 8.78 & 11.9 & 1.99 & 20 & 1.05 & 19.6 & 3.82 & 16.9 & 12.7 & 2.56 & 3.02 \\ 1.67 & 8.13 & 2.58 & 125 & 0 & 1.1 & 1.05 & 3.95 & 1.01 & 7.41 & 1.04 & 4.37 & 3.09 & 2.84 & 4.22 & 1.82 \\ 2.18 & 35.7 & 2.15 & 8.78 & 1.1 & 0 & 1.04 & 6.49 & 1.06 & 3.43 & 1.17 & 14.7 & 4.98 & 4.81 & 5.43 & 5.68 \\ 2.13 & 4.85 & 3.25 & 11.9 & 1.05 & 1.04 & 0 & 12.7 & 1.03 & 9.8 & 1.14 & 62.5 & 4.57 & 4.03 & 55.6 & 2.59 \\ 3.07 & 2.24 & 2.91 & 1.99 & 3.95 & 6.49 & 12.7 & 0 & 6.8 & 1.71 & 3.55 & 1.65 & 2.65 & 2.22 & 1.02 & 1.08 \\ 1.82 & 10.9 & 2.4 & 20 & 1.01 & 1.06 & 1.03 & 6.8 & 0 & 5.03 & 1.07 & 7.35 & 4.05 & 3.7 & 7.81 & 2.19 \\ 3.16 & 1.1 & 1.12 & 1.05 & 7.41 & 3.44 & 9.8 & 1.71 & 5.03 & 0 & 9.43 & 15.6 & 10.5 & 4.31 & 1.93 & 2.75 \\ 1.39 & 15.6 & 2.27 & 19.6 & 1.04 & 1.17 & 1.14 & 3.55 & 1.07 & 9.43 & 0 & 2.44 & 1.82 & 1.74 & 3.29 & 1.75 \\ 1.25 & 3.05 & 2.51 & 3.83 & 4.37 & 14.7 & 62.5 & 1.65 & 7.35 & 15.6 & 2.44 & 0 & 1.26 & 1.32 & 1.43 & 1.47 \\ 1.21 & 7.94 & 2.97 & 16.9 & 3.09 & 4.98 & 4.57 & 2.65 & 4.05 & 10.5 & 1.82 & 1.26 & 0 & 1.01 & 2.34 & 1.94 \\ 1.31 & 38.5 & 4.77 & 12.6 & 2.84 & 4.81 & 4.03 & 2.22 & 3.7 & 4.31 & 1.73 & 1.32 & 1.01 & 0 & 2.01 & 1.78 \\ 2.79 & 2.85 & 3.77 & 2.56 & 4.22 & 5.43 & 55.6 & 1.02 & 7.81 & 1.93 & 3.29 & 1.43 & 2.34 & 2.01 & 0 & 1.11 \\ 1.67 & 3.33 & 20.8 & 3.02 & 1.82 & 5.68 & 2.59 & 1.08 & 2.19 & 2.75 & 1.75 & 1.47 & 1.94 & 1.78 & 1.11 & 0 \end{matrix}]

采用MATLAB语言编程实现Floyd算法求得赋权图G上任意两点之间的最短路径距离，即各指标之间的最短路径距离d′_ij，如表3所示。

表3图G各顶点之间的最短路径距离

d_ij′	v₁	v₂	v₃	v₄	v₅	v₆	v₇	v₈	v₉	v₁₀	v₁₁	v₁₂	v₁₃	v₁₄	v₁₅	v₁₆
																	v₁	0.00	2.49	1.45	2.57	1.67	2.18	2.13	2.74	1.82	2.57	1.39	1.25	1.21	1.31	2.68	1.67
v₂	2.49	0.00	1.17	1.03	3.74	3.32	4.35	2.24	3.57	1.10	3.44	3.05	3.70	3.79	2.85	3.32
																	v₃	1.45	1.17	0.00	1.12	2.58	2.15	3.19	2.83	2.40	1.12	2.27	2.51	2.66	2.76	3.05	3.12
v₄	2.57	1.03	1.12	0.00	3.69	3.27	4.30	2.00	3.52	1.05	3.39	3.62	3.77	3.87	2.56	3.02
																	v₅	1.67	3.74	2.58	3.69	0.00	1.10	1.05	2.90	1.01	3.69	1.04	2.92	2.87	2.78	2.94	1.82
v₆	2.18	3.32	2.15	3.27	1.10	0.00	1.04	4.01	1.06	3.27	1.17	3.43	3.00	2.91	4.04	2.93
																	v₇	2.13	4.35	3.19	4.30	1.05	1.04	0.00	3.67	1.03	4.30	1.14	3.37	2.97	2.88	3.71	2.59
v₈	2.74	2.24	2.83	2.00	2.90	4.01	3.67	0.00	3.28	1.71	2.83	1.65	2.65	2.22	1.02	1.08
																	v₉	1.82	3.57	2.40	3.52	1.01	1.06	1.03	3.28	0.00	3.52	1.07	3.07	2.89	2.81	3.31	2.20

v₁₀	2.57	1.10	1.12	1.05	3.69	3.27	4.30	1.71	3.52	0.00	3.39	3.36	3.77	3.87	1.93	2.75
																	v₁₁	1.39	3.44	2.27	3.39	1.04	1.17	1.14	2.83	1.07	3.39	0.00	2.45	1.82	1.74	2.87	1.75
v₁₂	1.25	3.05	2.51	3.62	2.92	3.43	3.37	1.65	3.07	3.36	2.45	0.00	1.26	1.32	1.43	1.47
																	v₁₃	1.21	3.70	2.66	3.77	2.87	3.00	2.97	2.65	2.89	3.77	1.82	1.26	0.00	1.01	2.34	1.94
v₁₄	1.31	3.79	2.76	3.87	2.78	2.91	2.88	2.22	2.81	3.87	1.74	1.32	1.01	0.00	2.01	1.78
																	v₁₅	2.68	2.85	3.05	2.56	2.94	4.04	3.71	1.02	3.31	1.93	2.87	1.43	2.34	2.01	0.00	1.11
v₁₆	1.67	3.32	3.12	3.02	1.82	2.93	2.59	1.08	2.20	2.75	1.75	1.47	1.94	1.78	1.11	0.00

(4)基于图论的最短路径距离进行指标分类

对指标进行分类，其实质就是对图G顶点集的一个划分，即

V＝V₁YV₂YΛYV_t

其中V_iΙV_j＝Φ(i,j＝1,2,Λ,t)且ρ为距离参数，根据实际情况而定。

对渗水指标进行分类，给定ρ＝1.2，根据表3中的最短距离将顶点集划分为6类：

V₁＝{v₁}V₂＝{v₂,v₃,v₄,v₁₀}V₃＝{v₅,v₆,v₇,v₉,v₁₁}

V₄＝{v₈,v₁₅,v₁₆}V₅＝{v₁₂}V₆＝{v₁₃,v₁₄}

满足V＝V₁YV₂YV₃YV₄YV₅YV₆且V₁ΙV₂ΙV₃ΙV₄ΙV₅ΙV₆＝Φ。

根据图G的构造方法，可得到图G的6个子图G₁，G₂，…，G₆，如图2所示，指标对应于图G上的顶点得到指标分类结果如表4所示。

表4指标分类结果

类别	指标代表元	指标元素
			G₁	PH	PH
G₂	∑α	U，Ra，∑α，NH₄-N
			G₃	²¹⁰Pb	∑β，²³⁰Th，∑Th，²¹⁰Pb，Mn
G₄	²¹⁰Po	²¹⁰Po，Zn，Cd
			G₅	F^-	F^-
G₆	NO₃ ^-	NO₃ ^-，SO₄ ^2-

3)基于主成分分析的指标筛选

(1)选取指标代表元

从指标分类中选出指标代表元作为主成分分析的指标，根据指标分类中各指标之间的最短距离关系图，算出各个指标到其他指标的距离之和，距离之和越小说明该指标与其他指标的关系越密切，选取距离之和最小的指标作为指标代表元进行主成分分析。

以G₂为例，G₂中各指标之间的最短距离关系图如图3所示，图中，U到其他指标的距离之和为3.296，Ra到其他指标的距离之和为3.3977，∑α到其他指标的距离之和为3.1888，NH₄-N到其他指标的距离之和为3.2659，∑α到其他指标的距离之和最小，与其他指标的关系最密切，所以选取∑α作为G₂中的指标代表元。其他分类的指标代表元结果见表4。

(2)主成分分析

主成分分析的基本模型为

\{\begin{matrix} z_{1} = l_{11} x_{1} + l_{12} x_{2} + Λ + l_{1 p} x_{p} \\ z_{2} = l_{21} x_{1} + l_{22} x_{2} + Λ + l_{2 p} x_{p} \\ M \\ z_{m} = l_{m 1} x_{1} + l_{m 2} x_{2} + Λ + l_{m p} x_{p} \end{matrix}

其中x_i为第i个指标(i＝1,2,Λ,p)，z_j为第j个主成分(j＝1,2,Λ,m)，l_ij为第j个主成分中第i个指标对应的主成分载荷。

主成分分析指标筛选的具体步骤如下：

1：计算标准化指标值的相关系数矩阵R＝(r_ij)_p×p(其中r_ii＝1)。

2：计算相关系数矩阵R的特征值及特征向量、方差贡献率及累计贡献率、主成分因子载荷。

3：根据特征值或累计贡献率选择主成分，确定主成分个数m。

4：根据主成分上因子载荷的绝对值筛选指标。因子载荷绝对值越大说明指标对评价结果的影响越明显，越应当保留；因子载荷绝对值越小则说明指标对评价结果的影响越弱，越应当剔除。

根据指标代表元的标准化数据，应用SPSS软件做主成分分析，选取主成分特征值大于1或累积方差贡献率超过85％时各个主成分中因子载荷绝对值较大的指标，这里选取第一主成分中因子载荷绝对值大于0.9的指标和第二主成分中因子载荷绝对值最大的指标，分析结果如表5、表6所示，从表5可知，提取前2个主成分，即m＝2，从表6可知，PH和F^-在第一主成分上有较高载荷，∑α在第二主成分上有较高载荷。

表5主成分的特征值和方差贡献率

主成分	成分1	成分2
			特征值	3.053	1.529

贡献率	49.925％	26.43％
			累积贡献率	49.925％	76.356％

表6主成分初始因子载荷矩阵表(成分矩阵)

4)简化后的指标体系

指标分类中，各类中的指标数据相关性很高，主成分分析中保留下来的指标对评价结果有显著影响，与其同属一类的指标(数据相关性高)对评价结果也有显著影响，应同时作为构建指标体系的重要指标。

通过指标分类，将尾矿库渗水的16个指标分为6类，从各类中选出指标代表元进行主成分分析，得到的筛选结果见表6，保留指标用来作为构建评价指标体系的重要指标，同时将指标分类中与保留指标属于同一类的指标也用来作为重要指标，所以最终确定的退役铀尾矿库环境质量评价指标体系如图4所示。

Claims

1.一种基于图的距离分类和主成分分析的评价指标体系构建方法，其特征在于，按照以下步骤进行：

步骤1，初始评价指标的选取；

步骤2，进行基于图的距离分类的指标分类；

步骤3，进行基于主成分分析的指标筛选；

步骤4，得到简化后的指标体系。

2.根据权利要求1所述的一种基于图的距离分类和主成分分析的评价指标体系构建方法，其特征在于，所述步骤2按照以下步骤进行：

步骤a，数据标准化；

\overset{&OverBar;}{x} = \frac{1}{n} Σ_{i = 1}^{n} x_{i}

s = \sqrt{\frac{1}{n} Σ_{i = 1}^{n} {(x_{i} - \overset{&OverBar;}{x})}^{2}}

那么标准化公式为

x_{i}^{'} = \frac{x_{i} - \overset{&OverBar;}{x}}{s};

步骤b，基于相关系数计算指标之间的距离；

r_{i j} = \frac{Σ_{k = 1}^{n} (x_{k i} - {\overset{&OverBar;}{x}}_{i}) (x_{k j} - {\overset{&OverBar;}{x}}_{j})}{\sqrt{Σ_{k = 1}^{n} {(x_{k i} - {\overset{&OverBar;}{x}}_{i})}^{2} {(x_{k j} - {\overset{&OverBar;}{x}}_{j})}^{2}}}, i = 1, 2, Λ, n; j = 1, 2, Λ, m

d_{i j} = \{\begin{matrix} \frac{1}{r_{i j}}, & i &NotEqual; j \\ 0, & i = j \end{matrix};

步骤c，

基于Floyd算法计算指标之间的最短路径距离；

E = {(v_{i}, v_{j}) | &ForAll; v_{i} &Element; V, &ForAll; v_{j} &Element; V, v_{i} &NotEqual; v_{j}}, (1 \leq i, j \leq k),

那么图G是一个完全简单图；

设每条边(v_i,v_j)(i≠j)所对应的赋权为

w_ij＝d_ij

步骤d，基于图论的最短路径距离进行指标分类；

对指标进行分类，其实质就是对图G顶点集的一个划分，即

V＝V₁YV₂YΛYV_t，

其中V_iΙV_j＝Φ(i,j＝1,2,Λ,t)且

ρ为距离参数。

3.根据权利要求2所述的一种基于图的距离分类和主成分分析的评价指标体系构建方法，其特征在于，所述步骤c中采用Floyd算法按照以下步骤进行：输入完全赋权图的权矩阵W＝[w_ij]_n×n；对于顶点v_i和v_j，在邻接矩阵中，当存在e_ik+e_kj<e_ij时，则更新数值，用e_ik+e_kj代替e_ij的值，找出最短路径，得到最短路径矩阵D[d′_ij]_n×n，其中e_ij为图G上顶点v_i到v_j的距离，即边(v_i,v_j)的赋权值，e_ik、e_kj则分别为边(v_i,v_k)和边(v_k,v_j)的赋权值，d′_ij＝min[e(v_i,v_j)]。

4.根据权利要求1所述的一种基于图的距离分类和主成分分析的评价指标体系构建方法，其特征在于，所述步骤3按照以下步骤进行：

步骤a，选取指标代表元；

步骤b，主成分分析；

主成分分析的基本模型为

\{\begin{matrix} z_{1} = l_{11} x_{1} + l_{12} x_{2} + Λ + l_{1 p} x_{p} \\ z_{2} = l_{21} x_{1} + l_{22} x_{2} + Λ + l_{2 p} x_{p} \\ M \\ z_{m} = l_{m 1} x_{1} + l_{m 2} x_{2} + Λ + l_{m p} x_{p} \end{matrix}

主成分分析指标筛选的具体步骤如下：

5.根据权利要求1所述的一种基于图的距离分类和主成分分析的评价指标体系构建方法，其特征在于，所述步骤4按照以下步骤进行：指标分类中，各类中的指标数据相关性很高，主成分分析中保留下来的指标对评价结果有显著影响，与其同属一类的指标即数据相关性高的对评价结果也有显著影响，应同时作为构建指标体系的重要指标。