CN105354685B - 基于图的距离分类和主成分分析的评价指标体系构建方法 - Google Patents
基于图的距离分类和主成分分析的评价指标体系构建方法 Download PDFInfo
- Publication number
- CN105354685B CN105354685B CN201510884234.1A CN201510884234A CN105354685B CN 105354685 B CN105354685 B CN 105354685B CN 201510884234 A CN201510884234 A CN 201510884234A CN 105354685 B CN105354685 B CN 105354685B
- Authority
- CN
- China
- Prior art keywords
- index
- indexes
- graph
- distance
- water seepage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 50
- 238000000513 principal component analysis Methods 0.000 title claims abstract description 44
- 238000010276 construction Methods 0.000 title claims abstract description 14
- 238000010224 classification analysis Methods 0.000 title claims abstract description 9
- 238000012216 screening Methods 0.000 claims abstract description 20
- 238000000034 method Methods 0.000 claims abstract description 15
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 43
- 239000011159 matrix material Substances 0.000 claims description 26
- 239000010863 uranium mill tailing Substances 0.000 claims description 10
- 230000007613 environmental effect Effects 0.000 claims description 8
- 238000004458 analytical method Methods 0.000 claims description 7
- 238000013441 quality evaluation Methods 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000012544 monitoring process Methods 0.000 claims description 4
- 229910052793 cadmium Inorganic materials 0.000 claims description 3
- 229910052770 Uranium Inorganic materials 0.000 claims description 2
- 230000035515 penetration Effects 0.000 claims description 2
- 238000011109 contamination Methods 0.000 claims 1
- 230000010365 information processing Effects 0.000 abstract description 6
- 230000014759 maintenance of location Effects 0.000 abstract description 6
- 238000010219 correlation analysis Methods 0.000 description 4
- 230000001186 cumulative effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 230000005855 radiation Effects 0.000 description 2
- 229910052704 radon Inorganic materials 0.000 description 2
- SYUHGPGVQRZVTB-UHFFFAOYSA-N radon atom Chemical compound [Rn] SYUHGPGVQRZVTB-UHFFFAOYSA-N 0.000 description 2
- 239000000443 aerosol Substances 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000012847 principal component analysis method Methods 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 229910052725 zinc Inorganic materials 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/02—Agriculture; Fishing; Forestry; Mining
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Theoretical Computer Science (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Educational Administration (AREA)
- Development Economics (AREA)
- General Physics & Mathematics (AREA)
- Marketing (AREA)
- Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Agronomy & Crop Science (AREA)
- Primary Health Care (AREA)
- Mining & Mineral Resources (AREA)
- Animal Husbandry (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Marine Sciences & Fisheries (AREA)
- Health & Medical Sciences (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种基于图的距离分类和主成分分析的评价指标体系构建方法,初始评价指标的选取;进行基于图的距离分类的指标分类;进行基于主成分分析的指标筛选;得到简化后的指标体系。利用相关系数与图论中的最短路径相结合的分类方法‑图的距离分类法,将相关程度较高的元素划分为一类,从各类中选取指标代表元进行主成分分析,减少信息处理的工作量。选取主成分分析中保留指标及其与保留指标同属一类的指标作为构建指标体系的重要指标,避免重要指标的缺失。
Description
技术领域
本发明属于信息处理技术领域,涉及一种基于图的距离分类和主成分分析的评价指标体系构建方法。
背景技术
评价指标的选取以及指标体系是否合理对评价结果有着至关重要的影响。那么,如何在复杂庞大的指标体系中筛选指标是评价指标体系构建的一个难题。若对所有的指标进行评价,必定会因为指标过细过多而极大地增加信息处理的工作量;若只是单独的选出部分指标,可能会损失很多原始数据信息,导致评价结果的不准确性。
文献:《基于相关-主成分分析的人的全面发展评价指标体系构建》系统工程理论与实践基于相关-主成分分析的指标体系构建方法,其指标筛选思路为:
1)通过相关性分析删除同一准则层内相关系数大的指标,避免了指标的信息重复;
2)通过出成分分析删除因子负载小的指标,保证筛选出的指标对评价结果有显著影响。
指标筛选的相关性分析:
通过计算两个评价指标之间的相关系数,删除相关系数较大的评价指标,消除评价指标所反映的信息重复对评价结果的影响,简化指标体系相关性分析筛选指标的好处是剔除信息重复的指标。
具体步骤如下:
根据相关系数计算公式,则rij为
(2)规定一个临界值M(0<M<1),如果|rij|>M,则可以删除其中的一个评价指标;如果|rij|<M,则同时保留两个评价指标。
指标筛选的主成分分析:
主成分的实质是观测指标的线性组合,主成分分析的模型为:
Fj=αj1X1+αj2X2+Λ+αjiXi+Λ+αjmXm,j=1,2,Λ,k
其中,Xi为第i个指标(i=1,2,Λ,m);Fj为第j个主成分(j=1,2,Λ,k);αji为对应第j个特征值的特征向量的第i个分量;k为主成分的个数;m为指标个数。
主成分分析的具体步骤:
(1)求标准化指标值的相关系数矩阵Rm×m;
(2)求矩阵R的特征值λj(j=1,2,Λ,m),λj表示第j个主成分Fj所解释的原始指标数据的总方差,则主成分Fj对原始指标数据的方差贡献率ωj为:
(3)将特征值λj按从大到小的顺序排列,根据累积方差贡献率≥85%的要求选取前k个特征值对应的主成分,得到第i个指标在第j个主成分上因子负载bij矩阵
主成分分析对评价指标的筛选:根据主成分Fj上因子负载的绝对值|bij|筛选指标。|bij|越大表明指标i对评价结果的影响越显著,越应当保留;|bij|越小则表明指标对评价结果的影响越弱,越应当剔除。
现有技术具有以下缺点:
1)相关性分析所得的相关系数所体现的仅是数据之间的相关性,不代表指标之间的影响程度的相关性。A与B的相关系数很大,但两者对评价对象的影响是独立的,若仅根据相关性删除其中一个,可能会造成重要指标的缺失;
2)在指标多样复杂的情况下进行主成分分析,若未进行分类,会增加主成分分析信息处理的工作量,数据分析时舍弃的一部分成分中也可能存在与选取主成分中主要元素相关程度高的元素,影响评价结果。A与B的相关程度很高,数据分析时,若A对评价结果有显著影响,那么B也应对评价结果有显著影响,在主成分分析过程中,很可能出现A为选取主成分中的主要元素,而B为舍弃主成分中的元素,则必然会剔除掉B,这样就会造成重要指标B的缺失。
发明内容
本发明的目的是提供一种基于图的距离分类和主成分分析的评价指标体系构建方法,利用相关系数与图论中的最短路径相结合的分类方法-图的距离分类法,将相关程度较高的元素划分为一类,从各类中选取指标代表元进行主成分分析,减少信息处理的工作量。选取主成分分析中保留指标及其与保留指标同属一类的指标作为构建指标体系的重要指标,避免重要指标的缺失。
本发明所采用的技术方案是,一种基于图的距离分类和主成分分析的评价指标体系构建方法,按照以下步骤进行:
步骤1,初始评价指标的选取;
步骤2,进行基于图的距离分类的指标分类;
步骤3,进行基于主成分分析的指标筛选;
步骤4,得到简化后的指标体系。
本发明的特征还在于,进一步的,所述步骤2按照以下步骤进行:
步骤a,数据标准化;
设xi为某个指标的观察值,其中i=1,2,…,n,xi′为标准化数据,令
那么标准化公式为
步骤b,基于相关系数计算指标之间的距离;
计算指标之间的相关系数,以相关系数的倒数作为两个指标之间的距离,相关系数越大就体现了两个指标之间的距离越短;相关系数计算公式为
通过相关系数来体现指标之间的距离,取相关系数的倒数作为指标之间的距离,设dij为第i个指标与第j个指标之间的距离,即
将标准化数据代入相关系数计算公式,得到相关系数矩阵;指标之间的距离即为指标之间相关系数的倒数;
步骤c,
基于Floyd算法计算指标之间的最短路径距离;
根据指标之间的距离得到距离完全赋权图G,以初始指标作为图G上的顶点,求出图G上任意两点间的最短路径距离,即为指标之间的最短路径距离;
设每条边(vi,vj)(i≠j)所对应的赋权为
wij=dij
将图G中每一条边都赋权wij,则称G是一个完全赋权图,在图G中用最短路算法计算出任意两个顶点之间的最短距离;设d′ij为顶点vi(i=1,2,Λ,k)到顶点vj(j=1,2,Λ,k)的最短路径距离,采用Floyd算法计算图G上任意两点之间的最短路径;
步骤d,基于图论的最短路径距离进行指标分类;
对指标进行分类,其实质就是对图G顶点集的一个划分,即
V=V1 Y V2 Y Λ Y Vt,
其中Vi Ι Vj=Φ(i,j=1,2,Λ,t)且
进一步的,所述步骤c中采用Floyd算法按照以下步骤进行:输入完全赋权图的权矩阵W=[wij]n×n;对于顶点vi和vj,在邻接矩阵中,当存在eik+ekj<eij时,则更新数值,用eik+ekj代替eij的值,找出最短路径,得到最短路径矩阵D[d′ij]n×n,其中eij为图G上顶点vi到vj的距离,即边(vi,vj)的赋权值,eik、ekj则分别为边(vi,vk)和边(vk,vj)的赋权值,d′ij=min[e(vi,vj)]。
进一步的,所述步骤3按照以下步骤进行:
步骤a,选取指标代表元;
从指标分类中选出指标代表元作为主成分分析的指标,根据指标分类中各指标之间的最短距离关系图,算出各个指标到其他指标的距离之和,距离之和越小说明该指标与其他指标的关系越密切,选取距离之和最小的指标作为指标代表元进行主成分分析;
步骤b,主成分分析;
主成分分析的基本模型为
其中xi为第i个指标,其中i=1,2,Λ,p,zj为第j个主成分,其中j=1,2,Λ,m,lij为第j个主成分中第i个指标对应的主成分载荷;
主成分分析指标筛选的具体步骤如下:
1:计算标准化指标值的相关系数矩阵R=(rij)p×p,其中rii=1;
2:计算相关系数矩阵R的特征值及特征向量、方差贡献率及累计贡献率、主成分因子载荷;
3:根据特征值或累计贡献率选择主成分,确定主成分个数m;
4:根据主成分上因子载荷的绝对值筛选指标;因子载荷绝对值越大说明指标对评价结果的影响越明显,越应当保留;因子载荷绝对值越小则说明指标对评价结果的影响越弱,越应当剔除。
进一步的,所述步骤4按照以下步骤进行:指标分类中,各类中的指标数据相关性很高,主成分分析中保留下来的指标对评价结果有显著影响,与其同属一类的指标即数据相关性高的对评价结果也有显著影响,应同时作为构建指标体系的重要指标。
本发明的有益效果是在指标复杂多样的情况下,利用相关系数与图论中的最短路径相结合的分类方法——图的距离分类法,将相关程度较高的元素划分为一类,从各类中选取指标代表元进行主成分分析,减少了进行主成分分析的指标个数,也就减少了信息处理的工作量,避免了重复信息的分析工作;根据主成分分析的筛选结果,保留指标作为构建指标体系的重要指标,表明指标对评价结果有显著影响,那么,在指标分类中与保留指标属于同一类的指标也对评价结果有显著影响,也作为重要指标,避免了重要指标的缺失。
附图说明
图1是本发明中指标体系的构建步骤图。
图2是指标分类图。
图3是G2中各指标之间的最短距离关系图。
图4是退役铀尾矿库环境质量评价指标体系图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
一种基于图的距离分类和主成分分析的评价指标体系构建方法,具体按照以下步骤进行:
实施例
以退役铀尾矿库环境质量评价指标体系的构建为例,介绍了图的距离分类与主成分分析相结合的指标体系构建方法,以图的距离分类法来进行指标分类,以主成分分析法来进行指标筛选,具体步骤如图1所示。
1)初始评价指标的选取
根据评价目的,并考虑现有环境监测数据的可获得性以及完整性等因素,在构建环境质量评价指标体系时侧重从污染角度考虑,选择尾矿库渗水环境指标和坝体及周围辐射环境指标作为两大类指标,其中渗水环境指标有PH、∑α、∑β、U、Ra、230Th、∑Th、210Po、210Pb、Mn、NH4-N、F-、SO4 2-、NO3 -、Zn、Cd;周围辐射环境指标主要有氡气、氡析出率、α气溶胶、γ、表面α、表面β。
2)基于图的距离分类的指标分类
(1)数据标准化
实际应用中常存在指标量纲不同的情况,为了消除量纲的影响,需要对数据进行无量纲化处理,常用方法是将原始数据标准化。
设xi(i=1,2,Λ,n)为某个指标的观察值,xi′为标准化数据,令
那么标准化公式为
选取退役铀尾矿库渗水环境指标作为研究,以现有退役铀尾矿库六个坝段(A-F)渗水的水样监测项目数据作为样本,原始数据来源于现有退役铀尾矿库环境监测报告。退役铀尾矿库渗水指标标准化数据见表1。
表1 退役铀尾矿库渗水指标的标准化数据
(2)基于相关系数计算指标之间的距离
计算指标之间的相关系数,以相关系数的倒数作为两个指标之间的距离,相关系数越大就体现了两个指标之间的距离越短。
相关系数计算公式为
通过相关系数来体现指标之间的距离,取相关系数的倒数作为指标之间的距离,设dij为第i个指标与第j个指标之间的距离,即
将表1中渗水指标标准化数据代入相关系数计算公式,得到相关系数矩阵,如表2所示,指标之间的距离即为指标之间相关系数的倒数。
表2 渗水指标之间的相关系数矩阵表
r<sub>ij</sub> | v<sub>1</sub> | v<sub>2</sub> | v<sub>3</sub> | v<sub>4</sub> | v<sub>5</sub> | v<sub>6</sub> | v<sub>7</sub> | v<sub>8</sub> | v<sub>9</sub> | v<sub>10</sub> | v<sub>11</sub> | v<sub>12</sub> | v<sub>13</sub> | v<sub>14</sub> | v<sub>15</sub> | v<sub>16</sub> |
v<sub>1</sub> | 1.00 | 0.40 | 0.69 | 0.37 | -0.60 | -0.46 | -0.47 | 0.33 | -0.55 | 0.32 | -0.72 | 0.80 | 0.83 | 0.77 | 0.36 | 0.60 |
v<sub>2</sub> | 0.40 | 1.00 | 0.86 | 0.97 | 0.12 | 0.03 | 0.21 | -0.45 | 0.09 | 0.91 | 0.06 | 0.33 | 0.13 | -0.03 | -0.35 | -0.30 |
v<sub>3</sub> | 0.69 | 0.86 | 1.00 | 0.90 | -0.39 | -0.47 | -0.31 | -0.34 | -0.42 | 0.90 | -0.44 | 0.40 | 0.34 | 0.21 | -0.27 | -0.05 |
v<sub>4</sub> | 0.37 | 0.97 | 0.90 | 1.00 | -0.01 | -0.11 | 0.08 | -0.50 | -0.05 | 0.96 | -0.05 | 0.26 | 0.06 | -0.08 | -0.39 | -0.33 |
v<sub>5</sub> | -0.60 | 0.12 | -0.39 | -0.01 | 1.00 | 0.91 | 0.95 | -0.25 | 0.99 | -0.14 | 0.96 | -0.23 | -0.32 | -0.35 | -0.24 | -0.55 |
v<sub>6</sub> | -0.46 | 0.03 | -0.47 | -0.11 | 0.91 | 1.00 | 0.96 | 0.15 | 0.94 | -0.29 | 0.85 | 0.07 | -0.20 | -0.21 | 0.18 | -0.18 |
v<sub>7</sub> | -0.47 | 0.21 | -0.31 | 0.08 | 0.95 | 0.96 | 1.00 | -0.08 | 0.97 | -0.10 | 0.88 | 0.02 | -0.22 | -0.25 | -0.02 | -0.39 |
v<sub>8</sub> | 0.33 | -0.45 | -0.34 | -0.50 | -0.25 | 0.15 | -0.08 | 1.00 | -0.15 | -0.59 | -0.28 | 0.61 | 0.38 | 0.45 | 0.98 | 0.93 |
v<sub>9</sub> | -0.55 | 0.09 | -0.42 | -0.05 | 0.99 | 0.94 | 0.97 | -0.15 | 1.00 | -0.20 | 0.94 | -0.14 | -0.25 | -0.27 | -0.13 | -0.46 |
v<sub>10</sub> | 0.32 | 0.91 | 0.90 | 0.96 | -0.14 | -0.29 | -0.10 | -0.59 | -0.20 | 1.00 | -0.11 | 0.06 | -0.10 | -0.23 | -0.52 | -0.36 |
v<sub>11</sub> | -0.72 | 0.06 | -0.44 | -0.05 | 0.96 | 0.85 | 0.88 | -0.28 | 0.94 | -0.11 | 1.00 | -0.41 | -0.55 | -0.58 | -0.30 | -0.57 |
v<sub>12</sub> | 0.80 | 0.33 | 0.40 | 0.26 | -0.23 | 0.07 | 0.02 | 0.61 | -0.14 | 0.06 | -0.41 | 1.00 | 0.79 | 0.76 | 0.70 | 0.68 |
v<sub>13</sub> | 0.83 | 0.13 | 0.34 | 0.06 | -0.32 | -0.20 | -0.22 | 0.38 | -0.25 | -0.10 | -0.55 | 0.79 | 1.00 | 0.99 | 0.43 | 0.52 |
v<sub>14</sub> | 0.77 | -0.03 | 0.21 | -0.08 | -0.35 | -0.21 | -0.25 | 0.45 | -0.27 | -0.23 | -0.58 | 0.76 | 0.99 | 1.00 | 0.50 | 0.56 |
v<sub>15</sub> | 0.36 | -0.35 | -0.27 | -0.39 | -0.24 | 0.18 | -0.02 | 0.98 | -0.13 | -0.52 | -0.30 | 0.70 | 0.43 | 0.50 | 1.00 | 0.90 |
v<sub>16</sub> | 0.60 | -0.30 | -0.05 | -0.33 | -0.55 | -0.18 | -0.39 | 0.93 | -0.46 | -0.36 | -0.57 | 0.68 | 0.52 | 0.56 | 0.90 | 1.00 |
(3)基于Floyd算法计算指标之间的最短路径距离
根据指标之间的距离得到距离完全赋权图G(此处距离完全赋权图G不是附图G),以渗水指标作为图G上的顶点,求出图G上任意两点间的最短路径距离,即为指标之间的最短路径距离。
设每条边(vi,vj)(i≠j)所对应的赋权为
wij=dij
将图G中每一条边都赋权wij,则称G是一个完全赋权图,在图G中用最短路算法计算出任意两个顶点之间的最短距离。设d′ij为顶点vi(i=1,2,Λ,k)到顶点vj(j=1,2,Λ,k)的最短路径距离,采用Floyd算法计算图G上任意两点之间的最短路径,Floyd算法步骤如下:
(i)输入完全赋权图的权矩阵W=[wij]n×n;
3.(ii)对于顶点vi和vj,在邻接矩阵中,当存在eik+ekj<eij时,则更新数值,用eik+ekj代替eij的值,找出最短路径,得到最短路径矩阵D[d′ij]n×n,其中eij为图G上顶点vi到vj的距离,即边(vi,vj)的赋权值,eik、ekj则分别为边(vi,vk)和边(vk,vj)的赋权值,d′ij=min[e(vi,vj)]。
根据渗水指标的个数确定图G的顶点个数为16个,则G的顶点集为V={v1,v2,Λ,v16},以dij作为图G上每条边(vi,vj)所对应的权wij,得到权矩阵W=[wij]n×n。其中W等于
采用MATLAB语言编程实现Floyd算法求得赋权图G上任意两点之间的最短路径距离,即各指标之间的最短路径距离d′ij,如表3所示。
表3 图G各顶点之间的最短路径距离
d<sub>ij</sub>′ | v<sub>1</sub> | v<sub>2</sub> | v<sub>3</sub> | v<sub>4</sub> | v<sub>5</sub> | v<sub>6</sub> | v<sub>7</sub> | v<sub>8</sub> | v<sub>9</sub> | v<sub>10</sub> | v<sub>11</sub> | v<sub>12</sub> | v<sub>13</sub> | v<sub>14</sub> | v<sub>15</sub> | v<sub>16</sub> |
v<sub>1</sub> | 0.00 | 2.49 | 1.45 | 2.57 | 1.67 | 2.18 | 2.13 | 2.74 | 1.82 | 2.57 | 1.39 | 1.25 | 1.21 | 1.31 | 2.68 | 1.67 |
v<sub>2</sub> | 2.49 | 0.00 | 1.17 | 1.03 | 3.74 | 3.32 | 4.35 | 2.24 | 3.57 | 1.10 | 3.44 | 3.05 | 3.70 | 3.79 | 2.85 | 3.32 |
v<sub>3</sub> | 1.45 | 1.17 | 0.00 | 1.12 | 2.58 | 2.15 | 3.19 | 2.83 | 2.40 | 1.12 | 2.27 | 2.51 | 2.66 | 2.76 | 3.05 | 3.12 |
v<sub>4</sub> | 2.57 | 1.03 | 1.12 | 0.00 | 3.69 | 3.27 | 4.30 | 2.00 | 3.52 | 1.05 | 3.39 | 3.62 | 3.77 | 3.87 | 2.56 | 3.02 |
v<sub>5</sub> | 1.67 | 3.74 | 2.58 | 3.69 | 0.00 | 1.10 | 1.05 | 2.90 | 1.01 | 3.69 | 1.04 | 2.92 | 2.87 | 2.78 | 2.94 | 1.82 |
v<sub>6</sub> | 2.18 | 3.32 | 2.15 | 3.27 | 1.10 | 0.00 | 1.04 | 4.01 | 1.06 | 3.27 | 1.17 | 3.43 | 3.00 | 2.91 | 4.04 | 2.93 |
v<sub>7</sub> | 2.13 | 4.35 | 3.19 | 4.30 | 1.05 | 1.04 | 0.00 | 3.67 | 1.03 | 4.30 | 1.14 | 3.37 | 2.97 | 2.88 | 3.71 | 2.59 |
v<sub>8</sub> | 2.74 | 2.24 | 2.83 | 2.00 | 2.90 | 4.01 | 3.67 | 0.00 | 3.28 | 1.71 | 2.83 | 1.65 | 2.65 | 2.22 | 1.02 | 1.08 |
v<sub>9</sub> | 1.82 | 3.57 | 2.40 | 3.52 | 1.01 | 1.06 | 1.03 | 3.28 | 0.00 | 3.52 | 1.07 | 3.07 | 2.89 | 2.81 | 3.31 | 2.20 |
v<sub>10</sub> | 2.57 | 1.10 | 1.12 | 1.05 | 3.69 | 3.27 | 4.30 | 1.71 | 3.52 | 0.00 | 3.39 | 3.36 | 3.77 | 3.87 | 1.93 | 2.75 |
v<sub>11</sub> | 1.39 | 3.44 | 2.27 | 3.39 | 1.04 | 1.17 | 1.14 | 2.83 | 1.07 | 3.39 | 0.00 | 2.45 | 1.82 | 1.74 | 2.87 | 1.75 |
v<sub>12</sub> | 1.25 | 3.05 | 2.51 | 3.62 | 2.92 | 3.43 | 3.37 | 1.65 | 3.07 | 3.36 | 2.45 | 0.00 | 1.26 | 1.32 | 1.43 | 1.47 |
v<sub>13</sub> | 1.21 | 3.70 | 2.66 | 3.77 | 2.87 | 3.00 | 2.97 | 2.65 | 2.89 | 3.77 | 1.82 | 1.26 | 0.00 | 1.01 | 2.34 | 1.94 |
v<sub>14</sub> | 1.31 | 3.79 | 2.76 | 3.87 | 2.78 | 2.91 | 2.88 | 2.22 | 2.81 | 3.87 | 1.74 | 1.32 | 1.01 | 0.00 | 2.01 | 1.78 |
v<sub>15</sub> | 2.68 | 2.85 | 3.05 | 2.56 | 2.94 | 4.04 | 3.71 | 1.02 | 3.31 | 1.93 | 2.87 | 1.43 | 2.34 | 2.01 | 0.00 | 1.11 |
v<sub>16</sub> | 1.67 | 3.32 | 3.12 | 3.02 | 1.82 | 2.93 | 2.59 | 1.08 | 2.20 | 2.75 | 1.75 | 1.47 | 1.94 | 1.78 | 1.11 | 0.00 |
(4)基于图论的最短路径距离进行指标分类
对指标进行分类,其实质就是对图G顶点集的一个划分,即
V=V1 Y V2 Y Λ Y Vt
对渗水指标进行分类,给定ρ=1.2,根据表3中的最短距离将顶点集划分为6类:
V1={v1} V2={v2,v3,v4,v10} V3={v5,v6,v7,v9,v11}
V4={v8,v15,v16} V5={v12} V6={v13,v14}
满足V=V1 Y V2 Y V3 Y V4 Y V5 Y V6且V1 Ι V2 Ι V3 Ι V4 Ι V5 Ι V6=Φ。
根据图G的构造方法,可得到图G的6个子图G1,G2,…,G6,如图2所示,指标对应于图G上的顶点得到指标分类结果如表4所示。
表4 指标分类结果
类别 | 指标代表元 | 指标元素 |
G<sub>1</sub> | PH | PH |
G<sub>2</sub> | ∑α | U,Ra,∑α,NH<sub>4</sub>-N |
G<sub>3</sub> | <sup>210</sup>Pb | ∑β,<sup>230</sup>Th,∑Th,<sup>210</sup>Pb,Mn |
G<sub>4</sub> | <sup>210</sup>Po | <sup>210</sup>Po,Zn,Cd |
G<sub>5</sub> | F<sup>-</sup> | F<sup>-</sup> |
G<sub>6</sub> | NO<sub>3</sub><sup>-</sup> | NO<sub>3</sub><sup>-</sup>,SO<sub>4</sub><sup>2-</sup> |
3)基于主成分分析的指标筛选
(1)选取指标代表元
从指标分类中选出指标代表元作为主成分分析的指标,根据指标分类中各指标之间的最短距离关系图,算出各个指标到其他指标的距离之和,距离之和越小说明该指标与其他指标的关系越密切,选取距离之和最小的指标作为指标代表元进行主成分分析。
以G2为例,G2中各指标之间的最短距离关系图如图3所示,图中,U到其他指标的距离之和为3.296,Ra到其他指标的距离之和为3.3977,∑α到其他指标的距离之和为3.1888,NH4-N到其他指标的距离之和为3.2659,∑α到其他指标的距离之和最小,与其他指标的关系最密切,所以选取∑α作为G2中的指标代表元。其他分类的指标代表元结果见表4。
(2)主成分分析
主成分分析的基本模型为
其中xi为第i个指标(i=1,2,Λ,p),zj为第j个主成分(j=1,2,Λ,m),lij为第j个主成分中第i个指标对应的主成分载荷。
主成分分析指标筛选的具体步骤如下:
1:计算标准化指标值的相关系数矩阵R=(rij)p×p(其中rii=1)。
2:计算相关系数矩阵R的特征值及特征向量、方差贡献率及累计贡献率、主成分因子载荷。
3:根据特征值或累计贡献率选择主成分,确定主成分个数m。
4:根据主成分上因子载荷的绝对值筛选指标。因子载荷绝对值越大说明指标对评价结果的影响越明显,越应当保留;因子载荷绝对值越小则说明指标对评价结果的影响越弱,越应当剔除。
根据指标代表元的标准化数据,应用SPSS软件做主成分分析,选取主成分特征值大于1或累积方差贡献率超过85%时各个主成分中因子载荷绝对值较大的指标,这里选取第一主成分中因子载荷绝对值大于0.9的指标和第二主成分中因子载荷绝对值最大的指标,分析结果如表5、表6所示,从表5可知,提取前2个主成分,即m=2,从表6可知,PH和F-在第一主成分上有较高载荷,∑α在第二主成分上有较高载荷。
表5 主成分的特征值和方差贡献率
主成分 | 成分1 | 成分2 |
特征值 | 3.053 | 1.529 |
贡献率 | 49.925% | 26.43% |
累积贡献率 | 49.925% | 76.356% |
表6 主成分初始因子载荷矩阵表(成分矩阵)
4)简化后的指标体系
指标分类中,各类中的指标数据相关性很高,主成分分析中保留下来的指标对评价结果有显著影响,与其同属一类的指标(数据相关性高)对评价结果也有显著影响,应同时作为构建指标体系的重要指标。
通过指标分类,将尾矿库渗水的16个指标分为6类,从各类中选出指标代表元进行主成分分析,得到的筛选结果见表6,保留指标用来作为构建评价指标体系的重要指标,同时将指标分类中与保留指标属于同一类的指标也用来作为重要指标,所以最终确定的退役铀尾矿库环境质量评价指标体系如图4所示。
Claims (1)
1.一种基于图的距离分类和主成分分析的评价指标体系构建方法,其特征在于,应用于退役铀尾矿库环境质量评价指标体系的构建,按照以下步骤进行:
步骤1,初始评价指标的选取;
根据评价目的,并考虑现有环境监测数据的可获得性以及完整性因素,在构建环境质量评价指标体系时侧重从污染角度考虑,选择渗水环境指标有PH、∑α、∑β、U、Ra、230Th、∑Th、210Po、210Pb、Mn、NH+ 4-N、F-、SO4 2-、NO3 -、Zn、Cd;
步骤2,进行基于图的距离分类的指标分类;
(1)数据标准化
设xi为某个所述渗水环境指标的观察值,i=1,2,…,n,xi′为标准化数据,
令
那么标准化公式为
(2)基于相关系数计算指标之间的距离
计算指标之间的相关系数,以相关系数的倒数作为两个指标之间的距离,相关系数越大就体现了两个指标之间的距离越短;
相关系数计算公式为
通过相关系数来体现指标之间的距离,取相关系数的倒数作为指标之间的距离,设dij为第i个渗水环境指标与第j个渗水环境指标之间的距离,即
将渗水指标标准化数据代入相关系数计算公式,得到相关系数矩阵,指标之间的距离即为指标之间相关系数的倒数;
(3)基于Floyd算法计算指标之间的最短路径距离
根据指标之间的距离得到距离完全赋权图G,以渗水环境指标作为图G上的顶点,求出图G上任意两点间的最短路径距离,即为指标之间的最短路径距离;令每一个渗水环境指标对应图G中的一个顶点v,设G的顶点集为V={v1,v2,…,vk},则边集那么图G是一个完全简单图;
当i≠j时,设每条边(vi,vj)所对应的赋权为wij=dij,即将图G中每一条边都赋权wij,则G是一个完全赋权图,在图G中用最短路算法计算出任意两个顶点之间的最短距离;设dij′为顶点vi到顶点vj的最短路径距离,i,j=1,2,…,k,采用Floyd算法计算图G上任意两点之间的最短路径,Floyd算法步骤如下:
(i)输入完全赋权图的权矩阵W=[wij]n×n;
(ii)对于顶点vi和vj,在邻接矩阵中,当存在eik+ekj<eij时,则更新数值,用eik+ekj代替eij的值,找出最短路径,得到最短路径矩阵D[d′ij]n×n,其中eij为图G上顶点vi到vj的距离,即边(vi,vj)的赋权值,eik、ekj则分别为边(vi,vk)和边(vk,vj)的赋权值,d′ij=min[e(vi,vj)];
根据渗水环境指标的个数确定图G的顶点个数为16个,则G的顶点集为V={v1,v2,…,v16},以dij作为图G上每条边(vi,vj)所对应的权wij,得到权矩阵W=[wij]n×n;
采用MATLAB语言编程实现Floyd算法求得赋权图G上任意两点之间的最短路径距离,即各渗水环境指标之间的最短路径距离dij′;
(4)基于图论的最短路径距离进行指标分类
对指标进行分类,其实质就是对图G顶点集的一个划分,即V=V1∪V2∪…∪Vt
对所述渗水环境指标进行分类,给定ρ=1.2,根据得到的完全赋权图G将顶点集划分为6类:
V1={v1}V2={v2,v3,v4,v10}V3={v5,v6,v7,v9,v11}
V4={v8,v15,v16}V5={v12}V6={v13,v14}
满足V=V1∪V2∪V3∪V4∪V5∪V6且Vi∩Vj=Φ,i,j=1,2,…,6;
根据图G的构造方法,可得到图G的6个子图G1,G2,…,G6;
步骤3,进行基于主成分分析的指标筛选;
(1)选取指标代表元
从渗水环境指标分类中选出指标代表元作为主成分分析的指标,根据渗水环境指标分类中各渗水环境指标之间的最短距离关系图,算出各个渗水环境指标到其他渗水环境指标的距离之和,距离之和越小说明该渗水环境指标与其他渗水环境指标的关系越密切,选取距离之和最小的渗水环境指标作为指标代表元进行主成分分析;
(2)主成分分析
主成分分析的基本模型为
其中xi为第i个所述渗水环境指标,i=1,2,…,p,zj为第j个主成分,j=1,2,…,m,lij为第j个主成分中第i个指标对应的主成分载荷;
主成分分析指标筛选的具体步骤如下:
1:计算标准化指标值的相关系数矩阵R=(rij)p×p,其中rii=1;
2:计算相关系数矩阵R的特征值及特征向量、方差贡献率及累计贡献率、主成分因子载荷;
3:根据特征值或累计贡献率选择主成分,确定主成分个数m;
4:根据主成分上因子载荷的绝对值筛选指标;因子载荷绝对值越大说明指标对评价结果的影响越明显,越应当保留;因子载荷绝对值越小则说明指标对评价结果的影响越弱,越应当剔除;
步骤4,得到简化后的指标体系;
通过指标分类,将尾矿库渗水的16个指标分为6类,从各类中选出指标代表元进行主成分分析,得到筛选结果,保留指标用来作为构建评价指标体系的重要指标,同时将指标分类中与保留指标属于同一类的指标也用来作为重要指标,所以最终确定的退役铀尾矿库环境质量评价指标体系。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510884234.1A CN105354685B (zh) | 2015-12-03 | 2015-12-03 | 基于图的距离分类和主成分分析的评价指标体系构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510884234.1A CN105354685B (zh) | 2015-12-03 | 2015-12-03 | 基于图的距离分类和主成分分析的评价指标体系构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105354685A CN105354685A (zh) | 2016-02-24 |
CN105354685B true CN105354685B (zh) | 2021-08-31 |
Family
ID=55330652
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510884234.1A Active CN105354685B (zh) | 2015-12-03 | 2015-12-03 | 基于图的距离分类和主成分分析的评价指标体系构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105354685B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107276896B (zh) * | 2016-11-24 | 2020-03-27 | 北京交通大学 | 改进迪杰斯特拉算法的两点间最短路径搜索方法 |
CN107133722A (zh) * | 2017-04-18 | 2017-09-05 | 国家电网公司 | 基于电力企业大数据技术的配电网差异特征诊断分析方法 |
CN107146009B (zh) * | 2017-04-27 | 2020-09-04 | 杭州电子科技大学 | 一种供水管网运行状态评估方法 |
CN107644290A (zh) * | 2017-09-05 | 2018-01-30 | 河北工程大学 | 一种专利技术生命周期分析方法 |
CN114841559A (zh) * | 2022-04-29 | 2022-08-02 | 上海跬智信息技术有限公司 | 基于指标距离的指标去重方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103606115A (zh) * | 2013-12-05 | 2014-02-26 | 国家电网公司 | 一种节能型电网的评定方法 |
CN104021272A (zh) * | 2014-05-06 | 2014-09-03 | 国网上海市电力公司 | 一种基于主成分分析的工程概算影响因子提取方法 |
CN104462685A (zh) * | 2014-12-03 | 2015-03-25 | 江苏省电力公司淮安供电公司 | 基于网格GIS和Floyd算法的输电线路设计方法 |
CN105046376A (zh) * | 2015-09-06 | 2015-11-11 | 河海大学 | 考虑指标相关性的水库群防洪调度方案优选方法 |
-
2015
- 2015-12-03 CN CN201510884234.1A patent/CN105354685B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103606115A (zh) * | 2013-12-05 | 2014-02-26 | 国家电网公司 | 一种节能型电网的评定方法 |
CN104021272A (zh) * | 2014-05-06 | 2014-09-03 | 国网上海市电力公司 | 一种基于主成分分析的工程概算影响因子提取方法 |
CN104462685A (zh) * | 2014-12-03 | 2015-03-25 | 江苏省电力公司淮安供电公司 | 基于网格GIS和Floyd算法的输电线路设计方法 |
CN105046376A (zh) * | 2015-09-06 | 2015-11-11 | 河海大学 | 考虑指标相关性的水库群防洪调度方案优选方法 |
Non-Patent Citations (3)
Title |
---|
基于相关-主成分分析的人的全面发展评价指标体系构建;迟国泰 等;《系统工程理论与实践》;20120131;第32卷(第1期);111-119 * |
我国编组站评价指标体系构建研究;高宇虹;《中国优秀硕士学位论文全文数据库》;20130515(第05期);J151-3 * |
物流企业服务质量评价模型构建及应用研究;周正嵩;《中国博士学位论文全文数据库经济与管理科学辑》;20140915(第09期);J145-19 * |
Also Published As
Publication number | Publication date |
---|---|
CN105354685A (zh) | 2016-02-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105354685B (zh) | 基于图的距离分类和主成分分析的评价指标体系构建方法 | |
Palarea-Albaladejo et al. | Dealing with distances and transformations for fuzzy C-means clustering of compositional data | |
CN107436963B (zh) | 一种基于Copula函数多元退化的O型橡胶密封圈寿命预测方法 | |
CN111275044A (zh) | 基于样本选择和自适应难例挖掘的弱监督目标检测方法 | |
CN104820841B (zh) | 基于低阶互信息和光谱上下文波段选择的高光谱分类方法 | |
Urbina-Barreto et al. | Which method for which purpose? A comparison of line intercept transect and underwater photogrammetry methods for coral reef surveys | |
CN112150407A (zh) | 针对小样本的航天复合材料夹杂缺陷的深度学习检测方法及系统 | |
Coenen et al. | Semi-supervised segmentation of concrete aggregate using consensus regularisation and prior guidance | |
Sotomayor et al. | Implications of macroinvertebrate taxonomic resolution for freshwater assessments using functional traits: The Paute River Basin (Ecuador) case | |
CN107016416B (zh) | 基于邻域粗糙集和pca融合的数据分类预测方法 | |
CN115439654A (zh) | 动态约束下的弱监督农田地块精细化分割方法及系统 | |
Kundu et al. | Analysis of incomplete data in presence of competing risks among several groups | |
Kaur et al. | A methodology for the performance analysis of cluster based image segmentation | |
CN113222920A (zh) | 基于剪枝YOLOv3的吸管缺陷检测方法 | |
Kayid et al. | EM Algorithm for Estimating the Parameters of Quasi-Lindley Model with Application | |
Khudov et al. | The Choice of Quality Indicator for the Image Segmentation Evaluation | |
CN115861956A (zh) | 一种基于解耦头部的Yolov3道路垃圾检测方法 | |
JP2016520220A (ja) | 隠れ属性モデル推定装置、方法およびプログラム | |
CN111126485A (zh) | 一种基于李群机器学习核函数的Lie-KFDA场景分类方法和系统 | |
CN112200219B (zh) | 一种超大规模晶圆缺陷数据的特征提取方法 | |
Danajitha et al. | Detection of Cracks in High Rise Buildings using Drones | |
US20180293427A1 (en) | Automatic Calculation for Ploidy Classification | |
Zhao et al. | A real-time CFAR thresholding method for target detection in hyperspectral images | |
Samaniego et al. | Image Processing Model for Classification of Stages of Freshness of Bangus using YOLOv8 Algorithm | |
Lamboni | Kernel-based sensitivity indices for any model behavior and screening |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |