CN107423759B - 低维逐次投影寻踪聚类模型综合评价方法、装置及应用 - Google Patents

低维逐次投影寻踪聚类模型综合评价方法、装置及应用 Download PDF

Info

Publication number
CN107423759B
CN107423759B CN201710584477.2A CN201710584477A CN107423759B CN 107423759 B CN107423759 B CN 107423759B CN 201710584477 A CN201710584477 A CN 201710584477A CN 107423759 B CN107423759 B CN 107423759B
Authority
CN
China
Prior art keywords
dimension
projection
clustering model
sample
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710584477.2A
Other languages
English (en)
Other versions
CN107423759A (zh
Inventor
于晓虹
楼文高
冯国珍
司文
汤俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI BUSINESS SCHOOL
Original Assignee
SHANGHAI BUSINESS SCHOOL
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI BUSINESS SCHOOL filed Critical SHANGHAI BUSINESS SCHOOL
Priority to CN201710584477.2A priority Critical patent/CN107423759B/zh
Publication of CN107423759A publication Critical patent/CN107423759A/zh
Application granted granted Critical
Publication of CN107423759B publication Critical patent/CN107423759B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/231Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Educational Administration (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Game Theory and Decision Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种低维逐次投影寻踪聚类(LDSPPC)模型综合评价方法、装置及应用,该方法包括以下步骤:对多个候选对象的样本数据进行规格化预处理,对候选对象构建2~4个投影向量相互正交的一维投影寻踪聚类模型;将多个候选对象的所有维度的投影寻踪聚类模型矢量合成为一个综合投影寻踪聚类模型,获得评价指标重要性排序列表和候选对象质量排序列表。本发明群搜索智能算法具有收敛速度快、收敛到全局最优解可靠性高等特点,矢量合成多个逐次投影寻踪向量,能够快速评价候选对象的优劣,且提高了候选对象质量评价的准确度。

Description

低维逐次投影寻踪聚类模型综合评价方法、装置及应用
技术领域
本发明涉及计算机应用技术领域,特别是涉及一种基于低维逐次投影寻踪聚类模型(LDSPPC)的综合评价方法、装置及应用。
背景技术
供应商选择与评价涉及处理多指标(高维)属性的非线性、非正态分布的数据处理,常规建模方法的效果较差。Friedman等1974年提出的一维投影寻踪分类(ProjectionPursuit Clustering,简称PPC)模型,在众多领域得到了广泛应用,取得了一定效果。但对于多属性少样本的供应商选择与评价问题,往往因为挖掘出的样本数据信息不充分,出现多个供应商得分相同的结果,难以选择合适的供应商。
在LDSPPC建模过程中,首先需要消除不同评价指标之间由于量纲不同而带来的不利影响,即必须对样本数据进行归一化处理。对主观(专家)确定的数据,为了消除专家偏好的影响,常采用极差归一化方法,对客观测定(确定)的数据,采用极大值归一化方法有助于保留数据的更多原始信息;对最大值和最小值未知或不作限制的数据,宜采用去均值归一化方法。
在LDSPPC模型中,选取合理的局部密度窗宽半径R值是核心和关键问题之一。楼文高等于2015年从理论和实践两个角度进行分析后,提出了合理R值取中间适度值方案,即rmax/5≤R≤rmax/3。
目前,史晓霞等(2008)建立了2维投影寻踪聚类模型,但建模结果显然是错误的,因为其第二维的目标函数值大于第一维的目标函数值,这是不可能的。龚衍等(2007)采用相对信息熵最大作为目标函数建立了9维投影寻踪聚类模型,但没有实际案例数据,无法验证其结果的可靠性。这些论文都没有讨论如何实现多个投影寻踪向量的合成问题,不利于充分挖掘样本数据信息进行分类和排序研究。
国内没有发现任何一款软件能够提供LDSPPC建模,唐启义(2013)研制的商品化DPS软件有关PPC建模的程序无法得到可靠的结果。由于LDSPPC模型是一个同时含有等式和不等式约束的高维非线性最优化问题,求解非常困难。
因此,计算机应用技术和管理科学与工程领域急需一款能够实现对多指标属性、非线性、非正态分布数据进行低维逐次投影寻踪聚类建模的综合评价计算机软件。
发明内容
本发明的目的是克服现有技术的不足,设计出一种低维逐次投影寻踪聚类模型综合评价方法、装置及应用。
为达到上述目的,本发明所采用的技术方案是:
一种低维逐次投影寻踪聚类模型综合评价方法,具体包括以下步骤:
步骤1:对多个候选对象的多个评价指标数据进行规格化预处理操作;
步骤2:根据所有候选对象预处理后的样本数据建立第1维度逐次投影寻踪聚类模型、第2维度逐次投影寻踪聚类模型...第k维度逐次投影寻踪聚类模型,其中2≤k≤4,k为低维逐次投影寻踪聚类模型的空间维度;
根据建立的第1维度逐次投影寻踪聚类模型、第2维度逐次投影寻踪聚类模型...第k维度逐次投影寻踪聚类模型分别计算每个候选对象的样本投影值;
步骤3:将第1维度逐次投影寻踪聚类模型、第2维度逐次投影寻踪聚类模型...第k维度逐次投影寻踪聚类模型聚合生成为一个综合投影寻踪聚类模型,获得该综合投影寻踪聚类模型的最佳综合投影向量及其系数;
步骤4:根据最佳综合投影向量的系数大小确定评价指标重要性排序列表,根据所有候选对象的样本综合投影值的大小确定候选对象质量排序列表。
所述步骤1中对多个候选对象的样本数据进行规格化预处理操作的具体步骤为:
步骤1.1:读取多个候选对象的样本数据;
步骤1.2:判断样本数据类型,若样本数据为主观样本数据,则对数据进行极差归一化预处理;若样本数据为客观样本数据,则对数据进行极大值归一化预处理;若样本数据为最大值和最小值均未知的样本数据,则对数据进行去均值归一化预处理。
所述步骤2中建立第1维度逐次投影寻踪聚类模型、第2维度逐次投影寻踪聚类模型...第k维度逐次投影寻踪聚类模型的具体步骤为:
步骤2.1:根据PPC建模理论分别构建第1维度逐次投影寻踪聚类模型和第2维度逐次投影寻踪聚类模型的目标函数,采用群搜索智能优化算法计算得到第1维度目标函数值和第2维度目标函数值;
步骤2.2:根据群搜索智能算法计算第1维度逐次投影寻踪聚类模型的第1维度最优投影向量及其系数和第1维度样本投影值;根据群搜索智能算法计算第2维度逐次投影寻踪聚类模型的第2维度最优投影向量及其系数和第2维度样本投影值;
步骤2.3:判断第2维度目标函数值是否小于第1维度目标函数值的0.40倍,若小于,则执行步骤3;否则,执行步骤2.4;
步骤2.4:构建第k维度逐次投影寻踪聚类模型的目标函数,并采用群搜索智能优化算法计算得到第k维度目标函数值、第k维度最优投影向量及其系数和第k维度样本投影值;
步骤2.5:判断第k维度目标函数值是否小于第1维度目标函数值的0.40倍,若小于,则执行步骤3;否则,重复执行步骤2.4、2.5。
所述步骤2中计算每个候选对象的样本综合投影值的具体步骤为:首先,根据构建的第1维度逐次投影寻踪聚类模型、第2维度逐次投影寻踪聚类模型...第k维度逐次投影寻踪聚类模型分别计算出每个候选对象的第1维度样本投影值、第2维度样本投影值...第k维度样本投影值;然后,为每个候选对象的第1维度样本投影值、第2维度样本投影值...第k维度样本投影值分配权重值,将其所有维度的样本投影值按各自被分配的权重比例进行矢量合成,生成每个候选对象的样本综合投影值。
所述第k维度最优投影向量为
Figure GDA0002902773720000031
其中p为评价指标个数,ak(p)为第k维度的第p个评价指标的投影向量系数;
所述第k维度样本投影值的计算公式为yk(i)=∑ak(j)*x(i,j),其中i为候选对象的序号,j为评价指标的序号,yk(i)为第k维度的第i个候选对象的样本投影值,ak(j)为第k维度的第j个评价指标的投影向量系数,x(i,j)为规格化后第i个样本、第j个评价指标的样本数据值;
所述第k维度目标函数值的计算公式为:
Figure GDA0002902773720000032
Figure GDA0002902773720000041
Figure GDA0002902773720000042
且ak(j)满足条件:
Figure GDA0002902773720000043
1≥ak(j)≥-1,(k=1,2)或
Figure GDA0002902773720000044
1≥ak(j)≥-1,(k=1,2,3)或
Figure GDA0002902773720000045
Figure GDA0002902773720000046
1≥ak(j)≥-1,(k=1,2,3,4),其中
Figure GDA0002902773720000047
为第k维度目标函数值,Sy,k为表示样本投影点整体上分散程度的第k维度样本投影值的标准差,Dy,k为表示样本投影点类内局部密集程度的第k维度类内样本的局部密度值,
Figure GDA0002902773720000048
为yk(i)的均值,n为候选对象个数,(ri,m)k为第k维度逐次投影寻踪聚类模型第i个候选对象与第m个候选对象之间的距离,(ri,m)k=|yk(i)-yk(m)|,(rmax)k为(ri,m)k的最大值,u(t)为单位阶跃函数,t大于等于0时为1,否则为0;Rk为第k维度逐次投影寻踪聚类模型的窗宽半径,且(rmax)k/5≤Rk≤(rmax)k/3。
所述步骤3中将第1维度逐次投影寻踪聚类模型、第2维度逐次投影寻踪聚类模型...第k维度逐次投影寻踪聚类模型聚合生成为一个综合投影寻踪聚类模型的具体步骤为:
步骤3.1:分别为第1维度最优投影向量、第2维度最优投影向量...第k维度最优投影向量分配权重值;
步骤3.2:将所有维度的最优投影向量按其各自被分配的权重比例进行矢量合成,生成最佳综合投影向量及其系数。
所述为第1维度样本投影值、第2维度样本投影值...第k维度样本投影值分配权重值,或为第1维度最优投影向量、第2维度最优投影向量...第k维度最优投影向量分配权重值的计算公式为:
Figure GDA0002902773720000051
(k=1,2);或
Figure GDA0002902773720000052
(k=1,2,3);或
Figure GDA0002902773720000053
(k=1,2,3,4),其中
Figure GDA0002902773720000054
为第k维度逐次投影寻踪聚类模型的目标函数值。
所述最佳综合投影向量满足关系:
Figure GDA0002902773720000055
Figure GDA0002902773720000056
Figure GDA0002902773720000057
所述每个候选对象的样本综合投影值的计算公式为:
Figure GDA0002902773720000058
Figure GDA0002902773720000059
Figure GDA00029027737200000510
一种低维逐次投影寻踪聚类模型综合评价装置,包括样本数据采集模块,用于读取多个候选对象的样本数据;
样本数据预处理模块,用于对多个候选对象的样本数据进行规格化预处理;PPC建模模块,用于对所有候选对象建立第1维度逐次投影寻踪聚类模型、第2维度逐次投影寻踪聚类模型...第k维度逐次投影寻踪聚类模型;
矢量合成模块,用于将第1维度逐次投影寻踪聚类模型、第2维度逐次投影寻踪聚类模型...第k维度逐次投影寻踪聚类模型聚合生成为一个综合投影寻踪聚类模型,并生成候选对象质量排序列表和评价指标重要性排序列表。
本发明的积极有益效果:
1、本发明提出的选取R值合理范围的方案,既修正了某些文献提出的大于rmax的错误方案,又避免了R取较小值方案可能导致最优化过程无法收敛而不能求得真正最优解的问题,更加合理;在此范围内,根据不同R值得到的最优投影向量揭示了从不同投影方向观察样本数据的结构特征,反映了PPC建模的本质。
2、本发明提出对逐次最佳投影寻踪向量应用矢量合成法构建最佳综合投影寻踪向量的算法原理,进一步提出以各维度逐次投影寻踪聚类模型的目标函数值大小作为分配权重比例的原则,既遵循了各维度投影寻踪向量重要性逐次递减的原则,又确保构建的综合投影寻踪向量是空间中的一个矢量,保持了投影寻踪的特性——“实现样本数据在某个感兴趣方向上的投影”。
附图说明
图1为本发明低维逐次投影寻踪聚类模型综合评价方法的流程图;
图2为本发明低维逐次投影寻踪聚类模型综合评价装置的结构原理框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面通过附图中示出的具体实施例来描述本发明。但是应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
如图2所示,本发明的低维逐次投影寻踪聚类模型综合评价装置,包括样本数据采集模块,用于读取多个候选对象的样本数据;
样本数据处理模块,用于对多个候选对象的样本数据进行规格化预处理;
PPC建模模块,用于对所有候选对象建立第1维度逐次投影寻踪聚类模型、第2维度逐次投影寻踪聚类模型...第k维度逐次投影寻踪聚类模型,第1维度逐次投影寻踪聚类模型、第2维度逐次投影寻踪聚类模型...第k维度逐次投影寻踪聚类模型的投影向量相互正交。针对每个维度的逐次投影寻踪聚类模型,通过设定合理的R值和群搜索群智能最优化算法求得其全局最优解,并根据是否求得真正全局最优解的准则判断最优化过程求得的全局最优解是否正确,从而求得2-4个相互正交的最优投影向量及其系数和样本投影值;
矢量合成模块,用于将第1维度逐次投影寻踪聚类模型、第2维度逐次投影寻踪聚类模型...第k维度逐次投影寻踪聚类模型聚合生成为一个综合投影寻踪聚类模型,获得该综合投影寻踪聚类模型的最佳综合投影向量,根据该最佳综合投影向量的系数大小生成评价指标重要性排序列表;根据建立的第1维度逐次投影寻踪聚类模型、第2维度逐次投影寻踪聚类模型...第k维度逐次投影寻踪聚类模型分别计算出每个候选对象的第1维度样本投影值、第2维度样本投影值...第k维度样本投影值,然后分别对每个候选对象的这k个样本投影值分配权重比例,将每个候选对象的所有维度的样本投影值按其各自的分配权重比例进行矢量合成,生成每个候选对象的样本综合投影值,根据所有候选对象的样本综合投影值的大小确定候选对象质量排序列表。
结合图1说明本实施方式,本发明的低维逐次投影寻踪聚类模型综合评价方法,具体包括以下步骤:
步骤1:对多个候选对象的样本数据进行规格化预处理操作;
具体地,首先,通过样本数据预处理模块读取多个候选对象的样本数据,由于每个候选对象的样本数据包含多个指标,且各指标之间的单位、评价标准、数值大小的变化范围等均存在较大的差异,因此,为了尽可能保留原始样本数据中评价指标之间的相对变化信息和规律,必须对样本数据进行预处理。样本数据预处理模块提供了三种不同的归一化方法对样本数据进行预处理,求出正向指标和逆向指标的规格化值。在对样本数据进行预处理之前,需要判断样本数据的类型,根据样本数据的类型,选择合适的数据预处理方法。若样本数据为主观的样本数据,则对数据进行极差归一化预处理;若样本数据为客观的样本数据,则对数据进行极大值归一化预处理;若样本数据为最大值和最小值未知或者最大值和最小值不加以限制的样本数据,则对数据进行去均值归一化预处理。三种归一化方法具体如下:
a、采用极差归一法,求出正向指标和逆向指标的规格化值:
正向指标的公式为
Figure GDA0002902773720000071
逆向指标的公式为
Figure GDA0002902773720000072
b、采用极大值归一法,求出正向指标和逆向指标的规格化值:
正向指标的公式为
Figure GDA0002902773720000073
逆向指标的公式为
Figure GDA0002902773720000074
c、采用去均值归一法,求出正向指标和逆向指标的规格化值:
正向指标的公式为
Figure GDA0002902773720000075
逆向指标的公式为
Figure GDA0002902773720000076
上述三种归一化方法的公式中,xi,j
Figure GDA00029027737200000813
分别为第i个样本、第j个指标的规格化值和原始值,
Figure GDA0002902773720000081
Figure GDA0002902773720000082
分别为第j个指标原始值的最大值和最小值;
Figure GDA0002902773720000083
Figure GDA0002902773720000084
分别为第j个指标原始值的均值和标准差。
步骤2:根据所有候选对象预处理后的样本数据建立第1维度逐次投影寻踪聚类模型、第2维度逐次投影寻踪聚类模型...第k维度逐次投影寻踪聚类模型,其中2≤k≤4,k为逐次投影寻踪聚类模型的空间维度;根据建立的第1维度逐次投影寻踪聚类模型、第2维度逐次投影寻踪聚类模型...第k维度逐次投影寻踪聚类模型分别计算每个候选对象的样本投影值;
具体地,包括以下步骤:
首先,根据PPC建模理论分别构建第1维度逐次投影寻踪聚类模型和第2维度逐次投影寻踪聚类模型的目标函数,采用群搜索智能最优化算法计算得到第1维度目标函数值和第2维度目标函数值;
下面具体说明获得第k维度目标函数值的具体过程:假设第k维度逐次投影寻踪聚类模型的最佳投影向量为
Figure GDA0002902773720000085
(p为变量个数,即评价指标个数),则第k维度样本投影值(评价值)为yk(i)=∑ak(j)*x(i,j);
根据PPC建模要求所有样本投影点整体上尽可能分散和局部尽可能密集的基本建模思想,得出第k维度PPC模型的目标函数
Figure GDA0002902773720000086
为样本投影点的标准差与局部密度的乘积,通过求解目标函数
Figure GDA0002902773720000087
的最大值,进一步得到第k维度最优投影向量
Figure GDA0002902773720000088
及其系数ak(j),
所述第k维度目标函数值的计算公式为:
Figure GDA0002902773720000089
Figure GDA00029027737200000810
且ak(j)满足条件:
Figure GDA00029027737200000811
1≥ak(j)≥-1,(k=1,2)或
Figure GDA00029027737200000812
1≥ak(j)≥-1,(k=1,2,3)或
Figure GDA0002902773720000091
Figure GDA0002902773720000092
1≥ak(j)≥-1,(k=1,2,3,4),其中
Figure GDA0002902773720000093
为第k维度目标函数值,Sy,k为表示样本投影点整体上分散程度的第k维度样本投影值的标准差,Dy,k为表示样本投影点类内局部密集程度的第k维度类内样本的局部密度值,
Figure GDA0002902773720000094
为yk(i)的均值,n为候选对象个数,(ri,m)k为第k维度逐次投影寻踪聚类模型第i个候选对象与第m个候选对象之间的距离,(ri,m)k=|yk(i)-yk(m)|,(rmax)k为(ri,m)k的最大值,u(t)为单位阶跃函数,t大于等于0时为1,否则为0;Rk为第k维度逐次投影寻踪聚类模型的窗宽半径,且(rmax)k/5≤Rk≤(rmax)k/3,a1(j)为第1维度的第j个评价指标的投影向量系数,a2(j)为第2维度的第j个评价指标的投影向量系数,a3(j)为第3维度的第j个评价指标的投影向量系数,a4(j)为第4维度的第j个评价指标的投影向量系数。
根据上述求取第k维度目标函数值的计算公式,可以得到第1维度逐次投影寻踪聚类模型的目标函数为:
Figure GDA0002902773720000095
Figure GDA0002902773720000096
1≥a1(j)≥-1
其中
Figure GDA0002902773720000097
表示样本投影点整体上分散程度的样本投影值的标准差,其值越大表示样本点整体上越分散;
Figure GDA0002902773720000098
表示类内样本投影点密集程度的局部密度值,其值越大表示类内样本点越密集;
Figure GDA0002902773720000099
为y1(i)的均值,R1为局部密度窗宽半径,(ri,m)1=|y1(i)-y1(m)|表示样本i和m之间的距离,(rmax)1为(ri,m)1的最大值,u(t)为单位阶跃函数,当t≥0时为1,否则为0。窗宽半径R1合理取值范围为(rmax)1/5≤R1≤(rmax)1/3。
第2维度逐次投影寻踪聚类模型的目标函数为:
Figure GDA0002902773720000101
Figure GDA0002902773720000102
1≥a1(j)≥-1,1≥a2(j)≥-1
其中Sy,2和Dy,2分别为样本数据在第2维度最佳投影方向上投影值的标准差和局部密度值。
其次,根据群搜索智能算法计算得到第1维度逐次投影寻踪聚类模型的第1维度最优投影向量及其系数和第1维度样本投影值;根据群搜索智能算法计算得到第2维度逐次投影寻踪聚类模型的第2维度最优投影向量及其系数和第2维度样本投影值;
具体地,群搜索智能算法(GSO)原理及其迭代步骤如下:
在一个p维搜索空间中,群由发现者、追随者和游荡者组成,群中第i个成员在第k次迭代时的位置为
Figure GDA0002902773720000103
经验为
Figure GDA0002902773720000104
在迭代开始之前,每个成员的位置和经验值均初始化为零。
在第k次迭代时,计算群中每个成员的适应度,找出位置最好的成员作为发现者,记为
Figure GDA0002902773720000105
发现者在本轮迭代中保持此位置不变。如果
Figure GDA0002902773720000106
则随机选择10%的群成员按式(1)进行经验积累,再以式(2)调整位置,否则没有成员进行积累和调整位置。
Figure GDA0002902773720000107
Figure GDA0002902773720000108
其中,r1和r2为在[0,1]均匀分布的p维随机数,c1和c2为常量系数。
在其余成员中,以80%的概率随机选择追随者,并以一个随机步长靠近发现者:
Figure GDA0002902773720000109
其中r3的性质同r1和r2
余下的成员作为游荡者,向任意方向随机移动一段距离:
Figure GDA0002902773720000111
其中r4、step和mutation均为p维向量。r4为标准正态分布随机向量,step为步长向量,mutation为0、1的布尔值向量,表示是否允许各维变异,用(5)式求得:
mutation=r5<mutationprobability (5)
其中,r5为在[0,1]范围内均匀分布的p维随机向量。
Figure GDA0002902773720000112
为分量变异概率,其值随迭代次数递减,当r5的某个分量小于mutationprobability时mutation取0,否则取1。
然后,判断第2维度目标函数值是否小于第1维度目标函数值的0.40倍,若小于,则执行步骤3;否则,构建第3维度逐次投影寻踪聚类模型,获得其目标函数值,并计算其最优投影向量及其系数和样本投影值,判断第3维度的逐次投影寻踪聚类模型的目标函数值是否小于第1维度目标函数值的0.40倍,若小于,则执行步骤3,否则,继续建立第4维度逐次投影寻踪聚类模型;
最后,判断最高维度的逐次投影寻踪聚类模型的目标函数值是否小于第1维度目标函数值的0.40倍,若小于,则停止建立更高维度的逐次投影寻踪聚类模型,开始执行步骤3。
根据构建的第1维度逐次投影寻踪聚类模型、第2维度逐次投影寻踪聚类模型...第k维度逐次投影寻踪聚类模型,分别计算得到每个候选对象的第1维度样本投影值、第2维度样本投影值...第k维度样本投影值;然后,为每个候选对象的第1维度样本投影值、第2维度样本投影值...第k维度样本投影值分配权重值,将所有维度的样本投影值按分配的权重比例进行矢量合成,生成样本综合投影值。
步骤3:将第1维度逐次投影寻踪聚类模型、第2维度逐次投影寻踪聚类模型...第k维度逐次投影寻踪聚类模型聚合生成为一个综合投影寻踪聚类模型,获得该综合投影寻踪聚类模型的最佳综合投影向量及其系数;
具体地,首先,将每一维度的目标函数值大小作为分配权重大小的比例依据,为每个维度的最优投影向量分配权重值;所述最优投影向量分配的权重值ωk的计算公式为:
Figure GDA0002902773720000121
(k=1,2);或
Figure GDA0002902773720000122
(k=1,2,3);或
Figure GDA0002902773720000123
(k=1,2,3,4),其中
Figure GDA0002902773720000124
为第k维度逐次投影寻踪聚类模型的目标函数值。
然后,将所有维度的最优投影向量按其各自被分配的权重比例进行矢量合成,生成最佳综合投影向量,最佳综合投影向量是一个比上述任何单一维度投影寻踪向量包含更多样本数据有效特征信息的空间向量,最佳综合投影向量
Figure GDA0002902773720000125
满足
Figure GDA0002902773720000126
Figure GDA0002902773720000127
Figure GDA0002902773720000128
样本综合投影值yz(i)的计算公式为
Figure GDA0002902773720000129
Figure GDA00029027737200001210
Figure GDA00029027737200001211
步骤4:根据最佳综合投影向量的系数大小生成评价指标重要性排序列表,根据所有候选对象的样本综合投影值的大小生成候选对象质量排序列表。
本发明低维逐次投影寻踪聚类模型综合评价方法可应用于供应商的选择与评价,当用于供应商的选择与评价时,所述候选对象为供应商。实际上,与供应商选择与评价相类似的问题,都可以应用本发明的方法进行评价,如对已经开展的研究项目(如R&D)是否应该中止的决策问题,项目招投标问题,供应链金融风险评价问题,项目评审专家的遴选问题,学术期刊质量评价问题,企业竞争力评价问题,绩效管理评价问题,葡萄酒质量评价问题等等。
在本实施例中,我们通过供应商的选择与评价来具体说明本发明的评价方法的应用过程。用于供应商选择时,该方法中的候选对象为供应商。
以图书供应商为例来说明该方法的具体应用:
在本实施例中,我们选取了6个图书供应商,抽取了图书供应商的六个评价指标,分别为产品价格(元)、售后服务(小时)、地理位置(公里)、产品合格率(%)、新产品开发率(%)和供应能力(件),原始数据分别用x0(:,j)(j=1,2,......,6)表示。
表1为图书供应商评价指标值及其LDSPPC的逐次评价结果和综合评价结果
供应商i x<sup>0</sup>(:,1) x<sup>0</sup>(:,2) x<sup>0</sup>(:,3) x<sup>0</sup>(:,4) x<sup>0</sup>(:,5) x<sup>0</sup>(:,6) y<sub>1</sub>(i) y<sub>2</sub>(i) y<sub>3</sub>(i) y<sub>z</sub>(i)
1 335 3.2 15 0.8 0.12 230 0.2261 0.3800 0.8215 0.5916
2 268 1.4 37 0.92 0.25 130 0.7711 0.1559 0.6077 0.8733
3 304 1.9 22 0.99 0.09 220 0.3954 0.1559 0.8562 0.6282
4 270 2 16 0.98 0.35 180 0.7124 0.5468 0.8215 1.0764
5 310 0.8 26 0.86 0.2 150 0.7124 0.1559 0.8215 0.8807
6 303 2.7 10 0.95 0.19 170 0.3954 0.4869 0.8232 0.7853
上述6个供应商的六个评价指标数据,前三个指标为越小越好的逆向指标,后三个指标为越大越好的正向指标。
根据步骤1,分别读取这6个供应商的样本数据,因为都是客观指标,因此选择极大值归一化方法进行数据规格化预处理。
根据步骤2,建立低维逐次投影寻踪聚类模型。首先得到第1维度逐次投影寻踪聚类模型,其第1维度最佳投影向量及其系数为
Figure GDA0002902773720000131
Figure GDA0002902773720000132
第1维度目标函数值
Figure GDA0002902773720000133
根据第1维度逐次投影寻踪聚类模型分别求得这6个供应商的第1维度样本投影值,这6个供应商的第1维度样本投影值y1(i)如表1所示。同理得到第2维度、第3维度最佳投影向量及其系数
Figure GDA0002902773720000134
Figure GDA0002902773720000135
Figure GDA0002902773720000136
第2维度、第3维度目标函数值分别为
Figure GDA0002902773720000137
Figure GDA0002902773720000138
根据第2维度、第3维度逐次投影寻踪聚类模型分别求得这6个供应商的第2维度、第3维度样本投影值,这6个供应商的第2维度、第3维度样本投影值y2(i)和y3(i)分别如表1所示。
因为第3维度逐次PPC模型目标函数值
Figure GDA0002902773720000139
已经小于第1维度目标函数值(0.2905)的0.40倍,说明已不需要建立更高维度的逐次PPC模型了。
Figure GDA0002902773720000141
大于
Figure GDA0002902773720000142
的0.40倍可知,第1维度逐次投影寻踪聚类模型从样本数据中挖掘出的信息不够充分,必须采用低维逐次投影寻踪聚类模型。
从表1所示的第1维度、第2维度、第3维度逐次投影寻踪聚类模型的样本投影值y1(i)、y2(i)和y3(i)可知,每一维度都有几个样本的投影值是相等的,也就是说,单一维度的PPC模型可以实现样本的分类,但对投影值相等的样本无法实现排序。因此,单一维度的投影寻踪聚类模型实际上是无法直接用于对多指标(属性)少样本供应商的评价与选择的。
根据步骤3,将上述三个维度的最佳投影寻踪向量
Figure GDA0002902773720000143
用矢量合成法构建最佳综合投影寻踪向量。根据最优投影向量分配权重值的计算公式
Figure GDA0002902773720000144
可得到第1维度、第2维度和第3维度投影寻踪向量的分配权重ω1=0.8252,ω2=0.5007,ω3=0.2614,进而得到最佳综合投影向量及其系数
Figure GDA0002902773720000145
Figure GDA0002902773720000146
6个供应商(样本)的样本综合投影值yz(i)如表1所示。
将第1个供应商的第1维度样本投影值y1(1)、第2维度样本投影值y2(1)、第3维度样本投影值y3(1)矢量合成为样本综合投影值yz(1),第1个供应商的样本综合投影值yz(1)如表1所示;同理也可获得第2个到第6个供应商的样本综合投影值yz(2)~yz(6),如表1所示。
根据步骤4,根据最佳综合投影向量的系数大小确定评价指标重要性排序列表,根据所有候选对象的样本综合投影值的大小确定候选对象质量排序列表。对于本实施例,根据最佳综合投影向量的系数大小顺序进行排序的结果是:在六个研究的评价指标中,指标5最重要,其次是指标2,然后按重要性降序排序的次序是指标3,指标1,指标4和指标6。如果要对指标重要性进行分类,指标5为极重要类指标,指标2为重要类指标,指标3为中等重要类指标,其他三个指标1,4和6为次重要类指标。
按照所有候选对象的样本综合投影值的大小顺序进行排序,本实施例6个供应商的优劣排序为供应商4,供应商5,供应商2,供应商6,供应商3和供应商1,其中供应商5和2基本相当,差异很小,供应商4明显优于其他供应商。
本发明对供应商选择与评价案例进行了实证研究。李华等(2016)采用信息熵权重(各个指标的权重为0.1566,0.1686,0.1336,0.1447,0.2099和0.1866)与各种TOPSIS的结合方法对6个供应商的优劣排序评价结果(6个供应商分别用G1、G2、G3、G4、G5和G6表示)如表2所示。
表2各种评价方法得到的供应商优劣排序结果
评价方法 G1 G2 G3 G4 G5 G6
topSIS 2 3 6 5 1 4
马氏距离改进topSIS 6 2 4 1 5 3
联系向量距离改进topSIS 6 5 4 1 2 3
马氏距离和联系向量距离改进topSIS 5 1 3 2 6 4
本发明提出的低维逐次投影寻踪聚类模型 6 3 5 1 2 4
从表2可知,本发明的结果,排名前3位的供应商都曾是其他某种评价方法的第一名,而且排名第一位的供应商有两种方法的排名为第一名;排名第2位和第3位的供应商很接近,各有其他一种方法的排名为第一名;本发明排名第4位的供应商,其他方法的评价结果也都排名第3或者第4位;本发明排名第5和6位的供应商,在其他评价方法中也排名比较靠后。
从以上分析可知,本发明提出的基于低维逐次投影寻踪聚类模型的供应商优劣排名结果更合理。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制;尽管参照较佳实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解;依然可以对本发明的具体实施方式进行修改或者对部分技术特征进行等同替换;而不脱离本发明技术方案的精神,其均应涵盖在本发明请求保护的技术方案范围当中。

Claims (3)

1.一种低维逐次投影寻踪聚类模型综合评价方法,其特征在于,具体包括以下步骤:
步骤1:对多个候选对象的多个评价指标数据进行规格化预处理操作;
步骤1.1:读取多个候选对象的样本数据;
步骤1.2:判断样本数据类型,若样本数据为主观样本数据,则对数据进行极差归一化预处理;若样本数据为客观样本数据,则对数据进行极大值归一化预处理;若样本数据为最大值和最小值均未知的样本数据,则对数据进行去均值归一化预处理;
步骤2:根据所有候选对象预处理后的所有样本数据建立第1维度逐次投影寻踪聚类模型、第2维度逐次投影寻踪聚类模型...第k维度逐次投影寻踪聚类模型,其中2≤k≤4,k为低维逐次投影寻踪聚类模型的空间维度;
根据建立的第1维度逐次投影寻踪聚类模型、第2维度逐次投影寻踪聚类模型...第k维度逐次投影寻踪聚类模型分别计算每个候选对象的样本投影值;
步骤3:将第1维度逐次投影寻踪聚类模型、第2维度逐次投影寻踪聚类模型...第k维度逐次投影寻踪聚类模型聚合生成为一个综合投影寻踪聚类模型,获得该综合投影寻踪聚类模型的最佳综合投影向量及其系数;
所述步骤3中将第1维度逐次投影寻踪聚类模型、第2维度逐次投影寻踪聚类模型...第k维度逐次投影寻踪聚类模型聚合生成为一个综合投影寻踪聚类模型的具体步骤为:
步骤3.1:分别为第1维度最优投影向量、第2维度最优投影向量...第k维度最优投影向量分配权重值;
步骤3.2:将所有维度的最优投影向量按其各自的权重比例进行矢量合成,生成最佳综合投影向量及其系数;
步骤4:根据最佳综合投影向量的系数大小确定评价指标重要性排序列表,根据所有候选对象的样本综合投影值的大小确定候选对象质量排序列表;
所述候选对象为图书供应商;
所述为第1维度样本投影值、第2维度样本投影值...第k维度样本投影值分配权重值,或为第1维度最优投影向量、第2维度最优投影向量...第k维度最优投影向量分配权重值的计算公式为:
Figure FDA0002907358390000021
Figure FDA0002907358390000022
Figure FDA0002907358390000023
其中
Figure FDA0002907358390000024
为第k维度逐次投影寻踪聚类模型的目标函数值;
所述最佳综合投影向量满足关系:
Figure FDA0002907358390000025
Figure FDA0002907358390000026
Figure FDA0002907358390000027
所述每个候选对象的样本综合投影值的计算公式为:
Figure FDA0002907358390000028
Figure FDA0002907358390000029
Figure FDA00029073583900000210
2.根据权利要求1所述的低维逐次投影寻踪聚类模型综合评价方法,其特征在于,所述步骤2中建立第1维度逐次投影寻踪聚类模型、第2维度逐次投影寻踪聚类模型...第k维度逐次投影寻踪聚类模型的具体步骤为:
步骤2.1:根据PPC建模理论分别构建第1维度逐次投影寻踪聚类模型和第2维度逐次投影寻踪聚类模型的目标函数,采用群搜索智能最优化算法计算得到第1维度目标函数值和第2维度目标函数值;
步骤2.2:根据群搜索智能算法计算得到的第1维度逐次投影寻踪聚类模型的第1维度最优投影向量及其系数和第1维度样本投影值;根据群搜索智能算法计算得到的第2维度逐次投影寻踪聚类模型的第2维度最优投影向量及其系数、第2维度样本投影值;
步骤2.3:判断第2维度目标函数值是否小于第1维度目标函数值的0.40倍,若小于,则执行步骤3;否则,执行步骤2.4;
步骤2.4:构建第k维度逐次投影寻踪聚类模型的目标函数,并采用群搜索智能最优化算法计算得到第k维度目标函数值、第k维度最优投影向量及其系数和第k维度样本投影值;
步骤2.5:判断第k维度目标函数值是否小于第1维度目标函数值的0.40倍,若小于,则执行步骤3;否则,重复执行步骤2.4、2.5。
3.根据权利要求1所述的低维逐次投影寻踪聚类模型综合评价方法,其特征在于,所述第k维度最优投影向量为
Figure FDA0002907358390000031
其中p为评价指标个数,ak(p)为第k维度的第p个评价指标的投影向量系数;
所述第k维度样本投影值的计算公式为yk(i)=∑ak(j)*x(i,j),其中i为候选对象序号,j为评价指标序号,yk(i)为第k维度的第i个候选对象的样本投影值,ak(j)为第k维度的第j个评价指标的投影向量系数,x(i,j)为规格化后第i个样本、第j个评价指标的样本数据值;
所述第k维度目标函数值的计算公式为:
Figure FDA0002907358390000032
Figure FDA0002907358390000033
且ak(j)满足条件:
Figure FDA0002907358390000034
Figure FDA0002907358390000035
Figure FDA0002907358390000036
Figure FDA0002907358390000037
Figure FDA0002907358390000038
其中
Figure FDA0002907358390000039
为第k维度目标函数值,Sy,k为表示样本投影点整体上分散程度的第k维度样本投影值的标准差,Dy,k为表示样本投影点类内局部密集程度的第k维度类内样本的局部密度值,
Figure FDA00029073583900000310
为yk(i)的均值,n为候选对象个数,(ri,m)k为第k维度逐次投影寻踪聚类模型第i个候选对象与第m个候选对象之间的距离,(ri,m)k=|yk(i)-yk(m)|,(rmax)k为(ri,m)k的最大值,u(t)为单位阶跃函数,t大于等于0时为1,否则为0;Rk为第k维度逐次投影寻踪聚类模型的窗宽半径,且(rmax)k/5≤Rk≤(rmax)k/3。
CN201710584477.2A 2017-07-18 2017-07-18 低维逐次投影寻踪聚类模型综合评价方法、装置及应用 Active CN107423759B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710584477.2A CN107423759B (zh) 2017-07-18 2017-07-18 低维逐次投影寻踪聚类模型综合评价方法、装置及应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710584477.2A CN107423759B (zh) 2017-07-18 2017-07-18 低维逐次投影寻踪聚类模型综合评价方法、装置及应用

Publications (2)

Publication Number Publication Date
CN107423759A CN107423759A (zh) 2017-12-01
CN107423759B true CN107423759B (zh) 2021-04-20

Family

ID=60430546

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710584477.2A Active CN107423759B (zh) 2017-07-18 2017-07-18 低维逐次投影寻踪聚类模型综合评价方法、装置及应用

Country Status (1)

Country Link
CN (1) CN107423759B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110046814A (zh) * 2019-04-09 2019-07-23 云南省农业科学院甘蔗研究所 一种综合评价甘蔗新品系的方法
CN111242420B (zh) * 2019-12-30 2023-11-28 湖南大学 一种综合性能多维度评估方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101673369A (zh) * 2009-09-28 2010-03-17 北京工业大学 基于投影寻踪的排水管网洪涝风险评价方法
CN103235872A (zh) * 2013-04-03 2013-08-07 浙江工商大学 一种基于粒子群算法的多维指标的投影寻踪动态聚类方法
CN103902737A (zh) * 2014-04-22 2014-07-02 上海理工大学 基于群智能算法的投影寻踪分类建模软件及实现
CN105354412A (zh) * 2015-10-21 2016-02-24 中国人民解放军理工大学 基于投影寻踪和z型函数的海上军事活动海洋环境影响评估方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101673369A (zh) * 2009-09-28 2010-03-17 北京工业大学 基于投影寻踪的排水管网洪涝风险评价方法
CN103235872A (zh) * 2013-04-03 2013-08-07 浙江工商大学 一种基于粒子群算法的多维指标的投影寻踪动态聚类方法
CN103902737A (zh) * 2014-04-22 2014-07-02 上海理工大学 基于群智能算法的投影寻踪分类建模软件及实现
CN105354412A (zh) * 2015-10-21 2016-02-24 中国人民解放军理工大学 基于投影寻踪和z型函数的海上军事活动海洋环境影响评估方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
基于投影寻踪分类技术的各地区吸纳就业能力综合评价;楼文高等;《社会保障研究》;20131231(第5期);第89-96页 *
影响投影寻踪聚类建模的关键因素分析与实证研究;楼文高等;《数理统计与管理》;20170714;第1-21页 *
马来西亚雪兰莪州生态环境脆弱度评价-基于逐次投影寻踪模型的研究;史晓霞等;《自然灾害学报》;20081231;第17卷(第6期);第129-133页 *
高光谱图像的特征提取与特征选择研究;杨仁欣等;《广西师范学院学报:自然科学版》;20150630;第32卷(第2期);第39-42页 *

Also Published As

Publication number Publication date
CN107423759A (zh) 2017-12-01

Similar Documents

Publication Publication Date Title
Rusdah et al. XGBoost in handling missing values for life insurance risk prediction
Hurley et al. Novelty and diversity in top-n recommendation--analysis and evaluation
CN111324642A (zh) 一种面向电网大数据分析的模型算法选型与评价方法
Hosenie et al. Comparing multiclass, binary, and hierarchical machine learning classification schemes for variable stars
Bristi et al. Predicting imdb rating of movies by machine learning techniques
CN107451210B (zh) 一种基于查询松弛结果增强的图匹配查询方法
CN107391577B (zh) 一种基于表示向量的作品标签推荐方法和系统
Van Dat et al. Solving distribution problems in content-based recommendation system with gaussian mixture model
CN108921342A (zh) 一种物流客户流失预测方法、介质和系统
Lumauag et al. An enhanced recommendation algorithm based on modified user-based collaborative filtering
CN107423759B (zh) 低维逐次投影寻踪聚类模型综合评价方法、装置及应用
Fusco et al. Bayesian network clustering and self-organizing maps under the test of Indian districts. A comparison
CN111625578B (zh) 适用于文化科技融合领域时间序列数据的特征提取方法
Maskat et al. Pay-as-you-go configuration of entity resolution
CN111382265B (zh) 搜索方法、装置、设备和介质
Ramadiani et al. Evaluation of student academic performance using e-learning with the association rules method and the importance of performance analysis
Krendzelak et al. Hierarchical text classification using CNNs with local approaches
Dzemyda et al. Optimization and knowledge-based technologies
JP5171686B2 (ja) 高速化検索モデリングシステムおよび方法
Rahul et al. Introduction to Data Mining and Machine Learning Algorithms
Reynara et al. The comparison of C4. 5 and CART (classification and regression tree) algorithm in classification of occupation for fresh graduate
Bari et al. 23-bit metaknowledge template towards big data knowledge discovery and management
Verma et al. Developer recommendation for stack exchange software engineering Q&A website based on K-means clustering and developer social network metric
Díaz de la Paz et al. Weights Estimation in the Completeness Measurement of Bibliographic Metadata
Kranen Anytime algorithms for stream data mining

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20171201

Assignee: Shanghai Yiqing Information Technology Co.,Ltd.

Assignor: SHANGHAI BUSINESS SCHOOL

Contract record no.: X2021310000053

Denomination of invention: Comprehensive evaluation method, device and application of low dimensional successive projection pursuit clustering model

Granted publication date: 20210420

License type: Common License

Record date: 20211230

EE01 Entry into force of recordation of patent licensing contract