CN107423759A - 低维逐次投影寻踪聚类模型综合评价方法、装置及应用 - Google Patents

低维逐次投影寻踪聚类模型综合评价方法、装置及应用 Download PDF

Info

Publication number
CN107423759A
CN107423759A CN201710584477.2A CN201710584477A CN107423759A CN 107423759 A CN107423759 A CN 107423759A CN 201710584477 A CN201710584477 A CN 201710584477A CN 107423759 A CN107423759 A CN 107423759A
Authority
CN
China
Prior art keywords
dimension
projection
sample
value
clustering model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710584477.2A
Other languages
English (en)
Other versions
CN107423759B (zh
Inventor
于晓虹
楼文高
冯国珍
司文
汤俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI BUSINESS SCHOOL
Original Assignee
SHANGHAI BUSINESS SCHOOL
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI BUSINESS SCHOOL filed Critical SHANGHAI BUSINESS SCHOOL
Priority to CN201710584477.2A priority Critical patent/CN107423759B/zh
Publication of CN107423759A publication Critical patent/CN107423759A/zh
Application granted granted Critical
Publication of CN107423759B publication Critical patent/CN107423759B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/231Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Educational Administration (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Game Theory and Decision Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种低维逐次投影寻踪聚类(LDSPPC)模型综合评价方法、装置及应用,该方法包括以下步骤:对多个候选对象的样本数据进行规格化预处理,对候选对象构建2~4个投影向量相互正交的一维投影寻踪聚类模型;将多个候选对象的所有维度的投影寻踪聚类模型矢量合成为一个综合投影寻踪聚类模型,获得评价指标重要性排序列表和候选对象质量排序列表。本发明群搜索智能算法具有收敛速度快、收敛到全局最优解可靠性高等特点,矢量合成多个逐次投影寻踪向量,能够快速评价候选对象的优劣,且提高了候选对象质量评价的准确度。

Description

低维逐次投影寻踪聚类模型综合评价方法、装置及应用
技术领域
本发明涉及计算机应用技术领域,特别是涉及一种基于低维逐次投影寻踪聚 类模型(LDSPPC)的综合评价方法、装置及应用。
背景技术
供应商选择与评价涉及处理多指标(高维)属性的非线性、非正态分布的 数据处理,常规建模方法的效果较差。Friedman等1974年提出的一维投影寻踪 分类(ProjectionPursuit Clustering,简称PPC)模型,在众多领域得到了 广泛应用,取得了一定效果。但对于多属性少样本的供应商选择与评价问题,往 往因为挖掘出的样本数据信息不充分,出现多个供应商得分相同的结果,难以选 择合适的供应商。
在LDSPPC建模过程中,首先需要消除不同评价指标之间由于量纲不同而带 来的不利影响,即必须对样本数据进行归一化处理。对主观(专家)确定的数据, 为了消除专家偏好的影响,常采用极差归一化方法,对客观测定(确定)的数据, 采用极大值归一化方法有助于保留数据的更多原始信息;对最大值和最小值未知 或不作限制的数据,宜采用去均值归一化方法。
在LDSPPC模型中,选取合理的局部密度窗宽半径R值是核心和关键问题之 一。楼文高等于2015年从理论和实践两个角度进行分析后,提出了合理R值取 中间适度值方案,即rmax/5≤R≤rmax/3。
目前,史晓霞等(2008)建立了2维投影寻踪聚类模型,但建模结果显然是 错误的,因为其第二维的目标函数值大于第一维的目标函数值,这是不可能的。 龚衍等(2007)采用相对信息熵最大作为目标函数建立了9维投影寻踪聚类模型, 但没有实际案例数据,无法验证其结果的可靠性。这些论文都没有讨论如何实现 多个投影寻踪向量的合成问题,不利于充分挖掘样本数据信息进行分类和排序研 究。
国内没有发现任何一款软件能够提供LDSPPC建模,唐启义(2013)研制的 商品化DPS软件有关PPC建模的程序无法得到可靠的结果。由于LDSPPC模型是 一个同时含有等式和不等式约束的高维非线性最优化问题,求解非常困难。
因此,计算机应用技术和管理科学与工程领域急需一款能够实现对多指标属 性、非线性、非正态分布数据进行低维逐次投影寻踪聚类建模的综合评价计算机 软件。
发明内容
本发明的目的是克服现有技术的不足,设计出一种低维逐次投影寻踪聚类模型综合评价方法、装置及应用。
为达到上述目的,本发明所采用的技术方案是:
一种低维逐次投影寻踪聚类模型综合评价方法,具体包括以下步骤:
步骤1:对多个候选对象的多个评价指标数据进行规格化预处理操作;
步骤2:根据所有候选对象预处理后的样本数据建立第1维度逐次投影寻踪 聚类模型、第2维度逐次投影寻踪聚类模型...第k维度逐次投影寻踪聚类模型, 其中2≤k≤4,k为低维逐次投影寻踪聚类模型的空间维度;
根据建立的第1维度逐次投影寻踪聚类模型、第2维度逐次投影寻踪聚类模 型...第k维度逐次投影寻踪聚类模型分别计算每个候选对象的样本投影值;
步骤3:将第1维度逐次投影寻踪聚类模型、第2维度逐次投影寻踪聚类模 型...第k维度逐次投影寻踪聚类模型聚合生成为一个综合投影寻踪聚类模型, 获得该综合投影寻踪聚类模型的最佳综合投影向量及其系数;
步骤4:根据最佳综合投影向量的系数大小确定评价指标重要性排序列表, 根据所有候选对象的样本综合投影值的大小确定候选对象质量排序列表。
所述步骤1中对多个候选对象的样本数据进行规格化预处理操作的具体步骤 为:
步骤1.1:读取多个候选对象的样本数据;
步骤1.2:判断样本数据类型,若样本数据为主观样本数据,则对数据进行 极差归一化预处理;若样本数据为客观样本数据,则对数据进行极大值归一化预 处理;若样本数据为最大值和最小值均未知的样本数据,则对数据进行去均值归 一化预处理。
所述步骤2中建立第1维度逐次投影寻踪聚类模型、第2维度逐次投影寻踪 聚类模型...第k维度逐次投影寻踪聚类模型的具体步骤为:
步骤2.1:根据PPC建模理论分别构建第1维度逐次投影寻踪聚类模型和第2维度逐次投影寻踪聚类模型的目标函数,采用群搜索智能优化算法计算得到第 1维度目标函数值和第2维度目标函数值;
步骤2.2:根据群搜索智能算法计算第1维度逐次投影寻踪聚类模型的第1 维度最优投影向量及其系数和第1维度样本投影值;根据群搜索智能算法计算第 2维度逐次投影寻踪聚类模型的第2维度最优投影向量及其系数和第2维度样本 投影值;
步骤2.3:判断第2维度目标函数值是否小于第1维度目标函数值的0.40 倍,若小于,则执行步骤3;否则,执行步骤2.4;
步骤2.4:构建第k维度逐次投影寻踪聚类模型的目标函数,并采用群搜索 智能优化算法计算得到第k维度目标函数值、第k维度最优投影向量及其系数和 第k维度样本投影值;
步骤2.5:判断第k维度目标函数值是否小于第1维度目标函数值的0.40 倍,若小于,则执行步骤3;否则,重复执行步骤2.4、2.5。
所述步骤2中计算每个候选对象的样本综合投影值的具体步骤为:首先,根 据构建的第1维度逐次投影寻踪聚类模型、第2维度逐次投影寻踪聚类模型... 第k维度逐次投影寻踪聚类模型分别计算出每个候选对象的第1维度样本投影 值、第2维度样本投影值...第k维度样本投影值;然后,为每个候选对象的第 1维度样本投影值、第2维度样本投影值...第k维度样本投影值分配权重值, 将其所有维度的样本投影值按各自被分配的权重比例进行矢量合成,生成每个候 选对象的样本综合投影值。
所述第k维度最优投影向量为其中p为评价指 标个数,ak(p)为第k维度的第p个评价指标的投影向量系数;
所述第k维度样本投影值的计算公式为yk(i)=∑ak(j)*x(i,j),其中i为候 选对象的序号,j为评价指标的序号,yk(i)为第k维度的第i个候选对象的样本 投影值,ak(j)为第k维度的第j个评价指标的投影向量系数,x(i,j)为规格化后 第i个样本、第j个评价指标的样本数据值;
所述第k维度目标函数值的计算公式为: 且ak(j)满 足条件:1≥ak(j)≥-1,(k=1,2)或 1≥ak(j)≥-1,(k=1,2,3)或 1≥ak(j)≥-1,(k=1,2,3,4),其中为第k维度 目标函数值,Sy,k为表示样本投影点整体上分散程度的第k维度样本投影值的标 准差,Dy,k为表示样本投影点类内局部密集程度的第k维度类内样本的局部密度 值,为yk(i)的均值,n为候选对象个数,(ri,m)k为第k维度逐次投影寻踪聚类 模型第i个候选对象与第m个候选对象之间的距离,(ri,m)k=|yk(i)-yk(m)|,(rmax)k为(ri,m)k的最大值,u(t)为单位阶跃函数,t大于等于0时为1,否则为0;Rk为 第k维度逐次投影寻踪聚类模型的窗宽半径,且(rmax)k/5≤Rk≤(rmax)k/3。
所述步骤3中将第1维度逐次投影寻踪聚类模型、第2维度逐次投影寻踪聚 类模型...第k维度逐次投影寻踪聚类模型聚合生成为一个综合投影寻踪聚类 模型的具体步骤为:
步骤3.1:分别为第1维度最优投影向量、第2维度最优投影向量...第k 维度最优投影向量分配权重值;
步骤3.2:将所有维度的最优投影向量按其各自被分配的权重比例进行矢量 合成,生成最佳综合投影向量及其系数。
所述为第1维度样本投影值、第2维度样本投影值...第k维度样本投影值 分配权重值,或为第1维度最优投影向量、第2维度最优投影向量...第k维度 最优投影向量分配权重值的计算公式为:其中为第k 维度逐次投影寻踪聚类模型的目标函数值。
所述最佳综合投影向量满足关系:所述每个候选对 象的样本综合投影值的计算公式为:
一种低维逐次投影寻踪聚类模型综合评价方法在供应商选择与评价、项目招 投标问题、供应链金融风险评价问题、项目评审专家的遴选问题、学术期刊质量 评价问题、企业竞争力评价问题、绩效管理评价问题、葡萄酒质量评价问题中的 任一种的应用。
一种低维逐次投影寻踪聚类模型综合评价装置,包括样本数据采集模块,用 于读取多个候选对象的样本数据;
样本数据预处理模块,用于对多个候选对象的样本数据进行规格化预处理;
PPC建模模块,用于对所有候选对象建立第1维度逐次投影寻踪聚类模型、 第2维度逐次投影寻踪聚类模型...第k维度逐次投影寻踪聚类模型;
矢量合成模块,用于将第1维度逐次投影寻踪聚类模型、第2维度逐次投影 寻踪聚类模型...第k维度逐次投影寻踪聚类模型聚合生成为一个综合投影寻 踪聚类模型,并生成候选对象质量排序列表和评价指标重要性排序列表。
本发明的积极有益效果:
1、本发明提出的选取R值合理范围的方案,既修正了某些文献提出的大于rmax的错误方案,又避免了R取较小值方案可能导致最优化过程无法收敛而不能求得 真正最优解的问题,更加合理;在此范围内,根据不同R值得到的最优投影向量 揭示了从不同投影方向观察样本数据的结构特征,反映了PPC建模的本质。
2、本发明的群搜索智能算法具有收敛速度快、收敛到全局最优解可靠性高等特点,本发明将整个复杂的最优化求解过程全部封装成软件,采用图形可视化界面, 方便使用者操作,更加快捷、可靠。
3、本发明提出对逐次最佳投影寻踪向量应用矢量合成法构建最佳综合投影寻踪向量的算法原理,进一步提出以各维度逐次投影寻踪聚类模型的目标函数值大小 作为分配权重比例的原则,既遵循了各维度投影寻踪向量重要性逐次递减的原 则,又确保构建的综合投影寻踪向量是空间中的一个矢量,保持了投影寻踪的特 性——“实现样本数据在某个感兴趣方向上的投影”。
附图说明
图1为本发明低维逐次投影寻踪聚类模型综合评价方法的流程图;
图2为本发明低维逐次投影寻踪聚类模型综合评价装置的结构原理框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面通过附图中示出的 具体实施例来描述本发明。但是应该理解,这些描述只是示例性的,而并非要限 制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避 免不必要地混淆本发明的概念。
如图2所示,本发明的低维逐次投影寻踪聚类模型综合评价装置,包括样本 数据采集模块,用于读取多个候选对象的样本数据;
样本数据处理模块,用于对多个候选对象的样本数据进行规格化预处理;
PPC建模模块,用于对所有候选对象建立第1维度逐次投影寻踪聚类模型、 第2维度逐次投影寻踪聚类模型...第k维度逐次投影寻踪聚类模型,第1维度 逐次投影寻踪聚类模型、第2维度逐次投影寻踪聚类模型...第k维度逐次投影 寻踪聚类模型的投影向量相互正交。针对每个维度的逐次投影寻踪聚类模型,通 过设定合理的R值和群搜索群智能最优化算法求得其全局最优解,并根据是否求 得真正全局最优解的准则判断最优化过程求得的全局最优解是否正确,从而求得 2-4个相互正交的最优投影向量及其系数和样本投影值;
矢量合成模块,用于将第1维度逐次投影寻踪聚类模型、第2维度逐次投影 寻踪聚类模型...第k维度逐次投影寻踪聚类模型聚合生成为一个综合投影寻 踪聚类模型,获得该综合投影寻踪聚类模型的最佳综合投影向量,根据该最佳综 合投影向量的系数大小生成评价指标重要性排序列表;根据建立的第1维度逐次 投影寻踪聚类模型、第2维度逐次投影寻踪聚类模型...第k维度逐次投影寻踪 聚类模型分别计算出每个候选对象的第1维度样本投影值、第2维度样本投影 值...第k维度样本投影值,然后分别对每个候选对象的这k个样本投影值分配 权重比例,将每个候选对象的所有维度的样本投影值按其各自的分配权重比例进 行矢量合成,生成每个候选对象的样本综合投影值,根据所有候选对象的样本综 合投影值的大小确定候选对象质量排序列表。
结合图1说明本实施方式,本发明的低维逐次投影寻踪聚类模型综合评价方 法,具体包括以下步骤:
步骤1:对多个候选对象的样本数据进行规格化预处理操作;
具体地,首先,通过样本数据预处理模块读取多个候选对象的样本数据,由 于每个候选对象的样本数据包含多个指标,且各指标之间的单位、评价标准、数 值大小的变化范围等均存在较大的差异,因此,为了尽可能保留原始样本数据中 评价指标之间的相对变化信息和规律,必须对样本数据进行预处理。样本数据预 处理模块提供了三种不同的归一化方法对样本数据进行预处理,求出正向指标和 逆向指标的规格化值。在对样本数据进行预处理之前,需要判断样本数据的类型, 根据样本数据的类型,选择合适的数据预处理方法。若样本数据为主观的样本数 据,则对数据进行极差归一化预处理;若样本数据为客观的样本数据,则对数据 进行极大值归一化预处理;若样本数据为最大值和最小值未知或者最大值和最小 值不加以限制的样本数据,则对数据进行去均值归一化预处理。三种归一化方法 具体如下:
a、采用极差归一法,求出正向指标和逆向指标的规格化值:
正向指标的公式为
逆向指标的公式为
b、采用极大值归一法,求出正向指标和逆向指标的规格化值:
正向指标的公式为
逆向指标的公式为
c、采用去均值归一法,求出正向指标和逆向指标的规格化值:
正向指标的公式为
逆向指标的公式为
上述三种归一化方法的公式中,xi,j分别为第i个样本、第j个指标的 规格化值和原始值,分别为第j个指标原始值的最大值和最小 值;分别为第j个指标原始值的均值和标准差。
步骤2:根据所有候选对象预处理后的样本数据建立第1维度逐次投影寻踪 聚类模型、第2维度逐次投影寻踪聚类模型...第k维度逐次投影寻踪聚类模型, 其中2≤k≤4,k为逐次投影寻踪聚类模型的空间维度;根据建立的第1维度逐 次投影寻踪聚类模型、第2维度逐次投影寻踪聚类模型...第k维度逐次投影寻 踪聚类模型分别计算每个候选对象的样本投影值;
具体地,包括以下步骤:
首先,根据PPC建模理论分别构建第1维度逐次投影寻踪聚类模型和第2维 度逐次投影寻踪聚类模型的目标函数,采用群搜索智能最优化算法计算得到第1 维度目标函数值和第2维度目标函数值;
下面具体说明获得第k维度目标函数值的具体过程:假设第k维度逐次投影 寻踪聚类模型的最佳投影向量为(p为变量个数,即 评价指标个数),则第k维度样本投影值(评价值)为yk(i)=∑ak(j)*x(i,j);
根据PPC建模要求所有样本投影点整体上尽可能分散和局部尽可能密集的基 本建模思想,得出第k维度PPC模型的目标函数为样本投影点的标准差与 局部密度的乘积,通过求解目标函数的最大值,进一步得到第k维度最优 投影向量及其系数ak(j),
所述第k维度目标函数值的计算公式为: 且ak(j)满 足条件:1≥ak(j)≥-1,(k=1,2)或1≥ak(j)≥-1,(k=1,2,3)或 1≥ak(j)≥-1,(k=1,2,3,4),其中为第k维度 目标函数值,Sy,k为表示样本投影点整体上分散程度的第k维度样本投影值的标 准差,Dyk为表示样本投影点类内局部密集程度的第k维度类内样本的局部密度 值,为yk(i)的均值,n为候选对象个数,(ri,m)k为第k维度逐次投影寻踪聚类 模型第i个候选对象与第m个候选对象之间的距离,(ri,m)k=|yk(i)-yk(m)|,(rmax)k为(ri,m)k的最大值,u(t)为单位阶跃函数,t大于等于0时为1,否则为0;Rk为 第k维度逐次投影寻踪聚类模型的窗宽半径,且(rmax)k/5≤Rk≤(rmax)k/3,a1(j)为 第1维度的第j个评价指标的投影向量系数,a2(j)为第2维度的第j个评价指 标的投影向量系数,a3(j)为第3维度的第j个评价指标的投影向量系数,a4(j) 为第4维度的第j个评价指标的投影向量系数。
根据上述求取第k维度目标函数值的计算公式,可以得到第1维度逐次投影 寻踪聚类模型的目标函数为:
1≥a1(j)≥-1
其中表示样本投影点整体上分散程度的样本 投影值的标准差,其值越大表示样本点整体上越分散;
表示类内样本投影点密集程度的局部密度值,其值越大表示类内样本点越密集;为y1(i)的均值,R1为局部密度窗宽半径, (ri,m)1=|y1(i)-y1(m)|表示样本i和m之间的距离,(rmax)1为(ri,m)1的最大值,u(t)为 单位阶跃函数,当t≥0时为1,否则为0。窗宽半径R1合理取值范围为 (rmax)1/5≤R1≤(rmax)1/3。
第2维度逐次投影寻踪聚类模型的目标函数为:
1≥a1(j)≥-1,1≥a2(j)≥-1
其中Sy,2和Dy,2分别为样本数据在第2维度最佳投影方向上投影值的标准差 和局部密度值。
其次,根据群搜索智能算法计算得到第1维度逐次投影寻踪聚类模型的第1 维度最优投影向量及其系数和第1维度样本投影值;根据群搜索智能算法计算得 到第2维度逐次投影寻踪聚类模型的第2维度最优投影向量及其系数和第2维度 样本投影值;
具体地,群搜索智能算法(GSO)原理及其迭代步骤如下:
在一个p维搜索空间中,群由发现者、追随者和游荡者组成,群中第i个成 员在第k次迭代时的位置为经验为在迭代开始之前,每个成 员的位置和经验值均初始化为零。
在第k次迭代时,计算群中每个成员的适应度,找出位置最好的成员作为发 现者,记为发现者在本轮迭代中保持此位置不变。如果则随机 选择10%的群成员按式(1)进行经验积累,再以式(2)调整位置,否则没有成员进 行积累和调整位置。
其中,r1和r2为在[0,1]均匀分布的p维随机数,c1和c2为常量系数。
在其余成员中,以80%的概率随机选择追随者,并以一个随机步长靠近发现 者:
其中r3的性质同r1和r2
余下的成员作为游荡者,向任意方向随机移动一段距离:
其中r4、step和mutation均为p维向量。r4为标准正态分布随机向量,step 为步长向量,mutation为0、1的布尔值向量,表示是否允许各维变异,用(5) 式求得:
mutation=r5<mutationprobability (5)
其中,r5为在[0,1]范围内均匀分布的p维随机向量。
为分量变异概率,其值随迭代次数递减,当r5的某个分量小于mutationprobability时mutation取0,否则取1。
然后,判断第2维度目标函数值是否小于第1维度目标函数值的0.40倍, 若小于,则执行步骤3;否则,构建第3维度逐次投影寻踪聚类模型,获得其目 标函数值,并计算其最优投影向量及其系数和样本投影值,判断第3维度的逐次 投影寻踪聚类模型的目标函数值是否小于第1维度目标函数值的0.40倍,若小 于,则执行步骤3,否则,继续建立第4维度逐次投影寻踪聚类模型;
最后,判断最高维度的逐次投影寻踪聚类模型的目标函数值是否小于第1维 度目标函数值的0.40倍,若小于,则停止建立更高维度的逐次投影寻踪聚类模 型,开始执行步骤3。
根据构建的第1维度逐次投影寻踪聚类模型、第2维度逐次投影寻踪聚类模 型...第k维度逐次投影寻踪聚类模型,分别计算得到每个候选对象的第1维度 样本投影值、第2维度样本投影值...第k维度样本投影值;然后,为每个候选 对象的第1维度样本投影值、第2维度样本投影值...第k维度样本投影值分配 权重值,将所有维度的样本投影值按分配的权重比例进行矢量合成,生成样本综 合投影值。
步骤3:将第1维度逐次投影寻踪聚类模型、第2维度逐次投影寻踪聚类模 型...第k维度逐次投影寻踪聚类模型聚合生成为一个综合投影寻踪聚类模型, 获得该综合投影寻踪聚类模型的最佳综合投影向量及其系数;
具体地,首先,将每一维度的目标函数值大小作为分配权重大小的比例依据, 为每个维度的最优投影向量分配权重值;所述最优投影向量分配的权重值ωk的 计算公式为:其中为第k维度逐次投影寻踪聚类模型的 目标函数值。
然后,将所有维度的最优投影向量按其各自被分配的权重比例进行矢量合 成,生成最佳综合投影向量,最佳综合投影向量是一个比上述任何单一维度投影 寻踪向量包含更多样本数据有效特征信息的空间向量,最佳综合投影向量 满足
样本综合投影值yz(i)的计算公式为
步骤4:根据最佳综合投影向量的系数大小生成评价指标重要性排序列表, 根据所有候选对象的样本综合投影值的大小生成候选对象质量排序列表。
本发明低维逐次投影寻踪聚类模型综合评价方法可应用于供应商的选择与 评价,当用于供应商的选择与评价时,所述候选对象为供应商。实际上,与供应 商选择与评价相类似的问题,都可以应用本发明的方法进行评价,如对已经开展 的研究项目(如R&D)是否应该中止的决策问题,项目招投标问题,供应链金融 风险评价问题,项目评审专家的遴选问题,学术期刊质量评价问题,企业竞争力 评价问题,绩效管理评价问题,葡萄酒质量评价问题等等。
在本实施例中,我们通过供应商的选择与评价来具体说明本发明的评价方法 的应用过程。用于供应商选择时,该方法中的候选对象为供应商。
以图书供应商为例来说明该方法的具体应用:
在本实施例中,我们选取了6个图书供应商,抽取了图书供应商的六个评价 指标,分别为产品价格(元)、售后服务(小时)、地理位置(公里)、产品合格率(%)、 新产品开发率(%)和供应能力(件),原始数据分别用x0(:,j)(j=1,2,......,6)表示。
表1为图书供应商评价指标值及其LDSPPC的逐次评价结果和综合评价结果
供应商i x0(:,1) x0(:,2) x0(:,3) x0(:,4) x0(:,5) x0(:,6) y1(i) y2(i) y3(i) yz(i)
1 335 3.2 15 0.8 0.12 230 0.2261 0.3800 0.8215 0.5916
2 268 1.4 37 0.92 0.25 130 0.7711 0.1559 0.6077 0.8733
3 304 1.9 22 0.99 0.09 220 0.3954 0.1559 0.8562 0.6282
4 270 2 16 0.98 0.35 180 0.7124 0.5468 0.8215 1.0764
5 310 0.8 26 0.86 0.2 150 0.7124 0.1559 0.8215 0.8807
6 303 2.7 10 0.95 0.19 170 0.3954 0.4869 0.8232 0.7853
上述6个供应商的六个评价指标数据,前三个指标为越小越好的逆向指标, 后三个指标为越大越好的正向指标。
根据步骤1,分别读取这6个供应商的样本数据,因为都是客观指标,因此 选择极大值归一化方法进行数据规格化预处理。
根据步骤2,建立低维逐次投影寻踪聚类模型。首先得到第1维度逐次投影 寻踪聚类模型,其第1维度最佳投影向量及其系数为 第1维度目标函数 值根据第1维度逐次投影寻踪聚类模型分别求得这6个供应商 的第1维度样本投影值,这6个供应商的第1维度样本投影值y1(i)如表1所示。 同理得到第2维度、第3维度最佳投影向量及其系数 第2维度、第3维度目标函数值分别为根据第2维度、第3维度逐次投影寻踪聚类 模型分别求得这6个供应商的第2维度、第3维度样本投影值,这6个供应商的 第2维度、第3维度样本投影值y2(i)和y3(i)分别如表1所示。
因为第3维度逐次PPC模型目标函数值已经小于第1维度 目标函数值(0.2905)的0.40倍,说明已不需要建立更高维度的逐次PPC模型 了。
大于的0.40倍可知,第1维度逐次投影寻踪聚类模型从样 本数据中挖掘出的信息不够充分,必须采用低维逐次投影寻踪聚类模型。
从表1所示的第1维度、第2维度、第3维度逐次投影寻踪聚类模型的样本 投影值y1(i)、y2(i)和y3(i)可知,每一维度都有几个样本的投影值是相等的,也 就是说,单一维度的PPC模型可以实现样本的分类,但对投影值相等的样本无法 实现排序。因此,单一维度的投影寻踪聚类模型实际上是无法直接用于对多指标 (属性)少样本供应商的评价与选择的。
根据步骤3,将上述三个维度的最佳投影寻踪向量用矢量合成法 构建最佳综合投影寻踪向量。根据最优投影向量分配权重值的计算公式 可得到第1维度、第2维度和第3维度投影寻踪向量 的分配权重ω1=0.8252,ω2=0.5007,ω3=0.2614,进而得到最佳综合投影向 量及其系数 6个供应商(样本)的样本综合投影值yz(i)如表1所示。
将第1个供应商的第1维度样本投影值y1(1)、第2维度样本投影值y2(1)、 第3维度样本投影值y3(1)矢量合成为样本综合投影值yz(1),第1个供应商的样 本综合投影值yz(1)如表1所示;同理也可获得第2个到第6个供应商的样本综 合投影值yz(2)~yz(6),如表1所示。
根据步骤4,根据最佳综合投影向量的系数大小确定评价指标重要性排序列 表,根据所有候选对象的样本综合投影值的大小确定候选对象质量排序列表。对 于本实施例,根据最佳综合投影向量的系数大小顺序进行排序的结果是:在六个 研究的评价指标中,指标5最重要,其次是指标2,然后按重要性降序排序的次 序是指标3,指标1,指标4和指标6。如果要对指标重要性进行分类,指标5 为极重要类指标,指标2为重要类指标,指标3为中等重要类指标,其他三个指 标1,4和6为次重要类指标。
按照所有候选对象的样本综合投影值的大小顺序进行排序,本实施例6个供 应商的优劣排序为供应商4,供应商5,供应商2,供应商6,供应商3和供应商 1,其中供应商5和2基本相当,差异很小,供应商4明显优于其他供应商。
本发明对供应商选择与评价案例进行了实证研究。李华等(2016)采用信息 熵权重(各个指标的权重为0.1566,0.1686,0.1336,0.1447,0.2099和0.1866) 与各种TOPSIS的结合方法对6个供应商的优劣排序评价结果(6个供应商分别 用G1、G2、G3、G4、G5和G6表示)如表2所示。
表2各种评价方法得到的供应商优劣排序结果
评价方法 G1 G2 G3 G4 G5 G6
topSIS 2 3 6 5 1 4
马氏距离改进topSIS 6 2 4 1 5 3
联系向量距离改进topSIS 6 5 4 1 2 3
马氏距离和联系向量距离改进topSIS 5 1 3 2 6 4
本发明提出的低维逐次投影寻踪聚类模型 6 3 5 1 2 4
从表2可知,本发明的结果,排名前3位的供应商都曾是其他某种评价方法 的第一名,而且排名第一位的供应商有两种方法的排名为第一名;排名第2位和 第3位的供应商很接近,各有其他一种方法的排名为第一名;本发明排名第4 位的供应商,其他方法的评价结果也都排名第3或者第4位;本发明排名第5 和6位的供应商,在其他评价方法中也排名比较靠后。
从以上分析可知,本发明提出的基于低维逐次投影寻踪聚类模型的供应商优 劣排名结果更合理。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限 制;尽管参照较佳实施例对本发明进行了详细的说明,所属领域的普通技术人员 应当理解;依然可以对本发明的具体实施方式进行修改或者对部分技术特征进行 等同替换;而不脱离本发明技术方案的精神,其均应涵盖在本发明请求保护的技 术方案范围当中。

Claims (10)

1.一种低维逐次投影寻踪聚类模型综合评价方法,其特征在于,具体包括以下步骤:
步骤1:对多个候选对象的多个评价指标数据进行规格化预处理操作;
步骤2:根据所有候选对象预处理后的所有样本数据建立第1维度逐次投影寻踪聚类模型、第2维度逐次投影寻踪聚类模型...第k维度逐次投影寻踪聚类模型,其中2≤k≤4,k为低维逐次投影寻踪聚类模型的空间维度;
根据建立的第1维度逐次投影寻踪聚类模型、第2维度逐次投影寻踪聚类模型...第k维度逐次投影寻踪聚类模型分别计算每个候选对象的样本投影值;
步骤3:将第1维度逐次投影寻踪聚类模型、第2维度逐次投影寻踪聚类模型...第k维度逐次投影寻踪聚类模型聚合生成为一个综合投影寻踪聚类模型,获得该综合投影寻踪聚类模型的最佳综合投影向量及其系数;
步骤4:根据最佳综合投影向量的系数大小确定评价指标重要性排序列表,根据所有候选对象的样本综合投影值的大小确定候选对象质量排序列表。
2.根据权利要求1所述的低维逐次投影寻踪聚类模型综合评价方法,其特征在于,所述步骤1中对多个候选对象的样本数据进行规格化预处理操作的具体步骤为:
步骤1.1:读取多个候选对象的样本数据;
步骤1.2:判断样本数据类型,若样本数据为主观样本数据,则对数据进行极差归一化预处理;若样本数据为客观样本数据,则对数据进行极大值归一化预处理;若样本数据为最大值和最小值均未知的样本数据,则对数据进行去均值归一化预处理。
3.根据权利要求1所述的低维逐次投影寻踪聚类模型综合评价方法,其特征在于,所述步骤2中建立第1维度逐次投影寻踪聚类模型、第2维度逐次投影寻踪聚类模型...第k维度逐次投影寻踪聚类模型的具体步骤为:
步骤2.1:根据PPC建模理论分别构建第1维度逐次投影寻踪聚类模型和第2维度逐次投影寻踪聚类模型的目标函数,采用群搜索智能最优化算法计算得到第1维度目标函数值和第2维度目标函数值;
步骤2.2:根据群搜索智能算法计算得到的第1维度逐次投影寻踪聚类模型的第1维度最优投影向量及其系数和第1维度样本投影值;根据群搜索智能算法计算得到的第2维度逐次投影寻踪聚类模型的第2维度最优投影向量及其系数、第2维度样本投影值;
步骤2.3:判断第2维度目标函数值是否小于第1维度目标函数值的0.40倍,若小于,则执行步骤3;否则,执行步骤2.4;
步骤2.4:构建第k维度逐次投影寻踪聚类模型的目标函数,并采用群搜索智能最优化算法计算得到第k维度目标函数值、第k维度最优投影向量及其系数和第k维度样本投影值;
步骤2.5:判断第k维度目标函数值是否小于第1维度目标函数值的0.40倍,若小于,则执行步骤3;否则,重复执行步骤2.4、2.5。
4.根据权利要求3所述的低维逐次投影寻踪聚类模型综合评价方法,其特征在于,所述步骤2中计算每个候选对象的样本综合投影值的具体步骤为:首先,根据构建的第1维度逐次投影寻踪聚类模型、第2维度逐次投影寻踪聚类模型...第k维度逐次投影寻踪聚类模型分别计算出每个候选对象的第1维度样本投影值、第2维度样本投影值...第k维度样本投影值;然后,为每个候选对象的第1维度样本投影值、第2维度样本投影值...第k维度样本投影值分配权重值,将其所有维度的样本投影值按各自的权重比例进行矢量合成,生成其样本综合投影值。
5.根据权利要求4所述的低维逐次投影寻踪聚类模型综合评价方法,其特征在于,所述第k维度最优投影向量为其中p为评价指标个数,ak(p)为第k维度的第p个评价指标的投影向量系数;
所述第k维度样本投影值的计算公式为yk(i)=∑ak(j)*x(i,j),其中i为候选对象序号,j为评价指标序号,yk(i)为第k维度的第i个候选对象的样本投影值,ak(j)为第k维度的第j个评价指标的投影向量系数,x(i,j)为规格化后第i个样本、第j个评价指标的样本数据值;
所述第k维度目标函数值的计算公式为: 且ak(j)满足条件:1≥ak(j)≥-1,(k=1,2)或 1≥ak(j)≥-1,(k=1,2,3)或 1≥ak(j)≥-1,(k=1,2,3,4),其中为第k维度目标函数值,Sy,k为表示样本投影点整体上分散程度的第k维度样本投影值的标准差,Dy,k为表示样本投影点类内局部密集程度的第k维度类内样本的局部密度值,为yk(i)的均值,n为候选对象个数,(ri,m)k为第k维度逐次投影寻踪聚类模型第i个候选对象与第m个候选对象之间的距离,(ri,m)k=|yk(i)-yk(m)|,(rmax)k为(ri,m)k的最大值,u(t)为单位阶跃函数,t大于等于0时为1,否则为0;Rk为第k维度逐次投影寻踪聚类模型的窗宽半径,且(rmax)k/5≤Rk≤(rmax)k/3。
6.根据权利要求3所述的低维逐次投影寻踪聚类模型综合评价方法,其特征在于,所述步骤3中将第1维度逐次投影寻踪聚类模型、第2维度逐次投影寻踪聚类模型...第k维度逐次投影寻踪聚类模型聚合生成为一个综合投影寻踪聚类模型的具体步骤为:
步骤3.1:分别为第1维度最优投影向量、第2维度最优投影向量...第k维度最优投影向量分配权重值;
步骤3.2:将所有维度的最优投影向量按其各自的权重比例进行矢量合成,生成最佳综合投影向量及其系数。
7.根据权利要求4或6所述的低维逐次投影寻踪聚类模型综合评价方法,其特征在于,所述为第1维度样本投影值、第2维度样本投影值...第k维度样本投影值分配权重值,或为第1维度最优投影向量、第2维度最优投影向量...第k维度最优投影向量分配权重值的计算公式为:(k=1,2);或(k=1,2,3);或(k=1,2,3,4),其中为第k维度逐次投影寻踪聚类模型的目标函数值。
8.根据权利要求3所述的低维逐次投影寻踪聚类模型综合评价方法,其特征在于,所述最佳综合投影向量满足关系:所述每个候选对象的样本综合投影值的计算公式为:
9.一种权利要求1所述的低维逐次投影寻踪聚类模型综合评价方法在供应商选择与评价、项目招投标问题、供应链金融风险评价问题、项目评审专家的遴选问题、学术期刊质量评价问题、企业竞争力评价问题、绩效管理评价问题、葡萄酒质量评价问题中的任一种的应用。
10.一种低维逐次投影寻踪聚类模型综合评价装置,其特征在于,包括
样本数据采集模块,用于读取多个候选对象的样本数据;
样本数据预处理模块,用于对多个候选对象的样本数据进行规格化预处理;
PPC建模模块,用于对所有候选对象建立第1维度逐次投影寻踪聚类模型、第2维度逐次投影寻踪聚类模型...第k维度逐次投影寻踪聚类模型;
矢量合成模块,用于将第1维度逐次投影寻踪聚类模型、第2维度逐次投影寻踪聚类模型...第k维度逐次投影寻踪聚类模型聚合生成为一个综合投影寻踪聚类模型,并生成候选对象质量排序列表和评价指标重要性排序列表。
CN201710584477.2A 2017-07-18 2017-07-18 低维逐次投影寻踪聚类模型综合评价方法、装置及应用 Active CN107423759B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710584477.2A CN107423759B (zh) 2017-07-18 2017-07-18 低维逐次投影寻踪聚类模型综合评价方法、装置及应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710584477.2A CN107423759B (zh) 2017-07-18 2017-07-18 低维逐次投影寻踪聚类模型综合评价方法、装置及应用

Publications (2)

Publication Number Publication Date
CN107423759A true CN107423759A (zh) 2017-12-01
CN107423759B CN107423759B (zh) 2021-04-20

Family

ID=60430546

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710584477.2A Active CN107423759B (zh) 2017-07-18 2017-07-18 低维逐次投影寻踪聚类模型综合评价方法、装置及应用

Country Status (1)

Country Link
CN (1) CN107423759B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110046814A (zh) * 2019-04-09 2019-07-23 云南省农业科学院甘蔗研究所 一种综合评价甘蔗新品系的方法
CN111242420A (zh) * 2019-12-30 2020-06-05 湖南大学 一种综合性能多维度评估方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101673369A (zh) * 2009-09-28 2010-03-17 北京工业大学 基于投影寻踪的排水管网洪涝风险评价方法
CN103235872A (zh) * 2013-04-03 2013-08-07 浙江工商大学 一种基于粒子群算法的多维指标的投影寻踪动态聚类方法
CN103902737A (zh) * 2014-04-22 2014-07-02 上海理工大学 基于群智能算法的投影寻踪分类建模软件及实现
CN105354412A (zh) * 2015-10-21 2016-02-24 中国人民解放军理工大学 基于投影寻踪和z型函数的海上军事活动海洋环境影响评估方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101673369A (zh) * 2009-09-28 2010-03-17 北京工业大学 基于投影寻踪的排水管网洪涝风险评价方法
CN103235872A (zh) * 2013-04-03 2013-08-07 浙江工商大学 一种基于粒子群算法的多维指标的投影寻踪动态聚类方法
CN103902737A (zh) * 2014-04-22 2014-07-02 上海理工大学 基于群智能算法的投影寻踪分类建模软件及实现
CN105354412A (zh) * 2015-10-21 2016-02-24 中国人民解放军理工大学 基于投影寻踪和z型函数的海上军事活动海洋环境影响评估方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
史晓霞等: "马来西亚雪兰莪州生态环境脆弱度评价-基于逐次投影寻踪模型的研究", 《自然灾害学报》 *
杨仁欣等: "高光谱图像的特征提取与特征选择研究", 《广西师范学院学报:自然科学版》 *
楼文高等: "基于投影寻踪分类技术的各地区吸纳就业能力综合评价", 《社会保障研究》 *
楼文高等: "影响投影寻踪聚类建模的关键因素分析与实证研究", 《数理统计与管理》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110046814A (zh) * 2019-04-09 2019-07-23 云南省农业科学院甘蔗研究所 一种综合评价甘蔗新品系的方法
CN111242420A (zh) * 2019-12-30 2020-06-05 湖南大学 一种综合性能多维度评估方法
CN111242420B (zh) * 2019-12-30 2023-11-28 湖南大学 一种综合性能多维度评估方法

Also Published As

Publication number Publication date
CN107423759B (zh) 2021-04-20

Similar Documents

Publication Publication Date Title
CN106021364B (zh) 图片搜索相关性预测模型的建立、图片搜索方法和装置
CN101295305B (zh) 图像检索装置
CN111324642A (zh) 一种面向电网大数据分析的模型算法选型与评价方法
CN102591917B (zh) 一种数据处理方法、系统及相关装置
CN110069467A (zh) 基于皮尔逊系数与MapReduce并行计算的电网尖峰负荷聚类提取法
CN107256241B (zh) 基于网格与差异替换改进多目标遗传算法的电影推荐方法
CN109726747A (zh) 基于社交网络推荐平台的数据融合排序方法
Lin et al. Research on maximal frequent pattern outlier factor for online high dimensional time-series outlier detection
CN111126865A (zh) 一种基于科技大数据的技术成熟度判断方法和系统
CN110807520A (zh) 一种卷积神经网络的神经节点的影响因子分析方法及装置
CN113568368A (zh) 一种工控数据特征重排序算法的自适应确定方法
CN107423759A (zh) 低维逐次投影寻踪聚类模型综合评价方法、装置及应用
Yin et al. Finding the informative and concise set through approximate skyline queries
CN111078859B (zh) 一种基于引用次数的作者推荐方法
Lin et al. Using Computing Intelligence Techniques to Estimate Software Effort
CN110543601B (zh) 一种基于中智集的上下文感知兴趣点推荐方法及系统
CN114510645B (zh) 一种基于提取有效多目标群组来解决长尾推荐问题的方法
CN107423319B (zh) 一种垃圾网页检测方法
CN113850346B (zh) Mec环境下多维属性感知的边缘服务二次聚类方法及系统
CN115730248A (zh) 一种机器账号检测方法、系统、设备及存储介质
CN115600017A (zh) 特征编码模型训练方法及装置、媒体对象推荐方法及装置
CN114297582A (zh) 基于多探针局部敏感哈希负二项式回归模型的离散计数数据的建模方法
CN110610420A (zh) 一种股票价格趋势预测的方法及其系统
Hou A new clustering validity index based on K-means algorithm
CN110889431A (zh) 基于K-Means算法改进的高频职业技能生命曲线聚类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20171201

Assignee: Shanghai Yiqing Information Technology Co.,Ltd.

Assignor: SHANGHAI BUSINESS SCHOOL

Contract record no.: X2021310000053

Denomination of invention: Comprehensive evaluation method, device and application of low dimensional successive projection pursuit clustering model

Granted publication date: 20210420

License type: Common License

Record date: 20211230

EE01 Entry into force of recordation of patent licensing contract