CN108021664A

CN108021664A - 一种基于维度投影的多维数据相关性可视分析方法及系统

Info

Publication number: CN108021664A
Application number: CN201711260279.7A
Authority: CN
Inventors: 陈谊; 张聪; 章蓉
Original assignee: Beijing Technology and Business University
Current assignee: Beijing Technology and Business University
Priority date: 2017-12-04
Filing date: 2017-12-04
Publication date: 2018-05-11
Anticipated expiration: 2037-12-04
Also published as: CN108021664B

Abstract

本发明公布了一种基于维度投影的多维数据相关性可视分析方法、系统及应用，属于数据分析与可视化技术领域。包括：建立KNN‑Pearson度量方法计算多维数据集中维度间相关性大小，通过矩阵将多维数据集进行形式化描述和操作，再对数据集维度间相关性进行定量计算，得到多维数据的维度相关性矩阵R；通过对数据维度进行投影展示数据维度之间相关性的可视化方法，将数据维度间相关性进行可视化。多维数据相关性可视分析系统包括：数据预处理模块、维度间相关性计算模块、维度间相关性的矩阵热图可视化模块、多维属性MDS投影模块、多视图可视化与交互模块；并应用于农药残留数据集的可视展示和分析。

Description

一种基于维度投影的多维数据相关性可视分析方法及系统

技术领域

本发明涉及数据分析与可视化技术领域，尤其涉及一种基于维度投影的多维数据相关性可视分析方法、系统及应用。

背景技术

农药残留是导致食品安全问题的主要原因之一，每年各国政府都会对食品中的农药残留进行多次抽检和侦测，从而得到具有大量数据的农残侦测数据集，这个数据集具有多维属性，且各属性之间具有一定的关联，如何对这些数据进行有效的分析，尤其是相关性分析，找出各个属性之间的潜在关联，从而制定有效的监管措施，是一个亟待解决的问题。

当前对高维数据集中各属性间相关性的可视化技术主要涉及两种方法，它们分别为空间映射法和降维方法。空间映射法是将数据从抽象的高维空间映射到可视的2D空间，具体包括散点图矩阵、平行坐标和表格透镜等，但这类技术只能处理低于20维的数据。降维方法是通过降维从高维数据中提取有效信息，便于可视化。这类方法主要包括主成分分析、多维尺度分析等方法。然而这类方法的问题是用户对降维过程的控制很少，且降维后，原始维度信息会有所丢失。由此可以看出，对高维数据相关性的挖掘方法和可视化技术也都面临着诸多挑战。

因此，如何实现普通用户对多维数据的方便操作、并且实现对多维数据的关联分析成为目前亟待解决的技术问题。

发明内容

为了克服上述现有技术的不足，本发明提供一种基于维度投影的多维数据相关性可视分析方法与系统。

本发明提出了一种基于维度投影的多维数据相关性可视分析方法，方法的核心包括了量化多维数据集中维度间相关性大小的度量方法KNN-Pearson和对数据维度进行投影展示数据维度之间相关性的可视化方法。该方法首先提出了一个量化多维数据集中维度间相关性大小的度量方法KNN-Pearson，通过矩阵将多维数据集进行形式化描述和操作，在此基础上对数据集维度间相关性进行定量计算。该度量方法通过数据集在某维度中某数据值处的密度定量地表示某维度对聚类的贡献度，并将其作为计算元素，通过皮尔逊相关系数计算各维度间的相关性大小，定量地表示各维度之间的相关程度。然后基于KNN-Pearson算法得到的维度间相关性大小，应用多维尺度算法(Multi-dimensional Scaling,MDS)对维度进行投影，用投影散点图和矩阵热图展示维度之间的相关性，用投影矩阵和平行坐标展示数据的分布态势和聚类特征，允许用户通过维度选择构造其感兴趣的子空间，在子空间中交互地分析数据、探索规律。根据上述基于维度投影的多维数据相关性可视分析方法，本发明还提供了一个基于维度投影的多维数据相关性可视分析系统，通过数据筛选、维度选择、尺度缩放以及多视图联动等交互手段，以实现对具有多维数据集中的多维属性间的相关性进行探索与分析。

本发明提供的技术方案如下：

一种基于维度投影的多维数据相关性可视分析方法，包括：

第一步，建立一个量化多维数据集中维度间相关性大小的度量方法KNN-Pearson，通过矩阵将多维数据集进行形式化描述和操作，在此基础上对数据集维度间相关性进行定量计算，得到多维数据的维度相关性矩阵R。

本发明对采用Pearson相关系数算法计算维度间相关性大小的方法进行了改进，提出了KNN-Pearson度量方法来计算维度间相关性大小，该方法包括如下步骤：

A.数据预处理，构造原始数据集的特征向量矩阵X,具体包括如下步骤:

A1.根据需求从原始数据集中提取样本数据记录构成新的数据集DataSet，DataSet中数据记录的条数为n条，记D_i为DataSet中第i条数据记录，则D＝(D₁,D₂,…,D_n)^T表示DataSet中的n条记录。每条数据记录有m个属性，即每条记录可以表示为D_i＝(d₁,d₂,…d_j,…,d_m)，其中d_j(j＝1,2,…,m)表示第j个属性的取值；

A2.以DataSet中的每一条数据记录作为一个数据点插入矩阵行向量，每一个属性作为一个维度插入矩阵列向量，构建的特征向量矩阵X如下：

其中i∈{1,2,…,n}，j∈{1,2,…,m}，矩阵中的每一个点x_ij表示第i个维度中第j个数据点。

B.通过KNN-Pearson方法计算矩阵X中两两维度间的相关性大小值，具体包括如下步骤；

B1.计算数据在维度d_j上点x_i位置处的密度：

公式1中等式左端的ρ(x_i,d_j)描述的是数据在维度d_j上点x_i位置处的密度，即矩阵X中的元素x_ij处的密度，等式右端中KNN(K-NearestNeighbor)是指k最近邻，即在维度d_j上距离点x_i最近的k个点。在公式中KNN(x_i,d_j)指维度d_j上距离点x_i最近的k个点，k的数值一般由用户自己根据实际情况给定，max(KNN(x_i,d_j))指KNN(x_i,d_j)中维度坐标值最大的点，min(KNN(x_i,d_j))指KNN(x_i,d_j)中维度坐标最小的点。ε为阈值，一般的定义其中n为数据集中数据记录的条数。比较max(KNN(x_i,d_j))-min(KNN(x_i,d_j))和阈值ε的大小，取较大的值作为分母，相应的k的数值减1作为分子，将得到的比值作为维度d_j上点x_i位置处的密度.

B2.计算数据在维度d_j上所有点的密度的平均值：

通过步骤B1中的公式1将向量矩阵中的每个元素的密度计算出来得到密度矩阵如下，

对于密度矩阵中的每一列元素，应用公式2对其求平均值得到每个维度d_j上的平均密度，记作最终得到平均密度向量

B3.计算两维度间的相关性大小：

结合步骤B2中得到的密度矩阵P和平均密度向量应用公式3计算得到两两维度间相关性的大小，并将其记录在如下矩阵中：

矩阵R中每个元素r(d_i,d_j)(i∈{1,2,…,m},j∈{1,2,…,m})表示维度d_i和维度d_j间的相关系数，其中相关系数的取值范围在-1到1之间，正值表示两维度间存在正相关关系，负值表示两维度间存在负相关关系，且绝对值越接近1表示两维度间相关性越强。

C.将维度间相关性大小记录到相关性矩阵中并输出，即步骤B中得到的相关性矩阵R.

第二步，通过对数据维度进行投影展示数据维度之间相关性的可视化方法，将数据维度间相关性进行可视化；

具体地，基于得到的相关性矩阵R，应用MDS算法对维度进行投影，每一个投影点表示一个维度，投影点之间的相对距离表示维度间相关性的大小，距离越远表示相关性越小，反之表示相关性越大。

基于上述基于维度投影的多维数据相关性可视分析方法，本发明还实现了一个基于维度投影的多维数据相关性可视分析系统，包括：数据预处理模块、维度间相关性计算模块、维度间相关性的矩阵热图可视化模块、多维属性MDS投影模块、多图可视化与交互模块；数据预处理模块用于构造原始数据集的特征向量矩阵；维度间相关性计算模块用于使用KNN-Pearson算法计算维度间相关性；维度间相关性的矩阵热图可视化模块用于采用矩阵热图表示维度相关系数矩阵，将维度间相关性进行可视化；多维属性MDS投影模块通过使用多维尺度算法将数据集的多维属性投影到二维平面坐标中，根据投影点之间的相对位置表示维度间相关性，投影点之间的相对位置越近表示投影点代表的维度间相关性越强；多图可视化与交互模块通过地图、字云、柱形图和环形饼图等可视化方法，采用用户交互手段，提供自由选择感兴趣数据的方式，实现用户采用多图可视化与交互方式对数据集进行分析与研究。

相关性分析是指对两个或多个具备相关性的变量元素进行分析，从而衡量两个变量因素的相关密切程度。维度投影是指通过空间映射法和降维方法，将数据从抽象的高维空间映射到可视的2D空间，在该系统中通过MDS算法将多个维度映射到二维平面中，平面中的每个数据点表示一个维度，数据点间的相对距离表示维度间相关性的大小，距离越大相关性越小。利用该系统是，用户能够对具有多维属性的数据集的维度进行研究与分析。

利用上述基于维度投影的多维数据相关性可视分析系统对多维数据进行可视分析，具体包括如下操作：

A.对数据集进行数据预处理：

首先将数据集S抽象为关系模式存入数据库。抽取数据集中合适的属性作为表的字段，数据集中每一条数据作为表的记录；

然后将表中记录的数据导入矩阵中，以每个字段为列向量，每条记录为行向量，最终将表中数据形式化为矩阵M，形如本发明第一部分步骤A2中矩形X；

B.对矩阵M使用KNN-Pearson算法进行维度间相关性大小的计算，算法步骤如下：

输入：数据集S

输出：维度相关系数矩阵R

Step1.读取数据集S

Step2.将数据集S形式化为矩阵M

Step3.根据公式1、2、3计算任意两个维度间的相关性大小

Step4.将计算出的各维度间相关性大小的值记录在维度相关系数矩阵R中，形如本发明第一部分步骤B3中的矩阵R.

C.B操作中得到的维度相关系数矩阵结合矩阵热图，以渐变(红)色表示维度间相关性的大小，颜色越深表示两维度间相关性越强。

D.使用经典的多维尺度算法(Multi-dimensional Scaling,MDS)将数据集的多维属性投影到二维平面坐标中，其中坐标轴不表示任何含义，仅仅反映投影点之间的相对位置，相对位置越远表示两点代表的维度间相关性弱，反之表示维度间相关性强。其中相对位置基于维度间的相关性大小得到，具体表达式如下：

dist(d_i,d_j)＝1-r(d_i,d_j) (公式4)

其中，r(d_i,d_j)是通过KNN-Pearson算法计算出的维度d_i和d_j间相关性大小，dist(d_i,d_j)为使用多维尺度算法对维度进行投影时点之间的距离，距离越大表示两点所代表的维度之间的相关性大，反之相关性小。

E.数据集属性结合平行坐标，平行坐标视图将选择的数据子集中的每一条数据记录映射为线,，每一个坐标轴表示一个属性。

F.数据项与二维坐标平面结合，根据数据项的维度直接在相应的维度子空间中进行投影，使用户能直观的看到数据点在其感兴趣的维度中的相关关系。

G.数据集与地图、字云、柱形图和环形饼图等可视化方法结合，同时加入交互手段，为用户提供自由选择感兴趣数据的方式，使用户能自主的对数据集进行分析与研究。

本发明提供还将上述基于维度投影的多维数据可视分析方法及系统应用于农药残留数据集(以下简称农残数据)的可视展示和分析，具体地，可以根据农残数据的不同特征，利用相关数据分析与数据可视化知识，对具有多维属性的农残数据进行探索与分析，尤其是针对数据中属性之间的相关关系进行定量分析。同时辅以多种交互手段，使用户能够自主的选择感兴趣数据进行分析。

与现有技术相比，本发明的有益效果是：

本发明提出了一种基于维度投影的多维数据相关性可视分析方法，通过结合KNN和Pearson相关系数的提出了一个量化多维数据集中维度间相关性大小的度量方法KNN-Pearson，与传统的Pearson相关系数相比，KNN-Pearson算法使用数据点在该维度中数据点处的密度作为计算对象，有效的降低了使用传统Pearson相关系数进行计算时对于异常点的敏感度。同时对一些不符合正态分布的样本进行分析时，KNN-Pearson算法在计算样本集中维度间相关性时能够度量某些不符合正态分布的样本间的相关程度，弥补了传统Pearson相关系数的计算缺陷。同时在高维数据可视化技术涉及到的空间映射法和降维方法中存在一个问题，即在降维过程中用户对于其控制手段很少，没有很好的交互过程,且降维后,原始维度信息会有所丢失。本发明开发的基于维度投影的多维数据相关性可视分析系统加入了很好的交互手段，提高了用户对分析过程中对过程的把控能力和交互能力。

本发明开发的一个基于维度投影的多维数据相关性可视分析系统，通过应用多种交互手段，使用户提供对数据的多维属性进行探索和分析时能及时加入自己的需求和设计思想，很好的弥补现有方法中交互性不足的短处。

附图说明

图1为本发明提供的基于维度投影的多维数据可视分析方法的流程框图。

图2为本发明实施例中多维农残侦测数据集中各属性间相关性的矩阵热图；

其中，矩阵的行和列均表示数据中17个属性，即维度；矩阵中的每一个元素的值表示该行该列所表示的两维度间的相关性大小，元素所在格子的颜色深度也表示这两个维度间相关性大小，颜色越深表示相关性越大，反之表示相关性越小。

图3为本发明实施例中多维农残侦测数据集的属性投影散点图；

图中，坐标轴的值无意义，仅用作展示坐标中点与点之间的相对距离；其中每一个点表示一个数据集中的一个属性，两点之间的相对距离表示相关性大小，距离越远表示这两点代表的属性间相关性越小，反之越大。

图4为本发明实施例中多维农残侦测结果数据集的平行坐标表达示意图；

其中，每条折线表示一个数据记录，每一坐标轴表示一个属性，一共有17个属性。

图5为本发明实施例中多维农残侦测结果数据集在二维平面的数据投影散点图；

其中，两个坐标轴分别为用户从维度空间中选取的两个维度(即数据集中的两个属性)，平面中的点表示数据集中的农产品；通过统计农产品中农药在这两个属性中的取值作为坐标取值将所有数据点映射到二维平面。

图6为本发明实施例中多维农残侦测结果数据集生成的热力地图；

该图通过在地图上添加特殊高亮的形式反映每个地区的采样频数；其中，地图中的每个点表示一个采样点，系统中不同地区的采样点中存放不同的数据集；地图中的颜色深浅表示农产品在该地区的采样频数的大小，颜色越深表示采样频数越多。

图7为本发明实施例中多维农残侦测结果数据集内农产品采样频次字云图；

其中，图中的字符表示用户选取的采样点中包含的农产品，字符字体越大表示该农产品在该采样点中采样频次越多。

图8为本发明实施例中多维农残侦测结果数据集内农药残留检测频次和检出量示意图；

图中，柱形图分为上下两部分,上面展示检出农药及检出频次数，下面展示检出农药及检出总含量。

图9为本发明实施例中多维农残侦测结果数据集内检出农药残留按成份、功效和毒性的分布图；

该图展示不同农药类别所占的百分比，通过颜色映射不同的农药类别。

具体实施方式

下面结合附图，通过实施例进一步描述本发明，但不以任何方式限制本发明的范围。

本发明提供了一种基于维度投影的多维数据可视分析方法与系统，将该可视分析方法应用于农药残留数据集(以下简称农残数据)的展示，可以根据农残数据的不同特征，利用相关数据分析与数据可视化知识，对具有多维属性的农残数据进行探索与分析，尤其是针对数据中属性之间的相关关系进行定量分析。同时辅以多种交互手段，使用户能够自主的选择感兴趣数据进行分析。

现有计算维度间相关性大小的传统方法是Pearson相关系数，它的公式如下：

公式中x_ij表示维度d_j中的数据点x_i，表示维度d_j中所有点数据点的平均值，该公式在计算相关性大小时存在以下不足：(1)当变量不服从正态分布时，即使是对大样本而言，Pearson相关系数也有较大的偏差；(2)Pearson相关系数的计算易受异常点的影响，且影响较为显著。

本发明对上述算法进行改进，提出了KNN-Pearson度量方法来计算维度间相关性大小。图1为本发明实施例的流程图，本系统中使用的数据来自于农药残留(以下简称农残)侦测数据集，在本实施例中从数据集中选择某市的农残数据作为操作对象，具体包括如下操作：

A.数据预处理，生成向量矩阵：

首先对数据集进行数据处理，如统计单种农产品检出农药种类数、单种农产品检出农药频次、单例样品平均检出农药品种与占比、检出农药的品种与频次、检出农药所属类别与占比、检出农药残留水平与占比、检出农药毒性分类与占比、检出剧毒/高毒农药情况和样品情况等。从中选取了17个属性作为需要构造的向量矩阵的维度，这些属性分别是杀菌剂、杀虫剂、除草剂、调节剂、驱虫剂、增塑剂、拟除虫菊酯类、有机氯类、有机硫类、有机磷类、有机氮类、氨基甲酸酯类、低毒、中毒、高毒和剧毒。将每次对该农产品进行采样得到的数据相应的记录到各个属性中，每条记录作为矩阵的行向量，17个属性作为列向量构成待操作的向量矩阵M如下：

B.对矩阵M使用KNN-Pearson算法计算维度间相关性的大小，具体包括如下步骤：

B1.计算数据在维度d_j上点x_i位置处的密度：

公式1中等式左端的ρ(x_i,d_j)描述的是数据在维度d_j上点x_i位置处的密度，即矩阵X中的元素x_ij处的密度，等式右端中KNN(K-NearestNeighbor)是指k最近邻，即k个最近的邻居的意思。在公式中KNN(x_i,d_j)指维度d_j上距离点x_i最近的k个点，k的数值一般由用户自己根据实际情况给定，max(KNN(x_i,d_j))指KNN(x_i,d_j)中维度坐标值最大的点，min(KNN(x_i,d_j))指KNN(x_i,d_j)中维度坐标最小的点。ε为阈值，一般的定义其中n为数据集中数据记录的条数。比较max(KNN(x_i,d_j))-min(KNN(x_i,d_j))和阈值ε的大小，取较大的值值作为分母，相应的k的数值减1作为分子，将得到的比值作为维度d_j上点x_i位置处的密度.

B2.计算数据在维度d_j上所有点的密度的平均值：

B3.计算两维度间的相关性大小：

在具体实施例中，对A操作中得到的矩阵M应用公式1、公式2和公式3进行计算，最终得到维度间相关系数矩阵如下：

矩阵R为17×17的矩阵，每一行和每一列表示数据中的一个维度，矩阵中元素r_ij表示维度d_i和维度d_j的相关性大小，即相关系数。

C.将B操作中得到的维度相关系数矩阵与矩阵热图相结合，以渐变(红)色表示维度间相关性的大小，颜色越深表示两维度间相关性越强。矩阵热图中维度的排序可以自定义，程序中有参数设置，控制维度排序。同时矩阵热图还提供了悬停查看横纵轴交叉的矩阵单元的操作，具体如图2所示。

D.使用经典的多维尺度算法(Multi-dimensional Scaling,MDS)将数据集的多维属性投影到二维平面坐标中，其中坐标轴不表示任何含义，仅仅反映投影点之间的相对位置，相对位置越远表示两点代表的维度间相关性弱，反之表示维度间相关性强，其中相对位置基于维度间的相关性大小得到，具体表达式如下：

dist(d_i,d_j)＝1-r(d_i,d_j) (公式4)

具体投影图如图3所示，从图中可以看到驱虫剂、增塑剂以及增效剂等维度的投影点彼此重合，因为其维度值是一样的。同时结合图2可以查看不同维度之间的相关性大小，例如从图3可以看到氨基甲酸酯类和高毒相对距离很近，表示这两个维度高度相关，查看图2矩阵可以看到这两个维度的相关系数为0.85，呈现深(红)色验证了这个结果。

E.数据集属性结合平行坐标，平行坐标视图将选择的数据子集中的每一条数据记录映射为线,，每一个坐标轴表示一个属性。维度较多时，空间不足,因此初始设置某些轴处于折叠状态，可交互展开折叠的轴。线集中的区域颜色叠加成高亮度的白色，起到突出该区域的效果。平行坐标提供了刷选查看数据记录，点击查看折叠的坐标轴等操作，具体如图4所示。

位于图4上半部分的图是加载数据后初始化时的检出农药所属不同类别的情况；下图是调整维度变量氨基甲酸酯类和有机氮类之后的情况。此外，能够发现杀菌剂类、杀虫剂类、有机氮类以及低毒农药种类数较多，而驱虫剂类、增塑剂类以及增效剂类农药种类数为0.在调整变量氨基甲酸酯类和有机氮类顺序之后，可以发现，几乎所有的农产品中的有机氮类农药较多时，低毒类农药也较多，有机氮类农药增多时低毒类农药也增多，说明大多数农药属于有机氮类同时也属于低毒类。

F.数据项与二维坐标平面结合，根据数据项的维度直接在相应的维度子空间中进行投影，用户可以在原来17个维度中选取任意两个维度作为二维平面中的x轴、y轴。例如选择低毒和有机氮类这两个维度作为轴组成一个二维平面，平面中的点表示各个农产品，其坐标是该农产品中含有属于低毒的农药的个数、该农产品中含有属于有机氮类的农药的个数。通过对平面中数据点的分析，用户能直观的看到数据点在其感兴趣的维度中的相关关系。图5上图在由低毒和杀菌剂组成的子空间中,数据子集呈现正相关的趋势；由低毒和有机氮类组成的子空间中,数据也呈现正相关的趋势，即在数据集中，某一农产品中农药含有的低毒类个数越多，该农药中属于有机氮类的个数也越多。在下图中,由增塑剂和驱虫剂组成的子空间中,数据子集集中为一点；由增塑剂和增效剂组成的子空间中,数据子集也集中为一点。所有采样农产品的检出农药属于驱虫剂、增塑剂以及增效剂的农药种类数为0.

热力地图展示了不同省份或直辖市(以下简称为地区)的农产品采样频数，次数越大颜色越深。用户使用鼠标选择自己感兴趣的地区，字云会将该地区采样的农产品名称显示出来，字号越大表示该农产品被采样的频次越多，同时地图上会悬浮显示出该地被采样的频数。如图6所示，点击该市，从图中看到该地区农产品被采样1830次，同时可以从图7字云中看到采样的具体农产品。通过点击西葫芦可以看到它被采样21次，同时图8柱状图中生成了被采样的西葫芦中农药的使用和残留量情况。

最后，在用户了解到该市所有采样农产品的采样频次、检出农药情况以及检出农药所属不同类别之间的相关性之后，可以通过图9来查看检出农药属于不同类别农药的种类数在总和中的占比。在功效类别农药中，杀菌剂和杀虫剂类农药使用较多；在成份类别农药中，有机氮类农药使用最多；在检出农药的毒性分类中，低毒类农药使用最多。

本发明的主要内容已通过上述优选实例做了详细介绍，需要注意的是，公布实施例的目的在于帮助进一步理解本发明，在不脱离本发明及所附权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种基于维度投影的多维数据相关性可视分析方法，包括如下步骤：

第一步，建立KNN-Pearson度量方法计算多维数据集中维度间相关性大小，通过矩阵将多维数据集进行形式化描述和操作，再对数据集维度间相关性进行定量计算，得到多维数据的维度相关性矩阵R；包括如下步骤：

A.数据预处理，构造原始数据集的特征向量矩阵X，包括步骤A1-A2：

A1.从原始数据集中提取样本数据记录构成新的数据集，记作DataSet，DataSet中数据记录的条数为n条，记D_i为DataSet中第i条数据记录，则D＝(D₁,D₂,…,D_n)^T表示DataSet中的n条记录；每条数据记录有m个属性，即每条记录可表示为D_i＝(d₁,d₂,…d_j,…,d_m)，其中d_j(j＝1,2,…,m)表示第j个属性的取值；

其中，i∈{1,2,…,n}，j∈{1,2,…,m}，矩阵中的每一个点x_ij表示第i个维度中第j个数据点；

B.通过KNN-Pearson度量方法计算矩阵X中两两维度间的相关性大小值，记录在相关性矩阵R中；包括步骤B1-B3：

B1.通过公式1计算数据在维度d_j上点x_i位置处的密度：

公式1中，ρ(x_i,d_j)是数据在维度d_j上点x_i位置处的密度，即矩阵X中的元素x_ij处的密度；KNN(K-NearestNeighbor)是指k最近邻，即在维度d_j上距离点x_i最近的k个点；KNN(x_i,d_j)指维度d_j上距离点x_i最近的k个点；max(KNN(x_i,d_j))指KNN(x_i,d_j)中维度坐标值最大的点；min(KNN(x_i,d_j))指KNN(x_i,d_j)中维度坐标最小的点；ε为阈值，一般其中n为数据集中数据记录的条数；

通过公式1计算向量矩阵中的每个元素的密度，得到密度矩阵P表示如下：

B2.通过公式2计算数据在维度d_j上所有点的密度的平均值：

对于密度矩阵P中的每一列元素，用公式2对求平均值得到每个维度d_j上的平均密度，记作最终得到平均密度向量

B3.通过公式3计算两维度间的相关性大小：

并将计算得到两两维度间相关性记录在矩阵R中，表示如下：

矩阵R中，每个元素r(d_i,d_j)(i∈{1,2,…,m},j∈{1,2,…,m})表示维度d_i和维度d_j间的相关系数，其中相关系数的取值范围在-1到1之间，正值表示两维度间存在正相关关系，负值表示两维度间存在负相关关系，且绝对值越接近1表示两维度间相关性越强；

C.输出相关性矩阵R；

第二步，通过对数据维度进行投影展示数据维度之间相关性的可视化方法，将数据维度间相关性进行可视化。

2.如权利要求1所述基于维度投影的多维数据相关性可视分析方法，其特征是，第二步可视化方法具体利用多维尺度算法MDS对相关性矩阵R进行投影，每一个投影点表示一个维度，投影点之间的相对距离表示维度间相关性的大小；将数据多维属性投影到二维平面坐标中，其中坐标轴反映投影点之间的相对位置，相对位置的距离表示两点代表的维度间的相关性强弱；相对位置基于维度间的相关性大小，通过公式4计算得到：

dist(d_i,d_j)＝1-r(d_i,d_j) (公式4)

其中，r(d_i,d_j)是通过KNN-Pearson算法计算出的维度d_i和d_j间相关性大小；dist(d_i,d_j)为使用多维尺度算法对维度进行投影时点之间的距离，表示两点所代表的维度之间的相关性。

3.如权利要求1所述基于维度投影的多维数据相关性可视分析方法，其特征是，第二步可视化方法包括将得到的维度相关系数矩阵R采用矩阵热图，以渐变色表示维度间相关性的大小。

4.如权利要求1所述基于维度投影的多维数据相关性可视分析方法，其特征是，第二步可视化方法还包括用户交互可视化。

5.一种利用权利要求1-4所述基于维度投影的多维数据相关性可视分析方法实现的基于维度投影的多维数据相关性可视分析系统，包括：数据预处理模块、维度间相关性计算模块、维度间相关性的矩阵热图可视化模块、多维属性MDS投影模块、多图可视化与交互模块；其中：

数据预处理模块用于构造原始数据集的特征向量矩阵；维度间相关性计算模块用于使用KNN-Pearson算法计算维度间相关性；维度间相关性的矩阵热图可视化模块用于采用矩阵热图表示维度相关系数矩阵，将维度间相关性进行可视化；多维属性MDS投影模块通过使用多维尺度算法将数据集的多维属性投影到二维平面坐标中，根据投影点之间的相对位置表示维度间相关性；可视化与交互模块通过多图可视化方法，采用用户交互手段，提供自由选择感兴趣数据的方式，实现用户采用多图可视化与交互方式对数据集进行分析与研究。

6.如权利要求5所述多维数据相关性可视分析系统，其特征是，所述多图包括：地图、字云、柱形图和环形饼图中的一种或多种。

7.将权利要求1-4所述基于维度投影的多维数据相关性可视分析方法应用于农药残留数据集的可视展示和分析。