CN110532300A

CN110532300A - 一种用于人工智能数据分析的大数据高保真可视化方法

Info

Publication number: CN110532300A
Application number: CN201910811776.4A
Authority: CN
Inventors: 唐波; 汤恩义; 王林章; 李宣东
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2019-08-30
Filing date: 2019-08-30
Publication date: 2019-12-03
Anticipated expiration: 2039-08-30
Also published as: CN110532300B

Abstract

本发明公开了一种用于人工智能数据分析的大数据高保真可视化方法。针对大数据量、高维度的向量型数据集提供可视化高保真展示，在人工智能领域中用于分析数据的内部规律与数据特征。为了保证分析效果的准确性，本发明引入了高保真可视化技术，该技术在保留了原始数据可视化特征的基础上缩减了实际可视化的操作数据规模，使可视化平台既能易于操作、高效运行，又能准确还原原始数据效果。本发明通过引入基于频数分布的高保真双向抽样算法来实现这样的可视化技术，从而使高维度大数据的可视化在较低配置的通用硬件平台上得以有效实施。本发明属于人工智能和数据科学领域。

Description

一种用于人工智能数据分析的大数据高保真可视化方法

技术领域

本发明属于人工智能与数据科学领域，涉及对大数据量、高维度向量型数据集的高保真可视化渲染技术，使可视化平台既能准确还原原始数据，又能高效运行、易于操作，为用户观察原始数据的内部规律和数据特征提供帮助。

背景技术

可视化是一种通过图形表达数据的方法，在人工智能和数据科学领域被广泛使用。当前的实际数据往往具有大数据量、高维度等特点，因而在低配置的硬件平台上实施具有一定困难，本发明基于高保真抽样的思路来解决这一问题。

现有通用的计算机硬件环境下，若将高维大数据的所有内容加载到单个客户端的内存以实现可视化基本不可能，需要通过行抽样与降维来实现。而使用分布式云加载的方式将会失去可视化过程中的一些特性，包括本地流畅性等等，也同样需要通过行抽样与降维来满足这些特性。现在流行的行抽样方法有直方图、聚类、随机抽样等，降维方法有主成分分析、属性子集选择等，但是这些方法对于大数据量、高维度的向量型数据集均不能在抽样与降维过程中保障可视化的保真性质。具体来说：1.直方图通过扩大统计范围使处理后的数据具有较粗的粒度，从而可能丢失高保真过程的关键信息。2.聚类方法将数据行看成对象，把“相似”的对象聚到同一个簇内，在数据规约上用数据的簇来代表替换实际数据，但由于聚类算法没有完全按照可视化要求来生成簇，从而不能保证可视化的保真性。3.随机抽样分为无放回随机抽样和有放回随机抽样，这会造成显示结果具有一定的随机性，难以保证高保真可视化的要求。4.主成分分析又称PCA，这种方法是通过维度变换来实现降维的，很难重构变换后的新维度和原始维度的直接关系，因此可视化时难以表示原始数据的高保真信息。5.属性子集选择的降维策略是通过删除冗余的属性(或维)来减少维度，这可能会将原始数据的疏密程度进行改变，从而很难达到大数据高保真可视化的目的。

根据《数据挖掘：概念与技术(原书第三版)》(ISBN：978-7-111-39140-1)中第2章的第3节数据可视化介绍，数据可视化旨在通过图形清晰有效地表达数据。所谓清晰有效地表达数据实际上就是要求可视化图形能够反映出原始数据的内部规律和数据特征，让用户通过图形就能观察到原始数据内部的细节。具体来说就是在当前分辨率条件下，可视化图形要能够在空间的疏密程度上与原始数据保持一致，能够客观显示原始数据的边界值，能够准确刻画原始数据的变化趋势，这也就是本发明所述高保真的涵义。例如，对于平行坐标图而言，如果该图在对应分辨率条件下将原始数据各维度的极值(包括极大值和极小值)、数据行的变化趋势、以及原始数据的疏密分布均准确表达，即称该图形实现了高保真可视化。

发明内容

技术问题：本发明提出了一种用于人工智能数据分析的大数据高保真可视化方法，该方法通过可视化平台对大数据量、高维度的向量型数据集进行高保真可视化，为用户观察原始数据的内部规律和数据特征提供帮助。

技术方案：本发明的一种用于人工智能数据分析的大数据高保真可视化方法，针对大数据量、高维度的向量型数据集引入了基于频数分布的双向抽样算法，保证在设定分辨率下的可视化图形与原始数据一致，即原始大数据能获得高保真的展示；所述的双向抽样算法是指，对于数据行方向采用了保持相对子空间的高保真抽样算法，对于维度方向采用了粘滞邻域极值的高保真抽样算法；详细步骤为：

1-1)、数据行方向的保持相对子区间高保真抽样算法：针对当前分辨率，对可视化图形中任意一个可分辨子空间，保持其相对的数据比例，从而使空间中的数据疏密程度与原始数据一致；

1-2)、维度方向的粘滞邻域极值高保真抽样算法：针对当前分辨率，对可视化图形中任意一个采样点的可分辨邻域，粘滞其图形边界极值，从而保持可视化的视觉效果与原始数据一致；

1-3)、可视化渲染：对步骤1-1)、1-2)的抽样结果在对应分辨率条件下渲染，渲染效果和原始数据的直接渲染一致，而渲染效率可得到大幅度增强。

所述的步骤1-1)中数据行方向的保持相对子区间高保真抽样算法，具体为：

2-1)、针对当前分辨率，在数据行方向将原始数据划分为p个可分辨子区间，并对每一个维度的数据对应地进行p组频数分布统计；

2-2)、将原始数据中任意维度中含有极大值或极小值的数据行加入抽样，从而保持抽样后数据的可视化边界；

2-3)、在原始数据中按照步骤2-1)频数分布所统计的各区间频率来进行抽样。

所述的步骤1-2)中维度方向的粘滞邻域极值高保真抽样算法，具体为：

3-1)、根据目标可视化图形的规则，获得维度方向的现有次序；

3-2)、若原始数据有n₁个维度，针对当前分辨率的可显示维度数为n₂，2≤n₂≤n₁，则保持可视化效果仅需要对每一个数据行保留n₂个数据值；该分辨率下的每一个需要保留1个采样值的可分辨邻域中存在n₁除以n₂个原始数据维度；

3-3)、为了保证高保真可视化在抽样数据上的显示效果和原始数据一致，抽样时保留了可分辨邻域中图形边界极值。

所述的按照步骤1-3)对抽样结果进行可视化渲染，具体为：

4-1)、对原始数据在数据行方向和维度方向同时采用步骤1-1)、1-2)的抽样算法进行抽样，获得抽样数据；相对于原始数据，抽样数据既大幅压缩了数据维度，又大幅度减少了数据行数，从而使后续的渲染效率大大提升；

4-2)、在步骤1-1)、1-2)预定的分辨率条件下，由前端渲染引擎对抽样数据进行渲染。

有益效果：本发明所描述的一种用于人工智能数据分析的大数据高保真可视化方法主要目的是让用户通过可视化平台分析出高维度、大数据量的向量型数据集的内部规律与数据特征，期望能找到相同类别的共性和不同类别之间的差异，高保真地还原了原始数据可视化效果。具体来说有如下有益效果：

1.本发明能够支撑高维度、大数据量的向量型数据集。在当前通用的硬件条件下，本发明能够支撑包括人类基因组数据、蛋白质结构数据、天文数据、金融数据等大数据应用，实现其高保真可视化。为这些高维度、大数据量的应用观察其内部规律与数据特征提供支撑。

2.本发明能为用户提供高保真的可视化效果。该可视化效果能够准确刻画数据的变化趋势、疏密分布以及图形边界，从而给出数据内部的准确规律和不易观察到的数据联系，为用户能够根据数据获得更为准确的结论提供依据。

附图说明

图1为用于人工智能数据分析的大数据高保真可视化方法总流程。

图2为数据行方向保持相对子空间的高保真抽样算法流程。

图3为维度方向粘滞邻域极值的高保真抽样算法流程。

图4为乳腺癌数据集雷达图的高保真可视化效果。(a)良性乳腺癌特征数据雷达图的高保真显示效果；(b)恶性乳腺癌特征数据雷达图的高保真显示效果。

图5为随机分类数据集雷达图的高保真可视化效果。(a)随机分类数据的高保真雷达图显示效果(分类1)；(b)随机分类数据的高保真雷达图显示效果(分类2)。

具体实施方式

本发明提出了一种用于人工智能数据分析的大数据高保真可视化方法，针对高维度、大数据量的向量型数据集提供可视化高保真展示，在人工智能领域中用于分析数据的内部规律与数据特征。本发明引入基于频数分布的高保真双向抽样算法来实现这样的可视化技术，具体分为维度上的粘滞邻域极值的高保真抽样算法和数据行上的保持相对子空间的高保真抽样算法，保证了抽样后在屏幕上显示出来的效果跟原始数据在屏幕上显示出来的效果一样。详细步骤为：

1-1)、数据行方向的保持相对子区间高保真抽样算法：针对当前分辨率，对可视化图形中任意一个可分辨子空间，保持其相对的数据比例，从而使空间中的数据疏密程度与原始数据一致。

1-2)、维度方向的粘滞邻域极值高保真抽样算法：针对当前分辨率，对可视化图形中任意一个采样点的可分辨邻域，粘滞其图形边界极值，从而保持可视化的视觉效果与原始数据一致。

1-3)、可视化渲染：对1-1)、1-2)的抽样结果在对应分辨率条件下渲染，渲染效果和原始数据的直接渲染一致，而渲染效率可得到大幅度增强。

如步骤1-1)所使用了保持相对子空间的高保真抽样算法，针对当前分辨率，对可视化图形中任意一个可分辨子空间，保持其相对的数据比例，从而使空间中的数据疏密程度与原始数据一致，具体如下：

2-1)、针对当前分辨率，在数据行方向将原始数据划分为p个可分辨子区间，并对每一个维度的数据对应地进行p组频数分布统计。

2-2)、将原始数据中任意维度中含有极值(极大值或极小值)的数据行加入抽样，从而保持抽样后数据的可视化边界。

2-3)、在原始数据中按照2-1)频数分布所统计的各区间频率来进行抽样。例如：某可分辨子区间[0.1,0.2]中包含了60％的原始数据，则抽样后该可分辨子区间所包含的数据量也占抽样总数据量的60％，从而保持可视化效果在各子空间的数据疏密程度与原始数据一致。

如步骤1-2)中所使用的在维度方向上采用了粘滞邻域极值的高保真抽样算法所述，针对当前分辨率，对可视化图形的任意一个采样点的可分辨邻域，粘滞其图形边界极值可保持可视化的视觉效果一致，具如下：

3-1)、根据目标可视化图形的规则，获得维度方向的现有次序。例如雷达图中按逆时针方向获得对应的数据维度次序。

3-2)、假设原始数据有n₁个维度，针对当前分辨率的可显示维度数为n₂(2≤n₂≤n₁)，则保持可视化效果仅需要对每一个数据行保留n₂个数据值。理论上该分辨率下的每一个需要保留1个采样值的可分辨邻域中存在n₁/n₂个原始数据维度。

3-3)、为了保证高保真可视化在抽样数据上的显示效果和原始数据一致，采样时保留了可分辨邻域中图形边界极值。例如使绘制在最上方的数据极大值和绘制在最下方的数据极小值在抽样图形中保持粘滞，而中间值在可分辨邻域渲染时会被自动插值。

如步骤1-3)所述可视化渲染过程，对1-1)、1-2)的抽样结果在对应分辨率条件下渲染，渲染效果和原始数据的直接渲染一致，而渲染效率可得到大幅度增强，具体如下：

4-1)、对原始数据在数据行方向和维度方向同时采用1-1)、1-2)的抽样算法进行抽样，获得抽样数据。相对于大数据量、高维度的原始数据，抽样数据既大幅压缩了数据维度，又大幅度减少了数据行数，从而使后续的渲染效率大大提升。

4-2)、在1-1)、1-2)预定的分辨率条件下，由前端渲染引擎对抽样数据进行渲染。例如：将数据渲染成雷达图、波形图、折线图等。由于双向抽样算法保持了该分辨率条件下每一个可分辨邻域和可分辨子空间中的图形边界和疏密程度，因此可视化效果实现了高保真。

以下部分就实施过程中以一个m行n列的高维大数据集在以雷达图为显示载体给出一个高保真可视化的具体实例。

一、保持相对子空间的高保真抽样算法

1-1)、前提假设

抽样目标是要使抽样后的数据屏幕显示效果和原始数据在当前分辨率条件下的屏幕直接显示效果一致，因此要遵循这样的抽样原则：

·要保留住存在维度极值的行；

·稠密与稀疏的位置需要和原始数据等比例保持一致；

1-2)、具体步骤如下：

1-2-1)、将原始数据的每个维度归一化，所有结果会集中在[0,1]，将[0,1]平均划分为p组子区间，每行数据的n个数值会分别落在各自维度的某一个分组之中。统计n个维度的p组子区间在全体行数下的频数分布之和，如下表1所示：

表1频数统计表

其中，x₁₁为在原始数据中维度1下所有值属于[0,1/p]区间的的频数之和，x₁₂、x₁₃、x₁₄、...、x_1p、...、x_nn等依此类推。

1-2-2)、记录各个维度极大值、极小值所在的数据行。记录这样的一行数据，它的某一维度的数值是该维度的极大值或是极小值。，设原始数据的行号集合为L，这步所有取得行号集合记为L₁，里面元素个数l₁(l₁≥1),针对当前分辨率的可显示数据行数为l₂(l₂≥1)。

1-2-3)、设抽取1-2-2)中数据行之后的剩余的数据为集合L₂，可得剩余数据行号集合为L₂＝L-L₁。对于L₂中的每一行来说，将每个维度的数值在表1中对应的频数相加，和越大说明该行数据有更高的优先级去取出。找出集合L₂所有数据行中频数之和前(l₂–l₁)大的数据行号，并加入到L₁中，L₁中所有数据行行号就是目标抽样行号。若l₂–l₁≤0，1-2-2)、1-2-3)、1-2-4)可忽略。具体步骤为：

i.选出L₂中频数之和最大的一行，设为a；

ii.将a的行号添加到L₁；

iii.将a从L₂中去除，更新频数统计表；

iv.重复步骤i、ii、iii直至L₁中量达到目标抽样条数l₂。

1-2-4)、L₁集合内的数据行就是所需要抽样的数据行。

二、粘滞邻域极值的高保真抽样算法

2-1)、前提假设

抽样目标同样是要使抽样后的数据屏幕显示效果和原始数据在当前分辨率条件下的屏幕直接显示效果一致，因此要进一步遵循这样的抽样原则：

●需要保留住行中存在极值的维度；

●如果维度上的显示数值具有连续性，则可以舍弃该维度上的部分原始数据而在可视化过程中以插值的形式绘制；

2-2)、具体步骤如下：

2-2-1)、根据目标可视化图形的规则，获得维度方向的现有次序。例如为了使数据在雷达图中更加可观，采用“上大下小”或者“上小下大”的顺序进行排序。

2-2-2)、已知原始数据有n维，针对当前分辨率的可显示维度数为n₁(2≤n₁≤n)，那么抽样比例α:

α＝n₁/n

实际上是在原始数据上每隔(1/α向下取整)维度保留一维度。

2-2-3)、维度抽样可以建立在之前数据条数抽样的基础上，即L₁集合。从L₁中第一行数据开始，设为a(a∈L₁)，具体步骤为：

●从中，先找出中的极大值max1和极小值min1，再找出中极大值max2和极小值min2；

●比较|max1-min2|和|max2-min1|大小，选择差的绝对值较大的那一对，具体为：

■若|max1-min2|>|max2-min1|，那么选择保留max1，而选择保留min2；

■若|max1-min2|<|max2-min1|，那么选择保留min1，而选择保留max2；

■若|max1-min2|＝|max2-min1|，那么选择保留max1，而选择保留min2，或者选择保留min1，而选择保留max2；

●记录下所保留的维度号，可设为d₁、d₂，并加入到集合D₁中，接下来就是重复1、2操作，直到a的所有维度都遍历完，将D₁加入到集合D中，接下是L₁集合的下一行数据，重复a的操作，直至L₁中所有数据行均记录完。

2-2-4)、集合D中每一个元素包含了L₁中每一行需要抽样的维度号，也就是说D就是最终的维度采样结果。

三、可视化渲染

3-1)、可视化平台根据1-2)、2-2)中得到目标抽样数据行行号集合L₁以及目标抽样维度号集合D，对原始数据进行抽样，得到抽样数据集。

3-2)、在1-1)、1-2)预定的分辨率条件下，由前端渲染引擎对抽样数据进行渲染展示，本例中使用了雷达图作为可视化载体。

四、效果展示

4-1)、乳腺癌数据(图4)

4-1-1)、乳腺癌数据集的每一行数据为一个乳腺癌病人的具体案例，由专家提取了其数据特征，包括“平均半径”、“平均纹理”、“平均周长”、“平均面积”等30个维度，并标定了该案例属于良性乳腺癌还是恶性乳腺癌。在人工智能与数据科学理论上，该数据集的数据是可区分的。

4-1-2)、我们按照本发明的方法对乳腺癌数据集的雷达图进行了高保真可视化。雷达图由从中心放射状发出的一系列维度构成，数据中每一个维度被显示在一个固定的放射角度上，且数值越高则离中心点越远。例如：一个同学的高考成绩由6门课(即6个维度)组成，在雷达图中将显示成一个围绕中心点的六边形，每一个顶点代表其中一门课的成绩，成绩越高则该顶点离中心越远。

4-1-3)、用户可以通过本发明的高保真显示有效地观察原始数据的内部规律和数据特征。由图4可以看出，良性乳腺癌的数据从整体上离中心点较为集中，反应其数据指标在统计意义上较小。恶性乳腺癌不仅数据上更为扩散，且在维度分布上具有一定分布规律。

4-2)、随机分类数据(图5)

4-2-1)、图5展示了将一组无标签数据随机分类后的雷达图高保真可视化效果。该组数据被随机分配到分类1和分类2中，理论上属于不可区分数据。

4-2-2)、和乳腺癌数据集的雷达图高保真可视化一样，我们对该随机分类数据集进行了雷达图高保真可视化，效果如图5所示，用户可以通过该可视化观察到这两个分类数据不具备可区分的特征。因此，用户可以由本发明的可视化效果在训练人工智能模型前，预测训练数据的可用性。

Claims

1.一种用于人工智能数据分析的大数据高保真可视化方法，其特征在于针对大数据量、高维度的向量型数据集引入了基于频数分布的双向抽样算法，保证在设定分辨率下的可视化图形与原始数据一致，即原始大数据能获得高保真的展示；所述的双向抽样算法是指，对于数据行方向采用了保持相对子空间的高保真抽样算法，对于维度方向采用了粘滞邻域极值的高保真抽样算法；详细步骤为：

2.根据权利要求1所述的一种用于人工智能数据分析的大数据高保真可视化方法，其特征在于所述的步骤1-1)中数据行方向的保持相对子区间高保真抽样算法，具体为：

3.根据权利要求1所述的一种用于人工智能数据分析的大数据高保真可视化方法，其特征在于所述的步骤1-2)中维度方向的粘滞邻域极值高保真抽样算法，具体为：

4.根据权利要求1所述的一种用于人工智能数据分析的大数据高保真可视化方法，其特征在于所述的按照步骤1-3)对抽样结果进行可视化渲染，具体为：