CN113095432A

CN113095432A - 基于可解释性随机森林的可视化系统及方法

Info

Publication number: CN113095432A
Application number: CN202110458122.5A
Authority: CN
Inventors: 蒲剑苏; 张婷婷; 夏瑜潞; 邵慧; 张景文
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-04-27
Filing date: 2021-04-27
Publication date: 2021-07-09

Abstract

本发明公开了基于可解释性随机森林的可视化系统及方法，该系统包括数据模块、可视化模块、渲染模块和交互模块；所述数据模块，用于对训练集数据和模型数据进行存储、提取、统计及分析；所述可视化模块，用于对数据模块中存储的数据信息进行可视化算法映射，并经过编码后生成由空间和时序组成的几何图形结构；所述渲染模块，用于对可视化模块生成的几何图形结构进行输出，并在交互模块中的屏幕以实际的像素点进行显示。本发明能够多维度、多角度地分析和理解对特征样本的预测，并且能对随机森林模型从数据、特征、树和路径结构以及预测结果角度的进行展示分析，从而提高了随机森林模型的可解释性。

Description

基于可解释性随机森林的可视化系统及方法

技术领域

本发明涉及大数据机器学习技术领域，特别是基于可解释性随机森林的可视化系统及方法。

背景技术

机器学习中的随机森林模型是由多棵决策树构成的集成学习器，他采取投票的方式进行决策。树的数量多以及结构的复杂造成了随机森林是十分难以理解的。由于随机森林优异的性能，他在医疗、运营等领域决策事件中可以取得非常好的预测成绩，但是它的结构的可解释性却很糟糕，如何将随机森林模型清晰且易懂地展示给用户成为了迫切的需求。

现有的应用随机森林预测的系统存在不能多维度、多角度地分析和理解对特征样本的预测，并且不能对随机森林模型从数据、特征、树和路径结构以及预测结果角度的展示分析，导致随机森林模型的可解释性效果较差。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于可解释性随机森林的可视化系统及方法，以解决现有随机森林存在不能多维度、多角度地分析和理解对特征样本的预测，并且不能对随机森林模型从数据、特征、树和路径结构以及预测结果角度的展示分析，导致随机森林模型的可解释性效果较差的问题。

本发明的目的是通过以下技术方案来实现的：

基于可解释性随机森林的可视化系统，包括数据模块、可视化模块、渲染模块和交互模块；

所述数据模块，用于对训练集数据和模型数据进行存储、提取、统计及分析；

所述可视化模块，用于对数据模块中存储的数据信息进行可视化算法映射，并经过编码后生成由空间和时序组成的几何图形结构；

所述渲染模块，用于对可视化模块生成的几何图形结构进行输出，并在交互模块中的屏幕以实际的像素点进行显示；

所述交互模块，用于显示渲染模块生成的数据，支持用户触摸点选对数据进行筛选和详情查看；

所述数据模块包括：数据分析模块，用于训练集数据和模型数据的展示，形成数据信息视图；

森林分析模块，用于分析随机森林的结构、树的结构、路径信息和结点并形成森林数据视图；

特征分析模块，用于对特征进行分析并形成特征视图；

个体学习器分析模块，用于对随机森林中的个体进行分析并形成个体信息视图。

所述数据信息视图包括用于显示模型数据预测能力的数据指标的巢状饼图、用于显示训练集数据降维后的降维散点图和用于显示训练集数据的原始数据信息的数据信息表格。

所述森林数据视图为森林旭日图。

所述特征视图包括用于显示特征重要性的特征重要性视图，用于显示特征分割点分布和特征统计信息的特征分析视图。

所述个体信息视图包括用于显示个体性能的个体性能曲线图和用于显示个体预测的个体预测分析热力图。

基于可解释性随机森林的可视化方法，包括以下步骤：

S1.数据清洗以及数据预处理：对原始数据进行清洗和预处理，提取出有用的特征和无用的特征，并对数据中的缺失值进行补缺，将清洗及预处理后的数据在终端中进行持久化存储；

S2.建立预测模型：将预处理后的数据作为输入数据并输入随机森林模型中进行训练，调整训练参数建立完整的预测模型；

S3.获取和存储训练集数据信息以及模型数据信息：获取训练集数据和模型数据，对获取的数据进行存储和管理；

S4.设计可视化分析视图：基于训练集数据和随机森林模型数据的特点通过可视化算法映射，将数据信息映射至视图组件中；

S5.对视图组件进行编码并集中显示：对视图组件进行编码，将多个视图组件编码后集中显示在一个页面中，导入真实数据，实现视图之间的交互操作，并形成可视化系统。

所述步骤S4中的可视化算法包括布局算法、堆叠图算法、空间属性算法和热力图算法，其中经布局算法得到巢状饼图，经空间属性算法得到森林旭日图和降维散点图，经堆叠图算法得到特征重要性视图、特征分析视图和个体性能曲线图，经热力图算法得到个体分析预测热力图。

所述终端为计算机设备。

所述可视化系统的用户端采用WEB界面。

本发明的有益效果是：

基于随机森林模型的特点，结合可视分析技术，基于数据信息设计出相应的可视化视图，视图设计主要包括高维数据到可视图形的编码设计、多维特征数据布局设计、多棵树的可视布局设计以及训练结果的布局设计。森林旭日图总结了森林中多棵树中每棵树的分支情况，展示了路径信息，编码了结点的信息和分支的阈值，该设计还可运用于分析和对比多棵树。提出了对森林中树的预测结果进行可视分析的方法，允许用户多维度、多角度地分析和理解对特征样本的预测。本发明系统通过将多个视图结合以及交互操作对模型进行展示，帮助用户理解随机森林模型和解释预测的结果。

附图说明

图1为本发明可视化系统的系统结构示意图；

图2为本发明中可视化方法的步骤示意图；

图3为本发明的数据模块的结构示意图；

图4为本发明的框架流程图；

图5为本发明的实施例一的可视化系统界面图；

图6为本发明的实施例二的可视化系统界面图。

具体实施方式

下面结合附图进一步详细描述本发明的技术方案，但本发明的保护范围不局限于以下所述。

如图1所示，基于可解释性随机森林的可视化系统，包括：数据模块、可视化模块、渲染模块、交互模块；

数据模块，用于对训练集数据和模型数据进行存储、提取、统计及分析；

可视化模块，用于对数据模块中存储的数据信息进行可视化算法映射，并经过编码后生成由空间和时序组成的几何图形结构；

渲染模块，用于对可视化模块生成的几何图形结构进行输出，并在交互模块中的屏幕以实际的像素点进行显示；

交互模块，用于显示渲染模块生成的数据，支持用户触摸点选对数据进行筛选和详情查看；

特征分析模块，用于对特征进行分析并形成特征视图；

所述数据信息视图包括用于显示模型数据预测能力的数据指标的巢状饼图、用于显示训练集数据降维后的降维散点图和用于显示训练集数据原始数据信息的数据信息表格。

所述森林数据视图为森林旭日图。

如图2所示，基于可解释性随机森林的可视化方法，包括以下步骤：

S1.数据清洗以及数据预处理：对原始数据进行清洗和预处理，提取出有用的特征和无用的特征，并对数据中的缺失值进行补缺，将清洗机预处理后的数据在终端中进行持久化存储；

所述终端为计算机设备。

所述可视化系统的用户端采用WEB界面。

本发明的系统结构由数据模块、可视化模块、渲染模块以及交互模块构成。

数据模块，在计算机设备中采取存储文件的形式对数据进行存储，数据处理的部分采用的是Python和R语言对数据统计以及提取数据特征。在实验过程中，对训练集数据进行统计和分类的初步探索分析，然后比较不同的分析方法的效果。此外，对初步处理好的数据进行二次处理，包括对模型的信息进行提取，对抽象数据中的信息进行提取，提取特征和树结构的信息，采集个体学习器的数据信息，并在计算机设备文件系统中存储模型中的数据信息。

可视化模块，主要工作是利用可视化算法映射数据信息，并编码可视化视图和布局。计算机设备文件系统中的数据经过预处理和特征抽象，然后以完整且合理的数据格式进行信息传输和可视化展示。在经过数据可视化算法和可视化编码之后，生成了由空间和时序组成的几何图形结构，其中可视化视图包含有森林旭日图、个体预测热力图、个体性能曲线图、特征重要性视图、特征分析视图、巢状饼图和降维散点图。

渲染模块，渲染模块是将由可视化模块生成的可视化几何图形信息转换成为屏幕上实际的像素点，将其绘制在屏幕上，使该图形成为用户可以观察到的图形元素，则用户能够在计算机的界面上获取图形信息。

数据模块主要包括数据分析模块、森林分析模块、特征分析模块和个体学习器分析模块。

数据分析模块，主要用于训练集数据以及与模型有关的数据信息的展示，其具体又分为三个视图：巢状饼图、数据降维后的散点图和数据信息表格。巢状饼图展示的是关于评估模的预测能力的几个重要数据指标,数据降维后的散点图展示的是将训练数据集降维的处理结果，数据信息表格提供的是原始的数据信息，便于用户查看对照。

森林分析模块支持将随机森林模型的复杂结构展示在一个视图中，用户可以通过视图查看森林的结构、树的结构、路径信息以及结点的重要信息。

特征分析模块，主要针对于特征的展示分析，其主要分为两个子视图：特征重要性视图和特征分析视图。通过两个视图分析，用户可以对特征的重要性、特征的分割点分布、特征的统计信息等数据分析。

个体学习器分析模块，对随机森林模型中的每个个体学习器进行研究分析，单个的学习器的表现有关于整体的性能。该模块具体分为两个视图：个体性能曲线视图，个体预测分析热力图。通过该模块，用户可以了解个体特征的信息。

实施例一：

如图5所示，是基于泰坦尼克号人员存活信息数据的系统界面，图5中的个体学习器的个体分析预测热力图中发现了几个原本是存活，但是被误分类为死亡的乘客样本，其中显示某一个乘客的数据分析结果，这位乘客在每个个体学习器中的预测结果都是红颜色的，代表着他在每个学习器中的结果都是死亡，所以他最后的预测结果也是死亡。但是，他真实的情况确是幸存。接着，我们查看该样本在散点图的分布。

被误分类的样本分布在图5的降维散点图中，该范围内的大多数样本都是为红色，即死亡，只有个别样本是蓝色，即存活。降维散点图中样本相近表示他们相似，图中点的颜色代表着样本真实的分类情况。这表明，圈中的点距离很近，则他们具有一定的相似性，但是他们个别样本的预测结果却不同。红色样本全部都被正确预测，蓝色样本是被误分类的样本。接着，我们可以在数据信息表格中仔细研究一下部分样本的数据信息。

列表中可以看出数据被预测错误的蓝色样本的详细信息，我们发现这5个样本信息十分类似，这五位乘客年龄相仿，都是男性，只有船票金额不同，其中一人登船口和其余人不一样。他们很巧的在这次事故中都存活了下来，但是模型预测的结果却都是死亡。

我们能通过视图能够看到和误分类样本在降维散点图中距离相近但死亡了的乘客信息，数据信息表格中显示被预测准确的图中红色样本的详细信息。这些乘客都在事故中死亡了，但是我们发现这五位乘客的信息与上面的列表中的人员信息惊人的相似，这验证了我们的散点图中的样本相似性转换的准确性与可靠性。但在众多相似的样本中，为什么这些个例就能这么幸运地逃脱了这一劫。

对于我们的模型来说，FN样本占据了一定的比例，如图上所示的巢饼状图，其中TP表示正样本值，TN表示负样本值，FP表示被误认为正样本的负样本，FN表示被误认为负样本的正样本，误分类样本的存在会使整体模型的预测能力无法得到提升。这些误分类个例可以当作噪音和异常值进行处理，通过本发明设计的可视化系统能够提高误分类样本的学习能力。

实施例二：

如图6所示，是基于乳腺癌数数据的系统界面，利用它对本发明做进一步的详细描述。

该用例使用的数据集是W.H.Wolberg博士统计得到的乳腺癌数据，他统计数据是想研究分析一个病人的乳腺肿块在什么情况下是良性的。当前有很多机器学习方法能帮助分析和学习该数据集，并且能获得很高的预测准确性，随机森林就是其中之一。用随机森林模型学习这个数据集，能获得非常好的性能。但是，模型的决策工作流程对我们是不可而知的。不可知的东西对于医疗领域来说，这意味着很多风险，即使模型的准确性很高，他们也不会冒风险使用这个预测结果的。所以，模型的可解释性很重要。接下来，我们基于乳腺癌数据分析可解释性的随机森林模型，一方面探索什么样的情况下是良性，什么情况下是恶性。另一方面，知道模型是怎么运行得到预测结果的，了解它的结构为何种构成。

如图6所示，其中散点图中可以清楚地看到在多个蓝色的良性样本之间出现了一个恶性的红色样本，这个样本本身是恶性乳腺癌的患者，但是这位患者最后的预测结果是良性的，则他是FP类中的一个样本，在他周围就只有它被分类错误了，接下来查看一下该样本的真实数据信息。

从这个样本的信息和特征视图中可以看到样本被误分类可能是由于该样本的多数特征值为1，9个特征中有5个特征值都是1。在我们对特征分析时候，大多特征值为1的时候样本为良性的概率比较大，值越大样本为恶性的可能性就越大。这个样本多数特征值为1，其余特征值最大也就是5。他是一个非常特殊的样本，其真实情况是肿块是恶性的，却被预测为良性的。并且，在该样本点周围有许多与其相似的样本，但是只有他是恶性的。医生可以通过利用本发明中的可视化系统发现特殊样本，然后对特殊样本进行单独分析和临床研究，找到特殊情况中的规律性，从而对乳腺肿块有更深入的了解。

我们观察到在图6中最左侧有一个蓝色的样本点，它被红色样本包围着，而且它和其他的蓝色样本的距离非常的远。接下来，我们对这个样本进行分析。

样本的原始数据详细信息所示，这个样本真实的分类是良性的，但是他被误分类到了恶性这个类，他就是FN类中的一个样本，并且他的位置在图中最左侧，与图中所有的点距离最远。观察他的详细信息时，我们发现他很多特征值都大于了3。按照我们之前的特征分析可以推断得出这个样本和前一个被误认为良性的样本相比较，应该会具有更大的概率形成恶性的乳腺癌。但是，真实的情况确实这个样本是一个良性的样本。医生可以利用可视系统很快地发现这个相当特殊的样本，并且对该样本进行单独地分析和专门地研究，然后结合临床研究找出大多数样本的特征值都偏高但却为良性的原因。上述两个样本被误判的情况与推测的结果正好相反。对于误分类来说，优先解决FP样本还是FN样本取决于样本的风险值，基于医疗的模型预测来说，FP样本比起FN样本更有风险，可能会存在误判的情况，尽量全地预测出为恶性的病人，极大限度地追求恶性查全率的最大化。

本发明针对难以理解的随机森林模型进行模型的可解释性研究，主要利用实施例一和实施例二中泰坦尼克号的人员存亡信息和乳腺癌预测，对随机森林模型的可解释性展开研究，收集了训练样本的信息和建立成功的随机森林模型的信息，结合数据模块和可视化模块，实现了一个可交互的可视化分析系统。该系统帮助用户从多个角度对随机森林模型进行理解，揭示了数据、输入特征和最终的预测结果的关系，并且用户还可以通过系统获取随机森林中树的结果和路径信息。因此，用户能够灵活地调整特征值再利用系统观察预测结果的变化，预测结果的对比也能对模型有进一步的理解。并且，系统还可以帮助用户分析模型中的决策过程，从而能够探索随机森林模型中潜在的工作机制。通过两个实施例分析表明，本发明的可视化系统可以有效地帮助用户理解数据集信息、随机森林模型及其预测结果。其一，泰坦尼克号中的人员存亡数据集作为核心例子被分析讨论，该数据集基于随机森林模型的数据分析、特征分析、森林结构分析以及预测结果分析板块，还多视图联动分析整个模型的流程。乳腺癌数据集作为辅助例子证明了系统具有一定的可用性和通用性，从模型的数据分析、特征分析、森林结构分析、预测结果分析以及多视图联动分析等板块对基于乳腺癌数据集的随机森林模型进行解释。系统可以被利用来分析和解释许多由随机森林训练生成的模型以及不同的数据集合，而不是只适用于单一的数据集。

Claims

1.基于可解释性随机森林的可视化系统，其特征在于：包括数据模块、可视化模块、渲染模块和交互模块；

所述数据模块包括:数据分析模块，用于训练集数据和模型数据的展示，形成数据信息视图；

特征分析模块，用于对特征进行分析并形成特征视图；

2.根据权利要求1所述的基于可解释性随机森林的可视化系统，其特征在于：所述数据信息视图包括用于显示模型数据预测能力数据指标的巢状饼图、用于显示训练集数据降维后的降维散点图和用于显示训练集数据原始数据信息的数据信息表格。

3.根据权利要求1所述的基于可解释性随机森林的可视化系统，其特征在于：所述森林数据视图为森林旭日图。

4.根据权利要求1所述的基于可解释性随机森林的可视化系统，其特征在于：所述特征视图包括用于显示特征重要性的特征重要性视图，用于显示特征分割点分布和特征统计信息的特征分析视图。

5.根据权利要求1所述的基于可解释性随机森林的可视化系统，其特征在于：所述个体信息视图包括用于显示个体性能的个体性能曲线图和用于显示个体预测的个体预测分析热力图。

6.根据权利要求1-5所述的基于可解释性随机森林的可视化方法，其特征在于，包括以下步骤：

7.根据权利要求6所述的基于可解释性随机森林的可视化方法，其特征在于：所述步骤S4中的可视化算法包括布局算法、堆叠图算法、空间属性算法和热力图算法，其中经布局算法得到巢状饼图，经空间属性算法得到森林旭日图和降维散点图，经堆叠图算法得到特征重要性视图、特征分析视图和个体性能曲线图，经热力图算法得到个体分析预测热力图。

8.根据权利要求6所述的基于可解释性随机森林的可视化方法，其特征在于：所述终端为计算机设备。

9.根据权利要求6所述的基于可解释性随机森林的可视化方法，其特征在于：所述可视化系统的用户端采用WEB界面。