CN113095432A - 基于可解释性随机森林的可视化系统及方法 - Google Patents
基于可解释性随机森林的可视化系统及方法 Download PDFInfo
- Publication number
- CN113095432A CN113095432A CN202110458122.5A CN202110458122A CN113095432A CN 113095432 A CN113095432 A CN 113095432A CN 202110458122 A CN202110458122 A CN 202110458122A CN 113095432 A CN113095432 A CN 113095432A
- Authority
- CN
- China
- Prior art keywords
- data
- module
- view
- random forest
- visualization
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007637 random forest analysis Methods 0.000 title claims abstract description 65
- 238000012800 visualization Methods 0.000 title claims abstract description 52
- 238000000034 method Methods 0.000 title claims abstract description 10
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 36
- 238000012549 training Methods 0.000 claims abstract description 35
- 238000009877 rendering Methods 0.000 claims abstract description 13
- 230000003993 interaction Effects 0.000 claims abstract description 12
- 238000013507 mapping Methods 0.000 claims abstract description 8
- 238000004458 analytical method Methods 0.000 claims description 53
- 238000010586 diagram Methods 0.000 claims description 31
- 230000000007 visual effect Effects 0.000 claims description 19
- 230000009467 reduction Effects 0.000 claims description 13
- 238000007405 data analysis Methods 0.000 claims description 11
- 238000004140 cleaning Methods 0.000 claims description 7
- 238000007794 visualization technique Methods 0.000 claims description 7
- 230000002452 interceptive effect Effects 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 4
- 230000001502 supplementing effect Effects 0.000 claims description 3
- 238000013461 design Methods 0.000 description 10
- 230000003211 malignant effect Effects 0.000 description 9
- 206010006187 Breast cancer Diseases 0.000 description 8
- 208000026310 Breast neoplasm Diseases 0.000 description 8
- 230000000694 effects Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000000630 rising effect Effects 0.000 description 3
- 206010006272 Breast mass Diseases 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000004083 survival effect Effects 0.000 description 2
- 206010028980 Neoplasm Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013079 data visualisation Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000036210 malignancy Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0481—Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
- G06F3/0483—Interaction with page-structured environments, e.g. book metaphor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
- G06F3/04842—Selection of displayed objects or displayed text elements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0487—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
- G06F3/0488—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
- G06F3/04883—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures for inputting data by handwriting, e.g. gesture or text
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了基于可解释性随机森林的可视化系统及方法,该系统包括数据模块、可视化模块、渲染模块和交互模块;所述数据模块,用于对训练集数据和模型数据进行存储、提取、统计及分析;所述可视化模块,用于对数据模块中存储的数据信息进行可视化算法映射,并经过编码后生成由空间和时序组成的几何图形结构;所述渲染模块,用于对可视化模块生成的几何图形结构进行输出,并在交互模块中的屏幕以实际的像素点进行显示。本发明能够多维度、多角度地分析和理解对特征样本的预测,并且能对随机森林模型从数据、特征、树和路径结构以及预测结果角度的进行展示分析,从而提高了随机森林模型的可解释性。
Description
技术领域
本发明涉及大数据机器学习技术领域,特别是基于可解释性随机森林的可视化系统及方法。
背景技术
机器学习中的随机森林模型是由多棵决策树构成的集成学习器,他采取投票的方式进行决策。树的数量多以及结构的复杂造成了随机森林是十分难以理解的。由于随机森林优异的性能,他在医疗、运营等领域决策事件中可以取得非常好的预测成绩,但是它的结构的可解释性却很糟糕,如何将随机森林模型清晰且易懂地展示给用户成为了迫切的需求。
现有的应用随机森林预测的系统存在不能多维度、多角度地分析和理解对特征样本的预测,并且不能对随机森林模型从数据、特征、树和路径结构以及预测结果角度的展示分析,导致随机森林模型的可解释性效果较差。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于可解释性随机森林的可视化系统及方法,以解决现有随机森林存在不能多维度、多角度地分析和理解对特征样本的预测,并且不能对随机森林模型从数据、特征、树和路径结构以及预测结果角度的展示分析,导致随机森林模型的可解释性效果较差的问题。
本发明的目的是通过以下技术方案来实现的:
基于可解释性随机森林的可视化系统,包括数据模块、可视化模块、渲染模块和交互模块;
所述数据模块,用于对训练集数据和模型数据进行存储、提取、统计及分析;
所述可视化模块,用于对数据模块中存储的数据信息进行可视化算法映射,并经过编码后生成由空间和时序组成的几何图形结构;
所述渲染模块,用于对可视化模块生成的几何图形结构进行输出,并在交互模块中的屏幕以实际的像素点进行显示;
所述交互模块,用于显示渲染模块生成的数据,支持用户触摸点选对数据进行筛选和详情查看;
所述数据模块包括:数据分析模块,用于训练集数据和模型数据的展示,形成数据信息视图;
森林分析模块,用于分析随机森林的结构、树的结构、路径信息和结点并形成森林数据视图;
特征分析模块,用于对特征进行分析并形成特征视图;
个体学习器分析模块,用于对随机森林中的个体进行分析并形成个体信息视图。
所述数据信息视图包括用于显示模型数据预测能力的数据指标的巢状饼图、用于显示训练集数据降维后的降维散点图和用于显示训练集数据的原始数据信息的数据信息表格。
所述森林数据视图为森林旭日图。
所述特征视图包括用于显示特征重要性的特征重要性视图,用于显示特征分割点分布和特征统计信息的特征分析视图。
所述个体信息视图包括用于显示个体性能的个体性能曲线图和用于显示个体预测的个体预测分析热力图。
基于可解释性随机森林的可视化方法,包括以下步骤:
S1.数据清洗以及数据预处理:对原始数据进行清洗和预处理,提取出有用的特征和无用的特征,并对数据中的缺失值进行补缺,将清洗及预处理后的数据在终端中进行持久化存储;
S2.建立预测模型:将预处理后的数据作为输入数据并输入随机森林模型中进行训练,调整训练参数建立完整的预测模型;
S3.获取和存储训练集数据信息以及模型数据信息:获取训练集数据和模型数据,对获取的数据进行存储和管理;
S4.设计可视化分析视图:基于训练集数据和随机森林模型数据的特点通过可视化算法映射,将数据信息映射至视图组件中;
S5.对视图组件进行编码并集中显示:对视图组件进行编码,将多个视图组件编码后集中显示在一个页面中,导入真实数据,实现视图之间的交互操作,并形成可视化系统。
所述步骤S4中的可视化算法包括布局算法、堆叠图算法、空间属性算法和热力图算法,其中经布局算法得到巢状饼图,经空间属性算法得到森林旭日图和降维散点图,经堆叠图算法得到特征重要性视图、特征分析视图和个体性能曲线图,经热力图算法得到个体分析预测热力图。
所述终端为计算机设备。
所述可视化系统的用户端采用WEB界面。
本发明的有益效果是:
基于随机森林模型的特点,结合可视分析技术,基于数据信息设计出相应的可视化视图,视图设计主要包括高维数据到可视图形的编码设计、多维特征数据布局设计、多棵树的可视布局设计以及训练结果的布局设计。森林旭日图总结了森林中多棵树中每棵树的分支情况,展示了路径信息,编码了结点的信息和分支的阈值,该设计还可运用于分析和对比多棵树。提出了对森林中树的预测结果进行可视分析的方法,允许用户多维度、多角度地分析和理解对特征样本的预测。本发明系统通过将多个视图结合以及交互操作对模型进行展示,帮助用户理解随机森林模型和解释预测的结果。
附图说明
图1为本发明可视化系统的系统结构示意图;
图2为本发明中可视化方法的步骤示意图;
图3为本发明的数据模块的结构示意图;
图4为本发明的框架流程图;
图5为本发明的实施例一的可视化系统界面图;
图6为本发明的实施例二的可视化系统界面图。
具体实施方式
下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。
如图1所示,基于可解释性随机森林的可视化系统,包括:数据模块、可视化模块、渲染模块、交互模块;
数据模块,用于对训练集数据和模型数据进行存储、提取、统计及分析;
可视化模块,用于对数据模块中存储的数据信息进行可视化算法映射,并经过编码后生成由空间和时序组成的几何图形结构;
渲染模块,用于对可视化模块生成的几何图形结构进行输出,并在交互模块中的屏幕以实际的像素点进行显示;
交互模块,用于显示渲染模块生成的数据,支持用户触摸点选对数据进行筛选和详情查看;
所述数据模块包括:数据分析模块,用于训练集数据和模型数据的展示,形成数据信息视图;
森林分析模块,用于分析随机森林的结构、树的结构、路径信息和结点并形成森林数据视图;
特征分析模块,用于对特征进行分析并形成特征视图;
个体学习器分析模块,用于对随机森林中的个体进行分析并形成个体信息视图。
所述数据信息视图包括用于显示模型数据预测能力的数据指标的巢状饼图、用于显示训练集数据降维后的降维散点图和用于显示训练集数据原始数据信息的数据信息表格。
所述森林数据视图为森林旭日图。
所述特征视图包括用于显示特征重要性的特征重要性视图,用于显示特征分割点分布和特征统计信息的特征分析视图。
所述个体信息视图包括用于显示个体性能的个体性能曲线图和用于显示个体预测的个体预测分析热力图。
如图2所示,基于可解释性随机森林的可视化方法,包括以下步骤:
S1.数据清洗以及数据预处理:对原始数据进行清洗和预处理,提取出有用的特征和无用的特征,并对数据中的缺失值进行补缺,将清洗机预处理后的数据在终端中进行持久化存储;
S2.建立预测模型:将预处理后的数据作为输入数据并输入随机森林模型中进行训练,调整训练参数建立完整的预测模型;
S3.获取和存储训练集数据信息以及模型数据信息:获取训练集数据和模型数据,对获取的数据进行存储和管理;
S4.设计可视化分析视图:基于训练集数据和随机森林模型数据的特点通过可视化算法映射,将数据信息映射至视图组件中;
S5.对视图组件进行编码并集中显示:对视图组件进行编码,将多个视图组件编码后集中显示在一个页面中,导入真实数据,实现视图之间的交互操作,并形成可视化系统。
所述步骤S4中的可视化算法包括布局算法、堆叠图算法、空间属性算法和热力图算法,其中经布局算法得到巢状饼图,经空间属性算法得到森林旭日图和降维散点图,经堆叠图算法得到特征重要性视图、特征分析视图和个体性能曲线图,经热力图算法得到个体分析预测热力图。
所述终端为计算机设备。
所述可视化系统的用户端采用WEB界面。
本发明的系统结构由数据模块、可视化模块、渲染模块以及交互模块构成。
数据模块,在计算机设备中采取存储文件的形式对数据进行存储,数据处理的部分采用的是Python和R语言对数据统计以及提取数据特征。在实验过程中,对训练集数据进行统计和分类的初步探索分析,然后比较不同的分析方法的效果。此外,对初步处理好的数据进行二次处理,包括对模型的信息进行提取,对抽象数据中的信息进行提取,提取特征和树结构的信息,采集个体学习器的数据信息,并在计算机设备文件系统中存储模型中的数据信息。
可视化模块,主要工作是利用可视化算法映射数据信息,并编码可视化视图和布局。计算机设备文件系统中的数据经过预处理和特征抽象,然后以完整且合理的数据格式进行信息传输和可视化展示。在经过数据可视化算法和可视化编码之后,生成了由空间和时序组成的几何图形结构,其中可视化视图包含有森林旭日图、个体预测热力图、个体性能曲线图、特征重要性视图、特征分析视图、巢状饼图和降维散点图。
渲染模块,渲染模块是将由可视化模块生成的可视化几何图形信息转换成为屏幕上实际的像素点,将其绘制在屏幕上,使该图形成为用户可以观察到的图形元素,则用户能够在计算机的界面上获取图形信息。
数据模块主要包括数据分析模块、森林分析模块、特征分析模块和个体学习器分析模块。
数据分析模块,主要用于训练集数据以及与模型有关的数据信息的展示,其具体又分为三个视图:巢状饼图、数据降维后的散点图和数据信息表格。巢状饼图展示的是关于评估模的预测能力的几个重要数据指标,数据降维后的散点图展示的是将训练数据集降维的处理结果,数据信息表格提供的是原始的数据信息,便于用户查看对照。
森林分析模块支持将随机森林模型的复杂结构展示在一个视图中,用户可以通过视图查看森林的结构、树的结构、路径信息以及结点的重要信息。
特征分析模块,主要针对于特征的展示分析,其主要分为两个子视图:特征重要性视图和特征分析视图。通过两个视图分析,用户可以对特征的重要性、特征的分割点分布、特征的统计信息等数据分析。
个体学习器分析模块,对随机森林模型中的每个个体学习器进行研究分析,单个的学习器的表现有关于整体的性能。该模块具体分为两个视图:个体性能曲线视图,个体预测分析热力图。通过该模块,用户可以了解个体特征的信息。
实施例一:
如图5所示,是基于泰坦尼克号人员存活信息数据的系统界面,图5中的个体学习器的个体分析预测热力图中发现了几个原本是存活,但是被误分类为死亡的乘客样本,其中显示某一个乘客的数据分析结果,这位乘客在每个个体学习器中的预测结果都是红颜色的,代表着他在每个学习器中的结果都是死亡,所以他最后的预测结果也是死亡。但是,他真实的情况确是幸存。接着,我们查看该样本在散点图的分布。
被误分类的样本分布在图5的降维散点图中,该范围内的大多数样本都是为红色,即死亡,只有个别样本是蓝色,即存活。降维散点图中样本相近表示他们相似,图中点的颜色代表着样本真实的分类情况。这表明,圈中的点距离很近,则他们具有一定的相似性,但是他们个别样本的预测结果却不同。红色样本全部都被正确预测,蓝色样本是被误分类的样本。接着,我们可以在数据信息表格中仔细研究一下部分样本的数据信息。
列表中可以看出数据被预测错误的蓝色样本的详细信息,我们发现这5个样本信息十分类似,这五位乘客年龄相仿,都是男性,只有船票金额不同,其中一人登船口和其余人不一样。他们很巧的在这次事故中都存活了下来,但是模型预测的结果却都是死亡。
我们能通过视图能够看到和误分类样本在降维散点图中距离相近但死亡了的乘客信息,数据信息表格中显示被预测准确的图中红色样本的详细信息。这些乘客都在事故中死亡了,但是我们发现这五位乘客的信息与上面的列表中的人员信息惊人的相似,这验证了我们的散点图中的样本相似性转换的准确性与可靠性。但在众多相似的样本中,为什么这些个例就能这么幸运地逃脱了这一劫。
对于我们的模型来说,FN样本占据了一定的比例,如图上所示的巢饼状图,其中TP表示正样本值,TN表示负样本值,FP表示被误认为正样本的负样本,FN表示被误认为负样本的正样本,误分类样本的存在会使整体模型的预测能力无法得到提升。这些误分类个例可以当作噪音和异常值进行处理,通过本发明设计的可视化系统能够提高误分类样本的学习能力。
实施例二:
如图6所示,是基于乳腺癌数数据的系统界面,利用它对本发明做进一步的详细描述。
该用例使用的数据集是W.H.Wolberg博士统计得到的乳腺癌数据,他统计数据是想研究分析一个病人的乳腺肿块在什么情况下是良性的。当前有很多机器学习方法能帮助分析和学习该数据集,并且能获得很高的预测准确性,随机森林就是其中之一。用随机森林模型学习这个数据集,能获得非常好的性能。但是,模型的决策工作流程对我们是不可而知的。不可知的东西对于医疗领域来说,这意味着很多风险,即使模型的准确性很高,他们也不会冒风险使用这个预测结果的。所以,模型的可解释性很重要。接下来,我们基于乳腺癌数据分析可解释性的随机森林模型,一方面探索什么样的情况下是良性,什么情况下是恶性。另一方面,知道模型是怎么运行得到预测结果的,了解它的结构为何种构成。
如图6所示,其中散点图中可以清楚地看到在多个蓝色的良性样本之间出现了一个恶性的红色样本,这个样本本身是恶性乳腺癌的患者,但是这位患者最后的预测结果是良性的,则他是FP类中的一个样本,在他周围就只有它被分类错误了,接下来查看一下该样本的真实数据信息。
从这个样本的信息和特征视图中可以看到样本被误分类可能是由于该样本的多数特征值为1,9个特征中有5个特征值都是1。在我们对特征分析时候,大多特征值为1的时候样本为良性的概率比较大,值越大样本为恶性的可能性就越大。这个样本多数特征值为1,其余特征值最大也就是5。他是一个非常特殊的样本,其真实情况是肿块是恶性的,却被预测为良性的。并且,在该样本点周围有许多与其相似的样本,但是只有他是恶性的。医生可以通过利用本发明中的可视化系统发现特殊样本,然后对特殊样本进行单独分析和临床研究,找到特殊情况中的规律性,从而对乳腺肿块有更深入的了解。
我们观察到在图6中最左侧有一个蓝色的样本点,它被红色样本包围着,而且它和其他的蓝色样本的距离非常的远。接下来,我们对这个样本进行分析。
样本的原始数据详细信息所示,这个样本真实的分类是良性的,但是他被误分类到了恶性这个类,他就是FN类中的一个样本,并且他的位置在图中最左侧,与图中所有的点距离最远。观察他的详细信息时,我们发现他很多特征值都大于了3。按照我们之前的特征分析可以推断得出这个样本和前一个被误认为良性的样本相比较,应该会具有更大的概率形成恶性的乳腺癌。但是,真实的情况确实这个样本是一个良性的样本。医生可以利用可视系统很快地发现这个相当特殊的样本,并且对该样本进行单独地分析和专门地研究,然后结合临床研究找出大多数样本的特征值都偏高但却为良性的原因。上述两个样本被误判的情况与推测的结果正好相反。对于误分类来说,优先解决FP样本还是FN样本取决于样本的风险值,基于医疗的模型预测来说,FP样本比起FN样本更有风险,可能会存在误判的情况,尽量全地预测出为恶性的病人,极大限度地追求恶性查全率的最大化。
本发明针对难以理解的随机森林模型进行模型的可解释性研究,主要利用实施例一和实施例二中泰坦尼克号的人员存亡信息和乳腺癌预测,对随机森林模型的可解释性展开研究,收集了训练样本的信息和建立成功的随机森林模型的信息,结合数据模块和可视化模块,实现了一个可交互的可视化分析系统。该系统帮助用户从多个角度对随机森林模型进行理解,揭示了数据、输入特征和最终的预测结果的关系,并且用户还可以通过系统获取随机森林中树的结果和路径信息。因此,用户能够灵活地调整特征值再利用系统观察预测结果的变化,预测结果的对比也能对模型有进一步的理解。并且,系统还可以帮助用户分析模型中的决策过程,从而能够探索随机森林模型中潜在的工作机制。通过两个实施例分析表明,本发明的可视化系统可以有效地帮助用户理解数据集信息、随机森林模型及其预测结果。其一,泰坦尼克号中的人员存亡数据集作为核心例子被分析讨论,该数据集基于随机森林模型的数据分析、特征分析、森林结构分析以及预测结果分析板块,还多视图联动分析整个模型的流程。乳腺癌数据集作为辅助例子证明了系统具有一定的可用性和通用性,从模型的数据分析、特征分析、森林结构分析、预测结果分析以及多视图联动分析等板块对基于乳腺癌数据集的随机森林模型进行解释。系统可以被利用来分析和解释许多由随机森林训练生成的模型以及不同的数据集合,而不是只适用于单一的数据集。
基于随机森林模型的特点,结合可视分析技术,基于数据信息设计出相应的可视化视图,视图设计主要包括高维数据到可视图形的编码设计、多维特征数据布局设计、多棵树的可视布局设计以及训练结果的布局设计。森林旭日图总结了森林中多棵树中每棵树的分支情况,展示了路径信息,编码了结点的信息和分支的阈值,该设计还可运用于分析和对比多棵树。提出了对森林中树的预测结果进行可视分析的方法,允许用户多维度、多角度地分析和理解对特征样本的预测。本发明系统通过将多个视图结合以及交互操作对模型进行展示,帮助用户理解随机森林模型和解释预测的结果。
Claims (9)
1.基于可解释性随机森林的可视化系统,其特征在于:包括数据模块、可视化模块、渲染模块和交互模块;
所述数据模块,用于对训练集数据和模型数据进行存储、提取、统计及分析;
所述可视化模块,用于对数据模块中存储的数据信息进行可视化算法映射,并经过编码后生成由空间和时序组成的几何图形结构;
所述渲染模块,用于对可视化模块生成的几何图形结构进行输出,并在交互模块中的屏幕以实际的像素点进行显示;
所述交互模块,用于显示渲染模块生成的数据,支持用户触摸点选对数据进行筛选和详情查看;
所述数据模块包括:数据分析模块,用于训练集数据和模型数据的展示,形成数据信息视图;
森林分析模块,用于分析随机森林的结构、树的结构、路径信息和结点并形成森林数据视图;
特征分析模块,用于对特征进行分析并形成特征视图;
个体学习器分析模块,用于对随机森林中的个体进行分析并形成个体信息视图。
2.根据权利要求1所述的基于可解释性随机森林的可视化系统,其特征在于:所述数据信息视图包括用于显示模型数据预测能力数据指标的巢状饼图、用于显示训练集数据降维后的降维散点图和用于显示训练集数据原始数据信息的数据信息表格。
3.根据权利要求1所述的基于可解释性随机森林的可视化系统,其特征在于:所述森林数据视图为森林旭日图。
4.根据权利要求1所述的基于可解释性随机森林的可视化系统,其特征在于:所述特征视图包括用于显示特征重要性的特征重要性视图,用于显示特征分割点分布和特征统计信息的特征分析视图。
5.根据权利要求1所述的基于可解释性随机森林的可视化系统,其特征在于:所述个体信息视图包括用于显示个体性能的个体性能曲线图和用于显示个体预测的个体预测分析热力图。
6.根据权利要求1-5所述的基于可解释性随机森林的可视化方法,其特征在于,包括以下步骤:
S1.数据清洗以及数据预处理:对原始数据进行清洗和预处理,提取出有用的特征和无用的特征,并对数据中的缺失值进行补缺,将清洗及预处理后的数据在终端中进行持久化存储;
S2.建立预测模型:将预处理后的数据作为输入数据并输入随机森林模型中进行训练,调整训练参数建立完整的预测模型;
S3.获取和存储训练集数据信息以及模型数据信息:获取训练集数据和模型数据,对获取的数据进行存储和管理;
S4.设计可视化分析视图:基于训练集数据和随机森林模型数据的特点通过可视化算法映射,将数据信息映射至视图组件中;
S5.对视图组件进行编码并集中显示:对视图组件进行编码,将多个视图组件编码后集中显示在一个页面中,导入真实数据,实现视图之间的交互操作,并形成可视化系统。
7.根据权利要求6所述的基于可解释性随机森林的可视化方法,其特征在于:所述步骤S4中的可视化算法包括布局算法、堆叠图算法、空间属性算法和热力图算法,其中经布局算法得到巢状饼图,经空间属性算法得到森林旭日图和降维散点图,经堆叠图算法得到特征重要性视图、特征分析视图和个体性能曲线图,经热力图算法得到个体分析预测热力图。
8.根据权利要求6所述的基于可解释性随机森林的可视化方法,其特征在于:所述终端为计算机设备。
9.根据权利要求6所述的基于可解释性随机森林的可视化方法,其特征在于:所述可视化系统的用户端采用WEB界面。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110458122.5A CN113095432A (zh) | 2021-04-27 | 2021-04-27 | 基于可解释性随机森林的可视化系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110458122.5A CN113095432A (zh) | 2021-04-27 | 2021-04-27 | 基于可解释性随机森林的可视化系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113095432A true CN113095432A (zh) | 2021-07-09 |
Family
ID=76680146
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110458122.5A Pending CN113095432A (zh) | 2021-04-27 | 2021-04-27 | 基于可解释性随机森林的可视化系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113095432A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113885980A (zh) * | 2021-09-24 | 2022-01-04 | 北京航天新立科技有限公司 | 基于局域网的桌面共享方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104572786A (zh) * | 2013-10-29 | 2015-04-29 | 华为技术有限公司 | 随机森林分类模型的可视化优化处理方法及装置 |
CN107169575A (zh) * | 2017-06-27 | 2017-09-15 | 北京天机数测数据科技有限公司 | 一种可视化机器学习训练模型的建模系统和方法 |
US20200012895A1 (en) * | 2018-07-03 | 2020-01-09 | General Electric Company | Classification and localization based on annotation information |
US20200134369A1 (en) * | 2018-10-25 | 2020-04-30 | The Boeing Company | Machine learning model development with interactive feature construction and selection |
CN111259988A (zh) * | 2020-02-24 | 2020-06-09 | 深圳前海微众银行股份有限公司 | 交互式随机森林集成方法、设备及可读存储介质 |
CN111783840A (zh) * | 2020-06-09 | 2020-10-16 | 苏宁金融科技(南京)有限公司 | 一种随机森林模型的可视化方法、装置及存储介质 |
US10916333B1 (en) * | 2017-06-26 | 2021-02-09 | Amazon Technologies, Inc. | Artificial intelligence system for enhancing data sets used for training machine learning-based classifiers |
CN112580780A (zh) * | 2020-12-14 | 2021-03-30 | 深圳前海微众银行股份有限公司 | 模型训练的处理方法、装置、设备和存储介质 |
-
2021
- 2021-04-27 CN CN202110458122.5A patent/CN113095432A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104572786A (zh) * | 2013-10-29 | 2015-04-29 | 华为技术有限公司 | 随机森林分类模型的可视化优化处理方法及装置 |
US10916333B1 (en) * | 2017-06-26 | 2021-02-09 | Amazon Technologies, Inc. | Artificial intelligence system for enhancing data sets used for training machine learning-based classifiers |
CN107169575A (zh) * | 2017-06-27 | 2017-09-15 | 北京天机数测数据科技有限公司 | 一种可视化机器学习训练模型的建模系统和方法 |
US20200012895A1 (en) * | 2018-07-03 | 2020-01-09 | General Electric Company | Classification and localization based on annotation information |
US20200134369A1 (en) * | 2018-10-25 | 2020-04-30 | The Boeing Company | Machine learning model development with interactive feature construction and selection |
CN111259988A (zh) * | 2020-02-24 | 2020-06-09 | 深圳前海微众银行股份有限公司 | 交互式随机森林集成方法、设备及可读存储介质 |
CN111783840A (zh) * | 2020-06-09 | 2020-10-16 | 苏宁金融科技(南京)有限公司 | 一种随机森林模型的可视化方法、装置及存储介质 |
CN112580780A (zh) * | 2020-12-14 | 2021-03-30 | 深圳前海微众银行股份有限公司 | 模型训练的处理方法、装置、设备和存储介质 |
Non-Patent Citations (1)
Title |
---|
吕兵 王华珍: "基于随机森林的高位数据可视化", 《计算机应用》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113885980A (zh) * | 2021-09-24 | 2022-01-04 | 北京航天新立科技有限公司 | 基于局域网的桌面共享方法及系统 |
CN113885980B (zh) * | 2021-09-24 | 2023-10-24 | 北京航天新立科技有限公司 | 基于局域网的桌面共享方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhao et al. | iforest: Interpreting random forests via visual analytics | |
US10546245B2 (en) | Methods for mapping data into lower dimensions | |
CN111538776A (zh) | 多层认知约束的高维地理空间数据聚焦可视化方法 | |
CN115050442B (zh) | 基于挖掘聚类算法的病种数据上报方法、装置及存储介质 | |
Vidyarthi et al. | Texture based feature extraction method for classification of brain tumor MRI | |
CN116864121A (zh) | 健康风险筛查系统 | |
CN116189866A (zh) | 一种基于数据分析的远程医用护理分析系统 | |
CN113095432A (zh) | 基于可解释性随机森林的可视化系统及方法 | |
US8918347B2 (en) | Methods and systems for computer-based selection of identifying input for class differentiation | |
Raihan et al. | Malaria cell image classification by explainable artificial intelligence | |
Azam et al. | Using feature maps to unpack the CNN ‘Black box’theory with two medical datasets of different modality | |
CN116485792B (zh) | 组织病理学亚型预测方法及成像方法 | |
Venkatesh et al. | An overview of interpretability techniques for explainable artificial intelligence (xai) in deep learning-based medical image analysis | |
US20240070940A1 (en) | Graph construction and visualization of multiplex immunofluorescence images | |
Anderson et al. | Category systems for real-world scenes | |
CN115700826A (zh) | 单据处理、单据展示方法、装置、计算机设备和存储介质 | |
CN113223725A (zh) | 一种医疗数据应用可视化页面展示系统及方法 | |
Eken | Medical data analysis for different data types | |
Dos Santos | A framework for the visualization of multidimensional and multivariate data | |
CN117116432B (zh) | 一种疾病特征的处理装置和设备 | |
Nabil et al. | Enhancing visualization of multidimensional data by ordering parallel coordinates axes | |
Meenakshisundaram et al. | A Novel and Effective method for Early Identification of Cervical Cancer based on Gradient Boosting Classifier | |
Larburu et al. | Exploring Breast Cancer Patterns for Different Outcomes using Artificial Intelligence | |
Abu-Jamie et al. | Classification of Sign-Language Using Deep Learning-A Comparison between Inception and Xception models | |
CN115841589B (zh) | 一种基于生成式自我注意机制的无监督图像翻译方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210709 |