CN114675818A

CN114675818A - 一种基于粗糙集理论的度量可视化工具的实现方法

Info

Publication number: CN114675818A
Application number: CN202210318526.9A
Authority: CN
Inventors: 汪锦; 窦慧莉; 束鑫; 杨习贝
Original assignee: Jiangsu University of Science and Technology
Current assignee: Jiangsu University of Science and Technology
Priority date: 2022-03-29
Filing date: 2022-03-29
Publication date: 2022-06-28
Anticipated expiration: 2042-03-29
Also published as: CN114675818B

Abstract

本发明公开了一种基于粗糙集理论的度量可视化工具的实现方法，其特征在于，所述度量可视化工具将用于属性评价的度量以可视化展示，其以粗糙集模型和邻域分类器为基础，关联四种常用度量：近似质量、条件熵、邻域鉴别指数、邻域决策错误率；步骤如下：(1)解析csv格式文件,结合邻域粗糙集理论求解邻域关系和决策信息；(2)进行近似质量、条件熵、邻域鉴别指数、邻域决策错误率的可视化过程；(3)进行数据分布散点图显示；(4)进行数据集表格化展示。本发明使得度量可视化方便快捷，提高人机交互效率。

Description

一种基于粗糙集理论的度量可视化工具的实现方法

技术领域

本发明属于数据处理领域，具体涉及一种基于粗糙集理论的度量可视化工具的实现方法。

背景技术

随着大数据技术的不断发展，数据的高维特性对数据分析产生负面影响。为了实现对数据更高效准确的分析与挖掘，属性约简是解决此问题的一个非常重要且有效的方法。该技术在不损失数据价值的前提下，对重复或过剩的数据维度进行冗余缩减，约简求得最优属性子空间进而达到降低计算开销和提高分类性能的效果。

粗糙集模型是一种主流的用于属性约简的粒计算模型，其通过信息粒化的方法来分析复杂问题。在属性约简过程中，通常采用某种属性的度量来评估所选属性子集的好坏。在数据分析领域进行属性约简时常用的度量有近似质量、条件熵、邻域鉴别指数、邻域决策错误率等。

现有模式下，这些用于属性评价的度量经计算只能得到枯燥的数值，无论是使用数据的用户还是研究数据的技术人员都不能直观的通过这些数值感受到数据集中各个属性的重要度。相对而言图形图表能蕴含大量的数据信息并以生动的形式展现给用户，有着更好的交互性和观赏性。因此，针对现有状况，需要开发一种简单易用且轻量型的度量可视化工具，该工具基于浏览器这一人机交互窗口，围绕几个常用于属性约简的度量进行全面分析，结合粗糙集模型和邻域分类器理论知识，应用主流热门的前端可视化图库技术实现以多图联动的方式展示上述常用度量。

现有度量可视化的实现很大程度上依赖于专业技术者在掌握基础的理论知识后，再以编程的形式计算出各类度量数值，最后经过特定的开发工具将数值形成图像。然而对于没有学习过相关理论和编程知识的人想要进一步了解数据，就需要花费较大的代价。同时，即使是掌握了上述技能后，度量可视化还受操作系统、集成开发环境、数据文件格式等的影响，以至于出现重复编程、重复配置开发环境等问题，这都对度量可视化造成不便。

发明内容

发明目的：本发明的目的在于提供一种基于粗糙集理论的度量可视化工具的实现方法，使得度量可视化方便快捷，提高人机交互效率。

技术方案：一种基于粗糙集理论的度量可视化工具的实现方法，

所述度量可视化工具采用JavaScript语言开发，JavaScript是一种运行在浏览器上的脚本语言，广泛用于Web应用开发，常被用来为网页添加各式各样的动态功能，可为用户提供更流畅美观的浏览效果。所述可视化工具实现依赖于一个纯JavaScript图表库：ECharts，ECharts是一款生动可交互的数据可视化图库，兼容绝大部分浏览器，支持高度个性化的定制图表开发。该图库集成了多款可用于数据分析渲染的图表。所述度量可视化工具中的图形展示采用了ECharts图库里的柱状图、折线图、漏斗图、单轴散点图和联动时间轴组件。

所述度量可视化工具以粗糙集模型和邻域分类器相关知识为理论基础，使用ECharts图表展示了四种常用度量：近似质量、条件熵、邻域鉴别指数、邻域决策错误率；其中近似质量、条件熵还包括其局部值的展示。此外，为了增加该可视化工具的动态效果，运用ECharts图库中的时间轴组件控制页面中的其他图表，以实现页面多图表联动效果。

一种基于粗糙集理论的度量可视化工具的实现方法步骤如下：

(1)解析csv格式文件,结合邻域粗糙集理论求解邻域关系和决策信息：

步骤001，用户通过文件上传组件提交需要解析的csv格式文件，所述度量可视化工具解析文件，获取文件中数据的属性名、条件属性、决策属性等信息；

步骤002，由步骤001解析出的数据信息，结合拓扑空间中的球形邻域概念，对于包含所有样本的目标数据集合U，用A表示U中条件属性集合，D表示U中决策属性集合，其条件属性子集B上的邻域关系可表示为：

上式δ为邻域半径，所述度量可视化工具中，选定0.02至0.2之间，步长为0.02的10个数值作为邻域半径构建目标数据集的10个邻域关系，此外，上式中的x,y分别表示U中任意两点，Δ_B(x,y)则表示U中任意两点的欧几里得距离；

步骤003，由步骤002的邻域关系，条件属性子集B中的邻域信息粒可表示为：

所述度量可视化工具中构建了10个邻域关系也就有10个邻域信息粒；

步骤004，依据邻域粗糙集模型理论，给定一个决策系统，由条件属性子集

所提供的对样本的描述信息，其不可分辨关系IND_B的计算公式为：

上式中a∈B,a(x)表示样本x在条件属性B上的取值；

步骤005，利用步骤004获得的不可分辨关系得到样本集合上的一组类别划分，将同类样本集合用下述公式表示：

[x]_d＝{y∈U:d(x)＝d(y)}

式中d(x)表示样本x的决策属性值；类似地，将异类样本集合用下述公式表示：

[x]_～d＝{y∈U:d(x)≠d(y)}

步骤006，使用JavaScript语言实现上述步骤002至步骤005，求解公式中的各参数值；

(2)进行近似质量、条件熵、邻域鉴别指数、邻域决策错误率的可视化过程；

(3)进行数据分布散点图显示；

(4)进行数据集表格化展示。

所述步骤(2)中近似质量度量可用来反映由属性集合所提取出的信息粒对于决策属性的逼近能力，其可视化过程具体包括以下步骤：

步骤101，根据步骤006中所求结果，带入近似质量AQ计算公式：

近似质量AQ的取值范围在0到1之间，且近似质量越大，条件属性集合越好；

步骤102，将步骤101中计算所得的各属性近似质量作为参数传入ECharts图库的柱状图、折线图和漏斗图组件中，这些可视化图形组件将其渲染在浏览器页面上，通过柱状图高低、折线图起伏和漏斗图的粗细可以直观的获取某些属性近似质量大小，可认为近似质量取值越大的属性表现越好；

步骤103，在步骤102所画三个图表中添加时间轴关联，以10个不同的邻域半径作为时间轴上的动态数据，开发实现三图联动功能，可通过柱状图、折线图、漏斗图的动态变化分析出在不同邻域半径下各属性近似质量的走向趋势，通过观察趋势掌握表现较好邻域半径的取值；

步骤104，近似质量可视化过程结束。

由于用于分析的数据集合可能存在不平衡特性，不同分类下的数据其近似质量对整体近似质量的贡献差别较大，为了能直观感受到各属性下不同类别样本近似质量数值的差异，所述度量可视化工具在绘制出整体近似质量的同时还实现了局部近似质量的可视化。其具体实现步骤同上述步骤101至步骤109类似。特别地，在计算类别近似质量时，以局部视角考虑当前决策类中的样本，忽略当前决策类外的样本。

所述步骤(2)中条件熵度量用来反映由属性集合所提取出的信息粒对刻画不同决策类的不确定性，其可视化实现具体包括以下步骤：

步骤201，根据步骤006所求结果，带入条件熵CE计算公式：

条件熵CE的取值范围在0到|U|/e之间，且条件熵越小，条件属性集合越好；

步骤202，将步骤201中计算所得的各属性条件熵作为参数传入ECharts图库的柱状图、折线图和漏斗图组件中，这些可视化图形组件将其渲染在浏览器页面上，通过柱状图高低、折线图起伏和漏斗图的粗细可以直观的获取某些属性条件熵大小，条件熵取值越小可认为该属性对刻画不同决策类的不确定性表现越好；

步骤203，在步骤202所画三个图表中添加时间轴关联，以10个不同的邻域半径作为时间轴上的动态数据，实现上述三个图表的联动功能；

步骤204，条件熵可视化过程结束。

和上述局部近似质量类似，所述度量可视化工具中条件熵度量也实现了局部可视。根据不同类别样本集同样给出了局部条件熵的图形展示，其具体实现步骤同上述步骤201至步骤209类似，也是从局部视角考虑只关注当前决策类中的样本从而计算出局部条件熵。

所述步骤(2)中邻域鉴别指数度量用来反映属性集合对于不同决策类的鉴别能力，其可视化实现具体包括以下步骤：

步骤301，根据步骤006所求结果，带入邻域鉴别指数NDI计算公式：

邻域鉴别指数NDI的取值范围在0到log|U|之间，且邻域鉴别指数越小，条件属性集合越好；

步骤302，将步骤301中计算所得的各属性邻域鉴别指数作为参数传入ECharts图库的柱状图、折线图和漏斗图组件中，这些可视化图形组件将其渲染在浏览器页面上，通过页面展示结果可以发现对于邻域鉴别指数小的属性，可认为其对于不同决策类的鉴别能力表现较好；

步骤303，在步骤302所画三个图表中添加时间轴关联，以10个不同的邻域半径作为时间轴上的动态数据，实现上述三个图表的联动功能；

步骤304，邻域鉴别指数可视化过程结束。

所述步骤(2)中领域决策错误率度量用来反映在邻域分类器下属性子集相关的分类表现，其可视化实现具体包括以下步骤：

步骤401，根据步骤006所求结果，带入邻域决策错误率NDER计算公式：

上式中，

表示由邻域分类器所得样本x的预测标签。邻域决策错误率NDER的取值范围在0到1之间，且邻域决策错误率越小，条件属性集合越好；

步骤402，将步骤401中计算所得的各属性邻域决策错误率作为参数传入ECharts图库的柱状图、折线图和漏斗图组件中，这些可视化图形组件将其渲染在浏览器页面上，通过动图可以认为那些邻域决策错误率取值小的属性，它们在邻域分类器下的分类表现较好；

步骤403，在步骤402所画三个图表中添加时间轴关联，以10个不同的邻域半径作为时间轴上的动态数据，实现上述三个图表的联动功能；

步骤404，邻域鉴别指数可视化过程结束。

为了能更清晰的查看数据信息，本发明所述度量可视化工具还实现了数据分布散点图显示。所述步骤(3)中数据分布散点图显示的具体可视化步骤如下：

步骤501，与上述步骤001相同，获取目标数据集的所有信息；

步骤502，将步骤501所得的数据集信息作为参数传入ECharts图库的单轴散点图组件中，可视化图形组件根据数值将其渲染在浏览器页面上，不同类别的数据根据散点的大小区分，不同属性使用不同颜色区分，通过单轴散点图可以直观的发现某一属性上数据点散落的位置，能快速准确的捕获不同类别数据值分布的关键信息；

步骤503，数据分布散点图可视化过程结束。

为方便使用者在线观察数值，所述步骤(4)中数据集表格化展示的具体可视化步骤如下：

步骤601，与上述步骤001相同，获取目标数据集的所有信息；

步骤602，使用基于浏览器DOM对象处理的JQuery插件完成在页面创建表格元素的功能，将步骤601获取的数据信息以往浏览器页面追加DOM元素的方式绘制出数据表格；

步骤603，数据表格可视化过程结束。

有益效果：本发明提供了一种度量可视化工具的实现方法，所述工具除了能以三图联动的方式图形化展示四种度量外还能显示数据散点图和数据表格。本发明可应用于数据分析中属性约简、特征选择可视化等诸多场景。相较于现有技术只能数值化反映属性优劣，图形能帮助用户和技术人员更直观深刻的理解数据信息。且现有的基于粗糙集理论的度量可视化技术无法在浏览器端做到度量的比较分析和动态追踪，相关图形展示还依赖使用者所掌握的专业软件编程知识，无法通过傻瓜式操作达到一步可视的目的。相比而言，本发明工具操作简单，页面简洁，只需上传数据文件就能立即在浏览器窗口获取常用度量的图形化交互界面。此外，本发明工具在不同操作系统下都能简单部署，轻量可移植的特性使其能内嵌、组件化于其他数据分析可视化软件中，用来丰富其他数据分析软件的可视功能，因此具有广泛的应用前景。

附图说明

图1为本发明流程图；

图2为本发明所述的近似质量数值可视化流程示意图；

图3为本发明所述的条件熵数值可视化流程示意图；

图4为本发明所述的邻域鉴别指数数值可视化流程示意图；

图5为本发明所述的邻域决策错误率数值可视化流程示意图；

图6为本发明所述的各属性值分布单轴散点图可视化流程示意图；

图7为本发明所述的数据表格展示图可视化流程示意图；

图8为本发明所述度量可视化工具使用流程示意图；

图9为本发明所述的在不同邻域半径下各属性近似质量数值联动展示图；

图10为本发明所述的在不同邻域半径下各属性条件熵数值联动展示图；

图11为本发明所述的在不同邻域半径下各属性邻域鉴别指数数值联动展示图；

图12为本发明所述的在不同邻域半径下各属性邻域决策错误率数值联动展示图；

图13为本发明所述的各属性值分布单轴散点图；

图14为本发明所述的数据表格展示图。

具体实施方式

下面结合附图对本发明的技术方案作进一步说明。

本发明提供了一种基于粗糙集理论的度量可视化工具的实现方法，在所述工具中，近似质量、条件熵、邻域鉴别指数、邻域决策错误率四个常用的度量均可以通过主流的前端图库实现动态图形化展示。

图1为本发明流程图；

图2为本发明所述的近似质量可视化实现示意图，本发明中的近似质量可视化包括了其整体和局部值的展示；

图3为本发明所述的条件熵可视化实现示意图，与近似质量类似，本发明中的条件熵可视化也包括了其整体和局部值的展示；

图4为本发明所述的邻域鉴别指数可视化实现示意图；

图5为本发明所述的邻域决策错误率可视化实现示意图。

各类度量均依据粗糙集理论知识，使用JavaScript脚本语言完成算法编写。最终依据不同属性的度量在前端页面生成不同颜色的柱状条、折线段或漏斗块。图8至图11的4张图就是所述4个度量在本发明中所展示的页面效果图。

图6为本发明所述的数据单轴散点图可视化实现示意图，本发明通过解析上传的数据文件将样本信息传入单轴散点图组件中，达成数据分布图形化显示功能。具体数据分布图在本发明中显现的效果如图12所示。

图7为本发明所述的数据表格可视化实现示意图，本发明通过基础的前端元素生成技术，完成数据表格显示功能。具体数据表格在本发明中显现的效果如图13所示。

图8为本发明所述的度量可视化工具使用流程图。本发明工具可部署在轻量型云服务器上，运用Nginx反向代理技术配置访问链接。使用者可通过访问链接请求度量可视化工具的服务，初始状态下，度量可视化工具显示帮助文档选项卡页面，在此初始页面中也给出了工具使用流程介绍。使用者上传一个待需观察其属性度量的文件后，度量可视化工具会解析数据文件并将多款图形加载在浏览器窗口。例如，本实施例中将文件名为BreastCancer，文件格式为csv的数据作为示范。其4个度量可视图形及数据分布散点图和数据表格产生的流程描述如下：

步骤701，点击文件上传组件中的选择按钮，选择本地的BreastCancer.csv文件；

步骤702，度量可视化工具解析文件成功后渲染前端页面，选项卡从初始状态帮助文档页面跳转到近似质量选项卡页面，可观察近似质量在10个邻域半径下相关信息和趋势。

步骤703，切换选项卡到条件熵，可观察数据各属性的条件熵取值；

步骤704，切换选项卡到邻域鉴别指数，可观察数据各属性的邻域鉴别指数取值；

步骤705，切换选项卡到邻域决策错误率，可观察数据各属性的邻域决策错误率取值；

步骤706，切换选项卡到数据详情表，可以观察到表格形式的数据信息；

步骤707，切换选项卡到数据散点图，可以观察到不同属性下样本点分布情况；

步骤708，可视化过程结束。

图9为本发明所述的在不同邻域半径下各属性近似质量数值联动展示图。

图10为本发明所述的在不同邻域半径下各属性条件熵数值联动展示图。

图11为本发明所述的在不同邻域半径下各属性邻域鉴别指数数值联动展示图。

图12为本发明所述的在不同邻域半径下各属性邻域决策错误率数值联动展示图。

图13为本发明所述的各属性值分布单轴散点图。

图14为本发明所述的数据表格展示图。

综上所述，本发明可以应用于医疗健康、智能制造、数字大屏等诸多数据分析领域。例如，在医疗健康领域，可将需要分析的病人数据传入可视化工具进行分析，各属性度量的大小直观反映病人某些属性的重要度以及表征整体病因的能力，这样研究者不受原本单调静态的数值影响，可以通过浏览器窗口直接捕获重要属性，及时掌握数据重要信息，更快分析出影响病因的重要因素。同时度量可视化工具还具有操作简单、页面内容丰富等特点。而且其轻量便捷的特征还促使本工具有易于请求、易于部署、易于维护的特性，以至于其可内置集成于其他数据分析开发项目中，因此，本技术具有很高的推广价值。

本发明提供了一种度量可视化工具实现方法的思路，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部份均可用现有技术加以实现。