CN113012775B

CN113012775B - 红斑病电子病历病变分类的增量属性约简Spark方法

Info

Publication number: CN113012775B
Application number: CN202110341510.5A
Authority: CN
Inventors: 丁卫平; 秦廷桢; 李铭; 孙颖; 鞠恒荣; 沈鑫杰; 潘柏儒; 冯志豪; 黄嘉爽; 程纯; 曹金鑫
Original assignee: Nantong University
Current assignee: Nantong University
Priority date: 2021-03-30
Filing date: 2021-03-30
Publication date: 2021-10-08
Anticipated expiration: 2041-03-30
Also published as: CN113012775A

Abstract

本发明提供了一种红斑病电子病历病变分类的增量属性约简Spark方法，基于知识粒度的动态变化数据集增量约简算法与处理大数据常用的Spark并行框架相结合，在处理复杂，大规模和动态的数据集方面有着良好的效果，有效提高处理速度，能够进一步提高电子病历属性约简的效率和精度。

Description

红斑病电子病历病变分类的增量属性约简Spark方法

技术领域

本发明涉及技术领域，尤其涉及一种红斑病电子病历病变分类的增量属性约简Spark 方法。

背景技术

红斑性皮肤病是指以多形红色斑疹为特点的皮肤病。红斑病指的是临床上常见的原发性皮损，大部分炎症性皮肤病都可出现红斑，根据其不同的临床特征，可分为多种类型。红斑种类繁多，按颜色可以分为淡红色、紫红色、暗红色；按范围可呈局限性、弥漫性；按形态可呈斑状、网状、环状、地图状等。红斑病的鉴别诊断在皮肤病学中是一种常见问题，它们都具有红斑和脱屑的临床特征，差异很小，难以区分和诊断。鉴别诊断的另一个困难是，一种疾病可能在开始阶段就显示出另一种疾病的特征，而在随后的阶段可能具有其他特征。科技的发展使得计算机可以参与实际应用中对红斑病进行协助分类，便于医生对其进行诊断，具有重要的意义与价值。

但是随着医院规模的不断增大，医院新增的患者信息骤然增多，由于患者信息是动态变化的，因此需要重新计算决策系统以获得新的约简，从而消耗大量的计算时间。显然，普通的约简算法在处理动态决策系统时效率很低，而传统的增量属性约简方法在处理大规模数据时又花费时间过长。

发明内容

本发明的目的在于提供一种红斑病电子病历病变分类的增量属性约简Spark方法，该发明将基于知识粒度的动态变化数据集增量约简算法与处理大数据常用的Spark并行框架相结合，在处理复杂，大规模和动态的数据集方面有着良好的效果，有效提高处理速度，能够进一步提高电子病历属性约简的效率和精度。

本发明的思想为：首先在Spark主控节点中读取原红斑病病历数据集和约简集以及新增红斑病数据集，并将其和原约简集分别发送到n个子节点中；其次，各个子节点上分别在新增红斑病病历数据集和总数据集中进行一系列等价类划分；接着，在新增红斑病数据集中计算相关知识粒度，并在子节点上计算剩余候选属性的属性重要度，将重要度最大的属性添加进约简集，直至总红斑病病历数据集中原约简集和条件属性集相对于决策属性的知识粒度相等，然后将约简集中对数据集无影响的属性剔除，发送到Spark主控节点；最后，将各个子节点的红斑病病历约简集进行处理，得到最终红斑病电子病历约简集。

本发明是通过如下措施实现的：红斑病电子病历病变分类的增量属性约简Spark方法，包括以下步骤：

步骤1、在Spark框架下的主控节点master中，通过Hadoop分布式文件系统HDFS读取红斑病电子病历的数据集合S，约简属性集B以及新增红斑病病历数据集S'，红斑病病历信息的数据集合S和新增红斑病病历数据集S'定义如下：

S＝{U,CUD,V,f}，其中U＝{x₁,x₂,...,x_N}表示红斑病病历信息中的患者数据，N表示患者数据的总数量；S'＝{U',CUD,V,f}，其中U'＝{x₁,x₂,...,x_M}表示新增红斑病病历信息中的患者数据，M表示新增病历中患者数据的总数量；C表示红斑病病历条件属性的非空有限集；D表示红斑病病历信息决策属性的非空有限集，且

V＝U_a∈CUDV_a,V_a是红斑病病历信息属性a的可能情况；f:U×(CUD)→V是一个信息函数，它为每个患者赋予一个信息值，即

步骤2、根据新增红斑病病历信息决策属性D的不同信息值个数，将新增红斑病病历信息集合S'划分成n个红斑病病历信息子集S'＝{S'₁,S'₂,...,S'_n}，且满足

S'_i＝{U'_i,CUD,V,f}，

其中

表示子节点i上新增红斑病病历信息中的患者数据，i≠j,i＝1,2,...,n,j＝1,2,...,n，并将原红斑病病历数据集S和划分的新增病历信息子集S'_i发送到相应的从节点slave_i上；

步骤3、在从节点slave_i中，分别计算原红斑病病历数据集对原约简集的划分

原红斑病病历数据集对条件属性集的划分

新增红斑病病历数据集对原约简集的划分

新增红斑病病历数据集对条件属性集的划分

步骤4、在从节点slave_i中，分别计算红斑病病历总数据集对原约简集的划分

红斑病病历总数据集对条件属性集的划分

步骤5、在从节点slave_i中，分别计算新增红斑病病历数据集中条件属性集相对于决策属性的知识粒度

是否等于原约简属性集相对于决策属性的知识粒度

若相等，则原约简集不变，跳转至步骤7，否则，继续步骤6；

步骤6、在从节点slave_i中，分别计算总红斑病病历数据集中条件属性集相对于决策属性的知识粒度

是否等于原约简属性集相对于决策属性的知识粒度

若不等，则从候选属性集I中挑选属性重要度最大的属性a_max添加进红斑病病历约简集，其中I＝(C-B)，即条件属性集去除约简集后所剩集合，不断重复该操作直至相等，接着，对得到的红斑病病历约简集B进行进一步处理，将无关属性剔除，得到从节点slave_i中的最终约简集；

步骤7、在从节点slave_i中，将红斑病病历约简集发送到Spark主控节点master中，在 Spark主控节点master中，对各从节点slave_i发送来的红斑病病历约简集进行交集操作，取得交集属性，即为约简属性集。

作为本发明提供的一种红斑病电子病历病变分类的增量属性约简Spark方法进一步优化方案，所述步骤5的具体步骤如下：

步骤5.1、在从节点slave_i中，计算新增红斑病病历数据集中条件属性集相对于决策属性的知识粒度

计算公式如下：

其中，

为新增红斑病病历数据集中条件属性C的知识粒度，其定义如下：

为新增红斑病病历数据集中全部属性CUD的知识粒度，其定义如下：

步骤5.2、在从节点slave_i中，计算新增红斑病病历数据集中条件属性集相对于决策属性的知识粒度

计算公式如下：

步骤5.3、在从节点slave_i中，计算二者知识粒度,即

和

是否相等。

作为本发明提供的一种红斑病电子病历病变分类的增量属性约简Spark方法进一步优化方案，所述步骤6的具体步骤如下：

步骤6.1、在从节点slave_i中，从候选属性集I中逐一挑选某个属性a_t，并计算其相对于总红斑病病历数据集的外部属性重要度

计算公式如下：

步骤6.2、在从节点slave_i中，挑选出外部属性重要度最大的属性a_max加入红斑病病历约简集中；

步骤6.3、在从节点slave_i中，继续比较条件属性集相对于决策属性的知识粒度

与原约简属性集相对于决策属性的知识粒度

是否相等；

步骤6.4、在从节点slave_i中，从约简集B中逐一挑选某个属性a_t，将其从B中剔除后计算约简集相对决策属性的知识粒度

步骤6.5、在从节点slave_i中，再将其与条件属性集相对于决策属性的知识粒度

相比较，如果相同，则将a_t从红斑病病历约简集B剔除；

步骤6.6、在从节点slave_i中，对红斑病病历约简集B进行修改，最终得到的即是从节点slave_i的红斑病病历约简集。

与现有技术相比，本发明的有益效果为：本发明在面对新增数据集规模较大，最终类别繁多的实际问题时，能够有效利用上次计算所得结果，将其加入到本次计算中，大幅度节省了红斑病电子病历的数据处理时间，将数据以划分子集的方式分配到各个节点并行处理和计算，也提高了红斑病电子病历属性约简的效率和精度，降低了误诊几率，对于红斑病电子病历的处理及最终诊断提供了便利，在对于红斑病智能辅助分类方面具有较强的应用价值。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

图1为本发明红斑病电子病历病变分类的增量属性约简Spark方法的总体框架图。

图2为本发明红斑病电子病历病变分类的增量属性约简Spark方法的流程图。

图3为本发明红斑病电子病历病变分类的增量属性约简Spark方法的Spark架构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。当然，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

实施例1

参见图1至图3，本发明提供其技术方案为，红斑病电子病历病变分类的增量属性约简 Spark方法，包括以下步骤：

以如下决策表为例，表1为原红斑病数据集决策表S，原约简集B＝{a₂,a₅}，

通过Hadoop分布式文件系统HDFS读取数据到Spark框架下的主控节点master中。

表1

S'_i＝{U'_i,CUD,V,f}，

其中

表2为新增红斑病数据集决策表S'划分后的某子表S'_i。

U	a<sub>1</sub>	a<sub>2</sub>	a<sub>3</sub>	a<sub>4</sub>	a<sub>5</sub>	d
							u<sub>10</sub>	1	0	0	0	1	0
u<sub>11</sub>	0	0	1	0	1	1
							u<sub>12</sub>	0	1	1	1	1	1

表2

原红斑病病历数据集对条件属性集的划分

新增红斑病病历数据集对原约简集的划分

新增红斑病病历数据集对条件属性集的划分

计算可得U/B＝{{u₁,u₂,u₄},{u₃,u₅},{u₆,u₇},{u₈,u₉}}， U/C＝{{u₁},{u₂,u₄},{u₃,u₅},{u₆,u₇},{u₈,u₉}}，U'_i/B＝{{u₁₀,u₁₁},{u₁₂}}， U'_i/C＝{{u₁₀},{u₁₁},{u₁₂}}。

红斑病病历总数据集对条件属性集的划分

计算可得(UUU'_i)/B＝{{u₁,u₂,u₄,u₁₀,u₁₁},{u₃,u₅},{u₆,u₇},{u₈,u₉,u₁₂}}，

(UUU'_i)/C＝{{u₁,u₁₀},{u₂,u₄,u₁₁}{u₃,u₅},{u₆,u₇},{u₈,u₉},{u₁₂}}。

是否等于原约简属性集相对于决策属性的知识粒度

是否等于原约简属性集相对于决策属性的知识粒度

优选地，所述步骤5的具体步骤如下：

计算公式如下：

其中，

计算可得

计算公式如下：

计算可得

步骤5.3、在从节点slave_i中，计算二者知识粒度,即

和

是否相等。

因为新增红斑病病历数据集中条件属性集相对于决策属性的知识粒度与原约简属性集相对于决策属性的知识粒度不相等，所以原约简集需要修改，进入步骤6。

优选地，所述步骤6的具体步骤如下：

计算公式如下：

第一轮遍历时，计算可得

第二轮遍历时，计算可得

第一轮遍历，将外部属性重要度最大的属性，即a₁加入约简集B中，则B＝{a₁，a₂，a₅}；

第二轮遍历，将外部属性重要度最大的属性，即a₄加入约简集B中，则B＝{a₁,a₂,a₄,a₅}。

与原约简属性集相对于决策属性的知识粒度

是否相等；

第一轮遍历中，计算可得总红斑病病历数据集中条件属性集相对于决策属性的知识粒度

而原约简属性集相对于决策属性的知识粒度

二者不相等，所以进入第二轮遍历。

第二轮遍历中，计算可得总红斑病病历数据集中条件属性集相对于决策属性的知识粒度

而原约简属性集相对于决策属性的知识粒度

二者相等，所以跳出循环。

计算可得，

相比较，如果相同，则将a_t从红斑病病历约简集B剔除；

计算可得

因为约简集中剔除属性后的相对决策属性的知识粒度

与条件属性集相对于决策属性的知识粒度

相等，所以不需要删除属性。

本发明的工作原理：首先在Spark主控节点中读取原红斑病病历数据集和约简集以及新增红斑病数据集，并将其和原约简集分别发送到n个子节点中；其次，各个子节点上分别在新增红斑病病历数据集和总数据集中进行一系列等价类划分；接着，在新增红斑病数据集中计算相关知识粒度，并在子节点上计算剩余候选属性的属性重要度，将重要度最大的属性添加进约简集，直至总红斑病病历数据集中原约简集和条件属性集相对于决策属性的知识粒度相等，然后将约简集中对数据集无影响的属性剔除，发送到Spark主控节点；最后，将各个子节点的红斑病病历约简集进行处理，得到最终红斑病电子病历约简集。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.红斑病电子病历病变分类的增量属性约简Spark方法，其特征在于，包括以下步骤：

步骤1、在Spark框架下的主控节点master中，通过Hadoop分布式文件系统HDFS读取红斑病电子病历的数据集合S，约简属性集B以及新增红斑病病历数据集S′，红斑病病历信息的数据集合S和新增红斑病病历数据集S′定义如下：

S＝{U，C∪D，V，f}，其中U＝{x₁，x₂，...，x_N}表示红斑病病历信息中的患者数据，N表示患者数据的总数量；S′＝{U′，C∪D，V，f}，其中U′＝{x₁，x₂，...，x_M}表示新增红斑病病历信息中的患者数据，M表示新增病历中患者数据的总数量；C表示红斑病病历条件属性的非空有限集；D表示红斑病病历信息决策属性的非空有限集，且