CN113012775B - 红斑病电子病历病变分类的增量属性约简Spark方法 - Google Patents

红斑病电子病历病变分类的增量属性约简Spark方法 Download PDF

Info

Publication number
CN113012775B
CN113012775B CN202110341510.5A CN202110341510A CN113012775B CN 113012775 B CN113012775 B CN 113012775B CN 202110341510 A CN202110341510 A CN 202110341510A CN 113012775 B CN113012775 B CN 113012775B
Authority
CN
China
Prior art keywords
attribute
medical record
slave
reduction
red spot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110341510.5A
Other languages
English (en)
Other versions
CN113012775A (zh
Inventor
丁卫平
秦廷桢
李铭
孙颖
鞠恒荣
沈鑫杰
潘柏儒
冯志豪
黄嘉爽
程纯
曹金鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nantong University
Original Assignee
Nantong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nantong University filed Critical Nantong University
Priority to CN202110341510.5A priority Critical patent/CN113012775B/zh
Publication of CN113012775A publication Critical patent/CN113012775A/zh
Application granted granted Critical
Publication of CN113012775B publication Critical patent/CN113012775B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H15/00ICT specially adapted for medical reports, e.g. generation or transmission thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明提供了一种红斑病电子病历病变分类的增量属性约简Spark方法,基于知识粒度的动态变化数据集增量约简算法与处理大数据常用的Spark并行框架相结合,在处理复杂,大规模和动态的数据集方面有着良好的效果,有效提高处理速度,能够进一步提高电子病历属性约简的效率和精度。

Description

红斑病电子病历病变分类的增量属性约简Spark方法
技术领域
本发明涉及技术领域,尤其涉及一种红斑病电子病历病变分类的增量属性约简Spark 方法。
背景技术
红斑性皮肤病是指以多形红色斑疹为特点的皮肤病。红斑病指的是临床上常见的原发性皮损,大部分炎症性皮肤病都可出现红斑,根据其不同的临床特征,可分为多种类型。红斑种类繁多,按颜色可以分为淡红色、紫红色、暗红色;按范围可呈局限性、弥漫性;按形态可呈斑状、网状、环状、地图状等。红斑病的鉴别诊断在皮肤病学中是一种常见问题,它们都具有红斑和脱屑的临床特征,差异很小,难以区分和诊断。鉴别诊断的另一个困难是,一种疾病可能在开始阶段就显示出另一种疾病的特征,而在随后的阶段可能具有其他特征。科技的发展使得计算机可以参与实际应用中对红斑病进行协助分类,便于医生对其进行诊断,具有重要的意义与价值。
但是随着医院规模的不断增大,医院新增的患者信息骤然增多,由于患者信息是动态变化的,因此需要重新计算决策系统以获得新的约简,从而消耗大量的计算时间。显然,普通的约简算法在处理动态决策系统时效率很低,而传统的增量属性约简方法在处理大规模数据时又花费时间过长。
发明内容
本发明的目的在于提供一种红斑病电子病历病变分类的增量属性约简Spark方法,该发明将基于知识粒度的动态变化数据集增量约简算法与处理大数据常用的Spark并行框架相结合,在处理复杂,大规模和动态的数据集方面有着良好的效果,有效提高处理速度,能够进一步提高电子病历属性约简的效率和精度。
本发明的思想为:首先在Spark主控节点中读取原红斑病病历数据集和约简集以及新增红斑病数据集,并将其和原约简集分别发送到n个子节点中;其次,各个子节点上分别在新增红斑病病历数据集和总数据集中进行一系列等价类划分;接着,在新增红斑病数据集中计算相关知识粒度,并在子节点上计算剩余候选属性的属性重要度,将重要度最大的属性添加进约简集,直至总红斑病病历数据集中原约简集和条件属性集相对于决策属性的知识粒度相等,然后将约简集中对数据集无影响的属性剔除,发送到Spark主控节点;最后,将各个子节点的红斑病病历约简集进行处理,得到最终红斑病电子病历约简集。
本发明是通过如下措施实现的:红斑病电子病历病变分类的增量属性约简Spark方法,包括以下步骤:
步骤1、在Spark框架下的主控节点master中,通过Hadoop分布式文件系统HDFS读取红斑病电子病历的数据集合S,约简属性集B以及新增红斑病病历数据集S',红斑病病历信息的数据集合S和新增红斑病病历数据集S'定义如下:
S={U,CUD,V,f},其中U={x1,x2,...,xN}表示红斑病病历信息中的患者数据,N表示患者数据的总数量;S'={U',CUD,V,f},其中U'={x1,x2,...,xM}表示新增红斑病病历信息中的患者数据,M表示新增病历中患者数据的总数量;C表示红斑病病历条件属性的非空有限集;D表示红斑病病历信息决策属性的非空有限集,且
Figure BDA0002999748110000021
V=Ua∈CUDVa,Va是红斑病病历信息属性a的可能情况;f:U×(CUD)→V是一个信息函数,它为每个患者赋予一个信息值,即
Figure BDA0002999748110000022
步骤2、根据新增红斑病病历信息决策属性D的不同信息值个数,将新增红斑病病历信息集合S'划分成n个红斑病病历信息子集S'={S'1,S'2,...,S'n},且满足
Figure BDA0002999748110000023
S'i={U'i,CUD,V,f},
Figure BDA0002999748110000024
其中
Figure BDA0002999748110000025
表示子节点i上新增红斑病病历信息中的患者数据,i≠j,i=1,2,...,n,j=1,2,...,n,并将原红斑病病历数据集S和划分的新增病历信息子集S'i发送到相应的从节点slavei上;
步骤3、在从节点slavei中,分别计算原红斑病病历数据集对原约简集的划分
Figure BDA0002999748110000026
原红斑病病历数据集对条件属性集的划分
Figure BDA0002999748110000027
新增红斑病病历数据集对原约简集的划分
Figure BDA0002999748110000028
新增红斑病病历数据集对条件属性集的划分
Figure BDA0002999748110000029
步骤4、在从节点slavei中,分别计算红斑病病历总数据集对原约简集的划分
Figure BDA00029997481100000210
红斑病病历总数据集对条件属性集的划分
Figure BDA00029997481100000211
步骤5、在从节点slavei中,分别计算新增红斑病病历数据集中条件属性集相对于决策属性的知识粒度
Figure BDA0002999748110000031
是否等于原约简属性集相对于决策属性的知识粒度
Figure BDA0002999748110000032
若相等,则原约简集不变,跳转至步骤7,否则,继续步骤6;
步骤6、在从节点slavei中,分别计算总红斑病病历数据集中条件属性集相对于决策属性的知识粒度
Figure BDA0002999748110000033
是否等于原约简属性集相对于决策属性的知识粒度
Figure BDA0002999748110000034
若不等,则从候选属性集I中挑选属性重要度最大的属性amax添加进红斑病病历约简集,其中I=(C-B),即条件属性集去除约简集后所剩集合,不断重复该操作直至相等,接着,对得到的红斑病病历约简集B进行进一步处理,将无关属性剔除,得到从节点slavei中的最终约简集;
步骤7、在从节点slavei中,将红斑病病历约简集发送到Spark主控节点master中,在 Spark主控节点master中,对各从节点slavei发送来的红斑病病历约简集进行交集操作,取得交集属性,即为约简属性集。
作为本发明提供的一种红斑病电子病历病变分类的增量属性约简Spark方法进一步优化方案,所述步骤5的具体步骤如下:
步骤5.1、在从节点slavei中,计算新增红斑病病历数据集中条件属性集相对于决策属性的知识粒度
Figure BDA0002999748110000035
计算公式如下:
Figure BDA0002999748110000036
其中,
Figure BDA0002999748110000037
为新增红斑病病历数据集中条件属性C的知识粒度,其定义如下:
Figure BDA0002999748110000038
Figure BDA0002999748110000039
为新增红斑病病历数据集中全部属性CUD的知识粒度,其定义如下:
Figure BDA00029997481100000310
步骤5.2、在从节点slavei中,计算新增红斑病病历数据集中条件属性集相对于决策属性的知识粒度
Figure BDA00029997481100000311
计算公式如下:
Figure BDA0002999748110000041
步骤5.3、在从节点slavei中,计算二者知识粒度,即
Figure BDA0002999748110000042
Figure BDA0002999748110000043
是否相等。
作为本发明提供的一种红斑病电子病历病变分类的增量属性约简Spark方法进一步优化方案,所述步骤6的具体步骤如下:
步骤6.1、在从节点slavei中,从候选属性集I中逐一挑选某个属性at,并计算其相对于总红斑病病历数据集的外部属性重要度
Figure BDA0002999748110000044
计算公式如下:
Figure BDA0002999748110000045
步骤6.2、在从节点slavei中,挑选出外部属性重要度最大的属性amax加入红斑病病历约简集中;
步骤6.3、在从节点slavei中,继续比较条件属性集相对于决策属性的知识粒度
Figure BDA0002999748110000046
与原约简属性集相对于决策属性的知识粒度
Figure BDA0002999748110000047
是否相等;
步骤6.4、在从节点slavei中,从约简集B中逐一挑选某个属性at,将其从B中剔除后计算约简集相对决策属性的知识粒度
Figure BDA0002999748110000048
步骤6.5、在从节点slavei中,再将其与条件属性集相对于决策属性的知识粒度
Figure BDA0002999748110000049
相比较,如果相同,则将at从红斑病病历约简集B剔除;
步骤6.6、在从节点slavei中,对红斑病病历约简集B进行修改,最终得到的即是从节点slavei的红斑病病历约简集。
与现有技术相比,本发明的有益效果为:本发明在面对新增数据集规模较大,最终类别繁多的实际问题时,能够有效利用上次计算所得结果,将其加入到本次计算中,大幅度节省了红斑病电子病历的数据处理时间,将数据以划分子集的方式分配到各个节点并行处理和计算,也提高了红斑病电子病历属性约简的效率和精度,降低了误诊几率,对于红斑病电子病历的处理及最终诊断提供了便利,在对于红斑病智能辅助分类方面具有较强的应用价值。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
图1为本发明红斑病电子病历病变分类的增量属性约简Spark方法的总体框架图。
图2为本发明红斑病电子病历病变分类的增量属性约简Spark方法的流程图。
图3为本发明红斑病电子病历病变分类的增量属性约简Spark方法的Spark架构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。当然,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
实施例1
参见图1至图3,本发明提供其技术方案为,红斑病电子病历病变分类的增量属性约简 Spark方法,包括以下步骤:
步骤1、在Spark框架下的主控节点master中,通过Hadoop分布式文件系统HDFS读取红斑病电子病历的数据集合S,约简属性集B以及新增红斑病病历数据集S',红斑病病历信息的数据集合S和新增红斑病病历数据集S'定义如下:
S={U,CUD,V,f},其中U={x1,x2,...,xN}表示红斑病病历信息中的患者数据,N表示患者数据的总数量;S'={U',CUD,V,f},其中U'={x1,x2,...,xM}表示新增红斑病病历信息中的患者数据,M表示新增病历中患者数据的总数量;C表示红斑病病历条件属性的非空有限集;D表示红斑病病历信息决策属性的非空有限集,且
Figure BDA0002999748110000051
V=Ua∈CUDVa,Va是红斑病病历信息属性a的可能情况;f:U×(CUD)→V是一个信息函数,它为每个患者赋予一个信息值,即
Figure BDA0002999748110000052
以如下决策表为例,表1为原红斑病数据集决策表S,原约简集B={a2,a5},
通过Hadoop分布式文件系统HDFS读取数据到Spark框架下的主控节点master中。
Figure BDA0002999748110000053
Figure BDA0002999748110000061
表1
步骤2、根据新增红斑病病历信息决策属性D的不同信息值个数,将新增红斑病病历信息集合S'划分成n个红斑病病历信息子集S'={S'1,S'2,...,S'n},且满足
Figure BDA0002999748110000062
S'i={U'i,CUD,V,f},
Figure BDA0002999748110000063
其中
Figure BDA0002999748110000064
表示子节点i上新增红斑病病历信息中的患者数据,i≠j,i=1,2,...,n,j=1,2,...,n,并将原红斑病病历数据集S和划分的新增病历信息子集S'i发送到相应的从节点slavei上;
表2为新增红斑病数据集决策表S'划分后的某子表S'i
U a<sub>1</sub> a<sub>2</sub> a<sub>3</sub> a<sub>4</sub> a<sub>5</sub> d
u<sub>10</sub> 1 0 0 0 1 0
u<sub>11</sub> 0 0 1 0 1 1
u<sub>12</sub> 0 1 1 1 1 1
表2
步骤3、在从节点slavei中,分别计算原红斑病病历数据集对原约简集的划分
Figure BDA0002999748110000065
原红斑病病历数据集对条件属性集的划分
Figure BDA0002999748110000066
新增红斑病病历数据集对原约简集的划分
Figure BDA0002999748110000067
新增红斑病病历数据集对条件属性集的划分
Figure BDA0002999748110000068
计算可得U/B={{u1,u2,u4},{u3,u5},{u6,u7},{u8,u9}}, U/C={{u1},{u2,u4},{u3,u5},{u6,u7},{u8,u9}},U'i/B={{u10,u11},{u12}}, U'i/C={{u10},{u11},{u12}}。
步骤4、在从节点slavei中,分别计算红斑病病历总数据集对原约简集的划分
Figure BDA0002999748110000071
红斑病病历总数据集对条件属性集的划分
Figure BDA0002999748110000072
计算可得(UUU'i)/B={{u1,u2,u4,u10,u11},{u3,u5},{u6,u7},{u8,u9,u12}},
(UUU'i)/C={{u1,u10},{u2,u4,u11}{u3,u5},{u6,u7},{u8,u9},{u12}}。
步骤5、在从节点slavei中,分别计算新增红斑病病历数据集中条件属性集相对于决策属性的知识粒度
Figure BDA0002999748110000073
是否等于原约简属性集相对于决策属性的知识粒度
Figure BDA0002999748110000074
若相等,则原约简集不变,跳转至步骤7,否则,继续步骤6;
步骤6、在从节点slavei中,分别计算总红斑病病历数据集中条件属性集相对于决策属性的知识粒度
Figure BDA0002999748110000075
是否等于原约简属性集相对于决策属性的知识粒度
Figure BDA0002999748110000076
若不等,则从候选属性集I中挑选属性重要度最大的属性amax添加进红斑病病历约简集,其中I=(C-B),即条件属性集去除约简集后所剩集合,不断重复该操作直至相等,接着,对得到的红斑病病历约简集B进行进一步处理,将无关属性剔除,得到从节点slavei中的最终约简集;
步骤7、在从节点slavei中,将红斑病病历约简集发送到Spark主控节点master中,在 Spark主控节点master中,对各从节点slavei发送来的红斑病病历约简集进行交集操作,取得交集属性,即为约简属性集。
优选地,所述步骤5的具体步骤如下:
步骤5.1、在从节点slavei中,计算新增红斑病病历数据集中条件属性集相对于决策属性的知识粒度
Figure BDA0002999748110000077
计算公式如下:
Figure BDA0002999748110000078
其中,
Figure BDA0002999748110000079
为新增红斑病病历数据集中条件属性C的知识粒度,其定义如下:
Figure BDA00029997481100000710
Figure BDA0002999748110000081
为新增红斑病病历数据集中全部属性CUD的知识粒度,其定义如下:
Figure BDA0002999748110000082
计算可得
Figure BDA0002999748110000083
步骤5.2、在从节点slavei中,计算新增红斑病病历数据集中条件属性集相对于决策属性的知识粒度
Figure BDA0002999748110000084
计算公式如下:
Figure BDA0002999748110000085
计算可得
Figure BDA0002999748110000086
步骤5.3、在从节点slavei中,计算二者知识粒度,即
Figure BDA0002999748110000087
Figure BDA0002999748110000088
是否相等。
因为新增红斑病病历数据集中条件属性集相对于决策属性的知识粒度与原约简属性集相对于决策属性的知识粒度不相等,所以原约简集需要修改,进入步骤6。
优选地,所述步骤6的具体步骤如下:
步骤6.1、在从节点slavei中,从候选属性集I中逐一挑选某个属性at,并计算其相对于总红斑病病历数据集的外部属性重要度
Figure BDA0002999748110000089
计算公式如下:
Figure BDA00029997481100000810
第一轮遍历时,计算可得
Figure BDA00029997481100000811
Figure BDA00029997481100000812
Figure BDA00029997481100000813
第二轮遍历时,计算可得
Figure BDA00029997481100000814
Figure BDA00029997481100000815
步骤6.2、在从节点slavei中,挑选出外部属性重要度最大的属性amax加入红斑病病历约简集中;
第一轮遍历,将外部属性重要度最大的属性,即a1加入约简集B中,则B={a1,a2,a5};
第二轮遍历,将外部属性重要度最大的属性,即a4加入约简集B中,则B={a1,a2,a4,a5}。
步骤6.3、在从节点slavei中,继续比较条件属性集相对于决策属性的知识粒度
Figure BDA0002999748110000091
与原约简属性集相对于决策属性的知识粒度
Figure BDA0002999748110000092
是否相等;
第一轮遍历中,计算可得总红斑病病历数据集中条件属性集相对于决策属性的知识粒度
Figure BDA0002999748110000093
而原约简属性集相对于决策属性的知识粒度
Figure BDA0002999748110000094
二者不相等,所以进入第二轮遍历。
第二轮遍历中,计算可得总红斑病病历数据集中条件属性集相对于决策属性的知识粒度
Figure BDA0002999748110000095
而原约简属性集相对于决策属性的知识粒度
Figure BDA0002999748110000096
二者相等,所以跳出循环。
步骤6.4、在从节点slavei中,从约简集B中逐一挑选某个属性at,将其从B中剔除后计算约简集相对决策属性的知识粒度
Figure BDA0002999748110000097
计算可得,
Figure BDA0002999748110000098
步骤6.5、在从节点slavei中,再将其与条件属性集相对于决策属性的知识粒度
Figure BDA0002999748110000099
相比较,如果相同,则将at从红斑病病历约简集B剔除;
计算可得
Figure BDA00029997481100000910
步骤6.6、在从节点slavei中,对红斑病病历约简集B进行修改,最终得到的即是从节点slavei的红斑病病历约简集。
因为约简集中剔除属性后的相对决策属性的知识粒度
Figure BDA00029997481100000911
与条件属性集相对于决策属性的知识粒度
Figure BDA00029997481100000912
相等,所以不需要删除属性。
本发明的工作原理:首先在Spark主控节点中读取原红斑病病历数据集和约简集以及新增红斑病数据集,并将其和原约简集分别发送到n个子节点中;其次,各个子节点上分别在新增红斑病病历数据集和总数据集中进行一系列等价类划分;接着,在新增红斑病数据集中计算相关知识粒度,并在子节点上计算剩余候选属性的属性重要度,将重要度最大的属性添加进约简集,直至总红斑病病历数据集中原约简集和条件属性集相对于决策属性的知识粒度相等,然后将约简集中对数据集无影响的属性剔除,发送到Spark主控节点;最后,将各个子节点的红斑病病历约简集进行处理,得到最终红斑病电子病历约简集。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.红斑病电子病历病变分类的增量属性约简Spark方法,其特征在于,包括以下步骤:
步骤1、在Spark框架下的主控节点master中,通过Hadoop分布式文件系统HDFS读取红斑病电子病历的数据集合S,约简属性集B以及新增红斑病病历数据集S′,红斑病病历信息的数据集合S和新增红斑病病历数据集S′定义如下:
S={U,C∪D,V,f},其中U={x1,x2,...,xN}表示红斑病病历信息中的患者数据,N表示患者数据的总数量;S′={U′,C∪D,V,f},其中U′={x1,x2,...,xM}表示新增红斑病病历信息中的患者数据,M表示新增病历中患者数据的总数量;C表示红斑病病历条件属性的非空有限集;D表示红斑病病历信息决策属性的非空有限集,且
Figure FDA0003239015240000011
V=∪a∈C∪DVa,Va是红斑病病历信息属性a的可能情况;f:U×(C∪D)→V是一个信息函数,它为每个患者赋予一个信息值,即
Figure FDA0003239015240000012
x∈U,f(x,a)∈Va
步骤2、根据新增红斑病病历信息决策属性D的不同信息值个数,将新增红斑病病历信息集合S′划分成n个红斑病病历信息子集S′={S′1,S′2,...,S′n},且满足
Figure FDA0003239015240000013
S′i={U′i,C∪D,V,f},
Figure FDA0003239015240000014
其中
Figure FDA0003239015240000015
表示子节点i上新增红斑病病历信息中的患者数据,i≠j,i=1,2,...,n,j=1,2,...,n,并将原红斑病病历数据集S和划分的新增病历信息子集S′i发送到相应的从节点slavei上;
步骤3、在从节点slavei中,分别计算原红斑病病历数据集对原约简集的划分
Figure FDA0003239015240000016
原红斑病病历数据集对条件属性集的划分
Figure FDA0003239015240000017
新增红斑病病历数据集对原约简集的划分
Figure FDA0003239015240000018
新增红斑病病历数据集对条件属性集的划分
Figure FDA0003239015240000019
步骤4、在从节点slavei中,分别计算红斑病病历总数据集对原约简集的划分
Figure FDA00032390152400000110
红斑病病历总数据集对条件属性集的划分
Figure FDA00032390152400000111
步骤5、在从节点slavei中,分别计算新增红斑病病历数据集中条件属性集相对于决策属性的知识粒度
Figure FDA0003239015240000021
是否等于原约简属性集相对于决策属性的知识粒度
Figure FDA0003239015240000022
若相等,则原约简集不变,跳转至步骤7,否则,继续步骤6;
步骤6、在从节点slavei中,分别计算总红斑病病历数据集中条件属性集相对于决策属性的知识粒度
Figure FDA0003239015240000023
是否等于原约简属性集相对于决策属性的知识粒度
Figure FDA0003239015240000024
若不等,则从候选属性集I中挑选属性重要度最大的属性amax添加进红斑病病历约简集,其中I=(C-B),即条件属性集去除约简集后所剩集合,不断重复该操作直至相等,接着,对得到的红斑病病历约简集B进行进一步处理,将无关属性剔除,得到从节点slavei中的最终约简集;
步骤7、在从节点slavei中,将红斑病病历约简集发送到Spark主控节点master中,在Spark主控节点master中,对各从节点slavei发送来的红斑病病历约简集进行交集操作,取得交集属性,即为约简属性集。
2.根据权利要求1所述的红斑病电子病历病变分类的增量属性约简Spark方法,其特征在于,所述步骤5的具体步骤如下:
步骤5.1、在从节点slavei中,计算新增红斑病病历数据集中条件属性集相对于决策属性的知识粒度
Figure FDA0003239015240000025
计算公式如下:
Figure FDA0003239015240000026
其中,
Figure FDA0003239015240000027
为新增红斑病病历数据集中条件属性C的知识粒度,其定义如下:
Figure FDA0003239015240000028
Figure FDA0003239015240000029
为新增红斑病病历数据集中全部属性C∪D的知识粒度,其定义如下:
Figure FDA00032390152400000210
步骤5.2、在从节点slavei中,计算新增红斑病病历数据集中条件属性集相对于决策属性的知识粒度
Figure FDA00032390152400000211
计算公式如下:
Figure FDA0003239015240000031
步骤5.3、在从节点slavei中,计算二者知识粒度,即
Figure FDA0003239015240000032
Figure FDA0003239015240000033
是否相等。
3.根据权利要求1或2所述的红斑病电子病历病变分类的增量属性约简Spark方法,其特征在于,所述步骤6的具体步骤如下:
步骤6.1、在从节点slavei中,从候选属性集I中逐一挑选某个属性at,并计算其相对于总红斑病病历数据集的外部属性重要度
Figure FDA0003239015240000034
计算公式如下:
Figure FDA0003239015240000035
步骤6.2、在从节点slavei中,挑选出外部属性重要度最大的属性amax加入红斑病病历约简集中;
步骤6.3、在从节点slavei中,继续比较条件属性集相对于决策属性的知识粒度
Figure FDA0003239015240000036
与原约简属性集相对于决策属性的知识粒度
Figure FDA0003239015240000037
是否相等;
步骤6.4、在从节点slavei中,从约简集B中逐一挑选某个属性at,将其从B中剔除后计算约简集相对决策属性的知识粒度
Figure FDA0003239015240000038
步骤6.5、在从节点slavei中,再将其与条件属性集相对于决策属性的知识粒度
Figure FDA0003239015240000039
相比较,如果相同,则将at从红斑病病历约简集B剔除;
步骤6.6、在从节点slavei中,对红斑病病历约简集B进行修改,最终得到的即是从节点slavei的红斑病病历约简集。
CN202110341510.5A 2021-03-30 2021-03-30 红斑病电子病历病变分类的增量属性约简Spark方法 Active CN113012775B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110341510.5A CN113012775B (zh) 2021-03-30 2021-03-30 红斑病电子病历病变分类的增量属性约简Spark方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110341510.5A CN113012775B (zh) 2021-03-30 2021-03-30 红斑病电子病历病变分类的增量属性约简Spark方法

Publications (2)

Publication Number Publication Date
CN113012775A CN113012775A (zh) 2021-06-22
CN113012775B true CN113012775B (zh) 2021-10-08

Family

ID=76409355

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110341510.5A Active CN113012775B (zh) 2021-03-30 2021-03-30 红斑病电子病历病变分类的增量属性约简Spark方法

Country Status (1)

Country Link
CN (1) CN113012775B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102682210A (zh) * 2012-05-08 2012-09-19 南通大学 一种用于电子病历属性约简的自适应蛙群进化树设计方法
CN104462020A (zh) * 2014-10-21 2015-03-25 西南交通大学 一种基于知识粒度的矩阵增量约简方法
CN108986872A (zh) * 2018-06-21 2018-12-11 南通大学 用于大数据电子病历约简的多粒度属性权重Spark方法
CN109062867A (zh) * 2018-07-11 2018-12-21 运城学院 对象和属性同时增加的矩阵动态属性约简方法
CN110867224A (zh) * 2019-10-28 2020-03-06 南通大学 用于大规模脑病历分割的多粒度Spark超信任模糊方法
CN110969253A (zh) * 2018-09-29 2020-04-07 电子科技大学 云环境下基于粒度计算的大数据处理方法
CN111816270A (zh) * 2020-06-18 2020-10-23 南通大学 大规模肝脏电子病历病变分类的属性并行约简Spark方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11222233B2 (en) * 2018-09-26 2022-01-11 Samsung Electronics Co., Ltd. Method and apparatus for multi-category image recognition

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102682210A (zh) * 2012-05-08 2012-09-19 南通大学 一种用于电子病历属性约简的自适应蛙群进化树设计方法
CN104462020A (zh) * 2014-10-21 2015-03-25 西南交通大学 一种基于知识粒度的矩阵增量约简方法
CN108986872A (zh) * 2018-06-21 2018-12-11 南通大学 用于大数据电子病历约简的多粒度属性权重Spark方法
CN109062867A (zh) * 2018-07-11 2018-12-21 运城学院 对象和属性同时增加的矩阵动态属性约简方法
CN110969253A (zh) * 2018-09-29 2020-04-07 电子科技大学 云环境下基于粒度计算的大数据处理方法
CN110867224A (zh) * 2019-10-28 2020-03-06 南通大学 用于大规模脑病历分割的多粒度Spark超信任模糊方法
CN111816270A (zh) * 2020-06-18 2020-10-23 南通大学 大规模肝脏电子病历病变分类的属性并行约简Spark方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Shared Nearest-Neighbor Quantum Game-Based Attribute Reduction With Hierarchical Coevolutionary Spark and Its Application in Consistent Segmentation of Neonatal Cerebral Cortical Surfaces;Weiping Ding;《IEEE Transactions on Neural Networks and Learning Systems》;20190731;第30卷(第7期);第2013-2027页 *
基于云计算的多层量子精英属性协同约简算法;丁卫平等;《四川大学学报(工程科学版)》;20151120;第47卷(第6期);第97-103页 *
基于邻域关系的知识粒度增量式属性约简算法;陈曦,刘晶;《微电子学与计算机》;20201005;第37卷(第10期);第1-6页 *
基于量子云模型反馈的协同精英属性均衡优势集成约简;丁卫平等;《量子电子学报》;20160315;第33卷(第2期);第220-230页 *

Also Published As

Publication number Publication date
CN113012775A (zh) 2021-06-22

Similar Documents

Publication Publication Date Title
Commowick et al. Objective evaluation of multiple sclerosis lesion segmentation using a data management and processing infrastructure
Huang et al. Sample imbalance disease classification model based on association rule feature selection
Alexe et al. Spanned patterns for the logical analysis of data
Rosenberg Multiplicity of selves
Wang et al. Neighborhood size selection in the k-nearest-neighbor rule using statistical confidence
Patel et al. Predict the diagnosis of heart disease patients using classification mining techniques
Barati et al. A survey on utilization of data mining approaches for dermatological (skin) diseases prediction
Gürsel Healthcare, uncertainty, and fuzzy logic
CN112102937A (zh) 一种慢性病辅助决策的患者数据可视化方法及系统
Liu et al. Stability estimation for unsupervised clustering: A review
CN110085323B (zh) 一种基于电子病历的诊疗路径发现方法
CN114864099A (zh) 一种基于因果关系挖掘的临床数据自动化生成方法及系统
Mahesh et al. An efficient ensemble method using K-fold cross validation for the early detection of benign and malignant breast cancer
Singh et al. A comparative study of meta heuristic model to assess the type of breast cancer disease
Cao et al. Fuzzy inference system with interpretable fuzzy rules: Advancing explainable artificial intelligence for disease diagnosis—A comprehensive review
CN113012775B (zh) 红斑病电子病历病变分类的增量属性约简Spark方法
Wagner Convergence of the edited nearest neighbor (Corresp.)
CN116737945A (zh) 一种患者emr知识图谱映射方法
Xue et al. Research and application of data mining in traditional Chinese medical clinic diagnosis
CN115344713A (zh) 基于疾病诊断标准知识图谱的疾病预测方法
Yardimci Applications of soft computing to medical problems
Qian et al. E3WD: A three-way decision model based on ensemble learning
Strobl et al. Mitigating pathogenesis for target discovery and disease subtyping
Jin et al. A temporal multi-scale hybrid attention network for sleep stage classification
Xiang et al. Review of Machine Learning Algorithms for Health-care Management Medical Big Data Systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant