CN111816270B - 大规模肝脏电子病历病变分类的属性并行约简Spark方法 - Google Patents

大规模肝脏电子病历病变分类的属性并行约简Spark方法 Download PDF

Info

Publication number
CN111816270B
CN111816270B CN202010558462.0A CN202010558462A CN111816270B CN 111816270 B CN111816270 B CN 111816270B CN 202010558462 A CN202010558462 A CN 202010558462A CN 111816270 B CN111816270 B CN 111816270B
Authority
CN
China
Prior art keywords
medical record
liver
attribute
record data
sig
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010558462.0A
Other languages
English (en)
Other versions
CN111816270A (zh
Inventor
丁卫平
李铭
孙颖
冯志豪
鞠恒荣
张毅
丁嘉陆
赵理莉
陈森博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nantong University
Original Assignee
Nantong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nantong University filed Critical Nantong University
Priority to CN202010558462.0A priority Critical patent/CN111816270B/zh
Publication of CN111816270A publication Critical patent/CN111816270A/zh
Application granted granted Critical
Publication of CN111816270B publication Critical patent/CN111816270B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Epidemiology (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明提供了大规模肝脏电子病历病变分类的属性并行约简Spark方法,包括如下步骤:S10读取肝脏电子病历的数据集合并划分成多个肝脏病历数据子集发送到相应从节点上;S20对所述肝脏病历数据子集进行不一致处理,约简肝脏病历数据中不一致的数据,然后计算肝脏病历数据属性的等价类划分值;S30根据肝脏病历数据子集中数据对象计算属性重要度;S40计算出所述从节点中肝脏病历数据子集的属性重要度集合,进行聚合操作,得到肝脏病历数据的属性重要度集合;S50计算肝脏病历数据集的属性约简集合,并判断其是否满足约简要求。本发明的大规模肝脏电子病历病变分类的属性并行约简Spark方法,有效提高大规模肝脏电子病历属性并行约简的效率和精度。

Description

大规模肝脏电子病历病变分类的属性并行约简Spark方法
技术领域
本发明涉及医学图像处理技术领域,具体涉及大规模肝脏电子病历病变分类的属性并行约简Spark方法。
背景技术
肝脏是人体中重要的器官,具有解毒作用,它主要的功能:分泌胆汁,促进脂肪的消化吸收;参与物质代谢,维持血糖浓度恒定;参与促进红细胞生成素合成;参与大部分血浆蛋白和凝血因子合成;参与血液循环;参与激素代谢等。肝脏功能的检查是一系列检查肝脏功能的试验,是最常用的实验室检查项目之一,到目前为止国内外相关学者已提出的肝功能试验高达数百种,灵敏度与特异性各不相同。但是,在大多数情况下每个试验只能反映肝功能一个方面,往往需要多个甚至数十个试验联合起来一起应用。由于试验中肝脏功能属性信息的数据量较大,一般的数据分析与处理方法无法快速和有效地对肝脏属性信息进行处理与分析。肝脏检查项目是医院判断患者肝脏是否发生病变的主要依据,但随着医疗技术的发展和医院规模的日益壮大,医院肝脏患者的信息往往呈指数增加,导致了大规模肝脏电子病历病变分类数据分析的计算时间较长和效率低下。如何有效分析患者的肝脏病变信息和帮助医生有效地分析患者肝脏病变的症状,亟需一种新的方法能有效地减少大规模肝脏电子病历信息中冗余的属性,降低肝脏功能的检测时间和提高检测效率,有效进行大规模肝脏病变分类的筛查和分析。
发明内容
为了解决上述问题,本发明提供大规模肝脏电子病历病变分类的属性并行约简Spark方法,有效提高大规模肝脏电子病历属性并行约简的效率和精度,提高了肝脏电子病历病变计算机智能辅助分类的应用价值。
为了实现以上目的,本发明采取的一种技术方案是:
大规模肝脏电子病历病变分类的属性并行约简Spark方法,包括如下步骤:S10读取肝脏电子病历的数据集合并划分成多个肝脏病历数据子集发送到相应从节点上;S20对所述肝脏病历数据子集进行不一致处理,约简肝脏病历数据中不一致的数据,然后计算所述肝脏病历数据属性的等价类划分值;S30计算所述肝脏病历数据子集关于决策分类的属性正域集合,然后根据肝脏病历数据子集中数据对象计算属性重要度;S40计算出所述从节点中肝脏病历数据子集的属性重要度集合,并对同一肝脏病历数据属性子集的属性重要度集合进行聚合操作,得到肝脏病历数据的属性重要度集合;S50计算肝脏病历数据集的属性约简集合,并判断其是否满足约简要求。
进一步地,所述步骤S10包括如下步骤:S11在Spark框架主控节点master上,通过Hadoop分布式文件系统HDFS读取大规模肝脏电子病历的数据集合及其决策分类;其中肝脏电子病历的数据集合S定义如下:S={U,C∪D,V,f},其中U={x1,x2,…,xN}表示肝脏病历数据中的患者,N表示患者的个数;C表示肝脏病历数据属性的非空有限集;D表示肝脏病历数据决策属性的非空有限集,且
Figure BDA0002545213450000021
V=∪a∈C∪DVa,Va是肝脏病历数据属性a的可能情况;f:U×(C∪D)→V是一个信息函数,它为每个患者赋予一个信息值,即
Figure BDA0002545213450000023
x∈U,f(x,a)∈Va
Figure BDA0002545213450000024
x∈U,f(x,a)∈Va;S12根据所述肝脏病历数据决策属性D的不同信息值个数,将所述肝脏电子病历的数据集合S划分成n个肝脏病历数据子集,且满足
Figure BDA0002545213450000022
其中i≠j,i=1,2,…,n,j=1,2,…,n;S13在Spark框架下,通过Netty通信框架建立所述主控节点master和从节点slavei之间的通信,然后将划分的所述肝脏病历数据子集Si发送到相应的所述从节点slavei上。
进一步地,所述步骤S40包括如下步骤:S21在所述从节点slavei中,对肝脏病历数据子集Si进行一致性处理,从相同的肝脏病历数据子集属性中获取一个决策值最频繁的记录作为代表,约简其余决策值,生成新的肝脏病历数据子集S′i;S22计算肝脏病历数据子集S′i属性的等价类划分EquivalentAttrClassi(C)=U′i/IND(C),其中,U′i是肝脏病历数据子集S′i中的患者对象,等价类关系IND(R)定义如下:
Figure BDA0002545213450000025
Figure BDA0002545213450000026
S23计算肝脏病历数据子集S′i中每个病变属性Ck的等价类划分EquivalentAttrClassi(Ck)=U′i/IND(Ck),其中k=1,2,…,m,m为病变属性个数。
进一步地,所述步骤S30包括如下步骤:S31在所述从节点slavei中,计算肝脏病历数据子集S′i属性的正域集
Figure BDA0002545213450000027
其中正域集POSC(X)定义如下:
Figure BDA0002545213450000031
S32在所述从节点slavei中,将
Figure BDA0002545213450000032
发送到主控节点master中,并对不同肝脏病历数据子集中正域集合
Figure BDA0002545213450000033
进行聚合操作,得到POSClassC(D);S33计算肝脏病历数据子集S′i中每个病变属性Ck的正域集
Figure BDA0002545213450000034
并计算属于正域对象的患者对象个数λi(Ck)。
进一步地,所述步骤S40包括如下步骤:S41在所述从节点slavei中,计算肝脏病历m个病变属性中每个病变属性Ck的属性重要度Sigi(Ck),其中第i个所述从节点slavei中第k个属性的属性重要度Sigi(Ck)定义如下:
Figure BDA0002545213450000035
其中,|·|表示集合的基数,λi(Ck)表示第i个所述从节点slavei中第k个属性属于正域对象的患者对象个数;S42在所述从节点slavei中,将相应的肝脏病历数据子集S′i中属性重要度集合{Sig(C1),Sig(C2),…,Sig(Cm)}通过Spark中的Netty通信框架发送主控节点master中;S43对属性重要度集合{Sigi(C1),Sigi(C2),…,Sigi(Cm)},i=1,2,…,n进行聚合操作,将不同肝脏病历数据子集中相同属性的属性重要度聚合到一个集合中,得到{Sig1(Ck),Sig2(Ck),…,Sign(Ck)},k=1,2,…,m;S44计算聚合后的属性重要度集合中同一属性的属性重要度平均值,其计算公式如下:
Figure BDA0002545213450000036
k=1,2,…,m;S45将S44中肝脏病历数据属性的属性重要度聚合成一个集合{Sig(C1),Sig(C2),…,Sig(Cm)},然后按照从大到小的顺序对其重新排序,得到新的属性重要度集合{Sig′(C1),Sig′(C2),…,Sig′(Cm)}。
进一步地,所述步骤S50包括如下步骤:S51在主控节点master中,按照属性重要度集合构建候选属性集合CandidateAttrClass,并将CandidateAttrClass中肝脏病历数据的属性依次添加到属性约简集合Red中;S52在主控节点master中,计算肝脏病历数据中关于决策分类的属性约简集合的正域集合POSClassRed(D);S53判断POSClassRed(D)是否与POSClassC(D)相等,如相等,则输出肝脏病历数据属性约简集合Red;不相等,则跳转至步骤S51中的操作继续执行直至POSClassRed(D)=POSClassC(D)。
本发明的上述技术方案相比现有技术具有以下优点:
本发明的大规模肝脏电子病历病变分类的属性并行约简Spark方法,可以快速有效的对肝脏功能属性信息进行处理与分析,约简了大规模肝脏电子病历信息中冗余属性,极大的减少了肝脏功能分析时间、提高了检测效率,实现了大规模肝脏病变分类的筛查与分析,有效提高大规模肝脏电子病历属性并行约简的效率和精度,提高了肝脏电子病历病变计算机智能辅助分类的应用价值。
附图说明
下面结合附图,通过对本发明的具体实施方式详细描述,将使本发明的技术方案及其有益效果显而易见。
图1所示为本发明一实施例的大规模肝脏电子病历病变分类的属性并行约简Spark方法的流程图;
图2所示为本发明一实施例的大规模肝脏电子病历病变分类的属性并行约简Spark方法的具体流程图;
图3所示为本发明一实施例的属性并行约简过程中的Spark架构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本实施例提供了大规模肝脏电子病历病变分类的属性并行约简Spark方法,如图1~2所示,包括如下步骤:S10读取肝脏电子病历的数据集合并划分成多个肝脏病历数据子集发送到相应从节点上。S20对所述肝脏病历数据子集进行不一致处理,约简肝脏病历数据中不一致的数据,然后计算所述肝脏病历数据属性的等价类划分值。S30计算所述肝脏病历数据子集关于决策分类的属性正域集合,然后根据肝脏病历数据子集中数据对象计算属性重要度。S40计算出所述从节点中肝脏病历数据子集的属性重要度集合,并对同一肝脏病历数据属性子集的属性重要度集合进行聚合操作,得到肝脏病历数据的属性重要度集合。S50计算肝脏病历数据集的属性约简集合,并判断其是否满足约简要求。
所述步骤S10包括如下步骤:S11在Spark框架主控节点master上,通过Hadoop分布式文件系统HDFS读取大规模肝脏电子病历的数据集合及其决策分类;其中肝脏电子病历的数据集合S定义如下:S={U,C∪D,V,f},其中U={x1,x2,…,xN}表示肝脏病历数据中的患者,N表示患者的个数;C表示肝脏病历数据属性的非空有限集;D表示肝脏病历数据决策属性的非空有限集,且
Figure BDA0002545213450000051
V=∪a∈C∪DVa,Va是肝脏病历数据属性a的可能情况;f:U×(C∪D)→V是一个信息函数,它为每个患者赋予一个信息值,即
Figure BDA0002545213450000053
x∈U,f(x,a)∈Va
Figure BDA0002545213450000052
x∈U,f(x,a)∈Va。S12根据所述肝脏病历数据决策属性D的不同信息值个数,将所述肝脏电子病历的数据集合S划分成n个肝脏病历数据子集,且满足
Figure BDA0002545213450000055
其中i≠j,i=1,2,…,n,j=1,2,…,n。S13在Spark框架下,通过Netty通信框架建立所述主控节点master和从节点slavei之间的通信,然后将划分的所述肝脏病历数据子集Si发送到相应的所述从节点slavei上。
所述步骤S20包括如下步骤:S21在所述从节点slavei中,对肝脏病历数据子集Si进行一致性处理,从相同的肝脏病历数据子集属性中获取一个决策值最频繁的记录作为代表,约简其余决策值,生成新的肝脏病历数据子集S′i。S22计算肝脏病历数据子集S′i属性的等价类划分EquivalentAttrClassi(C)=U′i/IND(C),其中,U′i是肝脏病历数据子集S′i中的患者对象,等价类关系IND(R)定义如下:
Figure BDA0002545213450000054
S23计算肝脏病历数据子集S′i中每个病变属性Ck的等价类划分EquivalentAttrClassi(Ck)=U′i/IND(Ck),其中k=1,2,…,m,m为病变属性个数。
所述步骤S30包括如下步骤:S31在所述从节点slavei中,计算肝脏病历数据子集S′i属性的正域集
Figure BDA0002545213450000061
其中正域集POSC(X)定义如下:
Figure BDA0002545213450000062
S32在所述从节点slavei中,将
Figure BDA0002545213450000063
发送到主控节点master中,并对不同肝脏病历数据子集中正域集合
Figure BDA0002545213450000064
进行聚合操作,得到POSClassC(D)。S33计算肝脏病历数据子集S′i中每个病变属性Ck的正域集
Figure BDA0002545213450000065
并计算属于正域对象的患者对象个数λi(Ck)。
所述步骤S40包括如下步骤:S41在所述从节点slavei中,计算肝脏病历m个病变属性中每个病变属性Ck的属性重要度Sigi(Ck),其中第i个所述从节点slavei中第k个属性的属性重要度Sigi(Ck)定义如下:
Figure BDA0002545213450000066
其中,|·|表示集合的基数,λi(Ck)表示第i个所述从节点slavei中第k个属性属于正域对象的患者对象个数。S42在所述从节点slavei中,将相应的肝脏病历数据子集S′i中属性重要度集合{Sig(C1),Sig(C2),…,Sig(Cm)}通过Spark中的Netty通信框架发送主控节点master中。S43对属性重要度集合{Sigi(C1),Sigi(C2),…,Sigi(Cm)},i=1,2,…,n进行聚合操作,将不同肝脏病历数据子集中相同属性的属性重要度聚合到一个集合中,得到{Sig1(Ck),Sig2(Ck),…,Sign(Ck)},k=1,2,…,m。S44计算聚合后的属性重要度集合中同一属性的属性重要度平均值,其计算公式如下:
Figure BDA0002545213450000067
Figure BDA0002545213450000068
k=1,2,…,m;S45将S44中肝脏病历数据属性的属性重要度聚合成一个集合{Sig(C1),Sig(C2),…,Sig(Cm)},然后按照从大到小的顺序对其重新排序,得到新的属性重要度集合{Sig′(C1),Sig′(C2),…,Sig′(Cm)}。
如图3所示,所述步骤S50包括如下步骤:S51在主控节点master中,按照属性重要度集合构建候选属性集合CandidateAttrClass,并将CandidateAttrClass中肝脏病历数据的属性依次添加到属性约简集合Red中。S52在主控节点master中,计算肝脏病历数据中关于决策分类的属性约简集合的正域集合POSClassRed(D)。S53判断POSClassRed(D)是否与POSClassC(D)相等,如相等,则输出肝脏病历数据属性约简集合Red;不相等,则跳转至步骤S51中的操作继续执行直至POSClassRed(D)=POSClassC(D)。
以上所述仅为本发明的示例性实施例,并非因此限制本发明专利保护范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (1)

1.大规模肝脏电子病历病变分类的属性并行约简Spark方法,其特征在于,包括如下步骤:
S10读取肝脏电子病历的数据集合并划分成多个肝脏病历数据子集发送到相应从节点上;
S20对所述肝脏病历数据子集进行不一致处理,约简肝脏病历数据中不一致的数据,然后计算所述肝脏病历数据属性的等价类划分值;
S30计算所述肝脏病历数据子集关于决策分类的属性正域集合,然后根据肝脏病历数据子集中数据对象计算属性重要度;
S40计算出所述从节点中肝脏病历数据子集的属性重要度集合,并对同一肝脏病历数据属性子集的属性重要度集合进行聚合操作,得到肝脏病历数据的属性重要度集合;以及
S50计算肝脏病历数据集的属性约简集合,并判断其是否满足约简要求;所述步骤S10包括如下步骤:
S11在Spark框架主控节点master上,通过Hadoop分布式文件系统HDFS读取大规模肝脏电子病历的数据集合及其决策分类;其中肝脏电子病历的数据集合S定义如下:
S={U,C∪D,V,f},其中U={x1,x2,…,xN}表示肝脏病历数据中的患者,N表示患者的个数;C表示肝脏病历数据属性的非空有限集;D表示肝脏病历数据决策属性的非空有限集,且
Figure FDA0003899702370000011
V=∪a∈C∪DVa,Va是肝脏病历数据属性a的可能情况;f:U×(C∪D)→V是一个信息函数,它为每个患者赋予一个信息值,即
Figure FDA0003899702370000012
x∈U,f(x,a)∈Va
Figure FDA0003899702370000013
x∈U,f(x,a)∈Va
S12根据所述肝脏病历数据决策属性D的不同信息值个数,将所述肝脏电子病历的数据集合S划分成n个肝脏病历数据子集,且满足
Figure FDA0003899702370000014
其中i≠j,i=1,2,…,n,j=1,2,…,n;
S13在Spark框架下,通过Netty通信框架建立所述主控节点master和从节点slavei之间的通信,然后将划分的所述肝脏病历数据子集Si发送到相应的所述从节点slavei上;
所述步骤S20包括如下步骤:
S21在所述从节点slavei中,对肝脏病历数据子集Si进行一致性处理,从相同的肝脏病历数据子集属性中获取一个决策值最频繁的记录作为代表,约简其余决策值,生成新的肝脏病历数据子集S′i
S22计算肝脏病历数据子集S′i属性的等价类划分EquivalentAttrClassi(C)=U′i/IND(C),
其中,U′i是肝脏病历数据子集S′i中的患者对象,等价类关系IND(R)定义如下:
Figure FDA0003899702370000026
S23计算肝脏病历数据子集S′i中每个病变属性Ck的等价类划分EquivalentAttrClassi(Ck)=U′i/IND(Ck),其中k=1,2,…,m,m为病变属性个数;
所述步骤S30包括如下步骤:
S31在所述从节点slavei中,计算肝脏病历数据子集S′i属性的正域集合
Figure FDA0003899702370000021
其中正域集POSC(X)定义如下:
Figure FDA0003899702370000022
S32在所述从节点slavei中,将
Figure FDA0003899702370000023
发送到主控节点master中,并对不同肝脏病历数据子集中正域集合
Figure FDA0003899702370000024
进行聚合操作,得到POSClassC(D);
S33计算肝脏病历数据子集S′i中每个病变属性Ck的正域集
Figure FDA0003899702370000025
并计算属于正域对象的患者对象个数λi(Ck);
所述步骤S40包括如下步骤:
S41在所述从节点slavei中,计算肝脏病历m个病变属性中每个病变属性Ck的属性重要度Sigi(Ck),其中第i个所述从节点slavei中第k个属性的属性重要度Sigi(Ck)定义如下:
Figure FDA0003899702370000031
其中,|·|表示集合的基数,λi(Ck)表示第i个所述从节点slavei中第k个属性属于正域对象的患者对象个数;
S42在所述从节点slavei中,将相应的肝脏病历数据子集S′i中属性重要度集合{Sig(C1),Sig(C2),…,Sig(Cm)}通过Spark中的Netty通信框架发送主控节点master中;
S43对属性重要度集合{Sigi(C1),Sigi(C2),…,Sigi(Cm)},i=1,2,…,n进行聚合操作,将不同肝脏病历数据子集中相同属性的属性重要度聚合到一个集合中,得到{Sig1(Ck),Sig2(Ck),…,Sign(Ck)},k=1,2,…,m;
S44计算聚合后的属性重要度集合中同一属性的属性重要度平均值,其计算公式如下:
Figure FDA0003899702370000032
S45将S44中肝脏病历数据属性的属性重要度聚合成一个集合{Sig(C1),Sig(C2),…,Sig(Cm)},然后按照从大到小的顺序对其重新排序,得到新的属性重要度集合{Sig′(C1),Sig′(C2),…,Sig′(Cm)};
所述步骤S50包括如下步骤:
S51在主控节点master中,按照属性重要度集合{Sig′(C1),Sig′(C2),…,Sig′(Cm)}构建候选属性集合CandidateAttrClass,并将CandidateAttrClass中肝脏病历数据的属性依次添加到属性约简集合Red中;
S52在主控节点master中,计算肝脏病历数据中关于决策分类的属性约简集合的正域集合POSClassRed(D);
S53判断POSClassRed(D)是否与POSClassC(D)相等,如相等,则输出肝脏病历数据属性约简集合Red;不相等,则跳转至步骤S51中的操作继续执行直至POSClassRed(D)=POSClassC(D)。
CN202010558462.0A 2020-06-18 2020-06-18 大规模肝脏电子病历病变分类的属性并行约简Spark方法 Active CN111816270B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010558462.0A CN111816270B (zh) 2020-06-18 2020-06-18 大规模肝脏电子病历病变分类的属性并行约简Spark方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010558462.0A CN111816270B (zh) 2020-06-18 2020-06-18 大规模肝脏电子病历病变分类的属性并行约简Spark方法

Publications (2)

Publication Number Publication Date
CN111816270A CN111816270A (zh) 2020-10-23
CN111816270B true CN111816270B (zh) 2022-12-09

Family

ID=72845222

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010558462.0A Active CN111816270B (zh) 2020-06-18 2020-06-18 大规模肝脏电子病历病变分类的属性并行约简Spark方法

Country Status (1)

Country Link
CN (1) CN111816270B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113012775B (zh) * 2021-03-30 2021-10-08 南通大学 红斑病电子病历病变分类的增量属性约简Spark方法
CN113012776B (zh) * 2021-03-30 2022-11-04 南通大学 大规模不平衡糖尿病电子病历并行分类邻域证据Spark方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105938561A (zh) * 2016-04-13 2016-09-14 南京大学 一种基于典型相关性分析的计算机数据属性约简方法
CN108986872A (zh) * 2018-06-21 2018-12-11 南通大学 用于大数据电子病历约简的多粒度属性权重Spark方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180268935A1 (en) * 2015-03-20 2018-09-20 magpie 360 Inc.A Non intrusive, non invasive, plug-and-forget, contextually aware, dark data processing, care companion platform for care receiver management by care providers
CN110222023B (zh) * 2019-06-06 2022-09-16 桂林电子科技大学 基于Spark与蚁群优化的多目标并行属性约简方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105938561A (zh) * 2016-04-13 2016-09-14 南京大学 一种基于典型相关性分析的计算机数据属性约简方法
CN108986872A (zh) * 2018-06-21 2018-12-11 南通大学 用于大数据电子病历约简的多粒度属性权重Spark方法

Also Published As

Publication number Publication date
CN111816270A (zh) 2020-10-23

Similar Documents

Publication Publication Date Title
CN105096225B (zh) 辅助疾病诊疗的分析系统、装置及方法
Chang et al. A new hybrid XGBSVM model: application for hypertensive heart disease
WO2020103683A1 (zh) 基于脑功能图谱的猴-人跨物种迁移进行精神疾病的个体化预测方法和系统
Deng et al. A classification–detection approach of COVID-19 based on chest X-ray and CT by using keras pre-trained deep learning models
Yang et al. Multi-source transfer learning via ensemble approach for initial diagnosis of Alzheimer’s disease
CN111816270B (zh) 大规模肝脏电子病历病变分类的属性并行约简Spark方法
WO2021143780A1 (zh) 一种基于多标签学习的体检后慢性疾病预后系统
Au et al. Automated characterization of stenosis in invasive coronary angiography images with convolutional neural networks
CN112967803A (zh) 基于集成模型的急诊患者早期死亡率预测方法及系统
LK et al. COVID-19 outbreak based coronary heart diseases (CHD) prediction using SVM and risk factor validation
Li et al. A particle swarm optimization improved BP neural network intelligent model for electrocardiogram classification
Sharafutdinov et al. Computational simulation of virtual patients reduces dataset bias and improves machine learning-based detection of ARDS from noisy heterogeneous ICU datasets
He et al. Localization of myocardial infarction using a multi-branch weight sharing network based on 2-D vectorcardiogram
Zhang et al. The value of artificial intelligence and imaging diagnosis in the fight against COVID-19
Noviandy et al. Maternal Health Risk Detection Using Light Gradient Boosting Machine Approach
CN113744845A (zh) 基于人工智能的医学影像处理方法、装置、设备及介质
CN111329467A (zh) 一种基于人工智能的心脏疾病辅助检测方法
Khan et al. Reinforcing synthetic data for meticulous survival prediction of patients suffering from left ventricular systolic dysfunction
Peng et al. [Retracted] Research on Application of Data Mining Algorithm in Cardiac Medical Diagnosis System
Xie et al. Continuous-valued annotations aggregation for heart rate detection
TW202032578A (zh) 應用於臨床輔助診斷的模組化醫學檢驗決策支援系統及方法
Zhang et al. Functional brain connectivity hyper-network embedded with structural information for epilepsy diagnosis
Shang et al. A novel approach of dependence measure for complex signals
TWM582676U (zh) Modular medical test decision support system for clinical assistant diagnosis
Zheng et al. Indirect estimation of pediatric reference interval via density graph deep embedded clustering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant