CN111354427B - 用于大规模电子健康档案知识协同约简的最近邻多粒度利润方法 - Google Patents

用于大规模电子健康档案知识协同约简的最近邻多粒度利润方法 Download PDF

Info

Publication number
CN111354427B
CN111354427B CN202010117158.2A CN202010117158A CN111354427B CN 111354427 B CN111354427 B CN 111354427B CN 202010117158 A CN202010117158 A CN 202010117158A CN 111354427 B CN111354427 B CN 111354427B
Authority
CN
China
Prior art keywords
nearest neighbor
granularity
super
electronic health
profit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010117158.2A
Other languages
English (en)
Other versions
CN111354427A (zh
Inventor
丁卫平
孙颖
李铭
鞠恒荣
冯志豪
曹金鑫
张毅
任龙杰
丁帅荣
陈森博
万杰
赵理莉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nantong University Technology Transfer Center Co ltd
Original Assignee
Nantong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nantong University filed Critical Nantong University
Priority to CN202010117158.2A priority Critical patent/CN111354427B/zh
Priority to PCT/CN2020/096484 priority patent/WO2021169088A1/zh
Priority to AU2020331559A priority patent/AU2020331559A1/en
Publication of CN111354427A publication Critical patent/CN111354427A/zh
Application granted granted Critical
Publication of CN111354427B publication Critical patent/CN111354427B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]

Abstract

本发明公开一种用于大规模电子健康档案知识协同约简的最近邻多粒度利润方法,首先在Spark云平台上将大规模电子健康档案数据集分割至不同的多粒度进化子种群中;接着构建一种基于最近邻多粒度利润模型,在最近邻半径中构造协同化的最近邻向量;然后求出超级精英的共享最近邻利润权重及其权重利润向量,执行超级精英权重利润矩阵的自适应动态调整策略;最后求出大规模电子健康档案数据知识协同约简集及其核属性,并将电子健康档案知识约简集存储至Spark云平台。本发明能高效取得大规模电子健康档案中不完备和模糊数据知识约简集,对电子健康档案决策支持分析具有重要意义与价值。

Description

用于大规模电子健康档案知识协同约简的最近邻多粒度利润 方法
技术领域
本发明涉及到医学信息智能处理领域,具体来说涉及一种用于大规模电子健康档案知识协同约简的最近邻多粒度利润方法。
背景技术
“健康中国2020”战略规划中提到:“我国要建立起比较完善的覆盖城乡居民的基本医疗卫生制度,实现人人享有基本医疗卫生服务的目标,促进卫生服务利用的均等化,大幅度提高全民健康水平;在卫生信息化方面,要建立起覆盖城乡居民的电子健康档案使用与管理制度。”
电子健康档案是人们在从事与医疗健康相关活动时形成的、具有保存备查价值的个人健康电子化历史记录。经过这些年的发展,我国在电子健康档案领域积累了大量的医疗和健康数据信息。利用人工智能方法从丰富的电子健康档案数据信息中自动发现潜藏的医学规律,对于疾病的预防、控制和治疗等具有重要意义与价值。然而由于大规模电子健康档案数据具有高度不完备性和模糊性,极大地限制了传统人工智能、机器学习和数据挖掘算法的应用。
传统数据挖掘算法处理的数据训练样本一般要求不能包含大量的缺失信息,即要求数据的完备性,对含有缺失信息的数据大部分采用直接删除的方式处理,且处理的数据类型大部分为符号型或数值型数据,对于模糊类型数据则将其转化为数值型数据后进行处理。然而大规模电子健康档案中的数据往往呈现出高度的不完备性,已建立的电子健康档案中存在着相当大比例的缺失数据。另外电子健康档案数据部分属性列的取值用描述性语言刻画,具有较强的模糊性,如将全部模糊型数据直接转化为数值型或者符号型数据有可能造成电子健康档案信息的大量丢失,甚至影响后续智能辅助诊断决策。
因此,拓展针对大规模电子健康档案特点的数据挖掘方法,建立电子健康档案智能辅助决策系统的实际应用,充分提取出疾病或体征之间的关联性,对开展大规模电子健康档案决策支持分析以及提供个性化、协同化与知识化的电子健康档案大数据服务等具有重要意义。
多粒度计算是人类进行问题求解时通常采用的策略之一,是人类认知能力的重要体现。基于多粒度的数据建模就是通过获得信息粒集和多个粒结构进行复杂数据智能分析,从中提取出可用的知识并形成有效决策方案。若数据建模仅使用一个粒结构,则称其为基于单粒度的数据建模;若使用多个粒结构,则称其为基于多粒度的数据建模。基于多粒度的数据分析可从多个角度、多个层次出发分析问题,较好地获得更加合理、更加满意的问题解。多粒度作为人类认知的重要特征之一,对复杂数据的数据挖掘与知识发现具有重要作用。因此在医疗大数据应用背景下,针对大规模电子健康档案中混合不完备和模糊数据提出有效的多粒度知识协同约简方法,对大规模电子健康档案决策支持分析具有重要的意义与价值。
发明内容
本发明的目的是公开了一种降低了执行时间,提升了大规模电子健康档案知识协同约简的准确率,降低了云计算Spark云平台上大规模电子健康档案知识协同约简的复杂度成本,为开展电子健康档案特征选择、规则挖掘以及临床决策支持等智能服务奠定了较好的基础的用于大规模电子健康档案知识协同约简的最近邻多粒度利润方法。
本发明公开了一种用于大规模电子健康档案知识协同约简的最近邻多粒度利润方法,包括以下步骤:
A.在大数据Spark云平台上将大规模电子健康档案数据集分割至不同的多粒度进化子种群Granu-Subpopulationi中,i=1,2,…,N,N为多粒度进化子种群总个数,这样大规模电子健康档案数据集知识约简任务分解为多个并行化多粒度进化子种群的知识协同约简任务,分别计算出多粒度进化子种群所分配的电子健康档案数据集候选等价类;
B.设计一种最近邻多粒度利润模型,将第i个多粒度进化子种群Granu-Subpopulationi用于大规模电子健康档案第i个数据子集的知识约简,同时在多粒度进化种群Granu-Subpopulationi中根据适应度的大小,选择适应度值最大的超级精英Super-Elitisti和适应度值最小的普通精英Ordinary-Elitisti,求出共享最近邻域向量的相似度Sim(m,n)和共享最近邻利润向量ζ(e),并在最近邻半径的第di层中构造协同化的最近邻向量;
C.构建多粒度精英矩阵Gpi,计算多粒度子种群Granu-Subpopulationi中精英矩阵Gpi的最近邻多粒度利润权重,得到其相应的权重利润矩阵Γ(e),执行超级精英权重利润矩阵自适应动态调整策略,求得各超级精英在各自多粒度子种群内利润权重
Figure GDA0003553521430000031
然后分配给进行大规模电子健康档案数据子集知识协同约简的各个多粒度子种群Granu-Subpopulationi中超级精英Super-Elitisti
D.存储所有超级精英的多粒度利润权重集合
Figure GDA0003553521430000032
然后利用粗糙集理论中差别矩阵公式计算大规模电子健康档案数据子集知识协同约简集及其核属性,从而将大规模电子健康档案数据集正确分类到决策属性的知识规则类中;
E.比较上述求出的大规模电子健康档案知识协同约简集精度EHR与预先设定精度值λ关系,若满足EHR≥λ,则输出大规模电子健康档案最优知识协同约简集,否则,继续执行上述C和D步骤,直至大规模电子健康档案知识协同约简精度满足EHR≥λ;
F.求出大规模电子健康档案数据知识协同约简集及其核属性,并将电子健康档案相关知识约简集存储至Spark云平台,为大规模电子健康档案决策支持分析提供重要的智能辅助诊断依据。
本发明的进一步改进在于:步骤B的具体步骤如下:
a.采用共享最近邻域向量表示第di层中最近邻半径集为:
di={w1,w2,...,wj,...,wm},
wj=(1+logtf(Rj))*log(1+n/df(Rj)),
其中tf(Rj)为第di层中最近邻域半径Rj的出现频率,df(Rj)为权重向量wj在最近邻域半径Rj的层次频率;
b.构造一个Ni×Ni的矩阵Ci,其中Ni是第di层中最近邻域半径数量,则最近半径Ri和Rj之间共享权重Ci(i,j)定义如下:
Ci(i,j)=corr(fi,fj),
其中fi和fj分别对应于最近邻半径Ri和Rj的特征向量,corr(fi,fj)表示fi和fj两个特征向量的内积操作;
c.在最近邻半径的第di层中,构造4个交叠邻域向量为
Figure GDA0003553521430000041
Figure GDA0003553521430000042
并将它们分别分解成4个子向量如下:
Figure GDA0003553521430000051
Figure GDA0003553521430000052
d.在第di层中计算交叠邻域向量
Figure GDA0003553521430000053
Figure GDA0003553521430000054
的共享邻域为
Figure GDA0003553521430000055
其中
Figure GDA0003553521430000056
Figure GDA0003553521430000057
分别是交叠邻域向量
Figure GDA0003553521430000058
Figure GDA0003553521430000059
对应的最近邻域集;
e.求出共享最近邻域交叠邻域向量
Figure GDA00035535214300000510
Figure GDA00035535214300000511
的相似度Sim(m,n),计算公式如下:
Figure GDA00035535214300000512
f.求出共享最近邻利润向量ζ(e),计算公式如下:
Figure GDA00035535214300000513
g.计算最近邻半径Ri和Rj之间的自适应利润补偿权重fi j如下:
fi j=Df(RiRj)/df(Rj),
其中Df(RiRj)为最近邻域向量包含最近邻域半径Ri和Rj的总数量,
df(Rj)为权重向量wj在最近邻域半径Rj的层次频率;
h.在最近邻半径的第di层中构造协同化最近邻向量fm,fn,fp,ft,分别如下:
Figure GDA00035535214300000514
Figure GDA00035535214300000515
其中ξi为第i个最近邻半径中用于第i个电子健康档案数据子集进行知识约简的超级精英Super-Elitisti数量。
本发明的进一步改进在于:步骤C的具体步骤如下:
a.在第i个多粒度进化子种群Granu-Subpopulationi中,将最近邻半径矩阵表示成两个张量
Figure GDA0003553521430000061
Figure GDA0003553521430000062
然后将它们合并到多粒度子种群Granu-Subpopulationi的超级精英矩阵集Gpi中,其中i=1,2,…,N;
b.计算超级精英矩阵中相邻张量之间的平均共享相似度,计算公式如下:
Figure GDA0003553521430000063
其中
Figure GDA0003553521430000064
表示相邻张量
Figure GDA0003553521430000065
Figure GDA0003553521430000066
之间的相似度;
c.计算多粒度子种群Granu-Subpopulationi中超级精英矩阵Gpi的最近邻多粒度利润权重,计算公式如下:
Figure GDA0003553521430000067
其中
Figure GDA0003553521430000068
||Gpi||表示第i个多粒度子种群
Granu-Subpopulationi的超级精英矩阵的势,
Figure GDA0003553521430000069
为最近邻半径Ri和Rj之间在第k次迭代时的信任度;
d.构造子种群Granu-Subpopulationi的多粒度染色体,其包括m个超级精英,相应的权重利润矩阵Γ(e)定义如下:
Figure GDA00035535214300000610
e.更新超级精英Super-Elitisti的权重,在大规模电子健康档案数据子集知识协同约简过程中如果多粒度子种群Granu-Subpopulationi中超级精英Super-Elitisti矩阵的势||Gpi||大于
Figure GDA0003553521430000071
N为多粒度进化子种群总个数,则超级精英权重
Figure GDA0003553521430000072
将相应增加,自适应动态调整公式如下:
Figure GDA0003553521430000073
其中||Γ(e)||为权重利润矩阵Γ(e)的势,ηi是控制超级精英Super-Elitisti的动态权重参数,其公式定义如下:
Figure GDA0003553521430000074
其中
Figure GDA0003553521430000075
为第i个超级精英Super-Elitisti的适应度,
Figure GDA0003553521430000076
为第i个超级精英Super-Elitisti所在多粒度子种群Granu-populationi的适应度;
f.将超级精英Super-Elitisti的利润权重
Figure GDA0003553521430000077
进行归一化操作,求得其归一利润权重
Figure GDA0003553521430000078
Figure GDA0003553521430000079
本发明与现有技术相比具有如下优点:
1)本发明能够支持大规模电子健康档案在多个结点上并行化知识协同约简,超级精英在各自多粒度子种群内进行知识约简任务,大大降低了执行时间,提升了大规模电子健康档案知识协同约简的准确率。
2)本发明提出的最近邻多粒度利润方法将大规模电子健康档案划分和存储在多个进化子种群Granu-Subpopulationi中,降低了云计算Spark云平台上大规模电子健康档案知识约简的复杂度成本,为开展电子健康档案特征选择、规则挖掘以及临床决策支持等智能服务奠定了较好的基础。
3)本发明能高效取得大规模电子健康档案中不完备和模糊数据的知识协同约简集,对大规模电子健康档案决策支持分析具有非常重要的意义与价值。
附图说明
图1为系统总体流程图
图2为最近邻多粒度利润模型动态执行过程图
具体实施方式
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。
如图1-2所示,本发明公开了一种用于大规模电子健康档案知识协同约简的最近邻多粒度利润方法,包括以下步骤:
A.在大数据Spark云平台上将大规模电子健康档案数据集分割至不同的多粒度进化子种群Granu-Subpopulationi中,i=1,2,…,N,N为多粒度进化子种群总个数,这样大规模电子健康档案数据集知识约简任务分解为多个并行化多粒度进化子种群的知识协同约简任务,分别计算出多粒度进化子种群所分配的电子健康档案数据集候选等价类;
B.设计一种最近邻多粒度利润模型,将第i个多粒度进化子种群Granu-Subpopulationi用于大规模电子健康档案第i个数据子集的知识约简,同时在多粒度进化种群Granu-Subpopulationi中根据适应度的大小,选择适应度值最大的超级精英Super-Elitisti和适应度值最小的普通精英Ordinary-Elitisti,求出共享最近邻域向量的相似度Sim(m,n)和共享最近邻利润向量ζ(e),并在最近邻半径的第di层中构造协同化的最近邻向量;
步骤B的具体步骤如下:
a.采用共享最近邻域向量表示第di层中最近邻半径集为:
di={w1,w2,...,wj,...,wm},
wj=(1+logtf(Rj))*log(1+n/df(Rj)),
其中tf(Rj)为第di层中最近邻域半径Rj的出现频率,df(Rj)为权重向量wj在最近邻域半径Rj的层次频率;
b.构造一个Ni×Ni的矩阵Ci,其中Ni是第di层中最近邻域半径数量,则最近半径Ri和Rj之间共享权重Ci(i,j)定义如下:
Ci(i,j)=corr(fi,fj),
其中fi和fj分别对应于最近邻半径Ri和Rj的特征向量,corr(fi,fj)表示fi和fj两个特征向量的内积操作;
c.在最近邻半径的第di层中,构造4个交叠邻域向量为
Figure GDA0003553521430000091
Figure GDA0003553521430000092
并将它们分别分解成4个子向量如下:
Figure GDA0003553521430000093
Figure GDA0003553521430000094
d.在第di层中计算交叠邻域向量
Figure GDA0003553521430000095
Figure GDA0003553521430000096
的共享邻域为
Figure GDA0003553521430000097
其中
Figure GDA0003553521430000098
Figure GDA0003553521430000099
分别是交叠邻域向量
Figure GDA00035535214300000910
Figure GDA00035535214300000911
对应的最近邻域集;
e.求出共享最近邻域交叠邻域向量
Figure GDA00035535214300000912
Figure GDA00035535214300000913
的相似度Sim(m,n),计
算公式如下:
Figure GDA0003553521430000101
f.求出共享最近邻利润向量ζ(e),计算公式如下:
Figure GDA0003553521430000102
g.计算最近邻半径Ri和Rj之间的自适应利润补偿权重fi j如下:
fi j=Df(RiRj)/df(Rj),
其中Df(RiRj)为最近邻域向量包含最近邻域半径Ri和Rj的总数量,df(Rj)为权重向量wj在最近邻域半径Rj的层次频率;
h.在最近邻半径的第di层中构造协同化最近邻向量fm,fn,fp,ft,分别如下:
Figure GDA0003553521430000103
Figure GDA0003553521430000104
其中ξi为第i个最近邻半径中用于第i个电子健康档案数据子集进行知识约简的超级精英Super-Elitisti数量。
C.构建多粒度精英矩阵Gpi,计算多粒度子种群Granu-Subpopulationi中精英矩阵Gpi的最近邻多粒度利润权重,得到其相应的权重利润矩阵Γ(e),执行超级精英权重利润矩阵自适应动态调整策略,求得各超级精英在各自多粒度子种群内利润权重
Figure GDA0003553521430000105
然后分配给进行大规模电子健康档案数据子集知识协同约简的各个多粒度子种群Granu-Subpopulationi中超级精英Super-Elitisti
步骤C的具体步骤如下:
a.在第i个多粒度进化子种群Granu-Subpopulationi中,将最近邻半径矩阵表示成两个张量
Figure GDA0003553521430000111
Figure GDA0003553521430000112
然后将它们合并到多粒度子种群Granu-Subpopulationi的超级精英矩阵集Gpi中,其中i=1,2,…,N;
b.计算超级精英矩阵中相邻张量之间的平均共享相似度,计算公式如下:
Figure GDA0003553521430000113
其中
Figure GDA0003553521430000114
表示相邻张量
Figure GDA0003553521430000115
Figure GDA0003553521430000116
之间的相似度;
c.计算多粒度子种群Granu-Subpopulationi中超级精英矩阵Gpi的最近邻多粒度利润权重,计算公式如下:
Figure GDA0003553521430000117
其中
Figure GDA0003553521430000118
||Gpi||表示第i个多粒度子种群
Granu-Subpopulationi的超级精英矩阵的势,
Figure GDA0003553521430000119
为最近邻半径Ri和Rj之间在第k次迭代时的信任度;
d.构造子种群Granu-Subpopulationi的多粒度染色体,其包括m个超级精英,相应的权重利润矩阵Γ(e)定义如下:
Figure GDA00035535214300001110
e.更新超级精英Super-Elitisti的权重,在大规模电子健康档案数据子集知识协同约简过程中如果多粒度子种群Granu-Subpopulationi中超级精英Super-Elitisti矩阵的势||Gpi||大于
Figure GDA00035535214300001111
N为多粒度进化子种群总个数,则超级精英权重
Figure GDA00035535214300001112
将相应增加,自适应动态调整公式如下:
Figure GDA0003553521430000121
其中||Γ(e)||为权重利润矩阵Γ(e)的势,ηi是控制超级精英Super-Elitisti的动态权重参数,其公式定义如下:
Figure GDA0003553521430000122
其中
Figure GDA0003553521430000123
为第i个超级精英Super-Elitisti的适应度,
Figure GDA0003553521430000124
为第i个超级精英Super-Elitisti所在多粒度子种群Granu-populationi的适应度;
f.将超级精英Super-Elitisti的利润权重
Figure GDA0003553521430000125
进行归一化操作,求得其归一利润权重
Figure GDA0003553521430000126
Figure GDA0003553521430000127
D.存储所有超级精英的多粒度利润权重集合
Figure GDA0003553521430000128
然后利用粗糙集理论中差别矩阵公式计算大规模电子健康档案数据子集知识协同约简集及其核属性,从而将大规模电子健康档案数据集正确分类到决策属性的知识规则类中;
E.比较上述求出的大规模电子健康档案知识协同约简集精度EHR与预先设定精度值λ关系,若满足EHR≥λ,则输出大规模电子健康档案最优知识协同约简集,否则,继续执行上述C和D步骤,直至大规模电子健康档案知识协同约简精度满足EHR≥λ;
F.求出大规模电子健康档案数据知识协同约简集及其核属性,并将电子健康档案相关知识约简集存储至Spark云平台,为大规模电子健康档案决策支持分析提供重要的智能辅助诊断依据。
本发明能够支持大规模电子健康档案在多个结点上并行化知识协同约简,超级精英在各自多粒度子种群内进行知识约简任务,大大降低了执行时间,提升了大规模电子健康档案知识协同约简的准确率。
本发明提出的最近邻多粒度利润方法将大规模电子健康档案划分和存储在多个进化子种群Granu-Subpopulationi中,降低了云计算Spark云平台上大规模电子健康档案知识约简的复杂度成本,为开展电子健康档案特征选择、规则挖掘以及临床决策支持等智能服务奠定了较好的基础;能高效取得大规模电子健康档案中不完备和模糊数据的知识约简集,对大规模电子健康档案决策支持分析具有非常重要的意义与价值;本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
申请人又一声明,本发明通过上述实施例来说明本发明的实现方法及装置结构,但本发明并不局限于上述实施方式,即不意味着本发明必须依赖上述方法及结构才能实施。所属技术领域的技术人员应该明了,对本发明的任何改进,对本发明所选用实现方法等效替换及步骤的添加、具体方式的选择等,均落在本发明的保护范围和公开的范围之内。
本发明并不限于上述实施方式,凡采用和本发明相似结构及其方法来实现本发明目的的所有方式,均在本发明的保护范围之内。

Claims (3)

1.用于大规模电子健康档案知识协同约简的最近邻多粒度利润方法,其特征在于:具体步骤如下:
A.在大数据Spark云平台上将大规模电子健康档案数据集分割至不同的多粒度进化子种群Granu-Subpopulationi中,i=1,2,…,N,N为多粒度进化子种群总个数,这样大规模电子健康档案数据集知识约简任务分解为多个并行化多粒度进化子种群的知识协同约简任务,分别计算出多粒度进化子种群所分配的电子健康档案数据集候选等价类;
B.设计一种最近邻多粒度利润模型,将第i个多粒度进化子种群Granu-Subpopulationi用于大规模电子健康档案第i个数据子集的知识约简,同时在多粒度进化种群Granu-Subpopulationi中根据适应度的大小,选择适应度值最大的超级精英Super-Elitisti和适应度值最小的普通精英Ordinary-Elitisti,求出共享最近邻域向量的相似度Sim(m,n)和共享最近邻利润向量ζ(e),并在最近邻半径的第di层中构造协同化的最近邻向量;
C.构建多粒度精英矩阵Gpi,计算多粒度子种群Granu-Subpopulationi中精英矩阵Gpi的最近邻多粒度利润权重,得到其相应的权重利润矩阵Γ(e),执行超级精英权重利润矩阵自适应动态调整策略,求得各超级精英在各自多粒度子种群内利润权重
Figure FDA0003553521420000011
然后分配给进行大规模电子健康档案数据子集知识协同约简的各个多粒度子种群Granu-Subpopulationi中超级精英Super-Elitisti
D.存储所有超级精英的多粒度利润权重集合
Figure FDA0003553521420000021
然后利用粗糙集理论中差别矩阵公式计算大规模电子健康档案数据子集知识协同约简集及其核属性,从而将大规模电子健康档案数据集正确分类到决策属性的知识规则类中;
E.比较上述求出的大规模电子健康档案知识协同约简集精度EHR与预先设定精度值λ关系,若满足EHR≥λ,则输出大规模电子健康档案最优知识协同约简集,否则,继续执行上述C和D步骤,直至大规模电子健康档案知识协同约简精度满足EHR≥λ;
F.求出大规模电子健康档案数据知识协同约简集及其核属性,并将电子健康档案相关知识约简集存储至Spark云平台,为大规模电子健康档案决策支持分析提供重要的智能辅助诊断依据。
2.根据权利要求1所述一种用于大规模电子健康档案知识协同约简的最近邻多粒度利润方法,其特征在于:步骤B的具体步骤如下:
a.采用共享最近邻域向量表示第di层中最近邻半径集为:
di={w1,w2,...,wj,...,wm},
wj=(1+logtf(Rj))*log(1+n/df(Rj)),
其中tf(Rj)为第di层中最近邻域半径Rj的出现频率,df(Rj)为权重向量wj在最近邻域半径Rj的层次频率;
b.构造一个Ni×Ni的矩阵Ci,其中Ni是第di层中最近邻域半径数量,则最近半径Ri和Rj之间共享权重Ci(i,j)定义如下:
Ci(i,j)=corr(fi,fj),
其中fi和fj分别对应于最近邻半径Ri和Rj的特征向量,corr(fi,fj)表示fi和fj两个特征向量的内积操作;
c.在最近邻半径的第di层中,构造4个交叠邻域向量为
Figure FDA0003553521420000031
Figure FDA0003553521420000032
并将它们分别分解成4个子向量如下:
Figure FDA0003553521420000033
Figure FDA0003553521420000034
d.在第di层中计算交叠邻域向量
Figure FDA0003553521420000035
Figure FDA0003553521420000036
的共享邻域为
Figure FDA0003553521420000037
其中
Figure FDA0003553521420000038
Figure FDA0003553521420000039
分别是交叠邻域向量
Figure FDA00035535214200000310
Figure FDA00035535214200000311
对应的最近邻域集;
e.求出共享最近邻域交叠邻域向量
Figure FDA00035535214200000312
Figure FDA00035535214200000313
的相似度Sim(m,n),计算公式如下:
Figure FDA00035535214200000314
f.求出共享最近邻利润向量ζ(e),计算公式如下:
Figure FDA00035535214200000315
g.计算最近邻半径Ri和Rj之间的自适应利润补偿权重fi j如下:
Figure FDA00035535214200000316
其中Df(RiRj)为最近邻域向量包含最近邻域半径Ri和Rj的总数量,df(Rj)为权重向量wj在最近邻域半径Rj的层次频率;
h.在最近邻半径的第di层中构造协同化最近邻向量fm,fn,fp,ft,分别如下:
Figure FDA00035535214200000317
Figure FDA00035535214200000318
其中ξi为第i个最近邻半径中用于第i个电子健康档案数据子集进行知识约简的超级精英Super-Elitisti数量。
3.根据权利要求1所述一种用于大规模电子健康档案知识协同约简的最近邻多粒度利润方法,其特征在于:步骤C的具体步骤如下:
a.在第i个多粒度进化子种群Granu-Subpopulationi中,将最近邻半径矩阵表示成两个张量
Figure FDA0003553521420000041
Figure FDA0003553521420000042
然后将它们合并到多粒度子种群Granu-Subpopulationi的超级精英矩阵集Gpi中,其中i=1,2,…,N;
b.计算超级精英矩阵中相邻张量之间的平均共享相似度,计算公式如下:
Figure FDA0003553521420000043
其中
Figure FDA0003553521420000044
表示相邻张量
Figure FDA0003553521420000045
Figure FDA0003553521420000046
之间的相似度;
c.计算多粒度子种群Granu-Subpopulationi中超级精英矩阵Gpi的最近邻多粒度利润权重,计算公式如下:
Figure FDA0003553521420000047
其中
Figure FDA0003553521420000048
||Gpi||表示第i个多粒度子种群Granu-Subpopulationi的超级精英矩阵的势,
Figure FDA0003553521420000049
为最近邻半径Ri和Rj之间在第k次迭代时的信任度;
d.构造子种群Granu-Subpopulationi的多粒度染色体,其包括m个超级精英,相应的权重利润矩阵Γ(e)定义如下:
Figure FDA00035535214200000410
e.更新超级精英Super-Elitisti的权重,在大规模电子健康档案数据子集知识协同约简过程中如果多粒度子种群Granu-Subpopulationi中超级精英Super-Elitisti矩阵的势||Gpi||大于
Figure FDA0003553521420000051
N为多粒度进化子种群总个数,则超级精英权重
Figure FDA0003553521420000052
将相应增加,自适应动态调整公式如下:
Figure FDA0003553521420000053
其中||Γ(e)||为权重利润矩阵Γ(e)的势,ηi是控制超级精英Super-Elitisti的动态权重参数,其公式定义如下:
Figure FDA0003553521420000054
其中
Figure FDA0003553521420000055
为第i个超级精英Super-Elitisti的适应度,
Figure FDA0003553521420000056
为第i个超级精英Super-Elitisti所在多粒度子种群Granu-Subpopulationi的适应度;
f.将超级精英Super-Elitisti的利润权重
Figure FDA0003553521420000057
进行归一化操作,求得其归一利润权重
Figure FDA0003553521420000058
Figure FDA0003553521420000059
CN202010117158.2A 2020-02-25 2020-02-25 用于大规模电子健康档案知识协同约简的最近邻多粒度利润方法 Active CN111354427B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202010117158.2A CN111354427B (zh) 2020-02-25 2020-02-25 用于大规模电子健康档案知识协同约简的最近邻多粒度利润方法
PCT/CN2020/096484 WO2021169088A1 (zh) 2020-02-25 2020-06-17 用于大规模电子健康档案知识协同约简的最近邻多粒度利润方法
AU2020331559A AU2020331559A1 (en) 2020-02-25 2020-06-17 Nearest-neighbor multi-granularity profit method for collaborative knowledge reduction of large-scale electronic health records

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010117158.2A CN111354427B (zh) 2020-02-25 2020-02-25 用于大规模电子健康档案知识协同约简的最近邻多粒度利润方法

Publications (2)

Publication Number Publication Date
CN111354427A CN111354427A (zh) 2020-06-30
CN111354427B true CN111354427B (zh) 2022-04-29

Family

ID=71195847

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010117158.2A Active CN111354427B (zh) 2020-02-25 2020-02-25 用于大规模电子健康档案知识协同约简的最近邻多粒度利润方法

Country Status (3)

Country Link
CN (1) CN111354427B (zh)
AU (1) AU2020331559A1 (zh)
WO (1) WO2021169088A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114023063B (zh) * 2021-11-02 2022-10-21 大连理工大学 一种基于认知网络的智能交通系统协同决策方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6263334B1 (en) * 1998-11-11 2001-07-17 Microsoft Corporation Density-based indexing method for efficient execution of high dimensional nearest-neighbor queries on large databases
CN104933156A (zh) * 2015-06-25 2015-09-23 西安理工大学 一种基于共享近邻聚类的协同过滤方法
CN108447534A (zh) * 2018-05-18 2018-08-24 灵玖中科软件(北京)有限公司 一种基于nlp的电子病历数据质量管理方法
CN108986872A (zh) * 2018-06-21 2018-12-11 南通大学 用于大数据电子病历约简的多粒度属性权重Spark方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8346689B2 (en) * 2010-01-21 2013-01-01 National Cheng Kung University Recommendation system using rough-set and multiple features mining integrally and method thereof
CN103838972B (zh) * 2014-03-13 2016-08-24 南通大学 一种用于mri病历属性约简的量子协同博弈实现方法
CN104915430B (zh) * 2015-06-15 2018-02-23 南京邮电大学 一种基于MapReduce的约束关系粗糙集规则获取方法
CN107256342B (zh) * 2017-06-15 2019-06-07 南通大学 用于电子病历知识约简效能评估的多种群协同熵级联方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6263334B1 (en) * 1998-11-11 2001-07-17 Microsoft Corporation Density-based indexing method for efficient execution of high dimensional nearest-neighbor queries on large databases
CN104933156A (zh) * 2015-06-25 2015-09-23 西安理工大学 一种基于共享近邻聚类的协同过滤方法
CN108447534A (zh) * 2018-05-18 2018-08-24 灵玖中科软件(北京)有限公司 一种基于nlp的电子病历数据质量管理方法
CN108986872A (zh) * 2018-06-21 2018-12-11 南通大学 用于大数据电子病历约简的多粒度属性权重Spark方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《Shared Nearest-Neighbor Quantum Game-Based》;Weiping Ding.et al;《IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS》;20190715;第7卷(第30期);2013-2027 *

Also Published As

Publication number Publication date
AU2020331559A1 (en) 2021-09-09
CN111354427A (zh) 2020-06-30
WO2021169088A1 (zh) 2021-09-02

Similar Documents

Publication Publication Date Title
Zhang et al. A return-cost-based binary firefly algorithm for feature selection
Valdez et al. Modular neural networks architecture optimization with a new nature inspired method using a fuzzy combination of particle swarm optimization and genetic algorithms
Karaboğa et al. Training ANFIS by using the artificial bee colony algorithm
Rahman et al. Discretization of continuous attributes through low frequency numerical values and attribute interdependency
Mafarja et al. Investigating memetic algorithm in solving rough set attribute reduction
Tran Optimizing time–cost in generalized construction projects using multiple-objective social group optimization and multi-criteria decision-making methods
Ahmadi et al. Learning fuzzy cognitive maps using imperialist competitive algorithm
Zhu et al. Evolutionary convolutional neural networks using abc
CN116757497B (zh) 基于图类感知Transformer的多模态军事智能辅助作战决策方法
CN111354427B (zh) 用于大规模电子健康档案知识协同约简的最近邻多粒度利润方法
Ma An Efficient Optimization Method for Extreme Learning Machine Using Artificial Bee Colony.
Parouha et al. A systematic overview of developments in differential evolution and particle swarm optimization with their advanced suggestion
Singh et al. A neighborhood search based cat swarm optimization algorithm for clustering problems
CN110867224B (zh) 用于大规模脑病历分割的多粒度Spark超信任模糊方法
Jain Introduction to data mining techniques
Raza et al. Redefining core preliminary concepts of classic Rough Set Theory for feature selection
Prihozhy et al. Genetic algorithm of optimizing the qualification of programmer teams
Hu et al. Differential evolution based on network structure for feature selection
Cohen Automated crater detection using machine learning
Wang et al. A new interactive model for improving the learning performance of back propagation neural network
WO2021059527A1 (ja) 学習装置、学習方法、及び、記録媒体
Li et al. Reinforcement learning from multiple experts demonstrations
Gamal et al. A fuzzy rough rule based system enhanced by fuzzy cellular automata
Zhengjiang et al. An attribute reduction algorithm based on genetic algorithm and discernibility matrix
Taj et al. Predicting heart failure using data mining with Rough set theory and Fuzzy Petri Net

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230815

Address after: 226000 No. 9 Siyuan Road, Chongchuan District, Nantong City, Jiangsu Province

Patentee after: Nantong University Technology Transfer Center Co.,Ltd.

Address before: 226000 No. 8, Siyuan Road, Chongchuan District, Nantong City, Jiangsu Province

Patentee before: NANTONG University

TR01 Transfer of patent right