CN110867224B - 用于大规模脑病历分割的多粒度Spark超信任模糊方法 - Google Patents

用于大规模脑病历分割的多粒度Spark超信任模糊方法 Download PDF

Info

Publication number
CN110867224B
CN110867224B CN201911030948.0A CN201911030948A CN110867224B CN 110867224 B CN110867224 B CN 110867224B CN 201911030948 A CN201911030948 A CN 201911030948A CN 110867224 B CN110867224 B CN 110867224B
Authority
CN
China
Prior art keywords
granularity
population
elite
super
center
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911030948.0A
Other languages
English (en)
Other versions
CN110867224A (zh
Inventor
丁卫平
丁嘉陆
王杰华
胡彬
陈森博
万杰
赵理莉
孙颖
冯志豪
李铭
任龙杰
丁帅荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nantong University Technology Transfer Center Co ltd
Original Assignee
Nantong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nantong University filed Critical Nantong University
Priority to CN201911030948.0A priority Critical patent/CN110867224B/zh
Publication of CN110867224A publication Critical patent/CN110867224A/zh
Priority to AU2020286320A priority patent/AU2020286320B2/en
Priority to PCT/CN2020/094104 priority patent/WO2021082444A1/zh
Application granted granted Critical
Publication of CN110867224B publication Critical patent/CN110867224B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]

Abstract

本发明公开一种用于大规模脑病历分割的多粒度Spark超信任模糊方法,首先在Spark云平台上将大规模脑病历数据属性集分割至不同的多粒度进化子种群Granu‑populationi中;设计一种基于多粒度Spark超信任模型,构建多粒度种群内不同超级精英之间信任度;调整多粒度中心阈值,对超级精英使用多粒度子种群均衡调整策略进行动态更新,对大规模脑病历进行全局搜索分割与局部精化分割,超级精英在各自区域内能协同提取知识约简子集;最后求得大规模脑病历最优分割特征集
Figure DDA0002250125860000011
并存储至Spark云平台中。本发明能稳定分割大规模脑病历知识约简集,为脑部疾病智能诊断和辅助治疗提供重要的诊断依据。

Description

用于大规模脑病历分割的多粒度Spark超信任模糊方法
技术领域:
本发明涉及到医学信息领域,具体来说涉及一种用于大规模脑病历分割的多粒度Spark超信任模糊方法。
背景技术:
医疗健康服务大数据工程不仅需要构建电子健康档案和电子病历数据库,而且要建设覆盖公共卫生、医疗服务、医疗保障、药品供应、计划生育和综合管理业务的医疗健康管理和服务大数据应用体系。我们在现有的医疗资源条件下,要达成医疗健康服务大数据工程目标,需要充分利用大数据、云计算和移动互联网等多种信息技术,促进电子病历数据库和电子健康档案数据库有效互通,并实现良性互动以实施医疗健康服务大数据工程。
随着云计算和大数据时代的来临,大规模电子病历智能处理在整个医疗大数据产生和使用过程中异常复杂,电子病历系统中存储的医疗数据具有容量大、来源分散、格式多样、存取速度快以及应用价值高等特征。采用一些人工智能和数据挖掘技术来有效发现和提取出大规模电子病历中重要的医学诊断规则和知识是形成临床决策支持系统的关键,但由于电子病历系统是一个特殊的医疗信息系统,电子病历系统中存储的医学数据具有海量、多样、不完备和时效等复杂特性,给其特征选择、协同服务、知识发现及临床决策支持服务等带来了较大困难。对复杂大规模电子病历如何有效处理是设计面向未来医疗健康服务大数据工程和临床智能决策分析服务系统的关键。结合大规模电子病历系统自身特点,采用一些高效的模型和方法进行复杂医疗病历知识约简处理是未来发展的趋势。
利用人工智能和大数据处理方法从大规模脑病历数据中自动分割脑属性,发现潜在的医学规律、对脑疾病的预防、控制和治疗具有重要的作用。大规模脑病历分割问题广泛存在于脑病历特征选择、规则挖掘和临床决策支持系统等研究中,是医疗大数据背景下脑病历智能应用的核心技术。因此迫切需要考虑给出云计算环境下有效方法来解决大规模脑病历分割问题,进一步提高海量脑病历智能处理和服务模式,这是目前医疗大数据背景下脑病历智能辅助诊断治疗以及临床决策支持系统研究中急需解决的关键问题,同时也是脑病历领域中具有挑战性的研究课题。然而由于大规模脑病历高度的不完备性和取值模糊性,导致了脑病历数据属性非真实性特征更加鲜明、不确定性更加显著,大大限制了传统属性分割方法的应用。因此在医疗大数据环境下,针对大规模脑病历的特征提出有效的分割方法,取得脑病历分割中全局搜索约简与局部精化知识协同约简最优一致均衡,对大规模脑病历决策支持分析具有非常重要的意义与价值。
本发明公开一种用于大规模脑病历分割的多粒度Spark超信任模糊方法,首先在Spark云平台上将大规模脑病历数据属性集分割至不同的多粒度进化子种群Granu-populationi中;设计一种基于多粒度Spark超信任模型,构建多粒度种群内不同超级精英之间信任度;调整多粒度中心阈值,对超级精英使用多粒度子种群均衡调整策略进行动态更新,对大规模脑病历进行全局搜索分割与局部精化分割,超级精英在各自区域内能协同提取知识约简子集;最后求得大规模脑病历最优分割特征集
Figure GDA0002276545900000031
并存储至Spark云平台中。本发明能稳定分割大规模脑病历知识约简集,为脑部疾病智能诊断和辅助治疗提供重要的诊断依据。
本发明的进一步改进在于:所述步骤B的具体步骤如下:
a.设置多粒度种群个数为n,且n≥2,初始化多粒度种群为GPh且h∈{1,...,n};
b.初始化第一个粒度种群的中心为
Figure GDA0002276545900000032
然后初始化第二个粒度种群的中心为
Figure GDA0002276545900000033
将其作为超级精英的优先权
Figure GDA0002276545900000034
c.对于第3个及其以上的多粒度种群中心
Figure GDA0002276545900000035
计算当前精英优先权
Figure GDA0002276545900000036
与所有当前粒度种群的中心最小距离,计算公式如下:
Figure GDA0002276545900000037
将该最小距离分配给第u个多粒度种群中心
Figure GDA0002276545900000038
重复执行这个过程直至n个多粒度进化种群全部初始化;
d.在相同粒度子种群中第i个超级精英的信任度定义如下:
Figure GDA0002276545900000039
其中n是精英总数,SPi为第i个超级精英,Pij为在第i个多粒度种群中第j个普通精英;
e.计算第i个超级精英SPi在第h个多粒度种群中心
Figure GDA00022765459000000310
中的信任度Ri,其迭代计算公式如下:
Figure GDA00022765459000000311
其中i∈{2,...,N},
Figure GDA00022765459000000312
f.设多粒度种群中心
Figure GDA0002276545900000041
之间相似度在当前的循环次数为t,t∈{2,...,n-1},每一个多粒度种群中心
Figure GDA0002276545900000042
的信任度由上一轮第t-1次迭代计算出来,这样大规模脑病历属性集的规模大小将通过不同粒度空间中子种群信任度关系进行动态迭代更新;
g.计算多粒度种群中不同超级精英SPi和SPj信任度间的信任偏差Diffij,计算公式为
Figure GDA0002276545900000043
式中Reij为第i个超级精英对第j个超级精英的信誉度,Rmj为种群中任选第m个普通精英对第j个超级精英推荐的局部信任度,I(j)为第j个多粒度种群GPj中所有精英集合,|I(j)|为该集合的势;
h.第h个多粒度种群和第u个多粒度种群中心之间的种群信任度为
Figure GDA0002276545900000044
计算公式如下:
Figure GDA0002276545900000045
其中m为迭代的次数,
Figure GDA0002276545900000046
是两个多粒度种群第t次迭代的变化范围,计算公式为
Figure GDA0002276545900000047
i.对于第h个多粒度种群
Figure GDA0002276545900000048
如果满足
Figure GDA0002276545900000049
ε为相似度阈值,范围为ε∈[0,1],则多粒度种群符合不同粒度空间中子种群信任度关系;
g.构建多粒度种群内不同超级精英之间信任度关系公式,定义为
Figure GDA00022765459000000410
其中λ是超级精英之间直接信任度的信心因子,λ的取值和超级精英交互的数目有关,交互的数目越多则λ取值越大,0≤λ≤1。我们取λ=h/HLmt,其中h为超级精英i和超级精英j之间交互的数目,HLmt为设定的交互数目门限值,大规模脑病历属性集的规模大小通过不同粒度空间中子种群信任度关系进行动态迭代更新。
本发明的进一步改进在于:所述步骤C的具体步骤如下:
a.使用传统的聚类方法k-means初始化多粒度中心为
Figure GDA0002276545900000051
b.设多粒度子种群集和中心都为空集,V=Φ和C=Φ,迭代次数t=1。计算每个多粒度子种群与多粒度中心的距离,按最小距离原则将大规模脑病历属性集划分到相应的多粒度中心,形成k个
Figure GDA0002276545900000052
并记录各中心中超级精英个数
Figure GDA0002276545900000053
设置初始的调整标号
Figure GDA0002276545900000054
c.重新计算每个多粒度中心
Figure GDA0002276545900000055
和各个粒度中心移动的初始位移d(c1i,c0i),其中|Vi|表示多粒度种群Vi中种群的个数;
d.粒度子种群在第一次迭代后粒度中心c1与初始粒度中心c0之间距离为d(c1,c0),在第i次迭代后新的粒度中心c′与原粒度中心c之间距离d(c,c′),如果
Figure GDA0002276545900000056
ε为相似度阈值,范围为ε∈[0,1],则以c′为代表的粒度中心不再参与下轮迭代调整,否则继续进行迭代调整;
e.计算标号ftj=1的多粒度种群中每个超级精英与参与调整多粒度种群中心的距离,按最小距离原则将脑病历属性划分到相应的多粒度种群,形成k个新多粒度种群{Vtj},并记录各多粒度种群中超级精英个数{Ntj},求出调整后用于大规模脑病历属性分割的超级精英个数ΔNtj
f.重新计算参与调整多粒度中心
Figure GDA0002276545900000057
和多粒度中心移动的位移d(ctj,ctj);
g.设置粒度中心迁移的调整阈值为ε和多粒度子种群数目调整阈值为θ,如果多粒度Vtj的中心ctj满足
Figure GDA0002276545900000061
Figure GDA0002276545900000062
则将多粒度中心Vtj中的调整标号设置为0,即ftj=0,并将Vtj和ctj添加到最终多粒度种群中心集合中,即V=V∪{Vtj}和C=C∪{ctj},如果形成了包含k个多粒度中心集合,此时|V|=k,终止迭代。
本发明的进一步改进在于:所述步骤E的具体步骤如下:
a.设两个相邻的超级精英聚类为
Figure GDA0002276545900000063
Figure GDA0002276545900000064
它们的精英成员关系度分别为
Figure GDA0002276545900000065
Figure GDA0002276545900000066
b.如果
Figure GDA0002276545900000067
则超级精英将演变成精英聚类
Figure GDA0002276545900000068
的组合;否则将演变成精英聚类
Figure GDA0002276545900000069
的组合;
c.在多粒度子种群中执行竞争和合作的混合协同的大规模脑病历分割,假设Si为第i个超级精英,在i=1至|Si|执行如下操作:
(1)插入Si超级精英的代表Si,rep到Pi t中;
(2)如果nx>|Si|,从多粒度子种群Granu-subpopulationi中选择超级精英Pi t
(3)将所有的Si,j和其他多粒度子种群Granu-subpopulationi的解进行组合,将其进行排序值和计算出Si,j的小生成境数;
(4)更新Si的超级精英代表取得Pareto优势区域内非优势解,决定获胜的多粒度子种群,并更新Si=Sk
d.超级精英的模糊成员度uCh(Pi)采用相似成员方式计算,其中参考值Pi和超级精英中心Ch之间的距离定义为d(Pi,Ch);
e.对每一个多粒度子种群超级精英计算均衡CI为
Figure GDA0002276545900000071
一致概率CR为
Figure GDA0002276545900000072
其中t∈{1,2,...,s};
f.对于任何不一致均衡度
Figure GDA0002276545900000073
获得第t个多粒度子种群超级精英最优一致均衡度为
Figure GDA0002276545900000074
其中
Figure GDA0002276545900000075
g.取得所有超级精英的全局最优一致概率度为
Figure GDA0002276545900000076
t∈{1,2,...,s},构建大规模脑病历属性分割最优一致均衡度和概率度对为
Figure GDA0002276545900000077
t∈{1,2,...,s};
h.超级精英基于最优一致均衡度和概率度对
Figure GDA0002276545900000078
分割脑病历不同属性区域的特征集为F1,F2,...,Fn,求得大规模脑病历最优特征集
Figure GDA0002276545900000079
本发明与现有技术相比具有如下优点:
1)本发明采用基于多粒度Spark超信任模型,构建多粒度种群内不同超级精英之间信任度,对超级精英使用不同的多粒度子种群均衡调整策略进行动态更新,对大规模脑病历进行全局搜索分割与局部精化分割,超级精英在各自区域内能协同提取知识约简子集,大大降低了执行时间,提升了大规模脑病历分割精度。
2)本发明在Spark云平台上基于动态精英优势区域构建多粒度种群超级精英动态协同操作机制,取得了大规模脑病历分割最优一致均衡,降低了大规模脑病历特征分割的复杂度成本,进一步提高了云计算Spark云平台上大规模脑病历并行特征提取的细粒度和鲁棒性,为开展脑病历特征选择、规则挖掘以及临床决策支持等智能服务奠定了较好的基础。
附图说明:
图1为系统总体流程图;
图2为多粒度超信任Spark模型动态执行过程图;
图3-5为多粒度种群超级精英动态模糊协同操作过程图;
具体实施方式:
为了加深对本发明的理解,下面将结合实施例对本发明作进一步详述,该实施例仅用于解释本发明,并不构成对本发明保护范围的限定。
如图1-图5所示用于大规模脑病历分割的多粒度Spark超信任模糊方法的具体实施方式:具体步骤如下:
A.在大数据Spark云平台上将大规模脑病历属性集分割至不同的多粒度进化种群Granu-populationi,i=1,2,…n,脑病历属性分割任务分解为多个并行化的作业任务,然后在分解后的多个作业任务中计算出不同脑病历候选属性集的等价类;
B.设计基于多粒度超信任模型,将第i个多粒度进化种群Granu-populationi用于脑病历第i个属性集的约简和分割处理,构建多粒度种群内不同超级精英之间信任度,计算多粒度种群的信任偏差,大规模脑病历属性集的规模大小通过不同粒度空间中子种群信任度关系进行动态迭代更新;具体包括以下步骤:具体步骤如下:
a.设置多粒度种群个数为n,且n≥2,初始化多粒度种群为GPh且h∈{1,...,n};
b.初始化第一个粒度种群的中心为
Figure GDA0002276545900000081
然后初始化第二个粒度种群的中心为
Figure GDA0002276545900000082
将其作为超级精英的优先权
Figure GDA0002276545900000083
c.对于第3个及其以上的多粒度种群中心
Figure GDA0002276545900000084
计算当前精英优先权
Figure GDA0002276545900000085
与所有当前粒度种群的中心最小距离,计算公式如下:
Figure GDA0002276545900000091
将该最小距离分配给第u个多粒度种群中心
Figure GDA0002276545900000092
重复执行这个过程直至n个多粒度进化种群全部初始化;
d.在相同粒度子种群中第i个超级精英的信任度定义如下:
Figure GDA0002276545900000093
其中n是精英总数,SPi为第i个超级精英,Pij为在第i个多粒度种群中第j个普通精英;
e.计算第i个超级精英SPi在第h个多粒度种群中心
Figure GDA0002276545900000094
中的信任度Ri,其迭代计算公式如下:
Figure GDA0002276545900000095
其中i∈{2,...,N},
Figure GDA0002276545900000096
f.设多粒度种群中心
Figure GDA0002276545900000097
之间相似度在当前的循环次数为t,t∈{2,...,n-1},每一个多粒度种群中心
Figure GDA0002276545900000098
的信任度由上一轮第t-1次迭代计算出来,这样大规模脑病历属性集的规模大小将通过不同粒度空间中子种群信任度关系进行动态迭代更新;
g.计算多粒度种群中不同超级精英SPi和SPj信任度间的信任偏差Diffij,计算公式为
Figure GDA0002276545900000099
式中Reij为第i个超级精英对第j个超级精英的信誉度,Rmj为种群中任选第m个普通精英对第j个超级精英推荐的局部信任度,I(j)为第j个多粒度种群GPj中所有精英集合,|I(j)|为该集合的势;
h.第h个多粒度种群和第u个多粒度种群中心之间的种群信任度为
Figure GDA0002276545900000101
计算公式如下:
Figure GDA0002276545900000102
其中m为迭代的次数,
Figure GDA0002276545900000103
是两个多粒度种群第t次迭代的变化范围,计算公式为
Figure GDA0002276545900000104
i.对于第h个多粒度种群
Figure GDA0002276545900000105
如果满足
Figure GDA0002276545900000106
ε为相似度阈值,范围为ε∈[0,1],则多粒度种群符合不同粒度空间中子种群信任度关系;
g.构建多粒度种群内不同超级精英之间信任度关系公式,定义为
Figure GDA0002276545900000107
其中λ是超级精英之间直接信任度的信心因子,λ的取值和超级精英交互的数目有关,交互的数目越多则λ取值越大,0≤λ≤1。我们取λ=h/HLmt,其中h为超级精英i和超级精英j之间交互的数目,HLmt为设定的交互数目门限值,大规模脑病历属性集的规模大小通过不同粒度空间中子种群信任度关系进行动态迭代更新。
C.设置用于大规模脑病历分割的多粒度Spark超信任中心调整阈值为λ,在第i次迭代完成后,将粒度中心调整量大于阈值λ的多粒度子种群Granu-populationi进行下一次迭代调整,设置粒度中心迁移的调整阈值为ε和多粒度子种群数目调整阈值为θ,优化多粒度Vtj的中心ctj,并添加到最终多粒度种群中心集合中,形成包含k个多粒度中心集合;具体包括以下步骤:
a.使用传统的聚类方法k-means初始化多粒度中心为
Figure GDA0002276545900000111
b.设多粒度子种群集和中心都为空集,V=Φ和C=Φ,迭代次数t=1。计算每个多粒度子种群与多粒度中心的距离,按最小距离原则将大规模脑病历属性集划分到相应的多粒度中心,形成k个
Figure GDA0002276545900000112
并记录各中心中超级精英个数
Figure GDA0002276545900000113
设置初始的调整标号
Figure GDA0002276545900000114
c.重新计算每个多粒度中心
Figure GDA0002276545900000115
和各个粒度中心移动的初始位移d(c1i,c0i),其中|Vi|表示多粒度种群Vi中种群的个数;
d.粒度子种群在第一次迭代后粒度中心c1与初始粒度中心c0之间距离为d(c1,c0),在第i次迭代后新的粒度中心c′与原粒度中心c之间距离d(c,c′),如果
Figure GDA0002276545900000116
ε为相似度阈值,范围为ε∈[0,1],则以c′为代表的粒度中心不再参与下轮迭代调整,否则继续进行迭代调整;
e.计算标号ftj=1的多粒度种群中每个超级精英与参与调整多粒度种群中心的距离,按最小距离原则将脑病历属性划分到相应的多粒度种群,形成k个新多粒度种群{Vtj},并记录各多粒度种群中超级精英个数{Ntj},求出调整后用于大规模脑病历属性分割的超级精英个数ΔNtj
f.重新计算参与调整多粒度中心
Figure GDA0002276545900000117
和多粒度中心移动的位移d(ctj,ctj);
g.设置粒度中心迁移的调整阈值为ε和多粒度子种群数目调整阈值为θ,如果多粒度Vtj的中心ctj满足
Figure GDA0002276545900000118
Figure GDA0002276545900000119
则将多粒度中心Vtj中的调整标号设置为0,即ftj=0,并将Vtj和ctj添加到最终多粒度种群中心集合中,即V=V∪{Vtj}和C=C∪{ctj},如果形成了包含k个多粒度中心集合,此时|V|=k,终止迭代。
D.对多粒度子种群中超级精英使用均衡调整策略动态更新,将多粒度子种群超级精英划分到一个等腰直角三角形内容,分别计算各自的粒度值
Figure GDA0002276545900000121
如果两个超级精英具有相同较低粒度
Figure GDA0002276545900000122
则他们的近似度属性值收敛于均衡对为
Figure GDA0002276545900000123
如果两个超级精英具有相同较高粒度
Figure GDA0002276545900000124
则他们的近似度属性值收敛于均衡对为
Figure GDA0002276545900000125
该均衡调整策略有利于增加多粒度子种群最优一致均衡度。
E.构建多粒度子种群超级精英动态模糊协同分割策略,在动态精英优势区域内对大规模脑病历属性进行全局搜索分割与局部精化分割,在多粒度子种群中执行竞争和合作的混合协同,构建大规模脑病历属性分割最优一致均衡度和概率度,使超级精英在各自对应的Pareto优势区域内协同提取知识约简子集,并能稳定分割大规模脑病历不同的属性区域,求得大规模脑病历最优特征集
Figure GDA0002276545900000126
具体包括以下步骤:
a.设两个相邻的超级精英聚类为
Figure GDA0002276545900000127
Figure GDA0002276545900000128
它们的精英成员关系度分别为
Figure GDA0002276545900000129
Figure GDA00022765459000001210
b.如果
Figure GDA00022765459000001211
则超级精英将演变成精英聚类
Figure GDA00022765459000001212
的组合;否则将演变成精英聚类
Figure GDA00022765459000001213
的组合;
c.在多粒度子种群中执行竞争和合作的混合协同的大规模脑病历分割,假设Si为第i个超级精英,在i=1至|Si|执行如下操作:
(1)插入Si超级精英的代表Si,rep到Pi t中;
(2)如果nx>|Si|,从多粒度子种群Granu-subpopulationi中选择超级精英Pi t
(3)将所有的Si,j和其他多粒度子种群Granu-subpopulationi的解进行组合,将其进行排序值和计算出Si,j的小生成境数;
(4)更新Si的超级精英代表取得Pareto优势区域内非优势解,决定获胜的多粒度子种群,并更新Si=Sk
d.超级精英的模糊成员度uCh(Pi)采用相似成员方式计算,其中参考值Pi和超级精英中心Ch之间的距离定义为d(Pi,Ch);
e.对每一个多粒度子种群超级精英计算均衡CI为
Figure GDA0002276545900000131
一致概率CR为
Figure GDA0002276545900000132
其中t∈{1,2,...,s};
f.对于任何不一致均衡度
Figure GDA0002276545900000133
获得第t个多粒度子种群超级精英最优一致均衡度为
Figure GDA0002276545900000134
其中
Figure GDA0002276545900000135
g.取得所有超级精英的全局最优一致概率度为
Figure GDA0002276545900000136
t∈{1,2,...,s},构建大规模脑病历属性分割最优一致均衡度和概率度对为
Figure GDA0002276545900000137
t∈{1,2,...,s};
h.超级精英基于最优一致均衡度和概率度对
Figure GDA0002276545900000138
分割脑病历不同属性区域的特征集为F1,F2,...,Fn,求得大规模脑病历最优特征集
Figure GDA0002276545900000139
F.比较上述求出的大规模脑病历分割精度RC与预先设定精度值η关系,若满足RC≥η,则输出大规模脑病历最优分割知识集。否则,继续执行上述C、D和E步骤,直至大规模脑病历分割精度满足RC≥η;
G.将大数据脑病历分割最优特征集
Figure GDA00022765459000001310
存储至Spark云平台中,为大规模脑病历相关疾病的临床诊断和治疗提供重要的智能辅助诊断知识依据。
本发明采用基于多粒度Spark超信任模型,构建多粒度种群内不同超级精英之间信任度,对超级精英使用不同的多粒度子种群均衡调整策略进行动态更新,对大规模脑病历进行全局搜索分割与局部精化分割,超级精英在各自区域内能协同提取知识约简子集,大大降低了执行时间,提升了大规模脑病历分割精度。
本发明在Spark云平台上基于动态精英优势区域构建多粒度种群超级精英动态协同操作机制,取得了大规模脑病历分割最优一致均衡,降低了大规模脑病历特征分割的复杂度成本,进一步提高了云计算Spark云平台上大规模脑病历并行特征提取的细粒度和鲁棒性,为开展脑病历特征选择、规则挖掘以及临床决策支持等智能服务奠定了较好的基础。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。
因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (4)

1.用于大规模脑病历分割的多粒度Spark超信任模糊方法,其特征在于:具体步骤如下:
A.在大数据Spark云平台上将大规模脑病历属性集分割至不同的多粒度进化种群Granu-populationi,i=1,2,…n,脑病历属性分割任务分解为多个并行化的作业任务,然后在分解后的多个作业任务中计算出不同脑病历候选属性集的等价类;
B.设计基于多粒度超信任模型,将第i个多粒度进化种群Granu-populationi用于脑病历第i个属性集的约简和分割处理,构建多粒度种群内不同超级精英之间信任度,计算多粒度种群的信任偏差,大规模脑病历属性集的规模大小通过不同粒度空间中子种群信任度关系进行动态迭代更新;
C.设置用于大规模脑病历分割的多粒度Spark超信任中心调整阈值为λ,在第i次迭代完成后,将粒度中心调整量大于阈值λ的多粒度子种群Granu-populationi进行下一次迭代调整,设置粒度中心迁移的调整阈值为ε和多粒度子种群数目调整阈值为θ,优化多粒度Vtj的中心ctj,并添加到最终多粒度种群中心集合中,形成包含k个多粒度中心集合;
D.对多粒度子种群中超级精英使用均衡调整策略动态更新,将多粒度子种群超级精英划分到一个等腰直角三角形内,分别计算各自的粒度值
Figure FDA0003391085570000011
如果两个超级精英具有相同低粒度
Figure FDA0003391085570000012
则他们的近似度属性值收敛于均衡对为
Figure FDA0003391085570000013
如果两个超级精英具有相同高粒度
Figure FDA0003391085570000014
则他们的近似度属性值收敛于均衡对为
Figure FDA0003391085570000015
该均衡调整策略有利于增加多粒度子种群最优一致均衡度;
E.构建多粒度子种群超级精英动态模糊协同分割策略,在动态精英优势区域内对大规模脑病历属性进行全局搜索分割与局部精化分割,在多粒度子种群中执行竞争和合作的混合协同,构建大规模脑病历属性分割最优一致均衡度和概率度,使超级精英在各自对应的Pareto优势区域内协同提取知识约简子集,并能稳定分割大规模脑病历不同的属性区域,求得大规模脑病历最优特征集
Figure FDA0003391085570000021
F.求出大规模脑病历分割精度RC,比较RC与预先设定精度值η关系,若满足RC≥η,则输出大规模脑病历最优分割知识集,否则,继续执行上述C、D和E步骤,直至大规模脑病历分割精度满足RC≥η;
G.将大数据脑病历分割最优特征集
Figure FDA0003391085570000022
存储至Spark云平台中,为大规模脑病历相关疾病的临床诊断和治疗提供重要的智能辅助诊断知识依据。
2.根据权利要求1所述用于大规模脑病历分割的多粒度Spark超信任模糊方法,其特征在于:所述步骤B的具体步骤如下:
a.设置多粒度种群个数为n,且n≥2,初始化多粒度种群为GPh且h∈{1,...,n};
b.初始化第一个粒度种群的中心为
Figure FDA0003391085570000023
然后初始化第二个粒度种群的中心为
Figure FDA0003391085570000024
将其作为超级精英的优先权
Figure FDA0003391085570000025
c.对于第3个及其以上的多粒度种群中心
Figure FDA0003391085570000026
计算当前精英优先权
Figure FDA0003391085570000027
与所有当前粒度种群的中心最小距离,计算公式如下:
Figure FDA0003391085570000028
将该最小距离分配给第u个多粒度种群中心
Figure FDA0003391085570000029
重复执行这个过程直至n 个多粒度进化种群全部初始化;
d.在相同粒度子种群中第i个超级精英的信任度定义如下:
Figure FDA0003391085570000031
其中n是精英总数,SPi为第i个超级精英,Pij为在第i个多粒度种群中第j个普通精英;
e.计算第i个超级精英SPi在第h个多粒度种群中心
Figure FDA0003391085570000032
中的信任度Ri,其迭代计算公式如下:
Figure FDA0003391085570000033
其中i∈{2,...,n},
Figure FDA0003391085570000034
f.设多粒度种群中心
Figure FDA0003391085570000035
之间相似度在当前的循环次数为t,t∈{2,...,n-1},每一个多粒度种群中心
Figure FDA0003391085570000036
的信任度由上一轮第t-1次迭代计算出来,这样大规模脑病历属性集的规模大小将通过不同粒度空间中子种群信任度关系进行动态迭代更新;
g.计算多粒度种群中不同超级精英SPi和SPj信任度间的信任偏差Diffij,计算公式为
Figure FDA0003391085570000037
式中Reij为第i个超级精英对第j个超级精英的信誉度,Rmj为种群中任选第m个普通精英对第j个超级精英推荐的局部信任度,I(j)为第j个多粒度种群GPj中所有精英集合,|I(j)|为该集合的势;
h.第h个多粒度种群和第u个多粒度种群中心之间的种群信任度为
Figure FDA0003391085570000041
计算公式如下:
Figure FDA0003391085570000042
其中m为迭代的次数,
Figure FDA0003391085570000043
是两个多粒度种群第t次迭代的变化范围,计算公式为
Figure FDA0003391085570000044
i.对于第h个多粒度种群
Figure FDA0003391085570000045
如果满足
Figure FDA0003391085570000046
Figure FDA0003391085570000047
ε为相似度阈值,范围为ε∈[0,1],则多粒度种群符合不同粒度空间中子种群信任度关系;g.构建多粒度种群内不同超级精英之间信任度关系公式,定义为
Figure FDA0003391085570000048
其中λ是超级精英之间直接信任度的信心因子,λ的取值和超级精英交互的数目有关,交互的数目越多则λ取值越大,0≤λ≤1,我们取λ=h/HLmt,其中h为超级精英i和超级精英j之间交互的数目,HLmt为设定的交互数目门限值,大规模脑病历属性集的规模大小通过不同粒度空间中子种群信任度关系进行动态迭代更新。
3.根据权利要求1所述用于大规模脑病历分割的多粒度Spark超信任模糊方法,其特征在于:所述步骤C的具体步骤如下:
a.使用传统的聚类方法k-means初始化多粒度中心为
Figure FDA0003391085570000049
b.设多粒度子种群集和中心都为空集,V=Φ和C=Φ,迭代次数t=1,计算每个多粒度子种群与多粒度中心的距离,按最小距离原则将大规模脑病历属性集划分到相应的多粒度中心,形成k个
Figure FDA00033910855700000410
并记录各中心中超级精英个数
Figure FDA00033910855700000411
设置初始的调整标号
Figure FDA00033910855700000412
c.重新计算每个多粒度中心
Figure FDA0003391085570000051
和各个粒度中心移动的初始位移d(c1i,c0i),其中|Vi|表示多粒度种群Vi中种群的个数;
d.粒度子种群在第一次迭代后粒度中心c1与初始粒度中心c0之间距离为d(c1,c0),在第i次迭代后新的粒度中心c′与原粒度中心c之间距离d(c,c′),如果
Figure FDA0003391085570000052
ε为相似度阈值,范围为ε∈[0,1],则以c′为代表的粒度中心不再参与下轮迭代调整,否则继续进行迭代调整;
e.计算标号ftj=1的多粒度种群中每个超级精英与参与调整多粒度种群中心的距离,按最小距离原则将脑病历属性划分到相应的多粒度种群,形成k个新多粒度种群{Vtj},并记录各多粒度种群中超级精英个数{Ntj},求出调整后用于大规模脑病历属性分割的超级精英个数ΔNtj
f.重新计算参与调整多粒度中心
Figure FDA0003391085570000053
和多粒度中心移动的位移d(cti,ctj);
g.设置粒度中心迁移的调整阈值为ε和多粒度子种群数目调整阈值为θ,如果多粒度Vtj的中心ctj满足
Figure FDA0003391085570000054
Figure FDA0003391085570000055
则将多粒度中心Vtj中的调整标号设置为0,即ftj=0,并将Vtj和ctj添加到最终多粒度种群中心集合中,即V=V∪{Vtj}和C=C∪{ctj},如果形成了包含k个多粒度中心集合,此时|V|=k,终止迭代。
4.根据权利要求1所述用于大规模脑病历分割的多粒度Spark超信任模糊方法,其特征在于:所述步骤E的具体步骤如下:
a.设两个相邻的超级精英聚类为
Figure FDA0003391085570000056
Figure FDA0003391085570000057
它们的精英成员关系度分别为
Figure FDA0003391085570000058
Figure FDA0003391085570000059
b.如果
Figure FDA00033910855700000510
则超级精英将演变成精英聚类
Figure FDA00033910855700000511
的组合;否则将演变成精英聚类
Figure FDA0003391085570000061
的组合;
c.在多粒度子种群中执行竞争和合作的混合协同的大规模脑病历分割,设Si为第i个超级精英,在i=1至|Si|执行如下操作:
(1)插入Si超级精英的代表Si,rep到Pi t中;
(2)如果nx>|Si|,从多粒度子种群Granu-subpopulationi中选择超级精英Pi t
(3)将所有的Si,j和其他多粒度子种群Granu-subpopulationi的解进行组合,
将组合值进行排序,并计算出Si,j的小生成境数;
(4)更新Si的超级精英代表取得Pareto优势区域内非优势解,决定获胜的多粒度子种群,并更新Si=Sk
d.超级精英的模糊成员度uCh(Pi)采用相似成员方式计算,其中参考值Pi和超级精英中心Ch之间的距离定义为d(Pi,Ch);
e.对每一个多粒度子种群超级精英计算均衡CI为
Figure FDA0003391085570000062
一致概率CR为
Figure FDA0003391085570000063
其中t∈{1,2,...,s};
f.对于任何不一致均衡度
Figure FDA0003391085570000064
获得第t个多粒度子种群超级精英最优一致均衡度为
Figure FDA0003391085570000065
其中
Figure FDA0003391085570000066
g.取得所有超级精英的全局最优一致概率度为
Figure FDA0003391085570000067
构建大规模脑病历属性分割最优一致均衡度和概率度对为
Figure FDA0003391085570000068
h.超级精英基于最优一致均衡度和概率度对
Figure FDA0003391085570000069
分割脑病历不同属性区域的特征集为F1,F2,...,Fn,求得大规模脑病历最优特征集
Figure FDA00033910855700000610
CN201911030948.0A 2019-10-28 2019-10-28 用于大规模脑病历分割的多粒度Spark超信任模糊方法 Active CN110867224B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201911030948.0A CN110867224B (zh) 2019-10-28 2019-10-28 用于大规模脑病历分割的多粒度Spark超信任模糊方法
AU2020286320A AU2020286320B2 (en) 2019-10-28 2020-06-03 Multi-granularity spark super trust fuzzy method applied to large-scale brain medical record segmentation
PCT/CN2020/094104 WO2021082444A1 (zh) 2019-10-28 2020-06-03 用于大规模脑病历分割的多粒度Spark超信任模糊方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911030948.0A CN110867224B (zh) 2019-10-28 2019-10-28 用于大规模脑病历分割的多粒度Spark超信任模糊方法

Publications (2)

Publication Number Publication Date
CN110867224A CN110867224A (zh) 2020-03-06
CN110867224B true CN110867224B (zh) 2022-02-08

Family

ID=69653442

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911030948.0A Active CN110867224B (zh) 2019-10-28 2019-10-28 用于大规模脑病历分割的多粒度Spark超信任模糊方法

Country Status (3)

Country Link
CN (1) CN110867224B (zh)
AU (1) AU2020286320B2 (zh)
WO (1) WO2021082444A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110867224B (zh) * 2019-10-28 2022-02-08 南通大学 用于大规模脑病历分割的多粒度Spark超信任模糊方法
CN113012775B (zh) * 2021-03-30 2021-10-08 南通大学 红斑病电子病历病变分类的增量属性约简Spark方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN201788510U (zh) * 2010-07-13 2011-04-06 南通大学 融合粒子群与可拓粗糙格的动态电子病历协同挖掘系统
CN103838972A (zh) * 2014-03-13 2014-06-04 南通大学 一种用于mri病历属性约简的量子协同博弈实现方法
CN104462853A (zh) * 2014-12-29 2015-03-25 南通大学 用于电子病历特征提取的种群精英分布云协同均衡方法
CN105069503A (zh) * 2015-07-30 2015-11-18 重庆邮电大学 基于合作度的异种群并行粒子群算法及MapReduce模型的实现方法
CN106157370A (zh) * 2016-03-03 2016-11-23 重庆大学 一种基于粒子群算法的三角网格规范化方法
CN107257307A (zh) * 2017-06-29 2017-10-17 中国矿业大学 一种基于Spark的并行化遗传算法求解多终端协同接入网络方法
CN108446740A (zh) * 2018-03-28 2018-08-24 南通大学 一种用于脑影像病历特征提取的多层一致协同方法
CN108986872A (zh) * 2018-06-21 2018-12-11 南通大学 用于大数据电子病历约简的多粒度属性权重Spark方法
CN109117864A (zh) * 2018-07-13 2019-01-01 华南理工大学 基于异构特征融合的冠心病风险预测方法、模型及系统
CN109840551A (zh) * 2019-01-14 2019-06-04 湖北工业大学 一种用于机器学习模型训练的优化随机森林参数的方法
CN109871995A (zh) * 2019-02-02 2019-06-11 浙江工业大学 Spark框架下分布式深度学习的量子优化调参方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8489526B2 (en) * 2010-11-24 2013-07-16 International Business Machines Corporation Controlling quarantining and biasing in cataclysms for optimization simulations
EP2784748B1 (en) * 2013-03-28 2017-11-01 Expert Ymaging, SL A computer implemented method for assessing vascular networks from medical images and uses thereof
CN105279388B (zh) * 2015-11-17 2017-11-17 南通大学 多层云计算框架协同的孕龄新生儿脑病历集成约简方法
CN105719004A (zh) * 2016-01-18 2016-06-29 合肥工业大学 一种基于协同进化粒子群算法求解多任务问题
US20180108430A1 (en) * 2016-09-30 2018-04-19 Board Of Regents, The University Of Texas System Method and system for population health management in a captivated healthcare system
CN109120017A (zh) * 2017-06-22 2019-01-01 南京理工大学 一种基于改进粒子群算法的电力系统无功优化方法
CN108133260B (zh) * 2018-01-17 2021-05-07 浙江理工大学 基于实时状态监控的多目标粒子群优化的工作流调度方法
CN110867224B (zh) * 2019-10-28 2022-02-08 南通大学 用于大规模脑病历分割的多粒度Spark超信任模糊方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN201788510U (zh) * 2010-07-13 2011-04-06 南通大学 融合粒子群与可拓粗糙格的动态电子病历协同挖掘系统
CN103838972A (zh) * 2014-03-13 2014-06-04 南通大学 一种用于mri病历属性约简的量子协同博弈实现方法
CN104462853A (zh) * 2014-12-29 2015-03-25 南通大学 用于电子病历特征提取的种群精英分布云协同均衡方法
CN105069503A (zh) * 2015-07-30 2015-11-18 重庆邮电大学 基于合作度的异种群并行粒子群算法及MapReduce模型的实现方法
CN106157370A (zh) * 2016-03-03 2016-11-23 重庆大学 一种基于粒子群算法的三角网格规范化方法
CN107257307A (zh) * 2017-06-29 2017-10-17 中国矿业大学 一种基于Spark的并行化遗传算法求解多终端协同接入网络方法
CN108446740A (zh) * 2018-03-28 2018-08-24 南通大学 一种用于脑影像病历特征提取的多层一致协同方法
CN108986872A (zh) * 2018-06-21 2018-12-11 南通大学 用于大数据电子病历约简的多粒度属性权重Spark方法
CN109117864A (zh) * 2018-07-13 2019-01-01 华南理工大学 基于异构特征融合的冠心病风险预测方法、模型及系统
CN109840551A (zh) * 2019-01-14 2019-06-04 湖北工业大学 一种用于机器学习模型训练的优化随机森林参数的方法
CN109871995A (zh) * 2019-02-02 2019-06-11 浙江工业大学 Spark框架下分布式深度学习的量子优化调参方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"Deep Neuro-Cognitive Co-Evolution for Fuzzy Attribute Reduction by Quantum Leaping PSO With Nearest-Neighbor Memeplexes";Weiping Ding et al;《IEEE TRANSACTIONS ON CYBERNETICS》;20190731;第49卷(第7期);2744-2757 *
"Shared Nearest-Neighbor Quantum Game-Based Attribute Reduction With Hierarchical Coevolutionary Spark and Its Application in Consistent Segmentation of Neonatal Cerebral Cortical Surfaces";Weiping Ding et al;《IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS》;20190731;第30卷(第7期);2013-2027 *
"粗糙集理论处理海量电子病历的研究与应用";周威光;《中国优秀博硕士学位论文全文数据库(硕士) 医药卫生科技辑》;20170715(第7期);论文全文 *

Also Published As

Publication number Publication date
AU2020286320B2 (en) 2022-10-20
WO2021082444A1 (zh) 2021-05-06
AU2020286320A1 (en) 2021-05-27
CN110867224A (zh) 2020-03-06

Similar Documents

Publication Publication Date Title
Xue et al. Self-adaptive particle swarm optimization for large-scale feature selection in classification
Wang et al. Multi-objective feature selection based on artificial bee colony: An acceleration approach with variable sample size
Jia et al. Efficient task-specific data valuation for nearest neighbor algorithms
Liu et al. A communication efficient collaborative learning framework for distributed features
Das et al. Recent advances in differential evolution–an updated survey
Zhang et al. Privgene: differentially private model fitting using genetic algorithms
Goodwin et al. Real-time digital twin-based optimization with predictive simulation learning
Kretowski Evolutionary decision trees in large-scale data mining
CN110867224B (zh) 用于大规模脑病历分割的多粒度Spark超信任模糊方法
Han et al. Multi-modal multi-objective particle swarm optimization with self-adjusting strategy
Takemura et al. Generating explainable rule sets from tree-ensemble learning methods by answer set programming
Schaefer et al. The island model as a Markov dynamic system
Wei et al. Multiobjective optimization algorithm with dynamic operator selection for feature selection in high-dimensional classification
Wang et al. A survey of distributed and parallel extreme learning machine for big data
Masrom et al. Machine learning of tax avoidance detection based on hybrid metaheuristics algorithms
Khedr et al. New algorithm for clustering distributed data using K-means
Wu et al. A hierarchical parallel multi-station assembly sequence planning method based on GA-DFLA
Chen et al. Assisted learning for organizations with limited data
CN117093885A (zh) 融合分层聚类和粒子群的联邦学习多目标优化方法
Lakshmi et al. Machine learning approaches on map reduce for Big Data analytics
Wu Data association rules mining method based on improved apriori algorithm
Kang et al. A novel deep learning model by stacking conditional restricted boltzmann machine and deep neural network
Yadav et al. An improved K-means clustering algorithm
Yun et al. Tourist Attraction Recommendation Method Based on Megadata and Artificial Intelligence Algorithm
Agarwal et al. Map reduce fuzzy ternary particle swarm optimization for feature selection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230810

Address after: 226000 No. 9 Siyuan Road, Chongchuan District, Nantong City, Jiangsu Province

Patentee after: Nantong University Technology Transfer Center Co.,Ltd.

Address before: 226000 No. 8, Siyuan Road, Chongchuan District, Nantong City, Jiangsu Province

Patentee before: NANTONG University