CN109360656A - 一种基于多目标演化算法的癌症检测方法 - Google Patents

一种基于多目标演化算法的癌症检测方法 Download PDF

Info

Publication number
CN109360656A
CN109360656A CN201810946352.4A CN201810946352A CN109360656A CN 109360656 A CN109360656 A CN 109360656A CN 201810946352 A CN201810946352 A CN 201810946352A CN 109360656 A CN109360656 A CN 109360656A
Authority
CN
China
Prior art keywords
cancer
population
data
sample
individual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810946352.4A
Other languages
English (en)
Other versions
CN109360656B (zh
Inventor
程凡
陈加宾
张兴义
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui University
Original Assignee
Anhui University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui University filed Critical Anhui University
Priority to CN201810946352.4A priority Critical patent/CN109360656B/zh
Publication of CN109360656A publication Critical patent/CN109360656A/zh
Application granted granted Critical
Publication of CN109360656B publication Critical patent/CN109360656B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了一种基于多目标演化算法的癌症检测方法,包括:通过多目标进化算法筛选初始癌症数据集,得到癌症检测数据模型;通过多目标集成算法提高癌症检测数据模型的准确度,得到癌症检测集成数据模型;通过癌症检测集成数据模型对目标癌症数据集进行癌症检测。如此,大大提升第一前沿面上的解的压缩率,同时提升分类准确度,采用了多目标集成来提升算法性能,大大降低了所选出来的集成模型数目,通过多目标集成,进一步提升算法对癌症样本的分类准确度。

Description

一种基于多目标演化算法的癌症检测方法
技术领域
本发明涉及演化计算和分类学习技术领域,尤其涉及一种基于多目标演化算法的癌症检测方法。
背景技术
随着社会的发展,生活水平的提高,人们也越来越重视自己的身体健康。但是众多疾病却也一直威胁着人类的健康,影响人们的生活质量,像癌症,虽然医护人员可以从历史诊断的信息中判断出癌症,但是这是需要处理大量的信息和数据集合,那么如何有效并正确检测出癌症并进行相关治疗,成为了一项很重要的技术之一。又因为现实存在大量的医学数据信息,那么如何从中选出出重要的数据信息,来进行癌症检测是非常重要的。因此有必要从大量的医学数据中剔除掉噪音信息和冗余信息,筛选出重要的样本学习模型,来进行有效检测。
传统的基于wrapper和filter分类学习方法的对医学数据的压缩不够明显,依然存在大量的冗余和噪音信息,这使得训练分类的过程依然很耗时,同时分类的精度也待进一步提升。
发明内容
基于背景技术存在的技术问题,本发明提出了一种基于多目标演化算法的癌症检测方法;
本发明提出的一种基于多目标演化算法的癌症检测方法,包括:
S1、通过多目标进化算法筛选初始癌症数据集,得到癌症检测数据模型;
S2、通过多目标集成算法提高癌症检测数据模型的准确度,得到癌症检测集成数据模型;
S3、通过癌症检测集成数据模型对目标癌症数据集进行癌症检测。
优选地,步骤S1,具体包括:
S11、通过十折交叉将初始癌症数据集划分为训练集和测试集,对训练集上的样本通过超立方体拉丁抽样生成初始种群,其中,所述初始种群包含N个个体,所述癌症数据集最后一列为样本标签,初始种群采用二进制编码,初始种群中个体对应位为1表示选取该样本,为0表示不选取该样本;
S12、将训练集属性特征转换成分类器处理的格式,对训练集中数据进行归一化,对训练集中每个个体中数据进行训练得到SVM模型;
S13、通过多目标进化算法对初始种群进行种群进化,在进化到第一预设次数代时,引导种群的个体中局部信息指引进化,在进化到第二预设次数代时,获取第一前沿面上的解,从第一前沿面上的解中剔除掉压缩率低于预设压缩率的解,再对剩下的解中每个解的附近均匀局部扰动产生等量的一组解,对这组解进行非支配排序和拥挤距离计算后,选出N个解,得到癌症检测数据模型。
优选地,步骤S12中,所述对训练集中每个个体中数据进行训练得到SVM模型,具体包括:
采用的是libsvm中高斯核函数对训练集中每个个体中数据进行训练得到SVM模型,其中,C=1,γ=0.01,计算准确度f1和压缩率f2
T是整个训练集的大小,S是减少的训练集数目,yi是样本真实标签,yi *是样本预测标签,
优选地,步骤S13中,所述引导初始种群的个体中局部信息指引进化,具体包括:
获取种群中所有个体每一位上为1的数目S0,如果S0>S1,将种群中预设个数的个体中对应位置为1,如果S0<S2,就种群中预设为个数阈值个数的个体中对应位置为0,其中,S1、S2为预设的个数阈值。
优选地,步骤S2,具体包括:
S21、根据癌症检测数据模型的N个解随机初始化形成第二初始种群;
S22、通过多目标集成算法对第二初始种群进行种群进化,在进化到第二预设次数代时,从父代子代中通过非支配排序和拥挤距离选出最终pareto面上的一组解,得到癌症检测集成数据模型。
优选地,步骤S22中,通过多目标集成算法对第二初始种群进行种群进化的过程中,还包括:
计算第一个目标f1,f1为集成精度;
计算第二个目标f2其中,R1,R2,..Rn是每个模型对应的压缩率;
计算第三个目标f3其中,N是第二阶段的编码长度,n是选中的进行集成的模型的个数。
优选地,步骤S3,具体包括:通过癌症检测集成数据模型对已经归一化的目标癌症数据集进行癌症检测,即可判断目标癌症数据集中样本为癌症样本或正常样本。
本发明通过在第一步骤中大幅度剔除癌症数据中的噪音信息和冗余信息,然后再第二步骤中再进一步提升对癌症样本的分类准确度,第一步骤采用局部信息引导进化,在进化到中后期时,在种群中选出部分个体,根据种群中所有个体对应的在每一位上样本的选取情况,确定从种群中选出的部分个体中该位是置1还是0,如此,大大提升第一前沿面上的解的压缩率,同时提升分类准确度,第二步骤采用了多目标集成来提升算法性能,大大降低了所选出来的集成模型数目,通过第二步骤的多目标集成,进一步提升算法对癌症样本的分类准确度。
附图说明
图1为本发明提出的一种基于多目标演化算法的癌症检测方法的流程示意图;
图2为本发明中多目标进化算法的流程示意图。
具体实施方式
参照图1,本发明提出的一种基于多目标演化算法的癌症检测方法,包括:
步骤S1,通过多目标进化算法筛选初始癌症数据集,得到癌症检测数据模型,具体包括:
S11、通过十折交叉将初始癌症数据集划分为训练集和测试集,对训练集上的样本通过超立方体拉丁抽样生成初始种群,其中,所述初始种群包含N个个体,所述癌症数据集最后一列为样本标签,初始种群采用二进制编码,初始种群中个体对应位为1表示选取该样本,为0表示不选取该样本。
S12、将训练集属性特征转换成分类器处理的格式,对训练集中数据进行归一化,对训练集中每个个体中数据进行训练得到SVM模型,所述对训练集中每个个体中数据进行训练得到SVM模型,具体包括:
采用的是libsvm中高斯核函数对训练集中每个个体中数据进行训练得到SVM模型,其中,C=1,γ=0.01,计算准确度f1和压缩率f2
T是整个训练集的大小,S是减少的训练集数目,yi是样本真实标签,yi *是样本预测标签,
S13、通过多目标进化算法对初始种群进行种群进化,在进化到第一预设次数代时,引导种群的个体中局部信息指引进化,在进化到第二预设次数代时,获取第一前沿面上的解,从第一前沿面上的解中剔除掉压缩率低于预设压缩率的解,再对剩下的解中每个解的附近均匀局部扰动产生等量的一组解,对这组解进行非支配排序和拥挤距离计算后,选出N个解,得到癌症检测数据模型,所述引导初始种群的个体中局部信息指引进化,具体包括:获取种群中所有个体每一位上为1的数目S0,如果S0>S1,将种群中预设个数的个体中对应位置为1,如果S0<S2,就初始种群中预设为个数阈值个数的个体中对应位置为0,其中,S1、S2为预设的个数阈值。
在具体方案中,本发明采用的数据集来自于标准分类数据集,提高本发明中算法的有效性,通过十折交叉将初始癌症数据集划分为训练集和测试集,对训练集上的样本通过超立方体拉丁抽样生成初始种群,该种群包含N个个体,数据集中最后一列为样本标签,种群的编码方式是二进制编码,对于每一个个体,对应位为1表示选取该样本,为0表示不选取该样本。再对训练集进行标准化处理,将属性特征转换成分类器处理的格式,并对数据进行归一化,减少模型训练的计算复杂度。
在进化到第一预设次数代时,引导初始种群的个体中局部信息指引进化,局部信息引导进化的目的是把认为能影响分类性能的样本尽可能保存下来,同时剔除那些会影响模型分类性能的样本,提高压缩率。
参照图2,通过多目标进化算法对初始种群进行种群进化:选择,交叉,变异,直到达到预设的结束条件。
步骤S2,通过多目标集成算法提高癌症检测数据模型的准确度,得到癌症检测集成数据模型,具体包括:
S21、根据癌症检测数据模型的N个解随机初始化形成第二初始种群。
S22、通过多目标集成算法对第二初始种群进行种群进化,在进化到第二预设次数代时,从父代子代中通过非支配排序和拥挤距离选出最终pareto面上的一组解,得到癌症检测集成数据模型,通过多目标集成算法对第二初始种群进行种群进化的过程中,还包括:
计算第一个目标f1,f1为集成精度;
计算第二个目标f2其中,R1,R2,..Rn是每个模型对应的压缩率;
计算第三个目标f3其中,N是第二阶段的编码长度,n是选中的进行集成的模型的个数。
在具体方案中,根据步骤S1扰动并进行筛选解得到N个模型解,随机初始化生成第二初始种群,第二阶段编码方式也是二进制编码,每个个体中每一位是一个数据模型,也是对应第一阶段的一个训练子集,1表示选中对应数据模型,0表示不选取对应的数据模型,通过多目标集成算法对第二初始种群进行种群进化的过程中,希望f1、f2、f3越大越好。
步骤S3,通过癌症检测集成数据模型对目标癌症数据集进行癌症检测,具体包括:通过癌症检测集成数据模型对已经归一化的目标癌症数据集进行癌症检测,即可判断目标癌症数据集中样本为癌症样本或正常样本。
在具体方案中,将目标癌症数据集上的数据分类后,通过癌症检测集成数据模型对对已经归一化的目标癌症数据集进行检测,若预测标签为-1,即为肺癌样本,若预测标签为+1,则为正常样本。
本实施方式通过在第一步骤中大幅度剔除癌症数据中的噪音信息和冗余信息,然后再第二步骤中再进一步提升对癌症样本的分类准确度,第一步骤采用局部信息引导进化,在进化到中后期时,在种群中选出部分个体,根据种群中所有个体对应的在每一位上样本的选取情况,确定从种群中选出的部分个体中该位是置1还是0,通过这种方法,大大提升第一前沿面上的解的压缩率,同时提升分类准确度,第二步骤采用了多目标集成来提升算法性能,大大降低了所选出来的集成模型数目,通过第二步骤的多目标集成,进一步提升算法对癌症样本的分类准确度。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (7)

1.一种基于多目标演化算法的癌症检测方法,其特征在于,包括:
S1、通过多目标进化算法筛选初始癌症数据集,得到癌症检测数据模型;
S2、通过多目标集成算法提高癌症检测数据模型的准确度,得到癌症检测集成数据模型;
S3、通过癌症检测集成数据模型对目标癌症数据集进行癌症检测。
2.根据权利要求1所述的基于多目标演化算法的癌症检测方法,其特征在于,步骤S1,具体包括:
S11、通过十折交叉将初始癌症数据集划分为训练集和测试集,对训练集上的样本通过超立方体拉丁抽样生成初始种群,其中,所述初始种群包含N个个体,所述癌症数据集最后一列为样本标签,初始种群采用二进制编码,初始种群中个体对应位为1表示选取该样本,为0表示不选取该样本;
S12、将训练集属性特征转换成分类器处理的格式,对训练集中数据进行归一化,对训练集中每个个体中数据进行训练得到SVM模型;
S13、通过多目标进化算法对初始种群进行种群进化,在进化到第一预设次数代时,引导种群的个体中局部信息指引进化,在进化到第二预设次数代时,获取第一前沿面上的解,从第一前沿面上的解中剔除掉压缩率低于预设压缩率的解,再对剩下的解中每个解的附近均匀局部扰动产生等量的一组解,对这组解进行非支配排序和拥挤距离计算后,选出N个解,得到癌症检测数据模型。
3.根据权利要求2所述的基于多目标演化算法的癌症检测方法,其特征在于,步骤S12中,所述对训练集中每个个体中数据进行训练得到SVM模型,具体包括:
采用的是libsvm中高斯核函数对训练集中每个个体中数据进行训练得到SVM模型,其中,C=1,γ=0.01,计算准确度f1和压缩率f2
T是整个训练集的大小,S是减少的训练集数目,yi是样本真实标签,yi *是样本预测标签,
4.根据权利要求2所述的基于多目标演化算法的癌症检测方法,其特征在于,步骤S13中,所述引导初始种群的个体中局部信息指引进化,具体包括:
获取种群中所有个体每一位上为1的数目S0,如果S0>S1,将种群中预设个数的个体中对应位置为1,如果S0<S2,就种群中预设为个数阈值个数的个体中对应位置为0,其中,S1、S2为预设的个数阈值。
5.根据权利要求1所述的基于多目标演化算法的癌症检测方法,其特征在于,步骤S2,具体包括:
S21、根据癌症检测数据模型的N个解随机初始化形成第二初始种群;
S22、通过多目标集成算法对第二初始种群进行种群进化,在进化到第二预设次数代时,从父代子代中通过非支配排序和拥挤距离选出最终pareto面上的一组解,得到癌症检测集成数据模型。
6.根据权利要求1所述的基于多目标演化算法的癌症检测方法,其特征在于,步骤S22中,通过多目标集成算法对第二初始种群进行种群进化的过程中,还包括:
计算第一个目标f1,f1为集成精度;
计算第二个目标f2其中,R1,R2,..Rn是每个模型对应的压缩率;
计算第三个目标f3其中,N是第二阶段的编码长度,n是选中的进行集成的模型的个数。
7.根据权利要求1所述的基于多目标演化算法的癌症检测方法,其特征在于,步骤S3,具体包括:通过癌症检测集成数据模型对已经归一化的目标癌症数据集进行癌症检测,即可判断目标癌症数据集中样本为癌症样本或正常样本。
CN201810946352.4A 2018-08-20 2018-08-20 一种基于多目标演化算法的癌症检测方法 Active CN109360656B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810946352.4A CN109360656B (zh) 2018-08-20 2018-08-20 一种基于多目标演化算法的癌症检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810946352.4A CN109360656B (zh) 2018-08-20 2018-08-20 一种基于多目标演化算法的癌症检测方法

Publications (2)

Publication Number Publication Date
CN109360656A true CN109360656A (zh) 2019-02-19
CN109360656B CN109360656B (zh) 2021-11-02

Family

ID=65350068

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810946352.4A Active CN109360656B (zh) 2018-08-20 2018-08-20 一种基于多目标演化算法的癌症检测方法

Country Status (1)

Country Link
CN (1) CN109360656B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114300116A (zh) * 2021-11-10 2022-04-08 安徽大学 一种基于在线分类算法的鲁棒性病症检测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080103834A1 (en) * 2006-10-25 2008-05-01 Bruce Reiner Method and apparatus of providing a radiation scorecard
CN101248180A (zh) * 2005-04-18 2008-08-20 起源基因组学公司 作为检测日光照射、前列腺癌和其它癌症的诊断工具的线粒体突变及重排
CN105793852A (zh) * 2013-12-04 2016-07-20 M·奥利尼克 具有海量医疗分析的医疗处理计算机规划方法和系统
CN106997553A (zh) * 2017-04-12 2017-08-01 安徽大学 一种基于多目标优化的商品组合模式的挖掘方法
CN108154509A (zh) * 2018-01-12 2018-06-12 平安科技(深圳)有限公司 癌症识别方法、装置及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101248180A (zh) * 2005-04-18 2008-08-20 起源基因组学公司 作为检测日光照射、前列腺癌和其它癌症的诊断工具的线粒体突变及重排
US20080103834A1 (en) * 2006-10-25 2008-05-01 Bruce Reiner Method and apparatus of providing a radiation scorecard
CN105793852A (zh) * 2013-12-04 2016-07-20 M·奥利尼克 具有海量医疗分析的医疗处理计算机规划方法和系统
CN106997553A (zh) * 2017-04-12 2017-08-01 安徽大学 一种基于多目标优化的商品组合模式的挖掘方法
CN108154509A (zh) * 2018-01-12 2018-06-12 平安科技(深圳)有限公司 癌症识别方法、装置及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张兴义 等: "基于权值向量的偏好多目标优化方法", 《电子学报》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114300116A (zh) * 2021-11-10 2022-04-08 安徽大学 一种基于在线分类算法的鲁棒性病症检测方法
CN114300116B (zh) * 2021-11-10 2023-11-28 安徽大学 一种基于在线分类算法的鲁棒性病症检测方法

Also Published As

Publication number Publication date
CN109360656B (zh) 2021-11-02

Similar Documents

Publication Publication Date Title
CN111160139B (zh) 心电信号的处理方法、装置及终端设备
CN109543526B (zh) 基于深度差异性特征的真假面瘫识别系统
CN108595585B (zh) 样本数据分类方法、模型训练方法、电子设备及存储介质
WO2020248847A1 (zh) 智能心脏疾病检测方法、装置及计算机可读存储介质
CN109920501A (zh) 基于卷积神经网络和主动学习的电子病历分类方法及系统
CN111476774B (zh) 基于新型冠状病毒肺炎ct检测的智能征象识别装置
CN110162779A (zh) 病历质量的评估方法、装置及设备
CN107832737A (zh) 基于人工智能的心电图干扰识别方法
Shorfuzzaman et al. An explainable deep learning ensemble model for robust diagnosis of diabetic retinopathy grading
EP3422222B1 (en) Method and state machine system for detecting an operation status for a sensor
CN117272204A (zh) 异常数据检测方法、装置、存储介质和电子设备
CN113261975B (zh) 一种基于深度学习的心电分类方法
Nhu et al. Automated interictal epileptiform discharge detection from scalp EEG using scalable time-series classification approaches
Bock et al. Investigating (re) current state-of-the-art in human activity recognition datasets
CN109360656A (zh) 一种基于多目标演化算法的癌症检测方法
Rahman et al. Deep learning-based left ventricular ejection fraction estimation from echocardiographic videos
venkatesh Chilukoti et al. Diabetic retinopathy detection using transfer learning from pre-trained convolutional neural network models
CN107595305A (zh) 焦虑状态检测方法及装置
Swaminathan et al. GAN Based Image Segmentation and Classification Using Vgg16 for Prediction of Lung Cancer
Biswas et al. XAI-FusionNet: Diabetic foot ulcer detection based on multi-scale feature fusion with explainable artificial intelligence
CN112022142B (zh) 心电信号类型识别方法、装置及介质
CN112686091A (zh) 基于深度神经网络的两步骤心律失常分类方法
Srilakshmi et al. Forecasting Congestive Heart Failure using Deep Learning
CN111599427A (zh) 一种一元化诊断的推荐方法、装置、电子设备及存储介质
Sharma Heart diseases prediction using hybrid ensemble learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant