CN113642613B - 基于改进樽海鞘群算法的医学疾病特征选择方法 - Google Patents
基于改进樽海鞘群算法的医学疾病特征选择方法 Download PDFInfo
- Publication number
- CN113642613B CN113642613B CN202110834402.1A CN202110834402A CN113642613B CN 113642613 B CN113642613 B CN 113642613B CN 202110834402 A CN202110834402 A CN 202110834402A CN 113642613 B CN113642613 B CN 113642613B
- Authority
- CN
- China
- Prior art keywords
- generation
- individual
- population
- sea squirt
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 39
- 201000010099 disease Diseases 0.000 title claims abstract description 27
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 title claims abstract description 27
- 238000010187 selection method Methods 0.000 title claims abstract description 10
- 241000251555 Tunicata Species 0.000 title claims description 98
- 238000000034 method Methods 0.000 claims abstract description 35
- 230000008569 process Effects 0.000 claims abstract description 13
- 241000282461 Canis lupus Species 0.000 claims abstract description 5
- 238000006243 chemical reaction Methods 0.000 claims abstract description 5
- 108090000623 proteins and genes Proteins 0.000 claims description 47
- 241000277334 Oncorhynchus Species 0.000 claims description 24
- 238000012549 training Methods 0.000 claims description 24
- 238000012795 verification Methods 0.000 claims description 21
- 238000002493 microarray Methods 0.000 claims description 20
- 241000798368 Ecteinascidia Species 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000009467 reduction Effects 0.000 claims description 6
- 238000010200 validation analysis Methods 0.000 claims description 6
- 238000002790 cross-validation Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 241000894007 species Species 0.000 claims description 3
- 238000000528 statistical test Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 abstract description 6
- 230000008901 benefit Effects 0.000 abstract description 5
- 241001123263 Zostera Species 0.000 abstract 3
- 230000002028 premature Effects 0.000 abstract 1
- 230000006870 function Effects 0.000 description 14
- 241000251557 Ascidiacea Species 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 4
- 238000007635 classification algorithm Methods 0.000 description 3
- 238000013145 classification model Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 206010006187 Breast cancer Diseases 0.000 description 1
- 208000026310 Breast neoplasm Diseases 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000013399 early diagnosis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000002431 foraging effect Effects 0.000 description 1
- 230000004547 gene signature Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007786 learning performance Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/12—Computing arrangements based on biological models using genetic models
- G06N3/126—Evolutionary algorithms, e.g. genetic algorithms or genetic programming
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2137—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on criteria of topology preservation, e.g. multidimensional scaling or self-organising maps
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24147—Distances to closest patterns, e.g. nearest neighbour classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/40—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for data related to laboratory analysis, e.g. patient specimen analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Primary Health Care (AREA)
- Epidemiology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Physiology (AREA)
- Genetics & Genomics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种基于改进樽海鞘群算法的医学疾病特征选择方法,使用改进樽海鞘群算法来优化特征选择问题,通过转换函数和K‑近邻算法分类来评估所提方法的准确性,通过使用自适应控制参数和精英灰狼统治策略对樽海鞘群算法进行改进,以此帮助算法在优化过程中避免过早收敛,跳出局部最优,实现算法选择特征数量最少且分类精度最高的目标;优点是收敛速度快,具有更高分类精度和较好的鲁棒性的。
Description
技术领域
本发明涉及一种医学疾病的特征选择方法,尤其是涉及一种基于改进樽海鞘群算法的医学疾病特征选择方法。
背景技术
随着基因芯片技术在医学领域被广泛应用,大量微阵列数据被迅速积累,通过对这些数据进行分析并构建有效的分类模型,对一些潜在病患的早期诊断和临床治疗具有重要的研究意义和应用价值。然而,微阵列基因数据集具有“高维小样本”的特点,如乳腺癌微阵列基因数据集包含了两千多个基因特征。面对如此大规模的微阵列基因数据集,专家在短时间内不能直接进行分析和诊断治疗。此外,大多基因数据通常含有一些冗余或噪声数据,这些信息可能会极大地降低分类算法学习的性能,效率变低,而且会影响医疗的诊断。特征选择作为一种有效的降维方式,在生物医学领域已经引起广泛的关注并成为近年来生物信息学领域的研究热点。特征选择技术是对微阵列基因数据集进行适当分析和分类的关键步骤,如果没有合适的特征选择方法,现有的分类模型很难准确捕获重要信息。本质上,特征选择问题作为一个典型的全局寻优问题,是最重要环节之一。与其他降维技术不同,特征选择并不改变变量特征的原始表示,而仅是选择它们中的子集。因此,特征选择保留了原来的变量情况,可以提供进一步对特征数据进行解释的优势。此外,分类算法的复杂度和预测效果与样本特征息息相关,其中样本特征的冗余性与相关性会导致预测能力下降,同时特征维度的大小也影响着分类算法的运算速度。
特征选择实质上也是一个组合优化问题。常规的优化算法,诸如解析法,不仅对目标函数要求连续且可微,而且得到的最优解往往达不到需求的精度;枚举法,虽然克服这些缺点,但计算效率太低。即便是相当著名的动态规划法,也会遇到“指数爆炸”问题,对于中等规模及适度复杂性问题,也常常表现乏力。因此,如果能创新性地将群智能算法的寻优能力运用于特征选择问题中,将会给医学疾病特征的分析提供一个有力的解释工具。
目前已有许多研究者应用群智能算法辅助寻找特征子集,并取得了显著的效果。樽海鞘群算法(Salp Swarm Algorithm,SSA)是一种新兴的启发式群体智能算法,它受樽海鞘觅食过程启发,包括接近食物、包裹食物和搜索食物三个阶段,实现对整个搜索空间的不断探索和开发。然而,SSA在搜索特征子集的过程中,仍存在陷入局部最优,过早收敛的现象,最终会导致特征子集的选择准确度降低。
因此,有必要提供一种改进樽海鞘群算法,能解决樽海鞘群算法的陷入局部最优解、收敛速度慢等问题,实现对医学疾病特征的更精确、更高效的分类及预测。
发明内容
本发明所要解决的技术问题是提供一种收敛速度快,具有更高分类精度和较好的鲁棒性的基于改进樽海鞘群算法的医学疾病特征选择方法。
本发明解决上述技术问题所采用的技术方案为:一种基于改进樽海鞘群算法的医学疾病特征选择方法,包括以下步骤:
步骤S1、获取医学疾病的微阵列基因数据集,将医学疾病的微阵列基因数据集的行数记为m,列数记为n,即获得的医学疾病的微阵列基因数据集由m×n个基因特征数据按照m行n列排布形成;使用10-交叉验证函数将医学疾病的微阵列基因数据集按行数随机分割成10个子集,每个子集的行数大于等于1,列数均为n,从10个子集中随机选择一子集为验证集,其余子集为训练集;
步骤S2、定义一个母樽海鞘种群Y,母樽海鞘种群Y的规模大小为M=20,即母樽海鞘种群Y中存在M个个体,母樽海鞘种群Y中的每个个体分别采用由n个维度值按照1行n列排布形成的数据矩阵来表示,再使用0到1之间的随机数对母樽海鞘种群Y中的每个个体的每个维度值分别进行初始化赋值,得到第0代母樽海鞘种群Y0;
步骤S3、设定全局最优适应度值为best,将best初始化赋值为正无穷大,设全局最优个体为bestposition,将bestposition初始设置为1行n列的数据矩阵[0,0,0,…,0];
步骤S4、设母樽海鞘种群迭代的最大次数为T=50,设定迭代次数变量t,将t初始设置为1;
步骤S5、对母樽海鞘种群进行第t次迭代,具体迭代过程为:
步骤S5.1、将t-1代母樽海鞘种群Yt-1中每个个体的每个维度值分别通过公式(1)-(2)所示的转换函数转换成0或者1,得到第t代二进制樽海鞘种群Bt:
其中,表示第t-1代母樽海鞘种群的第i个个体的第j列维度值,i=1,2,3,…,M,j=1,2,3,…,n,/>表示第t代二进制樽海鞘种群的第i个个体的第j列维度值,r是0到1之间的的随机数,每次运算前通过随机函数生成,e是自然常数;
步骤S5.2、构建第t-1代母樽海鞘种群中每个个体的特征子集,具体过程为:分别判断第t代二进制樽海鞘种群中第i个个体中每列维度值是否为1,如果为1,则验证集和9个训练集中位于该列的基因特征数据被选择,如果为0,则验证集和9个训练集中位于该列的基因特征数据不被选择,将验证集中所有未被选择列的基因特征数据删除后剩余部分作为第t-1代母樽海鞘种群中第i个个体的验证集的特征子集,将9个训练集中所有未被选择列的基因特征数据删除后剩余部分作为第t-1代母樽海鞘种群中第i个个体的9个训练集的特征子集,由此得到第t-1代母樽海鞘种群中每个个体的验证集的特征子集和9个训练集的特征子集;
步骤S5.3、采用公式(3)和公式(4)计算第t-1代母樽海鞘种群中每个个体的适应度值,并将第t-1代母樽海鞘种群中的所有个体按照适应度值从小到大进行排序,将其中最小的适应度值记为bFt-1,适应度值最小的个体作为当前最优个体,记为bPt-1;
其中,表示第t-1代母樽海鞘种群的第i个个体的适应度值,a表示分类准确权重,设置为0.05,b表示最佳特征选择数权重,a和b的关系为a+b=1,/>表示第t代二进制樽海鞘种群的第i个个体中维度值为1的总列数,/>表示在K-近邻算法下获得的第i个个体的分类精确度,/>和/>通过采用K-近邻算法对第t-1代母樽海鞘种群中第i个个体的验证集的特征子集中的数据和9个训练集的特征子集中的数据进行分类统计检验后得到,/>表示验证集的特征子集的数据分类正确的数目,/>表示验证集的特征子集的数据分类分类错误的数目;
步骤S5.4、采用公式(5)对第t代二进制樽海鞘种群Bt的第1个个体到第M/2个个体中每个维度值分别进行更新,得到第t代初始樽海鞘种群Ft的第1个个体到M/2个个体:
其中,k=1,2,3,…,M/2,r1t和r2t分别为通过随机函数产生的位于0到1之间的随机数,ct是控制参数,采用公式(6)表示,表示当前最优个体bPt-1的第j列维度值,/>表示第t代初始樽海鞘种群Ft的第k个个体的第j列维度值,e为自然常数;
步骤S5.5、利用自适应控制参数,采用公式(7)对第t代二进制樽海鞘种群Bt的第M/2+1个个体到第M个个体的每个维度值分别进行更新,得到第t代初始樽海鞘种群Ft的第M/2+1个体到第M个个体:
其中,d=M/2+1,M/2+2,M/2+3,…,M,表示第t代二进制樽海鞘种群Bt的第d个个体,/>表示第t代二进制樽海鞘种群Bt的第d-1个个体,/>表示第t代初始樽海鞘种群Ft的第d个个体,pi指的是圆周率,cos表示余弦函数;
步骤S5.6、采用步骤S5.1~步骤S5.3相同的方法计算第t代初始樽海鞘种群Ft的每个个体的适应度值,并将第t代初始樽海鞘种群Ft中所有个体按照适应度值从小到大进行排序,将其中适应度值最小的个体记为firt,适应度值第二小的个体记为sect,适应度第三小的个体记为thit;
步骤S5.7、基于精英灰狼统治策略,采用公式(8)-(16)对第t代初始樽海鞘种群Ft进行探索开发,得到第t代中间樽海鞘种群Gt:
At=2βt×r4t-βt (10)
其中,r3t和r4t分别为通过随机函数产生的位于0到1之间的随机数,At和βt都是一个向量系数,表示第t代初始樽海鞘种群Ft中适应度值最小的个体的第j列维度值,/>表示第t代初始樽海鞘种群Ft中适应度值第二小的个体的第j列维度值,/>表示第t代初始樽海鞘种群Ft中适应度值第三小的个体的第j列维度值,/>表示第t代初始樽海鞘种群Ft中第i个个体的第j列维度值,/>表示第t代中间樽海鞘种群Gt中第i个个体的第j列维度值;
步骤S5.8、采用步骤S5.1~步骤S5.3相同的方法计算第t代中间樽海鞘种群Gt的适应度值,将第t代初始樽海鞘种群Ft的M个个体和第t代中间樽海鞘种群Gt的M个个体组合在一起,共2M个个体按照其适应度值从小到大顺序进行排序,选出适应度值较小的M个个体,将这M个个体随机排列作为第t次迭代得到第t代樽海鞘种群Yt;
步骤S5.9、将第t代樽海鞘种群Yt的最小适应度值与全局最优适应度值best比较,如果小于全局最优适应度值best,则采用该最小适应度值更新best,并将该最小适应度值对应的个体作为全局最优个体bestposition,如果不小于全局最优适应度值best,则全局最优适应度值best和全局最优个体bestposition保持不变,第t次迭代结束;
步骤S6、判断t的当前值是否等于T,如果不等于,则采用t的当前值加1的和更新t的值,然后返回步骤S5,进入下一次迭代;如果等于T,则迭代过程结束,确定当前全局最优个体bestposition的第1列到第n列中维度值为1的列,对应的将医学疾病的微阵列基因数据集中位于这些列的基因特征数据提取出来构成一个选择数据集,此时得到的选择数据集就是降维后的医学疾病的基因特征数据集。
与现有技术相比,本发明的优点在于使用改进樽海鞘群算法来优化特征选择问题,通过转换函数和K-近邻算法分类来评估所提方法的准确性,通过使用自适应控制参数和精英灰狼统治策略对樽海鞘群算法进行改进,以此帮助算法在优化过程中避免过早收敛,跳出局部最优,实现算法选择特征数量最少且分类精度最高的目标,由此本发明方法收敛速度快,具有更高分类精度和较好的鲁棒性的。
具体实施方式
以下结合实施例对本发明作进一步详细描述。
实施例:一种基于改进樽海鞘群算法的医学疾病特征选择方法,包括以下步骤:
步骤S1、获取医学疾病的微阵列基因数据集,将医学疾病的微阵列基因数据集的行数记为m,列数记为n,即获得的医学疾病的微阵列基因数据集由m×n个基因特征数据按照m行n列排布形成;使用10-交叉验证函数将医学疾病的微阵列基因数据集按行数随机分割成10个子集,每个子集的行数大于等于1,列数均为n,从10个子集中随机选择一子集为验证集,其余子集为训练集;
步骤S2、定义一个母樽海鞘种群Y,母樽海鞘种群Y的规模大小为M=20,即母樽海鞘种群Y中存在M个个体,母樽海鞘种群Y中的每个个体分别采用由n个维度值按照1行n列排布形成的数据矩阵来表示,再使用0到1之间的随机数对母樽海鞘种群Y中的每个个体的每个维度值分别进行初始化赋值,得到第0代母樽海鞘种群Y0;
步骤S3、设定全局最优适应度值为best,将best初始化赋值为正无穷大,设全局最优个体为bestposition,将bestposition初始设置为1行n列的数据矩阵[0,0,0,…,0];
步骤S4、设母樽海鞘种群迭代的最大次数为T=50,设定迭代次数变量t,将t初始设置为1;
步骤S5、对母樽海鞘种群进行第t次迭代,具体迭代过程为:
步骤S5.1、将t-1代母樽海鞘种群Yt-1中每个个体的每个维度值分别通过公式(1)-(2)所示的转换函数转换成0或者1,得到第t代二进制樽海鞘种群Bt:
其中,表示第t-1代母樽海鞘种群的第i个个体的第j列维度值,i=1,2,3,…,M,j=1,2,3,…,n,/>表示第t代二进制樽海鞘种群的第i个个体的第j列维度值,r是0到1之间的的随机数,每次运算前通过随机函数生成,e是自然常数;
步骤S5.2、构建第t-1代母樽海鞘种群中每个个体的特征子集,具体过程为:分别判断第t代二进制樽海鞘种群中第i个个体中每列维度值是否为1,如果为1,则验证集和9个训练集中位于该列的基因特征数据被选择,如果为0,则验证集和9个训练集中位于该列的基因特征数据不被选择,将验证集中所有未被选择列的基因特征数据删除后剩余部分作为第t-1代母樽海鞘种群中第i个个体的验证集的特征子集,将9个训练集中所有未被选择列的基因特征数据删除后剩余部分作为第t-1代母樽海鞘种群中第i个个体的9个训练集的特征子集,由此得到第t-1代母樽海鞘种群中每个个体的验证集的特征子集和9个训练集的特征子集;
步骤S5.3、采用公式(3)和公式(4)计算第t-1代母樽海鞘种群中每个个体的适应度值,并将第t-1代母樽海鞘种群中的所有个体按照适应度值从小到大进行排序,将其中最小的适应度值记为bFt-1,适应度值最小的个体作为当前最优个体,记为bPt-1;
其中,表示第t-1代母樽海鞘种群的第i个个体的适应度值,a表示分类准确权重,设置为0.05,b表示最佳特征选择数权重,a和b的关系为a+b=1,/>表示第t代二进制樽海鞘种群的第i个个体中维度值为1的总列数,/>表示在K-近邻算法下获得的第i个个体的分类精确度,/>和/>通过采用K-近邻算法对第t-1代母樽海鞘种群中第i个个体的验证集的特征子集中的数据和9个训练集的特征子集中的数据进行分类统计检验后得到,/>表示验证集的特征子集的数据分类正确的数目,/>表示验证集的特征子集的数据分类分类错误的数目;
步骤S5.4、采用公式(5)对第t代二进制樽海鞘种群Bt的第1个个体到第M/2个个体中每个维度值分别进行更新,得到第t代初始樽海鞘种群Ft的第1个个体到M/2个个体:
其中,k=1,2,3,…,M/2,r1t和r2t分别为通过随机函数产生的位于0到1之间的随机数,ct是控制参数,采用公式(6)表示,表示当前最优个体bPt-1的第j列维度值,/>表示第t代初始樽海鞘种群Ft的第k个个体的第j列维度值,e为自然常数;
步骤S5.5、利用自适应控制参数,采用公式(7)对第t代二进制樽海鞘种群Bt的第M/2+1个个体到第M个个体的每个维度值分别进行更新,得到第t代初始樽海鞘种群Ft的第M/2+1个体到第M个个体:
其中,d=M/2+1,M/2+2,M/2+3,…,M,表示第t代二进制樽海鞘种群Bt的第d个个体,/>表示第t代二进制樽海鞘种群Bt的第d-1个个体,/>表示第t代初始樽海鞘种群Ft的第d个个体,pi指的是圆周率,cos表示余弦函数;
步骤S5.6、采用步骤S5.1~步骤S5.3相同的方法计算第t代初始樽海鞘种群Ft的每个个体的适应度值,并将第t代初始樽海鞘种群Ft中所有个体按照适应度值从小到大进行排序,将其中适应度值最小的个体记为firt,适应度值第二小的个体记为sect,适应度第三小的个体记为thit;
步骤S5.7、基于精英灰狼统治策略,采用公式(8)-(16)对第t代初始樽海鞘种群Ft进行探索开发,得到第t代中间樽海鞘种群Gt:
At=2βt×r4t-βt (10)
其中,r3t和r4t分别为通过随机函数产生的位于0到1之间的随机数,At和βt都是一个向量系数,表示第t代初始樽海鞘种群Ft中适应度值最小的个体的第j列维度值,/>表示第t代初始樽海鞘种群Ft中适应度值第二小的个体的第j列维度值,/>表示第t代初始樽海鞘种群Ft中适应度值第三小的个体的第j列维度值,/>表示第t代初始樽海鞘种群Ft中第i个个体的第j列维度值,/>表示第t代中间樽海鞘种群Gt中第i个个体的第j列维度值;
步骤S5.8、采用步骤S5.1~步骤S5.3相同的方法计算第t代中间樽海鞘种群Gt的适应度值,将第t代初始樽海鞘种群Ft的M个个体和第t代中间樽海鞘种群Gt的M个个体组合在一起,共2M个个体按照其适应度值从小到大顺序进行排序,选出适应度值较小的M个个体,将这M个个体随机排列作为第t次迭代得到第t代樽海鞘种群Yt;
步骤S5.9、将第t代樽海鞘种群Yt的最小适应度值与全局最优适应度值best比较,如果小于全局最优适应度值best,则采用该最小适应度值更新best,并将该最小适应度值对应的个体作为全局最优个体BEstPosition,如果不小于全局最优适应度值best,则全局最优适应度值best和全局最优个体Bestposition保持不变,第t次迭代结束;
步骤S6、判断t的当前值是否等于T,如果不等于,则采用t的当前值加1的和更新t的值,然后返回步骤S5,进入下一次迭代;如果等于T,则迭代过程结束,确定当前全局最优个体bestposition的第1列到第n列中维度值为1的列,对应的将医学疾病的微阵列基因数据集中位于这些列的基因特征数据提取出来构成一个选择数据集,此时得到的选择数据集就是降维后的医学疾病的基因特征数据集。
以下以UCI机器学习库中四个数据集D1-_D4为例,分别采用本发明的方法与采用现有的樽海鞘群算法来进行对比分析,其中四个数据集D1-_D4的具体信息如表1所示,本发明的方法(AGSSA)与现有的樽海鞘群算法(SSA)分别得到的适应度值的结果如表2所示,在适应度值最小时,选择的特征数量如表3所示,适应度值最小时,基于K-近邻算法选择的特征数量的错误率如表4所示:
表1
表2
表3
表4
从上面数据可以看到在四个数据集上,本发明的方法的适应度值最小,表明该方法在特征选择问题上具有较好的优化性能。从选择特征数量数据可以看到在四个数据集上,本发明所提改进樽海鞘群算法的数量选择也小于原始樽海鞘群算法,表面我们对算法的改进是有效的,可以帮助算法跳出局部最优,增大找到最优解的可能性。而从错误率数据上可以看到,本发明的方法的特征选择分类错误率也是比原始SSA小,这也体现所提算法在优化这类问题上具有优越性。
Claims (1)
1.一种基于改进樽海鞘群算法的医学疾病特征选择方法,其特征在于包括以下步骤:
步骤S1、获取医学疾病的微阵列基因数据集,将医学疾病的微阵列基因数据集的行数记为m,列数记为n,即获得的医学疾病的微阵列基因数据集由m×n个基因特征数据按照m行n列排布形成;使用10-交叉验证函数将医学疾病的微阵列基因数据集按行数随机分割成10个子集,每个子集的行数大于等于1,列数均为n,从10个子集中随机选择一子集为验证集,其余子集为训练集;
步骤S2、定义一个母樽海鞘种群Y,母樽海鞘种群Y的规模大小为M=20,即母樽海鞘种群Y中存在M个个体,母樽海鞘种群Y中的每个个体分别采用由n个维度值按照1行n列排布形成的数据矩阵来表示,再使用0到1之间的随机数对母樽海鞘种群Y中的每个个体的每个维度值分别进行初始化赋值,得到第0代母樽海鞘种群Y0;
步骤S3、设定全局最优适应度值为best,将best初始化赋值为正无穷大,设全局最优个体为bestposition,将bestposition初始设置为1行n列的数据矩阵[0,0,0,…,0];
步骤S4、设母樽海鞘种群迭代的最大次数为T=50,设定迭代次数变量t,将t初始设置为1;
步骤S5、对母樽海鞘种群进行第t次迭代,具体迭代过程为:
步骤S5.1、将t-1代母樽海鞘种群Yt-1中每个个体的每个维度值分别通过公式(1)-(2)所示的转换函数转换成0或者1,得到第t代二进制樽海鞘种群Bt:
其中,表示第t-1代母樽海鞘种群的第i个个体的第j列维度值,i=1,2,3,…,M,j=1,2,3,…,n,/>表示第t代二进制樽海鞘种群的第i个个体的第j列维度值,r是0到1之间的的随机数,每次运算前通过随机函数生成,e是自然常数;
步骤S5.2、构建第t-1代母樽海鞘种群中每个个体的特征子集,具体过程为:分别判断第t代二进制樽海鞘种群中第i个个体中每列维度值是否为1,如果为1,则验证集和9个训练集中位于该列的基因特征数据被选择,如果为0,则验证集和9个训练集中位于该列的基因特征数据不被选择,将验证集中所有未被选择列的基因特征数据删除后剩余部分作为第t-1代母樽海鞘种群中第i个个体的验证集的特征子集,将9个训练集中所有未被选择列的基因特征数据删除后剩余部分作为第t-1代母樽海鞘种群中第i个个体的9个训练集的特征子集,由此得到第t-1代母樽海鞘种群中每个个体的验证集的特征子集和9个训练集的特征子集;
步骤S5.3、采用公式(3)和公式(4)计算第t-1代母樽海鞘种群中每个个体的适应度值,并将第t-1代母樽海鞘种群中的所有个体按照适应度值从小到大进行排序,将其中最小的适应度值记为bFt-1,适应度值最小的个体作为当前最优个体,记为bPt-1;
其中,表示第t-1代母樽海鞘种群的第i个个体的适应度值,a表示分类准确权重,设置为0.05,b表示最佳特征选择数权重,a和b的关系为a+b=1,/>表示第t代二进制樽海鞘种群的第i个个体中维度值为1的总列数,/>表示在K-近邻算法下获得的第i个个体的分类精确度,/>和/>通过采用K-近邻算法对第t-1代母樽海鞘种群中第i个个体的验证集的特征子集中的数据和9个训练集的特征子集中的数据进行分类统计检验后得到,/>表示验证集的特征子集的数据分类正确的数目,/>表示验证集的特征子集的数据分类分类错误的数目;
步骤S5.4、采用公式(5)对第t代二进制樽海鞘种群Bt的第1个个体到第M/2个个体中每个维度值分别进行更新,得到第t代初始樽海鞘种群Ft的第1个个体到M/2个个体:
其中,k=1,2,3,…,M/2,r1t和r2t分别为通过随机函数产生的位于0到1之间的随机数,ct是控制参数,采用公式(6)表示,表示当前最优个体bPt-1的第j列维度值,/>表示第t代初始樽海鞘种群Ft的第k个个体的第j列维度值,e为自然常数;
步骤S5.5、利用自适应控制参数,采用公式(7)对第t代二进制樽海鞘种群Bt的第M/2+1个个体到第M个个体的每个维度值分别进行更新,得到第t代初始樽海鞘种群Ft的第M/2+1个体到第M个个体:
其中,d=M/2+1,M/2+2,M/2+3,…,M,表示第t代二进制樽海鞘种群Bt的第d个个体,表示第t代二进制樽海鞘种群Bt的第d-1个个体,/>表示第t代初始樽海鞘种群Ft的第d个个体,指的是圆周率,cos表示余弦函数;
步骤S5.6、采用步骤S5.1~步骤S5.3相同的方法计算第t代初始樽海鞘种群Ft的每个个体的适应度值,并将第t代初始樽海鞘种群Ft中所有个体按照适应度值从小到大进行排序,将其中适应度值最小的个体记为firt,适应度值第二小的个体记为sect,适应度第三小的个体记为tht;
步骤S5.7、基于精英灰狼统治策略,采用公式(8)-(16)对第t代初始樽海鞘种群Ft进行探索开发,得到第t代中间樽海鞘种群Gt:
At=2βt×r4t-βt (10)
其中,r3t和r4t分别为通过随机函数产生的位于0到1之间的随机数,At和βt都是一个向量系数,表示第t代初始樽海鞘种群Ft中适应度值最小的个体的第j列维度值,/>表示第t代初始樽海鞘种群Ft中适应度值第二小的个体的第j列维度值,/>表示第t代初始樽海鞘种群Ft中适应度值第三小的个体的第j列维度值,/>表示第t代初始樽海鞘种群Ft中第i个个体的第j列维度值,/>表示第t代中间樽海鞘种群Gt中第i个个体的第j列维度值;
步骤S5.8、采用步骤S5.1~步骤S5.3相同的方法计算第t代中间樽海鞘种群Gt的适应度值,将第t代初始樽海鞘种群Ft的M个个体和第t代中间樽海鞘种群Gt的M个个体组合在一起,共2M个个体按照其适应度值从小到大顺序进行排序,选出适应度值较小的M个个体,将这M个个体随机排列作为第t次迭代得到第t代樽海鞘种群Yt;
步骤S5.9、将第t代樽海鞘种群Yt的最小适应度值与全局最优适应度值best比较,如果小于全局最优适应度值best,则采用该最小适应度值更新best,并将该最小适应度值对应的个体作为全局最优个体bestposition,如果不小于全局最优适应度值best,则全局最优适应度值best和全局最优个体bestposition保持不变,第t次迭代结束;
步骤S6、判断t的当前值是否等于T,如果不等于,则采用t的当前值加1的和更新t的值,然后返回步骤S5,进入下一次迭代;如果等于T,则迭代过程结束,确定当前全局最优个体bestposition的第1列到第n列中维度值为1的列,对应的将医学疾病的微阵列基因数据集中位于这些列的基因特征数据提取出来构成一个选择数据集,此时得到的选择数据集就是降维后的医学疾病的基因特征数据集。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110834402.1A CN113642613B (zh) | 2021-07-23 | 2021-07-23 | 基于改进樽海鞘群算法的医学疾病特征选择方法 |
US17/860,077 US20230029947A1 (en) | 2021-07-23 | 2022-07-07 | Medical disease feature selection method based on improved salp swarm algorithm |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110834402.1A CN113642613B (zh) | 2021-07-23 | 2021-07-23 | 基于改进樽海鞘群算法的医学疾病特征选择方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113642613A CN113642613A (zh) | 2021-11-12 |
CN113642613B true CN113642613B (zh) | 2023-10-10 |
Family
ID=78418134
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110834402.1A Active CN113642613B (zh) | 2021-07-23 | 2021-07-23 | 基于改进樽海鞘群算法的医学疾病特征选择方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20230029947A1 (zh) |
CN (1) | CN113642613B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114881678A (zh) * | 2022-03-10 | 2022-08-09 | 南京邮电大学 | 一种基于大数据技术的高精度物流企业客户画像方法 |
CN117637154B (zh) * | 2024-01-27 | 2024-03-29 | 南通大学附属医院 | 一种基于优化算法的神经内科重症指标预测方法及系统 |
CN117766155B (zh) * | 2024-02-22 | 2024-05-10 | 中国人民解放军海军青岛特勤疗养中心 | 基于人工智能的动态血压医疗数据处理系统 |
CN118194287B (zh) * | 2024-05-16 | 2024-07-19 | 山东科技大学 | 一种安卓恶意软件类别检测方法、系统、装置和存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018072351A1 (zh) * | 2016-10-20 | 2018-04-26 | 北京工业大学 | 一种基于粒子群优化算法对支持向量机的优化方法 |
CN112085059A (zh) * | 2020-08-06 | 2020-12-15 | 温州大学 | 一种基于改进正余弦优化算法的乳腺癌图像特征选择方法 |
-
2021
- 2021-07-23 CN CN202110834402.1A patent/CN113642613B/zh active Active
-
2022
- 2022-07-07 US US17/860,077 patent/US20230029947A1/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018072351A1 (zh) * | 2016-10-20 | 2018-04-26 | 北京工业大学 | 一种基于粒子群优化算法对支持向量机的优化方法 |
CN112085059A (zh) * | 2020-08-06 | 2020-12-15 | 温州大学 | 一种基于改进正余弦优化算法的乳腺癌图像特征选择方法 |
Non-Patent Citations (1)
Title |
---|
陈忠云 ; 张达敏 ; 辛梓芸 ; .正弦余弦算法的樽海鞘群算法.计算机应用与软件.2020,(第09期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
US20230029947A1 (en) | 2023-02-02 |
CN113642613A (zh) | 2021-11-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113642613B (zh) | 基于改进樽海鞘群算法的医学疾病特征选择方法 | |
Chakraborty et al. | Novel enhanced-grey wolf optimization hybrid machine learning technique for biomedical data computation | |
Huang et al. | Gene extraction for cancer diagnosis by support vector machines—an improvement | |
Unler et al. | mr2PSO: A maximum relevance minimum redundancy feature selection method based on swarm intelligence for support vector machine classification | |
Bonilla-Huerta et al. | Hybrid framework using multiple-filters and an embedded approach for an efficient selection and classification of microarray data | |
CN113113130A (zh) | 一种肿瘤个体化诊疗方案推荐方法 | |
Kianmehr et al. | Fuzzy clustering-based discretization for gene expression classification | |
CN112215259B (zh) | 基因选择方法和装置 | |
CN116226629B (zh) | 一种基于特征贡献的多模型特征选择方法及系统 | |
CN112926640B (zh) | 一种基于两阶段深度特征选择的癌症基因分类方法、设备及存储介质 | |
CN114841280A (zh) | 一种复杂疾病的预测分类方法、系统、介质、设备及终端 | |
CN108710784A (zh) | 一种基因转录变异几率及变异方向的算法 | |
Sekaran et al. | Predicting autism spectrum disorder from associative genetic markers of phenotypic groups using machine learning | |
CN116386899A (zh) | 基于图学习的药物疾病关联关系预测方法及相关设备 | |
Thakur et al. | Machine learning techniques with ANOVA for the prediction of breast cancer | |
Kumari et al. | Exploring molecular descriptors and fingerprints to predict mTOR kinase inhibitors using machine learning techniques | |
Ye et al. | Gene selection method for microarray data classification using particle swarm optimization and neighborhood rough set | |
Iraji et al. | Druggable protein prediction using a multi-canal deep convolutional neural network based on autocovariance method | |
Liang et al. | Temporal gene expression classification with regularised neural network | |
Pradhan | Evolutionary computational algorithm by blending of PPCA and EP-Enhanced supervised classifier for microarray gene expression data | |
Muflikhah et al. | Single nucleotide polymorphism based on hypertension potential risk prediction using LSTM with Adam optimizer | |
Fadhil et al. | Classification of Cancer Microarray Data Based on Deep Learning: A Review | |
Elavarasi et al. | Navigating heart health with an elephantine approach in clinical decision support systems | |
Li et al. | Integrated Learning Model Based on GC-Stacking for Early Prediction of Diabetes Mellitus | |
Ahmed et al. | Predicting Alzheimer's Disease Using Filter Feature Selection Method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
EE01 | Entry into force of recordation of patent licensing contract | ||
EE01 | Entry into force of recordation of patent licensing contract |
Application publication date: 20211112 Assignee: Ningbo Xungao Intelligent Technology Co.,Ltd. Assignor: Wenzhou University Contract record no.: X2024330000002 Denomination of invention: A medical disease feature selection method based on an improved group of tunicates algorithm Granted publication date: 20231010 License type: Common License Record date: 20240103 |