CN112116952B - 基于扩散及混沌局部搜索的灰狼优化算法的基因选择方法 - Google Patents
基于扩散及混沌局部搜索的灰狼优化算法的基因选择方法 Download PDFInfo
- Publication number
- CN112116952B CN112116952B CN202010784689.7A CN202010784689A CN112116952B CN 112116952 B CN112116952 B CN 112116952B CN 202010784689 A CN202010784689 A CN 202010784689A CN 112116952 B CN112116952 B CN 112116952B
- Authority
- CN
- China
- Prior art keywords
- gene
- wolf
- optimal
- data set
- diffusion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 180
- 241000282461 Canis lupus Species 0.000 title claims abstract description 125
- 238000005457 optimization Methods 0.000 title claims abstract description 62
- 238000009792 diffusion process Methods 0.000 title claims abstract description 50
- 230000000739 chaotic effect Effects 0.000 title claims abstract description 36
- 238000010187 selection method Methods 0.000 title claims abstract description 18
- 238000012360 testing method Methods 0.000 claims abstract description 64
- 238000012549 training Methods 0.000 claims abstract description 58
- 238000000034 method Methods 0.000 claims abstract description 40
- 230000006870 function Effects 0.000 claims abstract description 37
- 238000011156 evaluation Methods 0.000 claims description 28
- 239000013598 vector Substances 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 15
- 241000282421 Canidae Species 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 10
- 230000014509 gene expression Effects 0.000 claims description 10
- 230000002068 genetic effect Effects 0.000 claims description 9
- 238000012795 verification Methods 0.000 claims description 8
- 239000003795 chemical substances by application Substances 0.000 claims description 7
- 230000001174 ascending effect Effects 0.000 claims description 3
- CXUJOBCFZQGUGO-UHFFFAOYSA-F calcium trimagnesium tetracarbonate Chemical compound [Mg++].[Mg++].[Mg++].[Ca++].[O-]C([O-])=O.[O-]C([O-])=O.[O-]C([O-])=O.[O-]C([O-])=O CXUJOBCFZQGUGO-UHFFFAOYSA-F 0.000 claims description 3
- 230000008602 contraction Effects 0.000 claims description 3
- 230000003247 decreasing effect Effects 0.000 claims description 3
- 229910000515 huntite Inorganic materials 0.000 claims description 3
- 230000004807 localization Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 230000008901 benefit Effects 0.000 description 5
- 238000002493 microarray Methods 0.000 description 4
- 230000000875 corresponding effect Effects 0.000 description 3
- 238000002790 cross-validation Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 206010028980 Neoplasm Diseases 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000001276 controlling effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000004806 packaging method and process Methods 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 241000283153 Cetacea Species 0.000 description 1
- 241000251555 Tunicata Species 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 210000001072 colon Anatomy 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000005538 encapsulation Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000004949 mass spectrometry Methods 0.000 description 1
- 238000012775 microarray technology Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012536 packaging technology Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/10—Gene or protein expression profiling; Expression-ratio estimation or normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24147—Distances to closest patterns, e.g. nearest neighbour classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/08—Computing arrangements based on specific mathematical models using chaos models or non-linear system models
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Biotechnology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Genetics & Genomics (AREA)
- Computing Systems (AREA)
- Nonlinear Science (AREA)
- Pure & Applied Mathematics (AREA)
- Biomedical Technology (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Computational Linguistics (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Public Health (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明提供一种基于扩散及混沌局部搜索的灰狼优化算法的基因选择方法,包括根据从公开网站获取的基因数据集,生成训练集和测试集;利用预设灰狼优化算法对基因数据集的训练集和测试集进行全局搜索,并结合训练集和测试集二者基于KNN分类器在预设灰狼优化算法中所定义的适应度函数,以确定基因数据集的特征子集,并利用预设的扩散策略在所确定的基因数据集的特征子集中选出全局最优解,且进一步对所选的全局最优解进行混沌局部搜索,以获取基因数据集的最优训练集和最优测试集作为最终的最优基因子集;输出最终获取的最优基因子集。实施本发明,能有效地克服现有技术得到的基因子集对基因数据分类精度低的问题,找到最优基因子集。
Description
技术领域
本发明涉及基因选择技术领域,尤其涉及一种基于扩散及混沌局部搜索的灰狼优化算法的基因选择方法及系统。
背景技术
微阵列技术产生的基因表达图谱为临床决策提供了深刻的见解。然而,由于基因表达数据的复杂性和大规模性,且含有不相关和冗余的信息,对识别代表性基因和降低高维性带来了巨大的挑战。
针对在基因表达数据分析方面容易出现计算效率低、拟合过度,并且会导致机器学习技术性能的下降等问题,一种重要的数据预处理技术--基因选择(gene selection,GS),旨在通过基因维度的减弱,剔除不相关、无用的基因,在错综复杂的基因数据中识别出具有鉴别力的基因,进而加强机器学习技术的有效性,节约计算资源。
一般来说,GS技术可分为四组方法:过滤、封装、嵌入和混合方法。其中,过滤器的目的是构建一个独立于学习算法的评价指标来对特征进行评分,其评价标准与分类器无关;包装依赖于学习模型的性能来评估所选基因子集的最优性,该最优性由优化算法计算;嵌入式方法类似于包装器,也使用GS作为训练学习算法的一个阶段,将GS嵌入到机器学习算法的框架中,在学习过程中同时评估所选择的基因子集;混合方法充分利用了过滤器和包装器的优点,并将二者法结合在一起,消除了常规方法的不稳定性,具有较强的鲁棒性。因此,可以考虑通过混合GS方法来寻找最优基因子集。
目前,基于混合的GS研究方法有很多。例如,基于容错的基因选择方法、基于深度学习和进化计算的特征基因选择方法,这些方法的设计主要是先使用传统的分类器寻找相关基因,然后使用优化算法寻找最优基因子集。虽然这些方法可以在一定程度上接近最优基因子集,但是时间花费较高,最终基因子集中容易包含冗余属性。又如,群智能优化算法的随机特性,使得基于群智能优化算法的封装技术可以在可接受的计算费用内实现近似最优的基因子集,以提高学习机的功效,节约资源。又如,基于封装的GS方法以及大量的变体,包括灰狼优化算法、引力搜索算法、蝙蝠算法、粒子群优化、鲸鱼优化算法和樽海鞘算法等,虽然这些算法参数简单,易于理解且具有较强的全局优化能力,可以在普通数据集的特征选择上有很好表现,但是对于基因数据集,尤其是具有高维度、小样本、不相关且存在噪声和冗余基因的基因数据上,算法陷入局部最优,收敛速度慢,并在基因数据的选择上不能很好的平衡分类精度和基因数目这两项指标。
因此,有必要提供一种新的基因选择方法,采用的算法可以在具有高维度、小样本、不相关且存在噪声和冗余基因的基因数据上选择出最优基因子集,能有效地克服现有技术得到的基因子集对基因数据分类精度低的问题,从而实现在保持较高基因数据分类精度的同时找到最优基因子集。
发明内容
本发明实施例所要解决的技术问题在于,提供一种基于扩散及混沌局部搜索的灰狼优化算法的基因选择方法及系统,能有效地克服现有技术得到的基因子集对基因数据分类精度低的问题,实现在保持较高基因数据分类精度的同时找到最优基因子集。
为了解决上述技术问题,本发明实施例提供了一种基于扩散及混沌局部搜索的灰狼优化算法的基因选择方法,所述方法包括以下步骤:
步骤S1、根据从公开网站获取的基因数据集,生成训练集和测试集;
步骤S2、利用预设灰狼优化算法对基因数据集的训练集和测试集进行全局搜索,并结合所述训练集和所述测试集二者基于KNN分类器在所述预设灰狼优化算法中所定义的适应度函数,以确定基因数据集的特征子集,并利用预设的扩散策略在所确定的基因数据集的特征子集中选出全局最优解,且进一步对所选的全局最优解进行混沌局部搜索,以获取基因数据集的最优训练集和最优测试集作为最终的最优基因子集;
步骤S3、输出最终获取的最优基因子集。
其中,所述基因数据集生成训练集和测试集的步骤具体包括:
循环10次对所述基因数据集进行分类,且所述基因数据集每次分类均为将所述基因数据集均分成十份,其中一份做测试集,其余九份做训练集,并进一步采用10-折交叉进行验证,得到最终生成的训练集和测试集。
其中,所述步骤S2具体包括:
步骤a1、利用预设灰狼优化算法对基因数据集的训练集和测试集进行全局搜索,并结合所述训练集和所述测试集二者基于KNN分类器在所述预设灰狼优化算法中所定义的适应度函数,以确定基因数据集的特征子集,并利用预设的扩散策略在所确定的基因数据集的特征子集中选出全局最优解,具体过程如下:
步骤1-1:参数初始化,具体包括:灰狼种群个数N、最大评估次数MaxFes、解向量的上界UB及下界LB、扩散策略中的最大扩散次数q、交叉验证次数fold、灰狼种群X;其中,个体Xij=LBij+rand*(UBij–LBij);i=1,2,3,…,N;j=1,2,3,…,D;D为向量维度;
步骤1-2:使用sigmoid函数将灰狼种群X离散化处理,使灰狼的位置映射为二进制变量0或1;其中,sigmoid函数的表示公式为灰狼的通过sigmoid函数转化后的位置为/>rand为0和1之间的随机值;/>为第i个灰狼个体的第j维通过sigmoid函数转化后的结果;当/>时表示选中该特征,否则表示未选中;
步骤1-3:设置当前评估次数FEs的初始值为0;
步骤1-4:判断当前评估次数FEs是否小于最大评估次数MaxFEs;若是,则进行步骤1-5;若否,则输出最优基因子集;
步骤1-5:基于KNN分类器在所述预设灰狼优化算法中所定义的适应度函数,计算种群中各个灰狼个体的适应度值,并将当前适应度值最小的3个灰狼个体分别命名为alpha、beta和delta,且进一步记录下它们的位置和适应度值;
其中,所述适应度函数的表示公式为Fitness(Xi)表示第i个灰狼个体的适应度值,E表示所述训练集和所述测试集输入KNN分类器所获得的分类错误率,θ表示在计算适应度值的过程中分类错误率所占的权重,R表示每个二进制灰狼个体Xi中数值为1的个数,即基因数据的特征子集的长度,D是灰狼个体的维度,即基因数据集中的属性总数,α是属性约简所占的权重,且θ+α=1;
其中,灰狼与猎物之间的距离计算公式为 表示猎物位置,/>为当前灰狼个体的位置,/>为系数向量,/>灰狼包围猎物的计算公式为A为系数向量,/>a是衰减因子,随着迭代次数的增加从2线性减少到0./>和/>是0和1之间的随机值,且/>
其中,灰狼种群在狩猎阶段,alpha、beta和delta狼的位置更新公式为 和/>分别为alpha、beta和delta狼的位置; 和/>分别为alpha、beta、delta狼各自与猎物之间的距离;/>和/>分别表示相应猎物的位置;/>和/>分别为系数向量,均为固定值;/>是当前灰狼个体的位置,此时/>
步骤1-6:对灰狼种群中的每个个体执行扩散策略,并在比较适应度值后选择最优个体组成新的灰狼种群;其中,扩散策略通过公式来Xq(i)=X(i)+β×Ganssion(Pi,|BP|)-(r1×BP-r2×Pi)实现;Pi和|BP|分别为高斯分布的均值和标准差,Pi为搜索代理当前位置,BP为搜索代理到目前为止的最佳位置,r1和r2均为[0,1]之间的随机数;
步骤1-7:计算出扩散后灰狼个体的适应度值,判断其是否大于原种群的适应度值,贪心更新灰狼种群;
步骤1-8:判断当前的评估次数t是否达到最大评估次数MaxFes;若没有达到,则t=t+1后,继续返回步骤1-4进行重复操作;若已经达到最大评估次数MaxFes,则计算出种群中所有个体的适应度值,并对其进行升序排序,获取最优个体位置及适应度值,即得到全局最优解;
步骤a2、基于步骤a1所输出最优的全局最优解,进行混沌局部搜索,以获取基因数据集的最优训练集和最优测试集作为最终的最优基因子集,具体过程如下:
步骤2-1:初始化控制混沌局部搜索收缩程度的参数λ,并通过随机生成不等于0.25,0.5,0.75和1的随机数rd;
步骤2-2:设置第一个局部候选解
步骤2-3:根据Logistics映射方法,对局部候选解XC进行N次更新,生成新的空间候选解;
步骤2-4:计算经过混沌局部后的空间候选解的适应度值FitnessC;
步骤2-5:比较FitnessC和全局最优解alpha狼的适应度值Alpha_fit的大小,并选择最优个体作为新的alpha狼;
步骤2-6:输出alpha狼的位置,确定基因数据集的最优基因子集。
其中,所述KNN分类器中采用的算法步骤具体包括:求距离、寻找相邻的对象和确定类别;其中,
所述求距离的步骤具体为,给定测试数据,计算它与训练数据中的每个对象的距离;其中,距离公式具体为
所述寻找相邻的对象的步骤具体为,根据距离规定距离最近的K个训练样本,作为测试样本的邻居;
所述确定类别的步骤具体为,根据这K个邻居归属的主要类别,找出类别占比最大的作为测试样本所属的种类。
本发明实施例还提供了一种基于扩散及混沌局部搜索的灰狼优化算法的基因选择系统,包括:
数据设置单元,用于根据从公开网站获取的基因数据集,生成训练集和测试集;
优化单元,用于利用预设灰狼优化算法对基因数据集的训练集和测试集进行全局搜索,并结合所述训练集和所述测试集二者基于KNN分类器在所述预设灰狼优化算法中所定义的适应度函数,以确定基因数据集的特征子集,并利用预设的扩散策略在所确定的基因数据集的特征子集中选出全局最优解,且进一步对所选的全局最优解进行混沌局部搜索,以获取基因数据集的最优训练集和最优测试集作为最终的最优基因子集;
结果输出单元,用于输出最终获取的最优基因子集。
实施本发明实施例,具有如下有益效果:
与现有的方法相比,本发明由灰狼优化算法与分形搜索的扩散策略以及混沌局部搜索相结合的二进制灰狼优化算法,以此来对基因数据进行选择,不仅可以对每个灰狼个体进行以高斯行走的扩散,进一步扩大全局搜索的优势,保持种群的多样性,有效的避免局部最优值,实现在具有高维度、小样本、不相关且存在噪声和冗余基因的基因数据上选择出最优基因子集。从而有效地克服现有技术得到的基因子集对基因数据分类精度低的问题,实现在保持较高基因数据分类精度的同时找到最优基因子集。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,根据这些附图获得其他的附图仍属于本发明的范畴。
图1为本发明实施例提供的基于扩散及混沌局部搜索的灰狼优化算法的基因选择方法的流程图;
图2为本发明实施例提供的基于扩散及混沌局部搜索的灰狼优化算法的基因选择方法中扩散策略的原理图;
图3为本发明实施例提供的基于扩散及混沌局部搜索的灰狼优化算法的基因选择方法中基因选择的适应度值收敛曲线图;
图4为本发明实施例提供的基于扩散及混沌局部搜索的灰狼优化算法的基因选择系统的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述。
如图1所示,为本发明实施例中,提供的一种基于扩散及混沌局部搜索的灰狼优化算法的基因选择方法,所述方法包括以下步骤:
步骤S1、根据从公开网站获取的基因数据集,生成训练集和测试集;
具体过程为,根据从公开网站获取的基因数据集,这些微阵列数据集都是高维的,包括不相关或弱相关特征,数据集的维度范围从2000到12600,生物医学微阵列数据集列于表2-1中。这些数据集包括Prostate-Tumor,Colon和Tumor等,并且提供与基因表达,蛋白质谱分析和基因组序列相关的数据,用于分类和疾病诊断。微阵列数据集的特点就是样本数目相对较少,基因数目成千上万,这将会造成误差估计受小样本的影响很大,如果没有对错误进行适当的估计,则会出现分类方法的不当应用。为了克服这个问题,有必要选择正确的验证方法来估计分类错误。微阵列结构域中最广泛使用的验证技术之一是所谓的K-折叠交叉验证,本发明在分类过程求精确度时使用10-折交叉来对分类结果进行验证,将数据集平均分成10份,其中一份做测试集其余的9份做训练集,这样循环10次将最终的结果求平均值,即循环10次对所述基因数据集进行分类,且所述基因数据集每次分类均为将所述基因数据集均分成十份,其中一份做测试集,其余九份做训练集,并进一步采用10-折交叉进行验证,得到最终生成的训练集和测试集。
应当说明的是,用10-折交叉验证的优点是每轮的训练集和测试集都能够固定和重现,并且能够减少误差。
步骤S2、利用预设灰狼优化算法对基因数据集的训练集和测试集进行全局搜索,并结合所述训练集和所述测试集二者基于KNN分类器在所述预设灰狼优化算法中所定义的适应度函数,以确定基因数据集的特征子集,并利用预设的扩散策略在所确定的基因数据集的特征子集中选出全局最优解,且进一步对所选的全局最优解进行混沌局部搜索,以获取基因数据集的最优训练集和最优测试集作为最终的最优基因子集;
具体过程为,步骤a1、利用预设灰狼优化算法对基因数据集的训练集和测试集进行全局搜索,并结合所述训练集和所述测试集二者基于KNN分类器在所述预设灰狼优化算法中所定义的适应度函数,以确定基因数据集的特征子集,并利用预设的扩散策略在所确定的基因数据集的特征子集中选出全局最优解,具体过程如下:
步骤1-1:参数初始化,具体包括:灰狼种群个数N、最大评估次数MaxFes、解向量的上界UB及下界LB、扩散策略中的最大扩散次数q、交叉验证次数fold、灰狼种群X;其中,个体Xij=LBij+rand*(UBij–LBij);i=1,2,3,…,N;j=1,2,3,…,D;D为向量维度;
步骤1-2:使用sigmoid函数将灰狼种群X离散化处理,使灰狼的位置映射为二进制变量0或1;其中,sigmoid函数的表示公式为灰狼的通过sigmoid函数转化后的位置为/>rand为0和1之间的随机值;/>为第i个灰狼个体的第j维通过sigmoid函数转化后的结果;当/>时表示选中该特征,否则表示未选中;
步骤1-3:设置当前评估次数FEs的初始值为0;
步骤1-4:判断当前评估次数FEs是否小于最大评估次数MaxFEs;若是,则进行步骤1-5;若否,则输出最优基因子集;
步骤1-5:基于KNN分类器在所述预设灰狼优化算法中所定义的适应度函数,计算种群中各个灰狼个体的适应度值,并将当前适应度值最小的3个灰狼个体分别命名为alpha、beta和delta,且进一步记录下它们的位置和适应度值;
其中,所述适应度函数的表示公式为Fitness(Xi)表示第i个灰狼个体的适应度值,E表示所述训练集和所述测试集输入KNN分类器所获得的分类错误率,θ表示在计算适应度值的过程中分类错误率所占的权重,R表示每个二进制灰狼个体Xi中数值为1的个数,即基因数据的特征子集的长度,D是灰狼个体的维度,即基因数据集中的属性总数,α是属性约简所占的权重,且θ+α=1;
其中,灰狼与猎物之间的距离计算公式为 表示猎物位置,/>为当前灰狼个体的位置,/>为系数向量,/>灰狼包围猎物的计算公式为A为系数向量,/>a是衰减因子,随着迭代次数的增加从2线性减少到0./>和/>是0和1之间的随机值,且/>
其中,灰狼种群在狩猎阶段,alpha、beta和delta狼的位置更新公式为 和/>分别为alpha、beta和delta狼的位置; 和/>分别为alpha、beta、delta狼各自与猎物之间的距离;/>和/>分别表示相应猎物的位置;/>和/>分别为系数向量,均为固定值;/>是当前灰狼个体的位置,此时/>
步骤1-6:对灰狼种群中的每个个体执行扩散策略(如图2所示),并在比较适应度值后选择最优个体组成新的灰狼种群;其中,扩散策略通过公式来Xq(i)=X(i)+β×Ganssion(Pi,|BP|)-(r1×BP-r2×Pi)实现;Pi和|BP|分别为高斯分布的均值和标准差,Pi为搜索代理当前位置,BP为搜索代理到目前为止的最佳位置,r1和r2均为[0,1]之间的随机数;
步骤1-7:计算出扩散后灰狼个体的适应度值,判断其是否大于原种群的适应度值,贪心更新灰狼种群;具体包括更新线性参数a和系数向量|A|、|C|,然后对于新种群中的个体,分别计算每个灰狼个体与alpha、beta和delta狼之间的距离,再根据alpha、beta和delta狼的位置,再次更新灰狼种群;
步骤1-8:判断当前的评估次数t是否达到最大评估次数MaxFes;若没有达到,则t=t+1后,继续返回步骤1-4进行重复操作;若已经达到最大评估次数MaxFes,则计算出种群中所有个体的适应度值,并对其进行升序排序,获取最优个体位置及适应度值,即得到全局最优解;
步骤a2、基于步骤a1所输出最优的全局最优解,进行混沌局部搜索,以获取基因数据集的最优训练集和最优测试集作为最终的最优基因子集,具体过程如下:
步骤2-1:初始化控制混沌局部搜索收缩程度的参数λ,并通过随机生成不等于0.25,0.5,0.75和1的随机数rd;
步骤2-2:设置第一个局部候选解
步骤2-3:根据Logistics映射方法,对局部候选解XC进行N次更新,生成新的空间候选解;
步骤2-4:计算经过混沌局部后的空间候选解的适应度值FitnessC;
步骤2-5:比较FitnessC和全局最优解alpha狼的适应度值Alpha_fit的大小,并选择最优个体作为新的alpha狼;
步骤2-6:输出alpha狼的位置,确定基因数据集的最优基因子集。
可以理解的是,在步骤1-2中,使用sigmoid函数将灰狼种群X离散化处理,主要是考虑到使用sigmoid函数编码不仅能剔除冗余,将基因选择的特点与优化算法结合,不仅提高了基因选择的效率,而且增加解的变化。sigmoid函数可以将搜索代理的位置转换到0和1之间,因为该函数具有非常好的对称性,所以无论灰狼个体如何分布都可以均匀的映射到0和1之间。
在步骤1-5中,基于KNN分类器在预设灰狼优化算法中所定义的适应度函数,主要是考虑到基因选择可以看作为一个组合优化问题。为了清楚优化目标,首先需要设置一个合适的目标函数作为算法迭代过程中的一个评判标准,因为基因选择被视为多目标优化问题,其中要实现两个相互矛盾的目标即选取最小的基因数目和最大限度的提高分类精度。因此,需要设置一个目标函数将这两个目标归一化到一个函数里面。
此时,根据KNN分类器来计算分类精度,KNN分类器使用的是matlab2016a中自带的分类器。KNN分类方法是依据测试样本与训练样本的距离来判断待测样本属于哪个类别,一般选取与测试样本距离最近的K个样本。若K=1,待测样本距离某个邻居样本中最近的,它的类别就和此样本类别一样。
KNN算法的步骤包括:求距离、寻找相邻的对象和确定类别;其中,
第一步、求距离的步骤具体为,给定测试数据,计算它与训练数据中的每个对象的距离;其中,距离公式具体为
第二步、寻找相邻的对象的步骤具体为,根据距离规定距离最近的K个训练样本,作为测试样本的邻居;
第三步、确定类别的步骤具体为,根据这K个邻居归属的主要类别,找出类别占比最大的作为测试样本所属的种类。
步骤S3、输出最终获取的最优基因子集。
具体过程为,根据步骤S2获取基因数据集最终表现的最优基因子集输出,即为所需结果。
在本发明实施例中,我们采用了MATLAB工具箱提供的KNN分类器作为每次迭代过程中生成基因子集的评价标准。由于在开始评估的过程中,由于我们获取的基因子集可能不是我们所期待的最优子集,所以无需花大量的时间通过其他基因选择方法重新计算基因子集,随着评估次数的灰狼种群随着fitness函数的作用,逐渐向分类精度高和基因属性数量小的个体移动,此时可以在其附近进行多次的搜索使其接近期待得到的最优基因子集。基于此思想,在本发明实施例中,我们使用基于扩散策略和混沌局部搜索的二进制灰狼优化算法作为基因选择的主要优化方法。
为了证明基于扩散策略和混沌局部搜索策略的二进制灰狼优化算法在特征选择过程中的优化效果,表1-3分别是从适应度值、基因子集的大小和分类错误率这三方面来说明基于扩散策略和混沌局部搜索策略的二进制灰狼优化算法在基因选择算法在基因选择中的优越性能,如图3所示。
其中,表1基于扩散策略和混沌局部搜索的二进制灰狼算法和其他算法在最优基因子集的平均适应度值上的比较结果,具体如下:
其中,表2基于扩散策略和混沌局部搜索的二进制灰狼算法和其他算法在最优基因子集的平均基因个数上的比较结果,具体如下:
其中,表3基于扩散策略和混沌局部搜索的二进制灰狼算法和其他算法在最优基因子集的平均错误分类精度上的比较结果,具体如下:
每个表都分别从平均值和标准差这两个指标来分析各个优化算法在各个评价标准上的稳定性和精确性。每个评价标准的平均值和标准差的具体计算方式如下。
适应度平均值:表示优化算法的M次计算后得到的解的适应度平均值,可表示为:
适应度标准差:表示在执行M此优化算法后得到的最优解变化,可表示为:
平均基因选择个数:表示M此所选基因数的平均值,可表示为:
基因数目标准差:表示在执行M此优化算法后得到的基因数目变化,可表示为:
平均分类错误精度:所选特征集的分类错误精度的平均值。其计算方法为:
分类错误精度标准差:表示在执行M此优化算法后分类错误精度的变化,可表示为:
如图4所示,为本发明实施例中,提供的一种基于扩散及混沌局部搜索的灰狼优化算法的基因选择系统,包括:
数据设置单元10,用于根据从公开网站获取的基因数据集,生成训练集和测试集;
优化单元20,用于利用预设灰狼优化算法对基因数据集的训练集和测试集进行全局搜索,并结合所述训练集和所述测试集二者基于KNN分类器在所述预设灰狼优化算法中所定义的适应度函数,以确定基因数据集的特征子集,并利用预设的扩散策略在所确定的基因数据集的特征子集中选出全局最优解,且进一步对所选的全局最优解进行混沌局部搜索,以获取基因数据集的最优训练集和最优测试集作为最终的最优基因子集;
结果输出单元30,用于输出最终获取的最优基因子集。
实施本发明实施例,具有如下有益效果:
与现有的方法相比,本发明由灰狼优化算法与分形搜索的扩散策略以及混沌局部搜索相结合的二进制灰狼优化算法,以此来对基因数据进行选择,不仅可以对每个灰狼个体进行以高斯行走的扩散,还扩大全局搜索的优势,保持种群的多样性,有效的避免局部最优值,实现在具有高维度、小样本、不相关且存在噪声和冗余基因的基因数据上选择出最优基因子集,从而有效地克服现有技术得到的基因子集对基因数据分类精度低的问题,实现在保持较高基因数据分类精度的同时找到最优基因子集。
值得注意的是,上述装置实施例中,所包括的各个单元只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,所述的存储介质,如ROM/RAM、磁盘、光盘等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (4)
1.一种基于扩散及混沌局部搜索的灰狼优化算法的基因选择方法,其特征在于,所述方法包括以下步骤:
步骤S1、根据从公开网站获取的基因数据集,生成训练集和测试集;
步骤S2、利用预设灰狼优化算法对基因数据集的训练集和测试集进行全局搜索,并结合所述训练集和所述测试集二者基于KNN分类器在所述预设灰狼优化算法中所定义的适应度函数,以确定基因数据集的特征子集,并利用预设的扩散策略在所确定的基因数据集的特征子集中选出全局最优解,且进一步对所选的全局最优解进行混沌局部搜索,以获取基因数据集的最优训练集和最优测试集作为最终的最优基因子集;
步骤S3、输出最终获取的最优基因子集;
所述步骤S2具体包括:
步骤a1、利用预设灰狼优化算法对基因数据集的训练集和测试集进行全局搜索,并结合所述训练集和所述测试集二者基于KNN分类器在所述预设灰狼优化算法中所定义的适应度函数,以确定基因数据集的特征子集,并利用预设的扩散策略在所确定的基因数据集的特征子集中选出全局最优解,具体过程如下:
步骤1-1:参数初始化,具体包括:灰狼种群个数N、最大评估次数MaxFes、解向量的上界UB及下界LB、扩散策略中的最大扩散次数q、交叉验证次数fold、灰狼种群X;其中,个体Xij=LBij+rand*(UBij–LBij);i=1,2,3,…,N;j=1,2,3,…,D;D为向量维度;
步骤1-2:使用sigmoid函数将灰狼种群X离散化处理,使灰狼的位置映射为二进制变量0或1;其中,sigmoid函数的表示公式为灰狼的通过sigmoid函数转化后的位置为/>rand为0和1之间的随机值;/>为第i个灰狼个体的第j维通过sigmoid函数转化后的结果;当/>时表示选中该特征,否则表示未选中;
步骤1-3:设置当前评估次数FEs的初始值为0;
步骤1-4:判断当前评估次数FEs是否小于最大评估次数MaxFEs;若是,则进行步骤1-5;若否,则输出最优基因子集;
步骤1-5:基于KNN分类器在所述预设灰狼优化算法中所定义的适应度函数,计算种群中各个灰狼个体的适应度值,并将当前适应度值最小的3个灰狼个体分别命名为alpha、beta和delta,且进一步记录下它们的位置和适应度值;
其中,所述适应度函数的表示公式为Fitness(Xi)表示第i个灰狼个体的适应度值,E表示所述训练集和所述测试集输入KNN分类器所获得的分类错误率,θ表示在计算适应度值的过程中分类错误率所占的权重,R表示每个二进制灰狼个体Xi中数值为1的个数,即基因数据的特征子集的长度,D是灰狼个体的维度,即基因数据集中的属性总数,α是属性约简所占的权重,且θ+α=1;
其中,灰狼与猎物之间的距离计算公式为 表示猎物位置,/>为当前灰狼个体的位置,/>为系数向量,/>灰狼包围猎物的计算公式为A为系数向量,/>a是衰减因子,随着迭代次数的增加从2线性减少到0./>和/>是0和1之间的随机值,且/>
其中,灰狼种群在狩猎阶段,alpha、beta和delta狼的位置更新公式为 和/>分别为alpha、beta和delta狼的位置;/> 和/>分别为alpha、beta、delta狼各自与猎物之间的距离;/>和/>分别表示相应猎物的位置;/>和/>分别为系数向量,均为固定值;/>是当前灰狼个体的位置,此时/>
步骤1-6:对灰狼种群中的每个个体执行扩散策略,并在比较适应度值后选择最优个体组成新的灰狼种群;其中,扩散策略通过公式来Xq(i)=X(i)+β×Ganssion(Pi,|BP|)-(r1×BP-r2×Pi)实现;Pi和|BP|分别为高斯分布的均值和标准差,Pi为搜索代理当前位置,BP为搜索代理到目前为止的最佳位置,r1和r2均为[0,1]之间的随机数;
步骤1-7:计算出扩散后灰狼个体的适应度值,判断其是否大于原种群的适应度值,贪心更新灰狼种群;
步骤1-8:判断当前的评估次数t是否达到最大评估次数MaxFes;若没有达到,则t=t+1后,继续返回步骤1-4进行重复操作;若已经达到最大评估次数MaxFes,则计算出种群中所有个体的适应度值,并对其进行升序排序,获取最优个体位置及适应度值,即得到全局最优解;
步骤a2、基于步骤a1所输出最优的全局最优解,进行混沌局部搜索,以获取基因数据集的最优训练集和最优测试集作为最终的最优基因子集,具体过程如下:
步骤2-1:初始化控制混沌局部搜索收缩程度的参数λ,并通过随机生成不等于0.25,0.5,0.75和1的随机数rd;
步骤2-2:设置第一个局部候选解
步骤2-3:根据Logistics映射方法,对局部候选解XC进行N次更新,生成新的空间候选解;
步骤2-4:计算经过混沌局部后的空间候选解的适应度值FitnessC;
步骤2-5:比较FitnessC和全局最优解alpha狼的适应度值Alpha_fit的大小,并选择最优个体作为新的alpha狼;
步骤2-6:输出alpha狼的位置,确定基因数据集的最优基因子集。
2.如权利要求1所述的基于扩散及混沌局部搜索的灰狼优化算法的基因选择方法,其特征在于,所述基因数据集生成训练集和测试集的步骤具体包括:
循环10次对所述基因数据集进行分类,且所述基因数据集每次分类均为将所述基因数据集均分成十份,其中一份做测试集,其余九份做训练集,并进一步采用10-折交叉进行验证,得到最终生成的训练集和测试集。
3.如权利要求1所述的基于扩散及混沌局部搜索的灰狼优化算法的基因选择方法,其特征在于,所述KNN分类器中采用的算法步骤具体包括:求距离、寻找相邻的对象和确定类别;其中,
所述求距离的步骤具体为,给定测试数据,计算它与训练数据中的每个对象的距离;其中,距离公式具体为
所述寻找相邻的对象的步骤具体为,根据距离规定距离最近的K个训练样本,作为测试样本的邻居;
所述确定类别的步骤具体为,根据这K个邻居归属的主要类别,找出类别占比最大的作为测试样本所属的种类。
4.一种基于扩散及混沌局部搜索的灰狼优化算法的基因选择系统,其应用如权利要求1-3任一项所述的基于扩散及混沌局部搜索的灰狼优化算法的基因选择方法,其特征在于,包括:
数据设置单元,用于根据从公开网站获取的基因数据集,生成训练集和测试集;
优化单元,用于利用预设灰狼优化算法对基因数据集的训练集和测试集进行全局搜索,并结合所述训练集和所述测试集二者基于KNN分类器在所述预设灰狼优化算法中所定义的适应度函数,以确定基因数据集的特征子集,并利用预设的扩散策略在所确定的基因数据集的特征子集中选出全局最优解,且进一步对所选的全局最优解进行混沌局部搜索,以获取基因数据集的最优训练集和最优测试集作为最终的最优基因子集;
结果输出单元,用于输出最终获取的最优基因子集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010784689.7A CN112116952B (zh) | 2020-08-06 | 2020-08-06 | 基于扩散及混沌局部搜索的灰狼优化算法的基因选择方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010784689.7A CN112116952B (zh) | 2020-08-06 | 2020-08-06 | 基于扩散及混沌局部搜索的灰狼优化算法的基因选择方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112116952A CN112116952A (zh) | 2020-12-22 |
CN112116952B true CN112116952B (zh) | 2024-02-09 |
Family
ID=73799630
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010784689.7A Active CN112116952B (zh) | 2020-08-06 | 2020-08-06 | 基于扩散及混沌局部搜索的灰狼优化算法的基因选择方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112116952B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113571134B (zh) * | 2021-07-28 | 2024-07-02 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 基于骨干粒子群算法的基因数据特征选择方法及装置 |
CN115906543B (zh) * | 2023-03-08 | 2023-08-04 | 苏州培风图南半导体有限公司 | 一种基于光刻建模仿真的参数获取方法 |
CN117354013B (zh) * | 2023-10-11 | 2024-04-23 | 中国电子科技集团公司第三十研究所 | 一种基于狼群狩猎算法的钓鱼攻击检测方法 |
CN117783875B (zh) * | 2023-12-26 | 2024-08-30 | 淮阴工学院 | 一种基于模型融合的锂电池荷电状态预测方法及装置 |
CN117809300A (zh) * | 2023-12-29 | 2024-04-02 | 中国人民解放军陆军军医大学第二附属医院 | 基于机器视觉的免疫电泳分型检测方法及系统 |
CN117637154B (zh) * | 2024-01-27 | 2024-03-29 | 南通大学附属医院 | 一种基于优化算法的神经内科重症指标预测方法及系统 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002103954A2 (en) * | 2001-06-15 | 2002-12-27 | Biowulf Technologies, Llc | Data mining platform for bioinformatics and other knowledge discovery |
WO2012107786A1 (en) * | 2011-02-09 | 2012-08-16 | Rudjer Boskovic Institute | System and method for blind extraction of features from measurement data |
WO2015051192A1 (en) * | 2013-10-03 | 2015-04-09 | The Board Of Trustees Of The University Of Illinois | System and method of predicting personal therapeutic response |
CN106355192A (zh) * | 2016-08-16 | 2017-01-25 | 温州大学 | 一种基于混沌灰狼优化的支持向量机方法 |
CN106789359A (zh) * | 2017-02-15 | 2017-05-31 | 广东工业大学 | 一种基于灰狼算法的网络流量分类方法及装置 |
CN107909141A (zh) * | 2017-11-27 | 2018-04-13 | 温州大学 | 一种基于灰狼优化算法的数据分析方法及装置 |
WO2018072351A1 (zh) * | 2016-10-20 | 2018-04-26 | 北京工业大学 | 一种基于粒子群优化算法对支持向量机的优化方法 |
CN109299776A (zh) * | 2018-09-14 | 2019-02-01 | 湖南工程学院 | 一种核增量型超限学习机、差分多种群灰狼混合优化方法 |
CN110608743A (zh) * | 2019-10-18 | 2019-12-24 | 南京航空航天大学 | 基于多种群混沌灰狼算法的多无人机协同航路规划方法 |
CN110880031A (zh) * | 2019-11-18 | 2020-03-13 | 贵州大学 | 基于融合随机黑洞策略的灰狼优化算法的特征选择方法 |
CN111371607A (zh) * | 2020-02-28 | 2020-07-03 | 大连大学 | 一种基于决策灰狼算法优化lstm的网络流量预测方法 |
-
2020
- 2020-08-06 CN CN202010784689.7A patent/CN112116952B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002103954A2 (en) * | 2001-06-15 | 2002-12-27 | Biowulf Technologies, Llc | Data mining platform for bioinformatics and other knowledge discovery |
WO2012107786A1 (en) * | 2011-02-09 | 2012-08-16 | Rudjer Boskovic Institute | System and method for blind extraction of features from measurement data |
WO2015051192A1 (en) * | 2013-10-03 | 2015-04-09 | The Board Of Trustees Of The University Of Illinois | System and method of predicting personal therapeutic response |
CN106355192A (zh) * | 2016-08-16 | 2017-01-25 | 温州大学 | 一种基于混沌灰狼优化的支持向量机方法 |
WO2018072351A1 (zh) * | 2016-10-20 | 2018-04-26 | 北京工业大学 | 一种基于粒子群优化算法对支持向量机的优化方法 |
CN106789359A (zh) * | 2017-02-15 | 2017-05-31 | 广东工业大学 | 一种基于灰狼算法的网络流量分类方法及装置 |
CN107909141A (zh) * | 2017-11-27 | 2018-04-13 | 温州大学 | 一种基于灰狼优化算法的数据分析方法及装置 |
CN109299776A (zh) * | 2018-09-14 | 2019-02-01 | 湖南工程学院 | 一种核增量型超限学习机、差分多种群灰狼混合优化方法 |
CN110608743A (zh) * | 2019-10-18 | 2019-12-24 | 南京航空航天大学 | 基于多种群混沌灰狼算法的多无人机协同航路规划方法 |
CN110880031A (zh) * | 2019-11-18 | 2020-03-13 | 贵州大学 | 基于融合随机黑洞策略的灰狼优化算法的特征选择方法 |
CN111371607A (zh) * | 2020-02-28 | 2020-07-03 | 大连大学 | 一种基于决策灰狼算法优化lstm的网络流量预测方法 |
Non-Patent Citations (3)
Title |
---|
基于混沌灰狼优化算法的SVM分类器研究;王志华;罗齐;刘绍廷;;计算机工程与科学(11);全文 * |
基于灰狼算法和案例推理的工控系统入侵检测;於帮兵;王华忠;颜秉勇;;华东理工大学学报(自然科学版)(02);全文 * |
基于灰狼算法的BP神经网络图像恢复算法;杨书杰;叶霞;李俊山;;微电子学与计算机(03);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112116952A (zh) | 2020-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112116952B (zh) | 基于扩散及混沌局部搜索的灰狼优化算法的基因选择方法 | |
CN108846259B (zh) | 一种基于聚类和随机森林算法的基因分类方法及系统 | |
CN110222745A (zh) | 一种基于相似性学习及其增强的细胞类型鉴定方法 | |
CN112215259B (zh) | 基因选择方法和装置 | |
CN110853756B (zh) | 基于som神经网络和svm的食管癌风险预测方法 | |
CN110738362A (zh) | 一种基于改进的多元宇宙算法构建预测模型的方法 | |
Hruschka et al. | Improving the efficiency of a clustering genetic algorithm | |
CN112926640A (zh) | 一种基于两阶段深度特征选择的癌症基因分类方法、设备及存储介质 | |
CN110580252B (zh) | 多目标优化下的空间对象索引与查询方法 | |
Zhao et al. | Finding novel diagnostic gene patterns based on interesting non-redundant contrast sequence rules | |
CN113052268A (zh) | 区间集数据类型下基于不确定性度量的属性约简算法 | |
CN111832645A (zh) | 基于离散型乌鸦差分协同搜索算法的分类数据特征选择方法 | |
CN110796198A (zh) | 基于混合蚁群优化算法的高维特征筛选方法 | |
CN114821157A (zh) | 基于混合模型网络的多模态影像分类方法 | |
CN114334168A (zh) | 结合协同学习策略的粒子群混合优化的特征选择算法 | |
Liu et al. | Cluster validity analysis of alternative results from multi-objective optimization | |
Giurcărneanu et al. | Fast iterative gene clustering based on information theoretic criteria for selecting the cluster structure | |
CN112802543B (zh) | 一种基于概率图的基因调控网络分析方法 | |
Zhao et al. | A hybrid method for incomplete data imputation | |
CN117727373B (zh) | 基于样本和特征双加权的特征约简中智c-均值聚类方法 | |
CN116662859B (zh) | 非遗文化数据特征选择方法 | |
CN115510934A (zh) | 一种基于适应度欧式距离比差分进化的集成特征选择算法 | |
CN112418307B (zh) | 一种结合深度学习和集成学习的辐射源个体识别方法 | |
CN112435742B (zh) | 一种用于对fMRI脑功能连接数据进行特征约简的邻域粗糙集方法 | |
Fei et al. | Optimal genes selection with a new multi-objective evolutional algorithm hybriding NSGA-II with EDA |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |