CN112116952A - 基于扩散及混沌局部搜索的灰狼优化算法的基因选择方法 - Google Patents

基于扩散及混沌局部搜索的灰狼优化算法的基因选择方法 Download PDF

Info

Publication number
CN112116952A
CN112116952A CN202010784689.7A CN202010784689A CN112116952A CN 112116952 A CN112116952 A CN 112116952A CN 202010784689 A CN202010784689 A CN 202010784689A CN 112116952 A CN112116952 A CN 112116952A
Authority
CN
China
Prior art keywords
wolf
gene
optimal
data set
optimization algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010784689.7A
Other languages
English (en)
Other versions
CN112116952B (zh
Inventor
陈慧灵
胡姣
张乐君
谷志阳
蔡振闹
梁国喜
赵学华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wenzhou University
Original Assignee
Wenzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wenzhou University filed Critical Wenzhou University
Priority to CN202010784689.7A priority Critical patent/CN112116952B/zh
Publication of CN112116952A publication Critical patent/CN112116952A/zh
Application granted granted Critical
Publication of CN112116952B publication Critical patent/CN112116952B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/08Computing arrangements based on specific mathematical models using chaos models or non-linear system models
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Biotechnology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Genetics & Genomics (AREA)
  • Computing Systems (AREA)
  • Nonlinear Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Computational Linguistics (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供一种基于扩散及混沌局部搜索的灰狼优化算法的基因选择方法,包括根据从公开网站获取的基因数据集,生成训练集和测试集;利用预设灰狼优化算法对基因数据集的训练集和测试集进行全局搜索,并结合训练集和测试集二者基于KNN分类器在预设灰狼优化算法中所定义的适应度函数,以确定基因数据集的特征子集,并利用预设的扩散策略在所确定的基因数据集的特征子集中选出全局最优解,且进一步对所选的全局最优解进行混沌局部搜索,以获取基因数据集的最优训练集和最优测试集作为最终的最优基因子集;输出最终获取的最优基因子集。实施本发明,能有效地克服现有技术得到的基因子集对基因数据分类精度低的问题,找到最优基因子集。

Description

基于扩散及混沌局部搜索的灰狼优化算法的基因选择方法
技术领域
本发明涉及基因选择技术领域,尤其涉及一种基于扩散及混沌局部搜索的灰狼优化算法的基因选择方法及系统。
背景技术
微阵列技术产生的基因表达图谱为临床决策提供了深刻的见解。然而,由于基因表达数据的复杂性和大规模性,且含有不相关和冗余的信息,对识别代表性基因和降低高维性带来了巨大的挑战。
针对在基因表达数据分析方面容易出现计算效率低、拟合过度,并且会导致机器学习技术性能的下降等问题,一种重要的数据预处理技术--基因选择(gene selection,GS),旨在通过基因维度的减弱,剔除不相关、无用的基因,在错综复杂的基因数据中识别出具有鉴别力的基因,进而加强机器学习技术的有效性,节约计算资源。
一般来说,GS技术可分为四组方法:过滤、封装、嵌入和混合方法。其中,过滤器的目的是构建一个独立于学习算法的评价指标来对特征进行评分,其评价标准与分类器无关;包装依赖于学习模型的性能来评估所选基因子集的最优性,该最优性由优化算法计算;嵌入式方法类似于包装器,也使用GS作为训练学习算法的一个阶段,将GS嵌入到机器学习算法的框架中,在学习过程中同时评估所选择的基因子集;混合方法充分利用了过滤器和包装器的优点,并将二者法结合在一起,消除了常规方法的不稳定性,具有较强的鲁棒性。因此,可以考虑通过混合GS方法来寻找最优基因子集。
目前,基于混合的GS研究方法有很多。例如,基于容错的基因选择方法、基于深度学习和进化计算的特征基因选择方法,这些方法的设计主要是先使用传统的分类器寻找相关基因,然后使用优化算法寻找最优基因子集。虽然这些方法可以在一定程度上接近最优基因子集,但是时间花费较高,最终基因子集中容易包含冗余属性。又如,群智能优化算法的随机特性,使得基于群智能优化算法的封装技术可以在可接受的计算费用内实现近似最优的基因子集,以提高学习机的功效,节约资源。又如,基于封装的GS方法以及大量的变体,包括灰狼优化算法、引力搜索算法、蝙蝠算法、粒子群优化、鲸鱼优化算法和樽海鞘算法等,虽然这些算法参数简单,易于理解且具有较强的全局优化能力,可以在普通数据集的特征选择上有很好表现,但是对于基因数据集,尤其是具有高维度、小样本、不相关且存在噪声和冗余基因的基因数据上,算法陷入局部最优,收敛速度慢,并在基因数据的选择上不能很好的平衡分类精度和基因数目这两项指标。
因此,有必要提供一种新的基因选择方法,采用的算法可以在具有高维度、小样本、不相关且存在噪声和冗余基因的基因数据上选择出最优基因子集,能有效地克服现有技术得到的基因子集对基因数据分类精度低的问题,从而实现在保持较高基因数据分类精度的同时找到最优基因子集。
发明内容
本发明实施例所要解决的技术问题在于,提供一种基于扩散及混沌局部搜索的灰狼优化算法的基因选择方法及系统,能有效地克服现有技术得到的基因子集对基因数据分类精度低的问题,实现在保持较高基因数据分类精度的同时找到最优基因子集。
为了解决上述技术问题,本发明实施例提供了一种基于扩散及混沌局部搜索的灰狼优化算法的基因选择方法,所述方法包括以下步骤:
步骤S1、根据从公开网站获取的基因数据集,生成训练集和测试集;
步骤S2、利用预设灰狼优化算法对基因数据集的训练集和测试集进行全局搜索,并结合所述训练集和所述测试集二者基于KNN分类器在所述预设灰狼优化算法中所定义的适应度函数,以确定基因数据集的特征子集,并利用预设的扩散策略在所确定的基因数据集的特征子集中选出全局最优解,且进一步对所选的全局最优解进行混沌局部搜索,以获取基因数据集的最优训练集和最优测试集作为最终的最优基因子集;
步骤S3、输出最终获取的最优基因子集。
其中,所述基因数据集生成训练集和测试集的步骤具体包括:
循环10次对所述基因数据集进行分类,且所述基因数据集每次分类均为将所述基因数据集均分成十份,其中一份做测试集,其余九份做训练集,并进一步采用10-折交叉进行验证,得到最终生成的训练集和测试集。
其中,所述步骤S2具体包括:
步骤a1、利用预设灰狼优化算法对基因数据集的训练集和测试集进行全局搜索,并结合所述训练集和所述测试集二者基于KNN分类器在所述预设灰狼优化算法中所定义的适应度函数,以确定基因数据集的特征子集,并利用预设的扩散策略在所确定的基因数据集的特征子集中选出全局最优解,具体过程如下:
步骤1-1:参数初始化,具体包括:灰狼种群个数N、最大评估次数MaxFes、解向量的上界UB及下界LB、扩散策略中的最大扩散次数q、交叉验证次数fold、灰狼种群X;其中,个体Xij=LBij+rand*(UBij–LBij);i=1,2,3,…,N;j=1,2,3,…,D;D为向量维度;
步骤1-2:使用sigmoid函数将灰狼种群X离散化处理,使灰狼的位置映射为二进制变量0或1;其中,sigmoid函数的表示公式为
Figure BDA0002621503790000031
灰狼的通过sigmoid函数转化后的位置为
Figure BDA0002621503790000032
rand为0和1之间的随机值;
Figure BDA0002621503790000033
为第i个灰狼个体的第j维通过sigmoid函数转化后的结果;当
Figure BDA0002621503790000034
时表示选中该特征,否则表示未选中;
步骤1-3:设置当前评估次数FEs的初始值为0;
步骤1-4:判断当前评估次数FEs是否小于最大评估次数MaxFEs;若是,则进行步骤1-5;若否,则输出最优基因子集;
步骤1-5:基于KNN分类器在所述预设灰狼优化算法中所定义的适应度函数,计算种群中各个灰狼个体的适应度值,并将当前适应度值最小的3个灰狼个体分别命名为alpha、beta和delta,且进一步记录下它们的位置和适应度值;
其中,所述适应度函数的表示公式为
Figure BDA0002621503790000041
Fitness(Xi)表示第i个灰狼个体的适应度值,E表示所述训练集和所述测试集输入KNN分类器所获得的分类错误率,θ表示在计算适应度值的过程中分类错误率所占的权重,R表示每个二进制灰狼个体Xi中数值为1的个数,即基因数据的特征子集的长度,D是灰狼个体的维度,即基因数据集中的属性总数,α是属性约简所占的权重,且θ+α=1;
其中,灰狼与猎物之间的距离计算公式为
Figure BDA0002621503790000042
Figure BDA0002621503790000043
表示猎物位置,
Figure BDA0002621503790000044
为当前灰狼个体的位置,
Figure BDA0002621503790000045
为系数向量,
Figure BDA0002621503790000046
灰狼包围猎物的计算公式为
Figure BDA0002621503790000047
A为系数向量,
Figure BDA0002621503790000048
a是衰减因子,随着迭代次数的增加从2线性减少到0.
Figure BDA0002621503790000049
Figure BDA00026215037900000410
是0和1之间的随机值,且
Figure BDA00026215037900000411
其中,灰狼种群在狩猎阶段,alpha、beta和delta狼的位置更新公式为
Figure BDA00026215037900000412
Figure BDA00026215037900000413
Figure BDA00026215037900000414
分别为alpha、beta和delta狼的位置;
Figure BDA00026215037900000415
Figure BDA00026215037900000416
Figure BDA00026215037900000417
分别为alpha、beta、delta狼各自与猎物之间的距离;
Figure BDA00026215037900000418
Figure BDA00026215037900000419
分别表示相应猎物的位置;
Figure BDA00026215037900000420
Figure BDA00026215037900000421
分别为系数向量,均为固定值;
Figure BDA00026215037900000422
是当前灰狼个体的位置,此时
Figure BDA00026215037900000423
步骤1-6:对灰狼种群中的每个个体执行扩散策略,并在比较适应度值后选择最优个体组成新的灰狼种群;其中,扩散策略通过公式来Xq(i)=X(i)+β×Ganssion(Pi,|BP|)-(r1×BP-r2×Pi)实现;Pi和|BP|分别为高斯分布的均值和标准差,Pi为搜索代理当前位置,BP为搜索代理到目前为止的最佳位置,r1和r2均为[0,1]之间的随机数;
步骤1-7:计算出扩散后灰狼个体的适应度值,判断其是否大于原种群的适应度值,贪心更新灰狼种群;
步骤1-8:判断当前的评估次数t是否达到最大评估次数MaxFes;若没有达到,则t=t+1后,继续返回步骤1-4进行重复操作;若已经达到最大评估次数MaxFes,则计算出种群中所有个体的适应度值,并对其进行升序排序,获取最优个体位置及适应度值,即得到全局最优解;
步骤a2、基于步骤a1所输出最优的全局最优解,进行混沌局部搜索,以获取基因数据集的最优训练集和最优测试集作为最终的最优基因子集,具体过程如下:
步骤2-1:初始化控制混沌局部搜索收缩程度的参数λ,并通过随机生成不等于0.25,0.5,0.75和1的随机数rd;
步骤2-2:设置第一个局部候选解
Figure BDA0002621503790000051
步骤2-3:根据Logistics映射方法,对局部候选解XC进行N次更新,生成新的空间候选解;
步骤2-4:计算经过混沌局部后的空间候选解的适应度值FitnessC;
步骤2-5:比较FitnessC和全局最优解alpha狼的适应度值Alpha_fit的大小,并选择最优个体作为新的alpha狼;
步骤2-6:输出alpha狼的位置,确定基因数据集的最优基因子集。
其中,所述KNN分类器中采用的算法步骤具体包括:求距离、寻找相邻的对象和确定类别;其中,
所述求距离的步骤具体为,给定测试数据,计算它与训练数据中的每个对象的距离;其中,距离公式具体为
Figure BDA0002621503790000052
所述寻找相邻的对象的步骤具体为,根据距离规定距离最近的K个训练样本,作为测试样本的邻居;
所述确定类别的步骤具体为,根据这K个邻居归属的主要类别,找出类别占比最大的作为测试样本所属的种类。
本发明实施例还提供了一种基于扩散及混沌局部搜索的灰狼优化算法的基因选择系统,包括:
数据设置单元,用于根据从公开网站获取的基因数据集,生成训练集和测试集;
优化单元,用于利用预设灰狼优化算法对基因数据集的训练集和测试集进行全局搜索,并结合所述训练集和所述测试集二者基于KNN分类器在所述预设灰狼优化算法中所定义的适应度函数,以确定基因数据集的特征子集,并利用预设的扩散策略在所确定的基因数据集的特征子集中选出全局最优解,且进一步对所选的全局最优解进行混沌局部搜索,以获取基因数据集的最优训练集和最优测试集作为最终的最优基因子集;
结果输出单元,用于输出最终获取的最优基因子集。
实施本发明实施例,具有如下有益效果:
与现有的方法相比,本发明由灰狼优化算法与分形搜索的扩散策略以及混沌局部搜索相结合的二进制灰狼优化算法,以此来对基因数据进行选择,不仅可以对每个灰狼个体进行以高斯行走的扩散,进一步扩大全局搜索的优势,保持种群的多样性,有效的避免局部最优值,实现在具有高维度、小样本、不相关且存在噪声和冗余基因的基因数据上选择出最优基因子集。从而有效地克服现有技术得到的基因子集对基因数据分类精度低的问题,实现在保持较高基因数据分类精度的同时找到最优基因子集。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,根据这些附图获得其他的附图仍属于本发明的范畴。
图1为本发明实施例提供的基于扩散及混沌局部搜索的灰狼优化算法的基因选择方法的流程图;
图2为本发明实施例提供的基于扩散及混沌局部搜索的灰狼优化算法的基因选择方法中扩散策略的原理图;
图3为本发明实施例提供的基于扩散及混沌局部搜索的灰狼优化算法的基因选择方法中基因选择的适应度值收敛曲线图;
图4为本发明实施例提供的基于扩散及混沌局部搜索的灰狼优化算法的基因选择系统的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述。
如图1所示,为本发明实施例中,提供的一种基于扩散及混沌局部搜索的灰狼优化算法的基因选择方法,所述方法包括以下步骤:
步骤S1、根据从公开网站获取的基因数据集,生成训练集和测试集;
具体过程为,根据从公开网站获取的基因数据集,这些微阵列数据集都是高维的,包括不相关或弱相关特征,数据集的维度范围从2000到12600,生物医学微阵列数据集列于表2-1中。这些数据集包括Prostate-Tumor,Colon和Tumor等,并且提供与基因表达,蛋白质谱分析和基因组序列相关的数据,用于分类和疾病诊断。微阵列数据集的特点就是样本数目相对较少,基因数目成千上万,这将会造成误差估计受小样本的影响很大,如果没有对错误进行适当的估计,则会出现分类方法的不当应用。为了克服这个问题,有必要选择正确的验证方法来估计分类错误。微阵列结构域中最广泛使用的验证技术之一是所谓的K-折叠交叉验证,本发明在分类过程求精确度时使用10-折交叉来对分类结果进行验证,将数据集平均分成10份,其中一份做测试集其余的9份做训练集,这样循环10次将最终的结果求平均值,即循环10次对所述基因数据集进行分类,且所述基因数据集每次分类均为将所述基因数据集均分成十份,其中一份做测试集,其余九份做训练集,并进一步采用10-折交叉进行验证,得到最终生成的训练集和测试集。
应当说明的是,用10-折交叉验证的优点是每轮的训练集和测试集都能够固定和重现,并且能够减少误差。
步骤S2、利用预设灰狼优化算法对基因数据集的训练集和测试集进行全局搜索,并结合所述训练集和所述测试集二者基于KNN分类器在所述预设灰狼优化算法中所定义的适应度函数,以确定基因数据集的特征子集,并利用预设的扩散策略在所确定的基因数据集的特征子集中选出全局最优解,且进一步对所选的全局最优解进行混沌局部搜索,以获取基因数据集的最优训练集和最优测试集作为最终的最优基因子集;
具体过程为,步骤a1、利用预设灰狼优化算法对基因数据集的训练集和测试集进行全局搜索,并结合所述训练集和所述测试集二者基于KNN分类器在所述预设灰狼优化算法中所定义的适应度函数,以确定基因数据集的特征子集,并利用预设的扩散策略在所确定的基因数据集的特征子集中选出全局最优解,具体过程如下:
步骤1-1:参数初始化,具体包括:灰狼种群个数N、最大评估次数MaxFes、解向量的上界UB及下界LB、扩散策略中的最大扩散次数q、交叉验证次数fold、灰狼种群X;其中,个体Xij=LBij+rand*(UBij–LBij);i=1,2,3,…,N;j=1,2,3,…,D;D为向量维度;
步骤1-2:使用sigmoid函数将灰狼种群X离散化处理,使灰狼的位置映射为二进制变量0或1;其中,sigmoid函数的表示公式为
Figure BDA0002621503790000081
灰狼的通过sigmoid函数转化后的位置为
Figure BDA0002621503790000082
rand为0和1之间的随机值;
Figure BDA0002621503790000083
为第i个灰狼个体的第j维通过sigmoid函数转化后的结果;当
Figure BDA0002621503790000084
时表示选中该特征,否则表示未选中;
步骤1-3:设置当前评估次数FEs的初始值为0;
步骤1-4:判断当前评估次数FEs是否小于最大评估次数MaxFEs;若是,则进行步骤1-5;若否,则输出最优基因子集;
步骤1-5:基于KNN分类器在所述预设灰狼优化算法中所定义的适应度函数,计算种群中各个灰狼个体的适应度值,并将当前适应度值最小的3个灰狼个体分别命名为alpha、beta和delta,且进一步记录下它们的位置和适应度值;
其中,所述适应度函数的表示公式为
Figure BDA0002621503790000085
Fitness(Xi)表示第i个灰狼个体的适应度值,E表示所述训练集和所述测试集输入KNN分类器所获得的分类错误率,θ表示在计算适应度值的过程中分类错误率所占的权重,R表示每个二进制灰狼个体Xi中数值为1的个数,即基因数据的特征子集的长度,D是灰狼个体的维度,即基因数据集中的属性总数,α是属性约简所占的权重,且θ+α=1;
其中,灰狼与猎物之间的距离计算公式为
Figure BDA0002621503790000091
Figure BDA0002621503790000092
表示猎物位置,
Figure BDA0002621503790000093
为当前灰狼个体的位置,
Figure BDA0002621503790000094
为系数向量,
Figure BDA0002621503790000095
灰狼包围猎物的计算公式为
Figure BDA0002621503790000096
A为系数向量,
Figure BDA0002621503790000097
a是衰减因子,随着迭代次数的增加从2线性减少到0.
Figure BDA0002621503790000098
Figure BDA0002621503790000099
是0和1之间的随机值,且
Figure BDA00026215037900000910
其中,灰狼种群在狩猎阶段,alpha、beta和delta狼的位置更新公式为
Figure BDA00026215037900000911
Figure BDA00026215037900000912
Figure BDA00026215037900000913
分别为alpha、beta和delta狼的位置;
Figure BDA00026215037900000914
Figure BDA00026215037900000915
Figure BDA00026215037900000916
分别为alpha、beta、delta狼各自与猎物之间的距离;
Figure BDA00026215037900000917
Figure BDA00026215037900000918
分别表示相应猎物的位置;
Figure BDA00026215037900000919
Figure BDA00026215037900000920
分别为系数向量,均为固定值;
Figure BDA00026215037900000921
是当前灰狼个体的位置,此时
Figure BDA00026215037900000922
步骤1-6:对灰狼种群中的每个个体执行扩散策略(如图2所示),并在比较适应度值后选择最优个体组成新的灰狼种群;其中,扩散策略通过公式来Xq(i)=X(i)+β×Ganssion(Pi,|BP|)-(r1×BP-r2×Pi)实现;Pi和|BP|分别为高斯分布的均值和标准差,Pi为搜索代理当前位置,BP为搜索代理到目前为止的最佳位置,r1和r2均为[0,1]之间的随机数;
步骤1-7:计算出扩散后灰狼个体的适应度值,判断其是否大于原种群的适应度值,贪心更新灰狼种群;具体包括更新线性参数a和系数向量|A|、|C|,然后对于新种群中的个体,分别计算每个灰狼个体与alpha、beta和delta狼之间的距离,再根据alpha、beta和delta狼的位置,再次更新灰狼种群;
步骤1-8:判断当前的评估次数t是否达到最大评估次数MaxFes;若没有达到,则t=t+1后,继续返回步骤1-4进行重复操作;若已经达到最大评估次数MaxFes,则计算出种群中所有个体的适应度值,并对其进行升序排序,获取最优个体位置及适应度值,即得到全局最优解;
步骤a2、基于步骤a1所输出最优的全局最优解,进行混沌局部搜索,以获取基因数据集的最优训练集和最优测试集作为最终的最优基因子集,具体过程如下:
步骤2-1:初始化控制混沌局部搜索收缩程度的参数λ,并通过随机生成不等于0.25,0.5,0.75和1的随机数rd;
步骤2-2:设置第一个局部候选解
Figure BDA0002621503790000101
步骤2-3:根据Logistics映射方法,对局部候选解XC进行N次更新,生成新的空间候选解;
步骤2-4:计算经过混沌局部后的空间候选解的适应度值FitnessC;
步骤2-5:比较FitnessC和全局最优解alpha狼的适应度值Alpha_fit的大小,并选择最优个体作为新的alpha狼;
步骤2-6:输出alpha狼的位置,确定基因数据集的最优基因子集。
可以理解的是,在步骤1-2中,使用sigmoid函数将灰狼种群X离散化处理,主要是考虑到使用sigmoid函数编码不仅能剔除冗余,将基因选择的特点与优化算法结合,不仅提高了基因选择的效率,而且增加解的变化。sigmoid函数可以将搜索代理的位置转换到0和1之间,因为该函数具有非常好的对称性,所以无论灰狼个体如何分布都可以均匀的映射到0和1之间。
在步骤1-5中,基于KNN分类器在预设灰狼优化算法中所定义的适应度函数,主要是考虑到基因选择可以看作为一个组合优化问题。为了清楚优化目标,首先需要设置一个合适的目标函数作为算法迭代过程中的一个评判标准,因为基因选择被视为多目标优化问题,其中要实现两个相互矛盾的目标即选取最小的基因数目和最大限度的提高分类精度。因此,需要设置一个目标函数将这两个目标归一化到一个函数里面。
此时,根据KNN分类器来计算分类精度,KNN分类器使用的是matlab2016a中自带的分类器。KNN分类方法是依据测试样本与训练样本的距离来判断待测样本属于哪个类别,一般选取与测试样本距离最近的K个样本。若K=1,待测样本距离某个邻居样本中最近的,它的类别就和此样本类别一样。
KNN算法的步骤包括:求距离、寻找相邻的对象和确定类别;其中,
第一步、求距离的步骤具体为,给定测试数据,计算它与训练数据中的每个对象的距离;其中,距离公式具体为
Figure BDA0002621503790000111
第二步、寻找相邻的对象的步骤具体为,根据距离规定距离最近的K个训练样本,作为测试样本的邻居;
第三步、确定类别的步骤具体为,根据这K个邻居归属的主要类别,找出类别占比最大的作为测试样本所属的种类。
步骤S3、输出最终获取的最优基因子集。
具体过程为,根据步骤S2获取基因数据集最终表现的最优基因子集输出,即为所需结果。
在本发明实施例中,我们采用了MATLAB工具箱提供的KNN分类器作为每次迭代过程中生成基因子集的评价标准。由于在开始评估的过程中,由于我们获取的基因子集可能不是我们所期待的最优子集,所以无需花大量的时间通过其他基因选择方法重新计算基因子集,随着评估次数的灰狼种群随着fitness函数的作用,逐渐向分类精度高和基因属性数量小的个体移动,此时可以在其附近进行多次的搜索使其接近期待得到的最优基因子集。基于此思想,在本发明实施例中,我们使用基于扩散策略和混沌局部搜索的二进制灰狼优化算法作为基因选择的主要优化方法。
为了证明基于扩散策略和混沌局部搜索策略的二进制灰狼优化算法在特征选择过程中的优化效果,表1-3分别是从适应度值、基因子集的大小和分类错误率这三方面来说明基于扩散策略和混沌局部搜索策略的二进制灰狼优化算法在基因选择算法在基因选择中的优越性能,如图3所示。
其中,表1基于扩散策略和混沌局部搜索的二进制灰狼算法和其他算法在最优基因子集的平均适应度值上的比较结果,具体如下:
Figure BDA0002621503790000121
其中,表2基于扩散策略和混沌局部搜索的二进制灰狼算法和其他算法在最优基因子集的平均基因个数上的比较结果,具体如下:
Figure BDA0002621503790000122
其中,表3基于扩散策略和混沌局部搜索的二进制灰狼算法和其他算法在最优基因子集的平均错误分类精度上的比较结果,具体如下:
Figure BDA0002621503790000123
Figure BDA0002621503790000131
每个表都分别从平均值和标准差这两个指标来分析各个优化算法在各个评价标准上的稳定性和精确性。每个评价标准的平均值和标准差的具体计算方式如下。
适应度平均值:表示优化算法的M次计算后得到的解的适应度平均值,可表示为:
Figure BDA0002621503790000132
适应度标准差:表示在执行M此优化算法后得到的最优解变化,可表示为:
Figure BDA0002621503790000133
平均基因选择个数:表示M此所选基因数的平均值,可表示为:
Figure BDA0002621503790000134
基因数目标准差:表示在执行M此优化算法后得到的基因数目变化,可表示为:
Figure BDA0002621503790000135
平均分类错误精度:所选特征集的分类错误精度的平均值。其计算方法为:
Figure BDA0002621503790000136
分类错误精度标准差:表示在执行M此优化算法后分类错误精度的变化,可表示为:
Figure BDA0002621503790000137
如图4所示,为本发明实施例中,提供的一种基于扩散及混沌局部搜索的灰狼优化算法的基因选择系统,包括:
数据设置单元10,用于根据从公开网站获取的基因数据集,生成训练集和测试集;
优化单元20,用于利用预设灰狼优化算法对基因数据集的训练集和测试集进行全局搜索,并结合所述训练集和所述测试集二者基于KNN分类器在所述预设灰狼优化算法中所定义的适应度函数,以确定基因数据集的特征子集,并利用预设的扩散策略在所确定的基因数据集的特征子集中选出全局最优解,且进一步对所选的全局最优解进行混沌局部搜索,以获取基因数据集的最优训练集和最优测试集作为最终的最优基因子集;
结果输出单元30,用于输出最终获取的最优基因子集。
实施本发明实施例,具有如下有益效果:
与现有的方法相比,本发明由灰狼优化算法与分形搜索的扩散策略以及混沌局部搜索相结合的二进制灰狼优化算法,以此来对基因数据进行选择,不仅可以对每个灰狼个体进行以高斯行走的扩散,还扩大全局搜索的优势,保持种群的多样性,有效的避免局部最优值,实现在具有高维度、小样本、不相关且存在噪声和冗余基因的基因数据上选择出最优基因子集,从而有效地克服现有技术得到的基因子集对基因数据分类精度低的问题,实现在保持较高基因数据分类精度的同时找到最优基因子集。
值得注意的是,上述装置实施例中,所包括的各个单元只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,所述的存储介质,如ROM/RAM、磁盘、光盘等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (5)

1.一种基于扩散及混沌局部搜索的灰狼优化算法的基因选择方法,其特征在于,所述方法包括以下步骤:
步骤S1、根据从公开网站获取的基因数据集,生成训练集和测试集;
步骤S2、利用预设灰狼优化算法对基因数据集的训练集和测试集进行全局搜索,并结合所述训练集和所述测试集二者基于KNN分类器在所述预设灰狼优化算法中所定义的适应度函数,以确定基因数据集的特征子集,并利用预设的扩散策略在所确定的基因数据集的特征子集中选出全局最优解,且进一步对所选的全局最优解进行混沌局部搜索,以获取基因数据集的最优训练集和最优测试集作为最终的最优基因子集;
步骤S3、输出最终获取的最优基因子集。
2.如权利要求1所述的基于扩散及混沌局部搜索的灰狼优化算法的基因选择方法,其特征在于,所述基因数据集生成训练集和测试集的步骤具体包括:
循环10次对所述基因数据集进行分类,且所述基因数据集每次分类均为将所述基因数据集均分成十份,其中一份做测试集,其余九份做训练集,并进一步采用10-折交叉进行验证,得到最终生成的训练集和测试集。
3.如权利要求1所述的基于扩散及混沌局部搜索的灰狼优化算法的基因选择方法,其特征在于,所述步骤S2具体包括:
步骤a1、利用预设灰狼优化算法对基因数据集的训练集和测试集进行全局搜索,并结合所述训练集和所述测试集二者基于KNN分类器在所述预设灰狼优化算法中所定义的适应度函数,以确定基因数据集的特征子集,并利用预设的扩散策略在所确定的基因数据集的特征子集中选出全局最优解,具体过程如下:
步骤1-1:参数初始化,具体包括:灰狼种群个数N、最大评估次数MaxFes、解向量的上界UB及下界LB、扩散策略中的最大扩散次数q、交叉验证次数fold、灰狼种群X;其中,个体Xij=LBij+rand*(UBij–LBij);i=1,2,3,…,N;j=1,2,3,…,D;D为向量维度;
步骤1-2:使用sigmoid函数将灰狼种群X离散化处理,使灰狼的位置映射为二进制变量0或1;其中,sigmoid函数的表示公式为
Figure FDA0002621503780000021
灰狼的通过sigmoid函数转化后的位置为
Figure FDA0002621503780000022
rand为0和1之间的随机值;
Figure FDA0002621503780000023
为第i个灰狼个体的第j维通过sigmoid函数转化后的结果;当
Figure FDA0002621503780000024
时表示选中该特征,否则表示未选中;
步骤1-3:设置当前评估次数FEs的初始值为0;
步骤1-4:判断当前评估次数FEs是否小于最大评估次数MaxFEs;若是,则进行步骤1-5;若否,则输出最优基因子集;
步骤1-5:基于KNN分类器在所述预设灰狼优化算法中所定义的适应度函数,计算种群中各个灰狼个体的适应度值,并将当前适应度值最小的3个灰狼个体分别命名为alpha、beta和delta,且进一步记录下它们的位置和适应度值;
其中,所述适应度函数的表示公式为
Figure FDA0002621503780000025
Fitness(Xi)表示第i个灰狼个体的适应度值,E表示所述训练集和所述测试集输入KNN分类器所获得的分类错误率,θ表示在计算适应度值的过程中分类错误率所占的权重,R表示每个二进制灰狼个体Xi中数值为1的个数,即基因数据的特征子集的长度,D是灰狼个体的维度,即基因数据集中的属性总数,α是属性约简所占的权重,且θ+α=1;
其中,灰狼与猎物之间的距离计算公式为
Figure FDA0002621503780000026
Figure FDA0002621503780000027
表示猎物位置,
Figure FDA0002621503780000028
为当前灰狼个体的位置,
Figure FDA0002621503780000029
为系数向量,
Figure FDA00026215037800000210
灰狼包围猎物的计算公式为
Figure FDA00026215037800000211
A为系数向量,
Figure FDA00026215037800000212
a是衰减因子,随着迭代次数的增加从2线性减少到0.
Figure FDA00026215037800000213
Figure FDA00026215037800000214
是0和1之间的随机值,且
Figure FDA00026215037800000215
其中,灰狼种群在狩猎阶段,alpha、beta和delta狼的位置更新公式为
Figure FDA00026215037800000216
Figure FDA00026215037800000217
Figure FDA00026215037800000218
分别为alpha、beta和delta狼的位置;
Figure FDA0002621503780000031
Figure FDA0002621503780000032
Figure FDA0002621503780000033
分别为alpha、beta、delta狼各自与猎物之间的距离;
Figure FDA0002621503780000034
Figure FDA0002621503780000035
分别表示相应猎物的位置;
Figure FDA0002621503780000036
Figure FDA0002621503780000037
分别为系数向量,均为固定值;
Figure FDA0002621503780000038
是当前灰狼个体的位置,此时
Figure FDA0002621503780000039
步骤1-6:对灰狼种群中的每个个体执行扩散策略,并在比较适应度值后选择最优个体组成新的灰狼种群;其中,扩散策略通过公式来Xq(i)=X(i)+β×Ganssion(Pi,|BP|)-(r1×BP-r2×Pi)实现;Pi和|BP|分别为高斯分布的均值和标准差,Pi为搜索代理当前位置,BP为搜索代理到目前为止的最佳位置,r1和r2均为[0,1]之间的随机数;
步骤1-7:计算出扩散后灰狼个体的适应度值,判断其是否大于原种群的适应度值,贪心更新灰狼种群;
步骤1-8:判断当前的评估次数t是否达到最大评估次数MaxFes;若没有达到,则t=t+1后,继续返回步骤1-4进行重复操作;若已经达到最大评估次数MaxFes,则计算出种群中所有个体的适应度值,并对其进行升序排序,获取最优个体位置及适应度值,即得到全局最优解;
步骤a2、基于步骤a1所输出最优的全局最优解,进行混沌局部搜索,以获取基因数据集的最优训练集和最优测试集作为最终的最优基因子集,具体过程如下:
步骤2-1:初始化控制混沌局部搜索收缩程度的参数λ,并通过随机生成不等于0.25,0.5,0.75和1的随机数rd;
步骤2-2:设置第一个局部候选解
Figure FDA00026215037800000310
步骤2-3:根据Logistics映射方法,对局部候选解XC进行N次更新,生成新的空间候选解;
步骤2-4:计算经过混沌局部后的空间候选解的适应度值FitnessC;
步骤2-5:比较FitnessC和全局最优解alpha狼的适应度值Alpha_fit的大小,并选择最优个体作为新的alpha狼;
步骤2-6:输出alpha狼的位置,确定基因数据集的最优基因子集。
4.如权利要求3所述的基于扩散及混沌局部搜索的灰狼优化算法的基因选择方法,其特征在于,所述KNN分类器中采用的算法步骤具体包括:求距离、寻找相邻的对象和确定类别;其中,
所述求距离的步骤具体为,给定测试数据,计算它与训练数据中的每个对象的距离;其中,距离公式具体为
Figure FDA0002621503780000041
所述寻找相邻的对象的步骤具体为,根据距离规定距离最近的K个训练样本,作为测试样本的邻居;
所述确定类别的步骤具体为,根据这K个邻居归属的主要类别,找出类别占比最大的作为测试样本所属的种类。
5.一种基于扩散及混沌局部搜索的灰狼优化算法的基因选择系统,其特征在于,包括:
数据设置单元,用于根据从公开网站获取的基因数据集,生成训练集和测试集;
优化单元,用于利用预设灰狼优化算法对基因数据集的训练集和测试集进行全局搜索,并结合所述训练集和所述测试集二者基于KNN分类器在所述预设灰狼优化算法中所定义的适应度函数,以确定基因数据集的特征子集,并利用预设的扩散策略在所确定的基因数据集的特征子集中选出全局最优解,且进一步对所选的全局最优解进行混沌局部搜索,以获取基因数据集的最优训练集和最优测试集作为最终的最优基因子集;
结果输出单元,用于输出最终获取的最优基因子集。
CN202010784689.7A 2020-08-06 2020-08-06 基于扩散及混沌局部搜索的灰狼优化算法的基因选择方法 Active CN112116952B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010784689.7A CN112116952B (zh) 2020-08-06 2020-08-06 基于扩散及混沌局部搜索的灰狼优化算法的基因选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010784689.7A CN112116952B (zh) 2020-08-06 2020-08-06 基于扩散及混沌局部搜索的灰狼优化算法的基因选择方法

Publications (2)

Publication Number Publication Date
CN112116952A true CN112116952A (zh) 2020-12-22
CN112116952B CN112116952B (zh) 2024-02-09

Family

ID=73799630

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010784689.7A Active CN112116952B (zh) 2020-08-06 2020-08-06 基于扩散及混沌局部搜索的灰狼优化算法的基因选择方法

Country Status (1)

Country Link
CN (1) CN112116952B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113571134A (zh) * 2021-07-28 2021-10-29 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 基于骨干粒子群算法的基因数据特征选择方法及装置
CN115906543B (zh) * 2023-03-08 2023-08-04 苏州培风图南半导体有限公司 一种基于光刻建模仿真的参数获取方法
CN117354013A (zh) * 2023-10-11 2024-01-05 中国电子科技集团公司第三十研究所 一种基于狼群狩猎算法的钓鱼攻击检测方法
CN117637154A (zh) * 2024-01-27 2024-03-01 南通大学附属医院 一种基于优化算法的神经内科重症指标预测方法及系统

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002103954A2 (en) * 2001-06-15 2002-12-27 Biowulf Technologies, Llc Data mining platform for bioinformatics and other knowledge discovery
WO2012107786A1 (en) * 2011-02-09 2012-08-16 Rudjer Boskovic Institute System and method for blind extraction of features from measurement data
WO2015051192A1 (en) * 2013-10-03 2015-04-09 The Board Of Trustees Of The University Of Illinois System and method of predicting personal therapeutic response
CN106355192A (zh) * 2016-08-16 2017-01-25 温州大学 一种基于混沌灰狼优化的支持向量机方法
CN106789359A (zh) * 2017-02-15 2017-05-31 广东工业大学 一种基于灰狼算法的网络流量分类方法及装置
CN107909141A (zh) * 2017-11-27 2018-04-13 温州大学 一种基于灰狼优化算法的数据分析方法及装置
WO2018072351A1 (zh) * 2016-10-20 2018-04-26 北京工业大学 一种基于粒子群优化算法对支持向量机的优化方法
CN109299776A (zh) * 2018-09-14 2019-02-01 湖南工程学院 一种核增量型超限学习机、差分多种群灰狼混合优化方法
CN110608743A (zh) * 2019-10-18 2019-12-24 南京航空航天大学 基于多种群混沌灰狼算法的多无人机协同航路规划方法
CN110880031A (zh) * 2019-11-18 2020-03-13 贵州大学 基于融合随机黑洞策略的灰狼优化算法的特征选择方法
CN111371607A (zh) * 2020-02-28 2020-07-03 大连大学 一种基于决策灰狼算法优化lstm的网络流量预测方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002103954A2 (en) * 2001-06-15 2002-12-27 Biowulf Technologies, Llc Data mining platform for bioinformatics and other knowledge discovery
WO2012107786A1 (en) * 2011-02-09 2012-08-16 Rudjer Boskovic Institute System and method for blind extraction of features from measurement data
WO2015051192A1 (en) * 2013-10-03 2015-04-09 The Board Of Trustees Of The University Of Illinois System and method of predicting personal therapeutic response
CN106355192A (zh) * 2016-08-16 2017-01-25 温州大学 一种基于混沌灰狼优化的支持向量机方法
WO2018072351A1 (zh) * 2016-10-20 2018-04-26 北京工业大学 一种基于粒子群优化算法对支持向量机的优化方法
CN106789359A (zh) * 2017-02-15 2017-05-31 广东工业大学 一种基于灰狼算法的网络流量分类方法及装置
CN107909141A (zh) * 2017-11-27 2018-04-13 温州大学 一种基于灰狼优化算法的数据分析方法及装置
CN109299776A (zh) * 2018-09-14 2019-02-01 湖南工程学院 一种核增量型超限学习机、差分多种群灰狼混合优化方法
CN110608743A (zh) * 2019-10-18 2019-12-24 南京航空航天大学 基于多种群混沌灰狼算法的多无人机协同航路规划方法
CN110880031A (zh) * 2019-11-18 2020-03-13 贵州大学 基于融合随机黑洞策略的灰狼优化算法的特征选择方法
CN111371607A (zh) * 2020-02-28 2020-07-03 大连大学 一种基于决策灰狼算法优化lstm的网络流量预测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
於帮兵;王华忠;颜秉勇;: "基于灰狼算法和案例推理的工控系统入侵检测", 华东理工大学学报(自然科学版), no. 02 *
杨书杰;叶霞;李俊山;: "基于灰狼算法的BP神经网络图像恢复算法", 微电子学与计算机, no. 03 *
王志华;罗齐;刘绍廷;: "基于混沌灰狼优化算法的SVM分类器研究", 计算机工程与科学, no. 11 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113571134A (zh) * 2021-07-28 2021-10-29 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 基于骨干粒子群算法的基因数据特征选择方法及装置
CN115906543B (zh) * 2023-03-08 2023-08-04 苏州培风图南半导体有限公司 一种基于光刻建模仿真的参数获取方法
CN117354013A (zh) * 2023-10-11 2024-01-05 中国电子科技集团公司第三十研究所 一种基于狼群狩猎算法的钓鱼攻击检测方法
CN117354013B (zh) * 2023-10-11 2024-04-23 中国电子科技集团公司第三十研究所 一种基于狼群狩猎算法的钓鱼攻击检测方法
CN117637154A (zh) * 2024-01-27 2024-03-01 南通大学附属医院 一种基于优化算法的神经内科重症指标预测方法及系统
CN117637154B (zh) * 2024-01-27 2024-03-29 南通大学附属医院 一种基于优化算法的神经内科重症指标预测方法及系统

Also Published As

Publication number Publication date
CN112116952B (zh) 2024-02-09

Similar Documents

Publication Publication Date Title
CN112116952B (zh) 基于扩散及混沌局部搜索的灰狼优化算法的基因选择方法
CN108846259B (zh) 一种基于聚类和随机森林算法的基因分类方法及系统
CN111400180B (zh) 一种基于特征集划分和集成学习的软件缺陷预测方法
CN108595916B (zh) 基于生成对抗网络的基因表达全谱推断方法
CN112215259B (zh) 基因选择方法和装置
CN101923604A (zh) 基于邻域粗糙集的加权knn肿瘤基因表达谱分类方法
Zhu et al. Hierarchical topology-based cluster representation for scalable evolutionary multiobjective clustering
Hruschka et al. Improving the efficiency of a clustering genetic algorithm
CN115952456A (zh) 故障诊断模型的确定方法、系统、程序产品及存储介质
CN116821715A (zh) 一种基于半监督约束的人工蜂群优化聚类方法
CN110580252B (zh) 多目标优化下的空间对象索引与查询方法
CN111209939A (zh) 一种具有智能参数优化模块的svm分类预测方法
CN113052268A (zh) 区间集数据类型下基于不确定性度量的属性约简算法
CN110796198A (zh) 基于混合蚁群优化算法的高维特征筛选方法
CN109934344A (zh) 一种改进的基于规则模型的多目标分布估计算法
US20220284261A1 (en) Training-support-based machine learning classification and regression augmentation
CN114117876A (zh) 基于改进哈里斯鹰算法的特征选择方法
Vijendra et al. An effective clustering algorithm for data mining
CN113269217A (zh) 基于Fisher准则的雷达目标分类方法
CN112801197A (zh) 一种基于用户数据分布的K-means方法
CN111488903A (zh) 基于特征权重的决策树特征选择方法
CN111352834A (zh) 一种基于局部敏感哈希的自适应随机测试方法
Mariño et al. Two weighted c-medoids batch SOM algorithms for dissimilarity data
CN110782950A (zh) 基于偏好网格和莱维飞行的多目标粒子群算法的肿瘤关键基因识别方法
CN116662859B (zh) 非遗文化数据特征选择方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant