CN112215278A - 一种遗传算法和蜻蜓算法相结合的多维数据特征选择方法 - Google Patents
一种遗传算法和蜻蜓算法相结合的多维数据特征选择方法 Download PDFInfo
- Publication number
- CN112215278A CN112215278A CN202011072371.2A CN202011072371A CN112215278A CN 112215278 A CN112215278 A CN 112215278A CN 202011072371 A CN202011072371 A CN 202011072371A CN 112215278 A CN112215278 A CN 112215278A
- Authority
- CN
- China
- Prior art keywords
- dragonfly
- algorithm
- individual
- probability
- chromosome
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 202
- 241000238633 Odonata Species 0.000 title claims abstract description 190
- 230000002068 genetic effect Effects 0.000 title claims abstract description 92
- 238000010187 selection method Methods 0.000 title claims abstract description 22
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 51
- 235000013305 food Nutrition 0.000 claims abstract description 49
- 230000035772 mutation Effects 0.000 claims abstract description 48
- 238000000034 method Methods 0.000 claims abstract description 43
- 238000012216 screening Methods 0.000 claims abstract description 26
- 206010039203 Road traffic accident Diseases 0.000 claims abstract description 17
- 238000004140 cleaning Methods 0.000 claims abstract description 8
- 210000000349 chromosome Anatomy 0.000 claims description 81
- 238000006073 displacement reaction Methods 0.000 claims description 30
- 230000008569 process Effects 0.000 claims description 30
- 230000006399 behavior Effects 0.000 claims description 29
- 238000005457 optimization Methods 0.000 claims description 16
- 230000009471 action Effects 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 9
- 238000009826 distribution Methods 0.000 claims description 8
- 230000002776 aggregation Effects 0.000 claims description 6
- 238000004220 aggregation Methods 0.000 claims description 6
- 238000005295 random walk Methods 0.000 claims description 6
- 206010064571 Gene mutation Diseases 0.000 claims description 5
- 238000000926 separation method Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 3
- 230000003044 adaptive effect Effects 0.000 claims description 2
- 238000003745 diagnosis Methods 0.000 claims description 2
- 230000024703 flight behavior Effects 0.000 claims description 2
- 238000003709 image segmentation Methods 0.000 claims description 2
- 238000000638 solvent extraction Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 15
- 238000003066 decision tree Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 3
- 238000007637 random forest analysis Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000002028 premature Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/12—Computing arrangements based on biological models using genetic models
- G06N3/126—Evolutionary algorithms, e.g. genetic algorithms or genetic programming
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Physiology (AREA)
- Genetics & Genomics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种采用遗传算法和蜻蜓算法相结合的多维数据特征选择方法,具体步骤为:对交通事故数据进行简单清洗;将蜻蜓算法嵌入到遗传算法中干预交叉操作,通过蜻蜓算法找出最佳交叉点位置,来提高遗传算法的寻优速度;将蜻蜓算法嵌入到遗传算法中干预变异操作,通过蜻蜓算法计算出的“食物”、“天敌”基因位置的是否选用,设置不同的基因位置变异概率,来提高算法的收敛速度。将数据特征筛选结果作为一种遗传算法和蜻蜓算法相结合的多维数据特征选择方法的输入,输出结果为算法选择出的数据特征。实验证明,本方法对于不同的分类器均有较好的表现,验证了本发明的特征选择方法是有效的,且具有鲁棒性。
Description
技术领域
本发明涉及一种属于机器学习的方法,更确切地说,本发明设计了一种遗传算法和蜻蜓算法相结合的多维数据特征选择方法。本发明不仅可以应用到机器学习领域,还可以推广到其他领域中,其他领域也属于本专利的保护范围。
背景技术
机器学习是近些年来新兴学科,涉及多个领域。机器学习专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,不断改善自身性能。而机器学习中,数据集的选取尤为重要。对于数据集的选取,首先是要选取有足够多特征和样本的数据集,其次是要在数据集中进行特征选择。由于在特征选择过程中进行优化可以提高多种分类模型的准确率,因此如何选择出较好的特征组合是人们关注的重点。
为了在大量数据中获取有效信息以得到有效的结果,在拿到数据时要先进行特征降维。特征降维的方法有特征选择和特征提取两种,特征提取是将原始特征集中的特征进行线性组合,使用新的特征代替初始特征,多用于图像处理方面;特征选择是在初始特征集中的D个特征,根据评价准则选出d(d<D)个特征,这d个特征可以得出最好的结果。特征提取和特征选择均可以达到降维目的,但是特征选择可以保存原始数据集中的物理特征,而特征提取后的新特征无法赋予其实际意义。
目前针对特征选择过程已有很多研究成果。大多数研究者采用改变过滤条件的方法来处理数据集,也有研究者采用进化算法进行特征选择。进化算法,也可称为演化算法,灵感来自于大自然的生物进化。与传统的穷举法等优化算法相比,进化计算是一种成熟的具有高鲁棒性和广泛适用性的全局优化方法,具有自组织、自适应、自学习的特性,能够不受问题性质的限制,有效地处理复杂问题。遗传算法是一种成熟的进化算法,该算法是根据大自然中生物体进化规律而设计提出的。该算法通过数学的方式,利用计算机仿真运算,将问题的求解过程转换成类似生物进化中的染色体基因的交叉、变异等过程。在求解较为复杂的组合优化问题时,相对一些常规的优化算法,通常能够较快地获得较好的优化结果。研究者将遗传算法应用于特征选择过程中可以得出一个较好的特征组合,但是由于遗传算法存在过早收敛的问题,导致该特征组合很有可能不是最优解。针对这一问题,本发明设计了一种遗传算法和蜻蜓算法相结合的多维数据特征选择方法,减少了寻优时间,提高了模型准确率。
发明内容
本发明所要解决的技术问题是优化现有的机器学习中特征选择方式,针对众多特征的多种组合可能性,提供了一种遗传算法和蜻蜓算法相结合的多维数据特征选择方法。
一种遗传算法和蜻蜓算法相结合的多维数据特征选择方法,步骤如下:
一、对于交通事故数据进行清洗,制作交通事故数据集,根据数据的每一维特征,将本维度特征中仅有单一值、数据缺失超过一半、信息熵值从大到小排在后三位的特征筛除,即所有数据进行模型训练时均不选取此特征,其余特征留用;
二、将步骤一中的数据特征筛选结果作为一种遗传算法和蜻蜓算法相结合的多维数据特征选择方法的输入,输出结果为算法选择出的数据特征;
所述的步骤二中,数据特征筛选结果作为一种遗传算法和蜻蜓算法相结合的多维数据特征选择方法的输入,输出结果为算法选择出的数据特征,其中一种遗传算法和蜻蜓算法相结合的多维数据特征选择方法是指:
1)划分训练集和测试集
交通事故数据集由各种渠道获得,收集好的车祸数据集分为训练集和测试集,在训练集和测试集中,根据交通事故的严重程度将数据分为轻微事故、严重事故和致命事故三种,训练集和测试集不重复存在;
2)缺失值筛除
对于已有的数据先进行统计,根据统计结果首先筛除缺失值超过一半的特征,即不再考虑此特征对于所有数据最后分类结果的影响。在未知前提下猜测结果正确率有二分之一,缺失值超过了一半的特征对于数据的分类准确率可能造成干扰;
3)单一特征筛除
对于现有的特征及数据,筛除掉特征值单一的数据特征。因为只有一个值,所以对于全部数据的分类准确率没有影响,而且会加大后续算法的计算量,因此将单一特征值的特征筛除;
4)信息熵筛除
对于现有的特征和数据,计算所有特征的信息熵。信息熵H(X)的计算公式如公式(1):
式中,p(xi)代表了第x个特征的n种不同取值情况对应的不同概率。信息熵表示了信息的不确定度,信息熵越大,信息的不确定度越高。因此筛除掉信息熵由大到小排名后3位的特征,因为该特征没有很多的有用信息,筛除后可以在基本不影响结果准确率的前提下减少特征选择工作量;
所述的步骤二中,将数据特征筛选结果作为一种遗传算法和蜻蜓算法相结合的多维数据特征选择方法的输入,输出结果为算法选择出的数据特征,其中另一种遗传算法和蜻蜓算法相结合的多维数据特征选择方法是指:
1)遗传算法
遗传算法是近年来发展的基于生物遗传学的观点的全新的全局优化算法,在数据进行处理的过程中,通过不断地进化,种群中的整体适应度不断提高,最终达到全局寻优的目标。遗传算法具有自适应性,随机生成初始种群后,经过迭代选择、交叉、变异等操作,最终寻得最优解;
2)遗传算法步骤
第一步骤:进行种群初始化,将要解决的问题表示成遗传空间的染色体个体,通常采用二进制编码方式,经过编码后随机生成初始种群P(0),设置迭代计数器t=0,设置最大迭代次数T;
第二步骤:根据适应度函数来计算种群个体P(t)适应度值,其中适应度函数是用来判断种群个体的优劣程度的指标,表示了种群个体对于环境的适应能力;
第三步骤:将结束条件设置为“达到第T代”,当t<T时进行选择、交叉、变异操作,当t=T时结束迭代,输出第T代中最优个体,即最优解。
例如求解函数最大值问题,假设函数如公式(2),采用遗传算法求出x取值范围在[0,10]时,该函数的最大值。
f(x)=x*sin(10x)+2 (2)
应用第一步骤,假定求解的精度为小数点后两位,则可以将解空间分为1000个等份,如果采用二进制编码则要使用10位二进制数码表示。一个二进制数代表一条染色体chromosome,初始染色体是随机生成的,对于求解最大值问题,可以初始化生成10条染色体,即初始种群P(0)。对于染色体可以采用如公式(3)的解码公式将其转换为十进制数。最大迭代次数T初始值通常设置为100代到200代。
应用第二步骤,对种群个体P(t)计算适应度函数值,即f(x)的值。将染色体解码后对应的十进制数带入到f(x)中计算,f(x)值越大表明个体适应度越好。
应用第三步骤,将最大迭代次数T设置为100代。当t<T,即未达到结束条件时,进行选择、交叉和变异操作,说明如下:
(1)选择操作是将染色体个体根据适应度函数f(x)的值从大到小排序,在本问题中可知适应度函数f(x)的最大值不会超过12,因此每个染色体个体被选为父代的概率为f(x)/12,保证适应度函数f(x)的值大的染色体个体有更大的概率被选取。
(2)然后对于两个父代染色体进行交叉操作,通常采用单点交叉法。如图7所示,假设选出的染色体个体a为1010101010,染色体个体b为1111100000。若以左数第3位为交叉点,交叉生成的一个新个体c是“a”的前3位与“b”的后7位的组合,为1011100000,另一个新个体d是“b”的前3位与“a”的后7位的组合,为1110101010。
(3)变异操作是指染色体个体中的基因有概率突变,即染色体个体中的10位二进制数码均可能发生变异,生成新的染色体个体,通常遗传算法中变异的概率一般设置为0.1。当t=T,即达到结束条件时,输出适应度函数值最大的个体。
3)蜻蜓算法
蜻蜓算法是根据自然界中蜻蜓寻找食物的行为而模拟提出的一种新兴群智能优化算法,该算法原理简单,易于理解且便于实现,具有较强的搜索能力,可以应用于图像分割、变压器故障诊断等多个领域。
蜻蜓算法的主要思想是通过模拟蜻蜓群体分离、列队、聚集、捕食及避敌五种飞行行为进行寻优操作。
蜻蜓个体在分离行为中产生的位移如公式(4):
其中,Si表示第i只蜻蜓个体在分离行为中产生的位移,Xi表示该蜻蜓个体当前位置,Xj表示蜻蜓种群中与第i只蜻蜓个体相邻的第j只蜻蜓在当前迭代的位置,N表示蜻蜓种群数量。
蜻蜓个体在列队行为中产生的位移如公式(5):
其中,Ai表示第i只蜻蜓个体在列队行为中产生的位移,Xj表示蜻蜓种群中与第i只蜻蜓个体相邻的第j只蜻蜓在当前迭代的位置,N表示蜻蜓种群数量。
蜻蜓个体在聚集行为中产生的位移如公式(6):
其中,Ci表示第i只蜻蜓个体在聚集行为中产生的位移,Xi表示第i只蜻蜓个体当前位置,Xj表示蜻蜓种群中与第i只蜻蜓个体相邻的第j只蜻蜓在当前迭代的位置,N表示蜻蜓种群数量。
蜻蜓个体在捕食行为中产生的位移如公式(7):
Fi=Xfood-Xi (7)
其中,Fi表示第i只蜻蜓个体在聚集行为中产生的位移,Xi表示第i只蜻蜓个体当前位置,Xfood表示在当前迭代次数下,蜻蜓种群所需要寻找的食物的具体位置。
蜻蜓个体在避敌行为中产生的位移如公式(8):
Ei=Xe+Xi (8)
其中,Ei表示第i只蜻蜓个体在避敌行为中产生的位移,Xi表示第i只蜻蜓个体当前位置,Xe表示在当前迭代次数下,蜻蜓种群所发现的天敌所在的具体位置。
其中表示第i只蜻蜓在第t+1次迭代时d维步长向量,s表示分离行为对蜻蜓位置权重影响,表示第i只蜻蜓个体在第t次迭代时d维步长向量因为分离行为而产生的位移,α表示列队行为对蜻蜓位置权重影响,表示第i只蜻蜓个体在第t次迭代时d维步长向量因为列队行为而产生的位移,c表示聚集行为对蜻蜓位置权重影响,表示第i只蜻蜓个体在第t次迭代时d维步长向量因为聚集行为而产生的位移,f表示捕食行为对蜻蜓位置权重影响,表示第i只蜻蜓个体在第t次迭代时d维步长向量因为捕食行为而产生的位移,e表示避敌行为对蜻蜓位置权重影响,表示第i只蜻蜓个体在第t次迭代时d维步长向量因为避敌行为而产生的位移,ω为惯性权重,表示第i只蜻蜓在第t次迭代时d维步长向量。
当蜻蜓没有临近个体作为参考时,引入莱维飞行随机游走,此时第i只蜻蜓的位置更新如公式(11):
莱维飞行指的是步长的概率分布为重尾分布的随机行走,在随机行走的过程中有相对较高的概率出现大跨步。其中重尾分布是一种概率分布模型。莱维飞行的计算公式如公式(12):
其中,r1和r2为[0,1]之间的随机数,σ的计算公式如公式(13)所示:
其中,β为一个常数,Γ(x)为(x-1)的阶乘;
4)遗传算法和蜻蜓算法结合
遗传算法中,种群的更新是通过对个体的选择、交叉和变异来完成的,其中的交叉和变异过程均具有随机性。蜻蜓算法可以标记食物和天敌的位置,即可以选出最优和最差的两个基因位置。使用蜻蜓算法计算的食物和天敌基因位置来干预遗传算法的交叉和变异过程,使遗传算法的染色体进化成更优个体的过程加速,优化遗传算法求解的过程。
步骤1:进行种群初始化,将要解决的问题表示成遗传空间的染色体个体,通常采用二进制编码方式,经过编码后随机生成初始种群P(0),设置迭代计数器t=0,设置最大迭代次数T;
步骤2:根据适应度函数来计算种群个体P(t)适应度值f(x),其中适应度函数f(x)是用来判断种群个体的优劣程度的指标,表示了种群个体对于环境的适应能力;
步骤3:将结束条件设置为“达到第T代”,当t<T时,选择种群个体P(t)中适应度值最大的两个染色体个体作为父代;
步骤4:将蜻蜓算法作用于遗传算法的交叉过程中。步骤3输出的两个父代染色体个体交叉生成新个体前,使用蜻蜓算法遍历这两个父代染色体并确定交叉位置后,遗传算法再实施交叉操作。
(1)利用蜻蜓算法,将两条父代染色体中标记为1(选取)的基因位依次改为0(不选取),其中使适应度函数值降低最多的那个基因位,标记为“食物”(最优特征位置);(2)利用蜻蜓算法,将两条父代染色体中标记为0(不选取)的基因位依次改为1(选取),其中使适应度函数值降低最多的那个基因位,标记为“天敌”(最差特征位置);
(3)如果通过(1)和(2)对染色体标记的“食物”在“天敌”的左侧,则将“食物”选做交叉点;如果“食物”在“天敌”的右侧,则将“天敌”选做交叉点。
(4)根据(3)中蜻蜓算法选定的交叉点位置进行交叉操作,生成两条新染色体,如图8。
(5)将(4)中生成的两条新染色体和步骤3中未被选择为父代的染色体作为步骤4第t代的输出结果。
步骤5:将蜻蜓算法作用于步骤4输出的染色体上,进行变异操作。
(1)每一轮迭代开始时,将基因变异概率P设置为0.2,即种群中每条染色体个体中的每一位基因均有0.2的概率发生突变,从1(选取)变到0(不选取)或从0(不选取)变到1(选取),目的是增加“变异”对染色体的影响。
(2)根据步骤4中标记的“食物”和“天敌”位置,将全部染色体个体中的“食物”和“天敌”标记出来,调整(1)中设定的基因变异概率,从而增加“变异”对不同基因位的影响。
(3)设置食物位基因变异的概率如公式(14)。
经历过蜻蜓算法标记后,如果染色体中被标记为“食物”的那位基因未被选取,即该基因位数码为0,则“食物”位置的变异概率Pfood为其他位置变异概率P的二倍,即选0.4,增大“食物”位置变异的概率;如果染色体中被标记为“食物”的那位基因已被选取,即该基因位数码为1,则“食物”位置的变异概率Pfood为其他位置变异概率P的一半,即选0.1,降低“食物”位置变异的概率;
(4)设置天敌位基因变异的概率如公式(15)。
经历过蜻蜓算法标记后,如果染色体中被标记为“天敌”的那位基因未被选取,即该基因位数码为0,则“天敌”位的变异概率Penemy为其他位置变异概率P的一半,即选0.1,降低“天敌”位置变异的概率;如果染色体中被标记为“天敌”的那位基因已被选取,即该基因位数码为1,则“天敌”位的变异概率Penemy为其他位置变异概率P的二倍,即选0.4,增大“天敌”位置变异的概率;
(5)输出第t代全部染色体变异操作后的结果。
步骤6:当t=T时,结束迭代,输出适应度值最大的个体,即最优特征组合。
与现有技术相比,本发明的有益效果是:
1.对比遗传算法,本发明在遗传算法的交叉操作过程中优先考虑蜻蜓算法标记为“食物”的父代部分,避开蜻蜓算法标记为“天敌”的父代部分,加快遗传算法寻得最优个体的速度;
2.对比遗传算法,本发明在遗传算法的变异操作过程中,如果被蜻蜓算法标记为“食物”的基因值并没有被取到,则将该基因值变异的概率设置为最大;如果被蜻蜓算法标记为“食物”的基因值已经取到,则将该基因值变异的概率设置为最小。如果被蜻蜓算法标记为“天敌”的基因值并没有被取到,则将该基因值变异的概率设置为最小;如果被蜻蜓算法标记为“天敌”的基因值已经取到,则将该基因值变异的概率设置为最大。经过这种操作可以减少寻优时间,优化寻优结果。
附图说明
图1为本发明的流程框图。
图2为本发明的数据特征筛除清理流程框图。
图3为本发明的遗传算法流程框图。
图4为本发明的蜻蜓算法流程框图。
图5为本发明的遗传算法和蜻蜓算法相结合的流程框图。
图6是使用决策树分类器对三种算法输出的数据特征进行数据识别的准确率迭代曲线,其中折线为本发明的遗传算法和蜻蜓算法相结合算法DA-GA的曲线、点线为蜻蜓算法DA曲线、点折线为遗传算法GA曲线。
图7为遗传算法交叉操作过程说明图。
图8为遗传算法和蜻蜓算法相结合算法交叉操作过程说明图。
具体实施方式
参阅图1所示,一种遗传算法和蜻蜓算法相结合的多维数据特征选择方法的步骤如下:
1)对于交通事故数据进行简单清洗;
2)将步骤1)中的数据特征筛选结果作为一种遗传算法和蜻蜓算法相结合的多维数据特征选择方法的输入,输出结果为本发明方法选择出的数据特征;
参阅图2所示,对于交通事故数据进行简单清洗,根据数据的每一维特征,将本维度特征中仅有单一值、数据缺失超过一半的特征筛除和信息熵值由大到小排名后三位的特征筛除,即所有数据进行模型训练时均不选取此特征,其余特征留用,数据筛选步骤如下:
1)制作交通事故数据集
交通事故数据集由各种渠道获得,共计570011条车祸数据,每条数据特征有32维,各维数据特征的名称如表1的第2列“特征”所示。根据车祸事故的严重程度,分为致命、严重和轻微三个程度。其中致命程度数据共8533条,严重程度数据共74297条,轻微程度数据共487161条。随机选取各个严重程度的百分之五十作为训练集,其余作为测试集;
2)缺失值筛除
表2是从真实的交通事故数据集中抽取了部分数据,包括特征编号是3、4、……、29等的6列特征的少量数据。表2中,编号为3、4的两个特征数据缺失超过一半,按照数据清洗规则“筛除缺失值超过一半的特征”,这两列数据特征将被去掉。在表1的第4列,使用“×”表示“去缺失值”的操作,“经度”、“纬度”两个特征不被选用。此时数据剩余30维特征。
3)单一特征筛选
表2中的编号16和25的两列特征数据都是“0”,按照数据清洗规则“筛除掉特征值单一的数据特征”,这两列数据特征将被去掉。在表1的第5列,使用“×”表示“去单一值”的操作,“路口信息细节”、“特殊控制”两个特征不被选用。此时数据剩余28维特征。
4)信息熵筛选
如表1所示,对于现有28维的特征数据,计算其信息熵,其熵值列于表1的第3列。按照数据清洗规则“筛除掉信息熵由大到小排名后3位的特征”,分别是编号为1、11、30的“城市”、“地方政府”和“年份”特征,如表1的第6列所示。此时数据剩余25维特征,用“√”表示“简单清洗”后被留用的这25维特征,如表1第7列所示;
经过上述数据筛选步骤后,将剩余25维特征数据分别送入遗传算法、蜻蜓算法、遗传算法蜻蜓算法相结合的算法中进行数据特征选择;
参阅图3所示的遗传算法流程框图,遗传算法用于特征选择的具体步骤如下:
步骤1:进行种群初始化操作,将25维特征的取舍问题表示成遗传空间的染色体个体,采用二进制编码方式,标记为1的特征选用,标记为0的特征不选用,生成初始种群P(0),设置迭代计数器t=0,设置最大进化代数T=100,初始种群个体数为10条染色体;
步骤2:采用决策树分类器来计算种群个体的适应度值,将决策树的准确率作为适应度值,适应度值越高表明种群个体越优秀;
步骤3:当t<T时,对种群进行选择、交叉、变异操作。
(1)采用决策树分类器来计算种群个体的适应度值,将决策树的准确率作为适应度值,选择种群个体中适应度值高的两个个体作为父代染色体。
(2)将两个父代染色体进行交叉操作,通常遗传算法交叉操作选取中间基因位作为交叉点,因此在本专利中选取第12维特征处作为交叉点,将父代a的前12维特征取值与父代b的后13维特征取值相结合、父代b的前12维特征取值与父代a的后13维特征取值相结合,生成两个新的个体c、d。
(3)将(2)中交叉生成的新个体和未被选为父代的其余染色体的基因位的变异概率设置为0.2,即每位基因从0变到1或从1变到0的概率为0.2。这里相比通常的遗传算法的变异操作的概率值0.1,提高到0.2,从而促进10个染色体产生变异,加速进化。
步骤4:当t=T时,终止计算,输出适应度函数值最大的个体“1010110110101101010111011”,即最优特征组合,解码后对应16维特征,如表1第8列标出的“GA”最优特征组合。通过遗传算法获得数据特征的寻优时间是41秒,如表3所示。
步骤5:将这16维特征(过滤+遗传)分别输入到RandomForest、决策树、gradientboost、adaboost、xgboost分类器,通过仿真得到了它们的识别准确率,如表4的第3列数据所示;
参阅图4所示的蜻蜓算法流程框图,蜻蜓算法用于特征选择的具体步骤如下:
步骤1:初始化蜻蜓种群,将十只蜻蜓均匀的分布在特征空间中,并根据蜻蜓位置初始化步长向量,随机生成0到1之间的权重ω、α、s、c、f、e,规定迭代20代;
步骤2:在未遍历所有蜻蜓个体时,比较更新食物和天敌的位置,更新权重和位置,并判断是否达到第20代,未达到最终代数时根据蜻蜓周围是否存在其他蜻蜓选择公式(10)或者公式(11)更新蜻蜓位置;
步骤3:遍历完全部蜻蜓个体后判断是否达到第20代,达到则输出判别的食物和天敌,食物即应该选择的特征,共15个食物,对应15维特征,如表1第9列标出的“DA”最优特征组合。蜻蜓算法选择出最优特征子集的时间是14秒,如表3所示。
步骤4:将这15维特征(过滤+蜻蜓)输入到随机森林、决策树、gradientboost、adaboost、xgboost分类器,仿真得到它们的识别准确率,如表4的第4列数据所示;
参阅图5所示的遗传算法和蜻蜓算法相结合的流程框图,遗传算法和蜻蜓算法相结合并应用的具体步骤如下:
步骤1:进行遗传算法种群初始化,将特征选择问题表示成遗传空间的染色体个体,根据实验经验,本专利设置初始染色体个体数为10条,采用二进制编码方式将选择的特征标记为1,不选择的特征标记为0,设置迭代次数为10代;
步骤2:采用决策树分类器来计算种群个体的适应度值,将结束条件设置为“达到第10代”,当未达到时,选择种群中适应度值最大的两个染色体个体作为父代;
步骤3:将蜻蜓算法作用于遗传算法的交叉过程中,使用蜻蜓算法遍历父代染色体,标记食物位置和天敌位置,从而确定交叉位置,完成遗传交叉操作;步骤4:将蜻蜓算法作用于遗传算法的变异过程中,根据步骤3中的食物位置和天敌位置,调整基因变异概率,食物位置基因变异概率如公式(14)所示,天敌位置基因变异概率如公式(15)所示,完成遗传变异操作;
步骤5:当t=10时,结束迭代,输出适应度值最大的个体“1010111010001111011110111”,即最优特征组合,解码后对应17维特征,如表1第10列标出的“GA+DA”最优特征组合。遗传算法和蜻蜓算法相结合的算法选择出最优特征子集的寻优时间是11秒,如表3所示;
步骤6:将这17维特征输入到RandomForest、决策树、gradientboost、adaboost、xgboost分类器,仿真得到它们的识别准确率,如表4的第5列数据;
参阅图6所示,利用决策树分类器对三种算法输出的数据特征进行数据识别的准确率与迭代次数的曲线,遗传算法和蜻蜓算法相结合的算法得到的数据特征有如下优势:
(1)遗传算法与蜻蜓算法相结合的特征选择算法准确率高于单独的遗传算法和单独的蜻蜓算法;
(2)遗传算法与蜻蜓算法相结合的特征选择算法在第7代达到最优解位置,遗传算法要在第80代左右,蜻蜓算法要在第14代左右,显然,遗传算法与蜻蜓算法相结合的特征选择算法具有更快的收敛性;
(3)参阅表3,遗传算法与蜻蜓算法相结合的算法的特征选择过程需要11秒,遗传算法要41秒,蜻蜓算法要14秒。
综上所述,本发明在准确率、收敛速度和运行时间三个方面均优于遗传算法和蜻蜓算法。
表1数据集特征编号及筛选情况
注:“×”表示不被选用的特征;“√”表示被选用的特征;“O”表示不计算熵值。
表2部分数据特征举例
编号 | 3 | 4 | 16 | 25 | 27 | 29 |
A | 0 | 0 | 1 | 0 | ||
B | 0 | 0 | 1 | 1 | ||
C | 0 | 0 | 1 | 0 | ||
D | 51.517 | 0 | 0 | 0 | 0 | |
E | -2.971 | 0 | 0 | 1 | 1 | |
F | 0 | 0 | 1 | 0 | ||
G | 0 | 0 | 0 | 1 |
表3三种算法寻得最优特征的运行时间
表4不同特征选择算法应用到不同分类器上的准确率
Claims (1)
1.一种遗传算法和蜻蜓算法相结合的多维数据特征选择方法,其特征在于:步骤如下:
一、对于交通事故数据进行清洗,制作交通事故数据集,根据数据的每一维特征,将本维度特征中仅有单一值、数据缺失超过一半、信息熵值从大到小排在后三位的特征筛除,即所有数据进行模型训练时均不选取此特征,其余特征留用;
二、将步骤一中的数据特征筛选结果作为一种遗传算法和蜻蜓算法相结合的多维数据特征选择方法的输入,输出结果为算法选择出的数据特征;
所述的步骤二中,数据特征筛选结果作为一种遗传算法和蜻蜓算法相结合的多维数据特征选择方法的输入,输出结果为算法选择出的数据特征,其中一种遗传算法和蜻蜓算法相结合的多维数据特征选择方法是指:
1)划分训练集和测试集
交通事故数据集由各种渠道获得,收集好的车祸数据集分为训练集和测试集,在训练集和测试集中,根据交通事故的严重程度将数据分为轻微事故、严重事故和致命事故三种,训练集和测试集不重复存在;
2)缺失值筛除
对于已有的数据先进行统计,根据统计结果首先筛除缺失值超过一半的特征,即不再考虑此特征对于所有数据最后分类结果的影响;在未知前提下猜测结果正确率有二分之一,缺失值超过了一半的特征对于数据的分类准确率可能造成干扰;
3)单一特征筛除
对于现有的特征及数据,筛除掉特征值单一的数据特征;因为只有一个值,所以对于全部数据的分类准确率没有影响,而且会加大后续算法的计算量,因此将单一特征值的特征筛除;
4)信息熵筛除
对于现有的特征和数据,计算所有特征的信息熵;信息熵H(X)的计算公式如公式(1):
式中,p(xi)代表了第x个特征的n种不同取值情况对应的不同概率;信息熵表示了信息的不确定度,信息熵越大,信息的不确定度越高;因此筛除掉信息熵由大到小排名后3位的特征,因为该特征没有很多的有用信息,筛除后能在基本不影响结果准确率的前提下减少特征选择工作量;
所述的步骤二中,将数据特征筛选结果作为一种遗传算法和蜻蜓算法相结合的多维数据特征选择方法的输入,输出结果为算法选择出的数据特征,其中另一种遗传算法和蜻蜓算法相结合的多维数据特征选择方法是指:
1)遗传算法
遗传算法是近年来发展的基于生物遗传学的观点的全新的全局优化算法,在数据进行处理的过程中,通过不断地进化,种群中的整体适应度不断提高,最终达到全局寻优的目标;遗传算法具有自适应性,随机生成初始种群后,经过迭代选择、交叉、变异等操作,最终寻得最优解;
2)遗传算法步骤
第一步骤:进行种群初始化,将要解决的问题表示成遗传空间的染色体个体,通常采用二进制编码方式,经过编码后随机生成初始种群P(0),设置迭代计数器t=0,设置最大迭代次数T;
第二步骤:根据适应度函数来计算种群个体P(t)适应度值,其中适应度函数是用来判断种群个体的优劣程度的指标,表示了种群个体对于环境的适应能力;
第三步骤:将结束条件设置为“达到第T代”,当t<T时进行选择、交叉、变异操作,当t=T时结束迭代,输出第T代中最优个体,即最优解;
例如求解函数最大值问题,假设函数如公式(2),采用遗传算法求出x取值范围在[0,10]时,该函数的最大值;
f(x)=x*sin(10x)+2 (2)
应用第一步骤,假定求解的精度为小数点后两位,则能将解空间分为1000个等份,如果采用二进制编码则要使用10位二进制数码表示;一个二进制数代表一条染色体chromosome,初始染色体是随机生成的,对于求解最大值问题,可以初始化生成10条染色体,即初始种群P(0);对于染色体可以采用如公式(3)的解码公式将其转换为十进制数;最大迭代次数T初始值通常设置为100代到200代;
应用第二步骤,对种群个体P(t)计算适应度函数值,即f(x)的值;将染色体解码后对应的十进制数带入到f(x)中计算,f(x)值越大表明个体适应度越好;
应用第三步骤,将最大迭代次数T设置为100代;当t<T,即未达到结束条件时,进行选择、交叉和变异操作,说明如下:
(1)选择操作是将染色体个体根据适应度函数f(x)的值从大到小排序,在本问题中可知适应度函数f(x)的最大值不会超过12,因此每个染色体个体被选为父代的概率为f(x)/12,保证适应度函数f(x)的值大的染色体个体有更大的概率被选取;
(2)然后对于两个父代染色体进行交叉操作,通常采用单点交叉法;如图7所示,假设选出的染色体个体a为1010101010,染色体个体b为1111100000;若以左数第3位为交叉点,交叉生成的一个新个体c是“a”的前3位与“b”的后7位的组合,为1011100000,另一个新个体d是“b”的前3位与“a”的后7位的组合,为1110101010;
(3)变异操作是指染色体个体中的基因有概率突变,即染色体个体中的10位二进制数码均可能发生变异,生成新的染色体个体,通常遗传算法中变异的概率一般设置为0.1;当t=T,即达到结束条件时,输出适应度函数值最大的个体;
3)蜻蜓算法
蜻蜓算法是根据自然界中蜻蜓寻找食物的行为而模拟提出的一种新兴群智能优化算法,该算法原理简单,易于理解且便于实现,具有较强的搜索能力,可以应用于图像分割、变压器故障诊断等多个领域;
蜻蜓算法的主要思想是通过模拟蜻蜓群体分离、列队、聚集、捕食及避敌五种飞行行为进行寻优操作;
蜻蜓个体在分离行为中产生的位移如公式(4):
其中,Si表示第i只蜻蜓个体在分离行为中产生的位移,Xi表示该蜻蜓个体当前位置,Xj表示蜻蜓种群中与第i只蜻蜓个体相邻的第j只蜻蜓在当前迭代的位置,N表示蜻蜓种群数量;
蜻蜓个体在列队行为中产生的位移如公式(5):
其中,Ai表示第i只蜻蜓个体在列队行为中产生的位移,Xj表示蜻蜓种群中与第i只蜻蜓个体相邻的第j只蜻蜓在当前迭代的位置,N表示蜻蜓种群数量;
蜻蜓个体在聚集行为中产生的位移如公式(6):
其中,Ci表示第i只蜻蜓个体在聚集行为中产生的位移,Xi表示第i只蜻蜓个体当前位置,Xj表示蜻蜓种群中与第i只蜻蜓个体相邻的第j只蜻蜓在当前迭代的位置,N表示蜻蜓种群数量;
蜻蜓个体在捕食行为中产生的位移如公式(7):
Fi=Xfood-Xi (7)
其中,Fi表示第i只蜻蜓个体在聚集行为中产生的位移,Xi表示第i只蜻蜓个体当前位置,Xfood表示在当前迭代次数下,蜻蜓种群所需要寻找的食物的具体位置;
蜻蜓个体在避敌行为中产生的位移如公式(8):
Ei=Xe+Xi (8)
其中,Ei表示第i只蜻蜓个体在避敌行为中产生的位移,Xi表示第i只蜻蜓个体当前位置,Xe表示在当前迭代次数下,蜻蜓种群所发现的天敌所在的具体位置;
其中表示第i只蜻蜓在第t+1次迭代时d维步长向量,s表示分离行为对蜻蜓位置权重影响,表示第i只蜻蜓个体在第t次迭代时d维步长向量因为分离行为而产生的位移,α表示列队行为对蜻蜓位置权重影响,表示第i只蜻蜓个体在第t次迭代时d维步长向量因为列队行为而产生的位移,c表示聚集行为对蜻蜓位置权重影响,表示第i只蜻蜓个体在第t次迭代时d维步长向量因为聚集行为而产生的位移,f表示捕食行为对蜻蜓位置权重影响,表示第i只蜻蜓个体在第t次迭代时d维步长向量因为捕食行为而产生的位移,e表示避敌行为对蜻蜓位置权重影响,表示第i只蜻蜓个体在第t次迭代时d维步长向量因为避敌行为而产生的位移,ω为惯性权重,表示第i只蜻蜓在第t次迭代时d维步长向量;
当蜻蜓没有临近个体作为参考时,引入莱维飞行随机游走,此时第i只蜻蜓的位置更新如公式(11):
莱维飞行指的是步长的概率分布为重尾分布的随机行走,在随机行走的过程中有相对较高的概率出现大跨步;其中重尾分布是一种概率分布模型;莱维飞行的计算公式如公式(12):
其中,r1和r2为[0,1]之间的随机数,σ的计算公式如公式(13)所示:
其中,β为一个常数,Γ(x)为(x-1)的阶乘;
4)遗传算法和蜻蜓算法结合
遗传算法中,种群的更新是通过对个体的选择、交叉和变异来完成的,其中的交叉和变异过程均具有随机性;蜻蜓算法可以标记食物和天敌的位置,即可以选出最优和最差的两个基因位置;使用蜻蜓算法计算的食物和天敌基因位置来干预遗传算法的交叉和变异过程,使遗传算法的染色体进化成更优个体的过程加速,优化遗传算法求解的过程;
步骤1:进行种群初始化,将要解决的问题表示成遗传空间的染色体个体,通常采用二进制编码方式,经过编码后随机生成初始种群P(0),设置迭代计数器t=0,设置最大迭代次数T;
步骤2:根据适应度函数来计算种群个体P(t)适应度值f(x),其中适应度函数f(x)是用来判断种群个体的优劣程度的指标,表示了种群个体对于环境的适应能力;
步骤3:将结束条件设置为“达到第T代”,当t<T时,选择种群个体P(t)中适应度值最大的两个染色体个体作为父代;
步骤4:将蜻蜓算法作用于遗传算法的交叉过程中;步骤3输出的两个父代染色体个体交叉生成新个体前,使用蜻蜓算法遍历这两个父代染色体并确定交叉位置后,遗传算法再实施交叉操作;
(1)利用蜻蜓算法,将两条父代染色体中标记为1的基因位依次改为0,其中使适应度函数值降低最多的那个基因位,标记为“食物”;
(2)利用蜻蜓算法,将两条父代染色体中标记为0的基因位依次改为1,其中使适应度函数值降低最多的那个基因位,标记为“天敌”;
(3)如果通过(1)和(2)对染色体标记的“食物”在“天敌”的左侧,则将“食物”选做交叉点;如果“食物”在“天敌”的右侧,则将“天敌”选做交叉点;
(4)根据(3)中蜻蜓算法选定的交叉点位置进行交叉操作,生成两条新染色体;
(5)将(4)中生成的两条新染色体和步骤3中未被选择为父代的染色体作为步骤4第t代的输出结果;
步骤5:将蜻蜓算法作用于步骤4输出的染色体上,进行变异操作;
(1)每一轮迭代开始时,将基因变异概率P设置为0.2,即种群中每条染色体个体中的每一位基因均有0.2的概率发生突变,从1变到0或从0(变到1,目的是增加“变异”对染色体的影响;
(2)根据步骤4中标记的“食物”和“天敌”位置,将全部染色体个体中的“食物”和“天敌”标记出来,调整(1)中设定的基因变异概率,从而增加“变异”对不同基因位的影响;
(3)设置食物位基因变异的概率如公式(14);
经历过蜻蜓算法标记后,如果染色体中被标记为“食物”的那位基因未被选取,即该基因位数码为0,则“食物”位置的变异概率Pfood为其他位置变异概率P的二倍,即选0.4,增大“食物”位置变异的概率;如果染色体中被标记为“食物”的那位基因已被选取,即该基因位数码为1,则“食物”位置的变异概率Pfood为其他位置变异概率P的一半,即选0.1,降低“食物”位置变异的概率;
(4)设置天敌位基因变异的概率如公式(15);
经历过蜻蜓算法标记后,如果染色体中被标记为“天敌”的那位基因未被选取,即该基因位数码为0,则“天敌”位的变异概率Penemy为其他位置变异概率P的一半,即选0.1,降低“天敌”位置变异的概率;如果染色体中被标记为“天敌”的那位基因已被选取,即该基因位数码为1,则“天敌”位的变异概率Penemy为其他位置变异概率P的二倍,即选0.4,增大“天敌”位置变异的概率;
(5)输出第t代全部染色体变异操作后的结果;
步骤6:当t=T时,结束迭代,输出适应度值最大的个体,即最优特征组合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011072371.2A CN112215278B (zh) | 2020-10-09 | 2020-10-09 | 一种遗传算法和蜻蜓算法相结合的多维数据特征选择方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011072371.2A CN112215278B (zh) | 2020-10-09 | 2020-10-09 | 一种遗传算法和蜻蜓算法相结合的多维数据特征选择方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112215278A true CN112215278A (zh) | 2021-01-12 |
CN112215278B CN112215278B (zh) | 2022-05-24 |
Family
ID=74053445
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011072371.2A Expired - Fee Related CN112215278B (zh) | 2020-10-09 | 2020-10-09 | 一种遗传算法和蜻蜓算法相结合的多维数据特征选择方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112215278B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113032902A (zh) * | 2021-03-18 | 2021-06-25 | 中南大学 | 一种基于机器学习优化的高速列车气动头部外形设计方法 |
CN116628425A (zh) * | 2023-06-01 | 2023-08-22 | 常州易宝网络服务有限公司 | 一种大数据实时监控系统及方法 |
CN116720058A (zh) * | 2023-04-28 | 2023-09-08 | 贵研铂业股份有限公司 | 一种机器学习候选特征实现关键特征组合筛选的方法 |
CN117195746A (zh) * | 2023-10-24 | 2023-12-08 | 佛山科学技术学院 | 一种基于多元策略蜻蜓算法的梁结构损伤识别方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110298378A (zh) * | 2019-05-23 | 2019-10-01 | 昆明理工大学 | 一种基于da—svm的滚动轴承故障检测方法 |
US20200082017A1 (en) * | 2018-09-12 | 2020-03-12 | Microsoft Technology Licensing, Llc | Programmatic representations of natural language patterns |
-
2020
- 2020-10-09 CN CN202011072371.2A patent/CN112215278B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200082017A1 (en) * | 2018-09-12 | 2020-03-12 | Microsoft Technology Licensing, Llc | Programmatic representations of natural language patterns |
CN110298378A (zh) * | 2019-05-23 | 2019-10-01 | 昆明理工大学 | 一种基于da—svm的滚动轴承故障检测方法 |
Non-Patent Citations (2)
Title |
---|
MUSTAFA ABDUL SALAM: "A hybrid dragonfly algorithm with extreme learning machine for prediction", 《IEEE》 * |
傅军栋等: "基于蜻蜓算法和支持向量机的变压器故障诊断", 《华东交通大学学报》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113032902A (zh) * | 2021-03-18 | 2021-06-25 | 中南大学 | 一种基于机器学习优化的高速列车气动头部外形设计方法 |
CN116720058A (zh) * | 2023-04-28 | 2023-09-08 | 贵研铂业股份有限公司 | 一种机器学习候选特征实现关键特征组合筛选的方法 |
CN116628425A (zh) * | 2023-06-01 | 2023-08-22 | 常州易宝网络服务有限公司 | 一种大数据实时监控系统及方法 |
CN117195746A (zh) * | 2023-10-24 | 2023-12-08 | 佛山科学技术学院 | 一种基于多元策略蜻蜓算法的梁结构损伤识别方法 |
CN117195746B (zh) * | 2023-10-24 | 2024-05-28 | 佛山科学技术学院 | 一种基于多元策略蜻蜓算法的梁结构损伤识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112215278B (zh) | 2022-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112215278B (zh) | 一种遗传算法和蜻蜓算法相结合的多维数据特征选择方法 | |
CN111798921B (zh) | 一种基于多尺度注意力卷积神经网络的rna结合蛋白预测方法及装置 | |
CN107526785B (zh) | 文本分类方法及装置 | |
CN105488528B (zh) | 基于改进自适应遗传算法的神经网络图像分类方法 | |
CN111898689B (zh) | 一种基于神经网络架构搜索的图像分类方法 | |
CN106529574B (zh) | 基于稀疏自动编码器和支持向量机的图像分类方法 | |
CN109273054B (zh) | 基于关系图谱的蛋白质亚细胞区间预测方法 | |
CN112818690B (zh) | 结合知识图谱实体信息的语义识别方法、装置及相关设备 | |
CN110442143B (zh) | 一种基于组合多目标鸽群优化的无人机态势数据聚类方法 | |
CN111105045A (zh) | 一种基于改进的蝗虫优化算法构建预测模型的方法 | |
CN109948742A (zh) | 基于量子神经网络的手写体图片分类方法 | |
CN114118369B (zh) | 一种基于群智能优化的图像分类卷积神经网络设计方法 | |
CN108427745A (zh) | 基于优化的视觉词典与自适应软分配的图像检索方法 | |
JPH0773261A (ja) | ニューラルデバイス及びその構成方法 | |
CN110334777A (zh) | 一种加权多视角无监督属性选择方法 | |
CN103093247A (zh) | 一种植物图片的自动分类方法 | |
CN104463207B (zh) | 知识自编码网络及其极化sar影像地物分类方法 | |
CN114093426B (zh) | 基于基因调控网络构建的标志物筛选方法 | |
CN115908909A (zh) | 基于贝叶斯卷积神经网络的进化神经架构搜索方法及系统 | |
CN117253037A (zh) | 语义分割模型结构搜索方法、自动语义分割方法及系统 | |
CN109934286B (zh) | 基于文本特征提取和不平衡处理策略的Bug报告严重程度识别方法 | |
CN109284388B (zh) | 字符数字唯一可译深度模型的文本分类方法及存储介质 | |
CN114241267A (zh) | 基于结构熵采样的多目标架构搜索骨质疏松图像识别方法 | |
Cho et al. | Genetic evolution processing of data structures for image classification | |
CN108737429B (zh) | 一种网络入侵检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220524 |