CN112036566A - 使用遗传算法选取特征的方法和装置 - Google Patents

使用遗传算法选取特征的方法和装置 Download PDF

Info

Publication number
CN112036566A
CN112036566A CN202010767048.0A CN202010767048A CN112036566A CN 112036566 A CN112036566 A CN 112036566A CN 202010767048 A CN202010767048 A CN 202010767048A CN 112036566 A CN112036566 A CN 112036566A
Authority
CN
China
Prior art keywords
chromosome
chromosomes
training
fitness
genetic algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010767048.0A
Other languages
English (en)
Inventor
孙靖文
孙泽懿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Minglue Artificial Intelligence Group Co Ltd
Original Assignee
Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Minglue Artificial Intelligence Group Co Ltd filed Critical Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority to CN202010767048.0A priority Critical patent/CN112036566A/zh
Publication of CN112036566A publication Critical patent/CN112036566A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Genetics & Genomics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Physiology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种使用遗传算法选取特征的方法和装置。该发明包括:在特征选择的过程中使用遗传算法,将所有的候选特征对应至染色体的位中,通过染色体的位的状态表示一个候选特征是否参与学习器的训练,通过随机产生等方式生成第一代染色体,使用第一代染色体训练学习器,获得学习效果,记为对应染色体的适应度,然后进行遗传算法的迭代,例如,选择、繁殖、变异等,生成新一代染色体,不断迭代,最终迭代出满足预设条件的染色体,从而筛选出参与学习器正式训练的特征。解决了相关技术中训练机器学习模型的特征选择方案不够灵活,准确率低的问题。进而达到了更加灵活且更准确的特征筛选效果。

Description

使用遗传算法选取特征的方法和装置
技术领域
本发明涉及机器学习领域,具体而言,涉及一种使用遗传算法选取特征的方法和装置。
背景技术
在机器学习过程中,数据集通常包含大量不同的特征。在模型训练过程中包含过多的特征未必能使得模型预测或分类效果能进一步提升。比如,某些特征是“冗余特征”,它们所包含的信息能从其他特征中推演出来,某些特征是“无关特征”,与当前学习任务无关。而有些特征可能很关键,很有用,所以在训练模型时,需要考虑不同的特征组合,从给定的特征集合中选取相关特征子集,以期达到最优的学习器训练效果。
相关技术中的常见的特征选择方法有三种:过滤式、包裹式和嵌入式。过滤式算法的缺点是特征选择和相应的算法学习以及表现评价没有建立直接的关系,也就是说没有利用算法在学习过程中的相应表现来指导特征选择的变化。典型的包裹式算法是拉斯维加斯方法,这种方法将特征选择和模型学习融合在一起,缺点是特征子集选择是完全随机的,缺乏有效的指导。嵌入式的经典算法是引入正则化项,即岭回归,缺点是求解时一般要借助于近似梯度下降方法,损失函数必须是要可导。
针对相关技术中训练机器学习模型的特征选择方案不够灵活,准确率低的问题,目前尚未提出有效的解决方案。
发明内容
本发明的主要目的在于提供一种使用遗传算法选取特征的方法和装置,以解决相关技术中训练机器学习模型的特征选择方案不够灵活,准确率低的问题。
为了实现上述目的,根据本发明的一个方面,提供了一种使用遗传算法选取特征的方法,包括:将所有的候选特征对应至遗传算法使用的染色体的位中,并设置所述染色体的位的状态,其中,所述位的不同状态用于指示与该位对应的候选特征的选取状态,被选中的候选特征参与训练学习器;遍历所述染色体,基于每条染色体中被选中的候选特征,训练所述学习器,将训练效果的评价值作为该条染色体的适应度;依据所述适应度对所述染色体进行遗传算法迭代,直至满足预设条件时停止迭代,依据最新一代染色体选取正式训练所述学习器时基于的特征。
为了实现上述目的,根据本发明的另一方面,提供了一种使用遗传算法选取特征的装置,包括:设置模块,用于将所有的候选特征对应至遗传算法使用的染色体的位中,并设置所述染色体的位的状态,其中,所述位的不同状态用于指示与该位对应的候选特征的选取状态,被选中的候选特征参与训练学习器;获取适应度模块,用于遍历所述染色体,基于每条染色体中被选中的候选特征,训练所述学习器,将训练效果的评价值作为该条染色体的适应度;迭代模块,依据所述适应度对所述染色体进行遗传算法迭代,直至满足预设条件时停止迭代,依据最新一代染色体选取正式训练所述学习器时基于的特征。
通过本发明,在特征选择的过程中使用遗传算法,将所有的候选特征对应至染色体的位中,通过染色体的位的状态表示一个候选特征是否参与学习器的训练,通过随机产生等方式生成第一代染色体,使用第一代染色体训练学习器,获得学习效果,记为对应染色体的适应度,然后进行遗传算法的迭代,例如,选择、繁殖、变异等,生成新一代染色体,不断迭代,最终迭代出满足预设条件的染色体,从而筛选出参与学习器正式训练的特征。解决了相关技术中训练机器学习模型的特征选择方案不够灵活,准确率低的问题。进而达到了更加灵活且更准确的特征筛选效果。
附图说明
构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的使用遗传算法选取特征的方法的流程图;
图2是根据本发明实施例的使用遗传算法选取特征的装置的示意图;
图3是根据本申请实施例的使用遗传算法筛选特征的流程示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为了便于描述,以下对本发明实施例涉及的部分名词或术语进行说明:
遗传算法:是计算数学中用于解决最佳化的搜索算法,是进化算法的一种。进化算法最初是借鉴了进化生物学中的一些现象而发展起来的,这些现象包括遗传、突变、自然选择以及杂交等。算法启动时,一组给定数位的第一代染色体被初始化,并计算相应的适应性函数值。在每一代中,利用适应性函数评价每一个染色体,按照适应度排序种群个染色体,适应度高的在前面。下一步是产生下一代的染色体并组成种群。这个过程是通过选择和繁殖完成,其中繁殖包括交配和突变。适应性函数值又称适应度。
根据本发明的实施例,提供了一种使用遗传算法选取特征的方法。
本实施例中利用遗传算法的给定机制引导特征组合的变化,以期达到训练学习器的最优表现。
图1是根据本发明实施例的使用遗传算法选取特征的方法的流程图。如图1所示,该发明包括以下三个步骤:
步骤S101,将所有的候选特征对应至遗传算法使用的染色体的位中,并设置所述染色体的位的状态,其中,所述位的不同状态用于指示与该位对应的候选特征的选取状态,被选中的候选特征参与训练学习器;
染色体上有多个位,每个位写入二进制数字0或1的状态,以此来表示候选特征是否被选中参与训练。训练学习器也称为训练机器学习模型。
可选地,所述将所有的候选特征对应至遗传算法使用的染色体的位中,包括:依据所有的所述候选特征的数量计算出每条染色体的位数,使得候选特征与染色体的位成一一对应关系。采用该实施例,确保了候选特征在染色体中全部被展示,所有的候选特征都有机会参与到遗传迭代的过程中,保证了训练的公平性。
可选地,所述设置所述染色体的位的状态,包括以下方式至少之一:随机设置每条染色体的位的状态为0或1;依据历史数据确定所述候选特征的重要性,并依据所述候选特征的重要性设置对应的位的状态为0或1;其中,0表示该位唯一对应的候选特征未被选中参与训练所述学习器,1表示该位唯一对应的候选特征被选中参与训练所述学习器。采用该实施例,通过二进制数字表示候选特征的是否参与训练,容易被机器识别,加快了运算流程。
在该方案中,根据候选特征数量决定遗传算法中每一条染色体所包含的位数M(M即每个染色体上的总的特征数)。每一个位数由一个二进制数(0或1)表示,0表示位所代表的特征不被选取,1表示该位所代表的特征被选取。以加州大学欧文分校(University ofCaliforniaIrvine,简称为UCI)数据集蘑菇Mushroom为例,表1是根据本申请实施例的初始生成的染色体的特征显示表,如表1所示,某一条染色体的所有位数都取值为“1”,这条染色体表示所有特征初始时都选择的情形。
表1
Figure BDA0002615078030000042
步骤S102,遍历所述染色体,基于每条染色体中被选中的候选特征,训练所述学习器,将训练效果的评价值作为该条染色体的适应度;
遍历所述染色体即对所有的染色体都计算一次适应度,然后依据适应度对染色体进行排序,筛选出训练过程中表现优异的染色体。
可选地,所述基于每条染色体中被选中的候选特征,训练所述学习器,将训练效果的评价值作为该条染色体的适应度,包括:针对所述染色体之中的第一染色体,获取该染色体对应的被选中的一个或多个候选特征,记为第一候选特征;使用携带所述第一候选特征的训练数据对所述学习器进行训练,其中,所述训练数据与训练所述学习器的使用目的相关;获取训练后的所述学习器处理测试数据的准确率,将所述准确率作为所述第一染色体的适应度。
训练数据与训练所述学习器的使用目的相关,可以理解为,如果训练学习器的目的是从图像中识别出蘑菇类型,则训练数据为大量的包括蘑菇的图像。如果训练学习器的目的是从语音中分别出对多个景点的评价,则训练数据为某导游携带的语音采集设备的语料。此外,获取学习器的学习效果的测试数据也是与训练数据同类型的数据。
使用携带第一候选特征的训练数据对学习器进行训练,可以理解为,训练数据有很多特征,我们使用染色体中标识被选中的第一候选特征进行模型训练,其他不相关的特征的训练数据可以少一些。例如训练数据为蘑菇照片,第一候选特征是蘑菇的表皮,则我们多使用蘑菇的表皮照片进行模型训练,其余特征的训练数据可以相对少一些。然后对经过本次训练中学习器的学习效果进行评价,最终筛选出对蘑菇类型识别真正有影响的特征。
可选地,在将准确率作为染色体的适应度之外,还可以将基于准确率的经济收益作为染色体的适应度。
可选地,步骤S102中随机产生第一代的染色体种群包含若干个染色体,其中每一个染色体,代表一种可能的特征组合,基于该种特征组合,对学习器进行训练,并对学习效果进行评价,这个评价值被定义为遗传算法中对应的染色体的适应性函数值(或适应度)。有时候操作者也可以干预这个随机产生过程,以提高初始种群的质量。
步骤S103,依据所述适应度对所述染色体进行遗传算法迭代,直至满足预设条件时停止迭代,依据最新一代染色体选取正式训练所述学习器时基于的特征。
可选地,所述依据所述适应度对所述染色体进行遗传算法迭代,包括:在所述依据所述适应度对所述染色体进行遗传算法迭代之前,将所有染色体记为第一代染色体;依据所述适应度对所述第一代染色体依次进行遗传算法的以下步骤:选择,繁殖,变异;在执行上述步骤后,生成第二代染色体。
可选地,依据所述适应度对所述第一代染色体依次进行遗传算法的以下步骤:选择,繁殖,变异,包括:选择步骤,被选择的染色体进入繁殖步骤,其中,每个染色体被选择的概率与所述适应度成正相关;繁殖步骤,依据每两个染色体的预设交配概率完成繁殖步骤,未交配的染色体保持不变,然后进入变异步骤;变异步骤,依据预设变异概率完成每个染色体的变异过程。
下一步是产生下一代的染色体并组成种群(即获取新的可能的特征组合)。这个过程是通过两步:选择和繁殖,其中繁殖包括交配(在算法研究领域中称之为交叉操作) 和突变。在第一步选择过程中,根据个体的适应度进行排序,适应度高的在前面。但同时不意味着完全以适应度高低为导向,因为单纯选择适应度高的个体将可能导致算法快速收敛到局部最优解而非全局最优解(即早熟)。作为折中,一般来说:适应度越高(即该特征选择对应的模型表现越好),被选择的机会越高,而适应度低的,被选择的机会就低。可以通过设立一定的概率策略(比如ε-Greedy)来实现。
通过这样的选择过程可以组成一个相对优化的染色体群体(所代表的特征选择对应的算法表现较好)。之后,被选择的个体进入交配过程。利用交叉概率(一般取值 0.6-1)来决定两个被选中的个体进行交配的可能性。每两个个体通过交配产生两个新个体,代替原来的“老”个体(即新的特征组合产生),具体方法如下:交配父母的染色体相互交換,从而产生两个新的染色体,第一个个体前半段是父亲的染色体,后半段是母亲的,第二个个体则正好相反。不过这里的半段並不是真正的一半,这个位置叫做交配点,也是随机产生的,可以是染色体的任意位置。而不交配的个体则保持不变。再下一步是突变(即将染色体需要突变的位数的二进制码进行变化,0变到1,或 1变到0,表示该特征选择或不选择的变化),通过变异概率(一般小于0.1)来控制突变产生新的“子”个体(新的特征组合)。
可选地,停止迭代的所述预设条件包括以下之一:所有所述最新一代染色体的适应度收敛;所述依据所述适应度对所述染色体进行遗传算法迭代的次数达到目标阈值。
如上所述的选择繁殖步骤在每一轮迭代中都会进行,以在种群中产生新的特征组合直至算法的表现评价(整个染色体种群的适应度)收敛或给定的迭代次数完成。再以 UCI数据集Mushroom为例,表2是根据本申请实施例的染色体迭代后的特征显示表,如表2所示,某一条染色体经若干次迭代后,每个位数上的二进制数如下图所示,表明此时选取Cap-shape、Odor、Gill-attachment、Gill-spacing、Gill-size、Stalk-shape、 Veil-type作为模型训练的输入特征,进行机器学习算法的训练和预测任务。
表2
Figure BDA0002615078030000061
采用上述步骤,在特征选择的过程中使用遗传算法,将所有的候选特征对应至染色体的位中,通过染色体的位的状态表示一个候选特征是否参与学习器的训练,通过随机产生等方式生成第一代染色体,使用第一代染色体训练学习器,获得学习效果,记为对应染色体的适应度,然后进行遗传算法的迭代,例如,选择、繁殖、变异等,生成新一代染色体,不断迭代,最终迭代出满足预设条件的染色体,从而筛选出参与学习器正式训练的特征。相比传统的基于正则化和梯度的融合式选取/学习的方法,该方法对适应性函数目标函数的可导性没有要求,同时,特征的选取又不是完全随机。另外,学习器表现的定义更加灵活,可以根据实际情况来定义学习器表现。解决了相关技术中训练机器学习模型的特征选择方案不够灵活,准确率低的问题。进而达到了更加灵活且更准确的特征筛选效果。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本发明实施例还提供了一种使用遗传算法选取特征的装置,需要说明的是,本发明实施例的使用遗传算法选取特征的装置装置可以用于执行本发明实施例所提供的用于使用遗传算法选取特征的方法。以下对本发明实施例提供的使用遗传算法选取特征的装置进行介绍。
图2是根据本发明实施例的使用遗传算法选取特征的装置的示意图。如图2所示,该装置包括:
设置模块22,用于将所有的候选特征对应至遗传算法使用的染色体的位中,并设置所述染色体的位的状态,其中,所述位的不同状态用于指示与该位对应的候选特征的选取状态,被选中的候选特征参与训练学习器;
获取适应度模块24,用于遍历所述染色体,基于每条染色体中被选中的候选特征,训练所述学习器,将训练效果的评价值作为该条染色体的适应度;
迭代模块26,依据所述适应度对所述染色体进行遗传算法迭代,直至满足预设条件时停止迭代,依据最新一代染色体选取正式训练所述学习器时基于的特征。
采用上述模块的装置,解决了相关技术中训练机器学习模型的特征选择方案不够灵活,准确率低的问题。进而达到了更加灵活且更准确的特征筛选效果。
可选地,所述设置模块22还用于依据所有的所述候选特征的数量计算出每条染色体的位数,使得候选特征与染色体的位成一一对应关系。
可选地,所述设置模块22还用于通过以下方式至少之一设置所述染色体的位的状态:随机设置每条染色体的位的状态为0或1;依据历史数据确定所述候选特征的重要性,并依据所述候选特征的重要性设置对应的位的状态为0或1;其中,0表示该位唯一对应的候选特征未被选中参与训练所述学习器,1表示该位唯一对应的候选特征被选中参与训练所述学习器。
可选地,所述迭代模块24还用于针对所述染色体之中的第一染色体,获取该染色体对应的被选中的一个或多个候选特征,记为第一候选特征;还用于使用携带所述第一候选特征的训练数据对所述学习器进行训练,其中,所述训练数据与训练所述学习器的使用目的相关;以及用于获取训练后的所述学习器处理测试数据的准确率,将所述准确率作为所述第一染色体的适应度。
可选地,所述迭代模块26还用于在所述依据所述适应度对所述染色体进行遗传算法迭代之前,将所有染色体记为第一代染色体;还用于依据所述适应度对所述第一代染色体依次进行遗传算法的以下步骤:选择,繁殖,变异;以及用于在执行上述步骤后,生成第二代染色体。
可选地,依据所述适应度对所述第一代染色体依次进行遗传算法的以下步骤:选择,繁殖,变异,包括:选择步骤,被选择的染色体进入繁殖步骤,其中,每个染色体被选择的概率与所述适应度成正相关;繁殖步骤,依据每两个染色体的预设交配概率完成繁殖步骤,未交配的染色体保持不变,然后进入变异步骤;变异步骤,依据预设变异概率完成每个染色体的变异过程。
可选地,停止迭代的所述预设条件包括以下之一:所有所述最新一代染色体的适应度收敛;所述依据所述适应度对所述染色体进行遗传算法迭代的次数达到目标阈值。
图3是根据本申请实施例的使用遗传算法筛选特征的流程示意图。如图3所示,包括以下步骤:
步骤S301,生成第一代染色体;
步骤S302,根据每个染色体的二进制码选取特征进行模型训练;
步骤S303,根据所定义的学习器表现计算适应度;
步骤S304,判断是否达到预设条件,如果否,转入步骤S305,如果是,结束流程。例如染色体群的适应度是否收敛或达到迭代数。
步骤S305,根据适应度排序,选取适应度高的若干染色体繁殖产生新一代染色体,然后转入步骤S302,重复迭代。
所述使用遗传算法选择特征的装置包括处理器和存储器,上述设置模块、获取适应度模块、迭代模块等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来解决相关技术中训练机器学习模型的特征选择方案不够灵活,准确率低的问题。进而达到了更加灵活且更准确的特征筛选效果。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述使用遗传算法选取特征的方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述使用遗传算法选取特征的方法。
本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:
将所有的候选特征对应至遗传算法使用的染色体的位中,并设置所述染色体的位的状态,其中,所述位的不同状态用于指示与该位对应的候选特征的选取状态,被选中的候选特征参与训练学习器;遍历所述染色体,基于每条染色体中被选中的候选特征,训练所述学习器,将训练效果的评价值作为该条染色体的适应度;依据所述适应度对所述染色体进行遗传算法迭代,直至满足预设条件时停止迭代,依据最新一代染色体选取正式训练所述学习器时基于的特征。
可选地,所述将所有的候选特征对应至遗传算法使用的染色体的位中,包括:依据所有的所述候选特征的数量计算出每条染色体的位数,使得候选特征与染色体的位成一一对应关系。
可选地,所述设置所述染色体的位的状态,包括以下方式至少之一:随机设置每条染色体的位的状态为0或1;依据历史数据确定所述候选特征的重要性,并依据所述候选特征的重要性设置对应的位的状态为0或1;其中,0表示该位唯一对应的候选特征未被选中参与训练所述学习器,1表示该位唯一对应的候选特征被选中参与训练所述学习器。
可选地,所述基于每条染色体中被选中的候选特征,训练所述学习器,将训练效果的评价值作为该条染色体的适应度,包括:针对所述染色体之中的第一染色体,获取该染色体对应的被选中的一个或多个候选特征,记为第一候选特征;使用携带所述第一候选特征的训练数据对所述学习器进行训练,其中,所述训练数据与训练所述学习器的使用目的相关;获取训练后的所述学习器处理测试数据的准确率,将所述准确率作为所述第一染色体的适应度。
可选地,所述依据所述适应度对所述染色体进行遗传算法迭代,包括:在所述依据所述适应度对所述染色体进行遗传算法迭代之前,将所有染色体记为第一代染色体;依据所述适应度对所述第一代染色体依次进行遗传算法的以下步骤:选择,繁殖,变异;在执行上述步骤后,生成第二代染色体。
可选地,依据所述适应度对所述第一代染色体依次进行遗传算法的以下步骤:选择,繁殖,变异,包括:选择步骤,被选择的染色体进入繁殖步骤,其中,每个染色体被选择的概率与所述适应度成正相关;繁殖步骤,依据每两个染色体的预设交配概率完成繁殖步骤,未交配的染色体保持不变,然后进入变异步骤;变异步骤,依据预设变异概率完成每个染色体的变异过程。
可选地,停止迭代的所述预设条件包括以下之一:所有所述最新一代染色体的适应度收敛;所述依据所述适应度对所述染色体进行遗传算法迭代的次数达到目标阈值。
本文中的设备可以是服务器、PC、PAD、手机等。
本发明还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:
将所有的候选特征对应至遗传算法使用的染色体的位中,并设置所述染色体的位的状态,其中,所述位的不同状态用于指示与该位对应的候选特征的选取状态,被选中的候选特征参与训练学习器;遍历所述染色体,基于每条染色体中被选中的候选特征,训练所述学习器,将训练效果的评价值作为该条染色体的适应度;依据所述适应度对所述染色体进行遗传算法迭代,直至满足预设条件时停止迭代,依据最新一代染色体选取正式训练所述学习器时基于的特征。
可选地,所述将所有的候选特征对应至遗传算法使用的染色体的位中,包括:依据所有的所述候选特征的数量计算出每条染色体的位数,使得候选特征与染色体的位成一一对应关系。
可选地,所述设置所述染色体的位的状态,包括以下方式至少之一:随机设置每条染色体的位的状态为0或1;依据历史数据确定所述候选特征的重要性,并依据所述候选特征的重要性设置对应的位的状态为0或1;其中,0表示该位唯一对应的候选特征未被选中参与训练所述学习器,1表示该位唯一对应的候选特征被选中参与训练所述学习器。
可选地,所述基于每条染色体中被选中的候选特征,训练所述学习器,将训练效果的评价值作为该条染色体的适应度,包括:针对所述染色体之中的第一染色体,获取该染色体对应的被选中的一个或多个候选特征,记为第一候选特征;使用携带所述第一候选特征的训练数据对所述学习器进行训练,其中,所述训练数据与训练所述学习器的使用目的相关;获取训练后的所述学习器处理测试数据的准确率,将所述准确率作为所述第一染色体的适应度。
可选地,所述依据所述适应度对所述染色体进行遗传算法迭代,包括:在所述依据所述适应度对所述染色体进行遗传算法迭代之前,将所有染色体记为第一代染色体;依据所述适应度对所述第一代染色体依次进行遗传算法的以下步骤:选择,繁殖,变异;在执行上述步骤后,生成第二代染色体。
可选地,依据所述适应度对所述第一代染色体依次进行遗传算法的以下步骤:选择,繁殖,变异,包括:选择步骤,被选择的染色体进入繁殖步骤,其中,每个染色体被选择的概率与所述适应度成正相关;繁殖步骤,依据每两个染色体的预设交配概率完成繁殖步骤,未交配的染色体保持不变,然后进入变异步骤;变异步骤,依据预设变异概率完成每个染色体的变异过程。
可选地,停止迭代的所述预设条件包括以下之一:所有所述最新一代染色体的适应度收敛;所述依据所述适应度对所述染色体进行遗传算法迭代的次数达到目标阈值。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等) 上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本发明的实施例可提供为方法、系统或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本发明的实施例而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (10)

1.一种使用遗传算法选取特征的方法,其特征在于,包括:
将所有的候选特征对应至遗传算法使用的染色体的位中,并设置所述染色体的位的状态,其中,所述位的不同状态用于指示与该位对应的候选特征的选取状态,被选中的候选特征参与训练学习器;
遍历所述染色体,基于每条染色体中被选中的候选特征,训练所述学习器,将训练效果的评价值作为该条染色体的适应度;
依据所述适应度对所述染色体进行遗传算法迭代,直至满足预设条件时停止迭代,依据最新一代染色体选取正式训练所述学习器时基于的特征。
2.根据权利要求1所述的方法,其特征在于,所述将所有的候选特征对应至遗传算法使用的染色体的位中,包括:
依据所有的所述候选特征的数量计算出每条染色体的位数,使得候选特征与染色体的位成一一对应关系。
3.根据权利要求2所述的方法,其特征在于,所述设置所述染色体的位的状态,包括以下方式至少之一:
随机设置每条染色体的位的状态为0或1;
依据历史数据确定所述候选特征的重要性,并依据所述候选特征的重要性设置对应的位的状态为0或1;
其中,0表示该位唯一对应的候选特征未被选中参与训练所述学习器,1表示该位唯一对应的候选特征被选中参与训练所述学习器。
4.根据权利要求3所述的方法,其特征在于,所述基于每条染色体中被选中的候选特征,训练所述学习器,将训练效果的评价值作为该条染色体的适应度,包括:
针对所述染色体之中的第一染色体,获取该染色体对应的被选中的一个或多个候选特征,记为第一候选特征;
使用携带所述第一候选特征的训练数据对所述学习器进行训练,其中,所述训练数据与训练所述学习器的使用目的相关;
获取训练后的所述学习器处理测试数据的准确率,将所述准确率作为所述第一染色体的适应度。
5.根据权利要求1所述的方法,其特征在于,所述依据所述适应度对所述染色体进行遗传算法迭代,包括:
在所述依据所述适应度对所述染色体进行遗传算法迭代之前,将所有染色体记为第一代染色体;
依据所述适应度对所述第一代染色体依次进行遗传算法的以下步骤:选择,繁殖,变异;
在执行上述步骤后,生成第二代染色体。
6.根据权利要求5所述的方法,其特征在于,依据所述适应度对所述第一代染色体依次进行遗传算法的以下步骤:选择,繁殖,变异,包括:
选择步骤,被选择的染色体进入繁殖步骤,其中,每个染色体被选择的概率与所述适应度成正相关;
繁殖步骤,依据每两个染色体的预设交配概率完成繁殖步骤,未交配的染色体保持不变,然后进入变异步骤;
变异步骤,依据预设变异概率完成每个染色体的变异过程。
7.根据权利要求1所述的方法,其特征在于,停止迭代的所述预设条件包括以下之一:
所有所述最新一代染色体的适应度收敛;
所述依据所述适应度对所述染色体进行遗传算法迭代的次数达到目标阈值。
8.一种使用遗传算法选取特征的装置,其特征在于,包括:
设置模块,用于将所有的候选特征对应至遗传算法使用的染色体的位中,并设置所述染色体的位的状态,其中,所述位的不同状态用于指示与该位对应的候选特征的选取状态,被选中的候选特征参与训练学习器;
获取适应度模块,用于遍历所述染色体,基于每条染色体中被选中的候选特征,训练所述学习器,将训练效果的评价值作为该条染色体的适应度;
迭代模块,依据所述适应度对所述染色体进行遗传算法迭代,直至满足预设条件时停止迭代,依据最新一代染色体选取正式训练所述学习器时基于的特征。
9.一种“计算机可读存储介质”或“非易失性存储介质”,其特征在于,所述“计算机可读存储介质”或“非易失性存储介质”包括存储的程序,其中,在所述程序运行时控制所述“计算机可读存储介质”或“非易失性存储介质”所在设备执行权利要求1至7中任意一项所述的使用遗传算法选取特征的方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至7中任意一项所述的使用遗传算法选取特征的方法。
CN202010767048.0A 2020-08-03 2020-08-03 使用遗传算法选取特征的方法和装置 Pending CN112036566A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010767048.0A CN112036566A (zh) 2020-08-03 2020-08-03 使用遗传算法选取特征的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010767048.0A CN112036566A (zh) 2020-08-03 2020-08-03 使用遗传算法选取特征的方法和装置

Publications (1)

Publication Number Publication Date
CN112036566A true CN112036566A (zh) 2020-12-04

Family

ID=73583776

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010767048.0A Pending CN112036566A (zh) 2020-08-03 2020-08-03 使用遗传算法选取特征的方法和装置

Country Status (1)

Country Link
CN (1) CN112036566A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114490619A (zh) * 2022-02-15 2022-05-13 北京大数据先进技术研究院 基于遗传算法的数据填补方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103971162A (zh) * 2014-04-04 2014-08-06 华南理工大学 一种基于遗传算法改进bp神经网络的方法
CN104809229A (zh) * 2015-05-07 2015-07-29 北京京东尚科信息技术有限公司 一种文本特征词提取方法及系统
CN106295806A (zh) * 2016-07-29 2017-01-04 浪潮(北京)电子信息产业有限公司 确定规定时间内访问存储服务器的存储容量的方法及装置
CN107229972A (zh) * 2017-03-10 2017-10-03 东莞理工学院 一种基于拉马克获得性遗传原理的全局优化、搜索和机器学习方法
CN109977028A (zh) * 2019-04-08 2019-07-05 燕山大学 一种基于遗传算法和随机森林的软件缺陷预测方法
CN109993183A (zh) * 2017-12-30 2019-07-09 中国移动通信集团四川有限公司 网络故障评估方法、装置、计算设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103971162A (zh) * 2014-04-04 2014-08-06 华南理工大学 一种基于遗传算法改进bp神经网络的方法
CN104809229A (zh) * 2015-05-07 2015-07-29 北京京东尚科信息技术有限公司 一种文本特征词提取方法及系统
CN106295806A (zh) * 2016-07-29 2017-01-04 浪潮(北京)电子信息产业有限公司 确定规定时间内访问存储服务器的存储容量的方法及装置
CN107229972A (zh) * 2017-03-10 2017-10-03 东莞理工学院 一种基于拉马克获得性遗传原理的全局优化、搜索和机器学习方法
CN109993183A (zh) * 2017-12-30 2019-07-09 中国移动通信集团四川有限公司 网络故障评估方法、装置、计算设备及存储介质
CN109977028A (zh) * 2019-04-08 2019-07-05 燕山大学 一种基于遗传算法和随机森林的软件缺陷预测方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114490619A (zh) * 2022-02-15 2022-05-13 北京大数据先进技术研究院 基于遗传算法的数据填补方法、装置、设备及存储介质
CN114490619B (zh) * 2022-02-15 2022-09-09 北京大数据先进技术研究院 基于遗传算法的数据填补方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN110728317A (zh) 决策树模型的训练方法、系统、存储介质及预测方法
CN114529825A (zh) 用于消防通道占用目标检测的目标检测模型、方法及应用
CN110288199A (zh) 产品质量预测的方法
US11481659B1 (en) Hyperparameter optimization using fairness constraints
CN110969200A (zh) 基于一致性负样本的图像目标检测模型训练方法及装置
JP2019016025A (ja) 情報処理システム
WO2017041066A1 (en) Flexible, personalized student success modeling for institutions with complex term structures and competency-based education
WO2016095068A1 (en) Pedestrian detection apparatus and method
US20020095393A1 (en) Computer program for and method of discrete event computer simulation incorporating biological paradigm for providing optimized decision support
CN113128432A (zh) 一种基于演化计算的多任务神经网络架构搜索方法
CN112036566A (zh) 使用遗传算法选取特征的方法和装置
CN113144624B (zh) 一种数据处理方法、装置、设备及存储介质
US20220027739A1 (en) Search space exploration for deep learning
CN112818100A (zh) 一种融合题目难度的知识追踪方法及系统
CN114077859A (zh) 异常样本的检测方法及装置、电子设备、存储介质
CN111178416A (zh) 参数调整方法和装置
CN106709572A (zh) 一种数据处理方法及设备
CN110781978A (zh) 一种用于机器学习的特征处理方法和系统
JP2019185207A (ja) モデル学習装置、モデル学習方法、プログラム
KR20200095951A (ko) Gpu 기반의 채널 단위 딥뉴럴 네트워크 구조 검색을 사용하는 인공지능 시스템
CN111178488A (zh) 数据处理方法和装置
Hu et al. Internet credit risk scoring based on simulated annealing and genetic algorithm
Dewi et al. Modification of random forest method to predict student graduation data
JP7314723B2 (ja) 画像処理システム、及び画像処理プログラム
CN117253238B (zh) 训练样本的确定、神经网络训练、版图优化方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination