CN108053032A - 一种基于遗传算法的数据模型训练样本的选取方法 - Google Patents

一种基于遗传算法的数据模型训练样本的选取方法 Download PDF

Info

Publication number
CN108053032A
CN108053032A CN201711159787.6A CN201711159787A CN108053032A CN 108053032 A CN108053032 A CN 108053032A CN 201711159787 A CN201711159787 A CN 201711159787A CN 108053032 A CN108053032 A CN 108053032A
Authority
CN
China
Prior art keywords
mrow
msub
sample
mfrac
chromosome
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711159787.6A
Other languages
English (en)
Inventor
吕游
黄鑫
杨婷婷
刘吉臻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
North China Electric Power University
Original Assignee
North China Electric Power University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by North China Electric Power University filed Critical North China Electric Power University
Priority to CN201711159787.6A priority Critical patent/CN108053032A/zh
Publication of CN108053032A publication Critical patent/CN108053032A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Genetics & Genomics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Physiology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供一种基于遗传算法的数据模型训练样本的选取方法。本发明利用样本的分布距离大小和分布的均匀性来定量化描述训练样本的选取指标,并将其作为适应度函数,利用遗传算法实现最佳训练样本的智能搜索,使得到的样本覆盖最大工况,为构建高精度的数据模型提供基础。

Description

一种基于遗传算法的数据模型训练样本的选取方法
技术领域
本发明属于热工技术和人工智能交叉技术领域,涉及一种基于遗传算法的数据模型训练样本的选取方法。
背景技术
基于电站运行数据,采用多元线性回归、神经网络、支持向量机等技术构造一定的数学关系,可实现对电站机组参数的建模和估计。这种数据建模方法不需研究电站运行过程的内部规律,而是将其看作一个黑箱,从输入输出数据中提取有用信息,所建立的数据模型对机组参数的冗余测量及状态监控都有着重要的意义。
采用运行数据建立的模型对数据特性具有较强的依赖性。虽然电站历史数据库记录了大量的运行数据,但是大部分样本都集中在某些特定的工况下。样本的工况分布是构建数据模型时需要考虑的关键因素之一。利用充分变化并尽量覆盖全工况的数据样本更容易训练得到高精度的预测模型。本发明将训练样本的选取指标进行定量化,并将其作为适应度函数,利用遗传算法来实现最佳训练样本的智能搜索,使得到的样本覆盖最大工况,为构建高精度的数据模型提供基础。
发明内容
为了解决上述问题,本发明提供一种基于遗传算法的数据模型训练样本的选取方法,所述方法通过样本的分布距离大小和分布的均匀性来定量化描述训练样本的选取指标,并将其作为适应度函数,利用遗传算法实现最佳训练样本的智能搜索,使得到的样本覆盖最大工况,构建高精度的数据模型,通过高精度的数据模型完成最佳训练样本的选取;
进一步地,所述方法包括:
步骤1):染色体编码及初始化:对要选取的样本序列进行二进制编码,共产生m条染色体构成种群,给定最大迭代次数为N,交叉概率pc,变异概率pm;
步骤2)确定适应度函数:考虑样本的分布距离大小和分布的均匀性,将样本选取指标进行定量化,并将其作为适应度函数;
步骤3):染色体交叉:在m个染色体中,依次取相邻的两个染色体按交叉概率pc进行多点交叉;
步骤4):染色体变异:在m个染色体中,对每个染色体按照变异概率pm进行多点变异;
步骤5):染色体处理:经过步骤2)和步骤3)之后,染色体s段基因中若出现某段的b位基因解码后大于n,则用该染色体尚未包含的最优样本序号的二进制编码进行替换;最优样本的确定方法是:逐个将未包含的数据样本序号加入该染色体后,适应度函数值增量最大的样本即为最优样本;
步骤6):染色体选择:根据步骤2)的适应度函数,计算各个染色体的适应度值,并按照轮盘赌选择新一代个体;
步骤7):记录每代最优染色体的适应度值,然后进入步骤3),进行下一次迭代,直至达到给定的迭代次数N;
进一步地,步骤1)中所述染色体编码的方法为若初始的运行数据中有n个样本,要选取s个样本,则每个样本的序号用b位二进制基因段来表示,将每个可行解看作一条染色体,共有s·b个基因,这里其中为向上取整函数,定义为:
进一步地,步骤2)中所述样本选取的定量化指标根据样本的分布距离大小和分布的均匀性进行计算,具体方法如下:
其中γ1和γ2为权值系数,dmax为初始数据中样本之间的最大欧式距离,dij为所选训练样本中任意两个样本xi,xj之间的欧式距离:
其中p为输入变量个数,L2(x)为样本中心化偏差,且有:
进一步地,遗传算法过程包含了染色体处理环节,对染色体s段基因中解码后大于n的基因进行处理和替换;
本发明利用充分变化并尽量覆盖全工况的数据样本更容易训练得到高精度的预测模型的特点,将训练样本的选取指标进行定量化,并将其作为适应度函数,利用遗传算法来实现最佳训练样本的智能搜索,使得到的样本覆盖最大工况,为构建高精度的数据模型提供基础。
附图说明
图1为本发明所述的初始数据样本分布图;
图2是本发明所述的基于遗传算法的数据模型训练样本选取流程图;
图3是本发明所述的基于遗传算法的数据模型训练样本选取的迭代过程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细描述。应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
下面结合附图和具体实施例对本发明作进一步说明,但不作为对本发明的限定。下面为本发明的举出最佳实施例:
本发明提供一种基于遗传算法的数据模型训练样本的选取方法。本发明利用样本的分布距离大小和分布的均匀性来定量化描述训练样本的选取指标,并将其作为适应度函数,利用遗传算法实现最佳训练样本的智能搜索,使得到的样本覆盖最大工况,为构建高精度的数据模型提供基础。
本实施例对2维变量训练样本的选取过程进行模拟仿真,验证本技术方案的有效性。对于给定变量和范围,正交数据样本是通过最少的试验次数获得具有最大信息量的数据样本,因此同具有最大的工况代表性。为了模拟筛选过程,给出2因素3水平下[1,3]范围内的5组正交样本,同时另外随机产生20组样本,共构成25组初始样本,其分布如图1所示。本方案模拟从这些初始样本中选取5组具有工况代表性的样本来作为模型训练样本。
请参考图2,一种基于遗传算法的数据模型训练样本选取的流程如下:
步骤1):对要选取的样本序列进行二进制编码,运行数据中共有25个样本,要从中选取5个样本,则每个样本的序号用位二进制编码的基因段来表示,则共有25个基因,共产生30个染色体构成种群,给定最大迭代次数为N=50,交叉概率pc=0.60,变异概率pm=0.05;
步骤2)确定适应度函数:考虑样本的分布距离大小和分布的均匀性,将样本选取指标进行定量化,并将其作为适应度函数,具体由下式计算:
其中γ1和γ2为权值系数,dmax为初始数据中样本之间的最大欧式距离,dij为所选训练样本中任意两个样本xi,xj之间的欧式距离:
其中p为输入变量个数。
L2(x)为样本中心化偏差,且有:
步骤3):染色体交叉:在30个染色体中,依次取相邻的两个染色体按交叉概率pc=0.60进行多点交叉;
步骤4):染色体变异:在30个染色体中,对每个染色体按照变异概率pm=0.05进行多点变异;
步骤5):染色体处理:若染色体基因中某段的5位基因解码后大于25,则用该染色体尚未包含的最优样本序号的二进制编码进行替换。最优样本的确定方法是:逐个将未包含的数据样本序号加入到该染色体后,适应度函数值增量最大的样本即为最优样本;
步骤6):染色体选择:根据步骤2)的适应度函数,计算各个染色体的适应度值,并按照轮盘赌选择新一代个体;
步骤7):记录每代最优的染色体适应度值,然后进入步骤3,进行下一次迭代,直至达到50次迭代。
利用本方案进行迭代的过程如图3所示。由图3可以看出,随着迭代的进行,所选择的训练样本的定量化指标逐渐增加,最后趋于稳定,最终得到训练样本为:(1,1),(1,3),(2,2),(3,1),(3,3),也即是正交样本,具有最大的工况代表性。
以上所述的实施例,只是本发明较优选的具体实施方式的一种,本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。

Claims (5)

1.一种基于遗传算法的数据模型训练样本的选取方法,其特征在于,所述方法通过样本的分布距离大小和分布的均匀性来定量化描述训练样本的选取指标,并将其作为适应度函数,利用遗传算法实现最佳训练样本的智能搜索,使得到的样本覆盖最大工况,构建高精度的数据模型,通过高精度的数据模型完成最佳训练样本的选取。
2.根据权利要求1所述的方法,其特征在于,所述方法包括:
步骤1):染色体编码及初始化:对要选取的样本序列进行二进制编码,共产生m条染色体构成种群,给定最大迭代次数为N,交叉概率pc,变异概率pm;
步骤2)确定适应度函数:考虑样本的分布距离大小和分布的均匀性,将样本选取指标进行定量化,并将其作为适应度函数;
步骤3):染色体交叉:在m个染色体中,依次取相邻的两个染色体按交叉概率pc进行多点交叉;
步骤4):染色体变异:在m个染色体中,对每个染色体按照变异概率pm进行多点变异;
步骤5):染色体处理:经过步骤2)和步骤3)之后,染色体s段基因中若出现某段的b位基因解码后大于n,则用该染色体尚未包含的最优样本序号的二进制编码进行替换;最优样本的确定方法是:逐个将未包含的数据样本序号加入该染色体后,适应度函数值增量最大的样本即为最优样本;
步骤6):染色体选择:根据步骤2)的适应度函数,计算各个染色体的适应度值,并按照轮盘赌选择新一代个体;
步骤7):记录每代最优染色体的适应度值,然后进入步骤3),进行下一次迭代,直至达到给定的迭代次数N。
3.根据权利要求2所述的方法,其特征在于,步骤1)中所述染色体编码的方法为若初始的运行数据中有n个样本,要选取s个样本,则每个样本的序号用b位二进制基因段来表示,将每个可行解看作一条染色体,共有s·b个基因,这里其中为向上取整函数,定义为:
4.根据权利要求2所述的方法,其特征在于,步骤2)中所述样本选取的定量化指标根据样本的分布距离大小和分布的均匀性进行计算,具体方法如下:
<mrow> <mi>f</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <msup> <mrow> <mo>(</mo> <mfrac> <mn>1</mn> <msub> <mi>d</mi> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> </msub> </mfrac> <mo>&amp;CenterDot;</mo> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mo>(</mo> <mrow> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mrow> <mn>1</mn> <mo>&amp;le;</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>&amp;le;</mo> <mi>s</mi> </mrow> </munder> <msub> <mi>d</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <msub> <mi>&amp;gamma;</mi> <mn>1</mn> </msub> </msup> <mo>&amp;CenterDot;</mo> <mfrac> <mn>1</mn> <msup> <mrow> <mo>(</mo> <mn>1</mn> <mo>+</mo> <msub> <mi>L</mi> <mn>2</mn> </msub> <mo>(</mo> <mi>x</mi> <mo>)</mo> <mo>)</mo> </mrow> <msub> <mi>&amp;gamma;</mi> <mn>2</mn> </msub> </msup> </mfrac> <mo>,</mo> </mrow>
其中γ1和γ2为权值系数,dmax为初始数据中样本之间的最大欧式距离,dij为所选训练样本中任意两个样本xi,xj之间的欧式距离:
<mrow> <msub> <mi>d</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <msqrt> <mrow> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>p</mi> </munderover> <msup> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>x</mi> <mrow> <mi>j</mi> <mi>k</mi> </mrow> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> <mo>,</mo> </mrow>
其中p为输入变量个数,L2(x)为样本中心化偏差,且有:
<mrow> <mtable> <mtr> <mtd> <mrow> <msub> <mi>L</mi> <mn>2</mn> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <mo>&amp;lsqb;</mo> <msup> <mrow> <mo>(</mo> <mfrac> <mn>13</mn> <mn>12</mn> </mfrac> <mo>)</mo> </mrow> <mi>p</mi> </msup> <mo>-</mo> <mfrac> <msup> <mn>2</mn> <mrow> <mn>1</mn> <mo>-</mo> <mi>p</mi> </mrow> </msup> <mi>n</mi> </mfrac> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>s</mi> </munderover> <munderover> <mo>&amp;Pi;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>p</mi> </munderover> <mo>&amp;lsqb;</mo> <mrow> <mn>2</mn> <mo>+</mo> <mo>|</mo> <msub> <mi>x</mi> <mrow> <mi>k</mi> <mi>i</mi> </mrow> </msub> <mo>-</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <mo>|</mo> <mo>-</mo> <mo>|</mo> <msub> <mi>x</mi> <mrow> <mi>k</mi> <mi>i</mi> </mrow> </msub> <mo>-</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <msup> <mo>|</mo> <mn>2</mn> </msup> </mrow> <mo>&amp;rsqb;</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>+</mo> <mfrac> <mn>1</mn> <msup> <mi>n</mi> <mn>2</mn> </msup> </mfrac> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>k</mi> <mo>,</mo> <mi>l</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>s</mi> </munderover> <munderover> <mo>&amp;Pi;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>p</mi> </munderover> <mrow> <mo>(</mo> <mrow> <mn>1</mn> <mo>+</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <mo>|</mo> <msub> <mi>x</mi> <mrow> <mi>k</mi> <mi>i</mi> </mrow> </msub> <mo>-</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <mo>|</mo> <mo>+</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <mo>|</mo> <msub> <mi>x</mi> <mrow> <mi>l</mi> <mi>i</mi> </mrow> </msub> <mo>-</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <mo>|</mo> <mo>-</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <mo>|</mo> <msub> <mi>x</mi> <mrow> <mi>k</mi> <mi>i</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>x</mi> <mrow> <mi>l</mi> <mi>i</mi> </mrow> </msub> <mo>|</mo> </mrow> <mo>)</mo> </mrow> <msup> <mo>&amp;rsqb;</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> </msup> </mrow> </mtd> </mtr> </mtable> <mo>.</mo> </mrow>
5.根据权利要求1所述的方法,其特征在于,遗传算法过程包含了染色体处理环节,对染色体s段基因中解码后大于n的基因进行处理和替换。
CN201711159787.6A 2017-11-20 2017-11-20 一种基于遗传算法的数据模型训练样本的选取方法 Pending CN108053032A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711159787.6A CN108053032A (zh) 2017-11-20 2017-11-20 一种基于遗传算法的数据模型训练样本的选取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711159787.6A CN108053032A (zh) 2017-11-20 2017-11-20 一种基于遗传算法的数据模型训练样本的选取方法

Publications (1)

Publication Number Publication Date
CN108053032A true CN108053032A (zh) 2018-05-18

Family

ID=62120059

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711159787.6A Pending CN108053032A (zh) 2017-11-20 2017-11-20 一种基于遗传算法的数据模型训练样本的选取方法

Country Status (1)

Country Link
CN (1) CN108053032A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109544300A (zh) * 2018-11-27 2019-03-29 景德镇陶瓷大学 一种基于交互式遗传算法的陶瓷产品设计系统及其方法
CN110323722A (zh) * 2019-06-12 2019-10-11 国网河北省电力有限公司 一种继电保护信息识别的交叉迭代方法
CN110569566A (zh) * 2019-08-19 2019-12-13 北京科技大学 一种板带力学性能预测方法
CN110323723B (zh) * 2019-06-12 2021-06-18 国网河北省电力有限公司 一种基于特征编码的继电保护信息识别方法
CN113272642A (zh) * 2018-12-20 2021-08-17 苏伊士集团 一种用于评估管道状况的改进方法
CN116881724A (zh) * 2023-09-07 2023-10-13 中国电子科技集团公司第十五研究所 一种样本标注方法、装置及设备

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109544300A (zh) * 2018-11-27 2019-03-29 景德镇陶瓷大学 一种基于交互式遗传算法的陶瓷产品设计系统及其方法
CN113272642A (zh) * 2018-12-20 2021-08-17 苏伊士集团 一种用于评估管道状况的改进方法
CN110323722A (zh) * 2019-06-12 2019-10-11 国网河北省电力有限公司 一种继电保护信息识别的交叉迭代方法
CN110323723B (zh) * 2019-06-12 2021-06-18 国网河北省电力有限公司 一种基于特征编码的继电保护信息识别方法
CN110569566A (zh) * 2019-08-19 2019-12-13 北京科技大学 一种板带力学性能预测方法
CN110569566B (zh) * 2019-08-19 2021-04-02 北京科技大学 一种板带力学性能预测方法
CN116881724A (zh) * 2023-09-07 2023-10-13 中国电子科技集团公司第十五研究所 一种样本标注方法、装置及设备
CN116881724B (zh) * 2023-09-07 2023-12-19 中国电子科技集团公司第十五研究所 一种样本标注方法、装置及设备

Similar Documents

Publication Publication Date Title
CN108053032A (zh) 一种基于遗传算法的数据模型训练样本的选取方法
Wang et al. Evolutionary extreme learning machine ensembles with size control
Tavakkoli-Moghaddain et al. Facilities layout design by genetic algorithms
CN112800770B (zh) 一种基于异构图注意力网络的实体对齐方法
Shim et al. A hybrid estimation of distribution algorithm for solving the multi-objective multiple traveling salesman problem
Behrang et al. Assessment of electricity demand in Iran's industrial sector using different intelligent optimization techniques
CN108038538A (zh) 基于强化学习的多目标进化算法
Zhang et al. Two‐Stage Bagging Pruning for Reducing the Ensemble Size and Improving the Classification Performance
CN112381284B (zh) 一种无人接驳车多站点路径优化的改进遗传算法
Song et al. Performance optimization of annealing salp swarm algorithm: Frameworks and applications for engineering design
CN113627471A (zh) 一种数据分类方法、系统、设备及信息数据处理终端
CN114386659A (zh) 核电厂用水系统泵管优化方法
Colmenar et al. Automatic generation of models for energy demand estimation using Grammatical Evolution
Windarto et al. A comparison of binary and continuous genetic algorithm in parameter estimation of a logistic growth model
CN114004341A (zh) 一种基于遗传算法及bp神经网络的光纤预制棒制备工艺优化方法
Pang et al. Offline automatic parameter tuning of MOEA/D using genetic algorithm
CN111813669A (zh) 基于多目标群体智能的适应性随机测试用例生成方法
CN116010291A (zh) 基于均衡优化理论与灰色预测模型的多路径覆盖测试方法
Song et al. Study on GA-based training algorithm for extreme learning machine
Boateng et al. Predicting building-related carbon emissions: A test of machine learning models
CN107171712B (zh) 大规模多输入多输出系统中发射端发射天线的选择方法
CN114742173A (zh) 一种基于神经网络的变压器故障诊断方法及系统
Roeva et al. Generalized net model of selection operator of genetic algorithms
Deng et al. SVR with hybrid chaotic genetic algorithm for short-term traffic flow forecasting
CN110610239B (zh) 一种基于动态遗传算法的平衡运输问题解决方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180518