CN106022473A - 一种融合粒子群和遗传算法的基因调控网络构建方法 - Google Patents

一种融合粒子群和遗传算法的基因调控网络构建方法 Download PDF

Info

Publication number
CN106022473A
CN106022473A CN201610346242.5A CN201610346242A CN106022473A CN 106022473 A CN106022473 A CN 106022473A CN 201610346242 A CN201610346242 A CN 201610346242A CN 106022473 A CN106022473 A CN 106022473A
Authority
CN
China
Prior art keywords
particle
sample
feature
gene regulatory
regulatory network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610346242.5A
Other languages
English (en)
Other versions
CN106022473B (zh
Inventor
孟军
郝涵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN201610346242.5A priority Critical patent/CN106022473B/zh
Publication of CN106022473A publication Critical patent/CN106022473A/zh
Application granted granted Critical
Publication of CN106022473B publication Critical patent/CN106022473B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Genetics & Genomics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Physiology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种融合粒子群和遗传算法的基因调控网络构建方法,包括构建样本集;数据预处理以及参数设置;利用粒子群算法对特征进行选择,设置每个粒子的个体极值和全局极值;计算特征子集的适应度并排序;对排序在预设概率之前的粒子使用粒子群算法进行位置和速度更新;对排序在预设概率之后的粒子利用遗传算法的交叉和变异操作进行更新;对粒子的个体极值和全局极值进行更新;判断是否满足迭代要求,不满足则转向S4,否则输出全局最优粒子;根据全局最优粒子所选择的特征对支持向量机进行训练构建基因调控网络模型;使用构建的基因调控网络模型对验证集进行实验,得到预测的基因调控网络。本发明可与现有的优化方法配合使用,具有更广阔的应用前景。

Description

一种融合粒子群和遗传算法的基因调控网络构建方法
技术领域
本发明涉及生物信息学和数据挖掘领域。尤其是针对于序列数据的一种融合粒子群和遗传算法的基因调控网络构建方法。
背景技术
MicroRNAs(miRNAs)是一类非常重要的非编码RNA分子,通过触发靶基因降解,从而广泛地参与到基因的转录后调控,或者通过抑制基因的转录,对基因在转录水平上进行调控。miRNA通过与靶mRNA匹配结合实现对生物学功能的调控,因此,研究miRNA与其靶基因的调控关系成为生物界广泛关注的问题。传统的实验验证方法耗费巨大,利用现有的序列数据、基因表达数据或其它生物信息学数据,通过统计学模型或机器学习的方法构建基因调控网络来发现基因之间的关系,能够有效的减少实验花费,对生物学研究者有一定的指导作用。
识别miRNA与其靶基因之间的关系的方法主要有两类:基于序列的miRNA靶基因识别和基于机器学习的miRNA靶基因识别。
从机器学习的角度来看,基因调控网络构建可以分为非监督学习和监督学习。非监督学习不需要已知的调控关系,只是利用一些生物数据来进行调控网络的构建。监督学习则需要已知的调控关系,可以看出监督学习需要的数据信息多于非监督学习,具有更强的发现能力。有研究表明,在网络推断方面,监督学习优于非监督学习。
监督学习需要利用已有的调控关系数据,通过学习调控关系的判别模 型,对未知的调控关系进行判别,需要处理特征生成和分类器选择问题。miRNA与其靶基因的交互的特征包括自由能特征,结构序列特征和基于绑定位置特征,收集这些特征并进行计算,然后使用分类器进行模型的构建。由于支持向量机(Support Vector Machine,SVM)在解决小样本、非线性以及高维问题中表现出的优势,使得它在基因网络构建方面独具一格,已成为近期的研究热点。
发明内容
本发明的目的是提供一种能够有效预测miRNA与其靶基因之间的调控关系的融合粒子群和遗传算法的基因调控网络构建方法。
本发明解决现有技术问题所采用的技术方案:一种融合粒子群和遗传算法的基因调控网络构建方法,包括以下步骤:
S1、构建样本集:所述样本集包括正样本和负样本,所述正样本搜集来自文献中的具有调控关系的miRNA:mRNA交互信息对;负样本通过人工生成的假阳性miRNA:mRNA交互信息对组成,使用靶基因预测工具用来生成假阳性miRNA的靶基因作为训练集的负样本;使用靶基因预测工具对miRNA进行预测,得到的所有miRNA:mRNA交互信息对作为验证集;提取正样本和负样本的N维特征,所述特征包括位点结合特征、结构特征和热力学特征;
S2、数据预处理及参数设置:利用SMOTE方法使正样本与负样本的比例平衡;对所提取的特征进行离散化和标准化处理;
S3、利用粒子群算法对粒子的特征进行选择,设置粒子群中每个粒子的个体极值和全局极值:将每一个粒子表示为N维向量,每一维对应一个特征,每一维的值为1或0;1表示对应的特征被选择了,0表示对应的特征没有被选择;每个粒子所选中的特征构成每个粒子的特征子集;个体极值为粒子在整个迭代 过程中的最优位置,初始化为粒子的初始化值;全局极值为所有粒子的最优位置,初始化为整个粒子群的最优值;
S4、计算每个粒子的特征子集的适应度,根据适应度进行排序:包括下面几个步骤:
A1:计算每个粒子的特征子集的等价类:
T=(U,C∪D,V,f)表示一个决策表,其中U是一个非空且有限的样本集合,称为论域;C是条件属性集合,D是决策属性集合;如果Q=C∪D,任意属性q∈Q是一个全映射fq:U→Vq,其中Vq表示属性q所有取值,称为q的值域,且V=∪q∈QVq,f=∪q∈Qfq;每一个属性子集它的不可分辨关系表示为:
I N D ( B ) = { ( x , y ) ∈ U × U | ∀ b ∈ B , f b ( x ) = f b ( y ) } ,
令x∈U,U中所有与x满足不可分辨关系IND(B)的对象构成x的一个基于属性集B的等价类[x]B={y|y∈U,(x,y)∈IND(B)}。
A2:任意对象子集属性子集X的上近似集为:
B ‾ ( X ) = { x | [ x ] B ⊆ X , x ∈ U } ,
A3:任意条件属性子集U/D是由等价关系IND(D)诱导出的所有相异的等价类的集合;相对于决策属性集D的B正域定义为:
POS B ( D ) = ∪ X ∈ U / D B ‾ ( X ) ,
A4:B是一个条件属性集合,D是决策属性,D对于B的依赖度定义为:
k = γ B ( D ) = | POS B ( D ) | | U | ,
通常0≤k≤1。当k=1,时,称D完全依赖于B;0<k<1时,D部分依赖于B;当k=0时,D完全独立于B;
A5:计算每个粒子的适应度,适应度公式如下:
F i t n e s s = &alpha; * &gamma; B ( D ) + &beta; * | C | - | B | | C | ,
其中γB(D)是条件属性集B相对于决策属性集D的依赖度,|C|是总的特征数,|B|是选择的特征数。在这里,α的取值为0.9,β的取值为0.1;
A6:根据适应度的大小对粒子进行排序;
S5、对排序在预设概率之前的粒子继续使用粒子群算法进行位置和速度更新:
A1:速度更新公式如下:
vid=w×vid+c1×rand()×(pid-xid)+c2×rand()×(pgd-xid),
A1:位置更新公式如下:
xid=xid+vid,
其中第i个粒子表示为xi=(xi1,xi2,...,xid),它的飞行速度为vi=(vi1,vi2,...,vid),在每次迭代中,粒子根据两个极值来对自己进行更新;第一个极值就是粒子本身找到的最优解Pbest,第i个粒子本身的最优解可以表示为pi=(pi1,pi2,...,pid).第二个极值是整个种群目前找到的最优解,这个极值是全局极值gbset;
S6、对排序在预设概率之后的粒子利用遗传算法的交叉和变异操作进行更新:
S7、对粒子的个体极值和全局极值进行更新:
S8、判断是否满足迭代要求,不满足的话转向S4,否则的话,输出全局最优粒子:
S9、根据全局最优粒子所选择的特征进行对支持向量机进行训练构建基因调控网络模型:
S10、使用构建的基因调控网络模型对验证集进行实验,得到预测的基因调 控网络。
SMOTE算法是通过合成的方法产生新的少数样本;所述合成的方法是对每一个少数类样本a,计算a与少数类样本之间的欧式距离,选取k个最短的距离作为其最近邻;然后从它的最近邻中随机选择样本b,然后在a和b之间的连线上随机选一点作为新合成的少数类样本M,公式如下所示,其中u是一个介于0和1之间的随机数;最后将属性值进行离散化到[0,1]之间;
M=a+u·(b-a)
对粒子群算法的种群规模设置为特征个数N,迭代次数为100。
k为5。
本发明的有益效果在于:
1、发明能够与现有的优化方法配合使用,具有更广阔的运用前景;
2、采用依赖度和特征个数为关联准则利用粒子群算法和遗传算法对特征进行选择,依赖度是基于粗糙集进行计算的,从而可以获得个数较少,分类性能较好的特征;
3、利用支持向量机对降维后的样本进行训练,本发明的方法能够比较准确的预测miRNA与其靶基因之间的调控关系。
附图说明
图1为本方明的总体流程图。
图2是本发明所预测的部分调控网络示意图。
具体实施方式
以下结合附图及具体实施方式对本发明进行说明:
如图1所示,本发明的总体设计思路为:首先搜集来自文献中的被实验证实的具有调控关系的miRNA:mRNA交互信息对作为正样本,负样本是通过人工生 成的方式进行创建,提取这些样本的特征,构建训练集合,验证集由靶基因预测工具进行生成,带有精确的靶位点;由于样本存在不平衡问题,会造成假阳性过高,因此需要对样本进行平衡化处理,在特征选择时需要用到粗糙集,需要对特征进行标准归一化处理;利用粒子群算法随机选择一些特征子集。其中,特征是判断miRNA与其靶基因是否有关系的一些依据,而将每个粒子所选择的特征提取出来作为特征子集即为位点结合特征,结构特征比如A:U,C:G,G:U以及错误匹配的个数,例如20个位点结合特征,24个结构特征和4个热力学特征;20个位点结合特征是miRNA前20位与靶基因的A:U,C:G,G:U和错配,其中A:U,C:G属于完全匹配,赋值分别为1和2,G:U属于不完全匹配赋值为3,错配为4;24个结构特征是将整个miRNA序列分为种子区域2-8位,中心区域9-11位,其它区域以及整个区域四部分,每个分别计算CG配对,AU配对,CG+AU匹配,GU不完全匹配,错配,GU+错配6种,所以有4*6=24个特征,另外4个能量相关的特征使用Vienna RNA包中的RNAup和RNAfold计算获得选择的特征子集就是这48维特征中的一部分。
使用适应度函数评价这些特征子集的优劣,对于含有较优的特征子集的粒子继续使用粒子群算法进行速度和位置更新,对于不太优的粒子使用遗传算法的交叉变异算子形成新的粒子;最后得到最优的特征集合,对这个特征子集使用支持向量机进行构建模型,在验证集上进行实验,最后得到预测的基因调控网络关系;具体步骤如下;
如图1所示,一种融合粒子群和遗传算法的基因调控网络构建方法,包括以下步骤:
S1、构建样本集:样本集包括正样本和负样本,正样本搜集来自文献中的具有调控关系的miRNA:mRNA交互信息对;负样本通过人工生成的假阳性 miRNA:mRNA交互信息对组成,使用靶基因预测工具用来生成假阳性miRNA的靶基因作为训练集的负样本;在这里,使用人工生成的方法生成假的miRNA,通过统计拟南芥的miRNA中碱基A、U、C、G的比例,按照比例生成300个miRNA,使用靶基因预测工具psRNATarget用来生成这些miRNA的靶基因作为训练集的负样本;最后,生成1311条负样本。因为实验中需要精确的靶位点,因此使用靶基因预测工具对miRNA进行预测,得到的所有miRNA:mRNA交互信息对作为验证集;提取正样本和负样本的N维特征,所述特征包括位点结合特征、结构特征和热力学特征。本发明依次提取了48维特征,本发明提取的特征可分为三类:位点结合特征、结构特征和热力学特征;
S2、数据预处理及参数设置:实验中,正负样本的比例存在不平衡,负样本的比例大于正样本的比例,因此结果会出现较高的假阴性;利用经典的SMOTE方法对样本的不平衡进行处理;SMOTE算法是一种过采样算法,基本思想是通过合成的方法产生新的少数样本。合成的方法是对每一个少数类样本a,计算a与少数类样本之间的欧式距离,选取k个最短的距离作为其最近邻,其中,k值为5;然后从它的最近邻中随机选择样本b,然后在a和b之间的连线上随机选一点作为新合成的少数类样本M,公式如下所示,其中u是一个介于0和1之间的随机数。而不是简单的进行复制;最后将属性值进行离散标准化到[0,1]之间;
M=a+u·(b-a)
对粒子群算法的种群规模设置为特征个数48,迭代次数为100,遗传算法的概率0.2(就是对粒子群算法中排序往后的80%粒子进行遗传算法的交叉和变异操作,这个是通过对拟南芥进行实验,将遗传概率从0.1到0.9以步长0.1进行增长,结果最好的是0.2),交叉速率为0.7,变异速率为0.1;
S3、利用粒子群算法对特征进行选择,设置每个粒子的个体极值和全局极值: 每一个粒子是一个48维的向量,每一维对应一个特征,每一维的值为1或者0,;1代表对应的特征被选择了,0代表对应的特征没有被选择;个体极值代表的是这个粒子在整个迭代过程中的最优位置,初始化为这个粒子的初始化值;全局极值是所有粒子的最优位置,初始化为整个粒子群的最优值;
S4、计算每个粒子选择的适应度值,根据这个适应度值对粒子进行排序;包括下面几个步骤:
A1:计算特征子集的等价类:
T=(U,C∪D,V,f)表示一个决策表,其中U是一个非空且有限的样本集合,称为论域;C是条件属性集合,D是决策属性集合;如果Q=C∪D,任意属性q∈Q是一个全映射fq:U→Vq,其中Vq表示属性q所有取值,称为q的值域,且V=∪q∈QVq,f=∪q∈Qfq;每一个属性子集它的不可分辨关系表示为:
I N D ( B ) = { ( x , y ) &Element; U &times; U | &ForAll; b &Element; B , f b ( x ) = f b ( y ) } ,
令x∈U,U中所有与x满足不可分辨关系IND(B)的对象构成x的一个基于属性集B的等价类[x]B={y|y∈U,(x,y)∈IND(B)};
A2:任意对象子集属性子集X的上近似集定义为:
B &OverBar; ( X ) = { x | &lsqb; x &rsqb; B &SubsetEqual; X , x &Element; U } ,
A3:任意条件属性子集U/D是由等价关系IND(D)诱导出的所有相异的等价类的集合;相对于决策属性集D的B正域定义为:
POS B ( D ) = &Sigma; X &Element; U / D B &OverBar; ( X ) ,
A4:B是一个条件属性集合,D是决策属性,D对于B的依赖度定义为:
k = &gamma; B ( D ) = | POS B ( D ) | | U | ,
通常0≤k≤1;当k=1,时,称D完全依赖于B;0<k<1时,D部分依赖于B; 当k=0时,D完全独立于B;
A5:计算每个粒子的适应度,适应度公式如下:
F i t n e s s = &alpha; * &gamma; B ( D ) + &beta; * | C | - | B | | C | ,
其中γB(D)是条件属性集B相对于决策属性集D的依赖度,|C|是总的特征数,|B|是选择的特征数;在这里,α的取值为0.9,β的取值为0.1;
A6:根据适应度的大小对粒子进行排序;
S5、对排序往前的那些粒子(在拟南芥数据集上是20%)继续使用粒子群算法进行位置和速度更新;
A1:速度更新公式如下:
vid=w×vid+c1×rand()×(pid-xid)+c2×rand()×(pgd-xid),
A1:位置更新公式如下:
xid=xid+vid,
其中第i个粒子表示为xi=(xi1,xi2,...,xid),它的飞行速度为vi=(vi1,vi2,...,vid),在每次迭代中,粒子会根据两个极值来对自己进行更新;第一个极值就是粒子本身找到的最优解Pbest,第i个粒子本身的最优解可以表示为pi=(pi1,pi2,...,pid).第二个极值是整个种群目前找到的最优解,这个极值是全局极值gbset;
S6、对排序往后的那些粒子(后80%的粒子)利用遗传算法的交叉和变异操作进行更新:
随机产生一个(0,1)之间的随机数a,当a小于交叉概率时,进行交叉操作;比如这个粒子的长度是18,生成一个1到18之间的随机树作为交叉点,下面粒子的交叉点为8,将父个体1的8后面的几位与父个体2进行交换:
A1:交叉操作:
父个体1 011111110000000000
父个体2 000000001111111111
如粗体前边位置为所选择的交叉点,那么生成的子个体为:
子个体1 011111111111111111
子个体2 000000000000000000
A1:变异操作:
比如一个粒子用以下码串表示,码长是8:
10100110
随机产生一个1到8之间的随机数k,假设k=5,将第5位的1变成0或将0变成1,得到码串:10101110
S7、对粒子的全局极值和个体极值进行更新;
S8、判断是否满足迭代要求,不满足的话转向S4,否则的话,输出全局最优粒子;
S9、根据全局最优粒子所选择的特征进行对支持向量机进行训练构建基因调控网络模型;
S10、使用构建的分类模型对验证集进行实验,得到预测的基因调控网络。
将本发明所述方法应用于表1中拟南芥数据集和表2中水稻数据集,本发明的准确率,F值和ROC面积明显高于现有方法。构建的调控网络如图2所示。
表1 拟南芥数据集的实验效果对比表
表2 水稻数据集的实验效果对比表
实施例
为使本发明的目的、技术方案和有益效果更加清晰和更易于实验,以下结合具体实施例,并参照附图,对本发明做进一步详细说明。
为了更好的说明本方法的过程,使用了以下这份简单的数据来辅助。
表3 文献中搜集的正样本集合
这是从文献中搜集的正样本的几个,格式如上面所示,第一列是代表miRNA名称,第二列代表的是miRNA的靶基因mRNA名称,第三列是miRNA作用于mRNA的靶位点,第四列是miRNA的序列,第五列是靶基因序列,第六列是靶基因序列两翼序列,第七列是类标签,类标签为1说明miRNA与对应的mRNA之间有调控作用,0表示没有调控作用;这个表是文献中搜集的具有调控关系的miRNA:mRNA对,因此这个表中的类标签都为1;
表4 数据库中5个miRNA序列
ath-miR156a-3p GCUCACUGCUCUUUCUGUCAGA
ath-miR159a UUUGGAUUGAAGGGAGCUCUA
ath-miR5021 UGAGAAGAAGAAGAAGAAAA
ath-miR157a-5p UUGACAGAAGAUAGAGAGCAC
ath-miR167a-3p GAUCAUGUUCGCAGUUUCACC
表5 数据库中mRNA的序列
表4提取的是miRNA数据库中5个miRNA的序列,表5摘取了3个mRNA的序列,有了这些信息,就可以开始下面的实验了:
步骤1、生成样本集:从文献中搜集实验验证的带有精确靶位点的(即具有调控关系的)miRNA:mRNA交互信息对,如表3所示;人工生成的miRNA是根据数据库中的miRNA中A、U、C、G所占的比例,例如表4中这些miRNA的碱基比例,统计出这些序列中A共34个,C共18个,G共27个,U共26个,总共105个,那么A占总个数的大约32%,C占17%,G占26%,U占25%,因此人工的miRNA序列就按照这种比例进行生成;因为这个实验中需要miRNA:mRNA结合的靶位点,所以使用一个靶基因预测工具psRNATarget预测这些生成的miRNA靶基因及对应的靶位点信息,表示成表3这样的形式,最后的类标签都改为-1;因为实验中需要精确的靶位点,因此使用靶基因预测工具对miRNA进行预测,得到的所有miRNA:mRNA交互信息对作为验证集;提取的特征分别为20个位点结合特征,24个结构特征和4个热力学特征;20个位点结合特征是miRNA前20位与靶基因的A:U,C:G,G:U和错配,其中A:U,C:G属于完全匹配,赋值分别为1和2,G:U属于不完全匹配赋值为3,错配为4;24个结构特征是将整个miRNA序列分为种子区域2-8位,中心区域9-11位,其它区域以及整个区域四部分,每个分别计算CG配对,AU配对,CG+AU匹 配,GU不完全匹配,错配,GU+错配6种,所以有4*6=24个特征,另外4个能量相关的特征使用Vienna RNA包中的RNAup和RNAfold计算获得;
步骤2、数据预处理及参数设置:实验中,正负样本的比例存在不平衡,负样本的比例大于正样本的比例,因此结果会出现较高的假阴性。利用经典的SMOTE方法对样本的不平衡进行处理。SMOTE算法是一种过采样算法,基本思想是通过合成的方法产生新的少数样本。合成的方法是对每一个少数类样本a,计算a与少数类样本之间的欧式距离,选取k个最短的距离作为其最近邻,文中的k值为5。然后从它的最近邻中随机选择样本b,然后在a和b之间的连线上随机选一点作为新合成的少数类样本M,公式如下所示,其中u是一个介于0和1之间的随机数,而不是简单的进行复制。最后将属性值进行离散化到[0,1]之间;
M=a+u·(b-a)
对粒子群算法的种群规模设置为特征个数48,迭代次数为100,遗传算法的概率0.2(就是对粒子群算法中排序往后的80%粒子进行遗传算法的交叉和变异操作,这个是通过对拟南芥进行实验,将遗传概率从0.1到0.9以步长0.1进行增长,结果最好的是0.2),交叉速率为0.7,变异速率为0.1。
步骤3、利用粒子群算法对特征进行选择,设置每个粒子的个体极值和全局极值:每一个粒子是一个48维的向量,每一维对应一个特征,每一维的值要么是1,要么是0。1表示对应的特征被选择了,0表示对应的特征没有被选择;个体极值代表的是这个粒子在整个迭代过程中的最优位置,初始化为这个粒子的初始化值。全局极值是所有粒子的最优位置,初始化为整个粒子群的最优值。
步骤4、计算每个粒子选择的适应度值,根据这个适应度值对粒子进行排序;包括下面几个步骤:
A1:计算特征子集的等价类:
T=(U,C∪D,V,f)表示一个决策表,其中U是一个非空且有限的样本集合,称为论域;C是条件属性集合,D是决策属性集合;如果Q=C∪D,任意属性q∈Q是一个全映射fq:U→Vq,其中Vq表示属性q所有取值,称为q的值域,且V=∪q∈QVq,f=∪q∈Qfq;每一个属性子集它的不可分辨关系表示为:
I N D ( B ) = { ( x , y ) &Element; U &times; U | &ForAll; b &Element; B , f b ( x ) = f b ( y ) } ,
令x∈U,U中所有与x满足不可分辨关系IND(B)的对象构成x的一个基于属性集B的等价类[x]B={y|y∈U,(x,y)∈IND(B)}。
A2:任意对象子集属性子集X的上近似集定义为:
B &OverBar; ( X ) = { x | &lsqb; x &rsqb; B &SubsetEqual; X , x &Element; U } ,
A3:任意条件属性子集U/D是由等价关系IND(D)诱导出的所有相异的等价类的集合;相对于决策属性集D的B正域定义为:
POS B ( D ) = &cup; X &Element; U / D B &OverBar; ( X ) ,
A4:B是一个条件属性集合,D是决策属性,D对于B的依赖度定义为:
k = &gamma; B ( D ) = | POS B ( D ) | | U | ,
通常0≤k≤1。当k=1,时,称D完全依赖于B;0<k<1时,D部分依赖于B;当k=0时,D完全独立于B;
A5:计算每个粒子的适应度,适应度公式如下:
F i t n e s s = &alpha; * &gamma; B ( D ) + &beta; * | C | - | B | | C | ,
其中γB(D)是条件属性集B相对于决策属性集D的依赖度,|C|是总的特征数,|B|是选择的特征数。在这里,α的取值为0.9,β的取值为0.1;
A6:根据适应度的大小对粒子进行排序;
步骤5、对排序往前的那些粒子(在拟南芥数据集上是20%)继续使用粒子群算法进行位置和速度更新;
A1:速度更新公式如下:
vid=w×vid+c1×rand()×(pid-xid)+c2×rand()×(pgd-xid),
A1:位置更新公式如下:
xid=xid+vid,
其中第i个粒子表示为xi=(xi1,xi2,...,xid),它的飞行速度为vi=(vi1,vi2,...,vid),在每次迭代中,粒子会根据两个极值来对自己进行更新;第一个极值就是粒子本身找到的最优解Pbest,第i个粒子本身的最优解可以表示为pi=(pi1,pi2,...,pid).第二个极值是整个种群目前找到的最优解,这个极值是全局极值gbset。
步骤6、对排序往后的那些粒子(后80%的粒子)利用遗传算法的交叉和变异操作进行更新:
随机产生一个(0,1)之间的随机数a,当a小于交叉概率时,进行交叉操作;比如这个粒子的长度是18,生成一个1到18之间的随机树作为交叉点,下面粒子的交叉点为8,将父个体1的8后面的几位与父个体2进行交换:
A1:交叉操作:
父个体1 011111110000000000
父个体2 000000001111111111
如粗体前边位置为所选择的交叉点,那么生成的子个体为:
子个体1 011111111111111111
子个体2 000000000000000000
A1:变异操作:
比如一个粒子用下列式子表示,码长是8:
10100110
随机产生一个1到8之间的随机数k,假设k=5,将第5位的1变成0或将0变成1,得到码串:10101110
步骤7、对粒子的全局极值和个体极值进行更新。
步骤8、判断是否满足迭代要求,不满足的话转向S4,否则的话,输出全局最优粒子。
步骤9、根据全局最优粒子所选择的特征进行对支持向量机进行训练构建基因调控网络模型。
步骤10、使用构建的分类模型对验证集进行实验,得到预测的基因调控网络。
以上内容是结合具体的优选技术方案对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (4)

1.一种融合粒子群和遗传算法的基因调控网络构建方法,其特征在于,包括以下步骤:
S1、构建样本集:所述样本集包括正样本和负样本,所述正样本搜集来自文献中的具有调控关系的miRNA:mRNA交互信息对;负样本通过人工生成的假阳性miRNA:mRNA交互信息对组成,使用靶基因预测工具用来生成假阳性miRNA的靶基因作为训练集的负样本;使用靶基因预测工具对miRNA进行预测,得到的所有miRNA:mRNA交互信息对作为验证集;提取正样本和负样本的N维特征,所述特征包括位点结合特征、结构特征和热力学特征;
S2、数据预处理及参数设置:利用SMOTE方法使正样本与负样本的比例平衡;对所提取的特征进行离散化和标准化处理;
S3、利用粒子群算法对粒子的特征进行选择,设置粒子群中每个粒子的个体极值和全局极值:将每一个粒子表示为N维向量,每一维对应一个特征,每一维的值为1或0;1表示对应的特征被选择了,0表示对应的特征没有被选择;每个粒子所选中的特征构成每个粒子的特征子集;个体极值为粒子在整个迭代过程中的最优位置,初始化为粒子的初始化值;全局极值为所有粒子的最优位置,初始化为整个粒子群的最优值;
S4、计算每个粒子的特征子集的适应度,根据适应度进行排序:包括下面几个步骤:
A1:计算每个粒子的特征子集的等价类:
T=(U,C∪D,V,f)表示一个决策表,其中U是一个非空且有限的样本集合,称为论域;C是条件属性集合,D是决策属性集合;如果Q=C∪D,任意属性q∈Q是一个全映射fq:U→Vq,其中Vq表示属性q所有取值,称为q的值域,且V=∪q∈QVq,f=∪q∈Qfq;每一个属性子集它的不可分辨关系表示为:
令x∈U,U中所有与x满足不可分辨关系IND(B)的对象构成x的一个基于属性集B的等价类[x]B={y|y∈U,(x,y)∈IND(B)}。
A2:任意对象子集属性子集X的上近似集为:
A3:任意条件属性子集U/D是由等价关系IND(D)诱导出的所有相异的等价类的集合;相对于决策属性集D的B正域定义为:
A4:B是一个条件属性集合,D是决策属性,D对于B的依赖度定义为:
通常0≤k≤1。当k=1,时,称D完全依赖于B;0<k<1时,D部分依赖于B;当k=0时,D完全独立于B;
A5:计算每个粒子的适应度,适应度公式如下:
其中γB(D)是条件属性集B相对于决策属性集D的依赖度,|C|是总的特征数,|B|是选择的特征数。在这里,α的取值为0.9,β的取值为0.1;
A6:根据适应度的大小对粒子进行排序;
S5、对排序在预设概率之前的粒子继续使用粒子群算法进行位置和速度更新:
A1:速度更新公式如下:
vid=w×vid+c1×rand()×(pid-xid)+c2×rand()×(pgd-xid),
A1:位置更新公式如下:
xid=xid+vid,
其中第i个粒子表示为xi=(xi1,xi2,...,xid),它的飞行速度为vi=(vi1,vi2,...,vid),在每次迭代中,粒子根据两个极值来对自己进行更新;第一个极值就是粒子本身找到的最优解Pbest,第i个粒子本身的最优解可以表示为pi=(pi1,pi2,...,pid).第二个极值是整个种群目前找到的最优解,这个极值是全局极值gbset;
S6、对排序在预设概率之后的粒子利用遗传算法的交叉和变异操作进行更新:
S7、对粒子的个体极值和全局极值进行更新:
S8、判断是否满足迭代要求,不满足的话转向S4,否则的话,输出全局最优粒子:
S9、根据全局最优粒子所选择的特征进行对支持向量机进行训练构建基因调控网络模型:
S10、使用构建的基因调控网络模型对验证集进行实验,得到预测的基因调控网络。
2.根据权利要求1所述的一种融合粒子群和遗传算法的基因调控网络构建方法,其特征在于,SMOTE算法是通过合成的方法产生新的少数样本;所述合成的方法是对每一个少数类样本a,计算a与少数类样本之间的欧式距离,选取k个最短的距离作为其最近邻;然后从它的最近邻中随机选择样本b,然后在a和b之间的连线上随机选一点作为新合成的少数类样本M,公式如下所示,其中u是一个介于0和1之间的随机数;最后将属性值进行离散化到[0,1]之间;
M=a+u·(b-a)。
3.根据权利要求1所述的一种融合粒子群和遗传算法的基因调控网络构建方法,其特征在于,对粒子群算法的种群规模设置为特征个数N,迭代次数为 100。
4.根据权利要求1所述的一种融合粒子群和遗传算法的基因调控网络构建方法,其特征在于,k为5。
CN201610346242.5A 2016-05-23 2016-05-23 一种融合粒子群和遗传算法的基因调控网络构建方法 Active CN106022473B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610346242.5A CN106022473B (zh) 2016-05-23 2016-05-23 一种融合粒子群和遗传算法的基因调控网络构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610346242.5A CN106022473B (zh) 2016-05-23 2016-05-23 一种融合粒子群和遗传算法的基因调控网络构建方法

Publications (2)

Publication Number Publication Date
CN106022473A true CN106022473A (zh) 2016-10-12
CN106022473B CN106022473B (zh) 2019-03-05

Family

ID=57096616

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610346242.5A Active CN106022473B (zh) 2016-05-23 2016-05-23 一种融合粒子群和遗传算法的基因调控网络构建方法

Country Status (1)

Country Link
CN (1) CN106022473B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106951728A (zh) * 2017-03-03 2017-07-14 江苏大学 一种基于粒子群优化和打分准则的肿瘤关键基因识别方法
CN107679368A (zh) * 2017-09-11 2018-02-09 宁夏医科大学 基于遗传算法和变精度粗糙集的pet/ct高维特征级选择方法
CN107943818A (zh) * 2017-10-09 2018-04-20 中国电子科技集团公司第二十八研究所 一种基于多源信息融合的城市数据服务系统及方法
CN108090513A (zh) * 2017-12-19 2018-05-29 天津科技大学 基于粒子群算法和典型关联分析法的多生物特征融合算法
CN108629155A (zh) * 2018-05-14 2018-10-09 浙江大学 一种参数最优的白血病癌细胞检测仪
CN109034853A (zh) * 2017-06-09 2018-12-18 北京京东尚科信息技术有限公司 基于种子用户寻找相似用户方法、装置、介质和电子设备
CN109451012A (zh) * 2018-11-01 2019-03-08 宜通世纪物联网研究院(广州)有限公司 一种端云协同负载均衡调度方法、系统及存储介质
CN110046799A (zh) * 2019-03-08 2019-07-23 阿里巴巴集团控股有限公司 决策优化方法及装置
CN110991518A (zh) * 2019-11-28 2020-04-10 山东大学 一种基于进化多任务的两阶段特征选择方法及系统
CN111477271A (zh) * 2019-12-13 2020-07-31 南京理工大学 基于有监督自组织映射神经网络的microRNA预测方法
CN111784260A (zh) * 2020-07-14 2020-10-16 国网北京市电力公司 运输规划方法、装置、存储介质及处理器
CN114093426A (zh) * 2021-11-11 2022-02-25 大连理工大学 基于基因调控网络构建的标志物筛选方法
CN114446472A (zh) * 2021-12-14 2022-05-06 新绎健康科技有限公司 一种十二经络区间优化方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101763528A (zh) * 2009-12-25 2010-06-30 深圳大学 基于贝叶斯网络的基因调控网络构建方法
CN102013039A (zh) * 2010-12-01 2011-04-13 杭州师范大学 一种基于动态贝叶斯网络的基因调控网络构建方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101763528A (zh) * 2009-12-25 2010-06-30 深圳大学 基于贝叶斯网络的基因调控网络构建方法
CN102013039A (zh) * 2010-12-01 2011-04-13 杭州师范大学 一种基于动态贝叶斯网络的基因调控网络构建方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ADDO-QUAYE C ETAL.: "Endogenous siRNA and miRNA targets identified by sequencing of the Arabidopsis degradome", 《CURRENT BIOLOGY》 *
YE B ETAL.: "Generating extended fuzzy basis function networks using hybrid algorithm", 《PROCEEDINGS OF THE SECOND INTERNATIONAL CONFERENCE ON FUZZY SYSTEMS AND KNOWLEDGE DISCOVERY》 *
倪晓红 等: "融合多数据源的非平稳动态贝叶斯网络学习算法", 《小型微型计算机系统》 *
孟军 等: "基于多特征融合的基因调控网络构建方法研究", 《小型微型计算机系统》 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106951728B (zh) * 2017-03-03 2020-08-28 江苏大学 一种基于粒子群优化和打分准则的肿瘤关键基因识别方法
CN106951728A (zh) * 2017-03-03 2017-07-14 江苏大学 一种基于粒子群优化和打分准则的肿瘤关键基因识别方法
CN109034853A (zh) * 2017-06-09 2018-12-18 北京京东尚科信息技术有限公司 基于种子用户寻找相似用户方法、装置、介质和电子设备
CN107679368A (zh) * 2017-09-11 2018-02-09 宁夏医科大学 基于遗传算法和变精度粗糙集的pet/ct高维特征级选择方法
CN107943818A (zh) * 2017-10-09 2018-04-20 中国电子科技集团公司第二十八研究所 一种基于多源信息融合的城市数据服务系统及方法
CN108090513A (zh) * 2017-12-19 2018-05-29 天津科技大学 基于粒子群算法和典型关联分析法的多生物特征融合算法
CN108629155A (zh) * 2018-05-14 2018-10-09 浙江大学 一种参数最优的白血病癌细胞检测仪
CN109451012A (zh) * 2018-11-01 2019-03-08 宜通世纪物联网研究院(广州)有限公司 一种端云协同负载均衡调度方法、系统及存储介质
CN110046799B (zh) * 2019-03-08 2021-09-10 创新先进技术有限公司 决策优化方法及装置
CN110046799A (zh) * 2019-03-08 2019-07-23 阿里巴巴集团控股有限公司 决策优化方法及装置
CN110991518A (zh) * 2019-11-28 2020-04-10 山东大学 一种基于进化多任务的两阶段特征选择方法及系统
CN110991518B (zh) * 2019-11-28 2023-11-21 山东大学 一种基于进化多任务的两阶段特征选择方法及系统
CN111477271A (zh) * 2019-12-13 2020-07-31 南京理工大学 基于有监督自组织映射神经网络的microRNA预测方法
CN111477271B (zh) * 2019-12-13 2022-09-30 南京理工大学 基于有监督自组织映射神经网络的microRNA预测方法
CN111784260A (zh) * 2020-07-14 2020-10-16 国网北京市电力公司 运输规划方法、装置、存储介质及处理器
CN114093426A (zh) * 2021-11-11 2022-02-25 大连理工大学 基于基因调控网络构建的标志物筛选方法
CN114093426B (zh) * 2021-11-11 2024-05-07 大连理工大学 基于基因调控网络构建的标志物筛选方法
CN114446472A (zh) * 2021-12-14 2022-05-06 新绎健康科技有限公司 一种十二经络区间优化方法

Also Published As

Publication number Publication date
CN106022473B (zh) 2019-03-05

Similar Documents

Publication Publication Date Title
CN106022473B (zh) 一种融合粒子群和遗传算法的基因调控网络构建方法
CN107169504B (zh) 一种基于扩展非线性核残差网络的手写字符识别方法
CN111553399A (zh) 特征模型训练方法、装置、设备及存储介质
CN109635291A (zh) 一种基于协同训练的融合评分信息和物品内容的推荐方法
CN106355192A (zh) 一种基于混沌灰狼优化的支持向量机方法
CN106897821A (zh) 一种暂态评估特征选择方法及装置
CN108319984B (zh) 基于dna甲基化水平的木本植物叶片表型特征和光合特性预测模型的构建方法及预测方法
CN104166731A (zh) 一种社交网络重叠社区发现系统及其方法
CN106372748A (zh) 一种硬岩掘进机的掘进效率预测方法
CN106934722A (zh) 基于k节点更新与相似度矩阵的多目标社区检测方法
CN105550715A (zh) 一种基于近邻传播聚类的集成分类器构建方法
CN110225055A (zh) 一种基于knn半监督学习模型的网络流量异常检测方法与系统
CN102750286A (zh) 一种处理缺失数据的新型决策树分类器方法
Zhao et al. Improved multiple-objective dynamic programming model for reservoir operation optimization
CN102254020A (zh) 基于特征权重的全局k-均值聚类方法
CN102254033A (zh) 基于熵权重的全局k-均值聚类方法
CN103971136A (zh) 一种面向大规模数据的并行结构化支持向量机分类方法
CN108875034A (zh) 一种基于层次化长短期记忆网络的中文文本分类方法
CN107862457B (zh) 一种水库分期调度规则提取方法
CN109543247A (zh) 基于nsga-ⅱ的模拟集成电路参数优化设计方法及装置
CN105631464B (zh) 对染色体序列和质粒序列进行分类的方法及装置
CN104966106A (zh) 一种基于支持向量机的生物年龄分步预测方法
CN104809229B (zh) 一种文本特征词提取方法及系统
Chu et al. Co-training based on semi-supervised ensemble classification approach for multi-label data stream
CN109345684A (zh) 一种基于gmdh-svm的多国纸币冠字号识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant