CN106951728A

CN106951728A - 一种基于粒子群优化和打分准则的肿瘤关键基因识别方法

Info

Publication number: CN106951728A
Application number: CN201710122524.1A
Authority: CN
Inventors: 韩飞; 唐迪; 程准; 李秋玮; 凌青华; 周从华; 崔宝祥
Original assignee: Jiangsu University
Current assignee: Jiangsu University
Priority date: 2017-03-03
Filing date: 2017-03-03
Publication date: 2017-07-14
Anticipated expiration: 2037-03-03
Also published as: CN106951728B

Abstract

本发明公开了一种基于粒子群优化和打分准则的肿瘤关键基因识别方法，包括定义一种基因打分准则来获取基因分类能力信息以过滤于肿瘤类别低相关的基因；结合基因分类能力信息利用Metropolis准则改进粒子群PSO算法以实现肿瘤关键基因的识别。本发明基因分类信息和改进PSO的新方法克服了传统的基于PSO识别肿瘤关键基因方法易于陷入局部最优解的缺点，并能选出数目更少且与肿瘤类别高度相关的基因子集，从而有助于提高后续的肿瘤识别。

Description

一种基于粒子群优化和打分准则的肿瘤关键基因识别方法

技术领域

本发明属于肿瘤基因表达谱数据的计算机分析技术的应用领域，具体涉及一种基于粒子群优化和打分准则的肿瘤关键基因识别方法。

背景技术

近几年的统计研究表明，肿瘤已成为危害人类健康的主要疾病之一，其患病率逐年递增，肿瘤的不同亚型对治疗手段有很大区别，因此对肿瘤的分类和亚型判别是疾病能否治愈的首要关键。然而研究表明，肿瘤的治病基因通常为少量的几个至几十个，而微阵列数据高维小样本的特点成为筛选致病基因的巨大挑战，因此从几千万个基因中挑选出疾病的特征基因是要解决的关键问题。

关键基因识别即通过数据分析手段，从成千上万个基因中准确挑选出那些与肿瘤类型和亚型相关的基因，以便于建立准确的分类模型。常见的基因选择方法有很多，通常分为三类：过滤法、缠绕法和嵌入法，其主要区别在于是否有分类器的参与。随着研究的深入，进化算法逐渐被引用到基因选择中来，如遗传算法，模拟退火算法，蚁群算法和粒子群算法等。

相比于其它算法，粒子群算法PSO简便，高效，易于收敛于全局最优解的优点使它受到大量学者的青睐。PSO具有无复杂的遗传操作，可调参数少，易于实现等优点，因此近年来它广泛应用于肿瘤表达谱数据的关键基因识别上。(1)传统PSO简单用于肿瘤表达谱数据的关键基因识别。Yang等(A hybrid feature selection method for microarrayclassification)和Shen等(A combination of modified particle swarm optimizationand support vector machine for gene selection and tumor classification)采用二进制PSO(BPSO)进行基因选择，该类方法虽然能选出与肿瘤类别相关的基因子集，但是选出的基因缺乏生物学上的解释。(2)在BPSO-ELM方法中，采用ELM方法对BPSO遴选的最佳基因子集进行评价，Han等(A Novel Strategy for Gene Selection of Microarray DataBased on Gene-to-Class Sensitivity Information)根据评价结果选取相关子集。(3)采用KMeans-PSO-ELM方法，将传统PSO结合KMeans的聚类思想，应用于基因选择上，并利用ELM方法对样本进行分类，Yang等(A Hybrid Gene Selection and Classification Approachfor Microarray Data Based on Clustering and PSO)KMeans-PSO-ELM采用了少量的数据获得了极高的分类效果。然而，以上方法中PSO算法容易陷入局部极小点从而导致选出肿瘤关键基因子集偏大、分类性能有待提高且缺乏可解释性。因此，本发明提出一种打分规则获取各基因的分类能力信息，然后将该信息编码进粒子群优化算法中实现肿瘤关键基因的识别，从而有效克服传统基于粒子群优化的肿瘤关键基因识别方法。

发明内容

发明目的：提出一种基于粒子群优化和打分准则的肿瘤关键基因识别方法，该方法能识别出紧凑的与肿瘤类别高度相关的基因子集，且选出的基因子集具有较强的可解释性。

技术方案：

一种基于粒子群优化和打分准则的肿瘤关键基因识别方法，包括通过半初始化和Metropolis准则对粒子群算法(Particle Swarm Optimization,PSO)进行优化，以及利用ELM极限学习机作为评价基因子集分类正确率的分类器，得出算法分类性能的量化数据的步骤，包括下列步骤：

步骤1肿瘤基因表达谱数据的预处理，包括肿瘤基因表达谱数据集的归一化和初步降维，同时将肿瘤基因表达谱数据集划分为训练集和测试集；

步骤2定义打分准则结合极端学习机对各基因进行评价，并筛选出得分靠前的基因建立备选基因库；

步骤3结合基因打分信息，利用粒子群优化从备选基因库中筛选出最优的肿瘤关键基因子集；

进一步，所述步骤1中包含下列步骤：

步骤1.1利用“信噪比”指标及对样本的分类贡献构建分类信息指数；

步骤1.2利用步骤1.1的方法删选出200-400个基因；

步骤1.3将删选出的基因组合，构成基因集合。

进一步，所述步骤2中包含下列步骤：

步骤2.1基于有效的基因评价集合对每个基因进行打分，其中每个基因的分数由2个部分组成:

从基因集合1：基因集合α循环执行：

在score1打分准则中，若该基因集合含有此基因，则：

score1＝score1+α-R (1)其中R为该集合按适应度值的排名。

若该基因集合不包含有此基因，则：

score1＝score1+0 (2)

在score2打分准则中，若该基因集合含有此基因，则：

score2＝score2+1 (3)

若该基因集合不包含有此基因，则：

score2＝score2+0 (4)

根据上述方法计算出所有基因的score1和score2,并对所有基因的score1和score2进行归一化处理，得到S1和S2。则第i个基因的最终得分为:

Score(i)＝S1(i)+S2(i) (5)

步骤2.2根据每个基因的最终得分由高到低排序，选取得分较高的前40个基因，将这些基因的集合称为有效基因集合。

进一步，所述步骤3中包含下列步骤：

步骤3.1定义适应度函数：

fitness(i)＝100-100*cvaccuary(i) (6)

其中cvaccuary(i)表示第i个粒子在验证集上的ELM分类准确率；

步骤3.2计算所有基因集合的适应度值，设置一个适应度阈值θ_ac，根据(7)中小于θ_ac的基因集合选出来，这些集合称为有效的基因评价集合，并对这些集合依据适应度值由低到高排序:

v_ij(t+1)＝ωv_ij(t)+c₁r_1j(t)(p_ij(t)-x_ij(t))+c₂r_2j(t)(p_ij(t)-x_ij(t)) (7)

步骤3.3在第i+1次粒子迭代时的最优值P_best的更新公式如下：

当f(X_i+1)-f(P_best(i))≥ε时，

P_best(i)＝X_i+1 (8)

当f(X_i+1)-f(P_best(i))＜ε时，

P_best(i+1)以的概率接受公式(8) (9)

T的更新准则为：

其中T₀和T_end分别为T的初始值和最终值；I_max为最大迭代次数，I为当前迭代次数。

步骤3.4计算新的粒子最优适应度值g，全局最优适应度值z；

步骤3.5利用公式(8)和公式(9)选出当前历史最优解(包括每个粒子的最优解，以及全局最优解)。

步骤3.6对每个粒子只计算2次分类准确率，并取均值作为适应度值

若F_Z≤F_Min(F_Min是已设置好的最小适应度值)，则再计算20次样本随机初始化5折cv错误率，若20次的均值AVG≤F_Min，则终止程序，输出该粒子对应的基因集合

若F_Z＞F_Min，则将20次的均值代替原先2次的均值作为该粒子的适应度值。

步骤3.7判断是否符合实验条件：I≤I_max，F_Z≤F_Min,(F_Min为设定的适应度函数阈值)若符合，则输出基因子集及适应度值，否则继续执行判断；

步骤3.8重新生成粒子，重复步骤3继续实验。

有益效果：高维小样本的肿瘤基因表达谱数据存在变异和噪声，使得大量有用信息被隐藏，传统的仅耦合某一类先验约束的关键基因识别方法会遗漏部分与肿瘤类别高度相关的基因。同时传统方法因单个PSO容易陷入局部极小点，从而导致选出的基因子集非最佳。本发明首先在IIC分类信息指数的基础上，利用随机抽样生成基因集合，结合ELM计算生成的基因集合的分类准确率，利用本文提出的打分准则对每个基因的分类能力进行打分、排序；该打分准则有效的利用了基因与分类准确率的相关性，能够有效地删除大量的冗余基因和噪声，并筛选出了与样本类别密切相关的备选基因库；其次利用Metropolis准则结合基因打分信息改进PSO算法，该准则通过以一定概率接收比最优解差的当前解，使得PSO算法以一定概率跳出局部最优解，摆脱局部最优值从而准确地筛选出紧凑的、与肿瘤类别高度相关的基因子集，有助于提高后续的肿瘤亚型识别。

附图说明

图1是本发明的结构框图；

图2是本发明中对基因打分，删选出基因，组合构成基因集合的结构框图；

图3是本发明中采用ELM方法，通过调节θ_ac改变分类精确度的折线图；

图4是本发明中数据集SRBCT的热点图；

具体实施方式

所述步骤1中包含下列步骤：

步骤1.2利用步骤1.1的方法删选出200-400个基因；

步骤1.3将删选出的基因组合，构成基因集合。

所述步骤2中包含下列步骤：

从基因集合1：基因集合α循环执行：

在score1打分准则中，若该基因集合含有此基因，则：

score1＝score1+α-R (1)其中R为该集合按适应度值的排名。

若该基因集合不包含有此基因，则：

score1＝score1+0 (2)

在score2打分准则中，若该基因集合含有此基因，则：

score2＝score2+1 (3)

若该基因集合不包含有此基因，则：

score2＝score2+0 (4)

Score(i)＝S1(i)+S2(i) (5)

所述步骤3中包含下列步骤：

步骤3.1定义适应度函数：

fitness(i)＝100-100*cvaccuary(i) (6)

其中cvaccuary(i)表示第i个粒子在验证集上的ELM分类准确率；

步骤3.3在第i+1次粒子迭代时的最优值P_best的更新公式如下：

当f(X_i+1)-f(P_best(i))≥ε时，

P_best(i)＝X_i+1 (8)

当f(X_i+1)-f(P_best(i))＜ε时，

P_best(i+1)以的概率接受公式(8) (9)

T的更新准则为：

步骤3.4计算新的粒子最优适应度值g，全局最优适应度值z；

步骤3.8重新生成粒子，重复步骤3继续实验。

传统的PSO因未考虑任何先验信息而容易陷入局部极优，从而不能有效识别肿瘤关键基因子集，本发明通过打分准则获取各基因的分类能力信息，并将此信息编码进PSO中实现肿瘤关键基因的筛选，克服了传统基于PSO的肿瘤关键基因识别方法的缺陷，有效准确地对肿瘤关键基因进行识别，从而有利于提高后续肿瘤识别准确性。

下面以肿瘤基因表达谱数据为例，简单地说明本发明的执行过程。本实例选择的是SRBCT数据集，该数据集为一种多类样本。儿童小圆蓝细胞癌(SRBCT)数据集有83个样本，分为四类：29个ewing faming of tumors(EWS)样本，11个burkitt lymphoma(BL)样本，18个neuroblastoma(NB)样本和25个rhabdomyosarcoma(RMS)样本。每个样本包含2308个基因，数据集来源于http://www.biomedcentral.com/content/supplementary/1471-2105-7-228-S4.tgz。在上述的数据集上，本发明的具体执行步骤如下：

如图1所示，一种基于粒子群优化和打分准则的肿瘤关键基因识别方法，包括通过半初始化和Metropolis准则对粒子群算法(Particle Swarm Optimization,PSO)进行优化，以及利用ELM极限学习机作为评价基因子集分类正确率的分类器，得出算法分类性能的量化数据的步骤，包括以下步骤：

(1)如图2所示，利用分类信息指数(information index to classification,IIC)进行基因粗提取，删选出200-400个基因，并将删选出的基因组合，构成基因集合。

(2)在训练集上，基于有效的基因评价集合对每个基因进行打分，计算出所有基因的score1和score2,并进行归一化处理，得到S1和S2，计算最终得分后，根据每个基因的最终得分由高到低排序，选取得分较高的前40个基因，将这些基因的集合称为有效基因集合。

(3)根据式(6)计算所有基因集合的适应度值，设置一个适应度阈值θ，根据(7)中小于θ的基因集合选出来，如图3这些集合称为有效的基因评价集合，并对这些集合依据适应度值由低到高排序。

(4)在训练集上，设定粒子群数量为60，最大迭代次数为20，初始化c₁、c₂为1.49445，惯性权重在[0.4,0.9]中逐步递减，计算新的粒子最优适应度值g，全局最优适应度值z，并利用公式(8)和公式(9)选出当前历史最优解(包括每个粒子的最优解，以及全局最优解)。

(5)对每个粒子只计算2次分类准确率，并取均值作为适应度值，根据比较情况判断是否符合实验条件I≤I_max，F_Z≤F_Min,若符合，则输出基因子集及适应度值，否则重新生成粒子，跳到步骤3继续实验。

表1采用了ELM作为分类器来评价通过本发明选出的数据集的基因集合，对该集合重复运行200次计算相应的准确率并求取均值。通过在该数据集上的多次实验选出了高分类性能的基因集合。

表1 SRBCT在不同基因集合上的ELM分类准确率

表2给出了本发明实施例中对SRBCT数据集进行500次独立重复的实验，选出的基因集合中出现基因频次最高的10个基因

表2本发明在SRBCT数据集上选中频次最高的10个基因

由表2可以看出基因812105、基因796258、基因325182、基因1435862、及基因624360都曾被其他文献选出过，其中除基因624360外其他四个基因均被多个文献选中。对比表1中的基因集合，基因812105和基因796258在4个具有高分类性能的集合中出现了3次，表明该基因在SRBCT数据集的亚型分类中起到重要作用。

表2中的多个基因被多个文献选中，证明这些基因在基因分类中的重要作用。利用频率前10的基因得到数据集SRBCT的热点图，可以更直观地看到每个基因对于分类的作用效果，如图4所示。

为了进一步验证本发明的可行性，将本发明的结果同其他两种方法进行对比。这两种方法均是利用ELM作为分类器。BPSO-ELM和KMeans-BPSO-ELM未对原始数据进行预处理。每种方法独立重复100次实验，对选择的基因子集进行5-折交叉验证，实验对比结果见表4。

表4三种基因选择方法所选基因子集上的ELM分类器返回的5-折CV分类准确率

表4中的三种方法都具有较高的准确率和较低的冗余度，在两个数据集上，BPSO-ELM和KMeans-BPSO-ELM相比其他三种方法结果较差，原因在于BPSO-ELM缺少预处理存在大量冗余基因干扰了选择，KMeans-BPSO-ELM利用聚类方法并不能起到删除冗余的效果。本发明相比BPSO-ELM和KMeans-BPSO-ELM这两种方法在SRBCT数据集上效果有明显提高，表明本发明的基因预处理方法以及PSO算法的改进更加有效。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种基于粒子群优化和打分准则的肿瘤关键基因识别方法，其特征在于，包括下列步骤：

步骤3结合基因打分信息，利用粒子群优化从备选基因库中筛选出最优的肿瘤关键基因子集。

2.根据权利要求1所述的基于粒子群优化和打分准则的肿瘤关键基因识别方法，其特征在于，所述步骤1中包含下列步骤：

步骤1.2利用步骤1.1的方法删选出200-400个基因；

步骤1.3将删选出的基因组合，构成基因集合。

3.根据权利要求1所述的基于粒子群优化和打分准则的肿瘤关键基因识别方法，其特征在于，所述步骤2中包含下列步骤：

从基因集合1：基因集合α循环执行：

在score1打分准则中，若该基因集合含有此基因，则：

score1＝score1+α-R (1)

其中R为该集合按适应度值的排名；

若该基因集合不包含有此基因，则：

score1＝score1+0 (2)

在score2打分准则中，若该基因集合含有此基因，则：

score2＝score2+1 (3)

若该基因集合不包含有此基因，则：

score2＝score2+0 (4)

根据上述方法计算出所有基因的score1和score2，并对所有基因的score1和score2进行归一化处理，得到S1和S2；则第i个基因的最终得分为：

Score(i)＝S1(i)+S2(i) (5)

4.根据权利要求1所述的基于粒子群优化和打分准则的肿瘤关键基因识别方法，其特征在于，所述步骤3中包含下列步骤：

步骤3.1定义适应度函数：

fitness(i)＝100-100*cvaccuary(i) (6)

其中cvaccuary(i)表示第i个粒子在验证集上的ELM分类准确率；

步骤3.2计算所有基因集合的适应度值，设置一个适应度阈值θ_ac，根据(7)中小于θ_ac的基因集合选出来，这些集合称为有效的基因评价集合，并对这些集合依据适应度值由低到高排序：

步骤3.3在第i+1次粒子迭代时的最优值P_best的更新公式如下：

当f(X_i+1)-f(P_best(i))≥ε时，

P_best(i)＝X_i+1 (8)

当f(X_i+1)-f(P_best(i))＜ε时，

T的更新准则为：

T = T_{0} - \frac{I}{I_{\max}} (T_{0} - T_{e n d}) - - - (10)

其中T₀和T_end分别为T的初始值和最终值；I_max为最大迭代次数，I为当前迭代次数；

步骤3.4计算新的粒子最优适应度值g，全局最优适应度值z；

步骤3.5利用公式(8)和公式(9)选出当前历史最优解，包括每个粒子的最优解，以及全局最优解；

步骤3.6对每个粒子只计算2次分类准确率，并取均值作为适应度值；

若F_Z≤F_Min，F_Min是已设置好的最小适应度值，则再计算20次样本随机初始化5折cv错误率，若20次的均值AVG≤F_Min，则终止程序，输出该粒子对应的基因集合；

若F_Z＞F_Min，则将20次的均值代替原先2次的均值作为该粒子的适应度值；

步骤3.7判断是否符合实验条件：I≤I_max，F_Z≤F_Min,，F_Min为设定的适应度函数阈值，若符合，则输出基因子集及适应度值，否则继续执行；

步骤3.8重新生成粒子，重复步骤3继续实验。