CN104598774A

CN104598774A - 基于logistic与相关信息熵的特征基因选择方法

Info

Publication number: CN104598774A
Application number: CN201510057261.1A
Authority: CN
Inventors: 徐久成; 李涛; 孙林; 孟慧丽; 马媛媛; 张倩倩; 徐天贺; 胡玉文; 李晓艳; 冯森
Original assignee: Henan Normal University
Current assignee: Henan Normal University
Priority date: 2015-02-04
Filing date: 2015-02-04
Publication date: 2015-05-06

Abstract

本发明公开了一种基于logistic与相关信息熵新的特征基因选择方法，包括以下步骤：对数据集进行logistic回归，获得对分类影响较大的基因变量，利用Relief算法对基因变量赋值并排序，向初始特征基因集合添加最大特征值基因，计算相关信息熵。本发明将机器学习中的logistic回归模型引入特征基因选择方法中，获得高质量的基因表达谱；利用相关信息熵度量基因变量之间的相关性，剔除冗余基因，通过搜索特征基因空间集获取分类能力较强且基因数目较少的特征基因子集。

Description

基于logistic与相关信息熵的特征基因选择方法

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于logistic与相关信息熵的特征基因选择方法。

背景技术

随着大规模基因表达谱技术的发展，基因表达数据的分析与建模已经成为生物信息学研究领域中的重要课题。基因表达数据具有高维小样本的特点，对学习分类造成严重的影响，因此需采用某种优化算法从基因表达谱数据的所有属性中选择出一个最具有疾病识别能力的特征基因子集，选择出的基因子集在癌症识别过程中起着重要的作用。由于“高维小样本”的特点，常用的数据挖掘中的很多分类器对训练数据样本有较高的分类正确率，但是它们对未见过的测试数据表现的诊断正确率有可能很差。有些基因在功能上具有相似性，还有些基因对区分疾病类型无关或者所起的作用微乎其微，因此在数据分析中其特征的选择方法往往比分类器的选择更重要。如果某基因在不同类别样本中的表达值有明显区别，那么该基因就很可能对疾病的诊断预测，很强的鉴别力。如何利用这种具有高维、高相关、高噪音、数量有限的基因芯片数据，识别出对疾病有鉴别意义的特征基因组，这对数据挖掘研究提出了新的课题，并成为目前基因表达数据处理和分析的热点研究问题。logistic回归模型是一种线性回归模型，它克服传统方法在选择模型上的不足，避免了因离散化而造成信息丢失，具有简单有效、鲁棒性等特点；而相关信息熵可以解决基因之间存在较强的冗余问题，防止样本数据与模型出现过拟合。

一个好的基于基因数据表达谱的特征选择方法应具有：(1)能够包含基因间的相互作用的信息；(2)基因选择的标准应该基于基因组的表现性能而不是个别单独基因与分类的相关性；(3)所选择基因里应当包含那些对疾病鉴别或疾病分类辅助作用的基因；(4)所选择的基因应该是与疾病紧密相连的，对鉴别不同的疾病能力强，能为研究疾病的病因提供重要的线索，而不是因为其细胞的构成或成分不同而被选择；(5)所使用的方法尽可能地合理高效，并能找到所含特征基因个数较少的典型基因组。

现在的方法在一定程度上解决了冗余带来的负面影响，但在基因选择过程中直接利用学习算法来评估基因子集，仍存在较高风险的过拟合、泛化性能差等问题。

发明内容

本发明要解决的技术问题是克服现有的特征基因选择方法的不足，提供一种基于logistic与相关信息熵的特征基因选择方法，能够用较少的基因数目得到较大的分类正确率，同时兼顾较小的时空开销。

本发明提供一种基于logistic与相关信息熵的特征基因选择方法，包括如下步骤：

(1)通过logistic模型对乳腺癌数据集和胃癌数据集进行logistic逐步回归，得到特征子集ST₁和ST₂；

(2)对特征子集ST₁和ST₂分别按照近似2∶1的比例分配到S_train和S_test；

(3)初始化特征基因子集F和相关信息熵H；

(4)利用Relief算法对特征基因赋权值，得到特征基因权值w＝{w₁，w₂，…，w_n}；

(5)比较获得的特征基因权值与设定的阈值δ；

(6)若特征基因g_i的权值w_i小于Relief阈值δ，将g_i删除；

(7)若特征基因g_i的权值w_i大于Relief阈值δ，将g_i插入到特征集合F，转到步骤(5)；

(8)将F特征基因权值从大到小排序得到F_s，依次为F_s＝{g₁，g₂，…，g_m}；

(9)再次初始化特征基因子集F；

(10)将F_s权值最大的基因g_i添加到特征基因子集F中，并计算其相关信息熵H_R(F^Ug_i)；

(11)判断加入该特征基因子集的相关信息熵是否变化；

(12)如果相关信息熵减小，去掉该基因；

(13)如果相关信息熵增大，将该基因加到特征基因子集F中，转到步骤(10)；

(14)返回特征子集F，算法结束。

在本发明所述的基于logistic和相关信息熵的特征基因选择方法中，logistic回归模型由条件概率分布P(Y|X)表示，形式为参数化的逻辑斯谛分布，我们把logistic回归模型表示为

P (Y = 1 | X) = \frac{\exp (w \cdot x)}{1 + \exp (w \cdot x)}

P (Y = 0 | X) = \frac{1}{1 + \exp (w \cdot x)}

其中，x∈Rⁿ是输入变量，Y∈{0，1}是输出变量，w·x为w和x的内积，其中w＝(w⁽¹⁾，w⁽²⁾，...，w⁽ⁿ⁾，b)^T，x＝(x⁽¹⁾，x⁽²⁾，...，x⁽ⁿ⁾，1)^T，w为权值向量，b为偏置。如果事件发生的概率为p，则该事件的几率是该事件的对数几率或logit函数为logistic回归比较两个条件概率值的大小，将实例x划分到概率值较大的类中。

在本发明所述的基于logistic和相关信息熵的特征基因选择方法中，Relief算法是根据特征对近距离样本的区分能力来评估特征，该算法从训练集中随机选取一个样本TM，并从与其同类样本中找出最近邻的样本NH，从与其不同类的样本中找出最近邻的样本NM，然后根据样本间距离的大小来更新每维特征的权重。特征的权重越大，说明该特征的分类能力越强，反之，则说明该特征的分类能力越弱。

在本发明所述的基于logistic和相关信息熵的特征基因选择方法中，假设基因的个数为N，特征基因子集中基因的个数为W，在相关系数矩阵中存在特征值λ_j，且λ_j＞0，j＝1，2，...，W，且W＜＜N，则特征基因相关信息熵为

H_{R} = - Σ_{j = 1}^{W} \frac{λ_{j}}{W} \log_{W} \frac{λ_{j}}{W}

上述技术方案可以看出，本发明实施例将机器学习中的logistic回归模型引入特征基因选择方法中，可以直接处理连续型的基因表达数据，避免了因离散化而造成的信息丢失，使所选取的特征基因子集能最大限度的保持原始数据的分类能力，获得质量较高的预选基因子集，有利于学习模型的构造。与此同时，由于logistic回归模型较强的泛化能力，可以更准确的预测输入未知数据。将logistic回归模型、Relief算法和信息熵相结合，可以更有效的从维数高样本小、噪声冗余多的基因表达数据中选择出少量特征基因，与只将Relief算法和信息熵结合的方法相比，该方法根据基因表达数据规模大的特点，利用logistic回归模型过直接滤掉对分类影响较小基因变量，不仅优化了预选基因数据质量，同时也减少下一步去冗余基因的工作量。通过实验证明本发明能够获得数目更少特征基因子集，减少了计算复杂度，并且这些特征基因子集上，能得到更高的分类精度。该技术可以更有效应用在癌症分类、表达相关性分析和疾病标志物识别等领域。

附图说明

图1基于logistic与相关信息熵的特征基因选择方法的流程图；

图2为Gastric-logistic回归前基因分类权重散点图；

图3为算法基因分类权重散点图；

图4为Breast-logistic回归前基因分类权重散点图；

图5为算法基因分类权重散点图；

图6为Gastric-logistic回归前基因分类权重柱图；

图7为算法的基因分类权重柱图；

图8为Breast-logistic回归前基因分类权重柱图；

图9为算法的基因分类权重柱图。

具体实施方式

本发明实施例提供一种基于logistic与相关信息熵的特征基因选择方法，避免了因离散化而造成信息丢失，能有效获得较少的基因数目且得到较大的分类正确率。

本发明将机器学习中logistic回归模型引入特征基因选择中，并采用相关信息熵剔除冗余基因，提出一种基于logistic与相关信息熵新的特征基因选择方法。

概括的说，包括以下步骤：对数据集进行logistic回归，获得对分类影响较大的基因变量，利用Relief算法对基因变量赋值并排序，向初始特征基因集合添加最大特征值基因，计算相关信息熵。

具体如下描述：

本文采用UCI数据库中的乳腺癌数据集(Breast)和胃癌数据集(Bastric)作为实验数据。其中乳腺癌数据集有84个样本和9216个基因表达数据，胃癌数据集有40个样本和1520个基因表达数据。

也即：

输入信息：训练数据集TR，测试数据集TE，Relief阈值δ为2600，初始相关信息H，logistic回归模型得到初始基因数据S＝{g₁，g₂，…，g_n}

输出信息：特征基因集合F

该方法执行以下操作：

(1)初始化特征基因集合F为空集和初始化相关信息熵H为零；

(2)对每个数据集进行logistic线性回归，获得初始基因S；

(3)采用Relief算法对训练数据集TR特征赋值，得到特征权值集合w；

(4)判断基因g_i特征权值是否大于阈值δ，若是，则将基因g_i插入到F中得到新特征集合F，若否，舍弃该基因g_i；

(5)将F特征基因的权值从大到小排序得到F_s，并初始化F；

(6)遍历特征基因子集F_s，将权值最大的基因添加到特征子集F中，并计算其相关信息熵H_R；

(7)判断信息熵H_R是否增大，若是，将基因加到特征子集中，否则，舍弃该基因g_i；

(8)直到遍历完整个特征基因子集F_s，返回特征基因集合F。

上述算法的终止条件为：如果相关信息熵的值不再增大，则说明已去除冗余基因，算法结束。

以下结合附图进行更详细介绍

图1是本发明的特征基因选择方法流程图，如图1所示，包括步骤：

(1)对数据集进行logistic线性回归，获得高质量的基因表达谱，详细步骤如下：

①二项logistic回归模型

二项logistic回归模型只能对数值型输入变量建模，而且分类变量取值分别为1和-1，针对二分类数据集，以取值1表示正类样本，取值-1表示负类样本，logistic回归比较两个条件概率值的大小，将实例x划分到概率值较大的类中。

②参数设置

对数据集中的基因做logistic逐步回归，计算所有的基因变量的卡方值和P值，卡方值一般设置为0.02，由于首次筛选只是删除卡方值小于0.02的变量，获得与类标签相关性较强的基因变量，因此基因变量的进入进出条件不宜过强。由于基因表达数据规模很大，不同的基因数据集参数P的取值可能不同。为了能有效的获得高质量的基因变量，提高样本分类精度，针对乳腺癌数据集和胃癌数据集，经过多次试验对比，阈值过大或过小都会影响获得基因变量的质量，从而降低基因样本的分类精度，因此这里设置阈值P＝0.3较为合适，如果P值超过0.3，就剔除此变量。如果一个基因具有高的估计值，则该基因具有较高的信息分类能力，因此该基因具有与该数据的其它基因的相关性。

③模型参数的估计

logistic回归模型学习时，对于给定的训练集T＝{(x₁，y₁)，(x₂，y₂)，…，(x_N，y_N)}，其中，x_i∈Rⁿ，y_i∈{0，1}，可以应用极大似然估计法估计模型参数，从而得到logistic回归模型。

假设

p(y＝1|x)＝π(x)，p(y＝0|x)＝1-π(x)

似然函数为

Π {[π (x_{i})]}^{y_{i}} {[1 - π (x_{i})]}^{1 - y_{i}}

对数似然函数为

\begin{matrix} L (w) = Σ_{i = 1}^{N} [y_{i} \log π (x_{i}) + (1 - y_{i}) \log (1 - π (x_{i}))] \\ = Σ_{i = 1}^{N} [y_{i} \log \frac{π (x_{i})}{1 - π (x_{i})} + \log (1 - π (x_{i}))] \\ = Σ_{i = 1}^{N} [y_{i} (w \cdot x_{i}) - \log (1 + \exp (w \cdot x_{i}))] \end{matrix}

对L(w)求极大值，本文采用梯度下降法求得w的估计值。假设w的极大似然估计值为(权值向量)，那么学到的logistic回归模型为：

P (Y = 1 | X) = \frac{\exp (\hat{w} \cdot x)}{1 + \exp (\hat{w} \cdot x)}

P (Y = 0 | X) = \frac{1}{1 + \exp (\hat{w} \cdot x)}

通过对数据集进行logistic线性回归，获得高质量的基因表达谱，如图2-图5分类权重散点图所示。

在图2-图5中，x轴代表基因的序号，y轴代表基因分类权重，由实验结果图可以看出，图3的基因分类权重散点图比图2稀疏，图5比基因分类权重图比图4稀疏，且随着权重值的增加，基因分类散点图变得更加稀疏。基于以上分析可知，本文所提算法可有效的减少噪声基因，获得分类影响较大的基因。

(2)将数据集分为训练集和测试集。

对特征子集S₁和S₂分别按照近似2∶1的比例分配到S_train和S_test；经过训练集多次训练分类器，得到最优的参数模型，利用测试集的数据通过支持向量机验证。

(3)初始化特征基因集合F和相关信息熵H。

设置特征基因集合为F空集及相关信息熵的值H为零

(4)利用Relief算法对基因变量赋权值。

假设间隔为在保持样本分类不变的情况下决策面能够移动的最大距离θ，可表示为：

θ = \frac{1}{2} (| | x - M (x) | | - | | x - H (x) | |)

其中H(x)、M(x)分别为与x同类和非同类最近邻点。假设间隔能对各维度上的特征分类能力进行评价。通过对训练样本的假设间隔大小计算，可以近似地对特征进行关于对分类价值的评价，即间隔值越大，则表明分类价值越高；间隔值越小，则表明分类价值越低。在计算过程中，首先将特征权重初始化为0，F为空集，基因样本数目为m，针对所有基因变量，随机选择一个样本R；然后从同类样本集中找到R的最近邻样本H，从不同类样本集中找到最近邻样本M，并根据公式W(G)＝W(G)-diff(A，R，H)/m+diff(A，R，M)/m计算每个基因的权重值，最后将特征基因子集F权值按照从大到小排序得到Fs＝{g₁，g₂，…，g_m}。

Relief算法利用这一特点给特征集中每一个特征赋予一定的权重，由于原始基因表达数据存在较多噪声和无关基因，仅用该方法处理较为耗时，为了更高效的获得预选的特征子集，引入logistic回归模型对原始基因数据线性回归。

本发明利用logistic回归模型获得分类影响较大的基因，采用上述Relief算法思想对全部基因按照权重降序排列得到图6-图9的分类权重图。

图6、图8是仅采用传统Relief算法得到的基因分类权重柱图，而图7、图9是采用本文算法得到的基因分类权重柱图。在上图中，x轴代表基因分类权重，从左到右权重值以500为单位，y轴代表基因个数。由图可知当基因分类权重相等时，图7的基因个数少于图6的基因个数，并且图7分类权重较大的基因总数少于图6分类权重较大基因总数；图9的基因个数少于图8的基因个数，并且图9分类权重较大的基因总数少于图8分类权重较大基因总数。如Breast数据集，当权重值小于500时，logistic回归前约有4000个基因，而采用本文算法仅约为2500个基因。因此经过logistic回归后明显减少了基因的个数，获得对分类影响较大的基因，从而提高基因数据质量。

(5)比较获得的特征基因权值与设定的阈值δ。

在剔除无关基因过程中，需要设定合适的阈值δ，针对不同的基因数据集，可以自行选取合适的阈值。经过多次试验对比，乳腺癌数据集的阈值取2500和胃癌数据集的阈值取2700较合适，为了保证算法的稳定性和高效性，本文取它们的均值2600作为最终的阈值，获取权重大于2600的基因变量，可以较明显的提高分类精度。

(6)若特征基因g_i的权值w_i小于Relief阈值δ将g_i删除；若特征基因g_i的权值w_i大于Relief阈值δ将g_i插入到特征集合F，转到(5)。

(7)将F特征基因权值从大到小排序得到F_s，依次为F_s＝{g₁，g₂，…，g_m}。

(8)再次初始化原始特征基因子集F。

在此初始化特征子集F的原因是删除每个基因权重值，以便添加在剔除冗余基因过程中得到的特征子集F。

(9)每次将权值最大基因变量添加到特征基因子集，并计算相关信息熵。

①随机变量线性相关性

随机变量的相关系数矩阵反应变量相互间的相关程度，由均方误差E衡量n元随机变量x₁，x₂，...，x_n的线性相关性：

\begin{matrix} E = α^{T} Rα \\ = y^{T}^y \\ = λ y_{1}^{2} + λ y_{2}^{2} + L + λ y_{n}^{2} &GreaterEqual; 0 \end{matrix}

当变量的线性组合为常系数方程时，E的大小由特征值λ₁，λ₂，…，λ_n决定，特征值越小，则E越小，即相关系数矩阵的特征值在一定程度上反映了变量的线性相关程度，即在获取基因权重的大小表明变量之间的相关性强弱。

②相关信息熵

相关信息熵(Correlation Information Entropy)可以度量多个变量之间的相关性。设S为多变量、非线性系统具有Q个变量，该系统在时刻t(t＝1，2，…，K)的多变量时间序列矩阵为P，P∈R^K×Q，y_i(t)为表示第i个时刻t的取值，不失一般性，Q＜＜K，有

P＝{y_i(t)}_{1≤t≤K，1≤i≤Q}，

则相关系数矩阵R，R∈R^K×Q为

R＝P^T·P

Claims

1.一种基于logistic与相关信息熵的特征基因选择方法，其特征在于，其包括以下步骤：

(3)初始化特征基因子集F和相关信息熵H；

(5)比较获得的特征基因权值与设定的阈值δ；

(6)若特征基因g_i的权值w_i小于Relief阈值δ，将g_i删除；

(9)再次初始化特征基因子集F；

(10)将F_s权值最大的基因g_i添加到特征基因子集F中，并计算其相关信息熵H_R(FUg_i)；

(11)判断加入该特征基因子集的相关信息熵是否变化；

(12)如果相关信息熵减小，去掉该基因；

(14)返回特征子集F，算法结束。

2.如权利要求1所述的基于logistic与相关信息熵的特征基因选择方法，其特征在于，logistic回归模型由条件概率分布P(Y|X)表示，形式为参数化的逻辑斯谛分布，logistic回归模型表示为

其中，x∈Rⁿ是输入变量，Y∈{0，1}是输出变量，w·x为w和x的内积，其中w＝(w⁽¹⁾，w⁽²⁾，...，w⁽ⁿ⁾，b)^T，x＝(x⁽¹⁾，x⁽²⁾，...，x⁽ⁿ⁾，1)^T，w为权值向量，b为偏置；如果事件发生的概率为p，则该事件的几率是该事件的对数几率或logit函数为logistic回归比较两个条件概率值的大小，将实例x划分到概率值较大的类中。

3.如权利要求1所述的基于logistic与相关信息熵的特征基因选择方法，其特征在于，基因的个数为N，特征基因子集中基因的个数为W，在相关系数矩阵中存在特征值λ_j，且λ_j＞0，j＝1，2，...，W，且W＜＜N，则特征基因相关信息熵为

。