CN104504373A

CN104504373A - 一种用于fmri数据的特征选择方法

Info

Publication number: CN104504373A
Application number: CN201410794713.XA
Authority: CN
Inventors: 陈华富; 李志强; 王亦伦
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2014-12-18
Filing date: 2014-12-18
Publication date: 2015-04-08

Abstract

一种用于FMRI数据的特征选择方法，属于生物医学图像模式识别技术领域，具体涉及功能磁共振图像的特征选择方法。首先随机选择一个数据的子矩阵用elastic net方法计算出所选特征的权重向量，将所得到的权重向量转化为稳定得分向量。重复以上过程p(p>1000)次，得到各特征的被选次数向量，依照计算得到的累加稳定得分向量和次数向量得到特征重要性度量值，然后进行特征排序与选择；本发明的方法具有容错性高，稳定性强等特点，对于磁共振数据模式识别等领域特征选择与排序提供了新的有效技术。

Description

一种用于FMRI数据的特征选择方法

技术领域

本方法属于生物医学图像模式识别技术领域，具体涉及功能磁共振图像的特征选择方法。

背景技术

静息态功能磁共振是指在无特定的认知任务且处在安静休息状态下利用血氧水平依赖(BOLD)的功能磁共振成像技术对大脑神经元的自发活动进行研究。

模式识别系统主要有数据获取，数据预处理，特征选择与提取，分类决策四部分组成。其中，特征选择与提取就是要根据原始数据，选择和提取出最能反映分类本质的特征。由于磁共振数据的高维小样本特性，其中含有大量对分类无意义的冗余特征，所以特征选择对于磁共振数据的分类或者任务激活区定位而言意义重大。

特征选择排序的重点是特征重要性度量，现有的度量方法包括二类，一类是如熵函数、类内类间距离、基尼系数、相关性分析等，这些方法都是基于传统统计学理论，存在抗噪声能力低、样本数量要求大等局限性，不适合磁共振图像这种典型的高维小样本数据的特征选择处理；另一类如使用某些机器学习方法作为载体，将学习得到的特征权重作为特征重要性度量，这一类方法的问题在于其对数据质量的依赖较强，方法的稳定性不高。

稳定选择(stability selection)方法是一种随机稀疏的特征选择方法，目前主要用于基因选择领域。由于大脑的临近体素之间具有较强的关联性，而稳定选择是一种纯稀疏的方法，并不能很好地检测到这种结构。所以，本发明采用一种改进的稳定选择方法，即采用弹性网(Elastic Net)这种结构稀疏方法代替稳定选择内部的纯稀疏方法，并取得了比以往方法更好的效果。

发明内容

针对上述问题和不足，本发明提供了一种针对功能磁共振数据的特征选择方法，用弹性网(elastic net)这种同时具备结构和稀疏特质的方法代替稳定选择本身包含的纯稀疏方法(如lasso,l1-logistic)。

为实现上述目的，本发明的具体步骤如下：

(1)将原始磁共振数据矩阵转化为N*D矩阵，其中N为样本个数，D为特征维数；

(2)给定迭代次数p,给定特征数量阈值u,初始化一个D*1的稳定得分零向量score，初始化一个D*1的次数向量m，其中迭代次数p＞1000次，特征数量阈值为1≤u≤D；

(3)随机选择一个指定大小的子矩阵[N/L]*[D/V]作为训练数据，其中[]代表取整函数；

(4)根据训练数据用弹性网方法得到其特征权重w0，若特征i(i＝1,2,…,D)在此次循环中被选择,则m(i)＝m(i)+1；若特征i(i＝1,2,…,D)在此次循环中被选择且其特征权重不为零，则score(i)＝score(i)+1；

(5)将迭代数目自增1.若迭代数目达到预定次数p，则转到步骤(6)，否则转到步骤(2)；

(6)用稳定得分向量和次数矩阵得到各特征的重要性度量值S(i)＝score(i)/m(i)，并将特征按照S降序排列；

(7)在降序排列的特征中寻找前u个特征作为最后的特征，方法完成。

进一步的，所述步骤(4)中的弹性网方法为

\min {| | y_{j} - Σ_{j} w_{j} x_{ij} | |}^{2} + λ_{1} Σ_{j} | w_{j} | + λ_{2} Σ_{j} {| | w_{j} | |}^{2} - - - (1)

其中y_i是训练数据第i个样本标签，x_ij是第i个样本的第j个特征值，w_j是第j个特征的权重值，λ₁和λ₂是优化问题中1范数和2范数的惩罚系数，当λ₁＝0时，优化问题为一个最小二乘问题，当λ₂＝0时，优化问题为常规Lasso问题。

进一步的，所述步骤(4)中弹性网的阈值选择为使得所选特征中有四分之一的特征权重不为零。

本发明根据磁共振数据的特性，即高维小样本，且相邻体素间存在极大关联性，提出一种基于稳定选择和弹性网的稳定特征选择方法，给出了特征的重要性度量值计算方法，提出了基于稳定选择中稳定得分的特征重要性度量模型，该模型能够充分体现激活体素之间的结构性，可有效克服目前特征选择方法所存在的局限性；所提出的特征选择方法具有特征重要性度量稳定，容错性好等优点，可满足磁共振数据分类器设计的特征选择与排序的实际需要，为生物医学图像模式识别等领域特征选择与排序提供了新的有效技术。

附图说明

图1为块刺激与特征区域的对应关系图。

图2为特征区域的位置图。

图3为在所有样本标签都正确的情况下得到的结果。

图4为随机使一个样本标签错误的情况下得到的结果。

图5为随机使两个样本标签错误的情况下得到的结果。

图6为随机使三个样本标签错误的情况下得到的结果。

图7为随机使五个样本标签错误的情况下得到的结果。

图8为随机使十个样本标签错误的情况下得到的结果。

图9为各个方法选择正确率随着错误的标签个数增加的结果。

具体实施方式

下面结合附图和实施例对本发明的具体实施方式做进一步详细地描述，以下实施例用于说明本发明，但不用来限制本发明的范围。

一种用于FMRI数据的特征选择方法，具体实施步骤如下：

步骤A：仿真数据构造。生成一个70*63体素的fMRI图像，其中每一体素包含一个160个时间点的零均值序列。构造三种块刺激时间序列(加入信噪比等于2的高斯噪声)分别加入到特征区域A,B,C,D,E,块刺激与特征区域的对应关系如图1，特征区域的位置如图2。我们将每一个时间点看成一个样本，将每一个体素看成一个特征，于是最终的仿真数据维数为160*4410，我们将第二个块刺激作为标签，于是正确的识别区域就是B,C,D。

步骤B：确定样本和特征子采样数目，令L＝0.2，V＝0.5，这样每一循环中都采用160*0.2＝32个样本，4410*0.5＝2205个特征作为训练数据。

步骤C：随机选择32个样本，2205个特征进行elastic net训练，得到一个2205维的特征权重向量w0，根据w0得到稳定得分矩阵。

所述步骤C具体包括：

步骤C1：设置弹性网参数λ₁和λ₂，使得用elastic net训练数据得到一个2205维的特征权重向量w0，其中有500个特征的权重不为0。

步骤C2：初始化一个4410维零矩阵w_i(稳定得分矩阵)，对于k＝1,…,4410，若第k个特征没有被选入此次训练数据，则w_ik＝0；若第k个特征被选入此次训练数据，且它的权重向量为零，则w_ik＝0；若第k个特征被选入此次训练数据，且它的权重向量不为零，则w_ik＝1。

步骤D：重复步骤B和步骤C 2000次，得到2000个稳定得分向量w_i，累加得到累加稳定得分向量w，即

步骤E：计算在2000次过程中每一个特征被选中的次数，得到次数矩阵m。用w和m计算最终特征重要性度量向量w_final＝w/m，将w_final的值作为特征重要性度量值。

所述步骤E具体包括：

步骤E1：初始化一个2000*4410维零矩阵m，对于i＝1,…,2000和k＝1,…,4410，如果在第i次采样中，第k个特征被选取，则m_ik＝1；如果在第i次采样中，第k个特征没有被选取，则m_ik＝0。将m按列累加起来即得到次数矩阵m(4410维)。

步骤E2：用w和m计算最终特征权重排序向量w_final＝w/m，将w_final的值作为特征重要性度量值。

步骤F：将w_final的值作为特征重要性度量对其由大到小进行排序，得到排序向量index，取特征数量阈值588(激活区体素数量)，即可得到最终选择的特征序号index(1：588)。

步骤G：容错性实验，随机使0-10个标签错误，重复以上过程并与双t检验、l2SVM、l1SVM、l2logical、l1logical、Randomlized l1-logistic、elastic-net比较，其中图2为在所有样本标签都正确的情况下得到的结果；图3为随机使一个样本标签错误的情况下得到的结果；图4为随机使两个样本标签错误的情况下得到的结果；图5为随机使三个样本标签错误的情况下得到的结果；图6为随机使五个样本标签错误的情况下得到的结果；图7为随机使十个样本标签错误的情况下得到的结果。可以看出，本算法是以上所列算法中唯一的在样本标签错误情况下依然能稳定得到特征区域的算法，并且在有10个标签错误的情况下，还是能得到较为完整的区分区域。图8为选择正确率随着错误标签数量从1-10变化的结果，由图可以看出，本方法的容错性要优于其他方法。

综上所述，本发明提出的方法在数据质量不好的情况下，如数据的标签有少量出现错误或不能确定时，仍然能够有效地提取出激活区域，有效克服了现有方法存在的局限性。

Claims

1.一种用于FMRI数据的特征选择方法，其具体步骤如下：

2.如权利要求1所述用于FMRI数据的特征选择方法，其特征在于：所述步骤(4)中的弹性网方法为

\min {| | y_{j} - Σ_{j} w_{j} x_{ij} | |}^{2} + λ_{1} Σ_{j} | w_{j} | + λ_{2} Σ_{j} {| | w_{j} | |}^{2} - - - (1)

3.如权利要求1或2所述用于FMRI数据的特征选择方法，其特征在于：所述步骤(4)中弹性网的阈值选择为使得所选特征中有四分之一的特征权重不为零。