CN104504373A - 一种用于fmri数据的特征选择方法 - Google Patents
一种用于fmri数据的特征选择方法 Download PDFInfo
- Publication number
- CN104504373A CN104504373A CN201410794713.XA CN201410794713A CN104504373A CN 104504373 A CN104504373 A CN 104504373A CN 201410794713 A CN201410794713 A CN 201410794713A CN 104504373 A CN104504373 A CN 104504373A
- Authority
- CN
- China
- Prior art keywords
- feature
- data
- score
- magnetic resonance
- fmri
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Image Analysis (AREA)
Abstract
一种用于FMRI数据的特征选择方法,属于生物医学图像模式识别技术领域,具体涉及功能磁共振图像的特征选择方法。首先随机选择一个数据的子矩阵用elastic net方法计算出所选特征的权重向量,将所得到的权重向量转化为稳定得分向量。重复以上过程p(p>1000)次,得到各特征的被选次数向量,依照计算得到的累加稳定得分向量和次数向量得到特征重要性度量值,然后进行特征排序与选择;本发明的方法具有容错性高,稳定性强等特点,对于磁共振数据模式识别等领域特征选择与排序提供了新的有效技术。
Description
技术领域
本方法属于生物医学图像模式识别技术领域,具体涉及功能磁共振图像的特征选择方法。
背景技术
静息态功能磁共振是指在无特定的认知任务且处在安静休息状态下利用血氧水平依赖(BOLD)的功能磁共振成像技术对大脑神经元的自发活动进行研究。
模式识别系统主要有数据获取,数据预处理,特征选择与提取,分类决策四部分组成。其中,特征选择与提取就是要根据原始数据,选择和提取出最能反映分类本质的特征。由于磁共振数据的高维小样本特性,其中含有大量对分类无意义的冗余特征,所以特征选择对于磁共振数据的分类或者任务激活区定位而言意义重大。
特征选择排序的重点是特征重要性度量,现有的度量方法包括二类,一类是如熵函数、类内类间距离、基尼系数、相关性分析等,这些方法都是基于传统统计学理论,存在抗噪声能力低、样本数量要求大等局限性,不适合磁共振图像这种典型的高维小样本数据的特征选择处理;另一类如使用某些机器学习方法作为载体,将学习得到的特征权重作为特征重要性度量,这一类方法的问题在于其对数据质量的依赖较强,方法的稳定性不高。
稳定选择(stability selection)方法是一种随机稀疏的特征选择方法,目前主要用于基因选择领域。由于大脑的临近体素之间具有较强的关联性,而稳定选择是一种纯稀疏的方法,并不能很好地检测到这种结构。所以,本发明采用一种改进的稳定选择方法,即采用弹性网(Elastic Net)这种结构稀疏方法代替稳定选择内部的纯稀疏方法,并取得了比以往方法更好的效果。
发明内容
针对上述问题和不足,本发明提供了一种针对功能磁共振数据的特征选择方法,用弹性网(elastic net)这种同时具备结构和稀疏特质的方法代替稳定选择本身包含的纯稀疏方法(如lasso,l1-logistic)。
为实现上述目的,本发明的具体步骤如下:
(1)将原始磁共振数据矩阵转化为N*D矩阵,其中N为样本个数,D为特征维数;
(2)给定迭代次数p,给定特征数量阈值u,初始化一个D*1的稳定得分零向量score,初始化一个D*1的次数向量m,其中迭代次数p>1000次,特征数量阈值为1≤u≤D;
(3)随机选择一个指定大小的子矩阵[N/L]*[D/V]作为训练数据,其中[]代表取整函数;
(4)根据训练数据用弹性网方法得到其特征权重w0,若特征i(i=1,2,…,D)在此次循环中被选择,则m(i)=m(i)+1;若特征i(i=1,2,…,D)在此次循环中被选择且其特征权重不为零,则score(i)=score(i)+1;
(5)将迭代数目自增1.若迭代数目达到预定次数p,则转到步骤(6),否则转到步骤(2);
(6)用稳定得分向量和次数矩阵得到各特征的重要性度量值S(i)=score(i)/m(i),并将特征按照S降序排列;
(7)在降序排列的特征中寻找前u个特征作为最后的特征,方法完成。
进一步的,所述步骤(4)中的弹性网方法为
其中yi是训练数据第i个样本标签,xij是第i个样本的第j个特征值,wj是第j个特征的权重值,λ1和λ2是优化问题中1范数和2范数的惩罚系数,当λ1=0时,优化问题为一个最小二乘问题,当λ2=0时,优化问题为常规Lasso问题。
进一步的,所述步骤(4)中弹性网的阈值选择为使得所选特征中有四分之一的特征权重不为零。
本发明根据磁共振数据的特性,即高维小样本,且相邻体素间存在极大关联性,提出一种基于稳定选择和弹性网的稳定特征选择方法,给出了特征的重要性度量值计算方法,提出了基于稳定选择中稳定得分的特征重要性度量模型,该模型能够充分体现激活体素之间的结构性,可有效克服目前特征选择方法所存在的局限性;所提出的特征选择方法具有特征重要性度量稳定,容错性好等优点,可满足磁共振数据分类器设计的特征选择与排序的实际需要,为生物医学图像模式识别等领域特征选择与排序提供了新的有效技术。
附图说明
图1为块刺激与特征区域的对应关系图。
图2为特征区域的位置图。
图3为在所有样本标签都正确的情况下得到的结果。
图4为随机使一个样本标签错误的情况下得到的结果。
图5为随机使两个样本标签错误的情况下得到的结果。
图6为随机使三个样本标签错误的情况下得到的结果。
图7为随机使五个样本标签错误的情况下得到的结果。
图8为随机使十个样本标签错误的情况下得到的结果。
图9为各个方法选择正确率随着错误的标签个数增加的结果。
具体实施方式
下面结合附图和实施例对本发明的具体实施方式做进一步详细地描述,以下实施例用于说明本发明,但不用来限制本发明的范围。
一种用于FMRI数据的特征选择方法,具体实施步骤如下:
步骤A:仿真数据构造。生成一个70*63体素的fMRI图像,其中每一体素包含一个160个时间点的零均值序列。构造三种块刺激时间序列(加入信噪比等于2的高斯噪声)分别加入到特征区域A,B,C,D,E,块刺激与特征区域的对应关系如图1,特征区域的位置如图2。我们将每一个时间点看成一个样本,将每一个体素看成一个特征,于是最终的仿真数据维数为160*4410,我们将第二个块刺激作为标签,于是正确的识别区域就是B,C,D。
步骤B:确定样本和特征子采样数目,令L=0.2,V=0.5,这样每一循环中都采用160*0.2=32个样本,4410*0.5=2205个特征作为训练数据。
步骤C:随机选择32个样本,2205个特征进行elastic net训练,得到一个2205维的特征权重向量w0,根据w0得到稳定得分矩阵。
所述步骤C具体包括:
步骤C1:设置弹性网参数λ1和λ2,使得用elastic net训练数据得到一个2205维的特征权重向量w0,其中有500个特征的权重不为0。
步骤C2:初始化一个4410维零矩阵wi(稳定得分矩阵),对于k=1,…,4410,若第k个特征没有被选入此次训练数据,则wik=0;若第k个特征被选入此次训练数据,且它的权重向量为零,则wik=0;若第k个特征被选入此次训练数据,且它的权重向量不为零,则wik=1。
步骤D:重复步骤B和步骤C 2000次,得到2000个稳定得分向量wi,累加得到累加稳定得分向量w,即
步骤E:计算在2000次过程中每一个特征被选中的次数,得到次数矩阵m。用w和m计算最终特征重要性度量向量w_final=w/m,将w_final的值作为特征重要性度量值。
所述步骤E具体包括:
步骤E1:初始化一个2000*4410维零矩阵m,对于i=1,…,2000和k=1,…,4410,如果在第i次采样中,第k个特征被选取,则mik=1;如果在第i次采样中,第k个特征没有被选取,则mik=0。将m按列累加起来即得到次数矩阵m(4410维)。
步骤E2:用w和m计算最终特征权重排序向量w_final=w/m,将w_final的值作为特征重要性度量值。
步骤F:将w_final的值作为特征重要性度量对其由大到小进行排序,得到排序向量index,取特征数量阈值588(激活区体素数量),即可得到最终选择的特征序号index(1:588)。
步骤G:容错性实验,随机使0-10个标签错误,重复以上过程并与双t检验、l2SVM、l1SVM、l2logical、l1logical、Randomlized l1-logistic、elastic-net比较,其中图2为在所有样本标签都正确的情况下得到的结果;图3为随机使一个样本标签错误的情况下得到的结果;图4为随机使两个样本标签错误的情况下得到的结果;图5为随机使三个样本标签错误的情况下得到的结果;图6为随机使五个样本标签错误的情况下得到的结果;图7为随机使十个样本标签错误的情况下得到的结果。可以看出,本算法是以上所列算法中唯一的在样本标签错误情况下依然能稳定得到特征区域的算法,并且在有10个标签错误的情况下,还是能得到较为完整的区分区域。图8为选择正确率随着错误标签数量从1-10变化的结果,由图可以看出,本方法的容错性要优于其他方法。
综上所述,本发明提出的方法在数据质量不好的情况下,如数据的标签有少量出现错误或不能确定时,仍然能够有效地提取出激活区域,有效克服了现有方法存在的局限性。
Claims (3)
1.一种用于FMRI数据的特征选择方法,其具体步骤如下:
(1)将原始磁共振数据矩阵转化为N*D矩阵,其中N为样本个数,D为特征维数;
(2)给定迭代次数p,给定特征数量阈值u,初始化一个D*1的稳定得分零向量score,初始化一个D*1的次数向量m,其中迭代次数p>1000次,特征数量阈值为1≤u≤D;
(3)随机选择一个指定大小的子矩阵[N/L]*[D/V]作为训练数据,其中[]代表取整函数;
(4)根据训练数据用弹性网方法得到其特征权重w0,若特征i(i=1,2,…,D)在此次循环中被选择,则m(i)=m(i)+1;若特征i(i=1,2,…,D)在此次循环中被选择且其特征权重不为零,则score(i)=score(i)+1;
(5)将迭代数目自增1.若迭代数目达到预定次数p,则转到步骤(6),否则转到步骤(2);
(6)用稳定得分向量和次数矩阵得到各特征的重要性度量值S(i)=score(i)/m(i),并将特征按照S降序排列;
(7)在降序排列的特征中寻找前u个特征作为最后的特征,方法完成。
2.如权利要求1所述用于FMRI数据的特征选择方法,其特征在于:所述步骤(4)中的弹性网方法为
其中yi是训练数据第i个样本标签,xij是第i个样本的第j个特征值,wj是第j个特征的权重值,λ1和λ2是优化问题中1范数和2范数的惩罚系数,当λ1=0时,优化问题为一个最小二乘问题,当λ2=0时,优化问题为常规Lasso问题。
3.如权利要求1或2所述用于FMRI数据的特征选择方法,其特征在于:所述步骤(4)中弹性网的阈值选择为使得所选特征中有四分之一的特征权重不为零。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410794713.XA CN104504373A (zh) | 2014-12-18 | 2014-12-18 | 一种用于fmri数据的特征选择方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410794713.XA CN104504373A (zh) | 2014-12-18 | 2014-12-18 | 一种用于fmri数据的特征选择方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104504373A true CN104504373A (zh) | 2015-04-08 |
Family
ID=52945769
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410794713.XA Pending CN104504373A (zh) | 2014-12-18 | 2014-12-18 | 一种用于fmri数据的特征选择方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104504373A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105894493A (zh) * | 2016-01-27 | 2016-08-24 | 电子科技大学 | 一种基于稳定性选择的fMRI数据特征的选择方法 |
CN105931191A (zh) * | 2015-12-21 | 2016-09-07 | 南京邮电大学 | 基于凹凸混合正则先验的图像盲去卷积方法 |
CN107085705A (zh) * | 2017-03-28 | 2017-08-22 | 中国林业科学研究院资源信息研究所 | 一种高效特征选择的森林参数遥感估测方法 |
CN107203891A (zh) * | 2016-03-17 | 2017-09-26 | 阿里巴巴集团控股有限公司 | 一种自动多阀值特征过滤方法及装置 |
CN109800790A (zh) * | 2018-12-24 | 2019-05-24 | 厦门大学 | 一种面向高维数据的特征选择方法 |
CN111881191A (zh) * | 2020-08-05 | 2020-11-03 | 厦门力含信息技术服务有限公司 | 移动互联网下的客户画像关键特征挖掘系统与方法 |
CN113362944A (zh) * | 2021-05-14 | 2021-09-07 | 西安交通大学 | 一种基于机器学习的功能性消化不良和针刺疗效的预测 |
CN114078126A (zh) * | 2022-01-19 | 2022-02-22 | 江苏金恒信息科技股份有限公司 | 一种基于机器学习的废钢评级方法及装置 |
CN117113291A (zh) * | 2023-10-23 | 2023-11-24 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 一种半导体制造中生产参数重要性的分析方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102622610A (zh) * | 2012-03-05 | 2012-08-01 | 西安电子科技大学 | 一种基于分类器集成的手写维文字符识别方法 |
-
2014
- 2014-12-18 CN CN201410794713.XA patent/CN104504373A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102622610A (zh) * | 2012-03-05 | 2012-08-01 | 西安电子科技大学 | 一种基于分类器集成的手写维文字符识别方法 |
Non-Patent Citations (3)
Title |
---|
ANGSHUL MAJUMDAR ETC.: ""Improved MRI Reconstruction via Non-Convex Elastic Net"", 《ACOUSTICS, SPEECH AND SIGNAL PROCESSING(ICASSP),2014 IEEE INTERNATIONAL CONFERENCE ON》 * |
SRIKANTH RYALI ETC.: ""Estimation of functional connectivity in fMRI data using stability selection-based sparse partial correlation with elastic net penalty"", 《NEUROIMAGE》 * |
袁晓龙等: ""基于随机森林算法的特征选择及在fMRI数据中的应用"", 《微电子学与计算机》 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105931191B (zh) * | 2015-12-21 | 2019-05-03 | 南京邮电大学 | 基于凹凸混合正则先验的图像盲去卷积方法 |
CN105931191A (zh) * | 2015-12-21 | 2016-09-07 | 南京邮电大学 | 基于凹凸混合正则先验的图像盲去卷积方法 |
CN105894493A (zh) * | 2016-01-27 | 2016-08-24 | 电子科技大学 | 一种基于稳定性选择的fMRI数据特征的选择方法 |
US11544618B2 (en) | 2016-03-17 | 2023-01-03 | Alibaba Group Holding Limited | Automatic multi-threshold feature filtering method and apparatus |
CN107203891A (zh) * | 2016-03-17 | 2017-09-26 | 阿里巴巴集团控股有限公司 | 一种自动多阀值特征过滤方法及装置 |
CN107085705B (zh) * | 2017-03-28 | 2020-08-04 | 中国林业科学研究院资源信息研究所 | 一种特征选择的森林参数遥感估测方法 |
CN107085705A (zh) * | 2017-03-28 | 2017-08-22 | 中国林业科学研究院资源信息研究所 | 一种高效特征选择的森林参数遥感估测方法 |
CN109800790A (zh) * | 2018-12-24 | 2019-05-24 | 厦门大学 | 一种面向高维数据的特征选择方法 |
CN111881191A (zh) * | 2020-08-05 | 2020-11-03 | 厦门力含信息技术服务有限公司 | 移动互联网下的客户画像关键特征挖掘系统与方法 |
CN111881191B (zh) * | 2020-08-05 | 2021-06-11 | 留洋汇(厦门)金融技术服务有限公司 | 移动互联网下的客户画像关键特征挖掘系统与方法 |
CN113362944A (zh) * | 2021-05-14 | 2021-09-07 | 西安交通大学 | 一种基于机器学习的功能性消化不良和针刺疗效的预测 |
CN113362944B (zh) * | 2021-05-14 | 2023-06-30 | 西安交通大学 | 一种基于机器学习的功能性消化不良和针刺疗效预测模型的评估方法 |
CN114078126A (zh) * | 2022-01-19 | 2022-02-22 | 江苏金恒信息科技股份有限公司 | 一种基于机器学习的废钢评级方法及装置 |
CN114078126B (zh) * | 2022-01-19 | 2022-04-26 | 江苏金恒信息科技股份有限公司 | 一种基于机器学习的废钢评级方法及装置 |
CN117113291A (zh) * | 2023-10-23 | 2023-11-24 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 一种半导体制造中生产参数重要性的分析方法 |
CN117113291B (zh) * | 2023-10-23 | 2024-02-09 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 一种半导体制造中生产参数重要性的分析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104504373A (zh) | 一种用于fmri数据的特征选择方法 | |
CN102722892B (zh) | 基于低秩矩阵分解的sar图像变化检测方法 | |
CN107229914B (zh) | 一种基于深度q学习策略的手写数字识别方法 | |
CN109284799B (zh) | 一种基于深度学习的rfid标签相对位置定位方法 | |
CN105512680A (zh) | 一种基于深度神经网络的多视sar图像目标识别方法 | |
CN105160400A (zh) | 基于l21范数的提升卷积神经网络泛化能力的方法 | |
CN104715261A (zh) | fMRI动态脑功能子网络构建及并联SVM加权识别方法 | |
CN109165743A (zh) | 一种基于深度压缩自编码器的半监督网络表示学习算法 | |
CN103886328A (zh) | 基于脑网络模块结构特征的功能磁共振影像数据分类方法 | |
Morales et al. | Small area estimation of poverty indicators under partitioned area-level time models | |
CN107248180B (zh) | 一种基于隐状态模型的fMRI自然图像解码方法 | |
CN106991355A (zh) | 基于拓扑保持的解析型字典学习模型的人脸识别方法 | |
CN108447057A (zh) | 基于显著性和深度卷积网络的sar图像变化检测方法 | |
CN105117731A (zh) | 一种大脑功能网络的社团划分方法 | |
CN110672905A (zh) | 基于cnn的自监督电压暂降源辨识方法 | |
CN104680169A (zh) | 一种面向高空间分辨率遥感图像专题信息提取的半监督诊断性特征选择方法 | |
CN104091181A (zh) | 基于深度受限玻尔兹曼机的害虫图像自动识别方法及系统 | |
CN106203450A (zh) | 基于深度学习框架对图像进行特征提取的目标检测方法 | |
CN105740917B (zh) | 带有标签学习的遥感图像的半监督多视图特征选择方法 | |
CN108985161A (zh) | 一种基于拉普拉斯正则化的低秩稀疏表征图像特征学习方法 | |
CN113947157A (zh) | 一种基于层次聚类和结构方程模型的动态脑效应连接网络生成方法 | |
CN107895137A (zh) | 基于耦合隐马尔可夫模型的sar图像目标交互行为识别方法 | |
CN106446804A (zh) | 一种基于elm的多粒度虹膜识别方法 | |
CN106951924B (zh) | 基于AdaBoost算法的地震相干体图像断层自动识别方法及系统 | |
CN108282424A (zh) | 用于四个数据集联合盲源分离的四阶张量联合对角化算法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20150408 |
|
WD01 | Invention patent application deemed withdrawn after publication |