CN108960341B

CN108960341B - 一种面向脑网络的结构化特征选择方法

Info

Publication number: CN108960341B
Application number: CN201810818259.5A
Authority: CN
Inventors: 接标; 王咪; 卞维新; 丁新涛; 左开中; 方群; 罗永龙
Original assignee: Anhui Normal University
Current assignee: Anhui Normal University
Priority date: 2018-07-23
Filing date: 2018-07-23
Publication date: 2022-03-01
Anticipated expiration: 2038-07-23
Also published as: CN108960341A

Abstract

一种面向脑网络的结构化特征选择方法，考虑到对于脑网络这类的复杂数据通常使用网络局部测量作为特征向量用于随后的特征选择和分类，而忽略了网络自身固有的拓扑结构的信息，从而影响到网络分析的性能，提出了一种基于图核的结构化特征选择方法gk‑SFS方法，包含两个正则化项，其一是稀疏正则化项，该项包含了一个L₁范式正则化项，保证只有少量的判别力的网络特征能被选择；其二是拉普拉斯正则化项，用于保留脑网络数据的整体分布信息，并使用图核来计算网络数据的相似性，保留了脑网络数据的拓扑结构信息。在两个真实脑疾病数据集上，实验结果表明，相比较已有的方法，提出的方法对脑疾病具有更好的性能。

Description

一种面向脑网络的结构化特征选择方法

技术领域

本发明属于机器学习和医学图像分析领域，具体涉及一种面向脑网络的结构化特征选择方法。

背景技术

现代磁共振成像(magnetic resonance imaging，MRI)技术，包括功能磁共振成像(functional MRI，fMRI)，提供一种非侵入性的方式来探索人的大脑，揭示了以前无法揭示的脑结构和功能的机制。脑网络分析可以在连接层次上刻画大脑脑区间的交互，成为医学图像分析和神经影像学中一个新的研究热点。

最近，机器学习的方法已被用于脑网络的分析和分类中。例如，研究人员利用脑网络进行早期脑疾病的诊断和分类，获得了很好的性能。在这些研究中，典型的做法是从脑网络中提取脑的局部测量(如聚类系数)作为特征用于疾病的分类。而特征选择则是过滤掉多余和不重要的特征，从而改进分类性能。例如，Chen等人使用边的权重作为特征用于AD(Alzheimer’s disease)和MCI(mild cognitive impairment)。Wee等人从功能性脑网络中提取聚类系数作为特征用于MCI的分类。Zanin等人使用16种网络测量作为特征用于MCI和正常人的分类。由于局部性测量仅仅网络局部结构的特征，因此在分类过程中，丢失了网络的整体性的拓扑结构，从而可能会影响分类性能。

在脑网络分析中，最经常使用的两种特征选择方法是t-test方法和Lasso方法。在t-test方法中，首先对每一个特征利用标准t-test来测量它们的判别性，并根据判别性对特征进行排序，最终选择一组最具判别力的特征子集。已有的研究表明在小样本情况下t-test方法通常能够获得好的性能。与t-test方法不同是，Lasso的方法通过最小化一个目标函数来完成特征选择，研究表明当大量不相关的特征而却只有少量样本时Lasso方法非常有效。目前，绝大多数特征选择方法主要针对向量数据，不能直接用于处理复杂的结构化数据，如脑网络数据。

特征选择由于不仅能够提高分类器的性能，而且能够帮助寻找一些对疾病敏感的生物标志。已有的方法通常是从网络数据中提取局部测量(如边的权重或聚类系数)作为特征，并组合成一个长的特征向量，用于随后的特征选择和分类，而一些有用的网络结构信息(如网络的整体拓扑结构)被丢失，这可能降低了最终的分类性能。为了表达这一问题，本文提出一种基于图核的结构化的特征选择方法(称为gk-SFS)，用于结构数据的特征选择。不同与已有的方法，提出gk-SFS方法保留网络数据整体上结构信息同时保留了网络数据自身拓扑结构信息。

发明内容

本发明针对现有技术中的不足，提供一种面向脑网络的结构化的特征选择方法。具体提出的gk-SFS方法首先利用L₁范式稀疏化项，保证只有少量具有判别力的特征能被选择。进一步利用拉普拉斯正则化项用于保留网络数据的整体结构上信息，并使用基于图核(graph kernel)来计算网络数据的相似性，从而保留了网络数据的自身拓扑结构信息。最后，提出利用加速近似梯度(Accelerated Proximal Gradient)算法来优化所提出的模型。

为实现上述目的，本发明采用以下技术方案：

一种面向脑网络的结构化的特征选择方法，其特征在于，包括如下步骤：

步骤一、对脑数据集进行数据预处理，使用Pearson相关系数构建功能性脑网络；

步骤二、建立面向脑网络的gk-SFS结构化特征选择方法的目标函数；

步骤三、基于目标函数，引入正则化项，用于保留样本间的整体分布信息；

步骤四、使用图核来计算网络数据的相似性，从而保留网络数据自身的拓扑结构信息；

步骤五、利用加速近似梯度算法对目标函数进行优化。

为优化上述技术方案，采取的具体措施还包括：

所述步骤一中，所构建的是带有权重的全连接网络图，先利用一个给定阈值将权重网络转化为二值网络，用于刻画拓扑结构；然后对每个脑区提取局部聚类系数做特征，用于减少特征维数，来自所有脑区的特征在一起构成一个特征向量。

所述步骤二中，给定训练样本集提取的特征矩阵X＝[x₁，x₂…，x_N]∈R^N*d，其中，x_i表示第i个样本的特征向量，i＝1，...，N，N表示训练样本的个数，d表示特征维数；

令Y＝[y₁，y₂…，y_N]∈R^N表示一个向量，其中y_i表示样本的类标签，对两类分类问题，即y_i∈{+1，-1}；

gk-SFS特征选择方法优化的目标函数是：

其中，矩阵C表示拉普拉斯矩阵，w表示投影向量，λ和β是两个正则化参数；该目标函数包含三项，第一项是损失函数，目标函数中采用了平方损失函数，第二项是稀疏正则化项，目标函数中采用L1范式用于选择具有判别力特征，第三项是拉普拉斯正则化项，用于保留整个网络数据的分布信息和网络自身的结构信息。

所述步骤三中，引入如下正则化项：

其中，g(x_i)＝w^Tx_i是一个线性映射函数，C＝D-M是一个拉普拉斯矩阵，M＝[M_ij]表示一个测量矩阵，定义样本间的相似性，D为对角矩阵，其对角元素

j＝1，...，N。

所述步骤四中，使用图核来定义两个网络的相似性，即对于任意两个网络G_i和G_j，相似性矩阵S定义如下：

M_ij＝k(G_i，G_j)

其中，k表示核函数，使用Weisfeiler-Lehman子树核来构建相应的图核。

本发明的有益效果是：保留网络数据整体上结构信息的同时保留了网络数据自身拓扑结构信息，在两个真实脑疾病数据集(注意缺陷多动障碍数据集和老年痴呆症数据集)上，实验结果表明，相比较已有的方法，提出的方法对脑疾病具有更好的性能。

附图说明

图1表示在三个分类任务上分类精度结果随不同正则化参数λ和β值的变化曲线：图1a表示ADHD vs.NC分类；图1b表示1MCI vs.eMCI分类；图1c表示eMCI vs.NC分类。

具体实施方式

现在结合附图对本发明作进一步详细的说明。

本发明具体采用以下技术方案：

给定训练样本集X＝[x₁，x₂…，x_N]∈R^N*d，其中x_i表示第i个样本的特征向量(如：从每个网络数据中提取的局部测量所构成的特征向量)，i＝1，...，N，N表示训练样本的个数，d表示特征维数。令Y＝[y₁，y₂…，y_N]∈R^N表示一个向量，其中y_i表示样本的类标签，对两类分类问题，即y_i∈{+1，-1}(如：+1表示病人，-1表示正常人)。

为了保留样本间的整体分布信息，引入如下正则化项：

j＝1，...，N。

公式(1)定义该正则化项保留了在原始空间中样本数据间图结构信息。

进一步，为了保留网络数据自身拓扑结构信息，使用图核来直接定义两个网络数据的(局部和整体)相似性，即对于任意两个网络G_i和G_j，相似性矩阵S定义如下：

M_ij＝k(G_i，G_j) (2)

其中，k表示核函数，在本文研究中，使用Weisfeiler-Lehman子树核来构建相应的图核：

给定两幅图G_i和G_j，令L₀表示在G_i和G_j上的最初标签集(若节点无标签，则用节点的度作为节点的标签)，让L_m表示在第m次同构性测试中G_i和G_j的标签集，则Weisfeiler-Lehman子树核的定义如下：

其中

其中，h表示迭代最大次数，s_mn表示标签集L_m中标签，σ_m(G_i，s_mn)和σ_m(G_j，s_mn)分别表示标签s_mn在图G_i和G_j中出现的次数，m＝0，...，h，n＝1，...，|L_m|。

最终，基于图核的结构化特征选择方法的目标函数定义如下：

其中矩阵C表示拉普拉斯矩阵，w表示投影向量，由根据公式(1)和公式(4)定义。该目标函数包含三项，第一项是平方损失函数，第二项是稀疏正则化项，这里采用L₁范式，将在特征空间中产生一个稀疏解，在w中非0元素所对应的特征将被保留下来，第三项是拉普拉斯正则化项，用于保留整个网络数据的空间分布信息和网络数据自身的拓扑结构信息。λ和β是两个正则化参数，用来平衡三项之间的相对贡献，其值通过在训练数据上通过交叉验证来确定。

对于公式(4)定义的目标函数，采用广泛使用的加速近似梯度算法来优化。在两个公开的fMRI数据集上(即ADHD(Attention Deficit Hyperactivity Disorder)数据集和ADNI(the Alzheimer’s Disease Neuroimaging Initiative))证明了方法的有效性。

下面结合实施例对本发明的技术方案做进一步的详细说明：

本发明的一个具体实施例，列举了在两个公开fMRI数据集上评价提出方法的有效性。表1给出这些数据集的特性。

表1两个数据集的样本的统计信息

MMSE＝Mmi-Mental State Examination

对于ADHD数据集，使用了来自NYU(New York University)站点已经预处理好时间序列数据，详细的预处理步骤可以在http：//www.nitrc.org/plugins/mwiki/index.php/neurobureau：Athena找到。预处理后的数据根据AAL(Automated Anatomical Labeling)将大脑划分90脑区，每个脑区包含了172时间点数据，使用Pearson相关系数构建功能性脑网络。

对ADNI数据集，采用了标准预处理管道，包括时间片(矫正和头动矫正)。利用SPM8(Statistical Parametric Mapping software package)(http：//www.fil.ion.ucl.ac.uk.spm)来完成图像预处理。对每个样本，丢弃前10幅fMRI图像，以确保磁化平衡。对保留图像首先进行切片间采集时间延迟上的矫正，紧接着进行头部运动矫正，消除头部运动的影响。由于脑室(ventricle)区域和白质(white matter，WM)区域包含相对较高的噪声，利用灰质(gray matter，GM)提取血氧水平依赖(the blood oxygenationlevel dependent，BOLD)信号来构建功能连接网络，为了消除WM和CSF可能的影响，每个样本GM组织被进一步用于罩化(mask)它们对应的fMRI图像。fMRI时间序列的第一次扫描被配准到同一样本的T1加权图像，所估计的变换被应用到相同样本其它时间序列。矫正后的fMRI图像首先利用HAMMER的变形配准方法将其配准到同一模板空间，并利用AAL模板把其划分为90个感兴趣的区域(region-of-interest，ROI)。最终，对每个ROI，所有体素(voxel)上平均fMRI时间序列被作为该ROI的时间序列。同样的也使用Pearson相关系数构建功能性脑网络。

由于构建的网络带有权重的全连接图，为了刻画其拓扑结构，首先利用一个给定阈值对每个样本的权重网络进行阈值化，将其转化为一个二值网络。而后，为了减少特征的维数，根据文献，对每个脑区提取了局部聚类系数作为特征，每个样本来自所有脑区特征在一起构成一个特征向量。最后，利用提出的gk-SFS方法执行特征选择。在分类步骤中，采用广泛使用的支持向量机(support vector machine，SVM)技术进行分类。

表2、表3和表4分别总结了所有方法在三个分类任务上的实验结果。其中，将没有执行特征选择(即使用所有从网络中提取聚类系数特征)方法作为baseline用于比较。从表2、表3和图1可以看出，在两个数据集上，提出方法的分类精度和AUC值上都要好于比较的方法。具体而言，在ADHD数据集上，提出方法获得了63.0％的分类精度和0.66的AUC值，而比较方法最好分类精度是61.6％，最好AUC值是0.95；在ADNI数据集上，提出的方法在1MCIvs.eMCI和eMCI vs.NC两个分类任务中，分别得到68.4％和71.7％的分类精度，而比较方法的最好结果分别是61.2％和67.1％。此外，在两个分类任务上，提出方法取得AUC值分别都是0.74，而比较方法的最好结果分别是0.63和0.69。这些结果表明提出方法能够保留网络数据的整体分布信息和网络自身的拓扑信息，从而诱导出更具有判别力的特征。另外，相对于Baseline方法，特征选择方法(包括t-test、Lasso和gk-SFS)能够显著地改进脑网络分类性能，暗示了特征选择的重要性。

表2 ADHD vs.NC的分类性能

表3 1MCIvs.eMCI的分类性能

表4 eMCI vs.NC的分类性能

从图1可以看出，绝大部分β＞0情况下的分类性能要好于β＝0时的性能，表明了Laplacian正则化项的重要性，暗示了提出方法的有效性。另外，固定λ变化β时，颜色变化比较平缓(即分类性能变化较小)，表明提出方法对β参数比较鲁棒。而固定β变化λ时，颜色变化比较明显，暗示提出tg-SFS对λ比较敏感。这也是合理的，由于λ控制稀疏化项，从而确定选择特征的个数。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

1.一种面向脑网络的结构化特征选择方法，其特征在于，包括如下步骤：

步骤二、建立面向脑网络的基于图核的结构化特征选择方法的目标函数；所述步骤二中，给定训练样本集提取的特征矩阵X＝[x₁,x₂…,x_N]∈R^N*d，其中，x_i表示第i个样本的特征向量，i＝1,...,N，N表示训练样本的个数，d表示特征维数；

gk-SFS特征选择方法优化的目标函数是：

其中，矩阵C表示拉普拉斯矩阵，w表示投影向量，λ和β是两个正则化参数；该目标函数包含三项，第一项是损失函数，目标函数中采用了平方损失函数，第二项是稀疏正则化项，目标函数中采用L1范式用于选择具有判别力特征，第三项是拉普拉斯正则化项，用于保留整个网络数据的分布信息和网络自身的结构信息；

步骤五、利用加速近似梯度算法对目标函数进行优化。

2.如权利要求1所述的一种面向脑网络的结构化特征选择方法，其特征在于：所述步骤一中，所构建的是带有权重的全连接网络图，先利用一个给定阈值将权重网络转化为二值网络，用于刻画拓扑结构；然后对每个脑区提取局部聚类系数做特征，用于减少特征维数，来自所有脑区的特征在一起构成一个特征向量。

3.如权利要求2所述的一种面向脑网络的结构化特征选择方法，其特征在于：所述步骤三中，引入如下正则化项：

4.如权利要求3所述的一种面向脑网络的结构化特征选择方法，其特征在于：所述步骤四中，使用图核来定义两个网络的相似性，即对于任意两个网络G_i和G_j，相似性矩阵S定义如下：

M_ij＝k(G_i,G_j)