CN113693563A

CN113693563A - 一种基于超图注意力网络的脑功能网络分类方法

Info

Publication number: CN113693563A
Application number: CN202111000453.0A
Authority: CN
Inventors: 冀俊忠; 任亚亭; 雷名龙
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-08-27
Filing date: 2021-08-27
Publication date: 2021-11-26
Anticipated expiration: 2041-08-27
Also published as: CN113693563B

Abstract

本发明涉及一种基于超图注意力神经网络的脑功能网络分类方法，属于脑科学研究和深度学习的交叉领域。首先，设计了一个超图生成模块，将每个脑网络建模为一个超图以保存高阶信息。然后，为了能够在节点间不存在显式连接边的超图中进一步提取信息，设计了一个超图注意力聚合模块，该模块共分为两个步骤：节点注意聚合和超边注意力聚合，分别用于节点和超边特征的聚合。接着，以端到端方式对两个模块进行联合优化，可随训练过程动态更新超图和节点特征。最后，本发明在ABIDE‑I和ADHD‑200数据集上的实验结果表明了在脑疾病分类中的有效性。此外，识别的异常连接模式和脑区有望成为脑疾病相关的生物标志物。

Description

一种基于超图注意力网络的脑功能网络分类方法

技术领域

本发明涉及脑科学研究领域，具体地说，针对脑功能网络分类目标，设计了一种基于超图注意力网络的脑功能网络分类方法。

背景技术

脑功能网络研究是脑科学领域的一个热点,已被广泛扩展到脑疾病研究、脑认知研究等各方面。脑功能网络是对大脑功能连接的一种简单表示,其中,节点表示脑区,边表示节点间的功能连接。已有研究表明，许多神经和精神疾病通常伴随着部分脑区之间功能连接的中断或异常整合，因此，脑功能网络分析为探索脑疾病与潜在连接异常之间的关联提供了新的途径。近年来，深度学习由于能够自动地从数据中学习其高层特征表达，成为了图像识别、语音识别以及自然语言处理等领域的主流方法。特别地，许多深度学习模型也已经在脑功能网络分类任务中得到了很好的应用。目前，基于深度学习模型分类方法主要包括基于全连接神经网络(Fully connected neural network，FCNN)的方法、基于卷积神经网络(Convolutional neural network，CNN)的方法和基于图神经网络(Graph neuralnetwork，GNN)的方法。早期基于全连接神经网络(Fully connected neural network，FCNN)的方法，如深度自编码器(Deep auto-encoder，DAE)通常将脑功能网络的邻接矩阵直接铺平为特征向量进行输入，忽略了脑网络拓扑结构这一重要特征。此外，这类方法往往需要大量参数，易使模型陷入过拟合。为了解决这些问题，基于卷积神经网络，如BrainNetCNN等采用权值共享机制，在一定程度上解决了过拟合的问题；同时，该方法通过设计特殊的卷积操作，在一定程度上考虑了拓扑结构信息。但CNN是专门为具有规则网状结构的图像设计的，不能直接应用于脑功能网络这类空间结构不规则的数据上；而将脑功能网络表示成规则网状结构不能准确地捕获节点间的非欧邻接关系。

近年来，研究人员开始研究如何将卷积神经网络迁移到图数据上，涌现出ChevNet、MoNet、GCN、GAT等一系列图神经网络方法，在基于图的半监督分类和图表示学习等任务中表现出很好的性能。基本思想是在一组相邻节点上设计参数局部共享的算子，通过消息传递框架将邻居信息聚合到目标节点上。由于能够在图结构的指导下更新节点特征，图神经网络方法在脑网络分析任务中展现出了很好的优势。

然而，目前基于图神经网络的方法仍然存在一些问题：首先，这些方法主要是基于具有成对连接的图结构。然而，脑区间往往存在高阶邻接关系性和复杂结构信息。例如，一组区域通常被组合在一起完成特定的大脑功能。在这种情况下，这些区域之间的邻接关系不再是二元的(成对的)了。其次，由rs-fMRI数据构建的功能连接矩阵中含有许多噪声连接。由于GNNs中的消息传递过程在很大程度上取决于所构造图的质量，这可能会影响到GNNs的性能。现有方法在利用图结构时缺乏适当的策略来消除噪声的影响。

发明内容

针对图神经网络在脑网络分类中未能有效利用复杂高阶结构信息，导致性能难以提高的问题，本发明公开了一种基于超图注意力网络的脑功能网络分类方法(HypergraphAttention Network for Functional Brain Network Classification，FC-HAT)。本发明目标是用超图表示脑功能网络中的高阶结构信息，并在此基础上发展新的卷积运算，以进一步提取信息。与边只能描述成对关系的简单图相比，超图由一组超边组成，超边可以连接任意数量的相关节点。超图可以在图中抽象出更多的信息，并表示更复杂的结构。在此基础上，设计了动态超图生成阶段和超图注意聚合阶段，以构造有效的基于超图结构的图神经网络。

为实现上述目的，本发明采用的技术方案为一种基于超图注意力网络的人脑功能网络分类方法。本发明的流程如图1所示，包含以下几个步骤。1)首先获取原始静息态fMRI数据，并进行预处理。然后利用预处理后的时间序列计算脑区之间相关性,构建脑功能网络数据集；2)根据被试的标签将数据集划分为训练集、验证集各测试集。3)构建超图注意力网络模型(HAT)；4)训练HAT；5)对脑网络进行分类。

FC-HAT模型具体步骤如下：

步骤(1)首先获取原始静息态fMRI数据，并进行预处理；然后利用预处理后的时间序列计算脑区之间相关性，构建脑功能网络数据集；

步骤(1.1)本发明使用静息态fMRI数据构建脑功能网络；数据采集：采集多个被试的数据，每一个被试的数据包含其脑影像数据与被试的标签y，其中，在脑影像数据采集过程中，fMRI技术将人脑划分成S1×S2×S3个小立方体，每一个立方体称为一个体素，并按一定时间间隔对全脑进行T次采样，得到原始脑影像数据

y＝1表示经专业医生诊断该被试患有脑疾病，y＝0则是正常人；

步骤(1.2)数据预处理：包括层间时间校正(Slice Timing Correction)、头动校正(Motion Realignment)、空间标准化(Normalization)、空间平滑滤波(Smoothing)、干扰信号去除(Nuisance Signal Removal)、带通滤波(Band-pass Filtering)和配准(Registration)；

步骤(1.3)脑区划分：首先根据模版将所有体素划分至N个脑区中。常用的模版包括AAL(Anatomical Automatic Labeling)模板，Harvard-Oxford模版等。然后，将每个脑区内所有体素的时间序列取平均，得到所有脑区的时间序列；

步骤(1.4)构建脑功能网络：一个被试的脑功能网络由其邻接矩阵A＝{A_ij}_N×N表示，称为脑功能连接。其中，N表示网络中节点(即脑区)的数量，元素A_ij的值为节点v_i和v_j之间边的强度，表示它们的时间序列之间的统计相似性。常见的相似性度量方法包括皮尔逊相关系数(Pearson Correlation Coefficient)、偏相关(Partial Correlation)以及小波变换(Wavelet Transform)等；

步骤(1.5)获得特征矩阵：一个被试的特征矩阵由X＝{x_i}_N×D表示，令取值为A。其中，N表示脑功能网络中节点(即脑区)的数量，元素x_i表示第i个节点的特征向量，D表示每个特征向量的维度。

步骤(2)数据集划分：将所有被试划分为训练集、验证集和测试集。其中，训练集用于学习神经网络的参数；验证集用于确定网络结构和超参数；测试集用于验证神经网络分类效果。

步骤(3)构建超图注意力网络模型(Hypergraph Attention Network，HAT)，用于人脑功能网络的分类:该模型的输入为一个被试的脑功能连接矩阵A以及节点特征矩阵X,输出为模型判定该被试为健康以及患病的概率[p(y＝0)p(y＝1)]^T。当arg max_cp(y＝c)＝0时，模型判定该被试为正常人；若等于1，则为患者。如图1所示,模型主要由动态超图生成和超图注意力聚合2个模块组成：

步骤(3.1)学习初始的节点嵌入矩阵：该步骤采用图卷积操作实现，输入为特征矩阵X，脑功能网络邻接矩阵A，输出为节点的初始嵌入矩阵Z⁽¹⁾，具体公式如下：

其中，Z⁽¹⁾为第一层图卷积习得的节点的初始嵌入矩阵，Z⁽⁰⁾＝X，D为邻接矩阵A对应的度矩阵,W⁽⁰⁾为待训练的参数矩阵，σ为激活函数；

步骤(3.2)超图生成模块：超图的生成方式分为显式和隐式：显式超图方法基于固有的结构信息生成超图，隐式超图方法基于特征空间的嵌入生成超图。为了避免噪声的影响，本发明使用的是隐式超图生成方法。

该步骤综合使用KNN和K-Means来实现，用于为超图中的每个节点v_i找到对应的超边集合ρ(v_i)。该模块的输入为节点嵌入矩阵Z^(l),l＝1,…,L代表网络的层数，输出为超图

①KNN算法：对于每个节点v_i，计算特征嵌入矩阵Z^(l)中第i个元素与其他N-1个元素之间的距离，找到与其距离最近的k₁个节点，将这与节点v_i一起构成属于节点v_i的第一条超边e₁；

②K-Means算法：首先先随机指定k个簇中心节点，然后全局计算特征嵌入矩阵Z^(l)中每个元素与簇中心之间的距离，最后根据距离将所有的节点划分到C个簇中。然后，计算每个节点v_i与每个簇中心的欧式距离，将距离最近的簇设为属于节点v_i的第二条超边e₂。

基于步骤①和步骤②，由于每个节点v_i都获得一个超边集合ρ(v_i)＝(e₁,e₂)，因此得到了由所有节点

和对应的所有超边集合

所构成的超图

步骤(3.3)超图注意力聚合模块：由于超图中的节点之间不存在显式的连接，只有节点与超边之间的连接。因此，节点之间的信息传播需要依赖于超边来完成。由此设计了超图注意力聚合模块，该模块由节点注意力聚合和超边注意力聚合两个步骤组成。输入为节点嵌入Z^(l-1)，输出为节点嵌入Z^(L)，l＝2,…,L,具体的过程如下：

①节点注意力聚合：该步骤用于将节点特征聚合到超边上，输入为节点嵌入矩阵Z^(l-1)，输出为超边嵌入矩阵

首先使用MLP获得节点的注意力权重矩阵T，然后利用权重矩阵T对原嵌入矩阵Z^(l-1)做变换，最后使用一维卷积得到最终的超边嵌入

这个过程可以表述为：

T＝MLP(Z^(l-1)) (2)

②超边注意力聚合：该步骤用于将超边特征聚合到节点上，输入为超边嵌入矩阵

输出为节点嵌入Z^(l)。具体来说，本发明首先使用MLP和Softmax得到每条超边的注意力权重,第l次迭代每个节点v_i的嵌入

即为第l次迭代ρ(vi)中所有超边的嵌入加权和，这个过程可以表述为：

其中，

为

中第j个行向量，表示超边e_j在第l层的嵌入向量，

为

中第j个行向量，表示

对应的注意力权重。

步骤(3.4)循环更新超图与节点嵌入矩阵：该步骤迭代执行L-1次步骤(3.2)与步骤(3.3)，该步骤的输入为第l(l＝1,…,L-1)层产生的节点嵌入矩阵Z^(l)，最后的输出为节点嵌入矩阵Z^(L)。

步骤(3.5)脑功能网络特征提取及预测：该步骤由Readout函数，全连接(Fullyconnected，FC)层以及一个Softmax函数组成。输入为节点嵌入矩阵Z^(L)，输出为模型判定该被试为健康以及患病的概率[p(y＝0) p(y＝1)]^T。

①Readout函数：将所有节点的嵌入加和为整个脑功能网络的特征，具体计算方式如下：

其中，

是Z的第i个行向量，表示节点v_i在第l层的嵌入，z_g为该被试对应脑功能网络的特征。

②全连接层：以z_g作为所述全连接层的输入，通过式(7)对其降维变换，并通过激活函数σ进行非线性特征变换，得到输出logits为

z_logits＝σ(MLP(z_g)) (7)

全连接层输出的特征维数为模型分类任务的类别数量C，C＝2。

③Softmax分类器：所述神经网络的最后一层是Softmax分类器，其输入为z_logits。式(8)给出了Softmax层的定义：

其中， 0<p(y＝c)<1表示模型将被试分类至第c类别的概率，z_logits,i为z_logits中第i个元素。

④模型代价函数：本发明所述的一种基于超图注意力网络的脑功能网络分类方法的输入为一个被试的脑功能连接A及特征矩阵X，然后得到该被试属于各个类别的概率p(y⁽ⁿ⁾＝c)。若给出N_s个被试的数据集D，分别表示每个被试的脑功能连接矩阵，特征矩阵以及标签，则模型在该数据集上的整体代价函数如式(9)所示：

其中，

为神经网络中所有权重参数。

表示交叉熵

p(y⁽ⁿ⁾＝c)表示模型判定第n个样本属于第c类的概率。

表示模型中参数的正则项，用于避免过拟合现象

步骤(4)训练HAT；针对步骤(2)中的训练集，利用Adam自适应优化算法最小化步骤(3)中所述代价函数，并根据模型在验证集上的分类准确率确定神经网络的结构和超参数,最终确定的模型超参数。

步骤(5)将待分类被试的脑功能连接A及特征矩阵X输入训练完成的HAT，完成对脑网络的分类。首先，将步骤(3.1)中的训练集X^train和测试集X^test输入到由步骤(4)确定的模型中；然后，利用10次五折交叉验证法，得到对ASD患者的分类准确率，由此实现对脑疾病发现和诊断帮助。

本发明所提方法能够在脑功能网络中捕获到隐式的高阶功能连接信息。首先，设计了一个超图生成模块，将脑功能网络表示为超图，该阶段既保留了脑功能网络中的成对结构信息，也保留了社区结构信息。然后，设计了一个超图注意力聚合模块，通过超边完成节点间的信息聚合，其中的注意机制能够在聚集过程中区分邻居节点的重要性。接着，在训练过程中通过不断迭代超图生成模块与超图注意力聚合模块，使超图和节点特征动态地更新和优化。最后，通过对脑功能网络更加准确和细致的表示，分类效果提升明显。

附图说明

图1：FC-HAT脑功能网络分类方法框架图。

图2：动态超图生成示意图。

图3：超图注意力聚合过程示意图。

具体实施方式

下面以ABIDE-I和ADHD-200数据集为例，说明本发明的具体实施步骤：

步骤(1)获取数据集并进行预处理：

步骤(1.1)数据说明：本发明使用静息态fMRI数据构建脑网络(脑功能网络)。本发明使用了两个真实数据集ABIDE-I和ADHD-200。ABIDE-I包括来自17个国际站点的1112名受试者，ADHD-200包括来自8个站点的850名受试者。

步骤(1.2)数据预处理：本发明采用预处理连接体项目(PreprocessedConnectomes Project)管道预处理rs-fMRI数据。PCP项目公开发布和共享了由四个不同预处理流程对各个站点数据进行预处理后的数据，本发明所用数据由Data ProcessingAssistant for Resting-State fMRI(DPARSF)软件执行预处理操作。在预处理过程中,为避免扫描开始时的匀场效应及受试者初入环境的不适应对结果造成影响，首先去除每个被试的前4个时间点对应的全脑影像。数据预处理流程主要包括:层间时间校正(s]icetiming correction)、头动校正(Motion realignment)、空间标准化(Normalization)、空间平滑滤波(Smoothing)、干扰信号去除(Nuisance Signal Removal)、带通滤波(Band-pass Filtering)和配准(Registration)。在获取的预处理数据中，由于值为0的BOLD信号向量会产生无意义的皮尔逊相关，所以去除了这些经过PCP预处理的样本。因此，从包含569例典型对照和527例ASD患者的ABIDE-I数据集中获得1096个功能性脑网络。ADHD-200数据集中获得520个功能性脑网络，其中包含329个典型对照和191个ADHD患者。

步骤(1.3)脑区划分：本发明首先通过自动解剖标记(Anatomical AutomaticLabeling，AAL)模板选择90个脑区作为感兴趣脑区；然后，提取相应的平均时间序列；得到所有脑区的时间序列

步骤(1.4)构建脑功能网络：计算90个脑区中任意两个脑区之间的统计相似性，得到每个被试对应的邻接矩阵A，大小为90*90，该矩阵A与被试的脑功能网络相对应。本实施例中使用皮尔逊相关系数表示时间序列之间的统计相似性。给定每个节点v_i的时间序列

其中τ表示时间序列的长度，每对大脑区域之间的皮尔逊相关系数(Pearson Correlation Coefficients，PCC)可以表示为:

步骤(1.5)获得特征矩阵：一个被试的特征矩阵由X＝{x_i}_N×D表示，令取值为A。其中，N表示脑功能网络中节点(即脑区)的数量，元素x_i为X的第i个行向量，表示节点v_i的特征向量，D表示每个特征向量的维度，此时D＝N。

步骤(3)构建超图注意力网络模型(Hypergraph Attention Network，HAT):该模型的输入为一个被试的脑功能连接矩阵A以及节点特征矩阵X,输出为模型判定该被试为健康以及患病的概率[p(y＝0)p(y＝1)]^T。当arg max_cp(y＝c)＝0 时，模型判定该被试为正常人；若等于1，则为患者。模型主要由动态超图生成和超图注意力聚合2个模块组成：

步骤(3.1)学习初始的节点嵌入矩阵：该步骤采用图卷积操作实现，输入为特征矩阵X，脑功能网络邻接矩阵A，输出为节点的初始嵌入矩阵Z⁽¹⁾。具体公式如下：

其中，Z⁽¹⁾为第一层图卷积习得的嵌入矩阵，Z⁽⁰⁾＝X，D为邻接矩阵A对应的度矩阵,W⁽⁰⁾为待训练的参数矩阵，σ为激活函数。

该步骤综合使用KNN和K-Means来实现，用于为超图中的每个节点v_i找到对应的超边集合ρ(v_i)，该模块的输入为节点嵌入矩阵Z^(l),l＝1,…,L代表网络的层数，输出为超图

和对应的所有超边集合

所构成的超图

这个过程可以表述为：

T＝MLP(Z^(l-1)) (15)

输②超边注意力聚合：该步骤用于将超边特征聚合到节点上，输入为超边嵌入矩阵

其中，

为

中第j个行向量，表示超边e_j在第l层的嵌入向量，

为

中第j个行向量，表示

对应的注意力权重。

其中，

②全连接层：以Z^(L)作为所述全连接层的输入，通过式(20)对其降维变换，并通过激活函数σ进行非线性特征变换，得到输出logits为

z_logits＝σ(MLP(z_g)) (20)

③Softmax分类器：所述神经网络的最后一层是Softmax分类器，其输入为z_logits。式(21)给出了Softmax层的定义：

④模型代价函数：本发明所述的一种基于超图注意力网络的脑功能网络分类方法的输入为一个被试的脑功能连接A及特征矩阵X，然后得到该被试属于各个类别的概率p(y⁽ⁿ⁾＝c)。若给出N_s个被试的数据集D，分别表示每个被试的脑功能连接矩阵，特征矩阵以及标签，则模型在该数据集上的整体代价函数如式(22)所示：

其中，

为神经网络中所有权重参数。

表示交叉熵

p(y⁽ⁿ⁾＝c)表示模型判定第n个样本属于第c类的概率。

表示模型中参数的正则项，用于避免过拟合现象

步骤(4)针对步骤(2)中的训练集，利用Adam自适应优化算法最小化步骤(3)中所述代价函数，并根据模型在验证集上的分类准确率确定神经网络的结构和超参数,最终确定的模型超参数。

步骤(5)首先，将步骤(3.1)中的训练集x^train和测试集X^test输入到由步骤(4)确定的模型中；然后，利用10次五折交叉验证法，得到对ASD患者的分类准确率，由此实现对脑疾病发现和诊断帮助。

为了说明本发明所述方法的有益效果，在具体实施过程中，本发明在多种不同算法上进行对比试验，包括：FC-HAT，s-GCN，CNN EW，BrainNetCNN，DAE，SVM和LASSO。FC-HAT代表本发明所述的方法，s-GCN代表基于图卷积神经网络的脑功能网络分类方法，网络结构具有为2层网络层，隐藏层特征数为64；CNN-EW和BrainNetCNN是基于传统卷积神经网络的人脑功能网络分类方法，网络结构都采用了两个卷积层和两个最大池化层，其中卷积层包含64个形状为3×3的卷积核；DAE作为全连接神经网络代表，将其设计为除了输入层和输出层以外，还包含300和96个神经元的4层全连接神经网络。另外，具体实施过程中还选择了广泛使用的传统机器学习算法--支持向量机(Support Vector Machine，SVM)和最小绝对收缩和选择算子(Least Absolute Shrinkage and Selection Operator，LASSO)。为了公平比较，上述方法中的所有超参数都调为基准数据集中的最优参数。

表1 7种算法在ABIDE-I数据集上的分类结果，包括：准确率、灵敏度、特异度、阳性预测值和阴性预测值。

表2 7种算法在ADHD-200数据集上的分类结果。

为了充分验证本方法的优越性，采用定量分析作为评价方式，在ABIDE-I和ADHD-200数据集上将FC-HAT与s-GCN，CNN EW，BrainNetCNN，DAE，SVM和LASSO等已有的方法进行了效果比较，使用准确率、灵敏度、特异度、阳性预测值和阴性预测值这五个评价指标对结果进行了评价，这五种评价指标已经广泛应用于脑功能网络的定量评价中。表1和表2分别为ABIDE-I和ADHD-200数据集上的分类结果，从表1可以看到，对于ABIDE-I数据，本发明在所有指标上都取得了最好结果；对于ADHD-200数据集，由于该数据集的患病率偏低(776个被试中仅包含285个病例)，导致本发明在特异度与阳性预测值这两个指标上的结果比最佳的传统机器学习方法LASSO略低，除此之外，本发明在其他重要的指标上仍然明显优于其他方法，尤其是准确率和敏感度。相较于同样使用图神经网络的s-GCN方法，本发明提出的超图神经网络能够更好地提取脑功能网络中低阶和高阶的结构特征，使得脑功能网络结构特征会更加准确，分类效果提升明显。

本发明提出了一个超图注意力网络来提取脑功能网络的底层信息和高阶信息。首先，构建了一个动态超图生成模块来构造超图并对其动态地优化，所生成的超图不仅同时具有成对和高阶的邻接关系，还消除了噪声的影响。然后，为了设计一个能够用于超图的图神经网络，本发明分别设计了节点聚合和超边聚合，通过交替更新节点嵌入和超边嵌入，完成超图上的信息传播过程，获得最终的节点嵌入。本发明所述方法能够很好地利用人脑功能网络数据的拓扑结构信息进行特征表达，以更准确地对脑网络进行分类。如表1和表2所示，本发明所述方法在ABIDE-I和ADHD-200数据上都取得了最好的分类结果。因此，本发明所述方法合理可靠，可为脑疾病诊断提供有力的帮助，在未来的实际应用中具有良好的应用前景。