CN114748053A

CN114748053A - 一种基于fMRI高维时间序列的信号分类方法及装置

Info

Publication number: CN114748053A
Application number: CN202210216938.1A
Authority: CN
Inventors: 冯昊; 方翰铮; 董帅; 张明卫; 赵羽茜; 杨扬
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2022-03-07
Filing date: 2022-03-07
Publication date: 2022-07-15

Abstract

本发明公开了一种基于fMRI高维时间序列的信号分类方法及装置，涉及机器学习技术领域，仅使用功能磁共振成像数据而不考虑任何人口统计信息来对受试者进行分类，同时不需要专业人士进行特征标注的深度学习分类算法。数据的每个时间步通过使用卷积神经网络来自动提取特征，生成一个新的表示，然后输入到时序模型Transformer中对时序特征进行学习，最后对学习后的数据进行分类。与传统的机器学习方法相比，深度学习可以直接从复杂的高维数据中学习最佳的特征表示，省去了繁杂不稳定的特征选择过程。有助于解决特征选择方面的困难，与传统的机器学习分类器相比，更适合处理维度过大的原始数据。

Description

一种基于fMRI高维时间序列的信号分类方法及装置

技术领域

本发明涉及机器学习技术领域，特别是涉及一种基于fMRI高维时间序列的信号分类方法及装置。

背景技术

功能磁共振成像(fMRI，functional Magnetic Resonance Imaging)是研究人脑功能和功能障碍的一种强有力的神经成像技术。

对于fMRI四维时间序列，之前的研究主要关注于功能连接矩阵：把原始数据(61，73，61，190)中所有的时间序列找出来(61*73*61，190)，然后进行脑区划分，假设划分为200个脑区，数据表示为(200，190)，然后对每个脑区的时间序列进行连接强度分析，即计算皮尔逊相关系数：

其计算结果为介于-1和1之间的数值，相关系数趋于-1或1时，表明两个变量x和y的相关性增强，反之，相关系数趋于0时，两个变量的相关性减弱。若计算结果为正值，表明变量之间呈正相关，反之，呈负相关。基于皮尔逊相关系数计算功能连接矩阵FC用于直接分析，或采用复杂网络理论对其进一步分析的方法已经被诸多研究应用，是目前应用最为广泛的相关系数之一。

使用传统的机器学习技术对神经影像数据进行分析，往往需要构建功能连接矩阵(FC)作为生物标志物，但是，大脑的每个区域不一定都与神经疾病有关，一个或多个区域的异常可能不是分类的标志，此外，使用皮尔逊相关系数来计算功能连通矩阵是通过忽略其他区域的影响来计算的。但是，可能存在一个脑区驱动另外两个脑区的情况，也称为三角功能网络。并且在分类前往往需要和医生结合，进行手工特征标注，费时费力。

同时，许多研究在他们的方法中使用了受试者的人口统计信息，如年龄、智商和性别，或者在他们的分析中使用了具有特定统计信息的受试者的子集。少数研究只使用功能磁共振成像数据，而在分析中没有考虑任何人口统计学信息，对受试者进行分类。虽然包含其他信息可能会提高预测的准确性，但仅依靠大脑功能磁共振成像数据来进行分类，这是一项更具挑战性的任务。

发明内容

本发明的目的是提出一种基于fMRI高维时间序列的信号分类方法及装置，仅使用功能磁共振成像数据而不考虑任何人口统计信息来对受试者进行分类，同时不需要专业人士进行特征标注的深度学习分类算法。数据的每个时间步通过使用卷积神经网络来自动提取特征，生成一个新的表示，然后输入到时序模型Transformer中对时序特征进行学习，最后对学习后的数据进行分类，为了增加样本数量并避免过拟合，本发明中使用一种称为少数样本过采样(SMOTE)的技术将人工数据增加到训练集中。与传统的机器学习方法相比，深度学习可以直接从复杂的高维数据中学习最佳的特征表示，省去了繁杂不稳定的特征选择过程。神经网络将非线性变化应用于原始数据，非线性变换为输入数据提供了具有高级抽象意义的隐藏特征，这些隐藏特征在低维的数据空间中提供更多的信息。这些优点有助于解决特征选择方面的困难，与传统的机器学习分类器相比，更适合处理维度过大的原始数据。

为此，本发明提供了以下技术方案：

一方面，本发明提供了一种基于fMRI高维时间序列的信号分类方法，所述方法包括：

S1、获取fMRI数据；

S2、对获得的fMRI数据进行数据预处理，得到4D时空序列；

S3、采用基于深度学习的双通道C2D-Transformer网络架构的信号分类模型中的特征选择模块对预处理之后得到的4D时空序列进行特征选择；所述特征选择模块使用健康人作为对照组采用双样本T检验来确定重症精神疾病患者和健康人之间存在显著差异的体素；利用大脑掩膜过滤掉离散变量性别和连续变量年龄的影响因素，采用高斯随机场矫正，筛选出具有显著性差异的若干个体素；

S4、将特征选择之后的时空序列输入至所述信号分类模型中的空间特征提取模块提取每一个时间步上的空间特征；所述空间特征提取模块采用双通道架构的卷积神经网络进行特征提取；

S5、将各个时间步的空间特征表示进行拼接，将拼接后的空间特征表示输入所述信号分类模型中的时间特征提取模块中提取时序特征，所述时间特征提取模块采用多层次堆叠的Transformer Encoder进行时序特征提取；

S6、将所述时间特征提取模块得到的时序特征向量在时间维度进行平均池化，得到表示向量，所述时序特征反映大脑每个时刻的状态；使用所述信号分类模型中的分类模块对该表示向量进行分类，所述分类模块为全连接网络，所述分类模块以判断在一段时间内大脑状态的转变是否异常作为分类的判断依据，得到信号分类结果。

进一步地，对获得的fMRI数据进行数据预处理，得到4D时空序列，包括：

时间层校正和头动校正，由于图像在采集过程中为交叉采集，需要校正层与层之间的时间差，并将超出头部运动范围的数据剔除；

将T1图像分割，将分割得到的图像与校正后的功能像进行配准；

将配准后的图像标准化到MNI空间；

用全宽半高为6×6×6mm³的高斯核进行空间平滑；

去除线性漂移；

滤波，将信号通过带通滤波分为0.01-0.08Hz，0.01-0.027Hz，0.027-0.073Hz，0.073-0.198Hz四个频段。

进一步地，Transformer包括：多头注意力模块和前馈神经网络模块；其中：

所述多头注意力模块首先将第l层的特征表示H^l线性映射到不同的h个子空间中，这些映射具有不同的可学习参数，然后并行应用注意力函数生成输出表示，采用全连接层融合拼接输出并再次进行映射，得到多头注意力模块的最终输出；

所述前馈神经网络模块由两个线性变换组成，两个线性变换之间具有高斯误差线性单元GELU激活函数。

进一步地，Transformer Encoder在两个子层之间都应用了残差连接，并进行层归一化操作来加速网络的训练。

进一步地，在训练所述信号分类模型时，当训练样本比较少时，在原有损失函数的基础上添加L1或L2正则化的方式减少过拟合现象。

进一步地，在训练所述信号分类模型时，当训练样本比较少时，使用少数样本过采样SMOTE方法将人工数据增加到训练集中以增加样本数。

又一方面，本发明还提供了一种基于fMRI高维时间序列的信号分类装置，所述装置包括：

获取单元，用于获取fMRI数据；

预处理单元，用于对获得的fMRI数据进行数据预处理，得到4D时空序列；

特征选择单元，用于采用基于深度学习的双通道C2D-Transformer网络架构的信号分类模型中的特征选择模块对预处理单元得到的4D时空序列进行特征选择；所述特征选择模块使用健康人作为对照组采用双样本T检验来确定重症精神疾病患者和健康人之间存在显著差异的体素；利用大脑掩膜过滤掉离散变量性别和连续变量年龄的影响因素，采用高斯随机场矫正，筛选出具有显著性差异的若干个体素；

空间特征提取单元，用于将特征选择单元进行特征选择之后的时空序列输入至所述信号分类模型中的空间特征提取模块提取每一个时间步上的空间特征；所述空间特征提取模块采用双通道架构的卷积神经网络进行特征提取；

时间特征提取单元，用于将空间特征提取单元得到的各个时间步的空间特征表示进行拼接，将拼接后的空间特征表示输入所述信号分类模型中的时间特征提取模块中提取时序特征，所述时间特征提取模块采用多层次堆叠的Transformer Encoder进行时序特征提取；

分类单元，先将时间特征提取单元得到的时序特征进行平均池化，得到特征表示向量，然后使用所述信号分类模型中的分类模块对表示向量进行分类，所述时序特征反映大脑每个时刻的状态；所述分类模块为全连接网络，所述分类模块以判断在一段时间内大脑状态的转变是否异常作为分类的判断依据，得到信号分类结果。

本发明的优点和积极效果：

本发明使用深度学习方法从客观影像学的角度研究用以发现标志不同脑功能障碍模式的生物学标志物。通过分析现有方法在处理高维数据，提取特征模式上的不足，从而提出了基于深度学习的双通道C2D-Transformer网络模型。对脑影像数据进行特征选择和提取，通过分析精神疾病患者和健康人的脑影像数据，从中提取差异脑区。与现有的技术相比，本发明通过加入注意力机制对病人脑部异常状态进行定向捕捉，针对病人差异脑区进行网络权重的再分配，增强对病变脑区的学习效果，显著提高了分类准确率，在ANDI提供的数据集上采用5折交叉验证的方式进行试验，得到基于双通道2D-CNNTransformer模型的平均准确率为0.912，平均精度为0.90，平均召回率为0.896，平均F1值为0.92，相较于传统的功能连接矩阵进行特征提取，然后使用SVM进行分类的方法，准确率提高了4％，召回率提高了3％，这证实本发明中的方法相较于传统的方法效果显著，所开发的深度学习模型在捕捉核磁共振影像的异常模式方面是卓有成效的。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中一种基于fMRI高维时间序列的信号分类方法流程示意图；

图2本发明实施例中TransformerEncoder模型的示意图；

图3为本发明实施例中多头注意力机制的示意图；

图4为本发明实施例中异常的脑部活动示意图；

图5为本发明实施例中Self-Attention中的short-cut连接示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明主要解决基于fMRI的信号分类问题，克服对三维医学扫描影像的分析负担，设计了一个基于注意力机制的双通道二维卷积神经网络的分类器。本发明先对数据进行特征提取，对于被试每个时间点的脑部影像信息采用双通道卷积神经网络提取空间特征，然后使用全连接网络进一步降维生成特征向量，送入Transformer中提取时间特征后生成被试的表示，最后使用不同的分类器进行分类。

如图1所示，其示出了本发明实施例中一种基于fMRI高维时间序列的信号分类方法的流程示意图，该方法包括以下步骤：

S1、获取fMRI数据；

本发明实施例的受试者数据全部来源于阿尔茨海默症神经影像计划(Alzheimer's Disease Neuroimaging Initiative，ADNI)数据库(http://adni.loni.ucla.edu)。该数据库最早成立于2003年，致力于探索疾病发展过程中的生物标志物，建立了庞大的临床信息和影像资料库为研究者提供数据资料，数据类型包括MRI、PET、fMRI及其他生物标记数据。该数据库支持了近年诸多关于AD进展的研究工作，目的在于能够尽可能提前检查或筛选出潜在的认知障碍患者，并确定有效的生物标志物追踪病情发展，协助研究人员和医务人员开发新的诊断方法和治疗方案。ADNI的开发共包含三个阶段：ADNI1、ADNIGO和ADNI2，在ADNI2阶段，研究人员按照MCI病情的发展引入了EMCI和LMCI的概念，EMCI代表在标准记忆测试中低于平均值，标准差在1.0-1.5之间的患者，LMCI代表在相同测试中低于平均值，标准差在1.5以上的患者。该计划凭借大量的数据和多层次的研究方式极大地促进了AD的研究，为之后对于该疾病的研究和探索奠定了坚实的基础。

本发明收集ADNI数据库中的rs-fMRI数据，包括40例AD受试、39例LMCI受试、42例EMCI受试和40例NC受试，受试者具体信息如表1所示。

表1

	NC	EMCI	LMCI	AD
					样本数	40	42	39	40
性别(男/女)	19/21	18/24	26/13	17/23
					年龄(均值/方差)	77.45/6.90	71.64/7.13	72.46/7.76	74.83/7.84
MMSE(均值/方差)	28.81/1.61	27.83/1.94	26.97/2.29	20.22/3.94
					CDR(均值/方差)	0.07/0.21	0.51/0.17	0.53/0.16	0.96/0.41

其中MMSE指简易智力状态检查量表(Mini-mental State Examination，MMSE)，是痴呆筛查的首选量表，满分为30分，其分数在27-30分时表示受试者认知正常，在21-26分表示轻度认知功能障碍，10-20分表示中度认知功能障碍，0-9分为重度认知功能障碍。CDR为临床老年痴呆量表(Clinical Dementia rating，CDR)，是医生通过与患者及其家属交谈中获得信息完成对患者认知受损程度的评估，结果分为5个等级：0分表示健康，0.5分表示可疑痴呆，1分表示轻度痴呆，2分表示中度痴呆，3分表示重度痴呆。

S2、对获得的fMRI数据进行数据预处理，得到4D时空序列；

fMRI是对脑功能的成像，具体来说，fMRI测量血流动力学的变化，即血流的变化，这种测量又被称为血氧水平依赖(BOLD)。人脑在三维空间中，可以看成由很多个体素(三维小立方体)构成。每个体素又有一组时间序列值，因此原始的fMRI是4D的影像。影像数据均采用场强为3T的MR扫描仪得到，图像采用平面回波成像(echo-planar imaging，EPI)序列采集，扫描层数为48层，层厚为3.31mm，射频重复时间TR为3s，回波时间TE为30ms，体素大小为3.13mm×3.13mm×3.13mm，共采集140个时间点。本发明实施例中所收集rs-fMRI数据的预处理由DPARSF(Data Processing Assistant for Resting-State fMRI，http://www.restfmri.net)工具箱和spm12软件包(http://www.fil.ion.ucl.ac.uk/spm/software)完成。具体地，预处理流程包括：

S201、时间层校正和头动校正，由于图像在采集过程中为交叉采集，需要校正层与层之间的时间差，并将超出头部运动范围(平动>2.0mm，旋转>2.0°)的数据剔除；

S202、将T1图像分割，将分割得到的图像与校正后的功能像进行配准；

fMRI(functional)功能成像，是基于大脑进行某项活动时局部脑区血氧水平的变化，进而引起脑部局部磁场的变化来观察进行某项任务时所谓“脑激活”情况，是BOLD信号成像。T1图像可以简单理解为在射频脉冲的激发下，人体组织内氢质子吸收能量处于激发状态，激发状态有纵向弛豫和横向弛豫两种差别；T1图像为纵向弛豫，在此射频脉冲的激发下，成像更有利于观察解刨结构；T2图像为横向弛豫，更有利于显示组织病变。

S203、将配准后的图像标准化到MNI空间(MNI空间是Montreal NeurologicalInstitute根据一系列正常人脑的磁共振图像而建立的坐标系统)；

S204、用全宽半高为6×6×6mm³的高斯核进行空间平滑；

S205、去除线性漂移；

S206、滤波，将信号通过带通滤波分为0.01-0.08Hz，0.01-0.027Hz，0.027-0.073Hz，0.073-0.198Hz四个频段。

实验环境设置为：NvdiaGTX1080ti，内存大小11GB。使用ADAM优化器执行实验中的所有训练步骤。优化器参数设置为β1＝0.5，β2＝0.9，学习率设置为不断衰减，初始值设置为10^-5，分类器的学习率设置为10^-3。

S3、采用基于深度学习的双通道C2D-Transformer网络架构的信号分类模型中的特征选择模块对预处理之后得到的4D时空序列进行特征选择；所述特征选择模块使用健康人作为对照组采用双样本T检验来确定重症精神疾病患者和健康人之间存在显著差异的体素；利用大脑掩膜进行过滤，采用高斯随机场(GRF)矫正离散变量性别和连续变量年龄的影响因素，筛选出具有显著性差异的若干个体素。

双样本T检验过滤后的体素值有一部分是由于个体性别和年龄差异引起的，高斯随机场用于消除这种差异带来的影响。显著性水平和阈值是高斯模型计算时代入的两个最优参数。在具体实施时，先使用双样本T检验确定重症精神疾病患者和健康人之间存在显著差异的体素在fMRI时间序列切片中的空间位置信息，将该信息存入npy文件保存，在执行代码时会动态读取该npy文件，符合文件空间位置信息的体素值将会被保存，其余体素值置零，以达到过滤的效果。

最终从全脑41285个体素中筛选出具有显著性差异的2175个体素。

S4、将特征选择之后的时空序列输入至所述信号分类模型中的空间特征提取模块提取每一个时间步上的空间特征；所述空间特征提取模块采用双通道架构的卷积神经网络进行特征提取。

由于人脑是一个三维的立体的结构，因此在进行特征提取时需要用到二维的卷积层。2D-CNN的复杂结构使其拥有一定程度的平移、缩放和旋转不变性。该网络主要由具有可学习权重和偏差的神经元组成，形成卷积层。在卷积过程中，卷积核的每个神经元计算其权重与其对应的输入区域之间的点积。卷积层由一组小的、可学习的、能延伸到输入层所有深度的过滤器组成。在卷积过程中，过滤器看到某个类型的特征时将被激活。而双通道的架构允许在每个通道中设计不同尺寸的卷积核大小，从而可以从不同的尺度来观察和分析数据集。相对于单通道单尺度的模型来讲，其性能得到显著提高，显著减少不必要训练时间，且受数据抖动的影响小。本发明通过大量实验验证发现，多通道多尺度的模型能更快使损失函数值下降、更快收敛且进行交叉验证实验时的效果更稳定，其成功表现比许多单通道模型有明显优势。

将空间特征提取过后的三维脑电信息展平为特征向量作为全连接网络的输入，以便全连接网络对特征向量进一步降维，降维后的向量将作为这个时间步的表示，此时数据的格式为(190，1024)。

对经过双样本T检验后筛选出的特征进行降维，从高维的原始特征空间中过滤掉大量无关、冗余的信息，进而转化到低维特征空间提取出关键的有代表性信息。国内外专家学者已经尝试过非常多的降维算法，包括PCA、ICA、LDA、t-SNE、核方法等。但是这些方法在处理具有高维度、非线性、且拥有复杂结构的数据时效果并不是很理想。原因在于PCA等传统的降维算法只能做线性特征映射。而使用脑影像中的体素值与精神评定量表做斯皮尔曼相关分析和典型相关分析来降维的方法的缺点在于：一是引入主观因素精神评定量表，病人在做心理测试题时会存在不能如实回答真实情况，这样进行的分析必然受主观因素影响，会不准确。二是单独的拿某个体素来进行分析，人脑是一个连续的相互作用的整体，体素之间会相互影响作用来展现一种模式，以体素为单位的方式可能会存在不准确性，不能准确提取出反应大脑活动特征的模式。

相比之下使用非线性激活函数的卷积神经网络更加实用。它既能做线性变换，也能做非线性变换，需花费一定时间训练，依靠反向传播逐步优化收敛到最优。虽然每次的训练结果都会因为初始化不同而有所不同，但最终模型收敛，能很好的捕获不同样本之间的差异，与集成学习框架相结合也可以使模型变得更稳定和健壮。通过设置一定的维度约束和稀疏化约束，具体需求都能通过调节不同的参数而改变，因此神经网络在捕获大脑特征模式时比PCA等技术更胜一筹。

S5、将各个时间步的空间特征表示进行拼接，将拼接后的空间特征表示输入所述信号分类模型中的时间特征提取模块中提取时序特征，所述时间特征提取模块采用多层次堆叠的Transformer Encoder进行时序特征提取。

脑电信息的每一个时间步经由双通道架构的CNN特征提取模块和线性特征提取模块之后，整合为(samples，time_steps，vector_size)格式的三维张量，输入到多层次堆叠的Transformer Encoder组成的时序特征提取模块。给定一个长度为time_steps的输入序列，通过应用Transformer层来迭代计算每个位置i的每层l上的隐藏表示h，这些特征会通过许多层的Transformer。在每一层，通过加权求和所有其他输入的特征嵌入，为每个特征向量生成一个新的上下文嵌入，权重由多头注意力矩阵(Multi-Head Attention)决定。

本发明在处理时序信息时通过注意力机制来对脑部异常状态进行捕捉，相较于基于FC(功能连接矩阵)，判断一个人是否生病的依据是看他的大脑脑区间的连接是否有异常。本发明中的信号分类模型不以功能连接矩阵为判断依据，而是对人大脑每个时刻的状态生成一个表示，判断人在一段时间内大脑状态的转变是否异常来作为分类的判断依据，如图4所示。

在对人的脑部活动记录的过程中，病人较健康人可能会出现异常的脑部活动，或者是特定的脑部活动的频率增加，为了使神经网络能够有效的捕捉到这种异常的状态，本发明中引入了注意力机制，通过对数据的学习，分配每个时间步不同的权重，让网络关注重要的特征，抑制不重要的特征，提高分类的准确率。

同时，相较于传统的时序模型，如RNN、LSTM和GRU。他们的计算次序限制为顺序的，也就是说RNN相关算法只能从左向右依次计算或者从右向左依次计算，这种机制带来了两个问题：当下时间步的计算依赖上一时刻的计算结果，因而限制了模型的并行能力；同时顺序计算的过程中信息会不断衰减直至丢失，尽管LSTM等门机制的结构一定程度上缓解了长期依赖的问题，但是对于特别长期的依赖现象，LSTM依旧无能为力。Transformer的提出解决了上面两个问题，它抛弃了传统的CNN和RNN，整个网络结构完全是由注意力机制和前向传播网络组成，同时，本发明中使用Transformer模型中的多个编码器和解码器，因为它不是类似RNN的顺序结构，所以具有更好的并行性。

同时，为了更好的解决深度学习中的退化问题，和增强模型的鲁棒性，自注意力模块采用了short-cut结构和多头机制，如图5所示。Multi-Head Attention多头注意力相当于多个不同的self-attention自注意力的集成模型(ensemble)，本发明中以经典的Transformer为例。数据X分别与8个不同的W^Q,W^K,W^V作点积运算生成不同的Q,K,V，然后得到不同的Z向量，将这8个Z向量拼接成一个特征矩阵，然后经过全连接层得到与Z向量同维度的特征向量。

S6、将所述时间特征提取模块得到的时序特征向量在时间维度进行平均池化，得到该被试的表示向量，所述时序特征反映大脑每个时刻的状态；使用所述信号分类模型中的分类模块对该被试的表示向量进行分类，所述分类模块为全连接网络，所述分类模块以判断在一段时间内大脑状态的转变是否异常作为分类的判断依据，得到信号分类结果。

时间特征提取模块输出后的张量格式依旧为(samples，time_steps，vector_size)，因为时间维度的信息在TransformerEncoder中已得到提取，此时再进行时间维度的平均池化，张量格式为(samples，embedding)，即每个被试都得到了该被试的向量表示。将该向量表示输入到全连接网络中进行分类。

本发明实施例中使用深度学习方法从客观影像学的角度研究用以发现标志不同脑功能障碍模式的生物学标志物。通过分析现有方法在处理高维数据，提取特征模式上的不足，从而提出了基于深度学习的双通道C2D-Transformer网络架构的信号分类模型。对脑影像数据进行特征选择和提取，通过分析精神疾病患者和健康人的脑影像数据，从中提取差异脑区。与现有的技术相比，本发明通过加入注意力机制对病人脑部异常状态进行定向捕捉，针对病人差异脑区进行网络权重的再分配，增强对病变脑区的学习效果，显著提高了分类准确率，在ANDI提供的数据集上采用5折交叉验证的方式进行试验，得到基于双通道2D-CNNTransformer模型的平均准确率为0.912，平均精度为0.90，平均召回率为0.896，平均F1值为0.92，相较于传统的功能连接矩阵进行特征提取，然后使用SVM进行分类的方法，准确率提高了4％，召回率提高了3％，这证实本发明中的方法相较于传统的方法效果显著，所开发的深度学习模型在捕捉核磁共振影像的异常模式方面是卓有成效的。

为了便于理解，下面对基于深度学习的双通道C2D-Transformer网络架构的信号分类模型进行详细说明：

首先双通道C2D-Transformer网络架构包括三个基础模块：特征选择模块、空间特征提取模块、时间特征提取模块和分类模块。

1)特征选择模块

特征选择的目的是识别核心异常，找出重症精神疾病患者和健康人关键差异。进行特征选择是必要的，因为fMRI数据中存在太多的体素(特征)。为了确定重症精神疾病患者在大脑活动中的核心异常(特征)是哪些，使用健康人作为对照组采用双样本T检验来确定重症精神疾病患者和健康人之间存在显著差异的体素。考虑到两个离散变量性别和组群(健康人或病人)以及一个连续变量(年龄)的影响。显著性水平p值取小于0.001，使用高斯随机场(GRF)矫正的阈值设为p<0.05。通过该计算获得重症精神疾病患者与健康人具有显著差异的体素，制作大脑掩模(Brain Mask)，使用该掩模对每个样本进行过滤，过滤掉离散变量性别和连续变量年龄的影响因素。到此，完成特征选择的所有操作，其结果作为下一阶段特征提取的输入。

2)空间特征提取模块

3)时间特征提取模块

如图2所示，Transformer模块主要由多头注意力(Multi-Head Attention)模块和前馈神经网络(Feed-Forward network)模块组成。

<1>多头注意力模块(Multi-Head Attention)

注意力机制已经成为各种任务中序列建模的一个组成部分，允许建模表示对之间的依赖关系，而不考虑它们在序列中的距离。之前的研究工作表明，共同关注来自不同位置的不同表示子空间的信息是有益的，多头的注意力有助于网络捕捉到更丰富的特征。多头注意力机制如图3所示，具体而言，多头注意力首先将第l层的特征表示H^l线性映射到不同的h个子空间中，这些映射具有不同的可学习参数，然后并行应用注意力函数生成输出表示，融合拼接输出并再次进行映射，得到多头注意力模块的最终输出，计算公式如下：

MutiHead(H^l)＝Concat(head₁,head₂,…,head_n)·W^O (1)

其中每个注意力头的映射矩阵

和

都是可学习的模型参数。l表示是第几层的Transformer，i表示第几个注意力向量。

注意力可以被描述为将query和key-value键值对的一组集合映射到输出，其中query，keys，values和输出都是向量，其中query和keys的维度均为d_k，values的维度为d_v，(d_k＝d_v＝d/h)，输出被计算为value的加权和，其中分配给每个value的权重由query与对应key的相似性函数计算得来，其计算如公式(3)所示：

其中Q(query)、K(key)和V(value)是从相同的矩阵H_l映射得到的，具有不同的学习映射矩阵，如公式(3)所示。引入的缩放因子

用来产生更柔和的注意力分布，从而避免出现非常小的梯度。self-attention的特点在于无视特征向量之间的距离直接计算其依赖关系，从而能够学习到序列的内部结构。而多头自注意力模块，则是将Q、K、V通过参数矩阵映射后(分别接一个全连接层)，然后再做self-attention计算，将这个过程重复多次，最后再将所有的结果拼接起来送入一个全连接层即可。

<2>前馈神经网络模块(Feed-Forward Network，FFN)

除了注意层之外，编码器中的每个层都包含一个完全连接的前馈网络，它单独和相同地应用于每个位置，这使模型具有非线性。它由两个线性变换组成，两个线性变换之间具有GELU(Gaussian Error Linear Unit)激活函数。计算公式如(4)、(5)及(6)所示：

FFN(x)＝GELU(xW₁+b₁)W₂+b₂ (5)

GELU(x)＝xΦ(x) (6)

其中n表示输入序列的长度，l表示当前所属的Transformer Encoder层数。其中的

和

是在所有位置共享的可学习的模型参数。其中Φ(x)是标准高斯分布的累积分布函数，GELU激活函数相比ReLu激活函数更加平滑。

<3>残差连接(Residual Connection)与层归一化(Layer Normalization)

使用自注意力机制轻松捕获整个序列中的特征向量之间的交互。通过堆叠自注意力层来学习更复杂的特征转换模式通常是有益的。然而，随着网络的深入，网络变得更加难以训练。因此，TransformerEncoder在两个子层之间都应用了残差连接，并进行层归一化操作来加速网络的训练。在对每个子层的输出进行层归一化之前，对其应用dropout策略防止过拟合。每个子模块的输出可以表示为LN(x+Dropout(sublayer(x)))，其中x为每一层的输入，sublayer(·)为多头注意力机制层或前馈神经网络层，LN表示层归一化操作。层归一化(Layer Normalization，LN)定义如公式(7)所示下：

公式(7)中的u和σ。分别代表输入x的平均值和方差，γ是可学习的比例因子，β是偏差项，ε是为了数值稳定而设置的非常小的数值。

本发明的模型通过堆叠多层Transformer Encoder网络，迭代提取层次化时间特征，网络对每个层的隐藏状态表示进行如下更新：

A^l-1＝LN(H^l-1+Dropout(MultiHead(H^l-1))) (9)

Transformer(H^l-1)＝LN(A^l-1+Dropout(FFN(A^l-1))) (10)

其中H^l表示第l层的Transformer Encoder隐藏状态特征输出，A^l-1表示第l-1层输入经过多头注意力模块以及残差连接输出后，进行层归一化操作后的输出。

4)分类模块

根据以上介绍的基本模块搭建的双通道C2D-Transformer网络各层的详细架构以及参数信息如表2、3、4和5所示。

表2

表3

表4

表5

在使用上述基于深度学习的双通道C2D-Transformer网络架构的信号分类模型进行信号分类时，先要对该模型进行训练，本发明实施例中，训练次数设置为2000，批处理大小设置为256。反复迭代训练。使用双样本T检验从体素级别分析实验结果得出的亚型与健康人之间的影像学差异和从社团级别(包括成百到上千个体素)验证新的亚型划分的效果好坏。

在训练上述基于深度学习的双通道C2D-Transformer网络架构的信号分类模型时，当训练样本比较少时，引入一些正则化技巧来防止过拟合。可以通过在原有损失函数的基础上添加L1或L2正则化的方式减少过拟合现象。L1正则化具有稀疏性，将大部分网络权重逐渐变得趋向于零，剩下相对少量的高重要度连接。L2正则化则通过在损失函数后增加L2范数，训练完成后得到平滑的接近但不等于零的模型权重。同时，本发明中使用一种称为少数样本过采样(SMOTE)的技术将人工数据增加到训练集中以增加样本数，使用批量归一化、随机失活等策略用以寻找最优模型。其中，少数样本过采样是合成少数类的过采样技术，基本思想是对少数类样本进行分析并根据少数类样本采用插值算法人工合成新样本添加到数据集中，具体地，如X,Y为少数类样本，生成Z伪数据的公式为Z＝X+rand(0,1)*(X-Y)。

对应本发明中的一种基于fMRI高维时间序列的信号分类方法，本发明还提供了一种基于fMRI高维时间序列的信号分类装置，包括：

获取单元，用于获取fMRI数据；

分类单元，先将时间特征提取单元得到的时序特征进行平均池化，得到被试的特征表示向量，然后使用所述信号分类模型中的分类模块对表示向量进行分类，所述时序特征反映大脑每个时刻的状态；所述分类模块为全连接网络，所述分类模块以判断在一段时间内大脑状态的转变是否异常作为分类的判断依据，得到信号分类结果。

对于本发明实施例的一种基于fMRI高维时间序列的信号分类装置而言，由于其与上面实施例中的一种基于fMRI高维时间序列的信号分类方法相对应，所以描述的比较简单，相关相似之处请参见上面实施例中一种基于fMRI高维时间序列的信号分类方法部分的说明即可，此处不再详述。

在本发明所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于fMRI高维时间序列的信号分类方法，其特征在于，所述方法包括：

S1、获取fMRI数据；

S2、对获得的fMRI数据进行数据预处理，得到4D时空序列；

S3、采用基于深度学习的双通道C2D-Transformer网络架构的信号分类模型中的特征选择模块对预处理之后得到的4D时空序列进行特征选择；所述特征选择模块使用健康人作为对照组采用双样本T检验来确定重症精神疾病患者和健康人之间存在显著差异的体素；利用大脑掩膜过滤掉离散变量性别和连续变量年龄的影响因素，筛选出具有显著性差异的若干个体素；

S6、将所述时间特征提取模块得到的时序特征向量在时间维度进行平均池化，得到表示向量，所述时序特征反映大脑每个时刻的状态；使用所述信号分类模型中的分类模块对表示向量进行分类，所述分类模块为全连接网络，所述分类模块以判断在一段时间内大脑状态的转变是否异常作为分类的判断依据，得到信号分类结果。

2.根据权利要求1所述的一种基于fMRI高维时间序列的信号分类方法，其特征在于，对获得的fMRI数据进行数据预处理，得到4D时空序列，包括：

将配准后的图像标准化到MNI空间；

用全宽半高为6×6×6mm³的高斯核进行空间平滑；

去除线性漂移；

3.根据权利要求1所述的一种基于fMRI高维时间序列的信号分类方法，其特征在于，Transformer包括：多头注意力模块和前馈神经网络模块；其中：

4.根据权利要求1所述的一种基于fMRI高维时间序列的信号分类方法，其特征在于，Transformer Encoder在两个子层之间都应用了残差连接，并进行层归一化操作来加速网络的训练。

5.根据权利要求1所述的一种基于fMRI高维时间序列的信号分类方法，其特征在于，在训练所述信号分类模型时，当训练样本比较少时，在原有损失函数的基础上添加L1或L2正则化的方式减少过拟合现象。

6.根据权利要求5所述的一种基于fMRI高维时间序列的信号分类方法，其特征在于，在训练所述信号分类模型时，当训练样本比较少时，使用少数样本过采样SMOTE方法将人工数据增加到训练集中以增加样本数。

7.一种基于fMRI高维时间序列的信号分类装置，其特征在于，所述装置包括：

获取单元，用于获取fMRI数据；

分类单元，先将时间特征提取单元得到的时序特征进行平均池化，得到表示向量，然后使用所述信号分类模型中的分类模块对表示向量进行分类，所述时序特征反映大脑每个时刻的状态；所述分类模块为全连接网络，所述分类模块以判断在一段时间内大脑状态的转变是否异常作为分类的判断依据，得到信号分类结果。