CN115829054A - 基于机器学习模型对脑网络异常边连接的预测方法 - Google Patents
基于机器学习模型对脑网络异常边连接的预测方法 Download PDFInfo
- Publication number
- CN115829054A CN115829054A CN202211525678.2A CN202211525678A CN115829054A CN 115829054 A CN115829054 A CN 115829054A CN 202211525678 A CN202211525678 A CN 202211525678A CN 115829054 A CN115829054 A CN 115829054A
- Authority
- CN
- China
- Prior art keywords
- brain
- machine learning
- network
- matrix
- edge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于机器学习模型对脑网络异常边连接的预测方法,步骤如下:基于待预测的脑图谱,选择对应的关联矩阵进行top5%‑25%二值化或阈值化,降维筛选边连接特征;对降维后的关联矩阵建立基于交叉验证结构的机器学习预测评估模型;获得机器学习预测评估模型的准确度和混淆矩阵;同时得到脑网络边连接的结果为加权邻接矩阵,将结果可视化为二维环形加权网络及对应的超阈值子网络、由BrainNet Viewer生成的三维大脑表面加权网络及对应的超阈值子网络。本发明通过对输入信号初步降维和超阈值选择筛选特征,在交叉验证结构中结合机器学习和图论,缓解机器学习模型预测问题中的维度灾难、可解释性和泛化性不足的问题。
Description
技术领域
本发明涉及计算机辅助预测技术领域,具体涉及一种基于机器学习模型对脑网络异常边连接的预测方法。
背景技术
人脑的结构和功能连通性在神经科学领域引起了广泛的兴趣。图论模型是研究大脑功能和结构网络最著名的模型之一,脑效应连接网络就是一种由节点和有向边构成的图论模型。由于脑效应连接网络的识别是评价正常脑功能和自闭现象谱系障碍等相关损伤的有效手段,故成为人脑连接组研究中的一项极为关键的待解决的科学问题。
但目前大脑图论模型在寻找神经生物标志物面临着一些新的挑战。在群体水平推断统计的背景下,假设的大规模单变量检验是识别与诊断状态、药物干预和其他实验操作或环境因素相关的边的常用方法。假设的大量单变量检验包括在图中的每个连接处拟合统计模型,并计算相应的检测统计量。尽管研究人员广泛使用这种方法,但它面临一个谬误:多重比较。尽管使用传统方法如FWE(Bonferroni)和错误发现率(FDR)控制假阳性的数量,但这些方法会导致统计效力的显著损失(即假阴性增加)。
目前神经科学中对机器学习算法的需求正在增加。但基于全脑功能连接的机器学习方法容易受到“维度诅咒”问题的影响。即样本与预测变量的低比率会增加过拟合的可能性,导致经过训练的模型在新数据上表现不佳。为避免过拟合,需要采用降维方法。同时,缺乏可解释性是机器学习模型中普遍存在的问题,从机器学习模型推导出来的系数一般不容易解释。
发明内容
本发明的目的是为了缓解机器学习模型预测问题中的维度灾难、可解释性不足和泛化性不足的缺陷,通过对输入信号初步降维和超阈值选择筛选特征,在交叉验证结构中结合机器学习和图论,提供一种快速识别基于神经成像的脑网络边连接异常的方法。该方法结合了机器学习的强大特性和基于网络的统计,通过在交叉验证结构中运行并提供与生成的大脑网络相关的预测分数,输出一个加权邻接矩阵,其中权重表示特征对模型的贡献程度。这个加权邻接矩阵提供了关于唯一的边对模型的贡献的可解释信息;同时输出连接异常的二维环形加权网络和由BrainNet Viewer生成的三维大脑表面加权网络。
本发明的目的可以通过采取如下技术方案达到:
一种基于机器学习模型对脑网络异常边连接的预测方法,所述预测方法包括以下步骤:
S1、基于待预测的脑图谱,选择与脑图谱节点数相对应的关联矩阵作为输入信号;并通过对关联矩阵选择进行top5%-25%二值化或top5%-25%阈值化,初步筛选边连接特征,获得降维后的关联矩阵,将所有降维后的关联矩阵信息汇总成一个边连接矩阵;
S2、对步骤S1获得的降维后的关联矩阵建立基于交叉验证结构的机器学习预测评估模型;其中,交叉验证分为外循环和内循环,两个循环结构均进行K折交叉验证,在外循环的每次迭代中,将输入信号分为训练集和测试集,训练集中使用超阈值边选择,检测相关边的子集,然后对未进行超阈值边选择的测试集执行依赖于机器学习预测算法的模型评估;在内循环中,将训练集转移到内循环进行超参数优化,将上述训练集进一步划分为验证集和最终训练集,并使用交叉验证评估机器学习预测算法中超参数的多组候选值的性能,然后将预测性能最高的一组超参数用于外循环;
S3、获得预测评估模型的准确度和混淆矩阵,同时得到加权邻接矩阵作为脑网络边连接的结果,将结果可视化为二维环形加权网络及对应的超阈值子网络、由BrainNetViewer生成的三维大脑表面加权网络及对应的超阈值子网络。
进一步地,所述步骤S1中脑图谱是一类体内图谱,脑图谱具有细粒度的功能大脑子区域以及每个区域的解剖和功能连接模式,可准确地描述大脑中激活或连接的位置,其中,选择脑图谱中AAL脑图谱或HBN脑图谱进行异常边连接预测;脑图谱是分析成像数据集的工具,HBN脑图谱较AAL脑图谱有更精细的划分,但因此具有更高维的分析难度。研究人员可根据自身需求选择AAL或HBN脑图谱,以便确定适用于不同研究目的的最佳图谱。
所述AAL脑图谱又称自动解剖标记图谱,表示划分大脑的90个脑区,对应90个节点坐标数据;
所述HBN脑图谱又称脑网络组图谱,表示划分大脑的246个脑区,对应246个节点坐标数据。
进一步地,所述步骤S1中关联矩阵是基于静息态功能磁共振数据按照脑图谱的大脑区域划分,通过探究各节点间的因果效应连接来揭示静息态下不同节点间的相关性的输入信号,其中关联矩阵大小为“N×N”,N取值90或246,为脑图谱中节点总数,矩阵内数据取值范围为[-1,1],由于关联矩阵中涉及(N-1)×N/2条边,即(N-1)×N/2个特征,考虑到直接将关联矩阵输入机器学习预测评估模型训练时可能导致过度拟合的特征的冗余或不相关性,甚至浪费计算资源和计算时间,故对关联矩阵选择做top5%-25%二值化或阈值化降维处理;边连接矩阵大小为“样本数×[(N-1)×N/2]”,其中“[(N-1)×N/2]”为边的总数,边连接矩阵作为双样本t检验所拟合的一般线性方程中的因变量。
其中,top5%-25%为在单个关联矩阵中数值的绝对值大小为前5%-25%的数据;通过大规模测试经验,发现最佳降维效果一般出现在对top5%至top25%的数据进行以下处理:
其中,二值化为首先对关联矩阵中top5%-25%的数据处理,top5%-25%的数据中正数赋值为1,负数赋值-1,接着关联矩阵中剩余数据赋值为0;二值化一定程度上将显著特征更显著,将一般特征忽视,达到降维目的的同时可提高预测准确度。其中,阈值化为不改变关联矩阵中top5%-25%的数据,但关联矩阵中其余数据赋值为0。阈值化将显著特征保留,将一般特征忽视,这种降维方式更客观真实。研究人员可根据研究目的选择其中一种降维方式。
进一步地,所述步骤S2中基于交叉验证结构的预测评估模型,使用用交叉验证结构的目的是得到可靠稳定的模型。交叉验证结构使用客观随机的方法对模型的参数进行调整,其工作过程如下:
S21、在外循环的交叉验证过程中,采用随机抽样的方法将数据均等地分成K个子集,对于每次迭代,从K个子集中选择一个作为测试集,而剩余的K-1个子集为用作训练集,训练集中使用超阈值边选择,检测相关边的子集,然后对未进行超阈值边选择测试集执行模型评估;
S22、在内循环的交叉验证过程中,外循环的测试集的数据均等地分成K个子集,从K个子集中选出一个作为验证集,其余K-1个子集作为最终训练集,利用验证集评估机器学习预测算法中超参数的预测性能,然后将最大限度地提高预测性能的一组超参数用于外循环;
以上外循环和内循环同时发生,外循环分割一次训练集和测试集,内循环执行一次K折交叉验证将训练集分割成验证集和最终训练集。
S23、基于交叉验证结构的机器学习预测评估模型重复r次步骤S21和S22,减少预测评估模型性能估计中的变化。
进一步地,所述步骤S2中基于交叉验证结构的预测评估模型中机器学习预测算法包括回归算法和分类算法,其中,回归算法包括线性回归、和支持向量回归,分类算法包括逻辑回归、支持向量分类和线性判别分析。研究人员需要结合自身数据特点,选择适当的机器学习预测算法训练模型,以得到最好的预测效果。
进一步地,所述步骤S21中基于交叉验证结构的预测评估模型中外循环的超阈值边选择是一种基于统计假设检验的特征选择方法,这是一种利用统计效力的手段,它将基于团簇水平的置换检验和连通分量的图论相结合,可控制大规模单变量分析中的家族错误率,具体过程如下:
S211、基于对比向量建立设计矩阵,对边连接矩阵采用双样本t检验拟合一般线性模型;其中,一般线性模型中对每条边进行单变量t检验,每条边被赋予唯一的检测统计量;在一般线性模型中,设计矩阵是对一组观察设定一个统计模型的矩阵,对比向量又称对比度,是参数的线性组合,系数总和为零。在此,它用于检验相应的零假设,与分类预测变量一起使用,以便在各组(分类)之间进行比较。
S212、自定义一个检验统计阈值,上述边被赋予的检验统计量超过这个阈值即称为超阈值边连接。这些边连接表示可以拒绝零假设,构成超阈值边连接的集合;检验统计量是用于假设检验计算的统计量,在零假设情况下,这项统计量服从一个给定的概率分布。在此,检验统计阈值选择决定了不仅直接影响每一叠中选择的特征的数量,还直接影响分析后提供的加权网络的权重分布。在定义该阈值时,应该考虑到输入关联矩阵的大小。在大多数情况下,该阈值默认为0.01,然而,如果你想要分析关联矩阵非常小或巨大的数据,研究人员应该分别考虑使用比默认值更高或更低的阈值。
S213、使用广度优先搜索算法识别可能存在于超阈值边连接集中的连通分量;广度优先搜索算法是一种盲目搜寻法,在此,使用优先遍历的策略系统地展开并检查图中的所有节点,使得整个系统变成了几个网络(即连通分量),不再有孤立或分散的边。
S214、选择存在于最大连通分量中的超阈值边以进一步用于训练机器学习预测评估模型。此时,机器学习预测评估模型训练的特征已经变成最大连通分量中的超阈值边,进一步达到筛选特征的效果。
进一步地,所述步骤S23中基于交叉验证结构的预测评估模型中内循环的超参数优化,进行内循环的目的是得到验证集,验证集是作为调整超参数使用的数据集。其中超参数是机器学习算法中的调优参数,需要人为设定,使用验证集可以在一定程度上避免因人为调参造成的过拟合问题。具体包括以下步骤:
S231、确定所选的机器学习预测算法,及相应机器学习预测算法的超参数;对线性回归、支持向量回归、逻辑回归和支持向量分类这四种算法调整的超参数均是Lambda(L2),其范围为(10^-2~10^3);对线性判别分析算法调整的超参数是Gamma,其范围为(0~1)。
S232、选择网格搜索、随机搜索或贝叶斯优化算法作为搜索方法对超参数进行优化;其中,当选择随机搜索或贝叶斯优化算法作为搜索方法时,自定义算法在搜索参数时运行的总迭代次数。其中,网格搜索是输入超参数的一系列可选值,使用所有超参数组合来训练模型,选取表现最优的模型结果;随机搜索是输入超参数的可选值范围,指定参数分布类型,随机生成超参数组合训练模型,选取表现最优的模型结果;贝叶斯优化是输入超参数的可选值范围,指定超参数分布类型,随机生成超参数组合训练模型,并根据历史训练结果生成概率模型,逐步优化超参数取值。
进一步地,所述步骤S3中预测效果体现在预测评估模型的准确度和混淆矩阵;同时得到脑网络边连接的结果为加权邻接矩阵,将结果可视化为二维环形加权网络及其对应的超阈值子网络、由BrainNet Viewer生成的三维大脑表面加权网络及其对应的超阈值子网络。
所述机器学习预测评估模型的准确度为评价机器学习预测算法的分类准确度;
所述机器学习预测评估模型的混淆矩阵为辅助评价机器学习预测算法的评价指标,用于得到精确度和召回率;其中混淆矩阵也称误差矩阵,是表示精度评价的一种标准格式,用2行2列的矩阵形式来表示,可以避免极偏斜数据对准确度的威胁。
所述加权邻接矩阵为所有外循环折的连通分量经过平均和缩放,产生一个平均加权邻接矩阵,其中,权重代表边对机器学习预测评估模型的贡献,未选择的边被指定权重为0;研究人员可以利用加权邻接矩阵对以下生成的网络应用阈值,以将最重要的特征可视化为子网络,这为用户提供了边连接对预测性能的贡献的直接解释。研究人员还可以将边权重解释为所选边的显著性强度,因为这些是通过结合经典的一般线性模型和连通分量来选择的(即,较高的边值表示在大多数交叉验证折中,边被认为是显著的)。
所述二维环形加权网络为将节点分布在环上的加权网络,展现连接异常的边权分布和整体结构的信息,同时自带热力图;这是上述加权邻接矩阵的一种可视化形式。
所述由BrainNet Viewer生成的三维大脑表面加权网络为节点在大脑表面的加权网络,展现连接异常的边权分布和整体结构的信息,同时自带热力图;这是上述加权邻接矩阵的一种可视化形式。
所述超阈值子网络为对上述两类加权网络进行阈值选择后的剩余权重较大的子网络,通过设置一个权重阈值来可视化一个包含重要特征的子网,权重阈值是脑网络中的边对机器学习预测评估模型性能的贡献的一个分界点。研究人员根据需要确定权重阈值,选择子网络的一种策略是将权重阈值设置为1,这会导致子网络仅剩包含所有K折交叉验证中选择的边。故而,更好的策略是选择一个不太保守但仍然很高的权重阈值(例如,0.9-0.8),因为使用“1”的权重阈值可能过于严格。此外,如果要分析稀疏的大脑网络,使用较低的阈值将是选择子网络的更明智的策略。
本发明相对于现有技术具有如下的优点及效果:
(1)人脑功能磁共振成像数据中进行脑效应连接网络的识别成为人脑连接组研究中前沿热点,通过对fMRI数据的学习准确地获得脑效应连接网络。
(2)本发明是一种简单、快速和结构化的方法,它使用连通分量和机器学习算法来识别与感兴趣效应相关的网络模式。它对每个连接的分量执行样本外评估,从而提供相关的样本外预测评分。因此,它允许评估模型的通用性,这对于开发基于神经影像的生物标志物至关重要。
(3)本发明利用准确性和混淆矩阵同时对结果的可靠性进行评估,提供了精确度和召回率作为分类评价指标,避免了使用极度偏斜的数据产生的错判。
(4)本发明能预测连续和离散目标,因为它在超阈值边选择中使用通用一般线性模型,结合回归和分类机器学习算法,可以直接应用于两种数据类型。
(5)本发明输出结果提供了二维环形加权网络和由BrainNet Viewer生成的三维大脑表面加权网络,可视化异常边连接网络组合,让结果更形象直观,同时提供一个加权网络作为输出,方便研究人员进一步确定异常边连接子网络可视化过程中确定权重阈值。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明实施例中基于机器学习模型对脑网络异常边连接的预测方法结构框图;
图2是本发明实施例中基于机器学习模型对脑网络异常边连接的预测方法的超阈值边缘选择工作流程图;
图3是本发明实施例1中基于机器学习模型对脑网络异常边连接的预测方法的混淆矩阵示意图;
图4是本发明实施例1中基于机器学习模型对脑网络异常边连接的预测方法的二维环形加权网络示意图;
图5是本发明实施例1中基于机器学习模型对脑网络异常边连接的预测方法的实施例1的二维环形加权网络的超阈值子网络示意图;
图6是本发明实施例1中基于机器学习模型对脑网络异常边连接的预测方法的三维大脑表面加权网络示意图;
图7是本发明实施例1中基于机器学习模型对脑网络异常边连接的预测方法的三维大脑表面加权网络的超阈值子网络示意图;
图8是本发明实施例2中基于机器学习模型对脑网络异常边连接的预测方法的混淆矩阵示意图;
图9是本发明实施例2中基于机器学习模型对脑网络异常边连接的预测方法的二维环形加权网络示意图;
图10是本发明实施例2中基于机器学习模型对脑网络异常边连接的预测方法的实施例1的二维环形加权网络的超阈值子网络示意图;
图11是本发明实施例2中基于机器学习模型对脑网络异常边连接的预测方法的三维大脑表面加权网络示意图;
图12是本发明实施例2中基于机器学习模型对脑网络异常边连接的预测方法的三维大脑表面加权网络的超阈值子网络示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
如图1所示,本实施例将基于机器学习模型对脑网络异常的预测方法用于精神分裂症患者的脑网络边连接异常的识别,利用来自205个正常人和140个精神分裂症患者的静息态功能磁共振数据作为样本,获得样本总数为305个关联矩阵作为输入信号。包括以下步骤:基于待预测的AAL选择对应的关联矩阵做top5%-25%二值化或top5%-25%阈值化,初步降维筛选边连接特征;对降维后的关联矩阵建立基于交叉验证结构的预测评估模型;最终获得机器学习预测评估模型的准确度和混淆矩阵;同时得到脑网络边连接的结果为加权邻接矩阵,将结果可视化为二维环形加权网络及对应的超阈值子网络、由BrainNet Viewer生成的三维大脑表面加权网络及对应的超阈值子网络。
基于待预测的AAL脑图谱,选择对应的关联矩阵做top5%-25%二值化或top5%-25%阈值化,初步降维筛选边连接特征的实施步骤如下:
S1、基于待预测的脑图谱,选择基于AAL脑图谱获得的的关联矩阵作为输入信号;并通过对关联矩阵选择做top5%-25%二值化或top5%-25%阈值化,初步筛选边连接特征,获得降维后的关联矩阵,将所有降维后的关联矩阵信息汇总成一个边连接矩阵;
具体地,本实施例步骤S1中脑图谱选择了AAL脑图谱进行异常边连接预测,对关联矩阵分别进行了top5%-25%二值化和top5%-25%阈值化,得到42种降维后的关联矩阵,接着得到42种“305×90”的边连接矩阵。
其中,AAL脑图谱表示划分大脑的90个脑区,对应90个节点坐标数据。
其中,top5%-25%为在单个关联矩阵中数值的绝对值大小为前5%-25%的数据;二值化为首先对关联矩阵中top5%-25%的数据处理,top5%-25%的数据中正数赋值为1,负数赋值-1,接着关联矩阵中其余数据赋值为0;阈值化为不改变关联矩阵中top5%-25%的数据,但关联矩阵中其余数据赋值为0;
S2、对步骤S1获得的降维后的关联矩阵建立基于交叉验证结构的机器学习预测评估模型;其中,交叉验证分为外循环和内循环,两个循环结构均进行K折交叉验证,在外循环的每次迭代中,将输入信号分为训练集和测试集,训练集中使用超阈值边选择,检测相关边的子集,然后对未进行超阈值边选择的测试集执行依赖于机器学习预测算法的模型评估;在内循环中,将训练集转移到内循环进行超参数优化,将上述训练集进一步划分为验证集和最终训练集,并使用交叉验证评估机器学习预测算法中超参数的多组候选值的性能,然后将预测性能最高的一组超参数用于外循环;
本实施例中采用的是十折交叉验证(K=10),对于top5%-25%阈值化后的关联矩阵选择机器学习预测算法是逻辑回归,支持向量回归及线性判别分析;对于top5%-25%二值化后的关联矩阵选择机器学习预测算法是逻辑回归和支持向量回归;步骤S2中基于交叉验证结构的评估模型的工作流程如下:
S21、在外循环的交叉验证过程中,将数据采取随机抽样的方法近乎均等地分成10个子集,对于每次迭代,从10个子集中选择一个作为测试集,而剩余的9个子集为用作训练集,训练集中使用超阈值边选择,检测相关边的子集,然后对未进行超阈值边选择测试集执行模型评估;
S22、在内循环的交叉验证过程中,外循环的测试集的数据再次近乎均等地分成10个子集,从10个子集中选出一个作为验证集,其余9个子集为用作最终训练集,利用验证集评估机器学习预测算法的相应超参数的几个候选值的性能,然后将最大限度地提高预测性能的一组超参数用于外循环;
S23、基于交叉验证结构的评估模型重复5次,以减少模型性能估计中的变化;
具体地,步骤S21中基于交叉验证结构的评估模型中外循环超阈值边选择过程如下:
S211、基于对比向量建立设计矩阵,对边连接矩阵采用双样本t检验拟合一般线性模型;其中,一般线性模型中对每条边进行单变量t检验,每条边被赋予唯一的检测统计量;
S212、自定义一个检验统计阈值为0.01,上述边被赋予的检验统计量超过这个阈值即称为超阈值边连接。这些边连接表示可以拒绝零假设,构成超阈值边连接的集合;
S213、使用广度优先搜索算法识别可能存在于超阈值边连接集中的连通分量;
S214、选择存在于最大连通分量中的超阈值边以进一步用于训练机器学习预测评估模型。
步骤S23中基于交叉验证结构的评估模型中内循环超参数优化包括以下步骤:
S231、确定所选的机器学习预测算法,及相应机器学习预测算法的相应机器学习预测算法的超参数;
S232、选择超参数优化中使用的搜索方法:网格搜索
S3、获得预测评估模型的准确度和混淆矩阵;同时得到脑网络边连接的结果为加权邻接矩阵,将结果可视化为二维环形加权网络及其对应的超阈值子网络(阈值为0.9)、由BrainNet Viewer生成的三维大脑表面加权网络及其对应的超阈值子网络(阈值为0.9)。
本实施例中,得到基于AAL脑图谱预测精神分裂症患者脑网络边连接异常的结果如下:在检验统计阈值为0.01,交叉验证重复5次,使用网格算法调整超参数的条件下,选择top18%二值化初步降维、逻辑回归分类的机器学习预测算法这种组合具有最佳的平均准确率为70.8%。其混淆矩阵及可视化结果如图3~图7所示。
实施例2
如图1所示,本实施例将基于机器学习模型对脑网络异常的预测方法用于精神分裂症患者的脑网络边连接异常的识别,利用来自205个正常人和140个精神分裂症患者的静息态功能磁共振数据作为样本,获得样本总数为305个关联矩阵作为输入信号。包括以下步骤:基于待预测的HBN脑图谱选择对应的关联矩阵做top5%-25%二值化或top5%-25%阈值化,初步降维筛选边连接特征;对降维后的关联矩阵建立基于交叉验证结构的预测评估模型;最终获得机器学习预测评估模型的准确度和混淆矩阵;同时得到脑网络边连接的结果为加权邻接矩阵,将结果可视化为二维环形加权网络及对应的超阈值子网络、由BrainNet Viewer生成的三维大脑表面加权网络及对应的超阈值子网络。
基于待预测的HBN脑图谱,选择对应的关联矩阵做top5%-25%二值化或top5%-25%阈值化,初步降维筛选边连接特征的实施步骤如下:
S1、基于待预测的脑图谱,选择基于HBN脑图谱获得的的关联矩阵作为输入信号;并通过对关联矩阵选择做top5%-25%二值化或top5%-25%阈值化,初步筛选边连接特征,获得降维后的关联矩阵,将所有降维后的关联矩阵信息汇总成一个边连接矩阵;
具体地,本实施例步骤S1中脑图谱选择了HBN脑图谱进行异常边连接预测,对关联矩阵分别进行了top5%-25%二值化和top5%-25%阈值化,得到42种降维后的关联矩阵,接着得到42种“305×246”的边连接矩阵。
其中,HBN脑图谱表示划分大脑的246个脑区,对应246个节点坐标数据。
其中,top5%-25%为在单个关联矩阵中数值的绝对值大小为前5%-25%的数据;二值化为首先对关联矩阵中top5%-25%的数据处理,top5%-25%的数据中正数赋值为1,负数赋值-1,接着关联矩阵中其余数据赋值为0;阈值化为不改变关联矩阵中top5%-25%的数据,但关联矩阵中其余数据赋值为0;
S2、对步骤S1获得的降维后的关联矩阵建立基于交叉验证结构的机器学习预测评估模型;其中,交叉验证分为外循环和内循环,两个循环结构均进行K折交叉验证,在外循环的每次迭代中,将输入信号分为训练集和测试集,训练集中使用超阈值边选择,检测相关边的子集,然后对未进行超阈值边选择的测试集执行依赖于机器学习预测算法的模型评估;在内循环中,将训练集转移到内循环进行超参数优化,将上述训练集进一步划分为验证集和最终训练集,并使用交叉验证评估机器学习预测算法中超参数的多组候选值的性能,然后将预测性能最高的一组超参数用于外循环;
本实施例中采用的是十折交叉验证(K=10),对于top5%-25%阈值化后的关联矩阵选择机器学习预测算法是逻辑回归,支持向量回归及线性判别分析;对于top5%-25%二值化后的关联矩阵选择机器学习预测算法是逻辑回归和支持向量回归;步骤S2中基于交叉验证结构的评估模型的工作流程如下:
S21、在外循环的交叉验证过程中,将数据采取随机抽样的方法近乎均等地分成10个子集,对于每次迭代,从10个子集中选择一个作为测试集,而剩余的9个子集为用作训练集,训练集中使用超阈值边选择,检测相关边的子集,然后对未进行超阈值边选择测试集执行模型评估;
S22、在内循环的交叉验证过程中,外循环的测试集的数据再次近乎均等地分成10个子集,从10个子集中选出一个作为验证集,其余9个子集为用作最终训练集,利用验证集评估机器学习预测算法的相应超参数的几个候选值的性能,然后将最大限度地提高预测性能的一组超参数用于外循环;
S23、基于交叉验证结构的评估模型重复5次,以减少模型性能估计中的变化;
具体地,步骤S21中基于交叉验证结构的评估模型中外循环超阈值边选择过程如下:
S211、基于对比向量建立设计矩阵,对边连接矩阵采用双样本t检验拟合一般线性模型;其中,一般线性模型中对每条边进行单变量t检验,每条边被赋予唯一的检测统计量;
S212、自定义一个检验统计阈值为0.01,上述边被赋予的检验统计量超过这个阈值即称为超阈值边连接。这些边连接表示可以拒绝零假设,构成超阈值边连接的集合;
S213、使用广度优先搜索算法识别可能存在于超阈值边连接集中的连通分量;
S214、选择存在于最大连通分量中的超阈值边以进一步用于训练机器学习预测评估模型。
步骤S23中基于交叉验证结构的评估模型中内循环超参数优化包括以下步骤:
S231、确定所选的机器学习预测算法,及相应机器学习预测算法的相应机器学习预测算法的超参数;
S232、选择超参数优化中使用的搜索方法:网格搜索
S3、获得预测评估模型的准确度和混淆矩阵;同时得到脑网络边连接的结果为加权邻接矩阵,将结果可视化为二维环形加权网络及其对应的超阈值子网络(阈值为0.9)、由BrainNet Viewer生成的三维大脑表面加权网络及其对应的超阈值子网络(阈值为0.9)。
本实施例中,得到基于HBN脑图谱预测精神分裂症患者脑网络边连接异常的结果如下:在检验统计阈值为0.01,交叉验证重复5次,使用网格算法调整超参数的条件下,选择top21%二值化初步降维、逻辑回归分类的机器学习预测算法这种组合具有最佳的平均准确率为71.2%。其混淆矩阵及可视化结果如图8~图12所示。
以上两个施例中由42个初步降维后的关联矩阵采用不同的机器学习预测算法得到一系列预测的精确度及混淆矩阵,但基于HBN脑图谱预测的脑网络边连接异常加权子网络结果基本一致;基于ALL脑图谱预测的脑网络边连接异常加权子网络结果也基本一致;二维环形加权网络及三维大脑表面加权网络连接的复杂程度与降维程度成反比,即降维程度越高,两个加权网络的复杂程度越低结果表明测试者连接失调不仅出现在大脑的前部,如额叶、额颞叶和运动区域,而且还出现在皮层下区域,如左侧海马体、左侧扣带回和中间回、左侧杏仁核,以及后部区域,如左侧枕上回和右侧舌回。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (8)
1.一种基于机器学习模型对脑网络异常边连接的预测方法,其特征在于,所述预测方法包括以下步骤:
S1、基于待预测的脑图谱,选择与脑图谱节点数相对应的关联矩阵作为输入信号;并通过对关联矩阵选择进行top5%-25%二值化或top5%-25%阈值化,初步筛选边连接特征,获得降维后的关联矩阵,将所有降维后的关联矩阵信息汇总成一个边连接矩阵;
S2、对步骤S1获得的降维后的关联矩阵建立基于交叉验证结构的机器学习预测评估模型;其中,交叉验证分为外循环和内循环,两个循环结构均进行K折交叉验证,在外循环的每次迭代中,将输入信号分为训练集和测试集,训练集中使用超阈值边选择,检测相关边的子集,然后对未进行超阈值边选择的测试集执行依赖于机器学习预测算法的模型评估;在内循环中,将训练集转移到内循环进行超参数优化,将上述训练集进一步划分为验证集和最终训练集,并使用交叉验证评估机器学习预测算法中超参数的多组候选值的性能,然后将预测性能最高的一组超参数用于外循环;
S3、获得预测评估模型的准确度和混淆矩阵,同时得到加权邻接矩阵作为脑网络边连接的结果,将结果可视化为二维环形加权网络及对应的超阈值子网络、由BrainNet Viewer生成的三维大脑表面加权网络及对应的超阈值子网络。
2.根据权利要求1所述的基于机器学习模型对脑网络异常边连接的预测方法,其特征在于,所述步骤S1中脑图谱是一类体内图谱,脑图谱具有细粒度的功能大脑子区域以及每个区域的解剖和功能连接模式,可准确地描述大脑中激活或连接的位置,其中,选择脑图谱中AAL脑图谱或HBN脑图谱进行异常边连接预测;
所述AAL脑图谱表示划分大脑的90个脑区,对应90个节点坐标数据;
所述HBN脑图谱表示划分大脑的246个脑区,对应246个节点坐标数据。
3.根据权利要求1所述的基于机器学习模型对脑网络异常边连接的预测方法,其特征在于,所述步骤S1中关联矩阵是基于静息态功能磁共振数据按照脑图谱的大脑区域划分,通过探究各节点间的因果效应连接来揭示静息态下不同节点间的相关性的输入信号,其中关联矩阵大小为“N×N”,N取值90或246,为脑图谱中节点总数,矩阵内数据取值范围为[-1,1],并对关联矩阵选择做top5%-25%二值化或阈值化降维处理;边连接矩阵大小为“样本数×[(N-1)×N/2]”,其中“[(N-1)×N/2]”为边的总数;
其中,top5%-25%为在单个关联矩阵中数值的绝对值大小为前5%-25%的数据;
其中,二值化为首先对关联矩阵中top5%-25%的数据处理,top5%-25%的数据中正数赋值为1,负数赋值-1,接着关联矩阵中剩余数据赋值为0;
其中,阈值化为不改变关联矩阵中top5%-25%的数据,但关联矩阵中其余数据赋值为0。
4.根据权利要求1所述的基于机器学习模型对脑网络异常边连接的预测方法,其特征在于,所述步骤S2中基于交叉验证结构的预测评估模型的工作过程如下:
S21、在外循环的交叉验证过程中,采用随机抽样的方法将数据均等地分成K个子集,对于每次迭代,从K个子集中选择一个作为测试集,而剩余的K-1个子集为用作训练集,训练集中使用超阈值边选择,检测相关边的子集,然后对未进行超阈值边选择测试集执行模型评估;
S22、在内循环的交叉验证过程中,外循环的测试集的数据均等地分成K个子集,从K个子集中选出一个作为验证集,其余K-1个子集作为最终训练集,利用验证集评估机器学习预测算法中超参数的预测性能,然后将最大限度地提高预测性能的一组超参数用于外循环;
S23、基于交叉验证结构的机器学习预测评估模型重复r次步骤S21和S22,减少预测评估模型性能估计中的变化。
5.根据权利要求1所述的基于机器学习模型对脑网络异常边连接的预测方法,其特征在于,所述步骤S2中基于交叉验证结构的预测评估模型中机器学习预测算法包括回归算法和分类算法,其中,回归算法包括线性回归和支持向量回归,分类算法包括逻辑回归、支持向量分类和线性判别分析。
6.根据权利要求4所述的基于机器学习模型对脑网络异常边连接的预测方法,其特征在于,所述步骤S21中基于交叉验证结构的预测评估模型中外循环的超阈值边选择是一种基于统计假设检验的特征选择方法,过程如下:
S211、基于对比向量建立设计矩阵,对边连接矩阵采用双样本t检验拟合一般线性模型;其中,一般线性模型中对每条边进行单变量t检验,每条边被赋予唯一的检测统计量;
S212、自定义一个检验统计阈值,上述边被赋予的检验统计量超过检验统计阈值即称为超阈值边连接,上述超阈值边连接表示可以拒绝零假设,构成超阈值边连接的集合;
S213、使用广度优先搜索算法识别可能存在于超阈值边连接集中的连通分量;
S214、选择存在于最大连通分量中的超阈值边用于训练机器学习预测评估模型。
7.根据权利要求4所述的基于机器学习模型对脑网络异常边连接的预测方法,其特征在于,所述步骤S23中基于交叉验证结构的预测评估模型中内循环的超参数优化过程如下:
S231、确定所选的机器学习预测算法,及相应机器学习预测算法的超参数;
S232、选择网格搜索、随机搜索或贝叶斯优化算法作为搜索方法对超参数进行优化;其中,当选择随机搜索或贝叶斯优化算法作为搜索方法时,自定义算法在搜索参数时运行的总迭代次数。
8.根据权利要求1所述的基于机器学习模型对脑网络异常边连接的预测方法,其特征在于,
所述机器学习预测评估模型的准确度为评价机器学习预测算法的分类准确度;
所述机器学习预测评估模型的混淆矩阵为辅助评价机器学习预测算法的评价指标,用于得到精确度和召回率;
所述加权邻接矩阵为所有外循环折的连通分量经过平均和缩放,产生一个平均加权邻接矩阵,其中,权重代表边对机器学习预测评估模型的贡献,未选择的边被指定权重为0;
所述二维环形加权网络为将节点分布在环上的加权网络,展现连接异常的边权分布和整体结构的信息,同时自带热力图;
所述由BrainNet Viewer生成的三维大脑表面加权网络为节点在大脑表面的加权网络,展现连接异常的边权分布和整体结构的信息,同时自带热力图;
所述超阈值子网络为对上述两类加权网络进行阈值选择后的剩余权重较大的子网络,通过设置一个权重阈值将一个包含重要特征的子网可视化,其中,权重阈值是脑网络中的边对机器学习预测评估模型性能的贡献的一个分界点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211525678.2A CN115829054A (zh) | 2022-12-01 | 2022-12-01 | 基于机器学习模型对脑网络异常边连接的预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211525678.2A CN115829054A (zh) | 2022-12-01 | 2022-12-01 | 基于机器学习模型对脑网络异常边连接的预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115829054A true CN115829054A (zh) | 2023-03-21 |
Family
ID=85533376
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211525678.2A Pending CN115829054A (zh) | 2022-12-01 | 2022-12-01 | 基于机器学习模型对脑网络异常边连接的预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115829054A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117116434A (zh) * | 2023-10-25 | 2023-11-24 | 北京师范大学 | 人脑白质结构连接组的个体差异评估方法、应用及装置 |
-
2022
- 2022-12-01 CN CN202211525678.2A patent/CN115829054A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117116434A (zh) * | 2023-10-25 | 2023-11-24 | 北京师范大学 | 人脑白质结构连接组的个体差异评估方法、应用及装置 |
CN117116434B (zh) * | 2023-10-25 | 2024-03-01 | 北京师范大学 | 人脑白质结构连接组的个体差异评估方法、应用及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Graziani et al. | Concept attribution: Explaining CNN decisions to physicians | |
WO2020049094A1 (en) | Computer-implemented method, computer program product and system for data analysis | |
CN112911627B (zh) | 无线网络性能检测方法、装置以及存储介质 | |
Huang et al. | A hybrid fuzzy clustering approach for the recognition and visualization of MRI images of Parkinson’s disease | |
Schaub et al. | Blind identification of stochastic block models from dynamical observations | |
CN112085161B (zh) | 一种基于随机信息传递的图神经网络方法 | |
CN110751172B (zh) | 一种弱监督学习的病理全片图像类别推断方法及其系统 | |
Comas et al. | Interpretable interval type-2 fuzzy predicates for data clustering: A new automatic generation method based on self-organizing maps | |
CN115829054A (zh) | 基于机器学习模型对脑网络异常边连接的预测方法 | |
Bonilla-Huerta et al. | Hybrid filter-wrapper with a specialized random multi-parent crossover operator for gene selection and classification problems | |
Khaledyan et al. | Confidence aware neural networks for skin cancer detection | |
CN112529025A (zh) | 一种数据处理方法及装置 | |
Bruno et al. | Data reduction and data visualization for automatic diagnosis using gene expression and clinical data | |
Khor et al. | A study on distribution preservation mechanism in evolutionary multi-objective optimization | |
Gupta et al. | Brain tumor detection using improved Otsu’s thresholding method and supervised learning techniques at early stage | |
CN116977708B (zh) | 一种基于自适应聚合可视图的轴承智能诊断方法及系统 | |
Oliveira et al. | A multi-objective approach for calibration and detection of cervical cells nuclei | |
Settouti et al. | An instance and variable selection approach in pixel-based classification for automatic white blood cells segmentation | |
Popescu et al. | Counterfactual generation with knockoffs | |
Zanon et al. | Root cause analysis by a combined sparse classification and Monte Carlo approach | |
Rossi et al. | Relational similarity machines (RSM): A similarity-based learning framework for graphs | |
Chen et al. | An interpretable Algorithm for uveal melanoma subtyping from whole slide cytology images | |
Shaila et al. | Analysis and prediction of breast cancer using multi-model classification approach | |
Bruno et al. | Understanding automatic diagnosis and classification processes with data visualization | |
RU2819348C1 (ru) | Способ графовой нейросетевой классификации на отсутствие или наличие большого депрессивного расстройства по данным фмрт |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |