CN113257430B

CN113257430B - 一种基于不确定性脑影像数据的挖掘方法

Info

Publication number: CN113257430B
Application number: CN202110532584.7A
Authority: CN
Inventors: 时磊; 谭志浩; 陶钧; 胡浚楠; 武延军
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-05-17
Filing date: 2021-05-17
Publication date: 2022-08-02
Anticipated expiration: 2041-05-17
Also published as: CN113257430A

Abstract

本发明通过人工智能领域的方法，实现了一种基于不确定性脑影像数据的挖掘方法，通过6个步骤：对输入脑影像数据处理得到部分各向异性、平均扩散系数、轴向扩散系数和径向扩散系数图像；对各向异性图像使用概率纤维束跟踪算法PICo，提取神经纤维束；将各个图像与标准的Desikan‑Killiany模板进行图像配准，对神经纤维束进行相应转换；根据配准后的图像和神经纤维束，提取神经纤维强度，几何特征和扩散张量特征；设计数据质量评估算法对特征数据进行质量评估和过滤；设计算法对过滤后的数据进行分析，实现通过对输入脑影像的处理和分析，消除数据的不确定性对分析的影响，结合统计检验和机器学习算法进行数据挖掘检测需要的的图像特征。

Description

一种基于不确定性脑影像数据的挖掘方法

技术领域

本发明涉及人工智能领域，尤其涉及一种基于不确定性脑影像数据的挖掘方法。

背景技术

人类大脑可以划分成许多功能性区域，这些区域之间有着复杂的联系，相互协作以完成认知任务。在很长的一段时间里，研究者缺少有效的大脑量化方法。一直到近几十年，随着医学成像技术的发展，如核磁共振成像技术的出现，才使得人类有了更好的测量和量化大脑的手段。

在神经科学领域，基于脑影像数据，如核磁共振影像，分析人类脑网络结构，并检测与疾病相关的生物标记物具有极大的临床价值。虽然医学成像技术和脑网络重建技术已较为成熟，但实际上通过这些技术得到的数据具有较大的不确定性。数据不确定性一般指的是真实数据的不完整，噪声以及不一致性，它会导致数据值偏离正确值。已有的研究中存在一些核磁共振影像数据挖掘技术。但是，这些技术缺少对数据不确定性进行衡量和处理的有效手段。其次，现有研究方法的研究对象大部分集中于单一的脑网络特征，如神经纤维强度，不支持领域内已知其他的重要特征，如张量场扩散特征。

发明内容

为此，本发明首先提出一种基于不确定性脑影像数据的挖掘方法，包含6个步骤：

步骤1，对输入脑影像数据进行去骨处理，涡流校正和张量拟合，得到部分各向异性、平均扩散系数、轴向扩散系数和径向扩散系数四类图像；

步骤2，对步骤1得到的所述部分各向异性图像，使用概率纤维束跟踪算法PICo，提取神经纤维束；

步骤3，对步骤1得到的部分各向异性，平均扩散系数，轴向扩散系数和径向扩散系数图像分别与标准的Desikan-Killiany模板进行图像配准，根据部分各向异性图像和标准模板的映射关系，对神经纤维束进行相应转换；

步骤4，根据步骤3配准后的图像和神经纤维束，提取神经纤维强度，几何特征和扩散张量特征；

步骤5，设计一个基于格拉布斯检验的数据质量评估算法，对步骤4得到的特征数据进行质量评估和过滤；

步骤6，设计基于T检验的单变量特征选择算法和基于稀疏回归模型的多变量特征选择算法；单变量特征选择算法的输入是某一特征单个神经连接上的数据，即某一个神经连接的神经纤维强度、几何特征或者扩散张量特征，所述神经连接的强度为它包含的神经纤维数目，几何特征和扩散张量特征为它包含的神经纤维相应特征的均值，输出是该连接上的特征进行T检验后的p值，如果p＜α，则说明该连接上的这一特征具有统计差异性，为关键连接特征，其中α为T检验的显著性水平，默认值为0.05；多变量特征选择算法的输入是某一特征所有神经连接上的数据，模型进行学习后会计算出该特征的所有神经连接的权重，设置权重阈值，根据权重的绝对值大于设置阈值来筛选关键连接，这些连接上的该特征为关键连接特征；对步骤5过滤后的数据应用上述算法进行分析，得到图像数据中与疾病相关的特征

所述去骨处理的具体方法为：对输入的脑影像图像，通过FSL的BET工具进行去骨头处理，之后使用FSL进行涡流校正，然后通过FSL的DTIFIT工具构建扩散张量模型，基于该模型得到部分各向异性、平均扩散系数、轴向扩散系数和径向扩散系数四类图像。

所述神经纤维束跟踪算法PICo使用Camino工具，具体地，把种子设置在部分各向异性值大于0.3的体素上，从种子开始使用蒙特卡洛算法沿着概率密度图模拟流线的生成，概率密度图由步长为1mm的4阶龙格-库塔算法插值得到的局部最大值进行估计，神经纤维的最大弯曲角度设置为45度/体素，流线的生成在部分各向异性值小于0.2的体素上停止。

所述图像配准采用FreeSurfer软件中的Desikan-Killiany模板，去骨后的脑影像图像作为输入，使用FreeSurfer对其进行模板划分，输出得到模板划分图像，然后，使用ANTs工具与所述部分各向异性图像进行配准，模板划分图像作为输入图像，部分各向异性图像作为参考图像，配准后得到部分各向异性图像的模板划分，根据所述步骤2得到的神经纤维束与部分各向异性图像的对应关系，可以从部分各向异性图像的模板划分得到神经纤维所经过的ROI，通过神经纤维两端所处的ROI组成的二元组，把神经纤维归类成不同的神经连接。

所述扩散张量特征包括部分各向异性、平均扩散系数、轴向扩散系数和径向扩散系数，数值为神经纤维上所有体素的值取平均；

所述几何特征包括长度、曲率、挠率和熵，所述长度对应神经纤维的物理长度，所述曲率表示在神经纤维任意位置偏离直线的纤维数，所述挠率表示神经纤维相对于其所在平面的扭曲程度，所述熵衡量走向的混乱程度，所述曲率和所述挠率取神经纤维上所有体素的值取平均；

所述神经纤维强度表示纤维束包含的神经纤维数目。

所述数据质量评估算法实现方法具体为：基于以正态分布为前提的离群数据以格拉布斯检验方法为基础，对由N个个体组成的数据集，设第i个个体的第j个连接特征记为x_ij，则对于第j个连接特征表示为：

其中

和s分别代表第j个连接特征的均值和标准差；

进一步地，当前数据集在检验水准α下的显著性指标为：

其中

为T分布在N-2自由度和α/2N检验水准下的上临界值，如果G_j>H_N(α_min)，则距离均值最远的数据会被判断成离群数据并且数据质量置为0，α_min是格拉布斯检验的检验水准，默认值为0.05；

经过格拉布斯检验剔除离群数据后，剩下的数据的质量定义为：

所述基于T检验的单变量特征选择算法用于判断数据是否存在差异，首先把数据集分为两组，然后使用T检验对每个神经连接上的各个特征分别进行检测，每个连接特征都会得到对应的p值，如果p值小于显著性水平α，所述显著性水平默认值为0.05，则说明该连接特征在两组数据集上具有显著差异性，为关键特征。

所述基于稀疏回归模型的多变量特征选择算法基于Group Lasso模型设计，首先对于所有脑网络连接，基于ROI进行聚类，接着在聚类生成的簇的基础上应用Group Lasso模型，最后对筛选出来的连接再次使用T检验和稀疏回归模型进行评估。

所述Group Lasso模型的目标函数如下：

其中N和M分别代表个体数和组数，X_i＝(x_i1,..,x_iR)′表示第i个个体在所有R个连接上的值组成的向量，y＝{1,-1}表示输出的分类，W＝(w₁,...,w_R)′表示特征的回归权重，W^(m)表示第m分组的权重，λ参数控制稀疏程度；

所述Group Lasso模型应用到脑网络分析上时，连接特征分组结合阈值筛选和传统的DB-Scan算法，提取关联的连接特征，并且把聚类结果作为分组的依据，具体流程如下：

第一步，使用斯托夫Z-score对单一ROI相连的所有连接的差异显著性进行度量：

K表示与该ROI相连的特征连接的数量，N_k表示第K个特征连接经过质量过滤后剩余的人数，p_k表示第K个特征连接经过T检验得到的p值，Φ为标准正态累计分布函数；

第二步，基于ROI进行聚类，通过预先设置Z-score的阈值，筛选出Z-score高于阈值的ROI子集作为聚类算法的输入，这样做是为了得到具有明显差异性的ROI子集，在执行DB-Scan算法时，把ROI对应的中心点位置作为代表输入，并输入DB-Scan的扫描半径、最小包含点数，聚类得到的每个ROI簇都会扩展为ROI所对应的特征连接集合，每个特征连接复制一份，分别关联起点和终点的ROI，这些特征连接集合作为Group Lasso的输入。

本发明所要实现的技术效果在于：

本申请方案在对人类脑网络进行分析的基础上，通过对输入脑影像的处理和分析，衡量数据的不确定性并进一步消除其对分析的影响，结合统计检验和机器学习算法进行数据挖掘，以此检测与疾病相关的神经纤维特征，包括神经纤维强度，神经纤维的几何特征和扩散特征，帮助识别与疾病相关的图像数据特征。

附图说明

图1整体流程图

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明提出了一种基于不确定性脑影像数据的挖掘方法对人类脑网络进行分析，衡量数据的不确定性并进一步消除其对分析的影响，结合统计检验和机器学习算法进行数据挖掘，以此检测相关的特征。

本发明包括以下6个步骤：

步骤1，对脑影像数据进行去骨处理，涡流校正和张量拟合，得到部分各向异性，平均扩散系数，轴向扩散系数和径向扩散系数图像；

步骤2，对步骤1得到的部分各向异性图像使用概率纤维束跟踪算法PICo，提取神经纤维束；

步骤3，对步骤1得到的部分各向异性，平均扩散系数，轴向扩散系数和径向扩散系数图像与标准的Desikan-Killiany模板进行图像配准，根据部分各向异性图像和标准模板的映射关系，对神经纤维束进行相应转换；

步骤6，设计基于T检验的单变量特征选择算法和基于稀疏回归模型的多变量特征选择算法；按照Desikan-Killiany模板，人类大脑可以划分为70个不同的区域，即ROI(Region of interest)，这些ROI之间通过神经纤维进行连接，根据神经纤维起止点所处的ROI可以把它们归类为不同的神经连接，比如：连接ROI#10和ROI#45的神经连接为#10-#45，神经连接的强度为它包含的神经纤维数目，神经连接的几何特征和扩散张量特征为它包含的神经纤维对应特征的均值，单变量特征选择算法的输入是某一特征单个神经连接上的数据，如#10-#45的神经连接强度，输出是该连接上的特征进行T检验后的p值，如果p＜α，则说明该连接上的这一特征具有统计差异性，为关键连接特征，其中α为T检验的显著性水平，默认值为0.05；多变量特征选择算法的输入是某一特征所有神经连接上的数据，模型进行学习后会计算出该特征的所有神经连接的权重，设置权重阈值，根据权重的绝对值大于设置阈值来筛选关键连接，这些连接上的该特征为关键连接特征；对步骤5过滤后的数据应用上述算法进行分析，得到图像数据中与疾病相关的特征。

步骤1中，脑影像通过FSL(FMRIB Software Library)的BET(Brain ExtractionTool)工具进行去骨头处理。去骨头之后的脑影像使用FSL进行涡流校正(Eddy-currentcorrection)，这一步的目的是消除EPI(Echo-planar Imaging)获取影像过程中的失真问题。然后，通过FSL的DTIFIT(Diffusion Tensors Image Fitting)工具，由扩散张量模型得到部分各向异性、平均扩散系数、轴向扩散系数和径向扩散系数图像。

步骤2中，神经纤维束跟踪使用Camino，进行跟踪时使用的是PICo(ProbabilisticIndex of Connectivity method)算法，一个基于概率的跟踪算法。具体做法为把种子设置在部分各向异性值大于0.3的体素上，从种子开始使用蒙特卡洛算法沿着概率密度图模拟流线的生成，概率密度图由步长为1mm的4阶龙格-库塔(Runge-Kutta)算法插值得到的局部最大值进行估计。神经纤维的最大弯曲角度设置为45度/体素，流线的生成在部分各向异性值小于0.2的体素上停止。

步骤3中，使用FreeSurfer进行模板配准。FreeSurfer使用的是Desikan-Killiany模板，该模板包含70个ROI(Region of Interest)。模板划分结束之后，使用ANTs与预处理生成的部分各向异性图像进行配准，模板划分图像作为输入图像，部分各向异性图像作为参考图像，配准后得到部分各向异性图像的模板划分。根据预处理得到的神经纤维与部分各向异性图像的对应关系，可以从部分各向异性图像的模板划分得到神经纤维所经过的ROI，通过神经纤维两端所处的ROI组成的二元组，可以把神经纤维分成不同的纤维束。

步骤4中提取的特征包括神经纤维强度，扩散张量特征和几何特征。扩散张量特征包括部分各向异性、平均扩散系数、轴向扩散系数和径向扩散系数。几何特征包括长度、曲率、挠率和熵。部分各向异性是对白质完整性的概括性度量，它对于结构的变化高度敏感，但是对变化类型不敏感。平均扩散系数是膜密度的倒数，它对细胞增殖，水肿和坏死比较敏感。轴向扩散系数在发生轴突损伤时会降低。径向扩散系数在发生脱髓鞘或者脱髓鞘变性时会升高，当轴突直径或者密度发生变化时也会产生影响。提取的部分各向异性、平均扩散系数、轴向扩散系数和径向扩散系数特征为神经纤维上所有体素的值取平均。神经纤维强度表示纤维束包含的神经纤维数目。长度对应神经纤维的物理长度，曲率表示的是在神经纤维任意位置偏离直线的纤维数。挠率表示的是神经纤维相对于其所在平面的扭曲程度。曲率和挠率都是神经纤维上所有体素的值取平均。神经纤维的熵衡量的是其走向的混乱程度。神经纤维的走向趋近直线，熵就比较低，走向越混乱，熵就越高。

步骤5中的数据质量评估算法实现如下：格拉布斯检验是以正态分布为前提的离群数据检测方法，对于由N个个体组成的数据集，设第i个个体的第j个连接特征为x_ij，对于第j个连接特征，可以按公式(1)计算,

其中

和s分别代表第j个连接特征的均值和标准差。当前数据集在检验水准α下的显著性指标由公式(2)计算得到,

其中

为T分布在N-2自由度和α/2N检验水准下的上临界值。如果G_j>H_N(α_min)，则距离均值最远的数据会被判断成离群数据并且数据质量置为0。接着，把离群数据从数据集中剔除，重复之前的步骤直到不再有离群数据被判定，此处的α_min是格拉布斯检验的检验水准，默认值为0.05。经过格拉布斯检验剔除离群数据后，剩下的数据的质量定义为：

步骤6中，单变量特征选择使用的是T检验方法。T检验基于T分布理论，用于判断数据是否存在差异。使用T检验判断后，每个连接特征都会得到对应的p值，如果p值小于显著性水平α(默认0.05)，则说明两组数据的均值存在明显差异。多变量特征选择使用的是Group Lasso模型。首先对于所有脑网络连接，基于ROI进行聚类。接着，在聚类生成的簇的基础上应用Group Lasso。最后，对于筛选出来的连接，再次使用统计检验和回归分析进行评估。Group Lasso的目标函数如下：

此处N和M分别代表个体数和组数。X_i＝(x_i1,..,x_iR)′表示第i个个体在所有R个连接上的值组成的向量，y＝{1,-1}表示输出的分类，比如健康和阿尔兹海默症。W＝(w₁,...,w_R)′表示特征的回归权重，W^(m)表示第m分组的权重。λ参数控制稀疏程度。绝对值较大的权重表明其相应的特征在预测中有着更大的影响。Group Lasso模型由两部分构成，第一部分是负对数似然的逻辑回归，另外一部分是每个分组的L2正则项。负对数似然项用于分类，同时正则项则影响权重取值，从而达到特征选择的目的。将Group Lasso模型应用到脑网络分析上最大的挑战在于对连接特征进行分组。在分组的时候应该综合考虑区域功能，物理结构和空间位置等信息。本方案结合阈值筛选和传统的DB-Scan算法，提取关联的连接特征，并且把聚类结果作为分组的依据。考虑到脑连接网络十分复杂，大部分连接都扭曲在一起，所以很难直接计算这些连接的空间距离，因此相比直接对连接进行分组，基于ROI的分组更加准确地描述连接特征的关系。

该算法具体流程如下：第一步，使用斯托夫Z-score(Stouffer's Z-score)对单一ROI相连的所有连接的差异显著性进行度量。Z-score的计算公式如下：

K表示与该ROI相连的特征连接的数量，N_k表示第K个特征连接经过质量过滤后剩余的人数，p_k表示第K个特征连接经过T检验得到的p值，Φ为标准正态累计分布函数。之所以使用斯托夫方法而不选择费希尔方法，是因为它能够根据每个p值的权重进行合并。本文把按质量过滤后特征连接对应的剩余人数作为权重，以此描述不同特征在数据质量上的差异。

第二步，基于ROI进行聚类。通过预先设置Z-score的阈值，筛选出Z-score高于阈值的ROI子集作为聚类算法的输入，这样做是为了得到具有明显差异性的ROI子集。在执行DB-Scan算法时，把ROI对应的中心点位置作为代表输入，DB-Scan会检测出在空间上分布密集的ROI集合，而这些ROI都是具有明显差异性的。最后，聚类得到的每个ROI簇都会扩展为ROI所对应的特征连接集合。由于脑网络连接是非定向的，每个特征连接会复制一份，分别关联起点和终点的ROI。这些特征连接集合作为Group Lasso的输入。在进行ROI聚类时，需要设置预先三个参数。第一个是Z-score的阈值，用于控制具有明显差异性的特征连接的过滤；第二个是DB-Scan的扫描半径，用于控制每个簇的大小；第三个是最小包含点数，用于调节簇的检测。通过调整前两个参数，可以得到规模不同以及差异性不同的特征连接集合。除此之外，还设计了基于大脑脑叶的ROI聚类，这种聚类方法与大脑生理结构密切相关，适用于不同功能分区的白质损伤趋势的研究。在多变量特征选择算法筛选的特征连接上再应用T检验，结合模型的预测准确率检验多特征选择算法的效果。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于不确定性脑影像数据的挖掘方法，其特征在于：通过6个步骤实现：

步骤6，设计基于T检验的单变量特征选择算法和基于稀疏回归模型的多变量特征选择算法；单变量特征选择算法的输入是某一特征单个神经连接上的数据，即某一个神经连接的神经纤维强度、几何特征或者扩散张量特征，所述神经连接的强度为它包含的神经纤维数目，几何特征和扩散张量特征为它包含的神经纤维相应特征的均值，输出是该连接上的特征进行T检验后的p值，如果p<α，则说明该连接上的这一特征具有统计差异性，为关键连接特征，其中α为T检验的显著性水平，默认值为0.05；多变量特征选择算法的输入是某一特征所有神经连接上的数据，模型进行学习后会计算出该特征的所有神经连接的权重，设置权重阈值，根据权重的绝对值大于设置阈值来筛选关键连接，这些连接上的该特征为关键连接特征；对步骤5过滤后的数据应用上述算法进行分析，得到图像数据中与疾病相关的特征；

所述去骨处理的具体方法为：对输入的脑影像图像，通过FSL的BET工具进行去骨头处理，之后使用FSL进行涡流校正，然后通过FSL的DTIFIT工具构建扩散张量模型，基于该模型得到部分各向异性、平均扩散系数、轴向扩散系数和径向扩散系数四类图像；

所述神经纤维强度表示纤维束包含的神经纤维数目；

其中

和s分别代表第j个连接特征的均值和标准差；

进一步地，当前数据集在检验水准α下的显著性指标为：

其中

所述基于T检验的单变量特征选择算法用于判断数据是否存在差异，首先把数据集分为两组，然后使用T检验对每个神经连接上的各个特征分别进行检测，每个连接特征都会得到对应的p值，如果p值小于所述显著性水平，则说明该连接特征在两组数据集上具有显著差异性，为关键特征；

所述基于稀疏回归模型的多变量特征选择算法基于Group Lasso模型设计，首先对于所有脑网络连接，基于ROI进行聚类，接着在聚类生成的簇的基础上应用Group Lasso模型，最后对筛选出来的连接再次使用T检验和稀疏回归模型进行评估；

所述Group Lasso模型的目标函数如下：

其中N和M分别代表个体数和组数，X_i＝(x_i1,..,x_iR)'表示第i个个体在所有R个连接上的值组成的向量，y＝{1,-1}表示输出的分类，W＝(w₁,…,w_R)'表示特征的回归权重，W^(m)表示第m分组的权重，λ参数控制稀疏程度；

2.如权利要求1所述的一种基于不确定性脑影像数据的挖掘方法，其特征在于：所述神经纤维束跟踪算法PICo使用Camino工具，具体地，把种子设置在部分各向异性值大于0.3的体素上，从种子开始使用蒙特卡洛算法沿着概率密度图模拟流线的生成，概率密度图由步长为1mm的4阶龙格-库塔算法插值得到的局部最大值进行估计，神经纤维的最大弯曲角度设置为45度/体素，流线的生成在部分各向异性值小于0.2的体素上停止。

3.如权利要求2所述的一种基于不确定性脑影像数据的挖掘方法，其特征在于：所述图像配准采用FreeSurfer软件中的Desikan-Killiany模板，去骨后的脑影像图像作为输入，使用FreeSurfer对其进行模板划分，输出得到模板划分图像，然后，使用ANTs工具与所述部分各向异性图像进行配准，模板划分图像作为输入图像，部分各向异性图像作为参考图像，配准后得到部分各向异性图像的模板划分，根据所述步骤2得到的神经纤维束与部分各向异性图像的对应关系，从部分各向异性图像的模板划分得到神经纤维所经过的ROI，通过神经纤维两端所处的ROI组成的二元组，把神经纤维归类成不同的神经连接。