CN106980753B

CN106980753B - 一种用于神经疾病的基于体素分析的数据驱动机器学习方法

Info

Publication number: CN106980753B
Application number: CN201710111168.3A
Authority: CN
Inventors: 冯远静; 周思琪; 金丽玲; 何建忠; 曾庆润; 吴烨
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2017-02-28
Filing date: 2017-02-28
Publication date: 2019-05-31
Anticipated expiration: 2037-02-28
Also published as: CN106980753A

Abstract

一种用于神经疾病的基于体素分析的数据驱动机器学习方法，包括如下步骤：1)根据对脑区指标的定量测量值进行主成分分析PCA模型训练；2)对所有特征进行提取；3)为所选出的特征选择最佳分类器模型算法；3)预测：对于一个新样本，要去量化所有量化指标对于获取测量值矩阵之后，增量主成分分析提供了增量更新原始主成分分析的方法去获得一个新的增量主成分分析模型；对获得的该模型，去计算增量主成分分析特征向量，而测量值矩阵的维度会被降为新的Q＝[q¹,...q^m]；这些新测量值将重新排列为X。本发明提供了一种精度较高的用于神经疾病的基于体素分析的数据驱动机器学习方法。

Description

一种用于神经疾病的基于体素分析的数据驱动机器学习方法

技术领域

本发明涉及计算机图形学下的医学成像、神经解剖学领域，是一种针对大脑神经疾病的，基于体素分析的数据驱动机器学习方法。

背景技术

定量扩散张量成像(DTI)用于纤维建模，是十分有效的临床应用工具，用于评估损伤的程度和定位神经疾病。但是缺乏不足的分辨率限制了DTI探测更复杂的微结构信息。现有的神经疾病方法通常用于验证疾病的临床猜测，并且难以预测和积极测量涉及这些疾病的脑区。找出有效的区分分类疾病方法是解决问题的关键。

发明内容

为了克服现有基于DTI的纤维量化指标一直存在着低精度以及判断结果与疾病临床表现不一致等问题的不足，针对以上两个限制，基于HARDI技术的神经系统疾病，本发明提供了一种精度较高的基于体素分析的数据驱动机器学习方法，其中提出了数据驱动的机器学习方法来分析和预测神经系统疾病。

本发明解决其技术问题所采用的技术方案是：

一种用于神经疾病的基于体素分析的数据驱动机器学习方法，包括如下步骤：

1)根据对脑区指标的定量测量值进行主成分分析PCA模型训练，过程如下：

获得的量化数据组表示为：

其中，n代表总的样本数量；代表每个样本体素的量化指标值。

降维后的数据Q在维度m下被表示为：

其中，维度满足1≤m≤p的部分表示的意思是保留方差为投影空间最大值的正交轴，增量主成分分析用新输入的数据和上一步特征值更新当前的特征值；

通过两个样本协方差矩阵S的前导特征向量得出Q，其中：

公式中K和n_j分别表示样本平均值、分类的数目以及类j中的样本数量；因此，推出以下的结果表达：

SQ_i＝λ_iQ_i,i＝1,...m (4)

在该表达式中，λ_i是矩阵S第i个最大特征向量；

在所操作的样本空间中，的主成分主轴m是解相关的；

2)对所有特征进行提取，过程如下：

在初步处理后，在初步处理后，观察考虑特征列表中的每个特征，之后要人工地对特征进行挑选移除；设样本为X＝[X₁,...X_j,...X_n]^T，其中每个样本X_j都有一个对应的分类Y_j；

单变量特征选择通过单变量统计检验取选择最佳特征；

对获取样本数据去计算单因素方差分析中的p值，对每个样本都是基于计算出的K最高值进行特征进行选择；对所有的样本，去计算病人组与正常控制组在每个体素间的距离和副本以及将最大K值包括进新样本；新样本是从原样本中获得，它们的Y值是被保留的；

3)为所选出的特征选择最佳分类器模型算法，过程如下：

利用这些指数和选择的体素，在这里使用随机森林RF算法训练高分疾病分类模型；在分类器模型部分中，需要做的是从选择出的特征中规划出一个预测函数f(x)去预测y；如果考虑到新的特征队列和它对应的队列Y，就可以去建立一个随机森林分类器去区分病人及控制样本；每个训练集都是在聚合技术作用下由独立森林树创建的；由以下三步实现：

3.1.采用bootstrap抽样技术从原始数据集中抽取ntree个训练集，每个训练集的大小为原始数据集的三分之二；

3.2.为每一个bootstrap训练集分别建立分类回归树CART，共产生ntree棵决策树构成一片“森林”，随机选择最优属性进行分支，mtry≤M；

3.3.集合ntree棵决策树的预测结果，采用投票的方式决定新样本的类别；

随机森林分类器设置三个参数：森林中决策树的数量ntree、内部节点随机选择属性的个数mtry及终节点的最小样本数nodesize；

4)预测

对于一个新样本，要去量化所有量化指标对于获取测量值矩阵之后，增量主成分分析提供了增量更新原始主成分分析的方法去获得一个新的增量主成分分析模型；对获得的该模型，去计算增量主成分分析特征向量，而测量值矩阵的维度会被降为新的Q＝[q¹,...q^m]；这些新测量值将重新排列为X。

进一步，所述步骤4)中，在预测环节，随机森林算法在训练过程中的每次bootstrap抽样，将有三分之一的数据未被抽中，这部分数据被称为袋外数据，随机森林算法就是利用这部分数据进行内部的误差估计。

本发明的目标是找到一个数据驱动的方法，积极测量与神经系统疾病相关的脑区，然后根据这些区域的特点预测新的样本。同时，该方法可以根据不同的疾病特征自动选择合适的定量测量指标。与单一成像技术(DTI)相比，多种技术(DTI，HARDI)的混合可以提取更多的功能，有助于剖析特定的疾病病理可能更准确。

本发明的有益效果主要表现在：精度较高。

具体实施方式

下面对本发明作进一步描述。

1)根据对脑区指标的定量测量值进行主成分分析(PCA)模型训练，过程如下：

该步骤其实就是使用PCA方法提取基于HARDI成像算法的合成指数。

获得的量化数据组可以表示为：

降维后的数据Q在维度m下可以被表示为：

在这个公式中，其中满足1≤m≤p的部分表示的意思是保留方差为投影空间最大值的正交轴。在这里选用增量主成分分析(IPCA)去弥补当要分解的数据集过大而不能适应存储器的问题，作为主成分分析方法的替代。增量主成分分析用新输入的数据和上一步特征值就实现更新当前的特征值而不用考虑整个数据集。

通过两个样本协方差矩阵S的前导特征向量可以得出Q。其中：

公式中K和n_j分别表示：样本平均值，分类的数目以及类j中的样本数量。因此，我们可以推出以下的结果表达：

SQ_i＝λ_iQ_i,i＝1,...m (4)

在该表达式中，λ_i是矩阵S第i个最大特征向量。

在所操作的样本空间中，的主成分主轴m是解相关的。关于主成分分析用来特征提取和降维的想法假设：观察向量大多数信息被包含在了两个m主轴中被第一个跨越的子空间中即m＜p部分。所以每个原始数据向量在维度m可以被自己的主成分向量表示。提出的方法中，通过对ROI使用PCA降维训练出一个主成分模型P(λ,Q)。除了PCA，这个模型在全脑的其他区域都适用。对于ROI，可以半自动地对目标数据选取，采用一个可以足以包括所有对象的ROI的最小边界矩形去补充选择的ROI并确保其统一的维度。

2)对所有特征(指标数值)进行提取，过程如下：

核心是要提供特征选择算法以自动获得在整个大脑之间的控制和患者对象之间可能具有显着多样性的重要体素。

在初步处理后，在初步处理后，观察考虑特征列表中的每个特征，之后要人工地对特征进行挑选移除；设样本为X＝[X₁,...X_j,...X_n]^T，其中每个样本X_j都有一个对应的分类Y_j(比如病人样本取0，正常控制组样本取1)。

单变量特征选择通过单变量统计检验取选择最佳特征。

在这个系统实验过程中，对获取样本数据去计算单因素方差分析中的p值。SelectKBest是用来提取数据集中最明显特征的常用技术，经常用于去将原始数据缩减为包含最大差异量的特征的子集。对每个样本都是基于计算出的K最高值进行特征进行选择。对所有的样本，去计算病人组与正常控制组在每个体素间的距离和副本以及将最大K值包括进新样本。新样本是从原样本中获得，因此，它们的Y值是被保留的。

3)为所选出的特征选择最佳分类器模型算法，过程如下：

利用这些指数和选择的体素，在这里使用随机森林(RF)算法训练高分疾病分类模型。在分类器模型部分中，需要做的是从选择出的特征中规划出一个预测函数f(x)去预测y。如果考虑到新的特征队列和它对应的队列Y，就可以去建立一个随机森林分类器去区分病人及控制样本。不过，每个训练集都是在聚合技术作用下由独立森林树创建的。

其算法由以下三步实现：

3.1.采用bootstrap抽样技术从原始数据集中抽取ntree个训练集，每个训练集的大小约为原始数据集的三分之二。

3.2.为每一个bootstrap训练集分别建立分类回归树(Classification andRegression Tree，CART)，共产生ntree棵决策树构成一片“森林”。随机选择最优属性进行分支(mtry≤M)。

3.3.集合ntree棵决策树的预测结果，采用投票(voting)的方式决定新样本的类别。

随机森林分类器利用基于Breiman随机森林理论的R语言软件包randomForest来实现。需要设置三个主要的参数：森林中决策树的数量(ntree)、内部节点随机选择属性的个数(mtry)及终节点的最小样本数(nodesize)。

在随机森林算法中，特征之间的一个相对的重要性排名也用在决策点，这也可以去评估特征在预估新目标变量中相对重要性。决策树顶端的特征会被考虑进最终的预测。样本预期的部分因此可以被运用至特征间相对主次地位的评估。

4)预测

预测一个新样本通常旨在去获得分类的信息和概率。对于一个新样本，要去量化所有量化指标对于获取测量值矩阵是必要的。之后，增量主成分分析提供了增量更新原始主成分分析的方法去获得一个新的增量主成分分析模型。对获得的该模型，去计算增量主成分分析特征向量，而测量值矩阵的维度会被降为新的Q＝[q¹,...q^m]。这些新测量值将重新排列为X。

在预测环节。随机森林算法在训练过程中的每次bootstrap抽样，将有约三分之一的数据未被抽中，这部分数据被称为袋外(out-of-bag)数据。随机森林就是利用这部分数据进行内部的误差估计。

Claims

1.一种用于神经疾病的基于体素分析的数据驱动机器学习方法，其特征在于：包括如下步骤：

获得的量化数据组表示为：

其中，n代表总的样本数量；代表每个样本体素的量化指标值；

降维后的数据Q在维度m下被表示为：

其中，满足维度1≤m≤p的部分表示的意思是保留方差为投影空间最大值的正交轴，增量主成分分析用新输入的数据和上一步特征值更新当前的特征值；

通过两个样本协方差矩阵S的前导特征向量得出Q，其中：

SQ_i＝λ_iQ_i,i＝1,...m (4)

在该表达式中，λ_i是矩阵S第i个最大特征向量；

在所操作的样本空间中，的主成分主轴m是解相关的；

2)对所有特征进行提取，过程如下：

在初步处理后，观察考虑特征列表中的每个特征，之后要人工地对特征进行挑选移除；设样本为X＝[X₁,...X_j,...X_n]^T，其中每个样本X_j都有一个对应的分类Y_j；

单变量特征选择通过单变量统计检验取选择最佳特征；

3)为所选出的特征选择最佳分类器模型算法，过程如下：

4)预测

2.如权利要求1所述的用于神经疾病的基于体素分析的数据驱动机器学习方法，其特征在于：所述步骤4)中，在预测环节，随机森林算法在训练过程中的每次bootstrap抽样，将有三分之一的数据未被抽中，这部分数据被称为袋外数据，随机森林算法就是利用这部分数据进行内部的误差估计。