CN114596306A

CN114596306A - 基于机器学习诊断帕金森疾病的系统

Info

Publication number: CN114596306A
Application number: CN202210320398.1A
Authority: CN
Inventors: 冯则城; 章诚哲; 周祥锐; 徐欣瑶; 胡宸恺; 马思涵; 石晨佐; 周宇轩; 冯远静
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2022-03-29
Filing date: 2022-03-29
Publication date: 2022-06-07

Abstract

一种基于机器学习诊断帕金森疾病的系统，包括图像预处理模块、纤维重构模块、纤维束分割模块、特征提取模块、训练模型模块和医疗诊断模块，纤维重构模块采用概率型全脑纤维跟踪技术，利用每个体素的扩散张量，在人脑的三维空间中跟踪得到从体素到体素的纤维束，即最优纤维路径；提出所有样本的全脑纤维；纤维束分割模块，将重构的纤维基于图谱的方法进行细分割；特征提取模块，将获得的纤维束进行分段重采样成设定数量段，并将位于该段的体素所要获取的单个属性取平均值，将患者和正常人分为两组，进行统计学显著性差异分析ttest，将每束中有显著性差异的段的属性平均值作为特征。本发明为帕金森疾病的预测提供一定客观可信的辅助手段。

Description

基于机器学习诊断帕金森疾病的系统

技术领域

本发明属于智慧医疗，基于人工智能对患者的脑部影像进行处理，通过对核磁共振形成的图像进行预处理，纤维重构，提取纤维信息，最终应用机器学习来诊断帕金森病诊断的系统。

背景技术

帕金森疾病是一种神经系统变性疾病，且难以治愈。因此，对帕金森疾病的早期诊断至关重要。

目前尚无有效的预防措施阻止帕金森病的发生，此外大多数帕金森病患者确诊都是由医学专家通过对患者的临床症状做出判断，并结合统一帕金森病评定量表(UPDRS3.0)等统计信息确诊，这种方法耗时较长且过于依赖专家的主观经验，很难发现并对患者(将帕金森病患者和临床前患者统称为患者)进行诊断并进行及时干预。计算机辅助判断在现代医学分析中发挥着越来越重要的作用。

疾病特征标记方法一直是当前众多脑科学研究的热门课题，是研究众多神经退行性疾病的病理原因的重要途径之一，以期帮助医生更好更快地诊断大脑疾病的病因以及制定正确的治疗方案。

以下文献中有关于诊断帕金森疾病的相关技术。

专利文献：中国知识产权局CN 111933273 B(授权日期：2021.08.27)

非专利性文献：JinLiling,Zeng Qingrun,He Jianzhong,Feng Yuanjing,ZhouSiqi,Wu Ye.AReliefF-SVM-based method for marking dopamine-based diseasecharacteristics:Astudy on SWEDD and Parkinson’s disease[J].Behavioural.BrainResearch,2019.356:400-40。

较为常见的是利用核磁共振获取脑部影像，进而分析患者脑内黑质的细微差别，但对于患者脑部影像的处理方式不同也会有明显差异。

发明内容

为了克服已有技术的不足,本发明提供了一种基于机器学习诊断帕金森疾病的系统，为帕金森疾病的预测提供一定客观可信的辅助手段，在一定程度上缓解医生的压力。

本发明解决其技术问题所采用的技术方案是：

一种基于机器学习诊断帕金森疾病的系统，包括图像预处理模块、纤维重构模块、纤维束分割模块、特征提取模块、训练模型模块和医疗诊断模块。

所述图像预处理模块，处理过程分为4个步骤：1.1图像去噪；1.2涡流矫正；1.3头动矫正；1.4磁化矫正；

所述纤维重构模块采用概率型全脑纤维跟踪技术，利用每个体素的扩散张量，在人脑的三维空间中跟踪得到从体素到体素的纤维束，即最优纤维路径；提出所有样本的全脑纤维；

所述纤维束分割模块，将重构的纤维基于图谱的方法进行细分割：将追踪出的全脑纤维聚类到白质图谱空间，进行纤维束质量检测无误后，使用双边滤波的方法将全脑纤维按照脑功能区精细划分为左半球束、右半球束和联合纤维；

所述特征提取模块，将基于纤维束分割模块获得的纤维束进行分段重采样成设定数量段，并将位于该段的体素所要获取的单个属性取平均值，将患者和正常人分为两组，进行统计学显著性差异分析ttest，将每束中有显著性差异的段的属性平均值作为特征；

所述训练模型模块，分为两个步骤：5.1，特征降维；5.2，使用随机森林的分类模型作为帕金森患者预测的判断系统，将过滤好的特征作为模型的输入，并进行特征的归一化提高模型稳定性，患者的特征数据作值进行模型的训练，学习到特征到标签的映射关系，最终将结果应用到疾病的预测工作上，以准确度作为模型的评价指标。

所述医疗诊断模块，将训练的模型进行应用，从医院获得脑部影像并做出辅助判断。

本发明的技术构思为：大部分学者认为帕金森病的发生与黑质相关，因此多数研究是对黑质进行观察、提取特征等等，但本发明所使用的方法是对白质进行分析，具有新颖性，并且从结果来看是有效的，因为白质发生异常在PD早期过程，更具敏感性。

本发明的有益效果主要表现在：为帕金森疾病的预测提供一定客观可信的辅助手段，在一定程度上缓解医生的压力。

附图说明

图1是基于机器学习诊断帕金森疾病的系统的原理框图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1，一种基于机器学习诊断帕金森疾病的系统，包括图像预处理模块、纤维重构模块、纤维束分割模块、特征提取模块、训练模型模块和医疗诊断模块。

所述图像预处理模块，处理过程分为4个步骤：1.1图像去噪，由于患者移动和图像伪像失真，需对所获得MRI进行图像去噪；1.2涡流矫正，为了纠正涡流引起的扭曲和主题的运动，需要对所获得MRI进行涡流矫正；1.3头动矫正；1.4磁化矫正，为了提高成像准确度减小误差所需的必要操作。

所述纤维重构模块采用概率型全脑纤维跟踪技术，利用每个体素的扩散张量，在人脑的三维空间中跟踪得到从体素到体素的纤维束，即最优纤维路径；DTI是弥散成像最成熟的方式，可以定量地评价脑白质的微结构属性的变化。在此成像方式中，不只用单一的梯度脉冲,而至少需要施加6个非共线方向弥散敏感梯度，最简单的方案就是X,Y,Z,XY,XZ,YZ方向，二阶弥散张量为1个3*3的矩阵,通过被称为相似变换的数学方法,可以消除矩阵内非对角线的各项；这相当于重新设定体素内的Z轴方向,以使它位于脑白质束的主要方向，此方向被称为主要本征向量，此方向上的弥散系数被称为主要本征值，除了主要本征向量和本征值外，还在垂直于新的Z轴方向(新的X和Y轴)上描述新的本征向量，最终提出所有样本的全脑纤维约30万根。

所述纤维束分割模块，将重构的纤维基于图谱的方法进行细分割：将追踪出的全脑纤维聚类到白质图谱空间，进行纤维束质量检测无误后，使用双边滤波的方法将全脑纤维按照脑功能区精细划分为左半球束、右半球束和联合纤维共计800束纤维；

所述特征提取模块，将基于纤维束分割模块获得的纤维束进行分段重采样成100段，并将位于该段的体素所要获取的单个属性取平均值，将患者和正常人分为两组，进行统计学显著性差异分析ttest，将每束中有显著性差异的段的属性平均值作为特征。

所述训练模型模块，分为两个步骤：5.1，特征降维(显著性检测)考虑到每位患者的特征数量过多会引起分类模型的过拟合，因此首先考虑特征的降维；5.2，使用随机森林的分类模型作为帕金森患者预测的判断系统。将过滤好的特征作为模型的输入，并进行特征的归一化提高模型稳定性。患者的特征数据作值进行模型的训练，学习到特征到标签的映射关系，最终将结果应用到疾病的预测工作上。这里我们以准确度作为模型的评价指标。

本实施例所使用数据均真实有效，由相关医院提供PD患者和正常人的脑部影像资料。获取方式为核磁共振成像，该技术通过对水分子施加不同方向磁场测得水分子弥散状况，是目前唯一能有效观察和追踪白质纤维束的非侵入性检测方法。

在所述影像预处理模块，由于使用自旋回拨平面成像序列进行扫描，以此获得扩散加权成像，由于采样过程中会出现扩散敏化和T2弛豫等现象导致扩散加权信号衰减，信噪比变低，图形变性失真。进而引起后续的各项指标例错误，最终降低纤维成像的精度，无法正确呈现大脑白质纤维束的结构。因此，使用fsl工具对获得的dMRI数据进行预处理，步骤如下：

1.1中进行图像去噪，需要先对噪声水平进行估计在进行处理；

1.2涡流矫正中，扩散信号使用高斯过程建模，因此对扩散信号作做出的假设很少，唯一的两个假设是：

1.通过沿两个矢量(它们之间有一个小角度)的扩散加权获得的两个采集的信号比它们之间具有较大角的两个采集更相似

2.沿矢量v和-v的两个采集的信号是相同的。

从扩散的角度来看，沿v和-v的采样是完全等效的，而从涡流失真的角度来看，它们是不同的。因此，采用全球代替半球采样，它们都均匀且均匀地采样扩散(并且具有相同的总采集时间)每个向量的末端都用x标记标记。因此有助于涡流矫正。

1.3头动矫正，由于扫描采样过程中患者会有不自主的轻微头动，包括物理头部运动和生理头部运动，导致图像伪影出现，因此采用SPM软件包进行头动矫正，以确保不同时间序列图像空间位置完全对应。

1.4磁化矫正，扩散成像通常使用扩散加权自旋回波EPI图像进行。这些图像对非零离谐振场非常敏感。这些场将由受试者头部的敏感性分布(称为敏感性诱导的离谐振场)和来自扩散加权梯度的快速切换(称为涡流诱导的离振场)的涡流(EC)引起。除此之外，扩散协议可能很长，使得主体移动几乎不可避免。

对于所有采集的图像，易感性诱导场将是(第一近似值)恒定的，导致图像集在内部将是一致的，因为它会导致结构图像(通常不受失真影响)和扩散图像之间的几何不匹配。因此我们进行了磁化矫正，用于查找磁化率异常谐振场的方法是使用两个或多个采集参数不同的采集，以便映射场>失真不同。

给定两个图像和采集参数的知识，然后通过找到应用于两个体积时将最大化未翘曲体积相似性的场来估计场。相似性由未扭曲图像之间的平方和差异来衡量。这个测量允许我们使用高斯-牛顿来共同找到场和两次采集之间可能发生的任何运动。

在纤维重构模块，使用mrtrix3对DTI图像使用概率型全脑纤维追踪技术，基于最大谐波阶数为6的CSD算法计算了纤维取向分布图，用tckedit指令进行概率型纤维追踪，设置参数：最大角度为22.5°，最小纤维长度为10毫米，最大纤维长度为250毫米，其他参数为默认。经过筛选错误的纤维，最终追踪出30万根全脑纤维。

在纤维束分割模块，采用基于图谱方法进行细分割：将追踪出的全脑纤维聚类到白质图谱空间，进行纤维束质量检测无误后，使用双边滤波的方法将全脑纤维按照脑功能区精细划分为左半球束、右半球束和联合纤维各800束纤维。

在特征提取模块，为了量化纤维束的特性，我们将每根纤维重新采样200个等间距节点，并计算每个节点中每个点的体素坐标，我们使用AFQ算法来确保每个集群中纤维束的起点和终点是一致的。选取马氏距离作为加权系数对分割出的全脑纤维束中的离群纤维进行除杂处理，经过离群纤维剔除步骤后，簇中不同纤维束的长度是近似的，保证了每根纤维的节点对应于纤维束的相同位置。通过样条插值计算全脑中每个点的FD、FC和FDC并将物理坐标通过仿射变换与体素坐标相对应，进行数据处理；

特征提取模块中，选取马氏距离作为加权系数移除比平均纤维长度高出4个标准差以上的纤维或那些与纤维束核心相差超过5个标准差的纤维。将纤维束中距离相等的位置视为束状横截面，将束状横截面上的所有点称为一个节点，每个集群核心是每个节点中每个光纤的x、y和z坐标的平均值，并被标记为μ，光纤在每个光纤的x、y和z坐标之间在3D空间中的扩散被描述为协方差矩阵S。

在该模块中，提取出了四个属性值：

MD：反应单个体素内水分子的平均扩散强度。

大脑白质区域和灰质区域的MD非常相似，脑脊液(CSF)的MD更高。MD对细胞数量、水肿和坏死很敏感。

FA是具有各向异性的扩散张量与所有扩散张量总和的比值，取值区间为0～1，FA对微观结构的变化非常敏感，因此可用来描述微观结构完整性。

除此之外，基于amico计算框架，提取NDI(反应神经密度)、ODI(方向分散度)，该属性值与微观结构完整性有关，并且能够更好地反映出白质结构变化的原因。

在训练模型模块，分为以下步骤：

S1.特征降维(显著性检测)

在每位患者或正常人均能得到脑部影像数据中提取出来共758种类别的神经纤维，对每条神经纤维切段得到100个对应位置的特征数据。考虑到每位患者的特征数量过多会引起分类模型的过拟合，因此首先考虑特征的降维。

S2.机器学习训练模型

这里使用随机森林的分类模型作为帕金森患者预测的判断系统。将过滤好的特征作为模型的输入，并进行特征的归一化提高模型稳定性。患者的特征数据作为数据特征，患者是否患有帕金森病作为数据标签。对模型进行反复的训练与测试，将平均结果作为模型最终准确度。

所述步骤S1包括：

S1.1神经纤维种类降维

在机器学习数据预处理的过程中，常常考虑到过滤法将影响较小的数据去除，而方差过滤是过滤法之一，方差过滤的核心思想就是过滤掉那些特征方差较小的特征。比如一个特征本身的方差很小，就表示样本在这个特征上基本没有差异，可能特征中的大多数值都一样，甚至整个特征的取值都相同，那这个特征对于样本区分没有什么作用。所以可以设置一个过滤的阈值，过滤掉那些方差小的特征，从而达到特征筛选的目的。

由于本实施例中使用的神经纤维数据量极大，且存在着大量的冗余和无关数据。这部分数据不仅提高了模型的时间复杂度，还会由于过拟合导致准确度的下降。因此选取方差过滤的方法对神经纤维的种类数量进行初步的降维。

将帕金森患者数据存储入SQL数据库中作为数据输入，对每种类别的神经纤维的特征集合进行方差过滤，过滤掉方差较小的神经纤维。由此构建脑部核磁共振数据集合P＝{P₁,P₂,P₃...P_n},其中P_i＝(F_i,Y_i).集合P包含了帕金森患者和未患病群体的数据总和，P_i为每个人的已知数据经过整理后的结果，F_i＝{f_i1,f_i2,f_i3...f_im}_1×m标记了脑部神经纤维中所有捕获到的特征，Y_i为标签值，表示是否患有帕金森基本，若标记为1则患病，n表示数据集中的总人数。

针对所有人脑部相同种类的神经纤维，将提取到的特征求出方差后求和：

为第i个人的神经纤维特征值的方差，

表示特征值的均值。

求出所有人同一种神经纤维特征值的方差和，用于判断该种类型的纤维在测试帕金森症患病情况的重要性。最后通过设定阈值筛选特征，取方差和阈值为0.9，筛去方差和小于阈值的纤维束，最终将有显著性效果的共151种神经纤维保留。

S1.2单条神经纤维特征降维

每人每种神经纤维都对应100个不同纤维位置的特征值，这里使用PCA降维将特征降低到10维。PCA算法能有效环节维度灾难，避免数据过拟合，同时也可以进一步排除数据集中的干扰。PCA算法步骤包括：

首先将原始数据按列组成n行m列矩阵X；将X的每一行进行零均值化，即减去这一行的均值。然后求出协方差矩阵

求出协方差矩阵的特征值及对应的特征向量；将特征向量按对应特征值大小从上到下按行排列成矩阵，取前k行组成矩阵M；Q＝MX即为降维到k维后的数据。取k＝10，即将特征维度从100降到10维。

所述步骤S2包括：

使用随机森林的分类模型进行训练，随机森林是由多组决策树构成的。决策树是一种很简单的算法，他的解释性强，也符合人类的直观思维。这是一种基于if-then-else规则的有监督学习算法。当我们进行分类任务时，新的输入样本进入，就让森林中的每一棵决策树分别进行判断和分类，每个决策树会得到一个自己的分类结果，决策树的分类结果中哪一个分类最多，那么随机森林就会把这个结果当做最终的结果。

在步骤S1处理后的基础上，将特征数据和标签数据输入到随机森林的分类器中进行训练。训练集与测试集分割比设定为0.8，种子设定为随机值进行模型的训练，以准确度作为模型的评价指标。

Claims

1.一种基于机器学习诊断帕金森疾病的系统，其特征在于，所述系统包括图像预处理模块、纤维重构模块、纤维束分割模块、特征提取模块、训练模型模块和医疗诊断模块；

所述训练模型模块，分为两个步骤：5.1，特征降维；5.2，使用随机森林的分类模型作为帕金森患者预测的判断系统，将过滤好的特征作为模型的输入，并进行特征的归一化提高模型稳定性，患者的特征数据作值进行模型的训练，学习到特征到标签的映射关系，最终将结果应用到疾病的预测工作上，以准确度作为模型的评价指标；

2.如权利要求1所述的基于机器学习诊断帕金森疾病的系统，其特征在于，所述纤维重构模块中，使用mrtrix3对DTI图像使用概率型全脑纤维追踪技术，基于最大谐波阶数为6的CSD算法计算了纤维取向分布图，用tckedit指令进行概率型纤维追踪，设置参数：最大角度为22.5°，最小纤维长度为10毫米，最大纤维长度为250毫米，其他参数为默认，经过筛选错误的纤维，最终追踪出30万根全脑纤维。

3.如权利要求1或2所述的基于机器学习诊断帕金森疾病的系统，其特征在于，所述特征提取模块中，选取马氏距离作为加权系数移除比平均纤维长度高出4个标准差以上的纤维或那些与纤维束核心相差超过5个标准差的纤维；将纤维束中距离相等的位置视为束状横截面，将束状横截面上的所有点称为一个节点，每个集群核心是每个节点中每个光纤的x、y和z坐标的平均值，并被标记为μ，光纤在每个光纤的x、y和z坐标之间在3D空间中的扩散被描述为协方差矩阵S。

4.如权利要求3所述的基于机器学习诊断帕金森疾病的系统，其特征在于，所述特征提取模块中，提取出了四个属性值：

MD：反应单个体素内水分子的平均扩散强度

大脑白质区域和灰质区域的MD非常相似，脑脊液CSF的MD更高，MD对细胞数量、水肿和坏死很敏感；

FA是具有各向异性的扩散张量与所有扩散张量总和的比值，取值区间为0～1，FA对微观结构的变化非常敏感，因此可用来描述微观结构完整性；

除此之外，基于amico计算框架，提取反应神经密度NDI、方向分散度ODI，该属性值与微观结构完整性有关，并且能够更好地反映出白质结构变化的原因；

所述训练模型模块分为以下步骤：

S1.特征降维

在每位患者或正常人均能得到脑部影像数据中提取出来共758种类别的神经纤维，对每条神经纤维切段得到100个对应位置的特征数据，考虑到每位患者的特征数量过多会引起分类模型的过拟合，因此首先考虑特征的降维；

S2.机器学习训练模型

这里使用随机森林的分类模型作为帕金森患者预测的判断系统，将过滤好的特征作为模型的输入，并进行特征的归一化提高模型稳定性，患者的特征数据作为数据特征，患者是否患有帕金森病作为数据标签，对模型进行反复的训练与测试，将平均结果作为模型最终准确度。

5.如权利要求4所述的基于机器学习诊断帕金森疾病的系统，其特征在于，所述步骤S1包括：

S1.1神经纤维种类降维

选取方差过滤的方法对神经纤维的种类数量进行初步的降维；

将帕金森患者数据存储入SQL数据库中作为数据输入，对每种类别的神经纤维的特征集合进行方差过滤，过滤掉方差较小的神经纤维，由此构建脑部核磁共振数据集合P＝{P₁,P₂,P₃...P_n},其中P_i＝(f_i,Y_i).集合P包含了帕金森患者和未患病群体的数据总和，P_i为每个人的已知数据经过整理后的结果，F_i＝{f_i1,f_i2,f_i3...f_im}_1×m标记了脑部神经纤维中所有捕获到的特征，Y_i为标签值，表示是否患有帕金森基本，若标记为1则患病，n表示数据集中的总人数；

为第i个人的神经纤维特征值的方差，

表示特征值的均值；

求出所有人同一种神经纤维特征值的方差和，用于判断该种类型的纤维在测试帕金森症患病情况的重要性，最后通过设定阈值筛选特征，取方差和阈值为0.9，筛去方差和小于阈值的纤维束，最终将有显著性效果的共151种神经纤维保留；

S1.2单条神经纤维特征降维

每人每种神经纤维都对应100个不同纤维位置的特征值，这里使用PCA降维将特征降低到10维，PCA算法能有效环节维度灾难，避免数据过拟合，同时也可以进一步排除数据集中的干扰，PCA算法步骤包括：

首先将原始数据按列组成n行m列矩阵X；将X的每一行进行零均值化，即减去这一行的均值；然后求出协方差矩阵

求出协方差矩阵的特征值及对应的特征向量；将特征向量按对应特征值大小从上到下按行排列成矩阵，取前k行组成矩阵M；Q＝MX即为降维到k维后的数据；取k＝10，即将特征维度从100降到10维。

6.如权利要求4所述的基于机器学习诊断帕金森疾病的系统，其特征在于，所述步骤S2中，使用随机森林的分类模型进行训练，随机森林是由多组决策树构成的；决策树是一种很简单的算法，他的解释性强，也符合人类的直观思维，这是一种基于if-then-else规则的有监督学习算法；当进行分类任务时，新的输入样本进入，就让森林中的每一棵决策树分别进行判断和分类，每个决策树会得到一个自己的分类结果，决策树的分类结果中哪一个分类最多，那么随机森林就会把这个结果当做最终的结果。