发明内容
为解决上述技术问题,本发明的目的在于:提供一种效率高和分类性能好的,基于高斯过程分类的阿尔茨海默症分类方法、系统及装置。
本发明所采取的第一技术方案是:
基于高斯过程分类的阿尔茨海默症分类方法,包括以下步骤:
获取阿尔茨海默症的磁共振成像数据;
采用基于总相关系数的关键特征提取算法从获取的磁共振成像数据提取出用于阿尔茨海默症分类的关键特征;
根据提取出的关键特征采用高斯过程分类器对待分类数据进行分类,得到阿尔茨海默症的分类结果。
进一步,所述获取阿尔茨海默症的磁共振成像数据这一步骤,具体为:
从阿尔茨海默症神经影像学倡议标准数据库中选取若干张磁共振图像作为阿尔茨海默症的磁共振成像数据。
进一步,所述采用基于总相关系数的关键特征提取算法从获取的磁共振成像数据提取出用于阿尔茨海默症分类的关键特征这一步骤,具体包括:
对阿尔茨海默症的磁共振成像数据进行预处理,得到n个样本以及每个样本关于左右脑各个区域的所有相关特征,其中,n为样本的个数;
采用基于总相关系数的关键特征提取算法从得到的所有相关特征中提取出用于阿尔茨海默症分类的关键特征。
进一步,所述采用基于总相关系数的关键特征提取算法从得到的所有相关特征中提取出用于阿尔茨海默症分类的关键特征这一步骤,具体包括:
分别计算得到的所有相关特征中每个特征的总相关系数;
根据计算的总相关系数和预设的阈值,得到用于阿尔茨海默症分类的关键特征。
进一步,所述分别计算得到的所有相关特征中每个特征的总相关系数这一步骤,具体包括:
对输入的条件属性集进行标准化,得到标准条件属性矩阵,其中,标准化所采用的公式为:
式中,X为输入的条件属性集,且XT=[x1,x2,…,xn]是一个p×n维的矩阵,p代表条件属性集的维度,T为转置,x1,x2,…,xn表示n个样本,I是一个n×n维的单位矩阵,diag(·)是一个对角矩阵,diag(·)对角线上的元素si代表第i个变量的标准差,i=1,2,…,p,Xs为标准条件属性矩阵;
根据标准条件属性矩阵计算样本相关矩阵,所述样本相关矩阵Rx的计算公式为:
计算样本相关矩阵Rx的特征值并进行降序排列,得到降序排列后的p个特征值λ1,λ2,…,λp以及对应的相互正交的p个特征向量u1,u2,…,up;
根据降序排列的结果计算样本相关矩阵Rx的主成分,所述样本相关矩阵Rx的主成分计算公式为:
其中,yi和ui分别为第i个主成分和第i个特征向量;
根据降序排列的结果和计算的主成分计算样本的每个条件属性和样本所有主成分间的总体相关系数值,所述样本的每个条件属性计算公式为:
所述样本所有主成分间的总体相关系数值计算公式为:
其中,λi为p个特征值λ1,λ2,…,λp中第i个特征值,ri为样本的第i个条件属性,ρY,Xk为X的第k个变量Xk对主成分集Y的总体相关系数值,Y由所有主成分组成,uki是第k特征向量uk的第i个元素,σkk是X的第k个变量Xk的方差。
进一步,所述根据计算的总相关系数和预设的阈值,得到用于阿尔茨海默症分类的关键特征这一步骤,具体为:
判断当前相关特征的总相关系数是否大于预设的阈值,若是,则将当前相关特征作为用于阿尔茨海默症分类的关键特征,反之,则将当前相关特征作为非用于阿尔茨海默症分类的关键特征,其中,当前相关特征为得到的所有相关特征中的任一特征。
进一步,所述根据提取出的关键特征采用高斯过程分类器对待分类数据进行分类,得到阿尔茨海默症的分类结果这一步骤,具体包括:
按预定比例将n个样本划分为训练样本和测试样本;
根据训练样本的关键特征采用高斯过程分类器训练出阿尔茨海默症分类模型;
根据测试样本对阿尔茨海默症分类模型进行测试;
采用测试后的阿尔茨海默症分类模型对输入的待分类数据进行分类。
进一步,所述根据训练样本的关键特征采用高斯过程分类器训练出阿尔茨海默症分类模型这一步骤,具体包括:
根据训练样本确定相应的训练集标签;
选择高斯过程的协方差函数,并计算相应的协方差矩阵;
选择高斯过程的似然函数;
根据训练样本、训练集标签、高斯过程的协方差矩阵以及高斯过程的似然函数,采用拉普拉斯近似方法进行牛顿迭代循环,得到边缘最大似然函数和相应的高斯后验分布函数。
本发明所采取的第二技术方案是:
基于高斯过程分类的阿尔茨海默症分类系统,包括:
数据获取模块,用于获取阿尔茨海默症的磁共振成像数据;
特征提取模块,用于采用基于总相关系数的关键特征提取算法从获取的磁共振成像数据提取出用于阿尔茨海默症分类的关键特征;
分类模块,用于根据提取出的关键特征采用高斯过程分类器对待分类数据进行分类,得到阿尔茨海默症的分类结果。
本发明所采取的第三技术方案是:
基于高斯过程分类的阿尔茨海默症分类装置,包括:
存储器,用于存放程序;
处理器,用于加载所述程序以执行如第一技术方案所述的基于高斯过程分类的阿尔茨海默症分类方法。
本发明的有益效果是:本发明基于高斯过程分类的阿尔茨海默症分类方法、系统及装置,综合采用了基于总相关系数的关键特征提取算法和高斯过程分类器来进行阿尔茨海默症特征提取与分类,通过基于总相关系数的关键特征提取算法提升了阿尔茨海默症的特征提取效率,同时通过高斯过程分类器保证了阿尔茨海默症的分类性能,容易实现,且非线性处理性能更好。
具体实施方式
参照图1,基于高斯过程分类的阿尔茨海默症分类方法,包括以下步骤:
获取阿尔茨海默症的磁共振成像数据;
采用基于总相关系数的关键特征提取算法从获取的磁共振成像数据提取出用于阿尔茨海默症分类的关键特征;
根据提取出的关键特征采用高斯过程分类器对待分类数据进行分类,得到阿尔茨海默症的分类结果。
其中,待分类数据是阿尔茨海默症分类的对象,即实际的磁共振图像数据。
进一步作为优选的实施方式,所述获取阿尔茨海默症的磁共振成像数据这一步骤,具体为:
从阿尔茨海默症神经影像学倡议标准数据库中选取若干张磁共振图像作为阿尔茨海默症的磁共振成像数据。
本实施例所用数据来源于美国大型阿尔茨海默氏症公共数据库ADNI(Alzheimer's Disease Neuroimaging Initiative),数据的选取标准是要选取男女比例均衡的数据,而且成像参数的TR/TE值必须一样。这样可以排除一些未知因素的干扰,保证个体间差异较小。因此,本实施例选取了3.0T MR扫描仪,所有对象均获得头部矢状位3D-磁化准备快速梯度回波T1加权成像,成像参数:TR/TE=7000ms/3.0ms,反转时间900ms,反转角为8,成像视野240mm*220mm,层厚为1.2mm,共170层。
数据的选取主要根据两个评判标准,简易智力状态检查MMSE(Mini-Mental StateExamination)和临床痴呆表CDR(Clinical Dementia Rating)。MMSE总分范围0-30分,正常与不正常的分界与受教育程度有关,在分界值以下认为有功能缺陷,在分界值以上为正常。文盲(未受教育)组17分,小学(受教育年限<=6年)组20分,中学或以上(受教育年限>=6年)组24分;CDR共分为5级:0为健康,0.5为可疑痴呆,1为轻度痴呆,2为中度痴呆,3为重度痴呆,如下表1所示:
表1研究对象
组别 |
例数(男/女) |
平均年龄 |
平均MMSE评分 |
CDR评分 |
AD组 |
50(25/25) |
73.18 |
21.35 |
0.9 |
MCI组 |
50(25/25) |
74.54 |
24.28 |
0.5 |
HC组 |
50(25/25) |
76.83 |
29.33 |
0.0 |
进一步作为优选的实施方式,所述采用基于总相关系数的关键特征提取算法从获取的磁共振成像数据提取出用于阿尔茨海默症分类的关键特征这一步骤,具体包括:
对阿尔茨海默症的磁共振成像数据进行预处理,得到n个样本以及每个样本关于左右脑各个区域的所有相关特征,其中,n为样本的个数;
采用基于总相关系数的关键特征提取算法从得到的所有相关特征中提取出用于阿尔茨海默症分类的关键特征。
本实施例在得到所有相关特征时,按照Desikan-Killiany的大脑区域划分方式,左右脑各划分为43区域,包括:楔叶、楔前叶、颞上沟、颞上回、颞中回、颞下回、颞极、颞横部、额中回后部、额眶回外侧、额眶回内侧、额中回下部、额上回、额极、缘上回、前扣带回后部、前扣带回下部、扣带回峡部、扣带回后部、梭状回、眶回、内嗅区、顶上小叶、顶下小叶、中央旁小叶、枕叶外侧、舌回、海马旁回、岛盖部、三角区、距状旁回、中央后回、中央前回、岛叶。
本实施例对样本进行预处理后,划分为以上43个区域,每个区域对应8个特征:表面面积(Surface Area,SurfArea)、灰质体积(Gray Matter Volume,GrayVol)、平均厚度(Average Thickness,ThickAvg)、厚度标准差(Thickness StDev,ThickStd)、积分校正平均曲率(Integrated Rectified Mean Curvature,MeanCurv)、积分校正高斯曲率(Integrated Rectified Gaussian Curvature,GausCurv)、折叠指数(Folding Index,FoldInd)和内在曲率指数(Intrinsic Curvature Index,CurvInd)。于是,本实施例提取的所有特征共2*34*8=544个。
在ADNI数据库中每个被试对象对应一个编号,编号为002_S_0413的被试对象经过预处理后得到左脑的部分特征如下表2所示:
表2编号为002_S_0413左脑的部分特征
进一步作为优选的实施方式,所述采用基于总相关系数的关键特征提取算法从得到的所有相关特征中提取出用于阿尔茨海默症分类的关键特征这一步骤,具体包括:
分别计算得到的所有相关特征中每个特征的总相关系数;
根据计算的总相关系数和预设的阈值,得到用于阿尔茨海默症分类的关键特征。
进一步作为优选的实施方式,所述分别计算得到的所有相关特征中每个特征的总相关系数这一步骤,具体包括:
对输入的条件属性集进行标准化,得到标准条件属性矩阵,其中,标准化所采用的公式为:
式中,X为输入的条件属性集,且XT=[x1,x2,…,xn]是一个p×n维的矩阵,p代表条件属性集的维度,T为转置,x1,x2,…,xn表示n个样本,I是一个n×n维的单位矩阵,diag(·)是一个对角矩阵,diag(·)对角线上的元素si代表第i个变量的标准差,i=1,2,…,p,Xs为标准条件属性矩阵;
根据标准条件属性矩阵计算样本相关矩阵,所述样本相关矩阵Rx的计算公式为:
计算样本相关矩阵Rx的特征值并进行降序排列,得到降序排列后的p个特征值λ1,λ2,…,λp以及对应的相互正交的p个特征向量u1,u2,…,up;
根据降序排列的结果计算样本相关矩阵Rx的主成分,所述样本相关矩阵Rx的主成分计算公式为:
其中,yi和ui分别为第i个主成分和第i个特征向量;
根据降序排列的结果和计算的主成分计算样本的每个条件属性和样本所有主成分间的总体相关系数值,所述样本的每个条件属性计算公式为:
所述样本所有主成分间的总体相关系数值计算公式为:
其中,λi为p个特征值λ1,λ2,…,λp中第i个特征值,ri为样本的第i个条件属性,ρY,Xk为X的第k个变量Xk对主成分集Y的总体相关系数值,Y由所有主成分组成,uki是第k特征向量uk的第i个元素,σkk是X的第k个变量Xk的方差。
进一步作为优选的实施方式,所述根据计算的总相关系数和预设的阈值,得到用于阿尔茨海默症分类的关键特征这一步骤,具体为:
判断当前相关特征的总相关系数是否大于预设的阈值,若是,则将当前相关特征作为用于阿尔茨海默症分类的关键特征,反之,则将当前相关特征作为非用于阿尔茨海默症分类的关键特征,其中,当前相关特征为得到的所有相关特征中的任一特征。
进一步作为优选的实施方式,所述根据提取出的关键特征采用高斯过程分类器对待分类数据进行分类,得到阿尔茨海默症的分类结果这一步骤,具体包括:
按预定比例将n个样本划分为训练样本和测试样本;
根据训练样本的关键特征采用高斯过程分类器训练出阿尔茨海默症分类模型;
根据测试样本对阿尔茨海默症分类模型进行测试;
采用测试后的阿尔茨海默症分类模型对输入的待分类数据进行分类。
其中,设定比例可采用十折校验法的比例,即训练样本的比例为90%,测试样本的比例为10%。
进一步作为优选的实施方式,所述根据训练样本的关键特征采用高斯过程分类器训练出阿尔茨海默症分类模型这一步骤,具体包括:
根据训练样本确定相应的训练集标签;
选择高斯过程的协方差函数,并计算相应的协方差矩阵;
选择高斯过程的似然函数;
根据训练样本、训练集标签、高斯过程的协方差矩阵以及高斯过程的似然函数,采用拉普拉斯近似方法进行牛顿迭代循环,得到边缘最大似然函数和相应的高斯后验分布函数。
其中,阿尔茨海默症分类模型的预测函数是最大的后验概率,与边缘最大似然函数相关。
与图1的方法相对应,本发明基于高斯过程分类的阿尔茨海默症分类系统,包括:
数据获取模块,用于获取阿尔茨海默症的磁共振成像数据;
特征提取模块,用于采用基于总相关系数的关键特征提取算法从获取的磁共振成像数据提取出用于阿尔茨海默症分类的关键特征;
分类模块,用于根据提取出的关键特征采用高斯过程分类器对待分类数据进行分类,得到阿尔茨海默症的分类结果。
与图1的方法相对应,本发明基于高斯过程分类的阿尔茨海默症分类装置,包括:
存储器,用于存放程序;
处理器,用于加载所述程序以执行如本发明所述的基于高斯过程分类的阿尔茨海默症分类方法。
下面结合说明书附图和具体实施例对本发明作进一步解释和说明。
实施例一
针对现有技术未能将总体相关系数与高斯过程分类相结合来进行阿尔茨海默症特征提取与分类的问题,本发明提出了一种高斯过程分类的阿尔茨海默症分类方案,首次将总体相关系数与高斯过程分类结合起来并用于阿尔茨海默症特征提取与分类,通过基于总相关系数的关键特征提取算法提升了阿尔茨海默症的特征提取效率,同时通过高斯过程分类器保证了阿尔茨海默症的分类性能,容易实现,且非线性处理性能更好,能在更短时间内寻找到影响阿尔茨海默症不同阶段转换的关键特征并通过高斯分类器进行分类,为阿尔茨海默症的计算机辅助诊断研究提供了帮助。
下面对本发明所涉及的相关理论和具体实现过程进行详细说明。
(一)本发明所涉及的相关理论
本发明所涉及的相关理论包括:
(1)高斯过程分类
高斯过程分类算法的核心思想是:把非高斯的真实后验分布p(f|D,θ)通过一个高斯类近似后验分布q(f|D,θ)=N(f|μ,∑)来代替,再通过该近似后验分布给出测试数据的近似预测分布。其中,μ为均值,∑表示方差。
对于高斯过程分类(GPC)问题的定义:给定的训练数据集D={(xi,yi),i=1,2,…,m},xi为连续数据,表示特征向量;yi为离散数据,表示类别标记;GPC的目标是对于新输入x*,预测其输出y*。若类别标记矢量y取值为{0,1}或者{1,-1}称为二分类高斯过程分类;若y取值为多个整数值,称为多分类高斯过程分类。下面主要讨论二分类高斯过程分类问题,多分类高斯过程分类与二分类高斯过程分类类似。
二分类高斯过程分类对于确定的输入矢量x,p(y|x)分布为伯努利分布,y=1的概率为p(y=1|x)=Φ(f(x)),其中,f(x)称为潜在函数,服从高斯过程:f(x|θ)~GP(0,K)。f(x)定义了标记数据集合x和相对应的类标记集Y之间的映射关系。Φ函数为标准高斯分布的累积概率密度函数,可取Sigmoid函数,从而保证其概率值落在[0,1]区间。
由于给定的潜在函数f,其观测数据是相互独立的伯努利分布变量,似然函数可以描述为:
潜在函数f的先验分布为:
p(f|X,θ)=N(0,K) (2)
在式(2)中,K定义为协方差矩阵(即核函数),协方差矩阵K的元素Kij=k(xi,xj,θ),xi和xj分别代表训练样本i和样本j的特征向量,这里为了计算方便,可定义k(·)是与θ有关的正定协方差函数;可通过潜在函数f的极大似然法来估计得到最优超参数θ。
高斯过程模型的协方差函数需要满足:对任一点集都能够保证产生一个非负正定协方差矩阵。为此,本发明采用的协方差函数(即高斯核函数)为:
式(3)中,超参数θ={σ
f,l}。由式(3)可以看出,协方差函数由2部分组成:第一部分
用来表示2个数据点间的距离相关性,如果它们的距离相对于宽度参数l很小,那么相关性高,指数项趋于1;否则两数据点之间的相关性低,指数项就趋于0;第二部分中
中超参数σ
f用来控制局部相关性的程度。
当获得实际观察值后,根据贝叶斯规则,潜在函数f的后验分布为
GPC模型的主要目的是对于给定的测试输入x*,预测其所属的类别y*。给定测试数据点x*后,与x*对应的潜在函数值f*的条件概率为:
p(f*|D,θ,x*)=∫p(y*|f,X,θ,x*)p(f|D,θ)df (5)
故x*的类标记y*预测概率为:
p(y*|D,θ,x*)=∫p(y*|f*)p(f*|D,θ,x*)df (6)
将近似高斯后验分布代入式(5)中,可得到潜在函数f*在测试数据点x*的近似高斯后验分布为:
q(f*|D,θ,x*)=N(f*|(μ*,σ*2)) (7)
其中,均值μ*和方差σ*2为:
μ*=k*TK-1μ (8)
σ*2=k(x*,x*)-k*T(K-1-K-1K-1)k* (9)
其中,k*=[k(x1,x*),…,k(xm,x*)]T表示测试数据x*与训练数据集的先验协方差函数,K-1为K的逆矩阵。
在高斯过程分类(GPC)过程,拉普拉斯近似方法是最常用的方法,其采用牛顿法迭代求出边缘最大似然函数所对应的最优超参数。
由上述内容可知,根据训练数据集采用高斯过程分类(GPC)算法进行训练的输入主要包括:协方差矩阵K,训练数据集标记Y,似然函数p(y|f);输出为分类预测函数f,以牛顿法为例,训练高斯过程分类模型的具体实现过程如下:
Step1:初始化分类预测函数f=0。
Step2:令对角矩阵
对(I+W
1/2KW
1/2)矩阵做cholesky矩阵分解,并将分解的结果记为L,即有:
L=cholesky(I+W1/2KW1/2) (10)
Step3:采用牛顿法迭代计算:
a=b-W1/2LT\(L\(W1/2Kb)) (12)
Step4:令f=Ka,若超过迭代次数或目标函数
收敛,则转Step5,否则转Step2。
Step5:计算边缘最大似然函数:
其中,Lii为矩阵L中第i行第i列的元素。
Step6:返回f和logq(y|X,θ),训练结束。
上述训练过程即为高斯过程二分类分类器构造过程,其通过目标函数建立收敛准则。f是由牛顿计算公式迭代得到的隐变量的最大后验概率,即分类预测函数。logq(y|X,θ)是边缘最大似然函数,可以通过f和矩阵W不断地对其进行优化,使该函数通过训练数据样本低密度区域最终得出分类预测函数f。
(2)总体相关系数
设输入为条件属性集为X,X的转置XT=[x1,x2,…,xn]是一个p×n维的矩阵,p代表条件属性集X中变量的维度,n表示样本的个数,则总体相关系数的计算步骤具体如下:
Step1:将X标准化为标准条件属性矩阵Xs:
其中,I是一个n×n维的单位矩阵,diag(·)是一个对角矩阵,diag(·)对角线上的元素si代表第i个变量的标准差,i=1,2,…,p。
Step2:计算样本相关矩阵(或称协方差矩阵)Rx:
Step3:假设样本相关矩阵Rx的特征根以降序排列为λ1≥λ2≥…≥λp,计算样本相关矩阵Rx的特征值λ1,λ2,…,λp及对应的相互正交的特征向量u1,u2,…,up;
Step4:计算样本相关矩阵Rx的主成分:
Step5计算每个条件属性λi和所有主成分间的CCC值ρY,Xk:
(二)本发明的具体实现过程
基于(一)的相关理论,以输入为n张MRI图像,高斯过程分类为二分类高斯过程分类,输出为样本xi属于类标签yi的概率p(yi|fi),如p(y*=1|y)为例,本发明基于高斯过程分类的阿尔茨海默症分类方案的实现过程具体包括如下步骤:
Step1:MRI数据预处理。
MRI数据预处理是大脑皮质重构的过程,主要包括运动校正、使用形变过程去除非脑组织、自动Talairach变换、皮层下白质分割、深部灰质体积结构(包括海马、杏仁核、尾状核、壳核和脑室)的强度归一化、自动拓扑校正等(如可使用FreeSurfer v5.3.0工具箱实现上述一系列相关算法),获得关于左右脑各34个区域的544个相关特征。
Step2:确定预处理得到的样本对应的标签集。
n张MRI数据经过预处理后得到n个样本,每个样本有544个特征,将第i个样本对应的真实标签记为y
i,并将n个学习样本记为
其中f
i为样本
的预测标签。
Step3:选择高斯过程的协方差函数。高斯过程的协方差函数可选用如下式所示的平方指数核:
Step4:根据高斯过程的协方差函数循环计算协方差矩阵K中各个元素值kij:
Step5:根据步骤Step4的结果确定协方差矩阵K。
Step6:选择高斯过程的似然函数σ。二分类高斯过程分类的概率函数可选用逻辑高斯函数
Step9:计算边缘最大似然函数:
Step11:计算给定的测试输入x
*对应的高斯后验均值
和方差
Step12:计算x*对应的预测方差函数V[f*]:
Step13:通过积分计算x
*对应的高斯预测概率
并输出:
其中
即为样本x属于标签1(即类1)的概率p(y
*=1|y)。
上述步骤中,Step1~Step10为根据训练样本构建基于二分类高斯过程分类的阿尔茨海默症分类器的过程;Step11~Step13为根据测试样本进行测试并输出分类结果的过程。
由前述的内容可知,本发明一种基于高斯过程分类的阿尔茨海默症分类方法、系统及装置具有以下优点:
1)采用了基于总相关系数的关键特征提取算法,提升了阿尔茨海默症的特征提取效率。
2)采用了高斯过程分类器,在不牺牲性能的条件下容易实现,在模型构建过程中能自动获取超参数,具有完全的贝叶斯公式化表示,预测输出具有清晰的概率解释;再者,由于高斯过程采用核函数,这使得它具有较强的非线性处理性能,可以解决线性不可分和特征维数过多的问题,从而在一定程度上避免了ANN中的“维数灾难”问题;此外,与SVM对超参数的选择却通常只能采用经验法或交叉验证方法不同,本发明的高斯过程为贝叶斯学习提供了一个范式,根据训练样本可以从先验分布转换到后验分布,并可以对核函数的超参数进行推理,得到置信度区间,更加全面和可靠。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。