CN106980753B - 一种用于神经疾病的基于体素分析的数据驱动机器学习方法 - Google Patents

一种用于神经疾病的基于体素分析的数据驱动机器学习方法 Download PDF

Info

Publication number
CN106980753B
CN106980753B CN201710111168.3A CN201710111168A CN106980753B CN 106980753 B CN106980753 B CN 106980753B CN 201710111168 A CN201710111168 A CN 201710111168A CN 106980753 B CN106980753 B CN 106980753B
Authority
CN
China
Prior art keywords
data
sample
principal component
feature
new
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710111168.3A
Other languages
English (en)
Other versions
CN106980753A (zh
Inventor
冯远静
周思琪
金丽玲
何建忠
曾庆润
吴烨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201710111168.3A priority Critical patent/CN106980753B/zh
Publication of CN106980753A publication Critical patent/CN106980753A/zh
Application granted granted Critical
Publication of CN106980753B publication Critical patent/CN106980753B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

一种用于神经疾病的基于体素分析的数据驱动机器学习方法,包括如下步骤:1)根据对脑区指标的定量测量值进行主成分分析PCA模型训练;2)对所有特征进行提取;3)为所选出的特征选择最佳分类器模型算法;3)预测:对于一个新样本,要去量化所有量化指标对于获取测量值矩阵之后,增量主成分分析提供了增量更新原始主成分分析的方法去获得一个新的增量主成分分析模型;对获得的该模型,去计算增量主成分分析特征向量,而测量值矩阵的维度会被降为新的Q=[q1,...qm];这些新测量值将重新排列为X。本发明提供了一种精度较高的用于神经疾病的基于体素分析的数据驱动机器学习方法。

Description

一种用于神经疾病的基于体素分析的数据驱动机器学习方法
技术领域
本发明涉及计算机图形学下的医学成像、神经解剖学领域,是一种针对大脑神经疾病的,基于体素分析的数据驱动机器学习方法。
背景技术
定量扩散张量成像(DTI)用于纤维建模,是十分有效的临床应用工具,用于评估损伤的程度和定位神经疾病。但是缺乏不足的分辨率限制了DTI探测更复杂的微结构信息。现有的神经疾病方法通常用于验证疾病的临床猜测,并且难以预测和积极测量涉及这些疾病的脑区。找出有效的区分分类疾病方法是解决问题的关键。
发明内容
为了克服现有基于DTI的纤维量化指标一直存在着低精度以及判断结果与疾病临床表现不一致等问题的不足,针对以上两个限制,基于HARDI技术的神经系统疾病,本发明提供了一种精度较高的基于体素分析的数据驱动机器学习方法,其中提出了数据驱动的机器学习方法来分析和预测神经系统疾病。
本发明解决其技术问题所采用的技术方案是:
一种用于神经疾病的基于体素分析的数据驱动机器学习方法,包括如下步骤:
1)根据对脑区指标的定量测量值进行主成分分析PCA模型训练,过程如下:
获得的量化数据组表示为:
其中,n代表总的样本数量;代表每个样本体素的量化指标值。
降维后的数据Q在维度m下被表示为:
其中,维度满足1≤m≤p的部分表示的意思是保留方差为投影空间最大值的正交轴,增量主成分分析用新输入的数据和上一步特征值更新当前的特征值;
通过两个样本协方差矩阵S的前导特征向量得出Q,其中:
公式中K和nj分别表示样本平均值、分类的数目以及类j中的样本数量;因此,推出以下的结果表达:
SQi=λiQi,i=1,...m (4)
在该表达式中,λi是矩阵S第i个最大特征向量;
在所操作的样本空间中,的主成分主轴m是解相关的;
2)对所有特征进行提取,过程如下:
在初步处理后,在初步处理后,观察考虑特征列表中的每个特征,之后要人工地对特征进行挑选移除;设样本为X=[X1,...Xj,...Xn]T,其中每个样本Xj都有一个对应的分类Yj
单变量特征选择通过单变量统计检验取选择最佳特征;
对获取样本数据去计算单因素方差分析中的p值,对每个样本都是基于计算出的K最高值进行特征进行选择;对所有的样本,去计算病人组与正常控制组在每个体素间的距离和副本以及将最大K值包括进新样本;新样本是从原样本中获得,它们的Y值是被保留的;
3)为所选出的特征选择最佳分类器模型算法,过程如下:
利用这些指数和选择的体素,在这里使用随机森林RF算法训练高分疾病分类模型;在分类器模型部分中,需要做的是从选择出的特征中规划出一个预测函数f(x)去预测y;如果考虑到新的特征队列和它对应的队列Y,就可以去建立一个随机森林分类器去区分病人及控制样本;每个训练集都是在聚合技术作用下由独立森林树创建的;由以下三步实现:
3.1.采用bootstrap抽样技术从原始数据集中抽取ntree个训练集,每个训练集的大小为原始数据集的三分之二;
3.2.为每一个bootstrap训练集分别建立分类回归树CART,共产生ntree棵决策树构成一片“森林”,随机选择最优属性进行分支,mtry≤M;
3.3.集合ntree棵决策树的预测结果,采用投票的方式决定新样本的类别;
随机森林分类器设置三个参数:森林中决策树的数量ntree、内部节点随机选择属性的个数mtry及终节点的最小样本数nodesize;
4)预测
对于一个新样本,要去量化所有量化指标对于获取测量值矩阵之后,增量主成分分析提供了增量更新原始主成分分析的方法去获得一个新的增量主成分分析模型;对获得的该模型,去计算增量主成分分析特征向量,而测量值矩阵的维度会被降为新的Q=[q1,...qm];这些新测量值将重新排列为X。
进一步,所述步骤4)中,在预测环节,随机森林算法在训练过程中的每次bootstrap抽样,将有三分之一的数据未被抽中,这部分数据被称为袋外数据,随机森林算法就是利用这部分数据进行内部的误差估计。
本发明的目标是找到一个数据驱动的方法,积极测量与神经系统疾病相关的脑区,然后根据这些区域的特点预测新的样本。同时,该方法可以根据不同的疾病特征自动选择合适的定量测量指标。与单一成像技术(DTI)相比,多种技术(DTI,HARDI)的混合可以提取更多的功能,有助于剖析特定的疾病病理可能更准确。
本发明的有益效果主要表现在:精度较高。
具体实施方式
下面对本发明作进一步描述。
一种用于神经疾病的基于体素分析的数据驱动机器学习方法,包括如下步骤:
1)根据对脑区指标的定量测量值进行主成分分析(PCA)模型训练,过程如下:
该步骤其实就是使用PCA方法提取基于HARDI成像算法的合成指数。
获得的量化数据组可以表示为:
其中,n代表总的样本数量;代表每个样本体素的量化指标值。
降维后的数据Q在维度m下可以被表示为:
在这个公式中,其中满足1≤m≤p的部分表示的意思是保留方差为投影空间最大值的正交轴。在这里选用增量主成分分析(IPCA)去弥补当要分解的数据集过大而不能适应存储器的问题,作为主成分分析方法的替代。增量主成分分析用新输入的数据和上一步特征值就实现更新当前的特征值而不用考虑整个数据集。
通过两个样本协方差矩阵S的前导特征向量可以得出Q。其中:
公式中K和nj分别表示:样本平均值,分类的数目以及类j中的样本数量。因此,我们可以推出以下的结果表达:
SQi=λiQi,i=1,...m (4)
在该表达式中,λi是矩阵S第i个最大特征向量。
在所操作的样本空间中,的主成分主轴m是解相关的。关于主成分分析用来特征提取和降维的想法假设:观察向量大多数信息被包含在了两个m主轴中被第一个跨越的子空间中即m<p部分。所以每个原始数据向量在维度m可以被自己的主成分向量表示。提出的方法中,通过对ROI使用PCA降维训练出一个主成分模型P(λ,Q)。除了PCA,这个模型在全脑的其他区域都适用。对于ROI,可以半自动地对目标数据选取,采用一个可以足以包括所有对象的ROI的最小边界矩形去补充选择的ROI并确保其统一的维度。
2)对所有特征(指标数值)进行提取,过程如下:
核心是要提供特征选择算法以自动获得在整个大脑之间的控制和患者对象之间可能具有显着多样性的重要体素。
在初步处理后,在初步处理后,观察考虑特征列表中的每个特征,之后要人工地对特征进行挑选移除;设样本为X=[X1,...Xj,...Xn]T,其中每个样本Xj都有一个对应的分类Yj(比如病人样本取0,正常控制组样本取1)。
单变量特征选择通过单变量统计检验取选择最佳特征。
在这个系统实验过程中,对获取样本数据去计算单因素方差分析中的p值。SelectKBest是用来提取数据集中最明显特征的常用技术,经常用于去将原始数据缩减为包含最大差异量的特征的子集。对每个样本都是基于计算出的K最高值进行特征进行选择。对所有的样本,去计算病人组与正常控制组在每个体素间的距离和副本以及将最大K值包括进新样本。新样本是从原样本中获得,因此,它们的Y值是被保留的。
3)为所选出的特征选择最佳分类器模型算法,过程如下:
利用这些指数和选择的体素,在这里使用随机森林(RF)算法训练高分疾病分类模型。在分类器模型部分中,需要做的是从选择出的特征中规划出一个预测函数f(x)去预测y。如果考虑到新的特征队列和它对应的队列Y,就可以去建立一个随机森林分类器去区分病人及控制样本。不过,每个训练集都是在聚合技术作用下由独立森林树创建的。
其算法由以下三步实现:
3.1.采用bootstrap抽样技术从原始数据集中抽取ntree个训练集,每个训练集的大小约为原始数据集的三分之二。
3.2.为每一个bootstrap训练集分别建立分类回归树(Classification andRegression Tree,CART),共产生ntree棵决策树构成一片“森林”。随机选择最优属性进行分支(mtry≤M)。
3.3.集合ntree棵决策树的预测结果,采用投票(voting)的方式决定新样本的类别。
随机森林分类器利用基于Breiman随机森林理论的R语言软件包randomForest来实现。需要设置三个主要的参数:森林中决策树的数量(ntree)、内部节点随机选择属性的个数(mtry)及终节点的最小样本数(nodesize)。
在随机森林算法中,特征之间的一个相对的重要性排名也用在决策点,这也可以去评估特征在预估新目标变量中相对重要性。决策树顶端的特征会被考虑进最终的预测。样本预期的部分因此可以被运用至特征间相对主次地位的评估。
4)预测
预测一个新样本通常旨在去获得分类的信息和概率。对于一个新样本,要去量化所有量化指标对于获取测量值矩阵是必要的。之后,增量主成分分析提供了增量更新原始主成分分析的方法去获得一个新的增量主成分分析模型。对获得的该模型,去计算增量主成分分析特征向量,而测量值矩阵的维度会被降为新的Q=[q1,...qm]。这些新测量值将重新排列为X。
在预测环节。随机森林算法在训练过程中的每次bootstrap抽样,将有约三分之一的数据未被抽中,这部分数据被称为袋外(out-of-bag)数据。随机森林就是利用这部分数据进行内部的误差估计。

Claims (2)

1.一种用于神经疾病的基于体素分析的数据驱动机器学习方法,其特征在于:包括如下步骤:
1)根据对脑区指标的定量测量值进行主成分分析PCA模型训练,过程如下:
获得的量化数据组表示为:
其中,n代表总的样本数量;代表每个样本体素的量化指标值;
降维后的数据Q在维度m下被表示为:
其中,满足维度1≤m≤p的部分表示的意思是保留方差为投影空间最大值的正交轴,增量主成分分析用新输入的数据和上一步特征值更新当前的特征值;
通过两个样本协方差矩阵S的前导特征向量得出Q,其中:
公式中k和nj分别表示样本平均值、分类的数目以及类j中的样本数量;因此,推出以下的结果表达:
SQi=λiQi,i=1,...m (4)
在该表达式中,λi是矩阵S第i个最大特征向量;
在所操作的样本空间中,的主成分主轴m是解相关的;
2)对所有特征进行提取,过程如下:
在初步处理后,观察考虑特征列表中的每个特征,之后要人工地对特征进行挑选移除;设样本为X=[X1,...Xj,...Xn]T,其中每个样本Xj都有一个对应的分类Yj
单变量特征选择通过单变量统计检验取选择最佳特征;
对获取样本数据去计算单因素方差分析中的p值,对每个样本都是基于计算出的k最高值进行特征进行选择;对所有的样本,去计算病人组与正常控制组在每个体素间的距离和副本以及将最大k值包括进新样本;新样本是从原样本中获得,它们的Y值是被保留的;
3)为所选出的特征选择最佳分类器模型算法,过程如下:
利用这些指数和选择的体素,在这里使用随机森林RF算法训练高分疾病分类模型;在分类器模型部分中,需要做的是从选择出的特征中规划出一个预测函数f(x)去预测y;如果考虑到新的特征队列和它对应的队列Y,就可以去建立一个随机森林分类器去区分病人及控制样本;每个训练集都是在聚合技术作用下由独立森林树创建的;由以下三步实现:
3.1.采用bootstrap抽样技术从原始数据集中抽取ntree个训练集,每个训练集的大小为原始数据集的三分之二;
3.2.为每一个bootstrap训练集分别建立分类回归树CART,共产生ntree棵决策树构成一片“森林”,随机选择最优属性进行分支,mtry≤M;
3.3.集合ntree棵决策树的预测结果,采用投票的方式决定新样本的类别;
随机森林分类器设置三个参数:森林中决策树的数量ntree、内部节点随机选择属性的个数mtry及终节点的最小样本数nodesize;
4)预测
对于一个新样本,要去量化所有量化指标对于获取测量值矩阵之后,增量主成分分析提供了增量更新原始主成分分析的方法去获得一个新的增量主成分分析模型;对获得的该模型,去计算增量主成分分析特征向量,而测量值矩阵的维度会被降为新的Q=[q1,...qm];这些新测量值将重新排列为X。
2.如权利要求1所述的用于神经疾病的基于体素分析的数据驱动机器学习方法,其特征在于:所述步骤4)中,在预测环节,随机森林算法在训练过程中的每次bootstrap抽样,将有三分之一的数据未被抽中,这部分数据被称为袋外数据,随机森林算法就是利用这部分数据进行内部的误差估计。
CN201710111168.3A 2017-02-28 2017-02-28 一种用于神经疾病的基于体素分析的数据驱动机器学习方法 Active CN106980753B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710111168.3A CN106980753B (zh) 2017-02-28 2017-02-28 一种用于神经疾病的基于体素分析的数据驱动机器学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710111168.3A CN106980753B (zh) 2017-02-28 2017-02-28 一种用于神经疾病的基于体素分析的数据驱动机器学习方法

Publications (2)

Publication Number Publication Date
CN106980753A CN106980753A (zh) 2017-07-25
CN106980753B true CN106980753B (zh) 2019-05-31

Family

ID=59338234

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710111168.3A Active CN106980753B (zh) 2017-02-28 2017-02-28 一种用于神经疾病的基于体素分析的数据驱动机器学习方法

Country Status (1)

Country Link
CN (1) CN106980753B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108520781A (zh) * 2018-03-28 2018-09-11 北京大学人民医院 一种计算试管婴儿成功结局几率的方法
CN110888668B (zh) * 2018-09-07 2024-04-16 腾讯科技(北京)有限公司 一种模型更新的系统、方法、装置、终端设备和介质
CN111178391B (zh) * 2019-12-10 2023-06-30 网络通信与安全紫金山实验室 一种使用增量奇异值分解法进行产品行业平行数据集构建的方法
CN114386486A (zh) * 2021-12-21 2022-04-22 北京科技大学 一种基于加权和策略分布式算法的adhd病例分类方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5887074A (en) * 1996-12-13 1999-03-23 Siemens Corporate Research, Inc. Local principal component based method for detecting activation signals in functional MR images
WO2012120467A1 (en) * 2011-03-09 2012-09-13 Universita' Degli Studi Di Genova A method for extracting information of interest from multi-dimensional, multi -parametric and/or multi -temporal datasets
CN103116764A (zh) * 2013-03-02 2013-05-22 西安电子科技大学 一种基于多线性主元分析的大脑认知状态判定方法
CN103646183A (zh) * 2013-12-24 2014-03-19 张擎 一种基于人工神经网络和多模态mri的阿尔茨海默病智能判别分析方法
CN104921727A (zh) * 2015-06-24 2015-09-23 上海海事大学 基于自适应先验信息指导的脑功能连通性检测系统和方法
CN106097359A (zh) * 2016-06-16 2016-11-09 浙江工业大学 一种基于磁共振成像的自适应局部特征提取方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5887074A (en) * 1996-12-13 1999-03-23 Siemens Corporate Research, Inc. Local principal component based method for detecting activation signals in functional MR images
WO2012120467A1 (en) * 2011-03-09 2012-09-13 Universita' Degli Studi Di Genova A method for extracting information of interest from multi-dimensional, multi -parametric and/or multi -temporal datasets
CN103116764A (zh) * 2013-03-02 2013-05-22 西安电子科技大学 一种基于多线性主元分析的大脑认知状态判定方法
CN103646183A (zh) * 2013-12-24 2014-03-19 张擎 一种基于人工神经网络和多模态mri的阿尔茨海默病智能判别分析方法
CN104921727A (zh) * 2015-06-24 2015-09-23 上海海事大学 基于自适应先验信息指导的脑功能连通性检测系统和方法
CN106097359A (zh) * 2016-06-16 2016-11-09 浙江工业大学 一种基于磁共振成像的自适应局部特征提取方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
《A Self-adaptive Local Feature Extraction Based Magnetic Resonance Imaging 》;Jun Zhang et al;;《2016 Chinese Control and Decision Conference》;20160808;第6563-6567页; *
《基于压缩感知高阶张量扩散磁共振稀疏成像方法》;冯远静;《模式识别与人工智能》;20150831;第28卷(第8期);第710-719页; *
《基于统计特性随机森林算法的特征选择》;宋源 等;;《计算机应用》;20150510;第35卷(第5期);第1459 - 1461页; *

Also Published As

Publication number Publication date
CN106980753A (zh) 2017-07-25

Similar Documents

Publication Publication Date Title
Arunkumar et al. Fully automatic model‐based segmentation and classification approach for MRI brain tumor using artificial neural networks
Soltaninejad et al. Automated brain tumour detection and segmentation using superpixel-based extremely randomized trees in FLAIR MRI
Zhou et al. Automatic microaneurysm detection using the sparse principal component analysis-based unsupervised classification method
CN106980753B (zh) 一种用于神经疾病的基于体素分析的数据驱动机器学习方法
CN109528197B (zh) 基于脑功能图谱进行精神疾病的个体化预测方法和系统
Achterberg et al. Hippocampal shape is predictive for the development of dementia in a normal, elderly population
US20180260954A1 (en) Method and apparatus for providing medical information service on basis of disease model
Hong et al. Classification of cerebral microbleeds based on fully-optimized convolutional neural network
CN104881631B (zh) 多特征整合的宫颈细胞图像特征提取与识别方法及其装置
Jin et al. Prognosis of cervical myelopathy based on diffusion tensor imaging with artificial intelligence methods
Galimzianova et al. Stratified mixture modeling for segmentation of white-matter lesions in brain MR images
Bahadure et al. Feature extraction and selection with optimization technique for brain tumor detection from MR images
Nagarathinam et al. Image registration‐based brain tumor detection and segmentation using ANFIS classification approach
CN116823767A (zh) 一种基于图像分析的肺移植活性等级判断方法
CN117315379B (zh) 面向深度学习的医学影像分类模型公平性评估方法及装置
Kim et al. Learning to compare longitudinal images
CN117174257B (zh) 医疗影像的处理装置、电子设备及计算机可读存储介质
CN116229176A (zh) 结合影像组学特征和临床特征的医学图像分类方法及设备
CN108446740A (zh) 一种用于脑影像病历特征提取的多层一致协同方法
Dai et al. Network-based classification using cortical thickness of AD patients
Røge et al. Unsupervised segmentation of task activated regions in fMRI
Öziç et al. T-test feature ranking based 3D MR classification with VBM mask
CN113793324A (zh) 一种鼻咽癌诱导化疗疗效预测方法及系统
Adar et al. Feature selection on MR images using genetic algorithm with SVM and naive Bayes classifiers
Li et al. Semi-supervised clustering for neuro-subtyping of autism spectrum disorder

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Zeng Qingrun

Inventor after: Feng Yuanjing

Inventor after: Zhou Siqi

Inventor after: Jin Liling

Inventor after: He Jianzhong

Inventor after: Wu Ye

Inventor before: Feng Yuanjing

Inventor before: Zhou Siqi

Inventor before: Jin Liling

Inventor before: He Jianzhong

Inventor before: Zeng Qingrun

Inventor before: Wu Ye