CN113222001B - 神经影像标记物形态学融合分类指数的构建方法及应用 - Google Patents
神经影像标记物形态学融合分类指数的构建方法及应用 Download PDFInfo
- Publication number
- CN113222001B CN113222001B CN202110494544.8A CN202110494544A CN113222001B CN 113222001 B CN113222001 B CN 113222001B CN 202110494544 A CN202110494544 A CN 202110494544A CN 113222001 B CN113222001 B CN 113222001B
- Authority
- CN
- China
- Prior art keywords
- mici
- brain
- value
- classification
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000000877 morphologic effect Effects 0.000 title claims abstract description 27
- 230000004927 fusion Effects 0.000 title claims abstract description 22
- 239000003550 marker Substances 0.000 title claims abstract description 15
- 238000010276 construction Methods 0.000 title claims abstract description 10
- 230000001537 neural effect Effects 0.000 title claims description 5
- 210000004556 brain Anatomy 0.000 claims abstract description 67
- 238000013145 classification model Methods 0.000 claims abstract description 48
- 238000012549 training Methods 0.000 claims abstract description 29
- 239000011159 matrix material Substances 0.000 claims abstract description 13
- 238000000034 method Methods 0.000 claims description 31
- 238000002595 magnetic resonance imaging Methods 0.000 claims description 22
- 230000001054 cortical effect Effects 0.000 claims description 19
- 208000014644 Brain disease Diseases 0.000 claims description 15
- 238000003384 imaging method Methods 0.000 claims description 14
- 201000000980 schizophrenia Diseases 0.000 claims description 14
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 13
- 201000010099 disease Diseases 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 9
- 230000008859 change Effects 0.000 claims description 8
- 230000002739 subcortical effect Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000006378 damage Effects 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 5
- 210000004885 white matter Anatomy 0.000 claims description 5
- 210000004884 grey matter Anatomy 0.000 claims description 4
- 208000024827 Alzheimer disease Diseases 0.000 claims description 3
- 208000019901 Anxiety disease Diseases 0.000 claims description 2
- 206010003805 Autism Diseases 0.000 claims description 2
- 208000020706 Autistic disease Diseases 0.000 claims description 2
- 208000020925 Bipolar disease Diseases 0.000 claims description 2
- 208000021384 Obsessive-Compulsive disease Diseases 0.000 claims description 2
- 208000018737 Parkinson disease Diseases 0.000 claims description 2
- 230000036506 anxiety Effects 0.000 claims description 2
- 238000003066 decision tree Methods 0.000 claims description 2
- JXSJBGJIGXNWCI-UHFFFAOYSA-N diethyl 2-[(dimethoxyphosphorothioyl)thio]succinate Chemical compound CCOC(=O)CC(SP(=S)(OC)OC)C(=O)OCC JXSJBGJIGXNWCI-UHFFFAOYSA-N 0.000 claims description 2
- 238000002598 diffusion tensor imaging Methods 0.000 claims description 2
- 238000002597 diffusion-weighted imaging Methods 0.000 claims description 2
- 239000006185 dispersion Substances 0.000 claims description 2
- 206010015037 epilepsy Diseases 0.000 claims description 2
- 239000000835 fiber Substances 0.000 claims description 2
- 230000036541 health Effects 0.000 claims description 2
- 238000011002 quantification Methods 0.000 claims description 2
- 238000011160 research Methods 0.000 claims description 2
- 238000002610 neuroimaging Methods 0.000 abstract description 9
- 208000020016 psychiatric disease Diseases 0.000 abstract description 5
- 238000012360 testing method Methods 0.000 description 21
- 238000010801 machine learning Methods 0.000 description 13
- 208000024891 symptom Diseases 0.000 description 13
- 238000003745 diagnosis Methods 0.000 description 12
- 208000029028 brain injury Diseases 0.000 description 7
- 230000000698 schizophrenic effect Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000000654 additive Substances 0.000 description 2
- 230000000996 additive effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000006931 brain damage Effects 0.000 description 2
- 231100000874 brain damage Toxicity 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 208000012184 Diffuse Brain injury Diseases 0.000 description 1
- 208000028017 Psychotic disease Diseases 0.000 description 1
- 208000027418 Wounds and injury Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000013103 analytical ultracentrifugation Methods 0.000 description 1
- 230000000561 anti-psychotic effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 210000004204 blood vessel Anatomy 0.000 description 1
- 230000011157 brain segmentation Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 238000013399 early diagnosis Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 208000024714 major depressive disease Diseases 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 210000003462 vein Anatomy 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H20/00—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
- G16H20/70—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to mental therapies, e.g. psychological therapy or autogenous training
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H30/00—ICT specially adapted for the handling or processing of medical images
- G16H30/20—ICT specially adapted for the handling or processing of medical images for handling medical images, e.g. DICOM, HL7 or PACS
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Primary Health Care (AREA)
- General Health & Medical Sciences (AREA)
- Epidemiology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Software Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Evolutionary Biology (AREA)
- Social Psychology (AREA)
- Child & Adolescent Psychology (AREA)
- Developmental Disabilities (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Psychology (AREA)
- Pathology (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Radiology & Medical Imaging (AREA)
- Magnetic Resonance Imaging Apparatus (AREA)
Abstract
本发明为神经影像标记物形态学融合分类指数的构建方法及应用,该构建方法包括以下内容:获取M个中心的结构MRI数据,提取脑结构像特征数据;以各中心数据进行独自训练,分别建立各中心的分类模型,获得M个中心的分类模型;对于任意一个样本,在所有中心的分类模型,计算出该样本在每个模型每个特征的分类权重值,即SHAP矩阵;然后以每个模型训练时使用的样本量为权重,按照公式(1)计算获得单一的形态学融合分类指数MICI值:其中,Si代表模型i的样本量,B代表特征总数,ai代表了特征a在模型i中的SHAP值,i=1~M。MICI值可以很好的实现对精神疾病患者及正常人之间的鉴别,具有良好的可解释性、进化性和可扩展性。
Description
技术领域
本发明涉及神经影像标记物领域,提出一种基于机器学习和多中心数据的神经影像标记物——形态学融合分类指数(MICI值)的构建方法,用于辅助神经精神疾病的个体化诊疗。
背景技术
精神分裂症、重度抑郁、阿尔茨海默病等以弥漫性脑损害为特征的神经精神疾病严重影响人类健康,给个人和社会带来了巨大负担。目前,精神疾病主要依赖于医生对临床症状作出主观诊断,存在一定的误诊和漏诊。磁共振成像(magnetic resonance imaging,MRI)由于其简便性、无创性及全面性等优势愈发受到了大家的关注。大量研究报道神经精神疾病患者的脑结构与正常被试之间存在明显差异。基于这些差异,将有助于我们对神经精神疾病进行诊断。脑结构特征具有多样性,机器学习是一种很好的融合分析诊断方式。磁共振成像(MRI)技术结合机器学习在揭示神经精神疾病的脑损伤机制以及疾病的客观诊断方面表现出巨大的潜力。然而,对于大多数的单中心机器学习模型,其结果的泛化性能往往不足,且分类准确率不稳定。多中心大样本数据由于能提高机器学习的泛化性能,愈发受到了研究人员的关注。然而,多中心数据共享存在一些无法避免的问题,如原始MRI数据分析需要耗费海量的存储、网络和计算资源,大大增加了分析机构的人力和物力成本;另外,原始MRI数据含有个人身份的识别信息,如何有效保护被试隐私也是一个难题。机器学习模型是一个含有大量参数的“黑盒子”,预测结果的可解释性比较差,很难和精神疾病的神经生物特征和临床症状等建立人类可理解的联系,导致其不能在临床工作中得到快速推广和转化。因此,有必要开发一种泛化性高,易普及,易解释的简单影像学客观标记物。
发明内容
为了解决目前技术的不足,本发明创新性的提出了一种基于机器学习的神经影像标记物——形态学融合分类指数(morphological integrated classification index,MICI)的构建方法及应用。本发明的设计思路是充分利用多中心大数据的有用信息,首先利用形态学MRI影像数据和机器学习算法构建单中心的分类模型,然后把多中心的分类模型中的特征权重进行加权整合,获得对个体化的形态学融合分类指数MICI,最后用MICI值对疾病进行分类,并建立生物学关联。由于MICI值是基于模型计算得到的,计算简便,无需各中心共享原始数据,各中心分类模型独自训练。除此之外,MICI值可以很好的实现对精神疾病患者及正常人之间的鉴别,具有良好的可解释性、进化性和可扩展性。
本发明采用的技术方案是:
第一方面,本发明提供一种神经影像标记物形态学融合分类指数的构建方法,该构建方法包括以下内容:
获取M个中心的结构MRI数据,提取脑结构像特征数据,M为大于1的整数;
以各中心数据进行独自训练,分别建立各中心的分类模型,获得M个中心的分类模型,形成模型库;
对于任意一个样本,在所有中心的分类模型,计算出该样本在每个模型每个特征的分类权重值,即SHAP矩阵,SHAP矩阵的维度为特征数×模型数,特征数为所提取的脑结构像特征数据的个数B;然后以每个模型训练时使用的样本量为权重,按照公式(1)计算获得单一的形态学融合分类指数MICI值;
其中,Si代表分类模型i训练时使用的样本量,B代表特征总数,ai代表了特征a在分类模型i中的SHAP值,i=1~M。
对于一个新加入的中心,不需要提供原始MRI数据,只需要在自己中心按照既定的方法训练出分类模型,然后把该分类模型横向扩展到模型库中,样本只需要按照公式(1)重新计算MICI值即可。
所述脑结构像特征数据包括皮层厚度、皮层体积、皮层表面积、皮层下体积及7个全脑指标在内的484个脑结构像特征,其中7个全脑指标为全脑总体积、全脑皮层灰质体积、全脑皮层下灰质体积、全脑白质体积、全脑白质表面积及全脑平均皮层厚度;
对脑结构像特征数据进行数据预处理:数据预处理包括协变量回归及归一化过程,具体是:
①协变量回归,协变量的回归使用matlab软件的regress函数进行,其中纳入的被回归变量包括年龄、性别、年龄的平方及全脑体积;
②归一化:归一化采用的方法为高斯替代,从而使样本服从正态分布;
得到了预处理后的每个中心的标准化特征矩阵,并进一步纳入后续分析中。
第二方面,本发明提供一种脑疾病的预估方法,该脑疾病为脑结构不会发生器质性改变的脑疾病,该预估方法对脑疾病按照临床研究指标进行不同状态的划分,采用权利要求1中的公式(1)获得多中心MICI的表达式,将每个被试在当前多中心情况下的MICI值与不同状态进行拟合,获得MICI值与不同状态的趋势变化关系;
针对待检测对象为单个被试的情况,将该单个被试的脑结构像特征数据带入各中心的分类模型,得到不同中心的分类模型对该单个被试特征的SHAP值,再带入公式(1)获得该单个被试的MICI值;以该MICI值作为特征值,输入到MICI值与不同状态的趋势变化关系,获得待预估的单个被试的脑疾病状态趋势;
针对待预估的群体,该群体中被试具有脑结构像特征数据,能单独作为一个中心,训练获得新的分类模型,加入模型库,再按照公式(1)获得新中心引入后对应的MICI值,以该MICI值作为特征值,输入到MICI值与不同状态的趋势变化关系,获得待预估的群体的脑疾病状态趋势。
所述脑疾病为为脑弥漫性损伤为特征的神经精神类疾病,包括精神分裂症、躁郁症、抑郁症、焦虑症、强迫症、自闭症、阿尔茨海默病、帕金森病、和癫痫等。
第三方面,本发明提供一种神经影像标记物形态学融合分类指数的应用,所述形态学融合分类指数为由公式(1)获得的MICI值,能直接用于神经精神疾病的个体化诊断或者临床疗效预测。
用于个体化诊断的过程是:只需将该被试的脑结构像特征数据输入各中心的分类模型,得到不同中心的分类模型对该单个被试特征的SHAP值,再利用公式(1)获得该单个被试的MICI值;若MICI大于0且值越大,诊断为疾病的可能性比较大;若MICI小于0且值越小,诊断为健康的可能性比较大;
用于临床疗效预测的过程是:MICI值与临床症状和脑结构损伤存在显著关联,因此能利用MICI值提前预测被试对某种治疗手段的疗效,从而指导临床干预。
与现有技术相比,本发明的有益效果是:
MICI值整合了多中心数据人脑全部形态学特征,相对传统多中心影像学机器学习方法,具有以下优点:(1)指标简单,性能强大:每个被试的全脑形态学特征用唯一的数值代表,即MICI值,与需要动辄数百个影像学指标的机器学习模型相比,简单易懂,更容易推广。而且预测性能与传统的多变量机器学习模型相当。(2)高可共享性。MICI指标的计算只需要训练好的模型,不需要原始数据,因此有效避免了多中心原始MRI数据共享固有的资源消耗和隐私安全等问题。(3)高可扩展性。单中心模型可以非常便利植入现有的模型库中;而且通过优化的整合算法,随着模型的数量增加,MICI指标的分类效能会不断进化和增强;4)高可解释性。通过在精神分裂症患者中测试,MICI指标与脑损伤严重程度、临床症状、以及病程存在密切关联,具有很高的生物学意义。
总之,本发明创新性地提出一种简便有效、可扩展性强和可解释性强的神经影像标记物-形态学融合分类指数。该发明能有效避免多中心数据共享所存在问题(数据量大、伦理问题及隐私保护等),同时具有简便易用,易于理解,分类性能强等优势,具有更好的临床适用性,这将有利于临床医生进行快速的分类诊断,从而更好的服务于临床工作。因此,本申请提出MICI作为一种简便有效的神经影像标记物,将有助于神经精神疾病的早期诊断和精准医疗。
附图说明:
图1:精神分裂症和健康对照MICI值在各个中心的分布图。其中深灰色代表精神分裂症,浅灰色代表健康对照。
图2:MICI指标区分精分与健康对照的AUC图。图(A)和(B)分别代表利用MICI单指标和全脑484个指标的预测性能。黑实线代表9个中心测试集AUC的均值。其周围灰色的阴影带代表9个中心AUC的95%可信区间。
图3:MICI预测性能与纳入的中心模型数目的关系。横坐标为纳入的中心模型数目,纵坐标为分类的曲线下面积。
图4:MCIC指标与精神分裂症临床信息和脑损伤严重程度的相关性。
表1.在每个中心测试数据中MICI值的分类性能。
具体实施方式
下面结合实施例及附图进一步解释本发明,但并不以此作为对本申请保护范围的限定。
本发明神经影像标记物形态学融合分类指数的构建方法,该方法包括:
1)特征提取:获取M个中心的结构MRI数据,提取脑结构形态学影像特征数据。结构MRI数据包括但不限于T1加权成像、T2加权成像、FLAIR成像、弥散加权成像、弥散张量成像、磁敏感加权图像等结构成像数据。脑结构形态学影像特征包括但不限于皮层厚度、皮层体积、皮层表面积、皮层迂曲度、皮层下核团体积、纤维束体积及弥散定量、和脑组织组学特征等。
2)模型训练:以各中心数据进行独自训练,通过网格搜索优化筛选,选择XGBoost分类器分别建立各中心的分类模型,获得M个中心的分类模型,形成模型库。
3)指标构建:对于任意一个测试集样本,利用上面M个中心的分类模型,计算出该被试在每个模型每个特征的分类权重值,即SHAP(SHapleyAdditive exPlanations)[1]矩阵,其维度为模型数×特征数。然后以每个模型训练时使用的样本量为权重,按照公式(1)计算获得单一的形态学融合分类指数MICI值;
其中,M为模型数目(即中心数),B代表特征总数,Si代表模型i的样本量(记为模型i的权重系数),ai代表了特征a(本示例即某脑区的形态学特征)在模型i中的SHAP值。
4)建立可解释性:通过Spearman相关建立MICI值与脑损伤与临床信息的关联,发现精神分裂症中MICI与脑灰质体积变化、阳性症状和阴性症状存在显著正相关,说明精神分裂症患者MICI指标越高,其临床症状和脑结构损伤也越严重。
5)可扩展性测试:对于一个新加入的中心,不需要提供原始MRI数据,只需要在自己中心按照既定的方法(可以是按照步骤2)的方式进行训练,也可以是按照本领域常规分类器训练方式进行训练)训练出模型,然后把该模型横向扩展到模型库中。实际预测中只需要按照公式(1)重新计算MICI值即可。通过在9个中心共1167例被试(其中精神分裂症514例,健康对照653例)中测试发现MICI对精神分裂症诊断性能随着中心的增加会单调提高,提示MICI随着新的模型的加入会不断自我进化,表明该影像学标志物具有高度的可扩展性。
本发明的潜在应用场景包括:
1)个体化诊断:针对被试诊断预测问题,只需将该被试的脑结构像特征数据输入各中心的分类模型,得到不同中心的分类模型对该单个被试特征的SHAP值,再利用公式(1)获得该单个被试的MICI值。如果MICI大于0且值越大,诊断为疾病的可能性比较大;如果小于0且值越小,诊断为健康的可能性比较大。
2)临床疗效预测:本影像学标记与临床症状和脑结构损伤存在显著关联,因此可以利用该指标提前预测被试对某种治疗手段的疗效,从而指导临床干预。
3)模型扩展:对于一个新加入的中心,不需要提供原始MRI数据,只需要把已经训练好的模型加入模型库中即可,然后具体预测中按照公式(1)对MICI值进行重新计算。经测试MICI随着新的模型的加入会不断提高预测性能,提示其高扩展性。该模型扩展方式能够在提高MICI指标预测性能的同时,避免了原始数据共享面临的难题。
本发明的核心创新点包括:1)模型依赖。由各中心独自训练模型,MICI指标基于各中心的模型进行计算,而无需共享各中心的原始数据,从而避免了多中心分析带来的各种问题;
2)样本量加权。以样本量为权重合并各个中心模型的预测结果,降低了样本量低的模型可能导致的预测不确定,大大提高了模型的性能和稳定性。3)横向扩展。MICI指标的计算是根据模型预测结果在每个特征中的线性加权,并结合样本量获得。因此,对于新加入的中心,不需要额外训练即可直接使用。而且随着加入的中心数量的增加,MICI的分类性能越强。
实施例1
本实施例神经影像标记物形态学融合分类指数的构建方法,该构建方法包括以下内容:
1)获取M个中心的结构MRI数据,提取脑结构像特征数据:
数据获取:对于纳入的采集自多中心的三维高分辨率T1加权结构像MRI(structural MRI,sMRI)(多中心数据即指由多个机构采集的数据,其中选择结构像的MRI数据)数据,通过Freesurfer平台(V6.0,http://www.freesurfer.net/)对sMRI数据进行皮层重建和指标解算[2],进一步基于aparc.2009s模板和aseg模板,得到了包括皮层厚度、皮层体积、皮层表面积、皮层下体积及7个全脑指标(全脑总体积,全脑皮层灰质体积,全脑皮层下灰质体积,全脑白质体积,全脑白质表面积及全脑平均皮层厚度)在内的484个脑结构像特征(其中,对于aseg模板,去除了部分误差可能性较大的脑区,包括左右侧血管体积、左右侧脉络丛体积、第5脑室体积、左右侧白质高信号体积、左右侧非白质高信号体积、视交叉体积)。针对每个中心分别提取脑结构像特征数据形成相应的原始特征矩阵,原始特征矩阵的结构为被试数×484个影像特征。
数据预处理:数据预处理包括协变量回归及归一化过程,具体如下:
①协变量回归。协变量的回归主要使用matlab软件(https://www.mathworks.com/)的regress函数进行,其中纳入的被回归变量包括年龄、性别、年龄的平方及全脑体积。
②归一化。归一化采用的方法为高斯替代,从而使样本服从正态分布。通过这两步处理,得到了预处理后的每个中心的标准化特征矩阵,并进一步纳入后续分析中。
2)以各中心数据进行独自训练,分别建立各中心的分类模型:
单中心分类模型的建立:在建立完成每个中心的标准化特征矩阵后,对于每一个中心的数据,随机抽取20%的被试作为测试集数据,剩余的80%的被试作为训练集数据(训练集:测试集=4:1)。测试集的数据不参与到任何的训练过程中,作为独立的数据集来验证模型的分类性能,测试集只划分一次,完全独立在整个训练过程之外,这样更能验证模型真实的分类性能。XGBoost是基于现有的梯度下降算法所提出的一种分类器,其基本思想是叠加多个弱分类器的结果组合成一个强分类器。在训练过程,分类模型的性格衡量使用受试者工作曲线下面积AUC进行评价。在Python环境下,使用xgboost下的XGBClassifier进行训练,并且在训练的过程中,使用网格搜索来优化分类器的参数,具体的参数选择范围如下:梯度计算次数(n_estimators):100-1001,步长100;决策树的最大深度(max_depth):1-10;可用的样本数比例为(subsample):0.5-1;节点分裂所需的最小损失函数下降值(gamma):0-0.5,步长为0.2;权重的L1正则化项(alpha)取值范围为:[5,2,1,0.1,0.01,0.001,0];权重的L2正则化项(lambda)取值范围为:[5,2,1,0.1,0.01,0.001,0];学习率(learningrate):[0.01,0.02,0.05,0.1,0.15,0.2]。经过参数搜索后,得到了每个模型最优的参数组合,并使用XGBoost得到每个中心的分类模型。
在本实施例中,使用了9个精神分类症数据集进行测试,即M=9,有9个中心,得到了9个相互独立的分类模型。每个中心的参数如下:
中心1:gamma=3.2,max_depth=2,n_estimators=300,lambda=0.1,subsample=0.6;
中心2:gamma=3.8,max_depth=1,n_estimators=900,lambda=1.0,subsample=0.6;
中心3:gamma=0.8,max_depth=1,lambda=1.0,subsample=0.6;
中心4:gamma=1.2,max_depth=1,lambda=1.0,subsample=0.5;
中心5:gamma=1.2,max_depth=1,n_estimators=200,lambda=1.0,subsample=0.8;
中心6:gamma=0.0,max_depth=4,lambda=1.0,subsample=0.6;
中心7:gamma=4.4,max_depth=2,alpha=2,lambda=0.1,subsample=0.9;
中心8:gamma=1.4,max_depth=2,alpha=1,lambda=0.01,subsample=0.5;
中心9:gamma=3.0,max_depth=4,n_estimators=300,lambda=0.01,subsample=0.7。
3)计算每个被试的MICI值
基于训练好的M个分类模型,对于任意一个测试数据,输入该样本的MRI形态学特征向量,首先利用某一个单中心模型计算该样本每个特征的SHAP值(SHapley AdditiveexPlanation,https://github.com/slundberg/shap)。SHAP值的原理是构建一个加性的解释模型,所有的特征都视为“贡献者”[1]。SHAP是一个具有正负效应的特征权重衡量值,该样本所有特征的SHAP相加就是该模型对该测试样本的预测值:如果定义精神疾病患者标签为1,健康对照为0,如果全部特征SHAP值的和为正数,预测该样本趋向于精分(精神分裂),反之该样本趋向于健康对照。在本实例中,SHAP是基于python环境的shap包计算得到的。针对一个特定的测试样本,在M个模型中可以得到一个SHAP值矩阵,维度为特征数×模型数,模型数是M。
由于各个中心预训练的模型所用的样本量存在显著差异,本发明假设使用样本量越大的模型其预测的理论上越好,因此在计算MICI指标中,创新性地引入样本量作为权重,MICI值是对所有模型所有特征SHAP值矩阵按照模型样本量的加权平均,其计算公式为:
其中,M为模型数目(即中心数),B代表特征总数,Si代表模型i的样本量(记为模型i的权重系数),ai代表了特征a(本示例即某脑区的形态学特征)在模型i中的SHAP值。
4)MICI值性能验证
为了进一步验证MICI值的性能,在本研究纳入的1167名被试中进行了测试(其中已标注519名精神分裂症患者和648名健康对照者(9个中心共包括了1167名被试)。如前文所述,基于9个中心的脑结构像的MRI(structural MRI,sMRI)数据,并利用XGBoost分类器训练得到了9个单中心模型。基于9个单中心模型计算得到MICI值,进行了如下分析:
①差异性比较。使用matlab软件进行了双样本T检验分析,来探究MICI值在病人和正常人之间的差异。在9个数据集(9个数据集即9个中心)中,MICI值在正常人和患者中均存在显著的差异(P<0.0001),MICI值在每个中心间的分布见图1,在图中主要是能看出对于任意一个中心,MICI值的分布在正常人和病人中是不一样的,主要是看整个值的分布,俩个深浅颜色的峰即代表了MICI值在正常人和病人中的差异,可以看到,两者之间的峰值是有明显的距离的。
②有效性分析。使用MICI值作为唯一的特征输入,再次使用XGBoost模型进行分类训练,参数选择同前所述。性能评价指标包括:ROC曲线下面积(area under curve,AUC);精确率:代表正确预测的样本与总样本的比值;准确率:相对于预测值而言,代表了预测为正的样本中有多少是真的正样本;敏感性:代表真阳性率;特异性:代表真阴性率。结果显示,在9个中心间基于MICI值分类ROC曲线下面积(area under curve,AUC)的均值可达0.80(0.68-0.90)(图2A,表1)。高度接近利用484个特征的多变量机器学习模型的预测性能(AUC=0.82)(图2B)。最后,我们评估了模型的可扩展性。通过随机加入1-9个中心的模型进行MICI指标的计算,并用测试集数据进行验证。发现随着加入中心模型数量的增加,MICI值的分类效能单调递增,提示该指标具有良好的可扩展性(图3)。
表1.在每个中心测试数据中MICI值的分类性能
5)MICI值的生物学可解释性分析
本部分测试了MICI值与每个被试精神分裂症阴性症状(Scale for theassessment of negative symptoms,SANS)和阳性症状(Scale for the assessmentofpositive symptoms,SAPS)总分、病程、及抗精神病药物的总使用剂量之间的斯皮尔曼相关。另外,通过与健康对照进行双样本T检验,得到精神分类症患者每个特征(脑区)的脑结构损伤指数,以及精神分裂症患者每个特征的MICI值差异水平,评估特征水平精神分裂症MCIC的差异水平与脑结构损伤指数的斯皮尔曼相关。结果显示,在精神分裂症患者中,MICI指标异常水平与脑损伤严重程度存在显著相关(R=0.44,显著性P=8.96e-192),而且MICI指标与患者的阴性症状(R=0.38,P=6.0e-10)、阳性症状(R=0.24,P=1.3e-4)及病程(R=0.18,P=0.012)均存在显著相关性,相关图见图4。说明MICI可以在一定程度上反应精神疾病患者的脑损伤情况和临床症状,具有比较强的可解释性。
本发明中MICI指标的构建只需要各个中心提供预训练好的分类模型而非原始MRI数据,对样本用各分类模型预测得到的每个特征的SHAP值进行加权融合:首先计算每个中心全部特征SHAP值的和(样本SHAP值),然后对所有中心的样本SHAP值进行加权平均。引入了预训练模型的样本量作为加权系数(Si),按照公式(1)对各个中心的样本SHAP值进行加权平均。模型使用的样本量越大,那么该中心样本的SHAP值对MICI值的贡献就越大。
本发明未述及之处适用于现有技术。
参考文献
1.Lundberg,S.M.and S.-I.Lee,A Unified Approach to Interpreting ModelPredictions,in 31st Conference on NeuralInformation ProcessingSystems(NIPS2017).2017:Long Beach,CA,USA.p.1-10.
2.Fischl,B.,et al.,Whole brain segmentation:automated labelingofneuroanatomical structures in the human brain.Neuron,2002.33(3):p.341-55.
Claims (8)
1.一种神经影像标记物形态学融合分类指数的构建方法,该构建方法包括以下内容:
获取M个中心的结构MRI数据,提取脑结构像特征数据,M为大于1的整数;
以各中心数据进行独自训练,分别建立各中心的分类模型,获得M个中心的分类模型,形成模型库;
对于任意一个样本,在所有中心的分类模型,计算出该样本在每个模型每个特征的分类权重值,即SHAP矩阵,SHAP矩阵的维度为特征数×模型数,特征数为所提取的脑结构像特征数据的个数B;然后以每个模型训练时使用的样本量为权重,按照公式(1)计算获得单一的形态学融合分类指数MICI值;
其中,Si代表分类模型i训练时使用的样本量,B代表特征总数,ai代表了特征a在分类模型i中的SHAP值,i=1~M。
2.根据权利要求1所述的构建方法,其特征在于,所述分类模型以XGBoost分类器构建,在训练的过程中,使用网格搜索来优化分类器的参数;
在Python环境下,使用XGBoost下的XGBClassifier进行训练,并且在训练的过程中,使用网格搜索来优化分类器的参数,具体的参数选择范围如下:梯度计算次数范围:100-1001,步长100;决策树的最大深度范围:1-10;可用的样本数比例范围为:0.5-1;节点分裂所需的最小损失函数下降值范围:0-5,步长为0.2;权重的L1正则化项依次取值为:[5,2,1,0.1,0.01,0.001,0];权重的L2正则化项依次取值为:[5,2,1,0.1,0.01,0.001,0];学习率依次取值如下:[0.01,0.02,0.05,0.1,0.15,0.2]。
3.根据权利要求1所述的构建方法,其特征在于,脑结构MRI数据包括但不限于T1加权成像、T2加权成像、FLAIR成像、弥散加权成像、弥散张量成像、磁敏感加权图像等结构成像数据;脑结构形态学影像特征包括但不限于皮层厚度、皮层体积、皮层表面积、皮层迂曲度、皮层下核团体积、纤维束体积及弥散定量和脑组织组学特征。
4.根据权利要求1所述的构建方法,其特征在于,对于一个新加入的中心,不需要提供原始MRI数据,只需要在自己中心按照既定的方法训练出分类模型,然后把该分类模型横向扩展到模型库中,样本只需要按照公式(1)重新计算MICI值即可。
5.根据权利要求1所述的构建方法,其特征在于,所述脑结构像特征数据包括皮层厚度、皮层体积、皮层表面积、皮层下体积及7个全脑指标在内的484个脑结构像特征,其中7个全脑指标为全脑总体积、全脑皮层灰质体积、全脑皮层下灰质体积、全脑白质体积、全脑白质表面积及全脑平均皮层厚度;
对脑结构像特征数据进行数据预处理:数据预处理包括协变量回归及归一化过程,具体是:
①协变量回归,协变量的回归使用matlab软件的regress函数进行,其中纳入的被回归变量包括年龄、性别、年龄的平方及全脑体积;
②归一化:归一化采用的方法为高斯归一化,从而使样本服从正态分布;
得到了预处理后的每个中心的标准化特征矩阵,并进一步纳入后续分析中。
6.一种脑疾病的预估方法,其特征在于,该脑疾病为脑结构不会发生器质性改变的脑疾病,该预估方法对脑疾病按照临床研究指标进行不同状态的划分,采用公式(1),公式(1)为:
其中,Si代表分类模型i训练时使用的样本量,B代表特征总数,ai代表了特征a在分类模型i中的SHAP值,i=1~M,M为中心数,每个中心有一个独立的分类模型;MICI为形态学融合分类指数;
获得多中心MICI的表达式,将每个被试在当前多中心情况下的MICI值与不同状态进行拟合,获得MICI值与不同状态的趋势变化关系;
针对待检测对象为单个被试的情况,将该单个被试的脑结构像特征数据带入各中心的分类模型,得到不同中心的分类模型对该单个被试特征的SHAP值,再带入公式(1)获得该单个被试的MICI值;以该MICI值作为特征值,输入到MICI值与不同状态的趋势变化关系,获得待预估的单个被试的脑疾病状态趋势;
针对待预估的群体,该群体中被试具有脑结构像特征数据,能单独作为一个中心,训练获得新的分类模型,加入模型库,再按照公式(1)获得新中心引入后对应的MICI值,以该MICI值作为特征值,输入到MICI值与不同状态的趋势变化关系,获得待预估的群体的脑疾病状态趋势。
7.根据权利要求6所述的预估方法,其特征在于,所述脑疾病为脑弥漫性损伤为特征的神经精神类疾病,包括精神分裂症、躁郁症、抑郁症、焦虑症、强迫症、自闭症、阿尔茨海默病、帕金森病和癫痫。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110494544.8A CN113222001B (zh) | 2021-05-07 | 2021-05-07 | 神经影像标记物形态学融合分类指数的构建方法及应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110494544.8A CN113222001B (zh) | 2021-05-07 | 2021-05-07 | 神经影像标记物形态学融合分类指数的构建方法及应用 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113222001A CN113222001A (zh) | 2021-08-06 |
CN113222001B true CN113222001B (zh) | 2022-06-28 |
Family
ID=77091297
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110494544.8A Active CN113222001B (zh) | 2021-05-07 | 2021-05-07 | 神经影像标记物形态学融合分类指数的构建方法及应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113222001B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114334169B (zh) * | 2022-03-07 | 2022-06-10 | 四川大学 | 医疗对象的类别决策方法、装置、电子设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111242233A (zh) * | 2020-01-18 | 2020-06-05 | 温州大学 | 一种基于融合网络的阿尔兹海默病分类方法 |
CN112131927A (zh) * | 2020-08-03 | 2020-12-25 | 南京农业大学 | 基于妊娠后期姿态转化特性的母猪分娩时间预测系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107330267A (zh) * | 2017-06-28 | 2017-11-07 | 首都医科大学宣武医院 | 利用弥散张量成像医学影像的白质纤维脑图谱构建方法 |
CN108920893B (zh) * | 2018-09-06 | 2019-04-16 | 南京医科大学 | 一种基于人工智能的颅颌面骨骼和软组织形态预测方法 |
CN111260209B (zh) * | 2020-01-14 | 2022-03-11 | 山东大学 | 电子病历与医学影像结合的心血管疾病风险预测评估系统 |
-
2021
- 2021-05-07 CN CN202110494544.8A patent/CN113222001B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111242233A (zh) * | 2020-01-18 | 2020-06-05 | 温州大学 | 一种基于融合网络的阿尔兹海默病分类方法 |
CN112131927A (zh) * | 2020-08-03 | 2020-12-25 | 南京农业大学 | 基于妊娠后期姿态转化特性的母猪分娩时间预测系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113222001A (zh) | 2021-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Khan et al. | Machine learning and deep learning approaches for brain disease diagnosis: principles and recent advances | |
CN109528197B (zh) | 基于脑功能图谱进行精神疾病的个体化预测方法和系统 | |
Chandrasekaran et al. | Fuzzy KNN Implementation for Early Parkinson's Disease Prediction | |
CN112784856A (zh) | 胸部x射线图像的通道注意力特征提取方法和识别方法 | |
Fareed et al. | ADD-Net: an effective deep learning model for early detection of Alzheimer disease in MRI scans | |
CN115662576B (zh) | 关联认知障碍病症的神经反馈训练范式的生成方法和系统 | |
Jiang et al. | Interpreting Brain Biomarkers: Challenges and solutions in interpreting machine learning-based predictive neuroimaging | |
Irmak | A novel implementation of deep-learning approach on malaria parasite detection from thin blood cell images | |
Kadry et al. | Retinal vessel segmentation with slime-mould-optimization based multi-scale-matched-filter | |
Manimurugan | Classification of Alzheimer's disease from MRI Images using CNN based Pre-trained VGG-19 Model | |
CN113222001B (zh) | 神经影像标记物形态学融合分类指数的构建方法及应用 | |
CN115424067A (zh) | 基于多重融合脑网络图技术实现抑郁症亚型分类处理的系统、方法、处理器及其存储介质 | |
Bordin et al. | Explainable AI points to white matter hyperintensities for Alzheimer's disease identification: A preliminary study | |
CN105894493A (zh) | 一种基于稳定性选择的fMRI数据特征的选择方法 | |
Mantha et al. | A transfer learning method for brain Tumor classification using EfficientNet-B3 model | |
Savita et al. | Alzheimer’s disease detection through machine learning | |
CN113197578A (zh) | 一种基于多中心模型的精神分裂症分类方法及系统 | |
Ahmed et al. | Malaria Parasite Detection Using CNN-Based Ensemble Technique on Blood Smear Images | |
Goenka et al. | Patch-based classification for Alzheimer disease using sMRI | |
Reddy Enumula et al. | Alzheimer's disease prediction and classification using CT images through machine learning. | |
Sharma et al. | Machine learning of diffusion weighted imaging for prediction of seizure susceptibility following traumatic brain injury | |
KR102516868B1 (ko) | 파킨슨 병 검출을 위한 3d 컨볼루셔널 뉴럴 네트워크 | |
Nisha et al. | SGD-DABiLSTM based MRI Segmentation for Alzheimer’s disease Detection | |
Islam et al. | Understanding Convolutional Neural Network's behavior for Alzheimer's disease on MRI | |
Amini et al. | Application of machine learning methods in diagnosis of alzheimer disease based on fractal feature extraction and convolutional neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
OL01 | Intention to license declared | ||
OL01 | Intention to license declared |