CN114628026A - 诊断hcm的装置、预测hcm患者预后的装置 - Google Patents
诊断hcm的装置、预测hcm患者预后的装置 Download PDFInfo
- Publication number
- CN114628026A CN114628026A CN202210226696.4A CN202210226696A CN114628026A CN 114628026 A CN114628026 A CN 114628026A CN 202210226696 A CN202210226696 A CN 202210226696A CN 114628026 A CN114628026 A CN 114628026A
- Authority
- CN
- China
- Prior art keywords
- hcm
- metabolites
- model
- data
- data set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/48—Biological material, e.g. blood, urine; Haemocytometers
- G01N33/50—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
- G01N33/68—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/48—Biological material, e.g. blood, urine; Haemocytometers
- G01N33/50—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
- G01N33/68—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
- G01N33/6803—General methods of protein analysis not limited to specific proteins or families of proteins
- G01N33/6848—Methods of protein analysis involving mass spectrometry
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Physics & Mathematics (AREA)
- Molecular Biology (AREA)
- Public Health (AREA)
- General Health & Medical Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Urology & Nephrology (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Immunology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Hematology (AREA)
- Medical Informatics (AREA)
- Pathology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Primary Health Care (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Biotechnology (AREA)
- Cell Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Microbiology (AREA)
- Epidemiology (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Food Science & Technology (AREA)
- Medicinal Chemistry (AREA)
- Analytical Chemistry (AREA)
- Biochemistry (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biophysics (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本申请公开了一种诊断肥厚型心肌病(HCM)的装置和预测HCM患者预后的装置。所述诊断HCM的装置包括:数据获取单元,配置为获取包括多个正常人的血液样本的样本数据和多个HCM患者的血液样本的样本数据作为第一训练数据集;诊断模型构造单元包括:特征筛选单元,配置为利用套索回归算法对所述第一训练数据集执行降维处理以获得第二训练数据集;和模型构造单元,配置为利用随机森林算法,使用所述第二训练数据集训练多个决策树来构造随机森林模型作为HCM诊断模型;以及诊断单元,配置为使用构造的HCM诊断模型获得指示用户是否患有HCM的诊断结果。
Description
技术领域
本公开涉及诊断肥厚型心肌病(HCM)的装置以及预测肥厚型心肌病患者预后的装置。
背景技术
肥厚型心肌病(HCM)是一种以心肌肥大为特征的心血管疾病,临床特征表现为左心室壁厚度的增加。HCM作为最常见的遗传性心血管疾病之一,在普通人群中的患病率高达1:200-500,影响着全球2千万人的健康。中国HCM患病率为80/10万,粗略估计中国有超过100万的HCM患者。HCM已成为心脏性猝死、心力衰竭和心房颤动的重要原因,对现代社会的医疗保健系统和经济造成了巨大负担。
目前HCM的诊断方式主要是通过对疑似病例进行心脏超声动图或者核磁共振方法检测左心室壁肥厚,从而确诊HCM。然而,该方法在诊断过程中存在一定的滞后性,对检测设备要求较高,同时还存在一定的误诊及漏诊病例。
当前临床上并没有能够很好预测HCM患者预后的指标,潜在的与HCM患者预后相关的临床指标也没有表现出精确的预测能力。鉴于当前HCM诊断方法的局限性以及HCM患者预后情况指征指标的缺乏,本领域期望能够准确诊断HCM以及精确预测HCM患者预后的新指标以及新方法。
因此,在HCM诊断方法存在局限性以及HCM患者预后指征指标缺乏的情况下,本技术方案提出了一种根据代谢物水平并结合机器学习算法构建诊断/预测模型的方法,实现HCM的早期、简易及精确诊断,同时实现HCM患者手术后死亡风险预测,告知患者提前做好预防及治疗措施。
发明内容
本公开提供了诊断肥厚型心肌病的装置以及预测肥厚型心肌病患者预后的装置。
在一个示例方面,公开了一种诊断肥厚型心肌病(HCM)的装置,包括:数据获取单元、诊断模型构造单元和诊断单元。数据获取单元配置为获取包括多个正常人的血液样本的样本数据和多个HCM患者的血液样本的样本数据作为第一训练数据集,所述第一训练数据集包括第一数量个样本数据,并且所述样本数据的每个包括第二数量种类的代谢物的丰度数据。诊断模型构造单元包括特征筛选单元和模型构造单元。特征筛选单元配置为利用套索回归算法对所述第一训练数据集执行降维处理以获得第二训练数据集,所述第二训练数据包括第一数量个降维样本数据,并且所述降维样本数据的每个包括从所述第二数量种类的代谢物中筛选出的第三数量种类的一组特征代谢物的丰度数据。模型构造单元配置为利用随机森林算法,使用所述第二训练数据集训练多个决策树来构造随机森林模型作为HCM诊断模型。诊断单元配置为使用构造的HCM诊断模型获得指示用户是否患有HCM的诊断结果。
根据实施例,所述特征筛选单元进一步配置为通过设置套索回归算法中的正则化系数,确定样本数据中的第二数量种类的代谢物各自对应的特征系数,以及
确定特征系数不为零的代谢物作为所述第三数量种类的一组特征代谢物,以获得包括第三数量种类的一组特征代谢物的丰度数据的降维样本数据作为第二训练数据集。
根据实施例,所述正则化系数设置为0.001,并且所述第三数量种类的一组特征代谢物为五种特征代谢物,包括次黄嘌呤、色氨酸、8:0-肉碱、苯丙氨酸以及肌酸。
根据实施例,所述模型构造单元进一步配置为在所述第二训练数据集中,通过每次随机选择一个样本数据的方式,有放回地选择第一数量个样本数据用于训练一棵决策树,
通过自助法重采样方式重复多次训练获得第四数量棵的决策树,以及利用所述第四数量棵的决策树形成随机森林模型作为HCM诊断模型,其中所述HCM诊断模型评估所有决策树的决策结果,并基于多数原则输出最终的诊断结果。
根据实施例,所述模型构造单元进一步配置为针对每一棵决策树,有放回地选择第一数量个样本数据作为决策树的根节点处的样本,
在决策树的每个节点需要分裂时,随机从所述五种代谢物中选取出m个代谢物,m是小于等于5的整数,并且选择使得节点基尼系数最小的代谢物作为决策树的节点的分裂条件,
根据选择的一组特征代谢物对每一个节点执行分裂操作,使得每个子节点包括样本数据的一部分,重复执行分裂操作直到决策树的每个子节点只存在一种类别。
根据实施例,所述数据获取单元进一步配置为获取多个用户的血液样本的样本数据作为测试数据集,以及
所述诊断模型构造单元进一步包括模型测试单元,配置为使用所述测试数据集测试构造的HCM诊断模型,以评估所述HCM诊断模型在独立数据集上的准确性。
根据实施例,所述数据获取单元包括试剂盒,配置为获取一个或多个诊断用户的血液样本中的五种特征代谢物的丰度数据,
所述诊断单元进一步配置为将用户的五种特征代谢物的丰度数据输入所述HCM诊断模型,并且输出指示用户是否患有HCM的诊断结果。
根据另一示例方面,公开了一种预测肥厚型心肌病(HCM)患者预后的装置,包括:
数据获取单元,配置为获取包括多个手术后存活的HCM患者的心脏组织样本的样本数据和多个手术后死亡的HCM患者的心脏组织样本的样本数据作为第一训练数据集,所述第一训练数据集包括第一数量个样本数据,并且所述样本数据的每个包括第二数量种类的代谢物的丰度数据;
预测模型构造单元,包括:
第一模型构造单元,配置为利用随机生存森林算法,使用所述第一训练数据集中第二数量种类的代谢物的丰度数据训练第一随机生存森林模型;
特征筛选单元,配置为利用所述第一随机生存森林模型的变量重要性得分,对所述第一训练数据集执行降维处理以获得第二训练数据集,所述第二训练数据包括第一数量个降维样本数据,并且所述降维样本数据的每个包括从所述第二数量种类的代谢物中筛选出的第三数量种类的一组特征代谢物的丰度数据;
第二模型构造单元,配置为利用随机生存森林算法,使用所述第二训练数据集训练多个生存树来构造随机生存森林模型作为HCM预后预测模型;以及
预测单元,配置为使用构造的HCM预后预测模型获得指示HCM患者的预后预测的预测结果。
根据实施例,所述特征筛选单元进一步配置为确定所述第一训练数据集中所有第二数量种类的代谢物的重要性得分,根据重要性得分从高到低顺序选择预定数量个重要代谢物,并且在同一类别的脂质代谢物中只选择重要性得分最高的一个代谢物,从而从所述第二数量种类的代谢物中筛选出第三数量种类的一组特征代谢物。
根据实施例,所述第三数量种类的一组特征代谢物为十二种特征代谢物,包括二甲基甘氨酸、N-乙酰基-L-谷氨酰胺、一磷酸黄嘌呤核苷、一磷酸核苷、γ-氨基丁酸、18:0-肉碱、尿苷二磷酸半乳糖、磷脂酰胆碱38:6p(16:0/22:6),磷脂酰乙醇胺32:0(16:0/16:0),磷脂酰丝氨酸34:3(16:1/18:2),磷脂酰甘油38:6(18:2/20:4),甘油三酯52:2(C18:0)。
根据实施例,第二模型构造单元进一步配置为在所述第二训练数据集中,通过每次随机选择一个样本数据的方式抽取样本以构成样本子集,对每一个样本随机选择特征代谢物来训练一棵生存树,
重复多次训练获得第四数量棵的生存树,以及利用所述第四数量棵的生存树形成随机生存森林模型作为HCM预后预测模型,其中所述HCM预后预测模型评估所有生存树的决策结果,并从各生存树之中加权选举出最终的预测结果。
根据实施例,所述数据获取单元进一步配置为获取多个HCM患者的心脏组织样本的样本数据作为测试数据集,以及
所述诊断模型构造单元进一步包括模型测试单元,配置为使用所述测试数据集测试构造的HCM预后预测模型,以评估所述HCM预后预测模型在独立数据集上的准确性。
根据实施例,所述数据获取单元包括试剂盒,配置为获取一个或多个患者的心脏组织样本中的十二种特征代谢物的丰度数据,
所述预测单元进一步配置为将患者的十二种特征代谢物的丰度数据输入所述HCM预后预测模型,并且输出指示患者术后随时间的死亡风险的预测结果。
根据另一示例方面,公开了一种存储指令的计算机存储介质,当所述指令由一个或多个计算机执行时,使得所述一个或多个计算机实现权利要求1-13的任一所述的装置。
根据另一示例方面,公开了用于在受试者中诊断肥厚型心肌病(HCM)的试剂盒,所述试剂盒包含用于确定来自所述受试者的样品中代谢物的水平的试剂,所述代谢物选自8:0-肉碱、次黄嘌呤、肌酸、苯丙氨酸和色氨酸中的一种或多种。
根据实施例,所述代谢物包括8:0-肉碱、次黄嘌呤、肌酸、苯丙氨酸和色氨酸。
根据实施例,所述试剂用于在选自以下的方法中确定所述代谢物的水平:质谱方法、荧光检测方法、化学发光方法。
根据实施例,所述来自受试者的样品选自血液、血浆和血清。
根据实施例,公开了用于对经历手术治疗的肥厚型心肌病(HCM)患者的预后进行预测的试剂盒,所述试剂盒包含用于确定来自所述患者的样品中代谢物的水平的试剂,所述代谢物包括磷脂酰胆碱38:6p(16:0/22:6)和尿苷二磷酸半乳糖,以及任选的选自以下的一种或多种:
二甲基甘氨酸、N-乙酰基-L-谷氨酰胺、一磷酸黄嘌呤核苷、一磷酸核苷、γ-氨基丁酸、18:0-肉碱、磷脂酰乙醇胺32:0(16:0/16:0)、磷脂酰丝氨酸34:3(16:1/18:2)、磷脂酰甘油38:6(18:2/20:4)和甘油三酯52:2(C18:0)。
根据实施例,所述代谢物包括磷脂酰胆碱38:6p(16:0/22:6)和尿苷二磷酸半乳糖。
根据实施例,所述代谢物包括磷脂酰胆碱38:6p(16:0/22:6)、尿苷二磷酸半乳糖、γ-氨基丁酸、磷脂酰甘油38:6(18:2/20:4)和一磷酸核苷。
根据实施例,所述代谢物包括磷脂酰胆碱38:6p(16:0/22:6)、尿苷二磷酸半乳糖、γ-氨基丁酸、磷脂酰甘油38:6(18:2/20:4)、一磷酸核苷、二甲基甘氨酸和磷脂酰乙醇胺32:0(16:0/16:0)。
根据实施例,所述代谢物包括磷脂酰胆碱38:6p(16:0/22:6)、尿苷二磷酸半乳糖、二甲基甘氨酸、N-乙酰基-L-谷氨酰胺、一磷酸黄嘌呤核苷、一磷酸核苷、γ-氨基丁酸、18:0-肉碱、磷脂酰乙醇胺32:0(16:0/16:0)、磷脂酰丝氨酸34:3(16:1/18:2)、磷脂酰甘油38:6(18:2/20:4)和甘油三酯52:2(C18:0)。
根据实施例,所述试剂用于在选自以下的方法中确定所述代谢物的水平:质谱方法、荧光检测方法、化学发光方法。
根据实施例,所述来自患者的样品为心脏组织。
根据另一示例方面,公开了用于确定来自受试者的样品中代谢物的水平的试剂在制备用于在所述受试者中诊断肥厚型心肌病(HCM)的试剂盒中的用途,其中所述代谢物选自8:0-肉碱、次黄嘌呤、肌酸、苯丙氨酸和色氨酸中的一种或多种。
根据实施例,所述代谢物包括8:0-肉碱、次黄嘌呤、肌酸、苯丙氨酸和色氨酸。
根据实施例,所述试剂用于在选自以下的方法中确定所述代谢物水平的:质谱方法、荧光检测方法、化学发光方法。
根据实施例,所述来自受试者的样品选自血液、血浆和血清。
根据另一示例方面,公开了用于确定来自经历手术治疗的肥厚型心肌病(HCM)患者的样品中代谢物的水平的试剂在制备用于对所述患者的预后进行预测的试剂盒中的用途,其中所述代谢物包括磷脂酰胆碱38:6p(16:0/22:6)和尿苷二磷酸半乳糖,以及任选的选自以下的一种或多种:
二甲基甘氨酸、N-乙酰基-L-谷氨酰胺、一磷酸黄嘌呤核苷、一磷酸核苷、γ-氨基丁酸、18:0-肉碱、磷脂酰乙醇胺32:0(16:0/16:0)、磷脂酰丝氨酸34:3(16:1/18:2)、磷脂酰甘油38:6(18:2/20:4)和甘油三酯52:2(C18:0)。
根据实施例,所述代谢物包括磷脂酰胆碱38:6p(16:0/22:6)和尿苷二磷酸半乳糖。
根据实施例,所述代谢物包括磷脂酰胆碱38:6p(16:0/22:6)、尿苷二磷酸半乳糖、γ-氨基丁酸、磷脂酰甘油38:6(18:2/20:4)和一磷酸核苷。
根据实施例,所述代谢物包括磷脂酰胆碱38:6p(16:0/22:6)、尿苷二磷酸半乳糖、γ-氨基丁酸、磷脂酰甘油38:6(18:2/20:4)、一磷酸核苷、二甲基甘氨酸和磷脂酰乙醇胺32:0(16:0/16:0)。
根据实施例,所述代谢物包括磷脂酰胆碱38:6p(16:0/22:6)、尿苷二磷酸半乳糖、二甲基甘氨酸、N-乙酰基-L-谷氨酰胺、一磷酸黄嘌呤核苷、一磷酸核苷、γ-氨基丁酸、18:0-肉碱、磷脂酰乙醇胺32:0(16:0/16:0)、磷脂酰丝氨酸34:3(16:1/18:2)、磷脂酰甘油38:6(18:2/20:4)和甘油三酯52:2(C18:0)。
根据实施例,所述试剂用于在选自以下的方法中确定所述代谢物的水平:质谱方法、荧光检测方法、化学发光方法。
根据实施例,所述来自患者的样品为心脏组织。
采用本公开的装置,能够根据代谢物水平并结合机器学习算法构建诊断/预测模型,实现HCM的早期、简易及精确诊断,同时实现HCM患者手术后死亡风险预测,告知患者提前做好预防及治疗措施。
一个或多个实现的细节在随附的附件、附图和下面的描述中阐述。其他特征将从说明书和附图以及权利要求书中显而易见。
附图说明
图1示出了根据本公开第一实施例的HCM诊断模型构建以及实际应用流程。
图2示出了套索回归的特征选择原理图。
图3示出了随机森林模型建立的流程图。
图4示出了随机森林决策树的示例。
图5示出了测试集中随机森林模型的ROC曲线的示例。
图6示出了根据本公开第一实施例的诊断肥厚型心肌病(HCM)的装置的框图。
图7示出了根据本公开第二实施例的HCM预后预测模型构建以及实际应用流程。
图8示出了术后HCM患者累积死亡风险随时间的变化图的示例。
图9示出了根据本公开第二实施例的肥厚型心肌病(HCM)预后预测的装置的框图。
图10示出了根据本公开实施例的存储介质的示意图。
具体实施方式
下面将结合附图对本申请实施例中的技术方案进行清楚、完整地描述,显而易见地,所描述的实施例仅仅是本申请的部分实施例,而不是全部的实施例。基于本申请实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,也属于本申请保护的范围。
本说明书中使用的术语是考虑到关于本公开的功能而在本领域中当前广泛使用的那些通用术语,但是这些术语可以根据本领域普通技术人员的意图、先例或本领域新技术而变化。此外,特定术语可以由申请人选择,并且在这种情况下,其详细含义将在本公开的详细描述中描述。因此,说明书中使用的术语不应理解为简单的名称,而是基于术语的含义和本公开的总体描述。
虽然本申请对根据本申请的实施例的系统中的某些模块做出了各种引用,然而,任何数量的不同模块可以被使用并运行在用户终端和/或服务器上。所述模块仅是说明性的,并且所述系统和方法的不同方面可以使用不同模块。
本申请中使用了流程图来说明根据本申请的实施例的系统所执行的操作。应当理解的是,前面或下面操作不一定按照顺序来精确地执行。相反,根据需要,可以按照倒序或同时处理各种步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
<第一实施例>
如前所述,目前HCM的诊断方式主要是通过对疑似病例进行心脏超声动图或者核磁共振方法检测左心室壁肥厚,从而确诊HCM。具体地,针对HCM的诊断流程如下:首先当患者出现疑似HCM的临床症状(如心悸、劳力性呼吸困难、易疲劳以及晕厥等)时,需要去医院进行检查,临床医师会对患者进行个人病史采集,体检以及家族史病例调查。之后通过专业的临床设备(如超声心动图仪与磁共振成像仪器)对患者进行超声心动图或者心脏磁共振检测。最后还可通过基因检测以及病理切片等一些辅助手段确诊HCM。然而,这样的诊断流程存在一定的滞后性,绝大部分患者只有出现了临床症状才会进行全面的检查确诊HCM,这样会导致许多患者错失最佳治疗时间。其次,患者去医院进行检查,确诊HCM的过程需要用到昂贵且专业的检测设备,这导致检测的普及性受限,而且患者需要付出的成本变得非常高。最后,即使通过以上全面的检查后,对于HCM仍存在一定的误诊及漏诊率。
与传统HCM诊断方法不同,根据本公开第一实施例的诊断HCM的装置使用HCM患者的血液中代谢物的水平以及随机森林算法训练得到一个诊断模型,并在独立的测试集上验证该诊断模型的准确性。
下面,首先参考图1说明根据本公开第一实施例的HCM诊断模型构建及实际应用流程。
如图1所示,在一个实施例中,例如针对60例正常人及143例HCM患者的血液样品进行代谢组学分析,得到142个代谢物的相对含量。需要注意的是,本实施例中虽然以血液样品作为示例,但是样本也可以是血液、血浆和血清中的一个或多个。
例如,在医院的化验室,医生可以收集临床患者和/或正常人的血液样本,使用80%甲醇提取血液样本中的代谢物,然后利用液相色谱-质谱联用(LC-MS)技术检测每种代谢物的相对含量(即,丰度数据)。
如图1左边所示,可以通过随机分层抽样的方法,将143例HCM患者以及60例正常人中2/3的样本作为训练集(包含40例正常人和96例HCM患者),1/3的样本作为测试集(包含20例正常人和47例HCM患者)。需要注意的是,在本实施例中,样本数量和代谢物数量仅用于示例的目的,而不是对于数量的限定。
需要注意的是,血液样本中可以包括多种代谢物,HCM患者的血液样本中的代谢物和正常人的血液样本中的代谢物种类可以相同的,但是一种或多种代谢物的相对含量是不同的。
为了建立用于诊断肥厚型心肌病的模型,首先需要从142个代谢物中选取用于诊断的重要代谢物。因为在建立模型之初,为了尽量减小因缺少重要自变量而出现的模型偏差,通常会选择尽可能多的自变量。然而,建模过程需要寻找对因变量最具有强解释力的自变量集合,也就是通过自变量选择(例如指标选择、字段选择)来提高模型的解释性和预测精度。指标选择在统计建模过程中是极其重要的问题。本实施例选取了套索回归(Lasso)来筛选重要代谢物。
Lasso方法是一种压缩估计。它通过构造一个罚函数得到一个较为精炼的模型,使得它压缩一些系数,将不相关的特征系数减小为0,进而将对诊断结果有较大影响的特征凸显出来,一方面减少模型的方差,另一方面提高模型的可解释性。其基本思想是在回归系数的绝对值之和小于一个常数的约束条件下,使残差平方和最小化,从而能够产生某些严格等于0的回归系数,得到可以解释的模型。Lasso的优化公式如下面的公式(1)所示。
nsamples是样本的数量,α为Lasso的正则化系数。
具体而言,Lasso相较于普通的线性回归方法,在多元线性回归的损失函数上引入了L1-范数正则项来防止多重共线性引起的参数w被估计过大而导致的模型失准问题。如图2所示,相较于采用L2-范数正则化的岭回归,L1-范数化在特征空间的“菱形”区域范围,更容易在回归系数w取0时相切,即L1-范数约束下损失函数值最小的点。这使得Lasso回归可以解决高维数据的稀疏性问题,即高维数据其中可能很多特征是不重要的。
Lasso中的正则化系数α用于限制系数,α值越高,对系数的限制越多,α值低则对系数的限制力下降,其泛化能力更强。在本模型中,设定了多个α值,来寻找最佳的正则化系数。如表1所示,这里展示了在α取值于[0.0001,0.0005,0.001,0.01]下的各代谢物特征所对应系数,并按照系数的绝对值从大到小排序,其余特征系数为0的代谢物未给予展示。
当α取值为0.01时,经过拟合之后,系数均变为0,说明α=0.01对于Lasso来说是一个过于大的取值。当α从0.0005变为0.001时,其中的两个变量系数直接被压缩为0,这样就可以做出特征选择:系数不为0的特征所包含的信息就能囊括其余两个系数为0所包含的信息。
综合考虑所选特征代谢物的数目以及Lasso的优化函数。本实施例使用α=0.001时套索回归的方法,在训练集上从142个代谢物特征中选取的5个重要代谢物:8:0-肉碱、次黄嘌呤、肌酸、苯丙氨酸以及色氨酸用于HCM诊断模型的构建。
编号 | 特征名称 | Alpha=0.000100 | Alpha=0.000500 | Alpha=0.001000 | Alpha=0.010000 |
56 | 次黄嘌呤 | 6.49433631 | 5.5046282 | 4.240245267 | 0 |
89 | 色氨酸 | 5.161079934 | 5.519308213 | 3.628599516 | 0 |
32 | 8:0-肉碱 | 10.66596643 | 8.135352929 | 3.294234072 | 0 |
73 | 苯丙氨酸 | 7.221601555 | 6.235048717 | 3.20205296 | 0 |
37 | 肌酸 | 0.400268847 | 1.621224179 | 1.689172588 | 0 |
43 | 谷氨酰胺 | 19.52112665 | 10.87450555 | 0 | 0 |
23 | 肉碱 | 2.974768856 | 1.310030544 | 0 | 0 |
115 | 谷氨酸 | 86.27683718 | 0 | 0 | 0 |
39 | 环亮氨酸 | 10.80334827 | 0 | 0 | 0 |
58 | 肌苷 | 9.4600591 | 0 | 0 | 0 |
21 | 甜菜碱 | 4.425993416 | 0 | 0 | 0 |
62 | 亮氨酸 | 4.411233835 | 0 | 0 | 0 |
120 | 乳酸 | 4.143100311 | 0 | 0 | 0 |
13 | 乙酰肉碱 | 0.366339956 | 0 | 0 | 0 |
0 | 1-甲基腺苷 | 0 | 0 | 0 | 0 |
1 | 甲基组氨酸 | 0 | 0 | 0 | 0 |
2 | 1-甲基烟酰胺 | 0 | 0 | 0 | 0 |
3 | 2-氨基己二酸 | 0 | 0 | 0 | 0 |
4 | 2-氨基辛酸 | 0 | 0 | 0 | 0 |
表1不同Lasso正则化系数下特征系数
在确定了一组特征代谢物之后,可以基于这5个重要代谢物的相对丰度,本实施例利用随机森林算法构建了HCM的诊断模型。
随机森林指的是利用多棵树对样本进行训练从而得到一个包含多个决策树的分类器。模型建立的具体过程如图3所示,在训练集中共有136个样本,因此有放回的随机选择136个样本(即,每次随机选择一个样本,然后返回继续选择)。
然后,选择好了的136个样本用来训练一个决策树,作为决策树根节点处的样本。在决策树的每个节点需要分裂时,随机从这5个代谢物中选取出m(m是小于等于5的整数)个代谢物。每一棵决策树通过基尼指数来进行代谢物选择,基尼指数最小的代谢物将作为该节点的分裂条件。
通过自助法重采样技术按照以上步骤构建100棵决策树,这样就构成了随机森林。当数据集输入随机森林模型时,随机森林中的100棵决策树将分别对于这个数据集进行诊断。随机森林将综合评估所有决策树的决策结果利用多数原则进行投票输出最终的诊断结果。例如对于某一个数据集,100棵决策树中有90棵诊断该样本为HCM患者,10棵诊断该样本为正常人。那么随机森林最终将输出诊断该样本为HCM患者的结果。
图4示出了随机森林决策树的示例。如图4所示,构造好的决策树的具体结构在根节点处通过选择使基尼系数最小的值选择了次黄嘌呤(Hypoxanthine)<0.007作为节点的分裂条件。将原本样本比为45:91(control:HCM)的节点分裂成两个样本比分别为43:22和2:69的两个子节点。
对于每一个子节点,同样按照以上步骤来分裂,直到不能够再分裂为止,即分裂后的子节点只存在其中一种类别。当整棵树上的节点都不再分裂时就形成一颗完整的决策树,图中基尼系数为0的节点也被称作叶子节点。
以图中最左侧的叶子节点[gini=0.0,samples=9,value=[0,9],class=HCM]为例,它所代表就是当一个给定的样本,当该样本的代谢物丰度满足[次黄嘌呤(Hypoxanthine)<0.007,肌酸(Creatine)<=0.028,8:0-肉碱(8:0-Carinitine)<=0.004]时,在这棵决策树中即被诊断为HCM患者。
接下来,为了评估该HCM诊断模型在独立数据集上的准确性,本实施例在测试集中应用该模型诊断HCM患者病例时,确定该模型能够十分精确的区分HCM患者与正常人(AUC=0.976,95%置信区间=0.947-0.998),如图5所示。
AUC是ROC曲线下与坐标轴构成的面积,该面积的数值不会大于1。由于ROC曲线一般都处于y=x这条直线的上方,所以AUC的取值范围在0.5和1之间。AUC越接近1.0,检测方法真实性越高,AUC=1是完美分类器,绝大多数预测的场合,不存在完美分类器,等于0.5时,则真实性最低,无应用价值。ROC曲线全称为受试者工作特征曲线,它是根据一系列不同的二分类方式(分界值或决定阈),以真阳性率(敏感性)为纵坐标,假阳性率(1-特异性)为横坐标绘制的曲线。
实例一:
如图1(右)所示,在临床应用上,本实施例首先将对待诊断人员血液中以上5种代谢物的含量进行检测,并对这5种代谢物含量进行了归一化处理。之后将代谢物含量数值输入本实施例中已经构建好的HCM诊断模型中。如表2所示,No.1-6为6个真实的诊断人员血液中五种代谢物的含量信息(经过归一化)。
以该信息作为模型的输入,调用随机森林模型中的“model.predict”参数,模型将输出对这6个样本的诊断结果,如表2的第7列所示,根据所收集到的临床信息表明,随机森林模型对于这6个样本的诊断结果均预测正确。
编号 | 8:0-肉碱 | 肌酸 | 次黄嘌呤 | 苯丙氨酸 | 色氨酸 | 诊断结果 |
1 | 0.0025595 | 0.0191592 | 0.01776188 | 0.10353493 | 0.10420563 | HCM |
2 | 0.00375422 | 0.01710389 | 0.01012055 | 0.09466677 | 0.08800252 | HCM |
3 | 0.00384897 | 0.00881393 | 0.00900386 | 0.10577552 | 0.09622503 | HCM |
4 | 0.00661263 | 0.01765828 | 0.00505325 | 0.10447874 | 0.09035496 | Normal |
5 | 0.00615311 | 0.01714436 | 0.0094788 | 0.09033729 | 0.08970259 | HCM |
6 | 0.00879419 | 0.04695331 | 0.00643775 | 0.08735764 | 0.08383911 | Normal |
表2.随机森林模型应用实例患者代谢物丰度
下面,将参考图6描述根据本公开第一实施例的诊断HCM的装置100。诊断HCM的装置100包括:数据获取单元101、诊断模型构造单元102以及诊断单元103。
数据获取单元101可以获取包括多个正常人的血液样本的样本数据和多个HCM患者的血液样本的样本数据作为第一训练数据集,所述第一训练数据集包括第一数量个样本数据,并且所述样本数据的每个包括第二数量种类的代谢物的丰度数据。
在本实施例中,例如正常人是40例,以及HCM患者是96例。因此,第一数量个样本数据例如是136个样本数据。此外,如上所述,测定的样本数据中包括142种代谢物,因此第二数量种类的代谢物例如是142种代谢物。
在一个实施例中,数据获取单元101例如可以通过网络与医院的检测设备通信,以采集用户的血液样本的样本数据。数据获取单元101例如可以通过网络,获取通过检测设备检测出的HCM患者的血液样本中的代谢物的丰度数据和正常人的血液样本中的代谢物的丰度数据。
此外,数据获取单元101也可以从医院或医疗中心的数据库中获取用户的血液样本的样本数据作为第一训练数据集。
此外,数据获取单元101也可以是试剂盒,所述试剂盒包含用于确定来自所述受试者的血液样品中代谢物的水平的试剂,所述代谢物选自8:0-肉碱、次黄嘌呤、肌酸、苯丙氨酸和色氨酸中的一种或多种。通过试剂盒可以直接测得受试者的血液样品中代谢物的水平作为第一训练数据集。
诊断模型构造单元102包括特征筛选单元1021和模型构造单元1022。特征筛选单元1021例如可以利用套索回归算法对所述第一训练数据集执行降维处理以获得第二训练数据集,所述第二训练数据包括第一数量个降维样本数据,并且所述降维样本数据的每个包括从所述第二数量种类的代谢物中筛选出的第三数量种类的一组特征代谢物的丰度数据。
如上面参考图2描述的,特征筛选单元1021可以设置套索回归算法中的正则化系数α,确定样本数据中的第二数量种类的代谢物各自对应的特征系数。当α不同时,从第二数量种类的代谢物中筛选出的第三数量种类的一组特征代谢物的数量不同。
具体地,如参考表1所示的,特征筛选单元1021确定特征系数不为零的代谢物作为所述第三数量种类的一组特征代谢物,以获得包括第三数量种类的一组特征代谢物的丰度数据的降维样本数据作为第二训练数据集。
例如在α=0.001时的情况下,特征筛选单元1021使用套索回归方法,在训练集上从142个代谢物特征中选取的5个重要代谢物:8:0-肉碱、次黄嘌呤、肌酸、苯丙氨酸以及色氨酸用于HCM诊断模型的构建。也就是说,第二训练数据集也包括136个用户的样本数据,但是此时每个样本数据中只包括5种特征代谢物的丰度数据。因此,第三数量种类的代谢物例如是5种代谢物。
模型构造单元1022可以利用随机森林算法,使用所述第二训练数据集训练多个决策树来构造随机森林模型作为HCM诊断模型。
如参考图4描述的,模型构造单元1022可以在所述第二训练数据集中,通过每次随机选择一个样本数据的方式,有放回地选择第一数量个样本数据用于训练一棵决策树。然后,模型构造单元1022通过自助法重采样方式重复多次训练获得第四数量棵的决策树,以及利用所述第四数量棵的决策树形成随机森林模型作为HCM诊断模型,其中所述HCM诊断模型评估所有决策树的决策结果,并基于多数原则输出最终的诊断结果。因此,第四数量棵决策树例如是100课决策树。
如参考图5描述的,所述模型构造单元1022可以为针对每一棵决策树,有放回地选择第一数量个样本数据作为决策树的根节点处的样本。然后,在决策树的每个节点需要分裂时,随机从所述五种代谢物中选取出m个代谢物,m是小于等于5的整数,并且选择使得节点基尼系数最小的代谢物作为决策树的节点的分裂条件。最后,根据选择的特征代谢物对每一个节点执行分裂操作,使得每个子节点包括样本数据的一部分,重复执行分裂操作直到决策树的每个子节点只存在一种类别。
此外,诊断模型构造单元102还可以包括模型测试单元1023,其使用所述测试数据集测试构造的HCM诊断模型,以评估所述HCM诊断模型在独立数据集上的准确性。
如表2所示,通过6个样本的测试,基于随机森林模型的HCM诊断模型对于这6个样本的诊断结果均预测正确。
诊断单元103可以使用构造的HCM诊断模型获得指示用户是否患有HCM的诊断结果。
在实际应用中,可以通过试剂盒快速、方便地采集HCM患者的五种特征代谢物的水平量,诊断单元103然后将用户的五种特征代谢物的丰度数据输入所述HCM诊断模型,并且输出指示用户是否患有HCM的诊断结果。
因此,根据本公开第一实施例的HCM诊断装置,能够从患者血液的大量代谢物中筛选出五种特征代谢物(即,次黄嘌呤、色氨酸、8:0-肉碱、苯丙氨酸以及肌酸),并且根据这五种代谢物水平结合机器学习算法构建诊断模型,实现HCM的早期、简易及精确诊断。
<第二实施例>
目前,虽然有一些研究提出某些临床指标用于HCM患者的预后预测,但是这些研究的预测效果较差,并且没有均没有独立的测试集评估建立的预测模型的效果。
与传统HCM诊断方法不同,根据本公开第二实施例的HCM预后预测的装置使用HCM患者的心脏组织样品中的代谢物水平以及随机生存森林算法训练得到一个预测模型,能够在独立的数据集上表现出十分精准的预测效果。此外,随着后续更多患者的入组以及随访时间的延长,还能不断优化HCM的诊断和预后预测模型,进一步提高HCM预后预测的精确度。
下面,首先参考图6说明根据本公开第二实施例的HCM预测模型构建及实际应用流程。
如图6左边所示,在一个实施例中,针对302例HCM患者的心脏组织样品进行代谢组和脂质组学分析,得到922个代谢物的相对含量。
302例HCM患者中,16例患者的最终生命状态为HCM相关死亡,286例患者截止随访结束未观测到事件发生。将302例HCM患者的数据集划分为训练集(包含180例术后存活和10例术后死亡患者共190例)与测试集(包含106例术后存活和6例术后死亡患者共112例)。
类似地,例如,在医院的化验室,医生可以收集HCM患者的心脏组织样本,使用80%甲醇提取心脏组织样本中的代谢物,然后利用液相色谱-质谱联用(LC-MS)技术检测每种代谢物的相对含量(即,丰度数据)。
如图6左边所示,本实施例使用训练集中的患者的922个代谢物丰度训练随机生存森林模型,并通过变量重要性(VIMP)得分选取重要的一组特征代谢物。由于随机生存森林模型选取输入数据的大量特征作为其分裂节点来构建模型,该模型保留了冗杂的变量。然而,并不是所有的变量在机器建立模型时都有积极意义,因此,通过变量筛选,可以了解各变量在建立模型时的作用。
VIMP法的计算方法的原理是将袋外数据放入生存树中,令其随机分配到任一子节点;计算新的总累积风险;VIMP为原始错误率和新错误率的差。因此,VIMP越大就意味着此变量对于模型的准确度影响越大,此变量的重要性就越高。
根据VIMP的得分,本实施例选取了排名前20的代谢物并在属于同一类脂质的代谢物中选择了VIMP最高的一个代谢物最终选择出12个代谢物(二甲基甘氨酸、N-乙酰基-L-谷氨酰胺、一磷酸黄嘌呤核苷、一磷酸核苷、γ-氨基丁酸、18:0-肉碱、尿苷二磷酸半乳糖、磷脂酰胆碱38:6p(16:0/22:6),磷脂酰乙醇胺32:0(16:0/16:0),磷脂酰丝氨酸34:3(16:1/18:2),磷脂酰甘油38:6(18:2/20:4),甘油三酯52:2(C18:0)),这些代谢物的VIMP得分如表3所示:
特征名 | 特征权重 |
磷脂酰胆碱38:6p(16:0/22:6) | 0.0150±0.0188 |
尿苷二磷酸半乳糖 | 0.0147±0.0099 |
γ-氨基丁酸 | 0.0128±0.0205 |
磷脂酰甘油38:6(18:2/20:4) | 0.0084±0.0175 |
磷脂酰胆碱38:6p(18:2/20:4) | 0.0080±0.0117 |
一磷酸核苷 | 0.0077±0.0068 |
二甲基甘氨酸 | 0.0077±0.0070 |
磷脂酰乙醇胺32:0(16:0/16:0) | 0.0070±0.0082 |
18:0-肉碱 | 0.0052±0.0092 |
磷脂酰胆碱38:4e(18:0/20:4) | 0.0052±0.0158 |
磷脂酰甘油34:1(16:0/18:1) | 0.0049±0.0087 |
N-乙酰基-L-谷氨酰胺 | 0.0049±0.0036 |
磷脂酰乙醇胺36:4(16:0/20∶4) | 0.0045±0.0082 |
磷脂酰乙醇胺40:6(18:1/22:5) | 0.0040±0.0068 |
磷脂酰丝氨酸34:3(16:1/18:2) | 0.0039±0.0052 |
甘油三酯52:2(C18:0) | 0.0039±0.0023 |
一磷酸黄嘌呤核苷 | 0.0038±0.0119 |
甘油三酯52:4(C22:2) | 0.0034±0.0038 |
甘油三酯54:2(C18:2) | 0.0034±0.0033 |
甘油三酯50:2(C18:0) | 0.0031±0.0072 |
表3 VIMP得分排名前20代谢物
表3中的特征权重表示当该代谢物删除时会导致评估预测模型的指标(一致性指数)减少对应的数值。
随后,根据筛选出来的12个特征代谢物重新训练得到用于HCM患者预后预测的随机生存森林模型。随机生存森林原理与随机森林类似,但是与一般的随机森林不同是:随机生存森林的基本单元是二元生存树,其在节点分裂的标准上与传统决策树不同,节点会以最大化生存差异通常是log-rank分数分裂数据;其次,随机生存森林会利用Nelson-Aalen法估计总累积风险;最后,不同于传统采用AUC分数评判精确度,随机生存森林使用了Harrell一致性指数(C-index)来计算其准确度。一致性指数将生存时间的信息纳入到了模型优劣的评判中,使得在评估生存分析模型时更适用。
一致性指数(C-index)的具体计算步骤如下:
首先,把所研究的190例患者随机地两两组成对子,产生所有的病例配对。
随后,排除下面两种对子:对子中具有较短观察时间的个体没有发生死亡以及对子中两个个体都没发生死亡,剩余的为有用对子。
然后,计算有用对子中,预测结果和实际相一致的对子数。对于一对患者,如果生存时间较长的一位,其预测生存时间长于生存时间较短的一位,或预测的生存概率高的一位的生存时间长于生存概率低的另一位,则称之为预测结果与实际结果一致。最后C-index=一致对子数/有用对子数。
由上述计算方法可以看出,C-index数值应在0.5-1之间。0.5为完全随机,说明该模型没有预测作用。1为完全一致,说明该模型预测结果与实际完全一致。在实际应用中,很难找到完全一致的预测模型。既往研究认为:C-index在0.50-0.70为较低准确度;在0.71-0.90之间为中等准确度;而高于0.90则为高准确度。
最后,本实施例将筛选出来的12个重要代谢物结合训练得到的随机生存森林模型应用到测试集上,结果显示本实施例的模型能够十分精确的预测HCM患者的预后情况(C-index=0.916,95%置信区间=0.814-0.978)。
如图7右边所示,在临床应用上,首先将对手术后HCM患者心脏组织中以上12种代谢物的含量进行检测,并对这12种代谢物含量进行归一化处理。之后将代谢物含量数值导入本实施例中已经构建好的预测模型中,通过输入手术后HCM患者心脏组织12种代谢物含量,最后得到该患者术后死亡风险结果,告知患者是否需要提前做好预防及治疗措施。
实例二:
如表4所示,No.0-5为6个真实的手术后HCM患者心脏组织12种代谢物含量归一化后的丰度。其中No.0-2为最终观测状态为生存,No.3-5为最终观测状态为死亡。
使用建立好的随机生存森林模型中的“Predict_cumulative_hazard_function”参数对以上6个患者的术后死亡风险结果预测如图8所示,图中纵轴表示的累积风险(cumulative hazard),累积风险越大,说明在这个节点处死亡风险越大。横轴代表着术后经过的时间。可以看到最终观测状态为生存的3个患者相较于最终观测状态为死亡的3个患者整体具有更低的累积风险。并且这一差距随着时间的增加而进一步明显。
实例二:
表4随机生存森林模型应用实例患者代谢物丰度
下面,将参考图9描述根据本公开第二实施例的诊断HCM的装置900。诊断HCM的装置900包括:数据获取单元901、预测模型构造单元902以及诊断单元903。
数据获取单元901可以获取包括多个手术后存活的HCM患者的心脏组织样本的样本数据和多个手术后死亡的HCM患者的心脏组织样本的样本数据作为第一训练数据集,所述第一训练数据集包括第一数量个样本数据,并且所述样本数据的每个包括第二数量种类的代谢物的丰度数据。
在本实施例中,例如手术后存活的HCM患者是180例,手术后死亡的HCM患者是10例。因此,第一数量个样本数据例如是190个样本数据。此外,如上所述,测定的样本数据中包括922种代谢物,因此第二数量种类的代谢物例如是922种代谢物。
在一个实施例中,数据获取单元901例如可以通过网络与医院的检测设备通信,以采集用户的心脏组织样本的样本数据。数据获取单元901例如可以通过网络,获取通过检测设备检测出的HCM患者的心脏组织样本中的代谢物的丰度数据。
此外,数据获取单元901也可以从医院或医疗中心的数据库中获取用户的心脏组织样本的样本数据作为第一训练数据集。
此外,数据获取单元901也可以是试剂盒,所述试剂盒包含用于确定来自所述受试者的血液样品中代谢物的水平的试剂,所述代谢物选自二甲基甘氨酸、N-乙酰基-L-谷氨酰胺、一磷酸黄嘌呤核苷、一磷酸核苷、γ-氨基丁酸、18:0-肉碱、尿苷二磷酸半乳糖、磷脂酰胆碱38:6p(16:0/22:6),磷脂酰乙醇胺32:0(16:0/16:0),磷脂酰丝氨酸34:3(16:1/18:2),磷脂酰甘油38:6(18:2/20:4),甘油三酯52:2(C18:0)的一种或多种。通过试剂盒可以直接测得受试者的心脏组织样品中代谢物的水平作为第一训练数据集。
预测模型构造单元902包括第一模型构造单元9021、特征筛选单元9022和第二模型构造单元9023。
第一模型构造单元9021利用随机生存森林算法,使用所述第一训练数据集中第二数量种类的代谢物的丰度数据训练第一随机生存森林模型。
如参考图8描述的,第一模型构造单元9021使用922种代谢物的丰度数据训练第一随机生存森林模型。因此,第一训练数据集是190*922的矩阵。
特征筛选单元9022可以利用所述第一随机生存森林模型的变量重要性得分(VIMP),对所述第一训练数据集执行降维处理以获得第二训练数据集,所述第二训练数据包括第一数量个降维样本数据,并且所述降维样本数据的每个包括从所述第二数量种类的代谢物中筛选出的第三数量种类的一组特征代谢物的丰度数据。根据表4所示,在VIMP得分从高到低的20种代谢物中,在同一类别的脂质代谢物中只选择重要性得分最高的一个代谢物,从而选择12种特征代谢物,包括二甲基甘氨酸、N-乙酰基-L-谷氨酰胺、一磷酸黄嘌呤核苷、一磷酸核苷、γ-氨基丁酸、18:0-肉碱、尿苷二磷酸半乳糖、磷脂酰胆碱38:6p(16:0/22:6),磷脂酰乙醇胺32:0(16:0/16:0),磷脂酰丝氨酸34:3(16:1/18:2),磷脂酰甘油38:6(18:2/20:4),甘油三酯52:2(C18:0)。因此,第二训练数据集是190*12的矩阵。
第二模型构造单元9023可以利用随机生存森林算法,使用所述第二训练数据集训练多个生存树来构造随机生存森林模型作为HCM预后预测模型。如上所述,第二模型构造单元9023可以在所述第二训练数据集中,通过每次随机选择一个样本数据的方式抽取样本以构成样本子集,对每一个样本随机选择特征代谢物来训练一棵生存树。这样重复多次训练获得第四数量棵的生存树,以及利用所述第四数量棵的生存树形成随机生存森林模型作为HCM预后预测模型。所述HCM预后预测模型评估所有生存树的决策结果,并从各生存树之中加权选举出最终的预测结果。
所述诊断模型构造单元902进一步包括模型测试单元9024,其使用所述测试数据集测试构造的HCM预后预测模型,以评估所述HCM预后预测模型在独立数据集上的准确性。
例如,数据获取单元901可以获取多个HCM患者的心脏组织样本的样本数据作为测试数据集,然后模型测试单元9023使用所述测试数据集测试构造的HCM预后预测模型,以评估所述HCM预后预测模型在独立数据集上的准确性。
预测单元903可以使用构造的HCM预后预测模型获得指示HCM患者的预后预测的预测结果。例如,如表4所示,对于6个真实的手术后HCM患者,可以看到最终观测状态为生存的3个患者相较于最终观测状态为死亡的3个患者整体具有更低的累积风险。
例如,数据获取单元901可以包括试剂盒,配置为获取患者的心脏组织样本中的十二种特征代谢物的丰度数据。预测单元903可以为将患者的十二种特征代谢物的丰度数据输入所述HCM预后预测模型,并且输出指示患者术后随时间的死亡风险的预测结果。
本实施例中虽然描述了十二种特征代谢物的示例,在构建HCM患者预后预测的随机生存森林模型中,还尝试了使用不同代谢物组合结合随机生存森林模型对测试集上的患者进行预后预测。结果发现较少代谢物组合一定程度上也能够实现HCM患者预后的准确预测。
在一个实施例中,使用2个重要代谢物(磷脂酰胆碱38:6p(16:0/22:6)、尿苷二磷酸半乳糖)结合训练得到的随机生存森林模型应用到测试集上预测HCM患者的预后(C-index=0.816,95%置信区间=0.651-0.946)。
在另一个实施例中,使用5个重要代谢物(磷脂酰胆碱38:6p(16:0/22:6)、尿苷二磷酸半乳糖、γ-氨基丁酸、磷脂酰甘油38:6(18:2/20:4)、一磷酸核苷)结合训练得到的随机生存森林模型应用到测试集上预测HCM患者的预后(C-index=0.82,95%置信区间=0.626-0.962)。
在另一个实施例中,使用7个重要代谢物(磷脂酰胆碱38:6p(16:0/22:6)、尿苷二磷酸半乳糖、γ-氨基丁酸、磷脂酰甘油38:6(18:2/20:4)、一磷酸核苷、二甲基甘氨酸、磷脂酰乙醇胺32:0(16:0/16:0))结合训练得到的随机生存森林模型应用到测试集上预测HCM患者的预后(C-index=0.887,95%置信区间=0.759-0.967)。
综合来看,尽管较少的代谢物组合一定程度上也能实现HCM患者预后的准确预测,但是由于收集的数据量大小的限制以及随机生存森林模型本身训练的限制。较少的代谢物组合在实际临床应用中可能泛化能力不高,不具有鲁棒性。5-7个重要代谢物在测试集上的预测结果C-index虽然大于0.8,但是其95%置信区间仍在较大范围内波动。综合考虑模型预测效果以及实际成本,选取12个重要代谢物的代谢物组合较为合适。
因此,根据本公开第二实施例的HCM预后预测装置,能够从患者心脏组织的大量代谢物中筛选出十二种特征代谢物(即,二甲基甘氨酸、N-乙酰基-L-谷氨酰胺、一磷酸黄嘌呤核苷、一磷酸核苷、γ-氨基丁酸、18:0-肉碱、尿苷二磷酸半乳糖、磷脂酰胆碱38:6p(16:0/22:6),磷脂酰乙醇胺32:0(16:0/16:0),磷脂酰丝氨酸34:3(16:1/18:2),磷脂酰甘油38:6(18:2/20:4),甘油三酯52:2(C18:0)),此外,随着后续更多患者的入组以及随访时间的延长,还能不断优化HCM的诊断和预后预测模型,进一步提高HCM预后预测的精确度。
<第三实施例>
本发明提供了用于在受试者中诊断肥厚型心肌病(HCM)的试剂盒,所述试剂盒包含用于确定来自所述受试者的样品中代谢物的水平的试剂,所述代谢物选自8:0-肉碱、次黄嘌呤、肌酸、苯丙氨酸和色氨酸中的一种或多种。
在本发明的诊断试剂盒的实施方案中,所述代谢物包括8:0-肉碱、次黄嘌呤、肌酸、苯丙氨酸和色氨酸。在一些实施方案中,所述试剂用于在选自以下的方法中确定所述代谢物的水平:质谱方法、荧光检测方法、化学发光方法。在一些实施方案中,所述来自受试者的样品选自血液、血浆和血清。
本发明还提供了用于对经历手术治疗的肥厚型心肌病(HCM)患者的预后进行预测的试剂盒,所述试剂盒包含用于确定来自所述患者的样品中代谢物的水平的试剂,所述代谢物包括磷脂酰胆碱38:6p(16:0/22:6)和尿苷二磷酸半乳糖,以及任选的选自以下的一种或多种:
二甲基甘氨酸、N-乙酰基-L-谷氨酰胺、一磷酸黄嘌呤核苷、一磷酸核苷、γ-氨基丁酸、18:0-肉碱、磷脂酰乙醇胺32:0(16:0/16:0)、磷脂酰丝氨酸34:3(16:1/18:2)、磷脂酰甘油38:6(18:2/20:4)和甘油三酯52:2(C18:0)。
在本发明的预测试剂盒的实施方案中,所述代谢物包括磷脂酰胆碱38:6p(16:0/22:6)和尿苷二磷酸半乳糖。在一些实施方案中,所述代谢物包括磷脂酰胆碱38:6p(16:0/22:6)、尿苷二磷酸半乳糖、γ-氨基丁酸、磷脂酰甘油38:6(18:2/20:4)和一磷酸核苷。在一些实施方案中,所述代谢物包括磷脂酰胆碱38:6p(16:0/22:6)、尿苷二磷酸半乳糖、γ-氨基丁酸、磷脂酰甘油38:6(18:2/20:4)、一磷酸核苷、二甲基甘氨酸和磷脂酰乙醇胺32:0(16:0/16:0)。在优选的实施方案中,所述代谢物包括磷脂酰胆碱38:6p(16:0/22:6)、尿苷二磷酸半乳糖、二甲基甘氨酸、N-乙酰基-L-谷氨酰胺、一磷酸黄嘌呤核苷、一磷酸核苷、γ-氨基丁酸、18:0-肉碱、磷脂酰乙醇胺32:0(16:0/16:0)、磷脂酰丝氨酸34:3(16:1/18:2)、磷脂酰甘油38:6(18:2/20:4)和甘油三酯52:2(C18:0)。
在一些实施方案中,所述试剂用于在选自以下的方法中确定所述代谢物的水平:质谱方法、荧光检测方法、化学发光方法。在一些实施方案中,所述来自患者的样品为心脏组织。
本发明还提供了用于确定来自受试者的样品中代谢物的水平的试剂在制备用于在所述受试者中诊断肥厚型心肌病(HCM)的试剂盒中的用途,其中所述代谢物选自8:0-肉碱、次黄嘌呤、肌酸、苯丙氨酸和色氨酸中的一种或多种。
在本发明的诊断用途的实施方案中,所述代谢物包括8:0-肉碱、次黄嘌呤、肌酸、苯丙氨酸和色氨酸。在一些实施方案中,所述试剂用于在选自以下的方法中确定所述代谢物水平的:质谱方法、荧光检测方法、化学发光方法。在一些实施方案中,所述来自受试者的样品选自血液、血浆和血清。
本发明还提供了用于确定来自经历手术治疗的肥厚型心肌病(HCM)患者的样品中代谢物的水平的试剂在制备用于对所述患者的预后进行预测的试剂盒中的用途,其中所述代谢物包括磷脂酰胆碱38:6p(16:0/22:6)和尿苷二磷酸半乳糖,以及任选的选自以下的一种或多种:
二甲基甘氨酸、N-乙酰基-L-谷氨酰胺、一磷酸黄嘌呤核苷、一磷酸核苷、γ-氨基丁酸、18:0-肉碱、磷脂酰乙醇胺32:0(16:0/16:0)、磷脂酰丝氨酸34:3(16:1/18:2)、磷脂酰甘油38:6(18:2/20:4)和甘油三酯52:2(C18:0)。
在本发明的预测用途的实施方案中,所述代谢物包括磷脂酰胆碱38:6p(16:0/22:6)和尿苷二磷酸半乳糖。在一些实施方案中,所述代谢物包括磷脂酰胆碱38:6p(16:0/22:6)、尿苷二磷酸半乳糖、γ-氨基丁酸、磷脂酰甘油38:6(18:2/20:4)和一磷酸核苷。在一些实施方案中,所述代谢物包括磷脂酰胆碱38:6p(16:0/22:6)、尿苷二磷酸半乳糖、γ-氨基丁酸、磷脂酰甘油38:6(18:2/20:4)、一磷酸核苷、二甲基甘氨酸和磷脂酰乙醇胺32:0(16:0/16:0)。在优选的实施方案中,所述代谢物包括磷脂酰胆碱38:6p(16:0/22:6)、尿苷二磷酸半乳糖、二甲基甘氨酸、N-乙酰基-L-谷氨酰胺、一磷酸黄嘌呤核苷、一磷酸核苷、γ-氨基丁酸、18:0-肉碱、磷脂酰乙醇胺32:0(16:0/16:0)、磷脂酰丝氨酸34:3(16:1/18:2)、磷脂酰甘油38:6(18:2/20:4)和甘油三酯52:2(C18:0)。
在一些实施方案中,所述试剂用于在选自以下的方法中确定所述代谢物的水平:质谱方法、荧光检测方法、化学发光方法。在一些实施方案中,所述来自患者的样品为心脏组织。
本发明提供了用于在受试者中诊断肥厚型心肌病(HCM)的方法,所述方法包括以下步骤:
a.从所述受试者获得样品,
b.使用用于确定来自所述受试者的样品中代谢物的水平的试剂来确定所述样品中代谢物的水平,所述代谢物选自8:0-肉碱、次黄嘌呤、肌酸、苯丙氨酸和色氨酸中的一种或多种,
c.将所确定的代谢物水平导入本发明的诊断模型中
d.输出诊断结果。
在本发明诊断方法的一些实施方案中,所述代谢物包括8:0-肉碱、次黄嘌呤、肌酸、苯丙氨酸和色氨酸。在一些实施方案中,所述试剂用于在选自以下的方法中确定所述代谢物的水平:质谱方法、荧光检测方法、化学发光方法。在一些实施方案中,所述样品选自血液、血浆和血清。
本发明还提供了用于对经历手术治疗的肥厚型心肌病(HCM)患者的预后进行预测的方法,所述方法包括以下步骤:
a.从所述患者获得样品,
b.使用用于确定来自所述患者的样品中代谢物的水平的试剂来确定来自所述样品中代谢物的水平,所述代谢物包括磷脂酰胆碱38:6p(16:0/22:6)和尿苷二磷酸半乳糖,以及任选的选自以下的一种或多种:二甲基甘氨酸、N-乙酰基-L-谷氨酰胺、一磷酸黄嘌呤核苷、一磷酸核苷、γ-氨基丁酸、18:0-肉碱、磷脂酰乙醇胺32:0(16:0/16:0)、磷脂酰丝氨酸34:3(16:1/18:2)、磷脂酰甘油38:6(18:2/20:4)和甘油三酯52:2(C18:0),
c.将所确定的代谢物水平导入本发明的预测模型中
d.输出预测结果。
在本发明预测方法的一些实施方案中,所述代谢物包括磷脂酰胆碱38:6p(16:0/22:6)和尿苷二磷酸半乳糖。在一些实施方案中,所述代谢物包括磷脂酰胆碱38:6p(16:0/22:6)、尿苷二磷酸半乳糖、γ-氨基丁酸、磷脂酰甘油38:6(18:2/20:4)和一磷酸核苷。在一些实施方案中,所述代谢物包括磷脂酰胆碱38:6p(16:0/22:6)、尿苷二磷酸半乳糖、γ-氨基丁酸、磷脂酰甘油38:6(18:2/20:4)、一磷酸核苷、二甲基甘氨酸和磷脂酰乙醇胺32:0(16:0/16:0)。在优选的实施方案中,所述代谢物包括磷脂酰胆碱38:6p(16:0/22:6)、尿苷二磷酸半乳糖、二甲基甘氨酸、N-乙酰基-L-谷氨酰胺、一磷酸黄嘌呤核苷、一磷酸核苷、γ-氨基丁酸、18:0-肉碱、磷脂酰乙醇胺32:0(16:0/16:0)、磷脂酰丝氨酸34:3(16:1/18:2)、磷脂酰甘油38:6(18:2/20:4)和甘油三酯52:2(C18:0)。
在一些实施方案中,所述试剂用于在选自以下的方法中确定所述代谢物的水平:质谱方法、荧光检测方法、化学发光方法。在一些实施方案中,所述样品为心脏组织。
硬件环境
本技术方案中的极性代谢物水平使用LC-MS技术检测,其中液相色谱例如使用超高效液相色谱系统(Nexera X2(LC-30A)UHPLC,Shimadzu),质谱检测使用三重四级杆质谱(QTRAP 6500+,SCIEX)。脂质代谢物水平例如使用包含Xevo TQ-XS质谱仪(Waters)和ACQUITY UPLC I-Class系统(Waters)的LipidQuan平台(Waters)进行检测。Lasso和诊断模型例如利用Python软件中的scikit-learn包建立,预测模型利用Python软件中的scikit-survival包建立。
基于上述实施例,本公开实施例中还提供了另一示例性实施方式的电子设备。在一些可能的实施方式中,本公开实施例中电子设备可以包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,处理器执行程序时可以实现上述实施例中的HCM诊断装置和HCM预后预测装置。这样的电子设备例如是台式计算机、笔记本计算机、服务器、便携式计算设备等具有计算能力的电子设备。
本公开的实施例还提供了一种计算机可读存储介质。图10示出了根据本公开的实施例的存储介质的示意图1000。如图10所示,所述计算机可读存储介质1000上存储有计算机可执行指令1001。当所述计算机可执行指令1001由处理器运行时,可以实现上述实施例中的HCM诊断装置和HCM预后预测装置。所述计算机可读存储介质包括但不限于例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。
本公开的实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备实现上述实施例中的HCM诊断装置和HCM预后预测装置。
本领域技术人员能够理解,本公开所披露的内容可以出现多种变型和改进。例如,以上所描述的各种设备或组件可以通过硬件实现,也可以通过软件、固件、或者三者中的一些或全部的组合实现。
此外,虽然本公开对根据本公开的实施例的系统中的某些单元做出了各种引用,然而,任何数量的不同单元可以被使用并运行在客户端和/或服务器上。所述单元仅是说明性的,并且所述系统和方法的不同方面可以使用不同单元。
本领域普通技术人员可以理解上述方法中的全部或部分的步骤可通过程序来指令相关硬件完成,所述程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地,上述实施例中的各模块/单元可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。本公开并不限制于任何特定形式的硬件和软件的结合。
综上所述,应当理解,尽管出于解释的目的,本文已经描述了本公开的技术的特定实施例,但是在不偏离本范明范围的情况下可以做出各种修改。因此,除了所附权利要求书之外,本公开的技术不受限制。
本专利文件描述的主题和功能操作的实施可以在各种系统、数字电子电路中,或者在计算机软件、固件或硬件中(包括说明书中公开的结构及其结构等价物),或者在它们的一个或多个的组合中实施。本说明书中描述的主题的实施可以实施为一个或多个计算机程序产品,即,编码在有形和非暂时性计算机可读介质上的计算机程序指令的一个或多个模块,用于由数据处理设备执行或控制数据处理设备的操作。计算机可读介质可以是机器可读存储设备、机器可读存储基板、存储器设备、影响机器可读传播信号的物质的构成或者它们的一个或多个的组合。术语“数据处理单元”或“数据处理装置”涵盖用于处理数据的所有装置、设备和机器,例如包括可编程处理器、计算器、或者多个处理器或计算机。除硬件之外,装置还可以包括为提及的计算机程序创建执行环境的代码,例如,构成处理器固件、协议栈、数据库管理系统、操作系统或者它们的一个或多个的组合的代码。
计算机程序(也称为程序、软件、软件公开、脚本或代码)可以以任何形式的编程语言书写,包括汇编或解释语言,并且其可以以任何形式部署,包括作为独立程序或模块、组件、子例程或适合在计算环境中使用的其它单元。计算机程序不必与文件系统中的文件相对应。程序可以存储在具有其它程序或数据的文件的一部分(例如,存储在以标记语言文件中的一个或多个脚本)中、在专用于提及的程序的单个文件中、或者在多个协调的文件(例如存储一个或多个模块、子程序或部分代码的文件)中。计算机程序可以部署为在一个计算机或多个计算机上执行,所述多个计算机位于一个站点或者跨多个站点分布并且由通信网络互联。
本说明书中描述的处理器和逻辑流可以由执行一个或多个计算机程序的一个或多个可编程处理器执行,通过操作输入数据和生成输出来执行功能。处理器和逻辑流也可以由专用逻辑电路执行,并且装置也可以实施为专用逻辑电路,例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。
适用于执行计算机程序的处理器包括,例如,通用和专用微处理器,以及任何种类的数字计算机的任何一个或多个处理器。通常,处理器将从只读存储器或随机存储器或二者接收指令或数据。计算机的必要元件是用于执行指令的处理器以及用于存储指令和数据的一个或多个存储器设备。通常,计算机将还包括一个或多个用于存储数据的大容量存储设备,例如,磁盘、磁光盘或光盘,或被操作性地耦接为从一个或多个用于存储数据的大容量存储设备接收数据或对其传输数据。然而,计算机不一定具有这些设备。适合存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备,包括例如半导体存储器件(例如,EPROM、EEPROM和闪存设备)。处理器和存储器可以由专用逻辑电路补充,或者并入专用逻辑电路中。
说明书和附图仅被视为示例性,其中示例性是指一个示例。如本文所使用的,除非上下文中另有明确地指示,单数形式“一”、“一个”和“该”也意在包括复数形式。此外,除非上下文中另有明确地指示,“或”的使用也意在包括“和/或”。
尽管本发明文件包含许多细节,但是这些不应被解释为对任何发明或权利要求的范围的限制,而应该作为特定于特定发明的特定实施例的特征的描述。本专利文件在单独实施例的上下文中描述的某些特征可以在单个的实施例中以组合的方式实施。相反地,在单个实施例的上下文中描述的各种特征也可以单独或以任何合适的子组合的方式在多个实施例中实施。此外,虽然某些特征可能在上面被描述为以某些组合来起作用并且甚至最初也这样地来要求对其的权利保护,但是来自要求权利保护的组合的一个或多个特征在某些情况下可从该组合中去除,并且要求权利保护的组合可涉及子组合或子组合的变型。
类似地,尽管在附图中以特定顺序描述操作,但是这不应当被理解为需要以所示特定顺序或顺序的序列执行此类操作,或者需要执行全部所示的操作来达到期望的结果。此外,本专利文件中描述的实施例中的各种系统组件的划分不应当被理解为在所有实施例中需要这种划分。
仅描述了一些实施和示例,并且基于本专利文件中所描述和所图示的,可以做出其它实施、增强和变化。
Claims (14)
1.一种诊断肥厚型心肌病(HCM)的装置,包括:
数据获取单元,配置为获取包括多个正常人的血液样本的样本数据和多个HCM患者的血液样本的样本数据作为第一训练数据集,所述第一训练数据集包括第一数量个样本数据,并且所述样本数据的每个包括第二数量种类的代谢物的丰度数据;
诊断模型构造单元,包括:
特征筛选单元,配置为利用套索回归算法对所述第一训练数据集执行降维处理以获得第二训练数据集,所述第二训练数据包括第一数量个降维样本数据,并且所述降维样本数据的每个包括从所述第二数量种类的代谢物中筛选出的第三数量种类的一组特征代谢物的丰度数据;
模型构造单元,配置为利用随机森林算法,使用所述第二训练数据集训练多个决策树来构造随机森林模型作为HCM诊断模型;以及
诊断单元,配置为使用构造的HCM诊断模型获得指示用户是否患有HCM的诊断结果。
2.如权利要求1所述的装置,其中所述特征筛选单元进一步配置为通过设置套索回归算法中的正则化系数,确定样本数据中的第二数量种类的代谢物各自对应的特征系数,以及
确定特征系数不为零的代谢物作为所述第三数量种类的一组特征代谢物,以获得包括第三数量种类的一组特征代谢物的丰度数据的降维样本数据作为第二训练数据集。
3.如权利要求2所述的装置,其中所述正则化系数设置为0.001,并且所述第三数量种类的一组特征代谢物为五种特征代谢物,包括次黄嘌呤、色氨酸、8:0-肉碱、苯丙氨酸以及肌酸。
4.如权利要求3所述的装置,其中所述模型构造单元进一步配置为在所述第二训练数据集中,通过每次随机选择一个样本数据的方式,有放回地选择第一数量个样本数据用于训练一棵决策树,
通过自助法重采样方式重复多次训练获得第四数量棵的决策树,以及利用所述第四数量棵的决策树形成随机森林模型作为HCM诊断模型,其中所述HCM诊断模型评估所有决策树的决策结果,并基于多数原则输出最终的诊断结果。
5.如权利要求4所述的装置,其中所述模型构造单元进一步配置为针对每一棵决策树,有放回地选择第一数量个样本数据作为决策树的根节点处的样本,
在决策树的每个节点需要分裂时,随机从所述五种代谢物中选取出m个代谢物,m是小于等于5的整数,并且选择使得节点基尼系数最小的代谢物作为决策树的节点的分裂条件,
根据选择的一组特征代谢物对每一个节点执行分裂操作,使得每个子节点包括样本数据的一部分,重复执行分裂操作直到决策树的每个子节点只存在一种类别。
6.如权利要求1-5的任一所述的装置,其中,所述数据获取单元进一步配置为获取多个用户的血液样本的样本数据作为测试数据集,以及
所述诊断模型构造单元进一步包括模型测试单元,配置为使用所述测试数据集测试构造的HCM诊断模型,以评估所述HCM诊断模型在独立数据集上的准确性。
7.如权利要求3-5的任一所述的装置,其中所述数据获取单元包括试剂盒,配置为获取一个或多个诊断用户的血液样本中的五种特征代谢物的丰度数据,
所述诊断单元进一步配置为将用户的五种特征代谢物的丰度数据输入所述HCM诊断模型,并且输出指示用户是否患有HCM的诊断结果。
8.一种预测肥厚型心肌病(HCM)患者预后的装置,包括:
数据获取单元,配置为获取包括多个手术后存活的HCM患者的心脏组织样本的样本数据和多个手术后死亡的HCM患者的心脏组织样本的样本数据作为第一训练数据集,所述第一训练数据集包括第一数量个样本数据,并且所述样本数据的每个包括第二数量种类的代谢物的丰度数据;
预测模型构造单元,包括:
第一模型构造单元,配置为利用随机生存森林算法,使用所述第一训练数据集中第二数量种类的代谢物的丰度数据训练第一随机生存森林模型;
特征筛选单元,配置为利用所述第一随机生存森林模型的变量重要性得分,对所述第一训练数据集执行降维处理以获得第二训练数据集,所述第二训练数据包括第一数量个降维样本数据,并且所述降维样本数据的每个包括从所述第二数量种类的代谢物中筛选出的第三数量种类的一组特征代谢物的丰度数据;
第二模型构造单元,配置为利用随机生存森林算法,使用所述第二训练数据集训练多个生存树来构造随机生存森林模型作为HCM预后预测模型;以及
预测单元,配置为使用构造的HCM预后预测模型获得指示HCM患者的预后预测的预测结果。
9.如权利要求8所述的装置,其中所述特征筛选单元进一步配置为确定所述第一训练数据集中所有第二数量种类的代谢物的重要性得分,根据重要性得分从高到低顺序选择预定数量个重要代谢物,并且在同一类别的脂质代谢物中只选择重要性得分最高的一个代谢物,从而从所述第二数量种类的代谢物中筛选出第三数量种类的一组特征代谢物。
10.如权利要求9所述的装置,其中所述第三数量种类的特征代谢物为十二种特征代谢物,包括二甲基甘氨酸、N-乙酰基-L-谷氨酰胺、一磷酸黄嘌呤核苷、一磷酸核苷、γ-氨基丁酸、18:0-肉碱、尿苷二磷酸半乳糖、磷脂酰胆碱38:6p(16:0/22:6),磷脂酰乙醇胺32:0(16:0/16:0),磷脂酰丝氨酸34:3(16:1/18:2),磷脂酰甘油38:6(18:2/20:4),甘油三酯52:2(C18:0)。
11.如权利要求10所述的装置,其中第二模型构造单元进一步配置为在所述第二训练数据集中,通过每次随机选择一个样本数据的方式抽取样本以构成样本子集,对每一个样本随机选择特征代谢物来训练一棵生存树,
重复多次训练获得第四数量棵的生存树,以及利用所述第四数量棵的生存树形成随机生存森林模型作为HCM预后预测模型,其中所述HCM预后预测模型评估所有生存树的决策结果,并从各生存树之中加权选举出最终的预测结果。
12.如权利要求8-11的任一所述的装置,其中,所述数据获取单元进一步配置为获取多个HCM患者的心脏组织样本的样本数据作为测试数据集,以及
所述诊断模型构造单元进一步包括模型测试单元,配置为使用所述测试数据集测试构造的HCM预后预测模型,以评估所述HCM预后预测模型在独立数据集上的准确性。
13.如权利要求10-11的任一所述的装置,其中所述数据获取单元包括试剂盒,配置为获取一个或多个患者的心脏组织样本中的十二种特征代谢物的丰度数据,
所述预测单元进一步配置为将患者的十二种特征代谢物的丰度数据输入所述HCM预后预测模型,并且输出指示患者术后随时间的死亡风险的预测结果。
14.一种存储指令的计算机存储介质,当所述指令由一个或多个计算机执行时,使得所述一个或多个计算机实现权利要求1-13的任一所述的装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210226696.4A CN114628026A (zh) | 2022-03-09 | 2022-03-09 | 诊断hcm的装置、预测hcm患者预后的装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210226696.4A CN114628026A (zh) | 2022-03-09 | 2022-03-09 | 诊断hcm的装置、预测hcm患者预后的装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114628026A true CN114628026A (zh) | 2022-06-14 |
Family
ID=81901030
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210226696.4A Pending CN114628026A (zh) | 2022-03-09 | 2022-03-09 | 诊断hcm的装置、预测hcm患者预后的装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114628026A (zh) |
-
2022
- 2022-03-09 CN CN202210226696.4A patent/CN114628026A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chetty et al. | Role of attributes selection in classification of Chronic Kidney Disease patients | |
CN111095232B (zh) | 发掘用于机器学习技术中的基因组 | |
CN101478912A (zh) | 评估痴呆与痴呆型紊乱 | |
CN109953755A (zh) | 一种心电向量数据特征的提取方法及装置 | |
JP6864947B2 (ja) | 健康度ポジショニングマップおよび健康関数を作成する方法、システム、およびプログラム、ならびにそれらの使用方法 | |
CN110289092A (zh) | 使用所测分析物改进疾病诊断的方法 | |
CN109585011A (zh) | 胸痛患者的病症诊断方法及机器可读存储介质 | |
CN112669960A (zh) | 一种基于机器学习方法的肝脏纤维化预测模型的构建方法、预测系统、设备和存储介质 | |
CN115602325A (zh) | 一种基于多模型算法的慢性病风险评估方法及其系统 | |
RU2632509C1 (ru) | Способ диагностики неинфекционных заболеваний на основе статистических методов обработки данных | |
CN115099331A (zh) | 基于可解释性机器学习算法的恶性胸腔积液辅助诊断系统 | |
CN116030972A (zh) | 一种基于多层感知器神经网络模型的健康评估系统和方法 | |
CN117116475A (zh) | 缺血性脑卒中的风险预测方法、系统、终端及存储介质 | |
CN111341452A (zh) | 多系统萎缩失能预测方法、模型建立方法、装置及设备 | |
CN109087712B (zh) | 一种基于随机子空间集成学习的主动脉夹层筛查系统 | |
CN114628026A (zh) | 诊断hcm的装置、预测hcm患者预后的装置 | |
CN106570346B (zh) | 生理状况评估因子确定方法、生理状况评估因子确定系统 | |
WO2020203878A1 (ja) | アミロイドベータの脳内への蓄積の評価方法、算出方法、評価装置、算出装置、評価プログラム、算出プログラム、記録媒体、評価システムおよび端末装置 | |
Deepa et al. | Experimental evaluation of artificial intelligence assisted heart disease prediction using deep learning principle | |
CN108346471A (zh) | 一种病理数据的分析方法及装置 | |
CN110070942A (zh) | 一种基于梯度提升树模型的慢性肝病风险评估系统 | |
CN115064267B (zh) | 一种胆道闭锁风险评估系统及其建立方法 | |
Yang et al. | Development and Validation of a Risk Factor-Based Nomogram to Early Predict in-Hospital Mortality in Adult Patients With Suspected Infection Admitted to the Intensive Care Unit: a Retrospective Cohort Study | |
Shehab et al. | Accurate Prediction of Pulmonary Fibrosis Progression Using EfficientNet and Quantile Regression: A High Performing Approach | |
VENUGOPAL et al. | Clinical Research Methods |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |