CN114724716A - 进展为2型糖尿病的风险预测的方法、模型训练及装置 - Google Patents

进展为2型糖尿病的风险预测的方法、模型训练及装置 Download PDF

Info

Publication number
CN114724716A
CN114724716A CN202210392415.2A CN202210392415A CN114724716A CN 114724716 A CN114724716 A CN 114724716A CN 202210392415 A CN202210392415 A CN 202210392415A CN 114724716 A CN114724716 A CN 114724716A
Authority
CN
China
Prior art keywords
factor
data
risk
diabetes
sample data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210392415.2A
Other languages
English (en)
Inventor
陈丽
侯新国
梁凯
刘金波
王川
闫飞
王令舒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qilu Hospital of Shandong University
Original Assignee
Qilu Hospital of Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qilu Hospital of Shandong University filed Critical Qilu Hospital of Shandong University
Publication of CN114724716A publication Critical patent/CN114724716A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本公开描述了一种进展为2型糖尿病的风险预测的方法、模型训练及装置,该模型训练包括选取多个受试者并在预设时间段内采集受试者的数据以获得初始样本数据;从初始样本数据中选取受试者在预设时间段的起始时间以前未确诊糖尿病且未存在除糖尿病以外的预设情况,以及受试者对应的因素数据的缺失程度符合预设要求的因素数据作为有效样本数据;获取有效样本数据对应的受试者的建模队列;基于单因素和多因素的回归分析对有效样本数据中与建模队列对应的数据进行分析以获取目标特征集;基于目标特征集确定自变量集并分别训练多个基于回归分析的模型以获取多个经训练模型以从中选择目标模型并生成列线图。由此,能够量化地预测未来进展为T2DM的风险。

Description

进展为2型糖尿病的风险预测的方法、模型训练及装置
技术领域
本公开大体涉及2型糖尿病风险预测领域,具体涉及一种进展为2型糖尿病的风险预测的方法、模型训练及装置。
背景技术
糖尿病的发展一般可以分为糖尿病前期和糖尿病,而血糖水平高于正常但还未达到糖尿病判断标准的状态可以称为糖尿病前期。在糖尿病前期一般没有明显的身体不适感,但随着病情的发展血糖会不断升高。若在糖尿病前期进行风险预测并积极控制还有机会逆转。因此,如何尽早识别糖尿病的风险显得至关重要。
目前,糖尿病前期的判断标准尚不统一,标准之间差异很大。一些专家开始研究糖尿病(例如2型糖尿病,T2DM)的风险预测的方法或工具。例如,Chung等在韩国人群中进行了一项横断面研究显示,其列线图模型可作为评估当前T2DM的风险的筛查工具。Wang等在我国华中地区人群中进行的一项随访研究显示,其列线图模型的风险因素没有纳入一些糖尿病判断指标(例如,糖负荷后两小时血糖和糖化血红蛋白)。Abbasi等综合评价了16项研究中的25个T2DM的风险待训练模型,其中包括12个仅包含无创指标的简易模型和13个包含血液学生化指标的复杂模型,大多数待训练模型可在5到10年内识别出罹患T2DM的高风险人群。
然而,Chung等的研究无法预测未来发生T2DM的风险。Wang等的研究无法评估研究人群的一些糖尿病判断指标的范围是否符合一般人群特征。Abbasi等的研究仅可以识别高风险人群,无法个体化定量评估未来发生T2DM的实际风险。因此,如何量化地预测未来进展为T2DM的风险,是亟待解决的问题。
发明内容
本公开是鉴于上述的状况而提出的,其目的在于提供一种能够纳入一些糖尿病判断指标进行风险预测且能够量化地预测未来进展为T2DM的风险的进展为2型糖尿病的风险预测的方法、模型训练及装置。
为此,本公开第一方面提供一种进展为2型糖尿病的风险预测的训练方法,包括在预设时间段的起始时间以前选取多个受试者,并在所述预设时间段内以预设频率采集各个受试者的数据以获得初始样本数据,其中,所述初始样本数据包括各个受试者的随时间变化的包括多个因素的因素数据;从所述初始样本数据中选取同时满足第一条件、第二条件和第三条件的因素数据作为有效样本数据,其中,所述第一条件为受试者在所述预设时间段的起始时间以前未确诊糖尿病,所述第二条件为受试者在所述预设时间段的起始时间以前未存在除糖尿病以外的预设情况,所述第三条件为受试者对应的因素数据的缺失程度符合预设要求;获取所述有效样本数据对应的受试者的建模队列;基于单因素的回归分析和多因素的回归分析对所述有效样本数据中与所述建模队列对应的建模数据集进行分析以获取目标特征集,其中,所述目标特征集包括由所述单因素的回归分析获得的保护因素集和第一危险因素集、以及由所述多因素的回归分析获得的第二危险因素集;基于所述目标特征集确定不同的自变量集并分别训练多个待训练模型以获取多个经训练模型,其中,所述待训练模型是基于回归分析的模型;并且从所述多个经训练模型中选择目标模型,并基于所述目标模型生成列线图,其中,所述列线图用于获取进展为2型糖尿病的量化的风险预测结果。在这种情况下,能够基于列线图量化地预测未来进展为T2DM的风险,并且列线图纳入了一些糖尿病判断指标进行风险预测。
另外,在本公开的第一方面所涉及的训练方法中,可选地,由所述单因素的回归分析获得的保护因素集和第一危险因素集,包括:基于基线特征统计对所述有效样本数据的建模数据集进行分析以获取初始危险因素集和初始保护因素集;并且利用所述单因素的回归分析对所述有效样本数据的建模数据集进行分析以获取所述多个因素中的各个因素的第一关联性水平,若所述第一关联性水平小于预设水平,则将该因素加入单因素集,基于所述初始危险因素集、所述初始保护因素集和所述单因素集获取所述保护因素集和所述第一危险因素集。由此,能够结合基线特征统计和单因素的回归分析确定保护因素集和第一危险因素集。
另外,在本公开的第一方面所涉及的训练方法中,可选地,由所述多因素的回归分析获得的第二危险因素集,包括:利用所述多因素的回归分析对所述有效样本数据的建模数据集进行分析以获取所述多个因素中的各个因素的第二关联性水平,若所述第二关联性水平小于所述预设水平,则将该因素加入所述第二危险因素集。由此,能够基于多因素的回归分析确定第二危险因素集。
另外,在本公开的第一方面所涉及的训练方法中,可选地,所述第一危险因素集包括年龄、体质指数、收缩压、空腹血糖、糖负荷后两小时血糖、糖化血红蛋白、血肌酐、低密度脂蛋白胆固醇、甘油三酯、丙氨酸氨基转移酶、天冬氨酸氨基转移酶和γ-谷氨酰转肽酶;所述保护因素集包括为女性的性别和高密度脂蛋白胆固醇;所述第二危险因素集包括年龄、空腹血糖、糖负荷后两小时血糖和糖化血红蛋白。由此,能够确定目标特征集。
另外,在本公开的第一方面所涉及的训练方法中,可选地,所述预设情况包括肝功能不全、终末期肾病、癌症、糖皮质激素治疗、和存在手术史中的至少一种情况。由此,能够排除对预测进展为T2DM的风险具有负面影响的数据。
另外,在本公开的第一方面所涉及的训练方法中,可选地,基于所述目标模型生成列线图,包括:确定所述目标模型的预测方程,其中,所述回归分析为逻辑回归分析,所述预测方程满足公式:Y=b0+b1×AGE+b2×FPG+b3×2hPG+b4×HbA1c,其中,Y表示进展为2型糖尿病的概率,AGE表示年龄,FPG表示空腹血糖,2hPG表示糖负荷后两小时血糖,HbA1c表示糖化血红蛋白,b0、b1、b2、b3、b4为所述目标模型的伪决定系数;基于所述预测方程生成所述列线图。由此,能够确定逻辑回归分析对应的预测方程。另外,列线图涉及的因素的值均为连续的实际测量值,相较于采用危险因素的临界点或分段值来赋分的方案,能够提供更准确、更个体化的风险预测。
另外,在本公开的第一方面所涉及的训练方法中,可选地,基于所述目标特征集确定不同的自变量集并分别训练多个待训练模型以获取多个经训练模型,包括:从所述有效样本数据获取各个自变量集对应的子数据集;获取所述子数据集中与所述建模队列对应的建模数据集和与验证队列对应的验证数据集,其中,所述验证队列来源于所述初始样本数据对应的受试者;利用该建模数据集对与所述子数据集对应的待训练模型进行训练;并且利用该验证数据集验证该待训练模型,进而最终获得对应的经训练模型。由此,能够基于自变量集对待训练模型进行训练以获取经训练模型。
本公开第二方面提供了一种进展为2型糖尿病的风险预测的训练装置,该训练装置包括:至少一个处理电路,所述至少一个处理电路被配置为执行本公开第一方面所述的训练方法。
本公开第三方面提供了一种进展为2型糖尿病的风险预测的方法,该方法包括获取待测者的待预测数据;并且利用根据本公开第一方面所述的训练方法获得的列线图,确定针对所述待预测数据的进展为2型糖尿病的量化的风险预测结果。
本公开第四方面提供了一种进展为2型糖尿病的风险预测的装置,该装置包括:至少一个处理电路,所述至少一个处理电路被配置:获取待测者的待预测数据;并且利用根据本公开第一方面所述的训练方法获得的列线图,确定针对所述待预测数据的进展为2型糖尿病的量化的风险预测结果。
根据本公开,能够提供一种能够纳入一些糖尿病判断指标进行风险预测且能够量化地预测未来进展为T2DM的风险的进展为2型糖尿病的风险预测的方法、模型训练及装置。
附图说明
现在将仅通过参考附图的例子进一步详细地解释本公开,其中:
图1是示出了本公开示例所涉及的风险预测环境的示例的示意图。
图2是示出了本公开示例所涉及的模型训练方法的示例的流程图。
图3是示出了本公开示例所涉及的训练待训练模型的示例的流程图。
图4是示出了本公开示例所涉及的一些示例的列线图的示意图。
图5是示出了本公开示例所涉及的进展为T2DM的风险预测的方法的示例的流程图。
图6是示出了本公开示例所涉及的一些示例的基于列线图的风险预测的示意图。
图7A是示出了本公开示例所涉及的建模队列对应的临床决策曲线分析。
图7B是示出了本公开示例所涉及的验证队列对应的临床决策曲线分析。
具体实施方式
以下,参考附图,详细地说明本公开的优选实施方式。在下面的说明中,对于相同的部件赋予相同的符号,省略重复的说明。另外,附图只是示意性的图,部件相互之间的尺寸的比例或者部件的形状等可以与实际的不同。需要说明的是,本公开中的术语“包括”和“具有”以及它们的任何变形,例如所包括或所具有的一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可以包括或具有没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。本公开所描述的所有方法可以以任何合适的顺序执行,除非在此另有指示或者与上下文明显矛盾。
本文中的术语“电路”可以指硬件电路和/或硬件电路和软件的组合。在本公开中术语“模型”能够处理输入并且提供相应输出。本文中的术语“基线”可以指临床研究中,已确定受试者但还未开始干预(例如随访)的时间点。本文中的术语“基线特征(也可以称为基线因素)”可以指在基线初步确定的与未来进展为2型糖尿病的风险相关的因素。本文中的术语“基线数据”可以指在基线初步确定的与未来进展为2型糖尿病的风险相关的因素的数据。
如上文所提及的,现有的预测进展为2型糖尿病(以下可以简称为T2DM)的方案,存在无法预测未来发生T2DM的风险、无法评估研究人群的一些糖尿病判断指标的范围是否符合一般人群特征、或无法个体化定量评估未来发生T2DM的实际风险等问题。
因此,本公开的示例提出了一种训练模型和预测进展为T2DM的量化风险的方案,以解决上述问题和/或其他潜在问题中的一个或多个。该方案能够验证基线特征对未来进展为T2DM的风险的影响。具体地,可以采集受试者的随时间变化的基线特征的数据(也即,可以采用纵向队列研究获取基线特征的数据),对该数据进行筛选,基于筛选后的数据并利用回归分析确定自变量,基于自变量和筛选后的数据训练多个基于回归分析的模型,进而确定目标模型并基于目标模型生成列线图,最终能够基于列线图量化地预测未来进展为T2DM的风险,并且列线图纳入了一些糖尿病判断指标进行风险预测。
本公开的示例涉及的训练模型和预测进展为T2DM的量化风险的方案,其能够基于列线图量化地预测未来进展为T2DM的风险,并且列线图纳入了一些糖尿病判断指标进行风险预测。本公开的示例涉及的进展为2型糖尿病的风险预测的训练方法可以简称为训练方法或模型训练方法。
以下将结合附图来详细描述本公开的示例。图1是示出了本公开示例所涉及的风险预测环境100的示例的示意图。如图1所示,风险预测环境100可以包括计算设备110。计算设备110可以是具有计算能力的任何设备。例如,计算设备110可以为云服务器、个人计算机、大型机和分布式计算系统等。
计算设备110可以获取输入120并利用机器学习模型130(有时也可以被简称为待训练模型130)生成与输入120对应的输出140。在一些示例中,输入120可以为受试者的样本数据,输出140可以为预测结果、训练参数(例如,权重)、或性能指标(例如,准确率、错误率、敏感性和特异性)等。在一些示例中,机器学习模型130可以包括但不限于传统的机器学习模型、或者神经网络模型。在一些示例中,机器学习模型130可以为基于回归分析的模型。优选地,机器学习模型130可以为基于逻辑回归分析(也可以称为logistic回归分析)的模型。
在一些示例中,风险预测环境100还可以包括模型训练装置和模型应用装置(未图示)。模型训练装置可以用于实施训练机器学习模型130的训练方法以获取经训练模型。在一些示例中,模型训练装置还可以用于从经训练模型中选择目标模型并基于该目标模型生成列线图。优选地,目标模型可以为多个经训练模型中的最优模型。模型应用装置可以用于实施利用经训练模型或利用上述的列线图获取预测结果的相关方法,以对相应的数据进行预测以获取预测结果。
另外,对于经训练模型,预测结果可以表示是否进展为T2DM。例如,预测结果可以包括进展为T2DM和未进展为T2DM。在一些示例中,对于经训练模型,预测结果还可以表示进展为T2DM的概率。另外,对于列线图,预测结果可以是量化的风险预测结果。
另外,在模型训练阶段,机器学习模型130可以是待训练模型130。在模型应用阶段,机器学习模型130可以是经训练模型。也即,经训练模型可以是对待训练模型130进行训练后获得的模型。
图2是示出了本公开示例所涉及的模型训练方法的示例的流程图。例如,模型训练方法可以由图1所示的计算设备110来执行。
如图2所示,本实施方式中,模型训练方法可以包括步骤S102。在步骤S102中,可以获取多个受试者的初始样本数据。
本实施方式中,初始样本数据可以为多个受试者在预设时间段内的数据。具体地,初始样本数据(也可以称为基线特征的数据)可以通过在预设时间段的起始时间以前选取多个受试者,并在预设时间段内采集各个受试者的数据而获得(例如,可以对各个受试者进行随访并记录随访数据以获得初始样本数据)。由此,后续生成的列线图能够预测预设时间段后进展为T2DM的风险。在一些示例中,初始样本数据可以是经由脱敏的数据。
在一些示例中,受试者的年龄需大于预设年龄。在一些示例中,预设年龄可以不小于30岁。例如,预设年龄可以为30岁、40岁或50岁。优选地,预设年龄可以为40岁。在这种情况下,能够使受试者的数据更贴合未来存在进展为T2DM可能的人群数据,并且也能够提高后续待训练模型130的训练效率。
另外,初始样本数据可以包括多个因素数据。在一些示例中,可以以预设频率采集各个受试者的数据。在这种情况下,能够获得各个受试者随时间变化且持续的因素数据。也即,初始样本数据可以包括各个受试者的随时间变化的因素数据。
另外,各个因素数据可以包括多个因素。具体地,各个因素数据可以包括多个因素、以及各个因素对应的值。在一些示例中,因素对应的值可以是平均值。例如,以收缩压和舒张压这两个因素为例,可以以预设间隔(例如1分钟的间隔)采集预设次数的收缩压和舒张压(例如3次),取该预设次数测量的平均值作为收缩压和舒张压的值。
在一些示例中,上述的多个因素可以包括连续变量。连续变量可以为在一定区间内可以任意取值的变量,其数值可以是连续不断的,相邻两个数值可作无限分割,即可取无限个数值。在这种情况下,后续获得的列线图能够使用连续值。由此,能够获得更准确且更个体化的风险预测。
在一些示例中,上述的多个因素可以包括人口统计学特征和生活方式特征等两类因素。在一些示例中,上述的多个因素(也即基线特征)可以包括年龄、性别、体质指数(BMI)、收缩压(SBP)、舒张压(DBP)、空腹血糖(FPG)、糖负荷后两小时血糖(2hPG,也可以称为糖负荷后2h血糖)、糖化血红蛋白(HbA1c)、血肌酐(Cr)、高密度脂蛋白胆固醇(HDL-C)、低密度脂蛋白胆固醇(LDL-C)、总胆固醇(TC)、甘油三酯(TG)、丙氨酸氨基转移酶(ALT)、天冬氨酸氨基转移酶(AST)、γ-谷氨酰转肽酶(GGT)中的至少一个。
在一些示例中,预设时间段可以不小于1年。例如,预设时间段可以为1年、1.5年、2年、2.5年、3年、4年、5年、6年、7年、或10年等。优选地,预设时间段可以为3年。由此,后续生成的列线图能够预测3年后进展为T2DM的风险。
在一些示例中,可以通过问卷调查、智能设备自动采集、面对面访谈和手动采集等至少一种方式获取初始样本数据。例如,对于智能设备自动采集,可以通过受试者使用或佩戴的智能设备定时采集相应的数据并提交至服务器。另外,智能设备例如可以为具有物联网功能的血压设备、连续血糖监测设备、体重设备或体脂设备等。
继续参考图2,本实施方式中,模型训练方法还可以包括步骤S104。在步骤S104中,可以从初始样本数据中选取满足预设条件的因素数据作为有效样本数据。
在一些示例中,预设条件可以为受试者在基线前未确诊糖尿病、受试者在基线前未患有重大疾病和未有手术史、并且受试者的主要调查数据完整。具体地,预设条件可以为因素数据同时满足第一条件、第二条件和第三条件。也即,可以从初始样本数据中选取同时满足第一条件、第二条件和第三条件的因素数据作为有效样本数据。在一些示例中,预设条件还可以包括受试者需具有知情同意书。
在一些示例中,第一条件可以为受试者在预设时间段的起始时间以前未确诊糖尿病。也即,受试者既往未确诊糖尿病且基线调查未确诊糖尿病。换言之,需要排除在预设时间段的起始时间以前已确诊糖尿病的受试者的数据。由此,能够使有效样本数据更适用于预测未来进展为T2DM的风险。
在一些示例中,第二条件可以为受试者未存在除糖尿病以外的预设情况。具体地,第二条件可以为受试者在预设时间段的起始时间以前未存在除糖尿病以外的预设情况。另外,预设情况可以为受试者未患有重大疾病和未有手术史。在一些示例中,预设情况可以包括肝功能不全、终末期肾病、癌症、糖皮质激素治疗、和存在手术史中的至少一种情况。由此,能够排除对预测进展为T2DM的风险具有负面影响的数据。
一般而言,由于随访过程中,可能无法获取受试者的一些数据,进而导致部分受试者的因素数据不完整。因此,因素数据中因素对应的值可能存在缺失的情况。在一些示例中,第三条件可以为受试者对应的因素数据的缺失程度符合预设要求。也即,受试者对应的因素数据中的主要调查数据需完整。
在一些示例中,缺失程度可以包括横向缺失程度和纵向缺失程度。其中,横向缺失程度可以针对单个因素数据,纵向缺失程度可以针对多个因素数据。在一些示例中,可以对受试者对应的因素数据的横向和纵向分别进行判断以获取横向缺失程度和纵向缺失程度,然后分别判断横向缺失程度和纵向缺失程度是否符合预设要求。例如,对于各个受试者的因素数据,可以先基于横向缺失程度选取相应的因素数据,再基于纵向缺失程度对该相应的因素数据进行判断以确认是否受试者在相应比例(例如,70%)的时间节点都具有因素数据。
另外,预设要求可以为缺失程度小于预设缺失率。在一些示例中,预设缺失率可以不大于30%。例如,预设缺失率可以为1%、3%、5%、7%、10%、20%或30%等。另外,横向缺失程度和纵向缺失程度对应的预设缺失率可以相同,也可以不同。
现在结合具体的数据,对预设条件为因素数据满足第一条件、第二条件和第三条件进行描述。例如,可以选取来自多个城市社区的40岁以上的4788名常驻居民为研究对象(也即受试者),在相应的时间(例如,2012年2月至2015年8月)完成基线调查以确定基线数据和基线特征,并在该相应的时间后的3年内对这些研究对象进行随访并记录随访数据,进而基于随访数据获取初始样本数据。
在获取初始样本数据后,根据上述的预设条件获取有效样本数据。具体地,对于上述的4788名研究对象,可以排除既往已诊断糖尿病患者1073例、基线调查新诊断糖尿病患者462例。另外,继续排除肝功能不全患者94例、终末期肾病患者68例、癌症患者27例、糖皮质激素治疗患者7例、有手术史患者3例及主要调查数据不全者266例,最终2788名的研究对象纳入分析(也即,2788名研究对象的数据可以作为有效样本数据)。另外,2788名研究对象中,女性1901例,男性887例。
在一些示例中,在步骤S104,还可以对初始样本数据进行大数据处理。由此,能够提高后续待训练模型130的训练效率。具体地,可以将初始样本数据存储至数据仓库并针对一致性和通用性进行处理,对数据仓库中的初始样本数据进行建模以确定初始样本数据涉及的各个库表之间的关系,将多份数据从数据仓库的库表中查出来,并互相关联合并以生成一张新的库表,然后可以在新的库表的基础上进行查询或者再跟其他数据关联合并以生成新的初始样本数据并用于后续的训练。
继续参考图2,本实施方式中,模型训练方法还可以包括步骤S106。在步骤S106中,可以获取有效样本数据对应的受试者(例如上述的2788名研究对象)的建模队列。
在一些示例中,在步骤S106中,还可以获取有效样本数据对应的受试者的验证队列(也即,验证队列可以来源于初始样本数据对应的受试者)。在这种情况下,预先确定建模队列和/或验证队列,后续均基于建模队列和/或验证队列确定相应的数据,能够更好地对照针对该建模队列和/或该验证队列的结果,并且能够使各个过程间的连接更紧密,进而提高后续经训练模型的准确率。
在一些示例中,可以将有效样本数据对应的受试者进行随机划分以获取建模队列和/或验证队列。在一些示例中,可以采用简单随机化方法将受试者随机划分以获取建模队列和/或验证队列。在一些示例中,建模队列和验证队列中受试者的比例可以为3:1。例如,可以利用简单随机化方法随机地将上述的2788名研究对象中的2094例分到建模队列,另外694例分到验证队列。
在一些示例中,可以将建模队列中的受试者对应的数据作为建模数据集。在一些示例中,可以将验证队列中的受试者对应的数据作为验证数据集。另外,建模数据集可以用于训练模型(例如,本公开涉及的单因素的回归分析和多因素的回归分析对应的模型,或待训练模型130)。也即,建模数据集(即建模队列对应的数据)可以作为评估模型的数据来源。例如,建模数据集可以作为评估T2DM的风险的预测模型(也即待训练模型130)的数据来源。另外,验证数据集可以用于验证模型的性能。也即,可以使用验证数据集(即验证队列对应的数据)验证模型的预测效能。
但本公开的示例不限于此,在另一些示例中,步骤S106也可以不是必须的,后续步骤可以根据需要确定用于训练模型的数据集。例如,可以使用任意方式将相应的数据分成建模数据集和/或验证数据集,也可以不对相应的数据进行划分。
继续参考图2,本实施方式中,模型训练方法还可以包括步骤S108。在步骤S108中,可以对有效样本数据进行分析以获取目标特征集。也即,目标特征集中的因素可以来源于有效样本数据对应的因素(也即,上述的多个因素)。由此,能够获取用于待训练模型130训练的因素。
在一些示例中,可以基于单因素的回归分析和多因素的回归分析对有效样本数据进行分析以获取目标特征集。在一些示例中,可以利用单因素的回归分析和多因素的回归分析分别对有效样本数据进行分析以获取目标特征集。但本公开的示例不限于此,在另一些示例中,也可以先基于单因素的回归分析获取相应的因素,再将该相应的因素纳入多因素的回归分析进行进一步分析。
在一些示例中,可以基于单因素的回归分析和多因素的回归分析对有效样本数据中与上述的建模队列对应的建模数据集(以下简称为有效样本数据的建模数据集)进行分析以获取目标特征集。在这种情况下,基于建模队列确定有效样本数据的建模数据集能够更好地对照针对该建模队列的结果,并且能够使各个过程间的连接更紧密,进而提高后续经训练模型的准确率。在一些示例中,还可以获取有效样本数据中与上述的验证队列对应的验证数据集(以下简称为有效样本数据的验证数据集)。
在一些示例中,目标特征集可以包括由单因素的回归分析获得的保护因素集和第一危险因素集、以及由多因素的回归分析获得的第二危险因素集。在这种情况下,后续能够利用多种方式获取的因素对待训练模型130进行训练。由此,能够提高经训练模型的泛化能力。
在一些示例中,可以基于基线特征统计对有效样本数据的建模数据集进行分析以获取初始危险因素集和初始保护因素集,并基于初始危险因素集和初始保护因素集利用单因素的回归分析获取保护因素集和第一危险因素集。具体地,可以基于基线特征统计对有效样本数据的建模数据集进行分析以获取初始危险因素集和初始保护因素集,利用单因素的回归分析对有效样本数据的建模数据集进行分析以获取上述多个因素中的各个因素的第一关联性水平,若第一关联性水平小于预设水平(也即,可以表示该因素与进展为T2DM显著相关),则可以将该因素加入单因素集,基于初始危险因素集、初始保护因素集和单因素集获取保护因素集和第一危险因素集。由此,能够结合基线特征统计和单因素的回归分析确定保护因素集和第一危险因素集。
在一些示例中,保护因素集中的因素可以为单因素集中属于初始保护因素集的因素,第一危险因素中的因素可以为单因素集中属于初始危险因素集的因素。在一些示例中,第一危险因素中的因素还可以包括仅存在于单因素集中的因素。
另外,预设水平可以是固定值(例如经验值)。优选地,预设水平可以为0.05。
另外,基线特征统计可以是数据描述性分析结果,可以实现连续变量和分类变量的统计。在一些示例中,可以采用R语言统计软件包和易侕软件(Empower Stats)进行基线特征统计(也即,统计学处理)。
在一些示例中,可以利用多因素的回归分析对有效样本数据的建模数据集进行分析以获取上述多个因素的各个因素的第二关联性水平,若第二关联性水平小于上述的预设水平(也即,可以表示该因素与进展为T2DM显著相关),则可以将该因素加入第二危险因素集。由此,能够基于多因素的回归分析确定第二危险因素集。
在一些示例中,第一危险因素集可以包括年龄、体质指数、收缩压、空腹血糖、糖负荷后两小时血糖、糖化血红蛋白、血肌酐、低密度脂蛋白胆固醇、甘油三酯、丙氨酸氨基转移酶、天冬氨酸氨基转移酶和γ-谷氨酰转肽酶。在一些示例中,保护因素集可以包括为女性的性别和高密度脂蛋白胆固醇。在一些示例中,第二危险因素集可以包括年龄、空腹血糖、糖负荷后两小时血糖和糖化血红蛋白。由此,能够确定目标特征集。
以下结合具体数据描述目标特征集的获取过程,其中,回归分析为逻辑回归分析。表1示出了上述的2788名研究对象的有效样本数据的建模数据集对应的基线特征统计。其中,因素的英文缩写对应的中文可以参照上述多个因素中的相关内容。另外,正态分布的因素(也可以称为计量资料)以x±s表示。非正态分布的因素用M(Q1,Q3)表示。分类因素(也可以称为分类变量)以频率(百分比)表示。
Figure BDA0003597471490000131
Figure BDA0003597471490000141
表1有效样本数据的建模数据集的基线特征统计
从表1可以看出,在建模队列(也即,有效样本数据的建模数据集)中,与未进展为T2DM的受试者相比,进展为T2DM的受试者平均年龄、BMI、SBP、FPG、2hPG、HbA1c、Cr、LDL-C、TG、ALT、GGT(也即,初始危险因素集)的水平(也可以称为关联性水平、显著性水平、P值)较高,而女性比例、HDL-C较低(也即,初始保护因素集),两组间的DBP、心率、TC、AST差异无统计学意义(均P>0.05)。
以下表2示出了上述的2788名研究对象的有效样本数据的建模数据集对应的单因素的回归分析结果和多因素的回归分析结果。其中,OR为比值比,CI为可信区间,P为关联性水平,因素的英文缩写对应的中文可以参照上述的多个因素中的相关内容。
Figure BDA0003597471490000142
Figure BDA0003597471490000151
表2单因素的回归分析结果和多因素的回归分析结果
从表2中,可以看出单因素的回归分析显示年龄、BMI、SBP、FPG、2hPG、HbA1c、Cr、LDL-C、TG、ALT、AST、GGT是T2DM的危险因素(也即,第一危险因素集),性别为女性、HDL-C是T2DM的保护因素(也即,保护因素集)。多因素的回归分析显示年龄、FPG、2hPG、HbA1c是T2DM的独立危险因素(也即,第二危险因素集),比值比分别为1.03、1.13、1.01、1.17,均P<0.05。另外,经由本公开的方案的验证,最终年龄、FPG、2hPG、HbA1c被纳入目标模型(也即,最终的T2DM预测模型,稍后描述)。
继续参考图2,本实施方式中,模型训练方法还可以包括步骤S110。在步骤S110中,可以基于目标特征集确定不同的自变量集并分别训练多个待训练模型130以获取多个经训练模型。
在一些示例中,步骤S110中,可以从目标特征集选择一个或多个因素作为不同的自变量集(也即,各个自变量集可以包括目标特征集中的至少一个因素),并基于有效样本数据和不同的自变量集分别训练多个待训练模型130以获取多个经训练模型。具体地,可以基于不同的自变量集和有效样本数据构建多个子数据集,并利用多个子数据集分别训练多个待训练模型130以获取多个经训练模型(也即,子数据集可以与待训练模型130一一对应)。
在一些示例中,在各个待训练模型130的训练中,可以基于上述建模队列和验证队列确定子数据集的建模数据集和验证数据集。在一些示例中,建模数据集可以为子数据集中与上述的建模队列对应的数据,验证数据集可以为子数据集中与上述的验证队列对应的数据。在这种情况下,能够更好地对照针对建模队列和验证队列对应的数据的结果,并且能够使各个过程间的连接更紧密,进而提高后续经训练模型的准确率。
在一些示例中,待训练模型130可以包括但不限于是基于回归分析的模型。在这种情况下,获取目标特征集与训练待训练模型130均基于回归分析,能够使目标特征集更匹配待训练模型130,能够进一步提高经训练模型的准确率。优选地,回归分析为逻辑回归分析。
图3是示出了本公开示例所涉及的训练待训练模型130的示例的流程图。
作为示例,图3示出了一种待训练模型130的训练的流程。由此,能够基于自变量集对待训练模型130进行训练以获取经训练模型。如图3所示,训练待训练模型130可以包括:
步骤S202,可以从有效样本数据获取各个自变量集对应的子数据集。在一些示例中,可以从有效样本数据获取各个自变量集中因素对应的值并基于各个自变量集和各个自变量集中因素对应的值生成对应的子数据集。
步骤S204,可以获取子数据集的建模数据集和验证数据集。如上所述,在一些示例中,建模数据集可以为子数据集中与上述的建模队列对应的数据,验证数据集可以为子数据集中与上述的验证队列对应的数据。
步骤S206,可以利用该建模数据集对与子数据集对应的待训练模型130进行训练。
步骤S208,可以利用该验证数据集验证该待训练模型130,进而最终获得对应的经训练模型。
返回参考图2,本实施方式中,模型训练方法还可以包括步骤S112。在步骤S112中,可以从多个经训练模型中选择目标模型,并基于目标模型生成列线图。
在一些示例中,可以基于赤池信息准则(Akaike information criterion,AIC)从多个经训练模型中选择目标模型。在一些示例中,可以选取AIC信息量最小的经训练模型作为目标模型(也即,最终预测模型)。在另一些示例中,也可以基于性能指标(例如,准确率,错误率、特异性或敏感性等)从多个经训练模型中选择目标模型。
在一些示例中,目标模型对应的因素可以包括年龄、空腹血糖、糖负荷后两小时血糖和糖化血红蛋白。在这种情况下,能够纳入一些糖尿病判断指标进行风险预测,进而能够评估研究人群的一些糖尿病判断指标的范围是否符合一般人群特征。
如上所述,可以基于目标模型生成列线图。在一些示例中,可以确定目标模型的预测方程,并基于预测方程生成列线图。其中,列线图可以用于获取进展为T2DM的量化的风险预测结果。由此,能够量化地预测未来进展为T2DM的风险。另外,列线图可以主要适用于已进行糖尿病筛查并且明确为糖尿病前期或糖代谢正常人群。
在一些示例中,预测方程的参数可以来源于目标模型。在一些示例中,若回归分析为逻辑回归分析,预测方程可以满足公式:
Y=b0+b1×AGE+b2×FPG+b3×2hPG+b4×HbA1c,
其中,Y可以表示进展为2型糖尿病的概率,AGE可以表示年龄,FPG表示可以空腹血糖,2hPG可以表示糖负荷后两小时血糖,HbA1c可以表示糖化血红蛋白,b0、b1、b2、b3、b4可以为目标模型的伪决定系数。由此,能够确定逻辑回归分析对应的预测方程。另外,列线图涉及的因素的值均为连续的实际测量值(也即,列线图涉及的因素均为连续变量),相较于采用危险因素的临界点或分段值来赋分的方案,能够提供更准确、更个体化的风险预测。
例如,对于基于上述的2788名研究对象的有效样本数据确定的预测方程可以为以下公式(1):
Y=-20.643+0.021×AGE+1.226×FPG+0.139×2hPG+1.501×HbA1c(1)。
在一些示例中,列线图可以是由包括风险因素(也即,目标模型对应的因素,也可以称为自变量)、单项评分、总评分和事件风险(也可以称为因变量)的图形线组成。另外,列线图中每个风险因素对应的线段上可以标注有刻度,代表该因素的可取值范围,而线段的长度可以反映该因素对结局事件的贡献大小。
图4是示出了本公开示例所涉及的一些示例的列线图的示意图。
作为示例,图4示出了列线图,该列线图可以用于预测3年后进展为T2DM的概率。如图4所示,列线图由包括风险因素(年龄、空腹血糖、糖负荷后两小时血糖、糖化血红蛋白)、单项评分、总评分、线性预测值和事件风险的图形线组成。图中最上方的单项评分表示风险因素在不同取值下所对应的得分,所有风险因素单项分数相加的总得分即总评分,总评分具有对应的线性预测值,最下方的3年后进展为糖尿病的概率(也即,事件风险)代表3年后进展为T2DM的风险的预测概率(也即,量化的风险预测结果)。
但本公开的示例不限于此,在另一些示例中,也可以直接基于目标模型获取进展为T2DM的概率。
以下结合图5描述进展为T2DM的风险预测的方法(以下简称风险预测方法)。图5是示出了本公开示例所涉及的进展为T2DM的风险预测的方法的示例的流程图。图6是示出了本公开示例所涉及的一些示例的基于列线图的风险预测的示意图。
如图5所示,风险预测方法可以包括步骤S302。在步骤S302中,可以获取待测者(也即,待预测进展为T2DM的风险的用户)的待预测数据。在一些示例中,待预测数据可以包括上述的列线图对应的因素(例如年龄、空腹血糖、糖负荷后两小时血糖和糖化血红蛋白)以及对应的值。
如图5所示,风险预测方法还可以包括步骤S304。在步骤S304中,可以利用列线图确定针对待预测数据的进展为T2DM的量化的风险预测结果,其中,列线图可以根据上述的模型训练方法训练获得。由此,能够量化地预测未来进展为T2DM的风险。
作为示例,图6示出了基于列线图的风险预测,该列线图可以用于预测3年后进展为T2DM的概率。如图6所示,用户输入个体化的年龄、空腹血糖、糖负荷后两小时血糖、糖化血红蛋白,基于列线图可以得出该用户进展为T2DM的量化的风险预测结果。另外,图6还示出了一个示例性的用户,该用户年龄为65,空腹血糖为6.5mmol/L(毫摩尔每升),糖负荷后2h血糖为11mmol/L,糖化血红蛋白为6.0%(参见图6中的竖直方向的虚线),点击风险预测后,得到3年后进展为T2DM的概率为32%(参见图6中的竖直方向的带箭头的实线)。
本公开还涉及一种进展为2型糖尿病的风险预测的训练装置,电子设备可以包括至少一个处理电路。至少一个处理电路被配置为执行上述的模型训练方法中的一个或多个步骤。
本公开还涉及一种进展为2型糖尿病的风险预测的装置,电子设备可以包括至少一个处理电路。至少一个处理电路被配置为执行上述的风险预测方法中的一个或多个步骤。
本公开还涉及一种终端,其可以包括:至少一个处理器、至少一个用户接口和存储器。在一些示例中,用户接口可以包括显示屏(Display)和输入输出设备,用于为用户提供输入的接口,获取用户输入的数据。在一些示例中,处理器可以包括一个或者多个处理核心。处理器通过运行或执行存储在存储器内的指令、程序、代码集或指令集,以及调用存储在存储器内的数据,执行终端的各种功能和处理数据。具体地,处理器可以用于调用存储器中存储的上述模型训练方法或风险预测方法的应用程序并执行。
本公开还涉及一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述的模型训练方法或风险预测方法中的一个或多个步骤。其中,计算机可读存储介质可以包括但不限于任何类型的盘,包括软盘、光盘、DVD、CD-ROM、微型驱动器以及磁光盘、ROM、RAM、EPROM、EEPROM、DRAM、VRAM、闪速存储器设备、磁卡或光卡、纳米系统(包括分子存储器IC),或适合于存储指令和/或数据的任何类型的媒介或设备。
本公开还涉及一种计算机程序产品,该计算机程序产品包括存储计算机程序的非瞬时性计算机可读存储介质,该计算机程序可操作来使计算机执行如上述模型训练方法或风险预测方法中的一个或多个步骤。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通进程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random AccessMemory,RAM)、磁盘或光盘等。
本公开还涉及一种电子设备,电子设备可以包括至少一个处理电路。至少一个处理电路被配置为执行上述的模型训练方法或风险预测方法中的一个或多个步骤。
为了验证本公开示例涉及的列线图预测进展为T2DM的风险(以下简称为本方案)的效果,与现有的糖尿病前期预测进展为T2DM的风险的方案(以下简称为现有方案)的预测效能进行比较。详细情况参见下表3。其中,AUC对应的95%的可信区间(confidenceinterval,CI)采用计算机模拟重采样方法,自助重取样次数(Bootstrap resamplingtimes)为500。本方案的最佳切点均为预测方程(也即,上述公式(1))的最佳切点。
从表3可以看出,建模队列中本方案和现有方案预测进展为T2DM的风险的AUC(Area Under Curve,ROC曲线(eceiver operating characteristic curve,受试者工作特征曲线)下与坐标轴围成的面积),在95%的可信区间下,分别为0.825(0.787~0.864)、0.693(0.652~0.734)。验证队列中本方案和现有方案预测进展为T2DM的风险的AUC,在95%的可信区间下,分别为0.781(0.716~0.846)、0.628(0.563~0.693)。在建模队列和验证队列中,本方案对进展为T2DM的风险的预测价值均优于现有方案,差异具有统计学意义(P<0.01)。
Figure BDA0003597471490000201
Figure BDA0003597471490000211
表3本方案与现有方案对进展为T2DM的风险的预测效能比较
另外,本公开还进一步验证本方案的临床应用价值。图7A是示出了本公开示例所涉及的建模队列对应的临床决策曲线分析(decision curve analysis,DCA)。图7B是示出了本公开示例所涉及的验证队列对应的临床决策曲线分析。其中,横坐标为高风险概率,表示在风险评价工具中,受试者进展为T2DM的概率,当概率达某个阈值,就可以界定为阳性,需采取措施。此时存在T2DM的受试者采取措施的获益(利),也会有非T2DM的受试者采取措施的伤害以及T2DM的受试者未采取措施的损失(弊)三种情况。纵坐标是利减去弊之后的净获益。线Q11(也即,All线)可以表示当所有受试者进展为T2DM时的净收益,线Q12(也即None线)可以表示当没有受试者进展为T2DM时的净收益。模型曲线(例如,建模队列对应的线Q10和验证队列对应的线Q20)与线Q11和线Q12之间的区域表示模型(也即本公开涉及的列线图)的临床实用性,模型曲线离“None线”和“All线”越远,说明列线图所具有的临床价值越好。
如图7A和图7B所示,建模队列对应的线Q10和验证队列对应的线Q20均离线Q11和线Q12较远,说明列线图具有较好的临床应用价值。如图7A所示,当选择预测概率为20%界定为T2DM发病高风险时,每100例中大约有25例从中获益而不损伤其他人的利益。
本公开示例的进展为2型糖尿病的风险预测的方法、模型训练及装置,通过采集多个受试者在预设时间段内随时间变化的初始样本数据,从初始样本数据中选取受试者在预设时间段的起始时间以前未确诊糖尿病、以及受试者在预设时间段的起始时间以前未患有重大疾病和未有手术史的数据作为有效样本数据,基于有效样本数据并利用单因素和多因素的回归分析确定目标特征集,基于目标特征集获取的不同的自变量集和有效样本数据训练多个基于回归分析的模型,进而确定目标模型并基于目标模型生成列线图。在这种情况下,能够基于列线图量化地预测未来进展为T2DM的风险,并且列线图纳入了一些糖尿病判断指标进行风险预测。
本公开示例的进展为2型糖尿病的风险预测的方法、模型训练及装置,能够针对个体进行定量评估,提高针对单独、特定的个体进行定量评估进展为T2DM的风险预测效果,进而能够使得每个单独的个体有针对性的获知自身的风险预测,并制定相应的预防或干预措施,风险预测更有针对性和实践意义。不同于现有技术中仅可以识别高风险人群而无法个体化定量评估未来发生T2DM的实际风险的方案。
虽然以上结合附图和示例对本公开进行了具体说明,但是可以理解,上述说明不以任何形式限制本公开。本领域技术人员在不偏离本公开的实质精神和范围的情况下可以根据需要对本公开进行变形和变化,这些变形和变化均落入本公开的范围内。

Claims (10)

1.一种进展为2型糖尿病的风险预测的训练方法,其特征在于,包括:
在预设时间段的起始时间以前选取多个受试者,并在所述预设时间段内以预设频率采集各个受试者的数据以获得初始样本数据,其中,所述初始样本数据包括各个受试者的随时间变化的包括多个因素的因素数据;
从所述初始样本数据中选取同时满足第一条件、第二条件和第三条件的因素数据作为有效样本数据,其中,所述第一条件为受试者在所述预设时间段的起始时间以前未确诊糖尿病,所述第二条件为受试者在所述预设时间段的起始时间以前未存在除糖尿病以外的预设情况,所述第三条件为受试者对应的因素数据的缺失程度符合预设要求;
获取所述有效样本数据对应的受试者的建模队列;
基于单因素的回归分析和多因素的回归分析对所述有效样本数据中与所述建模队列对应的建模数据集进行分析以获取目标特征集,其中,所述目标特征集包括由所述单因素的回归分析获得的保护因素集和第一危险因素集、以及由所述多因素的回归分析获得的第二危险因素集;
基于所述目标特征集确定不同的自变量集并分别训练多个待训练模型以获取多个经训练模型,其中,所述待训练模型是基于回归分析的模型;并且
从所述多个经训练模型中选择目标模型,并基于所述目标模型生成列线图,其中,所述列线图用于获取进展为2型糖尿病的量化的风险预测结果。
2.根据权利要求1所述的训练方法,其特征在于,由所述单因素的回归分析获得的保护因素集和第一危险因素集,包括:
基于基线特征统计对所述有效样本数据的建模数据集进行分析以获取初始危险因素集和初始保护因素集;并且
利用所述单因素的回归分析对所述有效样本数据的建模数据集进行分析以获取所述多个因素中的各个因素的第一关联性水平,若所述第一关联性水平小于预设水平,则将该因素加入单因素集,基于所述初始危险因素集、所述初始保护因素集和所述单因素集获取所述保护因素集和所述第一危险因素集。
3.根据权利要求2所述的训练方法,其特征在于,由所述多因素的回归分析获得的第二危险因素集,包括:
利用所述多因素的回归分析对所述有效样本数据的建模数据集进行分析以获取所述多个因素中的各个因素的第二关联性水平,若所述第二关联性水平小于所述预设水平,则将该因素加入所述第二危险因素集。
4.根据权利要求3所述的训练方法,其特征在于:
所述第一危险因素集包括年龄、体质指数、收缩压、空腹血糖、糖负荷后两小时血糖、糖化血红蛋白、血肌酐、低密度脂蛋白胆固醇、甘油三酯、丙氨酸氨基转移酶、天冬氨酸氨基转移酶和γ-谷氨酰转肽酶;
所述保护因素集包括为女性的性别和高密度脂蛋白胆固醇;
所述第二危险因素集包括年龄、空腹血糖、糖负荷后两小时血糖和糖化血红蛋白。
5.根据权利要求1所述的训练方法,其特征在于:
所述预设情况包括肝功能不全、终末期肾病、癌症、糖皮质激素治疗、和存在手术史中的至少一种情况。
6.根据权利要求1所述的训练方法,其特征在于,基于所述目标模型生成列线图,包括:
确定所述目标模型的预测方程,其中,所述回归分析为逻辑回归分析,所述预测方程满足公式:
Y=b0+b1×AGE+b2×FPG+b3×2hPG+b4×HbA1c,
其中,Y表示进展为2型糖尿病的概率,AGE表示年龄,FPG表示空腹血糖,2hPG表示糖负荷后两小时血糖,HbA1c表示糖化血红蛋白,b0、b1、b2、b3、b4为所述目标模型的伪决定系数;
基于所述预测方程生成所述列线图。
7.根据权利要求1所述的训练方法,其特征在于,基于所述目标特征集确定不同的自变量集并分别训练多个待训练模型以获取多个经训练模型,包括:
从所述有效样本数据获取各个自变量集对应的子数据集;
获取所述子数据集中与所述建模队列对应的建模数据集和与验证队列对应的验证数据集,其中,所述验证队列来源于所述初始样本数据对应的受试者;
利用该建模数据集对与所述子数据集对应的待训练模型进行训练;并且
利用该验证数据集验证该待训练模型,进而最终获得对应的经训练模型。
8.一种进展为2型糖尿病的风险预测的训练装置,其特征在于,包括至少一个处理电路,所述至少一个处理电路被配置为:执行权利要求1至7中任一项所述的训练方法。
9.一种进展为2型糖尿病的风险预测的方法,其特征在于,包括:
获取待测者的待预测数据;并且
利用根据权利要求1至7中任一项所述的训练方法获得的列线图,确定针对所述待预测数据的进展为2型糖尿病的量化的风险预测结果。
10.一种进展为2型糖尿病的风险预测的装置,其特征在于,包括至少一个处理电路,所述至少一个处理电路被配置为:
获取待测者的待预测数据;并且
利用根据权利要求1至7中任一项所述的训练方法获得的列线图,确定针对所述待预测数据的进展为2型糖尿病的量化的风险预测结果。
CN202210392415.2A 2021-04-20 2022-04-15 进展为2型糖尿病的风险预测的方法、模型训练及装置 Pending CN114724716A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2021104246091 2021-04-20
CN202110424609.1A CN113192637A (zh) 2021-04-20 2021-04-20 个体化定量评估进展为2型糖尿病的风险预测方法及装置

Publications (1)

Publication Number Publication Date
CN114724716A true CN114724716A (zh) 2022-07-08

Family

ID=76977517

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202110424609.1A Pending CN113192637A (zh) 2021-04-20 2021-04-20 个体化定量评估进展为2型糖尿病的风险预测方法及装置
CN202210392415.2A Pending CN114724716A (zh) 2021-04-20 2022-04-15 进展为2型糖尿病的风险预测的方法、模型训练及装置

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202110424609.1A Pending CN113192637A (zh) 2021-04-20 2021-04-20 个体化定量评估进展为2型糖尿病的风险预测方法及装置

Country Status (1)

Country Link
CN (2) CN113192637A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113643809A (zh) * 2021-08-05 2021-11-12 上海市第六人民医院 基于人体成分的2型糖尿病预测方法及系统
CN115359916A (zh) * 2022-10-19 2022-11-18 四川大学华西医院 糖尿病风险评估方法及系统
CN115831364A (zh) * 2022-12-14 2023-03-21 东北林业大学 基于多模态特征融合的2型糖尿病风险分层预测方法
CN117727459A (zh) * 2024-02-18 2024-03-19 中国人民解放军总医院第一医学中心 慢性肾病5期合并2型糖尿病的透析时机预测方法及系统

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114999639A (zh) * 2022-04-27 2022-09-02 天津大学 一种糖尿病评分模型建立方法及糖尿病风险评分方法
CN116469554A (zh) * 2023-03-21 2023-07-21 天津医科大学 一种2型糖尿病发病综合风险预测模型的构建方法和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110232975A (zh) * 2019-05-20 2019-09-13 郑州大学第一附属医院 一种对糖尿病肾病患者3年内进入到肾脏替代治疗风险预测的方法
CN110491512A (zh) * 2019-08-08 2019-11-22 郑州大学第一附属医院 一种对肾活检确诊糖尿病肾病患者3年内进入到终末期肾脏病风险预测的方法
CN112120790A (zh) * 2020-09-23 2020-12-25 常州市第一人民医院 一种基于指标评分的轻度缺血性脑卒中患者的预测模型

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110232975A (zh) * 2019-05-20 2019-09-13 郑州大学第一附属医院 一种对糖尿病肾病患者3年内进入到肾脏替代治疗风险预测的方法
CN110491512A (zh) * 2019-08-08 2019-11-22 郑州大学第一附属医院 一种对肾活检确诊糖尿病肾病患者3年内进入到终末期肾脏病风险预测的方法
CN112120790A (zh) * 2020-09-23 2020-12-25 常州市第一人民医院 一种基于指标评分的轻度缺血性脑卒中患者的预测模型

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
梁凯: "基于队列的糖代谢指标在2型糖尿病诊断和风险评估中的作用研究", 《中国博士学位论文全文数据库》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113643809A (zh) * 2021-08-05 2021-11-12 上海市第六人民医院 基于人体成分的2型糖尿病预测方法及系统
CN115359916A (zh) * 2022-10-19 2022-11-18 四川大学华西医院 糖尿病风险评估方法及系统
CN115831364A (zh) * 2022-12-14 2023-03-21 东北林业大学 基于多模态特征融合的2型糖尿病风险分层预测方法
CN115831364B (zh) * 2022-12-14 2023-09-08 东北林业大学 基于多模态特征融合的2型糖尿病风险分层预测方法
CN117727459A (zh) * 2024-02-18 2024-03-19 中国人民解放军总医院第一医学中心 慢性肾病5期合并2型糖尿病的透析时机预测方法及系统

Also Published As

Publication number Publication date
CN113192637A (zh) 2021-07-30

Similar Documents

Publication Publication Date Title
CN114724716A (zh) 进展为2型糖尿病的风险预测的方法、模型训练及装置
Watkins et al. Acute respiratory distress syndrome after trauma: development and validation of a predictive model
Neuvirth et al. Toward personalized care management of patients at risk: the diabetes case study
Peng et al. Random forest can predict 30‐day mortality of spontaneous intracerebral hemorrhage with remarkable discrimination
CN112633601B (zh) 疾病事件发生概率的预测方法、装置、设备及计算机介质
JP2016517556A (ja) 健康学習システム及び方法
Srivastava et al. Medi-Assist: A Decision Tree based Chronic Diseases Detection Model
CN111164705A (zh) 预测从总群体中任意选择的亚群体中测试对象的不利健康状况的风险、发生或发展的医学设备和计算机实施的方法
Goldstein et al. Near-term prediction of sudden cardiac death in older hemodialysis patients using electronic health records
US10923234B2 (en) Analysis and verification of models derived from clinical trials data extracted from a database
Sayadi et al. Simple prediction of type 2 diabetes mellitus via decision tree modeling
CN112967803A (zh) 基于集成模型的急诊患者早期死亡率预测方法及系统
CN114613517A (zh) 一种预后预测方法及装置、电子设备、存储介质
Zigarelli et al. Machine-aided self-diagnostic prediction models for polycystic ovary syndrome: observational study
Hosseini Sarkhosh et al. Development and validation of a risk score for diabetic kidney disease prediction in type 2 diabetes patients: a machine learning approach
Garcia-Carretero et al. The use of machine learning techniques to determine the predictive value of inflammatory biomarkers in the development of type 2 diabetes mellitus
Hosseini Sarkhosh et al. Predicting diabetic nephropathy in type 2 diabetic patients using machine learning algorithms
KR102541510B1 (ko) 국가건강검진 자료를 이용한 자살 예측 모델 구축 방법
AU2021102593A4 (en) A Method for Detection of a Disease
US20230260659A1 (en) Method for a predictive prognosis of the onset of a cardiovascular disease
WO2023106960A1 (ru) Способ прогнозирования наступления медицинского события в здоровье человека
Suriya et al. Type 2 Diabetes Prediction using K-Nearest Neighbor Algorithm
Zhou et al. A novel laboratory-based model to predict the presence of obstructive coronary artery disease comparison to coronary artery disease consortium 1/2 score, duke clinical score and diamond-forrester score in china
Wu et al. Derivation and validation of a risk index to predict all-cause mortality in type 2 diabetes mellitus
Wu et al. Prediction differences and implications of acute kidney injury with and without urine output criteria in adult critically ill patients

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination