CN114913979A

CN114913979A - 一种疾病风险等级预测模型及其构建方法和应用

Info

Publication number: CN114913979A
Application number: CN202210567160.9A
Authority: CN
Inventors: 乔利娜; 张瑞楠; 林晓娴; 常灵逸; 李博; 阳煜东; 李培秀; 李继光
Original assignee: Gem Flower Medical Information Technology Chengdu Co Ltd
Current assignee: Gem Flower Medical Information Technology Chengdu Co Ltd
Priority date: 2022-05-23
Filing date: 2022-05-23
Publication date: 2022-08-16

Abstract

本发明提供了一种疾病风险等级预测模型及其构建方法和应用。所述预测模型通过如下方法构建：获取体检人员的体检报告数据作为数据集，划分患疾病的人群和未患疾病的人群，再将所述数据集中的多元数据转化为应用级结构化数据并填充，采用机器学习方法进行学习，而后，扩大正样本训练集，采用最优指标递减的方法进行建模，再进行模型融合，得到所述疾病风险等级预测模型。所得疾病风险等级预测模型可以高效、快速、准确地预测患者出现疾病的风险等级，对疾病的早防早治提供可能。

Description

一种疾病风险等级预测模型及其构建方法和应用

技术领域

本发明属于医疗数据处理技术领域，具体涉及一种疾病风险等级预测模型及其构建方法和应用。

背景技术

随着社会的不断进步和发展，人们的工作压力和生活压力在无形之中增加，外加饮食安全、辐射、环境污染等一系列外来因素急剧加速隐匿性重大疾病的发病率年轻化，这些重大疾病普遍具有隐匿性强，发病率高、危害性大等特点。由于疾病早期病状特征并不显著，一旦到后期阶段，危害性很大，对人的生活质量、工作、家庭甚至对人的生命都会产生重大影响。因此，对于重大疾病的早期发现和预防就显得尤为重要。

定期体检是一种方便有效的了解自身健康状况的途径。一般而言，体检项目包括：临床体检科室体检项目、仪器体检科室体检项目和实验室体检科室体检项目。结合医生丰富的临床经验、设备的辅助检测以及血尿便的实验室化学检测数据，能够全方位对个体的身体状况进行评估，起到重大疾病的早发现、早诊断、早治疗的原则。

CN112863659A公开了一种体检服务管理方法、装置、电子终端及存储介质，该方法包括：响应于用户端的预约请求，确定体检预约信息，其中体检预约信息包括体检项目；从预设数据库中获取与用户端对应的病史数据，根据病史数据以及体检项目，生成体检注意事项；将体检注意事项，发送至所述用户端。该发明中实现了智能化的体检服务管理，达到了节约资源消耗的技术效果，方便人们进行体检预约和检测。

CN112349415A公开了一种基于体检大数据的居民健康指数构建方法、装置及存储介质。该方法包括：获取居民体检数据，并构建包含居民各体检项目检查结果的第一体检数据集；对所述第一体检数据进行预处理，从而构建第二体检数据集；对所述第二体检数据集进行归一化处理从而得到第三体检数据集，并求取各体检项目的指标权重；对所述第二体检数据集进行同向化处理从而得到第四体检数据集，并构建最优健康人的体检数据和最差健康人的体检数据；获取第一健康距离和第二健康距离；基于所述第一健康距离和第二健康距离计算个体健康指数。该发明基于体检大数据，针对体检者的体检项和未体检项，综合评价体检者的健康指数，进而为综合评价居民的健康程度提供数据基础。

然而目前，本领域尚未提出一种根据个人的体检数据准确预测和判断个体患有某一疾病的风险的方法或模型。

发明内容

针对现有技术存在的不足，本发明的目的在于提供一种疾病风险等级预测模型及其构建方法和应用。本发明结合体检报告数据和临床数据进行分析，开发了一种新型人工智能融合模型，用于准确预测和判断现患某一疾病的风险，可以更高效、快速地预测患者患疾病的风险等级，以确定他们是否存在无症状或暂时无症状的疾病，提高了预测效果的准确度和精确性，对疾病的早期筛选、早防早治提供可能。

为达此目的，本发明采用以下技术方案：

第一方面，本发明提供一种疾病风险等级预测模型的构建方法，其特征在于，所述构建方法包括：

S1、获取有门诊记录或住院记录的体检人员的体检报告数据作为数据集，对所述数据集中患某一特定疾病的人群和未患所述特定疾病的人群进行划分；

S2、将所述数据集中的非结构化的多元数据转化为应用级结构化数据，并对所得应用级结构化数据进行填充；

S3、以填充后的数据为训练集，采用机器学习方法进行学习，筛选并获取所述特定疾病的重要特征指标；

S4、以所述有门诊记录或住院记录的体检人员的体检报告数据划分成的正负样本集训练模型，而后，筛选无门诊记录或住院记录的体检人员的体检报告数据中的正样本，扩大正样本训练集，再次将患所述特定疾病的人群和未患所述特定疾病的人群进行区分；

S5、对于扩大后且特征指标确定的训练集数据，采用最优指标递减的方法进行建模，再进行模型融合，得到所述疾病风险等级预测模型。

本发明中，对于确定指标的训练集数据，本发明中采用最优指标递减的方法进行建模。最优指标递减是指使用全量指标建模后，保存模型，删除重要性最强的指标，重新训练模型，以此类推，直至模型的效果降至设定阈值以下。其优势在于减弱强指标对模型的影响，增加模型的鲁棒性和泛化能力。

所述疾病风险等级预测模型可以用于预测多种疾病，例如冠心病、中风、脑出血、脑梗塞、脑卒中、胃癌等。

作为本发明优选的技术方案，所述数据集包括个人信息数据、检验类数据和检查类数据。

所述个人信息数据包括体征数据、既往史、家族史或手术史数据。

所述检验类数据包括化验数据，比如：血常规、尿常规、血脂等数据。

所述检查类数据为文本描述数据，包括：X光、CT、核磁、心电图、腹部彩超、病理等检验类的结论数据。

作为本发明优选的技术方案，步骤S2所述填充的方法包括：

对于个人身形指标(如身高、体重等)使用本人近年的均值进行填充，或使用同年龄同性别的人的均值进行填充；

对于其他除缺失个人身形外的其他指标采用同年龄同性别的人的均值进行填充、采用差值法填充或采用机器学习方法学习进行填充。

作为本发明优选的技术方案，步骤S3中获取所述特定疾病的重要特征指标的方法包括：

采用xgboost机器学习方法进行学习，基于特征递归消除和/或遗传算法，筛选获得所述特征指标；

步骤S3获取所述特定疾病的重要特征指标后还包括获取衍生特征的步骤；

所述衍生特征包括对单一的所述特征指标进行平方、开方、取指数或指数幂运算，或者对至少两个所述特征指标进行加减乘除运算。

作为本发明优选的技术方案，步骤S3中获取所述特定疾病的重要特征指标后还包括发现异常样本和清除异常样本的步骤；

所述发现异常样本的方法包括：针对患所述特定疾病的人群和未患所述特定疾病的人群，对其结构化数据进行学习，采用至少两种机器学习方法进行建模，对至少两种模型进行融合，并使用融合后的模型预测对应体检人员的所述特定疾病风险等级，比较所述预测后的结果，筛选得到异常样本。

所述清除异常样本的方法包括：将所述异常样本中影响重要特征指标的数据进行标记或修改，或者，直接将所述异常样本删除。

本发明所述方法中会对异常样本中影响特征指标的数据进行标记或修改，或者直接将所述异常样本删除。清除异常样本会根据实际情况进行调整，使其不影响模型构建的准确度。

作为本发明优选的技术方案，步骤S5中所述模型融合的方法包括：

以全量指标建模的模型为model_0，去除最强重要性的指标后，建模的模型为model_1，以此类推，得到model_0，model_1，...，model_n共n+1个模型，使用线性机器学习模型对模型进行建模，学习出对应的系数；

model＝a₁*(model_0)+a₂*(model_1)+∧+a_n*(model_n)

本发明中，所述模型融合的方法还包括采用其他模型进行填充，包括：

以model_0为主要模型，对于model_0预测值小于M但model_i预测值大于N的样本进行召回，所述M和N为大小不同的阈值且M＜N；

所述预测值为：

y_pred＝max(model_i)，i∈(1≤i≤n)。

本发明中，所述模型融合的步骤还可以采用投票法进行替代，即多数表决，通过多个模型对一个样本进行打分，并依照打分结果进行分级，如：高风险、中高风险、低风险或中低风险等；通过投票法，确定风险等级。

或者，所述模型融合的步骤还可以采用均值法替代。

本发明中，所述疾病风险等级预测模型将预测结果划分成四种等级；

其中，真实患病人群为风险等级高，未患病人群为风险等级低，除真实患病人群和未患病人群之外的中间过渡人群的风险等级划分为风险等级中低和风险等级中高。

对于预测结果为中低风险和中高风险的人群，能够尽早提示人们早防早治，避免疾病的发生。

第二方面，本发明提供利用如第一方面所述的构建方法构建得到的疾病风险等级预测模型。

第三方面，本发明还提供一种疾病风险等级预测装置，所述装置包括：

数据收集模块，用于收集体检人员的体检报告数据、门诊数据和住院数据；

数据转化和填充模块，用于将所得数据转化为应用级结构化数据，并对所得应用级结构化数据进行填充；

预测模块，基于第二方面所述的疾病风险等级预测模型预测所述体检人员的疾病风险等级。

本发明中，所述装置还可以包括前端渲染展示模块，将所述疾病风险等级的预测数据在前端进行渲染和展示，方便使用人员进行查看和处理。

第四方面，本发明提供一种计算机设备，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面任一项所述疾病风险等级预测模型的构建方法。

此外，本发明中还提供一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面所述疾病风险等级预测模型的构建方法。

实现上述方法的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于计算机可读存储介质中。

该程序在执行时，执行包括上述各方法实施例的步骤；所述计算机存储介质可包括但不限于软盘、光盘、CD-ROM(只读光盘存储器)、磁光盘、ROM(只读存储器)、RAM(随机存取存储器)、EPROM(可擦除可编程只读存储器)、EEPROM(电可擦除可编程只读存储器)、磁卡或光卡、闪存、或适于存储机器可执行指令的其他类型的介质/机器可读介质。

所述计算机存储介质可以是未接入计算机设备的产品，也可以是已接入计算机设备使用的部件。

与现有技术相比，本发明的有益效果为：

本发明提供的疾病风险等级预测模型的构建方法，基于大量体检人员的体检数据及临床数据，经过收集、转化、学习和优化等步骤，其中，使用多元数据训练模型，结合最优指标递减方法，构建得到疾病风险等级预测模型；该模型将疾病风险分为低风险、中低风险、中高风险和高风险等多个等级，是一种有效的评估工具，能够提供可靠的循证医学风险等级建议，帮助患者掌握自己的健康状态，从而有效的早期预防和干预，减少疾病的发生率。

附图说明

图1为本发明中提供的疾病风险等级预测模型的构建方法流程示意图。

图2为本发明中提供的疾病风险等级预测系统的结构示意图。

具体实施方式

下面结合附图并通过具体实施方式来进一步说明本发明的技术方案，但下述的实例仅仅是本发明的简易例子，并不代表或限制本发明的权利保护范围，本发明的保护范围以权利要求书为准。

本发明提供的疾病风险等级预测模型通过图1所示的步骤获得，具体如下：

S1、准备数据集：获取体检人员多年的体检报告数据和多年门诊诊断数据；

此处需要说明的是，体检人员的体检报告数据和门诊诊断数据经由体检人员知晓并同意后获取，仅用于构建本发明所述疾病风险等级预测模型，且妥善管理，防止个人信息泄露。

而后，划分数据集：根据所述体检人员在医院的就诊时的诊断信息及体检报告中的既往史、手术史等信息，将所述体检人员划分为患特定的人群和未患疾病的人群。

S2、将非结构化的多元数据转化为应用级结构化数据：解析上一步骤中获取的体检报告数据，将所述体检报告数据解析为包括：体征数据、既往史、家族史、手术史等个人信息数据，化验数据，心电图、双侧颈动脉彩超结论等文本类检查数据在内的多项数据。

进一步地，进行数据完整性处理：对于应用级结构化数据，根据缺失率筛选特征；对于身高、体重、腰围变化不大的个人身形指标，可使用本人近年的均值进行填充，如果没有，则使用同年龄同性别的均值进行填充；

对于其他缺失指标，采用同年龄同性别的人的均值进行填充，或者采用差值法填充或机器学习方法学习进行填充。

S3、筛选具有代表性的特征指标：采用xgboost等机器学习方法进行学习，获得主要指标；基于随机排序的方法，选择主要指标；

在某些具体的实施例中，还可以通过遗传算法，选择主要指标；

所述特征指标获取之后，在某些具体的实施例中还可以包括获取衍生特征的步骤。

所述衍生特征包括：对单一的所述特征指标进行平方、开方、取指数或指数幂运算，或者对至少两个所述特征指标进行加减乘除运算。

此外，在某些具体的实施例中，所述特征指标获取之后，还包括发现异常样本和清除异常样本的步骤。

针对划分好的患特定疾病的人群和未患特定疾病的人群，对结构化数据进行学习，采用多种机器学习方法进行建模，对多个模型进行融合，对体检报告综合考虑并进行评估；统计每个人的所有体检报告的预测情况，将体检报告历年差异较大的人筛选出来，进行审核清洗。

在某些具体的实施例中，其筛选过程中发现的异常样本包括替检样本和失效样本；

替检样本包括：老年人替检(老替少)，青年人替检(少替老)，男替(男替女)，女替(女替男)；

失效样本包括：早期体检报告和潜在患病者的体检报告。

清洗替检样本：对于老替少、少替老、男替女、女替男这四种情况，需要考虑到替检报告影响分类或者标记的准确性。一般将替检报告影响分类或者标记的项目进行标记或修改，或者，对于出现替检的人的所有替检报告都进行删除。

S4、扩大正样本训练集：对于潜在患病的情况，一般表现为实际患病，但通过S1中记载的根据体检信息区分患病和未患病的步骤，并不能正确对其进行分类；通过训练模型，多次迭代，再次将患疾病的人群和未患疾病的人群进行区分。

S5、采用最优指标递减的方法建模：对于确定指标的训练集数据，本发明中采用最优指标递减的方法进行建模；

其中，最优指标递减是指使用全量指标建模后，保存模型，删除重要性最强的指标，重新训练模型，以此类推，直至模型的效果降至设定阈值以下。该方法能够减弱强指标对模型的影响，增加模型的鲁棒性和泛化能力。

进一步地，在某些具体的实施例中，本发明提供的方法还包括模型融合的步骤。对于采用最优指标递减的方法建立的模型，进行模型融合；

模型融合方法具体操作为：

假设全量指标建模的模型为model_0，去掉重要性最强的指标后，建模的模型为model_1，以此类推，得到model_0，model_1，...，model_n共n+1个模型，使用LR等线性机器学习模型对模型进行建模，学习出对应的系数；融合后的模型具体如下所示：

model＝a₁*(model_0)+a₂*(model_1)+∧+a_n*(model_n)

本发明中，还可以通过以准确率较高的模型为主要模型，其他模型对其进行补充；例如：

以model_0为主要模型，对于model_0预测较低，但是model_i(n＞＝i＞＝1)预测大于一定的阈值的样本进行召回，预测值为：

y_pred＝max(model_i)，i∈(1≤i≤n)

在某些具体的实施例中，所述模型融合的步骤还可以采用投票法进行替代，即多数表决，通过多个模型对一个样本进行打分，并依照打分结果进行分级，如：高风险、中高风险、低风险或中低风险等；通过投票法，确定风险等级。

在某些具体的实施例中，所述模型融合的步骤还可以通过均值法进行，即：将每个模型对模型的打分结果取平均后，再对平均打分结果进行分级。

本发明还提供一种疾病风险等级预测装置，所述装置如图2所示，包括：

(1)数据收集模块，数据收集模块与医院的体检系统、门诊系统以及住院系统对接，用于收集体检人员的体检报告数据、门诊数据和住院数据；

(2)数据转化和填充模块，用于将所得数据转化为应用级结构化数据，并对所得应用级结构化数据进行填充；

(3)预测模块，基于疾病风险等级预测模型预测所述体检人员的疾病风险等级。

在某些具体的实施例中，所述系统还包括前端渲染展示模块，将所述疾病风险等级的预测数据在前端进行渲染和展示。

在某些具体的实施例中，所述系统还包括用户管理模块，用于管理中低风险、中高风险、高风险用户的信息。比如：当新的用户数据没被医生审阅的时候，会在前端显示为未审阅的信息；当医生点击审阅该用户信息后，该用户会进入历史库和存档。

通过上述方法构建的疾病风险等级预测模型或预测方法，能够对体检人员的疾病风险进行分级。

目前，疾病等级单纯分为现患疾病风险等级为低风险或高风险两种过于片面。在分类过程中，真实患病人群和未患病人群相对集中，但是中间过渡部分的潜在患病人群或者已经得到控制的患病人群依然存在。

因此，本发明将风险等级定为四种等级：低风险、中低风险、中高风险、高风险。低风险和高风险处于较为客观的状态，对于中低风险和中高风险的体检人员进行合理提醒和控制，对于疾病的早防早治具有重要的意义。

申请人声明，以上所述仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，所属技术领域的技术人员应该明了，任何属于本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，均落在本发明的保护范围和公开范围之内。

Claims

1.一种疾病风险等级预测模型的构建方法，其特征在于，所述构建方法包括：

S5、对于扩大后且所述重要特征指标确定的训练集数据，采用最优指标递减的方法进行建模，再进行模型融合，得到所述疾病风险等级预测模型。

2.根据权利要求1所述的构建方法，其特征在于，步骤S1所述数据集包括个人信息数据、检验类数据和检查类数据；

所述个人信息数据包括体征数据、既往史、家族史或手术史数据；

所述检验类数据包括化验数据；

所述检查类数据为文本描述数据，包括心电图数据和/或双侧颈动脉彩超结论数据。

3.根据权利要求1所述的构建方法，其特征在于，步骤S2所述填充的方法包括：

对于个人身形指标使用本人近年的均值进行填充，或使用同年龄同性别的人的均值进行填充；

对于其他缺失的、除个人身形外的指标采用同年龄同性别的人的均值进行填充、采用差值法填充或采用机器学习方法学习进行填充。

4.根据权利要求3所述的构建方法，其特征在于，步骤S3中获取所述特定疾病的重要特征指标的方法包括：

5.根据权利要求1所述的构建方法，其特征在于，步骤S3中获取所述特定疾病的重要特征指标后还包括发现异常样本和清除异常样本的步骤；

所述发现异常样本的方法包括：针对患所述特定疾病的人群和未患所述特定疾病的人群，对其结构化数据进行学习，采用至少两种机器学习方法进行建模，对至少两种模型进行融合，并使用融合后的模型预测对应体检人员的所述特定疾病风险等级，比较所述预测后的结果，筛选得到异常样本；

6.根据权利要求1所述的构建方法，其特征在于，步骤S5中所述模型融合的方法包括：

以全量指标建模的模型为model_0，去除最强重要性的指标后，建模的模型为model_1，而后类推，得到包括model_0、model_1和model_n的n+1个模型，使用线性机器学习模型对模型进行建模，学习出对应的系数，具体为：

model＝a₁*(model_0)+a₂*(model_1)+∧+a_n*(model_n)；

所述模型融合的方法还包括采用其他模型进行填充，包括：

以model_0为主要模型，对于model_0预测值小于M但model_i预测值大于N的样本进行召回，所述M和N为大小不同的阈值且M<N；

所述预测值为：

y_pred＝max(model_i)，i∈(1≤i≤n)。

7.根据权利要求1所述的构建方法，其特征在于，所述疾病风险等级预测模型将预测结果划分成四种等级；

8.利用如权利要求1～7任一项所述的构建方法构建得到的疾病风险等级预测模型。

9.一种疾病风险等级预测装置，其特征在于，所述疾病风险等级预测装置包括：

预测模块，基于权利要求8所述的疾病风险等级预测模型预测所述体检人员的疾病风险等级。

10.一种计算机设备，其特征在于，所述设备包括：

一个或多个处理器；

存储系统，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1～7中任一项所述疾病风险等级预测模型的构建方法。