CN114999634A

CN114999634A - 基于预测模型的疾病预测方法和系统

Info

Publication number: CN114999634A
Application number: CN202210689715.7A
Authority: CN
Inventors: 乔文琼; 杨帅毅; 文金豪; 柴政; 李云峰; 陈一超
Original assignee: Digital Health China Technologies Co Ltd
Current assignee: Digital Health China Technologies Co Ltd
Priority date: 2022-06-17
Filing date: 2022-06-17
Publication date: 2022-09-02

Abstract

本申请公开了一种基于预测模型的疾病预测方法，涉及疾病预测领域，包括以下步骤：基于疾病预测目的选择专病数据库构建疾病预测模型；对疾病预测模型进行模型训练；对训练后的疾病预测模型进行模型验证；利用验证后的疾病预测模型进行疾病预测。本申请通过构建疾病预测模型并对模型进行训练验证后进行疾病预测，帮助了医疗科研人员进行专病的研究、统计、管理和分析，提高了利用模型对疾病进行预测的准确率，并拓宽了疾病预测模型的适用范围。

Description

基于预测模型的疾病预测方法和系统

技术领域

本申请涉及疾病预测领域，特别涉及一种基于预测模型的疾病预测方法和系统。

背景技术

随着医学的发展和进步，对于疾病的预测技术开始发展起来，基于疾病对应的数据库建立模型，并基于所述模型进行疾病的预测已经成为相对成熟的技术，但现有的疾病预测模型过于简单，精度不高，且过于单一，仅针对具体一种预测目的，因此，亟需一种能够帮助医疗科研人员进行专病的研究并具备高准确率的自定义的疾病预测模型。

发明内容

(一)申请目的

基于此，为了帮助医疗科研人员进行专病研究、统计、管理和分析，提高利用模型对疾病进行预测的准确率并拓宽疾病预测模型的适用范围，本申请公开了以下技术方案。

(二)技术方案

本申请公开了一种基于预测模型的疾病预测方法，其特征在于，包括：

基于疾病预测目的选择专病数据库构建疾病预测模型；

对所述疾病预测模型进行模型训练；

对训练后的疾病预测模型进行模型验证；

利用验证后的疾病预测模型进行疾病预测。

在一种可能的实施方式中，所述基于疾病预测目的选择专病数据库构建疾病预测模型，包括：

基于疾病预测目的在病历数据库中选取对应的专病数据库；

对所述专病数据库的数据进行预处理获取专病数据队列；

基于预置的模型类型库选择疾病预测模型的模型类型；

构建变量推荐知识图谱；

基于所述变量推荐知识图谱从所述专病数据队列中筛选所述疾病预测模型的自变量和因变量；

基于所述模型类型、所述自变量和所述因变量构建疾病预测模型。

所述构建构建变量推荐知识图谱，具体包括：

在一种可能的实施方式中，从专病知识库中进行知识抽取，获取实体-关系-实体三元组信息，基于抽取的三元组信息构建知识图谱。

在一种可能的实施方式中，所述基于所述变量推荐知识图谱从所述专病数据队列中筛选所述疾病预测模型的自变量和因变量，包括：

对所述专病数据队列进行实体抽取，获取专病数据实体；

基于疾病预测目的从所述变量推荐知识图谱中获取初始自变量和初始因变量；

基于所述专病数据实体与所述初始自变量和初始因变量进行匹配度计算，当匹配度达到阈值时，确定自变量和因变量。

在一种可能的实施方式中，还包括，基于变量推荐知识图谱获取所述疾病预测模型的协变量。

在一种可能的实施方式中，所述疾病预测模型类型包括线性回归疾病预测模型、逻辑回归疾病预测模型和朴素贝叶斯疾病预测模型。

在一种可能的实施方式中，所述疾病预测模型为逻辑回归疾病预测模型。

在一种可能的实施方式中，所述逻辑回归疾病预测模型构建后通过逻辑函数进行优化。

在一种可能的实施方式中，所述逻辑回归疾病预测模型通过交叉验证的方式进行验证。

作为本申请的第二方面，本申请还公开了一种基于肿瘤样本的多组学联合分析系统，包括：

模型构建模块，用于用于基于疾病预测目的选择专病数据库构建疾病预测模型；

模型训练模块，用于对所述疾病预测模型进行模型训练；

模型验证模块，用于对训练后的疾病预测模型进行模型验证；

疾病预测模块，用于利用验证后的疾病预测模型进行疾病预测。

在一种可能的实施方式中，所述模型构建模块，包括：

数据库选取子模块，用于基于疾病预测目的在病历数据库中选取对应的专病数据库；

预处理子模块，用于对所述专病数据库的数据进行预处理获取专病数据队列；

类型选择子模块，用于基于预置的模型类型库选择疾病预测模型的模型类型；

知识图谱构建子模块，用于构建变量推荐知识图谱；

变量推荐子模块，用于基于所述变量推荐知识图谱从所述专病数据队列中筛选所述疾病预测模型的自变量和因变量；

模型构建子模块，用于基于所述模型类型、所述自变量和所述因变量构建疾病预测模型。

在一种可能的实施方式中，所述知识图谱构建子模块，具体包括：

从专病知识库中进行知识抽取，获取实体-关系-实体三元组信息，基于抽取的三元组信息构建知识图谱。

在一种可能的实施方式中，所述变量推荐子模块，包括：

专病实体抽取单元，用于对所述专病数据队列进行实体抽取，获取专病数据实体；

初始变量获取单元，用于基于疾病预测目的从所述变量推荐知识图谱中获取初始自变量和初始因变量；

变量匹配确定单元，用于基于所述专病数据实体与所述初始自变量和初始因变量进行匹配度计算，当匹配度达到阈值时，确定自变量和因变量。

在一种可能的实施方式中，还包括，

协变量选取子模块，用于基于变量推荐知识图谱获取所述疾病预测模型的协变量。

(三)有益效果

本申请通过构建疾病预测模型并对模型进行训练验证后进行疾病预测，帮助了医疗科研人员进行专病的研究、统计、管理和分析，提高了利用模型对疾病进行预测的准确率，并拓宽了疾病预测模型的适用范围。

附图说明

以下参考附图描述的实施例是示例性的，旨在用于解释和说明本申请，而不能理解为对本申请的保护范围的限制。

图1是本申请公开的基于预测模型的疾病预测方法的流程示意图。

图2是本申请公开的基于预测模型的疾病预测系统的结构框图。

具体实施方式

为使本申请实施的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行更加详细的描述。

下面参考图1详细描述本申请公开的基于预测模型的疾病预测方法实施例。如图1所示，本实施例公开的方法主要包括有以下步骤S100至S500。

S100、基于疾病预测目的选择专病数据库构建疾病预测模型。

具体的，该疾病预测方法基于疾病预测平台进行，所述疾病预测平台设置有病历数据库，所述病历数据库包含若干专病数据库，即对病历信息进行专病分类，构成若干专病数据库，专病数据库包含若干同类型病人的病历信息，所述病历信息包括基本信息、临床指标、病程发展记录、检查结果信息等，基于上述病历数据库中的专病数据库构建疾病预测模型，具体步骤包括以下S110-S160，

S110、基于疾病预测目的在病历数据库中选取对应的专病数据库。

具体的，本申请中所述疾病预测模型基于疾病预测目的而自定义形成的，基于不同的疾病预测目的可以自定义不同的疾病预测模型，确定预测目的后，基于所述预测目的在上述的病历数据库中筛选对应的专病数据库，在一个实施例中，当疾病预测模型的目的为通过家族史预测冠心病发病概率时，则选择冠心病专病数据库中的病历信息作为基础数据支撑。

S120、对所述专病数据库的数据进行预处理获取专病数据队列。

具体的，确定对应的专病数据库后，对数据库中的病历信息数据进行无效信息的过滤进而获取专病数据队列，用于模型的构建。过滤掉无效信息，减少数据量。便于后续实体的抽取以及变量匹配的准确度。

进一步，将专病数据库中的数据进行标准化。

具体的，标准化具体指将专病数据库病历信息中抽取的相关信息的格式统一为标准格式。例如症状名称、时间格式等信息。

S130、基于预置的模型类型库选择疾病预测模型的模型类型。

具体的，根据疾病预测模型的目的选择疾病预测模型的类型。

进一步，所述疾病预测模型的模型类型包括线性回归疾病预测模型、逻辑回归疾病预测模型和朴素贝叶斯疾病预测模型。

S140、构建变量推荐知识图谱。

具体的，疾病预测平台预置不同的专病知识库，所述专病知识库信息来源于已经发表的文章、书籍、或者权威网站等渠道。

更具体的，基于选择的专病数据库对应的专病知识库，利用爬虫技术采集数据并对采集的数据进行预处理，随后进行知识抽取。

其中预处理包括：将获取到的数据进行去重，并将获取到的数据解析成结构化数据；

对解析后的数据依次进行非中文字符去除、分词筛选、匹配性筛选和通顺度筛选后，获得清洗数据。

基于获取的清洗数据进行三元组信息的抽取。包括实体抽取、关系抽取或实体-关系同步抽取。

S150、基于所述变量推荐知识图谱从所述专病数据队列中筛选所述疾病预测模型的自变量和因变量。

在一个实施例中，S150还包括：

S151、对所述专病数据队列进行实体抽取，获取专病数据实体。

具体的，对上述进行过初步无效数据过滤的专病数据队列进行实体抽取，获取专病数据实体，其中，根据数据类型，所述专病数据实体包括自变量数据实体和因变量数据实体。

S152、基于疾病预测目的从所述变量推荐知识图谱中获取初始自变量和初始因变量。

具体的，在一个实施例中，疾病预测目的可作为知识图谱中的一个实体，基于该实体，获取与该实体存在关联关系的其他实体，作为初始自变量和初始因变量；

在一个实施例中，疾病预测目的不在知识图谱中，那么构建评价适用性矩阵计算所述疾病预测目的与知识图谱中实体的匹配度，将知识图谱中与疾病预测目的匹配度最高的实体作为目标实体，获取与所述目标实体存在关联关系的其他实体，作为初始自变量和初始因变量。

S153、基于所述专病数据实体与所述初始自变量和初始因变量进行匹配度计算，当匹配度达到阈值时，确定自变量和因变量。

具体的，将抽取的专病数据实体与初始自变量与初始因变量分别匹配，获取推荐的自变量和因变量作为所述疾病预测模型最终输入的自变量和因变量。

进一步，本申请还包括，基于变量推荐知识图谱获取所述疾病预测模型的协变量。

具体的，协变量可能为年龄和性别等自变量辅助判断信息。

S150、基于所述模型类型、所述自变量和所述因变量构建疾病预测模型。

具体的，基于模型类型以及自变量和因变量构建疾病预测模型。

在一个实施例中，所述疾病预测模型为逻辑回归疾病预测模型，当疾病预测模型的目的为通过家族史预测冠心病发病概率时,所述逻辑回归疾病预测模型构建后通过逻辑函数进行优化，得到优化后的逻辑回归模型，优化的逻辑回归疾病预测模型如下：

其中，Q为概率，x为患者是否会冠心病发病，“1”表示会，“0”表示不会，a为截距，b₁,b₂,…,b_n为各个参数变量对应的回归系数，y₁,y₂,...,y_n表示各个参数变量。

设置不同的M值调整所述优化的逻辑回归模型，具体是指M值每增加一，就多增加一个变量且变量后的幂依次增加，

即：M＝1时，所述优化的逻辑回归模型为：

M＝2时，所述优化的逻辑回归模型为：

M＝n时，所述优化的逻辑回归模型为：

S200、对所述疾病预测模型进行模型训练。

具体的，利用训练集对所述疾病预测模型进行模型训练。

在一个实施例中，当所述疾病预测模型为逻辑回归疾病预测模型，当疾病预测模型的目的为通过家族史预测冠心病发病概率时,所述逻辑回归疾病预测模型构建后通过逻辑函数进行优化，此时设置不同的M值调整所述优化的逻辑回归疾病预测模型的形式，使得不同的M值对应不同的所述优化的逻辑回归疾病预测模型的形式。

S300、对训练后的疾病预测模型进行模型验证。

具体的，在一个实施例中，当所述疾病预测模型为逻辑回归疾病预测模型，当疾病预测模型的目的为通过家族史预测冠心病发病概率时,所述逻辑回归疾病预测模型构建后通过逻辑函数进行优化，使用留一交叉验证法验证所述模型的准确度，进而，通过生成受试者工作特征曲线(ROC)并通过计算协同指标评价所述疾病预测模型。

S400、利用验证后的疾病预测模型进行疾病预测。

本申请公开的基于疾病预测模型的疾病预测方法时基于疾病预测平台实现的，除了上述的模型构建、模型训练、模型验证以及利用模型进行疾病预测外，所述疾病预测平台还包括：

数据查询功能：数据查询主要包括数据检索、对照检索结果、查看检索历史、申请导出检索数据等。

导出审核功能：导出审核页面根据用户的角色，显示需要处理的内容，例如管理员可以查看待审核列表，并且进行审核操作。普通用户可以看到自己的导出申请，审核通过后，可以进行导出数据和删除操作。

模型效果展示功能：选择模型并通过图表展示模型的详细效果，还可以通过图表对相似模型的效果进行对比。

数据库配置功能：用于创建和删除数据库。

下面参考图2详细描述本申请公开的基于预测模型的疾病预测系统实施例。如图2所示，本实施例公开的系统包括：

模型构建模块1，用于基于疾病预测目的选择专病数据库构建疾病预测模型。

具体的，该疾病预测方法基于疾病预测平台进行，所述疾病预测平台设置有病历数据库，所述病历数据库包含若干专病数据库，即对病历信息进行专病分类，构成若干专病数据库，专病数据库包含若干同类型病人的病历信息，所述病历信息包括基本信息、临床指标、病程发展记录、检查结果信息等，基于上述病历数据库中的专病数据库构建疾病预测模型，具体包括以下子模块：

数据库选取子模块11，用于基于疾病预测目的在病历数据库中选取对应的专病数据库。

预处理子模块12，用于对所述专病数据库的数据进行预处理获取专病数据队列；

进一步，将专病数据库中的数据进行标准化。

类型选择子模块13，用于基于预置的模型类型库选择疾病预测模型的模型类型；

知识图谱构建子模块14，用于构建变量推荐知识图谱。

变量推荐子模块15，用于基于所述变量推荐知识图谱从所述专病数据队列中筛选所述疾病预测模型的自变量和因变量。

在一个实施例中，变量推荐子模块15还包括以下单元：

专病实体抽取单元151，用于对所述专病数据队列进行实体抽取，获取专病数据实体。

初始变量获取单元152，用于基于疾病预测目的从所述变量推荐知识图谱中获取初始自变量和初始因变量。

具体的，在一个实施例中，疾病预测目的可作为知识图谱中的一个实体，基于该实体，获取与该实体存在关联关系的其他实体，作为初始自变量和初始因变量。

变量匹配确定单元153，用于基于所述专病数据实体与所述初始自变量和初始因变量进行匹配度计算，当匹配度达到阈值时，确定自变量和因变量。

具体的，协变量可能为年龄和性别等自变量辅助判断信息。

模型构建子模块16，用于基于所述模型类型、所述自变量和所述因变量构建疾病预测模型。

具体的，基于上述的模型类型以及自变量和因变量构建疾病预测模型。

即：M＝1时，所述优化的逻辑回归模型为：

M＝2时，所述优化的逻辑回归模型为：

M＝n时，所述优化的逻辑回归模型为：

模型训练模块2，用于对所述疾病预测模型进行模型训练。

具体的，利用训练集对所述疾病预测模型进行模型训练。

模型验证模块3，用于对训练后的疾病预测模型进行模型验证。

疾病预测模块4，用于利用验证后的疾病预测模型进行疾病预测。

在本申请的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，均仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请保护范围的限制。

在本文中，“第一”、“第二”等仅用于彼此的区分，而非表示它们的重要程度及顺序等。

本文中的模块、子模块或单元的划分仅仅是一种逻辑功能的划分，在实际实现时可以有其他的划分方式，例如多个模块、子模块和/或单元可以结合或集成于另一个系统中。作为分离部件说明的模块、子模块和/或单元在物理上可以是分开的，也可以是不分开的。作为子模块显示的部件可以是物理子模块，也可以不是物理子模块，即可以位于一个具体地方，也可以分布到网格子模块中。因此可以根据实际需要选择其中的部分或全部的子模块来实现实施例的方案。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于预测模型的疾病预测方法，其特征在于，包括：

基于疾病预测目的选择专病数据库构建疾病预测模型；

对所述疾病预测模型进行模型训练；

对训练后的疾病预测模型进行模型验证；

利用验证后的疾病预测模型进行疾病预测。

2.如权利要求1所述的方法，其特征在于，所述基于疾病预测目的选择专病数据库构建疾病预测模型，包括：

基于疾病预测目的在病历数据库中选取对应的专病数据库；

对所述专病数据库的数据进行预处理获取专病数据队列；

基于预置的模型类型库选择疾病预测模型的模型类型；

构建变量推荐知识图谱；

3.如权利要求2所述的方法，其特征在于，所述构建构建变量推荐知识图谱，具体包括：

4.如权利要求3所述的方法，其特征在于，所述基于所述变量推荐知识图谱从所述专病数据队列中筛选所述疾病预测模型的自变量和因变量，包括：

对所述专病数据队列进行实体抽取，获取专病数据实体；

5.如权利要求2所述的方法，其特征在于，还包括，基于变量推荐知识图谱获取所述疾病预测模型的协变量。

6.如权利要求2所述的方法，其特征在于，所述模型类型包括线性回归疾病预测模型、逻辑回归疾病预测模型和朴素贝叶斯疾病预测模型。

7.如权利要求6所述的方法，其特征在于，所述疾病预测模型为逻辑回归疾病预测模型。

8.如权利要求7所述的方法，其特征在于，所述逻辑回归疾病预测模型构建后通过逻辑函数进行优化。

9.如权利要求7所述的方法，其特征在于，所述逻辑回归疾病预测模型通过交叉验证的方式进行验证。

10.一种基于预测模型的疾病预测系统，其特征在于，包括：

模型构建模块，用于基于疾病预测目的选择专病数据库构建疾病预测模型；

模型训练模块，用于对所述疾病预测模型进行模型训练；