CN113096817A

CN113096817A - 用于疾病预测的方法、装置、计算机设备和存储介质

Info

Publication number: CN113096817A
Application number: CN202110396227.2A
Authority: CN
Inventors: 黄雨; 秦源泽
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2021-04-13
Filing date: 2021-04-13
Publication date: 2021-07-09

Abstract

一种用于疾病预测的机器学习方法，包括：基于问卷，构建数据集；对所述数据集进行预处理；使用多种集成方法，训练所述数据集；基于评估指标，选择所述多种集成方法之一以构建模型。

Description

用于疾病预测的方法、装置、计算机设备和存储介质

技术领域

本申请涉及机器学习技术领域，特别是涉及一种基于机器学习的疾病预测的方法、装置、计算机设备和存储介质。

背景技术

随着医学信息化的快速发展，医疗数据呈指数规模增加，其中包括病人临床信息、医学影像信息、遗传基因信息等。医疗大数据时代已然到来，如何从复杂、不规则的医疗数据中提取出潜在有价值的信息并提高信息的利用率逐渐成为医学研究的重点。该领域研究者开始将重心转向机器学习技术，机器学习是人工智能的技术之一，对大数据的分析处理能力显著，成为近年来计算机科学研究中最活跃的分支之一。

机器学习为疾病诊断分析提供了新的思路和方法，该技术通过对大量真实医疗数据进行分析，发掘其中规律并构建客观的数学模型，之后利用该模型对疾病进行精准预测。然而，基于机器学习的医疗数据分析方法具有专业性和复杂性，大多数医生并不能熟练掌握这项技术，如若每次委托医院外专业的数据分析人员，无疑会耗费较多时间和经济成本，还会有病人隐私数据泄露的风险。此外，当医生完成模型训练后通常只局限于内部使用，缺少将其普及公众的途径，导致模型价值降低。

目前，医学领域研究者开始把重心转向人工智能机器学习技术，该技术具备专家系统所没有的学习能力，其可从大量样本中提取出有价值的规律和信息并构建出客观数学模型，之后利用该模型进行疾病诊断，消除由于医生的主观经验而产生的误差，从而提高诊断准确率。20世纪90年代之后，基于机器学习的疾病诊断应用开始大量出现，常用的学习算法包括支持向量机、决策树、逻辑回归、贝叶斯等。2001年Chou等人通过逻辑回归模型对乳腺癌进行诊断，准确率高达91％；2006年Hope等人研发出基于贝叶斯定理的心血管疾病辅助诊断系统，该系统可根据病人的年龄、血脂、血压等特征属性对其心血管疾病进行诊断；2008年Su等人利用支持向量机模型对高血压进行诊断，取得很好的预测效果；2009年Ploat等人通过决策树和One-Against-All混合模型对皮肤病、淋巴造影数据集进行测试，结果表明该模型在多分类问题上十分有效；2015年Ghanad等人通过朴素贝叶斯算法和粒子群优化算法诊断帕金森病，准确率高达97.95。

现有技术虽然能够很好的针对某种具体疾病进行诊断，但是很难有平台做到可以适用于多种疾病的疾病诊断。为了能够提升疾病诊断的通用性，当用户上传相关数据后，系统应该根据疾病类型和诊断科室进行自动分类检索，最终获取诊断结果。

发明内容

一种基于机器学习的疾病预测装置，所述装置包括：构建模块，用于基于问卷，构建数据集；预处理模块，用于对所述数据集进行预处理；训练模块，用于使用多种集成方法，训练所述数据集；选择模块，用于基于评估指标，选择所述多种集成方法之一以构建模型。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述方法。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述方法。

附图说明

图1A为根据本申请的一实施例的模型构建流程图；

图1B为根据本申请的一实施例的疾病预测方法的流程图；

图1C为根据本申请的一实施例的Bagging集成方法示意图；

图1D为根据本申请的一实施例的Blending集成方法示意图；

图2为根据本申请的一实施例的疾病预测流程图；

图3为根据本申请的一个实施例中疾病预测装置的结构框图；

图4为根据本申请的一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请涉及一种基于问卷形式的通用疾病自动诊断分析软件，面向医生和待测者两个群体。根据相关专业医学知识，医生前期设计问卷，将与疾病相关症状和各项生理生化指标列入问卷，然后发布问卷，待测者通过浏览器填写问卷，填写完的问卷输入到已训练好的模型，最终输出模型预测从而得到诊断结果。

本申请是辅助医生使用机器学习技术构建疾病预测模型，该功能涉及到的知识领域医生较为陌生，所以做到近似完全的自动化，仅需传入几个本申请参数即可完成模型构建，之后医生可将构建好的模型以问卷的形式进行发布，此外，医生还可以对所有医疗数据、模型、问卷文件进行统一管理，病人在浏览器上选择疾病问卷并根据自身特征填写，即可得到对应疾病的诊断报告，医生可以随时导出病人所填写的数据并进行统计分析，以便了解当前该疾病的特征分布和趋势。

用户为医生和病人，系统分为医生端和病人端。

医生端包括以下模块。

(1)注册登录

注册登录是用户的功能。用户首先以医生身份或病人身份进行注册，登录后不同身份用户的跳转页面、服务访问权限和可获取的服务资源均有所不同。

(2)文件管理

文件管理可帮助医生管理自己的数据、模型和问卷。由于医生使用本软件对医疗数据进行分析建模、发布、统计的过程并不是一次性从头到尾完成的，而是分步完成的，因此使用过程中产生的中间结果文件如数据文件、模型文件、问卷文件均应在软件上持久化保存，并且是可编辑和可复用的，之后医生进行数据分析无需重新上传数据文件，同样修改调查问卷也无需重新构建模型，通过已保存的文件即可快速完成相应操作，从而有效提高软件的实用性，提升用户的使用体验。

(3)模型构建

本软件医生端提供模型构建功能。医生无需理解数据分析原理，即可通过简单操作对原始医疗数据文件构建机器学习模型并将模型保存。该功能可以自动化完成数据分析建模的整体流程，包括文件导入、构建数据集、数据预处理、特征选择、模型训练、参数调优和模型评估，医生可以自己设定特征选择和模型训练算法，之后医生可以看到详细的特征排序和模型评估结果。

(4)模型发布

本软件的目标用户既包括医生也包括病人，为了使病人可以利用医生已构建好的机器学习模型完成疾病诊断实现远程医疗，本软件添加模型发布功能。该功能允许医生根据构建好的模型个性化定制调查问卷，包括问卷题目内容和题型，同时也可设置每个特征指标的正常取值范围和医疗建议，之后可将该问卷发布到浏览器上，供待测人填写。

(5)问卷统计

当病人填写医生发布的问卷后，软件可将病人的特征和标签数据进行实时保存，问卷统计功能允许医生随时导出这些数据并进行统计，之后向医生展示病人信息表格以及特征统计图，帮助医生对当前疾病的特征分布和趋势进行分析。

病人端包括以下模块。

(1)问卷选择

病人用户登录后首先跳转到问卷选择页面，在该页面病人可以根据疾病和科室名称对问卷进行搜索，也可以在热门问卷展示区对问卷进行选择。

(2)疾病诊断

病人端提供疾病诊断功能。该功能可帮助病人使用医生构建好的模型对自身患病情况进行预测，从而实现医生和病人的对接。具体地，病人根据自身特征对所选问卷进行填写并提交，之后即可得到诊断报告，报告内容包括疾病预测结果及概率、异常特征指标和医疗建议，与此同时，软件可将病人的特征和标签数据保存在数据库中，供医生进行统计分析。

一种基于问卷形式的通用疾病自动诊断分析软件流程如下：

步骤1：医生根据不同疾病不同科室指定相关问卷。

医生根据医学领域已有的相关知识，将疾病可能存在的相关症状和相关生理生化指标指定为问卷。

步骤2：问卷发布。

医生将制定好的问卷通过该软件发布到浏览器中。在发布过程中，该问卷自动与相关疾病相关科室进行关联。

步骤3：用户填写。

待测者通过登录浏览器进入问卷选择页面，该页面通过疾病和科室对问卷进行检索，待测者获取问卷后进行填写。该软件首先检查填写完的问卷特征数据是否合法，若不合法则返回错误信息，反之则进入模型预测阶段

步骤4：问卷根据疾病和科室进行检索分发。

填写完的问卷根据问卷所述疾病和科室进行分发，分配到相关疾病相关科室所对应的算法模型当中，进行后续的模型预测。

步骤5：模型预测得出诊断结果。

将问卷输入到对应的提前已经训练好的算法模型当中进行预测，最终输出模型预测的诊断结果。

整体架构设计如下：

本软件采用分布式的微服务架构设计，该架构可有效降低服务间的耦合度，各服务彼此互不干扰，可按需独立扩展或修改，方便了软件增量式开发和部署。

本软件总体架构设计如下图所示，自上而下依次为用户层、接口层、服务层和数据层。

用户层说明了本软件的目标用户，即医生和病人，用户可通过浏览器Web页面使用软件。

接口层定义了外部访问内部服务的统一通讯接口，该接口具备流量限制、服务路由、负载均衡、权限验证等功能，保证了软件内部的安全性，并可有效提高服务访问效率。

服务层定义了本软件的后端服务，包括用户登录、文件管理、模型构建、问卷编写、问卷发布、疾病诊断、病人数据导出、数据统计等，这些服务可实现软件的具体逻辑业务。

数据层定义数据的存储环境，其中Hadoop分布式数据库负责存储工作区的所有文件，主要包括医疗数据文件、模型相关文件和问卷相关文件，MySQL数据库存储用户、用户权限、问卷信息等数据，Redis用于缓存人们问卷信息、服务调用频率和token令牌等数据。

系统功能模块分解如下：

根据功能设计，本申请将软件划分为七个功能服务模块，分别为工作区模块、模型执行模块、模型构建模块、模型发布模块、疾病预测模块、问卷统计模块和安全认证模块，功能服务模块。

工作区模块负责存储和管理医生用户的所有文件，提供文件上传、打开、删除和查询服务，其他模块对文件的读取和存储操作都需调用工作区模块的服务。

(1)原始数据存放区

原始数据存放区用于存储医生从本地上传的原始医疗数据文件，医生可以在工作区中编辑该文件，也可以将其直接用于模型构建。

(2)训练模型存放区

训练模型存放区用于存放医生构建好的模型，每个已构建模型均用一个文件夹进行存储，之后医生可以直接选择该文件夹进行模型发布，该文件夹下有4种文件，分别为：

①原始数据文件：构建该模型所使用的原始数据Excel文件。

②模型文件：用于记录模型的pickle二进制文件，保存了模型的全部信息，在模型预测阶段需要用到该文件对新样本进行标签预测。

③数据预处理文件：用于记录数据预处理过程的pickle二进制文件，保存了预处理的全部信息，在模型预测阶段需要用到该文件对新样本进行数据预处理。

④特征选择文件：用于记录特征选择过程的pickle二进制文件，保存了特征选择的全部信息，在模型预测阶段需要用到该文件对新样本进行特征选择。

⑤模型配置文件：模型的配置文件，记录该模型的常量信息，内容如下：

{

Model_id:“模型ID”；

Feature_selection:“特征选择算法”；

Learning_method:“学习算法”；

Features:[“特征1”,“特征2”,“特征3”...]；

Target:“标签名称”；

Index:[指标1，指标2,指标3...]

}

其中，Features和Target分别为医生构建数据集时自己选择的特征以及标签名称，Index为记录模型评估指标的列表。

(3)发布模型存放区

发布模型存放区用于存储已发布的模型，所有已发布模型均用一个文件夹进行存储，之后医生可以选择该文件夹进行修改问卷或撤销问卷，该文件夹下有3种文件，分别为：

①模型配置文件：发布该调查问卷所使用模型的配置文件。

②题目映射文件：用于保存调查问卷题目ID和数据集特征之间的映射，内容如下：[{Question_id:“题目ID”，Feature:“特征名称”}，...]

③问卷文件：用于保存调查问卷题目的JSON文件，该文件中保存相对应模型的地址以及病人数据库名称ID。

模型构建模块、模型发布模块和问卷统计模块是与医生用户进行交互的主要模块。

模型执行模块是完成模型构建和疾病预测任务的内部实际执行模块。关于模型的操作都由该模块完成。模型执行模块主要实现文件读取、构建执行和预测执行功能，其中文件读取功能负责从工作区中读取模型操作中所需的各种文件，如原始数据文件、模型文件、特征选择文件、预处理文件等；构建执行功能可通过已读取的原始数据文件构建机器学习模型，其包含数据分析建模的整体流程；预测执行功能可通过已读取的模型文件对病人用户在前端输入的特征数据进行分析预测，并返回疾病诊断结果。

图1A是根据本申请的一实施例的模型构建的流程图。图1B是根据本申请的一实施例的疾病预测方法的流程图。本申请提出了一种疾病预测方法，包括：

步骤S110：基于问卷，构建数据集。

步骤S120：对所述数据集进行预处理。

步骤S130：使用多种集成方法，训练所述数据集。

步骤S140：基于评估指标，选择所述多种集成方法之一以构建模型。

下面具体介绍上述方法，其包括导入文件、构建数据集、数据预处理、特征选择、模型训练、参数调优、模型评估和模型保存。

(1)导入文件

调用工作区服务读取指定路径的医疗数据文件并导入。

(2)构建数据集

根据医生在前端所选择数据文件的特征列和标签列构建数据集，医生可自行去掉无法反映样本属性的冗余特征，如样本ID。

(3)数据预处理

该过程包括缺失值弥补和标准化操作，其中缺失值根据平均值或众数进行填补，若某特征列缺失数据个数超过总样本的30％，则直接删除该列。之后对数据集进行标准化，规范特征取值，消除医疗数据不同量纲的特征对模型训练所造成的影响，从而提高模型预测的准确率和运行效率。

由于数据获取源的多样性，原始数据集会出现不同程度的缺失、冗余、不一致等现象，医疗数据更是如此，而通过机器学习构建模型是建立在训练数据严格规范的基础上，因此数据预处理是数据分析的首要环节，该技术会大大增强训练数据的质量和实用性，从而提高模型的准确性和训练效率。本工具在模型构建之前先对医疗数据进行缺失值弥补、标准化等预处理操作。

缺失值弥补解决数据缺失问题，应根据缺失值所归属特征的特性选取有效的弥补策略，本工具所采用的策略包括均值弥补、众数弥补以及特征剔除。具体地，如果上传的原始数据集的某特征是连续性的，利用该特征下所有特征值的平均数来弥补缺失值；如果某特征是离散性的，利用该特征下所有特征值的众数来弥补缺失值；如果某特征的缺失值数量大于总样本的30％，则将该特征进行剔除。

标准化的目的是规范特征值的量纲和范围，保证模型构建不会受到原始数据集中数据本身特点的影响。该方法可使每个特征的取值服从标准正态分布，即均值为0，标准差为1。标准化公式如下：

其中x和x′分别为标准化前后的特征值，μ为数据所在特征列的均值，σ为该列的标准差。

(4)特征选择

在一实施例中，医疗临床数据的特征多，样本少，可以进行特征选择。医生可以在前端设定特征选择算法和特征个数，可选特征个数范围为1到全选。

(5)模型训练

用户可以根据实际需要选择机器学习算法。考虑到医疗数据的特点和单一算法模型的局限性，本申请设计了基于支持向量机、朴素贝叶斯和逻辑回归的两种集成方法进行模型训练。

监督式机器学习任务的最终目标是训练出一个稳定且在各个方面都表现很好的学习器，但实际情况往往差强人意，大部分情况只能得到多个较好的弱学习器。集成学习的思想是利用训练数据训练多个弱学习器，之后以一定策略将这些弱学习器进行组合得到一个强学习器，由于集成模型为多个模型的综合体，因此有更加优越的特性，比如抗噪声能力强、不易过拟合、能训练高维数据等。

Bagging是典型的集成学习方法，采用并行化思想。该方法首先对训练集进行多次有放回随机采样构建多个训练子集，训练子集间相互独立，之后利用这些子集分别训练各个基学习器，进行模型预测时综合所有基学习器的结果进行决策，此时所有基学习器的重要性相同，决策采用投票或取平均值的方式。

Stacking是另一个集成学习方法，该方法采用多层学习结构。以两层结构为例，Stacking在第一层结构中通过不同学习算法对训练集进行训练，从而生成多个基学习器，之后以第一层基学习器的输出结果作为输入特征来训练第二层次级学习器，从而得到最终的集成模型。

Blending方法的思想与Stacking相同，但对后者的训练过程进行简化，Stacking是通过K折交叉验证方法生成第二层基学习器的特征，而Blending通过Holdout方法，具有更高的模型训练效率。

图1C是根据本申请的一实施例的Bagging集成方法示意图。在一实施例中，Bagging集成方法是：将医疗数据集划分为训练集和测试集，首先对训练集进行三次有放回随机采样构建三个不同的训练子集，之后在这些子集上分别利用支持向量机、朴素贝叶斯和逻辑回归算法进行训练，生成三个基学习器，在疾病预测阶段通过计算三种基学习器预测概率的平均值确定病人的患病概率。

图1D是根据本申请的一实施例的Blending集成方法示意图。在一实施例中，Blending集成方法是：将医疗数据集划分为训练集和测试集，再将训练数据划分为训练集和验证集，首先在训练集上分别利用支持向量机和朴素贝叶斯算法进行训练生成两个基学习器，通过基学习器对验证集和测试集的概率标签进行预测，分别得到第二层训练集和第二层测试集，之后通过逻辑回归算法对第二层训练集进行训练，得到次级学习器，通过该学习器对第二层测试集进行预测，最终与测试集真实标签进行比较得到最终模型评估结果。

(6)参数调优

本申请通过网格搜索法实现算法参数的自动化调优，该方法采用穷举策略，尝试每种算法主要参数的所有组合，最后通过准确率测试挑选表现最好的模型参数，并得到最优模型。本申请所使用的支持向量机调优参数包括核函数类型kernal、核函数系数gamma和惩罚系数C，逻辑回归调优参数包括正则化项penalty和正则化系数C，朴素贝叶斯则采用默认参数。

(7)模型评估

为全面科学地评估模型质量，本软件在测试集上计算三种模型评估指标，分别为准确率、敏感度和AUC。AUC为接受者操作特性曲线与X轴之间的面积。

模型评估是数据分析的最后一步，用于检验模型预测的准确性，在构建模型的过程中，偏差过大所导致的欠拟合现象以及方差过大所导致的过拟合现象经常发生，因此模型评估至关重要。由于医疗数据集中样本类别往往具有不平衡性，仅用准确率来衡量模型并不合理，为此本申请添加多个指标全面地评估模型的质量，其中包括敏感度、特异度和AUC。当验证分类模型时，可得到如下混淆矩阵。

表1混淆矩阵

根据混淆矩阵，评估指标的计算方法如下所示：

1.

2.

3.

AUC是另一个重要的模型评估指标。首先介绍接受者操作特性曲线(ROC曲线)，其横坐标为假阳性率(1-特异度)，纵坐标为真阳性率(敏感度)，可见该曲线可综合体现敏感度和特异度两个指标。ROC曲线与X轴之间的面积称为AUC(0≤AUC≤1)，AUC值越大，模型泛化能力越强，即预测准确性越高，当AUC为0.5时，模型预测与随机猜测的效果相同。

(8)模型保存

模型训练结束后，将数据预处理、特征选择和模型训练过程以pickle二进制文件的形式保存在训练模型存放区的特定文件夹下。

本节通过UCI心脏病数据集对各个机器学习算法的预测性能进行对比测试，该数据集包括270个病人样本，每个样本包含年龄、性别、静息血压等13个特征，标签为疾病阳性或阴性，测试算法包括支持向量机、朴素贝叶斯、逻辑回归以及结合前三种算法的集成方法，下表记录了各算法模型的预测效果。可以看出，与其他单一算法模型相比，集成模型有更好表现，这表明使用该集成方法对医疗数据进行分析建模是科学且合理的。

表2心脏病数据集测试结果

模型发布模块负责将医生构建好的模型以问卷的形式发布到浏览器上，供待测人填写，问卷内容和题型可由医生自主设计。

医生用户选择模型文件并点击发布模型，前端页面会显示该模型所对应数据集的所有特征，医生可以为每个特征编写题目内容和题型，同时可设置各特征的正常范围，完成后点击生成问卷，模型发布服务首先会验证问卷编写是否合法，若不合法则向用户返回错误信息，反之则引导用户设置问卷基本信息，包括该问卷的标题、简介、相关疾病、有效期等，之后设置与病人的患病概率范围相对应的医疗建议，完成后点击发布问卷，模型发布服务会将生成的问卷文件保存到工作区的发布模型存放区中，同时在问卷信息表中添加该问卷的基本信息，并且创建一个属于该问卷的病人统计表，用于存储病人在该问卷下所填写的特征信息和标签数据。

问卷统计模块负责从数据库读取病人在问卷上填写的数据并进行统计分析，帮助医生对当前疾病的特征分布和趋势进行分析。

医生用户选择问卷文件并点击病人数据统计，问卷统计服务会从该问卷所对应的统计表中读取所有病人数据并返回，前端生成病人信息表格向医生展示，之后医生可在页面选择该疾病的某一特征进行统计，前端将生成特征统计图。

图2是根据本申请的一实施例的疾病预测的流程图。疾病预测模块是与病人用户进行交互的主要模块，负责接收病人的疾病预测请求并将其转发给模型执行模块，最后向病人返回疾病诊断报告，其中包括疾病预测结果及概率、异常特征指标以及医疗建议，而且该模块可将病人填写的特征信息以及预测结果实时存入数据库中。

疾病预测模块首先调用工作区服务读取问卷文件并将问卷内容向用户返回，用户填写问卷后，疾病预测服务首先检查填写的特征数据是否合法，若不合法则向用户返回错误信息，反之则调用模型执行服务，该服务首先通过医生设置的特征值正常范围筛选出用户的异常特征，之后按照路径从工作区中导入对应的模型相关文件，通过这些文件对用户的特征数据进行与模型构建时相同的数据预处理和特征选择操作，并将预处理后的数据作为特征输入到基于支持向量机、朴素贝叶斯和逻辑回归三个算法的集成模型之中，即可预测出样本的患病概率，最后将异常特征指标、预测结果及其对应的医疗建议以诊断报告的形式向用用户返回。用户若同意保存数据，疾病预测服务则将其特征信息和预测标签共同存入对应的问卷统计表中，医生可随时从该表中导出病人数据并进行统计分析。

本申请采用基于问卷的形式，实现通用化和自动化：通过不同科室的医生针对不同疾病制定问卷，使得问卷与疾病相关联，根据构建好的模型个性化定制调查问卷，包括问卷题目内容和题型，同时也可设置每个特征指标的正常取值范围和医疗建议，之后可将该问卷发布到浏览器上，供待测人填写。当待测人填写完毕后通过模型预测与评估直接得出辅助诊断的结果。对于问卷类型，在医生指定问卷时就已经进行疾病和科室的划分，当带测完填写完问卷上传之后，通过疾病和科室进行检索，可以按照不同疾病不同科室进行问卷的分发与收集，实现疾病诊断的通用化。当用户填写完问卷上传之后，系统对问卷进行自动分发并输入模型，最终得到诊断结果，此过程均为自动化。

本申请采用人工智能的方法进行疾病的诊断：利用机器学习处理数据的优势，采用集成学习训练的方式，使用大量医疗训练数据训练出集成模型，通过参数调优优化模型参数得到出色的模型效果。模型在学习大量数据样本的情况下，不断优化提升模型的效果，使得最终得到正确诊断结果。

本申请能够实现远程医疗：病人填写完问卷后，通过输入问卷，利用医生已构建好的机器学习模型得出预测结果完成疾病诊断，无需线下面诊可直接获取疾病诊断结果，实现远程医疗。

本申请操作简单：对于医生无需过多机器学习技术知识，输入几个参数可完成模型构建。

应该理解的是，虽然图1-2的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本申请中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1-2中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

如图3所示，提供了一种疾病预测装置，包括：构建模块，用于基于问卷，构建数据集；预处理模块，用于对所述数据集进行预处理；训练模块，用于使用多种集成方法，训练所述数据集；选择模块，用于基于评估指标，选择所述多种集成方法之一以构建模型。

关于疾病预测装置的具体限定可以参见上文中对于疾病预测方法的限定，在此不再赘述。上述疾病预测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储疾病预测数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种疾病预测方法。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：基于问卷，构建数据集；对所述数据集进行预处理；使用多种集成方法，训练所述数据集；基于评估指标，选择所述多种集成方法之一以构建模型。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：基于问卷，构建数据集；对所述数据集进行预处理；使用多种集成方法，训练所述数据集；基于评估指标，选择所述多种集成方法之一以构建模型。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明申请范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请申请的保护范围应以所附权利要求为准。

Claims

1.一种疾病预测模型的构建方法，包括：

基于问卷，构建数据集；

对所述数据集进行预处理；

使用多种集成方法，训练所述数据集；

基于评估指标，采用所述多种集成方法之一构建所述疾病预测模型。

2.如权利要求1所述的方法，所述集成方法包括：

随机采样所述数据集以构建训练子集；

针对所述训练子集，分别使用支持向量机算法、朴素贝叶斯算法、逻辑回归算法，生成基学习器；

通过所述基学习器的预测概率的平均值，计算疾病的概率。

3.如权利要求1所述的方法，所述集成方法包括：

针对第一训练集，分别使用支持向量机算法、朴素贝叶斯算法，生成基学习器，其中，所述第一训练集是通过训练所述数据集获取的；

通过所述基学习器，预测验证集和第一测试集的概率标签；

获取第二训练集和第二测试集；

通过逻辑回归算法对第二训练集进行训练，获取次级学习器，通过所述次级学习器，预测所述第二测试集；

通过与所述第一测试集的真实标签进行比较，计算疾病的概率。

4.如权利要求1所述的方法，所述评估指标包括：

准确率、敏感度和AUC，其中，AUC为接受者操作特性曲线与X轴之间的面积。

5.如权利要求1所述的方法，还包括优化所述多种集成方法的参数：

计算所述多种集成方法的参数的组合；

通过准确率测试，选择所述参数；

其中，支持向量机的参数包括：

核函数类型kernal、核函数系数gamma和惩罚系数C，

逻辑回归的参数包括：

正则化项penalty和正则化系数C。

6.如权利要求1所述的方法，所述构建所述数据集包括：

删除冗余特征。

7.如权利要求1所述的方法，所述对所述数据集进行预处理包括：

根据平均值或众数，计算缺失值。

8.如权利要求1所述的方法，所述对所述数据集进行预处理包括：

对所述数据集进行标准化。

9.一种基于机器学习的疾病预测方法，包括：

基于特征的值的范围，从问卷获取异常特征，并对所述异常特征进行预处理；将预处理后的异常特征输入到通过权利要求1的方法构建的模型中；

基于所述模型，计算异常特征对应的疾病的概率。

10.如权利要求9所述的方法，还包括：

基于计算出的异常特征对应的疾病的概率，输出诊断结果。

11.一种基于机器学习的疾病预测装置，所述装置包括：

构建模块，用于基于问卷，构建数据集；

预处理模块，用于对所述数据集进行预处理；

训练模块，用于使用多种集成方法，训练所述数据集；

选择模块，用于基于评估指标，采用所述多种集成方法之一构建所述疾病预测模型。

12.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。

13.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。