CN109359850A

CN109359850A - 一种生成风险评估量表的方法及装置

Info

Publication number: CN109359850A
Application number: CN201811175191.XA
Authority: CN
Inventors: 王则远; 孙佳星
Original assignee: Dalian Promise Cognitive Medical Technology Co Ltd
Current assignee: Dalian Promise Cognitive Medical Technology Co Ltd
Priority date: 2018-10-10
Filing date: 2018-10-10
Publication date: 2019-02-19

Abstract

本发明实施例提供一种生成风险评估量表的方法及装置，所述方法包括：根据风险评估基本信息建立风险评估数据库；插补剩余变量的缺失值；所述剩余变量是所述风险评估数据库中的数据缺失率小于等于预设缺失率阈值的变量；筛选插补缺失值后的剩余变量，以获取风险评估的关键变量；验证所述关键变量，并根据验证结果生成风险评估量表。所述装置执行上述方法。本发明实施例提供的生成风险评估量表的方法及装置，通过插补小于等于预设缺失率阈值的变量的缺失值，筛选剩余变量获取关键变量，再验证关键变量，并根据验证结果生成风险评估量表，能够高效、准确地生成风险评估量表。

Description

一种生成风险评估量表的方法及装置

技术领域

本发明实施例涉及数据处理技术领域，具体涉及一种生成风险评估量表的方法及装置。

背景技术

风险评估量表是用来量化风险的一种测量工具，在风险评估过程中，需要对个体或群体的各方面进行观察，再对观察结果用数量化的方式进行评估解释，量表综合得分代表个体或群体的风险水平。

现有风险评估量表的构建过程大致为：查阅文献、咨询专家、确定风险因素、修订量表、预试验调查(信度检验、效度检验、一致性检验、灵敏度分析、特异度分析等)、专家考评、反复改进与修订量表。上述过程需要耗费大量人力、物力和时间成本，存在一定的主观判断误差，而且，通常研究样本量较小，调查的广度和深度尚有一定的局限性。

因此，如何避免上述缺陷，能够高效、准确地生成风险评估量表，成为亟须解决的问题。

发明内容

针对现有技术存在的问题，本发明实施例提供一种生成风险评估量表的方法及装置。

第一方面，本发明实施例提供一种生成风险评估量表的方法，所述方法包括：

根据风险评估基本信息建立风险评估数据库；

插补剩余变量的缺失值；所述剩余变量是所述风险评估数据库中的数据缺失率小于等于预设缺失率阈值的变量；

筛选插补缺失值后的剩余变量，以获取风险评估的关键变量；

验证所述关键变量，并根据验证结果生成风险评估量表。

第二方面，本发明实施例提供一种生成风险评估量表的装置，所述装置包括：

建立单元，用于根据风险评估基本信息建立风险评估数据库；

插补单元，用于插补剩余变量的缺失值；所述剩余变量是所述风险评估数据库中的数据缺失率小于等于预设缺失率阈值的变量；

筛选单元，用于筛选插补缺失值后的剩余变量，以获取风险评估的关键变量；

生成单元，用于验证所述关键变量，并根据验证结果生成风险评估量表。

第三方面，本发明实施例提供一种电子设备，包括：处理器、存储器和总线，其中，

所述处理器和所述存储器通过所述总线完成相互间的通信；

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如下方法：

根据风险评估基本信息建立风险评估数据库；

验证所述关键变量，并根据验证结果生成风险评估量表。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，包括：

所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如下方法：

根据风险评估基本信息建立风险评估数据库；

验证所述关键变量，并根据验证结果生成风险评估量表。

本发明实施例提供的生成风险评估量表的方法及装置，通过插补小于等于预设缺失率阈值的变量的缺失值，筛选剩余变量获取关键变量，再验证关键变量，并根据验证结果生成风险评估量表，能够高效、准确地生成风险评估量表。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例生成风险评估量表的方法流程示意图；

图2为本发明实施例生成风险评估量表的装置结构示意图；

图3为本发明实施例提供的电子设备实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例生成风险评估量表的方法流程示意图，如图1所示，本发明实施例提供的一种生成风险评估量表的方法，包括以下步骤：

S101：根据风险评估基本信息建立风险评估数据库。

具体的，装置根据风险评估基本信息建立风险评估数据库。风险评估基本信息可以包括用药人的个人基本信息(例如年龄、性别等)、用药信息(例如用药名称、用药频次、剂量等)，检测指标项等，不作具体限定。

具体建立风险评估数据库可以包括：

(1)设置目标变量：即用药风险是否发生(1表示发生，0表示未发生)。

(2)对原始数据进行数据清洗：原始数据可以是上述的个人基本信息和用药信息等，用格式化后的数据建立风险评估数据库。

S102：插补剩余变量的缺失值；所述剩余变量是所述风险评估数据库中的数据缺失率小于等于预设缺失率阈值的变量。

具体的，装置插补剩余变量的缺失值；所述剩余变量是所述风险评估数据库中的数据缺失率小于等于预设缺失率阈值的变量。可以删除风险评估数据库中的数据缺失率大于预设缺失率阈值的变量。变量可是上述个人基本信息和用药信息等中的具体项，例如可以是检测指标项中的尿酸。参照举例，数据缺失率即是尿酸中缺失数据占尿酸所有数据的比值。

可以设置备选预设缺失率阈值范围为30％-95％，以5％为一个调整单位，逐次删除缺失率大于30％、35％、40％...95％的变量，依次验证测试集的正确率，寻找测试集正确率最高的最优缺失率阈值，并将该最优缺失率阈值作为预设缺失率阈值。例如预设缺失率阈值为40％，则删除数据缺失率大于40％的变量，如果变量为尿酸的数据缺失率不足40％，则保留该变量，即作为剩余变量；如果变量为血压的数据缺失率超过40％，则删除该变量。

可以采用K最近邻分类算法(即k-Nearest Neighbor，KNN)插补剩余变量的缺失值，K最近邻分类算法为本领域成熟技术，参照上述举例尿酸为一个剩余变量。进一步地，还可以根据所述剩余变量的变量类型，采用K最近邻分类算法插补不同变量类型的剩余变量的缺失值，变量类型可以包括连续型变量和分类型变量；相应的，若判断获知所述变量类型为连续型变量，通过k个相邻实例进行加权平均，以获取所述缺失值的代替值，具体可以包括：

将数据库拆分为尿酸无缺失数据库tran和尿酸缺失数据库test。

以尿酸为target，计算test数据库中每个样本距离tran数据库中各个样本的欧氏距离，例如：test数据库中第j个样本与tran数据库中的m个样本之间的m个欧式距离，挑选距离最近的k个相似样本(Test数据库中病例a与tran数据库中各个样本i(i∈tran)之间欧式距离的计算公式如下：

然后，将k个欧氏距离的倒数作为权重，通过对tran数据中k个尿酸值加权平均得到test数据集中每个样本缺失值的替代值。

通过调整k的取值，找到插补后使得机器学习算法测试集正确率最高的k。

若判断获知所述变量类型为分类型变量，获取所述分类型变量的子分类出现频次占所有子分类出现频次的比重；将最大比重对应的子分类的变量值作为所述缺失值的代替值。举例说明如下：分类型变量为0、1、2三分型变量，0、1、2分别对应三个子分类，子分类0在数据库中的出现频次为200次，子分类1在数据库中的出现频次为500次，子分类2在数据库中的出现频次为300次，则子分类0的比重为0.2，子分类1的比重为0.5，子分类2的比重为0.3，则将子分类1的变量值作为该三分型变量的缺失值的代替值。

S103：筛选插补缺失值后的剩余变量，以获取风险评估的关键变量。

具体的，装置筛选插补缺失值后的剩余变量，以获取风险评估的关键变量。具体包括：采用统计方法对所述剩余变量进行初筛选；对初筛选后的剩余变量进行精筛选，以获取所述关键变量。初筛选可以包括：

对应连续型变量：进行Mann-Whitney U检验，判断连续型自变量与目标变量的关系是否显著，Mann-Whitney U检验原假设为：以目标变量分组的两组数据的数据分布不存在显著差异。如果拒绝原假设则认为两组数据的数据分布存在显著差异，该连续型自变量对目标变量影响显著，保留该变量，否则剔除。

对应分类型变量：进行卡方检验，判断分类型自变量与目标变量的关系是否显著，卡方检验原假设为：分类型自变量与目标变量之间没有显著关系。如果拒绝原假设则认为分类型自变量与目标变量关系显著，保留该变量，否则剔除。

对初筛选后的剩余变量进行精筛选，以获取所述关键变量，具体包括：采用XGboost算法对初筛选后的剩余变量进行初次精筛选，以获取初次精筛选后的剩余变量；采用逻辑回归对初次精筛选后的剩余变量进行二次精筛选，以获取所述关键变量。

数据库目标变量为风险是否发生，自变量为变量初筛选后的变量。

XGBoost算法本领域成熟技术，实现如下：

XGBoost算法的重要参数配置：最大决策树数量＝2000；学习率＝0.01；最大规则层深＝3；决策树生长所需达到的最小Gain值＝0；决策树复杂度衡量参数＝1。

利用XGBoost算法挑选重要变量，例如可以用于建立急性肾损伤风险评估量表。

XGBoost算法的具体流程可以如下：

(1)分别输入初始急性肾损伤数据和检验项、用药项数据。

(2)定义目标函数(损失+正则化项)

其中，损失＝上一颗树的误差(梯度)；正则化项＝树的复杂度优化目标函数要求预测误差尽可能小，数的复杂度尽可能低。

(3)利用贪心法进行切分点查找，构建决策树

枚举所有不同的树结构，选取Gain值最大且超过阈值的方案，如果max(Gain)小于阈值则剪枝终止分裂。

(4)计算叶子结点的分数。

(5)更新决策树序列，保存构建好的所有决策树及其得分。

(6)计算各个样本的预测结果，即每棵树的得分之和，得到样本属于各个类别的概率。

(7)计算每一个变量的重要性得分，挑选对模型影响显著的重要变量。

首先计算各个变量的Gini系数，其Gini系数平均值即该变量的重要性得分。

(8)保留重要性得分大于0的重要变量。

将XGBoost挑选出的重要变量与目标变量进行逻辑回归(LR)，筛选出使得模型预测效果最优的关键变量。具体应用为本领域成熟技术，不再赘述。

S104：验证所述关键变量，并根据验证结果生成风险评估量表。

具体的，装置验证所述关键变量，并根据验证结果生成风险评估量表。可以基于Logistics算法对所述关键变量进行N折交叉验证，并根据验证结果生成风险评估量表。Logistics算法为本领域成熟技术，不再赘述。N可选为5，建立5个不同模型，将各个关键变量在5个模型中的系数进行加和，以此作为关键变量的综合评分，挑选出正相关即综合评分大于0(举例说明)的关键变量，以最小风险评分作为基础值0.5分(举例说明)，同比计算其余关键变量的综合评分，从而生成风险评估量表。

本发明实施例提供的生成风险评估量表的方法，通过插补小于等于预设缺失率阈值的变量的缺失值，筛选剩余变量获取关键变量，再验证关键变量，并根据验证结果生成风险评估量表，能够高效、准确地生成风险评估量表。

在上述实施例的基础上，所述筛选插补缺失值后的剩余变量，以获取风险评估的关键变量，包括：

采用统计方法对所述剩余变量进行初筛选。

具体的，装置采用统计方法对所述剩余变量进行初筛选。可参照上述实施例，不再赘述。

对初筛选后的剩余变量进行精筛选，以获取所述关键变量。

具体的，装置对初筛选后的剩余变量进行精筛选，以获取所述关键变量。可参照上述实施例，不再赘述。

本发明实施例提供的生成风险评估量表的方法，通过先后对剩余变量进行初筛选和精筛选，进一步能够高效、准确地生成风险评估量表。

在上述实施例的基础上，所述对初筛选后的剩余变量进行精筛选，以获取所述关键变量，包括：

采用XGboost算法对初筛选后的剩余变量进行初次精筛选，以获取初次精筛选后的剩余变量。

具体的，装置采用XGboost算法对初筛选后的剩余变量进行初次精筛选，以获取初次精筛选后的剩余变量。可参照上述实施例，不再赘述。

采用逻辑回归对初次精筛选后的剩余变量进行二次精筛选，以获取所述关键变量。

具体的，装置采用逻辑回归对初次精筛选后的剩余变量进行二次精筛选，以获取所述关键变量。可参照上述实施例，不再赘述。

本发明实施例提供的生成风险评估量表的方法，分别采用XGboost算法和逻辑回归进行精筛选，进一步能够高效、准确地生成风险评估量表。

在上述实施例的基础上，所述验证所述关键变量，并根据验证结果生成风险评估量表，包括：

基于Logistics算法对所述关键变量进行N折交叉验证，并根据验证结果生成风险评估量表。

具体的，装置基于Logistics算法对所述关键变量进行N折交叉验证，并根据验证结果生成风险评估量表。可参照上述实施例，不再赘述。

本发明实施例提供的生成风险评估量表的方法，通过Logistics算法对关键变量进行N折交叉验证，进一步能够准确地生成风险评估量表。

在上述实施例的基础上，所述插补剩余变量的缺失值，包括：

采用K最近邻分类算法插补剩余变量的缺失值。

具体的，装置采用K最近邻分类算法插补剩余变量的缺失值。可参照上述实施例，不再赘述。

本发明实施例提供的生成风险评估量表的方法，通过采用K最近邻分类算法插补剩余变量的缺失值，能够保证插补数值的准确性，进一步能够高效、准确地生成风险评估量表。

在上述实施例的基础上，所述采用K最近邻分类算法插补剩余变量的缺失值，包括：

根据所述剩余变量的变量类型，采用K最近邻分类算法插补不同变量类型的剩余变量的缺失值。

具体的，装置根据所述剩余变量的变量类型，采用K最近邻分类算法插补不同变量类型的剩余变量的缺失值。可参照上述实施例，不再赘述。

本发明实施例提供的生成风险评估量表的方法，通过插补不同变量类型的剩余变量的缺失值，进一步能够保证插补数值的准确性。

在上述实施例的基础上，所述变量类型包括连续型变量和分类型变量；相应的，所述根据所述剩余变量的变量类型，采用K最近邻分类算法插补不同变量类型的剩余变量的缺失值，包括：

若判断获知所述变量类型为连续型变量，通过k个相邻实例进行加权平均，以获取所述缺失值的代替值。

具体的，装置若判断获知所述变量类型为连续型变量，通过k个相邻实例进行加权平均，以获取所述缺失值的代替值。可参照上述实施例，不再赘述。

若判断获知所述变量类型为分类型变量，获取所述分类型变量的子分类出现频次占所有子分类出现频次的比重。

具体的，装置若判断获知所述变量类型为分类型变量，获取所述分类型变量的子分类出现频次占所有子分类出现频次的比重。可参照上述实施例，不再赘述。

将最大比重对应的子分类的变量值作为所述缺失值的代替值。

具体的，装置将最大比重对应的子分类的变量值作为所述缺失值的代替值。可参照上述实施例，不再赘述。

本发明实施例提供的生成风险评估量表的方法，通过分别采用不同的方式插补连续型变量和分类型变量的剩余变量的缺失值，进一步能够保证插补数值的准确性。

图2为本发明实施例生成风险评估量表的装置结构示意图，如图2所示，本发明实施例提供了一种生成风险评估量表的装置，包括建立单元201、插补单元202、筛选单元203和生成单元204，其中：

建立单元201用于根据风险评估基本信息建立风险评估数据库；插补单元202用于插补剩余变量的缺失值；所述剩余变量是所述风险评估数据库中的数据缺失率小于等于预设缺失率阈值的变量；筛选单元203用于筛选插补缺失值后的剩余变量，以获取风险评估的关键变量；生成单元204用于验证所述关键变量，并根据验证结果生成风险评估量表。

具体的，建立单元201用于根据风险评估基本信息建立风险评估数据库；插补单元202用于插补剩余变量的缺失值；所述剩余变量是所述风险评估数据库中的数据缺失率小于等于预设缺失率阈值的变量；筛选单元203用于筛选插补缺失值后的剩余变量，以获取风险评估的关键变量；生成单元204用于验证所述关键变量，并根据验证结果生成风险评估量表。

本发明实施例提供的生成风险评估量表的装置，通过插补小于等于预设缺失率阈值的变量的缺失值，筛选剩余变量获取关键变量，再验证关键变量，并根据验证结果生成风险评估量表，能够高效、准确地生成风险评估量表。

本发明实施例提供的生成风险评估量表的装置具体可以用于执行上述各方法实施例的处理流程，其功能在此不再赘述，可以参照上述方法实施例的详细描述。

图3为本发明实施例提供的电子设备实体结构示意图，如图3所示，所述电子设备包括：处理器(processor)301、存储器(memory)302和总线303；

其中，所述处理器301、存储器302通过总线303完成相互间的通信；

所述处理器301用于调用所述存储器302中的程序指令，以执行上述各方法实施例所提供的方法，例如包括：根据风险评估基本信息建立风险评估数据库；插补剩余变量的缺失值；所述剩余变量是所述风险评估数据库中的数据缺失率小于等于预设缺失率阈值的变量；筛选插补缺失值后的剩余变量，以获取风险评估的关键变量；验证所述关键变量，并根据验证结果生成风险评估量表。

本实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：根据风险评估基本信息建立风险评估数据库；插补剩余变量的缺失值；所述剩余变量是所述风险评估数据库中的数据缺失率小于等于预设缺失率阈值的变量；筛选插补缺失值后的剩余变量，以获取风险评估的关键变量；验证所述关键变量，并根据验证结果生成风险评估量表。

本实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述各方法实施例所提供的方法，例如包括：根据风险评估基本信息建立风险评估数据库；插补剩余变量的缺失值；所述剩余变量是所述风险评估数据库中的数据缺失率小于等于预设缺失率阈值的变量；筛选插补缺失值后的剩余变量，以获取风险评估的关键变量；验证所述关键变量，并根据验证结果生成风险评估量表。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的电子设备等实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上各实施例仅用以说明本发明的实施例的技术方案，而非对其限制；尽管参照前述各实施例对本发明的实施例进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明的各实施例技术方案的范围。

Claims

1.一种生成风险评估量表的方法，其特征在于，包括：

根据风险评估基本信息建立风险评估数据库；

验证所述关键变量，并根据验证结果生成风险评估量表。

2.根据权利要求1所述的方法，其特征在于，所述筛选插补缺失值后的剩余变量，以获取风险评估的关键变量，包括：

采用统计方法对所述剩余变量进行初筛选；

对初筛选后的剩余变量进行精筛选，以获取所述关键变量。

3.根据权利要求2所述的方法，其特征在于，所述对初筛选后的剩余变量进行精筛选，以获取所述关键变量，包括：

采用XGboost算法对初筛选后的剩余变量进行初次精筛选，以获取初次精筛选后的剩余变量；

4.根据权利要求1所述的方法，其特征在于，所述验证所述关键变量，并根据验证结果生成风险评估量表，包括：

5.根据权利要求1所述的方法，其特征在于，所述插补剩余变量的缺失值，包括：

采用K最近邻分类算法插补剩余变量的缺失值。

6.根据权利要求5所述的方法，其特征在于，所述采用K最近邻分类算法插补剩余变量的缺失值，包括：

7.根据权利要求6所述的方法，其特征在于，所述变量类型包括连续型变量和分类型变量；相应的，所述根据所述剩余变量的变量类型，采用K最近邻分类算法插补不同变量类型的剩余变量的缺失值，包括：

若判断获知所述变量类型为连续型变量，通过k个相邻实例进行加权平均，以获取所述缺失值的代替值；

若判断获知所述变量类型为分类型变量，获取所述分类型变量的子分类出现频次占所有子分类出现频次的比重；

8.一种生成风险评估量表的装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：处理器、存储器和总线，其中，

所述处理器和所述存储器通过所述总线完成相互间的通信；

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1至7任一所述的方法。

10.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求1至7任一所述的方法。