CN116483817A

CN116483817A - 一种数据填补模型选择、健康评测方法及装置

Info

Publication number: CN116483817A
Application number: CN202310468014.5A
Authority: CN
Inventors: 张岩波; 杨弘; 田晶; 闫晶晶; 李靓; 何航帜; 杨晓敏
Original assignee: Shanxi University of Chinese Mediciine; Shanxi Medical University
Current assignee: Shanxi University of Chinese Mediciine; Shanxi Medical University
Priority date: 2023-04-25
Filing date: 2023-04-25
Publication date: 2023-07-25

Abstract

本发明提供了一种数据填补模型选择、健康评测方法及装置，其中，数据填补模型选择方法包括：获取源数据集，其中，源数据集中包括多组数据，每组数据包括预设类型的数据；对源数据集中每一种类型的数据进行预处理，构造多组不同缺失比例的数据集；将每一组缺失比例的数据集依次输入到多个数据填补模型中，获取数据填补结果；根据数据填补结果，从多个数据填补模型中，选取与每一组缺失比例的数据集对应的目标数据填补模型。本发明可解决如何对具有缺失的数据进行填补，得到真实、可靠、完整的目标数据的技术问题。

Description

一种数据填补模型选择、健康评测方法及装置

技术领域

本发明涉及数据处理技术领域，尤其是涉及一种数据填补模型选择、健康评测方法及装置。

背景技术

医学数据资源被广泛用于开发各类疾病的诊断、预测临床决策支持系统，对于疾病的诊断、治疗和医学研究具有很高的价值。然而，由于临床治疗的个性化差异，或者记录、录入信息不准确，造成患者临床医学数据的缺失不可避免。不完整的医学数据对于疾病的预测、诊断、治疗和医学研究参考价值较低，可能造成误测、误诊以及误治。因此如何对具有缺失的数据进行填补，得到真实、可靠、完整的目标数据成为亟待解决的技术问题。

发明内容

因此，本发明为解决如何对具有缺失的数据进行填补，得到真实、可靠、完整的目标数据的技术问题，从而提供一种数据填补模型选择、健康评测方法及装置。

第一方面，本发明实施例公开了一种数据填补模型选择方法，包括：

获取源数据集，其中，源数据集中包括多组数据，每组数据包括预设类型的数据；对源数据集中每一种类型的数据进行预处理，构造多组不同缺失比例的数据集；将每一组缺失比例的数据集依次输入到多个数据填补模型中，获取数据填补结果；根据数据填补结果，从多个数据填补模型中，选取与每一组缺失比例的数据集对应的目标数据填补模型。

本发明提供的数据填补模型构建方法，通过对源数据集中每一种类型的数据进行预处理，构造多组不同缺失比例的数据集，将每一组缺失比例的数据集依次输入到多个数据填补模型中，获取数据填补结果，根据数据填补结果，从多个数据填补模型中，选取与每一组缺失比例的数据集对应的目标数据填补模型，发挥不同数据填补模型对相应缺失比例下预设类型数据进行填补，得到每种类型数据在相应缺失比例条件下的最优填补结果，使得填补后的数据更加接近真实数据，提高填补数据的可靠性。

可选地，根据数据填补结果，从多个数据填补模型中，选取与每一组缺失比例的数据集对应的数据填补模型，具体包括：

从多个数据填补模型中选取与第一类型中第一组缺失比例的数据集对应的填补结果最优的数据填补模型，作为与第一组缺失比例的数据集对应的目标填补模型，其中，第一类型为源数据集中的任一类型，第一组缺失比例的数据集为多组不同缺失比例的数据集中的任一组数据集。

可选地，当存在第一类型的数据集的缺失比例小于或者等于预设比例阈值，且预设比例阈值为以第一组缺失比例的数据集的缺失比例为基准设定的缺失比例时，则确定与第一类型的数据集对应的目标填补模型为与第一组缺失比例的数据集对应的填补结果最优的数据填补模型；

或者，当存在第一类型的数据集的缺失比例大于或者等于预设比例阈值，则确定与第一类型的数据集对应的目标填补模型为与第一类型中的第二组缺失比例的数据集对应的填补结果最优的数据填补模型，其中，第二组缺失比例的数据集的缺失比例大于第一缺失比例。

第二方面，本发明实施例公开了一种健康评测方法，包括：获取目标对象的原始特征数据集；

基于原始特征数据集分析得到缺失特征数据；

利用第一方面任一数据填补模型选择方法对原始特征数据集中的缺失特征数据进行填补，得到填补后的特征数据集；

将填补后的特征数据集输入至预先构建得到的健康评测模型，得到目标对象的健康评测结果。

可选地，将填补后的特征数据集输入至预先构建得到的健康评测模型，得到目标对象的健康评测结果之后，还包括：

基于填补后的特征数据集、目标对象的健康评测结果以及健康评测模型，对目标对象的健康评测结果进行解析，确定填补后的特征数据集中不同特征数据对健康评测结果的贡献度。

可选地，基于填补后的特征数据集、目标对象的健康评测结果以及健康评测模型，对目标对象的健康评测结果进行解析，确定填补后的特征数据集中不同特征数据对健康评测结果的贡献度，具体包括：

对填补后的特征数据集中的不同特征数据进行任意排列组合，得到多组特征数据排列顺序不同的特征数据集；

将每一组特征数据集中的特征数据分别依次输入至健康评测模型中，依次得到每输入一个特征数据后对应的目标对象的健康评测结果；

基于多组特征数据排列顺序不同的特征数据集以及对应的目标对象的健康评测结果，确定填补后的特征数据集中不同特征数据对健康评测结果的贡献度。

本发明第三方面提供了一种数据填补模型选择装置，包括：

第一获取模块，用于获取源数据集，其中，源数据集中包括多组数据，每组数据包括预设类型的数据；

第一处理模块，用于对源数据集中每一种类型的数据进行预处理，构造多组不同缺失比例的数据集；

第一输入模块，用于将每一组缺失比例的数据集依次输入到多个数据填补模型中，获取数据填补结果；

第一选取模块，用于根据数据填补结果，从多个数据填补模型中，选取与每一组缺失比例的数据集对应的目标数据填补模型。

本发明提供的数据填补模型选择装置中各部件所执行的功能均已在上述第一方面任一方法实施例中得以应用，因此这里不再赘述。

本发明第四方面提供了一种健康评测装置，包括：第二获取模块，用于获取目标对象的原始特征数据集；

第一分析模块，用于基于原始特征数据集分析得到缺失特征数据；

第一填补模块，用于利用第二方面任一数据填补模型选择方法对目标对象原始特征数据中的缺失特征数据进行填补，得到填补后的目标对象特征数据；

第二输入模块，用于将填补后的特征数据集输入至预先构建得到的健康评测模型，得到目标对象的健康评测结果。

本发明提供的健康评测装置中各部件所执行的功能均已在上述第二方面任一方法实施例中得以应用，因此这里不再赘述。

本发明第五方面提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序时，实现上述第一方面的数据填补模型选择方法的步骤，或者实现上述第二方面的健康评测方法的步骤。

本发明第六方面提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机指令，计算机指令用于使计算机执行如本发明第一方面提供的数据填补模型选择方法，或者执行如本发明第二方面提供的健康评测方法。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的数据填补模型选择方法流程示意图；

图2为本发明一实施例提供的健康评测方法流程示意图；

图3为本发明实施例提供的一种数据填补模型选择装置结构示意图；

图4为本发明实施例提供的一种健康评测装置结构示意图；

图5为本发明实施例提供的一种电子设备结构示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例的附图，对本公开实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。基于所描述的本公开的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

除非另外定义，本公开使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“一个”、“一”或者“该”等类似词语也不表示数量限制，而是表示存在至少一个。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

针对背景技术中所提及的技术问题，本发明实施例提供了一种数据填补模型选择方法，如图1所示，该方法的步骤包括：

步骤S110，获取源数据集，其中，源数据集中包括多组数据，每组数据包括预设类型的数据。

具体地，源数据集可以指没有缺失数据的完整数据集，源数据集可以通过从具有缺失的原始数据集中将不完整的数据类型进行删除，提取得到完整数据集，即源数据集，使得得到的源数据集中的数据全部为真实数据，从而提高数据填补模型选择地准确性。源数据集中包括的多组数据可以指多个目标对象，每个目标对象对应一组数据。预设类型的数据可以指与每个目标对象对应的多个变量因子，每一个变量因子为一种类型的数据。

示例性地，作为一可选实施例，原始数据集中可以包括200个目标对象，每一个目标对象包括30个变量因子，30个变量因子可表示为X1、X2、X3、X4、X5、X6、X7、X8、……、X30，变量因子可以包括连续变量和分类变量。原始数据集可以构成以目标对象为行，以不同类型的变量因子为列的数据集，将有数据缺失的行或列删除，即可得到没有缺失数据的完整数据集，作为源数据集。作为可能结果，源数据集中可包括100个目标对象，每个目标对象包括9个变量因子，9个变量因子可表示为X1、X2、X3、X4、X5、X6、X7、X8和X9。

步骤S120，对源数据集中每一种类型的数据进行预处理，构造多组不同缺失比例的数据集。

具体地，预处理包括源数据集的缺失比例和缺失机制，缺失比例可以为缺失数据占当前数据类型总体数据的百分比，如产生5％、10％、15％和30％等不同缺失比例的数据集。缺失机制可以为缺失数据的缺失形式，例如，可以是完全随机缺失(Missingcompletely at random，MCAR)、随机缺失(Missing at random，MAR)和非随机缺失(Missing not at random，MNAR)等形式。

示例性地，以源数据集中包括100个目标对象，每个目标对象包括9个变量因子，如X1、X2、X3、X4、X5、X6、X7、X8以及X9为例。以100个目标对象为行，9个变量因子为列，构成100行9列的数据集。对9个变量因子中X1变量因子进行随机缺失处理，得到X1变量因子缺失比例为5％的第一组数据集，缺失比例为10％的第二组数据集，缺失比例为15％的第三组数据集，缺失比例为30％的第四组数据集等，其他变量因子同理。需要说明的是由于存在即使缺失比例相同，但随机缺失的数据不同，所以每一列缺失比例为5％/10％/15％/30％等的数据集可以有多组，此处不做限制，本领域技术人员可以根据实际情况进行确定。

步骤S130，将每一组缺失比例的数据集依次输入到多个数据填补模型中，获取数据填补结果。

具体地，本实施例提供了一种针对混合型缺失数据的基于分类器优化的混合填补方法(Hybrid Ensemble Imputation method for Mixed dataset，HEIM)，即数据填补模型可以包括但不限于混合数据因子分析(the Factorial Analysis for Mixed Data，FAMD)、mRF、链式方程多重填补(Multivariate Imputation by Chained Equations，MICE)以及K最近邻填补(K Nearest Neighbors Imputation，KNN)等多种模型。需要说明的是在本实施例中每种数据填补模型对每一组缺失比例的数据集中不同类型的变量因子都进行填补，一方面按行来考虑，可以考虑到同一组中不同类型变量因子之间的关联关系；另一方面按列来考虑，可以考虑到同类数据的统计学规律以及相似性，可以提高数据填补的准确性。

示例性地，以预设缺失比例为5％、10％、15％、30％为例。分别构造变量因子X1-X9缺失比例为5％的多组数据，将缺失比例为5％X1-X9数据输入到每一个数据填补模型中尽心填补，迭代预设次数，获取数据填补结果。其他缺失比例同理，此处不再赘述。

步骤S140，根据数据填补结果，从多个数据填补模型中，选取与每一组缺失比例的数据集对应的目标数据填补模型。

具体地，通过记录各填补模型对连续变量的正则化均方根误差(the NormalizedRoot Mean Squared Error，NRMSE)和对分类变量的错分类比例(the Proportion ofFalsely Classified，PFC)，选取缺失变量因子分别对应的最优填补方法。

示例性地，以HEIM中包括但FAMD、mRF、MICE以及KNN数据填补模型为例，如算法HEIM所示：

算法HEIM()

{

输入具有缺失数据的原始数据集DataA

进行或列删除获得源数据集DataB

基于DataB产生随机缺失数据(5/10/15/30％)simData

应用FAMD预测simData缺失值，产生simData1

应用mRF预测simData缺失值，产生simData2

应用MICE预测simData缺失值，产生simData3

应用KNN预测simData缺失值，产生simData4

将数据集simDataN赋值给DataC

N＝DataB变量因子个数

For(i＝1to N)

{

用SimDta1的第i列替换DataC的第i列，使用分类器计算获得NRMSE/PFC

用SimDta2的第i列替换DataC的第i列，使用分类器计算获得NRMSE/PFC

用SimDta3的第i列替换DataC的第i列，使用分类器计算获得NRMSE/PFC

用SimDta4的第i列替换DataC的第i列，使用分类器计算获得NRMSE/PFC

选择NRMSE/PFC最小的数据集

将数据集DataC的第i列替换为上一步中选择的数据集

}

输出填补后的DataC}

本发明实施例提供的数据填补模型选择方法，通过对源数据集中每一种类型的数据进行预处理，构造多组不同缺失比例的数据集，将每一组缺失比例的数据集依次输入到多个数据填补模型中，获取数据填补结果，根据数据填补结果，从多个数据填补模型中，选取与每一组缺失比例的数据集对应的目标数据填补模型，发挥不同数据填补模型对相应缺失比例下预设类型数据进行填补，得到每种类型数据在相应缺失比例条件下的最优填补结果，使得填补后的数据更加接近真实数据，提高填补数据的可靠性。

作为本发明一可选实施方式，步骤S140，包括：

步骤S210，从多个数据填补模型中选取与第一类型中第一组缺失比例的数据集对应的填补结果最优的数据填补模型，作为与第一组缺失比例的数据集对应的目标填补模型，其中，第一类型为源数据集中的任一类型，第一组缺失比例的数据集为多组不同缺失比例的数据集中的任一组数据集。

具体地，通过记录各填补模型对连续变量的正则化均方根误差(the NormalizedRoot Mean Squared Error，NRMSE)和对分类变量的错分类比例(the Proportion ofFalsely Classified，PFC)，选取缺失变量因子分别对应的最优填补方法。如当第一类型为X1，第一组缺失比例为5％的数据集对应的最优填补方法是FAMD，则将FAMD数据填补模型作为缺失比例为5％的第一类型为X1的目标填补模型；当第一类型为X1，第一组缺失比例为10％的数据集对应的最优填补方法是MICE，则将MICE数据填补模型作为缺失比例为10％的第一类型为X1的目标填补模型；当第一类型为X3，第一组缺失比例为5％的数据集对应的最优填补方法是mRF，则将mRF数据填补模型作为缺失比例为5％的第一类型为X3的目标填补模型；当第一类型为X3，第一组缺失比例为10％的数据集对应的最优填补方法是KNN，则将KNN数据填补模型作为缺失比例为10％的第一类型为X3的目标填补模型等。其他类型的数据以及缺失比例确定目标填补模型同理，此处不再赘述。

本发明实施例提供的数据填补模型选择方法，从多个数据填补模型中选取与第一类型中第一组缺失比例的数据集对应的填补结果最优的数据填补模型，作为与第一组缺失比例的数据集对应的目标填补模型，通过从多个数据填补模型中，选取与每一组缺失比例的数据集对应的目标数据填补模型，发挥不同数据填补模型对相应缺失比例下预设类型数据进行填补，得到每种类型数据在相应缺失比例条件下的最优填补结果，使得填补后的数据更加接近真实数据，提高填补数据的可靠性。

作为本发明一可选实施方式，当存在第一类型的数据集的缺失比例小于或者等于预设比例阈值，且预设比例阈值为以第一组缺失比例的数据集的缺失比例为基准设定的缺失比例时，则确定与第一类型的数据集对应的目标填补模型为与第一组缺失比例的数据集对应的填补结果最优的数据填补模型；或者，当存在第一类型的数据集的缺失比例大于或者等于预设比例阈值，则确定与第一类型的数据集对应的目标填补模型为与第一类型中的第二组缺失比例的数据集对应的填补结果最优的数据填补模型，其中，第二组缺失比例的数据集的缺失比例大于第一缺失比例。

具体地，对源数据集中每一种类型的数据进行预处理，构造多组不同缺失比例的数据集，其中，多组不同缺失比例为预设的多组不同值，根据预设规则对不属于预设的多组不同值的数值进行归类。

示例性地，以在数据填补模型选择方法中预设比例阈值有5％、10％、15％以及30％四个值为例。预设比例阈值的四个值并未能覆盖到0-30％或者0-100％中所有的比例，所以需要将为覆盖到的值通过预设规则进行归类。经过数据填补模型选择方法确定的每一组缺失比例的数据集对应的目标数据填补模型后。作为一可选实施例，预设规则可以将0-5％的比例值对应到5％；将5％-10％的比例值对应到10％；将10％-15％的比例值对应到15％；将15％-30％的比值对应到30％。当缺失比例大于30％时可以认为缺失数据太多，填补效果准确度较低。本领域技术人员可以根据实际需要进行设定，此处不做限制。需要说明的是若当前缺失比例等于预设比例阈值时，当前缺失比例对应的预设比例阈值本领域技术人员可以根据实际情况进行确定，此处不做限制。如当第一类型为X1，第一组缺失比例为5％的数据集对应的最优填补方法是FAMD，则可以设定当第一类型为X1，第一组缺失比例为<5％的数据集对应的最优填补方法是FAMD，或者，当第一类型为X1，第一组缺失比例为10％的数据集对应的最优填补方法是MICE，则可以设定当第一类型为X1，第一组缺失比例为大于5％，小于10％的数据集对应的最优填补方法是MICE。

示例性地，经过种数据填补模型选择方法确定的每一组缺失比例的数据集对应的目标数据填补模型后。同一类型的数据在不同缺失比例条件下，可能对应不同的最优数据填补模型。此时可以通过当前类型的数据在原始数据中的缺失比例来确定该类型数据的最优数据填补模型。如当第一类型为X1，第一组缺失比例为5％的数据集对应的最优填补方法是FAMD；当第一类型为X1，第一组缺失比例为10％的数据集对应的最优填补方法是MICE。但是变量因子X1在原始数据集中的缺失比例为3％，则可以选择FAMD数据填补模型作为变量因子X1的最优填补模型。其他的变量因子以及缺失比例同理，此处不再赘述。

本发明实施例提供的数据填补模型选择方法，通过预设比例阈值，将不同缺失比例对应到相应的预设比例阈值，一方面用有限数量的预设比例阈值覆盖到一个相对较大的范围，在发挥不同数据填补模型对相应缺失比例下预设类型数据进行填补，得到每种类型数据在相应缺失比例条件下的最优填补结果，使得填补后的数据更加接近真实数据，提高填补数据的可靠性的同时，减少数据填补模型选择过程的计算量，提高选择效率；另一方面可以很好的平衡缺失比例数值范围，数据填补模型选择过程的算力以及填补数据的可靠性三者之间的关系。

本发明实施例提供了一种健康评测方法，如图2所示，该方法的步骤包括：

步骤S410，获取目标对象的原始特征数据集。

具体地，本实施例以目标对象为心血管疾病患者，如冠心病、充血性心力衰竭、心脏病发作、卒中、心绞痛等为例，此处不做限制，本领域技术人员可根据实际情况对目标对象进行确定。原始特征数据集与目标对象对应，本实施例以原始特征数据集包括维生素暴露、年龄、饮酒、吸烟、肾小球滤过率、γ-GT、肌酸酐和总胆红素至少一类数据为例。上述数据可以通过医疗设备测量以及患者自述得到，或者为历史测量数据。

步骤S420，基于原始特征数据集分析得到缺失特征数据。

具体地，获取参考指标数据集，其中，参考指标数据集中包括用于参与健康评测的完整数据类型。将原始特征数据集与完整数据类型进行比较分析，得到原始特征数据集中缺失特征数据。

示例性地，完整数据类型包括维生素暴露、年龄、饮酒、吸烟、肾小球滤过率、γ-GT、肌酸酐和总胆红素。原始特征数据集中包括维生素暴露、年龄、饮酒、吸烟和肾小球滤过率，经分析可知缺失特征数据为γ-GT、肌酸酐和总胆红素。

步骤S430，利用上述任一数据填补模型选择方法对原始特征数据集中的缺失特征数据进行填补，得到填补后的特征数据集。

具体地，根据数据填补模型选择方法已经确定了不同变量因子所对应的最优填补模型。利用数据填补模型选择方法对原始特征数据集中的缺失特征数据进行填补，得到填补后的特征数据集，即完整数据集。

步骤S440，将填补后的特征数据集输入至预先构建得到的健康评测模型，得到目标对象的健康评测结果。

具体地，本实施例可以但不限于利用CatBoost(Categorical Features GradientBoosting)、决策树(Decision Tree，DT)、随机森林(Random Forest，RF)、LightGBM(LightGradient Boosting Machine)、极端梯度提升(eXtreme Gradient Boosting，XGBoost)等树模型构建健康评测模型。通过目标对象曲线下面积(Area Under Curve，AUC)、准确性(Accuracy)、召回率(Recall)、精确性(Precision)、F1 score和Kappa中一种或者多种指标在测试集上进行模型评估。或者通过绘制了目标对象特征曲线(receiver operatingcharacteristic curve，ROC)、模型的校准曲线(Calibration Curve)和Kolmogorov-Smirnov曲线对不同模型进行可视化评估，确定最优模型。预测模型的构建方式较成熟，此处不再赘述。

示例性地，分别获取四组患者男性患者1、男性患者2、女性患者1、女性患者2的原始特征数据集，并对缺失数据进行填补，得到四组完整的数据集，将填补后的完整数据输入至健康预测模型中对患者15年内全因死亡风险进行预测，具体如表1所示：

表1

根据表1可知，和男性患者1相比，男性患者2年龄小于62岁、维生素高暴露和戒烟半年以上，但是其15年内全因死亡风险降低了76.5％，说明以上三个特征对男性患者具有较高的风险因素效应值。女性患者2与女性患者1相比，年龄小于62岁、维生素高暴露、戒烟半年以上以及具有较小的总胆红素，其风险降低了58.89％。

本发明实施例提供的健康评测方法，通过健康预测模型对目标对像的健康状况进行预测，健康预测模型可以更有效地探索变量之间的相关性，进而做出较为精准的预测。

作为本发明一可选实施方式，还包括：

步骤S510，基于填补后的特征数据集、目标对象的健康评测结果以及健康评测模型，对目标对象的健康评测结果进行解析，确定填补后的特征数据集中不同特征数据对健康评测结果的贡献度。

具体地，作为本发明一可选实施方式，对填补后的特征数据集中的不同特征数据进行任意排列组合，得到多组特征数据排列顺序不同的特征数据集。将每一组特征数据集中的特征数据分别依次输入至健康评测模型中，依次得到每输入一个特征数据后对应的目标对象的健康评测结果。基于多组特征数据排列顺序不同的特征数据集以及对应的目标对象的健康评测结果，确定填补后的特征数据集中不同特征数据对健康评测结果的贡献度。

示例性地，以健康预测模型为Catboost模型为例，应用CatBoost模型计算出的SHAP(SHapley Additive exPlanations)值，进一步计算Shapley值，并将特征归因可视化。使用SHAP展示了不同风险因素对心血管患者全因死亡的影响。对维生素暴露、年龄、饮酒、吸烟、肾小球滤过率、γ-GT、肌酸酐和总胆红素8个风险因素在全人群、男性和女性分别做重要性排序与稳定性解释。

其中SHAP值是基于Shapley值，可以量化每个特征对模型所做预测结果的贡献，属于模型事后解释的方法。即SHAP构建一个加性的解释模型，所有的特征都视为“贡献者”；对于每个预测样本，模型都产生一个预测值，SHAP值就是该样本中每个特征所分配到的数值。

需要说明的是，Shapley值是博弈论中的一个概念，可公平地定量评估特征边际贡献，是一种描述模型在对特定数据点进行预测时对特定特征的“权重”或“重要性”的方法，正值或负值表示效果的方向；其基本思想可以理解为，计算一个特征加入到模型时的边际贡献，然后考虑到该特征在所有的特征序列的情况下不同的边际贡献，再取均值，即得到该特征某一个值的Shapley值。也即计算出每一个样本中的每一个特征变量的贡献值(Shapley Value)，再将特征变量对应的Shapley值相加，从而解释每个特征变量是如何影响模型的预测值。

采用基于排列的特征重要性方法进行解释。基于排列的特征重要性，通过计算变换特征输入顺序后模型预测误差的增加来衡量特征的重要性。如果对特征的值进行重排后会增加模型误差，则该特征是“重要的”；如果对特征的值进行重排模型误差保持不变，则该特征是“不重要的”；

需要说明的是，基于预测模型的可解释性分析属于现有技术，相对成熟，此处不再赘述。

本发明实施例提供的健康评测方法，通过填补后的特征数据集、目标对象的健康评测结果以及健康评测模型，对目标对象的健康评测结果进行解析，确定填补后的特征数据集中不同特征数据对健康评测结果的贡献度，使得用于预测的各特征数据对预测结果的影响程度透明化。

图3为本发明一实施例提供的一种数据填补模型选择装置，包括：

第一获取模块710，用于获取源数据集，其中，源数据集中包括多组数据，每组数据包括预设类型的数据。详细内容参见上述实施例中对应部分的描述，在此不再赘述。

第一处理模块720，用于对源数据集中每一种类型的数据进行预处理，构造多组不同缺失比例的数据集。详细内容参见上述实施例中对应部分的描述，在此不再赘述。

第一输入模块730，用于将每一组缺失比例的数据集依次输入到多个数据填补模型中，获取数据填补结果。详细内容参见上述实施例中对应部分的描述，在此不再赘述。

第一选取模块740，用于根据数据填补结果，从多个数据填补模型中，选取与每一组缺失比例的数据集对应的目标数据填补模型。详细内容参见上述实施例中对应部分的描述，在此不再赘述。

作为本发明一可选实施装置，第一选取模块740，包括：

第二选取模块，用于从多个数据填补模型中选取与第一类型中第一组缺失比例的数据集对应的填补结果最优的数据填补模型，作为与第一组缺失比例的数据集对应的目标填补模型，其中，第一类型为源数据集中的任一类型，第一组缺失比例的数据集为多组不同缺失比例的数据集中的任一组数据集。详细内容参见上述实施例中对应部分的描述，在此不再赘述。

作为本发明一可选实施装置，第一确定模块，用于当存在第一类型的数据集的缺失比例小于或者等于预设比例阈值，且预设比例阈值为以第一组缺失比例的数据集的缺失比例为基准设定的缺失比例时，则确定与第一类型的数据集对应的目标填补模型为与第一组缺失比例的数据集对应的填补结果最优的数据填补模型；

或者，第二确定模块，用于当存在第一类型的数据集的缺失比例大于或者等于预设比例阈值，则确定与第一类型的数据集对应的目标填补模型为与第一类型中的第二组缺失比例的数据集对应的填补结果最优的数据填补模型，其中，第二组缺失比例的数据集的缺失比例大于第一缺失比例。详细内容参见上述实施例中对应部分的描述，在此不再赘述。

图4为本发明一实施例提供的一种健康评测装置，包括：

第二获取模块810，用于获取目标对象的原始特征数据集。详细内容参见上述实施例中对应部分的描述，在此不再赘述。

第一分析模块820，用于基于原始特征数据集分析得到缺失特征数据。详细内容参见上述实施例中对应部分的描述，在此不再赘述。

第一填补模块830，用于利用上述任一数据填补模型选择方法对目标对象原始特征数据中的缺失特征数据进行填补，得到填补后的目标对象特征数据。详细内容参见上述实施例中对应部分的描述，在此不再赘述。

第二输入模块840，用于将填补后的特征数据集输入至预先构建得到的健康评测模型，得到目标对象的健康评测结果。详细内容参见上述实施例中对应部分的描述，在此不再赘述。

作为本发明一可选实施装置，还包括：

第三确定模块，用于基于填补后的特征数据集、目标对象的健康评测结果以及健康评测模型，对目标对象的健康评测结果进行解析，确定填补后的特征数据集中不同特征数据对健康评测结果的贡献度。详细内容参见上述实施例中对应部分的描述，在此不再赘述。

作为本发明一可选实施装置，第三确定模块，包括：

第一排列模块，用于对填补后的特征数据集中的不同特征数据进行任意排列组合，得到多组特征数据排列顺序不同的特征数据集。详细内容参见上述实施例中对应部分的描述，在此不再赘述。

第三输入模块，用于将每一组特征数据集中的特征数据分别依次输入至健康评测模型中，依次得到每输入一个特征数据后对应的目标对象的健康评测结果。详细内容参见上述实施例中对应部分的描述，在此不再赘述。

第四确定模块，用于基于多组特征数据排列顺序不同的特征数据集以及对应的目标对象的健康评测结果，确定填补后的特征数据集中不同特征数据对健康评测结果的贡献度。详细内容参见上述实施例中对应部分的描述，在此不再赘述。

本发明实施例提供了一种电子设备，如图5所示，该设备包括一个或多个处理器3010以及存储器3020，存储器3020包括持久内存、易失内存和硬盘，图5中以一个处理器3010为例。该设备还可以包括：输入装置3030和输出装置3040。

处理器3010、存储器3020、输入装置3030和输出装置3040可以通过总线或者其他方式连接，图5中以通过总线连接为例。

处理器3010可以包括但不限于中央处理器(Central Processing Unit，CPU)、图形处理器(Graphic Processing Unit，GPU)。处理器3010还可以为其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。存储器3020可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据数据填补模型选择装置，或者，健康评测装置的使用所创建的数据等。此外，存储器3020可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器3020可选包括相对于处理器3010远程设置的存储器，这些远程存储器可以通过网络连接至数据填补模型选择装置，或者，健康评测装置。输入装置3030可接收用户输入的计算请求(或其他数字或字符信息)，以及产生与数据填补模型选择装置，或者，健康评测装置有关的键信号输入。输出装置3040可包括显示屏等显示设备，用以输出计算结果。

本发明实施例提供了一种计算机可读存储介质，该计算机可读存储介质存储计算机指令，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的数据填补模型选择方法，或者，健康评测方法。其中，存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(Random Access Memory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，HDD)或固态硬盘(Solid-StateDrive，SSD)等；存储介质还可以包括上述种类的存储器的组合。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读存储介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读存储介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读存储介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RandomAccess Memory，RAM)，只读存储器(Read-Only Memory，ROM)，可擦除可编辑只读存储器(Erasable Programmable Read-Only Memory，EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(Compact Disc Read-Only Memory，CDROM)。另外，计算机可读存储介质甚至可以是可在其上打印程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序，然后将其存储在计算机存储器中。

应当理解，本公开的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(Programmable Gate Array，PGA)，现场可编程门阵列(Field Programmable Gate Array，FPGA)等。

在本说明书的描述中，参考术语“本实施例”、“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。在本公开描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种数据填补模型选择方法，其特征在于，包括：

获取源数据集，其中，所述源数据集中包括多组数据，每组数据包括预设类型的数据；

对所述源数据集中每一种类型的数据进行预处理，构造多组不同缺失比例的数据集；

将每一组缺失比例的数据集依次输入到多个数据填补模型中，获取数据填补结果；

根据所述数据填补结果，从多个所述数据填补模型中，选取与每一组缺失比例的数据集对应的目标数据填补模型。

2.根据权利要求1所述的方法，其特征在于，所述根据所述数据填补结果，从多个所述数据填补模型中，选取与每一组缺失比例的数据集对应的数据填补模型，具体包括：

从多个所述数据填补模型中选取与第一类型中第一组缺失比例的数据集对应的填补结果最优的数据填补模型，作为与所述第一组缺失比例的数据集对应的所述目标填补模型，其中，所述第一类型为所述源数据集中的任一类型，所述第一组缺失比例的数据集为多组不同缺失比例的数据集中的任一组数据集。

3.根据权利要求2所述的方法，其特征在于，当存在第一类型的数据集的缺失比例小于或者等于预设比例阈值，且所述预设比例阈值为以所述第一组缺失比例的数据集的缺失比例为基准设定的缺失比例时，则确定与所述第一类型的数据集对应的目标填补模型为与所述第一组缺失比例的数据集对应的填补结果最优的数据填补模型；

或者，当存在第一类型的数据集的缺失比例大于或者等于所述预设比例阈值，则确定与所述第一类型的数据集对应的目标填补模型为与所述第一类型中的第二组缺失比例的数据集对应的填补结果最优的数据填补模型，其中，所述第二组缺失比例的数据集的缺失比例大于所述第一缺失比例。

4.一种健康评测方法，其特征在于，包括：

获取目标对象的原始特征数据集；

基于所述原始特征数据集分析得到缺失特征数据；

利用权利要求1-3任一项所述数据填补模型选择方法对所述原始特征数据集中的所述缺失特征数据进行填补，得到填补后的特征数据集；

将所述填补后的特征数据集输入至预先构建得到的健康评测模型，得到所述目标对象的健康评测结果。

5.根据权利要求4所述的方法，其特征在于，所述将所述填补后的特征数据集输入至预先构建得到的健康评测模型，得到所述目标对象的健康评测结果之后，还包括：

基于所述填补后的特征数据集、所述目标对象的健康评测结果以及所述健康评测模型，对所述目标对象的健康评测结果进行解析，确定所述填补后的特征数据集中不同特征数据对所述健康评测结果的贡献度。

6.根据权利要求5所述的方法，其特征在于，所述基于所述填补后的特征数据集、所述目标对象的健康评测结果以及所述健康评测模型，对所述目标对象的健康评测结果进行解析，确定所述填补后的特征数据集中不同特征数据对所述健康评测结果的贡献度，具体包括：

对所述填补后的特征数据集中的不同特征数据进行任意排列组合，得到多组特征数据排列顺序不同的特征数据集；

将每一组所述特征数据集中的特征数据分别依次输入至所述健康评测模型中，依次得到每输入一个所述特征数据后对应的所述目标对象的健康评测结果；

基于所述多组特征数据排列顺序不同的特征数据集以及对应的所述目标对象的健康评测结果，确定所述填补后的特征数据集中不同特征数据对所述健康评测结果的贡献度。

7.一种数据填补模型选择装置，其特征在于，包括：

第一获取模块，用于获取源数据集，其中，所述源数据集中包括多组数据，每组数据包括预设类型的数据；

第一处理模块，用于对所述源数据集中每一种类型的数据进行预处理，构造多组不同缺失比例的数据集；

第一选取模块，用于根据所述数据填补结果，从多个所述数据填补模型中，选取与每一组缺失比例的数据集对应的目标数据填补模型。

8.一种健康评测装置，其特征在于，包括：

第二获取模块，用于获取目标对象的原始特征数据集；

第一分析模块，用于基于所述原始特征数据集分析得到缺失特征数据；

第一填补模块，用于利用权利要求1-3任一所述数据填补模型选择方法对所述目标对象原始特征数据中的所述缺失特征数据进行填补，得到填补后的目标对象特征数据；

第二输入模块，用于将所述填补后的特征数据集输入至预先构建得到的健康评测模型，得到所述目标对象的健康评测结果。

9.一种电子设备，其特征在于，包括处理器和存储器，所述存储器与所述处理器耦合；

所述存储器上存储有计算机可读程序指令，当所述指令被所述处理器执行时，实现如权利要求1-3任一所述的数据填补模型选择方法，或者如权利要求4-6任一所述的健康评测方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-3任一所述的数据填补模型选择方法，或者如权利要求4-6任一所述的健康评测方法。