CN113704697A

CN113704697A - 基于多元回归模型的医疗数据缺失处理方法、装置及设备

Info

Publication number: CN113704697A
Application number: CN202111017232.4A
Authority: CN
Inventors: 徐啸
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-08-31
Filing date: 2021-08-31
Publication date: 2021-11-26
Anticipated expiration: 2041-08-31
Also published as: CN113704697B

Abstract

本申请公开了一种基于多元回归模型的医疗数据缺失处理方法、装置及设备，可解决目前已有数据填补方法在填补数据时，数据填补质量较差且准确性不够的技术问题。包括：获取医疗数据对应的缺失元组，并确定与所述缺失元组对应医疗数据类型匹配的完整元组，其中，所述缺失元组由缺失属性和部分完整属性构成，所述完整元组由完整属性构成；利用所述完整元组所包含的完整属性生成预设数量个多元回归模型；确定所述缺失元组中关于所述缺失属性的候选填补属性组合；在所述候选填补属性组合中筛选出在所述多元回归模型上总拟合误差最小的目标候选填补属性组合，利用所述目标候选填补属性组合填补所述缺失元组。本申请适用于对缺失医疗数据的填补处理。

Description

基于多元回归模型的医疗数据缺失处理方法、装置及设备

技术领域

本申请涉及大数据处理技术领域，尤其涉及到一种基于多元回归模型的医疗数据缺失处理方法、装置及设备。

背景技术

随着计算机技术和存储设备的快速发展，数据量爆发式增长，随之而来的便是各种数据质量问题，其中最为明显的就是数据缺失问题。缺失数据的存在显然会影响下游分析应用的性能，如聚类、分类、实体匹配等，以及统计分析的准确性，如均值、方差、中位数等。由此可见，准确地填补缺失数据是尤为重要的。

目前已有的数据填补方法是根据约束或统计信息对医疗数据进行填补，基于约束的方法利用定义在数据集上的规则约束来生成填补值，然而对于任意给定的数据集，通常很难得到准确且足够的规则约束，这意味着可用的约束可能并不足够指导填补所有缺失值，同时可用的约束并不一定是完全准确可靠的，可能会给数据集引入更多的脏数据，进一步降低数据填补的质量。基于统计的方法会根据分析数据的统计信息来对缺失数据进行填补，例如属性的均值等，而忽略了缺失元组中含有的其他完整属性值与该缺失属性的关系，导致填补准确性不高。

发明内容

有鉴于此，本申请提供了一种基于多元回归模型的医疗数据缺失处理方法、装置及设备，可用于解决目前已有数据填补方法在填补数据时，数据填补质量较差且准确性不够的技术问题。

根据本申请的一个方面，提供了一种基于多元回归模型的医疗数据缺失处理方法，该方法包括：

获取医疗数据对应的缺失元组，并确定与所述缺失元组对应医疗数据类型匹配的完整元组，其中，所述缺失元组由缺失属性和部分完整属性构成，所述完整元组由完整属性构成；

利用所述完整元组所包含的完整属性生成预设数量个多元回归模型；

确定所述缺失元组中关于所述缺失属性的候选填补属性组合；

在所述候选填补属性组合中筛选出在所述多元回归模型上总拟合误差最小的目标候选填补属性组合，利用所述目标候选填补属性组合填补所述缺失元组。

根据本申请的另一个方面，提供了一种基于多元回归模型的医疗数据缺失处理装置，该装置包括：

第一确定模块，用于获取医疗数据对应的缺失元组，并确定与所述缺失元组对应医疗数据类型匹配的完整元组，其中，所述缺失元组由缺失属性和部分完整属性构成，所述完整元组由完整属性构成；

生成模块，用于利用所述完整元组所包含的完整属性生成预设数量个多元回归模型；

第二确定模块，用于确定所述缺失元组中关于所述缺失属性的候选填补属性组合；

填补模块，用于在所述候选填补属性组合中筛选出在所述多元回归模型上总拟合误差最小的目标候选填补属性组合，利用所述目标候选填补属性组合填补所述缺失元组。

根据本申请的又一个方面，提供了一种存储介质，其上存储有计算机程序，所述程序被处理器执行时实现上述基于多元回归模型的医疗数据缺失处理方法。

根据本申请的再一个方面，提供了一种计算机设备，包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述基于多元回归模型的医疗数据缺失处理方法。

借由上述技术方案，本申请提供的一种基于多元回归模型的医疗数据缺失处理方法、装置及设备，与目前针对数据的填补方式相比，本申请可在获取到医疗数据对应的缺失元组后，相继确定与缺失元组对应医疗数据类型匹配的完整元组，进一步利用完整元组所包含的完整属性生成预设数量个多元回归模型；在确定缺失元组中关于缺失属性的候选填补属性组合后，进一步在候选填补属性组合中筛选出在多元回归模型上总拟合误差最小的目标候选填补属性组合，利用目标候选填补属性组合填补缺失元组。在本申请中，在对缺失数据填补时，不再受限于已有基于约束的填补方法对于规则约束的依赖，同时又利用了属性间的回归关系来指导缺失数据的填补，而不是像已有的基于统计的填补方法一样单纯依赖于属性值本身的数据统计信息，从而能够有效地提高填补准确性，带来更高质量的数据。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本地申请的不当限定。在附图中：

图1示出了本申请实施例提供的一种基于多元回归模型的医疗数据缺失处理方法的流程示意图；

图2示出了本申请实施例提供的另一种基于多元回归模型的医疗数据缺失处理方法的流程示意图；

图3示出了本申请实施例提供的一种基于多元回归模型的医疗数据缺失处理装置的结构示意图；

图4示出了本申请实施例提供的另一种基于多元回归模型的医疗数据缺失处理装置的结构示意图。

具体实施方式

本申请实施例可以基于区块链技术实现对基于多元回归模型的医疗数据缺失处理，具体可将医疗数据存储于区块链的节点中，以保证上述医疗数据的私密和安全性。本申请所指的区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

下文将参考附图并结合实施例来详细说明本申请。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合。

针对目前已有数据填补方法在填补数据时，数据填补质量较差且准确性不够的技术问题，本申请提供了一种基于多元回归模型的医疗数据缺失处理方法，如图1所示，该方法包括：

101、获取医疗数据对应的缺失元组，并确定与缺失元组对应医疗数据类型匹配的完整元组，其中，缺失元组由缺失属性和部分完整属性构成，完整元组由完整属性构成。

元组(tuple)是关系数据库中的基本概念，关系是一张表，表中的每行(即数据库中的每条记录)表示一个元组，每列对应一个属性。在二维表里，元组也称为行。对于本实施例，可将存在关联关系，或归属于同一患者、同一医院机构的医疗数据看作一张表，元组看成在整体医疗数据中的一行，如可包括验血化验数据、肝功能检测数据、放疗数据等，相应的，该元组对应的元组属性可为元组所对应行中的一列。如元组为验血化验数据，验血化验数据中的红细胞数据、白细胞数据等各种指标即对应该元组的不同元组属性；如元组为肝功能检测数据，肝功能检测数据中的谷丙转氨酶、谷草转氨酶、丙氨酰转肽酶以及总胆红素、直接胆红素和间接胆红素等即对应该元组的不同元组属性。相应的，缺失元组即对应存在一个或多个属性数据缺失或存在明显属性错误的元组，完整元组即对应不存在任何一个缺失属性的元组。

例如，针对于验血化验数据这一医疗数据类型，若包含患者A、B、C、D、E五个患者主体对应的验血化验数据：a、b、c、d、e，其中，验血化验数据d中的红细胞属性数据存在缺失，验血化验数据e中的白细胞属性数据存在缺失，而验血化验数据a、b、c中不存在缺失属性，此时可将验血化验数据d和验血化验数据e确定为两个缺失元组，将验血化验数据a、b、c确定为完整元组。对于本实施例，在进行对缺失元组d、e的数据缺失处理时，可首先筛选出与验血化验数据d、e对应医疗数据类型相同的完整元组，即可筛选出完整元组a、b、c。进一步的，可通过执行实施例步骤102至104，利用完整元组——验血化验数据a、b、c实现对验血化验数据d、e的有序化填补处理，在填补处理中，同时利用属性间的回归关系来指导缺失数据的填补，以有效地提高填补准确性，实现高质量的数据填补处理。

对于本申请的执行主体可为用于对医疗数据进行数据填补的装置，可配置在客户端侧或服务端侧，可利用与缺失元组对应医疗数据类型相同的完整元组所包含的完整属性生成预设数量个多元回归模型；确定缺失元组中关于缺失属性的候选填补属性组合；进而在候选填补属性组合中筛选出在多元回归模型上总拟合误差最小的目标候选填补属性组合，利用目标候选填补属性组合填补缺失元组。

需要说明的是，本申请还可应用于其他领域数据的缺失处理，如金融领域、教育领域、交通领域等，在此不进行穷举，对此均应该落入本申请中的保护范围。

102、利用完整元组所包含的完整属性生成预设数量个多元回归模型。

对于本实施例，可利用完整元组预先学习其属性之间的回归关系。由于不同的缺失元组的缺失属性集合和完整属性集合可能会有各种组合形式，故这里可统一学习m个多元回归模型，m表示缺失元组中医疗数据属性的个数，具体可分别依次以每个属性作为右值属性，其余m-1个属性作为左值属性，推导m-1个左值属性与右值属性之间的回归关系，以此训练得到预设数量个多元回归模型。其中，预设数量可根据完整元组所包含属性个数确定，多元回归模型的数量具体可等同于完整元组所包含属性的数量，当完整元组包含3个属性时，可相应的生成3个多元回归模型，即针对每个属性，均利用该属性与其他属性间的回归关系创建得到一个多元回归模型。

103、确定缺失元组中关于缺失属性的候选填补属性组合。

其中，候选填补属性组合是将各个缺失属性对应的候选填补属性按照预设排列规则生成的，候选填补属性是根据完整元组中与缺失属性对应属性类型匹配的完整属性确定出的。预设排列规则可对应针对每个缺失属性分别随机筛选出一个候选填补属性，进而将每次筛选出的不同缺失属性对应的候选填补属性进行组合，以得到候选填补属性组合。

对于本实施例，在确定候选填补属性组合时，可首先筛选出针对缺失元组中各个缺失属性的候选填补属性，进而按照预设排列规则对各个缺失属性的候选填补属性进行组合处理，进一步得到候选填补属性组合。其中，在筛选出针对缺失元组中各个缺失属性的候选填补属性时，可包括多种可选实施方式，例如，可利用K近邻的方法预先针对各个缺失元组的各个缺失属性，在完整元组中筛选出候选填补属性；还可提取出与缺失元组的缺失属性对应属性类型匹配的候选填补属性集，将候选填补属性集中的默认属性确定为候选填补属性；此外，还可应用于用户存在与缺失元组匹配的历史元组记录的情况，可根据用户的历史元组记录确定候选填补属性，具体可在用户的历史元组记录中提取与缺失元组各个缺失属性匹配的历史属性，将该历史属性确定为候选填补属性等。需要说明的是，在筛选针对缺失元组中各个缺失属性的候选填补属性时，还可包括其他可选方式，在此不进行穷举，对此均应该落入本申请中的保护范围。

104、在候选填补属性组合中筛选出在多元回归模型上总拟合误差最小的目标候选填补属性组合，利用目标候选填补属性组合填补缺失元组。

对于本实施例，在确定出缺失元组对应的候选填补属性组合后，要从中找到一个最符合多元回归模型的填补方案。具体地，对于每一个候选填补属性组合，可分别计算其在m个多元回归模型上的拟合误差，并计算拟合误差的累加结果，得到总拟合误差；进一步将总拟合误差最小的候选填补属性组合确定为缺失元组的最终填补结果，即确定出目标候选填补属性组合，进而可利用目标候选填补属性组合实现对缺失元组的填补处理。

通过本实施例中基于多元回归模型的医疗数据缺失处理方法，可在获取到医疗数据对应的缺失元组后，相继确定与缺失元组对应医疗数据类型匹配的完整元组，进一步利用完整元组所包含的完整属性生成预设数量个多元回归模型；在确定缺失元组中关于缺失属性的候选填补属性组合后，进一步在候选填补属性组合中筛选出在多元回归模型上总拟合误差最小的目标候选填补属性组合，利用目标候选填补属性组合填补缺失元组。在本申请中，在对缺失数据填补时，不再受限于已有基于约束的填补方法对于规则约束的依赖，同时又利用了属性间的回归关系来指导缺失数据的填补，而不是像已有的基于统计的填补方法一样单纯依赖于属性值本身的数据统计信息，从而能够有效地提高填补准确性，带来更高质量的数据。

进一步的，作为上述实施例具体实施方式的细化和扩展，为了完整说明本实施例中的具体实施过程，提供了另一种基于聚类分析的医疗数据缺失处理方法，如图2所示，该方法包括：

201、获取医疗数据对应的缺失元组，并确定与缺失元组对应医疗数据类型匹配的完整元组，其中，缺失元组由缺失属性和部分完整属性构成，完整元组由完整属性构成。

在具体的应用场景中，为保证医疗数据的隐私性和安全性，可将医疗数据存储在区块链的节点，此外，还可将医疗数据存储于其他任何存储设备对应的存储节点中，在此针对存储方式不进行具体的限定。对于本实施例，可在获取到医疗数据对应的缺失元组后，在相应的存储节点中查取与缺失元组对应医疗数据类型相关和/或相同的完整元组，以便利用完整元组实现对缺失元组的数据填补。

202、利用完整元组所包含的完整属性生成预设数量个多元回归模型。

对于本实施例，可针对缺失元组t₀中医疗数据属性的个数(例如为m)，统一学习m个多元回归模型。具体可在确定出与缺失元组t₀对应医疗数据类型匹配的完整元组t_i后(完整元组t_i与缺失元组t₀中医疗数据属性的个数相同，例如为m)，进而分别依次将完整元组t_i中每个属性A_j作为右值属性，其余m-1个属性作为左值属性，推导m-1个左值属性与右值属性之间的回归关系，以此训练得到m个多元回归模型。即

f(t_i[R\{A_j}])→t_i[A_j],j＝0,…,m

其中，t_i是由m个属性R＝(A₁,A₂,…,A_m)组成的与缺失元组t₀对应医疗数据类型匹配的完整元组，即t_i＝(t_i[A₁],…,t_i[A_j],…,t_i[A_m])，R为元组属性集合，包含一个元组的所有属性，t_i[A_j]为属性A_j对应的属性值，t_i[R\{A_j}为R中除属性A_j之外的各个属性对应的属性值。

例如，在完整元组中共包括3个属性A₁、A₂、A₃，可每次将上述3个医疗数据属性中任意一个属性作为右值属性，将其余两个作为左值属性，训练得到一个多元回归模型，即针对属性A₁、A₂、A₃可最终生成3个多元回归模型：

多元回归模型1：f(t_i[A₁,A₂])→t_i[A₃]

多元回归模型2：f(t_i[A₁,A₃])→t_i[A₂]

多元回归模型2：f(t_i[A₂,A₃])→t_i[A₁]

需要说明的是，为了保证多元回归模型所创建属性之间回归关系的合理性，多元回归模型的残差项需要服从正态分布，其实本质就是要求因变量(右值属性)服从正态分布。故，在初步得到上述m个多元回归模型后，需要对多元回归模型进行正态性检验，在判定通过正态性检验后，即可判定多元回归模型训练完成。其中，关于正态性检验通常运用两类方法：定性的图形法(直方图、PP图或QQ图)、定量的非参数法(Shapiro检验和K-S检验)。

相应的，作为一种优选方式，实施例步骤202具体可以包括：将完整元组中任一完整属性确定为右值属性，将其他完整属性确定为左值属性；通过分析右值属性和左值属性之间的回归关系，创建并训练关于右值属性的多元回归模型；若确定多元回归模型中的右值属性服从正态分布，则判定多元回归模型训练完成。

203、获取用于填补缺失元组中各个缺失属性的候选填补属性。

对于本实施例，作为一种可选方式，可应用于K近邻的方法预先针对各个缺失元组的各个缺失属性，筛选出候选填补属性。进而按照预设排列规则，组合各个缺失属性的候选填补属性，生成各个缺失元组的候选填补属性组合，缺失元组的候选填补属性组合具体可为不同缺失属性下候选填补属性的组合结果。相应的，实施例步骤203具体可以包括：确定缺失元组的第一完整属性和第一缺失属性，在完整元组中筛选预设数量个与第一完整属性相似度最高的完整元组；将每一完整元组中与第一缺失属性对应属性类型匹配的第二完整属性确定为候选填补属性。

例如，若给定一个含有缺失属性的缺失元组t₀，其缺失属性记为A_i。可首先为其各缺失属性A_i生成候选填补属性，具体可以使用K近邻的方法为其生成候选填补属性，进而基于候选填补属性确定缺失元组t₀对应所有缺失属性的候选填补属性组合。其中，在利用K近邻的方法生成候选填补属性时，可根据缺失元组t₀的完整属性在完整元组中找到与缺失元组t₀完整属性相似度最高的K条元组，其在t₀的完整属性R\A_i上与t₀的距离最近。其中，K的取值可根据实际应用场景进行设定，在此不进行具体的限定。

例如，K的取值设定为3，示例性的，在肝功能检测数据对应的数据集实例中，包含患者A、B、C、D、E、F六个患者主体对应的肝功能检测数据：a、b、c、d、e、f。肝功能检测数据对应的元组属性包括谷丙转氨酶、谷草转氨酶、丙氨酰转肽酶以及总胆红素、直接胆红素和间接胆红素。其中，验血化验数据e中的丙氨酰转肽酶属性数据以及总胆红素属性数据存在缺失或存在明显错误(如远远大于指标设定的数值区间或数据不符合规范等)，而其他肝功能检测数据a、b、c、d、f不存在缺失的属性数据，此时可将验血化验数据e确定为缺失元组，将肝功能检测数据a、b、c、d、f作为完整元组。鉴于验血化验数据e中的谷丙转氨酶、谷草转氨酶、直接胆红素和间接胆红素这4个属性数据不存在缺失，故可将验血化验数据e中的谷丙转氨酶、谷草转氨酶、直接胆红素和间接胆红素对应的完整属性，依次与完整元组集中各个完整元组的谷丙转氨酶、谷草转氨酶、直接胆红素和间接胆红素进行属性相似度计算，得到验血化验数据e在完整属性上与肝功能检测数据a、b、c、d、f的相似度：40％、88％、95％、78％、12％，进而可提取前3个相似度较大的完整元组b、c、d，利用完整元组b、c、d针对验血化验数据e中的丙氨酰转肽酶以及总胆红素这两个缺失属性分别执行后续步骤，得到丙氨酰转肽酶对应的候选填补属性以及总胆红素对应的候选填补属性。

对于本实施例，作为另一种可选方式，可应用于用户存在与缺失元组匹配的历史元组的情况，当根据用户的历史元组确定候选填补属性时，具体可在用户的历史元组中提取与缺失元组各个缺失属性匹配的历史属性，进而可将历史属性确定为候选填补属性。相应的，实施例步骤203具体还可以包括：确定缺失元组的第一缺失属性，以及筛选与缺失元组对应同一数据主体的历史元组；将历史元组中与第一缺失属性对应属性类型匹配的第三完整属性确定为候选填补属性。例如，对于缺失元组存在两个缺失属性A1、A2，每个缺失属性均对应存在3个历史属性，若缺失属性A1对应的历史属性为：a、b、c，缺失属性A2对应的历史属性为：d、e、f，则可将历史属性a、b、c确定为缺失属性A1对应的候选填补属性，将历史属性为d、e、f确定为缺失属性A2对应的历史属性。

对于本实施例，作为又一种可选方式，还可提取出与缺失元组的缺失属性对应属性类型匹配的候选填补属性集，进一步将候选填补属性集中的默认属性确定为候选填补属性。相应的，实施例步骤203具体还可以包括：确定缺失元组的第一缺失属性，以及提取与第一缺失属性对应属性类型匹配的候选填补属性集；提取候选填补属性集中的候选填补属性。例如，对于缺失元组存在两个缺失属性A1、A2，每个缺失属性均对应存在包括3个默认属性的候选填补属性集，若缺失属性A1对应的默认属性为：a、b、c，缺失属性A2对应的默认属性为：d、e、f，则可将默认属性a、b、c确定为缺失属性A1对应的候选填补属性，将默认属性为d、e、f确定为缺失属性A2对应的历史属性。

对于本实施例，作为再一种优选方式，根据上述两种可选方式的结合，可首先在历史元组中提取与缺失元组各个缺失属性匹配的历史属性，以及提取出与缺失元组的缺失属性对应属性类型匹配的候选填补属性集，进而可计算历史属性与候选填补属性集中的各个默认属性的特征距离，筛选得到与历史属性的特征距离小于预设距离阈值的默认属性，进一步将筛选出的默认属性确定为候选填补属性。相应的，实施例步骤203具体还可以包括：根据历史元组确定与第一缺失属性对应属性类型匹配的第三完整属性，并提取与第一缺失属性对应属性类型匹配的候选填补属性集；在候选填补属性集中筛选与第三完整属性特征距离小于预设距离阈值的第四完整属性，将第四完整属性确定为候选填补属性。其中，在计算特征距离时，可采用任何适用于度量的距离函数，如可包括欧几里得距离(EuclideanDistance)、曼哈顿距离(Manhattan Distance)、杰卡德距离(Jaccard Distance)、马氏距离(Mahalanobis distance)等，具体可根据元组对应的数据类型以及实际应用场景进行选择，在此不进行具体的限定。

例如，对于缺失元组存在一个缺失属性A1，缺失属性A1对应存在2个历史属性：a、b，且提取出缺失属性A1存在包括3个默认属性的候选填补属性集，若缺失属性A1对应的默认属性为：a、e、f，进而可计算每个历史属性与候选填补属性集中的各个默认属性的特征距离，即分别计算a与a、a与e、a与f、b与a、b与e、b与f两两之间的特征距离，进而筛选得到与历史属性的特征距离小于预设距离阈值的默认属性a，进一步可将筛选出的默认属性a确定为候选填补属性。

204、按照预设排列规则组合候选填补属性，生成缺失元组的候选填补属性组合。

对于本实施例，考虑一个缺失元组存在多个缺失属性，故可按照预设排列规则，并利用各个缺失属性的候选填补属性为缺失元组生成多个候选填补属性组合，以便利用候选填补属性组合实现对一个缺失元组中所有缺失属性的填补，具体可依据候选填补属性生成组合形式的候选填补属性组合。

在本实施例中，可考虑缺失属性上多种候选填补属性的组合。例如，对于缺失元组存在两个缺失属性A1、A2，且每个缺失属性均对应匹配到3个候选填补值，若缺失属性A1对应的候选填补值为：a、b、c，缺失属性A2对应的候选填补值为：d、e、f，则可针对缺失元组的两个缺失属性，进一步生成3*3对应的9种候选填补值组合，以使每个候选填补值组合中包含针对各个缺失属性的一个候选填补值：a-d、a-e、a-f、b-d、b-e、b-f、c-d、c-e、c-f。

205、利用候选填补属性组合依次预填补缺失元组，并计算预填补生成的预填补元组中各个完整属性以及各个预填补属性在多元回归模型上的总拟合误差。

在具体的应用场景中，为实现在数据填补的同时，考虑到属性间的回归关系，故在依据实施例步骤204确定出缺失元组的候选填补属性组合后，可将各个候选填补属性组合依次对缺失元组进行预填补处理，以便根据候选填补属性组合中筛选出在m个多元回归模型上总拟合误差最小的目标候选填补属性组合，利用目标候选填补属性组合实现对目标缺失元组的填补处理。

相应的，作为一种优选方式，实施例步骤205具体可以包括：利用候选填补属性组合依次预填补缺失元组，并提取预填补生成的预填补元组中各个完整属性以及针对缺失属性预填补后的预填补属性；将完整属性和预填补属性中任意一个确定为右值属性，将其他完整属性和/或预填补属性确定为左值属性；将左值属性输入多元回归模型，并基于多元回归模型输出右值预测属性；利用右值属性和右值预测属性计算第一拟合误差；加和预设数量个多元回归模型的第一拟合误差，得到总拟合误差。

例如，对于缺失元组存在两个缺失属性A1、A2，以及一个完整属性A3，针对缺失元组生成3*3对应的9种候选填补属性组合：a-d、a-e、a-f、b-d、b-e、b-f、c-d、c-e、c-f，进一步的，可将各个候选填补属性组合与完整属性A3对应的完整属性值g分别带入实施例步骤202中的m个(如3个)多元回归模型中，每个候选填补属性组合对应得到三个多元回归模型的拟合误差计算结果，将3个拟合误差计算结果进行累加，即可得到总拟合误差。以a-d这一候选填补属性组合为例，可将a、d、g分别代入实施例步骤202中训练完成的3个多元回归模型中，得到：

多元回归模型1：f(t_i[a,d])→t_i[g]

多元回归模型2：f(t_i[a,g])→t_i[d]

多元回归模型3：f(t_i[d,g])→t_i[a]

进而基于t_i[g]与g的差值计算得到多元回归模型1对应的第一拟合误差，基于t_i[d]与d的差值计算得到多元回归模型2对应的第一拟合误差，基于t_i[a]与a的差值计算得到多元回归模型3对应的第一拟合误差，通过加和3个多元回归模型的第一拟合误差，得到a-d这一候选填补属性组合对应的总拟合误差。

同理，依次计算得到其他8个候选填补属性组合对应的总拟合误差，以便将9个总拟合误差最小的候选填补属性组合确定为缺失元组对应缺失属性的目标候选填补属性组合，利用目标候选填补属性组合对缺失元组进行数据填补。

206、将对应总拟合误差最小的候选填补属性组合确定为目标候选填补属性组合，并利用目标候选填补属性填补缺失元组，其中，目标候选填补属性组合中包含各个缺失属性的目标候选填补属性。

例如，若基于实施例步骤205中的实例，确定“a-e”对应的总拟合误差最小，故可将“a-e”确定为目标候选填补属性组合，进而可利用“a-e”实现对缺失元组的填补处理，即利用目标候选填补属性“a”填补缺失属性A1，利用目标候选填补属性“e”填补缺失属性A2。

借由上述基于多元回归模型的医疗数据缺失处理方法，可在获取到医疗数据对应的缺失元组后，相继确定与缺失元组对应医疗数据类型匹配的完整元组，进一步利用完整元组所包含的完整属性生成预设数量个多元回归模型；在确定缺失元组中关于缺失属性的候选填补属性组合后，进一步在候选填补属性组合中筛选出在多元回归模型上总拟合误差最小的目标候选填补属性组合，利用目标候选填补属性组合填补缺失元组。在本申请中，在对缺失数据填补时，不再受限于已有基于约束的填补方法对于规则约束的依赖，同时又利用了属性间的回归关系来指导缺失数据的填补，而不是像已有的基于统计的填补方法一样单纯依赖于属性值本身的数据统计信息，从而能够有效地提高填补准确性，带来更高质量的数据。

进一步的，作为图1和图2所示方法的具体实现，本申请实施例提供了一种基于多元回归模型的医疗数据缺失处理装置，如图3所示，该装置包括：第一确定模块31、生成模块32、第二确定模块33、填补模块34；

第一确定模块31，可用于获取医疗数据对应的缺失元组，并确定与缺失元组对应医疗数据类型匹配的完整元组，其中，缺失元组由缺失属性和部分完整属性构成，完整元组由完整属性构成；

生成模块32，可用于利用完整元组所包含的完整属性生成预设数量个多元回归模型；

第二确定模块33，可用于确定缺失元组中关于缺失属性的候选填补属性组合；

填补模块34，可用于在候选填补属性组合中筛选出在多元回归模型上总拟合误差最小的目标候选填补属性组合，利用目标候选填补属性组合填补缺失元组。

在具体的应用场景中，为了生成预设数量个多元回归模型，如图4所示，生成模块32，具体包括：第一确定单元321、创建单元322、判定单元323；

第一确定单元321，可用于将完整元组中任一完整属性确定为右值属性，将其他完整属性确定为左值属性；

创建单元322，可用于通过分析右值属性和左值属性之间的回归关系，创建并训练关于右值属性的多元回归模型；

判定单元323，可用于若确定多元回归模型中的右值属性服从正态分布，则判定多元回归模型训练完成。

相应的，为了确定出缺失元组中关于缺失属性的候选填补属性组合，如图4所示，第二确定模块33，具体包括：获取单元331、生成单元332；

获取单元331，可用于获取用于填补缺失元组中各个缺失属性的候选填补属性；

生成单元332，可用于按照预设排列规则组合候选填补属性，生成缺失元组的候选填补属性组合。

在具体的应用场景中，作为一种可选方式，获取单元331，具体可用于确定缺失元组的第一完整属性和第一缺失属性，在完整元组中筛选预设数量个与第一完整属性相似度最高的完整元组；将每一完整元组中与第一缺失属性对应属性类型匹配的第二完整属性确定为候选填补属性。

相应的，作为另一种可选方式，获取单元331，具体可用于确定缺失元组的第一缺失属性，以及筛选与缺失元组对应同一数据主体的历史元组；将历史元组中与第一缺失属性对应属性类型匹配的第三完整属性确定为候选填补属性；或，确定缺失元组的第一缺失属性，以及提取与第一缺失属性对应属性类型匹配的候选填补属性集；提取候选填补属性集中的候选填补属性；或，根据历史元组确定与第一缺失属性对应属性类型匹配的第三完整属性，并提取与第一缺失属性对应属性类型匹配的候选填补属性集；在候选填补属性集中筛选与第三完整属性特征距离小于预设距离阈值的第四完整属性，将第四完整属性确定为候选填补属性。

在具体的应用场景中，为了实现在候选填补属性组合中筛选出在多元回归模型上总拟合误差最小的目标候选填补属性组合，并利用目标候选填补属性组合填补缺失元组，如图4所示，填补模块34，具体包括：计算单元341、第二确定单元342、填补单元343；

计算单元341，用于利用候选填补属性组合依次预填补缺失元组，并计算预填补生成的预填补元组中各个完整属性以及各个预填补属性在多元回归模型上的总拟合误差；

第二确定单元342，用于将对应总拟合误差最小的候选填补属性组合确定为目标候选填补属性组合，目标候选填补属性组合中包含各个缺失属性的目标候选填补属性；

填补单元343，用于利用目标候选填补属性填补缺失元组。

相应的，计算单元341，具体可用于利用候选填补属性组合依次预填补缺失元组，并提取预填补生成的预填补元组中各个完整属性以及针对缺失属性预填补后的预填补属性；将完整属性和预填补属性中任意一个确定为右值属性，将其他完整属性和/或预填补属性确定为左值属性；将左值属性输入多元回归模型，并基于多元回归模型输出右值预测属性；利用右值属性和右值预测属性计算第一拟合误差；加和预设数量个多元回归模型的第一拟合误差，得到总拟合误差。

需要说明的是，本实施例提供的一种基于多元回归模型的医疗数据缺失处理装置所涉及各功能单元的其他相应描述，可以参考图1至图2的对应描述，在此不再赘述。

基于上述如图1至图2所示方法，相应的，本实施例还提供了一种存储介质，存储介质具体可为易失性或非易失性，其上存储有计算机可读指令，该可读指令被处理器执行时实现上述如图1至图2所示的基于多元回归模型的医疗数据缺失处理方法。

基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施场景的方法。

基于上述如图1至图2所示的方法和图3、图4所示的虚拟装置实施例，为了实现上述目的，本实施例还提供了一种计算机设备，该计算机设备包括存储介质和处理器；存储介质，用于存储计算机程序；处理器，用于执行计算机程序以实现上述如图1至图2所示的基于多元回归模型的医疗数据缺失处理方法。

可选的，该计算机设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency，RF)电路，传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等，可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)等。

本领域技术人员可以理解，本实施例提供的一种计算机设备结构并不构成对该实体设备的限定，可以包括更多或更少的部件，或者组合某些部件，或者不同的部件布置。

存储介质中还可以包括操作系统、网络通信模块。操作系统是管理上述计算机设备硬件和软件资源的程序，支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信，以及与信息处理实体设备中其它硬件和软件之间通信。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现，也可以通过硬件实现。

通过应用本申请的技术方案，与目前现有技术相比，本申请可在获取到医疗数据对应的缺失元组后，相继确定与缺失元组对应医疗数据类型匹配的完整元组，进一步利用完整元组所包含的完整属性生成预设数量个多元回归模型；在确定缺失元组中关于缺失属性的候选填补属性组合后，进一步在候选填补属性组合中筛选出在多元回归模型上总拟合误差最小的目标候选填补属性组合，利用目标候选填补属性组合填补缺失元组。在本申请中，在对缺失数据填补时，不再受限于已有基于约束的填补方法对于规则约束的依赖，同时又利用了属性间的回归关系来指导缺失数据的填补，而不是像已有的基于统计的填补方法一样单纯依赖于属性值本身的数据统计信息，从而能够有效地提高填补准确性，带来更高质量的数据。

本领域技术人员可以理解附图只是一个优选实施场景的示意图，附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中，也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本申请序号仅仅为了描述，不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景，但是，本申请并非局限于此，任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims

1.一种基于多元回归模型的医疗数据缺失处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述利用所述完整元组所包含的完整属性生成预设数量个多元回归模型，包括：

将所述完整元组中任一完整属性确定为右值属性，将其他完整属性确定为左值属性；

通过分析所述右值属性和所述左值属性之间的回归关系，创建并训练关于所述右值属性的多元回归模型；

若确定所述多元回归模型中的所述右值属性服从正态分布，则判定所述多元回归模型训练完成。

3.根据权利要求1所述的方法，其特征在于，所述确定所述缺失元组中关于所述缺失属性的候选填补属性组合，包括：

获取用于填补所述缺失元组中各个缺失属性的候选填补属性；

按照预设排列规则组合所述候选填补属性，生成所述缺失元组的候选填补属性组合。

4.根据权利要求3所述的方法，其特征在于，所述获取用于填补所述缺失元组中各个缺失属性的候选填补属性，包括：

确定所述缺失元组的第一完整属性和第一缺失属性，在所述完整元组中筛选预设数量个与所述第一完整属性相似度最高的完整元组；

将每一所述完整元组中与所述第一缺失属性对应属性类型匹配的第二完整属性确定为候选填补属性。

5.根据权利要求3所述的方法，其特征在于，所述获取用于填补所述缺失元组中各个缺失属性的候选填补属性，包括：

确定所述缺失元组的第一缺失属性，以及筛选与所述缺失元组对应同一数据主体的历史元组；

将所述历史元组中与所述第一缺失属性对应属性类型匹配的第三完整属性确定为候选填补属性；或，

确定所述缺失元组的第一缺失属性，以及提取与所述第一缺失属性对应属性类型匹配的候选填补属性集；

提取所述候选填补属性集中的候选填补属性；或，

根据历史元组确定与第一缺失属性对应属性类型匹配的第三完整属性，并提取与所述第一缺失属性对应属性类型匹配的候选填补属性集；

在所述候选填补属性集中筛选与所述第三完整属性特征距离小于预设距离阈值的第四完整属性，将所述第四完整属性确定为候选填补属性。

6.根据权利要求1所述的方法，其特征在于，所述在所述候选填补属性组合中筛选出在所述多元回归模型上总拟合误差最小的目标候选填补属性组合，利用所述目标候选填补属性组合填补所述缺失元组，包括：

利用所述候选填补属性组合依次预填补所述缺失元组，并计算预填补生成的预填补元组中各个完整属性以及各个预填补属性在多元回归模型上的总拟合误差；

将对应所述总拟合误差最小的候选填补属性组合确定为目标候选填补属性组合，所述目标候选填补属性组合中包含各个缺失属性的目标候选填补属性；

利用所述目标候选填补属性填补所述缺失元组。

7.根据权利要求6所述的方法，其特征在于，所述利用所述候选填补属性组合依次预填补所述缺失元组，并计算预填补生成的预填补元组中各个完整属性以及各个填补属性在多元回归模型上的总拟合误差，包括：

利用所述候选填补属性组合依次预填补所述缺失元组，并提取预填补生成的预填补元组中各个完整属性以及针对缺失属性预填补后的预填补属性；

将所述完整属性和所述预填补属性中任意一个确定为右值属性，将其他完整属性和/或预填补属性确定为左值属性；

将所述左值属性输入所述多元回归模型，并基于多元回归模型输出右值预测属性；

利用所述右值属性和所述右值预测属性计算第一拟合误差；

加和预设数量个多元回归模型的第一拟合误差，得到总拟合误差。

8.一种基于多元回归模型的医疗数据缺失处理装置，其特征在于，包括：

9.一种存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至7中任一项所述的基于多元回归模型的医疗数据缺失处理方法。

10.一种计算机设备，包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至7中任一项所述的基于多元回归模型的医疗数据缺失处理方法。