CN113707334A

CN113707334A - 基于聚类分析的医疗数据缺失处理方法、装置及存储介质

Info

Publication number: CN113707334A
Application number: CN202111015987.0A
Authority: CN
Inventors: 徐啸
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-08-31
Filing date: 2021-08-31
Publication date: 2021-11-26

Abstract

本申请公开了一种基于聚类分析的医疗数据缺失处理方法、装置及存储介质，涉及大数据处理技术领域，可解决数据填补效果差的技术问题。包括：获取医疗数据对应的缺失元组集，并确定与缺失元组集匹配的完整元组集，缺失元组集中包含多个有属性缺失的缺失元组，完整元组集中包含多个无属性缺失的第一完整元组；利用第一完整元组和预设排列规则生成缺失元组集中各个缺失元组的候选填补属性组合；计算缺失元组集中各个缺失元组的填补优先级，并按照填补优先级在候选填补属性组合中筛选用于填补缺失元组的目标候选填补属性组合，以使填补生成的目标填补元组与填补元组集和完整元组集的元组密度值最大。本申请还涉及区块链技术，医疗数据存储于区块链中。

Description

基于聚类分析的医疗数据缺失处理方法、装置及存储介质

技术领域

本申请涉及大数据处理技术领域，尤其涉及到一种基于聚类分析的医疗数据缺失处理方法、装置及存储介质。

背景技术

随着互联网、计算机等信息技术的飞速发展，医疗健康信息化的广泛普及，使得医疗健康大数据海量增长，医疗健康领域已经真正进入了“大数据时代”，医疗健康大数据可广泛应用于医疗学术界的挖掘及研究。然而医疗数据往往存在缺失数据，缺失数据会在一定程度上影响医生和科研人员的决策，进一步关乎到病患的生命安全。因而，对医疗数据中缺失数据的研究，对重要的缺失数据进行有效的预测填补工作具有重要的现实意义。

目前已有数据填补方法是根据规则或统计信息对医疗数据进行填补，其填补目标都是为了提高数据的完整性，即有效地消除数据中存在的空值情况。然而这些方法在填补数据的同时并没有考虑对下游聚类应用的影响，进而可能会引入更多的数据噪声，导致数据填补效果不佳。

发明内容

有鉴于此，本申请提供了一种基于聚类分析的医疗数据缺失处理方法、装置及存储介质，可用于解决目前已有数据填补方法在填补数据时，未考虑对下游聚类应用的影响，进而可能会引入更多的数据噪声，导致数据填补效果不佳的技术问题。

根据本申请的一个方面，提供了一种基于聚类分析的医疗数据缺失处理方法，该方法包括：

获取医疗数据对应的缺失元组集，并确定与所述缺失元组集对应医疗数据类型匹配的完整元组集，其中，所述缺失元组集中包含多个由缺失属性和部分完整属性构成的缺失元组，所述完整元组集中包含多个无缺失属性的第一完整元组；

按照预设排列规则，并基于所述第一完整元组生成所述缺失元组集中各个缺失元组的候选填补属性组合；

计算所述缺失元组集中各个所述缺失元组的填补优先级，并按照所述填补优先级在所述候选填补属性组合中筛选用于填补所述缺失元组的目标候选填补属性组合，以使利用所述目标候选填补属性组合填补生成的目标填补元组与填补元组集和所述完整元组集的元组密度值最大，其中，所述填补元组集中包含所述缺失元组集中填补完成的所有第二完整元组。

根据本申请的另一个方面，提供了一种基于聚类分析的医疗数据缺失处理装置，该装置包括：

确定模块，用于获取医疗数据对应的缺失元组集，并确定与所述缺失元组集对应医疗数据类型匹配的完整元组集，其中，所述缺失元组集中包含多个由缺失属性和部分完整属性构成的缺失元组，所述完整元组集中包含多个无缺失属性的第一完整元组；

生成模块，用于按照预设排列规则，并基于所述第一完整元组生成所述缺失元组集中各个缺失元组的候选填补属性组合；

填补模块，用于计算所述缺失元组集中各个所述缺失元组的填补优先级，并按照所述填补优先级在所述候选填补属性组合中筛选用于填补所述缺失元组的目标候选填补属性组合，以使利用所述目标候选填补属性组合填补生成的目标填补元组与填补元组集和所述完整元组集的元组密度值最大，其中，所述填补元组集中包含所述缺失元组集中填补完成的所有第二完整元组。

根据本申请的又一个方面，提供了一种存储介质，其上存储有计算机程序，所述程序被处理器执行时实现上述基于聚类分析的医疗数据缺失处理方法。

根据本申请的再一个方面，提供了一种计算机设备，包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述基于聚类分析的医疗数据缺失处理方法。

借由上述技术方案，本申请提供的一种基于聚类分析的医疗数据缺失处理方法、装置及存储介质，与目前针对数据的填补方式相比，本申请可在获取到医疗数据对应的缺失元组集后，确定与缺失元组集匹配的完整元组集，进一步利用完整元组集中的第一完整元组按照预设排列规则生成缺失元组集中各个缺失元组的候选填补属性组合。进而计算缺失元组集中各个缺失元组的填补优先级，并按照填补优先级在候选填补属性组合中筛选用于填补缺失元组的目标候选填补属性组合，以使填补生成的目标填补元组与填补元组集和完整元组集的元组密度值最大。在本申请中，在有缺失元组的数据上进行聚类应用时，没有单纯考虑数据填补任务而忽略了对下游聚类应用的影响，且又没有单纯只考虑对聚类应用的影响而忽略了对缺失数据填补的重要性。而是同时进行数据填补和聚类两个问题，通过一个算法得到的最终填补结果既能提高数据的完整性又能保证较好的聚类效果。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本地申请的不当限定。在附图中：

图1示出了本申请实施例提供的一种基于聚类分析的医疗数据缺失处理方法的流程示意图；

图2示出了本申请实施例提供的另一种基于聚类分析的医疗数据缺失处理方法的流程示意图；

图3示出了本申请实施例提供的一种基于聚类分析的医疗数据缺失处理装置的结构示意图；

图4示出了本申请实施例提供的另一种基于聚类分析的医疗数据缺失处理装置的结构示意图。

具体实施方式

本申请实施例可以基于区块链技术实现对基于聚类分析的医疗数据缺失处理，具体可将医疗数据存储于区块链的节点中，以保证上述医疗数据的私密和安全性。本申请所指的区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

下文将参考附图并结合实施例来详细说明本申请。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合。

针对目前已有数据填补方法在填补数据时，未考虑对下游聚类应用的影响，进而可能会引入更多的数据噪声，导致数据填补效果不佳的技术问题，本申请提供了一种基于聚类分析的医疗数据缺失处理方法，如图1所示，该方法包括：

101、获取医疗数据对应的缺失元组集，并确定与缺失元组集对应医疗数据类型匹配的完整元组集，其中，缺失元组集中包含多个由缺失属性和部分完整属性构成的缺失元组，完整元组集中包含多个无缺失属性的第一完整元组。

元组(tuple)是关系数据库中的基本概念，关系是一张表，表中的每行(即数据库中的每条记录)表示一个元组，每列对应一个属性。在二维表里，元组也称为行。对于本实施例，可将存在关联关系，或归属于同一患者、同一医院机构的医疗数据看作一张表，元组看成在整体医疗数据中的一行，如可包括验血化验数据、肝功能检测数据、放疗数据等，相应的，该元组对应的元组属性可为元组所对应行中的一列。如元组为验血化验数据，验血化验数据中的红细胞数据、白细胞数据等各种指标即对应该元组的不同元组属性；如元组为肝功能检测数据，肝功能检测数据中的谷丙转氨酶、谷草转氨酶、丙氨酰转肽酶以及总胆红素、直接胆红素和间接胆红素等即对应该元组的不同元组属性。相应的，缺失元组即对应存在一个或多个属性数据缺失或存在明显属性错误的元组，完整元组即对应不存在任何一个缺失属性的元组。在本申请中，对于一个数据集实例，可包括不同患者主体对应同一或相近医疗数据类型下的缺失元组集和完整元组集，在缺失元组集中包含多个有属性缺失的缺失元组，完整元组集中包含多个无属性缺失的第一完整元组。本申请目的在于，利用完整元组集中无属性缺失的第一完整元组，对缺失元组集中有属性缺失的缺失元组的缺失部分进行数据填补处理，以将缺失元组修复处理成完整元组，同时兼顾聚类效果。例如，验血化验数据对应的数据集实例中，包含患者A、B、C、D、E五个患者主体对应的验血化验数据：a、b、c、d、e，其中，验血化验数据d中的红细胞属性数据存在缺失，验血化验数据e中的白细胞属性数据存在缺失，而验血化验数据a、b、c中不存在缺失属性数据，此时可将验血化验数据d和验血化验数据e作为两个缺失元组存储至缺失元组集中，将验血化验数据a、b、c作为第一完整元组存储至完整元组集中，进一步的，可通过执行实施例步骤102至103，利用完整元组集中的验血化验数据a、b、c实现对验血化验数据d、e的有序化填补处理，在填补处理中，同时使填补完成的缺失元组与数据集实例内完整元组的元组密度值最大，以保证数据集实例的聚类效果。

对于本申请的执行主体可为用于对医疗数据进行数据填补的装置，可配置在客户端侧或服务端侧，可利用完整元组集中的第一完整元组生成缺失元组集中各个缺失元组的候选填补属性，进而按照计算得到的缺失元组的填补优先级，在候选填补属性中筛选用于填补缺失元组的目标候选填补属性，以使填补生成的目标填补元组与填补元组集和完整元组集的元组密度值最大。

102、按照预设排列规则，并基于第一完整元组生成缺失元组集中各个缺失元组的候选填补属性组合。

其中，候选填补属性组合是将各个所述缺失属性对应的候选填补属性按照预设排列规则生成的，候选填补属性是根据第一完整元组中与缺失属性对应属性类型匹配的完整属性确定出的。预设排列规则可对应针对每个缺失属性分别随机筛选出一个候选填补属性，进而将每次筛选出的不同缺失属性对应的候选填补属性进行组合，以得到候选填补属性组合。

对于本实施例，可利用与缺失元组对应数据类型匹配的多个第一完整元组，确定与缺失元组对应缺失属性匹配的多个候选填补属性组合。作为一种可选方式，可应用于K近邻的方法预先针对各个缺失元组的各个缺失属性，筛选出候选填补属性。进而按照预设排列规则，组合各个缺失属性的候选填补属性，生成各个缺失元组的候选填补属性组合，缺失元组的候选填补属性组合具体可为不同缺失属性下候选填补属性的组合结果。

例如，对于缺失元组集I_M和完整元组集I_C，有I_C∪I_M＝I，其中，I＝{t_i|i＝1，...，n}，t_i表示数据实例中的第i条数据元组，其每条元组是由m个属性值R＝(B₁，B₂，...，B_m)组成的。对于本实施例，若给定一个含有缺失属性的元组t_i，其缺失属性集记为A_i。可首先为其各缺失属性B_j∈A_i生成候选填补属性，具体可以使用K近邻的方法为其生成候选填补属性，进而基于候选填补属性确定缺失元组t_i对应的候选填补属性组合。其中，在利用K近邻的方法生成候选填补属性时，可根据缺失元组t_i的完整属性在完整元组集I_C中找到与缺失元组t_i完整属性相似度最高的K条元组，其在t_i的完整属性R\A_i上与t_i的距离最近，记为KNN(t_i)。其中，K的取值可根据实际应用场景进行设定，在此不进行具体的限定。

例如，K的取值设定为3，示例性的，在肝功能检测数据对应的数据集实例中，包含患者A、B、C、D、E、F六个患者主体对应的肝功能检测数据：a、b、c、d、e、f。肝功能检测数据对应的元组属性包括谷丙转氨酶、谷草转氨酶、丙氨酰转肽酶以及总胆红素、直接胆红素和间接胆红素。其中，验血化验数据e中的丙氨酰转肽酶属性数据以及总胆红素属性数据存在缺失或存在明显错误(如远远大于指标设定的数值区间或数据不符合规范等)，而其他肝功能检测数据a、b、c、d、f不存在缺失的属性数据，此时可将验血化验数据e确定为缺失元组存储至缺失元组集中，将肝功能检测数据a、b、c、d、f作为第一完整元组存储至完整元组集中。鉴于验血化验数据e中的谷丙转氨酶、谷草转氨酶、直接胆红素和间接胆红素这4个属性数据不存在缺失，故可将验血化验数据e中的谷丙转氨酶、谷草转氨酶、直接胆红素和间接胆红素对应完整属性数据，依次与完整元组集中各个第一完整元组的谷丙转氨酶、谷草转氨酶、直接胆红素和间接胆红素进行属性相似度计算，得到验血化验数据e在完整属性上与肝功能检测数据a、b、c、d、f的相似度：40％、88％、95％、78％、12％，进而可提取前3个相似度较大的第一完整元组b、c、d，利用第一完整元组b、c、d针对验血化验数据e中的丙氨酰转肽酶以及总胆红素这两个缺失属性分别执行后续步骤，得到丙氨酰转肽酶对应的候选填补属性以及总胆红素对应的候选填补属性。

在确定出K条元组后，可对于t_i的每一个缺失属性B_j∈A_i，利用K条元组在其缺失属性A_i上的取值构成缺失属性的候选填补属性can(t_i[B_j])如下：

can(t_iB_j])＝{t_l[B_j]|t_l∈KNN(t_i)}

考虑一个缺失元组存在多个缺失属性A_i，故可按照预设排列规则，并利用各个缺失属性的候选填补属性为缺失元组生成多个候选填补属性组合，以便利用候选填补属性组合实现对一个缺失元组中所有缺失属性的填补，具体可依据候选填补属性生成组合形式的候选填补属性组合如下：

由上式可见，我们保留其完整值，并考虑缺失属性上多种候选填补属性的组合。例如，对于缺失元组存在两个缺失属性B1、B2，且共筛选出缺失元组完整属性相似度最高的3条第一完整元组，故每个缺失属性均可对应匹配到3个候选填补值，若缺失属性B1对应的候选填补值为：a、b、c，缺失属性B2对应的候选填补值为：d、e、f，则可针对缺失元组的两个缺失属性，进一步生成3*3对应的9种候选填补值组合，以使每个候选填补值组合中包含针对各个缺失属性的一个候选填补值：a-d、a-e、a-f、b-d、b-e、b-f、c-d、c-e、c-f。

103、计算缺失元组集中各个缺失元组的填补优先级，并按照填补优先级在候选填补属性组合中筛选用于填补缺失元组的目标候选填补属性组合，以使利用目标候选填补属性组合填补生成的目标填补元组与填补元组集和完整元组集的元组密度值最大，其中，填补元组集中包含缺失元组集中填补完成的所有第二完整元组。

对于本实施例，对于缺失元组集I_M中存在的多条缺失元组，在进行数据填补之前首先要计算出各缺失元组的填补优先级，进而可按照填补优先级由大到小的顺序，依次对缺失元组进行填补。对于其筛选出的候选填补属性组合，可从中选取能够带来最优聚类效果的目标候选填补属性组合，即填补后密度值D(I_C∪I′_M∪t_i′)最大化，其中I_M表示当前已填补元组的集，即填补元组集。其形式化表达如下：

找到t_i最好的填补结果后，即可将t_i放入I_M，并继续依此进行下一个缺失元组的填补，直到I_M中所有元组都已被填补，即可得到实例I的填补结果I′＝I_C∪I′_M。

相应的，基于实施例步骤102的实例，在确定出各个缺失元组的候选填补属性后，可根据其优先级由大到小的顺序依次执行对缺失元组的填补处理。例如，在填补缺失元组时，若确定该缺失元组存在如下候选填补属性组合：a-d、a-e、a-f、b-d、b-e、b-f、c-d、c-e、c-f，则可利用上述各个候选填补属性组合中的每一项依次进行对缺失元组进行预填补，进而通过比较各个预填补结果，在上述候选填补属性组合中，筛选出能够使填补生成的目标填补元组与填补元组集和完整元组集的元组密度值最大的目标候选填补属性组合，进一步利用目标候选填补属性组合实现对该缺失元组的填补处理，填补完成后的缺失元组可保存至填补元组集中，作为后续填补优先级较低的待填补元组对应聚合度分析的完整元组，进而使得在不完整数据上最终得到其具有最好聚类效果的数据填补结果。

通过本实施例中基于聚类分析的医疗数据缺失处理方法，可在获取到医疗数据对应的缺失元组集后，确定与缺失元组集匹配的完整元组集，进一步利用完整元组集中的第一完整元组按照预设排列规则生成缺失元组集中各个缺失元组的候选填补属性组合。进而计算缺失元组集中各个缺失元组的填补优先级，并按照填补优先级在候选填补属性组合中筛选用于填补缺失元组的目标候选填补属性组合，以使填补生成的目标填补元组与填补元组集和完整元组集的元组密度值最大。在本申请中，在有缺失元组的数据上进行聚类应用时，没有单纯考虑数据填补任务而忽略了对下游聚类应用的影响，且又没有单纯只考虑对聚类应用的影响而忽略了对缺失数据填补的重要性。而是同时进行数据填补和聚类两个问题，通过一个算法得到的最终填补结果既能提高数据的完整性又能保证较好的聚类效果。

进一步的，作为上述实施例具体实施方式的细化和扩展，为了完整说明本实施例中的具体实施过程，提供了另一种基于聚类分析的医疗数据缺失处理方法，如图2所示，该方法包括：

201、获取医疗数据对应的缺失元组集，并确定与缺失元组集对应医疗数据类型匹配的完整元组集，其中，缺失元组集中包含多个由缺失属性和部分完整属性构成的缺失元组，完整元组集中包含多个无缺失属性的第一完整元组。

在具体的应用场景中，为保证医疗数据的隐私性和安全性，可将医疗数据存储在区块链的节点，此外，还可将医疗数据存储于其他任何存储设备对应的存储节点中，在此针对存储方式不进行具体的限定。对于本实施例，可在获取到医疗数据对应的缺失元组集后，在相应的存储节点中查取与缺失元组集对应医疗数据类型相关和/或相同的完整元组，并创建完整元组集，以便利用完整元组集实现对缺失元组集中缺失元组的数据填补。

202、确定缺失元组的第一完整属性和第一缺失属性，并在完整元组集中筛选预设数量个与所第一完整属性相似度最高的第一完整元组，将每一第一完整元组中与第一缺失属性对应属性类型匹配的第二完整属性确定为候选填补属性，按照预设排列规则组合候选填补属性，生成候选填补属性组合。

对于本实施例，在生成缺失元组的候选填补属性组合时，可应用K近邻的方法，预先筛选预设数量个与缺失元组对应第一完整属性相似度最高的第一完整元组，进而将每一第一完整元组中与第二缺失属性对应的第二完整属性确定为候选填补属性，进一步按照预设排列规则，组合同一缺失元组对应各个缺失属性的候选填补属性，得到缺失元组对应的多个候选填补属性组合，候选填补属性组合具体可为不同缺失属性下候选填补属性的组合结果。对于本实施例，利用K近邻的方法生成缺失元组集中各个缺失元组的候选填补属性组合的具体实现步骤与实施例步骤102中的相同，在此不再赘述。

需要说明的是，在为各个缺失元组生成候选填补属性组合时，并不局限于本申请实施例提供的K近邻的方式，具体可以使用任何已有方法进行候选填补属性组合的确定，例如还可包括根据用户设定的候选值区间生成候选填补属性组合、根据用户的历史元组记录确定候选填补属性组合等多种可选方式。

相应的，作为另一种可选实施方式，当根据用户设定的候选值区间生成候选填补属性组合时，具体可根据候选属性区间内针对缺失元组各个缺失属性设定的多个默认属性值，生成候选填补属性组合。例如，对于缺失元组存在两个缺失属性B1、B2，每个缺失属性均对应存在3个默认属性值，若缺失属性B1对应的默认属性值为：a、b、c，缺失属性B2对应的默认属性值为：d、e、f，则可针对缺失元组进一步生成3*3对应的9种候选填补属性组合：a-d、a-e、a-f、b-d、b-e、b-f、c-d、c-e、c-f。

作为又一种可选实施方式，可应用于用户存在与缺失元组匹配的历史元组记录的情况，当根据用户的历史元组记录确定候选填补属性组合时，具体可在用户的历史元组记录中提取与缺失元组各个缺失属性匹配的历史属性，进而可根据历史属性生成候选填补属性的组合结果。例如，对于缺失元组存在两个缺失属性B1、B2，每个缺失属性均对应存在3个历史属性，若缺失属性B1对应的历史属性为：a、b、c，缺失属性B2对应的历史属性为：d、e、f，则可针对缺失元组进一步生成3*3对应的9种候选填补属性组合：a-d、a-e、a-f、b-d、b-e、b-f、c-d、c-e、c-f。

203、提取缺失元组对应的第一完整属性，并按照第一预设距离计算公式，计算第一完整属性下缺失元组与完整元组的第一距离值，依据第一距离值确定各个缺失元组的填补优先级，以使对应第一距离值最小的缺失元组配置有最大填补优先级。

对于本实施例，对于缺失元组集合I_M中存在的多条缺失数据元组，在进行数据填补之前首先要计算出各元组的填补优先级，从而根据其优先级先后顺序对各缺失元组进行填补。直觉上，对于一个含有缺失值的元组，其具有的完整数据值与其他元组越相近，可信度越高。因为这样的元组具有更多的相似性邻居元组作为其支持。因此，可计算各缺失元组与其他完整元组针对各个完整属性的平均距离值，即第一距离值。具体可在确定出缺失元组对应的完整属性后，针对各个完整属性，均与其他完整元组计算得到该完整属性下的第二距离值，进而再计算同一缺失元组对应所有完整属性的平均距离值。因为平均距离值越大，其相似度越低，因此可以按照平均距离值以升序排列，即优先填补与完整邻居平均距离值小(相似度高)的缺失元组，填补完成后的缺失元组可作为后续填补优先级较低的待填补元组对应聚合度分析的完整元组。其中，在计算距离值时，可采用任何适用于度量的距离函数，第一预设距离计算公式可包括欧几里得距离(Euclidean Distance)、曼哈顿距离(Manhattan Distance)、杰卡德距离(Jaccard Distance)、马氏距离(Mahalanobisdistance)等，具体可根据元组对应的数据类型以及实际应用场景进行选择，在此不进行具体的限定。

相应的，对于本实施例，在利用第一预设距离计算公式计算第一完整属性下缺失元组与完整元组的第一距离值时，实施例步骤203具体可以包括：按照第一预设距离计算公式计算各个第一完整属性下缺失元组与完整元组的第二距离值；将各个第二距离值的平均值确定为缺失元组与完整元组的第一距离值。

204、根据填补优先级确定待执行填补操作的目标缺失元组，利用与目标缺失元组匹配的候选填补属性组合依次预填补目标缺失元组，并计算预填补生成的预填补元组与填补元组集和完整元组集的元组密度值，其中，填补元组集中包含缺失元组集中填补完成的所有第二完整元组。

在具体的应用场景中，为实现在数据填补的同时，考虑到数据的聚类效果，故在依据实施例步骤202确定出各个缺失元组的候选填补属性组合后，可进一步依据实施例步骤203中的填补优先级，提取缺失元组集中对应填补优先级最大的目标缺失元组，进而利用与目标缺失元组匹配的候选填补属性组合依次对目标缺失元组进行预填补处理，以便在候选填补属性组合中筛选出能够带来最优聚类效果的目标候选填补属性组合，利用目标候选填补属性组合实现对目标缺失元组的填补处理。

对于本实施例，元组密度值具体可利用元组间距离小于预设预设距离的元组数量来表示，当预填补元组与填补元组集和完整元组集的元组密度值越小，表示当前预填补结果对应的聚类效果越好，反之则确定聚类效果不明显。相应的，在计算预填补生成的预填补元组与填补元组集和完整元组集的元组密度值时，实施例步骤204具体可以包括：按照第二预设距离计算公式，计算预填补元组与第一完整元组和第二完整元组的第三距离值；统计第三距离值小于预设距离阈值的第一完整元组和第二完整元组的个数，并作为预填补元组对应的元组密度值。其中，第二预设距离计算公式可与第一预设距离计算公式相同或不同，同样可包括欧几里得距离(Euclidean Distance)、曼哈顿距离(Manhattan Distance)、杰卡德距离(Jaccard Distance)、马氏距离(Mahalanobis distance)等，具体可根据元组对应的数据类型以及实际应用场景进行选择，在此不进行具体的限定。

例如，若确定目标缺失元组存在两个缺失属性B1、B2，针对缺失属性B1、B2确定出候选填补属性组合包括：a-d、a-e、a-f、b-d、b-e、b-f、c-d、c-e、c-f，对于本实施例，可将a-d、a-e、a-f、b-d、b-e、b-f、c-d、c-e、c-f依次对缺失元组进行预填补，并计算预填补生成的预填补元组与填补元组集和完整元组集的元组密度值，进而可得到上述9个候选填补属性组合对应的元组密度值计算结果，例如可为：5、7、3、2、1、4、6、2、3。

205、将对应元组密度值最大的候选填补属性组合确定为目标候选填补属性组合，并利用目标候选填补属性组合填补目标缺失元组，生成目标填补元组，其中，目标候选填补属性组合中包含各个缺失属性的目标候选填补属性。

例如，基于实施例步骤204的实例，若确定目标缺失元组存在两个缺失属性B1、B2，针对缺失属性B1、B2确定出候选填补属性组合：a-d、a-e、a-f、b-d、b-e、b-f、c-d、c-e、c-f，且各个候选填补属性组合对应的元组密度值计算结果为：5、7、3、2、1、4、6、2、3，则可通过对比9个候选填补属性组合的元组密度值，确定“a-e”这一候选填补属性组合的元组密度值最大，故可将“a-e”确定为目标候选填补属性组合，进而可利用“a-e”实现对目标缺失元组的填补处理，即利用目标候选填补属性“a”填补缺失属性B1，利用目标候选填补属性“e”填补缺失属性B2，在对目标缺失元组填补处理后，即可得到填补完成的目标填补元组。

相应的，作为一种优选方式，在判定生成目标填补元组后，为了保证聚类效果，故需要将目标填补元组更新为第二完整元组，进而在缺失元组集中剔除，并存储至填补元组集中，以便当前生成的目标填补元组可作为后续填补优先级较低的目标缺失元组对应聚合度分析的完整元组。

借由上述基于聚类分析的医疗数据缺失处理方法，可在获取到医疗数据对应的缺失元组集后，确定与缺失元组集匹配的完整元组集，进一步利用完整元组集中的第一完整元组按照预设排列规则生成缺失元组集中各个缺失元组的候选填补属性组合。进而计算缺失元组集中各个缺失元组的填补优先级，并按照填补优先级在候选填补属性组合中筛选用于填补缺失元组的目标候选填补属性组合，以使填补生成的目标填补元组与填补元组集和完整元组集的元组密度值最大。在本申请中，在有缺失元组的数据上进行聚类应用时，没有单纯考虑数据填补任务而忽略了对下游聚类应用的影响，且又没有单纯只考虑对聚类应用的影响而忽略了对缺失数据填补的重要性。而是同时进行数据填补和聚类两个问题，进而能够保证在不完整数据上同时进行数据填补和数据聚类，使得在不完整数据上最终得到其具有最好聚类效果的数据填补结果。

进一步的，作为图1和图2所示方法的具体实现，本申请实施例提供了一种基于聚类分析的医疗数据缺失处理装置，如图3所示，该装置包括：确定模块31、生成模块32、填补模块33；

确定模块31，可用于获取医疗数据对应的缺失元组集，并确定与缺失元组集对应医疗数据类型匹配的完整元组集，其中，缺失元组集中包含多个由缺失属性和部分完整属性构成的缺失元组，完整元组集中包含多个无缺失属性的第一完整元组；

生成模块32，可用于按照预设排列规则，并基于第一完整元组生成缺失元组集中各个缺失元组的候选填补属性组合；

填补模块33，可用于计算缺失元组集中各个缺失元组的填补优先级，并按照填补优先级在候选填补属性组合中筛选用于填补缺失元组的目标候选填补属性组合，以使利用目标候选填补属性组合填补生成的目标填补元组与填补元组集和完整元组集的元组密度值最大，其中，填补元组集中包含缺失元组集中填补完成的所有第二完整元组。

在具体的应用场景中，生成模块32，具体可用于确定缺失元组的第一完整属性和第一缺失属性，并在完整元组集中筛选预设数量个与所第一完整属性相似度最高的第一完整元组；将每一第一完整元组中与第一缺失属性对应属性类型匹配的第二完整属性确定为候选填补属性，按照预设排列规则组合候选填补属性，生成候选填补属性组合。

相应的，在计算缺失元组集中各个缺失元组的填补优先级时，填补模块33，具体可用于提取缺失元组对应的第一完整属性；按照第一预设距离计算公式，计算第一完整属性下缺失元组与完整元组的第一距离值；依据第一距离值确定各个缺失元组的填补优先级，以使对应第一距离值最小的缺失元组配置有最大填补优先级。

在具体的应用场景中，在按照第一预设距离计算公式，计算第一完整属性下缺失元组与完整元组的第一距离值时，填补模块33，具体可用于按照第一预设距离计算公式计算各个第一完整属性下缺失元组与完整元组的第二距离值；将各个第二距离值的平均值确定为缺失元组与完整元组的第一距离值。

相应的，在按照填补优先级在候选填补属性组合中筛选用于填补缺失元组的目标候选填补属性组合，以使填补生成的目标填补元组与填补元组集和完整元组集的元组密度值最大时，填补模块33，具体可用于根据填补优先级确定待执行填补操作的目标缺失元组；利用与目标缺失元组匹配的候选填补属性组合依次预填补目标缺失元组，并计算预填补生成的预填补元组与填补元组集和完整元组集的元组密度值，其中，填补元组集中包含缺失元组集中填补完成的所有第二完整元组；将对应元组密度值最大的候选填补属性组合确定为目标候选填补属性组合，目标候选填补属性组合中包含各个缺失属性的目标候选填补属性；利用目标候选填补属性组合填补目标缺失元组，生成目标填补元组。

相应的，在计算预填补生成的预填补元组与填补元组集和完整元组集的元组密度值时，填补模块33，具体可用于按照第二预设距离计算公式，计算预填补元组与第一完整元组和第二完整元组的第三距离值；统计第三距离值小于预设距离阈值的第一完整元组和第二完整元组的个数，并作为预填补元组对应的元组密度值。

在具体的应用场景中，为使填补完成后的目标填补元组可作为后续填补优先级较低的待填补元组对应聚合度分析的完整元组，如图4所示，该装置还包括：更新模块34；

更新模块34，可用于将目标填补元组更新为第二完整元组，并存储至填补元组集中。

需要说明的是，本实施例提供的一种基于聚类分析的医疗数据缺失处理装置所涉及各功能单元的其他相应描述，可以参考图1至图2的对应描述，在此不再赘述。

基于上述如图1至图2所示方法，相应的，本实施例还提供了一种存储介质，存储介质具体可为易失性或非易失性，其上存储有计算机可读指令，该可读指令被处理器执行时实现上述如图1至图2所示的基于聚类分析的医疗数据缺失处理方法。

基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施场景的方法。

基于上述如图1至图2所示的方法和图3、图4所示的虚拟装置实施例，为了实现上述目的，本实施例还提供了一种计算机设备，该计算机设备包括存储介质和处理器；存储介质，用于存储计算机程序；处理器，用于执行计算机程序以实现上述如图1至图2所示的基于聚类分析的医疗数据缺失处理方法。

可选的，该计算机设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency，RF)电路，传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等，可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)等。

本领域技术人员可以理解，本实施例提供的一种计算机设备结构并不构成对该实体设备的限定，可以包括更多或更少的部件，或者组合某些部件，或者不同的部件布置。

存储介质中还可以包括操作系统、网络通信模块。操作系统是管理上述计算机设备硬件和软件资源的程序，支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信，以及与信息处理实体设备中其它硬件和软件之间通信。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现，也可以通过硬件实现。

通过应用本申请的技术方案，与目前现有技术相比，本申请可在获取到医疗数据对应的缺失元组集后，确定与缺失元组集匹配的完整元组集，进一步利用完整元组集中的第一完整元组按照预设排列规则生成缺失元组集中各个缺失元组的候选填补属性组合。进而计算缺失元组集中各个缺失元组的填补优先级，并按照填补优先级在候选填补属性组合中筛选用于填补缺失元组的目标候选填补属性组合，以使填补生成的目标填补元组与填补元组集和完整元组集的元组密度值最大。在本申请中，在有缺失元组的数据上进行聚类应用时，没有单纯考虑数据填补任务而忽略了对下游聚类应用的影响，且又没有单纯只考虑对聚类应用的影响而忽略了对缺失数据填补的重要性。而是同时进行数据填补和聚类两个问题，进而能够保证在不完整数据上同时进行数据填补和数据聚类，使得在不完整数据上最终得到其具有最好聚类效果的数据填补结果。

本领域技术人员可以理解附图只是一个优选实施场景的示意图，附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中，也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本申请序号仅仅为了描述，不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景，但是，本申请并非局限于此，任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims

1.一种基于聚类分析的医疗数据缺失处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述按照所述填补优先级在所述候选填补属性组合中筛选用于填补所述缺失元组的目标候选填补属性组合，以使利用所述目标候选填补属性组合填补生成的目标填补元组与填补元组集和所述完整元组集的元组密度值最大，具体包括：

根据填补优先级确定待执行填补操作的目标缺失元组；

利用与所述目标缺失元组匹配的候选填补属性组合依次预填补所述目标缺失元组，并计算预填补生成的预填补元组与填补元组集和所述完整元组集的元组密度值，其中，所述填补元组集中包含所述缺失元组集中填补完成的所有第二完整元组；

将对应所述元组密度值最大的候选填补属性组合确定为目标候选填补属性组合，所述目标候选填补属性组合中包含各个缺失属性的目标候选填补属性；

利用所述目标候选填补属性组合填补所述目标缺失元组，生成目标填补元组。

3.根据权利要求1所述的方法，其特征在于，所述按照预设排列规则，并基于所述第一完整元组生成所述缺失元组集中各个缺失元组的候选填补属性组合，具体包括：

确定所述缺失元组的第一完整属性和第一缺失属性，并在所述完整元组集中筛选预设数量个与所第一完整属性相似度最高的第一完整元组；

将每一所述第一完整元组中与所述第一缺失属性对应属性类型匹配的第二完整属性确定为候选填补属性，按照预设排列规则组合所述候选填补属性，生成候选填补属性组合。

4.根据权利要求1所述的方法，其特征在于，所述计算所述缺失元组集中各个所述缺失元组的填补优先级，具体包括：

提取所述缺失元组对应的第一完整属性；

按照第一预设距离计算公式，计算所述第一完整属性下所述缺失元组与所述完整元组的第一距离值；

依据所述第一距离值确定所述各个缺失元组的填补优先级，以使对应第一距离值最小的缺失元组配置有最大填补优先级。

5.根据权利要求4所述的方法，其特征在于，所述按照第一预设距离计算公式，计算所述第一完整属性下所述缺失元组与所述完整元组的第一距离值，具体包括：

按照第一预设距离计算公式计算各个所述第一完整属性下所述缺失元组与所述完整元组的第二距离值；

将各个所述第二距离值的平均值确定为所述缺失元组与所述完整元组的第一距离值。

6.根据权利要求2所述的方法，其特征在于，所述计算预填补生成的预填补元组与填补元组集和所述完整元组集的元组密度值，具体包括：

按照第二预设距离计算公式，计算所述预填补元组与所述第一完整元组和所述第二完整元组的第三距离值；

统计所述第三距离值小于预设距离阈值的所述第一完整元组和所述第二完整元组的个数，并作为所述预填补元组对应的元组密度值。

7.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

将所述目标填补元组更新为第二完整元组，并存储至所述填补元组集中。

8.一种基于聚类分析的医疗数据缺失处理装置，其特征在于，包括：

9.一种存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至7中任一项所述的基于聚类分析的医疗数据缺失处理方法。

10.一种计算机设备，包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至7中任一项所述的基于聚类分析的医疗数据缺失处理方法。