CN117033917A

CN117033917A - 基于多种插值融合的数据缺失的智能填充方法及系统

Info

Publication number: CN117033917A
Application number: CN202310949134.7A
Authority: CN
Inventors: 陈益强; 彭宇明; 杨晓东; 潘自兴; 李姝�; 曾敏; 王娟; 王洁; 李沐寒; 崔倩宇; 于浩杰
Original assignee: Intelligent Computing Research Institute Of Shandong Industrial Technology Research Institute; Beijing Tiantan Hospital
Current assignee: Intelligent Computing Research Institute Of Shandong Industrial Technology Research Institute; Beijing Tiantan Hospital
Priority date: 2023-07-31
Filing date: 2023-07-31
Publication date: 2023-11-10

Abstract

本发明属于数据处理技术领域，提供了一种基于多种插值融合的数据缺失的智能填充方法及系统。其中，该方法包括获取所有待插值的数据序列并进行分布统计，并将分布统计结果分成缺失组和连续组；学习缺失组中的缺失分布特征，进而基于缺失分布特征及连续组，构建出仿生缺失组，同时记录缺失位置的数据组并作为答案集合；调取预设填充方法集合中的各个填充方法来处理仿生缺失组，得到插值数据集合，并与答案集合中的数据进行比对，确定出插值数据集合中各个填充值是否正确，进而计算出仿生缺失组中每个序列的一组准确率；筛选出仿生缺失组中每个序列的准确率最高的插值方法进行相应插值处理，最终得到准确填充集合。

Description

基于多种插值融合的数据缺失的智能填充方法及系统

技术领域

本发明属于数据处理技术领域，尤其涉及一种基于多种插值融合的数据缺失的智能填充方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

在常规的数据清洗任务和数据处理中，经常会出现一段的空值序列，或是由于数据清洗后导致，或是由于最开始数据采集时缺失，也有可能时来自于人为的不小心误删。不管是什么原因导致的空值序列的产生，均会导致科研任务结果的不可靠。缺失的数据会让连续的数据组丢失很多有用的信息，导致数据分析的结果与真实值差距较大。因此，迫切需要有一种方法来解决这些问题。

现在插值填充的方法有很多种，例如线性插值，均值插值，众数插值，三次样条插值等，它们都是有各自的应用条件，如均值插值适用于数值变化幅度不大的数据序列，线性插值适用于成线性分布的数据序列。但是在实际的应用中，数据是复杂多变的，它的构成是非常复杂的状况的集合体，没法用一种方法拟合所有的缺失序列，它的不同时刻的函数是变化的，这就会导致如果仅用一种手段去插值填充数据会导致结果的偏差较大。

随着人工智能的兴起，也会有用深度学习的网络来预测对应的结果，例如常用LSTM网络会对时间序列进行预测，有时也可以用于缺失数据的填充任务，但是这些复杂的神经网络往往需要海量的高质量的数据，有时并不适用与小样本数据，且有时候精度也并不高。

发明内容

为了解决上述背景技术中存在的技术问题，本发明提供一种基于多种插值融合的数据缺失的智能填充方法及系统，其能够提数据填充的精度。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供一种基于多种插值融合的数据缺失的智能填充方法。

一种基于多种插值融合的数据缺失的智能填充方法，其包括：

获取所有待插值的数据序列并进行分布统计，并将分布统计结果分成缺失组和连续组；其中，待插值的数据序列包含独立同分布的完整数据序列样本；

学习缺失组中的缺失分布特征，进而基于缺失分布特征及连续组，构建出仿生缺失组，同时记录缺失位置的数据组并作为答案集合；

调取预设填充方法集合中的各个填充方法来处理仿生缺失组，得到插值数据集合，并与答案集合中的数据进行比对，确定出插值数据集合中各个填充值是否正确，进而计算出仿生缺失组中每个序列的一组准确率；

筛选出仿生缺失组中每个序列的准确率最高的插值方法进行相应插值处理，最终得到准确填充集合。

作为一种实施方式，通过仿生算法学习缺失组中的缺失分布特征，其过程为：

筛选出缺失组中的最短序列，将缺失组所有数据采用左对齐方式截取与最短序列等长的序列；

然后记录其中缺失的位置索引，即学习到的缺失分布特征。

作为一种实施方式，构建仿生缺失组的过程为：

先将连续组中的序列处理成与缺失组中的最短序列的等长序列；

再将缺失分布索引应用到连续组的等长序列，进而得到仿生缺失组。

作为一种实施方式，判断插值数据集合中各个填充值正确的原则为：

插值数据集合与答案集合中的数据两者误差在预设范围内。

作为一种实施方式，筛选出仿生缺失组中每个序列的准确率最高的插值方法的过程为：

仿生缺失组中每个序列的一组准确率，构成准确率集合；

准确率集合的序列按照准确率大小进行排序，并对每个子集合选出准确率最高的插值方法。

作为一种实施方式，准确率＝填充正确个数/(填充正确个数+填充错误个数)。

本发明的第二个方面提供一种基于多种插值融合的数据缺失的智能填充系统。

一种基于多种插值融合的数据缺失的智能填充系统，其包括：

分布统计模块，其用于获取所有待插值的数据序列并进行分布统计，并将分布统计结果分成缺失组和连续组；其中，待插值的数据序列包含独立同分布的完整数据序列样本；

仿生学习模块，其用于学习缺失组中的缺失分布特征，进而基于缺失分布特征及连续组，构建出仿生缺失组，同时记录缺失位置的数据组并作为答案集合；

填充比对模块，其用于调取预设填充方法集合中的各个填充方法来处理仿生缺失组，得到插值数据集合，并与答案集合中的数据进行比对，确定出插值数据集合中各个填充值是否正确，进而计算出仿生缺失组中每个序列的一组准确率；

插值筛选模块，其用于筛选出仿生缺失组中每个序列的准确率最高的插值方法进行相应插值处理，最终得到准确填充集合。

本发明的第三个方面提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的基于多种插值融合的数据缺失的智能填充方法中的步骤。

本发明的第四个方面提供一种计算机设备。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的基于多种插值融合的数据缺失的智能填充方法中的步骤。

与现有技术相比，本发明的有益效果是：

本发明针对上述缺失数据的存在的情况，提出一种方法通过对给定的数据序列智能分析，将数据按照是否缺失分为缺失组和连续组两个集合，然后对缺失组的集合进行缺失分布统计，获得缺失分布统计后，再将这个缺失分布应用到连续组的数据集合上，获得人工构造缺失组，同时记录对应缺失位置的真实值作为答案集，然后根据利用各种已知的插值方法对人工构造的缺失组进行插值，并将所有的插值结果与真实值作比较，统计准确率，算法此时会获得不同缺失分布插值结果精确率最高的插值方法，会为当前数据的每一个缺失分布类型分配一个最佳插值方法，然后再应用到开始分出的缺失组数据上，为每一个缺失分布采用与之对应的插值方法进行插值，这样可以获得最佳插值效果。该方案无需对数据进行标定，通过自主学习缺失分布特征，并且为缺失分布的数据进行匹配最佳的插值填充方法，提升了填充效果。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明实施例的缺失数据的具体分布图；

图2是本发明实施例的各种填充方法的准确率分布图；

图3是本发明实施例的基于多种插值融合的数据缺失的智能填充方法流程图；

图4是本发明实施例的基于多种插值融合的数据缺失的智能填充原理图；

图5是本发明实施例的基于多种插值融合的数据缺失的智能填充系统结构示意图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

结合图3和图4，本实施例提供了一种基于多种插值融合的数据缺失的智能填充方法，其具体包括如下步骤：

步骤1：获取所有待插值的数据序列并进行分布统计，并将分布统计结果分成缺失组和连续组；其中，待插值的数据序列包含独立同分布的完整数据序列样本。

本发明适用于各种场景的数据缺失问题，本文以手术中血压数据为示例，但不局限于血压数据。本文选用某三家医院539例开颅手术患者术中的血压数据，该组血压数据按照每10秒记录一次血压数据，也就是每分钟统计6条数据，其中有165例患者数据是连续无缺失数据，剩余的374例患者的数据均存在不同程度的缺失情况。

例如：给定多名患者的手术中血压数据，为待插值的数据序列S，其中需要包含一些完整的数据样本S_b，且需要和待插值序列S满足独立同分布条件，也就是这些血压需要是来自于相同的设备采集而来。

加载所有待插值的数据序列S₁,S₂,…,S_n，将这些序列经过缺失分布统计算法进行分布统计，这里按照缺失序列满足0分钟(就是无缺失的连续数据)，1分钟，2分钟，…，30分钟，并将该结果记为d₀,d₁,d₂,…,d₃₀。这里的1分钟指得是在1分钟的序列里缺失数据量在1～6条的情况，以此类推，30分钟就是在30分钟内缺失数据条数累计在1～180条左右。因为一般的手术时间为3～4小时，手术过程中麻醉医师会实时和关注手术者的血压情况。

在实际应用中，30分钟缺失的跨度已经比较少见了，具体这里本实施例设置为最长缺失时间为30分钟，就该方法而言，并无该上限。

将分布统计结果分成缺失组和连续组，其中，缺失组S_a＝{a₁，a₂,…,a₃₀}，无缺失的连续组S_b＝{b₀}。

步骤2：学习缺失组中的缺失分布特征，进而基于缺失分布特征及连续组，构建出仿生缺失组，同时记录缺失位置的数据组并作为答案集合。

在一些具体实施过程中，在步骤2中，通过仿生算法学习缺失组中的缺失分布特征，其过程为：

然后记录其中缺失的位置索引，即学习到的缺失分布特征。

仿生算法具体为：针对S_a中的缺失分布情况，取S_a序列中最短序列a_s，将S_a所有数据采用左对齐方式截取与a_s等长的序列，然后可以记录其中缺失的位置索引S_p＝{p₁,p₂,…,p₃₀}，这些序列就是学习到的缺失分布特征。

具体地，构建仿生缺失组的过程为：

通过上述仿生算法将缺失分布信息S_p应用到S_b中数据上，具体先将S_b集合中数据按照上一步中获取S_p的过程进行处理，将S_b中序列处理成与a_s等长序列S_bs，这样可以将缺失分布索引S_p应用到集合S_bs而得到人工构造的仿生缺失组S_c＝{c₁,c₂,…,c₃₀}，同时记录缺失位置的数据组Q＝{q₁,q₂,…,q₃₀}，记作答案集Q，这里的下标1～30与前文中的下标含义一样。

此处可以理解的是，学习缺失组中的缺失分布特征以及构建仿生缺失组的方法，除了上述仿生算法之外，还可采用其他算法来实现，此处不再累述。

步骤3：调取预设填充方法集合中的各个填充方法来处理仿生缺失组，得到插值数据集合，并与答案集合中的数据进行比对，确定出插值数据集合中各个填充值是否正确，进而计算出仿生缺失组中每个序列的一组准确率。

填充方法集合中的算法包括但不限于均值填充(mean)、众数填充(mode)、中数填充(median)、前填充(previous)、后填充(next)、线性插值(linear)、2阶B样条曲线(quadratic)、3阶B样条曲线(cubic)合计8种填充插值算法，分别记为F_mean、F_mode、F_median、F_previous、F_next、F_linear、F_quadratic、F_cubic,得到填充方法集合F＝{F_mean,F_mode,F_median,F_previous,F_next,F_linear,F_quadratic,F_cubic}。

其中，准确率＝填充正确个数/(填充正确个数+填充错误个数)。

而且判断插值数据集合中各个填充值正确的原则为：

插值数据集合与答案集合中的数据两者误差在预设范围内。

此处需要说明的是，预设范围根据不同数据性质不同，本领域人员来具体设置。

步骤4：筛选出仿生缺失组中每个序列的准确率最高的插值方法进行相应插值处理，最终得到准确填充集合。

在步骤4中，筛选出仿生缺失组中每个序列的准确率最高的插值方法的过程为：

仿生缺失组中每个序列的一组准确率，构成准确率集合；

针对上文中的仿生缺失组S_c数据分别应用上一步中选定的填充插值算法，并将插值出的数据集合P与答案集Q结果比对，以±5mmHg为误差(该数值是由医院医生提供的临床误差值)，满足下面公式(1)的数据则认为是填充正确，否则视为填充错误。

|GT-Pre|<5mmHg (1)

其中，GT为真实数据，来自答案集Q，Pre为来自集合P中的算法填充的仿生数据值。

由此分别在S_c序列中每个序列均可以获得一组准确率，这里准确率＝填充正确个数/(填充正确个数+填充错误个数)，以S_c中的c₁为例，可以获得N_C1＝{n_1mean,n_1mode,n_1median,n_1previous,n_1next,n_1linear,n_1quadratic,n_1cubic},…,N_C30＝{n_30mean,n_30mode,n_30median,n_30previous,n_30next,n_30linear,n_30quadratic,n_30cubic}组成的准确率集合N＝{N_C1,N_C2,…,N_C30}；

针对N集合的序列按照准确率大小进行排序，并对每个子集合选出准确率最高的插值方法，也就是针对S_c中c₁,c₂,…,c₃₀分别选出对应的准确率最高的插值方法F_best＝{F_1best,F_2best,…,F_30best}；

通过上面的步骤，算法就对缺失集合的数据序列S的真实数据分布情况进行了自主学习，并且针对各种情况匹配了最佳的插值方法F集合，根据插值方法F的集合信息，可以在真实存在缺失情况的S_a数据集合上通过融合根据缺失的情况应用F中与之最佳填充方法，相比单一的插值手段，该方法最终可以获取最佳效果，得到准确填充集合S_d，S_d＝{d₁,d₂,…,d₃₀}。

本方案选取了某三甲医院的开颅手术的539手术患者的血压数据，对该数据进行分析，获得了缺失数据的分布情况，如图1所示。

可以发现数据缺失主要集中在缺失数据量在1～10分钟阶段，占整个缺失数据的90％以上，实际我们仅解决这10分钟以内的缺失填充文件就解决了90％的缺失序列的问题。我们以±5mmHg为误差，分别计算出单独使用某一项填充手段及智能填充方法的准确率，具体结果如图2。

通过该结果可以发现如果使用单一的填充方法效果是参差不齐的，可以看到线性插值的填充方法在这些单一填充方法的效果更加突出，我们的智能填充方法则是凭借智能分析模块充分发挥了各个填充方法的优势，实现了1+1>2的效果，准确率在这几个方法中获得最佳的效果。

值得注意的是，本实施例虽然只选了8种插值方法，但是不局限于这八种，视待处理的数据集的复杂程度，按照本文提供的方法，可以支持更多的支持手段，拟合更多的场景。

实施例二

如图5所示，本实施例提供了一种基于多种插值融合的数据缺失的智能填充系统，其具体包括如下模块：

其中，在所述仿生学习模块中，通过仿生算法学习缺失组中的缺失分布特征，其过程为：

然后记录其中缺失的位置索引，即学习到的缺失分布特征。

此处需要说明的是，本实施例中的各个模块与实施例一中的各个步骤一一对应，其具体实施过程相同，此处不再累述。

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例一所述的基于多种插值融合的数据缺失的智能填充方法中的步骤。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述实施例一所述的基于多种插值融合的数据缺失的智能填充方法中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多种插值融合的数据缺失的智能填充方法，其特征在于，包括：

2.如权利要求1所述的基于多种插值融合的数据缺失的智能填充方法，其特征在于，通过仿生算法学习缺失组中的缺失分布特征，其过程为：

然后记录其中缺失的位置索引，即学习到的缺失分布特征。

3.如权利要求2所述的基于多种插值融合的数据缺失的智能填充方法，其特征在于，构建仿生缺失组的过程为：

4.如权利要求1所述的基于多种插值融合的数据缺失的智能填充方法，其特征在于，判断插值数据集合中各个填充值正确的原则为：

插值数据集合与答案集合中的数据两者误差在预设范围内。

5.如权利要求1所述的基于多种插值融合的数据缺失的智能填充方法，其特征在于，筛选出仿生缺失组中每个序列的准确率最高的插值方法的过程为：

仿生缺失组中每个序列的一组准确率，构成准确率集合；

6.如权利要求1所述的基于多种插值融合的数据缺失的智能填充方法，其特征在于，准确率＝填充正确个数/(填充正确个数+填充错误个数)。

7.一种基于多种插值融合的数据缺失的智能填充系统，其特征在于，包括：

8.如权利要求7所述的基于多种插值融合的数据缺失的智能填充系统，其特征在于，在所述仿生学习模块中，通过仿生算法学习缺失组中的缺失分布特征，其过程为：

然后记录其中缺失的位置索引，即学习到的缺失分布特征。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6中任一项所述的基于多种插值融合的数据缺失的智能填充方法中的步骤。

10.一种计算机设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如权利要求1-6中任一项所述的基于多种插值融合的数据缺失的智能填充方法中的步骤。