CN114171150A

CN114171150A - 一种健康数据缺失值预测方法、装置、计算机设备和存储介质

Info

Publication number: CN114171150A
Application number: CN202111505909.9A
Authority: CN
Inventors: 齐连永; 孔令贞; 闫超; 董兆安; 黄万丽; 王斯锋
Original assignee: Qufu Normal University
Current assignee: Qufu Normal University
Priority date: 2021-12-10
Filing date: 2021-12-10
Publication date: 2022-03-11

Abstract

本发明适用于计算机技术领域，提供了一种健康数据缺失值预测方法、装置、计算机设备和存储介质，包括：获取待预测的健康数据，所述健康数据存在数据缺失值；根据所述待预测的健康数据以及预设的健康数据缺失值预测模型，确定数据缺失值；由于预设的健康数据缺失值预测模型是通过将预先采集的若干存在数据缺失值的健康数据集样本划分为多个时间序列数据并转化为数据压缩矩阵后进行训练得到，故利用该预设的健康数据缺失值预测模型进行数据缺失值的预测能够捕捉用户健康数据随时间变化的规律，从而准确且高效地预测和补全健康数据缺失值。

Description

一种健康数据缺失值预测方法、装置、计算机设备和存储介质

技术领域

本发明属于计算机技术领域，尤其涉及一种健康数据缺失值预测方法、装置、计算机设备和存储介质。

背景技术

在大数据时代，医疗健康领域的研究话题成为热门话题之一。这是因为大量先进电子科学技术(例如可穿戴设备、血糖仪、心电图仪等)的使用促进了大量健康数据的产生。医疗健康数据能够帮助人们管理自己的健康状况，协助医生对患者做出准确的诊断，并且人们的健康数据在科学研究方面也具有巨大的潜力。因此，用户的健康数据在医疗健康领域的发展发挥着非常重要的作用。然而，在实际生活中，往往会由于系统更新、设备故障、归档不及时等原因产生缺失值，使用户的健康数据不完整。不完整的健康数据可能会导致医生做出不准确的诊断、制定不科学的治疗计划，并降低科学研究结果的有效性(如偏倚风险增加、样本表示不完整、信息丢失和统计能力下降等)。因此，健康数据缺失值问题是一个亟待解决的问题。

目前，针对缺失数据预测问题，国内外学者已经做出了一些工作，但是由于健康数据的复杂性，这些工作还存在局限性：(1)大多数研究工作没有考虑到健康数据随时间的变化而变化，这就造成预测准确度不高。(2)数据预测方法往往时间复杂度较高，因此大多数研究工作预测缺失值的计算成本较高。

由此可见，现有的健康数据缺失值预测方法存在计算成本高、准确率以及效率低的问题。

发明内容

本发明实施例的目的在于提供一种健康数据缺失值预测方法，旨在解决现有的健康数据缺失值预测方法存在计算成本高、准确率以及效率低的问题。

本发明实施例是这样实现的，一种健康数据缺失值预测方法，包括：

获取待预测的健康数据，所述健康数据存在数据缺失值；

根据所述待预测的健康数据以及预设的健康数据缺失值预测模型，确定数据缺失值；所述预设的健康数据缺失值预测模型是通过将预先采集的若干存在数据缺失值的健康数据集样本划分为多个时间序列数据并转化为数据压缩矩阵后进行训练得到。

本发明实施例的另一目的在于一种健康数据缺失值预测装置，包括：

健康数据获取单元，用于获取待预测的健康数据，所述健康数据存在数据缺失值；以及

数据缺失值确定单元，用于根据所述待预测的健康数据以及预设的健康数据缺失值预测模型，确定数据缺失值；所述预设的健康数据缺失值预测模型是通过将预先采集的若干存在数据缺失值的健康数据集样本划分为多个时间序列数据并转化为数据压缩矩阵后进行训练得到。

本发明实施例的另一目的在于一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行所述健康数据缺失值预测方法的步骤。

本发明实施例的另一目的在于一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行所述健康数据缺失值预测方法的步骤。

本发明实施例提供的健康数据缺失值预测方法，由于预设的健康数据缺失值预测模型是通过将预先采集的若干存在数据缺失值的健康数据集样本划分为多个时间序列数据并转化为数据压缩矩阵后进行训练得到，故利用该预设的健康数据缺失值预测模型进行数据缺失值的预测能够捕捉用户健康数据随时间变化的规律，从而准确且高效地预测和补全健康数据缺失值；本发明一方面，在预测缺失值的过程中考虑到时间因素的影响，提高了模型预测精度；另一方面，通过将原始健康数据转化为数据压缩矩阵，不仅保持了原始健康数据的内在特征，还能够在模型训练过程中降低数据冗余和数据噪声的影响，同时将该健康数据缺失值预测模型扩展到矩阵形式，并将其应用到压缩矩阵中，大大提高了模型预测效率。

附图说明

图1为本发明实施例提供的MHDP_{SVD_ARIMA}方法的动机图；

图2为本发明实施例提供的一种健康数据缺失值预测方法的流程图；

图3为本发明实施例提供的构建预设的健康数据缺失值预测模型的步骤流程图；

图4为本发明实施例提供的确定整合移动平均自回归模型的参数的步骤流程图；

图5为本发明实施例提供的健康数据缺失值的预测方法的收敛图；

图6为本发明实施例提供的平均绝对误差和均方根误差-数据稀疏度关系图；

图7为本发明实施例提供的平均绝对误差和均方根误差-时间序列长度关系图；

图8为本发明实施例提供的时间成本-数据稀疏度和时间序列长度关系图。

图9为本发明实施例提供的健康数据缺失值的预测装置的结构框图；

图10为本发明实施例提供的健康数据缺失值的预测装置中的模型训练单元的结构框图；

图11为本发明实施例提供的模型训练单元中的模型参数确定模块的结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为了更直观地介绍本发明提出的方法，以一个例子来描述动机。在图1中，假设有三个用户(分别是Alice,Bob,和Tom)，每个用户都有一系列健康数据，用符号hd_ijt来表示在t时刻用户i第j维的健康数据。在现实生活中，由于系统故障、操作失误(如工作人员归档不及时)等原因，医疗健康领域的数据往往会存在缺失值，如果用户在t时刻的健康数据丢失，丢失的数据用“？”表示。在图中，可以看出，Alice在t₁时刻的健康数据存在缺失值。为了给Alice预测和补全健康数据缺失值，要面对以下挑战：

(1)时间因素对预测结果的影响。时间因素是一个动态上下文因素，它影响着用户健康数据的变化。当预测缺失值时将时间因素考虑在内，会得到更加准确的结果。

(2)健康数据冗余和噪声问题以及传统ARIMA(autoregressive integratedmoving average)模型单一时间序列预测的问题。例如，在Alice的健康数据中，她的出生年月信息就包含了她的年龄信息，因此，年龄信息是冗余的。噪声数据也是无意义的数据，而且会影响数据分析过程。同时，时间成本往往会很高。考虑时间因素会增加实验的时间成本，ARIMA模型作为一种常用的时间序列预测模型也是十分耗时的，ARIMA模型不能同时预测多条序列，增加了时间成本；

在这种情况下，本发明提出了基于SVD_ARIMA模型的时间感知的健康数据缺失值预测方法MHDP_{SVD_ARIMA}，MHDP_{SVD_ARIMA}方法将截断的SVD(truncated singularvaluedecomposition)与ARIMA模型相结合来提高传统ARIMA模型预测的效率，同时去除数据冗余和数据噪声。通过改进了的ARIMA模型，MHDP_{SVD_ARIMA}方法能够捕捉用户健康数据随时间变化的规律，从而准确且高效地预测和补全健康数据缺失值。

图2为本发明实施例提供的健康数据缺失值预测方法的实现流程图，详述如下：

步骤S201，获取待预测的健康数据，所述健康数据存在数据缺失值。

步骤S202，根据所述待预测的健康数据以及预设的健康数据缺失值预测模型，确定数据缺失值。

在本发明实施例中，所述预设的健康数据缺失值预测模型是通过将预先采集的若干存在数据缺失值的健康数据集样本划分为多个时间序列数据并转化为数据压缩矩阵后进行训练得到，如图3所示，该预设的健康数据缺失值预测模型的构建步骤包括：

步骤S301，获取若干存在数据缺失值的健康数据样本。

在本发明实施例中，所述健康数据样本为体现人们健康状况的医疗健康数据集，而且这个数据集存在缺失数据。所述体现人们健康状况的医疗健康数据集具体可以为血糖仪、心电图仪等医疗仪器采集的数据以及日常人们使用一些可穿戴设备(如智能手环)所产生的健康数据，医疗健康数据出现缺失值是由于医疗仪器出现故障使医疗健康数据存在遗漏、医务人员对人们的医疗健康数据归档不及时造成数据丢失的现象。

步骤S302，将所述健康数据样本划分为训练样本点数据以及测试样本点数据，所述测试样本点数据为最后一个时刻的健康数据。

在本发明实施例中，将原始数据集中最后一个时刻的用户数据作为测试样本点数据，剩下的作为训练样本点数据，训练样本点数据用于建立模型，测试样本点数据用于测试已经训练好的模型。

步骤S303，根据所述训练样本点数据，估计整合移动平均自回归模型的自回归项数、滑动平均项数以及差分阶数。

在本发明实施例中，整合移动平均自回归(ARIMA)模型是时间序列预测最常用的模型之一。ARIMA模型有三个重要参数p，d和q。AR是自回归，p是自回归项数；MA是滑动平均，q为滑动平均项数；d为使之成为平稳序列所做的差分次数(阶数)。首先，简单介绍以下什么是差分，如公式(1)所示，假设y代表在t时刻Y的差分。

ARIMA模型是在ARMA模型的基础上发展而来的。ARMA模型由AR模型和MA模型两部分组成。公式(2)展示了AR模型：

在公式(2)中，Y_t代表t时刻的数据，δ_i(i＝1，...，p)代表AR模型的系数。

公式(3)展示了MA模型：

在公式(3)中，ε_t表示t时刻的误差，η代表Y_t的期望，

是MA模型的参数。

因此，通过AR模型和MA模型，可以得到ARMA模型：

在现实中，时间序列数据往往是不稳定的。为了捕捉时间序列中稳定的特性，ARMA模型结合了差分的方法，从而形成了ARIMA模型。本发明使用符号Δ^dY_t来表示Y_t的d阶差分，则ARIMA(p，d，q)模型可以表示为：

在本发明实施例中，通过对ARIMA模型进行网格搜索方法(grid search是一种调整参数的方法，类似于穷举搜索)来确定最佳的参数组合，即将各个参数可能的取值进行排列组合，列出所有可能的组合生成“网格”，然后验证哪个组合最佳，最终确定p＝2，d＝0，q＝3。

步骤S304，将所述训练样本点数据划分为多个时间序列数据。

在本发明实施例中，将训练样本点数据按照时间序列分为Π₁,Π₂,…,Π_T。

步骤S305，计算所述时间序列数据基于所述差分阶数下的差分，并对所述差分进行压缩处理，得到数据压缩矩阵。

在本发明实施例中，可利用截断SVD对数据进行Δ^dΠ_d,…,Δ^dΠ_T压缩，以去除数据冗余，并将压缩后的数据矩阵应用到ARIMA模型中。其中，SVD(singular valuedecomposition)用来提取矩阵的特征，给定一个矩阵M，M是一个p*q的矩阵。通过SVD，M可以被分解为三个矩阵，X，∑，Y。X是一个p*p的酉矩阵，且被称为左奇异向量；Y是一个q*q的酉矩阵，且被称为右奇异向量；∑是一个p*q的矩形对角矩阵。∑矩阵对角线上的值称为矩阵M的奇异值。

M＝X∑Y^T s.t.XX^T＝I，YY^T＝I (6)

截断的SVD在SVD的基础上发展而来，截断的SVD被用来降低矩阵的维度，以去除数据冗余和噪声。

在公式(7)中，v＜＜min(p，q)，∑_v是由∑的前v个奇异值组成的对角矩阵。X_v是一个p*v的矩阵，Y_v是一个q*v的矩阵，X_v和Y_v分别对应X和Y的前v列。如果我们设置M’＝X_v∑_v，则M’是M的压缩矩阵，M’的元素比M少很多，但同时保留了M的重要特征。

在本发明实施例中，计算上述数据Π₁，Π₂，...，Π_T的d阶差分，并得到Δ^dΠ_d，...，Δ^d∏_T。Π的d阶差分Δ^dΠ为：

Δ^dΠ＝{ΔdΠ_d，ΔdΠ_d+2，...，Δ^dΠ_T} (8)

本发明利用truncated SVD来对Δ^dΠ进行压缩，去除数据中的冗余和噪声并减少计算和储存成本，公式如下：

Δ^dΨ_t=Δ^dΠ_tk s.t.κκ^T＝I (9)

在(9)中，κ是正交因子矩阵。Δ^d∏_t的压缩矩阵为Δ^dΨ_t，Δ^dΨ_t比Δ^dΠ_t中的元素少而且保留了Δ^d∏_t的重要特征。

步骤S306，根据所述数据压缩矩阵、差分、自回归项数、滑动平均项数以及差分阶数，确定整合移动平均自回归模型的参数。

在本发明实施例中，如图4所示，所述步骤S306包括：

步骤S401，根据所述数据压缩矩阵以及差分，确定正交因子矩阵；

步骤S402，根据所述正交因子矩阵、数据压缩矩阵、差分、自回归项数、滑动平均项数、差分阶数以及随机误差，基于预设的目标优化条件，构建目标函数。

在本发明实施例中，通过Δ^dΨ_t和κ，可以再次得到Δ^d∏_t。

因此，本发明的第一个优化目标是减小Δ^d∏_t和

之间的误差。

接下来，本发明将压缩矩阵应用到ARIMA模型当中，扩展后的ARIMA模型公式如下：

在公式(11)中，δ_i是AR模型的参数，

是MA模型的参数。ε_t-j是过去q次观测的随机误差项，假设它们是独立的、均值为0的同分布变量。ε_t是现在时刻的随机误差，本发明的第二个优化目标是使误差ε_t最小化为0。

基于上述两个优化目标，本发明可以得到最终的目标函数，如公式(12)所示：

在公式(12)中，h＝p+d+q，且是最小的时刻数。

步骤S403，对所述目标函数进行迭代优化处理，确定整合移动平均自回归模型的参数。

在本发明实施例中，利用增广拉格朗日方法最小化所述目标函数，得到左奇异向量和右奇异向量；使用尤尔-沃克方程得到整合移动平均自回归模型的参数，具体地：

因为增广拉格朗日方法是在数学优化问题中广泛使用的方法。首先，本发明求出目标函数对Δ^dΨ_t的偏导数，使偏导为0，来确定κ，ε_t-j，δ_i，

的值，得到更新后的Δ^dΨ_t的等式：

公式(12)对κ求偏导：

这等价于正交Procrustes问题，LR^T是公式(14)的全局最优解，L和R分别是

的左奇异向量和右奇异向量，计算公式如下：

在传统的ARIMA模型中，本发明使用Yule-Walker(尤尔-沃克)方法来最小化模型参数δ_i和

接着，计算公式(12)对ε_t-j的偏导数，令偏导数等于零，可以得到更新后的ε_t-j的值：

下面，算法1展示了这个过程的伪代码：

步骤S307，根据所述数据压缩矩阵、差分、自回归项数、滑动平均项数、差分阶数以及整合移动平均自回归模型的参数，构建健康数据缺失值预测模型。

步骤S308，根据所述训练样本点数据以及所述健康数据缺失值预测模型，确定与所述训练样本点数据对应的下一时间序列数据。

在本发明实施例中，经过模型训练，所需要的模型参数都是已知的，通过公式(17)，可以得到更新后的Δ^dΨ_T+1的值：

接下来，根据公式(10)，可以得到Δ^dΠ_T+1，最终，通过对Δ^dΠ_T+1进行逆d阶差分，得到Π_T+1。

下面，算法2展示了这个过程的伪代码：

步骤S309，计算所述下一时间序列数据与所述测试样本点数据之间的损失差异。

步骤S310，当判断所述损失差异满足预设误差条件时，则将当前的健康数据缺失值预测模型确定为预设的健康数据缺失值预测模型。

在本发明实施例中，当判断所述损失差异不满足预设误差条件时，需要重新调整上述健康数据缺失值预测模型的相关参数进行再次训练，值到满足为止。

为了证明本发明MHDP_{SVD_ARIMA}方法的有效性，在WISDM数据集上进行了一系列实验，并与下面三个方法进行对比：

(1)MLTP_LSH方法：与MHDP_{SVD_ARIMA}方法相似，MLTP_LSH方法的目的也是预测和补全健康数据缺失值，不同的是，MLTP_LSH方法没有考虑到时间因素对试验结果的影响。

(2)SerRec_time-LSH方法：此方法运用局部敏感哈希技术(LSH)并加入时间因素来进行预测工作。

(3)IPCC方法：IPCC是一个基础方法。

本发明使用两个常用的误差测量指标来度量方法的准确性，分别是平均绝对误差(MAE)和均方根误差(RMSE)。公式如下：

所有实验都是在戴尔笔记本电脑上运行的，其处理器是2.40GHz，内存是4.0GB。运行环境是微软公司的Windows10操作系统，以及Python3.7的版本。

在实验中，设置p＝2，d＝0，q＝3。在参数的确定过程当中，使用了网格搜索(gridsearch)方法，网格搜索方法类似于穷举的方法，它将所有的参数组合遍历一遍，然后选出最佳的参数组合。

下面从四个方面对实验结果进行分析。

1.迭代次数分析

在这一部分中确定MHDP_{SVD_ARIMA}方法的迭代次数，不同的迭代次数往往会影响最终结果的准确程度。希望得到最合适的迭代次数使预测准确度最高。通过对MHDP_{SVD_ARIMA}方法收敛性的研究，结果如图5所示。从图5可以看出，当迭代次数为25时，映射矩阵的相对误差变得稳定。因此，本发明把实验的迭代次数设置为25。

2.预测准确性w.r.t.数据稀疏度

这一部分中比较四个方法(MHDP_{SVD_ARIMA}，MLTP_LSH，SerRec_time-LSH，IPCC)的预测准确度。将数据稀疏度作为自变量，来比较四个方法的MAE值和RMSE值，其中，MAE值和RMSE值越小，预测准确度越高。数据稀疏度分别设为0.2，0.4，0.6，0.8，0.9。实验结果如图6(a)，图6(b)所示，ratio表示数据稀疏度。

从图6可以看出，MHDP_{SVD_ARIMA}方法的MAE值和RMSE值最小，也就是MHDP_{SVD_ARIMA}方法的准确度最高。此外，我们还发现数据稀疏度对MHDP_{SVD_ARIMA}方法的准确度影响不大，这是因为MHDP_{SVD_ARIMA}方法的准确度主要取决于T-1的健康数据。

3.预测准确性w.r.t.时间序列长度

这一部分中比较四个方法(MHDP_{SVD_ARIMA}，MLTP_LSH，SerRec_time-LSH，IPCC)对应时间序列长度下的准确度。将时间序列长度作为自变量，时间序列长度分别设置为100，200，300，400，500。图7(a)和图7(b)展示了实验结果。

从图7可以看出，随着时间序列长度的变化，MHDP_{SVD_ARIMA}方法的MAE值波动范围很小，RMSE值随着时间序列长度的增加有较小程度的减少。而且，从图中可以看出，本方法的预测准确度是最高的。

4.时间成本w.r.t.数据稀疏度和时间序列长度

这一部分，我们来比较四个方法的时间成本，我们将数据稀疏度和时间序列长度作为自变量。实验结果如图8(a)和图8(b)所示。

通过图8(a)可以看出，数据稀疏度分别设置为0.2，0.4，0.6，0.8，0.9，在数据稀疏度作为自变量的情况下，MHDP_{SVD_ARIMA}方法的时间成本是最小的。通过图8(b)可以看出，时间序列长度分别设置为100，200，300，400，500，在时间序列长度作为自变量的情况下，MHDP_{SVD_ARIMA}方法的时间成本是最小的。

综上，本发明提出的健康数据缺失值的预测(MHDP_{SVD_ARIMA})方法具有以下三个贡献：

(1)使用截断的SVD(i.e.,truncated SVD)来对原始数据矩阵进行压缩，并保持原始健康数据的内在特征。在ARIMA模型的训练过程中，能够降低数据冗余和数据噪声带来的影响。

(2)为了克服ARIMA模型一个序列一个序列预测的缺点，将传统的ARIMA模型扩展到矩阵形式，并将其应用到压缩矩阵中，提高了ARIMA模型预测的效率。

(3)在WISDM数据集上进行了一系列实验来证明MHDP_{SVD_ARIMA}方法的有效性，实验结果表明，本发明提出的MHDP_{SVD_ARIMA}方法是有效的。

图9为本发明实施例提供的一种健康数据缺失值的预测装置的结构框图，详述如下：

健康数据获取单元910，用于获取待预测的健康数据，所述健康数据存在数据缺失值。

数据缺失值确定单元920，用于根据所述待预测的健康数据以及预设的健康数据缺失值预测模型，确定数据缺失值；所述预设的健康数据缺失值预测模型是通过将预先采集的若干存在数据缺失值的健康数据集样本划分为多个时间序列数据并转化为数据压缩矩阵后进行训练得到。

图10为本发明实施例提供的另一种健康数据缺失值预测装置的结构框图，其与上述实施例的区别在于，还包括模型训练单元1010。

所述模型训练单元1010包括：

健康数据获取模块1011，用于获取若干存在数据缺失值的健康数据样本。

健康数据划分模块1012，用于将所述健康数据样本划分为训练样本点数据以及测试样本点数据，所述测试样本点数据为最后一个时刻的健康数据。

参数估计模块1013，用于根据所述训练样本点数据，估计整合移动平均自回归模型的自回归项数、滑动平均项数以及差分阶数。

时间序列数据划分模块1014，用于将所述训练样本点数据划分为多个时间序列数据。

数据压缩矩阵获得模块1015，用于计算所述时间序列数据基于所述差分阶数下的差分，并对所述差分进行压缩处理，得到数据压缩矩阵。

模型参数确定模块1016，用于根据所述数据压缩矩阵、差分、自回归项数、滑动平均项数以及差分阶数，确定整合移动平均自回归模型的参数。

模型构建模块1017，用于根据所述数据压缩矩阵、差分、自回归项数、滑动平均项数、差分阶数以及整合移动平均自回归模型的参数，构建健康数据缺失值预测模型。

下一时间序列数据确定模块1018，用于根据所述训练样本点数据以及所述健康数据缺失值预测模型，确定与所述训练样本点数据对应的下一时间序列数据。

误差计算模块1019，用于所述下一时间序列数据与所述测试样本点数据之间的误差。

模型确定模块1020，用于当判断所述损失差异满足预设误差阈值时，则将当前的健康数据缺失值预测模型确定为预设的健康数据缺失值预测模型。

图11为本发明实施例提供的模型参数确定模块1016的结构框图，详述如下：

正交因子矩阵确定子模块1101，用于根据所述数据压缩矩阵以及差分，确定正交因子矩阵。

目标函数构建子模块1102，用于根据所述正交因子矩阵、数据压缩矩阵、差分、自回归项数、滑动平均项数、差分阶数以及随机误差，基于预设的目标优化条件，构建目标函数。

模型参数确定子模块1103，用于对所述目标函数进行迭代优化处理，确定整合移动平均自回归模型的参数。

在一个实施例中，提出了一种计算机设备，所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取待预测的健康数据，所述健康数据存在数据缺失值；

根据所述待预测的健康数据以及预设的健康数据缺失值预测模型，确定数据缺失值；

所述预设的健康数据缺失值预测模型是通过将预先采集的若干存在数据缺失值的健康数据集样本划分为多个时间序列数据并转化为数据压缩矩阵后进行训练得到。

在一个实施例中，提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时，使得处理器执行以下步骤：

获取待预测的健康数据，所述健康数据存在数据缺失值；

应该理解的是，虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种健康数据缺失值预测方法，其特征在于，包括：

获取待预测的健康数据，所述健康数据存在数据缺失值；

2.根据权利要求1所述的健康数据缺失值预测方法，其特征在于，所述预设的健康数据缺失值预测模型的构建步骤，包括：

获取若干存在数据缺失值的健康数据样本；

将所述健康数据样本划分为训练样本点数据以及测试样本点数据，所述测试样本点数据为最后一个时刻的健康数据；

根据所述训练样本点数据，估计整合移动平均自回归模型的自回归项数、滑动平均项数以及差分阶数；

将所述训练样本点数据划分为多个时间序列数据；

计算所述时间序列数据基于所述差分阶数下的差分，并对所述差分进行压缩处理，得到数据压缩矩阵；

根据所述数据压缩矩阵、差分、自回归项数、滑动平均项数以及差分阶数，确定整合移动平均自回归模型的参数；

根据所述数据压缩矩阵、差分、自回归项数、滑动平均项数、差分阶数以及整合移动平均自回归模型的参数，构建健康数据缺失值预测模型；

根据所述训练样本点数据以及所述健康数据缺失值预测模型，确定与所述训练样本点数据对应的下一时间序列数据；

计算所述下一时间序列数据与所述测试样本点数据之间的损失差异；

当判断所述损失差异满足预设误差条件时，则将当前的健康数据缺失值预测模型确定为预设的健康数据缺失值预测模型。

3.根据权利要求2所述的健康数据缺失值预测方法，其特征在于，所述根据所述数据压缩矩阵、差分、自回归项数、滑动平均项数以及差分阶数，确定整合移动平均自回归模型的参数的步骤包括：

根据所述数据压缩矩阵以及差分，确定正交因子矩阵；

根据所述正交因子矩阵、数据压缩矩阵、差分、自回归项数、滑动平均项数、差分阶数以及随机误差，基于预设的目标优化条件，构建目标函数；

对所述目标函数进行迭代优化处理，确定整合移动平均自回归模型的参数。

4.根据权利要求3所述的健康数据缺失值预测方法，其特征在于，所述对所述目标函数进行迭代优化处理，确定整合移动平均自回归模型的参数的步骤包括：

利用增广拉格朗日方法最小化所述目标函数，得到左奇异向量和右奇异向量；使用尤尔-沃克方程得到整合移动平均自回归模型的参数。

5.根据权利要求2所述的健康数据缺失值预测方法，其特征在于，利用网格搜索方法根据所述训练样本点数据，估计整合移动平均自回归模型的自回归项数、滑动平均项数以及差分阶数的方法。

6.一种健康数据缺失值预测装置，其特征在于，包括：

7.根据权利要求6所述的健康数据缺失值预测装置，其特征在于，还包括模型训练单元；所述模型训练单元包括：

健康数据获取模块，用于获取若干存在数据缺失值的健康数据样本；

健康数据划分模块，用于将所述健康数据样本划分为训练样本点数据以及测试样本点数据，所述测试样本点数据为最后一个时刻的健康数据；

参数估计模块，用于根据所述训练样本点数据，估计整合移动平均自回归模型的自回归项数、滑动平均项数以及差分阶数；

时间序列数据划分模块，用于将所述训练样本点数据划分为多个时间序列数据；

数据压缩矩阵获得模块，用于计算所述时间序列数据基于所述差分阶数下的差分，并对所述差分进行压缩处理，得到数据压缩矩阵；

模型参数确定模块，用于根据所述数据压缩矩阵、差分、自回归项数、滑动平均项数以及差分阶数，确定整合移动平均自回归模型的参数；

模型构建模块，用于根据所述数据压缩矩阵、差分、自回归项数、滑动平均项数、差分阶数以及整合移动平均自回归模型的参数，构建健康数据缺失值预测模型；

下一时间序列数据确定模块，用于根据所述训练样本点数据以及所述健康数据缺失值预测模型，确定与所述训练样本点数据对应的下一时间序列数据；

误差计算模块，用于所述下一时间序列数据与所述测试样本点数据之间的误差；以及

模型确定模块，用于当判断所述损失差异满足预设误差阈值时，则将当前的健康数据缺失值预测模型确定为预设的健康数据缺失值预测模型。

8.根据权利要求7所述的健康数据缺失值预测方法，其特征在于，所述模型参数确定模块包括：

正交因子矩阵确定子模块，用于根据所述数据压缩矩阵以及差分，确定正交因子矩阵；

目标函数构建子模块，用于根据所述正交因子矩阵、数据压缩矩阵、差分、自回归项数、滑动平均项数、差分阶数以及随机误差，基于预设的目标优化条件，构建目标函数；以及

模型参数确定子模块，用于对所述目标函数进行迭代优化处理，确定整合移动平均自回归模型的参数。

9.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行权利要求1至5中任一项权利要求所述健康数据缺失值预测方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行权利要求1至5中任一项权利要求所述健康数据缺失值预测方法的步骤。