CN110175168A

CN110175168A - 一种基于生成对抗网络的时间序列数据填补方法及系统

Info

Publication number: CN110175168A
Application number: CN201910453437.3A
Authority: CN
Inventors: 高瑞; 张道良; 武传艳; 张德祯; 于沛轩
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2019-05-28
Filing date: 2019-05-28
Publication date: 2019-08-27
Anticipated expiration: 2039-05-28
Also published as: CN110175168B

Abstract

本发明公开了一种基于生成对抗网络的时间序列数据填补方法及系统，包括：获取不同缺失率的数据集；对上述的数据集进行归一化处理，将时间序列数据转化为矩阵数据形式；构造滑动窗口，将数据分成若干组；筛选各个组中不缺失数据的行，构造每个组的完成数据集；将各个组中的完成数据集放入生成对抗网络中训练，使生成器和判别器达到平衡，最终生成若干虚拟数据；筛选生成的虚拟数据，将虚拟数据填补到缺失数据中；反归一化数据，最终完成数据填补。本发明有益效果：引入生成对抗网络，实现了缺失值的训练填补方式，特别适用于时间序列数据缺失值填补；候选填补数据量巨大，可根据填补数据的不同特性来筛选数据从而进行填补。

Description

一种基于生成对抗网络的时间序列数据填补方法及系统

技术领域

本发明涉及时间序列数据缺失值填补的技术领域，特别是涉及一种基于生成对抗网络的时间序列数据填补方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

时间序列数据是最常见的数据之一，在金融、医疗、交通、气象、海洋等领域均有广泛的应用。然而，由于传感器、传输网络的不稳定性等原因，数据不可避免的会出现缺失值。数据的缺失会造成信息的不完整，从而对后续的分析和处理带来很不利的影响。一般的缺失值的填补方法包括均值填补、多项式拟合，插值法、EM算法、K-means聚类算法、组合完整化等方法。

发明人发现，时间序列数据包含时间特征，较静态数据填补具有更高的挑战性。因为缺失数据往往与先前数据存在相关性，利用传统的数据填补方法可能会造成较大的误差。

发明内容

为了解决上述问题，本发明提出一种基于生成对抗网络的时间序列数据填补方法及系统，引入生成对抗网络，实现了缺失值的训练填补方式，特别适用于时间序列数据缺失值填补。

在一些实施方式中，采用如下技术方案：

一种基于生成对抗网络的时间序列数据填补方法，包括：

获取不同缺失率的数据集；

对上述的数据集进行归一化处理，根据数据周期，将时间序列数据转化为矩阵数据形式；

构造滑动窗口，将数据分成若干组，每组包含所有数据的若干列；

筛选各个组中不缺失数据的行，构造每个组的完成数据集；

将各个组中的完成数据集放入生成对抗网络中训练，使生成器和判别器达到平衡，最终生成若干虚拟数据；

筛选生成的虚拟数据，将虚拟数据填补到缺失数据中；

反归一化数据，最终完成数据填补。

在另一些实施方式中，采用如下技术方案：

一种基于生成对抗网络的时间序列数据填补系统，包括服务器，所述服务器包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述的基于生成对抗网络的时间序列数据填补方法。

在另一些实施方式中，采用如下技术方案：

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时执行上述的基于生成对抗网络的时间序列数据填补方法。

与现有技术相比，本发明的有益效果是：

引入生成对抗网络，实现了缺失值的训练填补方式，特别适用于时间序列数据缺失值填补。滑动窗口大大减小了数据计算量，降低了对运算设备的要求。在真实的数据缺失中，同一周期中的缺失值往往是集中在一个或者几个中心的，所以通过滑动窗口仅仅对其中缺失的部分进行生成填补，会大大提高填补效率。

候选填补数据量巨大，可根据填补数据的不同特性来筛选数据从而进行填补。

本发明数据填补方法每次会生成完整周期数据，对数据缺失率敏感度相对较低。对于缺失率较高的时间序列数据，具有很好的效果。

本发明数据填补方法每次会产生大量的虚拟数据，使得数据填补不再是传统方法中只产生一种填补结果。可以根据不同的时间序列数据特征，设置不同的对比方法，以得到不同的数据填补结果，有利于实现更精确的分析预测。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1是实施例一中基于生成对抗网络对时间序列数据缺失值填补的具体流程；

图2是实施例一中生成对抗网络的模型结构图。

具体实施方式

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本发明使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

在一个或多个实施方式中，公开了一种基于生成对抗网络的时间序列数据填补方法，如图1所示，包括以下步骤：

S1获得不同缺失率的数据集。

S2将数据集归一化处理，并根据数据周期构成数据矩阵。

S3构造滑动窗口，将数据分成若干组，每组包含所有数据的若干列。

S4筛选各个组中不缺失数据的行，构造每个组的完成数据集。

S5将各个组中的完成数据集放入生成对抗网络中训练，使生成器和判别器达到平衡，最终生成若干虚拟数据。

S6筛选生成的虚拟数据，将虚拟数据填补到缺失数据中。

S7反归一化数据，最终完成数据填补。

步骤S1中，本实施例中，为了获得不同缺失率的数据集，在获取时间序列数据后，按照给定的缺失率随机删除数据，其中缺失率为缺失数据占总数数据的比重。缺失率可设定为5％、10％、20％、30％。当然，不同缺失率的数据集也可以是直接获取到的。

步骤S2中，首先对数据进行归一化处理，进行归一化处理的公式如下：

其中a_i,j为原始数据，A_i,j为归一化数据，max(a_i,j)和min(a_i,j)为原始数据的最大值和最小值。

进一步的，时间序列数据转化为矩阵数据形式。以小时、天、月、年等周期，分割数据，使每一行数据为一个周期，即小时、天、月、年。

步骤S3中，为保证训练数据集中包含足够的数据量，构建滑动窗口，保证每次构建的数据量足够大。滑动窗口中的数据为一组，以组为单位进行数据填补，每一组包含数据的若干列和所有行。列数满足如下公式：

其中，n为滑动窗口的宽度即每组数据的列数，x为数据的缺失率，a生成对抗网络所需的最小数据量，推荐为10，b为数据总行数。

大量的数据往往意味着大量的计算，而基于生成对抗网络的时间序列数据填补方法所涉及到的计算复杂，这就意味着需要较高性能的计算机才可以完成数据填补工作。滑动窗口则大大减小了数据计算量，降低了对运算设备的要求。此外，在真实的数据缺失中，同一周期中的缺失值往往是集中在一个或者几个中心的，所以通过滑动窗口仅仅对其中缺失的部分进行生成填补，会大大提高填补效率。

在数据缺失率不变的情况下，总的采集数据量越大，缺失数据的数量越大。假设缺失率为5％，每一周期存在24个数据，则该周期不缺失的概率为(1-5％)²⁴，其值约等于0.292。如果数据采集更加频繁的话不缺失的概率则会继续减小，这就会造成所有数据中很难找到不缺失的数据用于生成对抗网络(GAN)学习，让该方法失效。滑动窗口则可以减小每次填补的数据量，保证GAN有充足的数据量去学习。

步骤S4中，将每组数据分为两部分，即缺失数据部分和非缺失数据部分。这里的数据缺失指的是数据中数据中具有大于等于一个缺失值的行，非缺失数据指的是数据中没有缺失值的行。

举例说明如下：

假设归一化后的数据矩阵如下表所示，其中每一行为一个数据周期,Na为缺失数据。

A1,1

A1,2

A1,3

Na

A1,8

Na

A1,10

Na

A1,12

A1,13

A1,14

A1,15

A2,1

A2,2

A2,3

A2,4

A2,5

A2,6

A2,7

A2,8

A2,9

A2,10

A2,11

A2,12

A2,13

A2,14

A2,15

A3,1

A3,2

A3,3

A3,4

Na

A3,6

A3,7

Na

A3,9

Na

A3,11

A3,12

A3,13

A3,14

A3,15

A4,1

A4,2

A4,3

A4,4

A4,5

A4,6

A4,7

A4,8

A4,9

A4,10

A4,11

A4,12

A4,13

A4,14

A4,15

A5,1

A5,2

A5,3

A5,4

A5,5

A5,6

A5,7

A5,8

A5,9

A5,10

A5,11

A5,12

A5,13

A5,14

A5,15

A6,1

A6,2

A6,3

A6,4

A6,5

A6,6

A6,7

A6,8

A6,9

A6,10

A6,11

A6,12

A6,13

A6,14

A6,15

寻找第一个存在缺失数据的列(本例中为第四列，滑动窗口长度设置为10)，找到第一个数据窗，如下表所示。下一个数据窗将从第15列开始寻找。

Na

A1,8

Na

A1,10

Na

A1,12

A1,13

A2,4

A2,5

A2,6

A2,7

A2,8

A2,9

A2,10

A2,11

A2,12

A2,13

A3,4

Na

A3,6

A3,7

Na

A3,9

Na

A3,11

A3,12

A3,13

A4,4

A4,5

A4,6

A4,7

A4,8

A4,9

A4,10

A4,11

A4,12

A4,13

A5,4

A5,5

A5,6

A5,7

A5,8

A5,9

A5,10

A5,11

A5,12

A5,13

A6,4

A6,5

A6,6

A6,7

A6,8

A6,9

A6,10

A6,11

A6,12

A6,13

下一个数据窗将从第15列开始寻找，若剩余数据列数小于滑动窗口设置长度，则借用该滑动窗口前的若干列数据构造滑动窗口，以保证数据长度不会过短。

将滑动窗口构造的子序列进一步拆分，构造完整子矩阵数据和缺失子矩阵，分别如下表所示。

完整子矩阵数据

A2,4

A2,5

A2,6

A2,7

A2,8

A2,9

A2,10

A2,11

A2,12

A2,13

A4,4

A4,5

A4,6

A4,7

A4,8

A4,9

A4,10

A4,11

A4,12

A4,13

A5,4

A5,5

A5,6

A5,7

A5,8

A5,9

A5,10

A5,11

A5,12

A5,13

A6,4

A6,5

A6,6

A6,7

A6,8

A6,9

A6,10

A6,11

A6,12

A6,13

缺失子矩阵数据

Na

A1,8

Na

A1,10

Na

A1,12

A1,13

A3,4

Na

A3,6

A3,7

Na

A3,9

Na

A3,11

A3,12

A3,13

其中完整子矩阵数据用于训练GAN网络，以填补缺失子矩阵数据。

步骤S5中，生成对抗网络(GAN)由两个模型构成,生成模型G和判别模型D，随机噪声z通过G生成尽量服从真实藻类生长数据分布P_data的样本G(z)，判别模型D可以判断出输入样本是真实的藻类生长数据还是生成的藻类生长数据G(z)。G和D都可以是非线性的映射函数，均可采用采用多层感知器。GAN的流程如图1所示。

首先，在生成器给定的情况下，优化判别器。判别器为一个二分类模型，训练判别器是实现最小化交叉熵的过程，其公式如下：

E(·)为期望值的计算,x采样于真实数据分布P_data(x)，z采样于先验分布P_z(z)。生成器为了学习数据x的分布,由先验噪声分布P_z(z).构建了一个映射空间G(z；θ_g)，对应的判别器映射函数为D(x；θ_d)，输出一个标量表示x为真实数据的概率。

其中，中，x表示真实样本,D(x)表示x通过判别网络判断其为真实样本的概率；中，z表示输入生成样本的噪声，G(z)表示生成网络由噪声z生成的样本，D(G(z))表示生成样本通过判别网络后，判断其为真实样本的概率。生成网络的目的是让生成样本越接近真实样本越好，即D(G(z))越接近1越好，这时V(D,G)会变小；而判别网络的目的是让D(x)接近1，而D(G(z))接近0。

最后，通过生成对抗网络，最终生成大量生成数据。

步骤S6中，将生成数据与原始缺失数据组作比较。删除缺失数据部分中所有缺失数据，并逐条对数据进行填补。进行数据填补的方法为：

将原始缺失数据组与多个生成数据组进行对应，删除缺失数据组中数据缺失位置的数据，同书删除生成数据组中与数据缺失位置相对应的数据，形成新的原始数据组和生成数据组；分别计算新的原始数据组与每一个新的生成数据组的相似度，选取相似度值最小的生成数据组，将其与数据缺失位置相对应的数据填补到原始缺失数据组的相应位置。

举例说明如下：

假设原始时间序列数据为X具有十个数据，分别为X1到X10，其中第三个数据X3和第七个X7为缺失数据，A，B，C，D四个序列数据为生成数据，每个序列为是个数据，不存在缺失数据，如下表所示。

原始数据X

X1

X2

Na

X4

X5

X6

Na

X8

X9

X10

生成数据A

A1

A2

A3

A4

A5

A6

A7

A8

A9

A10

生成数据B

B1

B2

B3

B4

B5

B6

B7

B8

B9

B10

生成数据C

C1

C2

C3

C4

C5

C6

C7

C8

C9

C10

生成数据D

D1

D2

D3

D4

D5

D6

D7

D8

D9

D10

删除生成数据的第三个数据和第七个数据，构造完成数据，其特征如下表所示。

原始数据X’

X1

X2

X4

X5

X6

X8

X9

X10

生成数据A’

A1

A2

A4

A5

A6

A8

A9

A10

生成数据B’

B1

B2

B4

B5

B6

B8

B9

B10

生成数据C’

C1

C2

C4

C5

C6

C8

C9

C10

生成数据D’

D1

D2

D4

D5

D6

D8

D9

D10

分别计算构造的原始数据X’与生成数据A’、B’、C’、D’的相似度，本案例采用MAPE计算相似度。其计算公式为

具体来说：

计算出所有的MAPE值后，选取计算所得最小的序列。假设min_MAPE＝MAPE_X′,A′，则选取序列数据A，将A3，A7填补到原始数据中，填补后的时间序列数据为：

X1

X2

A3

X4

X5

X6

A7

X8

X9

X10

至此，数据填补结束。

步骤S7中，将数据进行反归一化，最终完成数据填补，公式如下：

其中，a_i,j为原始数据，A_i,j为归一化数据，max(a_i,j)和min(a_i,j)为原始数据的最大值和最小值，为最终完成数据。

一般的缺失值的填补方法仅从临近数据分析问题，忽略了数据的全局分布特征。当数据缺失率较高时，不满足可观测性条件时，状态估计类的数据填补方法则无法使用。本实施方式的数据填补方法每次会生成完整周期数据，对数据缺失率敏感度相对较低。对于缺失率较高的时间序列数据，具有很好的效果。

本实施方式的数据填补方法每次会产生大量的虚拟数据，使得数据填补不再是传统方法中只产生一种填补结果。可以根据不同的时间序列数据特征，设置不同的对比方法，以得到不同的数据填补结果，有利于实现更精确的分析预测。

实施例二

在一个或多个实施方式中，公开了一种基于生成对抗网络的时间序列数据填补系统，包括服务器，所述服务器包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现实施例一中所述的时间序列数据填补方法。

实施例三

在一个或多个实施方式中，公开了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时执行实施例一中所述的时间序列数据填补方法。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于生成对抗网络的时间序列数据填补方法，其特征在于，包括：

获取不同缺失率的数据集；

筛选各个组中不缺失数据的行，构造每个组的完成数据集；

筛选生成的虚拟数据，将虚拟数据填补到缺失数据中；

反归一化数据，最终完成数据填补。

2.如权利要求1所述的一种基于生成对抗网络的时间序列数据填补方法，其特征在于，对数据集进行归一化处理，具体为：

其中，a_i,j为原始数据，A_i,j为归一化数据，max(a_i,j)和min(a_i,j)为原始数据的最大值和最小值。

3.如权利要求1所述的一种基于生成对抗网络的时间序列数据填补方法，其特征在于，根据数据周期，将时间序列数据转化为矩阵数据形式，具体为：以小时、天、月、年时间周期分割数据，使每一行数据为一个周期。

4.如权利要求1所述的一种基于生成对抗网络的时间序列数据填补方法，其特征在于，每一组中包含数据的列数满足：

其中，n为滑动窗口的宽度即每组数据的列数，x为数据的缺失率，a为生成对抗网络所需的最小数据量，b为数据总行数。

5.如权利要求1所述的一种基于生成对抗网络的时间序列数据填补方法，其特征在于，所述生成对抗网络中，生成器为了学习数据x的分布,由先验噪声分布P_z(z)构建了一个映射空间G(z；θ_g)，对应的判别器映射函数为D(x；θ_d)，输出一个标量表示x为真实数据的概率。

6.如权利要求1所述的一种基于生成对抗网络的时间序列数据填补方法，其特征在于，筛选生成的虚拟数据，将虚拟数据填补到缺失数据中，具体为：

7.如权利要求1所述的一种基于生成对抗网络的时间序列数据填补方法，其特征在于，反归一化数据，具体为：

8.一种基于生成对抗网络的时间序列数据填补系统，其特征在于，包括服务器，所述服务器包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现权利要求1-7任一项所述的基于生成对抗网络的时间序列数据填补方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时执行权利要求1-7任一项所述的基于生成对抗网络的时间序列数据填补方法。