CN113298131B

CN113298131B - 一种基于注意力机制的时序数据缺失值插补方法

Info

Publication number: CN113298131B
Application number: CN202110533285.5A
Authority: CN
Inventors: 季薇; 金博斌; 李云
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-05-17
Filing date: 2021-05-17
Publication date: 2022-08-05
Anticipated expiration: 2041-05-17
Also published as: CN113298131A

Abstract

本发明公开了一种基于注意力机制的时序数据缺失值的插补方法，其包括：获取有缺失值的时序数据；将有缺失值的时序数据输入训练后的生成器，获取插补后的时序数据；其中，生成器的训练包括：将有缺失值的时序数据输入生成器，基于注意力机制获取完整的时序数据；将有缺失值的时序数据和完整的时序数据输入判别器，基于损失函数，对判别器和生成器进行对抗式训练。本发明能够生成符合原始数据集分布的新时序数据。通过试用注意力机制可以增强特征中重要特征的表达能力，减少不重要特征的表达能力，同时可以提到处理效率。通过上述方法，我们就能提升时间序列缺失值插补的准确率以及提高插补效率。

Description

一种基于注意力机制的时序数据缺失值插补方法

技术领域

本发明涉及一种基于注意力机制的时序数据缺失值插补方法，属于计算机科学技术领域。

背景技术

近年来，随着人工智能技术的发展，时序数据在人类生活中出现的频率也越来越高。时序数据是将同一统计指标的数值按发生的时间先后顺序排列而成的数列，反映了事物及行为随着时间的变化而发生的状态变化和发展规律。常见的时间序列包括一些医疗数据，如一天中糖尿病人的血糖值随时间发生的变化，还包括网站访问量、道路交通量等在不同时间的变化等。

由于数据采集设备的不稳定性或者被干扰等原因，常常导致采集到的数据发生缺失。时间序列数据的缺失会给数据的分析建模和实际应用造成一定的困难。例如，根据历史天气状况预测未来的天气情况时，如果历史数据有缺失，将会影响到预测的准确率。因此，需要寻找一种准确有效的方法对不完整的数据集进行缺失值插补，以得到完整的能无限接近真实数据的数据集。

近年来，深度学习在人工智能领域取得了巨大的成功，并迅速成为人工智能领域的主导技术。深度学习预测模型需要基于完整的数据集开展网络训练以及参数优化，以学习数据的历史变化规律。数据集缺失的部分往往隐含着数据的历史变化规律，由于这部分的缺失将导致模型无法被完全驱动，最终训练得到的参数也会与最佳参数有较大的差异。因此，时间序列数据缺失值的有效处理技术具有很好的研究意义和实际用途。

发明内容

本发明的目的在于克服现有技术中的不足，提供一种基于注意力机制的时序数据缺失值插补方法，解决传统的生成对抗网络结构中，生成器的输入是一个随机向量，直接用它来进行时序数据缺失值的填充，需要耗费大量的时间来为每条时序数据寻找最优的输入向量，从而导致时序数据缺失值的插补效率大大降低的技术问题。

为达到上述目的，本发明是采用下述技术方案实现的：

本发明提供了一种基于注意力机制的时序数据缺失值插补方法，包括以下步骤：

获取有缺失值的时序数据；

将有缺失值的时序数据输入训练后的生成器，获取插补后的时序数据；

其中，生成器的训练包括：

将有缺失值的时序数据输入生成器，基于注意力机制获取完整的时序数据；

将有缺失值的时序数据和完整的时序数据输入判别器，基于损失函数，对判别器和生成器进行对抗式训练。

进一步的，所述生成器为包括编码器单元和解码器单元的降噪自编码器。

进一步的，所述获取完整的时序数据包括：

编码器单元根据输入的预设长度为m且有缺失值的原始时序数据x和随机噪声向量η，输出原始时序数据x的隐藏向量H；

解码器单元根据原始时序数据x和隐藏向量H结合注意力机制对原始时序数据x的缺失值进行插补，获取完整的时序数据

进一步的，所述对原始时序数据x的缺失值进行插补，获取完整的时序数据

包括：

根据第n时刻的原始时序数据S_n-1与每一时刻的隐藏向量H结合注意力机制，获取每个时刻的权重因子α；

根据每个时刻的权重因子α对所有隐藏向量H作加权平均；

将加权平均的结果带入双曲正切函数得到第n时刻的原始时序数据的完整值S_n；

将第n时刻的原始时序数据的完整值S_n作为第n+1时刻的原始时序数据带入上述步骤，循环计算得到所有时刻的原始时序数据的完整值S；

根据上述所有时刻的原始时序数据的完整值S获取完整的时序数据

其中，H＝{H₁，H₂，H₃，…，H_i，…，H_m}，H_i为第i时刻的隐藏向量，α＝{α₁，α₂，α₃，…，α_i，…，α_m}，α_i为第i时刻的权重因子，S＝{S₁，S₂，S₃，…，S_n，…，S_m}，S_n为第n时刻的原始时序数据的完整值，S₀＝H_m，即解码器的初始输入向量为S₀。

进一步的，所述获得每个时刻的权重因子α包括：

K_i＝W_k·H_i

Q_n-1＝W_q·S_n-1

其中，K_i为注意力机制中第i个key值，H_i为第i时刻的隐藏向量；Q_n-1为注意力机制中第n-1个query值，S_n-1为第n-1时刻的原始时序数据；W_k和W_q是从训练数据中学习得到的参数矩阵，W_k和W_q的初始值由随机初始化参数矩阵获得，并通过生成对抗网络的损失函数和反向传播算法进行更新；

令：

其中，

为矩阵K_i的转置矩阵；

其中，α_i为第i时刻的权重因子，softmax函数为归一化指数函数，用于将输入的

值映射成0-1之间的正数输出，且其所有输出的权重因子α之和为1。

进一步的，所述将加权平均的结果带入双曲正切函数得到第n时刻的原始时序数据的完整值S_n包括：

加权平均值的结果为：

C_n-1＝α₁H₁+α₂H₂+…+α_iH_i+…+α_mH_m

令：

其中，tanh函数是双曲正切函数，其表达式如下：

ω_n和b_n是从训练数据中学习得到的参数，ω_n和b_n的初始值由随机初始化参数获得，并通过生成对抗网络的损失函数和反向传播算法进行更新。

进一步的，所述对判别器和生成器进行对抗式训练包括：

利用损失函数训练判别器：

其中，D(x)是判别器对输入的原始时序数据x判定为真的概率值，

为判别器对输入的完整的时序数据

判定为真的概率值；

利用损失函数训练生成器：

其中，λ为超参数，重复多次，直至判别器输出的概率接近0.5停止训练。

与现有技术相比，本发明所达到的有益效果：

本发明的一种基于注意力机制的时序数据缺失值插补方法，利用生成对抗网络，结合注意力机制，提出了一种基于注意力机制的时序数据缺失值填充方法。经过对抗式训练，该方法能够生成符合原始数据集分布的新时序数据。通过试用注意力机制可以增强特征中重要特征的表达能力，减少不重要特征的表达能力，同时可以提到处理效率。通过上述方法，我们就能提升时间序列缺失值插补的准确率以及提高插补效率。

附图说明

图1是本发明实施例中生成对抗网络生成器的具体结构图；

图2是本发明实施例中生成对抗网络判别器的具体结构图；

图3是本发明实施例中时序数据缺失值插补过程流程图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

本发明以数据集KDD CUP 2018Dataset(后文简称KDD)为例，详细说明该方法在其上进行缺失值插补的步骤。该数据集是一个来自于KDD杯2018挑战赛的气象数据集。该数据集包含了北京的历史气象数据，由分处北京各地的多个气象观测站的数据组成。本文选择了其中11个气象观测站的数据，每个气象观测站的数据都包含了从2017年1月1日到2017年12月30日的每隔一小时的气象与空气质量数据的记录。具体记录了包括PM2.5，PM10，一氧化碳和温度等12个属性。

如图3所示：

步骤1：按照图1搭建生成对抗网络的生成器，其中生成器是一个降噪自编码器，包含编码器和解码器两个部分。将长度为m的原始时间序列x(有缺失，图1中用X表示缺失的数据)和随机噪声向量η输入降噪自编码器的编码器部分输出隐藏向量H_m，即

H_m＝Encoder(x+η)

编码器和解码器均由循环神经网络(Recurrent Neural Network,RNN)单元构成。为与原始数据具有一定程度的差异性，在降噪自编码器编码器单元重构数据的过程中，我们加入了随机噪声η，以减少过拟合现象的发生，重构出更加准确的数据。

步骤1.1：把原始的带有缺失的时间序列按时间顺序输入到图1所示的编码器中。

步骤1.2：在原始时序数据x(有缺失)中添加随机噪声η。

步骤1.3：由降噪自编码器的编码器部分完成编码过程，

原始时间序列的长度为m。编码器总共有m个RNN隐藏层输出，分别为H₁,H₂,H₃,...,H_m。图1中以一个时间长度为4，属性数也为4的时间序列来举例说明，每一行代表一个属性，每一列代表一个时刻，所以是一个4×4的矩阵形式，RNN最后的隐藏层输出也就是H₄。

步骤2：通过步骤1我们得到了编码器部分RNN单元的每一个隐藏层的输出，但是最终我们输入进解码器部分的只是最后一个隐藏层的输出H_m。令S₀＝H_m，即解码器的初始输入向量为S₀，它包含了输入的原始时间列的信息。降噪自编码器的解码器按照时间顺序一步步输出完整的插补过后的时间序列数据。下面对每一个时刻的数据插补分解为子步骤进行说明。

步骤2.1：首先我们要进行初始时刻t₁的数据插补，我们需要计算解码器的初始输入向量S₀与编码器每一时刻输出的隐含向量H₁,H₂,H₃,...,H_m等的相关性，得到权重记作α_i,1≤i≤m。α₁到α_m都是介于0到1之间的实数。下面具体说明α₁到α_m的计算流程。

步骤2.1.1：根据步骤1中各个隐藏层的输出计算参数

K_i＝W_k·H_i，i＝1,2,3,...,m

Q₀＝W_q·S₀

其中，K_i即注意力机制里面的key值，Q₀即注意力机制里面的query值，下标代表第几个值。“.”表示乘法运算。W_k和W_q是从训练数据中学习得到的参数矩阵，我们先随机初始化参数矩阵W_k和W_q，然后进行更新，参数矩阵的更新要借助生成对抗网络的损失函数和反向传播算法，生成对抗网络的损失函数在后续步骤3中有介绍。

令

其中，“T”表示转置运算，

即矩阵K_i的转置矩阵。

S₀与编码器RNN单元前m-1个时刻的隐藏状态的权重为

其中，softmax函数又称归一化指数函数，将输入的

到

值映射成0到1之间的正数，且输出结果值的和相加起来等于1。

步骤2.1.2：利用步骤2.1.1所得的权重因子α_i，对步骤1中编码器所有历史隐藏向量H作加权平均，得：

C₀＝α₁H₁+…+α_mH_m

进一步，令

tanh函数是双曲正切函数，它的定义式为：

ω₁和b₁是从训练数据中学习得到的参数，我们先随机初始化参数ω₁和b₁，然后进行更新，参数的更新依然是借助步骤三中生成对抗网络的损失函数和反向传播算法。

这样就得到解码器RNN第一个单元的输出S₁，即初始时刻t₁的完整数据值。至此，初始时刻t₁的数据插补已经完成，接下来进入下一时刻t₂的数据插补。

步骤2.2：重新计算当前状态S₁与编码器m个H状态的权重，记作α₁，α₂，…,α_m，值得注意的是虽然之前已经计算过了权重α，但是此时由于S状态从S₀更新到S₁，所以新的权重α并不能直接使用之前计算的，新的权重α代表的是当前状态S₁与编码器m个H之间的关系。新的α的计算方法和之前的区别在于这里是参数Q是Q₁，即：

K_i＝W_k·H_i，i＝1,2,3,...,m

Q₁＝W_q·S₁

通过公式计算出向量C₁：

C₁＝α₁H₁+…+α_mH_m

通过公式：

得到解码器RNN第二个单元的输出S₂，即时刻t₂的完整数据值。至此，时刻t₂的数据插补已经完成，接下来进入后续时刻的数据插补。

步骤2.3、按照上述方法依次进行，每一时刻都要按步骤2.2中的公式更新参数Q_i，α_i，C_i，通过更新后的参数计算时刻t_i的输出S_i,即时刻t_i的时序数据值，在最末时刻t_m停止，t_m时刻的输出是S_m，即时刻m的时序数据值。最后能得到完整的插补过后的时间序列数据。

步骤3、将生成器生成后的完整的时间序列和原始时间序列输入到判别器，判别器的结构如附图2所示，通过判别器输出一个概率值，该值代表生成的序列为真实序列的概率。通过对判别器和生成器的对抗式的训练可以得到插补后的完整时间数据。具体的训练方法是先固定住生成器，利用损失函数：

训练判别器，D(x)是判别器对输入的真实的原始缺失时序数据判定为真的概率值(图2中的P真)，

代表假的生成的完整时序数据，

是判别器对输入的假的生成的完整时序数据判定为真的概率值。然后利用损失函数：

训练生成器，λ是超参数，重复多次，直到判别器输出的概率接近0.5停止训练。

综上所述，本发明所提的时间序列缺失值插补方法以生成对抗网络作为基本框架。传统的生成对抗网络结构中，生成器的输入是一个随机向量，直接用它来进行时序数据缺失值的填充，需要耗费大量的时间来为每条时序数据寻找最优的输入向量，从而导致时序数据缺失值的插补效率大大降低。

本发明所提的时间序列缺失值插补方法舍弃了传统生成对抗网络框架中需要对每条时序数据寻找最优输入向量的步骤，而是通过采用降噪自编码器得到时序数据的低维特征表达向量，然后利用该低维特征表达向量来重构完整的时序数据，从而节省了大量的训练时间。

本发明使用的生成对抗网络的生成器部分采用了降噪自编码器。降噪自编码器是一种利用反向传播算法使得输出值等于输入值的神经网络。降噪自编码器包含一个编码器和一个解码器，它先将输入压缩成潜在空间表征，然后通过这种表征来重构输出。降噪自编码器与人眼的感知机制类似，当人眼在观测物体时，即便物体的部分轮廓没有进入视野，人眼也可以识别出物体的种类，因而降噪自编码器不但能够学习输入数据的低维特征表达向量，也能用于修复丢失的数据。正由于其输入数据本来就不是完整的，因而可以很自然地被应用于缺失值填充算法当中。

利用降噪自编码器的编码器部分自动为每条带有缺失值的原始时序数据生成对应的低维度向量，然后将生成的低维度向量作为降噪自编码器解码器部分的输入，解码器按时序数据的时间顺序对其进行插补，在当前时刻插补完成后进入下一时刻，整个网络基于注意力机制自动分配权重，利用这些权重我们可以得到编码器各个隐藏向量的加权平均，可使编码器输出的低维特征向量更适合用于当前时刻的数据插补，从而解决长时间序列的信息遗忘问题，提高插补精确度。

将生成器生成的完整的时序数据和原始数据集中有缺失的时序数据，一同输入到判别器中，完成对生成器和判别器的对抗式训练后，可以认为生成器能够根据原始时序数据x生成符合原始数据集分布的新样本，即缺失值插补后的原始时序数据。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于注意力机制的时序数据缺失值插补方法，其特征在于，包括以下步骤：

获取有缺失值的气象时序数据；

将有缺失值的气象时序数据输入训练后的生成器，获取插补后的气象时序数据；

其中，生成器的训练包括：

将有缺失值的气象时序数据输入生成器，基于注意力机制获取完整的气象时序数据；

将有缺失值的气象时序数据和完整的气象时序数据输入判别器，基于损失函数，对判别器和生成器进行对抗式训练；

所述生成器为包括编码器单元和解码器单元的降噪自编码器；

所述获取完整的气象时序数据包括：

编码器单元根据输入的预设长度为m且有缺失值的原始气象时序数据x和随机噪声向量η，输出原始气象时序数据x的隐藏向量H；

解码器单元根据原始气象时序数据x和隐藏向量H结合注意力机制对原始气象时序数据x的缺失值进行插补，获取完整的气象时序数据

所述对原始气象时序数据x的缺失值进行插补，获取完整的气象时序数据

包括：

根据第n时刻的原始气象时序数据S_n-1与每一时刻的隐藏向量H结合注意力机制，获取每个时刻的权重因子α；

根据每个时刻的权重因子α对所有隐藏向量H作加权平均；

将加权平均的结果带入双曲正切函数得到第n时刻的原始气象时序数据的完整值S_n；

将第n时刻的原始气象时序数据的完整值S_n作为第n+1时刻的原始气象时序数据带入上述步骤，循环计算得到所有时刻的原始气象时序数据的完整值S；

根据上述所有时刻的原始气象时序数据的完整值S获取完整的气象时序数据

其中，H＝{H₁，H₂，H₃，…，H_i，…，H_m}，H_i为第i时刻的隐藏向量，α＝{α₁，α₂，α₃，…，α_i，…，α_m}，α_i为第i时刻的权重因子，S＝{S₁，S₂，S₃，…，S_t，…，S_m}，S_t为第t时刻的原始气象时序数据的完整值，S₀＝H_m，即解码器的初始输入向量为S₀。

2.根据权利要求1所述的一种基于注意力机制的时序数据缺失值插补方法，其特征在于，获得每个时刻的权重因子α包括：

K_i＝W_k·H_i

Q_n-1＝W_q·S_n-1

其中，K_i为注意力机制中第i个key值，H_i为第i时刻的隐藏向量；Q_n-1为注意力机制中第n-1个query值，S_n-1为第n-1时刻的原始气象时序数据；W_k和W_q是从训练数据中学习得到的参数矩阵，W_k和W_q的初始值由随机初始化参数矩阵获得，并通过生成对抗网络的损失函数和反向传播算法进行更新；

令：