CN113627594A

CN113627594A - 基于wgan的一维时序数据增广方法

Info

Publication number: CN113627594A
Application number: CN202110896042.8A
Authority: CN
Inventors: 孙博; 吴泽豫; 王自力; 冯强; 任羿; 杨德真; 钱诚
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-08-05
Filing date: 2021-08-05
Publication date: 2021-11-09
Anticipated expiration: 2041-08-05
Also published as: CN113627594B

Abstract

本发明公开了一种一维时序数据增广方法，具体涉及一种基于Wasserstein生成对抗网络(WGAN)的数据增广方法。步骤如下：1.准备训练数据集，确保训练数据集的采样频率满足要求。2.构建生成对抗网络WGAN，构建由生成器和鉴别器组成的生成对抗网络，其损失函数由Wasserstein距离进行量化。3.训练构建的网络模型，循环训练鉴别器和生成器直到达到纳什均衡状态。4.遍历完整的时序数据，通过WGAN学习并分析时序数据的数字特征并对数字特征相同的数据进行聚类。5.对聚类完成的时序数据，利用每个子类对应的训练完成的WGAN生成器网络生成数字特征与原始数据一致的人工数据，实现数据集的增广。

Description

基于WGAN的一维时序数据增广方法

所属技术领域

本发明提供一维时序数据增广方法，具体涉及一种基于Wasserstein生成对抗网络 (WGAN)的数据增广方法。

背景技术

随着仿真技术和传感器技术的发展，仿真速率和采样频率逐渐提高，工业产品在设计、制造、使用维护期间能够收集到大量时序数据，如瞬态仿真数据、状态监测数据、性能退化数据等。对时序数据的分析能够帮助设计人员更好地理解产品状态的时变特征；能够帮助制造部门更好地控制产品质量；能够帮助使用维护人员更好地预测产品故障，设计维护方案。可以说，对时序数据的分析与理解对工业产品的质量与可靠性具有重要的意义。由于计算误差、材料特性不均匀、制造精度有限等原因，时序数据的数字(统计)特征普遍具有非平稳、时变、非线性的特点，表现为分布不确定的随机过程。若使用确定分布(如高斯分布)的随机过程对时序数据进行量化会引入较大的不确定性，难以准确表征其数字特征，分析难度较大。在工业生产实际中常通过批次产品或相似产品的概率统计信息对时序数据的数字特征进行近似估计，这种做法需要大量的统计样本才能获得较为满意的估计精度。然而，随着现代社会的发展，高价值的小批量产品甚至是非批次、个性化、定制化产品越来越受到人们的关注。在此类产品的设计、制造和使用维护的过程中，无法使用传统的批次数据或相似产品信息对其时变特性进行准确的估计。因此，对小样本甚至是单样本的时序数据进行合理的增广，从而分析与理解其规律，是提升小批量定制化产品质量与可靠性的关键。

在机器学习领域，随着生成对抗网络(GAN)的提出，使得对小样本甚至单样本数据集进行增广成为了可能。GAN由生成器和鉴别器两个神经网络组成，生成器生成与原始数据尽可能相似的数据，而鉴别器尽可能辨别生成数据与原始数据，通过两个神经网络的“对抗博弈”实现生成与原始数据具有相同特征的新样本。自从GAN出现至今已经产生了许多对其进行改良的变体，其中Wasserstein GAN(WGAN)通过改良GAN中生成器和鉴别器的损失函数提高了训练过程的稳定性，使得训练结果更加鲁棒。

发明内容

本发明提出一种基于WGAN的一维时序数据增广方法，针对一维时序数据，通过生成对抗网络学习其数字特征，将其聚类为若干具有相同数字特征的数据子集；通过WGAN的生成器神经网络，生成与原始样本具有相同数字特征的人工样本，从而实现数据增广，主要包含以下步骤。

步骤一：准备训练数据集：

原始数据为一维时序数据。无需对数据添加标签，但需要保证数据有较高的采样频率。对于一般的时序数据，建议采样频率不小于10Hz，即单位时间的采样次数不少于10次。对变化较为剧烈的时序数据应酌情增大其采样频率，而对变化较为平缓的时序数据可酌情降低其采样频率。确定的采样频率需至少大于采样定理(奈奎斯特-香农采样定理)所规定的频率下限，即原始信号频率的2倍。将采样频率满足要求的时序数据进行异常处理，删除异常值和空值，作为训练数据。

步骤二：构建生成对抗网络WGAN

WGAN由两个神经网络，即生成器(Generator)和鉴别器(Discriminator)组成。生成器和鉴别器的输入层与原始数据维度一致。生成器的损失函数为：

其中，

为生成器的生成数据

z～p(z)，

为生成数据的概率分布；

为鉴别器对生成数据的鉴别结果，

为f(x)的数学期望。鉴别器的损失函数为：

其中，x为原始数据，

为原始数据的概率分布；D(x)为鉴别器对原始数据的鉴别结果， L_gp为梯度惩罚项：

其中

为从原始数据和生成数据的分布中重新采样得到的样本数据，

为其概率分布；

为鉴别器对

鉴别结果的梯度；||f(x)||₂为求f(x)的2范数(向量范数)；λ为惩罚系数，一般可取λ＝0.1，较小的λ能够提高网络训练的稳定性但会降低训练速度。

在最小化损失函数(2)对鉴别器进行训练的过程中，鉴别器分辨原始数据和生成数据的能力在提高，即Wasserstein距离

在增大。相反，在最小化损失函数(1)对生成器进行训练的过程中，生成器产生的生成数据与原始数据的差距在缩小，即通过增大

使得

减小。生成器与鉴别器相反的优化方向构成的“对抗”机制，最终会使得

收敛至0+附近，此时生成数据与原始数据的特征已基本趋于一致。

步骤三：训练构建的网络模型：

训练鉴别器：将噪声数据输入至生成器G_i，生成新样本

将原始数据x_i和

分别输入鉴别器D_i，计算鉴别器的鉴别损失

和D(x_i)，并利用公式(2)计算鉴别器的损失函数，使用Adam(α,β₁,β₂)随机梯度下降优化方法对鉴别器的损失函数进行优化，其中α为学习率一般可取1e-4，β₁和β₂为指数衰减率，一般可取0.1和0.9。

训练生成器：将新样本

输入鉴别器D_i计算鉴别器的鉴别损失

并利用公式(1) 计算生成器的损失函数，同样通过Adam(α,β₁,β₂)梯度下降方法对生成器进行训练。

计算Wasserstein距离：循环进行上述训练过程，直至由公式(4)计算的Wasserstein距离小于设定的阈值ρ(一般可取ρ≤0.2)，即完成对网络G_i和D_i的训练。

步骤四：遍历完整的时序数据，分析数据的数字特征并聚类

划分时间片：首先根据采样频率确定最小窗宽S^σ，最小窗宽应不大于采样频率的50倍。利用S^σ将时序数据在时间维离散为若干时间片(Slices)；

训练时间片Slice₀：将Slice₀内的原始数据x₀作为训练集，对生成器G₀和鉴别器D₀进行训练，当Wasserstein距离

后完成对Slice₀数据的训练，保存训练好的生成器G₀和鉴别器 D₀，并将x₀预聚类为第一类，即S₀＝x₀；

预训练Slice_i鉴别器：对时间片Slice_i(i＞0)，使用其原始数据x_i对鉴别器D_i进行预训练，鉴别器预训练的损失函数为：

其中D(x_i)为鉴别器对x_i的鉴别结果，当std[preLoss(D_i)]＜ρ_pre时判定鉴别器预训练完成， std[f(x)]为f(x)的标准差，ρ_pre为阈值(常数)。

时间片迭代：对时间片Slice_i(i>0)，使用Slice_i-1数据所在子类S_j的生成器G_j生成人工数据

将

和x_i分别输入到经过预训练的鉴别器D_i，计算鉴别损失

和D(x_i)并根据公式 (4)计算Wasserstein距离

若Slice_i对应的

则判定Slice_i数据与Slice_i-1数据的数字特征不同，应使用Slice_i的数据重新训练生成器G_i和鉴别器D_i，将Slice_i的原始数据x_i聚为新子类S_j+1＝x_i；反之则判定Slice_i的数据与Slice_i-1的数据的数字特征相同，将Slice_i的原始数据x_i聚入Slice_i-1数据所在子类S_j，

不重新训练生成器和鉴别器。

步骤五：时序数据增广

经过遍历的时序数据，已经按照其数字特征重新在时间维聚类为k个具有相同数字特征的子类S₀,S₁,S₂,…,S_k。使用子类S_j对应的生成器G_j能够生成与该子类原始数据数字特征一致的人工数据，即可按需对数据进行增广。如生成人工样本平衡S₀,S₁,S₂,…,S_k的数据使各子类数据量相同，或生成若干组与原始样本具有相同数字特征的一维时序数据。

附图说明

图1为本发明中所述方法的架构框图

图2为典型时序数据——电池电容量退化图

图3为RW3电池满充电容量时序数据图

图4为生成对抗网络WGAN结构图

图5为案例训练数据聚类分析结果图

图6为本发明生成样本与原始样本的分布和热力图

图7为本发明生成的时序样本与原始样本的散点图

具体实施方式

为使本发明的技术方案、特征及优点得到更清楚的了解，以下结合附图，作详细说明。

本发明给出了一种一维时序数据集的增广方法，旨在通过Wasserstein生成对抗网络 WGAN学习一维时序数据集的数字特征，在时间维将其聚类为具有相同数字特征的若干数据子集，并利用WGAN生成与各子集原始数据具有相同数字特征的人工样本对数据集进行增广。本发明的技术流程如图1所示，下面结合实例进一步说明本发明的实质内容，但本发明的内容并不限于此。

步骤一：准备训练数据集

将瞬态仿真数据、状态监测数据、性能退化数据等一维时序数据作为训练集的输入。工程实际中获得的时序数据一般为无标签数据，本发明中所采用的是无标签机器学习方法，能够直接处理无标签数据。但是，本发明的方法要求时序数据有较高的采样频率。对于一般的时序数据，推荐采样频率应不小于10Hz，即单位时间的采样次数不少于10次；对变化较为剧烈的时序数据应酌情增大采样频率，而对变化较为平缓的时序数据可酌情降低采样频率。确定的采样频率需要大于采样定理(奈奎斯特-香农采样定理)所规定的频率下限，即原始信号变化频率的2倍，在此基础上采样频率应在合理的范围内尽可能取大。将采样频率满足要求的时序数据进行异常处理，删除其中的异常值和空值，作为训练数据集。

例1：本实施例选用的数据集为NASA在2014年发布的锂离子电池随机放电循环数据集。该数据包含一组4颗18650型锂离子电池(电池编号为RW3，RW4，RW5，RW6)，电池被充电至4.2V后随机电流放电至3.2V(放电电流在0.5A至4A之间随机)如此循环，并记录其每一次充电至4.2V时的满充电容。如图2所示，数据集中4颗电池的满充电容量随着充放电循环的进行逐渐退化，其经历的循环数、起始电容量、和试验终末电容量如表1所示。但是在实际的充放电过程中电池的满充电容量并非线性单调变化，而是存在较为明显的抖动，如图3所示为 RW3号电池的满充电容量随充放电循环的变化。如图3，虽然随着充放电循环的进行RW3号电池的内阻逐渐增加导致其满充电容量呈现下降的趋势，但是由于电容自恢复效应的存在，其下降过程呈现出较为明显的非线性和随机性。该原始数据为典型的具有较高采样频率的退时序数据，将删除了异常值的RW3号数据作为训练数据。

表1随机放电电池退化数据集

步骤二：构建生成对抗网络WGAN

用于进行一维数据增广的生成对抗网络由生成器(Generator)和鉴别器(Discriminator) 组成。基于Wasserstein距离构建的WGAN的生成器和鉴别器的损失函数分别为：

其中，

为生成器的生成数据

z～p(z)为随机噪声，

为生成数据的概率分布； x为原始数据，

为原始数据的概率分布；

和D(x)分别为鉴别器对生成数据和原始数据的鉴别结果，

为其概率分布；

为鉴别器对重采样数据的鉴别结果，λ＝0.1为惩罚项的常系数。梯度惩罚项的目的是确保生成器和鉴别器分别满足K＝1的利普希茨条件即：

|f(x₁)-f(x₂)|≤K|x₁-x₂|

由损失函数可知，对鉴别器进行训练，其分辨原始数据和生成数据的能力在提高，即

在增大。相反，对生成器进行训练，生成数据与原始数据的差距在缩小，即

在增大。在对生成器和鉴别器进行循环训练的过程中，两个神经网络经由“对抗博弈”最终达到纳什均衡状态，即Wasserstein距离收敛至0+附近。

例2，接例1。针对例1中的一维时序数据构建的生成器和鉴别器由包含多层隐层的全连接神经网络构成，输入层与输入数据的维数一致，隐层需要根据输入数据的特点(正负性和取值范围)选取适宜的激活函数，从而保证神经元的充分激活。对本例中的生成器：

其中，

为隐层，

为第一隐层，z～n(μ,σ)为输入的高斯噪声数据，φ_G为生成器隐层的非线性激活函数，生成器的隐层使用φ_G＝HardShrink(x)进行激活：

其中，α为常数，本例中α＝0.5，生成器的输出层无激活函数。对本例中的鉴别器：

其中

为隐层，

为第一隐层，x为输入的训练数据，φ_D为鉴别器隐层的非线性激活函数，鉴别器的隐层使用φ_D＝LeakyReLU(x)进行激活：

其中，β为常数，本例中β＝0.01，鉴别器的输出层无激活函数。生成器和鉴别器的输出层维数与输入数据一致，便于通过公式(6)和公式(4)计算损失函数和Wasserstein距离。本例在计算鉴别器的损失函数时，惩罚项的λ取0.1。构建的WGAN结构如图4所示。

步骤三：训练构建的网络模型：

对WGAN网络进行训练时，首先训练鉴别器，将噪声数据传入未经训练的生成器输出生成数据，将原始数据和生成数据分别传入鉴别器进行鉴别，计算损失函数并优化鉴别器；进而固定鉴别器，使用经过训练的鉴别器鉴别生成数据，并计算生成器的损失函数对生成器进行训练，具体如下例。

例3，接例2，对例2中构建的网络进行训练。训练鉴别器：将均值为0标准差为1的高斯噪声z～n(μ,σ)，μ＝0，σ＝1采样为一维随机向量，输入至生成器G_i，生成新样本

将x_i和

分别输入鉴别器D_i，计算鉴别损失

和D(x_i)，并利用公式(2)计算鉴别器的损失函数，使用Adam(α,β₁,β₂)随机梯度下降优化方法对鉴别器进行优化，其中α取1e-4，β₁和β₂分别取0.1 和0.999。在训练鉴别器时，为避免神经网络在训练过程中出现过拟合，将输入数据离散为若干batch分别代入进行训练，本例中将输入数据离散为4个batch。

训练生成器：将新样本

输入鉴别器D_i计算鉴别损失

并利用公式(1)计算生成器的损失函数，通过Adam(α,β₁,β₂)梯度下降方法对生成器进行优化，参数取值同上。

计算Wasserstein距离：在1个epoch内依次训练鉴别器和生成器，并通过公式(4)计算原始数据和生成数据的Wasserstein距离。循环执行若干个epoch，直至由公式(4)计算的 Wasserstein距离小于设定的阈值ρ(本例中ρ＝0.2)，即完成对网络G_i和D_i的训练。

步骤四：遍历完整的时序数据，分析数据的数字特征并聚类

首先，确定最小窗宽S^σ将原始数据划分为n个时间片(Slices)，每个Slice包含S^σ个时间维连续的数据，并认为Slice内数据的数字特征是一致的。时间片不应划分得过细(如S^σ≤5)，这会导致网络训练困难，需要保证每个时间片内有足够的数据量完成网络训练；但是时间片也不必划分得过宽，过宽的S^σ会导致时间片内数据的数字特征不一致，使得数据生成的结果产生较大的偏差。进而，通过遍历原始时序数据的全部时间片对其数字特征进行分析，将原始数据在时间维聚类为k个具有相同数字特征的子类S₀,S₁,S₂,…,S_k，遍历完成的数据集有 S₀+S₁+S₂+…+S_k＝n×S^σ，k≤n。具体如下例。

例4，接例3。

划分时间片：确定最小窗宽S^σ＝52，在时间维将训练数据离散为16个Slices；

训练时间片Slice₀：将Slice₀内的原始数据x₀作为训练集，如例4所述对生成器G₀和鉴别器 D₀进行训练，当Wasserstein距离

后完成对Slice₀数据的训练，保存训练好的生成器G₀和鉴别器D₀；同时有S₀＝x₀，将x₀预聚类为第一类。

预训练Slice_i鉴别器：对Slice_i，使用当前时间片的原始数据x_i对鉴别器D_i进行预训练，使用公式(5)计算鉴别器预训练的损失函数，预训练的目的是提高鉴别器对x_i的辨别能力，使得辨别结果更加鲁棒。为保证鉴别器预训练的效果，可对预训练执行若干个epoch，直至 std[preLoss(D_i)]＜ρ_pre，本例ρ_pre＝0.2。

时间片迭代：对Slice_i，有Slice_i-1中的数据已聚类在子类S_j中。使用第S_j对应的生成器G_j生成一组新数据

将

和当前时间片的原始数据x_i分别输入到经过预训练的鉴别器D_i-1，计算鉴别损失

和D(x_i)并根据公式(4)计算Wasserstein距离

若Slice_i对应的

则判定Slice_i数据与Slice_i-1数据的数字特征不同，不能聚为一类，将x_i聚为新子类即S_j+1＝x_i；同时，应使用Slice_i的数据重新训练生成器G_i和鉴别器D_i。反之则判定Slice_i的数据与Slice_i-1的数据的数字特征相同，可以聚为一类，合并Slice_i-1与Slice_i的原始数据x_i-1和x_i，即

不重新训练生成器和鉴别器。本例数据的分析及聚类结果如表2和图5所示。

表2不同子类的数据量和数字特征

步骤五：时序数据增广

经过遍历的时序数据，已经按照其数字特征进行了聚类，同时在遍历过程中也分别训练完成了各子类数据对应的生成器网络模型。将噪声数据输入S_j对应的生成器G_j能够生成与该时间片数据数字特征一致的新数据，即可按需完成对时序数据的增广。

例5，接例4。均值为0标准差为1的高斯噪声z～n(μ,σ)，μ＝0，σ＝1分别代入经过聚类的 S₀至S₈对应的生成器模型G₀至G₈可以生成与该子类对应的原时序数据具有相同数字特征的人工数据。对每一个子类，其原始数据与生成数据具有一致的分布，如图6所示(仅展示S₀、S₃、 S₆对应的数据)。使用G₀至G₈可以生成与原一维时序数据数字特征相同的人工一维时序数据，如图7所示，人工数据与原始数据在保持数字特征相同的同时，在具体数值上不完全一致，不存在过拟合现象，具有较强的泛化能力，成功对原始样本进行了增广。

Claims

1.基于WGAN的一维时序数据增广方法，其特征在于：它包含以下步骤：

第一步：准备训练数据集：原始一维时序数据的采样频率应满足要求，不小于10Hz即单位时间的采样次数不少于10次，并删除异常数据。

第二步：构建生成对抗网络WGAN：构建由生成器和鉴别器两个神经网络组成的生成对抗网络，并使用Wasserstein距离计算其损失函数。

第三步：训练构建的网络模型：循环训练鉴别器网络和生成器网络，使用Adam随机梯度下降法对网络参数进行优化，对鉴别器的优化方向是使得生成数据

与原始数据x的Wasserstein距离增大

而对生成器的优化方向则是使得Wasserstein距离减小，通过博弈最终使得鉴别器和生成器达到纳什均衡状态。

第四步：遍历完成的时序数据，分析数据的数字特征并聚类：首先确定最小窗宽将原始时序数据划分为若干时间片(Slices)，对第一个时间片(Slice₀)执行生成器和鉴别器的训练，在此基础上遍历全部时间片，使用WGAN学习时序数据的特征并聚类特征相同的时间片。

第五步：时序数据增广：使用完成聚类的时序数据每个子类对应的WGAN生成器生成与该子类原始数据特征相同的人工样本。

2.根据权利要求1所述的一种基于WGAN的一维时序数据增广方法，其特征在于：在第一步中所述的“准备训练数据集”中，要求原始数据的采样频率能够满足要求，具体为：

一般情况下采样频率应不小于10Hz，即单位时间的采样次数不少于10次。对变化较为剧烈的时序数据应酌情增大其采样频率，而对变化较为平缓的时序数据可酌情降低其采样频率。

3.根据权利要求1所述的一种基于WGAN的一维时序数据增广方法，其特征在于：在第二步中所述的“构建生成对抗网络WGAN”中，使用Wasserstein距离构造生成器和鉴别器的损失函数，具体为：

生成器和鉴别器的损失函数分别为

其中，

为生成器的生成数据

z～p(z)为随机噪声，

为生成数据的概率分布；x为原始数据，

为原始数据的概率分布；

和D(x)分别为鉴别器对生成数据和原始数据的鉴别结果，

为其概率分布；

为鉴别器对重采样数据的鉴别结果，λ为惩罚项的常系数，λ取0.1。

4.根据权利要求1所述的一种基于WGAN的一维时序数据增广方法，其特征在于：在第三步中所述的“训练构建的网络模型”中，使用均值为0标准差为1的高斯噪声z～n(μ，σ)，μ＝0，σ＝1作为生成器的输入，使用Adam(α，β₁，β₂)随机梯度下降法对网络参数进行训练，其中α取1e-4，β₁和β₂分别取0.1和0.999，通过计算Wasserstein距离

判断训练是否收敛，当

时认为训练已收敛，一般取ρ≤0.2。

5.根据权利要求1所述的一种基于WGAN的一维时序数据增广方法，其特征在于：在第四步中所述的“遍历完整的时序数据，分析数据的数字特征并聚类”中对时序数据集的便利方法，具体为：

确定最小窗宽S^σ并将原始数据划分为若干时间片，S^σ应不大于原始数据采样频率的50倍；训练第一个时间片(Slice₀)的数据得到生成器G₀和鉴别器D₀；对Slice_i(i>0)使用损失函数

对鉴别器进行预训练，当std[preLoss(D_i)]＜ρ_pre时判定鉴别器预训练完成；使用Slice_i-1数据所在子类S_j的生成器G_j生成新数据

使用经过预训练的鉴别器计算鉴别损失

和D(x_i)并计算

若

则将x_i聚为新类S_j+1，反之则聚入旧类S_j。

6.根据权利要求1所述的一种基于WGAN的一维时序数据增广方法，其特征在于：在第五步中所述的“时序数据增广”中，使用经过聚类的S_j对应的生成器G_j能够生成与该子类原始数据数字特征一致的新数据，即可按需对时序数据进行增广。