CN113094969A

CN113094969A - 一种基于改进SeqGAN的数据生成方法及系统

Info

Publication number: CN113094969A
Application number: CN202110256426.3A
Authority: CN
Inventors: 窦健; 郄爽; 徐英辉; 刘宣; 阿辽沙·叶
Original assignee: State Grid Corp of China SGCC; China Electric Power Research Institute Co Ltd CEPRI; State Grid Shandong Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; China Electric Power Research Institute Co Ltd CEPRI; State Grid Shandong Electric Power Co Ltd
Priority date: 2021-03-09
Filing date: 2021-03-09
Publication date: 2021-07-09

Abstract

本申请公开了一种基于改进SeqGAN的数据生成方法及系统。其中，该方法包括：基于生成器模型G_θ的数据，获得Roll‑out生成器模型G_β，根据所述Roll‑out生成器模型G_β，获得判别器模型D；根据所述判别器模型D，对生成器模型G_θ进行调整，确定最大期望奖励；基于所述最大期望奖励，训练所述生成器模型G_θ，确定更新后的生成器模型G_θ；从潜在空间获得所述更新后的生成器模型G_θ，并根据所述更新后的生成器模型G_θ以及真实数据，重新训练判别器模型D。

Description

一种基于改进SeqGAN的数据生成方法及系统

技术领域

本申请涉及生成对抗网络技术领域，特别是涉及一种基于改进SeqGAN的数据生成方法及系统。

背景技术

随着世界能源的快速发展，国家电网公司正在加快建设成为世界一流能源互联网企业，逐步加强其竞争力，并对支撑营销业务发展的客户侧能源计量提出新的要求。目前，电能计量正在向着综合能源计量进行转变。我国各能源计量行业未实现计量系统仿真的规模化验证，仿真方法较为单一，实验室测试与现场试验验证结果、规模化应用效果差异较大，无法满足对各类新业务、新方法、新技术推广可行性的验证需求。

针对上述的现有技术中存在的我国各能源计量行业未实现计量系统仿真的规模化验证，仿真方法较为单一，实验室测试与现场试验验证结果、规模化应用效果差异较大，无法满足对各类新业务、新方法、新技术推广可行性的验证需求的技术问题，目前尚未提出有效的解决方案。

发明内容

本公开的实施例提供了一种基于改进SeqGAN的数据生成方法及系统，以至少解决现有技术中存在的我国各能源计量行业未实现计量系统仿真的规模化验证，仿真方法较为单一，实验室测试与现场试验验证结果、规模化应用效果差异较大，无法满足对各类新业务、新方法、新技术推广可行性的验证需求的技术问题。

根据本公开实施例的一个方面，提供了一种基于改进SeqGAN的数据生成方法，包括：基于生成器模型G_θ的数据，获得Roll-out生成器模型G_β，根据所述Roll-out生成器模型G_β，获得判别器模型D；根据所述判别器模型D，对生成器模型G_θ进行调整，确定最大期望奖励；基于所述最大期望奖励，训练所述生成器模型G_θ，确定更新后的生成器模型G_θ；从潜在空间获得所述更新后的生成器模型G_θ，并根据所述更新后的生成器模型G_θ以及真实数据，重新训练判别器模型D。

根据本公开实施例的另一方面，还提供了一种基于改进SeqGAN的数据生成系统，包括：获得判别器模块，用于基于生成器模型G_θ的数据，获得Roll-out生成器模型G_β，根据所述Roll-out生成器模型G_β，获得判别器模型D；确定奖励模块，用于根据所述判别器模型D，对生成器模型G_θ进行调整，确定最大期望奖励；训练生成器模块，用于基于所述最大期望奖励，训练所述生成器模型G_θ，确定更新后的生成器模型G_θ；训练判别器模块，用于从潜在空间获得所述更新后的生成器模型G_θ，并根据所述更新后的生成器模型G_θ以及真实数据，重新训练判别器模型D。

在本发明中，提供了Rollout模块。Rollout模块能够解决长序列进行强化学习时需要等到序列生成完整后才能计算奖励值总和的问题。此模块能够将生成器的生成样本序列从不同位置断开，多次重复模拟余下的数据补全，通过判别器和奖励值计算机制得到每个模拟序列的奖励值之和并且求其平均值。原始SeqGAN中使用的Rollout模块是生成器的完全副本，而本文提出的改进SeqGAN中使用了滞后于生成器的模型参数更新，从而起到增加长序列强化学习稳定性的作用。另外，Rollout模块并不直接参与梯度下降，而是手动更新模型参数。

本方法对原始SeqGAN模型进行了重构，改进原模型的Rollout模块，使用滞后于生成器的模型参数更新，增加了长序列强化学习的稳定性；与传统MLE、SS和PG-BLUE模型相比，训练次数足够多的情况下(大于150次)，模型算法的执行性能显著优于比对算法，具有一定的先进性。本方法基于改进SeqGAN进行数据生成。该方法不仅能够应用于自然语言处理领域，进行文本数据的数据生成，得益于入参的相似性，本方法还能应用于离散时序序列的数据生成领域，进行数字化设备的数据生成，适用于多种数据生成场景，具有相对广泛的适应性。

附图说明

此处所说明的附图用来提供对本公开的进一步理解，构成本申请的一部分，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。在附图中：

图1是根据本公开实施例所述的一种基于改进SeqGAN的数据生成方法的流程示意图；

图2是根据本公开实施例所述的改进SeqGAN训练过程的示意图；

图3是根据本公开实施例所述的对比算法学习曲线图的示意图；

图4是根据本公开实施例所述的一种基于改进SeqGAN的数据生成系统的示意图。

具体实施方式

现在参考附图介绍本发明的示例性实施方式，然而，本发明可以用许多不同的形式来实施，并且不局限于此处描述的实施例，提供这些实施例是为了详尽地且完全地公开本发明，并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中，相同的单元/元件使用相同的附图标记。

除非另有说明，此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外，可以理解的是，以通常使用的词典限定的术语，应当被理解为与其相关领域的语境具有一致的含义，而不应该被理解为理想化的或过于正式的意义。

根据本实施例的第一个方面，提供了一种基于改进SeqGAN的数据生成方法100。参考图1所示，该方法100包括：

S102:基于生成器模型G_θ的数据，获得Roll-out生成器模型G_β，根据所述Roll-out生成器模型G_β，获得判别器模型D；

S104:根据所述判别器模型D，对生成器模型G_θ进行调整，确定最大期望奖励；

S106:基于所述最大期望奖励，训练所述生成器模型G_θ，确定更新后的生成器模型G_θ；

S108:从潜在空间获得所述更新后的生成器模型G_θ，并根据所述更新后的生成器模型G_θ以及真实数据，重新训练判别器模型D。

具体地，本实施例提出的基于改进SeqGAN数据生成方法的基本原理是迭代训练生成模型G和判别模型D。假设用G生成一段离散序列数据，由D来判别这个序列是训练集中的真实序列(True Data)，还是模型生成的序列(Generated Data)；最终目标是用模型G生成以假乱真的序列，让D无法分辨。

在单次操作中，模型多次调用生成模型G和判别模型D。以生成离散数据序列为例，对于已生成的序列段，在生成下一个序列段(Next Action)时，先调用生成模型G生成多个备选项，然后使用判别模型对各个选项评分(Reward)，根据评分选择最好的策略(Policy)，并调整策略模型(Policy Gradient)。

SeqGAN中生成模型G的目标是最大化期望奖励(Reward)，其公式如下：

上式中J是目标函数，E是期望，R是序列整体的奖励值，s是状态，θ是生成模型的参数，y是生成的下一个序列段(动作Action)，G是生成模型，D是判别模型，Q是动作价值(Action-value)。获得到一组生成模型G参数θ；能在s₀处做出最佳选择，获取最大回报R_T而如何选择动作又取决于动作的价值Q。

根据不同的时间步，采取不同的动作价值计算方法：

在生成第t个序列段时，选择动作a，需要考虑前期已生成的t-1个序列段和后续可能的情况。假设此时用模型G_β生成N个备选序列段(Yt:T)，再用判别模型D分别对生成的N个序列(Y1:T)打分，此时使用了蒙特卡洛方法(MC)，如下式所示：

生成模型G_β与前面G_θ通常使用同样的模型参数，有时为了优化速度也可使用不同模型参数。使用蒙特卡洛算法，不仅要考虑当前一步的最优解，还需要考虑接下来多步组合后的最优解，用于探索此节点以及此节点后续节点(Yt:T)的可能性，即roll-out展开。

此处公式优化判别模型D的参数φ，使其对真实数据P_data尽量预测为真，对模型G_θ生成的数据尽量预测为假。利用梯度上升(Gradient Ascend)方法,可求得目标函数关于生成器参数θ的梯度：

上式是确定性的状态转移，即y_t是固定的，下面采用似然比方法建立目标函数的无偏估计：

利用梯度上升方法，更新生成器参数：

参考图2所示，整体的算法步骤如下所示：

第一步：定义基本生成器g_θ，Rollout生成器g_β，判别器D，以及训练集S。

第二部：用MLE(最大似然估计法)预训练生成器G。

第三步：用生成器生成的数据和训练集数据预训练判别器D。

第四步：迭代对抗训练。

第五步：训练生成器。在每一个时间步计算Q，利用判别器D、Rollout生成器G_β以及蒙特卡罗树搜索计算行为价值，然后更新(Policy Gradient)策略梯度。

第六步：训练判别器。将训练数据作为正例，生成器生成的样例作为反例训练判别模型D。

为了测试本文所用的SeqGAN模型的效率，使用随机初始化的LSTM作为真实模型来生成真实的数据分布。这样，不仅可以满足训练数据集的要求，还能评估生成模型的执行确切性能。

本节所使用的估计方法为

其中，G_θ为生成模型，G_oracle为真实模型。

测试阶段，为了建立综合数据实验，首先按照正态分布N(0，1)初始化LSTM网络的参数，以描述真实数据分布G_oracle。然后，根据真实数据分布G_oracle生成10，000个长度为20的序列，作为生成模型的训练集S。在SeqGAN算法中，鉴别器的训练集由生成的带有标签0的示例和来自S的带有标签1的实例组成。对于不同的任务，应该为卷积层设计特定的结构，并在综合数据实验中，内核大小从1到T，每个内核大小的数量在100到200之间。这里，利用Dropout和L2正则化来规避过度拟合。

利用四种不同的生成模型与SeqGAN模型进行对比：

(1)随机生成模型；

(2)通过MLE训练的LSTM G_θ模型；

(3)计划采样(Scheduled Sampling)模型；

(4)基于策略梯度的机器翻译评价算法(PG-BLEU)。

其中，在计划采样模型中，训练过程逐渐从真实前馈令牌的LSTM完全指导方案变为生成令牌的不完全指导方案(变化率ω＝0.002)；在PG-BLEU模型中，我们利用BLEU算法给蒙特卡洛模拟生成的最终样本打分。

对比结果如下所示：

表1序列生成性能对比

表1展示了五种策略生成序列的NLL_oracle性能。我们可以看出，SeqGAN模型算法显著得优于其他模型。参考图3所示，由图3的学习曲线可以看出，当训练次数大于150次以后，随着模型训练次数的增加，SeqGAN算法的执行性能显著优于MLE、SS和PG-BIEU算法。SeqGAN算法不仅在生成模型方面可以突破传统MLE模型的局限性，而且SeqGAN中的判别信号比PG-BLEU中的预定义打分更加通用有效，可以指导生成策略捕获序列数据的基础分布。

本实施例提供了Rollout模块，Rollout模块能够解决长序列进行强化学习时需要等到序列生成完整后才能计算奖励值总和的问题。此模块能够将生成器的生成样本序列从不同位置断开，多次重复模拟余下的数据补全，通过判别器和奖励值计算机制得到每个模拟序列的奖励值之和并且求其平均值。原始SeqGAN中使用的Rollout模块是生成器的完全副本，而本文提出的改进SeqGAN中使用了滞后于生成器的模型参数更新，从而起到增加长序列强化学习稳定性的作用。另外，Rollout模块并不直接参与梯度下降，而是手动更新模型参数。

可选地，在基于生成器模型G_θ的数据，获得Roll-out生成器模型G_β，根据所述Roll-out生成器模型G_β，获得判别器模型D之前，包括：利用最大似然估计法，将预先采集的真实数据进行预训练，获得预训练生成器模型；根据所述真实数据以及所述预训练生成器模型G_θ生成的数据，确定预训练判别器模型。

可选地，基于生成器模型G_θ的数据进行合成并更新权重，获得Roll-out生成器模型G_β，根据所述Roll-out生成器模型G_β，获得判别器模型D之后，包括：在每一个时间步计算动作价值Q，利用所述判别器模型D、所述Roll-out生成器模型G_β以及蒙特卡罗树搜索计算行为价值，更新策略梯度。

可选地，根据所述判别器模型D，利用蒙特卡洛方法对生成器模型G_θ进行调整，确定最大期望奖励，包括：根据以下公式，确定最大期望奖励：

其中，J是目标函数，E是期望，R是序列整体的奖励值，s是状态，θ是生成器模型的参数，y表示序列，，T表示序列段，G_θ是生成模型，D_Φ是判别模型，Q是动作价值，y₁为第一个序列，s₀为初始状态。

可选地，从潜在空间获得所述更新后的生成器模型G_θ，根据所述更新后的生成器模型G_θ以及所述真实数据，重新训练判别器模型D，包括：将真实数据作为正例，将所述生成器模型G_θ生成的样例作为反例；根据所述正例以及所述反例，重新训练所述判别器模型D。

根据本实施例的另一个方面，提供了一种基于改进SeqGAN的数据生成系统400。参考图4所示，该系统400包括：获得判别器模块410，用于基于生成器模型G_θ的数据，获得Roll-out生成器模型G_β，根据所述Roll-out生成器模型G_β，获得判别器模型D；确定奖励模块420，用于根据所述判别器模型D，对生成器模型G_θ进行调整，确定最大期望奖励；训练生成器模块430，用于基于所述最大期望奖励，训练所述生成器模型G_θ，确定更新后的生成器模型G_θ；训练判别器模块440，用于从潜在空间获得所述更新后的生成器模型G_θ，并根据所述更新后的生成器模型G_θ以及所述真实数据，重新训练判别器模型D。

可选地，该系统400包括：获得预训练生成器模块，用于利用最大似然估计法，将预先采集的真实数据进行预训练，获得预训练生成器模型；确定预训练判别器模块，用于根据所述真实数据以及所述预训练生成器模型G_θ生成的数据，确定预训练判别器模型。

可选地，获得判别器模块410，包括：更新策略梯度子模块，用于在每一个时间步计算动作价值Q，利用所述判别器模型D、所述Roll-out生成器模型G_β以及蒙特卡罗树搜索计算行为价值，更新策略梯度。

可选地，确定奖励模块420，包括：确定最大期望奖励子模块，用于根据以下公式，确定最大期望奖励：

其中，J是目标函数，E是期望，R是序列整体的奖励值，s是状态，θ是生成器模型的参数，y表示序列，T表示序列段，将一个序列y可以分为T个序列段，G_θ是生成模型，D_Φ是判别模型，Q是动作价值，y₁为第一个序列，s₀为初始状态。

可选地，训练判别器模块440，包括：正例反例子模块，用于将真实数据作为正例，将所述生成器模型G_θ生成的样例作为反例；训练判别器模块子模块，用于根据所述正例以及所述反例，重新训练所述判别器模型D。

本发明的实施例的一种基于改进SeqGAN的数据生成系统400与本发明的另一个实施例的一种基于改进SeqGAN的数据生成方法100相对应，在此不再赘述。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请实施例中的方案可以采用各种计算机语言实现，例如，面向对象的程序设计语言Java和直译式脚本语言JavaScript等。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种基于改进SeqGAN的数据生成方法，其特征在于，包括：

基于生成器模型G_θ的数据，获得Roll-out生成器模型G_β，根据所述Roll-out生成器模型G_β，获得判别器模型D；

根据所述判别器模型D，对生成器模型G_θ进行调整，确定最大期望奖励；

基于所述最大期望奖励，训练所述生成器模型G_θ，确定更新后的生成器模型G_θ；

从潜在空间获得所述更新后的生成器模型G_θ，并根据所述更新后的生成器模型G_θ以及真实数据，重新训练判别器模型D。

2.根据权利要求1所述的方法，其特征在于，在基于生成器模型G_θ的数据，获得Roll-out生成器模型G_β，根据所述Roll-out生成器模型G_β，获得判别器模型D之前，包括：

利用最大似然估计法，将预先采集的真实数据进行预训练，获得预训练生成器模型；

根据所述真实数据以及所述预训练生成器模型G_θ生成的数据，确定预训练判别器模型。

3.根据权利要求1所述的方法，其特征在于，基于生成器模型G_θ的数据，获得Roll-out生成器模型G_β，根据所述Roll-out生成器模型G_β，获得判别器模型D之后，包括：

在每一个时间步计算动作价值Q，利用所述判别器模型D、所述Roll-out生成器模型G_β以及蒙特卡罗树搜索计算行为价值，更新策略梯度。

4.根据权利要求1所述的方法，其特征在于，根据所述判别器模型D，利用蒙特卡洛方法对生成器模型G_θ进行调整，确定最大期望奖励，包括：

根据以下公式，确定最大期望奖励：

5.根据权利要求1所述的方法，其特征在于，从潜在空间获得所述更新后的生成器模型G_θ，根据所述更新后的生成器模型G_θ以及真实数据，重新训练判别器模型D，包括：

将真实数据作为正例，将所述生成器模型G_θ生成的样例作为反例；

根据所述正例以及所述反例，重新训练所述判别器模型D。

6.一种基于改进SeqGAN的数据生成系统，其特征在于，包括：

获得判别器模块，用于基于生成器模型G_θ的数据，获得Roll-out生成器模型G_β，根据所述Roll-out生成器模型G_β，获得判别器模型D；

确定奖励模块，用于根据所述判别器模型D，对生成器模型G_θ进行调整，确定最大期望奖励；

训练生成器模块，用于基于所述最大期望奖励，训练所述生成器模型G_θ，确定更新后的生成器模型G_θ；

训练判别器模块，用于从潜在空间获得所述更新后的生成器模型G_θ，并根据所述更新后的生成器模型G_θ以及真实数据，重新训练判别器模型D。

7.根据权利要求6所述的系统，其特征在于，包括：

获得预训练生成器模块，用于利用最大似然估计法，将预先采集的真实数据进行预训练，获得预训练生成器模型；

确定预训练判别器模块，用于根据所述真实数据以及所述预训练生成器模型G_θ生成的数据，确定预训练判别器模型。

8.根据权利要求6所述的系统，其特征在于，获得判别器模块，包括：

更新策略梯度子模块，用于在每一个时间步计算动作价值Q，利用所述判别器模型D、所述Roll-out生成器模型G_β以及蒙特卡罗树搜索计算行为价值，更新策略梯度。

9.根据权利要求6所述的系统，其特征在于，确定奖励模块，包括：

确定最大期望奖励子模块，用于根据以下公式，确定最大期望奖励：

10.根据权利要求9所述的系统，其特征在于，训练判别器模块，包括：

正例反例子模块，用于将真实数据作为正例，将所述生成器模型G_θ生成的样例作为反例；

训练判别器模块子模块，用于根据所述正例以及所述反例，重新训练所述判别器模型D。