CN113094969A - 一种基于改进SeqGAN的数据生成方法及系统 - Google Patents

一种基于改进SeqGAN的数据生成方法及系统 Download PDF

Info

Publication number
CN113094969A
CN113094969A CN202110256426.3A CN202110256426A CN113094969A CN 113094969 A CN113094969 A CN 113094969A CN 202110256426 A CN202110256426 A CN 202110256426A CN 113094969 A CN113094969 A CN 113094969A
Authority
CN
China
Prior art keywords
model
generator
generator model
discriminator
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110256426.3A
Other languages
English (en)
Inventor
窦健
郄爽
徐英辉
刘宣
阿辽沙·叶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
China Electric Power Research Institute Co Ltd CEPRI
State Grid Shandong Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
China Electric Power Research Institute Co Ltd CEPRI
State Grid Shandong Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, China Electric Power Research Institute Co Ltd CEPRI, State Grid Shandong Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN202110256426.3A priority Critical patent/CN113094969A/zh
Publication of CN113094969A publication Critical patent/CN113094969A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/06Multi-objective optimisation, e.g. Pareto optimisation using simulated annealing [SA], ant colony algorithms or genetic algorithms [GA]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Feedback Control In General (AREA)

Abstract

本申请公开了一种基于改进SeqGAN的数据生成方法及系统。其中,该方法包括:基于生成器模型Gθ的数据,获得Roll‑out生成器模型Gβ,根据所述Roll‑out生成器模型Gβ,获得判别器模型D;根据所述判别器模型D,对生成器模型Gθ进行调整,确定最大期望奖励;基于所述最大期望奖励,训练所述生成器模型Gθ,确定更新后的生成器模型Gθ;从潜在空间获得所述更新后的生成器模型Gθ,并根据所述更新后的生成器模型Gθ以及真实数据,重新训练判别器模型D。

Description

一种基于改进SeqGAN的数据生成方法及系统
技术领域
本申请涉及生成对抗网络技术领域,特别是涉及一种基于改进SeqGAN的数据生成方法及系统。
背景技术
随着世界能源的快速发展,国家电网公司正在加快建设成为世界一流能源互联网企业,逐步加强其竞争力,并对支撑营销业务发展的客户侧能源计量提出新的要求。目前,电能计量正在向着综合能源计量进行转变。我国各能源计量行业未实现计量系统仿真的规模化验证,仿真方法较为单一,实验室测试与现场试验验证结果、规模化应用效果差异较大,无法满足对各类新业务、新方法、新技术推广可行性的验证需求。
针对上述的现有技术中存在的我国各能源计量行业未实现计量系统仿真的规模化验证,仿真方法较为单一,实验室测试与现场试验验证结果、规模化应用效果差异较大,无法满足对各类新业务、新方法、新技术推广可行性的验证需求的技术问题,目前尚未提出有效的解决方案。
发明内容
本公开的实施例提供了一种基于改进SeqGAN的数据生成方法及系统,以至少解决现有技术中存在的我国各能源计量行业未实现计量系统仿真的规模化验证,仿真方法较为单一,实验室测试与现场试验验证结果、规模化应用效果差异较大,无法满足对各类新业务、新方法、新技术推广可行性的验证需求的技术问题。
根据本公开实施例的一个方面,提供了一种基于改进SeqGAN的数据生成方法,包括:基于生成器模型Gθ的数据,获得Roll-out生成器模型Gβ,根据所述Roll-out生成器模型Gβ,获得判别器模型D;根据所述判别器模型D,对生成器模型Gθ进行调整,确定最大期望奖励;基于所述最大期望奖励,训练所述生成器模型Gθ,确定更新后的生成器模型Gθ;从潜在空间获得所述更新后的生成器模型Gθ,并根据所述更新后的生成器模型Gθ以及真实数据,重新训练判别器模型D。
根据本公开实施例的另一方面,还提供了一种基于改进SeqGAN的数据生成系统,包括:获得判别器模块,用于基于生成器模型Gθ的数据,获得Roll-out生成器模型Gβ,根据所述Roll-out生成器模型Gβ,获得判别器模型D;确定奖励模块,用于根据所述判别器模型D,对生成器模型Gθ进行调整,确定最大期望奖励;训练生成器模块,用于基于所述最大期望奖励,训练所述生成器模型Gθ,确定更新后的生成器模型Gθ;训练判别器模块,用于从潜在空间获得所述更新后的生成器模型Gθ,并根据所述更新后的生成器模型Gθ以及真实数据,重新训练判别器模型D。
在本发明中,提供了Rollout模块。Rollout模块能够解决长序列进行强化学习时需要等到序列生成完整后才能计算奖励值总和的问题。此模块能够将生成器的生成样本序列从不同位置断开,多次重复模拟余下的数据补全,通过判别器和奖励值计算机制得到每个模拟序列的奖励值之和并且求其平均值。原始SeqGAN中使用的Rollout模块是生成器的完全副本,而本文提出的改进SeqGAN中使用了滞后于生成器的模型参数更新,从而起到增加长序列强化学习稳定性的作用。另外,Rollout模块并不直接参与梯度下降,而是手动更新模型参数。
本方法对原始SeqGAN模型进行了重构,改进原模型的Rollout模块,使用滞后于生成器的模型参数更新,增加了长序列强化学习的稳定性;与传统MLE、SS和PG-BLUE模型相比,训练次数足够多的情况下(大于150次),模型算法的执行性能显著优于比对算法,具有一定的先进性。本方法基于改进SeqGAN进行数据生成。该方法不仅能够应用于自然语言处理领域,进行文本数据的数据生成,得益于入参的相似性,本方法还能应用于离散时序序列的数据生成领域,进行数字化设备的数据生成,适用于多种数据生成场景,具有相对广泛的适应性。
附图说明
此处所说明的附图用来提供对本公开的进一步理解,构成本申请的一部分,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。在附图中:
图1是根据本公开实施例所述的一种基于改进SeqGAN的数据生成方法的流程示意图;
图2是根据本公开实施例所述的改进SeqGAN训练过程的示意图;
图3是根据本公开实施例所述的对比算法学习曲线图的示意图;
图4是根据本公开实施例所述的一种基于改进SeqGAN的数据生成系统的示意图。
具体实施方式
现在参考附图介绍本发明的示例性实施方式,然而,本发明可以用许多不同的形式来实施,并且不局限于此处描述的实施例,提供这些实施例是为了详尽地且完全地公开本发明,并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中,相同的单元/元件使用相同的附图标记。
除非另有说明,此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外,可以理解的是,以通常使用的词典限定的术语,应当被理解为与其相关领域的语境具有一致的含义,而不应该被理解为理想化的或过于正式的意义。
根据本实施例的第一个方面,提供了一种基于改进SeqGAN的数据生成方法100。参考图1所示,该方法100包括:
S102:基于生成器模型Gθ的数据,获得Roll-out生成器模型Gβ,根据所述Roll-out生成器模型Gβ,获得判别器模型D;
S104:根据所述判别器模型D,对生成器模型Gθ进行调整,确定最大期望奖励;
S106:基于所述最大期望奖励,训练所述生成器模型Gθ,确定更新后的生成器模型Gθ
S108:从潜在空间获得所述更新后的生成器模型Gθ,并根据所述更新后的生成器模型Gθ以及真实数据,重新训练判别器模型D。
具体地,本实施例提出的基于改进SeqGAN数据生成方法的基本原理是迭代训练生成模型G和判别模型D。假设用G生成一段离散序列数据,由D来判别这个序列是训练集中的真实序列(True Data),还是模型生成的序列(Generated Data);最终目标是用模型G生成以假乱真的序列,让D无法分辨。
在单次操作中,模型多次调用生成模型G和判别模型D。以生成离散数据序列为例,对于已生成的序列段,在生成下一个序列段(Next Action)时,先调用生成模型G生成多个备选项,然后使用判别模型对各个选项评分(Reward),根据评分选择最好的策略(Policy),并调整策略模型(Policy Gradient)。
SeqGAN中生成模型G的目标是最大化期望奖励(Reward),其公式如下:
Figure BDA0002967518270000041
上式中J是目标函数,E是期望,R是序列整体的奖励值,s是状态,θ是生成模型的参数,y是生成的下一个序列段(动作Action),G是生成模型,D是判别模型,Q是动作价值(Action-value)。获得到一组生成模型G参数θ;能在s0处做出最佳选择,获取最大回报RT而如何选择动作又取决于动作的价值Q。
根据不同的时间步,采取不同的动作价值计算方法:
Figure BDA0002967518270000042
在生成第t个序列段时,选择动作a,需要考虑前期已生成的t-1个序列段和后续可能的情况。假设此时用模型Gβ生成N个备选序列段(Yt:T),再用判别模型D分别对生成的N个序列(Y1:T)打分,此时使用了蒙特卡洛方法(MC),如下式所示:
Figure BDA0002967518270000043
生成模型Gβ与前面Gθ通常使用同样的模型参数,有时为了优化速度也可使用不同模型参数。使用蒙特卡洛算法,不仅要考虑当前一步的最优解,还需要考虑接下来多步组合后的最优解,用于探索此节点以及此节点后续节点(Yt:T)的可能性,即roll-out展开。
Figure BDA0002967518270000044
此处公式优化判别模型D的参数φ,使其对真实数据Pdata尽量预测为真,对模型Gθ生成的数据尽量预测为假。利用梯度上升(Gradient Ascend)方法,可求得目标函数关于生成器参数θ的梯度:
Figure BDA0002967518270000051
上式是确定性的状态转移,即yt是固定的,下面采用似然比方法建立目标函数的无偏估计:
Figure BDA0002967518270000052
利用梯度上升方法,更新生成器参数:
Figure BDA0002967518270000053
参考图2所示,整体的算法步骤如下所示:
第一步:定义基本生成器gθ,Rollout生成器gβ,判别器D,以及训练集S。
第二部:用MLE(最大似然估计法)预训练生成器G。
第三步:用生成器生成的数据和训练集数据预训练判别器D。
第四步:迭代对抗训练。
第五步:训练生成器。在每一个时间步计算Q,利用判别器D、Rollout生成器Gβ以及蒙特卡罗树搜索计算行为价值,然后更新(Policy Gradient)策略梯度。
第六步:训练判别器。将训练数据作为正例,生成器生成的样例作为反例训练判别模型D。
为了测试本文所用的SeqGAN模型的效率,使用随机初始化的LSTM作为真实模型来生成真实的数据分布。这样,不仅可以满足训练数据集的要求,还能评估生成模型的执行确切性能。
本节所使用的估计方法为
Figure BDA0002967518270000061
其中,Gθ为生成模型,Goracle为真实模型。
测试阶段,为了建立综合数据实验,首先按照正态分布N(0,1)初始化LSTM网络的参数,以描述真实数据分布Goracle。然后,根据真实数据分布Goracle生成10,000个长度为20的序列,作为生成模型的训练集S。在SeqGAN算法中,鉴别器的训练集由生成的带有标签0的示例和来自S的带有标签1的实例组成。对于不同的任务,应该为卷积层设计特定的结构,并在综合数据实验中,内核大小从1到T,每个内核大小的数量在100到200之间。这里,利用Dropout和L2正则化来规避过度拟合。
利用四种不同的生成模型与SeqGAN模型进行对比:
(1)随机生成模型;
(2)通过MLE训练的LSTM Gθ模型;
(3)计划采样(Scheduled Sampling)模型;
(4)基于策略梯度的机器翻译评价算法(PG-BLEU)。
其中,在计划采样模型中,训练过程逐渐从真实前馈令牌的LSTM完全指导方案变为生成令牌的不完全指导方案(变化率ω=0.002);在PG-BLEU模型中,我们利用BLEU算法给蒙特卡洛模拟生成的最终样本打分。
对比结果如下所示:
表1序列生成性能对比
Figure BDA0002967518270000062
表1展示了五种策略生成序列的NLLoracle性能。我们可以看出,SeqGAN模型算法显著得优于其他模型。参考图3所示,由图3的学习曲线可以看出,当训练次数大于150次以后,随着模型训练次数的增加,SeqGAN算法的执行性能显著优于MLE、SS和PG-BIEU算法。SeqGAN算法不仅在生成模型方面可以突破传统MLE模型的局限性,而且SeqGAN中的判别信号比PG-BLEU中的预定义打分更加通用有效,可以指导生成策略捕获序列数据的基础分布。
本实施例提供了Rollout模块,Rollout模块能够解决长序列进行强化学习时需要等到序列生成完整后才能计算奖励值总和的问题。此模块能够将生成器的生成样本序列从不同位置断开,多次重复模拟余下的数据补全,通过判别器和奖励值计算机制得到每个模拟序列的奖励值之和并且求其平均值。原始SeqGAN中使用的Rollout模块是生成器的完全副本,而本文提出的改进SeqGAN中使用了滞后于生成器的模型参数更新,从而起到增加长序列强化学习稳定性的作用。另外,Rollout模块并不直接参与梯度下降,而是手动更新模型参数。
本方法对原始SeqGAN模型进行了重构,改进原模型的Rollout模块,使用滞后于生成器的模型参数更新,增加了长序列强化学习的稳定性;与传统MLE、SS和PG-BLUE模型相比,训练次数足够多的情况下(大于150次),模型算法的执行性能显著优于比对算法,具有一定的先进性。本方法基于改进SeqGAN进行数据生成。该方法不仅能够应用于自然语言处理领域,进行文本数据的数据生成,得益于入参的相似性,本方法还能应用于离散时序序列的数据生成领域,进行数字化设备的数据生成,适用于多种数据生成场景,具有相对广泛的适应性。
可选地,在基于生成器模型Gθ的数据,获得Roll-out生成器模型Gβ,根据所述Roll-out生成器模型Gβ,获得判别器模型D之前,包括:利用最大似然估计法,将预先采集的真实数据进行预训练,获得预训练生成器模型;根据所述真实数据以及所述预训练生成器模型Gθ生成的数据,确定预训练判别器模型。
可选地,基于生成器模型Gθ的数据进行合成并更新权重,获得Roll-out生成器模型Gβ,根据所述Roll-out生成器模型Gβ,获得判别器模型D之后,包括:在每一个时间步计算动作价值Q,利用所述判别器模型D、所述Roll-out生成器模型Gβ以及蒙特卡罗树搜索计算行为价值,更新策略梯度。
可选地,根据所述判别器模型D,利用蒙特卡洛方法对生成器模型Gθ进行调整,确定最大期望奖励,包括:根据以下公式,确定最大期望奖励:
Figure BDA0002967518270000081
其中,J是目标函数,E是期望,R是序列整体的奖励值,s是状态,θ是生成器模型的参数,y表示序列,,T表示序列段,Gθ是生成模型,DΦ是判别模型,Q是动作价值,y1为第一个序列,s0为初始状态。
可选地,从潜在空间获得所述更新后的生成器模型Gθ,根据所述更新后的生成器模型Gθ以及所述真实数据,重新训练判别器模型D,包括:将真实数据作为正例,将所述生成器模型Gθ生成的样例作为反例;根据所述正例以及所述反例,重新训练所述判别器模型D。
根据本实施例的另一个方面,提供了一种基于改进SeqGAN的数据生成系统400。参考图4所示,该系统400包括:获得判别器模块410,用于基于生成器模型Gθ的数据,获得Roll-out生成器模型Gβ,根据所述Roll-out生成器模型Gβ,获得判别器模型D;确定奖励模块420,用于根据所述判别器模型D,对生成器模型Gθ进行调整,确定最大期望奖励;训练生成器模块430,用于基于所述最大期望奖励,训练所述生成器模型Gθ,确定更新后的生成器模型Gθ;训练判别器模块440,用于从潜在空间获得所述更新后的生成器模型Gθ,并根据所述更新后的生成器模型Gθ以及所述真实数据,重新训练判别器模型D。
可选地,该系统400包括:获得预训练生成器模块,用于利用最大似然估计法,将预先采集的真实数据进行预训练,获得预训练生成器模型;确定预训练判别器模块,用于根据所述真实数据以及所述预训练生成器模型Gθ生成的数据,确定预训练判别器模型。
可选地,获得判别器模块410,包括:更新策略梯度子模块,用于在每一个时间步计算动作价值Q,利用所述判别器模型D、所述Roll-out生成器模型Gβ以及蒙特卡罗树搜索计算行为价值,更新策略梯度。
可选地,确定奖励模块420,包括:确定最大期望奖励子模块,用于根据以下公式,确定最大期望奖励:
Figure BDA0002967518270000091
其中,J是目标函数,E是期望,R是序列整体的奖励值,s是状态,θ是生成器模型的参数,y表示序列,T表示序列段,将一个序列y可以分为T个序列段,Gθ是生成模型,DΦ是判别模型,Q是动作价值,y1为第一个序列,s0为初始状态。
可选地,训练判别器模块440,包括:正例反例子模块,用于将真实数据作为正例,将所述生成器模型Gθ生成的样例作为反例;训练判别器模块子模块,用于根据所述正例以及所述反例,重新训练所述判别器模型D。
本发明的实施例的一种基于改进SeqGAN的数据生成系统400与本发明的另一个实施例的一种基于改进SeqGAN的数据生成方法100相对应,在此不再赘述。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请实施例中的方案可以采用各种计算机语言实现,例如,面向对象的程序设计语言Java和直译式脚本语言JavaScript等。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种基于改进SeqGAN的数据生成方法,其特征在于,包括:
基于生成器模型Gθ的数据,获得Roll-out生成器模型Gβ,根据所述Roll-out生成器模型Gβ,获得判别器模型D;
根据所述判别器模型D,对生成器模型Gθ进行调整,确定最大期望奖励;
基于所述最大期望奖励,训练所述生成器模型Gθ,确定更新后的生成器模型Gθ
从潜在空间获得所述更新后的生成器模型Gθ,并根据所述更新后的生成器模型Gθ以及真实数据,重新训练判别器模型D。
2.根据权利要求1所述的方法,其特征在于,在基于生成器模型Gθ的数据,获得Roll-out生成器模型Gβ,根据所述Roll-out生成器模型Gβ,获得判别器模型D之前,包括:
利用最大似然估计法,将预先采集的真实数据进行预训练,获得预训练生成器模型;
根据所述真实数据以及所述预训练生成器模型Gθ生成的数据,确定预训练判别器模型。
3.根据权利要求1所述的方法,其特征在于,基于生成器模型Gθ的数据,获得Roll-out生成器模型Gβ,根据所述Roll-out生成器模型Gβ,获得判别器模型D之后,包括:
在每一个时间步计算动作价值Q,利用所述判别器模型D、所述Roll-out生成器模型Gβ以及蒙特卡罗树搜索计算行为价值,更新策略梯度。
4.根据权利要求1所述的方法,其特征在于,根据所述判别器模型D,利用蒙特卡洛方法对生成器模型Gθ进行调整,确定最大期望奖励,包括:
根据以下公式,确定最大期望奖励:
Figure FDA0002967518260000021
其中,J是目标函数,E是期望,R是序列整体的奖励值,s是状态,θ是生成器模型的参数,y表示序列,T表示序列段,将一个序列y可以分为T个序列段,Gθ是生成模型,DΦ是判别模型,Q是动作价值,y1为第一个序列,s0为初始状态。
5.根据权利要求1所述的方法,其特征在于,从潜在空间获得所述更新后的生成器模型Gθ,根据所述更新后的生成器模型Gθ以及真实数据,重新训练判别器模型D,包括:
将真实数据作为正例,将所述生成器模型Gθ生成的样例作为反例;
根据所述正例以及所述反例,重新训练所述判别器模型D。
6.一种基于改进SeqGAN的数据生成系统,其特征在于,包括:
获得判别器模块,用于基于生成器模型Gθ的数据,获得Roll-out生成器模型Gβ,根据所述Roll-out生成器模型Gβ,获得判别器模型D;
确定奖励模块,用于根据所述判别器模型D,对生成器模型Gθ进行调整,确定最大期望奖励;
训练生成器模块,用于基于所述最大期望奖励,训练所述生成器模型Gθ,确定更新后的生成器模型Gθ
训练判别器模块,用于从潜在空间获得所述更新后的生成器模型Gθ,并根据所述更新后的生成器模型Gθ以及真实数据,重新训练判别器模型D。
7.根据权利要求6所述的系统,其特征在于,包括:
获得预训练生成器模块,用于利用最大似然估计法,将预先采集的真实数据进行预训练,获得预训练生成器模型;
确定预训练判别器模块,用于根据所述真实数据以及所述预训练生成器模型Gθ生成的数据,确定预训练判别器模型。
8.根据权利要求6所述的系统,其特征在于,获得判别器模块,包括:
更新策略梯度子模块,用于在每一个时间步计算动作价值Q,利用所述判别器模型D、所述Roll-out生成器模型Gβ以及蒙特卡罗树搜索计算行为价值,更新策略梯度。
9.根据权利要求6所述的系统,其特征在于,确定奖励模块,包括:
确定最大期望奖励子模块,用于根据以下公式,确定最大期望奖励:
Figure FDA0002967518260000031
其中,J是目标函数,E是期望,R是序列整体的奖励值,s是状态,θ是生成器模型的参数,y表示序列,T表示序列段,将一个序列y可以分为T个序列段,Gθ是生成模型,DΦ是判别模型,Q是动作价值,y1为第一个序列,s0为初始状态。
10.根据权利要求9所述的系统,其特征在于,训练判别器模块,包括:
正例反例子模块,用于将真实数据作为正例,将所述生成器模型Gθ生成的样例作为反例;
训练判别器模块子模块,用于根据所述正例以及所述反例,重新训练所述判别器模型D。
CN202110256426.3A 2021-03-09 2021-03-09 一种基于改进SeqGAN的数据生成方法及系统 Pending CN113094969A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110256426.3A CN113094969A (zh) 2021-03-09 2021-03-09 一种基于改进SeqGAN的数据生成方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110256426.3A CN113094969A (zh) 2021-03-09 2021-03-09 一种基于改进SeqGAN的数据生成方法及系统

Publications (1)

Publication Number Publication Date
CN113094969A true CN113094969A (zh) 2021-07-09

Family

ID=76666618

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110256426.3A Pending CN113094969A (zh) 2021-03-09 2021-03-09 一种基于改进SeqGAN的数据生成方法及系统

Country Status (1)

Country Link
CN (1) CN113094969A (zh)

Similar Documents

Publication Publication Date Title
Guu et al. From language to programs: Bridging reinforcement learning and maximum marginal likelihood
CN111241952A (zh) 一种离散制造场景中的强化学习奖励自学习方法
KR20170052344A (ko) 신규 물질 탐색 방법 및 장치
US11704570B2 (en) Learning device, learning system, and learning method
WO2019084560A1 (en) SEARCH FOR NEURONAL ARCHITECTURES
CN111461168A (zh) 训练样本扩充方法、装置、电子设备及存储介质
CN112001485B (zh) 一种组卷积数目搜索方法和装置
Hou et al. Inverse is better! fast and accurate prompt for few-shot slot tagging
CN116883545A (zh) 基于扩散模型的图片数据集扩充方法、介质及设备
CN106874203B (zh) 一种基于缺陷报告文本主题分析的缺陷定位方法
JP6770709B2 (ja) 機械学習用モデル生成装置及びプログラム。
CN111192158A (zh) 一种基于深度学习的变电站日负荷曲线相似度匹配方法
CN111950579A (zh) 分类模型的训练方法和训练装置
Gao et al. Optimization methods for large-scale machine learning
Du et al. Structure tuning method on deep convolutional generative adversarial network with nondominated sorting genetic algorithm II
Chen et al. Application of Data‐Driven Iterative Learning Algorithm in Transmission Line Defect Detection
CN113094969A (zh) 一种基于改进SeqGAN的数据生成方法及系统
CN115345303A (zh) 卷积神经网络权重调优方法、装置、存储介质和电子设备
EP4227864A1 (en) Evaluation method, evaluation device, and evaluation program
JP6993250B2 (ja) コンテンツ特徴量抽出装置、方法、及びプログラム
CN113887008A (zh) 信息处理方法、电子设备和计算机存储介质
Dou et al. Research on Data Generation Model Based on Improved SeqGAN
CN114580578B (zh) 具有约束的分布式随机优化模型训练方法、装置及终端
CN111275201A (zh) 一种基于子图划分的图半监督学习的分布式实现方法
CN107292324A (zh) 用于训练混合模型的方法和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination