CN114707402A - 一种强化学习感知的冰壶模拟图像转换真实图像的方法 - Google Patents
一种强化学习感知的冰壶模拟图像转换真实图像的方法 Download PDFInfo
- Publication number
- CN114707402A CN114707402A CN202210229371.1A CN202210229371A CN114707402A CN 114707402 A CN114707402 A CN 114707402A CN 202210229371 A CN202210229371 A CN 202210229371A CN 114707402 A CN114707402 A CN 114707402A
- Authority
- CN
- China
- Prior art keywords
- image
- curling
- reinforcement learning
- training
- real
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004088 simulation Methods 0.000 title claims abstract description 37
- 238000000034 method Methods 0.000 title claims abstract description 36
- 230000002787 reinforcement Effects 0.000 title claims abstract description 35
- 230000008447 perception Effects 0.000 title claims abstract description 18
- 238000006243 chemical reaction Methods 0.000 claims abstract description 19
- 230000008569 process Effects 0.000 claims abstract description 9
- 230000000694 effects Effects 0.000 claims abstract description 7
- 230000009471 action Effects 0.000 claims description 6
- 230000001131 transforming effect Effects 0.000 claims 4
- 125000004122 cyclic group Chemical group 0.000 claims 1
- 238000013135 deep learning Methods 0.000 abstract description 2
- 238000013473 artificial intelligence Methods 0.000 abstract 1
- 230000006870 function Effects 0.000 description 4
- 239000000463 material Substances 0.000 description 3
- 230000008901 benefit Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/04—Context-preserving transformations, e.g. by using an importance map
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2111/00—Details relating to CAD techniques
- G06F2111/04—Constraint-based CAD
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- Processing Or Creating Images (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种强化学习感知的冰壶模拟比赛图像到真实图像转换的方法,属于深度学习领域的人工智能和计算机视觉方向,建立了强化学习感知的任务可知冰壶模拟图像转换模型,主要解决模拟环境中训练的冰壶策略可能与现实不匹配的问题。算法主要包括:图像风格转化模块、强化学习约束模块:为模拟图像提供像素级领域自适应,并通过强化学习约束使图像在转换过程中保留强化学习所需的重要属性,实现转化过程的任务可知。这种强化学习感知的冰壶模拟比赛图像到真实图像转换的方法,有效提升了现有的冰壶辅助决策模型的效果,实现成本低,应用范围广。
Description
技术领域
本发明属于深度学习领域,是图像处理领域中的一项重要应用,尤其是涉及一种强化学习感知的模拟冰壶图像到真实冰壶比赛图像的转换。
技术背景
冰壶运动越来越受到大家的关注与欢迎。作为一项技巧和谋略相结合的比赛项目,借助计算机的力量来规划冰壶比赛策略显得尤为重要。
策略因素是影响冰壶比赛成绩的一个重要因素,借助强化学习手段训练的辅助与决策方法与传统方法相比带来了精度与速度的提升,然而由于冰壶比赛场地中相机位置等的限制要收集到不需要加工处理就适用于强化学习训练素材是存在一定难度的,现有策略往往将现实中收集到的素材进行数字化提取然后映射到模拟环境中,并将模拟图片作为输入进行策略学习,然而这种模拟环境中的训练是次优的,由于现场光照、纹理、颜色等,使得模拟图像与现实图像存在很大差距,因此训练出的策略不完全适用于现实的冰壶比赛。
而冰壶是对精确度要求极高的运动,微小的偏差就可能很大程度影响最终结果,我们提出了一种在强化学习基础上自动将模拟器生成的冰壶比赛图像转化为现实冰壶比赛图像,以进一步提升策略精确度的方法。
传统的图像转化方法在转化图像风格的过程中是任务不可知的,因此可能导致强化学习所必须的关键信息被忽略,这会对强化学习的结果造成严重负面影响,因此我们在图像转换过程中加入强化学习感知,使转化得到的模拟图像强制保留强化学习所需的关键信息,提升了最终转换图像的质量。
我们提出的强化学习感知的模拟图像转化模型通过不成对数据集训练将冰壶比赛模拟图像转化为真实感的图像并用其进行强化学习训练,可进一步提升原来基于模拟图像训练的现有的冰壶辅助决策方法的精度,消除模拟和现实之间的差距,使得产生的策略更好的应用于现实冰壶比赛。
发明内容
本发明提出了一种基于强化学习感知的冰壶模拟场景转化为真实场景的方法。该方法以生成式对抗网络为基础,结合了强化学习技术,无需大量成对数据集。在最大程度上保留强化学习所需关键信息的基础上,自动将模拟冰壶图像转化高质量的真实比赛图像,用转化后的真实图像进行训练,可以有效提升现有冰壶辅助决策模型的性能。该方法可以适用于任何基于模拟冰壶图像训练的辅助决策模型,为其提供真实图像训练以取代模拟图像。
其技术解决方案是:
强化学习感知的冰壶模拟图像转换真实图像方法,所述方法包括:
步骤1),收集模拟器中冰壶比赛图像与真实冰壶比赛图像,分别构成两个训练集;
步骤2),将两个训练集送入基于CycleGAN网络的图像风格转化模块,实现模拟图像到真实图像转化的基本流程;
步骤3),初始化两个Q网络:Qsim与Qreal。通过原始模拟图像和模拟动作训练Qsim网络,通过生成真实图像和模拟动作训练Qreal网络,通过TD loss更新Q网络参数;
步骤4),使用强化学习场景一致性约束CycleGAN模型,要求描述相同场景的图像对应相同的Q值;
步骤5),训练完成后输入任意模拟器产生的冰壶比赛模拟图像由生成器产生对应的真实图像,将真实图像作为冰壶策略训练的输入取代原有的模拟图像;
所述步骤1)两组数据不需要配对。
所述步骤2)CycleGAN由两组镜像GAN网络组成(定义两个生成器与两个判别器),增加了循环一致性损失鼓励重建图像保留输入图像的某些属性。
所述步骤3)对原始Q-learning方法进行改进,使其适用于连续动作空间。
所述步骤4)CycleGAN网络、Qsim和Qreal网络在实际训练过程中采取联合训练方式。
所述步骤5)可以直接使用联合训练得到的Qreal网络中的策略应用到现实比赛,但在训练完成后冻结Q网络重新使用CycleGAN网络进行图像风格转化后再将得到的真实图像用以强化学习的训练可以得到更好的效果。
所述整个方法只通过适量非成对数据,即可完成模拟器产生的冰壶比赛图像到真实冰壶比赛图像的转换,使用真实图像训练出的冰壶策略在现实应用时产生了更好的效果。
本发明为强化学习中产生更好的冰壶策略提供了帮助,解决了在模拟器中训练的冰壶策略应用在真实环境中效果下降的问题,实现成本低,应用范围广。
附图说明
附图1是本发明转换的效果图
附图2是本发明所构建的强化学习感知的模拟冰壶图像到真实比赛图像的技术方法
具体实施方式
一种强化学习感知的模拟图像转换模型,包括以下步骤:
1)冰壶模拟器中通过一定策略收集序列,形成训练集A,并放入经验池;取适量模拟环境图像和真实拍摄的冰壶比赛图像分别作为训练集A′、B′。
2)构造两个生成器模型G:X→Y,F:Y→X(其中X代表模拟图像,Y代表真实图像)。生成器具体构造如下:使用卷积神经网络从输入图像提取特征,使用6层Resnet进行图像源域和目标域的特征向量转换,使用反卷积层解码。使用卷积层构造两个判别模型DXDY分别用以区分模拟图像和真实图像。通过训练集A′、B′训练两个生成器和两个判别器。定义GAN网络损失函数:
生成器G训练过程中目标为最小化损失函数,判别器DY训练过程中目标为最大化损失函数。另一个镜像GAN网络损失函数同理。
3)输入模拟图像由生成器G生成真实图像后再由生成器F还原回模拟图像:
x→G(x)→F(G(x))
输入真实图像由生成器F生成模拟图像后再由生成器G还原回真实图像:
y→F(y)→G(F(y))
使用循环一致性损失约束输入图像和还原图像的一致性:
将训练集A中的代表状态s的模拟图像送入生成器得到真实图像,并替换掉原来的状态s,形成训练集B。
4)定义两个Q网络,Qsim、Qreal分别用以评估某一模拟环境采取一定动作后的Q值和和由模拟环境转换后形成的真实环境采取一定动作后对应的Q值,分别使用训练集A、B进行训练,使用TD损失更新网络参数:
d(Q(s,a),r+γV(s′))
5)对于3)得到的图像x、G(x)、F(G(x))和y、F(y)、G(F(y))送入Qsim、Qreal取得相应Q值:
qx=Qsim(x,a)
q′x=Qreal(G(x),a)
q″x=Qsim(F(G(x)),a)
qy=Qreal(y,a)
q′y=Qsim(F(y),a)
q″y=Qreal(G(F(y)),a)
6)使用RL场景一致性损失进一步鼓励图像在转换过程中保留与RL训练相关的全部属性:
上本发明建立了强化学习感知的任务可知冰壶模拟图像转换模型。分为两个主要模块进行实现:图像风格转化模块,强化学习约束模块:为模拟图像提供像素级领域自适应,并通过强化学习约束使图像在转换过程中保留强化学习训练所需的重要属性,实现转化过程的任务可知。
上本发明在实际冰壶比赛中能服务于现有的部分原借助模拟图像训练的冰壶辅助决策模型,消除模拟图像和真实场景的差距,进一步提升决策模型性能。并具有成本低,可用范围广的特点。且在所需两组训练集不需要任何手工标注和两组间的配对,只需分别在相对应的模拟场景和真实场景中采集即可。
上述方式中未述及的技术内容,采取或借鉴已有技术即可实现。需要说明的是,在本说明书的教导下,本领域技术人员还可以作出这样或那样的容易变化方式,诸如等同方式,或明显变形方式。上述的变化方式均应在本发明的保护范围之内。
Claims (6)
1.强化学习感知的冰壶模拟图像转换真实图像方法,所述方法包括:
步骤1),收集模拟器中冰壶比赛图像与真实冰壶比赛图像,分别构成两个训练集;
步骤2),将两个训练集送入基于CycleGAN网络的图像风格转化模块,实现模拟图像到真实图像转化的基本流程;
步骤3),初始化两个Q网络:Qsim与Qreal。通过原始模拟图像和模拟动作训练Qsim网络,通过生成真实图像和模拟动作训练Qreal网络,通过TD loss更新Q网络参数;
步骤4),使用强化学习场景一致性约束CycleGAN模型,要求描述相同场景的图像对应相同的Q值;
步骤5),训练完成后输入任意模拟器产生的冰壶比赛模拟图像由生成器产生对应的真实图像,将真实图像作为冰壶策略训练的输入取代原有的模拟图像。
2.根据权利要求1所述的强化学习感知的冰壶模拟图像转换真实图像方法,其特征在于:步骤1)两组数据不需要配对。
3.根据权利要求1所述的强化学习感知的冰壶模拟图像转换真实图像方法,其特征在于:步骤2)CycleGAN由两组镜像GAN网络组成(定义两个生成器与两个判别器),增加了循环一致性损失鼓励重建图像保留输入图像的某些属性。
4.根据权利要求1所述的强化学习感知的冰壶模拟图像转换真实图像方法,其特征在于:步骤3)对原始Q-learning方法进行改进,使其适用于连续动作空间。
5.据权利要求1所述的强化学习感知的冰壶模拟图像转换真实图像方法,其特征在于:步骤4)CycleGAN网络、Qsim和Qreal网络在实际训练过程中采取联合训练方式。
6.据权利要求1所述的强化学习感知的冰壶模拟图像转换真实图像方法,其特征在于:步骤5)可以直接使用联合训练得到的Qreal网络中的策略应用到现实比赛,但在训练完成后冻结Q网络重新使用CycleGAN网络进行图像风格转化后再将得到的真实图像用以强化学习的训练可以得到更好的效果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210229371.1A CN114707402A (zh) | 2022-03-09 | 2022-03-09 | 一种强化学习感知的冰壶模拟图像转换真实图像的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210229371.1A CN114707402A (zh) | 2022-03-09 | 2022-03-09 | 一种强化学习感知的冰壶模拟图像转换真实图像的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114707402A true CN114707402A (zh) | 2022-07-05 |
Family
ID=82169537
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210229371.1A Pending CN114707402A (zh) | 2022-03-09 | 2022-03-09 | 一种强化学习感知的冰壶模拟图像转换真实图像的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114707402A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190147582A1 (en) * | 2017-11-15 | 2019-05-16 | Toyota Research Institute, Inc. | Adversarial learning of photorealistic post-processing of simulation with privileged information |
CN112529774A (zh) * | 2020-12-28 | 2021-03-19 | 南开大学 | 一种基于CycleGAN的遥感仿真图像生成方法 |
CN113095246A (zh) * | 2021-04-19 | 2021-07-09 | 首都师范大学 | 一种基于迁移学习和场景感知的跨域自适应人数统计方法 |
CN113673672A (zh) * | 2021-07-08 | 2021-11-19 | 哈尔滨工业大学 | 一种基于蒙特卡洛强化学习的冰壶比赛策略生成方法 |
CN113837063A (zh) * | 2021-10-15 | 2021-12-24 | 中国石油大学(华东) | 一种基于强化学习的冰壶运动现场分析和辅助决策方法 |
-
2022
- 2022-03-09 CN CN202210229371.1A patent/CN114707402A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190147582A1 (en) * | 2017-11-15 | 2019-05-16 | Toyota Research Institute, Inc. | Adversarial learning of photorealistic post-processing of simulation with privileged information |
CN112529774A (zh) * | 2020-12-28 | 2021-03-19 | 南开大学 | 一种基于CycleGAN的遥感仿真图像生成方法 |
CN113095246A (zh) * | 2021-04-19 | 2021-07-09 | 首都师范大学 | 一种基于迁移学习和场景感知的跨域自适应人数统计方法 |
CN113673672A (zh) * | 2021-07-08 | 2021-11-19 | 哈尔滨工业大学 | 一种基于蒙特卡洛强化学习的冰壶比赛策略生成方法 |
CN113837063A (zh) * | 2021-10-15 | 2021-12-24 | 中国石油大学(华东) | 一种基于强化学习的冰壶运动现场分析和辅助决策方法 |
Non-Patent Citations (3)
Title |
---|
KANISHKA RAO: "RL-CycleGAN: Reinforcement Learning Aware Simulation-To-Real", 《ARXIV》, 16 June 2020 (2020-06-16), pages 1 - 8 * |
秋刀鱼的炼丹工坊: "[论文简析]RL-CycleGAN: Reinforcement Learning Aware Simulation-To-Real[2006.09001]", pages 0 - 13, Retrieved from the Internet <URL:https://www.bilibili.com/video/BV1L54y1n7d3/?vd_source=d8084171a44d28ddbaf5face0fbf7ca8> * |
黄铁生: "【RL论文】RL-CycleGAN for Sim-To-Real", pages 1 - 5, Retrieved from the Internet <URL:https://zhuanlan.zhihu.com/p/348210458> * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110599573B (zh) | 一种基于单目相机的人脸实时交互动画的实现方法 | |
CN113269872A (zh) | 基于三维人脸重构和视频关键帧优化的合成视频生成方法 | |
CN116109798B (zh) | 图像数据处理方法、装置、设备及介质 | |
CN110473266A (zh) | 一种基于姿态指导的保留源场景人物动作视频生成方法 | |
CN110796593A (zh) | 基于人工智能的图像处理方法、装置、介质及电子设备 | |
CN113012282A (zh) | 三维人体重建方法、装置、设备及存储介质 | |
CN113362422B (zh) | 一种阴影鲁棒的基于解耦表示的妆容迁移系统及方法 | |
CN113807265B (zh) | 一种多样化的人脸图像合成方法及系统 | |
CN113507627B (zh) | 视频生成方法、装置、电子设备及存储介质 | |
CN112686816A (zh) | 一种基于内容注意力机制和掩码先验的图像补全方法 | |
CN110097615B (zh) | 一种联合风格化和去风格化的艺术字编辑方法和系统 | |
CN116583878A (zh) | 用于个性化3d头部模型变形的方法和系统 | |
CN115209180A (zh) | 视频生成方法以及装置 | |
CN112221145B (zh) | 游戏脸模生成方法及装置、存储介质及电子设备 | |
CN112488935B (zh) | 基于纹理约束和泊松融合的生成对抗指静脉图像修复方法 | |
CN112686817A (zh) | 一种基于不确定性估计的图像补全方法 | |
CN115049556A (zh) | 一种基于StyleGAN的人脸图像修复方法 | |
CN110351548A (zh) | 基于深度学习及视差图加权指导的立体图像质量评价方法 | |
CN111612687B (zh) | 一种人脸图像自动上妆方法 | |
CN115914505A (zh) | 基于语音驱动数字人模型的视频生成方法及系统 | |
CN116383639A (zh) | 一种生成对抗网络的知识蒸馏方法、装置、设备及存储介质 | |
CN110288667A (zh) | 一种基于结构引导的图像纹理迁移方法 | |
CN109448039A (zh) | 一种基于深度卷积神经网络的单目视觉深度估计方法 | |
Kubade et al. | Afn: Attentional feedback network based 3d terrain super-resolution | |
CN114707402A (zh) | 一种强化学习感知的冰壶模拟图像转换真实图像的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |