CN114707402A

CN114707402A - 一种强化学习感知的冰壶模拟图像转换真实图像的方法

Info

Publication number: CN114707402A
Application number: CN202210229371.1A
Authority: CN
Inventors: 李宗民; 孙文洁; 肖倩; 孙浩淼; 李亚传; 王向东
Original assignee: China University of Petroleum East China
Current assignee: China University of Petroleum East China
Priority date: 2022-03-09
Filing date: 2022-03-09
Publication date: 2022-07-05

Abstract

本发明公开了一种强化学习感知的冰壶模拟比赛图像到真实图像转换的方法，属于深度学习领域的人工智能和计算机视觉方向，建立了强化学习感知的任务可知冰壶模拟图像转换模型，主要解决模拟环境中训练的冰壶策略可能与现实不匹配的问题。算法主要包括：图像风格转化模块、强化学习约束模块：为模拟图像提供像素级领域自适应,并通过强化学习约束使图像在转换过程中保留强化学习所需的重要属性，实现转化过程的任务可知。这种强化学习感知的冰壶模拟比赛图像到真实图像转换的方法，有效提升了现有的冰壶辅助决策模型的效果，实现成本低，应用范围广。

Description

一种强化学习感知的冰壶模拟图像转换真实图像的方法

技术领域

本发明属于深度学习领域，是图像处理领域中的一项重要应用，尤其是涉及一种强化学习感知的模拟冰壶图像到真实冰壶比赛图像的转换。

技术背景

冰壶运动越来越受到大家的关注与欢迎。作为一项技巧和谋略相结合的比赛项目，借助计算机的力量来规划冰壶比赛策略显得尤为重要。

策略因素是影响冰壶比赛成绩的一个重要因素，借助强化学习手段训练的辅助与决策方法与传统方法相比带来了精度与速度的提升，然而由于冰壶比赛场地中相机位置等的限制要收集到不需要加工处理就适用于强化学习训练素材是存在一定难度的，现有策略往往将现实中收集到的素材进行数字化提取然后映射到模拟环境中，并将模拟图片作为输入进行策略学习，然而这种模拟环境中的训练是次优的，由于现场光照、纹理、颜色等，使得模拟图像与现实图像存在很大差距，因此训练出的策略不完全适用于现实的冰壶比赛。

而冰壶是对精确度要求极高的运动，微小的偏差就可能很大程度影响最终结果，我们提出了一种在强化学习基础上自动将模拟器生成的冰壶比赛图像转化为现实冰壶比赛图像，以进一步提升策略精确度的方法。

传统的图像转化方法在转化图像风格的过程中是任务不可知的，因此可能导致强化学习所必须的关键信息被忽略，这会对强化学习的结果造成严重负面影响，因此我们在图像转换过程中加入强化学习感知，使转化得到的模拟图像强制保留强化学习所需的关键信息，提升了最终转换图像的质量。

我们提出的强化学习感知的模拟图像转化模型通过不成对数据集训练将冰壶比赛模拟图像转化为真实感的图像并用其进行强化学习训练，可进一步提升原来基于模拟图像训练的现有的冰壶辅助决策方法的精度，消除模拟和现实之间的差距，使得产生的策略更好的应用于现实冰壶比赛。

发明内容

本发明提出了一种基于强化学习感知的冰壶模拟场景转化为真实场景的方法。该方法以生成式对抗网络为基础，结合了强化学习技术，无需大量成对数据集。在最大程度上保留强化学习所需关键信息的基础上，自动将模拟冰壶图像转化高质量的真实比赛图像，用转化后的真实图像进行训练，可以有效提升现有冰壶辅助决策模型的性能。该方法可以适用于任何基于模拟冰壶图像训练的辅助决策模型，为其提供真实图像训练以取代模拟图像。

其技术解决方案是：

强化学习感知的冰壶模拟图像转换真实图像方法，所述方法包括：

步骤1)，收集模拟器中冰壶比赛图像与真实冰壶比赛图像，分别构成两个训练集；

步骤2)，将两个训练集送入基于CycleGAN网络的图像风格转化模块，实现模拟图像到真实图像转化的基本流程；

步骤3)，初始化两个Q网络：Qsim与Qreal。通过原始模拟图像和模拟动作训练Qsim网络，通过生成真实图像和模拟动作训练Qreal网络，通过TD loss更新Q网络参数；

步骤4)，使用强化学习场景一致性约束CycleGAN模型，要求描述相同场景的图像对应相同的Q值；

步骤5)，训练完成后输入任意模拟器产生的冰壶比赛模拟图像由生成器产生对应的真实图像，将真实图像作为冰壶策略训练的输入取代原有的模拟图像；

所述步骤1)两组数据不需要配对。

所述步骤2)CycleGAN由两组镜像GAN网络组成(定义两个生成器与两个判别器)，增加了循环一致性损失鼓励重建图像保留输入图像的某些属性。

所述步骤3)对原始Q-learning方法进行改进，使其适用于连续动作空间。

所述步骤4)CycleGAN网络、Qsim和Qreal网络在实际训练过程中采取联合训练方式。

所述步骤5)可以直接使用联合训练得到的Qreal网络中的策略应用到现实比赛，但在训练完成后冻结Q网络重新使用CycleGAN网络进行图像风格转化后再将得到的真实图像用以强化学习的训练可以得到更好的效果。

所述整个方法只通过适量非成对数据，即可完成模拟器产生的冰壶比赛图像到真实冰壶比赛图像的转换，使用真实图像训练出的冰壶策略在现实应用时产生了更好的效果。

本发明为强化学习中产生更好的冰壶策略提供了帮助，解决了在模拟器中训练的冰壶策略应用在真实环境中效果下降的问题，实现成本低，应用范围广。

附图说明

附图1是本发明转换的效果图

附图2是本发明所构建的强化学习感知的模拟冰壶图像到真实比赛图像的技术方法

具体实施方式

一种强化学习感知的模拟图像转换模型，包括以下步骤：

1)冰壶模拟器中通过一定策略收集序列，形成训练集A，并放入经验池；取适量模拟环境图像和真实拍摄的冰壶比赛图像分别作为训练集A′、B′。

2)构造两个生成器模型G：X→Y，F：Y→X(其中X代表模拟图像，Y代表真实图像)。生成器具体构造如下：使用卷积神经网络从输入图像提取特征，使用6层Resnet进行图像源域和目标域的特征向量转换，使用反卷积层解码。使用卷积层构造两个判别模型D_XD_Y分别用以区分模拟图像和真实图像。通过训练集A′、B′训练两个生成器和两个判别器。定义GAN网络损失函数：

生成器G训练过程中目标为最小化损失函数，判别器D_Y训练过程中目标为最大化损失函数。另一个镜像GAN网络损失函数同理。

3)输入模拟图像由生成器G生成真实图像后再由生成器F还原回模拟图像：

x→G(x)→F(G(x))

输入真实图像由生成器F生成模拟图像后再由生成器G还原回真实图像：

y→F(y)→G(F(y))

使用循环一致性损失约束输入图像和还原图像的一致性：

将训练集A中的代表状态s的模拟图像送入生成器得到真实图像，并替换掉原来的状态s，形成训练集B。

4)定义两个Q网络，Qsim、Qreal分别用以评估某一模拟环境采取一定动作后的Q值和和由模拟环境转换后形成的真实环境采取一定动作后对应的Q值，分别使用训练集A、B进行训练，使用TD损失更新网络参数：

d(Q(s，a)，r+γV(s′))

5)对于3)得到的图像x、G(x)、F(G(x))和y、F(y)、G(F(y))送入Qsim、Qreal取得相应Q值：

q_x＝Q_sim(x，a)

q′_x＝Q_real(G(x)，a)

q″_x＝Q_sim(F(G(x))，a)

q_y＝Q_real(y，a)

q′_y＝Q_sim(F(y)，a)

q″_y＝Q_real(G(F(y))，a)

6)使用RL场景一致性损失进一步鼓励图像在转换过程中保留与RL训练相关的全部属性：

上本发明建立了强化学习感知的任务可知冰壶模拟图像转换模型。分为两个主要模块进行实现：图像风格转化模块，强化学习约束模块：为模拟图像提供像素级领域自适应，并通过强化学习约束使图像在转换过程中保留强化学习训练所需的重要属性，实现转化过程的任务可知。

上本发明在实际冰壶比赛中能服务于现有的部分原借助模拟图像训练的冰壶辅助决策模型，消除模拟图像和真实场景的差距，进一步提升决策模型性能。并具有成本低，可用范围广的特点。且在所需两组训练集不需要任何手工标注和两组间的配对，只需分别在相对应的模拟场景和真实场景中采集即可。

上述方式中未述及的技术内容，采取或借鉴已有技术即可实现。需要说明的是，在本说明书的教导下，本领域技术人员还可以作出这样或那样的容易变化方式，诸如等同方式，或明显变形方式。上述的变化方式均应在本发明的保护范围之内。

Claims

1.强化学习感知的冰壶模拟图像转换真实图像方法，所述方法包括：

步骤5)，训练完成后输入任意模拟器产生的冰壶比赛模拟图像由生成器产生对应的真实图像，将真实图像作为冰壶策略训练的输入取代原有的模拟图像。

2.根据权利要求1所述的强化学习感知的冰壶模拟图像转换真实图像方法，其特征在于：步骤1)两组数据不需要配对。

3.根据权利要求1所述的强化学习感知的冰壶模拟图像转换真实图像方法，其特征在于：步骤2)CycleGAN由两组镜像GAN网络组成(定义两个生成器与两个判别器)，增加了循环一致性损失鼓励重建图像保留输入图像的某些属性。

4.根据权利要求1所述的强化学习感知的冰壶模拟图像转换真实图像方法，其特征在于：步骤3)对原始Q-learning方法进行改进，使其适用于连续动作空间。

5.据权利要求1所述的强化学习感知的冰壶模拟图像转换真实图像方法，其特征在于：步骤4)CycleGAN网络、Qsim和Qreal网络在实际训练过程中采取联合训练方式。

6.据权利要求1所述的强化学习感知的冰壶模拟图像转换真实图像方法，其特征在于：步骤5)可以直接使用联合训练得到的Qreal网络中的策略应用到现实比赛，但在训练完成后冻结Q网络重新使用CycleGAN网络进行图像风格转化后再将得到的真实图像用以强化学习的训练可以得到更好的效果。