CN117876527A - 基于约束马尔可夫决策的简洁连续笔画重构草图的方法 - Google Patents

基于约束马尔可夫决策的简洁连续笔画重构草图的方法 Download PDF

Info

Publication number
CN117876527A
CN117876527A CN202410040531.7A CN202410040531A CN117876527A CN 117876527 A CN117876527 A CN 117876527A CN 202410040531 A CN202410040531 A CN 202410040531A CN 117876527 A CN117876527 A CN 117876527A
Authority
CN
China
Prior art keywords
network
agent
action
stroke
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410040531.7A
Other languages
English (en)
Inventor
方涛
刘高峰
杜劭冲
霍宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN202410040531.7A priority Critical patent/CN117876527A/zh
Publication of CN117876527A publication Critical patent/CN117876527A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

一种基于约束马尔可夫决策的简洁连续笔画重构草图的方法,将使用矢量笔划序列生成目标草图的任务抽象成带有约束条件的优化问题,采用基于约束马尔可夫决策过程对带有约束条件的优化问题进行建模,确定绘制过程中画笔的起点坐标、目标图像以及当前画布,搭建包含智能体的策略网络、奖励价值网络以及成本价值网络并进行初始化,从而构建基于约束马尔科夫决策过程的强化学习模型;基于渲染器搭建将一维笔划坐标映射到二维图像模拟环境,智能体通过与该环境的交互生成训练样本,使用带有拉格朗日方法的深度确定性策略梯度算法对模型进行训练,再基于训练后的策略网络,根据当前的画布状态、目标图像和画笔起点生成最优动作序列并生成目标图像。本发明能够生成像人类一样的简约的连续矢量笔划序列并通过渲染器显示在画布上再现目标草图。

Description

基于约束马尔可夫决策的简洁连续笔画重构草图的方法
技术领域
本发明涉及的是一种图像生成领域的技术,具体是一种基于约束马尔科夫决策过程的简洁连续笔划重构草图的方法。
背景技术
草图重构是指通过神经网络为给定的草图生成一系列有物理意义的矢量笔画,并通过渲染器在画布上再现这些笔画。传统方法通过设计启发式优化算法或者贪婪算法以最小化生成图像和目标图像之间的差异,但是在视觉效果上较差。基于神经网络的方法过多关注生成结果,导致绘制过程中产生冗余的笔划数量和偏离人类习惯的笔划序列。
发明内容
本发明针对现有的草图重构技术没有考虑在生成草图过程中平衡笔划序列和视觉效果,提出一种基于约束马尔可夫决策的简洁连续笔画重构草图的方法,能够生成像人类一样的简约的连续矢量笔划序列并通过渲染器显示在画布上再现目标草图,有效的完成草图重构任务;同时基于约束马尔科夫决策过程建模,使得智能体不仅在绘制过程中使用更简约的连续笔划序列,而且在绘制结果上取得有竞争力的视觉效果。
本发明是通过以下技术方案实现的:
本发明涉及一种基于约束马尔可夫决策的简洁连续笔画重构草图的方法,在训练阶段,将使用矢量笔划序列生成目标草图的任务抽象成带有约束条件的优化问题,基于约束马尔可夫决策过程将带有约束条件的优化问题建模为强化学习模型,确定绘制过程中画笔的起点坐标、目标图像以及当前画布,搭建包含智能体的策略网络、奖励价值网络以及成本价值网络并进行初始化;基于渲染器搭建将一维笔划坐标映射到二维图像模拟环境,智能体通过与该环境的交互生成训练样本,使用带有拉格朗日方法的深度确定性策略梯度算法对强化学习模型进行训练;在在线阶段,基于训练后的策略网络,根据当前的画布状态、目标图像和画笔起点生成最优动作序列并生成目标图像。
所述的智能体的状态空间包括:当前时刻在环境中能观察到的所有信息集,包括动作次数k、画笔的起点坐标目标图像T、当前画布Ck,即/>其中:画笔的起点为归一化后的二维平面上的坐标/>
所述的智能体的动作空间是一个混合动作空间,由连续动作空间和离散动作空间组成,为其中:连续动作空间/>控制画笔绘制出的笔划位置和形状,使用带有宽度的二次贝塞尔曲线(QBC)来模拟画笔的效果,指定Ps=(xs,ys),Pc=(xc,yc),Pe=(xe,ye)分别作为起点、控制点和终点来定义QBC曲线的公式为:B(τ)=(1-τ)2Ps+2(1-τ)Pc2Pe,τ∈[0,1],当前笔划的终点会作为下一个笔划的起点,即/>保证笔划的连续性。离散动作空间/>控制智能体提起和落下两种状态,综上动作空间可以进一步为/> 其中:/>控制曲线的宽度,p为画笔的状态,取值为0或1,分别对应智能体的提起状态和落下状态,当智能体落下时会在画布上绘制出期望的笔划形状,当智能体提起时只会移动到对应的位置。
所述的智能体的奖励函数由视觉效果奖励rgan和对齐奖励rend两部分组成,当智能体观测到状态并且在第k步采取的动作ak,则奖励的计算公式是rk(sk,ak)=rgan(Ck,ak,T)+λendrend(ak,T),其中:λend是对齐奖励的权重,rgan使用对抗网络中的鉴别器计算当前画布绘制当前笔划前后和目标图像之间的视觉效果相似度的差值,对齐奖励鼓励智能体找到合适的笔划终点,引导智能体朝着收敛的方向进行探索和学习。
所述的智能体的成本函数csta和智能体状态相关,引入与智能体绘制笔划数量相关的约束,减少智能体下降的次数,即ck(sk,ak)=csta(ak,k)。
所述的强化学习模型根据给定目标图像T、纯白画布C0、笔划起点根据最优策略输出一个为笔划形状和画笔状态的动作a0,该强化学习模型包括:渲染器、主网络和估计网络,其中:渲染器E将动作渲染到画布C0上更新得到新的画布C1,笔划的终点/>也会作为下一个笔划的起点/>主网络和估计网络的策略网络根据给定的状态返回动作信息;主网络和估计网络的价值网络根据当前的状态和动作对估计未来累积的奖励或Q值。
根据约束马尔可夫决策过程,每次绘制一个笔划,智能体会获得奖励rk(sk,ak)和成本ck(sk,ak),其中:sk,ak分别为智能体在第k次时观察到的状态和采取的行动,在当前策略π下,长期折扣奖励为长期折扣成本为/>其中:K为回合长度,γ是取值在[0,1]范围内的折扣因子。
所述的带有约束条件的优化问题是指:智能体学习针对策略网络权重θ的最优策略完成草图重建任务,使得累积折扣奖励Jr(π)最大的同时满足成本约束小于阈值Jc(π)≤d,即/> s.t.Jcθ)≤d。
所述的带有拉格朗日方法的深度确定性策略梯度算法对强化学习模型进行训练是指:通过引入拉格朗日松弛算法,将有约束问题转化为无约束问题: 其中:λ是拉格朗日乘子;/>πω分别为主网络中奖励价值网络、成本价值网络和策略网络的参数,/>πω'分别目标网络中的奖励价值网络、成本价值网络和策略网络的参数,主网络中的参数直接通过损失函数进行更新,目标网络中的参数在主网络的参数乘以权重的基础上进行软更新。
所述的奖励价值网络的损失函数 其中:,y(s',r)和z(s',c)是根据贝尔曼方程计算的估计Q值。
所述的主网络和目标网络是指两套初始参数和模型结构完全相同的网络,通过将目标网络中的参数暂时固定,只更新主网络中的参数,提高训练的稳定性。
所述的软更新是基于主网络的参数,缓慢地更新目标网络的参数。
所述的策略网络的确定性策略梯度函数损失:
所述的拉格朗日乘子是引入的一个变量,可以将约束条件融入到目标函数中,形成一个无约束的优化问题,训练过程中拉格朗日乘子由采样对偶梯度更新:
技术效果
本发明可以通过生成像人类一样的简约的连续矢量笔划序列并基于渲染器将笔划序列显示在画布上再现目标草图,有效的完成草图重构任务;同时基于约束马尔科夫决策过程建模,使得智能体不仅在绘制过程中使用数量更少的连续笔划序列,而且在绘制结果上取得有竞争力的视觉效果。
附图说明
图1为本发明系统示意图;
图2为本发明在线阶段流程图;
图3为实施例策略网络和价值网络结构图;
图4为本发明效果示意图;
图5为本发明训练流程图。
具体实施方式
本实施例涉及一种基于约束马尔可夫决策过程以类人的简洁连续笔画重构草图的方法,包括以下步骤:
步骤1、将使用矢量笔划序列生成目标草图任务建模成带有约束条件的优化问题,具体为:给定目标图像、一个空白画布和智能体的起点坐标,智能体根据当前的状态确定是否绘制笔划或者绘制笔划的形状,智能体的动作会通过模拟环境更新当前的画布得到新的观测状态,采用不同的动作会产生不同的成本和奖励,智能体重构草图任务的优化目标就是学习一个最优策略来最大化累积折扣奖励Jr(π),即/>满足约束条件累积折扣成本不能够超过阈值Jc(π)≤d,成本和奖励会引导智能体生成更简洁的动作序列,生成视觉效果更好的草图。
步骤2、基于约束马尔可夫决策过程进行建模并使用强化学习算法求解步骤1得到的优化问题,具体为:采用多元组表示一个具备提起和落下且能够以二次贝塞尔曲线的形状在画布上运动的画笔的智能体,其中:/>为智能体可以观测到的状态空间集合,包括目标图像T、智能体采取动作的次数k、当前画布Ck、智能体的起点坐标/>等信息;/>为智能体可以采取的动作空间集合,即混合动作空间/>因为草图只具备黑白两种颜色,因此智能体只能选择绘制和不绘制两种离散动作/>同时绘制的笔划形状是基于具有三个控制点Ps=(xs,ys),Pc=(xc,yc),Pe=(xe,ye)的贝塞尔曲线的连续动作空间/>为保证绘制笔划的连续性,当前笔划的终点也会作为下一个笔划的起点即
所述的智能体在时刻k采取的动作为其中:/>控制曲线的宽度,p为画笔的状态,取值为0或1;P是模拟环境中状态的概率转移函数,即采取当前动作从一个状态转移到另一个状态的概率,即P(s'|s,a):S×A×S→[0,1];r是模型中智能体的奖励函数,是环境对于智能体采取动作之后获得的反馈,为采取动作的价值高低;c为模型中智能体的成本函数,是环境对于智能体采取动作的约束;d为累积成本的阈值,即智能体采取动作获得的成本序列之和不能超过这个阈值;γ是取值在[0,1]之间的折扣因子,用于控制智能体关注长远收益或者短期收益。
所述的智能体的视觉效果奖励rgan采用生成对抗网络的鉴别器来衡量生成数据与目标数据之间的相似性,将生成对抗网络与模仿强化学习相结合,鉴别器可以利用神经网络拟合难以表述的奖励函数,在草图重建任务中,使用鉴别器测量重建草图与目标草图之间的差异,重建草图与目标草图越相似,判别器的输出值就越大,反之亦然,为鼓励智能体更快地朝着生成目标图像的方向前进,并不直接使用判别器的输出作为智能体的奖励,而是使用判别器来评估两个相邻状态中的草图之间的差异,表示智能体动作的优劣:rgan(T,Ck,ak)=D(T,Ck+1)-D(T,Ck),其中:D为鉴别器。
所述的智能体的对齐奖励rend与智能体每次动作的终点坐标相关,在生成草图的过程中,智能体输出的笔画序列会更接近人类绘制的连续曲线,换句话说,每个笔画的终点将是下一个笔画的起点,笔画的起点信息将作为状态的一部分,对齐奖励的公式为: 其中:E为环境,/>为在画布上渲染点/>计算目标图像T中笔画终点与前景之间的对齐度,重合度越高,对齐奖励值越大;设置和笔画终点相关奖励可以鼓励智能体在训练开始时向草图前景靠近,从而提高智能体的探索效率其次;在训练过程中,当智能体的笔画终点停留在草图背景时,智能体会受到惩罚,这可以减少智能体寻找起点的时间,从这个角度来看,它还能加快智能体草图绘制的速度。
所述的成本函数与智能体上升或者下降的状态相关,以此来限制智能体的落笔次数,使得生成的笔划序列更简洁,智能体在第k步采取动作/>则该动作的成本是其中:K是每回合的最大步数,当智能体状态下降时,会产生成本;当状态上升时,智能体的成本值为零。在理想情况下,为将累计成本控制在一定范围内,智能体将不可避免地减少笔触。成本函数还与智能体的步数有关,智能体越早绘制笔画,成本就越低。
所述的强化学习算法,即使用带有拉格朗日方法的深度确定性策略梯度算法对智能体进行训练,通过引入拉格朗日松弛算法,可以将有约束的优化问题转变为无约束的优化问题:其中:λ是拉格朗日乘子。
步骤3、分别构建如图1所示包括奖励价值网络、成本价值网络和策略网络的主网络和目标网络,其中:策略网络根据智能体当前观测到的状态输出最优动作;奖励价值网络和成本价值网络根据智能体当前的状态动作对分别输出和/>主网络的策略网络和奖励价值网络接受来自记忆回放模块随机采样的训练数据,通过使用带有拉格朗日方法的深度确定性策略梯度算法实现对主网络的参数更新,目标网络的参数在主网络参数的基础上使用软更新的方式防止训练不收敛。
如图3所示,所述的策略网络包括:一个由Resnet18构成的编码器和两个输出头以输出不同的动作信息,其中:第一输出头通过一个线性层实现,用于输出控制智能体绘制笔划形状的连续动作空间,第二输出头通过Neural Max模块实现,用于输出0或者1控制智能体上升或者下降的状态。
所述的奖励价值网络和成本价值网络,其结构上使用Resnet18结构用来提取状态的特征,输出头为一个输出1维度的线性层。
所述的Neural Max模块包括:两层分别输出20维度和1维度的线性层,该模块使用有监督学习进行训练:随机生成[-1,1]范围内的数值作为训练集,以0为阈值将其分为0或者1两类标签作为真值,使用Adam算法进行优化,迭代次数是10000次,每轮训练批次大小为96,学习率设置为1×10-4,使用均方误差损失函数进行训练;训练效果是可以将连续动作空间[-1,1]映射到离散动作空间{0,1},同时神经网络的结构保证这个过程可以进行反向传播,可以进行端到端的训练,注意在训练策略网络时,该模块的参数冻结。
所述的渲染器网络结构顺序为:三层线性层->三层卷积层和PixelShuffle层->三层卷积层和PixelShuffle层->三层卷积层和PixelShuffle层,可以将输入的一维贝塞尔曲线参数映射到二维的笔划形状。
所述的渲染器通过以下方式进行训练:随机生成8个维度的向量作为渲染器的输入,包括贝塞尔曲线的三个控制点坐标、起点和终点的宽度,并基于贝塞尔曲线的公式在1×128×128的画布上绘制笔划的结果作为真值,设置背景是白色,笔划的形状是黑色,使用Adam算法进行优化,迭代次数是200000次,每轮训练批次大小为96,初始学习率设置为1×10-3,采用阶跃衰减调度器的方法提高训练过程中的收敛性,因为对于只有一条笔划的画布,白色的背景点过多,黑色的前景点过少,正负样本比例不够均衡,只使用均方误差损失函数进行训练会导致宽度较细的笔划无法被渲染器很好的拟合在画布上,因此在均方误差损失函数的基础上,增加Focal Loss,对于容易分类的样本,Focal Loss通过调整损失函数的权重,减小这些样本对于整体损失的贡献,使模型更加关注难以分类的样本;对于难以分类的样本,Focal Loss保留它们更大的权重,以便模型更专注于改进对这些样本的分类效果,从而提高渲染器对于细笔划的拟合效果;在训练和推理过程中,渲染器的参数都不会再改变。
所述的记忆回放模块用于存储智能体和环境交互产生的样本数据,这些样本数据包括智能体的动作次数k、动作ak、状态sk、下一时刻的状态sk+1、奖励rk和成本ck,当采集的数据超过记忆回放模块的最大容量时,会将最开始存入的数据删除;当更新策略网络、价值网络时,需要从记忆模块中随机采样出样本用于训练。
步骤4、如图5所示,使用带有拉格朗日方法的深度确定性策略梯度算法训练能生成矢量笔划序列重构目标图像的智能体,具体包括:
4.1)初始化基于固定参数的渲染器搭建的模拟环境,用于和智能体进行交互生成训练样本;冻结策略网络的第二输出头中Neural Max部分的网络参数,使用可微分的方式将连续动作映射到离散动作空间上。
4.2)初始化主网络的策略网络的参数πω、奖励价值网络的参数和成本价值网络的参数/>并复制至目标网络作为对应的初始参数πω',/>设置策略网络和价值网络的初始学习率分别1×10-4和1×10-3,采用阶跃衰减调度器的方式更改学习率,提高训练过程中的稳定性,均采用Adam算法进行优化,设置每回合智能体的最大动作次数K是40,设置该回合结束条件是动作次数超过K或者当智能体连续两次状态时提起;折扣因子γ是0.95,记忆回放的大小设定为40000,即存储的智能体与环境交互的样本最大数量,每轮训练批次大小bs为96,迭代次数为40000,拉格朗日算子λ初始值是1.0。
4.3)智能体观察环境得到此时的状态sk,并根据策略网络πω得到智能体采取的动作ak,基于渲染器的模拟环境会根据智能体这时的状态sk和动作ak返回下一个时刻的状态sk+1,并且获得奖励rk和成本ck并存储至记忆回放模块,这个过程会一直进行迭代,当满足所述的回合结束条件便重新初始化状态开始新一轮的回合。
4.4)智能体在进行训练前会进行暖启动,即智能体在初始网络参数的情况下,运行20回合,为记忆回放模块存储数据;当满足所述的回合结束条件,执行一次智能体网络参数的更新,随机从记忆回放模块中抽取bs数量的样本<s,a,s',r,c>,其中:奖励价值网络的损失函数计算公式:成本价值网络的损失函数计算公式为/>策略网络的训练目标是输出的动作使得使奖励价值函数最大成本价值函数最小,根据这个目标,策略网路的损失函数是:拉格朗日乘子由采样对偶梯度更新:目标网络中的所有网络参数基于主网络中的参数进行加权更新,例如目标网络中的奖励价值网络参数更新公式:/>其中:τ是软更新的超参数,取值为0.01,这个公式的效果是将目标网络的参数朝主网络的参数方向进行一小步的更新,使得目标网络的参数更加平滑地跟随主网络的变化。
4.5)重复上述步骤,直到训练指定次数。
步骤5、如图2所示,在在线阶段,智能体基于训练好的策略网络,根据当前画布状态、目标图像和画笔起点等信息得到最优动作,其中:决定笔划形状的参数经过渲染器映射得到笔划图片,智能体提起或者落下的动作参数决定智能体是否绘制这个笔划,最终得到更新后的画布,同时笔划的终点也会作为下一步智能体动作的起点,迭代这个过程直到满足所述的回合结束条件。
经过具体实际实验,本实施例对MNIST和QuickDraw进行处理得到适配的数据集,其中:MNIST包括70000个从0到9的手写数字,分为60000个训练数据和10000个测试数据。每个样本都是一张28×28的灰度图像,并带有相应的标签,在实验中,为适应网络结构,所有的灰度图像被放大为128X128;QuickDraw包括:345个类别,共5000万幅草图,每幅草图都由一系列笔画组成,笔画序列由包括:时间戳和位置信息的若干短矢量线段组成,实验目标是在没有类别信息的情况下重建草图;草图中的前景都靠近图片中心,这使得智能体对边界上出现线段的草图适应性较差,为解决这个问题,将QuickDraw中的样本随机放大到256×256像素,并分割成四个128×128像素的子图像,以实现数据增广;从QuickDraw中随机选取50000个训练数据、5000个测试数据和5000个验证数据。
智能体旨在以简洁的笔触重建草图,确保与目标图像的相似性。评估包括两个方面:绘制结果和绘制过程。对结果相似性的定量评估,提出基于视觉效果奖励框架的视觉一致性指数(VCI),即使用鉴别器的输入作为评估最终绘制结果P与目标草图T之间的相似性,同时引入纯白色画布Cwhite进行归一化方便对比:VCI=(D(T,P)-D(T,Cwhite))/(D(T,T)-D(T,Cwhite));智能体的绘制过程从三个方面进行量化评估:平均笔画数是智能体在重建草图过程中输出的实际笔画数,包括下降和上升两种状态,平均下降笔画数仅包括:下降状态下绘制的笔画。为评估绘制过程的复杂程度,重建复杂度被定义为草图绘制智能体在画布上的运动与草图中前景长度之间的比值。
MNIST数据集前景构成相比于QuickDraw较为简单,重构MNIST数据集的智能体每回合最大动作数目K取值为10,而重构QuickDraw的智能体K取值为40。MNIST不易衡量前景长度,因此只在VCI和平均下降笔划数两方面进行比较,本发明与现有重构MNIST数据集的方法对比如表1所示:
表1本发明在MNIST数据集上与现有方法对比
VCI(↑) 平均下降笔画数(↓)
Learning-To-Paint 0.893 10
本方法 0.845 5.37
虽然Learning-To-Paint和本方法都能重建MNIST,但本方法以更简洁的笔画为取得视觉上可比较的结果。由于Learning-To-Paint没有设置停笔标志,因此会产生许多多余的笔画。使用本方法后,平均下降笔画数减少46%。通过在三通道画布上使用彩色笔画,Learning-To-Paint利用更多的笔画来重建目标图像,从而在生成结果方面略有改进。
本发明与现有重构QuickDraw的方法对比如表2所示:
表2本发明在QucikDraw数据集上与现有方法对比
VCI(↑) 平均笔画数(↓) 重构复杂度(↓) 推理时间(秒)
Vector-Line-Art 0.756 67.96 3.31 0.83
本方法 0.707 27.91 2.98 0.17
本方法在效率方面优于Vector-Line-Art。与Vector-Line-Art相比,本方法只用41.1%的笔画就成功实现草图重建,而且重建复杂度更低。这一观察结果表明,本方法能够生成更精简的笔划序列;本方法是基于约束马尔科夫决策过程进行建模,因此能在每一步做出最优决策,从而在最小化成本的同时获得最大收益。因此,本方法可以用更简洁的笔画重建目标图像,同时确保视觉效果。
本方法将草图重构任务基于约束马尔科夫决策进行建模并使用带有拉格朗日方法的深度确定性策略梯度算法对智能体进行训练,本方法与现有技术在MNIST和QuickDraw数据集上进行对比,效果如图4所示,其中:第一列为原图,第二列为绘制结果,第三列为绘制过程中的笔划顺序,在重构过程方面的多个指标上取得更优的效果,即重构复杂度,平均笔画数和平均下落笔画数均优于现有方法。说明本方法在重构草图任务中,在保证视觉效果的前提下,能够生成更简洁的连续笔划序列。
上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施所限,在其范围内的各个实现方案均受本发明之约束。

Claims (10)

1.一种基于约束马尔可夫决策的简洁连续笔画重构草图的方法,其特征在于,在训练阶段,将使用矢量笔划序列生成目标草图的任务抽象成带有约束条件的优化问题,基于约束马尔可夫决策过程将带有约束条件的优化问题建模为强化学习模型,确定绘制过程中画笔的起点坐标、目标图像以及当前画布,搭建包含智能体的策略网络、奖励价值网络以及成本价值网络并进行初始化;基于渲染器搭建将一维笔划坐标映射到二维图像模拟环境,智能体通过与该环境的交互生成训练样本,使用带有拉格朗日方法的深度确定性策略梯度算法对强化学习模型进行训练;在在线阶段,基于训练后的策略网络,根据当前的画布状态、目标图像和画笔起点生成最优动作序列并生成目标图像。
2.根据权利要求1所述的基于约束马尔可夫决策的简洁连续笔画重构草图的方法,其特征是,所述的智能体的状态空间包括:当前时刻在环境中能观察到的所有信息集,包括动作次数k、画笔的起点坐标目标图像T、当前画布Ck,即/>其中:画笔的起点为归一化后的二维平面上的坐标/>
所述的智能体的动作空间是一个混合动作空间,由连续动作空间和离散动作空间组成,为其中:连续动作空间/>控制画笔绘制出的笔划位置和形状,使用带有宽度的二次贝塞尔曲线(QBC)来模拟画笔的效果,指定Ps=(xs,ys),Pc=(xc,yc),Pe=(xe,ye)分别作为起点、控制点和终点来定义QBC曲线的公式为:B(τ)=(1-τ)2Ps+2(1-τ)Pc2Pe,τ∈[0,1],当前笔划的终点会作为下一个笔划的起点,即/>保证笔划的连续性,离散动作空间/>控制智能体提起和落下两种状态,综上动作空间可以进一步为/> 其中:/>控制曲线的宽度,p为画笔的状态,取值为0或1,分别对应智能体的提起状态和落下状态,当智能体落下时会在画布上绘制出期望的笔划形状,当智能体提起时只会移动到对应的位置;
所述的智能体的奖励函数由视觉效果奖励rgan和对齐奖励rend两部分组成,当智能体观测到状态并且在第k步采取的动作ak,则奖励的计算公式是rk(sk,ak)=rgan(Ck,ak,T)+λendrend(ak,T),其中:λend是对齐奖励的权重,rgan使用对抗网络中的鉴别器计算当前画布绘制当前笔划前后和目标图像之间的视觉效果相似度的差值,对齐奖励鼓励智能体找到合适的笔划终点,引导智能体朝着收敛的方向进行探索和学习;
所述的智能体的成本函数csta和智能体状态相关,引入与智能体绘制笔划数量相关的约束,减少智能体下降的次数,即ck(sk,ak)=csta(ak,k)。
3.根据权利要求1所述的基于约束马尔可夫决策的简洁连续笔画重构草图的方法,其特征是,所述的强化学习模型根据给定目标图像T、纯白画布C0、笔划起点根据最优策略输出一个为笔划形状和画笔状态的动作a0,该强化学习模型包括:渲染器、主网络和估计网络,其中:渲染器E将动作渲染到画布C0上更新得到新的画布C1,笔划的终点/>也会作为下一个笔划的起点/>主网络和估计网络的策略网络根据给定的状态返回动作信息;主网络和估计网络的价值网络根据当前的状态和动作对估计未来累积的奖励或Q值。
4.根据权利要求3所述的基于约束马尔可夫决策的简洁连续笔画重构草图的方法,其特征是,根据约束马尔可夫决策过程,每次绘制一个笔划,智能体会获得奖励rk(sk,ak)和成本ck(sk,ak),其中:sk,ak分别为智能体在第k次时观察到的状态和采取的行动,在当前策略π下,长期折扣奖励为长期折扣成本为/>其中:K为回合长度,γ是取值在[0,1]范围内的折扣因子。
5.根据权利要求1所述的基于约束马尔可夫决策的简洁连续笔画重构草图的方法,其特征是,所述的带有约束条件的优化问题是指:智能体学习针对策略网络权重θ的最优策略完成草图重建任务,使得累积折扣奖励Jr(π)最大的同时满足成本约束小于阈值Jc(π)≤d,即/> s.t.Jcθ)≤d。
6.根据权利要求1所述的基于约束马尔可夫决策的简洁连续笔画重构草图的方法,其特征是,通过引入拉格朗日松弛算法,将有约束问题转化为无约束问题: 其中:λ是拉格朗日乘子;/>πω分别为主网络中奖励价值网络、成本价值网络和策略网络的参数,/>πω'分别目标网络中的奖励价值网络、成本价值网络和策略网络的参数,主网络中的参数直接通过损失函数进行更新,目标网络中的参数在主网络的参数乘以权重的基础上进行软更新。
7.根据权利要求6所述的基于约束马尔可夫决策的简洁连续笔画重构草图的方法,其特征是,所述的奖励价值网络的损失函数 其中:,y(s',r)和z(s',c)是根据贝尔曼方程计算的估计Q值;
所述的策略网络的确定性策略梯度函数损失: 训练过程中拉格朗日乘子由采样对偶梯度更新:/>
8.根据权利要求1-7中任一所述的基于约束马尔可夫决策的简洁连续笔画重构草图的方法,其特征是,具体包括:
步骤1、将使用矢量笔划序列生成目标草图任务建模成带有约束条件的优化问题,具体为:给定目标图像、一个空白画布和智能体的起点坐标,智能体根据当前的状态确定是否绘制笔划或者绘制笔划的形状,智能体的动作会通过模拟环境更新当前的画布得到新的观测状态,采用不同的动作会产生不同的成本和奖励,智能体重构草图任务的优化目标就是学习一个最优策略来最大化累积折扣奖励Jr(π),即/>满足约束条件累积折扣成本不能够超过阈值Jc(π)≤d,成本和奖励会引导智能体生成更简洁的动作序列,生成视觉效果更好的草图;
步骤2、基于约束马尔可夫决策过程进行建模并使用强化学习算法求解步骤1得到的优化问题,具体为:采用多元组表示一个具备提起和落下且能够以二次贝塞尔曲线的形状在画布上运动的画笔的智能体,其中:/>为智能体观测到的状态空间集合,包括目标图像T、智能体采取动作的次数k、当前画布Ck、智能体的起点坐标/>等信息;/>为智能体采取的动作空间集合,即混合动作空间/>因为草图只具备黑白两种颜色,因此智能体只能选择绘制和不绘制两种离散动作/>同时绘制的笔划形状是基于具有三个控制点Ps=(xs,ys),Pc=(xc,yc),Pe=(xe,ye)的贝塞尔曲线的连续动作空间/>为保证绘制笔划的连续性,当前笔划的终点也会作为下一个笔划的起点即/>
所述的智能体在时刻k采取的动作为其中:/>控制曲线的宽度,p为画笔的状态,取值为0或1;P是模拟环境中状态的概率转移函数,即采取当前动作从一个状态转移到另一个状态的概率,即P(s'|s,a):S×A×S→[0,1];r是模型中智能体的奖励函数,是环境对于智能体采取动作之后获得的反馈,为采取动作的价值高低;c为模型中智能体的成本函数,是环境对于智能体采取动作的约束;d为累积成本的阈值,即智能体采取动作获得的成本序列之和不能超过这个阈值;γ是取值在[0,1]之间的折扣因子,用于控制智能体关注长远收益或者短期收益;
所述的智能体的视觉效果奖励rgan(T,Ck,ak)=D(T,Ck+1)-D(T,Ck),其中:D为鉴别器;
所述的智能体的对齐奖励其中:E为环境,/>为在画布上渲染点/>计算目标图像T中笔画终点与前景之间的对齐度;
所述的成本函数其中:智能体在第k步采取动作/>K是每回合的最大步数;
所述的强化学习算法,即使用带有拉格朗日方法的深度确定性策略梯度算法对智能体进行训练,通过引入拉格朗日松弛算法,将有约束的优化问题转变为无约束的优化问题: 其中:λ是拉格朗日乘子;
步骤3、分别构建包括奖励价值网络、成本价值网络和策略网络的主网络和目标网络,其中:策略网络根据智能体当前观测到的状态输出最优动作;奖励价值网络和成本价值网络根据智能体当前的状态动作对分别输出和/>主网络的策略网络和奖励价值网络接受来自记忆回放模块随机采样的训练数据,通过使用带有拉格朗日方法的深度确定性策略梯度算法实现对主网络的参数更新,目标网络的参数在主网络参数的基础上使用软更新的方式防止训练不收敛;
步骤4、使用带有拉格朗日方法的深度确定性策略梯度算法训练能生成矢量笔划序列重构目标图像的智能体,具体包括:
4.1)初始化基于固定参数的渲染器搭建的模拟环境,用于和智能体进行交互生成训练样本;冻结策略网络的第二输出头中Neural Max部分的网络参数,使用可微分的方式将连续动作映射到离散动作空间上;
4.2)初始化主网络的策略网络的参数πω、奖励价值网络的参数和成本价值网络的参数/>并复制至目标网络作为对应的初始参数πω',/>设置策略网络和价值网络的初始学习率分别1×10-4和1×10-3,采用阶跃衰减调度器的方式更改学习率,提高训练过程中的稳定性,均采用Adam算法进行优化,设置每回合智能体的最大动作次数K是40,设置该回合结束条件是动作次数超过K或者当智能体连续两次状态时提起;折扣因子γ是0.95,记忆回放的大小设定为40000,即存储的智能体与环境交互的样本最大数量,每轮训练批次大小bs为96,迭代次数为40000,拉格朗日算子λ初始值是1.0;
4.3)智能体观察环境得到此时的状态sk,并根据策略网络πω得到智能体采取的动作ak,基于渲染器的模拟环境会根据智能体这时的状态sk和动作ak返回下一个时刻的状态sk+1,并且获得奖励rk和成本ck并存储至记忆回放模块,这个过程会一直进行迭代,当满足所述的回合结束条件便重新初始化状态开始新一轮的回合;
4.4)智能体在进行训练前会进行暖启动,即智能体在初始网络参数的情况下,运行20回合,为记忆回放模块存储数据;当满足所述的回合结束条件,执行一次智能体网络参数的更新,随机从记忆回放模块中抽取bs数量的样本<s,a,s',r,c>,其中:奖励价值网络的损失函数计算公式:成本价值网络的损失函数计算公式为/>策略网络的训练目标是输出的动作使得使奖励价值函数最大成本价值函数最小,根据这个目标,策略网路的损失函数是: 拉格朗日乘子由采样对偶梯度更新: 目标网络中的所有网络参数基于主网络中的参数进行加权更新:/>其中:τ是软更新的超参数;
4.5)重复上述步骤,直到训练指定次数;
步骤5、在在线阶段,智能体基于训练好的策略网络,根据当前画布状态、目标图像和画笔起点等信息得到最优动作,其中:决定笔划形状的参数经过渲染器映射得到笔划图片,智能体提起或者落下的动作参数决定智能体是否绘制这个笔划,最终得到更新后的画布,同时笔划的终点也会作为下一步智能体动作的起点,迭代这个过程直到满足所述的回合结束条件。
9.根据权利要求8所述的基于约束马尔可夫决策的简洁连续笔画重构草图的方法,其特征是,所述的策略网络包括:一个由Resnet18构成的编码器和两个输出头以输出不同的动作信息,其中:第一输出头通过一个线性层实现,用于输出控制智能体绘制笔划形状的连续动作空间,第二输出头通过Neural Max模块实现,用于输出0或者1控制智能体上升或者下降的状态;
所述的奖励价值网络和成本价值网络,其结构上使用Resnet18结构用来提取状态的特征,输出头为一个输出1维度的线性层。
10.根据权利要求8所述的基于约束马尔可夫决策的简洁连续笔画重构草图的方法,其特征是,所述的记忆回放模块用于存储智能体和环境交互产生的样本数据,这些样本数据包括智能体的动作次数k、动作ak、状态sk、下一时刻的状态sk+1、奖励rk和成本ck,当采集的数据超过记忆回放模块的最大容量时,会将最开始存入的数据删除;当更新策略网络、价值网络时,需要从记忆模块中随机采样出样本用于训练。
CN202410040531.7A 2024-01-11 2024-01-11 基于约束马尔可夫决策的简洁连续笔画重构草图的方法 Pending CN117876527A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410040531.7A CN117876527A (zh) 2024-01-11 2024-01-11 基于约束马尔可夫决策的简洁连续笔画重构草图的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410040531.7A CN117876527A (zh) 2024-01-11 2024-01-11 基于约束马尔可夫决策的简洁连续笔画重构草图的方法

Publications (1)

Publication Number Publication Date
CN117876527A true CN117876527A (zh) 2024-04-12

Family

ID=90591326

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410040531.7A Pending CN117876527A (zh) 2024-01-11 2024-01-11 基于约束马尔可夫决策的简洁连续笔画重构草图的方法

Country Status (1)

Country Link
CN (1) CN117876527A (zh)

Similar Documents

Publication Publication Date Title
CN113469356B (zh) 一种基于迁移学习的改进vgg16网络猪的身份识别方法
CN109948029B (zh) 基于神经网络自适应的深度哈希图像搜索方法
CN108921298B (zh) 强化学习多智能体沟通与决策方法
CN109829541A (zh) 基于学习自动机的深度神经网络增量式训练方法及系统
CN110555523A (zh) 一种基于脉冲神经网络的短程跟踪方法及系统
CN106920243A (zh) 改进的全卷积神经网络的陶瓷材质件序列图像分割方法
CN111275171B (zh) 一种基于参数共享的多尺度超分重建的小目标检测方法
CN111260026B (zh) 一种基于元强化学习的导航迁移方法
CN112465120A (zh) 一种基于进化方法的快速注意力神经网络架构搜索方法
CN111352419B (zh) 基于时序差分更新经验回放缓存的路径规划方法及系统
CN109215344B (zh) 用于城市道路短时交通流量预测的方法和系统
CN112489164B (zh) 基于改进深度可分离卷积神经网络的图像着色方法
CN111461325A (zh) 一种用于稀疏奖励环境问题的多目标分层强化学习算法
CN111931813A (zh) 一种基于cnn的宽度学习分类方法
CN114819091B (zh) 基于自适应任务权重的多任务网络模型训练方法及系统
CN116643499A (zh) 一种基于模型强化学习的智能体路径规划方法及系统
CN114626598A (zh) 一种基于语义环境建模的多模态轨迹预测方法
CN115640901A (zh) 一种基于混合神经网络和生成对抗的小样本负荷预测方法
CN115035341A (zh) 一种自动选择学生模型结构的图像识别知识蒸馏方法
CN113553918B (zh) 一种基于脉冲主动学习的机打发票字符识别方法
CN116128013B (zh) 基于多样性种群训练的临机协同方法、装置和计算机设备
CN117876527A (zh) 基于约束马尔可夫决策的简洁连续笔画重构草图的方法
CN111353525A (zh) 一种不均衡不完整数据集的建模及缺失值填补方法
CN116523877A (zh) 一种基于卷积神经网络的脑mri图像肿瘤块分割方法
CN115906831A (zh) 基于距离感知的Transformer视觉语言导航算法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination