CN117876527A

CN117876527A - 基于约束马尔可夫决策的简洁连续笔画重构草图的方法

Info

Publication number: CN117876527A
Application number: CN202410040531.7A
Authority: CN
Inventors: 方涛; 刘高峰; 杜劭冲; 霍宏
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2024-01-11
Filing date: 2024-01-11
Publication date: 2024-04-12

Abstract

一种基于约束马尔可夫决策的简洁连续笔画重构草图的方法，将使用矢量笔划序列生成目标草图的任务抽象成带有约束条件的优化问题，采用基于约束马尔可夫决策过程对带有约束条件的优化问题进行建模，确定绘制过程中画笔的起点坐标、目标图像以及当前画布，搭建包含智能体的策略网络、奖励价值网络以及成本价值网络并进行初始化，从而构建基于约束马尔科夫决策过程的强化学习模型；基于渲染器搭建将一维笔划坐标映射到二维图像模拟环境，智能体通过与该环境的交互生成训练样本，使用带有拉格朗日方法的深度确定性策略梯度算法对模型进行训练，再基于训练后的策略网络，根据当前的画布状态、目标图像和画笔起点生成最优动作序列并生成目标图像。本发明能够生成像人类一样的简约的连续矢量笔划序列并通过渲染器显示在画布上再现目标草图。

Description

基于约束马尔可夫决策的简洁连续笔画重构草图的方法

技术领域

本发明涉及的是一种图像生成领域的技术，具体是一种基于约束马尔科夫决策过程的简洁连续笔划重构草图的方法。

背景技术

草图重构是指通过神经网络为给定的草图生成一系列有物理意义的矢量笔画，并通过渲染器在画布上再现这些笔画。传统方法通过设计启发式优化算法或者贪婪算法以最小化生成图像和目标图像之间的差异，但是在视觉效果上较差。基于神经网络的方法过多关注生成结果，导致绘制过程中产生冗余的笔划数量和偏离人类习惯的笔划序列。

发明内容

本发明针对现有的草图重构技术没有考虑在生成草图过程中平衡笔划序列和视觉效果，提出一种基于约束马尔可夫决策的简洁连续笔画重构草图的方法，能够生成像人类一样的简约的连续矢量笔划序列并通过渲染器显示在画布上再现目标草图，有效的完成草图重构任务；同时基于约束马尔科夫决策过程建模，使得智能体不仅在绘制过程中使用更简约的连续笔划序列，而且在绘制结果上取得有竞争力的视觉效果。

本发明是通过以下技术方案实现的：

本发明涉及一种基于约束马尔可夫决策的简洁连续笔画重构草图的方法，在训练阶段，将使用矢量笔划序列生成目标草图的任务抽象成带有约束条件的优化问题，基于约束马尔可夫决策过程将带有约束条件的优化问题建模为强化学习模型，确定绘制过程中画笔的起点坐标、目标图像以及当前画布，搭建包含智能体的策略网络、奖励价值网络以及成本价值网络并进行初始化；基于渲染器搭建将一维笔划坐标映射到二维图像模拟环境，智能体通过与该环境的交互生成训练样本，使用带有拉格朗日方法的深度确定性策略梯度算法对强化学习模型进行训练；在在线阶段，基于训练后的策略网络，根据当前的画布状态、目标图像和画笔起点生成最优动作序列并生成目标图像。

所述的智能体的状态空间包括：当前时刻在环境中能观察到的所有信息集，包括动作次数k、画笔的起点坐标目标图像T、当前画布C_k，即/>其中：画笔的起点为归一化后的二维平面上的坐标/>

所述的智能体的动作空间是一个混合动作空间，由连续动作空间和离散动作空间组成，为其中：连续动作空间/>控制画笔绘制出的笔划位置和形状，使用带有宽度的二次贝塞尔曲线(QBC)来模拟画笔的效果，指定P_s＝(x_s,y_s),P_c＝(x_c,y_c),P_e＝(x_e,y_e)分别作为起点、控制点和终点来定义QBC曲线的公式为：B(τ)＝(1-τ)²P_s+2(1-τ)P_c+τ²P_e,τ∈[0,1]，当前笔划的终点会作为下一个笔划的起点，即/>保证笔划的连续性。离散动作空间/>控制智能体提起和落下两种状态，综上动作空间可以进一步为/> 其中：/>控制曲线的宽度，p为画笔的状态，取值为0或1，分别对应智能体的提起状态和落下状态，当智能体落下时会在画布上绘制出期望的笔划形状，当智能体提起时只会移动到对应的位置。

所述的智能体的奖励函数由视觉效果奖励r_gan和对齐奖励r_end两部分组成，当智能体观测到状态并且在第k步采取的动作a_k，则奖励的计算公式是r_k(s_k,a_k)＝r_gan(C_k,a_k,T)+λ_endr_end(a_k,T)，其中：λ_end是对齐奖励的权重，r_gan使用对抗网络中的鉴别器计算当前画布绘制当前笔划前后和目标图像之间的视觉效果相似度的差值，对齐奖励鼓励智能体找到合适的笔划终点，引导智能体朝着收敛的方向进行探索和学习。

所述的智能体的成本函数c_sta和智能体状态相关，引入与智能体绘制笔划数量相关的约束，减少智能体下降的次数，即c_k(s_k,a_k)＝c_sta(a_k,k)。

所述的强化学习模型根据给定目标图像T、纯白画布C₀、笔划起点根据最优策略输出一个为笔划形状和画笔状态的动作a₀，该强化学习模型包括：渲染器、主网络和估计网络，其中：渲染器E将动作渲染到画布C₀上更新得到新的画布C₁，笔划的终点/>也会作为下一个笔划的起点/>主网络和估计网络的策略网络根据给定的状态返回动作信息；主网络和估计网络的价值网络根据当前的状态和动作对估计未来累积的奖励或Q值。

根据约束马尔可夫决策过程，每次绘制一个笔划，智能体会获得奖励r_k(s_k,a_k)和成本c_k(s_k,a_k)，其中：s_k,a_k分别为智能体在第k次时观察到的状态和采取的行动，在当前策略π下，长期折扣奖励为长期折扣成本为/>其中：K为回合长度，γ是取值在[0,1]范围内的折扣因子。

所述的带有约束条件的优化问题是指：智能体学习针对策略网络权重θ的最优策略完成草图重建任务，使得累积折扣奖励J_r(π)最大的同时满足成本约束小于阈值J_c(π)≤d，即/> s.t.J_c(π_θ)≤d。

所述的带有拉格朗日方法的深度确定性策略梯度算法对强化学习模型进行训练是指：通过引入拉格朗日松弛算法，将有约束问题转化为无约束问题：其中：λ是拉格朗日乘子；/>π_ω分别为主网络中奖励价值网络、成本价值网络和策略网络的参数，/>π_ω'分别目标网络中的奖励价值网络、成本价值网络和策略网络的参数，主网络中的参数直接通过损失函数进行更新，目标网络中的参数在主网络的参数乘以权重的基础上进行软更新。

所述的奖励价值网络的损失函数其中：，y(s',r)和z(s',c)是根据贝尔曼方程计算的估计Q值。

所述的主网络和目标网络是指两套初始参数和模型结构完全相同的网络，通过将目标网络中的参数暂时固定，只更新主网络中的参数，提高训练的稳定性。

所述的软更新是基于主网络的参数，缓慢地更新目标网络的参数。

所述的策略网络的确定性策略梯度函数损失：

所述的拉格朗日乘子是引入的一个变量，可以将约束条件融入到目标函数中，形成一个无约束的优化问题，训练过程中拉格朗日乘子由采样对偶梯度更新：

技术效果

本发明可以通过生成像人类一样的简约的连续矢量笔划序列并基于渲染器将笔划序列显示在画布上再现目标草图，有效的完成草图重构任务；同时基于约束马尔科夫决策过程建模，使得智能体不仅在绘制过程中使用数量更少的连续笔划序列，而且在绘制结果上取得有竞争力的视觉效果。

附图说明

图1为本发明系统示意图；

图2为本发明在线阶段流程图；

图3为实施例策略网络和价值网络结构图；

图4为本发明效果示意图；

图5为本发明训练流程图。

具体实施方式

本实施例涉及一种基于约束马尔可夫决策过程以类人的简洁连续笔画重构草图的方法，包括以下步骤：

步骤1、将使用矢量笔划序列生成目标草图任务建模成带有约束条件的优化问题，具体为：给定目标图像、一个空白画布和智能体的起点坐标，智能体根据当前的状态确定是否绘制笔划或者绘制笔划的形状，智能体的动作会通过模拟环境更新当前的画布得到新的观测状态，采用不同的动作会产生不同的成本和奖励，智能体重构草图任务的优化目标就是学习一个最优策略来最大化累积折扣奖励J_r(π)，即/>满足约束条件累积折扣成本不能够超过阈值J_c(π)≤d，成本和奖励会引导智能体生成更简洁的动作序列，生成视觉效果更好的草图。

步骤2、基于约束马尔可夫决策过程进行建模并使用强化学习算法求解步骤1得到的优化问题，具体为：采用多元组表示一个具备提起和落下且能够以二次贝塞尔曲线的形状在画布上运动的画笔的智能体，其中：/>为智能体可以观测到的状态空间集合，包括目标图像T、智能体采取动作的次数k、当前画布C_k、智能体的起点坐标/>等信息；/>为智能体可以采取的动作空间集合，即混合动作空间/>因为草图只具备黑白两种颜色，因此智能体只能选择绘制和不绘制两种离散动作/>同时绘制的笔划形状是基于具有三个控制点P_s＝(x_s,y_s),P_c＝(x_c,y_c),P_e＝(x_e,y_e)的贝塞尔曲线的连续动作空间/>为保证绘制笔划的连续性，当前笔划的终点也会作为下一个笔划的起点即

所述的智能体在时刻k采取的动作为其中：/>控制曲线的宽度，p为画笔的状态，取值为0或1；P是模拟环境中状态的概率转移函数，即采取当前动作从一个状态转移到另一个状态的概率，即P(s'|s,a):S×A×S→[0,1]；r是模型中智能体的奖励函数，是环境对于智能体采取动作之后获得的反馈，为采取动作的价值高低；c为模型中智能体的成本函数，是环境对于智能体采取动作的约束；d为累积成本的阈值，即智能体采取动作获得的成本序列之和不能超过这个阈值；γ是取值在[0,1]之间的折扣因子，用于控制智能体关注长远收益或者短期收益。

所述的智能体的视觉效果奖励r_gan采用生成对抗网络的鉴别器来衡量生成数据与目标数据之间的相似性，将生成对抗网络与模仿强化学习相结合，鉴别器可以利用神经网络拟合难以表述的奖励函数，在草图重建任务中，使用鉴别器测量重建草图与目标草图之间的差异，重建草图与目标草图越相似，判别器的输出值就越大，反之亦然，为鼓励智能体更快地朝着生成目标图像的方向前进，并不直接使用判别器的输出作为智能体的奖励，而是使用判别器来评估两个相邻状态中的草图之间的差异，表示智能体动作的优劣：r_gan(T,C_k,a_k)＝D(T,C_k+1)-D(T,C_k)，其中：D为鉴别器。

所述的智能体的对齐奖励r_end与智能体每次动作的终点坐标相关，在生成草图的过程中，智能体输出的笔画序列会更接近人类绘制的连续曲线，换句话说，每个笔画的终点将是下一个笔画的起点，笔画的起点信息将作为状态的一部分，对齐奖励的公式为：其中：E为环境，/>为在画布上渲染点/>计算目标图像T中笔画终点与前景之间的对齐度，重合度越高，对齐奖励值越大；设置和笔画终点相关奖励可以鼓励智能体在训练开始时向草图前景靠近，从而提高智能体的探索效率其次；在训练过程中，当智能体的笔画终点停留在草图背景时，智能体会受到惩罚，这可以减少智能体寻找起点的时间，从这个角度来看，它还能加快智能体草图绘制的速度。

所述的成本函数与智能体上升或者下降的状态相关，以此来限制智能体的落笔次数，使得生成的笔划序列更简洁，智能体在第k步采取动作/>则该动作的成本是其中：K是每回合的最大步数，当智能体状态下降时，会产生成本；当状态上升时，智能体的成本值为零。在理想情况下，为将累计成本控制在一定范围内，智能体将不可避免地减少笔触。成本函数还与智能体的步数有关，智能体越早绘制笔画，成本就越低。

所述的强化学习算法，即使用带有拉格朗日方法的深度确定性策略梯度算法对智能体进行训练，通过引入拉格朗日松弛算法，可以将有约束的优化问题转变为无约束的优化问题：其中：λ是拉格朗日乘子。

步骤3、分别构建如图1所示包括奖励价值网络、成本价值网络和策略网络的主网络和目标网络，其中：策略网络根据智能体当前观测到的状态输出最优动作；奖励价值网络和成本价值网络根据智能体当前的状态动作对分别输出和/>主网络的策略网络和奖励价值网络接受来自记忆回放模块随机采样的训练数据，通过使用带有拉格朗日方法的深度确定性策略梯度算法实现对主网络的参数更新，目标网络的参数在主网络参数的基础上使用软更新的方式防止训练不收敛。

如图3所示，所述的策略网络包括：一个由Resnet18构成的编码器和两个输出头以输出不同的动作信息，其中：第一输出头通过一个线性层实现，用于输出控制智能体绘制笔划形状的连续动作空间，第二输出头通过Neural Max模块实现，用于输出0或者1控制智能体上升或者下降的状态。

所述的奖励价值网络和成本价值网络，其结构上使用Resnet18结构用来提取状态的特征，输出头为一个输出1维度的线性层。

所述的Neural Max模块包括：两层分别输出20维度和1维度的线性层，该模块使用有监督学习进行训练：随机生成[-1,1]范围内的数值作为训练集，以0为阈值将其分为0或者1两类标签作为真值，使用Adam算法进行优化，迭代次数是10000次，每轮训练批次大小为96，学习率设置为1×10^-4，使用均方误差损失函数进行训练；训练效果是可以将连续动作空间[-1,1]映射到离散动作空间{0,1}，同时神经网络的结构保证这个过程可以进行反向传播，可以进行端到端的训练，注意在训练策略网络时，该模块的参数冻结。

所述的渲染器网络结构顺序为：三层线性层->三层卷积层和PixelShuffle层->三层卷积层和PixelShuffle层->三层卷积层和PixelShuffle层，可以将输入的一维贝塞尔曲线参数映射到二维的笔划形状。

所述的渲染器通过以下方式进行训练：随机生成8个维度的向量作为渲染器的输入，包括贝塞尔曲线的三个控制点坐标、起点和终点的宽度，并基于贝塞尔曲线的公式在1×128×128的画布上绘制笔划的结果作为真值，设置背景是白色，笔划的形状是黑色，使用Adam算法进行优化，迭代次数是200000次，每轮训练批次大小为96，初始学习率设置为1×10^-3，采用阶跃衰减调度器的方法提高训练过程中的收敛性，因为对于只有一条笔划的画布，白色的背景点过多，黑色的前景点过少，正负样本比例不够均衡，只使用均方误差损失函数进行训练会导致宽度较细的笔划无法被渲染器很好的拟合在画布上，因此在均方误差损失函数的基础上，增加Focal Loss，对于容易分类的样本，Focal Loss通过调整损失函数的权重，减小这些样本对于整体损失的贡献，使模型更加关注难以分类的样本；对于难以分类的样本，Focal Loss保留它们更大的权重，以便模型更专注于改进对这些样本的分类效果，从而提高渲染器对于细笔划的拟合效果；在训练和推理过程中，渲染器的参数都不会再改变。

所述的记忆回放模块用于存储智能体和环境交互产生的样本数据，这些样本数据包括智能体的动作次数k、动作a_k、状态s_k、下一时刻的状态s_k+1、奖励r_k和成本c_k，当采集的数据超过记忆回放模块的最大容量时，会将最开始存入的数据删除；当更新策略网络、价值网络时，需要从记忆模块中随机采样出样本用于训练。

步骤4、如图5所示，使用带有拉格朗日方法的深度确定性策略梯度算法训练能生成矢量笔划序列重构目标图像的智能体，具体包括：

4.1)初始化基于固定参数的渲染器搭建的模拟环境，用于和智能体进行交互生成训练样本；冻结策略网络的第二输出头中Neural Max部分的网络参数，使用可微分的方式将连续动作映射到离散动作空间上。

4.2)初始化主网络的策略网络的参数π_ω、奖励价值网络的参数和成本价值网络的参数/>并复制至目标网络作为对应的初始参数π_ω'，/>设置策略网络和价值网络的初始学习率分别1×10^-4和1×10^-3，采用阶跃衰减调度器的方式更改学习率，提高训练过程中的稳定性，均采用Adam算法进行优化，设置每回合智能体的最大动作次数K是40，设置该回合结束条件是动作次数超过K或者当智能体连续两次状态时提起；折扣因子γ是0.95，记忆回放的大小设定为40000，即存储的智能体与环境交互的样本最大数量，每轮训练批次大小bs为96，迭代次数为40000，拉格朗日算子λ初始值是1.0。

4.3)智能体观察环境得到此时的状态s_k，并根据策略网络π_ω得到智能体采取的动作a_k，基于渲染器的模拟环境会根据智能体这时的状态s_k和动作a_k返回下一个时刻的状态s_k+1，并且获得奖励r_k和成本c_k并存储至记忆回放模块，这个过程会一直进行迭代，当满足所述的回合结束条件便重新初始化状态开始新一轮的回合。

4.4)智能体在进行训练前会进行暖启动，即智能体在初始网络参数的情况下，运行20回合，为记忆回放模块存储数据；当满足所述的回合结束条件，执行一次智能体网络参数的更新，随机从记忆回放模块中抽取bs数量的样本<s，a，s'，r，c>，其中：奖励价值网络的损失函数计算公式：成本价值网络的损失函数计算公式为/>策略网络的训练目标是输出的动作使得使奖励价值函数最大成本价值函数最小，根据这个目标，策略网路的损失函数是：拉格朗日乘子由采样对偶梯度更新：目标网络中的所有网络参数基于主网络中的参数进行加权更新，例如目标网络中的奖励价值网络参数更新公式：/>其中：τ是软更新的超参数，取值为0.01，这个公式的效果是将目标网络的参数朝主网络的参数方向进行一小步的更新，使得目标网络的参数更加平滑地跟随主网络的变化。

4.5)重复上述步骤，直到训练指定次数。

步骤5、如图2所示，在在线阶段，智能体基于训练好的策略网络，根据当前画布状态、目标图像和画笔起点等信息得到最优动作，其中：决定笔划形状的参数经过渲染器映射得到笔划图片，智能体提起或者落下的动作参数决定智能体是否绘制这个笔划，最终得到更新后的画布，同时笔划的终点也会作为下一步智能体动作的起点，迭代这个过程直到满足所述的回合结束条件。

经过具体实际实验，本实施例对MNIST和QuickDraw进行处理得到适配的数据集，其中：MNIST包括70000个从0到9的手写数字，分为60000个训练数据和10000个测试数据。每个样本都是一张28×28的灰度图像，并带有相应的标签，在实验中，为适应网络结构，所有的灰度图像被放大为128X128；QuickDraw包括：345个类别，共5000万幅草图，每幅草图都由一系列笔画组成，笔画序列由包括：时间戳和位置信息的若干短矢量线段组成，实验目标是在没有类别信息的情况下重建草图；草图中的前景都靠近图片中心，这使得智能体对边界上出现线段的草图适应性较差，为解决这个问题，将QuickDraw中的样本随机放大到256×256像素，并分割成四个128×128像素的子图像，以实现数据增广；从QuickDraw中随机选取50000个训练数据、5000个测试数据和5000个验证数据。

智能体旨在以简洁的笔触重建草图，确保与目标图像的相似性。评估包括两个方面：绘制结果和绘制过程。对结果相似性的定量评估，提出基于视觉效果奖励框架的视觉一致性指数(VCI)，即使用鉴别器的输入作为评估最终绘制结果P与目标草图T之间的相似性，同时引入纯白色画布C_white进行归一化方便对比：VCI＝(D(T,P)-D(T,C_white))/(D(T,T)-D(T,C_white))；智能体的绘制过程从三个方面进行量化评估：平均笔画数是智能体在重建草图过程中输出的实际笔画数，包括下降和上升两种状态，平均下降笔画数仅包括：下降状态下绘制的笔画。为评估绘制过程的复杂程度，重建复杂度被定义为草图绘制智能体在画布上的运动与草图中前景长度之间的比值。

MNIST数据集前景构成相比于QuickDraw较为简单，重构MNIST数据集的智能体每回合最大动作数目K取值为10，而重构QuickDraw的智能体K取值为40。MNIST不易衡量前景长度，因此只在VCI和平均下降笔划数两方面进行比较，本发明与现有重构MNIST数据集的方法对比如表1所示：

表1本发明在MNIST数据集上与现有方法对比

	VCI(↑)	平均下降笔画数(↓)
			Learning-To-Paint	0.893	10
本方法	0.845	5.37

虽然Learning-To-Paint和本方法都能重建MNIST，但本方法以更简洁的笔画为取得视觉上可比较的结果。由于Learning-To-Paint没有设置停笔标志，因此会产生许多多余的笔画。使用本方法后，平均下降笔画数减少46％。通过在三通道画布上使用彩色笔画，Learning-To-Paint利用更多的笔画来重建目标图像，从而在生成结果方面略有改进。

本发明与现有重构QuickDraw的方法对比如表2所示：

表2本发明在QucikDraw数据集上与现有方法对比

	VCI(↑)	平均笔画数(↓)	重构复杂度(↓)	推理时间(秒)
					Vector-Line-Art	0.756	67.96	3.31	0.83
本方法	0.707	27.91	2.98	0.17

本方法在效率方面优于Vector-Line-Art。与Vector-Line-Art相比，本方法只用41.1％的笔画就成功实现草图重建，而且重建复杂度更低。这一观察结果表明，本方法能够生成更精简的笔划序列；本方法是基于约束马尔科夫决策过程进行建模，因此能在每一步做出最优决策，从而在最小化成本的同时获得最大收益。因此，本方法可以用更简洁的笔画重建目标图像，同时确保视觉效果。

本方法将草图重构任务基于约束马尔科夫决策进行建模并使用带有拉格朗日方法的深度确定性策略梯度算法对智能体进行训练，本方法与现有技术在MNIST和QuickDraw数据集上进行对比，效果如图4所示，其中：第一列为原图，第二列为绘制结果，第三列为绘制过程中的笔划顺序，在重构过程方面的多个指标上取得更优的效果，即重构复杂度，平均笔画数和平均下落笔画数均优于现有方法。说明本方法在重构草图任务中，在保证视觉效果的前提下，能够生成更简洁的连续笔划序列。

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由上述具体实施所限，在其范围内的各个实现方案均受本发明之约束。

Claims

1.一种基于约束马尔可夫决策的简洁连续笔画重构草图的方法，其特征在于，在训练阶段，将使用矢量笔划序列生成目标草图的任务抽象成带有约束条件的优化问题，基于约束马尔可夫决策过程将带有约束条件的优化问题建模为强化学习模型，确定绘制过程中画笔的起点坐标、目标图像以及当前画布，搭建包含智能体的策略网络、奖励价值网络以及成本价值网络并进行初始化；基于渲染器搭建将一维笔划坐标映射到二维图像模拟环境，智能体通过与该环境的交互生成训练样本，使用带有拉格朗日方法的深度确定性策略梯度算法对强化学习模型进行训练；在在线阶段，基于训练后的策略网络，根据当前的画布状态、目标图像和画笔起点生成最优动作序列并生成目标图像。

2.根据权利要求1所述的基于约束马尔可夫决策的简洁连续笔画重构草图的方法，其特征是，所述的智能体的状态空间包括：当前时刻在环境中能观察到的所有信息集，包括动作次数k、画笔的起点坐标目标图像T、当前画布C_k，即/>其中：画笔的起点为归一化后的二维平面上的坐标/>

所述的智能体的动作空间是一个混合动作空间，由连续动作空间和离散动作空间组成，为其中：连续动作空间/>控制画笔绘制出的笔划位置和形状，使用带有宽度的二次贝塞尔曲线(QBC)来模拟画笔的效果，指定P_s＝(x_s,y_s),P_c＝(x_c,y_c),P_e＝(x_e,y_e)分别作为起点、控制点和终点来定义QBC曲线的公式为：B(τ)＝(1-τ)²P_s+2(1-τ)P_c+τ²P_e,τ∈[0,1]，当前笔划的终点会作为下一个笔划的起点，即/>保证笔划的连续性，离散动作空间/>控制智能体提起和落下两种状态，综上动作空间可以进一步为/> 其中：/>控制曲线的宽度，p为画笔的状态，取值为0或1，分别对应智能体的提起状态和落下状态，当智能体落下时会在画布上绘制出期望的笔划形状，当智能体提起时只会移动到对应的位置；

所述的智能体的奖励函数由视觉效果奖励r_gan和对齐奖励r_end两部分组成，当智能体观测到状态并且在第k步采取的动作a_k，则奖励的计算公式是r_k(s_k,a_k)＝r_gan(C_k,a_k,T)+λ_endr_end(a_k,T)，其中：λ_end是对齐奖励的权重，r_gan使用对抗网络中的鉴别器计算当前画布绘制当前笔划前后和目标图像之间的视觉效果相似度的差值，对齐奖励鼓励智能体找到合适的笔划终点，引导智能体朝着收敛的方向进行探索和学习；

3.根据权利要求1所述的基于约束马尔可夫决策的简洁连续笔画重构草图的方法，其特征是，所述的强化学习模型根据给定目标图像T、纯白画布C₀、笔划起点根据最优策略输出一个为笔划形状和画笔状态的动作a₀，该强化学习模型包括：渲染器、主网络和估计网络，其中：渲染器E将动作渲染到画布C₀上更新得到新的画布C₁，笔划的终点/>也会作为下一个笔划的起点/>主网络和估计网络的策略网络根据给定的状态返回动作信息；主网络和估计网络的价值网络根据当前的状态和动作对估计未来累积的奖励或Q值。

4.根据权利要求3所述的基于约束马尔可夫决策的简洁连续笔画重构草图的方法，其特征是，根据约束马尔可夫决策过程，每次绘制一个笔划，智能体会获得奖励r_k(s_k,a_k)和成本c_k(s_k,a_k)，其中：s_k,a_k分别为智能体在第k次时观察到的状态和采取的行动，在当前策略π下，长期折扣奖励为长期折扣成本为/>其中：K为回合长度，γ是取值在[0,1]范围内的折扣因子。

5.根据权利要求1所述的基于约束马尔可夫决策的简洁连续笔画重构草图的方法，其特征是，所述的带有约束条件的优化问题是指：智能体学习针对策略网络权重θ的最优策略完成草图重建任务，使得累积折扣奖励J_r(π)最大的同时满足成本约束小于阈值J_c(π)≤d，即/> s.t.J_c(π_θ)≤d。

6.根据权利要求1所述的基于约束马尔可夫决策的简洁连续笔画重构草图的方法，其特征是，通过引入拉格朗日松弛算法，将有约束问题转化为无约束问题：其中：λ是拉格朗日乘子；/>π_ω分别为主网络中奖励价值网络、成本价值网络和策略网络的参数，/>π_ω'分别目标网络中的奖励价值网络、成本价值网络和策略网络的参数，主网络中的参数直接通过损失函数进行更新，目标网络中的参数在主网络的参数乘以权重的基础上进行软更新。

7.根据权利要求6所述的基于约束马尔可夫决策的简洁连续笔画重构草图的方法，其特征是，所述的奖励价值网络的损失函数其中：，y(s',r)和z(s',c)是根据贝尔曼方程计算的估计Q值；

所述的策略网络的确定性策略梯度函数损失：训练过程中拉格朗日乘子由采样对偶梯度更新：/>

8.根据权利要求1-7中任一所述的基于约束马尔可夫决策的简洁连续笔画重构草图的方法，其特征是，具体包括：

步骤1、将使用矢量笔划序列生成目标草图任务建模成带有约束条件的优化问题，具体为：给定目标图像、一个空白画布和智能体的起点坐标，智能体根据当前的状态确定是否绘制笔划或者绘制笔划的形状，智能体的动作会通过模拟环境更新当前的画布得到新的观测状态，采用不同的动作会产生不同的成本和奖励，智能体重构草图任务的优化目标就是学习一个最优策略来最大化累积折扣奖励J_r(π)，即/>满足约束条件累积折扣成本不能够超过阈值J_c(π)≤d，成本和奖励会引导智能体生成更简洁的动作序列，生成视觉效果更好的草图；

步骤2、基于约束马尔可夫决策过程进行建模并使用强化学习算法求解步骤1得到的优化问题，具体为：采用多元组表示一个具备提起和落下且能够以二次贝塞尔曲线的形状在画布上运动的画笔的智能体，其中：/>为智能体观测到的状态空间集合，包括目标图像T、智能体采取动作的次数k、当前画布C_k、智能体的起点坐标/>等信息；/>为智能体采取的动作空间集合，即混合动作空间/>因为草图只具备黑白两种颜色，因此智能体只能选择绘制和不绘制两种离散动作/>同时绘制的笔划形状是基于具有三个控制点P_s＝(x_s,y_s),P_c＝(x_c,y_c),P_e＝(x_e,y_e)的贝塞尔曲线的连续动作空间/>为保证绘制笔划的连续性，当前笔划的终点也会作为下一个笔划的起点即/>

所述的智能体在时刻k采取的动作为其中：/>控制曲线的宽度，p为画笔的状态，取值为0或1；P是模拟环境中状态的概率转移函数，即采取当前动作从一个状态转移到另一个状态的概率，即P(s'|s,a):S×A×S→[0,1]；r是模型中智能体的奖励函数，是环境对于智能体采取动作之后获得的反馈，为采取动作的价值高低；c为模型中智能体的成本函数，是环境对于智能体采取动作的约束；d为累积成本的阈值，即智能体采取动作获得的成本序列之和不能超过这个阈值；γ是取值在[0,1]之间的折扣因子，用于控制智能体关注长远收益或者短期收益；

所述的智能体的视觉效果奖励r_gan(T,C_k,a_k)＝D(T,C_k+1)-D(T,C_k)，其中：D为鉴别器；

所述的智能体的对齐奖励其中：E为环境，/>为在画布上渲染点/>计算目标图像T中笔画终点与前景之间的对齐度；

所述的成本函数其中：智能体在第k步采取动作/>K是每回合的最大步数；

所述的强化学习算法，即使用带有拉格朗日方法的深度确定性策略梯度算法对智能体进行训练，通过引入拉格朗日松弛算法，将有约束的优化问题转变为无约束的优化问题：其中：λ是拉格朗日乘子；

步骤3、分别构建包括奖励价值网络、成本价值网络和策略网络的主网络和目标网络，其中：策略网络根据智能体当前观测到的状态输出最优动作；奖励价值网络和成本价值网络根据智能体当前的状态动作对分别输出和/>主网络的策略网络和奖励价值网络接受来自记忆回放模块随机采样的训练数据，通过使用带有拉格朗日方法的深度确定性策略梯度算法实现对主网络的参数更新，目标网络的参数在主网络参数的基础上使用软更新的方式防止训练不收敛；

步骤4、使用带有拉格朗日方法的深度确定性策略梯度算法训练能生成矢量笔划序列重构目标图像的智能体，具体包括：

4.1)初始化基于固定参数的渲染器搭建的模拟环境，用于和智能体进行交互生成训练样本；冻结策略网络的第二输出头中Neural Max部分的网络参数，使用可微分的方式将连续动作映射到离散动作空间上；

4.2)初始化主网络的策略网络的参数π_ω、奖励价值网络的参数和成本价值网络的参数/>并复制至目标网络作为对应的初始参数π_ω'，/>设置策略网络和价值网络的初始学习率分别1×10^-4和1×10^-3，采用阶跃衰减调度器的方式更改学习率，提高训练过程中的稳定性，均采用Adam算法进行优化，设置每回合智能体的最大动作次数K是40，设置该回合结束条件是动作次数超过K或者当智能体连续两次状态时提起；折扣因子γ是0.95，记忆回放的大小设定为40000，即存储的智能体与环境交互的样本最大数量，每轮训练批次大小bs为96，迭代次数为40000，拉格朗日算子λ初始值是1.0；

4.3)智能体观察环境得到此时的状态s_k，并根据策略网络π_ω得到智能体采取的动作a_k，基于渲染器的模拟环境会根据智能体这时的状态s_k和动作a_k返回下一个时刻的状态s_k+1，并且获得奖励r_k和成本c_k并存储至记忆回放模块，这个过程会一直进行迭代，当满足所述的回合结束条件便重新初始化状态开始新一轮的回合；

4.4)智能体在进行训练前会进行暖启动，即智能体在初始网络参数的情况下，运行20回合，为记忆回放模块存储数据；当满足所述的回合结束条件，执行一次智能体网络参数的更新，随机从记忆回放模块中抽取bs数量的样本<s，a，s'，r，c>，其中：奖励价值网络的损失函数计算公式：成本价值网络的损失函数计算公式为/>策略网络的训练目标是输出的动作使得使奖励价值函数最大成本价值函数最小，根据这个目标，策略网路的损失函数是：拉格朗日乘子由采样对偶梯度更新：目标网络中的所有网络参数基于主网络中的参数进行加权更新：/>其中：τ是软更新的超参数；

4.5)重复上述步骤，直到训练指定次数；

步骤5、在在线阶段，智能体基于训练好的策略网络，根据当前画布状态、目标图像和画笔起点等信息得到最优动作，其中：决定笔划形状的参数经过渲染器映射得到笔划图片，智能体提起或者落下的动作参数决定智能体是否绘制这个笔划，最终得到更新后的画布，同时笔划的终点也会作为下一步智能体动作的起点，迭代这个过程直到满足所述的回合结束条件。

9.根据权利要求8所述的基于约束马尔可夫决策的简洁连续笔画重构草图的方法，其特征是，所述的策略网络包括：一个由Resnet18构成的编码器和两个输出头以输出不同的动作信息，其中：第一输出头通过一个线性层实现，用于输出控制智能体绘制笔划形状的连续动作空间，第二输出头通过Neural Max模块实现，用于输出0或者1控制智能体上升或者下降的状态；

10.根据权利要求8所述的基于约束马尔可夫决策的简洁连续笔画重构草图的方法，其特征是，所述的记忆回放模块用于存储智能体和环境交互产生的样本数据，这些样本数据包括智能体的动作次数k、动作a_k、状态s_k、下一时刻的状态s_k+1、奖励r_k和成本c_k，当采集的数据超过记忆回放模块的最大容量时，会将最开始存入的数据删除；当更新策略网络、价值网络时，需要从记忆模块中随机采样出样本用于训练。