CN110096202A

CN110096202A - 一种基于深度强化学习的轻量级图像自动裁剪系统及方法

Info

Publication number: CN110096202A
Application number: CN201910330259.5A
Authority: CN
Inventors: 杨宗凯; 刘坤祥; 张俊松; 朱少强
Original assignee: Huazhong Normal University
Current assignee: Huazhong Normal University; Central China Normal University
Priority date: 2019-04-23
Filing date: 2019-04-23
Publication date: 2019-08-06
Anticipated expiration: 2039-04-23
Also published as: CN110096202B

Abstract

本发明公开了一种基于深度强化学习的轻量级图像自动裁剪系统及方法，该系统包括环境、动作空间以及嵌入所述环境中的智能体；其中，环境为智能体提供当前观察，计算裁剪动作的实际奖励值和对当前观察图像执行裁剪动作，并更新当前观察；智能体包含预训练卷积神经网络MobileNetV2模型与两个全连接层，用于图像特征提取、输出裁剪动作值与估计状态价值；动作空间根据智能体输出的裁剪动作值，为环境提供实际裁剪动作；本发明的智能体能够自动学习如何做出序列裁剪动作，并使用环境计算的IOU值作为奖励函数，使用更少的裁剪步骤及更短的裁剪时间即可达到SOTA性能。

Description

一种基于深度强化学习的轻量级图像自动裁剪系统及方法

技术领域

本发明属于图像处理技术领域，更具体地，涉及一种基于深度强化学习的轻量级图像自动裁剪系统及方法。

背景技术

随着当前图像数据量的不断增长，对图像进行自动处理的需求也逐渐变大，而图像裁剪是图像处理中的一个十分重要的步骤。图像自动裁剪技术不仅能够快速的完成对大多数图片的处理，同时还能够辅助专业摄像师找到更好的视角来提升图像的构图质量，其具有十分大的应用价值。

以往大多数图像裁剪工具需要从输入图像中生成大量候选裁剪窗口，然后从大量的候选裁剪窗口中选出最美观的图像作为最终裁剪图像，这个过程不仅耗费计算时间，并且可能出现最佳裁剪窗口不在候选裁剪窗口中的情况；另外，以往的深度学习自动裁剪工具大多使用美学质量评估分数作为奖励，但是美学质量评估分数很难准确量化图片的审美质量，这是计算机视觉中长期存在的问题，目前先进的定量模型NIMA还不能准确地给出每个图像的美学评分。

中科院自动化所智能感知与计算研究中心于2018年3月12日发表的论文《A2-RL:Aesthetics Aware Reinforcement Learning for Image Cropping》提出了一种基于强化学习的弱监督图像自动裁剪算法A2-RL，将强化学习引入到自动裁剪中，使用一个智能体(agent)在输入图像上自适应的调整候选区域的位置和大小；该智能体以图像的全局特征和局部特征作为观察信息，并且根据当前和历史的观察作为依据来决定下一步的动作。在训练过程中，该智能体根据图像质量的评分计算奖励，并使用A3C算法进行训练，最终学到较好的候选区域调整策略。但该自动裁剪模型的关键仍然在于寻找一个合适的指标去估计图像的美学质量分数，而美学质量分数很难准确量化图片的审美质量，从而导致裁剪得到的图像不具有最优的美学质量。

论文《A Deep Network Solution for Attention and Aesthetics Aware PhotoCropping》提出了一种基于注意力和基于美学的图像裁剪方法，深度学习裁剪框架结合了注意力和美学模型，不同于深度强化学习，它将照片裁剪作为决策调整过程。注意力模型通过使用基于人类注意力图来预测最具视觉突出性的区域位置并且通过滑动窗口总共生成1296个裁剪候选窗口。美学评价部分选择具有最高美学评分的裁剪候选窗口作为最终输出的裁剪图像。但从1296个裁剪候选窗口选择出美学质量最高的窗口意味着每个图像需要通过美学模型计算1296次，此过程需要耗费较大的计算资源和时间；此外，基于视觉显著地图生成的这些候选窗口中可能没有令人满意的裁剪窗口。

发明内容

针对现有技术的至少一个缺陷或改进需求，本发明提供了一种基于深度强化学习的轻量级图像自动裁剪系统及方法，将自动图像裁剪过程看作序列决策过程和智能体-环境交互问题，其智能体在训练过程中自动学习如何做出序列裁剪动作，并使用环境计算的平均IOU值作为奖励函数的一部分，其目的在于解决现有的图像裁剪方法存在的耗费较大的计算资源和时间、无法准确获取高质量裁剪图像的问题。

为实现上述目的，按照本发明的一个方面，提供了一种基于深度强化学习的轻量级图像自动裁剪系统，包括环境、动作空间，以及嵌入所述环境中的智能体；

所述智能体用于根据环境提供的当前观察输出裁剪动作值，以及所述裁剪动作值的估计状态价值；

所述动作空间用于根据智能体输出的裁剪动作值为环境提供实际裁剪动作；

所述环境用于为智能体提供当前观察，并根据所述实际裁剪动作对当前观察进行裁剪，计算该实际裁剪动作的实际奖励值并以裁剪后的图像更新当前观察。

优选的，上述轻量级图像自动裁剪系统，其智能体包括MobileNetV2模型以及与所述MobileNetV2模型的输出端并行连接的第一全连接层和第二全连接层；

所述MobileNetV2模型用于对环境提供的当前观察进行特征提取，得到当前观察的特征向量；

所述第一全连接层用于根据所述特征向量生成多个裁剪动作值以及每个裁剪动作值对应的概率值，并输出所述概率值最大的裁剪动作值；

所述第二全连接层用于生成每一个裁剪动作值对应的估计状态价值，并输出概率值最大的裁剪动作值对应的估计状态价值。

优选的，上述轻量级图像自动裁剪系统，其MobileNetV2模型还用于在达到预设的裁剪步数后根据所述估计状态价值和实际奖励值计算损失函数以根据所述损失函数计算梯度值；并根据所述梯度值对网络参数进行更新，直至计算得到的损失函数最小化。

优选的，上述轻量级图像自动裁剪系统，其环境通过计算裁剪后的图像的平均交叉结合值并根据所述平均交叉结合值设置裁剪动作的实际奖励值；该实际奖励值的计算公式为：

其中，t表示裁剪步数，R_t表示第t次裁剪动作对应的实际奖励值，表示第t次裁剪后图像的平均交叉结合值；表示第t-1次裁剪后图像的平均交叉结合值。

优选的，上述轻量级图像自动裁剪系统，其损失函数的计算公式为：

loss＝loss_action+λloss_value-βloss_dist

loss_action＝-logπ(a_t|s_t；θ)(R_t-V(s_t；θ_v))

loss_dist＝H(π(s_t；θ))

其中，loss_action表示裁剪动作损失，loss_value表示估计状态价值与实际奖励值损失，loss_dist表示动作分布偏差损失，λ、β表示权重系数，a_t表示第t次裁剪动作，s_t表示第t次裁剪动作对应的当前观察，i表示裁剪步数，i＝1～t；R表示实际奖励值，θ表示第一全连接层的网络参数，θ_v表示第二全连接层的网络参数，π表示策略网络，H表示熵函数；

所述梯度值的计算公式为：

其中，表示网络参数θ的梯度值；表示网络参数θ_v的梯度值。

优选的，上述轻量级图像自动裁剪系统，还包括存储模块；所述存储模块用于存储智能体输出的估计状态价值，以及环境执行裁剪动作后得到的裁剪图像的平均交叉结合值和实际奖励值。

按照本发明的另一个方面，还提供了一种基于深度强化学习的轻量级图像自动裁剪方法，包括以下步骤：

S1：根据当前观察输出裁剪动作值以及所述裁剪动作值的估计状态价值；

S2：根据所述裁剪动作值对应的实际裁剪动作对当前观察进行裁剪，计算裁剪后的图像的平均交叉结合值并根据所述平均交叉结合值设置该实际裁剪动作的实际奖励值，并以裁剪后的图像对更新当前观察，

S3：在达到预设的裁剪步数后根据所述估计状态价值和实际奖励值计算损失函数，并根据所述损失函数计算梯度值以根据所述梯度值对网络参数进行更新；

S4：重复步骤S1～S3，直至计算得到的损失函数最小化。

优选的，上述轻量级图像自动裁剪方法，其步骤S1包括以下子步骤：

S11：对当前观察进行特征提取，得到当前观察的特征向量；

S12：根据所述特征向量生成多个裁剪动作值以及每个裁剪动作值对应的概率值，并输出所述概率值最大的裁剪动作值；

S13：生成每一个裁剪动作值对应的估计状态价值，并输出概率值最大的裁剪动作值对应的估计状态价值。

优选的，上述轻量级图像自动裁剪方法，其步骤S2中，所述实际奖励值的计算公式为：

其中，t表示裁剪步数，R_t表示第t次裁剪后图像的实际奖励值，表示第t次裁剪后图像的平均交叉结合值；表示第t-1次裁剪动作对应的平均交叉结合值。

优选的，上述轻量级图像自动裁剪方法，其步骤S3中，所述损失函数的计算公式为：

loss＝loss_action+λloss_value-βloss_dist

loss_action＝-logπ(a_t|s_t；θ)(R_t-V(s_t；θ_v))

loss_dist＝H(π(s_t；θ))

其中，loss_action表示裁剪动作损失，loss_value表示估计状态价值与实际奖励值损失，loss_dist表示动作分布偏差损失，λ、β表示权重系数，a_t表示第t次裁剪动作，s_t表示第t次裁剪动作对应的当前图像，i表示裁剪步数，i＝1～t；R表示实际奖励值，θ表示第一全连接层的网络参数，θ_v表示第二全连接层的网络参数，π表示策略网络，H表示熵函数。

优选的，上述轻量级图像自动裁剪系统，其梯度值的计算公式为：

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

(1)本发明提供的基于深度强化学习的轻量级图像自动裁剪系统及方法，将自动图像裁剪过程看作序列决策过程和智能体-环境交互问题，其智能体在训练过程中自动学习如何做出序列裁剪动作，在裁剪过程中仅使用裁剪后的局部特征而不是全局特征与局部特征的组合作为当前观察，可以减少重复像素空间和特征的数量并避免浪费计算资源；本发明基于Advantage Actor Critic(A2C)算法实现图像的快速、自动裁剪，与常用的自动裁剪工具相比使用更少的裁剪步骤以及更短的裁剪时间即可达到目前最先进、最好(state-of-the-art，SOTA)性能，获得高质量的裁剪图像。

(2)本发明提供的基于深度强化学习的轻量级图像自动裁剪系统及方法，放弃使用很难准确地量化图像的审美质量的美学评分作为奖励，使用IOU值作为奖励功能的一部分，通过平均IOU值计算实际奖励值，能够更加正确地呈现裁剪的质量，从而提高了裁剪图像的美学质量。

(3)本发明提供的基于深度强化学习的轻量级图像自动裁剪系统及方法，使用预先训练的MOBILENETV2模型替换常见的卷积层进行特征提取，提高提取图像特征的能力，有利于提高训练速度并简化动作空间。

附图说明

图1是本发明实施例提供的轻量级图像自动裁剪系统的框架及流程图；

图2是本发明实施例提供的轻量级图像自动裁剪方法的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

图1是本发明实施例提供的轻量级图像自动裁剪系统的框架及流程图；如图1所示，该轻量级图像自动裁剪系统包括环境(envs)、智能体(agent)和动作空间(actionspace)；智能体是一个嵌入在环境中的系统，能够通过采取行动来改变环境的状态，环境能够感知到智能体并且能够基于感知到的状态执行一定的裁剪动作；动作空间包括图像裁剪基本动作和一个终止动作；本实施例中，图像裁剪动作包括常用的四个扩张动作和四个缩放动作。

在训练阶段，智能体根据环境提供的训练样本的当前图像输出裁剪动作以及该裁剪动作的估计状态价值；环境从动作空间中采样该裁剪动作，从四周边缘对当前图像进行裁剪，并以裁剪后的图像对当前图像进行更新；在每次裁剪之后，环境计算裁剪后的图像的平均交叉结合值并根据该平均交叉结合值设置该裁剪动作的实际奖励值；智能体的目标是在每次裁剪后最大化该实际奖励值。

智能体在达到预设的裁剪步数后根据上述估计状态价值和实际奖励值计算损失函数并对网络参数进行更新；重复上述过程直至计算得到的损失函数最小化，表明智能体训练完成，可以实现图像的自动裁剪。

本发明将自动图像裁剪过程看作序列决策过程和智能体-环境交互问题，环境的作用一是为智能体提供当前观察，执行每个裁剪操作后将导致原始图像发生变化，从而产生新的裁剪图像，环境以新的裁剪图像替换原始图像作为当前观察；本实施中仅使用裁剪的局部特征而不是全局特征与局部特征的组合作为当前观察，其优点是可以减少重复像素空间和特征的数量并避免浪费计算资源。二是对每个裁剪动作给予相应奖励，裁剪动作的差异将直接影响下一次观察的差异，相应动作的奖励由环境给出，这与以前的深度学习自动裁剪工具中的奖励设计完全不同，以前的深度学习自动裁剪工具使用美学质量评估分数作为奖励，但美学质量评估分数很难准确量化图片的审美质量；本发明使用平均交叉结合值(intersection-over-union，IOU)作为奖励而不是美学质量评估分数，IOU值能够更加正确地呈现裁剪的质量。环境在执行裁剪动作时，裁剪步幅在理论上是任意的；本实施例中，每个动作的裁剪步幅设置为当前图像的1/30高或宽，与较大的步幅相比，采用1/30步幅可以更准确地裁剪到目标框。终止动作意味着模型将学习决定何时终止裁剪并最终裁剪图像输出。

本实施例在训练期间使用了两个手动图像裁剪数据库：Flickr裁剪数据集和CUHK-ICD；Flickr裁剪数据集包含来自Flickr网站的1743张图片，亚马逊土耳其工人手动筛选不适当的图像并过滤它们，并由美学上优秀的工人手动裁剪图像，并选择图像中最佳感知的区域添加标签。这些图像被分为训练集(1369)和测试集(374)。CUHKICD包含950张由经验丰富的摄影师手动裁剪的图像，每张图片都有3个标注好的裁剪框，每个裁剪框由不同的摄影师提供，原始图像来自香港中文大学的图像裁剪数据库，裁剪后的图像被分为950份训练集(800)和测试集(150)。在训练过程中，Flickr裁剪数据集和CUHKICD训练集将交替输入模型训练，在输入之前，训练图片被缩放到(224，224)，每次可批量输入16张训练图片。

环境根据智能体输出的裁剪动作对当前图像进行裁剪后，计算裁剪后的图像的IOU值，具体计算公式为：

其中，Area_true是训练样本上标注的标签区域；Area_crop是对训练样本的当前图像进行裁剪后的区域。

由于每张训练图片都有3个标注好的裁剪框，环境分别计算裁剪后的图像与三个裁剪框的IOU值，然后求取平均值，平均IOU值的计算公式为：

计算得到平均IOU值后，根据平均IOU值计算实际奖励值，具体的计算公式为：

其中，t表示裁剪步数，R_t表示第t次裁剪动作对应的实际奖励值，表示第t次裁剪动作对应的平均交叉结合值；表示第t-1次裁剪动作对应的平均交叉结合值。

每次执行裁减动作后得到的裁剪图像的IOU值增加时，智能体将收到奖励；相反，当输出被终止或超过预设的最大裁剪步数时，智能体则会收到罚款，没有奖励。

在测试阶段，智能体根据环境提供的待测样本的当前图像输出裁剪动作；所述环境从动作空间中采样所述裁剪动作以对当前图像进行裁剪并以裁剪后的图像对当前图像进行更新，直至智能体输出最优的裁剪图像。

作为本实施例的一个优选，该轻量级图像自动裁剪系统还包括存储模块rolloutstorage；rollout storage主要用于存储智能体输出的裁剪动作对应的估计状态价值，以及环境执行该裁剪动作后得到的裁剪图像的平均交叉结合值和实际奖励值；在达到预设的裁剪步数后，如裁剪20次后，智能体从rollout storage中获取估计状态价值和实际奖励值进行损失函数的计算。

本实施例中，智能体为具备自动学习如何做出序列裁剪动作的功能策略网络，该策略网络包括预先训练的MobileNetV2模型以及与该MobileNetV2模型的输出侧并行连接的两个全连接层(fully connected layers，FC)；其中，Mobilenetv2是一款轻量级、高效的CNN模型，主要用于移动设备视觉应用；它使用可以在深度分离的卷积作为有效的构建块，并引入了两个新的架构特征：层之间的线性瓶颈层，以及瓶颈层之间的连接快捷方式。利用Mobilenetv2模型将ImageNet预训练作为特征提取模块，可以有效缩短训练时间，提高训练效果。环境输出的当前图像被馈送至移除最后一层的Mobilenetv2图像特征提取模型后，Mobilenetv2模型对当前图像进行特征提取，得到当前图像的特征向量；使用预先训练的Mobilenetv2模型替换常见的卷积层进行特征提取，有利于提高提取图像特征的能力，从而加速训练并简化动作空间。

第一全连接层具有9个节点，用于根据特征向量生成多个裁剪动作以及每个裁剪动作对应的概率值[P(0)，P(1)，......，P(8)]，其中，p(t)表示第t+1个裁剪动作的概率值，t＝0～8；并输出概率值最大的裁剪动作；

第二全连接层具有1个节点，用于生成每一个裁剪动作对应的估计状态价值V(a_t)，并输出概率值最大的裁剪动作对应的估计状态价值。

Mobilenetv2模型根据第二全连接层生成的估计状态价值和环境输出的实际奖励值计算损失函数并根据该损失函数计算梯度值，根据梯度值对网络参数进行更新；

其中，损失函数的计算公式为：

loss＝loss_action+λloss_value-βloss_dist

loss_action＝-logπ(a_t|s_t；θ)(R_t-V(s_t；θ_v))

loss_dist＝H(π(s_t；θ))

其中，loss_action表示裁剪动作损失，loss_value表示策略网络的估计状态价值与实际奖励值损失，loss_dist表示动作分布偏差损失，λ、β表示权重系数，a_t表示第t次裁剪动作，s_t表示第t次裁剪动作对应的当前图像，i表示裁剪步数，i＝1～t；R表示实际奖励值，θ表示第一全连接层的网络参数，θ_v表示第二全连接层的网络参数，π表示策略网络，H表示熵函数。

梯度值的计算公式为：

本实施例中，经过20次裁剪步数后，通过上述公式计算损失函数、梯度值，并使用RMSProp算法更新网络参数一次(lr＝1e^-4,α＝0.99,eps＝1e^-5)，网络更新的目标是获得最高的IOU值，即具有最高程度的手动裁剪适合度的切割窗口。

本实施例中的轻量级图像自动裁剪系统基于Advantage Actor Critic(A2C)算法实现，在Advantage Actor Critic(A2C)算法中的多个环境是并行操作的，本实施例中的环境数量为16个，这些环境彼此独立运行并与同一智能体进行交互，因此在训练过程中每次可批量输入16张训练图片；运行一定数量的步骤后，跨网络同步更新网络参数。

本实施例还提供了一种基于深度强化学习的轻量级图像自动裁剪方法，如图2所示，该裁剪方法包括以下步骤：

S1：环境与智能体进行初始化；将训练样本的原始图像缩放到(224，224)，然后通过环境输入至智能体，智能体根据训练样本的当前图像输出裁剪动作，并估计该裁剪动作的估计状态价值；包括以下子步骤:

S11：Mobilenetv2模型对当前图像进行特征提取，得到当前图像的特征向量；

S12：第一全连接层根据特征向量生成多个裁剪动作以及每个裁剪动作对应的概率值[P(0)，P(1)，......，P(8)]，其中，p(t)表示第t+1个裁剪动作的概率值，t＝0～8；，并输出所述概率值最大的裁剪动作；

S13：第二全连接层生成每一个裁剪动作对应的估计状态价值V(a_t)，并输出概率值最大的裁剪动作对应的估计状态价值。

S2：环境根据裁剪动作对当前图像进行裁剪，以裁剪后的图像对当前图像进行更新，计算裁剪后的图像的平均交叉结合值并根据该平均交叉结合值设置该裁剪动作的实际奖励值；其中，交叉结合值的计算公式为：

其中，Area_true是训练样本上标注的标签区域；Area_crop是对训练样本的当前图像进行裁剪后的区域；

本实施例中，每张训练图片都有3个标注好的裁剪框，因此分别计算裁剪后的图像与三个裁剪框的IOU值，然后求取平均值，平均IOU值的计算公式为：

S3：Mobilenetv2模型在达到预设的裁剪步数后根据估计状态价值V(a_t)和实际奖励值R_t计算损失函数，根据该损失函数计算梯度值，并根据梯度值对网络参数进行更新；其中，损失函数的计算公式为：

loss＝loss_action+λloss_value-βloss_dist

loss_action＝-logπ(a_t|s_t；θ)(R_t-V(s_t；θ_v))

loss_dist＝H(π(s_t；θ))

其中，loss_action表示裁剪动作损失，loss_value表示策略网络估计的估计状态价值与实际奖励值损失，loss_dist表示动作分布偏差损失，λ、β表示权重系数，a_t表示第t次裁剪动作，s_t表示第t次裁剪动作对应的当前图像，i表示裁剪步数，i＝1～t；R表示实际奖励值，θ表示第一全连接层的网络参数，θ_v表示第二全连接层的网络参数，π表示策略网络，H表示熵函数。

梯度值的计算公式为：

S4：重复步骤S1～S3，直至计算得到的损失函数最小且实际奖励值最大，表明模型训练完成。

S5：将待测样本的原始图像缩放到(224，224)，然后通过环境输入至智能体，智能体根据待测样本的当前图像输出裁剪动作；

S6：环境根据裁剪动作对当前图像进行裁剪并以裁剪后的图像对当前图像进行更新，

S7：重复步骤S5～S6，直至智能体输出最优的裁剪图像。

本发明提供的基于Advantage Actor Critic深度强化学习算法的简化、轻量级的图像自动裁剪系统及方法，可以实现快速、自动裁剪功能，使用更少的裁剪步骤以及更短的裁剪时间即可达到SOTA性能。模型训练完成后，采用Flickr裁剪数据集中的测试集对训练好的模型性能进行验证并与常用的自动裁剪工具进行对比，结果如表1、2所示，其中，表1是裁剪精度对比实验结果，表2是裁剪速度对比实验结果。

表1裁剪精度对比实验结果

表2裁剪速度对比实验结果

如表1所示，平均IOU值越高，平均边界位移值越低，表示裁剪精度越高，裁剪效果越好；与RankSVM+DeCAF、VFN+SW、A2-RL裁剪方法相比，本实施例提供的裁剪方法具有更高的平均IOU值和更低的平均边界位移值。如表2所示，平均裁剪步骤越少，平均裁剪时间越短，表明图像裁剪速度越快；与A2-RL裁剪方法相比，本实施例提供的裁剪方法所需的裁剪步数更少；与VFN+SW相比，本实施例提供的裁剪方法大大缩短了裁剪时间，提高了裁剪效率。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度强化学习的轻量级图像自动裁剪系统，其特征在于，包括环境、动作空间，以及嵌入所述环境中的智能体；

2.如权利要求1所述的轻量级图像自动裁剪系统，其特征在于，所述智能体包括预训练的MobileNetV2模型以及与所述MobileNetV2模型的输出端并行连接的第一全连接层和第二全连接层；

3.如权利要求2所述的轻量级图像自动裁剪系统，其特征在于，所述MobileNetV2模型还用于在达到预设的裁剪步数后根据所述估计状态价值和实际奖励值计算损失函数以根据所述损失函数计算梯度值；并根据所述梯度值对网络参数进行更新，直至计算得到的损失函数最小化。

4.如权利要求1或3所述的轻量级图像自动裁剪系统，其特征在于，所述环境通过计算裁剪后的图像的平均交叉结合值并根据所述平均交叉结合值设置裁剪动作的实际奖励值；该实际奖励值的计算公式为：

5.如权利要求4所述的轻量级图像自动裁剪系统，其特征在于，所述损失函数的计算公式为：

loss＝loss_action+λloss_value-βloss_dist

loss_action＝-logπ(a_t|s_t；θ)(R_t-V(s_t；θ_v))

loss_dist＝H(π(s_t；θ))

所述梯度值的计算公式为：

6.如权利要求4所述的轻量级图像自动裁剪系统，其特征在于，还包括存储模块；所述存储模块用于存储智能体输出的估计状态价值，以及环境执行裁剪动作后得到的裁剪图像的平均交叉结合值和实际奖励值。

7.一种基于深度强化学习的轻量级图像自动裁剪方法，其特征在于，包括以下步骤：

S4：重复步骤S1～S3，直至计算得到的损失函数最小化。

8.如权利要求7所述的轻量级图像自动裁剪方法，其特征在于，步骤S1包括以下子步骤：

S11：对当前观察进行特征提取，得到当前观察的特征向量；

9.如权利要求7或8所述的轻量级图像自动裁剪方法，其特征在于，步骤S2中，所述实际奖励值的计算公式为：

10.如权利要求9所述的轻量级图像自动裁剪方法，其特征在于，步骤S3中，所述损失函数的计算公式为：

loss＝loss_action+λloss_value-βloss_dist

loss_action＝-logπ(a_t|s_t；θ)(R_t-V(s_t；θ_v))

loss_dist＝H(π(s_t；θ))

其中，loss_action表示裁剪动作损失，loss_value表示估计状态价值与实际奖励值损失，loss_dist表示动作分布偏差损失，λ、β表示权重系数，a_t表示第t次裁剪动作，s_t表示第t次裁剪动作对应的当前图像，i表示裁剪步数，i＝1～t；R表示实际奖励值，θ表示第一全连接层的网络参数，θ_v表示第二全连接层的网络参数，π表示策略网络，H表示熵函数；

所述梯度值的计算公式为：