CN112200736B

CN112200736B - 基于强化学习的图像处理方法及模型训练方法、装置

Info

Publication number: CN112200736B
Application number: CN202011035046.9A
Authority: CN
Inventors: 杨幸潮; 章佳杰; 郑云飞; 于冰
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-09-27
Filing date: 2020-09-27
Publication date: 2021-07-20
Anticipated expiration: 2040-09-27
Also published as: CN112200736A

Abstract

本发明公开了一种基于强化学习的图像处理方法及模型训练方法、装置。用于解决相关技术中基于强化学习模型进行图像增强效果仍需改进的问题。本发明中，根据全局反馈信息和局部反馈信息确定瞬时反馈信息，使得瞬时反馈信息中涵盖了图像整体的处理效果，以及局部细节的处理效果，由此能够全面的概括图像处理效果，进而训练图像处理模型时使得图像处理模型更能够给出合理的处理策略，以此根据更为合理的处理策略能够更好的进行图像效果增强处理。

Description

基于强化学习的图像处理方法及模型训练方法、装置

技术领域

本发明涉及人工智能技术领域，特别涉及一种基于强化学习的图像处理方法及模型训练方法、装置。

背景技术

随着智能手机的普及和拍照设备的不断升级，用户可以很轻松地获得照片，来记录生活中精彩的瞬间。然而，目前的手机为了满足方便携带的特性，在相机硬件上不可避免地会做出一些妥协，这导致了智能手机拍摄的图像质量与数码单反相机等先进设备相比有很大差距。智能手机的相机中最常见的硬件限制是缺少大光圈镜头和光电二极管组成的小型传感器，从而造成手机拍摄的图像与单反等先进设备拍摄的图像相比有进光量不足、色彩不饱满、噪声多、对比度较差等缺点。目前智能手机市场上新发布的产品大多主打手机摄影功能的提升，在硬件提升方面花费很多精力，比如增加越来越多不同功能的摄像头来弥补手机摄影硬件的缺陷，这需要提升手机的成本而且会影响手机的美观和便携性。为了克服这种固有的硬件限制，因此从软件方面弥补硬件缺陷实现对于拍摄的图像的处理的方式更加高效和经济。

相关技术中提出了采用强化学习的神经网络来增强图像效果，以期达到图像处理专家水平的图像处理效果。例如，使用强化学习算法优化过度曝光或曝光不足的照片。该方法中通过将照片分成不同语义块来平衡曝光，调整每个片段的曝光值，最后将不同部分融合。然而，结果显示，该方法一旦分割结果处理不好，仅调整曝光无法达到好的效果。分割问题仍然是个未解决的问题，无法处理全部的复杂场景，比如噪声干扰、遮挡等问题，用一个未解决领域的方法去解决另一个领域的问题，显然会造成一些不足。

再例如，如图1所示，为另一种基于强化学习的神经网络模型的结构示意图。对输入的图像，首先提取图像特征，然后将提取的图像特征分别输入到策略网络和价值网络。通过策略网络得到图像的处理策略，价值网络用于输出基于该处理策略的累积奖励和期望。在训练该神经网络时，通过计算样本图像和配对图像之间的均方损失(Mean SquaredError，MSE)来训练神经网络。然而，结果显示，对于有些图像，该处理方法得到的图像有时候会黯淡和模糊，影响了图像的整体视觉效果。

综上所述，相关技术中基于强化学习模型得到的图像效果仍有待改进。

发明内容

本发明的目的是提供一种基于强化学习的图像处理方法及模型训练方法、装置，用于解决相关技术中基于强化学习模型得到的图像效果仍有待改进的问题。

第一方面，本发明实施例提供了一种基于强化学习的图像处理模型训练方法，所述图像处理模型包括第一网络以及第二网络，所述方法包括：

对目标样本图像进行特征提取，得到所述目标样本图像的特征图；

将所述图像特征分别输入所述第二网络和所述第一网络，得到所述第二网络输出的所述目标样本图像中各像素点的处理方式，以及所述第一网络输出的每个像素点的图像质量的期望累积反馈信息；

利用所述处理方式对所述目标样本图像进行处理后得到优化样本图像；

比较所述目标样本图像和所述优化样本图像，得到所述目标样本图像中每个像素点的图像质量的瞬时反馈信息，其中，对每个像素点，所述瞬时反馈信息是根据全局反馈信息和局部反馈信息得到的，所述全局反馈信息用于表示所述目标图像样本的图像质量的整体反馈信息，所述局部反馈信息用于表示所述像素点处的图像颜色的反馈信息；

采用各像素点的所述期望累积反馈信息和所述瞬时反馈信息训练所述第一网络和所述第二网络。

在一些实施例中，所述图像处理模型还包括判别器网络，且所述第二网络和所述判别器网络构成对抗网络，所述方法还包括：

将所述目标样本图像和所述优化样本图像分别输入所述判别器网络，得到与所述目标样本图像对应的第一判别结果以及与所述优化样本图像对应的第二判别结果；

所述比较所述目标样本图像和所述优化样本图像，得到所述目标样本图像中每个像素点的图像质量的瞬时反馈信息中的全局反馈信息，包括：

确定所述第一判别结果和所述第二判别结果之间的差异度作为所述全局反馈信息。

在一些实施例中，所述目标样本图像对应有配对图像，所述比较所述目标样本图像和所述优化样本图像，得到所述目标样本图像中每个像素点的图像质量的瞬时反馈信息中的局部反馈信息，包括：

对每个像素点，获取所述目标样本图像和所述优化样本图像中所述像素点的颜色值；

对所述像素点在所述目标样本图像和所述优化样本图像中的颜色值进行比较，得到所述像素点的颜色差异度作为所述像素点的所述局部反馈信息。

在一些实施例中，所述判别器网络的训练集中包括所述目标样本图像以及非配对图像，所述非配对图像与所述目标样本图像的图像内容不同。

在一些实施例中，所述第一网络的目标函数为：

其中，

其中，训练目标为不断缩小

值；m×n表示述目标样本图像包括的总像素点数；γ表示预设的衰减系数；

表示下一时间步时第(i，j)个像素点的累计瞬时反馈信息；

表示当前时间步第(i，j)个像素点的所述瞬时反馈信息；

表示基于当前时间步得到的第(i，j)个像素点的所述期望累积反馈信息。

在一些实施例中，所述第二网络的目标函数为：

其中，

其中，训练目标为不断缩小

m×n表示所述目标样本图像包括的总像素点数；γ表示预设的衰减系数；

表示当前时间步第(i，j)个像素点的累计瞬时反馈信息；

表示下一时间步时第(i，j)个像素点的累计瞬时反馈信息；

表示当前时间步第(i，j)个像素点的瞬时反馈信息；

表示当前时间步由所述第二网络得出的第(i，j)个像素点的处理方式的选择概率；

在一些实施例中，对每个像素点，根据以下方法确定所述像素点的瞬时反馈信息：

对所述像素点的所述全局反馈信息和所述局部反馈信息进行加权求和，得到所述像素点的瞬时反馈信息。

在一些实施例中，所述判别器网络输出的判别结果的值域为连续取值区间。

在一些实施例中，所述第一网络和所述第二网络符合优势动作评论模式的框架要求。

在一些实施例中，所述处理方式包括以下中的至少一种操作：饱和度调整操作、亮度调整操作、直方图均衡化操作、局部色彩校正操作以及对比度调整操作。

在一些实施例中，所述饱和度调整操作用于以当前饱和度为基准按第一比例增加饱和度或按第二比例降低饱和度；

所述亮度调整操作用于以当前亮度为基准按第三比例增加亮度或按第四比例降低亮度；

所述对比度调整操作用于以当前对比度为基准按第五比例增加对比度或按第六比例降低对比度。

第二方面本发明还提供一种图像处理方法，所述方法包括：

对待处理图像进行特征提取，得到所述待处理图像的特征图；

将所述特征图输入第二网络，得到所述待处理图像中各像素点的处理方式；

利用所述处理方式对所述待处理图像中的各像素点进行处理；

其中，所述第二网络是根据目标样本图像中每个像素点的图像质量的期望累积反馈信息和瞬时反馈信息训练得到的；且对各像素点，所述瞬时反馈信息是根据全局反馈信息和局部反馈信息得到的，所述全局反馈信息用于表示所述目标样本图像的图像质量的整体反馈信息，所述局部反馈信息用于表示所述像素点处的图像颜色的反馈信息。

第三方面，本发明实施例还提出了一种图像处理模型训练装置，所述图像处理模型包括第一网络以及第二网络，所述装置包括：

特征图提取模块，被配置为执行对目标样本图像进行特征提取，得到所述目标样本图像的特征图；

累积反馈信息确定模块，被配置为执行将所述图像特征分别输入所述第二网络和所述第一网络，得到所述第二网络输出的所述目标样本图像中各像素点的处理方式，以及所述第一网络输出的每个像素点的图像质量的期望累积反馈信息；

优化模块，被配置为执行利用所述处理方式对所述目标样本图像进行处理后得到优化样本图像；

瞬时反馈信息确定模块，被配置为执行比较所述目标样本图像和所述优化样本图像，得到所述目标样本图像中每个像素点的图像质量的瞬时反馈信息，其中，对每个像素点，所述瞬时反馈信息是根据全局反馈信息和局部反馈信息得到的，所述全局反馈信息用于表示所述目标图像样本的图像质量的整体反馈信息，所述局部反馈信息用于表示所述像素点处的图像颜色的反馈信息；

训练模块，被配置为执行采用各像素点的所述期望累积反馈信息和所述瞬时反馈信息训练所述第一网络和所述第二网络。

在一些实施例中，所述图像处理模型还包括判别器网络，且所述第二网络和所述判别器网络构成对抗网络，所述装置还包括：

判别模块，被配置为执行将所述目标样本图像和所述优化样本图像分别输入所述判别器网络，得到与所述目标样本图像对应的第一判别结果以及与所述优化样本图像对应的第二判别结果；

所述瞬时反馈信息确定模块，具体被配置为执行：确定所述第一判别结果和所述第二判别结果之间的差异度作为所述全局反馈信息。

在一些实施例中，所述瞬时反馈信息确定模块，具体被配置为执行：

在一些实施例中，所述第一网络的目标函数为：

其中，

其中，训练目标为不断缩小

表示下一时间步时第(i，j)个像素点的累计瞬时反馈信息；

表示当前时间步第(i，j)个像素点的所述瞬时反馈信息；

在一些实施例中，所述第二网络的目标函数为：

其中，

其中，训练目标为不断缩小

表示当前时间步第(i，j)个像素点的累计瞬时反馈信息；

表示下一时间步时第(i，j)个像素点的累计瞬时反馈信息；

表示当前时间步第(i，j)个像素点的瞬时反馈信息；

在一些实施例中，对每个像素点，根据以下装置确定所述像素点的瞬时反馈信息：

第四方面，本发明还提供一种图像处理装置，所述装置包括：

特征图确定模块，被配置为执行对待处理图像进行特征提取，得到所述待处理图像的特征图；

策略确定模块，被配置为执行将所述特征图输入第二网络，得到所述待处理图像中各像素点的处理方式；

处理模块，被配置为执行利用所述处理方式对所述待处理图像中的各像素点进行处理；

第五方面，本发明另一实施例还提供了一种电子设备，包括至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明实施例提供的任一图像模型训练或图像处理方法。

第六方面，本发明另一实施例还提供了一种计算机存储介质，其中，所述计算机存储介质存储有计算机程序，所述计算机程序用于使计算机执行本发明实施例中的任一图像模型训练或图像处理方法。

本发明实施例，根据全局反馈信息和局部反馈信息确定瞬时反馈信息，使得瞬时反馈信息中涵盖了图像整体的处理效果，以及局部细节的处理效果，由此能够全面的概括图像处理效果，进而训练图像处理模型时使得图像处理模型更能够给出合理的处理策略，以此根据更为合理的处理策略能够更好的进行图像效果增强处理。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，显而易见地，下面所介绍的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为根据现有技术中一中强化学习模型的结构示意图；

图2为根据本发明一个实施例的应用环境的示意图；

图3为根据本发明一个实施例的图像处理模型的结构示意图；

图4为根据本发明一个实施例的图像处理模型的另一结构示意图；

图5为根据本发明一个实施例的图像处理模型的训练方法的流程示意图；

图6为根据本发明一个实施例的图像处理方法的流程示意图；

图7为根据本发明一个实施例的图像处理效果的对比图；

图8为根据本发明一个实施例可视化图像处理操作的示意图；

图9为根据本发明一个实施例的基于强化学习的图像处理模型的结构示意图；

图10为根据本发明一个实施例的图像处理装置的结构示意图；

图11为根据本发明一个实施例的电子设备的示意图。

具体实施方式

为了使本领域普通人员更好地理解本发明的技术方案，下面将结合附图，对本发明实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

为便于理解本发明实施例提供的技术方案，这里先对本发明涉及的一些技术名称进行解释说明：

强化学习：强化学习(Reinforcement Learning,RL)，又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。强化学习的关键要素有：environment(环境)，reward(奖励，本发明中亦称之为反馈信息)，action(动作)和state(状态)。通过这些要素能建立一个强化学习模型。强化学习解决的问题是，针对一个具体问题得到一个最优的policy(策略)。

瞬时反馈信息：也称瞬时奖励，一般表示第t个time step(时间步)返回的奖赏值。例如，在图像处理中，待处理图像经过第t个时间步的处理策略处理后，得到一个状态，对于这个状态会给出一个瞬时反馈信息，以便于训练神经网络。

期望累积反馈信息：在强化学习中action来自于动作空间，agent对每次所处的state用上一状态确定当前要执行什么action。执行action要达到最大化期望(本发明中称之为各像素点的期望累积反馈信息之和)，直到最终算法收敛，所得的policy就是一系列action的sequential data(序列数据)。

第二网络：又称策略网络，用于对图像特征进行策略分析，得到待处理图像中每个像素点的图像处理策略，例如提高对比度、亮度等。

第一网络：又称价值网络，用于对图像特征进行分析，给出待处理图像中每个像素点经过策略网络给出的处理策略经过处理后得到的图像质量的期望累积反馈信息。

马尔可夫决策过程(Markov Decision Processes,MDPs)：MDPs是一个智能体(Agent)采取行动(Action)从而改变自己的状态(State)获得奖励(Reward)与环境(Environment)发生交互的循环过程。

卷积神经网络(Convolutional Neural Network，CNN)：是一类包含卷积计算且具有深度结构的前馈神经网络，是深度学习的代表算法。

优势动作评论算法(Advantage Actor-Critic，A2C)是一种常用的强化学习算法，可衡量选取动作值和所有动作平均值好坏。

如背景技术所述，神经网络输出的图像质量仍差强人意，发明人对其进行了而研究和学习，发现在训练时大部分强化学习模型要么未能很好的提取图像特征，要么训练方式过于简单。如图1所述的神经网络，其训练神经网络时采用的是MSE(Mean Square Error，MSE)均方误差，MSE是指估计值与真实值之差平方的期望，MSE越小表示估计值越接近真实数值。但MSE仅仅能够反映的一个图像的平均水平，导致处理后的图像有时候会黯淡和模糊，影响了图像的整体视觉效果。

有鉴于此，本发明实施例提供了一种基于强化学习的图像处理模型训练方法和图像处理方法。

本发明的发明构思是，在设置瞬时反馈信息时，不仅考虑图像整体的反馈信息情况还将图像局部细节的反馈信息情况纳入考量范围。这样，在训练神经网络时，从图像全局到图像细节都能够得到有效的训练。这样训练得到的策略网络，在选择处理策略时参考了图像全局的处理效果和图像局部细节的处理效果，由此，处理策略考虑了全局和局部的收益，能够提高强化学习模型的图像处理效果。

基于该发明构思，本发明提出了全局反馈信息和局部反馈信息的概念。全局反馈信息，用于图像整体的反馈信息情况，局部反馈信息用于衡量图像局部细节的反馈信息情况。本发明中瞬时反馈信息与全局反馈信息和局部反馈信息有关，以此来训练图像处理模型，使之能够给出更为合理的处理策略。

此外，本发明中为了从不同角度衡量图像的全局反馈信息和局部反馈信息，局部反馈信息采用像素点级别的颜色值来计算，而全局反馈信息可采用一个宏观的视觉上的图像质量评分来计算。这样，给出的瞬时反馈信息通过宏观的评分模拟了人眼视觉对全局感受野的视觉效果，还从各像素点的颜色上把握了局部细节特征，故而训练的目标更能够符合人眼感受。

为便于理解本发明实施例提供的基于强化学习的神经网络模型的训练以及图像处理方法，下面结合具体实施例对此进行详细说明。

图2为根据本发明一个实施例的应用环境的示意图。

如图2所示，该应用环境中例如可以包括至少一个服务器20和多个终端设备30。其中，各终端设备30可用来进行网络访问的任何合适的电子设备，包括但不限于计算机、笔记本电脑、智能电话、平板电脑或是其它类型的终端。服务器20则是能够通过网络访问的任何服务器。终端设备30可以经由网络40实现与服务器20的信息收发，例如从服务器20下载魔法表情包。服务器20可以通过访问数据库50来获取并提供终端设备30所需的内容，例如拍摄类应用软件、多媒体资源等。终端设备之间(例如，30_1与30_2或30_N之间)也可以经由网络40彼此通信。网络40可以是广义上的用于信息传递的网络，可以包括一个或多个通信网络，诸如无线通信网络、因特网、私域网、局域网、城域网、广域网或是蜂窝数据网络等。

在随后的描述中仅就单个服务器或终端设备加以详述，但是本领域技术人员应当理解的是，示出的单个服务器20、终端设备30和数据库50旨在表示本发明的技术方案涉及终端设备、服务器及数据库的操作。对单个终端设备以及单个服务器和数据库加以详述至少为了说明方便，而非暗示对终端设备和服务器的类型或是位置等具有限制。应当注意，如果向图示环境中添加附加模块或从其中去除个别模块，不会改变本发明的示例实施例的底层概念。另外，虽然为了方便说明而在图中示出了从数据库50到服务器20的双向箭头，但本领域技术人员可以理解的是，上述数据的收发也是可以通过网络40实现的。

如图3所示，为本发明实施例提供的基于强化学习的图像处理模型的结构示意图。该图像处理模型，包括特征提取网络31、价值网络32、策略网络33以及判别器网络34。

其中，价值网络32和策略网络33共用特征提取网络31输出的结果。判别器网络34和策略网络33构成GAN网络(Generative Adversarial Nerworks，生成对抗网络)，以此通过对抗的方式去学习数据分布，以期能够充分训练策略网络33给出合理的处理策略。在本发明中，策略网络33给出图像的处理策略，基于该处理策略构造出图像，然后经过判别网络对构造出的图像进行评分，评分越高，则表示构造出的图像越接近专家修饰的高质量的视觉效果好的图像。

为了能够使得判别器网络学习并认识“高质量、效果好”的图像，本发明实施例中，判别器网络的训练样本中不仅包括需要经过策略网络修饰的目标样本图像，还可以包括经过人工修饰的高质量的图像作为训练样本。

此外，为了能够得到处理后的图像的局部反馈信息，本发明实施例中，由具有缺陷的图像作为目标训练样本，每个目标训练样本会对应一个配对图像，即配对图像和相应目标训练样本的图像内容相同，但是配对图像是由目标训练样本经过专家修饰后得到的高质量的效果好的图像。在计算局部反馈信息时，先基于策略网络对目标样本图像进行修饰后，得到修饰后的优化样本图像，修饰后的优化样本图像将会和其配对图像进行比较，来计算局部反馈信息。

综上所述，本发明实施例中采用的训练集中包括需要经过策略网络进行修饰的目标样本图像，目标样本图像的配对图像以及经过人工修饰好的“高质量，效果好”的非配对图像。其中，非配对图像也是高质量的图像，其和配对图像的区别在于：非配对图像和对应的目标样本图像的图像内容不要求完全相同。

MIT-AdobeFiveK是图像效果增强领域大量使用的数据集，共有5000张原始图像，每张图像都有5种配对图像，该配对图像是由五位专家(A，B，C，D，E)使用AdobeLightroom修饰得到的。原始图像大部分进光量不足、色彩暗淡，修饰的图像有良好的曝光和丰富的色彩。故此，目标样本图像及其对应的配对图像可从MIT-AdobeFiveK数据集中选取。当然，在实施的时候，可以选择该数据集中部分专家的图像作为配对图像进行训练。

此外，在一些分享专业的摄影图像网站中，也存储了大量经过专业人士精心修饰的高质量图像。同时获赞数多的图像往往具有令人惊叹的视觉效果和艺术风格，本发明中也从这些网站上获取大量非配对的高质量图像。

针对每个目标样本图像，策略网络用于对目标样本图像进行分析，得到目标样本图像中各像素点的处理方式；本发明中，为了提高图像处理模型的可读性，避免图像处理模型像一个无法解读的黑盒子进行工作，本发明中各像素点的处理方式基本采用调整饱和度、调整亮度、调整对比度等这种业内容易解读的图像处理方式。

价值网络用于对目标样本图像进行分析，得到每个像素点的期望累积反馈信息(也即基于当前图像状态得到的长期的最终的收益的期望)。

目标样本图像在使用策略网络给出的处理方式处理后得到优化样本图像，然后基于判别器对目标样本图像和优化样本图像分别进行识别，得到判别结果，由判别结果之间的差异度作为全局反馈信息。然后基于全局反馈信息和局部反馈信息来确定每个像素点的瞬时反馈信息，再进一步结合每个像素点的期望累积反馈信息，可以训练图像处理模型。其中，全局反馈信息、局部反馈信息以及瞬时反馈信息的确定方式可包括：

全局反馈信息确定方式1：

判别器网络可以给出图像的评分，评分越高意味着图像质量越好，越接近专家修饰的高质量、效果好的图像。故此，判别器网络输出的判别结果的值域应为连续取值区间，以便于能够区分不同质量的图像。实施时可使用带梯度惩罚的WassersteinGAN(WGAN-GP)作为基础判别器。

则确定全局反馈信息时，可将目标样本图像和优化样本图像分别输入判别器网络，得到与目标样本图像对应的第一判别结果以及与优化样本图像对应的第二判别结果，然后确定第一判别结果和第二判别结果之间的差异度作为全局反馈信息。

该差异度例如是二者之间的差值，亦或者是差值与第一判别结果的比值。原则上，能够表征二者之间的差异度的计算方式均适用于本发明实施例。

全局反馈信息确定方式2：

实施时，可以不采用判别器。全局反馈信息可以是各个像素点的局部反馈信息的MSE，也适用于本发明实施例。

关于局部反馈信息：对每个像素点，可获取目标样本图像和优化样本图像中像素点的颜色值；然后对这两个颜色值进行比较，得到由这两个颜色值确定的颜色差异度作为像素点的局部反馈信息。

例如，可计算目标样本图像和处理后的优化样本图像中同一像素点的颜色值的差值作为该像素点的局部反馈信息。也可以参照以该像素点为基准的邻域内各个像素点的颜色差值确定局部反馈信息。例如，邻域内每个像素点的颜色差值都可以对应一个权重，按照距离中心的像素点的距离设置权重，距离越近权重越高。然后采用加权求和方式来确定中心位置的像素点的局部反馈信息。其中，邻域可以是四邻域、八邻域等。

本发明实施例中，训练策略网络采用的瞬时反馈信息由每个像素点的全局反馈信息和局部反馈信息决定。

瞬时反馈信息的确定：本发明中，瞬时反馈信息分别和全局反馈信息和瞬时反馈信息成正比。例如，对每个像素点，该像素点的全局反馈信息和局部反馈信息的和值作为该像素点的瞬时反馈信息；当然，也可以由全局反馈信息和局部反馈信息的加权求和结果作为该像素点的瞬时反馈信息。基于各像素点的瞬时反馈信息以及价值网络输出的各像素点的期望累积反馈信息，可以训练策略网络。

“演员-评论家模式”(Actor-Critic)是经典的强化学习算法。在Actor-Critic建议下，强化学习的模型训练过程分成两个角色：Actor和Critic。Actor角色也叫“演员角色”，是一个独立模型(即本发明中的策略网络)，在深度强化学习中通常是一个深度神经网络，目标是学习智能体的动作，即本发明中每个像素点的处理方法。Critic角色又叫“评论家角色”(即本发明中的价值网络)，同样也是一个独立模型，目标是学习估值大小(即输出每个像素点的期望累积反馈信息)。Actor-Critic模式更新是连续的，Critic直接通过梯度下降来优化，且方差较少，模型收敛稳定性高，在强化学习领域得到了广泛的应用。

A2C(Advantage Actor-Critic，优势动作评论算法)属于Actor-Critic框架，是一种常用的强化学习方法，可衡量选取动作值和所有动作平均值好坏。A2C算法是基于策略梯度算法进行改进的，其引出两个Critic概念：Q^π(s_t，a_t)和V^π(s_t)。Q^π(s_t，a_t)表示在状态s_t采取动作a_t后获得的样本图像的整体的累积反馈信息(即所有像素点的期望累积反馈信息之和)，V^π(s_t)表示在到达s_t后获得的瞬时反馈信息，所以V^π(s_t)和a_t无关，是Q^π(s_t，a_t)的期望，本发明中给出A2C算法的优化目标如公式(1)所示：

在公式(1)中，其他参数已在上文中说明，这里仅就未定义的参数进行说明。

表示时间步t时可能选择的各个动作的概率分布；

表示第n个时间步时图像位于s_t状态时的瞬时反馈信息，

表示第n个时间步时图像位于s_t状态时图像的整体的累积反馈信息。

表示优化目标，其值越小越好。

Q^π(s_t，a_t)和V^π(s_t)需要用两个价值网络预测，耗费资源，理想情况是只使用同一个价值网络估计。在V2C中，V^π(s_t+1)已经包括了t+1时间步之后所有可能状态的奖励和，V^π(s_t)是Q^π(s_t，a_t)的平均值，所以可使用V^π(s_t)近似表示Q^π(s_t，a_t)，如下式(2)所示：

Q^π(s_t，a_t)≈r_t+γV^π(s_t+1) (2)

其中，r_t表示在t时刻即时间步t时得到的图像整体的瞬时反馈信息，V^π(s_t+1)表示估计的(t+1)时间步得到的图像整体的瞬时反馈信息。

A2C算法包括策略网络θ_p和价值网络θ_v，价值网络θ_v使用时间差分法回归，将r_t+γV^π(s_t+1)作为偏差进行回归。策略网络θ_p使用梯度下降优化目标，如下式(3)所示，为一种实施例方式中价值网络和策略网络的优化目标：

在公式(3)中，dθ_v为价值网络的优化目标，其值越小越好；dθ_p为策略网络的优化目标，其值越小越好，其他参数如上文所述，这里仅说明p_θ(a_t|s_t)表示在状态S_t时采取的处理方式的概率分布。

A2C算法在强化学习各种领域(游戏控制，自动驾驶)有广泛的应用，而且具有容易操作和稳定性高的优势，所以本发明中实现的像素级强化学习算法以A2C为基础，拓展为每个像素的策略和值估计问题。

另一种实施方式中，本发明实现的全局反馈信息和局部反馈信息结合的像素级强化学习图像效果增强算法将图像效果增强问题转化为求解马尔科夫决策过程(MDP，MarkovDecisionProcess)，MDP是对强化学习问题的一种简化，有利于学习智能体和环境的交互方式。对于像素级强化学习方法，目标是找到每个像素在多个时间步中的动作序列，使得所有像素的期望累积反馈信息最大。本发明中将整幅图像所有像素的动作集合命名为actionmap，动作具体的意义是根据得到的actionmap修饰目标样本图像，将每个像素点取值(即每个像素点的自己的期望累积反馈信息)变为执行对应图像编辑操作后的像素值。将输入图像表示为I，有m×n个像素，$I_i，j(i＝1，...，mj＝1，...，n)表示位于第i行第j列的像素，I_i，j处的策略表示成

表示I_i，j在时间步t选择的动作，A是本发明提供的一些图像处理操作的集合，A的大小为L，是可供选择动作的数量。

表示I_i，j在时间步t时的像素值，在初始时刻t＝0时有

所有像素的动作

组成

把a^(t)称作action map。同理

是整幅图像在时间步t时的状态。对x^(t)采取a^(t)图像操作后，环境返回下一个状态x^(t+1)和每个像素点的瞬时反馈信息

意味着每个像素点都有奖励。

图4展示了在时间步t时刻输入状态x^(t)后的操作流程，价值网络输出每个像素点的期望累积反馈信息估计，策略网络输出每个像素点最大概率获得最大期望累积反馈信息的动作，之后执行该动作，然后和非匹配图像输入判别器网络获得每个像素点的全局反馈信息，并与配对图像比较获得局部反馈信息。

值得一提的是，和其他强化学习问题(如Atari游戏)不同的是，图像增强的环境给定x^(t)和a^(t)一定会返回固定的x^(t+1)，因为图像增强的动作没有任何随机性的条件，即任何情况下(x^(t+1)|x^(t)，a^(t))＝1。这一定程度上会使训练更加容易。最终的目标是要找到一个最优策略来最大话期望累积反馈信息，其原理如下式(4)所示：

其中，

表示选择的所有时间步的策略，公式等号右半部分表示每个时间步t时选择使得所有像素点的期望累积反馈信息和值最大的处理策略，γ^t表示时间步t时的衰减系数，可根据经验值确定；

表示时间步t时的第(i，j)个像素点的瞬时反馈信息。

本发明选择A2C算法作为像素级图像效果增强算法的框架，A2C方法包括价值网络和策略网络，价值网络预测每个像素点的值(value)，表示每个像素点对之后时间步期望累积反馈信息的预测。对于输入状态X^(t)，输出的值预测v^(t)有相同的尺寸维度。策略网络输出每个像素点选择不同动作的概率π(a(t)|x(t)),同样和输入的维度一样。由此，价值网络和策略网络的目标函数可分别表示为如公式(5)和公式(6)所示，其中，公式(5)为价值网络的目标函数，公式(6)为策略网络的目标函数：

其中在公式(5)中，

为价值网络的训练目标，且训练的目标为不断缩小

值，使之越小越好；m×n表示目标样本图像包括的总像素点数；γ表示预设的衰减系数，可根据经验值确定；

表示下一时间步时第(i，j)个像素点的累计瞬时反馈信息；

表示当前时间步第(i，j)个像素点的瞬时反馈信息；

表示基于当前时间步得到的第(i，j)个像素点的期望累积反馈信息。

在公式(6)中，策略网络的训练目标为不断缩小

且其值越小越好；m×n表示所述目标样本图像包括的总像素点数；γ表示预设的衰减系数；

表示当前时间步第(i，j)个像素点的累计瞬时反馈信息；

表示下一时间步时第(i，j)个像素点的累计瞬时反馈信息；

表示当前时间步第(i，j)个像素点的瞬时反馈信息；

强化学习中动作是一个很重要的概念，它表示了智能体与环境的交互方式，比如对于强化学习求解小游戏问题来说，动作可设置成人物的移动方向和移动距离等，对于图像效果增强问题，本发明的动作设置为一系列优秀的传统图像处理操作，这些图像处理操作都是经过大量工作验证有效的方法，同时具有较好的效果和可解释性。本发明中在动作集合中添加了一些可读性较强的图像处理操作，相当于完善工具箱，实现多任务处理。在综合考虑系统复杂度和实现效果后，本发明图像处理操作包括但不限于饱和度、对比度等图像处理操作。像素的动作本质上是一个选择不同操作下输出像素值的过程，即每个像素的智能体可选择执行完不同动作后完成对该位置像素值的处理。实施时，本发明选择的主要的图像处理方式可包括：

1)、饱和度调整：

饱和度通常描述了纯色彩中添加白光的程度，即色彩的纯度，一般用百分比来表示，本发明中将饱和度归一化到[0,1]，饱和度数值越高，说明色彩的纯度越高，饱和度数值越低，说明色彩的纯度越低，比如蓝色有深蓝和浅蓝之分。饱和度影响用户对图像的评价，一般来说颜色越艳丽，用户满意度可能越高。

调整饱和度的方法有很多，本发明提供的一种实施方式为将RGB色彩空间转换为HLS空间，对S通道微增或者微减，然后把图像从HLS空间转换成RGB空间。HLS空间三个通道分别是H(Hue，色调)、L(Lightness，光亮度)和S(Saturation饱和度)。为了缩减求解空间，不直接回归S通道的值，而是分成两个动作(微增和微减)，微增是对S通道乘以一个大于1的系数，微减是对S通道乘以一个小于1的系数。这样大大减少了随机性，同时还增多了交互。下式(7)展示了饱和度调整过程，c_S是调整系数，c_S＞1表示微增饱和度，c_S＜1表示微减饱和度。

其中，H，L，S＝RGBtoHLS(img)表示将图像从RGB颜色空间映射到HLS颜色空间；

表示调整后的饱和度；S表示调整前的饱和度

表示将图像从HLS颜色空间映射回RGB颜色空间。

2)、亮度调整

亮度是用来描述图像像素明亮程度的属性，也是通过百分比的形式表示。本发明中同样将其归一化到[0,1]。亮度大小衡量有多少光线从物体表面反射出来，是人眼感知色彩的重要属性。如果亮度太亮或者太暗，人眼无法分辨出物体表面的原始色彩，所以亮度对于评价图像效果至关重要。

本发明调整亮度同样将RGB色彩空间转换为HLS空间，对L通道微增或者微减，微增是对L通道乘以一个大于1的系数，微减是对L通道乘以一个小于1的系数。最后把HLS空间的图像转换成RGB空间图像。式(8)展示了亮度调整过程，c_L是调整系数。

表示调整后的亮度；L表示调整前的亮度；

表示将图像从HLS颜色空间映射回RGB颜色空间。

3)、对比度调整

对比度衡量图像明暗区域最亮处和最暗处之间的差别，差别越大表示对比度越高，意味着图像是宽动态图像。合适的对比度能显示丰富的视觉效果，也更容易达到人类的审美标准。但是目前没有一套完备的对比度标准，不同条件的图像可能适合不同的对比度才能达到人眼“美”的标准。

对比度调整同样有很多不同的方法，本发明的一种实施方式为通过原值和图像平均值加权求和得到调整后的对比度，如公式(9)所示：

I_contrast＝c×I+(1-c)×I_mean (9)

其中I_mean表示输入图像亮度I的均值，c是一个固定系数，对于对比度微增动作，c设置成稍大于1的数，加大了最亮像素值和最暗像素的差距，从而加大对比度。反之同理，对比度微减动作中c设置成小于1的数。

4)、直方图均衡化

直方图均衡化是对图像非线性拉伸，目标是为了整幅图像在一个像素区间内各个像素值的数量大致相等。其实直方图均衡化本质也是对比度和亮度调整的方法之一，使得原直方图中波峰对比度得到了增强，波谷对比度降低。在本发明实施例中直方图均衡化作为其中一个动作，不需要预设参数，只需要直接对当前状态直方图均衡化即可。

5)、局部色彩校正

为了处理同时拥有较亮和较暗区域的图像，能够得到合适的校正色彩，色彩校正可如公式(10)所示。

M_x,y＝(Gaussian(255-I))

其中，M_x，y是对掩模图像执行高斯滤波后位于(x,y)位置的像素值，如果掩模图像对应位置大于128，得到大于1的指数，说明原始图像局部比较明亮，提高的程度稍微减小，通过这样的方式实现局部色彩校正。

综上所述，可概括为：

所述饱和度调整操作用于以当前饱和度为基准按第一比例增加饱和度或按第二比例降低饱和度；

综上所述，介绍了本发明实施例中，图像处理模型的结构，以及样本的选择、优化目标的设置，以及瞬时反馈信息的确定。相应的训练图像处理模型的步骤可概括为如图5所示，包括以下步骤：

步骤501：对目标样本图像进行特征提取，得到所述目标样本图像的特征图；

步骤502：将所述图像特征分别输入所述策略网络和所述价值网络，得到所述目标样本图像中各像素点的处理方式，以及每个像素点的图像质量的期望累积反馈信息；

步骤503：利用所述处理方式对所述目标样本图像进行处理后得到优化样本图像；

步骤504：比较所述目标样本图像和所述优化样本图像，得到所述目标样本图像中每个像素点的图像质量的瞬时反馈信息，其中，对每个像素点，所述瞬时反馈信息是根据全局反馈信息和局部反馈信息得到的，所述全局反馈信息用于表示所述目标图像样本的图像质量的整体反馈信息，所述局部反馈信息用于表示所述像素点处的图像颜色的反馈信息；

步骤505：采用各像素点的所述期望累积反馈信息和所述瞬时反馈信息训练所述价值网络和所述策略网络。

相应的，在采用本发明提供的图像处理模型处理图像时，处理的流程可如图6所示，包括以下步骤：

步骤601：对待处理图像进行特征提取，得到所述待处理图像的特征图；

步骤602：将所述特征图输入策略网络，得到所述待处理图像中各像素点的处理方式；

步骤603：利用所述处理方式对所述待处理图像中的各像素点进行处理；

其中，所述策略网络是根据目标样本图像中每个像素点的图像质量的期望累积反馈信息和瞬时反馈信息训练得到的；且对各像素点，所述瞬时反馈信息是根据全局反馈信息和局部反馈信息得到的，所述全局反馈信息用于表示所述目标样本图像的图像质量的整体反馈信息，所述局部反馈信息用于表示所述像素点处的图像颜色的反馈信息。

为了便于理解本发明中训练的图像处理模型能够获得较高质量的图像，下面结合实验结果数据对此进行说明。

消融实验

为了验证本发明实现的全局反馈信息和局部反馈信息结合的像素级强化学习图像效果增强算法各个组件的必要性，设计了消融实验来证明本发明的图像处理模型的训练方法在强化学习方法中的有效性。消融实验的核心思想是删除全局反馈信息和局部反馈信息的部分，分别进行采用和不采用全局反馈信息和局部反馈信息时进行实验得出结论，类似控制变量法。

验证全局反馈信息作用的消融实验是通过修改奖励设计，移除全局反馈信息部分，只包含局部反馈信息(相当于仅保留类似现有技术多种仅考虑每个像素点的颜色差异的情况)来衡量全局反馈信息结合局部反馈信息的图像效果。验证全局反馈信息作用的消融实验由于去掉了判别器网络，所以只使用2450张配对图像训练即可。使用100张测试数据集进行测试，其中效果展示如图7所示，第一列是原始输入图像，第二列是去除全局奖励后的结果，第三列对应本发明方法的结果。

由图7可知，去除全局反馈信息后的结果，图像色彩比较灰暗，噪声比较明显，没有良好的全局风格，而第三列本发明最终版本结果风格要优于不加全局反馈信息的结果。这证明了全局反馈信息的有效性，说明非配对图像得到的全局反馈信息相当于一种防止过拟合的手段，消除全局反馈信息之后每个像素倾向于数值上的接近，容易过拟合产生噪声。同时没有全局反馈信息画面比较灰暗，证明全局反馈信息学习到了图像风格，产生吸引人的效果。

客观评价结果与分析

虽然图像效果增强有很多研究工作，但是仍然没有建立一个全面、客观的评价体系，即无法使用一套标准评价体系全面衡量所有情况下图像的质量。目前大多数方法是使用人类主观的视觉评价，但是评价结果往往受到个人审美、个人喜好等诸多主观因素影响，可能出现不一致的评价。为了保证结果的客观性，本发明将客观评价和主观结合，更加全面验证方法的有效性。

目前主流的客观评价指标主要有3种：均方损失MSE，峰值信噪比(PSNR，PeakSignal To Noise Ratio)和结构相似度(SSIM，Structural Similarity Index)。这些评价指标适用于配对图像，衡量方法为确定输出图像和目标图像的差距，常用于去噪、图像恢复等领域。

MSE在深度学习中应用广泛，用来衡量特征之间的差异，和目标图像的MSE越小表示越接近目标。MSE运算简单有效，是常用的衡量指标，设结果图像为s，对应目标图像为

尺寸是m×n，MSE表达如下式(11)所示。

PSNR也是目前广泛使用的客观评价指标，定义是图像最大信号与背景噪声的比值，比值越大意味着图像质量越接近目标图像，由于PSNR中包含了MSE，通常使用PSNR作为客观指标，如下式(12)所示。

SSIM指标衡量图像和目标的亮度、对比度和结构轮廓的相似度，SSIM指标越高说明和目标图像越相似，如下式(13)所示。

其中x,y分别表示结果图像和目标图像，μ_x，μ_y表示结果图像和目标图像的像素值均值，

表示结果图像和目标图像的像素值方差，σ_xy表示两者的协方差，c₁，c₂是常数，避免值波动。为了加速计算，每次SSIM是对固定尺寸窗口计算，然后滑动窗口得到多个SSIM，最后取平均得到整张图像的SSIM。

本发明使用PSNR和SSIM指标来衡量强化学习修饰后的图像和人类专家修饰图像之间的差异。表1展现了消融实验的PSNR和SSIM结果。最终版本的PSNR和SSIM指标都要好于去除全局反馈信息的指标，再次从客观指标证明了全局反馈信息结合局部反馈信息的必要性。

表1客观指标PSNR和SSIM对比

方法	PSNR	SSIM
			去除全局反馈信息	22.87	0.688

			本发明结果	23.28	0.753

关于可读性的测试

图8展示了对图像的5个时间步的action map可视化效果。action map指示了每个像素执行的动作，其中，可采用不同的颜色表示执行的具体操作。由此，本发明提供的方法能够直观地展示图像修饰流程，加强了图像效果增强的可解释性。第一张图像首先对绝大部分像素提高亮度，符合人类专家修饰图像的流程，之后对不同区域调整饱和度和对比度，对于某些区域在某些时间步时停止操作保持原状，防止局部过曝或者过度调整。第二张图像在t＝1时对石壁区域停止操作，因为石壁区域亮度较大，防止局部过曝。第三张图像同样由于进光量不足，在初始阶段提升了全局亮度，之后对每个像素执行不同操作，结果显示整个处理操作结束后达到令人满意的效果。

基于相同的构思，本发明实施例还提出了一种图像处理模型训练装置，所述图像处理模型包括价值网络以及策略网络。

图9为根据本发明一个实施例的图像处理模型训练装置的示意图，所述图像处理模型包括第一网络以及第二网络，该装置900可以包括：

特征图提取模块901，被配置为执行对目标样本图像进行特征提取，得到所述目标样本图像的特征图；

累积反馈信息确定模块902，被配置为执行将所述图像特征分别输入所述第二网络和所述第一网络，得到所述第二网络输出的所述目标样本图像中各像素点的处理方式，以及所述第一网络输出的每个像素点的图像质量的期望累积反馈信息；

优化模块903，被配置为执行利用所述处理方式对所述目标样本图像进行处理后得到优化样本图像；

瞬时反馈信息确定模块904，被配置为执行比较所述目标样本图像和所述优化样本图像，得到所述目标样本图像中每个像素点的图像质量的瞬时反馈信息，其中，对每个像素点，所述瞬时反馈信息是根据全局反馈信息和局部反馈信息得到的，所述全局反馈信息用于表示所述目标图像样本的图像质量的整体反馈信息，所述局部反馈信息用于表示所述像素点处的图像颜色的反馈信息；

训练模块905，被配置为执行采用各像素点的所述期望累积反馈信息和所述瞬时反馈信息训练所述第一网络和所述第二网络。

在一些实施例中，所述第一网络的目标函数为：

其中，

其中，训练目标为不断缩小

表示下一时间步时第(i，j)个像素点的累计瞬时反馈信息；

表示当前时间步第(i，j)个像素点的所述瞬时反馈信息；

在一些实施例中，所述第二网络的目标函数为：

其中，

其中，训练目标为不断缩小

表示当前时间步第(i，j)个像素点的累计瞬时反馈信息；

表示下一时间步时第(i，j)个像素点的累计瞬时反馈信息；

表示当前时间步第(i，j)个像素点的瞬时反馈信息；

基于相同的发明构思，本发明还提供一种图像处理装置，如图10，所述装置1000包括：

特征图确定模块1001，被配置为执行对待处理图像进行特征提取，得到所述待处理图像的特征图；

策略确定模块1002，被配置为执行将所述特征图输入第二网络，得到所述待处理图像中各像素点的处理方式；

处理模块1003，被配置为执行利用所述处理方式对所述待处理图像中的各像素点进行处理；

关于图像处理模型训练装置以及图像处理装置中各操作的实施以及有益效果可参见前文方法中的描述，此处不再赘述。

在介绍了本发明示例性实施方式的一种图像处理模型训练和图像处理方法和装置之后，接下来，介绍根据本发明的另一示例性实施方式的电子设备。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

在一些可能的实施方式中，根据本发明的电子设备可以至少包括至少一个处理器、以及至少一个存储器。其中，存储器存储有程序代码，当程序代码被处理器执行时，使得处理器执行本说明书上述描述的根据本发明各种示例性实施方式的图像处理模型训练和图像处理方法中的步骤。例如，处理器可以执行如图5或图6所示的步骤。

下面参照图11来描述根据本发明的这种实施方式的电子设备130。图11显示的电子设备130仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图11所示，电子设备130以通用电子设备的形式表现。电子设备130的组件可以包括但不限于：上述至少一个处理器131、上述至少一个存储器132、连接不同系统组件(包括存储器132和处理器131)的总线133。

总线133表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。

存储器132可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)1321和/或高速缓存存储器1322，还可以进一步包括只读存储器(ROM)1323。

存储器132还可以包括具有一组(至少一个)程序模块1324的程序/实用工具1325，这样的程序模块1324包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

电子设备130也可以与一个或多个外部设备134(例如键盘、指向设备等)通信，还可与一个或者多个使得用户能与电子设备130交互的设备通信，和/或与使得该电子设备130能与一个或多个其它电子设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口135进行。并且，电子设备130还可以通过网络适配器136与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器136通过总线133与用于电子设备130的其它模块通信。应当理解，尽管图中未示出，可以结合电子设备130使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

在一些可能的实施方式中，本发明提供的图像处理模型训练和图像处理方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在计算机设备上运行时，程序代码用于使计算机设备执行本说明书上述描述的根据本发明各种示例性实施方式的图像处理模型训练和图像处理方法中的步骤，例如，计算机设备可以执行如图5或图6所示的步骤。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本发明的实施方式的用于图像处理模型训练和图像处理的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在电子设备上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户电子设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户电子设备上部分在远程电子设备上执行、或者完全在远程电子设备或服务器上执行。在涉及远程电子设备的情形中，远程电子设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户电子设备，或者，可以连接到外部电子设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了装置的若干单元或子单元，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于强化学习的图像处理模型训练方法，所述图像处理模型包括第一网络以及第二网络，其特征在于，所述方法包括：

比较所述目标样本图像和所述优化样本图像，得到所述目标样本图像中每个像素点的图像质量的瞬时反馈信息，其中，对每个像素点，所述瞬时反馈信息是根据全局反馈信息和局部反馈信息得到的，所述全局反馈信息用于表示所述目标样本图像的图像质量的整体反馈信息，所述局部反馈信息用于表示所述像素点处的图像颜色的反馈信息；

2.根据权利要求1所述的方法，其特征在于，所述图像处理模型还包括判别器网络，且所述第二网络和所述判别器网络构成对抗网络，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述目标样本图像对应有配对图像，所述比较所述目标样本图像和所述优化样本图像，得到所述目标样本图像中每个像素点的图像质量的瞬时反馈信息中的局部反馈信息，包括：

4.根据权利要求2所述的方法，其特征在于，所述判别器网络的训练集中包括所述目标样本图像以及非配对图像，所述非配对图像与所述目标样本图像的图像内容不同。

5.根据权利要求1所述的方法，其特征在于，所述第一网络的目标函数为：

其中，训练目标为不断缩小

表示当前时间步时第(i，j)个像素点的累计瞬时反馈信息，

表示下一时间步时第(i，j)个像素点的累计瞬时反馈信息；

表示当前时间步第(i，j)个像素点的所述瞬时反馈信息；

6.根据权利要求1所述的方法，其特征在于，所述第二网络的目标函数为：

其中，

其中，训练目标为不断缩小

变小；m×n表示所述目标样本图像包括的总像素点数；γ表示预设的衰减系数；

表示当前时间步第(i,j)个像素点的累计瞬时反馈信息；

表示下一时间步时第(i,j)个像素点的累计瞬时反馈信息；

表示当前时间步第(i,j)个像素点的瞬时反馈信息；

表示当前时间步由所述第二网络得出的第(i,j)个像素点的处理方式的选择概率；

表示基于当前时间步得到的第(i,j)个像素点的所述期望累积反馈信息。

7.根据权利要求1所述的方法，其特征在于，对每个像素点，根据以下方法确定所述像素点的瞬时反馈信息：

8.根据权利要求2所述的方法，其特征在于，所述判别器网络输出的判别结果的值域为连续取值区间。

9.根据权利要求1-8中任一所述的方法，其特征在于，所述第一网络和所述第二网络符合优势动作评论模式的框架要求。

10.根据权利要求1-8中任一所述的方法，其特征在于，所述处理方式包括以下中的至少一种操作：饱和度调整操作、亮度调整操作、直方图均衡化操作、局部色彩校正操作以及对比度调整操作。

11.根据权利要求10所述的方法，其特征在于，所述饱和度调整操作用于以当前饱和度为基准按第一比例增加饱和度或按第二比例降低饱和度；

12.一种图像处理方法，其特征在于，所述方法包括：

13.根据权利要求12所述的方法，其特征在于，所述处理方式包括以下中的至少一种操作：饱和度调整操作、亮度调整操作、直方图均衡化操作、局部色彩校正操作以及对比度调整操作。

14.根据权利要求13所述的方法，其特征在于，所述饱和度调整操作用于以当前饱和度为基准按第一比例增加饱和度或按第二比例降低饱和度；

15.一种基于强化学习的图像处理模型训练装置，所述图像处理模型包括第一网络以及第二网络，其特征在于，所述装置包括：

瞬时反馈信息确定模块，被配置为执行比较所述目标样本图像和所述优化样本图像，得到所述目标样本图像中每个像素点的图像质量的瞬时反馈信息，其中，对每个像素点，所述瞬时反馈信息是根据全局反馈信息和局部反馈信息得到的，所述全局反馈信息用于表示所述目标样本图像的图像质量的整体反馈信息，所述局部反馈信息用于表示所述像素点处的图像颜色的反馈信息；

16.根据权利要求15所述的装置，其特征在于，所述图像处理模型还包括判别器网络，且所述第二网络和所述判别器网络构成对抗网络，所述装置还包括：

17.根据权利要求15所述的装置，其特征在于，所述瞬时反馈信息确定模块，具体被配置为执行：

18.根据权利要求16所述的装置，其特征在于，所述判别器网络的训练集中包括所述目标样本图像以及非配对图像，所述非配对图像与所述目标样本图像的图像内容不同。

19.根据权利要求15所述的装置，其特征在于，所述第一网络的目标函数为：