CN112200737A

CN112200737A - 一种基于强化学习的图像处理方法、装置及存储介质

Info

Publication number: CN112200737A
Application number: CN202011035299.6A
Authority: CN
Inventors: 杨幸潮; 章佳杰; 郑云飞; 于冰
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-09-27
Filing date: 2020-09-27
Publication date: 2021-01-08
Anticipated expiration: 2040-09-27
Also published as: CN112200737B

Abstract

本申请公开了一种基于强化学习的图像处理方法、装置及存储介质，涉及图像处理技术领域，用以解决因无法准确的处理图像从而导致处理效果差的问题。该方法中，对目标图像进行特征提取，得到目标图像的特征图；将特征图输入到基于强化学习的第一网络中，得到目标图像中各像素点的目标处理方式；其中，第一网络是基于强化学习的方法训练目标网络模型得到的；在目标网络模型中，对至少一个指定神经网络层提取的特征图的各空间位置进行掩码打分处理；根据目标处理方式对目标图像进行处理。这样，通过将强化学习和空间注意力机制结合，能够很好的帮助神经网络理解和提取图像特征，进而保证得出的策略是更加合理的，从而提高图像处理的效果。

Description

一种基于强化学习的图像处理方法、装置及存储介质

技术领域

本申请涉及图像处理技术领域，尤其涉及一种基于强化学习的图像处理方法、装置及存储介质。

背景技术

随着智能手机的普及和拍照设备的不断升级，用户可以很轻松地获得照片，来记录生活中精彩的瞬间。然而，目前的手机为了满足方便携带的特性，在相机硬件上不可避免地会做出一些妥协，这导致了智能手机拍摄的图像质量与数码单反相机等先进设备相比相差很大，智能手机相机中最常见的硬件限制是缺少大光圈镜头和光电二极管组成的小型传感器，从而造成手机图像与单反等先进设备拍摄的图像相比有进光量不足、色彩不饱满、噪声多、对比度较差等缺点。目前智能手机市场上新发布的产品大多主打手机摄影功能的提升，在硬件提升方面花费很多精力，比如增加越来越多不同功能的摄像头来弥补手机摄影硬件的缺陷，这需要提升手机的成本而且会影响手机的美观和便携性。为了克服这种固有的硬件限制，因此从软件方面弥补硬件缺陷实现对于拍摄的图像的处理的方式更加高效和经济。

发明人发现，用户经常通过社交媒体以及网络平台发布自己的照片，而由于手机拍照硬件的限制可能对图像的效果不满意，在发布前往往会用一些图像处理软件矫正图像的缺陷(比如曝光度不足、对比度差等等)，有时还夸大颜色、亮度和色调来实现夸张的视觉效果。一般高质量图像的编辑处理通常由有经验的艺术家耗费大量的人工劳作来完成。市场上一些专业的交互式图像处理软件(如AdobePhotoshop和Lightroom等软件)可以帮助用户修饰图像。而这些专业的处理软件需要用户花费大量时间学习和熟练才能掌握。同时修饰结果对参数非常敏感，用户可能没有专业技能或者对参数的调整没有概念，导致最后的结果无法令人满意。

目前，相关技术中采用的强化学习的图像处理工作中，使用简单的全卷积网络进行图像处理，但是该方法存在无法准确的处理图像从而导致处理效果差的问题。因此，一种自动实现图像效果增强，且使得用户无需拥有专业技能就能获得令人满意的效果的图像处理方法，是当下一项非常有研究意义的技术问题。

发明内容

本公开实施例提供图像处理方法及相关装置，用以解决现有技术中存在的无法准确的处理图像从而导致处理效果差的问题。

第一方面，本公开实施例提供的一种基于强化学习的图像处理方法，所述方法包括：

对目标图像进行特征提取，得到所述目标图像的特征图；

将所述特征图输入到基于强化学习的第一网络中，得到所述目标图像中各像素点的目标处理方式；其中，所述第一网络是基于强化学习的方法训练目标网络模型得到的；在所述目标网络模型中，对至少一个指定神经网络层提取的特征图的各空间位置进行掩码打分处理；

根据所述目标处理方式对所述目标图像进行处理。

在一种可能的实现方式中，所述对至少一个指定神经网络层提取的特征图的各空间位置进行掩码打分处理，包括：

对所述特征图进行特征重排，得到第一重排矩阵和第二重排矩阵；其中，所述第一重排矩阵和所述第二重排矩阵均与所述特征图的维度不同；

将所述第一重排矩阵和所述第二重排矩阵相乘，得到所述特征图的关系矩阵；

将所述关系矩阵和所述特征图相乘，并通过转置变换得到与所述特征图尺寸相同的矩阵；

将与所述特征图尺寸相同的矩阵与所述特征图相加，得到调整后的特征图。

在一种可能的实现方式中，所述对所述特征图进行特征重排，得到第一重排矩阵和第二重排矩阵，包括：

将所述特征图与预设卷积核进行卷积计算，得到第一特征矩阵；

对所述第一特征矩阵进行特征重排，得到所述第一重排矩阵和所述第二重排矩阵；

所述将所述关系矩阵和所述特征图相乘，并通过转置变换得到与所述特征图尺寸相同的矩阵，包括：

将所述关系矩阵和所述第一特征矩阵相乘，并通过转置变换得到第二特征矩阵；

将所述第二特征矩阵与所述预设卷积核进行卷积计算，得到与所述特征图尺寸相同的矩阵。

在一种可能的实现方式中，若对所述特征图进行特征重排后，得到至少两个不同的，与所述特征图尺寸相同的矩阵；

所述将与所述特征图尺寸相同的矩阵与所述特征图相加，得到调整后的特征图，包括：

将所述特征图分别与各与所述特征图尺寸相同的矩阵相加，得到各计算结果；

将各计算结果相加，得到调整后的特征图。

在一种可能的实现方式中，采用所述指定神经网络层提取特征图，包括：

对输入所述指定神经网络层的特征图依次进行多次卷积处理，得到卷积特征；

对所述卷积特征进行批归一化处理，得到归一化特征；

利用激活函数对所述归一化特征进行处理，得到激活特征。

第二方面，本公开实施例提供的一种基于强化学习的图像处理装置，所述方法包括：

特征提取模块，被配置为执行对目标图像进行特征提取，得到所述目标图像的特征图；

处理方式获取模块，被配置为执行将所述特征图输入到基于强化学习的第一网络中，得到所述目标图像中各像素点的目标处理方式；其中，所述第一网络是基于强化学习的方法训练目标网络模型得到的；在所述目标网络模型中，对至少一个指定神经网络层提取的特征图的各空间位置进行掩码打分处理；

目标图像处理模块，被配置为执行根据所述目标处理方式对所述目标图像进行处理。

在一种可能的实现方式中，所述处理方式获取模块包括：

特征重排单元，被配置为执行对所述特征图进行特征重排，得到第一重排矩阵和第二重排矩阵；其中，所述第一重排矩阵和所述第二重排矩阵均与所述特征图的维度不同；

第一矩阵计算单元，被配置为执行将所述第一重排矩阵和所述第二重排矩阵相乘，得到所述特征图的关系矩阵；

第二矩阵计算单元，被配置为执行将所述关系矩阵和所述特征图相乘，并通过转置变换得到与所述特征图尺寸相同的矩阵；

第三矩阵计算单元，被配置为执行将与所述特征图尺寸相同的矩阵与所述特征图相加，得到调整后的特征图。

在一种可能的实现方式中，特征重排单元包括：

第一矩阵计算子单元，被配置为执行将所述特征图与预设卷积核进行卷积计算，得到第一特征矩阵；

第二矩阵计算子单元，被配置为执行对所述第一特征矩阵进行特征重排，得到所述第一重排矩阵和所述第二重排矩阵；

第二矩阵计算单元，包括：

第三矩阵计算子单元，被配置为执行将所述关系矩阵和所述第一特征矩阵相乘，并通过转置变换得到第二特征矩阵；

第四矩阵计算子单元，被配置为执行将所述第二特征矩阵与所述预设卷积核进行卷积计算，得到与所述特征图尺寸相同的矩阵。

在一种可能的实现方式中，若对所述特征图进行特征重排后，得到至少两个不同的，与所述特征图尺寸相同的矩阵；第三矩阵计算单元，包括：

第五矩阵计算子单元，被配置为执行将所述特征图分别与各与所述特征图尺寸相同的矩阵相加，得到各计算结果；

第六矩阵计算子单元，被配置为执行将各计算结果相加，得到调整后的特征图。

在一种可能的实现方式中，所述特征提取模块，被配置为执行采用所述指定神经网络层提取特征图时，具体执行：

对所述卷积特征进行批归一化处理，得到归一化特征；

利用激活函数对所述归一化特征进行处理，得到激活特征。

第三方面，本公开另一实施例还提供了一种电子设备，包括至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开第一方面实施例提供的任一方法。

第四方面，本公开另一实施例还提供了一种计算机存储介质，其中，所述计算机存储介质存储有计算机程序，所述计算机程序用于使计算机执行本公开第一方面实施例提供的任一方法。

本申请的实施例提供的技术方案至少带来以下有益效果：

首先对目标图像进行特征提取，得到所述目标图像的特征图；然后将所述目标图像的特征图输入强化学习的策略网络，得到所述目标图像的处理策略；最后根据所述处理策略处理所述目标图像。其中，所述策略网络是基于强化学习的方法训练目标网络模型得到的；并且，为了能够使得提取的图像特征更加合理，在所述目标网络模型中，对至少一个指定神经网络层提取的特征图的各空间位置进行掩码打分处理。这样，通过将强化学习和空间注意力机制结合，能够很好的帮助神经网络理解和提取图像特征，进而保证得出的策略是更加合理的，从而提高图像处理的效果。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例中提供的一种训练目标网络模型的结构示意图；

图2为本申请实施例中提供的空间注意力机制的流程示意图；

图3为本申请实施例中提供的一种基于强化学习的图像处理方法的流程示意图；

图4为本申请实施例中提供的修改后的空间注意力机制的流程示意图；

图5为本申请实施例中提供的一种基于强化学习的图像处理装置的结构示意图；

图6为本申请实施方式提供的中终端设备结构示意图。

具体实施方式

为了便于理解本公开实施例提供的技术方案，下面结合说明书附图对本公开实施例作进一步详细描述。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应理解这样的描述在适当情况下可以互换，以便本公开的实施例能够以除了本公开的图示或描述的内容以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

自动实现图像效果增强是一项艰巨的任务，因为难以同时生成具有良好效果和鲁棒性的增强图像。

目前，为了增强图像的视觉效果，有必要在强化学习框架中添加局部处理的功能。因此，相关技术存在的方法，均致力于实现强化学习的局部处理能力。该类方法中的一种方法的实现方式为，首先对输入的图像使用语义分割，然后对每个分割的块执行全局操作。然而，这种方法使得图像效果增强结果非常依赖于语义分割结果，而语义分割结果对于复杂场景无法很好地分割，从而导致较差的结果。该类方法中的另一种方法的实现方式为，在强化学习框架基础上实现了一个完全卷积网络，以获取每个像素的简单图像操作，实现了图像降噪，图像恢复和色彩增强等不同任务，导致图像特征提取结果不准确的问题。

有鉴于此，为了能够很好的帮助神经网络理解和提取图像特征，进而保证可生成具有良好效果和鲁棒性的增强图像，本公开实施例中，提供了一种基于强化学习的图像处理方法，其设计构思是对目标图像进行特征提取得到特征图后，将特征图输入到强化学习的策略网络，得到对于目标图像的处理策略；最后根据得到的处理策略处理目标图像。其中，所述策略网络是基于强化学习的方法训练目标网络模型得到的；并且，为了能够使得提取的图像特征更加合理，在所述目标网络模型中，对至少一个指定神经网络层提取的特征图的各空间位置进行掩码打分处理。这样，通过将强化学习和空间注意力机制结合，能够很好的帮助神经网络理解和提取图像特征，进而保证得出的策略是更加合理的，从而提高图像处理的效果。

为便于理解本公开实施例提供的基于强化学习的图像处理方法，下面首先对训练时采用的目标网络模型的结构进行介绍和说明。

参阅图1，为本公开实施例提供的一种训练目标网络模型的结构示意图，包括：用于下采样的下采样网络101、所述策略网络102、用于输入图像质量的期望累积反馈信息的价值网络103以及判别器网络104，其中：

(1)下采样网络101中包括多个下采样层，用于对所述目标图像进行特征提取。

首先，需要说明的是，图1中的目标网络模型仅为一种可能的实施例的示意图，并不用来限定本公开。

例如，图1示出的下采样网络中为包含4个下采样层的实施例，并且，每个下采样层接收图像的输入并输出特征提取后的特征图，且输出的特征图用于下一个下采样层的输入特征图。一种可能的实施方式中，本公开在训练该目标网络模型时，将输入下采样网络101的图像采用随机截取96*96的实施方式对该目标网络模型进行训练，因此对应的当输入图像经过下采样网络，以及分别经过策略网络和价值网络后，输出的也是96*96的图像。

上述实施方式中，输出下采样网络101的图像包括3个通道，例如，在RGB色彩模式下，3个通道则包括红色、绿色、蓝色通道。在输入图像经过下采样网络101中的每一个下采样层后，会逐渐扩充通道的数目，各下采样层输出的特征图维度在图1中对应示出，例如，在经过第一个下采样层后，输出特征图为48*48，且经过下采样后的通道变为32通道。通过下采样网络101对于输入图像的特征提取，从而增加了感受野的大小。

其次，所述下采样网络101提取的特征图分别输入给所述策略网络和所述价值网络；即如图1中所示，通过下采样网络提取的特征图，输入给策略网络，用于得到输入图像的处理策略；同时输入给价值网络，用于得到输入图像质量的期望累积反馈信息。

(2)所述策略网络102和所述价值网络103中分别包括多个升采样层。

本公开采用的目标网络模型，为了得到更加合理的处理策略，从而实现根据得到的处理策略处理目标图像，基于采用下采样和上采样的网络结构的强化学习模型，作为策略网络和价值网络的主干，从而得到本公开训练的目标网络模型。其中，采用下采样和上采样的网络结构的强化学习模型，例如有U-Net架构，该架构的感受野更大，因此更利于提取纹理等细节信息；并且，下采样网络是用来通过对于输入图像的下采样逐渐展现图像的细节特征信息，而上采样的过程是结合下采样各层信息和上采样网络的输入信息来还原细节信息，从而逐步还原到输入图像的精度。

实施时，如图1所示，其中策略网络和价值网络对应于下采样网络分别包括4个升采样层。其中，每个升采样层进行特征提取时，是基于上一个相邻的升采样层输出的特征图以及对应的下采样层输出的特征信息的基础上进行的；例如，图1中的C1所示，即每个下采样层和升采样层的左半部分实现的提取特征图的处理。

上述实施方式中，各下采样层和各升采样层提取特征图的步骤，包括：

步骤A1：对输入的特征图依次进行多次卷积处理，得到卷积特征。

其中，多次卷积处理，例如是通过两个3*3的卷积层实现。

步骤A2：对所述卷积特征进行批归一化处理，得到归一化特征。

步骤A3：利用激活函数对所述归一化特征进行处理，得到激活特征。

(3)所述判别器网络104用于对处理后的目标图像进行识别，得到所述目标图像的质量评分，从而根据质量评分评估处理后的目标图像是真实图像的概率。

此外，为了提高得到的处理策略的合理性，在所述目标网络模型中，对至少一个指定神经网络层中采用空间域的注意力机制对提取的特征进行调整。其中，所述指定神经网络层包括所述下采样层和/或所述升采样层。

下面对空间注意力的机制进行介绍。空间注意力机制是对空间位置掩码打分。一般来说空间注意力需要大量的显存，因为要为特征图的每个位置进行打分，需要存储大量的中间变量。在显存充足的情况下，通过空间注意力学习每个位置的互相关系，添加远距离依赖可以指导智能体准确选择操作。

如图2所示，其为空间注意力机制的流程示意图。其中，X是输入空间注意力模块的特征图，维度是[N，C，W，H]，其中，C表示输入特征图像的通道数量，H表示特征图像的长度，W表示特征图像的宽度，N表示特征图像的数量。将X通过三个1×1卷积核将通道数减少为C/4。得到的特征图的维度为[N，C/4，W，H]，将特征图的H，W两个维度平铺展开，变形成[N，C/4，WH]。对f的特征重排通道，变成[NWH,C/4]，然后和g的特征执行矩阵乘法，得到[NWH，NWH]大小的关系矩阵。将关系矩阵和h的特征矩阵相乘，经过一系列转置变换，重新得到[N,C/4,W,H]大小的特征，经过1×1卷积输出原始尺寸大小的特征，最后和原始输入X相加得到[N,C,W,H]大小的输出。空间注意力计算任意两个位置的交互来直接捕捉远程依赖，让网络有全局的感受野，提取更多的信息。

基于前述实施方式，在得到策略网络所采用的目标网络模型的训练过程后，参阅图3，为本公开实施例提供的一种基于强化学习的图像方法的流程示意图，包括：

步骤301：对目标图像进行特征提取，得到所述目标图像的特征图。

步骤302：将所述特征图输入到基于强化学习的第一网络中，得到所述目标图像中各像素点的目标处理方式；其中，所述第一网络是基于强化学习的方法训练目标网络模型得到的；在所述目标网络模型中，对至少一个指定神经网络层提取的特征图的各空间位置进行掩码打分处理。

其中，所述策略网络是基于强化学习的方法训练目标网络模型得到的，训练过程如前述记载的实施例，在此不再赘述；在所述目标网络模型中，对至少一个指定神经网络层提取的特征图的各空间位置进行掩码打分处理；其中，空间域的注意力机制已结合图2在前述实施例中进行说明，在此不再赘述。

步骤303：根据所述处理策略处理所述目标图像。

通过将强化学习和空间注意力机制结合，能够很好的帮助神经网络理解和提取图像特征，进而保证得出的策略是更加合理的，从而提高图像处理的效果。

在本申请实施例中，在基于强化学习的图像处理中加入了空间注意力机制后，可以通过空间注意力机制对得到的特征图进行调整，基于图2，具体可实施为步骤B1-B3：

步骤B1：对所述特征图进行特征重排，得到第一重排矩阵和第二重排矩阵；其中，所述第一重排矩阵和所述第二重排矩阵均与所述特征图的维度不同。

步骤B2：将所述第一重排矩阵和所述第二重排矩阵相乘，得到所述特征图的关系矩阵。

步骤B3：将所述关系矩阵和所述特征图相乘，并通过转置变换得到与所述特征图尺寸相同的矩阵。

步骤B4：将与所述特征图尺寸相同的矩阵与所述特征图相加，得到调整后的特征图。

在计算过程中，可以在对特征图进行特征重排之前，通过简化通道数来简化计算，具体的，步骤B1可实施为：将所述特征图与预设卷积核进行卷积计算，得到第一特征矩阵；对所述第一特征矩阵进行特征重排，得到所述第一重排矩阵和所述第二重排矩阵。

而简化了通道数后，在恢复到原来的特征大小时，同样需要使用简化通道数的特征矩阵进行计算，因此，步骤B3可实施为：将所述关系矩阵和所述第一特征矩阵相乘，并通过转置变换得到第二特征矩阵；将所述第二特征矩阵与所述预设卷积核进行卷积计算，得到与所述特征图尺寸相同的矩阵。

这样，再加入了空间能够很好的帮助神经网络理解和提取图像特征，进而保证得出的策略是更加合理的，从而提高图像处理的效果。

在本申请实施例中，现有的空间注意力结构有较大缺陷，即关系矩阵的参数量大小有(NWH)^2，即使特征图尺寸较小，参数占用的显存还是很多，造成训练成本昂贵和运行时间增多，因此，本申请对原有的空间注意力结构进行了修改，可以减小计算量。因此，若对所述特征图进行特征重排后，得到至少两个不同的，与所述特征图尺寸相同的矩阵；步骤B4具体可实施为：将所述特征图分别与各与所述特征图尺寸相同的矩阵相加，得到各计算结果；将各计算结果相加，得到调整后的特征图。

如图4所示，其为修改后的空间注意力流程示意图。其中，在进行空间注意力的计算时，分别计算WH维度和C维度的计算注意力，最后将两个维度的计算结果融合。这样，关系矩阵参数量为(WH)^2+(C/4)^2，远远小于原始关系矩阵的参数量大小(NWH)^2。

对WH和C维度分别计算空间注意力的理由有两点：第一，原始Non-local输入是连续帧，所以需要对不同图像之间分配注意力，而本发明的人脸美化任务同批次图像没有时序关系，所以无需对N维度计算注意力。第二，选择WH维度计算注意力是因为人脸特征空间位置相对固定，容易学习。选择C维度计算注意力是因为通道维度存储了不同种类的特征，需要精炼特征，加大有用特征权重，忽略无用特征。这样，可以使目标训练模型更快的完成图像处理。

基于相同的发明构思，本公开实施例还提供一种图像处理装置，该装置的原理和有益效果与上述方法实施例中所述内容相似，在此不再赘述。

如图5所示，为该装置的结构示意图，所述装置包括：

特征提取模块501，被配置为执行对目标图像进行特征提取，得到所述目标图像的特征图；

处理方式获取模块502，被配置为执行将所述特征图输入到基于强化学习的第一网络中，得到所述目标图像中各像素点的目标处理方式；其中，所述第一网络是基于强化学习的方法训练目标网络模型得到的；在所述目标网络模型中，对至少一个指定神经网络层提取的特征图的各空间位置进行掩码打分处理；

目标图像处理模块503，被配置为执行根据所述目标处理方式对所述目标图像进行处理。

在一种可能的实现方式中，所述处理方式获取模块502包括：

在一种可能的实现方式中，特征重排单元包括：

第二矩阵计算单元，包括：

在一种可能的实现方式中，所述特征提取模块501，被配置为执行采用所述指定神经网络层提取特征图时，具体执行：

对所述卷积特征进行批归一化处理，得到归一化特征；

利用激活函数对所述归一化特征进行处理，得到激活特征。

基于同一技术构思，本申请实施例还提供了一种终端设备600，参照图6所示，终端设备600用于实施上述各个方法实施例记载的方法，例如实施图2所示的实施例，终端设备600可以包括存储器601、处理器602、输入单元603和显示面板604。

存储器601，用于存储处理器602执行的计算机程序。存储器601可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据终端设备600的使用所创建的数据等。处理器602，可以是一个中央处理单元(central processing unit，CPU)，或者为数字处理单元等。输入单元603，可以用于获取用户输入的用户指令。显示面板604，用于显示由用户输入的信息或提供给用户的信息，本申请实施例中，显示面板604主要用于显示终端设备中各应用程序的显示界面以及各显示界面中显示的控件实体。可选的，显示面板604可以采用液晶显示器(liquid crystaldisplay，LCD)或OLED(organic light-emitting diode，有机发光二极管)等形式来配置显示面板604。

本申请实施例中不限定上述存储器601、处理器602、输入单元603和显示面板604之间的具体连接介质。本申请实施例在图6中以存储器601、处理器602、输入单元603、显示面板604之间通过总线605连接，总线605在图6中以粗线表示，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。总线605可以分为地址总线、数据总线、控制总线等。为便于表示，图6中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器601可以是易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储器601也可以是非易失性存储器(non-volatilememory)，例如只读存储器，快闪存储器(flash memory)，硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)、或者存储器601是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器601可以是上述存储器的组合。

处理器602，用于实现如图3所示的实施例，包括：

处理器602，用于调用存储器601中存储的计算机程序执行如实施图2所示的实施例。

本申请实施例还提供了一种计算机可读存储介质，存储为执行上述处理器所需执行的计算机可执行指令，其包含用于执行上述处理器所需执行的程序。

在一些可能的实施方式中，本申请提供的一种基于强化学习的图像处理方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行本说明书上述描述的根据本申请各种示例性实施方式的一种基于强化学习的图像处理方法中的步骤。例如，终端设备可以执行如实施图3所示的实施例。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本申请的实施方式的用于一种基于强化学习的图像处理程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在计算设备上运行。然而，本申请的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、有线、光缆、RF等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码，程序设计语言包括面向实体的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了装置的若干单元或子单元，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。

此外，尽管在附图中以特定顺序描述了本申请方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程基于强化学习的图像处理设备的处理器以产生一个机器，使得通过计算机或其他可编程基于强化学习的图像处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程基于强化学习的图像处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程基于强化学习的图像处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种基于强化学习的图像处理方法，其特征在于，所述方法包括：

对目标图像进行特征提取，得到所述目标图像的特征图；

根据所述目标处理方式对所述目标图像进行处理。

2.根据权利要求1所述的方法，其特征在于，所述对至少一个指定神经网络层提取的特征图的各空间位置进行掩码打分处理，包括：

3.根据权利要求2所述的方法，其特征在于，所述对所述特征图进行特征重排，得到第一重排矩阵和第二重排矩阵，包括：

4.根据权利要求2或3所述的方法，其特征在于，若对所述特征图进行特征重排后，得到至少两个不同的，与所述特征图尺寸相同的矩阵；

将各计算结果相加，得到调整后的特征图。

5.根据权利要求1所述的方法，其特征在于，采用所述指定神经网络层提取特征图，包括：

对所述卷积特征进行批归一化处理，得到归一化特征；

利用激活函数对所述归一化特征进行处理，得到激活特征。

6.一种基于强化学习的图像处理装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述处理方式获取模块包括：

8.根据权利要求7所述的装置，其特征在于，特征重排单元包括：

第二矩阵计算单元，包括：

9.一种电子设备，其特征在于，包括至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行根据权利要求1-5任一项所述的方法。

10.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序用于使计算机执行根据权利要求1-5任一项所述的方法。