CN117455795B

CN117455795B - 一种基于强化学习的多模态图像去噪方法

Info

Publication number: CN117455795B
Application number: CN202311409429.1A
Authority: CN
Inventors: 梁栋; 高远航; 黄圣君; 陈松灿
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2023-10-27
Filing date: 2023-10-27
Publication date: 2024-06-11
Anticipated expiration: 2043-10-27
Also published as: CN117455795A

Abstract

本发明公开了一种基于强化学习的多模态图像去噪方法，首先准备不同模态的图像构建强化学习系统的训练数据集和测试数据集；然后对数据集进行预处理，加入不同的噪声；设计动作集合，构建动作空间，初始化强化学习系统中的策略网络和价值网络；然后针对不同噪声进行训练，基于设置的相似度奖励更新策略网络和价值网络；完成训练后输出去噪后的图像结果；本发明将任务视为一个马尔可夫决策过程，图像中的每个像素作为代理，学习一个最优的策略使所有像素点的总奖励最大化，获得最优的结果；此外，本发明设计了一个能够处理多种噪声的动作集合来构建动作空间，对彩色可见光图像、红外图像和太赫兹图像均实现了有效去噪，实现了多模态图像去噪。

Description

一种基于强化学习的多模态图像去噪方法

技术领域

本发明涉及强化学习和多模态去噪领域，主要涉及一种基于强化学习的多模态图像去噪方法。

背景技术

由于外部环境的多变性和设备的固有局限，图像传感过程中不可避免地会出现噪声破坏，这可能会严重降低获取图像的视觉质量，也会对广泛的下游计算机视觉和多媒体任务产生不利影响。从观察到的图像中去除噪声是各种图像处理和计算机视觉任务的关键步骤。目前图像去噪问题可以利用x＝y-n退化模型来表示，其中x表示干净图像，y和n分别表示给定噪声图像和图像中的噪声。

从贝叶斯的角度来看，当似然已知时，图像先验建模将在图像去噪中发挥核心作用。基于这一事实，人们开发了许多基于图像退化模型的方法来抑制噪声图像中的噪声。尽管上述方法在某些情况下取得了较好的效果，但大多数方法优化算法复杂且仅能有效处理的部分噪声任务，在部分情况下还需要手动选择参数。因此，又陆续提出了许多基于学习的方法，如DnCNN、FFDNet、ADNet等，为训练去噪模型提供一系列潜在的启发式约束。

然而，它们依靠更深层次的架构来追求出色的去噪性能，这可能会增加训练的难度，而且虽然这些方法在可见光的图像去噪中有较好的效果，但是泛化性能较差。另外，因为强化学习交互性学习的优势，部分工作尝试将强化学习应用到图像去噪领域处理不同程度的带噪图像，但是对图像全局进行去噪处理的效果有限，而且也忽略了模型对于不同模态图像(如红外图像和太赫兹图像)中不同噪声类型的处理能力。

近年来，红外热成像技术已广泛应用于公共卫生、目标检测和医学成像诊断等军事和民用领域。同时，由于发射和探测技术的进步，太赫兹成像技术得到了广泛应用。然而，由于环境、技术设备等影响，这些图像存在低信噪比和严重噪声干扰等问题，导致图像质量差。红外图像噪声多为具有更复杂的分布函数的混合泊松-高斯分布，而太赫兹图像中存在复杂的条纹噪声和块效应等干扰信息，尽管已经提出了部分方法尝试对红外图像进行去噪，但是仍然是仅仅针对部分红外图像有效，泛化性较差。

发明内容

发明目的：针对上述背景技术中存在的问题，本发明提供了一种基于强化学习的多模态图像去噪方法，所述方法主要有以下两个贡献点：(i)本发明基于强化学习系统进行像素级训练，将图像去噪任务看做一个多智能体的强化学习问题，将任务过程视为一个马尔可夫决策过程，学习一个最优的策略使所有像素点的奖励最大化，获得最优的结果。(ii)本发明设计了一个能够处理多种噪声的动作集合来构建动作空间，对彩色可见光图像、红外图像和太赫兹图像均实现了有效的去噪，增强了模型的泛化性能，实现了多模态图像去噪。所提出的方法通过不断的交互学习，面对不同状态，策略网络不断地选择最合适的动作，增强图像的质量，可以多次重复进行去噪操作，也可以选择不执行去噪操作，最终学习到一个随机的去噪策略，对于多种复杂场景具有更高的灵活性。

技术方案：为实现上述目的，本发明采用的技术方案为：

一种基于强化学习的多模态图像去噪方法，包括以下步骤：

步骤S1、构建强化学习系统的数据集，所述数据集内包括干净彩色可见光图像、红外图像和太赫兹图像，然后将所述数据集分为训练数据集和测试数据集，其中训练数据集仅包括干净彩色可见光图像，测试数据集包括了干净彩色可见光图像、红外图像和太赫兹图像；

步骤S2、对训练数据集中干净彩色可见光图像添加不同水平的噪声，构建噪声数据集；

步骤S3、设计动作，构建动作空间；

步骤S4、初始化强化学习系统中的价值网络和策略网络；

步骤S5、基于相似度奖励值更新价值网络和策略网络；

步骤S6、判断是否完成对所有样本的训练，是否完成所有训练轮次，当所有样本训练完成，且完成所有训练迭代次数时，模型训练完毕；

步骤S7、输入带噪图像，输出去噪后的图像结果。

优选的，所述步骤S2中对训练数据集中干净彩色可见光图像分别添加噪声水平为15、25、35、50和75的加性高斯白噪声，所述的噪声数据集包括添加噪声之后的干净彩色可见光图像、数据集中原有的红外图像、太赫兹图像，将噪声数据集内的图像统称为噪声图像。

优选的，所述步骤S3中构建动作空间需要设计动作，设计的动作包括：高斯滤波、双边滤波、导向滤波和中值滤波，此外，设计的动作还包括一个“静止”动作，通过选择“静止”动作而不执行去噪操作。

优选的，所述步骤S4中初始化强化学习系统中的策略网络和价值网络的具体方法包括：

将t时间步的噪声图像s^t分别作为价值网络和策略网络的输入，价值网络输出t时间步的噪声图像s^t的状态价值V(s^t)，即t时间步的噪声图像s^t获得的环境预期总奖励值；策略网络输出对于t时间步的噪声图像s^t选择动作集合a^t的策略集合π(a^t|s^t)，代表t时间步的噪声图像s^t选择动作集合a^t的可能性；

其中动作集合代表t时间步的噪声图像s^t第N个像素点所选择的动作，N是t时间步的噪声图像s^t中像素点的总个数。每个像素点都有一个策略所有像素点的策略构成了策略集合π(a^t|s^t)，/>是在t时刻第i个像素点的状态，策略/>由softmax函数计算得到；

优选的，所述步骤S5包括：

步骤S5.1、基于在最大时间步数内的噪声图像进行训练，获得环境总奖励值R^t，定义如下：

R^t＝r^t+γr^t+1+γ²r^t+2+…+γ^n-1r^t+n-1+γⁿV(s^t+n)

其中，r^t表示t时间步的噪声图像s^t能够获得的即时环境奖励值，γⁿ表示折扣因子γ的第n次幂，n是设定的最大时间步数；V(s^t+n)表示t+n时间步的噪声图像s^t+n的状态价值；

t时间步的噪声图像s^t根据策略网络输出的策略集合π(a^t|s^t)选择动作集合a^t执行去噪操作，得到t+1时间步的噪声图像s^t+1，然后计算t+1时间步的噪声图像s^t+1能够获得的即时环境奖励值，将计算所得的全部即时环境奖励值进行存储，当达到最大时间步数n后，再将全部即时环境奖励值进行提取并最终用于计算环境总奖励R^t；

步骤S5.2、基于在最大时间步数内的噪声图像进行训练，获得价值网络输出的状态价值V(s^t)；

步骤S5.3、基于获得的环境总奖励值R^t和价值网络输出的状态价值V(s^t)对价值网络进行更新，更新公式如下：

其中θ_v表示价值网络中的参数，表示对θ_v的梯度运算，dθ_v表示θ_v的更新方向；

步骤S5.4、基于获得的环境总奖励值R^t和价值网络输出的状态价值V(s^t)定义优势函数A(a^t,s^t)，优势函数A(a^t,s^t)的计算如下：

A(a^t,s^t)＝R^t-V(s^t)

步骤S5.5、基于获得的优势函数A(a^t,s^t)和策略网络的输出值对策略网络进行更新，更新公式如下：

其中，π(a^t|s^t)表示t时间步的噪声图像s^t选择动作集合a^t的可能性，θ_p表示策略网络中的参数，表示对θ_p的梯度运算，dθ_p表示θ_p的更新方向。

优选的，对于步骤S5.1的：r^t表示t时间步的噪声图像s^t能够获得的即时环境奖励值，其计算过程为：

首先，将t时间步的噪声图像s^t的所有像素点获得的即时环境奖励的均值作为t时间步的噪声图像s^t所能获得的即时环境奖励值r^t：

其中N表示t时间步的噪声图像s^t中像素点的总个数，表示t时间步的噪声图像s^t的第i个像素点在t时刻获得的即时环境奖励值；

定义t时间步的噪声图像s^t和干净彩色可见光图像之间的距离如下：

其中表示干净彩色可见光图像的第i个像素点，/>是t时间步的噪声图像s^t的第i个像素点，距离d(s^t)表示了t时间步的噪声图像s^t和干净彩色可见光图像之间的差值，距离d(s^t)越大，证明t时间步的噪声图像s^t质量越差；

则有t+1时间步的噪声图像s^t+1和干净彩色可见光图像之间的距离如下：

基于t时间步的噪声图像s^t和干净彩色可见光图像之间的距离、t+1时间步的噪声图像s^t+1和干净彩色可见光图像之间的距离，计算t时间步的噪声图像s^t能够获得的即时环境奖励值r^t：

由于r^t是基于t时间步的噪声图像s^t和干净彩色可见光图像之间的距离、t+1时间步的噪声图像s^t+1和干净彩色可见光图像之间的距离计算得到，因此，将r^t定义为相似度奖励值；

最后，将即时环境奖励值r^t代入环境总奖励值R^t的计算式中得到环境总奖励值R^t。

有益效果：

(1)本发明基于强化学习系统进行像素级训练，将图像去噪看做一个多智能体的强化学习问题，将任务过程视为一个马尔可夫决策过程，在与环境不断交互的过程中学习一个最优的策略使所有像素点的奖励最大化，通过简单的系统实现了细节化的图像去噪。

(2)本发明设计的动作集合可以对多种不同类型和不同程度的噪声进行有效处理，对彩色可见光图像、红外图像和太赫兹图像均实现了有效的去噪，实现了多模态图像去噪。面对不同模态的图像，策略网络不断地选择最合适的动作，增强图像的质量，去噪操作可以重复多次进行，也可以选择不执行去噪操作，最终学习到一个随机的去噪策略，对于多种复杂场景具有更高的灵活性。

附图说明

图1是本发明提供的基于强化学习的多模态图像去噪方法的流程图；

图2是本发明提供的基于强化学习的多模态图像去噪方法的算法框架图。

具体实施方式

下面结合附图对本发明作更进一步的说明。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供了一种基于强化学习的多模态图像去噪方法，包括以下步骤：

具体来说，我们从公开数据集中收集了4000张干净的彩色可见光图像，其中选择300张作为测试数据集，其余的作为训练数据集。另外，我们从公开的红外降噪数据库和太赫兹目标检测数据集中分别选择了100张带噪红外图像和800张带噪太赫兹图像作为测试数据集。

步骤S2、对数据集进行预处理，添加不同的噪声获得噪声数据；

图像去噪退化模型定义如下：x＝y-n，其中x表示干净图像，y表示噪声图像，n表示图像中的噪声，一个常见的假设是n是加性高斯白噪声(AWGN)。我们分别对干净的彩色可见光图像添加σ＝15、σ＝25、σ＝35、σ＝50和σ＝75的加性高斯白噪声，模拟不同程度的带噪情况；红外图像和太赫兹图像本身为带噪图像，不需要进行额外加噪处理。

步骤S3、设计动作集合，构建动作空间；

构建动作空间包括设计一组能有效的处理不同模态下的多种不同噪声类型的离散的动作集合，实现多模态图像去噪。我们设计的动作集合主要由一系列标准滤波器组成，包括：

能有效减少高频噪声、对高斯噪声去除效果良好的高斯滤波；既能保留图像边缘细节信息又能对泊松噪声等多种噪声类型有较好去除效果的双边滤波和导向滤波；对椒盐噪声等峰值型噪声和周期性噪声有较好去除效果的中值滤波。此外，加设了一个“静止”动作，在必要时可以通过选择“静止”动作而不执行去噪操作，帮助提升模型的性能。设计的去噪动作集合如下表所示：

表1

其中，σ表示高斯滤波中的高斯核标准差值，σ_c表示双边滤波中的颜色空间滤波器的标准差值，σ_s表示双边滤波中的坐标空间滤波器的标准差值，r表示导向滤波中滤波核的像素邻域直径，eps表示导向滤波中的规范化参数。

步骤S4、初始化强化学习系统中的策略网络和价值网络；

本发明选择使用A3C算法作为强化学习系统，初始化A3C强化学习算法的策略网络和价值网络具体方法包括：

步骤S5、基于相似度奖励值更新策略网络和价值网络；

更新价值网络的具体步骤包括：

R^t＝r^t+γr^t+1+γ²r^t+2+…+γ^n-1r^t+n-1+γⁿV(s^t+n)

其中，r^t表示t时间步的噪声图像s^t能够获得的即时环境奖励值，γⁿ表示折扣因子γ的第n次幂，n是设定的最大时间步数；V(s^t+n)表示t+n时间步的噪声图像s^t+n的状态价值；计算环境奖励值时考虑相似度奖励：

对于像素级的强化学习系统，图像整体的奖励由图像中所有像素点的总期望奖励组成，为了便于计算，我们将t时间步的噪声图像s^t的所有像素点获得的即时环境奖励的均值作为t时间步的噪声图像s^t所能获得的即时环境奖励值r^t：

步骤S5.2、基于在最大时间步数内的图像对训练数据集进行训练，获得价值网络输出的状态价值V(s^t)；

步骤S5.3、基于获得的环境总奖励值和价值网络输出的状态价值对价值网络进行更新：

更新策略网络的具体步骤包括：

A(a^t,s^t)＝R^t-V(s^t)

优势函数定义了选择动作a^t后可以获得的环境总奖励R^t和选择所有可能动作的预期总奖励V(s^t)之间的差值，代表在当前状态s^t选择动作a^t的合理性。

步骤S5.5、基于获得的优势函数A(a^t，s^t)和策略网络的输出值对策略网络进行更新，更新公式如下：

步骤S7、向训练完毕的模型中输入带噪图像，输出去噪后的图像结果。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于强化学习的多模态图像去噪方法，其特征在于，包括以下步骤：

步骤S3、设计动作，构建动作空间；

步骤S4、初始化强化学习系统中的价值网络和策略网络；

步骤S5、基于相似度奖励值更新价值网络和策略网络；

步骤S6、判断是否完成对噪声数据集内所有图像的训练，是否完成所有训练轮次，当所有图像训练完成，且完成所有训练迭代次数时，强化学习系统训练完毕；

步骤S7、输入带噪图像，输出去噪后的图像结果；

所述步骤S4中初始化强化学习系统中的价值网络和策略网络的具体方法包括：

将t时间步的噪声图像s^t分别作为价值网络和策略网络的输入，价值网络输出t时间步的噪声图像s^t的状态价值V(s^t)，即t时间步的噪声图像s^t获得的环境预期总奖励值；策略网络输出对于t时间步的噪声图像s^t选择动作集合a^t的策略集合π(a^t|s^t)，策略集合π(a^t|s^t)代表t时间步的噪声图像s^t选择动作集合a^t的可能性；

其中动作集合代表t时间步的噪声图像s^t第N个像素点所选择的动作，N是t时间步的噪声图像s^t中像素点的总个数；

所述步骤S5包括：

R^t＝r^t+γr^t+1+γ²r^t+2+…+γ^n-1r^t+n-1+γⁿV(s^t+n)

A(a^t,s^t)＝R^t-V(s^t)

其中，θ_p表示策略网络中的参数，表示对θ_p的梯度运算，dθ_p表示θ_p的更新方向；

对于步骤S5.1中的r^t表示t时间步的噪声图像s^t能够获得的即时环境奖励值，其计算过程为：

其中I_i表示干净彩色可见光图像的第i个像素点，是t时间步的噪声图像s^t的第i个像素点，距离d(s^t)表示了t时间步的噪声图像s^t和干净彩色可见光图像之间的差值，距离d(s^t)越大，证明t时间步的噪声图像s^t质量越差；

基于t时间步的噪声图像s^t和干净彩色可见光图像之间的距离、t+1时间步的噪声图像s^t+1和干净彩色可见光图像之间的距离，获得即时环境奖励值r^t：

2.根据权利要求1所述的一种基于强化学习的多模态图像去噪方法，其特征在于，所述步骤S2中对训练数据集中干净彩色可见光图像分别添加噪声水平为15、25、35、50和75的加性高斯白噪声，所述的噪声数据集包括添加噪声之后的干净彩色可见光图像、数据集中原有的红外图像、太赫兹图像，将噪声数据集内的图像统称为噪声图像。

3.根据权利要求1所述的一种基于强化学习的多模态图像去噪方法，其特征在于，所述步骤S3中构建动作空间需要设计动作，设计的动作包括：高斯滤波、双边滤波、导向滤波和中值滤波，此外，设计的动作还包括一个静止动作，通过选择静止动作而不执行去噪操作。