CN117455795B - 一种基于强化学习的多模态图像去噪方法 - Google Patents
一种基于强化学习的多模态图像去噪方法 Download PDFInfo
- Publication number
- CN117455795B CN117455795B CN202311409429.1A CN202311409429A CN117455795B CN 117455795 B CN117455795 B CN 117455795B CN 202311409429 A CN202311409429 A CN 202311409429A CN 117455795 B CN117455795 B CN 117455795B
- Authority
- CN
- China
- Prior art keywords
- image
- noise
- value
- time step
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000002787 reinforcement Effects 0.000 title claims abstract description 32
- 230000009471 action Effects 0.000 claims abstract description 52
- 238000012549 training Methods 0.000 claims abstract description 40
- 230000008569 process Effects 0.000 claims abstract description 10
- 238000012360 testing method Methods 0.000 claims abstract description 9
- 230000007613 environmental effect Effects 0.000 claims description 32
- 238000001914 filtration Methods 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 12
- 230000002146 bilateral effect Effects 0.000 claims description 5
- 239000000654 additive Substances 0.000 claims description 4
- 230000000996 additive effect Effects 0.000 claims description 4
- 238000012545 processing Methods 0.000 abstract description 6
- 238000007781 pre-processing Methods 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000015556 catabolic process Effects 0.000 description 3
- 238000006731 degradation reaction Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000036961 partial effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 235000002566 Capsicum Nutrition 0.000 description 1
- 239000006002 Pepper Substances 0.000 description 1
- 235000016761 Piper aduncum Nutrition 0.000 description 1
- 235000017804 Piper guineense Nutrition 0.000 description 1
- 244000203593 Piper nigrum Species 0.000 description 1
- 235000008184 Piper nigrum Nutrition 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000002059 diagnostic imaging Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000005180 public health Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 150000003839 salts Chemical class 0.000 description 1
- 238000001931 thermography Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10048—Infrared image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T90/00—Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于强化学习的多模态图像去噪方法,首先准备不同模态的图像构建强化学习系统的训练数据集和测试数据集;然后对数据集进行预处理,加入不同的噪声;设计动作集合,构建动作空间,初始化强化学习系统中的策略网络和价值网络;然后针对不同噪声进行训练,基于设置的相似度奖励更新策略网络和价值网络;完成训练后输出去噪后的图像结果;本发明将任务视为一个马尔可夫决策过程,图像中的每个像素作为代理,学习一个最优的策略使所有像素点的总奖励最大化,获得最优的结果;此外,本发明设计了一个能够处理多种噪声的动作集合来构建动作空间,对彩色可见光图像、红外图像和太赫兹图像均实现了有效去噪,实现了多模态图像去噪。
Description
技术领域
本发明涉及强化学习和多模态去噪领域,主要涉及一种基于强化学习的多模态图像去噪方法。
背景技术
由于外部环境的多变性和设备的固有局限,图像传感过程中不可避免地会出现噪声破坏,这可能会严重降低获取图像的视觉质量,也会对广泛的下游计算机视觉和多媒体任务产生不利影响。从观察到的图像中去除噪声是各种图像处理和计算机视觉任务的关键步骤。目前图像去噪问题可以利用x=y-n退化模型来表示,其中x表示干净图像,y和n分别表示给定噪声图像和图像中的噪声。
从贝叶斯的角度来看,当似然已知时,图像先验建模将在图像去噪中发挥核心作用。基于这一事实,人们开发了许多基于图像退化模型的方法来抑制噪声图像中的噪声。尽管上述方法在某些情况下取得了较好的效果,但大多数方法优化算法复杂且仅能有效处理的部分噪声任务,在部分情况下还需要手动选择参数。因此,又陆续提出了许多基于学习的方法,如DnCNN、FFDNet、ADNet等,为训练去噪模型提供一系列潜在的启发式约束。
然而,它们依靠更深层次的架构来追求出色的去噪性能,这可能会增加训练的难度,而且虽然这些方法在可见光的图像去噪中有较好的效果,但是泛化性能较差。另外,因为强化学习交互性学习的优势,部分工作尝试将强化学习应用到图像去噪领域处理不同程度的带噪图像,但是对图像全局进行去噪处理的效果有限,而且也忽略了模型对于不同模态图像(如红外图像和太赫兹图像)中不同噪声类型的处理能力。
近年来,红外热成像技术已广泛应用于公共卫生、目标检测和医学成像诊断等军事和民用领域。同时,由于发射和探测技术的进步,太赫兹成像技术得到了广泛应用。然而,由于环境、技术设备等影响,这些图像存在低信噪比和严重噪声干扰等问题,导致图像质量差。红外图像噪声多为具有更复杂的分布函数的混合泊松-高斯分布,而太赫兹图像中存在复杂的条纹噪声和块效应等干扰信息,尽管已经提出了部分方法尝试对红外图像进行去噪,但是仍然是仅仅针对部分红外图像有效,泛化性较差。
发明内容
发明目的:针对上述背景技术中存在的问题,本发明提供了一种基于强化学习的多模态图像去噪方法,所述方法主要有以下两个贡献点:(i)本发明基于强化学习系统进行像素级训练,将图像去噪任务看做一个多智能体的强化学习问题,将任务过程视为一个马尔可夫决策过程,学习一个最优的策略使所有像素点的奖励最大化,获得最优的结果。(ii)本发明设计了一个能够处理多种噪声的动作集合来构建动作空间,对彩色可见光图像、红外图像和太赫兹图像均实现了有效的去噪,增强了模型的泛化性能,实现了多模态图像去噪。所提出的方法通过不断的交互学习,面对不同状态,策略网络不断地选择最合适的动作,增强图像的质量,可以多次重复进行去噪操作,也可以选择不执行去噪操作,最终学习到一个随机的去噪策略,对于多种复杂场景具有更高的灵活性。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种基于强化学习的多模态图像去噪方法,包括以下步骤:
步骤S1、构建强化学习系统的数据集,所述数据集内包括干净彩色可见光图像、红外图像和太赫兹图像,然后将所述数据集分为训练数据集和测试数据集,其中训练数据集仅包括干净彩色可见光图像,测试数据集包括了干净彩色可见光图像、红外图像和太赫兹图像;
步骤S2、对训练数据集中干净彩色可见光图像添加不同水平的噪声,构建噪声数据集;
步骤S3、设计动作,构建动作空间;
步骤S4、初始化强化学习系统中的价值网络和策略网络;
步骤S5、基于相似度奖励值更新价值网络和策略网络;
步骤S6、判断是否完成对所有样本的训练,是否完成所有训练轮次,当所有样本训练完成,且完成所有训练迭代次数时,模型训练完毕;
步骤S7、输入带噪图像,输出去噪后的图像结果。
优选的,所述步骤S2中对训练数据集中干净彩色可见光图像分别添加噪声水平为15、25、35、50和75的加性高斯白噪声,所述的噪声数据集包括添加噪声之后的干净彩色可见光图像、数据集中原有的红外图像、太赫兹图像,将噪声数据集内的图像统称为噪声图像。
优选的,所述步骤S3中构建动作空间需要设计动作,设计的动作包括:高斯滤波、双边滤波、导向滤波和中值滤波,此外,设计的动作还包括一个“静止”动作,通过选择“静止”动作而不执行去噪操作。
优选的,所述步骤S4中初始化强化学习系统中的策略网络和价值网络的具体方法包括:
将t时间步的噪声图像st分别作为价值网络和策略网络的输入,价值网络输出t时间步的噪声图像st的状态价值V(st),即t时间步的噪声图像st获得的环境预期总奖励值;策略网络输出对于t时间步的噪声图像st选择动作集合at的策略集合π(at|st),代表t时间步的噪声图像st选择动作集合at的可能性;
其中动作集合代表t时间步的噪声图像st第N个像素点所选择的动作,N是t时间步的噪声图像st中像素点的总个数。每个像素点都有一个策略所有像素点的策略构成了策略集合π(at|st),/>是在t时刻第i个像素点的状态,策略/>由softmax函数计算得到;
优选的,所述步骤S5包括:
步骤S5.1、基于在最大时间步数内的噪声图像进行训练,获得环境总奖励值Rt,定义如下:
Rt=rt+γrt+1+γ2rt+2+…+γn-1rt+n-1+γnV(st+n)
其中,rt表示t时间步的噪声图像st能够获得的即时环境奖励值,γn表示折扣因子γ的第n次幂,n是设定的最大时间步数;V(st+n)表示t+n时间步的噪声图像st+n的状态价值;
t时间步的噪声图像st根据策略网络输出的策略集合π(at|st)选择动作集合at执行去噪操作,得到t+1时间步的噪声图像st+1,然后计算t+1时间步的噪声图像st+1能够获得的即时环境奖励值,将计算所得的全部即时环境奖励值进行存储,当达到最大时间步数n后,再将全部即时环境奖励值进行提取并最终用于计算环境总奖励Rt;
步骤S5.2、基于在最大时间步数内的噪声图像进行训练,获得价值网络输出的状态价值V(st);
步骤S5.3、基于获得的环境总奖励值Rt和价值网络输出的状态价值V(st)对价值网络进行更新,更新公式如下:
其中θv表示价值网络中的参数,表示对θv的梯度运算,dθv表示θv的更新方向;
步骤S5.4、基于获得的环境总奖励值Rt和价值网络输出的状态价值V(st)定义优势函数A(at,st),优势函数A(at,st)的计算如下:
A(at,st)=Rt-V(st)
步骤S5.5、基于获得的优势函数A(at,st)和策略网络的输出值对策略网络进行更新,更新公式如下:
其中,π(at|st)表示t时间步的噪声图像st选择动作集合at的可能性,θp表示策略网络中的参数,表示对θp的梯度运算,dθp表示θp的更新方向。
优选的,对于步骤S5.1的:rt表示t时间步的噪声图像st能够获得的即时环境奖励值,其计算过程为:
首先,将t时间步的噪声图像st的所有像素点获得的即时环境奖励的均值作为t时间步的噪声图像st所能获得的即时环境奖励值rt:
其中N表示t时间步的噪声图像st中像素点的总个数,表示t时间步的噪声图像st的第i个像素点在t时刻获得的即时环境奖励值;
定义t时间步的噪声图像st和干净彩色可见光图像之间的距离如下:
其中表示干净彩色可见光图像的第i个像素点,/>是t时间步的噪声图像st的第i个像素点,距离d(st)表示了t时间步的噪声图像st和干净彩色可见光图像之间的差值,距离d(st)越大,证明t时间步的噪声图像st质量越差;
则有t+1时间步的噪声图像st+1和干净彩色可见光图像之间的距离如下:
基于t时间步的噪声图像st和干净彩色可见光图像之间的距离、t+1时间步的噪声图像st+1和干净彩色可见光图像之间的距离,计算t时间步的噪声图像st能够获得的即时环境奖励值rt:
由于rt是基于t时间步的噪声图像st和干净彩色可见光图像之间的距离、t+1时间步的噪声图像st+1和干净彩色可见光图像之间的距离计算得到,因此,将rt定义为相似度奖励值;
最后,将即时环境奖励值rt代入环境总奖励值Rt的计算式中得到环境总奖励值Rt。
有益效果:
(1)本发明基于强化学习系统进行像素级训练,将图像去噪看做一个多智能体的强化学习问题,将任务过程视为一个马尔可夫决策过程,在与环境不断交互的过程中学习一个最优的策略使所有像素点的奖励最大化,通过简单的系统实现了细节化的图像去噪。
(2)本发明设计的动作集合可以对多种不同类型和不同程度的噪声进行有效处理,对彩色可见光图像、红外图像和太赫兹图像均实现了有效的去噪,实现了多模态图像去噪。面对不同模态的图像,策略网络不断地选择最合适的动作,增强图像的质量,去噪操作可以重复多次进行,也可以选择不执行去噪操作,最终学习到一个随机的去噪策略,对于多种复杂场景具有更高的灵活性。
附图说明
图1是本发明提供的基于强化学习的多模态图像去噪方法的流程图;
图2是本发明提供的基于强化学习的多模态图像去噪方法的算法框架图。
具体实施方式
下面结合附图对本发明作更进一步的说明。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供了一种基于强化学习的多模态图像去噪方法,包括以下步骤:
步骤S1、构建强化学习系统的数据集,所述数据集内包括干净彩色可见光图像、红外图像和太赫兹图像,然后将所述数据集分为训练数据集和测试数据集,其中训练数据集仅包括干净彩色可见光图像,测试数据集包括了干净彩色可见光图像、红外图像和太赫兹图像;
具体来说,我们从公开数据集中收集了4000张干净的彩色可见光图像,其中选择300张作为测试数据集,其余的作为训练数据集。另外,我们从公开的红外降噪数据库和太赫兹目标检测数据集中分别选择了100张带噪红外图像和800张带噪太赫兹图像作为测试数据集。
步骤S2、对数据集进行预处理,添加不同的噪声获得噪声数据;
图像去噪退化模型定义如下:x=y-n,其中x表示干净图像,y表示噪声图像,n表示图像中的噪声,一个常见的假设是n是加性高斯白噪声(AWGN)。我们分别对干净的彩色可见光图像添加σ=15、σ=25、σ=35、σ=50和σ=75的加性高斯白噪声,模拟不同程度的带噪情况;红外图像和太赫兹图像本身为带噪图像,不需要进行额外加噪处理。
步骤S3、设计动作集合,构建动作空间;
构建动作空间包括设计一组能有效的处理不同模态下的多种不同噪声类型的离散的动作集合,实现多模态图像去噪。我们设计的动作集合主要由一系列标准滤波器组成,包括:
能有效减少高频噪声、对高斯噪声去除效果良好的高斯滤波;既能保留图像边缘细节信息又能对泊松噪声等多种噪声类型有较好去除效果的双边滤波和导向滤波;对椒盐噪声等峰值型噪声和周期性噪声有较好去除效果的中值滤波。此外,加设了一个“静止”动作,在必要时可以通过选择“静止”动作而不执行去噪操作,帮助提升模型的性能。设计的去噪动作集合如下表所示:
表1
其中,σ表示高斯滤波中的高斯核标准差值,σc表示双边滤波中的颜色空间滤波器的标准差值,σs表示双边滤波中的坐标空间滤波器的标准差值,r表示导向滤波中滤波核的像素邻域直径,eps表示导向滤波中的规范化参数。
步骤S4、初始化强化学习系统中的策略网络和价值网络;
本发明选择使用A3C算法作为强化学习系统,初始化A3C强化学习算法的策略网络和价值网络具体方法包括:
将t时间步的噪声图像st分别作为价值网络和策略网络的输入,价值网络输出t时间步的噪声图像st的状态价值V(st),即t时间步的噪声图像st获得的环境预期总奖励值;策略网络输出对于t时间步的噪声图像st选择动作集合at的策略集合π(at|st),代表t时间步的噪声图像st选择动作集合at的可能性;
其中动作集合代表t时间步的噪声图像st第N个像素点所选择的动作,N是t时间步的噪声图像st中像素点的总个数。每个像素点都有一个策略所有像素点的策略构成了策略集合π(at|st),/>是在t时刻第i个像素点的状态,策略/>由softmax函数计算得到;
步骤S5、基于相似度奖励值更新策略网络和价值网络;
更新价值网络的具体步骤包括:
步骤S5.1、基于在最大时间步数内的噪声图像进行训练,获得环境总奖励值Rt,定义如下:
Rt=rt+γrt+1+γ2rt+2+…+γn-1rt+n-1+γnV(st+n)
其中,rt表示t时间步的噪声图像st能够获得的即时环境奖励值,γn表示折扣因子γ的第n次幂,n是设定的最大时间步数;V(st+n)表示t+n时间步的噪声图像st+n的状态价值;计算环境奖励值时考虑相似度奖励:
对于像素级的强化学习系统,图像整体的奖励由图像中所有像素点的总期望奖励组成,为了便于计算,我们将t时间步的噪声图像st的所有像素点获得的即时环境奖励的均值作为t时间步的噪声图像st所能获得的即时环境奖励值rt:
其中N表示t时间步的噪声图像st中像素点的总个数,表示t时间步的噪声图像st的第i个像素点在t时刻获得的即时环境奖励值;
定义t时间步的噪声图像st和干净彩色可见光图像之间的距离如下:
其中表示干净彩色可见光图像的第i个像素点,/>是t时间步的噪声图像st的第i个像素点,距离d(st)表示了t时间步的噪声图像st和干净彩色可见光图像之间的差值,距离d(st)越大,证明t时间步的噪声图像st质量越差;
则有t+1时间步的噪声图像st+1和干净彩色可见光图像之间的距离如下:
基于t时间步的噪声图像st和干净彩色可见光图像之间的距离、t+1时间步的噪声图像st+1和干净彩色可见光图像之间的距离,计算t时间步的噪声图像st能够获得的即时环境奖励值rt:
由于rt是基于t时间步的噪声图像st和干净彩色可见光图像之间的距离、t+1时间步的噪声图像st+1和干净彩色可见光图像之间的距离计算得到,因此,将rt定义为相似度奖励值;
最后,将即时环境奖励值rt代入环境总奖励值Rt的计算式中得到环境总奖励值Rt。
步骤S5.2、基于在最大时间步数内的图像对训练数据集进行训练,获得价值网络输出的状态价值V(st);
步骤S5.3、基于获得的环境总奖励值和价值网络输出的状态价值对价值网络进行更新:
其中θv表示价值网络中的参数,表示对θv的梯度运算,dθv表示θv的更新方向;
更新策略网络的具体步骤包括:
步骤S5.4、基于获得的环境总奖励值Rt和价值网络输出的状态价值V(st)定义优势函数A(at,st),优势函数A(at,st)的计算如下:
A(at,st)=Rt-V(st)
优势函数定义了选择动作at后可以获得的环境总奖励Rt和选择所有可能动作的预期总奖励V(st)之间的差值,代表在当前状态st选择动作at的合理性。
步骤S5.5、基于获得的优势函数A(at,st)和策略网络的输出值对策略网络进行更新,更新公式如下:
其中,π(at|st)表示t时间步的噪声图像st选择动作集合at的可能性,θp表示策略网络中的参数,表示对θp的梯度运算,dθp表示θp的更新方向。
步骤S6、判断是否完成对所有样本的训练,是否完成所有训练轮次,当所有样本训练完成,且完成所有训练迭代次数时,模型训练完毕;
步骤S7、向训练完毕的模型中输入带噪图像,输出去噪后的图像结果。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (3)
1.一种基于强化学习的多模态图像去噪方法,其特征在于,包括以下步骤:
步骤S1、构建强化学习系统的数据集,所述数据集内包括干净彩色可见光图像、红外图像和太赫兹图像,然后将所述数据集分为训练数据集和测试数据集,其中训练数据集仅包括干净彩色可见光图像,测试数据集包括了干净彩色可见光图像、红外图像和太赫兹图像;
步骤S2、对训练数据集中干净彩色可见光图像添加不同水平的噪声,构建噪声数据集;
步骤S3、设计动作,构建动作空间;
步骤S4、初始化强化学习系统中的价值网络和策略网络;
步骤S5、基于相似度奖励值更新价值网络和策略网络;
步骤S6、判断是否完成对噪声数据集内所有图像的训练,是否完成所有训练轮次,当所有图像训练完成,且完成所有训练迭代次数时,强化学习系统训练完毕;
步骤S7、输入带噪图像,输出去噪后的图像结果;
所述步骤S4中初始化强化学习系统中的价值网络和策略网络的具体方法包括:
将t时间步的噪声图像st分别作为价值网络和策略网络的输入,价值网络输出t时间步的噪声图像st的状态价值V(st),即t时间步的噪声图像st获得的环境预期总奖励值;策略网络输出对于t时间步的噪声图像st选择动作集合at的策略集合π(at|st),策略集合π(at|st)代表t时间步的噪声图像st选择动作集合at的可能性;
其中动作集合 代表t时间步的噪声图像st第N个像素点所选择的动作,N是t时间步的噪声图像st中像素点的总个数;
所述步骤S5包括:
步骤S5.1、基于在最大时间步数内的噪声图像进行训练,获得环境总奖励值Rt,定义如下:
Rt=rt+γrt+1+γ2rt+2+…+γn-1rt+n-1+γnV(st+n)
其中,rt表示t时间步的噪声图像st能够获得的即时环境奖励值,γn表示折扣因子γ的第n次幂,n是设定的最大时间步数;V(st+n)表示t+n时间步的噪声图像st+n的状态价值;
t时间步的噪声图像st根据策略网络输出的策略集合π(at|st)选择动作集合at执行去噪操作,得到t+1时间步的噪声图像st+1,然后计算t+1时间步的噪声图像st+1能够获得的即时环境奖励值,将计算所得的全部即时环境奖励值进行存储,当达到最大时间步数n后,再将全部即时环境奖励值进行提取并最终用于计算环境总奖励Rt;
步骤S5.2、基于在最大时间步数内的噪声图像进行训练,获得价值网络输出的状态价值V(st);
步骤S5.3、基于获得的环境总奖励值Rt和价值网络输出的状态价值V(st)对价值网络进行更新,更新公式如下:
其中θv表示价值网络中的参数,表示对θv的梯度运算,dθv表示θv的更新方向;
步骤S5.4、基于获得的环境总奖励值Rt和价值网络输出的状态价值V(st)定义优势函数A(at,st),优势函数A(at,st)的计算如下:
A(at,st)=Rt-V(st)
步骤S5.5、基于获得的优势函数A(at,st)和策略网络的输出值对策略网络进行更新,更新公式如下:
其中,θp表示策略网络中的参数,表示对θp的梯度运算,dθp表示θp的更新方向;
对于步骤S5.1中的rt表示t时间步的噪声图像st能够获得的即时环境奖励值,其计算过程为:
首先,将t时间步的噪声图像st的所有像素点获得的即时环境奖励的均值作为t时间步的噪声图像st所能获得的即时环境奖励值rt:
其中N表示t时间步的噪声图像st中像素点的总个数,表示t时间步的噪声图像st的第i个像素点在t时刻获得的即时环境奖励值;
定义t时间步的噪声图像st和干净彩色可见光图像之间的距离如下:
其中Ii表示干净彩色可见光图像的第i个像素点,是t时间步的噪声图像st的第i个像素点,距离d(st)表示了t时间步的噪声图像st和干净彩色可见光图像之间的差值,距离d(st)越大,证明t时间步的噪声图像st质量越差;
则有t+1时间步的噪声图像st+1和干净彩色可见光图像之间的距离如下:
基于t时间步的噪声图像st和干净彩色可见光图像之间的距离、t+1时间步的噪声图像st+1和干净彩色可见光图像之间的距离,获得即时环境奖励值rt:
最后,将即时环境奖励值rt代入环境总奖励值Rt的计算式中得到环境总奖励值Rt。
2.根据权利要求1所述的一种基于强化学习的多模态图像去噪方法,其特征在于,所述步骤S2中对训练数据集中干净彩色可见光图像分别添加噪声水平为15、25、35、50和75的加性高斯白噪声,所述的噪声数据集包括添加噪声之后的干净彩色可见光图像、数据集中原有的红外图像、太赫兹图像,将噪声数据集内的图像统称为噪声图像。
3.根据权利要求1所述的一种基于强化学习的多模态图像去噪方法,其特征在于,所述步骤S3中构建动作空间需要设计动作,设计的动作包括:高斯滤波、双边滤波、导向滤波和中值滤波,此外,设计的动作还包括一个静止动作,通过选择静止动作而不执行去噪操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311409429.1A CN117455795B (zh) | 2023-10-27 | 2023-10-27 | 一种基于强化学习的多模态图像去噪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311409429.1A CN117455795B (zh) | 2023-10-27 | 2023-10-27 | 一种基于强化学习的多模态图像去噪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117455795A CN117455795A (zh) | 2024-01-26 |
CN117455795B true CN117455795B (zh) | 2024-06-11 |
Family
ID=89586858
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311409429.1A Active CN117455795B (zh) | 2023-10-27 | 2023-10-27 | 一种基于强化学习的多模态图像去噪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117455795B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10467274B1 (en) * | 2016-11-10 | 2019-11-05 | Snap Inc. | Deep reinforcement learning-based captioning with embedding reward |
CN111613200A (zh) * | 2020-05-26 | 2020-09-01 | 辽宁工程技术大学 | 一种基于强化学习的降噪方法 |
CN114723643A (zh) * | 2022-06-10 | 2022-07-08 | 南京航空航天大学 | 一种基于强化学习和美学评估的低光图像增强方法 |
CN116456493A (zh) * | 2023-04-20 | 2023-07-18 | 无锡学院 | 一种基于深度强化学习算法的d2d用户资源分配方法及存储介质 |
CN116822618A (zh) * | 2023-08-30 | 2023-09-29 | 北京汉勃科技有限公司 | 基于动态噪声网络的深度强化学习探索方法及组件 |
-
2023
- 2023-10-27 CN CN202311409429.1A patent/CN117455795B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10467274B1 (en) * | 2016-11-10 | 2019-11-05 | Snap Inc. | Deep reinforcement learning-based captioning with embedding reward |
CN111613200A (zh) * | 2020-05-26 | 2020-09-01 | 辽宁工程技术大学 | 一种基于强化学习的降噪方法 |
CN114723643A (zh) * | 2022-06-10 | 2022-07-08 | 南京航空航天大学 | 一种基于强化学习和美学评估的低光图像增强方法 |
CN116456493A (zh) * | 2023-04-20 | 2023-07-18 | 无锡学院 | 一种基于深度强化学习算法的d2d用户资源分配方法及存储介质 |
CN116822618A (zh) * | 2023-08-30 | 2023-09-29 | 北京汉勃科技有限公司 | 基于动态噪声网络的深度强化学习探索方法及组件 |
Non-Patent Citations (1)
Title |
---|
"基于深度强化学习的多模态医学图像配准";姚明青等;《计算机辅助设计与图形学学报》;20200506;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117455795A (zh) | 2024-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lefkimmiatis | Universal denoising networks: a novel CNN architecture for image denoising | |
McCann et al. | Convolutional neural networks for inverse problems in imaging: A review | |
Li et al. | Deep retinex network for single image dehazing | |
Liu et al. | Deep proximal unrolling: Algorithmic framework, convergence analysis and applications | |
Rosin | Image processing using 3-state cellular automata | |
Prabu et al. | Design of cognitive image filters for suppression of noise level in medical images | |
Ma et al. | Low-light image enhancement via self-reinforced retinex projection model | |
CN109325931A (zh) | 基于生成对抗网络和超分辨率网络的多模态图像融合方法 | |
Kim et al. | Structure-texture image decomposition using deep variational priors | |
Wei et al. | Tfpnp: Tuning-free plug-and-play proximal algorithms with applications to inverse imaging problems | |
CN112614077A (zh) | 一种基于生成对抗网络的非监督低照度图像增强方法 | |
CN110866872B (zh) | 一种路面裂缝图片预处理智能选择方法、装置及电子设备 | |
CN103116875A (zh) | 自适应双边滤波图像去噪方法 | |
CN112381897A (zh) | 基于自编码网络结构的低照度图像增强方法 | |
Liu et al. | Learning hadamard-product-propagation for image dehazing and beyond | |
CN113344804B (zh) | 一种弱光图像增强模型的训练方法和弱光图像增强方法 | |
CN116385278B (zh) | 一种低光照图像视觉特征自监督表示方法和系统 | |
CN105787892A (zh) | 一种基于机器学习的蒙特卡洛噪声去除方法 | |
CN113947022A (zh) | 一种基于模型的近端策略优化方法 | |
Bonettini et al. | Explainable bilevel optimization: An application to the Helsinki deblur challenge | |
Wang et al. | Total generalized variation-based Retinex image decomposition | |
Ke et al. | Unsupervised image restoration using partially linear denoisers | |
CN117455795B (zh) | 一种基于强化学习的多模态图像去噪方法 | |
CN117765265A (zh) | 图像降噪模型训练方法、处理方法、设备及其介质 | |
Zhang et al. | Fuzzy density weight-based support vector regression for image denoising |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |