CN113269698A

CN113269698A - 基于Actor-Critic模型的低曝光静脉图像增强方法

Info

Publication number: CN113269698A
Application number: CN202110560691.0A
Authority: CN
Inventors: 王军; 袁静波; 李玉莲; 潘在宇; 申政文; 陈晓玲
Original assignee: China University of Mining and Technology CUMT
Current assignee: China University of Mining and Technology CUMT
Priority date: 2021-05-21
Filing date: 2021-05-21
Publication date: 2021-08-17
Anticipated expiration: 2041-05-21
Also published as: CN113269698B

Abstract

本发明公开了一种基于Actor‑Critic模型的低曝光静脉图像增强方法，设计对比度，饱和度，白平衡，曝光和色调曲线函数滤波器，通过Actor‑Critic模型选取最优的一组图像滤波顺序和参数，并利用其对低曝光静脉图像进行滤波操作，输出每个滤波操作对应图像并提取细节信息，叠加到最后一层滤波器处理后的图像中，最终输出增强的静脉图像。本发明公开的基于Actor‑Critic的低曝光静脉图像增强模型，可以自动选择图像编辑滤波顺序和参数，实现低曝光静脉图像光照信息的恢复和对比度的增强，并且通过提取滤波处理过程中各滤波器输出图像的互补静脉细节信息，解决了全局图像处理造成的静脉细节丢失的问题，达到低曝光静脉图像增强的效果。

Description

基于Actor-Critic模型的低曝光静脉图像增强方法

技术领域

本发明属于身份识别技术，尤其涉及一种基于Actor-Critic模型的低曝光静脉图像增强方法。

背景技术

在近红外光照射下，静脉血管中的血红蛋白会吸收大量近红外光，而以骨骼和脂肪为主要成分的其他生物组织则无法对其产生吸收，从而形成静脉血管灰暗而背景明亮的静脉图像。在一些外部因素的影响下，除了静脉血管吸收近红外光形成较暗的阴影，其它背景区域也呈现灰暗的状态，使得静脉纹络和背景区域没有明显的区分，静脉图像的对比度较低。因此首次提出基于Actor-Critic模型的低曝光静脉图像增强方法，通过图像处理的方法对低曝光静脉图像进行增强，恢复图像的光照信息，并且在保证静脉细节信息不丢失的情况下，增强静脉图像的对比度。

基于直方图均衡化或规定化的方法对处理的数据不加选择，容易放大噪声而抑制真正有用的信息或是处理后图像不自然甚至偏色；同态滤波方法容易降低小范围光照突变区域的对比度、容易在亮度陡变的图像边缘处引入光晕且需要整幅图像输入而无法实现流处理；基于Retinex理论的方法采用高斯滤波器进行滤波，计算量较大且容易引起偏色问题，虽然可以通过其他手段补救，却进一步增加了计算复杂度。

发明内容

本发明的目的在于提供一种基于Actor-Critic模型的低曝光静脉图像增强方法，解决了全局图像处理造成的静脉细节丢失的问题，达到低曝光静脉图像增强的效果。

实现本发明目的的技术解决方案为：一种基于Actor-Critic模型的低曝光静脉图像增强方法，包括以下步骤：

步骤S1、在采集K幅正常光照下的人体手背静脉图像，100＜K＜10000，使用伽马变化和添加高斯噪声模拟低光照环境对上述人体手背静脉图像逐张进行处理合成低曝光手背静脉图像，构成K组图像对，对上述正常光照下的人体手背静脉图像和低曝光手背静脉图像逐一进行有效区域提取，得到像素大小为h×w的2K幅静脉图像，构成训练集。

步骤S2、将饱和度、白平衡、色调曲线、对比度函数和曝光函数设置成可微的图像滤波器。

步骤S3、构建静脉图像增强的Actor-Critic模型：

所述Actor-Critic模型包括Critic网络、判别器网络和两个Actor网络，两个Actor网络用于选取滤波顺序和参数；Critic网络用于获取图像状态的奖励值；判别器网络用于判断图像质量，作为奖励值计算的辅助。

步骤S4、利用Actor-Critic模型训练图像滤波器得到的一组最优滤波顺序和参数：

将训练集中的正常光照下的人体手背静脉图像作为标签图像，将低曝光手背静脉图像作为输入图像，通过Actor-Critic模型对图像滤波器中的饱和度、白平衡、色调曲线、对比度函数和曝光函数曲线的滤波顺序和参数进行迭代更新；通过判别器网络判断滤波处理后的图像与标签图像之间的差距，将上述差距输入到Critic网络得到图像的奖励值，指导Actor网络对滤波顺序和滤波参数的训练，得到一组最优滤波顺序和参数。

步骤S5、采集M幅低曝光的人体手背静脉图像，100<M＜1000；对上述低曝光的人体手背静脉图像逐一进行有效区域提取，得到像素大小为h×w的M幅静脉图像，作为测试集。

步骤S6、利用Actor-Critic模型训练图像滤波器得到的一组最优滤波顺序和参数对测试集进行滤波操作，输出每个滤波操作对应图像，并提取每个滤波操作对应图像的互补静脉细节信息。

步骤S7、将提取到的互补静脉细节信息叠加到Actor-Critic模型选取的滤波操作中最后一次滤波操作处理后的图像，最终输出增强后的静脉图像。

本发明与现有技术相比，其显著优点在于：

(1)首次将Actor-Critic模型用于增强低曝光静脉图像，可以通过网络训练的方式选取可微滤波器的顺序和参数，避免人工选取参数的繁琐性，提高滤波器的鲁棒性和泛化能力；

(2)网络可以在选取到一组最优的滤波顺序和参数之后，输出对应的滤波处理结果，保留每层滤波后的细节信息用于图像细节增强；

(3)构建静脉图像细节提取模块，提取滤波处理过程中各滤波器输出图像的静脉细节信息，解决全局图像处理造成的静脉细节丢失的问题，进一步增强低曝光静脉图像；

(4)图像一般在不同亮度下包含不同的细节信息，每个滤波操作对应的输出图像包含不同的细节信息，因此将提取到的细节信息叠加到最后一层滤波器处理后的图像中，可以保留更多的细节信息，有更好的图像恢复与增强效果。

附图说明

图1为基于Actor-Critic的低曝光静脉图像增强模型图。

图2为数据集中部分低曝光和正常曝光静脉图像，其中图(a)为Data-1中部分低曝光和正常曝光的手背静脉图像，图(b)为Data-2中部分低曝光和正常曝光手背静脉图像。

图3为Data-1中网络选取的一组最优滤波处理过程图，其中(a)是原始图像，(b)-(f)是滤波处理后的静脉图像。

图4为Data-2中网络选取的一组最优滤波处理过程图，其中(a)是原始图像，(b)-(f)是滤波处理后的静脉图像。

图5为Data-1中手背静脉细节增强图，其中(a)为滤波组增强后静脉图像，(b)为滤波过程中提取到的细节图，(c)为细节增强后的图像。

图6为Data-2中手掌静脉细节增强图。其中(a)为滤波组增强后静脉图像，(b)为滤波过程中提取到的细节图，(c)为细节增强后的图像。

具体实施方式

下面结合附图对本发明作进一步详细描述。

结合图1，本发明所述的一种基于Actor-Critic模型的低曝光静脉图像增强方法，步骤如下：

步骤S1、在采集K幅正常光照下的人体手背静脉图像，100＜K＜10000，使用伽马变化和添加高斯噪声模拟低光照环境对上述人体手背静脉图像逐张进行处理合成低曝光手背静脉图像，对上述正常光照下的人体手背静脉图像和低曝光手背静脉图像逐一进行有效区域提取，得到像素大小为h×w的2K幅静脉图像，构成训练集。

步骤S2、将饱和度、白平衡、色调曲线、对比度函数和曝光函数设置成可微的图像滤波器，使用Actor-Critic网络训练对滤波参数进行更新，自动寻找适合当前图像的滤波顺序和参数，避免人工选取参数的问题。选取的5种图像编辑滤波函数增强低曝光静脉图像中，饱和度、白平衡和对比度函数较为相似，其主要的思想是通过训练的参数，设置增强后图像和原始图像之间的线性插值，如下式所示：

p_o＝(1-p)·p_I+p·g(p_I)

其中，p_I是输入的原始图像，p_o是处理之后的输出图像。p表示图像的像素点，g(·)是图像增强函数。对于不同的滤波操作，增强后图像的图像不同。其中对比度函数的计算公式如下：

Con(p_I)＝1/2·(1-cos(π×(Lum(p_I))))

其中，Con(pI)是对比度增强函数，照明函数Lum(p)＝0.27pr+0.67p_g+0.06pb。pr、p_g、pb表示图像像素的RGB通道。g(pI)＝HVStoRGB(H(pI),S(S(pI,V(pI)).V(pI))，H、S、V表示图像像素的HVS通道。

饱和度函数S(s,v)的计算公式如下：

S(s,v)＝s+(1-s)×(0.5-|0.5-v|)×0.8

白平衡函数W(p_I)的计算公式如下：

W(p_I)＝RGB(Lum(p_I),Lum(p_I),Lum(p_I))

曝光函数和颜色曲线与上述三种通过像素之间的映射关系训练参数的方式不同，曝光函数曲线如式所示：

p_o＝2^Ep_I

其中，E表示曝光值。

色调曲线函数f(X)计算公式如下：

其中，X∈[0,1]表示输入的色调值，f(X)为分段函数，函数共有L个参数，表示为{e0,e1,…,eL-1}，l表示函数处理的第l个参数，参数的和为

函数的分段点表示为(l/L,T_l/T_L)。

步骤S3、构建静脉图像增强的Actor-Critic模型：

进一步地，在构建Actor-Critic模型时，将饱和度、白平衡、色调曲线、对比度函数和曝光函数滤波操作作为强化学习中的行为，执行完一组滤波操作之后的图像作为强化学习中的一种状态。Actor-Critic网络中滤波的处理轨迹t定义为：

t＝(s₀,a₀,s₁,a₁,…,s_k,a_k,…,s_N,a_N)

其中s代表滤波处理后的图像状态，a代表滤波操作，k是执行滤波动作的第k次，N是执行滤波动作的第N次，s_k表示第k次的滤波状态，a_k表示第k次的滤波动作，s_N表示第N次的滤波状态，a_N表示第N次的滤波动作。

Actor-Critic网络在不同的状态下得到不同的奖励值，实现滤波参数的更新，最终目标是在决策的过程中选择出一组能使奖励值最大的最优滤波处理策略。奖励值与静脉图像的质量成正相关，奖励值最大时静脉图像质量最佳，定义

是在经过滤波操作得到滤波状态s_k时的奖励值：

其中γ∈[0,1]是一个折现因子，k′表示经过滤波处理的步骤数量，r表示滤波的奖励值函数。通过Critic网络评估获取滤波处理策略，定义Critic网络的目标函数J(π)为：

其中s₀是输入图像状态，E是期望值，S₀是输入的训练集，π是最优的滤波处理策略，t为滤波处理的轨迹。Critic网络的训练目标是使目标函数J(π)的值最大，训练时在不同的状态转移中寻找到最大的奖励值，使判别器网络收敛，得到质量最好的静脉图像；状态和状态-动作对的预期总折现奖励由状态值函数V和动作值函数Q定义：

其中s代表滤波处理后的图像状态，a代表滤波操作，a₀表示初始的滤波操作，

表示在经过滤波操作得到滤波状态sN时的奖励值。

在Actor-Critic模型中，滤波操作过程分两部分进行，分别是滤波顺序的选择和滤波参数的更新，其中滤波顺序的选择为离散过程，滤波参数的更新为连续过程；Actor-Critic模型中的一个Actor网络用于选择合适的滤波顺序，另一个Actor网络用于训练合适的滤波参数。用于滤波顺序选择的Actor网络的梯度计算公式为：

用于滤波参数优化的Actor网络的梯度计算公式为：

其中，s表示经当前选择的滤波处理后的图像状态，a_2z表示滤波操作的选择，a_2z+1表示滤波参数的更新。两部分策略决定表示为π＝(π₁,π₂)，其中π₁表示滤波器选择a_2z的策略，π₂表示滤波参数优化操作a_2z+1的策略。θ表示两个Actor网络的参数，θ1表示滤波操作选择的训练参数，θ2表示滤波参数更新的训练参数。

表示梯度更新，J(π_θ)表示Actor的目标函数，Q表示状态值函数；ρπ是状态分布系数，定义如下：

其中，γ∈[0,1]是一个折现因子，P′表示当前状态为s_k的概率，n表示某个具体的图像状态。

Actor-Critic模型中的Critic网络，用于评价滤波处理的优劣，得到图像的奖励值。Critic网络的状态值函数与Actor网络的相同，Critic网络的动作-值函数表示为：

其中，E是期望值；π表示最优的滤波处理策略；t为滤波处理的轨迹；s代表滤波处理后的图像状态，s₀表示当前的图像状态为输入图像；a代表滤波操作，a₀表示初始的滤波操作；Vπ表示状态值函数；r表示滤波的奖励值函数；P表示状态-动作对的概率；

将Qπ代入用于滤波参数更新的Actor网络的梯度训练公式，作为π₂的监督信号用于训练网络，Critic网络的目标函数L_v为：

其中，v表示Critic网络的训练参数，s代表滤波处理后的图像状态，ρπ表示状态分布系数，a表示滤波操作，π(s)表示得到状态s的策略集，δ表示TD策略评估。TD策略评估用来衡量一个策略的优劣，使Critic网络进行参数更新，其表达式为：

δ＝r(s,a)+γV(P(s,a))-V(s)

其中r表示滤波的奖励值函数，γ∈[0,1]是一个折现因子，P表示状态-动作对的概率，V表示状态值函数。

Actor-Critic模型中的判别器网络用于判断滤波处理后的图像与目标图像之间的差距，作为奖励值计算的辅助。判别器通过对抗损失函数来更新的参数，使滤波处理结果不断接近目标图像。对抗损失函数设置为滤波处理后图像与目标图像的概率分布EMD，从而在训练过程中保持网络的稳定性，并且避免梯度消失现象，判别器的损失函数L_w定义为：

其中，s表示经当前选择的滤波处理后的图像状态，ρπ是状态分布系数，targetdataset表示目标图像数据集，D表示判别器网络得到的损失值。利用判别器的损失计算网络的奖励值，用于判断滤波动作和图像处理状态的优劣，故Actor网络的损失函数L_actor为：

L_actor＝-E[D(s)]

使用判别器网络的损失值作为奖励的负值来影响Actor网络的训练，使经Actor网络处理的图像结果更加接近目标图像。

步骤S4、利用Actor-Critic模型训练图像滤波器得到的一组最优滤波顺序和参数，具体如下：

将训练集中的正常光照下的人体手背静脉图像作为标签图像，将低曝光手背静脉图像作为输入图像，通过Actor-Critic模型对图像滤波器中的饱和度、白平衡、色调曲线、对比度函数和曝光函数曲线的滤波顺序和参数进行迭代更新。通过判别器网络判断滤波处理后的图像与标签图像之间的差距，将上述差距输入到Critic网络得到图像的奖励值，指导Actor网络对滤波顺序和滤波参数的训练，得到一组最优滤波顺序和参数。

步骤S6、为了表示每个滤波操作对应图像的互补静脉细节信息，使用像素的梯度反映图像像素密度的变化值，每个滤波操作对应图像的水平方向和竖直方向梯度值的计算公式如下：

(Grade_h,Grade_v)＝(I_i+1,j-I_i,j,I_i,j+1,-I_i,j)

其中Grade_h和Grade_v分别表示水平和竖直方向的梯度值，I表示输入的图像，i和j分别对应表示图像像素点的横坐标和纵坐标。

利用Actor-Critic模型训练图像滤波器得到的一组最优滤波顺序和参数对测试集进行滤波操作，输出每个滤波操作对应图像。由于输出了每个滤波操作对应图像，其中包含了中间处理过程的图像，中间处理过程的图像增强程度不一，细节信息的丰富程度也不同，通过划分图像亮暗区域来提取中间处理过程的不同图像的细节，使不同亮度的区域增强程度不同，达到更准确的增强效果；图像亮暗区域的划分和不同区域的梯度权重计算如下式所示：

其中p表示图像的像素点，T₁(p)是图像中暗区域的梯度权重，T_N(p)是图像中亮区域的梯度权重，Y₁(p)是图像的暗区域的像素亮度值，Y_N(p)是图像亮区域的像素亮度值，θ₁和θ_N为图像亮暗区域划分的阈值。

根据图像中暗区域和亮区域的梯度权重的平均值构建梯度矢量场，其中水平方向的重建V_h(p)为：

其中u表示不同滤波操作后的图像，N代表输入的图像数量；P_r表示图像像素点p右边的像素点；Grade_h表示水平方向的梯度值；T₁()是图像中暗区域的梯度权重，T_N()是图像中亮区域的梯度权重；

二次损失函数定义为：

其中第一项是平滑项，在细节层产生作用，它的值接近0。第二项是保真度项，用于保留更多的细节信息，参数μ控制向量场光滑程度，μ设置为0.5。L_d为细节项，V_h表示梯度矢量场的水平方向值，x表示坐标轴的x方向，y表示坐标轴的y方向，定义边缘归一化项

为：

其中q代表梯度敏感值，ε是一个常数。

步骤S7、将提取到的互补静脉细节信息叠加到Actor-Critic模型选取的滤波操作中最后一次滤波操作处理后的图像，达到静脉图像细节增强的效果，静脉图像细节增强过程表示为：

其中，I为滤波处理后的图像，I′为经细节增强后得到的图像，L_d为提取到的细节项。最终输出增强的静脉图像。

实施例1

本发明所述的基于Actor-Critic模型的低曝光静脉图像增强方法，步骤如下：

步骤S1、为了验证本方法的有效性，采用自制静脉数据集(Data-1)和公开数据集PTUPalmvein(Data-2)，并使用ROI提取方法提取数据集中静脉图像的有效区域，得到像素大小为512*800的静脉图像。在使用处理过的Data-1数据集时，使用2000张正常曝光的手背静脉图像，以及2000张采用伽马变化和添加高斯噪声处理合成的低曝光手背静脉图像作为训练集。使用处理过的Data-2数据集时，由于此数据集为公开数据集，无法自行采集，故使用数据集的前两个部分共800张正常曝光的手掌静脉图像，800张合成的低曝光手掌静脉图像作为训练集。经ROI处理后的部分静脉图像如图2所示。

步骤S2、将饱和度、白平衡、色调曲线、对比度函数和曝光函数设置成可微的图像滤波器。选取一组滤波函数作为神经网络的层，其中filter1为图像饱和度调整，filter2为图像对比度调整，filter3为图像色调调整，filter4为图像曝光调整，filter5为白平衡处理。

步骤S3、构建静脉图像增强的Actor-Critic模型：

所述Actor-Critic模型包括一个Critic网络、一个判别器网络和两个Actor网络。Actor-Critic模型的网络结构包括4个大小为4×4，步长为2×2的卷积层和2个全连接层。两个Actor网络用于选择滤波操作和滤波参数，由于Actor网络是基于策略梯度的强化学习网络，故使用策略梯度更新参数，为了加快网络的收敛速度，两部分网络使用交叉方式同时训练。由于滤波操作的选择是一个离散过程，偏导数不容易计算，使得梯度不能反向传播。因此滤波选择的Actor网络的目标函数使用蒙特卡洛策略梯度训练。因为所用的滤波器都是可微的，所以滤波参数的优化可以直接使用梯度下降法。各个部分网络的学习率设置不同，其中Actor网络的学习率设置为1.5×10^-5、Critic网络的学习率设置为5×10^-5，判别器网络的学习率设置为5×10^-4。滤波操作选择策略网络π₁使用softmax激活函数，滤波参数更新策略网络π₂使用tanh激活函数。在训练过程中，还需要策略评估来衡量一个策略的好坏，这里使用TD策略评估，使用策略评估来更新Critic网络的参数。在训练过程中判别器损失值作为奖励的负值来影响Actor网络的训练，使经Actor网络处理的图像结果更加接近目标图像。

使用Actor-Critic模型训练图像滤波器对滤波参数进行更新，自动寻找适合当前图像的滤波顺序和参数，避免人工选取参数的问题。经过滤波处理之后，Data-1的增强结果如图3所示，Data-2的增强结果如图4所示，两图均为Actor-Critic模型选取的一组最优的滤波处理顺序和参数。由图可知，由于静脉图像色彩比较单一，所以滤波处理的效果较多集中在对光照及静脉轮廓信息的处理上。对Data-1手背静脉图像进行增强之后，静脉图像的轮廓信息保留较完整，由低曝光图像到正常曝光的静脉图像中，静脉图像的对比度失真较小。但是，当个体的静脉血管比较细时，使用全局处理的方式容易导致静脉细节信息的丢失。如图4中第3行的静脉图像，在处理之后，静脉图像出现虚化的现象，导致静脉图像静脉信息的丢失。对Data-2手掌静脉图像进行增强之后，图像的光照成分基本恢复，且图像的对比度明显得到增强。由于Data-2数据集正常光照的时候部分存在底色偏红的情况，在对其进行低光照图像处理的时候没有改变其本身的图像构成，故恢复出来的图像呈现偏红色的情况。总的来说，Actor-Critic模型能够参照正常曝光的图像，实现光照恢复的同时能够在人眼视觉层面提高图像的对比度，对静脉图像进行了有效增强。

步骤S5、采用自制静脉数据集(Data-1)和公开数据集PTUPalmvein(Data-2)并使用ROI提取方法提取数据集中静脉图像的有效区域，得到像素大小为512*800的静脉图像。在使用处理过的Data-1数据集时，使用300张低曝光的手背静脉图像作为测试集，验证模型的有效性。使用处理过的Data-2数据集时，使用数据集第三部分合成的400张低曝光手掌静脉图像作为测试集。经ROI处理后的部分静脉图像如图2所示。

步骤S6、在对低曝光静脉图像的增强过程中，由于使用基于全局图像的滤波函数处理容易导致静脉细节信息的丢失，故在Actor-Critic模型训练图像滤波器得到的一组最优滤波顺序和参数对测试集进行滤波操作之后，对每一次滤波操作后的静脉图像进行细节提取。在整体亮度较低的图像中，局部较亮的区域包含较多的细节信息；相反，在整体亮度较高的图像中，局部较暗的区域包含较多的细节信息。因此，在滤波过程中提取静脉细节信息能取得较好的效果。通过设置阈值的方式来判断像素属于暗区域还是亮区域，亮度阈值为θ₁和θ_N。经过实验，将亮度阈值θ₁和θ_N设置为127取得的细节提取效果最好。对于静脉细节信息的提取主要是结合静脉图像的光照强度变化，对不同亮度的静脉图像区域，针对性地提取静脉的细节信息。

S7、将提取到的互补静脉细节信息叠加到Actor-Critic模型选取的滤波操作中最后一次滤波操作处理后的图像，最终输出增强的静脉图像。处理结果如图5和图6所示。由图可知，细节增强在视觉层面上增强了静脉图像的细节信息，经过静脉细节增强之后，静脉图像的对比度得到提升，静脉结构的拓扑结构和静脉图像的一些细微的血管信息也得到相应的增强，表明提出的静脉细节增强算法的有效性。

Claims

1.一种基于Actor-Critic模型的低曝光静脉图像增强方法，其特征在于，步骤如下：

步骤S1、在采集K幅正常光照下的人体手背静脉图像，100＜K＜10000，使用伽马变化和添加高斯噪声模拟低光照环境对上述人体手背静脉图像逐张进行处理合成低曝光手背静脉图像，构成K组图像对，对上述正常光照下的人体手背静脉图像和低曝光手背静脉图像逐一进行有效区域提取，得到像素大小为h×w的2K幅静脉图像，构成训练集；

步骤S2、将饱和度、白平衡、色调曲线、对比度函数和曝光函数设置成可微的图像滤波器；

步骤S3、构建静脉图像增强的Actor-Critic模型：

所述Actor-Critic模型包括Critic网络、判别器网络和两个Actor网络，两个Actor网络用于选取滤波顺序和参数；Critic网络用于获取图像状态的奖励值；判别器网络用于判断图像质量，作为奖励值计算的辅助；

将训练集中的正常光照下的人体手背静脉图像作为标签图像，将低曝光手背静脉图像作为输入图像，通过Actor-Critic模型对图像滤波器中的饱和度、白平衡、色调曲线、对比度函数和曝光函数曲线的滤波顺序和参数进行迭代更新；通过判别器网络判断滤波处理后的图像与标签图像之间的差距，将上述差距输入到Critic网络得到图像的奖励值，指导Actor网络对滤波顺序和滤波参数的训练，得到一组最优滤波顺序和参数；

步骤S5、采集M幅低曝光的人体手背静脉图像，100<M＜1000；对上述低曝光的人体手背静脉图像逐一进行有效区域提取，得到像素大小为h×w的M幅静脉图像，作为测试集；

步骤S6、利用Actor-Critic模型训练图像滤波器得到的一组最优滤波顺序和参数对测试集进行滤波操作，输出每个滤波操作对应图像，并提取每个滤波操作对应图像的互补静脉细节信息；

2.根据权利要求1所述的基于Actor-Critic模型的低曝光静脉图像增强方法，其特征在于，步骤S3中，在构建Actor-Critic模型时，将饱和度、白平衡、色调曲线、对比度函数和曝光函数滤波操作作为强化学习中的行为，执行完一组滤波操作之后的图像作为强化学习中的一种状态；Actor-Critic网络中滤波的处理轨迹t定义为：

t＝(s₀,a₀,s₁,a₁,…,s_k,a_k,…,s_N,a_N)

其中s代表滤波处理后的图像状态，a代表滤波操作，k是执行滤波动作的第k次，N是执行滤波动作的第N次，s_k表示第k次的滤波状态，a_k表示第k次的滤波动作，s_N表示第N次的滤波状态，a_N表示第N次的滤波动作；

Actor-Critic网络在不同的状态下得到不同的奖励值，实现滤波参数的更新，最终目标是在决策的过程中选择出一组能使奖励值最大的最优滤波处理策略；奖励值与静脉图像的质量成正相关，奖励值最大时静脉图像质量最佳；定义

是在经过滤波操作得到滤波状态s_k时的奖励值：

其中γ∈[0,1]是一个折现因子，k′表示经过滤波处理的步骤数量，r表示滤波的奖励值函数；通过Critic网络评估获取滤波处理策略，定义Critic网络的目标函数J(π)为：

其中s₀是输入图像状态，E是期望值，S₀是输入的训练集，π是最优的滤波处理策略，t为滤波处理的轨迹；Critic网络的训练目标是使目标函数J(π)的值最大，训练时在不同的状态转移中寻找到最大的奖励值，使判别器网络收敛，得到质量最好的静脉图像；状态和状态-动作对的预期总折现奖励由状态值函数V和动作值函数Q定义：

表示在经过滤波操作得到滤波状态s_N时的奖励值。

3.根据权利要求1所述的基于Actor-Critic模型的低曝光静脉图像增强方法，其特征在于，步骤S3中，在Actor-Critic模型中，滤波操作过程分两部分进行，分别是滤波顺序的选择和滤波参数的更新，其中滤波顺序的选择为离散过程，滤波参数的更新为连续过程；Actor-Critic模型中的一个Actor网络用于选择合适的滤波顺序，另一个Actor网络用于训练合适的滤波参数；用于滤波顺序选择的Actor网络的梯度计算公式为：

用于滤波参数优化的Actor网络的梯度计算公式为：

其中，s表示经当前选择的滤波处理后的图像状态，a_2z表示滤波操作的选择，a_2z+1表示滤波参数的更新；两部分策略决定表示为π＝(π₁,π₂)，其中π₁表示滤波器选择a_2z的策略，π₂表示滤波参数优化操作a_2z+1的策略；θ表示两个Actor网络的参数，θ₁表示滤波操作选择的训练参数，θ₂表示滤波参数更新的训练参数；

表示梯度更新，J(π_θ)表示Actor的目标函数，Q表示状态值函数；ρ^π是状态分布系数，定义如下：

4.根据权利要求1所述的基于Actor-Critic模型的低曝光静脉图像增强方法，其特征在于，步骤S3中Actor-Critic模型中的Critic网络，用于评价滤波处理的优劣，得到图像的奖励值；Critic网络的状态值函数与Actor网络的相同，Critic网络的动作-值函数表示为：

其中，E是期望值；π表示最优的滤波处理策略，t为滤波处理的轨迹；s代表滤波处理后的图像状态，s₀表示当前的图像状态为输入图像；a代表滤波操作，a₀表示初始的滤波操作；V^π表示状态值函数；r表示滤波的奖励值函数；P表示状态-动作对的概率；

将Q^π代入用于滤波参数更新的Actor网络的梯度训练公式，作为π₂的监督信号用于训练网络；Critic网络的目标函数L_v为：

其中，v表示Critic网络的训练参数，s代表滤波处理后的图像状态，ρ^π表示状态分布系数，a表示滤波操作，π(s)表示得到状态s的策略集，δ表示TD策略评估；TD策略评估用来衡量一个策略的优劣，使Critic网络进行参数更新，其表达式为：

δ＝r(s,a)+γV(P(s,a))-V(s)

5.根据权利要求1所述的基于Actor-Critic模型的低曝光静脉图像增强方法，其特征在于，步骤S3中的判别器网络用于判断滤波处理后的图像与目标图像之间的差距；判别器通过对抗损失函数来更新的参数，使滤波处理结果不断接近目标图像；对抗损失函数设置为滤波处理后图像与目标图像的概率分布EMD，从而在训练过程中保持网络的稳定性，并且避免梯度消失现象；判别器的损失函数L_w定义为：

其中，s表示经当前选择的滤波处理后的图像状态，ρ^π是状态分布系数，target dataset表示目标图像数据集，D表示判别器网络得到的损失值；利用判别器的损失计算网络的奖励值，用于判断滤波动作和图像处理状态的优劣，故Actor网络的损失函数L_actor为：

L_actor＝-E[D(s)]

6.根据权利要求1所述的基于Actor-Critic模型的低曝光静脉图像增强方法，其特征在于：

为了表示每个滤波操作对应图像的互补静脉细节信息，使用像素的梯度反映图像像素密度的变化值，每个滤波操作对应图像的水平方向和竖直方向梯度值的计算公式如下：

(Grade_h,Grade_v)＝(I_i+1,j-I_i,j,I_i,j+1,-I_i,j)

7.根据权利要求1所述的基于Actor-Critic模型的低曝光静脉图像增强方法，其特征在于：步骤S6中利用Actor-Critic模型训练图像滤波器得到的一组最优滤波顺序和参数对测试集进行滤波操作，输出每个滤波操作对应图像，具体如下：

由于输出了每个滤波操作对应图像，其中包含了中间处理过程的图像；中间处理过程的图像增强程度不一，细节信息的丰富程度也不同，通过划分图像亮暗区域来提取中间处理过程的不同图像的细节，使不同亮度的区域增强程度不同，达到更准确的增强效果；图像亮暗区域的划分和不同区域的梯度权重计算如下式所示：

其中p表示图像的像素点，T₁(p)是图像中暗区域的梯度权重，T_N(p)是图像中亮区域的梯度权重，Y₁(p)是图像的暗区域的像素亮度值，Y_N(p)是图像亮区域的像素亮度值，θ₁和θ_N为图像亮暗区域划分的阈值；

二次损失函数定义为：

其中第一项是平滑项，在细节层产生作用，它的值接近0；第二项是保真度项，用于保留更多的细节信息；参数μ控制向量场光滑程度，μ设置为0.5；L_d为细节项；V_h表示梯度矢量场的水平方向值；x表示坐标轴的x方向，y表示坐标轴的y方向；

表示边缘归一化项，定义为：

其中q代表梯度敏感值，ε是一个常数。

8.根据权利要求1所述的基于Actor-Critic模型的低曝光静脉图像增强方法，其特征在于，步骤S7中，将提取到的互补静脉细节信息以像素梯度的形式叠加到经过Actor-Critic模型训练得到的最优滤波策略处理后的图像上，达到静脉图像细节增强的效果，静脉图像细节增强过程表示为：

其中，I为滤波处理后的图像，I′为经细节增强后得到的图像，L_d为提取到的细节项。