CN116437205B

CN116437205B - 一种多视点多焦距成像的景深拓展方法和系统

Info

Publication number: CN116437205B
Application number: CN202310647211.3A
Authority: CN
Inventors: 杨铀; 李志龙; 刘琼
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2023-06-02
Filing date: 2023-06-02
Publication date: 2023-08-11
Anticipated expiration: 2043-06-02
Also published as: CN116437205A

Abstract

本发明公开了一种多视点多焦距成像的景深拓展方法和系统，属于景深拓展技术领域。多视点多焦距图像来自于不同视点，相较于传统的单视点焦点堆栈图像具有显著的区别，本发明方法克服了采用多视点多焦距图像进行拓展景深所面临的诸多挑战，实现了多视点中的每个视点聚焦在不同深度，在单次曝光下，来自于不同视点的焦点堆栈图像能被同时捕获，从而可在所有视点同时曝光下捕获用于拓展场景景深的基本元素，反复拍摄可实时记录动态场景的信息，从而为拓展动态场景的景深提供了可能。

Description

一种多视点多焦距成像的景深拓展方法和系统

技术领域

本发明属于景深拓展技术领域，更具体地，涉及一种多视点多焦距成像的景深拓展方法和系统。

背景技术

在传统的成像过程中，受像差、衍射和其他因素等影响，所捕获的图像被限制在一个预定义的景深范围内。并且只有在景深范围内的区域是对焦的，在景深范围外的区域则是离焦模糊的。这是记录场景不完整信息的典型表现，在后续的视觉应用当中观察和分析这样具有狭小景深的图像将是不方便和有效的。图像融合技术通过整合多个聚焦在场景不同深度处的图像中的互补信息可以合成一张全景深图像以此来拓展成像系统的景深。通过观察这种全景深图像将有利于在显微成像中对细胞、结构和组织的观察，以及对自然场景的全面描述。

在过去的几十年当中，许多在多焦距图像融合上的研究已经被发表。它们可以被大致地分为四类：变换域方法、空间域方法、变换域和空间域混合方法以及深度学习方法。尽管这些方法取得了良好的视觉效果，但是受成像过程的机理限制，多焦距图像即焦点堆栈图像的应用被限制于静态场景。无论如何，在实际的应用中，由于相机的移动或者物体的运动，需要面对动态场景而不是静态场景。对于静态场景的焦点堆栈图像通常是在不同时刻通过改变成像系统的焦距或移动成像系统的焦平面所捕获的。显然，这种焦点堆栈图像的捕获方式是无法实现记录动态场景的。相反，需要在同一时刻捕获动态场景的焦点堆栈图像以确保完整记录场景信息。如果无法实时捕获动态场景的焦点堆栈图像，将不利于在物体识别与检测、显微成像、遥感监测和医学成像等不同计算机视觉应用当中获得更准确的结果。

随着消费电子和工业设备的发展，多视点技术变得越来越重要。相较于单视点，多视点具有宽泛和灵活的视场。受益于此，多视点技术更有利于满足工业生产、工业物联网和交互式媒体的视觉要求。但是多视点图像是仅仅聚焦在单一深度，从而其具有不灵活的景深，这使得多视点图像缺乏拓展景深的基本要素。通常，受限的景深是利用单视点下的焦点堆栈图像进行拓展的，但是单视点的焦点堆栈图像无法实时记录动态场景，从而导致无法拓展动态场景的景深。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种多视点多焦距成像的景深拓展方法和系统，其目的在于解决单视点的焦点堆栈图像无法实时记录动态场景，从而导致无法拓展动态场景景深的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种多视点多焦距成像的景深拓展方法，包括：

S1.设置相机阵列中的各相机聚焦在不同的深度处；在所有相机同时曝光下捕获场景的多视点多焦距图像；

S2.从多视点多焦距图像中任选一个视角作为基准视角，将其他视角对齐到该基准视角下，获得对齐后的多视点多焦距图像；

S3.选取聚焦在场景内部的多视点多焦距图像作为待融合源图像；

S4.当待融合原图像为两张时，执行步骤S5；当待融合原图像为三张以上时，先对待融合源图像进行分组，分别对各个分组进行融合获得聚焦在前景和背景的图像后，执行步骤S5；

S5.将待融合图像进行融合，并进行颜色空间逆变换获得在RGB颜色空间下的融合图像；并对融合图像的颜色分布进行优化；

S6.对颜色优化后的融合图像进行边缘细化：以像素值增大的方向作为正方向去计算相应像素个数的变化率，并以变化率最小时所对应的最小像素值作为阈值来区分物体边缘附近的像素和背景区域的像素；当图像中的像素值大于等于该阈值时赋值为1，相反则赋值为0，检测出物体边缘附近的离焦区域；利用聚焦在前景和背景处的图像中的聚焦区域进行填充，获得边缘伪影去除后的最终结果图像。

进一步地，相机阵列中各相机的聚焦深度以S型递增的方式设置。

进一步地，步骤S2所述对齐具体包括：提取基准视角特征点并建立描述子，提取尚未进行对齐操作的基准视角相邻视角的特征点并建立描述子；匹配基准视角与相邻视角的特征点并进行匹配度排序，选取最优的特征点对；计算相邻视角与基准视角的单应性变换矩阵；利用3x3的平移变换矩阵作为修正矩阵与单应性矩阵相乘，获得修正后的单应性变换矩阵；按照修正后的单应性变换矩阵将相邻视角对其到基准视角下；以对齐后的相邻视角作为新的基准视角，重复上述对齐操作直至完成全部视角的对齐变换。

进一步地，所述修正矩阵为。

进一步地，步骤S4中所述当待融合原图像为三张以上时，对待融合源图像进行分组具体过程为：

当待融合源图像的数量是奇数时，将待融合源图像按照聚焦深度的变化分成三组，对于每一组中的源图像依次进行融合，将前两组的结果进行融合作为聚焦在前景的结果，第三组的融合结果作为聚焦在背景的结果；当待融合源图像的数量是偶数时，将待融合源图像按照聚焦深度的变化分为两组，并分别依次进行融合获得聚焦在前景和背景的结果图像。

进一步地，将待融合图像在Y通道进行融合，具体执行过程为：待融合图像Y通道值由自适应权重块和相似性损失函数所训练的DenseNet网络进行融合。

进一步地，步骤S5中所述对融合图像的颜色分布进行优化具体过程为：

以待融合源图像的直方图作为目标直方图，利用直方图匹配方法使融合图像的颜色分布与待融合源图像的颜色分布保持一致。

本发明还提供了一种多视点多焦距成像的景深拓展系统，包括：

多视点多焦距成像模块，用于在相机阵列中所有相机同时曝光下捕获场景的多视点多焦距图像；所述相机阵列中的各相机聚焦在不同的深度处；

多视点多焦距图像对其模块；用于从多视点多焦距图像中任选一个视角作为基准视角，将其他视角对齐到该基准视角下，获得对齐后的多视点多焦距图像；

多视点多焦距图像筛选模块，用于选取聚焦在场景内部的多视点多焦距图像作为待融合源图像；

判断模块，用于当待融合原图像为两张时，执行多视点多焦距图像融合模块；当待融合原图像为三张以上时，先对待融合源图像进行分组，分别对各个分组进行融合获得聚焦在前景和背景的图像后，执行多视点多焦距图像融合模块；

多视点多焦距图像融合模块，将待融合图像在Y通道、Cb/Cr通道进行融合，并进行颜色空间逆变换获得在RGB颜色空间下的融合图像；并对融合图像的颜色分布进行优化；

融合图像边缘细化模块，用于以像素值增大的方向作为正方向去计算相应像素个数的变化率，并以变化率最小时所对应的最小像素值作为阈值来区分物体边缘附近的像素和背景区域的像素；当图像中的像素值大于等于该阈值时赋值为1，相反则赋值为0，检测出物体边缘附近的离焦区域；利用聚焦在前景和背景处的图像中的聚焦区域进行填充，获得边缘伪影去除后的最终结果图像。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果。

（1）在以往的景深拓展研究当中，主要是针对于静态场景即在单视点下不同时刻所捕获的焦点堆栈图像，在实际的应用当中，由于相机的移动或者物体的运动，需要面对的是动态场景而不是静态场景。在利用传统的焦点堆栈成像技术捕获动态场景时，由于缺乏实时性从而无法在某一时刻捕获到可用于景深拓展的全部基本元素。针对这一问题，本发明使多视点中的每个视点聚焦在不同深度，在单次曝光下，来自于不同视点的焦点堆栈图像能被同时捕获，从而可在所有视点同时曝光下捕获用于拓展场景景深的基本元素，反复拍摄可实时记录动态场景的信息，从而为拓展动态场景的景深提供可能。

（2）为了减少视点之间视觉特征的不一致性和提高匹配特征点对的精度，本发明采用S型相机聚焦设置方式使多视点多焦距成像系统中的每一视点聚焦在不同深度。按照这种相机聚焦设置方式，在相邻焦平面中图像之间的视差将仅仅只在一个维度上变化，降低了图像对齐时视差的复杂性，减小在跨视点匹配的困难性和复杂性。

（3）本发明在图像对齐过程中考虑到当只使用单应性变换矩阵进行坐标变换时，所计算的新的坐标值可能是负值以至于在新的坐标系统中被截取，从而造成部分场景信息的缺失。另外，所计算的单应性变换矩阵可能也不是最准确的，从而限制了图像对齐的效果。因此，设计一个平移变换矩阵去修正单应性变换矩阵以确保新的坐标值是正值，在经过平移变换矩阵修正后，缺失的场景信息被重构，使得对齐后的图像保留了原始图像的完整信息，从而有助于在后续的视觉应用当中获得更准确的结果和更好的视觉效果。

（4）采用本发明设计的图像融合顺序，不管待融合源图像是奇数还是偶数，都可以将其合成为聚焦在前景和背景的两个图像，有助于在后续的处理中解决图像之间的放大率差异问题从而缓解融合图像中的边缘伪影问题。

（5）在图像融合阶段，本发明以由图像自身特性所决定的自适应权重块作为信息保护度来尽可能多的将源图像中的重要信息保留在融合图像当中，并结合相似性损失函数训练DenseNet网络以此来避免基准真值的需求和提高算法的计算性能以及摆脱融合规则的限制。

（6）随着待融合源图像数量的增加，融合图像与源图像之间的颜色偏差将会逐渐放大，这将导致严重的颜色失真从而无法在后续的视觉应用当中获得更准确的结果，因此本发明利用待融合源图像的颜色分布概率密度函数去约束融合图像的颜色分布概率密度函数，即以源图像的直方图作为目标形状，利用直方图匹配方法使融合图像的直方图具有与其相似的形状，从而保证融合图像具有与源图像相似的颜色分布。

（7）本发明基于点扩散函数的规则设计检测出物体边缘附近的离焦区域；然后利用聚焦在前景和背景处图像中的聚焦区域对其进行填充，能够有效缓解融合图像中的边缘伪影，且操作简单。

附图说明

图1是本发明的一种多视点多焦距成像的景深拓展方法、装置及系统技术方案流程图。

图2是多视点多焦距成像系统示意图。

图3是多视点多焦距成像系统中相机聚焦设置方式示意图。

图4中（a）-（c）是平移变换矩阵作用效果对比示意图。

图5中（a）-（b）是厨房类型场景下的多视点多焦距图像的聚焦区域检测结果示意图。

图6是基于DenseNet图像融合的整体架构示意图。

图7中（a）-（b）是奇数个或偶数个待融合源图像的融合顺序示意图。

图8是光学系统成像过程示意图。

图9中（a）-（b）是塔类型场景中物体边缘附近离焦区域的检测结果示意图。

图10是CNN、DSIFT、利用数学形态学进行图像融合方法、NSCT、U2fusion以及本发明所述的方法在不同场景上的处理结果。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

在光学系统成像的过程中，受像差和衍射等影响，所捕获的图像被限制在了一个预定义的景深范围内即图像中只有部分区域是清晰的，其它区域则是模糊的。为了拓展场景的景深，便于在后续的视觉应用中获得更准确的结果和更好的视觉效果，许多景深拓展的研究被提出。在这些研究当中主要处理的对象是在单视点不同时刻所捕获的焦点堆栈图像，即通过改变焦距或变化焦平面捕获一系列聚焦在场景不同深度处的图像。虽然这些针对于焦点堆栈图像的景深拓展方法取得了较好的视觉效果，但是其应用局限于静态场景。在实际的应用当中，由于相机的移动或物体的运动，这种焦点堆栈成像技术无法同时捕获场景焦点堆栈图像，而是只能捕获聚焦在某一深度的单一图像，显然这是无法满足景深拓展的基本要求。针对这一问题，本发明率先提出了一种新的成像系统即多视点多焦距成像系统，该系统是利用多视点技术捕获焦点堆栈图像，相较于传统单视点下所捕获的焦点堆栈图像，其具备实时性与同时性。通过设置系统中的所有视点分别聚焦在场景的不同深度处即可在单次曝光下同时捕获场景的焦点堆栈图像。但是这种多视点多焦距图像是来自于不同视点，相较于传统的单视点焦点堆栈图像具有显著的区别，从而景深拓展的挑战也随之产生。例如，在多视点多焦距成像系统中的每一视点被放置在不同的空间坐标位置上，从而每一视点之间存在着几何位移，这会直接在所捕获的图像当中存在视差。由于视差的存在，在各个图像中相同位置处的内容将会不同，从而在景深拓展中会出现严重的伪影。除此之外，随着多视点多焦距成像系统中视点个数的增多，相应所捕获的图像数量也会随之增多，这就会直接增大存储的压力和计算的困难性。并且随着图像数量的增多，在结果图像中出现不良视觉效果的可能性将进一步增大，这也增加了景深拓展的困难性。以及由于每一视点聚焦在不同深度，随着视点之间聚焦深度的差异性的增大，场景中相同物体将具有不同的弥散圆，从而在图像中具有不同的放大率，这也会导致结果图像中出现不良的视觉效果，例如严重的伪影和重影等等。因此，本发明提出了一种多视点多焦距成像的景深拓展方法，流程如图1所示，用于解决上述挑战，实现对于动态场景的景深拓展，具体包括以下步骤：

步骤一：选取任意数量的相机组合成一个多视点多焦距成像系统，然后设置系统中的每个相机聚焦在场景的不同深度处，在所有相机同时曝光下捕获场景的多视点多焦距图像：

在本发明中，所提出的多视点多焦距成像系统是一个相机阵列，其中每一个相机代表一个视点，多视点多焦距成像系统的示意图如图2所示。因为每个相机被放置在不同的空间坐标位置上，因此每个视点的视场将是不同的，这使得各个视点之间存在几何位移。相机阵列可以被组织成不同的类型，例如平面型或者圆弧型。随着相机阵列形状的不同，视点之间的几何位移也会有不同的表达形式。为了简单化，在本实施例中的多视点多焦距成像系统是平面型的。然后设置系统中的每个相机聚焦在场景的不同深度处，当所有相机同时曝光时，来自于不同视点的多焦距图像可以被同时捕获。但是在这里需要注意的是不同的相机聚焦设置方式将会对全景深图像的合成带来不同的影响。正如上面所提到的，在多视点多焦距成像系统中的各个视点之间存在着几何位移，这直接造成了在所捕获的图像之间存在视差。由于视差，在图像中相同位置处的内容将是不一致的，从而在景深拓展中出现伪影或重影问题。通常，对于图像之间视差的解决是检测和匹配图像之间的特征点对。然后，基于所匹配的特征点对，图像之间的3D单应性变换矩阵被计算。最后，根据相应的3D单应性变换矩阵，其它视点下的图像可以被对齐到基准视点下。在这种策略当中，所匹配的特征点对的精度将很大程度上影响图像对齐的效果。然而，多视点多焦距图像来自于不同视点且处于不同的焦平面中，因此在跨视点匹配中图像之间的视觉特征将是不一致的。为了减少视点之间视觉特征的不一致性和提高匹配特征点对的精度，采用图3中实线箭头所示的S型相机聚焦设置方式使多视点多焦距成像系统中的每一视点聚焦在不同深度。按照这种相机聚焦设置方式，在相邻焦平面中图像之间的视差将仅仅只在一个维度上变化，降低了图像对齐时视差的复杂性。

步骤二：从多视点多焦距图像中任意选取一个视点作为基准视点，并将其它视点对齐到基准视点下获得对齐后的图像/>：

除了视差问题，对于在不同焦平面中的图像具有不同的景深，也就表明图像中的清晰区域是不同的。在特征点检测的过程中，在清晰区域所检测的特征点的数量将远远多于在模糊区域所检测的数量，从而所检测的特征点将更多地分布于图像中的清晰区域。基于光学成像系统的成像原理，所捕获的图像遵循点扩散函数规则。换句话说，图像中的模糊区域是图像清晰区域低通滤波后的结果。并且随着焦平面之间距离的增大，相同区域的模糊程度也会随之增大。因此，对于多视点多焦距图像，在相邻焦平面中的图像有最小的模糊程度。当在如此的图像对中进行特征点检测的时候，所检测特征点将更多地分布在图像之间的相同区域，从而提高了匹配特征点对的精度。在本实施例中具体的视点匹配过程如下：第一步是从多视点多焦距图像中随机选择一个图像作为基准图像；第二步是检测基准图像和与在焦平面与其相邻的图像中的加速稳健特征的特征点，并且建立相应的加速稳健特征描述子；第三步是采用FLANN算法匹配两个图像中的加速稳健特征的特征点；第四步是对所匹配的特征点对进行排序，并选择出匹配最准确的特征点对用于后续单应性变换矩阵的计算；第五步是基于RANASC算法计算两个图像之间的3D单应性变换矩阵。然而，当只使用单应性变换矩阵进行坐标变换时，所计算的新的坐标值可能是负值以至于在新的坐标系统中被截取，从而造成部分场景信息的缺失。另外，所计算的单应性变换矩阵可能也不是最准确的，从而限制了图像对齐的效果。因此，第六步设计一个平移变换矩阵去修正单应性变换矩阵以确保新的坐标值是正值。平移变换矩阵为：

第七步是利用被修正后的单应性变换矩阵进行图像对齐，并剪裁出图像中相同的区域用于后续的计算。图像对齐过程为:

其中是对齐后的图像，/>为3D单应性变换矩阵。

为了更直观地反映平移变换矩阵的作用效果，未经平移变换矩阵修正的对齐结果和经平移变换矩阵修正后的对齐结果如图4中（a）-（c）所示。相较于未对齐前的原始图像可以看出，在未经平移变换矩阵修正的对齐结果中出现了部分场景信息缺失的问题，正如图像右下角所示。相反，在经过平移变换矩阵修正后，缺失的场景信息被重构，使得对齐后的图像保留了原始图像的完整信息，从而有助于在后续的视觉应用当中获得更准确的结果和更好的视觉效果。

步骤三：测量对齐后图像中的焦点信息，检测出各图像的聚焦区域，并选取其中聚焦在场景内部的图像作为待融合源图像；

随着在多视点多焦距成像系统中相机数量的增加，相应所捕获的图像数量也将随之增多，这将在后续的处理过程中引起存储控价和计算性能压力。另外，对于固定的场景并不是所有视点都聚焦在场景内部即并不是所有图像都是最清晰的。在图像融合中，这种图像对于融合结果的合成是不重要的，反而会引起较差的视觉效果，例如待融合源图像数量的增多所引起的颜色或亮度偏差，以及由图像之间放大率的差异所引起的边缘伪影等等。因此，对多视点多焦距图像进行一次筛选是非常有必要的。根据成像系统的成像原理，所捕获的图像遵循点扩散函数规则，并且离焦区域的函数相较于聚焦区域有更窄的带宽。因此，在理想情况下，在聚焦区域的高频信息比离焦区域的高频信息更加突出。在本实施例中，利用基于形态学滤波的顶帽变换和黑帽变换来测量多视点多焦距图像中的高频信息。两种变换的表达式是：

；

其中是圆盘结构元素，/>是/>的/>通道（亮度通道）值，/>是开运算操作，·是闭运算操作，/>是顶帽变换的结果，/>是黑帽变换的结果。在形态学滤波中的开运算和闭运算操作可以平滑原始图像中的亮暗细节，因此两种类型的变换可以表示像素/>的亮暗特征。在本实施例中，两种类型变换的最大值被定义为相应像素的焦点值。/>的焦点信息测量值为：

；

在景深拓展的研究领域中，图像中的聚焦区域相较于离焦区域必须有最大的焦点值，因此比较所有图像的焦点值，并采用像素级最大值规则获得的聚焦区域决定图，该过程为：

；

然后每个图像的聚焦区域决定图被观察和分析，选择出具有连续聚焦区域的图像作为待融合源图像。例如对图5中（a）所示厨房类型场景所拍摄的多视点多焦距图像的聚焦区域的检测结果如图5中（b）所示。对比分析所有视点的聚焦区域检测结果可知，并不是所有视点的聚焦区域决定图都有连续的白色区域，而是仅仅出现在部分图像中，例如图5中（b）的和/>。如上所述，聚焦区域决定图中的白色区域是图像的焦点值的最大值，其表示所有视点中最清晰的聚焦区域。聚焦于景深拓展的主要目标，即为了保护图像中的最清晰的区域。因此，仅处理在聚焦区域决定图中有连续白色区域的相应图像例如在图5中（a）所示/>和/>即可保护源图像中的聚焦区域。除此之外，对多视点多焦距图像进行筛选也可以最大程度的减少图像中的冗余信息，以及减小在后续的处理中存储和计算压力。

步骤四：以步骤三中所选取的待融合源图像作为输入，利用一个由自适应权重块和相似性损失函数所训练的DenseNet网络进行融合，生成融合图像：

传统图像融合方法的架构是通过人为设计的特征提取方法先提取图像中的特征；然后按照特定的融合规则融合所提取的特征。这些人为设计的特征提取方法增加了融合方法的复杂性，从而增加了设计融合规则的困难性。除此之外，融合规则的有限性也限制了图像融合方法性能的进一步提升。在本实施中，可以根据不同源图像中的特征在融合图像中的信息保护度来训练一个端到端的模型从而避免融合规则的使用。除此之外，由图像自身特性所决定的信息保护度也可以更好地保护源图像中的清晰区域。较高的信息保护度表明融合图像与源图像之间具有更大的相似性，从而源图像中更多高质量信息可以被保护在融合图像中。基于这个思想，在不需要基准真值的前提下一个DenseNet网络被训练去产生融合结果。

图像融合的主要目标是尽可能多的保护源图像中的重要信息。通常由更大和更多样的数据集所训练的模型可以从图像中提取出更丰富和更全面的特征，这将有利于在后续的处理中测量和保护图像中的重要信息。因此，在本实施例中，参考图6，采用预训练的VGG-16网络去提取源图像中的特征图。对于信息测量，在深度学习网络中更容易被计算和存储的图像梯度被用来测量所提取的特征图中所包含的信息，特征图的信息测量结果是：

其中是VGG-16网络中大小为/>的第/>个最大池化层之前的卷积层所提取的特征图，/>为Frobenius范数，以及/>是拉普拉斯算子。基于特征图的信息测量结果，两个自适应权重被分配作为信息保护度，其定义着融合图像与待融合源图像之间的相似性权重。较高的权重表明融合图像与待融合源图像具有更大的相似性，也表明待融合源图像中更多的信息被保护在融合图像中。

根据信息测量结果和/>，两个自适应权重/>和/>被估计。因为/>和/>之间的差异性是绝对值而不是相对值，因此相较于它们自身是较小的以至于不能反应出它们的差异性。为了放大二者的差异性，一个正值/>被用来作为缩放指数，在本实施例中/>为，因此/>和/>可被定义为：

其中函数是将/>和/>映射为0和1之间的实数，并且保证/>和/>的总和为1。

待融合源图像和/>，融合图像/>以及两个自适应权重/>和/>被用在损失函数中。然后一个DenseNet网络被优化到最小的损失函数从而更多地保护源图像中的重要信息。损失函数由两部分组成：

；

其中θ是DenseNet中的参数，D是训练数据集，在本实施例中所采用的训练集是公开的光场相机多焦距数据集。和/>是融合图像与源图像之间的相似性损失，利用一个/>保持平衡，在本实施例中/>取值为20。

在本实施例中，结构相似性指标被用来约束融合图像与待融合源图像之间的结构相似性作为项。利用/>和/>作为信息保护度，/>的具体表达式为：

；

其中是融合图像与待融合源图像之间的结构相似性指标测量值。

然而结构相似性指标测量值主要针对于对比度和结构的变化，它对强度分布上的差异具有较弱的约束。因此，采用均方误差去支持，/>被定义为：

其中是融合图像和待融合源图像之间的均方误差。同时通过约束均方误差所获得的结果存在较模糊的现象，这是由于平均了所有可能的结果所造成的。然而，结构相似性指标可以解决这个问题。因此，结构相似性指标和均方误差是相互补的，这将更有利于保护待融合源图像中的重要信息。

和/>串联作为输入，一个DenseNet网络被用于产生融合图像/>。在本实施例中的DenseNet网络包含10层，每一层具有一个卷积层和一个激活函数。在前九层的激活函数是斜率为0.2的LeakyReLU，同时最后一层是tanh。对于前七层，如果接近于输入层和接近于输出层之间具有更短的连接，CNN网络可以被显著地加深和被有效地训练。因此，紧密连接卷积网络中的紧密连接层被用在本实施例中DenseNet网络中。短的直接连接利用一种前反馈的方式被建立在每一层和所有层之间，这可以解决梯度消失问题以及大幅度减少网络中参数的同时增强特征的传递。然后，在这些层中所提取的特征被输入到后续的四层当中以此来逐渐地减少特征图的通道数并产生最终的Y通道融合结果。所有层的输入和输出通道数如表1所示。为了避免信息损失和减小边缘伪影，反射填充被用在卷积层前。所有的核大小为/>并且所有的步幅被设置为1。

步骤五：利用传统方法融合待融合源图像的Cb/Cr色度通道值，并进行颜色空间逆变换获得在RGB颜色空间下的融合图像：

当待融合原图像为两张时，将其分别视为聚焦在前景和背景的图像；当待融合原图像为三张以上时，先对待融合源图像进行分组，分别对各个分组进行融合获得聚焦在前景和背景的图像后，再进行融合；具体地，在本实施例中，多视点多焦距成像系统是一个相机阵列。随着相机阵列中相机数量的变化，相应所捕获的图像的数量也会随之变化。除此之外，对于不同类型的场景，可完整记录场景重要信息的图像数量也是不同的。因此，当对不同类型的场景进行多视点多焦距成像时，用于图像融合的源图像数量将是随机的，可能是奇数个或者是偶数个。融合多个输入的普遍策略是一个接一个的按顺序融合。无论如何，这种策略没有考虑由于不同的焦距设置所产生的图像之间放大率差异问题。因此，为了便于在后续的处理中解决图像之间的放大率差异问题从而缓解融合图像中的边缘伪影问题，在本实施例中给出了对于待融合源图像是奇数个或者是偶数个的融合顺序。当待融合源图像的数量是奇数个时，融合顺序的示意图如图7中（a）所示。是待融合源图像，其中/>表示聚焦在场景中间深度处的待融合源图像，/>表示聚焦在场景较浅深度处的待融合源图像，/>表示聚焦在场景较深深度处的待融合源图像。利用作为分界线，待融合源图像可以被分成三组，即/>，/>，和/>。首先，按照顺序一个接一个被融合合成/>。如果在/>中只有一张图像，则融合结果就是其本身。然后，/>和/>融合合成/>作为聚焦在前景的图像。同样的，/>也是按照顺序一个接一个融合合成聚焦在背景的图像/>。基于以上的融合顺序，一组含有奇数个待融合源图像的序列可以被整合为两个分别聚焦在前景和背景的图像。最后/>和/>进行融合产生最终的结果图像/>。

当待融合源图像的数量是偶数个时，融合顺序的示意图如图7中（b）所示。是待融合源图像，其中/>表示聚焦在场景较浅深度处的待融合源图像，/>表示聚焦在场景较深深度处的待融合源图像。因为待融合源图像的数量是偶数个，它们可以被直接分成两组，即/>和/>。对于每一组待融合源图像，相同的融合策略被采用去合成聚焦在前景的/>和聚焦在背景的/>。最后，/>和/>被融合合成融合图像/>。因此，不管待融合源图像是奇数个还是偶数个，在本实施例中所提供的融合顺序都可以将其合成为聚焦在前景和背景的两个图像。在边缘细化模块中，这两个图像将有助于边缘伪影的去除。

关于图像融合过程，在本实施例中，首先转换所捕获的RGB图像到由Y通道（亮度通道）和Cb/Cr通道（色度通道）组成的YCbCr颜色空间。因为图像的结构细节主要分布在Y通道以及在Y通道上的亮度变化相较于色度通道更加突出，因此Y通道的值由DenseNet进行融合。在Cb和Cr通道上的数据利用传统方法进行融合：

其中和/>分别是第一个和第二个待融合源图像的Cb/Cr通道值，/>是相应通道值的融合图像。最后，通过颜色空间逆变换将YCbCr颜色空间下的融合图像转换为RGB颜色空间下的融合图像。

步骤六：以待融合源图像的直方图作为目标直方图，利用直方图匹配方法使融合图像的颜色分布与待融合源图像的颜色分布保持一致：

随着待融合源图像数量的增加，由DenseNet所产生的融合图像与源图像之间的颜色偏差将会逐渐放大，这将导致严重的颜色失真从而无法在后续的视觉应用当中获得更准确的结果。因此，在本实施例中，利用待融合源图像的颜色分布概率密度函数去约束融合图像的颜色分布概率密度函数。将待融合源图像的直方图分布作为目标形状，利用直方图匹配方法使融合图像具有相同的直方图分布情况。直方图匹配的过程被定义为：

其中为待融合源图像在直方图均衡化中的逆变换函数，/>是融合图像在直方图均衡化中的变换函数，/>是直方图匹配后融合图像的像素值。在直方图匹配后，由DenseNet所产生的融合图像将具有和源图像相似的颜色分布。因此，在本实施例中，两个待融合源图像被用于约束融合图像的颜色分布。

步骤七：检测出物体边缘附近的离焦区域，利用聚焦在前景和背景的图像中的相应聚焦区域进行填充获得最终边缘伪影被有效去除的结果图像：

在光学系统成像的过程中，由于像差和衍射等影响，一个物点并不会被理想成像，而是在探测器平面上形成一个弥散圆。对于同样的光学成像系统和成像设置方式，只有当弥散圆的大小在一个预定义的范围内物体才会被清晰成像，从而在被捕获的图像中形成了聚焦区域和离焦区域。因此，对于同一个物体，只有当探测器平面与其相应的焦平面重合时才会形成最小的弥散圆。然而，当探测器平面在焦平面之前或之后时，从物体上发出的光在通过透镜组后要么还没有汇聚要么已经发散，从而在探测器平面上形成了较大的弥散圆。从而随着探测器平面沿着光轴的移动，对于同一个物体将在探测器平面上形成不同大小的弥散圆。根据光学系统的成像原理，弥散圆作用于系统的点扩散函数，并且由光学系统所捕获的图像遵循着点扩散函数的规则。换句话说，光学系统所捕获的图像是理想图像与点扩散函数卷积后的结果。此外，对于同一个物体，较大的弥散圆将会在图像上形成更加宽泛的影像，从而也会更加模糊。因此，随着焦平面的移动，同一个物体将在相应的图像中具有不同的扩散程度，从而形成不同放大率的视觉效果。如图8所示，当探测器与焦平面重合的时候，物体则被成像为最小的弥散圆。然而，当探测器向前或向后移动的时候，物体则会产生更大的弥散圆。

对于同一个物体，较大的弥散圆则会在图像中产生相应更大的扩散影像，并且弥散圆更大，相应的区域则会更模糊。因此，随着焦平面的移动，相同的物体在相应的图像中会有不同的扩散程度，从而在不同视点之间形成了不同放大率的视觉效果。在图像融合中，这种视点之间放大率的差异性就会导致边缘伪影问题的出现。

为了缓解融合图像中的边缘伪影，在本实施例中提出了一种简单有效的方法。视点之间不同的放大率是由于弥散圆的大小所造成的。较大的弥散圆有较大的放大率，相反较小的弥散圆又较小的放大率。因此，假设融合图像中的边缘伪影是弥散圆之间的差异性所导致的。为了简单化，我可以用两个聚焦在不同深度处图像之间像素差的绝对值来反映弥散圆大小上的差异。在图像当中，在物体边缘附近的像素相较于背景区域的像素数值更大且数量更少。因此，首先以像素值增大的方向作为正方向去计算相应像素数量的变化率。然后以最小变换率下的像素值作为阈值，当图像中的像素值大于等于阈值时将其赋值为1，相反则赋值为0，以此来检测出物体边缘附近的离焦区域。在塔类型场景上的离焦区域检测结果如图9中（a）-（b）所示。与待融合源图像对比分析可知，所检测的离焦区域可以反映出图像之间放大率的差异性。基于这个检测结果，利用聚焦在前景和背景处图像中相应的聚焦区域进行填充完成物体边缘伪影的去除，获得最终的结果图像。

图10示出了CNN、DSIFT、利用数学形态学进行图像融合方法、NSCT、U2fusion以及本实施例所述方法在不同场景上的处理结果。表2为CNN、DSIFT、利用数学形态学进行图像融合方法、NSCT、U2fusion以及本实施例所述方法的客观评价指标平均值计算结果。

；

与传统的焦点堆栈图像不同，多视点多焦距图像是来自于多个视点而不是仅仅一个。因为在多视点多焦距成像系统中的每个相机被放置在了不同空间坐标位置，因此多视点多焦距成像系统中的每个视点具有其它视点中所没有的独特信息。换句话说，在多视点多焦距图像中的每个图像都是同等重要的。基于这种情况，在本发明中提出基准视点下全景深图像的合成是所有视点共同作用的结果，并且随着所选取的基准视点的不同，可以获得任意视点下的全景深图像。为了验证这个观点的可行性，以不同视点作为基准视点，并且获得了其相应的全景深图像如图10所示。除此之外，为了反映所提出的多视点多焦距成像系统具有实时捕获动态场景的能力，通过改变成像系统的拍摄位置或者角度在不同时刻捕获了场景的多视点多焦距图像，并且也拓展了其景深。例如在图10中办公室类型场景的第一行是在第一时刻捕获的多视点多焦距图像及其各方法的景深拓展结果，第二行是在第二时刻捕获的多视点多焦距图像及其各方法的景深拓展结果。相较于CNN、DSIFT、利用数学形态学进行图像融合方法、NSCT、和U2fusion，尽管本发明方法没有用基准真值进行监督学习也没有融合所有图像，但是仍然获得了可观的结果。在办公室类型和摆件类型场景中，由放大率差异所引起的边缘伪影出现在CNN、DSIFT、利用数学形态学进行图像融合方法、NSCT、和U2fusion的结果当中。尽管利用数学形态学进行图像融合方法通过平均所有图像的像素值提高了边缘的对比度，但是这导致了图像清晰度的下降以及空洞问题的出现。在U2fusion和本发明方法的结果中，在图像中的边缘伪影被很好地缓解，但是U2fusion的结果出现了严重的颜色偏差，这使得融合图像损失了许多纹理细节信息。此外，CNN、DSIFT、利用数学形态学进行图像融合方法、NSCT、和U2fusion在家具摆件类型和兵马俑雕塑类型场景上对图像错误对齐也是敏感的。由于视点之间的错误对齐，在CNN、DSIFT、利用数学形态学进行图像融合方法、NSCT、和U2fusion的结果中有不同程度的重影问题。无论如何，在相同的视点匹配方法下，本发明的结果可以更好地保持场景的空间结构以及可有效地避免图像重影问题的出现。这是因为，一方面首先检测了各个图像的聚焦区域，并选择其中具有最清晰聚焦区域的图像作为待融合源图像，从而在一定程度上减少了错误对齐的影响。另一方面，图像融合网络在判断图像之间相对模糊之后尽可能多地重构待融合源图像中的聚焦区域，使在本发明的结果中保留较少的相对模糊区域，从而也有效地避免了错误对齐的影响。因此，相较于CNN、DSIFT、利用数学形态学进行图像融合方法、NSCT、和U2fusion等方法，本发明方法在所有场景和不同视点上均取得了可观的视觉效果，这表明本发明方法具有更好的鲁棒性和普适性。

由于多视点技术的引入，在多视点多焦距图像与传统焦点堆栈图像之间存在显著的差异。因此，为了获得每一个视点的全景深图像，不同视点中独特的信息被用来进行融合，但是这也引起了所融合的图像是否是当前视点下准确结果的问题。为了说明这个问题，两个全参考评价指标峰值信噪比和结构相似性被用来评价融合图像和基准真值之间的相似性。较大的峰值信噪比和结构相似性表明融合结果和基准真值之间具有更大的相似性，从而融合结果具有更小的失真和伪影，图像质量更好。观察分析表2中不同方法的计算结果可知，本发明方法在峰值信噪比上取得了最好的计算结果，在结构相似性上取得了第二好的结果表明本发明方法的结果具有更小的失真、伪影以及更接近于基准真值，从而景深拓展的结果更准确。

Claims

1.一种多视点多焦距成像的景深拓展方法，其特征在于，包括：

2.根据权利要求1所述的一种多视点多焦距成像的景深拓展方法，其特征在于，相机阵列中各相机的聚焦深度以S型递增的方式设置。

3.根据权利要求2所述的一种多视点多焦距成像的景深拓展方法，其特征在于，步骤S2所述对齐具体包括：提取基准视角特征点并建立描述子，提取尚未进行对齐操作的基准视角相邻视角的特征点并建立描述子；匹配基准视角与相邻视角的特征点并进行匹配度排序，选取最优的特征点对；计算相邻视角与基准视角的单应性变换矩阵；利用3x3的平移变换矩阵作为修正矩阵与单应性矩阵相乘，获得修正后的单应性变换矩阵；按照修正后的单应性变换矩阵将相邻视角对其到基准视角下；以对齐后的相邻视角作为新的基准视角，重复上述对齐操作直至完成全部视角的对齐变换。

4.根据权利要求3所述的一种多视点多焦距成像的景深拓展方法，其特征在于，所述修正矩阵为。

5.根据权利要求1所述的一种多视点多焦距成像的景深拓展方法，其特征在于，步骤S4中所述当待融合原图像为三张以上时，对待融合源图像进行分组具体过程为：

6.根据权利要求1-5任一项所述的一种多视点多焦距成像的景深拓展方法，其特征在于，将待融合图像在Y通道进行融合，具体执行过程为：待融合图像Y通道值由自适应权重块和相似性损失函数所训练的DenseNet网络进行融合。

7.根据权利要求3所述的一种多视点多焦距成像的景深拓展方法，其特征在于，步骤S5中所述对融合图像的颜色分布进行优化具体过程为：

8.一种多视点多焦距成像的景深拓展系统，其特征在于，包括：

9.一种多视点多焦距成像的景深拓展装置，其特征在于，包括：处理器；所述处理器与存储器耦合，所述存储器用于存储计算机程序或指令，所述处理器用于执行存储器中的所述计算机程序或指令，使得权利要求1-7任一项所述的一种多视点多焦距成像的景深拓展方法被执行。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序被处理器运行时控制所述存储介质所在设备执行如权利要求1至7任一项所述的一种多视点多焦距成像的景深拓展方法。