CN110675356B

CN110675356B - 一种基于用户意图推断的嵌入式图像合成方法

Info

Publication number: CN110675356B
Application number: CN201910938995.9A
Authority: CN
Inventors: 王文成; 谭雪晗; 徐盼盼
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2019-09-30
Filing date: 2019-09-30
Publication date: 2022-02-22
Anticipated expiration: 2039-09-30
Also published as: CN110675356A

Abstract

本发明涉及一种基于用户意图推断的嵌入式图像合成方法：1)通过深度学习方法获得源图像、目标图像中的物体分割结果及目标图像中的深度信息；2)用户在源图像中通过点击选择其感兴趣的内容；3)用户通过位移、缩放等操作，将选取的内容放置到目标图像中；4)根据用户的放置情况，推断待合成内容与目标图像中的各个物体之间的遮挡关系；5)依据所得的遮挡关系，将待合成内容中的可见部分，以克隆(Cloning)或模印(Matting)等已有图像合成技术进行合成；6)检查合成结果中是否有遮挡关系处理不当的情况；若有，由用户通过人工交互指定物体间的遮挡关系，再进行图像合成计算，得到合成结果。本发明能大幅减少图像内容捡拾的操作，具有简便、高效的优点。

Description

一种基于用户意图推断的嵌入式图像合成方法

技术领域

本发明涉及图像合成，属于计算机算法、计算机图形技术、图像处理技术，具体说是一种基于用户意图推断的嵌入式图像合成方法，即源图像中感兴趣内容有部分区域被目标图像中内容所遮挡的图像合成方法。

背景技术

图像合成是指把一幅图像中的物体合成到另一幅图像中，得到一幅新的图像，并使其看起来真实自然。目前主流的图像合成方法包括模印(Matting)方法和克隆(Cloning)方法。就模印(Matting)方法而言，它根据用户在感兴趣的区域(前景)和非感兴趣区域(背景)分别设置的画笔，进行约束求解，得到感兴趣物体的模印(Matte)，然后将模印放置到目标图像中，基于合成函数对模印覆盖区域的像素进行色彩合成，以完成图像合成。就克隆(Cloning)方法而言，用户用画笔在感兴趣区域边缘进行勾勒，以提取出该内容；然后，将提取出的内容放置到目标图像中，对放置区域边界上源图像与目标图像像素的颜色差异，进行梯度域的平滑处理，以完成图像合成。其工作基础是人的视觉系统往往对颜色变化不敏感，但对颜色梯度的差异比较敏感。这些方法或者需要用户使用画笔指定感兴趣的区域，或者需要为感兴趣的内容勾勒其轮廓，需要很多用户交互，特别是提取形状复杂的内容时用户交互的工作量很大，严重影响工作效率。

已有的这些图像合成方法，一般是要求将待合成的内容置于目标图像的上面。当感兴趣的内容，只需部分内容置于目标图像中可见时，则需要用户交互地去除那些将被遮挡的部分，导致人工操作大量增加。有些图像合成软件，如Photoshop，则是对图像内容进行分层处理，由用户指定各个图像内容的前后层次，然后根据层次关系依序合成。这样处理，对于感兴趣内容有部分区域被目标图像中内容遮挡的情况，是可进行图像合成的。但图像内容之间的前后层次关系，由人工指定依然是一个很费力的工作，工作效率不高。

发明内容

本发明技术解决问题：克服现有技术的不足，提供一种基于用户意图推断的嵌入式图像合成方法，基于深度学习进行感兴趣内容的拾取，只需简单的用户交互操作即可得到感兴趣内容，然后在图像合成时基于用户在目标图像中放置的感兴趣内容的位置，能有效推断出图像内容之间的前后层次关系，由此进行图像合成，可大幅减少人工操作，提高工作效率。

为了达到本发明的技术目的，本发明采用如下技术方案：

一种基于用户意图推断的嵌入式图像合成方法，包括以下步骤：

(1)采用深度学习技术对源图像和目标图像进行物体分割，如deepLab-V3+，得到图像融合中将处理的候选物体；对于源图像中的候选物体，用户可以通过简单的交互操作，如点击，来提取源图像中的感兴趣的物体，并且在融合计算中，根据感兴趣的物体的位置，推断用户感兴趣的物体与目标图像中的一个或多个物体之间的遮挡关系，即前后顺序关系；

(2)对步骤(1)得到的目标图像中将处理的候选物体，利用基于深度学习的深度估计方法得到它们的深度信息，据此计算候选物体的深度值，以作为图像融合中将处理的候选物体之间的图层先后排序的依据，得到候选物体之间的前后关系；

(3)基于候选物体和深度信息，推断用户期望的感兴趣的物体与目标图像中的物体之间的遮挡关系，具体地，当用户调整用户感兴趣的物体的位置和大小时，通过用户感兴趣的物体与目标图像中物体之间的重叠区域情况，以及用户感兴趣的物体与目标图像中一些物体所在的共享支撑面上的关联深度信息，依据重叠先验和深度先验，估计用户感兴趣的物体与目标图像中的物体之间的遮挡关系，得到用户感兴趣的物体在目标图像中的可见部分；

(4)使用图像合成技术，如克隆(cloning)或模印(matting)等，对用户感兴趣的物体在目标图像中的可见部分进行图像合成计算，将用户感兴趣的物体嵌入到目标图像中，得到合成结果；

(5)对合成的结果进行检查，如果其中有物体的前后位置关系错误，即遮挡关系处理不当的情况，则通过人工交互对相关内容进行调整，然后再进行图像合成计算，得到最终的图像合成结果。

所述步骤(3)中，根据经过用户调整后的感兴趣的物体的位置和大小，依据两种先验对用户感兴趣的物体与目标图像中的各个物体进行前后遮挡关系的判断：所述两种先验一种是重叠先验，另一种是深度先验，相关处理如下：

(a)重叠先验：如果一个物体，设为A物体，的大部分区域与另一个物体，设为B物体，的区域重叠了，则在融合计算时，判定物体A位于物体B前面。以该重叠先验中，90％作为重叠比例的阈值，大于此阈值，则认为是大部分重叠了；

(b)深度先验：待融入的物体与目标图像中的许多物体会位于一个共同的面上，称为物体的支撑面，则依据它们在支撑面上的接触区域的深度信息，判断待融入物体与目标图像中的物体之间的前后位置情况，由此知晓它们之间的遮挡关系。

所述步骤(b)的深度先验中，对于物体的支撑面，进行如下步骤的处理：

(b1)找到物体的最低点，生成一个矩形框，计算如下：过物体的最低点，生成该矩形框的下边框所在线；在下边框所在线的上方生成该矩形框的上边框所在线；上边框所在线和下边框所在线与该物体的轮廓求交，然后根据其中的最左边的交点和最右边的交点生成该矩形框左、右边框的所在线；由这些边框的所在线的交点生成矩形框，在此，上、下边框所在线之间的距离，采用物体高度的一定比例值，所述一定比例设为0.3，往往能得到好的结果；

(b2)以所涉及的各个物体在目标图像中位于所述矩形框内的像素的深度的平均值，作为判断它们之间的前后位置情况的依据，由此得到它们之间的遮挡关系。

和现有技术相比，本发明的优点和积极效果在于：

(1)本发明的方法基于深度学习对图像内容的分割，可通过简便的人工交互快速拾取源图像中感兴趣的内容；并利用基于深度学习的图像深度估算，可方便地推断待合成物体与目标图像中物体之间的前后遮挡关系。由此，可大幅减少图像合成处理中的人工交互操作，提高工作效率。

(2)本发明的实验结果显示，相比主流的模印(Matting)和克隆(Cloning)图像方法，本发明能很好地处理图像内容有部分被遮挡的合成情况，而那些方法则不便处理这样的合成情况。而与Photoshop软件相比，本发明能将交互次数减少10多倍，一般只需少量交互操作即可完成一幅合成图像。

附图说明

图1是本发明的流程图；

图2是本发明的深度计算框；

图3是重叠先验的合理性说明，其中：a-目标图像与源图像；b-当用户将小狗与汽车合成时，小狗的大部分区域嵌入汽车后面的结果显然毫无意义的；c-预期结果将在合成图像中充分地展示小狗；

图4表示合成失败的合成结果，及通过交互处理矫正遮挡关系后的合成结果，其中：a-目标图像与源图像；b-合成失败的结果；c-交互矫正遮挡关系后的结果；

图5表示样本源图像、目标图像和目标合成实例图，其中：a-目标图像与源图像；b-克隆(Cloning)方法得到的合成结果；c-模印(Matting)方法得到的合成结果；d-本发明得到的合成结果；e-Photoshop得到的合成结果；

图6表示样本源图像、目标图像和目标合成实例图，其中：a-目标图像与源图像；b-克隆(Cloning)方法得到的合成结果；c-模印(Matting)方法得到的合成结果；d-本发明得到的合成结果；e-Photoshop得到的合成结果；

图7表示样本源图像、目标图像和目标合成实例图，其中：a-目标图像与源图像；b-克克隆(Cloning)方法得到的合成结果；c模印(Matting)方法得到的合成结果；d-本发明得到的合成结果；e-Photoshop得到的合成结果；

图8表示样本源图像、目标图像和目标合成实例图，其中：a-目标图像与源图像；b-克隆(Cloning)方法得到的合成结果；c模印(Matting)方法得到的合成结果；d-本发明得到的合成结果；e-Photoshop得到的合成结果；

图9表示样本源图像、目标图像和目标合成实例图，其中：a-目标图像与源图像；b-克隆(Cloning)方法得到的合成结果；c-模印(Matting)方法得到的合成结果；d-本发明得到的合成结果；e-Photoshop得到的合成结果；

图10表示样本源图像、目标图像和目标合成实例图，其中：a-目标图像与源图像；b-克隆(Cloning)方法得到的合成结果；c-模印(Matting)方法得到的合成结果；d-本发明得到的合成结果；e-Photoshop得到的合成结果；

图11表示样本源图像、目标图像和目标合成实例图，其中：a-目标图像与源图像；b-克隆(Cloning)方法得到的合成结果；c-模印(Matting)方法得到的合成结果；d-本发明得到的合成结果；e-Photoshop得到的合成结果；

图12表示样本源图像、目标图像和目标合成实例图，其中：a-目标图像与源图像；b-克隆(Cloning)方法得到的合成结果；c-模印(Matting)方法得到的合成结果；d-本发明得到的合成结果；e-Photoshop得到的合成结果；

具体实施方式

以下结合附图和具体实施方式对本发明的方法进行详细描述。

如图1所示，本发明方法的流程图，包括以下步骤：

(1)应用深度学习方法识别源图像和目标图像中的特征物体，如deepLab-V3+，作为要在以下步骤中使用的候选物体。由此，用户可以通过简单的点击，提取源图像中的感兴趣的物体，并且便于推断感兴趣的物体与目标图像中的内容之间的遮挡关系。参见文献CHEN L.-C.,ZHU Y.,PAPANDREOU G.,SCHROFF F.,ADAM H.:Encoder-decoder withatrous separable convolution for semantic image segmentation.In Proceedingsof the European Conference on Computer Vision(ECCV)(2018),pp.801–818.3,9。

(2)应用深度估计的方法来获得2D目标图像的深度信息，用于推断目标图像中用户感兴趣的物体的空间排列情况。参见文献LAINA I.，RUPPRECHT C.，BELAGIANNIS V.，TOMBARI F.，NAVAB N.：Deeper depth prediction with fully cOnvOlutionalresidualnetworks.In 2016Fourth international conference on 3D vision(3DV)(2016)，IEEE，pp.239-248.3。

(3)基于从深度学习获得的物体边界和深度信息，推断相关物体之间的遮挡关系。

具体地，本发明定义了如下两种先验，以进行快速的图像合成操作：

i.重叠先验。在图像合成时，用户的合成操作是具有目的性的，他的操作直接反映了他希望突出显示他感兴趣的物体的意图。换句话说，用户在合成时，不会将一个显著性物体完全或者绝大部分嵌入到另一个显著性物体的后面(这种合成显然是没有意义的操作)。如图3所示，当用户将小狗与汽车合成时，小狗的大部分区域嵌入汽车后面的结果显然毫无意义的(图3中的(b))。相反，预期结果将在合成图像中充分地展示小狗(图3中的(c))。基于这种观察，定义了如下先验：

当物体A的绝大部分区域被物体B重叠时，即若满足以下公式时：

则认为A物体应该位于物体B的前面。其中，S_A、S_B分别表示物体A和物体B的面积，γ为调节参数。在实验中，发现γ值取90％时，往往能得到符合用户期望的推断；否则，无法确定。一般地，以90％作为重叠比例γ的阈值。比如待融入的物体有90％以上的区域与目标图像中的一个物体重叠，则待融入的物体位于那个目标图像的物体前面；反之，如果目标图像中的一个物体，其有90％的区域与待融入的物体重叠，则那个目标图像中的物体位于待融于物体的前面。当目标图像中的物体和目标图像中的物体不能满足当前的先验时，它们之间的遮挡关系不能通过重叠先验确定，这需要通过深度先验进行进一步的考察。

ii.深度先验。待融入的物体与目标图像中的许多物体会位于一个共同的面上(称为支撑面)，依据它们在支撑面上的接触区域的深度信息，可判断待融入物体与目标图像中的这些物体之间的前后位置情况，由此知晓它们之间的遮挡关系。在深度先验的计算中，为减少杂质的影响，需要对物体与支撑面的接触区域的深度进行稳定地计算，比如对于支撑面为地面或平行地面的情况，进行如下步骤的处理：

找到物体的最低点，生成一个矩形框，其计算如下：过物体的最低点，生成该矩形框的下边框所在线；在下边框所在线的上方生成该矩形框的上边框所在线；上边框所在线和下边框所在线与该物体的轮廓求交，然后根据其中的最左边的交点和最右边的交点生成该矩形框左、右边框的所在线；由这些边框的所在线的交点生成矩形框。在此，上、下边框所在线之间的距离，使用物体高度的一定比例值δ，一般该比例设为0.3，往往能得到好的结果。最后，以目标图像中位于矩形框内的像素的深度的平均值，作为该物体的深度，计算公式如下：

其中，D为物体的深度值，d_i为像素i处的深度值，C是为物体的支持区域的矩形。

如图2所示，通过该矩形框内的深度均值，确定目标图像的中鸽子与插入的鸽子之间的深度排序。采用δ＝0.3来完成所有实验。方框区域表示每个鸽子的深度计算框，使用方框内的均值深度表示鸽子的大致深度，并据此排序。例如，在图2中(a)中，当待合成的鸽子位于左边鸽子、右边鸽子之间时，左边、右边、待合成的鸽子深度分别为0.503、0.722、0.605，待合成鸽子的深度大于左边鸽子，小于右边鸽子，因此，它位于左边鸽子之后，右边鸽子之前；当待合成鸽子位于右边鸽子右边时，左边、右边、待合成标记的鸽子深度分别为0.503、0.722、0.882，待合成鸽子的深度大于左边鸽子、右边鸽子，因此，它位于其他鸽子之后。合成结果如图12中(e)所示。

此外，进行了一项测试，以研究6对深度排序的影响。如表1所示，不同的δ可能导致不同的深度值，但对相应的深度排序没有影响。考虑到具有大支持区域的稳定计算，采用δ＝0.3来完成所有实验。

表1：δ的值对图2的物体深度的影响

iii.使用已有的图像合成技术如克隆(Cloning)和模印(Matting)等对用户感兴趣的物体在目标图像中的可见部分进行图像合成计算，得到合成结果。比如使用模印(Matting)方法进行图像合成计算时，首先构造源图像的三分图，用于生成用户感兴趣的物体的遮罩。在三分图(Trimap)中，用户感兴趣的物体被设置为前景，位于用户感兴趣的物体边界附近的具有n个像素宽的环形区域，被设置为未知区域，源图像中的其余像素被设置为背景。然后使用Closed-Form Matting(参见文献Levin A，Lischinski D，Weiss Y.AClosed-Form Solution to Natural Image Matting[J].IEEE Transactions on PatternAnalysis&Machine Intelligence，2007，30(2)：228-242.)来生成此三分图(Trimap)的模印(Matte)。一般地，将n设置为n＝max(0.05K，3)就总能获得良好的结果，其中K是用户感兴趣的物体的包围盒的对角线长度。最后，使用模印的色彩合成公式f_i＝(1-α_i)·t_i+α_i·g_i将用户感兴趣的物体的可见部分融合到目标图像中，f_i是合成图像中像素i的色彩，t_i指目标图像中像素i的色彩，g_i指模印中像素i在源图像中的色彩。

iv.对合成的结果进行检查。如其中有遮挡关系处理不当的情况，则通过人工交互对相关内容进行适当的调整，然后再进行图像合成计算，得到最终的图像合成结果。如图4所示，当用户感兴趣的物体根据所用的先验难以判断前后遮挡关系时，例如弹跳篮球、飞行中的飞机，会导致物体之间的空间排列发生错位(图4中的(b))。对此，用户通过点击相关物体，快速纠正不正确结果，以完成最后所期望的合成结果(图4中的(c))。

为了评估本发明的方法的质量和效率，与已有模印(Matting)图像合成方法(pérez P，Gangnet M，Blake A.Poisson image editing[J].ACM Transactions on graphics(TOG)，2003，22(3)：313-318.)与克隆(Cloning)图像合成方法(Shahrian E，Rajan D，Price B，et a1.Improving image matting using comprehensive sampling sets[C].Proceedings of the IEEE Conference on Computer Vision and PatternRecognition.2013：636-643.)进行了比较。算法实现的硬件环境是一台3.41GHz的英特尔i7-2600CPU、8GB内存的个人电脑。此外，还与最常用的交互式图像处理软件Photoshop进行比较，来对本发明的方法在合成效果和人工交互的效率上进行评估。

本发明的合成结果在图5-图12中显示。同时，模印(Matting)图像合成方法(pérezP，Gangnet M，Blake A.Poisson image editing[J].ACM Transactions on graphics(TOG)，2003，22(3)：313-318.)、克隆(Cloning)图像合成方法(Shahrian E，Rajan D，PriceB，et al.Improving image matting using comprehensive sampling sets[C].Proceedings of the IEEE Conference on Computer Vision and PatternRecognition.2013：636-643.)和Photoshop的合成结果也在图中显示。从结果中可知，本发明的合成结果的质量与Photoshop中的结果相当。

同时，表2展示了本发明的方法在用户感兴趣的物体提取和合成过程中的效率。显然，本发明的方法的合成速度远高于其他方法。具体来说，因为内容提取可以通过简单的点击完成，本发明的方法比使用Photoshop的手动编辑平均快185.4倍。虽然克隆(Cloning)图像合成方法和模印(Matting)图像合成方法仅需要用户在前景和背景上勾勒出用户感兴趣的物体或划线，但本发明的方法平均比克隆(Cloning)图像合成方法快5.9倍，平均比模印(Matting)图像合成方法快29.1倍。

表2：图5-图12的物体提取耗时效率(秒)

	Photoshop	克隆(Cloning)方法	模印(Matting)方法	本发明
					图5	193	7	23	1
图6	211	6	20	1
					图7	154.5	7	31	1
图8	93	8	36	1
					图9	226.5	7	33	1
图10	128	7	33	1
					图11	269.5	7	33	1
图12	215.5	6	32	1
					平均加速	185.4	5.9	29.1	-

注：平均加速由(t₁-t₂)/t₂计算，其中t₁和t₂是使用本发明和Photoshop执行相同合成任务的平均耗时。

在图像合成的过程中，因为克隆(Cloning)图像合成方法和模印(Matting)图像合成方法不能处理有遮挡的情况(图5-图12)，所以只比较了本发明的方法和Photoshop。表3列出了本发明的方法和使用Photoshop进行图像合成的时间成本。可以看出，本发明的方法平均比使用Photoshop快16.7倍，同时实现了视觉上类似的合成结果。

表3：图5-图12的图像合成耗时效率(秒)

另外，在表4中，记录了图5-图12的合成调整操作的数量。可以看到，本发明的方法需要的用户输入比Photoshop少得多。在所有这些实验中，用户感兴趣的物体和目标图像中的物体之间的遮挡关系可以由重叠先验和深度先验正确确定，因此不需要用户人工交互。显然，对于图像合成中耗时的两种计算(物体拾取和遮挡关系的处理)，本发明能进行便捷的处理，由此大幅减少人工交互次数，提高工作效率。

表4：图5-图12的合成交互效率(交互次数)

Claims

1.一种基于用户意图推断的嵌入式图像合成方法，其特征在于，包括以下步骤：

(1)采用深度学习技术对源图像和目标图像进行物体分割得到图像融合中将处理的候选物体；其中，对于源图像中的候选物体，用户通过简单的交互操作提取源图像中的感兴趣的物体，并且在融合计算中，根据感兴趣的物体的位置，推断用户感兴趣的物体与目标图像中的一个或多个物体之间的遮挡关系，即前后顺序关系；

(3)基于候选物体和深度信息，推断用户期望的感兴趣的物体与目标图像中的物体之间的遮挡关系，具体地，当用户调整用户感兴趣的物体的位置和大小时，通过用户感兴趣的物体与目标图像中物体之间的重叠区域情况以及用户感兴趣的物体与目标图像中一些物体所在的共享支撑面上的关联深度信息，依据重叠先验和深度先验，估计用户感兴趣的物体与目标图像中的物体之间的遮挡关系，得到用户感兴趣的物体在目标图像中的可见部分；

(4)使用图像合成技术，包括克隆或模印，对用户感兴趣的物体在目标图像中的可见部分进行图像合成计算，将用户感兴趣的物体嵌入到目标图像中，得到合成结果；

(5)对合成的结果进行检查，如果其中有候选物体的前后位置关系错误，即遮挡关系处理不当的情况，则用户通过人工交互对遮挡关系不正确的物体的前后位置次序进行调整，然后再进行图像合成计算，得到最终的图像合成结果。

2.根据权利要求1所述的基于用户意图推断的嵌入式图像合成方法，其特征在于：所述步骤(3)中，根据经过用户调整后的感兴趣的物体的位置和大小，依据两种先验对用户感兴趣的物体与目标图像中的各个物体进行前后遮挡关系的判断：所述两种先验一种是重叠先验，另一种是深度先验，相关处理如下：

(a)重叠先验：如果一个物体，设为A物体，其大部分区域与另一个物体，设为B物体，的区域重叠了，则在融合计算时，判定物体A位于物体B前面，该重叠先验中，以90％作为重叠比例的阈值，大于此阈值，则认为是大部分重叠了；

(b)深度先验：待融入的物体与目标图像中的许多物体会位于一个共同的面上称为物体的支撑面，则依据它们在支撑面上的接触区域的深度信息，判断待融入物体与目标图像中的物体之间的前后位置情况，由此知晓它们之间的遮挡关系。

3.根据权利要求2所述的基于用户意图推断的嵌入式图像合成方法，其特征在于：所述步骤(b)的深度先验中，对于物体的支撑面，进行如下步骤的处理：

(b1)找到物体的最低点，生成一个矩形框，计算如下：过物体的最低点，生成该矩形框的下边框所在线；在下边框所在线的上方生成该矩形框的上边框所在线；上边框所在线和下边框所在线与该物体的轮廓求交，然后根据其中的最左边的交点和最右边的交点生成该矩形框左、右边框的所在线；由这些边框的所在线的交点生成矩形框，在此，上、下边框所在线之间的距离，采用物体高度的一定比例值，所述一定比例设为0.3；

4.根据权利要求1所述的基于用户意图推断的嵌入式图像合成方法，其特征在于：所述步骤(5)中，对于合成结果中遮挡关系处理不当的情况进行人工交互的调整，具体地，用户点击相关的物体并指定它们之间的前后关系。