CN112270688A

CN112270688A - 一种前景提取方法、装置、设备及存储介质

Info

Publication number: CN112270688A
Application number: CN202011216784.3A
Authority: CN
Inventors: 高岩; 张广慧; 陈玉来; 张晓林
Original assignee: Shanghai Institute of Microsystem and Information Technology of CAS
Current assignee: Shanghai Institute of Microsystem and Information Technology of CAS
Priority date: 2020-11-04
Filing date: 2020-11-04
Publication date: 2021-01-26
Anticipated expiration: 2040-11-04
Also published as: CN112270688B

Abstract

本申请涉及一种前景提取方法、装置、设备或存储介质，该方法包括：获取红外图像序列和可见光图像序列；红外图像序列和可见光图像序列一一对应；对红外图像序列中每帧红外图像进行对比度处理，得到初始掩膜图像序列；将初始掩膜图像序列和可见光图像序列进行串联，得到输入图像序列；根据已训练的特征提取模型对输入图像序列进行特征提取，得到特征张量；根据已训练的长短时记忆网络模型，确定特征张量对应的预测掩膜图像；根据预测掩膜图像和可见光图像，确定前景图像。本申请实施例提供的一种前景提取方法适用于静止或运动的前景物体，包括半透明物体、运动模糊物体和虚焦物体的提取，可以提高前景物体的边缘的提取精度。

Description

一种前景提取方法、装置、设备及存储介质

技术领域

本申请涉及图像处理技术领域，特别涉及一种前景提取方法、装置、设备及存储介质。

背景技术

前景提取(抠像)技术广泛应用于电影后期处理、二维图形艺术、电视、广告、视频后期制作等领域。最典型的，在电影制作的过程中，导演利用抠像与合成技术，将不同时间，不同地点拍摄到的影像合成到同一场景中，实现特殊的艺术效果。

目前常见的抠像方法主要有蓝屏(或绿屏)抠像法、背景建模法、交互法、附加信息法等。

蓝屏(或绿屏)抠像法，采用纯蓝色(或绿色)为背景，将前景置于单色背景前面，一般采用帧差法来提取前景，即首先抓取不含有前景的静背景，把当前景进入场景后拍摄的照片与背景照相减，不相同的地方即为前景。该方法效果较好，但限制前景不能含有与背景颜色相近的颜色，应用领域受限。

背景建模法，主要有基于颜色信息和基于混合高斯模型的背景建模法。前者将RGB颜色空间转化为色度和亮度的二维空间，进而对背景建立模型，能较好地区分前景物体的阴影；后者对连续N帧背景图像建立高斯混合模型，能够应对缓慢变化的光照。但当前景物体颜色与背景物体相近时，这两种方法的提取精度都较差。

交互法，指的是首先人工标注三元trimap图(即前景区域、背景区域和未知区域)，然后利用贝叶斯或闭合式优化等方法求解未知区域的方法，该类方法对于边缘细节的求解较好，但需要人工标注作为前提，且计算效率慢，难以处理大量数据。

附加信息法，目前有两种思路。一种是微软的Kinect借助红外散斑求解深度，利用深度信息确定像素是否为前景，但该方法一方面对深度求解精度要求较高，尤其是边缘，另一方面当前景表面存在凹坑时，容易判断成背景。

综上，在复杂背景下，目前的抠像方法存在精度低、计算复杂度高等问题，其在很大程度上限制了抠像技术的实际应用。

发明内容

本申请实施例提供了一种前景提取方法、装置、设备及存储介质，适用于静止或运动的前景物体，包括半透明物体、运动模糊物体和虚焦物体的提取，可以提高前景物体的边缘的提取精度。

一方面，本申请实施例提供了一种前景提取方法，包括：

获取红外图像序列和可见光图像序列；红外图像序列和可见光图像序列一一对应；

对红外图像序列中每帧红外图像进行对比度处理，得到初始掩膜图像序列；

将初始掩膜图像序列和可见光图像序列进行串联，得到输入图像序列；

根据已训练的特征提取模型对输入图像序列进行特征提取，得到特征张量；

根据已训练的长短时记忆网络模型，确定特征张量对应的预测掩膜图像；

根据预测掩膜图像和可见光图像，确定前景图像。

可选的，获取红外图像序列和可见光图像序列之后，对红外图像序列中每帧红外图像进行对比度处理之前，还包括：对红外图像序列和可见光图像序列进行图像配准处理。

可选的，对红外图像序列和可见光图像序列进行图像配准处理，包括：针对红外图像序列中每帧红外图像：从红外图像中确定出第一关键像素集合；确定第一关键像素集合中每个第一关键像素的特征信息；针对可见光图像序列中与红外图像对应的可见光图像：从可见光图像中确定出第二关键像素集合；确定第二关键像素集合中每个第二关键像素的特征信息；基于每个第一关键像素的特征信息和每个第二关键像素的特征信息，确定出关键像素匹配对集合；基于关键像素匹配对集合，对红外图像和可见光图像进行光轴配准。

可选的，每个第一关键像素的特征信息包括梯度方向描述子；确定第一关键像素集合中每个第一关键像素的特征信息，包括：针对第一关键像素集合中每个第一关键像素：以第一关键像素为基准确定第一目标区域；确定第一目标区域的梯度直方图；基于梯度直方图确定对应的第一关键像素的梯度方向描述子。

可选的，每个第一关键像素的特征信息还包括局部二值描述子；确定第一关键像素集合中每个第一关键像素的特征信息，包括：针对第一关键像素集合中每个第一关键像素：以第一关键像素为基准确定第二目标区域；将第二目标区域中每个像素的像素值与第一关键像素的像素值进行比较，确定出每个像素的描述值；基于每个像素的描述值，确定对应的第一关键像素的局部二值描述子。

可选的，基于关键像素匹配对集合，对红外图像和可见光图像进行光轴配准之后，还包括：针对可见光图像序列中每帧可见光图像：将可见光图像作为参考图像，并将可见光图像对应的红外图像作为待配准图像；获取参考图像与待配准图像的关键像素匹配对集合；基于超图约束确定关键像素匹配对集合中每个关键像素匹配对的匹配程度值；基于每个关键像素匹配对的匹配程度值对关键像素匹配对集合中每个关键像素匹配对进行排序，得到排序后的关键像素匹配对集合；基于关键像素匹配对集合中预设位数的关键像素匹配对，确定初始化目标匹配对集合；将初始化目标匹配对集合作为当前匹配对集合；根据当前匹配对集合和当前匹配对集合中每个匹配对的匹配程度值，确定当前变换矩阵；基于当前变换矩阵，确定关键像素匹配对集合中当前预设位置的关键像素匹配对在参考图像中的位置；若当前预设位置的关键像素匹配对在参考图像中的位置满足误差范围，则将当前预设位置的关键像素匹配对加入当前匹配对集合，得到更新后的当前匹配对集合；直至当前预设位置等于关键像素匹配对集合中关键像素匹配对的对数，将当前匹配对集合作为目标匹配对集合，并将目标匹配对集合对应的当前变换矩阵作为目标变换矩阵；根据目标变换矩阵，对待配准图像进行空间变换和重采样，得到配准后的红外图像和可见光图像。

另一方面，本申请实施例提供了一种前景提取装置，包括：

第一获取模块，用于获取红外图像序列和可见光图像序列；红外图像序列和可见光图像序列一一对应；

第一确定模块，用于对红外图像序列中每帧红外图像进行对比度处理，得到初始掩膜图像序列；

第二确定模块，用于将初始掩膜图像序列和可见光图像序列进行串联，得到输入图像序列；

第三确定模块，用于根据已训练的特征提取模型对输入图像序列进行特征提取，得到特征张量；

第四确定模块，用于根据已训练的长短时记忆(LSTM)网络模型，确定特征张量对应的预测掩膜图像；

第五确定模块，用于根据预测掩膜图像和可见光图像，确定前景图像。

可选的，还包括配准处理模块，用于对红外图像序列和可见光图像序列进行图像配准处理。

另一方面，本申请实施例提供了一种设备，设备包括处理器和存储器，存储器中存储有至少一条指令或至少一段程序，至少一条指令或至少一段程序由处理器加载并执行上述的前景提取方法。

另一方面，本申请实施例提供了一种计算机存储介质，存储介质中存储有至少一条指令或至少一段程序，至少一条指令或至少一段程序由处理器加载并执行以实现上述的前景提取方法。

本申请实施例提供的一种前景提取方法、装置、设备及存储介质具有如下有益效果：

通过获取红外图像序列和可见光图像序列；红外图像序列和可见光图像序列一一对应；对红外图像序列中每帧红外图像进行对比度处理，得到初始掩膜图像序列；将初始掩膜图像序列和可见光图像序列进行串联，得到输入图像序列；根据已训练的特征提取模型对输入图像序列进行特征提取，得到特征张量；根据已训练的长短时记忆网络模型，确定特征张量对应的预测掩膜图像；根据预测掩膜图像和可见光图像，确定前景图像。本申请实施例提供的一种前景提取方法适用于静止或运动的前景物体，包括半透明物体、运动模糊物体和虚焦物体的提取，可以提高前景物体的边缘的提取精度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种前景提取方法的流程示意图；

图2是本申请实施例提供的一种第一目标区域的梯度方向和梯度值的示意图；

图3是本申请实施例提供的一种局部二值描述子的确定过程示意图；

图4是本申请实施例提供的一种LSTM模型的结构示意图；

图5是本申请实施例提供的一种预测掩膜图像的提取过程示意图；

图6是本申请实施例提供的一种前景提取装置的结构示意图；

图7是本申请实施例提供的一种前景提取方法的服务器的硬件结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

针对现有技术中前景提取方案中不能提取精细边缘，应用场景有限的问题，本申请实施例提供的了一种适用于静止或运动的前景物体，包括半透明、运动模糊和虚焦物体、且边缘提取精度高的前景提取方法。

以下介绍本申请一种前景提取方法的具体实施例，图1是本申请实施例提供的一种前景提取方法的流程示意图，本说明书提供了如实施例或流程图的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统或服务器产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图1所示，该方法可以包括：

S101：获取红外图像序列和可见光图像序列；红外图像序列和可见光图像序列一一对应。

本申请实施例中，红外图像序列和可见光图像序列分别通过红外摄像机和可见光摄像机采集得到。在采集前，将红外摄像机和可见光摄像机以绝对90°位置上下固定，镜头相对，两台摄像机中间45°位置倾斜放置半透镜。针对红外摄像机和可见光摄像机，利用张正友标定法分别进行标定，完成图像畸变矫正。在实际应用场景中采集视频图像时，利用红外光源照射漫反射的背景墙，前景物体很少反射到红外光，因此所得到的红外图像，背景部分像素值很高，前景部分像素值很低，具有明显的明暗对比。红外摄像机与可见光摄像机采集频率相同，因此获取的红外图像序列和可见光图像序列是一一对应的。

在一种可选的实施方式中，在执行下一步骤之前，该方法还包可以括：对红外图像序列和可见光图像序列进行图像配准处理。图像配准是对不同时间、不同视角、不同来源的两幅或多幅图像进行空间几何变换，使得各个图像中相同场景在几何上对准的过程。

考虑到两台摄像机之间光轴存在差异的问题，为了调整两台摄像机的光轴尽可能重合，具体的，对红外图像序列和可见光图像序列进行图像配准处理，可以包括：针对红外图像序列中每帧红外图像：从红外图像中确定出第一关键像素集合；确定第一关键像素集合中每个第一关键像素的特征信息；针对可见光图像序列中与红外图像对应的可见光图像：从可见光图像中确定出第二关键像素集合；确定第二关键像素集合中每个第二关键像素的特征信息；基于每个第一关键像素的特征信息和每个第二关键像素的特征信息，确定出关键像素匹配对集合；基于关键像素匹配对集合，对红外图像和可见光图像进行光轴配准。

上述从红外图像中确定出第一关键像素集合的步骤，以及从可见光图像中确定出第二关键像素集合的步骤中，可以采用对图像尺度、平移和旋转具有较强的适应能力的尺度不变特征变换(Scale Invariant Feature Transform，SIFT)特征提取第一关键像素和第二关键像素的位置，SIFT特征查找的关键像素点往往很稳定，如角点、边缘点、暗区的亮点以及亮区的暗点等。

一种具体的基于SIFT特征确定第一关键像素集合和第二关键像素集合的实施方式中，包括高斯金字塔构建、相减获得差分(Difference of Gaussian，DoG)金字塔、DoG空间极值检测三个步骤；这里，由于红外图像的对比度较低，为保证第一关键像素集合中关键像素点的数量，本申请丢弃常规SIFT关键点检测方法中剔除低对比度关键点的环节，直接以DoG空间检测到的极值点作为关键点，得到第一关键像素集合。

此外，进一步地，每个第一关键像素的特征信息可以包括梯度方向描述子；对应的，确定第一关键像素集合中每个第一关键像素的特征信息的步骤中，可以包括：针对第一关键像素集合中每个第一关键像素：以第一关键像素为基准确定第一目标区域；确定第一目标区域的梯度直方图；基于梯度直方图确定对应的第一关键像素的梯度方向描述子。其中，梯度方向描述子通过计算和统计图像局部区域的梯度方向直方图来构成特征，在计算机视觉和图像处理中用来进行物体检测的特征描述子。

具体的，首先将可见光图像转换成灰度图像，然后采用Gamma矫正对输入图像进行颜色空间的标准化，以调节图像的对比度，降低图像局部的阴影并抑制噪音干扰；其次，依次以单个第一关键像素为中心，取9*9像素作为一个单元(即第一目标区域)，统计该单元的梯度直方图，即将梯度方向量化成9个方向，每个直方图区间(bin)的大小为180°/9＝20°(无向)，统计每个区间内对应的梯度值的平均值，为了后续与局部描述子的二值描述量级匹配，将这9位平均值规范化到0-10，形成该单元(即该第一关键像素)的梯度方向描述子。同理，对红外图像做同样的操作，不同的是无需转换成灰度图。从而得到每个第二关键像素的梯度方向描述子。

通过一个具体的例子对梯度方向描述子进行说明。如图2所示，图2(a)是本申请实施例提供的一种第一目标区域的梯度方向，图2(b)是本申请实施例提供的一种第一目标区域的梯度值，中心分别为第一关键像素的梯度方向和梯度值，以梯度方向为0-20°(加粗部分)为例，则该第一关键像素的梯度方向描述子的第一位为(4+4+3+1+4+5+3+8+47+56+45+128)/12＝25.7，25.7可以近似为26，如此按照同样的计算方式得到梯度方向描述子其他8位的数值；其次，分别将这9位归一化到浮点数0-1，再乘以10并向下取整，例如，26归一化后为0.22，则该位置为0.22*10＝0.22，向下取整为2，其他位数按照相同的方式进行归一取整，得到最终的梯度方向描述子。

进一步地，除梯度方向描述子之外，每个第一关键像素的特征信息还可以包括局部二值描述子；对应的，确定第一关键像素集合中每个第一关键像素的特征信息的步骤中，还可以包括：针对第一关键像素集合中每个第一关键像素：以第一关键像素为基准确定第二目标区域；将第二目标区域中每个像素的像素值与第一关键像素的像素值进行比较，确定出每个像素的描述值；基于每个像素的描述值，确定对应的第一关键像素的局部二值描述子。其中，局部二值描述子是一种用来描述图像局部纹理特征的算子，它具有旋转不变性和灰度不变性等显著的优点。

具体的，依次以单个第一关键像素为中心，构建3*3的邻域块(即第二目标区域)，以该第一关键像素的灰度值为阈值，相邻的8个像素的灰度值与其进行比较，若周围像素的灰度值大于该阈值，则该像素的描述值被标记为1，否则为0。顺时针记录8个像素的结果，以附图3为例，即01111100，作为该第一关键像素的局部二值描述子。

在一种可选的实施方式中，在确定出每个第一关键像素或第二关键像素各自的梯度方向描述子和局部二值描述子之后，串联梯度方向描述子和局部二值描述子，形成该第一关键像素或第二关键像素最终的特征描述子，即特征信息；上述基于每个第一关键像素的特征信息和每个第二关键像素的特征信息，确定出关键像素匹配对集合的步骤中，可以包括：利用最优节点优先搜索并计算最近邻特征向量与次最近邻向量间的欧式距离比快速完成特征点对预匹配，在此基础上引入随机抽样一致性(RANSAC)算法去除不可靠的匹配对，得到最终的关键像素匹配对集合。如此，对同一个场景，先拍摄一组可见光图像序列和红外图像序列，求得关键像素匹配对集合之后，通过主观地让尽可能多的关键像素匹配对重合，调整两台摄像机的光轴使其尽可能重合，即调整两台摄像机的光轴(调整支架)使得两幅图像的关键像素匹配对集合中匹配对从主观观察或测量上分别居于红外图像和可见光图像中的同一个位置，完成红外和可见光摄像机的光轴配准，以便后续进行正式拍摄时得到的红外和可见光图像的匹配程度更加精确。

由于不同摄像机内参和几何位置无法达到完全一致，因此经过支架调整后的异源图像像素仍然会有一定的偏差。本申请实施例中，为了使两幅图像像素位置对齐，将两幅图像变换到同一坐标系下，使得相同目标的影像像素能够一一对应，例如，可以将可见光图像作为基准参考图像，找到从红外图像到基准参考图像的一一映射关系。

在一种可选的实施方式中，在执行完上述光轴配准步骤之后，执行下一步骤之前，该方法还可以包括：针对可见光图像序列中每帧可见光图像：将可见光图像作为参考图像，并将可见光图像对应的红外图像作为待配准图像；获取参考图像与待配准图像的关键像素匹配对集合；基于超图约束确定关键像素匹配对集合中每个关键像素匹配对的匹配程度值；基于每个关键像素匹配对的匹配程度值对关键像素匹配对集合中每个关键像素匹配对进行排序，得到排序后的关键像素匹配对集合；基于关键像素匹配对集合中预设位数的关键像素匹配对，确定初始化目标匹配对集合；将初始化目标匹配对集合作为当前匹配对集合；根据当前匹配对集合和当前匹配对集合中每个匹配对的匹配程度值，确定当前变换矩阵；基于当前变换矩阵，确定关键像素匹配对集合中当前预设位置的关键像素匹配对在参考图像中的位置；若当前预设位置的关键像素匹配对在参考图像中的位置满足误差范围，则将当前预设位置的关键像素匹配对加入当前匹配对集合，得到更新后的当前匹配对集合；直至当前预设位置等于关键像素匹配对集合中关键像素匹配对的对数，将当前匹配对集合作为目标匹配对集合，并将目标匹配对集合对应的当前变换矩阵作为目标变换矩阵；根据目标变换矩阵，对待配准图像进行空间变换和重采样，得到配准后的红外图像和可见光图像。

其中，上述基于关键像素匹配对集合中预设位数的关键像素匹配对，确定初始化目标匹配对集合步骤中的预设位数，指的是匹配程度值较高的排序前n对关键像素匹配对，基于该n对关键像素匹配对对变换矩阵计算初始值，然后以匹配程度值为权重加入优化模型，如此，迭代更新得到最优变换矩阵。

具体的，假设获取的参考图像和待配准图像的关键像素匹配对集合包括s对匹配对，根据超图约束计算得到的匹配程度值从大到小排序，得到s对匹配对集合为C＝{c1,c2,...,cs}；其次，用集合C的前n个匹配对初始化正确匹配对集合C'，初始化n＝8(因为至少需要8个匹配对来计算变换矩阵)；其次，检验集合C中的第k+1个(即当前预设位置)匹配对，根据正确匹配对集合C’求当前变换矩阵T，对集合C中在待配准图像的第k+1个关键像素做变换，得到待检验点在参考图像上的坐标，利用均方根误差选择是否剔除此匹配点对，如果所得误差在容错范围内及满足误差范围，则加入集合C’，并以其匹配程度值作为该匹配对的置信度，更新求解当前变换矩阵，并更新k＝k+1。直至当前预设位置等于关键像素匹配对集合中关键像素匹配对的对数，即判断是否检验完集合C中剩余的s-n个匹配对，若n<s，则转到前述检验集合C中的第k+1个匹配对的步骤；若n＝s，则结束，并返回最终的变换矩阵；最后，通过双线性插值对红外图像进行重采样，最终实现亚像素级别的配准，得到配准后的红外图像和可见光图像。

本申请实施例中，通过上述步骤，将匹配程度值作为关键像素匹配对的置信度，融入到变换矩阵求解中，增强了变换矩阵的可靠度和精度。此外，相较于现有技术中只能手动配准的方案，本申请不仅可以自动对红外图像序列和可见光图像进行光轴配准，还可以实现异源图像像素级别的配准，自动化程度高，避免了手动操作的繁琐。

本申请实施例中，在完成单帧红外图像和可见光图像的配准之后，采用深度学习的方法基于异源图像帧序列估计Alpha通道，为后续融合可见光图像和新背景做支撑。现有视频抠像方法需要大量的人机交互，并且会存在一些抖动和闪烁的现象，而人眼对像素的抖动非常敏感，所以既要保证每帧的前景平滑连续，又要保证帧间连续性。基于此，本申请通过下述步骤S103-S111解决帧内和帧间的连续性问题。

S103：对红外图像序列中每帧红外图像进行对比度处理，得到初始掩膜图像序列。

本申请实施例中，利用红外和可见光摄像机采集图像序列，通过图像配准得到配准后的两个序列；为其中1/3的可见光图像利用传统人工交互或绿幕的方法标注前景图的真值，按约5：1的比例分为训练和验证集，其余为测试集。由于红外图像的对比度较低，对其进行预处理增强，可以有利于图像特征的充分提取。

在一种可选的实施方式中，采用对比度有限的直方图均衡化(Contrast limitedadaptive histogramequalization，CLAHE)对红外图像进行对比度处理，对其取反，使得前景像素值高、背景像素值低，得到初始掩膜图像(或称为初始Alpha通道图)，此时已经接近真实的Alpha通道。

S105：将初始掩膜图像序列和可见光图像序列进行串联，得到输入图像序列。

S107：根据已训练的特征提取模型对输入图像序列进行特征提取，得到特征张量。

本申请实施例中，将初始掩膜图像序列和可见光图像序列串联得到输入图像序列，特征提取模型可以利用ResNet网络或空间金字塔池化网络等常用特征提取模型，如此，将提取的多级特征串联融合，既保留了高层的语义特征，也保留了底层的细节信息，如此可以得到帧内空间一致性好，从而可以提高前景平滑度和连续度。

在一种可选的实施方式中，输入图像序列的尺寸为H*W*D*T，其中H和W表示图像的高和宽，D表示通道数(D＝4)，T表示帧数(T为经验值，可取5)；利用ResNet网络或空间金字塔池化网络等常用特征提取模型对输入图像序列在H、W、D等三个维度上进行卷积，可以得到H’*W’*D’*T的特征张量，该特征张量体现了帧内空间一致性，保证前景平滑和连续。

S109：根据已训练的长短时记忆网络模型，确定特征张量对应的预测掩膜图像。

S111：根据预测掩膜图像和可见光图像，确定前景图像。

本申请实施例中，利用双注意力的的长短时记忆网络模型(Long Short TermMemory Network，LSTM)提取视频的时空一致性。在得到特征张量后，将其送入双注意力的LSTM模型，学习帧间一致性；最后，将输出的预测掩膜图像与相应的可见光图像相乘得到预测的前景图，掩膜图像的值的范围为[0,1]，一个掩膜图像对应一个可见光图像和一个前景图像，以前景图真值做监督信号，采用均方根误差和正则项的加权和作为损失函数，反向传播训练该网络。如此，可以解决传统方法中视频抠像的抖动和闪烁问题。

一种可选的实施方式中，如图4所示，图4是本申请实施例提供的一种LSTM模型的结构示意图，LSTM模型包括位置注意力模块，位置注意力模块可参考现有的双注意力网络(Dual Attention Network，DANet)，对前述步骤中特征提取模型输出的特征张量进行重新加权更新，即帧内一致性；其中，w_i表示每一帧的权重，可作为超参数设置，即帧间一致性。

本申请实施例中，请参阅图5，图5是本申请实施例提供的一种预测掩膜图像的提取过程示意图；为了从当前帧图像t中提取前景，获取当前帧的前后各两帧得到红外图像序列以及可见光图像序列，对红外图像序列采用对比度有限的直方图均衡化以及取反操作，得到对比度增强的初始掩膜图像序列；将初始掩膜图像序列以及可见光图像序列作为特征提取模型的输入，并将得到的特征张量继续输入至双注意力的LSTM模型，最终输出当前帧的预测掩膜图像。

本申请实施例还提供了一种前景提取装置，图6是本申请实施例提供的一种前景提取装置的结构示意图，如图6所示，该装置包括：

第一获取模块601，用于获取红外图像序列和可见光图像序列；红外图像序列和可见光图像序列一一对应；

第一确定模块602，用于对红外图像序列中每帧红外图像进行对比度处理，得到初始掩膜图像序列；

第二确定模块603，用于将初始掩膜图像序列和可见光图像序列进行串联，得到输入图像序列；

第三确定模块604，用于根据已训练的特征提取模型对输入图像序列进行特征提取，得到特征张量；

第四确定模块605，用于根据已训练的长短时记忆(LSTM)网络模型，确定特征张量对应的预测掩膜图像；

第五确定模块606，用于根据预测掩膜图像和可见光图像，确定前景图像。

本申请实施例中的装置与方法实施例基于同样地申请构思。

在一种可选的实施方式中，还包括配准模块，用于：对红外图像序列和可见光图像序列进行图像配准处理。

在一种可选的实施方式中，配准模块具体用于：

针对红外图像序列中每帧红外图像：从红外图像中确定出第一关键像素集合；确定第一关键像素集合中每个第一关键像素的特征信息；针对可见光图像序列中与红外图像对应的可见光图像：从可见光图像中确定出第二关键像素集合；确定第二关键像素集合中每个第二关键像素的特征信息；基于每个第一关键像素的特征信息和每个第二关键像素的特征信息，确定出关键像素匹配对集合；基于关键像素匹配对集合，对红外图像和可见光图像进行光轴配准。

在一种可选的实施方式中，每个第一关键像素的特征信息包括梯度方向描述子；配准模块具体还用于：针对第一关键像素集合中每个第一关键像素：以第一关键像素为基准确定第一目标区域；确定第一目标区域的梯度直方图；基于梯度直方图确定对应的第一关键像素的梯度方向描述子。

在一种可选的实施方式中，每个第一关键像素的特征信息还包括局部二值描述子；配准模块具体还用于：针对第一关键像素集合中每个第一关键像素：以第一关键像素为基准确定第二目标区域；将第二目标区域中每个像素的像素值与第一关键像素的像素值进行比较，确定出每个像素的描述值；基于每个像素的描述值，确定对应的第一关键像素的局部二值描述子。

在一种可选的实施方式中，配准模块具体还用于：针对可见光图像序列中每帧可见光图像：将可见光图像作为参考图像，并将可见光图像对应的红外图像作为待配准图像；获取参考图像与待配准图像的关键像素匹配对集合；基于超图约束确定关键像素匹配对集合中每个关键像素匹配对的匹配程度值；基于每个关键像素匹配对的匹配程度值对关键像素匹配对集合中每个关键像素匹配对进行排序，得到排序后的关键像素匹配对集合；基于关键像素匹配对集合中预设位数的关键像素匹配对，确定初始化目标匹配对集合；将初始化目标匹配对集合作为当前匹配对集合；根据当前匹配对集合和当前匹配对集合中每个匹配对的匹配程度值，确定当前变换矩阵；基于当前变换矩阵，确定关键像素匹配对集合中当前预设位置的关键像素匹配对在参考图像中的位置；若当前预设位置的关键像素匹配对在参考图像中的位置满足误差范围，则将当前预设位置的关键像素匹配对加入当前匹配对集合，得到更新后的当前匹配对集合；直至当前预设位置等于关键像素匹配对集合中关键像素匹配对的对数，将当前匹配对集合作为目标匹配对集合，并将目标匹配对集合对应的当前变换矩阵作为目标变换矩阵；根据目标变换矩阵，对待配准图像进行空间变换和重采样，得到配准后的红外图像和可见光图像。

本申请实施例所提供的方法实施例可以在计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例，图7是本申请实施例提供的一种前景提取方法的服务器的硬件结构框图。如图7所示，该服务器700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(Central Processing Units，CPU)710(处理器710可以包括但不限于微处理器NCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器730，一个或一个以上存储应用程序723或数据722的存储介质720(例如一个或一个以上海量存储设备)。其中，存储器730和存储介质720可以是短暂存储或持久存储。存储在存储介质720的程序可以包括一个或一个以上模块，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器710可以设置为与存储介质720通信，在服务器700上执行存储介质720中的一系列指令操作。服务器700还可以包括一个或一个以上电源760，一个或一个以上有线或无线网络接口750，一个或一个以上输入输出接口740，和/或，一个或一个以上操作系统721，例如Windows，Mac OS，Unix,Linux，FreeBSD等等。

输入输出接口740可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器700的通信供应商提供的无线网络。在一个实例中，输入输出接口740包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，输入输出接口740可以为射频(RadioFrequency，RF)模块，其用于通过无线方式与互联网进行通讯。

本领域普通技术人员可以理解，图7所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，服务器700还可包括比图7中所示更多或者更少的组件，或者具有与图7所示不同的配置。

本申请的实施例还提供了一种存储介质，所述存储介质可设置于服务器之中以保存用于实现方法实施例中一种前景提取方法相关的至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现上述前景提取方法。

可选地，在本实施例中，上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

由上述本申请提供的前景提取方法、装置、设备或存储介质的实施例可见，本申请中通过获取红外图像序列和可见光图像序列；红外图像序列和可见光图像序列一一对应；对红外图像序列中每帧红外图像进行对比度处理，得到初始掩膜图像序列；将初始掩膜图像序列和可见光图像序列进行串联，得到输入图像序列；根据已训练的特征提取模型对输入图像序列进行特征提取，得到特征张量；根据已训练的长短时记忆网络模型，确定特征张量对应的预测掩膜图像；根据预测掩膜图像和可见光图像，确定前景图像。本申请实施例提供的一种前景提取方法适用于静止或运动的前景物体，包括半透明物体、运动模糊物体和虚焦物体的提取，可以提高前景物体的边缘的提取精度。

需要说明的是：上述本申请实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种前景提取方法，其特征在于，包括：

获取红外图像序列和可见光图像序列；所述红外图像序列和所述可见光图像序列一一对应；

对所述红外图像序列中每帧红外图像进行对比度处理，得到初始掩膜图像序列；

将所述初始掩膜图像序列和所述可见光图像序列进行串联，得到输入图像序列；

根据已训练的特征提取模型对所述输入图像序列进行特征提取，得到特征张量；

根据已训练的长短时记忆网络模型，确定所述特征张量对应的预测掩膜图像；

根据所述预测掩膜图像和可见光图像，确定前景图像。

2.根据权利要求1所述的方法，其特征在于，所述获取红外图像序列和可见光图像序列之后，所述对所述红外图像序列中每帧红外图像进行对比度处理之前，还包括：

对所述红外图像序列和所述可见光图像序列进行图像配准处理。

3.根据权利要求2所述的方法，其特征在于，所述对所述红外图像序列和所述可见光图像序列进行图像配准处理，包括：

针对所述红外图像序列中每帧红外图像：从所述红外图像中确定出第一关键像素集合；确定所述第一关键像素集合中每个第一关键像素的特征信息；

针对所述可见光图像序列中与所述红外图像对应的可见光图像：从所述可见光图像中确定出第二关键像素集合；确定所述第二关键像素集合中每个第二关键像素的特征信息；

基于所述每个第一关键像素的特征信息和所述每个第二关键像素的特征信息，确定出关键像素匹配对集合；

基于所述关键像素匹配对集合，对所述红外图像和所述可见光图像进行光轴配准。

4.根据权利要求3所述的方法，其特征在于，所述每个第一关键像素的特征信息包括梯度方向描述子；

所述确定所述第一关键像素集合中每个第一关键像素的特征信息，包括：

针对所述第一关键像素集合中每个第一关键像素：以所述第一关键像素为基准确定第一目标区域；确定所述第一目标区域的梯度直方图；

基于所述梯度直方图确定对应的第一关键像素的梯度方向描述子。

5.根据权利要求3或4所述的方法，其特征在于，所述每个第一关键像素的特征信息还包括局部二值描述子；

针对所述第一关键像素集合中每个第一关键像素：以所述第一关键像素为基准确定第二目标区域；将所述第二目标区域中每个像素的像素值与所述第一关键像素的像素值进行比较，确定出所述每个像素的描述值；

基于所述每个像素的描述值，确定对应的第一关键像素的局部二值描述子。

6.根据权利要求3所述的方法，其特征在于，所述基于所述关键像素匹配对集合，对所述红外图像和所述可见光图像进行光轴配准之后，还包括：

针对所述可见光图像序列中每帧可见光图像：将所述可见光图像作为参考图像，并将所述可见光图像对应的红外图像作为待配准图像；

获取所述参考图像与所述待配准图像的关键像素匹配对集合；

基于超图约束确定关键像素匹配对集合中每个关键像素匹配对的匹配程度值；

基于所述每个关键像素匹配对的匹配程度值对所述关键像素匹配对集合中每个关键像素匹配对进行排序，得到排序后的关键像素匹配对集合；

基于所述关键像素匹配对集合中预设位数的关键像素匹配对，确定初始化目标匹配对集合；

将所述初始化目标匹配对集合作为当前匹配对集合；

根据所述当前匹配对集合和所述当前匹配对集合中每个匹配对的匹配程度值，确定当前变换矩阵；

基于所述当前变换矩阵，确定所述关键像素匹配对集合中当前预设位置的关键像素匹配对在所述参考图像中的位置；

若所述当前预设位置的关键像素匹配对在所述参考图像中的位置满足误差范围，则将所述当前预设位置的关键像素匹配对加入所述当前匹配对集合，得到更新后的当前匹配对集合；直至所述当前预设位置等于所述关键像素匹配对集合中关键像素匹配对的对数，将所述当前匹配对集合作为目标匹配对集合，并将所述目标匹配对集合对应的当前变换矩阵作为目标变换矩阵；

根据所述目标变换矩阵，对所述待配准图像进行空间变换和重采样，得到配准后的红外图像和可见光图像。

7.一种前景提取装置，其特征在于，包括：

第一获取模块，用于获取红外图像序列和可见光图像序列；所述红外图像序列和所述可见光图像序列一一对应；

第一确定模块，用于对所述红外图像序列中每帧红外图像进行对比度处理，得到初始掩膜图像序列；

第二确定模块，用于将所述初始掩膜图像序列和所述可见光图像序列进行串联，得到输入图像序列；

第三确定模块，用于根据已训练的特征提取模型对所述输入图像序列进行特征提取，得到特征张量；

第四确定模块，用于根据已训练的长短时记忆(LSTM)网络模型，确定所述特征张量对应的预测掩膜图像；

第五确定模块，用于根据所述预测掩膜图像和可见光图像，确定前景图像。

8.根据权利要求7所述的装置，其特征在于，还包括配准处理模块，用于对所述红外图像序列和所述可见光图像序列进行图像配准处理。

9.一种设备，其特征在于，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由所述处理器加载并执行如权利要求1-6任一项所述的前景提取方法。

10.一种计算机存储介质，其特征在于，所述存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或至少一段程序由处理器加载并执行以实现如权利要求1-6任一项所述的前景提取方法。