CN111179159B

CN111179159B - 消除视频中目标影像的方法、装置、电子设备及存储介质

Info

Publication number: CN111179159B
Application number: CN201911424168.4A
Authority: CN
Inventors: 贺沁雯; 李果; 张玉梅; 樊鸿飞; 蔡媛
Original assignee: Beijing Kingsoft Cloud Network Technology Co Ltd
Current assignee: Beijing Kingsoft Cloud Network Technology Co Ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2024-02-20
Anticipated expiration: 2039-12-31
Also published as: CN111179159A

Abstract

本发明公开了一种消除视频中目标影像的方法、装置、电子设备及计算机可读存储介质，该消除视频中目标影像的方法包括确定目标影像在视频原始帧中的位置；根据所述位置输出原始帧对应的蒙版，蒙版为包括目标影像区域和背景区域的二值图；根据蒙版对原始帧中的目标影像区域进行图像补全；以及输出补全的图像来替代原始帧，以消除原始帧中的目标影像。本发明可以提供更好的视频观看视觉体验。

Description

消除视频中目标影像的方法、装置、电子设备及存储介质

技术领域

本发明涉及图像处理领域，尤其涉及一种消除视频中目标影像的方法、装置、电子设备及存储介质。

背景技术

近年来，随着国内综艺节目的蓬勃发展，综艺节目的植入广告也层出不穷，通常是在节目视频中某些位置显示广告画面。虽然广告的植入对商家带来巨大的曝光度，但是对于观众来说，广告的出现却是一种视觉干扰。

因此，出现了一些消除广告的技术手段，综艺节目中植入广告消除的传统方法是对广告区域打马赛克进行模糊处理。然而，现有技术的模糊处理仍然会影响观看视频的视觉体验。

此外，除了综艺节目视频中植入广告的去除存在上述问题，对于其他领域，例如去除视频中的水印，去除节目中的污点艺人，现有采用打马赛克模糊化处理的去除技术手段也存在同样的问题。

因此，如何有效消除视频中目标影像，诸如广告、水印、污点艺人等，成为相关领域技术人员需要面临解决的技术问题。

发明内容

本发明的目的在于提供一种消除视频中目标影像的方法、装置、电子设备及计算机可读存储介质，从而可以给观众提供更好的视频观看视觉体验。

根据本发明的第一方面，提供了一种消除视频中目标影像的方法，此方法包括以下步骤：确定目标影像在视频原始帧中的位置；根据所述位置输出原始帧对应的蒙版，蒙版为包括目标影像区域和背景区域的二值图；根据蒙版对原始帧中的目标影像区域进行图像补全；以及输出补全的图像来替代原始帧，以消除原始帧中的目标影像。

在一种实施方式中，确定所述目标影像在视频原始帧中的位置的步骤包括：

基于用户的选择操作，框选出所述视频原始帧中所述目标影像的位置；

和/或

确定所述视频原始帧中是否存在生成图像，在确定存在生成图像时，框选出所述生成图像所在的区域作为所述目标影像的位置；

和/或

基于所述视频中所述原始帧之前的帧中所述目标影像的位置进行目标追踪，以追踪确定所述目标影像在所述原始帧中的位置。

在一种实施方式中，使用尺度不变特征转换算法、均值漂移算法、卡尔曼滤波算法或基于深度学习的目标跟踪算法进行目标追踪。

在一种实施方式中，根据所述位置输出原始帧对应的蒙版的步骤包括：

将所述原始帧中所述位置对应区域的像素值设置为第一像素值，将所述原始帧中除所述位置之外区域的像素值设置为第二像素值，以得到原始帧对应的蒙版。

在一种实施方式中，根据蒙版对原始帧中的目标影像区域进行图像补全的步骤包括：将蒙版与原始帧输入基于深度学习的图像补全网络进行图像补全。

在一种实施方式中，所述消除视频中目标影像的方法还包括以下步骤，以构建基于深度学习的图像补全网络：

对高清图像数据集的多张高清图像随机生成对应的二值图蒙版，所述蒙版具有背景区域和需要补全的目标区域，以得到所述基于深度学习的图像补全网络的训练样本集；

输入所述训练样本集的多张高清图像与对应蒙版到初始的图像补全网络，获取将所述高清图像的所述目标区域补全的补全图像；

计算所述补全图像对应的损失值；

在所述损失值不满足预设终止条件时，基于所述损失值对所述图像补全网络的参数进行更新，并基于更新后的图像补全网络获取将所述高清图像的所述目标区域补全的补全图像，再次计算所述补全图像对应的损失值，直至所述损失值满足预设终止条件，得到所述基于深度学习的图像补全网络。

在一种实施方式中，根据蒙版对目标影像区域进行图像补全的步骤使用基于快速行进的图像修复算法。

根据本发明的第二方面，另提供了一种消除视频中目标影像的装置，消除视频中目标影像的装置包括：定位模块、蒙版输出模块、图像补全模块、以及补全图像输出模块。定位模块用于确定目标影像在视频原始帧中的位置；蒙版输出模块根据所述位置输出原始帧对应的蒙版，蒙版为包括目标影像区域和背景区域的二值图；图像补全模块根据蒙版对原始帧中的目标影像区域进行图像补全；补全图像输出模块用于输出补全的图像来替代原始帧，以消除原始帧中的目标影像。

在一种实施方式中，所述定位模块确定所述目标影像在视频原始帧中的位置包括：基于用户的选择操作，框选出所述视频原始帧中所述目标影像的位置；

和/或

在一种实施方式中，所述定位模块使用尺度不变特征转换算法、均值漂移算法、卡尔曼滤波算法或基于深度学习的目标跟踪算法进行所述目标追踪。

在一种实施方式中，所述蒙版输出模块用于：

将所述原始帧中所述位置对应区域的像素值设置为第一像素值，将所述原始帧中除所述位置之外区域的像素值设置为第二像素值，以得到所述原始帧对应的蒙版。

在一种实施方式中，所述图像补全模块用于：

将所述蒙版与所述原始帧输入基于深度学习的图像补全网络进行图像补全。

在一种实施方式中，所述消除视频中目标影像的装置还包括：

网络构建模块，用于构建所述基于深度学习的图像补全网络；

所述网络构建模块用于：

计算所述补全图像对应的损失值；

在一种实施方式中，所述图像补全模块使用基于快速行进的图像修复算法对所述目标影像区域进行图像补全。

根据本发明的第三方面，还提供了一种电子设备，包括：

根据本发明第二方面所述的消除视频中目标影像的装置；或者，

处理器和存储器，所述存储器用于存储可执行的指令，所述指令用于控制处理器执行根据本发明第一方面所述的消除视频中目标影像的方法。

根据本发明的第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序在被处理器执行时实现根据本发明第一方面所述的消除视频中目标影像的方法。

本发明实施例的消除视频中目标影像的方法、装置、电子设备及计算机可读存储介质，通过确定目标影像在视频原始帧中的位置，输出原始帧对应的蒙版。然后，根据蒙版对原始帧中目标影像区域进行图像补全，并输出补全的图像来替代原始帧，进而消除原始帧中的目标影像。如此，相对现有对视频打马赛克模糊化处理的技术手段，

本发明不仅可以更完整、自然、有效地去除视频节目中的植入广告、水印或者污点艺人等等出现在视频中并期望消除的目标影像，还可以将去除的图像区域进一步补全为接近原始画面的图像，从而提供给观众更好的视频观看视觉体验。

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例，并且连同其说明一起用于解释本发明的原理。

图1为本发明实施例的消除视频中目标影像的装置的硬件配置结构方框图。

图2为本发明实施例的消除视频中目标影像的装置的具体结构方框图。

图3为本发明第一实施例的定位模块的结构方框图。

图4为本发明第二实施例的定位模块的结构方框图。

图5为本发明实施例的网络构建模块的结构方框图。

图6为本发明实施例的消除视频中目标影像的方法步骤流程图。

图7为本发明实施例的目标影像定位步骤的流程图。

图8为本发明实施例的基于深度学习的图像补全网络构建步骤流程图。

图9为本发明实施例的电子设备的结构方框图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

根据本发明的一个实施例，提供了一种消除视频中目标影像的装置。

首先，关于本发明实施例的消除视频中目标影像的装置1的硬件配置说明如下：本发明实施例的消除视频中目标影像的装置1可以是便携式电脑、台式计算机、手机、平板电脑等。

如图1所示，消除视频中目标影像的装置1可以包括处理器1100、存储器1200、接口装置1300、通信装置1400、显示装置1500、输入装置1600、扬声器1700、麦克风1800等等。其中，处理器1100可以是中央处理器CPU、微处理器MCU等。存储器1200例如包括ROM(只读存储器)、RAM(随机存取存储器)、诸如硬盘的非易失性存储器等。接口装置1300例如包括USB接口、耳机接口等。通信装置1400例如能够进行有线或无线通信，具体地可以包括WiFi通信、蓝牙通信、2G/3G/4G/5G通信等。显示装置1500例如是液晶显示屏、触摸显示屏等。输入装置1600例如可以包括触摸屏、键盘、体感输入等。用户可以通过扬声器1700和麦克风1800输入/输出语音信息。

图1所示的消除视频中目标影像的装置1仅仅是说明性的并且决不意味着对本发明、其应用或使用的任何限制。应用于本发明的实施例中，消除视频中目标影像的装置1的所述存储器1200用于存储指令，所述指令用于控制所述处理器1100进行操作以执行本发明实施例提供的任意一项消除视频中目标影像的方法。本领域技术人员应当理解，尽管在图1中对消除视频中目标影像的装置1示出了多个装置，但是，本发明可以仅涉及其中的部分装置，例如消除视频中目标影像的装置1可以只涉及处理器1100和存储装置1200。技术人员可以根据本发明所公开方案设计指令。指令如何控制处理器进行操作，这是本领域公知，故在此不再详细描述。

请参考图2，该图为本发明实施例的消除视频中目标影像的装置1的具体结构方框图。

这里需要说明的是，目标影像为各种视频节目中出现的文字、水印或图像等形式植入视频中的广告，或者综艺节目、电视电影中出现的污点艺人等等，不希望出现在视频中并想要去掉或消除的对应视频画面。

如图所示，消除视频中目标影像的装置1包括定位模块12、蒙版输出模块14、图像补全模块16以及补全图像输出模块18。

定位模块12用于确定目标影像在视频原始帧中的位置，蒙版输出模14根据目标影像在视频原始帧中的位置输出原始帧对应的蒙版，蒙版为包括目标影像区域和背景区域的二值图。图像补全模块16根据蒙版对原始帧中的目标影像区域进行图像补全，补全图像输出模块18用于输出补全的图像来替代原始帧，以消除原始帧中的目标影像。

在一个可选实施例中，消除视频中目标影像的装置1还可以进一步包括网络构建模块20，用来构建基于深度学习的图像补全网络，其中基于深度学习的图像补全网络可以作为用于消除视频中目标影像的其中一种技术手段。

下面将结合附图所示的具体实施例，分别对消除视频中目标影像的装置1的各个模块展开进行详细说明。

参考图3，该图为本发明第一实施例的定位模块的结构方框图。

在该实施例中，定位模块12包括第一框选单元124，第一框选单元124用于基于用户的选择操作，框选出视频原始帧中目标影像的位置，其中目标影像的位置可以坐标或者像素点的形式表示。

对于目标影像为文字形式时，例如植入的文字广告，第一框选单元124框选出对应文字所在的区域。

对于目标影像为图片形式时，例如植入的图像广告，定位模块12还包括第一确定单元122，第一确定单元122用于确定对应视频原始帧中是否存在生成图像，在第一确定单元122确定视频中存在生成图像时，则可以认为生成图像为对应的植入广告，以区别视频中正常节目播放的其他自然图像的视频帧。此时，在第一确定单元122将确定结果通知第一框选单元122，以框选出生成图像所在的区域作为目标影像的位置。

生成图像为计算机生成的图像，以计算机为主要工具进行视觉设计和生产的图像。

在第一确定单元122确定视频原始帧中存在生成图像时，表示目标影像为计算机生成的图像广告，第一确定单元122可以使用基于小波变换的计算机生成图像检测方法、基于噪声分析的计算机生成图像检测方法或基于深度学习的计算机生成图像检测方法，对视频原始帧中是否存在生成图像进行判断检测。

在上述实施例中，第一框选单元124对视频的目标影像进行逐帧框选定位。

下面，参考图4，图4为本发明第二实施例的定位模块的结构方框图。

如图4所示，本实施例的定位模块12’包括第二框选单元124’和目标追踪单元126’。第二框选单元124’用于基于用户的选择框选出视频原始帧的目标影像的位置，该视频原始帧可以是首帧，还可以是某中间帧，这里不做限定，目标追踪单元126’则根据第二框选单元框选出的目标影像位置，对出现在视频后续其他帧中的目标影像位置进行目标追踪，即基于所述视频中所述原始帧之前的帧中所述目标影像的位置进行目标追踪，以利用目标追踪的方式来追踪确定目标影像在原始帧中的位置，而不再由第二框选单元124’对原始帧进行视频逐帧中目标影像的框选，以提高目标影像定位的效率。

在一个示例中，目标追踪单元126’可以使用SIFT(Scale-invariant featuretransform，尺度不变特征转换)算法，利用前帧的目标影像位置对后帧的对应位置进行目标追踪。SIFT算法是基于特征点进行目标跟踪的方法，首先对视频每个原始帧进行特征点检测，然后对后帧与前帧进行特征点匹配，找出后帧匹配目标影像位置的特征点，并进行空间变换，例如透视变换或仿射变换或其它空间变换方式，从而找到后帧中与前帧对应的目标影像的位置。

在其他实施例中，目标追踪单元126’还可以使用基于均值漂移(Mean Shift)的目标跟踪算法；基于卡尔曼滤波的目标跟踪算法；或者基于深度学习的目标跟踪算法。

但需要说明的是，本发明目标追踪单元126’的目标跟踪方法不局限于上述具体实施例。

与上述第一实施例的定位模块12类似，对于目标影像为植入的文字广告时，第二框选单元124’在框选出出现广告文字的原始帧的文字所在区域后，后续利用目标追踪单元126’进行后续其他帧出现的对应文字区域位置的追踪定位。

对于目标影像为植入的图像广告时，定位模块12’还包括第二确定单元122’，第二判断单元122’用于确定视频原始帧中是否存在生成图像，并由第二框选单元124’框选出原始帧对应的生成图像所在的区域，作为原始帧中目标影像的位置。

然后，目标追踪单元126’根据原始帧的目标影像位置，对出现在视频后续其他原始帧中的目标影像位置进行目标追踪定位。即，在框选出原始帧之后出现的原始帧来说，基于视频中原始帧之前的帧中目标影像的位置进行目标追踪，以追踪确定所述目标影像在原始帧中的位置。在一种实施方式中，目标追踪单元126’可以使用SIFT算法、Mean Shift算法、卡尔曼滤波算法或基于深度学习的目标跟踪算法进行上述目标追踪。

在确定视频目标影像的位置之后，蒙版输出模块14将原始帧中的目标影像对应区域的像素值设置为第一像素值，例如设置为1，得到目标影像区域，将原始帧中除目标影像位置之外的区域的像素值设置为第二像素值，例如设置为0，以得到原始帧对应的蒙版。如此操作，可以将视频原始帧中的植入广告、水印或污点艺人等不希望出现的目标影像抹除掉，抹掉区域用于指示图像缺失区域。可视化的结果为抹掉区域为白色，其他区域为黑色。

图像补全模块16用于将根据目标影像得到的蒙版对目标影像缺失区域进行图像补全，消除原始帧中出现的广告或污点艺人。

在一个实施例中，图像补全模块16可以使用图像补全算法进行图像补全，图像补全算法例如基于快速行进的图像修复算法(An Image-Inpainting Technique Based Onthe Fast Marching Method,FMM算法)等基于纹理合成的图像补全算法。

在另一实施例中，图像补全模块16还可以使用基于深度学习的图像补全网络进行目标影像缺失区域的图像补全。在使用基于深度学习的图像补全网络进行图像补全时，消除视频中目标影像的装置1还可以包括网络构建模块20，网络构建模块20用于构建基于上述深度学习的图像补全网络。

图5为本发明实施例的网络构建模块20的结构方框图，如图所示，网络构建模块20包括蒙版生成单元202和训练单元204。

蒙版生成单元202对训练使用的高清图像数据集的多张高清图像随机生成对应的二值图蒙版，蒙版具有背景区域和需要补全的目标影像区域，以得到基于深度学习的图像补全网络的训练样本集。

蒙版是一个二值图，举例来讲，像素值可以为0或1，其中0指示背景区域，1指示目标影像区域(需要补全的区域)，用于指示目标影像区域与背景区域的位置，蒙版可视化的结果是目标区域为白色，背景区域是黑色的图像。蒙版与原图像同时输入图像补全网络，相当于网络“看”到原图像中蒙版指示的目标影像区域被抹掉，需要补全这一区域。

在本发明一个示例中，蒙版生成单元202通过以下方式生成所述蒙版：

已知原图像的长为W，宽为H，蒙版的长宽与原图像相等。随机取得四个值：矩形的长w，矩形的宽h，矩形的顶点坐标中的x与y值(矩形左上角的点距离图像最左边的距离x，距离最上边的距离y)，其中w、h限定最小取值与最大取值，x+w<W，y+h<H。

在实验的实施例中，是将训练图像裁成固定大小256×256送入网络，蒙版大小也固定为256×256，限定w、h的取值范围为32<w<128，32<h<128。

当然，训练图像的大小不局限于本发明的具体实施例，此大小仅为示例说明使用，不用于限制本发明的保护范围。

本发明实施例中，图像补全网络在训练时包含生成器和判别器，高清图像及对应蒙版组合构成缺失图像，将缺失图像输入网络，生成器伪造图像内容，对缺失图像进行补全，判别器区分补全图像是伪造数据还是真实数据。损失函数包含重建损失和判别损失，重建损失为生成器输出图像与原始高清图像之间的差异，可以是它们的MAE(Mean AbsoluteError,平均绝对误差)或MSE(Mean Square Error，均方误差)，判别损失为二分类损失，最小化损失以进行训练，生成器的伪造技术和鉴别器的鉴别技术都得到提升。训练好的生成器即图像补全模型。

训练单元204将所述训练样本集的多张高清图像与对应蒙版输入到初始的图像补全网络进行训练，基于图像补全网络将高清图像的目标区域补全，获取补全图像，基于补全图像的损失值对图像补全网络的参数进行更新，直到损失值满足预设训练终止条件，从而得到图像补全网络。其中高清图像与对应的蒙版(即，残缺图像)组合，也可以理解为将残缺图像与对应的高清图像输入到图像补全网络，从而将目标影像区域补全为完整图像。

训练单元204在训练阶段给定一个损失函数，在一种实施方式中，损失函数可以由L1损失与GAN(Generative Adversarial Networks，生成对抗网络)损失组成。

L1损失即MAE(平均绝对误差，Mean Absolute Error)：

其中f(x_i)为网络补全的像素，y_i为原始高清图真实的像素。

GAN网络包含生成器与判别器，生成器模拟真实图像，判别器来判别图像是否足以以假乱真。GAN损失是二分类损失，计算时可以局部判别(仅判别补全的区域)也可以整体判别(判断补全好后的整张图像)，也可以局部判别与整体判别混用。

具体地，训练单元204将输入所述训练样本集的多张高清图像与对应蒙版到初始的图像补全网络，初始的图像补全网络输出补全图像，接下来计算补全图像对应的损失值，在损失值不满足预设终止条件时，基于损失值对图像补全网络的参数进行更新，并基于更新后的图像补全网络再次获取将高清图像的目标区域补全的补全图像，再次计算补全图像对应的损失值，以此类推，直至损失值满足预设终止条件，得到基于深度学习的图像补全网络。

补全得到的图像越接近原高清图像，L1损失的值越小。补全得到的图像越像一幅真实的图像，GAN损失的值越小。在学习过程中激励使，L1损失和GAN损失越小越好，从而使图像补全网络学习得到将残缺图像补全为完整图像的能力。

由此，通过训练激励学习得到基于深度学习的图像补全网络，可以更完整、自然且有效地消除视频中目标影像。

本发明实施例的消除视频中目标影像的装置，通过确定目标影像在视频原始帧中的位置，输出原始帧对应的蒙版。然后，根据蒙版对目标影像区域进行图像补全，以补全的图像来替代原始帧，从而消除原始帧中的目标影像。本发明不仅可以更完整、自然、有效地去除视频节目中的植入广告、水印或者污点艺人等等出现在视频中并期望消除的目标影像，还可以将去除的图像区域进一步补全为接近原始画面的图像，从而提供给观众更好的视频观看视觉体验。

根据本发明的另一个实施例，还提供了一种消除视频中目标影像的方法。

下面，将参考图6-8对本发明实施例消除视频中目标影像的方法进行详细描述。

首先参考图6，图6为本发明实施例消除视频中目标影像的方法步骤流程图。如图所示，本实施例的消除视频中目标影像的方法包括以下步骤：

确定目标影像在视频原始帧中的位置(步骤102)；

根据所述位置输出原始帧对应的蒙版，蒙版为包括目标影像区域和背景区域的二值图(步骤104)；

根据蒙版对原始帧中的目标影像区域进行图像补全(步骤106)；以及

输出补全的图像来替代原始帧，以消除原始帧中的目标影像(步骤108)。

在步骤102中，目标影像位置的确定方式存在不同。在一个实施例中，可以基于用户的选择操作，框选出视频原始帧中目标影像的位置，确定目标影像在视频原始帧中的区域，

另外，针对不同形式的目标影像，原始帧中目标影像的框选定位方式也存在不同。

对于目标影像为文字形式的广告时，可以逐帧框选出视频原始帧中对应文字所在的区域，以确定目标影像在每个视频原始帧中的位置。

对于目标影像为图片形式时，例如植入的图像广告，首先确定视频原始帧中是否存在生成图像，在确定存在生成图像时，框选生成图像所在的区域为目标影像的位置，以确定视频原始帧中的目标影像的位置。

确定目标影像是否为计算机生成的图像广告时，可以使用基于小波变换的计算机生成图像检测方法、基于噪声分析的计算机生成图像检测方法或基于深度学习的计算机生成图像检测方法，对视频原始帧中是否存在生成图像进行判断检测。

在确定视频中存在生成图像时，则可以认为生成图像为对应的植入广告，以区别视频中正常节目播放的其他自然图像的视频帧。

在一个实施例中，目标影像位置确定可以通过仅对视频中首次出现目标影像的首帧中的目标影像进行框选。

这里需要指出的是，本发明不局限于该具体实施例，本发明可以通过框选视频原始帧确定目标影像的位置，该视频原始帧可以是首帧，还可以是某中间帧。

首帧框选目标影像进行定位的方式，也可以区分植入的文字广告和图像广告。

对于文字广告，可以仅框选出首次出现文字广告的首帧的广告影像区域，后续出现文字广告的区域，则根据首帧的目标影像位置，视频后续其他帧中的位置进行目标追踪，以追踪确定目标影像在其他帧的位置。即，基于待确定目标影像的视频中某原始帧之前的帧中的目标影像的位置进行目标追踪，以追踪确定目标影像在该原始帧中的位置。

对于图像广告，目标影像定位方法可以参考图7的实施例，图7为本发明实施例的目标影像定位步骤的流程图。

首先，步骤202，判断视频原始帧中是否存在生成图像。

步骤204，将首次出现生成图像的视频原始帧判定为首帧。

步骤206，框选首帧对应的生成图像所在的区域为目标影像的位置

步骤208，根据首帧的目标影像位置，对目标影像在视频后续其他帧中的位置进行目标追踪。

根据首帧的目标影像位置，利用目标追踪的方式来确定目标影像在后续其他帧的位置，可以提高目标影像定位的效率。

对于上述文字广告和图像广告的步骤208中，均可以使用SIFT算法，利用前帧的目标影像位置对后帧的对应位置进行目标追踪。首先对视频每个原始帧进行特征点检测，然后对后帧与前帧进行特征点匹配，找出后帧匹配目标影像位置的特征点，并进行空间变换，例如透视变换或仿射变换或其它空间变换方式，从而找到后帧中与前帧对应的目标影像的位置。

在其他实施例中，还可以使用基于Mean Shift的目标跟踪算法、基于卡尔曼滤波的目标跟踪算法或基于深度学习的目标跟踪算法进行目标追踪。

在步骤102确定视频目标影像的位置之后，步骤104中输出蒙版是将原始帧视频中的目标影像对应区域的像素值设置为第一像素值，例如设置为1，得到目标影像区域，将除目标影像位置之外的区域的像素值设置为第二像素值，例如设置为0，以得到原始帧对应的蒙版。如此操作，可以将视频原始帧中的植入广告、水印或污点艺人等不希望出现的目标影像抹除掉，抹掉区域用于指示图像缺失区域。可视化的结果为抹掉区域为白色，其他区域为黑色。

步骤106可以根据目标影像得到的蒙版对原始帧中的目标影像缺失区域进行图像补全，消除原始帧中出现的广告或污点艺人。

在一个实施例中，可以使用图像补全算法进行图像补全，图像补全算法例如基于快速行进的图像修复算法(An Image-Inpainting Technique Based On the FastMarching Method，FMM算法)等基于纹理合成的图像补全算法。

在另一实施例中，还可以使用基于深度学习的图像补全网络进行目标影像缺失区域的图像补全。在使用基于深度学习的图像补全网络进行图像补全时，消除视频中目标影像的方法还包括网络构建步骤，以构建基于上述深度学习的图像补全网络。

关于构建深度学习的图像补全网络可以参考图8，图8为本发明实施例的基于深度学习的图像补全网络构建步骤流程图。

如图所示，构建深度学习的图像补全网络可包括以下步骤：

步骤302，对训练使用的高清图像数据集的多张高清图像随机生成对应的二值图蒙版，所述蒙版具有背景区域和需要补全的目标影像区域，以得到基于深度学习的图像补全网络的训练样本集。

步骤304，将高清图像数据训练样本集的多张高清图像与对应蒙版输入到图像补全网络，获取将高清图像的目标区域补全的补全图像。

其中高清图像与对应的蒙版(即，残缺图像)组合，也可以理解为将残缺图像与对应的高清图像输入到图像补全网络，从而将目标影像区域补全为完整图像。

步骤306，计算所述补全图像对应的损失值；

步骤308，确定所述损失值是否满足预设终止条件；

若是，执行步骤310，若否，执行步骤312；

步骤310，停止训练，得到基于深度学习的图像补全网络。

步骤312，基于损失值对图像补全网络的参数进行更新，返回至步骤304。

基于更新后的图像补全网络获取将所述高清图像的所述目标区域补全的补全图像，再次计算所述补全图像对应的损失值，以此类推，直至所述损失值满足预设终止条件。

在步骤306中，于训练阶段给定一个损失函数，在一种实施方式中，损失函数可以由L1损失与GAN(Generative Adversarial Networks，生成对抗网络)损失组成，具体可以参考上述训练单元204关于损失函数的说明，这里不再赘述。

本发明实施例的消除视频中目标影像的方法，通过确定目标影像在视频原始帧中的位置，输出原始帧对应的蒙版。然后，根据蒙版对原始帧中目标影像区域进行图像补全，以补全的图像来替代原始帧，从而消除原始帧中的目标影像。本发明不仅可以更完整、自然、有效地去除视频节目中的植入广告、水印或者污点艺人等等出现在视频中并期望消除的目标影像，还可以将去除的图像区域进一步补全为接近原始画面的图像，从而提供给观众更好的视频观看视觉体验。

此外，本发明实施例又提供了一种电子设备。

参考图9，图9为本发明实施例的电子设备的结构方框图。

在本实施例中，提供了一种电子设备100，一方面，该电子设备100可以包括前述的消除视频中目标影像的装置1。

另一方面，如图9所示，电子设备100可以包括存储器102和处理器104，存储器102用于存储可执行的指令；该指令用于控制处理器104执行前述的消除视频中目标影像的方法。

在本实施例中，电子设备100可以是手机、平板电脑、掌上电脑、台式机、笔记本电脑、工作站、游戏机等任意具有存储器102以及处理器104的电子产品。

最后，在本实施例中，还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序在被处理器执行时实现根据本发明任意实施例所述的消除视频中目标影像的方法。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与运算机指令的组合来实现。对于本领域技术人员来说公知的是，通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。

Claims

1.一种消除视频中目标影像的方法，其中，所述消除视频中目标影像的方法包括以下步骤：

确定所述目标影像在视频原始帧中的位置；

根据所述位置输出所述原始帧对应的蒙版，所述蒙版为包括目标影像区域和背景区域的二值图；

根据所述蒙版对所述原始帧中的目标影像区域进行图像补全；以及

输出补全的图像来替代所述原始帧，以消除所述原始帧中的所述目标影像；

其中，所述确定所述目标影像在视频原始帧中的位置的步骤包括：

和/或

基于所述视频中所述原始帧之前的帧中所述目标影像的位置进行目标追踪，以追踪确定所述目标影像在所述原始帧中的位置；

所述根据所述位置输出所述原始帧对应的蒙版的步骤包括：

将所述原始帧中所述位置对应区域的像素值设置为第一像素值，将所述原始帧中除所述位置之外区域的像素值设置为第二像素值，以得到所述原始帧对应的蒙版；

所述根据所述蒙版对所述原始帧中的目标影像区域进行图像补全的步骤包括：

2.根据权利要求1所述的消除视频中目标影像的方法，其中，使用尺度不变特征转换算法、均值漂移算法、卡尔曼滤波算法或基于深度学习的目标跟踪算法进行所述目标追踪。

3.根据权利要求1所述的消除视频中目标影像的方法，其中，所述消除视频中目标影像的方法还包括以下步骤，以构建所述基于深度学习的图像补全网络：

计算所述补全图像对应的损失值；

4.一种消除视频中目标影像的装置，其中，所述消除视频中目标影像的装置包括：

定位模块，所述定位模块用于确定所述目标影像在视频原始帧中的位置；

和/或

蒙版输出模块，所述蒙版输出模块根据所述位置输出所述原始帧对应的蒙版，所述蒙版为包括目标影像区域和背景区域的二值图，

其中，所述根据所述位置输出所述原始帧对应的蒙版的步骤包括：

图像补全模块，所述图像补全模块根据所述蒙版对所述原始帧中的目标影像区域进行图像补全，

其中，所述根据所述蒙版对所述原始帧中的目标影像区域进行图像补全的步骤包括：

将所述蒙版与所述原始帧输入基于深度学习的图像补全网络进行图像补全；以及

补全图像输出模块，所述补全图像输出模块用于输出补全的图像来替代所述原始帧，以消除所述原始帧中的所述目标影像。

5.一种电子设备，其中，包括：

根据权利要求4所述的消除视频中目标影像的装置；或者，

处理器和存储器，所述存储器用于存储可执行的指令，所述指令用于控制所述处理器执行根据权利要求1至3中任一权利要求所述的消除视频中目标影像的方法。

6.一种计算机可读存储介质，其中，其上存储有计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1至3中任一权利要求所述的消除视频中目标影像的方法。