CN112233055A - 视频去痕方法和视频去痕装置 - Google Patents

视频去痕方法和视频去痕装置 Download PDF

Info

Publication number
CN112233055A
CN112233055A CN202011104678.6A CN202011104678A CN112233055A CN 112233055 A CN112233055 A CN 112233055A CN 202011104678 A CN202011104678 A CN 202011104678A CN 112233055 A CN112233055 A CN 112233055A
Authority
CN
China
Prior art keywords
image
frame image
current frame
result
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011104678.6A
Other languages
English (en)
Other versions
CN112233055B (zh
Inventor
吴明达
陶鑫
陈宇聪
邓凡博
李福林
戴宇荣
于冰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dajia Internet Information Technology Co Ltd filed Critical Beijing Dajia Internet Information Technology Co Ltd
Priority to CN202011104678.6A priority Critical patent/CN112233055B/zh
Publication of CN112233055A publication Critical patent/CN112233055A/zh
Priority to EP21879026.9A priority patent/EP4060602A1/en
Priority to MX2022007387A priority patent/MX2022007387A/es
Priority to PCT/CN2021/106339 priority patent/WO2022077978A1/zh
Application granted granted Critical
Publication of CN112233055B publication Critical patent/CN112233055B/zh
Priority to US17/742,466 priority patent/US11538141B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/77Retouching; Inpainting; Scratch removal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/33Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
    • G06T7/337Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/35Determination of transform parameters for the alignment of images, i.e. image registration using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Studio Devices (AREA)

Abstract

本公开关于一种视频去痕方法和视频去痕装置,所述视频去痕方法包括:获取视频的当前帧图像和去痕区域掩膜;基于所述当前帧图像和所述去痕区域掩膜,利用图像去痕网络,获得所述当前帧图像的第一去痕结果图像;获取所述视频的所述当前帧图像的前一帧图像的去痕结果图像;对所述当前帧图像的第一去痕结果图像和所述前一帧图像的去痕结果图像进行融合,获得所述当前帧图像的第二去痕结果图像,作为所述当前帧图像的最终去痕结果图像。

Description

视频去痕方法和视频去痕装置
技术领域
本公开涉及音视频技术领域,更具体地说,涉及一种视频去痕方法和视频去痕装置。
背景技术
在视频的后期处理中,经常需要手动去除在拍摄过程中来自人或物的意外遮挡,或者视频素材在获得转播授权的平台间转播时,常常需要手动去除来自原冠名、赞助厂商的广告、水印,这些后期处理被称为“视频去痕”。图1是示出视频去痕的示意图。如图1所示,在获得授权后,可在视频后期处理中将视频右上角原平台图标水印去除。
传统去痕方式会通过简单的插值填补空缺内容或者添加“马赛克”遮挡,这种处理方式在视觉上效果并不好。近期基于深度学习的图像补全算法不断被提出,这些算法能够产生以假乱真的细节。但是在视频去痕任务中,这些算法通常效果在去痕任务中效果较差,在视频结果上,表现为闪烁、失真,以及还有诸如性能、效率上的问题。
发明内容
本公开提供一种视频去痕方法和视频去痕装置,以至少解决上述相关技术中的问题,也可不解决任何上述问题。
根据本公开实施例的第一方面,提供一种视频去痕方法,包括:获取视频的当前帧图像和去痕区域掩膜;基于所述当前帧图像和所述去痕区域掩膜,利用图像去痕网络,获得所述当前帧图像的第一去痕结果图像;获取所述视频的所述当前帧图像的前一帧图像的去痕结果图像;对所述当前帧图像的第一去痕结果图像和所述前一帧图像的去痕结果图像进行融合,获得所述当前帧图像的第二去痕结果图像,作为所述当前帧图像的最终去痕结果图像。
可选地,所述去痕区域可以是所述视频的图像中的特定矩形区域,其中,所述特定矩形区域以所述视频的图像的待去痕图案的中心为中心点且以待去痕图案最长边的两倍为边长。
可选地,所述对所述当前帧图像的第一去痕结果图像和所述前一帧图像的去痕结果图像进行融合,可包括:对所述当前帧图像的第一去痕结果图像和所述前一帧图像的去痕结果图像进行光流计算,获得相邻帧光流;基于获得的相邻帧光流对所述当前帧图像的第一去痕结果图像和所述前一帧图像的去痕结果图像进行采样,获得相邻帧对齐图像;对所述当前帧图像的第一去痕结果图像和所述相邻帧对齐图像的去痕区域像素的每个像素进行融合。
可选地,所述对所述当前帧图像的第一去痕结果图像和所述相邻帧对齐图像的去痕区域像素的每个像素进行融合,可包括:针对所述去痕区域像素的每个像素,计算所述当前帧图像的第一去痕结果图像的像素值和所述相邻帧对齐图像的像素值的统计值,作为该像素的像素值。
可选地,所述前一帧图像的去痕结果图像可包括所述前一帧图像的第一去痕结果图像和所述第二去痕结果图像中的至少一个;其中,所述前一帧图像的第一去痕结果图像是通过基于所述前一帧图像和所述去痕区域掩膜,利用所述图像去痕网络而获得的,所述前一帧图像的第二去痕结果图像是通过对所述前一帧图像的第一去痕结果图像和所述前一帧图像的前一帧图像的痕结果图像进行融合而获得的。
可选地,在所述前一帧图像的去痕结果图像包括所述前一帧图像的第一去痕结果图像和第二去痕结果图像的情况下:所述对所述当前帧图像的第一去痕结果图像和所述前一帧图像的去痕结果图像进行光流计算,获得相邻光流,可包括:对所述当前帧图像的第一去痕结果图像和所述前一帧图像的第一去痕结果图像进行光流计算,获得第一相邻光流,对所述当前帧图像的第一去痕结果图像和所述前一帧图像的第二去痕结果图像进行光流计算,获得第二相邻光流;所述基于获得的相邻帧光流对所述当前帧图像的第一去痕结果图像和所述前一帧图像的去痕结果图像进行采样,获得相邻帧对齐图像,可包括:基于第一相邻光流对所述当前帧图像的第一去痕结果图像和所述前一帧图像的第一去痕结果图像进行采样,获得第一相邻帧对齐图像,基于第二相邻光流对所述当前帧图像的第一去痕结果图像和所述前一帧图像的第二去痕结果图像进行采样,获得第二相邻帧对齐图像;
所述对所述当前帧图像的第一去痕结果图像和所述相邻帧对齐图像的去痕区域像素的每个像素进行融合,可包括:对所述当前帧图像的第一去痕结果图像、第一相邻帧对齐图像和第二相邻帧对齐图像的去痕区域像素的每个像素进行融合。
可选地,所述针对所述去痕区域像素的每个像素,计算所述当前帧图像的第一去痕结果图像的像素值和所述相邻帧对齐图像的像素值的统计值,可包括:针对所述去痕区域像素的每个像素,计算所述当前帧图像的第一去痕结果图像的像素值、第一相邻帧对齐图像的像素值和第二相邻帧对齐图像的像素值的中位数。
可选地,所述视频去痕方法还可包括:确定所述当前帧图像是否是所述视频的第一帧图像或者所述当前帧图像与所述前一帧图像相比是否发生场景切换;在所述当前帧图像是所述视频的第一帧图像或者所述当前帧图像与所述前一帧相比发生场景切换的情况下,不执行获取所述前一帧图像的去痕结果图像的步骤和所述融合的步骤,并将所述当前帧图像的第一去痕结果图像,作为所述当前帧图像的最终去痕结果图像。
可选地,所述确定所述当前帧图像与所述前一帧图像相比是否发生场景切换,可包括:获取所述前一帧图像;计算所述当前帧图像与所述前一帧图像的每个像素的基于预定图像块的L2范数距离;计算每个像素的基于预定图像块的L2范数距离的平均值,作为所述当前帧图像与所述前一帧图像的差异值;在所述差异值大于预定阈值的情况下,确定所述当前帧图像与所述前一帧相比发生场景切换。
可选地,所述视频去痕方法还可包括:基于所述当前帧图像、所述当前帧图像的最终去痕结果图像和所述去痕区域掩膜,利用柏松融合算法,获得所述当前帧图像的第三去痕结果图像,作为所述当前帧图像的最终去痕结果图像。
可选地,所述基于所述当前帧图像、所述当前帧图像的最终去痕结果图像和所述去痕区域掩膜,利用柏松融合算法,获得所述当前帧图像的第三去痕结果图像,可包括:以所述去痕区域掩膜中的去痕区域为参考区域,计算在所述参考区域边界处所述当前帧图像的像素的像素值与所述当前帧图像的最终去痕结果图像的像素的像素值之间的梯度;调整所述当前帧图像的最终去痕结果图像在所述参考区域边界处的像素的像素值,直到所述梯度最小化;将所述梯度最小化时的调整后的所述当前帧图像的最终去痕结果图像作为所述当前帧图像的第三去痕结果图像。
根据本公开实施例的第二方面,提供一种视频去痕装置,包括:获取单元,被配置为获取视频的当前帧图像和去痕区域掩膜,以及获取所述视频的所述当前帧图像的前一帧图像的去痕结果图像;去痕单元,被配置为基于所述当前帧图像和所述去痕区域掩膜,利用图像去痕网络,获得所述当前帧图像的第一去痕结果图像;融合单元,被配置为对所述当前帧图像的第一去痕结果图像和所述前一帧图像的去痕结果图像进行融合,获得所述当前帧图像的第二去痕结果图像,作为所述当前帧图像的最终去痕结果图像。
可选地,所述去痕区域可以是所述视频的图像中的特定矩形区域,其中,所述特定矩形区域以所述视频的图像的待去痕图案的中心为中心点且以待去痕图案最长边的两倍为边长。
可选地,融合单元可被配置为:对所述当前帧图像的第一去痕结果图像和所述前一帧图像的去痕结果图像进行光流计算,获得相邻帧光流;基于获得的相邻帧光流对所述当前帧图像的第一去痕结果图像和所述前一帧图像的去痕结果图像进行采样,获得相邻帧对齐图像;对所述当前帧图像的第一去痕结果图像和所述相邻帧对齐图像的去痕区域像素的每个像素进行融合。
可选地,融合单元可被配置为:针对所述去痕区域像素的每个像素,计算所述当前帧图像的第一去痕结果图像的像素值和所述相邻帧对齐图像的像素值的统计值,作为该像素的像素值。
可选地,所述前一帧图像的去痕结果图像可包括所述前一帧图像的第一去痕结果图像和所述第二去痕结果图像中的至少一个;其中,所述前一帧图像的第一去痕结果图像是通过基于所述前一帧图像和所述去痕区域掩膜,利用所述图像去痕网络而获得的,所述前一帧图像的第二去痕结果图像是通过对所述前一帧图像的第一去痕结果图像和所述前一帧图像的前一帧图像的痕结果图像进行融合而获得的。
可选地,在所述前一帧图像的去痕结果图像包括所述前一帧图像的第一去痕结果图像和第二去痕结果图像的情况下:融合单元可被配置为:对所述当前帧图像的第一去痕结果图像和所述前一帧图像的第一去痕结果图像进行光流计算,获得第一相邻光流,对所述当前帧图像的第一去痕结果图像和所述前一帧图像的第二去痕结果图像进行光流计算,获得第二相邻光流,基于第一相邻光流对所述当前帧图像的第一去痕结果图像和所述前一帧图像的第一去痕结果图像进行采样,获得第一相邻帧对齐图像,基于第二相邻光流对所述当前帧图像的第一去痕结果图像和所述前一帧图像的第二去痕结果图像进行采样,获得第二相邻帧对齐图像,对所述当前帧图像的第一去痕结果图像、第一相邻帧对齐图像和第二相邻帧对齐图像的去痕区域像素的每个像素进行融合。
可选地,融合单元可被配置为:针对所述去痕区域像素的每个像素,计算所述当前帧图像的第一去痕结果图像的像素值、第一相邻帧对齐图像的像素值和第二相邻帧对齐图像的像素值的中位数。
可选地,所述视频去痕装置还可包括:确定单元,被配置为:确定所述当前帧图像是否是所述视频的第一帧图像或者所述当前帧图像与所述前一帧图像相比是否发生场景切换;在所述当前帧图像是所述视频的第一帧图像或者所述当前帧图像与所述前一帧相比发生场景切换的情况下,获取单元可不获取所述前一帧图像的去痕结果图像,融合单元可不执行操作,并去痕单元可将所述当前帧图像的第一去痕结果图像,作为所述当前帧图像的最终去痕结果图像。
可选地,获取单元可被配置为:获取所述前一帧图像;确定单元可被配置为:计算所述当前帧图像与所述前一帧图像的每个像素的基于预定图像块的L2范数距离,计算每个像素的基于预定图像块的L2范数距离的平均值,作为所述当前帧图像与所述前一帧图像的差异值,在所述差异值大于预定阈值的情况下,确定所述当前帧图像与所述前一帧相比发生场景切换。
可选地,所述视频去痕装置还可包括:背景融合单元,被配置为:基于所述当前帧图像、所述当前帧图像的最终去痕结果图像和所述去痕区域掩膜,利用柏松融合算法,获得所述当前帧图像的第三去痕结果图像,作为所述当前帧图像的最终去痕结果图像。
可选地,背景融合单元可被配置为:以所述去痕区域掩膜中的去痕区域为参考区域,计算在所述参考区域边界处所述当前帧图像的像素的像素值与所述当前帧图像的最终去痕结果图像的像素的像素值之间的梯度;调整所述当前帧图像的最终去痕结果图像在所述参考区域边界处的像素的像素值,直到所述梯度最小化;将所述梯度最小化时的调整后的所述当前帧图像的最终去痕结果图像作为所述当前帧图像的第三去痕结果图像。
根据本公开实施例的第三方面,提供一种电子设备,包括:至少一个处理器;至少一个存储计算机可执行指令的存储器,其中,所述计算机可执行指令在被所述至少一个处理器运行时,促使所述至少一个处理器执行根据本公开的视频去痕方法。
根据本公开实施例的第四方面,提供一种存储指令的计算机可读存储介质,其特征在于,当所述指令被至少一个处理器运行时,促使所述至少一个处理器执行根据本公开的视频去痕方法。
根据本公开实施例的第八方面,提供一种计算机程序产品,该计算机程序产品中的指令可由计算机设备的处理器执行以完成根据本公开的视频去痕方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
根据本公开的视频去痕方法和视频去痕装置,利用神经网络执行单图去痕(即,去痕区域填补),并利用特定融合机制考虑相邻帧信息执行相邻帧融合去痕,能够自动化去除视频中遮挡、广告等内容,无需利用多个前后帧信息和多次光流计算,在保证算法开销小、速度快(例如,15帧/秒的处理速度)的情况下,提升去痕区域填补内容的质量,使得填补内容和原视频内容对比起来和谐、自然,填补完的视频能够让痕迹区域不再明显,和原视频难以区分,达到以假乱真的效果,从而提高用户观看体验。
根据本公开的视频去痕方法和视频去痕装置,能够实时地针对视频中的痕迹图案选择合适的去痕区域,在不增加开销和干扰的情况下,充分利用周围信息以提高去痕区域内容填补质量,并且无需提前标注好掩膜,对痕迹出现的位置、痕迹的形状、视频的种类均没有限制,都能稳定产生优良的去痕结果。
根据本公开的视频去痕方法和视频去痕装置,利用柏松融合算法对去痕图像执行背景融合,使得去痕区域的填补内容能够更完美更自然地与图像背景融合,使得去痕结果图像更和谐和自然。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是示出视频去痕的示意图。
图2是示出根据本公开的示例性实施例的视频去痕方法和视频去痕装置的实施场景示意图。
图3是示出根据本公开的示例性实施例的视频去痕方法的流程图。
图4是示出根据本公开的示例性实施例的去痕区域的示意图。
图5是示出根据本公开的示例性实施例的图像去痕过程的示意图。
图6是示出根据本公开的示例性实施例的图像去痕网络的示意图。
图7是示出根据本公开的示例性实施例的融合机制的示意图。
图8是示出根据本公开的示例性实施例的视频去痕方法的流程示意图。
图9是示出根据本公开的示例性实施例的视频去痕装置的框图。
图10是根据本公开的示例性实施例的电子设备1000的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在此需要说明的是,在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况:(1)包括A;(2)包括B;(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”,即表示如下三种并列的情况:(1)执行步骤一;(2)执行步骤二;(3)执行步骤一和步骤二。
传统的视频去痕方法可通过统计去痕区域周围背景像素值,设计算法对去痕区域内部进行插值,将插值结果作为填补内容,修补去痕区域。从处理效率上来看,此类算法大多数是基于中央处理器CPU的算法,虽然算法较为简单但是无法充分利用高并行化处理器如图像处理器GPU,速度受到了一定程度的限制。从处理效果上来看,由于算法只是基于统计规律的简单插值,视觉上还是能够明显看到遮挡,只是遮挡物的轮廓和内容被抹去,给人一种类似“马赛克”的效果,视觉效果不佳。
基于深度学习的视频去痕方法可采用深度卷积神经网络进行视频去痕,通过设计精巧、复杂的网络结构,利用目标帧前后多帧图像作为参考,对待去痕图像进行处理。例如,相关方法一设计了精巧而复杂的网络结构,采用目标帧及固定间隔采样的前后4帧作为输入帧,同时将上一帧的修补结果作为参考帧,6幅图像同时进入网络计算,对于不同帧之间设计了光流预测模块,用以来对齐不同帧的特征,对齐后的特征经过简单融合用于预测最后的结果。又例如,相关方法二先计算出目标帧前后多个相邻帧的光流作为输入,利用光流补全网络填补目标帧空缺的光流,利用预测得到的完整光流进行前向、反向传播,得到最终修补的图像,对于视频中未出现过的内容,利用单图修复网络进行修复。此类方法内部涉及多帧图像的处理和多次光流的计算,开销过大,时间成本较高,处理速度较慢,不适用于线上应用场景。此外,此类方法还需要提供标注好的掩膜,而不能自动化识别。
为了在保证算法开销小、速度快的同时提高视频去痕效果,本公开提出了一种视频去痕方法和视频去痕装置。具体地说,为了充分提升填补内容的质量,采用了基于深度卷积神经网络的补全算法,对基于指定痕迹预先算好的去痕区域进行填充,使得周边背景的语义信息得到充分的利用;此外,考虑到单图的填充算法不可避免的会在视频中出现严重的闪烁现象,设计了一种特殊的融合机制,能够自适应的根据当前帧填充结果、上一帧填充结果和上一帧最终融合结果进行选择,从而在不过多增加开销的情况下,仅利用前一帧图像进行融合,就可达到消除视频闪烁的现象;此外,为了使填充的内容与周边背景完美自然地融合,利用柏松融合算法对去痕结果进行处理,使得去痕效果进一步提升。下面,将参照图2至图10具体描述根据本公开的示例性实施例的视频去痕方法和视频去痕装置。
图2是示出根据本公开的示例性实施例的视频去痕方法和视频去痕装置的实施场景示意图。
如图2所示,当视频平台接收到视频源时,可对视频进行后处理,再将经过后处理的视频内容下发到各用户终端。视频的后处理可包括对在相机(这里,相机是具有拍摄功能的设备的统称)拍摄过程中来自人或物的意外遮挡进行去除、对来自其他视频平台的视频中的平台logo、原冠名、赞助厂商的广告、水印等进行去除,等等。
图3是示出根据本公开的示例性实施例的视频去痕方法的流程图。
参照图3,在步骤301,可获取视频的当前帧图像和去痕区域掩膜。这里,视频是指待去痕视频,例如,可以是视频平台获取到的由摄像机拍摄的视频、或者来自其他视频平台的视频、或者来自网络或本地存储的视频等等。根据本公开的示例性实施例的视频去痕方法可对待去痕视频的每一帧图像执行去痕处理,因此,当前帧是指当前被执行去痕处理的帧。
此外,去痕区域掩膜是指待去痕视频的图像中遮挡除预先确定的将要执行去痕处理的区域之外的区域的图像掩膜。将要执行去痕处理的区域(下面,可简称为去痕区域)可以是比待去痕图案(例如,平台logo、广告、水印等)更大的区域,这是因为利用待去痕图案周边背景的语义信息,更有利于提升填补内容的质量。针对待去痕图案,应该选择适当的去痕区域作为上下文的参考区域,如果去痕区域过大会引入过多无关信息,让去痕模型产生困扰,而如果去痕区域过小则无法包含有效的参考信息,影响去痕效果。根据本公开的示例性实施例,去痕区域可以是包括待去痕图案的预定区域,该预定区域是待去痕视频的图像的局部区域。例如,去痕区域可以是待去痕视频的图像中的特定矩形区域,该特定矩形区域以待去痕视频的图像的待去痕图案的中心为中心点且以待去痕图案最长边的两倍为边长。图4是示出根据本公开的示例性实施例的去痕区域的示意图。如图4所示,假设待去痕图案(LOGO)的最长边为1,则去痕区域可以是以待去痕图案的中心点a为中心点,边长为2的矩形区域。当然,根据本公开的去痕区域不限于上述,还可以是任何可能的去痕区域。
返回图3,在步骤302,可基于当前帧图像和去痕区域掩膜,利用图像去痕网络,获得当前帧图像的第一去痕结果图像。这里,图像去痕网络可以是任何基于单图图像修补的神经网络(例如,深度卷积神经网络等)。此外,针对特定的场景,图像去痕网络还可以是针对性训练过的网络模型。
根据本公开的示例性实施例,可采用由粗到细的深度卷积神经网络,第一阶段的粗修补完成大致轮廓的填补,第二阶段的细修补进一步填充细节。图5是示出根据本公开的示例性实施例的图像去痕过程的示意图。如图5所示,可将待去痕图像和相应的去痕区域掩膜输入到图像去痕网络的第一阶段子网络(可称为粗修补网络),以输出粗修补图像,再将粗修补图像输入到图像去痕网络的第二阶段子网络(可称为精修补网络),以输出精修补图像,可作为第一去痕结果图像。
根据本公开的示例性实施例,可采用编解码器网络来实现图像去痕网络。图6是示出根据本公开的示例性实施例的图像去痕网络的示意图。如图6所示,根据本公开的示例性实施例的图像去痕网络是对现有图像补全网络进行改进的网络。根据本公开的示例性实施例的图像去痕网络包括两个阶段,第一阶段包括用于图像粗修补的编解码器网络结构,其输入为待去痕图像和相应的去痕区域掩膜,其中,第一阶段网络结构采用门卷积和空洞门卷积结合的方式来获得粗修补结果图像;第二阶段包括用于图像细修补的包括两个分支的编解码器网络结构,其输入为第一阶段输出的粗修补结果图像,其中,第二阶段网络结构中的一个分支采用纯门卷积,另一分支采用门卷积和空洞门卷积结合的方式,两个分支输出结果拼接,再进一步执行门卷积以获得精修补结果图像。
根据本公开的示例性实施例,在第二阶段网络结构中去除了上下文感知模块以进行模型改进。上下文感知模块是对全局信息的利用,参考图像中其他已知区域以进行仿制,然而,首先,全局信息的计算是额外的开销,会对算法速度产生影响;其次,去痕算法出于速度性能考虑,输入的是裁剪后的图片,而非原图,可以借鉴的上下文信息并不多;其次,通过对一些案例的观察,强制去参考全文信息反而会生成一些错误的纹理。因此,当将现有图像补全网络应用于视频图像去痕领域时,可在其第二阶段网络结构中去除了上下文感知模块来提高图像去痕的效率和效果。
此外,根据本公开的示例性实施例,在对根据本公开的示例性实施例的图像去痕网络执行训练的过程中,采用基于生成对抗网络的最小二乘损失的损失函数来进行训练。可采用以下公式作为损失函数:
Figure BDA0002726545760000101
Figure BDA0002726545760000102
其中,L表示损失,D表示判别器,G表示生成器,x表示真实图像(即,参考结果),z表示生成器的输入(即,经过掩膜处理的待去痕图像),E表示期望,pz、px分别是生成器输入和真实图像的空间(即,整个训练集),a、b、c是三个可调参数,其中,可将b和c设置为b=c。因为最小化的是输出结果与a、b、c之间的平方误差,因此叫做二乘损失。
返回参照图3,在步骤303,可获取视频的当前帧图像的前一帧图像的去痕结果图像。在步骤304,可对当前帧图像的第一去痕结果图像和前一帧图像的去痕结果图像进行融合,获得当前帧图像的第二去痕结果图像,作为当前帧图像的最终去痕结果图像。单纯使用基于单图的去痕算法在时序上会产生抖动,为了避免抖动,采用了基于当前帧和前一帧的融合机制,在不过多增加开销和运算量的情况下,消除抖动,提高去痕效果。
根据本公开的示例性实施例,可采用基于光流的时序融合机制执行融合。由于去痕区域的影响,基于相邻两帧的图像计算得到的光流会出现较大偏差,因此使用已利用图像去痕网络进行去痕和填补的结果图像光流计算,能够得到较为准确的结果。因此,在执行融合时,基于相邻两帧图像的去痕结果图像进行光流计算。例如,可采用当流预测网络PWC-Net来作为光流提取网络,或者可任意的光流算法,在速度和精度上实现调节。随后,可利用计算得到的光流对相邻两帧图像进行采样,获得对齐后的图像。例如,可通过pytorch自带的采样算法(grid_sample),通光流指示像素从上一帧传播到下一帧的对应位置。随后,可对当前帧的去痕结果图像和对齐后的图像的去痕区域像素的每个像素进行融合,以得到包括像素被融合的去痕区域的图像。这里,融合机制可以是对将被融合的图像的去痕区域中的每个相同的像素点在多个像素值之间进行投票或计算,以获得相应像素点的像素值。例如,计算当前帧的去痕结果图像的去痕区域中的每个像素的像素值和对齐后的图像的去痕区域的相应像素的像素的统计值(例如,平均值、中位数、众数等),作为该像素的像素值。
因此,根据本公开的示例性实施例,在步骤304,可通过以下步骤来执行基于光流的时序融合机制:对当前帧图像的第一去痕结果图像和前一帧图像的去痕结果图像进行光流计算,并基于计算出的光流进行采样,获得相邻帧对齐图像;对当前帧图像的第一去痕结果图像和相邻帧对齐图像的去痕区域像素的每个像素进行融合。例如,可针对去痕区域像素的每个像素,计算当前帧图像的第一去痕结果图像的像素值和相邻帧对齐图像的像素值的统计值,作为该像素的像素值,以获得融合后的图像。
根据本公开的示例性实施例,融合机制利用的前一帧图像的去痕结果图像可包括前一帧图像的第一去痕结果图像和第二去痕结果图像中的至少一个。这里,前一帧图像的第一去痕结果图像是通过基于前一帧图像和去痕区域掩膜,利用所述图像去痕网络而获得的,前一帧图像的第二去痕结果图像是通过对前一帧图像的第一去痕结果图像和前一帧图像的前一帧图像的痕结果图像进行融合而获得的。
根据本公开的示例性实施例,当前一帧图像的去痕结果图像可包括前一帧图像的第一去痕结果图像和第二去痕结果图像两者时,在步骤304,对当前帧图像的第一去痕结果图像和前一帧图像的第一去痕结果图像进行光流计算,获得第一相邻光流,并对当前帧图像的第一去痕结果图像和前一帧图像的第二去痕结果图像进行光流计算,获得第二相邻光流;基于第一相邻光流对当前帧图像的第一去痕结果图像和前一帧图像的第一去痕结果图像进行采样,获得第一相邻帧对齐图像,并基于第二相邻光流对当前帧图像的第一去痕结果图像和所述前一帧图像的第二去痕结果图像进行采样,获得第二相邻帧对齐图像;对当前帧图像的第一去痕结果图像、第一相邻帧对齐图像和第二相邻帧对齐图像的去痕区域像素的每个像素进行融合。
图7是示出根据本公开的示例性实施例的融合机制的示意图。参照图7,可利用当前帧(t帧)的第一去痕结果图像(t帧生成)、前一帧(t-1帧)的第一去痕结果图像(t-1帧生成)、前一帧的第二去痕结果图像(t-1帧结果)进行融合,来产生当前帧的第二去痕结果图像(t帧结果)。具体地说,可将当前帧的第一去痕结果图像(t帧生成)与前一帧的第一去痕结果图像(t-1帧生成)进行光流计算并采样,获得第一相邻帧对齐图像(t-1帧生成传播),并可将当前帧的第一去痕结果图像(t帧生成)与前一帧的第二去痕结果图像(t-1帧结果)进行光流计算并采样,获得第二相邻帧对齐图像(t-1帧结果传播)。随后,对当前帧图像的第一去痕结果图像(t帧生成)、第一相邻帧对齐图像(t-1帧生成传播)和第二相邻帧对齐图像(t-1帧结果传播)的去痕区域像素的每个像素进行融合。例如,可针对去痕区域像素的每个像素,计算当前帧图像的第一去痕结果图像的像素值、第一相邻帧对齐图像的像素值和第二相邻帧对齐图像的像素值的中位数,作为该像素的像素值,从而可获得融合后的图像,即,当前帧图像的第二去痕结果图像。
返回参照图3,根据本公开的示例性实施例,在执行步骤303和304之前,还可确定当前帧图像是否是待去痕视频的第一帧图像或者当前帧图像与前一帧图像相比是否发生场景切换。如果当前帧图像是待去痕视频的第一帧图像,则不存在前一帧图像,因此无需执行步骤303和步骤304。如果当前帧图像与前一帧图像相比发生场景切换,画面会在这些位置发生跳变,利用前一帧信息帮助填补去痕区域只会对去痕结果造成负面作用,因此也无需执行步骤303和步骤304。因此,当确定当前帧图像是待去痕视频的第一帧图像或者当前帧图像与前一帧图像相比发生场景切换时,不执行步骤303和304,并可将在步骤302获得的当前帧图像的第一去痕结果图像,作为当前帧图像的最终去痕结果图像。
根据本公开的示例性实施例,可通过自动检测画面跳变来确定当前帧图像与前一帧图像相比是否发生场景切换。例如,在处理当前帧时,可获得前一帧图像,并计算当前帧图像与前一帧图像的差异,当这个差异超过了预定阈值时,则确定发生了场景切换。
例如,该差异可以是基于预定图像块的L2范数距离。例如,可通过下面的公式计算相邻两帧的每个像素之间的L2范数距离:
Figure BDA0002726545760000131
其中,It(q)为第t帧图像(例如,当前帧图像),It-1(q)为第t-1帧图像(例如,前一帧图像),p可表示当前帧图像的每个像素,N(p)为p像素的邻域范围,(例如,邻域半径为5的邻域范围),即,p像素的预定图像块,q为遍历N(p)范围内的像素的指示符。本公开对N(p)不作限制。
当通过上述公式获得当前帧图像和前一帧图像的每个像素的L2范数距离值时,可计算每个像素的L2范数距离的平均值,作为当前帧图像与前一帧图像的差异值。当计算出的差异值大于预定阈值时,确定当前帧图像与前一帧相比发生场景切换。
此外,在实际计算相邻帧图像的每个像素之间的距离的过程中,还可采用积分图进行算法加速,以提高算法速度。
当然,本公开的确定是否发生场景切换的方法不限于上述方法,还可利用任何可行的方法来确定是否发生场景切换。
根据本公开的示例性实施例,由于光照条件、相机对焦可能存在突变,或者由于相机和被摄主体的运动可能会产生模糊,对齐后相邻两帧的图像可能存在较大的偏差。因此,在根据本公开的视频去痕方法的步骤302产生当前帧图像的最终去痕结果图像或者步骤304产生当前帧图像的最终去痕结果图像之后,还可对当前帧图像的最终去痕结果图像进行背景融合,使得当前帧图像的去痕区域的填补内容能够更完美更自然地与当前帧图像的背景融合,使得去痕结果图像更和谐和自然。
例如,可采用柏松融合算法执行背景融合。即,基于当前帧图像、当前帧图像的最终去痕结果图像和去痕区域掩膜,利用柏松融合算法,获得当前帧图像的第三去痕结果图像,作为当前帧图像的最终去痕结果图像。具体地说,可以以去痕区域掩膜中的去痕区域为参考区域,计算在参考区域边界处当前帧图像的像素的像素值与当前帧图像的最终去痕结果图像的像素的像素值之间的梯度;可调整当前帧图像的最终去痕结果图像在所述参考区域边界处的像素的像素值,直到所述梯度最小化;将梯度最小化时的调整后的当前帧图像的最终去痕结果图像作为当前帧图像的第三去痕结果图像。
图8是示出根据本公开的示例性实施例的视频去痕方法的流程示意图。
参照图8,首先,可将待去痕视频的图像帧以及相应的去痕区域掩膜输入到基于单帧图像的图像去痕网络,以获得基于单帧填补的去痕结果图像(例如,上述的第一去痕结果图像),随后,可对基于单帧填补的去痕结果图像执行前后相邻帧的融合算法,获得基于融合填补的去痕结果图像(例如,上述的第二去痕结果图像),随后,可对基于融合填补的去痕结果图像执行背景融合,获得基于背景融合的去痕结果图像(例如,上述的第三去痕结果图像),作为最终的去痕结果图像以输出。
图9是示出根据本公开的示例性实施例的视频去痕装置的框图。
参照图9,根据本公开的示例性实施例的视频去痕装置900可包括获取单元901、去痕单元902和融合单元903。
获取单元901可获取视频的当前帧图像和去痕区域掩膜。这里,视频是指待去痕视频,例如,可以是视频平台获取到的由摄像机拍摄的视频、或者来自其他视频平台的视频、或者来自网络或本地存储的视频等等。根据本公开的示例性实施例的视频去痕方法可对待去痕视频的每一帧图像执行去痕处理,因此,当前帧是指当前被执行去痕处理的帧。
此外,去痕区域掩膜是指待去痕视频的图像中遮挡除预先确定的将要执行去痕处理的区域之外的区域的图像掩膜。将要执行去痕处理的区域(下面,可简称为去痕区域)可以是比待去痕图案(例如,平台logo、广告、水印等)更大的区域,这是因为利用待去痕图案周边背景的语义信息,更有利于提升填补内容的质量。针对待去痕图案,应该选择适当的去痕区域作为上下文的参考区域,如果去痕区域过大会引入过多无关信息,让去痕模型产生困扰,而如果去痕区域过小则无法包含有效的参考信息,影响去痕效果。根据本公开的示例性实施例,去痕区域可以是包括待去痕图案的预定区域,该预定区域是待去痕视频的图像的局部区域。例如,去痕区域可以是待去痕视频的图像中的特定矩形区域,该特定矩形区域以待去痕视频的图像的待去痕图案的中心为中心点且以待去痕图案最长边的两倍为边长。当然,根据本公开的去痕区域不限于上述,还可以是任何可能的去痕区域。
随后,去痕单元902可基于当前帧图像和去痕区域掩膜,利用图像去痕网络,获得当前帧图像的第一去痕结果图像。这里,图像去痕网络可以是任何基于单图图像修补的神经网络(例如,深度卷积神经网络等)。此外,针对特定的场景,图像去痕网络还可以是针对性训练过的网络模型。
根据本公开的示例性实施例,去痕单元902可采用由粗到细的深度卷积神经网络,第一阶段的粗修补完成大致轮廓的填补,第二阶段的细修补进一步填充细节。如图5所示,去痕单元902可将待去痕图像和相应的去痕区域掩膜输入到图像去痕网络的第一阶段子网络(可称为粗修补网络),以输出粗修补图像,再将粗修补图像输入到图像去痕网络的第二阶段子网络(可称为精修补网络),以输出精修补图像,可作为第一去痕结果图像。
根据本公开的示例性实施例,去痕单元902可采用编解码器网络来实现图像去痕网络,例如,可采用如图6所示的图像去痕网络。此外,根据本公开的示例性实施例,在对根据本公开的示例性实施例的图像去痕网络执行训练的过程中,采用基于生成对抗网络的最小二乘损失的损失函数来进行训练。可采用以下公式作为损失函数:
Figure BDA0002726545760000151
Figure BDA0002726545760000152
其中,L表示损失,D表示判别器,G表示生成器,x表示真实图像(即,参考结果),z表示生成器的输入(即,经过掩膜处理的待去痕图像),E表示期望,pz、px分别是生成器输入和真实图像的空间(即,整个训练集),a、b、c是三个可调参数,其中,可将b和c设置为b=c。因为最小化的是输出结果与a、b、c之间的平方误差,因此叫做二乘损失。
随后,获取单元901可获取视频的当前帧图像的前一帧图像的去痕结果图像。融合单元903可对当前帧图像的第一去痕结果图像和前一帧图像的去痕结果图像进行融合,获得当前帧图像的第二去痕结果图像,作为当前帧图像的最终去痕结果图像。单纯使用基于单图的去痕算法在时序上会产生抖动,为了避免抖动,采用了基于当前帧和前一帧的融合机制,在不过多增加开销和运算量的情况下,消除抖动,提高去痕效果。
根据本公开的示例性实施例,融合单元903可采用基于光流的时序融合机制执行融合。例如,融合单元903可通过以下步骤来执行基于光流的时序融合机制:对当前帧图像的第一去痕结果图像和前一帧图像的去痕结果图像进行光流计算,并基于计算出的光流进行采样,获得相邻帧对齐图像;对当前帧图像的第一去痕结果图像和相邻帧对齐图像的去痕区域像素的每个像素进行融合。例如,融合单元903可针对去痕区域像素的每个像素,计算当前帧图像的第一去痕结果图像的像素值和相邻帧对齐图像的像素值的统计值,作为该像素的像素值,以获得融合后的图像。
根据本公开的示例性实施例,融合机制利用的前一帧图像的去痕结果图像可包括前一帧图像的第一去痕结果图像和第二去痕结果图像中的至少一个。这里,前一帧图像的第一去痕结果图像是通过基于前一帧图像和去痕区域掩膜,利用所述图像去痕网络而获得的,前一帧图像的第二去痕结果图像是通过对前一帧图像的第一去痕结果图像和前一帧图像的前一帧图像的痕结果图像进行融合而获得的。
根据本公开的示例性实施例,当前一帧图像的去痕结果图像可包括前一帧图像的第一去痕结果图像和第二去痕结果图像两者时,融合单元903可对当前帧图像的第一去痕结果图像和前一帧图像的第一去痕结果图像进行光流计算,获得第一相邻光流,并对当前帧图像的第一去痕结果图像和前一帧图像的第二去痕结果图像进行光流计算,获得第二相邻光流;基于第一相邻光流对当前帧图像的第一去痕结果图像和前一帧图像的第一去痕结果图像进行采样,获得第一相邻帧对齐图像,并基于第二相邻光流对当前帧图像的第一去痕结果图像和所述前一帧图像的第二去痕结果图像进行采样,获得第二相邻帧对齐图像;对当前帧图像的第一去痕结果图像、第一相邻帧对齐图像和第二相邻帧对齐图像的去痕区域像素的每个像素进行融合。例如,融合单元903可针对去痕区域像素的每个像素,计算当前帧图像的第一去痕结果图像的像素值、第一相邻帧对齐图像的像素值和第二相邻帧对齐图像的像素值的中位数,作为该像素的像素值,从而可获得融合后的图像,即,当前帧图像的第二去痕结果图像。
根据本公开的示例性实施例,根据本公开的示例性实施例的视频去痕装置900还可包括确定单元(未示出)。确定单元可确定当前帧图像是否是待去痕视频的第一帧图像或者当前帧图像与前一帧图像相比是否发生场景切换。如果当前帧图像是待去痕视频的第一帧图像,则不存在前一帧图像,因此获取单元901无需执行获取前一帧图像的去痕结果图像的操作,融合单元903也无需执行操作。如果当前帧图像与前一帧图像相比发生场景切换,画面会在这些位置发生跳变,利用前一帧信息帮助填补去痕区域只会对去痕结果造成负面作用,因此获取单元901无需执行获取前一帧图像的去痕结果图像的操作,融合单元903也无需执行操作。因此,当确定单元确定当前帧图像是待去痕视频的第一帧图像或者当前帧图像与前一帧图像相比发生场景切换时,获取单元901不执行获取前一帧图像的去痕结果图像的操作,融合单元903也不执行操作,并去痕单元902可将当前帧图像的第一去痕结果图像,作为当前帧图像的最终去痕结果图像。
根据本公开的示例性实施例,确定单元可通过自动检测画面跳变来确定当前帧图像与前一帧图像相比是否发生场景切换。例如,在处理当前帧时,获取单元901可获得前一帧图像,并确定单元可计算当前帧图像与前一帧图像的差异,当这个差异超过了预定阈值时,则确定发生了场景切换。
例如,该差异可以是基于预定图像块的L2范数距离。例如,可通过下面的公式计算相邻两帧的每个像素之间的L2范数距离:
Figure BDA0002726545760000171
其中,It(q)为第t帧图像(例如,当前帧图像),It-1(q)为第t-1帧图像(例如,前一帧图像),p可表示当前帧图像的每个像素,N(p)为p像素的邻域范围,(例如,邻域半径为5的邻域范围),即,p像素的预定图像块,q为遍历N(p)范围内的像素的指示符。本公开对N(p)不作限制。
当通过上述公式获得当前帧图像和前一帧图像的每个像素的L2范数距离值时,确定单元可计算每个像素的L2范数距离的平均值,作为当前帧图像与前一帧图像的差异值。当计算出的差异值大于预定阈值时,确定单元确定当前帧图像与前一帧相比发生场景切换。
此外,在实际计算相邻帧图像的每个像素之间的距离的过程中,还可采用积分图进行算法加速,以提高算法速度。
当然,本公开的确定是否发生场景切换的方法不限于上述方法,还可利用任何可行的方法来确定是否发生场景切换。
根据本公开的示例性实施例,由于光照条件、相机对焦可能存在突变,或者由于相机和被摄主体的运动可能会产生模糊,对齐后相邻两帧的图像可能存在较大的偏差。因此,根据本公开的示例性实施例的视频去痕装置900还可包括背景融合单元(未示出)。在去痕单元902产生当前帧图像的最终去痕结果图像或者融合单元903产生当前帧图像的最终去痕结果图像之后,背景融合单元可对当前帧图像的最终去痕结果图像进行背景融合,使得当前帧图像的去痕区域的填补内容能够更完美更自然地与当前帧图像的背景融合,使得去痕结果图像更和谐和自然。
例如,背景融合单元可采用柏松融合算法执行背景融合。即,背景融合单元基于当前帧图像、当前帧图像的最终去痕结果图像和去痕区域掩膜,利用柏松融合算法,获得当前帧图像的第三去痕结果图像,作为当前帧图像的最终去痕结果图像。具体地说,背景融合单元可以以去痕区域掩膜中的去痕区域为参考区域,计算在参考区域边界处当前帧图像的像素的像素值与当前帧图像的最终去痕结果图像的像素的像素值之间的梯度;可调整当前帧图像的最终去痕结果图像在所述参考区域边界处的像素的像素值,直到所述梯度最小化;将梯度最小化时的调整后的当前帧图像的最终去痕结果图像作为当前帧图像的第三去痕结果图像。
图10是根据本公开的示例性实施例的电子设备1000的框图。
参照图10,电子设备1000包括至少一个存储器1001和至少一个处理器1002,所述至少一个存储器1001中存储有计算机可执行指令集合,当计算机可执行指令集合被至少一个处理器1002执行时,执行根据本公开的示例性实施例的视频去痕方法。
作为示例,电子设备1000可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里,电子设备1000并非必须是单个的电子设备,还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备1000还可以是集成控制系统或系统管理器的一部分,或者可被配置为与本地或远程(例如,经由无线传输)以接口互联的便携式电子设备。
在电子设备1000中,处理器1002可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制,处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。
处理器1002可运行存储在存储器1001中的指令或代码,其中,存储器1001还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收,其中,网络接口装置可采用任何已知的传输协议。
存储器1001可与处理器1002集成为一体,例如,将RAM或闪存布置在集成电路微处理器等之内。此外,存储器1001可包括独立的装置,诸如,外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器1001和处理器1002可在操作上进行耦合,或者可例如通过I/O端口、网络连接等互相通信,使得处理器602能够读取存储在存储器中的文件。
此外,电子设备1000还可包括视频显示器(诸如,液晶显示器)和用户交互接口(诸如,键盘、鼠标、触摸输入装置等)。电子设备1000的所有组件可经由总线和/或网络而彼此连接。
根据本公开的示例性实施例,还可提供一种存储指令的计算机可读存储介质,其中,当指令被至少一个处理器运行时,促使至少一个处理器执行根据本公开的视频去痕方法。这里的计算机可读存储介质的示例包括:只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如,多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置,所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行,此外,在一个示例中,计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上,使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。
根据本公开的示例性实施例,还可提供一种计算机程序产品,该计算机程序产品中的指令可由计算机设备的处理器执行以完成根据本公开的示例性实施例的视频去痕方法。
根据本公开的视频去痕方法和视频去痕装置,利用神经网络执行单图去痕(即,去痕区域填补),并利用特定融合机制考虑相邻帧信息执行相邻帧融合去痕,能够自动化去除视频中遮挡、广告等内容,无需利用多个前后帧信息和多次光流计算,在保证算法开销小、速度快(例如,15帧/秒的处理速度)的情况下,提升去痕区域填补内容的质量,使得填补内容和原视频内容对比起来和谐、自然,填补完的视频能够让痕迹区域不再明显,和原视频难以区分,达到以假乱真的效果,从而提高用户观看体验。
根据本公开的视频去痕方法和视频去痕装置,能够实时地针对视频中的痕迹图案选择合适的去痕区域,在不增加开销和干扰的情况下,充分利用周围信息以提高去痕区域内容填补质量,并且无需提前标注好掩膜,对痕迹出现的位置、痕迹的形状、视频的种类均没有限制,都能稳定产生优良的去痕结果。
根据本公开的视频去痕方法和视频去痕装置,利用柏松融合算法对去痕图像执行背景融合,使得去痕区域的填补内容能够更完美更自然地与图像背景融合,使得去痕结果图像更和谐和自然。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (10)

1.一种视频去痕方法,其特征在于,包括:
获取视频的当前帧图像和去痕区域掩膜;
基于所述当前帧图像和所述去痕区域掩膜,利用图像去痕网络,获得所述当前帧图像的第一去痕结果图像;
获取所述视频的所述当前帧图像的前一帧图像的去痕结果图像;
对所述当前帧图像的第一去痕结果图像和所述前一帧图像的去痕结果图像进行融合,获得所述当前帧图像的第二去痕结果图像,作为所述当前帧图像的最终去痕结果图像。
2.如权利要求1所述的视频去痕方法,其特征在于,所述去痕区域是所述视频的图像中的特定矩形区域,其中,所述特定矩形区域以所述视频的图像的待去痕图案的中心为中心点且以待去痕图案最长边的两倍为边长。
3.如权利要求1所述的视频去痕方法,其特征在于,所述对所述当前帧图像的第一去痕结果图像和所述前一帧图像的去痕结果图像进行融合,包括:
对所述当前帧图像的第一去痕结果图像和所述前一帧图像的去痕结果图像进行光流计算,获得相邻帧光流;
基于获得的相邻帧光流对所述当前帧图像的第一去痕结果图像和所述前一帧图像的去痕结果图像进行采样,获得相邻帧对齐图像;
对所述当前帧图像的第一去痕结果图像和所述相邻帧对齐图像的去痕区域像素的每个像素进行融合。
4.如权利要求3所述的视频去痕方法,其特征在于,所述对所述当前帧图像的第一去痕结果图像和所述相邻帧对齐图像的去痕区域像素的每个像素进行融合,包括:
针对所述去痕区域像素的每个像素,计算所述当前帧图像的第一去痕结果图像的像素值和所述相邻帧对齐图像的像素值的统计值,作为该像素的像素值。
5.如权利要求1、3和4中的任意一个权利要求所述的视频去痕方法,其特征在于,所述前一帧图像的去痕结果图像包括所述前一帧图像的第一去痕结果图像和所述第二去痕结果图像中的至少一个;
其中,所述前一帧图像的第一去痕结果图像是通过基于所述前一帧图像和所述去痕区域掩膜,利用所述图像去痕网络而获得的,所述前一帧图像的第二去痕结果图像是通过对所述前一帧图像的第一去痕结果图像和所述前一帧图像的前一帧图像的痕结果图像进行融合而获得的。
6.如权利要求5所述的视频去痕方法,其特征在于,在所述前一帧图像的去痕结果图像包括所述前一帧图像的第一去痕结果图像和第二去痕结果图像的情况下:
所述对所述当前帧图像的第一去痕结果图像和所述前一帧图像的去痕结果图像进行光流计算,获得相邻光流,包括:
对所述当前帧图像的第一去痕结果图像和所述前一帧图像的第一去痕结果图像进行光流计算,获得第一相邻光流,
对所述当前帧图像的第一去痕结果图像和所述前一帧图像的第二去痕结果图像进行光流计算,获得第二相邻光流;
所述基于获得的相邻帧光流对所述当前帧图像的第一去痕结果图像和所述前一帧图像的去痕结果图像进行采样,获得相邻帧对齐图像,包括:
基于第一相邻光流对所述当前帧图像的第一去痕结果图像和所述前一帧图像的第一去痕结果图像进行采样,获得第一相邻帧对齐图像,
基于第二相邻光流对所述当前帧图像的第一去痕结果图像和所述前一帧图像的第二去痕结果图像进行采样,获得第二相邻帧对齐图像;
所述对所述当前帧图像的第一去痕结果图像和所述相邻帧对齐图像的去痕区域像素的每个像素进行融合,包括:
对所述当前帧图像的第一去痕结果图像、第一相邻帧对齐图像和第二相邻帧对齐图像的去痕区域像素的每个像素进行融合。
7.如权利要求6所述的视频去痕方法,其特征在于,所述针对所述去痕区域像素的每个像素,计算所述当前帧图像的第一去痕结果图像的像素值和所述相邻帧对齐图像的像素值的统计值,包括:
针对所述去痕区域像素的每个像素,计算所述当前帧图像的第一去痕结果图像的像素值、第一相邻帧对齐图像的像素值和第二相邻帧对齐图像的像素值的中位数。
8.一种视频去痕装置,其特征在于,包括:
获取单元,被配置为获取视频的当前帧图像和去痕区域掩膜,以及获取所述视频的所述当前帧图像的前一帧图像的去痕结果图像;
去痕单元,被配置为基于所述当前帧图像和所述去痕区域掩膜,利用图像去痕网络,获得所述当前帧图像的第一去痕结果图像;
融合单元,被配置为对所述当前帧图像的第一去痕结果图像和所述前一帧图像的去痕结果图像进行融合,获得所述当前帧图像的第二去痕结果图像,作为所述当前帧图像的最终去痕结果图像。
9.一种电子设备,其特征在于,包括:
至少一个处理器;
至少一个存储计算机可执行指令的存储器,
其中,所述计算机可执行指令在被所述至少一个处理器运行时,促使所述至少一个处理器执行如权利要求1到7中的任一权利要求所述的视频去痕方法。
10.一种存储指令的计算机可读存储介质,其特征在于,当所述指令被至少一个处理器运行时,促使所述至少一个处理器执行如权利要求1到7中的任一权利要求所述的视频去痕方法。
CN202011104678.6A 2020-10-15 2020-10-15 视频去痕方法和视频去痕装置 Active CN112233055B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN202011104678.6A CN112233055B (zh) 2020-10-15 2020-10-15 视频去痕方法和视频去痕装置
EP21879026.9A EP4060602A1 (en) 2020-10-15 2021-07-14 Video processing method and video processing apparatus
MX2022007387A MX2022007387A (es) 2020-10-15 2021-07-14 Metodo y aparato para procesar video.
PCT/CN2021/106339 WO2022077978A1 (zh) 2020-10-15 2021-07-14 视频处理方法和视频处理装置
US17/742,466 US11538141B2 (en) 2020-10-15 2022-05-12 Method and apparatus for processing video

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011104678.6A CN112233055B (zh) 2020-10-15 2020-10-15 视频去痕方法和视频去痕装置

Publications (2)

Publication Number Publication Date
CN112233055A true CN112233055A (zh) 2021-01-15
CN112233055B CN112233055B (zh) 2021-09-10

Family

ID=74118366

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011104678.6A Active CN112233055B (zh) 2020-10-15 2020-10-15 视频去痕方法和视频去痕装置

Country Status (5)

Country Link
US (1) US11538141B2 (zh)
EP (1) EP4060602A1 (zh)
CN (1) CN112233055B (zh)
MX (1) MX2022007387A (zh)
WO (1) WO2022077978A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112837234A (zh) * 2021-01-25 2021-05-25 重庆师范大学 一种基于多列门控卷积网络的人脸图像修复方法
CN114302252A (zh) * 2021-12-31 2022-04-08 深圳万兴软件有限公司 视频去除水印的方法、装置、计算机设备及存储介质
WO2022077978A1 (zh) * 2020-10-15 2022-04-21 北京达佳互联信息技术有限公司 视频处理方法和视频处理装置
CN114598923A (zh) * 2022-03-08 2022-06-07 北京达佳互联信息技术有限公司 视频文字清除方法、装置、电子设备及存储介质
CN116958203A (zh) * 2023-08-01 2023-10-27 北京知存科技有限公司 一种图像处理方法、装置、电子设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060168452A1 (en) * 2000-04-05 2006-07-27 Sony United Kingdom Limited Watermarked material processing
CN105391952A (zh) * 2014-09-03 2016-03-09 芯视达系统公司 具有内置广播及商业模型的图像处理设备
CN105898322A (zh) * 2015-07-24 2016-08-24 乐视云计算有限公司 一种视频去水印方法及装置
CN105894470A (zh) * 2016-03-31 2016-08-24 北京奇艺世纪科技有限公司 一种图像处理方法及装置
CN109214999A (zh) * 2018-09-21 2019-01-15 传线网络科技(上海)有限公司 一种视频字幕的消除方法及装置
CN110636373A (zh) * 2019-10-18 2019-12-31 厦门美图之家科技有限公司 图像处理方法、装置及电子设备
CN111583087A (zh) * 2020-05-06 2020-08-25 杭州趣维科技有限公司 一种图像去水印方法
CN111654747A (zh) * 2020-06-12 2020-09-11 杭州海康威视数字技术股份有限公司 弹幕显示方法及装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7834894B2 (en) * 2007-04-03 2010-11-16 Lifetouch Inc. Method and apparatus for background replacement in still photographs
CN107146199B (zh) * 2017-05-02 2020-01-17 厦门美图之家科技有限公司 一种人脸图像的融合方法、装置及计算设备
GB2586389B (en) * 2018-03-29 2022-03-30 Mitsubishi Electric Corp Image processing device, image processing method, and monitoring system
CN110443764A (zh) * 2019-08-01 2019-11-12 北京百度网讯科技有限公司 视频修复方法、装置及服务器
WO2021080158A1 (en) * 2019-10-25 2021-04-29 Samsung Electronics Co., Ltd. Image processing method, apparatus, electronic device and computer readable storage medium
CN111145135B (zh) * 2019-12-30 2021-08-10 腾讯科技(深圳)有限公司 一种图像去扰处理方法、装置、设备及存储介质
CN112233055B (zh) * 2020-10-15 2021-09-10 北京达佳互联信息技术有限公司 视频去痕方法和视频去痕装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060168452A1 (en) * 2000-04-05 2006-07-27 Sony United Kingdom Limited Watermarked material processing
CN105391952A (zh) * 2014-09-03 2016-03-09 芯视达系统公司 具有内置广播及商业模型的图像处理设备
CN105898322A (zh) * 2015-07-24 2016-08-24 乐视云计算有限公司 一种视频去水印方法及装置
CN105894470A (zh) * 2016-03-31 2016-08-24 北京奇艺世纪科技有限公司 一种图像处理方法及装置
CN109214999A (zh) * 2018-09-21 2019-01-15 传线网络科技(上海)有限公司 一种视频字幕的消除方法及装置
CN110636373A (zh) * 2019-10-18 2019-12-31 厦门美图之家科技有限公司 图像处理方法、装置及电子设备
CN111583087A (zh) * 2020-05-06 2020-08-25 杭州趣维科技有限公司 一种图像去水印方法
CN111654747A (zh) * 2020-06-12 2020-09-11 杭州海康威视数字技术股份有限公司 弹幕显示方法及装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022077978A1 (zh) * 2020-10-15 2022-04-21 北京达佳互联信息技术有限公司 视频处理方法和视频处理装置
US11538141B2 (en) 2020-10-15 2022-12-27 Beijing Dajia Internet Information Technology Co., Ltd. Method and apparatus for processing video
CN112837234A (zh) * 2021-01-25 2021-05-25 重庆师范大学 一种基于多列门控卷积网络的人脸图像修复方法
CN114302252A (zh) * 2021-12-31 2022-04-08 深圳万兴软件有限公司 视频去除水印的方法、装置、计算机设备及存储介质
CN114598923A (zh) * 2022-03-08 2022-06-07 北京达佳互联信息技术有限公司 视频文字清除方法、装置、电子设备及存储介质
CN116958203A (zh) * 2023-08-01 2023-10-27 北京知存科技有限公司 一种图像处理方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
EP4060602A1 (en) 2022-09-21
WO2022077978A1 (zh) 2022-04-21
US11538141B2 (en) 2022-12-27
CN112233055B (zh) 2021-09-10
MX2022007387A (es) 2022-07-13
US20220309623A1 (en) 2022-09-29

Similar Documents

Publication Publication Date Title
CN112233055B (zh) 视频去痕方法和视频去痕装置
Tulyakov et al. Time lens: Event-based video frame interpolation
CN107481271B (zh) 一种立体匹配方法、系统及移动终端
KR102366779B1 (ko) 다수 객체 추적 시스템 및 이의 객체 추적 방법
US10600158B2 (en) Method of video stabilization using background subtraction
CN101783024A (zh) 利用深度信息对深度噪声进行滤波的方法及设备
CN106027851A (zh) 基于图像梯度的图像滤波
CN113221925B (zh) 一种基于多尺度图像的目标检测方法及装置
CN112818955B (zh) 一种图像分割方法、装置、计算机设备以及存储介质
CN104809710A (zh) 图像去噪方法以及使用该方法的装置
CN112862877A (zh) 用于训练图像处理网络和图像处理的方法和装置
Gryaditskaya et al. Motion aware exposure bracketing for HDR video
CN110992395A (zh) 图像训练样本的生成方法及装置、运动跟踪方法及装置
CN112802076A (zh) 反射图像生成模型及反射去除模型的训练方法
CN111160340B (zh) 一种运动目标检测方法、装置、存储介质及终端设备
CN112862671A (zh) 视频图像编辑、修复的方法、装置及存储介质
EP3127087B1 (en) Motion field estimation
CN110378852A (zh) 图像增强方法、装置、计算机设备和存储介质
US20030132955A1 (en) Method and device for temporal segmentation of a video sequence
CN112102208B (zh) 带边缘保持的水下图像处理系统、方法、装置和介质
CN112991419B (zh) 视差数据生成方法、装置、计算机设备及存储介质
CN115018734A (zh) 视频修复方法和视频修复模型的训练方法、装置
CN114897719A (zh) 视频处理方法、装置、电子设备和存储介质
KR101945233B1 (ko) 영상 안정화 방법 및 장치
CN108600762B (zh) 结合运动补偿和神经网络算法的递进式视频帧生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant