CN111614996B

CN111614996B - 一种视频修复方法和系统

Info

Publication number: CN111614996B
Application number: CN202010264260.5A
Authority: CN
Inventors: 赵玉良; 郭玉峰; 黄鑫; 何林晋; 吴昌猛; 王连杰; 张博伦
Original assignee: Shanghai Tuele Information Technology Service Co ltd
Current assignee: Shanghai Tuele Information Technology Service Co ltd
Priority date: 2020-04-07
Filing date: 2020-04-07
Publication date: 2022-03-18
Anticipated expiration: 2040-04-07
Also published as: CN111614996A

Abstract

本发明涉及一种视频修复方法和系统，其中，所述方法包括：分离待修复视频的视频和音频，其中，所述待修复视频中包括附加内容；对所述视频进行切帧处理，得到多个视频帧；对所述多个视频帧进行目标检测以获取附加内容信息；获取匹配的图像信息，并以所述图像信息填充所述附加内容所在图像区域；以及将已填充完的视频帧和分离出来的音频合成为已修复视频。本发明在恢复原视频时，无需人工操作，去除效果好，效率高。

Description

一种视频修复方法和系统

技术领域

本发明涉及一种视频处理技术领域，特别地涉及一种消除已添加附加内容的视频修复方法和系统。

背景技术

在视频应用领域中，随着视频编辑技术的发展，允许向视频增加一些附加内容而得到合成视频。例如，可以在视频中增加文字、图像等静态信息，也可以在视频中增加动画等动态信息。然而，合成视频中的广告、贴片等无关信息却经常是令人反感的。因此，有时候需要从合成视频中消除这些附加内容。虽然现有技术中有一些工具提供了去除这些附加内容的功能，但是这些工具通常都要借助人工操作，例如，人工选择操作区域、人工识别附加内容等，不但过程繁琐，而且费时费力。

发明内容

针对现有技术中存在的技术问题，本发明提出了一种视频修复方法和系统，用以自动从待修复视频中去除作为附加内容的静态信息或动态信息，恢复原视频，无需人工操作。

为解决上述技术问题，根据本发明的一个方面，本发明提供一种视频修复方法，其中包括以下步骤：

分离待修复视频的视频和音频，其中，所述待修复视频中包括附加内容；

对所述视频进行切帧处理，得到多个视频帧；

对所述多个视频帧进行目标检测以获取附加内容信息；

获取匹配的图像信息，并以所述图像信息填充所述附加内容所在图像区域；以及

将已填充完的视频帧和分离出来的音频合成为已修复视频。

为解决上述技术问题，根据本发明的另一个方面，本发明提供了一种视频修复系统，所述系统包括分离模块、切帧模块、检测模块、填充模块和合成模块，其中，所述分离模块，经配置以分离待修复视频的视频和音频，其中，所述待修复视频中具有附加内容；所述切帧模块与所述分离模块相连接，经配置将分离后的视频切分为多个视频帧；所述检测模块与所述切帧模块相连接，经配置对所述多个视频帧进行目标检测，以得到附加内容信息；所述填充模块与所述检测模块相连接，经配置以获取匹配的图像信息，并以所述图像信息填充所述合附加内容所在的图像区域；所述合成模块与所述填充模块相连接，经配置以将已填充完的视频帧和分离出来的音频合成为已修复视频。

本发明可以自动从待修复视频中去除另外填加的附加内容，如文字、图像、动画等，从而恢复原视频，整个修复过程无需人工操作，修复效果好，效率高。

附图说明

下面，将结合附图对本发明的优选实施方式进行进一步详细的说明，其中：

图1是根据本发明的一个实施例提供的视频修复方法的流程图；

图2是根据本发明的一个实施例中选取匹配图像信息填充合成视频帧中的填充区域的流程图；

图3是根据本发明的一个实施例的编码器的架构图；

图4是根据本发明的一个实施例的根据注意力机制的图像填充流程图；

图5是根据本发明的一个实施例的解码器的架构图；

图6是根据本发明的一个实施例的根据模板矫正附加内容的流程图；

图7是根据本发明的一个实施例的确定附加内容类别的流程图；

图8是根据本发明的一个实施例的视频修复系统的原理框图；

图9是根据本发明的另一个实施例的视频修复系统的原理框图；

图10是根据本发明的又一个实施例的视频修复系统的原理框图；以及

图11是根据本发明的再一个实施例的视频修复系统的原理框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在以下的详细描述中，可以参看作为本申请一部分用来说明本申请的特定实施例的各个说明书附图。在附图中，相似的附图标记在不同图式中描述大体上类似的组件。本申请的各个特定实施例在以下进行了足够详细的描述，使得具备本领域相关知识和技术的普通技术人员能够实施本申请的技术方案。应当理解，还可以利用其它实施例或者对本申请的实施例进行结构、逻辑或者电性的改变。

由于视频处理技术的发展，为了达到如娱乐、说明、标识等目的，会在原始视频中填加某些附加内容，如在视频中某个人物的头部增加装饰物、在某些场景打上马赛克等静态图像，或者在视频中增加的一段动画视频等。在需要原始视频而又没有时，需要从当前的视频中去掉这些附加内容。在本发明中，将需要去除附加内容的视频称为待修复视频。本发明提供了从当前的视频中去掉这些附加内容的视频修复方法和系统。具体地，如图1所示，是根据本发明的一个实施例提供的视频修复方法的流程图，所述视频修复方法包括：

步骤S1，分离待修复视频的视频和音频。在一个实施例中，通过调用某些公开视觉库如OpenCV(Open Source Computer Vision Library，开源计算机视觉库)或FFmpeg(可自由使用的音视频处理的开源工具)的API可以获取待修复视频的基本信息，如分辨率、帧率、时长、总帧数等，并将待修复视频的视频和音频分离，以文件的形式保存到磁盘上。

步骤S2，将分离后的视频切分为多个视频帧。即将视频的每一帧图像提取出来，以便于后续的处理。同样，可以调用OpenCV或FFmpeg的API实现切帧。

步骤S3，对多个视频帧进行目标检测以获取附加内容信息。其中，附加内容可能位于整个视频的所有视频帧上，也可能只位于部分时段的视频帧上。为了说明方便，将合成有附加内容的视频帧称为合成视频帧，将没有附加内容的视频帧称为原始视频帧。

在一些实施例中，通过深度学习目标检测(Objective Detection)算法来逐帧检测切分后的视频帧，检测视频帧中的附加内容信息。这些算法包括但不限于R-CNN系算法(如R-CNN、Fast R-CNN、Faster R-CNN等)、Yolo(You Only Look Once:Unified,Real-TimeObject Detection)算法或SSD(Single Shot MultiBox Detector)算法中的一种或多种。

在一个实施例中，目标检测算法为两步(Two-Stage)目标检测法，首先产生候选区域(Region Proposals)，然后对候选区域进行分类和位置精修。这类算法的典型代表是基于候选区域的R-CNN系列算法。在一些实施例中，目标检测算法为单步(One-Stage)目标检测法，不需要产生候选区域的步骤，直接产生物体的类别概率和位置坐标值，比较典型的算法如Yolo和SSD。

在一些实施例中，利用前述算法，以不同种类的附加内容作为训练集训练卷积神经网络模型，从而得到目标检测模型；将切分后得到视频帧输入到所述目标检测模型，可以检测出该视频帧是否有附加内容并获得附加内容信息。在一个实施例中，可随时向训练集增加新的附加内容，并以此重新训练、更新所述目标检测模型，从而使得附加内容的检测更加准确、可靠。

对于目标检测算法而言，由于附加内容的种类相对有限，例如：一般为文字、图片/动图、动画等；附加内容的附加方式有明显的规律，例如，附加位置通常在视频帧的边或角落或背景；与原始视频内容在颜色和变化方式上具有明显的差别等。因此，利用基于深度学习的目标检测算法能够获得相当准确的结果。例如，文字和字符等可以被非常准确地检测和识别出来。另一方面，在一些实施例中，仅通过目标检测算法识别出是否存在附加内容以及某些附加内容信息(如轮廓信息、在视频帧的位置信息)即可，而无需识别出具体的图像内容，从而能够大幅度提高目标检测算法的运行速度，减小计算量，更快地获得所需的附加内容信息。

在一些实施例中，利用基于深度学习的目标检测算法可以确定的附加内容信息包括但不限于以下信息中的一种或多种：

1.附加内容的种类，包括但不限于：文字、图片/动图、动画、视频等；其中，所述种类可为多级设置，例如，前述的文字、图片/动图、动画、视频等为一级类别，在各自类别下还包括子类别，例如，文字类别下还包括字幕、弹幕等。

2.附加内容的表观，包括但不限于形状、图案、颜色、大小等。

3.附加内容在视频帧中的位置信息，这些位置信息代表了附加内容位于视频帧中的边、角、背景、图像中的某个感兴趣区域。

4.附加内容在视频帧中出现的时间段。

以上的附加内容信息仅仅是举例以说明可能的附加内容信息，其他类型的附加内容信息也同样可以成为目标检测算法的结果。如所了解的，目标检测算法的结果与其训练集有关。

在一个实施例中，可随时向训练集增加新的附加内容，并以此重新训练、更新所述目标检测模型，从而使得附加内容的检测更加准确、可靠。

步骤S4，获取匹配图像信息填充合成视频帧中的附加内容所在的区域。为了简化说明，在以下将合成视频帧中附加内容所在的图像区域称为填充区域。本发明从其他视频帧中获取与合成视频帧中附加内容的背景图像相匹配的图像来填充附加内容所在的图像区域，从显示结果来看，可以取得与除掉附加内容相同的效果。在一个实施例中，如图2所示，具体包括以下步骤：

步骤S40，对切分得到的多个视频帧按照附加内容所在的背景分组。在一个具体实施例中，为了能够获取匹配的图像信息并减少计算量，以附加内容的背景为场景，将相近场景的视频帧(包含原始视频帧和合成视频帧)分为一组，从而可以将所有的视频帧分为多组。例如，其中一个合成视频帧的附加内容的背景为天空，则将背景为天空的所有的视频帧分为一组。如果一个合成视频帧的附加内容的背景为绿地，将背景为绿地的视频帧分为一组等等。通过分组，在图像信息的获取、填充时，以相同场景的视频帧为操作对象，利用具有相似背景的图片进行信息互补，既可以提升附加内容去除的效果，也提升了算法效率。在一个具体实施例中，可采用图像直方图对视频帧进行场景分割，而后再进行分组。

在获取匹配图像信息、填充所述合成视频帧中的填充区域时，利用深度学习方法实现匹配图像信息的获取及填充。

步骤S41，对同一组中的每一个视频帧进行编码，将视频帧编码后得到的两个特征图分别作为该视频帧的key和value。

在一个实施例中，编码器的架构如图3所示。编码器使用gated convolution作为基本组件，共7个卷积层，使用LeakyRelu作为激活函数。其中，第一层卷积层共有64个5x5的卷积核，卷积步长s为2；第二层卷积层共有64个3x3的卷积核，卷积步长s为1；第三层卷积层共有128个3x3的卷积核，卷积步长s为2；第四层卷积层共有128个3x3的卷积核，卷积步长s为1，膨胀系数d为2；第五层卷积层共有128个3x3的卷积核，卷积步长s为1，膨胀系数d为4；第六层卷积层共128个3x3的卷积核，卷积步长s为1，膨胀系数d为8；第七层卷积层含有两个分支，生成的特征图(feature map)分别作为key和value。通过将待修复视频图像和参考图像分别输入到所述神经网络中，分别得到对应的key和value。例如，对于256*256*3的图像，经过前述神经网络架构的处理后得到两个特征图，每个特征图的维度为64*64*128，其分别作为key和value。

如图4所示，为根据注意力机制的图像填充流程图。在同一组视频帧中，将合成视频帧设为本帧，从剩余原始视频帧中每隔一定数量，如5帧、10帧、15帧或20帧中选取一个作为参考帧。为了清楚地说明该流程，图4仅示出了参考帧为一帧的示意图，本领域的普通技术人员应当理解，当参考帧为多个时，计算过程相同。

步骤S42，根据本帧key与参考帧key的相似性确定每一参考帧的权重a。由于内积是判断两个向量相似度的一种方式，两个向量内积的值越大说明两个向量越接近，因而在本实施例中，通过计算本帧key和每一个参考帧key的内积可以确定该参考帧与本帧的相似度，从而得到各参考帧的匹配程度，即权重。为了方便后续的计算，对本帧key与参考帧key的内积进行归一化处理，此时即得到了该参考帧相对本帧的权重。通过上述相同的计算可以得到所有参考帧相对本帧的权重。

步骤S43，计算每一参考帧的value和权重的内积，从而得到每一参考帧的加权value。

步骤S44，计算本帧value与同组参考帧加权value的和，从而得到本帧的新value，该新value即为获取到匹配图像信息，代表了填充区域的图像信息，因而完成了本帧中填充区域的填充。

在以上实施例中，所述value为向量，将本帧的value和各参考帧的加权value相加时，采用向量相加，即分别将各个分量相加作为新值的对应分量即可。

步骤S45，还原视频帧。在一个实施例中，利用深度学习方法对具有的新value的合成视频帧进行解码以还原视频帧，还原后视频帧为已在填充区域填充了图像信息的视频帧。如图5所示，经过利用注意力机制的计算得到了已填充的视频帧，利用深度学习方法中的卷积神经网络，以利用注意力机制的计算结果为输入，使用gated convolution作为基本组件，共7个卷积层，使用LeakyRelu作为激活函数，使用最近邻上采样算法，输出与原视频帧相同大小(size)的图像。

前述步骤S42-S44完成了一组中的一个视频帧的处理过程，然后选取同组中下一个合成视频帧作为本帧，重复前述过程对该合成视频帧进行填充、还原，循环此过程直到处理完该组中的所有合成视频帧。然后再进行下一组的填充、还原，直到处理完全部的合成视频帧。

在另一个实施例中，也可以将一组中的或全部的合成视频帧填充完成后再还原。本领域的普通技术人员可根据具体情况选择不同的流程。

步骤S5，将处理完的视频帧合并为视频，并和分离出来的音频合成为已修复视频，此时的已修复视频不再带有附加内容。

在前述步骤3对多个视频帧进行目标检测以获取附加内容信息时，可以采用计算量大、结果信息多的检测算法，例如可以检测出附加内容的形状、图案、颜色、类别、在视频帧中的具体位置等信息。在另一个实施例中，由于本发明最终需要对附加内容所在区域进行图像填充，因而，附加内容的图案、颜色等信息对于本实施例来说是无用信息，而附加内容的形状、在视频帧中的具体位置才是确定填充区域的可用信息，因而，在另一个实施例中，在步骤S3进行目标检测时，只需检测到附加内容的轮廓信息(如构成轮廓的像素值或/和位置数据)和附加内容在视频帧中的具体位置即可。在此基础上，为了纠正检测出现的偏差，得到准确的填充区域，本实施例设置了附加内容模板库，所述模板库存储了大量根据现有视频中已填加的附加内容制作的模版。在本发明中，为了与检测出的附加内容相区别，将模板中的附加内容称为标本，模板信息包括标本信息，标本的种类、图案、色彩、形状、标本在视频帧中的位置信息等，模板信息还包括标本所在视频帧的视频信息，如分辨率。通过对比检测出的附加内容信息及模板信息，可以纠正检测偏差。具体的检测过程如图6所示，包括以下步骤：

步骤S301，确定所述附加内容的类别。为了搜索模板库找到匹配的模板，在本步骤中，确定附加内容的类别。经确定的附加内容的类别与模板库中的类别相同。在一些实施例中，模板库中设置的类别为单级分类。在另一些实施例中，模板库采用多级分类。例如，首先是大类，如静态、动态两个大类；在每个大类下面包括多个小类；如在静态下面包括旁白、头饰、标记线、贴片图像等等，在动态下面包括：广告、动画、动图、视频等。

在一些实施例中，视频中可能包括多个相同或不同的附加内容，根据附加内容信息可以确定附加内容的类别。例如，可根据附加内容的轮廓信息，能够大致了解附加内容的形状。根据附加内容所在合成视频帧的时间信息和形状的变化可以确定附加内容是单个静态内容或多个连续附加内容构成了一个动态内容。再根据静态附加内容的形状或动态的多个附加内容形状的连续变化可初步确定附加内容的类别。具体的实施例参见图7所示：

步骤S700，取出第一个合成视频帧中的附加内容信息，将其作为第一对比对象I1。

步骤S701，取出其相邻的下一合成视频帧中的附加内容信息作为第二对比对象I2。

步骤S702，对比两个附加内容信息。例如计算二者的轮廓像素差值。

步骤S703，判断二者是否相同，即二者的轮廓像素差值是否小于阈值，如果二者的像素差值小于阈值，则说明二者相同，则在步骤S704，判断是否所有的附加内容都已比较完，如果还有附加内容都没有比较，则返回步骤S701。如果所有的附加内容都已经比较完，则在步骤S705确定所述合成视频中的附加内容为一个静态图像，并在步骤S706根据其轮廓信息获取所述附加内容类别，如文字、头饰或标记线。如果二个附加内容的像素差值大于或等于阈值，说明两个附加内容不同，则在步骤S707获取二者的差别。

步骤S708，判断是否所有的附加内容都已比较完，如果还有附加内容没有比较，则在步骤S709，将第二对比对象I2设为第一对比对象I1。然后返回步骤S701，重新取下一附加内容作为第二对比对象I2。如果所有附加内容都已经比较完，则在步骤S710，对比得到的两个附加内容之间的差别信息。

步骤S711，判断差别信息之间是否具有随时间的过渡关系，例如，相邻附加内容只在个别像素有差异，而且所述差异体现了一种动作或形状的过渡。如果有这种关系，则说明这些附加内容中的图像是连续变化的，则在步骤S712确定该附加内容为动态视频，并在步骤S713根据附加内容轮廓信息，确定附加内容的类别，如动态变化的文字、奔跑的动物等等。如果差别信息之间没有内容的过渡关系，则认为是孤立的不同的图像，则在步骤S714确定其分别为分立的静态图像，并在步骤S715根据其各自的轮廓信息获取所述附加内容类别。

如前所述，附加内容信息中可能已经包含了附加内容的类别。因此，步骤S301在某些实施例中不是必需的。然而，在一些实施例中，附加内容模板库的分类可能更为细致，层次也更多。这时，在步骤S301中可以进一步确定附加内容更为细致的分类，又或者包括复核附加内容信息中的类别。当然，在某些实施例中，附加内容信息中可能并不包含类别信息。这时，就需要在步骤S301中确定附加内容的类别。

步骤S302，根据所述附加内容的类别搜索附加内容模板库，以确定同类别的模板组。在一些实施例中，每个附加内容的分类包括多个模板组。例如，在文字分类下包括：字幕、弹幕、背景文字等；在字幕分类下还包括汉字、英文等多个模板组。再例如，头饰分类下还包括：动物、星星、彩虹等多个模板组。

步骤S303，从选定的模板组中选择一个模板。

步骤S304，判断所述附加内容所在合成视频帧的视频信息是否与模板的视频信息一致。例如，分辨率是否相同。如果一致，则执行步骤S305，如果不一致，说明该模板与附加内容不匹配，则转到步骤S310

步骤S305，比较附加内容轮廓与标本图像的轮廓。其中，所述的轮廓信息可以是像素值，可以是位置信息，即该点像素的(x,y)坐标值，也可以同时是该点的像素值及其坐标值。通过逐点比较，例如，按照从上到下，从左到右的顺序，分别取二者的像素值，计算二者的像素差值，或者是比较二者的x/y坐标值的差值。在一些实施例中，有必要将标本图像放大或者缩小预置比例，然后在与附加内容的图像进行比较，获得像素差值和/或坐标值差值。在一些实施例中，有必要对附加内容图像进行形状裁剪、角度矫正、颜色矫正等处理，然后在与标本图像进行比较，获得像素差值和/或坐标值差值。

步骤S306，判断附加内容轮廓与标本图像的轮廓的差异是否大于或等于阈值，例如，像素差值是否都大于或等于阈值，坐标差值是否都大于或等于阈值。如果所有像素的差值大于或等于阈值，或者像素差值大于或等于阈值的像素数量达到了预置的总占比，如10％、20％，则说明二者的图像不相同，该模板与附加内容不匹配，则转到步骤S310。如果所有像素的差值小于阈值，或者像素差值小于阈值的像素数量达到了预置的总占比，如80％、90％，可确定二者的图像相同，因而执行步骤S307。

步骤S307，计算附加内容与标本对应像素的在各自视频帧中的位置差值。同理，可按照从上到下，从左到右的顺序，分别取二者每一像素的位置坐标，计算二者的差值。在一些实施例中，由于已经在步骤S306中确定了二者图像相同，在此步骤中也可以只计算其中一个对应像素的位置差值，如左上角的第一个像素的位置差值。在一些实施例中，此步骤也可以计算多个对应像素的位置差值，以确定角度上的差异。

步骤S308，判断所述位置差值是否大于或等于阈值，如果二者的所述位置差值大于或等于阈值，说明二者所在视频帧中的位置不同，该模板与附加内容不匹配，则转到步骤S310。如果二者的所述位置差值小于阈值，说明二者所在视频帧中的位置相同，则执行下一步骤S309。

步骤S309，确定所述附加内容与所述模板相匹配。

步骤S310，判断是否还有可用的模板，如果有，重新选择模板继续匹配，直到该模板组中没有可用的模板，在步骤S311确定没有与所述附加内容相匹配的模板。

在一些实施例中，当确定没有与所述附加内容相匹配的模板时，保留步骤S3中检测出来的附加内容信息给后续的处理流程。在一些实施例中，还根据这些没有匹配到模板的附加内容，创建新的模板。例如，将附加内容信息作为新模板的标本信息，并将其所在合成视频帧的视频信息增加到新模板中，再将该新模板存入模板库中的相应类别下。

在一些实施例中，例如对于动画、动图等动态内容，需要将多个连续合成视频帧的附加内容信息与对应的动态模板中的每一帧中的标本信息进行一一匹配。如果涉及到的视频帧较多，可以只匹配其中的几帧。例如，可以从连续合成视频中间隔地选择多个合成视频帧，如每5帧选出一帧，而在模板组的模板中，也类似地每5帧选出一帧；然后再比较各个合成视频帧中的附加内容信息和对应的模板视频帧中的标本信息视频是否匹配，从而确定该模板是否与动态的附加内容信息相匹配。

本实施例利用模板矫正了前述目标检测算法可能出现的偏差，从而保证了附加内容及位置信息的准确性。

对于某些高分辨率视频，切分后的视频帧很大，在处理时会占用过多的资源，计算量也相对很大，导致修复效率较低。为了提高修复效率，在另一个实施例中，以图1所示的实施例，在步骤S2将分离后的视频切分为多个视频帧之后，从每一个视频帧中分割出一块或多个图像块作为待处理图像块。例如，将视频帧的右上角、或者视频帧中间部分从视频帧中分割出来作为待处理图像块。或者将一个视频帧平均分成割成若干个图像块，这些图像均作为待处理图像块。

在图1的步骤S3在逐帧检测视频帧时，逐帧、逐块地检测待处理图像块；将具有附加内容的图像块称为合成图像块；在步骤S41-S44中，处理的对象为合成图像块，对合成图像块中的填充区域进行填充得到已填充的图像块。

重复步骤S4直到处理完所有的合成图像块。由于本实施例将视频帧进行了分割，因此，需将已填充图像块回填入分割时的原合成视频帧，进行完视频帧的回填后，再合成视频和音频，从而得到已修复视频。

在另一个实施例中，为了更好地提高效率，在步骤S3检测之后将具有附加内容的区域从原合成视频帧中切分出来。例如，当检测到附加内容出现在了右上角的位置时，在该合成视频帧的右上角位置切出一个图像块，例如尺寸为360*360的图像块，该图像块中包括了附加内容及其背景。为了在步骤S4进行图像填充时具有足够的图像信息，还在其他原始视频帧的相同位置(如前述的右上角位置)中切分出相同尺寸(如360*360)的图像块。步骤S4中的编码、图像填充、还原等，均以图像块为操作对象，具体操作流程与图2相同，在此不再赘述。

本发明不需人工手动操作，在处理过程中运用深度学习方法，可以准确、快速地检测到附加内容信息并选取高匹配度的图像信息对填充区域进行填充，因而修复效果好，效率高。

系统实施例一

根据本发明的另一个方面，本发明提供了一种视频修复系统，如图8所示，所述视频修复系统包括分离模块1、切帧模块2、检测模块3、填充模块4和合成模块5。其中，分离模块1从给定的待修复视频中获取视频的基本信息，如分辨率、帧率、时长、总帧数等，并分离所述待修复视频的视频和音频。例如，通过OpenCV可获取视频的基本信息；使用FFmpeg可得到视频和音频内容，并以文件的形式保存到磁盘上。

所述切帧模块2与所述分离模块1相连接，将分离后的视频切分为多个视频帧。例如，利用OpenCV完成切帧，从而得到多个视频帧。

检测模块3与所述切帧模块2相连接，以逐帧检测切分后获得的多个视频帧，确定视频帧中的附加内容信息。其中检测模块3可采用深度学习目标检测算法，如R-CNN系算法(如R-CNN、Fast R-CNN、Faster R-CNN等)、Yolo(You Only Look Once:Unified,Real-TimeObject Detection)算法或SSD(Single Shot MultiBox Detector)算法等，可以快速准确地检测出视频帧中的附加内容及其位置。经过检测模块3，将所有的视频帧分为包括附加内容的合成视频帧和没有附加内容的原始视频帧。

填充模块4与所述检测模块3相连接，用以获取匹配图像信息填充所述合成视频帧中的填充区域。在一个实施例中，填充模块4利用深度学习方法实现匹配图像信息的获取及填充。具体地，在一个实施例中，所述填充模块4包括编码器41、填充单元42和解码器43，其中，编码器41的架构如图3所示。具有附加内容的合成视频帧和没有附加内容的原始视频帧输入给编码器41，经其编码处理后，针对每一视频帧得到两个特征图(feature map)，分别作为key和value输出给填充单元42。

其中，填充单元42为一个注意力机制模块，其与编码器41相连接，接收编码器41发送的每一视频帧编码后生成的key和value。注意力机制模块以其中的一个合成视频帧为本帧，从剩余帧中选取一些作为参考帧，如每10帧中选出一个帧作为参考帧。计算本帧key与所述参考帧key的内积，再对所述内积进行归一化处理，即得到了该参考帧的权重，其代表了参考帧与本帧的相似性。然后计算参考帧的value与其权重的内积，得到该参考帧的加权value。对该本帧的所有参考帧进行上述的处理得到参考帧的加权value。最后计算本帧value与所有参考帧的加权value的加权和。该加权和即为本帧的新value，此时完成对填充区域的填充。然后重新取下一个合成视频帧作为本帧，进行上述处理过程完成对该合成视频帧的填充，直至处理完所有的合成视频帧。

解码器43利用深度学习方法对具有新value的合成视频帧进行解码，以获取对填充区域填充了图像信息的视频帧。所述解码器43的一个实施例的架构图如图5所示，最终得到一个与原视频帧大小相同的视频帧。

合成模块5与所述填充模块4相连接，将已处理完的合成视频帧和原始视频帧合在一起形成视频，再与之前分离出来的音频合成新的视频，该视频则为已去掉附加内容的已修复视频。

系统实施例二

如图9所示，为另一视频修复系统的原理框图。在该实施例中，与图8中的实施例的不同在于，本实施例的检测模块3在根据目标检测算法得到附加内容信息后，还通过模板库中的模板对其进行矫正以期进一步提高获取的附加内容信息的精确度。具体地，检测模块3包括检测单元31、模板匹配单元32和附加信息确定单元33。其中，所述检测单元31采用深度学习目标检测算法检测视频帧中是否含有附加内容，获取附加内容的轮廓信息及其在视频帧的位置信息，并获得附加内容的类别。所述模板匹配单元32分别与所述检测单元31和模板库6相连接。根据附加内容的类别搜索模板库6，在模板库6中选择与附加内容相同或相近的类别，并进一步地，在所述类别下，选择与合成视频帧具有相同视频信息的模板组，此时会得到多个模板。在所述多个模板中，一一对比模板中的标本与合成视频帧中的附加内容，将二者一致的模板确定为与该附加内容相匹配的模板。在得到模板后，将其发送给所述附加信息确定单元33。所述附加信息确定单元33从所述模板中读取模板标本信息，将所述标本信息确定为合成视频帧中附加内容信息，如轮廓信息、在视频帧中的位置等。

本实施例中的模板库分类存储了大量已存在的附加内容模板，并建有索引以供检索，并且能够随时向模板库增加模板，并同时更新索引。

系统实施例三

如图10所示，为本发明另一实施例中的视频修复系统原理框图，如图8中所示实施例相比，本实施例包括了分组模块7，其与检测模块3相连接，经配置采用图像直方图对视频帧进行场景分割，根据场景将切分的多个视频帧分为多组。例如，以一个合成视频帧的附加内容的背景为场景，将与其背景相近的视频帧分为一组，从而可以将所有的视频帧分为多组，每一组视频帧中包括至少一个合成视频帧，其他视频帧的背景与所述合成视频帧的背景相同或相近。

所述填充模块4在对合成视频帧进行图像填充时，分组处理，便于获取相似背景的图像信息，通过信息的互补，既可以提升附加内容去除的效果，也提升了算法效率。

例如，编码器41取一组视频帧进行编码。填充单元42在运用注意力机制填充时，在一组视频帧中取一个合成视频帧作为本帧，该组中除本帧外的视频帧为参考帧，如果本组视频帧过多，则从除本帧外的视频帧平均选取多个作为参考帧，经过对比、计算得到该本帧新的Value。如果本组中还有未处理的合成视频帧，则从本组中取另一合成视频帧作为本帧进行计算，当该组的所有合成视频帧均已处理完成时，再取一下组的视频帧进行处理……，直到处理完所有视频帧组。

本实施例通过对视频帧按照合成视频帧中附加内容的背景进行分组，能够快速、有效地确定获取与附加内容的背景高匹配度的图像信息，提高了附加内容去除的效果。

系统实施例四

如图11所示，为本发明另一实施例中的视频修复系统原理框图。在本实施例中，所述系统还进一步包括切块模块8和图像回填模块9。所述切块模块8用以在检测模块3检测到合成视频帧后，从合成视频帧中切分出带有附加内容的合成图像块，并参考其位置，从其他没有附加内容的原始视频帧中的相同位置，切分出相同尺寸的原始图像块。

填充模块4在填充附加内容所占的填充区域时，以合成图像块作为本帧进行计算。填充模块4对所有合成图像块填充完后，图像回填模块9将已填充图像块回填入分割时的原合成视频帧，用以得到完整的已填充合成视频帧。合成模块5将完整的合成视频帧和前述检测后得到的没有附加内容的原始视频帧合在一起生成视频，与之前分离出来的音频合成新的视频，该新视频则为已去掉附加内容的已修复视频。

本实施例减少了图像填充时由于视频帧过大造成的大计算量，从另一个角度提高了视频的修复效率。

上述实施例仅供说明本发明之用，而并非是对本发明的限制，有关技术领域的普通技术人员，在不脱离本发明范围的情况下，还可以做出各种变化和变型，因此，所有等同的技术方案也应属于本发明公开的范畴。

Claims

1.一种视频修复方法，其中包括：

对所述视频进行切帧处理，得到多个视频帧；

对所述多个视频帧进行目标检测以获取附加内容信息；

将已填充完的视频帧和分离出来的音频合成为已修复视频；

在对所述多个视频帧进行目标检测以获取附加内容信息时，获得包含附加内容的合成视频帧和不包含附加内容的原始视频帧；以及从合成视频帧中切分出包含附加内容的合成图像块及从原始视频帧的对应位置切分出原始图像块；

根据附加内容的背景对合成图像块/合成视频帧及原始图像块/原始视频帧进行场景分组得到多组图像；其中，每组图像中至少包括一个包括附加内容的待修复图像，所述待修复图像为合成图像块或合成视频帧；

其中，获取匹配的图像信息，并以所述图像信息填充所述附加内容所在图像区域的步骤包括：对同组图像进行编码，将每一图像编码后得到的两个特征图分别作为所述图像的key和value；利用注意力机制，根据同组图像的key和value获得同组待修复视频图像的新value；以及，对具有新value的待修复视频图像进行解码，得到已填充视频图像。

2.根据权利要求1所述的视频修复方法，其中在进行目标检测时，采用深度学习目标检测算法检测视频帧中的附加内容信息。

3.根据权利要求1所述的视频修复方法，其中还进一步包括：

在获取到附加内容信息后，将检测到的附加内容信息与一个或多个模板进行匹配；以及

将与所述附加内容信息相匹配的模板的标本信息作为附加内容信息。

4.根据权利要求1所述的视频修复方法，其中，获得待修复视频图像的新value的步骤包括：

对比待修复视频图像的key和其参考图像的key，获得所述参考图像相对于待修复视频图像的权重a；其中，所述参考图像为同组中除了所述待修复视频图像之外的多个图像；

计算参考图像的value与其相对于待修复视频图像的权重a的内积以得到所述参考图像的加权value；

计算待修复视频图像的value与同组参考图像的加权value的和以确定待修复视频图像的新value。

5.根据权利要求4所述的视频修复方法，其中进一步包括：在同组图像中，从每N个图像中选取一个作为参考图像，其中，所述N≥5。

6.根据权利要求1所述的视频修复方法，其中，进一步包括：

将已填充合成图像块回填到原合成视频帧中得到已填充完的视频帧。

7.一种视频修复系统，其中，包括：

分离模块，经配置以分离待修复视频的视频和音频，其中，所述待修复视频中具有附加内容；

切帧模块，与所述分离模块相连接，经配置将分离后的视频切分为多个视频帧；

检测模块，与所述切帧模块相连接，经配置对所述多个视频帧进行目标检测，以得到附加内容信息；

填充模块，与所述检测模块相连接，经配置以获取匹配的图像信息，并以所述图像信息填充所述附加内容所在的图像区域；以及

合成模块，与所述填充模块相连接，经配置以将已填充完的视频帧和分离出来的音频合成为已修复视频；

其中所述检测模块在对所述多个视频帧进行目标检测以获取附加内容信息时，获得包含附加内容的合成视频帧和不包含附加内容的原始视频帧；所述系统进一步包括切块模块，与所述检测模块相连接，经配置以从合成视频帧中切分出包含附加内容的合成图像块及从原始视频帧的对应位置切分出原始图像块；

其中进一步包括分组模块，经配置以根据附加内容的背景对合成图像块/合成视频帧及原始图像块/原始视频帧进行场景分组得到多组图像；其中，每组图像中至少包括一个包括附加内容的待修复图像，所述待修复图像为合成图像块或合成视频帧；

其中，还进一步包括图像回填模块，经配置以将已填充合成图像块回填入原合成视频帧。

8.根据权利要求7所述的视频修复系统，其中，所述检测模块经进一步配置，采用深度学习目标检测算法检测视频帧中的附加内容信息。

9.根据权利要求7所述的视频修复系统，其中，所述检测模块经进一步配置包括：

检测单元，经配置以对视频帧进行目标检测，以获得附加内容信息；以及

模板匹配单元，与所述检测单元相连接，经配置以将检测到的附加内容信息与一个或多个模板进行匹配；以及

确定单元，经配置以将与所述附加内容信息相匹配的模板的标本信息作为附加内容信息。

10.根据权利要求9所述的视频修复系统，其中，还进一步包括模板库，用以存储多个附加内容模版。

11.根据权利要求7所述的视频修复系统，其中，所述填充模块经进一步配置包括：

编码器，经配置以对同组图像进行编码，将每一图像编码后得到的两个特征图分别作为所述图像的key和value；

填充单元，与所述编码器相连接，经配置以利用注意力机制，根据同组图像的key和value获得同组待修复视频图像的新value；以及

解码器，与所述填充单元相连接，经配置以对具有新value的待修复视频图像进行解码，得到已填充视频图像。