CN109472260A

CN109472260A - 一种基于深度神经网络的移除图像内台标和字幕的方法

Info

Publication number: CN109472260A
Application number: CN201811286931.7A
Authority: CN
Inventors: 王炜; 李�杰; 温序铭; 谢超平
Original assignee: Chengdu Sobey Digital Technology Co Ltd
Current assignee: Chengdu Sobey Digital Technology Co Ltd
Priority date: 2018-10-31
Filing date: 2018-10-31
Publication date: 2019-03-15
Anticipated expiration: 2038-10-31
Also published as: CN109472260B

Abstract

本发明公开了一种基于深度神经网络的移除图像内台标和字幕的方法，涉及图像修复技术领域，本发明包括如下步骤：S1、建立图像修复模型；S2、训练集图像预处理；S3、处理训练数据：将训练图像作为真实图像Pt；将训练图像中Mask1区域内的像素点RGB值置为0，作为训练图像P1；将训练图像中Mask2区域内的像素点RGB值置为0，作为训练图像P2；S4、训练图像修复模型，得到训练好的图像修复模型；S5、图像修复：将需要去除台标和字幕的图像或视频预处理后，输入训练好的图像修复模型中，将图像修复模型输出的图像与原图像结合，得到最终图像输出，本发明基于深度学习思想，实现自动、快速去除图像中的台标和字幕，处理过程清晰明确，修复实时性强，适用范围广。

Description

一种基于深度神经网络的移除图像内台标和字幕的方法

技术领域

本发明涉及图像修复技术领域，更具体的是涉及一种基于深度神经网络的移除图像内台标和字幕的方法。

背景技术

随着互联网和移动互联网的高速发展，网络上的图片、视频的总量和播放时长不断上升，在2017年仅仅是YouTube上的日视频播放总量就已经超过10亿小时。某些视频画面中存在台标和字幕，由于年代久远或其他种种原因无法得到原始视频画面，如何在现有视频画面中实时、快速地去除台标和字幕等区域，以降低台标或字幕对内容的不利干扰，使观众获得良好的视觉体验是当前亟待解决的问题。

现有的图像修复方法包括以下三种：

1、手工添加马赛克

通过视频编辑软件在台标和字幕区域直接添加马赛克以遮挡原有内容，这种方法虽然方式简单，但是视觉效果上受到了极大的影响，与原有初衷大相径庭，并不是一种合理的解决方法；

2、基于图像块的图像修复

这种方法通过收集待修复区域附近的小图像块来合成修复区域的纹理，这种方法的缺点也很明显：通过这种方式无法得到图像的整体语义，也就无法对修复区域进行语义层面的修复，因此修复复杂场景的能力较差，所需的计算量往往也很大；

3、基于数据库的图像修复

这种方法假定数据库中存在与待修复图像相似的内容，用视觉上足够相似的样本来估计当前图像中的待修补区域，当数据库内存在相似样本时图像修复的效果很好，但是当数据库中不存在相似样本时，修补结果可能就与真实情况大相径庭，极大地限制了可能的应用场景。

发明内容

本发明的目的在于：为了解决现有的图像修复方法修复影音图像中复杂场景的能力较差，所需计算量大，并且应用场景具有局限性的问题，本发明提供一种基于深度神经网络的移除图像内台标和字幕的方法，结合卷积神经网络和生成对抗网络的特性，构造图像修复模型，并对图像修复模型进行大量数据训练，然后将需要移除台标和字幕的视频帧带入图像修复模型进行计算，自动得到去除台标和字幕的图像帧，修复实时性强，适用范围广。

本发明为了实现上述目的具体采用以下技术方案：

一种基于深度神经网络的移除图像内台标和字幕的方法，包括如下步骤：

S1、建立图像修复模型：由类“U-net”网络和GAN组成图像修复模型，类“U-net”网络作为GAN的Generator；

S2、训练集图像预处理：将训练集中的图像裁剪或缩放至限定大小，得到训练图像，根据通常情况下台标和字幕所在区域，将训练图像在逻辑上划分为区域1、区域2和区域3，其中区域1为台标所在区域，区域2为字幕所在区域，并在区域1和区域2中分别生成对应的Mask1和Mask2；

S3、处理训练数据：将未经处理的训练图像作为真实图像Pt；将训练图像中Mask1区域内的像素点RGB值置为0，作为训练图像P1；将训练图像中Mask2区域内的像素点RGB值置为0，作为训练图像P2；

S4、训练图像修复模型：分别将训练图像P1和训练图像P2输入类“U-net”网络中进行计算，得到各自的输出图像Pout，分别将输出图像Pout和真实图像Pt划分为Mask区和不变区两部分，然后将输出图像Pout的Mask区与真实图像Pt的不变区组合为组合图像Pc；

将组合图像Pc和输出图像Pout的Mask区拼接起来作为GAN中的判别器的输入，基于真实图像Pt、输出图像Pout和组合图像Pc计算总偏差L，利用随机梯度下降法对图像修复模型的网络参数进行训练更新，直至判别器无法迭代、无法辨别图像真伪；

再从训练集中另外选取图像，重复执行S2至S4，得到训练好的图像修复模型；

S5、图像修复：将需要去除台标和字幕的图像或视频预处理后，输入训练好的图像修复模型中，将图像修复模型输出的图像与原图像结合，得到最终图像输出。

进一步的，所述S4中类“U-net”网络由卷积层和反卷积层构成，类“U-net”网络对训练图像P1和训练图像P2的处理流程包括下采样过程和上采样过程，所述下采样过程由步长为2的卷积核进行特征尺寸缩小，上采样过程由步长为1/2的卷积核进行特征尺寸放大。

进一步的，所述类“U-net”网络对训练图像P1和训练图像P2进行计算时，每一卷积和反卷积操作后都有一个ReLU激活函数。

进一步的，所述S4中的总偏差L由外部偏差L1、内部偏差L2、可感知偏差L3、风格偏差L4、内部间隔偏差L5和GAN判别式损失L6加权求和得到，

外部偏差L1为真实图像Pt的不变区像素点与输出图像Pout的不变区像素点差异；

内部偏差L2为真实图像Pt的Mask区像素点与输出图像Pout的Mask区像素点差异；

可感知偏差L3和风格偏差L4：将真实图像Pt、输出图像Pout和组合图像Pc输入提前训练好的用于计算偏差的VGGNet19模型，分别获取真实图像Pt、输出图像Pout和组合图像Pc在VGGNet19模型中conv3_4、conv4_4和conv5_4层后的高层特征图Pt(_3、_4、_5)、Pout(_3、_4、_5)和Pc(_3、_4、_5)共9张特征图，由上述9张特征图求得可感知偏差L3和风格偏差L4；

内部间隔偏差L5为输出图像Pout的Mask区像素矩阵中所有像素点与相应右邻点的差值以及与相应下邻点的差值的和；

GAN判别式损失L6：将输出图像Pout的Mask区缩放到与GAN网络结构适配的尺寸，并将缩放后的Mask区与组合图像Pc输入GAN中，训练GAN网络，GAN的损失即为判别式损失。

进一步的，所述可感知偏差L3和风格偏差L4的计算具体为：

可感知偏差L3：计算Pc(_3、_4、_5)和Pt(_3、_4、_5)对应下角标的差值，具体为Pc_3与Pt_3、Pc_4与Pt_4和Pc_5与Pt_5的差值，共三组；计算Pout(_3、_4、_5)和Pt(_3、_4、_5)对应下角标的差值，具体为Pout_3与Pt_3、Pout_4与Pt_4和Pout_5与Pt_5的差值，共三组，将上述六组差值相加便得到可感知偏差L3；

风格偏差L4：计算Pout(_3、_4、_5)和Pt(_3、_4、_5)的自协方差矩阵，并计算Pout(_3、_4、_5)和Pt(_3、_4、_5)对应下角标的自协方差矩阵差值，共三组；计算Pc(_3、_4、_5)和Pt(_3、_4、_5)的自协方差矩阵，并计算Pc(_3、_4、_5)和Pt(_3、_4、_5)对应下角标的自协方差矩阵差值，共三组，并将上述六组自协方差矩阵差值相加得到风格偏差L4。

进一步的，所述S5具体包括如下步骤：

S5.1、视频预处理：若需要去除台标和字幕的是视频，则解码视频内容，得到按帧分隔的视频图像；

S5.2、指定修补区域：人工或自动指定待处理图像或视频图像中的待修补区域，裁剪出待处理图像或视频图像中包含待修补区域的切片，裁剪出的切片大小与S2中的训练图像大小一致，并将待修补区域的像素点亮度值置为0，得到待修补切片；

S5.3、输入图像修复模型：将待修补切片输入训练好的图像修复模型中，得到修复分片；

S5.4、输出修复结果：将修复分片与S5.2中待处理图像或视频图像中切片外的图像结合，得到最终图像输出。

本发明的有益效果如下：

1、本发明基于深度学习思想，结合CNN中的类“U-net”网络和GAN等神经网络结构实现自动、快速去除图像中的台标和字幕，处理过程清晰明确，特征图经过激活层后，会变的更加稀疏，本发明计算可感知偏差L3和风格偏差L4时选择在VGGNet19的某些激活层前提取特征，因而可以获得更多的特征信息，能为计算可感知偏差L3和风格偏差L4时提供更多的信息，使得偏差计算更为准确，神经网络的拟合能力更强。

2、现有的深度卷积神经网络中，卷积层和激活层往往跟着BN层以加快网络学习速率，本发明在网络结构合理设计整体框架，在网络中去除了BN层，使得图像修复模型输出结果的视觉效果更真实；且由于设计了轻量级的网络结构，使得在实际的修复过程中消耗的时间更少，可以做到在720P幅面上做到每秒钟处理25帧图像。

3、本发明针对图像中台标和字幕的可能位置，合理规划了Mask区域在图像中的生成位置，使得图像修复模型针对台标和字幕的位置进行图像修复，使得用更少的训练样本即可达到较好的修复结果，训练针对性更强。

附图说明

图1是本发明的方法流程图。

图2是本发明对训练图像的划分示意图。

图3是本发明训练图像P1的示意图。

图4是本发明训练图像P2的示意图。

图5是本发明图像修复模型的网络结构示意图。

图6是本发明组合图像Pc的合成示意图。

图7是本发明裁剪切片的示意图。

图8是本发明由修补切片得到修复分片的示意图。

具体实施方式

为了本技术领域的人员更好的理解本发明，下面结合附图和以下实施例对本发明作进一步详细描述。

实施例1

如图1所示，本实施例提供一种基于深度神经网络的移除图像内台标和字幕的方法，包括如下步骤：

S2、训练集图像预处理：将训练集中的图像裁剪或缩放至限定大小，得到训练图像，本实施例中，限定训练图像长宽为512*512mm，根据通常情况下台标和字幕所在区域，将训练图像在逻辑上划分为如图2所示的区域1、区域2和区域3，其中区域1为常规情况下台标所在区域，区域2为常规情况下字幕所在区域，并在区域1和区域2中分别生成对应的Mask1和Mask2，设所述Mask1的大小范围K*K，Mask2的大小范围L*L；

S3、处理训练数据：将训练图像作为真实图像Pt；如图3所示，将训练图像中Mask1区域内的像素点RGB值置为0，作为训练图像P1；如图4所示，将训练图像中Mask2区域内的像素点RGB值置为0，作为训练图像P2；

S4、训练图像修复模型：如图5所示，分别将训练图像P1和训练图像P2输入类“U-net”网络中进行计算，得到各自的输出图像Pout，如图6所示，分别将输出图像Pout和真实图像Pt划分为Mask区和不变区两部分，然后将输出图像Pout的Mask区与真实图像Pt的不变区组合为组合图像Pc；

将组合图像Pc和输出图像Pout的Mask区作为GAN中的判别器的输入，基于真实图像Pt、输出图像Pout和组合图像Pc计算总偏差L，利用随机梯度下降法对图像修复模型的网络参数进行训练更新，直至判别器无法迭代、无法辨别图像真伪；

所述S4中的总偏差L由外部偏差L1、内部偏差L2、可感知偏差L3、风格偏差L4、内部间隔偏差L5和GAN判别式损失L6加权求和得到，权重按照实际情况设定，

风格偏差L4：计算Pout(_3、_4、_5)和Pt(_3、_4、_5)的自协方差矩阵，并计算Pout(_3、_4、_5)和Pt(_3、_4、_5)对应下角标的自协方差矩阵差值，共三组；计算Pc(_3、_4、_5)和Pt(_3、_4、_5)的自协方差矩阵，并计算Pc(_3、_4、_5)和Pt(_3、_4、_5)对应下角标的自协方差矩阵差值，共三组，并将上述六组自协方差矩阵差值相加得到风格偏差L4；

GAN判别式损失L6：将输出图像Pout的Mask区缩放到合适尺寸，此处的合适尺寸根据实际情况进行选择，例如可取64*64，它与GAN网络结构相关，使得最终特征层大小为1*1，并将缩放后的Mask区与组合图像Pc输入GAN中，训练GAN网络，GAN的判别式损失；

再从训练集中另外选取图像，重复执行S2至S4，修补画面效果与训练集中的图像丰富性正相关，得到训练好的图像修复模型；

S5、图像修复：将需要去除台标和字幕的图像或视频预处理后，输入训练好的图像修复模型中，将图像修复模型输出的图像与原图像结合，得到最终图像输出，具体包括如下步骤：

S5.2、指定修补区域：人工或自动指定待处理图像或视频图像中的待修补区域，如图7所示，裁剪出待处理图像或视频图像中包含待修补区域的切片，裁剪出的切片大小与S2中的训练图像大小一致，并将待修补区域的像素点亮度值置为0，得到待修补切片；

S5.3、输入图像修复模型：如图8所示，将待修补切片输入训练好的图像修复模型中，得到修复分片；

实施例2

本实施例在实施例的基础之上进一步优化，具体是：

所述S4中类“U-net”网络由卷积层和反卷积层构成，类“U-net”网络对训练图像P1和训练图像P2的处理流程包括下采样过程和上采样过程，所述下采样过程由步长为2的卷积核进行特征尺寸缩小，上采样过程由步长为1/2的卷积核进行特征尺寸放大；所述类“U-net”网络对训练图像P1和训练图像P2进行计算时，每一卷积和反卷积操作后都有一个ReLU激活函数。

以上所述，仅为本发明的较佳实施例，并不用以限制本发明，本发明的专利保护范围以权利要求书为准，凡是运用本发明的说明书及附图内容所作的等同结构变化，同理均应包含在本发明的保护范围内。

Claims

1.一种基于深度神经网络的移除图像内台标和字幕的方法，其特征在于，包括如下步骤：

S2、训练集图像预处理：将训练集中的图像裁剪或缩放至限定大小，得到训练图像，根据通常情况下台标和字幕所在区域，将训练图像划分为区域1、区域2和区域3，其中区域1为台标所在区域，区域2为字幕所在区域，并在区域1和区域2中分别对应生成Mask1和Mask2；

将组合图像Pc和输出图像Pout的Mask区拼接起来作为GAN中的判别器的输入，基于真实图像Pt、输出图像Pout和组合图像Pc计算总偏差L，利用随机梯度下降法对图像修复模型的网络参数进行训练更新，直至判别器无法迭代；

2.根据权利要求1所述的一种基于深度神经网络的移除图像内台标和字幕的方法，其特征在于，所述S4中类“U-net”网络由卷积层和反卷积层构成，类“U-net”网络对训练图像P1和训练图像P2的处理流程包括下采样过程和上采样过程，所述下采样过程由步长为2的卷积核进行特征尺寸缩小，上采样过程由步长为1/2的卷积核进行特征尺寸放大。

3.根据权利要求2所述的一种基于深度神经网络的移除图像内台标和字幕的方法，其特征在于，所述类“U-net”网络对训练图像P1和训练图像P2进行计算时，每一卷积和反卷积操作后都有一个ReLU激活函数。

4.根据权利要求1所述的一种基于深度神经网络的移除图像内台标和字幕的方法，其特征在于，所述S4中的总偏差L由外部偏差L1、内部偏差L2、可感知偏差L3、风格偏差L4、内部间隔偏差L5和GAN判别式损失L6加权求和得到，

GAN判别式损失L6：将输出图像Pout的Mask区缩放到与GAN网络适配的尺寸，并将缩放后的Mask区与组合图像Pc输入GAN中，训练GAN网络，GAN的损失即为判别式损失。

5.根据权利要求4所述的一种基于深度神经网络的移除图像内台标和字幕的方法，其特征在于，所述可感知偏差L3和风格偏差L4的计算具体为：

可感知偏差L3：计算Pc(_3、_4、_5)和Pt(_3、_4、_5)对应下角标的三组差值，计算Pout(_3、_4、_5)和Pt(_3、_4、_5)对应下角标的三组差值，将六组差值相加便得到可感知偏差L3；

风格偏差L4：计算Pout(_3、_4、_5)和Pt(_3、_4、_5)的自协方差矩阵，并计算Pout(_3、_4、_5)和Pt(_3、_4、_5)对应下角标的三组自协方差矩阵差值；计算Pc(_3、_4、_5)和Pt(_3、_4、_5)的自协方差矩阵，并计算Pc(_3、_4、_5)和Pt(_3、_4、_5)对应下角标的三组自协方差矩阵差值，将六组自协方差矩阵差值相加便得到风格偏差L4。

6.根据权利要求1所述的一种基于深度神经网络的移除图像内台标和字幕的方法，其特征在于，所述S5具体包括如下步骤：