CN110660033A

CN110660033A - 一种字幕的去除方法、装置及电子设备

Info

Publication number: CN110660033A
Application number: CN201910909587.0A
Authority: CN
Inventors: 何晶
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2019-09-25
Filing date: 2019-09-25
Publication date: 2020-01-07
Anticipated expiration: 2039-09-25
Also published as: CN110660033B

Abstract

本发明实施例提供了一种字幕的去除方法、装置及电子设备，所述方法包括：获取包含字幕区域的待处理图像；检测所述待处理图像中的字幕区域；对所述待处理图像中所检测到的字幕区域进行初始修复处理，得到初始修复后的图像；所述初始修复处理为将所述字幕区域的像素点的值调整为预定值的处理；利用预先训练得到的神经网络模型，将所述初始修复后的图像中的字幕区域修复为不包括字幕的画面区域，得到所述初始修复后的图像对应的修复图像；基于所述修复图像，确定所述待处理图像对应的不包括字幕的图像。本发明实施例可以减弱字幕所在区域的边缘痕迹，提高视觉效果。

Description

一种字幕的去除方法、装置及电子设备

技术领域

本发明涉及视频处理技术领域，特别是涉及一种字幕的去除方法、装置及电子设备。

背景技术

在观看视频时，不同用户对视频中字幕的需求不同，比如，一些用户需要观看中文字幕，另一些用户需要观看英文字幕，或者，一些训练听力的用户不需要观看字幕。基于此，需要将视频图像中的字幕去除，进而，后续可以在视频图像中添加用户需要的字幕。

现有技术中，字幕去除方法为采用毛玻璃遮挡方式的方法，具体为：在字幕所在区域添加一个与字幕尺寸相同的色条，并在该色条打上马赛克，调整透明度，这样便达到了去除字幕的效果。

然而，现有技术中的字幕去除方法会使得字幕所在区域有明显的边缘痕迹，视觉效果较差。

发明内容

本发明实施例的目的在于提供一种字幕的去除方法、装置及电子设备，以减弱字幕所在区域的边缘痕迹，提高视觉效果。具体技术方案如下：

第一方面，本发明实施例提供了一种字幕的去除方法，所述方法包括：

获取包含字幕区域的待处理图像；

检测所述待处理图像中的字幕区域；

对所述待处理图像中所检测到的字幕区域进行初始修复处理，得到初始修复后的图像；所述初始修复处理为将所述字幕区域的像素点的值调整为预定值的处理；

利用预先训练得到的神经网络模型，将所述初始修复后的图像中的字幕区域修复为不包括字幕的画面区域，得到所述初始修复后的图像对应的修复图像；

基于所述修复图像，确定所述待处理图像对应的不包括字幕的图像；

其中，所述神经网络模型是利用初始修复后的样本图像和真值图像训练得到的，所述初始修复后的样本图像为对包含字幕的样本图像进行所述初始修复处理后的图像，所述真值图像为所述样本图像对应的不包含字幕的图像。

可选地，所述神经网络模型包括顺次连接的第一神经网络、第二神经网络和第三神经网络；其中，所述第二神经网络为应用局部注意力机制的神经网络；

所述第一神经网络，用于对由初始修复后的样本图像的向量和样本蒙版图像的向量构成的拼接向量，进行卷积处理，得到所述初始修复后的样本图像对应的第一样本修复图像；其中，所述样本蒙版图像为所述初始修复后的样本图像的字幕蒙版图；

所述第二神经网络，用于利用样本中间图中字幕区域像素点与非字幕区域像素点之间的相似度，以及所述初始修复后的样本图像，对所述第一样本修复图像进行图像修复处理，得到第二样本修复图像；其中，所述样本中间图为所述第一神经网络的中间层输出的、与所述第一样本修复图像对应的特征图；

所述第三神经网络，用于对由所述第二样本修复图像的向量和所述样本蒙版图像的向量构成的拼接向量，进行卷积处理，得到所述初始修复后的样本图像对应的修复图像，其中，所述第三神经网络的卷积层的数量多于所述第一神经网络的卷积层的数量。

可选地，所述第二神经网络，具体用于针对所述样本中间图中字幕区域的每一像素点，分别计算包含该像素点的预设大小的区域，与n个参考区域的相似度，作为该像素点对应的n个相似度；其中，所述n个参考区域为对所述样本中间图中非字幕区域划分得到的n个所述预设大小的区域；

针对所述第一样本修复图像中字幕区域的每一像素点，基于所述样本中间图中字幕区域的各个像素点对应的n个相似度，以及所述样本中间图与所述第一样本修复图像的对应关系，确定该像素点对应的n个相似度，并利用该像素点对应的n个相似度，对所述初始修复后的样本图像中非字幕区域的n个子区域的像素平均值进行加权求和，得到该像素点对应的像素修正值，计算该像素点的像素值和对应的像素修正值的和值，将该像素点的像素值调整为所述和值；

在所述第一样本修复图像中字幕区域的每一像素点均调整像素值后，得到第二样本修复图像；

其中，每一子区域与所述n个参考区域中的一个参考区域具有唯一对应性，且每一子区域的像素平均值所对应的权重为：该像素点的n个相似度中，基于该子区域所对应参考区域所计算得到的相似度。

可选地，所述神经网络模型，采用如下步骤训练获得：

步骤1，获取包含字幕的样本图像和所述样本图像对应的不包含字幕的真值图像；

步骤2，对所述样本图像进行所述初始修复处理，得到初始修复后的样本图像；

步骤3，将所述初始修复后的样本图像的向量，以及所述样本蒙版图像的向量输入至所述神经网络模型，以使所述神经网络模型中的第一神经网络对所述初始修复后的样本图像的向量和所述样本蒙版图像的向量构成的拼接向量，进行卷积处理，得到所述初始修复后的样本图像对应的第一样本修复图像，并将所述第一样本修复图像、所述初始修复后的样本图像和所述样本中间图输入至所述第二神经网络，使得所述第二神经网络利用所述样本中间图中字幕区域像素点与非字幕区域像素点之间的相似度以及所述初始修复后的样本图像，对所述第一样本修复图像进行图像修复处理，得到第二样本修复图像，并将所述第二样本修复图像输入至所述第三神经网络，并使得所述第三神经网络对所述第二样本修复图像的向量和所述样本蒙版图像的向量构成的拼接向量，进行卷积处理，得到所述初始修复后的样本图像对应的修复图像；

步骤4，将所述初始修复后的样本图像对应的修复图像中的字幕区域与所述初始修复后的样本图像中的非字幕区域进行拼接，得到所述样本图像对应的预测图像；

步骤5，基于所述预测图像与所述真值图像的差异，以及所述第一样本修复图像与所述真值图像的差异，计算综合损失值；

步骤6，基于所述综合损失值，判断所述神经网络模型是否收敛；如果收敛，结束训练，得到训练完成的神经网络模型；否则，调整所述神经网络模型中的第一神经网络、第二神经网络和第三神经网络的网络参数，继续下一次训练。

可选地，所述基于所述修复图像，得到所述待处理图像对应的不包括字幕的图像，包括：

将所述修复图像中的字幕区域，与所述初始修复后的图像或所述待处理图像中的非字幕区域进行拼接，得到所述待处理图像对应的不包括字幕的图像。

第二方面，本发明实施例提供了一种字幕的去除装置，所述装置包括：

获取模块，用于获取包含字幕区域的待处理图像；

检测模块，用于检测所述待处理图像中的字幕区域；

第一修复模块，用于对所述待处理图像中所检测到的字幕区域进行初始修复处理，得到初始修复后的图像；所述初始修复处理为将所述字幕区域的像素点的值调整为预定值的处理；

第二修复模块，用于利用预先训练得到的神经网络模型，将所述初始修复后的图像中的字幕区域修复为不包括字幕的画面区域，得到所述初始修复后的图像对应的修复图像；

处理模块，用于基于所述修复图像，确定所述待处理图像对应的不包括字幕的图像；

可选地，所述神经网络模型，采用如下步骤训练获得：

可选地，所述处理模块，具体用于将所述修复图像中的字幕区域，与所述初始修复后的图像或所述待处理图像中的非字幕区域进行拼接，得到所述待处理图像对应的不包括字幕的图像。

第三方面，本发明实施例提供了一种电子设备，所述设备包括：处理器、通信接口、存储器和通信总线，其中，所述处理器，所述通信接口，所述存储器通过所述通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现如上第一方面所述的字幕的去除方法步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现如上第一方面所述的字幕的去除方法步骤。

本发明实施例提供的方案，预先利用初始修复后的样本图像和样本图像对应的不包含字幕的真值图像训练神经网络模型。进而，在对包含字幕的待处理图像进行字幕去除时，先获取包含字幕区域的待处理图像，并检测待处理图像中的字幕区域；再对待处理图像中所检测到的字幕区域进行初始修复处理，得到初始修复后的图像；初始修复处理为将字幕区域的像素点的像素值调整为相同值的处理；然后，利用预先训练得到的神经网络模型，将初始修复后的图像中的字幕区域修复为不包括字幕的画面区域，得到初始修复后的图像对应的修复图像；最后，基于修复图像，确定待处理图像对应的不包括字幕的图像。本发明实施例中，由于利用字幕区域内像素点的像素值为相同的样本图像和对应的不包含字幕的真值图像，训练得到神经网络模型，因而，将初始修复后的图像输入该神经网络模型后，该神经网络模型输出的修复图像中的字幕区域更接近于待处理图像对应的不包含字幕的真实图像中的字幕区域，进而，基于修复图像确定的图像整体上也更接近于待处理图像对应的不包含字幕的真实图像。所以，相比于现有技术中采用毛玻璃遮挡去除字幕的方式，可以减弱字幕所在区域的边缘痕迹，提高视觉效果。

当然，实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种字幕的去除方法的流程图；

图2为本发明实施例中训练神经网络模型的流程图；

图3为本发明实施例中神经网络模型的字幕去除示意图；

图4为本发明实施例提供的一种字幕的去除装置的流程图；

图5为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

为了解决现有技术问题，本发明实施例提供了一种字幕的去除方法、装置及电子设备。

需要说明的是，本发明实施例提供的一种字幕的去除方法可以应用于电子设备中。在具体应用中，该电子设备可以是各种终端设备，也可以是服务器，本发明对此并不限定。

如图1所示，本发明实施例提供的一种字幕的去除方法，可以包括如下步骤：

S101，获取包含字幕区域的待处理图像。

其中，待处理图像为：待去除字幕的图像。这里的去除字幕是指：将待处理图像中的字幕区域修复为不包括字幕的画面区域，也就是说，对待处理图像进行字幕去除后，字幕区域与非字幕区域构成连贯的画面区域。

待处理图像中的字幕区域可以位于待处理图像中的任一位置。字幕区域中的字幕可以为各种文字类型，例如，字幕可以为中文字幕，也可以为英文字幕。且字幕中也可以包括数字、符号等。

另外，本实施例中，对待处理图像的色彩模式和分辨率等显示参数也没有限制。例如，待处理图像的色彩模式可以为位图模式、灰度模式或RGB(Red,Green,Blue，红绿蓝)模式等。例如，待处理图像的分辨率可以为256×256、1024×768等。

S102，检测待处理图像中的字幕区域。

获取待处理图像后，可以检测待处理图像中的字幕区域，对该字幕区域进行修复。

本实施例中，字幕区域可以为矩形区域，那么，检测待处理图像中的字幕区域，可以是：检测字幕区域的坐标，即检测矩形区域的坐标，该坐标可以表示为(x,y,w,h)，其中，x和y分别为矩形区域左上角点的横坐标和纵坐标，w和h分别为矩形区域的宽度和高度。当然，字幕区域的坐标也可以采用其他方式来表示，本发明对此并不限定。

本实施例中，可以采用现有的任一种检测方法，来检测待处理图像中的字幕区域，本发明对此并不限定。

S103，对待处理图像中所检测到的字幕区域进行初始修复处理，得到初始修复后的图像；初始修复处理为将字幕区域的像素点的值调整为预定值的处理。

本实施例中，基于图像修复的思想，对待处理图像中的字幕区域进行修复。在修复的过程中，可以先对该字幕区域进行初始修复处理，然后，对初始修复后的图像进行再次修复。

一种方式中，所谓的初始修复处理可以为：将字幕区域的像素点的像素值中的色度值调整为相同值，也就是说，将整个字幕区域填充为某种颜色另一种方式中，所述的初始修复处理还可以为：将字幕区域的像素点的透明度调整为100％。而所谓的再次修复为：对字幕区域中各像素点的像素值再次进行调整，使得再次调整后的字幕区域与非字幕区域构成连贯的画面区域。

在进行初始修复处理时，可以确定一预设值，将字幕区域的像素点的像素值调整为该预设值。该预设值可以根据需要进行设定，例如，该预定值为：255，即将整个字幕区域填充为白色。又例如，该预定值为：0，即将整个字幕区域填充为黑色。

S104，利用预先训练得到的神经网络模型，将初始修复后的图像中的字幕区域修复为不包括字幕的画面区域，得到初始修复后的图像对应的修复图像。

其中，神经网络模型是利用初始修复后的样本图像和真值图像训练得到的，初始修复后的样本图像为对包含字幕的样本图像进行初始修复处理后的图像，真值图像为样本图像对应的不包含字幕的图像。

本实施例中，为了将初始修复后的图像中的字幕区域修复为不包括字幕的画面区域，可以预先利用初始修复后的样本图像和真值图像训练神经网络模型。进而，在训练好神经网络模型后，可以将初始修复后的图像输入训练好的神经网络模型，使得训练好的神经网络模型对初始修复后的图像中的字幕区域进行修复，修复为不包括字幕的画面区域，从而得到初始修复后的图像对应的修复图像。

为了布局清晰，将在下文中介绍神经网络模型的结构和作用，以及该神经网络模型的训练过程。

S105，基于修复图像，确定待处理图像对应的不包括字幕的图像。

在得到神经网络模型输出的初始修复后的图像对应的修复图像后，可以基于该修复图像，确定待处理图像对应的不包括字幕的图像。

以下给出几种基于修复图像，确定待处理图像对应的不包括字幕的图像的方式：

第一种：将修复图像中的字幕区域与初始修复后的图像或待处理图像中的非字幕区域进行拼接，得到待处理图像对应的不包括字幕的图像。

利用预先训练的神经网络模型对初始修复后的图像进行修复的过程中，将初始修复后的图像中的字幕区域修复为不包含字幕的画面区域。由于在具体的修复过程中，是针对整幅图像进行卷积运算，在运算过程中非字幕区域的像素信息会发生变化，因而，在得到初始修复后的图像对应的修复图像后，可以该修复图像中的字幕区域与初始修复后的图像或待处理图像中的非字幕区域进行拼接，将拼接后的图像作为待处理图像对应的不包括字幕的图像。这样，该不包括字幕的图像与待处理图像对应的不包含字幕的真实图像较为接近。

具体的拼接方式，可以采用现有的任一拼接方式，本发明对此并不限定。

第二种方式，将修复图像作为待处理图像对应的不包括字幕的图像。

虽然神经网络模型输出的修复图像中的非字幕区域，相对于初始修复后的图像中的非字幕区域来说，像素信息会发生变化，但这两个非字幕区域的仍然比较接近，因而，可以直接将修复图像作为待处理图像对应的不包括字幕的图像，这样，该不包括字幕的图像与待处理图像对应的不包含字幕的真实图像也是较为接近的。

第三种方式，将修复图像中的非字幕区域与初始修复后的图像或待处理图像中的非字幕区域的对应像素点的像素值进行加权求和，得到待拼接非字幕区域；将待拼接字幕区域与修复图像中的字幕区域进行拼接，得到待处理图像对应的不包括字幕的图像。

其中，加权求和时的加权系数可根据经验或实际需要来确定。例如，设定修复图像中的非字幕区域的加权系数为0.5，初始修复后的图像或待处理图像中的非字幕区域为0.5。将这两个非字幕区域进行加权求和，保留了各自的像素信息，因而，将待拼接字幕区域与修复图像中的字幕区域拼接得到的待处理图像对应的不包括字幕的图像，与待处理图像对应的不包含字幕的真实图像也是较为接近的。

下面对图1实施例中的神经网络模型进行介绍。

可选地，图1实施例中的神经网络模型可以包括顺次连接的第一神经网络、第二神经网络和第三神经网络；其中，第二神经网络可以为应用局部注意力机制的神经网络。每一神经网络的作用具体为：

第一神经网络，用于对由初始修复后的样本图像的向量和样本蒙版图像的向量构成的拼接向量，进行卷积处理，得到初始修复后的样本图像对应的第一样本修复图像；其中，样本蒙版图像为初始修复后的样本图像的字幕蒙版图；

第二神经网络，用于利用样本中间图中字幕区域像素点与非字幕区域像素点之间的相似度，以及初始修复后的样本图像，对第一样本修复图像进行图像修复处理，得到第二样本修复图像；其中，样本中间图为第一神经网络的中间层输出的、与第一样本修复图像对应的特征图；

第三神经网络，用于对由第二样本修复图像的向量和样本蒙版图像的向量构成的拼接向量，进行卷积处理，得到初始修复后的样本图像对应的修复图像，其中，第三神经网络的卷积层的数量多于第一神经网络的卷积层的数量。

一种方式中，上述第一神经网络、第二神经网络和第三神经网络的结构均为全卷积神经网络。另一方式中，上述第一神经网络的结构为空洞卷积神经网络，第二神经网络和第三神经网络的结构均为全卷积神经网络。

本实施例中，可以通过顺次连接的第一神经网络、第二神经网络和第三神经网络对初始修复后的样本图像中的字幕区域进行修复。具体的，

通过第一神经网络对初始修复后的样本图像的向量和样本蒙版图像的向量构成的拼接向量，进行卷积处理，得到初始修复后的样本图像对应的第一样本修复图像。在这一卷积处理的过程中，没有较好地利用初始修复后的样本图像中非字幕区域的像素信息，对初始修复后的样本图像中的字幕区域进行修复，因而第一神经网络所进行的卷积处理可以理解为：对初始修复后的样本图像进行粗略修复。在本实施例中，将初始修复后的样本图像表示为X_train，将样本蒙版图像表示为Mask。在第一神经网络进行卷积运算之前，根据X_train中字幕区域的坐标，生成与X_train大小相同的样本蒙版图像，即Mask；将该Mask中字幕区域的像素点的像素值设置为255，非字幕区域的像素点的像素值设置为0，即将Mask中字幕区域设置为白色，将Mask中非字幕区域设置为黑色；然后，将X_train的向量与Mask的向量组成拼接向量X₁，X₁＝[W,H,N]，其中，W表示X_train的宽度，H表示X_train的高度，N表示X_train的通道数和Mask的通道数之和；最后，将拼接向量X₁输入第一神经网络。第一神经网络对输入的拼接向量X₁进行卷积运算，得到X_train对应的第一样本修复图像Y，其中，Y的大小和X_train的大小相同。

在第一神经网络输出第一样本修复图像Y之后，进一步地，可以通过第二神经网络，对第一样本修复图像Y进行图像修复处理，得到第二样本修复图像Y¹。第二神经网络为应用局部注意力机制的神经网络，这里的局部注意力机制，具体是指：在图像修复处理的过程中，利用了初始修复后的样本图像X_train中非字幕区域的像素信息，以及上述样本中间图中字幕区域像素点与非字幕区域像素点之间的相似度，对第一样本修复图像Y中的字幕区域进行修复。

在第二神经网络输出第二样本修复图像Y¹之后，进一步地，可以通过第三神经网络，对第二样本修复图像Y¹的向量和样本蒙版图像的向量构成的拼接向量，进行卷积处理，得到第三样本修复图像Y²。本实施例中，从结构上来说，第三神经网络的卷积层相比于第一神经网络的卷积层更多，而且，第三神经网络在第一神经网络和第二神经网络的基础上对第二样本修复图像Y¹进行进一步修复，因而第三神经网络所进行的卷积处理可以理解为：对第二样本修复图像Y¹进行精细修复。在第三神经网络进行卷积运算之前，先将Y¹的向量与Mask的向量组成拼接向量X₂，拼接向量X₂的形式与上述X相似；然后，将拼接向量X₂输入第三神经网络。第三神经网络对输入的拼接向量X₂进行卷积运算，得到初始修复后的样本图像对应的修复图像Y²，其中，Y²的大小和X_train的大小相同。

下面分别对第一神经网络、第二神经网络和第三神经网络进行详细介绍。

针对第一神经网络而言：

当将拼接向量X₁输入第一神经网络后，第一神经网络通过确定Mask中的白色区域来确定X_train中的字幕区域，从而对X_train中的字幕区域进行粗略修复。另外，示例性的，如果X_train的色彩模式为RGB模式，则拼接向量X₁中的N＝4，其中，第1～3通道分别表示X_train的R通道、G通道和B通道，第4通道为上述Mask。

针对第二神经网络而言：

可选地，在一种实现方式中，上述的第二神经网络利用样本中间图中字幕区域像素点与非字幕区域像素点之间的相似度，以及初始修复后的样本图像，对第一样本修复图像进行第二修复处理，得到第二样本修复图像的具体过程，可以包括以下步骤1-3：

步骤1，针对样本中间图中字幕区域的每一像素点，分别计算包含该像素点的预设大小的区域，与n个参考区域的相似度，作为该像素点对应的n个相似度；其中，n个参考区域为对样本中间图中非字幕区域划分得到的n个预设大小的区域。

在本实现方式中，可以先计算样本中间图中字幕区域的各个像素点对应的n个相似度，然后，基于所计算的相似度以及初始修复后的样本图像X_train中非字幕区域的像素信息，确定第一样本修复图像Y中字幕区域的各个像素点对应的像素修正值，最后，基于所确定的像素修正值，对第一样本修复图像Y中字幕区域的各个像素点的像素值进行调整。

其中，将样本中间图表示为F。该样本中间图F为第一神经网络的中间层输出的、与第一样本修复图像Y对应的特征图。示例性的，该样本中间图F为第一神经网络输出第一样本修复图像Y之前，最后一次卷积运算得到的特征图。本实施例中，特征图的大小小于第一样本修复图像Y的大小，且第一样本修复图像Y的大小是特征图的大小的2的m次方倍，m为正整数。例如，第一样本修复图像Y的大小为256×256，特征图的大小为32×32，第一样本修复图像Y的大小是特征图的大小的8倍。

具体在计算上述相似度时，可以针对样本中间图F中字幕区域的每一像素点，先确定包含该像素点的预设大小的区域，例如，预设大小为3×3，该像素点为该区域的中心点，即确定以该像素点为中心的3×3的区域，如果该区域中包含有非字幕区域的像素点，那么，该非字幕区域的像素点的像素值可以设定为0，即不参与计算相似度。并且，对样本中间图F中的非字幕区域进行划分，得到n个预设大小的参考区域。其中，n个参考区域可以各不相同，也可以存在重叠。例如，特征图的大小为32×32，其中，前9行为非字幕区域，那么，将左上角的3×3的区域作为第1个参考区域，将与第1个参考区域右侧相邻但不重叠的第二个3×3的区域作为第2个参考区域，以此类推，前3行划分出10个不重叠的参考区域，整个非字幕区域划分出30个不重叠的参考区域。又例如，特征图的大小为32×32，其中，前9行为非字幕区域，那么，将左上角的3×3的区域作为第1个参考区域，设定每两个相邻的参考区域重叠一行或一列，那么，将以坐标为(2，4)的像素点为中心的3×3的区域作为第2个参考区域，以此类推，前3行划分出15个重叠的参考区域，整个非字幕区域划分出60个重叠的参考区域。需要说明的是，在本实施例中，参考区域的数量n可以根据实际需要或经验进行设定，也就是说，可以根据实际需要或经验对非字幕区域划分得到的n个预设大小的参考区域。

在确定了包含该像素点的预设大小的区域，并且对样本中间图F中的非字幕区域进行划分，得到n个预设大小的参考区域之后，可以分别计算包含该像素点的预设大小的区域，与n个参考区域的相似度，作为该像素点对应的n个相似度。具体的，分别将包含该像素点的预设大小的区域与n个参考区域进行卷积运算，该卷积运算为：将对应像素点的像素值相乘，然后相加，从而得到n个值，将该n个值作为该像素点对应的n个相似度。也就是，基于每个参考区域，可以计算得到一个相似度。

步骤2，针对第一样本修复图像中字幕区域的每一像素点，基于样本中间图中字幕区域的各个像素点对应的n个相似度，以及样本中间图与第一样本修复图像的对应关系，确定该像素点对应的n个相似度，并利用该像素点对应的n个相似度，对初始修复后的样本图像中非字幕区域的n个子区域的像素平均值进行加权求和，得到该像素点对应的像素修正值，计算该像素点的像素值和对应的像素修正值的和值，将该像素点的像素值调整为和值。

在步骤1中，计算得到的是样本中间图F中字幕区域的各个像素点对应的n个相似度，而在第二修复处理的过程中，需要对第一样本修复图像Y进行修复，具体的，需要对第一样本修复图像Y中字幕区域的像素点的像素值进行调整。所以，针对第一样本修复图像Y中字幕区域的每一像素点，可以基于步骤1中计算得到的样本中间图F中字幕区域的各个像素点对应的n个相似度，以及样本中间图F与第一样本修复图像Y的对应关系，确定该像素点对应的n个相似度。

样本中间图F与第一样本修复图像Y的对应关系为：第一样本修复图像Y的大小是样本中间图的大小的2的m次方倍。那么，具体的，可以将样本中间图F中字幕区域的每一像素点对应的n个相似度看做该像素点对应的相似度向量；基于该对应关系，对样本中间图F中字幕区域的各个像素点对应的相似度向量进行插值运算，得到第一样本修复图像Y中字幕区域的各个像素点对应的相似度向量，该相似度向量中同样包括n个相似度。

在确定出第一样本修复图像Y中字幕区域的每一像素点对应的n个相似度之后，可以利用该像素点对应的n个相似度，对初始修复后的样本图像X_train中非字幕区域的n个子区域的像素平均值进行加权求和，得到该像素点对应的像素修正值。其中，n个子区域中的每一子区域与n个参考区域中的一个参考区域具有唯一对应性，且每一子区域的像素平均值所对应的权重为：该像素点的n个相似度中，基于该子区域所对应参考区域所计算得到的相似度。

例如，样本中间图F的大小为32×32，F的左上角的3×3的区域为第1个参考区域，初始修复后的样本图像X_train的大小为256×256，那么，X_train的左上角的24×24的区域为第1个子区域，F中的第1个参考区域与X_train中的第1个子区域具有唯一对应性。以此类推，F中的其他各个参考区域，与X_train中的其他各个子区域分别具有唯一对应性。

在计算像素修正值时，以第一样本修复图像Y中字幕区域的某一个像素点P为例，该像素点P对应的第1～n个相似度分别为：f₁,f₂,…,f_n，是分别基于第1～n个参考区域计算得到的，X_train中非字幕区域的第1～n个子区域的像素平均值分别为：p₁,p₂,…,p_n，那么，该像素点P对应的像素修正值Δp＝f₁×p₁+f₂×p₂+…+f_n×p_n。

接续上述例子，在计算得到像素点P对应的修正值之后，可以计算该像素点P的像素值p和对应的像素修正值Δp的和值p¹＝p+Δp，将该像素点P的像素值p调整为和值p¹，这样，就完成了对像素点P的像素值的调整。

步骤3，在第一样本修复图像中字幕区域的每一像素点均调整像素值后，得到第二样本修复图像。

将第一样本修复图像Y中字幕区域的每一像素点均调整像素值后，就完成了第二修复处理，得到了第二样本修复图像Y¹。其中，Y¹的大小和X_train的大小相同。通过第二修复处理，使得第二样本修复图像Y¹中的字幕区域与非字幕区域更为接近，有效地减弱了字幕区域的边缘痕迹，提高了视觉效果。

针对第三神经网络而言：

当将拼接向量X₂输入第三神经网络后，第三神经网络通过确定Mask中的白色区域来确定Y¹中的字幕区域，从而对Y¹中的字幕区域进行精细修复，得到初始修复后的样本图像对应的修复图像Y²。

通过第三神经网络中的多层卷积层，对拼接向量X₂进行卷积处理，所得到的修复图像Y²相对于输入至第三神经网络的第二样本修复图像Y¹来说，纹理更为明显，清晰度更高。

在以上的第一神经网络-第二神经网络-第三神经网络对初始修复后的样本图像X_train进行修复的过程中，将X_train中的字幕区域修复为不包含字幕的画面区域。由于在具体的修复过程中，是针对整幅图像进行卷积运算，在运算过程中非字幕区域的像素信息会发生变化，因而，在第三神经网络输出初始修复后的样本图像对应的修复图像Y²后，电子设备可以将该修复图像Y²中的字幕区域与初始修复后的样本图像X_train中的非字幕区域进行拼接，将拼接后的图像作为样本图像对应的不包括字幕的图像。这样，该不包括字幕的图像与真值图像较为接近。

下面对图1实施例中的神经网络模型的训练过程进行介绍。

可选地，如图2所示，图1实施例中的神经网络模型，可以采用如下步骤训练获得：

S201，获取包含字幕的样本图像和样本图像对应的不包含字幕的真值图像。

在训练神经网络时，可以获取包含字幕的样本图像和样本图像对应的不包含字幕的真值图像，用于进一步地确定训练样本。其中，样本图像中的字幕区域可以位于样本图像中的任一位置。字幕区域中的字幕可以为各种文字类型，例如，字幕可以为中文字幕，也可以为英文字幕。且字幕中也可以包括数字、符号等。

一种方式中，可以采集不含有字幕的图片，并随机地在所采集的图片中生成字幕区域，得到包含字幕的图片，那么，将该包含字幕的图片作为包含字幕的样本图像，将所采集的不含有字幕的图片作为样本图像对应的不包含字幕的真值图像。

另外，本实施例中，对样本图像和真值图像的色彩模式和分辨率等显示参数也没有限制。例如，样本图像和真值图像的色彩模式可以为位图模式、灰度模式或RGB(Red,Green,Blue，红绿蓝)模式等。例如，样本图像和真值图像的分辨率可以为256×256、1024×768等。

S202，对样本图像进行初始修复处理，得到初始修复后的样本图像。

获取样本图像后，可以先对样本图像进行初始修复处理，即将样本图像中字幕区域的像素点的像素值调整为相同值，也就是说，将整个字幕区域填充为某种颜色，得到初始修复后的样本图像，然后，将初始修复后的样本图像和真值图像作为训练样本，利用神经网络模型对初始修复后的样本图像的字幕区域的像素点的像素值再次进行调整，使得再次调整后的字幕区域与非字幕区域构成连贯的画面区域。

S203，将初始修复后的样本图像的向量，以及样本蒙版图像的向量输入至神经网络模型，以使神经网络模型中的第一神经网络对初始修复后的样本图像的向量和所述样本蒙版图像的向量构成的拼接向量，进行卷积处理，得到初始修复后的样本图像对应的第一样本修复图像，并将第一样本修复图像、初始修复后的样本图像和样本中间图输入至第二神经网络，使得第二神经网络利用样本中间图中字幕区域像素点与非字幕区域像素点之间的相似度以及初始修复后的样本图像，对第一样本修复图像进行图像修复处理，得到第二样本修复图像，并将第二样本修复图像输入至第三神经网络，并使得第三神经网络对第二样本修复图像的向量和所述样本蒙版图像的向量构成的拼接向量，进行卷积处理，得到初始修复后的样本图像对应的修复图像。

关于S203的具体实现过程，可以参见上述的关于神经网络模型中的第一神经网络、第二神经网络和第三神经网络的作用的介绍，这里不再赘述。

S204，将初始修复后的样本图像对应的修复图像中的字幕区域与初始修复后的样本图像中的非字幕区域进行拼接，得到样本图像对应的预测图像。

关于S204中的拼接，请参见S105，这里不再赘述。

S205，基于预测图像与真值图像的差异，以及第一样本修复图像与真值图像的差异，计算综合损失值。

S204中输出的预测图像是针对样本图像的修复结果，为了训练神经网络模型，本实施例中，可以基于预测图像与真值图像的差异，以及第一样本修复图像与真值图像的差异，计算综合损失值，以进一步基于该综合损失值来判断神经网络模型是否收敛，即判断神经网络模型是否训练好。

将综合损失值表示为Loss，在一种实现方式中，综合损失值Loss可以通过以下公式来计算：

Loss＝Loss₁+Loss₂；

Loss₁＝||Y⁰-Y||₁；Loss₂＝||Y⁰-Y³||₁；

其中，Loss₁为针对第一神经网络设置的损失函数，Loss₁为针对第三神经网络设置的损失函数，Y⁰为真值图像，Y为第一样本修复图像，Y³为预测图像，‖‖₁表示1范数。

S206，基于综合损失值，判断神经网络模型是否收敛；如果收敛，结束训练，得到训练完成的神经网络模型；否则，调整神经网络模型中的第一神经网络、第二神经网络和第三神经网络的网络参数，继续下一次训练。

计算得到综合损失值后，可以判断该综合损失值是否符合预定的收敛条件，如果符合，说明神经网络模型收敛，那么，可以结束训练，得到训练完成的神经网络模型。如果不符合，那么，可以调整神经网络模型中的第一神经网络、第二神经网络和第三神经网络的网络参数，继续下一次训练，直到神经网络模型收敛，则神经网络模型训练完成。

具体的，可以通过随机梯度下降法来调整第一神经网络、第二神经网络和第三神经网络的网络参数。

可选地，在图2所示实施例中，在S202中的对样本图像进行初始修复处理，得到初始修复后的样本图像之后，还可以包括：

将初始修复后的样本图像的大小调整为预设大小，得到预设大小的样本图像。

例如，将初始修复后的样本图像的大小调整为256×256，或1024×1024。

将初始修复后的样本图像的大小调整为预设大小的图像后，可以更便于神经网络模型进行卷积运算。

相应地，S203中的将初始修复后的样本图像的向量，以及样本蒙版图像的向量输入至神经网络模型，可以包括：

将预设大小的样本图像的向量，以及样本蒙版图像的向量输入至神经网络模型。

也就是，神经网络模型对统一的预设大小的样本图像进行处理，可以便于神经网络模型进行卷积运算。

可选的，还可以先将初始修复后的样本图像进行归一化处理，即将初始修复后的样本图像中像素点的像素值调整到[0,1]的区间内，得到归一化样本图像；然后，将归一化样本图像的大小调整为预设大小，得到预设大小的样本图像；最后，将预设大小的样本图像的向量，以及样本蒙版图像的向量输入至神经网络模型。将初始修复后的样本图像进行归一化处理后，可以使神经网络模型在训练时更好的收敛。

下面通过图3对本发明实施例中神经网络模型的字幕去除的过程和效果进行说明。如图3所示，神经网络网络包括顺次连接的第一神经网络、第二神经网络和第三神经网络。

神经网络模型的字幕去除的过程为：

第一步，将初始修复后的样本图像和样本蒙版图像输入第一神经网络进行卷积处理，得到第一样本修复图像(图3中未以图像形式示出)。

其中，初始修复后的样本图像的字幕区域填充为白色，样本蒙版图像的字幕区域为白色，非字幕区域为黑色。

第二步，将样本中间图(图3中未以图像形式示出)和初始修复后的样本图像输入至第二神经网络，确定第一样本修复图像中字幕区域的每一像素点的n个相似度；利用所确定的相似度对第一样本修复图像进行图像修复处理，得到第二样本修复图像。

其中，样本中间图为第一神经网络的中间层输出的、与第一样本修复图像对应的特征图。

第三步，将第二样本修复图像输入至第三神经网络进行卷积处理，得到第三样本修复图像。

所得到的第三样本修复图像即为初始修复后的样本图像对应的修复图像。

从图3中可以看出，通过上述神经网络模型对字幕进行去除后，所得到的第三修复图像更接近于待处理图像对应的不包含字幕的真实图像，相比于现有技术中采用毛玻璃遮挡去除字幕的方式，有效地减弱了字幕所在区域的边缘痕迹，提高了视觉效果。

相应于图1所示方法实施例，本发明实施例提供了一种字幕的去除装置，如图4所示，所述装置包括：

获取模块401，用于获取包含字幕区域的待处理图像；

检测模块402，用于检测所述待处理图像中的字幕区域；

第一修复模块403，用于对所述待处理图像中所检测到的字幕区域进行初始修复处理，得到初始修复后的图像；所述初始修复处理为将所述字幕区域的像素点的值调整为预定值的处理；

第二修复模块404，用于基于所述修复图像，确定所述待处理图像对应的不包括字幕的图像；

处理模块405，用于将所述修复图像中的字幕区域与所述初始修复后的图像中的非字幕区域进行拼接，得到所述待处理图像对应的不包括字幕的图像；

可选地，所述神经网络模型，采用如下步骤训练获得：

步骤3，将所述初始修复后的样本图像的向量，以及所述样本蒙版图像的向量输入至所述神经网络模型，以使所述神经网络模型中的第一神经网络对所述初始修复后的样本图像的向量和所述样本蒙版图像的向量构成的拼接向量，进行卷积处理，得到所述初始修复后的样本图像对应的第一样本修复图像，并将所述第一样本修复图像、所述初始修复后的样本图像和所述样本中间图输入至所述第二神经网络，使得所述第二神经网络利用所述样本中间图中字幕区域像素点与非字幕区域像素点之间的相似度以及所述初始修复后的样本图像，对所述第一样本修复图像进行图像修复处理，得到第二样本修复图像，并将所述第二样本修复图像输入至所述第三神经网络，并使得所述第三神经网络对所述第二样本修复图像的向量和所述样本蒙版图像的向量构成的拼接向量，进行卷积处理，得到所述初始修复后的样本图像对应的；

可选地，所述处理模块405，具体用于将所述修复图像中的字幕区域，与所述初始修复后的图像或所述待处理图像中的非字幕区域进行拼接，得到所述待处理图像对应的不包括字幕的图像。

本发明实施例还提供了一种电子设备，如图5所示，包括处理器501、通信接口502、存储器503和通信总线504，其中，处理器501，通信接口502，存储器503通过通信总线504完成相互间的通信，

存储器503，用于存放计算机程序；

处理器501，用于执行存储器503上所存放的程序时，实现上述实施例中任一的字幕的去除方法，以获得相同的技术效果。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一的字幕的去除方法，以获得相同的技术效果。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的字幕的去除方法，以获得相同的技术效果。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置/电子设备/存储介质/计算机程序产品实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种字幕的去除方法，其特征在于，所述方法包括：

获取包含字幕区域的待处理图像；

检测所述待处理图像中的字幕区域；

2.根据权利要求1所述的方法，其特征在于，所述神经网络模型包括顺次连接的第一神经网络、第二神经网络和第三神经网络；其中，所述第二神经网络为应用局部注意力机制的神经网络，所述第三神经网络的卷积层的数量多于所述第一神经网络的卷积层的数量；

所述第三神经网络，用于对由所述第二样本修复图像的向量和所述样本蒙版图像的向量构成的拼接向量，进行卷积处理，得到所述初始修复后的样本图像对应的修复图像。

3.根据权利要求2所述的方法，其特征在于，

所述第二神经网络，具体用于针对所述样本中间图中字幕区域的每一像素点，分别计算包含该像素点的预设大小的区域，与n个参考区域的相似度，作为该像素点对应的n个相似度；其中，所述n个参考区域为对所述样本中间图中非字幕区域划分得到的n个所述预设大小的区域；

4.根据权利要求2-3任一所述的方法，其特征在于，所述神经网络模型，采用如下步骤训练获得：

5.根据权利要求1所述的方法，其特征在于，所述基于所述修复图像，确定所述待处理图像对应的不包括字幕的图像，包括：

6.一种字幕的去除装置，其特征在于，所述装置包括：

获取模块，用于获取包含字幕区域的待处理图像；

检测模块，用于检测所述待处理图像中的字幕区域；

7.根据权利要求6所述的装置，其特征在于，所述神经网络模型包括顺次连接的第一神经网络、第二神经网络和第三神经网络；其中，所述第二神经网络为应用局部注意力机制的神经网络，所述第三神经网络的卷积层的数量多于所述第一神经网络的卷积层的数量；

8.根据权利要求6所述的装置，其特征在于，

所述处理模块，具体用于将所述修复图像中的字幕区域，与所述初始修复后的图像或所述待处理图像中的非字幕区域进行拼接，得到所述待处理图像对应的不包括字幕的图像。

9.一种电子设备，其特征在于，所述设备包括：处理器、通信接口、存储器和通信总线，其中，所述处理器，所述通信接口，所述存储器通过所述通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现权利要求1～5任一项所述的方法步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1～5任一项所述的方法步骤。