CN109214999B

CN109214999B - 一种视频字幕的消除方法及装置

Info

Publication number: CN109214999B
Application number: CN201811105217.3A
Authority: CN
Inventors: 黎凌宇; 范雷雷
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2018-09-21
Filing date: 2018-09-21
Publication date: 2021-01-22
Anticipated expiration: 2038-09-21
Also published as: CN109214999A

Abstract

本申请实施方式公开了一种视频字幕的消除方法及装置。所述方法包括：获取待消除字幕的目标视频，并识别目标视频中视频帧的初始字幕区域，并生成初始字幕区域对应的初始字幕掩码图像；根据目标视频中当前视频帧对应的初始字幕掩码图像，以及当前视频帧的相邻视频帧对应的初始字幕掩码图像，确定当前视频帧对应的目标字幕掩码图像；其中，目标字幕掩码图像中指定位置处的像素点的像素值根据当前视频帧对应的初始字幕掩码图像和当前视频帧的相邻视频帧对应的初始字幕掩码图像中指定位置处的像素点的像素值得到；根据当前视频帧对应的目标字幕掩码图像，对当前视频帧进行字幕清除处理。本申请实施例提供的技术方案，能够提高视频字幕的消除效果。

Description

一种视频字幕的消除方法及装置

技术领域

本申请涉及互联网技术领域，特别涉及一种视频字幕的消除方法及装置。

背景技术

随着互联网技术的不断发展，用户越来越多会通过一些视频类的应用(Application)来观看视频。例如这些视频类的应用可以是腾讯视频、爱奇艺、搜狐视频等等。在观看一些长视频之后，一些用户可能会希望将长视频编辑为短视频，并将短视频中的原字幕清除掉，然后加上自己编辑的字幕，以对视频内容进行自己的解说或者借助视频画面进行娱乐创作等等。这时，为了满足用户的需求，有必要提供一种视频字幕的消除方法。

目前常规视频字幕的消除方法主要是通过连通域分析算法分别识别出视频中每个视频帧的字幕区域，接着对识别出的字幕区域内的图像表征的字幕进行清除处理。然而，由于该方法在识别字幕区域的过程中，容易将与字幕区域相近的背景区域误识别为字幕区域，这样会导致字幕清除处理后的图像中出现大面积模糊的情况，从而导致视频字幕的消除效果较差。

发明内容

本申请实施方式的目的是提供一种视频字幕的消除方法，能够提高视频字幕的消除效果。

为实现上述目的，本申请实施方式提供一种视频字幕的消除方法，所述方法包括：获取待消除字幕的目标视频，并识别所述目标视频中视频帧的初始字幕区域，并生成所述初始字幕区域对应的初始字幕掩码图像；根据所述目标视频中当前视频帧对应的初始字幕掩码图像，以及所述当前视频帧的相邻视频帧对应的初始字幕掩码图像，确定所述当前视频帧对应的目标字幕掩码图像；其中，所述目标字幕掩码图像中指定位置处的像素点的像素值根据所述当前视频帧对应的初始字幕掩码图像和所述当前视频帧的相邻视频帧对应的初始字幕掩码图像中所述指定位置处的像素点的像素值得到；根据所述当前视频帧对应的目标字幕掩码图像，对所述当前视频帧进行字幕清除处理。

为实现上述目的，本申请实施方式还提供一种视频字幕的消除装置，所述装置包括存储器和处理器，所述存储器用于存储计算机程序；所述计算机程序被所述处理器执行时，实现上述的方法。

由上可见，在本申请中，针对待消除字幕的目标视频，可以识别所述目标视频中各个视频帧的初始字幕区域，并可以根据各个所述视频帧的初始字幕区域，分别生成各个所述视频帧对应的初始字幕掩码图像。例如，可以将所述视频帧中初始字幕区域内的像素点的像素值替换为255，初始字幕区域外的像素点的像素值替换为0，便可以得到该视频帧对应的初始字幕掩码图像。由于视频中的字幕通常会稳定持续几秒，也就是说连续几个视频帧中字幕区域的像素值通常保持不变，那么，在生成各个所述视频帧对应的初始字幕掩码图像之后，便可以根据所述目标视频中当前视频帧对应的初始字幕掩码图像，以及所述当前视频帧的相邻视频帧对应的初始字幕掩码图像，确定所述当前视频帧对应的目标字幕掩码图像。其中，所述目标字幕掩码图像中指定位置处的像素点的像素值可以根据所述当前视频帧对应的初始字幕掩码图像和所述当前视频帧的相邻视频帧对应的初始字幕掩码图像中所述指定位置处的像素点的像素值得到。这样，便可以利用视频中相邻视频帧之间的字幕区域相似性，更加准确地确定当前视频帧对应的目标字幕掩码图像，以便后续可以根据更加准确的当前视频帧对应的目标字幕掩码图像，对所述当前视频帧进行更加有效地字幕清除处理，从而可以提高视频字幕的消除效果。

附图说明

为了更清楚地说明本申请实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施方式中视频字幕的消除方法的流程图；

图2是本申请实施方式中字幕切换的一种实施例的示意图；

图3是本申请实施方式中字幕切换的另一种实施例的示意图；

图4是本申请实施方式中字幕切换的另一种实施例的示意图；

图5是本申请实施方式中字幕切换的另一种实施例的示意图；

图6是本申请实施方式中字幕消除之前的视频帧；

图7是本申请实施方式中字幕消除之后的视频帧；

图8是本申请实施方式中视频字幕的消除装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施方式中的附图，对本申请实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式仅仅是本申请一部分实施方式，而不是全部的实施方式。基于本申请中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，都应当属于本申请保护的范围。

本申请实施方式提供一种视频字幕的消除方法，所述视频字幕的消除方法可以应用于独立的具备视频字幕消除功能的设备中。其中，所述设备例如可以是台式电脑、笔记本电脑、平板电脑、工作站等。

请参阅图1，所述方法可以包括以下步骤。

S11：获取待消除字幕的目标视频，并识别所述目标视频中视频帧的初始字幕区域，并生成所述初始字幕区域对应的初始字幕掩码图像。

在本实施方式中，所述目标视频可以是播放时间较长的视频。例如，所述目标视频可以是电视剧中某一集的视频，或者是在某电视台播放的综艺节目的视频。通常这些视频中会具有一些字幕。例如，这些字幕可以是电视剧中演员的台词、综艺节目中主持人或者嘉宾说的话等。所述目标视频还可以是从长视频中截取的一段短视频。例如，所述目标视频可以是根据用户意愿从电视剧中某一集的视频中截取的一端短视频。

在本实施方式中，所述设备中提供有视频库。其中，所述视频库可以是存储视频的数据集。所述视频库可以采用MySQL、Oracle、DB2、Sybase等数据库格式中的任意一种。所述视频库可以部署在设备中的存储介质上。那么，在需要对所述目标视频进行字幕消除处理时，便可以直接从所述存储介质中读取待消除字幕的目标视频。

在本实施方式中，所述设备可以具有通信模块，可以与播放所述目标视频的客户端建立远程连接，实现与所述客户端的数据传输。这样，便可以通过建立的远程连接，接收该客户端发来的包含视频标识的字幕消除请求。其中，所述视频标识用于识别待消除字幕的目标视频。在接收到所述字幕消除请求之后，所述设备可以从所述字幕消除请求中提取所述视频标识。在提取出所述视频标识之后，所述设备可以从所述视频库中读取具有所述视频标识的目标视频，从而可以获取待消除字幕的目标视频。

在本实施方式中，所述客户端可以是具有视频播放功能的电子设备。具体地，所述客户端例如可以是平板电脑、笔记本电脑、智能手机、智能可穿戴设备等。或者，所述客户端也可以为能够运行于上述电子设备中的软件。

在本实施方式中，在获取待消除字幕的目标视频之后，可以识别所述目标视频中视频帧的初始字幕区域。在实际应用中，所述目标视频中视频帧的画面通常为彩色的。为了便于识别视频帧中的字幕区域，在识别所述目标视频中视频帧的初始字幕区域之前，可以先将所述目标视频中的各个视频帧对应的彩色图像转换为灰度图像，得到各个视频帧分别对应的灰度图像。例如，若所述彩色图像的颜色模式为RGB(Red、Green、Blue，红、绿、蓝)颜色模式，可以采用常规的例如分量法、最大值法、平均值法或加权平均法等图像灰度化算法对所述彩色图像进行灰度化处理，得到视频帧对应的灰度图像。若所述彩色图像的颜色模式为CMYK(Cyan、Magenta、Yellow、Black，青、洋红、黄、黑)颜色模式、HSB(Hue、Saturation、Brightness，色泽、饱和度、亮度)颜色模式、Lab(Luminace，发光率)颜色模式等，那么可以先将所述彩色图像的颜色模式由这些模式转换为RGB颜色模式，然后再采用上述图像灰度化算法对颜色模式转换后的彩色图像进行灰度化处理，得到视频帧对应的灰度图像。在获得所述目标视频中视频帧对应的灰度图像之后，由于通常情况下视频帧中字幕区域内的图像色彩比较稳定，可以从所述灰度图像中确定最大稳定极值区域，并可以将所述最大稳定极值区域作为所述视频帧的初始字幕区域。同时，由于通常情况下视频帧中字幕区域内的图像的边缘特征比较明显，还可以识别所述灰度图像中的边缘区域，并可以将所述边缘区域作为所述视频帧的初始字幕区域。这样，便可以识别所述目标视频中各个视频帧的初始字幕区域。

在一个具体示例中，在实际应用中，从所述灰度图像中确定最大稳定极值区域，具体可以包括，可以基于预设的第一像素值阈值对所述灰度图像进行二值化处理，得到至少两个连通区域。当基于预设的第二像素值阈值对所述灰度图像进行二值化处理时，可以计算所述连通区域的面积变化量的绝对值与所述连通区域的面积的比值。其中，所述第二像素值阈值与所述第一像素值阈值不同。那么，针对所述至少两个连通区域中各个连通区域，便可以分别计算得到各个连通区域对应的比值。这时，由于通常情况下视频帧中字幕区域内的图像色彩比较稳定，在通过不同像素阈值进行对灰度图像进行二值化处理时，字幕区域对应的连通区域的面积变化量通常较小。这样，便可以将最小比值对应的连通区域作为所述最大稳定极值区域，从而后续便可以将所述最大稳定极值区域作为视频帧的初始字幕区域。例如，预设的第一像素值阈值和第二像素值阈值可以是预先设定的像素值阈值范围内的两个像素值阈值。其中，所述第二像素值阈值可以是所述第一像素值阈值加上指定阈值变化量。例如，预先设定的像素值阈值范围例如可以是0～255。所述第一像素值阈值例如可以为150，所述指定阈值变化量为50，那么所述第二像素值阈值便为200。这样，在像素阈值经过指定阈值变化量变化的情况下，连通域对应的面积变化的比值越小，表示该连通域越稳定，便可以将最小比值对应的连通域作为所述最大稳定极值区域。在本实施方式中，在实际应用中，通常情况下视频帧中字幕区域内的图像的亮度较高，为了避免在确定最大稳定极值区域的过程中受到视频帧对应的灰度图像中亮度较低的背景区域的影响，在从所述灰度图像中确定最大稳定极值区域之前，可以先将所述灰度图像中像素值小于指定阈值的像素点的像素值替换为0，从而得到新的灰度图像。其中，所述指定阈值可以根据实际应用情况来设定，例如可以通过对不同视频帧样本中字幕区域内的像素点的像素值进行统计，将统计结果中最小像素值作为所述指定阈值。这样，后续便可以从所述新的灰度图像中确定最大稳定极值区域，从而可以避免将部分亮度较低且色彩稳定的背景区域误作为最大稳定极值区域的情况，进而可以避免在确定最大稳定极值区域的过程中受到视频帧对应的灰度图像中亮度较低的背景区域的影响。

在另一个具体示例中，在实际应用中，识别所述灰度图像中的边缘区域，具体可以包括，首先可以确定所述灰度图像中像素点的梯度幅值和梯度方向。具体地，通常可以利用Sobel算子计算所述灰度图像中像素点的梯度幅值和梯度方向。其中，针对所述灰度图像上的两个相互垂直的方向，即x方向和y方向，这两个方向上的Sobel算子可以分别定义如下：

其中，S_x表示x方向上的Sobel算子，用于计算像素点的x方向上的梯度幅值，S_y表示y方向上的Sobel算子，用于计算像素点的y方向上的梯度幅值。所述灰度图像中以指定像素点为中心的3×3像素点集合的每一个像素点的像素值可以分别作为3×3像素值矩阵中的一个元素值，3×3像素点集合的每一个像素点的位置分别作为3×3像素值矩阵中的元素的位置。其中，所述指定像素点可以表示所述灰度图像中任一像素点。这样，可以分别通过x方向上的Sobel算子和y方向上的Sobel算子对所述灰度图像关联的各个3×3像素值矩阵进行卷积运算，可以得到所述灰度图像中各个像素点对应的x方向上的梯度幅值和y方向上的梯度幅值。这时，可以根据所述灰度图像中各个像素点对应的x方向上的梯度幅值和y方向上的梯度幅值，分别确定所述灰度图像中各个像素点的梯度幅值和梯度方向。

在确定所述灰度图像中各个像素点的梯度幅值和梯度方向之后，接着可以针对所述灰度图像中的指定像素点，从所述灰度图像中，分别沿所述指定像素点的梯度方向和与所述指定像素点的梯度方向相反的方向，可以确定与所述指定像素点相邻的第一参考像素点和第二参考像素点。若所述指定像素点的梯度幅值大于所述第一参考像素点的梯度幅值、且所述指定像素点的梯度幅值大于所述第二参考像素点的梯度幅值，便可以将所述指定像素点作为初始边界点。这样，便可以从所述灰度图像中识别出多个初始边界点。最后，可以将确定的这些初始边界点中符合指定条件的初始边界点作为目标边界点，并可以将确定的所述目标边界点构成的区域作为所述边缘区域。其中，所述指定条件具体可以包括所述初始边界点的像素值大于或等于预先设定的较高阈值，或者所述初始边界点的像素值在预先设定的较高阈值和较低阈值之间、且与所述初始边界点相邻的边界点中至少包括一个像素值大于或等于预先设定的较高阈值的初始边界点。其中，所述预先设定的较高阈值大于预先设定的较低阈值。在本实施方式中，为了更加准确地识别所述灰度图像中的边缘区域，在确定所述灰度图像中像素点的梯度幅值和梯度方向之前，还可以对所述灰度图像进行平滑滤波处理，将所述灰度图像中噪声滤除，从而使得平滑滤波处理后的灰度图像的信噪比大于或等于指定信噪比阈值。最后，可以将平滑滤波处理之后的灰度图像替换平滑滤波处理之前的灰度图像。这样，便可以避免所述灰度图像中的噪声对识别边缘区域造成的影响，从而可以使得后续更加准确地识别平滑滤波处理之后的灰度图像中的边缘区域。在实际应用中，平滑滤波处理可以包括邻域平均滤波、中值滤波、高斯滤波、频域滤波等多种方式。

在本实施方式中，还可以通过机器学习的方法识别所述目标视频中视频帧的初始字幕区域。具体地，可以预先采用设计的字幕区域识别算法构建用于识别视频帧对应的灰度图像中的字幕区域识别模型。该字幕区域识别模型经过前期的样本训练后，可以识别出所述灰度图像中的字幕区域。本实施例中，所述字幕区域识别算法可以包括采用深度神经网络的一些网络模型算法以及变种，经过样本训练后构建生成的字幕区域识别模型的处理算法。具体的一个示例中，可以基于卷积神经网络(Convolutional Neural Network，CNN)和区域建议网络(Region Proposal Network，RPN)，结合池化层、全连接层等构建字幕区域识别的算法模型，设备获取视频帧对应的灰度图像后，可以利用该算法模型对所述灰度图像进行识别，识别出所述灰度图像中的字幕区域。

在本实施方式中，为了便于后续对视频帧进行字幕清除处理，在识别出所述目标视频中各个视频帧的初始字幕区域之后，可以分别生成各个所述视频帧的初始字幕区域对应的初始字幕掩码图像，以便后续按照最终确定的字幕掩码图像，仅对视频帧中字幕进行清除处理，而不会影响到非字幕区域内的图像。具体地，在将所述视频帧的最大稳定极值区域和边缘区域作为所述视频帧的初始字幕区域之后，可以先分别生成所述最大稳定极值区域对应的第一字幕掩码图像和所述边缘区域对应的第二字幕掩码图像。例如，可以将所述视频帧中最大稳定极值区域内的像素点的像素值替换为第一指定像素值，并可以将最大稳定极值区域外的像素点的像素值替换为第二指定像素值，得到所述第一字幕掩码图像。其中，所述第一指定像素值与所述第二指定像素值不同，例如，所述第一指定像素值可以为255，所述第二指定像素值可以为0。同样地，也可以将所述视频帧中边缘区域内的像素点的像素值替换为第一指定像素值，并可以将边缘区域外的像素点的像素值替换为第二指定像素值，得到所述第二字幕掩码图像。然后，可以根据所述第一字幕掩码图像和所述第二字幕掩码图像，确定所述初始字幕掩码图像。具体地，在实际应用中，由于所述灰度图像中可能部分背景区域内的像素点的像素值与字幕区域内的像素点的像素值相近，这样可能会导致将部分背景区域也作为初始字幕区域。同时，由于所述灰度图像中可能部分背景区域内的图像的边缘特征也比较明显，这样，也可能会导致将部分背景区域识别为边缘区域，从而将部分背景区域也作为初始字幕区域，这里可以将误作为字幕区域的背景区域当作噪音区域。但是，误作为初始字幕区域的边缘区域通常是一些窄的轮廓或线条，而误作为初始字幕区域的最大稳定极值区域通常是一块面积较大的区块，而且两者误作为初始字幕区域的背景区域的位置，即噪音区域的为位置往往存在差异。为了进一步得到较精确的字幕掩码图像，可以对所述第一字幕掩码图像和所述第二字幕掩码图像进行与运算，得到所述视频帧对应的初始字幕掩码图像。具体地，可以将所述第一字幕掩码图像中指定位置处的像素点的像素值与所述第二字幕掩码图像中所述指定位置处的像素点的像素值进行与运算，并将与运算结果作为所述初始字幕掩码图像中所述指定位置处的像素点的像素值。这样，经过与运算之后，所述第一字幕掩码图像和所述第二字幕掩码图像中不同的噪音区域将会彼此抵消，从而可以得到更加准确字幕区域对应的字幕掩码图像。

在一个实施方式中，在实际应用中，由于字幕中某些字的笔划可能会导致上述得到的字幕掩码图像中字幕区域被分割成多个小块，可能容易被误识别为噪声。为了避免这种情况发生，在对所述第一字幕掩码图像和所述第二字幕掩码图像进行与运算之后，可以对与运算结果进行形态学处理，以减少噪声干扰。具体地，可以利用指定结构元素对与运算结果中指定区域内的图像进行腐蚀处理，从而可以消除所述与运算结果中不完全包含所述指定结构元素的噪声点。其中，所述指定区域内的像素点的像素值为所述第一指定像素值。所述与运算结果仍为字幕掩码图像。所述指定结构元素通常可以根据实际图像的大小或分辨率来设定，例如，可以是16×16的像素矩阵，该像素矩阵中各个元素为一个像素点，其像素值可以为所述第一指定像素值。例如，所述第一指定像素值为255，所述指定区域内的像素点的像素值均为255，即所述指定区域为与运算结果中的白色区域。在进行腐蚀处理之后，接着可以利用所述指定结构元素对腐蚀处理后的图像进行膨胀处理，从而可以将所述与运算结果中彼此断裂的小区域连接起来，可以进一步消除噪声干扰，进而得到更加精确的初始字幕掩码图像。

S13：根据所述目标视频中当前视频帧对应的初始字幕掩码图像，以及所述当前视频帧的相邻视频帧对应的初始字幕掩码图像，确定所述当前视频帧对应的目标字幕掩码图像；其中，所述目标字幕掩码图像中指定位置处的像素点的像素值根据所述当前视频帧对应的初始字幕掩码图像和所述当前视频帧的相邻视频帧对应的初始字幕掩码图像中所述指定位置处的像素点的像素值得到。

在本实施方式中，在实际应用中，在确定的各个视频帧分别对应的初始字幕掩码图像之后，这些初始字幕掩码图像中或多或少还是会存在一些上述噪音区域。然而，由于所述目标视频中的字幕通常会稳定持续几秒，也就是说连续几个视频帧中字幕区域的像素值通常保持不变，这样，便可以利用目标视频中相邻视频帧之间的字幕区域相似性，进一步得到更加精确的字幕掩码图像。例如，可以根据所述目标视频中当前视频帧对应的初始字幕掩码图像，以及所述当前视频帧的相邻视频帧对应的初始字幕掩码图像，确定所述当前视频帧对应的目标字幕掩码图像。具体地，可以对所述当前视频帧对应的初始字幕掩码图像和所述当前视频帧之前的相邻视频帧对应的初始字幕掩码图像进行与运算，得到第一中间字幕掩码图像。还可以对所述当前视频帧对应的初始字幕掩码图像和所述当前视频帧之后的相邻视频帧对应的初始字幕掩码图像进行与运算，得到第二中间字幕掩码图像。最后，可以将所述第一中间字幕掩码图像和所述第二中间字幕掩码图像中像素值大于0的像素点的数量较多的字幕掩码图像，作为所述当前视频帧对应的目标字幕掩码图像。其中，所述当前视频帧之前的相邻视频帧可以是所述当前视频帧之前的最邻近的一个视频帧，也可以是所述当前视频帧之前的邻近的指定数量的视频帧，例如，所述当前视频帧之前的邻近2～3个视频帧。同样地，所述当前视频帧之后的相邻视频帧也可以是指所述当前视频帧之后的最邻近的一个视频帧，也可以是所述当前视频帧之后的邻近的指定数量的视频帧，例如，所述当前视频帧之后的邻近2～3个视频帧。这样，一旦相对所述当前视频帧，所述当前视频帧的相邻视频帧的背景画面发生变动，那么通过当前视频帧和相邻视频帧之间的与运算过程，便可以将发生变动背景画面对应的区域内的像素点的像素值置为0，从而可以进一步消除噪音区域，得到更加精确的字幕掩码图像。

例如，在实际应用中，在当前视频帧之前的邻近视频帧发生字幕切换的情况下，如图2所示，这时，字幕切换后通常会持续几秒，如果当前视频帧有字幕，那么当前视频帧的字幕区域可能与所述当前视频帧之后的一个或多个邻近视频帧的字幕区域保持一致，这时，对所述当前视频帧与所述当前视频帧之后的相邻帧进行与运算之后得到的第二字幕掩码图像中像素值大于0的像素点数量可能较多，这样，便可以将所述第二字幕掩码图像作为所述当前视频帧对应的目标字幕掩码图像。在当前视频帧发生字幕切换的情况下，如图3所示，同样，字幕切换后通常会持续几秒，当前视频帧的字幕区域会与所述当前视频帧之后的一个或多个邻近视频帧的字幕区域保持一致，对所述当前视频帧与所述当前视频帧之后的相邻帧进行与运算之后得到的第二字幕掩码图像中像素值大于0的像素点数量较多，这样，便可以将所述第二字幕掩码图像作为所述当前视频帧对应的目标字幕掩码图像。在当前视频帧之后的邻近视频帧发生字幕切换的情况下，如图4所示，这时，字幕切换前通常会持续几秒，如果当前视频帧有字幕，那么当前视频帧的字幕区域可能与所述当前视频帧之前的一个或多个邻近视频帧的字幕区域保持一致，这时，对所述当前视频帧与所述当前视频帧之前的相邻帧进行与运算之后得到的第一字幕掩码图像中像素值大于0的像素点数量可能较多，这样，便可以将所述第一字幕掩码图像作为所述当前视频帧对应的目标字幕掩码图像。在当前视频帧之前和之后的邻近视频帧都未发生字幕切换的情况下，如图5所示，所述当前视频帧之前和之后的邻近视频帧的字幕区域均保持一致，这时，便可以将所述第一字幕掩码图像或所述第二字幕掩码图像作为所述当前视频帧对应的目标字幕掩码图像。

S15：根据所述当前视频帧的目标字幕掩码图像，对所述当前视频帧进行字幕清除处理。

在本实施方式中，在确定所述目标视频中各个视频帧分别对应的目标字幕掩码图像之后，可以根据各个所述视频帧分别对应的目标字幕掩码图像，通过线性插值的方式分别对各个所述视频帧进行字幕消除处理。这样，便可以利用确定的更加精确的字幕掩码图像，对视频帧进行更加有效地字幕清除处理，从而可以提高视频字幕的消除效果。具体地，可以获取所述目标字幕掩码图像中的目标字幕区域；其中，所述目标字幕区域内的像素点的像素值大于0。接着，针对所述当前视频帧中所述目标字幕区域内的待处理像素点，可以将所述当前视频帧中所述目标字幕区域外的区域中与所述待处理像素点邻近的像素点作为参考像素点。例如，可以将所述当前视频帧中所述目标字幕区域外的区域中，沿所述待处理像素点的正上方和正下方，与所述待处理像素点最邻近的两个像素点作为参考像素点。最后，可以根据所述参考像素点的像素值，以及所述参考像素点与所述待处理像素点之间的距离，确定目标像素值，并可以将所述目标像素值替换所述待处理像素点的像素值。例如，可以将一个参考像素点与所述待处理像素点之间的距离，与上述两个参考像素点分别同所述待处理像素点之间的距离之和的比值，作为该参考像素点对应的权重系数，并可以将两个参考像素点的像素值分别与对应的权重系数的乘积之和作为所述目标像素值。

在本实施方式中，若所述视频帧为灰度图像，上述像素点的像素值可以是像素点的灰度值。这样，在计算所述目标像素值时，可以将两个参考像素点的灰度值分别与对应的权重系数的乘积之和作为所述目标像素值。若所述视频帧为彩色图像，上述像素点的像素值可以是颜色模式中颜色通道的数值。所述颜色模式可以是RGB(Red、Green、Blue，红、绿、蓝)颜色模式、CMYK(Cyan、Magenta、Yellow、Black，青、洋红、黄、黑)颜色模式、HSB(Hue、Saturation、Brightness，色泽、饱和度、亮度)颜色模式、Lab(Luminace，发光率)颜色模式等。每个颜色模式中可以具备多个颜色通道。例如，对于RGB颜色模式而言，可以具备红、绿、蓝三种颜色通道。每个颜色通道均可以对应各自的数值。这样，在对所述目标视频中各个视频帧进行字幕清除处理时，可以分别计算各个颜色通道的目标像素值，然后可以分别将各个颜色通道的目标像素值作为所述待处理像素点的各个颜色通道的像素值。

在一个实施方式中，在实际应用中，在采用上述线性插值的方式对所述目标视频中各个视频帧分别进行字幕消除处理之后，得到的字幕消除处理后的视频帧中原字幕区域内的图像可能会出现部分图像不连续的情况。为了避免这种情况发生，在对所述目标视频中当前视频帧进行字幕消除处理之后，还可以对所述当前视频帧中所述目标字幕区域内的目标图像进行平滑滤波处理，从而使得平滑滤波处理后的所述目标图像中相邻两个像素点的像素值之差的绝对值在指定阈值范围内，避免出现图像不连续的情况，以使得字幕消除处理后的图像更加自然。其中，所述指定阈值范围例如可以包括2～15，具体可以根据实际应用情况来设定，此处不做限定。最后，可以将平滑滤波处理之后目标图像替换平滑滤波处理之前的目标图像。

在本申请一个实施方式中，在实际应用中，由于所述目标视频可以是电视剧中某一集的视频，或者是在某电视台播放的综艺节目的视频，那么，所述目标视频的各个视频帧中通常可能具有相同的台标区域，该台标区域内通常会包括一些字幕，例如“XX电视剧第一集”或“快乐大本营”等台标类的字幕。在对视频帧进行字幕消除过程，往往会将这些台标区域内的字幕误判为待消除的字幕，进行字幕消除处理，从而导致字幕消除处理后的图像中台标区域内的图像出现模糊现象。为了避免上述情况发生，在识别所述目标视频中视频帧的初始字幕区域之前，可以先从所述视频帧中将台标区域内的图像去除，然后再识别台标去除处理之后的视频帧的字幕区域。具体地，首先，可以识别所述目标视频中视频帧的台标区域。具体地，在实际应用中，所述目标视频中视频帧的画面通常为彩色的。为了便于识别视频帧中的台标区域，在识别所述目标视频中视频帧的台标区域之前，可以先将所述目标视频中的各个视频帧对应的彩色图像转换为灰度图像，得到各个视频帧分别对应的灰度图像。在得到各个视频帧分别对应的灰度图像之后，针对所述目标视频中的当前视频帧，可以计算所述当前视频帧对应的灰度图像中指定位置处的像素点的像素值，与所述当前视频帧之前的相邻视频帧对应的灰度图像中所述指定位置处的像素点的像素值之间的差值的绝对值，得到所述当前视频帧对应的差值图像。那么，针对所述目标视频中的各个视频帧，便可以得到各个视频帧分别对应的差值图像。接着可以根据确定的各个所述视频帧分别对应的差值图像，确定所述目标视频中各个视频帧的台标区域。例如，若所述视频帧对应的差值图像中指定像素点的像素值大于或等于指定阈值，可以将所述指定像素点的像素值替换为255，若所述指定像素点的像素值小于指定阈值，可以将所述指定像素点的像素值替换为0，这样，便可以得到所述视频帧对应的二值化差值图像。其中，所述指定阈值通常可以设定为128，具体可以根据实际应用情况来设定。接着可以将所述目标视频中连续指定数量的视频帧分别对应的二值化差值图像进行与运算，得到与运算结果。然后，可以利用指定结构元素对与运算结果中指定区域内的图像进行膨胀处理。其中，所述指定区域内的像素点的像素值为0，所述指定结构元素通常可以根据实际图像的大小或分辨率来设定，例如，可以是16×16的像素矩阵，该像素矩阵中各个元素为一个像素点，其像素值可以为0。最后，可以将膨胀处理后的图像所处的区域作为所述目标视频中视频帧的台标区域。在识别所述目标视频中视频帧的台标区域之后，可以生成所述台标区域对应的台标掩码图像。具体地，可以将所述视频帧的所述台标区域内的像素点的像素值替换为0，并可以将所述视频帧的所述台标区域外的像素点的像素值替换为255，便可以得到所述台标区域对应的台标掩码图像。在生成所述台标掩码图像之后，可以根据所述台标掩码图像，对所述目标视频中视频帧对应的灰度图像进行台标去除处理。具体地，可以将所述台标掩码图像和所述视频帧对应的灰度图像进行与运算，这样，台标去除处理后的视频帧对应的灰度图像中台标区域外的图像保持原样，台标区域内的图像变为黑色，从而有效地将台标区域内的图像去除。相应地，后续便可以识别台标去除处理后的视频帧对应的灰度图像的初始字幕区域，也就是可以识别与运算后的视频帧对应的灰度图像的初始字幕区域。

在一个具体应用场景中，所述客户端可以是智能手机，用户通过该智能手机观看一部电视剧名称“温暖的弦”的第一集的目标视频。图6中展示的是该目标视频中某个视频帧对应的灰度图像，如图6所示，该目标视频的视频帧中具有包括“温暖的弦第一集”字幕的台标区域，还具有“你要老这么亲力亲为的”字幕的字幕区域。用户希望消除该目标视频中的字幕，这时，用户可以点击该智能手机的视频应用上的暂停播放功能键，再点击该智能手机上展示的所述目标视频对应的消除字幕的控件，以通过与所述设备建立的远程连接，向所述设备发送包括视频标识的字幕消除请求。其中，所述视频标识用于识别待消除字幕的目标视频。在接收到所述字幕消除请求之后，所述设备可以从所述字幕消除请求中提取所述视频标识。在提取出所述视频标识之后，所述设备可以从所述视频库中读取具有所述视频标识的目标视频，从而可以获取待消除字幕的目标视频。接着可以对所述目标视频中各个视频帧进行灰度化处理，得到各个视频帧分别对应的灰度图像，并可以识别所述视频帧对应的灰度图像的台标区域，并生成所述台标区域对应的台标掩码图像。然后，可以根据所述台标掩码图像，对所述目标视频中视频帧对应的灰度图像进行台标去除处理。接着，可以识别台标去除处理之后的视频帧的初始字幕区域，并生成台标去除处理之后的视频帧的初始字幕区域对应的初始字幕掩码图像。最后，可以根据台标去除处理之后的视频帧对应的初始字幕掩码图像，以及台标去除处理之后的视频帧的相邻视频帧对应的初始字幕掩码图像，确定台标去除处理之后的视频帧对应的目标字幕掩码图像，并可以根据目标字幕掩码图像，对台标去除处理之后的视频帧进行字幕清除处理，得到如图7所示的字幕清除处理后的视频帧。对比图6和图7，可以看出，采用本申请的方法可以对视频进行更加有效地字幕清除处理，从而可以提高视频字幕的消除效果。不仅如此，还可以防止台标区域被误判为字幕区域而被进行去除处理的情况。

在本实施方式中，上述方法步骤中实现的功能，可以由计算机程序实现，所述计算机程序可以被存储于计算机存储介质中。具体的，所述计算机存储介质可以与处理器进行耦合，处理器从而可以读取计算机存储介质中的计算机程序。所述计算机程序被处理器执行时，可以实现以下功能：

S11：获取待消除字幕的目标视频，并识别所述目标视频中视频帧的初始字幕区域，并生成所述初始字幕区域对应的初始字幕掩码图像；

S13：根据所述目标视频中当前视频帧对应的初始字幕掩码图像，以及所述当前视频帧的相邻视频帧对应的初始字幕掩码图像，确定所述当前视频帧对应的目标字幕掩码图像；其中，所述目标字幕掩码图像中指定位置处的像素点的像素值根据所述当前视频帧对应的初始字幕掩码图像和所述当前视频帧的相邻视频帧对应的初始字幕掩码图像中所述指定位置处的像素点的像素值得到；

S15：根据所述当前视频帧对应的目标字幕掩码图像，对所述当前视频帧进行字幕清除处理。

在一个实施方式中，提供有所述目标视频中视频帧对应的灰度图像；识别所述目标视频中视频帧的初始字幕区域，包括：

从所述灰度图像中确定最大稳定极值区域；

识别所述灰度图像中的边缘区域；

将所述最大稳定极值区域和所述边缘区域作为所述视频帧的初始字幕区域。

在一个实施方式中，生成所述初始字幕区域对应的初始字幕掩码图像，包括：

分别生成所述最大稳定极值区域对应的第一字幕掩码图像和所述边缘区域对应的第二字幕掩码图像；

根据所述第一字幕掩码图像和所述第二字幕掩码图像，确定所述初始字幕掩码图像。

在一个实施方式中，生成所述最大稳定极值区域对应的第一字幕掩码图像，包括：

将所述最大稳定极值区域内的像素点的像素值替换为第一指定像素值，并将所述最大稳定极值区域外的像素点的像素值替换为第二指定像素值，得到所述第一字幕掩码图像；其中，所述第一指定像素值与所述第二指定像素值不同。

在一个实施方式中，确定所述初始字幕掩码图像，包括：

对所述第一字幕掩码图像和所述第二字幕掩码图像进行与运算，得到所述初始字幕掩码图像。

在一个实施方式中，在对所述第一字幕掩码图像和所述第二字幕掩码图像进行与运算之后，确定所述初始字幕掩码图像，还包括：

利用指定结构元素对与运算结果中指定区域内的图像进行腐蚀处理；其中，所述指定区域内的像素点的像素值为所述第一指定像素值；

利用所述指定结构元素对腐蚀处理后的图像进行膨胀处理，得到所述初始字幕掩码图像。

在一个实施方式中，从所述灰度图像中确定最大稳定极值区域，包括：

基于预设的第一像素值阈值对所述灰度图像进行二值化处理，得到至少两个连通区域；

当基于预设的第二像素值阈值对所述灰度图像进行二值化处理时，计算所述连通区域的面积变化量的绝对值与所述连通区域的面积的比值，并将最小比值对应的连通区域作为所述最大稳定极值区域；其中，所述第二像素值阈值与所述第一像素值阈值不同。

在一个实施方式中，识别所述灰度图像中的边缘区域，包括：

确定所述灰度图像中像素点的梯度幅值和梯度方向；

针对所述灰度图像中的指定像素点，从所述灰度图像中，分别沿所述指定像素点的梯度方向和与所述指定像素点的梯度方向相反的方向，确定与所述指定像素点相邻的第一参考像素点和第二参考像素点；

若所述指定像素点的梯度幅值大于所述第一参考像素点的梯度幅值、且所述指定像素点的梯度幅值大于所述第二参考像素点的梯度幅值，将所述指定像素点作为初始边界点；

将确定的所述初始边界点中符合指定条件的初始边界点作为目标边界点，并将确定的所述目标边界点构成的区域作为所述边缘区域。

在一个实施方式中，在确定所述灰度图像中像素点的梯度幅值和梯度方向之前，识别所述灰度图像中的边缘区域，还包括：

对所述灰度图像进行平滑滤波处理，以使得平滑滤波处理后的灰度图像的信噪比大于或等于指定信噪比阈值；

将平滑滤波处理之后的灰度图像替换平滑滤波处理之前的灰度图像。

在一个实施方式中，确定所述当前视频帧对应的目标字幕掩码图像，包括：

对所述当前视频帧对应的初始字幕掩码图像和所述当前视频帧之前的相邻视频帧对应的初始字幕掩码图像进行与运算，得到第一中间字幕掩码图像；

对所述当前视频帧对应的初始字幕掩码图像和所述当前视频帧之后的相邻视频帧对应的初始字幕掩码图像进行与运算，得到第二中间字幕掩码图像；

将所述第一中间字幕掩码图像和所述第二中间字幕掩码图像中像素值大于0的像素点的数量较多的字幕掩码图像，作为所述当前视频帧对应的目标字幕掩码图像。

在一个实施方式中，对所述当前视频帧进行字幕清除处理，包括：

获取所述目标字幕掩码图像中的目标字幕区域；其中，所述目标字幕区域内的像素点的像素值大于0；

针对所述当前视频帧中所述目标字幕区域内的待处理像素点，将所述当前视频帧中所述目标字幕区域外的区域中与所述待处理像素点邻近的像素点作为参考像素点；

根据所述参考像素点的像素值，以及所述参考像素点与所述待处理像素点之间的距离，确定目标像素值，并将所述目标像素值替换所述待处理像素点的像素值。

在一个实施方式中，在对所述当前视频帧进行字幕消除处理之后，所述方法还包括：

对所述当前视频帧中所述目标字幕区域内的目标图像进行平滑滤波处理，以使得平滑滤波处理后的所述目标图像中相邻两个像素点的像素值之差的绝对值在指定阈值范围内；

将平滑滤波处理之后目标图像替换平滑滤波处理之前的目标图像。

在一个实施方式中，在识别所述目标视频中视频帧的初始字幕区域之前，所述方法还包括：

识别所述目标视频中视频帧的台标区域，并生成所述台标区域对应的台标掩码图像；

根据所述台标掩码图像，对所述目标视频中视频帧对应的灰度图像进行台标去除处理；

相应地，识别所述目标视频中视频帧的初始字幕区域，包括：识别台标去除处理后的视频帧对应的灰度图像的初始字幕区域。

在一个实施方式中，提供有所述目标视频中视频帧对应的灰度图像；识别所述目标视频中视频帧的台标区域，包括：

针对所述目标视频中的当前视频帧，计算所述当前视频帧对应的灰度图像中指定位置处的像素点的像素值，与所述当前视频帧之前的相邻视频帧对应的灰度图像中所述指定位置处的像素点的像素值之间的差值的绝对值，得到所述当前视频帧对应的差值图像；

根据确定的视频帧对应的差值图像，确定所述目标视频中视频帧的台标区域。

在一个实施方式中，确定所述目标视频中视频帧的台标区域，包括：

若所述视频帧对应的差值图像中指定像素点的像素值大于或等于指定阈值，将所述指定像素点的像素值替换为255，若所述指定像素点的像素值小于指定阈值，将所述指定像素点的像素值替换为0，得到所述视频帧对应的二值化差值图像；

将所述目标视频中连续指定数量的视频帧分别对应的二值化差值图像进行与运算；

利用指定结构元素对与运算结果中指定区域内的图像进行膨胀处理；其中，所述指定区域内的像素点的像素值为0；

将膨胀处理后的图像所处的区域作为所述目标视频中视频帧的台标区域。

在一个实施方式中，生成所述台标区域对应的台标掩码图像，包括：

将所述视频帧的所述台标区域内的像素点的像素值替换为0，并将所述视频帧的所述台标区域外的像素点的像素值替换为255，得到所述台标区域对应的台标掩码图像。

在一个实施方式中，对所述目标视频中视频帧进行台标去除处理，包括：

将所述台标掩码图像和所述视频帧对应的灰度图像进行与运算；

相应地，识别台标去除处理后的视频帧对应的灰度图像的初始字幕区域，包括：识别与运算后的视频帧对应的灰度图像的初始字幕区域。

需要说明的是，上述计算机存储介质中的计算机程序所能实现的功能，均可以参照前述的方法实施实施方式，实现的技术效果也与前述方法实施方式中实现的技术效果类似，这里便不再赘述。

请参阅图8，本申请还提供一种视频字幕的消除装置。所述装置包括存储器和处理器，所述存储器可以用于存储计算机程序；所述计算机程序被所述处理器执行时，可以实现上述的方法。

在本实施方式中，所述存储器可以包括用于存储信息的物理装置，通常是将信息数字化后再以利用电、磁或者光学等方法的媒体加以存储。本实施方式所述的存储器又可以包括：利用电能方式存储信息的装置，如RAM、ROM等；利用磁能方式存储信息的装置，如硬盘、软盘、磁带、磁芯存储器、磁泡存储器、U盘；利用光学方式存储信息的装置，如CD或DVD。当然，还有其他方式的存储器，例如量子存储器、石墨烯存储器等等。

在本实施方式中，所述处理器可以按任何适当的方式实现。例如，所述处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。

本说明书实施方式提供的装置，其存储器和处理器实现的具体功能，可以与本说明书中的前述实施方式相对照解释，并能够达到前述实施方式的技术效果，这里便不再赘述。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

本领域技术人员也知道，除了以纯计算机可读程序代码方式实现客户端、服务器以外，完全可以通过将方法步骤进行逻辑编程来使得客户端、服务器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种客户端、服务器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施方式或者实施方式的某些部分所述的方法。

本说明书中的各个实施方式均采用递进的方式描述，各个实施方式之间相同相似的部分互相参见即可，每个实施方式重点说明的都是与其他实施方式的不同之处。尤其，针对计算机存储介质、服务器和客户端的实施方式来说，均可以参照前述方法的实施方式的介绍对照解释。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

虽然通过实施方式描绘了本申请，本领域普通技术人员知道，本申请有许多变形和变化而不脱离本申请的精神，希望所附的权利要求包括这些变形和变化而不脱离本申请的精神。

Claims

1.一种视频字幕的消除方法，其特征在于，所述方法包括：

获取待消除字幕的目标视频，并识别所述目标视频中视频帧的初始字幕区域，并生成所述初始字幕区域对应的初始字幕掩码图像；

根据所述目标视频中当前视频帧对应的初始字幕掩码图像，以及所述当前视频帧的相邻视频帧对应的初始字幕掩码图像，确定所述当前视频帧对应的目标字幕掩码图像；其中，所述目标字幕掩码图像中指定位置处的像素点的像素值根据所述当前视频帧对应的初始字幕掩码图像和所述当前视频帧的相邻视频帧对应的初始字幕掩码图像中所述指定位置处的像素点的像素值得到；

根据所述当前视频帧对应的目标字幕掩码图像，对所述当前视频帧进行字幕清除处理。

2.根据权利要求1所述的方法，其特征在于，提供有所述目标视频中视频帧对应的灰度图像；识别所述目标视频中视频帧的初始字幕区域，包括：

从所述灰度图像中确定最大稳定极值区域；

识别所述灰度图像中的边缘区域；

3.根据权利要求2所述的方法，其特征在于，生成所述初始字幕区域对应的初始字幕掩码图像，包括：

4.根据权利要求3所述的方法，其特征在于，生成所述最大稳定极值区域对应的第一字幕掩码图像，包括：

5.根据权利要求4所述的方法，其特征在于，确定所述初始字幕掩码图像，包括：

6.根据权利要求5所述的方法，其特征在于，在对所述第一字幕掩码图像和所述第二字幕掩码图像进行与运算之后，确定所述初始字幕掩码图像，还包括：

7.根据权利要求2所述的方法，其特征在于，从所述灰度图像中确定最大稳定极值区域，包括：

8.根据权利要求2所述的方法，其特征在于，识别所述灰度图像中的边缘区域，包括：

确定所述灰度图像中像素点的梯度幅值和梯度方向；

9.根据权利要求8所述的方法，其特征在于，在确定所述灰度图像中像素点的梯度幅值和梯度方向之前，识别所述灰度图像中的边缘区域，还包括：

10.根据权利要求1所述的方法，其特征在于，确定所述当前视频帧对应的目标字幕掩码图像，包括：

11.根据权利要求1所述的方法，其特征在于，对所述当前视频帧进行字幕清除处理，包括：

12.根据权利要求1所述的方法，其特征在于，在对所述当前视频帧进行字幕消除处理之后，所述方法还包括：

13.根据权利要求1所述的方法，其特征在于，在识别所述目标视频中视频帧的初始字幕区域之前，所述方法还包括：

14.根据权利要求13所述的方法，其特征在于，提供有所述目标视频中视频帧对应的灰度图像；识别所述目标视频中视频帧的台标区域，包括：

15.根据权利要求14所述的方法，其特征在于，确定所述目标视频中视频帧的台标区域，包括：

16.根据权利要求13所述的方法，其特征在于，生成所述台标区域对应的台标掩码图像，包括：

17.根据权利要求13所述的方法，其特征在于，对所述目标视频中视频帧进行台标去除处理，包括：

18.一种视频字幕的消除装置，其特征在于，所述装置包括存储器和处理器，所述存储器用于存储计算机程序；所述计算机程序被所述处理器执行时，实现如权利要求1至17中任一权利要求所述的方法。