CN110942420A

CN110942420A - 一种图像字幕的消除方法及装置

Info

Publication number: CN110942420A
Application number: CN201811105203.1A
Authority: CN
Inventors: 刘宝辰; 魏歆; 范雷雷
Original assignee: Chuanxian Network Technology Shanghai Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2018-09-21
Filing date: 2018-09-21
Publication date: 2020-03-31
Anticipated expiration: 2038-09-21
Also published as: CN110942420B

Abstract

本申请实施方式公开了一种图像字幕的消除方法及装置。所述方法包括：获取待消除字幕的目标图像；从所述目标图像中确定最大稳定极值区域，并识别所述目标图像中的边缘区域；根据所述最大稳定极值区域和所述边缘区域，确定字幕掩码图像；根据所述字幕掩码图像，对所述目标图像进行字幕清除处理。本申请实施例提供的技术方案，能够提高图像字幕的消除效果。

Description

一种图像字幕的消除方法及装置

技术领域

本申请涉及互联网技术领域，特别涉及一种图像字幕的消除方法及装置。

背景技术

随着互联网技术的不断发展，用户越来越多会通过一些视频类的应用(Application)来观看视频。例如这些视频类的应用可以是腾讯视频、爱奇艺、搜狐视频等等。在观看一些长视频之后，一些用户可能会希望从长视频截取图像，并将图像中的字幕清除掉，然后将消除字幕后的图像作为封面。这时，为了满足用户的需求，有必要提供一种图像字幕的消除方法。

目前常规图像字幕的消除方法主要是通过连通域分析算法识别出图像中的字幕区域，接着对识别出的字幕区域内的图像表征的字幕进行清除处理。然而，由于该方法在识别字幕区域的过程中，容易将与字幕区域相近的背景区域误识别为字幕区域，这样会导致字幕清除处理后的图像中出现大面积模糊的情况，从而导致图像字幕的消除效果较差。

发明内容

本申请实施方式的目的是提供一种图像字幕的消除方法及装置，能够提高图像字幕的消除效果。

为实现上述目的，本申请实施方式提供一种图像字幕的消除方法，所述方法包括：获取待消除字幕的目标图像；从所述目标图像中确定最大稳定极值区域，并识别所述目标图像中的边缘区域；根据所述最大稳定极值区域和所述边缘区域，确定字幕掩码图像；根据所述字幕掩码图像，对所述目标图像进行字幕清除处理。

为实现上述目的，本申请实施方式还提供一种图像字幕的消除装置，所述装置包括存储器和处理器，所述存储器用于存储计算机程序；所述计算机程序被所述处理器执行时，实现以下步骤：获取待消除字幕的目标图像；从所述目标图像中确定最大稳定极值区域，并识别所述目标图像中的边缘区域；根据所述最大稳定极值区域和所述边缘区域，确定字幕掩码图像；根据所述字幕掩码图像，对所述目标图像进行字幕清除处理。

由上可见，在本申请中，针对待消除字幕的目标图像，在实际应用中，考虑到通常情况下目标图像中字幕区域内的图像色彩比较稳定，且边缘特征比较明显，可以先从所述目标图像中确定最大稳定极值区域，并可以识别所述目标图像中的边缘区域。接着可以根据所述最大稳定极值区域和所述边缘区域，确定字幕掩码图像。那么，便可以结合字幕区域内的图像的色彩稳定且边缘特征明显的特征，可以更加准确地确定所述目标图像对应的字幕掩码图像，以便后续可以根据更加准确的字幕掩码图像，对所述目标图像进行更加有效地字幕清除处理，从而可以提高图像字幕的消除效果。

附图说明

为了更清楚地说明本申请实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施方式中图像字幕的消除方法的流程图；

图2是本申请实施方式中字幕消除之前的目标图像；

图3是本申请实施方式中字幕消除之后的目标图像；

图4是本申请实施方式中图像字幕的消除装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施方式中的附图，对本申请实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式仅仅是本申请一部分实施方式，而不是全部的实施方式。基于本申请中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，都应当属于本申请保护的范围。

本申请实施方式提供一种图像字幕的消除方法，所述图像字幕的消除方法可以应用于独立的具备图像字幕消除功能的设备中。其中，所述设备例如可以是台式电脑、笔记本电脑、平板电脑、工作站等。

请参阅图1，所述方法可以包括以下步骤。

S11：获取待消除字幕的目标图像。

在本实施方式中，所述目标图像可以是视频中的某一个具有字幕的视频帧，也可以是其他具有字幕的图像，所述目标图像可以是彩色图像，也可以是灰度图像。其中，所述视频可以是电视剧中某一集的视频，或者是在某电视台播放的综艺节目的视频。通常这些视频中会具有一些字幕。例如，这些字幕可以是电视剧中演员的台词、综艺节目中主持人或者嘉宾说的话等。所述目标图像则可以是从这些视频中截取的某一个视频帧对应的图像。例如，所述目标图像可以是根据用户意愿从电视剧中某一集的视频中截取的一个视频帧对应的图像。

在本实施方式中，所述设备中提供有图像库。其中，所述图像库可以是存储图像的数据集。所述图像库可以采用MySQL、Oracle、DB2、Sybase等数据库格式中的任意一种。所述图像库可以部署在设备中的存储介质上。那么，在需要对所述目标图像进行字幕消除处理时，便可以直接从所述存储介质中读取待消除字幕的目标图像。

在本实施方式中，所述设备可以具有通信模块，可以与展示所述目标图像的客户端建立远程连接，实现与所述客户端的数据传输。这样，便可以通过建立的远程连接，接收该客户端发来的包含图像标识的字幕消除请求。其中，所述图像标识用于识别待消除字幕的目标图像。在接收到所述字幕消除请求之后，所述设备可以从所述字幕消除请求中提取所述图像标识。在提取出所述图像标识之后，所述设备可以从所述图像库中读取具有所述图像标识的目标图像，从而可以获取待消除字幕的目标图像。

在本实施方式中，所述客户端可以是具有图像展示功能的电子设备。具体地，所述客户端例如可以是平板电脑、笔记本电脑、智能手机、智能可穿戴设备等。或者，所述客户端也可以为能够运行于上述电子设备中的软件。

S13：从所述目标图像中确定最大稳定极值区域，并识别所述目标图像中的边缘区域。

在本实施方式中，在实际应用中，在获取待消除字幕的目标图像之后，由于通常情况下所述目标图像中字幕区域内的图像色彩比较稳定、且边缘特征比较明显，可以从所述目标图像中确定最大稳定极值区域以及可以识别所述灰度图像中的边缘区域，以便后续可以结合所述最大稳定极值区域和所述边缘区域，确定所述目标图像的字幕区域对应的字幕掩码图像。在实际应用中，所述目标图像的画面通常为彩色的。为了便于从所述目标图像中确定最大稳定极值区域以及可以识别所述灰度图像中的边缘区域，在从所述目标图像中确定最大稳定极值区域以及可以识别所述灰度图像中的边缘区域之前，可以先将所述目标图像转换为对应的灰度图像。例如，若所述目标图像的颜色模式为RGB(Red、Green、Blue，红、绿、蓝)颜色模式，可以采用常规的例如分量法、最大值法、平均值法或加权平均法等图像灰度化算法对所述目标图像进行灰度化处理，得到对应的灰度图像。若所述目标图像的颜色模式为CMYK(Cyan、Magenta、Yellow、Black，青、洋红、黄、黑)颜色模式、HSB(Hue、Saturation、Brightness，色泽、饱和度、亮度)颜色模式、Lab(Luminace，发光率)颜色模式等，那么可以先将所述目标图像的颜色模式由这些模式转换为RGB颜色模式，然后再采用上述图像灰度化算法对颜色模式转换后的目标图像进行灰度化处理，得到对应的灰度图像。

在一个具体示例中，在实际应用中，在得到所述灰度图像之后，相应地，从所述目标图像中确定最大稳定极值区域，具体可以包括，可以基于预设的第一像素值阈值对所述灰度图像进行二值化处理，得到至少两个连通区域。当基于预设的第二像素值阈值对所述灰度图像进行二值化处理时，可以计算所述连通区域的面积变化量的绝对值与所述连通区域的面积的比值。其中，所述第二像素值阈值与所述第一像素值阈值不同。那么，针对所述至少两个连通区域中各个连通区域，便可以分别计算得到各个连通区域对应的比值。这时，由于通常情况下所述目标图像对应的灰度图像中字幕区域内的图像色彩比较稳定，在通过不同像素阈值进行对灰度图像进行二值化处理时，字幕区域对应的连通区域的面积变化量通常较小。这样，便可以将最小比值对应的连通区域作为所述最大稳定极值区域，从而后续便可以利用所述最大稳定极值区域确定字幕掩码图像。例如，预设的第一像素值阈值和第二像素值阈值可以是预先设定的像素值阈值范围内的两个像素值阈值。其中，所述第二像素值阈值可以是所述第一像素值阈值加上指定阈值变化量。例如，预先设定的像素值阈值范围例如可以是0～255。所述第一像素值阈值例如可以为150，所述指定阈值变化量为50，那么所述第二像素值阈值便为200。这样，在像素阈值经过指定阈值变化量变化的情况下，连通域对应的面积变化的比值越小，表示该连通域越稳定，便可以将最小比值对应的连通域作为所述最大稳定极值区域。在本实施方式中，在实际应用中，通常情况下所述目标图像对应的灰度图像中字幕区域内的图像的亮度较高，为了避免在确定最大稳定极值区域的过程中受到灰度图像中亮度较低的背景区域的影响，在从所述灰度图像中确定最大稳定极值区域之前，可以先将所述灰度图像中像素值小于指定阈值的像素点的像素值替换为0，从而得到新的灰度图像。其中，所述指定阈值可以根据实际应用情况来设定，例如可以通过对不同图像样本中字幕区域内的像素点的像素值进行统计，将统计结果中最小像素值作为所述指定阈值。这样，后续便可以从所述新的灰度图像中确定最大稳定极值区域，从而可以避免将部分亮度较低且色彩稳定的背景区域误作为最大稳定极值区域的情况，进而可以避免在确定最大稳定极值区域的过程中受到灰度图像中亮度较低的背景区域的影响。

在另一个具体示例中，在实际应用中，在得到所述灰度图像之后，相应地，识别所述目标图像中的边缘区域，具体可以包括，首先可以确定所述灰度图像中像素点的梯度幅值和梯度方向。具体地，通常可以利用Sobel算子计算所述灰度图像中像素点的梯度幅值和梯度方向。其中，针对所述灰度图像上的两个相互垂直的方向，即x方向和y方向，这两个方向上的Sobel算子可以分别定义如下：

其中，S_x表示x方向上的Sobel算子，用于计算像素点的x方向上的梯度幅值，S_y表示y方向上的Sobel算子，用于计算像素点的y方向上的梯度幅值。所述灰度图像中以指定像素点为中心的3×3像素点集合的每一个像素点的像素值可以分别作为3×3像素值矩阵中的一个元素值，3×3像素点集合的每一个像素点的位置分别作为3×3像素值矩阵中的元素的位置。其中，所述指定像素点可以表示所述灰度图像中任一像素点。这样，可以分别通过x方向上的Sobel算子和y方向上的Sobel算子对所述灰度图像关联的各个3×3像素值矩阵进行卷积运算，可以得到所述灰度图像中各个像素点对应的x方向上的梯度幅值和y方向上的梯度幅值。这时，可以根据所述灰度图像中各个像素点对应的x方向上的梯度幅值和y方向上的梯度幅值，分别确定所述灰度图像中各个像素点的梯度幅值和梯度方向。

在确定所述灰度图像中各个像素点的梯度幅值和梯度方向之后，接着可以针对所述灰度图像中的指定像素点，从所述灰度图像中，分别沿所述指定像素点的梯度方向和与所述指定像素点的梯度方向相反的方向，可以确定与所述指定像素点相邻的第一参考像素点和第二参考像素点。若所述指定像素点的梯度幅值大于所述第一参考像素点的梯度幅值、且所述指定像素点的梯度幅值大于所述第二参考像素点的梯度幅值，便可以将所述指定像素点作为初始边界点。这样，便可以从所述灰度图像中识别出多个初始边界点。最后，可以将确定的这些初始边界点中符合指定条件的初始边界点作为目标边界点，并可以将确定的所述目标边界点构成的区域作为所述边缘区域。其中，所述指定条件具体可以包括所述初始边界点的像素值大于或等于预先设定的较高阈值，或者所述初始边界点的像素值在预先设定的较高阈值和较低阈值之间、且与所述初始边界点相邻的边界点中至少包括一个像素值大于或等于预先设定的较高阈值的初始边界点。其中，所述预先设定的较高阈值大于预先设定的较低阈值。在本实施方式中，为了更加准确地识别所述灰度图像中的边缘区域，在确定所述灰度图像中像素点的梯度幅值和梯度方向之前，还可以对所述灰度图像进行平滑滤波处理，将所述灰度图像中噪声滤除，从而使得平滑滤波处理后的灰度图像的信噪比大于或等于指定信噪比阈值。最后，可以将平滑滤波处理之后的灰度图像替换平滑滤波处理之前的灰度图像。这样，便可以避免所述灰度图像中的噪声对识别边缘区域造成的影响，从而可以使得后续更加准确地识别平滑滤波处理之后的灰度图像中的边缘区域。在实际应用中，平滑滤波处理可以包括邻域平均滤波、中值滤波、高斯滤波、频域滤波等多种方式。

S15：根据所述最大稳定极值区域和所述边缘区域，确定字幕掩码图像。

在本实施方式中，为了便于后续对所述目标图像进行字幕清除处理，在从所述目标图像中确定最大稳定极值区域，并识别所述目标图像中的边缘区域之后，可以根据所述最大稳定极值区域和所述边缘区域，确定字幕掩码图像，以便后续按照确定的字幕掩码图像，仅对目标图像中的字幕进行清除处理，而不会影响到非字幕区域内的图像。具体地，可以先分别生成所述最大稳定极值区域对应的第一字幕掩码图像和所述边缘区域对应的第二字幕掩码图像。例如，可以将所述目标图像中最大稳定极值区域内的像素点的像素值替换为第一指定像素值，并可以将最大稳定极值区域外的像素点的像素值替换为第二指定像素值，得到所述第一字幕掩码图像。其中，所述第一指定像素值与所述第二指定像素值不同，例如，所述第一指定像素值可以为255，所述第二指定像素值可以为0。同样地，也可以将所述边缘区域内的像素点的像素值替换为第一指定像素值，并可以将边缘区域外的像素点的像素值替换为第二指定像素值，得到所述第二字幕掩码图像。然后，可以根据所述第一字幕掩码图像和所述第二字幕掩码图像，确定所述字幕掩码图像。具体地，在实际应用中，由于所述灰度图像中可能部分背景区域内的像素点的像素值与字幕区域内的像素点的像素值相近，这样可能会导致将部分背景区域也作为字幕区域。同时，由于所述灰度图像中可能部分背景区域内的图像的边缘特征也比较明显，这样，也可能会导致将部分背景区域识别为边缘区域，从而将部分背景区域也作为字幕区域，这里可以将误作为字幕区域的背景区域当作噪音区域。但是，误作为字幕区域的边缘区域通常是一些窄的轮廓或线条，而误作为字幕区域的最大稳定极值区域通常是一块面积较大的区块，而且两者误作为字幕区域的背景区域的位置，即噪音区域的为位置往往存在差异。为了得到较精确的字幕掩码图像，可以对所述第一字幕掩码图像和所述第二字幕掩码图像进行与运算，得到所述目标图像对应的字幕掩码图像。具体地，可以将所述第一字幕掩码图像中指定位置处的像素点的像素值与所述第二字幕掩码图像中所述指定位置处的像素点的像素值进行与运算，并将与运算结果作为所述字幕掩码图像中所述指定位置处的像素点的像素值。这样，经过与运算之后，所述第一字幕掩码图像和所述第二字幕掩码图像中不同的噪音区域将会彼此抵消，从而可以得到更加准确的字幕掩码图像。

在一个实施方式中，在实际应用中，由于字幕中某些字的笔划可能会导致上述得到的字幕掩码图像中字幕区域被分割成多个小块，可能容易被误识别为噪声。为了避免这种情况发生，在对所述第一字幕掩码图像和所述第二字幕掩码图像进行与运算之后，可以对与运算结果进行形态学处理，以减少噪声干扰。具体地，可以利用指定结构元素对与运算结果中指定区域内的图像进行腐蚀处理，从而可以消除所述与运算结果中不完全包含所述指定结构元素的噪声点。其中，所述指定区域内的像素点的像素值为所述第一指定像素值。所述与运算结果仍为字幕掩码图像。所述指定结构元素通常可以根据实际图像的大小或分辨率来设定，例如，可以是16×16的像素矩阵，该像素矩阵中各个元素为一个像素点，其像素值可以为所述第一指定像素值。例如，所述第一指定像素值为255，所述指定区域内的像素点的像素值均为255，即所述指定区域为与运算结果中的白色区域。在进行腐蚀处理之后，接着可以利用所述指定结构元素对腐蚀处理后的图像进行膨胀处理，从而可以将所述与运算结果中彼此断裂的小区域连接起来，可以进一步消除噪声干扰，进而得到更加精确的字幕掩码图像。

S17：根据所述字幕掩码图像，对所述目标图像进行字幕清除处理。

在本实施方式中，在确定所述目标图像对应的字幕掩码图像之后，可以根据所述字幕掩码图像，通过线性插值的方式所述目标图像进行字幕消除处理。这样，便可以利用确定的更加精确的字幕掩码图像，对所述目标图像进行更加有效地字幕清除处理，从而可以提高图像字幕的消除效果。具体地，可以获取所述字幕掩码图像中的字幕区域；其中，所述字幕区域内的像素点的像素值大于0。接着，针对所述目标图像中所述字幕区域内的待处理像素点，可以将所述目标图像中所述字幕区域外的区域中与所述待处理像素点邻近的像素点作为参考像素点。例如，可以将所述目标图像中所述目标字幕区域外的区域中，沿所述待处理像素点的正上方和正下方，与所述待处理像素点最邻近的两个像素点作为参考像素点。最后，可以根据所述参考像素点的像素值，以及所述参考像素点与所述待处理像素点之间的距离，确定目标像素值，并可以将所述目标像素值替换所述待处理像素点的像素值。例如，可以将一个参考像素点与所述待处理像素点之间的距离，与上述两个参考像素点分别同所述待处理像素点之间的距离之和的比值，作为该参考像素点对应的权重系数，并可以将两个参考像素点的像素值分别与对应的权重系数的乘积之和作为所述目标像素值。

在本实施方式中，若所述目标图像为灰度图像，上述像素点的像素值可以是像素点的灰度值。这样，在计算所述目标像素值时，可以将两个参考像素点的灰度值分别与对应的权重系数的乘积之和作为所述目标像素值。若所述目标图像为彩色图像，上述像素点的像素值可以是颜色模式中颜色通道的数值。所述颜色模式可以是RGB(Red、Green、Blue，红、绿、蓝)颜色模式、CMYK(Cyan、Magenta、Yellow、Black，青、洋红、黄、黑)颜色模式、HSB(Hue、Saturation、Brightness，色泽、饱和度、亮度)颜色模式、Lab(Luminace，发光率)颜色模式等。每个颜色模式中可以具备多个颜色通道。例如，对于RGB颜色模式而言，可以具备红、绿、蓝三种颜色通道。每个颜色通道均可以对应各自的数值。这样，在对所述目标图像进行字幕清除处理时，可以分别计算各个颜色通道的目标像素值，然后可以分别将各个颜色通道的目标像素值作为所述待处理像素点的各个颜色通道的像素值。

在一个实施方式中，在实际应用中，在采用上述线性插值的方式对所述目标图像进行字幕消除处理之后，得到的字幕消除处理后的目标图像中原字幕区域内的图像可能会出现部分图像不连续的情况。为了避免这种情况发生，在对所述目标图像进行字幕消除处理之后，还可以对所述目标图像中所述目标字幕区域内的局部图像进行平滑滤波处理，从而使得平滑滤波处理后的所述局部图像中相邻两个像素点的像素值之差的绝对值在指定阈值范围内，避免出现图像不连续的情况，以使得字幕消除处理后的图像更加自然。其中，所述指定阈值范围例如可以包括2～15，具体可以根据实际应用情况来设定，此处不做限定。最后，可以将平滑滤波处理之后目标图像替换平滑滤波处理之前的目标图像。

在一个具体应用场景中，所述客户端可以是智能手机，用户通过该智能手机观看一部电视剧中某一集的视频。图2中展示的是从该视频中截取的某个视频帧对应的灰度图像，即所述目标图像对应的灰度图像，如图2所示，该图像中具有“你要老这么亲力亲为的”字幕的字幕区域。用户希望消除目标图像中的字幕，这时，用户可以击该智能手机上展示的目标图像对应的消除字幕的控件，以通过与所述设备建立的远程连接，向所述设备发送包括图像标识的字幕消除请求。其中，所述图像标识用于识别待消除字幕的目标图像。在接收到所述字幕消除请求之后，所述设备可以从所述字幕消除请求中提取所述图像标识。在提取出所述图像标识之后，所述设备可以从所述图像库中读取具有所述图像标识的目标图像，从而可以获取待消除字幕的目标图像。接着可以对所述目标图像进行灰度化处理，得到对应的灰度图像，并可以从所述灰度图像中确定最大稳定极值区域，并识别所述灰度图像中的边缘区域。然后，可以根据所述最大稳定极值区域和所述边缘区域，确定字幕掩码图像。最后，可以根据所述字幕掩码图像，对所述目标图像进行字幕清除处理，得到字幕清除处理后的目标图像。图3中展示的是字幕清除处理后的目标图像对应的灰度图像。对比图2和图3，可以看出，采用本申请的方法可以对图像进行更加有效地字幕清除处理，从而可以提高图像字幕的消除效果。

在本实施方式中，上述方法步骤中实现的功能，可以由计算机程序实现，所述计算机程序可以被存储于计算机存储介质中。具体的，所述计算机存储介质可以与处理器进行耦合，处理器从而可以读取计算机存储介质中的计算机程序。所述计算机程序被处理器执行时，可以实现以下功能：

S11：获取待消除字幕的目标图像；

S13：从所述目标图像中确定最大稳定极值区域，并识别所述目标图像中的边缘区域；

S15：根据所述最大稳定极值区域和所述边缘区域，确定字幕掩码图像；

在一个实施方式中，所述计算机程序被所述处理器执行时，在获取待消除字幕的目标图像之后，若所述目标图像为彩色图像，将所述目标图像转换为对应的灰度图像；相应地，从所述目标图像中确定最大稳定极值区域包括以下步骤：

基于预设的第一像素值阈值对所述灰度图像进行二值化处理，得到至少两个连通区域；

当基于预设的第二像素值阈值对所述灰度图像进行二值化处理时，计算所述连通区域的面积变化量的绝对值与所述连通区域的面积的比值，并将最小比值对应的连通区域作为所述最大稳定极值区域；其中，所述第二像素值阈值与所述第一像素值阈值不同。

在一个实施方式中，所述计算机程序被所述处理器执行时，在从所述目标图像中确定最大稳定极值区域之前，还实现以下步骤：

将所述灰度图像中像素值小于指定阈值的像素点的像素值替换为0，得到新的灰度图像；

相应地，从所述目标图像中确定最大稳定极值区域，包括：从所述新的灰度图像中确定最大稳定极值区域。

在一个实施方式中，所述计算机程序被所述处理器执行时，在获取待消除字幕的目标图像之后，若所述目标图像为彩色图像，将所述目标图像转换为对应的灰度图像；相应地，识别所述目标图像中的边缘区域包括以下步骤：

确定所述灰度图像中像素点的梯度幅值和梯度方向；

针对所述灰度图像中的指定像素点，从所述灰度图像中，分别沿所述指定像素点的梯度方向和与所述指定像素点的梯度方向相反的方向，确定与所述指定像素点相邻的第一参考像素点和第二参考像素点；

若所述指定像素点的梯度幅值大于所述第一参考像素点的梯度幅值、且所述指定像素点的梯度幅值大于所述第二参考像素点的梯度幅值，将所述指定像素点作为初始边界点；

将确定的所述初始边界点中符合指定条件的初始边界点作为目标边界点，并将确定的所述目标边界点构成的区域作为所述边缘区域。

在一个实施方式中，所述计算机程序被所述处理器执行时，在确定所述灰度图像中像素点的梯度幅值和梯度方向之前，识别所述目标图像中的边缘区域还包括以下步骤：

对所述灰度图像进行平滑滤波处理，以使得平滑滤波处理后的灰度图像的信噪比大于或等于指定信噪比阈值；

将平滑滤波处理之后的灰度图像替换平滑滤波处理之前的灰度图像。

在一个实施方式中，所述计算机程序被所述处理器执行时，确定字幕掩码图像包括以下步骤：

分别生成所述最大稳定极值区域对应的第一字幕掩码图像和所述边缘区域对应的第二字幕掩码图像；

根据所述第一字幕掩码图像和所述第二字幕掩码图像，确定所述字幕掩码图像。

在一个实施方式中，所述计算机程序被所述处理器执行时，生成所述最大稳定极值区域对应的第一字幕掩码图像包括以下步骤：

将所述最大稳定极值区域内的像素点的像素值替换为第一指定像素值，并将所述最大稳定极值区域外的像素点的像素值替换为第二指定像素值，得到所述第一字幕掩码图像；其中，所述第一指定像素值与所述第二指定像素值不同。

在一个实施方式中，所述计算机程序被所述处理器执行时，确定所述字幕掩码图像包括以下步骤：

对所述第一字幕掩码图像和所述第二字幕掩码图像进行与运算，得到所述字幕掩码图像。

在一个实施方式中，所述计算机程序被所述处理器执行时，在对所述第一字幕掩码图像和所述第二字幕掩码图像进行与运算之后，确定所述字幕掩码图像还包括以下步骤：

利用指定结构元素对与运算结果中指定区域内的图像进行腐蚀处理；其中，所述指定区域内的像素点的像素值为所述第一指定像素值；

利用所述指定结构元素对腐蚀处理后的图像进行膨胀处理，得到所述字幕掩码图像。

需要说明的是，上述计算机存储介质中的计算机程序所能实现的功能，均可以参照前述的方法实施实施方式，实现的技术效果也与前述方法实施方式中实现的技术效果类似，这里便不再赘述。

在一个实施方式中，所述计算机程序被所述处理器执行时，对所述目标图像进行字幕清除处理包括以下步骤：

获取所述字幕掩码图像中的字幕区域；其中，所述字幕区域内的像素点的像素值大于0；

针对所述目标图像中所述字幕区域内的待处理像素点，将所述目标图像中所述字幕区域外的区域中与所述待处理像素点邻近的像素点作为参考像素点；

根据所述参考像素点的像素值，以及所述参考像素点与所述待处理像素点之间的距离，确定目标像素值，并将所述目标像素值替换所述待处理像素点的像素值。

请参阅图4，本申请还提供一种图像字幕的消除装置。所述装置包括存储器和处理器，所述存储器可以用于存储计算机程序；所述计算机程序被所述处理器执行时，实现以下步骤：

S11：获取待消除字幕的目标图像；

在本实施方式中，所述存储器可以包括用于存储信息的物理装置，通常是将信息数字化后再以利用电、磁或者光学等方法的媒体加以存储。本实施方式所述的存储器又可以包括：利用电能方式存储信息的装置，如RAM、ROM等；利用磁能方式存储信息的装置，如硬盘、软盘、磁带、磁芯存储器、磁泡存储器、U盘；利用光学方式存储信息的装置，如CD或DVD。当然，还有其他方式的存储器，例如量子存储器、石墨烯存储器等等。

在本实施方式中，所述处理器可以按任何适当的方式实现。例如，所述处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。

确定所述灰度图像中像素点的梯度幅值和梯度方向；

本说明书实施方式提供的装置，其存储器和处理器实现的具体功能，可以与本说明书中的前述实施方式相对照解释，并能够达到前述实施方式的技术效果，这里便不再赘述。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

本领域技术人员也知道，除了以纯计算机可读程序代码方式实现客户端、服务器以外，完全可以通过将方法步骤进行逻辑编程来使得客户端、服务器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种客户端、服务器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施方式或者实施方式的某些部分所述的方法。

本说明书中的各个实施方式均采用递进的方式描述，各个实施方式之间相同相似的部分互相参见即可，每个实施方式重点说明的都是与其他实施方式的不同之处。尤其，针对计算机存储介质、服务器和客户端的实施方式来说，均可以参照前述方法的实施方式的介绍对照解释。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

虽然通过实施方式描绘了本申请，本领域普通技术人员知道，本申请有许多变形和变化而不脱离本申请的精神，希望所附的权利要求包括这些变形和变化而不脱离本申请的精神。

Claims

1.一种图像字幕的消除方法，其特征在于，包括：

获取待消除字幕的目标图像；

从所述目标图像中确定最大稳定极值区域，并识别所述目标图像中的边缘区域；

根据所述最大稳定极值区域和所述边缘区域，确定字幕掩码图像；

根据所述字幕掩码图像，对所述目标图像进行字幕清除处理。

2.根据权利要求1所述的方法，其特征在于，在获取待消除字幕的目标图像之后，若所述目标图像为彩色图像，将所述目标图像转换为对应的灰度图像；

相应地，从所述目标图像中确定最大稳定极值区域，包括：

3.根据权利要求2所述的方法，其特征在于，在从所述目标图像中确定最大稳定极值区域之前，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，在获取待消除字幕的目标图像之后，若所述目标图像为彩色图像，将所述目标图像转换为对应的灰度图像；

相应地，识别所述目标图像中的边缘区域，包括：

确定所述灰度图像中像素点的梯度幅值和梯度方向；

5.根据权利要求4所述的方法，其特征在于，在确定所述灰度图像中像素点的梯度幅值和梯度方向之前，识别所述目标图像中的边缘区域，还包括：

6.根据权利要求1所述的方法，其特征在于，确定字幕掩码图像，包括：

7.根据权利要求6所述的方法，其特征在于，生成所述最大稳定极值区域对应的第一字幕掩码图像，包括：

8.根据权利要求7所述的方法，其特征在于，确定所述字幕掩码图像，包括：

9.根据权利要求8所述的方法，其特征在于，在对所述第一字幕掩码图像和所述第二字幕掩码图像进行与运算之后，确定所述字幕掩码图像，还包括：

10.根据权利要求1所述的方法，其特征在于，对所述目标图像进行字幕清除处理，包括：

11.一种图像字幕的消除装置，其特征在于，所述装置包括存储器和处理器，所述存储器用于存储计算机程序；所述计算机程序被所述处理器执行时，实现以下步骤：

获取待消除字幕的目标图像；

12.根据权利要求11所述的装置，其特征在于，所述计算机程序被所述处理器执行时，在获取待消除字幕的目标图像之后，若所述目标图像为彩色图像，将所述目标图像转换为对应的灰度图像；相应地，从所述目标图像中确定最大稳定极值区域包括以下步骤：

13.根据权利要求12所述的装置，其特征在于，所述计算机程序被所述处理器执行时，在从所述目标图像中确定最大稳定极值区域之前，还实现以下步骤：

14.根据权利要求11所述的装置，其特征在于，所述计算机程序被所述处理器执行时，在获取待消除字幕的目标图像之后，若所述目标图像为彩色图像，将所述目标图像转换为对应的灰度图像；相应地，识别所述目标图像中的边缘区域包括以下步骤：

确定所述灰度图像中像素点的梯度幅值和梯度方向；

15.根据权利要求14所述的装置，其特征在于，所述计算机程序被所述处理器执行时，在确定所述灰度图像中像素点的梯度幅值和梯度方向之前，识别所述目标图像中的边缘区域还包括以下步骤：

16.根据权利要求11所述的装置，其特征在于，所述计算机程序被所述处理器执行时，确定字幕掩码图像包括以下步骤：

17.根据权利要求16所述的装置，其特征在于，所述计算机程序被所述处理器执行时，生成所述最大稳定极值区域对应的第一字幕掩码图像包括以下步骤：

18.根据权利要求17所述的装置，其特征在于，所述计算机程序被所述处理器执行时，确定所述字幕掩码图像包括以下步骤：

19.根据权利要求18所述的装置，其特征在于，所述计算机程序被所述处理器执行时，在对所述第一字幕掩码图像和所述第二字幕掩码图像进行与运算之后，确定所述字幕掩码图像还包括以下步骤：

20.根据权利要求11所述的装置，其特征在于，所述计算机程序被所述处理器执行时，对所述目标图像进行字幕清除处理包括以下步骤：