CN114092925A

CN114092925A - 一种视频字幕检测方法、装置、终端设备及存储介质

Info

Publication number: CN114092925A
Application number: CN202010776490.XA
Authority: CN
Inventors: 胡迪; 林染染; 刘阳兴
Original assignee: Wuhan TCL Group Industrial Research Institute Co Ltd
Current assignee: Wuhan TCL Group Industrial Research Institute Co Ltd
Priority date: 2020-08-05
Filing date: 2020-08-05
Publication date: 2022-02-25

Abstract

本申请适用于计算机技术领域，提供了一种视频字幕检测方法、装置、终端设备及存储介质，其中，方法包括：获取视频数据中相邻两帧图像的像素差；当所述像素差大于第一预设阈值时，对所述相邻两帧图像中的目标帧图像进行边缘检测；其中，所述目标帧图像为所述相邻两帧图像中的后一帧图像；获取进行边缘检测后的所述目标帧图像中的连通区域；对所述连通区域进行筛选。本申请在视频数据中相邻两帧图像的像素差大于第一预设阈值时，将相邻两帧图像中的后一帧图像目标帧图像，且对目标帧图像通过先边缘检测，再检测连通区域，并对检测到连通区域进行筛选后，将筛选后的连通区域作为字幕区域，可快速准确的检测出视频数据中的字幕区域。

Description

一种视频字幕检测方法、装置、终端设备及存储介质

技术领域

本申请属于计算机技术领域，尤其涉及一种视频字幕检测方法、装置、终端设备及存储介质。

背景技术

随着计算机和多媒体技术的不断发展，视频已经成为重要的信息传播载体，传播的视频中往往通过后期叠加了各种类型字幕，当需要对视频进行处理时，有时需要检测出视频的字幕区域。

目前的视频字幕检测技术，通常是对视频中每一帧图像的字幕都进行检测，检测的速度和准确性不高。

发明内容

本申请实施例提供了一种视频字幕检测方法、装置、终端设备及存储介质，可快速准确的检测出视频数据中的字幕区域。

第一方面，本申请实施例提供了一种视频字幕检测方法，包括：

获取视频数据中相邻两帧图像的像素差；

当所述像素差大于第一预设阈值时，对所述相邻两帧图像中的目标帧图像进行边缘检测；其中，所述目标帧图像为所述相邻两帧图像中的后一帧图像；

获取进行边缘检测后的所述目标帧图像中的连通区域；

对所述连通区域进行筛选，将筛选后的连通区域作为字幕区域。

第二方面，本申请实施例提供了一种视频字幕检测装置，包括：

第一获取模块，用于获取视频数据中相邻两帧图像的像素差；

检测模块，用于当所述像素差大于第一预设阈值时，对所述相邻两帧图像中的目标帧图像进行边缘检测；其中，所述目标帧图像为所述相邻两帧图像中的后一帧图像；

第二获取模块，用于获取进行边缘检测后的所述目标帧图像中的连通区域；

筛选模块，用于对所述连通区域进行筛选，将筛选后的连通区域作为字幕区域。

第三方面，本申请实施例提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述视频字幕检测方法的步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，上述计算机程序被处理器执行时实现上述视频字幕检测方法的步骤。

第五方面，本申请实施例提供了一种计算机程序产品，当计算机程序产品在电子设备上运行时，使得电子设备执行上述现上述视频字幕检测方法的步骤。

本申请实施例与现有技术相比存在的有益效果是：本申请实施例可获取视频中相邻两帧图像的像素差，在相邻两帧图像的像素差化较大时，即相邻两帧图像的变化比较大时，对所述相邻两帧图像中的目标帧图像进行边缘检测；其中，所述目标帧图像为所述相邻两帧图像中的后一帧图像；获取进行边缘检测后的所述目标帧图像中的连通区域；对所述连通区域进行筛选，将筛选后的连通区域作为字幕区域。由于在视频数据中相邻两帧图像的像素差大于第一预设阈值时，将相邻两帧图像中的后一帧图像目标帧图像，且对目标帧图像通过先边缘检测，再检测连通区域，并对检测到连通区域进行筛选后，将筛选后的连通区域作为字幕区域，可快速准确的检测出视频数据中的字幕区域。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例一提供的视频字幕检测方法的流程示意图；

图2是本申请实施例二提供的视频字幕检测方法的流程示意图；

图3是本申请实施例三提供的视频字幕检测方法的流程示意图；

图4是本申请实施例四提供的视频字幕检测装置的结构示意图；

图5是本申请实施例五提供的终端设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本申请说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

本申请实施例提供的视频字幕检测方法，可以应用于服务器、手机、平板电脑、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本、个人数字助理(personal digital assistant，PDA)等终端设备上，本申请实施例对终端设备的具体类型不作任何限制。

为了说明本申请所述的技术方案，下面通过以下实施例来进行说明。

实施例一

请参阅图1，本申请实施例提供的一种视频字幕检测方法，包括：

步骤S101，获取视频数据中相邻两帧图像的像素差。

在应用中，视频是由多幅帧图像按序构成的，以每秒超过一定数量播放多帧图像时，根据视觉暂留原理，人眼无法分辨播放的是单幅静态画面看上去是平滑连续的视觉效果，这样就形成了视频。对某一段视频中的字幕进行检测时，获取该视频数据中相邻两帧图像的像素变化差值。

在一个实施例中，所述获取视频数据中相邻两帧图像的像素差，包括：计算所述相邻两帧图像中前一帧图像的第一平均像素值；计算所述相邻两帧图像中后一帧图像的第二平均像素值，根据所述第一平均像素值与所述第二平均像素值之间的第一差值，确定所述相邻两帧图像的像素差。

在应用中，具体可计算相邻两帧图像中前一帧图像中所有像素的平均像素值，并作为第一平均像素值；计算相邻两帧图像中后一帧图像中所有像素的平均像素值，并作为第二平均像素值。将第一平均像素值与第二平均像素值之间的差值，作为相邻两帧图像的像素差，此像素差可反映出相邻两帧图像的像素变化。

步骤S102，当所述像素差大于第一预设阈值时，对所述相邻两帧图像中的目标帧图像进行边缘检测；其中，所述目标帧图像为所述相邻两帧图像中的后一帧图像。

在应用中，视频数据中相邻两帧图像的像素差大于第一预设阈值时，表示相邻两帧图像发生了比较大的变化，此时视频中的字幕区域的位置发生变化的可能性比较大，对发生变化较大的相邻两帧图像的后一帧进行边缘检测，以获取相邻两帧图像的后一帧图像中字幕区域的位置，为方便理解，把相邻两帧图像的后一帧图像定义为目标帧图像。

在一个实施例中，所述对所述相邻两帧图像中的目标帧图像进行边缘检测，包括：根据sobel边缘检测算法，对所述相邻两帧图像中的目标帧图像进行边缘检测。当然也可以是通过Laplacian边缘检测算法或Canny边缘检测算法实现边缘检测。

步骤S103，获取进行边缘检测后的所述目标帧图像中的连通区域。

在应用中，边缘检测后的目标帧图像可以理解为是对目标帧图像进行边缘提取后得到的边缘图像，即上述目标帧图像的边缘图像。边缘是区域属性发生突变的地方，是图像中不确定性最大的地方，也是图像信息最集中的地方，图像的边缘包含着丰富的信息。由于字幕一般为了与背景区分，字幕与背景有着较高的对比度特性，这一特性表现于边缘上，也即字幕区域具有丰富的边缘特性，因此可根据检测出目标帧图像的边缘图像的连通区域，确定出字幕区域在目标帧图像中的位置。获取进行边缘检测后的所述目标帧图像中的连通区域可以是：先根据连通区域标记算法，对边缘检测后的所述目标帧图像进行连通区域检测，再获取检测到的连通区域的位置信息。

在一个实施例中，所述获取进行边缘检测后的所述目标帧图像中的连通区域，包括：对所述进行边缘检测后的所述目标帧图像进行预处理；其中，所述预处理用于对所述边缘检测后的所述目标帧图像进行去噪处理；获取进行边缘检测且进行所述预处理后的所述目标帧图像中的连通区域。

在一个实施例中，获取进行边缘检测且进行所述预处理后的所述目标帧图像中的连通区域，包括：获取进行边缘检测且进行所述预处理后的所述目标帧图像中像素值相同且位置相邻的区域。

在应用中，对目标帧图像的边缘图像进行连通区域检测之前，为了抑制背景区域噪声和突显文字，可先进行去除背景噪声突显出文字的预处理，预处理可以是通过形态学滤波算法进行预处理。对目标帧图像的边缘图像通过形态学滤波算法进行预处理，是将形态学应用于边缘图像中消除噪声，具体可将数学形态学作为工具从图像中提取对于表达和描绘区域形状有用的边缘图像分量，采用结构元素的方法实现其边缘检测，能从形态上将噪声和边缘就能区别出来，因此抑制了背景区域的噪声，并凸显出了文字。

在一个实施例中，所述对所述进行边缘检测后的所述目标帧图像进行预处理，包括：对所述进行边缘检测后的所述目标帧图像，通过形态学滤波算法进行预处理；其中，所述形态学滤波算法包括基于开运算的形态学滤波算法、基于闭运算的形态学滤波算法或基于形态学梯度的形态学滤波算法。

在应用中，可采用基于闭运算的形态学滤波算法进行预处理，所述闭运算通过预设的结构元素进行先膨胀后腐蚀的操作。

步骤S104，对所述连通区域进行筛选，将筛选后的连通区域作为字幕区域。

在应用中，对已经检测出来的连通区域进行筛选，具体可根据字幕区域的特性进行筛选，和/或根据目标帧图像与其后一帧图像中的连通区域对应的像素差进行筛选，将筛选后的连通区域作为字幕区域。

在一个实施例中，在对所述连通区域进行筛选，将筛选后的连通区域作为字幕区域之后，还包括：获取所述字幕区域在所述目标帧图像中的位置信息并输出，返回执行所述获取视频数据中相邻两帧图像的像素差的步骤，直到输出所述视频数据中所有字幕区域的位置信息。

在应用中，对目标帧图像的边缘图像进行连通区域检测并筛选之后，将筛选后的连通区域作为字幕区域，并获取字幕区域的位置信息，获取的这个位置即是目标帧图像中字幕区域的位置信息，进而可获取所述字幕区域在所述目标帧图像中的位置信息，并输出该位置信息，继续返回上述步骤S101继续执行获取视频数据中下一个相邻两帧图像的像素差以及后续步骤，继续对视频中的下一个相邻两帧图像进行对应的处理，直到对视频数据中最后的两帧图像也完成了上述获取视频数据中相邻两帧图像的像素差的步骤及后续步骤，就输出了视频数据中所有字幕区域的位置信息。

在具体应用中，输出了视频数据中所有字幕区域的位置信息可以理解为输出了所有目标帧图像中的字幕区域以及所有中间视频帧中的字幕区域，所述中间视频帧为相邻两个目标帧图像中间的视频帧。将与中间视频帧对应相邻两个目标帧图像中前一个目标帧图像的字幕区域的位置，作为该中间视频帧中的字幕区域的位置。

由此可见，在本申请实施例中，在视频数据中相邻两帧图像的像素差大于第一预设阈值时，将相邻两帧图像中的后一帧图像目标帧图像，且对目标帧图像通过先边缘检测，再检测连通区域，并对检测到连通区域进行筛选后，将筛选后的连通区域作为字幕区域，可快速准确的检测出视频数据中的字幕区域。

实施例二

本申请实施例提供一种视频字幕检测方法，本实施例的视频字幕检测包括实施例一中的步骤，与实施例一相同或相似的地方，具体可参见实施例一的相关描述，此处不再赘述，如图2所示，上述步骤S102中的对所述相邻两帧图像中的目标帧图像进行边缘检测具体包括：

步骤S201，分别计算所述目标帧图像与所述目标帧图像的后两帧图像中每个像素点的梯度值。

在应用中，计算目标帧图像中每一个像素点的梯度值、以及分别计算目标帧图像中的后两帧图像中每一个像素点的梯度值，即这三幅图像中每个像素点都计算其对应的梯度值，因此对三幅图像同一位置有三个梯度值，梯度可用来表示该位置相对于相邻位置像素变化的快慢，梯度值的大小具体指示出了变化程度，因此三个梯度值分别表示三幅图像同一位置像素的变化程度，由于在视频中连续两帧间的像素差大于第一阈值时，目标帧图像是这连续两帧图像的后一帧，可以理解为视频画面发送了突变，这时为了满足视觉的暂留原理，目标帧图像后的30到60帧都会是和目标帧为关联性比较大的视频帧，目标帧图像与所述目标帧图像的后两帧图像的关联性比较大，取与目标帧图与后两帧图像对应位置三个梯度中的中位数能更平稳的表示的图像边缘的变化率，可防止某一帧图像因为抖动或噪声等问题造成边缘检测不准确，从而能更准确的确定目标帧图像进行边缘检测。

步骤S202，获取所述目标帧图像与所述后两帧图像中位置相同的像素点的梯度值的中位数，作为进行边缘检测后的目标帧图像中对应位置的像素点的像素值。

在应用中，获取目标帧图像与目标帧图像后两帧图像中位置相同像素点的梯度值的中位数。每个位置相同的像素点对应会有三个梯度值，取这三个梯度值的中位数，作为目标帧图像的边缘图像对应位置像素点的像素值。是在分别计算目标帧图像与目标帧图像的后两帧图像中每个像素的梯度值后，会得到每个像素点对应的三个梯度值，取每个像素点对应三个梯度值的中间大小的梯度值作为边缘检测后的所述目标帧图像对应位置像素的像素值。

由此可见，在本申请实施例中，分别计算所述目标帧图像与所述目标帧图像的后两帧图像中每个像素点的梯度值，获取所述目标帧图像与所述后两帧图像中位置相同的像素点的梯度值的中位数，作为进行边缘检测后的目标帧图像中对应位置的像素点的像素值，能准确地对所述相邻两帧图像中的目标帧图像进行边缘检测。

实施例三

本申请实施例提供一种视频字幕检测方法，本实施例的视频字幕检测包括实施例一和/或实施例二中的步骤，与实施例一和/或实施例二中相同或相似的地方，具体可参见实施例一和/或实施例二的相关描述，此处不再赘述，如图3所示，上述步骤S104具体包括：

步骤S301，从所述连通区域中筛选出尺寸在预设尺寸范围内的连通区域，得到目标连通区域。

在应用中，视频中的字幕为了满足人眼的视力要求，尺寸通常不会小于某一个最小值，也不会超过视频帧高度的二分之一，且基于文字本身的结构特点，还需要满足一定的长宽比约束。因此根据文字属性预设大小范围属性和长宽比值范围属性，从检测到的连通区域中，筛选出满足所述预设大小范围属性和长宽比值范围属性的连通区域，得到目标连通区域；

步骤S302，获取所述目标帧图像中位于所述连通区域的所有像素点的第三平均像素值。

在应用中，计算目标帧图像中位于连通区域中所有像素点的平均像素值作为第三平均像素值。当连通区域为多个时，分别计算每一个连通区域中所有像素点的平均像素值。

步骤S303，获取所述目标帧图像的后一帧图像中所述目标连通区域对应的第四平均像素值。

在应用中，计算目标帧图像的后一帧图像中位于连通区域中所有像素点的平均像素值作为第四平均像素值。同样当连通区域为多个时，分别计算每一个连通区域中所有像素点的平均像素值。

步骤S304，根据所述第三平均像素值与所述第四平均像素值之间的第二差值，筛选出第一连通区域中第二差值小于预设第二阈值的区域，作为字幕区域。

在应用中，为了满足视觉特性，一般对视频后期叠加的文本在连续的30帧至60帧或更多帧中是保持不变的。因此可根据对目标帧图像与目标帧图像后一帧图像对应连通区域位置的像素差，进一步剔除掉不是字幕区域的连通区域。从第一连通区域中，筛选出第二差值小于预设第二阈值的区域作为字幕区域，能更准确的检测出字幕区域，从而获取字幕区域的位置更准确。

由此可见，在本申请实施例中，对所述连通区域进行两次筛选，将筛选后的连通区域作为字幕区域，能更准确的检测出字幕区域。

实施例四

对应于上文实施例所述的字幕检测方法，图4示出了本申请实施例提供的字幕检测装置的结构框图，为了便于说明，仅示出了与本申请实施例相关的部分。

参照图4，视频字幕检测装置400包括：

第一获取模块401，用于获取视频数据中相邻两帧图像的像素差；

检测模块402，用于当所述像素差大于第一预设阈值时，对所述相邻两帧图像中的目标帧图像进行边缘检测；其中，所述目标帧图像为所述相邻两帧图像中的后一帧图像；

第二获取模块403，用于获取进行边缘检测后的所述目标帧图像中的连通区域；

筛选模块404，用于对所述连通区域进行筛选，将筛选后的连通区域作为字幕区域；

在一个实施例中，视频字幕检测装置400还包括：

输出模块，用于获取所述字幕区域在所述目标帧图像中的位置信息并输出，返回执行所述获取视频数据中相邻两帧图像的像素差的步骤，直到输出所述视频数据中所有字幕区域的位置信息。

在一个实施例中，所述第一获取模块401，包括：

第一计算单元，用于计算所述相邻两帧图像中前一帧图像的第一平均像素值；

第二计算单元，用于计算所述相邻两帧图像中后一帧图像的第二平均像素值；

确定单元，用于根据所述第一平均像素值与所述第二平均像素值之间的第一差值，确定所述相邻两帧图像的像素差。

在一个实施例中，所述检测模块402具体用于：当所述像素差大于第一预设阈值时，分别计算所述目标帧图像与所述目标帧图像的后两帧图像中每个像素点的梯度值；

获取所述目标帧图像与所述后两帧图像中位置相同的像素点的梯度值的中位数，作为所述目标帧图像中对应位置的像素点的像素值。

在一个实施例中，所述检测模块402具体用于：根据sobel边缘检测算法，对所述相邻两帧图像中的目标帧图像进行边缘检测。

在一个实施例中，第二获取模块403，包括：

预处理单元，用于对所述进行边缘检测后的所述目标帧图像进行预处理；

连通区域获取单元，用于获取进行边缘检测且进行所述预处理后的所述目标帧图像中的连通区域。

在一个实施例中，所述获取进行边缘检测且进行所述预处理后的所述目标帧图像中的连通区域，包括：获取进行边缘检测且进行所述预处理后的所述目标帧图像中像素值相同且位置相邻的区域。

在一个实施例中，所述预处理单元具体用于：对所述进行边缘检测后的所述目标帧图像，通过形态学滤波算法进行预处理。

在一个是实施例中，筛选模块404，包括：

第一筛选单元，用于从所述连通区域中筛选出尺寸在预设尺寸范围内的连通区域，得到目标连通区域；

第一获取单元，用于获取所述目标帧图像中位于所述目标连通区域的所有像素点的第三平均像素值；

第二获取单元，用于获取所述目标帧图像的后一帧图像中所述目标连通区域对应的第四平均像素值；

第二筛选单元，用于根据所述第三平均像素值与所述第四平均像素值之间的第二差值，筛选出第一连通区域中第二差值小于预设第二阈值的区域，作为字幕区域。

由此可见，本申请实施例在视频数据中相邻两帧图像的像素差大于第一预设阈值时，将相邻两帧图像中的后一帧图像目标帧图像，且对目标帧图像通过先边缘检测，再检测连通区域，并对检测到连通区域进行筛选后，将筛选后的连通区域作为字幕区域，可快速准确的检测出视频数据中的字幕区域。

实施例五

如图5所示，本发明的一个实施例还提供一种终端设备500包括：处理器501，存储器502以及存储在所述存储器502中并可在所述处理器501上运行的计算机程序503，例如视频字幕检测程序。所述处理器501执行所述计算机程序503时实现上述各个视频字幕检测方法实施例中的步骤，例如实施例一，实施例二，和/或实施例三中的方法步骤。所述处理器501执行所述计算机程序503时实现上述各装置实施例中各模块的功能，例如图4所示模块401至404的功能。

示例性的，所述计算机程序503可以被分割成一个或多个模块，所述一个或者多个模块被存储在所述存储器502中，并由所述处理器501执行，以完成本发明。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序503在所述终端设备500中的执行过程。例如，所述计算机程序503可以被分割成第一获取模块，检测模块，第二获取模块，筛选模块，各模块具体功能在上述实施例四中已有描述，此处不再赘述。

所述终端设备500可以是服务器、桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括，但不仅限于，处理器501，存储器502。本领域技术人员可以理解，图5仅仅是终端设备500的示例，并不构成对终端设备500的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器501可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器502可以是所述终端设备500的内部存储单元，例如终端设备500的硬盘或内存。所述存储器502也可以是所述终端设备500的外部存储设备，例如所述终端设备500上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(SecureDigital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器502还可以既包括所述终端设备500的内部存储单元也包括外部存储设备。所述存储器502用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器502还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种视频字幕检测方法，其特征在于，包括：

获取视频数据中相邻两帧图像的像素差；

获取进行边缘检测后的所述目标帧图像中的连通区域；

2.根据权利要求1所述的视频字幕检测方法，其特征在于，所述获取视频数据中相邻两帧图像的像素差，包括：

计算所述相邻两帧图像中前一帧图像的第一平均像素值；

计算所述相邻两帧图像中后一帧图像的第二平均像素值；

根据所述第一平均像素值与所述第二平均像素值之间的第一差值，确定所述相邻两帧图像的像素差。

3.根据权利要求1所述的视频字幕检测方法，其特征在于，所述对所述相邻两帧图像中的目标帧图像进行边缘检测，包括：

分别计算所述目标帧图像与所述目标帧图像的后两帧图像中每个像素点的梯度值；

获取所述目标帧图像与所述后两帧图像中位置相同的像素点的梯度值的中位数，作为进行边缘检测后的目标帧图像中对应位置的像素点的像素值。

4.根据权利要求1所述的视频字幕检测方法，其特征在于，所述对所述相邻两帧图像中的目标帧图像进行边缘检测，包括：

根据sobel边缘检测算法，对所述相邻两帧图像中的目标帧图像进行边缘检测。

5.根据权利要求1所述的视频字幕检测方法，其特征在于，所述获取进行边缘检测后的所述目标帧图像中的连通区域，包括：

对所述进行边缘检测后的所述目标帧图像进行预处理；

获取进行边缘检测且进行所述预处理后的所述目标帧图像中的连通区域。

6.根据权利要求5所述的视频字幕检测方法，其特征在于，所述获取进行边缘检测且进行所述预处理后的所述目标帧图像中的连通区域，包括：

获取进行边缘检测且进行所述预处理后的所述目标帧图像中像素值相同且位置相邻的区域。

7.根据权利要求5所述的视频字幕检测方法，其特征在于，所述对所述进行边缘检测后的所述目标帧图像进行预处理，包括：

对所述进行边缘检测后的所述目标帧图像，通过形态学滤波算法进行预处理。

8.根据权利要求1所述的视频字幕检测方法，其特征在于，所述对所述连通区域进行筛选，将筛选后的连通区域作为字幕区域，包括：

从所述连通区域中筛选出尺寸在预设尺寸范围内的连通区域，得到目标连通区域；

获取所述目标帧图像中位于所述目标连通区域的所有像素点的第三平均像素值；

获取所述目标帧图像的后一帧图像中所述目标连通区域对应的第四平均像素值；

根据所述第三平均像素值与所述第四平均像素值之间的第二差值，筛选出第一连通区域中第二差值小于预设第二阈值的区域，作为字幕区域。

9.根据权利要求1至8任一项所述视频字幕检测方法，其特征在于，在对所述连通区域进行筛选，将筛选后的连通区域作为字幕区域之后，还包括：

获取所述字幕区域在所述目标帧图像中的位置信息并输出，返回执行所述获取视频数据中相邻两帧图像的像素差的步骤，直到输出所述视频数据中所有字幕区域的位置信息。

10.一种视频字幕检测装置，其特征在于，包括：

11.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至9任一项所述的方法的步骤。

12.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至9任一项所述的方法的步骤。