CN108769776A

CN108769776A - 标题字幕检测方法、装置及电子设备

Info

Publication number: CN108769776A
Application number: CN201810550632.3A
Authority: CN
Inventors: 李冠楠
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2018-05-31
Filing date: 2018-05-31
Publication date: 2018-11-06
Anticipated expiration: 2038-05-31
Also published as: CN108769776B

Abstract

本发明实施例提供了一种标题字幕检测方法、装置及电子设备，该方法包括：确定待测视频段的每帧视频图像的标题区域；依次对待测视频段的每帧视频图像的标题区域进行字幕检测，确定目标字幕；在目标字幕首次显示在标题区域中时对应的视频图像之前，选取连续第二预设数量帧视频图像；判断第二预设数量帧视频图像的标题区域之间是否存在渐变动画，如果存在，则确定目标字幕为标题字幕。本发明实施例通过判断连续第二预设数量帧视频图像的标题区域之间是否存在渐变动画，进而判断出目标字幕是否为标题字幕，避免了因标题字幕与滚动字幕的背景颜色与文字颜色均相同时，造成标题字幕检测的准确率低的情况。

Description

标题字幕检测方法、装置及电子设备

技术领域

本发明涉及视频检测技术领域，特别是涉及一种标题字幕检测方法、装置及电子设备。

背景技术

视频是人们获取信息的重要途径之一，在视频播放画面的标题区域内所显示的标题字幕可以体现视频的重要内容。但是，在视频播放过程中，标题区域内也经常会显示滚动字幕，这些滚动字幕以文本的方式为观众提供附加信息，该附加信息通常为广告、重要通知、或者视频播放画面中采访者以及被采访者说话的内容。在对视频的标题区域进行标题字幕检测时需要消除滚动字幕的影响，正确判断出标题区域内所显示的字幕为标题字幕。

现有技术中，通常根据滚动字幕与标题字幕的背景颜色及文字颜色进行区分，但是，当标题字幕与滚动字幕的背景颜色与文字颜色均相同时，则现有技术不能将标题字幕与滚动字幕进行区分，即不能判断出标题区域内显示的字幕是否为标题字幕，降低了标题字幕检测的准确率。

发明内容

本发明实施例的目的在于提供一种标题字幕检测方法、装置及电子设备，以提高标题字幕检测的准确率。具体技术方案如下：

第一方面，本发明实施例提供了一种标题字幕检测方法，所述方法包括：

确定待测视频段的每帧视频图像的标题区域；

依次对所述待测视频段的每帧视频图像的标题区域进行字幕检测，确定目标字幕，其中，所述目标字幕为在连续第一预设数量帧视频图像的标题区域中显示的字幕，且所述第一预设数量帧视频图像中每帧视频图像的标题区域中显示的字幕相同；

在所述目标字幕首次显示在所述标题区域中时对应的视频图像之前，选取连续第二预设数量帧视频图像；

判断所述第二预设数量帧视频图像的标题区域之间是否存在渐变动画，如果存在，则确定所述目标字幕为标题字幕。

可选的，所述方法还包括：

如果所述第二预设数量帧视频图像的标题区域之间不存在渐变动画，统计所述目标字幕连续显示在所述标题区域中时对应的视频图像的总帧数；

判断所述总帧数是否不小于第一预设阈值，如果所述总帧数不小于所述第一预设阈值，则确定所述目标字幕为标题字幕。

可选的，所述判断所述第二预设数量帧视频图像的标题区域之间是否存在渐变动画，如果存在，则确定所述目标字幕为标题字幕的步骤，包括：

计算每相邻两帧视频图像的目标字幕区域内位置相同的图像像素点之间的像素差异值，其中，所述每相邻两帧视频图像为所述第二预设数量帧视频图像中的两帧视频图像，所述目标字幕区域为所述目标字幕在所述标题区域中的位置；

对所述每相邻两帧视频图像的目标字幕区域内所有位置相同的图像像素点之间的像素差异值进行相加求和，得到像素差异值之和；

判断所述像素差异值之和是否大于第二预设阈值且小于第三预设阈值，如果所述像素差异值之和大于第二预设阈值且小于第三预设阈值，则确定所述每相邻两帧视频图像的标题区域之间存在渐变动画；

当检测到连续第三预设数量帧视频图像的标题区域之间均存在渐变动画时，确定所述目标字幕为标题字幕。

可选的，所述计算每相邻两帧视频图像的目标字幕区域内位置相同的图像像素点之间的像素差异值的步骤，包括：

对所述每相邻两帧视频图像的目标字幕区域内每个图像像素点进行灰度变换；

采用如下公式计算所述每相邻两帧视频图像的目标字幕区域内位置相同的图像像素点之间的像素差异值：

其中，为所述目标字幕区域内位置相同的图像像素点之间的像素差异值，为第f帧视频图像中目标字幕区域内图像像素点的灰度值，为第f-1帧视频图像中目标字幕区域内图像像素点的灰度值，第f帧视频图像与第f-1帧视频图像为所述第二预设数量帧视频图像中相邻的两帧视频图像，θ为设定的灰度阈值，α为设定的缩放因子。

第二方面，本发明实施例提供了一种标题字幕检测装置，所述装置包括：

第一确定模块，用于确定待测视频段的每帧视频图像的标题区域；

第二确定模块，用于依次对所述待测视频段的每帧视频图像的标题区域进行字幕检测，确定目标字幕，其中，所述目标字幕为在连续第一预设数量帧视频图像的标题区域中显示的字幕，且所述第一预设数量帧视频图像中每帧视频图像的标题区域中显示的字幕相同；

选取模块，用于在所述目标字幕首次显示在所述标题区域中时对应的视频图像之前，选取连续第二预设数量帧视频图像；

第一判断模块，用于判断所述第二预设数量帧视频图像的标题区域之间是否存在渐变动画，如果存在，则确定所述目标字幕为标题字幕。

可选的，所述装置还包括：

统计模块，用于如果所述第二预设数量帧视频图像的标题区域之间不存在渐变动画，统计所述目标字幕连续显示在所述标题区域中时对应的视频图像的总帧数；

第二判断模块，用于判断所述总帧数是否不小于第一预设阈值，如果所述总帧数不小于所述第一预设阈值，则确定所述目标字幕为标题字幕。

可选的，所述第一判断模块，包括：

计算子模块，用于计算每相邻两帧视频图像的目标字幕区域内位置相同的图像像素点之间的像素差异值，其中，所述每相邻两帧视频图像为所述第二预设数量帧视频图像中的两帧视频图像，所述目标字幕区域为所述目标字幕在所述标题区域中的位置；

相加求和子模块，用于对所述每相邻两帧视频图像的目标字幕区域内所有位置相同的图像像素点之间的像素差异值进行相加求和，得到像素差异值之和；

判断子模块，判断所述像素差异值之和是否大于第二预设阈值且小于第三预设阈值，如果所述像素差异值之和大于第二预设阈值且小于第三预设阈值，则确定所述每相邻两帧视频图像的标题区域之间存在渐变动画；

确定子模块，用于当检测到连续第三预设数量帧视频图像的标题区域之间均存在渐变动画时，确定所述目标字幕为标题字幕。

可选的，所述计算子模块，具体用于：

第三方面，本发明实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序，实现第一方面任一所述的方法步骤。

第四方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现第一方面任一所述的标题字幕检测方法的步骤。

第五方面，本发明实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行第一方面任一所述的标题字幕检测方法的步骤。

本发明实施例提供的标题字幕检测方法、装置及电子设备，可以通过对待测视频段的每帧视频图像的标题区域进行字幕检测，确定目标字幕，也即是确定需要检测的字幕，然后通过判断在目标字幕首次显示在标题区域中时对应的视频图像之前选取的连续第二预设数量帧视频图像的标题区域之间是否存在渐变动画，进而判断出目标字幕是否为标题字幕，避免了因标题字幕与滚动字幕的背景颜色与文字颜色均相同时，造成标题字幕检测的准确率低的情况。当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例提供的一种标题字幕检测方法的流程示意图；

图2为本发明实施例提供的一种标题区域中显示目标字幕的视频图像示意图；

图3为本发明实施例提供的另一种标题区域中显示目标字幕的视频图像示意图；

图4为本发明实施例提供的又一种标题区域中显示目标字幕的视频图像示意图；

图5为本发明实施例提供的又一种标题区域中显示目标字幕的视频图像示意图；

图6为本发明实施例提供的一种标题字幕检测方法的另一流程示意图；

图7为本发明实施例提供的一种标题字幕检测装置的结构示意图；

图8为本发明实施例提供的一种电子设备结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

为了提高标题字幕检测的准确率，本发明实施例提供了一种标题字幕检测方法、装置及电子设备，通过对待测视频段的每帧视频图像的标题区域进行字幕检测，确定目标字幕，也即是确定需要检测的字幕，然后通过判断在目标字幕首次显示在标题区域中时对应的视频图像之前连续选取的预设帧视频图像的标题区域之间是否存在渐变动画，进而判断出目标字幕是否为标题字幕，避免了因标题字幕与滚动字幕的背景颜色与文字颜色均相同时，造成标题字幕检测的准确率低的情况。

本发明实施例提供了一种标题字幕检测方法，如图1所示，该方法包括：

S101，确定待测视频段的每帧视频图像的标题区域。

本发明实施例中，在确定待测视频段的每帧视频图像的标题区域之前，可以获取待检测视频段，该待检测视频段由连续的多帧视频图像组成。例如，该待检测视频段可以由400帧视频图像组成。在实际应用场景中，技术人员可以根据具体需求对待检测视频段的帧数进行设定，本发明实施例对此不作限定。其中，获取的待检测视频段可以是技术人员输入的视频段，也可以通过其他方法获得。

在获取到待检测视频段后，可以根据输入的坐标参数，确定待检测视频段的每帧视频图像的标题区域，该坐标参数用于确定每帧视频图像中标题区域的具体位置。示例的，当该标题区域的形状为矩形时，可以输入四个坐标参数，根据这四个坐标参数，在每帧视频图像中确定四个顶点，并确定由这四个顶点围成的矩形框，该矩形框所包围的区域即为每帧视频图像的标题区域。由于待测视频段为已播放的视频段，技术人员可以根据实际情况设定输入的坐标参数值。在实际应用场景中，技术人员可以根据具体需求设定输入的坐标参数的个数，本发明实施例对此不作限定。

S102，依次对待测视频段的每帧视频图像的标题区域进行字幕检测，确定目标字幕。

其中，上述目标字幕为在连续第一预设数量帧视频图像的标题区域中显示的字幕，且第一预设数量帧视频图像中每帧视频图像的标题区域中显示的字幕相同。这是由于显示在标题区域中的目标字幕具有稳定性，即可以在连续多帧视频图像的标题区域中显示。示例的，在标题字幕检测过程中，如果连续15帧视频图像的标题区域中均有字幕显示，且这15帧视频图像的标题区域中所显示字幕均相同时，则可以将该字幕确定为目标字幕，该目标字幕也即是本发明实施例中需要检测的字幕。在实际应用场景中，技术人员可以根据具体需求对第一预设数量帧的值进行设定，本发明实施例对此不作限定。

本发明实施例中，可以将标题区域中有字幕显示时对应的视频图像作为当前帧视频图像，当检测到当前帧的下一帧视频图像的标题区域中有字幕显示时，可以将下一帧视频图像的标题区域中显示的字幕与当前帧视频图像的标题区域中显示的字幕进行比较，判断这相邻两帧视频图像的标题区域中显示的字幕是否相同。如果连续第一预设数量帧视频图像的标题区域中均有字幕显示，且这连续第一预设数量帧视频图像的标题区域中所显示字幕均相同时，将该字幕确定为目标字幕。其中，判断相邻两帧视频图像的标题区域中显示的字幕是否相同时，可以先在相邻两帧视频图像的标题区域中确定字幕区域，然后比较相邻两帧视频图像的字幕区域中的像素点的个数是否相同，且在字幕区域中位置相同的像素点的像素值是否相等，如果满足这两种情况，则相邻两帧视频图像的标题区域中显示的字幕相同。

S103，在目标字幕首次显示在标题区域中时对应的视频图像之前，选取连续第二预设数量帧视频图像。

本发明实施例中，目标字幕首次显示在标题区域中时对应的视频图像，指的是第一预设数量帧视频图像中的第一帧视频图像。例如，当第一预设数量帧视频图像为待测视频段中的第41帧至第55帧之间的15帧视频图像时，则目标字幕首次显示在标题区域中时对应的视频图像为第41帧视频图像，本发明实施例可以在第41帧视频图像之前，选取连续第二预设数量帧视频图像。由于待测视频段在播放过程中，目标字幕是缓慢显示在每帧视频图像的标题区域中，例如，目标字幕共有十个字符，可以先在标题区域中显示两个字符，再显示四个字符，直至十个字符完全显示在标题区域中，则第41帧视频图像即为这十个字符首次完全显示在标题区域中时对应的视频图像。

示例的，图2至图5是本发明实施例提供的一种标题区域中显示目标字幕的视频图像示意图，如图2至图5所示，该视频图像包括标题区域A。假设目标字幕共有十个字符，如字符“××××××××××”，如图2所示，视频图像的标题区域A中显示的字幕为是目标字幕的前两个字符，如图中所示的字幕“××”；如图3所示，视频图像的标题区域A中显示的字幕为是目标字幕的前四个字符，如图中所示的字幕“××××”；如图4所示，视频图像的标题区域A中显示的字幕为是目标字幕的前七个字符，如图中所示的字幕“×××××××”；如图5所示，视频图像的标题区域A中显示的字幕是目标字幕的十个字符，如图中所示的字幕“××××××××××”。图2至图5所示的这四帧视频图像为待测视频段中连续的四帧视频图像，即图5所示的视频图像即为目标字幕首次完全显示在标题区域中时所对应的视频图像。其中，图2至图5所示的视频图像、标题区域中显示的目标字幕的字符个数、以及目标字幕缓慢显示在标题区域中时对应的视频图像的帧数仅为示意性说明，本发明实施例对此不作限定。

可以理解的是，选取的连续第二预设数量帧视频图像，指的是该目标字幕未完全显示在标题区域中时所对应的视频图像。其中，第二预设数量帧的值可以设定为20帧，即在目标字幕首次显示在标题区域中时对应的视频图像之前，可以选取连续20帧视频图像，作为本发明实施例中待检测的视频图像。在实际应用场景中，技术人员可以根据具体需求对第二预设数量帧的值进行设定，本发明实施例对此不作限定。

此外，在保证检测准确率高的前提下，本发明实施例可以在目标字幕首次显示在标题区域中时对应的视频图像之前及之后，均选取一定数量帧视频图像，作为待检测的视频图像。例如，在实际应用中，选取的一定数量帧视频图像的区间可以为其中，表示目标字幕首次显示在标题区域中时对应的视频图像的帧号，即第一预设数量帧视频图像中第一帧视频图像的帧号，f_valid表示第一预设数量帧视频图像中最后一帧视频图像的帧号与第一帧视频图像的帧号之间的差值，α₁、α₂为设定的参数，该α₁、α₂的取值范围可以为(0，1)，例如，技术人员可以将该α₁和α₂的取值设定为0.2。实际应用场景中，技术人员可以根据具体需求对α₁和α₂取值进行设定，本发明实施例对此不作限定。

在实际应用中，可以将已检测的每帧视频图像按照顺序存储在图像缓存器中。即可以在图像缓存器中选取连续第二预设数量帧视频图像。该图像缓存器的容量可以为1000，即该图像缓存器最多可以存储1000帧视频图像。在实际应用场景中，技术人员可以根据具体需求设定图像缓存器的容量，本发明实施例对此不作限定。

S104，判断第二预设数量帧视频图像的标题区域之间是否存在渐变动画，如果存在，则执行步骤S105。

由于标题字幕在缓慢显示在标题区域中时，每相邻两帧视频图像的标题区域之间存在渐变动画，因此，本发明实施例可以在目标字幕首次显示在标题区域中时对应的视频图像之前，选取连续第二预设数量帧视频图像，通过判断选取的连续第二预设数量帧视频图像的标题区域之间是否存在渐变动画，进而判断该目标字幕是否为标题字幕。具体实现方法如下：

步骤一，计算每相邻两帧视频图像的目标字幕区域内位置相同的图像像素点之间的像素差异值，其中，每相邻两帧视频图像为第二预设数量帧视频图像中的两帧视频图像，目标字幕区域为目标字幕在标题区域中的位置。在实际应用中，当在标题区域中检测到目标字幕后，可以设定一个包围该目标字幕区域的矩形框，该矩形框所围成的区域即为目标字幕区域。

具体的，在计算每相邻两帧视频图像的目标字幕区域内位置相同的图像像素点之间的像素差异值之前，可以对每相邻两帧视频图像的目标字幕区域内每个图像像素点进行灰度变换。示例的，可以根据公式L(x，y)＝0.3×R(x，y)+0.59×G(x，y)+0.11×B(x，y)，计算该目标字幕区域内每个图像像素点的灰度值。其中，L(x，y)表示目标字幕区域内每个图像像素点的灰度值，R(x，y)、G(x，y)及B(x，y)分别为该图像像素点的RGB颜色的红、绿、蓝分量。

对每相邻两帧视频图像的目标字幕区域内每个图像像素点进行灰度变换后，可以采用如下公式计算每相邻两帧视频图像的目标字幕区域内位置相同的图像像素点之间的像素差异值：

其中，为目标字幕区域内位置相同的图像像素点之间的像素差异值，为第f帧视频图像中目标字幕区域内图像像素点的灰度值，为第f-1帧视频图像中目标字幕区域内图像像素点的灰度值，第f帧视频图像与第f-1帧视频图像为第二预设数量帧视频图像中相邻的两帧视频图像，θ为设定的灰度阈值，α为设定的缩放因子。其中，和的取值范围是[0，255]，缩放因子α用于控制每相邻两帧视频图像的标题区域之间存在的渐变动画的显著性，即通过α调整像素差异值，α的取值范围可以为[0，1]，灰度阈值θ的取值范围可以为[0，255]，例如可以将α设定为将θ设定为2，在实际应用场景中，技术人员可以根据具体需求设定α与θ，本发明实施例对此不作限定。

步骤二，对每相邻两帧视频图像的目标字幕区域内所有位置相同的图像像素点之间的像素差异值进行相加求和，得到像素差异值之和。

步骤三，判断像素差异值之和是否大于第二预设阈值且小于第三预设阈值，如果像素差异值之和大于第二预设阈值且小于第三预设阈值，则确定每相邻两帧视频图像的标题区域之间存在渐变动画。

其中，第二预设阈值、第三预设阈值的取值范围可以为[0，255]，且第三预设阈值大于第二预设阈值，例如，可以将第二预设阈值设定为1，第三预设阈值设定为8，在实际应用场景中，技术人员可以根据具体需求设定第二预设阈值和第三预设阈值，本发明实施例对此不作限定。

S105，确定目标字幕为标题字幕。

在实际应用中，依次判断第二预设数量帧视频图像中每相邻两帧视频图像的标题区域之间是否存在渐变动画，当检测到连续第三预设数量帧视频图像的标题区域之间均存在渐变动画时，则确定目标字幕为标题字幕。

本发明实施例提供的一种标题字幕检测方法，可以通过对待测视频段的每帧视频图像的标题区域进行字幕检测，确定目标字幕，也即是确定需要检测的字幕，然后通过判断在目标字幕首次显示在标题区域中时对应的视频图像之前选取的连续第二预设数量帧视频图像的标题区域之间是否存在渐变动画，进而判断出目标字幕是否为标题字幕，避免了因标题字幕与滚动字幕的背景颜色与文字颜色均相同时，造成标题字幕检测的准确率低的情况。

作为本发明实施例的一种实施方式，如图6所示，本发明实施例提供的标题字幕检测方法可以包括：

S601，确定待测视频段的每帧视频图像的标题区域。

S602，依次对待测视频段的每帧视频图像的标题区域进行字幕检测，确定目标字幕，其中，目标字幕为在连续第一预设数量帧视频图像的标题区域中显示的字幕，且第一预设数量帧视频图像中每帧视频图像的标题区域中显示的字幕相同。

S603，在目标字幕首次显示在标题区域中时对应的视频图像之前，选取连续第二预设数量帧视频图像。

S604，判断第二预设数量帧视频图像的标题区域之间是否存在渐变动画，如果不存在，则执行步骤S605；如果存在，则执行步骤S607。

S605，统计目标字幕连续显示在标题区域中时对应的视频图像的总帧数。

由于目标字幕可以在连续多帧视频图像的标题区域中显示，则可以依次对未进行字幕检测的视频图像的标题区域进行字幕检测，未进行字幕检测的视频图像指的是第一预设数量帧视频图像中最后一帧视频图像之后的多帧视频图像。在实际应用中，当检测到目标字幕不在标题区域中显示的视频图像时，统计目标字幕连续显示在标题区域中时对应的视频图像的总帧数。

示例的，可以根据公式计算目标字幕连续显示在标题区域中时对应的视频图像的总帧数。其中，countⁱ表示目标字幕连续显示在标题区域中时对应的视频图像的总帧数，表示目标字幕不在标题区域中显示时对应的视频图像的帧号，表示目标字幕首次显示在标题区域中时对应的视频图像的帧号。

S606，判断总帧数是否不小于第一预设阈值，如果总帧数不小于第一预设阈值，则执行步骤S607。

本发明实施例中，由于目标字幕可以在连续多帧视频图像的标题区域中显示，则可以通过判断目标字幕连续显示在标题区域中时对应的视频图像的总帧数是否不小于第一预设阈值，进一步判断目标字幕是否为标题字幕。如果总帧数不小于第一预设阈值，则确定该目标字幕为标题字幕；如果总帧数小于第一预设阈值，则确定该目标字幕为滚动字幕。其中，第一预设阈值的取值可以为300，在实际应用场景中，技术人员可以根据具体需求设定第一预设阈值，本发明实施例对此不作限定。

S607，确定目标字幕为标题字幕。

上述步骤S601-S604及步骤S607与图1所示实施例中步骤S101-S105基本相同，在此不进行赘述。

本发明实施例提供了一种标题字幕检测装置，如图7所示，该装置包括：

第一确定模块710，用于确定待测视频段的每帧视频图像的标题区域。

第二确定模块720，用于依次对待测视频段的每帧视频图像的标题区域进行字幕检测，确定目标字幕，其中，目标字幕为在连续第一预设数量帧视频图像的标题区域中显示的字幕，且第一预设数量帧视频图像中每帧视频图像的标题区域中显示的字幕相同。

选取模块730，用于在目标字幕首次显示在标题区域中时对应的视频图像之前，选取连续第二预设数量帧视频图像。

第一判断模块740，用于判断第二预设数量帧视频图像的标题区域之间是否存在渐变动画，如果存在，则确定目标字幕为标题字幕。

本发明实施例提供的一种标题字幕检测装置，可以通过对待测视频段的每帧视频图像的标题区域进行字幕检测，确定目标字幕，也即是确定需要检测的字幕，然后通过判断在目标字幕首次显示在标题区域中时对应的视频图像之前选取的连续第二预设数量帧视频图像的标题区域之间是否存在渐变动画，进而判断出目标字幕是否为标题字幕，避免了因标题字幕与滚动字幕的背景颜色与文字颜色均相同时，造成标题字幕检测的准确率低的情况。

作为本发明实施例的一种实施方式，该装置还包括：

统计模块，用于如果第二预设数量帧视频图像的标题区域之间不存在渐变动画，统计目标字幕连续显示在标题区域中时对应的视频图像的总帧数。

第二判断模块，用于判断总帧数是否不小于第一预设阈值，如果总帧数不小于第一预设阈值，则确定目标字幕为标题字幕。

作为本发明实施例的一种实施方式，上述第一判断模块740，包括：

计算子模块，用于计算每相邻两帧视频图像的目标字幕区域内位置相同的图像像素点之间的像素差异值，其中，每相邻两帧视频图像为第二预设数量帧视频图像中的两帧视频图像，目标字幕区域为目标字幕在所述标题区域中的位置。

相加求和子模块，用于对每相邻两帧视频图像的目标字幕区域内所有位置相同的图像像素点之间的像素差异值进行相加求和，得到像素差异值之和。

判断子模块，判断像素差异值之和是否大于第二预设阈值且小于第三预设阈值，如果像素差异值之和大于第二预设阈值且小于第三预设阈值，则确定每相邻两帧视频图像的标题区域之间存在渐变动画。

确定子模块，用于当检测到连续第三预设数量帧视频图像的标题区域之间均存在渐变动画时，确定目标字幕为标题字幕。

作为本发明实施例的一种实施方式，上述计算子模块，具体用于：

对每相邻两帧视频图像的目标字幕区域内每个图像像素点进行灰度变换。

采用如下公式计算每相邻两帧视频图像的目标字幕区域内位置相同的图像像素点之间的像素差异值：

其中，为目标字幕区域内位置相同的图像像素点之间的像素差异值，为第f帧视频图像中目标字幕区域内图像像素点的灰度值，为第f-1帧视频图像中目标字幕区域内图像像素点的灰度值，第f帧视频图像与第f-1帧视频图像为第二预设数量帧视频图像中相邻的两帧视频图像，θ为设定的灰度阈值，α为设定的缩放因子。

本发明实施例还提供了一种电子设备，如图8所示，包括处理器810、通信接口820、存储器830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信，

存储器830，用于存放计算机程序。

处理器810，用于执行存储器830上所存放的程序时，实现如下步骤：

确定待测视频段的每帧视频图像的标题区域。

依次对待测视频段的每帧视频图像的标题区域进行字幕检测，确定目标字幕，其中，目标字幕为在连续第一预设数量帧视频图像的标题区域中显示的字幕，且第一预设数量帧视频图像中每帧视频图像的标题区域中显示的字幕相同。

在目标字幕首次显示在标题区域中时对应的视频图像之前，选取连续第二预设数量帧视频图像。

判断第二预设数量帧视频图像的标题区域之间是否存在渐变动画，如果存在，则确定目标字幕为标题字幕。

本发明实施例可以通过对待测视频段的每帧视频图像的标题区域进行字幕检测，确定目标字幕，也即是确定需要检测的字幕，然后通过判断在目标字幕首次显示在标题区域中时对应的视频图像之前选取的连续第二预设数量帧视频图像的标题区域之间是否存在渐变动画，进而判断出目标字幕是否为标题字幕，避免了因标题字幕与滚动字幕的背景颜色与文字颜色均相同时，造成标题字幕检测的准确率低的情况。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，该计算机程序被处理器执行时实现第一以下步骤：

确定待测视频段的每帧视频图像的标题区域。

本发明实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行以下步骤：

确定待测视频段的每帧视频图像的标题区域。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个......”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置/电子设备/存储介质/计算机程序产品实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种标题字幕检测方法，其特征在于，所述方法包括：

确定待测视频段的每帧视频图像的标题区域；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述判断所述第二预设数量帧视频图像的标题区域之间是否存在渐变动画，如果存在，则确定所述目标字幕为标题字幕的步骤，包括：

4.根据权利要求3所述的方法，其特征在于，所述计算每相邻两帧视频图像的目标字幕区域内位置相同的图像像素点之间的像素差异值的步骤，包括：

5.一种标题字幕检测装置，其特征在于，所述装置包括：

6.根据权利要求5所述的装置，其特征在于，所述装置还包括：

7.根据权利要求5所述的装置，其特征在于，所述第一判断模块，包括：

8.根据权利要求7所述的装置，其特征在于，所述计算子模块，具体用于：

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序，实现权利要求1-4任一所述的方法步骤。