CN104735521A

CN104735521A - 一种滚动字幕检测方法及装置

Info

Publication number: CN104735521A
Application number: CN201510145959.9A
Authority: CN
Inventors: 许�鹏; 王涛; 杨琛
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2015-03-30
Filing date: 2015-03-30
Publication date: 2015-06-24
Anticipated expiration: 2035-03-30
Also published as: CN104735521B

Abstract

本发明实施例公开了一种滚动字幕检测方法及装置。一种滚动字幕检测方法，包括：针对目标视频段中的每一视频帧图像i，对该图像进行边缘检测，确定该图像中的边缘像素点；统计该图像中每一行的边缘像素点占比，确定该视频帧图像i的候选字幕区域集Pi；根据所确定的每个Pi，确定目标视频段的候选字幕区域集V；针对V中的每一个区域V[j]，确定包含该区域的帧图像序列，判断该序列中的任意两个相邻帧图像是否均满足：后一帧图像中与V[j]对应的图像部分相对前一帧图像中与V[j]对应的图像部分存在像素平移，如果是，将V[j]确定为滚动字幕区域。本发明仅需进行简单的边缘像素点数目统计，无需进行较为复杂的计算，检测速度较快。

Description

一种滚动字幕检测方法及装置

技术领域

本发明涉及视频检测技术领域，特别涉及一种滚动字幕检测方法及装置。

背景技术

近年来，电视节目及视频的播放画面中经常会出现滚动字幕，以文本的方式为观众提供附加信息，然而在有些情况下，这些字幕可能会起到负面作用，例如，以字幕形式出现的的实时信息(包括股价、新闻动态等)，这些信息由于具有实效性，因此仅在直播的情况下才是有意义的，当用户观看重播视频时，这些实时信息可能反而会误导观众。

针对上述情况，需要对视频中滚动字幕进行检测，以便进行删除或替换等处理。现有的一种自动检测滚动字幕的方式是基于光流的目标跟踪技术实现的。然而由于基于光流的目标跟踪技术主要使用松弛迭代算法，该算法比较费时，因此，检测速度较慢。

发明内容

为了解决上述问题，本发明实施例公开了一种滚动字幕检测方法及装置，具体技术方案如下：

本发明提供的一种滚动字幕检测方法，所述方法包括：

获取目标视频段，所述目标视频段包含N个视频帧；

针对所述目标视频段中的每一视频帧图像i，对该图像进行边缘检测，确定该图像中的边缘像素点；统计该图像中每一行的边缘像素点占比，根据统计结果，确定该视频帧图像i的候选字幕区域集Pi；所述Pi中的区域满足以下条件：该区域的上下边缘所在行的边缘像素点占比均不小于预设的第一占比阈值、且该区域的高度不大于预设的高度阈值，其中，i的取值为从1到N的自然数；

根据所确定的每个Pi，进一步确定所述目标视频段的候选字幕区域集V，所述V中的区域满足以下条件：包含该区域的视频帧图像的数量占比不小于预设的第二占比阈值、且该区域在包含该区域的视频帧图像中的每一视频帧图像中处于相同位置；

针对V中的每一个区域V[j]，确定包含该区域的帧图像序列，判断该序列中的任意两个相邻帧图像是否均满足：后一帧图像中与V[j]对应的图像部分相对前一帧图像中与V[j]对应的图像部分存在像素平移，如果是，则将V[j]确定为所述目标视频段的滚动字幕区域。

根据本发明提供的一种具体实施方式，所述统计该图像中每一行的边缘像素点占比，包括：

对该图像中的边缘像素点进行水平方向投影，得到对应该图像的水平投影结果；根据水平投影结果，统计该图像中每一行的边缘像素点占比。

根据本发明提供的一种具体实施方式，所述判断该序列中的任意两个相邻帧图像是否均满足：后一帧图像中与V[j]对应的图像部分相对前一帧图像中与V[j]对应的图像部分存在像素平移，包括：

针对Fj中的每一个视频帧图像，对该图像中的边缘像素点进行垂直方向投影，得到对应该图像的垂直投影结果；根据垂直投影结果，统计该图像中每一列的边缘像素点数目，生成对应该图像的w维向量；

对Fj中每一对相邻视频帧图像所对应的w维向量进行范围在[1，P]个像素的滑动比较计算，获得比较结果；

根据获得的比较结果，判断Fj中的任意两个相邻帧图像是否均满足：后一帧图像中与V[j]对应的图像部分相对前一帧图像中与V[j]对应的图像部分存在像素平移；

其中，w为该图像的图像宽度，所述w维向量中，每一个元素的取值分别对应该图像中每一列边缘像素点的数目。

根据本发明提供的一种具体实施方式，所述对Fj中每一对相邻视频帧图像所对应的w维向量进行范围在[1，P]个像素的滑动比较计算，获得比较结果，包括：

对Fj中每一对相邻视频帧图像所对应的w维向量代入如下公式进行计算：并将diff_p与DiffThresh进行比较，得到比较结果；

若diff_p小于则比较结果为：后一帧图像中与V[j]对应的图像部分相对前一帧图像中与V[j]对应的图像部分存在像素平移；其中，p的取值为从1到P的自然数。

根据本发明提供的一种具体实施方式，在确定出滚动字幕区域之后，还包括：

将滚动字幕区域中图像替换为预设图像。

一种滚动字幕检测装置，所述装置包括：

视频段获取模块，用于获取目标视频段，所述目标视频段包含N个视频帧；

边缘像素点确定模块，用于针对所述视频段获取模块获取到的目标视频段中的每一视频帧图像i，对该图像进行边缘检测，确定该图像中的边缘像素点；

占比统计模块，用于统计视频帧图像i中每一行的边缘像素点占比；

第一候选字幕区域集确定模块，用于根据所述占比统计模块统计得到的结果，确定该视频帧图像i的候选字幕区域集Pi；所述Pi中的区域满足以下条件：该区域的上下边缘所在行的边缘像素点占比均不小于预设的第一占比阈值、且该区域的高度不大于预设的高度阈值，其中，i的取值为从1到N的自然数；

第二候选字幕区域集确定模块，用于根据所述第一候选字幕区域集确定模块确定的每个Pi，进一步确定所述目标视频段的候选字幕区域集V，所述V中的区域满足以下条件：包含该区域的视频帧图像的数量占比不小于预设的第二占比阈值、且该区域在包含该区域的视频帧图像中的每一视频帧图像中处于相同位置；

帧图像序列确定模块，用于针对第二候选字幕区域集确定模块所确定的V中的每一个区域V[j]，确定包含该区域的帧图像序列；

判断模块，用于判断包含V[j]的帧图像序列中的任意两个相邻帧图像是否均满足：后一帧图像中与V[j]对应的图像部分相对前一帧图像中与V[j]对应的图像部分存在像素平移；

滚动字幕区域确定模块，用于在所述判断模块的判断结果为是的情况下，将V[j]确定为所述目标视频段的滚动字幕区域。

根据本发明提供的一种具体实施方式，所述占比统计模块，具体用于：

针对所述视频段获取模块获取到的目标视频段中的每一视频帧图像i，对所述边缘像素点确定模块确定出的、该图像中的边缘像素点进行水平方向投影，得到对应该图像的水平投影结果；根据水平投影结果，统计该图像中每一行的边缘像素点占比。

根据本发明提供的一种具体实施方式，所述判断模块，包括：

w维向量生成子模块，用于针对Fj中的每一个视频帧图像，对所述边缘像素点确定模块确定出的、该图像中的边缘像素点进行垂直方向投影，得到对应该图像的垂直投影结果；根据垂直投影结果，统计该图像中每一列的边缘像素点数目，生成对应该图像的w维向量；

比较子模块，用于对Fj中每一对相邻视频帧图像所对应的w维向量进行范围在[1，P]个像素的滑动比较计算，获得比较结果；

判断子模块，用于根据所述比较子模块比较得到的比较结果，判断Fj中的任意两个相邻帧图像是否均满足：后一帧图像中与V[j]对应的图像部分相对前一帧图像中与V[j]对应的图像部分存在像素平移；

根据本发明提供的一种具体实施方式，所述比较子模块，具体用于：

根据本发明提供的一种具体实施方式，所述装置还包括：

图像替换模块，用于将所述滚动字幕区域确定模块确定出的滚动字幕区域中图像替换为预设图像。

应用上述技术方案，本发明提供的滚动字幕检测方法和装置，在获取目标视频段后，可以针对所述目标视频段中的每一视频帧图像i，对该图像进行边缘检测，确定该图像中的边缘像素点；统计该图像中每一行的边缘像素点占比，根据统计结果，确定该视频帧图像i的候选字幕区域集Pi；根据所确定的每个Pi，进一步确定所述目标视频段的候选字幕区域集V，针对V中的每一个区域V[j]，确定包含该区域的帧图像序列，判断该序列中的任意两个相邻帧图像是否均满足：后一帧图像中与V[j]对应的图像部分相对前一帧图像中与V[j]对应的图像部分存在像素平移，如果是，则将V[j]确定为所述目标视频段的滚动字幕区域。

与现有技术相比，本发明的检测过程中，仅需进行简单的边缘像素点数目统计，无需进行较为复杂的计算，从而提高了检测速度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种滚动字幕检测方法的流程图；

图2为本发明实施例提供的视频帧图像的局部截图图像；

图3为本发明实施例提供的图2所示图像的图像边缘；

图4为本发明实施例提供的图3所示图像边缘的水平投影图像；

图5(a)为本发明实施例提供的图2所示图像的候选字幕区域的图像边缘；

图5(b)为本发明实施例提供的图2所示图像的候选字幕区域的图像边缘；

图6为本发明实施例提供的图5(a)所示图像边缘的垂直投影图像；

图7(a)为本发明实施例提供的前一帧中与5(a)位置相同的图像边缘；

图7(b)为本发明实施例提供的图7(a)所示图像边缘的垂直投影图像；

图8为本发明实施例提供的两个w维向量滑动比较结果图；

图9为本发明实施例提供的另一种滚动字幕检测方法的流程图；

图10为本发明实施例提供的一种滚动字幕检测装置的结构示意图；

图11为本发明实施例提供的另一种滚动字幕检测装置的结构示意图。

具体实施方式

为了使本领域技术人员更好地理解本发明中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

近年来，字幕已经成为电视、视频网站等传媒系统中不可缺少的一个组成部分，它与电视节目、视频的图像、声音、特技等一起组成了一种共时间共空间的多方位多信息渠道的传播手段。在多数情况下，直播电视节目、视频的播放画面中存在滚动字幕区域，该滚动字幕区域中的内容通常为股价、新闻动态等实时信息。当用户观看上述直播电视节目、视频的重播时，由于滚动字幕区域中的内容已缺少了时效性，该区域内的实时信息就变成了对用户没有价值的信息，甚至可能会误导观众。

针对上述现状，首先，需要检测出视频播放画面中的滚动字幕区域，之后再对滚动字幕区域内的字幕进行删除或替换处理。由于滚动字幕区域中的字幕是以图片的的形式镶嵌到视频图像中的(即图像格式的字幕)，基于上述情况，本发明提供了一种滚动字幕检测方法及装置，以实现对电视节目、视频的播放画面中滚动字幕的检测。

下面首先对本发明提供的一种滚动字幕检测方法进行介绍。

需要说明的是，目前，由于绝大多数的滚动字幕是以水平滚动的方式出现在视频播放画面中，因此，本发明主要针对对水平滚动字幕进行检测的方法进行藐视。当然，对于以垂直滚动的方式出现在视频播放界面中的滚动字幕，也可以从本发明提供的滚动字幕检测方法中，获得技术启示，相应的，本发明也会对此进行详细的介绍。

如图1所示，本发明提供的一种滚动字幕检测方法，可以包括：

S101，获取目标视频段，所述目标视频段包含N个视频帧。

由于本发明的检测思路是基于对视频帧图像序列的检测实现的、且视频播放画面中的滚动字幕为图像格式的字幕，因此，首先，需要获取连续的多个视频帧，之后，基于获取到的多个视频帧进行处理。

又由于一个视频段中的视频帧是连续的，且相邻的视频帧是存在关联关系的，因此，本发明中，获取视频段的方式，是一种可行的技术手段。

进一步的，由于获取视频段也需要占用服务器的工作进程，因此为了提高效率，在获取视频段时，可以根据实际需要，确定需要的视频帧的数量，进而去获取包含所确定数量的视频帧的视频段。示例性的，在进行滚动字幕检测时，需要50帧视频帧，此时，可以获取一段包含50帧视频帧的视频段。

需要说明的是，如果获取的视频段中的视频帧数量过少，即取样过少，可能会导致检测结果不准确；如果获取到的视频段中的视频帧数量过多，即取样过多，可能会导致资源的浪费；因此，在保证资源使用率、及准确率较高的前提下，N值通常选为50。当然，在实际应用场景中，技术人员也可以根据具体需求，对N值进行设定，本发明实施例对此不作限定。

S102，针对所述目标视频段中的每一视频帧图像i，对该图像进行边缘检测，确定该图像中的边缘像素点。

可选的，在本发明的一个具体实施方式中，上述S102，可以包括：

使用Canny算法，对所述目标视频段中的每一视频帧图像i进行图像边缘提取，获得每一视频帧图像i的图像边缘。

可以理解的是，由于图像边缘是由一个个像素点刻画图像或文字的轮廓的，因此，本发明中每一视频帧图像i的图像边缘也是对该视频帧图像i中的图像、文字的边缘轮廓进行提取，而得到的一个个像素点，即边缘像素点。

需要说明的是，上述具体实施方式仅仅为图像边缘检测方法的一种，任何可以达到本发明中提到的图像边缘检测的目的的方法，均在本发明的保护范围之内。

需要说明的是，从视觉的角度来说，为了便于技术人员进行观测，在本发明中，视频帧图像i中的所有边缘像素点的颜色是相同的，且能够便于人眼进行区分。示例性的，在显示设备上进行显示时，提取到的图像边缘可以为一幅黑白图，其中，该图像边缘的边缘像素点均为白色，该图像的其余部分为黑色。当然，技术人员也可以根据自己的喜好或场景需求，来设定边缘像素点的颜色，只要能够达到将边缘像素点与该图像中的其余部分进行区分的目的即可。

由于目前业内比较倾向于黑白图的处理方式，且黑白图易于观察的特点，因此，本发明将主要以黑白图为例，对本发明技术方案进行介绍。此时，本发明中提到的边缘像素点为白色像素点。

S103，统计该图像中每一行的边缘像素点占比，根据统计结果，确定该视频帧图像i的候选字幕区域集Pi；所述Pi中的区域满足以下条件：该区域的上下边缘所在行的边缘像素点占比均不小于预设的第一占比阈值、且该区域的高度不大于预设的高度阈值，其中，i的取值为从1到N的自然数。

可以理解的是，对于一个视频帧，从视觉角度来说，一个视频帧即为一副图像；从图像构成的角度来说，一个视频帧图像是由一个个像素点构成的，即一个视频帧图像的基本构成单元为像素，具体的，可以描述为：该视频帧图像由S行像素点构成，其中，S为该视频帧图像的高度，即该图像的高度方向包含的像素点总数；或者，该视频帧图像由T列像素点构成，其中，T为该视频帧图像的宽度，即该图像的宽度方向包含的像素点总数。

需要说明的是，本发明中，图像行的边缘像素点占比为：该行中的边缘像素点总数与该图像宽度的比值；

从上述S102中可知，目标视频段中每一视频帧图像i的边缘像素点已被确定，此时，可以从上述S102的确定结果中，统计出目标视频段中每一视频帧图像i中每一行的边缘像素点占比。

需要说明的是，本发明设定“Pi中的区域满足以下条件：该区域的上下边缘所在行的边缘像素点占比均不小于预设的第一占比阈值、且该区域的高度不大于预设的高度阈值”的原因及好处在于：

首先，可以理解的是，由于滚动字幕是以文本的形式显示在视频帧图像上的，因此，相比与视频帧图像的其他区域，滚动字幕所在行的边缘像素点的数量相对较多，即包含滚动字幕的滚动字幕区域内的边缘像素点数量相对较多；为了将该图像中的滚动字幕区域与该图像的其他区域区分出来，可以设定图像中行的边缘像素点的占比的阈值，即预设的第一占比阈值；

进一步的，如果预设的第一占比阈值的取值过小，获取到的Pi中的区域的数量会较多；如果预设的第一占比阈值的取值过大，获取到的Pi中的区域的数量会较少；在实际场景应用中，技术人员通常将预设的第一占比阈值的取值设定为0.6；当然，也可以根据具体需求，对预设的第一占比阈值的取值进行设定，本发明实施例对此不作限定。

其次，由于满足条件“该区域的上下边缘所在行的边缘像素点占比均不小于预设的第一占比阈值”的区域，可能为视频画面内容部分，比如该区域的上边缘在视频帧图像的上部，该区域的下边缘在视频帧图像的底部，此时该区域为视频画面内容，而非滚动字幕区域。且滚动字幕区域的高度通常很小，因此，可以通过设定区域宽度阈值的方式，来进行区域的筛选。

综合上述内容，本发明步骤的目的在于，将可能为滚动字幕区域的区域筛选出来，继而从筛选出的区域中，进一步确定出滚动字幕区域。

S104，根据所确定的每个Pi，进一步确定所述目标视频段的候选字幕区域集V，所述V中的区域满足以下条件：包含该区域的视频帧图像的数量占比不小于预设的第二占比阈值、且该区域在包含该区域的视频帧图像中的每一视频帧图像中处于相同位置。

可以理解的是，目标视频段中每一视频帧图像i中可能存在0个、1个或多个候选字幕区域，即视频帧图像i的候选字幕区域集Pi中包含的元素个数可能为：0个、1个或多个。

需要说明的是，本发明设定“所述V中的区域满足以下条件：包含该区域的视频帧图像的数量占比不小于预设的第二占比阈值、且该区域在包含该区域的视频帧图像中的每一视频帧图像中处于相同位置”的原因在于：

首先，假设目标视频段中包含50帧视频帧，可能存在以下两种场景：第一种场景，上述50帧视频帧中的每一帧视频帧的相同位置均有滚动字幕出现；

第二种场景，上述50帧视频帧中的每隔2帧，会在视频帧的相同位置有滚动字幕出现。

针对于第一种场景，本发明中的预设的第二占比阈值的取值为100％；针对于第二种场景，技术人员可以首先通过人工观察的方式，确定出滚动字幕出现的大致规律。继而根据规律来对本发明中的预设的第二占比阈值进行设定。

为了便于理解，仅以第一场景为例进行举例说明，假定目标视频段中包含5帧视频帧，分别为：第1视频帧、第2视频帧、第3视频帧、第4视频帧和第5视频帧；经过上述S101至S103处理之后，确定出，第1视频帧中包括以下候选字幕区域：区域A、区域B、区域C，第2视频帧中包括以下候选字幕区域：区域A、区域B、区域D，第3视频帧中包括以下候选字幕区域：区域A、区域D、区域E，第4视频帧中包括以下候选字幕区域：区域A，第5视频帧中包括以下候选字幕区域：区域A；

本步骤的目的就在于，确定第1至第5视频帧中均包含的区域：区域A，将区域A确定为目标视频段的候选字幕区域集V中的元素。

S105，针对V中的每一个区域V[j]，确定包含该区域的帧图像序列。

接S104中的实例，此时V中仅包含一个区域，即区域A；相应的，包含区域A的帧图像序列包括：第1至第5视频帧。

S106，判断该序列中的任意两个相邻帧图像是否均满足：后一帧图像中与V[j]对应的图像部分相对前一帧图像中与V[j]对应的图像部分存在像素平移，如果是，则将V[j]确定为所述目标视频段的滚动字幕区域。

可以理解的是，视频帧图像中的滚动字幕是以一定的滚动速度，水平滚动的；因此，可以通过判断相邻视频帧中候选字幕区域是都发生像素平移，来确定该候选字幕区域是否为滚动字幕区域。

针对第一种场景，上述S106，可以包括：

针对V中的每一个区域V[j]，判断对于任意i值是否均满足：i+1中与V[j]对应的图像部分相对于i中与V[j]对应的图像部分是否存在像素平移，如果是，则将V[j]确定为所述目标视频段滚动字幕区域。

接S105中的实例，可以首先判断第2视频帧中区域A对应的图像部分相对于第1视频帧中区域A对应的图像部分是否存在像素平移，如果是，则继续判断第3视频帧中区域A对应的图像部分相对于第2视频帧中区域A对应的图像部分是否存在像素平移，如果是，继续判断第4视频帧中区域A对应的图像部分相对于第3视频帧中区域A对应的图像部分是否存在像素平移，如果值，继续判断第5视频帧中区域A对应的图像部分相对于第4视频帧中区域A对应的图像部分是否存在像素平移，如果是，则将区域A确定为目标视频段的滚动字幕区域。

由此可见，本发明提供的滚动字幕检测方法，在获取目标视频段后，可以针对所述目标视频段中的每一视频帧图像i，对该图像进行边缘检测，确定该图像中的边缘像素点；统计该图像中每一行的边缘像素点占比，根据统计结果，确定该视频帧图像i的候选字幕区域集Pi；根据所确定的每个Pi，进一步确定所述目标视频段的候选字幕区域集V，针对V中的每一个区域V[j]，确定包含该区域的帧图像序列，判断该序列中的任意两个相邻帧图像是否均满足：后一帧图像中与V[j]对应的图像部分相对前一帧图像中与V[j]对应的图像部分存在像素平移，如果是，则将V[j]确定为所述目标视频段的滚动字幕区域。

相应于上述S101至S106的实现方法，下面介绍一种具体的实现方式，需要说明的，下面提到的实现方式仅为本发明实施方式的一种，任何可以实现本发明S101至S106的任意技术手段均在本发明的保护范围之内。

可选的，在本发明的一个具体实施方式中，

上述S03中的统计该图像中每一行的边缘像素点占比，可以包括：

可以理解的是，为了符合用户的视觉习惯，目前的滚动字幕通常位于视频帧图像的底部，基于上述现状，本发明仅提供视频帧图像的底部区域截图，如图2所示；

图2为视频帧底部截图的源图像；对图2所示的源图像进行图像边缘提取处理，得到图3所示的图像边缘(为一张黑白图)；对图3所示的图像边缘进行水平方向投影，得到图4所示的投影结果；其中，投影结果中的每一条横线表示该行的白色像素点的总数(边缘像素点的总数)，图4中的图像的中间偏右位置的一条竖线表征本发明中的预设的第一占比阈值，从图4中可以看出，突破该竖线的横线存在两条，记为横线z、横线w，横线z位于横线w的上方。

从图4中可以看出，存在两个区域：横线z与横线w之间的区域、及横线w与图像底部边界的区域；相应的，对应上述两个区域的图像边缘，分别如图5(a)和图5(b)所示。

经过观察，可以发现横线w与图像底部边界的区域，实际为视频边缘的黑框，,该区域中白色像素点的累加和为0，因此该区域计入候选字幕区域；综上分析，图2所示源图像的候选字幕区域为横线z与横线w之间的区域。

上述S106中的判断该序列中的任意两个相邻帧图像是否均满足：后一帧图像中与V[j]对应的图像部分相对前一帧图像中与V[j]对应的图像部分存在像素平移，可以包括：S106a、S106b和S106c；其中，

S106a，针对Fj中的每一个视频帧图像，对该图像中的边缘像素点进行垂直方向投影，得到对应该图像的垂直投影结果；根据垂直投影结果，统计该图像中每一列的边缘像素点数目，生成对应该图像的w维向量；其中，w为该图像的图像宽度，所述w维向量中，每一个元素的取值分别对应该图像中每一列边缘像素点的数目；

图6为对图5(b)所示图像边缘进行垂直方向投影，获得的投影结果；其中，投影结果中的每一条竖线表示该列的白色像素点的总数。

S106b，对Fj中每一对相邻视频帧图像所对应的w维向量进行范围在[1，P]个像素的滑动比较计算，获得比较结果；

可选的，在本发明的一个具体实施方式中，上述S106b，可以包括：

S106c，根据获得的比较结果，判断Fj中的任意两个相邻帧图像是否均满足：后一帧图像中与V[j]对应的图像部分相对前一帧图像中与V[j]对应的图像部分存在像素平移。

为了便于理解，进行如下解释：图5(a)所在视频帧图像的编号为k，图7(a)为：编号为k+1的视频帧图像中候选字幕区域对应的图像边缘；其中，编号为k+1的视频帧是编号为k的视频帧的后一帧；图7(b)为对图7(a)所示的图像边缘进行垂直投影，得到的投影结果。图8为对视频帧图像k+1所对应的向量与视频帧图像k所对应的向量进行滑动比较的结果图；从图8中可以看出，比较结果突破了阈值线(即DiffThresh线)，说明发生了像素平移。

可选的，在本发明的另一个实施例中，本发明提供的滚动字幕检测方法，还可以包括：

如果发现Fj中连续的R个视频帧图像中的候选字幕区域对应图像部分均不存在像素平移，则将该候选字幕区域确定为非滚动字幕区域；其中，R为预设的数量阈值。需要说明的是，在实际场景应用中，技术人员通常将R的取值设定为5；当然，也可以根据具体需求，对R的取值进行设定，本发明实施例对此不作限定。

可选的，在本发明的一个实施例中，如图9所示，本发明提供的滚动字幕检测方法，还可以在图1所示方法的基础上增加S107；

S107，将滚动字幕区域中图像替换为预设图像。

本发明中的预设图像，可以为新的有信心价值的动态新闻或广告等信息，从而在不影响用户体验的前提下，提高广告等信息的投放效果。

上面描述的方法是针对于以垂直滚动的方式出现在视频播放界面中的滚动字幕的检测，下面对于以垂直滚动的方式出现在视频播放界面中的滚动字幕的检测方法进行介绍。

一种滚动字幕检测方法，用于对以垂直滚动的方式出现在视频播放界面中的滚动字幕进行检测，可以包括：

获取目标视频段，所述目标视频段包含N个视频帧；

针对所述目标视频段中的每一视频帧图像i，对该图像进行边缘检测，确定该图像中的边缘像素点；统计该图像中每一列的边缘像素点占比，根据统计结果，确定该视频帧图像i的候选字幕区域集Pi；所述Pi中的区域满足以下条件：该区域的上下边缘所在列的边缘像素点占比均不小于预设的第三占比阈值、且该区域的宽度不大于预设的宽度阈值，其中，i的取值为从1到N的自然数；

根据所确定的每个Pi，进一步确定所述目标视频段的候选字幕区域集V，所述V中的区域满足以下条件：包含该区域的视频帧图像的数量占比不小于预设的第四占比阈值、且该区域在包含该区域的视频帧图像中的每一视频帧图像中处于相同位置；

相应于图1所示的方法实施例，本发明还提供了一种滚动字幕检测装置。

如图10所示，本发明提供的一种滚动字幕检测装置，可以包括：

视频段获取模块201，用于获取目标视频段，所述目标视频段包含N个视频帧；

边缘像素点确定模块202，用于针对所述视频段获取模块201获取到的目标视频段中的每一视频帧图像i，对该图像进行边缘检测，确定该图像中的边缘像素点；

占比统计模块203，用于统计视频帧图像i中每一行的边缘像素点占比；

第一候选字幕区域集确定模块204，用于根据所述占比统计模块203统计得到的结果，确定该视频帧图像i的候选字幕区域集Pi；所述Pi中的区域满足以下条件：该区域的上下边缘所在行的边缘像素点占比均不小于预设的第一占比阈值、且该区域的高度不大于预设的高度阈值，其中，i的取值为从1到N的自然数；

第二候选字幕区域集确定模块205，用于根据所述第一候选字幕区域集确定模块204确定的每个Pi，进一步确定所述目标视频段的候选字幕区域集V，所述V中的区域满足以下条件：包含该区域的视频帧图像的数量占比不小于预设的第二占比阈值、且该区域在包含该区域的视频帧图像中的每一视频帧图像中处于相同位置；

帧图像序列确定模块206，用于针对第二候选字幕区域集确定模块205所确定的V中的每一个区域V[j]，确定包含该区域的帧图像序列；

判断模块207，用于判断包含V[j]的帧图像序列中的任意两个相邻帧图像是否均满足：后一帧图像中与V[j]对应的图像部分相对前一帧图像中与V[j]对应的图像部分存在像素平移；

滚动字幕区域确定模块208，用于在所述判断模块207的判断结果为是的情况下，将V[j]确定为所述目标视频段的滚动字幕区域。

由此可见，本发明提供的滚动字幕检测装置，在获取目标视频段后，可以针对所述目标视频段中的每一视频帧图像i，对该图像进行边缘检测，确定该图像中的边缘像素点；统计该图像中每一行的边缘像素点占比，根据统计结果，确定该视频帧图像i的候选字幕区域集Pi；根据所确定的每个Pi，进一步确定所述目标视频段的候选字幕区域集V，针对V中的每一个区域V[j]，确定包含该区域的帧图像序列，判断该序列中的任意两个相邻帧图像是否均满足：后一帧图像中与V[j]对应的图像部分相对前一帧图像中与V[j]对应的图像部分存在像素平移，如果是，则将V[j]确定为所述目标视频段的滚动字幕区域。

可选的，在本发明的一个实施例中，所述占比统计模块203，具体可以用于：

针对所述视频段获取模块201获取到的目标视频段中的每一视频帧图像i，对所述边缘像素点确定模块202确定出的、该图像中的边缘像素点进行水平方向投影，得到对应该图像的水平投影结果；根据水平投影结果，统计该图像中每一行的边缘像素点占比。

可选的，在本发明的一个实施例中，所述判断模块207，可以包括：

w维向量生成子模块，用于针对Fj中的每一个视频帧图像，对所述边缘像素点确定模块202确定出的、该图像中的边缘像素点进行垂直方向投影，得到对应该图像的垂直投影结果；根据垂直投影结果，统计该图像中每一列的边缘像素点数目，生成对应该图像的w维向量；

可选的，在本发明的一个实施例中，所述比较子模块，具体可以用于：

可选的，在本发明的一个实施例中，如图11所示，本发明提供的滚动字幕检测方法，还可以在图10所示方法的基础上增加图像替换模块209；

图像替换模块209，用于将所述滚动字幕区域确定模块208确定出的滚动字幕区域中图像替换为预设图像。

对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本发明时可以把各模块的功能在同一个或多个软件和/或硬件中实现。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述方法实施方式中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于计算机可读取存储介质中，这里所称得的存储介质，如：ROM/RAM、磁碟、光盘等。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种滚动字幕检测方法，其特征在于，所述方法包括：

获取目标视频段，所述目标视频段包含N个视频帧；

2.根据权利要求1所述的方法，其特征在于，所述统计该图像中每一行的边缘像素点占比，包括：

3.根据权利要求1所述的方法，其特征在于，所述判断该序列中的任意两个相邻帧图像是否均满足：后一帧图像中与V[j]对应的图像部分相对前一帧图像中与V[j]对应的图像部分存在像素平移，包括：

4.根据权利要求3所述的方法，其特征在于，所述对Fj中每一对相邻视频帧图像所对应的w维向量进行范围在[1，P]个像素的滑动比较计算，获得比较结果，包括：

5.根据权利要求1所述的方法，其特征在于，在确定出滚动字幕区域之后，还包括：

将滚动字幕区域中图像替换为预设图像。

6.一种滚动字幕检测装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述占比统计模块，具体用于：

8.根据权利要求6所述的装置，其特征在于，所述判断模块，包括：

9.根据权利要求8所述的装置，其特征在于，所述比较子模块，具体用于：

10.根据权利要求6所述的装置，其特征在于，所述装置还包括：