CN108229476B - 标题区域检测方法及系统 - Google Patents

标题区域检测方法及系统 Download PDF

Info

Publication number
CN108229476B
CN108229476B CN201810014862.8A CN201810014862A CN108229476B CN 108229476 B CN108229476 B CN 108229476B CN 201810014862 A CN201810014862 A CN 201810014862A CN 108229476 B CN108229476 B CN 108229476B
Authority
CN
China
Prior art keywords
image
detected
frame
area
pixel value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810014862.8A
Other languages
English (en)
Other versions
CN108229476A (zh
Inventor
刘楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201810014862.8A priority Critical patent/CN108229476B/zh
Publication of CN108229476A publication Critical patent/CN108229476A/zh
Application granted granted Critical
Publication of CN108229476B publication Critical patent/CN108229476B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/635Overlay text, e.g. embedded captions in a TV program
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种标题区域检测方法及系统,获取视频对象中采用相同的候选区域的至少一帧候选视频图像,根据候选区域中的至少一帧待检测图像中文字的字体高度,确定候选区域是否为标题候选区域;当确定候选区域为标题候选区域时,按照至少一帧待检测视频图像的时域顺序,对候选区域进行跟踪检测;在跟踪检测的过程中,统计满足预设条件的待检测图像的跟踪帧数;最后根据跟踪帧数,确定候选区域是否为标题区域。本发明基于新闻标题的文字的字体高度特征,能够滤除滚动字幕的干扰,准确判断出标题候选区域,并通过对标题候选区域的跟踪检测,能够最终确定出标题候选区域是否为标题区域,提高标题区域的检测精度。

Description

标题区域检测方法及系统
技术领域
本发明涉及信息处理领域,更具体的说,涉及标题区域检测方法及系统。
背景技术
新闻视频中蕴含着大量的最新资讯信息,现有的视频网站或新闻类的应用通常会对每日播出的整条新闻视频进行拆分、上线,以供用户对于其中感兴趣的每条新闻进行点击观看。由于新闻标题在新闻视频的拆分过程中是具有重大意义的语义线索,所以,需要先对新闻视频中的新闻标题进行定位、识别。但是,在不同电视台播出的新闻视频中,或者,在不同类型的新闻视频中,新闻标题的展示风格千差万别,而且,在新闻标题的附近位置常会长时间出现风格内容极为相似的滚动字幕,而滚动字幕与新闻标题的位置信息、时域信息、颜色信息都比较接近,使得新闻标题与滚动字幕之间很难区分,从而为新闻标题的检测带来了很大的难度。
因此,目前迫切需要一种能够在新闻视频中能够准确检测新闻标题的技术方案。
发明内容
有鉴于此,本发明提供了一种标题区域检测方法及系统,以解决目前新闻视频中新闻标题难以准确检测的技术问题。
为实现上述目的,本发明提供如下技术方案:
一种标题区域检测方法,包括:
获取视频对象中的至少一帧候选视频图像,所述至少一帧候选视频图像采用相同的候选区域;
根据至少一帧待检测图像中文字的字体高度,确定所述候选区域是否为标题候选区域;其中,所述至少一帧待检测图像分别为所述至少一帧候选视频图像的候选区域内的图像;
当确定所述候选区域为标题候选区域时,按照所述至少一帧待检测视频图像的时域顺序,对所述至少一帧待检测图像依次进行跟踪检测;
在所述跟踪检测的过程中,统计满足预设条件的待检测图像的数量,记为跟踪帧数;
在所述跟踪检测结束后,根据所述跟踪帧数,确定所述候选区域是否为标题区域。
一种标题区域检测系统,包括:
候选图像获取单元,用于获取视频对象中的至少一帧候选视频图像,所述至少一帧候选视频图像采用相同的候选区域;
字体高度过滤单元,用于根据至少一帧待检测图像中文字的字体高度,确定所述候选区域是否为标题候选区域;其中,所述至少一帧待检测图像分别为所述至少一帧候选视频图像的候选区域内的图像;
候选区域跟踪单元,用于当确定所述候选区域为标题候选区域时,按照所述至少一帧待检测视频图像的时域顺序,对所述至少一帧待检测图像依次进行跟踪检测;
所述候选区域跟踪单元,还用于在所述跟踪检测的过程中,统计满足预设条件的待检测图像的数量,记为跟踪帧数;
标题区域确定单元,用于在所述跟踪检测结束后,根据所述跟踪帧数,确定所述候选区域是否为标题区域。
从上述的技术方案可以看出,本发明提供的标题区域检测方法及系统,获取视频对象中采用相同的候选区域的至少一帧候选视频图像,根据候选区域中的至少一帧待检测图像中文字的字体高度,确定候选区域是否为标题候选区域;当确定候选区域为标题候选区域时,按照至少一帧待检测视频图像的时域顺序,对候选区域进行跟踪检测;在跟踪检测的过程中,统计满足预设条件的待检测图像的跟踪帧数;最后根据跟踪帧数,确定候选区域是否为标题区域。本发明基于新闻标题的文字的字体高度特征,能够滤除滚动字幕的干扰,准确判断出标题候选区域,并通过对标题候选区域的跟踪检测,能够最终确定出标题候选区域是否为标题区域,提高标题区域的检测精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的标题区域检测方法的一种流程图;
图2为本申请实施例提供的候选视频图像获取方法的一种流程图;
图3为本申请实施例提供的字体高度过滤方法的一种流程图;
图4为本申请实施例提供的标题候选区域跟踪方法的一种流程图;
图5为本申请实施例提供的标题区域检测系统的一种结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,图1为本申请实施例提供的标题区域检测方法的一种流程图。
如图1所示,所述方法包括:
S101:获取视频对象中的至少一帧候选视频图像,所述至少一帧候选视频图像采用相同的候选区域。
在大部分新闻视频中,新闻标题通常位于视频图像中的特定区域,例如,位于视频图像底部的某一区域,所以,直接从视频图像的特定区域去检测标题,能够减小计算量,从而更有效率地确定出标题区域。
所述候选区域即为视频图像中新闻标题可能存在且具有文字内容的区域,如果视频图像中新闻标题可能存在的区域内并不存在文字内容,则该区域也不能被称为候选区域。所以,为了提高新闻标题的检测效率,本实施例只对具有候选区域的视频图像帧进行检测,对于不具有候选区域的视频图像帧,直接作丢弃处理,由此能够提高标题区域的检测效率。
S102:根据至少一帧待检测图像中文字的字体高度,确定所述候选区域是否为标题候选区域。
其中,所述至少一帧待检测图像分别为所述至少一帧候选视频图像的候选区域内的图像。
新闻标题的字体高度与滚动字幕的字体高度是不同的,根据两者的差异,设定相应的预设高度阈值,能够确定待检测图像中的文字是新闻标题还是滚动字幕。当根据待检测图像中文字的字体高度,确定出该待检测图像中的文字为新闻标题时,将候选区域确定为标题候选区域。
具体地,可以根据一帧待检测图像中文字的字体高度来进行确定,也可以根据连续N帧待检测图像中文字的字体高度来进行确定。
在一示例中,当一帧待检测图像中文字的字体高度大于预设高度阈值时,或者,连续N帧待检测图像中文字的字体高度的平均值大于预设高度阈值时,则确定所述候选区域为标题候选区域;否则,确定所述候选区域为非标题候选区域。
在该示例中,新闻标题的字体高度大于预设高度阈值,滚动字幕的字体高度小于或等于预设高度阈值。
S103:当确定所述候选区域为标题候选区域时,按照所述至少一帧待检测视频图像的时域顺序,对所述至少一帧待检测图像依次进行跟踪检测。
候选视频图像在视频对象中具有时域顺序,相应的,所述至少一帧待检测图像也具有同样的时域顺序,按照候选视频图像的时域顺序,即可对所述至少一帧待检测图像依次进行跟踪检测。
由于所述至少一帧待检测图像分别为所述至少一帧候选视频图像的候选区域内的图像,所以,对所述至少一帧待检测图像依次进行跟踪检测,实际上就是在对所述标题候选区域进行跟踪检测。
S104:在所述跟踪检测的过程中,统计满足预设条件的待检测图像的数量,记为跟踪帧数。
在一示例中,预设跟踪帧数的初始值为0,当当前帧待检测图像满足预设条件时,跟踪帧数加1。
S105:在所述跟踪检测结束后,根据所述跟踪帧数,确定所述候选区域是否为标题区域。
在一示例中,在跟踪检测结束后,比较跟踪帧数tracking_num与预先设定的阈值Thtracking_num的大小关系,如果tracking_num≥Thtracking_num,则判定标题候选区域为标题区域,否则,判定标题候选区域为非标题区域(如,滚动字幕区域)。
本实施例提供的标题区域检测方法,基于新闻标题的文字的高度属性,能够滤除滚动字幕的干扰,准确判断出视频图像中的检测区域是否为标题区域;并且,针对不同风格的新闻视频中新闻标题文字的高度属性,本发明可以通过设定相应的预设高度阈值,以适用于各种风格的新闻视频中标题区域的准确定位,具有普遍适用性。
请参阅图2,图2为本申请实施例提供的候选视频图像获取方法的一种流程图。
本实施例提供的候选视频图像获取方法主要用于实现前述实施例中的步骤S101,具体对任一帧视频图像中的候选区域进行检测,进而确定出具有候选区域的至少一帧候选视频图像。
如图2所示,所述候选视频图像获取方法包括:
S201:获取视频对象中的任一帧视频图像。
在视频对象中,可以按照视频图像帧的时域顺序,依次获取任一帧视频图像。
S202:获取所述任一帧图像的标题潜在区域内的图像,作为潜在图像。
所述标题潜在区域为用户指定的标题所在区域,具体地,可以是用户根据历史经验指定的标题所在区域。例如,在一些视频对象中,标题通常在视频图像的底部,在另一些视频对象中,标题通常在视频图像的右侧,那么,用户就可以指定视频图像中的相应区域为标题潜在区域。
以标题潜在区域为视频图像的底部区域为例,假设视频图像的宽度为WW,高度为HH,则底部区域在视频帧中的位置为Rect(x,y,w,h),其中,x=0,y=HH×cut_ratio,w=WW,h=HH×(1-cut_ratio);(x,y)构成底部区域的起点坐标,w为底部区域的宽度,h为底部区域的高度,cut_ratio为预设参数。cut_ratio可以是由历史经验得到,也可以是人为设置,用于表示视频图像顶端到底部区域之间的高度。
S203:计算所述潜在图像的边缘强度图。
根据所述潜在图像,将所述潜在图像由RGB颜色空间转换为灰度或者任意亮度色彩分离空间,例如YUV颜色空间、HSV颜色空间、HSL颜色空间、LAB颜色空间等,以生成潜在图像的灰度图像U。
对于从RGB颜色空间转换到灰度空间,转换公式为:
U=R*0.299+G*0.587+B*0.114;
对于从RGB颜色空间转换到亮度色彩分离空间,以HSL颜色空间举例,转换公式为:
U=(max(R,G,B)+min(R,G,B))/2;
对于灰度图像U,仍以Sobel算子为例。利用水平方向边缘梯度算子和垂直方向边缘梯度算子,与灰度图像进行卷积,获得水平边缘图Euh和垂直边缘图Euv,最终计算边缘强度图Euall,即对于边缘强度图上任意一点Euall(x,y),满足公式Euall(x,y)=sqrt(Euv(x,y)2+Euh(x,y)2)。
S204:根据所述潜在图像的边缘强度图在水平方向上投影得到的水平直方图,确定候选区域的上下边界。
首先,利用第一分割阈值TK1,对所述潜在图像的边缘强度图Euall进行二值化处理,得到潜在二值化图像Eu。其中,潜在二值化图像Eu中像素点(x,y)的像素值Eu(x,y)为:
Figure BDA0001541585670000061
第一分割阈值TK1是预先设定的。
然后,对潜在二值化图像Eu进行水平方向的投影,统计每一行中符合预定条件的像素的数量Numedge,如果Numedge>Thnum,则令水平直方图Hu[i]=1,否则,水平直方图Hu[i]=0。其中,Thnum为针对Numedge设定的阈值。
预定条件:该像素以及上下相邻像素中,存在至少一个像素为1的值。
其中,该像素满足预定条件时,该像素的边缘值视为1,同时,统计该像素左右连续的像素边缘值为1,且,连续长度大于预设长度阈值Thlen的像素的总个数。
在一示例中,在根据所述潜在二值化图像,获取所述潜在二值化图像在水平方向上的水平直方图的过程中,还可以对潜在二值化图像进行加强处理。
例如,针对所述潜在图像的RGB中每个通道(R、G、B),分别获取相应的边缘强度图Er,Eg,Eb。利用第二分割阈值TK2,对边缘强度图Er,Eg,Eb分别进行二值化处理,得到相应的边缘二值化图E2r,E2g,E2b。
如果Er(x,y)>TK2,则令边缘二值化图E2r(x,y)=1,否则,E2r(x,y)=0。
如果Eg(x,y)>TK2,则令边缘二值化图E2g(x,y)=1,否则,E2g(x,y)=0。
如果Eb(x,y)>TK2,则令边缘二值化图E2b(x,y)=1,否则,E2b(x,y)=0。
通常情况下,第二分割阈值TK2小于第一分割阈值TK1。
对于潜在二值化图像进行加强,可以选择某个通道进行加强,也可以选择全部三个通道进行加强。以选择全部三个通道进行加强为例,使Eu(x,y)=Eu(x,y)|E2r(x,y)|E2g(x,y)|E2b(x,y),其中,“|”为“求或运算符”。通过对潜在二值化图像Eu的加强,能够防止图像中的字幕区域出现渐变导致检测失败的情况。
对于水平直方图Hu,进行遍历,获取图像边缘为直线的相邻行的行间距。其中,当Hu[i]=1时,表明第i+1行的图像边缘为直线。例如,当Hu[i]=1且Hu[i+1]=1时,表明第i+1行与第i+2行的图像边缘为直线,则获取第i+1行与第i+2行之间的行间距。
在水平直方图Hu中,如果获取的相邻行的行间距大于行间距阈值Throw,则将这两行之间的区域确定为第一候选区域;如果在潜在图像中不存在行间距大于行间距阈值Throw的相邻行时,获取下一帧视频图像的潜在图像,重新执行上述步骤。
其中,所述第一候选区域表征候选区域的上下边界。
S205:根据所述潜在图像的边缘强度图在垂直方向上投影得到的垂直直方图,确定候选区域的左右边界。
在一示例中,可以根据所述潜在二值化图像在所述第一候选区域中(即所述上下边界范围内)的部分图像,获取所述部分图像在垂直方向上的垂直直方图Vu
在垂直直方图Vu中,对于任一列,如果该列的边缘像素为1的数量大于像素数目阈值Thuv时,则Vu[i]=1,否则Vu[i]=0,并强制设置Vu[0]=1且Vu[W-1]=1。在垂直直方图Vu中,将满足“Vu[i]==1&&Vu[j]==1&&Vu[k]==0&&argmax(i-j)”这一条件的区域确定为第二候选区域。其中,i,j均为列号,k∈(i,j),argmax(i-j)表征使i-j的值最大。
其中,所述第二候选区域表征候选区域的左右边界。
S206:根据所述上下边界与所述左右边界,确定候选区域。
在一示例中,候选区域为:在标题潜在区域中,由所述上下边界与所述左右边界组成的区域。
在另一示例中,该步骤S206可包括:
精细寻找第二候选区域所表征候选区域的左右边界,以一定长度的滑动窗口扫描第二候选区域的原图,计算每一个窗口内的颜色直方图,同时统计该窗口内颜色直方图中非0位的个数numcolor,寻找单色区域或者颜色复杂的背景区域的位置,即符合numcolor<Thcolor1或numcolor>Thcolor2的窗口位置,将符合该条件的窗口的中心位置,作为新的垂直方向边界。其中,Thcolor1为针对numcolor设定的上限阈值,Thcolor2为针对numcolor设定的下限阈值,Thcolor1与Thcolor2用于确定新的垂直方向的边界,进而确定出候选区域。
S207:当确定出的候选区域符合预设条件时,将所述任一帧视频图像确定为候选视频图像。
预设条件可以是候选区域的起点的位置位于预设的图像范围中,也可以是候选区域的高度在预设范围中,还可以根据具体情况具体限定。如果候选区域符合预设条件,则将所述任一帧视频图像确定为候选视频图像;否则,判定所述任一帧视频图像不具有候选区域,将所述任一帧视频图像确定为非候选视频图像。
本实施例提供的标题区域检测方法,获取视频对象中的任一帧视频图像;获取所述任一帧图像的标题潜在区域内的图像,作为潜在图像;根据潜在图像,确定候选区域;当确定出的候选区域符合预设条件时,将所述任一帧视频图像确定为候选视频图像,为标题区域的检测提供了充分有效的候选视频图像,为后续的标题区域检测过程,节省了大量的运算量,从而能够更有效率地确定出标题区域。
请参阅图3,图3为本申请实施例提供的字体高度过滤方法的一种流程图。
本实施例提供的字体高度过滤方法用于实现前述实施例中的步骤S102,根据至少一帧待检测图像中文字的字体高度,确定所述候选区域是否为标题候选区域。
如图3所示,所述字体高度过滤方法包括:
S301:根据任一帧待检测图像,计算所述任一帧待检测图像的文本掩码。
其中,该步骤S301具体包括:
S3011:根据任一帧待检测图像,生成所述任一帧待检测图像的灰度图像。
根据所述待检测图像,将所述待分割图像由RGB颜色空间转换为灰度或者任意亮度色彩分离空间,例如YUV颜色空间、HSV颜色空间、HSL颜色空间、LAB颜色空间等,以生成所述待检测图像的灰度图像I。
对于从RGB颜色空间转换到灰度空间,转换公式为:
I=R*0.299+G*0.587+B*0.114;
对于从RGB颜色空间转换到亮度色彩分离空间,以HSL颜色空间举例,转换公式为:
I=(max(R,G,B)+min(R,G,B))/2;
S3012:计算所述任一帧待检测图像的灰度图像的分割阈值。
其中,所述任一帧待检测图像的灰度图像的分割阈值作为第三分割阈值。
在一示例中,可以采用OTSU(最大类间方差法)方法计算所述第三分割阈值TK3。第三分割阈值是采用OTSU方法针对待检测图像的灰度图像计算出来的最佳阈值。
S3013:利用所述第三分割阈值,对所述任一帧待检测图像的灰度图像进行二值化处理,得到灰度二值化图像。
灰度二值化图像B中像素点(x,y)的像素值B(x,y)为:
Figure BDA0001541585670000091
其中,I(x,y)为灰度图像I中像素点(x,y)的像素值,TK3为第三分割阈值。
S3014:根据所述灰度二值化图像,计算所述灰度二值化图像的平均像素值;
其中,该步骤S3014具体包括:
(1)、水平扫描所述灰度二值化图像的任一行像素;
(2)、将所述任一行中的首个像素值记为所述任一行的参考像素值;
(3)、统计所述任一行中像素值不等于所述任一行的参考像素值的像素个数,记为第一个数;
(4)、当所述第一个数小于预设个数阈值时,确定所述任一行符合第一预设条件;
(5)、统计符合第一预设条件的行数以及符合第一预设条件的所有行的参考像素值;
(6)、垂直扫描所述灰度二值化图像的任一列像素;
(7)、将所述任一列中的首个像素值记为所述任一列的参考像素值;
(8)、统计所述任一列中像素值不等于所述任一列的参考像素值的像素个数,记为第二个数;
(9)、当所述第二个数小于预设个数阈值时,确定所述任一列符合第二预设条件;
(10)、统计符合第二预设条件的列数以及符合第二预设条件的所有列的参考像素值;
(11)、计算符合第一预设条件的所有行的参考像素值与符合第二预设条件的所有列的参考像素值的像素值总和,以及,符合第一预设条件的行数与符合第二预设条件的列数的行列总数;
(12)、将所述像素值总和与所述行列总数的比值确定为所述灰度二值化图像的平均像素值。
在一示例中,上述步骤(1)~(12)具体实现如下:
水平扫描灰度二值化图像B的每行像素,取本行第一个像素值为color,统计本行像素值不等于color的像素的个数num,如果num<h1,则执行back_color=back_color+color以及count=count+1的累加过程。
垂直扫描图像B的每列像素,取本列第一个像素值为color,统计本列像素值不等于color的像素的个数num,如果num<h1,则执行back_color=back_color+color以及count=count+1的累加过程。
计算平均像素值back_color_avr,其中,back_color_avr=back_color/count。
在该示例中,h1为针对num预设的个数阈值,back_color的初始值为0,count的初始值为0。
S3015:根据所述平均像素值,确定背景像素值;
在一示例中,当所述平均像素值小于预设像素值时,确定背景像素值为第一像素值;当所述平均像素值不小于预设像素值时,确定背景像素值为第二像素值。其中,所述第一像素值与所述第二像素值不同。
例如,预设像素值为灰度二值化图像B中的像素值0和像素值255的中位数128,第一像素值为灰度二值化图像B中的像素值0,第二像素值为灰度二值化图像B中的另一像素值255。如果最后得到平均像素值back_color_avr满足back_color_avr<128,则确定灰度二值化图像B的背景像素值back_color_f=0,否则,确定灰度二值化图像B的背景像素值back_color_f=255。
S3016:根据所述灰度二值化图像与背景像素值,生成与所述任一帧待检测图像相对应的文本掩码。
其中,所述文本掩码为所述任一帧待检测图像中文本区域的掩码。
其中,步骤S3016具体包括:
(1)、将所述灰度二值化图像中像素值与所述背景像素值相同的区域的确定为背景区域;
(2)、将所述灰度二值化图像中像素值与所述背景像素值不同的区域确定为文字区域;
(3)、根据所述背景区域与所述文字区域,生成与所述待检测图像相对应的文本掩码。
在一示例中,将灰度二值化图像B中像素值等于back_color_f的区域确定为背景区域,将背景区域之外区域确定为文字区域。
在另一示例中,步骤S3016还可以包括:
将所述背景区域的像素值设置为第三像素值,将所述文字区域的像素值设置为第四像素值,进而生成由第三像素值和第四像素值组成的文本掩码。
其中,第三像素值与第四像素值不同。例如,第三像素值为0,第四像素值为255。
S302:根据所述文本掩码,确定所述任一帧待检测图像中文字的字体高度。
其中,步骤S302包括:
S3021:利用所述文本掩码在水平方向上的投影,生成掩码水平特征Hb
根据所述文本掩码在水平方向上的投影,统计文本掩码每行中像素值不等于灰度二值化图像的背景像素值back_color_f的像素的个数numb,根据numb与第一特征阈值TH1的大小关系确定掩码水平特征Hb,具体如下:
Figure BDA0001541585670000121
其中,i∈[0,H-1],H为待检测图像的高度(也即候选区域的高度),numb[i]为所述文本掩码第i+1行中像素值不等于所述背景像素值的像素个数。
S3022:计算所述任一帧待检测图像的灰度图像的边缘强度图Eall
对于灰度图像,提取图像边缘特征的方法有多种,如索贝尔(Sobel)边缘检测算子,Canny边缘检测算子等,均可用于计算所述待检测图像的灰度图像的边缘强度图。
在一示例中,以Sobel算子为例。利用水平方向边缘梯度算子和垂直方向边缘梯度算子,与灰度图像进行卷积,获得水平边缘图Eh和垂直边缘图Ev,最终计算出边缘强度图Eall,其中,对于边缘强度图Eall上任意一点(x,y)的值Eall(x,y),满足公式Eall(x,y)=sqrt(Ev(x,y)2+Eh(x,y)2)。
在其他示例中,也可以采用其他算子来计算获得水平边缘图Eh和垂直边缘图Ev,在此不再赘述。
S3023:对所述任一帧待检测图像的灰度图像的边缘强度图Eall进行二值化处理,得到边缘二值化图像E;
边缘二值化图像E中像素点(x,y)的像素值E(x,y)为:
Figure BDA0001541585670000122
其中,TK4为预设的第四分割阈值。
S3024:利用所述边缘二值化图像E在水平方向上的投影,生成边缘水平特征He
根据所述边缘二值化图像E在水平方向上的投影,统计边缘二值化图像E每行中像素值不等于0的像素的个数nume,根据nume与第二特征阈值TH2的大小关系确定边缘水平特征He,具体如下:
Figure BDA0001541585670000123
其中,i∈[0,H-1],H为待检测图像的高度(也即候选区域的高度),nume[i]为所述边缘二值化图像第i+1行中像素值不等于0的像素个数。
S3025:根据所述掩码水平特征Hb与所述边缘水平特征He,计算图像分割特征Hs
将所述掩码水平特征Hb与所述边缘水平特征He进行融合,得到图像分割特征Hs,其中,Hs[i]=Hb[i]|He[i],“|”为求或运算符。
图像分割特征Hs是掩码水平特征Hb与边缘水平特征He的融合结果。融合的目的在于增强拆分的通用性,如果仅使用边缘水平特征He进行文字图像的分割,会出现由于列间距过密导致He[i]全部为0,进而导致无法进行分割的情况;如果仅使用掩码水平特征Hb[i]进行文字图像的分割,则会出现由于图像的压缩效应导致标题与背景不能完整分离的效果,同时对于多颜色字体也会造成影响。所以,本实施例采取由掩码水平特征Hb与边缘水平特征He的相融合得到的图像分割特征Hs,从所述文本掩码中分割文字图像,能够得到更好的文字图像分割效果。
S3026:在i∈[0,H-1]的范围内,对所述图像分割特征Hs[i]进行遍历;
S3027:在所述遍历的过程中,当所述图像分割特征Hs[i]符合水平分割条件时,记录每一水平方向上的位置[i,i+n]为文字行区域,并将所述位置[i,i+n]存入预设列表POStext
其中,所述水平分割条件为同时满足第一条件、第二条件与第三条件;第一条件为:i=0或Hs[i-1]=1;第二条件为:对于每一个j值,Hs[i+j]均等于0,0≤j≤n,j与n为自然数;第三条件为:Hs[i+n+1]=1或i=H-1;
S3028:根据所述预设列表POStext中符合有效高度条件的位置[i,i+n],计算分割区域SEG(0,i,W,n);
所述有效高度条件为:n≥Mh;其中,Mh=H/(N+1),N为所述预设列表POStext中的位置[i,i+n]的数量。
对于预设列表POStext中符合有效高度条件的位置[i,i+n],计算其对应的分割区域SEG(0,i,W,n),W为所述待检测图像的宽度,n的值即为位置[i,i+n]所对应的文字行的行高值。进一步讲,分割区域SEG(0,i,W,n)与符合有效高度条件的位置[i,i+n]之间具有一一对应关系。当符合有效高度条件的位置[i,i+n]的有多个时,相应地,分割区域SEG(0,i,W,n)也有多个。
需要说明的是,在一分割区域SEG(x,y,w,h)中包括x、y、w与h这4个参数,其中,x与y构成分割区域的起点坐标(x,y),w为分割区域的宽度,h为分割区域的高度。
在其他示例中,根据不同的需求,也可以单独采用边缘垂直特征He或掩码垂直特征Hb进行文字图像的分割,在此不再赘述。
S3029:将所有分割区域SEG(0,i,W,n)中n值的平均值确定为所述任一帧待检测图像中文字的字体高度。
根据预设列表POStext中符合有效高度条件的位置[i,i+n],可能会计算得到多个分割区域SEG(0,i,W,n),每个分割区域SEG(0,i,W,n)中的n值即为分割区域SEG(0,i,W,n)所对应文字行的行高值,计算得到所有分割区域SEG(0,i,W,n)中的n值的平均值,便可作为所述任一帧待检测图像中文字的字体高度。
S303:根据全部待检测图像中文字的字体高度,计算全部待检测图像的文字字体平均高度。
S304:根据所述文字字体平均高度,确定所述候选区域是否为标题候选区域。
本发明中的“候选区域”是指初步确定的新闻标题可能存在的区域,本实施例中的“标题候选区域”是根据文字的字体高度进一步确定的新闻标题可能存在的区域。
本实施例提供的标题区域检测方法,根据任一帧待检测图像,计算所述任一帧待检测图像的文本掩码;根据所述文本掩码,确定所述任一帧待检测图像中文字的字体高度;根据全部待检测图像中文字的字体高度,计算全部待检测图像的文字字体平均高度;根据所述文字字体平均高度,确定所述候选区域是否为标题候选区域。本发明根据待检测图像中文字的字体高度,实现了对非标题候选区域的过滤,从而更加准确地为标题区域的检测提供有力依据。
请参阅图4,图4为本申请实施例提供的标题候选区域跟踪方法的一种流程图。
本实施例提供的标题候选区域跟踪方法主要用于实现前述实施例中的步骤S103,当确定所述候选区域为标题候选区域时,按照所述至少一帧待检测视频图像的时域顺序,对所述至少一帧待检测图像依次进行跟踪检测。
如图4所示,所述标题候选区域跟踪方法包括:
S401:当所述标题候选区域为首次跟踪时,获取当前帧待检测图像在跟踪区域内的图像,作为候选跟踪图像;
其中,所述跟踪区域与所述标题候选区域相对应。
在一示例中,所述跟踪区域即为前述实施例中的所述标题候选区域。对标题候选区域进行跟踪,是为了进一步确定该标题候选区域是否为标题区域,提高标题区域检测的精准度。
在另一示例中,假设标题候选区域为CandidateRect(CandidateRect.x,CandidateRect.y,CandidateRect.w,CandidateRect.h),其中,(CandidateRect.x,CandidateRect.y)为标题候选区域的起点坐标,CandidateRect.w为标题候选区域的宽度,CandidateRect.h为标题候选区域的高度。据此,设定跟踪区域track(track.x,track.y,track.w,track.h)满足:
track.x=CandidateRect.x+CandidateRect.w×Xratio1;
track.y=CandidateRect.y+CandidateRect.h×Yratio1;
track.w=CandidateRect.w×Xratio2;
track.h=CandidateRect.h×Yratio2;
其中,Xratio1,Xratio2,Yratio1,Yratio2均为预先设定的参数。
S402:计算所述候选跟踪图像的参考颜色直方图与参考二值化图像;
首先,根据所述候选跟踪图像,将所述候选跟踪图像由RGB颜色空间转换为灰度或者任意亮度色彩分离空间,例如YUV颜色空间、HSV颜色空间、HSL颜色空间、LAB颜色空间等,以生成所述候选跟踪图像的灰度图像G1。
对于从RGB颜色空间转换到灰度空间,转换公式为:
G1=R*0.299+G*0.587+B*0.114;
对于从RGB颜色空间转换到亮度色彩分离空间,以HSL颜色空间举例,转换公式为:
G1=(max(R,G,B)+min(R,G,B))/2;
计算所述候选跟踪图像的灰度图像的分割阈值。
其中,所述候选跟踪图像的灰度图像的分割阈值作为第五分割阈值。
在一示例中,采用OTSU(最大类间方差法)方法计算所述第五分割阈值TK5。第五分割阈值为采用OTSU方法针对所述候选跟踪图像的灰度图像计算出来的最佳阈值。
然后,利用所述第五分割阈值TK5,对所述候选跟踪图像的灰度图像进行二值化处理,得到参考二值化图像。
参考二值化图像Bref中像素点(x,y)的像素值Bref(x,y)为:
Figure BDA0001541585670000161
其中,G1(x,y)为灰度图像G1中像素点(x,y)的像素值,TK5为第五分割阈值。
同时,计算所述候选跟踪图像的参考颜色直方图,所述候选跟踪图像的参考颜色直方图Href即为候选跟踪图像的颜色直方图。
S403:当所述标题候选区域为非首次跟踪时,获取当前帧待检测图像在跟踪区域内的图像,作为当前跟踪图像;
S404:计算所述当前跟踪图像的当前颜色直方图与当前二值化图像;
根据所述当前跟踪图像,获取所述当前跟踪图像的灰度图像。
根据所述当前跟踪图像,将所述当前跟踪图像由RGB颜色空间转换为灰度或者任意亮度色彩分离空间,例如YUV颜色空间、HSV颜色空间、HSL颜色空间、LAB颜色空间等,以生成所述当前跟踪图像的灰度图像G2。
对于从RGB颜色空间转换到灰度空间,转换公式为:
G2=R*0.299+G*0.587+B*0.114;
对于从RGB颜色空间转换到亮度色彩分离空间,以HSL颜色空间举例,转换公式为:
G2=(max(R,G,B)+min(R,G,B))/2;
利用所述第五分割阈值,对所述当前跟踪图像的灰度图像进行二值化处理,得到跟踪二值化图像。
跟踪二值化图像Btrack中像素点(x,y)的像素值Btrack(x,y)为:
Figure BDA0001541585670000162
其中,G2(x,y)为灰度图像G2中像素点(x,y)的像素值。
同时,计算所述当前跟踪图像的参考颜色直方图,所述当前跟踪图像的参考颜色直方图Htrack即为当前跟踪图像的颜色直方图。
S405:根据所述当前颜色直方图与所述参考颜色直方图的差异以及所述当前二值化图像与所述参考二值化图像的差异,确定当前帧待检测图像是否满足预设条件。
对于差分平均值Diffbinary与颜色差异值Diffcolor,分别同各自预先设定的阈值Thbinary与Thcolor进行比较,如果Diffbinary<Thbinary且Diffcolor<Thcolor,则确定当前帧待检测图像是否满足预设条件。
若当前帧待检测图像满足预设条件,则表明在当前帧待检测图像中跟踪标题候选区域成功;否则表明在当前帧待检测图像中跟踪标题候选区域失败。无论跟踪成功,还是跟踪失败,通常都会继续针对下一帧待检测图像继续进行跟踪过程。
在一示例中,所述标题候选区域跟踪方法还包括:
在跟踪检测过程中,统计不满足预设条件的待检测图像的数量,记为丢失帧数;
当所述丢失帧数大于预设丢失阈值时,结束对所述至少一帧待检测图像依次进行跟踪检测的过程。
在具体示例中,预设丢失帧数lost_num的初始值为0,当前帧待检测图像不满足预设条件时,丢失帧数lost_num加1,如果lost_num>Thlost,则结束跟踪检测,否则,对下一帧待检测图像中的跟踪区域继续执行上述跟踪检测过程。
其中,设置lost_num>Thlost这一条件的目的是为了避免个别视频信号受到干扰,引起图像出现失真,导致匹配失败,通过lost_num>Thlost这一条件的设置,允许算法有个别数量的视频帧跟踪失败。其中,Thlost为针对lost_num设定的丢失计数阈值。
本实施例提供的标题候选区域跟踪检测方法,当所述标题候选区域为首次跟踪时,获取当前帧待检测图像在跟踪区域内的图像,作为候选跟踪图像;当所述标题候选区域为非首次跟踪时,获取当前帧待检测图像在跟踪区域内的图像,作为当前跟踪图像;根据所述当前跟踪图像的当前颜色直方图与所述候选跟踪图像的参考颜色直方图的差异以及所述当前跟踪图像的当前二值化图像与所述候选跟踪图像的参考二值化图像的差异,确定当前帧待检测图像是否满足预设条件,进而实现了按照待检测视频图像的时域顺序,对标题候选区域进行跟踪检测的技术效果。
对应于标题区域检测方法,本发明实施例还提供了相应的标题区域检测系统。
请参阅图5,图5为本申请实施例的标题区域检测系统的一种结构示意图。
本实施例标题区域检测系统,用于实施前述实施例的标题区域检测方法,具体可参见前述的方法实施例。
如图5所示,所述系统包括:
候选图像获取单元U100,用于获取视频对象中的至少一帧候选视频图像,所述至少一帧候选视频图像采用相同的候选区域。
字体高度过滤单元U200,用于根据至少一帧待检测图像中文字的字体高度,确定所述候选区域是否为标题候选区域。
其中,所述至少一帧待检测图像分别为所述至少一帧候选视频图像的候选区域内的图像。
具体地,可以根据一帧待检测图像中文字的字体高度来进行确定,也可以根据连续N帧待检测图像中文字的字体高度来进行确定。
候选区域跟踪单元U300,用于当确定所述候选区域为标题候选区域时,按照所述至少一帧待检测视频图像的时域顺序,对所述至少一帧待检测图像依次进行跟踪检测;
所述候选区域跟踪单元U300,还用于在所述跟踪检测的过程中,统计满足预设条件的待检测图像的数量,记为跟踪帧数;
在一示例中,预设跟踪帧数的初始值为0,当当前帧待检测图像满足预设条件时,跟踪帧数加1。
标题区域确定单元U400,用于在所述跟踪检测结束后,根据所述跟踪帧数,确定所述候选区域是否为标题区域。
在一示例中,在跟踪检测结束后,比较跟踪帧数tracking_num与预先设定的阈值Thtracking_num的大小关系,如果tracking_num≥Thtracking_num,则判定标题候选区域为标题区域,否则,判定标题候选区域为非标题区域(如,滚动字幕区域)。
其中,所述候选图像获取单元U100包括:
第一获取单元,用于获取视频对象中的任一帧视频图像;
第二获取单元,用于获取所述任一帧图像的标题潜在区域内的图像,作为潜在图像;
第一计算单元,用于计算所述潜在图像的边缘强度图;
第一确定单元,用于根据所述潜在图像的边缘强度图在水平方向上投影得到的水平直方图,确定候选区域的上下边界;
第二确定单元,用于根据所述潜在图像的边缘强度图在垂直方向上投影得到的垂直直方图,确定候选区域的左右边界;
第三确定单元,用于根据所述上下边界与所述左右边界,确定候选区域;
第四确定单元,用于当确定出的候选区域符合预设条件时,将所述任一帧视频图像确定为候选视频图像。
其中,所述字体高度过滤单元U200包括:
第二计算单元,用于根据任一帧待检测图像,计算所述任一帧待检测图像的文本掩码;
第五确定单元,用于根据所述文本掩码,确定所述任一帧待检测图像中文字的字体高度;
第三计算单元,用于根据全部待检测图像中文字的字体高度,计算全部待检测图像的文字字体平均高度;
第六确定单元,用于根据所述文字字体平均高度,确定所述候选区域是否为标题候选区域。
在一示例中,为了实现根据任一帧待检测图像,计算所述任一帧待检测图像的文本掩码,所述第二计算单元具体用于:
根据任一帧待检测图像,生成所述任一帧待检测图像的灰度图像;
计算所述任一帧待检测图像的灰度图像的分割阈值,其中,所述任一帧待检测图像的灰度图像的分割阈值作为第三分割阈值;
利用所述第三分割阈值,对所述任一帧待检测图像的灰度图像进行二值化处理,得到灰度二值化图像;
根据所述灰度二值化图像,计算所述灰度二值化图像的平均像素值;
根据所述平均像素值,确定背景像素值;
根据所述灰度二值化图像与背景像素值,生成与所述任一帧待检测图像相对应的文本掩码,其中,所述文本掩码为所述任一帧待检测图像中文本区域的掩码。
在一示例中,为了实现根据所述灰度二值化图像,计算所述灰度二值化图像的平均像素值,所述第二计算单元还具体用于:
水平扫描所述灰度二值化图像的任一行像素;
将所述任一行中的首个像素值记为所述任一行的参考像素值;
统计所述任一行中像素值不等于所述任一行的参考像素值的像素个数,记为第一个数;
当所述第一个数小于预设个数阈值时,确定所述任一行符合第一预设条件;
统计符合第一预设条件的行数以及符合第一预设条件的所有行的参考像素值;
垂直扫描所述灰度二值化图像的任一列像素;
将所述任一列中的首个像素值记为所述任一列的参考像素值;
统计所述任一列中像素值不等于所述任一列的参考像素值的像素个数,记为第二个数;
当所述第二个数小于预设个数阈值时,确定所述任一列符合第二预设条件;
统计符合第二预设条件的列数以及符合第二预设条件的所有列的参考像素值;
计算符合第一预设条件的所有行的参考像素值与符合第二预设条件的所有列的参考像素值的像素值总和,以及,符合第一预设条件的行数与符合第二预设条件的列数的行列总数;
将所述像素值总和与所述行列总数的比值确定为所述灰度二值化图像的平均像素值。
在一示例中,为了实现根据所述平均像素值,确定背景像素值,所述第二计算单元还具体用于:
当所述平均像素值小于预设像素值时,确定背景像素值为第一像素值;
当所述平均像素值不小于预设像素值时,确定背景像素值为第二像素值。
在一示例中,为了实现根据所述灰度二值化图像与背景像素值,生成与所述任一帧待检测图像相对应的文本掩码,所述第二计算单元具体用于:
将所述灰度二值化图像中像素值与所述背景像素值相同的区域的确定为背景区域;
将所述灰度二值化图像中像素值与所述背景像素值不同的区域确定为文字区域;
根据所述背景区域与所述文字区域,生成与所述待检测图像相对应的文本掩码。
在一示例中,所述第二计算单元还用于:
将所述背景区域的像素值设置为第三像素值;
将所述文字区域的像素值设置为第四像素值。
在一示例中,为了实现根据所述文本掩码,确定所述任一帧待检测图像中文字的字体高度,所述第五确定单元具体用于:
利用所述文本掩码在水平方向上的投影,生成掩码水平特征Hb
计算所述任一帧待检测图像的灰度图像的边缘强度图Eall
对所述任一帧待检测图像的灰度图像的边缘强度图Eall进行二值化处理,得到边缘二值化图像E;
利用所述边缘二值化图像E在水平方向上的投影,生成边缘水平特征He
根据所述掩码水平特征Hb与所述边缘水平特征He,计算图像分割特征Hs
在i∈[0,H-1]的范围内,对所述图像分割特征Hs[i]进行遍历;
在所述遍历的过程中,当所述图像分割特征Hs[i]符合水平分割条件时,记录每一水平方向上的位置[i,i+n]为文字行区域,并将所述位置[i,i+n]存入预设列表POStext
根据所述预设列表POStext中符合有效高度条件的位置[i,i+n],计算分割区域SEG(0,i,W,n);
将所有分割区域SEG(0,i,W,n)中n值的平均值确定为所述任一帧待检测图像中文字的字体高度;
其中,所述水平分割条件为同时满足第一条件、第二条件与第三条件;第一条件为:i=0或Hs[i-1]=1;第二条件为:对于每一个j值,Hs[i+j]均等于0,0≤j≤n,j与n为自然数;第三条件为:Hs[i+n+1]=1或i=H-1;
所述有效高度条件为:n≥Mh;其中,Mh=H/(N+1),N为所述预设列表POStext中的位置[i,i+n]的数量;
其中,
Figure BDA0001541585670000221
Figure BDA0001541585670000222
Hs[i]=Hb[i]|He[i];numb[i]为所述掩码图像第i+1行中像素值不等于所述背景像素值的像素个数;TH1为预设的第一特征阈值;nume[i]为所述边缘二值化图像第i+1行中像素值不等于0的像素个数,TH2为预设的第二特征阈值;TK4为第四分割阈值;i∈[0,H-1],H为所述待检测图像的高度,W为所述待检测图像的宽度。
在一示例中,为了实现当确定所述候选区域为标题候选区域时,按照所述至少一帧待检测视频图像的时域顺序,对所述至少一帧待检测图像依次进行跟踪检测,所述候选区域跟踪单元U300包括:
第三获取单元,用于当所述标题候选区域为首次跟踪时,获取当前帧待检测图像在跟踪区域内的图像,作为候选跟踪图像;所述跟踪区域与所述标题候选区域相对应;
第四计算单元,用于计算所述候选跟踪图像的参考颜色直方图与参考二值化图像;
第四获取单元,用于当所述标题候选区域为非首次跟踪时,获取当前帧待检测图像在跟踪区域内的图像,作为当前跟踪图像;
第五计算单元,用于计算所述当前跟踪图像的当前颜色直方图与当前二值化图像;
第七确定单元,用于根据所述当前颜色直方图与所述参考颜色直方图的差异以及所述当前二值化图像与所述参考二值化图像的差异,确定当前帧待检测图像是否满足预设条件。
在一示例中,所述候选区域跟踪单元U300还用于:
在跟踪检测过程中,统计不满足预设条件的待检测图像的数量,记为丢失帧数;
当所述丢失帧数大于预设丢失阈值时,结束对所述至少一帧待检测图像依次进行跟踪检测的过程。
本实施例提供的标题区域检测系统,基于新闻标题的文字字体的高度特征,能够滤除滚动字幕的干扰,准确判断出视频图像中的检测区域是否为标题区域;并且,针对不同风格的新闻视频中新闻标题文字的高度特征,本发明可以通过设定相应的预设高度阈值,以适用于各种风格的新闻视频中标题区域的准确定位,具有普遍适用性。
本发明提供的标题区域检测方法及系统,获取视频对象中采用相同的候选区域的至少一帧候选视频图像,根据候选区域中的至少一帧待检测图像中文字的字体高度,确定候选区域是否为标题候选区域;当确定候选区域为标题候选区域时,按照至少一帧待检测视频图像的时域顺序,对候选区域进行跟踪检测;在跟踪检测的过程中,统计满足预设条件的待检测图像的跟踪帧数;最后根据跟踪帧数,确定候选区域是否为标题区域。本发明基于新闻标题的文字的字体高度特征,能够滤除滚动字幕的干扰,准确判断出标题候选区域,并通过对标题候选区域的跟踪检测,能够最终确定出标题候选区域是否为标题区域,提高标题区域的检测精度。
最后,还需要说明的是,在本文中,诸如第一和第一等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的硬件平台的方式来实现,当然也可以全部通过硬件来实施,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本申请的限制。

Claims (22)

1.一种标题区域检测方法,其特征在于,包括:
获取视频对象中的至少一帧候选视频图像,所述至少一帧候选视频图像采用相同的候选区域;
根据至少一帧待检测图像中文字的字体高度,确定所述候选区域是否为标题候选区域;所述至少一帧待检测图像分别为所述至少一帧候选视频图像的候选区域内的图像;其中,待检测图像中文字的字体高度,是根据待检测图像计算待检测图像的文本掩码,并根据文本掩码确定的,且用于区分标题候选区域与非标题候选区域,所述标题候选区域与非标题候选区域均包含文字;根据所述文本掩码确定所述待检测图像中文字的字体高度包括:利用所述文本掩码在水平方向上的投影生成的掩码水平特征与边缘二值化图像在水平方向上的投影生成的边缘水平特征,计算图像分割特征;当所述图像分割特征符合水平分割条件时,记录每一水平方向上的位置为文字行区域,并将所述位置存入预设列表;根据所述预设列表中符合有效高度条件的位置,计算分割区域;根据所述分割区域中文字行行高值的平均值确定为所述待检测图像中文字的字体高度;
当确定所述候选区域为标题候选区域时,按照所述至少一帧待检测图像的时域顺序,对所述至少一帧待检测图像依次进行跟踪检测;
在所述跟踪检测的过程中,统计满足预设条件的待检测图像的数量,记为跟踪帧数;
在所述跟踪检测结束后,根据所述跟踪帧数,确定所述候选区域是否为标题区域。
2.根据权利要求1所述的方法,其特征在于,所述获取视频对象中的至少一帧候选视频图像包括:
获取视频对象中的任一帧视频图像;
获取所述任一帧视频图像的标题潜在区域内的图像,作为潜在图像;所述标题潜在区域为用户指定的标题所在区域;
计算所述潜在图像的边缘强度图;
根据所述潜在图像的边缘强度图在水平方向上投影得到的水平直方图,确定候选区域的上下边界;
根据所述潜在图像的边缘强度图在垂直方向上投影得到的垂直直方图,确定候选区域的左右边界;
根据所述上下边界与所述左右边界,确定候选区域;
当确定出的候选区域符合预定条件时,将所述任一帧视频图像确定为候选视频图像。
3.根据权利要求1所述的方法,其特征在于,所述根据至少一帧待检测图像中文字的字体高度,确定所述候选区域是否为标题候选区域包括:
根据任一帧待检测图像,计算所述任一帧待检测图像的文本掩码;
根据所述文本掩码,确定所述任一帧待检测图像中文字的字体高度;
根据全部待检测图像中文字的字体高度,计算全部待检测图像的文字字体平均高度;
根据所述文字字体平均高度,确定所述候选区域是否为标题候选区域。
4.根据权利要求3所述的方法,其特征在于,所述根据任一帧待检测图像,计算所述任一帧待检测图像的文本掩码包括:
根据任一帧待检测图像,生成所述任一帧待检测图像的灰度图像;
计算所述任一帧待检测图像的灰度图像的分割阈值,其中,所述任一帧待检测图像的灰度图像的分割阈值作为第三分割阈值;
利用所述第三分割阈值,对所述任一帧待检测图像的灰度图像进行二值化处理,得到灰度二值化图像;
根据所述灰度二值化图像,计算所述灰度二值化图像的平均像素值;
根据所述平均像素值,确定背景像素值;
根据所述灰度二值化图像与背景像素值,生成与所述任一帧待检测图像相对应的文本掩码,其中,所述文本掩码为所述任一帧待检测图像中文本区域的掩码。
5.根据权利要求4所述的方法,其特征在于,所述根据所述灰度二值化图像,计算所述灰度二值化图像的平均像素值包括:
水平扫描所述灰度二值化图像的任一行像素;
将所述任一行中的首个像素值记为所述任一行的参考像素值;
统计所述任一行中像素值不等于所述任一行的参考像素值的像素个数,记为第一个数;
当所述第一个数小于预设个数阈值时,确定所述任一行符合第一预设条件;
统计符合第一预设条件的行数以及符合第一预设条件的所有行的参考像素值;
垂直扫描所述灰度二值化图像的任一列像素;
将所述任一列中的首个像素值记为所述任一列的参考像素值;
统计所述任一列中像素值不等于所述任一列的参考像素值的像素个数,记为第二个数;
当所述第二个数小于预设个数阈值时,确定所述任一列符合第二预设条件;
统计符合第二预设条件的列数以及符合第二预设条件的所有列的参考像素值;
计算符合第一预设条件的所有行的参考像素值与符合第二预设条件的所有列的参考像素值的像素值总和,以及,符合第一预设条件的行数与符合第二预设条件的列数的行列总数;
将所述像素值总和与所述行列总数的比值确定为所述灰度二值化图像的平均像素值。
6.根据权利要求4所述的方法,其特征在于,所述根据所述平均像素值,确定背景像素值包括:
当所述平均像素值小于预设像素值时,确定背景像素值为第一像素值;
当所述平均像素值不小于预设像素值时,确定背景像素值为第二像素值;
所述第一像素值与所述第二像素值不同。
7.根据权利要求4所述的方法,其特征在于,所述根据所述灰度二值化图像与背景像素值,生成与所述任一帧待检测图像相对应的文本掩码包括:
将所述灰度二值化图像中像素值与所述背景像素值相同的区域确定为背景区域;
将所述灰度二值化图像中像素值与所述背景像素值不同的区域确定为文字区域;
根据所述背景区域与所述文字区域,生成与所述待检测图像相对应的文本掩码。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
将所述背景区域的像素值设置为第三像素值;
将所述文字区域的像素值设置为第四像素值;
所述第三像素值与所述第四像素值不同。
9.根据权利要求4所述的方法,其特征在于,所述根据所述文本掩码,确定所述任一帧待检测图像中文字的字体高度包括:
利用所述文本掩码在水平方向上的投影,生成掩码水平特征Hb;
计算所述任一帧待检测图像的灰度图像的边缘强度图Eall;
对所述任一帧待检测图像的灰度图像的边缘强度图Eall进行二值化处理,得到边缘二值化图像E;
利用所述边缘二值化图像E在水平方向上的投影,生成边缘水平特征He
根据所述掩码水平特征Hb与所述边缘水平特征He,计算图像分割特征Hs
在i∈[0,H-1]的范围内,对所述图像分割特征Hs[i]进行遍历;
在所述遍历的过程中,当所述图像分割特征Hs[i]符合水平分割条件时,记录每一水平方向上的位置[i,i+n]为文字行区域,并将所述位置[i,i+n]存入预设列表POStext
根据所述预设列表POStext中符合有效高度条件的位置[i,i+n],计算分割区域SEG(0,i,W,n);
将所有分割区域SEG(0,i,W,n)中n值的平均值确定为所述任一帧待检测图像中文字的字体高度;
其中,所述水平分割条件为同时满足第一条件、第二条件与第三条件;第一条件为:i=0或Hs[i-1]=1;第二条件为:对于每一个j值,Hs[i+j]均等于0,0≤j≤n,j与n为自然数;第三条件为:Hs[i+n+1]=1或i=H-1;
所述有效高度条件为:n≥Mh;其中,Mh=H/(N+1),N为所述预设列表POStext中的位置[i,i+n]的数量;
其中,
Figure FDA0002800003910000051
Figure FDA0002800003910000052
Hs[i]=Hb[i]|He[i];numb[i]为所述文本掩码第i+1行中像素值不等于所述背景像素值的像素个数;TH1为预设的第一特征阈值;nume[i]为所述边缘二值化图像第i+1行中像素值不等于0的像素个数,TH2为预设的第二特征阈值;TK4为第四分割阈值;i∈[0,H-1],H为所述待检测图像的高度,W为所述待检测图像的宽度。
10.根据权利要求1所述的方法,其特征在于,所述按照所述至少一帧待检测图像的时域顺序,对所述至少一帧待检测图像依次进行跟踪检测包括:
当所述标题候选区域为首次跟踪时,获取当前帧待检测图像在跟踪区域内的图像,作为候选跟踪图像;所述跟踪区域与所述标题候选区域相对应;
计算所述候选跟踪图像的参考颜色直方图与参考二值化图像;
当所述标题候选区域为非首次跟踪时,获取当前帧待检测图像在跟踪区域内的图像,作为当前跟踪图像;
计算所述当前跟踪图像的当前颜色直方图与当前二值化图像;
根据所述当前颜色直方图与所述参考颜色直方图的差异以及所述当前二值化图像与所述参考二值化图像的差异,确定当前帧待检测图像是否满足预设条件。
11.根据权利要求10所述的方法,其特征在于,所述方法还包括:
在跟踪检测过程中,统计不满足预设条件的待检测图像的数量,记为丢失帧数;
当所述丢失帧数大于预设丢失阈值时,结束对所述至少一帧待检测图像依次进行跟踪检测的过程。
12.一种标题区域检测系统,其特征在于,包括:
候选图像获取单元,用于获取视频对象中的至少一帧候选视频图像,所述至少一帧候选视频图像采用相同的候选区域;
字体高度过滤单元,用于根据至少一帧待检测图像中文字的字体高度,确定所述候选区域是否为标题候选区域;所述至少一帧待检测图像分别为所述至少一帧候选视频图像的候选区域内的图像;其中,待检测图像中文字的字体高度,是根据待检测图像计算待检测图像的文本掩码,并根据文本掩码确定的,且用于区分标题候选区域与非标题候选区域,所述标题候选区域与非标题候选区域均包含文字;根据所述文本掩码确定所述待检测图像中文字的字体高度包括:利用所述文本掩码在水平方向上的投影生成的掩码水平特征与边缘二值化图像在水平方向上的投影生成的边缘水平特征,计算图像分割特征;当所述图像分割特征符合水平分割条件时,记录每一水平方向上的位置为文字行区域,并将所述位置存入预设列表;根据所述预设列表中符合有效高度条件的位置,计算分割区域;根据所述分割区域中文字行行高值的平均值确定为所述待检测图像中文字的字体高度;
候选区域跟踪单元,用于当确定所述候选区域为标题候选区域时,按照所述至少一帧待检测图像的时域顺序,对所述至少一帧待检测图像依次进行跟踪检测;
所述候选区域跟踪单元,还用于在所述跟踪检测的过程中,统计满足预设条件的待检测图像的数量,记为跟踪帧数;
标题区域确定单元,用于在所述跟踪检测结束后,根据所述跟踪帧数,确定所述候选区域是否为标题区域。
13.根据权利要求12所述的系统,其特征在于,所述候选图像获取单元包括:
第一获取单元,用于获取视频对象中的任一帧视频图像;
第二获取单元,用于获取所述任一帧视频图像的标题潜在区域内的图像,作为潜在图像;所述标题潜在区域为用户指定的标题所在区域;
第一计算单元,用于计算所述潜在图像的边缘强度图;
第一确定单元,用于根据所述潜在图像的边缘强度图在水平方向上投影得到的水平直方图,确定候选区域的上下边界;
第二确定单元,用于根据所述潜在图像的边缘强度图在垂直方向上投影得到的垂直直方图,确定候选区域的左右边界;
第三确定单元,用于根据所述上下边界与所述左右边界,确定候选区域;
第四确定单元,用于当确定出的候选区域符合预定条件时,将所述任一帧视频图像确定为候选视频图像。
14.根据权利要求12所述的系统,其特征在于,所述字体高度过滤单元包括:
第二计算单元,用于根据任一帧待检测图像,计算所述任一帧待检测图像的文本掩码;
第五确定单元,用于根据所述文本掩码,确定所述任一帧待检测图像中文字的字体高度;
第三计算单元,用于根据全部待检测图像中文字的字体高度,计算全部待检测图像的文字字体平均高度;
第六确定单元,用于根据所述文字字体平均高度,确定所述候选区域是否为标题候选区域。
15.根据权利要求14所述的系统,其特征在于,所述第二计算单元具体用于:
根据任一帧待检测图像,生成所述任一帧待检测图像的灰度图像;
计算所述任一帧待检测图像的灰度图像的分割阈值,其中,所述任一帧待检测图像的灰度图像的分割阈值作为第三分割阈值;
利用所述第三分割阈值,对所述任一帧待检测图像的灰度图像进行二值化处理,得到灰度二值化图像;
根据所述灰度二值化图像,计算所述灰度二值化图像的平均像素值;
根据所述平均像素值,确定背景像素值;
根据所述灰度二值化图像与背景像素值,生成与所述任一帧待检测图像相对应的文本掩码,其中,所述文本掩码为所述任一帧待检测图像中文本区域的掩码。
16.根据权利要求15所述的系统,其特征在于,所述第二计算单元具体用于:
水平扫描所述灰度二值化图像的任一行像素;
将所述任一行中的首个像素值记为所述任一行的参考像素值;
统计所述任一行中像素值不等于所述任一行的参考像素值的像素个数,记为第一个数;
当所述第一个数小于预设个数阈值时,确定所述任一行符合第一预设条件;
统计符合第一预设条件的行数以及符合第一预设条件的所有行的参考像素值;
垂直扫描所述灰度二值化图像的任一列像素;
将所述任一列中的首个像素值记为所述任一列的参考像素值;
统计所述任一列中像素值不等于所述任一列的参考像素值的像素个数,记为第二个数;
当所述第二个数小于预设个数阈值时,确定所述任一列符合第二预设条件;
统计符合第二预设条件的列数以及符合第二预设条件的所有列的参考像素值;
计算符合第一预设条件的所有行的参考像素值与符合第二预设条件的所有列的参考像素值的像素值总和,以及,符合第一预设条件的行数与符合第二预设条件的列数的行列总数;
将所述像素值总和与所述行列总数的比值确定为所述灰度二值化图像的平均像素值。
17.根据权利要求15所述的系统,其特征在于,所述第二计算单元具体用于:
当所述平均像素值小于预设像素值时,确定背景像素值为第一像素值;
当所述平均像素值不小于预设像素值时,确定背景像素值为第二像素值;
所述第一像素值与所述第二像素值不同。
18.根据权利要求15所述的系统,其特征在于,所述第二计算单元具体用于:
将所述灰度二值化图像中像素值与所述背景像素值相同的区域确定为背景区域;
将所述灰度二值化图像中像素值与所述背景像素值不同的区域确定为文字区域;
根据所述背景区域与所述文字区域,生成与所述待检测图像相对应的文本掩码。
19.根据权利要求18所述的系统,其特征在于,所述第二计算单元具体用于:
将所述背景区域的像素值设置为第三像素值;
将所述文字区域的像素值设置为第四像素值;
所述第三像素值与所述第四像素值不同。
20.根据权利要求15所述的系统,其特征在于,所述第五确定单元具体用于:
利用所述文本掩码在水平方向上的投影,生成掩码水平特征Hb;
计算所述任一帧待检测图像的灰度图像的边缘强度图Eall;
对所述任一帧待检测图像的灰度图像的边缘强度图Eall进行二值化处理,得到边缘二值化图像E;
利用所述边缘二值化图像E在水平方向上的投影,生成边缘水平特征He
根据所述掩码水平特征Hb与所述边缘水平特征He,计算图像分割特征Hs
在i∈[0,H-1]的范围内,对所述图像分割特征Hs[i]进行遍历;
在所述遍历的过程中,当所述图像分割特征Hs[i]符合水平分割条件时,记录每一水平方向上的位置[i,i+n]为文字行区域,并将所述位置[i,i+n]存入预设列表POStext
根据所述预设列表POStext中符合有效高度条件的位置[i,i+n],计算分割区域SEG(0,i,W,n);
将所有分割区域SEG(0,i,W,n)中n值的平均值确定为所述任一帧待检测图像中文字的字体高度;
其中,所述水平分割条件为同时满足第一条件、第二条件与第三条件;第一条件为:i=0或Hs[i-1]=1;第二条件为:对于每一个j值,Hs[i+j]均等于0,0≤j≤n,j与n为自然数;第三条件为:Hs[i+n+1]=1或i=H-1;
所述有效高度条件为:n≥Mh;其中,Mh=H/(N+1),N为所述预设列表POStext中的位置[i,i+n]的数量;
其中,
Figure FDA0002800003910000091
Figure FDA0002800003910000092
Hs[i]=Hb[i]|He[i];numb[i]为所述文本掩码第i+1行中像素值不等于所述背景像素值的像素个数;TH1为预设的第一特征阈值;nume[i]为所述边缘二值化图像第i+1行中像素值不等于0的像素个数,TH2为预设的第二特征阈值;TK4为第四分割阈值;i∈[0,H-1],H为所述待检测图像的高度,W为所述待检测图像的宽度。
21.根据权利要求12所述的系统,其特征在于,所述候选区域跟踪单元包括:
第三获取单元,用于当所述标题候选区域为首次跟踪时,获取当前帧待检测图像在跟踪区域内的图像,作为候选跟踪图像;所述跟踪区域与所述标题候选区域相对应;
第四计算单元,用于计算所述候选跟踪图像的参考颜色直方图与参考二值化图像;
第四获取单元,用于当所述标题候选区域为非首次跟踪时,获取当前帧待检测图像在跟踪区域内的图像,作为当前跟踪图像;
第五计算单元,用于计算所述当前跟踪图像的当前颜色直方图与当前二值化图像;
第七确定单元,用于根据所述当前颜色直方图与所述参考颜色直方图的差异以及所述当前二值化图像与所述参考二值化图像的差异,确定当前帧待检测图像是否满足预设条件。
22.根据权利要求21所述的系统,其特征在于,所述候选区域跟踪单元还用于:
在跟踪检测过程中,统计不满足预设条件的待检测图像的数量,记为丢失帧数;
当所述丢失帧数大于预设丢失阈值时,结束对所述至少一帧待检测图像依次进行跟踪检测的过程。
CN201810014862.8A 2018-01-08 2018-01-08 标题区域检测方法及系统 Active CN108229476B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810014862.8A CN108229476B (zh) 2018-01-08 2018-01-08 标题区域检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810014862.8A CN108229476B (zh) 2018-01-08 2018-01-08 标题区域检测方法及系统

Publications (2)

Publication Number Publication Date
CN108229476A CN108229476A (zh) 2018-06-29
CN108229476B true CN108229476B (zh) 2021-02-09

Family

ID=62643174

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810014862.8A Active CN108229476B (zh) 2018-01-08 2018-01-08 标题区域检测方法及系统

Country Status (1)

Country Link
CN (1) CN108229476B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109800757B (zh) * 2019-01-04 2022-04-19 西北工业大学 一种基于布局约束的视频文字追踪方法
CN112818984B (zh) * 2021-01-27 2023-10-24 北京奇艺世纪科技有限公司 标题生成方法、装置、电子设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101533474A (zh) * 2008-03-12 2009-09-16 三星电子株式会社 基于视频图像的字符和图像识别系统和方法
CN104504717A (zh) * 2014-12-31 2015-04-08 北京奇艺世纪科技有限公司 一种图像信息检测方法及装置
CN106228168A (zh) * 2016-07-29 2016-12-14 北京小米移动软件有限公司 卡片图像反光检测方法和装置
CN107071179A (zh) * 2017-04-25 2017-08-18 北京小米移动软件有限公司 日程管理方法及装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5445467B2 (ja) * 2009-01-06 2014-03-19 日本電気株式会社 クレジット情報区間検出方法、クレジット情報区間検出装置及びクレジット情報区間検出プログラム
CN102665051A (zh) * 2012-04-06 2012-09-12 安科智慧城市技术(中国)有限公司 基于嵌入式系统的播放终端及其字幕显示方法、系统
US9305239B2 (en) * 2014-05-13 2016-04-05 Samsung Electronics Co., Ltd. Detecting and processing small text in digital media
CN104244073B (zh) * 2014-09-26 2017-05-17 北京大学 一种视频中滚动字幕的自动检测和识别方法
US9471990B1 (en) * 2015-10-20 2016-10-18 Interra Systems, Inc. Systems and methods for detection of burnt-in text in a video
CN107403179B (zh) * 2016-05-20 2020-10-23 株式会社理光 一种物品包装信息的注册方法及装置
CN106529529B (zh) * 2016-10-31 2018-01-30 腾讯科技(深圳)有限公司 一种视频字幕识别方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101533474A (zh) * 2008-03-12 2009-09-16 三星电子株式会社 基于视频图像的字符和图像识别系统和方法
CN104504717A (zh) * 2014-12-31 2015-04-08 北京奇艺世纪科技有限公司 一种图像信息检测方法及装置
CN106228168A (zh) * 2016-07-29 2016-12-14 北京小米移动软件有限公司 卡片图像反光检测方法和装置
CN107071179A (zh) * 2017-04-25 2017-08-18 北京小米移动软件有限公司 日程管理方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"新闻视频中标题文本检测定位技术研究";陶永宽;《中国优秀硕士学位论文全文数据库 信息科技辑》;20090715;正文第31-45页 *

Also Published As

Publication number Publication date
CN108229476A (zh) 2018-06-29

Similar Documents

Publication Publication Date Title
CN106254933B (zh) 字幕提取方法及装置
CN108882057B (zh) 视频摘要生成方法及装置
US7929765B2 (en) Video text processing apparatus
CN107609546B (zh) 一种文字标题识别方法及装置
US9613266B2 (en) Complex background-oriented optical character recognition method and device
CN107977645B (zh) 一种视频新闻海报图的生成方法及装置
Davila et al. Whiteboard video summarization via spatio-temporal conflict minimization
CN108256508B (zh) 一种新闻主副标题检测方法及装置
WO2017088479A1 (zh) 台标识别方法及装置
CN111695540A (zh) 视频边框识别方法及裁剪方法、装置、电子设备及介质
CN108229476B (zh) 标题区域检测方法及系统
CN108171235B (zh) 标题区域检测方法及系统
CN108108733A (zh) 一种新闻字幕检测方法及装置
CN108446603B (zh) 一种新闻标题检测方法及装置
US9471990B1 (en) Systems and methods for detection of burnt-in text in a video
JP5027201B2 (ja) テロップ文字領域検出方法,テロップ文字領域検出装置およびテロップ文字領域検出プログラム
CN108388872B (zh) 一种基于字体颜色的新闻标题识别方法及装置
Ghorpade et al. Extracting text from video
CN108052941B (zh) 一种新闻字幕跟踪方法及装置
CN108363981B (zh) 一种标题检测方法及装置
CN108304825B (zh) 一种文本检测方法及装置
WO2016199418A1 (en) Frame rate conversion system
JP6091552B2 (ja) 動画処理装置及び動画処理システム
CN108304824B (zh) 一种基于区域颜色的新闻标题的识别方法及装置
CN108551584B (zh) 一种新闻分割的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant