CN108388872B

CN108388872B - 一种基于字体颜色的新闻标题识别方法及装置

Info

Publication number: CN108388872B
Application number: CN201810167585.4A
Authority: CN
Inventors: 刘楠
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2018-02-28
Filing date: 2018-02-28
Publication date: 2021-10-22
Anticipated expiration: 2038-02-28
Also published as: CN108388872A

Abstract

本发明公开了一种基于字体颜色的新闻标题识别方法及装置，包括：若目标视频帧包含标题候选区域，从标题候选区域中确定跟踪区域；在目标视频帧的跟踪区域的图像符合区域颜色条件的情况下，将目标视频帧作为待跟踪视频帧；所述区域颜色条件为所述目标视频帧的跟踪区域图像的所述字体像素的RGB均值在预设的RGB均值范围内；对所述待跟踪视频帧进行跟踪，若待跟踪视频帧满足第一跟踪条件，对待跟踪视频帧进行计数，得到第一跟踪帧数；若第一跟踪帧数达到了预设的第一帧数阈值，确定所述目标视频帧的标题候选区域中包含新闻标题。这样，过滤掉标题位置上为滚动字幕的视频帧，使得识别出的标题更加的准确。

Description

一种基于字体颜色的新闻标题识别方法及装置

技术领域

本发明涉及图像处理领域，尤其涉及一种基于字体颜色的新闻标题识别方法及装置。

背景技术

新闻视频中蕴含着大量的最新资讯信息，对于视频网站和新闻类的应用来说有着重要的价值。视频网站或者新闻类的应用需要对每日播出的整条新闻进行拆分、上线，供用户对于其中感兴趣的每条新闻进行点击观看。由于全国的电视台数量众多，除卫视台外还存在各类地方台，如果需要对所有的新闻进行分割的话，需要耗费大量的人力进行切分，对切分好的新闻输入标题，上线到发布系统中。另一方面，由于新闻的时效性，对于新闻视频的处理速度的要求也是十分严格的，为了保证时效性，需要在规定的时间内尽快将整个的新闻节目切割成独立的新闻条目，而不能采用积压任务后期处理的方式进行生产。因此，自动的新闻视频拆分、分析技术就成为解决这一问题的关键技术。新闻标题对新闻视频拆分具有重要的语义线索，例如：对于长新闻拆分算法来讲，新闻标题的出现、结束、重复往往意味着不同的信息，预示着新闻的结构。因此，新闻中标题出现的时间点位以及对应的状态对于新闻拆分十分关键。

目前的新闻视频中，新闻标题的风格千差万别，而且在出现新闻标题的位置上经常出现滚动字幕，这些都为新闻标题的识别带来了很大的干扰。并且，现有技术中，很难将新闻标题和滚动字幕区分开来。

发明内容

有鉴于此，本发明实施例提供了一种基于字体颜色的新闻标题识别方法及装置，解决了现有技术中很难区分新闻标题和滚动字幕的问题。

本发明实施例公开了一种基于字体颜色的新闻标题识别方法，包括：

当目标视频帧中包含标题候选区域时，从所述标题候选区域中确定跟踪区域；

当所述目标视频帧的跟踪区域内的图像符合字体颜色条件时，将所述目标视频帧作为待跟踪视频帧；所述字体颜色条件包括所述目标视频帧的跟踪区域内的图像的字体像素的RGB均值在预设的RGB均值范围内；

对所述待跟踪视频帧进行跟踪，以确定所述待跟踪视频帧是否满足第一跟踪条件，并将满足所述第一跟踪条件的待跟踪视频帧进行计数，得到第一跟踪帧数；

当所述第一跟踪帧数大于等于预设的第一帧数阈值时，确定所述目标视频帧的标题候选区域中包含新闻标题。

可选的，还包括：

识别所述目标视频帧的跟踪区域内的图像的字体像素点，并计算所述字体像素点的RGB均值；

依据所述字体像素的RGB均值，判断所述目标视频帧的跟踪区域的图像是否符合所述字体颜色条件。

可选的，所述识别所述目标视频帧的跟踪区域内的图像的字体像素点，包括：

对所述目标视频帧中的跟踪区域的图像进行二值化处理，得到所述跟踪区域的二值图像；

分别对所述跟踪区域的二值图像的行和列进行扫描，计算背景像素值和背景像素数；所述背景像素值为所述跟踪区域的二值图像中满足预设条件的行和列中参考像素值的和，所述背景像素数为所述跟踪区域的二值图像中满足预设条件的行和列的数量；所述参考像素值为在扫描所述跟踪区域的二值图像时每行或者每列的第一个像素；

计算所述背景像素值和所述背景像素数的比值，得到背景像素均值；

根据所述背景像素均值与预设的灰度均值的关系，确定出所述目标视频帧跟踪区域内的图像的字体像素点。

可选的，对所述二值跟踪区域图像进行扫描，计算背景像素值和背景像素数，包括：

分别对所述跟踪区域的二值图像中每一行进行扫描，将扫描的每行的第一个像素点的像素值作为参考像素值；

将满足第一背景条件的每一行中的参考像素值进行累加，得到第一背景像素值；所述第一背景条件为，任意一行中像素点的像素值不等于该行的所述参考像素值的所有像素点的数量大于预设的第一数量阈值；

将满足第一背景条件的行的数量进行累加，得到第一背景像素数；

分别对所述跟踪区域的二值图像中的每一列进行扫描，将扫描的每列的第一个像素点的像素值作为参考像素值；

将满足第二背景条件的每一列中的参考像素值进行累加，得到第二背景像素值；所述第二背景条件为任意一列中像素点的像素值不等于该列的所述参考像素值的像素点的数量大于预设的第一数量阈值；

将满足第二背景条件的列的数量进行累加，得到第二背景像素数。

计算所述第一背景像素数和所述第二背景像素数的和，得到背景像素数；

计算所述第一背景像素值和所述第二背景像素值的和，得到背景像素值。

可选的，所述根据所述背景像素均值与灰度均值的关系，确定出所述目标视频帧跟踪区域图像中的字体像素点，包括：

判断所述背景像素均值是否小于所述灰度均值；

若所述背景像素均值小于所述灰度均值，则将所述背景像素均值替换为预设的像素值；

基于所述预设的像素值，确定所述跟踪区域的二值图像中属于字体像素点的位置；

基于所述二值跟踪区域图像中属于字体的像素点的位置，识别出所述目标视频帧中跟踪区域内的图像中的字体像素点。

可选的，所述若所述目标视频帧的跟踪区域图像符合字体颜色条件，将所述目标视频帧作为待跟踪视频帧，包括：

判断是否为首次跟踪所述待跟踪视频帧的跟踪区域图像；

若是首次跟踪到所述待跟踪视频帧的跟踪区域图像，在所述待跟踪视频帧的跟踪区域的图像中获取预设的参考特征；所述预设的参考特征为所述跟踪区域的图像的二值图像和/或直方图；

若不是首次跟踪到所述待跟踪视频帧中的跟踪区域的图像，获取所述目标视频帧的跟踪区域的图像的预设的第一特征；所述预设的第一特征为所述跟踪区域的图像的二值图像和/或直方图；

将所述预设的第一特征与所述预设的参考特征进行比对，得到第一特征变化量；

判断所述第一特征变化量是否超过了第一变化量阈值；

若所述第一特征变化量未超过所述第一变化量阈值，将所述第一跟踪帧数加1；所述第一跟踪帧数的初始值为0；所述第一跟踪帧数为所述待跟踪的视频帧中特征变化量未超过预设的第一变化量阈值的所有视频帧的帧数。

可选的，还包括：

若所述第一特征变化量超过了第一变化量阈值，将丢失帧数加1；所述丢失帧数为所述待跟踪的视频帧中特征变化量超过预设的第一变化量阈值的所有视频帧的帧数；

判断所述丢失帧数是否超过了预设的丢失帧数阈值；

若所述丢失帧数超过了预设的丢失帧数阈值，则停止对所述跟踪区域图像进行跟踪。

可选的，所述在所述目标视频帧的候选区域中获取跟踪区域后，还包括：

对所述目标视频帧的跟踪区域的图像进行跟踪；

对满足第二跟踪条件的目标视频帧进行统计，得到第二跟踪帧数；所述第二跟踪条件为：所述目标视频帧的第二特征变化量小于第二变化量阈值；所述第二特征变化量是通过对所述目标视频帧的跟踪区域图像的预设特征和预设的参考特征进行比对得到的；所述预设的参考特征为所述跟踪区域图像的二值图像和/或直方图；所述第二跟踪帧数为所述目标视频帧中特征变化量未超过预设的第二变化量阈值的所有视频帧的帧数。

可选的，还包括：

若所述目标视频帧的第二特征变化量大于第二变化量阈值，则停止对所述跟踪区域的图像进行跟踪。

本发明实施例公开了一种基于字体颜色的新闻标题识别装置，包括：

跟踪区域的确定单元，用于当目标视频帧中包含标题候选区域时，从所述标题候选区域中确定跟踪区域；

字体颜色条件判定单元，用于当所述目标视频帧的跟踪区域内的图像符合字体颜色条件时，将所述目标视频帧作为待跟踪视频帧；所述字体颜色条件包括所述目标视频帧的跟踪区域内的图像的字体像素的RGB均值在预设的RGB均值范围内；

第一跟踪单元，用于对所述待跟踪视频帧进行跟踪，以确定所述待跟踪视频帧是否满足第一跟踪条件，并将满足所述第一跟踪条件的待跟踪视频帧进行计数，得到第一跟踪帧数；

确定单元，用于当所述第一跟踪帧数大于等于预设的第一帧数阈值时，确定所述目标视频帧的标题候选区域中包含新闻标题。

本发明实施例公开了一种基于字体颜色的新闻标题识别方法，包括：若目标视频帧包含标题候选区域，从标题候选区域中确定跟踪区域；在目标视频帧的跟踪区域的图像符合字体颜色条件的情况下，将目标视频帧作为待跟踪视频帧；所述字体颜色条件为所述目标视频帧的跟踪区域图像的所述字体像素的RGB均值在预设的RGB均值范围内；对所述待跟踪视频帧进行跟踪，若待跟踪视频帧满足第一跟踪条件，对待跟踪视频帧进行计数，得到第一跟踪帧数；若第一跟踪帧数达到了预设的第一帧数阈值，确定所述目标视频帧的标题候选区域中包含新闻标题。这样，在识别出了可能存在新闻标题的标题候选区域后，为了提高处理效率，在标题候选区域中又划分了一个更精确的跟踪区域，并通过对跟踪区域图像的字体颜色的分析，过滤掉标题位置上为滚动字幕的视频帧。

并且，通过对视频帧中包含所述跟踪区域图像的预设特征图像的视频帧的帧数进行统计分析，过滤掉视频背景对新闻标题识别的干扰。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1示出了本发明实施例提供的一种基于字体颜色的新闻标题识别方法的流程示意图；

图2示出了本发明实施例提供的一种判断目标视频帧是否包含标题候选区域的示意图；

图3示出了本发明实施例提供的一种基于字体颜色的新闻标题识别装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参考图1，示出了本发明实施例提供的一种基于字体颜色的新闻标题识别方法的流程示意图，在本实施例中，该方法包括：

S101：当目标视频帧中包含标题候选区域时，从所述标题候选区域中确定跟踪区域；

本实施例中，新闻视频中标题一般会出现在特定的位置，并将该位置表示为标题候选区域，在执行S101之前，技术人员需要确定出标题候选区域的位置，当在目标视频中识别是否存在新闻标题时，可以先判断该目标视频中是否包含标题候选区域，具体的，包括：

1、依据预设的第一区域坐标，在所述目标视频帧中提取出第一区域；

举例说明：新闻标题中出现的位置一般为底部区域，因此可以预先设置出视频帧中可能出现标题的底部区域的位置。假设视频帧的宽为W、高为H，底部区域为Rect(rect.x,rect.y,rect.h),具体的：

rect.x＝0；

rect.y＝H*cut_ratio；

rect.w＝W；

rect.h＝H*(1-cut_ratio)。

2、获取所述第一区域的边缘图像；

本实施例中，边缘图像的获取通过在第一区域的图像中提取出边缘特征，根据边缘特征得到第一区域的边缘图像，具体的，包括：

2-1)计算所述第一区域的图像的边缘强度图；

例如，首先，可以采用水平方向的边缘梯度算子和垂直方向的边缘梯度算子与第一区域的图像进行卷积得到水平边缘图E_h和垂直边缘图E_v；然后，依据水平边缘图E_h和垂直边缘图E_v，计算第一区域的图像的边缘强度图E_all；

具体的，第一区域的图像的边缘强度图E_all通过如下的公式1)计算：

1)E_all(x,y)＝sqrt(E_v(x,y)²+E_h(x,x)²)。

2-2)将所述第一区域的图像的边缘强度图和预设的第一边缘强度阈值进行对比，得到第一区域的图像的二值化图像；

具体的，假设预设的第一边缘强度阈值为Th_el，如果E_all(x,y)>Th_e1则E(x,y)＝1；否则E_all(x,y)＝0。

其中，针对于2-1)和2-2)的步骤，还可以是根据2-1)的方法，分别计算第一区域图像在R、G、B每个通道的边缘强度图像；并将E_r，E_g，E_b分别和预先设定的阈值The₂进行比对，得到第一区域的边缘图像；

具体的，如果E_R(x,y)>Th_e2，则E_R(x,y)＝1；否则E_R(x,y)＝0；

如果E_G(x,y)>Th_e2，则E_G(x,y)＝1；否则E_G(x,y)＝0；

如果E_B(x,y)>Th_e2，则E_B(x,y)＝1；否则E_B(x,y)＝0。

其中，Th_e2和Th_e1可以相同也可以不同，一般情况下Th_e2<Th_e1。

2-3)对所述第一区域的边缘图像进行边缘加强；

本实施例中，为了防止字幕区域出现渐变导致检测失败，可以将边缘图像进行边缘加强，其中，可以对其中任何一个通道进行边缘加强，或者也可以对其中的两个或者三个通道进行边缘加强。

3、依据所述第一区域的图像的边缘图像，在所述第一区域的图像中提取出第二区域的水平边界和垂直边界；

具体的，包括：

3-1)对第一区域的图像的边缘图像进行水平方向的投影，得到水平直方图；

具体的，对第一区域的边缘图像进行水平方向的投影；统计该边缘图像中每一行中满足第一预设条件的像素点的个数Num_edge1；判断每一行的像素点的个数Num_edge1与第一边缘像素阈值Th_num的关系，若Num_edge1>Th_num，则直方图H[i]＝1，否则H[i]＝0。

其中，第一预设条件为：像素点的边缘值为1；其中，若像素点或者像素点的上下左右中存在至少一个像素点为1的值，则认为该像素点的边缘值为1。

3-2)计算水平直方图的行间距，并依据所述行间距和预设的间距阈值，判断是否存在第一阶段候选区域；

具体的，对水平直方图进行遍历，计算水平直方图的各个行间距；针对每个行间距，判断该行间距是否大于预设的行间距阈值；若水平直方图的行间距大于预设的行间距阈值，将这两行之间的边缘图像区域作为第一阶段的候选区域；

3-3)对所述第一阶段候选区域的图像进行垂直方向的投影，得到垂直直方图；

具体的，包括：

对第一阶段候选区域的图像进行垂直方向的投影；统计每一列中满足第一预设条件的像素个数Num_edge2；判断每一列的Num_edge2与第二边缘像素阈值Th_num的关于，若Num_edge2>Th_num，则直方图V[i]＝1，否则V[i]＝0。

3-4)依据垂直直方图，在第一区域的边缘图中确定出第一垂直边界，并将该第二垂直边界组成的区域作为第二阶段的候选区域；

具体的，设置V[0]＝1且V[W-1]＝1；

将V[i]＝＝1且V[j]＝＝1且V[k]_k∈(i,j)＝＝0&&argmax(i-j)的区域作为第一区域的边缘图像的第一垂直边界；

3-5)依据得到的第一垂直边界，在第一区域的图像中得到第二候选区域；

3-6)寻找第二候选区域内的左右边界，以一定长度的滑动窗口扫描第二阶段区域的图像，并计算每一个窗口内的颜色直方图，同时统计每一个窗口内的颜色直方图中非0的个数；

3-7)依据每一个窗口内颜色直方图中非0的个数和预设的第一颜色阈值和第二颜色阈值的关系，得到第二垂直边界；

具体的，假设统计得到的每一个窗口内的颜色直方图中非0的个数为num_color；若num_color<Th_color1||num_color>Th_color2，即该区域为单色区域或者颜色复杂的背景区域的位置，将将符合该条件的窗口的中心位置，作为第二垂直边界。

3-8)将第一阶段候选区域的上下边界和第二垂直边界作为第二区域；

4)判断第二区域是否在预设的区域范围内；

举例说明：对于第二区域是否在预设的区域范围内的判断需要满足以下的两个条件，具体的，包括：条件一)第二区域的起点是否在预设的起点范围内；条件二：第二区域的高度是否在一定的范围内；若是均符合以上条件一和条件二，则表示第二区域在预设的区域范围内。

5)若所述第二区域在预设的区域范围内，所述第二区域为标题候选区域。

举例说明：如图2所示，从当前的视频帧中，按照预设的第一区域坐标，提取出第一区域；并计算该第一区域的图像的边缘强度图；然后，对第一区域的图像的边缘图像进行水平方向的投影处理，并在第一区域中确定上下边界，得到第一阶段候选区域；对第一阶段候选区域的图像进行垂直投影处理，并在第一阶段候选区域中确定出垂直边界，得到第二阶段候选区域，即第二区域；然后判断第二区域是否在预设的区域范围内。

本实施例中，为了对标题候选区域进行更加准确的检测，可以在标题候选区域中选取更加准确的跟踪区域。

举例说明：设输入的视频帧的标题候选区域的位置为CandidateRect(x,y,w,h)(视频帧中的起始点(x,y)以及对应的宽高wh),设定跟踪区域track(x,y,w,h)为:

track.x＝CandidateRect.x+CandidateRect.w*Xratio1；

track.y＝CandidateRect.y+CandidateRect.h*Yratio1；

track.w＝CandidateRect.w*Xratio2；

track.h＝CandidateRect.h*Yratio2；

其中，Xratio1,Xratio2,Yratio1,Yratio2均为预先设定的参数。

S102：当所述目标视频帧的跟踪区域内的图像符合字体颜色条件时，将所述目标视频帧作为待跟踪视频帧；所述字体颜色条件包括所述目标视频帧的跟踪区域内的图像的字体像素的RGB均值在预设的RGB均值范围内；

本实施例中，由于新闻标题的字体颜色和滚动字幕的字体颜色是有区别的，因此，可以通过字体颜色的判断，区分新闻标题和滚动字幕。其中，具体的，S103包括：

依据所述字体像素点的RGB均值，判断所述目标视频帧的跟踪区域的图像是否符合所述字体颜色条件。

本实施例中，对跟踪区域内的图像的字体像素点的识别，具体可以包括：

本实施例中，对目标视频帧中的图像进行二值化处理的过程具体包括：

1、将目标视频帧中的跟踪区域的图像由RGB色彩空间转换为灰度或者任意亮度色彩分离空间；

举例说明：可以通过如下的公式2)将RGB色彩空间转换为灰度空间：

2)Gray＝R*0.299+G*0.587+B*0.114；

可以通过如下的公式3)将RGB色彩空间转换为亮度色彩分离空间：

3)L＝(max(R,G,B)+min(R,G,B))/2。

2、计算分割阈值；

其中，分割阈值的计算可以通过转换成灰度空间后的跟踪区域图像，也可以是根据转换为任何一种亮度色彩分离空间后的图像。在本实施例中，以转换成灰度空间后的跟踪区域图像为例进行说明：

对灰度空间图像进行分割阈值的计算可以采用OTSU的方法，具体的，包括：

假设跟踪区域的图像转换为灰度空间的图像为灰度图像I；

将灰度图像I分割成N个灰度，并提取该灰度图像I的N阶灰度直方图；(其中N<＝256)；

对于N阶直方图中的每一阶灰度t(0<＝t<N)，执行如下的计算：

x(i)＝i*256/N

获得使

最大的t对应的x(t)作为分割阈值ThB；

根据所述分割阈值ThB对跟踪区域的图像进行二值化处理，得到二值跟踪区域；

举例说明：若IfI(x,y)<Th_B，B(x,y)＝0；ifI(x,y)>＝Th_B，B(x,y)＝255。

本实施例中，对目标视频帧中的跟踪区域的图像的行和列进行扫描时，可以是先对行进行扫描也可以是先对列进行扫描，或者还可以是同时对行和列进行扫描，在本实施例中，以先扫描行再扫描列进行说明，具体的，包括：

其中，对跟踪区域中的行扫描结束的触发条件可以包括多种，例如可以包括：在对跟踪区域中的行进行扫描时，判断扫描范围是否超过了行高，若超过了行高，结束对跟踪区域中行的扫描。对跟踪区域中列的扫描结束的触发条件也可以包括多种，例如可以包括：在对跟踪区域中的列进行扫描时，判断扫描范围是否超过了跟踪区域的列宽，若扫描范围超过了跟踪区域的列宽，则结束对跟踪区域中列的扫描。

举例说明：水平扫描二值跟踪区域中的每行像素，当对其中任何一行进行扫描时，取本行的第一个像素点的像素值作为当前行的参考像素值color1，并判断该行中每个像素点的像素值是否等于当前行的参考像素值color1，统计该行中不等于当前行的参考像素值color1的像素点的数量，得到行像素数num1；若行像素数num1<Th2(第一像素阈值)，则back_color1＝back_color+color,count＝count+1；其中back_color为第一背景像素值，count为第一背景像素数，并且back_color1的初始值为0。

垂直扫描二值跟踪区域中的每列的像素，当对其中任何一列进行扫描时，取本列的第一个像素点的像素值作为当前列的参考像素值color2，并判断该列中每个像素点的像素值是否等于当前列的参考像素值colo2，并统计该列中不等于当前列的参考像素值color2的像素点的数量，得到列像素数num2；若列像素数num2<Th3(第二像素阈值)，则back_color2＝back_color+color,count＝count+1；其中back_color2为第二背景像素值，count为第二背景像素数。若back_color2的初始值为0，则背景像素值为第一背景像素值和第二背景像素值的和，此时count2的初始值为0，则背景像素数为第一背景像素数和第二背景像素数的和；若back_color2的初始值为back_color1，则计算得到的back_color2为背景像素值，此时若count2的初始值为count1，则计算得到的count2的值为背景像素数。

本实施例中，确定了背景像素值和背景像素数后，可以通过背景像素的均值和灰度均值，对背景像素点和字体像素点进行区分，具体的，包括：

判断所述背景像素均值是否小于所述灰度均值；

本实施例中，可以通过如下的公式4)计算背景像素均值：

4)back_color＝back_color2/count；

举例说明：假设二值跟踪区域图像的像素的灰度范围为【0，255】，则像素的灰度均值可以为128；如果back_color<128，则将背景区域设置为back_color＝0，将字体区域颜色设置为255；若back_color>128，则将背景区域设置为back_color＝255，将字体区域设置为0；假设背景区域设置为了back_color＝0，字体区域颜色设置为255；将二值跟踪区域图像中等于0的区域表示为背景区域，将二值跟踪区域图像中等于255的区域表示为字体区域。

S103：对所述待跟踪视频帧进行跟踪，以确定所述待跟踪视频帧是否满足第一跟踪条件，并将满足所述第一跟踪条件的待跟踪视频帧进行计数，得到第一跟踪帧数；

本实施例中，视频帧中的图片背景可能会对标题的识别产生干扰，为了过滤掉视频帧的图片背景的干扰，可以对该视频帧进行跟踪，具体的S103包括：

判断是否为首次跟踪所述待跟踪视频帧的跟踪区域图像；

判断所述第一特征变化量是否超过了第一变化量阈值；

本实施例中，若是当前的待跟踪视频帧为首次被跟踪到跟踪区域图像的视频帧，则该待跟踪视频帧的二值图像和/或直方图作为预设的参考特征，也就是说，跟踪区域的参考特征可以是二值图像或者是直方图，除此之外，还可以将二者结合使用。若不是首次跟踪到待跟踪区域的跟踪的图像，获取目标视频帧中跟踪区域内的图像的二值图像和/或直方图，其中，该目标视频帧中跟踪区域内的图像的二值图像和/或直方图为预设的第一特征。然后再将预设的第一特征和预设的参考特征进行比对。

以上提到的预设的第一特征和预设的参考特征均可以为二值化图像和直方图，针对于跟踪区域内的图像的二值化图像和直方图的计算可以通过以下的实施方式一和实施方式二计算得到，具体的，包括：

实施方式一：针对于跟踪区域的二值化图像：

将待跟踪视频帧的二值化图像和B_cur和参考二值化图像B_ref进行逐点差分，并计算差分的平均值Diff_binary，其中，差分的平均值Diff_binary可以通过以下的公式5)进行计算：

其中，W和H是跟踪区域图像的宽，高。

实施方式二：针对于跟踪区域的直方图：

计算待跟踪视频帧的颜色直方图H_cur与参考直方图H_ref的距离Diff_color；

其中，待跟踪视频帧的预设特征可以是跟踪区域的图像的二值图像和跟踪区域的图像的直方图中的任意一个或者多个。

其中，假设预设特征为跟踪区域的图像的二值图像和跟踪区域的图像的直方图，在Diff_binary<Th_binary&&Diff_color<Th_color的情况下，将第一跟踪帧数加1.

本实施例中，在对待跟踪视频帧的跟踪区域跟踪的过程中，特征变化量可能超过了第一变化量阈值，则表示当前的目标视频帧不存在参考特征，此时需要将丢失帧数加1，具体的，包括：

若所述特征变化量超过了第一变化量阈值，将丢失帧数加1；

判断所述丢失帧数是否超过了预设的丢失帧数阈值；

本实施例中，在丢失帧数超过了预设的丢失帧数阈值时，则停止对跟踪区域的图像进行跟踪，也就是说对跟踪区域的图像跟踪停止的条件为丢失帧的帧数阈值超过了预设的丢失帧数阈值。

S104：当所述第一跟踪帧数大于等于预设的第一帧数阈值时，确定所述目标视频帧的标题候选区域中包含新闻标题。

本实施例中，结束跟踪后，判断累加的第一跟踪帧数是否大于等于预设的第一帧数阈值，若大于，则表示跟踪的视频帧中标题出现的视频帧的帧数满足新闻标题持续的视频帧的帧数长度，因此，表示目标视频帧的标题候选区域中包含标题。

本实施例中，在识别出了可能存在新闻标题的标题候选区域后，为了提高处理效率，在标题候选区域中又划分了一个更精确的跟踪区域，并通过对跟踪区域图像的字体颜色的分析，过滤掉标题位置上为滚动字幕的视频帧。

本实施例中，为了提高新闻识别的效率，在执行S103之前，还可以通过对跟踪区域的图像进行跟踪，滤除一些背景或者滚动字幕的干扰，具体的还包括：

对所述目标视频帧的跟踪区域的图像进行跟踪；

本实施例中，该部分对目标视频帧的跟踪与S103中提到的跟踪方法一致，在这里就不再赘述。

对于执行S103之前对目标视频帧的跟踪，跟踪结束的条件可以为：当任何一个目标视频帧的特征变化量大于第二变化量阈值，具体的，还包括：

若所述目标视频帧的特征变化量大于第二变化量阈值，则停止对所述跟踪区域图像进行跟踪。

本实施例中，若目标视频帧包含标题候选区域，从标题候选区域中确定跟踪区域；在目标视频帧的跟踪区域的图像符合字体颜色条件的情况下，将目标视频帧作为待跟踪视频帧；所述字体颜色条件为所述目标视频帧的跟踪区域图像的所述字体像素的RGB均值在预设的RGB均值范围内；对所述待跟踪视频帧进行跟踪，若待跟踪视频帧满足第一跟踪条件，对待跟踪视频帧进行计数，得到第一跟踪帧数；若第一跟踪帧数达到了预设的第一帧数阈值，确定所述目标视频帧的标题候选区域中包含新闻标题。这样，在识别出了可能存在新闻标题的标题候选区域后，为了提高处理效率，在标题候选区域中又划分了一个更精确的跟踪区域，并通过对跟踪区域图像的字体颜色的分析，过滤掉标题位置上为滚动字幕的视频帧。

参考图3，示出了本发明实施例提供的一种基于字体颜色的新闻标题识别装置的结构示意图，包括：

跟踪区域的确定单元301，用于当目标视频帧中包含标题候选区域时，从所述标题候选区域中确定跟踪区域；

字体颜色条件判定单元302，用于当所述目标视频帧的跟踪区域内的图像符合字体颜色条件时，将所述目标视频帧作为待跟踪视频帧；所述字体颜色条件包括所述目标视频帧的跟踪区域内的图像的字体像素的RGB均值在预设的RGB均值范围内

第一跟踪单元303，用于对所述待跟踪视频帧进行跟踪，以确定所述待跟踪视频帧是否满足第一跟踪条件，并将满足所述第一跟踪条件的待跟踪视频帧进行计数，得到第一跟踪帧数；

确定单元304，用于当所述第一跟踪帧数大于等于预设的第一帧数阈值时，确定所述目标视频帧的标题候选区域中包含新闻标题。

可选的，还包括：

字体像素点识别子单元，用于识别所述目标视频帧的跟踪区域内的图像的字体像素点，并计算所述字体像素点的RGB均值；

第一判断子单元，用于依据所述字体像素的RGB均值，判断所述目标视频帧的跟踪区域的图像是否符合所述字体颜色条件。

可选的，所述字体像素点识别子单元，包括：

二值化子单元，用于对所述目标视频帧中的跟踪区域的图像进行二值化处理，得到所述跟踪区域的二值图像；

扫描子单元，用于分别对所述跟踪区域的二值图像的行和列进行扫描，计算背景像素值和背景像素数；所述背景像素值为所述跟踪区域的二值图像中满足预设条件的行和列中参考像素值的和，所述背景像素数为所述跟踪区域的二值图像中满足预设条件的行和列的数量；所述参考像素值为在扫描所述跟踪区域的二值图像时每行或者每列的第一个像素；

计算子单元，用于计算所述背景像素值和所述背景像素数的比值，得到背景像素均值；

第一字体像素点确定子单元，用于根据所述背景像素均值与预设的灰度均值的关系，确定出所述目标视频帧跟踪区域内的图像的字体像素点。

可选的，扫描子单元具体用于：

可选的，所述字体像素点确定子单元，包括：

第二判断子单元，用于判断所述背景像素均值是否小于所述灰度均值；

替换子单元，用于若所述背景像素均值小于所述灰度均值，则将所述背景像素均值替换为预设的像素值；

字体像素位置确定子单元，用于基于所述预设的像素值，确定所述跟踪区域的二值图像中属于字体像素点的位置；

第一字体像素点确定子单元，用于基于所述二值跟踪区域图像中属于字体的像素点的位置，识别出所述目标视频帧中跟踪区域内的图像中的字体像素点。

可选的，第一跟踪单元具体用于：

判断是否为首次跟踪所述待跟踪视频帧的跟踪区域图像；

判断所述第一特征变化量是否超过了第一变化量阈值；

可选的，还包括：

丢失帧数累加子单元，用于若所述特征变化量超过了第一变化量阈值，将丢失帧数加1；所述丢失帧数为所述待跟踪的视频帧中特征变化量超过预设的第一变化量阈值的所有视频帧的帧数；

第三判断子单元，用于判断所述丢失帧数是否超过了预设的丢失帧数阈值；

第一跟踪停止子单元，用于若所述丢失帧数超过了预设的丢失帧数阈值，则停止对所述跟踪区域图像进行跟踪。

可选的，还包括：

第二跟踪单元，包括对所述目标视频帧的跟踪区域的图像进行跟踪；

第二跟踪帧数累加子单元，用于对满足第二跟踪条件的目标视频帧进行统计，得到第二跟踪帧数；所述第二跟踪条件为：所述目标视频帧的第二特征变化量小于第二变化量阈值；所述第二特征变化量是通过对所述目标视频帧的跟踪区域图像的预设特征和预设的参考特征进行比对得到的；所述预设的参考特征为所述跟踪区域图像的二值图像和/或直方图；所述第二跟踪帧数为所述目标视频帧中特征变化量未超过预设的第二变化量阈值的所有视频帧的帧数。

可选的，还包括：

第二跟踪结束子单元，用于若所述目标视频帧的第二特征变化量大于第二变化量阈值，则停止对所述跟踪区域的图像进行跟踪。

通过本实施例的装置，在识别出了可能存在新闻标题的标题候选区域后，为了提高处理效率，在标题候选区域中又划分了一个更精确的跟踪区域，并通过对跟踪区域图像的字体颜色的分析，过滤掉标题位置上为滚动字幕的视频帧。

并且，通过对视频帧组中包含所述跟踪区域图像的预设特征图像的视频帧的帧数进行统计分析，过滤掉视频背景对新闻标题识别的干扰。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于字体颜色的新闻标题识别方法，其特征在于，包括：

当目标视频帧中包含标题候选区域时，从所述标题候选区域中确定跟踪区域，所述目标视频帧为将边缘图像进行边缘加强后的视频帧；

识别所述目标视频帧的跟踪区域内的图像的字体像素点，并计算所述字体像素点的RGB均值；依据所述字体像素的RGB均值，判断所述目标视频帧的跟踪区域的图像是否符合所述字体颜色条件；当所述目标视频帧的跟踪区域内的图像符合字体颜色条件时，将所述目标视频帧作为待跟踪视频帧；所述字体颜色条件包括所述目标视频帧的跟踪区域内的图像的字体像素的RGB均值在预设的RGB均值范围内；

2.根据权利要求1所述的方法，其特征在于，所述识别所述目标视频帧的跟踪区域内的图像的字体像素点，包括：

3.根据权利要求2所述的方法，其特征在于，所述对所述跟踪区域的二值图像的行和列进行扫描，计算背景像素值和背景像素数，包括：

将满足第二背景条件的列的数量进行累加，得到第二背景像素数；

4.根据权利要求2所述的方法，其特征在于，所述根据所述背景像素均值与灰度均值的关系，确定出所述目标视频帧跟踪区域图像中的字体像素点，包括：

判断所述背景像素均值是否小于所述灰度均值；

基于所述跟踪区域的二值图像中属于字体的像素点的位置，识别出所述目标视频帧中跟踪区域内的图像中的字体像素点。

5.根据权利要求1所述的方法，其特征在于，所述当所述目标视频帧的跟踪区域内的图像符合字体颜色条件时，将所述目标视频帧作为待跟踪视频帧，包括：

判断是否为首次跟踪所述待跟踪视频帧的跟踪区域图像；

判断所述第一特征变化量是否超过了第一变化量阈值；

6.根据权利要求5所述的方法，其特征在于，还包括：

判断所述丢失帧数是否超过了预设的丢失帧数阈值；

7.根据权利要求1所述的方法，其特征在于，在所述目标视频帧的标题候选区域中获取跟踪区域后，还包括：

对所述目标视频帧的跟踪区域的图像进行跟踪；

8.根据权利要求7所述的方法，其特征在于，还包括：

9.一种基于字体颜色的新闻标题识别装置，其特征在于，包括：

跟踪区域的确定单元，用于当目标视频帧中包含标题候选区域时，从所述标题候选区域中确定跟踪区域，所述目标视频帧为将边缘图像进行边缘加强后的视频帧；

字体颜色条件判定单元，用于识别所述目标视频帧的跟踪区域内的图像的字体像素点，并计算所述字体像素点的RGB均值；依据所述字体像素的RGB均值，判断所述目标视频帧的跟踪区域的图像是否符合所述字体颜色条件；当所述目标视频帧的跟踪区域内的图像符合字体颜色条件时，将所述目标视频帧作为待跟踪视频帧；所述字体颜色条件包括所述目标视频帧的跟踪区域内的图像的字体像素的RGB均值在预设的RGB均值范围内；