CN104616295B - 新闻图像中水平标题字幕的简单快速定位方法 - Google Patents
新闻图像中水平标题字幕的简单快速定位方法 Download PDFInfo
- Publication number
- CN104616295B CN104616295B CN201510034625.4A CN201510034625A CN104616295B CN 104616295 B CN104616295 B CN 104616295B CN 201510034625 A CN201510034625 A CN 201510034625A CN 104616295 B CN104616295 B CN 104616295B
- Authority
- CN
- China
- Prior art keywords
- region
- main title
- span
- feature score
- gradient
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种新闻图像中水平标题字幕的简单快速定位方法,包括:采集图像并输入计算机;截取整幅图像下面的区域作为处理区域,计算处理区域内各点的梯度,并利用阈值获得其边缘图;根据边缘图中各行包含的边缘点数目获得上下边界位置;对于获得的上下边界位置,基于最大特征得分获得其对应的目标区域;利用目标区域的梯度信息值确定第一个标题字幕区域;根据左边界位置差及高度比获得其余标题字幕区域;输出获得的标题字幕区域的边界位置信息。本发明提供的方法能够简单快速地定位新闻图像中的水平标题字幕。
Description
技术领域
本发明涉及计算机视觉中的图像特征自动检测领域,特别是新闻图像中水平标题字幕的简单快速定位方法。
背景技术
新闻图像中标题字幕的定位在基于内容的新闻视频或图像检索、索引及理解等方面有着重要应用。长期以来,新闻图像中水平标题字幕的定位方法可以分为三类:1)基于投影的方法,该方法容易受标点符号的影响,导致标题字幕区域被截断;2)基于颜色的方法,该方法容易受到背景颜色的干扰,且计算复杂度相对较高;3)基于机器学习的方法,该方法需要大量的样本进行训练,导致算法复杂且效率较低。
发明内容
本发明针对新闻图像中水平标题字幕的快速检测定位问题,目的是提供一种能够提取出新闻图像中水平标题字幕的边界位置信息的快速方法。为了实现本目的,本发明新闻图像中水平标题字幕的简单快速定位方法,包括以下步骤:
步骤S1:采集图像并输入计算机;
步骤S2:截取整幅图像下面的区域作为处理区域,采用Sobel算子计算处理区域内的各点梯度,并利用阈值获得其边缘图;
步骤S3:计算边缘图中各行包含的边缘点数目,获得上下边界位置;
步骤S4:利用步骤S3中获得的上下边界位置,基于最大特征得分获得其对应的目标区域;
步骤S5:基于目标区域的梯度信息值确定第一个标题字幕区域;
步骤S6:根据左边界位置差及高度比获得其余标题字幕区域;
步骤S7:输出步骤S5、S6获得的标题字幕区域的边界位置信息。
本发明提供的新闻图像中水平标题字幕的简单快速定位方法,主要利用了水平标题字幕的位置、字体大小及边缘信息等约束,首先截取整幅图像下面的区域作为处理区域,计算处理区域中各行包含的边缘点数目,获得上下边界位置,并利用上下边界位置,基于最大特征得分获得其对应的目标区域;然后基于目标区域的梯度信息值确定第一个标题字幕区域,并利用左边界位置差及高度比获得其余标题字幕区域;最后输出获得的标题字幕区域的边界位置信息。本发明提供的方法不仅能够准确定位新闻图像中的水平标题字幕,而且不易受标点符号的影响,不需要考虑字体颜色,也不需要进行大量样本的训练,在计算复杂性及效率上优于已有方法。
附图说明
图1为本发明新闻图像中水平标题字幕的简单快速定位方法流程图。
具体实施方式
如图1所示为本发明新闻图像中水平标题字幕的简单快速定位方法流程图,包括:采集图像并输入计算机、获得处理区域并计算其中各点的梯度及边缘图、获得上下边界位置、在上下边界约束下利用最大特征得分获得其对应的目标区域、基于目标区域的梯度信息值确定第一个标题字幕区域、利用左边界位置差及高度比获得其余标题字幕区域、输出获得的标题字幕区域的边界位置信息。各步骤的具体实施细节如下:
步骤S1:采集图像并输入计算机;
步骤S2:截取整幅图像下面的区域作为处理区域,利用Sobel算子计算内各点梯度,并利用阈值对内各点进行二值化处理获得边缘图,其中阈值设定为内各点梯度幅值的均值,边缘图中边缘点对应数值为1,其余为0;
步骤S3:通过计算边缘图中各行包含的边缘点数目获得上下边界位置,具体方式为,记内各行边缘点数目为,若连续行均满足,且,则记录连续区域的首行和末行作为上下边界;上述过程中表示行数,阈值的确定方法为,调节系数的取值范围为0.4~0.5,阈值的取值范围为10~15,表示上下边界的个数;
步骤S4:对于步骤S3得到的一个上下边界,基于最大特征得分获得其对应的目标区域,具体方式为,以为上下边界、变化左右边界,按照如下方式计算矩形区域的特征得分:
(1)计算区域左、右边界的特征得分:、;分别表示左、右边界位置处的竖直直线, 表示边缘图上点处的数值,阈值的取值范围为1~2;
(2)计算区域内部的特征得分:,权重系数的取值范围是1~2;
(3)计算惩罚项:考虑中以为上下边界的长方形区域,利用大小为的小窗口沿区域水平中心线滑动,的取值范围是21~25,如果小窗口包含的边缘点个数为0则记录其中心位置;若矩形区域包含所述的中心位置,则,反之;
(4)计算矩形区域的特征得分:
;
(5)以为上下边界,变化左右边界,计算所有矩形区域的特征得分,记当时矩形区域特征得分最大,则将作为对应的目标区域;
步骤S5: 基于目标区域的梯度信息值确定第一个标题字幕区域,具体方式为,对于步骤S4确定的任一目标区域,计算其梯度信息值,其中和分别表示点处的水平梯度幅值和垂直梯度幅值,将梯度信息值最大的目标区域确定为第一个标题字幕区域;
步骤S6:根据左边界位置差及高度比获得其余标题字幕区域,具体方式为,对于步骤S4确定的任一目标区域,如果同时满足如下条件将其认定为标题字幕区域:
(1) ,其中的取值范围为90~120;
(2) ,其中的取值范围为0.7~0.9;
步骤S7:输出步骤S5、S6获得的标题字幕区域的边界位置信息。
Claims (1)
1.一种新闻图像中水平标题字幕的简单快速定位方法,其特征在于,包括步骤:
步骤S1:采集图像并输入计算机;
步骤S2:截取整幅图像的下1/4区域作为处理区域G,利用Sobel算子计算G内各点梯度,并利用阈值T对G内各点进行二值化处理获得边缘图e,其中阈值T设定为G内各点梯度幅值的均值,边缘图e中边缘点对应数值为1,其余为0;
步骤S3:通过计算边缘图中各行包含的边缘点数目获得上下边界位置,具体方式为,记G内各行边缘点数目为V(h),h=1,2,...,H,若连续m行均满足V(h)>T1,且m>T2,则记录连续区域的首行和末行作为上下边界[Ui,Di],i=1,2,...,K;上述过程中H表示行数,阈值T1的确定方法为T1=δ·∑V(h)/H,调节系数δ的取值范围为0.4~0.5,阈值T2的取值范围为10~15,K表示上下边界的个数;
步骤S4:对于步骤S3得到的一个上下边界[Ui,Di],基于最大特征得分获得其对应的目标区域G(Ui,Di,Li,Ri),具体方式为,以[Ui,Di]为上下边界、变化左右边界[l,r],按照如下方式计算矩形区域G(Ui,Di,l,r)的特征得分:
(1)计算区域左、右边界的特征得分: Line(l)、Line(r)分别表示左、右边界位置处的竖直直线,e(X)表示边缘图上点X处的数值,阈值a的取值范围为1~2;
(2)计算区域内部的特征得分:权重系数γ的取值范围是1~2;
(3)计算惩罚项PM(l,r):考虑G中以[Ui,Di]为上下边界的长方形区域,利用大小为(Di-Ui-10)×ε的小窗口沿区域水平中心线滑动,ε的取值范围是21~25,如果小窗口包含的边缘点个数为0则记录小窗口的中心位置;若矩形区域G(Ui,Di,l,r)包含所述的中心位置,则PM(l,r)=0,反之PM(l,r)=1;
(4)计算矩形区域G(Ui,Di,l,r)的特征得分:
FS(l,r)=B(l,r)·PL(l,r)·PR(l,r)·PM(l,r)/(r-l+1);
(5)以[Ui,Di]为上下边界,变化左右边界[l,r],计算所有矩形区域G(Ui,Di,l,r)的特征得分FS(l,r),记当l=Li,r=Ri时矩形区域特征得分最大,则将G(Ui,Di,Li,Ri)作为[Ui,Di]对应的目标区域;
步骤S5:基于目标区域的梯度信息值确定第一个标题字幕区域,具体方式为,对于步骤S4确定的任一目标区域G(Ui,Di,Li,Ri),计算其梯度信息值其中dx(X)和dy(X)分别表示点X处的水平梯度幅值和垂直梯度幅值,将梯度信息值最大的目标区域G(UF,DF,LF,RF)确定为第一个标题字幕区域;
步骤S6:根据左边界位置差及高度比获得其余标题字幕区域,具体方式为,对于步骤S4确定的任一目标区域G(Ui,Di,Li,Ri),如果同时满足如下条件将其认定为标题字幕区域:
(1)||Li-LF||<Tp,其中Tp的取值范围为90~120;
(2)其中Th的取值范围为0.7~0.9;
步骤S7:输出步骤S5、S6获得的标题字幕区域的边界位置信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510034625.4A CN104616295B (zh) | 2015-01-23 | 2015-01-23 | 新闻图像中水平标题字幕的简单快速定位方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510034625.4A CN104616295B (zh) | 2015-01-23 | 2015-01-23 | 新闻图像中水平标题字幕的简单快速定位方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104616295A CN104616295A (zh) | 2015-05-13 |
CN104616295B true CN104616295B (zh) | 2017-09-26 |
Family
ID=53150728
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510034625.4A Active CN104616295B (zh) | 2015-01-23 | 2015-01-23 | 新闻图像中水平标题字幕的简单快速定位方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104616295B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107609546B (zh) * | 2017-08-29 | 2020-12-18 | 北京奇艺世纪科技有限公司 | 一种文字标题识别方法及装置 |
CN108304824B (zh) * | 2018-02-28 | 2021-10-15 | 北京奇艺世纪科技有限公司 | 一种基于区域颜色的新闻标题的识别方法及装置 |
CN110598622B (zh) * | 2019-09-06 | 2022-05-27 | 广州华多网络科技有限公司 | 视频字幕定位方法、电子设备以及计算机存储介质 |
CN110910373B (zh) * | 2019-11-25 | 2023-01-24 | 西南交通大学 | 正交异性钢桥面板疲劳裂纹检测图像的识别方法 |
CN112216640B (zh) * | 2020-10-19 | 2021-08-06 | 高视科技(苏州)有限公司 | 一种半导体芯片定位方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101102419A (zh) * | 2007-07-10 | 2008-01-09 | 北京大学 | 一种定位视频字幕区域的方法 |
CN102625029A (zh) * | 2012-03-23 | 2012-08-01 | 无锡引速得信息科技有限公司 | 自适应阈值字幕检测方法 |
CN102915438A (zh) * | 2012-08-21 | 2013-02-06 | 北京捷成世纪科技股份有限公司 | 一种视频字幕的提取方法及装置 |
US8929461B2 (en) * | 2007-04-17 | 2015-01-06 | Intel Corporation | Method and apparatus for caption detection |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060045346A1 (en) * | 2004-08-26 | 2006-03-02 | Hui Zhou | Method and apparatus for locating and extracting captions in a digital image |
-
2015
- 2015-01-23 CN CN201510034625.4A patent/CN104616295B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8929461B2 (en) * | 2007-04-17 | 2015-01-06 | Intel Corporation | Method and apparatus for caption detection |
CN101102419A (zh) * | 2007-07-10 | 2008-01-09 | 北京大学 | 一种定位视频字幕区域的方法 |
CN102625029A (zh) * | 2012-03-23 | 2012-08-01 | 无锡引速得信息科技有限公司 | 自适应阈值字幕检测方法 |
CN102915438A (zh) * | 2012-08-21 | 2013-02-06 | 北京捷成世纪科技股份有限公司 | 一种视频字幕的提取方法及装置 |
Non-Patent Citations (4)
Title |
---|
Accurate video text detection through classification of low and high contrast images;Shivakumara P 等;《Pattern Recognition》;20101231;第43卷(第6期);第208-211页 * |
Gray-based news video text extraction approach;Xiaoling,Fu 等;《Computer Science and Convergence Information Technology》;20101231;第2165-2185页 * |
一种基于边缘检测和线条特征的视频字符检测算法;刘洋 等;《计算机学报》;20051231;第28卷(第3期);第427-432页 * |
视频文本的自动提取方法;郭丽 等;《小型微型计算机系统》;20041231;第25卷(第6期);第1086-2088页 * |
Also Published As
Publication number | Publication date |
---|---|
CN104616295A (zh) | 2015-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104616295B (zh) | 新闻图像中水平标题字幕的简单快速定位方法 | |
CN109145713A (zh) | 一种结合目标检测的小目标语义分割方法 | |
CN102567731B (zh) | 一种感兴趣区域提取方法 | |
CN103810503B (zh) | 一种基于深度学习的自然图像中显著区域的检测方法 | |
CN102663382B (zh) | 基于子网格特征自适应加权的视频图像文字识别方法 | |
EP3819859B1 (en) | Sky filter method for panoramic images and portable terminal | |
CN105488758A (zh) | 一种基于内容感知的图像缩放方法 | |
CN107862261A (zh) | 基于多尺度卷积神经网络的图像人群计数方法 | |
CN105426856A (zh) | 一种图像表格文字识别方法 | |
CN107977645B (zh) | 一种视频新闻海报图的生成方法及装置 | |
CN107622258A (zh) | 一种结合静态底层特征和运动信息的快速行人检测方法 | |
CN104598907B (zh) | 一种基于笔画宽度图的图像中文字数据提取方法 | |
CN104050471A (zh) | 一种自然场景文字检测方法及系统 | |
CN105718890A (zh) | 一种基于卷积神经网络的特定视频检测方法 | |
CN112069985B (zh) | 基于深度学习的高分辨率大田图像稻穗检测与计数方法 | |
CN103942751A (zh) | 一种视频关键帧提取方法 | |
CN103198330B (zh) | 基于深度视频流的实时人脸姿态估计方法 | |
CN105354570B (zh) | 一种车牌左右边界精确定位的方法及系统 | |
CN109800756A (zh) | 一种用于中文历史文献密集文本的文字检测识别方法 | |
CN108093314A (zh) | 一种视频新闻拆分方法及装置 | |
CN110533026A (zh) | 基于计算机视觉的电竞图像数字与图标信息获取方法 | |
CN103985130A (zh) | 一种针对复杂纹理图像的图像显著性分析方法 | |
CN109409227A (zh) | 一种基于多通道cnn的手指静脉图质量评估方法及其装置 | |
CN107680099A (zh) | 一种融合ifoa和f‑isodata的图像分割方法 | |
CN109766892A (zh) | 一种基于边缘检测的射线检测图像标记信息字符分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |