CN102915438B - 一种视频字幕的提取方法及装置 - Google Patents

一种视频字幕的提取方法及装置 Download PDF

Info

Publication number
CN102915438B
CN102915438B CN201210297750.0A CN201210297750A CN102915438B CN 102915438 B CN102915438 B CN 102915438B CN 201210297750 A CN201210297750 A CN 201210297750A CN 102915438 B CN102915438 B CN 102915438B
Authority
CN
China
Prior art keywords
character area
picture frame
word
video
edge strength
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201210297750.0A
Other languages
English (en)
Other versions
CN102915438A (zh
Inventor
苏鹏宇
肖炳珠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING JETSEN TECHNOLOGY Co Ltd
Original Assignee
BEIJING JETSEN TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING JETSEN TECHNOLOGY Co Ltd filed Critical BEIJING JETSEN TECHNOLOGY Co Ltd
Priority to CN201210297750.0A priority Critical patent/CN102915438B/zh
Publication of CN102915438A publication Critical patent/CN102915438A/zh
Application granted granted Critical
Publication of CN102915438B publication Critical patent/CN102915438B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明实施例公开了一种视频字幕的提取方法及装置,属于图像处理领域。方法包括:将各图像帧进行叠加平均,则得到边缘强度图;在各边缘强度图中逐点扫描,统计边缘强度图中的笔画强度,并基于笔画强度将图像帧进行二值化;分析二值图中的连通域定位出对应的文字区域;在文字区域中拟合各颜色通道进行颜色聚类后滤波,从而在文字区域中提取对应的文字,进行OCR识别后得到视频中的字幕。本发明通过从图像增强后的各图像帧中定位文字区域,并以颜色聚类的方式提取文字区域中的文字后识别,通过颜色聚类在文字区域中有效地对视频帧中的文字进行了提取,不受文字区域中复杂背景的影响,从而提高了字幕的识别效果。

Description

一种视频字幕的提取方法及装置
技术领域
本发明涉及图像处理领域,尤其涉及一种视频字幕的提取方法及装置。
背景技术
随着数字化网络化的发展,数字图像和视频越来愈多。由于图片或视频中的文字能够提供直接的语义信息,因此,对文字进行检测有助于理解和管理视频图像。比如,检测和分析图片中文字内容,有助于为不良内容图片过滤和监控提供有效的特征;新闻视频中的标题通常标示的时间地点人物为新闻内容分析和检索提供了支撑,体育比赛视频中出现的比分、运动员号码等为视频内容的自动分析、瞬间检测具有重要作用。同样,自然场景中的图像也包含重要的文字信息,如对交通指示牌的内容进行分析可帮助外国游客理解中国的交通规则,通过文字转为语音可以帮助盲人在街道无障碍行走等,因此,对图片中的文字进行识别后检索一直都是非常具有意义和挑战性的工作。
由于视频或图像中的文字识别存在很多难点,比如,视频或图像的背景比较复杂时,对文字的检测和识别都比较困难。在实际拍摄视频或图像时,摄像机的位置姿态或者物体反光等原因会造成图片中的文字发生畸变,同样会影响检测和识别。
发明内容
本发明的实施例提供了一种视频字幕的提取方法及装置,通过从图像增强后的各图像帧中定位文字区域,并以颜色聚类的方式提取文字区域中的文字后识别,不受文字区域中复杂背景的影响,提高了文字检测的识别率。
为达到上述目的,采用如下技术方案:
一种视频字幕的提取方法,包括如下步骤:
抽取视频中的图像帧,将各图像帧进行叠加平均,则得到边缘强度图;
在各边缘强度图中逐点扫描,统计边缘强度图中的笔画强度,并基于笔画强度将图像帧进行二值化;
分析所述二值图中的连通域,从图像帧中定位出对应的文字区域;
在文字区域中拟合各颜色通道进行颜色聚类后滤波,从而按得到的类别在含有字幕的文字区域中提取对应的文字;
将所述文字进行OCR识别,得到视频中的字幕。
优选的,所述统计边缘强度图中的笔画强度时,统计边缘强度图中每个像素点的边缘强度值,得到图像帧对应的笔画强度图。
优选的,所述分析所述二值图中的连通域时,对所述二值图分别进行水平投影和垂直投影,选取长宽比在0.1至4.5之间的连通域作为文字区域。
优选的,所述从图像帧中定位出对应的文字区域时,对二值图像进行形态学滤波,滤除连通域中的噪声。
优选的,所述拟合各颜色通道进行颜色聚类时,
统计文字区域中各个颜色通道的直方图,并根据所述直方图中的波峰数量确定待聚类的类别数量;
按类别数量用FCM聚类算法进行颜色聚类,将各类别分别进行文字滤波;
统计各类别中的非零像素数,将非零像素数最多的对应类别图像作为包含字幕的文字区域。
特别的,所述将各类别分别进行文字滤波后,将与图像边缘粘连的连通域为非文字纹理滤除。
本发明还公开了一种视频字幕的提取装置,包括如下模块:
抽取模块,用于抽取视频中的图像帧,将各图像帧进行叠加平均,则得到边缘强度图;
统计模块,用于在各边缘强度图中逐点扫描,统计边缘强度图中的笔画强度,并基于笔画强度将图像帧进行二值化;
定位模块,用于分析所述二值图中的连通域,从图像帧中定位出对应的文字区域;
提取模块,用于在文字区域中拟合各颜色通道进行颜色聚类后滤波,从而按得到的类别在含有字幕的文字区域中提取对应的文字;
识别模块,用于将所述文字进行OCR识别,得到视频中的字幕。
优选的,所述抽取模块统计边缘强度图中的笔画强度时,统计边缘强度图中每个像素点的边缘强度值,得到图像帧对应的笔画强度图。
优选的,所述定位模块分析所述二值图中的连通域时,对所述二值图分别进行水平投影和垂直投影,选取长宽比在0.1至4.5之间的连通域作为文字区域。
优选的,所述提取模块拟合各颜色通道进行颜色聚类时,
统计文字区域中各个颜色通道的直方图,并根据所述直方图中的波峰数量确定待聚类的类别数量;
按类别数量用FCM聚类算法进行颜色聚类,将各类别分别进行文字滤波;
统计各类别中的非零像素数,将非零像素数最多的对应类别图像作为包含字幕的文字区域。
本发明实施例提供的一种视频字幕的提取方法及装置,通过从图像增强后的各图像帧中定位文字区域,并以颜色聚类的方式提取文字区域中的文字后识别,通过颜色聚类在文字区域中有效地对视频帧中的文字进行了提取,不受文字区域中复杂背景的影响,从而提高了字幕的识别效果。
附图说明
图1为本发明实施例一提供的一种视频字幕的提取方法的流程图;
图2a、图2b为本发明实施例一提供的一种视频字幕的提取方法视频截图求反后得到的笔画强度图像;
图3为图2a对应的图像帧中形态学滤波后形成的文字区域;
图4a为本发明实施例一提供的一种视频字幕的提取方法对文字区域准备进行颜色聚类的原始图;
图4b为本发明实施例一提供的一种视频字幕的提取方法对文字区域进行颜色聚类后的结果图;
图4c为本发明实施例一提供的一种视频字幕的提取方法对文字区域进行连通域分析后剔除非文字连通域的结果图;
图5为本发明实施例二提供的一种视频字幕的提取装置的模块结构图。
具体实施方式
下面结合附图对本发明实施例一种视频字幕的提取方法和装置进行详细描述。
本发明的实施例一公开了一种视频字幕的提取方法,如图1所示,包括如下步骤:
步骤101、抽取视频中的图像帧,将各图像帧进行叠加平均,则得到边缘强度图;
本实施例中,提取一段视频中的各图像帧,将各图像帧的像素值进行叠加平均,由于图像帧中的边缘像素在相邻的几个图像帧中将保持相对稳定,因此各图像帧叠加平均后,可以得到同一像素位置对应的各边缘像素的均值,从而有效地将图像帧中对应的边缘强度值。
步骤102、在各边缘强度图中逐点扫描,统计边缘强度图中的笔画强度,并基于笔画强度将图像帧进行二值化;
所述统计边缘强度图中的笔画强度时,统计边缘强度图中每个像素点的边缘强度值,得到图像帧对应的笔画强度图。
由于视频帧中,笔画的纹理具有以下特性:
1)对比度较强;
2)笔画可认为是小于特定宽度的双边结构;
3)笔画以0,90,45,135四个角度为主。
因此,在选取笔画强度时,采用下面的做法,笔画强度 的值为:
DE d + ( p ) = max 1 ≤ i ≤ w - 1 { min { f d ( p - i ) , f d ( p + w - i ) } } - f ( p )
其中,d为选用的文字强度方向,w为在选用的文字强度方向上宽度,f(p)为图像p点的灰度值,则逐点扫描图像上所有点,并按下式给出笔画强度图像。
DE d ( p ) = DE d + ( p ) , if DE d + ( p ) > 0 0 otherwise
最终像素p对应的笔画强度为: 其中,d为四个方向上的极大值。
记原始灰度图像为F+,并计算F+的笔画强度图像P+,考虑到灰度图像中的文字一般为白底黑字或黑底白字类型,则将原始灰度图像求反,记为F-,并同理计算F-的笔画强度图像P-
如图2a和图2b所示,为视频截图求反后得到的笔画强度图像,从图中可以看出,视频中的文字边缘显示得非常清晰,能够实现对文字区域的定位。
由于视频图像中的文字区域一般的对比度强,可将笔画强度图像P进行二值化,进而实现文字定位。因此,本实施例中,采用基于熵阈值的将笔画强度图像P进行二值化。
1、计算图像各阶灰度对应的概率;
其中,Ni为对应于灰度i时的像素个数,w*h为图像的尺寸。
2、根据设定的既定灰度t(t=0,1,,2,...255),以t为阈值,将原始图像分为前景和背景两部分,并计算对应于阈值t的总信息熵Ht=HBt+HFt
其中,HBt对应于背景像素的熵值,HFt对应于前景像素的熵值,其熵值计算公式如下:
HB t = - &Sigma; i < t , i = 0 Pro i * log ( Pro i ) , HF t = - &Sigma; i > t , i = t Pro i * log ( Pro i )
3、求的熵值最大对应的灰度阶T=t,st.max(Ht),并实现笔画强度图像的二值化:
G ( x , y ) = 255 P ( x , y ) > T 0 P ( x , y ) < T
步骤103、分析所述二值图中的连通域,从图像帧中定位出对应的文字区域;
由于视频中文字对比度较强,文字一般为双边结构特征等特点,利用这些文字特点提取文字强度图像,从而对视频中的文字区域进行定位,达到在图像中分割出可能的文字区域的目的。同时用连通域分析的方法,提取和去除一些非规则等的文字强度联通区域;再利用数学形态学中膨胀、腐蚀技术消除图像噪声,合并文字区域;最后利用连通图计算方法定位出文字区域位置包围的最大矩形框。
经过熵阈值分割后的二值图像,其中的连通域包含文字连通体也包含非文字连通像素,故经过如下的连通域分析过程:
A、考虑到汉字的结构信息,一般汉字结构分为上下,左右,包围和半包围结构,汉字包含的连通分量一般不超过3个,通过汉字的此种性质可以滤除非汉字结构信息对应的区域;
B、考虑到视频中文字的分布特点,视频对应的图像帧中文字一般是以行结构信息分布,同一行中的文字个数最少2个,文字高度一致,长宽比信息介于0.1至4.5之间。利用这些特点,提取类文字的连通区域。
对经过阈值分割的区域二值图像进行形态学滤波处理。非零区域包含了文字和非文字的区域,因此,在选择的非零区域会出现一些孤立或者内部有空洞的区域,通过形态学滤波的方式,文字区域中的像素经膨胀、腐蚀、开、闭运算,从而达到消除图像噪声和连通区域的目的.其中,在膨胀和腐蚀操作时,主要在图像的y方向进行,因为我们主要希望是将文字的行的方向上能够联通,从而在二值图像中得到平顺的文字区域。如图3所示,为图2a对应的图像帧中形态学滤波后形成的文字区域。
步骤104、在文字区域中拟合各颜色通道进行颜色聚类后滤波,从而按得到的类别在含有字幕的文字区域中提取对应的文字;
在提取到的文字区域中,由于视频中同一区域内的文字具有颜色一致性,因此本发明运用颜色聚类的方法提取文字区域中的文字。通过统计文字区域中各个颜色通道的直方图,并根据所述直方图中的波峰数量确定待聚类的类别数量。
本实施例中,采用模糊c均值进行颜色聚类,由于文字区域的背景像素的颜色趋于一致,文字区域的颜色往往也一致,即采用2类聚类方法即可。但由于图像的背景局域一般较为复杂,基于2类的分类方法往往并不能满足要求,因此,往往采用自适应计算图像聚类数cluster_num得到类别的数量,在进行颜色聚类。
对于需要待聚类的图片帧framei,通过拟合framei中各个颜色通道的直方图,并计算拟合后的波峰数量,即得到最终的类别数量。步骤如下:
1.计算待聚类的图片帧framei的每个颜色通道的直方图Hch,ch=1、2、...
2.用阶数为n的多项式拟合每个颜色直方图Hch,并给出Hch的波峰数量numch,则本实施例中,满足如下条件的值为波峰Pi
Ht为一设定阈值,{Pi||Pi>Ht,Ht∈Hch,t∈[i-width,i+width]}
3.对比得出各个颜色通道的最大波峰数num,如果num>max_cluster,max_cluster为最大聚类数,则类别数量cluster_num=max_cluster,否则类别数量cluster_num=num。
在提取文字图像时颜色聚类用模糊c聚类方法FCM,采用隶属度矩阵确定每个像素点属于某个聚类的程度。本实施例中,待聚类的数据为图像的RGB彩色空间。假定聚类颜色数据
本实施例中,FCM聚类的流程如下:
1.用值在0,1间的随机数初始化隶属度矩阵U和加权指数m∈[1,∞),一般选择m=2,初始化迭代次数i、t=0满足
2.用下式计算c个聚类中心Ck
C k = &Sigma; j = 1 n u j , k * { x i , j } i , - 1,2,3 &Sigma; j = 1 n u j , k , k = 1 . . . c
3,计算距离函数dj,k=||ck-{xi,j}||,即每-点到聚类中心Ck的距离,并判断迭代结束条件(迭代次数it>thres_it,或者最大距离dj,k大于一给定距离thres_d)
4计算新的隶属度矩阵U, 返回步骤2。
在本采用模糊c聚类算法时,迭代速度和聚类数和样本集的数量相关,为了加快迭代速度,采用降采样的方法,对需要聚类的样本图片降采样,降低样本集的数量,提高计算速度。
则将文字候选区域{regioni}中对视频文字进行提取时:
1)对于候选区域regioni,由确定的聚类算法给出regioni的类别数量c。
2)用模糊c聚类算法对regioni进行颜色聚类。
3)提取类别标签为label,label=1..c的二值图像BWlabel,进行文字滤波,由于与图像边缘粘连的连通域不是文字区域,则滤除;再用连通域分析的方法剔除一些非文字的连通域。
如图4a至图4c所示,分别为颜色聚类的原始图,颜色聚类后的结果图和连通域分析后剔除非文字连通域的结果图。
4)统计经过滤波后的各个类别BWlabel的非零点像素数,提取包含非零点个数最多的类别图像为包含文字的图像BWtext
步骤105、将所述文字进行OCR识别,得到视频中的字幕。
采用商用或者免费的OCR软件。本实施例中,采用微软提供的免费OCR识别软件将提取到的包含文字的二值图像提交到OCR识别引擎中进行OCR识别,得到文字区域中的对应的字符,将各图像帧依次处理,从而从视频中提取字幕。
本发明的实施例二还公开了一种视频字幕的提取装置,如图5所示,包括如下模块:
抽取模块501,用于抽取视频中的图像帧,将各图像帧进行叠加平均,则得到边缘强度图;
统计模块502,用于在各边缘强度图中逐点扫描,统计边缘强度图中的笔画强度,并基于笔画强度将图像帧进行二值化;
定位模块503,用于分析所述二值图中的连通域,从图像帧中定位出对应的文字区域;
提取模块504,用于在文字区域中拟合各颜色通道进行颜色聚类后滤波,从而按得到的类别在含有字幕的文字区域中提取对应的文字;
识别模块505,用于将所述文字进行OCR识别,得到视频中的字幕。
优选的,所述抽取模块统计边缘强度图中的笔画强度时,统计边缘强度图中每个像素点的边缘强度值,得到图像帧对应的笔画强度图。
优选的,所述定位模块分析所述二值图中的连通域时,对所述二值图分别进行水平投影和垂直投影,选取长宽比在0.1至4.5之间的连通域作为文字区域。
优选的,所述提取模块拟合各颜色通道进行颜色聚类时,
统计文字区域中各个颜色通道的直方图,并根据所述直方图中的波峰数量确定待聚类的类别数量;
按类别数量用FCM聚类算法进行颜色聚类,将各类别分别进行文字滤波;
统计各类别中的非零像素数,将非零像素数最多的对应类别图像作为包含字幕的文字区域。
本发明实施例提供的一种视频字幕的提取方法及装置,通过从图像增强后的各图像帧中定位文字区域,并以颜色聚类的方式提取文字区域中的文字后识别,通过颜色聚类在文字区域中有效地对视频帧中的文字进行了提取,不受文字区域中复杂背景的影响,从而提高了字幕的识别效果。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (8)

1.一种视频字幕的提取方法,其特征在于,包括如下步骤:
抽取视频中的图像帧,将各图像帧进行叠加平均,则得到边缘强度图;
在各边缘强度图中逐点扫描,统计边缘强度图中的笔画强度,并基于笔画强度将图像帧进行二值化;
分析二值图中的连通域,从图像帧中定位出对应的文字区域;
在文字区域中拟合各颜色通道进行颜色聚类后滤波,所述拟合各颜色通道进行颜色聚类时,统计文字区域中各个颜色通道的直方图,并根据所述直方图中的波峰数量确定待聚类的类别数量,按类别数量用模糊C聚类算法进行颜色聚类,将各类别分别进行文字滤波,统计各类别中的非零像素数,将非零像素数最多的对应类别图像作为包含字幕的文字区域,从而按得到的类别在含有字幕的文字区域中提取对应的文字;
将所述文字进行OCR识别,得到视频中的字幕。
2.根据权利要求1所述的方法,其特征在于:所述统计边缘强度图中的笔画强度时,
统计边缘强度图中每个像素点的边缘强度值,得到图像帧对应的笔画强度图。
3.根据权利要求1所述的方法,其特征在于:所述分析所述二值图中的连通域时,
对所述二值图分别进行水平投影和垂直投影,选取长宽比在0.1至4.5之间的连通域作为文字区域。
4.根据权利要求1或3所述的方法,其特征在于:所述从图像帧中定位出对应的文字区域时,对二值图像进行形态学滤波,滤除连通域中的噪声。
5.根据权利要求1所述的方法,其特征在于:所述将各类别分别进行文字滤波后,
将与图像边缘粘连的为非文字纹理的连通域滤除。
6.一种视频字幕的提取装置,其特征在于,包括如下模块:
抽取模块,用于抽取视频中的图像帧,将各图像帧进行叠加平均,则得到边缘强度图;
统计模块,用于在各边缘强度图中逐点扫描,统计边缘强度图中的笔画强度,并基于笔画强度将图像帧进行二值化;
定位模块,用于分析二值图中的连通域,从图像帧中定位出对应的文字区域;
提取模块,用于在文字区域中拟合各颜色通道进行颜色聚类后滤波,所述提取模块拟合各颜色通道进行颜色聚类时,统计文字区域中各个颜色通道的直方图,并根据所述直方图中的波峰数量确定待聚类的类别数量,按类别数量用模糊C聚类算法进行颜色聚类,将各类别分别进行文字滤波,统计各类别中的非零像素数,将非零像素数最多的对应类别图像作为包含字幕的文字区域,从而按得到的类别在含有字幕的文字区域中提取对应的文字;
识别模块,用于将所述文字进行OCR识别,得到视频中的字幕。
7.根据权利要求6所述的装置,其特征在于:所述抽取模块统计边缘强度图中的笔画强度时,统计边缘强度图中每个像素点的边缘强度值,得到图像帧对应的笔画强度图。
8.根据权利要求6所述的装置,其特征在于:所述定位模块分析所述二值图中的连通域时,对所述二值图分别进行水平投影和垂直投影,选取长宽比在0.1至4.5之间的连通域作为文字区域。
CN201210297750.0A 2012-08-21 2012-08-21 一种视频字幕的提取方法及装置 Expired - Fee Related CN102915438B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210297750.0A CN102915438B (zh) 2012-08-21 2012-08-21 一种视频字幕的提取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210297750.0A CN102915438B (zh) 2012-08-21 2012-08-21 一种视频字幕的提取方法及装置

Publications (2)

Publication Number Publication Date
CN102915438A CN102915438A (zh) 2013-02-06
CN102915438B true CN102915438B (zh) 2016-11-23

Family

ID=47613799

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210297750.0A Expired - Fee Related CN102915438B (zh) 2012-08-21 2012-08-21 一种视频字幕的提取方法及装置

Country Status (1)

Country Link
CN (1) CN102915438B (zh)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239880A (zh) * 2013-06-06 2014-12-24 北京物资学院 一种基于投影算子的古籍文档图像处理算法
CN104298982B (zh) * 2013-07-16 2019-03-08 深圳市腾讯计算机系统有限公司 一种文字识别方法及装置
CN104598907B (zh) * 2013-10-31 2017-12-05 同济大学 一种基于笔画宽度图的图像中文字数据提取方法
CN103544491A (zh) * 2013-11-08 2014-01-29 广州广电运通金融电子股份有限公司 一种面向复杂背景的光学字符识别方法及装置
CN103716655A (zh) * 2013-12-16 2014-04-09 乐视致新电子科技(天津)有限公司 一种字幕转换的方法和设备
CN104616295B (zh) * 2015-01-23 2017-09-26 河南理工大学 新闻图像中水平标题字幕的简单快速定位方法
CN104765472B (zh) * 2015-04-20 2018-06-05 百度在线网络技术(北京)有限公司 输入信息的展示方法和装置
CN104980765B (zh) * 2015-06-15 2018-07-27 北京维鲸视界科技有限公司 一种纯文本帧监测方法
US9779293B2 (en) * 2016-01-27 2017-10-03 Honeywell International Inc. Method and tool for post-mortem analysis of tripped field devices in process industry using optical character recognition and intelligent character recognition
CN106254933B (zh) 2016-08-08 2020-02-18 腾讯科技(深圳)有限公司 字幕提取方法及装置
CN106295592A (zh) * 2016-08-17 2017-01-04 北京金山安全软件有限公司 一种媒体文件字幕的识别方法、装置及电子设备
CN107784301B (zh) * 2016-08-31 2021-06-11 百度在线网络技术(北京)有限公司 用于识别图像中文字区域的方法和装置
CN107862315B (zh) * 2017-11-02 2019-09-17 腾讯科技(深圳)有限公司 字幕提取方法、视频搜索方法、字幕分享方法及装置
CN108171237A (zh) * 2017-12-08 2018-06-15 众安信息技术服务有限公司 一种文本行图像单字切分方法和装置
CN108270983B (zh) * 2017-12-26 2021-05-04 深圳市兴森快捷电路科技股份有限公司 一种字符叠加显示方法及装置
CN108460344A (zh) * 2018-02-07 2018-08-28 北京工业大数据创新中心有限公司 屏幕中的动态区域智能识别系统及智能识别方法
CN108446603B (zh) * 2018-02-28 2021-03-16 北京奇艺世纪科技有限公司 一种新闻标题检测方法及装置
CN109299682A (zh) * 2018-09-13 2019-02-01 北京字节跳动网络技术有限公司 视频文字检测方法、装置和计算机可读存储介质
CN110378282B (zh) * 2019-07-18 2021-11-02 北京字节跳动网络技术有限公司 图像处理方法及装置
CN110598622B (zh) * 2019-09-06 2022-05-27 广州华多网络科技有限公司 视频字幕定位方法、电子设备以及计算机存储介质
CN111080554B (zh) * 2019-12-20 2023-08-04 成都极米科技股份有限公司 一种投影内容中字幕区域增强方法、装置及可读存储介质
CN111488847B (zh) * 2020-04-17 2024-02-02 上海媒智科技有限公司 体育比赛视频进球片段获取系统及方法、终端
CN111783771B (zh) * 2020-06-12 2024-03-19 北京达佳互联信息技术有限公司 文字检测方法、装置、电子设备和存储介质
CN112487245A (zh) * 2020-12-04 2021-03-12 北京华录新媒信息技术有限公司 一种基于视频内容的分类聚合方法及装置
CN113033338B (zh) * 2021-03-09 2024-03-29 太极计算机股份有限公司 电子报头版头条新闻位置识别方法及装置
CN113807085B (zh) * 2021-11-19 2022-03-04 成都索贝数码科技股份有限公司 一种针对新闻场景的标题字幕提取方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101122952A (zh) * 2007-09-21 2008-02-13 北京大学 一种图片文字检测的方法
CN101599124A (zh) * 2008-06-03 2009-12-09 汉王科技股份有限公司 一种从视频图像中分割字符的方法和装置
CN101799922A (zh) * 2009-02-09 2010-08-11 北京新岸线网络技术有限公司 检测文字笔画的方法和装置、定位文字行的方法和装置、判断字幕重复的方法和装置
CN102122347A (zh) * 2011-03-31 2011-07-13 汉王科技股份有限公司 判别图像中文本颜色极性的方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101122952A (zh) * 2007-09-21 2008-02-13 北京大学 一种图片文字检测的方法
CN101599124A (zh) * 2008-06-03 2009-12-09 汉王科技股份有限公司 一种从视频图像中分割字符的方法和装置
CN101799922A (zh) * 2009-02-09 2010-08-11 北京新岸线网络技术有限公司 检测文字笔画的方法和装置、定位文字行的方法和装置、判断字幕重复的方法和装置
CN102122347A (zh) * 2011-03-31 2011-07-13 汉王科技股份有限公司 判别图像中文本颜色极性的方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于笔画提取和颜色模型的视频文字分割算法;程豪 等;《计算机工程》;20090228;第35卷(第4期);摘要,正文第193-195页第2-4小节 *
基于颜色聚类和多帧融合的视频文字识别方法;易剑 等;《软件学报》;20111231;摘要,正文2920页第1段-第2932页第1段 *

Also Published As

Publication number Publication date
CN102915438A (zh) 2013-02-06

Similar Documents

Publication Publication Date Title
CN102915438B (zh) 一种视频字幕的提取方法及装置
CN107622258B (zh) 一种结合静态底层特征和运动信息的快速行人检测方法
CN108446617B (zh) 抗侧脸干扰的人脸快速检测方法
CN102163284B (zh) 面向中文环境的复杂场景文本定位方法
CN104050471B (zh) 一种自然场景文字检测方法及系统
CN104298982B (zh) 一种文字识别方法及装置
CN102332092B (zh) 一种基于视频分析的火焰检测方法
CN103020618B (zh) 视频图像文字的检测方法及系统
WO2018145470A1 (zh) 一种图像检测方法和装置
CN107122777A (zh) 一种基于视频文件的车辆分析系统及分析方法
CN104751142A (zh) 一种基于笔划特征的自然场景文本检测算法
CN109410184B (zh) 基于稠密对抗网络半监督学习的直播色情图像检测方法
CN106778757A (zh) 基于文本显著性的场景文本检测方法
CN112528997B (zh) 一种基于文本中心区域扩增的藏汉双语场景文本检测方法
CN102968637A (zh) 一种复杂背景图像文字分割方法
CN104463134B (zh) 一种车牌检测方法和系统
CN110766020A (zh) 一种面向多语种自然场景文本检测与识别的系统及方法
CN101364263A (zh) 对图像进行皮肤纹理检测的方法及系统
CN108734131A (zh) 一种图像中的交通标志对称性检测方法
Shivakumara et al. Gradient-angular-features for word-wise video script identification
CN113221778B (zh) 手写表格的检测与识别方法及装置
CN116977931A (zh) 一种基于深度学习的高空抛物识别方法
Liu et al. Detection and segmentation text from natural scene images based on graph model
Van Phan et al. Collecting handwritten nom character patterns from historical document pages
CN106066887A (zh) 一种广告序列图像快速检索和分析方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Su Pengyu

Inventor after: Xiao Bingzhu

Inventor before: Xu Hongwei

Inventor before: Su Pengyu

COR Change of bibliographic data
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20161123

Termination date: 20210821