CN101102419B - 一种定位视频字幕区域的方法 - Google Patents

一种定位视频字幕区域的方法 Download PDF

Info

Publication number
CN101102419B
CN101102419B CN2007101185946A CN200710118594A CN101102419B CN 101102419 B CN101102419 B CN 101102419B CN 2007101185946 A CN2007101185946 A CN 2007101185946A CN 200710118594 A CN200710118594 A CN 200710118594A CN 101102419 B CN101102419 B CN 101102419B
Authority
CN
China
Prior art keywords
area
caption area
pixel
caption
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2007101185946A
Other languages
English (en)
Other versions
CN101102419A (zh
Inventor
彭宇新
李鸿
肖建国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN2007101185946A priority Critical patent/CN101102419B/zh
Publication of CN101102419A publication Critical patent/CN101102419A/zh
Application granted granted Critical
Publication of CN101102419B publication Critical patent/CN101102419B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Studio Circuits (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种定位视频字幕区域的方法,属于视频分析和检索技术领域。该方法包括以下步骤:(1)抽取视频帧,把视频帧转换成边缘强度图;(2)多次应用水平和垂直投影的方法从边缘强度图中分割出字幕区域;(3)利用视频在时间上的冗余信息,对检测到的字幕区域进行过滤,去除误判为字幕区域的背景块和重复出现的字幕区域。本发明充分考虑了视频字幕的多样性和复杂性,并利用视频在时间上的冗余信息提高识别效果,对检测到的字幕区域进行过滤,去除误判为字幕区域的背景块和重复出现的字幕区域,因此可以取得更高的视频字幕区域的查全率和查准率,从而充分发挥视频字幕信息在视频检索和视频搜索引擎中的巨大作用。

Description

一种定位视频字幕区域的方法
技术领域
本发明属于视频分析和检索技术领域,具体涉及一种定位视频字幕区域的方法。
背景技术
随着互联网视频内容的不断增加,以及数字图书馆、视频点播、远程教学等大量的多媒体应用,如何在海量视频中检索出所需要的资料显得至关重要。传统的基于关键词描述的视频检索因为描述能力有限、主观性强、手工标注等原因,已经不能满足海量视频检索的需求。因此从20世纪90年代开始,基于内容的视频检索技术成为研究的热点问题,而视频字幕的识别技术正是实现视频检索的关键技术,如果能够自动识别出视频中的字幕信息,则可以建立高效的文本索引结构,从而实现基于查询文本的视频检索。因此,该技术不仅是下一代搜索引擎的关键技术,也是互联网视频管理和监控的关键技术,具有十分重要的研究和应用价值。现有的视频字幕提取技术,一般都是针对特定的视频,没有考虑视频字幕的多样性和复杂性,以及视频在时间上的冗余信息,因此不能有效提取视频中的字幕信息。
2005年在IEEE Transactions on Circuits and Systems for VideoTechnology上发表的文献“A comprehensive method for multilingualvideo text detection,localization,and extraction”(作者是Michael R.Lyu,Jiqiang Song,Min Cai,页码是243-255),提出了一种基于边缘的视频字幕提取方法。该文献提出利用Sobel算子把视频帧转换成边缘强度图,然后通过水平和垂直投影的方式找出可能的字幕区域。他们更多地分析了中文文字的特点,并针对这些特点来寻找字幕区域,区分笔画和背景等。但是,该系统侧重于文字的细节分析,因此适应面并不广,视频字幕区域的定位效果还需要提高。
发明内容
针对现有技术的不足,本发明提出了一种定位视频字幕区域的方法,用于定位视频中的字幕文字信息。
为达到以上目的,本发明采用的技术方案是:一种定位视频字幕区域的方法,包括以下步骤:
(1)抽取视频帧,把视频帧转换成边缘强度图;所述转换边缘强度图时运用改进后的Sobel边缘检测算子计算每个像素点的边缘强度值,公式如下:
S=Max(|SH|,|SV|,|SLD|,|SRD|)
其中,SH、SV、SLD、SRD分别表示水平、垂直、左对角线、右对角线这四个方向上的Sobel边缘强度值,Max是计算最大值。
(2)多次应用水平和垂直投影的方法从边缘强度图中分割出字幕区域;
(3)利用视频在时间上的冗余信息,对检测到的字幕区域进行过滤,去除误判为字幕区域的背景块和重复出现的字幕区域。去除误判为字幕区域的背景块的具体方法是:在单帧字幕区域检测过程中,把若干等时间间隔抽取帧的结果放在一个队列中,先进先出,对于一个新的抽取帧结果,把它加入队尾,然后队首的抽取帧退出队列,对退出队列的抽取帧中所有检测到的字幕区域进行分析;如果某个字幕区域A在队列的后面连续几个抽取帧中找到相同的字幕区域,就通过验证,确认该区域A确实是字幕区域,同时删除队列中抽取帧的相同字幕区域(短时间内重复出现),否则该区域A不能通过验证而确认为被误判为字幕区域的背景块并去除。去除重复出现的字幕区域的具体方法是:把所有和当前抽取帧的播放时间点小于一定时间间隔的抽取帧中的所有字幕区域结果备份在一个缓存集合中,在检测下一个抽取帧时,定期清除此缓存集合中超过预先定义时间间隔的字幕区域。对于每一个通过多帧确认的字幕区域,如果能在此缓存集合中找到相同的字幕区域,则认为是短期内重复出现的,忽略此区域,确认该字幕区域为一个重复出现的字幕区域并去除。如果不能在所述缓存集合中找到相同的区域,则表明此文字行在一段时间内没有出现,是新的字幕区域,因此把该字幕区域放入最终结果中,同时在所述缓存集合中保持一个备份。
进一步,上述的一种定位视频字幕区域的方法,所述步骤(2)采用如下方法从边缘强度图中分割出字幕区域:需要一个待处理区域集合S,刚开始时,集合S中只有当前抽取的视频帧的边缘强度图区域。在处理的过程中,每次在S中取一个区域A0进行处理,直到集合S为空为止。对区域A0处理的方法是:首先对区域A0进行水平方向的投影,统计每行边缘像素的数目,然后根据A0的水平投影图进行垂直方向的分割。如果A0在垂直方向是不可分割的,就把它作为一个整体进行垂直方向的投影和水平方向的分割;否则,把所有从A0中分割出来的区域A1,A2...An进行垂直方向的投影和水平方向的分割。如果区域Ai根据其垂直投影图不能再进行水平方向的分割,就把它放入结果集合R中,否则把从Ai分割出来的区域放入集合S中等待处理,i=1,2,......,n。
进一步,上述的一种定位视频字幕区域的方法,所述步骤(2)使用如下算法自动调整分割尺度对区域进行分割:对于一个待分割的区域,垂直分割的方法是从下往上扫描边缘强度图的水平投影图做分割。水平分割的方法是从左往右扫描边缘强度图的垂直投影图做分割。上述水平和垂直分割在扫描的过程中,把强度相近的行归为一组,并随时更新这个组所有行的边缘像素数目的平均值。如果当前扫描行的边缘像素数目和当前组的平均值差别很大,就进行分割,然后继续扫描下一行。只有扫描行的强度值大于一个阈值时,才开始一个新的组。当扫描到最后一行时,对这个区域的分割就完成了。
进一步,上述的一种定位视频字幕区域的方法,所述步骤(3)采用如下三个公式判断两个字幕区域是否相同:
公式1:abs(area(A)area(B))<R1×max(area(A),area(B))
其中abs(area(A),area(B))是字幕区域A与B的面积之差的绝
对值,max(area(A),area(B))是A与B中较大的面积;
公式2:Cord(SP)>(R2×SameSec(A,B))
其中SP={Pixel|(Pixela==0 && Pixelb==0)||(Pixela>0 &&Pixelb>0)},Cord(SP)表示集合SP中元素的数目;
公式3:Average(abs(Pixela Pixelb)|Pixel∈SNZP)<R3
其中SNZP={Pixel|(Pixela>0 && Pixelb>0)}。
对于在不同视频帧的字幕区域A和字幕区域B,设它们左上角的坐标分别为(xa,ya)和(xb,yb),宽高分别为[wa,ha]和[wb,hb],设w=min(wa,wb),h=min(ha,hb),两个区域的重叠区域SameSec为区域A中的矩形(xa,ya)(xa+w,ya+h)和区域B中的矩形(xb,yb)(xb+w,yb+h)。Pixela,Pixelb为重叠区域SameSec中的相应的像素对,R1、R2、R3为比率系数。当上述三个公式同时满足时,确认字幕区域A和字幕区域B相同,否则不同。
本发明的效果在于:与现有方法相比,本发明可以取得更高的视频字幕的查全率和查准率,从而充分发挥视频字幕信息在视频检索和视频搜索引擎中的巨大作用。
本发明之所以具有上述发明效果,其原因在于:现有技术中,没有考虑如何利用视频在时间上的冗余信息提高识别效果,因此不能有效提取视频中的字幕信息。针对现有技术的问题,本发明充分利用视频在时间上的冗余信息,对检测到的字幕区域进行过滤,去除误判为字幕区域的背景块和重复出现的字幕区域。进一步,本发明充分考虑视频字幕的多样性和复杂性,首先用改进的Sobel边缘算子把视频帧转换成边缘强度图,然后分析字幕和背景不同的边缘特征,反复应用水平和垂直投影,分割出字幕区域。通过本发明的方法定位视频字幕区域后,可以进一步通过OCR软件识别字幕区域的二值化图片,以获取视频的字幕文本。
附图说明
图1是本发明的流程示意图。
图2是利用视频冗余信息过滤背景区域和重复字幕区域的示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步详细的描述。
如图1所示,本发明的一种定位视频字幕区域的方法具体包括以下步骤:
(1)抽取视频帧,把视频帧转换成边缘强度图。
利用改进后的Sobel边缘检测算子计算每个像素点的边缘强度值,公式如下:
S=Max(|SH|,|SV|,|SLD|,|SRD|)
其中,SH、SV、SLD、SRD分别表示水平、垂直、左对角线、右对角线这四个方向上的Sobel边缘强度值,Max是计算最大值。
(2)根据背景的复杂程度自动调整分割尺度,多次应用水平和垂直投影的方法分割出字幕区域。
需要一个待处理区域集合S,刚开始时,集合S中只有当前抽取的视频帧的边缘强度图区域。在处理的过程中,每次在S中取一个区域A0进行处理,直到集合S为空为止。对区域A0处理的方法是:首先对区域A0进行水平方向的投影,统计每行边缘像素的数目,然后根据A0的水平投影图进行垂直方向的分割。如果A0在垂直方向是不可分割的,就把它作为一个整体进行垂直方向的投影和水平方向的分割;否则,把所有从A0中分割出来的区域A1,A2...An进行垂直方向的投影和水平方向的分割。如果区域Ai根据其垂直投影图不能再进行水平方向的分割,就把它放入结果集合R中,否则把从Ai分割出来的区域放入集合S中等待处理,i=1,2,......,n。
在上述过程中,对于一个待分割的区域,根据背景复杂程度自动调整分割尺度对其进行分割。方法描述如下:对于一个待分割的区域,垂直分割的方法是从下往上扫描边缘强度的水平投影图做分割。水平分割的方法是从左往右扫描边缘强度的垂直投影图做分割。上述水平和垂直分割在扫描的过程中,把强度相近的行归为一组,并随时更新这个组所有行的边缘像素数目的平均值。如果当前扫描行的边缘像素数目和当前组的平均值差别很大,就进行分割,然后继续扫描下一行。只有扫描行的强度值大于一个阈值时,才开始一个新的组。当扫描到最后一行时,对这个区域的分割就完成了。
(3)利用视频在时间上的冗余信息,对检测到的字幕区域进行过滤,去除误判为字幕区域的背景块和重复出现的字幕区域。
去除误判为字幕区域的背景块的具体方法是:在单帧字幕区域检测过程中,本发明首先在每6个连续视频帧抽取1帧,把5个抽取帧的结果放在一个队列中,先进先出,对于一个新的抽取帧结果,把它加入队尾,然后队首的抽取帧退出队列,对退出队列的抽取帧中所有检测到的字幕区域进行分析;如果某个字幕区域A在队列的后面连续3个视频抽取帧中找到相同的字幕区域,就通过验证,确认该区域A确实是字幕区域,同时删除队列中抽取帧的相同字幕区域(短时间内重复出现),否则该区域A不能通过验证而确认为被误判为字幕区域的背景块并去除。
最后去除重复出现的字幕区域的具体方法是:把所有和当前抽取帧的播放时间点小于一定时间间隔的抽取帧中的所有字幕区域结果备份在一个缓存集合中,在检测下一个抽取帧时,定期清除此集合中超过预先定义时间间隔的字幕区域。对于每一个通过多帧确认的字幕区域,如果能在此集合中找到相同的字幕区域,则认为是短期内重复出现的,忽略此区域,确认该字幕区域为一个重复出现的字幕区域并去除。如果找不到,则表明此字幕区域在一段时间内没有出现,是新的区域,因此把此区域放入最终结果中,同时在所述缓存集合中保持一个备份。
上述去除误判为字幕区域的背景块和重复出现的字幕区域的步骤中,使用如下公式判断两个字幕区域是否相同,当下述三个公式同时满足时,确认字幕区域A和字幕区域B相同,否则不同:
公式1:abs(area(A)area(B))<R1×max(area(A),area(B))
其中abs(area(A),area(B))是字幕区域A与B的面积之差的绝
对值,max(area(A),area(B))是A与B中较大的面积;
公式2:Cord(SP)>(R2×SameSec(A,B))
其中SP={Pixel|(Pixela==0 && Pixelb==0)||(Pixela>0 &&Pixelb>0)},Cord(SP)表示集合SP中元素的数目;
公式3:Average(abs(Pixela Pixelb)|Pixel∈SNZP)<R3
其中SNZP={Pixel|(Pixela>0 && Pixelb>0)}。
对于在不同视频帧的字幕区域A和字幕区域B,设它们左上角的坐标分别为(xa,ya)和(xb,yb),宽高分别为[wa,ha]和[wb,hb],设w=min(wa,wb),h=min(ha,hb),两个区域的重叠区域SameSec为区域A中的矩形(xa,ya)(xa+w,ya+h)和区域B中的矩形(xb,yb)(xb+w,yb+h)。Pixela,Pixelb为重叠区域SameSec中的相应的像素对,R1、R2、R3为比率系数。
对于采用本发明的上述定位视频字幕区域的方法检测到的字幕区域,本具体实施方法中,进一步按照如下方法把视频字幕区域检测结果由灰度图转换成二值图片,并利用OCR软件获取文字识别结果:
(1)对定位得到的视频字幕区域进行灰度值调整。
对字幕区域的每一个像素x,按照下列公式调整它的灰度值。
公式一:I’(x)=128+(I(x)-med)×ratio
公式二:med=(max-min)×0.5
公式三:ratio=255/(max-min)
其中,I’(x)是经过调整后像素x的新灰度值,I(x)是调整之前像素x的灰度值,med是字幕区域内所有像素的最大灰度值max与最小灰度值mi n的平均值,ratio表示灰度值调整的幅度。
(2)对视频字幕区域进行基于连通区统计的字幕颜色判断,确认字幕颜色是深色还是浅色,同时反转浅色字幕的灰度图片为深色字幕图片。
利用Otsu方法把灰度图片二值化,然后查找白色和黑色的4连通块,去除连通块外接矩形的宽高都极小的那些连通块,最后统计出的白色连通块个数COMwhite和黑色连通块个数COMblack。如果COMwhite>COMblack,则字幕是浅色的,反之则为深色。同时反转浅色字幕的灰度图片为深色字幕图片。
(3)对步骤(2)获得的灰度图片进行基于局部窗口分析的灰度图片二值化。
利用一个小窗口从左到右依次重叠扫描灰度字幕区域,然后对小窗口中的灰度值进行分析得到Otsu阈值,进行二值化。
(4)对步骤(3)获得的二值图片进行周边融合去噪。
具体方法为:
A:把二值图片周边一定像素宽的所有像素都变成黑色;
B:寻找有周边像素的连通区,把这个连通区转成和背景相同的白色。
(5)进行OCR软件识别,提取文字结果。
最后把处理后的字幕区域二值化图片输入给OCR软件进行识别,以得到视频字幕文本。
下面的实验结果表明,与现有方法相比,本发明可以取得更高的查全率和查准率,从而充分发挥视频字幕信息在视频检索和视频搜索引擎中的巨大作用。
本实施例中建立了25个小时的视频数据库,其中RMVB格式的视频有10个,大约15个小时,包括电影和记录片;MPEG格式的电视节目有6个,大约10个小时,包括新闻和电视剧等视频节目。这些视频内容丰富,字幕的字体特征、颜色风格和排列走向也变化多样,这些都有助于证明本文方法对各种情况的适应性以及最终结果的有效性。
为了证明本发明在定位视频字幕区域方面的有效性,我们测试了以下2种方法作为实验对比:
1、本发明;
2、现有方法:2005年在IEEE Transactions on Circuits andSystems for Video Technology上发表的文献“A comprehensive methodfor multilingual video text detection,localization,andextraction”(作者是Michael R.Lyu,Jiqiang Song,Min Cai,页码是243-255)。该文献首先利用边缘检测算子求得视频帧的边缘图,然后用分析边缘投影图的波峰和波谷的方法来找到可能的字幕区域。
实验采用了三个评价指标:字幕区域查全率(recall)、字幕区域查准率(precision)和字幕区域重复率(repetition)。它们的定义如下所示,查全率和查准率都是越高越好,而重复率则是越小越好。
查全率=检测到的正确字幕区域/视频中所有字幕区域
查准率=检测到的正确字幕区域/检测到的所有区域
重复率=检测到的重复字幕区域/检测到的正确字幕区域
表1本发明与现有方法的对比实验结果
从表1可以看到,本发明在上述三个指标上,都取得了比现有方法更好的结果,这主要是因为:(1)本发明考虑了视频字幕的多样性和复杂性,分析了字幕和背景不同的边缘特征,反复应用水平和垂直投影自适应分割字幕区域;(2)本发明充分利用了视频在时间上的冗余信息,对检测到的字幕区域进行了过滤,去除误判为字幕区域的背景块和重复出现的字幕区域。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (4)

1.一种定位视频字幕区域的方法,其特征在于,包括以下步骤:
(1)抽取视频帧,把视频帧转换成边缘强度图;所述转换边缘强度图时采用改进后的Sobel边缘检测算子计算每个像素点的边缘强度值,公式如下:
S=Max(|SH|,|SV|,|SLD|,|SRD|)
其中,SH、SV、SLD、SRD分别表示水平、垂直、左对角线、右对角线这四个方向上的Sobe l边缘强度值,Max是计算最大值;
(2)多次应用水平和垂直投影的方法从边缘强度图中分割出字幕区域;
(3)利用视频在时间上的冗余信息,对检测到的字幕区域进行过滤,去除误判为字幕区域的背景块和重复出现的字幕区域;
所述去除误判为字幕区域的背景块的方法是:在单帧字幕区域检测过程中,把若干等时间间隔抽取帧的结果放在一个队列中,先进先出,对于一个新的抽取帧,把它加入队尾,然后队首的抽取帧退出队列,对退出队列的抽取帧中所有检测到的字幕区域进行分析;如果某个字幕区域A在队列的后面连续几个抽取帧中找到相同的字幕区域,就通过验证,确认该区域A确实是字幕区域,同时删除队列中抽取帧的相同字幕区域;否则该区域A不能通过验证而确认为被误判为字幕区域的背景块并去除;
所述去除重复出现的字幕区域的方法是:把所有和当前抽取帧的播放时间点小于一定时间间隔的抽取帧中的所有字幕区域结果备份在一个缓存集合中,在检测下一个抽取帧时,定期清除此集合中超过预先定义时间间隔的字幕区域;对于每一个通过多帧确认的字幕区域,如果能在所述缓存集合中找到相同的字幕区域,则确认该区域为一个重复出现的字幕区域并去除;如果不能在所述缓存集合中找到相同的区域,则把该字幕区域放入最终结果中,同时在所述缓存集合中保持一个备份。
2.如权利要求1所述的一种定位视频字幕区域的方法,其特征在于,所述步骤(2)采用如下方法从边缘强度图中分割出字幕区域:需要一个待处理区域集合S,刚开始时,集合S中只有当前抽取的视频帧的边缘强度图区域,处理的过程中,每次在S中取一个区域A0进行处理,直到集合S为空为止;对区域A0处理的方法是:首先对区域A0进行水平方向的投影,统计每行边缘像素的数目;然后根据A0的水平投影图进行垂直方向的分割,如果A0在垂直方向是不可分割的,就把它作为一个整体进行垂直方向的投影和水平方向的分割,否则,把所有从A0中分割出来的区域A1,A2...An进行垂直方向的投影和水平方向的分割;如果区域Ai根据其垂直投影图不能再进行水平方向的分割,就把它放入结果集合R中,否则把从Ai分割出来的区域放入集合S中等待处理,i=1,2,......,n。
3.如权利要求2所述的一种定位视频字幕区域的方法,其特征在于,所述步骤(2)中,对于一个待分割的区域,垂直分割的方法是从下往上扫描边缘强度图的水平投影图做分割;水平分割的方法是从左往右扫描边缘强度图的垂直投影图做分割;所述水平和垂直分割在扫描的过程中,把强度相近的行归为一组,并随时更新这个组所有行的边缘像素数目的平均值,如果当前扫描行的边缘像素数目和当前组的平均值差别很大,就进行分割,然后继续扫描下一行,只有扫描行的强度值大于一个阈值时,才开始一个新的组,当扫描到最后一行时,对这个区域的分割就完成了。
4.如权利要求1所述的一种定位视频字幕区域的方法,其特征在于,确定两个字幕区域A与B相同的充分条件是下述三个公式同时成立:
公式1:abs(area(A),area(B))<R1×max(area(A),area(B))
其中abs(area(A),area(B))是字幕区域A与B的面积之差的绝
对值,max(area(A),area(B))是A与B中较大的面积;
公式2:Cord(SP)>(R2×SameSec(A,B))
其中SP={Pixel|(Pixela==0&&Pixelb==0)||(Pixela>0&&Pixelb>0)},Cord(SP)表示集合SP中元素的数目;
公式3:Average(abs(Pixela,Pixelb)|Pixel∈SNZP)<R3
其中SNZP={Pixel|(Pixela>0&&Pixelb>0)};
对于不同视频帧的字幕区域A和字幕区域B,设它们左上角的坐标分别为(xa,ya)和(xb,yb),宽高分别为[wa,ha]和[wb,hb],设w=min(wa,wb),h=min(ha,hb),两个区域的重叠区域SameSec为区域A中的矩形(xa,ya)(xa+w,ya+h)和区域B中的矩形(xb,yb)(xb+w,yb+h);Pixela,Pixelb为重叠区域SameSec中的相应像素对,R1、R2、R3为比率系数。
CN2007101185946A 2007-07-10 2007-07-10 一种定位视频字幕区域的方法 Expired - Fee Related CN101102419B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2007101185946A CN101102419B (zh) 2007-07-10 2007-07-10 一种定位视频字幕区域的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2007101185946A CN101102419B (zh) 2007-07-10 2007-07-10 一种定位视频字幕区域的方法

Publications (2)

Publication Number Publication Date
CN101102419A CN101102419A (zh) 2008-01-09
CN101102419B true CN101102419B (zh) 2010-06-09

Family

ID=39036481

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007101185946A Expired - Fee Related CN101102419B (zh) 2007-07-10 2007-07-10 一种定位视频字幕区域的方法

Country Status (1)

Country Link
CN (1) CN101102419B (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101510260B (zh) * 2008-02-14 2012-02-22 富士通株式会社 字幕存在时间确定装置和方法
CN101764950B (zh) * 2008-11-10 2013-08-14 新奥特(北京)视频技术有限公司 一种基于区域划分的节目下字幕的冲突检测方法
CN101615255B (zh) * 2009-07-21 2012-03-21 北京大学 一种视频文字多帧融合的方法
CN102511047A (zh) * 2010-05-14 2012-06-20 联发科技(新加坡)私人有限公司 视频节目的字幕消除方法以及相关视频显示系统
CN101902609B (zh) * 2010-07-28 2012-07-04 西安交通大学 一种处理游飞字幕的运动补偿帧频提升方法
CN101917557B (zh) * 2010-08-10 2012-06-27 浙江大学 一种基于视频内容的动态添加字幕方法
CN102625029B (zh) * 2012-03-23 2015-07-01 无锡引速得信息科技有限公司 自适应阈值字幕检测方法
CN102833638B (zh) * 2012-07-26 2015-03-18 北京数视宇通技术有限公司 基于字幕信息的视频自动切分及标注方法及系统
CN104301771A (zh) 2013-07-15 2015-01-21 中兴通讯股份有限公司 视频文件播放进度的调整方法及装置
CN104244073B (zh) * 2014-09-26 2017-05-17 北京大学 一种视频中滚动字幕的自动检测和识别方法
CN104504717B (zh) * 2014-12-31 2017-10-27 北京奇艺世纪科技有限公司 一种图像信息检测方法及装置
CN104616295B (zh) * 2015-01-23 2017-09-26 河南理工大学 新闻图像中水平标题字幕的简单快速定位方法
CN104735521B (zh) * 2015-03-30 2018-04-13 北京奇艺世纪科技有限公司 一种滚动字幕检测方法及装置
CN104967922A (zh) * 2015-06-30 2015-10-07 北京奇艺世纪科技有限公司 一种确定字幕添加位置的方法及装置
CN106921856B (zh) * 2015-12-25 2019-07-12 北京三星通信技术研究有限公司 立体图像的处理方法、检测分割方法及相关装置和设备
CN107977645B (zh) * 2017-12-19 2021-01-22 北京奇艺世纪科技有限公司 一种视频新闻海报图的生成方法及装置
CN110475139B (zh) * 2019-07-30 2021-08-03 腾讯音乐娱乐科技(深圳)有限公司 一种视频字幕的遮挡方法、装置、存储介质及电子设备
CN110598622B (zh) * 2019-09-06 2022-05-27 广州华多网络科技有限公司 视频字幕定位方法、电子设备以及计算机存储介质
CN112905843B (zh) * 2021-03-17 2024-08-09 安徽文香科技股份有限公司 一种基于视频流的信息处理方法、装置以及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1461146A (zh) * 2002-05-16 2003-12-10 精工爱普生株式会社 字幕提取装置
CN1585458A (zh) * 2004-05-27 2005-02-23 上海交通大学 利用支持向量机进行视频字幕定位和提取的方法
CN1731834A (zh) * 2005-08-02 2006-02-08 北京北大方正电子有限公司 一种电视字幕文字的处理方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1461146A (zh) * 2002-05-16 2003-12-10 精工爱普生株式会社 字幕提取装置
CN1585458A (zh) * 2004-05-27 2005-02-23 上海交通大学 利用支持向量机进行视频字幕定位和提取的方法
CN1731834A (zh) * 2005-08-02 2006-02-08 北京北大方正电子有限公司 一种电视字幕文字的处理方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
王勇等.一种自适应的视频帧中字幕检测定位方法.计算机应用24 1.2004,24(1),134-135, 139.
王勇等.一种自适应的视频帧中字幕检测定位方法.计算机应用24 1.2004,24(1),134-135, 139. *
王勇等.一种视频字幕检测定位新方法.计算机工程与应用.2004,40-43. *

Also Published As

Publication number Publication date
CN101102419A (zh) 2008-01-09

Similar Documents

Publication Publication Date Title
CN101102419B (zh) 一种定位视频字幕区域的方法
CN100562074C (zh) 一种视频字幕提取的方法
US6366699B1 (en) Scheme for extractions and recognitions of telop characters from video data
CN101453575B (zh) 一种视频字幕信息提取方法
CN103258198B (zh) 一种表格文档图像中字符提取方法
CN105205488B (zh) 基于Harris角点和笔画宽度的文字区域检测方法
CN104966051B (zh) 一种文档图像的版式识别方法
CN102663382B (zh) 基于子网格特征自适应加权的视频图像文字识别方法
Xi et al. A video text detection and recognition system
CN103488986B (zh) 自适应字符切分及提取方法
CN102193918B (zh) 视频检索方法和装置
CN104244073B (zh) 一种视频中滚动字幕的自动检测和识别方法
CN112329641B (zh) 一种表格识别方法、装置、设备及可读存储介质
CN100593792C (zh) 一种视频中的文本跟踪和多帧增强方法
CN101031035A (zh) 基于视频序列分析的新闻视频单元自动分割方法
Liu et al. A novel multi-oriented chinese text extraction approach from videos
CN105701490A (zh) 一种基于图像熵的集装箱箱号自适应定位方法
Kuwano et al. Telop-on-demand: Video structuring and retrieval based on text recognition
CN101615255B (zh) 一种视频文字多帧融合的方法
CN111832497B (zh) 一种基于几何特征的文本检测后处理方法
KR100812347B1 (ko) 스트록 필터를 이용한 문자 추출 방법 및 그 장치
Gao et al. Automatic news video caption extraction and recognition
CN102542279A (zh) 维哈柯文文本图像的行提取方法及装置
Huang Automatic video text detection and localization based on coarseness texture
Jianyong et al. An edge-based approach for video text extraction

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100609

Termination date: 20120710