CN112488107A - 一种视频字幕的处理方法及处理装置 - Google Patents
一种视频字幕的处理方法及处理装置 Download PDFInfo
- Publication number
- CN112488107A CN112488107A CN202011407492.8A CN202011407492A CN112488107A CN 112488107 A CN112488107 A CN 112488107A CN 202011407492 A CN202011407492 A CN 202011407492A CN 112488107 A CN112488107 A CN 112488107A
- Authority
- CN
- China
- Prior art keywords
- image
- text
- processing
- video
- text region
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 59
- 238000003672 processing method Methods 0.000 title abstract description 13
- 238000000034 method Methods 0.000 claims description 34
- 238000000605 extraction Methods 0.000 claims description 14
- 238000003708 edge detection Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 230000015572 biosynthetic process Effects 0.000 claims description 3
- 238000007621 cluster analysis Methods 0.000 claims description 3
- 238000004891 communication Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000003786 synthesis reaction Methods 0.000 claims description 3
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 description 19
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 1
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 230000002902 bimodal effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010422 painting Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/635—Overlay text, e.g. embedded captions in a TV program
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/30—Noise filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明属于视频内容分类技术领域,具体涉及一种视频字幕的处理方法及处理装置,其中处理方法包括:S1:逐帧处理视频流,得到待识别的图像,所述图像中包括多个像素点;S2:根据多个所述像素点,确定所述图像的第一文本区域;S3:按照预设规则,从所述第一文本区域中提取第二文本区域;S4:对所述第二文本区域进行识别以获取图像文本;S5:按照每帧图像的时序依次排列获取的图像文本,得到视频字幕。通过上述步骤,能够有效识别视频流中每一帧图像的文本,避免了噪声对图像文本识别的干扰,大大提升了识别的准确率。
Description
技术领域
本发明属于视频内容分类技术领域,具体涉及一种视频字幕的处理方法及处理装置。
背景技术
视频在视觉上是一系列连续图像的集合,是一种没有结构的图像流。由于视频缺乏索引信息,人们无法对它进行高效浏览和检索。为了辅助人们快速寻找感兴趣的视频片段,除了采取“快进”和“快倒”这种耗时的方式进行线性浏览,很多的视频还标注有标签。而标签则需要根据视频的内容(即字幕)而定,即需要通过对饰品字幕进行检测和提取。
视频字幕检测和提取一般包括视频字幕定位、提取和识别,现有的视频字幕定位方法中通常会默认字幕处于屏幕的下四分之一,即宽为M,高为3N/4至N的区域为字幕区域,但是当某些非常规视频出现时,如视频字幕出现在屏幕上方或两侧时,依旧采用固有的字幕提取范围可能会导致字幕定位不准确而无法提取或提取到不完整字幕等情况的出现。现有的视频字幕提取方法则面临三大问题:第一,视频图像的复杂背景使字幕提取和分割极其困难。第二,为避免遮挡图像的主体部分,许多视频字符的尺寸都相当小,分辨率低。第三,数字视频采用有损压缩方式的格式存贮,再次降低了其分辨率。对于上述问题以及字幕字体、大小和对齐排列方式多变,成像存在噪音、模糊、透视、字体格式种类繁多等情况,本发明所提出的视频字幕提取算法要比其它边缘检测定位算法准确率高。
基于上述原因,导致现有技术中视频字幕的提取不仅费时费力,且正确率不高,针对性不强。
因此,针对以上不足,本发明急需提供一种视频字幕的处理方法及处理装置。
发明内容
本发明的目的在于提供一种视频字幕的处理方法及处理装置,以解决现有技术中视频字幕的提取方法费时费力且正确率低的问题。
一方面,本发明提供的视频字幕的处理方法,包括:S1:逐帧处理视频流,得到待识别的图像,所述图像中包括多个像素点;S2:根据多个所述像素点,确定所述图像的第一文本区域;S3:按照预设规则,从所述第一文本区域中提取第二文本区域;S4:对所述第二文本区域进行识别以获取图像文本;S5:按照每帧图像的时序依次排列获取的图像文本,得到视频字幕。
如上所述的视频字幕的处理方法,进一步优选为,S1包括:S11:采用三色不等权变换策略逐帧处理视频流中的图像,得到灰度图像;S12:采用阈值法处理灰度图像,得到包括多个像素点的二值化图像。
如上所述的视频字幕的处理方法,进一步优选为,S2包括:S21:按照8邻域相通的规则对S1中的二值化图像进行连通域标记,同一连通域内的像素点具有相同的标号;S22:利用启发式规则筛选并去除面积过大或过小的连通域,得到第一文本区域。
如上所述的视频字幕的处理方法,进一步优选为,S22还包括判断相邻帧图像的连通域是否匹配,将相匹配的多帧图像合并成子集;按照子集的时序使每个子集输出若干带有时间轴的二值化图像,得到第一文本区域。
如上所述的视频字幕的处理方法,进一步优选为,S3包括:S31:使用多级边缘检测算法查找第一文本区域中图像的边缘,并输出包含有边缘像素点的二值图像;S32:计算S31中二值图像每个边缘像素点的梯度,根据每个边缘像素点梯度查找二值图像中的有效笔画并输出包含有效笔画及笔画宽度的二值图像;S33:基于S32中的二值图像中像素点的笔画宽度划分连通域,位于同一连通域的笔画为同一字符链;S34:遍历S33中所有的字符链,并将首尾相接的字符链组合到一起形成文本,该文本的包围矩形范围构成第二文本区域。
如上所述的视频字幕的处理方法,进一步优选为,S32中,有效笔画中的像素点两两对应,且相对应的两个像素点均为彼此梯度方向上第一个与其梯度方向相反的像素点,相对应的两个像素点之间的宽度为彼此的笔画宽度。
如上所述的视频字幕的处理方法,进一步优选为,S33中,当相邻两像素点的笔画宽度的比例小于预设阈值时,则属于同一连通域,为同一字符链的笔画。
如上所述的视频字幕的处理方法,进一步优选为,S4包括:S41:遍历第二文本区域,计算各像素点的梯度,并得到梯度纵向投影直方图;S42:根据直方图中波峰波谷的位置对第二文本区域进行切分,得到单字符图像;S43:对单字符图像进行连通域标记,并清除像素点数目过小的区域,得到处理后的二值化图像;S44:通过OCR识别步骤S43中得到的二值化图像,输出文本,遍历第二文本区域,得到文本集合,完成字幕提取。
如上所述的视频字幕的处理方法,进一步优选为,S42还包括获取切分后各区域在视频流中的原始图片,并根据颜色信息对原始图片进行聚类分析,得到文本的像素信息;通过对比去除切分后各区域的噪点,得到单字符图像。
另一方面,本发明还提供了一种视频字幕的处理装置,用于实现上述任意一项所述的视频字幕的处理方法,包括:获取模块,用于逐帧处理视频流以得到待识别的图像,所述图像包括多个像素点;确定模块,用于根据多个像素点,确定所述图像的第一文本区域;提取模块,用于按照预设规则,从所述第一文本区域中提取出第二文本区域;识别模块,用于对所述第二文本区域进行识别以获取图像图本;合成模块,用于根据视频时序合成图像文本,得到视频字幕。
与现有技术相比,本发明所公开的一种视频字幕的处理方法及处理装置具有以下有益效果:
本发明提供的视频字幕的处理方法中首先通过逐帧对视频流中的图像进行多次全局二值化处理,有效地去除了待识别的图像中的噪声,并通过对第二文本区域进行识别来实现图像文本的识别,避免了噪声对图像文本识别的干扰,大大提升了识别的准确率。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明中一种视频字幕的处理方法步骤流程图;
图2为本发明中一种视频字幕的处理装置的结构框图;
图3为本发明中步骤S31前后图像的变化,其中a为处理前,b为处理后;
图4为本发明中步骤S32前后图像的变化,其中c为处理前,d为处理后;
图5为本发明中步骤S3中同一笔画的变化过程,其中e为第二文本区域中笔画,f为查找边缘后的笔画,g为笔画宽度变化。
具体实施方式
实施例1:
如图1所示,本实施例提供了一种视频字幕的处理方法,包括:
S1:逐帧处理视频流,得到待识别的图像,所述图像中包括多个像素点;
S2:根据多个所述像素点,确定所述图像的第一文本区域;
S3:按照预设规则,从所述第一文本区域中提取第二文本区域;
S4:对所述第二文本区域进行识别以获取图像文本;
S5:按照每帧图像的时序依次排列获取的图像文本,得到视频字幕。
进一步的,S1包括:
S11:采用三色不等权变换策略逐帧处理视频流中的图像,得到灰度图像;具体的,R、G、B分别表示彩色图像三通道对应的像素值,则输出的灰度图像为:L(x,y)=0.3×R(x,y)+0.59×G(x,y)+0.11×B(x,y),其中(x,y)表示该图像中像素点的坐标。
S12:采用阈值法处理灰度图像,得到包括多个像素点的二值化图像。具体的,可采用双峰法、P参数法、大津法、最大熵阈值法和迭代法作为阈值选取算法。
进一步的,S2包括:
S21:按照8邻域相通的规则对S1中的二值化图像进行连通域标记,同一连通域内的像素点具有相同的标号;具体的,从左到右、从上往下依次按照8邻域相通的规则进行连通域标记;
S22:利用启发式规则筛选并去除面积过大或过小的连通域,得到第一文本区域。
进一步的,S22还包括判断相邻帧图像的连通域是否匹配,将相匹配的多帧图像合并成子集;按照子集的时序使每个子集输出若干二值图像,得到第一文本区域。
具体而言,为便于观看,视频字幕一般都会持续1秒钟以上,而背景却相对变化较快,1秒钟大概20-30帧,一个镜头又由多帧图像按照时序组合而成,因此一般而言,视频字幕的持续时间要长于镜头,且视频字幕的切换一般伴随着镜头的切换。因此,步骤S23中,判断相邻帧图像的第一文本区域是否匹配可分为两个步骤:首先判断镜头是否切换,然后判断相邻镜头的字幕是否匹配,并将字幕匹配的相邻镜头合并成子视频。
镜头的切换与否可通过公式计算得到,具体的,以一个大小为M×N的视频帧为例,定义空间差序列为DS(t),定义空间差序列所对应的镜头变换阈值为δshot,当DS(t)>δshot时,则认为在第t和t+1帧发生了镜头切换。其中:
其中,M代表视频图像的长度,N代表视频图像的宽度,It(i,j)是第t帧图像在(i,j)点处的强度,It+1(i,j)是第t+1帧图像在(i,j)点处的强度。阈值δshot随视频类型(如:动作电影、奇幻电影、喜剧电影、恐怖电影、冒险电影等)进行动态变化。
通过上述公式计算出每帧图像的空间差序列,并与镜头变换阈值进行比较之后可以对镜头切换进行判断。用于本实施例中即为找出视频流中空间帧差序列满足一定条件的局部最大点,然后根据局部最大点所在的时间点得到镜头变化时序,再根据镜头变化时序筛选获取的图像,进而去除大量字幕重复的图像,以便于降低后续处理工作量。
字幕匹配是否是通过对比判断的,具体的,抽取相邻镜头的第一文本区域进行以下对比:
1)位置对比:相邻两镜头的第一文本区域之间的重叠面积是否达到一定比例,具体的,可将比例设定为0.85;
2)像素强度分布对比:相邻两镜头的第一文本区域的边缘强度值同为0和同不为0的响度总数超过重叠面积的一定比例。
当相邻两镜头同时满足上述两条规则时,则认为两镜头的字幕相同,并将其合并至同一个子集中。判断子集的时间长度,若子集没有持续一定的时间长度,则认为该子集为背景部分或伪文字部分,并将其去除。按照子集的时序使每个子集输出若干二值图像,得到第一文本区域。
步骤S22的目的在于将具有同一字幕的相邻帧合并为一个子集,使后续处理中以子集为单位进行处理,进而降低后续的处理量,同时加快处理进程。
进一步的,如图3-5所示,S3包括:
S31:如图3所示,使用多级边缘检测算法查找第一文本区域中图像的边缘,并输出包含有边缘像素点的二值图像;采用多级边缘检测算法查找第一文本区域中图像的边缘,不仅能够抑制噪声对边缘检测干扰,还能够精确定位图像中边缘的位置,以便于后续处理的进行。
S32:如图4所示,计算S31中二值图像每个边缘像素点的梯度,根据每个边缘像素点梯度查找二值图像中的有效笔画并输出包含有效笔画及笔画宽度的二值图像;
S33:基于S32中的二值图像中像素点的笔画宽度划分连通域,位于同一连通域的笔画为同一字符链;
S34:遍历S33中所有的字符链,并将首尾相接的字符链组合到一起形成文本,该文本的包围矩形范围构成第二文本区域。具体的,设定每个字符链为包括两个节点,遍历图像中所有的字符链,当发现两个字符链的头尾相接时,则将其合并为同一字符链,直至图像中没有任何字符链可以被组合到一起。当字符链长度阈值时,则认定为此字符链为一行(列)文正的文本。
进一步的,S32中,有效笔画中的像素点两两对应,且相对应的两个像素点均为彼此梯度方向上第一个与其梯度方向相反的像素点,相对应的两个像素点之间的宽度为彼此的笔画宽度。具体的,图像中每个像素点的初始宽度为无穷大。计算边缘像素点的梯度,并沿其梯度方向发出的射线进行查找,其遇到的第一个与其梯度方向大致相反的像素点时,则认为找到了一条笔画的两端,则这条射线经过的所有像素点的笔画宽度大于此像素点原有的宽度时,设定相对应的两个像素点之间的宽度为彼此的笔画宽度。如有两点的梯度不能满足要求,则放弃这条射线,直至遍历图像所有的边缘点,查找二值图像中所有的有效笔画。当像素点处于笔画的转角位置时,重新遍历所有有效的射线,并计算其得到的宽度的平均值,如果原值大于平均值,则将其结果重设为平均值。至此输出包含有效笔画及笔画宽度的二值图像。
进一步的,S33中,当相邻两像素点的笔画宽度的比例小于预设阈值时,其属于同一连通域,为同一字符链的笔画。每个连通域中的笔画宽度的变化不应该过大,这样可以将场景中类似树叶的图像过滤掉。具体的,本实施例中取T=3,如此可保证对中文、英文以及一些笔画宽度有较大变化的文字起作用,避免将同一字符链的笔画划分到不同的字符链中。
步骤S3中,笔画的变化如图5所示。
进一步的,S4包括:
S41:遍历第二文本区域,计算各像素点的梯度,并得到梯度纵向投影直方图;具体的,把相同列的梯度值累加,根据每一列的梯度累加值计算斜率,从而求出梯度纵向投影直方图。
S42:根据直方图找到梯度投影波峰波谷对第二文本区域进行一次切分,并对一次切分中较宽的区域进行二次切分,得到单字符图像;具体的,根据直方图的结果找到梯度投影的波峰和波谷,计算相应的峰谷特征值,运用峰谷特征值求出每个波谷的特征量,并画出初始的分割线,即对第二文本区域进行一次切分;为进一步精确切分情况,继续对经一次切分的图像中较宽的区域进行二次切分;具体的,波谷处特征量较少,一般位于相邻字符的间隙处,此处切分能够将第二文本区域切分呈单字符。定义区域宽度正常的标准为字符宽度上下浮动15%。当第一步得到的分割线之间间距明显过大时(即分割线间距超出定义的正常范围),则将该区域归入宽度不正常的区域,并使之进入二次分割。二次切分与初次切分方法的主要区别是初次切分是对所有分割线做运算,而二次切分是只对初次切分后未能分割出来的文字区域的备选分割线做运算,由于二次切分比初次切分更有区域相关性,所以会把初次切分未能分割出来的文字区域分割出来。
S43:对单字符图像进行连通域标记,并清除像素点数目过小的区域,得到处理后的二值化图像;统计每个连通域的像素点数目,设定阈值,如果该连通域中像素点数目过小的话,则将该区域涂成白色,并清除该连通域,以便消除小区域的点噪声,从而得到清洗的二值化图像。
S44:通过OCR识别步骤S43中得到的二值化图像,输出文本,遍历第二文本区域,得到文本集合,完成字幕提取。
进一步的,S42还包括获取切分后各区域在视频流中的原始图片,并根据颜色信息对原始图片进行聚类分析,得到文本的像素信息;通过对比去除切分后各区域的噪点,得到单字符图像。具体的,利用颜色信息进行颜色聚类,由于字幕和背景的颜色不一致,则可以通过聚类将字幕和背景初步区分开来。聚类后,根据各个图层中像素点离文本框中心线的距离进行判断,选择出认为是字幕的图层,然后将其分离出来。最后,对该图层进行优化,通过消除噪声,使字幕更清晰地显现出来,更利于后面的OCR识别。
实施例2:
如图2所示,本实施例公开了一种视频字幕的处理装置,用于实现实施例1中所述的视频字幕的处理方法,包括:
获取模块,用于逐帧处理视频流以得到待识别的图像,所述图像包括多个像素点;
确定模块,用于根据多个像素点,确定所述图像的第一文本区域;
提取模块,用于按照预设规则,从所述第一文本区域中提取出第二文本区域;
识别模块,用于对所述第二文本区域进行识别以获取图像图本;
合成模块,用于根据视频时序合成图像文本,得到视频字幕。
与现有技术相比,本发明所公开的一种视频字幕的处理方法及处理装置具有以下有益效果:
本发明提供的视频字幕的处理方法中首先通过逐帧对视频流中的图像进行多次全局二值化处理,有效地去除了待识别的图像中的噪声,并通过对第二文本区域进行识别来实现图像文本的识别,避免了噪声对图像文本识别的干扰,大大提升了识别的准确率。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种视频字幕的处理方法,其特征在于,包括:
S1:逐帧处理视频流,得到待识别的图像,所述图像中包括多个像素点;
S2:根据多个所述像素点,确定所述图像的第一文本区域;
S3:按照预设规则,从所述第一文本区域中提取第二文本区域;
S4:对所述第二文本区域进行识别以获取图像文本;
S5:按照每帧图像的时序依次排列获取的图像文本,得到视频字幕。
2.根据权利要求1所述的视频字幕的处理方法,其特征在于,S1包括:
S11:采用三色不等权变换策略逐帧处理视频流中的图像,得到灰度图像;
S12:采用阈值法处理灰度图像,得到包括多个像素点的二值化图像。
3.根据权利要求2所述的视频字幕的处理方法,其特征在于,S2包括:
S21:按照8邻域相通的规则对S1中的二值化图像进行连通域标记,同一连通域内的像素点具有相同的标号;
S22:利用启发式规则筛选并去除面积过大或过小的连通域,得到第一文本区域。
4.根据权利要求3所述的视频字幕的处理方法,其特征在于,S22还包括判断相邻帧图像的连通域是否匹配,将相匹配的多帧图像合并成子集;按照子集的时序使每个子集输出若干二值图像,得到第一文本区域。
5.根据权利要求1所述的视频字幕的处理方法,其特征在于,S3包括:
S31:使用多级边缘检测算法查找第一文本区域中图像的边缘,并输出包含有边缘像素点的二值图像;
S32:计算S31中二值图像每个边缘像素点的梯度,根据每个边缘像素点梯度查找二值图像中的有效笔画并输出包含有效笔画及笔画宽度的二值图像;
S33:基于S32中的二值图像中像素点的笔画宽度划分连通域,位于同一连通域的笔画为同一字符链;
S34:遍历S33中所有的字符链,并将首尾相接的字符链组合到一起形成文本,该文本的包围矩形范围构成第二文本区域。
6.根据权利要求5所述的视频字幕的处理方法,其特征在于,S32中,有效笔画中的像素点两两对应,且相对应的两个像素点均为彼此梯度方向上第一个与其梯度方向相反的像素点,相对应的两个像素点之间的宽度为彼此的笔画宽度。
7.根据权利要求6所述的视频字幕的处理方法,其特征在于,S33中,当相邻两像素点的笔画宽度的比例小于预设阈值时,其属于同一连通域,为同一字符链的笔画。
8.根据权利要求7所述的视频字幕的处理方法,其特征在于,S4包括:
S41:遍历第二文本区域,计算各像素点的梯度,并得到梯度纵向投影直方图;
S42:根据直方图中波峰波谷的位置对第二文本区域进行切分,得到单字符图像;
S43:对单字符图像进行连通域标记,并清除像素点数目过小的区域,得到处理后的二值化图像;
S44:通过OCR识别步骤S43中得到的二值化图像,输出文本,遍历第二文本区域,得到文本集合,完成字幕提取。
9.根据权利要求8所述的视频字幕的处理方法,其特征在于,S42还包括获取切分后各区域在视频流中的原始图片,并根据颜色信息对原始图片进行聚类分析,得到文本的像素信息;通过对比去除切分后各区域的噪点,得到单字符图像。
10.一种视频字幕的处理装置,其特征在于,用于实现权利要求1-9中任意一项所述的视频字幕的处理方法,包括:
获取模块,用于逐帧处理视频流以得到待识别的图像,所述图像包括多个像素点;
确定模块,用于根据多个像素点,确定所述图像的第一文本区域;
提取模块,用于按照预设规则,从所述第一文本区域中提取出第二文本区域;
识别模块,用于对所述第二文本区域进行识别以获取图像图本;
合成模块,用于根据视频时序合成图像文本,得到视频字幕。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011407492.8A CN112488107A (zh) | 2020-12-04 | 2020-12-04 | 一种视频字幕的处理方法及处理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011407492.8A CN112488107A (zh) | 2020-12-04 | 2020-12-04 | 一种视频字幕的处理方法及处理装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112488107A true CN112488107A (zh) | 2021-03-12 |
Family
ID=74939467
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011407492.8A Pending CN112488107A (zh) | 2020-12-04 | 2020-12-04 | 一种视频字幕的处理方法及处理装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112488107A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113435438A (zh) * | 2021-06-28 | 2021-09-24 | 中国兵器装备集团自动化研究所有限公司 | 一种图像和字幕融合的视频报幕板提取及视频切分方法 |
CN113920507A (zh) * | 2021-12-13 | 2022-01-11 | 成都索贝数码科技股份有限公司 | 一种针对新闻场景的滚动字幕提取方法 |
CN114071184A (zh) * | 2021-11-11 | 2022-02-18 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种字幕定位方法、电子设备及介质 |
Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6580437B1 (en) * | 2000-06-26 | 2003-06-17 | Siemens Corporate Research, Inc. | System for organizing videos based on closed-caption information |
CN1543096A (zh) * | 2003-04-30 | 2004-11-03 | ���µ�����ҵ��ʽ���� | 自动检测电视广告的装置及其方法 |
CN101515325A (zh) * | 2009-04-08 | 2009-08-26 | 北京邮电大学 | 基于字符切分和颜色聚类的数字视频中的字符提取方法 |
CN102332096A (zh) * | 2011-10-17 | 2012-01-25 | 中国科学院自动化研究所 | 一种视频字幕文本提取和识别的方法 |
CN103313090A (zh) * | 2012-03-16 | 2013-09-18 | 腾讯科技(深圳)有限公司 | 一种离线下载视频文件的方法、系统 |
CN103426176A (zh) * | 2013-08-27 | 2013-12-04 | 重庆邮电大学 | 基于改进直方图和聚类算法的视频镜头检测方法 |
CN103425973A (zh) * | 2012-05-25 | 2013-12-04 | 夏普株式会社 | 对含有文本的图像进行增强处理的方法、装置和视频显示设备 |
CN103970892A (zh) * | 2014-05-23 | 2014-08-06 | 无锡清华信息科学与技术国家实验室物联网技术中心 | 基于智能家居设备的多维度观影系统控制方法 |
CN104244107A (zh) * | 2014-08-26 | 2014-12-24 | 中译语通科技(北京)有限公司 | 一种基于字幕检测与识别的视频字幕还原方法 |
CN104751142A (zh) * | 2015-04-01 | 2015-07-01 | 电子科技大学 | 一种基于笔划特征的自然场景文本检测算法 |
CN106127118A (zh) * | 2016-06-15 | 2016-11-16 | 珠海迈科智能科技股份有限公司 | 一种英语单词识别方法和装置 |
CN106295592A (zh) * | 2016-08-17 | 2017-01-04 | 北京金山安全软件有限公司 | 一种媒体文件字幕的识别方法、装置及电子设备 |
CN107133929A (zh) * | 2017-04-27 | 2017-09-05 | 湖北工业大学 | 基于背景估计和能量最小化的低质量文档图像二值化方法 |
CN108038481A (zh) * | 2017-12-11 | 2018-05-15 | 江苏科技大学 | 一种结合最大极值稳定区域和笔画宽度变化的文本定位方法 |
CN108924644A (zh) * | 2018-06-20 | 2018-11-30 | 北京优酷科技有限公司 | 视频片段提取方法及装置 |
US20190215421A1 (en) * | 2018-01-05 | 2019-07-11 | Netflix, Inc. | Detecting errors in the timing between subtitles and shot changes |
CN111783709A (zh) * | 2020-07-09 | 2020-10-16 | 中国科学技术大学 | 针对教育视频的信息预测方法及装置 |
-
2020
- 2020-12-04 CN CN202011407492.8A patent/CN112488107A/zh active Pending
Patent Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6580437B1 (en) * | 2000-06-26 | 2003-06-17 | Siemens Corporate Research, Inc. | System for organizing videos based on closed-caption information |
CN1543096A (zh) * | 2003-04-30 | 2004-11-03 | ���µ�����ҵ��ʽ���� | 自动检测电视广告的装置及其方法 |
CN101515325A (zh) * | 2009-04-08 | 2009-08-26 | 北京邮电大学 | 基于字符切分和颜色聚类的数字视频中的字符提取方法 |
CN102332096A (zh) * | 2011-10-17 | 2012-01-25 | 中国科学院自动化研究所 | 一种视频字幕文本提取和识别的方法 |
CN103313090A (zh) * | 2012-03-16 | 2013-09-18 | 腾讯科技(深圳)有限公司 | 一种离线下载视频文件的方法、系统 |
CN103425973A (zh) * | 2012-05-25 | 2013-12-04 | 夏普株式会社 | 对含有文本的图像进行增强处理的方法、装置和视频显示设备 |
CN103426176A (zh) * | 2013-08-27 | 2013-12-04 | 重庆邮电大学 | 基于改进直方图和聚类算法的视频镜头检测方法 |
CN103970892A (zh) * | 2014-05-23 | 2014-08-06 | 无锡清华信息科学与技术国家实验室物联网技术中心 | 基于智能家居设备的多维度观影系统控制方法 |
CN104244107A (zh) * | 2014-08-26 | 2014-12-24 | 中译语通科技(北京)有限公司 | 一种基于字幕检测与识别的视频字幕还原方法 |
CN104751142A (zh) * | 2015-04-01 | 2015-07-01 | 电子科技大学 | 一种基于笔划特征的自然场景文本检测算法 |
CN106127118A (zh) * | 2016-06-15 | 2016-11-16 | 珠海迈科智能科技股份有限公司 | 一种英语单词识别方法和装置 |
CN106295592A (zh) * | 2016-08-17 | 2017-01-04 | 北京金山安全软件有限公司 | 一种媒体文件字幕的识别方法、装置及电子设备 |
CN107133929A (zh) * | 2017-04-27 | 2017-09-05 | 湖北工业大学 | 基于背景估计和能量最小化的低质量文档图像二值化方法 |
CN108038481A (zh) * | 2017-12-11 | 2018-05-15 | 江苏科技大学 | 一种结合最大极值稳定区域和笔画宽度变化的文本定位方法 |
US20190215421A1 (en) * | 2018-01-05 | 2019-07-11 | Netflix, Inc. | Detecting errors in the timing between subtitles and shot changes |
CN108924644A (zh) * | 2018-06-20 | 2018-11-30 | 北京优酷科技有限公司 | 视频片段提取方法及装置 |
CN111783709A (zh) * | 2020-07-09 | 2020-10-16 | 中国科学技术大学 | 针对教育视频的信息预测方法及装置 |
Non-Patent Citations (7)
Title |
---|
JINGYI WANG ET AL: "Text Detection of Clinical Medical Documents Based on SWT Algorithm", 《CSAE2020》 * |
刁月华: "网络视频字幕提取识别系统的设计与实现", 《万方》 * |
孙锴著: "《基于系统图谱的复杂机电系统状态分析方法》", 31 August 2016 * |
张加雪等: "《智慧船闸》", 31 December 2018 * |
李瑞玉著: "《基于文化差异背景下的英汉翻译研究》", 31 March 2020 * |
江伟: "机器视觉图像中目标识别及处理方法研究", 《万方》 * |
陈威: "基于字符切分和无监督聚类的视频字幕提取方法", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113435438A (zh) * | 2021-06-28 | 2021-09-24 | 中国兵器装备集团自动化研究所有限公司 | 一种图像和字幕融合的视频报幕板提取及视频切分方法 |
CN114071184A (zh) * | 2021-11-11 | 2022-02-18 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种字幕定位方法、电子设备及介质 |
CN113920507A (zh) * | 2021-12-13 | 2022-01-11 | 成都索贝数码科技股份有限公司 | 一种针对新闻场景的滚动字幕提取方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112488107A (zh) | 一种视频字幕的处理方法及处理装置 | |
US7327882B2 (en) | Method and device for character location in images from digital camera | |
Shivakumara et al. | A laplacian approach to multi-oriented text detection in video | |
KR101452562B1 (ko) | 비디오 이미지에서 텍스트를 검출하는 방법 | |
US7379594B2 (en) | Methods and systems for automatic detection of continuous-tone regions in document images | |
US8027550B2 (en) | Image-document retrieving apparatus, method of retrieving image document, program, and recording medium | |
US20060008147A1 (en) | Apparatus, medium, and method for extracting character(s) from an image | |
EP1146478A2 (en) | A method for extracting titles from digital images | |
Shivakumara et al. | An efficient edge based technique for text detection in video frames | |
CN107590447A (zh) | 一种文字标题识别方法及装置 | |
JP5067310B2 (ja) | 字幕領域抽出装置、字幕領域抽出方法および字幕領域抽出プログラム | |
US10395393B2 (en) | Method for assessing the quality of an image of a document | |
Shivakumara et al. | Video text detection based on filters and edge features | |
US9167129B1 (en) | Method and apparatus for segmenting image into halftone and non-halftone regions | |
Anthimopoulos et al. | A hybrid system for text detection in video frames | |
CN113032631A (zh) | 一种基于全局运动统计特征的团队体育视频关键帧提取方法 | |
US20040161152A1 (en) | Automatic natural content detection in video information | |
Zhang et al. | A new edge-based text verification approach for video | |
Arai et al. | Text extraction from TV commercial using blob extraction method | |
Roy et al. | Temporal integration for word-wise caption and scene text identification | |
Gllavata et al. | Finding text in images via local thresholding | |
Jamil et al. | Local statistical features for multilingual artificial text detection from video images | |
CN112487245A (zh) | 一种基于视频内容的分类聚合方法及装置 | |
Chowdhury et al. | Robust extraction of text from camera images | |
Chen et al. | Video-text extraction and recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210312 |
|
RJ01 | Rejection of invention patent application after publication |