CN113920507A - 一种针对新闻场景的滚动字幕提取方法 - Google Patents

一种针对新闻场景的滚动字幕提取方法 Download PDF

Info

Publication number
CN113920507A
CN113920507A CN202111513669.7A CN202111513669A CN113920507A CN 113920507 A CN113920507 A CN 113920507A CN 202111513669 A CN202111513669 A CN 202111513669A CN 113920507 A CN113920507 A CN 113920507A
Authority
CN
China
Prior art keywords
caption
rolling
text
frame
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111513669.7A
Other languages
English (en)
Other versions
CN113920507B (zh
Inventor
李志强
陆维琛
陈尧森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Sobey Digital Technology Co Ltd
Original Assignee
Chengdu Sobey Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Sobey Digital Technology Co Ltd filed Critical Chengdu Sobey Digital Technology Co Ltd
Priority to CN202111513669.7A priority Critical patent/CN113920507B/zh
Publication of CN113920507A publication Critical patent/CN113920507A/zh
Application granted granted Critical
Publication of CN113920507B publication Critical patent/CN113920507B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Television Signal Processing For Recording (AREA)
  • Studio Circuits (AREA)

Abstract

本发明公开了一种针对新闻场景的滚动字幕提取方法,所述滚动字幕提取方法至少包括步骤:S1:提取待处理新闻视频中的文本并进行位置编码和内容编码;S2:基于文本的位置和内容编码对所得文本进行预处理;S3:构建约束条件并从预处理后的文本中确定是否存在滚动字幕;S4:确定滚动字幕的位置信息和起始时间;S5:基于垂直边缘特征最小差的平方和进行字幕跟踪与拼接。通过文字检测和识别,以及图像处理相关算法,使得本发明对新闻视频中滚动字幕准确定位和识别。本发明可有效地提升新闻视频的编辑效率,减少人工成本。

Description

一种针对新闻场景的滚动字幕提取方法
技术领域
本发明属于电视新闻制作领域,涉及图像处理和分析,尤其涉及一种针对新闻场景的滚动字幕提取方法。
背景技术
随着网络技术的发展,数字视频的普及,融媒体的兴起,视频数据的处理和分析技术变得越来越重要。在视频数据处理中,对新闻视频的滚动字幕定位和分析,显得尤为重要。
滚动字幕主要用来补充阐述一些新闻事件或者某种现象,每段滚动字幕描述的信息都对应了视频中一段较为完整的信息,对于滚动字幕的定位和识别,对视屏信息挖掘、检索等领域研究有重要的价值。
并且,在一些特定的新闻电视制作场景中,需要对一档长时间的新闻视频进行拆分,拆分为多段时间较短的且完整的视频,在这个过程中,滚动字幕大多数时间作为一个独立的事件存在,为了和其他拆开,需要对滚动字幕进行定位和识别,以排除拆条之后的干扰。
由于电视新闻制作过程中有大量的素材,若通过人工的方式对滚动字幕进行提取需要很高的人力成本。因此,亟需一种针对新闻制作过程中的滚动字幕定位和识别方法,以便能大大节省人力成本。
发明内容
本发明的目的在于,为克服现有技术缺陷,提供了一种针对新闻场景的滚动字幕提取方法,本发明方法在给定的电视新闻节目的视频中,定位整个视频中滚动字幕的起始时间点以及视频中滚动字幕的位置信息,并通过去重后提取完整的滚动字幕进行识别。
本发明目的通过下述技术方案来实现:
一种针对新闻场景的滚动字幕提取方法,所述滚动字幕提取方法至少包括步骤:S1:提取待处理新闻视频中的文本并进行位置编码和内容编码;S2:基于文本的位置和内容编码对所得文本进行预处理;S3:构建约束条件并从预处理后的文本中确定是否存在滚动字幕;S4:确定滚动字幕的位置信息和起始时间;S5:基于垂直边缘特征最小差的平方和进行字幕跟踪与拼接。
根据一个优选的实施方式,步骤S1具体为:S101:使用文本检测算法检测视频各帧画面中文本内容的位置,将获得的位置信息作为对应画面的文本位置编码;S102:使用文本识别算法对各帧画面中的文本位置的图像进行识别,识别出的文本内容作为文本内容编码;S103:将新闻视频中各视频帧的编号及其中包含的文本位置编码和内容编码按预设格式存放,作为所述新闻视频文本内容的位置和内容编码。
根据一个优选的实施方式,步骤S2具体为:基于位置编码对各视频帧内文本进行预处理,将被误分为两条文本的文本基于位置编码将两端文本重新合成为一条文本。
根据一个优选的实施方式,步骤S3中构建约束条件为:S301:根据前后两帧滚动字幕框字符内容的相似度特性,构建算法对滚动字幕框进行初步召回;S302:在初步召回基础上,根据前后两帧滚动字幕框的交并比特征,构建算法对滚动字幕框做进一步召回。
根据一个优选的实施方式,步骤S301中,构建算法对滚动字幕框进行初步召回为:构建相似度算法对滚动字幕框进行初步召回,所述相似度算法具体为:
首先定义总字符数T,表示两个字幕框中字符数的总数,然后定义M,表示两个滚动字幕框中相同字符数的个数,则相似度为:
Figure 61130DEST_PATH_IMAGE001
步骤S302中,前后两帧滚动字幕框的交并比为:
Figure 798142DEST_PATH_IMAGE002
,其中,A、B分别表示两个滚动字幕框的面积。
根据一个优选的实施方式,步骤S4中确定滚动字幕的起始时间为:当前后两帧中字幕框IOU落于预设阈值区间内时,确定当前帧可能存在滚动字幕,用标志为1表示,否则标志为0,并记录滚动字幕框的坐标信息;然后通过长度为L的滑动窗口以S 帧为步长遍历标志信息序列,从而确定滚动字幕的起始时间点。
根据一个优选的实施方式,步骤S4中确定滚动字幕的位置信息为:滚动字幕左上角和右下角坐标分别用(x1, y1)、(x2,y2)表示,滚动字幕左上角和右下角坐标分别用(x1,y1)、(x2,y2)表示,滚动字幕左上角x1为默认值0,滚动字幕框的左上角坐标的y1值为视频帧图片的高度减去字幕的高度;滚动字幕右下角X2值为视频帧图片的宽度值;滚动字幕右下角 y2值设置为视频帧图片的高度值。
根据一个优选的实施方式,步骤S5具体为:S501:计算相邻字幕条在各偏移值下垂直边缘特征差的平方和,取平方和的最小值作为相邻字幕的偏移量,从而实现字幕的跟踪;S502:确定出位于相同连续帧中的同一字幕区间后,基于同一字幕区间在多帧中的字幕信息,对所述同一字幕区间进行字幕增强,最终采用拼接法,获取完整的、无重复区域的滚动字幕条。
前述本发明主方案及其各进一步选择方案可以自由组合以形成多个方案,均为本发明可采用并要求保护的方案。本领域技术人员在了解本发明方案后根据现有技术和公知常识可明了有多种组合,均为本发明所要保护的技术方案,在此不做穷举。
本发明的有益效果:本发明针对新闻视频场景中滚动字幕的特性,提供了一种针对新闻场景的滚动字幕提取方法,通过文字检测和识别,以及图像处理相关算法,使得本发明对新闻视频中滚动字幕准确定位和识别。本发明可有效地提升新闻视频的编辑效率,减少人工成本。
附图说明
图1是本发明方法某一实施例的流程示意图;
图2是本发明方法字幕跟踪示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,为使本发明实施例的目的、技术方案和优点更加清楚,下面对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。
实施例1:
参考图1所示,本实施例公开了一种针对新闻场景的滚动字幕提取方法,所述滚动字幕提取方法至少包括步骤:
步骤S1:提取待处理新闻视频中的文本并进行位置编码和内容编码。
具体地,步骤S1具体为:
S101:首先对视频进行抽帧,抽帧频率为每10帧抽取1帧。对抽取的帧图片,使用文本检测算法,检测各帧画面中文本内容的位置,该位置信息作为对应画面的文本位置编码。文本检测算法使用开源的DB文本检测算法。
S102:使用文本识别算法对各帧画面中的文本位置的图像进行识别,识别出的文本内容作为文本内容编码。文本识别算法使用CRNN算法进行训练后得到。
S103:将新闻视频中各视频帧的编号及其中包含的文本位置(x1,y1, x2, y2)和内容编码按一定格式存放,作为所述新闻视频文本内容的位置和内容编码。存放格式依次为:帧序号,x1,y1, x2, y2 文本内容。
步骤S2:基于文本的位置和内容编码对所得文本进行预处理;
步骤S2具体为:基于位置编码对各视频帧内文本进行预处理,将被误分为两条文本的文本基于位置编码将两端文本重新合成为一条文本。
具体的,文本检测模块可能将本该连在一起的文本检测为两条文本,因此需要基于位置编码将两端文本重新合成一条文本。首先,对处于同一高度的字幕框进行提取,并且计算相邻字幕框的在x轴的距离dis;然后判断dis值大小是否小于两个字符宽度(word_height),如果小于,则融合两个滚动字幕框为单个滚动字幕框。此处的word_height可以表示为y2和y1的差值。其中,
Figure DEST_PATH_IMAGE003
步骤S3:构建约束条件并从预处理后的文本中确定是否存在滚动字幕。具体地,构建约束条件即是通过构建对前后两帧滚动字幕框内容的相似度算法以及构建两个滚动字幕框的交并比算法完成对滚动字幕框的召回。从而,确定哪些字幕框可能属于滚动字幕框。
优选地,步骤S3中构建约束条件为:
S301:根据前后两帧滚动字幕框字符内容的相似度特性,构建算法对滚动字幕框进行初步召回。
步骤S301中,构建算法对滚动字幕框进行初步召回为:构建相似度算法对滚动字幕框进行初步召回,所述相似度算法具体为:
首先定义总字符数T,表示两个字幕框中字符数的总数,然后定义M,表示两个滚动字幕框中相同字符数的个数,则相似度为:
Figure 196894DEST_PATH_IMAGE001
两个字幕框中字符相似度达到预先设定的阈值时(本发明设为0.9),表示两个字幕框中的文字内容非常接近。由于滚动字幕本身的特征可知,在前后相隔时间较短的情况下,滚动字幕出现在屏幕上的内容是非常相似的(仅仅新增了滚动出来的少许文字内容)。所以判断前后帧字幕内容的相似度,可以初步对滚动字幕框进行召回,即初步确定哪些字幕框可能属于滚动字幕框。
S302:在初步召回基础上,根据前后两帧滚动字幕框的交并比特征,构建算法对滚动字幕框做进一步召回。总体来说,两个滚动字幕框的交并比可以由如下公式表示,其中A、B分别表示两个滚动字幕框的面积:
Figure 626738DEST_PATH_IMAGE002
根据内容相似度初步召回滚动字幕框,可能存在两个框都不属于滚动字幕,仅仅是因为内容相同或者相似。为了排除这一问题,基于交并比,来进行初步召回。具体的,根据滚动字幕特性可知,相隔时间较短的前后两帧中的滚动字幕都出现在屏幕的相同位置,只是字幕文字长度不同,所以字幕框的长短不同。这就导致两个滚动字幕框存在较大的交叉重叠部分。此处的交叉重叠可以用IOU来表征。在内容相似度前提下,IOU高于某个阈值(本发明专利根据多次实验后设定为0.9),那么这两个字幕框便一定是滚动字幕。值得注意的是,如果仅仅通过IOU来判断是否是滚动字幕框,是不可行的,因为新闻场景中存在互相重叠的背景字幕框干扰;如果仅仅通过文字内容相似度判定是否是滚动字幕框,也是不可行的,因为新闻场景中在其他位置可能相同内容的文字框。
例如,为了进一步计算字幕框的面积A、B, 定义滚动字幕框1左上角和右下角坐标分别为(x11, y11)、(x12, y12);滚动字幕框2左上角和右下角坐标分别为(x21, y21)、(x22,y22)。伪代码如下:
xA = max(x11,x21)
yA = max(y11,y21)
xB = min(x12,x22)
yB = min(y12,y22)
# 两个框各自的面积
boxAArea=(x12-x11)*(y12-y11)
boxBArea=(x22-x21)*(y22-y21)
# 重叠面积
interArea=max(xB-xA,0)*max(yB-yA,0)
# 计算IOU
iou = interArea/(boxAArea+boxBArea-interArea)
步骤S4:确定滚动字幕的位置信息和起始时间。
S401:确定滚动字幕的起始时间。
首先根据前后两帧滚动字幕框坐标的交并比(IOU)小于某较大临界阈值的位置特性,当前后两帧中字幕框IOU落于此阈值区间内,确定当前帧可能存在滚动字幕,用标志为1表示(否则标志为0),并且记录滚动字幕框的坐标信息。然后通过长度为L的滑动窗口以S帧为步长遍历标志信息序列,当滑动窗口L划过标志信息序列时,此时滑动窗口总和大于L*threshold_start,从而确定滚动字幕的开始时间点;如果滑动窗口总和小于L *threshold_end, 从而确定滚动字幕结束时间点。本发明中,threshold_start和threshold_end 分别取值为0.9和1/32,为实际测试中最佳效果所取得的值。
S402:确定滚动字幕出现位置。
滚动字幕左上角和右下角坐标分别用(x1, y1)、(x2,y2)表示。由于新闻视频中,滚动字幕一般位于视频底部,滚动字幕长度接近视频帧图像的宽度。因此,滚动字幕左上角x1设置为默认值0;由于滚动字幕一般都是紧贴视频帧底部,所以确定滚动字幕框的左上角坐标的y1值为视频帧图片的高度减去字幕的高度。滚动字幕右下角X2值设置为视频帧图片的宽度值;滚动字幕右下角 y2值设置为视频帧图片的高度值。
步骤S5:基于垂直边缘特征最小差的平方和进行字幕跟踪与拼接。
进一步地,步骤S5具体为:
S501:计算相邻字幕条在各偏移值下垂直边缘特征差的平方和,取平方和的最小值作为相邻字幕的偏移量,从而实现字幕的跟踪。
例如,图2示出了对视频中滚动字幕条Ri的跟踪示意图,Caption为视频中一条完整的滚动字幕,总长度为Length;以完整字幕caption作为位置参考,其左边界对应坐标原点,右边界对应坐标点Length;Ri(1≤i≤m)为从视频帧集C中依次提取到的滚动字幕条;字幕条Ri的左边界、右边界坐标分别为lefti、righti;lengthi为字幕条Ri的长度, heighti为字幕条Ri的高度。字幕跟踪过程即确定滚动字幕Ri的左边界坐标lefti和右边界righti的过程。本发明在边缘检测的基础上,通过计算相邻字幕条之间垂直边缘特征的最小差的平方和,实现滚动字幕的跟踪。
具体的:
从字幕条Rk(1≤k≤m)所在的视频帧fp的边缘特征矩阵Matrix中,提取字幕区域的边缘特征,记作
Figure 868363DEST_PATH_IMAGE004
。对字幕条Rk的边缘特征图像,在垂直方向上进行边缘点个数统计,也就是字幕的垂直边缘特征,用矩阵
Figure 143487DEST_PATH_IMAGE005
表示。
其中,
Figure 662324DEST_PATH_IMAGE006
;其中,heightk、lengthk分别为字幕条Rk的高度和长度。
根据视频字幕滚动的特征,相邻帧之间的字幕偏移量d满足wch<d<width/2, 其中wch、width分别表示字幕中汉字字符的宽度、字幕条Ri的最大宽度,其中汉字字符的宽度wch可以用字幕区域的高度height近似代替。
字幕跟踪的过程描述为:
(1)字幕条R1的左右端点坐标分别为left1 = 0;right1 = length1
(2)设字幕条Rk的左右端点坐标分别为leftk、rightk, 字幕条的中点距离左端点的长度为Midk = rightk - leftk / 2, 字幕的垂直边缘特征矩阵为:
Figure 997491DEST_PATH_IMAGE007
(3)取字幕条Rk+1的[0, Midk]片段的垂直边缘特征
Figure 726412DEST_PATH_IMAGE008
与字幕条Rk的[p, p+Midk],(0≤p≤Midk)区间的垂直边缘特征
Figure 805227DEST_PATH_IMAGE009
依次求其差的平方和SS,当SS达到最小时,p的取值即为字幕条Rk+1左端leftk+1在字幕条Rk上的相对位置。可表达为:
Figure 303204DEST_PATH_IMAGE010
Figure 74851DEST_PATH_IMAGE011
(4)根据算法迭代,依次计算所有字幕条的左右端点,从而实现字幕的跟踪。
步骤S502:对视频中滚动字幕进行跟踪后,可确定出位于相同连续帧中的同一字幕区域,基于同一字幕区间在多帧中的字幕信息,对所述同一字幕区间进行字幕增强;最终采用拼接法, 获取完整的、无重复区域的滚动字幕条Caption。最后将该滚动字幕条从去进行ocr文字识别,得到最终的滚动字幕识别结果。
本发明针对新闻视频场景中滚动字幕的特性,提供了一种针对新闻场景的滚动字幕提取方法,通过文字检测和识别,以及图像处理相关算法,使得本发明对新闻视频中滚动字幕准确定位和识别。本发明可有效地提升新闻视频的编辑效率,减少人工成本。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种针对新闻场景的滚动字幕提取方法,其特征在于,所述滚动字幕提取方法至少包括步骤:
S1:提取待处理新闻视频中的文本并进行位置编码和内容编码;
S2:基于文本的位置和内容编码对所得文本进行预处理;
S3:构建约束条件并从预处理后的文本中确定是否存在滚动字幕;
S4:确定滚动字幕的位置信息和起始时间;
S5:基于垂直边缘特征最小差的平方和进行字幕跟踪与拼接。
2.如权利要求1所述的滚动字幕提取方法,其特征在于,步骤S1具体为:
S101:使用文本检测算法检测视频各帧画面中文本内容的位置,将获得的位置信息作为对应画面的文本位置编码;
S102:使用文本识别算法对各帧画面中的文本位置的图像进行识别,识别出的文本内容作为文本内容编码;
S103:将新闻视频中各视频帧的编号及其中包含的文本位置编码和内容编码按预设格式存放,作为所述新闻视频文本内容的位置和内容编码。
3.如权利要求1所述的滚动字幕提取方法,其特征在于,步骤S2具体为:
基于位置编码对各视频帧内文本进行预处理,将被误分为两条文本的文本基于位置编码将两端文本重新合成为一条文本。
4.如权利要求1所述的滚动字幕提取方法,其特征在于,步骤S3中构建约束条件为:
S301:根据前后两帧滚动字幕框字符内容的相似度特性,构建算法对滚动字幕框进行初步召回;
S302:在初步召回基础上,根据前后两帧滚动字幕框的交并比特征,构建算法对滚动字幕框做进一步召回。
5.如权利要求4所述的滚动字幕提取方法,其特征在于,步骤S301中,构建算法对滚动字幕框进行初步召回为:构建相似度算法对滚动字幕框进行初步召回;
所述相似度算法具体为:
首先定义总字符数T,表示两个字幕框中字符数的总数,然后定义M,表示两个滚动字幕框中相同字符数的个数,则相似度为:
Figure 352622DEST_PATH_IMAGE001
步骤S302中,前后两帧滚动字幕框的交并比为:
Figure 345986DEST_PATH_IMAGE002
其中,A、B分别表示两个滚动字幕框的面积。
6.如权利要求5所述的滚动字幕提取方法,其特征在于,步骤S4中确定滚动字幕的起始时间为:
当前后两帧中字幕框IOU落于预设阈值区间内时,确定当前帧存在滚动字幕,用标志为1表示,否则标志为0,并记录滚动字幕框的坐标信息;
然后通过长度为L的滑动窗口以S 帧为步长遍历标志信息序列,从而确定滚动字幕的起始时间点。
7.如权利要求6所述的滚动字幕提取方法,其特征在于,步骤S4中确定滚动字幕的位置信息为:
滚动字幕左上角和右下角坐标分别用(x1, y1)、(x2,y2)表示,滚动字幕左上角x1为默认值0,滚动字幕框的左上角坐标的y1值为视频帧图片的高度减去字幕的高度;滚动字幕右下角X2值为视频帧图片的宽度值;滚动字幕右下角 y2值设置为视频帧图片的高度值。
8.如权利要求1所述的滚动字幕提取方法,其特征在于,步骤S5具体为:
S501:计算相邻字幕条在各偏移值下垂直边缘特征差的平方和,取平方和的最小值作为相邻字幕的偏移量,从而实现字幕的跟踪;
S502:确定出位于相同连续帧中的同一字幕区间后,基于同一字幕区间在多帧中的字幕信息,对所述同一字幕区间进行字幕增强,最终采用拼接法,获取完整的、无重复区域的滚动字幕条。
CN202111513669.7A 2021-12-13 2021-12-13 一种针对新闻场景的滚动字幕提取方法 Active CN113920507B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111513669.7A CN113920507B (zh) 2021-12-13 2021-12-13 一种针对新闻场景的滚动字幕提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111513669.7A CN113920507B (zh) 2021-12-13 2021-12-13 一种针对新闻场景的滚动字幕提取方法

Publications (2)

Publication Number Publication Date
CN113920507A true CN113920507A (zh) 2022-01-11
CN113920507B CN113920507B (zh) 2022-04-12

Family

ID=79248582

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111513669.7A Active CN113920507B (zh) 2021-12-13 2021-12-13 一种针对新闻场景的滚动字幕提取方法

Country Status (1)

Country Link
CN (1) CN113920507B (zh)

Citations (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060061687A1 (en) * 2004-09-23 2006-03-23 Dunton Randy R Screen filled display of digital video content
US20060104612A1 (en) * 2004-11-12 2006-05-18 Shyang Wang J Scrolling subtitle detecting device and method
CN101835011A (zh) * 2009-03-11 2010-09-15 华为技术有限公司 字幕检测方法及装置、背景恢复方法及装置
CN101853381A (zh) * 2009-03-31 2010-10-06 华为技术有限公司 视频字幕信息获取方法及装置
CN102331990A (zh) * 2010-12-22 2012-01-25 四川大学 一种基于字幕提取的新闻视频检索方法
CN102572290A (zh) * 2011-12-09 2012-07-11 上海高清数字科技产业有限公司 2-2电影模式的检测及处理方法
CN103856689A (zh) * 2013-10-31 2014-06-11 北京中科模识科技有限公司 面向新闻视频的人物对话字幕提取方法
CN104244073A (zh) * 2014-09-26 2014-12-24 北京大学 一种视频中滚动字幕的自动检测和识别方法
CN104735521A (zh) * 2015-03-30 2015-06-24 北京奇艺世纪科技有限公司 一种滚动字幕检测方法及装置
CN104754179A (zh) * 2013-12-31 2015-07-01 澜起科技(上海)有限公司 动态图像中的静态特征信息的全自动检测方法及系统
CN105282475A (zh) * 2014-06-27 2016-01-27 澜起科技(上海)有限公司 移动字幕检测与补偿方法及系统
KR101848467B1 (ko) * 2016-10-17 2018-04-12 임민우 디지털 콘텐츠를 활용한 음성 인식 데이터 베이스 구축 시스템
CN108322800A (zh) * 2017-01-18 2018-07-24 阿里巴巴集团控股有限公司 字幕信息处理方法及装置
CN108810601A (zh) * 2017-05-04 2018-11-13 福州瑞芯微电子股份有限公司 运动字幕解交织方法、系统、移动终端及可读存储介质
CN109614604A (zh) * 2018-12-17 2019-04-12 北京百度网讯科技有限公司 字幕处理方法、装置及存储介质
CN111582241A (zh) * 2020-06-01 2020-08-25 腾讯科技(深圳)有限公司 视频字幕识别方法、装置、设备及存储介质
CN111931775A (zh) * 2020-09-28 2020-11-13 成都索贝数码科技股份有限公司 自动获取新闻标题方法、系统、计算机设备及存储介质
CN112232260A (zh) * 2020-10-27 2021-01-15 腾讯科技(深圳)有限公司 字幕区域识别方法、装置、设备及存储介质
CN112488107A (zh) * 2020-12-04 2021-03-12 北京华录新媒信息技术有限公司 一种视频字幕的处理方法及处理装置
CN112954455A (zh) * 2021-02-22 2021-06-11 北京奇艺世纪科技有限公司 一种字幕跟踪方法、装置及电子设备
CN113343986A (zh) * 2021-06-29 2021-09-03 北京奇艺世纪科技有限公司 字幕时间区间确定方法、装置、电子设备及可读存储介质
CN113727176A (zh) * 2021-08-30 2021-11-30 杭州国芯科技股份有限公司 一种视频运动字幕检测方法

Patent Citations (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060061687A1 (en) * 2004-09-23 2006-03-23 Dunton Randy R Screen filled display of digital video content
US20060104612A1 (en) * 2004-11-12 2006-05-18 Shyang Wang J Scrolling subtitle detecting device and method
CN101835011A (zh) * 2009-03-11 2010-09-15 华为技术有限公司 字幕检测方法及装置、背景恢复方法及装置
CN101853381A (zh) * 2009-03-31 2010-10-06 华为技术有限公司 视频字幕信息获取方法及装置
CN102331990A (zh) * 2010-12-22 2012-01-25 四川大学 一种基于字幕提取的新闻视频检索方法
CN102572290A (zh) * 2011-12-09 2012-07-11 上海高清数字科技产业有限公司 2-2电影模式的检测及处理方法
CN103856689A (zh) * 2013-10-31 2014-06-11 北京中科模识科技有限公司 面向新闻视频的人物对话字幕提取方法
CN104754179A (zh) * 2013-12-31 2015-07-01 澜起科技(上海)有限公司 动态图像中的静态特征信息的全自动检测方法及系统
CN105282475A (zh) * 2014-06-27 2016-01-27 澜起科技(上海)有限公司 移动字幕检测与补偿方法及系统
CN104244073A (zh) * 2014-09-26 2014-12-24 北京大学 一种视频中滚动字幕的自动检测和识别方法
CN104735521A (zh) * 2015-03-30 2015-06-24 北京奇艺世纪科技有限公司 一种滚动字幕检测方法及装置
KR101848467B1 (ko) * 2016-10-17 2018-04-12 임민우 디지털 콘텐츠를 활용한 음성 인식 데이터 베이스 구축 시스템
CN108322800A (zh) * 2017-01-18 2018-07-24 阿里巴巴集团控股有限公司 字幕信息处理方法及装置
CN108810601A (zh) * 2017-05-04 2018-11-13 福州瑞芯微电子股份有限公司 运动字幕解交织方法、系统、移动终端及可读存储介质
CN109614604A (zh) * 2018-12-17 2019-04-12 北京百度网讯科技有限公司 字幕处理方法、装置及存储介质
CN111582241A (zh) * 2020-06-01 2020-08-25 腾讯科技(深圳)有限公司 视频字幕识别方法、装置、设备及存储介质
CN111931775A (zh) * 2020-09-28 2020-11-13 成都索贝数码科技股份有限公司 自动获取新闻标题方法、系统、计算机设备及存储介质
CN112232260A (zh) * 2020-10-27 2021-01-15 腾讯科技(深圳)有限公司 字幕区域识别方法、装置、设备及存储介质
CN112488107A (zh) * 2020-12-04 2021-03-12 北京华录新媒信息技术有限公司 一种视频字幕的处理方法及处理装置
CN112954455A (zh) * 2021-02-22 2021-06-11 北京奇艺世纪科技有限公司 一种字幕跟踪方法、装置及电子设备
CN113343986A (zh) * 2021-06-29 2021-09-03 北京奇艺世纪科技有限公司 字幕时间区间确定方法、装置、电子设备及可读存储介质
CN113727176A (zh) * 2021-08-30 2021-11-30 杭州国芯科技股份有限公司 一种视频运动字幕检测方法

Non-Patent Citations (9)

* Cited by examiner, † Cited by third party
Title
HUIPING LI等: ""Automatic Text Detection and Tracking in Digital Video"", 《IEEE TRANSACTIONS ON IMAGE PROCESSING》 *
JONGBAE KIM等: ""Caption Detection and Removal in a TV Scene"", 《AUSTRALASIAN JOINT CONFERENCE ON ARTIFICIAL INTELLIGENCE》 *
XU ZHAO等: ""Text From Corners:A Novel Approach to Detect Text and Caption in Videos"", 《IEEE TRANSACTIONS ON IMAGE PROCESSING》 *
吕学强等: ""视频中滚动字幕的检测与跟踪",", 《小型微型计算机系统》 *
宋洁凡等: ""非线性编辑软件技术在电视节目制作中的运用"", 《信息与电脑》 *
桑亮: ""滚动与非滚动新闻字幕的定位与分割"", 《中国优秀硕士学位论文全文数据库》 *
武文博等: ""基于深度卷积与全局特征的图像密集字幕描述"", 《信号处理》 *
王智慧等: ""两阶段的视频字幕检测和提取算法"", 《计算机科学》 *
王艳: ""基于小波变换和SVM的新闻主题字幕区提取算法"", 《科技信息》 *

Also Published As

Publication number Publication date
CN113920507B (zh) 2022-04-12

Similar Documents

Publication Publication Date Title
US6366699B1 (en) Scheme for extractions and recognitions of telop characters from video data
JP4643829B2 (ja) ビデオフレーム中の検出されたテキストを使用してビデオコンテンツを分析するシステム及び方法
KR100746641B1 (ko) 동영상 이미지 코드와 동영상 이미지 코드 생성/디코딩장치 및 그 방법
KR100636910B1 (ko) 동영상검색시스템
EP2041678B1 (en) Recognizing text in images
US8761582B2 (en) Video editing device and video editing system
Gargi et al. Indexing text events in digital video databases
US20040170392A1 (en) Automatic detection and segmentation of music videos in an audio/video stream
EP2034426A1 (en) Moving image analyzing, method and system
CN101853381B (zh) 视频字幕信息获取方法及装置
WO2001069530A2 (en) Estimating text color and segmentation of images
CN113435438B (zh) 一种图像和字幕融合的视频报幕板提取及视频切分方法
JP2008520152A (ja) 画像中のテキストの検出および修正
CN112752151B (zh) 一种动态广告植入位置的检测方法及装置
US7437017B2 (en) Image processing method
US9256792B2 (en) Image processing apparatus, image processing method, and program
CN111626145A (zh) 一种简捷有效的残缺表格识别及跨页拼接方法
CN111401368B (zh) 一种基于深度学习的新闻视频标题提取方法
Liu et al. A novel multi-oriented chinese text extraction approach from videos
CN113920507B (zh) 一种针对新闻场景的滚动字幕提取方法
US9471990B1 (en) Systems and methods for detection of burnt-in text in a video
Wang et al. Scene abrupt change detection
CN115205749A (zh) 一种结合场景智能识别的电视节目静帧监测方法及系统
El Bahi et al. Document text detection in video frames acquired by a smartphone based on line segment detector and dbscan clustering
CN111860262B (zh) 一种视频字幕提取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant