CN113920507A

CN113920507A - 一种针对新闻场景的滚动字幕提取方法

Info

Publication number: CN113920507A
Application number: CN202111513669.7A
Authority: CN
Inventors: 李志强; 陆维琛; 陈尧森
Original assignee: Chengdu Sobey Digital Technology Co Ltd
Current assignee: Chengdu Sobey Digital Technology Co Ltd
Priority date: 2021-12-13
Filing date: 2021-12-13
Publication date: 2022-01-11
Anticipated expiration: 2041-12-13
Also published as: CN113920507B

Abstract

本发明公开了一种针对新闻场景的滚动字幕提取方法，所述滚动字幕提取方法至少包括步骤：S1：提取待处理新闻视频中的文本并进行位置编码和内容编码；S2：基于文本的位置和内容编码对所得文本进行预处理；S3：构建约束条件并从预处理后的文本中确定是否存在滚动字幕；S4：确定滚动字幕的位置信息和起始时间；S5：基于垂直边缘特征最小差的平方和进行字幕跟踪与拼接。通过文字检测和识别，以及图像处理相关算法，使得本发明对新闻视频中滚动字幕准确定位和识别。本发明可有效地提升新闻视频的编辑效率，减少人工成本。

Description

一种针对新闻场景的滚动字幕提取方法

技术领域

本发明属于电视新闻制作领域，涉及图像处理和分析，尤其涉及一种针对新闻场景的滚动字幕提取方法。

背景技术

随着网络技术的发展，数字视频的普及，融媒体的兴起，视频数据的处理和分析技术变得越来越重要。在视频数据处理中，对新闻视频的滚动字幕定位和分析，显得尤为重要。

滚动字幕主要用来补充阐述一些新闻事件或者某种现象，每段滚动字幕描述的信息都对应了视频中一段较为完整的信息，对于滚动字幕的定位和识别，对视屏信息挖掘、检索等领域研究有重要的价值。

并且，在一些特定的新闻电视制作场景中，需要对一档长时间的新闻视频进行拆分，拆分为多段时间较短的且完整的视频，在这个过程中，滚动字幕大多数时间作为一个独立的事件存在，为了和其他拆开，需要对滚动字幕进行定位和识别，以排除拆条之后的干扰。

由于电视新闻制作过程中有大量的素材，若通过人工的方式对滚动字幕进行提取需要很高的人力成本。因此，亟需一种针对新闻制作过程中的滚动字幕定位和识别方法，以便能大大节省人力成本。

发明内容

本发明的目的在于，为克服现有技术缺陷，提供了一种针对新闻场景的滚动字幕提取方法，本发明方法在给定的电视新闻节目的视频中，定位整个视频中滚动字幕的起始时间点以及视频中滚动字幕的位置信息，并通过去重后提取完整的滚动字幕进行识别。

本发明目的通过下述技术方案来实现：

一种针对新闻场景的滚动字幕提取方法，所述滚动字幕提取方法至少包括步骤：S1：提取待处理新闻视频中的文本并进行位置编码和内容编码；S2：基于文本的位置和内容编码对所得文本进行预处理；S3：构建约束条件并从预处理后的文本中确定是否存在滚动字幕；S4：确定滚动字幕的位置信息和起始时间；S5：基于垂直边缘特征最小差的平方和进行字幕跟踪与拼接。

根据一个优选的实施方式，步骤S1具体为：S101：使用文本检测算法检测视频各帧画面中文本内容的位置，将获得的位置信息作为对应画面的文本位置编码；S102：使用文本识别算法对各帧画面中的文本位置的图像进行识别，识别出的文本内容作为文本内容编码；S103：将新闻视频中各视频帧的编号及其中包含的文本位置编码和内容编码按预设格式存放，作为所述新闻视频文本内容的位置和内容编码。

根据一个优选的实施方式，步骤S2具体为：基于位置编码对各视频帧内文本进行预处理，将被误分为两条文本的文本基于位置编码将两端文本重新合成为一条文本。

根据一个优选的实施方式，步骤S3中构建约束条件为：S301：根据前后两帧滚动字幕框字符内容的相似度特性，构建算法对滚动字幕框进行初步召回；S302：在初步召回基础上，根据前后两帧滚动字幕框的交并比特征，构建算法对滚动字幕框做进一步召回。

根据一个优选的实施方式，步骤S301中，构建算法对滚动字幕框进行初步召回为：构建相似度算法对滚动字幕框进行初步召回，所述相似度算法具体为：

首先定义总字符数T，表示两个字幕框中字符数的总数，然后定义M，表示两个滚动字幕框中相同字符数的个数，则相似度为：

；

步骤S302中，前后两帧滚动字幕框的交并比为：

，其中，A、B分别表示两个滚动字幕框的面积。

根据一个优选的实施方式，步骤S4中确定滚动字幕的起始时间为：当前后两帧中字幕框IOU落于预设阈值区间内时，确定当前帧可能存在滚动字幕，用标志为1表示，否则标志为0，并记录滚动字幕框的坐标信息；然后通过长度为L的滑动窗口以S 帧为步长遍历标志信息序列，从而确定滚动字幕的起始时间点。

根据一个优选的实施方式，步骤S4中确定滚动字幕的位置信息为：滚动字幕左上角和右下角坐标分别用（x₁, y₁）、（x₂,y₂）表示，滚动字幕左上角和右下角坐标分别用（x₁,y₁）、（x₂,y₂）表示，滚动字幕左上角x₁为默认值0，滚动字幕框的左上角坐标的y₁值为视频帧图片的高度减去字幕的高度；滚动字幕右下角X₂值为视频帧图片的宽度值；滚动字幕右下角 y₂值设置为视频帧图片的高度值。

根据一个优选的实施方式，步骤S5具体为：S501：计算相邻字幕条在各偏移值下垂直边缘特征差的平方和，取平方和的最小值作为相邻字幕的偏移量，从而实现字幕的跟踪；S502：确定出位于相同连续帧中的同一字幕区间后，基于同一字幕区间在多帧中的字幕信息，对所述同一字幕区间进行字幕增强，最终采用拼接法，获取完整的、无重复区域的滚动字幕条。

前述本发明主方案及其各进一步选择方案可以自由组合以形成多个方案，均为本发明可采用并要求保护的方案。本领域技术人员在了解本发明方案后根据现有技术和公知常识可明了有多种组合，均为本发明所要保护的技术方案，在此不做穷举。

本发明的有益效果：本发明针对新闻视频场景中滚动字幕的特性，提供了一种针对新闻场景的滚动字幕提取方法，通过文字检测和识别，以及图像处理相关算法，使得本发明对新闻视频中滚动字幕准确定位和识别。本发明可有效地提升新闻视频的编辑效率，减少人工成本。

附图说明

图1是本发明方法某一实施例的流程示意图；

图2是本发明方法字幕跟踪示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，为使本发明实施例的目的、技术方案和优点更加清楚，下面对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。

实施例1：

参考图1所示，本实施例公开了一种针对新闻场景的滚动字幕提取方法，所述滚动字幕提取方法至少包括步骤：

步骤S1：提取待处理新闻视频中的文本并进行位置编码和内容编码。

具体地，步骤S1具体为：

S101：首先对视频进行抽帧，抽帧频率为每10帧抽取1帧。对抽取的帧图片，使用文本检测算法，检测各帧画面中文本内容的位置，该位置信息作为对应画面的文本位置编码。文本检测算法使用开源的DB文本检测算法。

S102：使用文本识别算法对各帧画面中的文本位置的图像进行识别，识别出的文本内容作为文本内容编码。文本识别算法使用CRNN算法进行训练后得到。

S103：将新闻视频中各视频帧的编号及其中包含的文本位置（x1，y1, x2, y2）和内容编码按一定格式存放，作为所述新闻视频文本内容的位置和内容编码。存放格式依次为：帧序号，x1，y1, x2, y2 文本内容。

步骤S2：基于文本的位置和内容编码对所得文本进行预处理；

步骤S2具体为：基于位置编码对各视频帧内文本进行预处理，将被误分为两条文本的文本基于位置编码将两端文本重新合成为一条文本。

具体的，文本检测模块可能将本该连在一起的文本检测为两条文本，因此需要基于位置编码将两端文本重新合成一条文本。首先，对处于同一高度的字幕框进行提取，并且计算相邻字幕框的在x轴的距离dis；然后判断dis值大小是否小于两个字符宽度（word_height），如果小于，则融合两个滚动字幕框为单个滚动字幕框。此处的word_height可以表示为y₂和y₁的差值。其中，

。

步骤S3：构建约束条件并从预处理后的文本中确定是否存在滚动字幕。具体地，构建约束条件即是通过构建对前后两帧滚动字幕框内容的相似度算法以及构建两个滚动字幕框的交并比算法完成对滚动字幕框的召回。从而，确定哪些字幕框可能属于滚动字幕框。

优选地，步骤S3中构建约束条件为：

S301：根据前后两帧滚动字幕框字符内容的相似度特性，构建算法对滚动字幕框进行初步召回。

步骤S301中，构建算法对滚动字幕框进行初步召回为：构建相似度算法对滚动字幕框进行初步召回，所述相似度算法具体为：

。

两个字幕框中字符相似度达到预先设定的阈值时（本发明设为0.9），表示两个字幕框中的文字内容非常接近。由于滚动字幕本身的特征可知，在前后相隔时间较短的情况下，滚动字幕出现在屏幕上的内容是非常相似的（仅仅新增了滚动出来的少许文字内容）。所以判断前后帧字幕内容的相似度，可以初步对滚动字幕框进行召回，即初步确定哪些字幕框可能属于滚动字幕框。

S302：在初步召回基础上，根据前后两帧滚动字幕框的交并比特征，构建算法对滚动字幕框做进一步召回。总体来说，两个滚动字幕框的交并比可以由如下公式表示，其中A、B分别表示两个滚动字幕框的面积：

根据内容相似度初步召回滚动字幕框，可能存在两个框都不属于滚动字幕，仅仅是因为内容相同或者相似。为了排除这一问题，基于交并比，来进行初步召回。具体的，根据滚动字幕特性可知，相隔时间较短的前后两帧中的滚动字幕都出现在屏幕的相同位置，只是字幕文字长度不同，所以字幕框的长短不同。这就导致两个滚动字幕框存在较大的交叉重叠部分。此处的交叉重叠可以用IOU来表征。在内容相似度前提下，IOU高于某个阈值（本发明专利根据多次实验后设定为0.9），那么这两个字幕框便一定是滚动字幕。值得注意的是，如果仅仅通过IOU来判断是否是滚动字幕框，是不可行的，因为新闻场景中存在互相重叠的背景字幕框干扰；如果仅仅通过文字内容相似度判定是否是滚动字幕框，也是不可行的，因为新闻场景中在其他位置可能相同内容的文字框。

例如，为了进一步计算字幕框的面积A、B, 定义滚动字幕框1左上角和右下角坐标分别为（x₁₁, y₁₁）、(x₁₂, y₁₂)；滚动字幕框2左上角和右下角坐标分别为(x₂₁, y₂₁)、(x₂₂,y₂₂)。伪代码如下：

xA = max(x11,x21)

yA = max(y11,y21)

xB = min(x12,x22)

yB = min(y12,y22)

# 两个框各自的面积

boxAArea=(x12-x11)*(y12-y11)

boxBArea=(x22-x21)*(y22-y21)

# 重叠面积

interArea=max(xB-xA,0)*max(yB-yA,0)

# 计算IOU

iou = interArea/(boxAArea+boxBArea-interArea)

步骤S4：确定滚动字幕的位置信息和起始时间。

S401：确定滚动字幕的起始时间。

首先根据前后两帧滚动字幕框坐标的交并比（IOU）小于某较大临界阈值的位置特性，当前后两帧中字幕框IOU落于此阈值区间内，确定当前帧可能存在滚动字幕，用标志为1表示（否则标志为0），并且记录滚动字幕框的坐标信息。然后通过长度为L的滑动窗口以S帧为步长遍历标志信息序列，当滑动窗口L划过标志信息序列时，此时滑动窗口总和大于L*threshold_start，从而确定滚动字幕的开始时间点；如果滑动窗口总和小于L *threshold_end，从而确定滚动字幕结束时间点。本发明中，threshold_start和threshold_end 分别取值为0.9和1/32,为实际测试中最佳效果所取得的值。

S402：确定滚动字幕出现位置。

滚动字幕左上角和右下角坐标分别用（x₁, y₁）、（x₂,y₂）表示。由于新闻视频中，滚动字幕一般位于视频底部，滚动字幕长度接近视频帧图像的宽度。因此，滚动字幕左上角x₁设置为默认值0；由于滚动字幕一般都是紧贴视频帧底部，所以确定滚动字幕框的左上角坐标的y1值为视频帧图片的高度减去字幕的高度。滚动字幕右下角X₂值设置为视频帧图片的宽度值;滚动字幕右下角 y₂值设置为视频帧图片的高度值。

步骤S5：基于垂直边缘特征最小差的平方和进行字幕跟踪与拼接。

进一步地，步骤S5具体为：

S501：计算相邻字幕条在各偏移值下垂直边缘特征差的平方和，取平方和的最小值作为相邻字幕的偏移量，从而实现字幕的跟踪。

例如，图2示出了对视频中滚动字幕条R_i的跟踪示意图，Caption为视频中一条完整的滚动字幕，总长度为Length；以完整字幕caption作为位置参考，其左边界对应坐标原点，右边界对应坐标点Length；R_i(1≤i≤m)为从视频帧集C中依次提取到的滚动字幕条；字幕条R_i的左边界、右边界坐标分别为left_i、right_i；length_i为字幕条R_i的长度， height_i为字幕条R_i的高度。字幕跟踪过程即确定滚动字幕R_i的左边界坐标left_i和右边界right_i的过程。本发明在边缘检测的基础上，通过计算相邻字幕条之间垂直边缘特征的最小差的平方和，实现滚动字幕的跟踪。

具体的：

从字幕条R_k(1≤k≤m)所在的视频帧f_p的边缘特征矩阵Matri_x中，提取字幕区域的边缘特征，记作

。对字幕条R_k的边缘特征图像，在垂直方向上进行边缘点个数统计，也就是字幕的垂直边缘特征，用矩阵

表示。

其中，

；其中，height_k、length_k分别为字幕条R_k的高度和长度。

根据视频字幕滚动的特征，相邻帧之间的字幕偏移量d满足wch＜d＜width/2，其中wch、width分别表示字幕中汉字字符的宽度、字幕条Ri的最大宽度，其中汉字字符的宽度wch可以用字幕区域的高度height近似代替。

字幕跟踪的过程描述为：

（1）字幕条R₁的左右端点坐标分别为left₁ = 0；right₁ = length₁；

（2）设字幕条R_k的左右端点坐标分别为left_k、right_k，字幕条的中点距离左端点的长度为Mid_k = right_k - left_k / 2，字幕的垂直边缘特征矩阵为：

。

（3）取字幕条R_k+1的[0, Mid_k]片段的垂直边缘特征

与字幕条R_k的[p, p+Mid_k]，（0≤p≤Mid_k）区间的垂直边缘特征

依次求其差的平方和SS，当SS达到最小时，p的取值即为字幕条R_k+1左端left_k+1在字幕条R_k上的相对位置。可表达为：

；

。

（4）根据算法迭代，依次计算所有字幕条的左右端点，从而实现字幕的跟踪。

步骤S502：对视频中滚动字幕进行跟踪后，可确定出位于相同连续帧中的同一字幕区域，基于同一字幕区间在多帧中的字幕信息，对所述同一字幕区间进行字幕增强；最终采用拼接法，获取完整的、无重复区域的滚动字幕条Caption。最后将该滚动字幕条从去进行ocr文字识别，得到最终的滚动字幕识别结果。

本发明针对新闻视频场景中滚动字幕的特性，提供了一种针对新闻场景的滚动字幕提取方法，通过文字检测和识别，以及图像处理相关算法，使得本发明对新闻视频中滚动字幕准确定位和识别。本发明可有效地提升新闻视频的编辑效率，减少人工成本。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种针对新闻场景的滚动字幕提取方法，其特征在于，所述滚动字幕提取方法至少包括步骤：

S1：提取待处理新闻视频中的文本并进行位置编码和内容编码；

S2：基于文本的位置和内容编码对所得文本进行预处理；

S3：构建约束条件并从预处理后的文本中确定是否存在滚动字幕；

S4：确定滚动字幕的位置信息和起始时间；

S5：基于垂直边缘特征最小差的平方和进行字幕跟踪与拼接。

2.如权利要求1所述的滚动字幕提取方法，其特征在于，步骤S1具体为：

S101：使用文本检测算法检测视频各帧画面中文本内容的位置，将获得的位置信息作为对应画面的文本位置编码；

S102：使用文本识别算法对各帧画面中的文本位置的图像进行识别，识别出的文本内容作为文本内容编码；

S103：将新闻视频中各视频帧的编号及其中包含的文本位置编码和内容编码按预设格式存放，作为所述新闻视频文本内容的位置和内容编码。

3.如权利要求1所述的滚动字幕提取方法，其特征在于，步骤S2具体为：

基于位置编码对各视频帧内文本进行预处理，将被误分为两条文本的文本基于位置编码将两端文本重新合成为一条文本。

4.如权利要求1所述的滚动字幕提取方法，其特征在于，步骤S3中构建约束条件为：

S301：根据前后两帧滚动字幕框字符内容的相似度特性，构建算法对滚动字幕框进行初步召回；

S302：在初步召回基础上，根据前后两帧滚动字幕框的交并比特征，构建算法对滚动字幕框做进一步召回。

5.如权利要求4所述的滚动字幕提取方法，其特征在于，步骤S301中，构建算法对滚动字幕框进行初步召回为：构建相似度算法对滚动字幕框进行初步召回；

所述相似度算法具体为：

；

步骤S302中，前后两帧滚动字幕框的交并比为：

其中，A、B分别表示两个滚动字幕框的面积。

6.如权利要求5所述的滚动字幕提取方法，其特征在于，步骤S4中确定滚动字幕的起始时间为：

当前后两帧中字幕框IOU落于预设阈值区间内时，确定当前帧存在滚动字幕，用标志为1表示，否则标志为0，并记录滚动字幕框的坐标信息；

然后通过长度为L的滑动窗口以S 帧为步长遍历标志信息序列，从而确定滚动字幕的起始时间点。

7.如权利要求6所述的滚动字幕提取方法，其特征在于，步骤S4中确定滚动字幕的位置信息为：

滚动字幕左上角和右下角坐标分别用（x₁, y₁）、（x₂,y₂）表示，滚动字幕左上角x₁为默认值0，滚动字幕框的左上角坐标的y₁值为视频帧图片的高度减去字幕的高度；滚动字幕右下角X₂值为视频帧图片的宽度值；滚动字幕右下角 y₂值设置为视频帧图片的高度值。

8.如权利要求1所述的滚动字幕提取方法，其特征在于，步骤S5具体为：

S501：计算相邻字幕条在各偏移值下垂直边缘特征差的平方和，取平方和的最小值作为相邻字幕的偏移量，从而实现字幕的跟踪；

S502：确定出位于相同连续帧中的同一字幕区间后，基于同一字幕区间在多帧中的字幕信息，对所述同一字幕区间进行字幕增强，最终采用拼接法，获取完整的、无重复区域的滚动字幕条。