CN108347643B

CN108347643B - 一种基于深度学习的字幕叠加截图的实现方法

Info

Publication number: CN108347643B
Application number: CN201810181581.1A
Authority: CN
Inventors: 王炜; 谢超平; 陈晓军; 罗天; 杨益红; 罗明利
Original assignee: Chengdu Sobey Digital Technology Co Ltd
Current assignee: Chengdu Sobey Digital Technology Co Ltd
Priority date: 2018-03-05
Filing date: 2018-03-05
Publication date: 2020-09-15
Anticipated expiration: 2038-03-05
Also published as: CN108347643A

Abstract

本发明公开了一种基于深度学习的字幕叠加截图的实现方法，属于媒体技术领域，本发明包括以下步骤：在视频上选择字幕叠加截图的视频区间；在所述视频区间的每一帧图像上定位并剪裁出字幕；对所有字幕进行分段并抽取每段字幕中的关键帧；对所述关键帧进行相似度计算，利用计算结果进行对比去重，得到最终字幕；将视频区间的首帧画面与最终字幕依次进行拼接，得到字幕叠加截图，采用该方法出错率低、处理效率高，自动化程度高。

Description

一种基于深度学习的字幕叠加截图的实现方法

技术领域

本发明涉及媒体技术领域，具体涉及一种基于深度学习的字幕叠加截图的实现方法。

背景技术

二十一世纪以来，互联网获取信息便捷高效、信息传播范围广的优点使得互联网如雨后春笋般遍及中国的各个角落。同时，手机行业的高速发展也使其进入了千家万户，目前人们使用移动终端进行网上冲浪已成为生活的新常态，因此广电媒体行业占领互联网这个舆论阵地的需求十分强烈。

当前互联网中新闻讯息的展现方式高度多元化，包括GIF动图、短视频及字幕叠加截图等，其中字幕叠加截图正为时下热门：它将多幅画面的字幕部分拼接到同一画面中，因此仅使用一张图片就可分享视频片段的精髓，而不再需要分享视频链接，等待缓存。将这种新型便捷的字幕叠加截图应用在互联网(包括微信、微博、新闻客户端以及门户网站)新闻稿件上，用一张图片将一整段的新闻解释清楚，方便用户快速获得新闻关键内容，满足了新闻媒体行业的诉求，也迎合了当前人们快节奏的生活方式。

现有技术中常用的字幕叠加截图的方法主要分为以下三种：

1、利用photoshop、关图秀秀等软件手动生成字幕叠加截图，需用户自行截取多张字幕不同的视频截图再自行裁剪和拼接形成。这种方式有以下几种不足：操作复杂性高，整个流程都是手动操作，步骤复杂，并且需要有一定的photoshop等软件的使用基础；不便管理，中间过程产生的素材多，而实际需要的仅为最后的字幕叠加图；效率低，制作一张截图所花费的时间依软件熟练度而定，但总体偏高。这种方式操作复杂性高，中间过程产生的素材多，不便管理，效率也比较低。

2、利用拼接软件半自动生成字幕叠加截图，其中需要用户自行截取多张字幕不同的视频截图，选定字幕位置，拼接软件根据字幕位置，自动化去除多余画面生成字幕叠加截图。这种方法有以下几种缺陷：自动化程度低，用户仍需在视频中手动截取画面和选定字幕位置，手动处理的痛点依然存在；处理时间长，尽管裁剪和拼接步骤都交给了软件，但最终总处理时间仍然较长；这种方式的复杂度有所降低，但手动截取字幕图像仍无法满足行业需求。

3、利用图像识别和语音识别方法自动生成字幕叠加图，此方法利用提供的视频的入点出点信息以及人声特征音色，判断字幕叠加图的起始位置和终点位置，获取画面中出现的多个字幕自动生成字幕叠加截图。该方法相比于上述两种方法已经有所改进，但仍存在以下的不足：正确率难保证，人声音色特征的识别易受背景音的影响，可能造成过早结束和漏帧缺帧的现象；成品图效果不佳，字幕片段的选取区域不稳定容易大小不一，且字幕段数目不确定，难以保证最终的叠加截图美观性。

发明内容

本发明的目的在于：提供一种基于深度学习的字幕叠加截图的实现方法，解决了目前生成字幕叠加截图自动化程度低、正确率低的技术问题。

本发明采用的技术方案如下：

一种基于深度学习的字幕叠加截图的实现方法，包括以下步骤：

步骤1：在视频上选择字幕叠加截图的视频区间；

步骤2：在所述视频区间的每一帧图像上定位并剪裁出字幕；

步骤3：对所有字幕进行分段并抽取每段字幕中的关键帧；

步骤4：对所述关键帧进行相似度计算，利用计算结果进行对比去重，得到最终字幕；

步骤5：将视频区间的首帧画面与最终字幕依次进行拼接，得到字幕叠加截图。

进一步的，所述步骤1具体为：在视频上选择入点作为所述视频区间的起始帧，选择出点作为所述视频区间的结束帧。

进一步的，所述步骤2具体为：

S21：构建卷积神经网络并利用所述视频区间的每一帧图像进行训练，得到所述视频区间所有帧图像上字幕最顶端和最低端的坐标参数；

S22：利用所述坐标参数得到字幕的最优坐标参数；

S23：利用所述最优坐标参数剪裁出视频区间每一帧图像上的字幕。

进一步的，所述步骤3具体为：

S31：利用转场技术对所有字幕依次进行转场识别，标注转场帧位置；

S32：利用转场帧对字幕进行初分段；

S33：从每一段字幕中抽取一帧字幕作为该段字幕的关键帧。

进一步的，所述步骤4具体为：

S41：对相邻关键帧进行相似度计算，得到第一相似度；

S42：利用k-means算法对相邻关键帧进行对比，得到第二相似度；

S43：利用第一相似度和第二相似度判断相邻关键帧是否相似，若相似，则进行去重操作，只保留相邻关键帧中的其中一帧；反之，两帧均保留。

进一步的，所述步骤S42具体为：

S421：将亮度等级按相邻原则分为k个色组，利用k-means算法对关键帧进行聚类，得到每个关键帧中k个色组的像素点数目，其中关键帧中数目最接近的色组为主色组；

S422：依次提取每个关键帧中主色组的像素点形成集合，该集合即为纯净度较高的字幕；

S423：利用相邻帧的像素点集合进行比对，得到第二相似度。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

1.字幕区域统一规划，使用卷积神经网络算法，综合所有帧信息计算得到字幕区域在整个帧画面中的最佳位置；采用此方法一方面让后续帧相似度分析算法聚焦于此字幕区域，提高相似度分析的准确性；另一方面给最终的字幕拼接动作提供整齐划分的字幕帧画面，提升了最终的图像拼接效果。

2.关键字幕帧精准选取，利用转场帧所在位置将整个字幕视频划分成多个字幕段，再从字幕段中提取字幕帧，使用相似度分析办法处理相邻的字幕帧；采用此方法处理次序清晰，层次结构分明，大大减少了字幕帧遗漏、重复等问题的出现，能够准确地得到所有需要的画面，准确率高。

3.处理操作简单便捷，本方法对非技术人员是操作友好的，操作人员无需学习算法内部的任何原理和过程，算法的运算中间过程对外不可见。本方法仅需在流程初始阶段由操作者输入视频文件以及其入点、出点的初始位置，一键便可得到最终所需的字幕叠加截图。这样的操作方式降低了制作字幕叠加截图的门槛，使人们可以随心所欲地制作字幕叠加图，极大提升了人们的体验度，自动化程度高。

4.处理方式智能高效，传统制作字幕叠加截图的方法针对多种不同分辨率的视频处理方式没有区分，步骤比较固定；而本方法利用了深度学习算法等多种技术方法的优势，能够自动地根据分辨率调整字幕区域的大小位置，能够识别关键字幕帧的细微差别，自行进行字幕帧的拼接操作，出错率低、处理效率高，很好地解决了原有方法在精确性、处理效率上的不足。

附图说明

本发明将通过实施例并参照附图的方式说明，其中：

图1是本发明的整体流程图；

图2是本发明中定位字幕时的示意图；

图3是本发明中抽取关键帧的流程示意图；

图4是本发明中相似度计算及对比去重得到最终字幕的流程示意图；

图5是本发明生成的字幕叠加截图的示意图。

具体实施方式

本说明书中公开的所有特征，或公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合。

下面结合图附图对本发明作详细说明。

步骤1：在视频上选择字幕叠加截图的视频区间，即在视频上选择入点作为所述视频区间的起始帧，选择出点作为所述视频区间的结束帧。

步骤2：在所述视频区间的每一帧图像上定位并剪裁出字幕；

S22：利用所述坐标参数得到字幕的最优坐标参数；

步骤3：对所有字幕进行分段并抽取每段字幕中的关键帧；

S32：利用转场帧对字幕进行初分段；

S33：从每一段字幕中抽取一帧字幕作为该段字幕的关键帧。

S41：对相邻关键帧进行相似度计算，得到第一相似度；

S423：利用相邻帧的像素点集合进行比对，得到第二相似度。

具体实施例

步骤1：在视频上选择字幕叠加截图的视频区间，即在视频上选择入点作为所述视频区间的起始帧，选择出点作为所述视频区间的结束帧；并框定一个略大于常规字幕位置的区域作为字幕的初始区域，可以减少画面对后续处理的干扰，提高后续处理效率。

步骤2：在所述视频区间的每一帧图像上定位并剪裁出字幕(如图2所示)；

S21：利用视频中字幕图案的规则性和字幕位置的稳定性，构建卷积神经网络，并利用所述视频区间每一帧图像上框定的字幕初始区域进行训练，得到所述视频区间所有帧图像上字幕最顶端(Top)和最低端(Down)的坐标参数；

S22：综合所有帧图像的最顶端(Top)和最低端(Down)的坐标参数，得到字幕的最优坐标参数；

S23：利用最顶端(Top)和最低端(Down)的最优坐标参数剪裁出视频区间每一帧图像上的字幕。

步骤3：对所有字幕进行分段并抽取每段字幕中的关键帧(如图3所示)；

S31：设定第一阈值，利用转场技术对所有字幕依次进行转场识别，标注转场帧位置，即可按转场帧的位置初步划分为不同的字幕段，不同的字幕段的相邻帧之间的差异较大，给差异(可以是对应像素点灰度值的差值)设置第一阀值，若超过此阀值即可认为是前后帧属于不同字幕段。转场技术为常用的技术，具体来说是镜头边界检测算法；其中基于像素域的边界检测算法包括：像素差异法，直方图方法，块匹配法，边缘变化率法。

S32：利用转场帧对字幕进行初分段，分段个数为N(N≥2)，两个相邻转场帧之间或起始帧/结束帧与相邻转场帧之间的所有字幕为同一个字幕；

S33：从每一段字幕中抽取一帧字幕作为该段字幕的关键帧。

步骤4：对所述关键帧进行相似度计算，利用计算结果进行对比去重，得到最终字幕(如图4所示)；

S41：对相邻关键帧进行相似度计算，计算方法可采用梯度处理、二值化计算或其他相似度计算方法中的一种或几种，得到第一相似度；

S421：将256个亮度等级按相邻原则分为k个色组，利用k-means算法对关键帧进行聚类，得到每个关键帧中k个色组的像素点数目，按照色组组别统计所有关键帧中像素点的分布情况，依次比较特定色组内的不同关键帧像素点的数目，由于字幕像素点所在色组的像素点数目相对稳定，因此像素点数目最接近的色组为主色组；

S423：利用相邻帧的像素点集合进行比对，得到第二相似度。

步骤5：将视频区间的首帧画面与最终字幕依次进行拼接，得到字幕叠加截图(如图5所示)。

Claims

1.一种基于深度学习的字幕叠加截图的实现方法，其特征在于：包括以下步骤：

步骤1：在视频上选择字幕叠加截图的视频区间；

步骤2：在所述视频区间的每一帧图像上定位并剪裁出字幕；

步骤3：对所有字幕进行分段并抽取每段字幕中的关键帧；

步骤5：将视频区间的首帧画面与最终字幕依次进行拼接，得到字幕叠加截图；

所述步骤4具体为：

S41：对相邻关键帧进行相似度计算，得到第一相似度；

S43：利用第一相似度和第二相似度判断相邻关键帧是否相似，若相似，则进行去重操作，只保留相邻关键帧中的其中一帧；反之，两帧均保留；

所述步骤S42具体为：

S423：利用相邻帧的像素点集合进行比对，得到第二相似度。

2.根据权利要求1所述的一种基于深度学习的字幕叠加截图的实现方法，其特征在于：所述步骤1具体为：在视频上选择入点作为所述视频区间的起始帧，选择出点作为所述视频区间的结束帧。

3.根据权利要求1所述的一种基于深度学习的字幕叠加截图的实现方法，其特征在于：所述步骤2具体为：

S22：利用所述坐标参数得到字幕的最优坐标参数；

4.根据权利要求1所述的一种基于深度学习的字幕叠加截图的实现方法，其特征在于：所述步骤3具体为：

S32：利用转场帧对字幕进行初分段；

S33：从每一段字幕中抽取一帧字幕作为该段字幕的关键帧。