CN112423023A

CN112423023A - 一种智能化视频自动混剪的方法

Info

Publication number: CN112423023A
Application number: CN202011426599.7A
Authority: CN
Inventors: 白志勇; 王宇廷
Original assignee: Zhuhai Jiusong Technology Co ltd
Current assignee: Zhuhai Jiusong Technology Co ltd
Priority date: 2020-12-09
Filing date: 2020-12-09
Publication date: 2021-02-26

Abstract

一种智能化视频自动混剪的方法，包括步骤1：对目标文本进行语义分析，筛选匹配视频库中相应的视频片段；步骤2：对视频片段进行相关性、相似性分析，同时进行细节对比；步骤3：视频片段组合成品预览展示，人工修改或调整；步骤4：将多个视频片段无缝拼接渲染，导出所需视频；与现有技术相比，本发明具备以下有益效果：减少了人工环节，降低了生产成本；将人由原先的参与剪辑，改为参与到协助算法学习；算法检索的时间更短，推荐算法准确和召回会高于人脑；在最终质量上，视频的一致性会更好，不会出现人为因素导致的不稳定。

Description

一种智能化视频自动混剪的方法

技术领域

本发明涉及视频剪辑技术领域，具体是一种智能化视频自动混剪的方法。

背景技术

视频混剪，是一种把单个或多个视频分割，抽取其中目标片段，然后重新组合在一起，生成新视频的过程；现有的视频混剪的方法，主要是人工剪辑和机器辅助剪辑。

人工剪辑是传统方式，由人对一个或多个目标视频进行剪辑，将需要的视频片段合成在一起，其剪辑、添加文字素材、添加动画素材以及视频合成都要使用特定的一个或多个软件来完成；机器辅助剪辑，比人工剪辑要智能，是由机器对人提供的一段或多段目标视频进行解析，分离出音轨和画面，将语音音轨转成文字，再分析文字里的关键词，基于关键词推荐相关的视频片段，最后由人来对视频进行剪辑和编辑，合成时机器会按照既定的模版对视频进行渲染，例如增加背景音乐，增加固定的片头和结束语；但上述方法，存在检索视频片段效率低，关键词匹配时推荐方式粗糙，截取多长的片段难以界定导致视频片段粒度粗糙，视频剪辑质量完全靠剪辑人员导致质量不稳定的缺点，不能高效的完成命题作文式的视频混剪；目前的具有的一种技术方案是，输入文字或文章链接，自动转成视频，但是这种方案的主要应用领域是娱乐短视频，其文章和视频的相关性、相似性都比较低，视频与文本内容可能不一致；而在专业领域中，对片段和文本的专业权威有很高的要求，需要文本与目标片段具有较高的相关性，文本与目标片段一一对应。

发明内容

本发明提供一种智能化视频自动混剪的方法，可以有效解决上述背景技术中提出的问题。

为解决上述问题，本发明所采取的技术方案是：一种智能化视频自动混剪的方法，包括以下步骤：

步骤1：通过视频片段检索算法对目标文本进行语义分析，重新组织语言，根据重组后的语言台本，与视频库里的视频片段做对比，筛选匹配相应视频片段；

步骤2：视频片段推荐算法对筛选出的视频片段进行相关性、相似性分析；同时片段细节比对算法进行细节一致性对比，选出最佳视频片段组合方式；

步骤3：视频片段组合成品预览展示，人工干预修改或调整；

步骤4：将多个视频片段无缝拼接渲染，导出最终视频成品。

作为本发明的进一步优选方案，步骤1中视频库内视频文件通过预处理得到视频片段，其预处理包括针对视频内容生成相应类别标签，视频分割成视频片段并打上相应的标签。

作为本发明的进一步优选方案，步骤1中通过视频片段检索算法重新组织语言内容，找出文本中对于问题描述的文本框架，并根据文本框架重组语言文本以及设定标签。

作为本发明的进一步优选方案，视频片段检索算法根据重组后语言文本中的标签信息，与数据库中的内容进行比对，检索匹配出符合度较高的视频片段；其中匹配方式为精确匹配或模糊匹配。

作为本发明的进一步优选方案，步骤2中的相关性分为分析筛选出的视频片段与文本内容的相关度；相似性分析为判断筛选出的视频片段的文本内容与目标文本的相似度，以及判断语意、语法、内容是否相似。

作为本发明的进一步优选方案，步骤2中片段细节比对算法对比筛选出的视频片段一致性，推荐细节一致性高的视频；其中对比内容包括视频中出现的人物穿着、位置、光线、背景、环境、噪音。

作为本发明的进一步优选方案，步骤3中将多个筛选对比后的视频按目标文本的文本框架顺序进行排列，并将视频画面通过显示器预览播放，通过人工将不合适的视频素材进行调整或替换；其中视频片段推荐算法对调整方式进行记录和学习。

作为本发明的进一步优选方案，步骤4中合成渲染视频包括增加片头片尾、背景音乐、音效、人物简介；其中任意两个视频片段之间衔接时，视频起始帧与上一视频片段结束帧相连，并合成渲染输出编码格式为H.264或H.265的视频文件。

与现有技术相比，本发明提供了一种智能化视频自动混剪的方法，具备以下有益效果：

1. 减少了人工剪辑环节，降低了人工成本和时间成本，并且算法可以24小时工作，提高工作效率。

2. 将人由原先的参与剪辑，改为参与到协助本发明中各算法学习优秀剪辑人员的视频处理方式，帮助算法不断迭代和完善。

3. 算法检索的时间更短，推荐算法准确和召回会高于人脑；在最终质量上，视频的一致性会更好，不会出现人为因素导致的不稳定。

4.相比原先的机器辅助，更加智能，本发明的智能视频自动混剪完成了从目标分析-检索-推荐-合成-自我学习的全流程。

附图说明

图1为本发明的视频混剪流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

本发明提供一种智能化视频自动混剪的方法，包括以下步骤：

步骤3：视频片段组合成品预览展示，人工干预修改或调整；

步骤4：将多个视频片段无缝拼接渲染，导出最终视频成品。

作为本发明的一个具体实施例:

以医学类视频作为例子，先得到视频题目与视频的描述文本后，目标视频的处理步骤包括：

针对视频库内医学类视频，通过标签算法，生成与医疗相关的标签，具体标签划分如下：疾病、科室、疾病阶段，概述、症状、病因、治疗、日常、预后、预防；

其中标签算法具有多级别分类，可以分为一级或多级标签；例如一级标签日常中可包括二级标签饮食习惯、生活习惯；并且标签算法支持扩充和修改，支持自我学习，根据长期的语意分析不断修正和迭代。

通过视频片段分割算法将视频库内所有医疗视频按台词进行最小粒度的分割，分割后的视频片段生成相应的时间序列文件与字幕文本标记；对每一个字幕文本的语意进行分析，然后结合前后字幕文本的语意内容，为字幕片段选择合适的标签。

对目标文本进行语义分析，重新组织语言找出文本中对于问题描述的文本框架，并根据文本框架重组语言文本以及设定标签；根据重组后语言文本中的标签信息，与数据库中的内容进行比对，采用精确匹配或模糊匹配的方式检索匹配出符合度较高的视频片段。

视频片段推荐算法对筛选出的视频片段进行分析，分析其相关性、相似性，并判断细节一致性；其中相关性分析为视频片段与目标文本的相关度如何，相关度越高越值得推荐；相似性分析是分析视频片段与目标文本的相似性如何，语意、语法和内容是否相似；通过细节对比算法进行关键指标的细节对比，对比内容包括视频片段中的人物穿着、位置、光线、背景、环境、噪音，细节一致性高的视频更值得推荐。

将多个筛选对比后的视频按目标文本的文本框架顺序进行排列，并将视频画面通过显示器预览播放，通过人工将不合适的视频素材进行调整或替换；其中视频片段推荐算法对调整方式进行记录和学习；合成渲染视频包括增加片头片尾、背景音乐、音效、人物简介；其中任意两个视频片段之间衔接时，视频起始帧与上一视频片段结束帧相连达到无缝拼接，并合成渲染输出编码格式为H.264或H.265的视频文件。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

Claims

1.一种智能化视频自动混剪的方法，包括以下步骤：

步骤3：视频片段组合成品预览展示，人工干预修改或调整；

步骤4：将多个视频片段无缝拼接渲染，导出最终视频成品。

2.根据权利要求1所述的一种智能化视频自动混剪的方法，其方法在于，步骤1中视频库内视频文件通过预处理得到视频片段，其预处理包括针对视频内容生成相应类别标签，视频分割成视频片段并打上相应的标签。

3.根据权利要求1所述的一种智能化视频自动混剪的方法，其方法在于，步骤1中通过视频片段检索算法重新组织语言内容，找出文本中对于问题描述的文本框架，并根据文本框架重组语言文本以及设定标签。

4.根据权利要求3所述的一种智能化视频自动混剪的方法，其方法在于，视频片段检索算法根据重组后语言文本中的标签信息，与数据库中的内容进行比对，检索匹配出符合度较高的视频片段；其中匹配方式为精确匹配或模糊匹配。

5.根据权利要求1所述的一种智能化视频自动混剪的方法，其方法在于，步骤2中的相关性分为分析筛选出的视频片段与文本内容的相关度；相似性分析为判断筛选出的视频片段的文本内容与目标文本的相似度，以及判断语意、语法、内容是否相似。

6.根据权利要求1所述的一种智能化视频自动混剪的方法，其方法在于，步骤2中片段细节比对算法对比筛选出的视频片段一致性，推荐细节一致性高的视频；其中对比内容包括视频中出现的人物穿着、位置、光线、背景、环境、噪音。

7.根据权利要求1所述的一种智能化视频自动混剪的方法，其方法在于，步骤3中将多个筛选对比后的视频按目标文本的文本框架顺序进行排列，并将视频画面通过显示器预览播放，通过人工将不合适的视频素材进行调整或替换；其中视频片段推荐算法对调整方式进行记录和学习。

8.根据权利要求1所述的一种智能化视频自动混剪的方法，其方法在于，步骤4中合成渲染视频包括增加片头片尾、背景音乐、音效、人物简介；其中任意两个视频片段之间衔接时，视频起始帧与上一视频片段结束帧相连，并合成渲染输出编码格式为H.264或H.265的视频文件。