CN109684511A

CN109684511A - 一种视频剪辑方法、视频聚合方法、装置以及系统

Info

Publication number: CN109684511A
Application number: CN201811505962.7A
Authority: CN
Inventors: 赵之健; 林亦宁; 包怡欣
Original assignee: SHANGHAI QINIU INFORMATION TECHNOLOGIES Co Ltd
Current assignee: SHANGHAI QINIU INFORMATION TECHNOLOGIES Co Ltd
Priority date: 2018-12-10
Filing date: 2018-12-10
Publication date: 2019-04-26

Abstract

本发明公开了一种视频剪辑方法、视频聚合方法、装置以及系统，该方法包括：分析视频文本信息，得到视频事件对应时间范围；在所述时间范围内，通过第一预设处理条件，将视频文本信息中的时间与所述视频事件中的时间对齐；将时间对齐的视频事件通过第二预设处理条件进行处理，得到视频事件对应编辑视频。通过本发明所提供的方法，可以通过通用OCR技术和文本分类技术结合找到对应事件，最终利用深度学习的视频分类技术得到视频剪辑的全自动剪辑方法，并且提升了视频剪辑效率。

Description

一种视频剪辑方法、视频聚合方法、装置以及系统

技术领域

本申请涉及视频处理技术领域，尤其涉及一种视频剪辑方法、视频聚合方法、装置以及系统。

背景技术

目前，各类视频的全自动剪辑一直以来是研究的热点问题。一般来说视频剪辑都是由有经验的编辑来完成，近年来提出了不少的基于计算机视觉的方案，但是这些方案存在着一些问题，首先视频中会存在与当前事件无关内容，这样会导致视频持续时间较长，从而导致视频剪辑的处理事件也较长，完成速度较慢，比如说，足球视频一场比赛在90分钟左右，加上中场休息和广告，一般在两个小时，传统的基于视觉图像的分析技术即使达到实时处理的速度也需要两个小时完成处理，处理时间很长。

另外，传统的自动剪辑方法中，多数采用检测固定的场景相关的物体，然后通过相关物体来确定对应的事件，这样导致定制性较强，无法得到较好的扩展性。

虽然，当前深度学习算法已经发展到整个计算机视觉领域方向，但是传统的视频剪辑方案中一般都没有采用基于深度学习的算法来处理视频，因此，传统的视频剪辑方法相比于深度学习算法，准确性以及处理效率都较低。

发明内容

本发明提供了一种视频剪辑方法、视频聚合方法、装置以及系统，用以解决现有技术中视频剪辑时间较长以及准确性较低的问题。

其具体的技术方案如下：

一种视频剪辑方法，所述方法包括：

分析视频文本信息，得到视频事件对应时间范围；

在所述时间范围内，通过第一预设处理条件，将视频文本信息中的时间与所述视频事件中的时间对齐；

将时间对齐的视频事件通过第二预设处理条件进行处理，得到视频事件对应编辑视频。

可选的，分析视频文本信息，得到视频事件对应时间范围，包括：

对已进行标记的带时间信息的视频文本信息进行转换处理，得到所述视频文本信息对应的特征向量；

通过textcnn模型、lstm with attetion模型以及VDCNN模型，对所述特征向量进行特征提取，得到三种类型的特征数据；

将三种类型的特征数据首尾相接输入到分类器，得到分类标签；

根据分类标签中的时间信息，得到视频事件对应的时间范围。

可选的，通过第一预设处理条件，将视频文本信息中的时间与所述视频事件中的时间对齐，包括：

在直播视频的图片中确定出感兴趣区域ROI，提取图片中的特征，并通过自底向上的卷积得到N个尺度的特征图，其中，N为大于等于1的正整数；

通过回归处理，得到所述特征图对应的视频文字区域；

将所述视频文字区域输入到端到端文字识别CRNN的识别网络中，得到所述视频文字区域对应的时间的信息结果。

可选的，将时间对齐的视频事件通过第二预设处理条件进行处理，得到视频事件对应编辑视频，包括：

将直播视频分解为三部分；

通过所述第二预设处理条件，分别对分解出的三部分进行处理，得到结果融合输出；

将结果融合输出作为对应的编辑视频。

一种视频聚合方法，所述方法包括：

在获取到一视频文件时，在所述视频文件中提取出具有预设特征的子视频文件，所述提取方法应用权利要求1-4中任一权项所述的视频剪辑方法；

将提取出的所有子视频文件进行视频聚合处理，得到聚合视频文件。

一种视频剪辑系统，所述系统包括

分析模块，用于分析视频文本信息，得到视频事件对应时间范围；

处理模块，用于在所述时间范围内，通过第一预设处理条件，将视频文本信息中的时间与所述视频事件中的时间对齐；将时间对齐的视频事件通过第二预设处理条件进行处理，得到视频事件对应编辑视频。

优选的，所述分析模块，具体用于

对已进行标记的带时间信息的视频文本信息进行转换处理，得到所述视频文本信息对应的特征向量；通过textcnn模型、lstm with attetion模型以及VDCNN模型，对所述特征向量进行特征提取，得到三种类型的特征数据；将三种类型的特征数据首尾相接输入到分类器，得到分类标签；根据分类标签中的时间信息，得到视频事件对应的时间范围。

优选的，所述处理模块，具体用于在直播视频的图片中确定出感兴趣区域ROI，提取图片中的特征，并通过自底向上的卷积得到N个尺度的特征图，其中，N为大于等于1的正整数；通过回归处理，得到所述特征图对应的视频文字区域；将所述视频文字区域输入到端到端文字识别CRNN的识别网络中，得到所述视频文字区域对应的时间的信息结果。

优选的，所述处理模块，具体用于将直播视频分解为三部分；通过所述第二预设处理条件，分别对分解出的三部分进行处理，得到结果融合输出；将结果融合输出作为对应的编辑视频。

此外，本发明还公开了一种视频聚合装置，所述装置包括：

提取模块，用于在获取到一视频文件时，在所述视频文件中提取出具有预设特征的子视频文件；

处理模块，用于将提取出的所有子视频文件进行视频聚合处理，得到聚合视频文件。

一种存储介质，所述存储介质中存储有计算机程序，当计算机程序在计算机上运行时，使得所述计算机程序执行如权利要求1-4中任一权项所述的视频剪辑方法。

通过本发明实施例所提供的方法，可以通过通用OCR技术和文本分类技术结合找到对应事件，最终利用深度学习的视频分类技术得到视频剪辑的全自动剪辑方法，并且提升了视频剪辑效率。

附图说明

图1为本发明实施例中一种视频剪辑方法的流程图；

图2为本发明实施例中视频剪辑的执行流程图；

图3为本发明实施例中直播文本信息的分类方法流程图；

图4为本发明实施例中视频文字事件对齐方法流程示意图；

图5为本发明实施例中视频事件二次精准定位方法示意图；

图6为本发明实施例中一种视频剪辑系统的结构示意图。

具体实施方式

下面通过附图以及具体实施例对本发明技术方案做详细的说明，应当理解，本发明实施例以及实施例中的具体技术特征只是对本发明技术方案的说明，而不是限定，在不冲突的情况下，本发明实施例以及实施例中的具体技术特征可以相互组合。

如图1所示为本发明实施例中一种视频剪辑方法，该方法包括：

S1，分析视频文本信息，得到视频事件对应时间范围；

首先，如图2所示，在本发明中首先是直播文本分类，然后基于光学字符识别(英文：Optical Character Recognition，简称：OCR)技术的视频文字事件时间对齐，最后视频事件二次精细定位。

步骤S1对应第一步，直播文本分类主要是利用带时间的视频文本信息，得到视频事件发生的时间范围，从而大大的减少了需要处理的视频数量，这里的时间信息可以是视频文本信息中带有的时间标签或者是时间戳等等，此处不做具体限定。

具体来讲，对于步骤S1来讲，通过收集以往的一些视频文本数据，这里需要说明的是，这里视频文本数据步骤S1中所描述的视频事件相关，比如说都是足球比赛的直播数据。将数据整理去重后进行打标签，通过图3所示的训练模型进行数据处理，首先是将文本信息进行转换处理，得到特征向量，在本发明实施例中可以通过word2vec算法转换成一个特征向量，通过三种不同类型的模型，包括：textcnn模型，lstm with attetion模型和VDCNN模型分别提取特征，得到三种类型的模型对应的特征数据，将三种类型的特征数据首尾相接输入到分类器，得到分类标签。也就是最终将特征数据首尾相接输入到全链接的分类器中得到最终预测的标签。训练阶段利用bp算法进行训练，测试阶段直接推理达到结果。

S2，在时间范围内，通过第一预设处理条件，将视频文本信息中的时间与视频事件中的时间对齐；

此处第一预设处理条件具体为OCR技术。在上述步骤S1中确定了时间范围之后，通过OCR技术来实现时间对齐，如图4所示，在OCR使用时包括两个部分，文字区域的精确定位和识别，第一步在视频数据的图片中设置时间可能出现的感兴趣区域ROI区域，利用卷积神经网络提取出特征，并通过自底向上的卷积得到多尺度的特征图，然后通过回归算法得到视频文字区域的精确位置。

第二步将得到的文字区域输入到CRNN的识别网络中，最终得到文字区域对应的时间的信息结果，在使用OCR的时候采用锚点法，即：每隔十分钟精确对齐时间一次，中间的时间采用差值的方法得到，这样保证精确度的同时大大提升速度。

S3，将时间对齐的视频事件通过第二预设处理条件进行处理，得到视频事件对应的编辑视频。

第二预设处理条件具体为TSN网络，最终的视频分类任务采用的是TSN网络，训练时将将视频分为前中后三个部分，在每个部分随机提取视频帧，并送入TSN网络进行训练，如图5所示，最终将结果融合输出。时间推理时候，逐帧进行推理，直接将前后三帧推理结果进行融合，得到最终的结果输出。该精细推理只在第一步得到的文本分类的候选时间段进行。

举例来讲，对一个视频的精彩镜头提取剪辑，通过视频的图像处理+时间轴+语音识别+文本等多个维度进行分析：比如：足球赛用识别视频的射门、点球等特定的场景，图像+结合文字和语音识别分析+比赛时间对齐，直播的计时比分的时间去做画面和解说的对齐。再加上特定的人脸识别的特写+知识图谱引擎，看谁踢的，将该运动员的历史踢球数据。

这里需要说明是，上述方法只是使用足球视频的剪辑进行说明，而不是限定，该方法不仅仅可以应用到足球比赛视频剪辑，还可以应用到其他视频剪辑上，本实施例不做具体的限定。

进一步，在本发明实施例中，基本上述实施例，还提供了一种视频聚合方法，该视频聚合方法包括：在获取到一视频文件时，在所述视频文件中提取出具有预设特征的子视频文件；在所述视频文件中提取出具有所述预设特征的子视频文件，将提取出的所有子视频文件进行视频聚合处理，得到聚合视频文件。

这里需要说明是，该视频聚合方法中的子视频文件提取使用了上述实施例中的视频剪辑方法，具体的实现原理在上述的实施例中已经详细说明，此处就不再赘述。

对应本发明所提供的方法，本发明实施例中还提供了一种视频剪辑系统，如图6所示为本发明实施例中一种视频剪辑系统的结构示意图，该系统包括：

分析模块601，用于分析视频文本信息，得到视频事件对应时间范围；

处理模块602，用于在所述时间范围内，通过第一预设处理条件，将视频文本信息中的时间与所述视频事件中的时间对齐；将时间对齐的视频事件通过第二预设处理条件进行处理，得到视频事件对应编辑视频。

进一步，所述分析模块601，具体用于对已进行标记的带时间信息的视频文本信息进行转换处理，得到所述视频文本信息对应的特征向量；通过textcnn模型、lstm withattetion模型以及VDCNN模型，对所述特征向量进行特征提取，得到三种类型的特征数据；将三种类型的特征数据首尾相接输入到分类器，得到分类标签；根据分类标签中的时间信息，得到视频事件对应的时间范围。

进一步，所述处理模块602，具体用于在直播视频的图片中确定出感兴趣区域ROI，提取图片中的特征，并通过自底向上的卷积得到N个尺度的特征图，其中，N为大于等于1的正整数；通过回归处理，得到所述特征图对应的视频文字区域；将所述视频文字区域输入到端到端文字识别CRNN的识别网络中，得到所述视频文字区域对应的时间的信息结果。

进一步，所述处理模块602，具体用于将直播视频分解为三部分；通过所述第二预设处理条件，分别对分解出的三部分进行处理，得到结果融合输出；将结果融合输出作为对应的编辑视频。

进一步，基本上述实施例，对应发明实施例中还提供了一种视频数据装置，该装置包括：

处理模块，用于将提取出的所有子视频文件进行视频聚合处理，得到聚合视频文件。此处对视频剪辑方法不再做具体说明。

进一步，在本发明实施例中一种存储介质，所述存储介质中存储有计算机程序，当计算机程序在计算机上运行时，使得所述计算机程序执行上述的视频剪辑方法。此处对视频剪辑方法不再做具体说明。

尽管已描述了本申请的优选实施例，但本领域内的普通技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改，包括采用特定符号、标记确定顶点等变更方式。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种视频剪辑方法，其特征在于，所述方法包括：

分析视频文本信息，得到视频事件对应时间范围；

将时间对齐的视频事件通过第二预设处理条件进行处理，得到视频事件对应的编辑视频。

2.如权利要求1所述的方法，其特征在于，分析视频文本信息，得到视频事件对应时间范围，包括：

3.如权利要求1所述的方法，其特征在于，通过第一预设处理条件，将视频文本信息中的时间与所述视频事件中的时间对齐，包括：

通过回归处理，得到所述特征图对应的视频文字区域；

4.如权利要求1所述的方法，其特征在于，将时间对齐的视频事件通过第二预设处理条件进行处理，得到视频事件对应编辑视频，包括：

将直播视频分解为三部分；

将结果融合输出作为对应的编辑视频。

5.一种视频聚合方法，其特征在于，所述方法包括：

6.一种视频剪辑系统，其特征在于，所述系统包括

7.如权利要求6所述的系统，其特征在于，所述分析模块，具体用于对已进行标记的带时间信息的视频文本信息进行转换处理，得到所述视频文本信息对应的特征向量；通过textcnn模型、lstm with attetion模型以及VDCNN模型，对所述特征向量进行特征提取，得到三种类型的特征数据；将三种类型的特征数据首尾相接输入到分类器，得到分类标签；根据分类标签中的时间信息，得到视频事件对应的时间范围。

8.如权利要求6所述的系统，其特征在于，所述处理模块，具体用于在直播视频的图片中确定出感兴趣区域ROI，提取图片中的特征，并通过自底向上的卷积得到N个尺度的特征图，其中，N为大于等于1的正整数；通过回归处理，得到所述特征图对应的视频文字区域；将所述视频文字区域输入到端到端文字识别CRNN的识别网络中，得到所述视频文字区域对应的时间的信息结果。

9.如权利要求6所述的系统，其特征在于，所述处理模块，具体用于将直播视频分解为三部分；通过所述第二预设处理条件，分别对分解出的三部分进行处理，得到结果融合输出；将结果融合输出作为对应的编辑视频。

10.一种视频聚合装置，其特征在于，所述装置包括：

11.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，当计算机程序在计算机上运行时，使得所述计算机程序执行如权利要求1-4中任一权项所述的视频剪辑方法。