CN110324728A

CN110324728A - 基于深度强化学习的体育赛事全场回顾短视频生成方法

Info

Publication number: CN110324728A
Application number: CN201910576006.6A
Authority: CN
Inventors: 俞定国; 赵世玮
Original assignee: Zhejiang University of Media and Communications
Current assignee: Zhejiang University of Media and Communications
Priority date: 2019-06-28
Filing date: 2019-06-28
Publication date: 2019-10-11
Anticipated expiration: 2039-06-28
Also published as: CN110324728B

Abstract

本发明公开了一种基于深度强化学习的体育赛事全场回顾短视频生成方法，包括：输入体育赛事原始视频，通过数据预处理、镜头分割和特征提取对原始视频进行数据处理，并以结构化的数据格式存储，得到原始视频的结构化数据；构建深度摘要网络，在编码器‑解码器深度学习网络结构的基础上，通过强化学习的方式，以多样性和代表性为目标奖励函数，训练和优化模型；输入待预测的原始视频的结构化数据，根据相应的结果数据合成并输出相应的短视频媒体文件。本发明方法在短视频生成过程中，解决了体育赛事视频由于数据自身的复杂性而导致处理困难的问题，同时融合了全场回顾新闻要素的性质要求，生成出符合体育赛事新闻需求的短视频。

Description

基于深度强化学习的体育赛事全场回顾短视频生成方法

技术领域

本发明涉及短视频生成方法领域，具体涉及一种基于深度强化学习的体育赛事全场回顾短视频生成方法。

背景技术

全场回顾是体育赛事新闻中一个应用非常普遍的新闻要素，旨在通过对整个体育赛事进行高度概括，省略冗余和非重点的内容，突出整个赛事过程中的关键事件和关键时间节点，形成具有事件发展逻辑关系的故事线表达，方便新闻读者能够在较短的时间内阅读和理解整个体育赛事的过程和结果。因此，针对体育赛事新闻短视频领域，全场回顾短视频的主要目标是对整个体育赛事原始视频进行高度概括，用于对视频内容进行回放表达，重点突出原始视频中的时间和因果关系，对于具体的内容不具有特定的要求。

近年来，随着移动互联网的快速兴起和数字新闻的蓬勃发展，传统的新闻视频由于时长偏长、内容枯燥，已经难以满足当今人们快节奏的阅读习惯和以“内容为王”的新闻市场需求，短视频成为了主要的信息传播方式和新闻传播载体。目前，短视频生成相关技术需求日益增长，尤其是针对体育赛事新闻领域，由于新闻内容存在时效性，往往需要耗费大量的人力物力成本进行人工剪辑生成短视频，同时受限于从业人员的专业水平和业务能力，缺乏统一的评判方法和评判标准，无法对短视频中的新闻元素进行有效控制，难以保障新闻短视频的内容质量。

体育赛事视频是新闻视频中非常重要的数据来源，相比于其他视频数据而言，具有一定的特殊性和代表性，例如时长偏长、内容复杂、镜头和场景切换频繁等，具有重要的研究和应用价值。因此，如何将枯燥冗长的体育赛事视频生成生动形象、具有优质内容的短视频，让用户能够更加高效快捷、多元化、深层次地浏览和理解整个视频的主要内容，成为了亟待解决的技术难题。短视频生成技术是解决该问题的关键，与之相关的技术有视频摘要和视频合成，其中视频摘要主要负责原始视频的高度概括，选取关键和具有亮点的内容作为候选视频片段；视频合成则通过时间、动作、故事线等方式对候选视频片段组合，同时融入音乐、文字、动画等元素，使得视频呈现形式更加多元和立体。尽管目前两者都具有了较为成熟的技术积累和研究成果，但是由于两者实现方式相互独立，存在一定的不足和局限性，缺乏能够交叉融合应用的实现方式，难以应对体育赛事新闻短视频生成的实际应用场景。

发明内容

针对体育赛事视频，为了结合体育赛事新闻的实际需求和全场回顾新闻要素的性质要求，本发明的目的是提出了一种基于深度强化学习的体育赛事全场回顾短视频生成方法，围绕体育赛事新闻短视频生成过程中镜头分割、短视频候选素材选择和短视频生成等关键技术，实现体育赛事新闻中全场回顾短视频生成中数据处理、素材库构建以及短视频应用等基本功能模块的自动化作业。

本发明的目的是通过以下技术方案来实现：

一种基于深度强化学习的体育赛事全场回顾短视频生成方法，包含以下步骤：

1)输入体育赛事原始视频，依次进行数据预处理，得到原始视频预处理数据，通过镜头分割得到镜头相关的数据，通过特征提取得到特征序列，并以结构化的数据格式存储，得到原始视频的结构化数据；

2)采用编码器-解码器(encoder-decoder)的深度学习网络结构构建用于短视频候选素材选择的深度摘要网络模型，输入步骤1)得到的原始视频的结构化数据至深度摘要网络模型，采用强化学习的方式，以代表性奖励函数和差异性奖励函数为目标奖励函数，训练和优化深度摘要网络模型；

3)输入步骤1)得到的原始视频的结构化数据至训练和优化后的深度摘要网络模型，得到短视频候选素材选择的结果数据(即视频帧重要度预测分数)，合成并输出相应的短视频媒体文件，完成体育赛事全场回顾短视频生成。

步骤1)中，所述的数据预处理包括视频预分割、视频帧提取和视频采样；

其中，视频预分割部分作为一个可选的功能，目的是在原始视频的基础上提供一个人为可控的视频分割接口，通过位置参数的方式对原始视频指定位置进行预先分割；所述的视频预分割为根据体育赛事的各个时间节点进行人为分割。

所述的视频帧提取包括：

将预分割的视频转换为视频帧，在工程目录中以原始视频编号为文件夹名，全部视频帧为文件夹下内容文件的方式存储；

所述的视频采样包括：

通过下采样的方式对提取的视频帧进行采样，简单压缩视频，降低不必要的计算成本。

所述的原始视频预处理数据包括：原始视频的全部视频帧以及采样视频帧索引。

所述的镜头分割包括：

将原始视频预处理数据通过识别镜头转换点(shot change point)来分割镜头，计算和存储镜头相关的数据，例如转换点坐标、镜头区间、镜头数量、镜头内视频帧数量等。针对体育赛事视频，在基于时间和空间两个维度的镜头分割算法基础上，采用一种基于分层粒度的镜头分割算法，兼顾粗粒度和细粒度两个层次维度，保证分割算法同时具备主观镜头和客观镜头的分割能力，实现多粒度的镜头分割方式。

所述的识别镜头转换点(shot change point)具体包括

对原始视频预处理数据中的全部视频帧的集合V中的视频帧进行遍历，计算相邻视频帧在HSV[Hue，Saturation，Value，即色调(H)，饱和度(S)，明度(V)]颜色空间中的直方图差异，如果差异值大于阈值θ(阈值θ人为定义，一般可定为30)，则将该视频帧放入集合形成空间维度分割集合C，否则继续遍历，然后，遍历空间维度分割集合C，对于空间维度分割集合C中相邻的视频帧索引映射在全部视频帧的集合V的区间，使用基于核函数的时间分割算法KTS(kernel-based temporal segmentation)计算镜头转换点，将镜头转换点对应的视频帧放入集合形成时间维度分割集合F，最后，空间维度分割集合C和时间维度分割集合F并集为最终分割结果，即识别镜头转换点的集合S。

所述的特征提取包括：

利用深度学习技术进行原始视频预处理数据中采样视频帧索引所对应的视频帧图像的特征序列提取工作，转换为计算机能够识别的特征序列。即对于每一个视频帧图像应用深度学习网络模型输出最后的全连接层作为图像的特征序列。此外，由于体育赛事视频中的大部分连续视频帧内容相近，因此在视觉上的特征序列也相近，为了减少不必要的计算成本，提高算法效率和系统性能，只针对原始视频采样后的视频帧进行特征提取工作。

步骤2)中，所述的短视频候选素材选择通过深度摘要网络模型预测原始视频中每个视频帧被选择的概率实现；

所述的深度摘要网络模型，具体包括：

编码器部分是一个对视频帧进行特征提取的卷积神经网络(CNN)，从输入视频帧中提取长度为T的特征序列即步骤1)得到所述的特征序列；表示原始视频预处理数据中采样视频帧索引所对应的视频帧，V_t表示第t个视频帧，表示原始视频预处理数据中采样视频帧索引所对应视频帧的特征序列，x_t表示第t个视频帧的特征序列；

解码器部分是一个双向循环神经网络(BiRNN)和一个全连接层(FC)，BiRNN将整个特征序列作为输入，得到相应的隐藏状态表示原始视频预处理数据中采样视频帧索引所对应视频帧的隐藏状态，h_t表示第t个的隐藏状态，每个隐藏状态h_t都由前向隐藏状态和反向隐藏状态共同关联得到，包含了围绕第t个视频帧(即视频帧t^th)未来和过去的信息，FC层则以sigmoid函数作为结束，预测每个视频帧被选择的概率。

根据输入深度摘要网络和体育赛事原始视频的结构化数据集，采用强化学习的方式进行深度摘要网络的模型训练和优化。该强化学习的奖励函数主要由多样性奖励函数和代表性奖励函数两部分的线性和构成，其中多样性奖励函数通过计算特征空间中选定视频帧之间的差异性来评估多样性程度，即如果将所有选中的视频帧记为，则为计算所选视频帧成对之间差异的平均值；代表性奖励函数衡量代表原始视频的程度，即期望选择的一系列候选视频帧和最近中心点的平均误差均值最小。多样性奖励函数和代表性奖励函数可采用现有技术。

步骤3)中，输入步骤1)得到的原始视频的结构化数据至训练和优化后的深度摘要网络模型，预测每个视频帧被选择的概率，得到短视频候选素材选择的结果数据(即视频帧重要度预测分数)，视频帧被选择的概率越大，则视频帧重要度预测分数越高，越容易被选择合成并输出相应的短视频媒体文件。

与现有技术相比，本发明具有如下优点：

本发明基于深度强化学习的体育赛事全场回顾短视频生成方法，围绕体育赛事新闻短视频生成过程中镜头分割、短视频候选素材选择和短视频生成等关键技术，实现体育赛事新闻中全场回顾短视频生成中数据处理、素材库构建以及短视频应用等基本功能模块的自动化作业。本发明方法在短视频生成过程中，解决了体育赛事视频由于数据自身的复杂性而导致处理困难的问题，同时融合了全场回顾新闻要素的性质要求，生成出符合体育赛事新闻需求的短视频。

附图说明

图1为本发明基于深度强化学习的体育赛事全场回顾短视频生成方法的流程示意图；

图2为本发明方法实施例输入的体育赛事原始视频的示意图；

图3为本发明方法实施例由数据处理得到的原始视频的结构化数据的示意图；

图4为本发明方法实施例由深度摘要网络得到的视频帧重要度预测分数的示意图；

图5为本发明方法实施例由结果补齐得到的完整预测分数的示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

如图1所示，一种基于深度强化学习的体育赛事全场回顾短视频生成方法，其特征在于包含以下步骤：

一、输入体育赛事原始视频，依次进行数据预处理，得到原始视频预处理数据，通过镜头分割得到镜头相关的数据，通过特征提取得到特征序列，并以结构化的数据格式存储，得到原始视频的结构化数据；

数据预处理包括视频预分割、视频帧提取和视频采样；

视频帧提取包括：

视频采样包括：

原始视频预处理数据包括：原始视频的全部视频帧以及采样视频帧索引。

镜头分割包括：

识别镜头转换点(shot change point)具体包括

特征提取包括：

二、采用编码器-解码器(encoder-decoder)的深度学习网络结构构建用于短视频候选素材选择的深度摘要网络模型，输入原始视频的结构化数据至深度摘要网络模型，采用强化学习的方式，以代表性奖励函数和差异性奖励函数为目标奖励函数，训练和优化深度摘要网络模型；

短视频候选素材选择通过深度摘要网络模型预测原始视频中每个视频帧被选择的概率实现；

深度摘要网络模型，具体包括：

三、输入原始视频的结构化数据至训练和优化后的深度摘要网络模型，得到短视频候选素材选择的结果数据(即视频帧重要度预测分数)，合成并输出相应的短视频媒体文件，完成体育赛事全场回顾短视频生成。

输入原始视频的结构化数据至训练和优化后的深度摘要网络模型，预测每个视频帧被选择的概率，得到短视频候选素材选择的结果数据(即视频帧重要度预测分数)，视频帧被选择的概率越大，则视频帧重要度预测分数越高，越容易被选择合成并输出相应的短视频媒体文件。

本发明具体的实施例如下：

1)输入体育赛事原始视频，依次进行数据预处理，镜头分割和特征提取，并以结构化的数据格式存储，完成原始视频数据的输入、处理和持久化，得到原始视频的结构化数据。

1.1)数据预处理部分主要包含视频预分割、提取视频帧和视频采样操作，其中视频预分割部分作为一个可选的功能，目的是在原始数据的基础上提供一个人为可控的视频分割接口，通过位置参数的方式对原始视频指定位置进行预先分割；视频帧提取部分将原始视频转换为视频帧，在工程目录中以原始视频编号为文件夹名，全部视频帧为文件夹下内容文件的方式存储；视频采样部分通过降采样的方式对原始视频提取的视频帧进行采样，简单压缩视频，降低不必要的计算成本。

1.2)镜头分割部分通过识别镜头转换点来分割镜头，计算和存储镜头相关的数据资源，例如转换点坐标、镜头区间、镜头数量、镜头内视频帧数量等。针对体育赛事视频，在基于时间和空间两个维度的镜头分割算法基础上，采用一种基于分层粒度的镜头分割算法，兼顾粗粒度和细粒度两个层次维度，保证分割算法同时具备主观镜头和客观镜头的分割能力，实现多粒度的镜头分割方式。

所述的一种基于分层粒度的镜头分割算法具体过程为：

首先，对视频帧序列集合V中的视频帧进行遍历，计算相邻视频帧在HSV空间中的x²直方图差异，如果差异值大于阈值θ，则将该视频帧放入粗粒度分割集合C，否则继续遍历。然后，遍历粗粒度分割集合C，对于集合C中相邻的视频帧元素索引映射在集合V的区间，使用基于核函数的时间分割KTS(kernel-based temporal segmentation)算法计算镜头转换点，并将结果放入细粒度分割集合F。最后，粗粒度分割集合C和细粒度分割集合F的并集为最终分割结果，即镜头转换点集合S。

1.3)特征提取部分利用深度学习技术进行原始视频中视频帧图像的特征序列提取工作，将原始视频转换为计算机能够识别的特征序列。主要采用的深度学习网络结构为GoogLeNet和ResNet及其不同实现版本的TensorFlow预训练模型，即对于每一个预训练模型，输出最后的全连接层作为图像的特征序列。此外，由于体育赛事视频中的大部分连续视频帧内容相近，因此在计算机视觉上的特征序列也相近，为了减少不必要的计算成本，提高算法效率和系统性能，只针对原始视频采样后的视频帧进行特征提取工作。

1.4)对于数据处理中所有部分的结果数据进行整理和汇总，以结构化的数据格式持久化，完成原始视频数据的输入、处理和存储工作，得到原始视频的结构化数据。

2)输入原始视频的结构化数据，采用编码器-解码器的深度学习网络结构，构建用于短视频候选素材选择的深度摘要网络，预测原始视频中每个视频帧被选择的概率。

输入如图3所示的原始视频结构化数据，采用深度摘要网络进行模型的构建。该深度摘要网络由编码器和解码器两部分组成，其中编码器部分是一个对视频帧进行特征提取的卷积神经网络(CNN)，即从输入视频帧中提取长度为T的视觉特征解码器部分是一个双向循环神经网络(BiRNN)和一个全连接层(FC)，BiRNN将整个视觉特征作为输入，得到相应的隐藏状态每个隐藏状态h_t都由前向隐藏状态和反向隐藏状态共同关联得到，包含了围绕视频帧t^th未来和过去的信息，FC层则以sigmoid函数作为结束，预测每个视频帧被选择的概率，从而完成对原始视频的视频帧序列采样和摘要的操作。

3)输入深度摘要网络和体育赛事原始视频的结构化数据集，采用强化学习的方式，以代表性和差异性为目标奖励函数，训练和优化深度摘要网络模型。该强化学习的奖励函数主要由多样性奖励函数和代表性奖励函数两部分的线性和构成，其中多样性奖励函数通过计算特征空间中选定视频帧之间的差异性来评估多样性程度，即如果将所有选中的视频帧记为，则为计算所选视频帧成对之间差异的平均值；代表性奖励函数衡量代表原始视频的程度，即期望选择的一系列候选视频帧和最近中心点的平均误差均值最小。

4)输入待预测原始视频的结构化数据，通过深度摘要网络模型计算得到短视频候选素材选择的结果数据，即视频帧重要度预测分数，合成并输出相应的短视频媒体文件。

4.1)输入如图2所示的待预测体育赛事原始视频，经过步骤1)得到如图3所示的待预测原始视频的结构化数据。

4.2)输入待预测原始视频的结构化数据，通过深度摘要网络模型计算得到如图4所示的全场回顾短视频候选素材选择的结果数据，即原始视频中每个视频帧被选择概率的预测分数。

4.3)由于步骤4.2)是建立在采样的基础上，所以得到的视频帧重要度预测分数的结果数据只针对采样的视频帧，并非原始视频的全部视频帧。因此，需要对原始视频的全部视频帧进行预测结果补齐，即根据镜头分割的结果文件和采样的视频帧索引进行原始视频帧结果的映射，对属于同一镜头的视频帧将该镜头内全部采样视频帧的预测分数的平均值作为最终预测分数，补齐原始视频全部视频帧的重要度预测分数，如图5所示。

4.4)完成结果补齐后，需要对短视频候选素材选择的结果文件以素材文件的方式进行相应的组织管理和持久化存储。该素材文件采用H5文件的形式存储，将原始视频的编号作为H5文件的索引键值，其余数据作为该索引键值。

4.5)在素材文件的基础上，设置相应的视频格式参数后，使用OpenCV库进行视频合成，输出最终短视频的媒体文件。

Claims

1.一种基于深度强化学习的体育赛事全场回顾短视频生成方法，其特征在于，包含以下步骤：

2)采用编码器-解码器的深度学习网络结构构建用于短视频候选素材选择的深度摘要网络模型，输入步骤1)得到的原始视频的结构化数据至深度摘要网络模型，采用强化学习的方式，以代表性奖励函数和差异性奖励函数为目标奖励函数，训练和优化深度摘要网络模型；

3)输入步骤1)得到的原始视频的结构化数据至训练和优化后的深度摘要网络模型，预测每个视频帧被选择的概率，得到短视频候选素材选择的结果数据，合成并输出相应的短视频媒体文件，完成体育赛事全场回顾短视频生成。

2.根据权利要求1所述的基于深度强化学习的体育赛事全场回顾短视频生成方法，其特征在于，步骤1)中，所述的数据预处理包括视频预分割、视频帧提取和视频采样。

3.根据权利要求2所述的基于深度强化学习的体育赛事全场回顾短视频生成方法，其特征在于，所述的视频帧提取包括：

将预分割的视频转换为视频帧，在工程目录中以原始视频编号为文件夹名，全部视频帧为文件夹下内容文件的方式存储。

4.根据权利要求1所述的基于深度强化学习的体育赛事全场回顾短视频生成方法，其特征在于，步骤1)中，所述的原始视频预处理数据包括：原始视频的全部视频帧以及采样视频帧索引。

5.根据权利要求1所述的基于深度强化学习的体育赛事全场回顾短视频生成方法，其特征在于，步骤1)中，所述的镜头分割包括：

将原始视频预处理数据通过识别镜头转换点来分割镜头，计算和存储镜头相关的数据；

所述的识别镜头转换点具体包括：

对原始视频预处理数据中的全部视频帧的集合V中的视频帧进行遍历，计算相邻视频帧在HSV颜色空间中的直方图差异，如果差异值大于阈值θ，则将该视频帧放入集合形成空间维度分割集合C，否则继续遍历，然后，遍历空间维度分割集合C，对于空间维度分割集合C中相邻的视频帧索引映射在全部视频帧的集合V的区间，使用基于核函数的时间分割算法KTS计算镜头转换点，将镜头转换点对应的视频帧放入集合形成时间维度分割集合F，最后，空间维度分割集合C和时间维度分割集合F并集为最终分割结果，即识别镜头转换点的集合S。

6.根据权利要求1所述的基于深度强化学习的体育赛事全场回顾短视频生成方法，其特征在于，步骤1)中，所述的特征提取包括：

利用深度学习技术进行原始视频预处理数据中采样视频帧索引所对应的视频帧图像的特征序列提取工作，转换为计算机能够识别的特征序列。

7.根据权利要求1所述的基于深度强化学习的体育赛事全场回顾短视频生成方法，其特征在于，步骤2)中，所述的短视频候选素材选择通过深度摘要网络模型预测原始视频中每个视频帧被选择的概率实现。

8.根据权利要求1所述的基于深度强化学习的体育赛事全场回顾短视频生成方法，其特征在于，步骤2)中，所述的深度摘要网络模型，具体包括：

编码器部分是一个对视频帧进行特征提取的卷积神经网络，从输入视频帧中提取长度为T的特征序列即步骤1)得到所述的特征序列；表示原始视频预处理数据中采样视频帧索引所对应的视频帧，V_t表示第t个视频帧，表示原始视频预处理数据中采样视频帧索引所对应视频帧的特征序列，x_t表示第t个视频帧的特征序列；

解码器部分是一个双向循环神经网络和一个全连接层，双向循环神经网络将整个特征序列作为输入，得到相应的隐藏状态表示原始视频预处理数据中采样视频帧索引所对应视频帧的隐藏状态，h_t表示第t个的隐藏状态，每个隐藏状态h_t都由前向隐藏状态和反向隐藏状态共同关联得到，包含了围绕第t个视频帧未来和过去的信息，FC层则以sigmoid函数作为结束，预测每个视频帧被选择的概率。