CN114286199B

CN114286199B - 一种基于神经网络模型的短视频片段自动生成方法及系统

Info

Publication number: CN114286199B
Application number: CN202111598610.2A
Authority: CN
Inventors: 王晶
Original assignee: Space Shichuang Chongqing Technology Co ltd
Current assignee: Space Shichuang Chongqing Technology Co ltd
Priority date: 2021-12-24
Filing date: 2021-12-24
Publication date: 2023-08-18
Anticipated expiration: 2041-12-24
Also published as: CN114286199A

Abstract

本发明涉及视频处理技术领域，具体公开了一种基于神经网络模型的短视频片段自动生成方法及系统，其中方法包括如下步骤：过滤冗余或残缺的镜头并按时间对过滤后的镜头排序；将排序后的镜头输入预训练的第二神经网络模型，从第二神经网络模型获得场景边界的输出结果，根据场景边界划分场景；使用二分法递归地拆分时长大于第一阈值的场景，并判断时长小于第二阈值的场景是否相邻且相似，若相邻且相似，进行合并；统计场景中每个镜头在特征空间中的密度，根据密度计算场景分值；根据场景分值对场景进行倒序排列并返回对应的场景起止时间；根据场景的起止时间以及设置的时长截出视频片段。采用本发明的技术方案能够保留视频中的精彩场景。

Description

一种基于神经网络模型的短视频片段自动生成方法及系统

技术领域

本发明涉及视频处理技术领域，特别涉及一种基于神经网络模型的短视频片段自动生成方法及系统。

背景技术

自上世纪以来，人类积攒了海量高质量影视资源，涵盖了电影、综艺节目、电视剧等影视类型。随着影视技术和设备的发展，已有大量视频的时长接近甚至超过一小时。近年来，随着生活节奏的加快，用户更喜欢把时间花在更紧凑的短视频上，短视频分享平台也越来越受欢迎。互联网上大批创作者也开始使用短视频为电影、电视剧等时长较长的影视资源引流。

短视频虽然短小，但内容完整，且包含大量精彩内容，因而短视频的制作需要耗费大量精力。现阶段的将影视资源制作成短视频主要采用人工剪辑的方式，然而影视资源时长可能达数小时，并且其中包含了大量平凡无趣的镜头或场景，这无疑占用了创作者的大量时间用于筛选片段。随着人工智能技术的发展，计算机理解并自动编辑视频成为了可能，这便催生了短视频自动生成的需求，但是如何去掉大量平凡无趣的镜头或场景，只保留精彩的，对大部分用户具有吸引力镜头或场景成了需要解决的问题。

为此，需要一种能够保留视频中精彩场景的基于神经网络模型的短视频片段自动生成方法及系统。

发明内容

本发明的目的之一在于提供一种基于神经网络模型的短视频片段自动生成方法，能够保留视频中的精彩场景。

为了解决上述技术问题，本申请提供如下技术方案：

一种基于神经网络模型的短视频片段自动生成方法，包括如下步骤：

S1、将待处理视频分成若干个片段，对每个片段进行解码；

S2、根据解码后片段的每帧在HSV色彩空间中的距离切分镜头，对每个镜头做下采样保留预设帧数；

S3、使用预训练的第一神经网络模型提取帧级特征，并平均池化为镜头级特征；

S4、过滤冗余或残缺的镜头并按时间对过滤后的镜头排序；

S5、将排序后的镜头输入预训练的第二神经网络模型，从第二神经网络模型获得场景边界的输出结果，根据场景边界划分场景；

S6、使用二分法递归地拆分时长大于第一阈值的场景，并判断时长小于第二阈值的场景是否相邻且相似，若相邻且相似，进行合并；

S7、统计场景中每个镜头在特征空间中的密度，根据密度计算场景分值；

S8、根据场景分值对场景进行倒序排列并返回对应的场景起止时间；根据场景的起止时间以及设置的时长截出视频片段。

基础方案原理及有益效果如下：

本方案中，将待处理视频分成若干个片段，对每个片段进行单独解码，可以降低处理压力，再切分镜头并进行下采样，可以减少处理的数据量，进一步降低处理压力，通过提取帧级特征，到达了对一帧画面计算出包含语义信息的视觉特征的目的。采用第一神经网络模型自动执行，可以减少工作量。再通过第二神经网络模型进行场景的划分，可以避免因为场景混乱让人无法正确理解视频所表达内容的情况。计算场景的分值，根据场景分值对场景进行倒序排列，保证分值高的场景排在靠前的位置。也就是完成了平凡无趣场景，与精彩场景的筛选，将精彩的场景排在靠前的位置。再根据场景的起止时间以及设置的时长即可截出视频片段。

综上，本方案使用人工智能技术对待处理视频做自动切片及初步筛选，能够保留视频中的精彩场景，形成简短、有吸引力的短视频，可以节省用户筛选影视片段的时间，也方便了影视素材的再加工。可以辅助创作者制作高质量短视频，提高创作者的生产效率。

进一步，所述步骤S2中，切分镜头时，若连续两帧在HSV色彩空间中三通道差值的平均值大于以下值：

则认为两帧不连续，被判定为不同的镜头；反之，若平均值不大于该值，或式中x小于fps，则判定两帧处于同一镜头；式中，x为该镜头中当前帧的序号，fps为帧率。

通过HSV色彩空间中三通道差值的方式，可以找出不同镜头在数值上的区别，进而对镜头进行准确切分。

进一步，所述步骤S7中，密度越低场景分值越大。

进一步，所述步骤S7中，场景的分值为场景内包含的所有镜头的分值的平均值。

进一步，所述步骤S3中，第一神经网络模型为残差网络。

残差网络具有容易优化，并且能够通过增加相当的深度来提高准确率的特点，在预训练后可以准确提取帧级特征。

进一步，所述步骤S5中，第二神经网络模型为视觉模态的LGSS神经网络模型。

LGSS是用于场景边界检测的神经网络模型。本优选方案中为了加速计算，使用了仅视觉模态的LGSS模型；由于生产的视频片段有时长限制，所以放弃了动态规划算法，改用二分法；该模型的参数由MovieNet数据集训练得到。

本发明的目的之二在于提供一种基于神经网络模型的短视频片段自动生成系统，包括：

预处理模块，用于将待处理视频分成若干个片段，对每个片段进行解码；

切分模块，用于根据解码后片段的每帧在HSV色彩空间中的距离切分镜头，对每个镜头做下采样保留预设帧数；

特征提取模块，存储有预训练的残差网络，用于将保留的帧输入残差网络，通过残差网络提取帧级特征，并平均池化为镜头级特征；

排序模块，用于过滤冗余或残缺的镜头并按时间对过滤后的镜头排序；

场景划分模块，存储有预训练的视觉模态的LGSS神经网络模型，用于将排序后的镜头输入LGSS神经网络模型，从LGSS神经网络模型获得场景边界的输出结果，根据场景边界划分场景；

拆分模块，用于使用二分法递归地拆分时长大于第一阈值的场景，还用于判断时长小于第二阈值的场景是否相邻且相似，若相邻且相似，进行合并；

分值统计模块，用于统计场景中每个镜头在特征空间中的密度，根据密度计算场景分值；

输出模块，用于根据场景分值对场景进行倒序排列并返回对应的场景起止时间，根据场景的起止时间以及设置的时长自动截出对应的视频片段。

进一步，所述切分模块切分镜头时，判断连续两帧在HSV色彩空间中三通道差值的平均值是否大于以下值：

则大于认为两帧不连续，被判定为不同的镜头；若平均值不大于该值，或式中x小于fps，则判定两帧处于同一镜头；式中，x为该镜头中当前帧的序号，fps为帧率。

进一步，所述分值统计模块根据密度计算场景分值时，密度越低场景分值越大。

进一步，所述场景的分值为场景内包含的所有镜头的分值的平均值。

附图说明

图1为实施例一一种基于神经网络模型的短视频片段自动生成方法的流程图。

具体实施方式

下面通过具体实施方式进一步详细说明：

实施例一

如图1所示，本实施例的一种基于神经网络模型的短视频片段自动生成方法，包括如下步骤：

S1、将待处理视频分成若干个片段，对每个片段进行解码，本实施例中，每个片段交由一个进程解码；片段的数量可以根据实际情况确定。

S2、根据解码后片段的每帧在HSV色彩空间中的距离切分镜头，对每个镜头做下采样保留预设帧数；本实施例为3帧。

具体的，若连续两帧在HSV色彩空间中三通道差值的平均值大于以下值：

(其中x为该镜头中当前帧的序号，fps为帧率)，则认为两帧不连续，被判定为不同的镜头；反之，若平均值不大于该值，或式中x小于fps(即保证镜头的持续时长不小于1s)，则判定两帧处于同一镜头。

S3、使用预训练的第一神经网络模型提取帧级特征，并平均池化为镜头级特征。本实施例中，第一神经网络模型为残差网络，帧级特征指的是使用残差网络对一帧画面计算出的视觉特征，包含了大量语义信息，由于神经网络模型的可解释性仍是一道待解决的难题，因而依赖现有技术难以描述这些特征的具体所指。

S4、过滤冗余或残缺的镜头并按时间对过滤后的镜头排序。本实施例的冗余镜头及残缺镜头是由多进程并行解码拆分镜头造成的，多个进程依据影片总时长平均拆分出多个片段，每个进程负责处理其中一个片段，但这些片段往往并不是从镜头边界处被拆分的，因而会存在残缺的镜头，这些片段也并不是从场景边界处被拆分的，因而会存在不完整的场景，这些不完整的场景包含的镜头是冗余镜头。

S5、将排序后的镜头输入预训练的第二神经网络模型，从第二神经网络模型获得场景边界的输出结果，根据场景边界划分场景；本实施例中，第二神经网络模型为视觉模态的LGSS神经网络模型。

S6、使用二分法递归地拆分时长大于第一阈值的场景，并判断时长小于第二阈值的场景是否相邻且相似，若相邻且相似，进行合并。本实施例中，相邻是指时序相邻，相似指语义相似，为了保证片段连续且完整，有必要满足相邻且相似。

为了保证输出的短视频片段时长在设定范围(例如100s到300s)内，而单个场景可能会过长或过短，因而需要将过长的场景拆分，还需要将过短场景合并，以约束输出片段的时长。

S7、统计场景中每个镜头在特征空间中的密度，根据密度计算场景分值，其中，密度越低场景分值越大。换句话说，使得低密度区域的镜头为场景贡献更大的分值。本实施例中，特征指S3中的镜头级特征，每个镜头的特征是一个向量，空间是指向量作为样本点所在的笛卡尔空间。

“密度”本应是特征空间中单位体积内的镜头数量，但考虑到镜头在特征空间中的分布是离散的，故本实施例中计算该镜头和其余所有镜头的余弦相似度之和作为该镜头在特征空间的密度。

对于单个镜头来说，密度越低，分值越高，且二者呈负相关的线性关系，场景的分值是场景内包含的所有镜头的分值的平均值。现有的通过异常检测器投票选出的镜头有较大概率适合作为预告片镜头，但是基于投票机制的方法速度慢，本实施例基于密度的方法实质是对异常检测方法的极大简化，虽然损失一定效果，但是可以节省算力，能够保证计算速度。

S8、按预存的片头片尾时间截掉片头片尾，根据场景分值对场景进行倒序排列并返回对应的场景起止时间。根据场景的起止时间以及设置的时长自动截出对应的视频片段。

由于通常不会对片头片尾做精确分割(精确分割会花费较多的时间)，所以不能保证截掉的片头片尾中不包含正片，因此若一开始就截掉片头片尾，会导致第一个片段和最后一个片段语义不完整，不利于后续的场景边界检测和场景评分，而等到分割出所有场景后再截掉包含片头片尾的视频片段，可以避免该现象；而且片头片尾占总时长的比例很小，最后将其截掉，对总耗时的影响占比很小。

本实施例使用人工智能技术对待处理视频做自动切片及初步筛选，能够保留视频中的精彩场景，形成简短、有吸引力的短视频，可以节省用户筛选影视片段的时间，也方便了影视素材的再加工。可以辅助创作者制作高质量短视频，提高创作者的生产效率。

实施例二

基于神经网络模型的短视频片段自动生成方法，本实施例还提供一种基于神经网络模型的短视频片段自动生成系统，包括预处理模块、切分模块、特征提取模块、排序模块、拆分模块、分值统计模块和输出模块。

预处理模块用于将待处理视频分成若干个片段，对每个片段进行解码，本实施例中，每个片段交由一个进程解码；片段的数量可以根据实际情况确定。

切分模块用于根据解码后片段的每帧在HSV色彩空间中的距离切分镜头，对每个镜头做下采样保留预设帧数；本实施例为3帧。

(其中x为该镜头中当前帧的序号，fps为帧率)，则认为两帧不连续，切分模块判定为不同的镜头；反之，若平均值不大于该值，或式中x小于fps(即保证镜头的持续时长不小于1s)，则切分模块判定两帧处于同一镜头。

特征提取模块，存储有预训练的第一神经网络模型，用于将保留的帧输入第一神经网络模型，通过第一神经网络模型提取帧级特征，并平均池化为镜头级特征。本实施例中，第一神经网络模型为残差网络，帧级特征指的是使用残差网络对一帧画面计算出的视觉特征，包含了大量语义信息，由于神经网络模型的可解释性仍是一道待解决的难题，因而依赖现有技术难以描述这些特征的具体所指。

排序模块用于过滤冗余或残缺的镜头并按时间对过滤后的镜头排序。本实施例的冗余镜头及残缺镜头是由多进程并行解码拆分镜头造成的，多个进程依据影片总时长平均拆分出多个片段，每个进程负责处理其中一个片段，但这些片段往往并不是从镜头边界处被拆分的，因而会存在残缺的镜头，这些片段也并不是从场景边界处被拆分的，因而会存在不完整的场景，这些不完整的场景包含的镜头是冗余镜头。

场景划分模块，存储有预训练的第二神经网络模型，用于将排序后的镜头输入第二神经网络模型，从第二神经网络模型获得场景边界的输出结果，根据场景边界划分场景；本实施例中，第二神经网络模型为视觉模态的LGSS神经网络模型。

拆分模块，用于使用二分法递归地拆分时长大于第一阈值的场景，还用于判断时长小于第二阈值的场景是否相邻且相似，若相邻且相似，进行合并。本实施例中，相邻是指时序相邻，相似指语义相似，为了保证片段连续且完整，有必要满足相邻且相似。

分值统计模块，用于统计场景中每个镜头在特征空间中的密度，根据密度计算场景分值，其中，密度越低场景分值越大。换句话说，使得低密度区域的镜头为场景贡献更大的分值。本实施例中，特征指S3中的镜头级特征，每帧的帧级特征是一个向量，空间是指向量作为样本点所在的笛卡尔空间。

对于单个镜头来说，密度越低，分值越高，且二者呈负相关的线性关系，场景的分值是场景内包含的所有镜头的分值的平均值。通过密度值来评分，可以节省算力。

输出模块，用于按时间截掉片头片尾，还用于根据场景分值对场景进行倒序排列并返回对应的场景起止时间，根据场景的起止时间以及设置的时长自动截出对应的视频片段。

以上的仅是本发明的实施例，该发明不限于此实施案例涉及的领域，方案中公知的具体结构及特性等常识在此未作过多描述，所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识，能够获知该领域中所有的现有技术，并且具有应用该日期之前常规实验手段的能力，所属领域普通技术人员可以在本申请给出的启示下，结合自身能力完善并实施本方案，一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本申请的障碍。应当指出，对于本领域的技术人员来说，在不脱离本发明结构的前提下，还可以作出若干变形和改进，这些也应该视为本发明的保护范围，这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准，说明书中的具体实施方式等记载可以用于解释权利要求的内容。

Claims

1.一种基于神经网络模型的短视频片段自动生成方法，其特征在于，包括如下步骤：

S1、将待处理视频分成若干个片段，对每个片段进行解码；

S4、过滤冗余或残缺的镜头并按时间对过滤后的镜头排序；

2.根据权利要求1所述的基于神经网络模型的短视频片段自动生成方法，其特征在于：所述步骤S2中，切分镜头时，若连续两帧在HSV色彩空间中三通道差值的平均值大于以下值：

3.根据权利要求1所述的基于神经网络模型的短视频片段自动生成方法，其特征在于：所述步骤S7中，密度越低场景分值越大。

4.根据权利要求3所述的基于神经网络模型的短视频片段自动生成方法，其特征在于：所述步骤S7中，场景的分值为场景内包含的所有镜头的分值的平均值。

5.根据权利要求1所述的基于神经网络模型的短视频片段自动生成方法，其特征在于：所述步骤S3中，第一神经网络模型为残差网络。

6.根据权利要求1所述的基于神经网络模型的短视频片段自动生成方法，其特征在于：所述步骤S5中，第二神经网络模型为视觉模态的LGSS神经网络模型。

7.一种基于神经网络模型的短视频片段自动生成系统，其特征在于，包括：

8.根据权利要求7所述的基于神经网络模型的短视频片段自动生成系统，其特征在于：所述切分模块切分镜头时，判断连续两帧在HSV色彩空间中三通道差值的平均值是否大于以下值：

9.根据权利要求7所述的基于神经网络模型的短视频片段自动生成系统，其特征在于：所述分值统计模块根据密度计算场景分值时，密度越低场景分值越大。

10.根据权利要求9所述的基于神经网络模型的短视频片段自动生成系统，其特征在于：所述场景的分值为场景内包含的所有镜头的分值的平均值。