CN114339455A

CN114339455A - 一种基于音频特征的短视频预告片自动生成方法及系统

Info

Publication number: CN114339455A
Application number: CN202111598708.8A
Authority: CN
Inventors: 王晶
Original assignee: Space Shichuang Chongqing Technology Co ltd
Current assignee: Space Shichuang Chongqing Technology Co ltd
Priority date: 2021-12-24
Filing date: 2021-12-24
Publication date: 2022-04-12
Anticipated expiration: 2041-12-24
Also published as: CN114339455B

Abstract

本发明涉及视频处理技术领域，具体公开了一种基于音频特征的短视频预告片自动生成方法及系统，其中方法包括如下步骤：解码步骤：将原视频拆分为多个片段，并进行解码；切分步骤：解码后根据每帧在HSV色彩空间中的距离切分镜头，并计算每帧的HLS特征；特征提取步骤：使用目标检测器每隔预设时间提取一次目标特征；音频特征提取步骤：提取短期音频特征和中期音频特征；得分预测步骤：统计每个镜头的最终精彩程度预测得分；输出步骤：选出得分最高的若干个镜头，按时间排序镜头，合并相邻镜头，返回起止时间；根据镜头的起止时间以及设置的时长自动截取并拼接成对应的短视频预告片。采用本发明的技术方案能够保留视频中精彩镜头。

Description

一种基于音频特征的短视频预告片自动生成方法及系统

技术领域

本发明涉及视频处理技术领域，特别涉及一种基于音频特征的短视频预告片自动生成方法及系统。

背景技术

自上世纪以来，人类积攒了海量高质量影视资源，涵盖了电影、综艺节目、电视剧等影视类型。随着影视技术和设备的发展，已有大量视频的时长接近甚至超过一小时。近年来，随着生活节奏的加快，用户更喜欢把时间花在更紧凑的短视频上，短视频分享平台也越来越受欢迎。互联网上大批创作者也开始使用短视频为电影、电视剧等时长较长的影视资源引流。

短视频虽然短小，但内容完整，且包含大量精彩内容，因而短视频的制作需要耗费大量精力。现阶段的将影视资源制作成短视频主要采用人工剪辑的方式，然而影视资源时长可能达数小时，并且其中包含了大量平凡无趣的镜头，这无疑占用了创作者的大量时间用于筛选片段。随着人工智能技术的发展，计算机理解并自动编辑视频成为了可能，这便催生了短视频自动生成的需求，但是如何去掉大量平凡无趣的镜头，只保留精彩的，对大部分用户具有吸引力镜头成了需要解决的问题。

为此，需要一种能够保留视频中精彩镜头的基于音频特征的短视频预告片自动生成方法及系统。

发明内容

本发明提供了一种基于音频特征的短视频预告片自动生成方法，能够保留视频中精彩镜头。

为了解决上述技术问题，本申请提供如下技术方案：

一种基于音频特征的短视频预告片自动生成方法，包括如下步骤：

解码步骤：将原视频拆分为多个片段，并进行解码；

切分步骤：解码后根据每帧在HSV色彩空间中的距离切分镜头，并计算每帧的HLS特征；

特征提取步骤：使用目标检测器每隔预设时间提取一次目标特征；

音频特征提取步骤：提取短期音频特征和中期音频特征；

得分预测步骤：对短期音频特征求密度得到短期音频的精彩程度预测得分；根据HLS特征和目标特征进行投票得到视频的精彩程度得分；根据中期音频特征进行投票得到中期音频的精彩程度预测得分；统计每个镜头的三类得分作为镜头的最终精彩程度预测得分；

输出步骤：选出得分最高的若干个镜头，按时间排序镜头，合并相邻镜头，返回起止时间；根据镜头的起止时间以及设置的时长自动截取并拼接成对应的短视频预告片。

基础方案原理及有益效果如下：

本方案中，将原视频拆分为多个片段，进行解码，可以降低处理器的压力。由于镜头与镜头之间的帧在HSV色彩空间中的距离存在差异，由此可以进行不同镜头的切分。再获取目标特征、短期音频特征和中期音频特征，预测其精彩程度的得分，得到每个镜头精彩程度预测得分。最后，按照精彩程度由高到低的顺序，就可以自动截取并拼接成对应的短视频预告片。

综上，本方案以原视频中音频特征为基础，识别其中的精彩程度得分，再保留精彩程度得分高的镜头，也就能够保留视频中的精彩镜头，从而输出简短、有吸引力的短视频预告片，还能节省制作预告片的时间成本，直接将精彩镜头拼凑成短视频预告片，也能在一定程度上起到引流的作用。

进一步，所述得分预测步骤中，使用滑动汉明窗口对短期音频特征求密度得到短期音频的精彩程度预测得分；

使用若干个异常检测器根据HLS特征和目标特征进行投票得到视频的精彩程度得分；

使用若干个异常检测器根据中期音频特征进行投票得到中期音频的精彩程度预测得分；

统计每个镜头的三类得分作为镜头的最终精彩程度预测得分。

进一步，所述输出步骤前，还包括边界确定步骤：使用汉明窗平滑短期音频的能量特征波形，找到镜头边界邻域内能量波形的极小值点，若该极小值点和镜头边界相距预设范围内，则将该极小值点作为新的镜头边界。

极小值点和镜头边界相距预设范围，表明音频存在不自然截断的情况，本优选方案可以避免音频的不自然截断对视听造成的不良影响。

进一步，所述切分步骤切分镜头时，若连续两帧在HSV色彩空间中三通道差值的平均值大于以下值：

则认为两帧不连续，被判定为不同的镜头；反之，若平均值不大于该值，或式中x小于fps，则判定两帧处于同一镜头；式中，x为该镜头中当前帧的序号，fps为帧率。

通过HSV色彩空间中三通道差值的方式，可以找出不同镜头在数值上的区别，进而对镜头进行准确切分。

进一步，所述短期音频特征包括短时平均过零率、短时能量、能量熵、频谱中心、频谱延展度、谱熵、频谱通量、频谱滚降点、13项梅尔频率倒谱系数、12级音阶、彩度向量标准方差；中期音频特征是短期音频特征的时序均值。

进一步，还包括缺失检测步骤：检测音频缺失的片段并标记。

进一步，所述输出步骤前还包括筛选步骤，筛选掉音频缺失的片段，按时间截掉片头片尾。

避免输出的短视频预告片中混入音频的缺失片段对视听造成不良影响。

进一步，所述解码步骤中，每个片段交由一个进程进行解码。

相比与单独的进程进行解码，可以提高解码的速度。

基于音频特征的短视频预告片自动生成系统，在生成短视频预告片时，使用上述基于音频特征的短视频预告片自动生成方法。

附图说明

图1为实施例一一种基于音频特征的短视频预告片自动生成方法的流程图。

具体实施方式

下面通过具体实施方式进一步详细说明：

实施例一

如图1所示，本实施例的一种基于音频特征的短视频预告片自动生成方法，包括如下步骤：

S1、将原视频拆分为多个片段，每个片段交由一个进程进行解码；

S2、解码后根据每帧在HSV色彩空间中的距离切分镜头，并计算每帧的HLS特征；

具体的，若连续两帧在HSV色彩空间中三通道差值的平均值大于以下值：

(其中x为该镜头中当前帧的序号，fps为帧率)，则认为两帧不连续，被判定为不同的镜头；反之，若平均值不大于该值，或式中x小于fps(即保证镜头的持续时长不小于1s)，则判定两帧处于同一镜头。

每相邻两帧的色度(Hue)、亮度(Lightness)、饱和度(Saturation)三个颜色通道的差值在此称为HLS特征，可用于推断剧情节奏。

S3、使用目标检测器每隔预设时间提取一次目标特征；本实施例中，预设时间为1秒，目标特征指使用目标检测器对一帧画面检测出的六项特征，即人数、非人物体数、人与非人物体总数、人占区域大小、非人物体占区域大小、人和非人物体占区域总大小。目标检测器采用YOLOv5。

S4、提取短期音频特征和中期音频特征；本实施例中，短期指的是按50ms为一段做切分，中期指的是按1s为一段做切分。

短期音频特征是使用python的pyAudioAnalysis包提取出的34类音频特征，包括短时平均过零率、短时能量、能量熵、频谱中心、频谱延展度、谱熵、频谱通量、频谱滚降点、13项梅尔频率倒谱系数、12级音阶、彩度向量标准方差，中期音频特征是短期音频特征的时序均值。

S5、检测音频缺失的片段并标记，防止音视频因音频段的缺失而错位；

S6、使用滑动汉明窗口对短期音频特征求密度得到短期音频的精彩程度预测得分；具体的，计算该音频段和滑窗内其余所有镜头的余弦相似度，求其加权和作为该音频段的密度。经常程度预测得分与密度呈负相关的线性关系。也就是密度越低，精彩程度预测得分越高。现有通常采用异常检测器投票选出的镜头作为预告片镜头。由于短期音频特征数据量大，所以本实施例中使用滑动汉明窗口计算局部的密度代替异常检测器的投票结果。可以节省算力，能够保证计算速度。

使用若干个异常检测器根据HLS特征和目标特征进行投票得到视频的精彩程度得分；异常检测器的数量可以是任意的，但数量太多会拖慢执行速度，太少又会使得投票机制失去意义。本实施例中使用的4个异常检测器为HBOS、LOF、OCSVM、IForest，它们速度较快，能得到速度和准确率的较好权衡。投票时，每个异常检测器检测每个数据点(一段音频或一帧画面)的异常程度，若判定数据点异常则投出一票。数据点收到的票数越多则得分越高。

本实施例中，使用包括HBOS、LOF、OCSVM、IForest、MCD、FeatureBagging六类检测器，每类一个。投票方式同上。

S7、使用汉明窗平滑短期音频的能量特征波形，找到镜头边界邻域内能量波形的极小值点，若该极小值点和镜头边界相距预设范围内，则将该极小值点作为新的镜头边界，从而避免音频的不自然截断。若对镜头边界的调整力度过小，易导致视觉的不流畅，反之，若调整力度过大，则易引入过多其他镜头的内容。本实施例中，极小值点与镜头边界的距离在1s到5s的预设范围内。

S8、筛选掉音频缺失的片段，按预存的片头片尾时间截掉片头片尾。由于通常不会对片头片尾做精确分割(精确分割会花费较多的时间)，所以不能保证截掉的片头片尾中不包含正片，因此若一开始就截掉片头片尾，会导致第一个片段和最后一个片段语义不完整，不利于后续的音频特征提取和评分，而等到选出所有镜头后再截掉包含片头片尾的视频片段，可以避免该现象；而且片头片尾占总时长的比例很小，最后将其截掉，对总耗时的影响占比很小。

S9、选出得分最高的若干镜头，按时间排序镜头，合并相邻镜头，返回起止时间；根据镜头的起止时间以及设置的时长自动截取并拼接成对应的短视频预告片。本实施例中，相邻是指时序相邻。镜头的得分在此只起到了排序的作用，由于最终输出的是总时长符合要求的镜头集合，所以从最高分开始依次选取镜头，直到所选镜头集合的总时长满足要求。因此，需要选出得分最高的若干镜头。

本实施例还提供一种基于音频特征的短视频预告片自动生成系统，在生成短视频预告片时，使用上述基于音频特征的短视频预告片自动生成方法。

本实施例中，对长视频做自动切片及初步筛选，将长视频的精彩镜头挑选出来，能节省制作预告片的时间成本，直接将得分高的精彩镜头拼凑成短视频预告片，可以提高创作者的生产效率，也能在一定程度上对长视频起到引流的作用。

以上的仅是本发明的实施例，该发明不限于此实施案例涉及的领域，方案中公知的具体结构及特性等常识在此未作过多描述，所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识，能够获知该领域中所有的现有技术，并且具有应用该日期之前常规实验手段的能力，所属领域普通技术人员可以在本申请给出的启示下，结合自身能力完善并实施本方案，一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本申请的障碍。应当指出，对于本领域的技术人员来说，在不脱离本发明结构的前提下，还可以作出若干变形和改进，这些也应该视为本发明的保护范围，这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准，说明书中的具体实施方式等记载可以用于解释权利要求的内容。

Claims

1.一种基于音频特征的短视频预告片自动生成方法，其特征在于，包括如下步骤：

解码步骤：将原视频拆分为多个片段，并进行解码；

音频特征提取步骤：提取短期音频特征和中期音频特征；

2.根据权利要求1所述的基于音频特征的短视频预告片自动生成方法，其特征在于：所述得分预测步骤中，使用滑动汉明窗口对短期音频特征求密度得到短期音频的精彩程度预测得分；

3.根据权利要求1所述的基于音频特征的短视频预告片自动生成方法，其特征在于：所述输出步骤前，还包括边界确定步骤：使用汉明窗平滑短期音频的能量特征波形，找到镜头边界邻域内能量波形的极小值点，若该极小值点和镜头边界相距预设范围内，则将该极小值点作为新的镜头边界。

4.根据权利要求1所述的基于音频特征的短视频预告片自动生成方法，其特征在于：所述切分步骤切分镜头时，若连续两帧在HSV色彩空间中三通道差值的平均值大于以下值：

5.根据权利要求1所述的基于音频特征的短视频预告片自动生成方法，其特征在于：所述短期音频特征包括短时平均过零率、短时能量、能量熵、频谱中心、频谱延展度、谱熵、频谱通量、频谱滚降点、13项梅尔频率倒谱系数、12级音阶、彩度向量标准方差；中期音频特征是短期音频特征的时序均值。

6.根据权利要求1所述的基于音频特征的短视频预告片自动生成方法，其特征在于：还包括缺失检测步骤：检测音频缺失的片段并标记。

7.根据权利要求6所述的基于音频特征的短视频预告片自动生成方法，其特征在于：所述输出步骤前还包括筛选步骤，筛选掉音频缺失的片段，按时间截掉片头片尾。

8.根据权利要求1所述的基于音频特征的短视频预告片自动生成方法，其特征在于：所述解码步骤中，每个片段交由一个进程进行解码。

9.一种基于音频特征的短视频预告片自动生成系统，其特征在于，在生成短视频预告片时，使用权利要求1-8任一项所述的基于音频特征的短视频预告片自动生成方法。