CN116843643B

CN116843643B - 一种视频美学质量评价数据集构造方法

Info

Publication number: CN116843643B
Application number: CN202310798121.4A
Authority: CN
Inventors: 康晨
Original assignee: BEIJING LANGUAGE AND CULTURE UNIVERSITY
Current assignee: BEIJING LANGUAGE AND CULTURE UNIVERSITY
Priority date: 2023-07-03
Filing date: 2023-07-03
Publication date: 2024-01-16
Anticipated expiration: 2043-07-03
Also published as: CN116843643A

Abstract

本发明提出一种视频美学质量评价数据集构造方法，包括以下步骤：数据准备，内容识别与视频分割，视频质量检测，视频美学质量标注以及数据整理。本方法可按美学质量评价研究需求自动整理、筛选、构建大规模的视频美学质量分类数据集，仅在数据质量评测模块使用人工。数据规模与开源数据规模和视频长度参数设定有关。本发明克服了现有视频美学质量标注方法需要标注者高度参与、成本高、难度大的问题。

Description

一种视频美学质量评价数据集构造方法

技术领域

本发明属于计算机图像处理技术领域，特别设计一种视频美学质量评价数据集构造方法。

背景技术

随着信息设备和技术的发展，人们可以越来越方便地获得、修改、传播照片和视频等媒体文件，这对能够自动评价图像和视频媒体文件的美学质量的评价功能提出需求。近年来大部分美学质量评价算法都是使用数据驱动的深度学习技术，因此高质量的数据集是科研工作者进行算法改进的基础，完善视频美学质量数据集是推动相关算法实质性突破的必要条件，对理论和应用发展有关键作用。其中，视频美学质量数据集的资源最为匮乏，使用人类标注员的视频美学质量标注成本高、重复实验环境的难度大，导致视频的美学质量水平难以被标注、标注后难以扩充。

视频美学质量评价数据主要分为三大类：(1)美感分类；(2)美感评分；(3)美感间接评价。美学质量数据的评价范围主要包括媒体文件整体及媒体文件美感的影响因素。已有的评价研究收集视频整体的美感评分和影响因素间接评价，目前已存在的公开的真实视频美学质量数据集的数量少，每个数据集中的视频数量常为两千个以内，视频质量与现代生产生活中的视频质量差距较大，不适用于深度学习技术的视频美学质量评价研究。

随着视频识别和理解技术的发展，计算机可以自动对视频的内容进行识别和理解，同时人工智能及视频信息处理领域收集了海量视频识别数据集用于动作识别、内容理解等，这为利用深度学习技术自动构造适用于更广泛场景的视频美学质量分类问题的视频美学质量数据集提供了可能。

本方法可按美学质量评价研究需求自动整理、筛选、构建大规模的视频美学质量分类数据集，仅在数据质量评测模块使用人工。数据规模与开源数据规模和视频长度参数设定有关。

发明内容

为了克服现有视频美学质量标注方法需要标注者高度参与、成本高、难度大的困难，本发明提出一种利用深度学习模型构造适用于视频美学质量分类问题的视频美学质量数据集的方法。

本发明的一种视频美学质量评价数据集构造方法包括以下步骤：

步骤1、数据准备，整合数据资源；收集、整合已公开的视频数据集和电影视频数据集，并将视频转换为统一格式；

步骤2、对数据集中的视频进行内容识别和标注并对视频进行片段分割；依次读入视频，遍历帧，利用深度学习模型中的视频分类模型和视频理解模型对视频进行内容识别和标注获得语义标签，同时采用视频分割模型对视频进行片段分割，分割视频为短视频片段和长视频片段，短视频片段为t₁秒/个，t₁＝3～10，长视频片段为t₂秒/个，t₂＝20～30；

步骤3、对视频片段进行质量检测，对短视频片段集合X₁和长视频片段集合X₂中的视频的语义标签和数据质量进行控制和筛选，在每类语义标签对应的视频片段中随机抽取视频片段，作为锚点视频，人工校验锚点视频的语义标签和视频片段相似程度，统计语义标签自动标注的准确率和视频片段相似程度；

步骤4、标注视频美学质量分类并完善标签，为所有视频片段自动标注美学质量分类；

步骤5、将视频数据集和标签数据整理，存储为数据集。

进一步，步骤1具体包括以下步骤，

步骤1.1、收集、整理公开的视频数据集，公开的视频数据集包含的视频为非电影视频或电影视频，该电影视频为无版权电影视频，每个视频用FFmpeg转换为mp4格式；

步骤1.2、收集电影视频作为电影视频数据集，该电影视频为公开版权的电影，每个视频用FFmpeg转换为mp4格式；

步骤1.3、收集、整理上述视频中的包括视频长度、现有标签、类别、作者、年代的信息，作为已有信息标签；

步骤1.4、选择具有特定标签的视频作为准备数据，其中特定标签从已有信息标签中选择。

进一步，步骤2具体包括以下步骤，

步骤2.1、通过OpenCV函数库读入视频，遍历视频中的帧；

步骤2.2、利用使用深度学习模型的视频分类模型和视频理解模型对视频进行内容检测获得语义标签和对应的时刻位置，语义标签代表视频的内容，语义标签包括主体、动作、内容描述信息；

对能获得语义标签的视频，进行语义标签和时刻位置的记录，对应的视频片段集合为X；对不能检测到任何语义标签的视频随机抽取保留时刻，其中短视频保留n₁个时刻位置，长视频保留n₂个时刻位置，每个时刻位置对应的语义标签标记为空，对应的视频片段集合为Y；

步骤2.3、遍历每个视频中记录的时刻位置；

步骤2.4、从视频的每个记录的时刻位置起，取t₁秒长度视频片段，使用基于内容的视频场景检测函数对视频片段的视频场景变化进行检测，场景检测函数将视频由RGB形式表示转为HSV形式表示空间，并计算相邻两帧的明度平均值的差值，如果差值高于阈值θ则认为在这两帧发生了一次场景变化；

若在t₁秒长度内检测到场景变化次数多于a次，其中，a≥1，则视频片段中场景变化过快，舍弃该视频片段及其对应的语义标签和时刻位置，进入下一帧，重复步骤2.4；否则，则判断从时刻位置开始的窗口时间段内是否存在其他由语义标签标记的时刻位置，窗口时间段长度可设为δ秒，若存在且该时刻位置起始的视频片段未被舍弃，则不截取，否则，截取t₁秒长度的视频，并保留该帧对应的语义标签和时刻位置，最终保留的视频片段为短视频片段集合X₁，其中，δ<t₁；

步骤2.5、从每个取短视频的时刻位置开始对t₂秒内的视频进行截取，得到的长视频片段集合X₂。

进一步，步骤3中，如果标注准确率低，则需要对步骤2中的深度学习模型进行调整；如果视频片段相似程度高，则需要对步骤2中的场景检测函数和阈值θ、δ参数进行调整。

进一步，步骤4具体包括以下步骤，

步骤4.1、使用连续词袋模型CBOW或Skip-Gram模型获得短视频片段集合X₁和长视频片段集合X₂中的视频片段的语义标签和已有信息标签的词向量，进行K-means聚类，获得语义标签的类别，如果视频片段的语义标签相似，则这些视频片段构成一个类别子集，在每个类别中，分为长视频片段和短视频片段。

步骤4.2、使用FFmpeg对数据集Y中未检测到语义标签的视频片段和人工校验过的锚点视频抽取关键帧，再提取关键帧的内容特征，对各个视频片段中关键帧对应的内容特征进行整合，获得视频的整体内容特征，计算数据集Y中视频片段与锚点视频的内容特征相似度，相似度大于阈值ρ的按照锚点视频的标签为未标记视频片段标记上语义弱标签，相似度小于阈值ρ的视频片段舍弃；

步骤4.3、以电影视频为美学质量高，以非电影视频为美学质量低，对视频片段的美学质量进行分类标注。

进一步，步骤5具体包括以下步骤，

步骤5.1、对视频的标签数据进行整理和存储，视频标签数据包括已有信息标签、各视频片段的语义标签和时刻位置、语义弱标签及其时刻位置和视频片段的美学质量分类；

步骤5.2、对视频进行整理和存储。

此方法可以批量自动化对原始视频进行处理，极大地提高了美学质量评价领域视频数据集构建的效率。

附图说明

图1为简要流程图；

图2为一种视频美学质量评价数据集构造方法的数据处理流程示意图。

具体实施方式

本发明的一种视频美学质量评价数据集构造方法得流程图如图1所示，数据的处理流程如图2所示。具体包括以下步骤：

步骤1、数据准备，整合数据资源，如图2步骤1所示。收集、整合已公开的视频数据集和电影视频的数据集，转换为统一格式。具体如下：

步骤1.1、收集、整理公开的视频数据集。公开的视频数据集包含的视频为非电影视频或电影视频，该电影视频为无版权电影视频。将公开的视频数据集中的视频整合，每个视频用FFmpeg转换为mp4格式。

步骤1.2、收集电影视频作为电影视频数据集，该电影视频为公开版权的电影。每个视频用FFmpeg转换为mp4格式。

步骤1.3、收集、整理上述视频的视频长度、现有标签、类别、作者、年代等相关信息，作为已有信息标签。

步骤2、视频内容识别与视频片段分割，如图2步骤2所示。依次读入视频，遍历帧，利用视频分类模型和视频理解模型对视频进行内容的识别和标注，同时采用视频分割模型对视频进行片段分割。分割视频为短视频片段和长视频片段，短视频片段为t₁秒/个，t₁＝3～10，长视频片段为t₂秒/个，t₂＝20～30。具体如下：

步骤2.1、通过OpenCV函数库读入视频，遍历视频中的帧。

步骤2.2、利用使用深度学习模型的视频分类模型和视频理解模型对视频进行内容检测，获得语义标签和对应的时刻位置。语义标签代表视频的内容，可包括主体、动作、内容描述等。例如，可使用Moments in Time数据集的公开预训练模型对视频进行检测，获得视频的动作信息和动作发生的位置。

对能获得语义标签的视频，进行语义标签和时刻位置的记录，对应的视频片段集合为X；对不能检测到任何语义标签的视频随机抽取保留时刻，其中短视频保留n₁个时刻位置，长视频保留n₂个时刻位置，每个时刻位置对应的语义标签标记为“空”，对应的视频片段集合为Y。

步骤2.3、遍历每个视频中记录的时刻位置；

步骤2.4、从视频的每个记录的时刻位置起，取t₁秒长度视频片段，对片段的视频场景变化进行检测。例如可以使用PySceneDetect工具中基于内容的视频场景检测函数，场景检测函数将视频由RGB表示转为HSV表示空间，并计算相邻两帧的明度平均值的差值，如果差值高于阈值θ则认为在这两帧发生了一次场景变化。场景检测函数可直接调用，也可以自由构建再调用，例如还可以采用比较相邻多帧的明度变化，或比较边缘图变化，或几种方式结合。

若在t₁秒长度内检测到场景变化次数多于a次(a≥1)，则视频片段中场景变化过快，舍弃该视频片段、其对应的语义标签和时刻位置，进入下一帧，重复步骤2.4；否则，则判断从时刻位置起开始的窗口时间段内内是否存在其他由语义标签标记的时刻位置。窗口时间段长度可设为δ秒。若存在且该时刻位置起始的视频片段未被舍弃，则不截取，否则，截取t₁秒长度的视频，并保留该帧对应的语义标签和时刻位置。最终保留的视频片段为短视频片段集合X₁，其中，δ<t₁。

步骤2.5、从每个取短视频的时刻位置开始对t₂秒内的视频进行截取。得到的长视频片段集合X₂。

步骤3、对视频片段进行质量检测，如图2步骤3所示。对X₁和X₂中的视频的语义标签和数据质量进行控制和筛选。在每类语义标签对应的视频片段中随机抽取视频片段，作为锚点视频。人工校验锚点视频的语义标签和视频片段相似程度，统计标签自动标注的准确率。如果标注准确率低，则需要对步骤2中的深度学习模型进行调整；如果视频片段相似程度高，则需要对步骤2中的场景检测函数和阈值θ、δ参数进行调整。

步骤4、标注视频美学质量分类及完善标签，如图2步骤4所示。除了为没有语义标签的视频片段标注语义标签外，所有视频片段均需标注美学质量分类。具体如下：

步骤4.1、使用连续词袋模型(CBOW)或Skip-Gram模型获得X₁和X₂中视频数据的语义标签和已有信息标签的词向量，进行K-means聚类，获得语义标签的类别。如果视频片段的语义标签相似，则这些视频片段构成一个类别子集。在每个类别中，分为长视频片段和短视频片段。

步骤4.2、使用FFmpeg对数据集Y中未检测到语义标签的视频片段和人工校验过的锚点视频抽取关键帧，再提取关键帧的内容特征，对各个片段中关键帧对应的内容特征进行整合，获得视频的整体内容特征。计算数据集Y中视频片段与锚点视频的内容特征相似度，相似度大于阈值ρ的按照锚点视频的标签为未标记视频片段标记上语义弱标签，相似度小于阈值ρ的视频片段舍弃。

其中提取关键帧内容特征和获得视频的整体内容特征可分别使用图像和视频的分类卷积神经网络的公开预训练模型的倒数第二层全连接层输出的特征作为内容特征，例如Resnet50和Yolov3，也可以利用其它相近任务模型，例如Moment Context Network(MCN)等基于内容的视频检索算法中提取视频全局特征的方法。

相似度计算可通过计算特征间的欧式距离获得。欧氏距离与相似度呈反比，若有特征f₁(x₁,x₂,…,x_n)和特征f₂(y₁,y₂,…,y_n)，则二者间欧氏距离公式为：

步骤5、将视频数据和标签数据整理，存储为数据集，如图2步骤5所示。

步骤5.1、对视频标签数据进行整理和存储，视频标签数据包括已有信息标签、各视频片段的语义标签和时刻位置、语义弱标签及其时刻位置和视频片段的美学质量分类。

步骤5.2、对视频进行整理和存储。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种视频美学质量评价数据集构造方法，其特征在于，所述方法具体包括以下步骤，

步骤2、对数据集中的视频进行内容识别和标注并对视频进行片段分割；依次读入视频，遍历帧，利用深度学习模型中的视频分类模型和视频理解模型对视频进行内容识别和标注获得语义标签，同时采用视频分割模型对视频进行片段分割，分割视频为短视频片段和长视频片段，短视频片段为t₁秒/个，t₁=3~10，长视频片段为t₂秒/个，t₂=20~30；

步骤5、将视频数据集和标签数据整理，存储为数据集；

步骤2具体包括以下步骤，

步骤2.1、通过OpenCV函数库读入视频，遍历视频中的帧；

步骤2.2、利用使用深度学习模型的视频分类模型和视频理解模型对视频进行内容检测获得语义标签和对应的时刻位置，语义标签代表视频的内容，语义标签包括主体、动作、内容描述；

步骤2.3、遍历每个视频中记录的时刻位置；

若在t₁秒长度内检测到场景变化次数多于a次，其中，a≥1，则视频片段中场景变化过快，舍弃该视频片段及其对应的语义标签和时刻位置，进入下一帧，重复步骤2.4；否则，则判断从时刻位置起始的窗口时间段内是否存在其他由语义标签标记的时刻位置，窗口时间段长度设为δ秒，若存在且该时刻位置起始的视频片段未被舍弃，则不截取，否则，截取t₁秒长度的视频，并保留该帧对应的语义标签和时刻位置，最终保留的视频片段为短视频片段集合X₁，其中，δ< t₁；

步骤2.5、从每个取短视频的时刻位置开始对t₂秒内的视频进行截取，得到的长视频片段集合X₂；

步骤4具体包括以下步骤，

步骤4.1、使用连续词袋模型CBOW或Skip-Gram模型获得短视频片段集合X₁和长视频片段集合X₂中的视频片段的语义标签和已有信息标签的词向量，进行K-means聚类，获得语义标签的类别，如果视频片段的语义标签相似，则这些视频片段构成一个类别子集，在每个类别中，分为长视频片段和短视频片段；

2.根据权利要求1所述的方法，其特征在于，步骤1具体包括以下步骤，

3.根据权利要求2所述的方法，其特征在于，步骤3中，如果标注准确率低，则需要对步骤2中的深度学习模型进行调整；如果视频片段相似程度高，则需要对步骤2中的场景检测函数和阈值θ、δ参数进行调整。

4.根据权利要求1所述的方法，其特征在于，步骤5具体包括以下步骤，

步骤5.2、对视频进行整理和存储。