CN116843643B - 一种视频美学质量评价数据集构造方法 - Google Patents
一种视频美学质量评价数据集构造方法 Download PDFInfo
- Publication number
- CN116843643B CN116843643B CN202310798121.4A CN202310798121A CN116843643B CN 116843643 B CN116843643 B CN 116843643B CN 202310798121 A CN202310798121 A CN 202310798121A CN 116843643 B CN116843643 B CN 116843643B
- Authority
- CN
- China
- Prior art keywords
- video
- semantic
- data set
- videos
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013441 quality evaluation Methods 0.000 title claims abstract description 14
- 238000010276 construction Methods 0.000 title description 2
- 238000000034 method Methods 0.000 claims abstract description 24
- 238000002372 labelling Methods 0.000 claims abstract description 15
- 238000001514 detection method Methods 0.000 claims abstract description 14
- 230000011218 segmentation Effects 0.000 claims abstract description 9
- 238000002360 preparation method Methods 0.000 claims abstract description 7
- 239000012634 fragment Substances 0.000 claims description 28
- 230000006870 function Effects 0.000 claims description 13
- 230000008859 change Effects 0.000 claims description 12
- 238000013136 deep learning model Methods 0.000 claims description 9
- 238000013145 classification model Methods 0.000 claims description 6
- 230000009471 action Effects 0.000 claims description 3
- 230000014759 maintenance of location Effects 0.000 claims description 3
- 239000013598 vector Substances 0.000 claims description 3
- 230000010354 integration Effects 0.000 claims description 2
- 238000011160 research Methods 0.000 abstract description 5
- 239000003550 marker Substances 0.000 abstract 1
- 238000005516 engineering process Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000003064 k means clustering Methods 0.000 description 2
- 238000001303 quality assessment method Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30168—Image quality inspection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出一种视频美学质量评价数据集构造方法,包括以下步骤:数据准备,内容识别与视频分割,视频质量检测,视频美学质量标注以及数据整理。本方法可按美学质量评价研究需求自动整理、筛选、构建大规模的视频美学质量分类数据集,仅在数据质量评测模块使用人工。数据规模与开源数据规模和视频长度参数设定有关。本发明克服了现有视频美学质量标注方法需要标注者高度参与、成本高、难度大的问题。
Description
技术领域
本发明属于计算机图像处理技术领域,特别设计一种视频美学质量评价数据集构造方法。
背景技术
随着信息设备和技术的发展,人们可以越来越方便地获得、修改、传播照片和视频等媒体文件,这对能够自动评价图像和视频媒体文件的美学质量的评价功能提出需求。近年来大部分美学质量评价算法都是使用数据驱动的深度学习技术,因此高质量的数据集是科研工作者进行算法改进的基础,完善视频美学质量数据集是推动相关算法实质性突破的必要条件,对理论和应用发展有关键作用。其中,视频美学质量数据集的资源最为匮乏,使用人类标注员的视频美学质量标注成本高、重复实验环境的难度大,导致视频的美学质量水平难以被标注、标注后难以扩充。
视频美学质量评价数据主要分为三大类:(1)美感分类;(2)美感评分;(3)美感间接评价。美学质量数据的评价范围主要包括媒体文件整体及媒体文件美感的影响因素。已有的评价研究收集视频整体的美感评分和影响因素间接评价,目前已存在的公开的真实视频美学质量数据集的数量少,每个数据集中的视频数量常为两千个以内,视频质量与现代生产生活中的视频质量差距较大,不适用于深度学习技术的视频美学质量评价研究。
随着视频识别和理解技术的发展,计算机可以自动对视频的内容进行识别和理解,同时人工智能及视频信息处理领域收集了海量视频识别数据集用于动作识别、内容理解等,这为利用深度学习技术自动构造适用于更广泛场景的视频美学质量分类问题的视频美学质量数据集提供了可能。
本方法可按美学质量评价研究需求自动整理、筛选、构建大规模的视频美学质量分类数据集,仅在数据质量评测模块使用人工。数据规模与开源数据规模和视频长度参数设定有关。
发明内容
为了克服现有视频美学质量标注方法需要标注者高度参与、成本高、难度大的困难,本发明提出一种利用深度学习模型构造适用于视频美学质量分类问题的视频美学质量数据集的方法。
本发明的一种视频美学质量评价数据集构造方法包括以下步骤:
步骤1、数据准备,整合数据资源;收集、整合已公开的视频数据集和电影视频数据集,并将视频转换为统一格式;
步骤2、对数据集中的视频进行内容识别和标注并对视频进行片段分割;依次读入视频,遍历帧,利用深度学习模型中的视频分类模型和视频理解模型对视频进行内容识别和标注获得语义标签,同时采用视频分割模型对视频进行片段分割,分割视频为短视频片段和长视频片段,短视频片段为t1秒/个,t1=3~10,长视频片段为t2秒/个,t2=20~30;
步骤3、对视频片段进行质量检测,对短视频片段集合X1和长视频片段集合X2中的视频的语义标签和数据质量进行控制和筛选,在每类语义标签对应的视频片段中随机抽取视频片段,作为锚点视频,人工校验锚点视频的语义标签和视频片段相似程度,统计语义标签自动标注的准确率和视频片段相似程度;
步骤4、标注视频美学质量分类并完善标签,为所有视频片段自动标注美学质量分类;
步骤5、将视频数据集和标签数据整理,存储为数据集。
进一步,步骤1具体包括以下步骤,
步骤1.1、收集、整理公开的视频数据集,公开的视频数据集包含的视频为非电影视频或电影视频,该电影视频为无版权电影视频,每个视频用FFmpeg转换为mp4格式;
步骤1.2、收集电影视频作为电影视频数据集,该电影视频为公开版权的电影,每个视频用FFmpeg转换为mp4格式;
步骤1.3、收集、整理上述视频中的包括视频长度、现有标签、类别、作者、年代的信息,作为已有信息标签;
步骤1.4、选择具有特定标签的视频作为准备数据,其中特定标签从已有信息标签中选择。
进一步,步骤2具体包括以下步骤,
步骤2.1、通过OpenCV函数库读入视频,遍历视频中的帧;
步骤2.2、利用使用深度学习模型的视频分类模型和视频理解模型对视频进行内容检测获得语义标签和对应的时刻位置,语义标签代表视频的内容,语义标签包括主体、动作、内容描述信息;
对能获得语义标签的视频,进行语义标签和时刻位置的记录,对应的视频片段集合为X;对不能检测到任何语义标签的视频随机抽取保留时刻,其中短视频保留n1个时刻位置,长视频保留n2个时刻位置,每个时刻位置对应的语义标签标记为空,对应的视频片段集合为Y;
步骤2.3、遍历每个视频中记录的时刻位置;
步骤2.4、从视频的每个记录的时刻位置起,取t1秒长度视频片段,使用基于内容的视频场景检测函数对视频片段的视频场景变化进行检测,场景检测函数将视频由RGB形式表示转为HSV形式表示空间,并计算相邻两帧的明度平均值的差值,如果差值高于阈值θ则认为在这两帧发生了一次场景变化;
若在t1秒长度内检测到场景变化次数多于a次,其中,a≥1,则视频片段中场景变化过快,舍弃该视频片段及其对应的语义标签和时刻位置,进入下一帧,重复步骤2.4;否则,则判断从时刻位置开始的窗口时间段内是否存在其他由语义标签标记的时刻位置,窗口时间段长度可设为δ秒,若存在且该时刻位置起始的视频片段未被舍弃,则不截取,否则,截取t1秒长度的视频,并保留该帧对应的语义标签和时刻位置,最终保留的视频片段为短视频片段集合X1,其中,δ<t1;
步骤2.5、从每个取短视频的时刻位置开始对t2秒内的视频进行截取,得到的长视频片段集合X2。
进一步,步骤3中,如果标注准确率低,则需要对步骤2中的深度学习模型进行调整;如果视频片段相似程度高,则需要对步骤2中的场景检测函数和阈值θ、δ参数进行调整。
进一步,步骤4具体包括以下步骤,
步骤4.1、使用连续词袋模型CBOW或Skip-Gram模型获得短视频片段集合X1和长视频片段集合X2中的视频片段的语义标签和已有信息标签的词向量,进行K-means聚类,获得语义标签的类别,如果视频片段的语义标签相似,则这些视频片段构成一个类别子集,在每个类别中,分为长视频片段和短视频片段。
步骤4.2、使用FFmpeg对数据集Y中未检测到语义标签的视频片段和人工校验过的锚点视频抽取关键帧,再提取关键帧的内容特征,对各个视频片段中关键帧对应的内容特征进行整合,获得视频的整体内容特征,计算数据集Y中视频片段与锚点视频的内容特征相似度,相似度大于阈值ρ的按照锚点视频的标签为未标记视频片段标记上语义弱标签,相似度小于阈值ρ的视频片段舍弃;
步骤4.3、以电影视频为美学质量高,以非电影视频为美学质量低,对视频片段的美学质量进行分类标注。
进一步,步骤5具体包括以下步骤,
步骤5.1、对视频的标签数据进行整理和存储,视频标签数据包括已有信息标签、各视频片段的语义标签和时刻位置、语义弱标签及其时刻位置和视频片段的美学质量分类;
步骤5.2、对视频进行整理和存储。
此方法可以批量自动化对原始视频进行处理,极大地提高了美学质量评价领域视频数据集构建的效率。
附图说明
图1为简要流程图;
图2为一种视频美学质量评价数据集构造方法的数据处理流程示意图。
具体实施方式
本发明的一种视频美学质量评价数据集构造方法得流程图如图1所示,数据的处理流程如图2所示。具体包括以下步骤:
步骤1、数据准备,整合数据资源,如图2步骤1所示。收集、整合已公开的视频数据集和电影视频的数据集,转换为统一格式。具体如下:
步骤1.1、收集、整理公开的视频数据集。公开的视频数据集包含的视频为非电影视频或电影视频,该电影视频为无版权电影视频。将公开的视频数据集中的视频整合,每个视频用FFmpeg转换为mp4格式。
步骤1.2、收集电影视频作为电影视频数据集,该电影视频为公开版权的电影。每个视频用FFmpeg转换为mp4格式。
步骤1.3、收集、整理上述视频的视频长度、现有标签、类别、作者、年代等相关信息,作为已有信息标签。
步骤1.4、选择具有特定标签的视频作为准备数据,其中特定标签从已有信息标签中选择。
步骤2、视频内容识别与视频片段分割,如图2步骤2所示。依次读入视频,遍历帧,利用视频分类模型和视频理解模型对视频进行内容的识别和标注,同时采用视频分割模型对视频进行片段分割。分割视频为短视频片段和长视频片段,短视频片段为t1秒/个,t1=3~10,长视频片段为t2秒/个,t2=20~30。具体如下:
步骤2.1、通过OpenCV函数库读入视频,遍历视频中的帧。
步骤2.2、利用使用深度学习模型的视频分类模型和视频理解模型对视频进行内容检测,获得语义标签和对应的时刻位置。语义标签代表视频的内容,可包括主体、动作、内容描述等。例如,可使用Moments in Time数据集的公开预训练模型对视频进行检测,获得视频的动作信息和动作发生的位置。
对能获得语义标签的视频,进行语义标签和时刻位置的记录,对应的视频片段集合为X;对不能检测到任何语义标签的视频随机抽取保留时刻,其中短视频保留n1个时刻位置,长视频保留n2个时刻位置,每个时刻位置对应的语义标签标记为“空”,对应的视频片段集合为Y。
步骤2.3、遍历每个视频中记录的时刻位置;
步骤2.4、从视频的每个记录的时刻位置起,取t1秒长度视频片段,对片段的视频场景变化进行检测。例如可以使用PySceneDetect工具中基于内容的视频场景检测函数,场景检测函数将视频由RGB表示转为HSV表示空间,并计算相邻两帧的明度平均值的差值,如果差值高于阈值θ则认为在这两帧发生了一次场景变化。场景检测函数可直接调用,也可以自由构建再调用,例如还可以采用比较相邻多帧的明度变化,或比较边缘图变化,或几种方式结合。
若在t1秒长度内检测到场景变化次数多于a次(a≥1),则视频片段中场景变化过快,舍弃该视频片段、其对应的语义标签和时刻位置,进入下一帧,重复步骤2.4;否则,则判断从时刻位置起开始的窗口时间段内内是否存在其他由语义标签标记的时刻位置。窗口时间段长度可设为δ秒。若存在且该时刻位置起始的视频片段未被舍弃,则不截取,否则,截取t1秒长度的视频,并保留该帧对应的语义标签和时刻位置。最终保留的视频片段为短视频片段集合X1,其中,δ<t1。
步骤2.5、从每个取短视频的时刻位置开始对t2秒内的视频进行截取。得到的长视频片段集合X2。
步骤3、对视频片段进行质量检测,如图2步骤3所示。对X1和X2中的视频的语义标签和数据质量进行控制和筛选。在每类语义标签对应的视频片段中随机抽取视频片段,作为锚点视频。人工校验锚点视频的语义标签和视频片段相似程度,统计标签自动标注的准确率。如果标注准确率低,则需要对步骤2中的深度学习模型进行调整;如果视频片段相似程度高,则需要对步骤2中的场景检测函数和阈值θ、δ参数进行调整。
步骤4、标注视频美学质量分类及完善标签,如图2步骤4所示。除了为没有语义标签的视频片段标注语义标签外,所有视频片段均需标注美学质量分类。具体如下:
步骤4.1、使用连续词袋模型(CBOW)或Skip-Gram模型获得X1和X2中视频数据的语义标签和已有信息标签的词向量,进行K-means聚类,获得语义标签的类别。如果视频片段的语义标签相似,则这些视频片段构成一个类别子集。在每个类别中,分为长视频片段和短视频片段。
步骤4.2、使用FFmpeg对数据集Y中未检测到语义标签的视频片段和人工校验过的锚点视频抽取关键帧,再提取关键帧的内容特征,对各个片段中关键帧对应的内容特征进行整合,获得视频的整体内容特征。计算数据集Y中视频片段与锚点视频的内容特征相似度,相似度大于阈值ρ的按照锚点视频的标签为未标记视频片段标记上语义弱标签,相似度小于阈值ρ的视频片段舍弃。
其中提取关键帧内容特征和获得视频的整体内容特征可分别使用图像和视频的分类卷积神经网络的公开预训练模型的倒数第二层全连接层输出的特征作为内容特征,例如Resnet50和Yolov3,也可以利用其它相近任务模型,例如Moment Context Network(MCN)等基于内容的视频检索算法中提取视频全局特征的方法。
相似度计算可通过计算特征间的欧式距离获得。欧氏距离与相似度呈反比,若有特征f1(x1,x2,…,xn)和特征f2(y1,y2,…,yn),则二者间欧氏距离公式为:
步骤4.3、以电影视频为美学质量高,以非电影视频为美学质量低,对视频片段的美学质量进行分类标注。
步骤5、将视频数据和标签数据整理,存储为数据集,如图2步骤5所示。
步骤5.1、对视频标签数据进行整理和存储,视频标签数据包括已有信息标签、各视频片段的语义标签和时刻位置、语义弱标签及其时刻位置和视频片段的美学质量分类。
步骤5.2、对视频进行整理和存储。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种视频美学质量评价数据集构造方法,其特征在于,所述方法具体包括以下步骤,
步骤1、数据准备,整合数据资源;收集、整合已公开的视频数据集和电影视频数据集,并将视频转换为统一格式;
步骤2、对数据集中的视频进行内容识别和标注并对视频进行片段分割;依次读入视频,遍历帧,利用深度学习模型中的视频分类模型和视频理解模型对视频进行内容识别和标注获得语义标签,同时采用视频分割模型对视频进行片段分割,分割视频为短视频片段和长视频片段,短视频片段为t1秒/个,t1=3~10,长视频片段为t2秒/个,t2=20~30;
步骤3、对视频片段进行质量检测,对短视频片段集合X1和长视频片段集合X2中的视频的语义标签和数据质量进行控制和筛选,在每类语义标签对应的视频片段中随机抽取视频片段,作为锚点视频,人工校验锚点视频的语义标签和视频片段相似程度,统计语义标签自动标注的准确率和视频片段相似程度;
步骤4、标注视频美学质量分类并完善标签,为所有视频片段自动标注美学质量分类;
步骤5、将视频数据集和标签数据整理,存储为数据集;
步骤2具体包括以下步骤,
步骤2.1、通过OpenCV函数库读入视频,遍历视频中的帧;
步骤2.2、利用使用深度学习模型的视频分类模型和视频理解模型对视频进行内容检测获得语义标签和对应的时刻位置,语义标签代表视频的内容,语义标签包括主体、动作、内容描述;
对能获得语义标签的视频,进行语义标签和时刻位置的记录,对应的视频片段集合为X;对不能检测到任何语义标签的视频随机抽取保留时刻,其中短视频保留n1个时刻位置,长视频保留n2个时刻位置,每个时刻位置对应的语义标签标记为空,对应的视频片段集合为Y;
步骤2.3、遍历每个视频中记录的时刻位置;
步骤2.4、从视频的每个记录的时刻位置起,取t1秒长度视频片段,使用基于内容的视频场景检测函数对视频片段的视频场景变化进行检测,场景检测函数将视频由RGB形式表示转为HSV形式表示空间,并计算相邻两帧的明度平均值的差值,如果差值高于阈值θ则认为在这两帧发生了一次场景变化;
若在t1秒长度内检测到场景变化次数多于a次,其中,a≥1,则视频片段中场景变化过快,舍弃该视频片段及其对应的语义标签和时刻位置,进入下一帧,重复步骤2.4;否则,则判断从时刻位置起始的窗口时间段内是否存在其他由语义标签标记的时刻位置,窗口时间段长度设为δ秒,若存在且该时刻位置起始的视频片段未被舍弃,则不截取,否则,截取t1秒长度的视频,并保留该帧对应的语义标签和时刻位置,最终保留的视频片段为短视频片段集合X1,其中,δ< t1;
步骤2.5、从每个取短视频的时刻位置开始对t2秒内的视频进行截取,得到的长视频片段集合X2;
步骤4具体包括以下步骤,
步骤4.1、使用连续词袋模型CBOW或Skip-Gram模型获得短视频片段集合X1和长视频片段集合X2中的视频片段的语义标签和已有信息标签的词向量,进行K-means聚类,获得语义标签的类别,如果视频片段的语义标签相似,则这些视频片段构成一个类别子集,在每个类别中,分为长视频片段和短视频片段;
步骤4.2、使用FFmpeg对数据集Y中未检测到语义标签的视频片段和人工校验过的锚点视频抽取关键帧,再提取关键帧的内容特征,对各个视频片段中关键帧对应的内容特征进行整合,获得视频的整体内容特征,计算数据集Y中视频片段与锚点视频的内容特征相似度,相似度大于阈值ρ的按照锚点视频的标签为未标记视频片段标记上语义弱标签,相似度小于阈值ρ的视频片段舍弃;
步骤4.3、以电影视频为美学质量高,以非电影视频为美学质量低,对视频片段的美学质量进行分类标注。
2.根据权利要求1所述的方法,其特征在于,步骤1具体包括以下步骤,
步骤1.1、收集、整理公开的视频数据集,公开的视频数据集包含的视频为非电影视频或电影视频,该电影视频为无版权电影视频,每个视频用FFmpeg转换为mp4格式;
步骤1.2、收集电影视频作为电影视频数据集,该电影视频为公开版权的电影,每个视频用FFmpeg转换为mp4格式;
步骤1.3、收集、整理上述视频中的包括视频长度、现有标签、类别、作者、年代的信息,作为已有信息标签;
步骤1.4、选择具有特定标签的视频作为准备数据,其中特定标签从已有信息标签中选择。
3.根据权利要求2所述的方法,其特征在于,步骤3中,如果标注准确率低,则需要对步骤2中的深度学习模型进行调整;如果视频片段相似程度高,则需要对步骤2中的场景检测函数和阈值θ、δ参数进行调整。
4.根据权利要求1所述的方法,其特征在于,步骤5具体包括以下步骤,
步骤5.1、对视频的标签数据进行整理和存储,视频标签数据包括已有信息标签、各视频片段的语义标签和时刻位置、语义弱标签及其时刻位置和视频片段的美学质量分类;
步骤5.2、对视频进行整理和存储。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310798121.4A CN116843643B (zh) | 2023-07-03 | 2023-07-03 | 一种视频美学质量评价数据集构造方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310798121.4A CN116843643B (zh) | 2023-07-03 | 2023-07-03 | 一种视频美学质量评价数据集构造方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116843643A CN116843643A (zh) | 2023-10-03 |
CN116843643B true CN116843643B (zh) | 2024-01-16 |
Family
ID=88168389
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310798121.4A Active CN116843643B (zh) | 2023-07-03 | 2023-07-03 | 一种视频美学质量评价数据集构造方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116843643B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663015A (zh) * | 2012-03-21 | 2012-09-12 | 上海大学 | 基于特征袋模型和监督学习的视频语义标注方法 |
WO2015003341A1 (zh) * | 2013-07-10 | 2015-01-15 | 中国科学院自动化研究所 | 基于质量元数据的视频分类器构造方法 |
CN105677735A (zh) * | 2015-12-30 | 2016-06-15 | 腾讯科技(深圳)有限公司 | 一种视频搜索方法及装置 |
CN110853032A (zh) * | 2019-11-21 | 2020-02-28 | 北京航空航天大学 | 基于多模态深度学习的无人机视频美学质量评价方法 |
CN111199541A (zh) * | 2019-12-27 | 2020-05-26 | Oppo广东移动通信有限公司 | 图像质量评价方法、装置、电子设备及存储介质 |
CN113392744A (zh) * | 2021-06-04 | 2021-09-14 | 北京格灵深瞳信息技术股份有限公司 | 舞蹈动作美感确认方法、装置、电子设备及存储介质 |
WO2021190078A1 (zh) * | 2020-03-26 | 2021-09-30 | 华为技术有限公司 | 短视频的生成方法、装置、相关设备及介质 |
CN115795096A (zh) * | 2022-11-28 | 2023-03-14 | 北京电影学院 | 一种影视素材的视频元数据标注方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8238615B2 (en) * | 2009-09-25 | 2012-08-07 | Eastman Kodak Company | Method for comparing photographer aesthetic quality |
US8756233B2 (en) * | 2010-04-16 | 2014-06-17 | Video Semantics | Semantic segmentation and tagging engine |
BR102016007265B1 (pt) * | 2016-04-01 | 2022-11-16 | Samsung Eletrônica da Amazônia Ltda. | Método multimodal e em tempo real para filtragem de conteúdo sensível |
US10474903B2 (en) * | 2018-01-25 | 2019-11-12 | Adobe Inc. | Video segmentation using predictive models trained to provide aesthetic scores |
US20210004600A1 (en) * | 2019-07-01 | 2021-01-07 | Banjo, Inc. | Assessing video stream quality |
-
2023
- 2023-07-03 CN CN202310798121.4A patent/CN116843643B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663015A (zh) * | 2012-03-21 | 2012-09-12 | 上海大学 | 基于特征袋模型和监督学习的视频语义标注方法 |
WO2015003341A1 (zh) * | 2013-07-10 | 2015-01-15 | 中国科学院自动化研究所 | 基于质量元数据的视频分类器构造方法 |
CN105677735A (zh) * | 2015-12-30 | 2016-06-15 | 腾讯科技(深圳)有限公司 | 一种视频搜索方法及装置 |
CN110853032A (zh) * | 2019-11-21 | 2020-02-28 | 北京航空航天大学 | 基于多模态深度学习的无人机视频美学质量评价方法 |
CN111199541A (zh) * | 2019-12-27 | 2020-05-26 | Oppo广东移动通信有限公司 | 图像质量评价方法、装置、电子设备及存储介质 |
WO2021190078A1 (zh) * | 2020-03-26 | 2021-09-30 | 华为技术有限公司 | 短视频的生成方法、装置、相关设备及介质 |
CN113392744A (zh) * | 2021-06-04 | 2021-09-14 | 北京格灵深瞳信息技术股份有限公司 | 舞蹈动作美感确认方法、装置、电子设备及存储介质 |
CN115795096A (zh) * | 2022-11-28 | 2023-03-14 | 北京电影学院 | 一种影视素材的视频元数据标注方法 |
Non-Patent Citations (1)
Title |
---|
Video Aesthetic Quality Assessment by Temporal Integration of Photo- and Motion-Based Features;Hsin-Ho Yeh et al;IEEE TRANSACTIONS ON MULTIMEDIA;第15卷(第8期);1944-1957页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116843643A (zh) | 2023-10-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112418117B (zh) | 一种基于无人机图像的小目标检测方法 | |
CN102414680B (zh) | 利用跨域知识的语义事件检测 | |
Chu et al. | Camera as weather sensor: Estimating weather information from single images | |
US8358856B2 (en) | Semantic event detection for digital content records | |
CN102346847B (zh) | 一种支持向量机的车牌字符识别方法 | |
WO2015096565A1 (zh) | 图像中的目标物的识别方法及装置 | |
CN108427713B (zh) | 一种用于自制视频的视频摘要方法及系统 | |
CN103530638B (zh) | 多摄像头下的行人匹配方法 | |
CN102007499A (zh) | 检测数字图像中的脸部表情 | |
CN104732413A (zh) | 一种智能个性化视频广告推送方法及系统 | |
CN111046886A (zh) | 号码牌自动识别方法、装置、设备及计算机可读存储介质 | |
CN103745240A (zh) | 一种基于Haar分类器和ORB特征的人脸检索方法及系统 | |
CN110222582B (zh) | 一种图像处理方法和相机 | |
CN104978567A (zh) | 基于场景分类的车辆检测方法 | |
Elguebaly et al. | Simultaneous high-dimensional clustering and feature selection using asymmetric Gaussian mixture models | |
CN110008365B (zh) | 一种图像处理方法、装置、设备及可读存储介质 | |
CN106778834A (zh) | 一种基于距离测度学习的ap聚类图像标注方法 | |
CN105930792A (zh) | 一种基于视频局部特征字典的人体动作分类方法 | |
Davila et al. | Fcn-lecturenet: extractive summarization of whiteboard and chalkboard lecture videos | |
Sikirić et al. | Classifying traffic scenes using the GIST image descriptor | |
CN106844785A (zh) | 一种基于显著性分割的基于内容的图像检索方法 | |
CN110765285A (zh) | 基于视觉特征的多媒体信息内容管控方法及系统 | |
CN115497124A (zh) | 身份识别方法和装置及存储介质 | |
CN114781647A (zh) | 一种区分简单与困难样本的无监督域适应方法 | |
CN116843643B (zh) | 一种视频美学质量评价数据集构造方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |