CN116843643A - 一种视频美学质量评价数据集构造方法 - Google Patents

一种视频美学质量评价数据集构造方法 Download PDF

Info

Publication number
CN116843643A
CN116843643A CN202310798121.4A CN202310798121A CN116843643A CN 116843643 A CN116843643 A CN 116843643A CN 202310798121 A CN202310798121 A CN 202310798121A CN 116843643 A CN116843643 A CN 116843643A
Authority
CN
China
Prior art keywords
video
data set
videos
semantic
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310798121.4A
Other languages
English (en)
Other versions
CN116843643B (zh
Inventor
康晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING LANGUAGE AND CULTURE UNIVERSITY
Original Assignee
BEIJING LANGUAGE AND CULTURE UNIVERSITY
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING LANGUAGE AND CULTURE UNIVERSITY filed Critical BEIJING LANGUAGE AND CULTURE UNIVERSITY
Priority to CN202310798121.4A priority Critical patent/CN116843643B/zh
Publication of CN116843643A publication Critical patent/CN116843643A/zh
Application granted granted Critical
Publication of CN116843643B publication Critical patent/CN116843643B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30168Image quality inspection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种视频美学质量评价数据集构造方法,包括以下步骤:数据准备,内容识别与视频分割,视频质量检测,视频美学质量标注以及数据整理。本方法可按美学质量评价研究需求自动整理、筛选、构建大规模的视频美学质量分类数据集,仅在数据质量评测模块使用人工。数据规模与开源数据规模和视频长度参数设定有关。本发明克服了现有视频美学质量标注方法需要标注者高度参与、成本高、难度大的问题。

Description

一种视频美学质量评价数据集构造方法
技术领域
本发明属于计算机图像处理技术领域,特别设计一种视频美学质量评价数据集构造方法。
背景技术
随着信息设备和技术的发展,人们可以越来越方便地获得、修改、传播照片和视频等媒体文件,这对能够自动评价图像和视频媒体文件的美学质量的评价功能提出需求。近年来大部分美学质量评价算法都是使用数据驱动的深度学习技术,因此高质量的数据集是科研工作者进行算法改进的基础,完善视频美学质量数据集是推动相关算法实质性突破的必要条件,对理论和应用发展有关键作用。其中,视频美学质量数据集的资源最为匮乏,使用人类标注员的视频美学质量标注成本高、重复实验环境的难度大,导致视频的美学质量水平难以被标注、标注后难以扩充。
视频美学质量评价数据主要分为三大类:(1)美感分类;(2)美感评分;(3)美感间接评价。美学质量数据的评价范围主要包括媒体文件整体及媒体文件美感的影响因素。已有的评价研究收集视频整体的美感评分和影响因素间接评价,目前已存在的公开的真实视频美学质量数据集的数量少,每个数据集中的视频数量常为两千个以内,视频质量与现代生产生活中的视频质量差距较大,不适用于深度学习技术的视频美学质量评价研究。
随着视频识别和理解技术的发展,计算机可以自动对视频的内容进行识别和理解,同时人工智能及视频信息处理领域收集了海量视频识别数据集用于动作识别、内容理解等,这为利用深度学习技术自动构造适用于更广泛场景的视频美学质量分类问题的视频美学质量数据集提供了可能。
本方法可按美学质量评价研究需求自动整理、筛选、构建大规模的视频美学质量分类数据集,仅在数据质量评测模块使用人工。数据规模与开源数据规模和视频长度参数设定有关。
发明内容
为了克服现有视频美学质量标注方法需要标注者高度参与、成本高、难度大的困难,本发明提出一种利用深度学习模型构造适用于视频美学质量分类问题的视频美学质量数据集的方法。
本发明的一种视频美学质量评价数据集构造方法包括以下步骤:
步骤1、数据准备,整合数据资源;收集、整合已公开的视频数据集和电影视频数据集,并将视频转换为统一格式;
步骤2、对数据集中的视频进行内容识别和标注并对视频进行片段分割;依次读入视频,遍历帧,利用深度学习模型中的视频分类模型和视频理解模型对视频进行内容识别和标注获得语义标签,同时采用视频分割模型对视频进行片段分割,分割视频为短视频片段和长视频片段,短视频片段为t1秒/个,t1=3~10,长视频片段为t2秒/个,t2=20~30;
步骤3、对视频片段进行质量检测,对短视频片段集合X1和长视频片段集合X2中的视频的语义标签和数据质量进行控制和筛选,在每类语义标签对应的视频片段中随机抽取视频片段,作为锚点视频,人工校验锚点视频的语义标签和视频片段相似程度,统计语义标签自动标注的准确率和视频片段相似程度;
步骤4、标注视频美学质量分类并完善标签,为所有视频片段自动标注美学质量分类;
步骤5、将视频数据集和标签数据整理,存储为数据集。
进一步,步骤1具体包括以下步骤,
步骤1.1、收集、整理公开的视频数据集,公开的视频数据集包含的视频为非电影视频或电影视频,该电影视频为无版权电影视频,每个视频用FFmpeg转换为mp4格式;
步骤1.2、收集电影视频作为电影视频数据集,该电影视频为公开版权的电影,每个视频用FFmpeg转换为mp4格式;
步骤1.3、收集、整理上述视频中的包括视频长度、现有标签、类别、作者、年代的信息,作为已有信息标签;
步骤1.4、选择具有特定标签的视频作为准备数据,其中特定标签从已有信息标签中选择。
进一步,步骤2具体包括以下步骤,
步骤2.1、通过OpenCV函数库读入视频,遍历视频中的帧;
步骤2.2、利用使用深度学习模型的视频分类模型和视频理解模型对视频进行内容检测获得语义标签和对应的时刻位置,语义标签代表视频的内容,语义标签包括主体、动作、内容描述信息;
对能获得语义标签的视频,进行语义标签和时刻位置的记录,对应的视频片段集合为X;对不能检测到任何语义标签的视频随机抽取保留时刻,其中短视频保留n1个时刻位置,长视频保留n2个时刻位置,每个时刻位置对应的语义标签标记为空,对应的视频片段集合为Y;
步骤2.3、遍历每个视频中记录的时刻位置;
步骤2.4、从视频的每个记录的时刻位置起,取t1秒长度视频片段,使用基于内容的视频场景检测函数对视频片段的视频场景变化进行检测,场景检测函数将视频由RGB形式表示转为HSV形式表示空间,并计算相邻两帧的明度平均值的差值,如果差值高于阈值θ则认为在这两帧发生了一次场景变化;
若在t1秒长度内检测到场景变化次数多于a次,其中,a≥1,则视频片段中场景变化过快,舍弃该视频片段及其对应的语义标签和时刻位置,进入下一帧,重复步骤2.4;否则,则判断从时刻位置开始的窗口时间段内是否存在其他由语义标签标记的时刻位置,窗口时间段长度可设为δ秒,若存在且该时刻位置起始的视频片段未被舍弃,则不截取,否则,截取t1秒长度的视频,并保留该帧对应的语义标签和时刻位置,最终保留的视频片段为短视频片段集合X1,其中,δ<t1
步骤2.5、从每个取短视频的时刻位置开始对t2秒内的视频进行截取,得到的长视频片段集合X2
进一步,步骤3中,如果标注准确率低,则需要对步骤2中的深度学习模型进行调整;如果视频片段相似程度高,则需要对步骤2中的场景检测函数和阈值θ、δ参数进行调整。
进一步,步骤4具体包括以下步骤,
步骤4.1、使用连续词袋模型CBOW或Skip-Gram模型获得短视频片段集合X1和长视频片段集合X2中的视频片段的语义标签和已有信息标签的词向量,进行K-means聚类,获得语义标签的类别,如果视频片段的语义标签相似,则这些视频片段构成一个类别子集,在每个类别中,分为长视频片段和短视频片段。
步骤4.2、使用FFmpeg对数据集Y中未检测到语义标签的视频片段和人工校验过的锚点视频抽取关键帧,再提取关键帧的内容特征,对各个视频片段中关键帧对应的内容特征进行整合,获得视频的整体内容特征,计算数据集Y中视频片段与锚点视频的内容特征相似度,相似度大于阈值ρ的按照锚点视频的标签为未标记视频片段标记上语义弱标签,相似度小于阈值ρ的视频片段舍弃;
步骤4.3、以电影视频为美学质量高,以非电影视频为美学质量低,对视频片段的美学质量进行分类标注。
进一步,步骤5具体包括以下步骤,
步骤5.1、对视频的标签数据进行整理和存储,视频标签数据包括已有信息标签、各视频片段的语义标签和时刻位置、语义弱标签及其时刻位置和视频片段的美学质量分类;
步骤5.2、对视频进行整理和存储。
此方法可以批量自动化对原始视频进行处理,极大地提高了美学质量评价领域视频数据集构建的效率。
附图说明
图1为简要流程图;
图2为一种视频美学质量评价数据集构造方法的数据处理流程示意图。
具体实施方式
本发明的一种视频美学质量评价数据集构造方法得流程图如图1所示,数据的处理流程如图2所示。具体包括以下步骤:
步骤1、数据准备,整合数据资源,如图2步骤1所示。收集、整合已公开的视频数据集和电影视频的数据集,转换为统一格式。具体如下:
步骤1.1、收集、整理公开的视频数据集。公开的视频数据集包含的视频为非电影视频或电影视频,该电影视频为无版权电影视频。将公开的视频数据集中的视频整合,每个视频用FFmpeg转换为mp4格式。
步骤1.2、收集电影视频作为电影视频数据集,该电影视频为公开版权的电影。每个视频用FFmpeg转换为mp4格式。
步骤1.3、收集、整理上述视频的视频长度、现有标签、类别、作者、年代等相关信息,作为已有信息标签。
步骤1.4、选择具有特定标签的视频作为准备数据,其中特定标签从已有信息标签中选择。
步骤2、视频内容识别与视频片段分割,如图2步骤2所示。依次读入视频,遍历帧,利用视频分类模型和视频理解模型对视频进行内容的识别和标注,同时采用视频分割模型对视频进行片段分割。分割视频为短视频片段和长视频片段,短视频片段为t1秒/个,t1=3~10,长视频片段为t2秒/个,t2=20~30。具体如下:
步骤2.1、通过OpenCV函数库读入视频,遍历视频中的帧。
步骤2.2、利用使用深度学习模型的视频分类模型和视频理解模型对视频进行内容检测,获得语义标签和对应的时刻位置。语义标签代表视频的内容,可包括主体、动作、内容描述等。例如,可使用Moments in Time数据集的公开预训练模型对视频进行检测,获得视频的动作信息和动作发生的位置。
对能获得语义标签的视频,进行语义标签和时刻位置的记录,对应的视频片段集合为X;对不能检测到任何语义标签的视频随机抽取保留时刻,其中短视频保留n1个时刻位置,长视频保留n2个时刻位置,每个时刻位置对应的语义标签标记为“空”,对应的视频片段集合为Y。
步骤2.3、遍历每个视频中记录的时刻位置;
步骤2.4、从视频的每个记录的时刻位置起,取t1秒长度视频片段,对片段的视频场景变化进行检测。例如可以使用PySceneDetect工具中基于内容的视频场景检测函数,场景检测函数将视频由RGB表示转为HSV表示空间,并计算相邻两帧的明度平均值的差值,如果差值高于阈值θ则认为在这两帧发生了一次场景变化。场景检测函数可直接调用,也可以自由构建再调用,例如还可以采用比较相邻多帧的明度变化,或比较边缘图变化,或几种方式结合。
若在t1秒长度内检测到场景变化次数多于a次(a≥1),则视频片段中场景变化过快,舍弃该视频片段、其对应的语义标签和时刻位置,进入下一帧,重复步骤2.4;否则,则判断从时刻位置起开始的窗口时间段内内是否存在其他由语义标签标记的时刻位置。窗口时间段长度可设为δ秒。若存在且该时刻位置起始的视频片段未被舍弃,则不截取,否则,截取t1秒长度的视频,并保留该帧对应的语义标签和时刻位置。最终保留的视频片段为短视频片段集合X1,其中,δ<t1
步骤2.5、从每个取短视频的时刻位置开始对t2秒内的视频进行截取。得到的长视频片段集合X2
步骤3、对视频片段进行质量检测,如图2步骤3所示。对X1和X2中的视频的语义标签和数据质量进行控制和筛选。在每类语义标签对应的视频片段中随机抽取视频片段,作为锚点视频。人工校验锚点视频的语义标签和视频片段相似程度,统计标签自动标注的准确率。如果标注准确率低,则需要对步骤2中的深度学习模型进行调整;如果视频片段相似程度高,则需要对步骤2中的场景检测函数和阈值θ、δ参数进行调整。
步骤4、标注视频美学质量分类及完善标签,如图2步骤4所示。除了为没有语义标签的视频片段标注语义标签外,所有视频片段均需标注美学质量分类。具体如下:
步骤4.1、使用连续词袋模型(CBOW)或Skip-Gram模型获得X1和X2中视频数据的语义标签和已有信息标签的词向量,进行K-means聚类,获得语义标签的类别。如果视频片段的语义标签相似,则这些视频片段构成一个类别子集。在每个类别中,分为长视频片段和短视频片段。
步骤4.2、使用FFmpeg对数据集Y中未检测到语义标签的视频片段和人工校验过的锚点视频抽取关键帧,再提取关键帧的内容特征,对各个片段中关键帧对应的内容特征进行整合,获得视频的整体内容特征。计算数据集Y中视频片段与锚点视频的内容特征相似度,相似度大于阈值ρ的按照锚点视频的标签为未标记视频片段标记上语义弱标签,相似度小于阈值ρ的视频片段舍弃。
其中提取关键帧内容特征和获得视频的整体内容特征可分别使用图像和视频的分类卷积神经网络的公开预训练模型的倒数第二层全连接层输出的特征作为内容特征,例如Resnet50和Yolov3,也可以利用其它相近任务模型,例如Moment Context Network(MCN)等基于内容的视频检索算法中提取视频全局特征的方法。
相似度计算可通过计算特征间的欧式距离获得。欧氏距离与相似度呈反比,若有特征f1(x1,x2,…,xn)和特征f2(y1,y2,…,yn),则二者间欧氏距离公式为:
步骤4.3、以电影视频为美学质量高,以非电影视频为美学质量低,对视频片段的美学质量进行分类标注。
步骤5、将视频数据和标签数据整理,存储为数据集,如图2步骤5所示。
步骤5.1、对视频标签数据进行整理和存储,视频标签数据包括已有信息标签、各视频片段的语义标签和时刻位置、语义弱标签及其时刻位置和视频片段的美学质量分类。
步骤5.2、对视频进行整理和存储。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种视频美学质量评价数据集构造方法,其特征在于,所述方法具体包括以下步骤,
步骤1、数据准备,整合数据资源;收集、整合已公开的视频数据集和电影视频数据集,并将视频转换为统一格式;
步骤2、对数据集中的视频进行内容识别和标注并对视频进行片段分割;依次读入视频,遍历帧,利用深度学习模型中的视频分类模型和视频理解模型对视频进行内容识别和标注获得语义标签,同时采用视频分割模型对视频进行片段分割,分割视频为短视频片段和长视频片段,短视频片段为t1秒/个,t1=3~10,长视频片段为t2秒/个,t2=20~30;
步骤3、对视频片段进行质量检测,对短视频片段集合X1和长视频片段集合X2中的视频的语义标签和数据质量进行控制和筛选,在每类语义标签对应的视频片段中随机抽取视频片段,作为锚点视频,人工校验锚点视频的语义标签和视频片段相似程度,统计语义标签自动标注的准确率和视频片段相似程度;
步骤4、标注视频美学质量分类并完善标签,为所有视频片段自动标注美学质量分类;
步骤5、将视频数据集和标签数据整理,存储为数据集。
2.根据权利要求1所述的方法,其特征在于,步骤1具体包括以下步骤,
步骤1.1、收集、整理公开的视频数据集,公开的视频数据集包含的视频为非电影视频或电影视频,该电影视频为无版权电影视频,每个视频用FFmpeg转换为mp4格式;
步骤1.2、收集电影视频作为电影视频数据集,该电影视频为公开版权的电影,每个视频用FFmpeg转换为mp4格式;
步骤1.3、收集、整理上述视频中的包括视频长度、现有标签、类别、作者、年代的信息,作为已有信息标签;
步骤1.4、选择具有特定标签的视频作为准备数据,其中特定标签从已有信息标签中选择。
3.根据权利要求1所述的方法,其特征在于,步骤2具体包括以下步骤,
步骤2.1、通过OpenCV函数库读入视频,遍历视频中的帧;
步骤2.2、利用使用深度学习模型的视频分类模型和视频理解模型对视频进行内容检测获得语义标签和对应的时刻位置,语义标签代表视频的内容,语义标签包括主体、动作、内容描述;
对能获得语义标签的视频,进行语义标签和时刻位置的记录,对应的视频片段集合为X;对不能检测到任何语义标签的视频随机抽取保留时刻,其中短视频保留n1个时刻位置,长视频保留n2个时刻位置,每个时刻位置对应的语义标签标记为空,对应的视频片段集合为Y;
步骤2.3、遍历每个视频中记录的时刻位置;
步骤2.4、从视频的每个记录的时刻位置起,取t1秒长度视频片段,使用基于内容的视频场景检测函数对视频片段的视频场景变化进行检测,场景检测函数将视频由RGB形式表示转为HSV形式表示空间,并计算相邻两帧的明度平均值的差值,如果差值高于阈值θ则认为在这两帧发生了一次场景变化;
若在t1秒长度内检测到场景变化次数多于a次,其中,a≥1,则视频片段中场景变化过快,舍弃该视频片段及其对应的语义标签和时刻位置,进入下一帧,重复步骤2.4;否则,则判断从时刻位置起始的窗口时间段内是否存在其他由语义标签标记的时刻位置,窗口时间段长度设为δ秒,若存在且该时刻位置起始的视频片段未被舍弃,则不截取,否则,截取t1秒长度的视频,并保留该帧对应的语义标签和时刻位置,最终保留的视频片段为短视频片段集合X1,其中,δ<t1
步骤2.5、从每个取短视频的时刻位置开始对t2秒内的视频进行截取,得到的长视频片段集合X2
4.根据权利要求3所述的方法,其特征在于,步骤3中,如果标注准确率低,则需要对步骤2中的深度学习模型进行调整;如果视频片段相似程度高,则需要对步骤2中的场景检测函数和阈值θ、δ参数进行调整。
5.根据权利要求3所述的方法,其特征在于,步骤4具体包括以下步骤,
步骤4.1、使用连续词袋模型CBOW或Skip-Gram模型获得短视频片段集合X1和长视频片段集合X2中的视频片段的语义标签和已有信息标签的词向量,进行K-means聚类,获得语义标签的类别,如果视频片段的语义标签相似,则这些视频片段构成一个类别子集,在每个类别中,分为长视频片段和短视频片段;
步骤4.2、使用FFmpeg对数据集Y中未检测到语义标签的视频片段和人工校验过的锚点视频抽取关键帧,再提取关键帧的内容特征,对各个视频片段中关键帧对应的内容特征进行整合,获得视频的整体内容特征,计算数据集Y中视频片段与锚点视频的内容特征相似度,相似度大于阈值ρ的按照锚点视频的标签为未标记视频片段标记上语义弱标签,相似度小于阈值ρ的视频片段舍弃;
步骤4.3、以电影视频为美学质量高,以非电影视频为美学质量低,对视频片段的美学质量进行分类标注。
6.根据权利要求1所述的方法,其特征在于,步骤5具体包括以下步骤,
步骤5.1、对视频的标签数据进行整理和存储,视频标签数据包括已有信息标签、各视频片段的语义标签和时刻位置、语义弱标签及其时刻位置和视频片段的美学质量分类;
步骤5.2、对视频进行整理和存储。
CN202310798121.4A 2023-07-03 2023-07-03 一种视频美学质量评价数据集构造方法 Active CN116843643B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310798121.4A CN116843643B (zh) 2023-07-03 2023-07-03 一种视频美学质量评价数据集构造方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310798121.4A CN116843643B (zh) 2023-07-03 2023-07-03 一种视频美学质量评价数据集构造方法

Publications (2)

Publication Number Publication Date
CN116843643A true CN116843643A (zh) 2023-10-03
CN116843643B CN116843643B (zh) 2024-01-16

Family

ID=88168389

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310798121.4A Active CN116843643B (zh) 2023-07-03 2023-07-03 一种视频美学质量评价数据集构造方法

Country Status (1)

Country Link
CN (1) CN116843643B (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110075930A1 (en) * 2009-09-25 2011-03-31 Cerosaletti Cathleen D Method for comparing photographer aesthetic quality
US20110258188A1 (en) * 2010-04-16 2011-10-20 Abdalmageed Wael Semantic Segmentation and Tagging Engine
CN102663015A (zh) * 2012-03-21 2012-09-12 上海大学 基于特征袋模型和监督学习的视频语义标注方法
WO2015003341A1 (zh) * 2013-07-10 2015-01-15 中国科学院自动化研究所 基于质量元数据的视频分类器构造方法
CN105677735A (zh) * 2015-12-30 2016-06-15 腾讯科技(深圳)有限公司 一种视频搜索方法及装置
US20170289624A1 (en) * 2016-04-01 2017-10-05 Samsung Electrônica da Amazônia Ltda. Multimodal and real-time method for filtering sensitive media
US20190228231A1 (en) * 2018-01-25 2019-07-25 Adobe Inc. Video segmentation using predictive models trained to provide aesthetic scores
CN110853032A (zh) * 2019-11-21 2020-02-28 北京航空航天大学 基于多模态深度学习的无人机视频美学质量评价方法
CN111199541A (zh) * 2019-12-27 2020-05-26 Oppo广东移动通信有限公司 图像质量评价方法、装置、电子设备及存储介质
US20210004600A1 (en) * 2019-07-01 2021-01-07 Banjo, Inc. Assessing video stream quality
CN113392744A (zh) * 2021-06-04 2021-09-14 北京格灵深瞳信息技术股份有限公司 舞蹈动作美感确认方法、装置、电子设备及存储介质
WO2021190078A1 (zh) * 2020-03-26 2021-09-30 华为技术有限公司 短视频的生成方法、装置、相关设备及介质
CN115795096A (zh) * 2022-11-28 2023-03-14 北京电影学院 一种影视素材的视频元数据标注方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110075930A1 (en) * 2009-09-25 2011-03-31 Cerosaletti Cathleen D Method for comparing photographer aesthetic quality
US20110258188A1 (en) * 2010-04-16 2011-10-20 Abdalmageed Wael Semantic Segmentation and Tagging Engine
CN102663015A (zh) * 2012-03-21 2012-09-12 上海大学 基于特征袋模型和监督学习的视频语义标注方法
WO2015003341A1 (zh) * 2013-07-10 2015-01-15 中国科学院自动化研究所 基于质量元数据的视频分类器构造方法
CN105677735A (zh) * 2015-12-30 2016-06-15 腾讯科技(深圳)有限公司 一种视频搜索方法及装置
US20170289624A1 (en) * 2016-04-01 2017-10-05 Samsung Electrônica da Amazônia Ltda. Multimodal and real-time method for filtering sensitive media
US20190228231A1 (en) * 2018-01-25 2019-07-25 Adobe Inc. Video segmentation using predictive models trained to provide aesthetic scores
US20210004600A1 (en) * 2019-07-01 2021-01-07 Banjo, Inc. Assessing video stream quality
CN110853032A (zh) * 2019-11-21 2020-02-28 北京航空航天大学 基于多模态深度学习的无人机视频美学质量评价方法
CN111199541A (zh) * 2019-12-27 2020-05-26 Oppo广东移动通信有限公司 图像质量评价方法、装置、电子设备及存储介质
WO2021190078A1 (zh) * 2020-03-26 2021-09-30 华为技术有限公司 短视频的生成方法、装置、相关设备及介质
CN113392744A (zh) * 2021-06-04 2021-09-14 北京格灵深瞳信息技术股份有限公司 舞蹈动作美感确认方法、装置、电子设备及存储介质
CN115795096A (zh) * 2022-11-28 2023-03-14 北京电影学院 一种影视素材的视频元数据标注方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HSIN-HO YEH ET AL: "Video Aesthetic Quality Assessment by Temporal Integration of Photo- and Motion-Based Features", IEEE TRANSACTIONS ON MULTIMEDIA, vol. 15, no. 8, pages 1944 - 1957 *

Also Published As

Publication number Publication date
CN116843643B (zh) 2024-01-16

Similar Documents

Publication Publication Date Title
CN112418117B (zh) 一种基于无人机图像的小目标检测方法
CN102414680B (zh) 利用跨域知识的语义事件检测
US9008429B2 (en) Label-embedding for text recognition
US8358856B2 (en) Semantic event detection for digital content records
WO2015096565A1 (zh) 图像中的目标物的识别方法及装置
CN103530638B (zh) 多摄像头下的行人匹配方法
CN108427713B (zh) 一种用于自制视频的视频摘要方法及系统
CN102007499A (zh) 检测数字图像中的脸部表情
WO2020164278A1 (zh) 一种图像处理方法、装置、电子设备和可读存储介质
CN109472226B (zh) 一种基于深度学习的睡觉行为检测方法
CN104978567A (zh) 基于场景分类的车辆检测方法
CN111046886A (zh) 号码牌自动识别方法、装置、设备及计算机可读存储介质
CN105930792A (zh) 一种基于视频局部特征字典的人体动作分类方法
CN110008365B (zh) 一种图像处理方法、装置、设备及可读存储介质
Sikirić et al. Classifying traffic scenes using the GIST image descriptor
Zhang et al. Automatic discrimination of text and non-text natural images
Wang et al. Text detection approach based on confidence map and context information
Davila et al. Fcn-lecturenet: extractive summarization of whiteboard and chalkboard lecture videos
WO2024087519A1 (zh) 身份识别方法和装置及存储介质
CN110765285A (zh) 基于视觉特征的多媒体信息内容管控方法及系统
CN106599834A (zh) 信息推送方法和系统
CN114781647A (zh) 一种区分简单与困难样本的无监督域适应方法
CN116843643B (zh) 一种视频美学质量评价数据集构造方法
CN116229512A (zh) 基于跨摄像头自蒸馏的行人重识别模型建立方法及其应用
Rautiainen et al. Detecting semantic concepts from video using temporal gradients and audio classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant