CN110853032A - 基于多模态深度学习的无人机视频美学质量评价方法 - Google Patents

基于多模态深度学习的无人机视频美学质量评价方法 Download PDF

Info

Publication number
CN110853032A
CN110853032A CN201911146496.2A CN201911146496A CN110853032A CN 110853032 A CN110853032 A CN 110853032A CN 201911146496 A CN201911146496 A CN 201911146496A CN 110853032 A CN110853032 A CN 110853032A
Authority
CN
China
Prior art keywords
video
unmanned aerial
aerial vehicle
aesthetic
shooting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911146496.2A
Other languages
English (en)
Other versions
CN110853032B (zh
Inventor
周彬
匡麒
赵沁平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN201911146496.2A priority Critical patent/CN110853032B/zh
Publication of CN110853032A publication Critical patent/CN110853032A/zh
Priority to US16/997,825 priority patent/US11568637B2/en
Application granted granted Critical
Publication of CN110853032B publication Critical patent/CN110853032B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/13Satellite images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B64AIRCRAFT; AVIATION; COSMONAUTICS
    • B64CAEROPLANES; HELICOPTERS
    • B64C39/00Aircraft not otherwise provided for
    • B64C39/02Aircraft not otherwise provided for characterised by special use
    • B64C39/024Aircraft not otherwise provided for characterised by special use of the remote controlled vehicle type, i.e. RPV
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/17Terrestrial scenes taken from planes or by drones
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G5/00Traffic control systems for aircraft, e.g. air-traffic control [ATC]
    • G08G5/003Flight plan management
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B64AIRCRAFT; AVIATION; COSMONAUTICS
    • B64UUNMANNED AERIAL VEHICLES [UAV]; EQUIPMENT THEREFOR
    • B64U2101/00UAVs specially adapted for particular uses or applications
    • B64U2101/30UAVs specially adapted for particular uses or applications for imaging, photography or videography
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30168Image quality inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/001Model-based coding, e.g. wire frame
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/004Predictors, e.g. intraframe, interframe coding

Abstract

本发明提供了一种基于多模态深度学习的无人机视频美学质量评价方法,建立无人机视频美学评价数据集,通过多模态神经网络对无人机视频进行分析并提取高维特征,然后融合,从而实现无人机视频美学质量的评价。主要包括四大步骤,步骤一:建立无人机视频美学评价数据集,根据视频拍摄质量分为正样本和负样本;步骤二:利用SLAM技术,恢复无人机的飞行轨迹并重建出稀疏的场景三维结构;步骤三:通过多模态神经网络对输入无人机视频分别在图像分支、运动分支、结构分支上提取特征;步骤四:对多个分支上的特征进行融合,得到最终的视频美学标签和视频场景类型。本发明实验验证,具有可行性、准确性和通用性,可用于无人机视频的美学评价、拍摄轨迹推荐等。

Description

基于多模态深度学习的无人机视频美学质量评价方法
技术领域
本发明涉及一种基于多模态深度学习的无人机视频美学质量评价方法,建立无人机视频美学评价数据集,通过多模态神经网络对无人机视频进行分析并提取高维特征,然后融合,从而实现无人机视频美学质量的评价,具有一定的有效性和通用性,属于计算机视觉领域。
背景技术
随着照相机、智能手机的快速普及,可视内容感知理解已成为计算机视觉、计算机摄像学等领域的研究方向。图像与视频美学质量评价是可视内容感知理解方向中的分支。图像与视频美学质量评价旨在利用计算机模拟人类对美的感知与认知,自动评价图像与视频的美感。近些年来,一些科研工作者在相关技术上开展了研究。人们针对图像在构图、颜色、光影、景深等方面进行分析,针对视频除了考虑每一帧的图像的美学因素外,还研究了相机运动、画面连续性等视频相关特点。
2004年,微软亚洲研究院与清华大学自动化系联合提出了一种能够自动区分专业摄影师和普通用户拍摄的照片。随后大部分美学质量评价通过设计多种美学特征拟合人类对美学质量评价结果,从而对图像视频进行自动分类和数值评价。
但这些研究没有考虑不同内容具有不同的美学特征,这样对分类和评分的效果有很大影响。2014年以来图像美感分类与评分进入深度学习时代,研究人员用卷积神经网络对图像进行美感分类和评分,其分类准确率与手工设计的特征相比有较大提高。视频美感分类与评分由于数据集较少,因此相关工作还比较少涉及深度学习。
然而这些方法都是针对传统的视频和图像,对于航空摄影这一类型的视频,相关特性并没有得到充分利用。无人机现在已经用于各个领域,其中很重要的一项应用就是摄影。随着消费级无人机的发展和普及,航空摄影不再像之前一样需要专业昂贵的设备。然而航空摄影还是需要操作人员具有一定的专业知识和经验,因此业余爱好者也不太容易拍摄出质量很好的航拍作品。为了使无人机更加智能化以及航拍作品更具美感,无人机视频美学质量评价也成为人们关注的热点之一,其可以应用于无人机的智能拍摄,航拍视频网站自动评级,航拍视频自动剪辑等方面。
2016年,中国有线电视网络有限公司的梁自强在《电视研究》上发表了一篇论无人机航拍与纪录片的影像创意及美学探索的文章,探讨了无人机航拍运用到纪录片创作中带来的革新。2017年北京大学的熊晓亮等人提出了基于美学评价的无人机摄像方法和系统的专利,基于美学评价算法来计算无人机拍摄图像的美学评分。该方法仅对图像进行美学评分,不能对无人机拍摄的视频进行美学质量评价。
发明内容
本发明技术解决问题:提供一种基于多模态深度学习的无人机视频美学质量评价方法,通过多模态神经网络对无人机视频进行分析并提取高维特征,然后融合,从而实现无人机视频美学质量的抽象表达。最终实现对无人机视频进行美学质量评价的目的。
本发明采用的技术方案是:一种基于多模态深度学习的无人机视频美学质量评价方法,包括以下步骤:
(1)统计无人机视频来源、拍摄地点、拍摄方式、场景类型,建立无人机视频美学评价数据集,并根据网络评分以及拍摄质量将所述数据集划分为正样本和负样本;正样本为专业无人机视频,来源于网络评分高于8.0(满分10.0)的专业人士拍摄的航拍纪录片或电影片段,负样本为业余无人机视频,来源于业余爱好者使用消费级无人机拍摄的视频;
(2)对于无人机视频美学评价数据集中的无人机视频,利用SLAM技术,根据无人机视频中帧与帧之间的关联,恢复出相机的位姿,即无人机的飞行轨迹以及拍摄镜头的朝向,并重建出稀疏的场景三维结构,相机的位姿和场景结构均归一化处理;
(3)把无人机视频输入到多模态神经网络中,多模态神经网络结构主要分三个分支:图像分支、运动分支和结构分支。图像分支的输入为视频原始帧,运动分支和结构分支的输入分别为步骤(2)中无人机的飞行轨迹以及拍摄镜头的朝向和稀疏的场景三维结构。通过多模态深度学习分别在三个分支上提取视频帧图像美学特征、相机运动特征、拍摄场景结构特征;
(4)对步骤(3)中提取到的视频帧图像美学特征、相机运动特征、拍摄场景结构特征进行融合作为视频的美学特征,通过添加视频场景类型分类的子任务,区分视频场景类型为山川、河流、平原或是建筑,提高多模态神经网络模型的泛化能力和学习效果,最终得到无人机视频美学标签作为无人机视频美学质量评价结果,即视频为专业无人机视频或是业余无人机视频,以及视频场景类型。所述步骤(1)具体实现如下:
(1.1)建立一个无人机视频美学评价数据集,数据集中的每一段视频均是完整的一个拍摄镜头片段,并且不带有水印、台标、边框的无关噪声;
(1.2)统计每段视频来源于视频网站还是纪录片,视频的拍摄地点,无人机视频的拍摄方式,即旋转拍摄、前行拍摄、侧飞拍摄或是后退拍摄,以及视频的场景类型为山川、河流、平原或是建筑;
(1.3)根据视频的拍摄质量、网络评分以及视频来源,将数据集中专业的无人机视频作为正样本,业余的无人机视频作为负样本。
所述步骤(2)具体实现如下:
(2.1)提取无人机视频的每一帧,得到图像序列,对图像序列中的每个图像进行光度标定以消除光照变化带来的影响;
(2.2)利用SLAM计算相机的位姿,得到无人机的飞行轨迹以及拍摄镜头的朝向,同时并重建出稀疏的场景三维结构,相机的位姿和场景结构均归一化处理。
所述步骤(3)具体实现如下:
(3.1)多模态神经网络的三个分支主要是由卷积神经网络组成,在图像分支上,将视频原始帧输入到卷积神经网络中,提取每一帧图像的特征,然后输入到长短期记忆网络LSTM,使离散的单帧特征按照时间序列重新联系在一起,最后的输出作为视频帧图像美学特征;
(3.2)在运动分支上,将(2.2)得到的无人机飞行轨迹和镜头朝向作为卷积神经网络的输入,卷积层之间包含激活层ReLu和批标准化层BN(Batch Normalization),经过四层卷积层后得到相机运动特征;
(3.3)在结构分支上,将(2.2)得到的稀疏的场景三维结构作为卷积神经网络的输入,得到拍摄场景结构特征。
所述步骤(4)具体实现如下:
(4.1)将步骤(3)中在三个分支得到的特征通过融合层(Concatenate)进行融合,即将视频帧图像美学特征、相机运动特征、拍摄场景结构特征拼接在一起,作为视频的美学特征;
(4.2)将视频的美学特征作为输入,再经过两个全连接层,多模态神经网络的最终输出为一个六维向量,其中前两维表示无人机视频美学标签,即视频为专业无人机视频或是业余无人机视频,后四维表示视频场景类型,即视频场景类型为山川、河流、平原或是建筑。
本发明与现有技术相比,其有益的特点是:
(1)本发明基于多模态深度学习的无人机视频美学质量评价方法,结合深度学习对无人机视频提取美学特征,克服了当前方法人工设计美学特征时针对不同内容不能有效区分的限制,可以很好地自动提取视频美学特征。
(2)本发明的方法从图像分支、运动分支、结构分支三个分支提取无人机视频美学特征,结合图像视频以及无人机飞行的特点对视频美学质量评价,解决了无人机视频美学质量评价准则单一的问题。
(3)本发明的方法添加场景类型分类子任务,以促进美学评价任务的学习,能得到更高的准确率和更快的收敛速度。
(4)本发明的方法具有很强的鲁棒性,不受光照变化、画质模糊等影响。
附图说明
图1是本发明的流程图;
图2是本发明的运动分支深度神经网络结构设计示意图;
图3是本发明的多模态深度神经网络结构整体设计示意图;
图4是本发明的基于多模态深度学习的无人机视频美学质量评价的应用样例图;
图5是本发明的无人机视频专业片段检测的应用样例图。
具体实施方式
为了更好地理解本发明的技术方案,以下结合附图对本发明的具体实施方式作进一步描述。
如图1所示,本发明的流程图。本发明的总体目标在于提出一种基于多模态深度学习的无人机视频美学质量评价方法,建立无人机视频美学评价数据集,通过多模态神经网络对无人机视频进行分析并提取高维特征并融合,从而实现无人机视频美学质量的评价。具体步骤是:首先建立无人机视频美学评价的数据集,根据无人机视频拍摄质量分为正样本和负样本,并根据场景拍摄内容分类;然后利用SLAM技术,恢复无人机的飞行轨迹,其中包括无人机的平移和相机的旋转,并重建出稀疏的场景三维结构;通过多模态神经网络,对输入无人机视频分别在图像分支、运动分支、结构分支上提取特征;对多个分支上的特征进行融合,得到最终的视频美学标签和视频场景类型。
如图2所示,本发明的运动分支深度神经网络结构设计示意图:无人机十分灵活,在空中能够以各种视角拍摄图像和视频。相较于普通的在地面上拍摄的视频,航拍视频在高度变化上更明显,相机的运动方式也不同于常见的方式。因此本发明的多模态深度神经网络添加一个运动分支来利用无人机视频相机运动方式的特点对视频美学质量评价。首先利用SLAM恢复相机位姿,并以平移向量x,y,z和四元数q1,q2,q3,q4来表示相机的运动,由于机载相机跟随无人机平移,因此平移向量实际代表了无人机的平移,四元数代表相机的旋转。输入到神经网络中向量长度需要固定,因此将轨迹用1024×7向量表示,也就是轨迹由1024个点组成,每个点均由一个平移向量和四元数组成的7维向量表示。当点的个数不够时需要插值补充,对于平移向量采用线性插值,由于四元数表示旋转,因此采用球形线性插值(Spherical Linear Interpolation),在四元数tm-1和tm之间第k个需要插值的点tk表示为:
Figure BDA0002282338460000051
其中,n表示需要插值到任意两个四元数tm-1和tm之间的点的数量,θ是由tm-1和tm计算出的圆心角。
将无人机轨迹转为统一格式后输入到运动分支深度神经网络中,运动分支深度神经网络通过4个卷积层提取轨迹的高维特征,其中前两个卷积核为3×1,后两个卷积核为1×1,因为代表轨迹的点与点之间有关联,而7维向量之间没有关联,因此卷积的大小只能为1,通道数分别为{32;64;128;256},主要目的是提高每个点的维数,从而提高特征的表征能力。
如图3所示,本发明的多模态深度神经网络结构整体设计示意图:在考虑视频美学质量时,通常会借鉴图像美学质量,视频的每一帧图像美学质量低的话那么视频美学质量也不会高。因此本发明的方法利用图像分支来考虑图像美学的影响。图像分支利用原始视频帧的信息,使用卷积神经网络的残差网络提取图像的高维特征,然而帧与帧之间有很强的关联性,因此通过长短期记忆网络(LSTM)学习视频序列的特征。由于不同视频的长短也不同,因此在输入到图像分支神经网络之前进行下采样。运动分支是根据原始视频帧来恢复和估计无人机的飞行轨迹以及机载相机的运动,然后将一系列表示相机运动的离散的点进行球面线性插值,从而得到固定长度的相机运动轨迹作为运动分支神经网络的输入。之后通过卷积神经网络利用相邻点之间的联系,得到相机运动的高维特征。
在无人机拍摄视频时,不同的场景结构对于航拍视频最后的内容也有影响。因此在本发明的多模态深度神经网络中添加结构分支以便利用拍摄场景的结构对无人机视频美学质量评价。首先根据原始视频帧利用SLAM重建出场景的稀疏点云,得到的场景三维结构,然后通过点云滤波,将点云下采样到4096个点,每个点用3维向量(x,y,z)表示,输入到结构分支神经网络中,利用点云分类神经网络PointNet提取高维特征。在提取到多模态高维特征后,对三个分支进行融合。
在融合多个分支的特征时,采用早融合(Early fusion)方式。早融合主要是融合层靠前,在分支中间的全连接层提取特征并融合,此时每个分支相当于一个特征提取器,融合后的特征再经过两个全连接层得到最后的美学标签和场景类型。最优的融合权重可以通过分类器学习:
Figure BDA0002282338460000061
其中,y表示真实的标签,σ(z)表示实际的输出,N为样本的数量,w和b为神经网络的参数。
经过融合层后利用多任务学习,添加场景类型分类任务以便促进无人机视频美学质量评价任务学习,最终得到无人机视频美学标签以及场景类型。表1是无人机视频美学质量数据集上美学分类和场景类型分类准确率比较(%)。通过表1可以看出,本发明的方法结合多分支准确率高于任何单一分支的准确率。
表1美学分类和场景类型分类准确率比较(%)
方法 美学分类 场景类型
图像分支 78.74 75.13
运动分支 78.02 37.89
结构分支 67.52 35.58
多分支早融合 89.12 78.62
如图4所示,本发明的基于多模态深度学习的无人机视频美学质量评价的应用样例图。对于一个无人机视频,首先以镜头为单位将无人机视频切割成各个镜头,将每个镜头输入到多模态神经网络中,将最后得到的美学标签的概率作为美学分数,再将分数融合最后得到整段无人机视频的评价分数a:
Figure BDA0002282338460000062
其中,an表示镜头n的美学分数,mn表示帧数。从图中可以看出对于互联网上的无人机视频本发明方法能够对其进行美学质量评分。
如图5所示,本发明的无人机视频专业片段检测的应用样例图。普通用户由于缺少相关专业知识和经验,拍摄无人机视频的质量并不理想,图示本发明方法在长段无人机视频中检测美学质量高的片段作为专业片段,能够实现无人机视频的智能自动剪辑。首先将长段视频切割成若干片段s1,s2…sn,相机运动和场景结构也能够通过SLAM得到,然后在各个片段中选取美学分数最高的几个片段:
Figure BDA0002282338460000071
其中,h表示多模态深度神经网络对视频的美学质量预测结果,s为视频片段,c为相机运动,p为场景结构。
以上所述仅为本发明的一些基本说明,依据本发明的技术方案所做的任何等效变换,均应属于本发明的保护范围。

Claims (5)

1.一种基于多模态深度学习的无人机视频美学质量评价方法,其特征在于,包括以下步骤:
(1)统计无人机视频来源、拍摄地点、拍摄方式、场景类型,建立无人机视频美学评价数据集,并根据网络评分以及拍摄质量将所述数据集划分为正样本和负样本;正样本为专业无人机视频,来源于网络评分高于8.0(满分10.0)的专业人士拍摄的航拍纪录片或电影片段,负样本为业余无人机视频,来源于业余爱好者使用消费级无人机拍摄的视频;
(2)对于无人机视频美学评价数据集中的无人机视频,利用SLAM(SimultaneousLocalization And Mapping即时定位与建图算法)技术,根据无人机视频中帧与帧之间的关联,恢复出相机的位姿,即无人机的飞行轨迹以及拍摄镜头的朝向,并重建出稀疏的场景三维结构,相机的位姿和场景结构均归一化处理;
(3)把无人机视频输入到多模态神经网络中,多模态神经网络结构分为三个分支:图像分支、运动分支和结构分支;图像分支的输入为视频原始帧,运动分支和结构分支的输入分别为步骤(2)中无人机的飞行轨迹以及拍摄镜头的朝向和稀疏的场景三维结构;通过多模态深度学习分别在三个分支上提取视频帧图像美学特征、相机运动特征和拍摄场景结构特征;
(4)对步骤(3)中提取到的视频帧图像美学特征、相机运动特征和拍摄场景结构特征进行融合作为视频的美学特征,通过添加视频场景类型分类的子任务,区分视频场景类型为山川、河流、平原或是建筑,提高多模态神经网络模型的泛化能力和学习效果,最终得到无人机视频美学标签作为无人机视频美学质量评价结果,即视频为专业无人机视频或是业余无人机视频。
2.根据权利要求1所述的基于多模态深度学习的无人机视频美学质量评价方法,其特征在于:所述步骤(1)具体实现如下:
(2.1)建立一个无人机视频美学评价数据集,数据集中的每一段视频均是完整的一个拍摄镜头片段,并且不带有水印、台标、边框的无关噪声;
(2.2)统计每段视频来源于视频网站还是纪录片,视频的拍摄地点,无人机视频的拍摄方式,即旋转拍摄、前行拍摄、侧飞拍摄或是后退拍摄以及视频的场景类型为山川、河流、平原或是建筑;
(2.3)根据视频的拍摄质量、网络评分以及视频来源,将数据集中专业的无人机视频作为正样本,业余的无人机视频作为负样本。
3.根据权利要求1所述的基于多模态深度学习的无人机视频美学质量评价方法,其特征在于:所述步骤(2)具体实现如下:
(3.1)提取无人机视频的每一帧,得到图像序列,对图像序列中的每个图像进行光度标定以消除光照变化带来的影响;
(3.2)利用SLAM计算相机的位姿,得到无人机的飞行轨迹以及拍摄镜头的朝向,同时并重建出稀疏的场景三维结构,相机的位姿和场景结构均归一化处理。
4.根据权利要求1所述的基于多模态深度学习的无人机视频美学质量评价方法,其特征在于:所述步骤(3)具体实现如下:
(4.1)多模态神经网络的三个分支主要是由卷积神经网络组成,在图像分支上,将视频原始帧输入到卷积神经网络中,提取每一帧图像的特征,然后输入到长短期记忆网络LSTM,使离散的单帧特征按照时间序列重新联系在一起,最后的输出作为视频帧图像美学特征;
(4.2)在运动分支上,将(3.2)得到的无人机飞行轨迹和镜头朝向作为卷积神经网络的输入,卷积层之间包含激活层ReLu和批标准化层BN(Batch Normalization),经过四层卷积层后得到相机运动特征;
(4.3)在结构分支上,将(3.2)得到的稀疏的场景三维结构作为卷积神经网络的输入,得到拍摄场景结构特征。
5.根据权利要求1所述的基于多模态深度学习的无人机视频美学质量评价方法,其特征在于:所述步骤(4)具体实现如下:
(5.1)将步骤(3)中在三个分支得到的特征通过融合层(Concatenate)进行融合,即将视频帧图像美学特征、相机运动特征、拍摄场景结构特征拼接在一起,作为视频的美学特征;
(5.2)将视频的美学特征作为输入,再经过两个全连接层,多模态神经网络的最终输出为一个六维向量,其中前两维表示无人机视频美学标签,即视频为专业无人机视频或是业余无人机视频,后四维表示视频场景类型,即视频场景类型为山川、河流、平原或是建筑。
CN201911146496.2A 2019-11-21 2019-11-21 基于多模态深度学习的无人机视频标签获取方法 Active CN110853032B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201911146496.2A CN110853032B (zh) 2019-11-21 2019-11-21 基于多模态深度学习的无人机视频标签获取方法
US16/997,825 US11568637B2 (en) 2019-11-21 2020-08-19 UAV video aesthetic quality evaluation method based on multi-modal deep learning

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911146496.2A CN110853032B (zh) 2019-11-21 2019-11-21 基于多模态深度学习的无人机视频标签获取方法

Publications (2)

Publication Number Publication Date
CN110853032A true CN110853032A (zh) 2020-02-28
CN110853032B CN110853032B (zh) 2022-11-01

Family

ID=69603191

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911146496.2A Active CN110853032B (zh) 2019-11-21 2019-11-21 基于多模态深度学习的无人机视频标签获取方法

Country Status (2)

Country Link
US (1) US11568637B2 (zh)
CN (1) CN110853032B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112651986A (zh) * 2020-12-25 2021-04-13 北方工业大学 环境识别方法、识别装置、识别系统、电子设备及介质
CN112767386A (zh) * 2021-02-01 2021-05-07 福州大学 基于主题特征和评分分布的图像美学质量评价方法及系统
CN114494130A (zh) * 2021-12-24 2022-05-13 吉林建筑大学 一种基于最优模型评价准则的产品美学评价体系
WO2022141369A1 (en) * 2020-12-31 2022-07-07 SZ DJI Technology Co., Ltd. Systems and methods for supporting automatic video capture and video editing
CN115601772A (zh) * 2022-12-15 2023-01-13 南京邮电大学(Cn) 一种基于多模态学习的美学质量评价模型和方法
CN116843643A (zh) * 2023-07-03 2023-10-03 北京语言大学 一种视频美学质量评价数据集构造方法

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11330263B1 (en) * 2020-12-03 2022-05-10 Synamedia Limited Machine learning based coded size estimation in rate control of video encoding
CN113283782A (zh) * 2021-06-09 2021-08-20 上海韵焰智能科技有限公司 一种基于美学评估的夜景照明控制方法及系统
CN116994069B (zh) * 2023-09-22 2023-12-22 武汉纺织大学 一种基于多模态信息的图像解析方法及系统
CN117765187B (zh) * 2024-02-22 2024-04-26 成都信息工程大学 基于多模态深度估计引导的单目隐神经的建图方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107590445A (zh) * 2017-08-25 2018-01-16 西安电子科技大学 基于脑电信号的美学图像质量评价方法
CN109544524A (zh) * 2018-11-15 2019-03-29 中共中央办公厅电子科技学院 一种基于注意力机制的多属性图像美学评价系统
CN109829924A (zh) * 2019-01-18 2019-05-31 武汉大学 一种基于主体特征分析的图像质量评价方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8706675B1 (en) * 2011-08-29 2014-04-22 Google Inc. Video content claiming classifier
US11295532B2 (en) * 2018-11-15 2022-04-05 Samsung Electronics Co., Ltd. Method and apparatus for aligning 3D model

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107590445A (zh) * 2017-08-25 2018-01-16 西安电子科技大学 基于脑电信号的美学图像质量评价方法
CN109544524A (zh) * 2018-11-15 2019-03-29 中共中央办公厅电子科技学院 一种基于注意力机制的多属性图像美学评价系统
CN109829924A (zh) * 2019-01-18 2019-05-31 武汉大学 一种基于主体特征分析的图像质量评价方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CHRISTOS TZELEPIS ET AL.: "VIDEO AESTHETIC QUALITY ASSESSMENT USING KERNEL SUPPORT VECTOR MACHINE WITH ISOTROPIC GAUSSIAN SAMPLE UNCERTAINTY (KSVM-IGSU)", 《ICIP 2016》 *
CHUN-YU YANG ET AL.: "VIDEO AESTHETIC QUALITY ASSESSMENT BY COMBINING SEMANTICALLY INDEPENDENT AND DEPENDENT FEATURES", 《ICASSP 2011》 *
HSIN-HO YEH ET AL.: "Video Aesthetic Quality Assessment by Temporal Integration of Photo- and Motion-Based Features", 《IEEE TRANSACTIONS ON MULTIMEDIA》 *
QI KUANG ET AL.: "Deep Multimodality Learning for UAV Video Aesthetic Quality Assessment", 《IEEE TRANSACTIONS ON MULTIMEDIA》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112651986A (zh) * 2020-12-25 2021-04-13 北方工业大学 环境识别方法、识别装置、识别系统、电子设备及介质
WO2022141369A1 (en) * 2020-12-31 2022-07-07 SZ DJI Technology Co., Ltd. Systems and methods for supporting automatic video capture and video editing
CN112767386A (zh) * 2021-02-01 2021-05-07 福州大学 基于主题特征和评分分布的图像美学质量评价方法及系统
CN112767386B (zh) * 2021-02-01 2022-09-06 福州大学 基于主题特征和评分分布的图像美学质量评价方法及系统
CN114494130A (zh) * 2021-12-24 2022-05-13 吉林建筑大学 一种基于最优模型评价准则的产品美学评价体系
CN115601772A (zh) * 2022-12-15 2023-01-13 南京邮电大学(Cn) 一种基于多模态学习的美学质量评价模型和方法
CN116843643A (zh) * 2023-07-03 2023-10-03 北京语言大学 一种视频美学质量评价数据集构造方法
CN116843643B (zh) * 2023-07-03 2024-01-16 北京语言大学 一种视频美学质量评价数据集构造方法

Also Published As

Publication number Publication date
US20210158008A1 (en) 2021-05-27
CN110853032B (zh) 2022-11-01
US11568637B2 (en) 2023-01-31

Similar Documents

Publication Publication Date Title
CN110853032B (zh) 基于多模态深度学习的无人机视频标签获取方法
CN111523410B (zh) 一种基于注意力机制的视频显著性目标检测方法
CN109977773B (zh) 基于多目标检测3d cnn的人体行为识别方法及系统
CN111126325B (zh) 一种基于视频的智能人员安防识别统计方法
CN111968129A (zh) 具有语义感知的即时定位与地图构建系统及方法
Pang et al. Visual haze removal by a unified generative adversarial network
CN109614921B (zh) 一种基于对抗生成网络的半监督学习的细胞分割方法
CN109389086B (zh) 检测无人机影像目标的方法和系统
CN110263712B (zh) 一种基于区域候选的粗精行人检测方法
CN102932605A (zh) 一种视觉感知网络中摄像机的组合选择方法
CN111832443B (zh) 一种施工违规行为检测模型的构建方法及其应用
US20150332117A1 (en) Composition modeling for photo retrieval through geometric image segmentation
CN111783729A (zh) 视频分类方法、装置、设备及存储介质
CN113160283A (zh) 一种基于sift的多摄像头场景下的目标跟踪方法
CN114120389A (zh) 网络训练及视频帧处理的方法、装置、设备及存储介质
KR101820456B1 (ko) 깊이 맵 생성 방법 및 장치
CN110046601B (zh) 针对十字路口场景的行人检测方法
KR20210011707A (ko) Cnn을 기반으로 한 동영상의 씬 단위 장소 분류 방법 및 이를 이용한 장소 분류 장치
CN115719457A (zh) 一种基于深度学习的无人机场景下小目标检测的方法
CN116051950A (zh) 跨层次跨模态双注意力融合的三流rgb-d显著性目标检测
CN108010051A (zh) 基于AdaBoost算法的多源视频目标融合跟踪方法
CN114529944A (zh) 一种结合人体关键点热图特征的人像景别识别方法
CN113361475A (zh) 一种基于多阶段特征融合信息复用的多光谱行人检测方法
CN113870162A (zh) 一种融合光照和反射的低光图像增强方法
Chu et al. Collaborative Learning of Multiple-Discontinuous-Image Saliency Prediction for Drone Exploration

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant