CN111062284A - 一种交互式视频摘要模型的可视理解与诊断方法 - Google Patents
一种交互式视频摘要模型的可视理解与诊断方法 Download PDFInfo
- Publication number
- CN111062284A CN111062284A CN201911240547.8A CN201911240547A CN111062284A CN 111062284 A CN111062284 A CN 111062284A CN 201911240547 A CN201911240547 A CN 201911240547A CN 111062284 A CN111062284 A CN 111062284A
- Authority
- CN
- China
- Prior art keywords
- video
- model
- score
- view
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
- G06V20/47—Detecting features for summarising video content
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种交互式视频摘要模型的可视理解与诊断方法,包括以下步骤:对原始视频集进行特征提取获得五个描述性特征得分,将提取的特征作为验证集通过机器学习训练得到显著性得分;经过以上步骤,通过视频视图,投影视图,细节视图以及连续帧视图进行多特征检查和多层次探索的交互式视觉分析。帮助用户探索和分析视频内容,以及视频摘要模型中存在的内在关系。本发明通过模型分析方法获得数据,并设计一种交互式视频摘要模型的可视理解与诊断方法,帮助理解本发明的视频摘要模型中存在的内在关系。并且提出一套可视分析系统帮助用户探索和分析视频内容,通过视频视图,投影视图,序列帧视图以及细节视图从视频、事件和帧三个层面对模型进行深入探索。
Description
技术领域
本发明涉及一种交互式视频摘要模型的可视理解与诊断方法。
背景技术
随着多媒体网络技术的迅速发展和视频捕捉设备的普及,直接导致存储资源消耗增加、视频内容的分类和索引代价增大的问题。面对这样的困境,视频摘要往往被认为是解决这一问题的有效途径。视频摘要通过从原始视频中提取有意义的片段或关键帧,以自动化或半自动化的方式生成简洁的摘要视频。视频摘要可以保留原始视频的多样性,同时减少存储空间和传输时间,帮助用户快速浏览或检索视频。
现阶段,在视频摘要研究中,研究者通常将典型的机器学习方法和人工设计的运动、美学等特征相结合,来识别视频中的行为,从而获得更准确的视频摘要。然而这些方法在实际应用中面临许多挑战。首先由于不适当的特征提取和模型选择,基于机器学习的方法有时会导致视频质量较差。例如,太少的特征会导致模型精度低,太多的特征会导致过拟合现象。此外,由于缺乏数据集,在训练过程中没有考虑这些特征。因此,探索模型结果与特征选择之间的关系是一大难点。其次,视频摘要模型通常依赖大量手人工标注的训练集。在目前的实验中,人类标注和模型预测的重要帧的确定存在差异和时间延迟。所以,如何帮助用户了解人工标注评分与模型预测的显著性评分的区别是本发明面临的第二个难点,第三,视频摘要结果与视频类型密切相关。例如很难同时应用一个模型来提取静态、移动或以自我为中心的视频摘要。因此,帮助研究人员理解模型的适应性仍然是一个主要的难点。
发明内容
为了克服现有技术的不足,本发明通过模型分析方法获得数据,并设计一种交互式视频摘要模型的可视理解与诊断方法,帮助理解本发明的视频摘要模型中存在的内在关系。并且提出一套可视分析系统帮助用户探索和分析视频内容,通过视频视图,投影视图,序列帧视图以及细节视图从视频、事件和帧三个层面对模型进行深入探索。
为了解决上述技术问题,本发明提供如下的技术方案:
一种交互式视频摘要模型的可视理解与诊断方法,包括以下步骤:
1)模型分析;通过对视频摘要数据集视频中每一帧的视觉特征和语义特征提取,将特征输入到机器学习模型中,获得相应的显著性得分;
(1-1)描述性特征提取;将特征提取分为视觉特征和语义特征两个部分,视觉特征反映了吸引视频观看者的重要因素,通过查阅现有的视频和文献资料,从视频中每一帧提取了运动特征、记忆特征、质量特征和美学特征;关注于提取视觉上重要的运动特征来揭示帧与帧之间的相互关系,人在观影后脑海中会有一些碎片化的记忆,将这些令人印象深刻的片段视为记忆特征得分较高,质量特征用来评估图像是否有噪声、模糊、压缩情况,低质量的视频在视觉上和听觉上都令人不适,而美感特征是用来量化图像中的优美的部分,有助于生成人们感兴趣的视频摘要,语义特征是原生视频内容不可忽视的一部分,它也是衡量帧重要性的关键依据,引入视觉语义显著性作为识别被挑选的帧和主题相关度高的度量;
(1-2)显著性获取模型;选择线性模型以有效的获得视频中每一帧的显著性分数,将基于特征提取得到的每一帧的五个描述性特征得分归一化并输入到模型中,从而为每一帧生成显著性得分sk定义如公式(1);
ai为每一个归一化特征的得分,N是特征的个数,w0,wi,wj为最小二乘估计的权值,获得的分值将进一步与人工标注的分数逐帧比较;
2)可视分析;在通过以上步骤完成特征提取以及模型显著性评分以后,通过系统提供的不同组件对视频内容以及模型内在关系进行探索;分析过程如下:
(2-1)提供初步探索的视频视图分析
采用包含图例、视频列表以及原始视频的视频视图展示,图例是在视频视图的顶部,它显示本发明对每个特征的配色方案,以帮助用户理解颜色和特征之间的组合;该视图的中间部分是视频列表,也分为三列,即视频标题,视频类别和视频摘要,第一列的视频标题是视频的名称,第二列的视频类别是视频所属的类型,第三列的视频摘要使用playfair-style图表来表示模型生成的显著性评分与人工标注评分之间的差异,x轴表示视频的长度(帧),y轴代表得分大小,视频视图给用户一个快速的概览,以帮助他们找到感兴趣的视频,选择感兴趣的视频后,在其底部用户可以查看视频的详细内容,在这个视图中,用户可以拖放视频的时间轴来浏览原始视频;
(2-2)事件层次的投影视图分析
使用t-SNE投影算法来映射视频的所有帧,每一帧由一个特征向量Vr描述,特征向量如公式(2)所示,向量被进一步映射到二维空间中,因为它适用于将高维数据嵌入到二维空间中,以获得数据的快速预览,两个节点在二维空间中较近,它们在高维特征向量空间中的行为越相似;
Vr=[sv,se,sm,sq,sa] (2)
最初,每一帧都用一个点表示,但是这不会给用户任何的视觉指示,因此,使用颜色梯度来表示帧的时间顺序,节点颜色越浅表示初始帧,节点颜色越深表示后期帧,用户可以在投影视图中发现时间分布,利用DBSCAN算法对降维得到的二维向量进行聚类,得到多个聚类结果;发现集群中的帧大多都是连续的,并且相邻帧之间有一定的相似性,所以将每个集群作为一个是事件,随后对猜测做了验证,并得到的证实;还添加了一个新的字形构建方法,为用户提供每个集群特性的概述,以便在集群之间进行比较和选择,字形是利用五个等分的圆扇区对从帧图像中提取的五个特征进行编码,从十二点钟的位置开始顺时针依次表示视觉语义显著一致性、记忆、运动、质量和美学这五个特征,弧长l用来表示描述性特征得分的大小,弧长越大,集群中所有帧的平均描述特征得分越大,α表示圆心角为2π/5,r表示半径大小,又由于投影视图中覆盖了视频的所有帧,节点太多导致重叠现象严重,造成视觉混乱;并且原来的节点只包含事件信息,因此用新的字形展示该点,在圆内标记出帧的时间信息,在圆外,圆圈的颜色表示两种分数,深色表示模型生成的显著性分数,浅色表示人工标注分数,弧度编码分数大小,然后进一步利用碰撞检测算法,通过多次将重叠的点推开,最终形成稳定的布局;
l=α*r (3)
(2-3)提供详细信息和探索的详细视图
视图分为两个部分,上半部分是平行坐标视图,下半部分是Lineup视图,在平行坐标视图中,每个折线对应投影视图中一个帧的得分信息,包括描述性特征得分、模型产生的显著性得分、人工标注得分,用户可以在每个坐标上通过笔刷选择一个属性值在一定范围内的特定序列,并深色显示画笔选择的折线,其他的折线是浅灰色的仍然作为背景;在Lineup视图中,有8列,从左到右分别是帧数、五个描述性特征得分、模型生成的显著性得分和人工标注得分,在该视图顶部的虚线框中,提供得分在各个分数段的分布,同时,它还支持典型的交互功能帮助过滤和排序;
(2-4)展示整体时间趋势的序列帧视图
序列帧视图为用户在时间维度上的探索提供了新颖的视角,为了揭示评分情况的总体时间趋势,并探索详细的视频内容和模型效果,在此视图中,使用两个子视图通过切换视图来全面显示视频的所有信息,playfair-style图表显示了模型显着性得分和人工标注得分之间的差异,x轴表示视频的长度,y轴表示每一帧的分数;浅色区域表示这一时期模型的显著性评分大于人工标注的显著性评分,深色区域表示这一时期模型的显著性评分大于人工标注的显著性评分,用户可以通过点击toggle按钮切换到特征视图,该视图从上到下依次显示了视觉语义显著一致性、记忆、运动、质量和美学这五个特征的整体时间趋势,在两个子视图的顶部,还提供一个额外的像素条,用于表示由模型和人工标注评分在帧上生成的显著性评分比例变化,像素条视图中的颜色代表不同类型的分数,而高度表示大小的值,即深色表示显著性模型评分,浅色表示人工标注评分;
3)基于显著性模型的视觉诊断。
进一步,所述步骤3)中,通过对综合数据的机器学习模型的多次检验,验证了诊断机制的有效性,对视频集中的一个视频分析帮助阐明视频中的延迟现象,人工标注分数从289快速攀升至308帧,上升曲线明显,视频中两帧的对应图像显示在右上角,两帧图像中的人将从木滑道滑出,然而,同一时间段内的显著性评分曲线在5帧内(从312帧到317帧)先平缓上升,然后迅速上升,在视频的312帧和317帧中,人从木滑道滑出,将这种现象定义为模型延迟,即显著性评分曲线的反应总是比人工标注的评分曲线慢一点,在给视频做注释时,人们会在动作开始前给视频打高分,机器学习模型缺乏对动作的感知能力,因此,只有当一帧具有显著特征时,它才可能给该帧打高分;类似的,在视频集中的另一个视频中,描述了飞机着陆,同样观察到了延迟,从视频中的3954帧到4054帧,飞机从直线运动开始转向,这是一个连贯的动作,从模型的角度来看,这一时期图像的五个特征变化不大,然而,人类能够提前知道“它会马上转过去”,所以他们会开始注意,从第4070帧到第4211帧,在飞机转弯动作过程中,计算机计算的特征发生变化,运动分数开始上升;通过对视频集的观察,发现在静态类型的视频中,这种延迟现象的概率最大,在移动类型的视频中次之,在以自我为中心类型的视频中效率最低,结果与本发明的理解相符;对于静态类型的视频,由于拍摄时摄像机的位置是固定的,所以视频内容趋于稳定,对于移动类型的视频,相机在拍摄时的稳定性较差,以自我为中心的视频拍摄设备固定在拍摄者的头上,因此在提取特征时图像不稳定,细微的变化不易在相邻帧中捕捉到,可视化分析系统通过探索模型输出和人工标注之间可能存在的延迟现象,为研究显著性模型的性能提供了一个新的视角。
本发明的技术构思是:为了帮助用户探索和分析视频内容,以及视频摘要模型中存在的内在关系,本发明将这一工作分为模型分析、交互式可视化和模型诊断三个部分。模型分析部分是对视频摘要数据集视频中每一帧的视觉特征和语义特征进行详细的提取。本发明将特征输入到机器学习模型中,获得相应的显著性得分。在交互可视化部分包含多个协调视图,即视频视图,投影视图,细节视图,序列帧视图。视频视图显示了视频集汇总的整体分布,包括人工和模型获得的分数,以及类别和视频播放面板。在投影视图中,本发明提出了一个多层次的分析过程,将视频事件和帧集成到一个具有集群和节点可视化的单一视图中。细节视图链接到投影视图,每一帧的详细特征信息在这里完全显示。在序列帧视图中,本发明将人工标注得分、模型预测的显著性得分和描述性特征得分合并到像素条和playfair-style图表中,分析差异和潜在的时间延迟。用户可以通过视频、事件和帧三个层面来研究模型背后的模式。不同视图交互式协作,在描述性特征、人工标注结果和模型输出之间进行探索。
本发明所依据的原数据在计算机视觉研究领域被称为视频摘要数据集,由25个视频组成,包含静态视频、以自我为中心的视频和移动视频。视频注释被进一步应用到视频摘要数据集中所有的视频,每个视频由15到18个人注释。在人工标注之后每一帧都会获得一个重要性分数,最终每一帧的重要性由这些参与者的平均分表示。
本发明设计了一个B/S架构下基于Web平台的可视分析系统以探索视频摘要模型,以及视频特征和原始内容之间的关系,利用流行的d3.js进行绘制可视化组件,与传统的视频可视化不同,本发明提出了针对视频摘要模型的可视化方法。用户可以从视频、事件和帧三个层次进行分析,对整个视频摘要视频集进行详细的探索,配合几个相互协调联动的视图,用户可以交互地对视频中任意时间段进行选择,分析模型结果与特征之间的关系。
设计一套完整的交互式视频摘要模型的可视理解与诊断的分析系统,从模型分析到可视化展示。首先对原始视频进行特征提取,获得模型显著性评分,最后通过设计的可视化分析界面,通过不同的展示方式,对模型分析部分的数据进行交互式的可视化展示。帮助用户了解模型得到的视频摘要和人工标注的视频摘要之间的差异,提供提高模型的可信度。
本发明的有益效果:通过模型分析,融合了多特征检测和多层级探索的方法,设计一套交互式可视化分析系统,允许用户交互式探索视频摘要模型、视频特征和原始内容之间的内在关系。并用计算机视觉领域的视频摘要数据集进行实证研究来分析系统的有效性和效率。
附图说明
图1为本发明的流程图。
图2为本发明的显著性得分模型流程图。
图3为本发明的碰撞检测图。
图4为本发明的投影视图。
图5为本发明的视频视图。
图6为本发明的详细视图。
图7为本发明的序列帧视图。
具体实施方案
下面结合附图对本发明作进一步说明。
参照图1~图7,一种交互式视频摘要模型的可视理解与诊断方法,本发明采用D3.js来绘制前端界面,后台数据通过Java获取。
所述交互式视频摘要模型的可视理解与诊断方法,包括以下步骤:
1)模型分析;通过对视频摘要数据集视频中每一帧的视觉特征和语义特征提取,本发明将特征输入到机器学习模型中,获得相应的显著性得分,对应的流程图如图1所示;
(1-1)描述性特征提取;为了帮助研究人员更深入的理解视频中每一帧,本发明将特征提取分为视觉特征和语义特征两个部分。视觉特征反映了吸引视频观看者的重要因素,通过查阅现有的视频和文献资料,本发明从视频中每一帧提取了运动特征、记忆特征、质量特征和美学特征。一般来说,人们对移动物体的关注多于对静止物体。因此本发明关注于提取视觉上重要的运动特征来揭示帧与帧之间的相互关系。人在观影后脑海中会有一些碎片化的记忆,我们将这些令人印象深刻的片段视为记忆特征得分较高。质量特征用来评估图像是否有噪声、模糊、压缩等情况。低质量的视频在视觉上和听觉上都令人不适。而美感特征是用来量化图像中的优美的部分,有助于生成人们感兴趣的视频摘要。语义特征是原生视频内容不可忽视的一部分,它也是衡量帧重要性的关键依据。因此本发明引入视觉语义显著性作为识别被挑选的帧和主题相关度高的度量。
(1-2)显著性获取模型;在本发明中我们选择线性模型以有效的获得视频中每一帧的显著性分数。将基于特征提取得到的每一帧的五个描述性特征得分归一化并输入到模型中,从而为每一帧生成显著性得分sk定义如公式(1),其模型流程图如图2所示。
ai为每一个归一化特征的得分,N是特征的个数,w0,wi,wj为最小二乘估计的权值。获得的分值将进一步与人工标注的分数逐帧比较。
2)可视分析;在通过以上步骤完成特征提取以及模型显著性评分以后,通过系统提供的不同组件对视频内容以及模型内在关系进行探索,分析过程如下:
(2-1)提供初步探索的视频视图分析
对于如何让用户快速获取感兴趣的视频,并且不增加认知负担的情况下,本发明采用包含图例、视频列表以及原始视频的视频视图展示(如图5所示)。图例是在视频视图的顶部,它显示本发明对每个特征的配色方案,以帮助用户理解颜色和特征之间的组合。该视图的中间部分是视频列表,也分为三列,即视频标题,视频类别和视频摘要。第一列的视频标题是视频的名称,第二列的视频类别是视频所属的类型,如移动类视频、以自我为中心的视频和静态视频。第三列的视频摘要使用playfair-style图表来表示模型生成的显著性评分与人工标注评分之间的差异。x轴表示视频的长度(帧),y轴代表得分大小。视频视图给用户一个快速的概览,以帮助他们找到感兴趣的视频。在选择感兴趣的视频后,在其底部用户可以查看视频的详细内容。在这个视图中,用户可以拖放视频的时间轴来浏览原始视频。
(2-2)事件层次的投影视图分析
为了更直观的理解帧与帧之间的关联性,本发明使用t-SNE投影算法来映射视频的所有帧。每一帧由一个特征向量Vr描述,特征向量如公式(2)所示。向量被进一步映射到二维空间中,因为它适用于将高维数据嵌入到二维空间中,以获得数据的快速预览。两个节点在二维空间中较近,它们在高维特征向量空间中的行为越相似。
Vr=[sv,se,sm,sq,sa] (2)
最初,每一帧都用一个点表示,但是这不会给用户任何的视觉指示,因此,本发明使用颜色梯度来表示帧的时间顺序。节点颜色越浅表示初始帧,节点颜色越深表示后期帧。用户可以在投影视图中(如图4所示)发现时间分布。本发明利用DBSCAN算法对降维得到的二维向量进行聚类,得到多个聚类结果。因为我们发现集群中的帧大多都是连续的,并且相邻帧之间有一定的相似性,所以将本发明中的每个集群作为一个是事件。随后对本发明的猜测做了验证,并得到的证实。此外,本发明还添加了一个新的字形构建方法,为用户提供每个集群特性的概述,以便在集群之间进行比较和选择。字形是利用五个等分的圆扇区对从帧图像中提取的五个特征进行编码,从十二点钟的位置开始顺时针依次表示视觉语义显著一致性、记忆、运动、质量和美学这五个特征,弧长l用来表示描述性特征得分的大小,弧长越大,集群中所有帧的平均描述特征得分越大(如公式3),α表示圆心角为2π/5,r表示半径大小。又由于投影视图中覆盖了视频的所有帧,节点太多导致重叠现象严重,造成视觉混乱。并且原来的节点只包含事件信息,因此本发明用新的字形展示该点,在圆内标记出帧的时间信息,在圆外,圆圈的颜色表示两种分数。深色表示模型生成的显著性分数,浅色表示人工标注分数,弧度编码分数大小。然后进一步利用碰撞检测算法,通过多次将重叠的点推开,最终形成稳定的布局(如图3所示)。
l=α*r (3)
(2-3)提供详细信息和探索的详细视图
为了显示所选视频的所有帧的统计信息,本发明设计了详细视图(如图6所示),该视图分为两个部分,上半部分是平行坐标视图,下半部分是Lineup视图。在平行坐标视图中,每个折线对应投影视图中一个帧的得分信息,包括描述性特征得分、模型产生的显著性得分、人工标注得分。用户可以在每个坐标上通过笔刷选择一个属性值在一定范围内的特定序列,并深色显示画笔选择的折线,其他的折线是浅灰色的仍然作为背景。在Lineup视图中,有8列,从左到右分别是帧数、五个描述性特征得分、模型生成的显著性得分和人工标注得分。在该视图顶部的虚线框中,提供得分在各个分数段的分布。同时,它还支持典型的交互功能帮助过滤和排序。
(2-4)展示整体时间趋势的序列帧视图
序列帧视图(如图7)为用户在时间维度上的探索提供了新颖的视角。为了揭示评分情况的总体时间趋势,并探索详细的视频内容和模型效果。在此视图中,本发明使用两个子视图通过切换视图来全面显示视频的所有信息。playfair-style图表显示了模型显着性得分和人工标注得分之间的差异。x轴表示视频的长度,y轴表示每一帧的分数。浅色区域表示这一时期模型的显著性评分大于人工标注的显著性评分,深色区域表示这一时期模型的显著性评分大于人工标注的显著性评分。用户可以通过点击toggle按钮切换到特征视图。该视图从上到下依次显示了视觉语义显著一致性、记忆、运动、质量和美学这五个特征的整体时间趋势。在两个子视图的顶部,本发明还提供一个额外的像素条,用于表示由模型和人工标注评分在帧上生成的显著性评分比例变化。像素条视图中的颜色代表不同类型的分数,而高度表示大小的值,即深色表示显著性模型评分,浅色表示人工标注评分。
3)基于显著性模型的视觉诊断
通过对综合数据的机器学习模型的多次检验,验证了诊断机制的有效性。本发明可以帮助用户更好的理解模型性能和模型的延迟性。对对视频集中的一个视频分析帮助阐明视频中的延迟现象,人工标注分数从289快速攀升至308帧,上升曲线明显。视频中两帧的对应图像显示在右上角,两帧图像中的人将从木滑道滑出。然而,同一时间段内的显著性评分曲线在5帧内(从312帧到317帧)先平缓上升,然后迅速上升。在视频的312帧和317帧中,人从木滑道滑出。本发明将这种现象定义为模型延迟,即显著性评分曲线的反应总是比人工标注的评分曲线慢一点。在给视频做注释时,人们会在动作开始前给视频打高分。机器学习模型缺乏对动作的感知能力。因此,只有当一帧具有显著特征时,它才可能给该帧打高分。类似的,在视频集中的另一个视频中,描述了飞机着陆,本发明同样观察到了延迟。从视频中的3954帧到4054帧,飞机从直线运动开始转向,这是一个连贯的动作。从模型的角度来看,这一时期图像的五个特征变化不大。然而,人类能够提前知道“它会马上转过去”,所以他们会开始注意。从第4070帧到第4211帧,在飞机转弯动作过程中,计算机计算的特征发生变化,运动分数开始上升。通过对视频集的观察,本发明发现在静态类型的视频中,这种延迟现象的概率最大,在移动类型的视频中次之,在以自我为中心类型的视频中效率最低。结果与本发明的理解相符。对于静态类型的视频,由于拍摄时摄像机的位置是固定的,所以视频内容趋于稳定。对于移动类型的视频,相机在拍摄时的稳定性较差,以自我为中心的视频拍摄设备固定在拍摄者的头上,因此在提取特征时图像不稳定,细微的变化不易在相邻帧中捕捉到。本发明的可视化分析系统通过探索模型输出和人工标注之间可能存在的延迟现象,为研究显著性模型的性能提供了一个新的视角。
本实施例的方案通过模型分析,融合了多特征检测和多层级探索的方法,设计一套交互式可视化分析系统,允许用户交互式探索视频摘要模型、视频特征和原始内容之间的内在关系。并用计算机视觉领域的视频摘要数据集进行实证研究来分析系统的有效性和效率。
Claims (2)
1.一种交互式视频摘要模型的可视理解与诊断方法,其特征在于,所述方法包括以下步骤:
1)模型分析;通过对视频摘要数据集视频中每一帧的视觉特征和语义特征提取,将特征输入到机器学习模型中,获得相应的显著性得分;过程如下:
(1-1)描述性特征提取;将特征提取分为视觉特征和语义特征两个部分,视觉特征反映了吸引视频观看者的重要因素,通过查阅现有的视频和文献资料,从视频中每一帧提取了运动特征、记忆特征、质量特征和美学特征;关注于提取视觉上重要的运动特征来揭示帧与帧之间的相互关系,人在观影后脑海中会有一些碎片化的记忆,将这些令人印象深刻的片段视为记忆特征得分较高,质量特征用来评估图像是否有噪声、模糊、压缩情况,低质量的视频在视觉上和听觉上都令人不适,而美感特征是用来量化图像中的优美的部分,有助于生成人们感兴趣的视频摘要,语义特征是原生视频内容不可忽视的一部分,它也是衡量帧重要性的关键依据,引入视觉语义显著性作为识别被挑选的帧和主题相关度高的度量;
(1-2)显著性获取模型;选择线性模型以有效的获得视频中每一帧的显著性分数,将基于特征提取得到的每一帧的五个描述性特征得分归一化并输入到模型中,从而为每一帧生成显著性得分sk定义如公式(1);
ai为每一个归一化特征的得分,N是特征的个数,w0,wi,wj为最小二乘估计的权值,获得的分值将进一步与人工标注的分数逐帧比较;
2)可视分析;在通过以上步骤完成特征提取以及模型显著性评分以后,通过系统提供的不同组件对视频内容以及模型内在关系进行探索;分析过程如下:
(2-1)提供初步探索的视频视图分析
采用包含图例、视频列表以及原始视频的视频视图展示,图例是在视频视图的顶部,它显示本发明对每个特征的配色方案,以帮助用户理解颜色和特征之间的组合;该视图的中间部分是视频列表,也分为三列,即视频标题,视频类别和视频摘要,第一列的视频标题是视频的名称,第二列的视频类别是视频所属的类型,第三列的视频摘要使用playfair-style图表来表示模型生成的显著性评分与人工标注评分之间的差异,x轴表示视频的长度(帧),y轴代表得分大小,视频视图给用户一个快速的概览,以帮助他们找到感兴趣的视频,选择感兴趣的视频后,在其底部用户可以查看视频的详细内容,在这个视图中,用户可以拖放视频的时间轴来浏览原始视频;
(2-2)事件层次的投影视图分析
使用t-SNE投影算法来映射视频的所有帧,每一帧由一个特征向量Vr描述,特征向量如公式(2)所示,向量被进一步映射到二维空间中,因为它适用于将高维数据嵌入到二维空间中,以获得数据的快速预览,两个节点在二维空间中较近,它们在高维特征向量空间中的行为越相似;
Vr=[sv,se,sm,sq,sa] (2)
最初,每一帧都用一个点表示,但是这不会给用户任何的视觉指示,因此,使用颜色梯度来表示帧的时间顺序,节点颜色越浅表示初始帧,节点颜色越深表示后期帧,用户可以在投影视图中发现时间分布,利用DBSCAN算法对降维得到的二维向量进行聚类,得到多个聚类结果;发现集群中的帧大多都是连续的,并且相邻帧之间有一定的相似性,所以将每个集群作为一个是事件,随后对猜测做了验证,并得到的证实;还添加了一个新的字形构建方法,为用户提供每个集群特性的概述,以便在集群之间进行比较和选择,字形是利用五个等分的圆扇区对从帧图像中提取的五个特征进行编码,从十二点钟的位置开始顺时针依次表示视觉语义显著一致性、记忆、运动、质量和美学这五个特征,弧长l用来表示描述性特征得分的大小,弧长越大,集群中所有帧的平均描述特征得分越大,α表示圆心角为2π/5,r表示半径大小,又由于投影视图中覆盖了视频的所有帧,节点太多导致重叠现象严重,造成视觉混乱;并且原来的节点只包含事件信息,因此用新的字形展示该点,在圆内标记出帧的时间信息,在圆外,圆圈的颜色表示两种分数,深色表示模型生成的显著性分数,浅色表示人工标注分数,弧度编码分数大小,然后进一步利用碰撞检测算法,通过多次将重叠的点推开,最终形成稳定的布局;
l=α﹡r (3)
(2-3)提供详细信息和探索的详细视图
视图分为两个部分,上半部分是平行坐标视图,下半部分是Lineup视图,在平行坐标视图中,每个折线对应投影视图中一个帧的得分信息,包括描述性特征得分、模型产生的显著性得分、人工标注得分,用户可以在每个坐标上通过笔刷选择一个属性值在一定范围内的特定序列,并深色显示画笔选择的折线,其他的折线是浅灰色的仍然作为背景;在Lineup视图中,有8列,从左到右分别是帧数、五个描述性特征得分、模型生成的显著性得分和人工标注得分,在该视图顶部的虚线框中,提供得分在各个分数段的分布,同时,它还支持典型的交互功能帮助过滤和排序;
(2-4)展示整体时间趋势的序列帧视图
序列帧视图为用户在时间维度上的探索提供了新颖的视角,为了揭示评分情况的总体时间趋势,并探索详细的视频内容和模型效果,在此视图中,使用两个子视图通过切换视图来全面显示视频的所有信息,playfair-style图表显示了模型显着性得分和人工标注得分之间的差异,x轴表示视频的长度,y轴表示每一帧的分数;浅色区域表示这一时期模型的显著性评分大于人工标注的显著性评分,深色区域表示这一时期模型的显著性评分大于人工标注的显著性评分,用户可以通过点击toggle按钮切换到特征视图,该视图从上到下依次显示了视觉语义显著一致性、记忆、运动、质量和美学这五个特征的整体时间趋势,在两个子视图的顶部,还提供一个额外的像素条,用于表示由模型和人工标注评分在帧上生成的显著性评分比例变化,像素条视图中的颜色代表不同类型的分数,而高度表示大小的值,即深色表示显著性模型评分,浅色表示人工标注评分;
3)基于显著性模型的视觉诊断。
2.如权利要求1所述的交互式视频摘要模型的可视理解与诊断方法,其特征在于,所述步骤3)中,通过对综合数据的机器学习模型的多次检验,验证了诊断机制的有效性,对视频集中的一个视频分析帮助阐明视频中的延迟现象,人工标注分数从289快速攀升至308帧,上升曲线明显,视频中两帧的对应图像显示在右上角,两帧图像中的人将从木滑道滑出,然而,同一时间段内的显著性评分曲线在5帧内先平缓上升,然后迅速上升,在视频的312帧和317帧中,人从木滑道滑出,将这种现象定义为模型延迟,即显著性评分曲线的反应总是比人工标注的评分曲线慢一点,在给视频做注释时,人们会在动作开始前给视频打高分,机器学习模型缺乏对动作的感知能力,因此,只有当一帧具有显著特征时,它才可能给该帧打高分;类似的,在视频集中的另一个视频中,描述了飞机着陆,同样观察到了延迟,从视频中的3954帧到4054帧,飞机从直线运动开始转向,这是一个连贯的动作,从模型的角度来看,这一时期图像的五个特征变化不大,然而,人类能够提前知道“它会马上转过去”,所以他们会开始注意,从第4070帧到第4211帧,在飞机转弯动作过程中,计算机计算的特征发生变化,运动分数开始上升;通过对视频集的观察,发现在静态类型的视频中,这种延迟现象的概率最大,在移动类型的视频中次之,在以自我为中心类型的视频中效率最低,结果与本发明的理解相符;对于静态类型的视频,由于拍摄时摄像机的位置是固定的,所以视频内容趋于稳定,对于移动类型的视频,相机在拍摄时的稳定性较差,以自我为中心的视频拍摄设备固定在拍摄者的头上,因此在提取特征时图像不稳定,细微的变化不易在相邻帧中捕捉到,可视化分析系统通过探索模型输出和人工标注之间可能存在的延迟现象,为研究显著性模型的性能提供了一个新的视角。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911240547.8A CN111062284B (zh) | 2019-12-06 | 2019-12-06 | 一种交互式视频摘要模型的可视理解与诊断方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911240547.8A CN111062284B (zh) | 2019-12-06 | 2019-12-06 | 一种交互式视频摘要模型的可视理解与诊断方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111062284A true CN111062284A (zh) | 2020-04-24 |
CN111062284B CN111062284B (zh) | 2023-09-29 |
Family
ID=70300063
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911240547.8A Active CN111062284B (zh) | 2019-12-06 | 2019-12-06 | 一种交互式视频摘要模型的可视理解与诊断方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111062284B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111782764A (zh) * | 2020-06-02 | 2020-10-16 | 浙江工业大学 | 一种交互式nl2sql模型的可视理解与诊断方法 |
CN112288142A (zh) * | 2020-10-13 | 2021-01-29 | 泉州津大智能研究院有限公司 | 一种短视频记忆度预测方法及装置 |
CN113468328A (zh) * | 2021-06-18 | 2021-10-01 | 浙江工业大学 | 一种多属性事理关系抽取及可视分析方法 |
CN113468328B (zh) * | 2021-06-18 | 2024-10-25 | 浙江工业大学 | 一种多属性事理关系抽取及可视分析方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120123780A1 (en) * | 2010-11-15 | 2012-05-17 | Futurewei Technologies, Inc. | Method and system for video summarization |
KR20130061058A (ko) * | 2011-11-30 | 2013-06-10 | 고려대학교 산학협력단 | 영상 내 비주얼 특징을 이용한 영상 요약 방법 및 시스템 |
US20150153910A1 (en) * | 2013-12-03 | 2015-06-04 | Google Inc. | Dyanmic thumbnail representation for a video playlist |
CN107222795A (zh) * | 2017-06-23 | 2017-09-29 | 南京理工大学 | 一种多特征融合的视频摘要生成方法 |
CN109271567A (zh) * | 2018-08-01 | 2019-01-25 | 浙江工业大学 | 一种面向全排列数据的多变量可视分析方法 |
CN109344957A (zh) * | 2018-08-01 | 2019-02-15 | 浙江工业大学 | 基于差异比较的卷积神经网络可视分析方法 |
US10311913B1 (en) * | 2018-02-22 | 2019-06-04 | Adobe Inc. | Summarizing video content based on memorability of the video content |
CN109885728A (zh) * | 2019-01-16 | 2019-06-14 | 西北工业大学 | 基于元学习的视频摘要方法 |
CN110347870A (zh) * | 2019-06-19 | 2019-10-18 | 西安理工大学 | 基于视觉显著性检测与层次聚类法的视频摘要化生成方法 |
US10459975B1 (en) * | 2016-12-20 | 2019-10-29 | Shutterstock, Inc. | Method and system for creating an automatic video summary |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107943990B (zh) * | 2017-12-01 | 2020-02-14 | 天津大学 | 基于带权重的原型分析技术的多视频摘要方法 |
-
2019
- 2019-12-06 CN CN201911240547.8A patent/CN111062284B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120123780A1 (en) * | 2010-11-15 | 2012-05-17 | Futurewei Technologies, Inc. | Method and system for video summarization |
KR20130061058A (ko) * | 2011-11-30 | 2013-06-10 | 고려대학교 산학협력단 | 영상 내 비주얼 특징을 이용한 영상 요약 방법 및 시스템 |
US20150153910A1 (en) * | 2013-12-03 | 2015-06-04 | Google Inc. | Dyanmic thumbnail representation for a video playlist |
US10459975B1 (en) * | 2016-12-20 | 2019-10-29 | Shutterstock, Inc. | Method and system for creating an automatic video summary |
CN107222795A (zh) * | 2017-06-23 | 2017-09-29 | 南京理工大学 | 一种多特征融合的视频摘要生成方法 |
US10311913B1 (en) * | 2018-02-22 | 2019-06-04 | Adobe Inc. | Summarizing video content based on memorability of the video content |
CN109271567A (zh) * | 2018-08-01 | 2019-01-25 | 浙江工业大学 | 一种面向全排列数据的多变量可视分析方法 |
CN109344957A (zh) * | 2018-08-01 | 2019-02-15 | 浙江工业大学 | 基于差异比较的卷积神经网络可视分析方法 |
CN109885728A (zh) * | 2019-01-16 | 2019-06-14 | 西北工业大学 | 基于元学习的视频摘要方法 |
CN110347870A (zh) * | 2019-06-19 | 2019-10-18 | 西安理工大学 | 基于视觉显著性检测与层次聚类法的视频摘要化生成方法 |
Non-Patent Citations (5)
Title |
---|
GUODAO SUN: "PermVizor: visual analysis of multivariate permutations" * |
HOSSEIN TALEBI: "NIMA: Neural Image Assessment" * |
MENGJUAN FEI: "Creating memorable video summaries that satisfy the user’s intention for taking the videos" * |
MING JIANG: "SALICON: Saliency in Context" * |
彭帝超: "一种新的视频摘要可视化算法" * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111782764A (zh) * | 2020-06-02 | 2020-10-16 | 浙江工业大学 | 一种交互式nl2sql模型的可视理解与诊断方法 |
CN111782764B (zh) * | 2020-06-02 | 2022-04-08 | 浙江工业大学 | 一种交互式nl2sql模型的可视理解与诊断方法 |
CN112288142A (zh) * | 2020-10-13 | 2021-01-29 | 泉州津大智能研究院有限公司 | 一种短视频记忆度预测方法及装置 |
CN112288142B (zh) * | 2020-10-13 | 2022-06-10 | 泉州津大智能研究院有限公司 | 一种短视频记忆度预测方法及装置 |
CN113468328A (zh) * | 2021-06-18 | 2021-10-01 | 浙江工业大学 | 一种多属性事理关系抽取及可视分析方法 |
CN113468328B (zh) * | 2021-06-18 | 2024-10-25 | 浙江工业大学 | 一种多属性事理关系抽取及可视分析方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111062284B (zh) | 2023-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Isola et al. | What makes an image memorable? | |
Cetinic et al. | A deep learning perspective on beauty, sentiment, and remembrance of art | |
Isola et al. | What makes a photograph memorable? | |
Yao et al. | Oscar: On-site composition and aesthetics feedback through exemplars for photographers | |
US8995725B2 (en) | On-site composition and aesthetics feedback through exemplars for photographers | |
Kurzhals et al. | Gaze stripes: Image-based visualization of eye tracking data | |
Tiwari et al. | A survey of recent work on video summarization: approaches and techniques | |
Moorthy et al. | Towards computational models of the visual aesthetic appeal of consumer videos | |
US8503770B2 (en) | Information processing apparatus and method, and program | |
US20090278937A1 (en) | Video data processing | |
Higuchi et al. | Egoscanning: Quickly scanning first-person videos with egocentric elastic timelines | |
US7904815B2 (en) | Content-based dynamic photo-to-video methods and apparatuses | |
JP2000322450A (ja) | ビデオの類似性探索方法、ビデオブラウザ内にビデオを提示する方法、ウェブベースのインタフェース内にビデオを提示する方法、及びコンピュータ読取り可能記録媒体、並びにコンピュータシステム | |
JP2000311180A (ja) | 特徴セット選択方法、ビデオ画像クラス統計モデルの生成方法、ビデオフレームの分類及びセグメント化方法、ビデオフレームの類似性決定方法、およびコンピュータ可読媒体、並びにコンピュータシステム | |
JP2011154687A (ja) | 画像データセットをナビゲートするための方法、装置、及びプログラム | |
CN101807198A (zh) | 一种基于草图的视频摘要生成方法 | |
JP2011019192A (ja) | 画像表示装置 | |
Botchen et al. | Action-based multifield video visualization | |
Pustu-Iren et al. | Automated Visual Content Analysis for Film Studies: Current Status and Challenges. | |
CN111062284B (zh) | 一种交互式视频摘要模型的可视理解与诊断方法 | |
Wan et al. | A new technique for summarizing video sequences through histogram evolution | |
Doughty et al. | Who’s better, who’s best: Skill determination in video using deep ranking | |
Wachman et al. | Tools for browsing a TV situation comedy based on content specific attributes | |
EP2112619A1 (en) | Video data processing | |
Xiang et al. | Affect-based adaptive presentation of home videos |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |