CN111062284A

CN111062284A - 一种交互式视频摘要模型的可视理解与诊断方法

Info

Publication number: CN111062284A
Application number: CN201911240547.8A
Authority: CN
Inventors: 孙国道; 朱琳; 吴昊; 徐超清; 梁浩然; 徐斌伟; 梁荣华
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2019-12-06
Filing date: 2019-12-06
Publication date: 2020-04-24
Anticipated expiration: 2039-12-06
Also published as: CN111062284B

Abstract

一种交互式视频摘要模型的可视理解与诊断方法，包括以下步骤：对原始视频集进行特征提取获得五个描述性特征得分，将提取的特征作为验证集通过机器学习训练得到显著性得分；经过以上步骤，通过视频视图，投影视图，细节视图以及连续帧视图进行多特征检查和多层次探索的交互式视觉分析。帮助用户探索和分析视频内容，以及视频摘要模型中存在的内在关系。本发明通过模型分析方法获得数据，并设计一种交互式视频摘要模型的可视理解与诊断方法，帮助理解本发明的视频摘要模型中存在的内在关系。并且提出一套可视分析系统帮助用户探索和分析视频内容，通过视频视图，投影视图，序列帧视图以及细节视图从视频、事件和帧三个层面对模型进行深入探索。

Description

一种交互式视频摘要模型的可视理解与诊断方法

技术领域

本发明涉及一种交互式视频摘要模型的可视理解与诊断方法。

背景技术

随着多媒体网络技术的迅速发展和视频捕捉设备的普及，直接导致存储资源消耗增加、视频内容的分类和索引代价增大的问题。面对这样的困境，视频摘要往往被认为是解决这一问题的有效途径。视频摘要通过从原始视频中提取有意义的片段或关键帧，以自动化或半自动化的方式生成简洁的摘要视频。视频摘要可以保留原始视频的多样性，同时减少存储空间和传输时间，帮助用户快速浏览或检索视频。

现阶段，在视频摘要研究中，研究者通常将典型的机器学习方法和人工设计的运动、美学等特征相结合，来识别视频中的行为，从而获得更准确的视频摘要。然而这些方法在实际应用中面临许多挑战。首先由于不适当的特征提取和模型选择，基于机器学习的方法有时会导致视频质量较差。例如，太少的特征会导致模型精度低，太多的特征会导致过拟合现象。此外，由于缺乏数据集，在训练过程中没有考虑这些特征。因此，探索模型结果与特征选择之间的关系是一大难点。其次，视频摘要模型通常依赖大量手人工标注的训练集。在目前的实验中，人类标注和模型预测的重要帧的确定存在差异和时间延迟。所以，如何帮助用户了解人工标注评分与模型预测的显著性评分的区别是本发明面临的第二个难点，第三，视频摘要结果与视频类型密切相关。例如很难同时应用一个模型来提取静态、移动或以自我为中心的视频摘要。因此，帮助研究人员理解模型的适应性仍然是一个主要的难点。

发明内容

为了克服现有技术的不足，本发明通过模型分析方法获得数据，并设计一种交互式视频摘要模型的可视理解与诊断方法，帮助理解本发明的视频摘要模型中存在的内在关系。并且提出一套可视分析系统帮助用户探索和分析视频内容，通过视频视图，投影视图，序列帧视图以及细节视图从视频、事件和帧三个层面对模型进行深入探索。

为了解决上述技术问题，本发明提供如下的技术方案：

一种交互式视频摘要模型的可视理解与诊断方法，包括以下步骤：

1)模型分析；通过对视频摘要数据集视频中每一帧的视觉特征和语义特征提取，将特征输入到机器学习模型中，获得相应的显著性得分；

(1-1)描述性特征提取；将特征提取分为视觉特征和语义特征两个部分，视觉特征反映了吸引视频观看者的重要因素，通过查阅现有的视频和文献资料，从视频中每一帧提取了运动特征、记忆特征、质量特征和美学特征；关注于提取视觉上重要的运动特征来揭示帧与帧之间的相互关系，人在观影后脑海中会有一些碎片化的记忆，将这些令人印象深刻的片段视为记忆特征得分较高，质量特征用来评估图像是否有噪声、模糊、压缩情况，低质量的视频在视觉上和听觉上都令人不适，而美感特征是用来量化图像中的优美的部分，有助于生成人们感兴趣的视频摘要，语义特征是原生视频内容不可忽视的一部分，它也是衡量帧重要性的关键依据，引入视觉语义显著性作为识别被挑选的帧和主题相关度高的度量；

(1-2)显著性获取模型；选择线性模型以有效的获得视频中每一帧的显著性分数，将基于特征提取得到的每一帧的五个描述性特征得分归一化并输入到模型中，从而为每一帧生成显著性得分s_k定义如公式(1)；

a_i为每一个归一化特征的得分，N是特征的个数，w₀，w_i，w_j为最小二乘估计的权值，获得的分值将进一步与人工标注的分数逐帧比较；

2)可视分析；在通过以上步骤完成特征提取以及模型显著性评分以后，通过系统提供的不同组件对视频内容以及模型内在关系进行探索；分析过程如下：

(2-1)提供初步探索的视频视图分析

采用包含图例、视频列表以及原始视频的视频视图展示，图例是在视频视图的顶部，它显示本发明对每个特征的配色方案，以帮助用户理解颜色和特征之间的组合；该视图的中间部分是视频列表，也分为三列，即视频标题，视频类别和视频摘要，第一列的视频标题是视频的名称，第二列的视频类别是视频所属的类型，第三列的视频摘要使用playfair-style图表来表示模型生成的显著性评分与人工标注评分之间的差异，x轴表示视频的长度(帧)，y轴代表得分大小，视频视图给用户一个快速的概览，以帮助他们找到感兴趣的视频，选择感兴趣的视频后，在其底部用户可以查看视频的详细内容，在这个视图中，用户可以拖放视频的时间轴来浏览原始视频；

(2-2)事件层次的投影视图分析

使用t-SNE投影算法来映射视频的所有帧，每一帧由一个特征向量V_r描述，特征向量如公式(2)所示，向量被进一步映射到二维空间中，因为它适用于将高维数据嵌入到二维空间中，以获得数据的快速预览，两个节点在二维空间中较近，它们在高维特征向量空间中的行为越相似；

V_r＝[s_v，s_e，s_m，s_q，s_a] (2)

最初，每一帧都用一个点表示，但是这不会给用户任何的视觉指示，因此，使用颜色梯度来表示帧的时间顺序，节点颜色越浅表示初始帧，节点颜色越深表示后期帧，用户可以在投影视图中发现时间分布，利用DBSCAN算法对降维得到的二维向量进行聚类，得到多个聚类结果；发现集群中的帧大多都是连续的，并且相邻帧之间有一定的相似性，所以将每个集群作为一个是事件，随后对猜测做了验证，并得到的证实；还添加了一个新的字形构建方法，为用户提供每个集群特性的概述，以便在集群之间进行比较和选择，字形是利用五个等分的圆扇区对从帧图像中提取的五个特征进行编码，从十二点钟的位置开始顺时针依次表示视觉语义显著一致性、记忆、运动、质量和美学这五个特征，弧长l用来表示描述性特征得分的大小，弧长越大，集群中所有帧的平均描述特征得分越大，α表示圆心角为2π/5，r表示半径大小，又由于投影视图中覆盖了视频的所有帧，节点太多导致重叠现象严重，造成视觉混乱；并且原来的节点只包含事件信息，因此用新的字形展示该点，在圆内标记出帧的时间信息，在圆外，圆圈的颜色表示两种分数，深色表示模型生成的显著性分数，浅色表示人工标注分数，弧度编码分数大小，然后进一步利用碰撞检测算法，通过多次将重叠的点推开，最终形成稳定的布局；

l＝α*r (3)

(2-3)提供详细信息和探索的详细视图

视图分为两个部分，上半部分是平行坐标视图，下半部分是Lineup视图，在平行坐标视图中，每个折线对应投影视图中一个帧的得分信息，包括描述性特征得分、模型产生的显著性得分、人工标注得分，用户可以在每个坐标上通过笔刷选择一个属性值在一定范围内的特定序列，并深色显示画笔选择的折线，其他的折线是浅灰色的仍然作为背景；在Lineup视图中，有8列，从左到右分别是帧数、五个描述性特征得分、模型生成的显著性得分和人工标注得分，在该视图顶部的虚线框中，提供得分在各个分数段的分布，同时，它还支持典型的交互功能帮助过滤和排序；

(2-4)展示整体时间趋势的序列帧视图

序列帧视图为用户在时间维度上的探索提供了新颖的视角，为了揭示评分情况的总体时间趋势，并探索详细的视频内容和模型效果，在此视图中，使用两个子视图通过切换视图来全面显示视频的所有信息，playfair-style图表显示了模型显着性得分和人工标注得分之间的差异，x轴表示视频的长度，y轴表示每一帧的分数；浅色区域表示这一时期模型的显著性评分大于人工标注的显著性评分，深色区域表示这一时期模型的显著性评分大于人工标注的显著性评分，用户可以通过点击toggle按钮切换到特征视图，该视图从上到下依次显示了视觉语义显著一致性、记忆、运动、质量和美学这五个特征的整体时间趋势，在两个子视图的顶部，还提供一个额外的像素条，用于表示由模型和人工标注评分在帧上生成的显著性评分比例变化，像素条视图中的颜色代表不同类型的分数，而高度表示大小的值，即深色表示显著性模型评分，浅色表示人工标注评分；

3)基于显著性模型的视觉诊断。

进一步，所述步骤3)中，通过对综合数据的机器学习模型的多次检验，验证了诊断机制的有效性，对视频集中的一个视频分析帮助阐明视频中的延迟现象，人工标注分数从289快速攀升至308帧，上升曲线明显，视频中两帧的对应图像显示在右上角，两帧图像中的人将从木滑道滑出，然而，同一时间段内的显著性评分曲线在5帧内(从312帧到317帧)先平缓上升，然后迅速上升，在视频的312帧和317帧中，人从木滑道滑出，将这种现象定义为模型延迟，即显著性评分曲线的反应总是比人工标注的评分曲线慢一点，在给视频做注释时，人们会在动作开始前给视频打高分，机器学习模型缺乏对动作的感知能力，因此，只有当一帧具有显著特征时，它才可能给该帧打高分；类似的，在视频集中的另一个视频中，描述了飞机着陆，同样观察到了延迟，从视频中的3954帧到4054帧，飞机从直线运动开始转向，这是一个连贯的动作，从模型的角度来看，这一时期图像的五个特征变化不大，然而，人类能够提前知道“它会马上转过去”，所以他们会开始注意，从第4070帧到第4211帧，在飞机转弯动作过程中，计算机计算的特征发生变化，运动分数开始上升；通过对视频集的观察，发现在静态类型的视频中，这种延迟现象的概率最大，在移动类型的视频中次之，在以自我为中心类型的视频中效率最低，结果与本发明的理解相符；对于静态类型的视频，由于拍摄时摄像机的位置是固定的，所以视频内容趋于稳定，对于移动类型的视频，相机在拍摄时的稳定性较差，以自我为中心的视频拍摄设备固定在拍摄者的头上，因此在提取特征时图像不稳定，细微的变化不易在相邻帧中捕捉到，可视化分析系统通过探索模型输出和人工标注之间可能存在的延迟现象，为研究显著性模型的性能提供了一个新的视角。

本发明的技术构思是：为了帮助用户探索和分析视频内容，以及视频摘要模型中存在的内在关系，本发明将这一工作分为模型分析、交互式可视化和模型诊断三个部分。模型分析部分是对视频摘要数据集视频中每一帧的视觉特征和语义特征进行详细的提取。本发明将特征输入到机器学习模型中，获得相应的显著性得分。在交互可视化部分包含多个协调视图，即视频视图，投影视图，细节视图，序列帧视图。视频视图显示了视频集汇总的整体分布，包括人工和模型获得的分数，以及类别和视频播放面板。在投影视图中，本发明提出了一个多层次的分析过程，将视频事件和帧集成到一个具有集群和节点可视化的单一视图中。细节视图链接到投影视图，每一帧的详细特征信息在这里完全显示。在序列帧视图中，本发明将人工标注得分、模型预测的显著性得分和描述性特征得分合并到像素条和playfair-style图表中，分析差异和潜在的时间延迟。用户可以通过视频、事件和帧三个层面来研究模型背后的模式。不同视图交互式协作，在描述性特征、人工标注结果和模型输出之间进行探索。

本发明所依据的原数据在计算机视觉研究领域被称为视频摘要数据集,由25个视频组成，包含静态视频、以自我为中心的视频和移动视频。视频注释被进一步应用到视频摘要数据集中所有的视频，每个视频由15到18个人注释。在人工标注之后每一帧都会获得一个重要性分数，最终每一帧的重要性由这些参与者的平均分表示。

本发明设计了一个B/S架构下基于Web平台的可视分析系统以探索视频摘要模型，以及视频特征和原始内容之间的关系，利用流行的d3.js进行绘制可视化组件，与传统的视频可视化不同，本发明提出了针对视频摘要模型的可视化方法。用户可以从视频、事件和帧三个层次进行分析，对整个视频摘要视频集进行详细的探索，配合几个相互协调联动的视图，用户可以交互地对视频中任意时间段进行选择，分析模型结果与特征之间的关系。

设计一套完整的交互式视频摘要模型的可视理解与诊断的分析系统，从模型分析到可视化展示。首先对原始视频进行特征提取，获得模型显著性评分，最后通过设计的可视化分析界面，通过不同的展示方式，对模型分析部分的数据进行交互式的可视化展示。帮助用户了解模型得到的视频摘要和人工标注的视频摘要之间的差异，提供提高模型的可信度。

本发明的有益效果：通过模型分析，融合了多特征检测和多层级探索的方法，设计一套交互式可视化分析系统，允许用户交互式探索视频摘要模型、视频特征和原始内容之间的内在关系。并用计算机视觉领域的视频摘要数据集进行实证研究来分析系统的有效性和效率。

附图说明

图1为本发明的流程图。

图2为本发明的显著性得分模型流程图。

图3为本发明的碰撞检测图。

图4为本发明的投影视图。

图5为本发明的视频视图。

图6为本发明的详细视图。

图7为本发明的序列帧视图。

具体实施方案

下面结合附图对本发明作进一步说明。

参照图1～图7，一种交互式视频摘要模型的可视理解与诊断方法，本发明采用D3.js来绘制前端界面，后台数据通过Java获取。

所述交互式视频摘要模型的可视理解与诊断方法，包括以下步骤：

1)模型分析；通过对视频摘要数据集视频中每一帧的视觉特征和语义特征提取，本发明将特征输入到机器学习模型中，获得相应的显著性得分，对应的流程图如图1所示；

(1-1)描述性特征提取；为了帮助研究人员更深入的理解视频中每一帧，本发明将特征提取分为视觉特征和语义特征两个部分。视觉特征反映了吸引视频观看者的重要因素，通过查阅现有的视频和文献资料，本发明从视频中每一帧提取了运动特征、记忆特征、质量特征和美学特征。一般来说，人们对移动物体的关注多于对静止物体。因此本发明关注于提取视觉上重要的运动特征来揭示帧与帧之间的相互关系。人在观影后脑海中会有一些碎片化的记忆，我们将这些令人印象深刻的片段视为记忆特征得分较高。质量特征用来评估图像是否有噪声、模糊、压缩等情况。低质量的视频在视觉上和听觉上都令人不适。而美感特征是用来量化图像中的优美的部分，有助于生成人们感兴趣的视频摘要。语义特征是原生视频内容不可忽视的一部分，它也是衡量帧重要性的关键依据。因此本发明引入视觉语义显著性作为识别被挑选的帧和主题相关度高的度量。

(1-2)显著性获取模型；在本发明中我们选择线性模型以有效的获得视频中每一帧的显著性分数。将基于特征提取得到的每一帧的五个描述性特征得分归一化并输入到模型中，从而为每一帧生成显著性得分s_k定义如公式(1)，其模型流程图如图2所示。

a_i为每一个归一化特征的得分，N是特征的个数，w₀，w_i，w_j为最小二乘估计的权值。获得的分值将进一步与人工标注的分数逐帧比较。

2)可视分析；在通过以上步骤完成特征提取以及模型显著性评分以后，通过系统提供的不同组件对视频内容以及模型内在关系进行探索，分析过程如下：

(2-1)提供初步探索的视频视图分析

对于如何让用户快速获取感兴趣的视频，并且不增加认知负担的情况下，本发明采用包含图例、视频列表以及原始视频的视频视图展示(如图5所示)。图例是在视频视图的顶部，它显示本发明对每个特征的配色方案，以帮助用户理解颜色和特征之间的组合。该视图的中间部分是视频列表，也分为三列，即视频标题，视频类别和视频摘要。第一列的视频标题是视频的名称，第二列的视频类别是视频所属的类型，如移动类视频、以自我为中心的视频和静态视频。第三列的视频摘要使用playfair-style图表来表示模型生成的显著性评分与人工标注评分之间的差异。x轴表示视频的长度(帧)，y轴代表得分大小。视频视图给用户一个快速的概览，以帮助他们找到感兴趣的视频。在选择感兴趣的视频后，在其底部用户可以查看视频的详细内容。在这个视图中，用户可以拖放视频的时间轴来浏览原始视频。

(2-2)事件层次的投影视图分析

为了更直观的理解帧与帧之间的关联性，本发明使用t-SNE投影算法来映射视频的所有帧。每一帧由一个特征向量V_r描述，特征向量如公式(2)所示。向量被进一步映射到二维空间中，因为它适用于将高维数据嵌入到二维空间中，以获得数据的快速预览。两个节点在二维空间中较近，它们在高维特征向量空间中的行为越相似。

V_r＝[s_v，s_e，s_m，s_q，s_a] (2)

最初，每一帧都用一个点表示，但是这不会给用户任何的视觉指示，因此，本发明使用颜色梯度来表示帧的时间顺序。节点颜色越浅表示初始帧，节点颜色越深表示后期帧。用户可以在投影视图中(如图4所示)发现时间分布。本发明利用DBSCAN算法对降维得到的二维向量进行聚类，得到多个聚类结果。因为我们发现集群中的帧大多都是连续的，并且相邻帧之间有一定的相似性，所以将本发明中的每个集群作为一个是事件。随后对本发明的猜测做了验证，并得到的证实。此外，本发明还添加了一个新的字形构建方法，为用户提供每个集群特性的概述，以便在集群之间进行比较和选择。字形是利用五个等分的圆扇区对从帧图像中提取的五个特征进行编码，从十二点钟的位置开始顺时针依次表示视觉语义显著一致性、记忆、运动、质量和美学这五个特征，弧长l用来表示描述性特征得分的大小，弧长越大，集群中所有帧的平均描述特征得分越大(如公式3)，α表示圆心角为2π/5，r表示半径大小。又由于投影视图中覆盖了视频的所有帧，节点太多导致重叠现象严重，造成视觉混乱。并且原来的节点只包含事件信息，因此本发明用新的字形展示该点，在圆内标记出帧的时间信息，在圆外，圆圈的颜色表示两种分数。深色表示模型生成的显著性分数，浅色表示人工标注分数，弧度编码分数大小。然后进一步利用碰撞检测算法，通过多次将重叠的点推开，最终形成稳定的布局(如图3所示)。

l＝α*r (3)

(2-3)提供详细信息和探索的详细视图

为了显示所选视频的所有帧的统计信息，本发明设计了详细视图(如图6所示)，该视图分为两个部分，上半部分是平行坐标视图，下半部分是Lineup视图。在平行坐标视图中，每个折线对应投影视图中一个帧的得分信息，包括描述性特征得分、模型产生的显著性得分、人工标注得分。用户可以在每个坐标上通过笔刷选择一个属性值在一定范围内的特定序列，并深色显示画笔选择的折线，其他的折线是浅灰色的仍然作为背景。在Lineup视图中，有8列，从左到右分别是帧数、五个描述性特征得分、模型生成的显著性得分和人工标注得分。在该视图顶部的虚线框中，提供得分在各个分数段的分布。同时，它还支持典型的交互功能帮助过滤和排序。

(2-4)展示整体时间趋势的序列帧视图

序列帧视图(如图7)为用户在时间维度上的探索提供了新颖的视角。为了揭示评分情况的总体时间趋势，并探索详细的视频内容和模型效果。在此视图中，本发明使用两个子视图通过切换视图来全面显示视频的所有信息。playfair-style图表显示了模型显着性得分和人工标注得分之间的差异。x轴表示视频的长度，y轴表示每一帧的分数。浅色区域表示这一时期模型的显著性评分大于人工标注的显著性评分，深色区域表示这一时期模型的显著性评分大于人工标注的显著性评分。用户可以通过点击toggle按钮切换到特征视图。该视图从上到下依次显示了视觉语义显著一致性、记忆、运动、质量和美学这五个特征的整体时间趋势。在两个子视图的顶部，本发明还提供一个额外的像素条，用于表示由模型和人工标注评分在帧上生成的显著性评分比例变化。像素条视图中的颜色代表不同类型的分数，而高度表示大小的值，即深色表示显著性模型评分，浅色表示人工标注评分。

3)基于显著性模型的视觉诊断

通过对综合数据的机器学习模型的多次检验，验证了诊断机制的有效性。本发明可以帮助用户更好的理解模型性能和模型的延迟性。对对视频集中的一个视频分析帮助阐明视频中的延迟现象，人工标注分数从289快速攀升至308帧，上升曲线明显。视频中两帧的对应图像显示在右上角，两帧图像中的人将从木滑道滑出。然而，同一时间段内的显著性评分曲线在5帧内(从312帧到317帧)先平缓上升，然后迅速上升。在视频的312帧和317帧中，人从木滑道滑出。本发明将这种现象定义为模型延迟，即显著性评分曲线的反应总是比人工标注的评分曲线慢一点。在给视频做注释时，人们会在动作开始前给视频打高分。机器学习模型缺乏对动作的感知能力。因此，只有当一帧具有显著特征时，它才可能给该帧打高分。类似的，在视频集中的另一个视频中，描述了飞机着陆，本发明同样观察到了延迟。从视频中的3954帧到4054帧，飞机从直线运动开始转向，这是一个连贯的动作。从模型的角度来看，这一时期图像的五个特征变化不大。然而，人类能够提前知道“它会马上转过去”，所以他们会开始注意。从第4070帧到第4211帧，在飞机转弯动作过程中，计算机计算的特征发生变化，运动分数开始上升。通过对视频集的观察，本发明发现在静态类型的视频中，这种延迟现象的概率最大，在移动类型的视频中次之，在以自我为中心类型的视频中效率最低。结果与本发明的理解相符。对于静态类型的视频，由于拍摄时摄像机的位置是固定的，所以视频内容趋于稳定。对于移动类型的视频，相机在拍摄时的稳定性较差，以自我为中心的视频拍摄设备固定在拍摄者的头上，因此在提取特征时图像不稳定，细微的变化不易在相邻帧中捕捉到。本发明的可视化分析系统通过探索模型输出和人工标注之间可能存在的延迟现象，为研究显著性模型的性能提供了一个新的视角。

本实施例的方案通过模型分析，融合了多特征检测和多层级探索的方法，设计一套交互式可视化分析系统，允许用户交互式探索视频摘要模型、视频特征和原始内容之间的内在关系。并用计算机视觉领域的视频摘要数据集进行实证研究来分析系统的有效性和效率。

Claims

1.一种交互式视频摘要模型的可视理解与诊断方法，其特征在于，所述方法包括以下步骤：

1)模型分析；通过对视频摘要数据集视频中每一帧的视觉特征和语义特征提取，将特征输入到机器学习模型中，获得相应的显著性得分；过程如下：

a_i为每一个归一化特征的得分，N是特征的个数，w₀,w_i,w_j为最小二乘估计的权值，获得的分值将进一步与人工标注的分数逐帧比较；

(2-1)提供初步探索的视频视图分析

(2-2)事件层次的投影视图分析

V_r＝[s_v,s_e,s_m,s_q,s_a] (2)

最初，每一帧都用一个点表示，但是这不会给用户任何的视觉指示，因此，使用颜色梯度来表示帧的时间顺序，节点颜色越浅表示初始帧，节点颜色越深表示后期帧，用户可以在投影视图中发现时间分布，利用DBSCAN算法对降维得到的二维向量进行聚类，得到多个聚类结果；发现集群中的帧大多都是连续的，并且相邻帧之间有一定的相似性，所以将每个集群作为一个是事件，随后对猜测做了验证，并得到的证实；还添加了一个新的字形构建方法，为用户提供每个集群特性的概述，以便在集群之间进行比较和选择，字形是利用五个等分的圆扇区对从帧图像中提取的五个特征进行编码，从十二点钟的位置开始顺时针依次表示视觉语义显著一致性、记忆、运动、质量和美学这五个特征，弧长l用来表示描述性特征得分的大小，弧长越大，集群中所有帧的平均描述特征得分越大，α表示圆心角为2π/5,r表示半径大小，又由于投影视图中覆盖了视频的所有帧，节点太多导致重叠现象严重，造成视觉混乱；并且原来的节点只包含事件信息，因此用新的字形展示该点，在圆内标记出帧的时间信息，在圆外，圆圈的颜色表示两种分数，深色表示模型生成的显著性分数，浅色表示人工标注分数，弧度编码分数大小，然后进一步利用碰撞检测算法，通过多次将重叠的点推开，最终形成稳定的布局；

l＝α﹡r (3)

(2-3)提供详细信息和探索的详细视图

(2-4)展示整体时间趋势的序列帧视图

3)基于显著性模型的视觉诊断。

2.如权利要求1所述的交互式视频摘要模型的可视理解与诊断方法，其特征在于，所述步骤3)中，通过对综合数据的机器学习模型的多次检验，验证了诊断机制的有效性，对视频集中的一个视频分析帮助阐明视频中的延迟现象，人工标注分数从289快速攀升至308帧，上升曲线明显，视频中两帧的对应图像显示在右上角，两帧图像中的人将从木滑道滑出，然而，同一时间段内的显著性评分曲线在5帧内先平缓上升，然后迅速上升，在视频的312帧和317帧中，人从木滑道滑出，将这种现象定义为模型延迟，即显著性评分曲线的反应总是比人工标注的评分曲线慢一点，在给视频做注释时，人们会在动作开始前给视频打高分，机器学习模型缺乏对动作的感知能力，因此，只有当一帧具有显著特征时，它才可能给该帧打高分；类似的，在视频集中的另一个视频中，描述了飞机着陆，同样观察到了延迟，从视频中的3954帧到4054帧，飞机从直线运动开始转向，这是一个连贯的动作，从模型的角度来看，这一时期图像的五个特征变化不大，然而，人类能够提前知道“它会马上转过去”，所以他们会开始注意，从第4070帧到第4211帧，在飞机转弯动作过程中，计算机计算的特征发生变化，运动分数开始上升；通过对视频集的观察，发现在静态类型的视频中，这种延迟现象的概率最大，在移动类型的视频中次之，在以自我为中心类型的视频中效率最低，结果与本发明的理解相符；对于静态类型的视频，由于拍摄时摄像机的位置是固定的，所以视频内容趋于稳定，对于移动类型的视频，相机在拍摄时的稳定性较差，以自我为中心的视频拍摄设备固定在拍摄者的头上，因此在提取特征时图像不稳定，细微的变化不易在相邻帧中捕捉到，可视化分析系统通过探索模型输出和人工标注之间可能存在的延迟现象，为研究显著性模型的性能提供了一个新的视角。