CN108459785A

CN108459785A - 一种视频多尺度可视化方法与交互方法

Info

Publication number: CN108459785A
Application number: CN201810045958.0A
Authority: CN
Inventors: 马翠霞; 黄燕; 王宏安
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2018-01-17
Filing date: 2018-01-17
Publication date: 2018-08-28

Abstract

本发明公开了一种视频多尺度可视化方法与交互方法。本方法为：建立目标视频的面向视频内容结构的用户认知模型；提取出该目标视频中的前景对象、背景场景以及前景对象的图像帧；获取运动目标及其相应轨迹；根据基于时间轴的运动目标出现量及对应的时间映射关系计算运动目标的出现密度；从处理后的目标视频数据中提取关键帧，并对关键帧中的运动目标信息进行标注；将处理后的运动目标识别结果及运动目标的轨迹数据进行多尺度划分，生成多尺度的视频信息表示结构；基于用户在交互过程中的交互操作方式，在多尺度的视频信息表示结构的交互界面，结合鼠标交互操作的相应语义，引入草图交互手势；通过草图交互手势在该交互界面对该目标视频进行操作。

Description

一种视频多尺度可视化方法与交互方法

技术领域

本发明属于人机交互领域，具体涉及一种视频多尺度可视化方法与交互方法。

背景技术

视频是当今社会信息传播的重要载体，随着计算机软硬件技术的快速发展和数码设备的广泛普及，其数据量在日常生活中呈现出了爆炸式的增长趋势，如何快速地获取视频信息、与其进行高效交互进而有效利用这些视频信息具有巨大的应用价值。伴随着这些视频资源数量的急剧增加，用户基于内容的视频数据访问应用越来越广泛，对视频信息的呈现、编辑、浏览和检索等需求也越来越突出。然而，与这些视频数据如此巨大增幅相对应的则是人与这些信息之间的交互方式并没有随之发生根本性的转变，现有的视频数据分析与交互方法已严重制约着它的进一步发展。随着这些数据超出人脑高效处理信息的能力范围，如何帮助用户对视频信息的需求进行有效认知，支持用户对庞大的信息数据库进行快速浏览、分析、理解与高效交互已经成为了现阶段视频应用研究领域亟需解决的问题。

用户对视频内容的理解是一个视频数据底层视觉特征信息与高层语义信息自然融合的过程。其中不同的用户对不同视频内容的理解过程与他们的认知方法、认知能力息息相关。如何提供有效的方法辅助用户对视频信息进行可视分析，高效地实现视频内容理解，是视频内容分析领域的一个重要研究课题，而这里所谓的有效方法的设计基础是要求其符合用户正常学习、使用的认知习惯。一般情况下，用户在浏览和理解一些信息内容的过程中，首先通常习惯在粗尺度上对这些数据内容进行总览，然后根据自己的喜好或目的有针对性地对特定的内容进行更精细尺度上的浏览。所以提取和表达不同尺度、不同层次上的内容信息可以帮助用户快速的获取自己需要的数据(参考文献：Wang H A,Ma CX.Interactive multi-scale structures for summarizing video content[J].ScienceChina Information Sciences,2013,56(5):1-12.)。因此，针对视频内容的可视分析，研究与基于用户认知流程相对应的视频内容多尺度结构表示与分析可以为视频内容的处理及呈现提供理论依据。

监控视频是一种以固定镜头拍摄类型的视频，其数据是一系列在内容上存在一定关联关系的静态图片影像在时间维度下按顺序组成的具有一定内容表现含义的流媒体。这种特殊的线性结构特点使当前用户浏览监控数据的主要方式大多是基于时间轴的方式。然而，目前的监控视频研究领域，监控视频数据量大，内容冗余且具有一定的繁琐性，用户在处理监控视频数据时仅仅通过基于时间轴的浏览方式较难实现对监控内容的快速定位、浏览和搜索(参考文献：Fan C T,Wang Y K,Huang C R.Heterogeneous Information Fusionand Visualization for a Large-Scale Intelligent Video Surveillance System[J].IEEE Transactions on Systems Man&Cybernetics Systems,2017,47(4):593-604.)。基于监控视频内容的可视分析，其目的是为了解决监控视频内容快速获取的问题，主要将视频内容提取出来，用通俗易懂、简单明了的方式呈现给用户，提供自然直观的交互方式帮助用户快速、有效地访问视频的主要内容及其内容间的关联关系。考虑到视频层次结构本身具有的特性，如果从减轻用户认知负担的角度出发，将视频内容和总体结构清晰有效的描述、表现出来，便可以方便用户快速从这个监控视频“目录”中发现并获取所需要的信息片段。所以，探索针对监控视频内容数据的高效表示方法，提供用户快速查找、定位详细内容的有效手段，是当前实现监控视频信息挖掘，提高监控视频信息利用率和有效信息的提取效率需要迫切解决的问题。

发明内容

本发明的目的在于提供一种视频多尺度可视化方法与交互方法，由于目前视频内容表示和交互研究领域存在以下几个主要问题：(1)缺乏对视频内容中各部分信息及其关联关系的有效组织和表示；即没有以用户为中心，总结用户反馈进而改进分析方法。多数研究关注于视频关键帧之间的关系，缺乏针对视频中对象、事件、场景之间关联关系的展示和分析的考虑；(2)视频内容的表现形式太过单一，缺乏对视频不同层次、不同尺度的内容的表现；(3)缺乏对视频内容进行可视分析的有效交互方式。因此，本发明针对现有的关于视频内容可视分析的优势和不足，以监控视频为例，探索基于视频内容的高效分析方法，提出自然直观的交互方式从而帮助用户快速、有效地理解视频内容信息，搜索、分析和筛选用户感兴趣的信息数据。

本发明所提出的方法主要包括基于视频数据的用户认知可计算性分析，视频数据的前期预处理、视频内容多尺度结构划分、各尺度视频信息的初始生成和基于草图手势的交互设计与评估等过程。本发明以监控视频为例，通过分析监控视频数据，实时完成监控视频中运动目标的检测、特征提取与目标识别、相似度匹配、目标轨迹及异常检测，进一步实现计算机对监控视频内容的自动分析，提取特征信息并从不同尺度构建索引，以辅助用户对自己所需要的视频内容进行高效访问。

为实现上述发明目的，本发明采用如下的技术方案：

一种融合认知的视频多尺度可视化方法及交互方法，其步骤为：

1)分析用户在浏览监控视频内容时的认知过程，根据该认知过程中用户对不同视频层次数据的理解，给出面向监控视频内容结构的用户认知模型。

2)结合步骤1)的用户认知模型及用户在浏览视频过程中获取的视频帧、目标对象、镜头内容及关联关系等信息，给出面向监控视频内容的多尺度结构划分，即低层特征层、实体信息层、模式信息层和抽象语义层。

3)对监控视频进行预处理。包括将视频中的前景与背景进行分离，提取出视频中的前景对象及背景场景(同时提取前景对象的图像帧，记录对象出入镜头的时间，并保存前景对象与背景场景的映射关系，为基于时间、空间尺度浏览对象建立有效的索引结构)、基于帧间图像差分计算，获取运动目标及其相应轨迹，最后根据基于时间轴的运动目标出现量及对应的时间映射关系计算运动目标的出现密度。

4)对步骤3)处理后的监控视频数据进行冗余内容处理，提取关键帧，并对所提取出的关键帧中的运动目标信息进行标注。

5)将步骤3)得到的目标出现的统计信息可视化成密度曲线，将步骤4)处理后的运动目标识别结果、轨迹数据进行相应尺度的定义，以帧信息的可视化方式，实时组织各个尺度的可视化内容，结合视频内容的分段处理，构建可视化内容与视频片段的索引映射，生成多尺度的视频信息表示结构。

6)基于用户在交互过程中的交互操作方式，例如用户习惯性的单击、双击，删除、滑动视频播放滚动条等操作带来的交互效果，结合鼠标交互操作的相应语义，引入草图交互手势，用户可以利用这些交互手势实现对监控视频内容的高效访问。

进一步的，将推理与基本的认知流程结合起来，考虑到用户从不同角度理解视频内容的过程体现于一个集中的视觉搜索过程，视觉搜索是凭借人的视觉系统在可见的一定区域范围内检测某个目标是否出现，或确定其大概位置的认知过程。如果用户需要从多个视角对可视的视频信息进行有效认知与分析，除了具备自身对信息的基本认知能力外，还需要反映出其大脑对信息不同尺度呈现的具体认知过程以及该过程中视觉搜索范围内各尺度信息的关联。因此，研究面向视频内容的多尺度信息的高效表示，可以充分利用PMJ认知模型(参考文献：Xiaolan FU,Cai L H,Liu Y,et al.Acomputational cognition modelof perception,memory,and judgment[J].Science China Information Sciences,2014,57(3):1-15.)的可计算性，结合人的视觉注意机制对视频内容多尺度认知的特点及多通道的计算框架对用户浏览监控视频的认知过程进行分析。从用户多尺度获取视频信息、处理信息及反馈方面，对用户可视分析过程中的感知(Perception)、记忆(Memory)和判断(Judgment)这三个阶段建立对应的计算流程，给出了面向监控视频数据的用户认知模型(如图1所示)。图1概括了用户在浏览监控视频时对应的整个认知过程。在每个阶段层，用户的认知系统会完成一定的信息处理任务，它可以接受其他阶段层的信息输入，同时将自身完成的处理结果进行输出，为其他阶段层提供信息输入。其中，感知层对应的是用户在浏览视频时，对图像各帧的基本特征进行捕捉、感知和输入处理，对应的是视频分析阶段。记忆层是针对在感知层获取到的视频信息进行整合处理，反复分析加工，形成对视频基本内容的理解，其对应的是视频基本信息的建模阶段。决策层是基于前两个阶段层的信息整合、加工、过滤后的内容进行加工处理判断，其对应的是视频内容高层关系的深入理解和决策阶段。该三个阶段相互配合，完成整个用户对视频内容理解的认知任务。图中带圈的数字标注代表信息流的处理流程。箭头的线表示具有某种认知加工的通路。从图中各个数字标号可以看出，用户在对视频内容认知过程中各个阶段之间存在多条加工通路，用户的认知系统在对视频各层信息进行处理时，会根据系统对视频信息加工的任务难度、任务的目标进行判断，从而动态的选择适合的加工通路，以实现各个阶段间的信息转移，最后实现基于视频内容的高效认知判断、输出理解内容的决策结果。

进一步的，根据上文提到的用户认知模型中的视频信息流向层(即视频内容结构中底层信息至顶层内容的划分流向)，将需要处理的监控视频数据划分为4个层级，并按照用户对视频内容的认知理解过程从低到高依次分为：低层特征层、实体信息层、模式信息层和抽象语义层。其中，主要将视频帧的颜色直方图、轮廓特征、纹理矩阵、SIFI特征向量等信息划分到底层特征层；背景、前景及场景分割结果划分到实体信息层；镜头内容划分到模式信息层，空间关系、时间关系及对象关系等信息划分到抽象语义层。(在这个划分体系中，每个层级信息并不是独立存在，而是相互关联的)，从而得到监控视频内容的多尺度划分结构，如图2所示。

进一步的，为了实现不同尺度的监控视频内容信息的表征，对监控视频中的运动目标进行检测，利用高斯混合模型的统计学习方法对监控视频进行背景建模，将背景模型与视频的每一帧图像进行匹配，并利用像素灰度值的欧式距离，结合局部特征计算背景模型与各帧的匹配程度，当匹配程度小于一定阈值时，即可将该像素视为背景像素，反之则将其视为前景像素，从而实现前景与背景的分割(参考文献：Qin Z,Shelton C R.EventDetection in Continuous Video:An Inference in Point Process Approach[J].IEEETransactions on Image Processing A Publication of the IEEE Signal ProcessingSociety,2017,PP(99):1-1)。进而利用X线断层分析方法实现目标区域的识别，完成前景目标运动特征的提取，通过图像差分计算，识别目标在一序列镜头帧中的运动轨迹数据，并统计、标注目标信息及其在视频中的映射关系，进而完成基于时间序列的目标出现密度的可视化呈现。

进一步的，对所述关键帧运动目标识别评估值进行线性压缩归一化，并根据归一化后的关键帧的图像质量显示运动检测的匹配结果。

进一步的，根据检测后，判断帧序列图像采样块和相同位置背景图像采样块得到的神经元响应值，依据目标的运动、颜色、形状特征，构造相邻帧目标匹配的代价函数，将目标跟踪问题转化为能量最小问题，通过求解最小值，可得到最优的相邻帧目标匹配，计算各个相邻帧间的目标轨迹的排列，实现检测异常行为扫描。

进一步的，针对处理后的视频数据，在基于运动分析的关键帧提取方法基础上，通过光流分析来计算镜头中的运动量，并根据运动量取局部最小值来实现代表关键帧的选择。

进一步的，以帧的运动变化量实现监控视频内容的分类，通过视频分段算法将对应的监控视频内容进行分段，从而根据定义的不同尺度，构建视频片段的索引结构。

进一步的，定义草图语义，设计对应的草图映射关系，描述用户意图的手势符号从而实现草图手势定义与交互意图相一致的交互操作。

本发明的主要内容包括：

1、运动目标的检测与跟踪

根据步骤3)的进一步介绍，本发明在完成监控视频中运动目标的区域识别后，需要实现目标的运动检测跟踪，检测目标的运动特征。监控视频内容中的运动目标特征通常指的是镜头下对象物体产生的局部运动。为提取监控视频中运动目标特征，根据运动特性对镜头的运动目标区域中所有景物分层并对每层进行描述，并在此基础上对运动特征采用描述算法。由于运动特征无法从一幅帧图像中获得，所以需要对视频序列帧的运动目标区域进行分析。本发明在X线断层分析方法基础上(参考文献：Madanayake H L P A,Cintra RJ,Onen D,et al.Algebraic integer based 8×8 2-D DCT architecture for digitalvideo processing[J].2011:1247-1250.)，把要处理的视频序列看成一个整体块，因为一般情况下存在不少运动向量方向相同，且大小相似(由中心向四周，或者相反)的情况，而且大部分的运动向量为0或者很小。仅是对应运动部分的运动向量较大，所以通过计算宏块运动向量(B帧和P帧)在8个方向的分布，即：其中，F_j是第j个方向的运动向量所占的比例值。k代表帧中宏块的总数，而θ(i,j)的取值是0或者1，代表第i个运动向量是否在方向j上。因为没有运动块所占的比例，所以容易获得一个具有9个分量的特征向量。利用该特征向量便可以将镜头下的运动目标综合起来计算，获取运动特征信息。

2、关键帧提取

本发明在完成对监控视频内容的处理后，根据从视频中图像帧所识别出的目标信息，进行关键帧的筛选提取。关键帧的有效选取以及充分利用可以大大减少基于监控视频内容可视分析索引的数据量，同时也可以为基于视频内容访问的视频分析系统提供了一个有效的组织框架。通过关键帧的超链接组织可以为相应的视频内容建立摘要，并允许用户通过这些关键帧的索引目录来选择浏览有意义的视频内容信息。本发明在对监控视频的内容提取时，基于运动目标的分析，通过光流分析计算视频镜头中目标的运动量，并根据运动量取局部最小值来实现代表关键帧的选择。首先，利用Horn-Schunck方法来计算镜头下各帧像素的光流，并对每帧的各个像素光流分量的模求总和，并以其作为对应帧的运动量；其中第f帧的运动量M(f)为：

其中O_x(i,j,f)是帧f内像素(i，j)光流的x分量，O_y(i,j,f)是帧f内像素(i，j)光流的y分量。接着需要寻找M(f)的局部最小值，从f＝0开始，逐步扫描M(f)～f曲线，找到两个局部最大值M(f₁)和M(f₂)，其中M(f₂)的值和M(f₁)的值至少需要相差ψ％(由经验设定)。如果M(f₃)＝min(M(f)),f₁<f<f₂，则把f₃选取为代表关键帧。然后把f₂作为当前的f₁，继续选择下一个f₂，依次遍历进行。为了达到提取关键帧的更优效果，在处理提取前，把镜头中帧图像的运动目标通过前景提取及运动目标检测从背景中取出。再计算运动目标所在各帧位置的光流，以获得更好的提取结果。

3、监控视频分段处理

本发明为实现监控视频内容的多尺度索引构建，对相应的监控内容片段做视频分段处理。由于监控设备通常是固定在一定的方位，监控画面极其有限，监控中的内容也通常表现为行人或者车辆的运动，而且监控场景变化不大，通常表现为光线渐变和突变，所以监控画面中运动变化的多少和快慢在很大程度上反映出了当前运动目标的多少和运动模式。针对监控视频的这些特点，本发明采用基于帧的运动变化量来对监控视频片段进行分类，在完成步骤3)运动目标的检测识别后，进行形态学处理，然后通过计算帧的运动量将帧进行分类，并且标记边界帧最终将监控视频进行分段。

首先，建立背景时，可以选择监控视频帧中的某一个帧作为背景帧，但是考虑到监控背景中会出现不含任何移动目标的情况，所以在一个运动目标较少的时刻提取背景帧，主要在一段较长时间段的连续帧中取一个像素点，求其中值亮度作为背景帧的该点亮度值。即：其中B₀(x,y)代表该点亮度值，n为连续帧帧数，Frame_i(x,y)为监控视频序列中的任意一帧。

其次，在计算图像帧的运动量时，由于运动量反映的是运动目标在监控视频中所占区域的整体变化情况，即帧运动量(0≤S_t≤1)，设视频图像帧的总大小是a*b，用B_t(x,y)来代表监控视频中t时刻的图像帧在像素点(x,y)处的亮度值，用I_t表示对应的帧差二值化图像，T为设定的亮度阈值，则有由此根据已经确定的I_t，利用公式可以得到帧运动量S_t。此外，考虑到监控视频中的光线变化会影响背景的计算，所以本发明需要实时更新背景以适应光线的变化，即当计算得到的运动量S_t较低甚至为0时，说明当前没有运动目标经过，此时可以利用以下公式

选择对背景进行更新，即重新建立背景，以适应环境光线的缓慢变化。其中σ是学习率，通常情况下取较小的值，σ越低说明该图像帧变化对背景影响小，更新速度就越慢(相反，σ越大该图像帧变化对背景影响越大，背景更新速度越快)。在本发明中，σ的取值为0<σ<0.05。而当计算出的S_t较高甚至等于1的时候，说明当前的图像帧变化较大，同样利用以上公式来实现对背景的更新以适应环境光线的剧烈变化，不过此时学习率σ应该取较大的值0.95<σ<1。

然后通过计算的运动量S_t对帧进行分类，主要设定图像帧为5种不同的类别(类别设为C_k，其中k为整数，0≤k<5)，分别为C₀：0≤S_t≤0.2，C₁：0.2<S_t≤0.4，C₂：0.4<S_t≤0.6，C₃：0.6<S_t≤0.8，C₄：0.8<S_t≤1，例如根据第f帧的S_t将其分到对应的类别。

最后通过比较C_k和C_k-1，即当前帧的类别及其前一帧的类别，便可以得到不同类的边界。具体方法如下：1)C_k＝C_k-1，当前的两个图像帧属于同一类别，没有边界，继续判定下一帧；2)C_k>C_k-1，从C_k-1+1到C_k这一类别的开始帧是k；3)C_k<C_k-1，从C_k+1到C_k-1这一类别的结束帧是k-1。通过该方法可以找到各类的边界，即某一类的开始帧或结束帧，根据这些得出的开始帧和结束帧可以实现视频分段处理。

4、多尺度的组织框架

本发明提出面向监控视频数据的多尺度组织与交互方法。在上文步骤3)至步骤5)中对监控视频数据进行内容处理与提取后，需要为所提取的不同尺度的视频信息建立多尺度的交互机制，即构建基于内容的索引结构。该项发明从三个尺度将监控视频信息进行可视化，并支持用户基于草图手势操作的多尺度交互探索。以下是针对监控视频内容多尺度的结构组织关系：

1)从监控视频数据信息量的尺度，通过对视频序列帧图像中目标信息进行检测，分析，提取，组织后，筛选并标注监控背景中不含移动目标的情况，提供用户自定义剔除对应的冗余片段，提供面向视频内容运动对象识别信息的可视统计呈现(广度)。

2)从监控视频内容中运动目标的尺度，提供运动目标异常检测、定位识别的映射可视信息，供用户直观高效地访问、获取监控视频中异常信息的定位(中度)。

3)从视频关键帧信息的定位尺度，根据画面中出现目标的识别量及其对应帧的映射关系，为用户提供自定义筛选、浏览有意义、有价值信息的视频片段；针对视频内容的处理提取后，将从三个尺度有效展示监控视频内容的主要信息，并在此基础上提供草图交互方法，帮助用户实现与监控视频内容直接、自然、高效的交互(细度)。

5、基于草图语义设计的自然交互

草图在表征用户意图的过程中，体现出一定的自由性、随意性、动态性、多义性以及高度集成性。由于草图具有整体的概括能力和突出、形象的抽象表达能力，通过简单的草图勾勒，可以快速、直观、有效地呈现用户抽象的想法和概念描述，直接形象地表达用户的操作意图。所以基于草图形式的交互方式除了符合用户模拟纸笔环境下的书写习惯，更是让用户实现高效、自然的交互体验。自然的交互方法理解为在用户与计算机交互的过程中，将草图作为人机交流的信息载体，利用草图这种符合人的传统认知习惯，及其自身具有的将用户交互意图自然表达的特性，能够在一定程度上增强人们对信息的认知，提高交互的效率。因此，针对监控视频内容的各尺度信息，在面向监控视频内容的多尺度交互方式上，本发明提出采用基于草图手势的交互方式，该方式可以使用户以更自然的交互手段访问和理解视频的信息，能够方便用户直观表达交互意图，加快关键信息选择，提高用户交互操作效率，有利于用户对监控视频内容的捕捉、分析与理解。考虑到用户在各项交互操作之间存在一定的共性，所以在基于草图手势的交互设计与实现方面，以输入简单、易操作，降低用户认知负荷，提高用户输入效率为准则，提出一套符合用户交互认知习惯的、与草图基本语义相一致的交互手势及其相应规则，主要有草图单击、双击、选中(圈选)、草图控制操作(放大/缩小)、草图区域选择手势、草图编辑(内容输入，内容删除及修改)，草图快进、快退等操作。

和现有技术相比，本发明具有的优点和积极效果如下：

1、本发明将用户基于监控视频内容的认知计算机理应用到监控视频内容的多尺度结构层次划分，以降低用户认知负荷，提高用户基于监控视频内容的可视分析效率为契机，提出了监控视频内容的多尺度分析方法。

2、本发明在对监控视频内容处理过程中，强调提高视频内容提取和用户分析视频数据的效率，从监控视频冗余数据处理、目标识别计算、关键帧提取、索引构建的视频分段处理等方面入手，提高监控视频内容多尺度表示方法的有效性和稳定性。

3、本发明在传统WIMP(视窗windows、图标Icon、选单Menu、指标Pointer)交互范式的基础上融入草图交互技术，提供了一种自然、高效、易于表达用户交互意图的草图手势，强调用户操作的便捷性、灵活性和自由性。

附图说明

图1为基于视频内容的用户认知模型；

图2为视频内容的多尺度分层结构；

图3为基于认知计算的监控视频内容可视分析框架；

图4为系统多尺度结构组织框架。

具体实施方式

为了使本技术领域的人员更好的理解本发明，以下结合附图进一步详细描述本发明所提供的融合认知的监控视频多尺度可视分析方法，但不构成对本发明的限制。

1.监控视频资源的选择，本方法应用的验证视频数据是从河南省灵宝市公安局提供的监控视频素材中挑选的两段视频片段，平均每段视频长约2.5个小时；

2.采用前面步骤1)和步骤2)所述的方法分析监控视频内容多尺度的表示理论，得到基于认知计算的视频内容可视分析框架及其多尺度组织结构，如附图3,图4所示；

3.采用前面步骤3)所述的方法对所挑选的视频片段进行前景/背景识别，运动特征提取，运动目标的检测、识别与跟踪、异常提取等处理；

4.采用前面步骤4)中所述的关键帧筛选方法对前一步处理所得到的监控视频数据进行自动过滤提取，得到最终的关键帧；

5.根据提取的监控视频内容及关键帧，构建各个尺度的索引机制，实现对应视频数据的自动生成；

6.根据步骤5)所述的多尺度表示方法，定义基于草图的交互形式，草图交互手势如表1所示。

表1：草图交互手势表

以上对本发明所述的一种融合认知的监控视频多尺度可视分析方法进行了详细的说明，但显然本发明的具体实现形式并不局限于此。对于本技术领域的一般技术人员来说，在不背离本发明所述方法的精神和权利要求范围的情况下对它进行的各种显而易见的改变都在本发明的保护范围之内。

Claims

1.一种视频多尺度可视化方法，其步骤包括：

1)建立目标视频的面向视频内容结构的用户认知模型；

2)对该目标视频中的前景与背景进行分离，提取出该目标视频中的前景对象、背景场景以及前景对象的图像帧；基于帧间图像差分计算，获取运动目标及其相应轨迹；根据基于时间轴的运动目标出现量及对应的时间映射关系计算运动目标的出现密度；

3)从步骤2)处理后的目标视频数据中提取关键帧，并对所提取出的关键帧中的运动目标信息进行标注；

4)将步骤3)处理后的运动目标识别结果及运动目标的轨迹数据进行多尺度划分，然后以帧信息的可视化方式实时组织各设定尺度的可视化内容，生成多尺度的视频信息表示结构。

2.一种视频多尺度交互方法，其步骤包括：

1)建立目标视频的面向视频内容结构的用户认知模型；

4)将步骤3)处理后的运动目标识别结果及运动目标的轨迹数据进行多尺度划分，然后以帧信息的可视化方式实时组织各设定尺度的可视化内容，生成多尺度的视频信息表示结构；

5)基于用户在交互过程中的交互操作方式，在多尺度的视频信息表示结构的交互界面，结合鼠标交互操作的相应语义，引入草图交互手势；用户通过引入的草图交互手势在该交互界面对该目标视频进行操作。

3.如权利要求1或2所述的方法，其特征在于，所述步骤4)中，依据该目标视频的多尺度划分结构进行多尺度划分；其中，得到该目标视频的多尺度划分结构的方法为：首先结合所述用户认知模型中的视频信息流向层对该目标视频进行划分，得到该目标视频的低层特征层、实体信息层、模式信息层和抽象语义层；然后将背景、前景及场景分割结果划分到实体信息层，将镜头内容划分到模式信息层，将空间关系、时间关系及对象关系划分到抽象语义层，得到该目标视频的多尺度划分结构。

4.如权利要求1或2所述的方法，其特征在于，基于帧的变化量对所述目标视频进行分段处理，其方法为：

首先，建立背景时，选择该目标视频帧中的一个帧作为背景帧，然后在一设定时间长度内的连续帧中取一个像素点，将该像素点的中值亮度作为背景帧的该点亮度值；即：其中B₀(x，y)代表该像素点的亮度值，n为连续帧帧数，Frame_i(x，y)为选取的背景帧；

然后，计算图像帧的帧运动量0≤S_t≤1；设图像帧的总大小是a*b，用B_t(x，y)来代表该目标视频中t时刻的图像帧在像素点(x，y)处的亮度值，用I_t表示对应的帧差二值化图像，T为设定的亮度阈值，则有利用公式得到帧运动量S_t；

然后，通过计算的运动量S_t对该目标视频的帧进行类别划分；

最后，根据各图像帧的运动量S_t确定对应帧的类别，通过比较当前帧的类别C_k及其前一帧的类别C_k-1，得到不同类的边界；具体方法为：1)如果C_k＝C_k-1，即当前的两个图像帧属于同一类别，没有边界，继续判定下一帧；2)C_k>C_k-1，从C_k-1+1到C_k这一类别的开始帧是k；3)C_k<C_k-1，从C_k+1到C_k-1这一类别的结束帧是k-1。

5.如权利要求4所述的方法，其特征在于，利用公式选择对背景进行更新；其中σ是学习率；当计算得到的运动量S_t小于设定阈值时，σ的取值为0<σ<0.05，当运动量S_t大于或等于设定阈值时，0.95<σ<1。

6.如权利要求4所述的方法，其特征在于，该目标视频的帧类别包括五类，分别为C₀：0≤S_t≤0.2，C₁：0.2<S_t≤0.4，C₂：0.4<S_t≤0.6，C₃：0.6<S_t≤0.8，C₄：0.8<S_t≤1。

7.如权利要求1或2所述的方法，其特征在于，提取出所述关键帧的方法为：通过光流分析计算该目标视频中运动目标的运动量，根据运动量取局部最小值选取所述关键帧。

8.如权利要求7所述的方法，其特征在于，首先利用Horn-Schunck方法来计算该目标视频中各帧像素的光流，并对每帧中各个像素光流分量的模求总和，并以其作为对应帧的运动量，其中第f帧的运动量为M(f)；寻找M(f)的局部最小值，从f＝0开始，逐步扫描M(f)～f曲线，找到两个局部最大值M(f₁)和M(f₂)，其中M(f₂)的值和M(f₁)的值至少需要相差ψ％；如果M(f₃)＝min(M(f)),f₁<f<f₂，则把f₃选取为关键帧，然后把f₂作为当前的f₁，继续选择下一个f₂，依次遍历进行。

9.如权利要求1或2所述的方法，其特征在于，所述用户认知模型为面向视频内容理解分析的认知模型。