CN108459785A - 一种视频多尺度可视化方法与交互方法 - Google Patents

一种视频多尺度可视化方法与交互方法 Download PDF

Info

Publication number
CN108459785A
CN108459785A CN201810045958.0A CN201810045958A CN108459785A CN 108459785 A CN108459785 A CN 108459785A CN 201810045958 A CN201810045958 A CN 201810045958A CN 108459785 A CN108459785 A CN 108459785A
Authority
CN
China
Prior art keywords
frame
video
target
information
target video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810045958.0A
Other languages
English (en)
Inventor
马翠霞
黄燕
王宏安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Software of CAS
Original Assignee
Institute of Software of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Software of CAS filed Critical Institute of Software of CAS
Priority to CN201810045958.0A priority Critical patent/CN108459785A/zh
Publication of CN108459785A publication Critical patent/CN108459785A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/207Analysis of motion for motion estimation over a hierarchy of resolutions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种视频多尺度可视化方法与交互方法。本方法为:建立目标视频的面向视频内容结构的用户认知模型;提取出该目标视频中的前景对象、背景场景以及前景对象的图像帧;获取运动目标及其相应轨迹;根据基于时间轴的运动目标出现量及对应的时间映射关系计算运动目标的出现密度;从处理后的目标视频数据中提取关键帧,并对关键帧中的运动目标信息进行标注;将处理后的运动目标识别结果及运动目标的轨迹数据进行多尺度划分,生成多尺度的视频信息表示结构;基于用户在交互过程中的交互操作方式,在多尺度的视频信息表示结构的交互界面,结合鼠标交互操作的相应语义,引入草图交互手势;通过草图交互手势在该交互界面对该目标视频进行操作。

Description

一种视频多尺度可视化方法与交互方法
技术领域
本发明属于人机交互领域,具体涉及一种视频多尺度可视化方法与交互方法。
背景技术
视频是当今社会信息传播的重要载体,随着计算机软硬件技术的快速发展和数码设备的广泛普及,其数据量在日常生活中呈现出了爆炸式的增长趋势,如何快速地获取视频信息、与其进行高效交互进而有效利用这些视频信息具有巨大的应用价值。伴随着这些视频资源数量的急剧增加,用户基于内容的视频数据访问应用越来越广泛,对视频信息的呈现、编辑、浏览和检索等需求也越来越突出。然而,与这些视频数据如此巨大增幅相对应的则是人与这些信息之间的交互方式并没有随之发生根本性的转变,现有的视频数据分析与交互方法已严重制约着它的进一步发展。随着这些数据超出人脑高效处理信息的能力范围,如何帮助用户对视频信息的需求进行有效认知,支持用户对庞大的信息数据库进行快速浏览、分析、理解与高效交互已经成为了现阶段视频应用研究领域亟需解决的问题。
用户对视频内容的理解是一个视频数据底层视觉特征信息与高层语义信息自然融合的过程。其中不同的用户对不同视频内容的理解过程与他们的认知方法、认知能力息息相关。如何提供有效的方法辅助用户对视频信息进行可视分析,高效地实现视频内容理解,是视频内容分析领域的一个重要研究课题,而这里所谓的有效方法的设计基础是要求其符合用户正常学习、使用的认知习惯。一般情况下,用户在浏览和理解一些信息内容的过程中,首先通常习惯在粗尺度上对这些数据内容进行总览,然后根据自己的喜好或目的有针对性地对特定的内容进行更精细尺度上的浏览。所以提取和表达不同尺度、不同层次上的内容信息可以帮助用户快速的获取自己需要的数据(参考文献:Wang H A,Ma CX.Interactive multi-scale structures for summarizing video content[J].ScienceChina Information Sciences,2013,56(5):1-12.)。因此,针对视频内容的可视分析,研究与基于用户认知流程相对应的视频内容多尺度结构表示与分析可以为视频内容的处理及呈现提供理论依据。
监控视频是一种以固定镜头拍摄类型的视频,其数据是一系列在内容上存在一定关联关系的静态图片影像在时间维度下按顺序组成的具有一定内容表现含义的流媒体。这种特殊的线性结构特点使当前用户浏览监控数据的主要方式大多是基于时间轴的方式。然而,目前的监控视频研究领域,监控视频数据量大,内容冗余且具有一定的繁琐性,用户在处理监控视频数据时仅仅通过基于时间轴的浏览方式较难实现对监控内容的快速定位、浏览和搜索(参考文献:Fan C T,Wang Y K,Huang C R.Heterogeneous Information Fusionand Visualization for a Large-Scale Intelligent Video Surveillance System[J].IEEE Transactions on Systems Man&Cybernetics Systems,2017,47(4):593-604.)。基于监控视频内容的可视分析,其目的是为了解决监控视频内容快速获取的问题,主要将视频内容提取出来,用通俗易懂、简单明了的方式呈现给用户,提供自然直观的交互方式帮助用户快速、有效地访问视频的主要内容及其内容间的关联关系。考虑到视频层次结构本身具有的特性,如果从减轻用户认知负担的角度出发,将视频内容和总体结构清晰有效的描述、表现出来,便可以方便用户快速从这个监控视频“目录”中发现并获取所需要的信息片段。所以,探索针对监控视频内容数据的高效表示方法,提供用户快速查找、定位详细内容的有效手段,是当前实现监控视频信息挖掘,提高监控视频信息利用率和有效信息的提取效率需要迫切解决的问题。
发明内容
本发明的目的在于提供一种视频多尺度可视化方法与交互方法,由于目前视频内容表示和交互研究领域存在以下几个主要问题:(1)缺乏对视频内容中各部分信息及其关联关系的有效组织和表示;即没有以用户为中心,总结用户反馈进而改进分析方法。多数研究关注于视频关键帧之间的关系,缺乏针对视频中对象、事件、场景之间关联关系的展示和分析的考虑;(2)视频内容的表现形式太过单一,缺乏对视频不同层次、不同尺度的内容的表现;(3)缺乏对视频内容进行可视分析的有效交互方式。因此,本发明针对现有的关于视频内容可视分析的优势和不足,以监控视频为例,探索基于视频内容的高效分析方法,提出自然直观的交互方式从而帮助用户快速、有效地理解视频内容信息,搜索、分析和筛选用户感兴趣的信息数据。
本发明所提出的方法主要包括基于视频数据的用户认知可计算性分析,视频数据的前期预处理、视频内容多尺度结构划分、各尺度视频信息的初始生成和基于草图手势的交互设计与评估等过程。本发明以监控视频为例,通过分析监控视频数据,实时完成监控视频中运动目标的检测、特征提取与目标识别、相似度匹配、目标轨迹及异常检测,进一步实现计算机对监控视频内容的自动分析,提取特征信息并从不同尺度构建索引,以辅助用户对自己所需要的视频内容进行高效访问。
为实现上述发明目的,本发明采用如下的技术方案:
一种融合认知的视频多尺度可视化方法及交互方法,其步骤为:
1)分析用户在浏览监控视频内容时的认知过程,根据该认知过程中用户对不同视频层次数据的理解,给出面向监控视频内容结构的用户认知模型。
2)结合步骤1)的用户认知模型及用户在浏览视频过程中获取的视频帧、目标对象、镜头内容及关联关系等信息,给出面向监控视频内容的多尺度结构划分,即低层特征层、实体信息层、模式信息层和抽象语义层。
3)对监控视频进行预处理。包括将视频中的前景与背景进行分离,提取出视频中的前景对象及背景场景(同时提取前景对象的图像帧,记录对象出入镜头的时间,并保存前景对象与背景场景的映射关系,为基于时间、空间尺度浏览对象建立有效的索引结构)、基于帧间图像差分计算,获取运动目标及其相应轨迹,最后根据基于时间轴的运动目标出现量及对应的时间映射关系计算运动目标的出现密度。
4)对步骤3)处理后的监控视频数据进行冗余内容处理,提取关键帧,并对所提取出的关键帧中的运动目标信息进行标注。
5)将步骤3)得到的目标出现的统计信息可视化成密度曲线,将步骤4)处理后的运动目标识别结果、轨迹数据进行相应尺度的定义,以帧信息的可视化方式,实时组织各个尺度的可视化内容,结合视频内容的分段处理,构建可视化内容与视频片段的索引映射,生成多尺度的视频信息表示结构。
6)基于用户在交互过程中的交互操作方式,例如用户习惯性的单击、双击,删除、滑动视频播放滚动条等操作带来的交互效果,结合鼠标交互操作的相应语义,引入草图交互手势,用户可以利用这些交互手势实现对监控视频内容的高效访问。
进一步的,将推理与基本的认知流程结合起来,考虑到用户从不同角度理解视频内容的过程体现于一个集中的视觉搜索过程,视觉搜索是凭借人的视觉系统在可见的一定区域范围内检测某个目标是否出现,或确定其大概位置的认知过程。如果用户需要从多个视角对可视的视频信息进行有效认知与分析,除了具备自身对信息的基本认知能力外,还需要反映出其大脑对信息不同尺度呈现的具体认知过程以及该过程中视觉搜索范围内各尺度信息的关联。因此,研究面向视频内容的多尺度信息的高效表示,可以充分利用PMJ认知模型(参考文献:Xiaolan FU,Cai L H,Liu Y,et al.Acomputational cognition modelof perception,memory,and judgment[J].Science China Information Sciences,2014,57(3):1-15.)的可计算性,结合人的视觉注意机制对视频内容多尺度认知的特点及多通道的计算框架对用户浏览监控视频的认知过程进行分析。从用户多尺度获取视频信息、处理信息及反馈方面,对用户可视分析过程中的感知(Perception)、记忆(Memory)和判断(Judgment)这三个阶段建立对应的计算流程,给出了面向监控视频数据的用户认知模型(如图1所示)。图1概括了用户在浏览监控视频时对应的整个认知过程。在每个阶段层,用户的认知系统会完成一定的信息处理任务,它可以接受其他阶段层的信息输入,同时将自身完成的处理结果进行输出,为其他阶段层提供信息输入。其中,感知层对应的是用户在浏览视频时,对图像各帧的基本特征进行捕捉、感知和输入处理,对应的是视频分析阶段。记忆层是针对在感知层获取到的视频信息进行整合处理,反复分析加工,形成对视频基本内容的理解,其对应的是视频基本信息的建模阶段。决策层是基于前两个阶段层的信息整合、加工、过滤后的内容进行加工处理判断,其对应的是视频内容高层关系的深入理解和决策阶段。该三个阶段相互配合,完成整个用户对视频内容理解的认知任务。图中带圈的数字标注代表信息流的处理流程。箭头的线表示具有某种认知加工的通路。从图中各个数字标号可以看出,用户在对视频内容认知过程中各个阶段之间存在多条加工通路,用户的认知系统在对视频各层信息进行处理时,会根据系统对视频信息加工的任务难度、任务的目标进行判断,从而动态的选择适合的加工通路,以实现各个阶段间的信息转移,最后实现基于视频内容的高效认知判断、输出理解内容的决策结果。
进一步的,根据上文提到的用户认知模型中的视频信息流向层(即视频内容结构中底层信息至顶层内容的划分流向),将需要处理的监控视频数据划分为4个层级,并按照用户对视频内容的认知理解过程从低到高依次分为:低层特征层、实体信息层、模式信息层和抽象语义层。其中,主要将视频帧的颜色直方图、轮廓特征、纹理矩阵、SIFI特征向量等信息划分到底层特征层;背景、前景及场景分割结果划分到实体信息层;镜头内容划分到模式信息层,空间关系、时间关系及对象关系等信息划分到抽象语义层。(在这个划分体系中,每个层级信息并不是独立存在,而是相互关联的),从而得到监控视频内容的多尺度划分结构,如图2所示。
进一步的,为了实现不同尺度的监控视频内容信息的表征,对监控视频中的运动目标进行检测,利用高斯混合模型的统计学习方法对监控视频进行背景建模,将背景模型与视频的每一帧图像进行匹配,并利用像素灰度值的欧式距离,结合局部特征计算背景模型与各帧的匹配程度,当匹配程度小于一定阈值时,即可将该像素视为背景像素,反之则将其视为前景像素,从而实现前景与背景的分割(参考文献:Qin Z,Shelton C R.EventDetection in Continuous Video:An Inference in Point Process Approach[J].IEEETransactions on Image Processing A Publication of the IEEE Signal ProcessingSociety,2017,PP(99):1-1)。进而利用X线断层分析方法实现目标区域的识别,完成前景目标运动特征的提取,通过图像差分计算,识别目标在一序列镜头帧中的运动轨迹数据,并统计、标注目标信息及其在视频中的映射关系,进而完成基于时间序列的目标出现密度的可视化呈现。
进一步的,对所述关键帧运动目标识别评估值进行线性压缩归一化,并根据归一化后的关键帧的图像质量显示运动检测的匹配结果。
进一步的,根据检测后,判断帧序列图像采样块和相同位置背景图像采样块得到的神经元响应值,依据目标的运动、颜色、形状特征,构造相邻帧目标匹配的代价函数,将目标跟踪问题转化为能量最小问题,通过求解最小值,可得到最优的相邻帧目标匹配,计算各个相邻帧间的目标轨迹的排列,实现检测异常行为扫描。
进一步的,针对处理后的视频数据,在基于运动分析的关键帧提取方法基础上,通过光流分析来计算镜头中的运动量,并根据运动量取局部最小值来实现代表关键帧的选择。
进一步的,以帧的运动变化量实现监控视频内容的分类,通过视频分段算法将对应的监控视频内容进行分段,从而根据定义的不同尺度,构建视频片段的索引结构。
进一步的,定义草图语义,设计对应的草图映射关系,描述用户意图的手势符号从而实现草图手势定义与交互意图相一致的交互操作。
本发明的主要内容包括:
1、运动目标的检测与跟踪
根据步骤3)的进一步介绍,本发明在完成监控视频中运动目标的区域识别后,需要实现目标的运动检测跟踪,检测目标的运动特征。监控视频内容中的运动目标特征通常指的是镜头下对象物体产生的局部运动。为提取监控视频中运动目标特征,根据运动特性对镜头的运动目标区域中所有景物分层并对每层进行描述,并在此基础上对运动特征采用描述算法。由于运动特征无法从一幅帧图像中获得,所以需要对视频序列帧的运动目标区域进行分析。本发明在X线断层分析方法基础上(参考文献:Madanayake H L P A,Cintra RJ,Onen D,et al.Algebraic integer based 8×8 2-D DCT architecture for digitalvideo processing[J].2011:1247-1250.),把要处理的视频序列看成一个整体块,因为一般情况下存在不少运动向量方向相同,且大小相似(由中心向四周,或者相反)的情况,而且大部分的运动向量为0或者很小。仅是对应运动部分的运动向量较大,所以通过计算宏块运动向量(B帧和P帧)在8个方向的分布,即:其中,Fj是第j个方向的运动向量所占的比例值。k代表帧中宏块的总数,而θ(i,j)的取值是0或者1,代表第i个运动向量是否在方向j上。因为没有运动块所占的比例,所以容易获得一个具有9个分量的特征向量。利用该特征向量便可以将镜头下的运动目标综合起来计算,获取运动特征信息。
2、关键帧提取
本发明在完成对监控视频内容的处理后,根据从视频中图像帧所识别出的目标信息,进行关键帧的筛选提取。关键帧的有效选取以及充分利用可以大大减少基于监控视频内容可视分析索引的数据量,同时也可以为基于视频内容访问的视频分析系统提供了一个有效的组织框架。通过关键帧的超链接组织可以为相应的视频内容建立摘要,并允许用户通过这些关键帧的索引目录来选择浏览有意义的视频内容信息。本发明在对监控视频的内容提取时,基于运动目标的分析,通过光流分析计算视频镜头中目标的运动量,并根据运动量取局部最小值来实现代表关键帧的选择。首先,利用Horn-Schunck方法来计算镜头下各帧像素的光流,并对每帧的各个像素光流分量的模求总和,并以其作为对应帧的运动量;其中第f帧的运动量M(f)为:
其中Ox(i,j,f)是帧f内像素(i,j)光流的x分量,Oy(i,j,f)是帧f内像素(i,j)光流的y分量。接着需要寻找M(f)的局部最小值,从f=0开始,逐步扫描M(f)~f曲线,找到两个局部最大值M(f1)和M(f2),其中M(f2)的值和M(f1)的值至少需要相差ψ%(由经验设定)。如果M(f3)=min(M(f)),f1<f<f2,则把f3选取为代表关键帧。然后把f2作为当前的f1,继续选择下一个f2,依次遍历进行。为了达到提取关键帧的更优效果,在处理提取前,把镜头中帧图像的运动目标通过前景提取及运动目标检测从背景中取出。再计算运动目标所在各帧位置的光流,以获得更好的提取结果。
3、监控视频分段处理
本发明为实现监控视频内容的多尺度索引构建,对相应的监控内容片段做视频分段处理。由于监控设备通常是固定在一定的方位,监控画面极其有限,监控中的内容也通常表现为行人或者车辆的运动,而且监控场景变化不大,通常表现为光线渐变和突变,所以监控画面中运动变化的多少和快慢在很大程度上反映出了当前运动目标的多少和运动模式。针对监控视频的这些特点,本发明采用基于帧的运动变化量来对监控视频片段进行分类,在完成步骤3)运动目标的检测识别后,进行形态学处理,然后通过计算帧的运动量将帧进行分类,并且标记边界帧最终将监控视频进行分段。
首先,建立背景时,可以选择监控视频帧中的某一个帧作为背景帧,但是考虑到监控背景中会出现不含任何移动目标的情况,所以在一个运动目标较少的时刻提取背景帧,主要在一段较长时间段的连续帧中取一个像素点,求其中值亮度作为背景帧的该点亮度值。即:其中B0(x,y)代表该点亮度值,n为连续帧帧数,Framei(x,y)为监控视频序列中的任意一帧。
其次,在计算图像帧的运动量时,由于运动量反映的是运动目标在监控视频中所占区域的整体变化情况,即帧运动量(0≤St≤1),设视频图像帧的总大小是a*b,用Bt(x,y)来代表监控视频中t时刻的图像帧在像素点(x,y)处的亮度值,用It表示对应的帧差二值化图像,T为设定的亮度阈值,则有由此根据已经确定的It,利用公式可以得到帧运动量St。此外,考虑到监控视频中的光线变化会影响背景的计算,所以本发明需要实时更新背景以适应光线的变化,即当计算得到的运动量St较低甚至为0时,说明当前没有运动目标经过,此时可以利用以下公式
选择对背景进行更新,即重新建立背景,以适应环境光线的缓慢变化。其中σ是学习率,通常情况下取较小的值,σ越低说明该图像帧变化对背景影响小,更新速度就越慢(相反,σ越大该图像帧变化对背景影响越大,背景更新速度越快)。在本发明中,σ的取值为0<σ<0.05。而当计算出的St较高甚至等于1的时候,说明当前的图像帧变化较大,同样利用以上公式来实现对背景的更新以适应环境光线的剧烈变化,不过此时学习率σ应该取较大的值0.95<σ<1。
然后通过计算的运动量St对帧进行分类,主要设定图像帧为5种不同的类别(类别设为Ck,其中k为整数,0≤k<5),分别为C0:0≤St≤0.2,C1:0.2<St≤0.4,C2:0.4<St≤0.6,C3:0.6<St≤0.8,C4:0.8<St≤1,例如根据第f帧的St将其分到对应的类别。
最后通过比较Ck和Ck-1,即当前帧的类别及其前一帧的类别,便可以得到不同类的边界。具体方法如下:1)Ck=Ck-1,当前的两个图像帧属于同一类别,没有边界,继续判定下一帧;2)Ck>Ck-1,从Ck-1+1到Ck这一类别的开始帧是k;3)Ck<Ck-1,从Ck+1到Ck-1这一类别的结束帧是k-1。通过该方法可以找到各类的边界,即某一类的开始帧或结束帧,根据这些得出的开始帧和结束帧可以实现视频分段处理。
4、多尺度的组织框架
本发明提出面向监控视频数据的多尺度组织与交互方法。在上文步骤3)至步骤5)中对监控视频数据进行内容处理与提取后,需要为所提取的不同尺度的视频信息建立多尺度的交互机制,即构建基于内容的索引结构。该项发明从三个尺度将监控视频信息进行可视化,并支持用户基于草图手势操作的多尺度交互探索。以下是针对监控视频内容多尺度的结构组织关系:
1)从监控视频数据信息量的尺度,通过对视频序列帧图像中目标信息进行检测,分析,提取,组织后,筛选并标注监控背景中不含移动目标的情况,提供用户自定义剔除对应的冗余片段,提供面向视频内容运动对象识别信息的可视统计呈现(广度)。
2)从监控视频内容中运动目标的尺度,提供运动目标异常检测、定位识别的映射可视信息,供用户直观高效地访问、获取监控视频中异常信息的定位(中度)。
3)从视频关键帧信息的定位尺度,根据画面中出现目标的识别量及其对应帧的映射关系,为用户提供自定义筛选、浏览有意义、有价值信息的视频片段;针对视频内容的处理提取后,将从三个尺度有效展示监控视频内容的主要信息,并在此基础上提供草图交互方法,帮助用户实现与监控视频内容直接、自然、高效的交互(细度)。
5、基于草图语义设计的自然交互
草图在表征用户意图的过程中,体现出一定的自由性、随意性、动态性、多义性以及高度集成性。由于草图具有整体的概括能力和突出、形象的抽象表达能力,通过简单的草图勾勒,可以快速、直观、有效地呈现用户抽象的想法和概念描述,直接形象地表达用户的操作意图。所以基于草图形式的交互方式除了符合用户模拟纸笔环境下的书写习惯,更是让用户实现高效、自然的交互体验。自然的交互方法理解为在用户与计算机交互的过程中,将草图作为人机交流的信息载体,利用草图这种符合人的传统认知习惯,及其自身具有的将用户交互意图自然表达的特性,能够在一定程度上增强人们对信息的认知,提高交互的效率。因此,针对监控视频内容的各尺度信息,在面向监控视频内容的多尺度交互方式上,本发明提出采用基于草图手势的交互方式,该方式可以使用户以更自然的交互手段访问和理解视频的信息,能够方便用户直观表达交互意图,加快关键信息选择,提高用户交互操作效率,有利于用户对监控视频内容的捕捉、分析与理解。考虑到用户在各项交互操作之间存在一定的共性,所以在基于草图手势的交互设计与实现方面,以输入简单、易操作,降低用户认知负荷,提高用户输入效率为准则,提出一套符合用户交互认知习惯的、与草图基本语义相一致的交互手势及其相应规则,主要有草图单击、双击、选中(圈选)、草图控制操作(放大/缩小)、草图区域选择手势、草图编辑(内容输入,内容删除及修改),草图快进、快退等操作。
和现有技术相比,本发明具有的优点和积极效果如下:
1、本发明将用户基于监控视频内容的认知计算机理应用到监控视频内容的多尺度结构层次划分,以降低用户认知负荷,提高用户基于监控视频内容的可视分析效率为契机,提出了监控视频内容的多尺度分析方法。
2、本发明在对监控视频内容处理过程中,强调提高视频内容提取和用户分析视频数据的效率,从监控视频冗余数据处理、目标识别计算、关键帧提取、索引构建的视频分段处理等方面入手,提高监控视频内容多尺度表示方法的有效性和稳定性。
3、本发明在传统WIMP(视窗windows、图标Icon、选单Menu、指标Pointer)交互范式的基础上融入草图交互技术,提供了一种自然、高效、易于表达用户交互意图的草图手势,强调用户操作的便捷性、灵活性和自由性。
附图说明
图1为基于视频内容的用户认知模型;
图2为视频内容的多尺度分层结构;
图3为基于认知计算的监控视频内容可视分析框架;
图4为系统多尺度结构组织框架。
具体实施方式
为了使本技术领域的人员更好的理解本发明,以下结合附图进一步详细描述本发明所提供的融合认知的监控视频多尺度可视分析方法,但不构成对本发明的限制。
1.监控视频资源的选择,本方法应用的验证视频数据是从河南省灵宝市公安局提供的监控视频素材中挑选的两段视频片段,平均每段视频长约2.5个小时;
2.采用前面步骤1)和步骤2)所述的方法分析监控视频内容多尺度的表示理论,得到基于认知计算的视频内容可视分析框架及其多尺度组织结构,如附图3,图4所示;
3.采用前面步骤3)所述的方法对所挑选的视频片段进行前景/背景识别,运动特征提取,运动目标的检测、识别与跟踪、异常提取等处理;
4.采用前面步骤4)中所述的关键帧筛选方法对前一步处理所得到的监控视频数据进行自动过滤提取,得到最终的关键帧;
5.根据提取的监控视频内容及关键帧,构建各个尺度的索引机制,实现对应视频数据的自动生成;
6.根据步骤5)所述的多尺度表示方法,定义基于草图的交互形式,草图交互手势如表1所示。
表1:草图交互手势表
以上对本发明所述的一种融合认知的监控视频多尺度可视分析方法进行了详细的说明,但显然本发明的具体实现形式并不局限于此。对于本技术领域的一般技术人员来说,在不背离本发明所述方法的精神和权利要求范围的情况下对它进行的各种显而易见的改变都在本发明的保护范围之内。

Claims (9)

1.一种视频多尺度可视化方法,其步骤包括:
1)建立目标视频的面向视频内容结构的用户认知模型;
2)对该目标视频中的前景与背景进行分离,提取出该目标视频中的前景对象、背景场景以及前景对象的图像帧;基于帧间图像差分计算,获取运动目标及其相应轨迹;根据基于时间轴的运动目标出现量及对应的时间映射关系计算运动目标的出现密度;
3)从步骤2)处理后的目标视频数据中提取关键帧,并对所提取出的关键帧中的运动目标信息进行标注;
4)将步骤3)处理后的运动目标识别结果及运动目标的轨迹数据进行多尺度划分,然后以帧信息的可视化方式实时组织各设定尺度的可视化内容,生成多尺度的视频信息表示结构。
2.一种视频多尺度交互方法,其步骤包括:
1)建立目标视频的面向视频内容结构的用户认知模型;
2)对该目标视频中的前景与背景进行分离,提取出该目标视频中的前景对象、背景场景以及前景对象的图像帧;基于帧间图像差分计算,获取运动目标及其相应轨迹;根据基于时间轴的运动目标出现量及对应的时间映射关系计算运动目标的出现密度;
3)从步骤2)处理后的目标视频数据中提取关键帧,并对所提取出的关键帧中的运动目标信息进行标注;
4)将步骤3)处理后的运动目标识别结果及运动目标的轨迹数据进行多尺度划分,然后以帧信息的可视化方式实时组织各设定尺度的可视化内容,生成多尺度的视频信息表示结构;
5)基于用户在交互过程中的交互操作方式,在多尺度的视频信息表示结构的交互界面,结合鼠标交互操作的相应语义,引入草图交互手势;用户通过引入的草图交互手势在该交互界面对该目标视频进行操作。
3.如权利要求1或2所述的方法,其特征在于,所述步骤4)中,依据该目标视频的多尺度划分结构进行多尺度划分;其中,得到该目标视频的多尺度划分结构的方法为:首先结合所述用户认知模型中的视频信息流向层对该目标视频进行划分,得到该目标视频的低层特征层、实体信息层、模式信息层和抽象语义层;然后将背景、前景及场景分割结果划分到实体信息层,将镜头内容划分到模式信息层,将空间关系、时间关系及对象关系划分到抽象语义层,得到该目标视频的多尺度划分结构。
4.如权利要求1或2所述的方法,其特征在于,基于帧的变化量对所述目标视频进行分段处理,其方法为:
首先,建立背景时,选择该目标视频帧中的一个帧作为背景帧,然后在一设定时间长度内的连续帧中取一个像素点,将该像素点的中值亮度作为背景帧的该点亮度值;即:其中B0(x,y)代表该像素点的亮度值,n为连续帧帧数,Framei(x,y)为选取的背景帧;
然后,计算图像帧的帧运动量0≤St≤1;设图像帧的总大小是a*b,用Bt(x,y)来代表该目标视频中t时刻的图像帧在像素点(x,y)处的亮度值,用It表示对应的帧差二值化图像,T为设定的亮度阈值,则有利用公式得到帧运动量St
然后,通过计算的运动量St对该目标视频的帧进行类别划分;
最后,根据各图像帧的运动量St确定对应帧的类别,通过比较当前帧的类别Ck及其前一帧的类别Ck-1,得到不同类的边界;具体方法为:1)如果Ck=Ck-1,即当前的两个图像帧属于同一类别,没有边界,继续判定下一帧;2)Ck>Ck-1,从Ck-1+1到Ck这一类别的开始帧是k;3)Ck<Ck-1,从Ck+1到Ck-1这一类别的结束帧是k-1。
5.如权利要求4所述的方法,其特征在于,利用公式选择对背景进行更新;其中σ是学习率;当计算得到的运动量St小于设定阈值时,σ的取值为0<σ<0.05,当运动量St大于或等于设定阈值时,0.95<σ<1。
6.如权利要求4所述的方法,其特征在于,该目标视频的帧类别包括五类,分别为C0:0≤St≤0.2,C1:0.2<St≤0.4,C2:0.4<St≤0.6,C3:0.6<St≤0.8,C4:0.8<St≤1。
7.如权利要求1或2所述的方法,其特征在于,提取出所述关键帧的方法为:通过光流分析计算该目标视频中运动目标的运动量,根据运动量取局部最小值选取所述关键帧。
8.如权利要求7所述的方法,其特征在于,首先利用Horn-Schunck方法来计算该目标视频中各帧像素的光流,并对每帧中各个像素光流分量的模求总和,并以其作为对应帧的运动量,其中第f帧的运动量为M(f);寻找M(f)的局部最小值,从f=0开始,逐步扫描M(f)~f曲线,找到两个局部最大值M(f1)和M(f2),其中M(f2)的值和M(f1)的值至少需要相差ψ%;如果M(f3)=min(M(f)),f1<f<f2,则把f3选取为关键帧,然后把f2作为当前的f1,继续选择下一个f2,依次遍历进行。
9.如权利要求1或2所述的方法,其特征在于,所述用户认知模型为面向视频内容理解分析的认知模型。
CN201810045958.0A 2018-01-17 2018-01-17 一种视频多尺度可视化方法与交互方法 Pending CN108459785A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810045958.0A CN108459785A (zh) 2018-01-17 2018-01-17 一种视频多尺度可视化方法与交互方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810045958.0A CN108459785A (zh) 2018-01-17 2018-01-17 一种视频多尺度可视化方法与交互方法

Publications (1)

Publication Number Publication Date
CN108459785A true CN108459785A (zh) 2018-08-28

Family

ID=63220963

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810045958.0A Pending CN108459785A (zh) 2018-01-17 2018-01-17 一种视频多尺度可视化方法与交互方法

Country Status (1)

Country Link
CN (1) CN108459785A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109902730A (zh) * 2019-02-21 2019-06-18 国网山东省电力公司临沂供电公司 基于深度学习的输电线路断股检测方法
CN110460874A (zh) * 2019-08-09 2019-11-15 腾讯科技(深圳)有限公司 视频播放参数生成方法、装置、存储介质及电子设备
CN110740231A (zh) * 2019-09-27 2020-01-31 浙江省北大信息技术高等研究院 视频数据标注方法、装置、电子设备及介质
CN110933520A (zh) * 2019-12-10 2020-03-27 中国科学院软件研究所 一种基于螺旋摘要的监控视频展示方法及存储介质
CN111079663A (zh) * 2019-12-19 2020-04-28 深圳云天励飞技术有限公司 高空抛物的监测方法、装置、电子设备及存储介质
CN111324819A (zh) * 2020-03-24 2020-06-23 北京字节跳动网络技术有限公司 一种媒体内容搜索的方法、装置、计算机设备及存储介质
CN112347975A (zh) * 2020-11-23 2021-02-09 浙江华络通信设备有限公司 一种可视化融合通信调度系统及其实现方法
CN112905829A (zh) * 2021-03-25 2021-06-04 王芳 一种跨模态人工智能信息处理系统及检索方法
CN113468913A (zh) * 2020-03-30 2021-10-01 阿里巴巴集团控股有限公司 数据处理、动作识别、模型训练方法、设备及存储介质
CN113542868A (zh) * 2021-05-26 2021-10-22 浙江大华技术股份有限公司 视频关键帧选取方法、装置、电子设备、存储介质
CN114973612A (zh) * 2022-03-28 2022-08-30 深圳市揽讯科技有限公司 Led显示屏故障自动告警监控系统及监控方法
CN116503790A (zh) * 2023-06-27 2023-07-28 深圳市遐拓科技有限公司 基于图像描边增强算法模型的用于火场救援图像处理方法
CN117830311A (zh) * 2024-03-05 2024-04-05 中山大学 医学影像图片分段和关键帧标识方法、系统、设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103067781A (zh) * 2012-12-20 2013-04-24 中国科学院软件研究所 一种多尺度视频表示与浏览方法
CN103227963A (zh) * 2013-03-20 2013-07-31 西交利物浦大学 基于视频运动目标检测和跟踪的静态监控视频摘要方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103067781A (zh) * 2012-12-20 2013-04-24 中国科学院软件研究所 一种多尺度视频表示与浏览方法
CN103227963A (zh) * 2013-03-20 2013-07-31 西交利物浦大学 基于视频运动目标检测和跟踪的静态监控视频摘要方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
胡圆圆 等: ""监控视频中基于运动目标显著性的关键帧提取方法"", 《南京邮电大学学报(自然科学版)》 *
高清芬: ""一种监控视频分段的方法"", 《衡水学院学报》 *
黄凯奇 等: ""智能视频监控技术综述"", 《计算机学报》 *
黎万义 等: ""引入视觉注意机制的目标跟踪方法综述"", 《自动化学报》 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109902730A (zh) * 2019-02-21 2019-06-18 国网山东省电力公司临沂供电公司 基于深度学习的输电线路断股检测方法
CN110460874B (zh) * 2019-08-09 2020-07-03 腾讯科技(深圳)有限公司 视频播放参数生成方法、装置、存储介质及电子设备
CN110460874A (zh) * 2019-08-09 2019-11-15 腾讯科技(深圳)有限公司 视频播放参数生成方法、装置、存储介质及电子设备
CN110740231A (zh) * 2019-09-27 2020-01-31 浙江省北大信息技术高等研究院 视频数据标注方法、装置、电子设备及介质
CN110933520A (zh) * 2019-12-10 2020-03-27 中国科学院软件研究所 一种基于螺旋摘要的监控视频展示方法及存储介质
CN110933520B (zh) * 2019-12-10 2020-10-16 中国科学院软件研究所 一种基于螺旋摘要的监控视频展示方法及存储介质
CN111079663B (zh) * 2019-12-19 2022-01-11 深圳云天励飞技术股份有限公司 高空抛物的监测方法、装置、电子设备及存储介质
CN111079663A (zh) * 2019-12-19 2020-04-28 深圳云天励飞技术有限公司 高空抛物的监测方法、装置、电子设备及存储介质
CN111324819A (zh) * 2020-03-24 2020-06-23 北京字节跳动网络技术有限公司 一种媒体内容搜索的方法、装置、计算机设备及存储介质
CN113468913A (zh) * 2020-03-30 2021-10-01 阿里巴巴集团控股有限公司 数据处理、动作识别、模型训练方法、设备及存储介质
CN112347975A (zh) * 2020-11-23 2021-02-09 浙江华络通信设备有限公司 一种可视化融合通信调度系统及其实现方法
CN112347975B (zh) * 2020-11-23 2023-04-07 浙江华络通信设备有限公司 一种可视化融合通信调度系统及其实现方法
CN112905829A (zh) * 2021-03-25 2021-06-04 王芳 一种跨模态人工智能信息处理系统及检索方法
CN113542868A (zh) * 2021-05-26 2021-10-22 浙江大华技术股份有限公司 视频关键帧选取方法、装置、电子设备、存储介质
WO2022247406A1 (en) * 2021-05-26 2022-12-01 Zhejiang Dahua Technology Co., Ltd. Systems and methods for determining key frame images of video data
CN114973612A (zh) * 2022-03-28 2022-08-30 深圳市揽讯科技有限公司 Led显示屏故障自动告警监控系统及监控方法
CN116503790A (zh) * 2023-06-27 2023-07-28 深圳市遐拓科技有限公司 基于图像描边增强算法模型的用于火场救援图像处理方法
CN117830311A (zh) * 2024-03-05 2024-04-05 中山大学 医学影像图片分段和关键帧标识方法、系统、设备及介质
CN117830311B (zh) * 2024-03-05 2024-05-28 中山大学 医学影像图片分段和关键帧标识方法、系统、设备及介质

Similar Documents

Publication Publication Date Title
CN108459785A (zh) 一种视频多尺度可视化方法与交互方法
Wang et al. Inferring salient objects from human fixations
Yang et al. Visual sentiment prediction based on automatic discovery of affective regions
Wang et al. Multi-scale dilated convolution of convolutional neural network for crowd counting
Li et al. Deepsaliency: Multi-task deep neural network model for salient object detection
Höferlin et al. Inter-active learning of ad-hoc classifiers for video visual analytics
Wu et al. Real-time traffic sign detection and classification towards real traffic scene
Yin et al. Region search based on hybrid convolutional neural network in optical remote sensing images
Ji et al. Graph model-based salient object detection using objectness and multiple saliency cues
CN106599133B (zh) 一种基于草图交互的监控视频可视分析方法
Rashmi et al. Video shot boundary detection using block based cumulative approach
Song et al. Temporal action localization in untrimmed videos using action pattern trees
Yin et al. Image recommendation algorithm based on deep learning
Aytekin et al. Probabilistic saliency estimation
Liu et al. Composing semantic collage for image retargeting
Saqib et al. Intelligent dynamic gesture recognition using CNN empowered by edit distance
Akhlaghi et al. Farsi handwritten phone number recognition using deep learning
Xu et al. Hand segmentation pipeline from depth map: an integrated approach of histogram threshold selection and shallow CNN classification
Zhou et al. Discriminative attention-augmented feature learning for facial expression recognition in the wild
Sheeba et al. Hybrid features-enabled dragon deep belief neural network for activity recognition
Ren et al. A new multi-scale pedestrian detection algorithm in traffic environment
Li et al. Egocentric action recognition by automatic relation modeling
Thiruthuvanathan et al. Multimodal emotional analysis through hierarchical video summarization and face tracking
Lu et al. Image color harmony modeling through neighbored co-occurrence colors
Li et al. Spatial and temporal information fusion for human action recognition via Center Boundary Balancing Multimodal Classifier

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180828