CN103440274B

CN103440274B - 一种基于细节描述的视频事件概要图构造和匹配方法

Info

Publication number: CN103440274B
Application number: CN201310340408.9A
Authority: CN
Inventors: 陈小武; 张宇; 赵沁平; 蒋恺
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2013-08-07
Filing date: 2013-08-07
Publication date: 2016-09-28
Anticipated expiration: 2033-08-07
Also published as: CN103440274A

Abstract

本发明提供一种基于细节描述的视频事件概要图构造和匹配方法，包括：定义事件概要图为一种无向图模型，描述事件细节的动作属性集合，动作之间的角色约束关系和上下文关系；定义事件概要图的各类事件细节描述特征并构造相应的匹配测度，将事件概要图的匹配测度表示为各类特征匹配测度的线性组合，并采用相关度反馈方法学习线性权重系数。本发明的应用之一是视频事件细节检索，其原理是将用户输入的事件细节和库中视频事件细节表达为事件概要图，然后在数据驱动的马尔科夫链蒙特卡洛框架下进行图匹配，完成检索过程。本发明所提供的事件概要图能够有效描述单人或多人事件细节；本发明也提供了一种视频事件细节匹配和检索的参考方法。

Description

一种基于细节描述的视频事件概要图构造和匹配方法

技术领域

本发明涉及计算机视觉和信息检索领域，具体地说是一种基于细节描述的视频事件概要图构造和匹配方法。

背景技术

视频事件内容描述和匹配是计算机视觉领域和信息检索领域的基本问题之一，目前已在内容表示、识别和检索应用中发挥了重要作用。低层内容描述和匹配方法提取和比较视频中提取的颜色、纹理、光流等低层全局视觉特征，主要应用于对象模板表示与学习、对象识别和检索等应用。中层内容描述匹配则通过提取局部特征表征视频动作，应用于行为模板表示、动作识别和检索等应用。然而由于事件种类的复杂性，大多数情况下视频事件并非是一个单一的动作，而是由若干动作在时空上的某种组合，例如监控视频中的“某人走到某处停下，经过一段时间后转身回去”和体育视频中“某球员接到另一名球员传来的球，然后射门”。这两个事件可以分别看作“走-站立-走”和“踢球-接球-踢球”等几个动作以一定时间顺序和空间轨迹发生。对于例如监控和体育比赛的特定领域，更具意义的是描述、匹配和检索例如上述视频事件的发生细节，而不是“走路”、“射门”等简单事件类别。这就要求对视频内容的描述尺度和描述方式进行改变，使之面向视频高层语义内容的匹配检索。

在匹配视频事件细节时，如何精确且高效的描述事件细节是需要重点解决的问题。视频事件描述表达是计算机视觉领域的热点之一，近年来许多工作提出了基于图模型、知识/逻辑模型和文法模型等各类描述模型。然而由于这些模型大多需要针对特定的事件类别进行人为定义或机器学习，因此主要应用于在已知事件类型和结构前提下的事件检测、识别和分类，而无法应用于事件匹配和检索应用。目前面向事件匹配和检索的常见视频事件描述方式有两种，一是文本关键词及其组合，二是基于全局或者局部特征的视频内容模型。前者由于检索系统所支持的文本概念种类的局限性，难以精确描述事件动作的空间位置、方位等信息，而后者则因为底层视觉特征的语义表达能力有限，因此主要用于在包含多类别事件的视频库中区分不同类别的视频（如足球运动和火箭发射等），而难以描述语义信息复杂的事件发生细节。为解决该问题，一些研究者将产生自图像检索领域的基于概要图的检索（Sketch-based Retrieval）方法迁移到了视频检索领域中。这种方法一般通过用户所绘制的概要图描述待检索对象，并将概要图的形状、颜色等特征库中对象进行匹配，计算输入对象与库中对象的相似度。例如，Jun-Wei Hsieh等人所发明的视频检索系统从用户绘制的物体运动轨迹中提取控制点作为特征，并使用一种轨迹匹配方法计算库中存储的轨迹与输入轨迹的相似度，从而能够描述与匹配按照某种轨迹运动的对象。ChiranjoyChattopadhyay等人提出的方法允许用户绘制物体的轨迹和轮廓，并从输入概要图和库中视频中提取多谱时间曲率尺度空间（Multi-Spectro Temporal-Curvature Scale Space）表征视频事件，可以描述匹配例如某种颜色的车或穿某颜色衣服的人按照指定轨迹运动的事件。Collomosse等人进一步结合了颜色信息，以一种称为“故事板”的描述物体形状、颜色和运动的事件概要图作为检索输入。Hu等人在该工作的基础上，又引入了视频内容的语义标签信息，并开发了一个基于视频对象颜色，运动轨迹和语义标签匹配的视频检索系统。他们的工作能够应用于针对特定轮廓、颜色、运动轨迹的对象的事件描述和检索。

然而，上述视频事件概要图仅针对于只有少量对象的简单事件的描述匹配。而对具有大量对象和动作的事件（例如群体事件）细节，本发明认为可以通过描述事件细节中的动作关系和布局，构造基于动作属性的事件概要图，并提取和匹配描述事件动作之间的语义、时空和逻辑联系的高层特征，以比较事件细节的发生过程的相似度。这种情况下，用户可以绘制动作的时空轨迹并指定动作类型，以描述事件细节的大致发生过程，然后分别在用户输入和库中存储的事件细节上分别建立事件概要图，并采用合适的匹配算法完成检索需求。因此，本发明提供了一种基于细节描述的视频事件概要图构造和匹配方法。

发明内容

根据上述实际需求和关键问题，本发明的目的在于：提出一种事件概要图的构造方法，能够描述事件细节的动作属性集合，动作之间的角色约束关系，以及每个动作与周围动作的上下文关系；面向视频细节检索应用，将用户输入的事件细节和库中视频事件细节表达为事件概要图，并在数据驱动的马尔科夫链蒙特卡洛框架下进行图匹配，完成检索过程。

本发明采用的技术方案为：一种基于细节描述的视频事件概要图构造和匹配方法，包含以下步骤：

步骤（1）、定义视频事件细节为单人或多人的若干动作在时间、空间上的某种布局；

步骤（2）、基于无向属性图模型，将视频事件细节表达为事件概要图，描述动作属性集合，动作之间的角色约束关系，以及每个动作与周围动作的上下文关系；

步骤（3）、定义事件概要图的各类事件细节描述特征，包括事件复杂度特征，节点语义特征，节点时间特征，节点布局特征以及节点上下文特征；

步骤（4）、构造事件概要图的匹配相似度测度，包括为每一类事件细节描述特征构造相应的匹配测度，将事件概要图的匹配测度表达为上述各类匹配测度的线性组合，并采用相关度反馈方法学习线性权重系数；

步骤（5）、作为基于本发明所提供的事件概要图构造和匹配方法的应用，定义视频事件细节检索步骤为：

步骤（5.1）、用户使用事件画板绘制事件细节，或者使用标注工具标注一段视频中感兴趣的事件细节，作为检索输入；

步骤（5.2）、对用户输入的事件细节和库中存储的视频事件细节，分别建立事件概要图；

步骤（5.3）、在数据驱动的马尔科夫链蒙特卡洛（Data-Driven Markov ChainMonte Carlo）框架下计算用户输入的事件细节与库中存储的所有视频事件细节的事件概要图匹配距离，并根据距离大小给出检索结果。

进一步的，步骤（2）的事件概要图的构造主要包括以下步骤：

步骤（2.1）、定义事件概要图的节点为视频中的动作，具有执行者标识、动作类型、动作方向，动作发生时间区间以及空间轨迹等属性；

步骤（2.2）、定义事件概要图节点之间的角色约束关系，当两个节点的动作执行者标识若相同，则存在一条连接该两个节点的边，代表角色约束关系；

步骤（2.3）、定义事件概要图节点之间的上下文关系，每个节点同它在空间上相邻的节点之间存在上下文关系，描述一个节点周围节点的空间位置分布以及活跃度分布。

进一步的，步骤（2.3）的节点的活跃度指人的视觉对该节点所代表的动作类型的敏感程度，根据预定义的动作活跃度表得到。动作活跃度表的定义主要基于两个假设：（1）瞬时动作(如“踢”)比连续性动作（如“走”）的活跃度大；（2）在特定领域中，某些动作的活跃度比其他动作大（如足球视频中“踢”动作）。

进一步的，步骤（4）的权重参数学习方法基于相关度反馈方法，其学习过程为：将视频数据集分为训练集和测试集，对于某一个检索事件细节，由用户标注该检索输入是否与训练集合测试集的每一个视频事件相关，然后遍历所有可能的权重参数组合，通过该参数组合下检索输入与训练集视频事件的相似度得分构建分类器，并采用该分类器对测试集进行相关度分类，将分类结果与用户所标注的相关度进行比较，得出该参数组合的分类精度，分类精度最高的参数组合被选择作为最佳的匹配测度参数。

进一步的，步骤（5.1）的事件画板通过重复下述步骤：添加视频对象、指定关键帧、编辑对象轨迹以及指定动作类型，完成事件细节在时间和空间上的编辑。

进一步的，步骤（5.3）的事件概要图的匹配方法是寻找两个图模型之间的最佳节点匹配集合，该集合由初始匹配逐步生长得到，其步骤为：首先从输入事件细节的描述模型中找到动作活跃度较高的节点，计算该节点与库中视频的事件概要图的所有节点的距离，建立该节点与距离较小的节点的匹配关系作为初始匹配，加入匹配集合；然后从所有不在匹配集合的匹配关系中，以一定概率优先选择能够使动作活跃度和角色约束关系数量的增加值较大的匹配关系加入匹配集合，并计算此时两个模型的匹配距离，若相比加入之前的距离减小，则以一定概率接受该新加入的匹配关系，否则从匹配集合中删除该匹配关系，维持原匹配集合不变；重复选择新的匹配关系多次，直到某个模型的所有节点均和另一模型中的全部或者部分节点建立匹配关系，或者达到最大迭代次数后终止。

本发明的原理在于：

首先，针对视频事件细节描述问题，本发明提出了一种基于无向图模型的事件概要图。图中每个节点表示一个事件动作，连接节点的边表示动作之间的联系。该模型考虑了事件动作的数量、布局信息，同时考虑了单个动作的语义、时空属性，和周围动作的分布信息，以及动作之间的角色约束关系。从该模型中能够提取事件的五类高层特征，分别为：事件复杂度特征（complexity），节点语义特征（semantics），节点时间特征（temporal），节点布局特征（layout）以及节点上下文特征（context）。

为衡量检索输入事件细节和库中的事件细节之间的相似度，本发明为上述五类特征分别构造了距离测度，并由此将两个事件概要图的距离测度表示为五类特征的距离测度的线性组合。为了确定匹配测度的最佳线性系数，使匹配测度具有最大程度的对不同类型事件的区分能力，使用检索引擎常用的相关度反馈（Relevance Feedback）方法学习相关参数。其学习过程为：将视频数据集分为训练集和测试集，对于某一个检索输入，由用户标注该检索输入与训练集和测试集的每一个视频事件是否相关。然后遍历所有可能的权重参数组合，通过该参数组合下检索输入与训练集视频事件的相似度得分构建分类器，并采用该分类器对测试集进行相关度分类，将分类结果与用户所标注的相关度进行比较，得出该参数组合的分类精度。分类精度最高的参数组合被选择作为最佳的匹配测度参数。

其次，面向视频事件细节检索，本发明提出了基于事件概要图匹配的检索方法。该方法提供了两种检索输入方式，一种是事件画板，另一种是经过标注的视频。事件画板提供了事件细节在时空轴上的编辑方法。用户通过添加运动对象，指定该对象在某时间范围内的动作类型，以及绘制运动轨迹完成事件细节的描述。本发明也支持另一种输入方式，即用户使用标注工具跟踪一段视频中感兴趣的运动对象并标注该对象的动作类型。这两种方法均能够产生一个或多个对象的带有动作标签的运动轨迹作为检索输入。本发明在用户输入的事件细节和库中视频事件细节上分别建立事件概要图，并在数据驱动的马尔科夫链蒙特卡洛框架下进行匹配，完成检索过程。该匹配方法是寻找两个图模型之间的最佳节点匹配集合，该集合由初始映射逐步生长得到。首先从输入事件细节的事件概要图中找到活跃度较高的节点，计算该节点与库中视频的事件概要图的所有节点的距离，建立该节点与距离较小的节点的匹配关系作为初始匹配，加入匹配集合。然后从所有不在匹配集合的匹配关系中，以一定概率优先选择能够使动作活跃度和角色约束关系数量的增加值较大的匹配关系加入匹配集合，并计算此时两个模型的匹配距离，若相比加入之前的距离减小，则以一定概率接受该新加入的匹配关系，否则从匹配集合中删除该匹配关系，维持原匹配集合不变。重复选择新的匹配关系多次，直到某个模型的所有节点均和另一模型中的全部或者部分节点建立匹配关系，或者达到最大迭代次数后终止。由于使用了动作活跃度和角色约束信息作为指导信息，因此该方法在快速近似求解最佳匹配的同时，能够有效减少收敛到局部最小值的概率，从而接近全局最优解。

与其他基于事件概要图的方法相比，本发明有益的特点在于：

（1）、本发明所提出的事件概要图不仅考虑了事件动作的数量、布局信息，同时考虑了动作的语义、时空属性，周围动作的分布信息以及动作之间的角色约束关系，从而支持事件细节的发生过程检索；

（2）、提出了5种事件细节描述特征以比较事件概要图在时空、语义上的相似程度，并采用相关度反馈方法给出了特征权重参数的学习方法；

（3）、给出了基于事件概要图的视频事件细节检索方法，允许用户在时间和空间上编辑事件细节的发生过程作为检索输入，通过在DDMCMC框架的事件概要图匹配完成检索过程，在快速近似求解最佳匹配的同时，有效提高收敛到全局最优解的概率。

附图说明

图1是本发明的事件概要图示意图；

图2是本发明的事件概要图匹配示意图；

图3是本发明的基于相关度反馈的权重学习流程图；

图4是本发明的基于事件概要图匹配的视频事件细节检索方法示意图；

图5是本发明的事件画板操作流程图；

图6是本发明的基于DDMCMC框架的事件概要图匹配方法流程图。

具体实施方式

下面结合附图对本发明作详细说明。

参阅图1本发明的事件概要图示意图，事件概要图是一种无向属性图，通过节点的语义属性描述事件动作信息，并通过节点之间的关系描述事件布局信息，以此表示在某一视频事件细节中的动作发生状态。图中的圆形节点代表概要图动作，连接两个概要图动作的虚线边表示角色约束关系。若两个动作是由同一个角色完成的，则这两个动作节点之间存在角色约束关系。除此之外，每一概要图动作与其在空间上相邻的动作（图中方形节点）构成空间上下文关系，由图中实线表示。需要说明的是方形节点是概要图节点动作在其时空邻近域内的任意其他视频动作，可能不属于概要图节点。

事件概要图的每个节点包含4种动作属性，分别描述动作角色、类型、发生的时间范围和发生时间内的中心坐标轨迹。通过分析模型中各类动作属性以及模型图的拓扑结构关系，可以从中提取5类事件细节描述特征，包括事件复杂度特征，节点动作语义特征、节点动作时间特征、节点动作布局特征以及节点动作上下文特征。设V是事件概要图的节点集合，则对于图中的某节点v∈V，五类特征分别描述如下：

事件复杂度特征F^x(v)是图中概要图动作节点的个数。同一个事件概要图中，所有节点的事件复杂度特征相同。

节点动作语义特征F^s(v)由动作类型、动作角色和动作方向所组成的3维向量[label(v)，role(v)，ortentation(v)]表示。其中label(v)和role(v)分是标识动作类别和角色的整数，动作方向ortentation(v)根据该动作的轨迹计算得到，并将其离散化，归纳为如下八种方向的一种：上、下、左、右，右上、右下、左上、左下。

节点动作时间特征F^t(v)用该动作的起止时间构成的2维向量[start(v)，end(v)]表示，并归一化到0-1区间内。例如，视频长度为1000帧，则从258帧开始到396帧结束的动作v的时间特征为F^t(v)＝[0.258，0.396]。

节点动作布局特征F^m(v)描述当前模型中节点的相对空间位置关系，表示为其他节点相对当前节点的位移向量集合。该特征为2×(N-1)的矩阵，其中N是模型中的概要图节点数量，与F^x(v)相同。

节点动作上下文特征F^o(v^t)描述节点v周围节点的分布。这种分布关系包括周围节点相对节点v的接近/远离关系，方位关系，以及动作活跃度，表示为8维向量，记为[near(v^t)，far(v^t)，act(v^t)，pass(v^t)，fwd(v^t)，bwd(v^t)，top(v^t)，btm(v^t)]。其中，距离分量near(v^t)/far(v^t)记录v的周围有多少比例的节点与节点v较近/远，act(v^t)/pas(v^t)记录v的周围有多少比例的节点的活跃度较高/低。节点的活跃度值的定义基于下述两个假设：（1）瞬时动作(如“踢”)比连续性动作（如“走”）的重要程度大（2）在特定领域中，某些动作的重要程度比其他动作大（如足球视频中“踢”动作）。本发明基于此定义了动作活跃度表，并将活跃度值大于某阈值的动作认为具有高活跃度，否则具有低活跃度。fwd(v^t)/bwd(v^t)/top(v^t)/btm(v^t)表示节点v周围有多少节点位于v的前/后/左/右。每一分量均归一化到了0-1区间内。

参阅图2本发明的事件概要图匹配示意图，设已知两个视频事件的事件概要图，为计算这两个模型的距离以衡量事件之间的相似度，需要确定两个模型之间的匹配关系。这种匹配关系可表示为一一到上的映射函数Ψ，该函数将节点数较多的事件概要图的节点v映射至节点数较少的另一模型中的节点Ψ(v)，如图中双向箭头所示。

确定最优映射的方法将在后文给出。假设已经确定一种映射关系，则上述5类特征的匹配测度W^x，W^s，W^t，W^m，W^o按照下表的公式计算：

其中，n(Ψ)是建立映射关系的两个事件概要图的节点数量的较小值，也即映射中匹配对的数量。1(·)是指示函数，D是一个2×2仿射变换矩阵，表示在最小二乘误差下将F^m(v)变换到与F^m(Ψ(v))最接近状态时所经历的旋转、缩放变换。两个事件概要图的匹配测度表示为上述5类匹配测度的线性组合：

W = C \cdot W_{Ψ}^{x} + (W_{Ψ}^{s}, W_{Ψ}^{t}, W_{Ψ}^{m}, W_{Ψ}^{o}) \cdot ω^{T}

其中，C是某较大值常量，ω^T是控制各匹配测度权重的参数。由于上述5类测度分别描述事件的不同性质，为使得事件概要图的距离测度具有最佳的区分能力，本发明采用机器学习领域的相关度反馈方法学习最优权重参数组合。

参阅图3本发明的基于相关度反馈的权重学习流程图，首先从库中选取一个视频数据集并将其分为训练集和测试集。用户制定一个检索输入后，对该数据集中的视频事件进行相关度标注，相关事件标记为1，否则为0。在给定ω的前提下分别对训练集和测试集的视频进行检索，得到各个视频事件与检索输入事件的匹配距离。使用训练集各个视频的匹配距离和事件相关度训练支撑向量机（Support Vector Machine，SVM），并使用该分类器对测试集的视频进行相关度分类，将分类结果与用户所标注的相关度进行比较，计算分类准确率。遍历所有可能的参数组合ω，并选取分类准确率最高的参数组合作为该次实验的最优组合。请多名用户重复这一过程，最终的参数组合为每次所得到的最优参数组合的平均值。

参阅图4本发明的基于事件概要图匹配的视频事件细节检索方法总体示意图，为便于描述视频细节以及建立事件概要图，本发明提供两种检索输入方式：使用事件画板绘制自定义事件过程，或者上传一段经过标注的视频。这两种输入方式所提供的均是具有属性标注的动作轨迹。为支持事件细节检索，库中的视频由专业的标注师进行标注，每段视频中的角色动作均标注有动作语义信息和运动轨迹信息。因此，根据事件概要图的定义，可以直接为用户输入的事件细节和库中的视频事件细节建立事件概要图。最后，通过计算事件概要图之间的差异为库中视频进行相关度排序，完成检索过程。事件细节的检索结果是视频场景中的部分角色的动作语义（动作类别，执行者身份等）和运动轨迹信息。

参阅图5本发明的事件画板操作流程图，事件画板是一个可视化的检索输入界面，允许用户在时空轴上编辑事件发生过程。用户需要指定事件的动作语义属性并绘制动作的运动轨迹，具体分为下述步骤：（1）添加一个视频对象，并将其置于编辑区的合适位置，通过拖动时间轴确定该对象运动的开始时间，并指定该对象的动作类型（如走、跑）和角色（如守门员）；（2）拖动时间轴，选定此时间后的某一时间作为关键帧，编辑此时该物体的位置，并指定该物体的下一个动作类型；（3）重复步骤（1）和步骤（2），直到完成整个事件编辑过程。事件画板以100帧作为最大时间长度。

需要说明的是事件画板的绘制轨迹均为折线，这是由于本发明的事件概要图只需要了解对象的大致运动趋势（即在某些帧上的位置），并不关心视频对象在每一帧上的连续运动轨迹，因此事件画板忽略了对象较为复杂的运动轨迹（如曲线），而仅以简单的折线代替。

另外如上所述，用户也可通过标注一段视频完成检索输入，即使用标注工具跟踪视频中的一个或多个对象，并对跟踪的对象轨迹进行动作标注。无论是事件画板还是这种输入方式均产生带有语义标注信息的动作轨迹作为检索输入。

参阅图6本发明的基于DDMCMC框架的事件概要图流程图，在给定两个事件概要图后，由于映射Ψ有多种可能，而不同的Ψ使得模型的匹配距离也不同，因此需要寻找使匹配距离最小的最优映射。由于视频中的动作数量一般较多，遍历所有可能的映射需要花费较大的时间代价。因此本发明采用数据驱动的马尔科夫链蒙特卡洛采样方法对搜索空间进行随机采样。由于MCMC方法较为容易陷入局部最优解，本发明通过以动作活跃度和角色一致度为先验信息指导搜索过程，从而以较大概率获取全局最优解。

设状态为当前的匹配对集合。其中匹配对v→v′表示某一事件概要图的节点v与另一模型的节点v′建立了匹配关系。假设在x中新加入了某匹配对，设此时的状态为x′，则由此带来的动作活跃度和角色一致度的增益为：

q(x→x^t)＝α·ρ(x，x^t)+b·θ(x，x^t)+C₀

其中，ρ(x，x^t)和θ(x，x^t)分别表示动作活跃度和角色一致度的增益。即加入新的匹配对后，当前已建立匹配关系的节点所构成的子图的总体活跃度值和角色约束关系数量相对于前一状态的增加量。C₀是一正常数，以保证q的值始终为正。通过优先加入q的值较大的匹配对，可以保证优先匹配视频中活跃度较高的且是由同一对象完成的动作，从而快速逼近最优解。在先验信息指导下，寻找最优匹配的过程是首先确定一个初始匹配集合，然后以某一生长方法将其他匹配对依次加入该匹配集合，直到某一模型的全部节点均与另一模型的全部或者部分节点建立匹配关系。具体叙述如下：在初始阶段，从某一个事件概要图G中选取活跃度最高的节点v₀,并计算该节点与另一模型G′中任一节点的匹配距离。选择匹配距离最小的前K个匹配对作为初始匹配集合。然后从初始匹配集合中随机选取一个匹配对作为初始状态x₀，利用MCMC方法框架，其余步骤为：（1）假设当前状态为

x = {v_{1} &RightArrow; v_{1}^{F}, v_{2} &RightArrow; v_{2}^{F}, v_{3} &RightArrow; v_{3}^{F}, \cdot \cdot \cdot \cdot \cdot \cdot v_{k} &RightArrow; c_{k}^{F}},

则从其他未加入x的匹配对中，依次选择1个匹配对并加入x得到x′，并计算q(x→x^F)。（2）从q(x→x^F)较大的前K个匹配对中随机选择一个，并计算加入该匹配对后的匹配距离。若匹配距离减小，则以一定概率接受该匹配对的加入，否则维持原状态x不变。（3）重复步骤（1）和步骤（2），直到某个模型的全部节点均与另一模型的全部或者部分节点建立匹配关系并达到MCMC算法的终止条件后结束。由于MCMC算法的一次运行不能够保证收敛到全局最优解，因此需要多次运行上述算法，并计算每次所得到的匹配关系下两个模型的匹配距离，选择匹配距离最小的一个匹配关系作为最优匹配。

以上所述仅为本发明的一些基本说明，依据本发明的技术方案所做的任何等效变换，均应属于本发明的保护范围。

Claims

1.一种基于细节描述的视频事件概要图构造和匹配方法，其特征在于包含以下步骤：

步骤(1)、定义视频事件细节为单人或多人的若干动作在时间、空间上的某种布局；

步骤(2)、基于无向属性图模型，将视频事件细节表达为事件概要图，描述动作属性集合，动作之间的角色约束关系，以及每个动作与周围动作的上下文关系；

步骤(3)、定义事件概要图的各类事件细节描述特征，包括事件复杂度特征，节点语义特征，节点时间特征，节点布局特征以及节点上下文特征；

步骤(4)、构造事件概要图的匹配相似度测度，包括为每一类事件细节描述特征构造相应的匹配测度，将事件概要图的匹配测度表达为上述各类匹配测度的线性组合，并采用相关度反馈方法学习线性权重系数；

步骤(5)、作为基于本发明所提供的事件概要图构造和匹配方法的应用，定义视频事件细节检索步骤为：

步骤(5.1)、用户使用事件画板绘制事件细节，或者使用标注工具标注一段视频中感兴趣的事件细节，作为检索输入；

步骤(5.1)的事件画板通过重复下述步骤：添加视频对象、指定关键帧、编辑对象轨迹以及指定动作类型，完成事件细节在时间和空间上的编辑；

步骤(5.2)、对用户输入的事件细节和库中存储的视频事件细节，分别建立事件概要图；

步骤(5.3)、在数据驱动的马尔科夫链蒙特卡洛(Data-Driven Markov Chain MonteCarlo)框架下计算用户输入的事件细节与库中存储的所有视频事件细节的事件概要图匹配距离，并根据距离大小给出检索结果；

步骤(5.3)的事件概要图的匹配方法是寻找两个图模型之间的最佳节点匹配集合，该集合由初始匹配逐步生长得到，其步骤为：首先从输入事件细节的描述模型中找到动作活跃度较高的节点，计算该节点与库中视频的事件概要图的所有节点的距离，建立该节点与距离较小的节点的匹配关系作为初始匹配，加入匹配集合；然后从所有不在匹配集合的匹配关系中，以一定概率优先选择能够使动作活跃度和角色约束关系数量的增加值较大的匹配关系加入匹配集合，并计算此时两个模型的匹配距离，若相比加入之前的距离减小，则以一定概率接受该新加入的匹配关系，否则从匹配集合中删除该匹配关系，维持原匹配集合不变；重复选择新的匹配关系多次，直到某个模型的所有节点均和另一模型中的全部或者部分节点建立匹配关系，或者达到最大迭代次数后终止。

2.根据权利要求1所述的一种基于细节描述的视频事件概要图构造和匹配方法，其特征在于：步骤(2)的事件概要图的构造主要包括以下步骤：

步骤(2.1)、定义事件概要图的节点为视频中的动作，具有执行者标识、动作类型、动作方向，动作发生时间区间以及空间轨迹属性；

步骤(2.2)、定义事件概要图节点之间的角色约束关系，当两个节点的动作执行者标识相同时，则存在一条连接该两个节点的边，代表角色约束关系；

步骤(2.3)、定义事件概要图节点之间的上下文关系，每个节点同它在空间上相邻的节点之间存在上下文关系，描述一个节点周围节点的空间位置分布以及活跃度分布。

3.根据权利要求2所述的一种基于细节描述的视频事件概要图构造和匹配方法，其特征在于：步骤(2.3)的节点的活跃度指人的视觉对该节点所代表的动作类型的敏感程度，根据预定义的动作活跃度表得到，动作活跃度表的定义基于两个假设：(1)瞬时动作比连续性动作的活跃度大；(2)在特定领域中，某些动作的活跃度比其他动作大。

4.根据权利要求1所述的一种基于细节描述的视频事件概要图构造和匹配方法，其特征在于：步骤(4)的权重参数学习方法基于相关度反馈方法，其学习过程为：将视频数据集分为训练集和测试集，对于某一个检索事件细节，由用户标注该检索输入是否与训练集合测试集的每一个视频事件相关，然后遍历所有可能的权重参数组合，通过该参数组合下检索输入与训练集视频事件的相似度得分构建分类器，并采用该分类器对测试集进行相关度分类，将分类结果与用户所标注的相关度进行比较，得出该参数组合的分类精度，分类精度最高的参数组合被选择作为最佳的匹配测度参数。