CN101763439A

CN101763439A - 一种基于草图的超视频构建方法

Info

Publication number: CN101763439A
Application number: CN 201010119438
Authority: CN
Inventors: 滕东兴; 马翠霞; 杨海燕; 陈佳; 王宏安; 戴国忠
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2010-03-05
Filing date: 2010-03-05
Publication date: 2010-06-30
Anticipated expiration: 2030-03-05
Also published as: CN101763439B

Abstract

本发明公开了一种基于草图的超视频构建方法，属于计算机应用技术领域。本发明的方法为：1)创建各目标视频的情景草图，建立草图与目标视频的隐性语义关联关系；2)根据创建的情景草图搜索目标视频资源，向各目标视频资源中分别添加注释草图，建立不同视频资源之间的显性语义关联关系；3)设置注释草图的行为属性，建立当前草图所表征的目标视频与其它目标视频资源之间的关联关系，得到目标视频资源的超视频。与现有技术相比，本发明所构建的超视频符合人的认知习惯，能够很好的表现视频间的复杂语义关系，同时打破了传统的单一线性被动浏览方式。

Description

一种基于草图的超视频构建方法

技术领域

本发明属于计算机应用技术领域，具体涉及一种基于草图的超视频构建方法。

背景技术

随着数码设备的普及和互联网技术的发展，视频资源数量呈海量式增长。人们不再满足于传统单一的线性视频的利用方式，此外对检索视频信息、快速获得视频主要内容以及高效的浏览视频也提出了更高的要求。研究者们开始研究在传统视频中融入各种交互技术以满足人们的这种需求。其中，超视频就是一种在视频流中嵌入超链接的非线性结构视频，它使得用户可以根据视频内容的语义相关性在多个视频之间跳转，实现基于内容的视频浏览(参考文献：Hammoud RI.Introduction to Interactive Video[N].Berlin Heidelberg：Springer，2006.3-25)。与传统视频相比较，超视频为浏览者提供了更丰富的交互方式，使视频间的非线性浏览成为可能。

事实上，组织与构造具有交互特性的超视频难度很大。首先，由于视频自身结构的特点，当前视频的操作方式主要采用基于时间轴、或基于帧的交互方式。然而，时间轴与视频内容的分离性造成用户在交互时手脑不一致，无法基于视频内容快速定位；帧记录了视频某一时刻的静态图像，不能描述一段时间内的动态的信息，用户在编辑时将注意力集中于视频的某一时刻的细节上，无法了解前后的相关内容。其次，视频是一种动态的信息流，是由一系列离散的帧图像按时间顺序线性组成。由于视频信息结构的这种特性，使得人们很难快速的获得视频的主要内容，也就无法从大量的视频资源中高效地搜索到目标视频。这对用户编辑与构造媒体视频带来了一定的认知负担。

此外，目前已有的超视频构建方式大部分仍然是基于时间轴或帧图像的编辑方式，交互过程缺乏对视频内容及相关语义上下文的有效支持，视频编辑过程中的交互方式仍很繁琐。

发明内容

本发明的目的在于提供一种基于草图的超视频构建方法，从而解决当前超视频构造过程中存在的依赖技术难度大、交互复杂等问题，实现超视频的自然、高效的构建与浏览。本发明提供了一种基于草图的超视频构建方法，并据此实现了基于草图的超视频编辑器和基于草图的超视频浏览器两个子系统。

为实现上述目的，本发明采用如下的技术方案：

一种基于草图的超视频构建方法，其步骤为：

1)创建各目标视频的情景草图，建立草图与目标视频的隐性语义关联关系；

2)根据创建的情景草图搜索目标视频资源，向各目标视频资源中分别添加注释草图，建立不同视频资源之间的显性语义关联关系；

3)设置注释草图的行为属性，建立当前草图所表征的目标视频与其它目标视频资源之间的关联关系，得到目标视频资源的超视频；

其中，所述隐性语义关联关系或所述显性语义关联关系采用关系映射图SemanticMap＝<V，E>描述，其中V为顶点v的集合，顶点v代表一段视频，其包括若干语义段SemanticClip，顶点v及语义段SemanticClip记录对应的视频信息和该段视频所对应的草图信息；E为边e的集合，边e记录了从视频vi到vj、或同一视频内从语义段SemanticClipi到SemanticClipj、或视频vi与其它视频的语义段SemanticClipj之间的语义关联关系；所述草图包括情景草图和注释草图。

进一步的，所述边e＝<Vi，Vj，T>|<SemanticClipi，SemanticClipj，T>|<SemanticClipi，Vj，T>；其中，T记录了连接边e的两端点之间的迁移条件。

进一步的，所述T＝<Sketch，Trigger，Action>，即边e的起始点所附属的草图Sketch接收触发条件Trigger后，从当前状态节点迁移至新状态节点，Action为草图所能响应的行为类型。

进一步的，所述行为属性定义为Behavior＝(Trigger，Action，AppendedInfo)，其中Trigger为动作的触发条件，Action为草图所能响应的行为类型，AppendedInfo为行为的附属信息。

进一步的，所述草图的数据格式为：

<Sketch>::＝{<SemanticCluster>}[Constraints]

<SemanticCluster>::＝{<StrokeGroup>}[Constraints]<Behavior>

<Constraints>::＝[GeometryConstraints][DomainConstraints][ContextConstraints]

其中，草图Sketch由若干草图簇SemanticCluster及草图簇间的约束Constraints构成，SemanticCluster由若干嵌套的笔划组StrokeGroup及笔划间的约束Constraints构成，GeometryConstraints为几何约束、DomainConstraints为领域知识约束、ContextConstraint为交互上下文约束，Stroke为草图的基本组成元素笔迹，笔迹是指笔尖从落下到抬起的一段完整的笔划，Points为采样点的集合、DownTime为笔尖落下的时刻、UpTime为笔尖抬起的时刻、Velocity为笔尖的运动速度、Inflexion记录了笔迹的弯曲程度、Direction记录了笔尖的运动方向，Point为笔迹的基本组成元素采样点、FramePosition为采样点所对应的视频相关时间、空间信息。

进一步的，所述创建各目标视频的情景草图，建立草图与目标视频的隐性语义关联关系的方法为：

1)对用户实时绘制的草图笔迹进行成组聚簇；

2)将经过实时聚簇后得到的草图簇与保存在视频资源库中的历史草图逐一比较，以检索到包含该草图簇的视频资源；

3)将后续新输入的草图笔迹聚簇成草图簇后对上一步得到的检索结果继续进行匹配检索，如此反复，最终完成情节草图的构建，实现草图与视频隐性语义关系的建立。

进一步的，所述将经过实时聚簇后得到的草图簇与保存在视频资源库中的历史草图逐一比较的方法为：

1)计算两待比较草图的颜色特征，所述颜色特征包括颜色平均值和颜色分布特征；

2)计算各颜色属性的采样点总数在草图总采样点数中所占比例，将小于预定义比例阈值的颜色项从该颜色分布特征向量中去除；

3)若待比较草图的颜色分布特征的维度不相同，则先对齐两个草图的颜色分布特征的维度；颜色分布特征维度满足条件后，进行颜色相似性度量，得到两草图的颜色相似度距离；

4)对颜色相似度距离进行归一化处理后，选取草图的形状特征和空间结构特征；

5)将满足形状特征、空间结构特征和颜色特征的相似度度量标准的草图作为候选结果。

进一步的，所述向各目标视频资源中分别添加注释草图的方法为：

1)从视频流中抽取符合拼接条件的视频帧图像拼接成一全景图，作为构建注释草图的静态背景和容器；

2)将注释草图笔迹的采样点在全景图中的空间坐标位置变换至视频的帧图像空间，得到采样点在原始视频中的时空坐标，建立草图与视频的映射关系；

3)跟踪并提取注释草图所关联的视频前景对象的运动轨迹，并据此确定该注释草图运动路径。

进一步的，所述全景图的构建方法为：

1)利用SIFT算法从视频帧图像中提取特征点；

2)根据视频帧内容动态确定抽取视频帧的时间间隔，对视频帧进行抽取；所述时间间隔θ＝INT(N/Delt)，N为连续帧个数，Delt为帧图像间的特征点平均偏移量；

3)通过对抽取的视频帧间的特征点进行匹配，获取邻近帧之间的位置对应关系，从而将多个帧图像映射到同一图像空间，完成视频全景图的拼接。

进一步的，所述跟踪并提取注释草图所关联的视频前景对象的运动轨迹，并据此确定该注释草图运动路径的方法为：

1)逐一计算注释草图覆盖区域的SIFT特征点与邻近帧图像上的SIFT特征点的欧式距离，得到所有连续帧上的匹配特征点；

2)根据特征点的邻域采样点的梯度方向分布特征指定各特征点的方向，选择特征点的邻域采样点的梯度的模值最大的梯度方向作为关键特征点的方向；

3)通过邻近帧图像上的特征点的时空坐标插值得到前景对象的运动轨迹，从而确定相应注释草图的运动轨迹。

本发明的主要内容如下：

(1)本发明采用草图作为信息的主要描述载体。草图是一种形象化信息，具有较高的抽象性和模糊性，能够较好的表达和描述用户的模糊意图，特别适宜用于概念设计阶段。本发明利用草图描述用户的设计意图与交互命令，构建基于草图形式的场景图及抽象的语义关系映射图以描述视频资源的主要内容以及它们相互之间的语义关系，包括不同视频之间以及同一视频内部不同场景之间的关联关系。场景图和语义关系映射图从不同侧面描述了超视频的组织构成，彼此对应一致。用户能够通过与草图的交互间接实现对视频的操纵和控制，从而增强了视频的交互性。

(2)本发明通过分析视频基本语义及其相互关系，定义了语义关系映射图SemanticGraph，并据此给出了用于描述不同层次的视频语义及关系描述的草图的定义。

(2.1)视频根据情节可分割为若干相对独立的语义段。这些视频片段在物理结构上是线性排列的，但在语义上可能是相互交错关联的。此外，不同的视频在物理上是分散、独立的，但在语义上也可能存在关联关系。视频资源之间的关联关系划分为并列关系和递进关系，其中，并列关系是指两个或多个视频资源在内容上陈述相关的情节，它们之间没有明显的先后次序之分；递进关系指两个或多个视频资源在内容上存在递进关系，具有有较为明显的先后之分。

视频内与视频间的这种相互交错的语义关联关系可以用语义关系映射图描述。定义视频语义关系映射图SemanticMap＝<V，E>，其中V为顶点集合。顶点v由视频及相应的草图信息组成。其中，视频段可进一步分割为若干相对独立的语义段SemanticClip，语义段SemanticClip除记录了对应的视频信息外，还包括该段视频所对应的草图信息，即：

v＝{Set<SemanticClip>，Set<Sketch>}；

SemanticClip＝{VideoClipi，Set<Sketch>，0＜i＜n}；

Set<Sketch>是一组草图信息的集合；设顶点v所包含的视频可划分为n段视频段VideoClip，每一个SemanticClip包含其中某段视频段VideoClipi及该VideoClip所对应的草图信息的集合。

E为边e的集合，e＝<Vi，Vj，T>|<SemanticClipi，SemanticClipj，T>|<SemanticClipi，Vj，T>。边e记录了从视频vi到vj、同一视频内从语义段SemanticClipi到SemanticClipj或视频vi与其它视频的语义段SemanticClipj之间的语义关联关系。T记录了连接边e的两端点之间的迁移条件，T＝<Sketch，Trigger，Action>，即边e的起始点所附属的草图Sketch接收触发条件Trigger后，产生相应的动作响应Action，从当前状态节点迁移至新状态节点。

(2.2)与传统草图基本定义不同，本发明的草图不仅具有表征视频语义的描述能力，同时也具有一定的行为响应能力，包括形状属性和行为属性两部分。行为属性描述了草图接收外界刺激后的反馈机制，包含命令触发条件和响应动作类型。草图定义为：

<Sketch>::＝{<SemanticCluster>}[Constraints]

<SemanticCluster>::＝{<StrokeGroup>}[Constraints]<Behavior>

<Constraints>::＝[GeometryConstraints][DomainConstraints][ContextConstraints]

Sketch由若干具有相对完整语义的草图簇SemanticCluster及草图簇间的约束Constraints构成。其中，SemanticCluster由若干嵌套的笔划组StrokeGroup及笔划间的约束Constraints构成。Constraints描述了与草图相关的各种约束信息，包括几何约束、领域知识约束以及交互上下文约束等。Stroke为草图的基本组成元素笔迹，笔迹是指笔尖从落下到抬起的一段完整的笔划，Points为采样点的集合、DownTime为笔尖落下的时刻、UpTime为笔尖抬起的时刻、Velocity为笔尖的运动速度、Inflexion记录了笔迹的弯曲程度、Direction记录了笔尖的运动方向，Point为笔迹的基本组成元素采样点、FramePosition为采样点所对应的视频相关时间、空间信息。由于草图与视频具有对应关系，因此笔迹的采样点Point还可以记录草图与视频流的映射关系。草图的行为属性定义为Behavior＝(Trigger，Action，AppendedInfo)。Trigger定义了动作的触发条件，Action为草图所能响应的行为类型，AppendedInfo记录了行为的附属信息，如运动的路径等。

(2.3)通过构建情景草图和注释草图两类信息建立视频语义间各种关系的描述。注释草图是添加在视频内部的补充性说明信息，用于补充或说明视频对象附属信息或用户批注。注释草图在视频浏览过程中作为显性标注呈现，并响应用户交互需求，通过其行为属性能够建立多个视频资源之间的递进关系。情景草图能够描述一段视频完整情节语义，是构建在视频外部的草图，它依据用户对视频内容认知理解，通过草图自身的场景描述能力将在物理上分散的不同视频依据用户意图按照某种规则组织起来，建立了不同视频资源之间的隐性的语义并列关系。

(3)基于草图的超视频构造过程大致可分为三个阶段：搜索目标视频、组织与编辑视频资源以及预览，如图1所示。搜索目标视频时，用户手工绘制情景草图，系统通过匹配手绘的情景草图与历史草图的相似程度从视频资源库中检索目标视频，并实时向用户动态推荐草图结果，辅助情景草图绘制。此过程建立了草图与视频之间隐含的关联关系。编辑视频时，用户在视频中添加注释草图，并利用注释草图建立不同视频或不同语义段之间的显性关联关系。

(3.1)构建情景草图

用户在构建的过程中通过从资源库中直接拖拽的方式选择目标视频资源，或利用手绘情景草图的方式搜索目标视频以构建情景草图。资源库中记录了视频资源、各类历史草图及各自属性和约束关系。其中，历史草图包括用户先前在视频中所标注的各类草图标签、草图形式视频摘要等。用户凭借对视频内容的认知和记忆程度绘制草图，系统通过比较当前手绘草图与资源库中的历史草图的相似程度，搜索目标视频，从而建立视频资源与当前手绘草图的隐性关联关系。本发明的通过手绘草图的方式检索目标视频，实现情景草图与目标视频的映射关系的构建的方法为：

a)笔迹聚簇

匹配过程中首先要对用户实时绘制的草图笔迹进行成组聚簇。利用文献(参考文献：Leung HWH.Representations，feature extraction，matching and relevance feedback for sketchretrieval[D].Pittsburgh：Carnegie Mellon University，2003)所述算法，将输入的笔迹经过等距重采样、分割与合并等预处理，所有笔迹被识别为三类基本图元：线段、圆和多边形。用户在绘制草图时，经常反复描绘用于强调或说明某种意图，或在已有笔迹后补笔。这种重描、补笔等典型的草图效果也将作为一个整体加以识别与处理。

为了尽可能不中断用户的连续输入过程，系统在用户绘制过程中主动利用笔迹的空间位置信息将连续输入的草图聚合成组。当输入新笔划后，系统计算新输入笔迹S₁与历史笔迹组O_i的空间的邻近关系。新输入笔迹与历史笔迹组的空间距离定义为S₁与O_i中包含的所有笔迹的距离的最小值，即：

Dist(S₁，O_i)＝Min{f(S₁，S_j)}，S_j∈O_i

其中f(S₁，S_j)＝d_x+βd_y。依次计算S₁与所有历史笔迹组的空间距离，选出距离最小者，判断该距离是否小于阈值。若是则认定S₁与该笔迹组邻近，将其归入其中。同理，更新后的笔迹组进一步通过距离测试判断它所归属的草图簇。

b)语义对象匹配

经过实时聚簇后得到的草图簇与保存在资源库中的历史草图逐一比较，以检索到包含该草图簇所描述的相对独立对象的视频资源。由于基于草图的视频检索的最终目标对象是草图所描述的视频，因此颜色作为对象的一个重要属性可有效的辅助结果筛选，提高视频检索效率。定义草图的颜色特征描述符由草图的颜色平均值F_color和颜色分布特征C描述。

Descriptor_color＝{F_color，C}；

{\overset{&OverBar;}{F}}_{color} = \frac{1}{n} Σ_{i = 1}^{n} F (i);

C＝{α₁F₁，α₂F₂，…α_mF_m}；α_i＝count(F_i)/T；

颜色分布特征C记录了当前草图几种主要构成颜色的分布情况。其中，F_i是颜色值，α是具有该颜色属性的采样点总数在草图总采样点数中所占比例，T是当前草图总采样点数。对于α小于预定义阈值的颜色项，将其视为噪声从该颜色分布特征向量中去除，保留的颜色特征能够反应该草图主要构成颜色。

若待比较草图的颜色分布特征的维度不相同，则先要对齐两个特征的维度。假设

k＞m。将C^A和C^B按照颜色分布比例系数α进行降序排列。如果

即认为待比较草图在颜色分布上不具有相似性，否则舍弃C^B后(k-m)项，更新C^B为包含前m项的颜色分布特征向量。颜色分布特征维度满足条件后，进行颜色相似性度量。令ΔF和ΔC代表待比较草图颜色特征差异程度。

ΔF = | {\overset{&OverBar;}{F}}_{color}^{A} - {\overset{&OverBar;}{F}}_{color}^{B} |

ΔC = \sqrt{Σ_{i = 1}^{m} Min (| | c_{i}^{A} - c_{j}^{B} | |)}

则两幅草图之间的颜色特征距离可以通过如下公式计算：

其中，

为对应颜色特征距离的权重系数，初始各自设置为0.5，根据草图样本实际训练中进行调整。

对颜色相似度距离进行归一化处理后，依据文献(参考文献：Leung HWH.Representations，feature extraction，matching and relevance feedback for sketch retrieval[D].Pittsburgh：Carnegie Mellon University，2003)所阐述方法，选取草图的形状特征和空间结构特征。其中，草图的形状特征由组成各笔迹的基本图元的基本几何特征描述，包括起点到终点的距离、笔迹覆盖面积与凸包面积之比、周长比等。空间关系特征由草图构成元素笔迹间的位移向量描述。利用待比较草图各自构成笔迹元素的形状特征距离和空间关系特征距离的联合S_{shape+spatial}来度量待比较草图在形状和空间关系特征方面的相似程度。

S_{shape + spatial} ({Sketch}^{A}, {Sketch}^{B}) = Σ_{p = 1}^{n - 1} Σ_{q = p + 1}^{n} S_{spatial} (R_{pq}^{A}, R_{pq}^{B}) [S_{shape} ({stroke}_{p}^{A}, {stroke}_{p}^{B}) + S_{shape} ({stroke}_{q}^{A}, {stroke}_{q}^{B})]

依据如下公式计算全局匹配程度：

S＝w_{shape+spatial}×S_{shape+spatial}+w_color×S_color

其中，w为对应距离的权重系数，由于形状及空间关系特征相比较于颜色特征对草图对象具有更强的描述能力和区分度，因此在全局匹配中，形状和空间关系特征占据较大的权重比例，初始分别设置为0.8和0.2，进而根据草图实际样本在训练中进行调整。最终，满足形状、空间结构和颜色特征的相似度度量标准的草图对象作为候选结果，并按其相似程度按序排列至候选队列中。

c)场景匹配

由于情景草图描述了一幅相对完整场景，在对象匹配的基础上，可进一步将新输入的草图簇与已完成输入的草图簇共同作为新的匹配条件，依据它们所表征的语义对象的组成和空间关系特征进行更高一级的场景匹配。鉴于手绘草图具有较大的用户差异性，不同用户对相同视频的理解程度和绘制习惯有所不同，为减轻用户的交互负担，系统实时根据当前输入草图特征为用户提供智能推荐。在实际输入过程中，从资源库中经过不同层次匹配后的历史草图按其与手绘草图的相似程度排列，通过智能推荐的方式呈现予用户。智能推荐一方面可快速向用户提供候选结果，减少用户的绘制过程；另一方面，推荐的历史草图可作为一种标准，供用户绘制时参考，以减轻用户构建情景草图时的认知负担。

如此反复，最终完成情节草图的构建，实现草图与视频隐性语义关系的建立。

(3.2)构建注释草图

注释草图一般作为视频内容的增强或补充构建于视频中，它建立了不同视频资源之间的显性的语义关联关系，同时通过在注释草图中设置注释草图的行为属性信息，建立当前草图所表征的视频与其它视频资源之间的关联关系。添加在帧上的注释草图与视频内容的有机融合是构建注释草图的关键问题之一。一般的在视频里添加注释多采用基于帧的直接编辑方式，通过操纵时间轴确定对象生存周期。这种基于时间轴间接控制对象的方式脱离了视频内容，不符合人对信息的感知习惯，且新添注释通常是静态的，难以随视频内容动态变化。本文考虑基于文献(参考文献：Szelisk R.Image alignment and stitching：autorial[J].Foundations and Trendsin Computer Graphics and Vision，2006，2(1)：1-104)中所述全景图构建方法，借助视频流的连续特性，抽取符合拼接条件的视频帧图像拼接成一幅完整的全景图，作为注释草图构建的静态背景和容器。这种基于视频全景图的方式能够为用户提供丰富的视频语义上下文，辅助注释草图与视频有机融合。相对于通常静止的背景，我们将运动的对象视为前景对象。作用在静态背景上的注释草图需要与镜头运动保持一致性；作用在动态的前景对象上的注释草图通常需要与前景对象保持一致的运动轨迹。因此，注释草图与视频前景和背景的融合采用不同方法：作用在静态背景上的注释草图利用视频信息的连续性特征，通过构建视频全景图实现注释草图与各帧图像之间的映射，达到融合的目的；添加在视频前景对象上的注释草图通过预先提取前景对象的运动轨迹定义草图对象的运动路径，实现二者的融合。

a)全景图构建

同一镜头下的前后相邻的帧的内容变化通常比较微小，为减少图像拼接的计算复杂度，采取抽帧方式选取待拼接的视频帧。帧抽取的间隔不宜过小，否则会引起冗余的计算，但过稀疏的抽取也会导致草图映射至原始视频空间中位置坐标准确度损失。因此，在此根据视频帧内容动态确定抽取的时间间隔阈值。待拼接图像的重叠区域需达到一定面积才能保证全景图的拼接质量，采用不同的全景图拼接算法对重叠区域面积的要求有所不同。在此，我们以匹配的特征点数目占所有的特征点数目的比值(默认为1/3)作为度量图像重叠程度的标准。

首先，利用SIFT(全称Scale Invariant Feature Transform)特征匹配算法(参考文献：DavidG.Lowe，″Distinctive image features from scale-invariant keypoints，″International Journal ofComputer Vision，60，2(2004)，pp.91-110.)从视频帧图像中提取特征点。将不同尺度的高斯差分核与图像卷积生成帧图像的高斯差分尺度空间。对于每一个采样点，比较其与相邻8个点和上下相邻两个尺度的18个点，确定尺度空间极值，从而得到帧图像的特征点。

其次，确定帧抽取时间间隔。对于N个连续帧，帧图像间的特征点平均偏移量为Delt，帧抽取时间间隔θ与帧的总数成正比，与特征点平均偏移量成反比，记为：

θ＝INT(N/Delt)

最后，通过抽取的视频帧间的特征点匹配，获取邻近帧之间的位置对应关系，从而将多个帧图像映射到同一图像空间，完成视频全景图的拼接。

b)草图与背景融合

以采样点为基本计算单位。笔迹中的每一个采样点在全景图空间中具有唯一确定的空间坐标，利用3×3的变换矩阵H将采样点在全景图中的空间坐标位置变换至视频的帧图像空间，即可得其在原始视频中时空坐标，建立草图与视频的映射关系，如公式(1)所描述。其中，矩阵H为拼接视频全景图时所得到的变换矩阵的逆向矩阵，W为比例系数，(x，y)是草图在视频全景图中的坐标信息，(x′，y′)是对应草图在视频的帧图像上的位置。图4说明了原始帧与注释后的帧对比情况。

(\begin{matrix} {wx}^{'} \\ {wy}^{'} \\ w \end{matrix}) = (\begin{matrix} a & b & c \\ d & e & f \\ h & i & 1 \end{matrix}) * (\begin{matrix} x \\ y \\ 1 \end{matrix}) - - - (1)

c)草图与前景对象融合

草图与视频前景融合时，需要根据帧图像的SIFT特征点跟踪并提取注释草图所关联的视频前景对象的运动轨迹，并据此确定该注释草图运动路径，使二者保持基本一致的运动轨迹，以达到草图与前景对象融合的目的。首先逐一计算注释草图覆盖区域的SIFT特征点与邻近帧图像上的SIFT特征点的欧式距离，即可得到所有连续帧上的匹配特征点。通过特征点的邻域采样点的梯度方向分布特征指定各特征点的方向，选择特征点的领域采样点的梯度的模值

最大的梯度方向作为关键特征点的方向。

&dtri; f (x, y) = {[{(\frac{&PartialD; f}{&PartialD; x})}^{2} + {(\frac{&PartialD; f}{&PartialD; y})}^{2}]}^{\frac{1}{2}}

&dtri; f (x, y) = {[{(L (x + 1, y) - L (x - 1, y))}^{2} + {(L (x, y + 1) - L (x, y - 1))}^{2}]}^{\frac{1}{2}}

然后，通过邻近帧图像上的特征点的时空坐标插值得到前景对象的运动轨迹，从而确定相应注释草图的运动轨迹，实现草图与视频对象的融合，如图5所示。

(3.3)编辑语义关系映射图

a)同步编辑

场景图和语义关系映射图是从不同视角描述同一个超视频的两层视图，二者在编辑过程中保持同步一致，对任意一方的编辑都会引起另一个视图的变化。二层视图的同步编辑主要体现在两个方面：节点编辑、连接线编辑和子图合并。

关于节点编辑，本发明采用笔手势对任何一种视图的进行编辑，如删除节点、移动节点等。笔手势是指由数字笔的笔划作为控制命令，与超视频交互。不同的笔手势对应不同的交互含义。笔手势的识别可以采用常用的Rubine手势识别算法(参考文献：Rubine D.Specifying gestures by example.ACM SIGGRAPH Computer Graphics，1991，25(4)，329-337.)。

关于浏览路径重定义，生成的情节草图有默认的浏览次序，用户通过在全局情节草图中根据特定需求手绘草图路径实现重新定义新的浏览次序。草图路径为单向有向路径，草图节点按照草图路径经过的顺序重新排列浏览次序，未经过的草图节点则视为未包含节点，不在默认浏览次序中。

关于子图合并，对于已构建的两个不同的超视频，可以建立不同节点之间的语义关系(包括超链接、时序顺序、用户自定义语义关系等)，从而将两个不同的超视频依据某个特定的语义关系连接起来，组成一个新的超视频。合并的超视频重新调整各个节点的空间位置，生成对应的新的二层视图。

b)调整浏览速度

本发明提出一种基于连接线的视频播放速率调整方法。传统的对于质量较低或用户不关心的视频内容一般采用拖动时间条或点击按钮的方式快进或略过，这种操作方式难以根据用户需求或视频内容自由控制调节。基于连接线的视频播放速率调整方法铜锅拖拽连接不同草图节点间的连接线的控制点，改变连接曲线形状，从而达到对视频片段播放速度的控制目的，且不同区域可以设定不同的播放速率。连接草图节点的连接线被分割为若干段，每一段是独立的贝塞尔曲线，代表一个镜头。拖动前连接线初始状态如图7(a)所示，假设P₀和P₁是一段贝塞尔曲线的两个端点，C₁为曲线的控制点，直线P₀C₁、C₁P₁与曲线相切，控制曲线的形状。

B(t)＝(1-t)²P₀+2t(1-t)C₁+t²P₁

曲线初始为直线，控制点C₁的初始位置为线段的中点位置。当拖动控制点时，对应的曲线的形状发生改变，该曲线所对应的镜头的播放速度随曲线形状变化，拖动后连接线状态如图7(b)所示。播放速度与线段Q₀Q₁的长度呈反比例关系。

Q₀(t)＝(1-t)P₀+tC₁；Q₁(t)＝(1-t)C₁+tP₁

ratio = \frac{1}{{| | Q_{0} (t) - Q_{1} (t) | |}^{2}}

通过调整连接线的方式调节镜头播放速度的方式能够向用户提供一种较为直观的调节方式，且将连接线分割为若干独立的二次贝塞尔曲线可以保证镜头调整之间的独立性，调整某个镜头速度不会影响到相邻镜头的速度。

综上，和现有技术相比，本发明具有的优点和积极效果如下：

1、本发明支持用数字笔绘制草图的方式编辑超视频，采用笔手势的交互方式操纵、浏览超视频，符合概念设计初期人的认知习惯。

2、本发明将草图用于超视频的构造过程中，将物理上分散的视频资源按照一定的语义关系组织起来，能够很好的表现视频间的复杂语义关系，实现了面向高层语义的超视频构建。

3、本发明提供了多种视频媒体的浏览方式，满足了用户的多种需求，打破了传统的单一线性被动浏览方式。

附图说明

图1基于草图的超视频构造流程图；

图2草图匹配流程；

图3情景草图构建示例；

(a)检索穿红色衣服的人的视频；(b)检索正在跑步的穿红色衣服的人的视频；(c)检索在一座房子前跑步的、穿红色衣服的人的视频；

图4视频全景图及原始帧与注释后的帧对比；

(a)视频全景图；(b)第80帧对比；(c)第90帧对比

图5草图与视频运动对象；

图6示例及编辑语义关系映射图；

(a)基于草图表征语义的超视频示例一；(b)基于草图表征语义的超视频示例二；

(c)合并两个语义关系映射图

图7调整浏览速度；

(a)拖动前连接线初始状态，(b)拖动后连接线状态。

具体实施方式

为了使本技术领域的一般技术人员更好的理解本发明，以下结合附图进一步详细描述本发明所提供的超视频的构建与编辑系统，但不构成对本发明的限制。

超视频由一幅完整的情节草图构成，它又进一步可分解为若干描述相对完整个体语义的草图簇。用户在绘制过程中，系统通过匹配手绘草图与视频库中历史草图的相似程度，建立了草图与视频资源的匹配关系。用户也可以通过直接拖拽的方式选择视频资源。如图6(a)中虚线框所示草图簇为例，它实质上代表了其自身语义所描述的一段视频或视频片段。构建的情景草图作为描述全局内容的导航图将这些分散的视频资源根据用户对视频内容的理解按照一定的语义关系非线性组织在一起。

视频之间的语义关系有显式或隐式的两种描述方式。隐性的关联关系如图6(a)中链接①所示，不同的视频资源是根据用户手绘草图所表征的语义联系在一起，视频之间是无条件的顺序关系。显性的关联关系如图6(a)中语义链接②所示，用户通过在当前视频节点的视频全景图或帧图像上创建注释草图，设置注释草图的行为属性，建立当前草图所表征的视频与其它视频资源之间的关联关系。草图所表征的视频节点及它们之间的各种关系共同构成了一幅完整的基于草图表征视频语义的非线性超视频。此外，用户可以通过编辑场景图或语义关系映射图的节点或连接线，改变超视频各组成节点的浏览路径或播放速度等，实现超视频的同步编辑。浏览时，用户在情景草图的导航下根据个人的兴趣有选择性地浏览视频。我们提供三种不同尺度的交互方式以满足不同的交互需求：操作情景草图，它为用户提供多个视频资源的全局性导航，用户通过情景草图可以快速的获得各视频资源的主要内容及其之间的关系，选择不同的草图簇可以定位不同的视频；操作注释草图，视频浏览过程中，对于出现在帧图像上的具有行为响应能力的草图能够根据用户触发不同的手势命令生成不同的动作；操作注释草图缩略视图，视频中出现的草图可以缩略标签的可视方式围绕在节点周围，为用户快速定位视频内容提供了另一种途径。

以上对本发明所述的生成多媒体概念图的方法进行了详细的说明，但显然本发明的具体实现形式并不局限于此。对于本技术领域的一般技术人员来说，在不背离本发明所述方法的精神和权利要求范围的情况下对它进行的各种显而易见的改变都在本发明的保护范围之内。

Claims

1.一种基于草图的超视频构建方法，其步骤为：

2.如权利要求1所述的方法，其特征在于所述边e＝<Vi，Vj，T>|<SemanticClipi，SemanticClipj，T>|<SemanticClipi，Vj，T>；其中，T记录了连接边e的两端点之间的迁移条件。

3.如权利要求2所述的方法，其特征在于所述T＝<Sketch，Trigger，Action>，即边e的起始点所附属的草图Sketch接收触发条件Trigger后，从当前状态节点迁移至新状态节点，Action为草图所能响应的行为类型。

4.如权利要求1所述的方法，其特征在于所述行为属性定义为Behavior＝(Trigger，Action，AppendedInfo)，其中Trigger为动作的触发条件，Action为草图所能响应的行为类型，AppendedInfo为行为的附属信息。

5.如权利要求4所述的方法，其特征在于所述草图的数据格式为：

<Sketch>::＝{<SemanticCluster>}[Constraints]

<SemanticCluster>::＝{<StrokeGroup>}[Constraints]<Behavior>

<Constraints>::＝[GeometryConstraints][DomainConstraints][ContextConstraints]

6.如权利要求1或5所述的方法，其特征在于所述创建各目标视频的情景草图，建立草图与目标视频的隐性语义关联关系的方法为：

1)对用户实时绘制的草图笔迹进行成组聚簇；

7.如权利要求6所述的方法，其特征在于所述将经过实时聚簇后得到的草图簇与保存在视频资源库中的历史草图逐一比较的方法为：

8.如权利要求1或5所述的方法，其特征在于所述向各目标视频资源中分别添加注释草图的方法为：

9.如权利要求8所述的方法，其特征在于所述全景图的构建方法为：

1)利用SIFT算法从视频帧图像中提取特征点；

10.如权利要求9所述的方法，其特征在于所述跟踪并提取注释草图所关联的视频前景对象的运动轨迹，并据此确定该注释草图运动路径的方法为：