CN103929669B

CN103929669B - 可交互视频生成器、播放器及其生成方法、播放方法

Info

Publication number: CN103929669B
Application number: CN201410181707.7A
Authority: CN
Inventors: 柳寅秋
Original assignee: Chengdu Idealsee Technology Co Ltd
Current assignee: Chengdu Idealsee Technology Co Ltd
Priority date: 2014-04-30
Filing date: 2014-04-30
Publication date: 2018-01-05
Anticipated expiration: 2034-04-30
Also published as: CN103929669A

Abstract

本发明公开了一种可交互视频生成方法、可交互视频生成器及生成系统，利用图像检索技术和增强现实技术使普通视频自动添加上可交互元素，相应的，本发明还公开了对应的可交互视频播放方法及播放器，本发明技术方案能让普通视频转变为可交互视频，使用户和视频的关系从被动发展到主动，从而充分实现每个人的个性化需求，提高用户体验；另外本发明可交互视频的生成过程中，图像特征检测和配准为离线操作，兼顾了系统的实时性和准确性，使得这类可交互视频在PC上和移动终端上均可流畅播放。

Description

可交互视频生成器、播放器及其生成方法、播放方法

技术领域

本发明涉及多媒体技术，尤其涉及一种可交互视频生成方法、可交互视频生成器、生成系统及对应的可交互视频播放方法及播放器。

背景技术

随着计算机通信技术、互联网技术以及多媒体技术的发展，视频得到了越来越广泛的应用，不管是通过离线下载方式，还是通过在线视频网站，亦或是SNS社交平台上，视频无处不在，用户几乎可以选择在任意时段，通过客户端建立与视频播放服务器的网络连接，查看视频播放服务器提供的各类视频，例如，电影、电视剧，选取自己喜好的视频，点击进行播放、观看。

然而现有视频观看方式基本不具备交互功能，用户在观看视频的过程中，只能被动的接收视频播放信息，不能够充分的参与到视频应用中，用户的个性化需求难以得到满足。

发明内容

本发明的目的是提供一可交互视频生成方法、可交互视频生成器、可交互视频生成系统及对应的可交互视频播放方法及播放器，解决现有视频缺乏交互性的缺陷，可让用户在观看视频的过程中，随时参与到视频应用中，体验前所未有的视频交互方式，例如当用户观看某视频时，看上了某角色提的包包，可点击包包进入该包的介绍及购买链接等。

为了实现上述发明目的，本发明提供了一种可交互视频生成方法，包括：

对原视频数据进行解码，逐帧获取视频帧图像；

逐帧对视频帧图像进行特征点提取，生成特征描述数据；

根据每一视频帧图像的特征描述数据，在服务器端的图像数据库中进行搜索，获取与该视频帧图像某区域匹配的样本图像及相关可交互元素；

将匹配成功的视频帧图像与样本图像进行配准，计算单应性矩阵；

将配准成功的视频帧图像设定为关键帧，并将每一关键帧与其对应的可交互元素及单应性矩阵绑定，形成关键帧数据；

所有视频帧图像处理完毕后，将原视频数据与各关键帧数据融合封装，形成可交互视频。

优选的，所述逐帧对视频帧图像进行特征点提取，生成特征描述数据步骤，具体为如下三种方式之一：A：对每一视频帧图像的全图进行特征点提取，生成特征描述数据；B：检测每一视频帧图像中是否包含预先选定的子图像区域，若是，则对该子图像区域进行特征点提取，生成特征描述数据；C：对每一视频帧图像进行前景分割，对前景区域进行特征点提取，生成特征描述数据。

优选的，所述可交互视频生成方法还包括匹配图像跟踪，即当某一视频帧图像配准成功后，在下一视频帧图像中跟踪配准成功的图像特征点，由跟踪算法得到下一帧视频帧图像对应的单应性矩阵；当跟踪丢失时，再对当前帧视频帧图像进行特征点检测与图像配准。

其中，所述可交互元素包括视频、图像、音频、网页、文本、3D模型、URI地址中的一种或多种。

相应的，本发明还提供了一种可交互视频生成器，包括视频解码模块、图像特征提取模块、图像搜索模块、图像配准模块和数据融合模块，其中：

所述视频解码模块，用于对原视频数据进行解码，逐帧获取视频帧图像；

所述图像特征提取模块，用于逐帧对所述视频解码模块解析出的视频帧图像进行特征点提取，生成特征描述数据，将其传递给图像搜索模块；

所述图像搜索模块，用于根据所述图像特征提取模块传递来的每一视频帧图像的特征描述数据，在服务器端的图像数据库中进行搜索，获取与该视频帧图像某区域匹配的样本图像及相关可交互元素，将匹配成功的样本图像的特征描述传递给图像配准模块，并将与该视频帧图像相关的可交互元素传递给数据融合模块；

所述图像配准模块，用于将匹配成功的视频帧图像与样本图像进行配准，计算单应性矩阵；

所述数据融合模块，用于将所述图像配准模块配准成功的视频帧图像设定为关键帧，将每一关键帧与其对应的可交互元素及单应性矩阵绑定，形成关键帧数据；并在所有视频帧图像处理完毕后，将原视频数据与各关键帧数据融合封装，形成可交互视频。

优选的，所述可交互视频生成器还包括预选图像区域检测模块，用于检测每一视频帧图像中是否包含预先选定的子图像区域；若检测到该视频帧图像中包含预先选定的子图像区域，则将该视频帧图像或该子图像区域发送到所述图像特征提取模块，由所述图像特征提取模块对该子图像区域进行特征点提取，生成特征描述数据。

优选的，所述可交互视频生成器还包括前景分割模块，用于对每一视频帧图像进行前景分割，并将该视频帧图像的前景区域发送到所述图像特征提取模块，由所述图像特征提取模块对前景区域进行特征点提取，生成特征描述数据。

优选的，所述可交互视频生成器还包括跟踪模块，所述跟踪模块用于当某一视频帧图像配准成功后，在下一视频帧图像中跟踪配准成功的图像特征点，由跟踪算法得到下一帧视频帧图像对应的单应性矩阵；当跟踪丢失时，所述跟踪模块再将当前视频帧图像交回所述图像特征提取模块，继续进行特征点检测与图像配准。

相应的，本发明还提供了一种可交互视频生成系统，包括上述可交互视频生成器和服务器端，服务器端用于存储样本图像数据及相关可交互元素。

相应的，本发明还提供了一种可交互视频播放方法，包括：解析可交互视频数据，得到原视频数据和关键帧数据；对原视频数据进行解码并播放，当播放至关键帧时，读取与关键帧绑定的可交互元素和单应性矩阵，利用单应性矩阵将可交互元素在视频图像的相应位置渲染。

优选的，所述可交互视频播放方法还包括：在视频播放过程中，监听并响应用户的交互请求，直至视频播放完毕。

相应的，本发明还提供了一种可交互视频播放器，包括数据解析模块、视频解码模块、渲染模块和交互事件响应模块，其中：

所述数据解析模块，用于解析可交互视频数据，得到原视频数据和关键帧数据；

所述视频解码模块，用于对原视频数据进行解码并播放；

所述渲染模块，用于读取关键帧数据，当视频播放至关键帧时，根据关键帧所绑定的单应性矩阵，在该帧视频图像的相应位置完成可交互元素的渲染。

优选的，所述可交互视频播放器还包括交互事件响应模块，所述交互事件响应模块，用于在视频播放过程中，监听并响应用户的交互请求，直至视频播放完毕。

与现有技术相比，本发明具有如下有益效果：

1.本发明技术方案能让普通视频转变为可交互视频，使用户和视频的关系从被动发展到主动，从而充分实现每个人的个性化需求，提高用户体验；

2.本发明可交互视频生成方法和系统，主要利用图像检索和增强现实技术，使视频的可交互元素添加自动化，减少了后期制作的工作量；

3.由于本发明可交互视频是离线生成的，使得这类可交互视频在PC上和移动终端上播放时只需要读取相关数据文件，不需要进行在线图像特征检索及匹配，可实现流畅播放。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图：

图1为本发明实施例可交互视频生成方法流程示意图一；

图2为本发明实施例可交互视频生成方法流程示意图二；

图3为本发明实施例可交互视频生成方法流程示意图三；

图4为本发明实施例可交互视频播放方法的一种流程示意图；

图5为本发明实施例可交互视频生成器结构示意图一；

图6为本发明实施例可交互视频生成器结构示意图二；

图7为本发明实施例可交互视频生成器结构示意图三；

图8为本发明实施例可交互视频播放器结构示意图一；

图9为本发明实施例可交互视频播放器结构示意图二。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，为本发明实施例可交互视频生成方法流程示意图一，本实施例可交互视频生成方法，包括如下步骤：

S101：对原视频数据进行解码，逐帧获取视频帧图像；

S102：逐帧对视频帧图像进行特征检测，提取特征点，生成特征描述数据，本步骤特征检测可采用ORB、sift等算法；

S103：图像检索，根据每一视频帧图像的特征描述数据，在服务器端的图像数据库中进行搜索，获取与该视频帧图像某区域匹配的样本图像及相关可交互元素。服务器端预先存储有样本图像及可交互元素，服务器端存储的样本图像与可交互元素可以是一对一的对应关系，也可以是多张样本图像对应一组可交互元素。所述可交互元素包括视频、图像、音频、网页、文本、3D模型、URI地址中的一种或多种，例如：如平面标签信息、图片或者释义性文本。可交互元素数据内还绑定有对应该元素的可交互事件，可交互事件可通过语音交互、点击交互、触摸交互等交互方式实现。

S104：图像配准，将匹配成功的视频帧图像与样本图像进行配准，计算单应性矩阵；本步骤中，图像配准是从匹配成功的视频帧图像的特征点集合中，筛选出匹配成功的特征点，将其与样本图像的特征点进行配准，计算单应性矩阵。

S105：判断步骤S104中图像是否配准成功，若配准成功，则进入步骤S106；

S106：将配准成功的视频帧图像设定为关键帧，并将每一关键帧与其对应的可交互元素及单应性矩阵绑定，形成关键帧数据；

S107：判断视频帧图像是否遍历结束，若是，则进入步骤S108；若否，则重复步骤S101～106；

S108：所有视频帧图像处理完毕后，将原视频数据与各关键帧数据融合封装，形成可交互视频。

在步骤S102中，逐帧对视频帧图像进行特征检测，可以为如下三种方式：

方式A：对每一视频帧图像的全图进行特征检测及特征点提取。由于可交互视频通常需要对视频帧图像内的某人或某物件进行交互，即目标图像通常是视频帧图像内的子图像，因此全图特征检测方式会对步骤S103图像检索的精度造成影响，针对方式A的不足，方式B和方式C都是不错的解决方案。

方式B：检测每一视频帧图像中是否包含预先选定的子图像区域，若是，则对该子图像区域进行特征检测及特征点提取。此方式要求可交互视频制作方需要在可交互视频生成前，预先对原视频数据进行子图像区域选取，将需要进行添加可交互元素的子图像标记出来。标记方式可根据需求而定，例如设计一个框选软件，将框选好的子图像数据记录封装到原视频数据，再将该原视频数据通过本发明实施例方法自动添加可交互元素，形成可交互视频。当步骤S102采用方式B进行图像特征检测时，本发明实施例可交互视频生成方法的流程示意图可参见图2，此方式不需要每帧都做特征检测与配准，速度有所提升；且仅对选定子图像区域进行图像检测与匹配，剔除了背景干扰，能较好提高检索精度。

方式C：对每一视频帧图像进行前景分割，对前景区域进行特征检测及特征点提取，前景分割可采用现有方法，如：BING:Binarized Normed Gradients for ObjectnessEstimation at300fps.Ming-Ming Cheng,Ziming Zhang,Wen-Yan Lin,Philip Torr,IEEECVPR,2014。方式C剔除了背景干扰，能较好提高检索精度，当步骤S102采用方式C进行图像特征检测时，本发明实施例可交互视频生成方法的流程示意图可参见图3。

优选的，上述可交互视频生成方法还可以加入匹配图像跟踪步骤，即当某一视频帧图像配准成功后，在下一视频帧图像中跟踪配准成功的图像特征点，由跟踪算法得到下一帧视频帧图像对应的单应性矩阵；当跟踪丢失时，再对当前帧视频帧图像进行特征点检测与图像配准。加入跟踪步骤之后，由于不需要每帧都做特征检测与配准，速度有所提升，且能够避免配准过程中单应性矩阵计算结果的微小偏差带来的抖动，在视觉效果上，叠加的可交互元素，如图片、3D模型等更加稳定。本处图像跟踪可采用CamShift算法、光流跟踪以及粒子滤波算法等。

本发明实施例可交互视频生成方法，主要利用图像检索和增强现实技术，使视频的可交互元素添加自动化，减少了后期制作的工作量；

按照本发明提供的可交互视频生成方法所生成的可交互视频，可以通过放置在视频服务器端，供用户离线下载观看或在线观看。但是由于这种可交互视频与现有普通视频数据相比，多了关键帧数据，普通视频播放方法不能播放这种可交互视频，因此，本发明提供了相应的视频播放方法，下面介绍本发明实施例可交互视频播放方法。

本发明实施例可交互视频播放方法包括两种：一种是播放过程中仅将交互元素展示出来，用户可看见交互元素，但是不能进行交互请求及响应；另一种是用户不但可以看见交互元素，还能进行交互请求及响应。

在仅展示交互元素时，可交互视频播放方法包括如下两步骤：

S201：解析可交互视频数据，得到原视频数据和关键帧数据；

S202：对原视频数据进行解码并播放，当播放至关键帧时，读取与关键帧绑定的可交互元素和单应性矩阵，利用单应性矩阵将可交互元素在视频图像的相应位置渲染。

参见图4，为可进行交互请求和响应的播放方法，图4流程概括起来主要包括如下三个步骤：

S201：解析可交互视频数据，得到原视频数据和关键帧数据；

S202：对原视频数据进行解码并播放，当播放至关键帧时，读取与关键帧绑定的可交互元素和单应性矩阵，利用单应性矩阵将可交互元素在视频图像的相应位置渲染；

S203：在视频播放过程中，监听并响应用户的交互请求，直至视频播放完毕。用户交互请求可以为：用户对可交互元素进行的点击请求、放大请求、拖拽请求等，对交互元素能进行何种交互请求，主要决定于可交互视频生成时所绑定的交互元素支持哪些交互事件。

上面介绍的是本发明可交互视频生成方法和播放方法，下面结合图5～8介绍本发明可交互视频生成器、生成系统及播放器。

参见图5，为本发明实施例可交互视频生成器结构示意图一，本实施例可交互视频生成器1，包括视频解码模块11、图像特征提取模块12、图像搜索模块13、图像配准模块14和数据融合模块15，其中：

所述视频解码模块11，用于对原视频数据进行解码，逐帧获取视频帧图像；

所述图像特征提取模块12，用于逐帧对所述视频解码模块解析出的视频帧图像进行特征点提取，生成特征描述数据，将其传递给图像搜索模块13；

所述图像搜索模块13，用于根据所述图像特征提取模块12传递来的每一视频帧图像的特征描述数据，在服务器端的图像数据库中进行搜索，获取与该视频帧图像某区域匹配的样本图像及相关可交互元素，将匹配成功的样本图像的特征描述传递给图像配准模块14，并将与该视频帧图像相关的可交互元素传递给数据融合模块15；

所述图像配准模块14，用于将匹配成功的视频帧图像与样本图像进行配准，计算单应性矩阵，并将单应性矩阵传递给数据融合模块15；

所述数据融合模块15，用于将所述图像配准模块14配准成功的视频帧图像设定为关键帧，将每一关键帧与其对应的可交互元素及单应性矩阵绑定，形成关键帧数据；并在所有视频帧图像处理完毕后，将原视频数据与各关键帧数据融合封装，形成可交互视频。

参见图6，为本发明实施例可交互视频生成器结构示意图二，图6实施例在图5的基础上，增加了预选图像区域检测模块16，所述预选图像区域检测模块16，用于检测每一视频帧图像中是否包含预先选定的子图像区域；若检测到该视频帧图像中包含预先选定的子图像区域，则将该视频帧图像或该子图像区域发送到所述图像特征提取模块12，由所述图像特征提取模块12对该子图像区域进行特征点提取，生成特征描述数据。此实施例方案要求可交互视频制作方需要在可交互视频生成前，预先对原视频数据进行子图像区域选取，将需要进行添加可交互元素的子图像标记出来。本实施例不需要每帧都做特征检测与配准，速度有所提升；且仅对选定子图像区域进行图像检测与匹配，剔除了背景干扰，能较好提高检索精度。

参见图7，为本发明实施例可交互视频生成器结构示意图三，图7实施例在图5实施例的基础上，增加了前景分割模块17，所述前景分割模块17用于对每一视频帧图像进行前景分割，并将该视频帧图像的前景区域发送到所述图像特征提取模块12，由所述图像特征提取模块12对前景区域进行特征点提取，生成特征描述数据。本实施例在图像检索时剔除了背景干扰，能较好提高检索精度。

优选的，图5～7所述可交互视频生成器还包括跟踪模块(附图未示出)，所述跟踪模块与所述图像特征提取模块、图像配准模块和数据融合模块信号连接，所述跟踪模块用于当某一视频帧图像配准成功后，在下一视频帧图像中跟踪配准成功的图像特征点，由跟踪算法得到下一帧视频帧图像对应的单应性矩阵；当跟踪丢失时，所述跟踪模块再将当前视频帧图像交回所述图像特征提取模块，继续进行特征点检测与图像配准。加入跟踪模块之后，由于不需要每帧都做特征检测与配准，速度有所提升，且能够避免配准过程中单应性矩阵计算结果的微小偏差带来的抖动，在视觉效果上，叠加的可交互元素，如图片、3D模型等更加稳定。跟踪模块内可采用CamShift算法、光流跟踪以及粒子滤波算法等对图像进行跟踪。

本发明实施例还提供了一种可交互视频生成系统，包括上述可交互视频生成器和服务器端，服务器端用于存储样本图像数据及相关可交互元素，服务端所存储的样本图像和相关可交互元素为可交互视频制作方根据需求预先制定，例如：当可交互视频制作方希望对某视频里面的某件衣服制作可交互元素时，可以提供多张该衣服各角度的图片作为样本图像；如果制作方希望为其添加购买链接，则可交互元素设置为该衣服的购买链接；如果制作方希望为其添加品牌介绍，则可交互元素设置为链接到该衣服的介绍页面，或可交互元素设置为介绍文本或介绍视频等。

采用本发明提供的可交互视频生成器所生成的可交互视频，可以通过放置在视频服务器端，供用户离线下载观看或在线观看。但是由于这种可交互视频与现有普通视频数据相比，多了关键帧数据，普通视频播放器不能播放这种可交互视频，因此，本发明提供了相应的视频播放器，下面结合图8、图9介绍本发明实施例可交互视频播放器。

参见图8，为本发明实施例可交互视频播放器2的结构示意图一，包括数据解析模块21、视频解码模块22和渲染模块23，其中：

所述数据解析模块21，用于解析可交互视频数据，得到原视频数据和关键帧数据；所述视频解码模块22，用于对原视频数据进行解码并播放；所述渲染模块23，用于读取关键帧数据，当视频播放至关键帧时，根据关键帧所绑定的单应性矩阵，在该帧视频图像的相应位置完成可交互元素的渲染，本处可交互元素的渲染的具体位置可以为视频帧图像与样本图像匹配的区域，也可以是在匹配区域的一定偏移位置处。

参见图9，为本发明实施例可交互视频播放器2的结构示意图二，图9在图8的基础上增加了交互事件响应模块24，所述交互事件响应模块24，用于在视频播放过程中，监听并响应用户的交互请求，直至视频播放完毕。

本发明主要实现可交互视频的生成及播放，应用增强现实技术自动为普通视频中添加可交互元素，使用户和视频的关系从被动发展到主动，可以极大的丰富用户在观赏视频过程中的用户体验，充分实现每个人的个性化需求。

本发明所设计的可交互视频生成器及可交互视频生产系统，部署于服务器端；而可交互视频播放器，可以部署于PC电脑端，也可以部署于移动客户端。对于可交互视频这一特定应用，流畅的用户体验至关重要。然而对于移动终端这类受限系统而言，在线的图像特征检测与配准过程需要耗费大量的计算资源，导致系统实时性大幅度降低；抑或是为了提高实时性，而简化计算过程，降低数据精度，对系统实现的效果造成影响(如叠加位置不准确、抖动)，这是目前增强现实技术在移动终端应用的最大问题。本发明针对可交互视频这一特定应用，将费时的图像特征检测与配准过程离线化，部署于服务器端执行，将训练得到的单应性矩阵等数据传递给移动终端或PC端的视频播放器，兼顾移动终端系统运行的实时性以及数据的准确性。

本说明书中公开的所有特征，或公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合。

本说明书(包括任何附加权利要求、摘要和附图)中公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换。即，除非特别叙述，每个特征只是一系列等效或类似特征中的一个例子而已。

本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合，以及披露的任一新的方法或过程的步骤或任何新的组合。

Claims

1.一种可交互视频生成方法，其特征在于，包括：

对原视频数据进行解码，逐帧获取视频帧图像；

逐帧对视频帧图像进行特征点提取，生成特征描述数据；

将配准成功的视频帧图像设定为关键帧，并将每一关键帧与其对应的可交互元素及单应性矩阵绑定，形成关键帧数据，所述可交互元素内绑定有对应元素的可交互事件；

2.如权利要求1所述的方法，其特征在于，所述逐帧对视频帧图像进行特征点提取，生成特征描述数据步骤，具体为如下三种方式之一：

A：对每一视频帧图像的全图进行特征点提取，生成特征描述数据；

B：检测每一视频帧图像中是否包含预先选定的子图像区域，若是，则对该子图像区域进行特征点提取，生成特征描述数据；

C：对每一视频帧图像进行前景分割，对前景区域进行特征点提取，生成特征描述数据。

3.如权利要求2所述的方法，其特征在于，所述方法还包括匹配图像跟踪，即当某一视频帧图像配准成功后，在下一视频帧图像中跟踪配准成功的图像特征点，由跟踪算法得到下一帧视频帧图像对应的单应性矩阵；

当跟踪丢失时，再对当前帧视频帧图像进行特征点检测与图像配准。

4.如权利要求1至3中任一项所述的方法，其特征在于，所述可交互元素包括视频、图像、音频、网页、文本、3D模型、URI地址中的一种或多种。

5.一种可交互视频生成器，其特征在于，包括视频解码模块、图像特征提取模块、图像搜索模块、图像配准模块和数据融合模块，其中：

所述数据融合模块，用于将所述图像配准模块配准成功的视频帧图像设定为关键帧，将每一关键帧与其对应的可交互元素及单应性矩阵绑定，形成关键帧数据，所述可交互元素内绑定有对应元素的可交互事件；并在所有视频帧图像处理完毕后，将原视频数据与各关键帧数据融合封装，形成可交互视频。

6.如权利要求5所述的可交互视频生成器，其特征在于，所述可交互视频生成器还包括预选图像区域检测模块，用于检测每一视频帧图像中是否包含预先选定的子图像区域；若检测到该视频帧图像中包含预先选定的子图像区域，则将该视频帧图像或该子图像区域发送到所述图像特征提取模块，由所述图像特征提取模块对该子图像区域进行特征点提取，生成特征描述数据。

7.如权利要求5所述的可交互视频生成器，其特征在于，所述可交互视频生成器还包括前景分割模块，用于对每一视频帧图像进行前景分割，并将该视频帧图像的前景区域发送到所述图像特征提取模块，由所述图像特征提取模块对前景区域进行特征点提取，生成特征描述数据。

8.如权利要求5至7中任一项所述的可交互视频生成器，其特征在于，所述可交互视频生成器还包括跟踪模块，所述跟踪模块用于当某一视频帧图像配准成功后，在下一视频帧图像中跟踪配准成功的图像特征点，由跟踪算法得到下一帧视频帧图像对应的单应性矩阵；当跟踪丢失时，所述跟踪模块再将当前视频帧图像交回所述图像特征提取模块，继续进行特征点检测与图像配准。

9.一种可交互视频生成系统，其特征在于，包括可交互视频生成器和服务器端，所述可交互视频生成器为权利要求5至8中任一项所述的可交互视频生成器；所述服务器端用于存储样本图像数据及相关可交互元素。

10.一种可交互视频播放方法，其特征在于，包括：

解析根据如权利要求1-4中任一项所述的可交互视频生成方法生成的可交互视频数据，得到原视频数据和关键帧数据；

对原视频数据进行解码并播放，当播放至关键帧时，读取与关键帧绑定的可交互元素和单应性矩阵，利用单应性矩阵将可交互元素在视频图像的相应位置渲染。

11.如权利要求10所述的可交互视频播放方法，其特征在于，所述可交互视频播放方法还包括：在视频播放过程中，监听并响应用户的交互请求，直至视频播放完毕。

12.一种可交互视频播放器，其特征在于，所述可交互视频播放器包括数据解析模块、视频解码模块、渲染模块和交互事件响应模块，其中：

所述数据解析模块，用于解析根据如权利要求5-8中任一项所述的可交互视频生成器生成的可交互视频数据，得到原视频数据和关键帧数据；

所述视频解码模块，用于对原视频数据进行解码并播放；

13.如权利要求12所述的可交互视频播放器，其特征在于，所述可交互视频播放器还包括交互事件响应模块，所述交互事件响应模块，用于在视频播放过程中，监听并响应用户的交互请求，直至视频播放完毕。