CN103929653A

CN103929653A - 增强现实视频生成器、播放器及其生成方法、播放方法

Info

Publication number: CN103929653A
Application number: CN201410180621.2A
Authority: CN
Inventors: 陈卓
Original assignee: Chengdu Idealsee Technology Co Ltd
Current assignee: Chengdu Idealsee Technology Co Ltd
Priority date: 2014-04-30
Filing date: 2014-04-30
Publication date: 2014-07-16
Anticipated expiration: 2034-04-30
Also published as: CN103929653B

Abstract

本发明公开了一种增强现实视频生成方法及系统，利用图像检索技术和增强现实技术使普通视频自动添加上增强显示数据，相应的，本发明还公开了对应的增强现实视频播放方法及播放器，本发明技术方案能让普通视频转变为增强现实视频，使用户和视频的关系从被动发展到主动，从而充分实现每个人的个性化需求，提高用户体验；另外本发明增强现实视频的生成过程中，图像特征提取和匹配为离线操作，兼顾了系统的实时性和准确性，使得这类增强现实视频在PC上和移动终端上均可流畅播放。

Description

增强现实视频生成器、播放器及其生成方法、播放方法

技术领域

本发明涉及多媒体技术，尤其涉及一种增强现实视频生成方法、增强现实视频生成系统及对应的增强现实视频播放方法及播放器。

背景技术

随着计算机通信技术、互联网技术以及多媒体技术的发展，视频得到了越来越广泛的应用，不管是通过离线下载方式，还是通过在线视频网站，亦或是SNS社交平台上，视频无处不在，用户几乎可以选择在任意时段，通过客户端建立与视频播放服务器的网络连接，查看视频播放服务器提供的各类视频，例如，电影、电视剧，选取自己喜好的视频，点击进行播放、观看。

然而现有视频观看方式基本不具备交互功能，用户在观看视频的过程中，只能被动的接收视频播放信息，不能够充分的参与到视频应用中，用户的个性化需求难以得到满足。

发明内容

本发明的目的是提供一种增强现实视频生成方法、增强现实视频生成系统及对应的增强现实视频播放方法及播放器，解决现有视频缺乏交互性的缺陷，可让用户在观看视频的过程中，随时参与到视频应用中，体验前所未有的视频交互方式，例如当用户观看某视频时，看上了某角色提的包包，可点击包包进入该包的介绍及购买链接等。

为了实现上述发明目的，本发明提供了一种增强现实视频生成方法，包括：

对原视频数据进行解码，逐帧获取视频帧图像；

逐帧对视频帧图像进行特征提取，提取出来的特征数据集包括每个特征点在图像区域内的位置信息、尺度、方向和特征描述信息；

对每一视频帧图像的特征描述数据进行分类并降维，得到每一视频帧图像各特征点对应的标签数据；

将每一视频帧图像的标签数据在图像数据库中进行匹配检索，得到当前视频帧图像中所有与数据库中样本图像匹配的目标区域及相应的样本图像索引值，并获取相应样本图像对应的增强显示数据；

将检索成功的视频帧图像的帧数、目标区域位置信息以及每一目标区域对应的增强显示数据写入增强数据文件；

所有视频帧图像处理完毕后，将原视频数据与增强数据文件融合封装，形成增强现实视频。

其中，所述图像数据库中存储有样本图像内容数据和标签数据，样本图像内容数据包括：样本图像索引值，特征点数量及每个特征点的位置信息、尺度、方向和特征描述信息；每个标签数据包括标签、该标签对应的特征点所属样本图像的索引、该标签对应的特征点的位置信息或该标签对应的特征点在样本图像内容数据中存储的序列号。

优选的，所述对每一视频帧图像的特征描述数据进行分类并降维，得到每一视频帧图像各特征点对应的标签数据，具体为：利用分类器对每一视频帧图像的特征描述信息进行分类，找出前n种最优分类结果，每种分类结果中每个类别对应一个分类索引值，n为3～15范围内的自然数；在n种分类结果中，分别结合每个特征描述信息所属分类的分类索引值，对特征描述信息进行降维处理，将降维后的结果数据作为对应特征点的标签，每个特征点对应n个标签数据；所述将每一视频帧图像的标签数据在图像数据库中进行匹配检索，具体为：将标签数据与数据库中对应分类索引中的所有标签进行遍历匹配，计算该视频帧图像与数据库中各样本图像的匹配分值；匹配分值高于设定阈值的样本图像即为与当前视频帧图像某区域匹配的样本图像。

优选的，所述方法还包括目标跟踪，即当某一视频帧图像检索成功后，从该视频帧图像特征数据集中筛选出检索成功的子图像区域中的特征数据，将其用于在后续视频帧图像中进行目标跟踪；当跟踪丢失时，再对当前帧视频帧图像进行特征检测与图像检索。

优选的，所述增强显示数据包括交互元素和\或交互事件，其中交互元素包括视频、图像、音频、网页、文本、3D模型、URI地址中的一种或多种。

相应的，本发明还提供了一种增强现实视频生成系统，包括图像数据库、视频解码模块、图像特征提取模块、特征处理模块、图像搜索模块和数据融合模块，其中：

所述视频解码模块，用于对原视频数据进行解码，逐帧获取视频帧图像；

所述图像特征提取模块，用于逐帧对视频帧图像进行特征提取，提取出来的特征数据集包括每个特征点在图像区域内的位置信息、尺度、方向和特征描述信息；

所述特征处理模块，用于对每一视频帧图像的特征描述数据进行分类并降维，得到每一视频帧图像各特征点对应的标签数据；

所述图像搜索模块，用于将每一视频帧图像的标签数据在图像数据库中进行匹配检索，得到当前视频帧图像中所有与数据库中样本图像匹配的目标区域及相应的样本图像索引值，并获取相应样本图像对应的增强显示数据；

所述数据融合模块，用于将检索成功的视频帧图像的帧数、目标区域位置信息以及每一目标区域对应的增强显示数据写入增强数据文件；在所有视频帧图像处理完毕后，将原视频数据与数据文件融合封装，形成增强现实视频。

优选的，所述增强现实视视频生成系统还包括跟踪模块，所述跟踪模块用于当某一视频帧图像检索成功后，从该视频帧图像特征数据集中筛选出检索成功的子图像区域中的特征数据，将其用于在后续视频帧图像中进行目标跟踪；当跟踪丢失时，所述跟踪模块再将当前视频帧图像交回所述图像特征提取模块，继续进行特征检测与图像检索。

优选的，所述图像数据库中分类存储着样本图像内容数据和标签数据；样本图像内容数据包括：样本图像索引值，特征点数量及每个特征点的位置信息、尺度、方向和特征描述信息；每个标签数据包括标签、该标签对应的特征点所属样本图像的索引、该标签对应的特征点的位置信息或该标签对应的特征点在样本图像内容数据中存储的序列号。

相应的，本发明还提供了一种增强现实视频播放方法，包括：

解析增强现实视频数据，得到原视频数据和增强数据文件；

对原视频数据进行解码并播放，在播放过程中读取增强数据文件，根据目标区域位置信息，在相关帧的相应目标区域渲染输出对应的增强显示数据。

优选的，所述增强现实视频播放方法还包括：在视频播放过程中，监听并响应用户的交互请求，直至视频播放完毕。

相应的，本发明还提供了一种增强现实视频播放器，所述增强现实视频播放器包括数据解析模块、视频解码模块和渲染模块，其中：

所述数据解析模块，用于解析增强现实视频数据，得到原视频数据和增强数据文件；

所述视频解码模块，用于对原视频数据进行解码并播放；

所述渲染模块，用于读取增强数据文件，根据目标区域位置信息，在相关帧的相应目标区域渲染输出对应的增强显示数据。

优选的，所述增强现实视频播放器还包括交互事件响应模块，所述交互事件响应模块，用于在视频播放过程中，监听并响应用户的交互请求，直至视频播放完毕。

与现有技术相比，本发明具有如下有益效果：

1.本发明技术方案能让普通视频转变为增强现实视频，使用户和视频的关系从被动发展到主动，从而充分实现每个人的个性化需求，提高用户体验；

2.本发明增强现实视频生成方法和系统，主要利用图像检索和增强现实技术，使视频的增强显示数据添加自动化，减少了后期制作的工作量；

3.由于本发明增强现实视频是离线生成的，使得这类增强现实视频在PC上和移动终端上播放时只需要读取相关数据文件，不需要进行在线图像特征检索，可实现流畅播放。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图：

图1为本发明实施例增强现实视频生成方法中所使用的图像数据库结构示意图；

图2为本发明实施例增强现实视频生成方法流程示意图；

图3为本发明实施例增强现实视频生成系统结构示意图；

图4为本发明实施例增强现实视频播放器结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明增强现实视频生产方法，需采用专用图像数据库，专用图像数据库结构参见图1，在该图像数据库中分类存储着样本图像内容数据和标签数据，样本图像内容数据以样本图像索引为单位顺序存储，样本图像索引可以为一个对应的数字或者图像名字，如图1中用0000001至1000000分别表示100万张样本图像的索引值，可以根据该值在图像数据库中得到对应的样本图像数据，包括样本图像原图、特征点数量，每个特征点的位置信息、尺度、方向、特征描述，及该样本图像对应的AR数据等。同样，图像数据库中，标签数据按分类索引值在各分类中以标签为单位顺序存储，如图1，假设分类数为10000，分类索引可以用00001至10000表示，每个标签对应一个分类索引，每个分类索引对应一组同类的标签集合。每个标签数据包括标签、该标签对应的特征点所属样本图像的索引、该标签对应的特征点的位置信息或该标签对应的特征点在样本图像内容数据中存储的序列号。

本发明实施例中所需要的专用图像数据库可采用如下步骤生成：

步骤1：对样本图像或经预处理后的样本图像进行特征提取，提取出来的特征数据包括每个特征点在图像区域内的位置信息、尺度、方向和特征描述信息。本步骤特征提取方法，可以采用基于尺度不变的特征提取方法，如ORB，SIFT，SURF等。所述经预处理后的样本图像指经统一尺寸处理、冗余区域剔除、高斯模糊处理、仿射变换中的一种或多种方式预处理后的样本图像，预处理是为了提高检索精度。

步骤2：利用分类器对样本图像的特征描述信息进行分类，找出一个最优分类结果，分类后每个类别对应一个分类索引；

在步骤2之前，还需要判断是否已有现成分类器；若是，则根据已有分类器对样本图像的特征描述信息进行分类；若否，则对所有样本图像的特征描述信息所组成的数据集合进行训练，生成分类器。一般来说在一个图像数据库建立之初，需要对已有样本图像的特征描述信息所组成的数据集合进行训练，生成分类器，在后续增加样本图像的过程中，即可直接用最初已经生成的分类器对添加的样本图像的特征描述数据进行分类。分类器生成可以采用现有技术，如：采用K均值聚类算法生成若干个聚类中心，然后用近邻法根据聚类中心的分布情况对描述数据进行分类。

步骤3：结合每个特征描述信息所属分类的分类索引值，对特征描述信息进行降维处理，将降维后的结果数据作为对应特征点的标签，每个特征点对应一个标签数据。对特征描述信息进行降维可以采用主成分分析(PrincipalComponent Analysis，PCA)方法生成降维矩阵。

步骤4：将样本图像内容数据以样本图像索引为单位，顺序存储到图像数据库，且将标签数据按分类索引值在各分类中以标签为单位，顺序存储到检索数据库。

上面介绍了本发明增强现实视频生成方法所需用到的图像数据库，下面结合图2介绍本发明实施例增强现实视频生成方法，参见图2，本发明实施例增强现实视频生成方法包括如下步骤：

S101：对原视频数据进行解码，逐帧获取视频帧图像；

S102：逐帧对视频帧图像进行特征提取，提取出来的特征数据集包括每个特征点在图像区域内的位置信息、尺度、方向和特征描述信息；本步骤特征提取算法需采用与图像数据库生成时采用的算法一致，例如生成图像数据库时选用的为SIFT算法，那么本步骤也需要用SIFT算法进行特征提取。

S103：对每一视频帧图像的特征描述数据进行分类并降维，得到每一视频帧图像各特征点对应的标签数据，具体为：利用分类器(该分类器必须与生成图像数据库时候的分类器一致)对每一视频帧图像的特征描述信息进行分类，找出前n种最优分类结果，每种分类结果中每个类别对应一个分类索引值，n为3～15范围内的自然数；在n种分类结果中，分别结合每个特征描述信息所属分类的分类索引值，对特征描述信息进行降维处理(降维方式必须与生成图像数据库时一致)，将降维后的结果数据作为对应特征点的标签，每个特征点对应n个标签数据。

S104：图像检索：将每一视频帧图像的标签数据在图像数据库中进行匹配检索，得到当前视频帧图像中所有与数据库中样本图像匹配的目标区域及相应的样本图像索引值，并获取相应样本图像对应的增强显示数据；所述增强显示数据包括交互元素和\或交互事件，其中交互元素包括视频、图像、音频、网页、文本、3D模型、URI地址中的一种或多种，例如：如平面标签信息、图片或者释义性文本；可交互事件可通过语音交互、点击交互、触摸交互等交互方式实现。

S105：判断步骤S104中图像是否检索成功，若检索成功，则进入步骤S106；

S106：将检索成功的视频帧图像的帧数、目标区域位置信息以及每一目标区域对应的增强显示数据写入增强数据文件；本步骤中，若希望视频播放时增强显示数据正好贴合到目标区域位置上，则在增强数据文件中仅写入目标区域位置信息即可；若希望视频播放时，增强显示数据不是直接贴合到目标区域位置，而是贴到目标区域附近位置，那么在增强数据文件中还需写入偏移量。

S107：判断视频帧图像是否遍历结束，若是，则进入步骤S108；若否，则重复步骤S101～106；

S108：所有视频帧图像处理完毕后，将原视频数据与增强数据文件融合封装，形成增强现实视频。

步骤S104中：匹配检索具体为：将标签数据与图像数据库中对应分类索引中的所有标签进行遍历匹配，计算该视频帧图像与图像数据库中各样本图像的匹配分值；匹配分值高于设定阈值的样本图像即为与当前视频帧图像某区域匹配的样本图像。其中匹配分值计算可采用如下方法：

A：将得到的标签数据与检索数据库中的对应分类索引中的所有标签进行遍历匹配；遍历匹配时，分别计算两标签对应字节位之间的海明距离，将各字节之间的海明距离累加得到距离和，以距离和为索引值在海明距离权重表中查得目标图像特征点与检索数据库中对应特征点的匹配权值。可根据经验建立海明距离权重表，海明距离权重表中：距离和越小，其对应的匹配权值越大，表示这两个特征点为同一个点的几机率越大；

B：以样本图像索引为标记，找出与目标图像中的点标签之间的匹配权值最大的样本图像，记该样本图像中的对应点与目标图像对应点标签之间的匹配权值为目标图像中的对应点与该样本图像之间的检索分值；将检索分值小于阈值的匹配点剔除；

C：再次按样本图像索引进行分类，将目标图像中的所有对应于同一张样本图像的点集标签数据归为一类，剔除其中小于三个匹配点的点集匹配对，累加剩余匹配集合中其点与样本图像之间的检索分值，累加结果为目标图像与样本图像之间的匹配分值。

优选的，上述增强现实视频生成方法还可以加入跟踪步骤，即当某一视频帧图像检索成功后，从该视频帧图像特征数据集中筛选出检索成功的子图像区域中的特征数据，将其用于在后续视频帧图像中进行目标跟踪；当跟踪丢失时，再对当前帧视频帧图像进行特征检测与图像检索。加入跟踪步骤之后，由于不需要每帧都做特征提取与匹配，能有效提升视频生成速度。本处图像跟踪可采用CamShift算法、光流跟踪以及粒子滤波算法等。

参见图3，为本发明实施例增强现实视频生成系统结构示意图，所述系统包括图像数据库10、视频解码模块11、图像特征提取模块12、特征处理模块13、图像搜索模块14和数据融合模块15，其中：

所述图像数据库10中分类存储着样本图像内容数据和标签数据，其数据存储结构参见图1：样本图像内容数据包括：样本图像索引值，特征点数量及每个特征点的位置信息、尺度、方向和特征描述信息；每个标签数据包括标签、该标签对应的特征点所属样本图像的索引、该标签对应的特征点的位置信息或该标签对应的特征点在样本图像内容数据中存储的序列号。

所述视频解码模块11，用于对原视频数据进行解码，逐帧获取视频帧图像；

所述图像特征提取模块12，用于逐帧对视频帧图像进行特征提取(本处特征提取算法需采用与图像数据库生成时采用的算法一致)，提取出来的特征数据集包括每个特征点在图像区域内的位置信息、尺度、方向和特征描述信息；

所述特征处理模块13，用于对每一视频帧图像的特征描述数据进行分类并降维(分类及降维方式需与图像数据库生成时的分类与降维方式一致)，得到每一视频帧图像各特征点对应的标签数据；

所述图像搜索模块14，用于将每一视频帧图像的标签数据在图像数据库中进行匹配检索，得到当前视频帧图像中所有与数据库中样本图像匹配的目标区域及相应的样本图像索引值，并获取相应样本图像对应的增强显示数据；图像搜索模块14具体如何进行匹配检索，参见前一实施例增强现实视频生成方法中的详细介绍，在此不赘述。

所述数据融合模块15，用于将检索成功的视频帧图像的帧数、目标区域位置信息以及每一目标区域对应的增强显示数据写入增强数据文件；在所有视频帧图像处理完毕后，将原视频数据与数据文件融合封装，形成增强现实视频。

优选的，图3所示的增强现实视视频生成系统，还可以包括一跟踪模块(图中未示意)，所述跟踪模块用于当某一视频帧图像检索成功后，从该视频帧图像特征数据集中筛选出检索成功的子图像区域中的特征数据，将其用于在后续视频帧图像中进行目标跟踪，其跟踪过程可采用CamShift算法、光流跟踪以及粒子滤波等算法来实现，目标跟踪包括被跟踪区域的找回，找回可采用常用的特征匹配方法(如ORB)或滑动窗口遍历的匹配方法(TLD,TRACKING-LEARNING-DETECTION)。当跟踪丢失无法找回时(例如连续5帧都未找回，即可认为其跟踪丢失无法找回)，所述跟踪模块再将当前视频帧图像交回所述图像特征提取模块，继续进行特征检测与图像检索。加入跟踪模块之后，由于不需要每帧都做特征提取与匹配，能有效提升视频生成速度。

本发明实施例增强现实视频生成方法及系统，主要利用图像检索和增强现实技术，使视频的增强显示数据添加自动化，减少了后期制作的工作量。

按照本发明提供的增强现实视频生成方法所生成的增强现实视频，可以存放在视频服务器端，供用户离线下载观看或在线观看。但是由于这种增强现实视频与现有普通视频数据相比，多了增强数据文件，普通视频播放方法不能播放这种增强现实视频，因此，本发明还提供了相应的视频播放方法和视频播放器。

本发明实施例增强现实视频播放方法包括两种：一种是播放过程中仅将增强显示数据展示出来，用户可看见增强显示的虚拟信息，但是不能进行交互请求及响应；另一种是用户不但可以看见增强显示的虚拟信息，还能进行交互请求及响应。

在仅展示增强显示数据时，增强现实视频播放方法包括如下两步骤：

S201：解析增强现实视频数据，得到原视频数据和增强数据文件；

S202：对原视频数据进行解码并播放，在播放过程中读取增强数据文件，根据目标区域位置信息，在相关帧的相应目标区域渲染输出对应的增强显示数据。渲染增强显示数据的具体区域可以是目标区域位置，也可以是目标区域附近位置，根据视频生成时是否设定偏移量而定。

若要进行交互，则需在步骤S202步骤之后，增加如下步骤：

S203：在视频播放过程中，监听并响应用户的交互请求，直至视频播放完毕。用户交互请求可以为：用户对可交互元素进行的点击请求、放大请求、拖拽请求等，对交互元素能进行何种交互请求，主要决定于增强现实视频生成时所绑定的交互元素支持哪些交互事件。

参见图4，为本发明实施例增强现实视频播放器，所述增强现实视频播放器包括数据解析模块21、视频解码模块22、渲染模块23和交互事件响应模块24，其中：所述数据解析模块21，用于解析增强现实视频数据，得到原视频数据和增强数据文件；所述视频解码模块22，用于对原视频数据进行解码并播放；所述渲染模块23，用于读取增强数据文件，根据目标区域位置信息，在相关帧的相应目标区域渲染输出对应的增强显示数据；所述交互事件响应模块24，用于在视频播放过程中，监听并响应用户的交互请求，直至视频播放完毕。

在该实施例中，交互事件响应模块24为可选模块，当将交互事件响应模块24取消时，本视频播放器仅支持展示增强显示数据，不支持交互。

由于本发明技术方案中，增强现实视频播放时，是根据目标区域位置信息将对应的增强显示数据渲染在视频帧相应位置上，所述增强显示数据大多为平面信息，如标签、图像等。当需要在目标位置区域叠加显示图像时，我们需要得到该区域和样本图像之间的仿射变换和尺度变换关系，因此，我们在制作增强现实视频的时候，可以在获取相应样本图像对应的增强显示数据的同时，获取该样本图像的特征数据集；将视频帧目标区域特征数据集与对应样本图像的特征进行匹配，得到二者之间的仿射关系，将此仿射关系封装到增强数据文件。使得增强现实视频在播放时，能根据该仿射关系，将增强显示数据更真实的贴合到相应位置处。

本说明书中公开的所有特征，或公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合。

本说明书(包括任何附加权利要求、摘要和附图)中公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换。即，除非特别叙述，每个特征只是一系列等效或类似特征中的一个例子而已。

本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合，以及披露的任一新的方法或过程的步骤或任何新的组合。

Claims

1.一种增强现实视频生成方法，其特征在于，包括：

对原视频数据进行解码，逐帧获取视频帧图像；

2.如权利要求1所述的方法，其特征在于，所述图像数据库中存储有样本图像内容数据和标签数据，样本图像内容数据包括：样本图像索引值，特征点数量及每个特征点的位置信息、尺度、方向和特征描述信息；

每个标签数据包括标签、该标签对应的特征点所属样本图像的索引、该标签对应的特征点的位置信息或该标签对应的特征点在样本图像内容数据中存储的序列号。

3.如权利要求2所述的方法，其特征在于，所述对每一视频帧图像的特征描述数据进行分类并降维，得到每一视频帧图像各特征点对应的标签数据，具体为：利用分类器对每一视频帧图像的特征描述信息进行分类，找出前n种最优分类结果，每种分类结果中每个类别对应一个分类索引值，n为3～15范围内的自然数；在n种分类结果中，分别结合每个特征描述信息所属分类的分类索引值，对特征描述信息进行降维处理，将降维后的结果数据作为对应特征点的标签，每个特征点对应n个标签数据；

所述将每一视频帧图像的标签数据在图像数据库中进行匹配检索，具体为：将标签数据与数据库中对应分类索引中的所有标签进行遍历匹配，计算该视频帧图像与数据库中各样本图像的匹配分值；匹配分值高于设定阈值的样本图像即为与当前视频帧图像某区域匹配的样本图像。

4.如权利要求1至3任一项所述的方法，其特征在于，所述方法还包括目标跟踪，即当某一视频帧图像检索成功后，从该视频帧图像特征数据集中筛选出检索成功的子图像区域中的特征数据，将其用于在后续视频帧图像中进行目标跟踪；

当跟踪丢失时，再对当前帧视频帧图像进行特征检测与图像检索。

5.如权利要求1至3任一项所述的方法，其特征在于，所述增强显示数据包括交互元素和\或交互事件，其中交互元素包括视频、图像、音频、网页、文本、3D模型、URI地址中的一种或多种。

6.一种增强现实视频生成系统，其特征在于，包括图像数据库、视频解码模块、图像特征提取模块、特征处理模块、图像搜索模块和数据融合模块，其中：

7.如权利要求6所述的增强现实视视频生成系统，其特征在于，还包括跟踪模块，所述跟踪模块用于当某一视频帧图像检索成功后，从该视频帧图像特征数据集中筛选出检索成功的子图像区域中的特征数据，将其用于在后续视频帧图像中进行目标跟踪；当跟踪丢失时，所述跟踪模块再将当前视频帧图像交回所述图像特征提取模块，继续进行特征检测与图像检索。

8.如权利要求6或7所述的增强现实视频生成系统，其特征在于，所述图像数据库中分类存储着样本图像内容数据和标签数据；样本图像内容数据包括：样本图像索引值，特征点数量及每个特征点的位置信息、尺度、方向和特征描述信息；每个标签数据包括标签、该标签对应的特征点所属样本图像的索引、该标签对应的特征点的位置信息或该标签对应的特征点在样本图像内容数据中存储的序列号。

9.一种增强现实视频播放方法，其特征在于，包括：

解析增强现实视频数据，得到原视频数据和增强数据文件；

10.如权利要求9所述的增强现实视频播放方法，其特征在于，所述增强现实视频播放方法还包括：在视频播放过程中，监听并响应用户的交互请求，直至视频播放完毕。

11.一种增强现实视频播放器，其特征在于，所述增强现实视频播放器包括数据解析模块、视频解码模块和渲染模块，其中：

所述视频解码模块，用于对原视频数据进行解码并播放；

12.如权利要求11所述的增强现实视频播放器，其特征在于，所述增强现实视频播放器还包括交互事件响应模块，所述交互事件响应模块，用于在视频播放过程中，监听并响应用户的交互请求，直至视频播放完毕。