CN102821323B

CN102821323B - 基于增强现实技术的视频播放方法、系统及移动终端

Info

Publication number: CN102821323B
Application number: CN201210271482.5A
Authority: CN
Inventors: 柳寅秋; 李薪宇; 宋海涛
Original assignee: Chengdu Idealsee Technology Co Ltd
Current assignee: Chengdu Idealsee Technology Co Ltd
Priority date: 2012-08-01
Filing date: 2012-08-01
Publication date: 2014-12-17
Anticipated expiration: 2032-08-01
Also published as: JP2015528961A; WO2014019498A1; CN102821323A; US20150193970A1; US9384588B2

Abstract

本发明公开了一种基于增强现实技术的视频播放方法，结合增强现实技术，绘制将当前场景图像中的目标图片完全覆盖的矩形平面3D模型，同时将目标图片相关的视频文件分离为音频流和视频流之后，将视频流中的视频帧图像作为纹理逐帧映射到3D模型上，进行图形渲染；最后将摄像机捕获的场景图像与渲染的3D模型融合输出，同步输出音频流数据，相应的，本发明还公开了一种基于增强现实技术的视频播放系统及移动终端，能轻松将报刊杂志等平面媒体上的图片信息转化为视频信息，视频与图片在空间位置上完全贴合，使用户获得“寓情于景”的全新视听体验；报刊杂志等纸面媒体也可以借助本发明技术实现信息的多元化传播，提供精确快速的视频推送服务。

Description

基于增强现实技术的视频播放方法、系统及移动终端

技术领域

本发明涉及移动增强现实领域，尤其涉及基于增强现实技术的视频播放方法、系统及移动终端。

背景技术

背景技术一：

移动增强现实(Mobile Augmented Reality)，即基于移动终端的增强现实，是增强现实(AR)技术与移动计算相结合而产生的研究方向，是近年来人机交互领域备受关注的热点之一。移动增强现实具有传统增强现实的本质，即在真实环境呈现的场景中，借助与计算机图形技术和可视化技术，将虚拟信息实时“无缝”与之融合，利用虚拟信息对真实场景进行补充、增强；同时与移动终端平台的结合，可以最大限度的发挥增强现实技术“可移动性”的特点，给予用户完全区别于传统PC平台的全新的感知体验和交互模式。

然而现有的增强现实系统，主要是将虚拟三维模型直接叠加到真实场景中，运用范围有限。

背景技术二：

现有移动终端视频播放方式，基本都是通过普通的视频播放软件播放，例如：当用户需要在手机上观看从网络搜索来的视频，只能在网络上搜索到该视频后，用普通播放软件播放该视频。传统的视频播放方式较为陈旧，没有新意，不能给予用户区别于传统PC平台的感知体验和交互模式。

发明内容

本发明的目的是提供一种基于增强现实技术的视频播放方法、系统及移动终端，扩宽增效现实技术运用范围的同时，解决了传统视频播放方式陈旧，无新意的问题，能将报刊杂志等平面媒体上的图片信息，通过本系统转化为视频信息，视频与图片在空间位置上完全贴合，使用户获得“寓情于景”的全新视听体验。

为了实现上述发明目的，本发明提供了一种基于增强现实技术的视频播放方法，包括：

根据摄像机捕获的当前场景图像，在图像数据库中搜索与当前场景图像中的目标图片匹配的样本图像及与所述样本图像对应的视频文件；

对所述样本图像对应的视频文件进行音视频分离和解码，得到视频各帧图像序列和音频数据；

对摄像机捕获的当前场景图像和样本图像进行配准，计算摄像机的姿态，得到单应性矩阵；并根据所述单应性矩阵，绘制出能将当前场景图像中的目标图片完全覆盖的矩形平面3D模型；

将所述视频各帧图像序列中的视频帧图像作为纹理逐帧映射到所述3D模型上，进行图形渲染；

将摄像机捕获的当前场景图像与渲染的3D模型融合输出显示，并同步输出所述音频数据。

优选的，所述对摄像机捕获的当前场景图像和样本图像进行配准，计算摄像机的姿态，得到单应性矩阵，可以为：

实时连续地对摄像机捕获的当前场景图像和样本图像进行配准，计算摄像机的姿态，得到单应性矩阵。

优选的，所述对摄像机捕获的当前场景图像和样本图像进行配准，计算摄像机的姿态，得到单应性矩阵，还可以为：

对摄像机捕获的当前场景图像和样本图像进行配准，得到初始单应性矩阵；

根据图像配准成功的图像特征点、初始单应性矩阵及摄像机实时捕获的当前场景图像，对目标图片进行光流跟踪，由跟踪算法得到单应性矩阵。

优选的，在对目标图片进行光流跟踪时，所述方法还包括：判断对目标图片进行光流跟踪是否跟丢，当跟踪丢失时，再次对摄像机捕获的当前场景图像进行特征点检测与图像配准。

优选的，所述根据摄像机捕获的当前场景图像，在图像数据库中搜索与当前场景图像中的目标图片匹配的样本图像及与所述样本图像对应的视频文件，进一步包括：

摄像机捕获包含目标图片的当前场景图像；

对摄像机捕获的当前场景图像进行特征检测，提取出图像特征点，并对图像特征点进行特征描述，得到整幅图像的特征描述数据；

根据当前场景图像的特征描述数据，在图像数据库中进行图像搜索，得到与当前场景图像中的目标图片匹配的样本图像及与所述样本图像对应的视频文件。

相应的，本发明还提供了一种基于增强现实技术的视频播放系统，包括摄像模块、图像特征提取模块、图像搜索模块、图像配准模块、音视频分离及解码模块、图像渲染模块、音视频输出模块，其中：

摄像模块，用于捕获包含目标图片的当前场景图像；

图像特征提取模块，对摄像模块捕获的当前场景图像进行特征点检测及提取，并生成特征点描述，得到当前场景图像的特征描述数据；

图像搜索模块，接收来自所述图像特征提取模块的当前场景图像的特征描述数据，在图像数据库中进行搜索，将匹配成功的样本图像的特征描述数据传递给图像配准模块，同时将匹配成功的样本图像对应的视频资源的UR I传递给音视频分离及解码模块；

图像配准模块，根据图像搜索模块返回的样本图像的特征描述数据及图像特征提取模块产生的当前场景图像的特征描述数据，对摄像模块捕获的当前场景图像和样本图像进行配准，得到单应性矩阵；

音视频分离及解码模块，根据图像搜索模块得到的视频资源的UR I，找到对应的视频文件，并对所述视频文件进行音视频分离和解码，得到视频各帧图像序列和音频数据；将所述视频各帧图像序列传递给图形渲染模块，将所述音频数据传递给音视频输出模块；

图形渲染模块，根据图像配准模块计算出的单应性矩阵，绘制出能将当前场景图像中的目标图片完全覆盖的矩形平面3D模型，并将音视频分离及解码模块提取出来的视频各帧图像作为纹理逐帧映射到所述3D模型上，完成图形渲染；

音视频输出模块，将摄像机模块捕获的当前场景图像与图形渲染模块渲染的3D模型融合输出显示，并同步输出音频数据。

优选的，所述图像配准模块实时连续地对摄像机捕获的当前场景图像和样本图像进行配准，计算摄像模块的姿态，得到单应性矩阵。

优选的，所述系统还包括连接在所述图像配准模块与图像渲染模块之间的跟踪模块，所述跟踪模块还与摄像模块相连，所述跟踪模块在摄像模块捕获的当前场景图像中的目标图片匹配样本图片成功后，对摄像模块捕获的当前场景图像中的目标图片进行光流跟踪，计算单应性矩阵。

优选的，所述跟踪模块还用于目标图片跟踪丢失时，指令图像特征提取模块对摄像机捕获的当前场景图像再次进行特征点检测，并指令图像配准模块再次进行图像配准。

相应的，本发明还提供了一种移动终端，所述移动终端包括上述的基于增强现实技术的视频播放系统。

与现有技术相比，本发明具有如下有益效果：

1、能将视频叠加到真实场景中，如：能将报刊杂志等平面媒体上的图片信息，通过本系统转化为视频信息，视频与图片在空间位置上完全贴合，使用户获得“寓情于景”的全新视听体验；

2、能提供精确快速的视频推送服务；

3、提供移动互联网用户一种全新的交互模式，具有科幻色彩的视听效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图：

图1为本发明实施例1中基于增强现实技术的视频播放系统的结构示意图；

图2为本发明实施例2中基于增强现实技术的视频播放系统的结构示意图；

图3为本发明实施例3中基于增强现实技术的视频播放方法流程图；

图4为本发明实施例4中基于增强现实技术的视频播放方法流程图；

图5为本发明实施例效果示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明为增效现实技术的扩展应用，主要解决传统视频播放方式陈旧，无新意的问题，能将报刊杂志等平面媒体上的图片信息，通过本系统转化为视频信息，视频与图片在空间位置上完全贴合，使用户获得“寓情于景”的全新视听体验，因此本发明的技术核心为：如何将视频“叠加”到真实场景中某一图像区域。

下面结合附图，详细描述本发明各实施例。

实施例1

参见图1，为本发明实施例1中基于增强现实技术的视频播放系统的结构示意图，该视频播放系统，包括摄像模块1(摄像模块包括移动终端中的摄像机)、图像特征提取模块2、图像搜索模块3、图像配准模块4、音视频分离及解码模块5、图像渲染模块6、音视频输出模块7，其中：

所述摄像模块1用于捕获包含目标图片的当前场景图像，其分别与图像特征提取模块2和音视频输出模块7相连，将捕获的图像传给图像特征提取模块2用于特征提取，同时将捕获的图像传递给音视频输出模块7用于融合输出显示。

所述图像特征提取模块2，对摄像模块1捕获的当前场景图像进行特征点检测及提取，并生成特征点描述，得到当前场景图像的特征描述数据，并将其传递给图像搜索模块3。

所述图像搜索模块3，接收到来自所述图像特征提取模块2传来的当前场景图像的特征描述数据，在服务器端的图像数据库中搜索与其匹配的样本图像，并将匹配成功的样本图像的特征描述数据传递给图像配准模块4，同时将匹配成功的样本图像对应的视频资源的URI传递给音视频分离及解码模块5。

所述图像配准模块4，根据图像搜索模块3返回的样本图像的特征描述数据及图像特征提取模块2产生的当前场景图像的特征描述数据，实时连续地对摄像模块捕获的当前场景图像和样本图像进行配准，计算摄像模块的姿态，得到单应性矩阵，并将单应性矩阵传递给图形渲染模块6。

所述音视频分离及解码模块7，根据图像搜索模块3得到的视频资源的URI，找到对应的视频文件(摄像机捕获图像的相关视频)，并对所述视频文件进行音视频分离和解码，得到视频各帧图像序列(视频流)和音频数据(音频流)；对视频各帧图像序列(视频流)逐一提取视频各帧的图像传递给图形渲染模块6，同时将所述音频数据传递给音视频输出模块7。

所述图形渲染模块6，根据图像配准模块4计算出的单应性矩阵，绘制出能将当前场景图像中的目标图片完全覆盖的矩形平面3D模型，并将音视频分离及解码模块提取出来的视频各帧图像作为纹理逐帧映射到所述3D模型上，并实时更新，完成图形渲染；所述与目标图片完全覆盖包括与目标图片重合，例如：当目标图片为长方形时，可绘制出完全与目标图片重合的长方形平面3D模型，而当目标图片为非矩形形状时，则绘制出完全覆盖该目标图片的矩形平面3D模型。

所述音视频输出模块7，将摄像机模块1捕获的当前场景图像与图形渲染模块6渲染生成的3D模型融合输出显示，并同步输出音频数据。

音频数据和视频帧图像能够实现同步，需要在视频文件分离为视频流和音频流之后，对两者进行数据包分割。其中，视频数据包根据其时间戳按照先后顺序组成链表，形成一个有序队列，分别对每个数据包进行解码并提取其中的图像，则得到视频每一帧的图像序列，用时间戳控制图像序列的输出。图形渲染模块则将视频帧图像作为纹理映射到3D模型上时，由于输出图像随时间有序变化，3D模型的纹理也随之变化，完成视频的播放。此外，音频流也被分为数据包，以视频数据包的时间戳为基准，调整音频数据包的输出，使音视频同步输出。

在本实施例中，在一次视频播放的过程中，图像搜索模块3原则上只进行一次摄像模块捕获图像与样本图像的成功匹配搜索，找到样本图像和样本图像对应的视频资源；而摄像模块1始终持续不断地进行场景图像的捕获，图像特征提取模块2也一直在对摄像模块所捕获的场景图像进行特征提取，图像配准模块4则是实时连续地对摄像模块1捕获的当前场景图像和样本图像进行配准，计算摄像模块实时姿态，连续不断的得到对应摄像模块1实时姿态的单应性矩阵，因此本实施例系统对摄像模块捕获的每帧图片都要做特征检测与配准，可能实际使用时会稍微影响速度。

参见图5，为本实施例视频叠加的效果示意图，摄像模块捕获的当前场景图像即图5中摄像机捕获的真实场景图像，在图5示例中，真实场景图像中包含的目标图片为长方形图片，通过本实施例系统，绘制出与目标图片位置重合的3D模型，将搜索到的与目标图片相关的视频文件分离解码后，从分离出来视频帧图像序列中提取出视频各帧图像，并将其作为纹理逐帧映射到长方形平面3D模型上，并实时更新，完成图形渲染，实现将视频叠加到真实场景中的目标图片上，同时根据视频图像的渲染进度同步输出从视频文件中分离出来的音频数据。

实施例2

参见图2，为本发明实施例2中基于增强现实技术的视频播放系统的结构示意图，本实施例中视频播放系统在图1(实施例1)的基础上增加了一个跟踪模块8，所述跟踪模块8连接在所述图像配准模块4与图像渲染模块6之间，在本实施例中，图像配准模块4所计算出的单应性矩阵为初始单应性矩阵。所述跟踪模块8还与摄像模块1相连，其在摄像模块1捕获的当前场景图像中的目标图片匹配样本图片成功后，则停止特征检测(即图像特征提取模块2停止对摄像模块1捕获图像进行特征点提取)，而对摄像模块1捕获的当前场景图像中的目标图片进行光流跟踪，由跟踪算法得到单应性矩阵。

光流是空间运动物体在观察成像平面上的像素运动的瞬时速度，是利用图像序列中像素在时域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系，从而计算出相邻帧之间目标物体的运动信息。本实施例中，图像配准模块4将计算出的初始单应性矩阵及需要跟踪的特征点传递给跟踪模块8，同时跟踪模块8实时接收摄像模块1捕获的当前场景图像，进行跟踪计算。所述需要跟踪的特征点指图像搜索过程中，配准图片成功的特征点。

为了防止跟踪丢失，优选的，所述跟踪模块8还用于目标图片跟踪丢失时，指令图像特征提取模块对摄像机捕获的当前场景图像再次进行特征点检测，并指令图像配准模块再次进行图像配准，以实现从新跟踪。判断跟踪丢失的条件可以为：对跟踪成功的点重新计算其匹配度，并进行计数，当匹配良好的点的数量在阈值以下时(阈值范围一般范围5～20，优选为10)，则判断跟踪丢失。

本实施例在加入跟踪模块8之后，由于不需要每帧都做特征检测与配准，相对于实施例1中系统速度有所提升，且能够避免配准过程中单应性矩阵计算结果的微小偏差带来的抖动，在视觉效果上，叠加的3D模型更加稳定。

实施例3

参见图3，为本发明实施例3中基于增强现实技术的视频播放方法流程图，本实施例基于增强现实技术的视频播放方法，包括如下步骤：

S101：捕捉场景图像，即摄像机捕获当前场景图像；

S102：提取图像特征点，即对摄像机捕获的图像进行特征检测，提取出图像特征点，对图像特征点进行特征描述，得到特征点的描述向量，进而得到整幅图像的特征描述数据；

S103：图像搜索，即根据摄像机捕获图像的特征描述数据，在服务器端的图像数据库中进行搜索，得到与当前场景图像中的目标图片匹配的样本图像及与所述样本图像对应的视频文件(此处得到对应视频文件可以理解为得到视频资源标识符)；

S104：图像配准，即根据图像搜索结果返回的样本图像的特征数据，实时连续地进行摄像机捕获图像与样本图像的配准，计算摄像机的姿态，得到单应性矩阵，并根据所述单应性矩阵，绘制出能将当前场景图像中的目标图片完全覆盖的矩形平面3D模型；

S105：音频、视频分离，即将步骤S103中得到的视频文件进行音视频分离和解码，得到视频各帧图像序列和音频数据(当步骤S103中搜索到的为视频资源标注符，则首先根据视频资源的标识符找到相关视频，然后对视频进行音视频分离和解码)，其中视频各帧图像序列也称为视频流；

S106：获取视频帧图像，即对视频流逐一提取视频各帧的图像；

S107：将S106中提取的视频帧图像作为纹理逐帧映射到所述3D模型上，实时刷新，进行图形渲染；

S108：将摄像机捕获的当前场景图像与渲染的3D模型融合输出显示，并同步进行S109步骤；

S109：同步输出所述音频数据，进行音频与视频的同步播放，实现将视频“叠加”到真实场景中某一图像区域。

本发明实施例的效果，同样可参看图5，由于实施例1中对图5进行了详细说明，此处不赘述。本实施例中，步骤S101、S102、S104在整个视频播放过程中，均连续不断的进行，而步骤S103在一次视频播放的过程中，原则上只进行一次摄像模块捕获图像与样本图像的成功匹配搜索，找到样本图像和样本图像对应的视频资源后即不再重复搜索。

实施例4

参见图4，为本发明实施例4中基于增强现实技术的视频播放方法流程图，本实施例中视频播放方法在图3(实施例3)的基础上增加了目标图片跟踪步骤S1041及跟踪丢失判断步骤S1042(参见图4)，其中：

S1041：目标跟踪，即在步骤S104图像配准成功时，则停止特征检测(即停止步骤S102)，而对目标图片进行光流跟踪，由跟踪算法得到单应性矩阵，在增加了跟踪步骤S1041以后，步骤S104得到的单应性矩阵为初始单应性矩阵，初始单应性矩阵不用于直接绘制3D模型，而用于目标图片跟踪时，结合需要跟踪的特征点及摄像机实时捕获的当前场景图像，对目标图片进行光流跟踪，由跟踪算法得到单应性矩阵。所述需要跟踪的特征点指图像搜索过程中，配准图片成功的特征点。

步骤S1042，跟踪丢失判断，判断跟踪丢失的条件可以为：对跟踪成功的点重新计算其匹配度，并进行计数，当匹配良好的点的数量在阈值以下时(阈值范围一般范围5～20，优选为10)，则判断跟踪丢失。当判断出跟踪丢失时，再次重复S102、S104进行特征检测与图像配准，然后继续进行S1041步骤进行目标图片跟踪(步骤S103同实施例3中相同，一次视频播放过程原则上只进行一次搜索)。

本实施例在加入跟踪步骤之后，由于不需要每帧都做特征检测与配准，相对于实施例3中方法速度有所提升，且能够避免配准过程中单应性矩阵计算结果的微小偏差带来的抖动，在视觉效果上，叠加的3D模型更加稳定。

本发明除了上述的视频播放系统和方法，还提供了一种移动终端，所述移动终端中包括上述基于增强现实技术的视频播放系统。用户拿着这样的移动终端，能轻松将报刊杂志等平面媒体上的图片信息，转化为视频信息，视频与图片在空间位置上完全贴合，使用户获得“寓情于景”的全新视听体验。同时报刊杂志等纸面媒体也可以借助本发明技术实现信息的多元化传播，提供精确快速的视频推送服务。

本说明书中公开的所有特征，或公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合。

本说明书(包括任何附加权利要求、摘要和附图)中公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换。即，除非特别叙述，每个特征只是一系列等效或类似特征中的一个例子而已。

本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合，以及披露的任一新的方法或过程的步骤或任何新的组合。

Claims

1.基于增强现实技术的视频播放方法，其特征在于，包括：

摄像机捕获包含目标图片的当前场景图像；

根据当前场景图像的特征描述数据，在图像数据库中进行图像搜索，得到与当前场景图像中的目标图片匹配的样本图像及与所述样本图像对应的视频文件；

2.如权利要求1所述的方法，其特征在于，所述对摄像机捕获的当前场景图像和样本图像进行配准，计算摄像机的姿态，得到单应性矩阵，包括：

3.如权利要求1所述的方法，其特征在于，所述对摄像机捕获的当前场景图像和样本图像进行配准，计算摄像机的姿态，得到单应性矩阵，包括：

4.如权利要求3所述的方法，其特征在于，所述方法还包括：判断对目标图片进行光流跟踪是否跟丢，当跟踪丢失时，再次对摄像机捕获的当前场景图像进行特征点检测与图像配准。

5.基于增强现实技术的视频播放系统，其特征在于，包括摄像模块、图像特征提取模块、图像搜索模块、图像配准模块、音视频分离及解码模块、图像渲染模块、音视频输出模块，其中：

摄像模块，用于捕获包含目标图片的当前场景图像；

图像搜索模块，接收来自所述图像特征提取模块的当前场景图像的特征描述数据，在图像数据库中进行搜索，将匹配成功的样本图像的特征描述数据传递给图像配准模块，同时将匹配成功的样本图像对应的视频资源的URI传递给音视频分离及解码模块；

音视频分离及解码模块，根据图像搜索模块得到的视频资源的URI，找到对应的视频文件，并对所述视频文件进行音视频分离和解码，得到视频各帧图像序列和音频数据；将所述视频各帧图像序列传递给图形渲染模块，将所述音频数据传递给音视频输出模块；

6.如权利要求5所述的系统，其特征在于，所述图像配准模块实时连续地对摄像机捕获的当前场景图像和样本图像进行配准，计算摄像模块的姿态，得到单应性矩阵。

7.如权利要求5所述的系统，其特征在于，所述系统还包括连接在所述图像配准模块与图像渲染模块之间的跟踪模块，所述跟踪模块还与摄像模块相连，所述跟踪模块在摄像模块捕获的当前场景图像中的目标图片匹配样本图片成功后，对摄像模块捕获的当前场景图像中的目标图片进行光流跟踪，计算单应性矩阵。

8.如权利要求7所述的系统，其特征在于，所述跟踪模块还用于目标图片跟踪丢失时，指令图像特征提取模块对摄像机捕获的当前场景图像再次进行特征点检测，并指令图像配准模块再次进行图像配准。

9.一种移动终端，其特征在于，所述移动终端包括权利要求5至8中任一项所述的基于增强现实技术的视频播放系统。