WO2017107758A1

WO2017107758A1 - 应用于图像或视频的ar显示系统及方法

Info

Publication number: WO2017107758A1
Application number: PCT/CN2016/108466
Authority: WO
Inventors: 赵良华; 张圣明; 解长庆
Original assignee: 大连新锐天地传媒有限公司
Priority date: 2015-12-21
Filing date: 2016-12-03
Publication date: 2017-06-29
Also published as: CN108140263A; CN105608745B; CN105608745A; CN108140263B

Abstract

应用于图像或视频的AR显示系统及方法，涉及增强现实领域，系统生产端用于上传原始生产数据到服务器；所述原始生成数据由用户文字信息和用户原始场景组成；制作端用于将原始生成数据处理后合成场景制作数据；摄像头用于获取用户图像；服务器用于获取场景制作数据，用于将场景制作数据与服务器预置的三维场景模型中透明模型部分结合，用于用户图像、场景制作数据、三维场景模型、音频和用户文字信息的匹配；AR处理单元用于识别用户图像，用于将用户图像与存储单元中的三维场景模型、场景制作数据和音频结合并在显示终端上完成显示。提升了原始数据与三维场景模型间的融合度以及浏览时的沉浸感，改善了增强现实的效果。

Description

应用于图像或视频的AR显示系统及方法

技术领域

本发明涉及增强现实领域，特别涉及应用于图像或视频的AR显示系统及方法。

背景技术

传统影像行业所创作的图片或视频仅能以二维图像的形式来浏览，缺少与三维模型、音乐、音效、特效等相结合的展示方法，也缺少基于增强现实环境下展示带通道图片或视频的方法，更缺乏将基于增强现实带透明通道的图片或视频展示的方法及系统。

现今，一方面，微型计算机的图形处理性能的提高，增强现实正在各个平台上使用，包括电视机，显示器，以及在一定程度上的手持装置，比如手机、平板电脑。同时，三维引擎也越来越多的在上述平台特别是手持装置上被得到应用。另一方面，数码相机和数码摄像机以及一定程度上的具有较高水准摄影及摄像功能的手机设备也越来越多的在日常生活中被广泛使用。将拍摄的照片、视频实现使用增强现实技术在手持装置上与三维场景模型结合的展示被认为是必要的。

然而，由于现有增强现实技术中并不能为自定义一个或多个图片和/或视频与三维场景模型结合浏览提供展示方法，且缺乏具有完整系统结构框架设计，因此将带透明通道的自定义图片或视频在手持装置上实现增强现实的展示系统和方法被认为较困难。

发明内容

针对上述问题，本发明提供一种基于增强现实展示带通道的自定义图片或视频的实现方法及系统，用户可以根据预设三维场景模型模板选择适合的一个或多个自定义图片或视频，然后通过生产端输入到服务器数据库中，进而由制作端对原始数据进行加工处理，即可在手持装置上实现一个或多个自定义的图片或视频与三维场景模型结合并在增强现实环境进行浏览，从而提升用户在浏览图片或视频的沉浸感，提高了趣味性和互动性。另外，本发明提供了由生产端、制作端、服务器和手持装置所组成的实现基于增强现实展示带通道的自定义图片或视频的实现方法及系统，为多用户、多数据的分布式制作提供了流程框架，转化速度快，实现过程更加简洁。

为达到上述目的，一方面本发明提供了一种应用于图像或视频的AR显示系统,其包括生产端、制作端、服务器、存储单元、摄像头、AR处理单元和显示终端，生产端用于上传用原始生产数据到服务器；所述原始生产数据用户文字信息和用户原始场景组成；制作端用于将原始生产数据处理后合成场景制作数据；摄像头用于获取用户图像；服务器用于获取场景制作数据，用于将场景制作数据与服务器预置的三维场景模型中透明模型部分结合，用于用户图像、场景制作数据、三维场景模型、音频和用户文字信息的匹配；储存单元用于存储在服务器中匹配完毕的用户图片、场景制作数据、三维场景模型和音频；AR处理单元用于识别用户图像，用于将用户图像与存储单元中的三维场景模型、场景制作数据和音频结合并在显示终端上完成显示。

所述用户原始场景为用户场景图像。

所述用户原始场景为用户场景视频。

所述场景制作数据为模型贴图图像和可识别图像。

所述场景制作数据为模型贴图视频。

所述可识别图像是由服务器预置可识别图像模版与模型贴图图像通过制作端制作得到。

所述制作端通过Adobe Photoshop处理用户原始场景；所述AR处理单元为Vuforia AR单元。

所述模型贴图图像通过制作端合成可识别图像。

所述制作端将可识别图像提交AR处理单元形成可识别数据。

所述生产端通过服务器获取处理后的可识别图像。

另一方面本发明公开一种应用于图像或视频的AR显示方法，其实现过程是：由生产端上传用户信息、图像、视频上述原始生产数据到服务器，此处用户信息包括：用户姓名、性别、所选择的三维场景、手机号、纪念日、备注信息。用户信息是用户文字信息，此处用户信息在服务器上形成一个唯一的字符串，此处图像、视频是指用户提供的视频、图像，是通过用户自己的摄像机设备进行采集。由制作端通过服务器获取图像、视频上述原始生产数据，通过Adobe Photoshop处理、合成模型贴图图像以及可识别图像，将可识别图像提交Vuforia AR单元形成可识别数据。经制作端传回模型贴图图像、可识别图像、可识别数据上述的处理结果到服务器。生产端通过服务器获取处理后的可识别图像。由摄像头通过服务器进行数据匹配识别用户信息，具体是指摄像头获取图像信息后与服务器上的用户信息字符串进行匹配，匹配是指获取可识别图像信息后，在服务器上查找对应的数据信息。将用户信息字符串和处理后的可识别图像、贴图图像、三维场景模型、音频、视频上述数据通过服务器一一对应储存到储存单元。由摄像头通过Vuforia AR单元识别图像数据后，从储存单元提取贴图图像、三维场景模型、音频、视频数据在显示终端上完成显示和固定或不固定区域的点击、轻触扫过等交互功能。此处识别指的是采用Vuforia AR单元，识别上文的可识别图像，然后通过摄像头获取持续的实时画面，并与可识别图像对应匹配的三维场景模型、音频、模型贴图图片、模型贴图视频数据输出共同显示在显示器上。

其具体实现步骤为：

步骤1：用户通过生产端向服务器输入原始制作素材数据，包括一个或多个原始图片数据和/或原始视频数据，应用于用户身份信息验证的用户信息数据；具体步骤：

1)通过生产端向服务器输入用户信息数据，在数据库中创建该用户的数据包；

2)由服务器向生产端输出数据库中二维场景图像模板，用户通过预览和选择模板，进而选择自己喜欢的一个或多个自定义原始图片数据和/或原始视频数据，输入到该用户数据包中，将用于带通道贴图模型的所述自定义原始图片数据、额外一张原始图片数据或二维场景图像数据指定为用于增强现实识别的标记图像；

步骤2：制作端连接服务器，从数据库中输出用户数据包中的原始图片数据和/或原始视频数据，通过制作端对数据进行处理完成制作，之后输出到该用户数据包内；将该数据包内用于增强现实识别的标记图像输入到AR工具包并输出该图像的AR工具包数据到服务器上该用户数据包内，在制作端对上述经过处理的数据包进行文件类型、格式、数量、规格检查，当结果正确时，结束；当结果错误时，返回错误结果到制作端；

具体步骤分为三种情况，

情况a为数据包内仅包括原始视频数据和用于增强现实识别的标记图像，将原始视频数据输入到视频压缩程序，该视频压缩程序包括但不限于如：QuickTime，After Effects，Final Cut等处理视频程序。将原始视频数据压缩后.mp4文件通过服务器输出到该用户数据包内。然后，将该数据包内用于增强现实识别的标记图像输入到AR工具包并输出该图像的AR工具包数据到服务器上该用户数据包内，该AR工具包由AR引擎提供。在制作端对上述经过处理的数据包进行文件类型、格式、数量、规格检查，当结果正确时，结束；当结果错误时，返回错误结果到制作端。

情况b为数据包内仅包括原始图片数据，将原始图片数据输入到图像处理程序，该图像处理程序包括但不限于如：Adobe Photoshop，Affinity Photo等图像处理程序。将用于带通道贴图模型的原始图片进行通道分离，移除非展示区域通道图像，将展示区域通道图像输出为.png文件后通过服务器输出到该用户数据包内。然后，将该数据包内用于增强现实的标记图像输入到AR工具包并输出该图像的AR工具包数据到服务器上该用户数据包内。在制作端对上述经过处理的数据包进行文件类型、格式、数量、规格检查，当结果正确时，结束；当结果错误时，返回错误结果到制作端。

情况c为数据包内仅包括原始图片数据和二维场景图像数据，将原始图片数据和二维场景图像数据输入到图像处理程序，该图像处理程序包括但不限于如：Adobe Photoshop，Affinity Photo等图像处理程序；将用于带通道贴图模型的原始图片进行通道分离，移除非展示区域通道图像，将展示区域通道图像与二维场景图像合并输出为.jpeg文件输入到AR工具包并输出该图像的AR工具包数据到服务器上该用户数据包内，另外，将展示区域通道图像输出为.png文件后通过服务器输出到该用户数据包内。在制作端对上述经过处理的数据包进行文件类型、格式、数量、规格检查，当结果正确时，结束；当结果错误时，返回错误结果到制作端。

步骤3：在手持装置上，输入用户信息数据，通过通信单元与服务器连接验证用户信息，当结果为错误时，结束；当结果为正确时，从服务器输出该用户数据包：将三维场景模型、带通道的贴图模型、带通道的图片数据、压缩后的视频数据、AR工具包数据、可识别图像数据和音频数据存储到储存单元；

步骤4：使用运算单元通过AR引擎单元调取摄像头获取现实世界持续图像，并将可识别图像置于摄像头获取现实世界持续图像范围内，AR引擎单元根据可识别图像在现实世界中空间关系锚定显示位置，通过三维引擎单元输出数据包内容并在显示单元上显示。

具体步骤为：通过三维引擎单元输出该数据包中的三维场景模型，将带通道的图片数据和/或压缩后的视频数据在带通道的贴图模型上贴图，使用装置的扬声器播放音频数据。

步骤5：使用交互单元对三维引擎输出的数据进行播放、暂停、跳过和停止的控制。具体步骤是：向交互单元输入播放命令，三维引擎开始输出三维场景模型、带通道的图片数据和/或压缩后的视频数据在带通道的贴图模型上贴图、音频数据；向交互单元输入暂停命令，三维引擎暂停并静止三维场景模型、带通道的图片数据和/或压缩后的视频数据在带通道的贴图模型上贴图、音频数据。当数据包中存储多个带通道的原始图片数据和/或压缩后的视频数据时，向交互单元输入跳过命令，三维引擎继续输出三维场景模型和音频数据并替换带通道的图片数据和/或压缩后的视频数据在带通道的贴图模型上贴图；向交互单元输入停止命令，三维引擎停止输出上述内容；将可识别图像从摄像头获取的现实世界持续图像范围内移开，三维引擎停止输入数据。

本发明的有益效果：提供了带通道的三维场景模型在增强现实环境中实现的方法及系统，其转换速度快，简化用户操作步骤，以及提供了简单的整体实现方法，提升了原始数据与三维场景模型间的融合度以及浏览时的沉浸感，改善了增强现实的效果。

用户通过生产端连接服务器向数据库传输原始素材数据，然后由制作端完成数据制作，进而使用手持装置在增强现实环境中浏览由经过处理的原始数据生成的三维数字内容。对本发明的进一部分说明：

(1)本发明为提供了更便于多用户、多数据、高并发的分散式制作提供了流程框架。针对多用户，本发明通过生产端向服务器输入用户信息数据，在数据库中创建该用户的数据包；简化了系统的实现步骤，更加高效，降低了成本。针对多数据，本发明为一次或多次自定义图片或基于增强现实展示带透明通道的自定义图片或视频提供了实现方法。任意图片或视频均可以通过预置的三维模型场景进行组合展示，且一张或多张的图片和/或视频可以在同一个三维模型场景中展示。

(2)本发明不仅提供基于增强现实展示带透明通道的自定义图片实现方法及系统，还适用于视频，且给出了其实现过程的详细步骤。

(3)本发明为手持装置提供了将一个或多个自定义的原始图片数据和/或原始视频数据通过透明通道移除和压缩处理与预置三维场景模型结合应用于增强现实环境中的图片和/或视频展示方法，进而提升了原始数据与三维场景模型间的融合度以及浏览时的沉浸感。

(4)本发明以网络通信为基础，以三维引擎、AR工具包以及装置基本单元为构成的生产端、制作端、服务器与手持装置系统，进一步的提供了其在使用中的完善方法。

(5)本发明将已有图片或视频通过处理与三维模型结合在增强现实环境下展示，不需要即时的产生额外图片或视频。

(6)本发明在手持装置上通过摄像头、显示单元、交互单元、储存单元、运算单元以及三维引擎单元、AR引擎单元实现一个或多个带透明通道的图片或视频数据在三维场景中展示的方法；通过生产端、制作端、服务器和手持装置可以实现端到端、端到装置的标准流程实现系统。

术语解释：

现实世界：现实世界是指取自现实的图像，比如使用电子照片捕获技术例如视频记录的物理的现实世界情况。

增强现实：是一种实时地计算摄像机影像的位置及角度并加上相应图像的技术，这种技术的目标是在屏幕上把虚拟世界套在现实环境并进行互动。

生产端、制作端：在计算机上拥有接入网络功能的微型程序，负责向服务器传输或从服务器获取数据。

视频压缩程序：包括但不限于如：QuickTime，After Effects，Final Cut等视频编辑程序。

图像处理程序：包括但不限于如：Adobe Photoshop，Affinity Photo等图像编辑程序。

AR工具包：包括但不限于VuforiaAR、EasyAR等增强现实开发者工具包。

三维引擎：包括但不限于应用于如Untiy3D、Unreal Engine等被广泛应用于计算机特别是手持装置的三维程序。

三维场景模型：三维引擎中的数字资源以一定现实世界场景逻辑关系组成的数据包，其中包括：三维模型、贴图、动画、特效、音频等元件。

附图说明

图1为本发明系统结构图；

图2为本发明方法的生产端流程图；

图3为本发明方法的制作端流程图；

图4为本发明方法的手持装置流程图；

具体实施方式

实施例1

1)通过生产端向服务器输入用户信息数据，在数据库中创建该用户的数据包；具体为用户姓名、性别、所选择的三维场景、手机号、纪念日、备注信息，用户文字信息在服务器上形成一个唯一的用户字符串；

2)由服务器向生产端输出数据库中二维场景图像模板，用户通过预览和选择模板，进而选择自己喜欢的多个原始视频数据输入到该用户数据包中，将用于带通道贴图模型的原始视频数据指定为用于增强现实识别的标记图像；

步骤2：制作端连接服务器，从数据库中输出用户数据包中的原始视频数据，将原始视频数据输入到QuickTime视频压缩程序，将原始视频数据压缩后.mp4文件通过服务器输出到该用户数据包内。然后，将该数据包内用于增强现实识别的标记图像输入到AR工具包并输出该图像的AR工具包数据到服务器上该用户数据包内，该AR工具包由AR引擎提供。在制作端对上述经过处理的数据包进行文件类型、格式、数量、规格检查，当结果正确时，结束；当结果错误时，返回错误结果到制作端。

步骤3：在手持装置上，输入用户信息数据，通过通信单元与服务器连接验证用户信息，当结果为错误时，结束；当结果为正确时，从服务器输出该用户数据包：将三维场景模型、带通道的贴图模型、压缩后的视频数据、AR工具包数据、可识别图像数据和音频数据存储到储存单元；

具体步骤为：通过三维引擎单元输出该数据包中的三维场景模型，将压缩后的视频数据在带通道的贴图模型上贴图，使用装置的扬声器播放音频数据。

步骤5：使用交互单元对三维引擎输出的数据进行播放、暂停、跳过和停止的控制。具体步骤是：向交互单元输入播放命令，三维引擎开始输出三维场景模型、压缩后的视频数据在带通道的贴图模型上贴图、音频数据；向交互单元输入暂停命令，三维引擎暂停并静止三维场景模型、压缩后的视频数据在带通道的贴图模型上贴图、音频数据。当数据包中存储多个压缩后的视频数据时，向交互单元输入跳过命令，三维引擎继续输出三维场景模型和音频数据并替换压缩后的视频数据在带通道的贴图模型上贴图；向交互单元输入停止命令，三维引擎停止输出上述内容；将可识别图像从摄像头获取的现实世界持续图像范围内移开，三维引擎停止输入数据。

实施例2

2)由服务器向生产端输出数据库中二维场景图像模板，用户通过预览和选择模板，进而选择自己喜欢的多个原始图片数据输入到该用户数据包中，将用于带通道贴图模型的原始图片数据指定为用于增强现实识别的标记图像；

步骤2：制作端连接服务器，从数据库中输出用户数据包中的原始图片数据，将原始图片数据输入到Affinity Photo图像处理程序，将用于带通道贴图模型的原始图片进行通道分离，移除非展示区域通道图像，将展示区域通道图像输出为.png文件后通过服务器输出到该用户数据包内。然后，将该数据包内用于增强现实的标记图像输入到AR工具包并输出该图像的AR工具包数据到服务器上该用户数据包内。在制作端对上述经过处理的数据包进行文件类型、格式、数量、规格检查，当结果正确时，结束；当结果错误时，返回错误结果到制作端。

步骤3：在手持装置上，输入用户信息数据，通过通信单元与服务器连接验证用户信息，当结果为错误时，结束；当结果为正确时，从服务器输出该用户数据包：将三维场景模型、带通道的贴图模型、带通道的图片数据、AR工具包数据、可识别图像数据和音频数据存储到储存单元；

具体步骤为：通过三维引擎单元输出该数据包中的三维场景模型，将带通道的图片数据在带通道的贴图模型上贴图，使用装置的扬声器播放音频数据。

步骤5：使用交互单元对三维引擎输出的数据进行播放、暂停、跳过和停止的控制。具体步骤是：向交互单元输入播放命令，三维引擎开始输出三维场景模型、带通道的图片数据在带通道的贴图模型上贴图、音频数据；向交互单元输入暂停命令，三维引擎暂停并静止三维场景模型、带通道的图片数据在带通道的贴图模型上贴图、音频数据。当数据包中存储多个带通道的原始图片数据时，向交互单元输入跳过命令，三维引擎继续输出三维场景模型和音频数据并替换带通道的图片数据在带通道的贴图模型上贴图；向交互单元输入停止命令，三维引擎停止输出上述内容；将可识别图像从摄像头获取的现实世界持续图像范围内移开，三维引擎停止输入数据。

实施例3

2)由服务器向生产端输出数据库中二维场景图像模板，用户通过预览和选择模板，进而选择自己喜欢的原始图片数据和二维场景图像数据输入到该用户数据包中，将用于带通道贴图模型的原始图片数据指定为用于增强现实识别的标记图像；

步骤2：制作端连接服务器，从数据库中输出用户数据包中的原始图片数据和二维场景图像数据，将原始图片数据和二维场景图像数据输入到Adobe Photoshop图像处理程序，将用于带通道贴图模型的原始图片进行通道分离，移除非展示区域通道图像，将展示区域通道图像与二维场景图像合并输出为.jpeg文件输入到AR工具包并输出该图像的AR工具包数据到服务器上该用户数据包内，另外，将展示区域通道图像输出为.png文件后通过服务器输出到该用户数据包内。在制作端对上述经过处理的数据包进行文件类型、格式、数量、规格检查，当结果正确时，结束；当结果错误时，返回错误结果到制作端。

具体步骤为：通过三维引擎单元输出该数据包中的三维场景模型，将带通道的图片数据和在带通道的贴图模型上贴图，使用装置的扬声器播放音频数据。

Claims

应用于图像或视频的AR显示系统,其特征在于：包括生产端、制作端、服务器、存储单元、摄像头、AR处理单元和显示终端，生产端用于上传用原始生产数据到服务器；所述原始生产数据用户文字信息和用户原始场景组成；制作端用于将原始生产数据处理后合成场景制作数据；摄像头用于获取用户图像；服务器用于获取场景制作数据，用于将场景制作数据与服务器预置的三维场景模型中透明模型部分结合，用于用户图像、场景制作数据、三维场景模型、音频和用户文字信息的匹配；储存单元用于存储在服务器中匹配完毕的用户图片、场景制作数据、三维场景模型和音频；AR处理单元用于识别用户图像，用于将用户图像与存储单元中的三维场景模型、场景制作数据和音频结合并在显示终端上完成显示。
根据权利要求1所述的应用于图像或视频的AR显示系统,其特征在于：所述用户原始场景为用户场景图像。
根据权利要求1所述的应用于图像或视频的AR显示系统,其特征在于：所述用户原始场景为用户场景视频。
根据权利要求2所述的应用于图像或视频的AR显示系统,其特征在于：所述场景制作数据为模型贴图图像和可识别图像。
根据权利要求2所述的应用于图像或视频的AR显示系统,其特征在于：所述场景制作数据为模型贴图视频。
根据权利要求4所述的应用于图像或视频的AR显示系统,其特征在于：所述可识别图像是由服务器预置可识别图像模版与模型贴图图像通过制作端制作得到。
根据权利要求1所述的应用于图像或视频的AR显示系统,其特征在于：所述制作端通过Adobe Photoshop处理用户原始场景；所述AR处理单元为Vuforia AR单元。
根据权利要求4所述的应用于图像或视频的AR显示系统,其特征在于：所述模型贴图图像通过制作端合成可识别图像。
根据权利要求4所述的应用于图像或视频的AR显示系统,其特征在于：所述制作端将可识别图像提交AR处理单元形成可识别数据。
根据权利要求4所述的应用于图像或视频的AR显示系统,其特征在于：所述生产端通过服务器获取处理后的可识别图像。
应用于图像或视频的AR显示方法，其特征在于：

步骤1：用户通过生产端向服务器输入原始制作素材数据，包括一个或多个原始图片数据和/或原始视频数据，应用于用户身份信息验证的用户信息数据；具体步骤：

1)通过生产端向服务器输入用户信息数据，在数据库中创建该用户的数据包；

2)由服务器向生产端输出数据库中二维场景图像模板，用户通过预览和选择模板，进而选择自己喜欢的一个或多个自定义原始图片数据和/或原始视频数据，输入到该用户数据包中，将用于带通道贴图模型的所述自定义原始图片数据、额外一张原始图片数据或二维场景图像数据指定为用于增强现实识别的标记图像；

步骤2：制作端连接服务器，从数据库中输出用户数据包中的原始图片数据和/或原始视频数据，通过制作端对数据进行处理完成制作，之后处理后的数据输出到该用户数据包内；将该数据包内用于增强现实识别的标记图像输入到AR工具包并输出该图像的AR工具包数据到服务器上该用户数据包内，在制作端对上述经过处理的数据包进行文件类型、格式、数量、规格检查，当结果正确时，结束；当结果错误时，返回错误结果到制作端；

步骤3：在手持装置上，输入用户信息数据，通过通信单元与服务器连接验证用户信息，当结果为错误时，结束；当结果为正确时，从服务器输出该用户数据包：将三维场景模型、带通道的贴图模型、带通道的图片数据、压缩后的视频数据、AR工具包数据、可识别图像数据和音频数据存储到储存单元；

步骤4：使用运算单元通过AR引擎单元调取摄像头获取现实世界持续图像，并将可识别图像置于摄像头获取现实世界持续图像范围内，AR引擎单元根据可识别图像在现实世界中空间关系锚定显示位置，通过三维引擎单元输出数据包内容并在显示单元上显示。
根据权利要求11所述应用于图像或视频的AR显示方法，其特征在于：步骤2中，当数据包内仅包括原始视频数据和用于增强现实识别的标记图像，所述处理完成制作的过程为：将原始视频数据输入到视频压缩程序，将原始视频数据压缩后的.mp4文件通过服务器输出到该用户数据包内。
根据权利要求11所述应用于图像或视频的AR显示方法，其特征在于：步骤2中，当数据包内仅包括原始图片数据，所述处理完成制作的过程为：将原始图片数据输入到图像处理程序，将用于带通道贴图模型的原始图片进行通道分离，移除非展示区域通道图像，将展示区域通道图像输出为.png文件后通过服务器输出到该用户数据包内。
根据权利要求11所述应用于图像或视频的AR显示方法，其特征在于：步骤2中，当数据包内仅包括原始图片数据和二维场景图像数据，所述处理完成制作的过程为：将原始图片数据和二维场景图像数据输入到图像处理程序，将用于带通道贴图模型的原始图片进行通道分离，移除非展示区域通道图像，将展示区域通道图像与二维场景图像合并输出为.jpeg文件输入到AR工具包并输出该图像的AR工具包数据到服务器上该用户数据包内，另外，将展示区域通道图像输出为.png文件后通过服务器输出到该用户数据包内。
根据权利要求11所述应用于图像或视频的AR显示方法，其特征在于：步骤4的具体步骤为：通过三维引擎单元输出该数据包中的三维场景模型，将带通道的图片数据和/或压缩后的视频数据在带通道的贴图模型上贴图，使用装置的扬声器播放音频数据。
根据权利要求11所述应用于图像或视频的AR显示方法，其特征在于：方法还包括步骤5：使用交互单元对三维引擎输出的数据进行播放、暂停、跳过和停止的控制。
根据权利要求16所述应用于图像或视频的AR显示方法，其特征在于：步骤5的具体步骤是：向交互单元输入播放命令，三维引擎开始输出三维场景模型、带通道的图片数据和/或压缩后的视频数据在带通道的贴图模型上贴图、音频数据；向交互单元输入暂停命令，三维引擎暂停并静止三维场景模型、带通道的图片数据和/或压缩后的视频数据在带通道的贴图模型上贴图、音频数据。
根据权利要求17所述应用于图像或视频的AR显示方法，其特征在于：当数据包中存储多个带通道的原始图片数据和/或压缩后的视频数据时，向交互单元输入跳过命令，三维引擎继续输出三维场景模型和音频数据并替换带通道的图片数据和/或压缩后的视频数据在带通道的贴图模型上贴图；向交互单元输入停止命令，三维引擎停止输出上述内容；将可识别图像从摄像头获取的现实世界持续图像范围内移开，三维引擎停止输入数据。