CN106951881B

CN106951881B - 一种三维场景呈现方法、装置及系统

Info

Publication number: CN106951881B
Application number: CN201710203721.6A
Authority: CN
Inventors: 郭艳
Original assignee: Chengdu Huiyi Noga Culture Communication Co Ltd
Current assignee: Chengdu Huiyi Noga Culture Communication Co., Ltd.
Priority date: 2017-03-30
Filing date: 2017-03-30
Publication date: 2020-04-17
Anticipated expiration: 2037-03-30
Also published as: CN111191640B; CN106951881A; CN111191640A

Abstract

本发明公开了一种三维场景呈现方法、装置及系统，该方法包括：通过摄像头一次扫描待处理图片并对其进行图像识别，以判断待处理图片是否为预定场景图片；若待处理图片为预定场景图片，则向用户显示与预定场景图片关联的预定关键词；获取用户针对预定关键词而提供的语音信息，对语音信息进行语音识别，以判断其中是否包括预定关键词并获取语音信息包括的预定关键词；通过摄像头二次扫描待处理图片，在屏幕中显示待处理图片位于扫描区域内的图像；获取与语音信息包括的预定关键词关联的三维对象，并将其加载到图像上，以向用户呈现三维场景。

Description

一种三维场景呈现方法、装置及系统

技术领域

本发明涉及图像处理技术领域，特别涉及一种三维场景呈现方法、装置及系统。

背景技术

随着图像处理及相关技术的发展，越来越多的人投入到AR(Augmented Reality，增强现实)技术的研究中。AR技术，是在现实的基础上作场景合成，增添一部分信息来扩展人们手中掌握的数据，将虚拟的信息应用到真实世界当中，糅合真实的环境与虚拟的物体实时叠加到同一空间、同一场景、同一画面，涉及图像识别、图像匹配、三维建模、视频显示及控制等多种技术，并可应用于教学、广告、零售业、医疗健康和娱乐游戏等多个领域中。

比如在教学领域中，以AR图书为首的AR产品发展更为迅猛。AR图书，顾名思义，就是将AR技术应用在书籍上，它最大的特点就是让静态的图文“活”起来。通常情况下，用户通过手机、平板等移动终端的摄像头去扫描AR图书指定页码上的图片以进行图像识别，若图像识别成功，则在移动终端中与该AR图书关联的应用里显示出简单的动画或三维模型，从而向用户呈现出整体的三维场景。然而，这一处理过程中与用户之间几乎没有任何交互行为，无法根据用户的需求来进行显示，也没有提供实际动手操作的机会，用户体验较差，特别是对儿童这类特定用户而言，吸引力较低。而且，不仅是AR图书，其他AR产品中同样会出现以上问题，因此需要一种新的三维场景呈现方法来优化上述处理过程。

发明内容

为此，本发明提供一种三维场景呈现的技术方案，以力图解决或者至少缓解上面存在的问题。

根据本发明的一个方面，提供一种三维场景呈现方法，适于在移动终端中执行，移动终端包括数据存储设备，数据存储设备中存储有与预定场景图片关联的预定关键词，以及与预定关键词关联的三维对象，该方法包括如下步骤：通过摄像头一次扫描待处理图片并对其进行图像识别，以判断待处理图片是否为预定场景图片；若待处理图片为预定场景图片，则向用户显示与预定场景图片关联的预定关键词；获取用户针对预定关键词而提供的语音信息，对语音信息进行语音识别，以判断其中是否包括预定关键词并获取语音信息包括的预定关键词；通过摄像头二次扫描待处理图片，在屏幕中显示待处理图片位于扫描区域内的图像；从数据存储设备中获取与语音信息包括的预定关键词关联的三维对象，并将其加载到图像上，以向用户呈现三维场景。

可选地，在根据本发明的三维场景呈现方法中，数据存储设备中存储有对应于预定场景图片的图像特征集，通过摄像头一次扫描待处理图片并对其进行图像识，以判断待处理图片是否为预定场景图片的步骤包括：开启摄像头扫描待处理图片；获取待处理图片位于扫描区域内的图像；提取图像的特征点以生成待识别特征集；从数据存储设备中获取图像特征集，将待识别特征集与该图像特征集进行特征匹配；若匹配成功，则判断待处理图片为预定场景图片。

可选地，在根据本发明的三维场景呈现方法中，图像特征集包括多个图像特征点，将待识别特征集与该图像特征集进行特征匹配的步骤包括：将待识别特征集与该图像特征集进行特征匹配，统计匹配成功的特征点的数量作为匹配对数量；获取待识别特征集的特征点的数量作为第一数量，获取该图像特征集中图像特征点的数量作为第二数量；计算匹配对数量与第一数量和第二数量中较小值的比值作为图像匹配度；若图像匹配度大于第一阈值，则判断图像特征集匹配成功。

可选地，在根据本发明的三维场景呈现方法中，移动终端与网络服务器通信连接，网络服务器中存储有与预定场景图片关联的预定关键词，对语音信息进行语音识别，以判断其中是否包括预定关键词并获取语音信息包括的预定关键词的步骤包括：将语音信息发送至网络服务器，指示网络服务器对语音信息进行语音识别，以判断其中是否包括预定关键词；接收网络服务器返回的语音识别结果，根据语音识别结果获取语音信息包括的预定关键词。

可选地，在根据本发明的三维场景呈现方法中，网络服务器对语音信息进行语音识别，以判断其中是否包括预定关键词的步骤包括：接收移动终端发送的语音信息并对其进行语音识别；若语音信息中包括预设关键词，则将识别出的预设关键词作为语音识别结果，并将语音识别结果发送至对应的移动终端；若语音信息中不包括预设关键词，则将语音识别失败作为语音识别结果，并将语音识别结果发送至对应的移动终端。

可选地，在根据本发明的三维场景呈现方法中，通过摄像头二次扫描待处理图片，在屏幕中显示待处理图片位于扫描区域内的图像的步骤包括：通过摄像头二次扫描待处理图片并对其进行图像识别，以判断待扫描图片是否为预定场景图片；若待扫描图片为预定场景图片，则在屏幕中显示待处理图片位于扫描区域内的图像。

可选地，在根据本发明的三维场景呈现方法中，数据存储设备中存储有与三维对象关联的位置信息，位置信息用于将三维对象显示于预定场景图片中的预定位置，从数据存储设备中获取与语音信息包括的预定关键词关联的三维对象，并将其加载到图像上的步骤包括：根据语音信息包括的预定关键词，从数据存储设备中获取与该预定关键词关联的三维对象；根据获取到的三维对象，从数据存储设备中获取与该三维对象关联的位置信息；根据位置信息，将与其关联的三维对象加载到图像中对应的位置上。

可选地，在根据本发明的三维场景呈现方法中，还包括：在向用户呈现三维场景的同时，播放语音信息。

根据本发明的又一个方面，提供一种三维场景呈现装置，适于驻留在移动终端中，移动终端包括数据存储设备，数据存储设备中存储有与预定场景图片关联的预定关键词，以及与预定关键词关联的三维对象，该装置包括图像识别模块、第一显示模块、语音处理模块、第二显示模块、加载模块。其中，图像识别模块适于通过摄像头一次扫描待处理图片并对其进行图像识别，以判断待处理图片是否为预定场景图片；第一显示模块适于当待处理图片为预定场景图片时，向用户显示与预定场景图片关联的预定关键词；语音处理模块适于获取用户针对预定关键词而提供的语音信息，对语音信息进行语音识别，以判断其中是否包括预定关键词并获取语音信息包括的预定关键词；第二显示模块适于通过摄像头二次扫描待处理图片，在屏幕中显示待处理图片位于扫描区域内的图像；加载模块适于从数据存储设备中获取与语音信息包括的预定关键词关联的三维对象，并将其加载到图像上，以向用户呈现三维场景。

可选地，在根据本发明的三维场景呈现装置中，数据存储设备中存储有对应于预定场景图片的图像特征集，图像识别模块进一步适于：开启摄像头扫描待处理图片；获取待处理图片位于扫描区域内的图像；提取图像的特征点以生成待识别特征集；从数据存储设备中获取图像特征集，将待识别特征集与该图像特征集进行特征匹配；当匹配成功时，判断待处理图片为预定场景图片。

可选地，在根据本发明的三维场景呈现装置中，图像特征集包括多个图像特征点，图像识别模块进一步适于：将待识别特征集与该图像特征集进行特征匹配，统计匹配成功的特征点的数量作为匹配对数量；获取待识别特征集的特征点的数量作为第一数量，获取该图像特征集中图像特征点的数量作为第二数量；计算匹配对数量与第一数量和第二数量中较小值的比值作为图像匹配度；当图像匹配度大于第一阈值时，判断图像特征集匹配成功。

可选地，在根据本发明的三维场景呈现装置中，移动终端与网络服务器通信连接，网络服务器中存储有与预定场景图片关联的预定关键词，语音处理模块进一步适于：将语音信息发送至网络服务器，指示网络服务器对语音信息进行语音识别，以判断其中是否包括预定关键词；接收网络服务器返回的语音识别结果，根据语音识别结果获取语音信息包括的预定关键词。

可选地，在根据本发明的三维场景呈现装置中，第二显示模块进一步适于：通过摄像头二次扫描待处理图片，调用图像识别模块对待处理图片进行图像识别，以判断待扫描图片是否为预定场景图片；当待扫描图片为预定场景图片时，在屏幕中显示待处理图片位于扫描区域内的图像。

可选地，在根据本发明的三维场景呈现装置中，数据存储设备中存储有与三维对象关联的位置信息，位置信息用于将三维对象显示于预定场景图片中的预定位置，加载模块进一步适于：根据语音信息包括的预定关键词，从数据存储设备中获取与该预定关键词关联的三维对象；根据获取到的三维对象，从数据存储设备中获取与该三维对象关联的位置信息；根据位置信息，将与其关联的三维对象加载到图像中对应的位置上。

可选地，在根据本发明的三维场景呈现装置中，还包括播放模块，适于：在向用户呈现三维场景的同时，播放语音信息。

根据本发明的又一个方面，提供一种移动终端，包括根据本发明的三维场景呈现装置。

根据本发明的又一个方面，提供一种移动终端，包括一个或多个处理器、存储器、摄像头、显示屏幕以及存储于存储器中的一个或多个程序，其中一个或多个程序包括用于执行根据本发明的三维场景呈现方法中的指令，并被配置为由上述一个或多个处理器执行，以调用摄像头执行扫描处理以在显示屏幕上呈现三维场景。

根据本发明的又一个方面，还提供一种三维场景呈现系统，包括多个根据本发明的移动终端和根据本发明的网络服务器。

根据本发明的三维场景呈现的技术方案，首先通过摄像头一次扫描待处理图片并对其进行图像识别，若待处理图片为预定场景图片，则显示与预定场景图片关联的预定关键词，获取用户针对预定关键词提供的语音信息并对其进行语音识别，以获取语音信息包括的预定关键词，二次扫描待处理图片以显示其位于扫描区域内的图像，从数据存储设备中获取与语音信息包括的预定关键词关联的三维对象，并将其加载到图像上，以向用户呈现三维场景。在上述技术方案中，通过在屏幕上显示与预定场景图片关联的预定关键词以供用户选择，用户此时可根据自己选出一个或多个预定关键词，向移动终端发出由预定关键词构成的语音信息，提供了实际动手操作的机会，增强了用户的互动体验。而且，在进行语音信息识别时，考虑到网络服务器一般具有较高的运行速度及硬件配置，因此可以通过调用与移动终端通信连接的网络服务器来执行语音识别的过程，这样一方面提高了语音识别的效率，节约了时间成本，另一方面也有助于降低移动终端自身的运行负荷。在通过摄像头二次扫描待处理图片后，对待处理图片再次进行了图像识别，以保证扫描到的图片依旧是预定场景图片，避免因二次扫描图片有误而在屏幕中显示非预定场景图片的其他图片。最后呈现三维场景时，根据待显示的三维对象关联的位置信息，将对应的三维对象加载到图像中相应的位置，同时还可为用户播放之前针对预定关键词而提供的语音信息，将视觉的画面扩展到视听多方位的感知，大幅度提高了用户体验，尤其是能够提升对儿童这类特定用户的吸引力，进而有利于AR技术的大力发展。

附图说明

为了实现上述以及相关目的，本文结合下面的描述和附图来描述某些说明性方面，这些方面指示了可以实践本文所公开的原理的各种方式，并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述，本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开，相同的附图标记通常指代相同的部件或元素。

图1示出了根据本发明的一个实施例的三维场景呈现系统100的示意图；

图2示出了根据本发明的一个实施例的移动终端200的结构框图；

图3示出了根据本发明的一个实施例的三维场景呈现方法300的流程图；

图4示出了本发明一个实施例的三维场景呈现装置400的示意图；

图5示出了本发明又一个实施例的三维场景呈现装置500的示意图；以及

图6示出了根据本发明一个实施例的网络服务器600的示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1示出了根据本发明一个实施例的三维场景呈现系统100的示意图。应当指出，图1中的三维场景呈现系统100仅是示例性的，在具体的实践情况中，三维场景呈现系统100中可以有不同数量的移动终端和网络服务器，本发明对三维场景呈现系统100中所包括的移动终端和网络服务器的数量不做限制。如图1所示，三维场景呈现系统100包括移动终端200和网络服务器600。其中，网络服务器600和移动终端200通信连接，移动终端200可以是智能手机、平板电脑等，但不限于此。移动终端200中包括数据存储设备(图中未示出)，该数据存储设备中存储有与预定场景图片关联的预定关键词，以及与预定关键词关联的三维对象。

在以上三维场景呈现系统100中，用户首先通过移动终端200的摄像头扫描待处理图片，移动终端200对扫描到的图像进行图像识别以判断其是否为预定场景图片，若待处理图片为预定场景图片，则在屏幕上向用户显示与预定场景图片关联的预定关键词。此时，用户可从屏幕中的预定关键词中选出部分或所有，向移动终端200发出由这些预定关键词构成的语音信息，移动终端200录制好语音信息后，对语音信息进行语音识别。在该实施方式中，移动终端200是将语音信息发送至网络服务器600，由网络服务器600执行语音识别的处理，以判断语音信息中是否包括预定关键词，若语音信息中包括预设关键词，则将识别出的预设关键词作为语音识别结果并发送至移动终端200。需要说明的是，对语音识别的处理过程也可以在移动终端200中执行，此处并不做限制。移动终端200在接收到语音识别结果后，用户可再次通过移动终端200的摄像头扫描待处理图片，若待处理图片为预定场景图片，则在屏幕中会显示待处理图片位于扫描区域内的图像。最后，从数据存储设备中获取与语音信息包括的预定关键词关联的三维对象，并将其加载到该图像上，以向用户呈现三维场景，同时还可以播放之前用户针对选出的预定关键词而提供的语音信息，为用户带来了视听多方位的体验。

图2示出了根据本发明一个实施例的移动终端200的结构框图。移动终端200可以包括存储器接口202、一个或多个数据处理器、图像处理器和/或中央处理单元204，以及外围接口206。

存储器接口202、一个或多个处理器204和/或外围接口206既可以是分立元件，也可以集成在一个或多个集成电路中。在移动终端200中，各种元件可以通过一条或多条通信总线或信号线来耦合。传感器、设备和子系统可以耦合到外围接口206，以便帮助实现多种功能。

例如，运动传感器210、光线传感器212和距离传感器214可以耦合到外围接口206，以方便定向、照明和测距等功能。其他传感器216同样可以与外围接口206相连，例如定位系统(例如GPS接收机)、温度传感器、生物测定传感器或其他感测设备，由此可以帮助实施相关的功能。

相机子系统220和光学传感器222可以用于方便诸如记录照片和视频剪辑的相机功能的实现，其中所述相机子系统和光学传感器例如可以是电荷耦合器件(CCD)或互补金属氧化物半导体(厘米OS)光学传感器。可以通过一个或多个无线通信子系统224来帮助实现通信功能，其中无线通信子系统可以包括射频接收机和发射机和/或光(例如红外)接收机和发射机。无线通信子系统224的特定设计和实施方式可以取决于移动终端200所支持的一个或多个通信网络。例如，移动终端200可以包括被设计成支持LTE、3G、GSM网络、GPRS网络、EDGE网络、Wi-Fi或WiMax网络以及Bluebooth^TM网络的通信子系统224。

音频子系统226可以与扬声器228以及麦克风230相耦合，以便帮助实施启用语音的功能，例如语音识别、语音复制、数字记录和电话功能。I/O子系统240可以包括触摸屏控制器242和/或一个或多个其他输入控制器244。触摸屏控制器242可以耦合到触摸屏246。举例来说，该触摸屏246和触摸屏控制器242可以使用多种触摸感测技术中的任何一种来检测与之进行的接触和移动或是暂停，其中感测技术包括但不局限于电容性、电阻性、红外和表面声波技术。一个或多个其他输入控制器244可以耦合到其他输入/控制设备248，例如一个或多个按钮、摇杆开关、拇指旋轮、红外端口、USB端口、和/或指示笔之类的指点设备。所述一个或多个按钮(未显示)可以包括用于控制扬声器228和/或麦克风230音量的向上/向下按钮。

存储器接口202可以与存储器250相耦合。该存储器250可以包括高速随机存取存储器和/或非易失性存储器，例如一个或多个磁盘存储设备，一个或多个光学存储设备，和/或闪存存储器(例如NAND，NOR)。存储器250可以存储操作系统272，例如Android、iOS或是Windows Phone之类的操作系统。该操作系统272可以包括用于处理基本系统服务以及执行依赖于硬件的任务的指令。存储器250还可以存储应用274。在移动设备运行时，会从存储器250中加载操作系统272，并且由处理器204执行。应用274在运行时，也会从存储器250中加载，并由处理器204执行。应用274运行在操作系统之上，利用操作系统以及底层硬件提供的接口实现各种用户期望的功能，如即时通信、网页浏览、图片管理等。应用274可以是独立于操作系统提供的，也可以是操作系统自带的。另外，应用274被安装到移动终端200中时，也可以向操作系统添加驱动模块。在上述各种应用274中，其中的一种应用为根据本发明的三维场景呈现装置400。应用274还包括根据本发明的数据存储设备290，数据存储设备290中存储有与预定场景图片关联的预定关键词，以及与预定关键词关联的三维对象。

图3示出了根据本发明一个实施例的三维场景呈现方法300的流程图。三维场景呈现方法300适于在移动终端200(例如图2所示的移动终端200)中执行。

如图3所示，方法300始于步骤S310。在步骤S310中，通过摄像头一次扫描待处理图片并对其进行图像识别，以判断待处理图片是否为预定场景图片。根据本发明的一个实施例，数据存储设备290中存储有对应与预定场景图片的图像特征集。根据该实施方式，可以通过以下方式来判断待处理图片是否为预定场景图片。首先，用户通过移动终端200开启摄像头扫描待处理图片，移动终端200在扫描完成后获取待处理图片位于扫描区域内的图像，并提取该图像的特征点以生成待识别特征集。关于提取图像特征点以生成待识别特征集的处理过程，可按照下列方式来执行。首先根据该图像生成对应的图像尺度空间，然后检测图像尺度空间中的局部极值点，再通过剔除低对比度点和边缘响应点对局部极值点进行精确定位，最终得到能够反映图像特征的特征点。在该实施方式中，能够反映图像特征的特征点共计189个。在对特征点进行描述时，先计算每个极值点的主方向，对极值点为中心的区域进行直方图梯度方向统计，生成特征描述子。至此，将上述能够反映图像特征的特征点生成待识别特征集。上述对图像进行特征点提取的算法可选用现有技术中的关于特征点提取的成熟算法，此处不予以赘述，所有这些对于了解本发明方案的技术人员来说是可以容易想到的，并且也在本发明的保护范围之内。

在生成待处理图片对应的待识别特征集后，从数据存储设备290中获取图像特征集，将待识别特征集与该图像特征集进行特征匹配，若匹配成功，则判断待处理图片为预定场景图片。根据本发明的一个实施例，数据存储设备290中所存储的图像特征集包括多个图像特征点。在该实施方式中，数据存储设备290共存储有50个图像匹配集，各图像匹配集的名称依次为A1～A50，分别对应不同的预定场景图片P1～P50，换言之，图像匹配集与预定场景图片之间是一一对应的关系，因此与预定场景图片关联的预定关键词，可视为与该预定场景图片对应的图像特征集关联，即每个图像匹配集都存在有与其关联的预定关键词。表1示出了根据本发明一个实施例的图像匹配集相关数据的存储示例，为便于描述，表1中未包含各图像特征点所对应的特征描述子、预定场景图片的名称以及各预定关键词关联的三维对象，具体如下所示：

图像匹配集	图像特征点数量	预定关键词
			A1	276	老虎、狐狸、小白兔、萝卜、森林
A2	179	小鱼、小虾、水草、池塘
			A3	225	奔驰、熊猫、小鸡、猴子、鹦鹉、马戏团
……	……	……
			A25	78	小和尚、二和尚、大和尚、水桶、井、寺庙
A26	357	小蝌蚪、鲤鱼、乌龟、青蛙、荷叶、小溪
			……	……	……
A49	196	小猪、狼、草房子、木房子、砖房子、草原
			A50	208	课桌、椅子、黑板、粉笔、窗户、教室

表1

如表1所示，图像匹配集A1～A50分别具有相应的图像特征点及关联的预定关键词，比如图像匹配集A1包括了276个图像特征点，与其关联的预定关键词有5个，分别是老虎、狐狸、小白兔、萝卜和森林。一般情况下，在执行特征匹配时，是将待识别特征集依次与图像匹配集A1～A50进行特征匹配，这一过程中若某一个图像匹配集匹配成功，则判断待处理图片为匹配成功的图像匹配集对应的预定场景图片，若不存在匹配成功的图像匹配集，则判断待处理图片不是任何一张预定场景图片。根据该实施方式，可以通过以下方法将待识别特征集与该图像匹配集进行特征匹配。首先，将待识别特征集与该图像特征集进行特征匹配，统计匹配成功的特征点的数量作为匹配对数量。上述进行特征匹配的算法可选用现有技术中的关于特征匹配的成熟算法，此处不予以赘述，所有这些对于了解本发明方案的技术人员来说是可以容易想到的，并且也在本发明的保护范围之内。以图像匹配集A1为例，将待识别特征集与图像匹配集A1进行特征匹配后，统计匹配成功的特征点的数量为30，则匹配对数量为30。接下来，获取待识别特征集的特征点的数量作为第一数量，获取该图像特征集A1中图像特征点的数量作为第二数量，得到第一数量和第二数量分别为189和225，并计算匹配对数量与第一数量和第二数量中较小值的比值作为图像匹配度，可得图像匹配度为30/189＝0.159。最后，比较图像匹配度与第一阈值的大小，若图像匹配度大于第一阈值，则判断图像特征集匹配成功。在该实施方式中，优选地，第一阈值为0.75，由于图像匹配度大于第一阈值，由于图像匹配度远小于第一阈值，则判断图像特征集A1匹配失败，此时继续将待识别特征集依次与剩下的各图像匹配集进行特征匹配，直至出现匹配成功的图像特征集。根据该实施方式，最终得到匹配成功的图像特征集为图像特征集A3，表明待处理图片为图像特征集A3对应的预定场景图片P3。

随后，进入步骤S320，若待处理图片为预定场景图片，则向用户显示与预定场景图片关联的预定关键词。根据本发明的一个实施例，待处理图片为预定场景图片P3，则向用户显示与预定场景图片P3关联的6个预定关键词，分别是奔驰、熊猫、小鸡、猴子、鹦鹉和马戏团。

接下来，在步骤S330中，获取用户针对预定关键词而提供的语音信息，对语音信息进行语音识别，以判断其中是否包括预定关键词并获取语音信息包括的预定关键词。根据本发明的一个实施例，当移动终端200的屏幕中显示了上述6个预定关键词后，用户可以从这6个预定关键词中选择1个或多个来组织语言以形成短句或小故事等内容，并通过讲述的方式将上述内容表达出来以便移动终端200进行录制，以获取对应的语音信息。比如用户在讲述内容前，可以在屏幕上点击“确定”或“开始录制”等按钮以触发录音事件，此时移动终端200将响应用户的录制操作，获取用户针对预定关键词而提供的语音信息。在该实施方式中，录制得到的语音信息为“小鸡在舞台上跳舞，猴子在表演钻火圈，鹦鹉叽叽喳喳和观众们打招呼，热闹极了”。

在获取到语音信息后，开始对语音信息进行语音识别。根据本发明的一个实施例，移动终端200与网络服务器600通信连接，网络服务器600中存储有与预定场景图片关联的预定关键词，因此在该实施方式中可利用网络服务器600来执行语音识别的处理。首先，移动终端200将语音信息发送至网络服务器600，指示网络服务器600对语音信息进行语音识别，以判断其中是否包括预定关键词。而网络服务器600接收到移动终端200发送的语音信息后，先对该语音信息进行语音识别，若语音信息中包括预设关键词，则将识别出的预设关键词作为语音识别结果，若语音信息中不包括预设关键词，则将语音识别失败作为语音识别结果，再将语音识别结果发送至对应的移动终端。上述进行语音识别的算法可选用现有技术中的关于语音识别的成熟算法，此处不予以赘述，所有这些对于了解本发明方案的技术人员来说是可以容易想到的，并且也在本发明的保护范围之内。对于语音信息“小鸡在舞台上跳舞，猴子在表演钻火圈，鹦鹉叽叽喳喳和观众们打招呼，热闹极了”而言，网络服务器600对其识别处理后可知，该语音信息中包括3个与预定场景图片P3关联的预定关键词，分别是小鸡、猴子和鹦鹉，因此将这3个识别出的预设关键词作为语音识别结果，并将该语音识别结果发送至移动终端200。此时，移动终端200接收网络服务器600返回的语音识别结果，根据语音识别结果获取语音信息包括的预定关键词，最终得到小鸡、猴子和鹦鹉这3个预定关键词。

而根据本发明的又一个实施例，虽然在步骤S320中向用户显示与预定场景图片P3关联的预定关键词，但用户并未针对这些预定关键词而提供相应的语音信息，从而网络服务器600对语音信息进行语音识别后判断其中不包括预设关键词，因此将语音识别失败作为语音识别结果发送至移动终端200。移动终端200接收网络服务器返回的这一语音识别结果后，可提示用户再次发出包含预定关键词的语音信息以便后续呈现相应的三维场景。

在获取到语音信息中包括的预定关键词后，开始执行步骤S340，通过摄像头二次扫描待处理图片，在屏幕中显示待处理图片位于扫描区域内的图像。根据本发明的一个实施例，在通过摄像头二次扫描待处理图片获得扫描区域内的图像后，先对该图像进行图像识别处理，以判断待扫描图片是否为预定场景图片。之所以对扫描到的图像进行图像识别处理，是为了避免出现因用户二次扫描与一次扫描的待处理图片不一致，而导致屏幕中显示出与后续加载的三维对象不对应的预定场景图片。关于图像识别的具体步骤，可参考步骤S310中对待处理图片进行图像识别的处理过程，此处不予以赘述。进一步地，若待扫描图片为预定场景图片，则在屏幕中显示待处理图片位于扫描区域内的图像，若待扫描图片不是预定场景图片，则可提示用户扫描图片有误，请再次扫描。在该实施方式，通过摄像头二次扫描的待处理图片为预定场景图片P3，则在屏幕中显示预定场景图片P3位于扫描区域内的图像。

最后，进入步骤S350，从数据存储设备290中获取与语音信息包括的预定关键词关联的三维对象，并将其加载到图像上，以向用户呈现三维场景。根据本发明的一个实施例，数据存储设备290中存储有与三维对象关联的位置信息，位置信息用于将三维对象显示于预定场景图片中的预定位置，表2示出了根据本发明一个实施例的三维对象关联的位置信息的存储示例，为便于描述，表2中只展示了预定场景图片的名称、预定关键词、三维对象和位置信息，具体如下所示：

表2

由表2可知，数据存储设备290中共计存储有279个与各预定关键词分别关联的三维对象D1～D279，以及与各三维对象D1～D279依次对应的位置信息S1～S279。根据表2中的内容，可以通过以下方式来将与语音信息包括的预定关键词关联的三维对象加载到图像上。首先根据语音信息包括的预定关键词，从数据存储设备290中获取与该预定关键词关联的三维对象，在步骤S330中得到语音信息包括的预定关键词为小鸡、猴子和鹦鹉，则可得到小鸡、猴子和鹦鹉分别关联的三维对象D12、D13和D14。随后，根据获取到的三维对象，从数据存储设备290中获取与该三维对象关联的位置信息，则获得与预定关键词“小鸡”的三维对象D12关联的位置信息S12，与预定关键词“猴子”的三维对象D13关联的位置信息S13，以及与预定关键词“鹦鹉”的三维对象D14关联的位置信息S14。最后根据位置信息S12、S13和S14，将与其关联的三维对象D12、D13和D14加载到图像中对应的位置上，向用户呈现出相应的三维场景。为了更好地提供给用户视听上的享受，根据本发明的又一个实施例，在呈现三维场景的同时，播放用户之前针对预定关键词而提供的语音信息，以此进一步提升用户体验。

图4示出了本发明一个实施例的三维场景呈现装置400的示意图。如图4所示，三维场景呈现装置400驻留在移动终端200中，移动终端200包括数据存储设备290，并与网络服务器600通信连接。三维场景呈现装置400包括图像识别模块410、第一显示模块420、语音处理模块430、第二显示模块440和加载模块450。

图像识别模块410适于通过摄像头一次扫描待处理图片并对其进行图像识别，以判断待处理图片是否为预定场景图片。数据存储设备290中存储有对应于预定场景图片的图像特征集，图像识别模块410进一步适于开启摄像头扫描待处理图片；获取待处理图片位于扫描区域内的图像；提取图像的特征点以生成待识别特征集；从数据存储设备290中获取图像特征集，将待识别特征集与该图像特征集进行特征匹配；当匹配成功时，判断待处理图片为预定场景图片。其中，图像特征集包括多个图像特征点，图像识别模块410进一步适于将待识别特征集与该图像特征集进行特征匹配，统计匹配成功的特征点的数量作为匹配对数量；获取待识别特征集的特征点的数量作为第一数量，获取该图像特征集中图像特征点的数量作为第二数量；计算匹配对数量与第一数量和第二数量中较小值的比值作为图像匹配度；当图像匹配度大于第一阈值时，判断图像特征集匹配成功。

第一显示模块420与图像识别模块410相连，适于当待处理图片为预定场景图片时，向用户显示与预定场景图片关联的预定关键词。

语音处理模块430与第一显示模块420相连，适于获取用户针对预定关键词而提供的语音信息，对语音信息进行语音识别，以判断其中是否包括预定关键词并获取语音信息包括的预定关键词。移动终端200与网络服务器600通信连接，网络服务器600中存储有与预定场景图片关联的预定关键词，语音处理模块430进一步适于将语音信息发送至网络服务器600，指示网络服务器600对语音信息进行语音识别，以判断其中是否包括预定关键词；接收网络服务器600返回的语音识别结果，根据语音识别结果获取语音信息包括的预定关键词。

第二显示模块440分别与图像识别模块410和语音处理模块430相连，适于通过摄像头二次扫描待处理图片，在屏幕中显示待处理图片位于扫描区域内的图像。第二显示模块进一步440适于通过摄像头二次扫描待处理图片，调用图像识别模块对待处理图片进行图像识别，以判断待扫描图片是否为预定场景图片；当待扫描图片为预定场景图片时，在屏幕中显示待处理图片位于扫描区域内的图像。

加载模块450与第二显示模块440相连，适于从数据存储设备290中获取与语音信息包括的预定关键词关联的三维对象，并将其加载到图像上，以向用户呈现三维场景。数据存储设备290中存储有与三维对象关联的位置信息，位置信息用于将三维对象显示于预定场景图片中的预定位置，加载模块450进一步适于根据语音信息包括的预定关键词，从数据存储设备290中获取与该预定关键词关联的三维对象；根据获取到的三维对象，从数据存储设备290中获取与该三维对象关联的位置信息；根据位置信息，将与其关联的三维对象加载到图像中对应的位置上。

图5示出了根据本发明又一个实施例的三维场景呈现装置500的示意图。如图5所示，三维场景呈现装置500驻留在移动终端200中，移动终端200包括数据存储设备290，并与网络服务器600通信连接。三维场景呈现装置500的图像识别模块510、第一显示模块520、语音处理模块530、第二显示模块540和加载模块550，分别与图4中三维场景呈现装置400的图像识别模块410、第一显示模块420、语音处理模块430、第二显示模块440和加载模块450一一对应，是一致的，并新增了与加载模块550相连的播放模块560，播放模块560适于在向用户呈现三维场景的同时，播放语音信息。

图6示出了根据本发明一个实施例的网络服务器600的示意图。如图6所示，网络服务器600与移动终端200通信连接，网络服务器600中存储有与预定场景图片关联的预定关键词，包括接收模块610、语音识别模块620、获取模块630和发送模块640。

接收模块610适于接收移动终端200发送的语音信息。

语音识别模块620与接收模块610相连，适于对接收到的语音消息进行语音识别。

获取模块630与语音识别模块620相连，适于当语音信息中包括预设关键词时，将识别出的预设关键词作为语音识别结果，当语音信息中不包括预设关键词时，将语音识别失败作为语音识别结果；

发送模块640与获取模块630相连，适于将语音识别结果发送至对应的移动终端200。

关于三维场景呈现的具体步骤以及实施例，在基于图3的描述中已经详细公开，此处不再赘述。

现有的三维场景呈现技术在整个处理过程中与用户之间几乎没有任何交互行为，无法根据用户的需求来进行显示，也没有提供实际动手操作的机会，用户体验较差，特别是对儿童这类特定用户而言，吸引力较低。根据本发明实施例的三维场景呈现的技术方案，首先通过摄像头一次扫描待处理图片并对其进行图像识别，若待处理图片为预定场景图片，则显示与预定场景图片关联的预定关键词，获取用户针对预定关键词提供的语音信息并对其进行语音识别，以获取语音信息包括的预定关键词，二次扫描待处理图片以显示其位于扫描区域内的图像，从数据存储设备中获取与语音信息包括的预定关键词关联的三维对象，并将其加载到图像上，以向用户呈现三维场景。在上述技术方案中，通过在屏幕上显示与预定场景图片关联的预定关键词以供用户选择，用户此时可根据自己选出一个或多个预定关键词，向移动终端发出由预定关键词构成的语音信息，提供了实际动手操作的机会，增强了用户的互动体验。而且，在进行语音信息识别时，考虑到网络服务器一般具有较高的运行速度及硬件配置，因此可以通过调用与移动终端通信连接的网络服务器来执行语音识别的过程，这样一方面提高了语音识别的效率，节约了时间成本，另一方面也有助于降低移动终端自身的运行负荷。在通过摄像头二次扫描待处理图片后，对待处理图片再次进行了图像识别，以保证扫描到的图片依旧是预定场景图片，避免因二次扫描图片有误而在屏幕中显示非预定场景图片的其他图片。最后呈现三维场景时，根据待显示的三维对象关联的位置信息，将对应的三维对象加载到图像中相应的位置，同时还可为用户播放之前针对预定关键词而提供的语音信息，将视觉的画面扩展到视听多方位的感知，大幅度提高了用户体验，尤其是能够提升对儿童这类特定用户的吸引力，进而有利于AR技术的大力发展。

A7.如A1-6中任一项所述的方法，所述数据存储设备中存储有与所述三维对象关联的位置信息，所述位置信息用于将所述三维对象显示于所述预定场景图片中的预定位置，所述从数据存储设备中获取与所述语音信息包括的预定关键词关联的三维对象，并将其加载到所述图像上的步骤包括：

根据所述语音信息包括的预定关键词，从所述数据存储设备中获取与该预定关键词关联的三维对象；

根据获取到的三维对象，从所述数据存储设备中获取与该三维对象关联的位置信息；

根据所述位置信息，将与其关联的三维对象加载到所述图像中对应的位置上。

A8.如A1-8中任一项所述的方法，还包括：

在向用户呈现三维场景的同时，播放所述语音信息。

B10.如B9所述的装置，所述数据存储设备中存储有对应于预定场景图片的图像特征集，所述图像识别模块进一步适于：

开启摄像头扫描待处理图片；

获取待处理图片位于扫描区域内的图像；

提取所述图像的特征点以生成待识别特征集；

从数据存储设备中获取所述图像特征集，将待识别特征集与该图像特征集进行特征匹配；

当匹配成功时，判断所述待处理图片为预定场景图片。

B11.如B10所述的装置，所述图像特征集包括多个图像特征点，所述图像识别模块进一步适于：

将待识别特征集与该图像特征集进行特征匹配，统计匹配成功的特征点的数量作为匹配对数量；

获取待识别特征集的特征点的数量作为第一数量，获取该图像特征集中图像特征点的数量作为第二数量；

计算匹配对数量与第一数量和第二数量中较小值的比值作为图像匹配度；

当所述图像匹配度大于第一阈值时，判断所述图像特征集匹配成功。

B12.如B9-11中任一项所述的装置，所述移动终端与网络服务器通信连接，所述网络服务器中存储有与预定场景图片关联的预定关键词，所述语音处理模块进一步适于：

将所述语音信息发送至网络服务器，指示网络服务器对所述语音信息进行语音识别，以判断其中是否包括预定关键词；

接收网络服务器返回的语音识别结果，根据所述语音识别结果获取所述语音信息包括的预定关键词。

B13.如B9-12中任一项所述的装置，所述第二显示模块进一步适于：

通过摄像头二次扫描待处理图片，调用所述图像识别模块对所述待处理图片进行图像识别，以判断所述待扫描图片是否为预定场景图片；

当所述待扫描图片为预定场景图片时，在屏幕中显示待处理图片位于扫描区域内的图像。

B14.如B9-13中任一项所述的装置，所述数据存储设备中存储有与所述三维对象关联的位置信息，所述位置信息用于将所述三维对象显示于所述预定场景图片中的预定位置，所述加载模块进一步适于：

B15.如B9-14中任一项所述的方法，还包括播放模块，适于：

在向用户呈现三维场景的同时，播放所述语音信息。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组间可以布置在如该实施例中所描述的设备中，或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组间组合成一个模块或单元或组间，以及此外可以把它们分成多个子模块或子单元或子组间。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

此外，所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此，具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外，装置实施例的在此所述的元素是如下装置的例子：该装置用于实施由为了实施该发明的目的的元素所执行的功能。

这里描述的各种技术可结合硬件或软件，或者它们的组合一起实现。从而，本发明的方法和设备，或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介，例如软盘、CD-ROM、硬盘驱动器或者其它任意机器可读的存储介质中的程序代码(即指令)的形式，其中当程序被载入诸如计算机之类的机器，并被所述机器执行时，所述机器变成实践本发明的设备。

在程序代码在可编程计算机上执行的情况下，计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件)，至少一个输入装置，和至少一个输出装置。其中，存储器被配置用于存储程序代码；处理器被配置用于根据该存储器中存储的所述程序代码中的指令，执行本发明的三维场景呈现方法。

以示例而非限制的方式，计算机可读介质包括计算机存储介质和通信介质。计算机可读介质包括计算机存储介质和通信介质。计算机存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据，并且包括任何信息传递介质。以上的任一种的组合也包括在计算机可读介质的范围之内。

如在此所使用的那样，除非另行规定，使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例，并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种三维场景呈现方法，适于在移动终端中执行，所述移动终端包括数据存储设备，所述数据存储设备中存储有与预定场景图片关联的一个或多个预定关键词、与每个关键词关联的三维对象，以及与所述三维对象关联的位置信息，所述位置信息用于将所述三维对象显示于所述预定场景图片中的预定位置，所述方法包括：

通过摄像头一次扫描待处理图片并对其进行图像识别，以判断所述待处理图片是否为预定场景图片；

若所述待处理图片为预定场景图片，则向用户显示与所述预定场景图片关联的预定关键词；

获取用户针对所述预定关键词而提供的语音信息，对所述语音信息进行语音识别，以判断其中是否包括预定关键词并获取所述语音信息包括的预定关键词；

通过摄像头二次扫描待处理图片，在屏幕中显示待处理图片位于扫描区域内的图像；

根据所述位置信息，将与其关联的三维对象加载到所述图像中对应的位置上，以向用户呈现三维场景。

2.如权利要求1所述的方法，所述数据存储设备中存储有对应于预定场景图片的图像特征集，所述通过摄像头一次扫描待处理图片并对其进行图像识，以判断所述待处理图片是否为预定场景图片的步骤包括：

开启摄像头扫描待处理图片；

获取待处理图片位于扫描区域内的图像；

提取所述图像的特征点以生成待识别特征集；

若匹配成功，则判断所述待处理图片为预定场景图片。

3.如权利要求2所述的方法，所述图像特征集包括多个图像特征点，所述将待识别特征集与该图像特征集进行特征匹配的步骤包括：

若所述图像匹配度大于第一阈值，则判断所述图像特征集匹配成功。

4.如权利要求1所述的方法，所述移动终端与网络服务器通信连接，所述网络服务器中存储有与预定场景图片关联的预定关键词，所述对所述语音信息进行语音识别，以判断其中是否包括预定关键词并获取所述语音信息包括的预定关键词的步骤包括：

5.如权利要求4所述的方法，所述网络服务器对所述语音信息进行语音识别，以判断其中是否包括预定关键词的步骤包括：

接收移动终端发送的语音信息并对其进行语音识别；

若所述语音信息中包括预设关键词，则将识别出的预设关键词作为语音识别结果，并将所述语音识别结果发送至对应的移动终端；

若所述语音信息中不包括预设关键词，则将语音识别失败作为语音识别结果，并将所述语音识别结果发送至对应的移动终端。

6.如权利要求1所述的方法，所述通过摄像头二次扫描待处理图片，在屏幕中显示待处理图片位于扫描区域内的图像的步骤包括：

通过摄像头二次扫描待处理图片并对其进行图像识别，以判断所述待处理图片是否为预定场景图片；

若所述待处理图片为预定场景图片，则在屏幕中显示待处理图片位于扫描区域内的图像。

7.如权利要求1-6中任一项所述的方法，还包括：

在向用户呈现三维场景的同时，播放所述语音信息。

8.一种三维场景呈现装置，适于驻留在移动终端中，所述移动终端包括数据存储设备，所述数据存储设备中存储有与预定场景图片关联的一个或多个预定关键词、以及与每个预定关键词关联的三维对象，以及与所述三维对象关联的位置信息，所述位置信息用于将所述三维对象显示于所述预定场景图片中的预定位置，所述装置包括：

图像识别模块，适于通过摄像头一次扫描待处理图片并对其进行图像识别，以判断所述待处理图片是否为预定场景图片；

第一显示模块，适于当所述待处理图片为预定场景图片时，向用户显示与所述预定场景图片关联的预定关键词；

语音处理模块，适于获取用户针对所述预定关键词而提供的语音信息，对所述语音信息进行语音识别，以判断其中是否包括预定关键词并获取所述语音信息包括的预定关键词；

第二显示模块，适于通过摄像头二次扫描待处理图片，在屏幕中显示待处理图片位于扫描区域内的图像；

加载模块，适于从数据存储设备中获取与所述语音信息包括的预定关键词关联的三维对象，根据获取到的三维对象，从所述数据存储设备中获取与该三维对象关联的位置信息，根据所述位置信息，将与其关联的三维对象加载到所述图像中对应的位置上，以向用户呈现三维场景。

9.如权利要求8所述的装置，所述数据存储设备中存储有对应于预定场景图片的图像特征集，所述图像识别模块进一步适于：

开启摄像头扫描待处理图片；

获取待处理图片位于扫描区域内的图像；

提取所述图像的特征点以生成待识别特征集；

当匹配成功时，判断所述待处理图片为预定场景图片。

10.如权利要求9所述的装置，所述图像特征集包括多个图像特征点，所述图像识别模块进一步适于：

11.如权利要求8-10中任一项所述的装置，所述移动终端与网络服务器通信连接，所述网络服务器中存储有与预定场景图片关联的预定关键词，所述语音处理模块进一步适于：

12.如权利要求8-10中任一项所述的装置，所述第二显示模块进一步适于：

通过摄像头二次扫描待处理图片，调用所述图像识别模块对所述待处理图片进行图像识别，以判断所述待处理图片是否为预定场景图片；

当所述待处理图片为预定场景图片时，在屏幕中显示待处理图片位于扫描区域内的图像。

13.如权利要求8-10中任一项所述的装置，所述数据存储设备中存储有与所述三维对象关联的位置信息，所述位置信息用于将所述三维对象显示于所述预定场景图片中的预定位置，所述加载模块进一步适于：

14.如权利要求8-10中任一项所述的装置，还包括播放模块，适于：

在向用户呈现三维场景的同时，播放所述语音信息。

15.一种移动终端，包括如权利要求8-14中任一项所述的三维场景呈现装置。

16.一种移动终端，包括：

一个或多个处理器；

存储器；

摄像头；

显示屏幕；以及

存储于所述存储器中的一个或多个程序，其中所述一个或多个程序包括用于执行根据权利要求1-7所述的方法中的任一方法的指令，并被配置为由所述一个或多个处理器执行，以调用所述摄像头执行扫描处理以在所述显示屏幕上呈现三维场景。

17.一种三维场景呈现系统，包括：

多个如权利要求16所述的移动终端；和

与移动终端通信连接的网络服务器，所述网络服务器中存储有与预定场景图片关联的预定关键词，并能对语音信息进行语音识别，以判断其中是否包括预定关键词。