CN112367426A

CN112367426A - 虚拟对象显示方法及装置、存储介质和电子设备

Info

Publication number: CN112367426A
Application number: CN202011241693.5A
Authority: CN
Inventors: 金珂; 李姬俊男
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2020-11-09
Filing date: 2020-11-09
Publication date: 2021-02-12
Anticipated expiration: 2040-11-09
Also published as: EP4243390A4; CN112367426B; EP4243390A1; US20230274471A1; WO2022095537A1

Abstract

本公开提供了一种虚拟对象显示方法、虚拟对象显示装置、计算机可读存储介质和电子设备，涉及增强现实技术领域。该虚拟对象显示方法包括：对第一设备进行定位，以确定第一设备在目标坐标系下的位姿；确定第二设备在目标坐标系下的位姿，第二设备用于播放音频；确定与音频对应的虚拟对象，并基于第二设备在目标坐标系下的位姿，确定虚拟对象在目标坐标系下的位姿；在第二设备播放音频的情况下，根据第一设备在目标坐标系下的位姿以及虚拟对象在目标坐标系下的位姿，将虚拟对象显示在第一设备的显示界面上。本公开可以结合增强现实技术显示出与音频对应的虚拟对象，有助于声音的可视化表达。

Description

虚拟对象显示方法及装置、存储介质和电子设备

技术领域

本公开涉及增强现实技术领域，具体而言，涉及一种虚拟对象显示方法、虚拟对象显示装置、计算机可读存储介质和电子设备。

背景技术

声音作为信息传递的一种重要方式，带给人们的是沟通交流时的便利、是享受音乐时的愉悦、是面临危险时的预警。然而，人类的听觉器官仅能分辨固定频段的声音类型，如果声音仅限于听觉感知，则信息的传递会受到限制。随着各类技术的发展，声音可视化已经成为人们所追求的对象。

目前，声音可视化仍局限于利用真实物体的运动来呈现，可视化表达效果欠佳，不能准确地反映声音传递的信息，并且需要真实物体进行配合，成本较大。

发明内容

本公开提供一种拟对象显示方法、虚拟对象显示装置、计算机可读存储介质和电子设备，进而至少在一定程度上克服声音可视化表达效果欠佳且成本较大的问题。

根据本公开的第一方面，提供了一种虚拟对象显示方法，应用于第一设备，该虚拟对象显示方法包括：对第一设备进行定位，以确定第一设备在目标坐标系下的位姿；确定第二设备在目标坐标系下的位姿，第二设备用于播放音频；确定与音频对应的虚拟对象，并基于第二设备在目标坐标系下的位姿，确定虚拟对象在目标坐标系下的位姿；在第二设备播放音频的情况下，根据第一设备在目标坐标系下的位姿以及虚拟对象在目标坐标系下的位姿，将虚拟对象显示在第一设备的显示界面上。

根据本公开的第二方面，提供了一种虚拟对象显示装置，应用于第一设备，该虚拟对象显示装置包括：定位模块，用于对第一设备进行定位，以确定第一设备在目标坐标系下的位姿；位姿确定模块，用于确定第二设备在目标坐标系下的位姿，第二设备用于播放音频；虚拟对象确定模块，用于确定与音频对应的虚拟对象，并基于第二设备在目标坐标系下的位姿，确定虚拟对象在目标坐标系下的位姿；虚拟对象显示模块，用于在第二设备播放音频的情况下，根据第一设备在目标坐标系下的位姿以及虚拟对象在目标坐标系下的位姿，将虚拟对象显示在第一设备的显示界面上。

根据本公开的第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述的虚拟对象显示方法。

根据本公开的第四方面，提供了一种电子设备，包括处理器；存储器，用于存储一个或多个程序，当一个或多个程序被处理器执行时，使得所述处理器实现上述的虚拟对象显示方法。

在本公开的一些实施例所提供的技术方案中，分别确定第一设备和第二设备在目标坐标系下的位姿，确定第二设备播放的音频所对应的虚拟对象，基于第二设备在目标坐标系下的位姿确定虚拟对象在目标坐标系下的位姿，并根据第一设备在目标坐标系下的位姿以及虚拟对象在目标坐标系下的位姿，将虚拟对象显示在第一设备的显示界面上。一方面，本公开结合增强现实的技术，在第一设备的显示界面上配置出与音频对应的虚拟对象，可以实现声音可视化；另一方面，在采用真实物体的运动来表达声音的一些技术中，鉴于真实物体受环境影响较大，可能出现声音表达不准确的问题，而本公开方案的虚拟对象可以通过计算机技术配置出，由计算机配置出的虚拟对象避免了环境干扰，往往可以更加准确地反映出声音所要传递的内容，声音可视化的表达效果得到了提升；再一方面，由于本公开方案声音可视化的方案不需要其他真实物体来实现，大大减小了实现声音可视化的成本；又一方面，本公开声音可视化的方案通过计算机算法实现，通用性强。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出了本公开实施方式的虚拟对象显示方案的示例性系统架构的示意图；

图2示出了适于用来实现本公开实施例的电子设备的结构示意图；

图3示意性示出了根据本公开的示例性实施方式的虚拟对象显示方法的流程图；

图4示意性示出了根据本公开的示例性实施方式的地图构建过程的流程图；

图5示出了小孔成像原理的示意图；

图6示意性示出了根据本公开的示例性实施方式的第一设备的定位过程的流程图；

图7示出了应用本公开方案在真实场景中显示虚拟对象的示意图；

图8示意性示出了根据本公开的示例性实施方式的虚拟对象显示装置的方框图；

图9示意性示出了根据本公开的另一示例性实施方式的虚拟对象显示装置的方框图；

图10示意性示出了根据本公开的再一示例性实施方式的虚拟对象显示装置的方框图；

图11示意性示出了根据本公开的又一示例性实施方式的虚拟对象显示装置的方框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的步骤。例如，有的步骤还可以分解，而有的步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。另外，下面所有的术语“第一”、“第二”仅是为了区分的目的，不应作为本公开内容的限制。

图1示出了本公开实施方式的虚拟对象显示方案的示例性系统架构的示意图。

如图1所示，室内场景包括第一设备1001和第二设备1002。第一设备1001的显示界面上可以呈现与第二设备1002所播放音频相对应的虚拟对象，以实现声音可视化，或者该虚拟对象的呈现有助于音频内容的表达。

第一设备1001可以是手机、平板电脑、AR(Augmented Reality，增强现实)眼镜、AR头盔等能够实现AR处理及AR显示功能的设备。第二设备1002是播放音频的设备，可以是音响、手机、平板电脑、个人计算机、收音机等。本公开对第一设备1001和第二设备1002的类型不做限制，例如，在一些实际场景中，第一设备1001可以是手机，第二设备1002可以是音响。在另一些实际场景中，第一设备1001和第二设备1002均可以是手机。

在实现与音频相关的虚拟对象的显示过程中，第一设备1001可以进行自身定位，以确定第一设备1001在目标坐标系下的位姿。另外，第一设备1001可以确定第二设备1002在目标坐标系下的位姿。

本公开所说的目标坐标系可以是第一设备1001进行定位时自身的坐标系，也可以是预先构建场景地图时建图设备的坐标系，还可以是第二设备1002进行定位时自身的坐标系。可以理解的是，针对第一设备1001，往往需要利用预先构建的场景地图来完成定位。本公开对目标坐标系针对的是哪一个坐标系不做限制，只要确定出的位姿能够统一在同一坐标系即可。

第一设备1001可以确定与该音频对应的虚拟对象，并基于第二设备1002在目标坐标系下的位姿，确定虚拟对象在目标坐标系下的位姿。其中，第一设备1001可以在第二设备1002播放音频的情况下确定该音频对应的虚拟对象，也可以在第二设备1002播放音频之前确定出虚拟对象，本公开对此不做限制。

在确定出第一设备1001和虚拟对象在目标坐标系下的位姿后，当第二设备1002播放该音频时，第一设备1001的显示界面上可以渲染出虚拟对象。

需要说明的是，在一些实施例中，第一设备1001可以与第二设备1002之间存在数据传输，例如，第一设备1001可以将音频发送给第二设备1002，并控制第二设备1002播放音频；又例如，在一些场景中，第二设备1002存储有音频对应的虚拟对象，可以将该虚拟对象发送给第一设备1001。

在另一些实施例中，第一设备1001与第二设备1002之间不存在数据传输。例如，第一设备1001可以通过其配备的收音设备接收第二设备1002播放的音频，对音频进行分析，根据分析结果生成对应的虚拟对象，并渲染到界面上。而第二设备1002仅用于播放音频。

关于虚拟对象，本公开也不做限制。例如，虚拟对象可以是表征声音的波浪，具体可以是彩色波浪。呈现在第一设备1001界面上的显示结果可以是，波浪以第二设备1002为中心向周围扩散。又例如，虚拟对象可以是与音频所表达内容对应的虚拟图片、虚拟动画、虚拟卡通人物、虚拟视频等。再例如，在第二设备1002播放歌曲时，虚拟对象还可以是演唱该歌曲的歌手的虚拟影像。

下面描述的虚拟对象显示方法的各个步骤应用于第一设备，也就是说，由第一设备执行虚拟对象显示方法的各个步骤。在这种情况下，虚拟对象显示装置可以配置于第一设备中。

图2示出了适于用来实现本公开示例性实施方式的电子设备的示意图。本公开示例性实施方式中第一设备和第二设备中至少第一设备可以被配置为图2的形式。需要说明的是，图2示出的电子设备仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

本公开的电子设备至少包括处理器和存储器，存储器用于存储一个或多个程序，当一个或多个程序被处理器执行时，使得处理器可以实现本公开示例性实施方式的虚拟对象显示方法。

具体的，如图2所示，电子设备200可以包括：处理器210、内部存储器221、外部存储器接口222、通用串行总线(Universal Serial Bus，USB)接口230、充电管理模块240、电源管理模块241、电池242、天线1、天线2、移动通信模块250、无线通信模块260、音频模块270、扬声器271、受话器272、麦克风273、耳机接口274、传感器模块280、显示屏290、摄像模组291、指示器292、马达293、按键294以及用户标识模块(Subscriber IdentificationModule，SIM)卡接口295等。其中传感器模块280可以包括深度传感器、压力传感器、陀螺仪传感器、气压传感器、磁传感器、加速度传感器、距离传感器、接近光传感器、指纹传感器、温度传感器、触摸传感器、环境光传感器及骨传导传感器等。

可以理解的是，本公开实施例示意的结构并不构成对电子设备200的具体限定。在本公开另一些实施例中，电子设备200可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件、软件或软件和硬件的组合实现。

处理器210可以包括一个或多个处理单元，例如：处理器210可以包括应用处理器(Application Processor，AP)、调制解调处理器、图形处理器(Graphics ProcessingUnit，GPU)、图像信号处理器(Image Signal Processor，ISP)、控制器、视频编解码器、数字信号处理器(Digital Signal Processor，DSP)、基带处理器和/或神经网络处理器(Neural-etwork Processing Unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。另外，处理器210中还可以设置存储器，用于存储指令和数据。

电子设备200可以通过ISP、摄像模组291、视频编解码器、GPU、显示屏290及应用处理器等实现拍摄功能。在一些实施例中，电子设备200可以包括1个或N个摄像模组291，N为大于1的正整数，若电子设备200包括N个摄像头，N个摄像头中有一个是主摄像头。

内部存储器221可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。内部存储器221可以包括存储程序区和存储数据区。外部存储器接口222可以用于连接外部存储卡，例如Micro SD卡，实现扩展电子设备200的存储能力。

就本公开所述的虚拟对象显示方案而言，第一设备可以利用摄像模组291拍摄当前帧，并基于传感器模块280中的深度传感器，确定出与当前帧对应的深度信息。处理器210可以利用当前帧及其对应的深度信息，并结合预先构建的地图信息，确定第一设备在目标坐标系下的位姿。处理器210还可以通过通信模块从第二设备获取第二设备在目标坐标系下的位姿。接下来，处理器210可以确定第二设备所播放音频对应虚拟对象，并根据虚拟对象与第二设备预先配置的相对位姿关系，确定出虚拟对象在目标坐标系下的位姿。在获知第一设备和虚拟对象在目标坐标系下位姿的情况下，当第二设备播放音频时，处理器210可以将虚拟对象显示在第一设备的显示界面上，以便用户可以通过显示屏290看到虚拟对象，实现声音可视化。

本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读存储介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如下述实施例中所述的方法。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

图3示意性示出了本公开的示例性实施方式的虚拟对象显示方法的流程图。参考图3，虚拟对象显示方法可以包括以下步骤：

S32.对第一设备进行定位，以确定第一设备在目标坐标系下的位姿。

在本公开的示例性实施方式中，可以将术语“定位”理解为，确定设备在场景中位姿。应当注意的是，同一场景中，不同坐标系下同一对象的位姿往往存在差异。

就对第一设备进行定位的过程而言，本公开可以预先构建场景的地图，并根据构建出的地图来对第一设备进行定位。

下面将参考图4对本公开示例性实施方式的地图构建过程进行说明。在下面的示例中，将用于构建地图的设备称为建图设备。应当注意的是，建图设备通常可以是除第一设备和第二设备之外的另一设备。然而，在自身建图并进行重定位的场景中，第一设备也可以是建图设备，另外，在第二设备为手机、平板电脑等能够实现AR算法的设备时，第二设备也可以是建图设备。

在步骤S402中，建图设备获取场景图像以及场景图像对应的深度信息。

建图设备配备有单目摄像头，可以通过单目摄像头对环境进行采集，以得到场景图像，场景图像通常为RGB图像。具体的，建图设备可以利用单目摄像头，以固定帧率进行RGB图像采集，得到场景图像。

建图设备配备有深度传感器，可以通过深度传感器，以固定帧率对环境进行深度信息的采集，得到深度图像。其中，深度传感器可以为TOF(Time Of Flight，飞行时间)、结构光等。另外，建图设备还可以通过单目测距、多目测距等方式确定深度信息，本公开对此不做限制。

在得到RGB的场景图像以及深度图像后，可以基于时间戳将RGB的场景图像与深度图像进行对齐，随后，即得到场景图像以及场景图像对应的深度信息。

在步骤S404中，建图设备对场景图像进行特征提取，得到特征信息。

本公开示例性实施方式的特征提取算法可以包括但不限于FAST特征点检测算法、DOG特征点检测算法、Harris特征点检测算法、SIFT特征点检测算法、SURF特征点检测算法等。对应的特征描述子可以包括但不限于BRIEF特征点描述子、BRISK特征点描述子、FREAK特征点描述子等。本公开对此不做限制。

通过上述特征提取算法与特征描述子进行组合，可以确定一组特征提取模式，并采用此特征提取模式对场景图像进行特征提取，得到特征信息。

另外，可以将不同特征提取算法与特征描述子进行组合，以确定出多组特征提取模式。例如，一组特征提取模式可以为FAST特征点检测算法和BRIEF特征点描述子，另一组特征提取模式可以为DOG特征点检测算法和FREAK特征点描述子。基于上面的描述，本领域技术人员可以理解的是，针对一张图像，不同的特征提取模式提取出的特征点的类型存在差异，例如，一组特征提取模式适合对强纹理场景进行特征提取，而另一种特征提取模式适合对弱纹理场景进行特征提取。

在这种情况下，可以基于多组特征提取模式，从场景图像提取多种类型的特征信息。

在步骤S406中，建图设备利用特征信息进行视觉跟踪和运动估计，得到中间结果。

本领域技术人员容易理解的是，通过视觉跟踪和运动估计，可以反映出采集的场景图像所表征的二维特征数据，将这种基于RGB的二维特征数据作为中间结果。

在步骤S408中，建图设备利用深度信息以及第一设备的相机内参得到局部点云数据。可以理解的是，此处所述的局部点云数据是局部稠密点云数据。

可以依据小孔成像原理来得到局部点云数据，图5示出了小孔成像原理的示意图。

具体的，可以通过公式1将图像坐标点(u,v)转换到世界坐标点(x_w,y_w,z_w)。

其中，(u₀,v₀)是图像中心坐标点，z_c表示相机坐标的z轴值，

表示焦距f在相机坐标系的x轴上的焦距分量，

表示焦距f在相机坐标系的x轴上的焦距分量，R、T分别表示外参矩阵的旋转矩阵和平移矩阵，在构建地图的过程中，由于世界坐标系和相机原点重合，即没有旋转和平移。另外，相机坐标系下和世界坐标系下的同一对象具有相同的深度，即z_c＝z_w，在这种情况下，可以得到如公式2的变换公式：

由此，可以通过这种变换关系，利用深度信息以及第一设备的相机内参得到局部点云数据。

在步骤S410中，建图设备利用中间结果以及局部点云数据，生成全局点云数据。可以理解的是，此处所述的全局点云数据是全局稠密点云数据。

具体的，可以将表征RGB二维特征数据的中间结果与局部点云数据合并，以生成全局点云数据。

在步骤S412中，建图设备基于全局点云数据，构建出地图。

具体的，可以将全局点云数据序列化存储于本地，以得到地图。另外，可以将构建出的地图上传至云端，以便利用云端对随后需要定位的设备进行定位。应当理解的是，构建出的地图为包含深度信息的三维地图。然而，在公开的另一些实施例中，构建出的地图还可以不包含深度信息。

在构建出场景三维地图的情况下，可以结合该地图来对第一设备进行定位。

首先，第一设备可以获取当前帧以及当前帧对应的深度信息，得到当前帧的特征点信息。其中，当前帧是第一设备通过其摄像模组拍摄的当前图像，由于同时利用深度传感器获取到了深度信息，因此，得到的当前帧的特征点信息是三维信息。另外，此处特征点的提取与建图设备进行特征点提取的方法类似，不再赘述。

接下来，第一设备利用当前帧的特征点信息以及用于构建地图的关键帧集合中关键帧的特征点信息，计算第一设备的坐标系与建图设备的坐标系的位姿转换关系。

然后，第一设备获取第一设备在第一设备坐标系下的位姿，并利用该位姿转换关系，可以将第一设备在第一设备坐标系下的位姿转换至在目标坐标系下的位姿。

本公开所说的目标坐标系可以是第一设备进行定位时自身的坐标系，也可以是预先构建场景地图时建图设备的坐标系，还可以是下述第二设备进行定位时自身的坐标系。本公开对此不做限制。

具体的，可以结合ICP(Iterative Closest Point迭代最近点)算法实现定位过程。ICP算法是基于最小二乘法的最优配准算法，该算法重复进行选择对应点时，计算最优刚体变换，直至满足正确配准的收敛精度要求。ICP算法的基本原理是：分别在待匹配的目标点云P和源点云Q中，按照一定的约束条件(该约束条件可以自定义)，找到最邻近的点(p_i,q_i)，然后计算出最优的旋转矩阵R和平移矩阵T，使得误差函数最小，该误差函数E(R,T)如公式3所示：

其中，n为邻近点对的数量，p_i为目标点云P中的一点，q_i为源点云Q中与p_i对应的最近点。

下面将参考图6对本公开示例性实施方式的第一设备的定位过程进行说明。

在步骤S602中，第一设备获取当前帧以及当前帧对应的深度信息，得到当前帧的点集。在下述处理中，所用到的点集p_i∈P，其中，P目标点云，即是当前帧的所有点云数据。

在步骤S604中，第一设备确定建图所用一关键帧的点集q_i，其中，q_i∈Q，Q为源点云，即整个地图的点云数据。

在步骤S606中，计算旋转矩阵R和平移矩阵T，使得误差函数最小。

在步骤S608中，利用旋转矩阵R和平移矩阵T对当前帧的点集p_i进行旋转和平移转换，得到中间点集p’_i＝{p’_i＝Rp_i+T,p_i∈P}。

在步骤S610中，计算中间点集p’_i与该关键帧点集q_i的平均距离

在步骤S612中，判断平均距离d是否小于距离阈值d_TH，或者迭代次数是否大于预设次数。在判断出平均距离d小于距离阈值d_TH或者迭代次数大于预设次数的情况下，执行步骤S614，否则返回执行步骤S604，进行针对另一关键帧的处理过程。

在步骤S614中，输出当前的旋转矩阵R和平移矩阵T。

由此，第一设备可以利用当前输出的最优的旋转矩阵R和平移矩阵T，将第一设备在第一设备坐标系下的位姿转换至在目标坐标系下的位姿。

S34.确定第二设备在目标坐标系下的位姿，第二设备用于播放音频。

应当理解的是，确定第二设备在目标坐标系下的位姿这个步骤可以是在第二设备播放音频时进行的。也可以是在第二设备播放音频前进行的，也就是说，在确定出第二设备在目标坐标系下的位姿之后，第二设备再播放音频。

根据本公开的一些实施例，第二设备可以结合蓝牙定位方式或WiFi定位方式确定出第二设备在第二设备的坐标系下的位姿。在一些示例中，可以将第二设备的坐标系理解为世界坐标系。

接下来，第二设备可以将第二设备在第二设备的坐标系下的位姿发送给第一设备。第一设备可以利用目标坐标系与第二设备的坐标系之间的位姿转换关系，对第二设备在第二设备的坐标系下的位姿进行转换，以得到第二设备在目标坐标系下的位姿。

其中，目标坐标系与第二设备的坐标系之间的位姿转换关系，可以预先通过坐标对齐的方式确定出。例如，选取多个标志点，人工确定这些标志点在目标坐标系和第二设备的坐标系的位置，由此，通过对应关系建立映射，即可得到目标坐标系与第二设备的坐标系之间的位姿转换关系。

根据本公开的另一些实施例，第二设备具有执行AR算法的功能，在这种情况下，第二设备可以执行与上述第一设备进行定位相似的定位过程，确定第二设备在目标坐标系下的位姿。随后，第二设备可以将确定出的自身在目标坐标系下的位姿发送给第一设备。

另外，第一设备还可以获取包含第二设备的图像以及第二设备距第一设备的距离信息(即深度信息)，并进行分析，再结合第一设备自身在目标坐标系下的位姿，也可以确定出第二设备在目标坐标系下的位姿。也就是说，第一设备可以自行确定出第二设备在目标坐标系下的位姿，而不需要从第二设备接收信息。

S36.确定与音频对应的虚拟对象，并基于第二设备在目标坐标系下的位姿，确定虚拟对象在目标坐标系下的位姿。

在本公开的示例性实施方式中，音频可以是各种类型的声音，如语音、音乐等，本公开对音频的内容不做限制。另外，虚拟对象可以是能够表达音频特点的对象，如声音波浪，然而，虚拟对象还可以是与该音频相关的任意对象，例如文字、动画、视频、虚拟卡通人物等，本公开对此不做限制。

需要说明的是，本公开所述虚拟对象可以预先配置出，在需要呈现时，直接显示出。另外，还可以通过对音频进行分析，根据音频特征实时生成虚拟对象，本示例性实施方式中对此不做特殊限定。

根据本公开的一些实施例，第一设备可以将音频的音频数据发送给第二设备，并控制第二设备播放音频。

在这种情况下，第一设备可以直接获取该音频的音频标识信息，可以理解的是，当确定出音频时，即可基于该音频能够直接得知音频的音频标识信息。以歌曲为例，音频标识信息可以包括但不限于歌曲名称、歌手名称、发行时间等。鉴于音频是由第一设备发送给第二设备，因此，第一设备可以从本地或能够直接获取的设备中获取到该音频标识信息。

另外，音频标识信息与虚拟对象存在关联关系，这种关联关系可以预先人为配置出，本公开对此不做限制。

根据本公开的另一些实施例，第二设备播放音频的来源不是第一设备，也就是说，第二设备可以播放本地或联网的音频。

在这种情况下，第二设备可以将音频的音频标识信息发送给第一设备。接下来，第一设备可以利用音频标识信息与虚拟对象的关联关系，确定音频对应的虚拟对象。

在第二设备存储有音频对应的虚拟对象的情况下，第二设备还可以直接将音频对应的虚拟对象发送给第一设备。

此外，在第二设备播放音频的情况下，第一设备可以利用自身配备的收音装置(如麦克风)，获取音频的音频数据，并提取音频数据的音频特征，如音量、节奏等。接下来，第一设备对音频数据进行音频特征分析，并根据音频特征分析的结果，生成音频对应的虚拟对象。

以虚拟对象为波浪为例，音量越高，波浪上下振动的幅度越大；节奏越快，波浪的流速越快。另外，在音量达到一定阈值时，可以模拟出一次较大的波浪。

应当理解的是，可以预先构建虚拟对象与第二设备的位姿关系，例如虚拟对象在第二设备周围配置、虚拟对象在第二设备前方且倾斜60°配置，等等，本公开对此不做限制。

由此，在得知虚拟对象与第二设备的位姿关系的情况下，可以基于第二设备在目标坐标系下的位姿，确定出虚拟对象在目标坐标系下的位姿。

S38.在第二设备播放音频的情况下，根据第一设备在目标坐标系下的位姿以及虚拟对象在目标坐标系下的位姿，将虚拟对象显示在第一设备的显示界面上。

可以理解的是，在目标坐标系下，确定出第一设备和虚拟对象的位姿后，可以将虚拟对象显示在第一设备的显示界面上。

此外，本公开还提供了一种虚拟对象与真实对象发生碰撞的解决方案。

首先，基于第一设备获取到的场景图像以及深度图像，第一设备可以确定场景中真实物体在目标坐标系下的位姿，可以根据真实物体在目标坐标系下的位姿以及虚拟对象在目标坐标系下的位姿，在判断出真实物体在目标坐标系下的位姿与虚拟对象在目标坐标系下的位姿存在交叠的情况下，可以获取交叠区域真实物体的碰撞参数以及虚拟对象的碰撞参数。其中，碰撞参数可以在建模时由开发人员配置出，也可以在应用时由用户自行配置，以增加娱乐性。另外，本公开对碰撞参数不做限制，可以例如包括碰撞体积、碰撞强度、碰撞衰减程度等。

接下来，可以基于真实物体的碰撞参数以及虚拟对象的碰撞参数，生成虚拟碰撞图像并显示。例如，可以通过目前现有的游戏引擎来自动生成碰撞效果的图像，本公开对此不做限制。

下面将参考图7对应用本公开方案显示虚拟对象的场景进行示例性说明。

首先，手机70通过定位的方式确定出其在建图设备坐标系下的位姿，另外，音响71通过蓝牙的手段获取音响71在世界坐标系下的位姿，并将该位姿发送给手机70。

接下来，手机70通过世界坐标系与建图设备坐标系之间的位姿转换关系，确定出音响71在建图设备坐标系下的位姿，由此，实现将手机70与音响71统一到同一坐标系的操作。

手机70可以通过蓝牙等方式将音乐发送给音响71，确定该音乐对应的虚拟声音波浪。另外，在确定出音响71在建图设备坐标系下位姿的情况下，可以根据预设的相对位姿关系，确定出虚拟对象在建图设备坐标系下的位姿。

然后，手机70可以控制音响71播放音乐，并基于虚拟对象在建图设备坐标系下的位姿，在手机70的界面上渲染出虚拟声音波浪700。

另外，对于虚拟声音波浪700，不同的位置(或区域)可以配置不同颜色，即点A的颜色可以与点B的颜色不同。

此外，在虚拟声音波浪700与真实柜子73或真实桌子72存在交叠时，可以利用上述配置的碰撞策略，在手机70的界面上显示出碰撞效果。

综上所述，基于本公开示例性实施方式的虚拟对象显示方法，一方面，本公开结合增强现实的技术，在第一设备的显示界面上配置出与音频对应的虚拟对象，可以实现声音可视化；另一方面，在采用真实物体的运动来表达声音的一些技术中，鉴于真实物体受环境影响较大，可能出现声音表达不准确的问题，而本公开方案的虚拟对象可以通过计算机技术配置出，由计算机配置出的虚拟对象避免了环境干扰，往往可以更加准确地反映出声音所要传递的内容，声音可视化的表达效果得到了提升；再一方面，由于本公开方案声音可视化的方案不需要其他真实物体来实现，大大减小了实现声音可视化的成本。又一方面，本公开声音可视化的方案通过计算机算法实现，通用性强。

应当注意，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

进一步的，本示例实施方式中还提供了一种虚拟对象显示装置。

图8示意性示出了本公开的示例性实施方式的应用于第一设备的虚拟对象显示装置的方框图。参考图8，根据本公开的示例性实施方式的应用于第一设备的虚拟对象显示装置8可以包括定位模块81、位姿确定模块83、虚拟对象确定模块85和虚拟对象显示模块87。

具体的，定位模块81可以用于对第一设备进行定位，以确定第一设备在目标坐标系下的位姿；位姿确定模块83可以用于确定第二设备在目标坐标系下的位姿，第二设备用于播放音频；虚拟对象确定模块85可以用于确定与音频对应的虚拟对象，并基于第二设备在目标坐标系下的位姿，确定虚拟对象在目标坐标系下的位姿；虚拟对象显示模块87可以用于在第二设备播放音频的情况下，根据第一设备在目标坐标系下的位姿以及虚拟对象在目标坐标系下的位姿，将虚拟对象显示在第一设备的显示界面上。

根据本公开的示例性实施例，位姿确定模块83可以被配置为执行：获取第二设备在第二设备的坐标系下的位姿；利用目标坐标系与第二设备的坐标系之间的位姿转换关系，对第二设备在第二设备的坐标系下的位姿进行转换，以得到第二设备在目标坐标系下的位姿。

根据本公开的示例性实施例，第二设备在第二设备的坐标系下的位姿，是由第二设备结合蓝牙定位方式或WiFi定位方式而确定出。

根据本公开的示例性实施例，参考图9，相比于虚拟对象显示装置8，虚拟对象显示装置9还可以包括音频发送模块91。

具体的，音频发送模块91用于将音频的音频数据发送给第二设备，并控制第二设备播放音频。

根据本公开的示例性实施例，虚拟对象确定模块85确定与音频对应的虚拟对象的过程可以被配置为执行：基于音频，获取音频的音频标识信息；利用音频标识信息与虚拟对象的关联关系，确定与音频对应的虚拟对象。

根据本公开的示例性实施例，虚拟对象确定模块85确定与音频对应的虚拟对象的过程还可以被配置为执行：接收由第二设备发送的音频的音频标识信息；利用音频标识信息与虚拟对象的关联关系，确定与音频对应的虚拟对象。

根据本公开的示例性实施例，虚拟对象确定模块85确定与音频对应的虚拟对象的过程还可以被配置为执行：接收由第二设备发送的音频对应的虚拟对象。

根据本公开的示例性实施例，虚拟对象确定模块85确定与音频对应的虚拟对象的过程还可以被配置为执行：利用第一设备的收音装置，获取音频的音频数据；提取音频数据的音频特征；对音频数据进行音频特征分析，并根据音频特征分析的结果，生成与音频对应的虚拟对象。

根据本公开的示例性实施例，参考图10，相比于虚拟对象显示装置8，虚拟对象显示装置10还可以包括碰撞处理模块101。

具体的，碰撞处理模块101可以被配置为执行：确定场景中真实物体在目标坐标系下的位姿；在真实物体在目标坐标系下的位姿与虚拟对象在目标坐标系下的位姿存在交叠的情况下，获取交叠区域真实物体的碰撞参数以及虚拟对象的碰撞参数；基于真实物体的碰撞参数以及虚拟对象的碰撞参数，生成虚拟碰撞图像并显示。

根据本公开的示例性实施例，目标坐标系为建图设备构建地图的坐标系。在这种情况下，定位模块81可以被配置为执行：获取当前帧以及当前帧对应的深度信息，得到当前帧的特征点信息；利用当前帧的特征点信息以及用于构建地图的关键帧集合中关键帧的特征点信息，计算第一设备的坐标系与建图设备的坐标系的位姿转换关系；获取第一设备在第一设备坐标系下的位姿；利用位姿转换关系，将第一设备在第一设备坐标系下的位姿转换至在目标坐标系下的位姿。

根据本公开的示例性实施例，第一设备为建图设备。在这种情况下，参考图11，相比于虚拟对象显示装置8，虚拟对象显示装置11还可以包括地图构建模块111。

具体的，地图构建模块111可以被配置为执行：预先获取场景图像以及与场景图像对应的深度信息；利用场景图像以及与场景图像对应的深度信息，构建地图。

根据本公开的示例性实施例，地图构建模块111构建地图的过程可以被配置为执行：对场景图像进行特征提取，得到特征信息；利用特征信息进行视觉跟踪和运动估计，得到中间结果；利用场景图像对应的深度信息以及第一设备的相机内参，得到局部点云数据；利用中间结果和局部点云数据，生成全局点云数据；基于全局点云数据，构建出地图。

由于本公开实施方式的虚拟对象显示装置的各个功能模块与上述方法实施方式中相同，在此不再赘述。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。

此外，上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

本领域技术人员在考虑说明书及实践这里公开的内容后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。

Claims

1.一种虚拟对象显示方法，应用于第一设备，其特征在于，包括：

对所述第一设备进行定位，以确定所述第一设备在目标坐标系下的位姿；

确定第二设备在所述目标坐标系下的位姿，所述第二设备用于播放音频；

确定与所述音频对应的虚拟对象，并基于所述第二设备在所述目标坐标系下的位姿，确定所述虚拟对象在所述目标坐标系下的位姿；

在所述第二设备播放所述音频的情况下，根据所述第一设备在所述目标坐标系下的位姿以及所述虚拟对象在所述目标坐标系下的位姿，将所述虚拟对象显示在所述第一设备的显示界面上。

2.根据权利要求1所述的虚拟对象显示方法，其特征在于，确定所述第二设备在所述目标坐标系下的位姿包括：

获取所述第二设备在所述第二设备的坐标系下的位姿；

利用所述目标坐标系与所述第二设备的坐标系之间的位姿转换关系，对所述第二设备在所述第二设备的坐标系下的位姿进行转换，以得到所述第二设备在所述目标坐标系下的位姿。

3.根据权利要求2所述的虚拟对象显示方法，其特征在于，所述第二设备在所述第二设备的坐标系下的位姿，是由所述第二设备结合蓝牙定位方式或WiFi定位方式而确定出。

4.根据权利要求1所述的虚拟对象显示方法，其特征在于，所述虚拟对象显示方法还包括：

将所述音频的音频数据发送给所述第二设备，并控制所述第二设备播放所述音频。

5.根据权利要求4所述的虚拟对象显示方法，其特征在于，确定与所述音频对应的虚拟对象包括：

基于所述音频，获取所述音频的音频标识信息；

利用所述音频标识信息与虚拟对象的关联关系，确定与所述音频对应的虚拟对象。

6.根据权利要求1所述的虚拟对象显示方法，其特征在于，确定与所述音频对应的虚拟对象包括：

接收由所述第二设备发送的所述音频的音频标识信息；

7.根据权利要求1所述的虚拟对象显示方法，其特征在于，确定与所述音频对应的虚拟对象包括：

接收由所述第二设备发送的所述音频对应的虚拟对象。

8.根据权利要求1所述的虚拟对象显示方法，其特征在于，确定与所述音频对应的虚拟对象包括：

利用所述第一设备的收音装置，获取所述音频的音频数据；

提取所述音频数据的音频特征；

对所述音频数据进行音频特征分析，并根据音频特征分析的结果，生成与所述音频对应的虚拟对象。

9.根据权利要求1所述的虚拟对象显示方法，其特征在于，所述虚拟对象显示方法还包括：

确定场景中真实物体在所述目标坐标系下的位姿；

在所述真实物体在所述目标坐标系下的位姿与所述虚拟对象在所述目标坐标系下的位姿存在交叠的情况下，获取交叠区域所述真实物体的碰撞参数以及所述虚拟对象的碰撞参数；

基于所述真实物体的碰撞参数以及所述虚拟对象的碰撞参数，生成虚拟碰撞图像并显示。

10.根据权利要求1至9中任一项所述的虚拟对象显示方法，其特征在于，所述目标坐标系为建图设备构建地图的坐标系；其中，对所述第一设备进行定位，以确定所述第一设备在目标坐标系下的位姿，包括：

获取当前帧以及所述当前帧对应的深度信息，得到所述当前帧的特征点信息；

利用所述当前帧的特征点信息以及用于构建地图的关键帧集合中关键帧的特征点信息，计算所述第一设备的坐标系与所述建图设备的坐标系的位姿转换关系；

获取所述第一设备在第一设备坐标系下的位姿；

利用所述位姿转换关系，将所述第一设备在所述第一设备坐标系下的位姿转换至在所述目标坐标系下的位姿。

11.根据权利要求10所述的虚拟对象显示方法，其特征在于，所述第一设备为所述建图设备；其中，所述虚拟对象显示方法还包括：

预先获取场景图像以及与所述场景图像对应的深度信息；

利用所述场景图像以及与所述场景图像对应的深度信息，构建地图。

12.根据权利要求11所述的虚拟对象显示方法，其特征在于，利用所述场景图像以及与所述场景图像对应的深度信息，构建地图，包括：

对所述场景图像进行特征提取，得到特征信息；

利用所述特征信息进行视觉跟踪和运动估计，得到中间结果；

利用所述场景图像对应的深度信息以及所述第一设备的相机内参，得到局部点云数据；

利用所述中间结果和所述局部点云数据，生成全局点云数据；

基于所述全局点云数据，构建出所述地图。

13.一种虚拟对象显示装置，应用于第一设备，其特征在于，包括：

定位模块，用于对所述第一设备进行定位，以确定所述第一设备在目标坐标系下的位姿；

位姿确定模块，用于确定第二设备在所述目标坐标系下的位姿，所述第二设备用于播放音频；

虚拟对象确定模块，用于确定与所述音频对应的虚拟对象，并基于所述第二设备在所述目标坐标系下的位姿，确定所述虚拟对象在所述目标坐标系下的位姿；

虚拟对象显示模块，用于在所述第二设备播放所述音频的情况下，根据所述第一设备在所述目标坐标系下的位姿以及所述虚拟对象在所述目标坐标系下的位姿，将所述虚拟对象显示在所述第一设备的显示界面上。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1至12中任一项所述的虚拟对象显示方法。

15.一种电子设备，其特征在于，包括：

处理器；

存储器，用于存储一个或多个程序，当所述一个或多个程序被所述处理器执行时，使得所述处理器实现如权利要求1至12中任一项所述的虚拟对象显示方法。