CN116132905A

CN116132905A - 音频播放方法和头戴式显示设备

Info

Publication number: CN116132905A
Application number: CN202211583986.0A
Authority: CN
Inventors: 章圣伟; 徐伟刚; 苏诚龙; 王文兵
Original assignee: Hangzhou Companion Technology Co ltd
Current assignee: Hangzhou Companion Technology Co ltd
Priority date: 2022-12-09
Filing date: 2022-12-09
Publication date: 2023-05-16

Abstract

本公开的实施例公开了音频播放方法和头戴式显示设备。该方法的一具体实施方式包括：获取真实空间数据；根据真实空间数据，构建虚拟三维空间模型；响应于检测到用户的声源设置操作，在虚拟三维空间模型中设置虚拟声源；确定对应真实空间数据的收听者位姿信息；根据三维空间坐标系，对真实空间数据进行物体识别处理，得到三维空间物体信息；根据三维空间物体信息和收听者位姿信息，调整三维音频对应的音频播放配置信息；根据调整后的音频播放配置信息，对三维音频进行播放。该头戴式显示设备包括摄像头、传感器、扬声器和处理器，摄像头、传感器和扬声器均与处理器通信连接。该实施方式使得收听者沉浸式感受虚实结合的听觉体验，提高了用户体验。

Description

音频播放方法和头戴式显示设备

技术领域

本公开的实施例涉及计算机技术领域，具体涉及音频播放方法和头戴式显示设备。

背景技术

空间音频技术，是指希望能使收听者在收听音乐、在线会议等XR(ExtendedReality，扩展现实)场景中，给收听者带来声临其境的感觉，以及虚拟世界与现实世界之间无缝转换的“沉浸感”的音频技术。目前，在实现空间音频技术时，通常采用的方式为：结合几何声学，通过合成听觉刺激来模拟声波的变化规律。

然而，当采用上述方式实现空间音频技术时，经常会存在如下技术问题：

在XR场景中，空间音频与虚拟世界或现实世界的结合性较差，往往会造成空间音频与XR场景的错位，具体表现为比如播放的空间音频使用户感知到的发声物体的远近与本应感受到的远近不匹配，导致对于收听者而言，无法沉浸式感受XR场景中虚实结合的听觉体验，用户体验较差。

发明内容

本公开的内容部分用于以简要的形式介绍构思，这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征，也不旨在用于限制所要求的保护的技术方案的范围。

本公开的一些实施例提出了音频播放方法和头戴式显示设备，来解决以上背景技术部分提到的技术问题中的一项或多项。

第一方面，本公开的一些实施例提供了一种音频播放方法，该方法包括：获取真实空间数据；根据上述真实空间数据，构建虚拟三维空间模型，其中，上述虚拟三维空间模型对应有三维空间坐标系；响应于检测到用户的声源设置操作，在上述虚拟三维空间模型中设置虚拟声源，其中，上述虚拟声源被配置为播放三维音频；确定对应上述真实空间数据的收听者位姿信息；根据上述三维空间坐标系，对上述真实空间数据进行物体识别处理，得到三维空间物体信息；根据上述三维空间物体信息和上述收听者位姿信息，调整上述三维音频对应的音频播放配置信息；根据调整后的音频播放配置信息，对上述三维音频进行播放。

可选地，上述三维空间物体信息为三维空间障碍物信息。

可选地，上述根据上述三维空间物体信息和上述收听者位姿信息，调整上述三维音频对应的音频播放配置信息，包括：根据上述虚拟声源对应的声源位姿信息、上述三维空间障碍物信息和上述收听者位姿信息，调整上述三维音频对应的音频播放配置信息。

可选地，上述真实空间数据包括真实空间建模数据。

可选地，上述根据上述真实空间数据，构建虚拟三维空间模型，包括：根据上述真实空间建模数据，构建虚拟三维空间模型。

可选地，上述确定对应上述真实空间数据的收听者位姿信息，包括：获取对应上述虚拟三维空间模型的目标设备采集的实时图像；根据上述三维空间坐标系和上述实时图像，生成收听者位姿信息。

可选地，上述真实空间数据包括真实空间障碍物数据和真实空间声源物体数据。

可选地，上述对上述真实空间数据进行物体识别处理，得到三维空间物体信息，包括：对上述真实空间障碍物数据进行障碍物识别处理，得到障碍物识别信息；对上述真实空间声源物体数据进行声源物体识别处理，得到声源物体识别信息；将上述真实空间障碍物数据映射至上述三维空间坐标系中，得到三维空间障碍物定位数据；将上述真实空间声源物体数据映射至上述三维空间坐标系中，得到三维空间声源物体定位数据；根据上述障碍物识别信息、上述声源物体识别信息、上述三维空间障碍物定位数据和上述三维空间声源物体定位数据，生成三维空间物体信息。

可选地，上述三维空间物体信息包括物体属性信息、物体位姿信息和物体识别信息。

可选地，上述对上述真实空间数据进行物体识别处理，得到三维空间物体信息，包括：根据上述三维空间坐标系，对上述真实空间数据进行物体检测处理，得到物体属性信息和物体位姿信息；根据上述物体属性信息，对上述真实空间数据进行物体识别处理，得到物体识别信息，其中，上述物体识别信息包括物体材质信息、物体声场因子和物体声源吸收率；根据上述物体属性信息、上述物体位姿信息和上述物体识别信息，生成三维空间物体信息。

可选地，上述方法还包括：根据上述物体位姿信息，对上述真实空间数据进行物体追踪处理，以对上述物体位姿信息进行更新；根据所更新的物体位姿信息，对上述三维空间物体信息进行更新。

可选地，上述音频播放配置信息包括音频衰减信息、声场参数设置信息和音频频率信息。

可选地，上述调整上述三维音频对应的音频播放配置信息，包括：根据上述三维空间物体信息和上述收听者位姿信息，确定声源距离；根据上述声源距离，对上述音频衰减信息进行调整；根据上述三维空间物体信息和上述收听者位姿信息，对上述声场参数设置信息进行调整，其中，上述声场参数设置信息包括以下中的至少一项：混响效果器参数设置信息、延迟效果器参数设置信息、均衡器参数设置信息；根据上述三维空间物体信息和上述收听者位姿信息，确定上述三维空间物体信息是否满足障碍物遮挡条件；响应于确定上述三维空间物体信息满足上述障碍物遮挡条件，对上述音频播放配置信息包括的音频频率信息进行调整。

可选地，上述方法还包括：采集上述虚拟三维空间模型对应的目标环境中的实时音频；根据上述实时音频，生成实时音频位置信息；对上述实时音频进行音频类型识别处理，得到上述实时音频的音频类型；根据上述实时音频位置信息和上述音频类型，确定模型更新信息；根据上述模型更新信息，对上述虚拟三维空间模型进行更新。

可选地，上述方法还包括：响应于确定采集到上述实时音频，执行以下步骤：确定上述实时音频对应的原始音频；确定上述原始音频的播放状态；响应于确定上述播放状态表征正在播放，停止播放上述原始音频。

可选地，上述方法还包括：响应于确定当前时间为上述实时音频对应的结束播放时间，执行以下步骤：确定上述实时音频在上述结束播放时间的音频播放进度信息；根据上述音频播放进度信息，播放上述原始音频。

第二方面，本公开的一些实施例提供了一种头戴式显示设备，应用于上述音频播放方法，其中，上述头戴式显示设备包括摄像头、传感器、扬声器、处理器和存储器，上述摄像头、上述传感器、上述扬声器和上述存储器均与上述处理器通信连接，其中，上述扬声器被配置为根据调整后的音频播放配置信息，对上述三维音频进行播放。

可选地，上述摄像头被配置为获取摄像头数据流，上述传感器被配置为获取传感器数据，上述处理器被配置成将上述摄像头数据流和上述传感器数据组合为真实空间数据。

可选地，上述处理器包括以下至少一项：嵌入式微处理器、图形处理器和神经网络处理器。

可选地，上述头戴式显示设备还包括麦克风装置，上述麦克风装置被配置为采集上述虚拟三维空间模型对应的目标环境中的实时音频。

本公开的上述各个实施例具有如下有益效果：通过本公开的一些实施例的音频播放方法，可以使得收听者沉浸式感受XR场景中虚实结合的听觉体验，提高用户体验。具体来说，造成对于收听者而言，无法沉浸式感受XR场景中虚实结合的听觉体验，用户体验较差的原因在于：在XR场景中，空间音频与虚拟世界或现实世界的结合性较差，往往会造成空间音频与XR场景的错位，具体表现为比如播放的空间音频使用户感知到的发声物体的远近与本应感受到的远近不匹配，导致对于收听者而言，无法沉浸式感受XR场景中虚实结合的听觉体验，用户体验较差。基于此，本公开的一些实施例的音频播放方法，首先，获取真实空间数据。然后，根据真实空间数据，构建虚拟三维空间模型。由此，可以得到描述真实空间的三维空间坐标系。然后，响应于检测到用户的声源设置操作，在虚拟三维空间模型中设置虚拟声源。由此，可以在后续步骤中实现虚拟生源发声的效果。其次，确定对应真实空间数据的收听者位姿信息。由此，可以得到表征佩戴上述头戴式显示设备的用户的位置坐标和姿态的收听者位姿信息。然后，根据三维空间坐标系，对真实空间数据进行物体识别处理，得到三维空间物体信息。由此，可以得到表征真实空间中的物体属性，以及在虚拟三维模型中的位置的三维空间物体信息。之后，根据三维空间物体信息和收听者位姿信息，调整三维音频对应的音频播放配置信息。由此，可以得到用于播放三维音频的音频播放配置信息。最后，根据调整后的音频播放配置信息，对三维音频进行播放。由此，可以实现对于三维音频的调整播放。因为根据三维空间物体信息和收听者位姿信息，调整三维音频对应的音频播放配置信息，使得根据调整后的音频播放配置信息播放三维音频时，提高了空间音频与XR场景的结合性，通过调整后的音频播放配置信息播放三维音频能够更加贴合XR场景，减少空间音频与XR场景的错位，从而对于收听者而言，可以沉浸式感受XR场景中虚实结合的听觉体验，提高了用户体验。

附图说明

结合附图并参考以下具体实施方式，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中，相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的，元件和元素不一定按照比例绘制。

图1是根据本公开的音频播放方法的一些实施例的流程图；

图2是根据本公开的音频播放方法的另一些实施例的流程图；

图3是根据本公开的头戴式显示设备的一些实施例的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例。相反，提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。

需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

下面将参考附图并结合实施例来详细说明本公开。

图1示出了根据本公开的音频播放方法的一些实施例的流程100。该音频播放方法，包括以下步骤：

步骤101，获取真实空间数据。

在一些实施例中，音频播放方法的执行主体(例如头戴式显示设备)可以通过有线连接方式或者无线连接方式从上述头戴式显示设备包括的摄像头和/或传感器中获取真实空间数据。其中，上述真实空间数据可以为通过上述头戴式显示设备包括的摄像头和/或传感器对现实中的空间进行空间数据采集所得到的空间数据。其中，上述真实空间数据可以包括但不限于以下中的至少一项：图像数据、视频数据、传感数据。其中，上述传感数据可以为由传感器感受、测量及传输的数据。上述传感数据可以包括陀螺仪传感器数据和光线传感器数据。上述传感器可以包括陀螺仪传感器和光线传感器。上述陀螺仪传感器数据可以为上述陀螺仪传感器对现实中的空间进行空间数据采集所得到的数据。上述光线传感器数据可以为上述光线传感器对现实中的空间进行空间数据采集所得到的数据。例如，上述光线传感器数据可以为脉冲信号与视频图像信号。需要指出的是，上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultrawideband)连接、以及其他现在已知或将来开发的无线连接方式。

步骤102，根据真实空间数据，构建虚拟三维空间模型。

在一些实施例中，根据上述真实空间数据，上述执行主体可以构建虚拟三维空间模型。其中，上述虚拟三维空间模型对应有三维空间坐标系。实践中，根据上述真实空间数据，上述执行主体可以利用三维重建算法构建虚拟三维空间模型。作为示例，上述真实空间数据为图像数据时，可以采用SfM(Structure from Motion，运动结构)算法构建虚拟三维空间模型，以得到上述虚拟三维空间模型对应的三维空间坐标系。作为又一示例，上述真实空间数据为传感数据时，可以采用三角测距法构建虚拟三维空间模型，以得到上述虚拟三维空间模型对应的三维空间坐标系。由此，可以得到描述真实空间的三维空间坐标系。

可选地，上述真实空间数据可以包括真实空间建模数据。其中，上述真实空间建模数据可以为用于建立虚拟三维空间模型的真实空间数据。例如，上述真实空间建模数据可以为通过三维扫描获取的某个房间的数据，通过该真实空间建模数据可以建立上述某个房间的虚拟三维模型。

在一些实施例的一些可选的实现方式中，上述执行主体可以根据上述真实空间建模数据，构建虚拟三维空间模型。实践中，上述真实空间建模数据为图像数据时，可以采用SfM算法构建虚拟三维空间模型。由此，可以通过真实空间数据中用于建立虚拟三维空间模型的真实空间建模数据来建立虚拟三维空间模型，从而减少构建虚拟三维空间模型时的数据输入，加快构建虚拟三维空间模型的进程。

步骤103，响应于检测到用户的声源设置操作，在虚拟三维空间模型中设置虚拟声源。

在一些实施例中，响应于检测到用户的声源设置操作，上述执行主体可以在上述虚拟三维空间模型中设置虚拟声源。其中，上述虚拟声源可以被配置为播放三维音频。其中，上述声源设置操作可以为设置虚拟三维空间模型对应有虚拟声源的操作。上述声源设置操作可以包括但不限于：点击操作、滑动操作。作为示例，上述声源设置操作可以为设置上述虚拟三维空间模型中包括上述虚拟声源的操作。作为又一示例，上述声源设置操作可以为设置上述虚拟声源在上述三维空间坐标系中的坐标，以及确定上述虚拟声源的属性(类别)的操作。上述虚拟声源可以为人工设置的可以发声的物体。其中，上述虚拟声源可以为现实的空间中的物体。上述虚拟声源也可以为人为设定的、现实的空间中不存在的物体。作为示例，上述虚拟声源可以为现实的空间中的门。由此，可以在后续步骤中模拟门的开关门声。作为又一示例，上述虚拟声源可以为现实的空间中的木偶。由此，可以在后续步骤中实现木偶发声的效果。作为另一示例，上述虚拟声源可以为虚拟的音箱，该音箱的位置可以被设置在现实的空间中桌子上的空置部分。由此，可以在后续步骤中实现虚拟的音箱播放音频的效果。

实践中，响应于检测到用户的声源设置操作，以及上述声源设置操作表征设置虚拟三维空间模型对应有虚拟声源，上述执行主体可以在上述虚拟三维空间模型中设置虚拟声源。由此，可以确定需要播放的三维音频。实践中，响应于检测到用户的声源设置操作，以及上述声源设置操作表征用户确认虚拟物体对应有真实的物体，上述执行主体可以将真实物体的属性确定为虚拟声源的属性，以及将上述真实物体的位置映射至上述三维空间坐标系，以得到虚拟声源在上述三维空间坐标系中的坐标，从而设置虚拟声源。实践中，响应于检测到用户的声源设置操作，以及上述声源设置操作表征用户确认虚拟物体未对应有真实的物体，上述执行主体可以将用户输入的属性和坐标分别确定为虚拟声源的属性和坐标，从而设置虚拟声源。由此，可以确定需要播放的三维音频。

步骤104，确定对应真实空间数据的收听者位姿信息。

在一些实施例中，上述执行主体可以确定对应上述真实空间数据的收听者位姿信息。其中，上述收听者位姿信息可以为表征佩戴上述头戴式显示设备的用户的位置坐标和姿态的信息。其中，上述位置坐标所在的坐标系可以为上述三维空间坐标系。实践中，上述执行主体可以通过SLAM(Simultaneous Localization and Mapping，同时定位和映射)算法获取上述头戴式显示设备的设备位置信息和设备姿态信息，并将上述设备位置信息和设备姿态信息组合为收听者位姿信息。其中，上述设备位置信息可以表征上述头戴式显示设备在真实空间中的位置。例如，上述设备位置信息可以为三维空间坐标系中的(x,y,z)坐标。上述设备位姿信息可以表征上述头戴式显示设备在真实空间中的角度与姿态。例如，上述设备位姿信息可以包括姿态角(俯仰角、偏航角、滚动角)。由此，可以得到表征佩戴上述头戴式显示设备的用户的位置坐标和姿态的收听者位姿信息。

在一些实施例的一些可选的实现方式中，首先，上述执行主体可以获取对应上述虚拟三维空间模型的目标设备采集的实时图像。其中，上述目标设备可以为用于采集构建上述虚拟三维空间模型的实时图像的智能终端。上述智能终端可以包括但不限于：头戴式显示设备、智能手机、台式电脑、笔记本电脑、平板电脑。上述目标设备可以与获取上述真实空间建模数据的设备(即上述头戴式显示设备)相同。上述目标设备也可以与获取上述真实空间建模数据的设备不同。实践中，上述执行主体可以通过有线连接或无线连接的方式获取对应上述虚拟三维空间模型的目标设备采集的实时图像。然后，根据上述三维空间坐标系和上述实时图像，可以生成收听者位姿信息。实践中，根据上述三维空间坐标系和上述实时图像，可以通过PnP(Perspective-n-Point)算法生成收听者位姿信息。由此，可以通过采集的实时图像生成收听者位姿信息。

步骤105，根据三维空间坐标系，对真实空间数据进行物体识别处理，得到三维空间物体信息。

在一些实施例中，上述执行主体可以根据上述三维空间坐标系，对上述真实空间数据进行物体识别处理，得到三维空间物体信息。实践中，上述执行主体可以根据上述三维空间坐标系，使用目标识别算法(例如：滑动窗口算法)对上述真实空间数据进行物体识别处理，得到三维空间物体信息。上述三维空间物体信息可以表征真实空间中的物体的属性、以及真实空间中的物体在虚拟三维模型中的位置。例如，上述三维物体空间信息可以为：电脑，位于(1,1,1)处。由此，可以得到表征真实空间中的物体属性，以及在虚拟三维模型中的位置的三维空间物体信息。

可选地，上述真实空间数据可以包括真实空间障碍物数据和真实空间声源物体数据。其中，上述真实空间声源物体数据可以为现实的空间中被设置为虚拟声源的声源物体的空间数据。上述空间数据可以为能够表征物体的位置，形状，大小的数据。例如，上述空间数据可以为至少一张图片。又如，上述空间数据可以为激光雷达点云数据。上述真实空间障碍物数据可以为现实的空间中阻碍虚拟声源发出的声音传播至用户的障碍物的空间数据。例如，上述真实空间声源物体数据可以为现实的空间中的门的图片。上述真实空间障碍物数据可以为现实的空间中的围墙的图片。

在一些实施例的一些可选的实现方式中，首先，上述执行主体可以对上述真实空间障碍物数据进行障碍物识别处理，得到障碍物识别信息。其中，上述障碍物识别信息可以为表征障碍物的属性(类别)的信息。例如，上述障碍物识别信息可以表征障碍物为围墙。实践中，上述执行主体可以使用目标识别算法(例如：滑动窗口算法)对上述真实空间障碍物数据进行障碍物识别处理，得到障碍物识别信息。然后，可以对上述真实空间声源物体数据进行声源物体识别处理，得到声源物体识别信息。其中，上述声源物体识别信息可以为表征声源物体的属性(类别)的信息。例如，上述声源物体识别信息可以表征声源物体为门。实践中，上述执行主体可以使用目标识别算法(例如：R-CNN算法)对上述真实空间声源物体数据进行声源物体识别处理，得到声源物体识别信息。其次，可以将上述真实空间障碍物数据映射至上述三维空间坐标系中，得到三维空间障碍物定位数据。其中，上述三维空间障碍物定位数据表征上述障碍物在上述三维空间坐标系下的坐标。实践中，可以将上述真实空间障碍物数据表征的障碍物的坐标转换为在上述三维空间坐标系下的坐标，得到三维空间障碍物定位数据。之后，可以将上述真实空间声源物体数据映射至上述三维空间坐标系中，得到三维空间声源物体定位数据。其中，上述三维空间声源物体定位数据表征上述声源物体在上述三维空间坐标系下的坐标。实践中，可以将上述真实空间声源物体数据表征的声源物体的坐标转换为在上述三维空间坐标系下的坐标，得到三维空间声源物体定位数据。最后，可以根据上述障碍物识别信息、上述声源物体识别信息、上述三维空间障碍物定位数据和上述三维空间声源物体定位数据，生成三维空间物体信息。实践中，可以将上述障碍物识别信息、上述声源物体识别信息、上述三维空间障碍物定位数据和上述三维空间声源物体定位数据的组合为三维空间物体信息。由此，得到的三维空间物体信息可以表征声源与障碍物的位置和属性。

可选地，上述三维空间物体信息可以包括物体属性信息、物体位姿信息和物体识别信息。其中，上述物体属性信息可以为表征物体类别(属性)的信息。上述物体位姿信息可以为表征物体在上述三维空间坐标系中的位置和姿态的信息。上述物体识别信息可以为表征物体材质的信息。

在一些实施例的一些可选的实现方式中，首先，根据上述三维空间坐标系，上述执行主体可以对上述真实空间数据进行物体检测处理，得到物体属性信息和物体位姿信息。实践中，第一步，上述执行主体可以使用目标识别算法(例如：滑动窗口算法)对上述真实空间数据进行物体识别处理，得到物体属性信息。第二步，根据上述三维空间坐标系，可以采用SLAM算法对上述真实空间数据进行处理，得到物体位姿信息。然后，根据上述物体属性信息，可以对上述真实空间数据进行物体识别处理，得到物体识别信息。其中，上述物体识别信息包括物体材质信息、物体声场因子和物体声源吸收率。上述物体材质信息可以表征物体的材质。例如，上述物体材质信息可以表征物体的材质为吸音玻镁板。上述物体声场因子可以为预设属性因子表中对应上述物体属性信息的声场因子。上述预设属性因子表可以表征物体属性信息与声场因子的对应关系。上述物体声源吸收率可以为物体材质信息表征的材质所对应的吸声系数。实践中，第一步，可以确定上述物体属性信息对应的物体材质范围。第二步，可以在上述物体材质范围内对上述真实空间数据进行物体材质识别，得到物体材质信息。第三步，可以将上述预设属性因子表中对应上述物体属性信息的声场因子确定为物体声场因子。第四步，可以将上述物体材质信息表征的材质所对应的吸声系数确定为物体声源吸收率。第五步，可以将上述物体材质信息、上述物体声场因子和上述物体声源吸收率组合为物体识别信息。最后，根据上述物体属性信息、上述物体位姿信息和上述物体识别信息，可以生成三维空间物体信息。实践中，可以将上述物体属性信息、上述物体位姿信息和上述物体识别信息组合为三维空间物体信息。由此，得到的三维空间物体信息可以包括物体材质信息、物体声场因子和物体声源吸收率。

步骤106，根据三维空间物体信息和收听者位姿信息，调整三维音频对应的音频播放配置信息。

在一些实施例中，上述执行主体可以根据上述三维空间物体信息和上述收听者位姿信息，调整上述三维音频对应的音频播放配置信息。其中，上述音频播放配置信息可以为表征三维音频播放时各项配置的信息。例如，上述音频播放配置信息可以为表征播放的三维音频的音量和声音频率的信息。由此，可以得到用于播放三维音频的音频播放配置信息。

可选地，上述三维空间物体信息可以为三维空间障碍物信息。其中，上述三维空间障碍物信息可以为表征真实的空间中的障碍物的信息。例如，上述三维空间障碍物信息可以为表征真实的空间中的障碍物的位置、大小的信息。

在一些实施例的一些可选的实现方式中，上述执行主体可以根据上述虚拟声源对应的声源位姿信息、上述三维空间障碍物信息和上述收听者位姿信息，调整上述三维音频对应的音频播放配置信息。其中，上述声源位姿信息可以为用户在设置上述虚拟声源的同时设置的上述虚拟声源的位置信息和姿态信息。上述虚拟声源的位置信息可以表征上述虚拟声源在上述三维空间坐标系中的坐标。上述虚拟声源的姿态信息可以表征上述虚拟声源的姿态。例如，该姿态信息可以包括姿态角(俯仰角、偏航角、滚动角)。实践中，第一步，上述执行主体可以确定上述声源位姿信息与上述收听者位姿信息所表征的位置之间的距离是否大于预设距离阈值。第二步，响应于确定大于预设距离阈值，可以通过预设音量衰减对照表，确定对应第一步中距离的衰减音量。其中，上述预设音量衰减对照表可以为表征距离与衰减音量的对应关系的表格。第三步，可以确定上述三维空间障碍物信息所表征的位置是否位于上述声源位姿信息与上述收听者位姿信息所表征的位置中间。这里，对于确定上述三维空间障碍物信息所表征的位置是否位于上述声源位姿信息与上述收听者位姿信息所表征的位置中间的具体方法，不做设定。例如，可以将上述声源位姿信息与上述收听者位姿信息所表征的位置之间连线的中点作为起点，向连线两端延伸预设长度，得到中间线。当上述三维空间障碍物信息所表征的位置位于该中间线上，即确定上述三维空间障碍物信息所表征的位置位于上述声源位姿信息与上述收听者位姿信息所表征的位置中间。第四步，响应于确定上述三维空间障碍物信息所表征的位置位于上述声源位姿信息与上述收听者位姿信息所表征的位置中间，降低声音频率中的低音频率。这里，对于低音频率具体下降的数值或比例，不作限定。例如，可以按照预设低音频率下降比例降低低音比例。第五步，可以将音频播放配置信息包括的音量和声音频率调整为上述第二步确定的衰减音量和上述第四步确定的声音频率，以实现调整上述三维音频对应的音频播放配置信息。由此，可通过调整音频播放配置信息包括的音量和声音频率，在后续步骤中控制三维音频的播放，使得用户通过播放的三维音频所感知到的声音的空间感与虚拟声源更加吻合，更加贴合XR场景。

可选地，上述音频播放配置信息可以包括音频衰减信息、声场参数设置信息和音频频率信息。其中，上述音频衰减信息可以表征三维音频的衰减程度。例如，上述音频衰减信息可以为音频衰减系数。上述音频衰减信息也可以为所衰减的三维音频的音量。上述声场参数设置信息可以为表征播放三维音频的效果器和/或均衡器的参数设置的信息。上述音频频率信息可以表征三维音频的频率。

在一些实施例的一些可选的实现方式中，首先，根据上述三维空间物体信息和上述收听者位姿信息，上述执行主体可以确定声源距离。实践中，第一步，上述执行主体可以将上述三维空间物体信息包括的上述虚拟声源的位置确定为虚拟声源位置信息。第二步，可以将上述虚拟声源位置信息和上述收听者位姿信息所表征的位置之间的距离确定为声源距离。然后，根据上述声源距离，可以对上述音频衰减信息进行调整。作为示例，可以将预设距离衰减系数表中上述声源距离对应的音频衰减系数确定为音频衰减信息。其中，上述预设距离衰减系数表可以表征声源距离和音频衰减系数的一一对应关系。之后，根据上述三维空间物体信息和上述收听者位姿信息，可以对上述声场参数设置信息进行调整。其中，上述声场参数设置信息可以包括以下中的至少一项：混响效果器参数设置信息、延迟效果器参数设置信息、均衡器参数设置信息。上述混响效果器参数设置信息可以表征混响效果器的参数设置。上述延迟效果器参数设置信息可以表征延迟效果器的参数设置。上述均衡器参数设置信息可以表征均衡器的参数设置。实践中，可以将上述三维空间物体信息和上述收听者位姿信息输入至预设声场参数调整模型，得到调整后的声场参数信息。上述预设声场参数调整模型可以为以三维空间物体信息和收听者位姿信息为输入，以声场参数信息为输出的神经网络模型(例如深度神经网络模型)。然后，根据上述三维空间物体信息和上述收听者位姿信息，可以确定上述三维空间物体信息是否满足障碍物遮挡条件。这里，对于上述障碍物遮挡条件的具体设定，不做限定。例如，上述障碍物遮挡条件可以为上述三维空间物体信息表征的物体与上述收听者位姿信息表征的用户之间的距离小于预设距离阈值。上述预设距离阈值可以为预先设置的距离上限。又如，上述障碍物遮挡条件可以为上述三维空间物体信息表征的物体位于上述声源物体与上述收听者位姿信息表征的用户位置的中间区域。这里，上述中间区域的具体范围可以由相关工作人员预先设置。最后，响应于确定上述三维空间物体信息满足上述障碍物遮挡条件，可以对上述音频播放配置信息包括的音频频率信息进行调整。实践中，可以根据上述三维空间物体信息表征的物体的材质调整音频频率信息包括的低音波长。由此，可以模拟声音被真实物体所吸收的效果。

步骤107，根据调整后的音频播放配置信息，对三维音频进行播放。

在一些实施例中，上述执行主体可以根据调整后的音频播放配置信息，对上述三维音频进行播放。由此，可以实现对于三维音频的调整播放。

可选地，首先，根据上述物体位姿信息，上述执行主体可以对上述真实空间数据进行物体追踪处理，以对上述物体位姿信息进行更新。实践中，可以采用目标检测算法(例如R-CNN，Region with CNN Feature)对上述真实空间数据进行物体追踪处理，以对上述物体位姿信息进行更新。然后，根据所更新的物体位姿信息，可以对上述三维空间物体信息进行更新。由此，可以实时更新三维空间物体信息。

继续参考图2，其示出了音频播放方法的另一些实施例的流程200。该音频播放方法的流程200，包括以下步骤：

步骤201，获取真实空间数据。

步骤202，根据真实空间数据，构建虚拟三维空间模型。

步骤203，响应于检测到用户的声源设置操作，在虚拟三维空间模型中设置虚拟声源。

步骤204，确定对应真实空间数据的收听者位姿信息。

步骤205，根据三维空间坐标系，对真实空间数据进行物体识别处理，得到三维空间物体信息。

步骤206，根据三维空间物体信息和收听者位姿信息，调整三维音频对应的音频播放配置信息。

步骤207，根据调整后的音频播放配置信息，对三维音频进行播放。

在一些实施例中，步骤201-207的具体实现及其带来的技术效果参考图1对应的那些实施例中的步骤101-107，在此不再赘述。

步骤208，采集虚拟三维空间模型对应的目标环境中的实时音频。

在一些实施例中，音频播放方法的执行主体(例如头戴式显示设备)可以采集虚拟三维空间模型对应的目标环境中的实时音频。其中，上述目标环境可以为上述虚拟三维空间模型对应的真实空间。实践中，可以通过上述执行主体包括的麦克风采集虚拟三维空间模型对应的目标环境中的实时音频。

步骤209，根据实时音频，生成实时音频位置信息。

在一些实施例中，上述执行主体可以根据实时音频，生成实时音频位置信息。实践中，可以将发出上述实时音频的位置坐标确定为实时音频位置信息。其中，可以通过声源定位技术确定发出上述实时音频的位置坐标。

步骤210，对实时音频进行音频类型识别处理，得到实时音频的音频类型。

在一些实施例中，上述执行主体可以对实时音频进行音频类型识别处理，得到实时音频的音频类型。其中，上述音频类型可以表征发出上述实时音频的声源物体的物体类别。例如，上述音频类型可以为开门声。实践中，上述执行主体可以将上述实时音频输入至预设音频类别识别模型，得到上述实时音频的音频类型。上述预设音频类别识别模型可以为预先训练的以实时音频以输入，以音频类型为输出的神经网络模型(例如卷积神经网络模型)。

步骤211，根据实时音频位置信息和音频类型，确定模型更新信息。

在一些实施例中，上述执行主体可以根据实时音频位置信息和音频类型，确定模型更新信息。实践中，可以从模型更新类型对照表中根据上述实时音频位置信息和上述音频类型，确定模型更新信息。上述模型更新类型对照表可以表征实时音频位置信息、音频类型和模型更新信息之间的对应关系。上述模型更新信息可以为表征如何对模型进行修改以更新模型的信息。作为示例，上述模型更新信息可以为：打开位于实时音频位置信息所表征的位置处的门。

步骤212，根据模型更新信息，对虚拟三维空间模型进行更新。

在一些实施例中，上述执行主体可以根据模型更新信息，对虚拟三维空间模型进行更新。实践中，可以按照上述模型更新信息修改上述虚拟三维空间模型，以实现对上述虚拟三维空间模型的更新。作为示例，可以将上述虚拟三维空间模型中位于上述实时音频位置信息所表征的位置处的门从关闭修改为打开。由此，可以基于实时音频，实现虚拟三维空间模型的更新。

可选地，响应于确定采集到上述实时音频，上述执行主体可以执行以下步骤：

第一步，确定上述实时音频对应的原始音频。其中，上述原始音频可以为原始音频库中存储的原始音频。作为示例，上述原始音频库可以为歌曲库。实践中，可以采用音频指纹检索技术确定上述实时音频对应的原始音频。例如，上述实时音频可以为播放的音乐片段。上述执行主体可以从歌曲库中确定对应上述音乐片段的歌曲。

第二步，确定上述原始音频的播放状态。其中，上述播放状态可以表征上述原始音频是否正在播放。

第三步，响应于确定上述播放状态表征正在播放，停止播放上述原始音频。由此，可以优化用户体验。例如，播放上述实时音频的物体可以为目标环境中的音箱。当头戴式显示设备检测到目标环境中的音箱播放音乐时，可以停止头戴式显示设备播放音乐，从而实现一首歌曲从头戴式显示设备播放切换至音箱播放，优化用户体验。

可选地，响应于确定当前时间为上述实时音频对应的结束播放时间，上述执行主体可以执行以下步骤：

第一步，确定上述实时音频在上述结束播放时间的音频播放进度信息。其中，上述结束播放时间可以为停止播放上述实时音频的时间。上述音频播放进度信息可以为表征上述实时音频在上述原始音频中的时间进度的信息。例如，上述音频播放进度信息可以为播放至上述原始音频的2分51秒处。

第二步，根据上述音频播放进度信息，播放上述原始音频。实践中，上述执行主体可以按照上述音频播放信息记载的时间进度，播放上述原始音频。由此，在播放上述实时音频的物体停止播放后，上述头戴式显示设备可以继续播放。

从图2中可以看出，与图1对应的一些实施例的描述相比，图2对应的一些实施例中的音频播放方法的流程200体现了对于通过采集实时音频更新虚拟三维模型进行扩展的步骤。由此，这些实施例描述的方案可以避免工作人员重新建模，提高了虚拟三维模型的利用率。

进一步参考图3，其示出了根据本公开的头戴式显示设备的一些实施例的结构示意图。

如图3所示，本公开的头戴式显示设备可以包括：摄像头1、传感器2、扬声器3、处理器4和存储器5。

在一些实施例中，上述头戴式显示设备可以包括摄像头1、传感器2、扬声器3、处理器4和存储器5。上述摄像头1、上述传感器2、上述扬声器3和上述存储器5均与上述处理器4通信连接。其中，上述扬声器3可以被配置为根据调整后的音频播放配置信息，对上述三维音频进行播放。

可选地，上述摄像头可以被配置为获取摄像头数据流。其中，上述摄像头数据流可以为通过摄像头所获取的数据。上述摄像头数据流的数据格式可以包括但不限于：视频、图片。上述传感器可以被配置为获取传感器数据。其中，上述传感器数据可以为传感器感受、测量及传输的数据。上述处理器可以被配置成将上述摄像头数据流和上述传感器数据组合为真实空间数据。

可选地，上述处理器可以包括以下至少一项：嵌入式微处理器、图形处理器和神经网络处理器。其中，上述嵌入式微处理器可以为ARM(Advanced RISC Machines)微处理器。上述图形处理器可以为GPU(Graphics Processing Unit)。上述神经网络处理器可以为NPU(Neural-network Processing Unit)。

可选地，上述头戴式显示设备还可以包括麦克风装置。上述麦克风装置可以被配置为采集上述虚拟三维空间模型对应的目标环境中的实时音频。

本公开的上述各个实施例具有如下有益效果：通过本公开的一些实施例的音频播放方法，可以使得收听者沉浸式感受XR场景中虚实结合的听觉体验，提高用户体验。具体来说，造成对于收听者而言，无法沉浸式感受XR场景中虚实结合的听觉体验，用户体验较差的原因在于：在XR场景中，空间音频与虚拟世界或现实世界的结合性较差，空间音频与XR场景不同步，导致对于收听者而言，无法沉浸式感受XR场景中虚实结合的听觉体验，用户体验较差。基于此，本公开的一些实施例的头戴式显示设备包括摄像头1、传感器2、扬声器3、处理器4和存储器5，上述摄像头1、上述传感器2、上述扬声器3和上述存储器5均与上述处理器4通信连接。其中，上述扬声器3可以被配置为根据调整后的音频播放配置信息，对上述三维音频进行播放。因为根据调整后的音频播放配置信息，对上述三维音频进行播放，使得根据调整后的音频播放配置信息播放三维音频时，通过调整后的音频播放配置信息播放三维音频能够更加贴合XR场景，提高了空间音频与XR场景的结合性，使得空间音频与XR场景同步，从而对于收听者而言，可以沉浸式感受XR场景中虚实结合的听觉体验，提高了用户体验。

以上描述仅为本公开的一些较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开的实施例中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种音频播放方法，包括：

获取真实空间数据；

根据所述真实空间数据，构建虚拟三维空间模型，其中，所述虚拟三维空间模型对应有三维空间坐标系；

响应于检测到用户的声源设置操作，在所述虚拟三维空间模型中设置虚拟声源，其中，所述虚拟声源被配置为播放三维音频；

确定对应所述真实空间数据的收听者位姿信息；

根据所述三维空间坐标系，对所述真实空间数据进行物体识别处理，得到三维空间物体信息；

根据所述三维空间物体信息和所述收听者位姿信息，调整所述三维音频对应的音频播放配置信息；

根据调整后的音频播放配置信息，对所述三维音频进行播放。

2.根据权利要求1所述的方法，其中，所述三维空间物体信息为三维空间障碍物信息；以及

所述根据所述三维空间物体信息和所述收听者位姿信息，调整所述三维音频对应的音频播放配置信息，包括：

根据所述虚拟声源对应的声源位姿信息、所述三维空间障碍物信息和所述收听者位姿信息，调整所述三维音频对应的音频播放配置信息。

3.根据权利要求1所述的方法，其中，所述真实空间数据包括真实空间建模数据；以及

所述根据所述真实空间数据，构建虚拟三维空间模型，包括：

根据所述真实空间建模数据，构建虚拟三维空间模型。

4.根据权利要求1所述的方法，其中，所述确定对应所述真实空间数据的收听者位姿信息，包括：

获取对应所述虚拟三维空间模型的目标设备采集的实时图像；

根据所述三维空间坐标系和所述实时图像，生成收听者位姿信息。

5.根据权利要求1所述的方法，其中，所述真实空间数据包括真实空间障碍物数据和真实空间声源物体数据；以及

所述对所述真实空间数据进行物体识别处理，得到三维空间物体信息，包括：

对所述真实空间障碍物数据进行障碍物识别处理，得到障碍物识别信息；

对所述真实空间声源物体数据进行声源物体识别处理，得到声源物体识别信息；

将所述真实空间障碍物数据映射至所述三维空间坐标系中，得到三维空间障碍物定位数据；

将所述真实空间声源物体数据映射至所述三维空间坐标系中，得到三维空间声源物体定位数据；

根据所述障碍物识别信息、所述声源物体识别信息、所述三维空间障碍物定位数据和所述三维空间声源物体定位数据，生成三维空间物体信息。

6.根据权利要求1所述的方法，其中，所述三维空间物体信息包括物体属性信息、物体位姿信息和物体识别信息；以及

根据所述三维空间坐标系，对所述真实空间数据进行物体检测处理，得到物体属性信息和物体位姿信息；

根据所述物体属性信息，对所述真实空间数据进行物体识别处理，得到物体识别信息，其中，所述物体识别信息包括物体材质信息、物体声场因子和物体声源吸收率；

根据所述物体属性信息、所述物体位姿信息和所述物体识别信息，生成三维空间物体信息。

7.根据权利要求6所述的方法，其中，所述方法还包括：

根据所述物体位姿信息，对所述真实空间数据进行物体追踪处理，以对所述物体位姿信息进行更新；

根据所更新的物体位姿信息，对所述三维空间物体信息进行更新。

8.根据权利要求1所述的方法，其中，所述音频播放配置信息包括音频衰减信息、声场参数设置信息和音频频率信息；以及

所述调整所述三维音频对应的音频播放配置信息，包括：

根据所述三维空间物体信息和所述收听者位姿信息，确定声源距离；

根据所述声源距离，对所述音频衰减信息进行调整；

根据所述三维空间物体信息和所述收听者位姿信息，对所述声场参数设置信息进行调整，其中，所述声场参数设置信息包括以下中的至少一项：混响效果器参数设置信息、延迟效果器参数设置信息、均衡器参数设置信息；

根据所述三维空间物体信息和所述收听者位姿信息，确定所述三维空间物体信息是否满足障碍物遮挡条件；

响应于确定所述三维空间物体信息满足所述障碍物遮挡条件，对所述音频播放配置信息包括的音频频率信息进行调整。

9.根据权利要求1所述的方法，其中，所述方法还包括：

采集所述虚拟三维空间模型对应的目标环境中的实时音频；

根据所述实时音频，生成实时音频位置信息；

对所述实时音频进行音频类型识别处理，得到所述实时音频的音频类型；

根据所述实时音频位置信息和所述音频类型，确定模型更新信息；

根据所述模型更新信息，对所述虚拟三维空间模型进行更新。

10.根据权利要求9所述的方法，其中，所述方法还包括：

响应于确定采集到所述实时音频，执行以下步骤：

确定所述实时音频对应的原始音频；

确定所述原始音频的播放状态；

响应于确定所述播放状态表征正在播放，停止播放所述原始音频。

11.根据权利要求10所述的方法，其中，所述方法还包括：

响应于确定当前时间为所述实时音频对应的结束播放时间，执行以下步骤：

确定所述实时音频在所述结束播放时间的音频播放进度信息；

根据所述音频播放进度信息，播放所述原始音频。

12.一种头戴式显示设备，应用于如权利要求1-11之一所述的音频播放方法，其中，

所述头戴式显示设备包括摄像头、传感器、扬声器、处理器和存储器，所述摄像头、所述传感器、所述扬声器和所述存储器均与所述处理器通信连接，其中，所述扬声器被配置为根据调整后的音频播放配置信息，对所述三维音频进行播放。

13.根据权利要求12所述的头戴式显示设备，其中，所述摄像头被配置为获取摄像头数据流，所述传感器被配置为获取传感器数据，所述处理器被配置成将所述摄像头数据流和所述传感器数据组合为真实空间数据。

14.根据权利要求12所述的头戴式显示设备，其中，所述处理器包括以下至少一项：嵌入式微处理器、图形处理器和神经网络处理器。

15.根据权利要求12所述的头戴式显示设备，其中，所述头戴式显示设备还包括麦克风装置，所述麦克风装置被配置为采集所述虚拟三维空间模型对应的目标环境中的实时音频。