CN117857981A

CN117857981A - 音频播放方法、车辆、头戴设备和计算机可读存储介质

Info

Publication number: CN117857981A
Application number: CN202311697171.XA
Authority: CN
Inventors: 李光耀
Original assignee: Goertek Techology Co Ltd
Current assignee: Goertek Techology Co Ltd
Priority date: 2023-12-11
Filing date: 2023-12-11
Publication date: 2024-04-09

Abstract

本申请公开了一种音频播放方法、车辆、头戴设备和计算机可读存储介质，涉及可穿戴设备技术领域，所述音频播放方法包括：通过各麦克风采集车辆周身的多个方位的环境音频；基于各个麦克风采集的环境音频，对环境音频中的目标音频进行声源定位，得到产生目标音频的音源位置；基于音源位置，对目标音频进行三维空间化处理，得到头戴设备的左耳扬声器与右耳扬声器分别对应的音频参数信息；将音频参数信息发送至头戴设备，以使左耳扬声器播放对应的音频参数信息，以及右耳扬声器播放对应的音频参数信息。本申请能够提升车内人员对车外环境感知的准确性，解决风险场景下无法识别车外环境音导致的行车安全性问题。

Description

音频播放方法、车辆、头戴设备和计算机可读存储介质

技术领域

本申请涉及可穿戴设备技术领域，尤其涉及一种音频播放方法、车辆、头戴设备和计算机可读存储介质。

背景技术

现阶段大部分汽车密闭性较好，使得在车门窗关闭情况下，几乎接收不到车外的声音。目前，带有环境音收放功能的汽车只是收集周围声音然后利用车内音响播放的常规播放方式，会有各个方向上的杂音，且无法实现立体空间音频，不容易判断声音的来源与方向。

发明内容

本申请的主要目的在于提供一种音频播放方法、车辆、头戴设备和计算机可读存储介质，旨在实现提升车内人员对车外环境感知的准确性，解决风险场景下无法识别车外环境音导致的行车安全性问题。

为实现上述目的，本申请提供一种音频播放方法，所述音频播放方法应用于车辆，所述车辆周身的多个方位设置有麦克风，所述方法包括：

通过各所述麦克风采集车辆周身的多个方位的环境音频；

基于各个麦克风采集的环境音频，对所述环境音频中的目标音频进行声源定位，得到产生所述目标音频的音源位置；

基于所述音源位置，对所述目标音频进行三维空间化处理，得到头戴设备的左耳扬声器与右耳扬声器分别对应的音频参数信息；

将所述音频参数信息发送至所述头戴设备，以使所述左耳扬声器播放所述左耳扬声器对应的音频参数信息，以及所述右耳扬声器播放所述右耳扬声器对应的音频参数信息。

可选地，所述基于所述音源位置，对所述目标音频进行三维空间化处理，得到头戴设备的左耳扬声器与右耳扬声器分别对应的音频参数信息的步骤包括：

基于所述音源位置，确定所述音源位置与用户之间的相对空间位置；

基于所述相对空间位置，确定所述目标音频从所述音源位置传播至用户双耳之间的音频参数偏差信息，其中，所述音频参数偏差信息包括波束相位偏差和/或波束幅度偏差；

基于所述音频参数偏差信息，对所述目标音频进行三维空间化处理，得到头戴设备的左耳扬声器与右耳扬声器分别对应的音频参数信息。

可选地，所述基于所述音频参数偏差信息，对所述目标音频进行三维空间化处理，得到头戴设备的左耳扬声器与右耳扬声器分别对应的音频参数信息的步骤包括：

基于所述音频参数偏差信息，对所述目标音频进行三维空间化处理，得到所述目标音频的三维立体声场；

对所述目标音频的三维立体声场进行增强处理，得到增强立体声场；

根据所述增强立体声场，生成头戴设备的左耳扬声器与右耳扬声器分别对应的音频参数信息。

本申请还提供一种车辆，所述车辆为实体设备，所述车辆包括：存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的所述音频播放方法的程序，所述音频播放方法的程序被处理器执行时可实现如上述的音频播放方法的步骤。

此外，本申请还提供一种音频播放方法，所述音频播放方法应用于头戴设备，所述头戴设备与如上述的车辆进行通信连接，所述方法包括：

获取车辆发送的音频参数信息，其中，所述音频参数信息通过在所述车辆周身间距设置的至少两个麦克风采集环境音频所得；

基于获取的所述音频参数信息进行音频播放。

可选地，所述基于获取的所述音频参数信息进行音频播放的步骤包括：

检测头戴设备的当前位姿信息；

根据所述当前位姿信息，确定注视区域；

确定环境音频的音源位置处于所述注视区域内的目标音频；

对所述音频参数信息中的所述目标音频进行音量增强处理，和/或对所述音频参数信息中除所述目标音频之外的其他音频进行音量减弱处理，得到待播放音频信息；

根据所述待播放音频信息进行音频播放。

可选地，所述根据所述待播放音频信息进行音频播放的步骤包括：

基于所述待播放音频信息，确定所述头戴设备的左耳扬声器与右耳扬声器分别对应的音频参数信息；

根据所述左耳扬声器对应的音频参数信息，控制所述左耳扬声器进行音频播放；以及，

根据所述右耳扬声器对应的音频参数信息，控制所述右耳扬声器进行音频播放。

可选地，所述确定环境音频的音源位置处于所述注视区域内的目标音频的步骤包括：

通过各个环境音频对应的三维立体声场，识别在各个环境音频中，环境音频的音源位置处于所述注视区域内的目标环境音频；

通过收敛的音频识别神经网络模型，识别出所述目标环境音频中属于交通物对应产生的关键音频，所述交通物包括人和/或车；

将识别出的所述关键音频，作为所述音源位置处于所述注视区域内的目标音频。

本申请还提供一种头戴设备，所述头戴设备为实体设备，所述头戴设备包括：存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的所述音频播放方法的程序，所述音频播放方法的程序被处理器执行时可实现如上述的音频播放方法的步骤。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有实现音频播放方法的程序，所述实现音频播放方法的程序被处理器执行以实现如上述音频播放方法的步骤。

本申请还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述的音频播放方法的步骤。

本申请提供一种音频播放方法、车辆、头戴设备和计算机可读存储介质，该音频播放方法应用于车辆，该车辆周身的多个方位设置有麦克风，本申请的技术方案是通过各个麦克风采集车辆周身的多个方位的环境音频，并基于各个麦克风采集的环境音频，对环境音频中的目标音频进行声源定位，得到产生该目标音频的音源位置，然后基于该音源位置，对目标音频进行三维空间化处理，得到头戴设备的左耳扬声器与右耳扬声器分别对应的音频参数信息，再将音频参数信息发送至头戴设备，以使左耳扬声器播放所述左耳扬声器对应的音频参数信息，以及右耳扬声器播放右耳扬声器对应的音频参数信息，从而能够提升车内人员对车外环境感知的准确性，有效避免风险场景下无法识别车外环境音导致的行车安全性问题，能够有效向用户提示外界的关键音频信息，避免用户无法及时分辨外界环境事物的状况发生。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

为了更清楚地说明本实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请音频播放方法第一实施例的流程示意图；

图2为本申请音频播放方法第二实施例的流程示意图；

图3为本申请实施例中车辆的结构示意图；

图4为本申请实施例中头戴设备与车辆通信连接的系统架构图；

图5为本实施例中车辆涉及的硬件运行环境的设备结构示意图；

图6为本实施例中头戴设备涉及的硬件运行环境的设备结构示意图。

本申请目的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其它实施例，均属于本发明保护的范围。

在本实施例中，该头戴设备包括但不限于混合现实（Mixed Reality）—MR设备（例如MR眼镜或者MR头盔）、增强现实（Augmented Reality）—AR设备（例如AR眼镜或者AR头盔）、虚拟现实-（Virtual Reality）—VR设备（例如VR眼镜或者VR头盔）、扩展现实（Extended Reality）—XR设备或其某种组合等等头戴设备。

实施例一

基于此，请参照图1，本实施例提供一种音频播放方法，所述音频播放方法应用于车辆，所述车辆周身的多个方位设置有麦克风，所述方法包括：

步骤S10，通过各所述麦克风采集车辆周身的多个方位的环境音频；

在本实施例中，车辆周身的多个方位设置有麦克风，可通过车辆周侧间距设置的各个麦克风，来采集车辆周身的多个方位的环境音频。

步骤S20，基于各个麦克风采集的所述环境音频，对所述环境音频中的目标音频进行声源定位，得到产生所述目标音频的音源位置；

在本实施例中，所有麦克风所覆盖的拾音区域应该是能够覆盖车辆的周侧的预设距离范围，其中，相邻两个麦克风的拾音区域可存在部分重叠，从而便于根据各个麦克风的拾音区域，对车辆周身预设距离范围的环境音频均能进行采集，避免音频拾取的遗漏。因此，本实施例可基于各个麦克风采集的音频，生成车辆周围预设区域内的环境音频。

步骤S30，基于所述音源位置，对所述目标音频进行三维空间化处理，得到头戴设备的左耳扬声器与右耳扬声器分别对应的音频参数信息；

在本实施例中，本领域技术人员可知的是，大脑可以根据声音到两只耳朵的时间差、相位差与声级差等信息，来进行听声辨位，确定产生该声音的音源位置。其中，时间差主要是指声音刚到双耳瞬间的先后差异。声波在常温下传播的速度为344m/s，当声源偏离听音人正前方中轴线时，耳A与耳B同声源之间的距离有差别，从而出现声音到达耳A与耳B之间的时间差。相位差是指双耳接收到针对一个音频对应周期变化信号的相位差值。因此，本实施例可基于该音源位置，反推出左耳和右耳听到该音源位置传播过来的目标音频的时间差、相位差与声级差，从而确定出在知晓目标音频是从该音源位置传播至双耳的情况下，左耳应该听到的第一音频参数信息，以及右耳应该听到的第二音频参数信息，从而实现基于该音源位置，对目标音频进行的三维空间化处理，即将反推出的该第一音频参数信息作为该左耳扬声器对应的音频参数信息，以及将反推出的该第二音频参数信息作为该右耳扬声器对应的音频参数信息，从而准确得到头戴设备的左耳扬声器与右耳扬声器分别对应的音频参数信息。

步骤S40，将所述音频参数信息发送至所述头戴设备，以使所述左耳扬声器播放对应的音频参数信息，以及所述右耳扬声器播放对应的音频参数信息。

值得一提的是，本申请实施例借助汽车周围的收音麦克风，获取汽车周围的环境音频，再根据立体声场，生成空间音频，这部分是在车机系统处理，然后传输给头戴设备，借助头戴设备的传感器（即左耳扬声器和右耳扬声器）实现空间立体音，解决车内人员无法准确判别车外声音来源方向的痛点，方便车内人员有一个直观的视听体验，对车外环境有一个更加准确的判断，提升驾驶的安全性，有效为车辆驾驶提供音频辅助信息，辅助驾驶减少事故概率。

在一种可能的实施方式中，所述基于所述音源位置，对所述目标音频进行三维空间化处理，得到头戴设备的左耳扬声器与右耳扬声器分别对应的音频参数信息的步骤包括：

步骤A10，基于所述音源位置，确定所述音源位置与用户之间的相对空间位置；

步骤A20，基于所述相对空间位置，确定所述目标音频从所述音源位置传播至用户双耳之间的音频参数偏差信息；

其中，该音频参数偏差信息包括波束相位偏差（即上述的相位差）和/或波束幅度偏差（即上述的声级差）。

步骤A30，基于所述音频参数偏差信息，对所述目标音频进行三维空间化处理，得到头戴设备的左耳扬声器与右耳扬声器分别对应的音频参数信息。

本申请实施例基于该音源位置，确定音源位置与用户之间的相对空间位置，并基于该相对空间位置，确定目标音频从音源位置传播至用户双耳之间的音频参数偏差信息，其中，所述音频参数偏差信息包括波束相位偏差和/或波束幅度偏差，并基于该音频参数偏差信息，对目标音频进行三维空间化处理，从而准确得到头戴设备的左耳扬声器与右耳扬声器分别对应的音频参数信息。

在一种可实施的方式中，所述基于所述音频参数偏差信息，对所述目标音频进行三维空间化处理，得到头戴设备的左耳扬声器与右耳扬声器分别对应的音频参数信息的步骤包括：

步骤B10，基于所述音频参数偏差信息，对所述目标音频进行三维空间化处理，得到所述目标音频的三维立体声场；

在本实施例中，基于左耳和右耳在同一时间点所听到目标音频的波束相位偏差和/或波束幅度偏差（即双耳的音频参数偏差信息），可确定目标音频的音源发声位置，该目标音频从该音源位置产生并传播至各个空间位置所产生的声场，即为目标音频的三维立体声场。容易理解的是，针对该音源位置的相对空间位置不同，左耳和右耳在同一时间点所听到目标音频的波束相位偏差和/或波束幅度偏差往往也不同，也即，不同相对空间位置对应的音频参数偏差信息不同。

步骤B20，对所述目标音频的三维立体声场进行增强处理，得到增强立体声场；

在本实施例中，对目标音频的三维立体声场进行增强处理，得到增强立体声场，具体可为：对目标音频从该音源位置产生的音频音量（或者称为音幅）进行增大处理，得到增大音量后的目标音频。其中，增大音量后的目标音频从该音源位置产生并传播至各个空间位置所产生的声场，即为目标音频的三维立体声场。

容易理解的是，左耳和右耳在同一时间点所听到增大音量后的目标音频的波束相位偏差和/或波束幅度偏差（即音频参数偏差信息），并不会损失，也即目标音频在增大音量后传播至各个空间位置时，并不会损失其音源位置的听声辨识度，反而由于提升了目标音频的音量，传播路径对目标音频的耗损将更突显，也即音频参数偏差信息能更明确地反映听声位置与音源位置之间的相对空间位置，进而使得双耳听到目标音频进行听声辨位的辨识度更明显。

步骤B30，根据所述增强立体声场，生成头戴设备的左耳扬声器与右耳扬声器分别对应的音频参数信息。

本实施例基于该音频参数偏差信息，对目标音频进行三维空间化处理，得到目标音频的三维立体声场，并对目标音频的三维立体声场进行增强处理，得到增强立体声场，并根据该增强立体声场，生成头戴设备的左耳扬声器与右耳扬声器分别对应的音频参数信息，以进一步突显目标音频从音源位置传播过来的三维立体声场信息，从而更准确地呈现该目标音频对应的音源空间位置，从而更利于用户清楚、准确地分辨出该目标音频对应的发声位置，并且及时获取到该关键音频的方位，进而有效规避行车风险。

此外，本实施例还可通过在雷达图或方位标尺进行标识的方式，将目标音频对应的音源位置显示于头戴设备的显示界面上，使得声源位置可视化，即本实施例通过在增强用户听感的基础上，通过可视化的方式，向用户提示该音源空间位置信息，将更容易被用户接收。

为了助于理解本申请实施例的技术构思或者技术原理，列举一具体实施例，请参照图3，图3为本申请实施例中车辆的结构示意图，具体实施步骤如下：

在本实施例中，为了生成汽车全方位的空间音频，采用了5个麦克风收音设备，M1为车左前侧收音麦克风，M2为车右前侧收音麦克风，M3为车左后侧收音麦克风，M4为车右后侧收音麦克风，M5为前车头侧收音麦克风。此外，本实施例还可通过增加五枚摄像头设备方案获取到车身前后和两侧的图像数据，其中C1为车左侧摄像头设备，C2为车右侧摄像头设备，C3为车前侧摄像头设备，C4为车后侧摄像头设备，C5为车前侧辅助红外成像设备。

具体实施步骤包括：

1、初始化设备，获取头戴设备的初始位置（即位姿信息）；

2、利用车身前侧和左右侧的五个麦克风获取车外环境的音频数据（即环境音频），当然，本实施例还可利用车身前侧与左右两侧的摄像头设备获取视频数据；

将获取到的音频数据传输到车机系统，在摄像头获取有视频数据的情况下，可基于该视频数据和该音频数据进行音视频同步，并一起传输到车机系统。

3、车机端通过有线方式或无线方式，将音频数据传输到头戴设备，对获取到的音频数据进行处理，生成空间音频（如果音视频的同步，对应的，通过有线方式或无线方式，将音视频数据传输到头戴设备，对获取到的音视频数据进行处理，生成空间音视频）。

其中，头戴设备会实时将6dof（degree of freedom，自由度）位置或位姿追踪信息发送给车机端，车机端会按照当前的位姿和位置信息，对音频数据（或者还包括视频数据）进行对应的处理并传输给头戴设备进行播放。具体地，可获取头戴设备的当前头戴位姿，根据该当前头戴位姿对应的位姿方向，增强当前位姿方向的声音，减弱其他位姿方向的杂音，尽可能保障人在聆听时的直观感受，然后结合空间音频算法，生成空间音频。可知的是，车机端将音频数据传输到头戴设备，头戴设备根据当前的位姿，播放相应的空间音频，5个麦克风保证了声音来源的判断的准确性。

需要说明的是，该具体实施例阐述的诸多细节仅助于理解本申请的技术构思，并不构成对本申请的限定，基于本申请的该技术构思进行更多形式的简单变换，均应在本申请的保护范围内。

实施例二

基于本申请第一实施例，在本申请另一实施例中，与上述实施例一相同或相似的内容，可以参考上文介绍，后续不再赘述。在此基础上，请参照图2，本申请实施例还提供一种音频播放方法，所述音频播放方法应用于头戴设备，所述头戴设备与如上述的车辆进行通信连接，所述方法包括：

步骤S50，获取车辆发送的音频参数信息，其中，所述音频参数信息通过在所述车辆周身间距设置的至少两个麦克风采集环境音频所得；

步骤S60，基于获取的所述音频参数信息进行音频播放。

在本实施例中，车辆发送过来的音频参数信息包括：左耳扬声器对应的音频参数信息，以及右耳扬声器对应的音频参数信息。其中，左耳扬声器对应的音频参数信息，通过头戴设备的左耳扬声器进行播放。右耳扬声器对应的音频参数信息，通过头戴设备的右耳扬声器进行播放。

本申请提供一种音频播放方法、车辆、头戴设备和计算机可读存储介质，该音频播放方法应用于车辆，该车辆周身的多个方位设置有麦克风，本申请的技术方案是通过各个麦克风采集车辆周身的多个方位的环境音频，并基于各个麦克风采集的环境音频，对环境音频中的目标音频进行声源定位，得到产生该目标音频的音源位置，然后基于该音源位置，对目标音频进行三维空间化处理，得到头戴设备的左耳扬声器与右耳扬声器分别对应的音频参数信息，再将音频参数信息发送至头戴设备，然后头戴设备获取车辆发送来的音频参数信息，基于获取的该音频参数信息进行音频播放，具体为左耳扬声器播放左耳扬声器对应的音频参数信息，以及右耳扬声器播放右耳扬声器对应的音频参数信息，从而能够提升车内人员对车外的环境音频感知准确性，有效避免风险场景下无法识别车外环境音导致的行车安全性问题。

在一种可能的实施方式中，所述基于获取的所述音频参数信息进行音频播放的步骤包括：

步骤C10，检测头戴设备的当前位姿信息；

本领域技术人员可知的是，该当前位姿信息是指头戴设备当前的空间位置和朝向角度。其中，该朝向角度可包括基于X轴进行旋转的俯仰角（pitch）、基于Y轴进行旋转的偏航角（yaw），以及基于Z轴进行旋转的翻滚角（roll）。

在一实施例中，可通过头戴设备自身搭载的惯性传感器和/或摄像头来动态检测头戴设备的当前姿态信息（也可认为是对当前头部姿态的检测），其中，该摄像头可为TOF（Time of Flight，飞行时间）摄像头、红外摄像头、毫米波摄像头和超声波摄像头中的一种或多种。

在另一实施例中，可通过与头戴设备通信连接的其他设备实时将头戴设备的当前姿态信息发送至头戴设备，完成对该当前姿态信息的动态检测。例如安装在车舱内的摄像头对头戴设备（或者说用户的头部）进行追踪定位，得到头戴设备的当前姿态信息，并将该当前姿态信息实时发送至头戴设备，从而使头戴设备实时获取动态检测的该当前姿态信息。

在又一实施例中，可借助头戴设备的摄像头采集车舱内的视觉图像，然后将采集的视觉图像传输给车辆，车辆基于车机强大的算力，利用当前主流的视觉SLAM（simultaneous localization and mapping，即时定位与地图构建）技术对该视觉图像进行分析处理，得到头戴设备的当前位姿信息并发送至头戴设备。

步骤C20，根据所述当前位姿信息，确定注视区域；

在本实施例中，本领域技术人员可知的是，对于扩展现实技术而言，为了模拟出现实世界中的人眼感官变化，提高用户在扩展现实内容中的沉浸感，在不同的头部姿态信息下（或者说头戴设备不同的位姿信息下），用户所能看到的视野图像往往不一样。而该当前视窗是指当前姿态信息下在全景空间图像中对应所能看到的视野窗口（不同的姿态信息对应不同的视窗图像）。也就是说，在当前姿态信息（即特定的眼睛位置）下，用户在全景空间图像中所能看到的XR（Extended Reality，扩展现实）内容图像的最大范围，即为用户的当前视窗图像。本领域技术人员容易理解，在头戴设备的内容显示过程中，头戴设备的当前姿态信息可以是实时变化的，因此车辆需要实时采集或获取该当前姿态信息，并根据实时采集的当前姿态信息，确定头戴设备在全景空间图像中的当前视窗图像，从而对当前视窗图像进行动态更新。其中，该当前视窗图像是指头戴设备的当前视窗的显示区域所呈现的图像。

而为了确定头戴设备的当前视窗图像，首先要根据当前位姿信息，确定注视区域。可知的是，为了模拟出现实世界中的人眼感官变化，提高用户在扩展现实内容中的沉浸感，在头戴设备处于不同的位姿信息下（由于头戴设备佩戴于用户头部，也即用户处于不同的头部位姿信息下），用户的注视区域往往不同，其中，位姿信息包括空间位置和角度。也就是说，位姿信息与注视区域之间应该存在一一映射的映射关系，不同的位姿信息映射不同的注视区域，该映射关系本领域技术人员可通过实验预先标定，并可将标定的该映射关系预存于系统中。

步骤C30，确定所述环境音的音源位置处于所述注视区域内的目标音频；

在本实施例中，音源位置处于该注视区域内的目标音频，也即产生该目标音频的发声物处于头戴设备的当前视窗图像中。

步骤C40，对所述音频参数信息中的所述目标音频进行音量增强处理，和/或对所述音频参数信息中除所述目标音频之外的其他音频进行音量减弱处理，得到待播放音频信息；

步骤C50，根据所述待播放音频信息进行音频播放。

示例性地，在一种可实施的方式中，所述根据所述待播放音频信息进行音频播放的步骤包括：

步骤D10，基于所述待播放音频信息，确定所述头戴设备的左耳扬声器与右耳扬声器分别对应的音频参数信息；

步骤D20，根据所述左耳扬声器对应的音频参数信息，控制所述左耳扬声器进行音频播放；以及，

步骤D30，根据所述右耳扬声器对应的音频参数信息，控制所述右耳扬声器进行音频播放。

在本实施例中，车机端可将空间音频数据传输到头戴设备，头戴设备根据当前的位姿，播放相应的空间音频，其原理为，根据头戴设备的位姿，确定当前的头戴设备的视野方向和范围，模拟人耳的生理结构，适当提高当前视野内麦克风收集到的声音数据的信号幅度（可以理解为音量），降低其他方向的麦克风收集声音的信号幅度，降低周围杂音，并结合空间音频的算法，生成左耳扬声器与右耳扬声器分别对应的音频数据进行播放，这样更符合人的直觉和听感，便于车内人员作出正确判断，从而为用户的安全驾驶行为提供有效决策。

本实施例通过检测头戴设备的当前位姿信息，并根据该当前位姿信息，确定注视区域，然后确定环境音的音源位置处于所述注视区域内的目标音频，再对音频参数信息中的目标音频进行音量增强处理，和/或对音频参数信息中除所述目标音频之外的其他音频进行音量减弱处理，得到待播放音频信息，根据该待播放音频信息进行音频播放，从而实现可以根据头戴设备的位置方向，增强指定方向音量，和/或对其他方向进行降噪，实现更为真实的视听效果，进而有效提升了车内人员佩戴头戴设备时对车外环境音频感知的准确性（由于在当前位姿信息下用户注视的视野方向，往往代表用户需要关注的关键环境图像，该关键环境图像中的音频一般情况下也属于需要重点关注的关键音频），降低其他非重点音频对人耳的干扰，从而便于及时、准确地听取到车外的关键音频，有效提升了车内人员佩戴头戴设备时对车外环境音频感知的准确性，进而降低了行车安全隐患。

值得一提的是，本实施例通过获取头戴设备的当前头戴位姿，然后结合空间音频算法，生成空间音频，从而根据该当前头戴位姿对应的位姿方向，增强当前位姿方向的声音，减弱其他位姿方向的杂音，尽可能保障人在聆听时的直观感受，

在一种可实施的方式中，所述确定环境音频的音源位置处于所述注视区域内的目标音频的步骤包括：

步骤E10，通过各个环境音频对应的三维立体声场，识别在各个环境音频中，环境音频的音源位置处于所述注视区域内的目标环境音频；

在本实施例中，各个环境音频对应的三维立体声场是指：各个环境音频从各自对应的音源位置产生并传播至各个空间位置所产生的声场。为了助于理解，示例性的，各个环境音频包括第一环境音频（例如汽车鸣笛声）、第二环境音频（例如行人脚步声）和第三环境音频（例如动物吠叫声），第一环境音频对应的三维立体声场为：第一环境音频从对应的音源位置（例如产生该第一环境音频时的汽车位置）产生并传播至各个空间位置所产生的声场。第二环境音频对应的三维立体声场为：第二环境音频从对应的音源位置（例如产生该第二环境音频时的行人位置）产生并传播至各个空间位置所产生的声场。第三环境音频对应的三维立体声场为：第三环境音频从对应的音源位置（例如产生该第三环境音频时的动物位置）产生并传播至各个空间位置所产生的声场。

本领域技术人员可知的是，由于在该三维立体声场中，基于左耳和右耳在同一时间点所听到环境音频的波束相位偏差和/或波束幅度偏差（即左耳和右耳的音频参数偏差信息），可确定环境音频的音源位置，因此可识别出在各个环境音频中，哪一个环境音频的音源位置处于所述注视区域内的目标环境音频。

步骤E20，通过收敛的音频识别神经网络模型，识别出所述目标环境音频中属于交通物对应产生的关键音频，所述交通物包括人和/或车；

其中，该音频识别神经网络模型是基于多个不同种类的交通物对应产生的关键音频进行预先训练得到，收敛后的音频识别神经网络模型对交通物对应产生的关键音频的识别准确比率，应该大于预设比率阈值。该预设比率阈值，本实施例不作具体的限定，本领域技术人员可根据实际情况进行设置，例如该预设比率阈值可为95%。

在本实施例中，可通过将目标环境音频输入至收敛的音频识别神经网络模型，从而通过收敛的音频识别神经网络模型，识别出目标环境音频中属于交通物对应产生的关键音频。该关键音频是指对于驾驶员而言比较重要的音频，例如汽车鸣笛声、行人脚步和动物吠叫声等。该关键音频，本领域技术人员可根据实际需要，预先进行训练标定，本实施例对此不作限定。

步骤E30，将识别出的所述关键音频，作为所述音源位置处于所述注视区域内的目标音频。

本实施例通过各个环境音频对应的三维立体声场，识别在各个环境音频中，环境音频的音源位置处于所述注视区域内的目标环境音频，通过收敛的音频识别神经网络模型，识别出所述目标环境音频中属于交通物对应产生的关键音频，所述交通物包括人和/或车，将识别出的关键音频，作为音源位置处于所述注视区域内的目标音频，从而避免非交通物产生的音频对用户产生干扰，例如无关紧要的下雨声、刮风声、商贩的叫卖声以及商场广告播报声等，这些声音对于用户的安全驾驶并不会产生影响，而交通物（例如车辆周围的行人和/或行车）的声音对于用户的安全驾驶起着非常重要的作用，如果用户不能及时听取到该关键音频，可能会产生较大的安全隐患，而本实施例通过突显该交通物对应产生的关键音频，而其他非关键音频则降噪处理，避免非关键音频将对安全驾驶起重要作用的关键音频进行覆盖或者使之不清晰，导致用户无法及时有效地感知到该关键音频而产生安全隐患，从而使得本申请实施例能够提升车内人员对车外的关键音频感知准确性，有效规避风险场景下无法及时、准确识别车外环境的关键音频导致的行车安全性问题。

为了助于理解本申请实施例的技术构思或者技术原理，列举一具体实施例，请参照图4，图4为本申请实施例中头戴设备与车辆通信连接的系统架构图，其中包括：

在本实施例中，车身周围的多个麦克风收音设备负责获取车身周围的声音数据（麦克风至少两个，在车身两侧，即在车辆周身的多个方位设置有麦克风，通过各麦克风采集车辆周身的多个方位的环境音频）。此外，车身周围的视频传感器（即摄像头）设备负责获取车身周围的视频数据（即车辆周身的多个方位的环境图像），尤其是车身前方和盲区的视频数据，车身两侧至少两个，至少能覆盖最重要的车头和两侧A柱遮挡的区域。

其中，车机系统至少满足音频处理能力和全景视频的生成能力的性能需求，包括不限于DSP、FPGA、SOC等单一芯片或组合构成的车机系统。该车机系统可以通过有线或者无线的方式与头戴设备通信。

头戴设备具备空间音频播放功能，以及对头戴位姿的追踪功能，可通过有线或者无线方式与车机进行通信。

本实施例可借助车身周围的麦克风和车机处理生成空间音频，传输到头戴设备，解决车内人员无法准确判别车外声音来源方向的痛点，方便车内人员有一个直观的视听体验，对车外环境有一个更加准确的判断，提升驾驶的安全性。

此外，本实施例还可借助红外成像设备等类型的摄像头的优势，将获取到的图像画面显示在头戴设备上，解决在光线昏暗、大雨雾霾、盲区遮挡等场景人眼或常规摄像头无法识别路况的问题。

具体地，车机端将视频数据传输到头戴设备（可以是无线或有线方式）：

（1）传输全部视频图像，将生成的全景视频数据全部传输到头戴设备。根据头戴设备的位置显示视野内对应的视频图像（即全景显示模式）。

（2）传输部分视频图像：车机端对视频数据进行处理，只保留盲区视频图像数据，并将其传输给头戴设备。根据头戴设备的位置显示视野内对应的盲区的视频图像（即盲区显示模式，此处的盲区可包括汽车前面左右A柱遮挡区域、车头遮挡区域、左右车门遮挡区域、车底区域，以及后车身遮挡区域）。

（3）传输部分视频图像：车机端对视频数据进行处理，只保留包含生命体标识的视频图像，并将其传输给头戴设备。根据头戴设备的位置显示视野内对应的包含生命体标识的视频图像（即生命体标识显示模式）。

需要说明的是，上述三种模式可以根据具体需求情况进行选择和切换：切换方式包括但不限于遥控器（手柄）切换，车机端的按键、语音等方式切换，以及头戴设备端的手势、语音、按键、触摸等方式切换。

在本实施例中，一方面可以利用头戴设备的位姿追踪功能（不限于6dof，3dof和9dof位姿追踪），一方面可以借助头戴设备的摄像头采集当前视野图像，传输到车机端（可利用视觉SLAM 算法）进行处理，用来确定头戴设备位姿。此功能可使基于头戴设备的画面和现实环境会相互对应并叠加，实现画面的固定与悬浮效果。

在本实施例中，头戴设备会实时将位姿追踪数据信息发送给车机端，车机端会按照当前的位姿信息，对音频数据和视频图像数据进行对应的处理并传输给头戴设备进行播放。

具体地，车机端可将空间音频数据传输到头戴设备，头戴设备根据当前的位姿，播放相应的空间音频，其原理为，根据头戴设备的位姿，确定当前的头戴设备的视野方向和范围，模拟人耳的生理结构，适当提高当前视野内麦克风收集到的声音数据的信号幅度（可以理解为音量），降低其他方向的麦克风收集声音的信号幅度，降低周围杂音，并结合空间音频的算法，生成左耳扬声器与右耳扬声器分别对应的音频数据进行播放，这样更符合人的直觉和听感，便于车内人员作出正确判断。

实施例三

本发明实施例提供一种车辆，车辆包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述实施例一中的音频播放方法。

下面参考图5，其示出了适于用来实现本公开实施例的车辆的结构示意图。本图5示出的车辆仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图5所示，车辆可以包括处理装置1001（例如中央处理器、图形处理器等），其可以根据存储在只读存储器（ROM1002）中的程序或者从存储装置加载到随机访问存储器（RAM1004）中的程序而执行各种适当的动作和处理。在RAM1004中，还存储有车辆操作所需的各种程序和数据。处理装置1001、ROM1002以及RAM1004通过总线1005彼此相连。输入/输出（I/O）接口也连接至总线1005。

通常，以下系统可以连接至I/O接口1006：包括例如触摸屏、触摸板、键盘、鼠标、图像传感器、麦克风、加速度计、陀螺仪等的输入装置1007；包括例如液晶显示器（LCD）、扬声器、振动器等的输出装置1008；包括例如磁带、硬盘等的存储装置1003；以及通信装置1009。通信装置1009可以允许车辆与其他设备进行无线或有线通信以交换数据。虽然图中示出了具有各种系统的车辆，但是应理解的是，并不要求实施或具备所有示出的系统。可以替代地实施或具备更多或更少的系统。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置从网络上被下载和安装，或者从存储装置1003被安装，或者从ROM1002被安装。在该计算机程序被处理装置1001执行时，执行本公开实施例的方法中限定的上述功能。

本发明提供的车辆，采用上述实施例中的音频播放方法，能解决车内人员佩戴头戴设备时对车外环境感知的准确性低，导致行车安全隐患的技术问题。与现有技术相比，本发明实施例提供的车辆的有益效果与上述实施例提供的头戴设备显示方法的有益效果相同，且该车辆中的其他技术特征与上述实施例方法公开的特征相同，在此不做赘述。

应当理解，本公开的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式的描述中，具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

实施例四

本发明实施例提供一种头戴设备，头戴设备包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述实施例一中的音频播放方法。

下面参考图6，其示出了适于用来实现本公开实施例的头戴设备的结构示意图。本公开实施例中的该头戴设备包括但不限于混合现实（Mixed Reality）—MR设备（例如MR眼镜或者MR头盔）、增强现实（Augmented Reality）—AR设备（例如AR眼镜或者AR头盔）、虚拟现实-（Virtual Reality）—VR设备（例如VR眼镜或者VR头盔）、扩展现实（ExtendedReality）—XR设备或其某种组合等等头戴设备。图6示出的头戴设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图6所示，头戴设备可以包括处理装置1001（例如中央处理器、图形处理器等），其可以根据存储在只读存储器（ROM1002）中的程序或者从存储装置加载到随机访问存储器（RAM1004）中的程序而执行各种适当的动作和处理。在RAM1004中，还存储有头戴设备操作所需的各种程序和数据。处理装置1001、ROM1002以及RAM1004通过总线1005彼此相连。输入/输出（I/O）接口也连接至总线1005。

通常，以下系统可以连接至I/O接口1006：包括例如触摸屏、触摸板、键盘、鼠标、图像传感器、麦克风、加速度计、陀螺仪等的输入装置1007；包括例如液晶显示器（LCD）、扬声器、振动器等的输出装置1008；包括例如磁带、硬盘等的存储装置1003；以及通信装置1009。通信装置1009可以允许头戴设备与其他设备进行无线或有线通信以交换数据。虽然图中示出了具有各种系统的头戴设备，但是应理解的是，并不要求实施或具备所有示出的系统。可以替代地实施或具备更多或更少的系统。

本发明提供的头戴设备，采用上述实施例中的音频播放方法，能实现提升车内人员对车外环境感知的准确性，解决风险场景下无法识别车外环境音导致的行车安全性问题。与现有技术相比，本发明实施例提供的头戴设备的有益效果与上述实施例提供的音频播放方法的有益效果相同，且该头戴设备中的其他技术特征与上述实施例方法公开的特征相同，在此不做赘述。

实施例五

本发明实施例提供一种计算机可读存储介质，具有存储在其上的计算机可读程序指令，计算机可读程序指令用于执行上述实施例中的音频播放方法。

本发明实施例提供的计算机可读存储介质例如可以是U盘，但不限于电、磁、光、电磁、红外线、或半导体的系统、系统或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑磁盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、系统或者器件使用或者与其结合使用。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF（射频）等等，或者上述的任意合适的组合。

上述计算机可读存储介质可以是车辆和/或头戴设备中所包含的；也可以是单独存在，而未装配入车辆和/或头戴设备中。

上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被车辆执行时，使得车辆：通过各所述麦克风采集车辆周身的多个方位的环境音频；基于各个麦克风采集的所述环境音频，对所述环境音频中的目标音频进行声源定位，得到产生所述目标音频的音源位置；基于所述音源位置，对所述目标音频进行三维空间化处理，得到头戴设备的左耳扬声器与右耳扬声器分别对应的音频参数信息；将所述音频参数信息发送至所述头戴设备，以使所述左耳扬声器播放对应的音频参数信息，以及所述右耳扬声器播放对应的音频参数信息。

或者，上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被头戴设备执行时，使得头戴设备：获取车辆发送的音频参数信息，其中，所述音频参数信息通过在所述车辆周身间距设置的至少两个麦克风采集环境音频所得；基于获取的所述音频参数信息进行音频播放。其中，该头戴设备与上述的车辆进行通信连接。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网（LAN）或广域网（WAN）—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，模块的名称在某种情况下并不构成对该单元本身的限定。

本发明提供的计算机可读存储介质，存储有用于执行上述音频播放方法的计算机可读程序指令，能实现提升车内人员对车外环境感知的准确性，解决风险场景下无法识别车外环境音导致的行车安全性问题。与现有技术相比，本发明实施例提供的计算机可读存储介质的有益效果与上述实施例一或实施例二提供的音频播放方法的有益效果相同，在此不做赘述。

实施例六

本发明实施例还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述的音频播放方法的步骤。

本申请提供的计算机程序产品能实现提升车内人员对车外环境感知的准确性，解决风险场景下无法识别车外环境音导致的行车安全性问题。与现有技术相比，本发明实施例提供的计算机程序产品的有益效果与上述实施例提供的音频播放方法的有益效果相同，在此不做赘述。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利处理范围内。

Claims

1.一种音频播放方法，其特征在于，所述音频播放方法应用于车辆，所述车辆周身的多个方位设置有麦克风，所述方法包括：

通过各所述麦克风采集车辆周身的多个方位的环境音频；

基于各个麦克风采集的所述环境音频，对所述环境音频中的目标音频进行声源定位，得到产生所述目标音频的音源位置；

基于所述音源位置，对所述目标音频进行三维空间化处理，得到头戴显示设备的左耳扬声器与右耳扬声器分别对应的音频参数信息；

将所述音频参数信息发送至所述头戴显示设备，以使所述左耳扬声器播放对应的音频参数信息，以及所述右耳扬声器播放对应的音频参数信息。

2.如权利要求1所述的音频播放方法，其特征在于，所述基于所述音源位置，对所述目标音频进行三维空间化处理，得到头戴显示设备的左耳扬声器与右耳扬声器分别对应的音频参数信息的步骤包括：

基于所述音频参数偏差信息，对所述目标音频进行三维空间化处理，得到头戴显示设备的左耳扬声器与右耳扬声器分别对应的音频参数信息。

3.如权利要求2所述的音频播放方法，其特征在于，所述基于所述音频参数偏差信息，对所述目标音频进行三维空间化处理，得到头戴显示设备的左耳扬声器与右耳扬声器分别对应的音频参数信息的步骤包括：

根据所述增强立体声场，生成头戴显示设备的左耳扬声器与右耳扬声器分别对应的音频参数信息。

4.一种音频播放方法，其特征在于，所述音频播放方法应用于头戴显示设备，所述头戴显示设备与如权利要求1至3中任一项所述的车辆进行通信连接，所述方法包括：

基于获取的所述音频参数信息进行音频播放。

5.如权利要求4所述的音频播放方法，其特征在于，所述基于获取的所述音频参数信息进行音频播放的步骤包括：

检测头戴显示设备的当前位姿信息；

根据所述当前位姿信息，确定注视区域；

确定所述环境音的音源位置处于所述注视区域内的目标音频；

根据所述待播放音频信息进行音频播放。

6.如权利要求5所述的音频播放方法，其特征在于，所述根据所述待播放音频信息进行音频播放的步骤包括：

基于所述待播放音频信息，确定所述头戴显示设备的左耳扬声器与右耳扬声器分别对应的音频参数信息；

7.如权利要求5或6所述的音频播放方法，其特征在于，所述确定环境音频的音源位置处于所述注视区域内的目标音频的步骤包括：

8.一种车辆，其特征在于，所述车辆包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至3中任一项所述音频播放方法的步骤。

9.一种头戴显示设备，其特征在于，所述头戴显示设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求4至7中任一项所述音频播放方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有实现音频播放方法的程序，所述实现音频播放方法的程序被处理器执行以实现如权利要求1至7中任一项所述音频播放方法的步骤。