CN114866950A

CN114866950A - 音频处理方法、装置、电子设备以及耳机

Info

Publication number: CN114866950A
Application number: CN202210493080.3A
Authority: CN
Inventors: 丁丹; 徐银海; 刘益帆
Original assignee: Anson Chongqing Electronic Technology Co ltd
Current assignee: Anson Chongqing Electronic Technology Co ltd
Priority date: 2022-05-07
Filing date: 2022-05-07
Publication date: 2022-08-05

Abstract

本申请提供了一种用于耳机的音频处理方法、装置、电子设备以及耳机，涉及音频处理技术领域。该方法包括：获取用户的头部姿态数据；根据头部姿态数据计算得到相应的渲染系数；基于渲染系数对音频数据进行渲染，得到空间音频数据。本申请所提供的音频处理方法通过根据用户的实时头部姿态对音频进行渲染处理，并将得到的空间音频数据播放给用户，能够让用户听到的音频具有空间感，给用户带来身临其境的听觉体验；同时，通过在耳机上实现对音频数据的渲染处理，能够摆脱音频设备和音频资源带来的限制，在成本和使用便利性等方面大大减轻了用户的负担。

Description

音频处理方法、装置、电子设备以及耳机

技术领域

本申请涉及音频处理技术领域，具体涉及一种用于耳机的音频处理方法、装置、电子设备以及一种耳机。

背景技术

人们对生活品质的追求逐渐高涨，在此推动下，电子产品的功能越来越强大。其中，由于音频和视频在人们的休闲时间中占据了重要地位，音视频相关技术近年来发展迅猛，不断推陈出新，给广大用户带来了各种各样的新鲜体验。

在音视频技术中，如何实现高度还原，通过信息数据让用户拥有更加真实的体验，一直是开发者们在不断探寻的问题。为了打造身临其境的听觉感受，家庭用音响已经可以实现环绕立体声、全景声等空间声场效果。

然而，在使用耳机收听音频时，受到现有技术中设备和音频资源等带来的限制，用户尚不能享受到类似的空间声场效果。

发明内容

为了解决上述技术问题，本申请的实施例提供了一种用于耳机的音频处理方法、装置、电子设备以及一种耳机，以解决现有技术中在耳机视听场景下无法为用户提供空间声场效果的技术问题。

本申请的第一方面提供了一种用于耳机的音频处理方法，包括：获取用户的头部姿态数据；根据头部姿态数据计算得到相应的渲染系数；基于渲染系数对音频数据进行渲染，得到空间音频数据。

进一步地，在一些实施方式中，根据头部姿态数据计算得到相应的渲染系数的步骤包括：根据头部姿态数据，计算当前球坐标基底；根据当前球坐标基底与预先确定的基系数，计算得到渲染系数。

进一步地，在一些实施方式中，头部姿态数据包括头部俯仰角和头部横摆角，其中，根据头部姿态数据，计算当前球坐标基底的步骤包括：根据头部俯仰角和头部横摆角，计算当前球坐标基底。

进一步地，在一些实施方式中，根据头部俯仰角和头部横摆角，计算当前球坐标基底的步骤包括：根据头部俯仰角和头部横摆角，利用如下公式计算当前球坐标基底，

其中，Y为球坐标基底，θ为头部俯仰角，

为头部横摆角，n与m共同表征所述球坐标基底及其对应的基系数的所在阶，P代表勒让德多项式。

进一步地，在一些实施方式中，该音频处理方法还包括：确定用户的初始头部姿态，其中，获取用户的头部姿态数据的步骤包括：当用户的头部姿态相对于初始头部姿态发生变化时，采集头部俯仰角和头部横摆角作为头部姿态数据。

进一步地，在一些实施方式中，当前球坐标基底包括当前第一组元素和当前第二组元素，其中，根据头部俯仰角和头部横摆角，计算当前球坐标基底，包括：根据头部俯仰角和头部横摆角，实时计算当前第一组元素；在预先存储在耳机中的至少一个第二组元素中，确定对应于头部俯仰角和头部横摆角的第二组元素作为当前第二组元素；结合当前第一组元素与当前第二组元素，得到当前球坐标基底。

在另外的一些实施方式中，根据头部姿态数据计算得到相应的渲染系数的步骤包括：根据预先存储的多个球坐标基底，确定对应于头部姿态数据的球坐标基底作为当前球坐标基底；根据当前球坐标基底与预先确定的基系数，计算得到渲染系数。

进一步地，在一些实施方式中，根据预先存储的多个球坐标基底，确定对应于头部姿态数据的球坐标基底作为当前球坐标基底的步骤包括：根据预先存储的多个球坐标基底，确定对应于头部俯仰角和头部横摆角的球坐标基底作为当前球坐标基底。

进一步地，在一些实施方式中，根据预先存储的多个球坐标基底，确定对应于头部俯仰角和头部横摆角的球坐标基底作为当前球坐标基底的步骤包括：在预先存储的多个俯仰角度和多个横摆角度中查找头部俯仰角和头部横摆角；当判断多个俯仰角度中包含头部俯仰角且多个横摆角度中包含头部横摆角时，直接确定同时对应于头部俯仰角和头部横摆角的球坐标基底为当前球坐标基底。

进一步地，在一些实施方式中，根据预先存储的多个球坐标基底，确定对应于头部俯仰角和头部横摆角的球坐标基底作为当前球坐标基底的步骤还包括：当判断无法在多个球坐标基底中直接确定当前球坐标基底时，通过插值算法计算得到当前球坐标基底。

在一些实施方式中，耳机包括左耳耳机和右耳耳机，左耳耳机和右耳耳机分别独立执行该音频处理方法，其中，左耳耳机用于根据头部姿态数据计算得到左耳渲染系数，并基于左耳渲染系数对左耳音频数据进行渲染，得到左耳空间音频数据；右耳耳机用于根据头部姿态数据计算得到右耳渲染系数，并基于右耳渲染系数对右耳音频数据进行渲染，得到右耳空间音频数据。

本申请的第二方面提供了一种音频处理装置，包括：获取模块，用于获取用户的头部姿态数据；确定模块，用于根据头部姿态数据计算得到相应的渲染系数；渲染模块，用于基于渲染系数对音频数据进行渲染，得到空间音频数据。

本申请的第三方面提供了一种电子设备，包括：处理器；存储器，该存储器包括存储在其上的计算机指令，计算机指令在被处理器执行时，使得处理器执行本申请第一方面中任一实施方式提供的音频处理方法。

本申请的第四方面提供了一种耳机，包括：接收器，用于接收音频数据；芯片，用于执行本申请第一方面中任一实施方式提供的音频处理方法，得到对应于音频数据的空间音频数据；扬声器，用于播放空间音频数据。

基于本申请所提供的音频处理方法、装置、电子设备以及耳机，通过根据用户的实时头部姿态对音频进行渲染处理得到空间音频数据，能够让用户在使用耳机时如同处于空间声场中，给用户带来身临其境的听觉体验；同时，通过在耳机上实现对音频数据的渲染处理，能够摆脱音频设备和音频资源带来的限制，在成本和使用便利性等方面大大减轻了用户的负担。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能构成对本申请的限定。

附图说明

为了使本申请实施例的目的、技术方案及优点更加明确，以下将结合附图进一步详细介绍本申请的实施例。应当理解，附图构成说明书的一部分，与本申请的实施例共同用于解释本申请，并不构成对本申请的限定。除另有说明的情况外，在附图中，相同的符号和编号通常代表相同的步骤或部件。

图1为本申请一实施例所提供的一种示例性的音频处理系统的示意图。

图2为本申请一实施例所提供的音频处理方法的流程示意图。

图3为本申请另一实施例所提供的音频处理方法的流程示意图。

图4为本申请另一实施例所提供的音频处理方法的流程示意图。

图5为本申请另一实施例所提供的音频处理方法的流程示意图。

图6为本申请另一实施例所提供的音频处理方法的流程示意图。

图7为本申请另一实施例所提供的音频处理方法的流程示意图。

图8为本申请另一实施例所提供的一种示例性的音频处理系统的示意图。

图9为本申请一实施例所提供的音频处理装置的结构示意图。

图10为本申请一实施例所提供的电子设备的结构示意图。

图11为本申请一实施例所提供的耳机的结构示意图。

具体实施方式

应用场景概述

本申请旨在对多媒体音频播放这一耳机基础功能进行创新。

现有技术中，耳机实现音频播放的过程主要包括：接收来自音频设备的音频数据；通过扬声器将音频数据播放出来。每只耳机上设有扬声器，佩戴时，扬声器被置于用户的耳道中，因此无论用户的头部是否发生位置变化，用户听到的声音永远来自头部两侧。也就是说，从用户的听觉感受来说，头部和声源之间的相对位置及方位是固定不变的，声音的声像被限制在耳道这一狭小的点域内。

然而，我们都知道，在现实生活中，绝大多数声源的位置与我们头部的位置及姿态之间是毫无关联的。因此，在真实的空间声场中，当我们的头部发生位置或姿态变化时，双耳跟随头部运动并相对于声源发生位移，导致双耳能够感受到声音的位置和方位也会发生变化。

为了使用户能够享受到更加接近真实的视听体验，近年来具有全景声音效的电影等沉浸式场景逐渐涌现。可是，当用户通过现有的耳机收听这样的视频、音频时，由于现有技术带来的限制，耳机播放出的声音不具有方位感，无法为用户提供接近真实的听觉体验。

本申请的实施例提供一种用于耳机的音频处理方法，旨在通过改进现有的耳机，使耳机播放出的声音具备方位感，让用户感到自己的头部与声源之间发生了相对位移，进而感知到声音来自头部之外的空间中的虚拟位置，从而实现通过耳机为用户提供接近真实的、宏大的空间声场效果。

在本申请的实施例中，为了将声音信号在空间内的方位还原出来，可以基于头相关传输函数(Head Related Transfer Function，HRTF)对音频数据进行处理，得到声音与用户之间的相对方向。

HRTF是一种音效定位算法，可以理解为是一组滤波器，其中包括针对每个耳朵的传输函数，因此也被称为双耳传输函数。这种传输函数描述了声波从声源到双耳的传输过程，包含了大脑对声音方向进行感测时的必要信息。

在针对某一用户的双耳确定传输函数时，可以采用以下方式：首先，确定一个位置点，其中，该位置点与每只耳朵之间具有预设距离，并具有预设相对方位；在该位置点上放置声源，在每只耳朵中放置麦克风；通过声源播放音频数据，同时通过麦克风采集音频数据；根据播放的音频数据和采集到的音频数据，计算该位置点与耳朵之间的传输函数。

如果实时通过上述方式对传输函数进行更新，便可以实现在用户移动或偏转头部时，通过实时采集变化后的头部姿态数据，得到变化后的传输函数，进而基于变化后的传输函数对音频数据进行渲染，生成实时变化的空间音频数据。在音频设备所在的位置点和用户的双耳之间建立HRTF传输函数，便可以在播放音频数据时生成空间音频数据，而空间音频数据对应的空间虚拟声像就可以成像于音频设备相对于用户位置所在的方位。如此，用户在移动或偏转头部时，就能够听到不跟随耳机位置的声音，就好像身处真实的空间声场。

下面将结合本申请实施例中的附图，对本申请的实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。本领域普通技术人员基于本申请中的实施例获得的所有其他实施例，都属于本申请保护的范围。

应当理解，在本申请中，“第一”、“第二”等术语仅用于描述目的，而不能理解为指示或暗示空间、时间、逻辑等方面的排序。

应当理解，在本申请中，术语“上”、“下”、“左”、“右”等指示的方位或位置关系仅用于描述目的，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请的限制。

示例性系统

图1所示为本申请一实施例所提供的一种示例性的音频处理系统的示意图。该系统包括音频设备和耳机，其中，音频设备向耳机发送音频数据，耳机在接收音频数据后对其进行渲染处理，得到空间音频数据，并将空间音频数据播放给用户。其中，耳机可以包括接收器、处理器和扬声器，分别进行接收音频数据、对音频数据进行渲染处理以及向用户(人耳)播放空间音频数据的动作。

应当理解，本申请的实施例对音频设备的类型不进行限定，音频设备只要能够向耳机发送音频数据即可。例如，音频设备可以是各种类型的移动设备，如手机、笔记本电脑、平板电脑、游戏机等。

同时，本申请的实施例对耳机的类型也不进行限定。例如，在按照通信方式进行分类时，本申请的实施例中提及的耳机可以是有线耳机，也可以是无线耳机。其中，如果采用有线耳机，那么在对音频数据进行渲染处理之前，需要先对音频数据进行模数转换操作。又例如，在按照佩戴方式进行分类时，本申请的实施例中提及的耳机可以是头戴式耳机、入耳式耳机或者半入耳式耳机。进一步地，在另外的一些实施例中，本申请的实施例中的耳机还可以是具备音频输出功能的头戴式显示器(Head Mount Display，HMD)等设备。

此外，本申请的实施例中的耳机可以包括左音频声道和右音频声道。通过左音频声道和右音频声道，来自音频设备的音频数据被分别呈现至用户的左耳和右耳。

示例性方法

图2所示为本申请一实施例提供的音频处理方法的流程示意图。该方法例如可以由图1所示音频处理系统中的耳机执行。如图2所示，该方法包括：

S210：获取用户的头部姿态数据。

具体地，头部姿态数据可以用来表征用户的头部运动。例如，头部姿态数据可以包括头部俯仰角和头部横摆角。其中，通过相应的映射关系，头部俯仰角和头部横摆角可以共同用于表征用户的头部在上下、左右、前后方向上的转动、移动或摆动等位置变化信息。

当用户佩戴耳机时，耳机可以对用户的头部姿态数据进行采集。在一实施例中，耳机中可以设有获取模块，获取模块可以包括运动加速度传感器(例如，惯性测量单元(Inertial Measurement Unit，IMU))、姿态传感器、陀螺仪、多轴电子罗盘等传感器中的一种或多种。当用户的头部发生运动时，耳机能够通过该获取模块实时感知到头部姿态的变化，并测量到相应的头部姿态数据。

S220：根据头部姿态数据计算得到相应的渲染系数。

如前所述，本申请的实施例可以利用HRTF对音频数据进行卷积计算，以得到空间音频数据。具体地，耳机内可以设有基于HRTF构建的渲染滤波器，耳机在接收到音频数据之后，即可通过渲染滤波器对音频数据进行渲染(例如，线性滤波)。其中，渲染滤波器的系数即为渲染系数，渲染系数与HRTF的系数相对应。

应当理解，本申请的实施例对渲染滤波器的类型不进行限定。例如，在一些实施例中，渲染滤波器可以采用有限脉冲响应(Finite Impulse Response，FIR)滤波器。或者，在另一些实施例中，渲染滤波器也可以采用无限脉冲响应(Infinite Impulse Response，IIR)滤波器。

从前文的说明可知，HRTF是基于声源与耳朵之间的传输函数确定的。当头部姿态发生变化时，声源与耳朵之间的传输函数也随之变化，因此每一种头部姿态均具有相对应的渲染系数，也就是说，通过采集头部姿态数据，便可以确定每一组头部姿态数据所对应的渲染系数。

基于这一原理，在一些实施例中，可以预先通过离线实验得到对应于多组头部姿态的多组渲染系数，并将这些渲染系数整体汇总后存储在耳机中。

例如，在采用头部俯仰角和头部横摆角作为头部姿态数据的实施例中，可以预先确定多个俯仰角度θ、多个横摆角度

以及每个俯仰角度θ与横摆角度

的组合所对应的渲染系数h，构建如表1所示的数据库。在查找渲染系数时，可以先采集当前的俯仰角度和横摆角度，例如，当俯仰角度为θ₁、横摆角度为

时，对应的渲染系数为h₁₁；当俯仰角度为θ₂、横摆角度为

时，对应的渲染系数为h₂₃。

表1

在存储渲染系数的数据时，可以根据所需的角度精确程度分别给俯仰角度θ和横摆角度

设定固定的空间分辨率。例如，设相邻的俯仰角度θ之间的第一空间分辨率为Δθ，相邻的横摆角度

之间的第二空间分辨率为

那么，数据库中存储的渲染系数的总数据量M可以由式1所示公式计算得到：

其中，N为渲染滤波器的阶数。根据头部的活动范围，设置俯仰角度最大为180°，横摆角度最大为360°。Δθ和

可以相同，也可以不同。

可以理解，由于人的头部十分灵活，活动范围大，因此可能出现的头部姿态非常多，也就是说，为了实现流畅的渲染效果，需要预先确定大量的头部姿态。在这一方案中，如果希望采集更加丰富的头部姿态数据，就需要将Δθ和

的取值设置得较小，从而导致需要存储的渲染系数的数据量M就会很大。例如，如果将Δθ和

设为10°，则M的值为18×36×N＝648×N。但这样的分辨率过于粗糙，为了使得到的空间音频更加逼真流畅，可能需要将Δθ和

设为3°以下。然而，例如将Δθ和

设为3°时，M的值为60×120×N＝7200×N，会导致耳机需要存储的数据量十分庞大。

由于耳机的存储空间有限，难以存储如此大量的数据。如果采用这种离线确定渲染系数的方式，为了减少数据存储量，就需要降低M的值，即减少相应的头部姿态的数量。然而，这会导致在用户实际使用过程中，存在部分头部姿态没有准确对应的渲染系数，使得音频数据渲染过程的精准度下降，无法实现更好的渲染效果。

因此，本申请的实施例提供一种在线计算渲染系数的方案，根据实时采集到的头部姿态数据，在耳机内进行实时计算，得到相应的渲染系数，并基于该渲染系数对音频数据进行渲染，得到空间音频数据。这种在线计算方式大大减少了耳机的存储负担，同时能够使渲染效果更加细腻，优化了用户体验。

S230：基于渲染系数对音频数据进行渲染，得到空间音频数据。

计算得到渲染系数后，耳机即可通过渲染滤波器对来自音频设备的音频数据进行渲染，从而得到空间音频数据。

音频数据经过渲染滤波器的卷积处理后，得到的空间音频数据中就包含了音频设备相对于耳机(也就是相对于用户的耳朵)的方位信息，从而在相应的方位上形成空间虚拟声像。因此，当用户转头或者移动头部的时候，用户听到的声音(即耳机播放出的空间音频数据)可以根据头部的方位相对变化。

基于本申请实施例所提供的音频处理方法，通过根据用户的实时头部姿态对音频进行渲染处理，并将得到的空间音频数据播放给用户，能够使空间音频数据对应的空间虚拟声像始终成像于音频设备的方位，从而实现逼真的空间虚拟声像，无论如何移动，用户通过耳机听到声音时的主观感觉不再约束于耳机本体，而是沉浸于广阔的空间声场，使得任何来源的多媒体视频的音效更为立体、饱满，增强“声”临其境的现实感，丰富用户的使用体验。

进一步地，本申请实施例所提供的音频处理方法通过在耳机上实现对音频数据的渲染处理，能够摆脱音频设备和音频资源带来的限制，在成本和使用便利性等方面大大减轻了用户的负担。同时，与将渲染单元设置于音频设备中相比，本申请的方案能够避免音频设备与耳机之间通信的延迟，快速响应用户实时的头部姿态从而适应当前的渲染处理，有效降低了渲染运算的成本。

如图3所示，在本申请的一实施例中，图2所示实施例的步骤S220可以具体包括：

S3210：根据头部姿态数据，计算当前球坐标基底。

S3220：根据当前球坐标基底与预先确定的基系数，计算得到渲染系数。

具体地，渲染系数可以基于球坐标基底和基系数计算得到。其中，每组头部姿态对应于一组球坐标基底，即一个球坐标基底向量；同时，基系数是一个预先确定的矩阵，其列数等于渲染滤波器的阶数，行数则与球坐标基底向量的元素数相等。

由于球坐标基底可以基于头部姿态数据计算得到，因此，在本实施例中，只需要将预先确定的基系数矩阵存储在耳机内，即可在获取用户的头部姿态数据之后通过在线计算得到相应的渲染系数。

优选地，在一实施例中，头部姿态数据可以包括头部俯仰角和头部横摆角。如图4所示，在本实施例中，S3210具体可以包括：

S4210：根据头部俯仰角和头部横摆角，计算当前球坐标基底。

可选地，根据头部俯仰角和头部横摆角计算当前球坐标基底时，可以采用如式2所示的公式进行计算。

其中，Y为球坐标基底，θ为头部俯仰角，

为头部横摆角，n与m共同表征球坐标基底及其相对应的基系数的所在阶，P代表勒让德多项式，i为虚数符号。

具体地，球坐标基底可以通过模态(包括单极子、偶极子及多极子)的线性组合计算得到。在这里，每个模态具有相应的阶数标签，可以使用n与m进行表征。例如，n＝m＝0对应第一阶模态(单极子)；n＝1、m＝0对应第二阶模态，n＝1、m＝1对应第三阶模态(第二阶与第三阶模态均为偶极子)；n＝2、m＝0对应第四阶模态…(n大于等于2时，对应的模态均为多极子)，以此类推，所有的模态均可以利用n和m进行表征，也就是说，只要确定n和m就可以直接确定相应的模态，其中，m小于等于n。

由式2可知，球坐标基底向量中的元素数与参与计算的模态数量相同。因此，对应于每个模态，球坐标基底向量中的每个元素的所在阶也可以使用n与m进行表征。例如，在一实施例中，可以采用第一阶至第三阶模态计算当前球坐标基底，则当前球坐标基底包含3个元素；在另外的实施例中，也可以采用更多的模态计算球坐标基底，例如采用第一阶至第六阶模态计算当前球坐标基底，则当前球坐标基底包含6个元素。

相应的，根据球坐标基底与基系数计算渲染系数时，可以采用如式3所示的公式进行计算。

其中，h(k)为渲染系数的第k个元素(渲染滤波器的总阶数为N时，1≤k≤N)，c为基系数，L为n和m的取值，用于决定在计算球坐标基底时采用的模态的数量(即球坐标基底的阶数)。在这里，球坐标基底的阶数Z＝2L+L(L-1)/2+1。例如，当L＝2时，当前球坐标基底的阶数Z为6，也就是采用第一阶至第六阶模态计算当前球坐标基底。

如前所述，基系数是一个预先确定的矩阵，其列数等于渲染滤波器的阶数N，行数等于球坐标基底向量的阶数Z，因此，在本实施例中，需要预先存储的数据量M’即为基系数矩阵中的元素数量N×Z。

可以理解，在本申请实施例提供的计算方式中，在正常的拟合需求下，无需采用过多的模态，优选地，模态数量可以为6，即Z＝6，则本申请实施例中需要存储的数据量M’＝6×N，远远小于前述实施例中的数据量M(例如，7200×N)。

可见，与预先存储对应于多组头部姿态的渲染系数的方案相比，本实施例所提供的方案仅需要预先存储一个数据量很小的基系数矩阵，即可通过在线计算得到所有的头部姿态所对应的渲染系数，从而能够大大减少在耳机内存储的数据量，减轻了耳机的存储负担。

可选地，在另一实施例中，当前球坐标基底可以包括当前第一组元素和当前第二组元素，在这里，S4210可以具体包括：

根据头部俯仰角和头部横摆角，实时计算当前第一组元素；

在预先存储在耳机中的至少一个第二组元素中，确定对应于头部俯仰角和头部横摆角的第二组元素作为当前第二组元素；

结合当前第一组元素与当前第二组元素，得到当前球坐标基底。

具体地，如前所述，球坐标基底是一个向量，包含多个元素，各元素均可以通过上述式1计算得到。在本实施例中，为了减轻在线计算的负担，可以将当前球坐标基底的元素分为二组，分别为当前第一组元素和当前第二组元素，其中，可以通过离线计算的方式预先得到当前第二组元素并将其存储在耳机中，剩余的当前第一组元素则依然通过在线实时计算的方式得到。

优选地，由于高阶模态的计算量更大，可以将高阶模态对应的元素作为当前第二组元素，预先计算得到后存储于耳机中，从而更加有效地减轻在线计算量。

或者，在其他的实施例中，也可以将当前球坐标基底的元素分为更多组，并根据实际需要为每一组元素选择离线或在线的计算方式，从而为不同的应用场景设置更加适合的计算量和存储量。

在本申请的另一实施例中，如图5所示，图2所示实施例的步骤S220可以具体包括：

S5210：根据预先存储的多个球坐标基底，确定对应于头部姿态数据的球坐标基底作为当前球坐标基底。

S5220：根据当前球坐标基底与预先确定的基系数，计算得到渲染系数。

在本实施例中，可以预先通过离线实验得到对应于多组头部姿态的多个球坐标基底向量，与预先确定的对应于渲染滤波器的基系数矩阵一起存储在耳机中，进而可以在耳机使用过程中，根据预先存储的球坐标基底向量得到对应于当前头部姿态的当前球坐标基底向量，结合预先存储的基系数矩阵，实时计算得到对应于当前头部姿态的渲染系数。

具体地，可以以固定的空间分辨率对俯仰角度θ和横摆角度

对应的球坐标基底进行存储。则存储的多个球坐标基底向量的总数据量P可以由式4计算得到：

其中，Z为每个球坐标基底向量中的元素数。

同时，如前所述，基系数矩阵的列数等于渲染滤波器的阶数N，行数等于球坐标基底向量的元素数Z。因此，需要预先存储的基系数的数据量Q(即，基系数矩阵中的元素数)可以由式5计算得到：

Q＝Z·N(式5)

此时，需要预先存储的总数据量如式6所示：

在本申请实施例提供的计算方式中，无需采用过多的模态，优选地，模态数量可以为6，即Z＝6。同时，同样采用Δθ和

为3°的方案，则总数据量P+Q的值为(7200+N)×6。

可以理解，为了实现较好的拟合效果，滤波器的阶数往往较大。在进行空间音频的渲染处理时，需要将渲染滤波器的阶数N设为例如大于等于10。如果将渲染滤波器的阶数设为N＝10，在Δθ和

为3°的方案中，前述离线计算的实施例所需要存储的数据量为7200×10＝72000，而本实施例所需要存储的数据量为(7200+10)×6＝43260，减少了三分之一以上的数据存储量。

可见，与预先存储对应于多组头部姿态的渲染系数的方案相比，本实施例所提供的方案显著减小了在耳机内存储的数据量，减轻了耳机的存储负担。

进一步地，在本申请的一实施例中，图5所示实施例的步骤S5210可以具体包括：

根据预先存储的多个球坐标基底，确定对应于头部俯仰角和头部横摆角的球坐标基底作为当前球坐标基底。

如前所述，在本申请的实施例中，耳机中可以预先存储有分别对应于多组头部姿态数据的球坐标基底。在采用头部俯仰角和头部横摆角作为头部姿态数据的方案中，可以预先确定多个俯仰角度θ、多个横摆角度

以及每个俯仰角度θ与横摆角度

的组合所对应的球坐标基底Y，构建如表2所示的数据库。

表2

在确认用户当前的头部俯仰角和头部横摆角后，即可在预先存储的俯仰角度和横摆角度中找到相应的球坐标基底作为当前球坐标基底。

具体地，如图6所示，这一步骤可以包括：

S6210：在预先存储的多个俯仰角度和多个横摆角度中查找头部俯仰角和头部横摆角。

S6220：判断预先存储的多个俯仰角度和多个横摆角度中是否包含头部俯仰角和头部横摆角。

若是，则执行S6230；若否，则执行S6240。

S6230：直接确定同时对应于头部俯仰角和头部横摆角的球坐标基底为当前球坐标基底。

S6240：通过插值算法计算得到当前球坐标基底。

具体地，如果在预先确定的俯仰角度中无法找到用户当前的头部俯仰角，和/或，在预先确定的横摆角度中无法找到用户当前的头部横摆角，则可以找到与当前头部俯仰角最接近的两个俯仰角度和/或与当前头部横摆角最接近的两个横摆角度所对应的球坐标基底，并根据线性插值算法计算得到对应于当前的头部俯仰角和头部横摆角的球坐标基底。

通过这种方式，能够有效弥补预先确定的离散数据所带来的局限性，让渲染效果更加细腻流畅，给用户带来更好的听觉体验。

图7所示为本申请另一实施例提供的音频处理方法的流程示意图。如图7所示，本实施例中，图2所示的音频处理方法还包括：

S7110：确定用户的初始头部姿态。

具体地，当用户佩戴耳机时，耳机可以通过传感器等方式确定用户已经佩戴完毕，并对用户当前的头部姿态进行确认。

在这里，S210可以具体包括：

S7120：当用户的头部姿态相对于初始头部姿态发生变化时，采集头部俯仰角和头部横摆角作为头部姿态数据。

在确认用户的初始头部姿态之后，耳机可以仅在用户的头部姿态发生变化时，对头部俯仰角和头部横摆角的变化量进行采集。由此，能够更加迅速地获得头部姿态数据，且进一步确保头部姿态数据的准确性，为用户提供更好的空间音频体验。

在本申请一优选的实施例中，如在图8所示的音频处理系统中，耳机可以具体包括左耳耳机和右耳耳机，且左耳耳机和右耳耳机分别独立执行本申请各实施例所提供的音频处理方法。

具体地，音频设备可以对左耳耳机和右耳耳机分别发送音频数据。由于左耳和右耳所处位置不同，左耳和右耳听到的声音也不同。因此，在用户的头部发生运动时，左耳和右耳的空间感受也可能发生不同程度的变化。

在本实施例中，左耳耳机可以根据头部姿态数据计算得到左耳渲染系数，并基于左耳渲染系数对左耳音频数据进行渲染，得到左耳空间音频数据；同时，右耳耳机可以根据头部姿态数据计算得到右耳渲染系数，并基于右耳渲染系数对右耳音频数据进行渲染，得到右耳空间音频数据。

基于本实施例提供的音频处理方法，能够在左耳耳机和右耳耳机上分别实现对音频数据的渲染处理，提高空间音频的还原精确度，为用户带来更加逼真的听觉体验。

示例性装置

图9所示为本申请一实施例所提供的音频处理装置900的结构示意图。音频处理装置900例如可以设于前述示例性音频处理系统的耳机中。

如图9所示，音频处理装置900包括：获取模块910，用于获取用户的头部姿态数据；确定模块920，用于根据头部姿态数据计算得到相应的渲染系数；渲染模块930，用于基于渲染系数对音频数据进行渲染，得到空间音频数据。

具体地，获取模块910可以包括运动加速度传感器(例如，惯性测量单元(inertialmeasurement unit，IMU))、姿态传感器、陀螺仪、多轴电子罗盘等传感器中的一种或多种。当用户的头部发生运动时，获取模块能够实时感知到头部姿态的变化，并测量到相应的头部姿态数据。

确定模块920能够通过在线计算的方式，根据头部姿态数据计算得到与当前用户的头部姿态相对应的渲染系数。

在确定模块920得到渲染系数后，渲染模块930可以根据该渲染系数通过渲染滤波器对来自音频设备的音频数据进行渲染，从而得到空间音频数据。音频数据经过渲染滤波器的卷积处理后，得到的空间音频数据中包含了方位信息，从而在相应的方位上形成空间虚拟声像。因此，当用户转头或者移动头部的时候，可以听到根据头部的方位相对变化的声音。

基于本申请实施例所提供的音频处理装置，通过根据用户的实时头部姿态对音频进行渲染处理，并将得到的空间音频数据播放给用户，能够使空间音频数据对应的空间虚拟声像始终成像于音频设备的方位，从而实现逼真的空间虚拟声像，无论如何移动，用户通过耳机听到声音时的主观感觉不再约束于耳机本体，而是沉浸于广阔的空间声场，使得任何来源的多媒体视频的音效更为立体、饱满，增强“声”临其境的现实感，丰富用户的使用体验。

在一些实施例中，确定模块920通过在线计算的方式获得渲染系数时，可以首先根据头部姿态数据计算当前球坐标基底，再进一步根据当前球坐标基底与预先确定的基系数，计算得到渲染系数。

优选地，头部姿态数据可以包括头部俯仰角和头部横摆角，确定模块920可以根据头部俯仰角和头部横摆角，通过图4所示方法实施例中的式1所示公式计算当前球坐标基底。相应地，可以通过图4所示方法实施例中的式2计算渲染系数。

在本实施例所提供的方案中，仅需要预先存储一个数据量很小的基系数矩阵，即可通过在线计算得到所有的头部姿态所对应的渲染系数，从而能够大大减少在耳机内存储的数据量，减轻了耳机的存储负担。

可选地，在一些实施例中，当前球坐标基底可以包括当前第一组元素和当前第二组元素。其中，确定模块920根据头部俯仰角和头部横摆角计算当前球坐标基底时，可以在根据头部俯仰角和头部横摆角实时计算当前第一组元素的同时，在预先存储在耳机中的至少一个第二组元素中，确定对应于当前的头部俯仰角和头部横摆角的第二组元素作为当前第二组元素，然后结合当前第一组元素与当前第二组元素，从而得到当前球坐标基底。

具体地，在本实施例中，为了减轻在线计算的负担，可以将当前球坐标基底的元素分为二组，分别为当前第一组元素和当前第二组元素，其中，可以通过离线计算的方式预先得到当前第二组元素并将其存储在耳机中，剩余的当前第一组元素则依然通过在线实时计算的方式得到。

优选地，由于高阶模态的计算量更大，可以将高阶模态对应的元素作为当前第二组元素，预先计算得到后存储于耳机中，从而更加有效地减轻在线计算量。或者，在其他的实施例中，也可以将当前球坐标基底的元素分为更多组，并根据实际需要为每一组元素选择离线或在线的计算方式，从而为不同的应用场景设置更加适合的计算量和存储量。

在另外的一些实施例中，确定模块920通过在线计算的方式获得渲染系数时，可以根据预先存储的多个球坐标基底，确定对应于头部姿态数据的球坐标基底作为当前球坐标基底之后，根据当前球坐标基底与预先确定的基系数，计算得到渲染系数。

具体地，确定模块920能够在预先存储的数据库中找到对应于当前头部姿态数据的球坐标基底作为当前球坐标基底，进而可以根据当前球坐标基底以及预先确定的基系数，通过在线计算的方式，计算得到与当前用户的头部姿态相对应的渲染系数。

进一步地，在本申请的实施例中，可以预先通过离线实验得到对应于多组头部姿态的多个球坐标基底向量，与预先确定的对应于渲染滤波器的基系数矩阵一起存储在耳机中，进而可以在耳机使用过程中，根据预先存储的球坐标基底向量得到对应于当前头部姿态的当前球坐标基底向量，结合预先存储的基系数矩阵，实时计算得到对应于当前头部姿态的渲染系数。与预先存储对应于多组头部姿态的渲染系数的方案相比，本实施例所提供的方案显著减小了在耳机内存储的数据量，减轻了耳机的存储负担。

进一步地，在一些实施例中，获取模块910还可以用于确定用户的初始头部姿态，在此基础上，获取模块910可以在确认用户的头部姿态相对于初始头部姿态发生变化时，采集头部俯仰角和头部横摆角作为头部姿态数据。由此，能够更加迅速地获得头部姿态数据，且进一步确保头部姿态数据的准确性，为用户提供更好的空间音频体验。

在此基础上，确定模块920可以根据预先存储的多个球坐标基底，确定对应于所述头部俯仰角和所述头部横摆角的球坐标基底作为所述当前球坐标基底。

具体地，确定模块920可以在预先存储的多个俯仰角度和多个横摆角度中查找头部俯仰角和头部横摆角；当判断多个俯仰角度中包含头部俯仰角且多个横摆角度中包含头部横摆角时，直接确定同时对应于头部俯仰角和头部横摆角的球坐标基底为当前球坐标基底；当判断无法在多个球坐标基底中直接确定当前球坐标基底时，通过插值算法计算得到当前球坐标基底。通过这种方式，能够有效弥补预先确定的离散数据所带来的局限性，让渲染效果更加细腻流畅，给用户带来更好的听觉体验。

优选地，在一些实施例中，耳机可以包括左耳耳机和右耳耳机，左耳耳机和右耳耳机分别具有各自的获取模块、确定模块以及渲染模块，从而分别独立执行上述任一实施例所提供的音频处理方法。

具体地，左耳耳机的左耳确定模块用于根据头部姿态数据计算得到左耳渲染系数，左耳渲染模块用于基于左耳渲染系数对左耳音频数据进行渲染，得到左耳空间音频数据；右耳耳机的右耳确定模块用于根据头部姿态数据计算得到右耳渲染系数，右耳渲染模块用于基于右耳渲染系数对右耳音频数据进行渲染，得到右耳空间音频数据。

应当理解，上述实施例所提供的音频处理装置900中各模块的功能及技术效果可以参考示例性方法及示例性流程中的相应内容，在此不再一一赘述。

示例性设备

图10为本申请一实施例所提供的电子设备的结构示意图。如图10所示，该电子设备包括：处理器1010；存储器1020，存储器1020包括存储在其上的计算机指令，计算机指令在被处理器1010执行时，使得处理器1010执行如上述任一实施例所提供的音频处理方法。

图11为本申请一实施例所提供的耳机1100的结构示意图。如图11所示，该耳机包括：接收器1110，用于接收音频数据；芯片1120，用于执行如上述任一实施例所提供的音频处理方法，得到对应于所述音频数据的空间音频数据；扬声器1130，用于播放该空间音频数据。

示例性计算机可读存储介质

本申请的其他实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一实施例所述的音频处理方法。可以理解，该计算机存储介质可以为任何有形媒介，例如：软盘、CD-ROM、DVD、硬盘驱动器或网络介质等。

本申请中涉及的装置、设备、系统的方框图仅作为示例性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配制。本领域技术人员可以理解，这些装置、设备、系统可以按任意方式进行连接、布置、配制。诸如“包含”、“包括”、“具有”等等的词语是开放性词汇，至“包括但不限于”，且可与其互换使用，除非上下文明确指示不是如此。这里使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各模块或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请并不意图被限制到上述方面，而是按照与在此公开的原理及新颖的特征一致的最宽范围。

以上说明是为了对本申请的技术方案进行例示和描述。此外，此描述并不意图将本申请的实施例限制在上述公开的形式范围之内。尽管上述内容中已经讨论了多个示例方面和实施例，但是本领域技术人员可以基于上述内容轻易得到其他变型、修改、改变、添加和子组合。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换等，均应包含在本申请的保护范围之内。

Claims

1.一种用于耳机的音频处理方法，其特征在于，包括：

获取用户的头部姿态数据；

根据所述头部姿态数据计算得到相应的渲染系数；

基于所述渲染系数对音频数据进行渲染，得到空间音频数据。

2.根据权利要求1所述的音频处理方法，其特征在于，所述根据所述头部姿态数据计算得到相应的渲染系数，包括：

根据所述头部姿态数据，计算当前球坐标基底；

根据所述当前球坐标基底与预先确定的基系数，计算得到所述渲染系数。

3.根据权利要求2所述的音频处理方法，其特征在于，所述头部姿态数据包括头部俯仰角和头部横摆角，其中，

所述根据所述头部姿态数据，计算当前球坐标基底，包括：

根据所述头部俯仰角和所述头部横摆角，计算所述当前球坐标基底。

4.根据权利要求3所述的音频处理方法，其特征在于，所述根据所述头部俯仰角和所述头部横摆角，计算所述当前球坐标基底，包括：

根据所述头部俯仰角和所述头部横摆角，利用如下公式计算所述当前球坐标基底，

其中，Y为球坐标基底，θ为头部俯仰角，

5.根据权利要求3所述的音频处理方法，其特征在于，还包括：确定所述用户的初始头部姿态，

其中，所述获取用户的头部姿态数据，包括：

当所述用户的头部姿态相对于所述初始头部姿态发生变化时，采集所述头部俯仰角和所述头部横摆角作为所述头部姿态数据。

6.根据权利要求3所述的音频处理方法，其特征在于，所述当前球坐标基底包括当前第一组元素和当前第二组元素，其中，

所述根据所述头部俯仰角和所述头部横摆角，计算所述当前球坐标基底，包括：

根据所述头部俯仰角和所述头部横摆角，实时计算所述当前第一组元素；

在预先存储在所述耳机中的至少一个第二组元素中，确定对应于所述头部俯仰角和所述头部横摆角的第二组元素作为所述当前第二组元素；

结合所述当前第一组元素与所述当前第二组元素，得到所述当前球坐标基底。

7.根据权利要求1所述的音频处理方法，其特征在于，所述根据所述头部姿态数据计算得到相应的渲染系数，包括：

根据预先存储的多个球坐标基底，确定对应于所述头部姿态数据的球坐标基底作为当前球坐标基底；

8.根据权利要求7所述的音频处理方法，其特征在于，还包括：确定所述用户的初始头部姿态，

其中，所述获取用户的头部姿态数据，包括：

当所述用户的头部姿态相对于所述初始头部姿态发生变化时，采集头部俯仰角和头部横摆角作为所述头部姿态数据。

9.根据权利要求8所述的音频处理方法，其特征在于，所述根据预先存储的多个球坐标基底，确定对应于所述头部姿态数据的球坐标基底作为当前球坐标基底，包括：

根据预先存储的多个球坐标基底，确定对应于所述头部俯仰角和所述头部横摆角的球坐标基底作为所述当前球坐标基底。

10.根据权利要求9所述的音频处理方法，其特征在于，所述根据预先存储的多个球坐标基底，确定对应于所述头部俯仰角和所述头部横摆角的球坐标基底作为所述当前球坐标基底，包括：

在预先存储的多个俯仰角度和多个横摆角度中查找所述头部俯仰角和所述头部横摆角；

当判断所述多个俯仰角度中包含所述头部俯仰角且所述多个横摆角度中包含所述头部横摆角时，直接确定同时对应于所述头部俯仰角和所述头部横摆角的球坐标基底为所述当前球坐标基底。

11.根据权利要求10所述的音频处理方法，其特征在于，所述根据预先存储的多个球坐标基底，确定对应于所述头部俯仰角和所述头部横摆角的球坐标基底作为所述当前球坐标基底，还包括：

当判断无法在所述多个球坐标基底中直接确定所述当前球坐标基底时，通过插值算法计算得到所述当前球坐标基底。

12.根据权利要求1所述的音频处理方法，其特征在于：

所述耳机包括左耳耳机和右耳耳机，所述左耳耳机和所述右耳耳机分别独立执行所述音频处理方法，

其中，

所述左耳耳机用于根据所述头部姿态数据计算得到左耳渲染系数，并基于所述左耳渲染系数对左耳音频数据进行渲染，得到左耳空间音频数据；

所述右耳耳机用于根据所述头部姿态数据计算得到右耳渲染系数，并基于所述右耳渲染系数对右耳音频数据进行渲染，得到右耳空间音频数据。

13.一种音频处理装置，其特征在于，包括：

获取模块，用于获取用户的头部姿态数据；

确定模块，用于根据所述头部姿态数据计算得到相应的渲染系数；

渲染模块，用于基于所述渲染系数对音频数据进行渲染，得到空间音频数据。

14.一种电子设备，包括：

处理器；

存储器，所述存储器包括存储在其上的计算机指令，所述计算机指令在被所述处理器执行时，使得所述处理器执行权利要求1至12中任一项所述的音频处理方法。

15.一种耳机，其特征在于，包括：

接收器，用于接收音频数据；

芯片，用于执行权利要求1至12中任一项所述的音频处理方法，得到对应于所述音频数据的空间音频数据；

扬声器，用于播放所述空间音频数据。