CN117768831A

CN117768831A - 音频处理方法和系统

Info

Publication number: CN117768831A
Application number: CN202211140200.8A
Authority: CN
Inventors: 朱俊炜
Original assignee: Shanghai Bilibili Technology Co Ltd
Current assignee: Shanghai Bilibili Technology Co Ltd
Priority date: 2022-09-19
Filing date: 2022-09-19
Publication date: 2024-03-26

Abstract

本申请实施例提供了一种音频处理方法和系统，其中，所述的音频处理方法包括：通过获取第一头部数据，并根据所述第一头部数据确定标准音频合成参数；获取第二头部数据，并根据所述第一头部数据和所述第二头部数据，确定所述头部的偏移量；根据所述偏移量调整所述标准音频合成参数，得到目标音频合成参数；根据所述目标音频合成参数对音频数据进行处理，以输出环绕声音效。从而通过持续将目标音频合成参数与头部的姿态数据的偏移值进行同步，即可使人佩戴耳机时感受到与真实世界坐标相对固定的空间音频，达到实时根据头部的姿态将四周的多个环绕声道在立体声耳机中模拟出来的目的。

Description

音频处理方法和系统

技术领域

本申请实施例涉及计算机网络技术领域，尤其涉及一种音频处理方法、系统、计算机设备及计算机可读存储介质。

背景技术

现有技术中，全球有许多声学实验室研究并推出了许多适用于耳机的传统HRTF(Head Related Transfer Functions，头部相关传输函数)技术，如杜比实验室的DolbyAtmos for Headphone、DTS公司的DTS Headphone:X等，还有一些系统自带的HRTF技术如Windows的XAudio等，这些适用于耳机的HRTF利用原始的环绕声音频，通过一系列音频模拟算法将四周的多个环绕声道在立体声耳机中模拟出来，使听众可以感觉到四周仿佛都有发声源。

然而，因为环绕声源几乎都是以屏幕内容为前方参考去决定原始声音和环绕音响的对应关系，即当摄像头后方发出声音，则对应后方音响发出声音，而传统HRTF技术是假设听众正对屏幕而进行模拟的，播放设备和耳机可以自由地相对移动，这可能会让用户对三维空间音频的感知产生不利的影响，所以一旦观众头部发生运动或为正对前方，则通过传统HRTF技术模拟出来的音频效果会变差，甚至会导致模拟出的音频效果不如原始音频的情况。

发明内容

本申请实施例的目的是提供一种音频处理方法、系统、计算机设备及计算机可读存储介质，用于解决以下问题：由于用户的头部发生运动而导致传统HRTF技术模拟出的音频效果变差。

本申请实施例的一个方面提供了一种音频处理方法，包括：

获取第一头部数据，并根据所述第一头部数据确定标准音频合成参数；

获取第二头部数据，并根据所述第一头部数据和所述第二头部数据，确定所述头部的偏移量；

根据所述偏移量调整所述标准音频合成参数，得到目标音频合成参数；

根据所述目标音频合成参数对音频数据进行处理，以输出环绕声音效。

可选地，所述第一头部数据为在初始时间点的用于校准的头部姿态数据，所述第二头部数据为任一时间点的实时头部姿态数据。

可选地，所述获取第一头部数据，包括：

获取包含所述头部的第一图像数据或第一景深数据；

根据所述第一图像数据或第一景深数据确定第一头部数据。

可选地，所述获取第二头部数据，包括：

按照预设周期获取包含所述头部的第二图像数据或第二景深数据；

根据所述第二图像数据或第二景深数据确定第二头部数据。

可选地，所述第一头部数据包含三维笛卡尔坐标系中的第一位置和球坐标系中的第一欧拉角；所述第二头部数据包含三维笛卡尔坐标系中的第二位置和球坐标系中的第二欧拉角。

可选地，所述根据所述第一头部数据和所述第二头部数据，确定所述头部的偏移量，包括：

确定所述第一位置和所述第二位置之间的差值，得到所述头部的位移偏移量；

确定所述第一欧拉角和所述第二欧拉角之间的差值，得到所述头部的旋转偏移量。

可选地，所述根据所述目标音频合成参数对音频数据进行处理，以输出环绕声音效，包括：

通过HRTF技术根据所述目标音频合成参数对音频数据进行处理，以输出环绕声音效。

本申请实施例的一个方面又提供了一种音频处理装置，包括：

音频合成参数确定模块，用于获取第一头部数据，并根据所述第一头部数据确定标准音频合成参数；

偏移量确定模块，用于获取第二头部数据，并根据所述第一头部数据和所述第二头部数据，确定所述头部的偏移量；

音频合成参数调整模块，用于根据所述偏移量调整所述标准音频合成参数，得到目标音频合成参数；

音频数据处理模块，用于根据所述目标音频合成参数对音频数据进行处理，以输出环绕声音效。

可选地，所述音频合成参数确定模块，包括：

第一数据获取子模块，用于获取包含所述头部的第一图像数据或第一景深数据；

第一头部数据确定子模块，用于根据所述第一图像数据或第一景深数据确定第一头部数据。

可选地，所述偏移量确定模块，包括：

第二数据获取子模块，用于按照预设周期获取包含所述头部的第二图像数据或第二景深数据；

第二头部数据确定子模块，用于根据所述第二图像数据或第二景深数据确定第二头部数据。

可选地，所述偏移量确定模块，包括：

位移偏移量确定子模块，用于确定所述第一位置和所述第二位置之间的差值，得到所述头部的位移偏移量；

旋转偏移量确定子模块，用于确定所述第一欧拉角和所述第二欧拉角之间的差值，得到所述头部的旋转偏移量。

可选地，所述音频数据处理模块，包括：

音频数据处理子模块，用于通过HRTF技术根据所述目标音频合成参数对音频数据进行处理，以输出环绕声音效。

可选地，所述标准音频合成参数包含第一监听点坐标，所述音频合成参数调整模块，包括：

监听点坐标调整子模块，用于根据所述偏移量对所述第一监听点坐标进行调整，得到第二监听点坐标；

监听点坐标替换子模块，用于将所述标准音频合成参数中的第一监听点坐标替换为所述第二监听点坐标，得到目标音频合成参数。

本申请实施例的一个方面又提供了一种计算机设备，所述计算机设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如上述的音频处理方法的步骤。

本申请实施例的一个方面又提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序可被至少一个处理器所执行，以使所述至少一个处理器执行所述计算机程序时实现如上述的音频处理方法的步骤。

本申请实施例提供的音频处理方法、系统、设备及计算机可读存储介质，通过获取第一头部数据，并根据所述第一头部数据确定标准音频合成参数；获取第二头部数据，并根据所述第一头部数据和所述第二头部数据，确定所述头部的偏移量；根据所述偏移量调整所述标准音频合成参数，得到目标音频合成参数；根据所述目标音频合成参数对音频数据进行处理，以输出环绕声音效。从而通过持续将目标音频合成参数与用户头部的姿态数据的偏移值进行同步，即可使人佩戴耳机时感受到与真实世界坐标相对固定的空间音频，达到实时根据用户头部的姿态将四周的多个环绕声道在立体声耳机中模拟出来，使听众随时都可以感觉到四周仿佛都有发声源的目的，而且，本方案不需要通过特制的播放设备、可穿戴设备进行播放，且任意端设备都能够单独更换到通用设备上使用，成本较低。

附图说明

图1示意性示出了根据本申请实施例的音频处理方法的应用环境图；

图2示意性示出了根据本申请实施例一的音频处理方法的流程图；

图3示意性示出了根据本申请实施例一的一种三维笛卡尔坐标系的示意图；

图4示意性示出了根据本申请实施例一的一种球坐标系的示意图；

图5示意性示出了根据本申请实施例二的音频处理装置的框图；

图6示意性示出了根据本申请实施例四的适于实现音频处理方法的计算机设备的硬件架构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，在本申请实施例中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本申请要求的保护范围之内。

现有技术中，因为环绕声源几乎都是以屏幕内容为前方参考去决定原始声音和环绕音响的对应关系，即当摄像头后方发出声音，则对应后方音响发出声音，而传统HRTF技术是假设听众正对屏幕而进行模拟的，播放设备和耳机可以自由地相对移动，这可能会让用户对三维空间音频的感知产生不利的影响，所以一旦观众头部发生运动或为正对前方，则HRTF的效果会变差，甚至不如原始音频。

目前，有非常成熟的CV(Computer vision，计算机视觉)解决方案，不限于基于传统摄像头、深度摄像头、红外传感器等方案获取到头部姿态数据，如通过机器学习或深度学习技术，使设备可以获取头部姿态与相对坐标，并根据头部姿态与相对坐标来修改传统HRTF的音频合成参数来实现动态的HRTF模拟的方案，例如，现有技术中已有的一些新型的HRTF相关的专利中提供的方案是主要通过播放设备的惯性传感器与特制的可穿戴设备(如耳机)的惯性传感器进行计算，计算出当前头部与播放设备之间的远近、角度关系，从而根据计算出的这些数据来修改传统HRTF的音频合成参数，以实现动态的HRTF模拟。然而，上述的空间音频技术虽然可以解决上述问题，但因为需要特制的播放设备、可穿戴设备，且任意端设备都不能单独更换到通用设备，使用成本高，不具备通用性。

有鉴于此，本申请旨在提出一种音频处理方案，通过获取第一头部数据，并根据所述第一头部数据确定标准音频合成参数；获取第二头部数据，并根据所述第一头部数据和所述第二头部数据，确定所述头部的偏移量；根据所述偏移量调整所述标准音频合成参数，得到目标音频合成参数；根据所述目标音频合成参数对音频数据进行处理，以输出环绕声音效。本申请的这种音频处理方案，输出的环绕声音效与用户头部的运动姿态匹配，能够实时根据用户头部的姿态将四周的多个环绕声道在立体声耳机中模拟出来，使听众随时都可以感觉到四周仿佛都有发声源，而且，本方案不需要通过特制的播放设备、可穿戴设备进行播放，且任意端设备都能够单独更换到通用设备上使用，成本较低。例如，在电影院中用户观看电影的场景下，只需要在电影院的播放器中集成本申请的音频处理方案，就可以输出与用户的头部姿态实时匹配的环绕声音效。

本申请提供了多个实施例进一步介绍音频处理方案，具体参照下文。

在本申请的描述中，需要理解的是，步骤前的数字标号并不标识执行步骤的前后顺序，仅用于方便描述本申请及区别每一步骤，因此不能理解为对本申请的限制。

以下为本申请的术语解释：

HRTF：头部相关传输函数(Head Related Transfer Functions)，又称为ATF(Anatomical Transfer Function)，是一种音效定位算法。HRTF是一组滤波器，即利用HDITD(Interaural Time Delay,)、IAD(Interaural Amplitude Difference)和耳廓频率振动等技术产生立体音效，使声音传递至人耳内的耳廓，耳道和鼓膜时，聆听者会有环绕音效之感觉。透过DSP，HRTF可实时处理虚拟世界的音源。

CV：计算机视觉(Computer vision)，是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和计算机代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图像处理，用计算机处理成为更适合人眼观察或传送给仪器检测的图像。

环绕声：环绕声原指人类听觉对空间声源位置的全空间立体感知。环绕声才具有真正的音响空间感。一般所谓立体声是利用现代电声技术在不改变左右声道扬声器位置的情况下，对左右声道各组音响的各频率成分的音量与相位分别进行调节，使各组音响在正面不同的位置上出现心理上的“声像”。而环绕声，则再增加两个置于背后的音箱，使各组音响不仅在正面、也还在背后不同的位置上出现心理上的“声像”，形成音响的全方位的空间立体感。

图1示意性示出了根据本申请实施例的环境应用示意图。如图1所示：

计算机设备10000可以通过网络20000连接客户端30000。

计算机设备10000可以提供服务，如进行网络调试，或返回音频处理结果数据给客户端30000等。

计算机设备10000可以位于诸如单个场所之类的数据中心，或者分布在不同的地理位置(例如，在多个场所)中。计算机设备10000可以经由一个或多个网络20000提供服务。网络20000包括各种网络设备，例如路由器，交换机，多路复用器，集线器，调制解调器，网桥，中继器，防火墙，代理设备和/或类似。网络20000可以包括物理链路，例如同轴电缆链路，双绞线电缆链路，光纤链路，其组合等。网络20000可以包括无线链路，诸如蜂窝链路，卫星链路，Wi-Fi链路等。

计算机设备10000可以由一个或多个计算节点实现。一个或多个计算节点可以包括虚拟化的计算实例。虚拟化的计算实例可以包括虚拟机，例如计算机系统，操作系统，服务器等的仿真。计算节点可以基于虚拟映像和/或定义用于仿真的特定软件(例如，操作系统，专用应用程序，服务器)的其他数据，由计算节点加载虚拟机。随着对不同类型的处理服务的需求改变，可以在一个或多个计算节点上加载和/或终止不同的虚拟机。可以实现管理程序来管理同一计算节点上不同虚拟机的使用。

客户端30000可以被配置为访问计算机设备10000的内容和服务。客户端30000可以包括任何类型的电子设备，诸如移动设备、平板设备、膝上型计算机、工作站、虚拟现实设备，游戏设备、机顶盒、数字流媒体设备、车辆终端、智能电视、机顶盒等。

客户端30000可以将音频处理结果数据等输出(例如，显示、渲染、呈现)给用户。

以下将通过多个实施例介绍网络调试方案。该方案可以通过计算机设备10000实施。

实施例一

图2示意性示出了根据本申请实施例一的音频处理方法的流程图。包括步骤S200-S206，其中，

步骤S200，获取第一头部数据，并根据所述第一头部数据确定标准音频合成参数；

其中，第一头部数据为在初始时间点的用于校准的头部姿态数据。在本实施例中，需要首先获取头部在某一个时间点的第一头部数据作为校准数据。在具体实现中，可以通过计算机的图像输入设备(如，计算机或手机的摄像头等)采集到用户的面部视频流或景深信息，然后利用计算机视觉技术对用户头部姿态进行跟踪计算，得到第一头部数据。其中，第一头部数据可以三维笛卡尔坐标系中的第一位置和球坐标系中的第一欧拉角。如图3所示，是一种三维笛卡尔坐标系的示意图，包含X/Y/Z轴，在具体实现中，设置头部中心点的位置为第一位置。如图4所示，是一种球坐标系的示意图，包含Pitch/Yaw/Roll，其中，Pitch是围绕X轴旋转，也叫做俯仰角；Yaw是围绕Y轴旋转，也叫偏航角；Roll是围绕Z轴旋转，也叫翻滚角。

在本实施例中，标准音频合成参数用于输入到预设的HRTF头部相关传输函数中，以模拟出与用户的头部姿态匹配的环绕声音效。在一种示例中，可以通过HRTF技术根据第一头部数据确定标准音频合成参数。

步骤S202，获取第二头部数据，并根据所述第一头部数据和所述第二头部数据，确定所述头部的偏移量；

其中，第二头部数据为任一时间点的实时姿态数据。在本实施例中，可以每隔一定的时间(如50ms或70ms等)，采集一次用户头部的第二头部数据，以实时根据用户头部的姿态调整输出的环绕声音效。在具体实现中，可以通过计算机的图像输入设备(如，计算机或手机的摄像头等)采集到用户的面部视频流或景深信息，然后利用计算机视觉技术对用户头部姿态进行跟踪计算，得到第二头部数据。其中，第二头部数据可以三维笛卡尔坐标系中的第二位置和球坐标系中的第二欧拉角。

在本实施例中，通过计算第一头部数据和第二头部数据之间的差值，可以得到用户头部的偏移量。具体的，将第一头部数据中的第一位置与第二头部数据中的第二位置作差值计算，可以得到头部的位移偏移量；将第一头部数据中的第一欧拉角与第二头部数据中的第二欧拉角作差值计算，可以得到头部的旋转偏移量。

步骤S204，根据所述偏移量调整所述标准音频合成参数，得到目标音频合成参数；

在本实施例中，在计算得到头部的偏移量之后，可以进一步根据头部的偏移量调整标准音频合成参数得到目标音频合成参数，其中，目标音频合成参数用于输入到预设的HRTF头部相关传输函数中，以模拟出与用户的头部姿态实时匹配的环绕声音效。

步骤S206，根据所述目标音频合成参数对音频数据进行处理，以输出环绕声音效。

在本实施例中，在确定目标音频合成参数之后，可以进一步通过HRTF技术根据目标音频合成参数对音频数据进行处理，以输出环绕声音效。通过实时根据头部的偏移量调整输入到HRTF头部相关传输函数中的音频合成参数的方式，能够实时根据用户头部的姿态将四周的多个环绕声道在立体声耳机中模拟出来，使听众随时都可以感觉到四周仿佛都有发声源。

以下提供几个可选地实施例，以进行优化所述音频处理方法，具体如下：

在本申请的一种优选实施例中，所述步骤S200可以包括如下子步骤：获取包含所述头部的第一图像数据或第一景深数据；根据所述第一图像数据或第一景深数据确定第一头部数据。

在具体实现中，可以通过计算机的图像输入设备采集用户头部的第一图像数据或第一景深数据，并利用CV计算机视觉技术，根据第一图像数据或第一景深数据确定第一头部数据。

在本申请的一种优选实施例中，所述步骤S202可以包括如下子步骤：按照预设周期获取包含所述头部的第二图像数据或第二景深数据；根据所述第二图像数据或第二景深数据确定第二头部数据。

在具体实现中，可以按照预设周期，通过计算机的图像输入设备采集用户头部的第二图像数据或第二景深数据，并利用CV计算机视觉技术，根据第二图像数据或第二景深数据确定第二头部数据。

其中，预设周期为预先设定的时间间隔长度，如，如50ms或70ms等等，本发明实施例对预设周期不作具体的限制，可以按照具体实施事的需求进行设置，预设周期越短，则实现的环绕声音效的效果越好，但是会增大计算量；预设周期越长，则实现的环绕声音效的效果越差，但是可以减少计算量。

在本申请的一种优选实施例中，所述步骤S202可以包括如下子步骤：确定所述第一位置和所述第二位置之间的差值，得到所述头部的位置偏移量；确定所述第一欧拉角和所述第二欧拉角之间的差值，得到所述头部的旋转偏移量。

在本实施例中，通过计算第一位置和第二位置之间的差值可以得到头部的位置偏移量，计算第一欧拉角和第二欧拉角之间的差值可以得到头部的旋转偏移量。作为一种示例，假设第一头部数据中的第一位置(XYZ数据)为(0,0,100)，第一欧拉角(PYR数据)为(90,90,0)；当某一刻的第一头部数据中的第一位置(XYZ数据)为(10,20,70)，第一欧拉角(PYR数据)为(105,60,15)时，通过计算得到头部的位移偏移值为(10,20,30)，旋转偏移值为(15,30,15)，则认为头部相对于校准时：向右移动了10，向上移动了20，向前移动了30，头部上仰15度，向左转30度，向左歪头15度。

在本申请的一种优选实施例中，所述步骤S206可以包括如下子步骤：通过HRTF技术根据所述目标音频合成参数对音频数据进行处理，以输出环绕声音效。

在本实施例中，通过将目标音频合成参数输入到预设的HRTF头部相关函数中进行处理，以输出环绕声音效。

需要说明的是，部分HRTF函数不允许转动监听点坐标，则可以将全部音源视为一个三维空间的对象，监听点视为此对象的中心点，进行逆向位移，使监听点相对于发声源进行了位移，即可做到相同效果。

在本申请的一种优选实施例中，所述标准音频合成参数包含第一监听点坐标，所述步骤可以包括如下步骤：根据所述偏移量对所述第一监听点坐标进行调整，得到第二监听点坐标；将所述标准音频合成参数中的第一监听点坐标替换为所述第二监听点坐标，得到目标音频合成参数。

其中，标准音频合成参数包含第一监听点坐标，该第一监听点坐标用于表示人体的两个耳朵的中心位置。在本实施例中，可以依据偏移量对标准音频合成参数中的第一监听点坐标进行同步调整，从而通过持续将HRTF的监听点坐标与基于头部数据确定的偏移值进行同步，即可使人佩戴耳机时感受到与真实世界坐标相对固定的空间音频。

实施例二

图5示意性示出了根据本申请实施例二的音频处理装置的框图，该音频处理装置可以被分割成一个或多个程序模块，一个或者多个程序模块被存储于存储介质中，并由一个或多个处理器所执行，以完成本申请实施例。本申请实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段，以下描述将具体介绍本申请实施例中各程序模块的功能。

如图5所示，该音频处理装置500可以包括如下模块：

音频合成参数确定模块510，用于获取第一头部数据，并根据所述第一头部数据确定标准音频合成参数；

偏移量确定模块520，用于获取第二头部数据，并根据所述第一头部数据和所述第二头部数据，确定所述头部的偏移量；

音频合成参数调整模块530，用于根据所述偏移量调整所述标准音频合成参数，得到目标音频合成参数；

音频数据处理模块540，用于根据所述目标音频合成参数对音频数据进行处理，以输出环绕声音效。

在本申请的一种优选实施例中，所述第一头部数据为在初始时间点的用于校准的头部姿态数据，所述第二头部数据为任一时间点的实时头部姿态数据。

在本申请的一种优选实施例中，所述音频合成参数确定模块510，包括：

在本申请的一种优选实施例中，所述偏移量确定模块520，包括：

在本申请的一种优选实施例中，所述第一头部数据包含三维笛卡尔坐标系中的第一位置和球坐标系中的第一欧拉角；所述第二头部数据包含三维笛卡尔坐标系中的第二位置和球坐标系中的第二欧拉角。

在本申请的一种优选实施例中，所述音频数据处理模块540，包括：

在本申请的一种优选实施例中，所述标准音频合成参数包含第一监听点坐标，所述音频合成参数调整模块530，包括：

实施例三

图6示意性示出了根据本申请实施例三的适于实现音频处理方法的计算机设备10000的硬件架构示意图。本实施例中，计算机设备10000是一种能够按照事先设定或者存储的指令，自动进行数值计算和/或信息处理的设备。例如，可以是智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括FEN独立的服务器，或者多个服务器所组成的服务器集群)等。如图6所示，计算机设备10000至少包括但不限于：可通过系统总线相互通信链接存储器10010、处理器10020、网络接口10030。其中：

存储器10010至少包括一种类型的计算机可读存储介质，可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器10010可以是计算机设备10000的内部存储模块，例如该计算机设备10000的硬盘或内存。在另一些实施例中，存储器10010也可以是计算机设备10000的外部存储设备，例如该计算机设备10000上配备的插接式硬盘，智能存储卡(Smart Media Card，简称为SMC)，安全数字(Secure Digital，简称为SD)卡，闪存卡(Flash Card)等。当然，存储器10010还可以既包括计算机设备10000的内部存储模块也包括其外部存储设备。本实施例中，存储器10010通常用于存储安装于计算机设备10000的操作系统和各类应用软件，例如音频处理方法的程序代码等。此外，存储器10010还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器10020在一些实施例中可以是中央处理器(Central Processing Unit，简称为CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器10020通常用于控制计算机设备10000的总体操作，例如执行与计算机设备10000进行数据交互或者通信相关的控制和处理等。本实施例中，处理器10020用于运行存储器10010中存储的程序代码或者处理数据。

网络接口10030可包括无线网络接口或有线网络接口，该网络接口10030通常用于在计算机设备10000与其他计算机设备之间建立通信链接。例如，网络接口10030用于通过网络将计算机设备10000与外部终端相连，在计算机设备10000与外部终端之间的建立数据传输通道和通信链接等。网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication，简称为GSM)、宽带码分多址(Wideband Code Division Multiple Access，简称为WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。

需要指出的是，图6仅示出了具有部件10010-10030的计算机设备，但是应理解的是，并不要求实施所有示出的部件，可以替代的实施更多或者更少的部件。

在本实施例中，存储于存储器10010中的音频处理方法还可以被分割为一个或者多个程序模块，并由一个或多个处理器(本实施例为处理器10020)所执行，以完成本申请实施例。

实施例四

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质其上存储有计算机程序，计算机程序被处理器执行时实现实施例中的音频处理方法的步骤。

本实施例中，计算机可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，计算机可读存储介质可以是计算机设备的内部存储单元，例如该计算机设备的硬盘或内存。在另一些实施例中，计算机可读存储介质也可以是计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡(Smart Media Card，简称为SMC)，安全数字(Secure Digital，简称为SD)卡，闪存卡(Flash Card)等。当然，计算机可读存储介质还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中，计算机可读存储介质通常用于存储安装于计算机设备的操作系统和各类应用软件，例如实施例中音频处理方法的程序代码等。此外，计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的各类数据。

显然，本领域的技术人员应该明白，上述的本申请实施例的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本申请实施例不限制于任何特定的硬件和软件结合。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种音频处理方法，其特征在于，包括：

2.根据权利要求1所述的音频处理方法，其特征在于，所述第一头部数据为在初始时间点的用于校准的头部姿态数据，所述第二头部数据为任一时间点的实时头部姿态数据。

3.根据权利要求1或2所述的音频处理方法，其特征在于，所述获取第一头部数据，包括：

获取包含所述头部的第一图像数据或第一景深数据；

根据所述第一图像数据或第一景深数据确定第一头部数据。

4.根据权利要求1或2所述的音频处理方法，其特征在于，所述获取第二头部数据，包括：

根据所述第二图像数据或第二景深数据确定第二头部数据。

5.根据权利要求1所述的音频处理方法，其特征在于，所述第一头部数据包含三维笛卡尔坐标系中的第一位置和球坐标系中的第一欧拉角；所述第二头部数据包含三维笛卡尔坐标系中的第二位置和球坐标系中的第二欧拉角。

6.根据权利要求5所述的音频处理方法，其特征在于，所述根据所述第一头部数据和所述第二头部数据，确定所述头部的偏移量，包括：

7.根据权利要求1所述的音频处理方法，其特征在于，所述根据所述目标音频合成参数对音频数据进行处理，以输出环绕声音效，包括：

8.根据权利要求1所述的音频处理方法，其特征在于，所述标准音频合成参数包含第一监听点坐标，所述根据所述偏移量调整所述标准音频合成参数，得到目标音频合成参数，包括：

根据所述偏移量对所述第一监听点坐标进行调整，得到第二监听点坐标；

将所述标准音频合成参数中的第一监听点坐标替换为所述第二监听点坐标，得到目标音频合成参数。

9.一种音频处理装置，其特征在于，包括：

音频合成参数确定模块，用于获取第一头部数据，根据所述第一头部数据确定标准音频合成参数；

偏移量确定模块，用于获取第二头部数据，根据所述第一头部数据和所述第二头部数据，确定所述头部的偏移量；

10.一种计算机设备，所述计算机设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时用于实现权利要求1至8中任意一项所述的音频处理方法的步骤。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序可被至少一个处理器所执行，以使所述至少一个处理器执行权利要求1至8中任意一项所述的音频处理方法的步骤。