CN117528392A

CN117528392A - 音频处理方法、装置、设备及存储介质

Info

Publication number: CN117528392A
Application number: CN202311458655.9A
Authority: CN
Inventors: 周伟; 赵楚涵
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-11-03
Filing date: 2023-11-03
Publication date: 2024-02-06

Abstract

本申请公开一种音频处理方法、装置、设备及存储介质，方法包括：在第一对象处于目标场景中时，获取目标场景中的第二对象产生的原始音频数据；确定第二对象相对于第一对象的目标方位，获取采用与第一对象相关的耳间距所生成的目标双耳时间差；采用目标方位和目标双耳时间差，将第二对象产生的原始音频数据渲染为空间音频数据，得到目标空间音频数据，并向第一对象播放目标空间音频数据。通过本申请可以为对象定制化地生成空间音频数据，从而通过生成的空间音频数据给相应对象营造较为强烈的空间感，进而实现声源的准确定位。

Description

音频处理方法、装置、设备及存储介质

技术领域

本申请涉及互联网技术领域，具体涉及多媒体技术领域，尤其涉及一种音频处理方法、装置、设备及存储介质。

背景技术

目前，在某对象A处于某场景中时，若该场景中的对象B产生了原始音频数据，则对象A对应的音频播放设备通常是直接向对象A播放对象B所产生的原始音频数据的。由于对象B产生的原始音频数据通常不具备空间效果，所谓的空间效果是指具有空间感的音频播放效果，空间感可以给对象带来声音从相应方位传出的感觉；因此可见，通过直接为对象A播放对象B产生的原始音频数据，无法给对象A营造出空间感，使得用户A无法感知声源的方位。

发明内容

本申请实施例提供了一种音频处理方法、装置、设备及存储介质，可实现为对象定制化地生成空间音频数据，从而通过生成的空间音频数据给相应对象营造较为强烈的空间感，进而实现声源的准确定位。

一方面，本申请实施例提供了一种音频处理方法，所述方法包括：

在第一对象处于目标场景中时，获取所述目标场景中的第二对象产生的原始音频数据；其中，原始音频数据是未具有空间效果的音频数据；

确定所述第二对象相对于所述第一对象的目标方位，并获取采用与所述第一对象相关的耳间距所生成的目标双耳时间差；

采用所述目标方位和所述目标双耳时间差，将所述第二对象产生的原始音频数据渲染为空间音频数据，得到目标空间音频数据；

向所述第一对象播放所述目标空间音频数据。

另一方面，本申请实施例提供了一种音频处理装置，所述装置包括：

获取单元，用于在第一对象处于目标场景中时，获取所述目标场景中的第二对象产生的原始音频数据；其中，原始音频数据是未具有空间效果的音频数据；

处理单元，用于确定所述第二对象相对于所述第一对象的目标方位，并获取采用与所述第一对象相关的耳间距所生成的目标双耳时间差；

所述处理单元，还用于采用所述目标方位和所述目标双耳时间差，将所述第二对象产生的原始音频数据渲染为空间音频数据，得到目标空间音频数据；

所述处理单元，还用于向所述第一对象播放所述目标空间音频数据。

再一方面，本申请实施例提供了一种计算机设备，所述计算机设备包括输入接口和输出接口，所述计算机设备还包括：

处理器以及计算机存储介质；

其中，所述处理器适于实现一条或多条指令，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由所述处理器加载并执行上述所提及的音频处理方法。

再一方面，本申请实施例提供了一种计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由处理器加载并执行上述所提及的音频处理方法。

再一方面，本申请实施例提供了一种计算机程序产品，该计算机程序产品包括一条或多条指令；所述计算机程序产品中的一条或多条指令被处理器执行时，实现上述所提及的音频处理方法。

本申请实施例在获取到第一对象所处的目标场景中的第二对象产生的原始音频数据后，可采用第二对象相对于第一对象的目标方位以及采用与第一对象相关的耳间距所生成的目标双耳时间差，将第二对象产生的原始音频数据渲染为空间音频数据，从而向第一对象播放渲染出的空间音频数据。由此可见，本申请实施例可在使用方位信息的基础上，进一步结合与第一对象相关的耳间距，来为第一对象定制化地生成空间音频数据，使得生成的空间音频数据更适合第一对象的耳部结构，从而使得第一对象可以听到效果更符合自己的、更准确且头内空间效果更好的空间音频数据，这样便可通过生成的空间音频数据给相应对象营造较为强烈的空间感，让相应对象可以基于强烈的空间感较为准确地感知到声源的方位，进而实现声源的准确定位。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本申请实施例提供的一种音频处理方案所涉及的各个工作模块的示意图；

图1b是本申请实施例提供的一种音频处理方案的逻辑示意图；

图2是本申请实施例提供的一种音频处理方法的流程示意图；

图3是本申请实施例提供的一种坐标系的示意图；

图4是本申请另一实施例提供的一种音频处理方法的流程示意图；

图5是本申请实施例提供的一种将音频处理方法运用在游戏场景中的逻辑示意图；

图6是本申请实施例提供的一种音频处理装置的结构示意图；

图7是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

本申请实施例基于人工智能(Artificial Intelligence，AI)技术，提出了一种结合耳间距定制个性化空间音频数据的音频处理方案，以让不同耳部结构差异的对象可以听到效果更符合自己、更准确且头内空间效果更好的空间音频数据，从而通过空间音频数据给相应对象营造较为强烈的空间感，让相应对象可基于强烈的空间感较为准确地感知到声源的方位，进而实现声源的准确定位。其中，空间音频数据是指：具有空间效果的音频数据。另外，耳间距又可称为耳屏间距(IntertragusDistance)，其可以是指两个耳蜗外侧的间距；不同耳间距可能产生不同的双耳时间差(The interaural time difference，ITD)，所谓的双耳时间差是指音频数据进入到左右耳朵的时间差，其是模拟空间音频数据时所需使用的一个重要变量。

AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，AI是计算机科学的一个综合技术，其主要通过了解智能的实质，生产出一种新的能以人类智能相似的方式做出反应的智能机器，使得智能机器具有感知、推理与决策等多种功能；可见，AI也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。相应的，AI技术是一门综合学科，涉及的领域广泛；其既有硬件层面的技术，也有软件层面的技术。在硬件层面上的技术主要包括传感器、专用人工智能芯片等；在软件层面上的技术主要包括计算机视觉技术(Computer Vision，CV)、自然语言处理技术以及机器学习(Machine Learning，ML)/深度学习等几大方向。

其中，机器学习是AI的核心，是使计算机设备具有智能的根据途径。机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科；其专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。相应的，深度学习则是一种利用深层神经网络系统，进行机器学习的技术。机器学习/深度学习通常可包括人工神经网络以及有监督学习等多种技术。所谓的有监督学习是指：采用类别已知(具有标注类别)的样本进行模型优化训练的处理方式。

本申请实施例提出的音频处理方案，主要涉及上述提及的AI技术中的机器学习/深度学习技术。参见图1a所示，该音频处理方案主要涉及如下工作模块：

(1)模型推导模块，该模型主要用于基于AI技术中的机器学习/深度学习技术，训练出双耳时间差预测模型(即一种用于根据耳间距预测双耳时间差的神经网络模型)，并调用训练出的双耳时间差预测模型根据任一耳间距(如某对象A(也可称为第一对象)自身的耳间距或者对象A所处地区的常见耳间距)，进行双耳时间差的预测生成。在具体实现中，可考虑不同方位对双耳时间差的影响，此情况下便可以预先设置多个方位(后续称为预设方位)，并基于机器学习/深度学习技术，分别训练出每个预设方位对应的双耳时间差预测模型，从而分别调用各个预设方位对应的双耳时间差预测模型根据相应耳间距，预测生成对象A在相应预设方位下对应的双耳时间差。可选的，也可以不考虑不同方位对双耳时间差的影响，此情况下便可训练出一个双耳时间差预测模型，该双耳时间差预测模型根据相应耳间距所预测生成的双耳时间差，可以适用于对象A的任一方位。

(2)3D(三维)空间音频渲染模块，该模块主要用于在对象A处于某场景中时，若该场景中的其他对象(设对象B，也可称为第二对象)产生了未具有空间效果的原始音频数据，则可在采用对象B相对于对象A的目标方位的基础上，进一步结合采用与对象A相关的耳间距所生成的目标双耳时间差，来将对象B产生的原始音频数据渲染为空间音频数据，以实现向对象A播放渲染出的空间音频数据。可理解的是，若模型推导模块考虑了不同方位对双耳时间差的影响，从而分别调用不同预设方位对应的双耳时间差预测模型根据与对象相关的耳间距，预测生成了第一对象在不同预设方位下对应的双耳时间差，则此处的目标双耳时间差是指根据与对象B所处方位相匹配的预设方位对应的双耳时间差确定的双耳时间差；若模型推导模块未考虑不同方位对双耳时间差的影响，则此处的目标双耳时间差就是双耳时间差预测模型根据与对象A相关的耳间距所预测生成的双耳时间差。

(3)头部相关传递函数(Head-related transfer function，HRTF)数据库，该模块主要用于在3D空间音频渲染模块渲染空间音频数据的过程中，为3D空间音频渲染模块提供一系列的头部相关传递函数(HRTF)；所谓的头部相关传递函数是一种可以把普通音频数据通过向量参数渲染为具备空间效果的音频数据的函数，其可提供渲染空间音频数据所需使用的幅度响应和相位响应。其中，幅度响应的定义如下：在HRTF中，幅度响应描述了每个频率成分的大小(强度)的改变；在频域中，信号的幅度响应表示该频率的增益或衰减；通常情况下，低频声音可以更容易地绕过障碍物，高频声音则会受头部和耳朵结构的影响而衰减，这导致了声音信号的频谱形状发生变化。另外，相位响应的定义如下：在HRTF中，相位响应描述了每个频率成分的相位延迟；在频域中，信号的相位响应表示该频率相位的偏移；由于声波在不同路径和反射过程中传播，同一频率的不同信号成分可能具有不同的相位延迟，这导致最终信号重组时产生相位的变化。

基于上述三个工作模块的相关描述可知，本申请实施例提出的音频处理方案可以针对不同人群提供定制化的空间音频效果，让不同用户(对象)体验定位更精准、空间感更精准的空间音频数据。可理解的是，在实际应用中，该音频处理方案涉及的各个工作模块可以分别或全部合并为一个或若干个另外的工作模块来构成，或者其中的某个(些)工作模块还可以再拆分为功能上更小的多个工作模块来构成，这可以实现同样的操作，而不影响本申请的实施例的技术效果的实现。上述三个工作模块是基于逻辑功能划分的，在实际应用中，一个工作模块的功能也可以由多个工作模块来实现，或者多个工作模块的功能由一个工作模块实现。在本申请的其它实施例中，该音频处理方案也可以包括其它工作模块，如音频播放模块等等。

并且，上述音频处理方案涉及的各个工作模块可部署在一个计算机设备中；此情况下，上述音频处理方案可由一个计算机设备执行。其中，该计算机设备可以是终端或服务器。具体的，终端可以是智能手机、电脑(如平板电脑、笔记本电脑、台式计算机等)、智能穿戴设备(如智能手表、智能眼镜、智能耳机等)、智能语音交互设备、智能家电(如智能电视、智能音箱等)、车载终端或飞行器，等等；服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content DeliveryNetwork，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器，等等。可理解的是，此情况下，若计算机设备没有配置扬声器，则计算机设备可以借助外界的音频播放器来实现空间音频数据的播放，该音频播放器是指具有音频播放功能的设备，例如其可以是音箱、话筒、耳机等。

或者，上述音频处理方案涉及的各个工作模块也可部署在不同的设备中，此情况下，上述音频处理方案可由多个设备共同执行。例如，上述音频处理方案涉及的模型推导模块可以部署在服务器中，而3D空间音频渲染模块和HRTF数据库可以部署在对象A侧的终端设备中；在情况下，则是由服务器负责训练出双耳时间差预测模型，并调用训练出的双耳时间差预测模型根据与对象A相关的耳间距，进行双耳时间差的预测，从而将预测出的耳间距发送给对象A侧的终端设备，使得该终端设备在对象A所处场景中的对象B产生了原始音频数据后，可以采用对象B相对于对象A的目标方位以及接收到的双耳时间差，将对象B产生的原始音频数据渲染为空间音频数据，从而向对象A播放渲染出的空间音频数据，如图1b所示。

还需说明的是，上述只是示例性阐述了本申请实施例所提出的音频处理方案的大致原理，并不对其进行限定。例如，上述阐述了先调用双耳时间差预测模型来预测出与对象A相关的双耳时间差，使得在对象B产生了原始音频数据后，可直接基于双耳时间差预测模型所预测出的双耳时间差确定目标双耳时间差，从而基于该目标双耳时间差和目标方位来将原始音频数据渲染为空间音频数据；在其他实施例中，在训练得到双耳时间差预测模型后，也可先不进行双耳时间差的预测，而是在对象B产生了原始音频数据后，再调用相应的双耳时间差预测模型根据与对象A相关的耳间距，进行双耳时间差的预测，以得到目标双耳时间差，从而进行后续操作。

值得强调的是，在本申请实施例中，涉及到用户信息(对象信息)等相关的数据(如与第一对象相关的耳间距，第二对象产生的音频数据等)，当本申请实施例提出的任一方法实施例运用到具体产品或技术中时，这些相关数据是在获得用户许可或者同意的情况下收集的，且相关数据的收集、使用和处理遵守相关国家和地区的相关法律法规和标准。

基于上述音频处理方案的相关描述，本申请实施例提出了一种音频处理方法。该音频处理方法可由计算机设备(即终端或服务器)执行，或者由终端和服务器共同执行；为便于阐述，本申请实施例以计算机设备执行该音频处理方法为例进行说明。请参见图2所示，该音频处理方法可包括以下步骤S201-S205：

S201，在第一对象处于目标场景中时，获取目标场景中的第二对象产生的原始音频数据。

其中，目标场景可以是任一虚拟场景，所谓的虚拟场景可以理解成是可在设备屏幕中进行显示的场景。具体的，该虚拟场景可以是对真实世界中的场景进行数字仿真所得到的场景，例如对真实世界中的自动驾驶场景或景区游玩场景进行仿真所得到的场景；或者，该虚拟场景也可以是半仿真半虚构的场景，例如在真实世界对应的仿真世界中叠加了虚构人物的场景；又或者，该虚拟场景还可以是纯虚构的场景，例如游戏场景、影视剧场景或电影场景，等等。

或者，目标场景可以是任一真实场景，所谓的真实场景可以理解成是在真实世界中存在的场景。例如，该真实场景可以是现场音乐节场景，所谓的现场音乐节场景是指在某个主题的号召下，至少一个歌手集中到一个地方，为歌迷带来一系列演出的场景；又如，该真实场景可以是现场相声场景，所谓的现场相声场景是指在现场观看相声的场景；再如，该真实场景可以是现场会议场景，所谓的现场会议场景是指在指定地点的现场参与会议的场景，等等。

无论目标场景是虚拟场景还是真实场景，第一对象均是指需收听目标场景产生的音频数据的真实对象；若目标场景是一个虚拟场景，则第一对象处于目标场景，可理解成是目标场景中包含用于表示第一对象的虚拟对象。另外，第二对象是指目标场景中除第一对象以外的一个对象，其具体可以是目标场景中特定的一个对象，也可以是目标场景中除第一对象以外的任一对象，对此不作限定；可理解的是，若目标场景是虚拟场景，则第二对象可以是一个虚拟对象，若目标场景是真实场景，则第二对象可以是一个真实对象。

例如，若目标场景为游戏场景这一虚拟场景，则第一对象可以是玩游戏的主人态对象(即用于游戏场景的设备的使用者)；此情况下，第一对象处于游戏场景可理解成是第一对象操纵的游戏角色位于游戏场景，且第二对象可以是游戏场景中与第一对象对应的虚拟角色属于同阵营的游戏角色，或者与第一对象对应的虚拟角色属于不同阵营的游戏角色，等等。又如，若目标场景为电影场景这一虚拟场景，则第一对象可以是通过设备屏幕观看该电影场景的对象；此情况下，可将电影场景的主角带入第一对象，即第一对象处于电影场景可理解成是主角位于电影场景中，且第二对象可以是电影场景中除主角以外的任一虚拟对象。再如，若目标场景为现场音乐节场景，则第一对象可以是现场观看音乐节的对象；此情况下，第二对象可以是参见现场音乐节的歌手；再如，若目标场景为现场会议场景，则第一对象可以是现场参与会议的对象；此情况下，第二对象可以是现场参与会议的对象中除第一对象以外的任一对象，等等。

进一步的，第二对象产生的原始音频数据是未具有空间效果的音频数据，音频数据是指音频在时域中的数据。当第二对象是真实对象时，第二对象产生的原始音频数据可以是通过第二对象所携带的音频采集器(如麦克风)，对第二对象进行音频采集所得到的音频数据。当第二对象是虚拟对象时，第二对象产生的原始音频数据可以至少是以下任一种情况：①通过第二对象对应的真实对象所携带的麦克风对相应真实对象进行音频采集所得到的音频数据，例如第二对象是游戏场景中的一个游戏角色，则第二对象产生的音频数据可以是通过第二对象的操纵者所携带的麦克风对相应操纵者进行音频采集所得到的音频数据；②第二对象与目标场景中的其他虚拟对象发生碰撞所产生的音频数据，例如第二对象是游戏场景中的一个游戏角色，则第二对象产生的音频数据可以是第二对象踩到游戏场景中的树叶所产生的音频数据；③根据业务需求预配置并在指定时间点进行播放的音频数据，例如第二对象是电影场景中的配角，则第二对象产生的音频数据可以是根据电影剧本预配置并在指定时间点进行播放的音频数据。

S202，确定第二对象相对于第一对象的目标方位。

在具体实现中，计算机设备可将第一对象在目标场景中所处的位置作为原点来建立角度坐标系，所谓的角度坐标系是一种利用角度来表示任一点p在三维空间中的位置的三维坐标系；然后，可根据第二对象在目标场景中所处的位置确定第二对象在角度坐标系中的角度坐标，从而采用确定出的角度坐标来表示第二对象相对于第一对象的目标方位。可理解的是，若目标场景是虚拟场景，则第一对象在目标场景中所处的位置本质是指：第一对象对应的虚拟对象在目标场景中所处的位置；并且，任一对象在目标场景中所处的位置，具体可以是指任一对象的目标部位(如头部或中心点)在目标场景中所处的位置。

参见图3可知，角度坐标系包括H(H为正整数)个坐标平面，如X坐标平面(即X坐标轴所在平面)、Y坐标平面(即Y坐标轴所在平面)、Z坐标平面(即Z坐标轴所在平面)等；那么，第二对象在空间坐标系中的角度坐标可包括：第二对象在目标场景中所处的位置在每个坐标平面上产生的角度分量，如相应位置在X坐标平面上产生的角度分量，相应位置在Y坐标平面上产生的角度分量，相应位置在Z坐标平面产生的角度分量等。其中，任一位置在任一坐标平面上产生的角度分量可通过以下方式确定：将任一位置投影到任一坐标平面，得到任一位置在该坐标平面上的投影点，确定该投影点和原点之间的连线，将该连线与相应坐标平面对应的坐标轴之间的夹角，作为任一位置在相应坐标平面上产生的角度分量。以X坐标平面为例，任一位置在X坐标平面上的产生的角度分量可以是如图3所示的夹角R。基于此可知，通过该角度坐标所表示的目标方位可包括H个角度分量，一个角度分量对应一个坐标平面。

可理解的是，上述只是示例性地阐述了如何确定目标方位的一种实施方式，并非穷举。例如在其他实施例中，也可以通过建立其他的空间坐标系来确定目标方位，或者也可由其他设备根据第一对象和第二对象在目标场景中的位置来计算目标方位，从而将目标方位发送给计算机设备，使得计算机设备可以直接接收该目标方位，无需执行目标方位的计算操作，以此来减轻计算机设备的计算压力，提升处理性能。

S203，获取采用与第一对象相关的耳间距所生成的目标双耳时间差。

其中，与第一对象相关的耳间距可以是第一对象所处地区的常见耳间距，该常见耳间距可以是通过对第一对象所处地区的多个对象的耳部结构进行统计分析所得到的耳间距，其可以与第一对象所处地区的大多数对象的耳部结构相匹配，从而代表该地区的大多数对象的耳间距。或者，与第一对象相关的耳间距可以是第一对象自身的耳间距，该耳间距可以是由第一对象自己设置的；具体的，可以为第一对象提供一个耳间距设置界面，由第一对象通过该耳间距设置界面进行耳间距的设置，从而将第一对象所设置的耳间距作为与第一对象相关的耳间距，当然第一对象也可以通过语音输入的方式来设置耳间距，本申请实施例对此不作限定。

在一种具体实现中，本申请实施例可在不考虑方位对双耳时间差的影响的情况下，预先基于AI技术中的机器学习/深度学习技术，训练出双耳时间差预测模型，并预先调用训练出的双耳时间差预测模型根据与第一对象相关的耳间距，进行双耳时间差的预测，从而将预测出的与第一对象相关的双耳时间差存储至计算机设备的本地空间。那么此情况下，计算机设备在执行步骤S203时，可以直接从本地空间获取与第一对象相关的双耳时间差作为目标双耳时间差。由于此具体实现仅需训练出一个双耳时间差预测模型，这样可有效节省处理资源，且通过预先进行双耳时间差的预测并存储预测出的双耳时间差的方式，使得在执行步骤S203时，可直接获取到目标双耳时间差，这样可有效节省目标双耳时间差的获取时间，从而提升音频处理效率。

另一种具体实现中，本申请实施例可在考虑方位对双耳时间差的影响的情况下，预先基于AI技术中的机器学习/深度学习技术，训练出不同预设方位对应的双耳时间差预测模型，并预先调用各个预设方位对应的双耳时间差预测模型根据与第一对象相关的耳间距，进行双耳时间差的预测，并将预测出的各个双耳时间差作为相应预设方位对应的预设双耳时间差，以存储至计算机设备的本地空间。那么此情况下，计算机设备在执行步骤S203时，可以确定为第一对象生成的多个预设方位对应的预设双耳时间差；任一预设方位对应的预设双耳时间差，是调用相应预设方位对应的双耳时间差预测模型根据与所述第一对象相关的耳间距预测得到的；然后，可以从多个预设方位中筛选出与目标方位相匹配的预设方位，并根据筛选出的预设方位所对应的预设双耳时间差，确定目标双耳时间差。由于此具体实现方式考虑了方位对双耳时间差的影响，因此通过此具体实现方式可以有效提升目标双耳时间差的准确性；且通过预先进行双耳时间差的预测并存储预测出的双耳时间差的方式，使得在执行步骤S203时，可减少因调用双耳时间差预测模型所需的时间，这样可有效提升目标双耳时间差的获取效率，从而提升音频处理效率。

需说明的是，在上述任一种具体实现中，预先调用双耳时间差预测模型根据与第一对象相关的耳间距进行双耳时间差预测这一步骤，可以是由计算机设备自己执行的，也可以是由其他设备执行的，对此不作限定。并且，可选的，在其他实施例中，也可以无需预先预测出与第一对象相关的双耳时间差，而是在执行步骤S203时，再由计算机设备调用相应双耳时间差预测模型根据与第一对象相关的耳间距，进行双耳时间差的预测，从而根据预测结果确定目标双耳时间差；或者，在执行步骤S203时，由计算机设备请求其他设备调用相应双耳时间差预测模型根据与第一对象相关的耳间距，进行双耳时间差的预测，并返回预测出的双耳时间差，使得计算机设备在接收到其他设备返回的双耳时间差后，根据返回的双耳时间差确定目标双耳时间差。

S204，采用目标方位和目标双耳时间差，将第二对象产生的原始音频数据渲染为空间音频数据，得到目标空间音频数据。

在一种具体实现中，计算机设备可以将第二对象产生的原始音频数据从时域转换到频域，得到原始音频信号，具体可以通过傅里叶变换(FT)将原始音频数据从时域转换到频域，得到原始音频信号。其次，可采用目标方位对原始音频信号进行调整，得到调整后的原始音频信号，此步骤可具体通过调用空间音频渲染引擎来实现对原始音频信号的调整。然后，可采用目标双耳时间差，对调整后的原始音频信号进行时延处理，得到目标音频信号，从而调用目标方位对应的头部相关传递函数集，对目标音频信号进行渲染，得到空间音频信号，进而将空间音频信号从频域转换到时域，得到目标空间音频数据，具体可以通过反傅里叶变换(IFFT)将空间音频信号从频域转换到时域，得到目标空间音频数据。

进一步的，由于目标双耳时间差表示音频数据进入到左右耳朵的时间差，因此计算机设备在采用目标双耳时间差，对调整后的原始音频信号进行时延处理，得到目标音频信号时，可以对调整后的原始音频信号进行分频处理，得到各个耳朵对应的声道音频信号；然后根据目标双耳时间差计算各个耳朵对应的时延参数，并分别采用各个耳朵对应的时延参数，对相应耳朵对应的声道信号进行时延处理，得到目标音频信号，得到的目标音频信号包括：各个耳朵对应的时延后的声道信号。

示例性的，左耳朵对应的时延参数可以为e^(-jωΔt/2)，右耳朵对应的时延参数可以为e^(jωΔt/2)；其中，jω表示虚数，Δt表示目标双耳时间差。基于此，将左耳朵对应的声道音频信号和右耳朵对应的声道音频信号分别表示为L(θ)和R(θ)，此处的θ表示目标方位，则分别采用下述公式1.1-1.2得到左耳朵对应的时延后的声道信号(采用L’(θ)表示)和右耳朵对应的时延后的声道信号(采用R’(θ)表示)：

L’(θ)＝L(θ)e^(-jωΔt/2)式1.1

R’(θ)＝R(θ)e^(jωΔt/2)式1.2

需说明的是，上述只是示例性地阐述了各个耳朵对应的时延参数的计算方式，并不对此进行限定。例如，其他实施例中，也可以是右耳朵对应的时延参数可以为e^(-jωΔt/2)，而左耳朵对应的时延参数可以为e^(jωΔt/2)；或者，也可以是一个耳朵对应的时延参数为零值，而另一个耳朵对应的时延参数为Δt(即目标双耳时间差)，等等。

基于上述描述，目标方位对应的头部相关传递函数集包括各个耳朵对应的头部相关传递函数，如左耳朵对应的头部相关传递函数(采用HL(ω)表示)，以及右耳朵对应的头部相关传递函数(采用HR(ω)表示)；那么，计算机设备在调用目标方位对应的头部相关传递函数集，对目标音频信号进行渲染，得到空间音频信号时，可以分别调用各个耳朵对应的头部相关传递函数，对目标音频信号中的相应耳朵对应的声道音频信号进行渲染，得到各个耳朵对应的渲染结果，从而对各个耳朵对应的渲染结果进行整合，得到空间音频信号。示例性的，空间音频信号(采用D(ω)表示)可采用下述公式1.3计算得到：

D(ω)＝HL(ω)L’(ω)+HR(ω)R’(ω)式1.3

在另一种具体实现中，计算机设备也可以在将第二对象产生的原始音频数据从时域转换到频域，得到原始音频信号后，先采用目标双耳时间差对原始音频信号进行时延处理，得到考虑了时延的原始音频信号，再采用目标方位对考虑了时延的原始音频信号进行调整，得到调整后的原始音频信号，从而调用目标方位对应的头部相关传递函数集，对调整后的原始音频信号进行渲染，得到空间音频信号，并将空间音频信号从频域转换到时域，得到目标空间音频数据。

可理解的是，上述只是示例性地列举了两种步骤S204的具体实现方式，并非穷举。例如，在其他实施例中，也可调用基于AI技术的音频生成模型，根据目标方位和目标双耳时间差，将第二对象产生的原始音频数据渲染为空间音频数据，得到目标空间音频数据，等等。

S205，向第一对象播放目标空间音频数据。

在具体实现中，若计算机设备与为第一对象播放音频数据的设备是同一个设备，则计算机设备可直接播放目标空间音频数据；若计算机设备与为第一对象播放音频数据的设备不是同一个设备，则计算机设备可将目标空间音频数据发送给为第一对象播放音频数据的设备，使该设备播放该目标空间音频数据。

例如，目标场景是游戏场景，计算机设备可以是第一对象在游戏过程中使用的手机终端。若第一对象在游戏过程中是使用该手机终端来收听音频数据的，则此情况下，计算机设备与为第一对象播放音频数据的设备为同一个设备，因此计算机设备可直接通过扬声器播放目标空间音频数据；若第一对象在游戏过程中是使用耳机来收听音频数据的，则此情况下，计算机设备与为第一对象播放音频数据的设备(即耳机)不是同一个设备，因此计算机设备可将目标空间音频数据发送至第一对象所佩戴的耳机，由耳机播放该目标空间音频数据。

又如，目标场景是现场音乐节场景，计算机设备可以是现场音乐节中配置的智能音箱；此情况下，由于计算机设备与为第一对象播放音频数据的设备为同一个设备，因此计算机设备可直接通过扬声器播放目标空间音频数据。但是，如果计算机设备是电脑终端或服务器等设备，那么计算机设备与为第一对象播放音频数据的设备(即现场音乐节中配置的音箱)不是同一个设备，因此计算机设备可将目标空间音频数据发送至现场音乐节配置的音箱，由该音箱播放该目标空间音频数据。

基于上述图2所示的方法实施例，本申请实施例还提出了一种更为具体的音频处理方法；在本申请实施例中，仍以计算机设备执行该音频处理方法为例进行说明。请参见图4所示，该音频处理方法可包括以下步骤S401-S405：

S401，在第一对象处于目标场景中时，获取目标场景中的第二对象产生的原始音频数据，并确定第二对象相对于第一对象的目标方位；其中，原始音频数据是未具有空间效果的音频数据。

S402，确定为第一对象生成的多个预设方位对应的预设双耳时间差。

其中，多个预设方位可以是在H个坐标平面中设置的，一个坐标平面设置有至少一个预设方位，任一预设方位包括相应坐标平面上的一个预设角度；也就是说，可以在H个坐标平面(如X坐标平面、Y坐标平面以及Z坐标平面)中的各个坐标平面上分别设置至少一个预设角度作为预设方位，如可在单个坐标平面上每隔预设大小的夹角(如二十度夹角)，就设置一个预设角度作为预设方位。或者，多个预设方位也可以是在H个坐标平面所形成的空间坐标系中设置的，这样可使得任一预设方位可包括H个角度分量，一个角度分量对应一个坐标平面，任一角度分量可以是零值或非零值，对此不作限定。

任一预设方位对应的预设双耳时间差，是调用相应预设方位对应的双耳时间差预测模型根据与第一对象相关的耳间距预测得到的。本申请实施例对多个预设方位对应的预设双耳时间差的生成时间不作限定，例如可以是在执行步骤S402之前，便通过调用各个预设方位对应的双耳时间差预测模型来预测生成了相应预设方位对应的预设双耳时间差，也可以是在执行步骤S402的过程中，实时调用各个预设方位对应的双耳时间差预测模型来预测生成相应预设方位对应的预设双耳时间差。

由于各个预设方位对应的双耳时间差预测模型的生成原理相同，因此为便于阐述，下面以多个预设方位中的第i个预设方位为例，详细阐述第i个预设方位对应的双耳时间差预测模型的生成过程；其中，i的取值为正整数且不大于多个预设方位的数量。具体的，第i个预设方位对应的双耳时间差预测模型的生成过程可以包括以下步骤s11-s16：

s11，确定多个样本双耳时间差。在一种具体实现中，可预设多个双耳时间差，使得计算机设备在执行步骤s11时，可以直接获取预设的多个双耳时间差作为多个样本双耳时间差。另一种具体实现中，可预设一个默认的双耳时间差以及预设比例序列，使得计算机设备在执行步骤s11时，可以获取默认的双耳时间差以及预设比例序列，该预设比例序列中可包括多个比例参数，相邻两个比例参数之间的差值为预设值，该预设值可以根据实际需求设置。然后，分别采用预设比例序列中的各个比例参数，对默认的双耳时间差进行缩放处理，得到多个样本双耳时间差。

具体的，针对任一比例参数，可对该比例参数和默认的双耳时间差进行乘法运算，得到样本双耳时间差，或者将乘法运算的结果叠加到默认的双耳时间差上，得到样本双耳时间差。例如，设某比例参数为10％，而默认的双耳时间差(ITD)为100毫秒(ms)，则可计算得到一个样本双耳时间差为：100×10％+100＝110ms。基于此，以预设比例序列中的相邻两个比例参数之间的差值为3％为例，设预设比例序列为[…-15％，-12％，-9％，-6％，-3％，0％，3％，6％，9％，12％，15％…]，则多个样本双耳时间差的计算方式可以为：[…-15％，-12％，-9％，-6％，-3％，0％，3％，6％，9％，12％，15％…]×默认的ITD+默认的ITD。由此可见，通过此方式来确定多个样本双耳时间差，可以保证多个样本双耳时间差成规律性的等间隔变化，这样可利于提升后续基于这多个样本双耳时间差所得到的空间音频数据的多样性。

s12，分别采用各个样本双耳时间差将第i个预设方位对应的原始音频数据渲染为空间音频数据，得到各个样本双耳时间差对应的空间音频数据。具体的渲染方式与参见前述步骤S204中提及的如何渲染第二对象产生的原始音频数据的具体实施方式相同，在此不作赘述。

s13，向K个受试者播放各个样本双耳时间差对应的空间音频数据，使每个受试者从播放的空间音频数据中选择出偏好的空间音频数据，K为正整数。其中，任一受试者所选择出的偏好的空间音频数据可以是相应受试者觉得营造的空间感最好且方位最准确的空间音频数据。

s14，分别将每个受试者所选择的空间音频数据对应的样本双耳时间差与相应受试者的耳间距进行组合，得到K个训练样本。其中，不同训练样本对应不同的受试者，一个训练样本包括相应受试者所选择的空间音频数据对应的样本双耳时间差与相应受试者的耳间距。

s15，采用K个训练样本对用于预测双耳时间差的目标模型进行模型优化。其中，用于预测双耳时间差的目标模型可以是多项式回归模型，所谓的多项式回归模型是指基于多项式所构建的神经网络模型，该多项式可以根据实际需求进行设定，例如多项式可以设置为：y＝β₀+β₁x+β₂x²+ε，此处的x表示输入至模型中的耳间距，y表示模型预测出的双耳时间差(ITD)，β₀、β₁、β₂以及ε均为模型参数。对该多项式回归模型进行模型优化，是为了使其可以通过训练样本来得出耳间距和最佳的双耳时间差(ITD)之间的关系，以便于后续可将此关系用于生产环境找到最合适某个对象的ITD等空间音频渲染参数。可选的，本申请实施例提及的目标模型可以是其他的神经网络模型，对此不作限定。

具体的，步骤s15的具体实施方式可以是：针对K个训练样本中的任一训练样本，可调用用于预测双耳时间差的目标模型根据相应训练样本中的耳间距进行双耳时间差的预测，得到相应的预测双耳时间差。然后，根据K个训练样本中的每个训练样本对应的预测双耳时间差和相应训练样本中的样本双耳时间差之间的差异，优化目标模型的模型参数；具体的，可以根据K个训练样本中的每个训练样本对应的预测双耳时间差和相应训练样本中的样本双耳时间差之间的差异，计算目标模型的模型损失值，从而按照减小模型损失值的方向，优化目标模型的模型参数。

或者，步骤s15的具体实施方式可以是：依次遍历K个训练样本，确定当前遍历的第k个训练样本(k∈[1，K])，调用当前时刻(即遍历到第k个训练样本的时刻)的目标模型，根据第k个训练样本中的耳间距进行双耳时间差的预测，得到第k个训练样本对应的预测双耳时间差。然后，根据第k个训练样本对应的预测双耳时间差和第k个训练样本中的样本双耳时间差之间的差异，优化目标模型的模型参数；具体的，可以根据第k个训练样本对应的预测双耳时间差和第k个训练样本中的样本双耳时间差之间的差异，计算目标模型的模型损失值，并按照减小模型损失值的方向，优化目标模型的模型参数。然后，继续遍历K个训练样本，直至K个训练样本均被遍历。此实施方式下，步骤s15所得到的优化后的目标模型是指通过第K个训练样本所优化得到的目标模型。

需说明的是，本申请实施例对模型损失值的具体计算方式不作限定。另外，此处提及的“按照减小模型损失值的方向”是指：以最小化模型损失值为目标的模型优化方向；通过此方向进行模型优化，使得目标模型在每次优化后所再次产生的模型损失值，小于目标模型在优化前所产生的模型损失值。例如，本次计算得到的目标模型的模型损失值为0.85，那么通过按照减小模型损失值的方向优化目标模型后，通过此次优化后的目标模型所产生的模型损失值应小于0.85。

s16，基于优化后的目标模型，确定第i个预设方位对应的双耳时间差预测模型。在一种具体实现中，步骤s16的实施方式可以是：将优化后的目标模型，作为第i个预设方位对应的双耳时间差预测模型。进一步的，可以先检测优化后的目标模型是否达到收敛，若达到收敛，则将优化后的目标模型，作为第i个预设方位对应的双耳时间差预测模型；若未达到收敛，则继续采用K个训练样本或采用新的训练样本对优化后的目标模型进行优化，以使优化后的目标模型达到收敛。其中，优化后的目标模型达到收敛是指：优化后的目标模型的模型参数不再发生变化，或模型参数的变化幅度小于阈值；或者优化后的目标模型达到收敛是指：优化后的目标模型的模型损失值不再减小，或模型损失值的减小幅度小于阈值等等。

另一种具体实现中，在通过步骤s15得到优化后的目标模型后，可以对优化后的目标模型进行评价，以验证该优化后的目标模型的可靠性，从而在确定优化后的目标模型通过可靠性验证的情况下，将优化后的目标模型作为第i个预设方位对应的双耳时间差预测模型。基于此，步骤s16的实施方式可以是：在假头采集器的第i个预设方位，播放未具有空间效果的测试音频数据，以使假头采集器采集到第i个预设方位的真实空间音频数据；然后，调用优化后的目标模型根据假头采集器的耳间距进行双耳时间差的预测，并根据预测出的双耳时间差和第i个预设方位将该测试音频数据渲染为空间音频数据，得到测试空间音频数据，具体的渲染方式可参考前述关于原始音频数据的渲染方式，在此不再赘述。然后，可将真实空间音频数据和所述测试空间音频数据进行对比，从而根据真实空间音频数据和所述测试空间音频数据之间的对比结果，对优化后的目标模型进行可靠性验证；若优化后的目标模型通过可靠性验证，则将优化后的目标模型作为第i个预设方位对应的双耳时间差预测模型。若优化后的目标模型未通过可靠性验证，则可重新获取K个训练样本，并采用重新获取到的K个训练样本，重新对目标模型进行模型优化，以使优化后的目标模型通过可靠性验证，得到第i个预设方位对应的双耳时间差预测模型。其中，计算机设备可以是跳转至上述步骤s11-14中的任一个步骤，以重新获取K个训练样本。

进一步的，真实空间音频数据和测试空间音频数据之间的对比结果可包括：真实空间音频数据和测试空间音频数据之间的差异度；那么，计算机设备在根据真实空间音频数据和所述测试空间音频数据之间的对比结果，对优化后的目标模型进行可靠性验证时，可以检测真实空间音频数据和测试空间音频数据之间的差异度是否小于差异度阈值，若真实空间音频数据和测试空间音频数据之间的差异度小于差异度阈值，则可确定优化后的目标模型通过可靠性验证，若真实空间音频数据和测试空间音频数据之间的差异度大于或等于差异度阈值，则可确定优化后的目标模型未通过可靠性验证。本申请实施例对差异度的计算方式不作限定，例如可通过频谱失真(Spectral Distortion，SD)公式来计算真实空间音频数据和测试空间音频数据之间的差异度；其中，频谱失真公式可参见下述公式2.1所示：

在上述公式2.1中，|Hindiv(f_w，φ_n)|是测试空间音频数据在频域对应的音频信号，|Hdummy(f_w，φ_n)|是设置好耳间距的假头采集器所采集到的真实空间音频数据在频域对应的音频信号；f_w表示频率的频谱，W表示频率点的数量，φ_n表示相位的频谱，N表示相位点的数量，SD可表示差异度。

或者，真实空间音频数据和测试空间音频数据之间的对比结果可以包括：真实空间音频数据和测试空间音频数据之间的相似度；那么，计算机设备在根据真实空间音频数据和所述测试空间音频数据之间的对比结果，对优化后的目标模型进行可靠性验证时，可以检测真实空间音频数据和测试空间音频数据之间的相似度是否大于相似度阈值，若真实空间音频数据和测试空间音频数据之间的相似度大于相似度阈值，则可确定优化后的目标模型通过可靠性验证，若真实空间音频数据和测试空间音频数据之间的相似度小于或等于相似度阈值，则可确定优化后的目标模型未通过可靠性验证。本申请实施例对相似度的计算方式不作限定，例如可调用相似度预估模型来确定真实空间音频数据和测试空间音频数据之间的相似度，也可以分别将真实空间音频数据和测试空间音频数据转换为向量，对两个向量进行相似度计算，得到真实空间音频数据和测试空间音频数据之间的相似度，等等。

S403，从多个预设方位中筛选出与目标方位相匹配的预设方位，并根据筛选出的预设方位所对应的预设双耳时间差，确定目标双耳时间差。其中，目标方位可包括H个角度分量，一个角度分量对应一个坐标平面；与目标方位相匹配的预设方位是指：与目标方位相同或相似的预设方位。

在一种实施方式中，若多个预设方位是在H个坐标平面所形成的空间坐标系中设置的，则任一预设方位包括H个角度分量，那么计算机设备在从多个预设方位中筛选出与目标方位相匹配的预设方位时，可以计算各个预设方位和目标方位之间的相似度，筛选出最大相似度对应的预设方位作为与目标方位相匹配的预设方位。

可见，通过此实施方式所筛选出的预设方位的数量为1个。基于此，计算机设备在根据筛选出的预设方位所对应的预设双耳时间差，确定目标双耳时间差时，可以直接将筛选出的预设方位对应的预设双耳时间差，作为目标双耳时间差。

另一种实施方式中，若多个预设方位是在H个坐标平面中设置的，则任一预设方位包括相应坐标平面上的一个预设角度，那么计算机设备在从多个预设方位中筛选出与目标方位相匹配的预设方位时，可以遍历目标方位中的各个角度分量，并确定当前遍历的第h个角度分量，第h个角度分量对应的坐标平面为第h个坐标平面，h∈[1，H]。然后，在第h个坐标平面中设置的各个预设方位中，查找与第h个角度分量相匹配的预设角度；具体可以计算第h个坐标平面中设置的各个预设方位中的预设角度与第h个角度分量之间的差值，查找最小的差值对应的预设角度作为与第h个角度分量相匹配的预设角度。然后，可以从多个预设方位中筛选出查找到的预设角度所在的预设方位，作为与目标方位中的第h个角度分量相匹配的预设方位。继续遍历，直至目标方位中的各个角度分量均被遍历。

可见，通过此实施方式所筛选出的预设方位的数量为H个，且筛选出的不同预设方位与目标方位中的不同角度分量相匹配。基于此，计算机设备在根据筛选出的预设方位所对应的预设双耳时间差，确定目标双耳时间差时，可以根据筛选出的各个预设方位所匹配的角度分量，动态确定相应预设方位的权重；其中，筛选出的第h个预设方位的权重，与第h个预设方位所匹配的角度分量成正相关。然后，采用筛选出的各个预设方位的权重对相应的预设双耳时间差进行加权求和，得到目标双耳时间差。例如，设筛选出3个预设方位且这3个预设方位的权重依次是0.3、0.4和0.3，而这3个预设方位对应的预设双耳时间差依次为100ms，80ms和90ms，则最终得到的目标双耳时间差为：100×0.3+80×0.4+90×0.3＝89ms。

其中，上述提及的根据筛选出的各个预设方位所匹配的角度分量，动态确定相应预设方位的权重这一步骤的具体实施方式可以是：获取预设的不同角度分量和权重之间的对应关系，从而根据此对应关系和筛选出的各个预设方位所匹配的角度分量，动态确定相应预设方位的权重。或者，可以对筛选出的各个预设方位所匹配的角度分量进行归一化处理，得到相应预设方位对应的归一化结果，从而分别将每个归一化结果，作为相应预设方位的权重。其中，此处的归一化处理可以是：对筛选出的各个预设方位所匹配的角度分量进行求和，并分别计算各个角度分量和求和结果之间的比值作为归一化结果。例如，筛选出的各个预设方位所匹配的角度分量依次为30、40和30，则各个预设方位对应的归一化结果可以依次是0.3、0.4和0.3。

可选的，在其他实施例中，也可预先为不同的预设方位设置一个默认权重，使得计算机设备在根据筛选出的预设方位所对应的预设双耳时间差，确定目标双耳时间差时，可以采用获取筛选出的各个预设方位的默认权重，对相应的预设双耳时间差进行加权求和，得到目标双耳时间差。

S404，采用目标方位和目标双耳时间差，将第二对象产生的原始音频数据渲染为空间音频数据，得到目标空间音频数据。

S405，向第一对象播放目标空间音频数据。

可理解的是，步骤S404-S405的具体实施方式可以参见前述步骤S204-S205的相关描述，在此不作赘述。

可选的，由于目标双耳时间差是采用与第一对象相关的耳间距生成的，而与第一对象相关的耳间距可能是第一对象所处地区的常规耳间距，这常规耳间距可能与第一对象自身的耳间距存在一定程度的差异，这样可能会导致目标双耳时间差不太适合第一对象，从而可能导致基于目标双耳时间差所渲染出的目标空间音频数据给第一对象营造的空间感较弱。基于此，本申请实施例还可支持第一对象通过输入耳间距更改操作进行耳间距的更改。示例性的，计算机设备可提供一个用于更改耳间距的更改界面，该更改界面可包括多个候选的耳间距，第一对象可通过选择其中一个耳间距来输入耳夹角更改操作。或者，该更改界面可包括一个输入框，第一对象可在该输入框中输入一个耳间距来输入耳间距更改操作。又或者，第一对象可直接输入用于指示更改耳间距的语音，来输入耳间距更改操作，等等。

相应的，第一设备可以响应于第一对象输入的耳间距更改操作，将耳间距更改操作所指示的耳间距作为目标耳间距。采用目标耳间距更新目标双耳时间差，具体的，计算机设备可自己调用(或请求其他设备调用)相应的双耳时间差预测模型，基于目标耳间距进行双耳时间差的预测，从而采用预测出的双耳时间差更新目标双耳时间差。在更新目标双耳时间差之后，计算机设备可基于更新后的目标双耳时间差提供空间音频数据的渲染服务。

可选的，若计算机设备在更新目标双耳时间差之后，目标空间音频数据还未播放结束，则计算机设备可重新采用更新后的目标双耳时间差和目标方位，将第二对象产生的原始音频数据渲染为空间音频数据，得到新的空间音频数据，然后停止播放当前的目标空间音频数据，并将目标空间音频数据的停止播放时间点作为新的空间音频数据的起始播放时间点，从而基于该起始播放时间点播放新的空间音频数据。例如，目标空间音频数据在播放到15秒时，被停止播放，则可从新的空间音频数据的第15秒起，开始播放新的空间音频数据。由此可见，通过此方式可以及时响应第一对象的更改需求，无缝衔接地实现空间音频数据的替换播放，从而及时地增强空间音频数据给第一对象营造的空间感。

在实际应用中，上述图2和图4所示的音频处理方法可运用在各种场景中。例如，该音频处理方法可以运用在基于GVoice(游戏语音)的游戏场景中，如大地图的游戏场景；在此游戏场景中，基于该音频处理方法可以在一些对战地图里提供空间音频数据，通过将其他玩家的语音数据结合相应玩家所处的地图坐标(方位)渲染出准确的3D空间音频数据，让主人态玩家(即前述第一对象)能够基于空间音频数据的聊天语音，通过自身的听感判断出其他玩家在地图里的位置，从而增加了游戏的趣味性。

参见图5所示，在游戏场景中运用该音频处理方法的大致逻辑如下：准备好采用不同样本ITD参数渲染出的空间音频渲染数据库(即空间音频数据)，让不同受试者听采用不同样本ITD渲染出的空间音频数据，使每个受试者选出最适合自己的空间音频数据。然后，把每个受试者的耳间距和其选择的空间音频数据对应的样本ITD作为训练样本，保存起来。然后，采用各个训练样本训练多项式线性回归模型，以得到双耳时间差预测模型，从而基于双耳时间差预测模型根据特定耳间距，预测出空间效果最好的ITD，并针对不同游戏地区使用不同的ITD，从而定制出区域性最好的空间渲染效果的空间音频数据。

具体的，在游戏场景中运用该音频处理方法的具体细节步骤可以如下：

1、准备X、Y、Z三个坐标平面上的不同角度(即预设方位)的原始音频数据，单个坐标平面可以每二十度夹角设置一个角度，并为当前设置的当前角度设置一个原始音频。针对任意角度，可以执行后续步骤2-7。

2、把默认的ITD按比例分成序列，得到足够多的测试数据组(即多个样本ITD)，以便于后续可以结合HRTF组成一组空间音频渲染参数，与HRTF结合的具体方式参见下述步骤3。

3、通过某个特定的样本ITD和HRTF计算出相应ITD对应的空间音频数据：

假设需要计算的HRTF是H′(ω)，左右耳的HRTF分别是H′L(ω)和H′R(ω)。将分频后的左右声道信号分别表示为L′(ω)和R′(ω)，频域中通过ITD调整以考虑声源位置之间的时间延迟：

分频后的左声道信号乘样本ITD(Δt′)，得到考虑时延的分频左声道信号：

L″(ω)＝L′(ω)e^(-jωΔt′/2)

分频后的右声道信号乘样本ITD(Δt′)，得到考虑时延的分频右声道信号：

R″(ω)＝R′(ω)e^(jωΔt′/2)

然后将HRTF应用于调整后的声道，这里是通过乘以HRTF分量，得到应用幅度和相位响应以后的音频信号(采用O′(ω)表示)：

O′(ω)＝H′L(ω)L″(ω)+H′R(ω)R″(ω)

然后，将此得出的O′(ω)进行IFFT变换，将其转回时域，即可得到完整的空间音频数据。

4、让不同体型的受试者去听渲染以后的空间音频数据，选择出他们主观觉得空间感最好，位置最为准确的空间音频数据，并记录该空间音频数据对应的样本ITD。

5、把受试者的耳间距和其选择出的最佳效果的空间音频数据对应的ITD整理成一个训练样本。该训练样本的格式可以为[intertragus_distance，itd_value]；其中，intertragus_distance为耳间距，itd_value为样本ITD。

6、定义一个多项式回归模型(即目标模型)，通过训练样本对多项式回归模型进行训练优化，使得模型可以学习出耳间距和最佳ITD的关系，用于生产环境找到最合适某个区域用户的最近空间渲染参数。

7、对推理结果(即优化后的目标模型)进行评价，具体可以通过假头采集器采集相应角度的真实空间音频数据，将该真实空间音频数据和采用模型预测出来的ITD和HRTF渲染出来的空间音频数据做对比，验证上述推理结果的可靠性。若该角度对应的推理结果不符号验收标准，则可以重新回到第一步，针对那个角度重新标注，训练出更符合那个角度的ITD和耳屏间距的多项式回归模型的系数(即模型参数)。

8、针对游戏中不同的发行区域下发特定的ITD，以使得游戏终端可以基于下发的ITD提供准确，空间感更强的3D语音渲染效果。具体的，针对任一发行区域，可以采用通过前述步骤所得到的各个角度对应的双耳时间差预测模型，根据相应发行区域的常规耳间距进行双耳时间差的预测，从而得到特定的ITD，并将特征的ITD下发给相应发行区域中的各个对象所使用的游戏终端，使得各个游戏终端在游戏过程中，若其他游戏玩家产生了原始音频数据，则可基于其他游戏玩家相对于主人态游戏玩家的方位以及该方位对应的ITD，将其他游戏玩家产生的原始音频数据渲染为空间音频数据进行播放，以为主人态游戏玩家营造较为强烈的空间感，进而实现声源的准确定位，从而提升游戏体验。可选的，对于预判错误的case(案例，此处可以指ITD或耳间距)，本申请实施例还可提供定制工具，供对象在游戏中可以通过更改耳间距来微调ITD。

基于上述描述可知，本申请实施例可以通过为游戏玩家渲染并播放准确的3D空间音频数据，让游戏玩家能够基于空间音频数据的聊天语音，通过自身的听感判断出其他玩家在地图里的位置，从而增加了游戏的趣味性。

基于上述音频处理方法实施例的描述，本申请实施例还公开了一种音频处理装置；所述音频处理装置可以是运行于计算机设备中的一个计算机程序(包括一条或多条指令)，且该音频处理装置可以执行上述所示的方法流程中的各个步骤。请参见图6，所述音频处理装置可以运行如下单元：

获取单元601，用于在第一对象处于目标场景中时，获取所述目标场景中的第二对象产生的原始音频数据；其中，原始音频数据是未具有空间效果的音频数据；

处理单元602，用于确定所述第二对象相对于所述第一对象的目标方位，并获取采用与所述第一对象相关的耳间距所生成的目标双耳时间差；

所述处理单元602，还用于采用所述目标方位和所述目标双耳时间差，将所述第二对象产生的原始音频数据渲染为空间音频数据，得到目标空间音频数据；

所述处理单元602，还用于向所述第一对象播放所述目标空间音频数据。

在一种实施方式中，处理单元602在用于获取采用与所述第一对象相关的耳间距所生成的目标双耳时间差时，可具体用于：

确定为所述第一对象生成的多个预设方位对应的预设双耳时间差；任一预设方位对应的预设双耳时间差，是调用相应预设方位对应的双耳时间差预测模型根据与所述第一对象相关的耳间距预测得到的；

从所述多个预设方位中筛选出与所述目标方位相匹配的预设方位，并根据筛选出的预设方位所对应的预设双耳时间差，确定目标双耳时间差。

另一种实施方式中，处理单元602还可用于生成多个预设方位中的第i个预设方位对应的双耳时间差预测模型，具体可用于：

确定多个样本双耳时间差，并分别采用各个样本双耳时间差将所述第i个预设方位对应的原始音频数据渲染为空间音频数据，得到所述各个样本双耳时间差对应的空间音频数据；i的取值为正整数且不大于所述多个预设方位的数量；

向K个受试者播放所述各个样本双耳时间差对应的空间音频数据，使每个受试者从播放的空间音频数据中选择出偏好的空间音频数据，K为正整数；

分别将每个受试者所选择的空间音频数据对应的样本双耳时间差与相应受试者的耳间距进行组合，得到K个训练样本；

采用所述K个训练样本对用于预测双耳时间差的目标模型进行模型优化，基于优化后的目标模型确定所述第i个预设方位对应的双耳时间差预测模型。

另一种实施方式中，处理单元602在用于确定多个样本双耳时间差时，可具体用于：

获取默认的双耳时间差以及预设比例序列，所述预设比例序列中包括多个比例参数，相邻两个比例参数之间的差值为预设值；

分别采用所述预设比例序列中的各个比例参数，对所述默认的双耳时间差进行缩放处理，得到多个样本双耳时间差。

另一种实施方式中，处理单元602在用于采用所述K个训练样本对用于预测双耳时间差的目标模型进行模型优化时，可具体用于：

针对所述K个训练样本中的任一训练样本，调用用于预测双耳时间差的目标模型根据相应训练样本中的耳间距进行双耳时间差的预测，得到相应的预测双耳时间差；

根据所述K个训练样本中的每个训练样本对应的预测双耳时间差和相应训练样本中的样本双耳时间差之间的差异，优化所述目标模型的模型参数。

另一种实施方式中，处理单元602在用于基于优化后的目标模型确定所述第i个预设方位对应的双耳时间差预测模型时，可具体用于：

在假头采集器的所述第i个预设方位，播放未具有空间效果的测试音频数据，以使所述假头采集器采集到所述第i个预设方位的真实空间音频数据；

调用优化后的目标模型根据所述假头采集器的耳间距进行双耳时间差的预测，并根据预测出的双耳时间差和所述第i个预设方位将所述测试音频数据渲染为空间音频数据，得到测试空间音频数据；

根据所述真实空间音频数据和所述测试空间音频数据之间的对比结果，对所述优化后的目标模型进行可靠性验证；

若所述优化后的目标模型通过可靠性验证，则将所述优化后的目标模型作为所述第i个预设方位对应的双耳时间差预测模型。

另一种实施方式中，处理单元602还可用于：

若所述优化后的目标模型未通过可靠性验证，则重新获取K个训练样本；

采用重新获取到的K个训练样本，重新对所述目标模型进行模型优化，以使优化后的目标模型通过可靠性验证，得到所述第i个预设方位对应的双耳时间差预测模型。

另一种实施方式中，所述真实空间音频数据和所述测试空间音频数据之间的对比结果包括：所述真实空间音频数据和所述测试空间音频数据之间的差异度；相应的，处理单元602在用于根据所述真实空间音频数据和所述测试空间音频数据之间的对比结果，对所述优化后的目标模型进行可靠性验证时，可具体用于：

若所述真实空间音频数据和所述测试空间音频数据之间的差异度小于差异度阈值，则确定所述优化后的目标模型通过可靠性验证；

若所述真实空间音频数据和所述测试空间音频数据之间的差异度大于或等于差异度阈值，则确定所述优化后的目标模型未通过可靠性验证。

另一种实施方式中，所述多个预设方位是在H个坐标平面中设置的，一个坐标平面设置有至少一个预设方位，任一预设方位包括相应坐标平面上的一个预设角度；所述目标方位包括H个角度分量，一个角度分量对应一个坐标平面，H为正整数；相应的，处理单元602在用于所述从所述多个预设方位中筛选出与所述目标方位相匹配的预设方位时，可具体用于：

遍历所述目标方位中的各个角度分量，并确定当前遍历的第h个角度分量；所述第h个角度分量对应的坐标平面为第h个坐标平面，h∈[1，H]；

在所述第h个坐标平面中设置的各个预设方位中，查找与所述第h个角度分量相匹配的预设角度；

从所述多个预设方位中筛选出查找到的预设角度所在的预设方位，作为与所述目标方位中的第h个角度分量相匹配的预设方位；

继续遍历，直至所述目标方位中的各个角度分量均被遍历。

另一种实施方式中，筛选出的预设方位的数量为H个，且筛选出的不同预设方位与所述目标方位中的不同角度分量相匹配；相应的，处理单元602在用于根据筛选出的预设方位所对应的预设双耳时间差，确定目标双耳时间差时，可具体用于：

根据筛选出的各个预设方位所匹配的角度分量，动态确定相应预设方位的权重；其中，筛选出的第h个预设方位的权重，与所述第h个预设方位所匹配的角度分量成正相关；

采用筛选出的各个预设方位的权重对相应的预设双耳时间差进行加权求和，得到目标双耳时间差。

另一种实施方式中，处理单元602在用于根据筛选出的各个预设方位所匹配的角度分量，动态确定相应预设方位的权重时，可具体用于：

对筛选出的各个预设方位所匹配的角度分量进行归一化处理，得到相应预设方位对应的归一化结果；

分别将每个归一化结果，作为相应预设方位的权重。

另一种实施方式中，处理单元602在用于采用所述目标方位和所述目标双耳时间差，将所述第二对象产生的原始音频数据渲染为空间音频数据，得到目标空间音频数据时，可具体用于：

将所述第二对象产生的原始音频数据从时域转换到频域，得到原始音频信号；采用所述目标方位对所述原始音频信号进行调整，得到调整后的原始音频信号；

采用所述目标双耳时间差，对所述调整后的原始音频信号进行时延处理，得到目标音频信号；

调用所述目标方位对应的头部相关传递函数集，对所述目标音频信号进行渲染，得到空间音频信号；

将所述空间音频信号从频域转换到时域，得到目标空间音频数据。

另一种实施方式中，处理单元602在用于采用所述目标双耳时间差，对所述调整后的原始音频信号进行时延处理，得到目标音频信号时，可具体用于：

对所述调整后的原始音频信号进行分频处理，得到各个耳朵对应的声道音频信号；

根据所述目标双耳时间差计算所述各个耳朵对应的时延参数，

分别采用各个耳朵对应的时延参数，对相应耳朵对应的声道信号进行时延处理，得到目标音频信号；所述目标音频信号包括：各个耳朵对应的时延后的声道信号。

另一种实施方式中，所述目标方位对应的头部相关传递函数集包括：各个耳朵对应的头部相关传递函数；相应的，处理单元602在用于调用所述目标方位对应的头部相关传递函数集，对所述目标音频信号进行渲染，得到空间音频信号时，可具体用于：

分别调用所述各个耳朵对应的头部相关传递函数，对所述目标音频信号中的相应耳朵对应的声道音频信号进行渲染，得到各个耳朵对应的渲染结果；

对所述各个耳朵对应的渲染结果进行整合，得到空间音频信号。

另一种实施方式中，在播放所述目标空间音频数据之后，处理单元602还可用于：

响应于所述第一对象输入的耳间距更改操作，将所述耳间距更改操作所指示的耳间距作为目标耳间距；

采用所述目标耳间距更新所述目标双耳时间差，并基于更新后的目标双耳时间差提供空间音频数据的渲染服务。

根据本申请的另一个实施例，图6所示的音频处理装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本申请的其它实施例中，基于音频处理装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。

根据本申请的另一个实施例，可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行上述方法实施例所涉及的各步骤的计算机程序(包括一条或多条指令)，来构造如图6中所示的音频处理装置设备，以及来实现本申请实施例的音频处理方法。所述计算机程序可以记载于例如计算机可读存储介质上，并通过计算机可读存储介质装载于上述计算设备中，并在其中运行。

基于上述方法实施例以及装置实施例的描述，本申请实施例还提供一种计算机设备。请参见图7，该计算机设备至少包括处理器701、输入接口702、输出接口703以及计算机存储介质704。其中，计算机设备内的处理器701、输入接口702、输出接口703以及计算机存储介质704可通过总线或其他方式连接。计算机存储介质704可以存储在计算机设备的存储器中，所述计算机存储介质704用于存储计算机程序，所述计算机程序包括一条或多条指令，所述处理器701用于执行所述计算机存储介质704存储的计算机程序中的一条或多条指令。处理器701(或称CPU(Central Processing Unit，中央处理器))是计算机设备的计算核心以及控制核心，其适于实现一条或多条指令，具体适于加载并执行一条或多条指令从而实现相应方法流程或相应功能。

在一个实施例中，本申请实施例所述的处理器701可以用于进行一系列的音频处理，具体包括：在第一对象处于目标场景中时，获取所述目标场景中的第二对象产生的原始音频数据；其中，原始音频数据是未具有空间效果的音频数据；确定所述第二对象相对于所述第一对象的目标方位，并获取采用与所述第一对象相关的耳间距所生成的目标双耳时间差；采用所述目标方位和所述目标双耳时间差，将所述第二对象产生的原始音频数据渲染为空间音频数据，得到目标空间音频数据；向所述第一对象播放所述目标空间音频数据，等等。

本申请实施例还提供了一种计算机存储介质(Memory)，所述计算机存储介质是计算机设备中的记忆设备，用于存放计算机程序和数据。可以理解的是，此处的计算机存储介质既可以包括计算机设备中的内置存储介质，当然也可以包括计算机设备所支持的扩展存储介质。计算机存储介质提供存储空间，该存储空间存储了计算机设备的操作系统。并且，在该存储空间中还存放了计算机程序，该计算机程序包括适于被处理器701加载并执行的一条或多条的指令，这些指令可以是一个或一个以上的程序代码。需要说明的是，此处的计算机存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatilememory)，例如至少一个磁盘存储器；可选的，还可以是至少一个位于远离前述处理器的计算机存储介质。

在一个实施例中，可由处理器加载并执行计算机存储介质中存放的一条或多条指令，以实现上述有关上述方法实施例中的相应步骤；具体实现中，计算机存储介质中的一条或多条指令可由处理器加载并执行如下步骤：

向所述第一对象播放所述目标空间音频数据。

在一种实施方式中，在获取采用与所述第一对象相关的耳间距所生成的目标双耳时间差时，所述一条或多条指令可由处理器加载并具体执行：

另一种实施方式中，所述一条或多条指令可由处理器加载并具体执行：生成多个预设方位中的第i个预设方位对应的双耳时间差预测模型，具体可用于：

另一种实施方式中，在确定多个样本双耳时间差时，所述一条或多条指令可由处理器加载并具体执行：

另一种实施方式中，在采用所述K个训练样本对用于预测双耳时间差的目标模型进行模型优化时，所述一条或多条指令可由处理器加载并具体执行：

另一种实施方式中，在基于优化后的目标模型确定所述第i个预设方位对应的双耳时间差预测模型时，所述一条或多条指令可由处理器加载并具体执行：

另一种实施方式中，所述一条或多条指令可由处理器加载并具体执行：

另一种实施方式中，所述真实空间音频数据和所述测试空间音频数据之间的对比结果包括：所述真实空间音频数据和所述测试空间音频数据之间的差异度；相应的，在根据所述真实空间音频数据和所述测试空间音频数据之间的对比结果，对所述优化后的目标模型进行可靠性验证时，所述一条或多条指令可由处理器加载并具体执行：

另一种实施方式中，所述多个预设方位是在H个坐标平面中设置的，一个坐标平面设置有至少一个预设方位，任一预设方位包括相应坐标平面上的一个预设角度；所述目标方位包括H个角度分量，一个角度分量对应一个坐标平面，H为正整数；相应的，在从所述多个预设方位中筛选出与所述目标方位相匹配的预设方位时，所述一条或多条指令可由处理器加载并具体执行：

继续遍历，直至所述目标方位中的各个角度分量均被遍历。

另一种实施方式中，筛选出的预设方位的数量为H个，且筛选出的不同预设方位与所述目标方位中的不同角度分量相匹配；相应的，在根据筛选出的预设方位所对应的预设双耳时间差，确定目标双耳时间差时，所述一条或多条指令可由处理器加载并具体执行：

另一种实施方式中，在根据筛选出的各个预设方位所匹配的角度分量，动态确定相应预设方位的权重时，所述一条或多条指令可以由处理器加载并具体执行：

分别将每个归一化结果，作为相应预设方位的权重。

另一种实施方式中，在采用所述目标方位和所述目标双耳时间差，将所述第二对象产生的原始音频数据渲染为空间音频数据，得到目标空间音频数据时，所述一条或多条指令可由处理器加载并具体执行：

另一种实施方式中，在采用所述目标双耳时间差，对所述调整后的原始音频信号进行时延处理，得到目标音频信号时，所述一条或多条指令可由处理器加载并具体执行：

另一种实施方式中，所述目标方位对应的头部相关传递函数集包括：各个耳朵对应的头部相关传递函数；相应的，在调用所述目标方位对应的头部相关传递函数集，对所述目标音频信号进行渲染，得到空间音频信号时，所述一条或多条指令可由处理器加载并具体执行：

另一种实施方式中，在播放所述目标空间音频数据之后，所述一条或多条指令可由处理器加载并具体执行：

需要说明的是，根据本申请的一个方面，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括一条或多条指令，该一条或多条指令存储在计算机存储介质中。计算机设备的处理器从计算机存储介质读取一条或多条指令，处理器执行该一条或多条指令，使得该计算机设备执行上述方法实施例方面的各种可选方式中提供的方法。应理解的是，以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种音频处理方法，其特征在于，包括：

向所述第一对象播放所述目标空间音频数据。

2.如权利要求1所述的方法，其特征在于，所述获取采用与所述第一对象相关的耳间距所生成的目标双耳时间差，包括：

3.如权利要求2所述的方法，其特征在于，所述多个预设方位中的第i个预设方位对应的双耳时间差预测模型的生成过程，包括：

4.如权利要求3所述的方法，其特征在于，所述确定多个样本双耳时间差，包括：

5.如权利要求3所述的方法，其特征在于，所述采用所述K个训练样本对用于预测双耳时间差的目标模型进行模型优化，包括：

6.如权利要求3所述的方法，其特征在于，所述基于优化后的目标模型确定所述第i个预设方位对应的双耳时间差预测模型，包括：

7.如权利要求6所述的方法，其特征在于，所述方法还包括：

8.如权利要求6所述的方法，其特征在于，所述真实空间音频数据和所述测试空间音频数据之间的对比结果包括：所述真实空间音频数据和所述测试空间音频数据之间的差异度；

所述根据所述真实空间音频数据和所述测试空间音频数据之间的对比结果，对所述优化后的目标模型进行可靠性验证，包括：

9.如权利要求2所述的方法，其特征在于，所述多个预设方位是在H个坐标平面中设置的，一个坐标平面设置有至少一个预设方位，任一预设方位包括相应坐标平面上的一个预设角度；所述目标方位包括H个角度分量，一个角度分量对应一个坐标平面，H为正整数；

所述从所述多个预设方位中筛选出与所述目标方位相匹配的预设方位，包括：

继续遍历，直至所述目标方位中的各个角度分量均被遍历。

10.如权利要求9所述的方法，其特征在于，筛选出的预设方位的数量为H个，且筛选出的不同预设方位与所述目标方位中的不同角度分量相匹配；

所述根据筛选出的预设方位所对应的预设双耳时间差，确定目标双耳时间差，包括：

11.如权利要求10所述的方法，其特征在于，所述根据筛选出的各个预设方位所匹配的角度分量，动态确定相应预设方位的权重，包括：

分别将每个归一化结果，作为相应预设方位的权重。

12.如权利要求1所述的方法，其特征在于，所述采用所述目标方位和所述目标双耳时间差，将所述第二对象产生的原始音频数据渲染为空间音频数据，得到目标空间音频数据，包括：

13.如权利要求12所述的方法，其特征在于，所述采用所述目标双耳时间差，对所述调整后的原始音频信号进行时延处理，得到目标音频信号，包括：

14.如权利要求13所述的方法，其特征在于，所述目标方位对应的头部相关传递函数集包括：各个耳朵对应的头部相关传递函数；

所述调用所述目标方位对应的头部相关传递函数集，对所述目标音频信号进行渲染，得到空间音频信号，包括：

15.如权利要求1所述的方法，其特征在于，在播放所述目标空间音频数据之后，所述方法还包括：

16.一种音频处理装置，其特征在于，包括：

17.一种计算机设备，包括输入接口和输出接口，其特征在于，还包括：处理器以及计算机存储介质；

其中，所述处理器适于实现一条或多条指令，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由所述处理器加载并执行如权利要求1-15任一项所述的音频处理方法。

18.一种计算机存储介质，其特征在于，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由处理器加载并执行如权利要求1-15任一项所述的音频处理方法。

19.一种计算机程序产品，其特征在于，所述计算机程序产品包括一条或多条指令；所述计算机程序中的一条或多条指令被处理器执行时，实现如权利要求1-15任一项所述的音频处理方法。