CN117395592A

CN117395592A - 音频处理方法、系统及电子设备

Info

Publication number: CN117395592A
Application number: CN202310127907.3A
Authority: CN
Inventors: 寇毅伟; 秦鹏; 林远鹏; 范泛; 周雷
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2022-07-12
Filing date: 2023-01-30
Publication date: 2024-01-12
Also published as: WO2024011937A1

Abstract

本申请实施例提供了一种音频处理方法、系统及电子设备。该方法包括：响应于用户的播放操作，对源音频信号中的初始音频片段进行空间音频处理，以得到初始双耳信号并播放初始双耳信号；接收用户针对渲染效果选项的设置，渲染效果选项包括以下至少一种：声像位置选项、距离感选项或空间感选项；根据设置，对源音频信号中初始音频片段之后的音频片段进行空间音频处理，以得到目标双耳信号。这样，能够在播放音频信号过程中，根据用户针对渲染效果的设置，来不断的调整源音频信号对应的双耳信号的渲染效果。

Description

音频处理方法、系统及电子设备

本申请要求于2022年07月12日提交中国国家知识产权局、申请号为202210813749.2、申请名称为“音频处理方法、系统及电子设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及数据处理领域，尤其涉及一种音频处理方法、系统及电子设备。

背景技术

空间音频技术可以将不同格式的音源渲染为双耳信号，使用户佩戴耳机时能够感知到音频中声像位置、距离感以及空间感，能够为用户使用耳机时带来沉浸式听音体验。

针对同一双耳信号，不同用户的听感和偏好不同，例如，用户A听该双耳信号时，感受到的声源位置位于双耳水平面之上，需要将声源位置调整到双耳水平面；用户B听该双耳信号时，感受到的距离感和空间感较小，希望增强距离感和空间感，等等。但是现有技术渲染得到的双耳信号的渲染效果无法调整。

发明内容

为了解决上述技术问题，本申请提供一种音频处理方法、系统及电子设备。在该方法中，能够根据用户针对渲染效果的设置，调整双耳信号的渲染效果。

第一方面，本申请实施例提供一种音频处理方法，该方法包括：首先，响应于用户的播放操作，对源音频信号中的初始音频片段进行空间音频处理，以得到初始双耳信号并播放初始双耳信号；随后，接收用户针对渲染效果选项的设置，渲染效果选项包括以下至少一种：声像位置选项、距离感选项或空间感选项；接着，根据设置，对源音频信号中初始音频片段之后的音频片段继续进行空间音频处理，以得到目标双耳信号。

也就是，在用户针对源音频信号执行播放操作后，可以响应于用户的播放操作，先按照系统针对渲染效果选项的设置和/或者用户针对渲染效果选项的历史设置，对源音频信号中的初始音频片段进行空间音频处理，以得到初始双耳信号并播放。在播放初始双耳信号的过程中(即用户在收听初始双耳信号的过程中)，若用户确定渲染效果不满足自身需求时，用户可以针对渲染效果选项进行设置；此时，可以根据用户针对渲染效果选项的本次设置，对源音频信号中初始音频片段之后的音频片段继续进行空间音频处理，以得到目标双耳信号。

应该理解的是，在得到目标双耳信号后可以播放目标双耳信号，在播放目标双耳信号的过程中(即用户在收听目标双耳信号的过程中)，若用户确定渲染效果不满足自身需求时，用户可以再次针对渲染效果选项进行设置；此时，可以根据用户再次针对渲染效果选项的设置，对源音频信号中上次进行空间音频处理的音频片段之后的音频片段，继续进行空间音频处理，得到新的目标双耳信号；以此类推。

这样，能够在播放音频信号过程中，根据用户针对渲染效果的设置，来不断的调整源音频信号对应的双耳信号的渲染效果，即“边听边调”；进而提高用户体验。

此外，还可以实现按照用户个性化空间音频效果需求，对源音频信号进行个性化空间音频处理，得到用于耳机播放的目标双耳信号；进而能够满足用户针对空间音频效果个性化需求。

一种可能的方式中，系统可以根据用户个人信息，来针对渲染效果选项进行设置。例如，系统可以根据用户个人信息，分析用户的头部类型、偏好的渲染效果等等，来针对渲染效果选项进行设置。

一种可能的方式中，系统可以针对渲染效果选项进行默认设置。

示例性的，源音频信号为媒体文件。源音频信号可以是歌曲的音频信号、有声读物的音频信号、视频包含的音频信号等等，本申请对此不作限制。

示例性的，目标双耳信号和初始双耳信号，均可以包括用于左耳机播放的一路信号和用于右耳机播放的一路信号。

应该理解的是，除上述的渲染效果选项之外，本申请还可以包括其他渲染效果选项，本申请对此不作限制。

示例性的，声像位置选项用于调节目标双耳信号中的声像位置。其中，声像位置可以是指用户主观感受到的声音相对人头中心的方位。

示例性的，距离感选项用于调节目标双耳信号中声像的距离感。其中，距离感可以是指用户主观感受到的声音相对人头中心的距离。

示例性的，空间感选项用于调节目标双耳信号的空间感。其中，空间感可以是指用户主观感受到的声学环境空间的大小。

根据第一方面，当渲染效果选项包括声像位置选项时，根据设置，对源音频信号中初始音频片段之后的音频片段继续进行空间音频处理，以得到目标双耳信号，包括：根据针对声像位置选项的设置，调节声像位置参数；根据声像位置参数对源音频信号中初始音频片段之后的音频片段进行直达声渲染，以得到第一双耳信号；根据第一双耳信号，确定目标双耳信号。这样，能够根据用户针对声像距离的个性化设置，调节目标双耳信号的声像距离。

根据第一方面，或者以上第一方面的任意一种实现方式，当渲染效果选项包括距离感选项时，根据设置，对源音频信号中初始音频片段之后的音频片段继续进行空间音频处理，以得到目标双耳信号，包括：根据针对距离感选项的设置，调节距离感参数；根据距离感参数对源音频信号中初始音频片段之后的音频片段进行早期反射声渲染，以得到第二双耳信号；根据第二双耳信号，确定目标双耳信号。这样，能够根据用户针对距离感的个性化设置，调节目标双耳信号中声像的距离感。

根据第一方面，或者以上第一方面的任意一种实现方式，当渲染效果选项包括空间感选项时，根据设置，对源音频信号中初始音频片段之后的音频片段继续进行空间音频处理，以得到目标双耳信号，包括：根据针对空间感选项的设置，调节空间感参数；根据空间感参数对源音频信号中初始音频片段之后的音频片段进行晚期反射声渲染，以得到第三双耳信号；根据第三双耳信号，确定目标双耳信号。这样，能够根据用户针对空间感的个性化设置，调节目标双耳信号的空间感。

根据第一方面，或者以上第一方面的任意一种实现方式，当渲染效果选项还包括声像位置选项和空间感选项时，根据设置，对源音频信号中初始音频片段之后的音频片段继续进行空间音频处理，以得到目标双耳信号，还包括：根据针对声像位置选项的设置，调节声像位置参数；以及根据声像位置参数对源音频信号中初始音频片段之后的音频片段进行直达声渲染，以得到第一双耳信号；根据针对空间感选项的设置，调节空间感参数；以及根据空间感参数对源音频信号中初始音频片段之后的音频片段进行晚期反射声渲染，以得到第三双耳信号；依据第二双耳信号，确定目标双耳信号，包括：对第一双耳信号、第二双耳信号和第三双耳信号进行混音处理，以得到目标双耳信号。这样，能够根据用户针对声学位置、距离感和空间感的个性化设置，调整目标双耳信号中声像位置、声像的距离和空间感。

此外，由于目标双耳信号中的直达声部分影响用户对于声像位置的感知，目标双耳信号中的早期反射声部分影响用户对于声像距离的感知，以及目标双耳信号中的晚期反射声部分影响用户对于声学环境空间的感知。因此，本申请通过对源音频信号中初始音频片段之后的音频片段分别进行直达声渲染、早期反射声渲染和晚期反射声渲染，能够高精度的还原出声像位置、距离感和空间感，进而能够达到更真实沉浸的双耳渲染效果。

示例性的，目标双耳信号中的直达声部分是指源音频信号经过直接路径达到人耳(即不经过任何的反射而以直线的形式直接传播到人耳)的部分；目标双耳信号中的早期反射声部分是指源音频信号经过反射路径到达人耳的前一部分；目标双耳信号中的晚期反射声部分是指源音频信号经过反射路径到达人耳的后一部分。

根据第一方面，或者以上第一方面的任意一种实现方式，当渲染效果选项还包括声像位置选项和空间感选项时，根据设置，对源音频信号中初始音频片段之后的音频片段继续进行空间音频处理，以得到目标双耳信号，还包括：根据针对空间感选项的设置，调节空间感参数；以及根据空间感参数对源音频信号中初始音频片段之后的音频片段进行晚期反射声渲染，以得到第三双耳信号；依据第二双耳信号，确定目标双耳信号，包括：对第二双耳信号和第三双耳信号进行混音处理，以得到第四双耳信号；根据针对声像位置选项的设置，调节声像位置参数；以及根据声像位置参数对第四双耳信号进行直达声渲染，以得到第五双耳信号；根据第五双耳信号，确定目标双耳信号。这样，能够根据用户针对声学位置、距离感和空间感的个性化设置，调整目标双耳信号中声像位置、声像的距离和空间感。

此外，本申请通过对源音频信号中初始音频片段之后的音频片段分别进行直达声渲染、早期反射声渲染和晚期反射声渲染，能够高精度的还原出声像位置、距离感和空间感，进而能够达到更真实沉浸的双耳渲染效果。

根据第一方面，或者以上第一方面的任意一种实现方式，根据声像位置参数对源音频信号中初始音频片段之后的音频片段进行直达声渲染，以得到第一双耳信号，包括：从预设的直达声RIR(Room Impulse Response，房间脉冲响应)库中选取候选直达声RIR，以及根据声像位置参数确定声像位置修正因子；根据声像位置修正因子对候选直达声RIR进行修正，以得到目标直达声RIR；根据目标直达声RIR对源音频信号中初始音频片段之后的音频片段进行直达声渲染，以得到第一双耳信号。

根据第一方面，或者以上第一方面的任意一种实现方式，直达声RIR库包括多个第一集合，一个第一集合对应一种头部类型，第一集合包括多个位置的预设直达声RIR；从预设的直达声RIR库中选取候选直达声RIR，包括：根据用户的头部类型，从多个第一集合中选取第一目标集合；根据用户的头部位置信息、源音频信号的位置信息和第一目标集合中预设直达声RIR的位置信息，从第一目标集合中选取候选直达声RIR。这样，能够实现头动跟踪渲染。

根据第一方面，或者以上第一方面的任意一种实现方式，在接收用户针对渲染效果选项的设置之前，该方法还包括：获取针对目标场景选项的选取，显示目标场景选项对应的渲染效果选项。其中，一个目标场景选项对应一种空间场景，这样，可以设置双耳信号播放的空间场景，增加了空间音频效果设置的多样性。

示例性的，获取针对目标场景选项的选取可以包括，接收用户针对目标场景选项的选取操作。这样，能够为用户提供双耳信号播放的空间场景的选择，增加了空间音频效果设置的多样性。此外，不同目标场景选项对应的渲染效果选项不同，用户可以针对不同空间场景设置不同的渲染效果，实现空间音频效果的精细化调节。

示例性的，获取针对目标场景选项的选取，可以是电子设备的系统针对目标场景选项的选取。示例性的，系统可以根据用户个人信息，来选取目标场景。例如，系统可以根据用户个人信息，分析用户偏好的空间场景等等，来选取目标场景。

示例性的，目标场景选项可以包括以下任意一种：电影院选项、录音棚选项、音乐厅选项和KTV(Karaoke TV，卡拉OK)选项等等。其中，电影院选项对应的空间场景为电影院，录音棚选项对应的空间场景为录音棚，音乐厅选项对应的空间场景为音乐厅，以及KTV选项对应的空间场景为KTV。

应该理解的是，目标场景选项还可以是其他选项，本申请对此不作限制。

根据第一方面，或者以上第一方面的任意一种实现方式，根据距离感参数对源音频信号中初始音频片段之后的音频片段进行早期反射声渲染，以得到第二双耳信号，包括：从预设的早期反射声RIR库中选取候选早期反射声RIR，以及根据距离感参数确定距离感修正因子；根据距离感修正因子对候选早期反射声RIR进行修正，以得到目标早期反射声RIR；根据目标早期反射声RIR对源音频信号中初始音频片段之后的音频片段进行早期反射声渲染，以得到第二双耳信号。

根据第一方面，或者以上第一方面的任意一种实现方式，早期反射声RIR库包括多个第二集合，一个第二集合对应一种空间场景，第二集合包括多个位置的预设早期反射声RIR；从预设的早期反射声RIR库中选取候选早期反射声RIR，包括：根据目标场景选项对应的空间场景参数，从多个第二集合中选取第二目标集合；根据用户的头部位置信息、源音频信号的位置信息和第二目标集合中预设早期反射声RIR的位置信息，从第二目标集合中选取候选早期反射声RIR。这样，能够实现头动跟踪渲染。

根据第一方面，或者以上第一方面的任意一种实现方式，根据空间感参数对源音频信号中初始音频片段之后的音频片段进行晚期反射声渲染，以得到第三双耳信号，包括：从预设的晚期反射声RIR库中选取候选晚期反射声RIR，以及根据空间感参数确定空间感修正因子；依据空间感修正因子对候选晚期反射声RIR进行修正，以得到目标晚期反射声RIR；依据目标晚期反射声RIR对源音频信号中初始音频片段之后的音频片段进行晚期反射声渲染，以得到第三双耳信号。

根据第一方面，或者以上第一方面的任意一种实现方式，晚期反射声RIR库包括多个第三集合，一个第三集合对应一种空间场景，第三集合包括多个位置的预设晚期反射声RIR；从预设的晚期反射声RIR库中选取候选晚期反射声RIR，包括：根据目标场景选项对应的空间场景参数，从多个第三集合中选取第三目标集合；根据用户的头部位置信息、源音频信号的位置信息和第三目标集合中预设晚期反射声RIR的位置信息，从第三目标集合中选取候选晚期反射声RIR。这样，能够实现头动跟踪渲染。

根据第一方面，或者以上第一方面的任意一种实现方式，基于第一双耳信号、第二双耳信号和第三双耳信号，确定目标双耳信号，包括：根据预设关系，确定与空间场景参数匹配的音效参数组，预设关系包括多种空间场景与多个音效参数组之间的关系，与空间场景参数匹配的音效参数组包括：直达声音效参数、早前反射声音效参数、晚期反射声音效参数；根据直达声音效参数对第一双耳信号进行音效处理，根据早期反射声音效参数对第二双耳信号进行音效处理，以及根据晚期反射声音效参数对第三双耳信号进行音效处理；基于音效处理后的第一双耳信号、音效处理后的第二双耳信号和音效处理后的第二双耳信号，确定目标双耳信号。这样，能够对音频信号进行修饰。

根据第一方面，或者以上第一方面的任意一种实现方式，源音频信号包括以下至少一种格式：多声道格式、多对象格式和Ambisonics格式。

示例性的，Ambisonics格式是指球谐环绕声场格式。

根据第一方面，或者以上第一方面的任意一种实现方式，目标直达声RIR为HRIR(HeadRelated Impulse Response，头相关脉冲响应)。

根据第一方面，或者以上第一方面的任意一种实现方式，目标早期反射声RIR为HOA(High-OrderAmbisonics，高阶Ambisonics)RIR。相对于现有技术需要经过多次采集才能完成采集各个方向的RIR录制，来制作早期反射声RIR而言，本申请采用球形麦克风采集一次即完成各个方向的RIR的录制，能够降低制作早期反射声RIR的工作量。

根据第一方面，或者以上第一方面的任意一种实现方式，目标晚期反射声RIR为HOA RIR。相对于现有技术需要经过多次采集才能完成采集各个方向的RIR录制，来制作晚期反射声RIR而言，本申请采用球形麦克风采集一次即完成各个方向的RIR的录制，能够降低制作晚期反射声RIR的工作量。

根据第一方面，或者以上第一方面的任意一种实现方式，音频处理方法应用于耳机，头部位置信息根据耳机采集的用户的头部运动信息确定；或，音频处理方法应用于移动终端，头部位置信息从与移动终端连接的耳机获取；或，音频处理方法应用于VR(VirtualReality，虚拟现实)设备，头部位置信息根据VR设备采集的用户的头部运动信息确定。

应该理解的是，对源音频信号中的初始音频片段进行空间音频处理，以得到初始双耳信号的实现方式与效果，可以参照第一方面的任意一种实现方式中描述的，根据设置，对源音频信号中初始音频片段之后的音频片段继续进行空间音频处理，以得到目标双耳信号的实现方式与效果，在此不再赘述。

第二方面，本申请实施例提供一种音频处理方法，该方法包括：获取待处理的源音频信号；对源音频信号分别进行直达声渲染、早期反射声渲染和晚期反射声渲染，以得到双耳信号。由于双耳信号中的直达声部分影响用户对于声像位置的感知，双耳信号中的早期反射声部分影响用户对于声像距离的感知，以及双耳信号中的晚期反射声部分影响用户对于声学环境空间的感知。因此，本申请通过对源音频信号分别进行直达声渲染、早期反射声渲染和晚期反射声渲染，能够高精度的还原出声像位置、距离感和空间感，进而能够达到更真实沉浸的双耳渲染效果。

根据第二方面，对源音频信号分别进行直达声渲染、早期反射声渲染和晚期反射声渲染，以得到双耳信号，包括：对源音频信号进行直达声渲染，以得到第一双耳信号；对源音频信号进行早期反射声渲染，以得到第二双耳信号；对源音频信号进行晚期反射声渲染，以得到第三双耳信号；基于第一双耳信号、第二双耳信号和第三双耳信号，以确定双耳信号。

根据第二方面，或者以上第二方面的任意一种实现方式，对源音频信号分别进行直达声渲染、早期反射声渲染和晚期反射声渲染，以得到双耳信号，包括：对源音频信号进行早期反射声渲染，以得到第二双耳信号；对源音频信号进行晚期反射声渲染，以得到第三双耳信号；对第二双耳信号和第三双耳信号进行混音处理，以得到第四双耳信号；对第四双耳信号进行直达声渲染，以得到第五双耳信号；基于第五双耳信号，确定双耳信号。

根据第二方面，或者以上第二方面的任意一种实现方式，直达声渲染所使用的房间脉冲响应RIR为头相关脉冲响应HRIR；早期反射声渲染所使用的RIR为HOARIR；晚期反射声渲染所使用的RIR为HOARIR。相对于现有技术需要经过多次采集才能完成采集各个方向的RIR录制，来制作早期/晚期反射声RIR而言，本申请采用球形麦克风采集一次即完成各个方向的RIR的录制，能够降低制作早期/晚期反射声RIR的工作量。

根据第二方面，或者以上第二方面的任意一种实现方式，源音频信号包括以下至少一种格式：多声道格式、多对象格式和Ambisonics格式。

应该理解的是，第二方面及第二方面的任意一种实现方式中的待处理的源音频信号，可以是指第一方面及第一方面的任意一种实现方式中，源音频信号中的初始音频片段；第二方面及第二方面的任意一种实现方式中的双耳信号，可以是指初始双耳信号。

应该理解的是，第二方面及第二方面的任意一种实现方式中的待处理的源音频信号，可以是指第一方面及第一方面的任意一种实现方式中，源音频信号中初始音频片段之后的音频片段。第二方面及第二方面的任意一种实现方式中的双耳信号，可以是指目标双耳信号。

第三方面，本申请提供一种音频处理系统，该音频处理系统包括移动终端和与移动终端连接的耳机；其中，

移动终端，用于响应于用户的播放操作，对源音频信号中的初始音频片段进行空间音频处理，以得到初始双耳信号并播放初始双耳信号，源音频信号为媒体文件；接收用户针对渲染效果选项的设置，渲染效果选项包括以下至少一种：声像位置选项、距离感选项或空间感选项；根据设置，对源音频信号中初始音频片段之后的音频片段继续进行空间音频处理，以得到目标双耳信号；将目标双耳信号发送至耳机；

耳机，用于播放目标双耳信号。

根据第三方面，耳机，还用于采集用户的头部运动信息，根据头部运动信息确定用户的头部位置信息；以及将头部位置信息发送至移动终端；

移动终端，具体用于根据设置和头部位置信息，对源音频信号中初始音频片段之后的音频片段继续进行空间音频处理，以得到目标双耳信号。

示例性的，第三方面的移动终端可以用于执行上述第一方面及第一方面的任意一种实现方式中的音频处理方法。

示例性的，第三方面的移动终端可以用于执行上述第二方面及第二方面的任意一种实现方式中的音频处理方法，本申请对此不作限制。

第四方面，本申请实施例提供一种移动终端，用于执行上述第一方面及第一方面的任意一种实现方式中的音频处理方法。

第四方面以及第四方面的任意一种实现方式分别与第一方面以及第一方面的任意一种实现方式相对应。第四方面以及第四方面的任意一种实现方式所对应的技术效果可参见上述第一方面以及第一方面的任意一种实现方式所对应的技术效果，此处不再赘述。

第五方面，本申请实施例提供一种移动终端，用于执行上述第二方面及第二方面的任意一种实现方式中的音频处理方法。

第五方面以及第五方面的任意一种实现方式分别与第二方面以及第二方面的任意一种实现方式相对应。第五方面以及第五方面的任意一种实现方式所对应的技术效果可参见上述第二方面以及第二方面的任意一种实现方式所对应的技术效果，此处不再赘述。

第六方面，本申请实施例提供一种耳机，用于执行上述第一方面及第一方面的任意一种实现方式中的音频处理方法。

第六方面以及第六方面的任意一种实现方式分别与第一方面以及第一方面的任意一种实现方式相对应。第六方面以及第六方面的任意一种实现方式所对应的技术效果可参见上述第一方面以及第一方面的任意一种实现方式所对应的技术效果，此处不再赘述。

第七方面，本申请实施例提供一种耳机，用于执行上述第二方面及第二方面的任意一种实现方式中的音频处理方法。

第七方面以及第七方面的任意一种实现方式分别与第二方面以及第二方面的任意一种实现方式相对应。第七方面以及第七方面的任意一种实现方式所对应的技术效果可参见上述第二方面以及第二方面的任意一种实现方式所对应的技术效果，此处不再赘述。

第八方面，本申请实施例提供一种电子设备，包括：存储器和处理器，存储器与处理器耦合；存储器存储有程序指令，当程序指令由处理器执行时，使得电子设备执行第一方面或第一方面的任意可能的实现方式中的音频处理方法。

第八方面以及第八方面的任意一种实现方式分别与第一方面以及第一方面的任意一种实现方式相对应。第八方面以及第八方面的任意一种实现方式所对应的技术效果可参见上述第一方面以及第一方面的任意一种实现方式所对应的技术效果，此处不再赘述。

第九方面，本申请实施例提供一种电子设备，包括：存储器和处理器，存储器与处理器耦合；存储器存储有程序指令，当程序指令由处理器执行时，使得电子设备执行第二方面或第二方面的任意可能的实现方式中的音频处理方法。

第九方面以及第九方面的任意一种实现方式分别与第二方面以及第二方面的任意一种实现方式相对应。第九方面以及第九方面的任意一种实现方式所对应的技术效果可参见上述第二方面以及第二方面的任意一种实现方式所对应的技术效果，此处不再赘述。

第十方面，本申请实施例提供一种芯片，包括一个或多个接口电路和一个或多个处理器；接口电路用于从电子设备的存储器接收信号，并向处理器发送信号，信号包括存储器中存储的计算机指令；当处理器执行计算机指令时，使得电子设备执行第一方面或第一方面的任意可能的实现方式中的音频处理方法。

第十方面以及第十方面的任意一种实现方式分别与第一方面以及第一方面的任意一种实现方式相对应。第十方面以及第十方面的任意一种实现方式所对应的技术效果可参见上述第一方面以及第一方面的任意一种实现方式所对应的技术效果，此处不再赘述。

第十一方面，本申请实施例提供一种芯片，包括一个或多个接口电路和一个或多个处理器；接口电路用于从电子设备的存储器接收信号，并向处理器发送信号，信号包括存储器中存储的计算机指令；当处理器执行计算机指令时，使得电子设备执行第二方面或第二方面的任意可能的实现方式中的音频处理方法。

第十一方面以及第十一方面的任意一种实现方式分别与第二方面以及第二方面的任意一种实现方式相对应。第十一方面以及第十一方面的任意一种实现方式所对应的技术效果可参见上述第二方面以及第二方面的任意一种实现方式所对应的技术效果，此处不再赘述。

第十二方面，本申请实施例提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，当计算机程序运行在计算机或处理器上时，使得计算机或处理器执行第一方面或第一方面的任意可能的实现方式中的音频处理方法。

第十二方面以及第十二方面的任意一种实现方式分别与第一方面以及第一方面的任意一种实现方式相对应。第十二方面以及第十二方面的任意一种实现方式所对应的技术效果可参见上述第一方面以及第一方面的任意一种实现方式所对应的技术效果，此处不再赘述。

第十三方面，本申请实施例提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，当计算机程序运行在计算机或处理器上时，使得计算机或处理器执行第二方面或第二方面的任意可能的实现方式中的音频处理方法。

第十三方面以及第十三方面的任意一种实现方式分别与第二方面以及第二方面的任意一种实现方式相对应。第十三方面以及第十三方面的任意一种实现方式所对应的技术效果可参见上述第二方面以及第二方面的任意一种实现方式所对应的技术效果，此处不再赘述。

第十四方面，本申请实施例提供一种计算机程序产品，计算机程序产品包括软件程序，当软件程序被计算机或处理器执行时，使得计算机或处理器执行第一方面或第一方面的任意可能的实现方式中的音频处理方法。

第十四方面以及第十四方面的任意一种实现方式分别与第一方面以及第一方面的任意一种实现方式相对应。第十四方面以及第十四方面的任意一种实现方式所对应的技术效果可参见上述第一方面以及第一方面的任意一种实现方式所对应的技术效果，此处不再赘述。

第十五方面，本申请实施例提供一种计算机程序产品，计算机程序产品包括软件程序，当软件程序被计算机或处理器执行时，使得计算机或处理器执行第二方面或第二方面的任意可能的实现方式中的音频处理方法。

第十五方面以及第十五方面的任意一种实现方式分别与第二方面以及第二方面的任意一种实现方式相对应。第十五方面以及第十五方面的任意一种实现方式所对应的技术效果可参见上述第二方面以及第二方面的任意一种实现方式所对应的技术效果，此处不再赘述。

附图说明

图1a为示例性示出的应用场景示意图；

图1b为示例性示出的应用场景示意图；

图2为示例性示出的音频处理过程示意图；

图3a为示例性示出的音频处理过程示意图；

图3b为示例性示出的音频处理过程示意图；

图4a为示例性示出的音频处理过程示意图；

图4b为示例性示出的音频处理过程示意图；

图5为示例性示出的处理过程的示意图；

图6为示例性示出的处理过程的示意图；

图7a为示例性示出的音频处理过程示意图；

图7b为示例性示出的音频处理过程示意图；

图8a为示例性示出的音频处理过程示意图；

图8b为示例性示出的音频处理过程示意图；

图9为示例性示出的音频处理系统示意图；

图10为示例性示出的装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。

本申请实施例的说明书和权利要求书中的术语“第一”和“第二”等是用于区别不同的对象，而不是用于描述对象的特定顺序。例如，第一目标对象和第二目标对象等是用于区别不同的目标对象，而不是用于描述目标对象的特定顺序。

在本申请实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

在本申请实施例的描述中，除非另有说明，“多个”的含义是指两个或两个以上。例如，多个处理单元是指两个或两个以上的处理单元；多个系统是指两个或两个以上的系统。

示例性的，本申请可以应用于使用耳机听移动终端中音频的场景。

示例性的，耳机可以是无线耳机(如TWS(True Wireless Stereo，真无线立体声)蓝牙耳机、头戴式蓝牙耳机、挂脖式蓝牙耳机等等)，也可以是有线耳机，本申请对此不作限制。对应的，移动终端与耳机之间的连接可以是无线连接，也可以是有线连接，本申请对此不做限制。

示例性的，移动终端可以是手机、平板电脑、智能手表、个人笔记本等等，本申请对此不作限制。

示例性的，使用耳机聆听的移动终端中音频可以是歌曲、视频中的音频部分、有声读物等等，本申请对此不作限制。

图1a为示例性示出的应用场景示意图。在图1a中移动终端为手机，耳机为无线耳机；图1a中示出的是使用耳机听手机中歌曲的场景。

参照图1a，示例性的，耳机与手机保持连接状态。当用户想要听歌曲A时，可以打开手机中的音频应用，在音频应用中查找到歌曲A并执行播放操作。此时，手机可以响应于播放操作，将歌曲A的音频信号发送给耳机，由耳机播放；这样，用户可以在耳机中听到歌曲A。

示例性的，本申请可以应用于各种VR(Virtual Reality，虚拟现实)场景如VR电影、VR游戏等，由VR设备播放音频或者由与VR设备连接的耳机播放音频。

示例性的，VR设备可以包括VR眼镜、VR头盔等等，本申请对此不作限制。

图1b为示例性示出的应用场景示意图。在图1b中VR设备为VR眼镜。图1b中示出的是，使用VR眼镜观看VR电影的场景。

参照图1b，示例性的，在VR眼镜中播放VR电影的过程中，可以在VR眼镜的镜片内侧显示VR电影画面，以及在VR眼镜上人耳附近的扬声器播放VR电影中的音频信号。

应该理解的是，VR眼镜可以与耳机连接；这样，在VR眼镜中播放VR电影的过程中，可以在VR眼镜的镜片内侧显示VR电影画面，以及将VR电影中的音频信号发送给耳机由耳机播放；本申请对此不作限制。

示例性的，本申请提出一种音频处理方法，能够对音频信号进行空间音频处理，得到用于耳机播放的双耳信号；使得用户佩戴耳机听音时，能够感受到声像位置、距离感以及空间感。

其中，声像位置可以是指用户主观感受到的声音相对人头中心的方位。距离感可以是指用户主观感受到的声音相对人头中心的距离。空间感可以是指用户主观感受到的声学环境空间的大小。

图2为示例性示出的音频处理过程示意图。

S201，获取待处理的源音频信号。

示例性的，可以获取待处理的音频信号，将待处理的音频信号称为源音频信号。

示例性的，源音频信号是媒体文件。源音频信号可以是歌曲对应的音频信号、有声读物对应的音频信号、视频包含的音频信号等等，本申请对此不作限制。

S202，对源音频信号分别进行直达声渲染、早期反射声渲染和晚期反射声渲染，以得到双耳信号。

示例性的，源音频信号可以经过直接路径传播到人耳，以及可以经过反射路径到达人耳。其中，源音频信号经过直接路径传播到人耳的部分声波，会影响用户对于声像位置的感知；源音频信号经过反射路径达到人耳的前一部分声波(例如，时间范围一般取人耳接收到源音频信号经过直接路径传播到人耳的部分声波以后，50ms或95ms内到达人耳的声波，主要由初次反射或二次反射产生)，会影响用户对于声像距离的感知；源音频信号经过反射达到人耳的后一部分声波(例如，时间范围一般取人耳接收到源音频信号经过直接路径传播到人耳的部分声波以后，50ms或95ms之后到达人耳的声波，主要由多次反射产生)，会影响用户对于声学环境空间的感知。因此，本申请可以通过对源音频信号分别进行直达声渲染、早期反射声渲染和晚期反射声渲染，来高精度的还原出声像位置、距离感和空间感，以达到更真实沉浸的双耳渲染效果。

示例性的，双耳信号可以包括用于左耳机播放的一路信号和用于右耳机播放的一路信号。

相对于现有技术仅对源音频信号进行直达声渲染，或者对源音频信号进行直达声与反射声分离后渲染，或者将源音频信号转换为虚拟扬声器信号后渲染等等而言，本申请还原出的声像位置、距离感和空间感的精度更高，进而能够达到更真实沉浸的双耳渲染效果。

图3a为示例性示出的音频处理过程示意图。在图3a的实施例中，示出了对源音频信号分别进行直达声渲染、早期反射声渲染和晚期反射声渲染的一种方式。

S301，获取待处理的源音频信号。

示例性的，S301可以参照S201的描述，在此不再赘述。

示例性的，源音频信号包括以下至少一种格式：多声道格式、多对象格式和Ambisonics格式(球谐环绕声场格式)。

示例性的，若源音频信号为多声道格式，可以假设源音频信号包括n1(n1为大于1的整数)个声道，则源音频信号可以表示为：

[ch₁(t,x₁,y₁,z₁),ch₂(t,x₂,y₂,z₂),...,ch_n1(t,x_n1,y_n1,z_n1)]

其中，t表示时间，(x,y,z)表示声源在笛卡尔坐标系中的位置。ch₁(t,x₁,y₁,z₁)表示第1声道的音频信号，ch₂(t,x₂,y₂,z₂)表示第2个声道的音频信号，......以此类推，ch_n1(t,x_n1,y_n1,z_n1)表示第n1个声道的音频信号。其中，每个声道对应的声源位置不变。

在球坐标系中，源音频信号可以表示为：

其中，表示声源在球坐标系中的位置，分别表示距离，水平角和俯仰角。为统一描述，后续均采用球坐标系表示。

示例性的，若源音频信号为多对象格式，可以假设源音频信号包括包含n2(n2为大于1的整数)个对象，源音频信号可以表示为：

其中，t表示时间，表示声源在球坐标系中的位置。/>表示第1对象的音频信号，/>表示第2个对象的音频信号，......以此类推，表示第n2对象的音频信号。其中，每个对象是都是运动的声源，每个对象的音频信号的位置随着时间发生变化；也就是说，每个对象的音频信号可以包括多组，一组音频信号对应一个位置。

示例性的，若源音频信号为Ambisonics格式，可以假设源音频信号包含n3(n3为大于1的正整数)个通道，源音频信号可以表示为：

其中，t表示时间，表示声源在球坐标系中的位置。/>表示第1通道的音频信号，/>表示第2个通道的音频信号，......以此类推，表示第n3个通道的音频数据。其中，假设Ambisonics为n阶，则每个通道的音频信号可以包括2ⁿ⁺¹组。

为了便于后续说明，将以上几种格式的源音频信号统一表示为：

其中，i表示源音频信号中当前处理的音频信号，表示音频信号中的第i个音频信号，/>为第i个音频信号的位置。

S302，对源音频信号进行直达声渲染，以得到第一双耳信号。

示例性的，可以预先建立直达声RIR(Room Impulse Response，房间脉冲响应)库。示例性的，可以预先在自由声场条件下(如消声室环境)采用人工头录音装置，分别采集声源位于自由声场条件中p1(p1为正整数)个位置的响应，可以得到p1个位置的直达声RIR(即HRIR(Head Related Impulse Response，头相关脉冲响应))。然后可以采用p1个位置的HRIR，组成直达声RIR库。

其中，直达声RIR库可以表示为：

其中，下标BIN表示HRIR区分左右耳，也就是说，每个位置的HRIR包括2组(即左耳的HRIR和右耳的HRIR)。表示第1个位置的直达声RIR，表示第2个位置的直达声RIR，......以此类推，表示第p1个位置的直达声RIR。

示例性的，直达声RIR可转为Ambisonics格式进行保存，可以表示为HRIR_BIN-AMB。

示例性的，可以采用直达声RIR与源音频信号进行卷积，来实现对源音频信号进行直达声渲染，以得到第一双耳信号。针对源音频信号的第i个音频信号，可以参照如下公式进行直达声渲染：

其中，上述公式中的“*”为卷积，为源音频信号的第i个音频信号进行直达声渲染后得到的音频信号，/>为直达声RIR库中位置与/>的位置对应的直达声RIR。

假设，源音频信号包括N(N为大于1的整数)个通道，则对源音频信号进行直达声渲染，以得到的第一双耳信号out₁(t)可以如下：

S303，对源音频信号进行早期反射声渲染，以得到第二双耳信号。

示例性的，可以预先建立早期反射声RIR库。示例性的，可以预先在声学环境中采用球形麦克风，分别采集声源位于声学环境中p2(p2为正整数)个位置的响应，可以得到p2个位置的RIR数据。然后分别确定p2个位置的RIR数据中声源到球形麦克风之间反射路径的前一部分脉冲响应(即早期反射部分，可以采用ER(Early Reflections，早期反射)表示)，可以得到p2个位置的早期反射声RIR(即HOA(High-OrderAmbisonics，高阶Ambisonics)RIR)。然后可以采用p2个位置的早期反射声RIR，组成早期反射声RIR库。

相对于现有技术需要经过多次采集才能完成采集各个方向的RIR录制，来制作早期反射声RIR库而言，本申请采用球形麦克风采集一次即完成各个方向的RIR的录制，能够降低制作早期反射声RIR库的工作量。

其中，早期反射声RIR库可以表示为：

其中，AMB表示ER使用Ambisonics格式进行保存，每个位置的HOA RIR可以包括2ⁿ⁺¹组。

其中，表示第1个位置的早期反射声RIR，/>表示第2个位置的早期反射声RIR，......以此类推，/>表示第p2个位置的早期反射声RIR。

示例性的，早期反射声RIR可转为BIN格式进行保存，计算方式如下：

其中，上述公式中的“*”为卷积。

示例性的，可以采用早期反射声RIR与源音频信号卷积，来实现对源音频信号进行早期反射声渲染，以得到第二双耳信号。针对源音频信号的第i个音频信号，可以参照如下公式进行早期反射声渲染：

其中，上述公式中的“*”为卷积。为源音频信号的第i个音频数据进行早期反射声渲染后得到的音频信号，/>为早期反射声RIR库中位置与的位置对应的早期反射声RIR。

假设，源音频信号包括N(N为大于1的整数)个通道，则对源音频信号进行早期反射声渲染，以得到的第二双耳信号out₂(t)可以如下：

S304，对源音频信号进行晚期反射声渲染，以得到第三双耳信号。

示例性的，可以预先建立晚期反射声RIR库。示例性的，可以预先在声学环境中采用球形麦克风，分别采集声源位于该声学环境中p3(p3为正整数)个位置的响应，可以得到p3个位置的RIR数据。然后分别确定p3个位置的RIR数据中声源到球形麦克风之间反射路径的后一部分脉冲响应(即晚期反射部分，可以采用LR(Late Reflections，晚期反射)表示))，可以得到p3个位置的晚期反射声RIR(即HOARIR)。然后可以采用p3个位置的晚期反射声RIR，组成晚期反射声RIR库。

相对于现有技术需要经过多次采集才能完成采集各个方向的RIR进行录制，来制作晚期反射声RIR库而言，本申请采用球形麦克风采集一次即完成各个方向的RIR的录制，能够降低制作晚期反射声RIR库的工作量。

其中，RIR晚期声数据库可以表示为：

其中，AMB表示LR使用Ambisonics格式进行保存，每个位置的晚期反射声RIR可以包括2ⁿ⁺¹组。

其中，表示第1个位置的晚期反射声RIR，/>表示第2个位置的晚期反射声RIR，......以此类推，/>表示第p3个位置的晚期反射声RIR。

示例性的，晚期反射声RIR可转为BIN格式进行保存，计算方式如下：

其中，上述公式中的“*”为卷积。

示例性的，可以采用晚期反射声RIR与源音频信号卷积，来实现对源音频信号进行晚期反射声渲染，以得到第三双耳信号。针对源音频信号的第i个音频信号，可以参照如下公式进行晚期反射声渲染：

其中，上述公式中的“*”为卷积。为源音频信号的第i个音频数据进行晚期反射声渲染后得到的数据，/>为早期反射声RIR库中位置与的位置对应的音频数据。

假设，源音频信号包括N(N为大于1的整数)个通道，则对源音频信号进行晚期反射声渲染，以得到的第三双耳信号out₃(t)可以如下：

需要说明的是，p1、p2和p3可以相等，也可以不等，本申请对此不作限制。

S305，基于第一双耳信号、第二双耳信号和第三双耳信号，以确定双耳信号。

示例性的，可以对第一双耳信号、第二双耳信号和第三双耳信号进行混音处理，以得到双耳信号；可以参照如下公式进行混音处理：

out_B(t)＝out₁(t)+out₂(t)+out₃(t)

其中，out_B(t)为双耳信号。

需要说明的是，本申请不限制S302、S303和S304的执行顺序，这三个步骤可以同步执行。

图3b为示例性示出的音频处理过程示意图。在图3a的基础上，在得到第一双耳信号、第二双耳信号和第三双耳信号，还可以对第一双耳信号、第二双耳信号和第三双耳信号进行音效处理，以对音频进行修饰。

参照图3b，示例性的，S306，依据预设的音效参数1对第一双耳信号进行音效处理，以得到音频信号1。

示例性的，S306可以在S302之后且在S305之前执行，即在得到第一双耳信号后，可以对第一双耳信号进行音效处理，以得到音频信号1。示例性的，可以根据预设的音效参数1(即直达声音效参数，可以是指用于对直达声部分进行音效处理的参数)，对第一双耳信号进行音效处理，以得到音频信号1。

示例性的，可以根据预设的音效参数1，生成一组滤波器，可以采用AudioEffects_1-BIN(t)表示；然后采用AudioEffects_1-BIN(t)对第一双耳信号进行滤波，来实现对第一双耳信号的音效处理，以得到音频信号1(可以采用out_1-BIN(t)表示)，可以参照如下公式：

out_1-BIN(t)＝out₁(t)*AudioEffects_1-BIN(t)

其中，上述公式中的“*”表示卷积。

参照图3b，示例性的，S307，依据预设的音效参数2对第二双耳信号进行音效处理，以得到音频信号2。

示例性的，S307在S303之后且在S305之前执行，即在得到第二双耳信号后，可以对第二双耳信号进行音效处理，以得到音频信号2。示例性的，可以根据预设的音效参数2(也就是早期反射声音效参数，可以是指用于对早期反射声部分进行音效处理的参数)，对第二双耳信号进行音效处理，以得到音频信号2。

示例性的，可以根据预设的音效参数2，生成一组滤波器，可以采用AudioEffects_2-BIN(t)表示；然后采用AudioEffects_2-BIN(t)对第二双耳信号进行滤波，来实现对第二双耳信号的音效处理，以得到音频信号2(可以采用out_2-BIN(t)表示)，可以参照如下公式：

out_2-BIN(t)＝out₂(t)*AudioEffects_2-BIN(t)

其中，上述公式中的“*”表示卷积。

参照图3b，示例性的，S308，依据预设的音效参数3对第三双耳信号进行音效处理，以得到音频信号3。

示例性的，S308在S304之后且在S305之前执行，即在得到第三双耳信号后，可以对第三双耳信号进行音效处理，以得到音频信号3。示例性的，可以根据预设的音效参数3(也就是晚期反射声音效参数，可以是指用于对晚期反射声部分进行音效处理的参数)，对第三双耳信号进行音效处理，以得到音频信号3。

示例性的，可以根据预设的音效参数3，生成一组滤波器，可以采用AudioEffects_3-BIN(t)表示；然后采用AudioEffects_3-BIN(t)对第三双耳信号进行滤波，来实现对第三双耳信号的音效处理，以得到音频信号3(可以采用out_3-BIN(t)表示)，可以参照如下公式：

out_3-BIN(t)＝out₃(t)*AudioEffects_3-BIN(t)

其中，上述公式中的“*”表示卷积。

参照图3b，示例性的，S305可以包括S305a和S305b，其中：

S305a，对音频信号1、音频信号2和音频信号3进行混音处理，以得到音频信号4。

S305b，依据预设的音效参数4对音频信号4进行音效处理，以得到双耳信号。

示例性的，可以根据预设的音效参数4(也就是第一混合音效参数，可以是指用于对直达声部分、早期反射声部分和晚期反射声部分均进行音效处理的参数)，对音频信号4进行音效处理，得到双耳信号；具体可以参照上述描述，在此不再赘述。

需要说明的是，上述得到的第一双耳信号、第二双耳信号、第三双耳信号、音频信号1、音频信号2、音频信号3和音频信号4，都是包括左右双耳的音频信号。

图4a为示例性示出的音频处理过程示意图。在图4a的实施例中，示出了对源音频信号分别进行直达声渲染、早期反射声渲染和晚期反射声渲染的另一种方式。

S401，获取待处理的源音频信号。

示例性的，S401可以参照上述S301的描述，在此不再赘述。

S402，对源音频信号进行早期反射声渲染，以得到第二双耳信号。

示例性的，S402可以参照上述S303的描述，在此不再赘述。示例性的，第二双耳信号采用out₂(t)表示。

S403，对源音频信号进行晚期反射声渲染，以得到第三双耳信号。

示例性的，S403可以参照上述S304的描述，在此不再赘述。示例性的，第三双耳信号采用out₃(t)表示。

S404，对第二双耳信号和第三双耳信号进行混音处理，以得到第四双耳信号。

示例性的，可以参照如下公式，对第二双耳信号和第三双耳信号进行混音处理，以得到第四双耳信号：

out₄(t)＝out₂(t)+out₃(t)

其中，out₄(t)为第四双耳信号。

S405，对第四双耳信号进行直达声渲染，以得到第五双耳信号。

示例性的，S405可以参照S302的描述，在此不再赘述。

S406，基于第五双耳信号，确定双耳信号。

一种可能的方式中，将第五双耳信号，作为双耳信号。

图4b为示例性示出的音频处理过程示意图。在图4a的基础上，在得到第二双耳信号、第三双耳信号、第四双耳信号和第五双耳信号，对第二双耳信号、第三双耳信号、第四双耳信号和第五双耳信号进行音效处理，以对音频进行修饰。

参照图4b，示例性的，S407，依据预设的音效参数2对第二双耳信号进行音效处理，以得到音频信号2。

示例性的，S407在S402之后且在S404之前执行，即在得到第二双耳信号后，可以对第二双耳信号进行音效处理，以得到音频信号2。具体可以参照上述S307的描述，在此不再赘述。

参照图4b，示例性的，S408，依据预设的音效参数3对第三双耳信号进行音效处理，以得到音频信号3。

示例性的，S408在S403之后且在S404之前执行，即在得到第三双耳信号后，可以对第三双耳信号进行音效处理，以得到音频信号3。具体可以参照上述S308的描述，在此不再赘述。

这样，S404可以包括：对音频信号2和音频信号3进行混音处理，以得到第四双耳信号。

参照图4b，示例性的，S409，依据预设的音效参数5对第四双耳信号进行音效处理，以得到音频信号5。

示例性的，S409在S404之后且在S405之前执行，即在得到第四双耳信号后，可以对第四双耳信号进行音效处理，以得到音频信号5。示例性的，可以根据预设的音效参数5(也就是第二混合音效参数，可以是指用于对早期反射声部分和晚期反射声部分进行音效处理的参数)，对第四双耳信号进行音效处理，以得到音频信号5；具体可以参照上述描述，在此不再赘述。此时，S405可以包括：对音频信号5进行直达声渲染，以得到第五双耳信号。

参照图4b，示例性的，上述S406可以包含S406_X；其中，S406_X，依据预设的音效参数1对第五双耳信号进行音效处理，以得到双耳信号。具体可以参照上述描述，在此不再赘述。

需要说明的是，上述得到的第二双耳信号、第三双耳信号、第四双耳信号、第五双耳信号、音频信号2、音频信号3和音频信号5，都是包括左右双耳的音频信号。

在上述实施例的基础上，本申请提出一种音频处理方法，可以支持“边听边调”，即在用户针对源音频信号执行播放操作后，可以响应于用户的播放操作，先按照系统针对渲染效果选项的设置和/或用户针对渲染效果选项的历史设置，对源音频信号中的初始音频片段进行空间音频处理，得到初始双耳信号并播放。在播放初始双耳信号的过程中(即用户在收听初始双耳信号的过程中)，可以支持用户设置空间音频效果；然后根据用户针对空间音频效果的设置，对源音频信号中初始音频片段之后的音频片段继续进行空间音频处理。这样，能够在播放音频信号过程中，根据用户针对渲染效果的设置，来不断的调整源音频信号对应的双耳信号的渲染效果；还能够满足用户针对空间音频效果个性化需求。

示例性的，空间音频效果可以包括渲染效果，渲染效果可以包括声像位置、距离感以及空间感等等，本申请对此不作限制。

示例性的，本申请可以提供用于针对空间音频效果进行设置的应用程序(或小程序或网页或工具栏等等)。

图5为示例性示出的处理过程的示意图。其中，图5(1)为示例性示出的界面的示意图。需要说明的是，图5(1)中空间音频效果设置界面51，可以是由系统进行设置的界面，也可以是由用户进行设置的界面，本申请对此不作限制。本申请以用户在空间音频效果设置界面51进行设置，来实现空间音频效果调整为例进行说明。

参照图5(1)，示例性的，空间音频效果设置界面51可以包括一个或多个设置区域，包括但不限于：渲染效果设置区域52等等，本申请对此不作限制。

示例性的，可以根据不同的渲染效果，在渲染效果设置区域52设置多个渲染效果选项。示例性的，渲染效果可以包括多种，如声像位置、距离感和空间感等等；当然还可以包括其他渲染效果，本申请对此不作限制。参照图5(1)，示例性的，渲染效果设置区域52可以包括但不限于：声像位置选项521，距离感选项522和空间感选项523等等，当然还可以包括其他渲染效果选项，本申请对此不作限制。本申请以渲染效果设置区域52包括：声像位置选项521，距离感选项522和空间感选项523为例进行示例性说明。

参照图5(1)，示例性的，声像位置选项521，距离感选项522和空间感选项523可以是滑块控件，滑块控件可以包括滑块。

示例性的，用户可以针对声像位置选项521的滑块进行操作，来升高或降低声像位置。示例性的，当用户针对声像位置选项521的滑块执行上滑操作时，可以升高声像位置。当用户针对声像位置选项521的滑块执行下滑操作时，可以降低声像位置。

示例性的，用户可以针对距离感选项522的滑块进行操作，来增大或缩短距离感。示例性的，当用户针对距离感选项522的滑块执行上滑操作时，则可以增大声像与用户的距离；当用户针对距离感选项522的滑块执行下滑操作时，则可以缩短声像与用户的距离。

示例性的，用户可以针对空间感选项523的滑块进行操作，来增大或缩小空间感。示例性的，当用户针对空间感选项523的滑块执行上滑操作时，则可以增加音频的空间感；当用户针对空间感选项523的滑块执行下滑操作时，则可以缩小音频的空间感。

应该理解的是，图5(1)仅是本申请的一个示例，声像位置选项521，距离感选项522和空间感选项523可以是其他类型的控件，例如旋钮控件(旋钮控件包括旋钮)，用户可以转动声像位置选项521的旋钮，来升高或降低声像位置；转动距离感选项522的旋钮，来增大或缩短距离感；以及转动空间感选项523的旋钮，来增大或缩小空间感。本申请对声像位置选项521，距离感选项522和空间感选项523的显示形式不作限制。

以下在图5(1)的基础上，对根据用户针对渲染效果选项的设置操作，来进行空间音频处理的过程进行示例性说明。

图5(2)为示例性示出的音频处理过程示意图。

S501，响应于用户的播放操作，对源音频信号中的初始音频片段进行空间音频处理，以得到初始双耳信号并播放初始双耳信号，源音频信号为媒体文件。

再次参照图1a，示例性的，当用户想要听歌曲A时，可以打开手机中的音频应用，在音频应用中查找到歌曲A并执行播放操作。此时，可以响应于用户的播放操作，对歌曲A对应的音频信号(即源音频信号)中的初始音频片段进行空间音频处理，进而可以得到初始双耳信号并播放初始双耳信号。

示例性的，可以按照预设方式，将源音频信号划分为多个音频片段。其中，预设方式可以按照需求设置，例如，将源音频信号划分为时长相同的多个音频片段；又例如，将源音频信号划分为预设数量(可以按照需求设置)的音频片段；等等。然后可以将源音频信号包括的多个音频片段中的前X1(X1为正整数)个音频片段，确定为初始音频片段。之后，可以按照上述实施例的描述，对源音频信号中的前X1个音频片段进行空间音频处理，以得到初始双耳信号。

一种可能的方式中，可以按照系统针对渲染效果选项的设置，对源音频信号中的前X1个音频片段进行空间音频处理，以得到初始双耳信号。其中，系统可以针对各渲染效果选项预先进行设置，在接收到用户的播放操作后，可以根据系统的设置，对源音频信号中的前X1个音频片段进行空间音频处理，以得到初始双耳信号；具体可以参照上文中的描述，在此不再赘述。

一种可能的方式中，可以按照用户针对渲染效果选项的历史(如上一次)设置，对源音频信号中的前X1个音频片段进行空间音频处理，以得到初始双耳信号。其中，在接收到用户的播放操作后，可以根据用户针对渲染效果选项的上一次设置，对源音频信号中的前X1个音频片段进行空间音频处理，以得到初始双耳信号；具体可以参照上文中的描述，在此不再赘述。

应该理解的是，当用户上一次仅设置声像位置选项、距离感选项或空间感选项中的部分选项时，可以根据用户针对部分渲染效果选项的设置和系统针对另一部分渲染效果选项的设置，对源音频信号中前X1个音频片段进行空间音频处理，以得到初始双耳信号。

S502，接收用户针对渲染效果选项的设置，渲染效果选项包括以下至少一种：声像位置选项、距离感选项或空间感选项。

示例性的，在播放初始双耳信号的过程中，用户可以听到初始双耳信号；当用户确定渲染效果不满足自身需求时，可以针对渲染效果选项进行设置，即进入图5(1)中的空间音频效果设置界面51，针对渲染效果选项执行设置操作，以按照自身需求设置渲染效果。

示例性的，在进入空间音频效果设置界面51后，用户可以针对渲染效果设置区域52中至少一个渲染效果选项执行设置操作；例如，可以针对声像位置选项521、距离感选项522和空间感选项523中的至少一个选项执行设置操作，来设置源音频信号播放时的声像位置、距离感和空间感中的任一项渲染效果。

应该理解的是，当用户确定渲染效果满足自身需求时，可以无需针对渲染效果选项进行设置；此时，若在播放到初始音频片段的最后一个音频片段时，没有接收到用户针对渲染效果选项的设置，则可以按照系统针对渲染效果选项的设置和/或用户针对渲染效果选项的历史设置，对源音频信号中初始音频片段之后的X2(X2为正整数)个音频片段，继续进行空间音频处理，以得到新的初始双耳信号。其中，X2可以按照需求设置，本申请对此不作限制。这X2个音频片段可以是源音频信号中前X1个音频片段之后连续的X2个音频片段，且这X2个音频片段的第一个音频片段与前X1个音频片段的最后一个音频片段相邻。

S503，根据设置，对源音频信号中初始音频片段之后的音频片段继续进行空间音频处理，以得到目标双耳信号。

示例性的，待接收到用户针对渲染效果选项的设置操作后，可以根据用户针对渲染效果选项的设置操作，对对应的渲染效果参数进行调节；然后根据调节后的渲染效果参数，对源音频信号中初始音频片段之后的音频片段继续进行空间音频处理，以得到用于耳机播放的目标双耳信号。具体空间音频处理过程在后续进行说明。

示例性的，当在接收用户针对渲染效果选项的设置之前，仅对源音频信号中前X1个音频片段进行了空间音频处理，则可以按照用户针对渲染效果选项的的本次设置，对源音频信号中前X1个音频片段之后的X3(X3为正整数)个音频片段，继续进行空间音频处理，以得到用于耳机播放的目标双耳信号。其中，X3可以按照需求设置，本申请对此不作限制。这X3个音频片段可以是源音频信号中前X1个音频片段之后连续的X3个音频片段，且这X3个音频片段的第一个音频片段与前X1个音频片段的最后一个音频片段相邻。

示例性的，当在接收用户针对渲染效果选项的设置之前，对源音频信号中前X1+X2个音频片段进行了空间音频处理，则可以按照用户针对渲染效果选项的本次设置，对源音频信号中前X1+X2个音频片段之后的X3(X3为正整数)个音频片段，继续进行空间音频处理，以得到用于耳机播放的目标双耳信号。其中，这X3个音频片段可以是源音频信号中前X1+X2个音频片段之后连续的X3个音频片段，且这X3个音频片段的第一个音频片段与X2个音频片段的最后一个音频片段相邻。

应该理解的是，在得到目标双耳信号后可以播放目标双耳信号，在播放目标双耳信号的过程中(即用户在收听目标双耳信号的过程中)，用户确定渲染效果不满足自身需求时，可以再次针对渲染效果选项进行设置；此时，可以根据用户再次针对渲染效果选项的设置，对源音频信号中上次进行空间音频渲染的音频片段之后的音频片段继续进行空间音频处理，得到新的目标双耳信号；以此类推。

这样，能够在播放音频信号过程中，根据针对渲染效果的设置，来不断的调整源音频信号对应的双耳信号的渲染效果。

此外，还可以按照用户个性化空间音频效果需求，对源音频信号进行个性化空间音频处理，得到用于耳机播放的目标双耳信号；进而能够满足用户针对空间音频效果个性化需求。

图6为示例性示出的处理过程示意图。其中，图6(1)为示例性示出的界面的示意图。

示例性的，空间音频效果还可以包括空间场景。示例性的，不同用户针对播放音频信号的空间场景的需求不同，例如，部分用户偏好电影院这种空间场景，部分用户偏好录音棚这种空间场景，部分用户偏好KTV这种空间场景等等。进而，为了满足用户针对空间场景的需求，可以在图5(1)的空间音频效果设置界面51中增加空间场景选择区域53，如图6(1)所示。

示例性的，可以根据不同的空间场景，在空间场景选择区域53设置多个场景选项。示例性的，空间场景可以包括多种，如电影院、音乐厅、录音棚以及KTV等等，当然还可以包括其他空间场景，本申请对此不作限制。参照图6(1)，示例性的，空间场景选择区域53可以包括但不限于：电影院选项531、音乐厅选项532、录音棚选项533以及KTV选项534等等，当然还可以包括其他场景选项本申请对此不作限制。

示例性的，当用户想要选择的空间场景为电影院时，可以选中空间场景设置区域53中的电影院选项531。当用户想要选择的空间场景为音乐厅时，可以选中空间场景设置区域53中的音乐厅选项532。当用户想要选择的空间场景为录音棚时，可以选中空间场景设置区域53中的录音棚选项533。当用户想要选择的空间场景为KTV时，可以选中空间场景设置区域53中的KTV选项534。

参照图6(1)，示例性的，渲染效果设置区域52中的渲染效果选项，与空间场景选择区域53中的场景选项是关联的；不同的场景选项，对应的渲染效果选项不同。

例如，当用户在空间场景选择区域53中，选取电影院选项531后，渲染效果设置区域52可以显示与电影院选项531对应的渲染效果选项。当用户在空间场景选择区域53中，选取音乐厅选项532后，渲染效果设置区域52可以显示与音乐厅选项532对应的渲染效果选项。当用户在空间场景选择区域53中，选取录音棚选项533后，渲染效果设置区域52可以显示与录音棚选项533对应的渲染效果选项。当用户在空间场景选择区域53中，选取KTV选项534后，渲染效果设置区域52可以显示与KTV选项534对应的渲染效果选项。

示例性的，不同的场景选项对应的渲染效果选项不同可以是指：不同的场景选项，渲染效果选项对应渲染效果参数的默认参数值不同。

示例性的，针对不同场景选项，显示的渲染效果选项的滑块(或者旋钮)的位置可以相同，也可以不同，本申请对此不作限制。

以下在图6(1)的基础上，对根据用户针对渲染效果选项的设置操作，来进行空间音频处理的过程进行示例性说明。

图6(2)为示例性示出的音频处理过程示意图。

S601，响应于用户的播放操作，对源音频信号中的初始音频片段进行空间音频处理，以得到初始双耳信号并播放初始双耳信号，源音频信号为媒体文件。

S602，响应于用户针对目标场景选项的选取操作，显示目标场景选项对应的渲染效果选项。

S603，接收用户针对渲染效果选项的设置操作，渲染效果选项包括以下至少一种：声像位置选项、距离感选项或空间感选项。

示例性的，当用户需要设置渲染效果时，可以进入图6(1)中的空间音频效果设置界面51，然后从空间场景选择区域53中，选取所需的目标场景选项。这样，终端设备可以响应于用户针对目标场景选项的选取操作，在渲染效果设置区域52显示目标场景选项对应的渲染效果选项。接着，用户可以针对渲染效果设置区域52中至少一个渲染效果选项执行设置操作，具体可以按照上述S501的描述，在此不再赘述。

S604，根据设置，对源音频信号中初始音频片段之后的音频片段继续进行空间音频处理，以得到目标双耳信号。

一种可能的方式中，待接收到用户针对渲染效果选项的设置操作后，可以根据用户针对渲染效果选项的设置操作对渲染效果参数进行调节；然后根据调节后的渲染效果参数，对源音频信号中初始音频片段之后的音频片段进行空间音频处理，以得到用于耳机播放的目标双耳信号；具体在后续进行说明。

一种可能的方式中，待接收到用户针对渲染效果选项的设置操作后，可以根据用户针对渲染效果选项的设置操作对渲染效果参数进行调节；接着，根据目标场景选项更新场景参数；然后，根据调节后的渲染效果参数和更新后的场景参数，对源音频信号中初始音频片段之后的音频片段进行空间音频处理，以得到用于耳机播放的目标双耳信号；具体在后续进行说明。

以下在图6的基础上，以用户针对声像位置选项521，距离感选项522和空间感选项523均执行了设置操作为例进行说明。

示例性的，可以参照上述图3a实施例描述的方法，可以通过对源音频信号中初始音频片段之后的音频片段分别进行直达声渲染、早期反射声渲染和晚期反射声渲染，来实现S603中的空间音频处理。即，根据设置，对源音频信号中初始音频片段之后的音频片段分别进行直达声渲染、早期反射声渲染和晚期反射声渲染，以得到目标双耳信号。这样，在任一类型的空间场景下，都能够还原出高精度的声像位置、音频的空间感和距离感，进而达到更真实沉浸的双耳渲染效果。

以下对根据设置，对源音频信号中初始音频片段之后的音频片段分别进行直达声渲染、早期反射声渲染和晚期反射声渲染的过程进行说明。

图7a为示例性示出的音频处理过程示意图。在图7a的实施例中，描述了对源音频信号中初始音频片段之后的音频片段分别进行直达声渲染、早期反射声渲染和晚期反射声渲染的一种方式。

S701，响应于用户的播放操作，对源音频信号中的初始音频片段进行空间音频处理，以得到初始双耳信号并播放初始双耳信号，源音频信号为媒体文件。

S702，响应于用户针对目标场景选项的选取操作，显示目标场景选项对应的渲染效果选项。

S703，接收用户针对渲染效果选项的设置操作，渲染效果选项包括：声像位置选项、距离感选项和空间感选项。

示例性的，S701～S703可以参照S601～S603的描述，在此不再赘述。

S704，根据针对声像位置选项的设置操作，调节声像位置参数。

示例性的，可以将与声像位置选项对应的渲染效果参数，称为声像位置参数。

参照图6(1)，示例性的，可以根据用户针对声像位置选项521的设置操作，确定声像位置选项521的滑块位置，然后根据声像位置选项521的滑块位置，对声像位置参数进行调节。

需要说明的是，对声像位置参数进行调节是指，对声像位置参数的参数值进行调节。

示例性的，根据声像位置参数对源音频信号中初始音频片段之后的音频片段进行直达声渲染，以得到第一双耳信号。可以按照如下S705～S707：

S705，从预设的直达声RIR库中选取候选直达声RIR，以及根据声像位置参数确定声像位置修正因子。

S706，根据声像位置修正因子对候选直达声RIR进行修正，以得到目标直达声RIR。

S707，根据目标直达声RIR对源音频信号中初始音频片段之后的音频片段进行直达声渲染，以得到第一双耳信号。

示例性的，可以预先建立直达声RIR库。示例性的，可以预先在自由声场条件下(如消声室环境)采用一种头部类型的人工头录音装置，分别采集声源位于自由声场条件中p1(p1为正整数)位置时的响应，可以得到p1个位置的直达声RIR(即HRIR)。然后可以采用p1个位置的HRIR，组成一种头部类型对应的直达声RIR(为了便于描述，将一种头部类型对应的直达声RIR，称为一个第一集合)。第一集合可以表示为：

其中，一个第一集合可以包括p1个位置的预设直达声RIR。

按照上述方式，针对m1种头部类型，可以录制得到m1个第一集合，m1为正整数。然后采用这m1个第一集合，组成直达声RIR库；直达声RIR库可以表示为：

示例性的，头部类型可以包括但不限于：女性头部类型、男性头部类型、老年人头部类型、中年人头部类型、青年人头部类型、儿童头部类型、欧洲人种头部类型、亚洲人种头部类型等等，本申请对此不作限制。

示例性的，可以从直达声RIR库的m1个第一集合中，根据用户的头部类型，选取第一目标集合。

一种可能的方式中，可以根据用户在登录系统账号时输入的性别、年龄等信息，确定用户的头部类型。一种可能的方式中，图6(1)中空间音频效果设置界面51还可以包括头部类型设置区域，头部类型设置区域包括多个头部类型选项，如女性头部类型选项、男性头部类型选项、老年人头部类型选项、中年人头部类型选项、青年人头部类型选项、儿童头部类型选项、欧洲人种头部类型选项、亚洲人种头部类型选项等等。用户可以根据自身情况，选取对应的头部类型选项；这样，可以根据用户选中的头部类型选项，确定用户的头部类型。一种可能的方式中，不同空间场景对应的头部类型不同，可以根据空间场景参数，确定用户的头部类型。一种可能的方式中，可以提示用户使用手机拍摄用户耳廓的图像；然后可以根据用户拍摄的耳廓的图像，从预设的多种头部类型中查找与用户最相似的头部类型，确定为用户的头部类型。

示例性的，当无法获取到用户头部位置信息时，可以根据源音频信号中当前处理的音频信号(即源音频信号中初始音频片段之后的音频片段)的位置信息，以及第一目标集合中p1个位置的预设直达声RIR的位置信息，从第一目标集合中选取候选直达声RIR。示例性的，可以从第一目标集合中选取位置信息与源音频信号中当前处理的音频信号(即源音频信号中初始音频片段之后的音频片段)的位置信息距离最近的预设直达声RIR，作为候选直达声RIR。

示例性的，当可以获取到用户头部位置信息时，可以根据用户的头部位置信息、源音频信号中当前处理的音频信号(即源音频信号中初始音频片段之后的音频片段)的位置信息、以及第一目标集合中p1个位置的预设直达声RIR的位置信息，从第一目标集合中选取候选直达声RIR。示例性的，可以确定源音频信号中当前处理的音频信号(即源音频信号中初始音频片段之后的音频片段)的位置信息和用户的头部位置信息的偏移值，然后可以从第一目标集合中选取位置信息与偏移值距离最近的预设直达声RIR，作为候选直达声RIR。这样，能够实现头动跟踪渲染。

示例性的，可以根据调节后的声像位置参数的参数值，确定声像位置修正因子。示例性的，可以预先建立声像位置参数的参数值与对应声像位置修正因子之间的关系，然后根据声像位置参数调节后的参数值查找该关系，确定对应的声像位置修正因子。接着，采用声像位置修正因子对候选直达声RIR进行修正，可以得到目标直达声RIR；可以参照如下公式：

HRIR'＝α·HRIR

其中，HRIR'为目标直达声RIR，α为声像位置修正因子，HRIR为候选直达声RIR。

示例性的，α可以用一组滤波器表示，通过对候选直达声RIR中高频部分进行衰减，可以降低声像位置。

进而，可以通过声像位置修正因子对候选直达声RIR的修正，来实现对声像位置的调节，可以得到目标直达声RIR。

示例性的，可以采用目标直达声RIR与源音频信号中初始音频片段之后的音频片段进行卷积，来实现对源音频信号中初始音频片段之后的音频片段进行直达声渲染，以得到第一双耳信号。针对源音频信号的第i个音频信号中初始音频片段之后的音频片段可以参照如下公式进行直达声渲染：

其中，上述公式中的“*”表示卷积。为源音频信号的第i个音频数据中初始音频片段之后的音频片段进行直达声渲染后得到的音频信号，/>为目标直达声RIR。/>

假设，源音频信号包括N(N为大于1的整数)个通道，则对源音频信号中初始音频片段之后的音频片段对应的部分进行直达声渲染，得到的第一双耳信号out₁(t)可以如下：

S708，根据针对距离感选项的设置操作，调节距离感参数。

示例性的，可以将与距离感选项对应的渲染效果参数，称为距离感参数。

参照图6(1)，示例性的，可以根据用户针对距离感选项522的设置操作，确定距离感选项522的滑块位置，然后根据距离感选项522的滑块位置，对距离感参数进行调节。

需要说明的是，对距离感参数进行调节是指对距离感参数的参数值进行调节。

示例性的，根据距离感参数对源音频信号中初始音频片段之后的音频片段进行早期反射声渲染，以得到第二双耳信号；可以参照如下S709～S711：

S709，从预设的早期反射声RIR库中选取候选早期反射声RIR，以及根据距离感参数确定距离感修正因子。

S710，根据距离感修正因子对候选早期反射声RIR进行修正，以得到目标早期反射声RIR。

S711，根据目标早期反射声RIR对源音频信号中初始音频片段之后的音频片段进行早期反射声渲染，以得到第二双耳信号。

示例性的，可以预先建立早期反射声RIR库。示例性的，可以预先在一种空间场景对应的声学环境中采用球形麦克风，分别采集声源位于该空间场景对应的声学环境中p2(p2为正整数)位置的响应，可以得到p2个位置的RIR。然后分别确定p2个位置的RIR中声源至球形麦克风之间反射路径的前一部分脉冲响应，可以得到p2个位置的早期反射声RIR(即HOARIR)。然后可以采用p2个位置的早期反射声RIR，组成一种空间场景对应的早期反射声RIR(为了便于描述，将一种空间场景对应的早期反射声RIR，称为一个第二集合)。第二集合可以表示为：

其中，一个第二集合可以包括p2个位置的预设早期反射声RIR。

按照上述方式，针对m2种空间场景，可以录制得到m2个第二集合，m2为正整数。然后采用这m2个第二集合，组成早期反射声RIR库。其中，早期反射声RIR库可以表示为：

示例性的，可以从早期反射声RIR库的m2个第二集合中，根据选取与空间场景参数对应的第二集合，作为第二目标集合。

示例性的，当无法获取到用户头部位置信息时，可以根据源音频信号中当前处理的音频信号(即源音频信号中初始音频片段之后的音频片段)的位置信息，以及第二目标集合中p2个位置的预设早期反射声RIR的位置信息，从第二目标集合中选取候选早期反射声RIR。示例性的，可以从第二目标集合中选取位置信息与源音频信号中当前处理的音频信号(即源音频信号中初始音频片段之后的音频片段)的位置信息距离最近的预设早期反射声RIR，作为候选早期反射声RIR。

示例性的，当可以获取到用户头部位置信息时，可以根据用户的头部位置信息、源音频信号中当前处理的音频信号(即源音频信号中初始音频片段之后的音频片段)的位置信息、以及第二目标集合中p2个位置预设早期反射声RIR的位置信息，从第二目标集合中选取候选早期反射声RIR。示例性的，可以确定源音频信号中当前处理的音频信号(即源音频信号中初始音频片段之后的音频片段)的位置信息和用户的头部位置信息的偏移值，然后可以从第二目标集合中选取位置信息与偏移值距离最近的预设早期反射声RIR，作为候选早期反射声RIR。这样，能够实现头动跟踪渲染。

示例性的，可以根据渲染效果参数中的第二效果参数，确定距离感修正因子。然后，采用距离感修正因子对候选早期反射声RIR进行修正，可以得到目标早期反射声RIR；可以参照如下公式：

ER'＝β·ER

其中，ER'为目标早期反射声RIR，β为声像位置修正因子，ER为候选早期反射声RIR。

示例性的，β可以用采用增益表示，通过增加候选早期反射声RIR的幅值，降低距离感。

进而，可以通过距离感修正因子对候选早期反射声RIR的修正，来实现对距离感的调节。

示例性的，可以采用目标早期反射声RIR与源音频信号中初始音频片段之后的音频片段进行卷积，来实现对源音频信号中初始音频片段之后的音频片段进行早期反射声渲染，以得到第二双耳信号。针对源音频信号的第i个音频信号中初始音频片段之后的音频片段对应的部分可以参照如下公式进行早期反射声渲染：

其中，上述公式中的“*”表示卷积。为源音频信号的第i个音频数据中初始音频片段之后的音频片段进行早期反射声渲染后得到的数据，/>为目标早期反射声RIR。

假设，源音频信号包括N(N为大于1的整数)个通道，则对源音频信号中初始音频片段之后的音频片段进行早期反射声渲染，得到的第二双耳信号out₂(t)，可以如下：

S712，根据针对空间感选项的设置操作，调节空间感参数。

示例性的，可以将与空间感选项对应的渲染效果参数，称为空间感参数。

参照图6(1)，示例性的，可以根据用户针对空间感选项521的设置操作，确定空间感选项521的滑块位置，然后根据空间感选项521的滑块位置，对空间感参数进行调节。

需要说明的是，对空间感参数进行调节是指对空间感参数的参数值进行调节。

示例性的，可以根据空间感参数对源音频信号中初始音频片段之后的音频片段进行晚期反射声渲染，以得到第三双耳信号；可以参照如下S713～S715：

S713，从预设的晚期反射声RIR库中选取候选晚期反射声RIR，以及根据空间感参数确定空间感修正因子。

S714，根据空间感修正因子对候选晚期反射声RIR进行修正，以得到目标晚期反射声RIR。

S715，根据目标晚期反射声RIR对源音频信号中初始音频片段之后的音频片段进行晚期反射声渲染，以得到第三双耳信号。

示例性的，可以预先建立晚期反射声RIR库。示例性的，可以预先在一种空间场景对应的声学环境中采用球形麦克风，分别采集声源位于该空间场景对应的声学环境中p3(p3为正整数)位置的响应，可以得到p3个位置的RIR。然后分别确定p3个位置的RIR中声源至球形麦克风之间反射路径的后一部分脉冲响应，可以得到p3个位置的晚期反射声RIR(即HOA RIR)。然后可以采用p3个位置的晚期反射声RIR，组成一种空间场景对应的晚期反射声RIR(为了便于描述，将一种空间场景对应的晚期反射声RIR，称为一个第三集合)。第三集合可以表示为：

其中，一个第三集合可以包括p3个位置的预设晚期反射声RIR。

按照上述方式，针对m3种空间场景类型，可以采集得到m3个第三集合，m3为正整数。然后采用这m3个第三集合，组成晚期反射声RIR库。其中，晚期反射声RIR库可以表示为：

需要说明的是，m2与m3可以相等。

示例性的，可以从晚期反射声RIR库的m3个第三集合中，根据选取与空间场景参数对应的第三集合，作为第三目标集合。

示例性的，当无法获取用户的头部位置信息时，可以根据源音频信号中当前处理的音频信号(即源音频信号中初始音频片段之后的音频片段)的位置信息，以及第三目标集合中p3个位置的预设晚期反射声RIR的位置信息，从第三目标集合中选取候选晚期反射声RIR。示例性的，可以从第三目标集合中选取位置信息与源音频信号中当前处理的音频信号(即源音频信号中初始音频片段之后的音频片段)的位置信息距离最近的预设晚期反射声RIR，作为候选晚期反射声RIR。

示例性的，当可以获取用户的头部位置信息时，可以根据用户的头部位置信息、源音频信号中当前处理的音频信号(即源音频信号中初始音频片段之后的音频片段)的位置信息、以及第三目标集合中p3个位置的预设晚期反射声RIR的位置信息，从第三目标集合中选取候选晚期反射声RIR。示例性的，可以确定源音频信号中当前处理的音频信号(即源音频信号中初始音频片段之后的音频片段)的位置信息和用户的头部位置信息的偏移值，然后可以从第三目标集合中选取位置信息与偏移值距离最近的预设晚期反射声RIR，作为候选晚期反射声RIR。这样，能够实现头动跟踪渲染。

示例性的，可以根据渲染效果参数中的第三效果参数，确定空间感修正因子。然后，采用空间感修正因子对候选晚期反射声RIR进行修正，可以得到目标晚期反射声RIR；可以参照如下公式：

LR'＝γ·LR

其中，LR'为目标晚期反射声RIR，γ为声像位置修正因子，LR为候选晚期反射声RIR。

示例性的，γ可以用采用增益表示，通过增加候选晚期反射声RIR的幅值，可以增加空间感。

进而，可以通过空间感修正因子对候选晚期反射声RIR的修正，来实现对空间感的调节。

示例性的，可以采用目标晚期反射声RIR与源音频信号中初始音频片段之后的音频片段进行卷积，来实现对源音频信号中初始音频片段之后的音频片段进行晚期反射声渲染，以得到第三双耳信号。针对源音频信号的第i个音频信号中初始音频片段之后的音频片段可以参照如下公式进行晚期反射声渲染：

其中，上述公式中的“*”表示卷积。为源音频信号的第i个音频数据中初始音频片段之后的音频片段进行晚期反射声渲染后得到的数据，/>为目标晚期反射声RIR。

假设，源音频信号包括N(N为大于1的整数)个通道，则对源音频信号中初始音频片段之后的音频片段进行晚期反射声渲染，得到的第三双耳信号out₃(t)，可以如下：

S716，基于第一双耳信号、第二双耳信号和第三双耳信号，确定目标双耳信号。

示例性的，S716可以参照上述S305的描述，在此不再赘述。

需要说明的是，S704～S707，S708～S711以及S712～S715，可以并行执行，也可以串行执行。

图7b为示例性示出的音频处理过程示意图。在图7a的基础上，在得到第一双耳信号、第二双耳信号和第三双耳信号后，可以对第一双耳信号、第二双耳信号和第三双耳信号进行音效处理，以对音频进行修饰。

示例性的，可以预先建立多种空间场景与多个音效参数组之间的对应关系，以得到预设关系。例如，预设关系可以包括：电影院—音效参数组1，音乐厅—音效参数组2，录音棚—音效参数组3，KTV—音效参数组4。其中，每个音效参数组可以包括多个音效参数。

示例性的，可以根据预设关系，确定与场景参数(根据目标场景选项更新后的场景参数)匹配的音效参数组。

示例性的，与场景参数匹配的音效参数组可以包括直达声音效参数(音效参数1)、早前反射声音效参数(音效参数2)、晚期反射声音效参数(音效参数3)和第一混合音效参数(音效参数4)。

参照图7b，示例性的，S717，依据音效参数1对第一双耳信号进行音效处理，以得到音频信号1。

示例性的，S717可以在S707之后且在S716之前执行，即在得到第一双耳信号后，可以对第一双耳信号进行音效处理，以得到音频信号1。具体可以参照上述S306的描述，在此不再赘述。

参照图7b，示例性的，S718，依据音效参数2对第二双耳信号进行音效处理，以得到音频信号2。

示例性的，S718在S711之后且在S716之前执行，即在得到第二双耳信号后，可以对第二双耳信号进行音效处理，以得到音频信号2。具体可以参照上述S307的描述，在此不再赘述。

参照图7b，示例性的，S719，依据音效参数3对第三双耳信号进行音效处理，以得到音频信号3。

示例性的，S719在S715之后且在S716之前执行，即在得到第三双耳信号后，可以对第三双耳信号进行音效处理，以得到音频信号3。具体可以参照上述S308的描述，在此不再赘述。

参照图7b，示例性的，S716可以包括S716a和S716b，其中：

S716a，对音频信号1、音频信号2和音频信号3进行混音处理，以得到音频信号4。

S716b，依据音效参数4对音频信号4进行音效处理，以得到目标双耳信号。

示例性的，S716a和S716b可以参照S305a和S305b；具体可以参照上述描述，在此不再赘述。

示例性的，可以在图6(1)的基础上，参照上述图4a实施例描述的方法，可以通过对源音频信号中初始音频片段之后的音频片段分别进行直达声渲染、早期反射声渲染和晚期反射声渲染，来实现S603中的空间音频处理。即，根据设置，对源音频信号中初始音频片段之后的音频片段分别进行直达声渲染、早期反射声渲染和晚期反射声渲染，以得到目标双耳信号。这样，在任一类型的空间场景下，都能够还原出高精度的声像位置、音频的空间感和距离感，进而达到更真实沉浸的双耳渲染效果。

图8a为示例性示出的音频处理过程示意图。在图8a的实施例中，描述了对源音频信号中初始音频片段之后的音频片段分别进行直达声渲染、早期反射声渲染和晚期反射声渲染的一种方式。

S801，响应于用户的播放操作，对源音频信号中的初始音频片段进行空间音频处理，以得到初始双耳信号并播放初始双耳信号，源音频信号为媒体文件。

S802，响应于用户针对目标场景选项的选取操作，显示目标场景选项对应的渲染效果选项。

S803，接收用户针对渲染效果选项的设置操作，渲染效果选项包括：声像位置选项、距离感选项和空间感选项。

示例性的，S801～S803可以参照S701～S703的描述，在此不再赘述。

S804，根据针对距离感选项的设置操作，调节距离感参数。

S805，从预设的早期反射声RIR库中选取候选早期反射声RIR，以及根据距离感参数确定距离感修正因子。

S806，根据距离感修正因子对候选早期反射声RIR进行修正，以得到目标早期反射声RIR。

S807，根据目标早期反射声RIR对源音频信号中初始音频片段之后的音频片段进行早期反射声渲染，以得到第二双耳信号。

示例性的，S804～S807可以参照上述S708～S711的描述，在此不再赘述。

S808，根据针对空间感选项的设置操作，调节空间感参数。

S809，从预设的晚期反射声RIR库中选取候选晚期反射声RIR，以及根据空间感参数确定空间感修正因子。

S810，根据空间感修正因子对候选晚期反射声RIR进行修正，以得到目标晚期反射声RIR。

S811，根据目标晚期反射声RIR对源音频信号中初始音频片段之后的音频片段进行晚期反射声渲染，以得到第三双耳信号。

示例性的，S808～S811可以参照上述S712～S715的描述，在此不再赘述。

S812，对第二双耳信号和第三双耳信号进行混音处理，以得到第四双耳信号。

示例性的，S812可以参照上述S405的描述，在此不再赘述。

S813，根据针对声像位置选项的设置操作，调节声像位置参数。

S814，从预设的直达声RIR库中选取候选直达声RIR，以及根据声像位置参数确定声像位置修正因子。

S815，根据声像位置修正因子对候选直达声RIR进行修正，以得到目标直达声RIR。

S816，根据目标直达声RIR对第四双耳信号进行直达声渲染，以得到第五双耳信号。

示例性的，S813～S816可以参照上述S704～S707的描述，在此不再赘述。

S817，基于第五双耳信号，确定目标双耳信号。

示例性的，S817可以参照上述S407的描述，在此不再赘述。

图8b为示例性示出的音频处理过程示意图。在图8a的基础上，在得到第二双耳信号、第三双耳信号、第四双耳信号和第五双耳信号，对第二双耳信号、第三双耳信号、第四双耳信号和第五双耳信号进行音效处理，以对音频进行修饰。

示例性的，根据预设关系，确定与空间场景参数匹配的音效参数组；可以参照上述的描述，在此不再赘述。

示例性的，与空间场景参数匹配的音效参数组，可以包括：直达声音效参数(音效参数1)、早前反射声音效参数(音效参数2)、晚期反射声音效参数(音效参数3)和第二混合音效参数(音效参数5)。

参照图8b，示例性的，S818，依据音效参数2对第二双耳信号进行音效处理，以得到音频信号2。

示例性的，S818在S807之后且在S813之前执行，即在得到第二双耳信号后，可以对第二双耳信号进行音效处理，以得到音频信号2。具体可以参照上述S307的描述，在此不再赘述。

参照图8b，示例性的，S819，依据音效参数3对第三双耳信号进行音效处理，以得到音频信号3。

示例性的，S819在S812之后且在S813之前执行，即在得到第三双耳信号后，可以对第三双耳信号进行音效处理，以得到音频信号3。具体可以参照上述S308的描述，在此不再赘述。

示例性的，S813可以包括对音频信号2和音频信号3进行混音处理，以得到第四双耳信号。

参照图8b，示例性的，S820，依据音效参数5对第四双耳信号进行音效处理，以得到音频信号6。

示例性的，S820在S813之后且在S816之前执行，即在得到第四双耳信号后，可以对第四双耳信号进行音效处理，以得到音频信号6。具体可以参照上述S409的描述，在此不再赘述。

参照图8b，示例性的，上述S817可以包含S817_X；其中，S817_X，依据音效参数1对第五双耳信号进行音效处理，以得到目标双耳信号。具体可以参照上述描述，在此不再赘述。

需要说明的是，当用户仅针对部分渲染效果选项执行了设置操作时，可以根据针对部分渲染效果选项的设置操作，调节部分渲染效果参数；对于用户未执行的渲染效果选项，可以使用对应渲染效果参数的默认参数值进行渲染。

例如，当用户仅针对声像位置选项执行设置操作时，可以根据根据针对声像位置选项的设置操作，调节声像位置参数；根据声像位置参数调整后的参数值对源音频信号中初始音频片段之后的音频片段进行直达声渲染，以得到第一双耳信号(或者，根据声像位置参数调整后的参数值对第四双耳信号进行直达声渲染，以得到第五双耳信号)。然后根据距离感参数的默认值对源音频信号中初始音频片段之后的音频片段进行早期反射声渲染，以得到第二双耳信号，以及根据空间感参数的默认值对源音频信号中初始音频片段之后的音频片段进行晚期反射声渲染，以得到第三双耳信号。

例如，当用户仅针对距离感选项执行设置操作时，可以根据根据针对距离感选项的设置操作，调节距离感参数；根据距离感参数调整后的参数值对源音频信号中初始音频片段之后的音频片段进行早期反射声渲染，以得到第二双耳信号。然后根据声像位置参数的默认值对源音频信号中初始音频片段之后的音频片段进行直达声渲染，以得到第一双耳信号(或者，根据声像位置参数的默认值对第四双耳信号进行直达声渲染，以得到第五双耳信号)，以及根据空间感参数的默认值对源音频信号中初始音频片段之后的音频片段进行晚期反射声渲染，以得到第三双耳信号。

例如，当用户仅针对空间感选项执行设置操作时，可以根据根据针对空间感选项的设置操作，调节距离感参数；根据空间感参数调整后的参数值对源音频信号中初始音频片段之后的音频片段进行晚期反射声渲染，以得到第三双耳信号。然后根据声像位置参数的默认值对源音频信号中初始音频片段之后的音频片段进行直达声渲染，以得到第一双耳信号(或者，根据声像位置参数的默认值对第四双耳信号进行直达声渲染，以得到第五双耳信号)，以及根据距离感参数的默认值对源音频信号中初始音频片段之后的音频片段进行早期反射声渲染，以得到第二双耳信号。以此类推，在此不再赘述。

一种可能的方式中，本申请提供的音频处理方法可以应用于耳机中。这种情况下，耳机可以从与其连接的移动终端获取源音频信号和音频处理参数(其中，音频处理参数可以是指用于进行空间音频处理的参数，音频处理参数可以包括渲染效果参数、音效参数组、修正因子等等)，然后执行根据音频处理参数对源音频信号中初始音频片段之后的音频片段进行空间音频处理，以得到目标双耳信号的步骤；接着，对目标双耳信号进行播放。

示例性的，耳机中可以布设有头部运动信息采集的传感器(如陀螺仪、惯性传感器)时，耳机可以根据采集的头部运动信息确定用户的头部位置信息；然后可以根据音频处理参数和头部位置信息，对源音频信号中初始音频片段之后的音频片段进行空间音频处理，以得到目标双耳信号。

一种可能的方式中，本申请提供的音频处理方法可以应用于移动终端中。这种情况下，移动终端可以通过与用户的交互，获取源音频信号和音频处理参数，然后执行根据音频处理参数对源音频信号中初始音频片段之后的音频片段进行空间音频处理，以得到目标双耳信号的步骤。移动终端在得到目标双耳信号后，可以将目标双耳信号发送给与移动终端连接的耳机，由耳机播放目标双耳信号。

示例性的，移动终端可以从与移动终端连接的耳机获取头部位置信息，然后根据音频处理参数和头部位置信息，对源音频信号中初始音频片段之后的音频片段进行空间音频处理，以得到目标双耳信号。

一种可能的方式中，本申请提供的音频处理方法可以应用于VR设备中。这种情况下，VR设备可以根据与用户的交互，获取源音频信号和音频处理参数，然后，执行根据音频处理参数对源音频信号中初始音频片段之后的音频片段进行空间音频处理，以得到目标双耳信号的步骤。接着，VR设备可以播放目标双耳信号(或者，将目标双耳信号发送给耳机，由耳机播放目标双耳信号)。

示例性的，VR设备中可以布设有头部运动信息采集的传感器(如陀螺仪、惯性传感器)时，VR设备可以根据采集的头部运动信息确定用户的头部位置信息；然后可以根据音频处理参数和头部位置信息，对源音频信号中初始音频片段之后的音频片段进行空间音频处理，以得到目标双耳信号。(或者，从与VR设备连接的耳机获取头部位置信息，然后根据音频处理参数和头部位置信息，对源音频信号中初始音频片段之后的音频片段进行空间音频处理，以得到目标双耳信号)。

图9为示例性示出的音频处理系统示意图。图9示出的是，本申请实施例提供的一种音频处理系统，该音频处理系统包括移动终端和与移动终端901连接的耳机902；其中，

移动终端901，用于执行上述实施例的音频处理方法，以及将目标双耳信号发送给耳机；

耳机902，用于播放目标双耳信号。

示例性的，耳机902，用于采集用户的头部运动信息，根据头部运动信息确定用户的头部位置信息；以及将头部位置信息发送至移动终端；

移动终端901，用于根据设置和头部位置信息，对源音频信号中初始音频片段之后的音频片段进行空间音频处理，以得到目标双耳信号。

一个示例中，图10示出了本申请实施例的一种装置1000的示意性框图装置1000可包括：处理器1001和收发器/收发管脚1002，可选地，还包括存储器1003。

装置1000的各个组件通过总线1004耦合在一起，其中总线1004除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图中将各种总线都称为总线1004。

可选地，存储器1003可以用于存储前述方法实施例中的指令。该处理器1001可用于执行存储器1003中的指令，并控制接收管脚接收信号，以及控制发送管脚发送信号。

装置1000可以是上述方法实施例中的电子设备或电子设备的芯片。

其中，上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述，在此不再赘述。

本实施例还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机指令，当该计算机指令在电子设备上运行时，使得电子设备执行上述相关方法步骤实现上述实施例中的音频处理方法。

本实施例还提供了一种计算机程序产品，当该计算机程序产品在计算机上运行时，使得计算机执行上述相关步骤，以实现上述实施例中的音频处理方法。

另外，本申请的实施例还提供一种装置，这个装置具体可以是芯片，组件或模块，该装置可包括相连的处理器和存储器；其中，存储器用于存储计算机执行指令，当装置运行时，处理器可执行存储器存储的计算机执行指令，以使芯片执行上述各方法实施例中的音频处理方法。

其中，本实施例提供的电子设备、计算机可读存储介质、计算机程序产品或芯片均用于执行上文所提供的对应的方法，因此，其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果，此处不再赘述。

通过以上实施方式的描述，所属领域的技术人员可以了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是一个物理单元或多个物理单元，即可以位于一个地方，或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

本申请各个实施例的任意内容，以及同一实施例的任意内容，均可以自由组合。对上述内容的任意组合均在本申请的范围之内。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

结合本申请实施例公开内容所描述的方法或者算法的步骤可以硬件的方式来实现，也可以是由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成，软件模块可以被存放于随机存取存储器(Random Access Memory，RAM)、闪存、只读存储器(Read Only Memory，ROM)、可擦除可编程只读存储器(Erasable Programmable ROM，EPROM)、电可擦可编程只读存储器(Electrically EPROM，EEPROM)、寄存器、硬盘、移动硬盘、只读光盘(CD-ROM)或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本申请实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机可读存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

Claims

1.一种音频处理方法，其特征在于，所述方法包括：

响应于用户的播放操作，对源音频信号中的初始音频片段进行空间音频处理，以得到初始双耳信号并播放所述初始双耳信号，所述源音频信号为媒体文件；

接收用户针对渲染效果选项的设置，所述渲染效果选项包括以下至少一种：声像位置选项、距离感选项或空间感选项；

根据所述设置，对所述源音频信号中所述初始音频片段之后的音频片段继续进行空间音频处理，以得到目标双耳信号。

2.根据权利要求1所述的方法，其特征在于，当所述渲染效果选项包括所述声像位置选项时，所述根据所述设置，对所述源音频信号中所述初始音频片段之后的音频片段继续进行空间音频处理，以得到目标双耳信号，包括：

根据针对所述声像位置选项的设置，调节声像位置参数；

根据所述声像位置参数对所述源音频信号中所述初始音频片段之后的音频片段进行直达声渲染，以得到第一双耳信号；

根据所述第一双耳信号，确定所述目标双耳信号。

3.根据权利要求1所述的方法，其特征在于，当所述渲染效果选项包括所述距离感选项时，所述根据所述设置，对所述源音频信号中所述初始音频片段之后的音频片段继续进行空间音频处理，以得到目标双耳信号，包括：

根据针对所述距离感选项的设置，调节距离感参数；

根据所述距离感参数对所述源音频信号中所述初始音频片段之后的音频片段进行早期反射声渲染，以得到第二双耳信号；

根据所述第二双耳信号，确定所述目标双耳信号。

4.根据权利要求1所述的方法，其特征在于，当所述渲染效果选项包括所述空间感选项时，所述根据所述设置，对所述源音频信号中所述初始音频片段之后的音频片段继续进行空间音频处理，以得到目标双耳信号，包括：

根据针对所述空间感选项的设置，调节空间感参数；

根据所述空间感参数对所述源音频信号中所述初始音频片段之后的音频片段进行晚期反射声渲染，以得到第三双耳信号；

根据所述第三双耳信号，确定所述目标双耳信号。

5.根据权利要求3所述的方法，其特征在于，当所述渲染效果选项还包括所述声像位置选项和所述空间感选项时，所述根据所述设置，对所述源音频信号中所述初始音频片段之后的音频片段继续进行空间音频处理，以得到目标双耳信号，还包括：

根据针对所述声像位置选项的设置，调节声像位置参数；以及根据所述声像位置参数对所述源音频信号中所述初始音频片段之后的音频片段进行直达声渲染，以得到第一双耳信号；

根据针对所述空间感选项的设置，调节空间感参数；以及根据所述空间感参数对所述源音频信号中所述初始音频片段之后的音频片段进行晚期反射声渲染，以得到第三双耳信号；

所述依据所述第二双耳信号，确定所述目标双耳信号，包括：

对所述第一双耳信号、所述第二双耳信号和所述第三双耳信号进行混音处理，以得到所述目标双耳信号。

6.根据权利要求3所述的方法，其特征在于，当所述渲染效果选项还包括所述声像位置选项和所述空间感选项时，所述根据所述设置，对所述源音频信号中所述初始音频片段之后的音频片段继续进行空间音频处理，以得到目标双耳信号，还包括：

对所述第二双耳信号和所述第三双耳信号进行混音处理，以得到第四双耳信号；

根据针对所述声像位置选项的设置，调节声像位置参数；以及根据所述声像位置参数对所述第四双耳信号进行直达声渲染，以得到第五双耳信号；

根据所述第五双耳信号，确定所述目标双耳信号。

7.根据权利要求2所述的方法，其特征在于，所述根据所述声像位置参数对所述源音频信号中所述初始音频片段之后的音频片段继续进行直达声渲染，以得到第一双耳信号，包括：

从预设的直达声RIR库中选取候选直达声RIR，以及根据所述声像位置参数确定声像位置修正因子；

根据所述声像位置修正因子对所述候选直达声RIR进行修正，以得到目标直达声RIR；

根据所述目标直达声RIR对所述源音频信号中所述初始音频片段之后的音频片段进行直达声渲染，以得到所述第一双耳信号。

8.根据权利要求7所述的方法，其特征在于，所述直达声RIR库包括多个第一集合，一个第一集合对应一种头部类型，所述第一集合包括多个位置的预设直达声RIR；

所述从预设的直达声RIR库中选取候选直达声RIR，包括：

根据所述用户的头部类型，从所述多个第一集合中选取第一目标集合；

根据所述用户的头部位置信息、所述源音频信号的位置信息和所述第一目标集合中预设直达声RIR的位置信息，从所述第一目标集合中选取所述候选直达声RIR。

9.根据权利要求5或6所述的方法，其特征在于，在所述接收用户针对渲染效果选项的设置之前，所述方法还包括：

获取针对目标场景选项的选取，显示所述目标场景选项对应的渲染效果选项。

10.根据权利要求9所述的方法，其特征在于，所述根据所述距离感参数对所述源音频信号中所述初始音频片段之后的音频片段进行早期反射声渲染，以得到第二双耳信号，包括：

从预设的早期反射声RIR库中选取候选早期反射声RIR，以及根据所述距离感参数确定距离感修正因子；

根据所述距离感修正因子对所述候选早期反射声RIR进行修正，以得到目标早期反射声RIR；

根据所述目标早期反射声RIR对所述源音频信号中所述初始音频片段之后的音频片段进行早期反射声渲染，以得到所述第二双耳信号。

11.根据权利要求10所述的方法，其特征在于，所述早期反射声RIR库包括多个第二集合，一个第二集合对应一种空间场景，所述第二集合包括多个位置的预设早期反射声RIR；

所述从预设的早期反射声RIR库中选取候选早期反射声RIR，包括：

根据所述目标场景选项对应的空间场景参数，从所述多个第二集合中选取第二目标集合；

根据所述用户的头部位置信息、所述源音频信号的位置信息和所述第二目标集合中预设早期反射声RIR的位置信息，从所述第二目标集合中选取所述候选早期反射声RIR。

12.根据权利要求9所述的方法，其特征在于，所述根据所述空间感参数对所述源音频信号中所述初始音频片段之后的音频片段进行晚期反射声渲染，以得到第三双耳信号，包括：

从预设的晚期反射声RIR库中选取候选晚期反射声RIR，以及根据所述空间感参数确定空间感修正因子；

依据所述空间感修正因子对所述候选晚期反射声RIR进行修正，以得到目标晚期反射声RIR；

依据所述目标晚期反射声RIR对所述源音频信号中所述初始音频片段之后的音频片段进行晚期反射声渲染，以得到所述第三双耳信号。

13.根据权利要求12所述的方法，其特征在于，所述晚期反射声RIR库包括多个第三集合，一个第三集合对应一种空间场景，所述第三集合包括多个位置的预设晚期反射声RIR；

所述从预设的晚期反射声RIR库中选取候选晚期反射声RIR，包括：

根据所述目标场景选项对应的空间场景参数，从所述多个第三集合中选取第三目标集合；

根据所述用户的头部位置信息、所述源音频信号的位置信息和所述第三目标集合中预设晚期反射声RIR的位置信息，从所述第三目标集合中选取所述候选晚期反射声RIR。

14.根据权利要求1至13任一项所述的方法，其特征在于，所述源音频信号包括以下至少一种格式：多声道格式、多对象格式和球谐环绕声Ambisonics格式。

15.根据权利要求10或11所述的方法，其特征在于，

所述目标早期反射声RIR为高阶球谐环绕声HOARIR。

16.根据权利要求12或13所述的方法，其特征在于，

所述目标晚期反射声RIR为HOARIR。

17.根据权利要求8或11或13所述的方法，其特征在于，

所述音频处理方法应用于耳机，所述头部位置信息根据所述耳机采集的所述用户的头部运动信息确定；或，

所述音频处理方法应用于移动终端，所述头部位置信息从与所述移动终端连接的耳机获取；或，

所述音频处理方法应用于虚拟现实VR设备，所述头部位置信息根据所述VR设备采集的所述用户的头部运动信息确定。

18.一种音频处理系统，其特征在于，所述音频处理系统包括移动终端和与所述移动终端连接的耳机；其中，

所述移动终端，用于响应于用户的播放操作，对源音频信号中的初始音频片段进行空间音频处理，以得到初始双耳信号并播放所述初始双耳信号，所述源音频信号为媒体文件；接收用户针对渲染效果选项的设置，所述渲染效果选项包括以下至少一种：声像位置选项、距离感选项或空间感选项；根据所述设置，对所述源音频信号中所述初始音频片段之后的音频片段继续进行空间音频处理，以得到目标双耳信号；将所述目标双耳信号发送至所述耳机；

所述耳机，用于播放所述目标双耳信号。

19.根据权利要求18所述的系统，其特征在于，

所述耳机，还用于采集所述用户的头部运动信息，根据所述头部运动信息确定所述用户的头部位置信息；以及将所述头部位置信息发送至所述移动终端；

所述移动终端，具体用于根据所述设置和所述头部位置信息，对所述源音频信号中所述初始音频片段之后的音频片段继续进行空间音频处理，以得到所述目标双耳信号。

20.一种电子设备，其特征在于，包括：

存储器和处理器，所述存储器与所述处理器耦合；

所述存储器存储有程序指令，当所述程序指令由所述处理器执行时，使得所述电子设备执行权利要求1至权利要求17中任一项所述的音频处理方法。

21.一种芯片，其特征在于，包括一个或多个接口电路和一个或多个处理器；所述接口电路用于从电子设备的存储器接收信号，并向所述处理器发送所述信号，所述信号包括存储器中存储的计算机指令；当所述处理器执行所述计算机指令时，使得所述电子设备执行权利要求1至权利要求17中任一项所述的音频处理方法。

22.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，当所述计算机程序运行在计算机或处理器上时，使得所述计算机或所述处理器执行如权利要求1至权利要求17中任一项所述的音频处理方法。

23.一种计算机程序产品，其特征在于，所述计算机程序产品包含软件程序，当所述软件程序被计算机或处理器执行时，使得权利要求1至17任一项所述的方法的步骤被执行。