CN116600242B

CN116600242B - 音频声像优化方法、装置、电子设备及存储介质

Info

Publication number: CN116600242B
Application number: CN202310887727.5A
Authority: CN
Inventors: 丁幸运; 胡贝贝; 陈绍天
Original assignee: Honor Device Co Ltd
Current assignee: Honor Device Co Ltd
Priority date: 2023-07-19
Filing date: 2023-07-19
Publication date: 2023-11-07
Anticipated expiration: 2043-07-19
Also published as: CN116600242A

Abstract

本申请适用于音频技术领域，提供了一种音频声像优化方法、装置、电子设备及存储介质，该方法包括：获取待处理音频及待处理音频对应的渲染参数；根据渲染参数，对待处理音频进行混响处理，以生成待处理音频对应的第一混响音频；对第一混响音频进行串扰消除处理，以生成优化后的第二混响音频；根据渲染参数，对待处理音频进行头相关传输函数HRTF渲染，以确定待处理音频对应的直达声音频；对第二混响音频及直达声音频进行融合处理，以生成优化后的目标音频。由此，通过混响链路与直达声链路分别对待处理音频进行混响处理及HRTF渲染处理，并对混响音频进行串扰消除，提升了外放音频的音质，改善了用户的影音体验。

Description

音频声像优化方法、装置、电子设备及存储介质

技术领域

本申请属于音频技术领域，尤其涉及一种音频声像优化方法、装置、电子设备及计算机可读存储介质。

背景技术

随着移动便携设备的不断发展，良好的影音体验成为高端产品的必备属性。比如，对于手机、平板电脑等移动设备，电影院、家庭影院、车辆等场景中使用的音响设备等，人们对这些具有外放音频功能的音质要求也越来越高。

相关技术中，由于外放音频通常包括多个声道的音频数据，因此在音频从设备传输到人耳的过程中，多个声道的音频数据之间会产生干扰，传输环境也会对音频数据产生干扰，从而使得用户实际感受到的音频质量较差，影响了用户的影音体验。

发明内容

本申请实施例提供了一种音频声像优化方法、装置、电子设备及计算机可读存储介质，可以解决由于外放音频通常包括多个声道的音频数据，因此在音频从设备传输到人耳的过程中，多个声道的音频数据之间会产生干扰，传输环境也会对音频数据产生干扰，从而使得用户实际感受到的音频质量较差，影响了用户的影音体验的问题。

第一方面，本申请实施例提供了一种音频声像优化方法，包括：获取待处理音频及待处理音频对应的渲染参数；根据渲染参数，对待处理音频进行混响处理，以生成待处理音频对应的第一混响音频；对第一混响音频进行串扰消除处理，以生成优化后的第二混响音频；根据渲染参数，对待处理音频进行头相关传输函数（Head Related TransferFunction，HRTF）渲染，以确定待处理音频对应的直达声音频；对第二混响音频及直达声音频进行融合处理，以生成优化后的目标音频。

在第一方面一种可能的实现方式中，上述待处理音频中包括至少两个子声道的音频数据，上述渲染参数包括各个子声道对应的房间脉冲响应，上述第一混响音频包括各个子声道对应的第一子声道混响音频；相应的，上述根据渲染参数，对待处理音频进行混响处理，以生成待处理音频对应的第一混响音频，包括：

将每个子声道的音频数据与对应的房间脉冲响应进行卷积处理，以分别生成每个第一子声道混响音频。

可选的，在第一方面另一种可能的实现方式中，上述待处理音频的音频类型为多声道音频；相应的，上述根据渲染参数，对待处理音频进行混响处理，以生成待处理音频对应的第一混响音频之前，还包括：

对待处理音频进行下混处理，以生成待处理音频对应的待处理左声道音频及待处理右声道音频；

将待处理左声道音频及待处理右声道音频，确定为待处理音频包括的各个子声道的音频数据。

可选的，在第一方面再一种可能的实现方式中，上述第二混响音频包括各个子声道对应的第二子声道混响音频；相应的，上述对第一混响音频进行串扰消除处理，以生成优化后的第二混响音频，包括：

获取各个子声道对应的串扰消除滤波器系数；

根据每个子声道对应的串扰消除滤波器系数，分别对每个第一子声道混响音频进行串扰消除处理，以生成优化后的每个第二子声道混响音频。

可选的，在第一方面又一种可能的实现方式中，上述渲染参数还包括各个子声道对应的串扰衰减因子、各个子声道对应的串扰延时误差及串扰消除损失函数；相应的，上述获取各个子声道对应的串扰消除滤波器系数，包括：

获取每个子声道对应的串扰声道的第一子声道混响音频的频率，分别作为每个子声道对应的参考频率；

根据每个子声道对应的参考频率、每个串扰衰减因子、每个串扰延时误差及串扰消除损失函数，分别确定每个子声道对应的串扰消除阶数；

根据每个子声道对应的串扰消除阶数，分别确定每个子声道对应的串扰消除滤波器系数。

可选的，在第一方面另一种可能的实现方式中，上述对第二混响音频及第二直达声音频进行融合处理，以生成优化后的目标音频之前，还包括：

根据衰减系数对第二混响音频进行衰减处理，以对第二混响音频进行距离控制。

可选的，在第一方面再一种可能的实现方式中，上述待处理音频中包括至少两个子声道的音频数据，上述渲染参数还包括方位渲染参数；相应的，上述根据所述渲染参数，对待处理音频进行HRTF渲染，以确定待处理音频对应的第一直达声音频，包括：

根据方位渲染参数，确定各个子声道对应的目标HRTF渲染参数；

根据每个子声道对应的目标HRTF渲染参数，分别对每个子声道的音频数据进行HRTF渲染，以确定每个子声道对应的直达声音频。

可选的，在第一方面又一种可能的实现方式中，上述待处理音频的音频类型为立体声音频，上述子声道包括左声道及右声道，上述子声道音频包括待处理左声道音频及待处理右声道音频；相应的，上述根据方位渲染参数，确定各个子声道对应的目标HRTF渲染参数之前，还包括：

对待处理左声道音频及待处理右声道音频进行中置声道提取，以确定待处理音频对应的待处理中置声道音频；

将待处理左声道音频、待处理右声道音频及待处理中置声道音频，确定为待处理音频中包括的各个子声道的音频数据。

可选的，在第一方面又一种可能的实现方式中，上述方位渲染参数包括高度渲染参数及宽度渲染参数，上述子声道至少包括中置声道、左声道及右声道；相应的，上述根据方位渲染参数，确定各个子声道对应的目标HRTF渲染参数，包括：

根据高度渲染参数，确定中置声道对应的目标HRTF渲染参数；

根据宽度渲染参数，确定左声道及右声道对应的目标HRTF渲染参数。

可选的，在第一方面另一种可能的实现方式中，上述根据方位渲染参数，确定各个子声道对应的目标HRTF渲染参数，包括：

根据方位渲染参数及预设的HRTF数据，对各个子声道的声源位置进行校准，以生成各个子声道对应的目标HRTF渲染参数。

可选的，在第一方面再一种可能的实现方式中，上述渲染参数还包括中置声道增强参数，上述子声道包括中置声道；相应的，上述根据每个子声道对应的目标HRTF渲染参数，分别对每个子声道的音频数据进行HRTF渲染，以确定每个子声道对应的直达声音频之后，还包括：

根据中置声道增强参数对中置声道对应的直达声音频进行增强处理。

可选的，在第一方面又一种可能的实现方式中，上述子声道至少包括中置声道、左声道及右声道；相应的，上述对第二混响音频及直达声音频进行融合处理，以生成优化后的目标音频之前，还包括：

对左声道对应的直达声音频及右声道对应的直达声音频进行串扰消除处理。

可选的，在第一方面又一种可能的实现方式中，上述子声道还包括左环绕声道及右环绕声道；相应的，上述对第二混响音频及直达声音频进行融合处理，以生成优化后的目标音频之前，还包括：

对左环绕声道对应的直达声音频及右环绕声道对应的直达声音频进行串扰消除处理。

可选的，在第一方面另一种可能的实现方式中，上述对第二混响音频及直达声音频进行融合处理，以生成优化后的目标音频之前，还包括：

根据各个子声道对应的直达声音频进行下混处理。

第二方面，本申请实施例提供了一种音频声像优化装置，包括：第一获取模块，用于获取待处理音频及待处理音频对应的渲染参数；第一混响模块，用于根据渲染参数，对待处理音频进行混响处理，以生成待处理音频对应的第一混响音频；第一串扰消除模块，用于对第一混响音频进行串扰消除处理，以生成优化后的第二混响音频；第一渲染模块，用于根据渲染参数，对待处理音频进行HRTF渲染，以确定待处理音频对应的直达声音频；第一融合模块，用于对第二混响音频及直达声音频进行融合处理，以生成优化后的目标音频。

在第二方面一种可能的实现方式中，上述待处理音频中包括至少两个子声道的音频数据，上述渲染参数包括各个子声道对应的房间脉冲响应，上述第一混响音频包括各个子声道对应的第一子声道混响音频；相应的，上述第一混响模块，包括：

第一生成单元，用于将每个子声道的音频数据与对应的房间脉冲响应进行卷积处理，以分别生成每个第一子声道混响音频。

可选的，在第二方面另一种可能的实现方式中，上述待处理音频的音频类型为多声道音频；相应的，上述装置，还包括：

第一下混模块，用于对待处理音频进行下混处理，以生成待处理音频对应的待处理左声道音频及待处理右声道音频；

第一确定模块，用于将待处理左声道音频及待处理右声道音频，确定为待处理音频包括的各个子声道的音频数据。

可选的，在第二方面又一种可能的实现方式中，上述第二混响音频包括各个子声道对应的第二子声道混响音频；相应的，上述第一串扰消除模块，包括：

第一获取单元，用于获取各个子声道对应的串扰消除滤波器系数；

第一串扰消除单元，用于根据每个子声道对应的串扰消除滤波器系数，分别对每个第一子声道混响音频进行串扰消除处理，以生成优化后的每个第二子声道混响音频。

可选的，在第二方面又一种可能的实现方式中，上述渲染参数还包括各个子声道对应的串扰衰减因子、各个子声道对应的串扰延时误差及串扰消除损失函数；相应的，上述第一获取单元，具体用于：

根据每个子声道对应的串扰消除阶数，分别确定每个子声道对应的串扰消除滤波器系数。可选的，在第二方面另一种可能的实现方式中，上述装置，还包括：

第一衰减模块，用于根据衰减系数对第二混响音频进行衰减处理，以对第二混响音频进行距离控制。

可选的，在第二方面再一种可能的实现方式中，上述待处理音频中包括至少两个子声道的音频数据，上述渲染参数还包括方位渲染参数；相应的，上述第一渲染模块，包括：

第一确定单元，用于根据方位渲染参数，确定各个子声道对应的目标HRTF渲染参数；

第二确定单元，用于根据每个子声道对应的目标HRTF渲染参数，分别对每个子声道的音频数据进行HRTF渲染，以确定每个子声道对应的直达声音频。

可选的，在第二方面又一种可能的实现方式中，上述待处理音频的音频类型为立体声音频，上述子声道包括左声道及右声道，上述子声道音频包括待处理左声道音频及待处理右声道音频；相应的，上述第一渲染模块，还包括：

第三确定单元，用于对待处理左声道音频及待处理右声道音频进行中置声道提取，以确定待处理音频对应的待处理中置声道音频；

第四确定单元，用于将待处理左声道音频、待处理右声道音频及待处理中置声道音频，确定为待处理音频中包括的各个子声道的音频数据。

可选的，在第二方面又一种可能的实现方式中，上述方位渲染参数包括高度渲染参数及宽度渲染参数，上述子声道至少包括中置声道、左声道及右声道；相应的，上述第一确定单元，具体用于：

根据高度渲染参数，确定中置声道对应的目标HRTF渲染参数；

可选的，在第二方面另一种可能的实现方式中，上述第一确定单元，还用于：

可选的，在第二方面再一种可能的实现方式中，上述渲染参数还包括中置声道增强参数，上述子声道包括中置声道；相应的，上述第一渲染模块，还包括：

第一增强单元，用于根据中置声道增强参数对中置声道对应的直达声音频进行增强处理。

可选的，在第二方面又一种可能的实现方式中，上述子声道至少包括中置声道、左声道及右声道；相应的，上述装置，还包括：

第二串扰消除模块，用于对左声道对应的直达声音频及右声道对应的直达声音频进行串扰消除处理。

可选的，在第二方面又一种可能的实现方式中，上述子声道还包括左环绕声道及右环绕声道；相应的，上述装置，还包括：

第三串扰消除模块，用于对左环绕声道对应的直达声音频及右环绕声道对应的直达声音频进行串扰消除处理。

可选的，在第二方面另一种可能的实现方式中，上述装置，还包括：

第二下混模块，用于根据各个子声道对应的直达声音频进行下混处理。

第三方面，本申请实施例提供了一种电子设备，包括：存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序，其中，处理器执行计算机程序时实现如前所述的音频声像优化方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现如前所述的音频声像优化方法。

第五方面，本申请实施例提供了一种计算机程序产品，当计算机程序产品在电子设备上运行时，使得电子设备执行如前所述的音频声像优化方法。

本申请实施例与现有技术相比存在的有益效果是：通过混响链路与直达声链路分别对待处理音频进行混响处理及HRTF渲染处理，并对混响音频进行串扰消除，以通过混响处理提升音频的空间感和距离感，以及通过HRTF渲染处理提升音频的定位感、力度感及清晰度，以及通过串扰消除降低了多个声道之间的互相干扰，从而提升了外放音频的音质，改善了用户的影音体验。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提供的音频声像优化方法的流程示意图；

图2是本申请一实施例提供的一种音频声像优化对应的设置界面的示意图；

图3是本申请一实施例提供的一种房间脉冲响应的示意图；

图4是本申请一实施例提供的一种人耳定位原理的示意图；

图5是本申请一实施例提供的一种立体声串扰简化模型的示意图；

图6是本申请一实施例提供的串扰延时量Δt随距离D的变化关系；

图7是本申请一实施例提供的串扰延时量Δt随角度θ的变化关系的示意图；

图8本申请一实施例提供的某特定频率下串扰消除阶数与抵消误差的变化关系示意图；

图9是本申请一实施例提供的一种扩大甜点位的串扰消除算法的流程示意图；

图10是本申请另一实施例提供的音频声像优化方法的流程示意图；

图11是本申请再一实施例提供的一种音频声像优化方法的总体方案的流程示意图；

图12是本申请实施例提供的音频声像优化装置的结构示意图；

图13是本申请实施例提供的电子设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本申请说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件] ”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件] ”。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、 “第二”、 “第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、 “在一些实施例中”、 “在其他一些实施例中”、 “在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、 “包含”、 “具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

下面参考附图对本申请提供的音频声像优化方法、装置、电子设备、存储介质及计算机程序进行详细描述。

图1示出了本申请实施例提供的一种音频声像优化方法的流程示意图。

步骤101，获取待处理音频及待处理音频对应的渲染参数。

需要说明的是，本申请实施例的音频声像优化方法可以由本申请实施例的音频声像优化装置执行。本申请实施例的音频声像优化装置可以配置在任意电子设备中，以执行本申请实施例的音频声像优化方法。比如，本申请实施例的音频声像优化装置可以配置在手机、电脑、可穿戴式设备、音响、平板电视（如智慧屏等）等电子设备中，以实现用户在各种应用场景中的影音体验。

其中，待处理音频，可以是指当前需要通过电子设备的扬声器外放的音频。

其中，渲染参数，可以包括用户在播放待处理音频时自行设定的参数，也可以包括预先设定的默认渲染参数。

在本申请实施例中，可以在电子设备获取到需要通过扬声器播放的音频时，将该音频确定未待处理音频；并且，在获取到待处理音频之后，即可以获取相应的渲染参数，以便于后续对待处理音频进行渲染处理，以提升待处理音频的音频质量。比如，在本申请的音频声像优化方法应用在手机中时，若手机的运行环境未外放场景（如未连接任何类型的耳机，且媒体音量不为0），则可以在用户通过音频软件播放音乐时，将音频软件当前播放的音频确定为待处理音频；或者，还可以在用户通过视频软件播放视频时，将视频对应的音频确定为待处理音频，等等。

作为一种可能的实现方式，本申请实施例用于优化音频声像所使用的渲染参数，可以是预先在使用环境中进行实验、测量，并根据实际需要的渲染效果选取的，并作为默认渲染参数存储在电子设备中的，需要对待处理音频进行声像优化时，则可以直接从电子设备中直接获取已存储的默认渲染参数；或者，还可以允许用户根据自身的使用需求，设置渲染参数，以使对待处理音频进行声像优化后的渲染效果，可以符合用户的个性化使用需求，从而还可以根据用户在相应设置界面中的设置操作，确定相应的渲染参数，以用于对待处理音频进行声像优化。

作为一种可能的实现方式，本申请实施例中的渲染参数可以仅包含预先设定的默认渲染参数；也可以仅包含用户设定的渲染参数；还可以同时包含预先设定的默认渲染参数与用户设定的渲染参数。实际使用时，可以根据实际需要及具体的应用场景，确定渲染参数的类型及获取方式，本申请实施例对此不做限定。

作为一种可能的实现方式，还可以在相应的设置界面中为用户提供开启音频声像优化的控件，以使用户可以根据自身的使用需要选择是否开启音频声像优化功能。在本申请实施例中，可以在用户开启音频声像优化功能时，采用本申请实施例的音频声像优化方法对待处理音频进行处理。

举例来说，在渲染参数中包含用户设定的渲染参数时，可以提供如图2所示的设置界面200，以使用户可以在需要时根据自身的个性化需求通过设置界面200，设置相应的渲染参数。

如图2所示，为本申请实施例提供的一种音频声像优化对应的设置界面200的示意图，其中，210为空间音频控件，可以用于开启或关闭本申请的音频声像优化功能；220为人声增强控件，可以用于开启或关闭音频声像优化中的人声增强功能，并且本申请实施例的音频声像优化方法可以根据人声增强控件220是否开启，确定人声增强对应的渲染参数；230为方位渲染控件，可以用于开启音频声像优化中的方位渲染功能；231为高度渲染控件，2311为高度渲染控件231对应的滑动组件2311，可以通过滑动组件2311在高度渲染控件231中的位置调整高度渲染强度；232为宽度渲染控件，2321为宽度渲染控件232对应的滑动组件2321，可以通过滑动组件2321在宽度渲染控件232中的位置调整宽度渲染强度；本申请实施例的音频声像渲染方法，可以根据方位渲染控件230是否开启、高度渲染控件231对应的滑动组件2311所在的位置及宽度渲染控件232对应的滑动组件2321所在的位置，确定方位渲染参数，方位渲染参数中可以包括高度渲染参数与宽度渲染参数，高度渲染参数可以是根据滑动组件2311在高度渲染控件231中的位置确定的，宽度渲染参数可以是根据滑动组件2321在宽度渲染控件232中的位置确定的。

作为一种可能的实现方式，在对待处理音频进行后续处理之前，还可以对待处理音频进行前置增益，以使待处理音频的幅值不会超出后续步骤可处理的范围。

步骤102，根据渲染参数，对待处理音频进行混响处理，以生成待处理音频对应的第一混响音频。

其中，混响，是一种物理学现象，是一种声学特性。声波在室内传播时，要被墙壁、天花板、地板等障碍物反射，每反射一次都要被障碍物吸收一些。这样，当声源停止发声后，声波在室内要经过多次反射和吸收，最后才消失，因此人耳就感觉到声源停止发声后还有若干个声波混合持续一段时间（室内声源停止发声后仍然存在的声延续现象）。这种现象叫做混响，这段时间叫做混响时间。

可以理解的是，人耳最终听到的声波是声源发出的初始声波与房间产生一系列相互作用的结果，这个相互作用的过程可以通过房间脉冲响应来表示。不同房间对应的房间脉冲响应可以是不同的，人耳最终听到的声波可以采用声源发出的初始声波与房间脉冲响应的卷积结果进行表示。由此可知，如果对音频叠加特定的混响效果，则会使得人耳感受到该混响效果对应的特定的空间感、距离感。因此，在本申请实施例中，可以根据渲染参数对待处理音频进行混响处理，以提升待处理音频的空间感、距离感。

作为一种可能的实现方式，渲染参数中可以包括混响处理对应的房间脉冲响应，从而在对待处理音频进行混响处理时，可以从渲染参数中获取该房间脉冲响应，并将待处理音频与该房间脉冲响应进行卷积，并将卷积结果作为第一混响音频，从而使得第一混响音频具有较优的空间感、距离感。

如图3所示，为一种房间脉冲响应的示意图，其中，图3中坐标系的横轴表示时间（t），单位为秒（s），纵轴表示脉冲幅值，可见，图3所示的房间脉冲响应中包括直达声对应的脉冲响应与混响对应的脉冲响应。

需要说明的是，用于混响处理的房间脉冲响应，可以是根据实际需要及具体的应用场景，通过实验选取的能够使得音频获得较佳混响效果的房间脉冲响应，并作为默认渲染参数存储在电子设备中的，以使用户在接收到声像优化后的音频时可以感受到较佳的空间感和距离感。

进一步的，在实际应用场景中，电子设备中播放的音频通常是包含多个声道的立体声音频、多声道音频，因此在对待处理音频进行混响处理时，可以分别对每个声道的音频数据进行混响处理，以进一步提升混响效果。即在本申请实施例一种可能的实现方式中，上述待处理音频中可以包括至少两个子声道的音频数据，上述渲染参数可以包括各个子声道对应的房间脉冲响应，上述第一混响音频可以包括各个子声道对应的第一子声道混响音频；相应的，上述步骤102，可以包括：

作为一种可能的实现方式，可以根据实际应用场景中待处理音频可能包含的子声道，通过实验的方式确定各个子声道对应的房间脉冲响应作为渲染参数，从而在对待处理音频进行混响处理时，对于一个子声道，可以将该子声道的音频数据与该子声道对应的房间脉冲响应进行卷积处理，以生成该子声道对应的第一子声道混响音频；以此类推，可以生成各个子声道对应的第一子声道混响音频，从而完成对待处理音频的混响处理。

作为一种示例，在待处理音频的音频类型为立体声音频时，待处理音频中可以包括待处理左声道音频与待处理右声道音频两个子声道的音频数据，则上述渲染参数可以包括左声道对应的第一房间脉冲响应及右声道对应的第二房间脉冲响应，上述第一混响音频可以包括第一左声道混响音频及第一右声道混响音频；从而可以将待处理左声道音频与第一房间脉冲响应进行卷积处理，以生成第一左声道混响音频，并将待处理右声道音频与第二房间脉冲响应进行卷积处理，以生成第一右声道混响音频。

其中，待处理左声道音频，可以是指待处理音频中包含的左声道音频；待处理右声道音频，可以是指待处理音频中包含的右声道音频。

其中，第一房间脉冲响应，可以是指用于对待处理左声道音频进行混响处理的房间脉冲响应；第二房间脉冲响应，可以是指对待处理右声道音频进行混响处理的房间脉冲响应。

其中，第一左声道混响音频，可以是指对待处理左声道音频进行混响处理后生成的混响音频；第一右声道混响音频，可以是指对待处理右声道音频进行混响处理后生成的混响音频。

作为一种可能的实现方式，对于立体声音频，可以包含左声道音频与右声道音频两个声道的音频数据，因此在待处理音频的音频类型为立体声音频时，待处理音频中可以包含待处理左声道音频与待处理右声道音频，因此可以在渲染参数中提前预设左声道对应的第一房间脉冲响应及右声道对应的第二房间脉冲响应；从而，可以在对待处理音频进行混响处理时，将待处理左声道音频与第一房间脉冲响应进行卷积处理，并将卷积结果作为第一左声道混响音频；以及可以将待处理右声道音频与第二房间脉冲响应进行卷积处理，并将卷积结果作为第一右声道混响音频。对待处理左声道音频及待处理右声道音频进行混响处理的过程，可以通过如下公式进行表示：

其中，L _out1为第一左声道混响音频，L _in为待处理左声道音频，I _L为第一房间脉冲响应；R _out1为第一右声道混响音频，R _in为待处理右声道音频，I _R为第二房间脉冲响应。

作为一种可能的实现方式，对于多声道音频，除了可以包含左声道与右声道之外，还可以包含中置声道、左环绕声道、右环绕声道等其他声道的音频数据。因此，在待处理音频的音频类型为多声道音频时，可以在渲染参数中分别提前预设各个子声道的房间脉冲响应，进而将各个子声道的音频数据分别与对应的房间脉冲响应进行卷积处理，以实现对各个子声道音频数据的混响处理。

进一步的，由于多声道音频中通常包含较多的声道数据，如果每个声道的音频数据均单独进行混响处理，不仅会大幅提升混响的计算复杂度，耗费计算资源，而且不会明显提升混响效果。因此，在待处理音频为多声道音频时，可以对待处理音频进行下混之后，再进行混响处理，以在保证混响效果的同时，降低混响的计算复杂度，节约计算资源。即在本申请实施例一种可能的实现方式中，上述步骤102之前，还可以包括：

在本申请实施例中，可以在渲染参数中仅预设左声道对应的第一房间脉冲响应，以及右声道对应的第二房间脉冲响应，以简化混响处理过程，节约计算资源。因此，在待处理音频的音频类型为立体声音频时，即待处理音频中包括待处理左声道音频及待处理右声道音频两个声道的音频数据，则可以对待处理音频数据进行透传，即直接按照前述方式分别对待处理左声道音频及待处理右声道音频进行混响处理；在待处理音频的音频类型为多声道音频时，即待处理音频包含的各个子声道中，除了包含左声道与右声道之外，还可能包含中置声道、左环绕声道、右环绕声道等声道，从而可以根据下混表，获取待处理声道中各个子声道对应的下混系数，对待处理音频进行下混处理，以将待处理音频从多个声道转换为左右两个声道的音频数据，之后在按照前述对待处理左声道数据及待处理右声道数据分别进行混响处理的方式，对下混后生成的待处理左声道数据及待处理右声道数据进行混响处理。

作为一种示例，假设待处理音频为5.1声道音频，即待处理音频中包含的各个子声道分别为：中置声道、左声道、右声道、左环绕声道及右环绕声道，则可以通过以下公式对待处理音频进行下混处理，以生成待处理音频对应的待处理左声道数据及待处理右声道数据：

其中，L _in为下混后生成的待处理左声道音频，L ^’ _in为待处理音频中包含的左声道的音频数据，C ^’ _in为待处理音频数据中包含的中置声道的音频数据，Ls ^’ _in为待处理音频中包含的左环绕声道的音频数据；R _in为下混后生成的待处理右声道音频，R ^’ _in为待处理音频中包含的右声道的音频数据，Rs ^’ _in待处理音频中包含的右环绕声道的音频数据。

步骤103，对第一混响音频进行串扰消除处理，以生成优化后的第二混响音频。

在本申请实施例中，由于待处理音频中可能包含多个子声道的音频数据，而各个子声道之间会存在串扰，从而影响音频质量。以左右声道为例，在理想状态下，期望左声道音频由人的左耳接收，而右声道音频由人的右耳接收，但是在实际的传播环境中，左声道音频也会被人的右耳接收，而右声道音频也会由人的左耳接收，从而产生声道之间的串扰现象。因此，在对待处理音频进行混响处理，生成待处理音频对应的第一混响音频之后，还可以对第一混响音频进行串扰消除处理，以生成优化后的第二混响音频，从而进一步提升了混响音频的音频质量。

进一步的，在待处理音频包含多个子声道的音频数据时，可以首先确定出各个子声道对应的串扰消除滤波器系数，然后根据各个子声道分别对应的串扰消除滤波器系数对第一混响音频进行串扰消除处理。即在本申请实施例一种可能的实现方式中，上述步骤103，可以包括：

获取各个子声道对应的串扰消除滤波器系数；

作为一种可能的实现方式，可以在渲染参数中预先配置各个子声道对应的串扰消除滤波器系数，之后可以将子声道对应的串扰消除滤波器系数与该子声道及该子声道的串扰声道对应的第一子声道混响音频，进行矩阵相乘，以生成优化后的该子声道对应的第二子声道混响音频。

需要说明的是，子声道的串扰声道，可以是指会对该子声道的音频数据产生串扰的子声道。比如，左声道的串扰声道可以为右声道，右声道的串扰声道则可以为左声道；左环绕声道的串扰声道可以为右环绕声道，右环绕声道的串扰声道则可以为左环绕声道。

作为一种示例，在待处理音频的各个子声道中包括左声道与右声道时，可以采用如下公式表示对左声道对应的第一子声道混响音频（即前述的第一左声道混响音频）及右声道对应的第一子声道混响音频（即前述的第一右声道混响音频）进行串扰消除的过程：

其中，L _out2为第二左声道混响音频，L _out1为第一左声道混响音频，F ₁₁、F ₁₂为左声道对应的串扰消除滤波器系数，R _out2为第二右声道混响音频，R _out1为第一右声道混响音频，F ₂₁、F ₂₂为右声道对应的串扰消除滤波器系数。

作为一种示例，在待处理音频的各个子声道中包括左环绕声道与右环绕声道时，也可以采用上述公式相同的方法对左环绕声道对应的第一子声道混响音频进行串扰消除处理，以生成左环绕声道对应的第二子声道混响音频；以及对右环绕声道对应的第一子声道混响音频进行串扰消除处理，以生成右环绕声道对应的第二子声道混响音频，此处不再赘述。

需要说明的是，如果在上述生成第一混响音频之前，对多声道音频进行了下混，即第一混响音频中仅包含第一左声道混响音频及第一右声道混响音频，则第二混响音频中也仅包含第二左声道混响音频与第二右声道混响音频。

进一步的，由于在串扰消除时，在音频信号中叠加的串扰消除信号也会产生串扰，因此可以对音频信号进行高阶串扰消除处理，以进一步提升串扰消除的有效性。即在本申请实施例一种可能的实现方式中，上述渲染参数还可以包括各个子声道对应的串扰衰减因子、各个子声道对应的串扰延时误差及串扰消除损失函数；相应的，上述获取各个子声道对应的串扰消除滤波器系数，可以包括：

以下结合图示对串扰产生的原因、串扰消除的原理及本申请中需要实时确定串扰消除阶数的原因进行具体说明：

如图4所示，为人耳定位原理的示意图，其中，410为扬声器，420为用户的左耳，430为用户的右耳，440为扬声器410至左耳420之间的传播路径，450为扬声器410至右耳430之间的传播路径，x(t)为扬声器410发出的原始音频信号，h _L(t)为传播路径440的响应函数，h _R(t)为传播路径450的响应函数，x _L(t)为原始音频信号x(t)经传播路径440传输到左耳420后的音频信号，x _R(t)为原始音频信号x(t)经传播路径450传输到左耳430后的音频信号。人耳对音源的定位主要依靠双耳时间差、声强差和音色差，对于外放立体声（包含左声道音频和右声道音频）而言，理想情况下左声道音频信号应当到达左耳、右声道音频信号应当到达右耳，但由于存在串扰路径，往往使得左右声道音频信号同时被左耳和右耳接收，上述现象称为音频串扰。以左声道音频信号为例，左声道音频信号到达右耳的信号为串扰声，相应路径为串扰路径。

需要说明的是，以左声道音频信号为例，由于在实际场景中左声道音频也会被用户的右耳接收到，从而对右声道音频信号产生串扰，因此若对右声道音频信号进行串扰消除，则需要对左声道音频信号进行反相、衰减、延迟，以生成右耳处左声道串扰声的一个等幅反相信号，并将该等幅反相信号与右声道信号进行叠加，则可以将左声道音频信号在右耳处的串扰声抵消，从而实现对右声道音频信号的一阶串扰消除。由于反相信号自身也会形成串扰，因此通过迭代上述过程可实现二阶及高阶串扰声的反相抵消。

如图5所示，为立体声串扰简化模型的示意图，其中，l _LL为左扬声器510到达左耳530的传播路径，l _LR为左扬声器510到达右耳540的串扰路径，l _RR为右扬声器520到达右耳540的传播路径，l _RL为右扬声器520到达左耳530的串扰路径，扬声器间距为2K，人头宽度为2R，人头与扬声器连线的垂直距离为D，人头相对位置夹角为θ。则串扰延时量t可通过如下公式确定：

其中，c为声波在空气中的传播速度。

然而，用户头部位置在观影\听音时并非一成不变，且不同用户的观影\听音距离因人而异，因此延时量t并非定值，传播路径l _RR与串扰路径l _LR之间的衰减比例也并非定值，因此，如果采用固定的延时量t、固定的衰减比例以及固定的串扰阶数对音频信号进行串扰消除处理，只要用户的头部位置发生轻微变化，就会大大降低串扰消除的效果。

如图6和图7所示，图6为串扰延时量Δt随距离D的变化关系的示意图，其中，横轴表示上述距离D，单位为m，纵轴表示上述延时量Δt，单位为ms；图7为串扰延时量Δt随角度θ的变化关系的示意图，其中，横轴表示上述角度θ，单位为度（°），纵轴表示上述延时量Δt，单位为ms。如图6所示，距离D在0.4~0.6m范围时，串扰延时量的波动量约为55ms；如图7所示，角度θ在85~95°范围时，串扰延时量的波动量为140ms。可见，串扰延时量的波动量较大，这种扰动在高频处会引起严重的频谱色染，大大影响串扰消除的有效性。

因此，通过上述分析，在本申请实施例中，为了降低用户头部位置变化对串扰消除效果的影响，可以通过调整串扰消除的阶数，尽可能提升串扰消除的稳定性，扩大串扰消除的甜点位，降低频谱色染，使得用户的头部位置发生变化时，串扰消除的效果不会降低。

以下对本申请实施例中确定串扰消除阶数及串扰消除滤波器系数的方式，进行具体说明：

其中，子声道对应的串扰声道，可以是指会对该子声道的音频数据产生串扰的子声道。比如，左声道对应的串扰声道可以为右声道，相应的，右声道对应的串扰声道可以为左声道；又如，左环绕声道对应的串扰声道可以为右环绕声道，相应的，右环绕声道对应的串扰声道可以为左环绕声道。

其中，子声道对应的串扰衰减因子，可以是指预先设定的音频信号在该子声道的传播路径上的衰减与该子声道对应的串扰声道在串扰路径上的衰减的比值。比如，以图5为例，假设子声道为右声道，串扰声道则为左声道，则右声道对应的串扰衰减因子则为音频信号在传播路径l _RR上的衰减与在串扰路径l _LR上的衰减的比值。

其中，子声道对应的串扰延时误差，可以是指预先设定的、在进行串扰消除时使用的该子声道对应的串扰声道对该子声道的串扰延时量的波动范围。比如，以图5为例，假设子声道为右声道，串扰声道则为左声道，设当前固定位置时左声道在右声道上的串扰延时量为t，当用户头部与左右扬声器之间的距离在一定范围内波动时串扰延时量t对应变化区设为[t-Δt/2,t+Δt/2]，则右声道对应的串扰延时误差为Δt。

需要说明的是，各子声道对应的串扰衰减因子的具体取值，本申请实施例对此不做限定。实际使用时，可以根据实际需要及具体的应用场景，对用户使用电子设备时头部与电子设备的左右扬声器之间的距离与角度做统计分析，确定出用户头部与左右扬声器之间的距离波动范围与角度波动范围，进而根据距离波动范围与角度波动范围选取各个子声道对应的合适的串扰衰减因子及串扰延时误差，并作为默认渲染参数存储在电子设备中。

作为一种可能的实现方式，由于用户的头部位置变化对音频信号高频部分串扰消除的效果的影响较大，因此可以预设以音频信号的频率、串扰衰减因子、串扰延时误差及串扰消除阶数为变量的串扰消除损失函数，并对用户在实际使用场景中用户头部与扬声器之间的距离、角度等做统计分析，为各个子声道选取合适的串扰衰减因子及串扰延时误差作为默认渲染参数，之后对各个子声道对应的第一子声道混响音频进行串扰消除之前，则可以确定各个第一子声道混响音频的频率，并将各个子声道对应的串扰信道的第一子声道混响音频的频率，分别确定为该子声道对应的参考频率。之后，对于一个子声道，可以将该子声道对应的参考频率、串扰衰减因子、串扰延时误差及不同的串扰消除阶数，代入串扰消除损失函数，进而获取使得串扰消除损失函数的取值最小的串扰消除阶数，将其确定为该子声道对应的串扰消除阶数。最后，则可以根据该子声道对应的串扰消除阶数生成该子声道对应的串扰消除滤波器系数，之后则可以利用该子声道对应的串扰消除滤波器系数将该子声道的第一子声道混响音频与串扰信道的第一子声道混响音频进行融合，从而生成该子声道对应的第二子声道混响音频。

作为一种示例，串扰消除损失函数可以通过如下公式表示：

其中，Obj为串扰消除损失函数，k为串扰消除阶数，f为参考频率，α为串扰衰减因子，Δt为串扰延时误差。

作为一种示例，若子声道中包括左声道与右声道，即第一混响音频中包含第一左声道混响音频与第一右声道混响音频，则可以将左声道对应的参考频率（即第一右声道混响音频的频率）、串扰衰减因子及串扰延时误差代入上述公式，以确定左声道对应的串扰消除阶数；相应的，可以将右声道对应的参考频率（即第一左声道混响音频的频率）、串扰衰减因子及串扰延时误差代入上述公式，以确定右声道对应的串扰消除阶数，进而根据左声道对应的串扰消除阶数与右声道对应的串扰消除阶数，确定出串扰消除滤波器系数矩阵，进而可以根据该串扰消除滤波器系数矩阵对第一左声道混响音频及第一右声道混响音频进行串扰消除，从而生成第一左声道混响音频对应的第二左声道混响音频，以及生成第一右声道混响音频对应的第二右声道混响音频。

作为一种示例，若子声道中还包括左环绕声道与右环绕声道，即第一混响音频中包含第一左环绕声道混响音频与第一右环绕声道混响音频，则可以将左环绕声道对应的参考频率（即第一右环绕声道混响音频的频率）、串扰衰减因子及串扰延时误差代入上述公式，以确定左环绕声道对应的串扰消除阶数；相应的，可以将右环绕声道对应的参考频率（即第一左环绕声道混响音频的频率）、串扰衰减因子及串扰延时误差代入上述公式，以确定右环绕声道对应的串扰消除阶数，进而根据左环绕声道对应的串扰消除阶数与右环绕声道对应的串扰消除阶数，确定出串扰消除滤波器系数矩阵，进而可以根据该串扰消除滤波器系数矩阵对第一左环绕声道混响音频及第一右环绕声道混响音频进行串扰消除，从而生成第一左环绕声道混响音频对应的第二左环绕声道混响音频，以及生成第一右环绕声道混响音频对应的第二右环绕声道混响音频。

举例来说，如图8所示，为某特定频率下串扰消除阶数与抵消误差的变化关系示意图，其中，曲线810为存在串扰延时误差时串扰消除阶数与抵消误差（串扰消除损失函数的取值）之间的变化关系，曲线820为理想情况下串扰消除阶数与抵消误差之间的变化关系，其中，理想情况是指用户头部与扬声器之间的位置关系保持固定。从图8中可以看出，在该特定频率下，以48K的采样率对该音频数据进行采样，在4采样点误差（Δt为4采样点）下，使得抵消误差最小的串扰消除阶数为3，即可以确定对该音频数据进行串扰消除的串扰消除阶数为3。

作为一种可能的实现方式，由于音频信号通常为多个频率信号复合的信号，即音频信号通常具有一定的带宽，而音频信号的频率不同适用的串扰消除阶数也是不同的，因此在确定子声道对应的滤波器系数时，可以利用预设的分频器将该子声道对应的串扰声道的第一子声道混响音频进行分频处理，以将串扰声道的第一子声道混响音频的带宽划分为N个频带范围，对于每个频带范围，可以将该频带范围内的频率最大值作为参考频率，代入上述串扰消除损失函数，以确定该第一子声道混响音频在该频带范围内的串扰消除阶数，进而根据串扰声道的第一子声道混响音频在各个频带范围内的串扰消除阶数，确定该子声道对应的滤波器系数，从而进一步扩大了串扰消除的甜点位，进一步提升了串扰消除的有效性和稳定性。

如图9所示，为一种扩大甜点位的串扰消除算法的流程示意图，假设待处理音频的子声道中包括左声道与右声道，即第一混响音频中包括第一左声道混响音频及第一右声道混响音频，图9中的L代表左声道对应的处理链路，R表示右声道对应的处理链路，则可以将第一左声道混响音频输入图9中左声道对应的处理链路，并根据第一左声道混响音频的频率范围，通过分频器将第一左声道混响音频划分至N个频带（即按照频率将第一左声道混响音频分离为N个音频数据），其中，N为大于或等于1的整数；之后，根据第一左声道混响音频对应的N个频带的最大值，分别确定N个频带分别对应的串扰消除阶数（第j个频带的串扰消除阶数可以表示为i_j，其中，j为大于等于1且小于等于N的整数）；之后，根据第j个频带对应的串扰消除阶数对第j个频带对应的音频数据进行i_j阶的串扰消除处理；最后，将N个频带的串扰消除结果进行融合；同样的，按照上述相同的过程，将第一右声道混响音频输入图9中的右声道对应的处理链路，可以得到对第一右声道混响音频对应的串扰消除结果，从而按照图9所示的流程对第一左声道混响音频及第二右声道混响音频进行处理之后，即可以生成左声道及右声道对应的串扰消除滤波器系数。

需要说明的是，若待处理音频的子声道中还包括出左声道及右声道之外的其他声道，也可以将其他声道的音频数据通过图9所示的流程进行处理，以生成其他声道对应的串扰消除滤波器系数，本申请实施例对此不做限定。

步骤104，根据渲染参数，对待处理音频进行HRTF渲染，以确定待处理音频对应的直达声音频。

在本申请实施例中，通过前述步骤对待处理音频进行混响处理及串扰消除之后，生成了效果较好的混响音频，从而提升了音频的空间感距离感；但是，由于人耳最终接收到的音频包含直达声与混响两个部分，因此，还可以对待处理音频进行HRTF渲染，以提升直达声的音频质量，使得用户可以通过待处理音频对应的直达声音频体验到较好的力度感、定位感及清晰度，使得音频更加具有层次。

作为一种可能的实现方式，可以根据期望用户感知到的声源位置，生成预设的HRTF渲染参数，并作为默认渲染参数存储在电子设备中，从而在对待处理音频进行HRTF渲染时，直接获取预设的HRTF渲染参数对待处理音频进行HRTF渲染处理，以生成待处理音频对应的直达声音频。

作为一种可能的实现方式，还可以允许用户根据自身需求自行设定期望感受到的声源位置，并可以根据获取到的用户的设置信息，确定HRTF渲染参数，并根据确定出的HRTF渲染参数，对待处理音频进行HRTF渲染处理，以生成待处理音频对应的直达声音频。

举例来说，可以向用户提供如图2所示的设置界面200，以使用户可以通过设置界面200中的方位渲染控件230及高度渲染控件231、宽度渲染控件232，设定方位渲染参数，之后则可以根据设定的方位渲染参数，确定HRTF渲染参数，以对待处理音频进行HRTF渲染处理。

步骤105，对第二混响音频及直达声音频进行融合处理，以生成优化后的目标音频。

在本申请实施例中，对待处理音频进行混响处理及HRTF渲染处理之后，则可以将得到的第二混响音频与直达声音频进行融合处理，以生成优化后的目标音频，从而布局提升了目标音频的空间感、距离感，而且提升了目标音频的力度感、定位感及清晰度，使得音频更加具有层次。

进一步的，为了使得用户感受到更优的距离感，还可以通过对第二混响音频进行摔跤处理，以提升音频的距离感。即在本申请实施例一种可能的实现方式中，上述步骤105之前，还可以包括：

据衰减系数对第二混响音频进行衰减处理，以对第二混响音频进行距离控制。

作为一种可能的实现方式，由于音频信号传播不同的距离，所产生的衰减是不同的，传播的距离越远，音频信号的衰减则越大。因此，在本申请实施例中，可以根据期望用户感受到的距离感，设定相应是衰减系数，并通过衰减系数对第二混响音频进行衰减处理，以实现对第二混响音频的距离控制。之后，即可将进行衰减后的第二混响音频与直达声音频进行融合处理，以使最终生成的目标音频具有更优的距离感。

作为一种可能的实现方式，在将第二混响音频与直达声音频进行融合，并生成目标音频之后，还可以对目标音频进行后置增益处理。

本申请实施例提供的音频声像优化方法，通过根据渲染参数，对待处理音频进行混响处理，以生成待处理音频对应的第一混响音频，并对第一混响音频进行串扰消除处理，以生成优化后的第二混响音频，之后根据渲染参数，对待处理音频进行HRTF渲染，以确定待处理音频对应的直达声音频，进而对第二混响音频及直达声音频进行融合处理，以生成优化后的目标音频。由此，通过混响链路与直达声链路分别对待处理音频进行混响处理及HRTF渲染处理，并对混响音频进行串扰消除，以通过混响处理提升音频的空间感和距离感，以及通过HRTF渲染处理提升音频的定位感、力度感及清晰度，以及通过串扰消除降低了多个声道之间的互相干扰，从而提升了外放音频的音质，改善了用户的影音体验。

下面结合图10，对本申请实施例提供的音频声像优化方法进行进一步说明。

图10示出了本申请实施例提供的另一种音频声像优化方法的流程示意图。

如图10所示，该音频声像优化方法，包括以下步骤：

步骤1001，获取待处理音频及待处理音频对应的渲染参数，其中，待处理音频中包括至少两个子声道的音频数据，渲染参数包括方位渲染参数。

其中，子声道，可以包括中置声道、左声道、右声道、左环绕声道、右环绕声道，等等。实际使用时，待处理音频中包含的子声道的类型与待处理音频的音频类型有关，本申请实施例对此不做限定。

其中，方位渲染参数，可以是指表示待处理音频对应的虚源位置的参数。需要说明的是，虚源位置是指期望用户感知到的待处理音频的声源位置；也就是说，根据方位渲染参数对待处理音频进行渲染之后，用户会认为渲染后的音频是从虚源位置发出的。

上述步骤1001的具体实现过程及原理，可以参照前述实施例的详细描述，此处不再赘述。

步骤1002，根据渲染参数，对待处理音频进行混响处理，以生成待处理音频对应的第一混响音频。

步骤1003，对第一混响音频进行串扰消除处理，以生成优化后的第二混响音频。

上述步骤1002-1003的具体实现过程及原理，可以参照前述实施例的详细描述，此处不再赘述。

步骤1004，根据方位渲染参数，确定各个子声道对应的目标HRTF渲染参数。

其中，子声道对应的HRTF渲染参数，可以是指对该子声道的音频数据进行HRTF渲染时采用的渲染参数；HRTF渲染参数的物理含义为音频从空间中任一个位置传输到人耳对应的滤波器矩阵。

在本申请实施例中，由于不同声道的音频数据可以使得用户感知到声源的不同方位信息，比如，左右声道的音频数据可以使得用户感知到声源的宽度方位信息，中置声道的音频数据可以使得用户感知到声源的高度方位信息，因此，可以对各个子声道的音频数据分别进行HRTF渲染，以使各个子声道的音频数据可以分别携带虚源位置的不同方位信息。从而，可以根据方位渲染参数与各个子声道的对应关系，分别确定各个子声道对应的目标HRTF渲染参数。

进一步的，在子声道中包含中置声道、左声道及右声道时，可以通过中置声道的音频数据表示声源高度，并可以通过左右声道表示声源宽度。即在本申请实施例一种可能的实现方式中，上述方位渲染参数可以包括高度渲染参数及宽度渲染参数，上述子声道至少包括中置声道、左声道及右声道；相应的，上述步骤1004，可以包括：

根据高度渲染参数，确定中置声道对应的目标HRTF渲染参数；

其中，所述高度渲染参数，可以用于表示待处理音频对应的虚源位置的俯仰角范围。

其中，所述宽度渲染参数，可以用于表示待处理音频对应的虚源位置的水平方位角范围。

作为一种可能的实现方式，可以根据高度渲染参数中包含的俯仰角范围，该俯仰角范围对应位置的HRTF滤波器矩阵，并将该HRTF滤波器矩阵确定为中置声道对应的目标HRTF渲染参数；并可以根据宽度渲染参数中包含的水平方位角范围，确定该水平方位角范围对应位置的HRTF滤波器矩阵，并将该HRTF滤波器矩阵确定为左声道及右声道对应的目标HRTF渲染参数。

需要说明的是，在待处理音频为多声道数据时，待处理音频的各个子声道中除了包含中置声道、左声道及右声道，还可能包含左环绕声道、右环绕声道等声道，在这种情况下，也可以根据宽度渲染参数，确定出左环绕声道、右环绕声道等声道对应的目标HRTF渲染参数。

进一步的，本申请实施例还可以通过实验的方式，预先测量出空间中多个位置对应的HRTF滤波器矩阵进行测量，之后可以根据预设的HRTF数据，生成实际的方位渲染参数对应的HRTF渲染参数。即在本申请实施例一种可能的实现方式中，上述步骤1004，可以包括：

其中，预设的HRTF数据，可以包括以人头为圆心的球面上的多个空间位置对应的HRTF滤波器矩阵。需要说明的是，预设的HRTF数据中可以包含大量空间位置对应的HRTF滤波器矩阵，以通过预设的HRTF数据可以直接得到大量空间位置的HRTF渲染参数。

作为一种可能的实现方式，由于预设的HRTF数据中不会也没有必要包含无限个空间位置的渲染参数，因此，预设的HRTF数据中可以未包含方位渲染参数对应的声源位置的HRTF滤波器矩阵，因此如果直接将预设HRTF数据中与声源位置邻近的空间位置的HRTF滤波器矩阵，确定为目标HRTF渲染参数，则会因为确定的目标HRTF渲染参数不准确，导致出现声视差效应。因此，在本申请实施例中，若预设的HRTF数据中可以未包含声源位置的HRTF滤波器矩阵，则可以通过方位渲染参数及预设的HRTF数据，确定声源位置在预设的HRTF数据中的邻近空间位置，进而根据各个邻近空间位置的HRTF滤波器矩阵进行在预设的HRTF数据中进行插值，以生成声源位置对应的HRTF滤波器矩阵，即生成各个子声道对应的目标HRTF渲染参数，从而实现对各个子声道声源位置的校准，扩大了HRTF渲染的甜点位，提升了HRTF渲染的准确性和稳定性。

需要说明的是，在根据高度渲染参数，确定中置声道对应的目标HRTF渲染参数，以及根据宽度渲染参数，确定左声道及右声道对应的目标HRTF渲染参数时，也可以采用上述预设的HRTF数据，对声源位置进行校准，以生成各个子声道较为准确的目标HRTF渲染参数。

进一步的，在待处理音频的音频类型为立体声音频时，由于立体声音频中仅包含左声道音频与右声道音频，则可以在对待处理音频进行HRTF渲染之前对待处理音频进行上混，以实现对待处理音频的HRTF渲染。即在本申请实施例一种可能的实现方式中，上述步骤1004之前，还可以包括：

作为一种可能的实现方式，在待处理音频为立体声音频时，可以对待处理音频的左声道音频及待处理右声道音频进行主成分分析，以确定待处理音频对应的主特征向量，进而根据该主特征向量对待处理音频进行中置声道提取，以确定待处理音频对应的待处理中置声道音频，进而可以将待处理音频中包含的待处理左声道音频、待处理右声道音频，以及生成的待处理中置声道音频作为各个子声道的音频数据，进行后续的HRTF渲染处理。

作为一种示例，可以通过如下公式对待处理音频进行中置声道提取：

其中，为待处理中置声道音频，/>为待处理音频，/>为待处理音频对应的主特征向量，/>为环境声。

步骤1005，根据每个子声道对应的目标HRTF渲染参数，分别对每个子声道的音频数据进行HRTF渲染，以确定每个子声道对应的直达声音频。

在本申请实施例中，确定出每个子声道对应的目标HRTF渲染参数之后，即可以根据每个子声道对应的目标HRTF渲染参数，分别对每个子声道的音频数据进行HRTF渲染处理，从而生成每个子声道对应的直达声音频。

进一步的，由于中置声道的音频数据主要为人声，因此还可以对中置声道的直达声音频进行增强处理，以进一步提升音频的清晰度。即在本申请实施例一种可能的实现方式中，上述步骤1005之后，还可以包括：

作为一种可能的实现方式，中置声增强参数可以是预先根据实验确定的默认渲染参数，从而在对中置声道对应的直达声音频进行增强时，可以采用该预设的中置声增强参数将中置声道对应的直达声音频增强至预设水平。

作为一种可能的实现方式，中置声增强参数还可以是用户根据实际需求设定的，比如可以允许用户通过如图2所述的设置界面200中人声增强控件220，确定是否开启人声增强；若用户未开启人声增强，则可以不对中置声道对应的直达声音频进行增强处理；若用户开启了人声增强，则可以采用中置声道增强参数对中置声道对应的直达声音频进行增强处理，以使得音频的清晰度可以符合用户当前的实际使用需求。

步骤1006，对第二混响音频及直达声音频进行融合处理，以生成优化后的目标音频。

在本申请实施例中，对待处理音频进行混响处理及HRTF渲染处理之后，则可以将混响处理后生成的第二混响音频与HRTF渲染处理后生成的直达声音频进行融合处理，以生成优化后的目标音频。

进一步的，为了进一步提升音频质量，还可以对HRTF渲染后生成的直达声音频进行串扰消除。即在本申请实施例一种可能的实现方式中，上述子声道至少可以包括中置声道、左声道及右声道；相应的，上述步骤1006之前，还可以包括：

需要说明的时，对左声道对应的直达声音频及右声道对应的直达声音频进行串扰消除处理的方式，以及串扰消除滤波器系数的确定方式，均与上述实施例中对待处理音频中的待处理左声道数据及待处理右声道数据进行串扰消除的方式，以及串扰消除滤波器系数的确定方式相同，具体的实现过程及原理可以参照上述实施例的详细描述，此处不再赘述。

进一步的，在待处理音频为多声道数据时，待处理音频中的子声道中还可以包含左环绕声道及右环绕声道等其他声道，因此还可以对左环绕声道及右环绕声道对应的直达声音频进行串扰消除处理。即在本申请实施例一种可能的实现方式中，上述子声道还可以包括左环绕声道及右环绕声道；相应的，上述步骤1006之前，还可以包括：

需要说明的时，对左环绕声道对应的直达声音频及右环绕声道对应的直达声音频进行串扰消除处理的方式，以及串扰消除滤波器系数的确定方式，均与上述实施例中对待处理音频中的待处理左声道数据及待处理右声道数据进行串扰消除的方式，以及串扰消除滤波器系数的确定方式相同，具体的实现过程及原理可以参照上述实施例的详细描述，此处不再赘述。

可以理解的是，由于在理想情况下，希望用户的双耳均能获取到中置声道的音频数据，因此中置声道不存在串扰声道，因此，可以不对中置声道对应的直达声音频进行串扰消除处理。

进一步的，在第二混响音频包含的子声道与直达声音频包含的子声道不同时，还可以将两者的声道统一之后再进行融合处理。即在本申请实施例一种可能的实现方式中，上述步骤1006之前，还可以包括：

根据各个子声道对应的直达声音频进行下混处理。

作为一种可能的实现方式，若待处理音频为不仅包含左声道和右声道的多声道数据，并在对待处理音频进行混响之前对待处理音频进行了下混，即第二混响音频中仅包含第二左声道混响音频与第二右声道混响音频；而在这种情况下，对待处理音频进行HRTF渲染处理后生成的直达声音频中则不仅包括左右声道对应的直达声音频，还包括其他子声道对应的直达声音频，因此，可以对各个子声道对应的直达声音频进行下混处理，以将各个子声道对应的直达声音频转换为左声道对应的直达声音频与右声道对应的直达声音频；之后，即可以将第二左声道混响音频与左声道对应的直达声音频进行融合，以生成目标左声道音频，并将第二右声道混响音频与右声道对应的直达声音频进行融合，以生成目标右声道音频，即优化后的目标音频中包含目标左声道音频与目标右声道音频。

作为一种可能的实现方式，若待处理音频的音频类型为立体声音频，即待处理音频包含左声道及右声道，第二混响音频中包含第二左声道混响音频与第二右声道混响音频；而在这种情况下，如果在对待处理音频进行HRTF渲染之前，对待处理音频进行了中置声道提取，则HRTF渲染后生成的直达声音频中可以包含中置声道对应的直达声音频、左声道对应的直达声音频及右声道对应的直达声音频；从而，在这种情况下，也可以对中置声道、左声道及右声道对应的直达声音频进行下混处理，以生成左声道对应的直达声音频及右声道对应的直达声音频；之后，即可以将第二左声道混响音频与左声道对应的直达声音频进行融合，以生成目标左声道音频，并将第二右声道混响音频与右声道对应的直达声音频进行融合，以生成目标右声道音频，即优化后的目标音频中包含目标左声道音频与目标右声道音频。

本申请实施例提供的音频声像优化方法，通过根据渲染参数，对待处理音频进行混响处理，以生成待处理音频对应的第一混响音频，并对第一混响音频进行串扰消除处理，以生成优化后的第二混响音频，之后根据方位渲染参数，确定各个子声道对应的目标HRTF渲染参数，并根据每个子声道对应的目标HRTF渲染参数，分别对每个子声道的音频数据进行HRTF渲染，以确定每个子声道对应的直达声音频，进而对第二混响音频及直达声音频进行融合处理，以生成优化后的目标音频。由此，通过混响链路与直达声链路分别对待处理音频进行混响处理及HRTF渲染处理，以通过混响处理提升音频的空间感和距离感，以及通过方位渲染参数分别对各子声道进行不同的渲染处理，并对各子声道的HRTF渲染参数进行渲染，降低了HRTF渲染的声视差效应，扩大了HRTF渲染的甜点位，进一步提升了HRTF渲染处理的有效性和稳定性，进一步提升了音频的定位感、力度感及清晰度，以及通过对混响音频和HRTF发渲染后的直达声音频进行串扰消除降低了多个声道之间的互相干扰，从而进一步提升了外放音频的音质，进一步改善了用户的影音体验。

下面结合图11，对本申请实施例提供的音频声像优化方法进行进一步说明。

图11示出了本申请实施例提供的一种音频声像优化方法的总体方案的流程示意图。

如图11所示，图11中的C、L、R、Ls与Rs，分别表示中置声道、左声道、右声道、左环绕声道及右环绕声道。在获取到输入的待处理音频时，可以首先对待处理音频进行前置增益，之后分别通过混响链路与直达声链路，对增益后的待处理音频进行混响和HRTF渲染处理。在混响链路中，若待处理音频为立体声音频，则可以对待处理音频透传；若待处理音频为多声道音频（如包含中置声道、左声道、右声道、左环绕声道及右环绕声道的5.1声道音频），则可以对待处理音频进行下混；之后对透传或下混后的音频进行依次进行混响渲染、串扰消除及距离控制，以生成混响音频。在直达声链路中，若待处理音频为立体声音频，则对立体声音频上混为包含中置声道、左声道及右声道的三声道音频；若待处理音频为多声道音频（如5.1声道音频），则对待处理音频进行透传；之后对透传或上混后的音频的各个声道依次进行HRTF校准、HRTF渲染，并对HRTF渲染后的左右声道音频\左右环绕声道音频进行串扰消除，以及对HRTF渲染后的中置声道音频进行透传；进而对串扰消除后各个声道的音频进行下混。之后将混响链路输出的混响音频和直达声链路输出的直达声音频进行融合；最后将融合后生成的音频进行后置增益，并将后置增益后生成的音频作为目标音频输出。

需要说明的是，本申请实施例的其他具体实现过程及原理，可以参照上述实施例的详细描述，此次不再赘述。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

对应于上文实施例所述的音频声像优化方法，图12示出了本申请实施例提供的音频声像优化装置的结构框图，为了便于说明，仅示出了与本申请实施例相关的部分。

参照图12，该装置1200，包括：

第一获取模块1201，用于获取待处理音频及待处理音频对应的渲染参数；

第一混响模块1202，用于根据渲染参数，对待处理音频进行混响处理，以生成待处理音频对应的第一混响音频；

第一串扰消除模块1203，用于对第一混响音频进行串扰消除处理，以生成优化后的第二混响音频；

第一渲染模块1204，用于根据渲染参数，对待处理音频进行HRTF渲染，以确定待处理音频对应的直达声音频；

第一融合模块1205，用于对第二混响音频及直达声音频进行融合处理，以生成优化后的目标音频。

在实际使用时，本申请实施例提供的音频声像优化装置，可以被配置在任意电子设备中，以执行前述音频声像优化方法。

本申请实施例提供的音频声像优化装置，通过根据渲染参数，对待处理音频进行混响处理，以生成待处理音频对应的第一混响音频，并对第一混响音频进行串扰消除处理，以生成优化后的第二混响音频，之后根据渲染参数，对待处理音频进行HRTF渲染，以确定待处理音频对应的直达声音频，进而对第二混响音频及直达声音频进行融合处理，以生成优化后的目标音频。由此，通过混响链路与直达声链路分别对待处理音频进行混响处理及HRTF渲染处理，并对混响音频进行串扰消除，以通过混响处理提升音频的空间感和距离感，以及通过HRTF渲染处理提升音频的定位感、力度感及清晰度，以及通过串扰消除降低了多个声道之间的互相干扰，从而提升了外放音频的音质，改善了用户的影音体验。

在本申请的一种可能的实现方式中，上述待处理音频中包括至少两个子声道的音频数据，上述渲染参数包括各个子声道对应的房间脉冲响应，上述第一混响音频包括各个子声道对应的第一子声道混响音频；相应的，上述第一混响模块1202，包括：

进一步的，在本申请另一种可能的实现方式中，上述待处理音频的音频类型为多声道音频；相应的，上述装置1200，还包括：

进一步的，在本申请再一种可能的实现方式中，上述第二混响音频包括各个子声道对应的第二子声道混响音频；相应的，上述第一串扰消除模块1203，包括：

进一步的，在本申请又一种可能的实现方式中，上述渲染参数还包括各个子声道对应的串扰衰减因子、各个子声道对应的串扰延时误差及串扰消除损失函数；相应的，上述第一获取单元，具体用于：

进一步的，在本申请另一种可能的实现方式中，上述装置1200，还包括：

进一步的，在本申请再一种可能的实现方式中，上述待处理音频中包括至少两个子声道的音频数据，上述渲染参数还包括方位渲染参数；相应的，上述第一渲染模块1204，包括：

进一步的，在本申请又一种可能的实现方式中，上述待处理音频的音频类型为立体声音频，上述子声道包括左声道及右声道，上述子声道音频包括待处理左声道音频及待处理右声道音频；相应的，上述第一渲染模块1204，还包括：

进一步的，在本申请又一种可能的实现方式中，上述方位渲染参数包括高度渲染参数及宽度渲染参数，上述子声道至少包括中置声道、左声道及右声道；相应的，上述第一确定单元，具体用于：

根据高度渲染参数，确定中置声道对应的目标HRTF渲染参数；

进一步的，在本申请另一种可能的实现方式中，上述第一确定单元，还用于：

进一步的，在本申请再一种可能的实现方式中，上述渲染参数还包括中置声道增强参数，上述子声道包括中置声道；相应的，上述第一渲染模块1204，还包括：

进一步的，在本申请又一种可能的实现方式中，上述子声道至少包括中置声道、左声道及右声道；相应的，上述装置1200，还包括：

进一步的，在本申请又一种可能的实现方式中，上述子声道还包括左环绕声道及右环绕声道；相应的，上述装置1200，还包括：

需要说明的是，上述装置/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

为了实现上述实施例，本申请还提出一种电子设备。

图13为本申请一个实施例的电子设备的结构示意图。

如图13所示，上述电子设备1300包括：

存储器1310及至少一个处理器1320，连接不同组件（包括存储器1310和处理器1320）的总线1330，存储器1310存储有计算机程序，当处理器1320执行所述程序时实现本申请实施例所述的音频声像优化方法。

总线1330表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构（ISA）总线，微通道体系结构（MAC）总线，增强型ISA总线、视频电子标准协会（VESA）局域总线以及外围组件互连（PCI）总线。

电子设备1300典型地包括多种电子设备可读介质。这些介质可以是任何能够被电子设备1300访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器1310还可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器（RAM）1340和/或高速缓存存储器1350。电子设备1300可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统1360可以用于读写不可移动的、非易失性磁介质（图13未显示，通常称为“硬盘驱动器”）。尽管图13中未示出，可以提供用于对可移动非易失性磁盘（例如“软盘”）读写的磁盘驱动器，以及对可移动非易失性光盘（例如CD-ROM, DVD-ROM或者其它光介质）读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线1330相连。存储器1310可以包括至少一个程序产品，该程序产品具有一组（例如至少一个）程序模块，这些程序模块被配置以执行本申请各实施例的功能。

具有一组（至少一个）程序模块1370的程序/实用工具1380，可以存储在例如存储器1310中，这样的程序模块1370包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块1370通常执行本申请所描述的实施例中的功能和/或方法。

电子设备1300也可以与一个或多个外部设备1390（例如键盘、指向设备、显示器1391等）通信，还可与一个或者多个使得用户能与该电子设备1300交互的设备通信，和/或与使得该电子设备1300能与一个或多个其它计算设备进行通信的任何设备（例如网卡，调制解调器等等）通信。这种通信可以通过输入/输出（I/O）接口1392进行。并且，电子设备1300还可以通过网络适配器1393与一个或者多个网络（例如局域网（LAN），广域网（WAN）和/或公共网络，例如因特网）通信。如图所示，网络适配器1393通过总线1330与电子设备1300的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备1300使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理器1320通过运行存储在存储器1310中的程序，从而执行各种功能应用以及数据处理。

需要说明的是，本实施例的电子设备的实施过程和技术原理参见前述对本申请实施例的音频声像优化方法的解释说明，此处不再赘述。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在电子设备上运行时，使得电子设备执行时实现可实现上述各个方法实施例中的步骤。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括：能够将计算机程序代码携带到装置/电子设备的任何实体或装置、记录介质、计算机存储器、只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/电子设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/电子设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种音频声像优化方法，其特征在于，包括：

获取待处理音频及所述待处理音频对应的渲染参数，其中，所述待处理音频中包括至少两个子声道的音频数据，所述渲染参数包括各个所述子声道对应的串扰衰减因子、各个所述子声道对应的串扰延时误差及串扰消除损失函数；

根据所述渲染参数，对所述待处理音频进行混响处理，以生成所述待处理音频对应的第一混响音频，其中，所述第一混响音频包括各个所述子声道对应的第一子声道混响音频；

对所述第一混响音频进行串扰消除处理，以生成优化后的第二混响音频，其中，对所述第一混响音频进行串扰消除处理时使用的串扰消除阶数是根据各个所述第一子声道混响音频的频率及各个所述串扰衰减因子、各个所述串扰延时误差及所述串扰消除损失函数确定的；

根据所述渲染参数，对所述待处理音频进行头相关传输函数HRTF渲染，以确定所述待处理音频对应的直达声音频；

对所述第二混响音频及所述直达声音频进行融合处理，以生成优化后的目标音频。

2.如权利要求1所述的方法，其特征在于，所述渲染参数包括各个所述子声道对应的房间脉冲响应，所述根据所述渲染参数，对所述待处理音频进行混响处理，以生成所述待处理音频对应的第一混响音频，包括：

将每个所述子声道的音频数据与对应的所述房间脉冲响应进行卷积处理，以分别生成每个所述第一子声道混响音频。

3.如权利要求2所述的方法，其特征在于，所述待处理音频的音频类型为多声道音频，所述根据所述渲染参数，对所述待处理音频进行混响处理，以生成所述待处理音频对应的第一混响音频之前，还包括：

对所述待处理音频进行下混处理，以生成所述待处理音频对应的待处理左声道音频及待处理右声道音频；

将所述待处理左声道音频及所述待处理右声道音频，确定为所述待处理音频包括的各个所述子声道的音频数据。

4.如权利要求2所述的方法，其特征在于，所述第二混响音频包括各个所述子声道对应的第二子声道混响音频，所述对所述第一混响音频进行串扰消除处理，以生成优化后的第二混响音频，包括：

获取各个所述子声道对应的串扰消除滤波器系数；

根据每个所述子声道对应的所述串扰消除滤波器系数，分别对每个所述第一子声道混响音频进行串扰消除处理，以生成优化后的每个所述第二子声道混响音频。

5.如权利要求4所述的方法，其特征在于，所述获取各个所述子声道对应的串扰消除滤波器系数，包括：

获取每个所述子声道对应的串扰声道的第一子声道混响音频的频率，分别作为每个所述子声道对应的参考频率；

根据每个所述子声道对应的所述参考频率、每个所述串扰衰减因子、每个所述串扰延时误差及所述串扰消除损失函数，分别确定每个所述子声道对应的串扰消除阶数；

根据每个所述子声道对应的串扰消除阶数，分别确定每个所述子声道对应的串扰消除滤波器系数。

6.如权利要求1所述的方法，其特征在于，所述对所述第二混响音频及直达声音频进行融合处理，以生成优化后的目标音频之前，还包括：

根据衰减系数对所述第二混响音频进行衰减处理，以对所述第二混响音频进行距离控制。

7.如权利要求1-6任一所述的方法，其特征在于，所述待处理音频中包括至少两个子声道的音频数据，所述渲染参数还包括方位渲染参数，所述根据所述渲染参数，对所述待处理音频进行HRTF渲染，以确定所述待处理音频对应的直达声音频，包括：

根据所述方位渲染参数，确定各个所述子声道对应的目标HRTF渲染参数；

根据每个所述子声道对应的目标HRTF渲染参数，分别对每个所述子声道的音频数据进行HRTF渲染，以确定每个所述子声道对应的直达声音频。

8.如权利要求7所述的方法，其特征在于，所述待处理音频的音频类型为立体声音频，所述子声道包括左声道及右声道，所述子声道的音频数据包括待处理左声道音频及待处理右声道音频，所述根据所述方位渲染参数，确定各个所述子声道对应的目标HRTF渲染参数之前，还包括：

对所述待处理左声道音频及所述待处理右声道音频进行中置声道提取，以确定所述待处理音频对应的待处理中置声道音频；

将所述待处理左声道音频、待处理右声道音频及所述待处理中置声道音频，确定为所述待处理音频中包括的各个所述子声道的音频数据。

9.如权利要求7所述的方法，其特征在于，所述方位渲染参数包括高度渲染参数及宽度渲染参数，所述子声道至少包括中置声道、左声道及右声道，所述根据所述方位渲染参数，确定各个所述子声道对应的目标HRTF渲染参数，包括：

根据所述高度渲染参数，确定所述中置声道对应的目标HRTF渲染参数；

根据所述宽度渲染参数，确定所述左声道及所述右声道对应的目标HRTF渲染参数。

10.如权利要求7所述的方法，其特征在于，所述根据所述方位渲染参数，确定各个所述子声道对应的目标HRTF渲染参数，包括：

根据所述方位渲染参数及预设的HRTF数据，对各个所述子声道的声源位置进行校准，以生成各个所述子声道对应的目标HRTF渲染参数。

11.如权利要求7所述的方法，其特征在于，所述渲染参数还包括中置声道增强参数，所述子声道包括中置声道，所述根据每个所述子声道对应的目标HRTF渲染参数，分别对每个所述子声道的音频数据进行HRTF渲染，以确定每个所述子声道对应的直达声音频之后，还包括：

根据所述中置声道增强参数对所述中置声道对应的直达声音频进行增强处理。

12.如权利要求7所述的方法，其特征在于，所述子声道至少包括中置声道、左声道及右声道，所述对所述第二混响音频及所述直达声音频进行融合处理，以生成优化后的目标音频之前，还包括：

对所述左声道对应的直达声音频及所述右声道对应的直达声音频进行串扰消除处理。

13.如权利要求12所述的方法，其特征在于，所述子声道还包括左环绕声道及右环绕声道，所述对所述第二混响音频及所述直达声音频进行融合处理，以生成优化后的目标音频之前，还包括：

对所述左环绕声道对应的直达声音频及所述右环绕声道对应的直达声音频进行串扰消除处理。

14.如权利要求7所述的方法，其特征在于，所述对所述第二混响音频及所述直达声音频进行融合处理，以生成优化后的目标音频之前，还包括：

根据各个所述子声道对应的直达声音频进行下混处理。

15.一种音频声像优化装置，其特征在于，包括：

第一获取模块，用于获取待处理音频及所述待处理音频对应的渲染参数，其中，所述待处理音频中包括至少两个子声道的音频数据，所述渲染参数包括各个所述子声道对应的串扰衰减因子、各个所述子声道对应的串扰延时误差及串扰消除损失函数；

第一混响模块，用于根据所述渲染参数，对所述待处理音频进行混响处理，以生成所述待处理音频对应的第一混响音频，其中，所述第一混响音频包括各个所述子声道对应的第一子声道混响音频；

第一串扰消除模块，用于对所述第一混响音频进行串扰消除处理，以生成优化后的第二混响音频，其中，对所述第一混响音频进行串扰消除处理时使用的串扰消除阶数是根据各个所述第一子声道混响音频的频率及各个所述串扰衰减因子、各个所述串扰延时误差及所述串扰消除损失函数确定的；

第一渲染模块，用于根据所述渲染参数，对所述待处理音频进行HRTF渲染，以确定所述待处理音频对应的直达声音频；

第一融合模块，用于对所述第二混响音频及所述直达声音频进行融合处理，以生成优化后的目标音频。

16.一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-14中任一项所述的方法。

17.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-14中任一项所述的方法。