CN114067810A

CN114067810A - 音频信号渲染方法和装置

Info

Publication number: CN114067810A
Application number: CN202010763577.3A
Authority: CN
Inventors: 王宾; 加文·科尔尼; 卡尔·阿姆斯特朗; 丁建策; 王喆
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2020-07-31
Filing date: 2020-07-31
Publication date: 2022-02-18
Also published as: US20230179941A1; TWI819344B; TW202215863A; WO2022022293A1

Abstract

本申请提供一种音频信号渲染方法和装置。该音频信号渲染方法可以包括：一种音频信号渲染方法，其特征在于，包括：通过解码接收的码流获取待渲染音频信号；获取控制信息，该控制信息用于指示内容描述元数据、渲染格式标志信息、扬声器配置信息、应用场景信息、跟踪信息、姿态信息或位置信息中至少一项；根据所述控制信息对所述待渲染音频信号进行渲染，以获取渲染后的音频信号。本申请实施例可以提升渲染效果。

Description

音频信号渲染方法和装置

技术领域

本申请涉及音频处理技术，尤其涉及一种音频信号渲染方法和装置。

背景技术

随着多媒体技术的不断发展，音频在多媒体通信、消费电子、虚拟现实、人机交互等领域得到了广泛应用。用户对音频质量的需求越来越高。三维音频(3D audio)具有接近真实的空间感，能够给用户提供较好的浸入式体验，成为多媒体技术的新趋势。

以虚拟现实(Virtual Reality，VR)为例，一个具有沉浸感的VR系统，不仅需要震撼的视觉效果，还需要逼真的听觉效果配合，视听的融合能够大大提高虚拟现实的体验感，而虚拟现实的音频的核心是三维音频技术。基于声道，基于对象，基于场景是三维音频技术中比较常见的三种格式。通过对解码得到的基于声道，基于对象和基于场景的音频信号进行渲染，可以实现音频信号重放，以达到真实感和沉浸感的听觉体验。

其中，如何提升音频信号的渲染效果，成为一个亟需解决的技术问题。

发明内容

本申请提供一种音频信号渲染方法和装置，有益于提升音频信号的渲染效果。

第一方面，本申请实施例提供一种音频信号渲染方法，该方法可以包括：通过解码接收的码流获取待渲染音频信号。获取控制信息，该控制信息用于指示内容描述元数据、渲染格式标志信息、扬声器配置信息、应用场景信息、跟踪信息、姿态信息或位置信息中的一项或多项。根据该控制信息对该待渲染音频信号进行渲染，以获取渲染后的音频信号。

其中，该内容描述元数据用于指示该待渲染音频信号的信号格式。该信号格式包括基于声道的信号格式、基于场景的信号格式或基于对象的信号格式中至少一项。该渲染格式标志信息用于指示音频信号渲染格式。该音频信号渲染格式包括扬声器渲染或双耳渲染。该扬声器配置信息用于指示扬声器的布局。该应用场景信息用于指示渲染器场景描述信息。该跟踪信息用于指示渲染后的音频信号是否随着收听者的头部转动变化。该姿态信息用于指示该头部转动的方位和幅度。该位置信息用于指示该收听者的身体移动的方位和幅度。

本实现方式，通过基于内容描述元数据、渲染格式标志信息、扬声器配置信息、应用场景信息、跟踪信息、姿态信息或位置信息中至少一项输入信息的自适应选择渲染方式，可以提升音频渲染效果。

一种可能的设计中，根据该控制信息对该待渲染音频信号进行渲染，包括以下至少一项：根据所述控制信息对所述待渲染音频信号进行渲染前处理；或者，根据所述控制信息对所述待渲染音频信号进行信号格式转换；或者，根据所述控制信息对所述待渲染音频信号进行本地混响处理；或者，根据所述控制信息对所述待渲染音频信号进行群组处理；或者，根据所述控制信息对所述待渲染音频信号进行动态范围压缩；或者，根据所述控制信息对所述待渲染音频信号进行双耳渲染；或者，根据所述控制信息对所述待渲染音频信号进行扬声器渲染。

本实现方式，根据控制信息对待渲染音频信号进行渲染前处理、信号格式转换、本地混响处理、群组处理、动态范围压缩、双耳渲染或扬声器渲染中至少一项，从而可以自适应的根据当前的应用场景或应用场景中的内容选择合适的渲染方式，以提升音频渲染效果。

一种可能的设计中，该待渲染音频信号包括基于声道的音频信号，基于对象的音频信号或基于场景的音频信号中的至少一个，当根据该控制信息对该待渲染音频信号进行渲染，包括根据该控制信息对该待渲染音频信号进行渲染前处理时，该方法还可以包括：通过解码该码流获取第一混响信息，该第一混响信息包括第一混响输出响度信息、第一直达声与早期反射声的时间差信息、第一混响持续时间信息、第一房间形状和尺寸信息、或第一声音散射度信息中至少一项。相应的，根据该控制信息对该待渲染音频信号进行渲染前处理，以获取渲染后的音频信号，可以包括：根据该控制信息，对待渲染音频信号进行控制处理，以获取控制处理后音频信号，该控制处理包括对该基于声道的音频信号进行初始的三自由度3DoF处理、对该基于对象的音频信号进行变换处理或对该基于场景的音频信号进行初始的3DoF处理中至少一项，并根据该第一混响信息对该控制处理后音频信号进行混响处理，以获取第一音频信号。对该第一音频信号进行双耳渲染或扬声器渲染，以获取该渲染后的音频信号。

一种可能的设计中，当根据该控制信息对该待渲染音频信号进行渲染，还包括根据该控制信息对该待渲染音频信号进行信号格式转换时，对该第一音频信号进行双耳渲染或扬声器渲染，以获取该渲染后的音频信号，可以包括：根据该控制信息对该第一音频信号进行信号格式转换，获取第二音频信号。对该第二音频信号进行双耳渲染或扬声器渲染，以获取该渲染后的音频信号。

其中，该信号格式转换包括以下至少一项：将该第一音频信号中的基于声道的音频信号转换为基于场景或基于对象的音频信号；或者，将该第一音频信号中的基于场景的音频信号转换为基于声道或基于对象的音频信号；或者，将该第一音频信号中的基于对象的音频信号转换为基于声道或基于场景的音频信号。

本实现方式，通过根据控制信息对待渲染音频信号进行信号格式转换，可以实现信号格式的灵活转换，从而使得本申请实施例的音频信号渲染方法适用于任何信号格式，通过对合适的信号格式的音频信号进行渲染，可以提升音频渲染效果。

一种可能的设计中，根据该控制信息对该第一音频信号进行信号格式转换，可以包括：根据该控制信息、该第一音频信号的信号格式以及终端设备的处理性能，对该第一音频信号进行信号格式转换。

本实现方式，通过基于终端设备的处理性能对第一音频信号进行信号格式转换，以提供与终端设备的处理性能相匹配的信号格式，进行渲染，优化音频渲染效果。

一种可能的设计中，当根据该控制信息对该待渲染音频信号进行渲染，还可以包括根据该控制信息对该待渲染音频信号进行本地混响处理时，对该第二音频信号进行双耳渲染或扬声器渲染，以获取该渲染后的音频信号，可以包括：获取第二混响信息，该第二混响信息为该渲染后的音频信号所在的场景的混响信息，该第二混响信息包括第二混响输出响度信息、第二直达声与早期反射声的时间差信息、第二混响持续时间信息、第二房间形状和尺寸信息、或第二声音散射度信息中至少一项。根据该控制信息和该第二混响信息对该第二音频信号进行本地混响处理，获取第三音频信号。对该第三音频信号进行双耳渲染或扬声器渲染，以获取该渲染后的音频信号。

本实现方式，可以根据实时输入的应用场景信息产生对应的第二混响信息，用于渲染处理，可以提升音频渲染效果，能够为AR应用场景提供与场景相符的实时混响。

一种可能的设计中，根据该控制信息和该第二混响信息对该第二音频信号进行本地混响处理，获取第三音频信号，可以包括：根据该控制信息对该第二音频信号中不同信号格式的音频信号分别进行聚类处理，获取基于声道的群信号、基于场景的群信号或基于对象的群信号中至少一项。根据该第二混响信息，分别对基于声道的群信号、基于场景的群信号或基于对象的群信号中至少一项进行本地混响处理，获取第三音频信号。

一种可能的设计中，当根据该控制信息对该待渲染音频信号进行渲染，还可以包括根据该控制信息对该待渲染音频信号进行群组处理时，对该第三音频信号进行双耳渲染或扬声器渲染，以获取该渲染后的音频信号，可以包括：根据该控制信息对该第三音频信号中每一种信号格式的群信号进行实时的3DoF处理，或，3DoF+处理，或六自由度6DoF处理，获取第四音频信号。对该第四音频信号进行双耳渲染或扬声器渲染，以获取该渲染后的音频信号。

本实现方式，对每一种格式的音频信号进行统一的处理，在保证处理性能的基础上可以降低处理复杂度。

一种可能的设计中，当根据该控制信息对该待渲染音频信号进行渲染，还包括根据该控制信息对该待渲染音频信号进行动态范围压缩时，对该第四音频信号进行双耳渲染或扬声器渲染，以获取该渲染后的音频信号，可以包括：根据该控制信息对该第四音频信号进行动态范围压缩，获取第五音频信号。对该第五音频信号进行双耳渲染或扬声器渲染，以获取该渲染后的音频信号。

本实现方式，通过根据控制信息对音频信号进行动态范围压缩，以提升渲染后的音频信号的播放质量。

一种可能的设计中，根据该控制信息对该待渲染音频信号进行渲染，以获取渲染后的音频信号，可以包括：根据该控制信息对该待渲染音频信号进行信号格式转换，获取第六音频信号。对该第六音频信号进行双耳渲染或扬声器渲染，以获取该渲染后的音频信号。

其中，该信号格式转换包括以下至少一项：将该待渲染音频信号中的基于声道的音频信号转换为基于场景或基于对象的音频信号；或者，将该待渲染音频信号中的基于场景的音频信号转换为基于声道或基于对象的音频信号；或者，将该待渲染音频信号中的基于对象的音频信号转换为基于声道或基于场景的音频信号。

一种可能的设计中，根据该控制信息对该待渲染音频信号进行信号格式转换，可以包括：根据该控制信息、该待渲染音频信号的信号格式以及终端设备的处理性能，对该待渲染音频信号进行信号格式转换。

终端设备可以是执行本申请实施例的第一方面所述的音频信号渲染方法的设备，本实现方式可以结合终端设备的处理性能对待渲染音频信号进行信号格式转换，以使得音频信号渲染适用于不同性能的终端设备。

例如，可以从音频信号渲染方法的算法复杂度和渲染效果两个维度，结合终端设备的处理性能进行信号格式转换。例如，终端设备的处理性能较好，则可以将待渲染音频信号转换为渲染效果较好的信号格式，即使该渲染效果较好的信号格式对应的算法复杂度较高。终端设备的处理性能较差时，则可以将待渲染音频信号转换为算法复杂度较低的信号格式，以保证渲染输出效率。终端设备的处理性能可以是终端设备的处理器性能，举例而言，当终端设备的处理器的主频大于一定阈值，位数大于一定阈值时，该终端设备的处理性能较好。结合终端设备的处理性能进行信号格式转换的具体实现方式还可以是其他方式，例如，基于预设的对应关系和终端设备的处理器的型号，获取终端设备的处理性能参数值，当该处理性能参数值大于一定阈值时，将待渲染音频信号转换为渲染效果较好的信号格式，本申请实施例不一一举例说明。渲染效果较好的信号格式可以基于控制信息确定。

一种可能的设计中，根据该控制信息对该待渲染音频信号进行渲染，以获取渲染后的音频信号，可以包括：获取第二混响信息，该第二混响信息为该渲染后的音频信号所在的场景的混响信息，该第二混响信息包括第二混响输出响度信息、第二直达声与早期反射声的时间差信息、第二混响持续时间信息、第二房间形状和尺寸信息、或第二声音散射度信息中至少一项。根据该控制信息和该第二混响信息对该待渲染音频信号进行本地混响处理，获取第七音频信号。对该第七音频信号进行双耳渲染或扬声器渲染，以获取该渲染后的音频信号。

一种可能的设计中，根据该控制信息对该待渲染音频信号进行渲染，以获取渲染后的音频信号，可以包括：根据该控制信息对该待渲染音频信号中每一种信号格式的音频信号进行实时的3DoF处理，或，3DoF+处理，或六自由度6DoF处理，获取第八音频信号。对该第八音频信号进行双耳渲染或扬声器渲染，以获取该渲染后的音频信号。

一种可能的设计中，根据该控制信息对该待渲染音频信号进行渲染，以获取渲染后的音频信号，可以包括：根据该控制信息对该待渲染音频信号进行动态范围压缩，获取第九音频信号。对该第九音频信号进行双耳渲染或扬声器渲染，以获取所述渲染后的音频信号。

第二方面，本申请实施例提供一种音频信号渲染装置，该音频信号渲染装置可以为音频渲染器，或音频解码设备的芯片或者片上系统，还可以为音频渲染器中用于实现上述第一方面或上述第一方面的任一可能的设计的方法的功能模块。该音频信号渲染装置可以实现上述第一方面或上述第一方面的各可能的设计中所执行的功能，功能可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个上述功能相应的模块。举例来说，一种可能的设计中，该音频信号渲染装置，可以包括：获取模块，用于通过解码接收的码流获取待渲染音频信号。控制信息生成模块，用于获取控制信息，该控制信息用于指示内容描述元数据、渲染格式标志信息、扬声器配置信息、应用场景信息、跟踪信息、姿态信息或位置信息中的一项或多项。渲染模块，用于根据该控制信息对该待渲染音频信号进行渲染，以获取渲染后的音频信号。

其中，该内容描述元数据用于指示该待渲染音频信号的信号格式。该信号格式包括基于声道、基于场景或基于对象中至少一项。该渲染格式标志信息用于指示音频信号渲染格式。该音频信号渲染格式包括扬声器渲染或双耳渲染。该扬声器配置信息用于指示扬声器的布局。该应用场景信息用于指示渲染器场景描述信息。该跟踪信息用于指示渲染后的音频信号是否随着收听者的头部转动变化。该姿态信息用于指示该头部转动的方位和幅度。该位置信息用于指示该收听者的身体移动的方位和幅度。

一种可能的设计中，渲染模块用于执行以下至少一项：根据该控制信息对该待渲染音频信号进行渲染前处理；或者，根据该控制信息对该待渲染音频信号进行信号格式转换；或者，根据该控制信息对该待渲染音频信号进行本地混响处理；或者，根据该控制信息对该待渲染音频信号进行群组处理；或者，根据该控制信息对该待渲染音频信号进行动态范围压缩；或者，根据该控制信息对该待渲染音频信号进行双耳渲染；或者，根据该控制信息对该待渲染音频信号进行扬声器渲染。

一种可能的设计中，该待渲染音频信号包括基于声道的音频信号，基于对象的音频信号或基于场景的音频信号中的至少一个，该获取模块还用于：通过解码该码流获取第一混响信息，该第一混响信息包括第一混响输出响度信息、第一直达声与早期反射声的时间差信息、第一混响持续时间信息、第一房间形状和尺寸信息、或第一声音散射度信息中至少一项。相应的，渲染模块用于：根据该控制信息，对该待渲染音频信号进行控制处理，以获取控制处理后音频信号，该控制处理包括对该基于声道的音频信号进行初始的三自由度3DoF处理、对该基于对象的音频信号进行变换处理或对该基于场景的音频信号进行初始的3DoF处理中至少一项，并根据该第一混响信息对该待控制处理后音频信号进行混响处理，以获取第一音频信号。对该第一音频信号进行双耳渲染或扬声器渲染，以获取该渲染后的音频信号。

一种可能的设计中，渲染模块用于：根据该控制信息对该第一音频信号进行信号格式转换，获取第二音频信号。对该第二音频信号进行双耳渲染或扬声器渲染，以获取该渲染后的音频信号。

一种可能的设计中，渲染模块用于：根据该控制信息、该第一音频信号的信号格式以及终端设备的处理性能，对该第一音频信号进行信号格式转换。

一种可能的设计中，渲染模块用于：获取第二混响信息，该第二混响信息为该渲染后的音频信号所在的场景的混响信息，该第二混响信息包括第二混响输出响度信息、第二直达声与早期反射声的时间差信息、第二混响持续时间信息、第二房间形状和尺寸信息、或第二声音散射度信息中至少一项。根据该控制信息和该第二混响信息对该第二音频信号进行本地混响处理，获取第三音频信号。对该第三音频信号进行双耳渲染或扬声器渲染，以获取该渲染后的音频信号。

一种可能的设计中，渲染模块用于：根据该控制信息对该第二音频信号中不同信号格式的音频信号分别进行聚类处理，获取基于声道的群信号、基于场景的群信号或基于对象的群信号中至少一项。根据该第二混响信息，分别对基于声道的群信号、基于场景的群信号或基于对象的群信号中至少一项进行本地混响处理，获取第三音频信号。

一种可能的设计中，渲染模块用于：根据该控制信息对该第三音频信号中每一种信号格式的群信号进行实时的3DoF处理，或，3DoF+处理，或六自由度6DoF处理，获取第四音频信号。对该第四音频信号进行双耳渲染或扬声器渲染，以获取该渲染后的音频信号。

一种可能的设计中，渲染模块用于：根据该控制信息对该第四音频信号进行动态范围压缩，获取第五音频信号。对该第五音频信号进行双耳渲染或扬声器渲染，以获取该渲染后的音频信号。

一种可能的设计中，渲染模块用于：根据该控制信息对该待渲染音频信号进行信号格式转换，获取第六音频信号。对该第六音频信号进行双耳渲染或扬声器渲染，以获取该渲染后的音频信号。

一种可能的设计中，渲染模块用于：根据该控制信息、该待渲染音频信号的信号格式以及终端设备的处理性能，对该待渲染音频信号进行信号格式转换。

一种可能的设计中，渲染模块用于：获取第二混响信息，该第二混响信息为该渲染后的音频信号所在的场景的混响信息，该第二混响信息包括第二混响输出响度信息、第二直达声与早期反射声的时间差信息、第二混响持续时间信息、第二房间形状和尺寸信息、或第二声音散射度信息中至少一项。根据该控制信息和该第二混响信息对该待渲染音频信号进行本地混响处理，获取第七音频信号。对该第七音频信号进行双耳渲染或扬声器渲染，以获取该渲染后的音频信号。

一种可能的设计中，渲染模块用于：根据该控制信息对该待渲染音频信号中每一种信号格式的音频信号进行实时的3DoF处理，或，3DoF+处理，或六自由度6DoF处理，获取第八音频信号。对该第八音频信号进行双耳渲染或扬声器渲染，以获取该渲染后的音频信号。

一种可能的设计中，渲染模块用于：根据该控制信息对该待渲染音频信号进行动态范围压缩，获取第九音频信号。对该第九音频信号进行双耳渲染或扬声器渲染，以获取所述渲染后的音频信号。

第三方面，本申请实施例提供一种音频信号渲染装置，其特征在于，包括：相互耦合的非易失性存储器和处理器，所述处理器调用存储在所述存储器中的程序代码以执行上述第一方面或上述第一方面的任一可能的设计的方法。

第四方面，本申请实施例提供一种音频信号解码设备，其特征在于，包括：渲染器，所述渲染器用于执行上述第一方面或上述第一方面的任一可能的设计的方法。

第五方面，本申请实施例提供一种计算机可读存储介质，包括计算机程序，所述计算机程序在计算机上被执行时，使得所述计算机执行上述第一方面中任一项所述的方法。

第六方面，本申请提供一种计算机程序产品，该计算机程序产品包括计算机程序，当所述计算机程序被计算机执行时，用于执行上述第一方面中任一项所述的方法。

第七方面，本申请提供一种芯片，包括处理器和存储器，所述存储器用于存储计算机程序，所述处理器用于调用并运行所述存储器中存储的计算机程序，以执行如上述第一方面中任一项所述的方法。

本申请实施例的音频信号渲染方法和装置，通过解码接收到的码流获取待渲染音频信号，获取控制信息，控制信息用于指示内容描述元数据、渲染格式标志信息、扬声器配置信息、应用场景信息、跟踪信息、姿态信息或位置信息中至少一项，根据控制信息对待渲染音频信号进行渲染，以获取渲染后的音频信号，可以实现基于内容描述元数据、渲染格式标志信息、扬声器配置信息、应用场景信息、跟踪信息、姿态信息或位置信息中至少一项输入信息的自适应选择渲染方式，从而提升音频渲染效果。

附图说明

图1为本申请实施例中的音频编码及解码系统实例的示意图；

图2为本申请实施例中的音频信号渲染应用的示意图；

图3为本申请实施例的一种音频信号渲染方法的流程图；

图4为本申请实施例的一种扬声器的布局示意图；

图5为本申请实施例的控制信息的生成的示意图；

图6A为本申请实施例的另一种音频信号渲染方法的流程图；

图6B为本申请实施例的一种渲染前处理的示意图；

图7为本申请实施例提供的一种扬声器渲染的示意图；

图8为本申请实施例提供的一种双耳渲染的示意图；

图9A为本申请实施例的另一种音频信号渲染方法的流程图；

图9B为本申请实施例的一种信号格式转换的示意图；

图10A为本申请实施例的另一种音频信号渲染方法的流程图；

图10B为本申请实施例的一种本地混响处理(Local reverberation processing)的示意图；

图11A为本申请实施例的另一种音频信号渲染方法的流程图；

图11B为本申请实施例的一种群组处理(Grouped source Transformations)的示意图；

图12A为本申请实施例的另一种音频信号渲染方法的流程图；

图12B为本申请实施例的一种动态范围压缩(Dynamic Range Compression)的示意图；

图13A为本申请实施例的一种音频信号渲染装置的架构示意图；

图13B为本申请实施例的一种音频信号渲染装置的细化架构示意图；

图14为本申请实施例的一种音频信号渲染装置的结构示意图；

图15为本申请实施例的一种音频信号渲染设备的结构示意图。

具体实施方式

本申请实施例涉及的术语“第一”、“第二”等仅用于区分描述的目的，而不能理解为指示或暗示相对重要性，也不能理解为指示或暗示顺序。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元。方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c分别可以是单个，也可以分别是多个，也可以是部分是单个，部分是多个。

下面描述本申请实施例所应用的系统架构。参见图1，图1示例性地给出了本申请实施例所应用的音频编码及解码系统10的示意性框图。如图1所示，音频编码及解码系统10可包括源设备12和目的地设备14，源设备12产生经编码的音频数据，因此，源设备12可被称为音频编码装置。目的地设备14可对由源设备12所产生的经编码的音频数据进行解码，因此，目的地设备14可被称为音频解码装置。源设备12、目的地设备14或两个的各种实施方案可包含一或多个处理器以及耦合到所述一或多个处理器的存储器。所述存储器可包含但不限于RAM、ROM、EEPROM、快闪存储器或可用于以可由计算机存取的指令或数据结构的形式存储所要的程序代码的任何其它媒体，如本文所描述。源设备12和目的地设备14可以包括各种装置，包含桌上型计算机、移动计算装置、笔记型(例如，膝上型)计算机、平板计算机、机顶盒、所谓的“智能”电话等电话手持机、电视机、音箱、数字媒体播放器、视频游戏控制台、车载计算机、无线通信设备、任意可穿戴设备(例如，智能手表，智能眼镜)或其类似者。

虽然图1将源设备12和目的地设备14绘示为单独的设备，但设备实施例也可以同时包括源设备12和目的地设备14或同时包括两者的功能性，即源设备12或对应的功能性以及目的地设备14或对应的功能性。在此类实施例中，可以使用相同硬件和/或软件，或使用单独的硬件和/或软件，或其任何组合来实施源设备12或对应的功能性以及目的地设备14或对应的功能性。

源设备12和目的地设备14之间可通过链路13进行通信连接，目的地设备14可经由链路13从源设备12接收经编码的音频数据。链路13可包括能够将经编码的音频数据从源设备12移动到目的地设备14的一或多个媒体或装置。在一个实例中，链路13可包括使得源设备12能够实时将经编码的音频数据直接发射到目的地设备14的一或多个通信媒体。在此实例中，源设备12可根据通信标准(例如无线通信协议)来调制经编码的音频数据，且可将经调制的音频数据发射到目的地设备14。所述一或多个通信媒体可包含无线和/或有线通信媒体，例如射频(RF)频谱或一或多个物理传输线。所述一或多个通信媒体可形成基于分组的网络的一部分，基于分组的网络例如为局域网、广域网或全球网络(例如，因特网)。所述一或多个通信媒体可包含路由器、交换器、基站或促进从源设备12到目的地设备14的通信的其它设备。

源设备12包括编码器20，另外可选地，源设备12还可以包括音频源16、预处理器18、以及通信接口22。具体实现形态中，所述编码器20、音频源16、预处理器18、以及通信接口22可能是源设备12中的硬件部件，也可能是源设备12中的软件程序。分别描述如下：

音频源16，可以包括或可以为任何类别的声音捕获设备，用于例如捕获现实世界的声音，和/或任何类别的音频生成设备。音频源16可以为用于捕获声音的麦克风或者用于存储音频数据的存储器，音频源16还可以包括存储先前捕获或产生的音频数据和/或获取或接收音频数据的任何类别的(内部或外部)接口。当音频源16为麦克风时，音频源16可例如为本地的或集成在源设备中的集成麦克风；当音频源16为存储器时，音频源16可为本地的或例如集成在源设备中的集成存储器。当所述音频源16包括接口时，接口可例如为从外部音频源接收音频数据的外部接口，外部音频源例如为外部声音捕获设备，比如麦克风、外部存储器或外部音频生成设备。接口可以为根据任何专有或标准化接口协议的任何类别的接口，例如有线或无线接口、光接口。

本申请实施例中，由音频源16传输至预处理器18的音频数据也可称为原始音频数据17。

预处理器18，用于接收原始音频数据17并对原始音频数据17执行预处理，以获取经预处理的音频19或经预处理的音频数据19。例如，预处理器18执行的预处理可以包括滤波、或去噪等。

编码器20(或称音频编码器20)，用于接收经预处理的音频数据19，对经预处理的音频数据19进行处理，从而提供经编码的音频数据21。

通信接口22，可用于接收经编码的音频数据21，并可通过链路13将经编码的音频数据21传输至目的地设备14或任何其它设备(如存储器)，以用于存储或直接重构，所述其它设备可为任何用于解码或存储的设备。通信接口22可例如用于将经编码的音频数据21封装成合适的格式，例如数据包，以在链路13上传输。

目的地设备14包括解码器30，另外可选地，目的地设备14还可以包括通信接口28、音频后处理器32和渲染设备34。分别描述如下：

通信接口28，可用于从源设备12或任何其它源接收经编码的音频数据21，所述任何其它源例如为存储设备，存储设备例如为经编码的音频数据存储设备。通信接口28可以用于藉由源设备12和目的地设备14之间的链路13或藉由任何类别的网络传输或接收经编码音频数据21，链路13例如为直接有线或无线连接，任何类别的网络例如为有线或无线网络或其任何组合，或任何类别的私网和公网，或其任何组合。通信接口28可以例如用于解封装通信接口22所传输的数据包以获取经编码的音频数据21。

通信接口28和通信接口22都可以配置为单向通信接口或者双向通信接口，以及可以用于例如发送和接收消息来建立连接、确认和交换任何其它与通信链路和/或例如经编码的音频数据传输的数据传输有关的信息。

解码器30(或称为解码器30)，用于接收经编码的音频数据21并提供经解码的音频数据31或经解码的音频31。

音频后处理器32，用于对经解码的音频数据31(也称为经重构的音频数据)执行后处理，以获得经后处理的音频数据33。音频后处理器32执行的后处理可以包括：例如渲染，或任何其它处理，还可用于将经后处理的音频数据33传输至渲染设备34。该音频后处理器可以用于执行后文所描述的各个实施例，以实现本申请所描述的音频信号渲染方法的应用。

渲染设备34，用于接收经后处理的音频数据33以向例如用户或观看者播放音频。渲染设备34可以为或可以包括任何类别的用于呈现经重构的声音的回放器。该渲染设备可以包括扬声器或耳机。

虽然，图1将源设备12和目的地设备14绘示为单独的设备，但设备实施例也可以同时包括源设备12和目的地设备14或同时包括两者的功能性，即源设备12或对应的功能性以及目的地设备14或对应的功能性。在此类实施例中，可以使用相同硬件和/或软件，或使用单独的硬件和/或软件，或其任何组合来实施源设备12或对应的功能性以及目的地设备14或对应的功能性。

本领域技术人员基于描述明显可知，不同单元的功能性或图1所示的源设备12和/或目的地设备14的功能性的存在和(准确)划分可能根据实际设备和应用有所不同。源设备12和目的地设备14可以包括各种设备中的任一个，包含任何类别的手持或静止设备，例如，笔记本或膝上型计算机、移动电话、智能手机、平板或平板计算机、摄像机、台式计算机、机顶盒、电视机、相机、车载设备、音响、数字媒体播放器、音频游戏控制台、音频流式传输设备(例如内容服务服务器或内容分发服务器)、广播接收器设备、广播发射器设备、智能眼镜、智能手表等，并可以不使用或使用任何类别的操作系统。

编码器20和解码器30都可以实施为各种合适电路中的任一个，例如，一个或多个微处理器、数字信号处理器(digital signal processor，DSP)、专用集成电路(application-specific integrated circuit，ASIC)、现场可编程门阵列(field-programmable gate array，FPGA)、离散逻辑、硬件或其任何组合。如果部分地以软件实施所述技术，则设备可将软件的指令存储于合适的非暂时性计算机可读存储介质中，且可使用一或多个处理器以硬件执行指令从而执行本公开的技术。前述内容(包含硬件、软件、硬件与软件的组合等)中的任一者可视为一或多个处理器。

在一些情况下，图1中所示音频编码及解码系统10仅为示例，本申请的技术可以适用于不必包含编码和解码设备之间的任何数据通信的音频编码设置(例如，音频编码或音频解码)。在其它实例中，数据可从本地存储器检索、在网络上流式传输等。音频编码设备可以对数据进行编码并且将数据存储到存储器，和/或音频解码设备可以从存储器检索数据并且对数据进行解码。在一些实例中，由并不彼此通信而是仅编码数据到存储器和/或从存储器检索数据且解码数据的设备执行编码和解码。

上述编码器可以是多声道编码器，例如，立体声编码器，5.1声道编码器，或7.1声道编码器等。当然可以理解的，上述编码器也可以是单声道编码器。上述音频后处理器可以用于执行本申请实施例的下述音频信号渲染方法，以提升音频播放效果。

上述音频数据也可以称为音频信号，上述经解码的音频数据也可以称为待渲染音频信号，上述经后处理的音频数据也可以称为渲染后的音频信号。本申请实施例中的音频信号是指音频渲染装置的输入信号，该音频信号中可以包括多个帧，例如当前帧可以特指音频信号中的某一个帧，本申请实施例中以对当前帧的音频信号的渲染进行示例说明。本申请实施例用于实现音频信号的渲染。

图2是根据一示例性实施例的装置200的简化框图。装置200可以实现本申请的技术。换言之，图2为本申请的编码设备或解码设备(简称为译码设备200)的一种实现方式的示意性框图。其中，装置200可以包括处理器210、存储器230和总线系统250。其中，处理器和存储器通过总线系统相连，该存储器用于存储指令，该处理器用于执行该存储器存储的指令。译码设备的存储器存储程序代码，且处理器可以调用存储器中存储的程序代码执行本申请描述的方法。为避免重复，这里不再详细描述。

在本申请中，该处理器210可以是中央处理单元(Central Processing Unit，简称为“CPU”)，该处理器210还可以是其他通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

该存储器230可以包括只读存储器(ROM)设备或者随机存取存储器(RAM)设备。任何其他适宜类型的存储设备也可以用作存储器230。存储器230可以包括由处理器210使用总线250访问的代码和数据231。存储器230可以进一步包括操作系统233和应用程序235。

该总线系统250除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图中将各种总线都标为总线系统250。

可选的，译码设备200还可以包括一个或多个输出设备，诸如扬声器270。在一个示例中，扬声器270可以是耳机或外放。扬声器270可以经由总线250连接到处理器210。

本申请实施例的音频信号渲染方法适用于任意通信系统的语音通信中的音频渲染，该通信系统可以是LTE系统、或5G系统、或未来演进的PLMN系统等。本申请实施例的音频信号渲染方法也适用于VR或增强现实(augmented reality，AR)或音频播放应用程序中的音频渲染。当然还可以是其他音频信号渲染的应用场景，本申请实施例不一一举例说明。

以VR为例，在编码端，音频信号A经过采集模块(Acquisition)后进行预处理操作(Audio Preprocessing)，预处理操作包括滤除掉信号中的低频部分，通常是以20Hz或者50Hz为分界点，提取音频信号中的方位信息，之后进行编码处理(Audio encoding)打包(File/Segment encapsulation)，之后发送(Delivery)到解码端，解码端首先进行解包(File/Segment decapsulation)，之后解码(Audio decoding)，对解码信号进行渲染(Audio rendering)处理，渲染处理后的信号映射到收听者的耳机(headphones)或者扬声器(loudspeakers)上。耳机可以为独立的耳机，也可以是眼镜设备或其他可穿戴设备上的耳机。其中，可以采用如下述实施例所述的音频信号渲染方法对对解码信号进行渲染(Audio rendering)处理。

本申请实施例的音频信号渲染指，将待渲染音频信号转化为特定回放格式的音频信号，即渲染后的音频信号，使得渲染后的音频信号与回放环境或回放设备中至少一项适配，从而提升用户听觉体验。其中，回放设备可以是上述渲染设备34，可以包括耳机或扬声器。该回放环境可以是该回放设备所在的环境。音频信号渲染所采用的具体处理方式可以参见下述实施例的解释说明。

音频信号渲染装置可以执行本申请实施例的音频信号渲染方法，以实现自适应选择渲染处理方式，提升音频信号的渲染效果。该音频信号渲染装置可以是上述目的地设备中的音频后处理器，该目的地设备可以是任意终端设备，例如可以是手机，可穿戴设备，虚拟现实(virtual reality，VR)设备，或增强现实(augmented reality，AR)设备等等。其具体实施方式可以参见下述图3所示实施例的具体解释说明。该目的地设备也可以称为重放端或回放端或渲染端或解码渲染端等。

图3为本申请实施例的一种音频信号渲染方法的流程图，本申请实施例的执行主体可以是上述音频信号渲染装置，如图3所示，本实施例的方法可以包括：

步骤401、通过解码接收到的码流获取待渲染音频信号。

对接收到的码流进行解码，获取待渲染音频信号。该待渲染音频信号的信号格式(format)可以包括一种信号格式或多种信号格式混合，信号格式可以包括基于声道、基于场景或基于对象等。

三种不同的信号格式中基于声道的信号格式是最传统的音频信号格式，其易于存储和传输，可利用扬声器直接重放而不需要较多额外的处理，即基于声道的音频信号是针对一些标准的扬声器布置，例如5.1声道扬声器布置、7.1.4声道扬声器布置等。一个声道信号对应一个扬声器设备。实际应用中如果扬声器配置格式与待渲染音频信号要求的扬声器配置格式不同则需要进行上混(up mix)或者下混(down mix)处理来适配当前应用的扬声器配置格式，下混处理在一定程度上会降低重放声场中声像的准确性。例如，基于声道的信号格式是符合7.1.4声道扬声器布置的，但当前应用的扬声器配置格式为5.1声道扬声器，则需要对7.1.4声道信号进行下混来获得5.1声道信号，以便能够使用5.1声道扬声器进行回放。如果需要采用耳机进行回放，可以进一步对扬声器信号进行头部相关传输函数(HeadRelated Transfer Function，HRTF)/BRIR卷积处理得到双耳渲染信号通过耳机等设备进行双耳回放。基于声道的音频信号可以是单声道音频信号，或者，也可以是多声道信号，例如，立体声信号。

基于对象的信号格式是用来描述对象音频，其包含一系列声音对象(soundobjects)以及相对应的元数据(metadata)。声音对象包含各自独立的声源，元数据包含语言、起始时间等静态元数据，以及声源的位置、方位、声压(level)等动态元数据。因此面向对象的信号格式最大优点是可用于任意的扬声器重放系统进行有选择的重放，同时增加了可交互性，比如调整语言、增加一些声源音量以及根据收听者移动调整声源对象位置等。

基于场景的信号格式，其将实际的物理声音信号或者麦克风采集后的声音信号利用正交基函数展开，其存储的不是直接的扬声器信号而是相应的基函数展开系数，在重放端再利用相应的声场合成算法进行双耳渲染重放，它也可以利用多种扬声器配置重放，而且扬声器摆放具有较大的灵活性。基于场景的音频信号可以包括1阶Ambisonics(Firs-Order Ambisonics，FOA)信号、或高阶Ambisonics(High-Order Ambisonics，HOA)信号等。

该信号格式是采集端获得的信号格式。举例而言，在多方参加的远程电话会议应用场景中，有的终端设备发送的是立体声信号，即基于声道的音频信号，有的终端设备发送的是一个远程参会者的基于对象的音频信号，有个终端设备发送的是高阶Ambisonics(High-Order Ambisonics，HOA)信号，即基于场景的音频信号。重放端对接收到的码流进行解码，可以得到待渲染音频信号，该待渲染音频信号是三种信号格式的混合信号，本申请实施例的音频信号渲染装置可以支持对一种或多种信号格式混合的音频信号进行灵活渲染。

解码接收到的码流还可以获取内容描述元数据(Content DescriptionMetadata)。该内容描述元数据用于指示待渲染音频信号的信号格式。例如，上述多方参加的远程电话会议应用场景中，重放端可以通过解码获取内容描述元数据，该内容描述元数据用于指示待渲染音频信号的信号格式包括基于声道、基于对象和基于场景三种信号格式。

步骤402、获取控制信息，该控制信息用于指示内容描述元数据、渲染格式标志信息、扬声器配置信息、应用场景信息、跟踪信息、姿态信息或位置信息中至少一项。

如上所述内容描述元数据用于指示待渲染音频信号的信号格式，该信号格式包括基于声道、基于场景或基于对象中至少一项。

该渲染格式标志信息用于指示音频信号渲染格式。该音频信号渲染格式可以包括扬声器渲染或双耳渲染。换言之，该渲染格式标志信息用于指示音频渲染装置输出扬声器渲染信号或双耳渲染信号。该渲染格式标志信息可以是从解码接收到的码流中获取，或者可以是根据重放端的硬件设置确定，或者是根据重放端的配置信息中获取的。

该扬声器配置信息用于指示扬声器的布局。该扬声器的布局可以包括扬声器的位置和数量。该扬声器的布局使得音频渲染装置产生相应布局的扬声器渲染信号。图4为本申请实施例的一种扬声器的布局示意图，如图4所示，水平面8个扬声器组成7.1布局的配置，其中实心的扬声器表示重低音扬声器，加上水平面上方平面4个扬声器(图4中虚线方框上的4个扬声器)共同组成7.1.4扬声器布局。该扬声器配置信息可以是根据重放端的扬声器的布局确定的，也可以是从重放端的配置信息中获取的。

该应用场景信息用于指示渲染器场景描述信息(Renderer Scene description)。该渲染器场景描述信息可以指示输出渲染后的音频信号所在的场景，即渲染声场环境。该场景可以是室内会议室、室内教室、室外草地、或音乐会演出现场等中至少下一项。该应用场景信息可以是根据重放端的传感器获取的信息确定。例如，通过环境光传感器、红外线传感器等一项或多项传感器采集重放端所在的环境数据，根据该环境数据确定应用场景信息。再例如，该应用场景信息可以是根据与重放端连接的接入点(AP)确定。举例而言，该接入点(AP)是家用wifi，当该重放端与家用wifi连接时，可以确定该应用场景信息为家庭室内。还例如，该应用场景信息可以是从重放端的配置信息中获取的。

该跟踪信息用于指示渲染后的音频信号是否随着收听者的头部转动变化。该跟踪信息可以是从重放端的配置信息中获取的。该姿态信息用于指示该头部转动的方位和幅度。该姿态信息可以是三自由度(3degree of freedom，3DoF)数据。该3DoF数据用于表示表示收听者的头部的转动信息。该3DoF数据可以包括头部的三个转动角度。该姿态信息可以是3DoF+数据，该3DoF+数据表示收听者坐在座位上身体不动的前提下上身进行前后左右运动的运动信息。该3DoF+数据可以包括头部的三个转动角度和上身运动的前后的幅度、以及左右的幅度。或者，该3DoF+数据可以包括头部的三个转动角度和上身运动的前后的幅度。或者，该3DoF+数据可以包括头部的三个转动角度和上身运动的左右的幅度。该位置信息用于指示该收听者的身体移动的方位和幅度。该姿态信息和位置信息可以是六自由度(6degree of freedom，6DoF)数据，该6DoF数据表示收听者进行无约束自由运动的信息。该6DoF数据可以包括头部的三个转动角度和身体运动的前后的幅度、左右的幅度、以及上下的幅度。

获取控制信息的方式可以是上述音频信号渲染装置根据内容描述元数据、渲染格式标志信息、扬声器配置信息、应用场景信息、跟踪信息、姿态信息或位置信息中至少一项，生成控制信息。获取控制信息的方式也可以是从其他设备接收控制信息，其具体实施方式本申请实施例不做限定。

示例性的，在对待渲染音频信号进行渲染处理前，本申请实施例可以根据内容描述元数据、渲染格式标志信息、扬声器配置信息、应用场景信息、跟踪信息、姿态信息或位置信息中至少一项，生成控制信息。参照图5所示，输入信息包括上述内容描述元数据、渲染格式标志信息、扬声器配置信息、应用场景信息、跟踪信息、姿态信息或位置信息中至少一项，对输入信息进行分析，生成控制信息。该控制信息可以作用于渲染处理，使得可以自适应选择渲染处理方式，提升音频信号的渲染效果。该控制信息可以包括输出信号(即渲染后的音频信号)的渲染格式、应用场景信息、所采用的渲染处理方式、渲染所使用的数据库等。

步骤403、根据控制信息对待渲染音频信号进行渲染，以获取渲染后的音频信号。

由于控制信息是根据上述内容描述元数据、渲染格式标志信息、扬声器配置信息、应用场景信息、跟踪信息、姿态信息或位置信息中至少一项生成的，所以基于该控制信息使用相应的渲染方式进行渲染，以实现基于输入信息的自适应选择渲染方式，从而提升音频渲染效果。

在一些实施例中，上述步骤403可以包括以下至少一项：根据控制信息对待渲染音频信号进行渲染前处理(Rendering pre-processing)；或者，根据控制信息对待渲染音频信号进行信号格式转换(Format converter)；或者，根据控制信息对待渲染音频信号进行本地混响处理(Local reverberation processing)；或者，根据控制信息对待渲染音频信号进行群组处理(Grouped source Transformations)；或者，根据控制信息对待渲染音频信号进行动态范围压缩(Dynamic Range Compression)；或者，根据控制信息对待渲染音频信号进行双耳渲染(Binaural rendering)；或者，根据控制信息对所述待渲染音频信号进行扬声器渲染(Loudspeaker rendering)。

该渲染前处理用于利用发送端的相关信息对待渲染音频信号进行静态初始化处理，该发送端的相关信息可以包括发送端的混响信息。该渲染前处理可以向后续的信号格式转换、本地混响处理、群组处理、动态范围压缩、双耳渲染或扬声器渲染等一项或多项动态渲染处理方式提供基础，以便经过渲染后的音频信号与回放设备或回放环境中至少一项相匹配，从而提供较好的听觉效果。该渲染前处理的具体实施方式可以参见6A所示实施例的解释说明。

该群组处理用于对待渲染音频信号中每一种信号格式的音频信号进行实时的3DoF处理，或，3DoF+处理，或6DoF处理，即对同一信号格式的音频信号进行相同的处理，以降低处理复杂度。该群组处理的具体实施方式可以参见11A所示实施例的解释说明。

动态范围压缩用于压缩待渲染音频信号的动态范围，以提升渲染后的音频信号的播放质量。该动态范围是该渲染音频信号中最强信号与最弱信号之间的强度差，单位用“db”表示。该动态范围压缩的具体实施方式可以参见12A所示实施例的解释说明。

双耳渲染用于将待渲染音频信号转换为双耳信号，以便通过耳机回放。该双耳渲染的具体实施方式可以参见6A所示实施例的步骤504的解释说明。

扬声器渲染用于将待渲染音频信号转换为与扬声器布局相匹配的信号，以便通过扬声器回放。该扬声器渲染的具体实施方式可以参见6A所示实施例的步骤504的解释说明。

举例而言，以控制信息中指示了内容描述元数据，渲染格式标志信息和跟踪信息三个信息为例，对根据控制信息对待渲染音频信号进行渲染的具体实现方式进行解释说明。一种示例：内容描述元数据指示输入信号格式为基于场景的音频信号，渲染信号格式标志信息指示渲染为双耳渲染，跟踪信息指示渲染后的音频信号未随着收听者的头部转动变化，则根据控制信息对待渲染音频信号进行渲染可以为：将基于场景的音频信号转化为基于声道的音频信号，对基于声道的音频信号用HRTF/BRIR直接卷积生成双耳渲染信号，该双耳渲染信号即为渲染后的音频信号。另一种示例：内容描述元数据指示输入信号格式为基于场景的音频信号，渲染信号格式标志信息指示渲染为双耳渲染，跟踪信息指示渲染后的音频信号随着收听者的头部转动变化，则根据控制信息对待渲染音频信号进行渲染可以为：将基于场景的音频信号进行球谐分解生成虚拟扬声器信号，对虚拟扬声器信号用HRTF/BRIR卷积生成双耳渲染信号，该双耳渲染信号即为渲染后的音频信号。再一种示例：内容描述元数据指示输入信号格式为基于声道的音频信号，渲染信号格式标志信息指示渲染为双耳渲染，跟踪信息指示渲染后的音频信号未随着收听者的头部转动变化，则根据控制信息对待渲染音频信号进行渲染可以为：将基于声道的音频信号用HRTF/BRIR直接卷积生成双耳渲染信号，该双耳渲染信号即为渲染后的音频信号。又一种示例：内容描述元数据指示输入信号格式为基于声道的音频信号，渲染信号格式标志信息指示渲染为双耳渲染，跟踪信息指示渲染后的音频信号随着收听者的头部转动变化，则根据控制信息对待渲染音频信号进行渲染可以为：将基于声道的音频信号转化成基于场景的音频信号，将基于场景的音频信号利用球谐分解生成虚拟扬声器信号，对虚拟扬声器信号用HRTF/BRIR卷积生成双耳渲染信号，该双耳渲染信号即为渲染后的音频信号。需要说明的是，上述举例仅仅是示例性的，并不是限制在实际应用中只能采用上述举例。由此，通过控制信息指示的信息，自适应选择合适的处理方式对输入信号进行渲染，以提升渲染效果。

举例而言，以控制信息中指示了内容描述元数据，渲染格式标志信息，应用场景信息，跟踪信息，姿态信息和位置信息为例，对根据控制信息对待渲染音频信号进行渲染的具体实现方式可以为，根据内容描述元数据，渲染格式标志信息，应用场景信息，跟踪信息，姿态信息和位置信息对待渲染音频信号进行本地混响处理、群组处理以及双耳渲染或扬声器渲染；或者，根据内容描述元数据，渲染格式标志信息，应用场景信息，跟踪信息，姿态信息和位置信息对待渲染音频信号进行信号格式转换、本地混响处理、群组处理以及双耳渲染或扬声器渲染。由此，通过控制信息指示的信息，自适应选择合适的处理方式对输入信号进行渲染，以提升渲染效果。需要说明的是，上述举例仅仅是示例性的，并不是限制在实际应用中只能采用上述举例。

本实施例，通过解码接收到的码流获取待渲染音频信号，获取控制信息，该控制信息用于指示内容描述元数据、渲染格式标志信息、扬声器配置信息、应用场景信息、跟踪信息、姿态信息或位置信息中至少一项，根据控制信息对待渲染音频信号进行渲染，以获取渲染后的音频信号，可以实现基于内容描述元数据、渲染格式标志信息、扬声器配置信息、应用场景信息、跟踪信息、姿态信息或位置信息中至少一项输入信息的自适应选择渲染方式，从而提升音频渲染效果。

图6A为本申请实施例的另一种音频信号渲染方法的流程图，图6B为本申请实施例的一种渲染前处理的示意图，本申请实施例的执行主体可以是上述音频信号渲染装置，本实施例为上述图3所示实施例的一种可实现方式，即对本申请实施例的音频信号渲染方法的渲染前处理(Rendering pre-processing)进行具体解释说明。渲染前处理(Renderingpre-processing)包括：对基于声道的音频信号、或基于对象的音频信号、或基于场景的音频信号做旋转(rotation)和移动(translation)的精度设置并完成三自由度(3DoF)处理，以及混响处理，如图6A所示，本实施例的方法可以包括：

步骤501、通过解码接收到的码流获取待渲染音频信号和第一混响信息。

该待渲染音频信号包括基于声道的音频信号，基于对象的音频信号或基于场景的音频信号中的至少一个，该第一混响信息包括第一混响输出响度信息、第一直达声与早期反射声的时间差信息、第一混响持续时间信息、第一房间形状和尺寸信息、或第一声音散射度信息中至少一项。

步骤502、获取控制信息，该控制信息用于指示内容描述元数据、渲染格式标志信息、扬声器配置信息、应用场景信息、跟踪信息、姿态信息或位置信息中至少一项。

其中，步骤502的解释说明，可以参见图3所示实施例的步骤402的具体解释说明，此处不再赘述。

步骤503、根据控制信息，对待渲染音频信号进行控制处理，获取控制处理后音频信号，根据第一混响信息对控制处理后音频信号进行混响处理，以获取第一音频信号。

其中，上述控制处理包括对待渲染音频信号中的基于声道的音频信号进行初始的3DoF处理、对待渲染音频信号中的基于对象的音频信号进行变换处理或对待渲染音频信号中的基于场景的音频信号进行初始的3DoF处理中至少一项。

本申请实施例可以根据控制信息，分别对单个声源(individual sources)进行渲染前处理。单个声源(individual sources)可以是基于声道的音频信号、基于对象的音频信号或者基于场景的音频信号。以一个脉冲编码调制(pulse code modulation，PCM)信号1为例，参见图6B所示，渲染前处理的输入信号为PCM信号1，输出信号为PCM信号2。如果控制信息指示输入信号的信号格式包括基于声道，则渲染前处理包括基于声道的音频信号的初始的3DoF处理及混响处理。如果控制信息指示输入信号的信号格式包括基于对象，则渲染前处理包括基于对象的音频信号的变换及混响处理。如果控制信息指示输入信号的信号格式包括基于场景，则渲染前处理包括基于场景的音频信号的初始的3DoF处理及混响处理。渲染前处理后获得输出的PCM信号2。

举例而言，当待渲染音频信号包括基于声道的音频信号和基于场景的音频信号时，可以根据控制信息，分别对基于声道的音频信号和基于场景的音频信号进行渲染前处理。即根据控制信息对基于声道的音频信号进行初始的3DoF处理，并根据第一混响信息对基于声道的音频信号进行混响处理，以获取渲染前处理后的基于声道的音频信号。根据控制信息对基于场景的音频信号进行初始的3DoF处理，并根据第一混响信息对基于场景的音频信号进行混响处理，以获取渲染前处理后的基于场景的音频信号，上述第一音频信号包括渲染前处理后的基于声道的音频信号和渲染前处理后的基于场景的音频信号。当待渲染音频信号包括基于声道的音频信号、基于对象的音频信号和基于场景的音频信号时，其处理过程与前述举例类似，渲染前处理所得到的第一音频信号可以包括渲染前处理后的基于声道的音频信号、渲染前处理后的基于对象的音频信号和渲染前处理后的基于场景的音频信号。本实施例以前述两个举例为例做示意性说明，当待渲染音频信号包括其他的单个信号格式的音频信号或者多个信号格式的音频信号组合的形式，其具体实施方式类似，即分别对单个信号格式的音频信号进行旋转(rotation)和移动(translation)的精度设置并完成初始的3DoF处理，以及混响处理，此处不一一举例说明。

本申请实施例的渲染前处理，可以根据控制信息，选择相应的处理方法对单个声源(individual sources)进行渲染前处理。其中，对于基于场景的音频信号，上述初始的3DoF处理，可以包括根据起始位置(基于初始的3DoF数据确定)对基于场景的音频信号进行移动和旋转处理，再对处理后的基于场景的音频信号进行虚拟扬声器映射，得到该基于场景的音频信号对应的虚拟扬声器信号。对于基于声道的音频信号，该基于声道的音频信号包括一个或多个声道信号，上述初始的3DoF处理可以包括计算收听者的初始位置(基于初始的3DoF数据确定)与各声道信号的相对位置选择初始的HRTF/BRIR数据，得到对应的声道信号和初始的HRTF/BRIR数据索引。对于基于对象的音频信号，该基于对象的音频信号包括一个或多个对象信号，上述变换处理可以包括计算收听者的初始位置(基于初始的3DoF数据确定)与各对象信号的相对位置来选择初始的HRTF/BRIR数据，得到对应的对象信号和初始的HRTF/BRIR数据索引。

上述混响处理为根据解码器的输出参数来生成第一混响信息，混响处理需要用到的参数包括但不限于：混响的输出响度信息，直达声与早期反射声的时间差信息，混响的持续时间信息，房间形状和尺寸信息，或声音的散射度信息等一项或多项。根据三种信号格式中产生的第一混响信息分别对三种信号格式的音频信号进行混响处理，得到带有发送端的混响信息的输出信号，即上述第一音频信号。

步骤504、对第一音频信号进行双耳渲染或扬声器渲染，以获取所述渲染后的音频信号。

渲染后的音频信号可以通过扬声器播放或者通过耳机播放。

一种可实现方式，可以根据控制信息对第一音频信号进行扬声器渲染。例如，可以根据控制信息中的扬声器配置信息以及控制信息中的渲染格式标志信息，对输入信号(即这里的第一音频信号)进行处理。其中，可以对第一音频信号中的一部分信号采用一种扬声器渲染方式，第一音频信号中的另一部分信号采用另一种扬声器渲染方式。扬声器渲染方式可以包括：基于声道的音频信号的扬声器渲染、基于场景的音频信号的扬声器渲染或基于对象的音频信号的扬声器渲染。基于声道的音频信号的扬声器处理可以包括，对输入的基于声道的音频信号，进行上混或下混处理得到基于声道的音频信号对应的扬声器信号。基于对象的音频信号的扬声器渲染可以包括，对基于对象的音频信号，应用幅度平移处理方法，得到基于对象的音频信号对应的扬声器信号。基于场景的音频信号的扬声器渲染包括，对基于场景的音频信号进行解码处理，得到基于场景的音频信号对应的扬声器信号。基于声道的音频信号对应的扬声器信号、基于对象的音频信号对应的扬声器信号、基于场景的音频信号对应的扬声器信号中的一种或多种融合后得到扬声器信号。在一些实施例中，还可以包括对扬声器信号进行去串扰处理和在没有高度扬声器的情况下通过水平面位置的扬声器来虚拟高度信息。

以第一音频信号为PCM信号6为例，图7为本申请实施例提供的一种扬声器渲染的示意图，如图7所示，扬声器渲染的输入为PCM信号6，经过如上所述的扬声器渲染后，输出扬声器信号。

另一种可实现方式，可以根据控制信息对第一音频信号进行双耳渲染。例如，可以根据控制信息中的渲染格式标志信息，对输入信号(即这里的第一音频信号)进行处理。其中，可以根据渲染前处理得到的初始的HRTF数据索引，从HRTF数据库中获取该索引对应的HRTF数据。将以头为中心的HRTF数据转为以双耳为中心的HRTF数据，对HRTF数据进行去串扰处理、耳机均衡处理、个性化处理等。根据HRTF数据对输入信号(即这里的第一音频信号)，进行双耳信号处理得到双耳信号。双耳信号处理包括：对于基于声道的音频信号和基于对象的音频信号，通过直接卷积的方法处理，得到双耳信号；对于基于场景的音频信号，通过球谐分解卷积的方法处理，得到双耳信号。

以第一音频信号为PCM信号6为例，图8为本申请实施例提供的一种双耳渲染的示意图，如图8所示，双耳渲染的输入为PCM信号6，经过如上所述的双耳渲染后，输出双耳信号。

本实施例，通过解码接收到的码流获取待渲染音频信号和第一混响信息，根据控制信息所指示的内容描述元数据、渲染格式标志信息、扬声器配置信息、应用场景信息、跟踪信息、姿态信息或位置信息中至少一项，对待渲染音频信号进行控制处理，获取控制处理后音频信号，该控制处理包括对基于声道的音频信号进行初始的3DoF处理、对基于对象的音频信号进行变换处理或对基于场景的音频信号进行初始的3DoF处理中至少一项并根据第一混响信息对控制处理后音频信号进行混响处理，以获取第一音频信号，对第一音频信号进行双耳渲染或扬声器渲染，以获取所述渲染后的音频信号，可以实现基于内容描述元数据、渲染格式标志信息、扬声器配置信息、应用场景信息、跟踪信息、姿态信息或位置信息中至少一项输入信息的自适应选择渲染方式，从而提升音频渲染效果。

图9A为本申请实施例的另一种音频信号渲染方法的流程图，图9B为本申请实施例的一种信号格式转换的示意图，本申请实施例的执行主体可以是上述音频信号渲染装置，本实施例为上述图3所示实施例的一种可实现方式，即对本申请实施例的音频信号渲染方法的信号格式转换(Format converter)进行具体解释说明。信号格式转换(Formatconverter)可以实现将一种信号格式转换成另一种信号格式，以提升渲染效果，如图9A所示，本实施例的方法可以包括：

步骤601、通过解码接收到的码流获取待渲染音频信号。

其中，步骤601的解释说明，可以参见图3所示实施例的步骤401的具体解释说明，此处不再赘述。

步骤602、获取控制信息，该控制信息用于指示内容描述元数据、渲染格式标志信息、扬声器配置信息、应用场景信息、跟踪信息、姿态信息或位置信息中至少一项。

其中，步骤602的解释说明，可以参见图3所示实施例的步骤402的具体解释说明，此处不再赘述。

步骤603、根据控制信息对待渲染音频信号进行信号格式转换，获取第六音频信号。

其中，该信号格式转换包括以下至少一项：将待渲染音频信号中的基于声道的音频信号转换为基于场景或基于对象的音频信号；或者，将待渲染音频信号中的基于场景的音频信号转换为基于声道或基于对象的音频信号；或者，将待渲染音频信号中的基于对象的音频信号转换为基于声道或基于场景的音频信号。

以待渲染音频信号为PCM信号2为例，如图9B所示，可以控制信息，选择对应的信号格式转换，将一种信号格式的PCM信号2转换为另一种信号格式的PCM信号3。

本申请实施例可以根据控制信息自适应选择信号格式转换，可以实现对一部分输入信号(这里的待渲染音频信号)采用一种信号格式转换(例如上述任意一种)进行转换，对另一部分输入信号采用其他信号格式转换进行转换。

例如，在双耳渲染的应用场景中，有时需要对其中一部分输入信号采用直接卷积的方式进行渲染，而对另一部分输入信号使用HOA方式进行渲染，因此可以先通过信号格式转换实现将基于场景的音频信号转化为基于声道的音频信号，以便后续双耳渲染过程中，进行直接卷积的处理，将基于对象的音频信号转化为基于场景的音频信号，以便后续通过HOA方式进行渲染处理。又例如，控制信息中的姿态信息和位置信息指示收听者要进行6DoF渲染处理，则可以先通过信号格式转换将基于声道的音频信号转化为基于对象的音频信号，将基于场景的音频信号转化为基于对象的音频信号。

在对待渲染音频信号进行信号格式转换时，还可以结合终端设备的处理性能。该终端设备的处理性能可以是终端设备的处理器性能，例如，处理器的主频、位数等。根据控制信息对待渲染音频信号进行信号格式转换的一种可实现方式可以包括：根据控制信息、待渲染音频信号的信号格式以及终端设备的处理性能，对待渲染音频信号进行信号格式转换。例如，控制信息中的姿态信息和位置信息指示收听者要进行6DoF渲染处理，结合终端设备的处理器性能，确定是否转换，例如，终端设备的处理器性能较差，则可以将基于对象的音频信号或基于声道的音频信号，转换为基于场景的音频信号，终端设备的处理器性能较好，则可以将基于场景的音频信号或基于声道的音频信号，转换为基于对象的音频信号。

一种可实现方式，根据控制信息中的姿态信息和位置信息，以及待渲染音频信号的信号格式，确定是否转换，以及转换后的信号格式。

在将基于场景的音频信号转换为基于对象的音频信号时，可以先将基于场景的音频信号转换化为虚拟扬声器信号，然后每个虚拟扬声器信号和其对应的位置就是一个基于对象的音频信号，其中虚拟扬声器信号是音频内容(audio content)，对应的位置是元数据(metadata)中的信息。

步骤604、对第六音频信号进行双耳渲染或扬声器渲染，以获取渲染后的音频信号。

其中，步骤604的解释说明可以参见图6A中的步骤504的具体解释说明，此处不再赘述。即将图6A中的步骤504的第一音频信号替换为第六音频信号。

本实施例，通过解码接收到的码流获取待渲染音频信号，根据控制信息所指示的内容描述元数据、渲染格式标志信息、扬声器配置信息、应用场景信息、跟踪信息、姿态信息或位置信息中至少一项，对待渲染音频信号进行信号格式转换，获取第六音频信号，对第六音频信号进行双耳渲染或扬声器渲染，以获取渲染后的音频信号，可以实现基于内容描述元数据、渲染格式标志信息、扬声器配置信息、应用场景信息、跟踪信息、姿态信息或位置信息中至少一项输入信息的自适应选择渲染方式，从而提升音频渲染效果。通过根据控制信息对待渲染音频信号进行信号格式转换，可以实现信号格式的灵活转换，从而使得本申请实施例的音频信号渲染方法适用于任何信号格式，通过对合适的信号格式的音频信号进行渲染，可以提升音频渲染效果。

图10A为本申请实施例的另一种音频信号渲染方法的流程图，图10B为本申请实施例的一种本地混响处理(Local reverberation processing)的示意图，本申请实施例的执行主体可以是上述音频信号渲染装置，本实施例为上述图3所示实施例的一种可实现方式，即对本申请实施例的音频信号渲染方法的本地混响处理(Local reverberationprocessing)进行具体解释说明。本地混响处理(Local reverberation processing)可以实现基于重放端的混响信息进行渲染，以提升渲染效果，从而使得音频信号渲染方法可以支持AR等应用场景，如图10A所示，本实施例的方法可以包括：

步骤701、通过解码接收到的码流获取待渲染音频信号。

其中，步骤701的解释说明，可以参见图3所示实施例的步骤401的具体解释说明，此处不再赘述。

步骤702、获取控制信息，该控制信息用于指示内容描述元数据、渲染格式标志信息、扬声器配置信息、应用场景信息、跟踪信息、姿态信息或位置信息中至少一项。

其中，步骤702的解释说明，可以参见图3所示实施例的步骤402的具体解释说明，此处不再赘述。

步骤703、获取第二混响信息，该第二混响信息为渲染后的音频信号所在的场景的混响信息，该第二混响信息包括第二混响输出响度信息、第二直达声与早期反射声的时间差信息、第二混响持续时间信息、第二房间形状和尺寸信息、或第二声音散射度信息中至少一项。

该第二混响信息是音频信号渲染装置侧生成的混响信息。该第二混响信息也可以称为本地混响信息。

在一些实施例中，可以根据音频信号渲染装置的应用场景信息生成该第二混响信息。可以通过收听者设置的配置信息获取应用场景信息，也可以通过传感器获取应用场景信息。该应用场景信息可以包括位置、或环境信息等。

步骤704、根据控制信息和第二混响信息对待渲染音频信号进行本地混响处理，获取第七音频信号。

基于控制信息和第二混响信息进行渲染，以得到第七音频信号。

一种可实现方式，可以根据控制信息，对待渲染音频信号中不同信号格式的信号进行聚类处理，获取基于声道的群信号、基于场景的群信号或基于对象的群信号中至少一项。根据第二混响信息，分别对基于声道的群信号、基于场景的群信号或基于对象的群信号中至少一项进行本地混响处理，获取第七音频信号。

换言之，音频信号渲染装置可以为三种格式的音频信号产生混响信息，使得本申请实施例的音频信号渲染方法可以应用于增强现实场景，以提升临场感。增强现实场景因为无法预知重放端所处的实时位置的环境信息，所以无法在制作端确定混响信息，本实施例根据实时输入的应用场景信息产生对应的第二混响信息，用于渲染处理，可以提升渲染效果。

例如，如图10B所示，对如图10B所示的PCM信号3中不同格式类型的信号进行聚类处理后输出为基于声道的群信号，基于对象的群信号，基于场景的群信号等三种格式信号，后续对三种格式的群信号进行混响处理，输出第七音频信号，即如图10B所示的PCM信号4。

步骤705、对第七音频信号进行双耳渲染或扬声器渲染，以获取渲染后的音频信号。

其中，步骤705的解释说明可以参见图6A中的步骤504的具体解释说明，此处不再赘述。即将图6A中的步骤504的第一音频信号替换为第七音频信号。

本实施例，通过解码接收到的码流获取待渲染音频信号，根据控制信息所指示的内容描述元数据、渲染格式标志信息、扬声器配置信息、应用场景信息、跟踪信息、姿态信息或位置信息中至少一项，以及第二混响信息，对待渲染音频信号进行本地混响处理，获取第七音频信号，对第七音频信号进行双耳渲染或扬声器渲染，以获取渲染后的音频信号，可以实现基于内容描述元数据、渲染格式标志信息、扬声器配置信息、应用场景信息、跟踪信息、姿态信息或位置信息中至少一项输入信息的自适应选择渲染方式，从而提升音频渲染效果。根据实时输入的应用场景信息产生对应的第二混响信息，用于渲染处理，可以提升音频渲染效果，能够为AR应用场景提供与场景相符的实时混响。

图11A为本申请实施例的另一种音频信号渲染方法的流程图，图11B为本申请实施例的一种群组处理(Grouped source Transformations)的示意图，本申请实施例的执行主体可以是上述音频信号渲染装置，本实施例为上述图3所示实施例的一种可实现方式，即对本申请实施例的音频信号渲染方法的群组处理(Grouped source Transformations)进行具体解释说明。群组处理(Grouped source Transformations)可以降低渲染处理的复杂度，如图11A所示，本实施例的方法可以包括：

步骤801、通过解码接收到的码流获取待渲染音频信号。

其中，步骤801的解释说明，可以参见图3所示实施例的步骤401的具体解释说明，此处不再赘述。

步骤802、获取控制信息，该控制信息用于指示内容描述元数据、渲染格式标志信息、扬声器配置信息、应用场景信息、跟踪信息、姿态信息或位置信息中至少一项。

其中，步骤802的解释说明，可以参见图3所示实施例的步骤402的具体解释说明，此处不再赘述。

步骤803、根据控制信息对待渲染音频信号中每一种信号格式的音频信号进行实时的3DoF处理，或，3DoF+处理，或6DoF处理，获取第八音频信号。

本实施例可以根据控制信息中的3DoF，3DoF+，6DoF信息对三种信号格式的音频信号进行处理，即对每一种格式的音频信号进行统一的处理，在保证处理性能的基础上可以降低处理复杂度。

对基于声道的音频信号进行实时的3DoF处理，或，3DoF+处理，或6DoF处理为实时计算收听者与基于声道的音频信号之间的相对朝向关系。对基于对象的音频信号进行实时的3DoF处理，或，3DoF+处理，或6DoF处理为实时计算收听者与对象声源信号之间的相对朝向和相对距离关系。对基于场景的音频信号进行实时的3DoF处理，或，3DoF+处理，或6DoF处理为实时计算收听者与场景信号中心的位置关系。

一种可实现方式，对基于声道的音频信号进行实时的3DoF处理，或，3DoF+处理，或6DoF处理为，根据初始的HRTF/BRIR数据索引、以及收听者当前时间的3DoF/3DoF+/6DoF数据，得到处理后的HRTF/BRIR数据索引。该处理后的HRTF/BRIR数据索引用于反映收听者与声道信号之间的朝向关系。

一种可实现方式，对基于对象的音频信号进行实时的3DoF处理，或，3DoF+处理，或6DoF处理为，根据初始的HRTF/BRIR数据索引、以及收听者当前时间的3DoF/3DoF+/6DoF数据，得到处理后的HRTF/BRIR数据索引。该处理后的HRTF/BRIR数据索引用于反映收听者与对象信号之间的相对朝向和相对距离关系。

一种可实现方式，对基于场景的音频信号进行实时的3DoF处理，或，3DoF+处理，或6DoF处理为，根据虚拟扬声器信号、以及收听者当前时间的3DoF/3DoF+/6DoF数据，得到处理后的HRTF/BRIR数据索引。该处理后的HRTF/BRIR数据索引用于反映收听者与虚拟扬声器信号的位置关系。

例如，参见图11B所示，对如图11B所示的PCM信号4中不同格式类型的信号分别进行实时的3DoF处理，或，3DoF+处理，或6DoF处理，输出PCM信号5，即第八音频信号。该PCM信号5包括PCM信号4和处理后的HRTF/BRIR数据索引。

步骤804、对第八音频信号进行双耳渲染或扬声器渲染，以获取渲染后的音频信号。

其中，步骤804的解释说明可以参见图6A中的步骤504的具体解释说明，此处不再赘述。即将图6A中的步骤504的第一音频信号替换为第八音频信号。

本实施例，通过解码接收到的码流获取待渲染音频信号，根据控制信息所指示的内容描述元数据、渲染格式标志信息、扬声器配置信息、应用场景信息、跟踪信息、姿态信息或位置信息中至少一项，对待渲染音频信号中每一种信号格式的音频信号进行实时的3DoF处理，或，3DoF+处理，或6DoF处理，获取第八音频信号，对第八音频信号进行双耳渲染或扬声器渲染，以获取渲染后的音频信号，可以实现基于内容描述元数据、渲染格式标志信息、扬声器配置信息、应用场景信息、跟踪信息、姿态信息或位置信息中至少一项输入信息的自适应选择渲染方式，从而提升音频渲染效果。对每一种格式的音频信号进行统一的处理，在保证处理性能的基础上可以降低处理复杂度。

图12A为本申请实施例的另一种音频信号渲染方法的流程图，图12B为本申请实施例的一种动态范围压缩(Dynamic Range Compression)的示意图，本申请实施例的执行主体可以是上述音频信号渲染装置，本实施例为上述图3所示实施例的一种可实现方式，即对本申请实施例的音频信号渲染方法的动态范围压缩(Dynamic Range Compression)进行具体解释说明。如图12A所示，本实施例的方法可以包括：

步骤901、通过解码接收到的码流获取待渲染音频信号。

其中，步骤901的解释说明，可以参见图3所示实施例的步骤401的具体解释说明，此处不再赘述。

步骤902、获取控制信息，该控制信息用于指示内容描述元数据、渲染格式标志信息、扬声器配置信息、应用场景信息、跟踪信息、姿态信息或位置信息中至少一项。

其中，步骤902的解释说明，可以参见图3所示实施例的步骤402的具体解释说明，此处不再赘述。

步骤903、根据控制信息对待渲染音频信号进行动态范围压缩，获取第九音频信号。

可以根据控制信息对输入的信号(例如，这里的待渲染音频信号)进行动态范围压缩，输出第九音频信号。

一种可实现方式，基于控制信息中的应用场景信息和渲染格式标志对待渲染音频信号进行动态范围压缩。例如，家庭影院场景和耳机渲染场景对频响的幅度有不同的需求。再例如，不同的频道节目内容要求有相似的声音响度，同一个节目内容也要保证合适的动态范围。又例如，一个舞台剧，既要保证轻音对白的时候能够听清对话内容又要确保音乐高声响起时声音响度在一定范围内，这样整体效果才不会有忽高忽低的感觉。对于该举例，都可以根据控制信息对待渲染音频信号进行动态范围压缩，以保证音频渲染质量。

例如，参见图12B所示，对如图12B所示的PCM信号5进行动态范围压缩，输出PCM信号6，即第九音频信号。

步骤904、对第九音频信号进行双耳渲染或扬声器渲染，以获取渲染后的音频信号。

其中，步骤904的解释说明可以参见图6A中的步骤504的具体解释说明，此处不再赘述。即将图6A中的步骤504的第一音频信号替换为第九音频信号。

本实施例，通过解码接收到的码流获取待渲染音频信号，根据控制信息所指示的内容描述元数据、渲染格式标志信息、扬声器配置信息、应用场景信息、跟踪信息、姿态信息或位置信息中至少一项，对待渲染音频信号进行动态范围压缩，获取第九音频信号，对第九音频信号进行双耳渲染或扬声器渲染，以获取渲染后的音频信号，可以实现基于内容描述元数据、渲染格式标志信息、扬声器配置信息、应用场景信息、跟踪信息、姿态信息或位置信息中至少一项输入信息的自适应选择渲染方式，从而提升音频渲染效果。

上面采用图6A至图12B，分别对根据控制信息对待渲染音频信号进行渲染前处理(Rendering pre-processing)，根据控制信息对待渲染音频信号进行信号格式转换(Format converter)，根据控制信息对待渲染音频信号进行本地混响处理(Localreverberation processing)，根据控制信息对待渲染音频信号进行群组处理(Groupedsource Transformations)，根据控制信息对待渲染音频信号进行动态范围压缩(DynamicRange Compression)，根据控制信息对待渲染音频信号进行双耳渲染(Binauralrendering)，根据控制信息对所述待渲染音频信号进行扬声器渲染(Loudspeakerrendering)进行了解释说明，即控制信息可以使得音频信号渲染装置可以自适应选择渲染处理方式，提升音频信号的渲染效果。

在一些实施例中，上述各个实施例还可以组合实施，即基于控制信息选取渲染前处理(Rendering pre-processing)、信号格式转换(Format converter)、本地混响处理(Local reverberation processing)、群组处理(Grouped source Transformations)、或动态范围压缩(Dynamic Range Compression)中一项或多项，对待渲染音频信号进行处理，以提升音频信号的渲染效果。

下面一个实施例以基于控制信息对待渲染音频信号进行渲染前处理(Renderingpre-processing)、信号格式转换(Format converter)、本地混响处理(Localreverberation processing)、群组处理(Grouped source Transformations)和动态范围压缩(Dynamic Range Compression)举例说明本申请实施例的音频信号渲染方法。

图13A为本申请实施例的一种音频信号渲染装置的架构示意图，图13B为本申请实施例的一种音频信号渲染装置的细化架构示意图，如图13A所示，本申请实施例的音频信号渲染装置可以包括渲染解释器，渲染前处理器，信号格式自适应转换器，混合器，群组处理器，动态范围压缩器，扬声器渲染处理器和双耳渲染处理器，本申请实施例的音频信号渲染装置具有灵活通用的渲染处理功能。其中，解码器的输出并不局限于单一的信号格式，如5.1多声道格式或者某一阶数的HOA信号，也可以是三种信号格式的混合形式。例如，在多方参加的远程电话会议应用场景中，有的终端发送的是立体声声道信号，有的终端发送的是一个远程参会者的对象信号，有个终端发送的是高阶HOA信号，解码器接收到码流解码得到的音频信号是多种信号格式的混合信号，本申请实施例的音频渲染装置可以支持混合信号的灵活渲染。

其中，渲染解释器用于根据内容描述元数据、渲染格式标志信息、扬声器配置信息、应用场景信息、跟踪信息、姿态信息或位置信息中至少一项，生成控制信息。渲染前处理器用于对输入的音频信号进行如上实施例所述的渲染前处理(Rendering pre-processing)。信号格式自适应转换器用于对输入的音频信号进行信号格式转换(Formatconverter)。混合器用于对输入的音频信号进行本地混响处理(Local reverberationprocessing)。群组处理器用于对输入的音频信号进行群组处理(Grouped sourceTransformations)。动态范围压缩器用于对输入的音频信号动态范围压缩(Dynamic RangeCompression)。扬声器渲染处理器用于对输入的音频信号进行扬声器渲染(Loudspeakerrendering)。双耳渲染处理器用于对输入的音频信号进行双耳渲染(Binauralrendering)。

上述音频信号渲染装置的细化框架图可以参见图13B所示，渲染前处理器可以分别对不同信号格式的音频信号进行渲染前处理，该渲染前处理的具体实施方式可以参见图6A所示实施例。渲染前处理器输出的不同信号格式的音频信号输入至信号格式自适应转换器，信号格式自适应转换器对不同信号格式的音频信号进行格式转换或不转换，例如，将基于声道的音频信号转换为基于对象的音频信号(如图13B所示的C to O)，将基于声道的音频信号转换为基于场景的音频信号(如图13B所示的C to HOA)。将基于对象的音频信号转换为基于信道的音频信号(如图13B所示的O to C)，将基于对象的音频信号转换为基于场景的音频信号(如图13B所示的O to HOA)。将基于场景的音频信号转换为基于信道的音频信号(如图13B所示的HOA to C)，将基于场景的音频信号转换为基于场景的音频信号(如图13B所示的HOA to O)。信号格式自适应转换器输出的音频信号，输入至混合器。

混合器对不同信号格式的音频信号进行聚类，得到不同信号格式的群信号，本地混响器对不同信号格式的群信号进行混响处理，并将处理后的音频信号输入至群组处理器。群组处理器分别对不同信号格式的群信号进行实时的3DoF处理，或，3DoF+处理，或6DoF处理。群组处理器输出的音频信号输入至动态范围压缩器，动态范围压缩器对群组处理器输出的音频信号进行动态范围压缩，输出压缩后的音频信号至扬声器渲染处理器或双耳渲染处理器。双耳渲染处理器对输入的音频信号中的基于声道和基于对象的音频信号进行直接卷积处理，对输入的音频信号中的基于场景的音频信号进行球谐分解卷积，输出双耳信号。扬声器渲染处理器对输入的音频信号中的基于声道的音频信号进行声道上混或下混，对输入的音频信号中的基于对象的音频信号进行能量映射，对输入的音频信号中的基于场景的音频信号进行场景信号映射，输出扬声器信号。

基于与上述方法相同的发明构思，本申请实施例还提供了一种音频信号渲染装置。

图14为本申请实施例的一种音频信号渲染装置的结构示意图，如图14所示，该音频信号渲染装置1500包括：获取模块1501、控制信息生成模块1502、以及渲染模块1503。

获取模块1501，用于通过解码接收的码流获取待渲染音频信号。

控制信息生成模块1502，用于获取控制信息，该控制信息用于指示内容描述元数据、渲染格式标志信息、扬声器配置信息、应用场景信息、跟踪信息、姿态信息或位置信息中至少一项。

渲染模块1503，用于根据该控制信息对该待渲染音频信号进行渲染，以获取渲染后的音频信号。

其中，该内容描述元数据用于指示该待渲染音频信号的信号格式，该信号格式包括基于声道、基于场景或基于对象中至少一项；该渲染格式标志信息用于指示音频信号渲染格式，该音频信号渲染格式包括扬声器渲染或双耳渲染；该扬声器配置信息用于指示扬声器的布局；该应用场景信息用于指示渲染器场景描述信息；该跟踪信息用于指示渲染后的音频信号是否随着收听者的头部转动变化；该姿态信息用于指示该头部转动的方位和幅度；该位置信息用于指示该收听者的身体移动的方位和幅度。

在一些实施例中，渲染模块1503用于执行以下至少一项：

根据该控制信息对该待渲染音频信号进行渲染前处理；或者，

根据该控制信息对该待渲染音频信号进行信号格式转换；或者，

根据该控制信息对该待渲染音频信号进行本地混响处理；或者，

根据该控制信息对该待渲染音频信号进行群组处理；或者，

根据该控制信息对该待渲染音频信号进行动态范围压缩；或者，

根据该控制信息对该待渲染音频信号进行双耳渲染；或者，

根据该控制信息对该待渲染音频信号进行扬声器渲染。

在一些实施例中，该待渲染音频信号包括基于声道的音频信号，基于对象的音频信号或基于场景的音频信号中的至少一个，该获取模块1501还用于：通过解码该码流获取第一混响信息，该第一混响信息包括第一混响输出响度信息、第一直达声与早期反射声的时间差信息、第一混响持续时间信息、第一房间形状和尺寸新、或第一声音散射度信息中至少一项。该渲染模块1503用于：根据该控制信息，对该待渲染音频信号进行控制处理，获取控制处理后音频信号，该控制处理可以包括对基于声道的音频信号进行初始的三自由度3DoF处理、对该基于对象的音频信号进行变换处理或对该基于场景的音频信号进行初始的3DoF处理中至少一项，根据该第一混响信息对该控制处理后音频信号进行混响处理，以获取第一音频信号。对该第一音频信号进行双耳渲染或扬声器渲染，以获取该渲染后的音频信号。

在一些实施例中，该渲染模块1503用于：根据该控制信息对该第一音频信号进行信号格式转换，获取第二音频信号。对该第二音频信号进行双耳渲染或扬声器渲染，以获取该渲染后的音频信号。

在一些实施例中，该渲染模块1503用于：根据该控制信息、该第一音频信号的信号格式以及终端设备的处理性能，对该第一音频信号进行信号格式转换。

在一些实施例中，该渲染模块1503用于：获取第二混响信息，该第二混响信息为该渲染后的音频信号所在的场景的混响信息，该第二混响信息包括第二混响输出响度信息、第二直达声与早期反射声的时间差信息、第二混响持续时间信息、第二房间形状和尺寸信息、或第二声音散射度信息中至少一项。根据该控制信息和该第二混响信息对该第二音频信号进行本地混响处理，获取第三音频信号。对该第三音频信号进行双耳渲染或扬声器渲染，以获取该渲染后的音频信号。

在一些实施例中，该渲染模块1503用于：根据该控制信息对该第二音频信号中不同信号格式的音频信号分别进行聚类处理，获取基于声道的群信号、基于场景的群信号或基于对象的群信号中至少一项。根据该第二混响信息，分别对基于声道的群信号、基于场景的群信号或基于对象的群信号中至少一项进行本地混响处理，获取第三音频信号。

在一些实施例中，该渲染模块1503用于：根据该控制信息对该第三音频信号中每一种信号格式的音频信号进行实时的3DoF处理，或，3DoF+处理，或六自由度6DoF处理，获取第四音频信号。对该第四音频信号进行双耳渲染或扬声器渲染，以获取该渲染后的音频信号。

在一些实施例中，该渲染模块1503用于：根据该控制信息对该第四音频信号进行动态范围压缩，获取第五音频信号。对该第五音频信号进行双耳渲染或扬声器渲染，以获取该渲染后的音频信号。

在一些实施例中，该渲染模块1503用于：根据该控制信息对该待渲染音频信号进行信号格式转换，获取第六音频信号。对该第六音频信号进行双耳渲染或扬声器渲染，以获取该渲染后的音频信号。

在一些实施例中，该渲染模块1503用于：根据该控制信息、该待渲染音频信号的信号格式以及终端设备的处理性能，对该待渲染音频信号进行信号格式转换。

在一些实施例中，该渲染模块1503用于：获取第二混响信息，该第二混响信息为该渲染后的音频信号所在的场景的混响信息，该第二混响信息包括第二混响输出响度信息、第二直达声与早期反射声的时间差信息、第二混响持续时间信息、第二房间形状和尺寸信息、或第二声音散射度信息中至少一项。根据该控制信息和该第二混响信息对该待渲染音频信号进行本地混响处理，获取第七音频信号。对该第七音频信号进行双耳渲染或扬声器渲染，以获取该渲染后的音频信号。

在一些实施例中，该渲染模块1503用于：根据该控制信息对该待渲染音频信号中每一种信号格式的音频信号进行实时的3DoF处理，或，3DoF+处理，或六自由度6DoF处理，获取第八音频信号。对该第八音频信号进行双耳渲染或扬声器渲染，以获取该渲染后的音频信号。

在一些实施例中，该渲染模块1503用于：根据该控制信息对该待渲染音频信号进行动态范围压缩，获取第九音频信号。对该第九音频信号进行双耳渲染或扬声器渲染，以获取该渲染后的音频信号。

需要说明的是，上述获取模块1501、控制信息生成模块1502、以及渲染模块1503可应用于编码端的音频信号渲染过程。

还需要说明的是，获取模块1501、控制信息生成模块1502、以及渲染模块1503的具体实现过程可参考上述方法实施例的详细描述，为了说明书的简洁，这里不再赘述。

基于与上述方法相同的发明构思，本申请实施例提供一种用于渲染音频信号的设备，例如，音频信号渲染设备，请参阅图15所示，音频信号渲染设备1600包括：

处理器1601、存储器1602以及通信接口1603(其中音频信号编码设备1600中的处理器1601的数量可以一个或多个，图15中以一个处理器为例)。在本申请的一些实施例中，处理器1601、存储器1602以及通信接口1603可通过总线或其它方式连接，其中，图15中以通过总线连接为例。

存储器1602可以包括只读存储器和随机存取存储器，并向处理器1601提供指令和数据。存储器1602的一部分还可以包括非易失性随机存取存储器(non-volatile randomaccess memory，NVRAM)。存储器1602存储有操作系统和操作指令、可执行模块或者数据结构，或者它们的子集，或者它们的扩展集，其中，操作指令可包括各种操作指令，用于实现各种操作。操作系统可包括各种系统程序，用于实现各种基础业务以及处理基于硬件的任务。

处理器1601控制音频编码设备的操作，处理器1601还可以称为中央处理单元(central processing unit，CPU)。具体的应用中，音频编码设备的各个组件通过总线系统耦合在一起，其中总线系统除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图中将各种总线都称为总线系统。

上述本申请实施例揭示的方法可以应用于处理器1601中，或者由处理器1601实现。处理器1601可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器1601中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1601可以是通用处理器、数字信号处理器(digital signal processing，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现场可编程门阵列(field-programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1602，处理器1601读取存储器1602中的信息，结合其硬件完成上述方法的步骤。

通信接口1603可用于接收或发送数字或字符信息，例如可以是输入/输出接口、管脚或电路等。举例而言，通过通信接口1603接收上述编码码流。

基于与上述方法相同的发明构思，本申请实施例提供一种音频渲染设备，包括：相互耦合的非易失性存储器和处理器，所述处理器调用存储在所述存储器中的程序代码以执行如上述一个或者多个实施例中所述的音频信号渲染方法的部分或全部步骤。

基于与上述方法相同的发明构思，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储了程序代码，其中，所述程序代码包括用于执行如上述一个或者多个实施例中所述的音频信号渲染方法的部分或全部步骤的指令。

基于与上述方法相同的发明构思，本申请实施例提供一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算机执行如上述一个或者多个实施例中所述的音频信号渲染方法的部分或全部步骤。

以上各实施例中提及的处理器可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。处理器可以是通用处理器、数字信号处理器(digital signalprocessor,DSP)、特定应用集成电路(application-specific integrated circuit，ASIC)、现场可编程门阵列(field programmable gate array,FPGA)或其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。本申请实施例公开的方法的步骤可以直接体现为硬件编码处理器执行完成，或者用编码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

上述各实施例中提及的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-onlymemory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(dynamic RAM，DRAM)、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double data rateSDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(directrambus RAM，DR RAM)。应注意，本文描述的系统和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种音频信号渲染方法，其特征在于，包括：

通过解码接收的码流获取待渲染音频信号；

获取控制信息，所述控制信息用于指示内容描述元数据、渲染格式标志信息、扬声器配置信息、应用场景信息、跟踪信息、姿态信息或位置信息中至少一项；

根据所述控制信息对所述待渲染音频信号进行渲染，以获取渲染后的音频信号；

其中，所述内容描述元数据用于指示所述待渲染音频信号的信号格式，所述信号格式包括基于声道的信号格式、基于场景的信号格式或基于对象的信号格式中至少一项；所述渲染格式标志信息用于指示音频信号渲染格式，所述音频信号渲染格式包括扬声器渲染或双耳渲染；所述扬声器配置信息用于指示扬声器的布局；所述应用场景信息用于指示渲染器场景描述信息；所述跟踪信息用于指示渲染后的音频信号是否随着收听者的头部转动变化；所述姿态信息用于指示所述头部转动的方位和幅度；所述位置信息用于指示所述收听者的身体移动的方位和幅度。

2.根据权利要求1所述的方法，其特征在于，所述根据所述控制信息对所述待渲染音频信号进行渲染，包括以下至少一项：

根据所述控制信息对所述待渲染音频信号进行渲染前处理；或者，

根据所述控制信息对所述待渲染音频信号进行信号格式转换；或者，

根据所述控制信息对所述待渲染音频信号进行本地混响处理；或者，

根据所述控制信息对所述待渲染音频信号进行群组处理；或者，

根据所述控制信息对所述待渲染音频信号进行动态范围压缩；或者，

根据所述控制信息对所述待渲染音频信号进行双耳渲染；或者，

根据所述控制信息对所述待渲染音频信号进行扬声器渲染。

3.根据权利要求2所述的方法，其特征在于，所述待渲染音频信号包括基于声道的音频信号，基于对象的音频信号或基于场景的音频信号中的至少一个；

所述根据所述控制信息对所述待渲染音频信号进行渲染前处理，以获取渲染后的音频信号，包括：

通过解码所述码流获取第一混响信息，其中，混响信息包括混响输出响度信息、直达声与早期反射声的时间差信息、混响持续时间信息、房间形状和尺寸信息、或声音散射度信息中至少一项；

根据所述控制信息，对所述待渲染音频信号进行控制处理，以获取控制处理后音频信号，所述控制处理包括对所述基于声道的音频信号进行初始的三自由度3DoF处理、对所述基于对象的音频信号进行变换处理或对所述基于场景的音频信号进行初始的3DoF处理中至少一项；

根据所述第一混响信息对所述控制处理后音频信号进行混响处理，以获取第一音频信号；

对所述第一音频信号进行双耳渲染或扬声器渲染，以获取所述渲染后的音频信号。

4.根据权利要求3所述的方法，其特征在于，所述对所述第一音频信号进行双耳渲染或扬声器渲染，以获取所述渲染后的音频信号，包括：

根据所述控制信息对所述第一音频信号进行信号格式转换，获取第二音频信号；

对所述第二音频信号进行双耳渲染或扬声器渲染，以获取所述渲染后的音频信号；

其中，所述信号格式转换包括以下至少一项：将所述第一音频信号中的基于声道的音频信号转换为基于场景或基于对象的音频信号；或者，将所述第一音频信号中的基于场景的音频信号转换为基于声道或基于对象的音频信号；或者，将所述第一音频信号中的基于对象的音频信号转换为基于声道或基于场景的音频信号。

5.根据权利要求4所述的方法，其特征在于，所述根据所述控制信息对所述第一音频信号进行信号格式转换，包括：

根据所述控制信息、所述第一音频信号的信号格式以及终端设备的处理性能，对所述第一音频信号进行信号格式转换。

6.根据权利要求4所述的方法，其特征在于，所述对所述第二音频信号进行双耳渲染或扬声器渲染，以获取所述渲染后的音频信号，包括：

获取第二混响信息，所述第二混响信息为所述渲染后的音频信号所在的场景的混响信息；

根据所述控制信息和所述第二混响信息对所述第二音频信号进行本地混响处理，以获取第三音频信号；

对所述第三音频信号进行双耳渲染或扬声器渲染，以获取所述渲染后的音频信号。

7.根据权利要求6所述的方法，其特征在于，所述根据所述控制信息和所述第二混响信息对所述第二音频信号进行本地混响处理，以获取第三音频信号，包括：

根据所述控制信息对所述第二音频信号中不同信号格式的音频信号分别进行聚类处理，获取基于声道的群信号、基于场景的群信号或基于对象的群信号中至少一项；

根据所述第二混响信息，对所述基于声道的群信号、所述基于场景的群信号或所述基于对象的群信号中至少一项进行本地混响处理，以获取所述第三音频信号。

8.根据权利要求6或7所述的方法，其特征在于，当所述根据所述控制信息对所述待渲染音频信号进行渲染，还包括根据所述控制信息对所述待渲染音频信号进行群组处理时，所述对所述第三音频信号进行双耳渲染或扬声器渲染，以获取所述渲染后的音频信号，包括：

根据所述控制信息对所述第三音频信号中每一种信号格式的群信号进行3DoF处理，或，3DoF+处理，或六自由度6DoF处理，以获取第四音频信号；

对所述第四音频信号进行双耳渲染或扬声器渲染，以获取所述渲染后的音频信号。

9.根据权利要求8所述的方法，其特征在于，所述对所述第四音频信号进行双耳渲染或扬声器渲染，以获取所述渲染后的音频信号，包括：

根据所述控制信息对所述第四音频信号进行动态范围压缩，获取第五音频信号；

对所述第五音频信号进行双耳渲染或扬声器渲染，以获取所述渲染后的音频信号。

10.根据权利要求1所述的方法，其特征在于，所述根据所述控制信息对所述待渲染音频信号进行渲染，以获取渲染后的音频信号，包括：

根据所述控制信息对所述待渲染音频信号进行信号格式转换，获取第六音频信号；

对所述第六音频信号进行双耳渲染或扬声器渲染，以获取所述渲染后的音频信号；

其中，所述信号格式转换包括以下至少一项：将所述待渲染音频信号中的基于声道的音频信号转换为基于场景或基于对象的音频信号；或者，将所述待渲染音频信号中的基于场景的音频信号转换为基于声道或基于对象的音频信号；或者，将所述待渲染音频信号中的基于对象的音频信号转换为基于声道或基于场景的音频信号。

11.根据权利要求10所述的方法，其特征在于，所述根据所述控制信息对所述待渲染音频信号进行信号格式转换，包括：

根据所述控制信息、所述待渲染音频信号的信号格式以及终端设备的处理性能，对所述待渲染音频信号进行信号格式转换。

12.根据权利要求1所述的方法，其特征在于，所述根据所述控制信息对所述待渲染音频信号进行渲染，以获取渲染后的音频信号，包括：

获取第二混响信息，所述第二混响信息为所述渲染后的音频信号所在的场景的混响信息，所述第二混响信息包括第二混响输出响度信息、第二直达声与早期反射声的时间差信息、第二混响持续时间信息、第二房间形状和尺寸信息、或第二声音散射度信息中至少一项；

根据所述控制信息和所述第二混响信息对所述待渲染音频信号进行本地混响处理，以获取第七音频信号；

对所述第七音频信号进行双耳渲染或扬声器渲染，以获取所述渲染后的音频信号。

13.根据权利要求1所述的方法，其特征在于，所述根据所述控制信息对所述待渲染音频信号进行渲染，以获取渲染后的音频信号，包括：

根据所述控制信息对所述待渲染音频信号中每一种信号格式的音频信号进行实时的3DoF处理，或，3DoF+处理，或六自由度6DoF处理，获取第八音频信号；

对所述第八音频信号进行双耳渲染或扬声器渲染，以获取所述渲染后的音频信号。

14.根据权利要求1所述的方法，其特征在于，所述根据所述控制信息对所述待渲染音频信号进行渲染，以获取渲染后的音频信号，包括：

根据所述控制信息对所述待渲染音频信号进行动态范围压缩，获取第九音频信号；

对所述第九音频信号进行双耳渲染或扬声器渲染，以获取所述渲染后的音频信号。

15.一种音频信号渲染装置，其特征在于，包括：

获取模块，用于通过解码接收的码流获取待渲染音频信号；

控制信息生成模块，用于获取控制信息，所述控制信息用于指示内容描述元数据、渲染格式标志信息、扬声器配置信息、应用场景信息、跟踪信息、姿态信息或位置信息中至少一项；

渲染模块，用于根据所述控制信息对所述待渲染音频信号进行渲染，以获取渲染后的音频信号；

16.根据权利要求15所述的装置，其特征在于，所述渲染模块用于执行以下至少一项：

根据所述控制信息对所述待渲染音频信号进行扬声器渲染。

17.根据权利要求16所述的装置，其特征在于，所述待渲染音频信号包括基于声道的音频信号，基于对象的音频信号或基于场景的音频信号中的至少一个，所述获取模块还用于通过解码所述码流获取第一混响信息，所述第一混响信息包括第一混响输出响度信息、第一直达声与早期反射声的时间差信息、第一混响持续时间信息、第一房间形状和尺寸信息、或第一声音散射度信息中至少一项；

所述渲染模块用于根据所述控制信息，对所述待渲染音频信号进行控制处理，以获取控制处理后音频信号，所述控制处理包括对所述基于声道的音频信号进行初始的三自由度3DoF处理、对所述基于对象的音频信号进行变换处理或对所述基于场景的音频信号进行初始的3DoF处理中至少一项；根据所述第一混响信息对所述控制处理后音频信号进行混响处理，以获取第一音频信号；对所述第一音频信号进行双耳渲染或扬声器渲染，以获取所述渲染后的音频信号。

18.根据权利要求17所述的装置，其特征在于，所述渲染模块用于根据所述控制信息对所述第一音频信号进行信号格式转换，获取第二音频信号；对所述第二音频信号进行双耳渲染或扬声器渲染，以获取所述渲染后的音频信号；

19.根据权利要求18所述的装置，其特征在于，所述渲染模块用于根据所述控制信息、所述第一音频信号的信号格式以及终端设备的处理性能，对所述第一音频信号进行信号格式转换。

20.根据权利要求18所述的装置，其特征在于，所述渲染模块用于：获取第二混响信息，所述第二混响信息为所述渲染后的音频信号所在的场景的混响信息；

21.根据权利要求20所述的装置，其特征在于，所述渲染模块用于根据所述控制信息对所述第二音频信号中不同信号格式的音频信号分别进行聚类处理，获取基于声道的群信号、基于场景的群信号或基于对象的群信号中至少一项；根据所述第二混响信息，分别对所述基于声道的群信号、所述基于场景的群信号或所述基于对象的群信号中至少一项进行本地混响处理，以获取所述第三音频信号。

22.根据权利要求20或21所述的装置，其特征在于，所述渲染模块用于：根据所述控制信息对所述第三音频信号中每一种信号格式的群信号进行实时的3DoF处理，或，3DoF+处理，或六自由度6DoF处理，以获取第四音频信号；

23.根据权利要求22所述的装置，其特征在于，所述渲染模块用于：根据所述控制信息对所述第四音频信号进行动态范围压缩，获取第五音频信号；

24.根据权利要求15所述的装置，其特征在于，所述渲染模块用于根据所述控制信息对所述待渲染音频信号进行信号格式转换，获取第六音频信号；对所述第六音频信号进行双耳渲染或扬声器渲染，以获取所述渲染后的音频信号；

25.根据权利要求24所述的装置，其特征在于，所述渲染模块用于根据所述控制信息、所述待渲染音频信号的信号格式以及终端设备的处理性能，对所述待渲染音频信号进行信号格式转换。

26.根据权利要求15所述的装置，其特征在于，所述渲染模块用于：

27.根据权利要求15所述的装置，其特征在于，所述渲染模块用于：

28.根据权利要求15所述的装置，其特征在于，所述渲染模块用于：

29.一种音频信号渲染装置，其特征在于，包括：相互耦合的非易失性存储器和处理器，所述处理器调用存储在所述存储器中的程序代码以执行如权利要求1至14任一项所述的方法。

30.一种音频信号渲染设备，其特征在于，包括：渲染器，所述渲染器用于执行如权利要求1至14任一项所述的方法。

31.一种计算机可读存储介质，其特征在于，包括计算机程序，所述计算机程序在计算机上被执行时，使得所述计算机执行权利要求1至14任一项所述的方法。