CN115668369A

CN115668369A - 音频处理方法和装置

Info

Publication number: CN115668369A
Application number: CN202180036202.XA
Authority: CN
Inventors: 田军; 许晓中; 刘杉
Original assignee: Tencent America LLC
Current assignee: Tencent America LLC
Priority date: 2021-02-22
Filing date: 2021-10-07
Publication date: 2023-01-31
Also published as: KR20220120578A; WO2022177610A1; EP4104169A1; JP2023518300A; EP4104169A4; JP7449405B2; US20220270626A1

Abstract

本公开的各方面提供了用于音频处理的方法和装置。在一些示例中，音频编解码装置包括处理电路。处理电路从编码比特流中解码出指示调整后的语音信号和对调整后的语音信号的响度调整的信息。调整后的语音信号以与沉浸式媒体应用的场景中的多个语音信号相关联的方式被指示。处理电路基于对调整后的语音信号的多个响度调整确定对包括场景中的多个语音信号的多个声音信号的多个响度调整，并基于对多个声音信号的多个响度调整在场景中生成多个声音信号。

Description

音频处理方法和装置

援引并入

本申请要求于2021年10月5日提交的标题为“METHOD AND APPARATUS IN AUDIOPROCESSING”的第17/450,015号的美国专利申请(其要求了于2021年2月22日提交的标题为“Scene Loudness Adjustment”的第63/152,086号的美国临时申请的优先权权益)的优先权权益。这两个在先申请的全部公开内容通过引用整体并入本文中。

技术领域

本公开描述了总体上涉及音频处理的实施例。

背景技术

本文所提供的背景描述是出于总体上呈现本公开上下文的目的。在该背景部分中描述的范围内，目前命名的发明人的作品以及提交之时不可另行具备现有技术资格的本描述的各方面既未明确、亦未默示地承认为本发明的现有技术。

在虚拟现实或增强现实的应用中，为了让用户在应用的虚拟世界中有身临其境的感觉，应用的场景中的音频被感知为如同在现实世界中，声音来自场景中相关的虚拟对象。在一些示例中，用户在现实世界中的物理运动被感知为在应用中的虚拟场景中相匹配的运动。此外，重要的是，用户可以使用逼真的并且与用户在现实世界中的体验相匹配的音频与虚拟场景进行交互。

发明内容

本公开的各方面提供了用于音频处理的方法和装置。在一些示例中，音频编解码装置包括处理电路。处理电路从编码比特流中解码出指示调整后的语音信号和对调整后的语音信号的响度调整的信息。调整后的语音信号以与沉浸式媒体应用的场景中的多个语音信号相关联的方式指示。处理电路基于对调整后的语音信号的响度调整确定对包括场景中的多个语音信号的多个声音信号的多个响度调整，并基于对多个声音信号的多个响度调整在场景中生成多个声音信号。

在一些示例中，处理电路从编码比特流中解码出指示多个语音信号中的一个语音信号是调整后的语音信号的索引。

在一个示例中，该信息指示多个语音信号中最响亮的语音信号是调整后的语音信号。在另一示例中，该信息指示多个语音信号中最安静的语音信号是调整后的语音信号。

在一些示例中，该信息指示调整后的语音信号具有多个语音信号的平均响度。

在一些示例中，该信息指示调整后的语音信号具有多个语音信号中最响亮的语音信号和最安静的语音信号的平均响度。

在一些示例中，该信息指示调整后的语音信号具有多个语音信号的中值响度(median loudness)。

在一些示例中，该信息指示调整后的语音信号具有一组语音信号的平均响度。该组语音信号具有多个语音信号的分位数的响度。

在一些示例中，处理电路将与位置相关联的语音信号确定为调整后的语音信号。该位置是距离与多个语音信号相关联的位置的中心最近的位置。

在一些示例中，该信息指示调整后的语音信号具有多个语音信号的加权平均响度。在一个示例中，处理电路基于多个语音信号的位置确定多个语音信号的权重。在另一个示例中，处理电路基于多个语音信号的相应响度确定多个语音信号的权重。

本公开的各方面还提供了一种存储指令的非暂时性计算机可读介质，所述指令在被计算机执行时使计算机执行音频处理方法。

附图说明

通过以下详细描述和附图，所公开的主题的其他特征、性质和各种优点将更加明显，在附图中：

图1示出了根据本公开实施例的沉浸式媒体系统的框图。

图2示出了根据本公开实施例的概述过程示例的流程图。

图3示出了根据本公开实施例的概述另一过程示例的流程图。

图4是根据一个实施例的计算机系统的示意图。

具体实施方式

本公开的各个方面提供了用于与沉浸式媒体应用中的场景相关联的音频响度调整的技术。在沉浸式媒体应用中，例如交互式虚拟现实(Virtual Reality，VR)或增强现实(Augmented Reality，AR)，可以通过各种技术设置场景中的不同声级，例如通过技术设置、通过响度测量、通过手动设置等。根据本公开的一些方面，当与沉浸式媒体应用中的场景相关联的多个声音信号包括多个语音信号时，可以基于沉浸式媒体应用的场景中的多个语音信号来确定调整后的语音信号的响度。然后，确定调整后的语音信号的响度调整，以使调整后的语音信号的响度与参考信号相匹配。此外，可以基于调整后的语音信号的响度调整来调整与场景相关联的多个声音信号的响度。在一些示例中，指示调整后的语音信号和调整后的语音信号的响度调整的信息可以被编码在携带用于生成多个声音信号的编码信息的比特流中，例如携带用于沉浸式媒体应用的沉浸式媒体的比特流。然后，在一些示例中，当具有沉浸式媒体播放器的用户设备接收到比特流时，用户设备可以针对场景基于比特流中的信息确定调整后的语音信号。此外，基于调整后的语音信号的响度调整，用户设备可以调整与场景相关联的多个声音信号。

图1示出了根据本公开实施例的沉浸式媒体系统(100)的框图。沉浸式媒体系统(100)可用于各种用途的应用，例如增强现实(AR)应用、虚拟现实应用、视频游戏护目镜应用、体育游戏动画应用等。

沉浸式媒体系统(100)包括可以通过网络(未示出)连接的沉浸式媒体编码子系统(101)和沉浸式媒体解码子系统(102)。在一个示例中，沉浸式媒体编码子系统(101)可以包括一个或多个具有音频编解码和视频编解码功能的设备。在一个示例中，沉浸式媒体编码子系统(101)包括单个计算设备，例如台式计算机、膝上型计算机、服务器计算机、平板计算机等。在另一示例中，沉浸式媒体编码子系统(101)包括数据中心、服务器群组等。沉浸式媒体编码子系统(101)可以接收视频和音频内容，并且根据合适的媒体编解码标准将视频内容和音频内容压缩成编码比特流(a coded bitstream)。编码比特流可以通过网络被传送到沉浸式媒体解码子系统(102)。

沉浸式媒体解码子系统(102)包括具有用于沉浸式媒体应用的视频编解码和音频编解码功能的一个或多个设备。在一个示例中，沉浸式媒体解码子系统(102)包括计算设备，例如台式计算机、膝上型计算机、服务器计算机、平板计算机、可穿戴计算设备、头戴式显示器(Head Mounted Display，HMD)设备等。沉浸式媒体解码子系统(102)可以根据合适的媒体编解码标准对编码比特流进行解码。解码后的视频内容和音频内容可用于沉浸式媒体播放。

沉浸式媒体编码子系统(101)可以使用任何合适的技术来实现。在图1的示例中，沉浸式媒体编码子系统(101)包括耦接在一起的处理电路(120)和接口电路(111)。

处理电路(120)可以包括任何合适的处理电路，例如一个或多个中央处理单元(Central Processing Unit，CPU)、一个或多个图形处理单元(Graphics ProcessingUnit，GPU)、专用集成电路等。在图1的示例中，处理电路(120)可以被配置为包括各种编码器，例如音频编码器(130)、视频编码器(未示出)等。在一个示例中，一个或多个CPU和/或GPU可以执行软件以用作音频编码器(130)。在另一示例中，可以使用专用集成电路来实现音频编码器(130)。

在一些示例中，音频编码器(130)参与用于确定多个声音信号的多个响度调整的收听测试设置。此外，音频编码器(130)可以将多个声音信号的多个响度调整的信息适当地编码在编码比特流中，例如元数据中。例如，音频编码器(140)可以包括响度控制器(140)，响度控制器基于所调整的语音信号的响度来确定响度调整。调整后的语音信号的响度是与场景相关的多个语音信号的函数。场景可以具有与场景相关联的多个声音信号中的多个语音信号。然后，指示调整后的语音信号和调整后的语音信号的响度调整的元数据可以包括在编码比特流中。

接口电路(111)可以将沉浸式媒体编码子系统(101)与网络连接。接口电路(111)可以包括从网络接收信号的接收部分和向网络发送信号的发送部分。例如，接口电路(111)可以通过网络将携带编码比特流的信号传输到其他设备，例如沉浸式媒体解码子系统(102)。

网络通过有线和/或无线连接(例如以太网连接、光纤连接、WiFi连接、蜂窝网络连接等)适当地与沉浸式媒体编码子系统(101)和沉浸式媒体解码子系统(102)耦接。网络可以包括网络服务器设备、存储设备、网络设备等。网络的组件通过有线和/或无线连接适当地耦接在一起。

沉浸式媒体解码子系统(102)被配置为对编码比特流进行解码。在一个示例中，沉浸式媒体解码子系统(102)可以执行视频解码以重构可以显示的视频帧序列，并执行音频解码以重构用于播放的音频信号。

沉浸式媒体解码子系统(102)可以使用任何合适的技术来实现。在图1的示例中，沉浸式媒体解码子系统(102)被示出，但不限于作为用户可以使用的用户设备的具有耳机的头戴式显示器(HMD)。沉浸式媒体解码子系统(102)包括如图1所示的耦接在一起的接口电路(161)和处理电路(170)。

接口电路(161)可以将沉浸式媒体解码子系统(102)与网络连接。接口电路(161)可以包括从网络接收信号的接收部分和向网络发送信号的发送部分。例如，接口电路(161)可以从网络接收携带数据的信号，例如携带编码比特流的信号。

处理电路(170)可以包括合适的处理电路，例如CPU、GPU、专用集成电路等。处理电路(170)可以被配置为包括各种解码器，例如音频解码器(180)、视频解码器(未示出)等。

在一些示例中，音频解码器(180)可以解码与场景相关联的音频内容，以及指示调整后的语音信号和调整后的语音信号的响度调整的元数据。此外，音频解码器(180)包括响度控制器(190)，响度控制器可以基于调整后的语音信号和调整后的语音信号的响度调整来调整与场景相关联的多个声音信号的声级。

根据本公开的一些方面，沉浸式媒体系统(100)可以根据沉浸式媒体标准来实现，例如移动图像专家组沉浸式(MPEG-I)标准套件，包括“沉浸式音频”、“沉浸式视频”和“系统支持”。沉浸式媒体标准可以支持VR或AR演示，其中用户可以使用6个自由度(6DoF)(包括空间导航(x、y、z)和用户头部方向(偏航、俯仰、滚转))导航并与环境交互。

沉浸式媒体系统(100)可以赋予用户实际存在于虚拟世界中的感觉。在一些示例中，场景的音频被感知为如同在现实世界中，声音来自相关的视觉对象。例如，在场景中以正确的位置和距离感知声音。用户在现实世界中的物理运动被感知为在虚拟世界的场景中相匹配的运动。此外，用户还可以与场景进行交互，并发出被认为是真实的并与现实世界中的用户体验相匹配的声音。

通常，例如内容提供者和/或技术提供者可以使用听力测试设置来确定声音信号的声级，以实现沉浸式的用户体验。在一些相关示例中，基于场景中的语音信号调整场景中声音信号的声级(也称为响度)。在一些示例中，多个语音信号存在于场景的多个声音信号中。本公开的一些方面提供了当与场景相关联的多个声音信号包括多个语音信号时，用于基于调整后的语音信号进行响度调整的技术。调整后的语音信号的响度是基于多个语音信号确定的。

根据本公开的一方面，可以由内容创建者或技术提供者执行响度调整过程以确定场景相对于参考信号(也称为锚信号)的响度调整。在一个示例中，参考信号是特定语音信号，例如WAV文件中声音质量评估材料(Sound Quality Assessment Material，SQAM)盘的轨道50上的男性英语语音。在一些示例中，针对在编码器输入格式(Encoder InputFormat，EIF)中使用的脉冲编码调制(Pulse-Code Modulation，PCM)声音信号执行响度调整过程。在一些示例中，可以在响度调整过程中使用双耳渲染工具，例如具有狄拉克头部相关传递函数(Dirac head Related Transfer Function，HRTF)等的通用双耳渲染器(General Binaural Renderer，GBR)。双耳渲染工具可以模拟场景的音频环境，并根据场景的音频内容生成WAV文件中的声音信号。

在一些示例中，示例性地，场景中的一个或两个测量点可以由内容创建者或技术提供者确定。这些测量点可以表示具有针对该场景的“正常”响度的场景任务路径上的位置。

在一些示例中，双耳渲染工具可用于定义声源位置与测量点的空间关系，并基于声源位置处的音频内容输出测量点处的场景输出信号(例如，声音信号)。

在一些示例中，场景输出信号(例如，声音信号)是WAV文件，可以与参考信号进行比较，并确定声级的必要调整。

在一个示例中，场景的音频内容包括语音内容。在双耳渲染工具中，语音内容的声源位置和测量位置可以被定义为相距约一段距离，例如预定义的距离(例如，1.5米)，或者专用于该场景的距离。场景的其他合适的配置可以在双耳渲染工具中设置，双耳渲染工具可以模拟场景的音频环境，根据源声源处的语音内容，在测量位置生成场景输出信号，例如WAV文件中的语音信号。然后，可以将语音信号与参考信号进行比较以确定语音信号的响度调整，响度调整可以用于将语音信号的响度与参考信号匹配。在一个示例中，响度可以作为时间范围内的平均信号强度的函数来进行测量。在确定语音信号的响度调整后，可以根据该语音信号的响度调整对场景中的其他声音信号进行声级调整。

根据本公开的一些方面，场景中可能存在两个或更多个语音信号，并且可以基于该两个或更多个语音信号来确定调整后的语音信号。然后，示例性地，确定调整后的语音信号的响度调整以使调整后的语音信号的响度与参考信号匹配。然后，可以根据调整后的语音信号的响度调整，以适当的方式对场景中的其他声音信号(例如，语音信号、非语音信号等)进行声级调整。

此外，在一些示例中，内容创建者或技术提供者可以识别场景任务路径上的最响亮的点。在一个示例中，检查在最响亮的点处的声音响度是否未被削波(例如，低于削波限制)。此外，在一些示例中，可以识别并检查场景中的一些非常柔和的点或区域是否过于安静。

值得注意的是，调整后的语音信号可以通过多种技术基于场景中的多个语音信号来确定，并且调整后的语音信号的响度可以通过多种技术来确定。假设场景中有M个(M为大于1的整数)语音信号，语音信号的响度可以分别用S₁、S₂、S₃、…、S_M表示。

在一些实施例中，调整后的语音信号可以是场景中呈现的多个语音信号中的一个语音信号。在一个示例中，内容创建者或技术提供者可以确定该多个语音信号中的一个语音信号的选择。可以在编码比特流中或者作为与音频内容相关联的元数据的一部分来指示对该多个语音信号中的一个语音信号的选择。

具体地，在一个示例中，在双耳渲染工具中，可以定义所选语音信号的测量位置和声源位置。场景的其他合适的配置可以在双耳渲染工具中设置，双耳渲染工具可以模拟场景的音频环境，并根据所选语音信号的音频内容生成WAV文件中的场景输出信号。在本示例中，场景输出信号是调整后的语音信号。可以将调整后的语音信号与参考信号进行比较，以确定调整后的语音信号的响度调整。调整后的语音信号的响度调整可用于使调整后的语音信号的响度与参考信号相匹配。例如，当i为所选语音信号的索引时，S_i为调整后的语音信号的响度。然后，将S_i与参考信号的响度进行比较，以确定场景中调整后的语音信号的响度调整，以使响度与参考信号相匹配。

在一些实施例中，调整后的语音信号可以是场景中呈现的最响亮的语音信号。

具体地，在一个示例中，为了生成场景中的每个语音信号，在双耳渲染工具中，可以定义语音信号的测量位置和声源位置。可以在双耳渲染工具中设置场景的其他合适配置。双耳渲染工具可以模拟场景的音频环境，并生成WAV文件中的场景输出信号，即在测量位置可以感知的语音信号。然后，可以选择多个语音信号中最响亮的语音信号作为调整后的语音信号。可以将调整后的语音信号与参考信号进行比较，以确定最响亮的语音信号的响度调整。响度调整可用于使调整后的语音信号的响度与参考信号相匹配。例如，S_max表示S₁、S₂、S₃、…、S_M中的最大响度。将S_max与参考信号的响度进行比较，以确定场景中最响亮的语音信号的响度调整。

在一些实施例中，调整后的语音信号对应于场景中呈现的最安静的语音信号。

具体地，在一个示例中，为了生成场景中的每个语音信号，在双耳渲染工具中，可以定义语音信号的测量位置和声源位置。可以在双耳渲染工具中设置场景的其他合适配置。双耳渲染工具可以模拟场景的音频环境，并生成WAV文件中的场景输出信号，即在测量位置感知到的语音信号。然后，将多个语音信号中最安静的语音信号确定为调整后的语音信号。可以将调整后的语音信号与参考信号进行比较，以确定调整后的语音信号的响度调整。响度调整可用于使调整后的语音信号的响度与参考信号相匹配。例如，S_min表示S₁、S₂、S₃、…、S_M中的最小响度。将S_min与参考信号的响度进行比较，以确定场景中最安静的语音信号的响度调整。

在一些实施例中，调整后的语音信号可以是场景中呈现的所有语音信号的平均值。

具体地，在一个示例中，为了生成场景中的每个语音信号，在双耳渲染工具中，可以定义语音信号的测量位置和声源位置。可以在双耳渲染工具中设置场景的其他合适配置。双耳渲染工具可以模拟场景的音频环境，并生成WAV文件中的场景输出信号，即在测量位置感知到的语音信号。然后，多个语音信号的平均响度可以被确定为可以被认为是虚拟信号的调整后语音信号的响度。可以将平均响度与参考信号的响度进行比较以确定响度调整。响度调整可用于使调整后的语音信号的响度与参考信号相匹配。例如，S_平均表示S₁、S₂、S₃、…、S_M的平均响度，可以根据公式(1)计算得到。

S_平均＝(S₁+S₂+S₃+…+S_M)/M 公式(1)

将S_平均与参考信号的响度进行比较，以确定调整后的语音信号的响度调整。

在一些实施例中，调整后的语音信号可以是场景中出现的最响亮的语音信号和最安静的语音信号的平均值。

具体地，在一个示例中，为了生成场景中的每个语音信号，在双耳渲染工具中，可以定义语音信号的测量位置和声源位置。可以在双耳渲染工具中设置场景的其他合适配置。双耳渲染工具可以模拟场景的音频环境，并生成WAV文件中的场景输出信号，即在测量位置感知到的语音信号。然后，可以确定多个语音信号中最响亮的语音信号和最安静的语音信号。调整后的语音信号的响度被计算为最响亮的语音信号和最安静的语音信号的平均响度。将调整后的语音信号的响度与参考信号的响度进行比较，以确定调整后的语音信号的响度调整。响度调整可用于使调整后的语音信号的响度与参考信号相匹配。例如，S_max表示S₁、S₂、S₃、…、S_M中的最大响度，S_min表示S₁、S₂、S₃、…、S_M中的最小响度，S_a表示最大响度和最小响度的平均响度，可以根据公式(2)计算得到。

S_a＝(S_max+S_min)/2 公式(2)

将S_a与参考信号的响度进行比较，以确定调整后的语音信号的响度调整。

在一些实施例中，调整后的语音信号可以是场景中呈现的所有语音信号的中值(median)。

具体地，在一个示例中，为了生成场景中的每个语音信号，在双耳渲染工具中，可以定义语音信号的测量位置和声源位置。可以在双耳渲染工具中设置场景的其他合适配置。双耳渲染工具可以模拟场景的音频环境，并生成WAV文件中的场景输出信号，即在测量位置感知到的语音信号。然后，可以将多个语音信号中的中值响度确定为调整后的语音信号的响度。可以将调整后的语音信号的响度与参考信号进行比较，以确定调整后的语音信号的响度调整。响度调整可用于使调整后的语音信号的响度与参考信号相匹配。例如，S_中值表示S₁、S₂、S₃、…、S_M的中值响度，可以用公式(3)表示。

S_中值＝中值{S₁,S₂,S₃,…,S_M} 公式(3)

将S_中值与参考信号的响度进行比较，以确定调整后的语音信号的响度调整。

在一些实施例中，调整后的语音信号对应于场景中呈现的所有语音信号的分位数的平均值，例如25％至75％的分位数。

具体地，在一个示例中，为了生成场景中的每个语音信号，在双耳渲染工具中，可以定义语音信号的测量位置和声源位置。可以在双耳渲染工具中设置场景的其他合适配置。双耳渲染工具可以模拟场景的音频环境，并生成WAV文件中的场景输出信号，即在测量位置感知到的语音信号。然后，可以根据响度对语音信号进行排序，以确定语音信号的分位数中的一组语音信号。然后，可以将调整后的语音信号的响度计算为该组语音信号的平均响度。可以将调整后的语音信号的响度与参考信号进行比较，以确定调整后的语音信号的响度调整。响度调整可用于使调整后的语音信号的响度与参考信号相匹配。例如，S_qa-b表示S₁、S₂、S₃、…、S_M的子集(从a％到b％的分位数)的平均响度，可以用公式(4)表示。

S_qa-b＝平均值(分位数_a％,b％{S₁,S₂,S₃,…,S_M}) 公式(4)

将S_qa-b与参考信号的响度进行比较，以确定调整后的语音信号的响度调整。

在另一个示例中，S_q25-75表示S₁、S₂、S₃、…、S_M的子集(从25％到75％的分位数)的平均响度，可以由公式(5)表示。

S_q25-75＝平均值(分位数_25％,75％{S₁,S₂,S₃,…,S_M}) 公式(5)

将S_q25-75与参考信号的响度进行比较，以确定调整后的语音信号的响度调整。

在一些实施例中，调整后的语音信号可以是最靠近场景中呈现的所有语音信号的聚类中心的语音信号。

具体地，在一个示例中，可以根据多个语音信号的声源位置确定最靠近所有语音信号的聚类中心的语音信号的声源位置，将该语音信号称为中心语音信号。在双耳渲染工具中，可以定义中心语音信号的测量位置和声源位置。可以在双耳渲染工具中设置场景的其他合适配置。双耳渲染工具可以模拟场景的音频环境，并生成WAV文件中的场景输出信号，即在测量位置感知到的中心语音信号。然后，在本示例中，中心语音信号是调整后的语音信号。可以将调整后的语音信号的响度与参考信号进行比较，以确定调整后的语音信号的响度调整。中心语音信号的响度调整可用于使调整后的语音信号的响度与参考信号相匹配。例如，S_中心表示S₁、S₂、S₃、…、S_M中的一个，其对应的语音信号为中心语音信号，可以用公式(6)表示。

S_中心＝聚类_中心{S₁,S₂,S₃,…,S_M} 公式(6)

在一些实施例中，调整后的语音信号可以是场景中呈现的所有语音信号的加权平均值，其中权重可以是基于距离或基于响度的。

具体地，在一个示例中，为了生成场景中的每个语音信号，在双耳渲染工具中，可以定义语音信号的测量位置和声源位置。可以在双耳渲染工具中设置场景的其他合适配置。双耳渲染工具可以模拟场景的音频环境，并生成WAV文件中的场景输出信号，即在测量位置感知到的语音信号。然后，可以计算出多个语音信号的加权平均响度，并将其作为调整后的语音信号的响度。调整后的语音信号可视为虚拟信号。可以将加权平均响度与参考信号的响度进行比较以确定响度调整。例如，S_加权表示加权平均响度；w₁、w₂、w₃、…、w_M分别表示S₁、S₂、S₃、…、S_M的权重，S_加权可以根据公式(7)计算得到。

S_加权＝S₁×w₁+S₂×w₂+S₃×w₃+…+S_M×w_M 公式(7)

在一个示例中，权重w₁、w₂、w₃、…、w_M的总和等于1。将S_加权与参考信号的响度进行比较，以确定调整后的语音信号的响度调整。在一些示例中，权重w₁、w₂、w₃、…、w_M分别基于各个声源位置到测量位置的距离来确定。在一些示例中，权重w₁、w₂、w₃、…、w_M分别基于响度S₁、S₂、S₃、…、S_M来确定。

图2示出了根据本公开实施例的概述过程(200)的流程图。过程(200)可用于音频编解码，例如用于沉浸式媒体编码子系统(101)，并由处理电路(120)等执行。在一些实施例中，过程(200)以软件指令实现，因此，当处理电路执行该软件指令时，处理电路执行过程(200)。该过程从(S201)开始，且进行到(S210)。

步骤(S210)，基于与沉浸式媒体应用中的场景相关的多个语音信号确定调整后的语音信号的响度。

步骤(S220)，确定使调整后的语音信号的响度与参考信号相匹配的响度调整。

步骤(S230)，响度调整被编码在携带与场景相关联的音频内容的比特流中。

在一些示例中，调整后的语音信号是多个语音信号中的一个，并且用于指示从多个语音信号中选择调整后的语音信号的索引可以被编码在比特流中。

在一些示例中，可以选择多个语音信号中最响亮的语音信号或最安静的语音信号中的一个作为调整后的语音信号。

在一些示例中，多个语音信号的平均响度被确定为调整后的语音信号的响度。

在一些示例中，将多个语音信号中最响亮的语音信号和最安静的语音信号的平均响度确定为调整后的语音信号的响度。

在一些示例中，多个语音信号的中值响度被确定为调整后的语音信号的响度。

在一些示例中，将一组语音信号的平均响度确定为调整后的语音信号的响度。该组语音信号为多个语音信号的分位数，例如20％至75％的分位数等。

在一些示例中，与场景中的位置相关联的语音信号被确定为调整后的语音信号。该位置是场景中距离与多个语音信号相关联的位置的中心最近的位置。

在一些示例中，多个语音信号的加权平均响度被确定为调整后的语音信号的响度。在一个示例中，基于多个语音信号的位置来确定多个语音信号的权重。在另一示例中，基于多个语音信号的相应响度来确定多个语音信号的权重。

然后，处理(过程)进行到(S299)并结束。

图3示出了根据本公开实施例的概述过程(300)的流程图。过程(300)可用于音频编解码，例如用于沉浸式媒体解码子系统(102)，并由处理电路(170)等执行。在一些实施例中，过程(300)以软件指令实现，因此，当处理电路执行该软件指令时，处理电路执行过程(300)。该过程从(S301)开始，且进行到(S310)。

步骤(S310)，从编码比特流中解码出指示调整后的语音信号和对调整后的语音信号的响度调整的信息。调整后的语音信号以与沉浸式媒体应用的场景中的多个语音信号相关联的方式被指示。

步骤(S320)，基于对调整后的语音信号的响度调整确定对包括场景中的多个语音信号的多个声音信号的多个响度调整。

步骤(S330)，基于对多个声音信号的多个响度调整在场景中生成多个声音信号。

在一些示例中，从编码比特流中解码出用于指示多个语音信号中的一个语音信号是调整后的语音信号的索引。

在一些示例中，该信息指示调整后的语音信号具有一组语音信号的平均响度。该组语音信号具有多个语音信号的分位数(例如25％至75％的分位数等)的响度。

在一些示例中，与位置相关联的语音信号被确定为调整后的语音信号。例如，该位置是语音信号的声源位置。该位置是距离与多个语音信号相关联的位置的中心最近的位置。

在一些示例中，该信息指示调整后的语音信号具有多个语音信号的加权平均响度。在一个示例中，分别基于多个语音信号的位置确定多个语音信号的权重。在另一示例中，分别基于多个语音信号的相应响度确定多个语音信号的权重。

然后，过程进行到(S399)并结束。

可以将上述技术实现为计算机软件，该计算机软件使用计算机可读指令，并且物理存储在一个或多个计算机可读介质中。例如，图4示出了适合于实施所公开的主题的某些实施例的计算机系统(400)。

可以使用任何合适的机器代码或计算机语言来对计算机软件进行编码，任何合适的机器代码或计算机语言可以经受汇编、编译、链接或类似的机制以创建包括指令的代码，该指令可以由一个或多个计算机中央处理单元(CPU)、图形处理单元(GPU)等直接执行或通过解释、微代码等执行。

指令可以在各种类型的计算机或其组件上执行，例如包括个人计算机、平板计算机、服务器、智能电话、游戏装置、物联网装置等。

图4所示的计算机系统(400)的组件本质上是示例性的，并且不旨在对实施本公开的实施例的计算机软件的使用范围或功能提出任何限制。组件的配置也不应被解释为具有与计算机系统(400)的示例性实施例中所示的组件中的任何一个组件或组件的组合有关的任何依赖性或要求。

计算机系统(400)可以包括某些人机接口输入装置。此类人机接口输入装置可以响应于一个或多个人类用户例如通过下述的输入：触觉输入(例如：击键、划动，数据手套移动)、音频输入(例如：语音、拍手)、视觉输入(例如：手势)、嗅觉输入(未描绘出)。人机接口装置还可以用于捕获不一定与人的意识输入直接相关的某些媒体，例如音频(例如：语音、音乐、环境声音)、图像(例如：扫描的图像、从静止图像摄像头获取摄影图像)、视频(例如二维视频、包括立体视频的三维视频)等。

输入人机接口装置可以包括下述中的一项或多项(每种中仅示出一个)：键盘(401)、鼠标(402)、触控板(403)、触摸屏(410)、数据手套(未示出)、操纵杆(405)、麦克风(406)、扫描仪(407)、相机(408)。

计算机系统(400)也可以包括某些人机接口输出装置。这样的人机接口输出装置可以例如通过触觉输出、声音、光和气味/味道来刺激一个或多个人类用户的感官。此类人机接口输出装置可以包括触觉输出装置(例如触摸屏(410)的触觉反馈、数据手套(未示出)或操纵杆(405)，但是也可以是不作为输入设备的触觉反馈装置)、音频输出装置(例如：扬声器(409)、耳机(未示出))、视觉输出装置(例如包括CRT屏幕、LCD屏幕、等离子屏幕、OLED屏幕的屏幕(410)，每种屏幕有或没有触摸屏输入功能，每种屏幕都有或没有触觉反馈功能-其中的一些屏幕能够通过诸如立体图像输出之类的装置、虚拟现实眼镜(未描绘出)、全息显示器和烟箱(未描绘出)以及打印机(未描绘出)来输出二维视觉输出或超过三维输出。

计算机系统(400)也可以包括人类可访问存储装置及其关联介质：例如包括具有CD/DVD等介质(421)的CD/DVD ROM/RW(420)的光学介质、指状驱动器(422)、可拆卸硬盘驱动器或固态驱动器(423)、诸如磁带和软盘之类的传统磁性介质(未示出)、诸如安全软件狗之类的基于专用ROM/ASIC/PLD的装置(未示出)等。

本领域技术人员还应该理解，结合当前公开的主题使用的术语“计算机可读介质”不涵盖传输介质、载波或其他瞬时信号。

计算机系统(400)还可以包括到一个或多个通信网络(455)的接口(454)。网络可以例如是无线网络、有线网络、光网络。网络可以进一步地是本地网络、广域网络、城域网络、车辆和工业网络、实时网络、耐延迟网络等。网络的示例包括诸如以太网之类的局域网、无线LAN、包括GSM、3G、4G、5G、LTE等的蜂窝网络、包括有线电视、卫星电视和地面广播电视的电视有线或无线广域数字网络、包括CANBus的车辆和工业用电视等等。某些网络通常需要连接到某些通用数据端口或外围总线(449)的外部网络接口适配器(例如计算机系统(400)的USB端口)；如下所述，其他网络接口通常通过连接到系统总线而集成到计算机系统(400)的内核中(例如，连接PC计算机系统中的以太网接口或连接到智能手机计算机系统中的蜂窝网络接口)。计算机系统(400)可以使用这些网络中的任何一个网络与其他实体通信。此类通信可以是仅单向接收的(例如，广播电视)、仅单向发送的(例如，连接到某些CANbus装置的CANbus)或双向的，例如，使用局域网或广域网数字网络连接到其他计算机系统。如上所述，可以在那些网络和网络接口的每一个上使用某些协议和协议栈。

上述人机接口装置、人机可访问的存储装置和网络接口可以附接到计算机系统(400)的内核(440)。

内核(440)可以包括一个或多个中央处理单元(CPU)(441)、图形处理单元(GPU)(442)、现场可编程门区域(FPGA)(443)形式的专用可编程处理单元、用于某些任务的硬件加速器(444)、图形适配器(450)等。这些装置以及只读存储器(ROM)(445)、随机存取存储器(446)、诸如内部非用户可访问的硬盘驱动器、SSD等之类的内部大容量存储器(447)可以通过系统总线(448)连接。在一些计算机系统中，可以以一个或多个物理插头的形式访问系统总线(448)，以能够通过附加的CPU、GPU等进行扩展。外围装置可以直接连接到内核的系统总线(448)或通过外围总线(449)连接到内核的系统总线。在一个示例中，屏幕(410)可以连接到图形适配器(450)。外围总线的体系结构包括PCI、USB等。

CPU(441)、GPU(442)、FPGA(443)和加速器(444)可以执行某些指令，这些指令可以组合来构成上述计算机代码。该计算机代码可以存储在ROM(445)或RAM(446)中。过渡数据也可以存储在RAM(446)中，而永久数据可以例如存储在内部大容量存储器(447)中。可以通过使用高速缓存来进行到任何存储装置的快速存储及检索，该高速缓存可以与下述紧密关联：一个或多个CPU(441)、GPU(442)、大容量存储(447)、ROM(445)、RAM(446)等。

计算机可读介质可以在其上具有用于执行各种由计算机实现的操作的计算机代码。介质和计算机代码可以是出于本公开的目的而专门设计和构造的介质和计算机代码，或者介质和计算机代码可以是计算机软件领域的技术人员公知且可用的类型。

作为非限制性示例，可以由于一个或多个处理器(包括CPU、GPU、FPGA、加速器等)执行包含在一种或多种有形的计算机可读介质中的软件而使得具有架构(400)，特别是内核(440)的计算机系统提供功能。此类计算机可读介质可以是与如上所述的用户可访问的大容量存储相关联的介质，以及某些非暂时性的内核(440)的存储器，例如内核内部大容量存储器(447)或ROM(445)。可以将实施本公开的各种实施例的软件存储在此类装置中并由内核(440)执行。根据特定需要，计算机可读介质可以包括一个或多个存储装置或芯片。软件可以使得内核(440)，特别是其中的处理器(包括CPU、GPU、FPGA等)执行本文所描述的特定过程或特定过程的特定部分，包括定义存储在RAM中的数据结构(446)以及根据由软件定义的过程来修改此类数据结构。附加地或替换地，可以由于硬连线或以其他方式体现在电路(例如，加速器(444))中的逻辑中而使得计算机系统提供功能，该电路可以替换软件或与软件一起运行以执行本文描述的特定过程或特定过程的特定部分。在适当的情况下，提及软件的部分可以包含逻辑，反之亦然。在适当的情况下，提及计算机可读介质的部分可以包括存储用于执行的软件的电路(例如集成电路(IC))、体现用于执行的逻辑的电路或两者都包括。本公开包括硬件和软件的任何合适的组合。

尽管本公开已经描述了多个示例性实施例，但是存在落入本公开的范围内的修改、置换和各种替换等效物。因此，应当理解，本领域技术人员将能够设计出许多虽然未在本文中明确示出或描述，但其体现了本公开的原理，因此落入本公开的其精神和范围内的系统和方法。

Claims

1.一种音频处理方法，包括：

处理器从编码比特流中解码出指示调整后的语音信号和对所述调整后的语音信号的响度调整的信息，其中，所述调整后的语音信号以与沉浸式媒体应用的场景中的多个语音信号相关联的方式被指示；

所述处理器基于对所述调整后的语音信号的响度调整确定对包括所述场景中的所述多个语音信号的多个声音信号的多个响度调整；以及

所述处理器基于对所述多个声音信号的多个响度调整在所述场景中生成所述多个声音信号。

2.根据权利要求1所述的方法，还包括：

从所述编码比特流中解码出指示所述多个语音信号中的一个语音信号是所述调整后的语音信号的索引。

3.根据权利要求1所述的方法，其中，所述信息指示以下至少一项：

所述多个语音信号中最响亮的语音信号为所述调整后的语音信号；或者

所述多个语音信号中最安静的语音信号为所述调整后的语音信号。

4.根据权利要求1所述的方法，其中，所述信息指示所述调整后的语音信号具有所述多个语音信号的平均响度。

5.根据权利要求1所述的方法，其中，所述信息指示所述调整后的语音信号具有所述多个语音信号中最响亮的语音信号和最安静的语音信号的平均响度。

6.根据权利要求1所述的方法，其中，所述信息指示所述调整后的语音信号具有所述多个语音信号的中值响度。

7.根据权利要求1所述的方法，其中，所述信息指示所述调整后的语音信号具有一组语音信号的平均响度，其中，所述语音信号组具有所述多个语音信号的分位数的响度。

8.根据权利要求1所述的方法，还包括：

确定与位置相关联的语音信号为所述调整后的语音信号，其中，所述位置是距离与所述多个语音信号相关联的位置的中心最近的位置。

9.根据权利要求1所述的方法，其中，所述信息指示所述调整后的语音信号具有所述多个语音信号的加权平均响度。

10.根据权利要求9所述的方法，还包括以下至少一项：

根据所述多个语音信号的位置分别确定所述多个语音信号的权重；或者

根据所述多个语音信号各自的响度分别确定所述多个语音信号的权重。

11.一种音频处理装置，包括处理电路，所述处理电路被配置为：

从编码比特流中解码出指示调整后的语音信号和对所述调整后的语音信号的响度调整的信息，其中，所述调整后的语音信号以与沉浸式媒体应用的场景中的多个语音信号相关联的方式被指示；

基于所述调整后的语音信号的响度调整确定对包括所述场景中的所述多个语音信号的多个声音信号的多个响度调整；以及

基于对所述多个声音信号的多个响度调整在所述场景中生成所述多个声音信号。

12.根据权利要求11所述的装置，其中，所述处理电路还被配置为：

13.根据权利要求11所述的装置，其中，所述信息指示以下至少一项：

14.根据权利要求11所述的装置，其中，所述信息指示所述调整后的语音信号具有所述多个语音信号的平均响度。

15.根据权利要求11所述的装置，其中，所述信息指示所述调整后的语音信号具有所述多个语音信号中最响亮的语音信号和最安静的语音信号的平均响度。

16.根据权利要求11所述的装置，其中，所述信息指示所述调整后的语音信号具有所述多个语音信号的中值响度。

17.根据权利要求11所述的装置，其中，所述信息指示所述调整后的语音信号具有一组语音信号的平均响度，其中，所述语音信号组具有所述多个语音信号的分位数的响度。

18.根据权利要求11所述的装置，其中，所述处理电路还被配置为：

19.根据权利要求11所述的装置，其中，所述信息指示所述调整后的语音信号具有所述多个语音信号的加权平均响度。

20.根据权利要求19所述的装置，其中，所述处理电路还被配置为基于以下至少一项来确定所述多个语音信号的权重：

所述多个语音信号的位置；或者

所述多个语音信号各自的响度。