CN118283485A

CN118283485A - 虚拟扬声器的确定方法及相关装置

Info

Publication number: CN118283485A
Application number: CN202211717964.9A
Authority: CN
Inventors: 刘帅; 高原; 夏丙寅; 王喆
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Filing date: 2022-12-29
Publication date: 2024-07-02

Abstract

本申请公开一种虚拟扬声器的确定方法及相关装置，属于三维音频编解码技术领域。所述方法包括：获取N个第一虚拟扬声器的属性信息，获取N个第二虚拟扬声器的属性信息，基于该N个第一虚拟扬声器的属性信息和该N个第二虚拟扬声器的属性信息，确定M个目标虚拟扬声器。目标虚拟扬声器用于对目标组HOA信号进行处理，第二虚拟扬声器用于对参考组HOA信号进行处理，第一虚拟扬声器是目标组HOA信号匹配的虚拟扬声器。通过第二虚拟扬声器的属性信息以及第一虚拟扬声器的属性信息确定目标虚拟扬声器，能够保证目标虚拟扬声器的属性信息与第二虚拟扬声器的属性信息相差不大，从而解决解码得到的相邻两帧HOA信号听起来在空间上存在跳变的问题。

Description

虚拟扬声器的确定方法及相关装置

技术领域

本申请涉及三维音频编解码技术领域，特别涉及一种虚拟扬声器的确定方法及相关装置。

背景技术

三维音频技术是通过计算机、信号处理等方式对真实世界中声音事件和三维声场信息进行获取、处理、传输和渲染回放的音频技术。三维音频技术使声音具有强烈的空间感、包围感及沉浸感，给人以“声临其境”的听觉体验。目前主流的三维音频技术是高阶立体混响(higher order ambisonics，HOA)音频技术，因其在录制、编码与回放阶段具有与扬声器布局无关的性质，以及HOA格式数据具有可旋转回放的特性，所以HOA信号在进行回放时具有更高的灵活性，因而得到了更为广泛的关注。

在对HOA信号进行编解码的过程中，基于当前帧HOA信号的HOA系数，从三维声场的虚拟扬声器集合中选择与当前帧HOA信号的HOA系数匹配的虚拟扬声器，将匹配的虚拟扬声器作为目标虚拟扬声器，进而通过目标虚拟扬声器将当前帧HOA信号转换为虚拟扬声器信号，以此来减少HOA信号的通道数，从而提高HOA信号的编解码效率。

然而，相邻两帧HOA信号对应的目标虚拟扬声器在三维声场中所处的位置可能不同，即相邻两帧HOA信号各自所匹配的虚拟扬声器的俯仰角和方位角之间存在差异，从而导致解码得到的相邻两帧HOA信号听起来在空间上存在跳变。因此，如何对相邻两帧HOA信号所匹配的虚拟扬声器进行调节成为目前亟需解决的问题。

发明内容

本申请提供了一种虚拟扬声器的确定方法及相关装置，可以解决相关技术中解码得到的相邻两帧HOA信号听起来在空间上存在跳变的问题。所述技术方案如下：

第一方面，提供了一种虚拟扬声器的确定方法，该虚拟扬声器的确定方法可以应用于编码端设备，也可以应用于解码端设备。所述方法包括：

获取N个第一虚拟扬声器的属性信息，该N个第一虚拟扬声器是指虚拟扬声器集合中与目标组HOA信号的HOA系数匹配的虚拟扬声器，目标组HOA信号包括至少一帧HOA信号，N为大于或等于1的整数。获取N个第二虚拟扬声器的属性信息，该N个第二虚拟扬声器是指虚拟扬声器集合中用于对参考组HOA信号进行处理的虚拟扬声器，参考组HOA信号是指位于目标组HOA信号之前的至少一组HOA信号。基于该N个第一虚拟扬声器的属性信息和该N个第二虚拟扬声器的属性信息，确定M个目标虚拟扬声器，该M个目标虚拟扬声器用于对目标组HOA信号进行处理，M为大于1的整数，且M大于N。

由于目标虚拟扬声器用于对目标组HOA信号进行处理，第二虚拟扬声器用于对参考组HOA信号进行处理，第一虚拟扬声器是目标组HOA信号匹配的虚拟扬声器，所以，在确定出第一虚拟扬声器之后，通过结合第二虚拟扬声器的属性信息以及第一虚拟扬声器的属性信息来确定目标虚拟扬声器，能够保证目标虚拟扬声器的属性信息与第二虚拟扬声器的属性信息相差不大，从而解决解码得到的相邻两帧HOA信号听起来在空间上存在跳变的问题。

示例地，将当前需要进行编解码的至少一帧HOA信号作为目标组HOA信号。目标组HOA信号包括一帧HOA信号，或者目标组HOA信号包括P帧HOA信号，P为大于1的整数。

虚拟扬声器集合包括多个虚拟扬声器，该多个虚拟扬声器中的各个虚拟扬声器均存在相应的HOA系数。基于该至少一帧HOA信号的HOA系数，以及各个虚拟扬声器的HOA系数，从虚拟扬声器集合中选择与该至少一帧HOA信号的HOA系数匹配的N个第一虚拟扬声器。然后，基于该N个第一虚拟扬声器的标识，从存储的虚拟扬声器的标识和属性信息之间的对应关系中，获取该N个第一虚拟扬声器的属性信息。

示例地，参考组HOA信号是指位于目标组HOA信号之前的一组HOA信号。或者，参考组HOA信号是指位于目标组HOA信号之前的多组HOA信号。在不同的情况下，获取该N个第二虚拟扬声器的属性信息的方式不同，接下来将分为以下两种情况分别进行说明。

第一种情况，参考组HOA信号是指位于目标组HOA信号之前的一组HOA信号。此时，直接将用于对该组HOA信号进行处理的N个虚拟扬声器作为该N个第二虚拟扬声器，并基于该N个第二虚拟扬声器的标识，从存储的虚拟扬声器的标识和属性信息之间的对应关系中，获取该N个第二虚拟扬声器的属性信息。

第二种情况，参考组HOA信号是指位于目标组HOA信号之前的多组HOA信号。

由于该多组HOA信号中的各组HOA信号均对应N个虚拟扬声器，且各组HOA信号对应的N个虚拟扬声器之间一一对应。此时，将该多组HOA信号中具有对应关系的虚拟扬声器作为一组虚拟扬声器，以得到N组虚拟扬声器，该N组虚拟扬声器中的任一组虚拟扬声器均包括该多组HOA信号中各组HOA信号相应的虚拟扬声器。然后，对于该N组虚拟扬声器中的任一组虚拟扬声器，基于该组虚拟扬声器包括的多个虚拟扬声器的标识，从存储的虚拟扬声器的标识和属性信息之间的对应关系中，获取该多个虚拟扬声器的属性信息，以得到一组属性信息。这样，对于该N组虚拟扬声器中的每组虚拟扬声器，均能够按照上述步骤确定出一组属性信息，以得到N组属性信息。最后，对于该N组属性信息中的同一组属性信息取均值，以得到N个属性信息，将该N个属性信息确定为该N个第二虚拟扬声器的属性信息，以得到该N个第二虚拟扬声器的属性信息。

在虚拟扬声器的属性信息包括俯仰角和方位角的情况下，按照下述步骤(1)-(3)，确定该M个目标虚拟扬声器。

(1)基于该N个第一虚拟扬声器的俯仰角和方位角，以及该N个第二虚拟扬声器的俯仰角和方位角，确定具有对应关系的第一虚拟扬声器与第二虚拟扬声器之间的距离，以得到N个距离。

(2)基于该N个距离，确定M组俯仰角和方位角。

基于上文描述，目标组HOA信号包括一帧HOA信号，或者目标组HOA信号包括P帧HOA信号。在不同的情况下，基于该N个距离，确定M组俯仰角和方位角的方式不同，接下来将分为以下两种情况分别进行说明。

第一种情况，目标组HOA信号包括一帧HOA信号，该帧HOA信号包括H个子帧，H为大于1的整数。对于该N个距离中的每个距离，基于该距离确定该帧HOA信号包括的H个子帧分别对应的俯仰角和方位角，以得到H组俯仰角和方位角，直至遍历完该N个距离中的每个距离为止，从而得到N*H＝M组俯仰角和方位角。

将该N个距离中的一个距离作为目标距离，按照如下操作确定该H个子帧分别对应的俯仰角和方位角，直至遍历完该N个距离中的每个距离为止：在目标距离大于第一距离阈值的情况下，基于目标距离对应的第一虚拟扬声器和第二虚拟扬声器的俯仰角和方位角，确定该H个子帧分别对应的俯仰角和方位角。

示例地，基于目标距离对应的第一虚拟扬声器和第二虚拟扬声器的俯仰角和方位角，确定该H个子帧分别对应的俯仰角和方位角的实现过程包括：将目标距离对应的第二虚拟扬声器的俯仰角和方位角确定为该H个子帧中第一个子帧对应的俯仰角和方位角，将目标距离对应的第一虚拟扬声器的俯仰角和方位角确定为该H个子帧中最后一个子帧对应的俯仰角和方位角，对于该H个子帧中的第i个子帧，基于该H个子帧中第i-1个子帧对应的俯仰角和方位角，以及最后一个子帧对应的俯仰角和方位角，通过插值处理的方式确定第i个子帧对应的俯仰角和方位角，i大于0且小于H-1。

也即是，该H个子帧中第一个子帧对应的俯仰角和方位角为参考组HOA信号的目标第二虚拟扬声器的俯仰角和方位角，该H个子帧中最后一个子帧对应的俯仰角和方位角为该帧HOA信号的目标第一虚拟扬声器的俯仰角和方位角。该H个子帧中除第一个子帧和最后一个子帧之外的其他任一子帧对应的俯仰角和方位角，需要基于距离该子帧最近的前一个子帧的俯仰角和方位角，以及最后一个子帧对应的俯仰角和方位角通过插值处理的方式得到。这样，在目标组HOA信号包括一帧HOA信号的情况下，通过在该帧HOA信号包括的H个子帧之间进行插值处理，实现目标距离对应的第一虚拟扬声器和第二虚拟扬声器之间进行平滑过渡。

对于该H个子帧中的第i个子帧来说，其插值处理的起点为第i-1个子帧对应的俯仰角和方位角，插值处理的终点为最后一个子帧对应的俯仰角和方位角。即，对于该H个子帧中除第一个子帧和最后一个子帧之外的其他任一子帧来说，该子帧插值处理的起点一直在实时地更新，从而能够更精确地确定出该H个子帧分别对应的俯仰角和方位角。

需要说明的是，在实际应用中，还可能存在目标距离不大于第一距离阈值的情况。即，该帧HOA信号的目标第一虚拟扬声器所处的位置，与参考组HOA信号的目标第二虚拟扬声器所处的位置之间相差不大。可选地，将目标距离对应的第一虚拟扬声器的俯仰角和方位角确定为该H个子帧分别对应的俯仰角和方位角。也就是说，该H个子帧中各个子帧对应的俯仰角均等于目标距离对应的第一虚拟扬声器的俯仰角，各个子帧对应的方位角均等于目标距离对应的第一虚拟扬声器的方位角。

可选地，将目标距离对应的第二虚拟扬声器的俯仰角和方位角确定为该H个子帧中前K个子帧对应的俯仰角和方位角，将目标距离对应的第一虚拟扬声器的俯仰角和方位角确定为该H个子帧中剩余子帧对应的俯仰角和方位角，K为大于或等于1的整数，且K小于H。

其中，第一距离阈值是事先设置的，例如第一距离阈值为0.5。而且，第一距离阈值还可以按照不同的需求来调整。

第二种情况，目标组HOA信号包括P帧HOA信号。对于该N个距离中的每个距离，基于该距离确定该P帧HOA信号分别对应的俯仰角和方位角，以得到P组俯仰角和方位角，直至遍历完该N个距离中的每个距离为止，从而得到N*P＝M组俯仰角和方位角。

将该N个距离中的一个距离作为目标距离，按照如下操作确定该P帧HOA信号分别对应的俯仰角和方位角，直至遍历完所述N个距离中的每个距离为止：在目标距离大于第二距离阈值的情况下，基于目标距离对应的第一虚拟扬声器和第二虚拟扬声器的俯仰角和方位角，确定该P帧HOA信号分别对应的俯仰角和方位角。

示例地，基于目标距离对应的第一虚拟扬声器和第二虚拟扬声器的俯仰角和方位角，确定该P帧HOA信号分别对应的俯仰角和方位角的实现过程包括：将目标距离对应的第二虚拟扬声器的俯仰角和方位角确定为该P帧HOA信号中第一帧HOA信号对应的俯仰角和方位角，将目标距离对应的第一虚拟扬声器的俯仰角和方位角确定为该P帧HOA信号中最后一帧HOA信号对应的俯仰角和方位角，对于该P帧HOA信号中的第j帧HOA信号，基于该P帧HOA信号中第j-1帧HOA信号对应的俯仰角和方位角，以及最后一帧HOA信号对应的俯仰角和方位角，通过插值处理的方式确定第j帧HOA信号对应的俯仰角和方位角，j大于0且小于P-1。

也即是，该P帧HOA信号中第一帧HOA信号对应的俯仰角和方位角为参考组HOA信号的目标第二虚拟扬声器的俯仰角和方位角，该P帧HOA信号中最后一帧HOA信号对应的俯仰角和方位角为目标组HOA信号的目标第一虚拟扬声器的俯仰角和方位角。该P帧HOA信号中除第一帧HOA信号和最后一帧HOA信号之外的其他任一帧HOA信号对应的俯仰角和方位角，需要基于距离该帧HOA信号最近的前一帧HOA信号的俯仰角和方位角，以及最后一帧HOA信号对应的俯仰角和方位角通过插值处理的方式得到。这样，在目标组HOA信号包括P帧HOA信号的情况下，通过在该P帧HOA信号之间进行插值处理，实现目标距离对应的第一虚拟扬声器和第二虚拟扬声器之间进行平滑过渡。

对于该P帧HOA信号中的第j帧HOA信号来说，其插值处理的起点为第j-1帧HOA信号对应的俯仰角和方位角，插值处理的终点为最后一帧HOA信号对应的俯仰角和方位角。即，对于该P帧HOA信号中除第一帧HOA信号和最后一帧HOA信号之外的其他任一帧HOA信号来说，该帧HOA信号插值处理的起点一直在实时地更新，从而能够更精确地确定出该P帧HOA信号分别对应的俯仰角和方位角。

需要说明的是，在实际应用中，还可能存在目标距离不大于第二距离阈值的情况。即，目标组HOA信号的目标第一虚拟扬声器所处的位置，与参考组HOA信号的目标第二虚拟扬声器所处的位置之间相差不大。可选地，将目标距离对应的第一虚拟扬声器的俯仰角和方位角确定为该P帧HOA信号分别对应的俯仰角和方位角。也就是说，该P帧HOA信号中各帧HOA信号对应的俯仰角均等于目标距离对应的第一虚拟扬声器的俯仰角，各帧HOA信号对应的方位角均等于目标距离对应的第一虚拟扬声器的方位角。

可选地，将目标距离对应的第二虚拟扬声器的俯仰角和方位角确定为该P帧HOA信号中前L帧HOA信号对应的俯仰角和方位角，将目标距离对应的第一虚拟扬声器的俯仰角和方位角确定为该P帧HOA信号中剩余帧HOA信号对应的俯仰角和方位角，L为大于或等于1的整数，且所述L小于P。

其中，第二距离阈值是事先设置的，第二距离阈值与第一距离阈值可能相等，也可能不相等。而且，第二距离阈值还可以按照不同的需求来调整。

(3)将虚拟扬声器集合中与该M组俯仰角和方位角对应的虚拟扬声器确定为该M个目标虚拟扬声器。

按照上述步骤(2)基于该N个距离，确定M组俯仰角和方位角之后，将虚拟扬声器集合中与该M组俯仰角和方位角对应的虚拟扬声器确定为该M个目标虚拟扬声器，以便于后续通过该M个目标虚拟扬声器对目标组HOA信号进行处理。

基于上文描述，在实际应用中，虚拟扬声器的属性信息还可以包括其他的内容，例如虚拟扬声器的HOA系数。在虚拟扬声器的属性信息包括HOA系数的情况下，需要先按照相关算法，将虚拟扬声器的HOA系数转换为虚拟扬声器的俯仰角和方位角，再按照上述步骤(1)-(3)，确定该M个目标虚拟扬声器。

可选地，对于编码端设备来说，编码端设备基于该N个第一虚拟扬声器的属性信息和该N个第二虚拟扬声器的属性信息，确定该M个目标虚拟扬声器之后，还需要将该M个目标虚拟扬声器的属性信息编入码流。这样，解码端设备接收到码流之后，能够从码流中解析出该M个目标虚拟扬声器的属性信息，并基于该M个目标虚拟扬声器的属性信息，重建目标组HOA信号。或者，编码端设备直接将该M个目标虚拟扬声器的确定方式的索引编入码流，以便于解码端设备从码流中解析出该M个目标虚拟扬声器的确定方式的索引之后，基于该索引实时地确定该M个目标虚拟扬声器。

第二方面，提供了一种虚拟扬声器的确定装置，所述虚拟扬声器的确定装置具有实现上述第一方面中虚拟扬声器的确定方法行为的功能。所述虚拟扬声器的确定装置包括至少一个模块，该至少一个模块用于实现上述第一方面所提供的虚拟扬声器的确定方法。

第三方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器用于存储执行上述第一方面所提供的虚拟扬声器的确定方法的计算机程序。所述处理器被配置为用于执行所述存储器中存储的计算机程序，以实现上述第一方面所述的虚拟扬声器的确定方法。

可选地，所述计算机设备还可以包括通信总线，该通信总线用于该处理器与存储器之间建立连接。

第四方面，提供了一种计算机可读存储介质，所述存储介质内存储有指令，当所述指令在计算机上运行时，使得计算机执行上述第一方面所述的虚拟扬声器的确定方法的步骤。

第五方面，提供了一种包含指令的计算机程序产品，当所述指令在计算机上运行时，使得计算机执行上述第一方面所述的虚拟扬声器的确定方法的步骤。或者说，提供了一种计算机程序，当所述计算机程序在计算机上运行时，使得计算机执行上述第一方面所述的虚拟扬声器的确定方法的步骤。

上述第二方面至第五方面所获得的技术效果与第一方面中对应的技术手段获得的技术效果近似，在这里不再赘述。

附图说明

图1是本申请实施例提供的一种实施环境的示意图；

图2是本申请实施例提供的一种终端场景的实施环境的示意图；

图3是本申请实施例提供的一种广播电视场景的实施环境的示意图；

图4是本申请实施例提供的一种虚拟现实流场景的实施环境的示意图；

图5是本申请实施例提供的一种虚拟扬声器的确定方法的流程图；

图6是本申请实施例提供的另一种虚拟扬声器的确定方法的流程图；

图7是本申请实施例提供的一种虚拟扬声器的确定装置的结构示意图；

图8是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

在对本申请实施例提供的虚拟扬声器的确定方法进行详细地解释说明之前，先对本申请实施例涉及的实施环境进行介绍。

在对HOA信号进行编解码的过程中，编码端设备基于当前帧HOA信号的HOA系数，从虚拟扬声器集合中选择与当前帧HOA信号的HOA系数匹配的虚拟扬声器，将匹配的虚拟扬声器作为目标虚拟扬声器，进而将目标虚拟扬声器的属性信息编入码流。同时，编码端设备还将当前帧HOA信号的低阶成分编入码流。解码端设备接收到码流之后，从码流中解析出目标虚拟扬声器的属性信息和当前帧HOA信号的低阶成分。然后，解码端设备基于目标虚拟扬声器的HOA系数，以及当前帧HOA信号的低阶成分，重建当前帧HOA信号。但是，在实际应用中，可能存在相邻两帧HOA信号对应的目标虚拟扬声器在三维声场中所处的位置相差较大的情况，导致解码端设备重建的相邻两帧HOA信号听起来在空间上存在跳变。所以，本申请实施例提供了一种虚拟扬声器的确定方法，通过本申请实施例提供的方法，能够将相邻两帧HOA信号对应的目标虚拟扬声器在这两帧HOA信号之间进行平滑过渡，从而解决重建的相邻两帧HOA信号听起来在空间上存在跳变的问题。

请参考图1，图1是本申请实施例提供的一种实施环境的示意图。该实施环境包括源装置10、目的地装置20、链路30和存储装置40。其中，源装置10用于对目标虚拟扬声器的属性信息和HOA信号的低阶成分进行编码。因此，源装置10也可以被称为编码端设备。目的地装置20用于对码流进行解析，以得到目标虚拟扬声器的属性信息和HOA信号的低阶成分。因此，目的地装置20也可以被称为解码端设备。

链路30可以接收源装置10所产生的码流，并将该码流传输给目的地装置20。存储装置40可以接收源装置10所产生的码流，并将该码流进行存储，这样的条件下，目的地装置20能够直接从存储装置40中获取码流。或者，存储装置40对应于文件服务器或可以保存由源装置10产生的码流的另一中间存储装置，这样的条件下，目的地装置20可以经由流式传输或下载存储装置40存储的码流。

源装置10和目的地装置20均包括一个或多个处理器以及耦合到该一个或多个处理器的存储器，该存储器包括随机存取存储器(random access memory，RAM)、只读存储器(read-only memory，ROM)、带电可擦可编程只读存储器(electrically erasableprogrammable read-only memory，EEPROM)、快闪存储器、可用于以可由计算机存取的指令或数据结构的形式存储所要的程序代码的任何其它媒体等。例如，源装置10和目的地装置20均包括桌上型计算机、移动计算装置、笔记型(例如，膝上型)计算机、平板计算机、机顶盒、例如所谓的“智能”电话等电话手持机、电视机、相机、显示装置、数字媒体播放器、视频游戏控制台、车载计算机或其类似者。

链路30包括能够将码流从源装置10传输到目的地装置20的一个或多个媒体或装置。在一种可能的实现方式中，链路30包括能够使源装置10实时地将码流直接发送到目的地装置20的一个或多个通信媒体。在本申请实施例中，源装置10根据通信标准来调制码流，该通信标准为无线通信协议等，并且将码流发送给目的地装置20。该一个或多个通信媒体包括无线和/或有线通信媒体，例如该一个或多个通信媒体包括射频(radio frequency，RF)频谱或一个或多个物理传输线。该一个或多个通信媒体能够形成基于分组的网络的一部分，基于分组的网络为局域网、广域网或全球网络(例如，因特网)等。该一个或多个通信媒体包括路由器、交换器、基站或促进从源装置10到目的地装置20的通信的其它设备等，本申请实施例对此不做具体限定。

在一种可能的实现方式中，存储装置40用于将接收到的由源装置10发送的码流进行存储，目的地装置20能够直接从存储装置40中获取码流。这样的条件下，存储装置40包括多种分布式或本地存取的数据存储媒体中的任一者，例如，该多种分布式或本地存取的数据存储媒体中的任一者为硬盘驱动器、蓝光光盘、数字多功能光盘(digital versatiledisc，DVD)、只读光盘(compact disc read-only memory，CD-ROM)、快闪存储器、易失性或非易失性存储器，或用于存储码流的任何其它合适的数字存储媒体等。

在一种可能的实现方式中，存储装置40对应于文件服务器或能够保存由源装置10产生的码流的另一中间存储装置，目的地装置20可经由流式传输或下载存储装置40存储的码流。文件服务器为能够存储码流并且将码流发送给目的地装置20的任意类型的服务器。在一种可能的实现方式中，文件服务器包括网络服务器、文件传输协议(file transferprotocol，FTP)服务器、网络附属存储(network attached storage，NAS)装置或本地磁盘驱动器等。目的地装置20可以通过任意标准数据连接(包括因特网连接)来获取码流。任意标准数据连接包括无线信道(例如，Wi-Fi连接)、有线连接(例如，数字用户线路(digitalsubscriber line，DSL)、电缆调制解调器等)，或适合于获取存储在文件服务器上的码流的两者的组合。码流从存储装置40的传输可为流式传输、下载传输或两者的组合。

图1所示的实施环境仅为一种可能的实现方式，并且本申请实施例的技术不仅适用于图1所示的能够对HOA信号进行编码的源装置10，以及对码流进行解码的目的地装置20，还适用于其他能够对HOA信号进行编码和对码流进行解码的装置，本申请实施例对此不做具体限定。

在图1所示的实施环境中，源装置10包括数据源120、编码器100和输出接口140。在一些实施例中，输出接口140包括调节器/解调器(调制解调器)和/或发送器，其中发送器也称为发射器。数据源120包括HOA信号捕获装置、含有先前捕获的HOA信号的存档、用于从HOA信号内容提供者接收HOA信号的馈入接口，和/或用于产生HOA信号的计算机图形系统，或HOA信号的这些来源的组合。

数据源120用于向编码器100发送HOA信号，编码器100用于对接收到由数据源120发送的HOA信号进行编码，得到码流。编码器将码流发送给输出接口。在一些实施例中，源装置10经由输出接口140将码流直接发送到目的地装置20。在其它实施例中，码流还可存储到存储装置40上，供目的地装置20以后获取并用于解码和/或显示。

在图1所示的实施环境中，目的地装置20包括输入接口240、解码器200和显示装置220。在一些实施例中，输入接口240包括接收器和/或调制解调器。输入接口240可经由链路30和/或从存储装置40接收码流，然后再发送给解码器200，解码器200可以对接收到的码流进行解码，得到重建HOA信号。解码器将重建HOA信号发送给显示装置220。显示装置220可与目的地装置20集成或可在目的地装置20外部。一般来说，显示装置220显示重建HOA。显示装置220为多种类型中的任一种类型的显示装置，例如，显示装置220为液晶显示器(liquidcrystal display，LCD)、等离子显示器、有机发光二极管(organic light-emittingdiode，OLED)显示器或其它类型的显示装置。

尽管图1中未示出，但在一些方面，编码器100和解码器200可各自与音频编码器和解码器集成，且包括适当的多路复用器-多路分用器(multiplexer-demultiplexer，MUX-DEMUX)单元或其它硬件和软件，用于共同数据流或单独数据流中的音频和视频两者的编码。在一些实施例中，如果适用的话，那么MUX-DEMUX单元可符合ITU H.223多路复用器协议，或例如用户数据报协议(user datagram protocol，UDP)等其它协议。

编码器100和解码器200各自可为以下各项电路中的任一者：一个或多个微处理器、数字信号处理器(digital signal processing，DSP)、专用集成电路(applicationspecific integrated circuit，ASIC)、现场可编程门阵列(field-programmable gatearray，FPGA)、离散逻辑、硬件或其任何组合。如果部分地以软件来实施本申请实施例的技术，那么装置可将用于软件的指令存储在合适的非易失性计算机可读存储媒体中，且可使用一个或多个处理器在硬件中执行所述指令从而实施本申请实施例的技术。前述内容(包括硬件、软件、硬件与软件的组合等)中的任一者可被视为一个或多个处理器。编码器100和解码器200中的每一者都包括在一个或多个编码器或解码器中，所述编码器或所述解码器中的任一者能够集成为相应装置中的组合编码器/解码器(编码解码器)的一部分。

本申请实施例可大体上将编码器100称为将某些信息“发信号通知”或“发送”到例如解码器200的另一装置。术语“发信号通知”或“发送”可大体上指代用于对码流进行解码的语法元素和/或其它数据的传送。此传送可实时或几乎实时地发生。替代地，此通信可经过一段时间后发生，例如可在编码时在经编码位流中将语法元素存储到计算机可读存储媒体时发生，解码装置接着可在所述语法元素存储到此媒体之后的任何时间检索所述语法元素。

本申请实施例提供的虚拟扬声器的确定方法可以应用于多种场景，接下来对其中的几种场景分别进行介绍。

请参考图2，图2是本申请实施例提供的一种虚拟扬声器的确定方法应用于终端场景的实施环境的示意图。该实施环境包括第一终端101和第二终端201，第一终端101与第二终端201进行通信连接。该通信连接可以为无线连接，也可以为有线连接，本申请实施例对此不做限定。

其中，第一终端101可以为发送端设备，也可以为接收端设备，同理，第二终端201可以为接收端设备，也可以为发送端设备。在第一终端101为发送端设备的情况下，第二终端201为接收端设备，在第一终端101为接收端设备的情况下，第二终端201为发送端设备。

接下来以第一终端101为发送端设备，第二终端201为接收端设备为例进行介绍。

第一终端101可以为上述图1所示的实施环境中的源装置10。第二终端201可以为上述图1所示的实施环境中的目的地装置20。其中，第一终端101和第二终端201均包括音频采集模块、音频回放模块、编码器、解码器、信道编码模块和信道解码模块。

第一终端101中的音频采集模块采集HOA信号并传输给编码器，编码器利用本申请实施例提供的虚拟扬声器的确定方法，确定目标虚拟扬声器。同时，对目标虚拟扬声器的属性信息和当前帧HOA信号的低阶成分进行编码，该编码可以称为信源编码。之后，为了实现HOA信号在信道中的传输，信道编码模块还需要再进行信道编码，然后将编码得到的码流通过无线或者有线网络通信设备在数字信道中传输。

第二终端201通过无线或者有线网络通信设备接收数字信道中传输的码流，信道解码模块对码流进行信道解码，然后解码器基于目标虚拟扬声器的HOA系数，以及当前帧HOA信号的低阶成分，重建当前帧HOA信号，再通过音频回放模块进行播放。

其中，第一终端101和第二终端201可以是任何一种可与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互的电子产品，例如个人计算机(personal computer，PC)、手机、智能手机、个人数字助手(Personal DigitalAssistant，PDA)、可穿戴设备、掌上电脑PPC(pocket PC)、平板电脑、智能车机、智能电视、智能音箱等。

本领域技术人员应能理解上述终端仅为举例，其他现有的或今后可能出现的终端如可适用于本申请实施例，也应包含在本申请实施例保护范围以内，并在此以引用方式包含于此。

请参考图3，图3是本申请实施例提供的一种虚拟扬声器的确定方法应用于广播电视场景的实施环境的示意图。广播电视场景分为直播场景和后期制作场景。对于直播场景来说，该实施环境包括直播节目三维声制作模块、三维声编码模块、机顶盒和扬声器组，机顶盒包括三维声解码模块。对于后期制作场景来说，该实施环境包括后期节目三维声制作模块、三维声编码模块、网络接收器、移动终端、耳机等。

直播场景下，直播节目三维声制作模块制作出三维声信号，该三维声信号包括HOA信号。该三维声信号经过应用现有的编码方法进行编码得到码流，该码流经广电网络传输到用户侧，由机顶盒中的三维声解码器利用现有的解码方法进行解码，从而重建三维声信号，由扬声器组进行回放。或者，该码流经互联网传输到用户侧，由网络接收器中的三维声解码器利用现有的解码方法进行解码，从而重建三维声信号，由扬声器组进行回放。又或者，该码流经互联网传输到用户侧，由移动终端中的三维声解码器利用现有的解码方法进行解码，从而重建三维声信号，由耳机进行回放。

后期制作场景下，后期节目三维声制作模块制作出三维声信号，该三维声信号经过应用现有的编码方法进行编码得到码流，该码流经广电网络传输到用户侧，由机顶盒中的三维声解码器利用现有的解码方法进行解码，从而重建三维声信号，由扬声器组进行回放。或者，该码流经互联网传输到用户侧，由网络接收器中的三维声解码器利用现有的解码方法进行解码，从而重建三维声信号，由扬声器组进行回放。又或者，该码流经互联网传输到用户侧，由移动终端中的三维声解码器利用现有的解码方法进行解码，从而重建三维声信号，由耳机进行回放。

请参考图4，图4是本申请实施例提供的一种虚拟扬声器的确定方法应用于虚拟现实流场景的实施环境的示意图。该实施环境包括编码端和解码端，编码端包括采集模块、预处理模块、编码模块、打包模块和发送模块，解码端包括解包模块、解码模块、渲染模块和耳机。

采集模块采集HOA信号，然后通过预处理模块进行预处理操作，预处理操作包括滤除掉信号中的低频部分，通常是以20Hz或者50Hz为分界点，提取信号中的方位信息等。之后通过编码模块，利用现有的编码方法进行编码处理，编码之后通过打包模块进行打包，进而通过发送模块发送给解码端。

解码端的解包模块首先进行解包，之后通过解码模块，利用现有的解码方法进行解码，然后通过渲染模块对解码信号进行双耳渲染处理，渲染处理后的信号映射到收听者耳机上。该耳机可以为独立的耳机，也可以是基于虚拟现实的眼镜设备上的耳机。

需要说明的是，本申请实施例描述的系统架构以及业务场景是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域普通技术人员可知，随着系统架构的演变和新业务场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

接下来对本申请实施例提供的虚拟扬声器的确定方法进行详细地解释说明。需要说明的是，结合图1所示的实施环境，该虚拟扬声器的确定方法可以是源装置10中的编码器100执行的，或者还可以是目的地装置20中的解码器200执行的。

图5是本申请实施例提供的一种虚拟扬声器的确定方法的流程图，该方法应用于编码端设备。请参考图5，该方法包括如下步骤。

步骤501：获取N个第一虚拟扬声器的属性信息，该N个第一虚拟扬声器是指虚拟扬声器集合中与目标组HOA信号的HOA系数匹配的虚拟扬声器，目标组HOA信号包括至少一帧HOA信号，N为大于或等于1的整数。

在一些实施例中，将当前需要进行编码处理的至少一帧HOA信号作为目标组HOA信号。目标组HOA信号包括一帧HOA信号，或者目标组HOA信号包括P帧HOA信号，P为大于1的整数。

虚拟扬声器集合包括多个虚拟扬声器，该多个虚拟扬声器中的各个虚拟扬声器均存在相应的HOA系数。编码端设备基于该至少一帧HOA信号的HOA系数，以及各个虚拟扬声器的HOA系数，从虚拟扬声器集合中选择与该至少一帧HOA信号的HOA系数匹配的N个第一虚拟扬声器。然后，基于该N个第一虚拟扬声器的标识，从存储的虚拟扬声器的标识和属性信息之间的对应关系中，获取该N个第一虚拟扬声器的属性信息。

在目标组HOA信号包括一帧HOA信号的情况下，编码端设备将该帧HOA信号的HOA系数分别与各个虚拟扬声器的HOA系数进行内积运算，以得到多个运算结果，该多个运算结果中的任一运算结果是指该帧HOA信号在相应虚拟扬声器上的投影分量。然后，编码端设备按照投影分量从大到小的顺序，对该多个运算结果进行排序，将排序结果中前N个运算结果对应的虚拟扬声器作为该N个第一虚拟扬声器。

在目标组HOA信号包括P帧HOA信号的情况下，对于该P帧HOA信号中的每一帧HOA信号，编码端设备分别将每一帧HOA信号的HOA系数依次与各个虚拟扬声器的HOA系数进行内积运算，以得到多个运算结果，该多个运算结果中的任一运算结果是指该P帧HOA信号中的某一帧HOA信号在相应虚拟扬声器上的投影分量。然后，编码端设备按照投影分量从大到小的顺序，对该多个运算结果进行排序，将排序结果中前N个运算结果对应的虚拟扬声器作为该N个第一虚拟扬声器。

需要说明的是，在目标组HOA信号包括P帧HOA信号的情况下，对于该P帧HOA信号中的某一帧HOA信号来说，该N个第一虚拟扬声器中可能不存在该帧HOA信号匹配的第一虚拟扬声器。即，该P帧HOA信号中的每帧HOA信号匹配的第一虚拟扬声器的个数不相等，只要该P帧HOA信号总共匹配N个第一虚拟扬声器即可。

当然，在实际应用中，编码端设备还能够按照其他的方法从虚拟扬声器集合中选择该N个第一虚拟扬声器，本申请实施例对此不做限定。

其中，虚拟扬声器的标识用于唯一标识虚拟扬声器，该标识可以是虚拟扬声器的类型、编号以及名称等等，或者通过这些信息进行组合得到。虚拟扬声器的属性信息包括俯仰角和方位角。当然，在实际应用中，虚拟扬声器的属性信息还可以包括其他的内容，例如虚拟扬声器的HOA系数、虚拟扬声器的索引等，本申请实施例对此不做限定。

可选地，编码端设备基于该至少一帧HOA信号的HOA系数，以及各个虚拟扬声器的HOA系数，从虚拟扬声器集合中选择与该至少一帧HOA信号的HOA系数匹配的N个第一虚拟扬声器之前，还需要分别对该至少一帧HOA信号进行时频变换。即，将该至少一帧时域HOA信号转换为频域HOA信号，以得到该至少一帧HOA信号的频域系数，进而将该至少一帧HOA信号的频域系数确定为该至少一帧HOA信号的HOA系数。

通常情况下，HOA信号的通道数与HOA信号的阶数相关。比如，如果一帧HOA信号为Z阶信号，则该帧HOA信号的通道数为(Z+1)²。编码端设备按照上述步骤从虚拟扬声器集合中选择出该N个第一虚拟扬声器，以便于解码端设备后续基于该N个第一虚拟扬声器的HOA系数，将通道数为(Z+1)²的该帧HOA信号转换为通道数为N的虚拟扬声器信号。

步骤502：获取N个第二虚拟扬声器的属性信息，该N个第二虚拟扬声器是指虚拟扬声器集合中用于对参考组HOA信号进行编码处理的虚拟扬声器，参考组HOA信号是指位于目标组HOA信号之前的至少一组HOA信号。

实际应用中，对于编码端设备来说，该N个第二虚拟扬声器用于对参考组HOA信号进行编码处理。

在一些实施例中，参考组HOA信号是指位于目标组HOA信号之前的一组HOA信号。或者，参考组HOA信号是指位于目标组HOA信号之前的多组HOA信号。在不同的情况下，编码端设备获取该N个第二虚拟扬声器的属性信息的方式不同，接下来将分为以下两种情况分别进行说明。

第一种情况，参考组HOA信号是指位于目标组HOA信号之前的一组HOA信号。此时，编码端设备直接将用于对该组HOA信号进行编码处理的N个虚拟扬声器作为该N个第二虚拟扬声器，并基于该N个第二虚拟扬声器的标识，从存储的虚拟扬声器的标识和属性信息之间的对应关系中，获取该N个第二虚拟扬声器的属性信息。

其中，用于对该组HOA信号进行编码处理的该N个第二虚拟扬声器与目标组HOA信号匹配的该N个第一虚拟扬声器一一对应。也即是，对于任一组HOA信号均需要按照本申请实施例提供的方法，从虚拟扬声器集合中选择N个虚拟扬声器，以得到用于对该组HOA信号进行编码处理的N个虚拟扬声器。

由于该多组HOA信号中的各组HOA信号均对应N个虚拟扬声器，且各组HOA信号对应的N个虚拟扬声器之间一一对应。此时，编码端设备将该多组HOA信号中具有对应关系的虚拟扬声器作为一组虚拟扬声器，以得到N组虚拟扬声器，该N组虚拟扬声器中的任一组虚拟扬声器均包括该多组HOA信号中各组HOA信号相应的虚拟扬声器。然后，对于该N组虚拟扬声器中的任一组虚拟扬声器，基于该组虚拟扬声器包括的多个虚拟扬声器的标识，从存储的虚拟扬声器的标识和属性信息之间的对应关系中，获取该多个虚拟扬声器的属性信息，以得到一组属性信息。这样，对于该N组虚拟扬声器中的每组虚拟扬声器，均能够按照上述步骤确定出一组属性信息，以得到N组属性信息。最后，对于该N组属性信息中的同一组属性信息取均值，以得到N个属性信息，将该N个属性信息确定为该N个第二虚拟扬声器的属性信息，以得到该N个第二虚拟扬声器的属性信息。

例如，参考组HOA信号是指位于目标组HOA信号之前的3组HOA信号，且该3组HOA信号中的各组HOA信号均对应4个虚拟扬声器，即N为4。第一组HOA信号对应的4个虚拟扬声器为a1、b1、c1和d1，第二组HOA信号对应的4个虚拟扬声器为a2、b2、c2和d2，第三组HOA信号对应的4个虚拟扬声器为a3、b3、c3和d3。编码端设备将该3组HOA信号中具有对应关系的虚拟扬声器作为一组虚拟扬声器，得到的4组虚拟扬声器分别为【a1、a2和a3】、【b1、b2和b3】、【c1、c2和c3】和【d1、d2和d3】。然后，对于该4组虚拟扬声器中的每一组虚拟扬声器，编码端设备将位于同一组的3个虚拟扬声器的属性信息取均值，以得到4个属性信息，并将该4个属性信息确定为该4个第二虚拟扬声器的属性信息。

步骤503：基于该N个第一虚拟扬声器的属性信息和该N个第二虚拟扬声器的属性信息，确定M个目标虚拟扬声器，该M个目标虚拟扬声器用于对目标组HOA信号进行编码处理，M为大于1的整数，且M大于N。

在虚拟扬声器的属性信息包括俯仰角和方位角的情况下，编码端设备按照下述步骤(1)-(3)，确定该M个目标虚拟扬声器。

基于上文描述，该N个第一虚拟扬声器与该N个第二虚拟扬声器一一对应。对于该N个第一虚拟扬声器中的任一第一虚拟扬声器来说，确定该第一虚拟扬声器与相应的第二虚拟扬声器之间的距离的方式相同，因此，从该N个第一虚拟扬声器中选择一个第一虚拟扬声器作为目标第一虚拟扬声器，接下来以目标第一虚拟扬声器为例，对确定目标第一虚拟扬声器与目标第二虚拟扬声器之间的距离进行说明，目标第二虚拟扬声器与目标第一虚拟扬声器之间具有对应关系。

示例地，编码端设备按照下述公式(1)确定目标第一虚拟扬声器与目标第二虚拟扬声器之间的距离。

其中，在上述公式(1)中，d₁代表目标第一虚拟扬声器与目标第二虚拟扬声器之间的距离，β₁₁代表目标第一虚拟扬声器的方位角，β₁₂代表目标第二虚拟扬声器的方位角，代表目标第一虚拟扬声器的俯仰角，代表目标第二虚拟扬声器的俯仰角。

也即是，对于该N个第一虚拟扬声器中的任一第一虚拟扬声器，从该N个第二虚拟扬声器中选择该第一虚拟扬声器对应的第二虚拟扬声器，该第二虚拟扬声器与该第一虚拟扬声器对应同一通道。然后，基于该第一虚拟扬声器的俯仰角和方位角，以及该第二虚拟扬声器的俯仰角和方位角，按照上述公式(1)确定该第一虚拟扬声器和该第二虚拟扬声器之间的距离，以得到一个距离。这样，对于该N个第一虚拟扬声器中的每个第一虚拟扬声器，均能够按照上述步骤确定出该第一虚拟扬声器对应的第二虚拟扬声器，并确定该第一虚拟扬声器和相应第二虚拟扬声器之间的距离，从而得到N个距离。

(2)基于该N个距离，确定M组俯仰角和方位角。

基于上文描述，目标组HOA信号包括一帧HOA信号，或者目标组HOA信号包括P帧HOA信号。在不同的情况下，编码端设备基于该N个距离，确定M组俯仰角和方位角的方式不同，接下来将分为以下两种情况分别进行说明。

基于上文描述，该N个距离是指具有对应关系的第一虚拟扬声器与第二虚拟扬声器之间的距离。在目标距离大于第一距离阈值的情况下，表明该帧HOA信号的目标第一虚拟扬声器所处的位置，与参考组HOA信号的目标第二虚拟扬声器所处的位置之间存在较大的差异，容易导致后续解码得到的该帧HOA信号与参考组HOA信号听起来在空间上存在跳变。因此，编码端设备需要基于目标距离对应的第一虚拟扬声器和第二虚拟扬声器的俯仰角和方位角，确定该H个子帧分别对应的俯仰角和方位角，使得目标距离对应的第一虚拟扬声器和第二虚拟扬声器之间进行平滑过渡。

需要说明的是，i为该H个子帧中除第一个子帧和最后一个子帧之外的其他任一子帧的编号。在该H个子帧中的第一个子帧是从0开始编号的情况下，i大于0且小于H-1。在该H个子帧中的第一个子帧是从1开始编号的情况下，i大于1且小于H。即，通过插值处理的方式，来确定该H个子帧中除第一个子帧和最后一个子帧之外的其他任一子帧对应的俯仰角和方位角。

示例地，编码端设备按照下述公式(2)确定第i个子帧对应的俯仰角和方位角。

其中，在上述公式(2)中，代表第i个子帧对应的俯仰角，代表第i-1个子帧对应的俯仰角，代表最后一个子帧对应的俯仰角，β_i代表第i个子帧对应的方位角，β_i-1代表第i-1个子帧对应的方位角，β_H代表最后一个子帧对应的方位角。

需要说明的是，上述公式(2)是通过线性插值的方法，基于第i-1个子帧对应的俯仰角和方位角，以及最后一个子帧对应的俯仰角和方位角，来确定第i个子帧对应的俯仰角和方位角。当然，在实际应用中，编码端设备还能够通过非线性插值的方法来确定第i个子帧对应的俯仰角和方位角，例如拉格朗日插值方法，本申请实施例对此不做限定。

例如，该帧HOA信号包括4个子帧，目标距离对应的第一虚拟扬声器的俯仰角为方位角为β₁₁，目标距离对应的第二虚拟扬声器的俯仰角为方位角为β₁₂。在目标距离阈值大于第一距离阈值的情况下，第一个子帧对应的俯仰角为方位角为β₁₂。第四个子帧对应的俯仰角为方位角为β₁₁。第二个子帧对应的俯仰角为方位角为β₂，且俯仰角和方位角β₂是基于第一个子帧对应的俯仰角和方位角β₁₂，以及第四个子帧对应的俯仰角和方位角β₁₁通过插值处理得到的。第三个子帧对应的俯仰角为方位角为β₃，且俯仰角和方位角β₃是基于第二个子帧对应的俯仰角和方位角β₂，以及第四个子帧对应的俯仰角和方位角β₁₁通过插值处理得到的。

需要说明的是，在实际应用中，还可能存在目标距离不大于第一距离阈值的情况。即，该帧HOA信号的目标第一虚拟扬声器所处的位置，与参考组HOA信号的目标第二虚拟扬声器所处的位置之间相差不大。在一些实施例中，编码端设备将目标距离对应的第一虚拟扬声器的俯仰角和方位角确定为该H个子帧分别对应的俯仰角和方位角。也就是说，该H个子帧中各个子帧对应的俯仰角均等于目标距离对应的第一虚拟扬声器的俯仰角，各个子帧对应的方位角均等于目标距离对应的第一虚拟扬声器的方位角。

在另一些实施例中，编码端设备将目标距离对应的第二虚拟扬声器的俯仰角和方位角确定为该H个子帧中前K个子帧对应的俯仰角和方位角，将目标距离对应的第一虚拟扬声器的俯仰角和方位角确定为该H个子帧中剩余子帧对应的俯仰角和方位角，K为大于或等于1的整数，且K小于H。

例如，该帧HOA信号包括4个子帧，目标距离对应的第一虚拟扬声器的俯仰角为方位角为β₁₁，目标距离对应的第二虚拟扬声器的俯仰角为方位角为β₁₂。在目标距离阈值不大于第一距离阈值的情况下，该4个子帧中各个子帧对应的俯仰角均为方位角均为β₁₁。或者，该4个子帧中第一个子帧对应的俯仰角为方位角为β₁₂，即K为1，剩余3个子帧中各个子帧对应的俯仰角均为方位角均为β₁₁。

基于上文描述，该N个距离是指具有对应关系的第一虚拟扬声器与第二虚拟扬声器之间的距离。在目标距离大于第二距离阈值的情况下，表明目标组HOA信号的目标第一虚拟扬声器所处的位置，与参考组HOA信号的目标第二虚拟扬声器所处的位置之间存在较大的差异，容易导致后续解码得到的目标组HOA信号与参考组HOA信号听起来在空间上存在跳变。因此，编码端设备需要基于目标距离对应的第一虚拟扬声器和第二虚拟扬声器的俯仰角和方位角，确定该P帧HOA信号分别对应的俯仰角和方位角，使得目标距离对应的第一虚拟扬声器和第二虚拟扬声器之间进行平滑过渡。

需要说明的是，j为该P帧HOA信号中除第一帧HOA信号和最后一帧HOA信号之外的其他任一帧HOA信号的编号。在该P帧HOA信号中的第一帧HOA信号是从0开始编号的情况下，j大于0且小于P-1。在该P帧HOA信号中的第一帧HOA信号是从1开始编号的情况下，j大于1且小于P。即，通过插值处理的方式，来确定该P帧HOA信号中除第一帧HOA信号和最后一帧HOA信号之外的其他任一帧HOA信号对应的俯仰角和方位角。

需要说明的是，在实际应用中，还可能存在目标距离不大于第二距离阈值的情况。即，目标组HOA信号的目标第一虚拟扬声器所处的位置，与参考组HOA信号的目标第二虚拟扬声器所处的位置之间相差不大。在一些实施例中，编码端设备将目标距离对应的第一虚拟扬声器的俯仰角和方位角确定为该P帧HOA信号分别对应的俯仰角和方位角。也就是说，该P帧HOA信号中各帧HOA信号对应的俯仰角均等于目标距离对应的第一虚拟扬声器的俯仰角，各帧HOA信号对应的方位角均等于目标距离对应的第一虚拟扬声器的方位角。

在另一些实施例中，编码端设备将目标距离对应的第二虚拟扬声器的俯仰角和方位角确定为该P帧HOA信号中前L帧HOA信号对应的俯仰角和方位角，将目标距离对应的第一虚拟扬声器的俯仰角和方位角确定为该P帧HOA信号中剩余帧HOA信号对应的俯仰角和方位角，L为大于或等于1的整数，且所述L小于P。

编码端设备按照上述步骤(2)基于该N个距离，确定M组俯仰角和方位角之后，将虚拟扬声器集合中与该M组俯仰角和方位角对应的虚拟扬声器确定为该M个目标虚拟扬声器，以便于后续通过该M个目标虚拟扬声器对目标组HOA信号进行编码处理。

基于上文描述，在实际应用中，虚拟扬声器的属性信息还可以包括其他的内容，例如虚拟扬声器的HOA系数。在虚拟扬声器的属性信息包括HOA系数的情况下，编码端设备需要先按照相关算法，将虚拟扬声器的HOA系数转换为虚拟扬声器的俯仰角和方位角，再按照上述步骤(1)-(3)，确定该M个目标虚拟扬声器。

可选地，编码端设备基于该N个第一虚拟扬声器的属性信息和该N个第二虚拟扬声器的属性信息，确定该M个目标虚拟扬声器之后，还需要将该M个目标虚拟扬声器的属性信息编入码流。这样，解码端设备接收到码流之后，能够从码流中解析出该M个目标虚拟扬声器的属性信息，并基于该M个目标虚拟扬声器的属性信息，重建目标组HOA信号。或者，编码端设备直接将该M个目标虚拟扬声器的确定方式的索引编入码流，以便于解码端设备从码流中解析出该M个目标虚拟扬声器的确定方式的索引之后，基于该索引实时地确定该M个目标虚拟扬声器。

在本申请实施例中，由于目标虚拟扬声器用于对目标组HOA信号进行处理，第二虚拟扬声器用于对参考组HOA信号进行处理，第一虚拟扬声器是目标组HOA信号匹配的虚拟扬声器，所以，在确定出第一虚拟扬声器之后，通过结合第二虚拟扬声器的属性信息以及第一虚拟扬声器的属性信息来确定目标虚拟扬声器，能够保证目标虚拟扬声器的属性信息与第二虚拟扬声器的属性信息相差不大，从而解决解码得到的相邻两帧HOA信号听起来在空间上存在跳变的问题。

图6是本申请实施例提供的另一种虚拟扬声器的确定方法的流程图，该方法应用于解码端设备。请参考图6，该方法包括如下步骤。

步骤601：获取N个第一虚拟扬声器的属性信息，该N个第一虚拟扬声器是指虚拟扬声器集合中与目标组HOA信号的HOA系数匹配的虚拟扬声器，目标组HOA信号包括至少一帧HOA信号，N为大于或等于1的整数。

在一些实施例中，将当前需要进行解码处理的至少一帧HOA信号作为目标组HOA信号。目标组HOA信号包括一帧HOA信号，或者目标组HOA信号包括P帧HOA信号，P为大于1的整数。

解码端设备获取该N个第一虚拟扬声器的属性信息的过程与上述步骤501中编码端设备获取该N个第一虚拟扬声器的属性信息的过程相似，所以，可以参考上述步骤501的相关内容，此处不再赘述。

可选地，编码端设备按照上述步骤501获取该N个第一虚拟扬声器的属性信息之后，还能够将该N个第一虚拟扬声器的属性信息编入码流。这样，解码端设备接收到码流之后，能够直接从码流中解析出该N个第一虚拟扬声器的属性信息。

虚拟扬声器的属性信息包括俯仰角和方位角。当然，在实际应用中，虚拟扬声器的属性信息还可以包括其他的内容，例如虚拟扬声器的HOA系数、虚拟扬声器的索引等，本申请实施例对此不做限定。

步骤602：获取N个第二虚拟扬声器的属性信息，该N个第二虚拟扬声器是指虚拟扬声器集合中用于对参考组HOA信号进行解码处理的虚拟扬声器，参考组HOA信号是指位于目标组HOA信号之前的至少一组HOA信号。

对于解码端设备来说，该N个第二虚拟扬声器用于对参考组HOA信号进行解码处理。解码端设备获取该N个第二虚拟扬声器的属性信息的过程与上述步骤502中编码端设备获取该N个第二虚拟扬声器的属性信息的过程相似，所以，可以参考上述步骤502的相关内容，此处不再赘述。

可选地，编码端设备按照上述步骤502获取该N个第二虚拟扬声器的属性信息之后，还能够将该N个第二虚拟扬声器的属性信息编入码流。这样，解码端设备接收到码流之后，能够直接从码流中解析出该N个第二虚拟扬声器的属性信息。

步骤603：基于该N个第一虚拟扬声器的属性信息和该N个第二虚拟扬声器的属性信息，确定M个目标虚拟扬声器，该M个目标虚拟扬声器用于对目标组HOA信号进行解码处理，M为大于1的整数，且M大于N。

在一些实施例中，由于编码端设备基于该N个第一虚拟扬声器的属性信息和该N个第二虚拟扬声器的属性信息，确定该M个目标虚拟扬声器之后，还将该M个目标虚拟扬声器的确定方式的索引编入码流。所以，解码端设备接收到码流之后，能够从码流中解析出该M个目标虚拟扬声器的确定方式的索引，进而按照该索引所指示的确定方式，基于该N个第一虚拟扬声器的属性信息和该N个第二虚拟扬声器的属性信息，确定该M个目标虚拟扬声器。

在另一些实施例中，在虚拟扬声器的属性信息包括俯仰角和方位角的情况下，解码端设备按照下述步骤(1)-(3)，确定该M个目标虚拟扬声器。

解码端设备基于该N个第一虚拟扬声器的俯仰角和方位角，以及该N个第二虚拟扬声器的俯仰角和方位角，确定N个距离的过程与上述步骤503中编码端设备基于该N个第一虚拟扬声器的俯仰角和方位角，以及该N个第二虚拟扬声器的俯仰角和方位角，确定N个距离的过程相似，所以，可以参考上述步骤503的相关内容，此处不再赘述。

(2)基于该N个距离，确定M组俯仰角和方位角。

基于上文描述，目标组HOA信号包括一帧HOA信号，或者目标组HOA信号包括P帧HOA信号。在不同的情况下，解码端设备基于该N个距离，确定M组俯仰角和方位角的方式不同，接下来将分为以下两种情况分别进行说明。

需要说明的是，在实际应用中，还可能存在目标距离不大于第一距离阈值的情况。即，该帧HOA信号的目标第一虚拟扬声器所处的位置，与参考组HOA信号的目标第二虚拟扬声器所处的位置之间相差不大。在一些实施例中，解码端设备将目标距离对应的第一虚拟扬声器的俯仰角和方位角确定为该H个子帧分别对应的俯仰角和方位角。也就是说，该H个子帧中各个子帧对应的俯仰角均等于目标距离对应的第一虚拟扬声器的俯仰角，各个子帧对应的方位角均等于目标距离对应的第一虚拟扬声器的方位角。

在另一些实施例中，解码端设备将目标距离对应的第二虚拟扬声器的俯仰角和方位角确定为该H个子帧中前K个子帧对应的俯仰角和方位角，将目标距离对应的第一虚拟扬声器的俯仰角和方位角确定为该H个子帧中剩余子帧对应的俯仰角和方位角，K为大于或等于1的整数，且K小于H。

需要说明的是，在实际应用中，还可能存在目标距离不大于第二距离阈值的情况。即，目标组HOA信号的目标第一虚拟扬声器所处的位置，与参考组HOA信号的目标第二虚拟扬声器所处的位置之间相差不大。在一些实施例中，解码端设备将目标距离对应的第一虚拟扬声器的俯仰角和方位角确定为该P帧HOA信号分别对应的俯仰角和方位角。也就是说，该P帧HOA信号中各帧HOA信号对应的俯仰角均等于目标距离对应的第一虚拟扬声器的俯仰角，各帧HOA信号对应的方位角均等于目标距离对应的第一虚拟扬声器的方位角。

在另一些实施例中，解码端设备将目标距离对应的第二虚拟扬声器的俯仰角和方位角确定为该P帧HOA信号中前L帧HOA信号对应的俯仰角和方位角，将目标距离对应的第一虚拟扬声器的俯仰角和方位角确定为该P帧HOA信号中剩余帧HOA信号对应的俯仰角和方位角，L为大于或等于1的整数，且所述L小于P。

解码端设备按照上述步骤(2)基于该N个距离，确定M组俯仰角和方位角之后，将虚拟扬声器集合中与该M组俯仰角和方位角对应的虚拟扬声器确定为该M个目标虚拟扬声器，以便于后续通过该M个目标虚拟扬声器对目标组HOA信号进行解码处理。

基于上文描述，在实际应用中，虚拟扬声器的属性信息还可以包括其他的内容，例如虚拟扬声器的HOA系数。在虚拟扬声器的属性信息包括HOA系数的情况下，解码端设备需要先按照相关算法，将虚拟扬声器的HOA系数转换为虚拟扬声器的俯仰角和方位角，再按照上述步骤(1)-(3)，确定该M个目标虚拟扬声器。

需要说明的是，以上内容是以解码端设备实时地确定该M个目标虚拟扬声器为例进行介绍。在实际应用中，由于编码端设备基于该N个第一虚拟扬声器的属性信息和该N个第二虚拟扬声器的属性信息，确定该M个目标虚拟扬声器之后，还将该M个目标虚拟扬声器的属性信息编入码流。所以，解码端设备接收到码流之后，能够直接从码流中解析出该M个目标虚拟扬声器的属性信息，并基于该M个目标虚拟扬声器的属性信息，重建目标组HOA信号，无需确定该M个目标虚拟扬声器。

图7是本申请实施例提供的一种虚拟扬声器的确定装置的结构示意图，该虚拟扬声器的确定装置可以由软件、硬件或者两者的结合实现成为计算机设备的部分或者全部，该计算机设备可以为上述所提及的编码端设备或解码端设备。参见图7，该装置包括：第一获取模块701、第二获取模块702和确定模块703。

第一获取模块701，用于获取N个第一虚拟扬声器的属性信息，该N个第一虚拟扬声器是指虚拟扬声器集合中与目标组HOA信号的HOA系数匹配的虚拟扬声器，目标组HOA信号包括至少一帧HOA信号，N为大于或等于1的整数。详细实现过程参考上述各个实施例中对应的内容，此处不再赘述。

第二获取模块702，用于获取N个第二虚拟扬声器的属性信息，该N个第二虚拟扬声器是指虚拟扬声器集合中用于对参考组HOA信号进行处理的虚拟扬声器，参考组HOA信号是指位于目标组HOA信号之前的至少一组HOA信号。详细实现过程参考上述各个实施例中对应的内容，此处不再赘述。

确定模块703，用于基于该N个第一虚拟扬声器的属性信息和该N个第二虚拟扬声器的属性信息，确定M个目标虚拟扬声器，该M个目标虚拟扬声器用于对目标组HOA信号进行处理，M为大于1的整数，且M大于N。详细实现过程参考上述各个实施例中对应的内容，此处不再赘述。

可选地，属性信息包括俯仰角和方位角，该N个第一虚拟扬声器与该N个第二虚拟扬声器一一对应；

确定模块703包括：

第一确定单元，用于基于该N个第一虚拟扬声器的俯仰角和方位角，以及该N个第二虚拟扬声器的俯仰角和方位角，确定具有对应关系的第一虚拟扬声器与第二虚拟扬声器之间的距离，以得到N个距离；

第二确定单元，用于基于该N个距离，确定M组俯仰角和方位角；

第三确定单元，用于将虚拟扬声器集合中与该M组俯仰角和方位角对应的虚拟扬声器确定为该M个目标虚拟扬声器。

可选地，目标组HOA信号包括一帧HOA信号，该一帧HOA信号包括H个子帧，H为大于1的整数，M为H与N的乘积；

第二确定单元具体用于：

将该N个距离中的一个距离作为目标距离，按照如下操作确定该H个子帧分别对应的俯仰角和方位角，直至遍历完该N个距离中的每个距离为止：

在目标距离大于第一距离阈值的情况下，基于目标距离对应的第一虚拟扬声器和第二虚拟扬声器的俯仰角和方位角，确定该H个子帧分别对应的俯仰角和方位角。

可选地，第二确定单元具体用于：

将目标距离对应的第二虚拟扬声器的俯仰角和方位角确定为该H个子帧中第一个子帧对应的俯仰角和方位角；

将目标距离对应的第一虚拟扬声器的俯仰角和方位角确定为该H个子帧中最后一个子帧对应的俯仰角和方位角；

对于该H个子帧中的第i个子帧，基于该H个子帧中第i-1个子帧对应的俯仰角和方位角，以及最后一个子帧对应的俯仰角和方位角，通过插值处理的方式确定第i个子帧对应的俯仰角和方位角，i大于0且小于H-1。

可选地，第二确定单元还具体用于：

在目标距离不大于第一距离阈值的情况下，将目标距离对应的第一虚拟扬声器的俯仰角和方位角确定为该H个子帧分别对应的俯仰角和方位角；或者

在目标距离不大于第一距离阈值的情况下，将目标距离对应的第二虚拟扬声器的俯仰角和方位角确定为该H个子帧中前K个子帧对应的俯仰角和方位角，将目标距离对应的第一虚拟扬声器的俯仰角和方位角确定为该H个子帧中剩余子帧对应的俯仰角和方位角，K为大于或等于1的整数，且K小于H。

可选地，目标组HOA信号包括P帧HOA信号，P为大于1的整数，M为P与N的乘积；

第二确定单元具体用于：

将该N个距离中的一个距离作为目标距离，按照如下操作确定该P帧HOA信号分别对应的俯仰角和方位角，直至遍历完该N个距离中的每个距离为止：

在目标距离大于第二距离阈值的情况下，基于目标距离对应的第一虚拟扬声器和第二虚拟扬声器的俯仰角和方位角，确定该P帧HOA信号分别对应的俯仰角和方位角。

可选地，第二确定单元具体用于：

将目标距离对应的第二虚拟扬声器的俯仰角和方位角确定为该P帧HOA信号中第一帧HOA信号对应的俯仰角和方位角；

将目标距离对应的第一虚拟扬声器的俯仰角和方位角确定为该P帧HOA信号中最后一帧HOA信号对应的俯仰角和方位角；

对于该P帧HOA信号中的第j帧HOA信号，基于该P帧HOA信号中第j-1帧HOA信号对应的俯仰角和方位角，以及最后一帧HOA信号对应的俯仰角和方位角，通过插值处理的方式确定第j帧HOA信号对应的俯仰角和方位角，j大于0且小于P-1。

可选地，第二确定单元还具体用于：

在目标距离不大于第二距离阈值的情况下，将目标距离对应的第一虚拟扬声器的俯仰角和方位角确定为该P帧HOA信号分别对应的俯仰角和方位角；或者

在目标距离不大于第二距离阈值的情况下，将目标距离对应的第二虚拟扬声器的俯仰角和方位角确定为该P帧HOA信号中前L帧HOA信号对应的俯仰角和方位角，将目标距离对应的第一虚拟扬声器的俯仰角和方位角确定为该P帧HOA信号中剩余帧HOA信号对应的俯仰角和方位角，L为大于或等于1的整数，且L小于P。

可选地，该装置应用于编码端设备；

该装置还包括：

第一编码模块，用于将该M个目标虚拟扬声器的属性信息编入码流；或者，

第二编码模块，用于将该M个目标虚拟扬声器的确定方式的索引编入码流。

需要说明的是：上述实施例提供的虚拟扬声器的确定装置在确定虚拟扬声器时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的虚拟扬声器的确定装置与虚拟扬声器的确定方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

请参考图8，图8是根据本申请实施例示出的一种计算机设备的结构示意图。该计算机设备包括至少一个处理器801、通信总线802、存储器803以及至少一个通信接口804。

处理器801可以是一个通用中央处理器(central processing unit，CPU)、网络处理器(network processor，NP)、微处理器、或者可以是一个或多个用于实现本申请方案的集成电路，例如，专用集成电路(application-specific integrated circuit，ASIC)，可编程逻辑器件(programmable logic device，PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(complex programmable logic device，CPLD)、现场可编程逻辑门阵列(field-programmable gate array，FPGA)、通用阵列逻辑(generic array logic，GAL)或其任意组合。

通信总线802用于在上述组件之间传送信息。通信总线802可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器803可以是只读存储器(read-only memory，ROM)，也可以是随机存取存储器(random access memory，RAM)，也可以是电可擦可编程只读存储器(electricallyerasable programmable read-only Memory，EEPROM)、光盘(包括只读光盘(compact discread-only memory，CD-ROM)、压缩光盘、激光盘、数字通用光盘、蓝光光盘等)、磁盘存储介质或者其它磁存储设备，或者是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其它介质，但不限于此。存储器803可以是独立存在，并通过通信总线802与处理器801相连接。存储器803也可以和处理器801集成在一起。

通信接口804使用任何收发器一类的装置，用于与其它设备或通信网络通信。通信接口804包括有线通信接口，还可以包括无线通信接口。其中，有线通信接口例如可以为以太网接口。以太网接口可以是光接口、电接口或其组合。无线通信接口可以为无线局域网(wireless local area networks，WLAN)接口、蜂窝网络通信接口或其组合等。

在具体实现中，作为一种实施例，处理器801可以包括一个或多个CPU，如图8中所示的CPU0和CPU1。

在具体实现中，作为一种实施例，计算机设备可以包括多个处理器，如图8中所示的处理器801和处理器805。这些处理器中的每一个可以是一个单核处理器，也可以是一个多核处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(如计算机程序指令)的处理核。

在具体实现中，作为一种实施例，计算机设备还可以包括输出设备806和输入设备807。输出设备806和处理器801通信，可以以多种方式来显示信息。例如，输出设备806可以是液晶显示器(liquid crystal display，LCD)、发光二级管(light emitting diode，LED)显示设备、阴极射线管(cathode ray tube，CRT)显示设备或投影仪(projector)等。输入设备807和处理器801通信，可以以多种方式接收用户的输入。例如，输入设备807可以是鼠标、键盘、触摸屏设备或传感设备等。

在一些实施例中，存储器803用于存储执行本申请方案的程序代码810，处理器801可以执行存储器803中存储的程序代码810。该程序代码810中可以包括一个或多个软件模块，该计算机设备可以通过处理器801以及存储器803中的程序代码810，来实现上文图5和图6实施例提供的虚拟扬声器的确定方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意结合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络或其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如：同轴电缆、光纤、数据用户线(digital subscriber line，DSL))或无线(例如：红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质，或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如：软盘、硬盘、磁带)、光介质(例如：数字通用光盘(digital versatile disc，DVD))或半导体介质(例如：固态硬盘(solid state disk，SSD))等。值得注意的是，本申请实施例提到的计算机可读存储介质可以为非易失性存储介质，换句话说，可以是非瞬时性存储介质。

也即是，本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有指令，当该指令在计算机上运行时，使得计算机执行上述虚拟扬声器的确定方法的步骤。

本申请实施例还提供了一种包含指令的计算机程序产品，当该指令在计算机上运行时，使得计算机执行上述虚拟扬声器的确定方法的步骤。或者说，提供了一种计算机程序，当计算机程序在计算机上运行时，使得计算机执行上述虚拟扬声器的确定方法的步骤。

应当理解的是，本文提及的“多个”是指两个或两个以上。在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，为了便于清楚描述本申请实施例的技术方案，在本申请实施例中，采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定，并且“第一”、“第二”等字样也并不限定一定不同。

需要说明的是，本申请实施例所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如，本申请实施例中涉及到的虚拟扬声器的属性信息都是在充分授权的情况下获取的。

以上所述为本申请提供的实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种虚拟扬声器的确定方法，其特征在于，所述方法包括：

获取N个第一虚拟扬声器的属性信息，所述N个第一虚拟扬声器是指虚拟扬声器集合中与目标组高阶立体混响HOA信号的HOA系数匹配的虚拟扬声器，所述目标组HOA信号包括至少一帧HOA信号，所述N为大于或等于1的整数；

获取N个第二虚拟扬声器的属性信息，所述N个第二虚拟扬声器是指所述虚拟扬声器集合中用于对参考组HOA信号进行处理的虚拟扬声器，所述参考组HOA信号是指位于所述目标组HOA信号之前的至少一组HOA信号；

基于所述N个第一虚拟扬声器的属性信息和所述N个第二虚拟扬声器的属性信息，确定M个目标虚拟扬声器，所述M个目标虚拟扬声器用于对所述目标组HOA信号进行处理，所述M为大于1的整数，且所述M大于所述N。

2.如权利要求1所述的方法，其特征在于，所述属性信息包括俯仰角和方位角，所述N个第一虚拟扬声器与所述N个第二虚拟扬声器一一对应；

所述基于所述N个第一虚拟扬声器的属性信息和所述N个第二虚拟扬声器的属性信息，确定M个目标虚拟扬声器，包括：

基于所述N个第一虚拟扬声器的俯仰角和方位角，以及所述N个第二虚拟扬声器的俯仰角和方位角，确定具有对应关系的第一虚拟扬声器与第二虚拟扬声器之间的距离，以得到N个距离；

基于所述N个距离，确定M组俯仰角和方位角；

将所述虚拟扬声器集合中与所述M组俯仰角和方位角对应的虚拟扬声器确定为所述M个目标虚拟扬声器。

3.如权利要求2所述的方法，其特征在于，所述目标组HOA信号包括一帧HOA信号，所述一帧HOA信号包括H个子帧，所述H为大于1的整数，所述M为所述H与所述N的乘积；

所述基于所述N个距离，确定M组俯仰角和方位角，包括：

将所述N个距离中的一个距离作为目标距离，按照如下操作确定所述H个子帧分别对应的俯仰角和方位角，直至遍历完所述N个距离中的每个距离为止：

在所述目标距离大于第一距离阈值的情况下，基于所述目标距离对应的第一虚拟扬声器和第二虚拟扬声器的俯仰角和方位角，确定所述H个子帧分别对应的俯仰角和方位角。

4.如权利要求3所述的方法，其特征在于，所述基于所述目标距离对应的第一虚拟扬声器和第二虚拟扬声器的俯仰角和方位角，确定所述H个子帧分别对应的俯仰角和方位角，包括：

将所述目标距离对应的第二虚拟扬声器的俯仰角和方位角确定为所述H个子帧中第一个子帧对应的俯仰角和方位角；

将所述目标距离对应的第一虚拟扬声器的俯仰角和方位角确定为所述H个子帧中最后一个子帧对应的俯仰角和方位角；

对于所述H个子帧中的第i个子帧，基于所述H个子帧中第i-1个子帧对应的俯仰角和方位角，以及所述最后一个子帧对应的俯仰角和方位角，通过插值处理的方式确定所述第i个子帧对应的俯仰角和方位角，所述i大于0且小于H-1。

5.如权利要求3所述的方法，其特征在于，所述方法还包括：

在所述目标距离不大于所述第一距离阈值的情况下，将所述目标距离对应的第一虚拟扬声器的俯仰角和方位角确定为所述H个子帧分别对应的俯仰角和方位角；或者

在所述目标距离不大于所述第一距离阈值的情况下，将所述目标距离对应的第二虚拟扬声器的俯仰角和方位角确定为所述H个子帧中前K个子帧对应的俯仰角和方位角，将所述目标距离对应的第一虚拟扬声器的俯仰角和方位角确定为所述H个子帧中剩余子帧对应的俯仰角和方位角，所述K为大于或等于1的整数，且所述K小于所述H。

6.如权利要求2所述的方法，其特征在于，所述目标组HOA信号包括P帧HOA信号，所述P为大于1的整数，所述M为所述P与所述N的乘积；

所述基于所述N个距离，确定M组俯仰角和方位角，包括：

将所述N个距离中的一个距离作为目标距离，按照如下操作确定所述P帧HOA信号分别对应的俯仰角和方位角，直至遍历完所述N个距离中的每个距离为止：

在所述目标距离大于第二距离阈值的情况下，基于所述目标距离对应的第一虚拟扬声器和第二虚拟扬声器的俯仰角和方位角，确定所述P帧HOA信号分别对应的俯仰角和方位角。

7.如权利要求6所述的方法，其特征在于，所述基于所述目标距离对应的第一虚拟扬声器和第二虚拟扬声器的俯仰角和方位角，确定所述P帧HOA信号分别对应的俯仰角和方位角，包括：

将所述目标距离对应的第二虚拟扬声器的俯仰角和方位角确定为所述P帧HOA信号中第一帧HOA信号对应的俯仰角和方位角；

将所述目标距离对应的第一虚拟扬声器的俯仰角和方位角确定为所述P帧HOA信号中最后一帧HOA信号对应的俯仰角和方位角；

对于所述P帧HOA信号中的第j帧HOA信号，基于所述P帧HOA信号中第j-1帧HOA信号对应的俯仰角和方位角，以及所述最后一帧HOA信号对应的俯仰角和方位角，通过插值处理的方式确定所述第j帧HOA信号对应的俯仰角和方位角，所述j大于0且小于P-1。

8.如权利要求6所述的方法，其特征在于，所述方法还包括：

在所述目标距离不大于所述第二距离阈值的情况下，将所述目标距离对应的第一虚拟扬声器的俯仰角和方位角确定为所述P帧HOA信号分别对应的俯仰角和方位角；或者

在所述目标距离不大于所述第二距离阈值的情况下，将所述目标距离对应的第二虚拟扬声器的俯仰角和方位角确定为所述P帧HOA信号中前L帧HOA信号对应的俯仰角和方位角，将所述目标距离对应的第一虚拟扬声器的俯仰角和方位角确定为所述P帧HOA信号中剩余帧HOA信号对应的俯仰角和方位角，所述L为大于或等于1的整数，且所述L小于所述P。

9.如权利要求1-8任一所述的方法，其特征在，所述方法应用于编码端设备；

所述基于所述N个第一虚拟扬声器的属性信息和所述N个第二虚拟扬声器的属性信息，确定M个目标虚拟扬声器之后，还包括：

将所述M个目标虚拟扬声器的属性信息编入码流；或者，

将所述M个目标虚拟扬声器的确定方式的索引编入所述码流。

10.一种虚拟扬声器的确定装置，其特征在于，所述装置包括：

第一获取模块，用于获取N个第一虚拟扬声器的属性信息，所述N个第一虚拟扬声器是指虚拟扬声器集合中与目标组HOA信号的HOA系数匹配的虚拟扬声器，所述目标组HOA信号包括至少一帧HOA信号，所述N为大于或等于1的整数；

第二获取模块，用于获取N个第二虚拟扬声器的属性信息，所述N个第二虚拟扬声器是指所述虚拟扬声器集合中用于对参考组HOA信号进行处理的虚拟扬声器，所述参考组HOA信号是指位于所述目标组HOA信号之前的至少一组HOA信号；

确定模块，用于基于所述N个第一虚拟扬声器的属性信息和所述N个第二虚拟扬声器的属性信息，确定M个目标虚拟扬声器，所述M个目标虚拟扬声器用于对所述目标组HOA信号进行处理，所述M为大于1的整数，且所述M大于所述N。

11.如权利要求10所述的装置，其特征在于，所述属性信息包括俯仰角和方位角，所述N个第一虚拟扬声器与所述N个第二虚拟扬声器一一对应；

所述确定模块，包括：

第一确定单元，用于基于所述N个第一虚拟扬声器的俯仰角和方位角，以及所述N个第二虚拟扬声器的俯仰角和方位角，确定具有对应关系的第一虚拟扬声器与第二虚拟扬声器之间的距离，以得到N个距离；

第二确定单元，用于基于所述N个距离，确定M组俯仰角和方位角；

第三确定单元，用于将所述虚拟扬声器集合中与所述M组俯仰角和方位角对应的虚拟扬声器确定为所述M个目标虚拟扬声器。

12.如权利要求11所述的装置，其特征在于，所述目标组HOA信号包括一帧HOA信号，所述一帧HOA信号包括H个子帧，所述H为大于1的整数，所述M为所述H与所述N的乘积；

所述第二确定单元具体用于：

13.如权利要求12所述的装置，其特征在于，所述第二确定单元具体用于：

14.如权利要求12所述的装置，其特征在于，所述第二确定单元还具体用于：

15.如权利要求11所述的装置，其特征在于，所述目标组HOA信号包括P帧HOA信号，所述P为大于1的整数，所述M为所述P与所述N的乘积；

所述第二确定单元具体用于：

16.如权利要求15所述的装置，其特征在于，所述第二确定单元具体用于：

17.如权利要求15所述的装置，其特征在于，所述第二确定单元还具体用于：

18.如权利要求10-17任一所述的装置，其特征在，所述装置应用于编码端设备；

所述装置还包括：

第一编码模块，用于将所述M个目标虚拟扬声器的属性信息编入码流；或者，

第二编码模块，用于将所述M个目标虚拟扬声器的确定方式的索引编入所述码流。

19.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器用于存储计算机程序，所述处理器被配置为用于执行所述存储器中存储的计算机程序，以实现权利要求1-9任一项所述的方法。

20.一种计算机可读存储介质，其特征在于，所述存储介质内存储有指令，当所述指令在所述计算机上运行时，使得所述计算机执行权利要求1-9任一所述的方法的步骤。

21.一种计算机程序，其特征在于，所述计算机程序包括指令，当所述指令在所述计算机上运行时，使得所述计算机执行权利要求1-9任一项所述的方法。