CN109804645A

CN109804645A - 基于投影的音频代码化

Info

Publication number: CN109804645A
Application number: CN201780060019.7A
Authority: CN
Inventors: 简·斯科格隆; 麦克尔·格拉奇克
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2016-10-31
Filing date: 2017-10-31
Publication date: 2019-05-24
Also published as: EP3497944A1; US20180124540A1; WO2018081829A1

Abstract

执行环绕声代码化的技术涉及使用基于单位球上的一组扬声器的位置的投影矩阵来耦合高阶环绕声(HOA)信号的通路以形成投影的HOA信号。然后可以将投影的HOA信号的每对分量编码成立体声格式。在一些布置中，投影矩阵可以基于解码矩阵或分离矩阵，该矩阵继而基于在指定扬声器位置处评估的球谐。以这种方式，与执行环绕声代码化的传统方法相比，编码效率(例如，给定声音质量的比特率)得到改善。

Description

基于投影的音频代码化

对于相关申请的交叉引用

本申请要求于在2016年10月31日提交的题为“PROJECTION-BASED AUDIO CODING”的美国专利申请No.62/415,189的优先权，并且是该美国专利申请的继续，其公开内容通过引用整体并入本文。

技术领域

本说明书涉及虚拟现实(VR)和类似环境中的声场的双耳呈现。

背景技术

环绕声(ambisonics)是一种全球形环绕声技术：除了水平面之外，它还覆盖了收听者上方和下方的声源。与其他多通路环绕声格式不同，其传输通路不携带扬声器信号。相反，它们包含称为B格式的声场的与扬声器无关的表示，然后将其解码为收听者的扬声器设置。这个额外的步骤允许制作者根据源方向而不是扬声器位置进行思考，并且为收听者提供关于用于回放的扬声器的布局和数目的相当大的灵活性。在环绕声中，围绕收听者的虚拟扬声器阵列产生声场。在某些情况下，通过解码来自各向同性地记录的声源以称为B格式的方案编码的声音文件来产生声场，而在其他情况下，声场是从放置在三维空间中的单通路源产生的。在虚拟扬声器阵列处产生的声场可以从相对于收听者的任何有利点再现声源的效果。这种解码可用于通过虚拟现实(VR)系统中的耳机扬声器传送音频。双通路呈现的环绕声指的是虚拟扬声器的创建，虚拟扬声器组合以向左和右耳机扬声器提供一对信号。

发明内容

在一个总体方面，一种方法可以包括：通过服务器计算设备的处理电路接收扬声器数据，所述服务器计算设备的所述处理电路被配置为对具有指定数目的通路的高阶环绕声(HOA)音频数据进行编码，所述扬声器数据指示多个扬声器相对于收听者的位置。所述方法还可以包括：通过所述处理电路生成表示投影矩阵的投影矩阵数据，所述投影矩阵基于扬声器数据和所述指定数目的通路。所述方法还可以包括：通过所述处理电路接收具有所述指定数目的通路的HOA音频数据。所述方法还可以包括：通过所述处理电路对所述HOA音频数据和所述投影矩阵数据执行投影操作以产生投影的HOA信号，所述投影的HOA信号具有多个分量。所述方法还可以包括：通过所述处理电路将所述投影的HOA信号的分量对安排成立体声格式的耦合流。

在附图和以下描述中阐述了一个或多个实现的细节。根据说明书和附图以及权利要求，其他特征将是显而易见的。

附图说明

图1是示出用于实现本文描述的改进技术的示例电子环境的图。

图2是示出在图1中所示的电子环境内执行改进技术的示例方法的流程图。

图3是示出用于将立体声流解码为环绕声信号的文件的示例格式的图。

图4示出了可以与这里描述的电路一起使用的计算机设备和移动计算机设备的示例。

具体实施方式

在传统的环绕声代码化方法中，制作者可以将每个环绕声通路(例如，一阶环绕声中的W、X、Y、Z)代码化为独立的解耦流，例如Opus流。对于一阶环绕声，在通路之间使用非均匀比特率分配可能是有益的，例如，通过向全向通路W提供比向定向通路X、Y和Z更多的比特。虽然这种直接解耦压缩方法适用于第一阶，但是它不能很好地推广到更高阶，因为每个通路将被以相对低的速率独立代码化。这种不耦合通路的传统环绕声代码化技术没有利用音频编解码器(例如，Opus)中的许多有用特征，例如耦合立体声模式、时变比特率分配或环绕屏蔽。

根据本文描述的实现并且与上述执行环绕声代码化的传统方法相反，改进的技术涉及使用基于单位球上的一组扬声器的位置的投影矩阵来耦合HOA信号的通路以形成投影的HOA信号。然后可以将投影的HOA信号的每对分量编码成立体声格式。在一些布置中，投影矩阵可以基于解码或分离矩阵，该矩阵继而基于在指定扬声器位置处评估的球谐函数。以这种方式，与执行环绕声代码化的传统方法相比，编码效率(例如，给定声音质量的比特率)得到改善。

出于本文件的目的，立体声被认为是通过两个或更多个扬声器(或立体声耳机)的配置使用两个或更多个独立音频通路的声音再现。因此，术语“立体声”适用于四通路和环绕声系统以及双通路双扬声器系统。

图1是示出其中可以实现上述改进技术的示例电子环境100的图。如图所示，在图1中，示例电子环境100包括服务器计算设备120、网络180和用户设备190。

服务器计算设备120被配置为编码具有指定数目的通路的高阶环绕声(HOA)音频数据。服务器计算设备120包括网络接口122、一个或多个处理单元124和存储器126。网络接口122包括例如以太网适配器和令牌环适配器等，用于将从网络170接收的电子信号和/或光信号转换为电子形式以供服务器计算设备计算机120使用。该组处理单元124包括一个或多个处理芯片和/或组件。存储器126包括易失性存储器(例如，RAM)和非易失性存储器，例如一个或多个ROM、磁盘驱动器和固态驱动器等。该组处理单元124和存储器126一起形成控制电路，该控制电路被配置和布置成执行如本文所述的各种方法和功能。

在一些实施例中，服务器计算设备120的一个或多个组件可以是或者可以包括被配置为处理存储在存储器126中的指令的处理器(例如，处理单元124)。如图1所示的这种指令的示例包括：声音获取管理器130、扬声器位置管理器140、解码矩阵管理器150、伪逆管理器160和编码管理器170。如图1所示，存储器126被配置为存储各种数据，这些数据是关于使用这种数据的各个管理器描述的。

声音获取管理器130被配置为从各种源获取声音数据132。例如，声音获取管理器130可以从光学驱动器或通过网络接口122获取声音数据132。声音获取管理器还被配置为一旦它获取声音数据132将声音数据132存储在存储器126中。在一些实现中，声音获取管理器130通过网络接口122流传输声音数据132。

声音数据132包括每个实际源的位置数据。在这种情况下，实际源的位置数据可以采用三元组的形式，其中，r是实际源与球体中心之间的距离，θ是仰角，是方位角。在一些实现中，声音数据132由麦克风捕获。

在一些实现中，声音数据132以B格式或具有四个分量的一阶环绕声或环绕声通路进行编码。在其他实现中，以更高阶的环绕声将声音数据132编码为例如K阶。在这种情况下，将存在(K|1)²个环绕声通路。

扬声器位置管理器140被配置为产生扬声器位置数据142，其指示产生从实际音频源产生的声音的虚拟或真实扬声器在球体上的位置。在一些实现中，扬声器布置在距收听者相同的距离处。在这种情况下，扬声器位置142可以被表达为单位球中的角坐标在一些布置中，扬声器位置管理器140被配置为根据单位球上的球形填充生成扬声器位置142，例如，使得扬声器位置142最大化在任何一对扬声器位置142之间的最小距离。在一些布置中，扬声器位置管理器140被配置为在单位球上均匀地生成扬声器位置142。

解码管理器150被配置为生成表示用于将立体声编码音频流转换为环绕声信号的解码矩阵的解码矩阵数据152。沿着这些线，解码管理器150被配置为将每个编码的立体声流转换为投影信号向量的分量对。然后，解码管理器150将该投影信号向量乘以解码矩阵152，以产生环绕声信号。

在一些实现中，流对表示虚拟扬声器。例如，流对可以由相邻的虚拟扬声器对构成。在这种情况下，这样的流对可以利用立体声编码中的有用特征。

在一些实现中，服务器计算设备120被配置为响应于来自用户设备190针对环绕声音频的请求，通过网络180将解码矩阵数据152发送到用户设备190。例如，用户设备190可以运行其中正在播放360度视频文件的浏览器；通常，这种360度视频文件播放HOA环绕声音频文件。在这种情况下，服务器计算设备120可以将编码的立体声格式的音频数据(例如，以Ogg格式编码的Opus)和解码矩阵数据152发送到用户设备190。然后，用户设备190可以使用解码的矩阵数据152对编码的立体声格式化的音频数据进行解码。

伪逆管理器160被配置为对解码矩阵数据152执行摩尔-彭若斯伪逆操作，以产生表示编码矩阵的编码矩阵数据162。

编码管理器170被配置为使用编码矩阵数据162从环绕声信号(例如，音频源数据132)产生编码的立体声流数据172。编码管理器170将环绕声信号乘以编码矩阵162以产生投影信号向量。在一些实现中，编码管理器170然后通过将投影信号向量的分量布置为分量对阵列来从投影信号向量产生编码的立体声信号。编码管理器170被配置为将分量布置成对，其分量在它们之间具有尽可能小的绝对差异，即，用于最大代码化效率。在一些实现中，编码管理器170将分量布置成连续分量对。

如上所述，在一些实现中，编码管理器170被配置为采用Opus编码。然而，其他类型的编码也是可能的。例如，在一些实现中，编码管理器170被配置为采用MP3或AAC编码。

在改进技术的示例实现中，令s(t)＝[s₁(t)，s₂(t)，...，s_N(t)]表示在时间t包含阶数为K的环绕声信号的N维行向量。环绕声通路的数目由下面的关系给出

N＝(K+1)²

首先使用N×M矩阵E将环绕声信号s(t)投影到偶数编号组的M个通路中，使得

x(t)＝s(t)B，

其中，x(t)是M维行向量。在一些实现中，矩阵E是解码矩阵D的伪逆，其元素是在扬声器位置处评估的球谐。然后，向量x(t)中的连续信号对形成M/2个单独的流y_i(t)，使得

y₁(t)＝[x₁(t)，x₂(t)]，

…

y_M/2(t)＝[x_M-1(t)，x_M(t)]。

然后使用比特率η(t)将每个y_i(t)编码为具有Opus的耦合立体声流，并且总比特率是

解码器输出M/2个二维向量它们被连接成一个N维行向量通过与N×M解码投影矩阵D相乘来获得最终解码的环绕声信号

在一些实现中，解码器输出立体声和单通路流的混合。

注意，解码器需要知道矩阵D。这可以是编码器和解码器侧都知道的常数矩阵。如果可以针对要压缩的特定环绕声信号优化矩阵并且将矩阵作为边信息发送，则可以预期更高的压缩效率。

例如，三阶环绕声(TOA)信号包含N＝16个通路。对于这种设置，使用对应于使用虚拟放置的扬声器的所谓的环绕声编码/解码的投影方法已经实现了良好的代码化结果。在该变换中，解码矩阵包含M个在具有单位半径的球体上放置的声源的球谐系数。

N×M解码投影矩阵D＝{D_i，k}的行i和列k处的系数由下式给出：

其中，是方位角，并且是源i的高程。环绕声信号阶k遵循环绕声信道编号(can)惯例k＝n²+n+m，因此m和n由下式给出：

在处的源球谐度由下式给出

其中，是广义的勒让德函数，并且

是一个标准化项。

在该实现中，M×N编码矩阵E通过关系E＝D⁺与N×M解码矩阵D相关，即，E是解码矩阵D的摩尔-彭若斯伪逆(Moore-Penrose pseudoinverse)。而且，在该实现中，扬声器位置通过距离配对，使得编码矩阵E中的连续列对对应于彼此接近的扬声器。通过这种安排，利用了立体声编码的压缩优点。

在一些实现中，存储器126可为任何类型的存储器，例如随机存取存储器、磁盘驱动器存储器和/或闪存等。在一些实现中，存储器126可实现为与服务器计算装置120的组件相关联的不止一个存储器组件(例如，多于一个的RAM组件或磁盘驱动器存储器)。在一些实现中，存储器126可为数据库存储器。在一些实现中，存储器126可以是或可以包括非本地存储器。例如，存储器126可以是或可以包括由多个设备(未示出)共享的存储器。在一些实现中，存储器126可以与网络内的服务器设备(未示出)相关联，并且被配置为服务于服务器计算设备120的组件。

服务器计算设备120的组件(例如，模块、处理单元124)可以被配置为基于可以包括一种或多种类型的硬件、软件、固件、操作系统和/或运行时库等等的一个或多个平台(例如，一个或多个类似或不同的平台)来运行。

服务器计算设备120的组件可以是或可以包括被配置为处理属性的任何类型的硬件和/或软件。在一些实现中，图1中的服务器计算设备120的组件中示出的组件的一个或多个部分可以是或可以包括：基于硬件的模块(例如，数字信号处理器(DSP)、现场可编程门阵列(FPGA)、存储器)、固件模块和/或基于软件的模块(例如，计算机代码模块、可以在计算机上执行的一组计算机可读指令)。例如，在一些实现中，服务器计算设备120的组件的一个或多个部分可以是或可以包括被配置为由至少一个处理器(未示出)执行的软件模块。在一些实现中，组件的功能可以包括在与图1中所示的那些不同的模块和/或不同的组件中。

虽然未示出，但是在一些实现中，服务器计算设备120的组件(或其部分)可以被配置为在例如数据中心(例如，云计算环境)、计算机系统和/或一个或多个服务器/主机设备等内运行。在一些实现中，服务器计算设备120的组件(或其部分)可以被配置为在网络180内运行。因此，服务器计算设备120的组件(或其部分)可以被配置为在各种类型的可以包括一个或多个设备和/或一个或多个服务器设备的网络环境内运行。例如，网络180可以是或可以包括局域网(LAN)和/或广域网(WAN)等。网络180可以是或可以包括使用例如网关设备、网桥和/或交换机等实现的无线网络和/或无线网络。网络180可以包括一个或多个段和/或可以具有基于诸如因特网协议(IP)和/或专有协议的各种协议的部分。网络可以包括互联网的至少一部分。

在一些实施例中，服务器计算设备120的一个或多个组件可以是或可以包括配置成处理存储在存储器中的指令的处理器。例如，声音获取管理器130(和/或其一部分)、扬声器位置管理器140(和/或其一部分)、解码矩阵管理器150(和/或其一部分)、伪逆管理器160以及编码管理器170(和/或其一部分)可以是处理器和存储器的组合，其被配置为执行与实现一个或多个功能的过程有关的指令。

图2是示出根据改进的技术编码环绕声的示例方法200的流程图。方法200可以由结合图1描述的软件构造来执行，该软件构造驻留在服务器计算设备120的存储器126中并由一组处理单元124运行。

在202处，配置成编码具有指定数目的通路的高阶环绕声(HOA)音频数据的服务器计算机120的控制电路接收指示多个扬声器相对于收听者的位置的扬声器数据。在一些实现中，控制电路可以从根据单位球上的球形填充(即，在单位球上)生成扬声器位置的过程的输出接收这样的扬声器数据(例如，扬声器位置数据142)，例如，使扬声器位置最大化任何一对扬声器位置之间的最小距离。

在204处，控制电路生成表示投影矩阵的投影矩阵数据，投影矩阵基于扬声器数据和指定数目的通路。在一些布置中，控制电路通过形成如上所述的解码矩阵(例如，解码矩阵数据152)并且然后对解码矩阵执行伪逆操作来生成这样的投影矩阵数据(例如，编码矩阵数据162)。

在206处，控制电路接收具有指定数目的通路的HOA音频数据。在一些实现中，HOA音频数据可以经由与存储先前记录的HOA音频数据的介质的直接连接或经由到实时记录HOA音频数据的源的连接来接收。

在208，控制电路对HOA音频数据和投影矩阵数据执行投影操作以产生投影的HOA信号，投影的HOA信号具有多个分量。

在210处，控制电路将投影的HOA信号的分量对以立体声格式排列成耦合流。在一些实现中，控制电路将分量布置成对，其分量具有尽可能小的绝对差异，即，用于最大代码化效率。在一些实现中，控制电路将分量布置成成对的连续分量。在一些实现中，控制电路将每对耦合流编码为Opus编码。

图3是示出根据本文描述的改进技术的用于将Opus编码的立体声音频解码为HOA环绕声的示例Ogg文件格式300的图。这样的文件可以包含关于图1描述的解码矩阵数据162。图3中示出的示例文件格式300假定32位字长，虽然其他字长是可能的(例如，8位、16位、32位、128位、256位等)。

在示例文件格式300中，以下条目存在于传统方法以及改进的技术中。前两个字(64位)是一个8字节的字段，它将文件标识为由Opus编解码器(“OpusHead”)封装的Ogg头，并且是人类可读的。Version(版本)是一个8位无符号数，其表示封装规范版本的版本号。在一些实现中，版本号取值“1”以防止机器依赖该八位字节作为8字节Ogg头的空终止符。通路计数是一个8位无符号数，其表示输出通路的数目。预跳过是一个16位无符号小端，其表示在开始播放时从解码器输出丢弃在48kHz的采样的数目。输入采样率是一个32位无符号小端，其表示编码前以Hz为单位的原始输入的采样率。输出增益是一个16位有符号的小端，其表示解码时应用的增益。

除了上述条目之外，关于本文描述的改进技术，以文件格式300引入以下条目。Stream Count(流计数)是一个8位无符号数，其表示每个Ogg分组中编码的流的总数。耦合计数是一个8位无符号数，其表示其解码器配置为产生两个(立体声)通路的流的数目。对于通路的数目N乘以扬声器的数目M个元素中的每一个，解码矩阵是16位有符号小端，表示如上关于图1所述的解码矩阵元素。

图4示出了通用计算机设备400和通用移动计算机设备450的示例，其可以用于这里描述的技术。

如图4所示，计算设备400旨在表示各种形式的数字计算机，例如膝上型计算机、台式机、工作站、个人数字助理、服务器、刀片服务器、大型机和其他适当的计算机。计算设备450旨在表示各种形式的移动设备，诸如个人数字助理、蜂窝电话、智能电话和其他类似的计算设备。这里示出的组件、它们的连接和关系以及它们的功能仅仅是示例性的，并不意味着限制本文档中描述和/或要求保护的发明的实现。

计算设备400包括处理器402、存储器404、存储设备406、连接到存储器404和高速扩展端口410的高速接口408以及连接到低速总线414和存储设备406的低速接口412。组件402、404、406、408、410和412中的每一个使用各种总线互连，并且可以适当地安装在公共主板上或以其他方式安装。处理器402可以处理用于在计算设备400内执行的指令，包括存储在存储器404或存储设备406上的指令，以在外部输入/输出设备(例如，耦合到高速接口408的显示器416)上显示GUI的图形信息。在其他实现中，可以适当地使用多个处理器和/或多条总线以及多个存储器和多个类型的存储器。而且，可以连接多个计算设备400，每个设备提供必要操作的部分(例如，作为服务器库、一组刀片服务器或多处理器系统)。

存储器404存储计算设备400内的信息。在一个实现中，存储器404是一个或多个易失性存储器单元。在另一实现中，存储器404是非易失性存储器单元。存储器404还可以是另一种形式的计算机可读介质，例如磁盘或光盘。

存储设备406能够为计算设备400提供大容量存储。在一个实现中，存储设备406可以是或包含计算机可读介质，诸如软盘设备、硬盘设备、光盘设备或者磁带设备、闪存或其他类似的固态存储设备或设备阵列，包括存储区域网络中或其他配置的设备。计算机程序产品可以有形地体现在信息载体中。计算机程序产品还可以包含指令，所述指令在被执行时执行一个或多个方法，例如上面描述的那些方法。信息载体是计算机或机器可读介质，诸如存储器404、存储设备406或处理器402上的存储器。

高速控制器408管理计算设备400的带宽密集型操作，而低速控制器412管理较低带宽密集型操作。这种功能分配仅是示例性的。在一个实现中，高速控制器408耦合到存储器404、显示器416(例如，通过图形处理器或加速器)，并耦合到高速扩展端口410，高速扩展端口410可以接受各种扩展卡(未示出)。在该实现中，低速控制器412耦合到存储设备406和低速扩展端口414。可以包括各种通信端口(例如，USB、蓝牙、以太网、无线以太网)的低速扩展端口可以例如通过网络适配器耦合到一个或多个输入/输出设备，例如键盘、指示设备、扫描仪或诸如交换机或路由器的网络设备。

计算设备400可以以多种不同的形式实现，如图中所示。例如，它可以实现为标准服务器420，或者在一组这样的服务器中实现多次。它还可以实现为机架服务器系统424的一部分。此外，它可以在诸如膝上型计算机422的个人计算机中实现。或者，来自计算设备400的组件可以与移动设备(未示出)中的其他组件(诸如设备450)组合。这些设备中的每一个可以包含计算设备400、450中的一个或多个，并且整个系统可以由彼此通信的多个计算设备400、450组成。

计算设备450包括处理器452、存储器464、诸如显示器454的输入/输出设备、通信接口466和收发器468以及其他组件。设备450还可以设置有存储设备，例如微驱动器或其他设备，以提供额外的存储。组件450、452、464、454、466和468中的每一个使用各种总线互连，并且若干组件可以适当地安装在公共主板上或以其他方式安装。

处理器452可以执行计算设备450内的指令，包括存储在存储器464中的指令。处理器可以实现为芯片的芯片组，其包括单独的和多个模拟和数字处理器。例如，处理器可以提供用于设备450的其他组件的协调，诸如用户界面的控制、设备450运行的应用以及设备450的无线通信。

处理器452可以通过控制接口458和耦合到显示器454的显示器接口456与用户通信。显示器454可以是例如TFT LCD(薄膜晶体管液晶显示器)或OLED(有机发光二极管)显示器或其他适当的显示技术。显示器接口456可以包括用于驱动显示器454以向用户呈现图形和其他信息的适当电路。控制接口458可以从用户接收命令并将它们转换以提交给处理器452。此外，可以提供与处理器452通信的外部接口462，以便使得设备450能够与其他设备进行近区域通信。外部接口462可以例如在一些实现中提供有线通信，或者在其他实现中提供无线通信，并且多个接口还可以被使用。

存储器464存储计算设备450内的信息。存储器464可以实现为一个或多个计算机可读介质、一个或多个易失性存储器单元或者一个或多个非易失性存储器单元中的一个或多个。扩展存储器474还可以被提供并通过扩展接口472连接到设备450，扩展接口472可以包括例如SIMM(单列直插存储器模块)卡接口。这样的扩展存储器474可以为设备450提供额外的存储空间，或者还可以存储用于设备450的应用或其他信息。具体地，扩展存储器474可以包括执行或补充上述过程的指令，并且还可以包括安全信息。因此，例如，扩展存储器474可以被提供为设备450的安全模块，并且可以用允许安全使用设备450的指令编程。此外，可以通过SIMM卡提供安全应用程序以及附加信息。例如以不可黑客的方式将识别信息放在SIMM卡上。

存储器可以包括例如闪存和/或NVRAM存储器，如下所述。在一个实现中，计算机程序产品有形地体现在信息载体中。该计算机程序产品包含指令，其在被执行时执行一种或多种方法，例如上述方法。信息载体是计算机或机器可读介质，例如存储器464、扩展存储器474或处理器452上的存储器，其可以例如通过收发器468或外部接口462接收。

设备450可以通过通信接口466无线通信，通信接口466可以在必要时包括数字信号处理电路。通信接口466可以提供各种模式或协议下的通信，例如GSM语音呼叫、SMS、EMS或MMS消息、CDMA、TDMA、PDC、WCDMA、CDMA2000或GPRS等。这种通信可以例如通过射频收发器468发生。此外，可以例如使用蓝牙、WiFi或其他这样的收发器(未示出)发生短程通信。另外，GPS(全球定位系统)接收器模块470可以向设备450提供附加的导航和位置相关的无线数据，其可以由在设备450上运行的应用适当地使用。

设备450还可以使用音频编解码器460可听地通信，音频编解码器460可以从用户接收语音信息并将其转换为可用的数字信息。音频编解码器460同样可以例如通过例如在设备450的手机中的扬声器为用户生成可听声音。这种声音可以包括来自语音电话呼叫的声音，可以包括录制的声音(例如，语音消息、音乐文件等)，并且还可以包括由在设备450上运行的应用生成的声音。

计算设备450可以以多种不同的形式实现，如图中所示。例如，它可以实现为蜂窝电话480。它还可以实现为智能电话482，个人数字助理或其他类似移动设备的一部分。

这里描述的系统和技术的各种实现可以在数字电子电路、集成电路、专门设计的ASIC(专用集成电路)、计算机硬件、固件、软件和/或其组合中实现。这些各种实现可以包括在可编程系统上可执行和/或可解释的一个或多个计算机程序中的实现，该可编程系统包括至少一个可编程处理器，其可以是特殊的或通用的，耦合以从存储系统、至少一个输入设备和至少一个输出设备接收数据和指令，并且向其发送数据和指令。

这些计算机程序(也称为程序、软件、软件应用或代码)包括用于可编程处理器的机器指令，并且可以以高级过程和/或面向对象的编程语言和/或装配/机器语言实现。如本文所使用的，术语“机器可读介质”、“计算机可读介质”是指任何计算机程序产品、装置和/或设备(例如，磁盘、光盘、存储器、可编程逻辑器件(PLD))，用于将机器指令和/或数据提供给可编程处理器，该可编程处理器包括接收机器指令作为机器可读信号的机器可读介质。术语“机器可读信号”是指用于向可编程处理器提供机器指令和/或数据的任何信号。

为了提供与用户的交互，这里描述的系统和技术可以在计算机上实现，该计算机具有：显示设备(例如，CRT(阴极射线管)或LCD(液晶显示器)监视器)，用于向用户显示信息；以及，用户可以通过其向计算机提供输入的键盘和指点设备(例如，鼠标或轨迹球)。其他类型的设备也可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的感觉反馈(例如，视觉反馈、听觉反馈或触觉反馈)；并且可以以任何形式接收来自用户的输入，包括声学、语音或触觉输入。

这里描述的系统和技术可以实现在计算系统中，该计算系统包括(诸如作为数据服务器的)后端组件，或者包括(诸如应用服务器的)中间件组件，或者包括(诸如具有用户可以通过其与本说明书中描述的系统和技术的实现进行交互的图形用户界面或Web浏览器的客户端计算机的)前端组件，或者包括这样的后端、中间件或前端组件的任何组合。系统的组件可以通过任何形式或介质的数字数据通信(例如，通信网络)互连。通信网络的示例包括局域网(“LAN”)、广域网(“WAN”)和因特网。

计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离并且通常通过通信网络进行交互。客户端和服务器之间的关系是通过运行在各个计算机上并且彼此具有客户端-服务器关系的计算机程序产生的。

已经描述了多个实施例。然而，应该理解，在不脱离本发明的精神和范围的情况下可以进行各种修改。

还应当理解，当一个元件被称为在另一个元件上、连接到、电连接到、耦合到或电耦合到另一个元件时，它可以直接在另一个元件上、连接或耦合到另一个元件，或者可能存在一个或多个中间元件。相反，当一个元件被称为直接在另一元件上、直接连接到或直接耦合到另一元件时，不存在中间元件。虽然在整个详细描述中可以不使用术语直接在上、直接连接到或直接耦合到，但是被示出为直接在上、直接连接到或直接耦合到的元件可以被这样称呼。可以修改本申请的权利要求以叙述说明书中描述的或附图中示出的示例性关系。

虽然已经如本文所述示出了所描述的实现的某些特征，但是本领域技术人员现在将想到许多修改、替换、改变和等同物。因此，应该理解，所附权利要求旨在覆盖落入本发明范围内的所有这些修改和变化。应当理解，它们仅作为示例而非限制来呈现，并且可以进行形式和细节上的各种改变。除了互斥组合之外，本文描述的装置和/或方法的任何部分可以以任何组合进行组合。这里描述的实现可以包括所描述的不同实现的功能、组件和/或特征的各种组合和/或子组合。

另外，附图中描绘的逻辑流程不需要所示出的特定顺序或依序来实现期望的结果。另外，从所描述的流程，可以提供其他步骤，或者可以消除步骤，并且可以将其他组件添加到所描述的系统或从所描述的系统移除。因此，其他实施例在所附权利要求的范围内。

在另一示例中，执行环绕声代码化的技术涉及使用基于单位球上的一组扬声器的位置的投影矩阵来耦合高阶环绕声(HOA)信号的通路以形成投影的HOA信号，其中，然后可以将投影的HOA信号的每对分量编码成立体声格式，并且其中，在一些布置中，投影矩阵可以基于解码或分离矩阵，该矩阵继而基于在指定扬声器位置处评估的球谐。以这种方式，与执行环绕声代码化的传统方法相比，编码效率(例如，给定声音质量的比特率)得到改善。

Claims

1.一种方法，包括：

通过服务器计算设备的处理电路接收扬声器数据，所述服务器计算设备的所述处理电路被配置为对具有指定数目的通路的高阶环绕声HOA音频数据进行编码，所述扬声器数据指示多个扬声器相对于收听者的位置；

通过所述处理电路生成表示投影矩阵的投影矩阵数据，所述投影矩阵是基于所述扬声器数据和所述指定数目的通路；

通过所述处理电路接收具有所述指定数目的通路的HOA音频数据；

通过所述处理电路对所述HOA音频数据和所述投影矩阵数据执行投影操作以产生投影的HOA信号，所述投影的HOA信号具有多个分量；以及

通过所述处理电路将所述投影的HOA信号的分量对安排成立体声格式的耦合流。

2.根据权利要求1所述的方法，其中，基于所述扬声器数据和所述指定数目的通路生成所述投影矩阵数据包括：

形成表示解码矩阵的解码矩阵数据，通过所述解码矩阵，立体声格式的多个耦合流被解码以产生所述HOA音频数据；以及

对所述解码矩阵数据执行伪逆操作，以产生所述解码矩阵的摩尔-彭若斯伪逆作为所述投影矩阵。

3.根据权利要求2所述的方法，其中，形成表示所述解码矩阵的所述解码矩阵数据包括：对于所述解码矩阵的每个元素：

根据由所述解码矩阵的行所指示的所述多个扬声器的所述扬声器的位置，生成在单位球上的点处评估的球谐函数，所述球谐函数具有由所述解码矩阵的列指示的阶。

4.根据权利要求2所述的方法，还包括：

通过网络将所述耦合流和所述解码矩阵数据发送到用户设备，所述用户设备被配置为根据所述耦合流和所述解码矩阵生成所述HOA音频数据。

5.根据权利要求1所述的方法，其中，所述多个扬声器的数目大于或等于通路的所述指定数目。

6.根据权利要求1所述的方法，其中，所述多个扬声器的所述位置根据所述单位球上的球形填充来分布。

7.根据权利要求1所述的方法，其中，将所述投影的HOA信号的所述分量对排列成立体声格式的所述耦合流包括：将所述投影的HOA信号的连续分量的对形成为分量对。

8.一种包括非传递存储介质的计算机程序产品，所述计算机程序产品包括代码，所述代码在由服务器计算设备的处理电路执行时使得所述处理电路执行方法，所述服务器计算设备的处理电路被配置为对具有指定数目的通路的高阶环绕声HOA音频数据进行编码，所述方法包括：

接收指示多个扬声器相对于收听者的位置的扬声器数据；

生成表示投影矩阵的投影矩阵数据，所述投影矩阵是基于所述扬声器数据和所述指定数目的通路；

接收具有所述指定数目的通路的HOA音频数据；

对所述HOA音频数据和所述投影矩阵数据执行投影操作以产生投影的HOA信号，所述投影的HOA信号具有多个分量；以及

将所述投影的HOA信号的分量对排列成立体声格式的耦合流。

9.根据权利要求8所述的计算机程序产品，其中，基于所述扬声器数据和所述指定数目的通路生成所述投影矩阵数据包括：

10.根据权利要求9所述的计算机程序产品，其中，形成表示所述解码矩阵的所述解码矩阵数据包括：对于所述解码矩阵的每个元素：

11.根据权利要求9所述的计算机程序产品，其中，所述方法还包括：

12.根据权利要求8所述的计算机程序产品，其中，所述多个扬声器的数目大于或等于通路的所述指定数目。

13.根据权利要求8所述的计算机程序产品，其中，所述多个扬声器的所述位置根据所述单位球上的球形填充来分布。

14.根据权利要求8所述的计算机程序产品，其中，将所述投影的HOA信号的所述分量对排列成立体声格式的所述耦合流包括：将所述投影的HOA信号的连续分量的对形成为分量对。

15.一种被配置为对具有指定数目的通路的高阶环绕声HOA音频数据进行编码的电子装置，所述电子装置包括：

存储器；以及

耦合到所述存储器的控制电路，所述控制电路被配置为：

接收指示多个扬声器相对于收听者的位置的扬声器数据；

接收具有所述指定数目的通路的HOA音频数据；

将所述投影的HOA信号的分量对排列成立体声格式的耦合流。

16.根据权利要求15所述的电子装置，其中，被配置为基于所述扬声器数据和所述指定数目的通路生成所述投影矩阵数据的所述控制电路还被配置为：

17.根据权利要求16所述的电子装置，其中，被配置为形成表示所述解码矩阵的所述解码矩阵数据的所述控制电路还被配置为，对于所述解码矩阵的每个元素：

18.根据权利要求16所述的电子装置，其中，所述控制电路还被配置为：

19.根据权利要求15所述的电子装置，其中，所述多个扬声器的所述位置根据所述单位球上的球形填充来分布。

20.根据权利要求15所述的电子装置，其中，被配置为将所述投影的HOA信号的所述分量对排列成立体声格式的所述耦合流的所述控制电路还被配置为：将所述投影的HOA信号的连续分量的对形成为分量对。