CN111903144A

CN111903144A - 环境立体声空间音频的客观质量度量

Info

Publication number: CN111903144A
Application number: CN201980021791.7A
Authority: CN
Inventors: 安德鲁·海因斯; 简·斯科格隆; 安德鲁·艾伦; 米罗斯瓦夫·那巴特
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2018-05-07
Filing date: 2019-05-06
Publication date: 2020-11-06
Anticipated expiration: 2039-05-06
Also published as: CN111903144B; WO2019217302A1; US20190341060A1; US10672405B2; EP3750332A1

Abstract

一种计算设备包括处理器和存储器。处理器被配置成例如使用短时傅里叶变换为参考环境立体声信号和测试环境立体声信号的多个信道生成频谱图。在一些实施方式中，可以通过解码参考环境立体声信号的编码版本来生成测试环境立体声信号。处理器还被配置成针对参考环境立体声信号的多个信道中的每个信道，将与参考环境立体声信号的信道相关联的至少一个贴片与测试环境立体声信号的对应信道的至少一个对应贴片进行比较，并且基于该比较而确定测试环境立体声信号的定位精度。在一些实施方式中，该比较可以基于参考环境立体声信号和测试环境立体声信号的相位图。

Description

环境立体声空间音频的客观质量度量

相关申请的交叉引用

本申请是2018年5月7日提交的美国申请No.15/973,287的继续申请并且要求其优先权，所述美国申请的公开内容以全文引用的方式并入本文中。

技术领域

本公开总体上涉及空间音频的流送，并且具体地，涉及环境立体声空间音频的流送。

背景技术

通过网络流送空间音频需要有效的编码技术压缩原始音频内容，而又不影响用户体验质量(QoE)。然而，目前尚没有用于测量用户的感知质量和空间定位精度的客观质量度量。

发明内容

在一个方面，计算设备包括处理器和存储器。处理器被配置成例如使用短时傅立叶变换为参考环境立体声(ambisonic)信号和测试环境立体声信号的多个信道生成频谱图。环境立体声是一种全球面环绕声格式，该格式除了涵盖水平平面外，还涵盖了收听者上方和下方的声源。在一些实施方式中，可以通过解码参考环境立体声信号的编码版本来生成测试环境立体声信号。处理器还被配置成针对参考环境立体声信号的多个信道中的每个信道，将与参考环境立体声信号的信道相关联的至少一个贴片(patch)与测试环境立体声信号的对应信道的至少一个对应贴片进行比较，并且基于该比较而确定测试环境立体声信号的定位精度。在一些实施方式中，该比较可以基于参考环境立体声信号和测试环境立体声信号的相位图。

附图说明

通过下面在此给出的详细描述和附图，示例实施方式将变得更加充分地理解，其中，相似的元件由相似的附图标记表示，其仅以图示的方式给出，并且因此不限制示例实施方式并且其中：

图1图示根据至少一个示例性实施方式的三阶环境立体声流的球形谐波。

图2图示根据至少一个示例性实施方式的用于确定环境立体声空间音频的客观质量度量的流程图。

图3图示根据至少一个示例性实施方式的用于确定环境立体声空间音频的收听质量和定位精度的方法的流程图。

图4图示根据至少另一示例性实施方式的用于确定环境立体声空间音频的收听质量和定位精度的方法的流程图。

图5示出根据至少一个示例实施方式的可以与在此描述的技术一起使用的计算机设备和移动计算机设备的示例。

应该注意的是，这些图旨在图示在某些示例实施方式中利用的方法、结构或材料的一般特性，并且旨在补充在下面提供的撰写描述。然而，这些附图不是按比例的并且可能不精确地反映任何给定实施方式的精确结构或性能特性，并且不应该被解释为限定或者限制由示例实施方式所包含的值或属性的范围。在各个附图中使用类似或相同的附图标记旨在指示存在类似或相同的元件或特征。

具体实施方式

语音质量的感知评估(PESQ)和感知客观收听质量评定(POLQA)是国际电信联盟(ITU)标准中描述的全参考量度，以通过将参考信号与接收到的(或降级)信号进行比较来预测语音质量。神经图相似度指数量度(NSIM)是结构相似度指数量度(SSIM)的简化版本，用于语音信号与各因素(例如，亮度、结构等)的比较，这些因素对研究强度(亮度)、给定像素以及其周围像素与参考图像之间的互相关性(结构)的相似度量度提供加权调整。可以利用强度、对比度和结构的加权函数来定义两个频谱图(例如，参考频谱图和降级频谱图)之间的NSIM。在一些实施方式中，出于神经图比较以进行语音清晰度评估的目的，最佳窗口大小可以是覆盖三个频带的3×3像素正方形和12.8ms的时间窗口。

虚拟语音质量客观监听算法(ViSQOL)是基于信号的全参考侵入式度量，它使用参考信号与测试信号之间的相似度的光谱时间量度来对人类语音质量感知进行建模。ViSQOL还可以与互联网协议通话(VoIP)传输(例如，流送音频)配合使用，由于VoIP的性质，这种传输可能会遇到质量问题。在预测VoIP传输或流送音频中的语音质量时，ViSQOL为其他度量(例如，POLQA)提供了有用替代方案。

ViSQOLAudio(V)是用于测量音频质量的全参考客观度量。它基于使用一种相似度量度NSIM，该相似度量度使用基于频谱图的比较通过对准和评估跨时间和频带的相似度来比较信号的相似度。ViSQOLAudio使用32波段Gammatone滤波器组(例如，50Hz到20KHz)来计算参考频谱图和测试频谱图的量级，以比较它们的相似度。ViSQOLAudio还可以利用时间对准对测试信号进行预处理，并执行电平调整以匹配参考信号的时序特性和功率特性。在预处理之后，可以将信号与NSIM相似度度量进行比较。ViSQOL是人类对语音质量降级的敏感性模型。它将参考信号与降级信号进行比较。输出是普通人所感知的语音质量预测。此外，ViSQOL和ViSQOL音频包含将原始NSIM相似度分值(例如，0到1数值范围)映射到人类感知数值范围平均意见分值(MOS)的子系统。

使用高阶环境立体声(HOA)在有限带宽网络上递送用于流送服务的空间音频已推动了各种压缩(例如，编码)技术的发展。这就需要质量评定方法论来使用压缩环境立体声测量空间音频的感知体验质量(QoE)。然而，与用于语音或常规音频质量评定的现有度量不同，对空间音频的QoE的评定不仅必须考虑音频保真度降级的影响，还必须考虑压缩是否改变了声源起源的感知定位。

本公开提供一种客观音频质量度量，该客观音频质量度量评定压缩的B格式环境立体声信号的收听质量(LQ)和/或定位精度(LA)。例如，在一个实施方式中，本公开描述了一种客观度量，称为AMBIQUAL，其通过评估音频信号的收听质量和/或定位精度来预测用户的体验质量(QoE)。可以使用环境立体声来确定(例如，计算)客观度量，环境立体声可以模拟听觉提示在虚拟3D空间中的布置，以允许人能够确定检测到的声音的虚拟起源。本公开提出了一种消除了执行昂贵且耗时的大规模收听测试的需要的机制。在一些实施方式中，提出的机制描述了一种客观音频质量度量，该度量在不涉及人类收听者的情况下评定压缩的B格式环境立体声信号的LQ和/或LA。客观音频质量度量可以用于音频处理方法的开发，例如用于诸如web浏览器、虚拟现实(VR)/增强现实(AR)、流送视频服务和/或空间媒体的生产质量控制等应用。在一些实施方式中，提出的机制提供了改进的编码(和解码)方案以压缩(解压缩)环境立体声信号。在一些实施方式中，客观音频质量度量可以用于基于确定的LA值而确定编码机制是否最优。

环境立体声是一种全球面音频环绕技术，其可以基于将3D声场分解为若干球形谐波信号。与具有固定扬声器布局(例如，立体声、环绕声5.1、环绕声7.1等)的基于信道的方法相比，环境立体声包含3D声场的独立于扬声器的表示，称为B格式，可以将其解码为任何扬声器布局。B格式在增强现实(AR)和虚拟现实(VR)应用中可能特别有用，因为该格式提供了良好的音频信号操纵可能性(例如，根据头部移动实时渲染音频)。可以将完整的空间音频信息编码成包含若干球形谐波信号的环境立体声流，并缩放到任何期望的空间次序。

AMBIQUAL模型建立在ViSQOLAudio算法的改编之上。AMBIQUAL模型通过直接从B格式环境立体声音频流中计算信号相似度来预测感知的质量和空间定位精度。与ViSQOLAudio一样，AMBIQUAL模型得出参考音频信号与测试音频信号之间相似度的频谱时间量度。与评估双耳渲染信号的其他现有方法不同，AMBIQUAL直接从B格式环境立体声音频信道中得出了收听质量和定位精度度量。AMBIQUAL模型预测有关未聚焦在特定收听方向或用于渲染双耳信号的给定头部相关传递函数(HRTF)上的空间音频信号的复合QoE。

例如，在一些实施方式中，计算设备可以生成参考信号和测试信号的每个信道的频谱图。参考信号和测试信号可以是高阶环境立体声(例如三阶)，并且计算设备可以从频谱图中的每个创建(或生成)贴片。例如，计算设备可以为参考信号和测试信号的每个信道创建一个或多个贴片。贴片可以是整个信号的短持续时间，例如0.5秒的持续时间，并且可以定义为参考信号或测试信号的一部分。一旦创建了贴片，计算设备就可以将参考信号的贴片与测试信号的对应贴片(例如，对应信道的、具有最接近的匹配的贴片)进行比较。可以使用NSIM基于比较频谱图、相位图或其组合而执行比较，以生成总相似度分值。在一个实施方式中，例如，计算设备可以基于与全向信道(例如，信道0)相关联的总分值而确定收听质量。在另一实施方式中，例如，计算设备可以基于对应的多方向信道(例如，信道1到信道15)之间的相似度分值的加权和而确定定位精度。

图1示出了三阶环境立体声流的球形谐波100。通过增加环境立体声信道数量(ACN)并进行对准以实现对称来对图1中示出的球形谐波进行排序。以下表I中定义了可以提供环境立体声信号中的每个的直接相关振幅的相关球形谐波函数。

例如，如图1中所示，一阶环境立体声(1OA)音频120可以被编码成四个球形谐波信号：阶数0(110)的全向分量和阶数1(120)的三个定向分量，即X(前/后)、Y(左/右)和Z(上/下)。二阶环境立体声(2OA)音频130可以被编码成阶数0(110)的全向分量、阶数1(120)的三个定向分量和阶数2(130)的五个定向分量。三阶环境立体声(3OA)音频140可以被编码成阶数0(110)的全向分量，阶数1(120)的三个定向分量，阶数2(130)的五个定向分量和阶数3(140)的七个定向分量。当环境立体声流(或信号)包含阶数0到阶数n的所有信号时，所述环境立体声流据称为n阶。此外，对应的定向球形谐波表示更复杂的极性图案，当环境立体声阶数增加时允许更精确的源定位。使用高阶环境立体声(HOA)可以提高收听质量和定位精度(例如，更具定向性的球形谐波)。然而，可能需要更大量的处理资源才能将环境立体声多信道流变换成渲染的音景。因此，在网络上流送环境立体声(例如，环境立体声数据)需要有效的编码技术以实时压缩原始音频内容，而又不会显著损害QoE。

在一个实施方式中，环境立体声的全向或多维分量可以用ACN指代，即可以包括(阶数0到阶数3的)16个信道的三阶环境立体声，如以下表I中所示。另外，在一个示例性实施方式中，表I具有用于将振幅表示为方位角(a)和仰角(e)的函数的环境立体声的公式。

图2示出了根据至少一个示例性实施方式的用于确定环境立体声空间音频的客观质量度量的流程图200。

在一些实施方式中，参考信号202和测试信号204可以是用于实行流程图200的过程的计算设备(例如，图5的计算设备500)的输入。参考信号202和测试信号204例如可以是B格式环境立体声信号，在一个示例中，它们的持续时间可以是10秒到20秒。在一个实施方式中，例如，参考信号202和测试信号204可以是3OA信号。可以从参考信号202的编码(或压缩)版本中提取(例如，解码)测试信号204，以使得可以通过考虑信号降级以及由于解码/编码过程而引起的对声源起源的感知定位的任何改变来确定QoE。

在一个示例性实施方式中，参考信号202(例如，参考环境立体声音频源)可以被渲染到可以均匀地分布在球面的四分之一上的22个固定的定位。测试信号204(例如，测试环境立体声音频信号)可以渲染在可以均匀地分布在整个球面上(例如，以30个水平步长和垂直步长)的206个固定的定位。

在框212处，计算设备可以创建参考信号202的每个信道的频谱图(可以称为参考频谱图或参考相位图)。例如，可以创建参考信号202的16个频谱图，参考信号202的每个信道一个频谱图。在框214处，计算设备可以创建测试信号204的每个信道的频谱图(可以称为测试频谱图或测试相位图)。例如，可以创建16个频谱图，测试信号204的每个信道一个频谱图。

在一些实施方式中，测试信号202和参考信号204的频谱图可以使用它们相应的环境立体声信道的短时傅立叶变换(STFT)来创建。举例来说，可以将具有1536点汉明窗(例如，50％重叠)的STFT应用于参考信号202和测试信号204的信道以生成频谱图。在一个实施方式中，例如，生成的频谱图可以是相位图(也称为相位频谱图)。在相位图中，可以对STFT的相位值进行处理和图形呈现，以使得分量的相位的时频分布可以提供关于参考点周围的相位调制的信息，以确定该分量的参考相位和参考频率。举例来说，STFT可以为每个时间/频率创建实数和虚数的频谱图，可以从中提取任何给定时间的每个频率的相位。在另一实施方式中，可以基于强度或相位角和强度的组合而生成频谱图。

举例来说，频谱图z可以是使用输入信号的使用1536点汉明窗(例如50％重叠)的短时傅立叶变换计算得出的矩阵。矩阵可以包含实分量和虚分量，并且相位图是频谱图的对应相位角矩阵，其可以使用以下等式从频谱图计算得出，

角度(z)＝虚(log(z))＝atan2(虚(z)，实(z))，

其中atan2是四象限逆切线。例如，atan2(Y、X)可以基于Y的值和X的值而返回在闭区间[-pi、pi]中的值，如以下图形中所示：

在框222处，计算设备可以将在框212处生成的参考频谱图分割成贴片(可以称为参考贴片)。也就是说，可以根据相应的参考频谱图为参考信号202的每个信道创建一个或多个参考贴片。在一些实施方式中，计算设备可以从参考频谱图中的每个创建(或生成)一个或多个贴片。可以从参考信号202的一部分(例如，0.5秒长)生成参考贴片，并且可以使用STFT创建参考贴片。在一个实施方式中，例如，参考贴片可以是30×32矩阵(例如，32个频带×30个时间帧)。可以使用参考贴片与从测试信号204生成的对应贴片进行比较，以计算相似度分值从而确定听音质量和/或定位精度。

在框224处，计算设备可以将在框214处生成的测试频谱图分割成贴片(可以称为测试贴片)。也就是说，可以根据相应的参考频谱图为测试信号204的每个信道创建一个或多个测试贴片。在一些实施方式中，计算设备可以从测试频谱图中的每个创建(或生成)一个或多个贴片。与参考贴片类似，测试贴片可以是例如0.5秒长，并且可以使用STFT创建。在一个实施方式中，例如，测试贴片可以是30×32矩阵(例如，32个频带×30个时间帧)。可以用测试贴片与对应参考贴片进行比较，以计算相似度分值从而确定听音质量和/或定位精度。

在一些实施方式中，在框223处，可以使测试贴片和参考贴片彼此对准。可以在比较参考贴片和测试贴片之前执行对准(例如时间对准)，以确保将参考贴片与最类似的对应测试贴片进行比较。换句话说，可以执行对准以在比较之前对贴片进行时间对准。

在框230处，计算设备可以将参考贴片与测试贴片进行比较。在一些实施方式中，可以使用NSIM来执行比较，NSIM在框240处可以比较跨所有频带的贴片并计算总相似度分值。如上所述，NSIM是用于比较参考贴片和测试贴片的频谱图以计算相似度分值的相似度量度。例如，在一个实施方式中，比较可以基于相位角，并且NSIM可以比较(与参考贴片和测试贴片相关联的)30×32矩阵中的点中的每个的相位，并计算平均值以生成NSIM值。

在一些实施方式中，在242处，可以基于信道0(例如，k＝0)的一个或多个贴片的比较而基于信道0的总分值来确定收听质量。也就是说，可以基于信道0、全向信道110的总相似度分值而确定收听质量。认为全向信道110包含定向信道的复合，并且可以认为全向信道110的内容是收听质量的良好(例如，代表性)指标(例如，由于编码伪像并且没有定位差异)。在一个实施方式中，例如，可以通过将ViSQOLAudio算法应用于参考信号202(r)和测试信号204(t)的信道0(例如，k＝0)的相位图来计算收听质量(LQ)，如以下等式中所示，

LQ＝V(r₀,t₀)，

其中LQ是收听质量，V是ViSQOLAudio算法，r₀是信道0的参考相位图，而t₀是信道0的测试相位图。

例如，可以使用ViSQOLAudio模型(如上所述)来计算LQ，该模型使用信道0的贴片的NSIM测量相似度分值。

在一些实施方式中，LQ分值可以具有在0与1之间的值，其中值1是完美匹配。也就是说，测试贴片与对应的参考贴片完美匹配。

在一些实施方式中，在244处，可以基于信道1到信道K(例如，对于3OA的信道1到信道15)的总相似度分值而确定定位精度(LA)。也就是说，计算了信道1到信道15的相似度分数，并合计以确定总相似度分值。然而，在一个实施方式中，例如，可以将LA确定为参考信道与测试信道之间的相似度的加权和。也就是说，可以将不同的权重指派给信道1到信道15的各种定向分量。

举例来说，可以将信道(例如，1到15)分组为仅垂直信道和混合方向信道。对于3OA，信道2、信道6和信道12是仅垂直信道。对于高阶环境立体声，可以如下所示确定仅垂直信道：

k_vertical(n)＝n(n+1)。

可以将LA计算为参考贴片r与测试贴片t之间的相似度的加权和，如以下等式中所示，

其中LA是收听质量，V是ViSQOLAudio算法，而alpha(α)是控制垂直分量与水平分量之间的权衡的参数。在以上等式中，在第一求和中，r_k是垂直分量信道k的参考相位图，而t_k是垂直分量信道k的测试相位图。在以上等式中，在第二求和中，r_k是混合分量信道k的参考相位图，而t_k是混合分量信道k的测试相位图。

例如，可以使用ViSQOLAudio模型(如上所述)来计算LA，该模型测量例如三阶环境立体声的信道1到信道15的NSIM相似度分值。在一些实施方式中，alpha(α)的值可以控制垂直分量与水平分量的重要性之间的权衡(例如，控制偏差)。也就是说，α的值越高，可以(相对于水平信道相似度)越更多强调垂直信道相似度。因此，如上所述，可以通过分别计算环境立体声空间音频的信道0以及信道1到信道15的总相似度分值来确定环境立体声空间音频的收听质量和/或定位精度。在一些其他实施方式中，alpha的值可取决于信道。换句话说，不同的信道可以具有不同的alpha值，以在每个信道的基础上控制垂直分量与水平分量的重要性之间的权衡，和/或alpha的值可以根据环境立体声阶数改变。

图3示出了根据至少一个示例性实施方式的确定环境立体声空间音频的体验质量(QoE)的方法的流程图300。

在框310处，计算设备可以将与参考环境立体声信号的信道相关联的至少一个贴片与测试环境立体声信号的对应信道的至少一个对应贴片进行比较。可以针对参考环境立体声信号和测试环境立体声信号的多个信道中的每个来执行比较。在一些实施方式中，可以通过解码参考环境立体声信号的编码版本来生成测试环境立体声信号，并且该比较可以基于参考环境立体声信号和测试环境立体声信号的相位图。例如，计算设备可以将与参考信号202的每个信道相关联的至少一个贴片与测试信号204的至少对应贴片进行比较。举例来说，计算设备可以将参考信号202的信道0的贴片1与测试信号204的信道0的贴片1进行比较。在另一实例中，计算设备可以将参考信号202的信道1的贴片1与测试信号204的信道1的贴片1进行比较，依此类推。

在框320处，计算设备可以基于比较而确定测试环境立体声信号的定位精度。可以使用NSIM来执行比较，如上面参考图2所述，以生成相似度分值。例如，在一个实施方式中，计算设备可以基于总分值而确定收听质量，该总分值基于对参考信号和测试信号的全向分量(或信道)的比较。在一个或多个实施方式中，例如，计算设备可以基于测试信号和参考信号的对应多定向信道(例如，信道1到信道15)之间的相似度分值的加权和而确定定位精度。因此，确定了环境立体声空间音频的收听质量和/或定位精度。

图4示出了根据至少另一示例性实施方式的确定环境立体声空间音频的体验质量(QoE)的方法的流程图400。

在框410处，计算设备可以生成参考环境立体声信号和测试环境立体声信号的多个信道的频谱图。在一些实施方式中，计算设备可以生成参考环境立体声信号202和测试环境立体声信号204的多个信道的频谱图，如上面参考图2所述。可以使用STFT创建频谱图。

在框420处，在比较之前，计算设备可以将与参考环境立体声信号的信道相关联的贴片与测试环境立体声信号的对应信道的对应贴片对准。在一些实施方式中，计算设备可以在比较之前使对应贴片彼此对准，以使得具有最佳匹配的贴片将相互比较。

在框430处，操作类似于图3的框310处的操作。

在框440处，操作类似于图3的框320处的操作。

因此，确定了环境立体声空间音频的收听质量和/或定位精度。

图5示出可以与这里描述的技术一起使用的计算机设备500和移动计算机设备550的示例。计算设备500旨在表示各种形式的数字计算机，诸如膝上型电脑、台式机、工作站、个人数字助理、服务器、刀片服务器、大型机和其他适当的计算机。计算设备550旨在表示各种形式的移动设备，诸如个人数字助理、蜂窝电话、智能电话和其他类似的计算设备。这里示出的组件、其连接和关系及其功能仅意在为示例性的，而不意在限制本文档中描述和/或要求保护的发明的实施方式。

计算设备500包括处理器502、存储器504、存储设备506、连接到存储器504和高速扩展端口510的高速接口508、以及连接到低速总线514和存储设备506的低速接口512。组件502、504、506、508、510和512中的每一个均使用各种总线来互连，并且可以被安装在公共主板上或者酌情以其他方式安装。处理器502可处理用于在计算设备500内执行的指令，包括存储在存储器504中或者在存储设备506上以在诸如耦合到高速接口508的显示器516的外部输入或者输出设备上显示用于GUI的图形信息的指令。在其他实施方式中，可以酌情连同多个存储器和多种类型的存储器一起使用多个处理器和/或多个总线。另外，可以连接多个计算设备500，其中每个设备提供必要操作的部分(例如，作为服务器组、一组刀片服务器或多处理器系统)。

存储器504存储计算设备500内的信息。在一个实施方式中，存储器504是一个或多个易失性存储器单元。在另一实施方式中，存储器504是一个或多个非易失性存储器单元。存储器504还可以是另一形式的计算机可读介质，诸如磁盘或光盘。

存储设备506能够为计算设备500提供大容量存储。在一个实施方式中，存储设备506可以是或者包含计算机可读介质，诸如软盘设备、硬盘设备、光盘设备或磁带设备、闪速存储器或其他类似的固态存储设备或设备的阵列，包括存储区域网络或其他配置中的设备。计算机程序产品可被有形地具体实现在信息载体中。计算机程序产品还可以包含指令，该指令当被执行时执行一个或多个方法，诸如上面描述的那些方法。信息载体是计算机可读介质或机器可读介质，诸如存储器504、存储设备506、或处理器502上的存储器。

高速控制器508管理计算设备500的带宽密集运算，而低速控制器512管理较低带宽密集运算。功能的这种分配仅是示例性的。在一个实施方式中，高速控制器508耦合到存储器504、显示器516(例如，通过图形处理器或加速器)，并且耦合到高速扩展端口510，该高速扩展端口510可以接受各种扩展卡(未示出)。在该实施方式中，低速控制器512耦合到存储设备506和低速扩展端口514。可以包括各种通信端口(例如，USB、蓝牙、以太网、无线以太网)的低速扩展端口可以例如通过网络适配器耦合到一个或多个输入或者输出设备，诸如键盘、指点设备、扫描仪、或诸如交换机或路由器的联网设备。

如图中所示，可以以许多不同的形式实现计算设备500。例如，它可以作为标准服务器520被实现，或者被多次实现在一组此类服务器中。它还可以作为机架服务器系统524的一部分被实现。此外，它可以被实现在诸如膝上型计算机522的个人计算机中。可替选地，来自计算设备500的组件可以与诸如设备550的移动设备(未示出)中的其他组件组合。此类设备中的每一个均可以包含计算设备500、550中的一个或多个，并且整个系统可以由彼此通信的多个计算设备500、550组成。

计算设备550包括处理器552、存储器564、诸如显示器554的输入或者输出设备、通信接口566、和收发器568以及其他组件。设备550还可以被提供有存储设备，诸如微驱动器或其他设备，以提供附加存储。组件550、552、564、554、566和568中的每一个均使用各种总线来互连，并且若干组件可以被安装在公共主板上或者酌情以其他方式安装。

处理器552可执行计算设备550内的指令，包括存储在存储器564中的指令。处理器可以作为芯片的芯片组被实现，该芯片包括单独的和多个模拟和数字处理器。处理器可以例如提供用于设备550的其他组件的协调，诸如对用户界面、由设备550运行的应用和由设备550进行的无线通信的控制。

处理器552可以通过耦合到显示器554的控制接口558和显示接口556来与用户进行通信。显示器554可以是例如TFT LCD(薄膜晶体管液晶显示器)或OLED(有机发光二极管)显示器或其他适当的显示技术。显示接口556可以包括用于驱动显示器554以向用户呈现图形和其他信息的适当的电路。控制接口558可以从用户接收命令并且对它们进行转换以便提交给处理器552。此外，可以提供与处理器552通信的外部接口562，以使得能实现设备550与其他设备的近区域通信。外部接口562可以在一些实施方式中例如提供用于有线通信，或者在其他实施方式中用于无线通信，并且还可以使用多个接口。

存储器564存储计算设备550内的信息。存储器564可作为一个或多个计算机可读介质、一个或多个易失性存储器单元、或者一个或多个非易失性存储器单元中的一种或多种而被实现。还可以提供扩展存储器674并且通过扩展接口572将它连接到设备550，扩展接口572可以包括例如SIMM(单列直插存储器模块)卡接口。这种扩展存储器574可以为设备550提供附加的存储空间，或者还可以为设备550存储应用或其他信息。具体地，扩展存储器574可以包括用于执行或者补充上述过程的指令，并且还可以包括安全信息。因此，例如，扩展存储器574可以作为用于设备550的安全模块被提供，并且可以被编程有允许安全使用设备550的指令。此外，可以经由SIMM卡提供安全应用以及附加信息，诸如以不可破解的方式将识别信息放置在SIMM卡上。

存储器可以包括例如闪速存储器和/或NVRAM存储器，如在下面所讨论的。在一个实施方式中，计算机程序产品被有形地具体实现在信息载体中。计算机程序产品包含指令，该指令当被执行时执行一个或多个方法，诸如上述的那些方法。信息载体是可以例如通过收发器568或外部接口562接收的计算机或机器可读介质，诸如存储器564、扩展存储器574、或处理器552上的存储器。

设备550可以通过通信接口566以无线方式通信，该通信接口566必要时可以包括数字信号处理电路。通信接口566可以提供用于各种模式或协议下的通信，各种模式或协议诸如GSM语音呼叫、SMS、EMS或MMS消息传送、CDMA、TDMA、PDC、WCDMA、CDMA2000或GPRS等。这种通信可以例如通过射频收发器568而发生。此外，可以发生短距离通信，诸如使用蓝牙、WiFi或其他这种收发器(未示出)。此外，GPS(全球定位系统)接收器模块570可以向设备550提供附加的导航和位置相关无线数据，其可以酌情由在设备550上运行的应用使用。

设备550还可以使用音频编解码器560可听地通信，该音频编解码器560可以从用户接收口语信息并且将它转换为可用的数字信息。音频编解码器560可以同样地诸如通过扬声器为用户生成可听声音——例如，在设备550的头戴式耳机中。这种声音可以包括来自语音电话呼叫的声音，可以包括记录的声音(例如，语音消息、音乐文件等)并且还可以包括由在设备582上操作的应用所生成的声音。

如图中所示，可以以许多不同的形式实现计算设备550。例如，它可以作为蜂窝电话580被实现。它还可以作为智能电话582、个人数字助理或其他类似的移动设备的一部分被实现。

这里描述的系统和技术的各种实施方式可用数字电子电路、集成电路、专门地设计的ASIC(专用集成电路)、计算机硬件、固件、软件、和/或其组合加以实现。这些各种实施方式可包括在可编程系统上可执行和/或可解释的一个或多个计算机程序中的实施方式，该可编程系统包括至少一个可编程处理器，其可以是专用的或通用的，耦合以从存储系统、至少一个输入设备和至少一个输出设备接收数据和指令，并且以向存储系统、至少一个输入设备和至少一个输出设备发送数据和指令。这里描述的系统和技术的各种实施方式可作为可组合软件和硬件方面的电路、模块、块或系统被实现和/或一般地在本文中被称为可组合软件和硬件方面的电路、模块、块或系统。例如，模块可以包括在处理器(例如，形成在硅基底、GaAs基底等上的处理器)或某个其他可编程数据处理装置上执行的功能/行为/计算机程序指令。

上述示例实施例中的一些被描述为作为流程图描绘的过程或方法。尽管流程图将操作描述为顺序过程，然而可以并行地、并发地或同时地执行许多操作。此外，可以重新布置操作的次序。这些过程可以在其操作完成时被终止，但是也可以具有未包括在图中的附加步骤。这些过程可以对应于方法、函数、程序、子例程、子程序等。

上面讨论的方法——其中的一些通过流程图来图示——可以通过硬件、软件、固件、中间件、微码、硬件描述语言或其任何组合来实现。当用软件、固件、中间件或微码加以实现时，用于执行必要的任务的程序代码或代码段可以被存储在诸如存储介质的机器或计算机可读介质中。处理器可以执行必要的任务。

本文中公开的具体结构和功能细节仅仅是表示性的以用于描述示例实施例的目的。然而，示例实施例被以许多替代形式具体实现，而不应该被解释为限于仅本文中阐述的实施例。

应理解的是，尽管可以在本文中使用术语第一、第二等来描述各种元件，然而这些元件不应该受这些术语限制。这些术语仅用于区分一个元件和另一元件。例如，第一元件能被称为第二元件，并且类似地，第二元件能被称为第一元件，而不脱离示例实施例的范围。如本文中所使用的，术语和/或包括相关列举项目中的一个或多个的任何和所有组合。

应理解的是，当一个元件被称为连接或者耦合到另一元件时，它可直接地连接或者耦合到另一元件或者可以存在中间元件。相比之下，当一个元件被称为直接地连接或者直接地耦合到另一元件时，不存在中间元件。应该以相似的方式解释用于描述元件之间的关系的其他单词(例如，在…之间对直接地在…之间、相邻对直接地相邻等)。

本文中使用的术语仅用于描述特定实施例的目的而不旨在限制示例实施例。如本文中所使用的，除非上下文另外清楚地指示，否则单数形式一(a)、一个(an)和该(the)也旨在包括复数形式。应进一步理解的是，术语含、含有、包括和/或包括有当在本文中使用时，指定存在陈述的特征、整数、步骤、操作、元件和/或组件，但是不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或其组。

还应该注意的是，在一些替代实施方式中，所指出的功能/行为可以不按图中指出的次序发生。例如，取决于所涉及的功能性或者行为，相继示出的两个图实际上可以被并发地执行或者有时可以以相反的次序被执行。

除非另外定义，否则本文中使用的所有术语(包括技术和科学术语)具有与由示例实施例所属的领域的普通技术人员所通常理解的相同的含义。应进一步理解的是，除非在本文中明确地如此定义，否则术语(例如，在常用词典中定义的那些术语)应该被解释为具有与其在相关领域的上下文中的含义一致的含义，而不应在理想化或过于正式的意义上进行解释。

上述示例实施方式的各部分和对应的详细描述是按软件或算法以及对计算机存储器内的数据比特的操作的符号表示来呈现的。这些描述和表示是本领域的普通技术人员用来有效地将其工作的实质传达给本领域的其他普通技术人员的描述和表示。算法(当在这里使用该术语时，并且当一般地使用它时)被认为是导致期望结果的步骤的自相一致序列。这些步骤是要求对物理量物的理操纵的那些步骤。通常，尽管不一定，然而这些量采取能够被存储、转移、组合、比较和以其他方式操纵的光学信号、电信号或磁信号的形式。有时主要由于通用的原因，将这些信号称为比特、值、元素、符号、字符、术语、数字等已证明是方便的。

在上述说明性实施方式中，对可以作为程序模块或功能过程被实现的操作(例如，以流程图的形式)的行为和符号表示的引用包括执行特定任务或者实现特定抽象数据类型并且可以使用现有结构元件处的现有硬件来描述和/或实现的例程、程序、对象、组件、数据结构等。这种现有硬件可以包括一个或多个中央处理单元(CPU)、数字信号处理器(DSP)、专用集成电路、现场可编程门阵列(FPGA)计算机等。

然而，应该记住的是，所有这些和类似的术语都将与适当的物理量相关联并且仅仅是应用于这些量的方便标签。除非另外具体地陈述，或者如从讨论中显而易见的，诸如处理或计算或计算出或确定显示等的术语指代计算机系统或类似的电子计算设备的动作和过程，所述计算机系统或类似的电子计算设备将被表示为计算机系统的寄存器和存储器内的物理、电子量的数据操纵并变换成被类似地表示为计算机系统存储器或寄存器或其他此类信息存储、传输或显示设备内的物理量的其他数据。

另外注意的是，示例实施方式的软件实现的方面通常被编码在某种形式的非暂时性程序存储介质上或者实现在某种类型的传输介质上。程序存储介质可以是磁的(例如，软盘或硬盘驱动器)或光学的(例如，紧致盘只读存储器或CD ROM)，并且可以是只读或随机存取的。类似地，传输介质可以是双绞线对、同轴电缆、光纤或为本领域所知的某个其他适合的传输介质。示例实施方式不受任何给定实施方式的这些方面限制。

最后，还应该注意的是，虽然所附权利要求书陈列本文中描述的特征的特定组合，但是本公开的范围不限于此后要求保护的特定组合，而是替代地扩展到包含本文中公开的特征或实施方式的任何组合，而不管此时是否已在所附权利要求中具体地枚举了该特定组合。

尽管示例实施方式可以包括各种修改和替代形式，但是其实施方式在附图中以示例的方式示出并且将在本文中详细描述。然而，应理解，无意将示例实施方式限制为所公开的特定形式，而是相反，示例实施方式将覆盖落入权利要求范围内的所有修改、等效物和替代形式。在整个附图的描述中，相同的标号指代相同的元件。

Claims

1.一种确定环境立体声空间音频信号的体验质量(QoE)的计算机实现的方法，所述方法包括：

针对参考环境立体声信号的多个信道中的每个信道，将与所述参考环境立体声信号的信道相关联的至少一个贴片与测试环境立体声信号的对应信道的至少一个对应贴片进行比较，所述测试环境立体声信号通过解码所述参考环境立体声信号的编码版本来生成；以及

基于所述比较而确定所述测试环境立体声信号的定位精度。

2.根据权利要求1所述的方法，进一步包括：

在所述比较之前，将与所述参考环境立体声信号的所述信道相关联的所述贴片与所述测试环境立体声信号的所述对应信道的所述对应贴片进行对准。

3.根据权利要求1或2所述的方法，其中所述比较至少部分地基于所述参考环境立体声信号和所述测试环境立体声信号的频谱图、相位图或它们的组合。

4.根据权利要求1到3中任一项所述的方法，进一步包括：

生成所述参考环境立体声信号和所述测试环境立体声信号的所述多个信道的频谱图，所述频谱图使用短时傅立叶变换(STFT)来生成。

5.根据权利要求1到4中任一项所述的方法，进一步包括：

基于所述比较而确定所述测试环境立体声信号的收听质量。

6.根据权利要求5所述的方法，其中所述比较基于神经图相似度指数量度(NSIM)，

其中所述比较还包括将与所述参考环境立体声信号的全向信道相关联的贴片与所述测试环境立体声信号的全向信道的对应贴片进行比较，并且

其中确定所述收听质量还包括基于所述参考环境立体声信号的所述全向信道与所述测试环境立体声信号的所述全向信道的所述比较而确定总相似度分值。

7.根据权利要求1到6中任一项所述的方法，其中所述比较基于神经图相似度指数量度(NSIM)，

其中所述比较还包括将与所述参考环境立体声信号的每个多定向信道相关联的贴片与所述测试环境立体声信号的对应多定向信道的对应贴片进行比较，并且

其中确定所述定位精度还包括确定基于所述测试环境立体声信号和所述参考环境立体声信号的对应多定向信道之间的相似度分值的加权和的总相似度分值。

8.根据权利要求7所述的方法，进一步包括：

向所述多定向信道的垂直分量和水平分量指派不同权重。

9.一种用于确定环境立体声空间音频信号的体验质量(QoE)的计算设备，所述计算设备包括：

处理器；以及

存储器，所述存储器包括指令，所述指令被配置成使所述处理器：

基于所述比较而确定所述测试环境立体声信号的定位精度。

10.根据权利要求9所述的计算设备，其中所述处理器还被配置成：

11.根据权利要求9或10所述的计算设备，其中所述处理器还被配置成：

至少部分地基于所述参考环境立体声信号和所述测试环境立体声信号的频谱图、相位图或它们的组合而进行比较。

12.根据权利要求9到11中任一项所述的计算设备，其中所述处理器还被配置成：

基于所述比较而确定所述测试环境立体声信号的收听质量。

13.根据权利要求12所述的计算设备，其中所述比较基于神经图相似度指数量度(NSIM)，并且其中所述处理器还被配置成：

将与所述参考环境立体声信号的全向信道相关联的贴片与所述测试环境立体声信号的全向信道的对应贴片进行比较，并且

确定所述收听质量还包括基于所述参考环境立体声信号的所述全向信道与所述测试环境立体声信号的所述全向信道的所述比较而确定总相似度分值。

14.根据权利要求9到13中任一项所述的计算设备，其中所述比较基于神经图相似度指数量度(NSIM)，其中所述处理器还被配置成：

将与所述参考环境立体声信号的每个多定向信道相关联的贴片与所述测试环境立体声信号的对应多定向信道的对应贴片进行比较，并且

确定所述定位精度还包括确定基于所述测试环境立体声信号和所述参考环境立体声信号的对应多定向信道之间的相似度分值的加权和的总相似度分值。

15.一种其上存储有计算机可执行程序代码的非暂时性计算机可读存储介质，所述计算机可执行程序代码当在计算机系统上执行时使所述计算机系统执行一种确定环境立体声空间音频信号的体验质量(QoE)的方法，所述方法包括：

基于所述比较而确定所述测试环境立体声信号的定位精度。

16.根据权利要求15所述的计算机可读存储介质，进一步包括用于以下操作的代码：

17.根据权利要求15或16所述的计算机可读存储介质，进一步包括用于以下操作的代码：

至少部分地基于所述参考环境立体声信号和所述测试环境立体声信号的频谱图、相位图或它们的组合而进行比较，以及

18.根据权利要求15到17中任一项所述的计算机可读存储介质，进一步包括用于以下操作的代码：

基于所述比较而确定所述测试环境立体声信号的收听质量。

19.根据权利要求18所述的计算机可读存储介质，其中所述比较基于神经图相似度指数量度(NSIM)，

20.根据权利要求15到19中任一项所述的计算机可读存储介质，其中所述比较基于神经图相似度指数量度(NSIM)，