CN110603820A

CN110603820A - 用于提供与音频流相关联的空间性度量的装置和方法

Info

Publication number: CN110603820A
Application number: CN201880030173.4A
Authority: CN
Inventors: 乌利·思达
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2017-03-08
Filing date: 2018-03-06
Publication date: 2019-12-20
Anticipated expiration: 2038-03-06
Also published as: WO2018162487A1; RU2019131467A3; US10952003B2; BR112019018592A2; EP3373604B1; RU2019131467A; CN110603820B; JP2020509429A; EP3593544A1; EP3593544B1; US20200021934A1; EP3373604A1; RU2762232C2; JP6908718B2

Abstract

一种用于评估音频流的装置，其中所述音频流包括要在至少两个不同的空间层再现的音频通道，并且其中所述两个空间层以沿着空间轴隔开的方式布置。所述装置被配置为评估所述音频流的音频通道，以便提供与所述音频流相关联的空间性度量。

Description

用于提供与音频流相关联的空间性度量的装置和方法

技术领域

本发明的实施例涉及评估与音频流相关联的空间特性，即空间性度量。

背景技术

评估3D音频内容的重点在于其3D性，这是一项繁琐的工作，需要特定的收听室和经验丰富的音频工程师来收听所有内容。

当在专业水平上处理音频时，每个制作阶段都是特定的，并且需要该特定领域的专家。人们接收来自早期制作阶段的内容以对其进行编辑。最后，将其传递到接下来的制作或发行阶段。在接收内容时，通常进行质量检查，以确保该材料良好能够处理并满足给定的标准。例如，广播电台对所有传入的材料执行检查，以查看总体水平或动态范围是否在期望范围内[1，2，3]。因此，期望使所描述的过程尽可能自动化以减少所需的资源。

在处理3D音频时，向现有情况添加了新的方面。不仅如此，还有附加的通道来监督响度评估和缩混可能性，而且还涉及3D效果在什么时间位置出现以及3D效果有多强的问题。后者出于以下原因而受到关注。到目前为止，5.1一直是家庭市场中电影和故事片的标准声音格式。制作和发行链的所有工作流程和部分(例如，混音、母带制作、流传输平台、广播、A/V接收器等)都能够通过5.1声音，而对于3D音频则不是这种情况，因为在过去五年中出现了这种再现方法。内容制作者现在正在为该格式制作作品。

如果涉及3D音频内容，则与传统内容相比，必须在制作链的所有点提供更多资源。最多来说，声音编辑工作室、混音工作室和母带工作室是重要的成本因素，因为它们的工作环境需要通过建立具有更好的房间声学效果、更多的扬声器和扩展的信号流的更大的房间进行相当大的升级，以能够处理3D音频内容。正因为如此，才需要谨慎决定哪些产品将获得更高的预算和额外的工作以通过3D音频形式提供给客户。

到目前为止，仅通过进行收听来完成对3D音频内容进行评估以及对3D音频效果的印象作出说明。这通常是由经验丰富的声音工程师或调音师完成的，并且至少花费整个程序的时间(如果不是更长的话)。由于3D音频收听设施的额外费用很高，因此需要高效地进行收听和评估。

分析多声道音频信号的常用方法是等级和响度监测[4，5，6]。使用峰值计或带有过载指示器的真实峰值计来测量信号的等级。响度是最接近人类感知的一种度量。集成响度(BS.1770-3)、响度范围(EBU R 128 LRA)、ATSC A/85之后的响度(Calm Act)、短期和瞬时响度、响度变化或响度历史是最常用的响度度量。所有这些度量都很好地用于立体声和5.1信号。ITU(国际电信联盟)目前正在研究3D音频的响度。

为了比较两个(立体声)或五个(5.1)信号的相位关系，可以使用测角仪、矢量示波器和相关性计量仪。可以使用实时分析仪(RTA)或光谱仪分析能量的光谱分布。还有环绕声分析仪可用于测量5.1信号内的平衡。

随时间可视化立体视频3D效果的方法是深度脚本、深度图表或深度图[7，8]。

所有这些方法有两个共同点。它们无法分析3D音频，因为它们是为立体声和5.1信号开发的。而且它们无法提供关于3D音频信号的3D性的信息。

因此，期望一种改进的构思来获得音频流的空间性度量。

发明内容

本发明的实施例提供了一种用于评估音频流的装置，其中，音频流包括要在至少两个不同的空间层再现的音频通道。所述两个空间层以沿着空间轴间隔开的方式布置。所述装置还被配置为评估音频流的音频通道，以便提供与音频流相关联的空间性度量。

所描述的实施例试图提供一种构思，用于评估与音频流相关联的空间性，即，由音频流包括的音频通道所描述的音频场景的空间性的度量。与由声音工程师来评估相比，这种构思使评估更具时间和成本效益。特别地，当手动评估音频流时，对包括音频通道的音频流进行评估需要昂贵的听音室设备，所述音频通道可以被分配给不同空间层的扬声器。音频流的音频通道可以被分配给布置在空间层中的扬声器，其中空间层可以由布置在收听者前面和/或后面的扬声器形成，即，它们可以是正面和/或背面的层，和/或空间层也可以是水平层，例如，收听者头部所位于的层和/或高于或低于收听者头部所布置的层，这都是3D音频的典型设置。因此，该构思提供了评估所述音频流而无需再现设置的优点。此外，可以节省声音工程师通过收听音频流来评估音频流所必须花费的时间。例如，所描述的实施例可以向声音工程师或本领域的其他技术人员提供关于哪些时间间隔是音频流的特别感兴趣的时间间隔的指示。由此，声音工程师可以仅需要收听音频流的这些所指示的时间间隔来验证该装置的评估结果，从而导致人工成本的显著降低。

在一些实施例中，空间轴是水平定向的或者空间轴是竖直定向的。当使空间轴水平定向时，第一层可以位于收听者的前面，并且第二层可以位于收听者的后面。对于竖直定向的空间轴，第一层可以位于收听者上方，并且第二层可以与收听者位于同一层或位于收听者下方。

在一些实施例中，该装置被配置为基于音频流的第一组音频通道获得第一等级信息，并基于音频流的第二组音频通道获得第二等级信息。此外，该装置被配置为基于第一等级信息和第二等级信息来确定空间等级信息，并基于空间等级信息来确定空间性等级。对于分组，可以使用要在彼此靠近的扬声器处再现的通道来形成组。此外，为了评估空间性或获得空间等级信息，优选地使用分配给扬声器的组，其中一组的扬声器与另一组的扬声器间隔开。由此，当可能仅在收听者的一侧(例如从收听者上方的一组扬声器再现)再现声音，而从另一侧(例如，从收听者下方的一组扬声器)不再现声音或仅再现小音量的声音时，可以观察到并确定强烈的空间效果。

在一些实施例中，音频流的第一组音频通道与音频流的第二组音频通道不相交。当例如使用相对布置的扬声器的通道时，使用不相交的组允许确定更有意义的空间等级信息。由于不相交的组优选地被再现在与收听者定向在不同方向上的扬声器，因此可以基于从中获得的空间等级信息来获得改善的空间性度量。

在一些实施例中，音频流的第一组音频通道将被再现在一个或多个第一空间层中的扬声器上，并且音频流的第二组音频通道将被再现在一个或多个第二空间层上的扬声器上。所述一个或多个第一层和所述一个或多个第二层在空间上间隔开，例如使得它们是不相交的集合。使用例如在收听者上方的第一层和在收听者下方的第二层，当声源从顶部扬声器中更突出并且底部或中间层的扬声器提供具有较低水平的环境或背景声音时，可以得出特殊的信息层。

在一些实施例中，该装置被配置为基于第一组音频通道的等级信息来确定掩蔽阈值，并将该掩蔽阈值与第二组音频通道的等级信息进行比较。此外，该装置被配置为当所述比较指示所述第二组音频通道的等级信息超过所述掩蔽阈值时，增大空间等级信息。等级信息可以是声音等级，其可以通过对音频通道的声音等级的瞬时估计或平均估计来获得。等级信息还可以例如描述可通过音频通道的信号的平方值(例如，平均化)所估计的能量。可替代地，还可以使用音频信号的时间帧的绝对值或最大值来获得等级信息。所描述的实施例可以例如使用心理声学感知阈值来定义掩蔽阈值。基于该掩蔽阈值，可以确定是否仅从一组音频通道(例如，第二组音频通道)感知到信号或声源。

在一些实施例中，该装置被配置为确定要在一个或多个第一空间层再现的音频流的第一组音频通道与要在一个或多个第二空间层再现的音频流的第二组音频通道之间的相似性度量。此外，该装置被配置为基于该相似性度量来确定空间性度量。当要在第一组音频通道上再现的信号分量与要在第二组音频通道上再现的信号分量不相关时，可以假设在每组音频通道中回放两个不同的音频对象，其中通道被分配给不同的扬声器。换句话说，不相关的信号指示要在不同通道回放的不相似音频内容。从而，由于可以从不同的通道组感知到不同的对象，因此可以向收听者传递强烈的空间印象。此外，可以使用来自通道组的各个信号或通过对和信号进行互相关来获得互相关性。可以通过对通道组或通道对的各个信号进行求和来获得和信号。因此，对相似性的评估可以基于通道组或通道对之间的平均互相关。

在一些实施例中，该装置被配置为确定空间性度量，使得相似性度量越低，空间性度量越大。使用所描述的相似性度量和空间性度量之间的简单关系(例如，反比)允许基于相似性度量简单地确定空间性度量。

在一些实施例中，该装置被配置为基于第一组音频通道的等级信息来确定掩蔽阈值，并将该掩蔽阈值与第二组音频通道的等级信息进行比较。此外，该装置被配置为当所述比较指示第二组音频通道的等级信息超过(例如，仅略微超过)掩蔽阈值并且相似性度量指示第一组音频通道与第二组音频通道之间的低相似性时，增大空间性度量。将空间等级信息和相似性度量相结合使用允许更精确和可靠地确定空间性度量。此外，当一个指标(例如，空间等级信息或相似性度量)指示中性空间性时，可以使用另一指标来转向确定音频流的高或低空间性。

在一些实施例中，该装置被配置为相对于声源在音频通道上的平移的时间变化来分析音频流的音频通道。相对于平移的变化来分析音频通道允许简单地跟踪音频通道上的音频对象。随着时间在音频通道之间移动音频对象会产生增加的感知空间印象，因此，分析所述平移对于有意义的空间性度量很有用。

在一些实施例中，该装置被配置为基于音频流的第一组音频通道与音频流的第二组音频通道之间的相似性度量来获得上混起源估计。此外，该装置被配置为基于上混起源估计来确定空间性度量。上混起源估计可以指示是否从具有较少音频通道的音频流中获得音频流(例如，将立体声上混到5.1或7.1，或基于5.1音频流的用于22.2的音频流)。因此，当音频流基于上混时，音频通道的信号分量将具有较高的相似性，因为它们通常是从较少数量的源信号中得出的。可替代地，例如，当检测出在第一层中主要再现声源的直接声音(例如，没有或几乎没有混响)并且在第二层中再现声源的扩散分量(例如，后期混响)时，可以检测到上混。基于上混的音频流对空间印象的质量有影响，并因此，对于确定空间性度量很有用。

在一些实施例中，该装置被配置为当上混起源估计指示音频流的音频通道是从具有较少音频通道的音频流导出的时，基于上混起源估计来减小空间性度量。通常，就空间印象而言，从具有较少音频通道的音频流获得的音频流将被感知为具有较低的质量。因此，如果检测到音频流基于具有较少通道的音频流，则适合减小空间性度量。

在一些实施例中，该装置被配置为输出空间性度量以及上混起源估计。分开输出上混起源估计可能是有用的，因为声音工程师可以将其用作重要的辅助信息。声音工程师可以使用上混起源估计作为重要信息，例如，评估音频流的空间性。

在一些实施例中，该装置被配置为基于以下参数中的至少两个的加权来提供空间性度量：音频流的空间等级信息，和/或音频流的相似性度量，和/或音频流的平移信息，和/或音频流的上混起源估计。所描述的装置可以根据重要性有益地对各个因素进行加权以获得空间性度量。与仅从所描述的指标之一获得的空间性度量相比，从该加权获得的空间性度量可以得到改善，即，更有意义。

在一些实施例中，该装置被配置为可视地输出空间性度量。使用视觉输出，声音工程师可以基于视觉输出的视觉检查来决定音频流的空间性。

在一些实施例中，该装置被配置为作为曲线图来提供空间性度量，其中该曲线图被配置为提供随时间的空间性度量的信息。该曲线图的时间轴优选地与音频流的时间轴对准。提供随时间的关于空间性度量的信息对于声音工程师可以是有帮助的，因为声音工程师可以检查(例如，收听)音频流的片段，所述片段被空间性度量的曲线图指示为包含空间印象强的内容。由此，声音工程师可以从音频流中快速提取出空间印象强的音频场景，或者验证所确定的空间性度量。

在一些实施例中，该装置被配置为作为数值来提供空间性度量，其中该数值表示整个音频流。例如，简单的数值可用于不同音频流的快速分类和排序。

在一些实施例中，该装置被配置为将空间性度量写入日志文件。使用日志文件对于自动评估尤其有益。

本发明的实施例提供了一种用于评估音频流的方法。该方法包括：评估音频流的音频通道，以便提供与音频流相关联的空间性度量。此外，音频流包括要在至少两个不同的空间层再现的音频通道，其中，这两个空间层以沿着空间轴间隔开的方式布置。

附图说明

在下文中，将参考附图描述本发明的优选实施例，在附图中：

图1示出了根据本发明实施例的装置的框图；

图2示出了根据本发明实施例的装置的框图；

图3示出了根据本发明实施例的装置的框图；

图4示出了3D音频扬声器设置；

图5示出了根据本发明实施例的方法的流程图。

具体实施方式

图1示出了根据本发明实施例的装置100的框图。装置100包括评估器110。

装置100将音频流105作为输入，基于音频流105将音频通道106提供给评估器110。评估器110对音频通道106进行评估，并且基于该评估，装置100提供空间性度量115。

空间性度量115描述了音频流105的主观空间印象。传统上，人，优选地声音工程师，将不得不收听音频流以提供与该音频流相关联的空间性度量。从而，装置100有利地避免了技术人员收听音频流以进行评估的需要。此外，为了可靠性，声音工程师可以只收听音频流的特定部分以进行验证，该特定部分可以已经由装置100指示为具有高的空间性度量。从而，可以节省时间，因为音频工程师可以只需要收听所指示的片段或时间间隔。例如，声音工程师可以使用空间性度量115仅检查音频流的由空间性度量115指示的具有强印象3D音频效果(即，主观地在空间上印象强)的时间间隔或部分。基于该指示，可以仅需要声音工程师或熟练的收听者来收听指定的片段，以查找或验证音频流的合适片段。此外，装置100可以避免获取昂贵的设备或减少昂贵设备的使用时间。例如，(例如，昂贵的)声音实验室(其将是收听音频通道106的必要回放环境)可以仅用于验证所获得的空间性度量。因此，当评估完全基于装置100时，可以更有效地使用声音实验室，或者甚至不需要声音实验室。

图2示出了根据本发明实施例的装置200的框图。换句话说，图2可以解释为具有不同级(例如，分析级)的信号流。实线指示音频信号；(粗)虚线表示用于估计3D性(例如，空间性度量)的值，细虚线(或细线)可以指示不同级之间的信息交换。装置200包括可以被单独地包括或组合到装置100中的特征和功能。装置200包括可选的信号或通道对准器/分组器210、可选的等级分析器220a、可选的相关性分析器220b、可选的动态平移分析器220c和可选的上混(upmix)估计器220d。此外，装置200包括可选的加权器230。各个组件210、220a-220d和230可以被单独地或组合地包括在评估器110中，并且可以从音频流105获得音频通道206，类似于音频通道106。

装置200将多声道音频信号206的音频信号作为输入，基于此，其提供空间性度量235作为输出。装置200包括根据评估器110的评估器204，将在下面更详细地对其进行描述。在对准器/分组器210中，将信号或通道进行对准(例如，在时间上)并且分组到可以例如在不同空间层处进行再现的通道(例如，在空间上分组)。由此，获得了对或组，然后将其提供给分析和估计级220a-220d。对于各级220a-220d，分组可以是不同的，并且在下面阐述这方面的细节。例如，各组可以基于如图4所示的各层，其中图4示出了具有两层的扬声器设置。第一组可以基于与层410相关联的音频通道，第二组可以基于与层420相关联的音频通道。可替代地，第一组可以基于分配给左侧扬声器的通道，第二组可以基于分配给右侧扬声器的通道。在下面更详细地阐述其他的可行分组。

在等级分析级220a中，比较不同组的声音等级，其中，一组可以包括一个或多个通道。例如，可以基于信号的自发信号值、平均信号值、最大信号值或能量值来估计声音等级。平均值、最大值或能量值可以从通道206的音频信号的时间帧获得，或者可以使用递归估计来获得。如果确定第一组具有比第二组高的等级(例如，平均等级或最大等级)，其中第一组在空间上与第二组不相交，则获得空间等级信息220a′，其指示音频通道206的高空间性。然后将该空间等级信息220a′提供给加权级230。空间等级信息220a′有助于最终空间性度量的计算，如以下详细叙述的。此外，等级分析级220a可以基于第一组音频通道确定掩蔽阈值，并且当第二组通道具有高于所确定的掩蔽阈值的等级时，获得高空间等级信息220a′。

此外，将由分组器/对准器210输出的通道组或通道对提供给相关性分析级220b，相关性分析级220b可以计算不同组或对的各个信号(即，通道的信号)之间的相关性(例如，互相关)以评估相似性。可替代地，相关性分析级可以确定和信号之间的互相关。通过将每个组中的各个信号相加，可以从不同的组获得和信号，从而可以获得组之间的平均互相关，其表征组之间的平均相似性。如果相关性分析级220b确定了组或对之间的高相似性，则向加权级230提供相似性值220b′，其指示音频通道206的低空间性。可以在相关性分析级220b中，基于每个样本来估计相关性，或通过对通道、通道组或通道对的信号的时间帧进行相关来估计相关性。此外，相关性分析级220b可以使用等级信息220a″以基于等级分析级220a提供的信息来执行相关性分析。例如，从等级分析级220a获得的不同通道、通道组或通道对的信号包络可以被包括在等级信息220a″中。基于包络，可以执行相关以获得关于各个通道、通道组或通道对之间的相似性的信息。此外，相关性分析级220b可以使用与提供给等级分析级220a相同的通道分组，或者可以使用完全不同的分组。

此外，装置200可以基于对或组来执行动态平移分析/检测220c。动态平移检测220c可以检测从一对或一组通道移动到另一对或另一组通道的声音对象，例如从第一组通道到第二组通道的等级演变。使声音对象跨不同的对或组移动提供了高空间印象。因此，如果平移分析级220c检测到移动源，则向加权级230提供动态平移信息220c′，其指示高空间性。此外，如果没有检测到通道对或通道组之间的声源移动(或仅很小的移动，例如，仅在一组通道内部)，则动态平移信息220c′可以指示低空间性。平移检测级220c可以逐样本或逐帧执行平移分析。此外，动态平移检测级220c可以使用从等级分析级220a获得的等级信息220a′″来检测平移。可替代地，平移检测级220d可以自己估计等级信息以执行平移检测。动态平移检测220c可以使用与等级分析级220a或相关性分析级220b相同的组，或者由分组器/对准器210提供的不同组。

此外，上混估计级220d可以使用来自相关性分析级220b的相关性信息220b″，或者执行进一步的相关性分析以检测通道206是否是使用具有较少音频通道的音频流而形成的。例如，上混估计级220d可以评估通道206是否基于直接来自相关性信息220b″的上混。可替代地，可以在上混估计级220d中例如基于由相关性信息220b″指示的高相关性来执行各个通道之间的互相关，以评估通道206是否源自上混。由相关性分析级220b或由上混估计级220c执行的相关性分析是用于上混起源检测的有用信息，因为产生上混的常见方式是借助于信号去相关器。由上混估计级220d将上混起源估计220d′提供给加权级230。如果上混起源估计220d′指示通道206是从具有较少通道的音频流导出的，则上混起源估计220d’可以向加权器235提供负贡献或较小的贡献。上混估计级220d可以使用与等级分析级220a、相关性分析级220b或动态平移检测级220c相同的组，或者由分组器/对准器210提供的不同组。

例如，加权级235可以将对空间性度量的贡献进行平均以获得空间性度量。所述贡献可以基于因子220a′、220b′、220c′和/或220d′的组合。平均可以是均匀的或加权的，其中可以基于因子的重要性来执行加权。

在一些实施例中，可以仅基于分析级220a-220c中的一个或多个来获得空间性度量。此外，分组器/对准器可以整合在分析级220a-220c中的任何一个中，例如，使得每个分析级可以自己执行分组。

图3示出了根据本发明实施例的装置300的框图。换句话说，图3示出了3D性计量仪304的一般信号流。装置300可类比于装置100和200，并且将多声道音频信号305作为输入，多声道音频信号305也可以不变地输出。3D性计量仪304是根据评估器110和评估器204的评估器。基于多声道音频信号305，可以使用图形输出或显示器310(例如，图形)、使用数字输出或显示器320(例如，对于整个音频流使用一个数字标量值)和/或使用其中例如可以写入图形或标量的日志文件330，来图形地输出空间性度量。此外，装置300可以提供附加元数据340，元数据可以被包括在音频信号305中或被包括在包含音频信号305的音频流中，其中，元数据可以包括空间性度量。此外，附加元数据可以包括装置200中的上混起源估计或分析级的任何输出。

图4示出了3D音频扬声器设置400。换句话说，图4示出了5+4配置的3D音频再现布局。中层扬声器用字母M表示，上层扬声器用U标记。数字表示扬声器相对于收听者的方位角(例如，M30是位于中间层中方位角为30°的扬声器)。可以通过根据音频流(例如，流105、音频通道106、206或305)分配音频通道来使用扬声器设置400，以再现音频流。该扬声器设置包括第一扬声器层410和第二扬声器层420，第二扬声器层420与第一扬声器层410竖直间隔开地布置。第一扬声器层包括五个扬声器，即中央M0、右前M-10、左前M10、右环绕M-110和左环绕M110。此外，第二扬声器层420包括四个扬声器，即左上U30、右上U-30、右后上U-110和左后上U110。为了使用装置100、200或300进行分析，可以基于层(即层410和层420)提供分组。此外，可以跨层形成分组，例如，使用收听者左侧的扬声器来形成第一组，并使用收听者右侧的扬声器来获得第二组。可替代地，第一组可以基于位于收听者前面的扬声器，第二组可以基于位于收听者后面的扬声器，其中第一组或第二组包括竖直间隔开的扬声器，即，可以形成具有竖直层的组。此外，可定义其他任意分组，并且可以考虑扬声器设置。

图5示出了根据本发明实施例的方法500的流程图。该方法包括评估(510)音频流的音频通道，以便提供与音频流相关联的空间性度量。此外，音频流包括要在至少两个不同的空间层处再现的音频通道，其中，这两个空间层以沿着空间轴间隔开的方式布置。

在下文中，提供了参考图2的更多细节：

实施例描述了一种用于针对给定的3D音频信号测量3D音频效果的功率(或强度)的方法。已经发现，查看3D音频内容，在材料中找到具有3D效果的部分并评估其力量是需要手动完成的主观任务。实施例描述了3D性计量仪，所述3D性计量仪可用于支持该过程，并且可以通过以下操作来来加速该过程：指示在什么时间位置发生3D效果，以及评估3D效果的强度。

到目前为止，“3D性”一词尚未在学术领域中被用于3D音频效果的强度，因为它涵盖了非常广泛的含义。因此，详细阐述了更精确的术语和定义[9，10]。这些术语仅适用于所再现音频的一个特定方面，而非整个印象。对于一般印象，已经引入了术语“总体听觉体验(OLE)或体验质量(QoE)”[11]。后者不限于3D音频。为了将3D音频效果强度与OLE和QoE等术语分开，在本文档中有时使用术语“3D性”。

通常，如果再现系统能够在至少两个不同的竖直层中产生声源，则可以将其称为3D音频或“沉浸式”(参见图4)。常见的3D音频再现布局为5.1+4、7.1+4或22.2[12]。

3D音频特有的效果是：

·感知高声源

·定位精度(方位角、高程、距离)[9]

·动态定位精度(针对移动对象)[9]

·吞噬(被声音覆盖的感觉)[13，14，15]

·空间清晰度(您能够多清晰地感知空间场景)[14，15]

这些效果被称为3D音频的质量特征[9]或属性类别[10，16]。请注意，3D音频效果的力量并不与OLE或QoE直接相关。

为了给出3D性的实际示例，列出了以下一些场景：

·声源跨不同的竖直层移动，例如，飞快的声音效果从中间(或水平)层移动到上层。

·声源由中间层和上层再现，例如，在中间层感知主声音，从上方说话时发出声音，或者由中间层再现直接声音，由上层再现环境声音。

此外，在制作方面，可以在音轨被最终化的电影混音设施处发现测量3D性的需求。当准备在蓝光或流传输服务上分发内容时，3D性监测也将引起关注。诸如广播电台的内容分发者、OTT(Over The Top)流式传输和下载服务[17]需要测量3D性，以能够决定将哪些内容作为3D音频精彩节目进行推进。研究、教育机构和电影评论是出于不同原因对测量3D性感兴趣的其他实体。

传统方法不适用于测量3D音频信号的3D性。因此，本文提出了3D性计量仪。通常，将多声道音频信号馈送到进行音频分析的计量仪中(参见图3)。输出可能是未经处理且未更改的音频内容以及各种表示形式的3D性度量。3D性计量仪可以将3D性作为时间的函数以图形方式显示。另外，它可以用数字表示其测量值并计算统计数据，以使不同的材料具有可比性。所有结果还可以被导出为日志文件，或可以以合适的元数据格式添加到原始音频(流)。对于基于对象或基于场景的表示形式的音频，例如一阶环绕音(FOA)或更高阶环绕音(HOA)，可以通过首先渲染到参考扬声器布局来评估音频通道。

在实施例中，在不同的并行工作分析级之间共享3D性计量仪的操作模式。每个级可以检测特定于某些3D音频效果的音频信号特征(参见图2)。可以对分析级的结果进行加权、求和及显示。最后，在显示器上，可以向声音工程师提供总的3D性指标(例如，空间性度量)和一些最重要的子结果(例如，各个分析级的结果)。因此，声音工程师拥有各种数据，这些数据可以帮助他找到感兴趣的片段或做出有关3D性的决策。总的3D性指标可以在线性尺度上，其范围从零到二(0…2)，其中3D性＝0表示预期在评估的音频流中完全没有3D音频效果或没有明显的3D音频效果。3D性＝2的最大值可以指示在音频流中将发生非常强烈的3D音频效果。总的3D性指标尺度的范围以及单位可以是预先确定的，并且可以使用其他值、单位或范围(例如，-1…1、0…10等)。

在一个步骤中，可以将输入通道分配给特定的通道对或通道组。

可行的通道对是：

·中间层左和上层左

·中间层左环绕和上层左环绕

·中间层中央和上层左

·…

可行的通道分组是：

·中间层和上层

·中间层左和右以及上层左和右

·…

在下文中，对可以在实施例中使用和/或确定的参数进行描述。此外，在下面主要考虑按层对通道进行分组，但是，在其他实施例中可以使用其他分组。

等级分析级

等级分析级220a可以监测上层中是否完全存在等级，如果存在，则监测其相对于中间层有多高。一个重要的度量可以是针对垂直声源的掩蔽阈值[18，19]。当中间层信号的掩蔽阈值明显超过上层时，该分析级可仅检测3D性，反之亦然。当在上层中没有测量到信号(或等级)时，或者当在那时等级相对于相应的中间层信号太低时，3D性计量仪可以报告低3D性值(例如，基于从等级分析级获得的信息)。

在实施例中，3D性计量仪可以设置为：(i)将上层的等级与中间层的掩蔽阈值进行比较，(ii)将中间层等级与上层掩蔽阈值进行比较，或者(iii)将所有给定层进行比较，并检查较低层(例如，具有最低等级的层)相对于相应其他层的等级。

相关级

在实施例中，相关级220b用于分析通道对或通道组的归一化的短期互相关。该度量表示两个信号的相似程度，并且可以从随时间变化的能量差异中得出。上层信号的非常高的相似性表示中间层信号的最可能元素或整个中间层信号也被馈送到上层中。这可以产生一定的感知包络或稍微向上移动的声音场景。

低相关性表示中间层和上层中的信号不相似，这将导致更强的3D音频效果。相关级和等级分析级可以交换信息(参见图2中的虚线)。例如，当上层的等级仅接近或略高于掩蔽阈值时，在相关级发出高相关度信号时所指示的3D性可以低。但是，如果对于相同的等级关系来说相关性低，则所指示的3D性可以高。

动态平移检测

在实施例中，平移检测级220c寻找在不同时间在不同位置出现的声音元素。动态平移的特征是信号可以移动通过空间，例如直升机从中间层左前位置飞到上层右后位置。从信号角度讲，平移运动导致从一个通道或一组通道到另一个通道或另一组通道的淡入淡出(cross fade)。如果在信号中检测到这种淡入淡出，则平移效果可能会产生3D音频效果(例如，高感知空间性)。可以更详细地并且以其他时间常数对来自等级分析级的等级信息进行处理(例如，导致更长的平均窗口)。

上混估计

在声音处理中已经很好地建立了上混算法。通常，它们可以使用去相关和信号分离来增加所使用通道的数量，以实现更宽广、更环绕和更令人兴奋的声音再现。

上混检测级220d检查给定的去相关是否可以是先前施加的自动上混的结果。因此，使用相关级(例如，220a)的数据。此外，可以对信号进行分析以找到可能源自最常见上混方法的伪像和结果。

是否可以找到对于自动上混的提示可以是重要的信息，因为可能的后续缩混可导致声音变色。此外，与艺术创作的3D音频混音相比，自动上混会被认为价值较低。因此，如果已经估计出音频流基于上混，则可以根据所获得的空间性度量来指示低空间性。

进一步的应用

为了说明本发明的实施例的有用性，提出了3D性计量仪的一些实际使用情况。

场景1：

要求声音工程师判断给定的电影混音是否包含3D音频。如果没有3D性计量仪，工程师需要收听整个音轨，以查看是否发生任何相关的3D效果。使用3D性计量仪，可以离线分析音频，这意味着比实时分析快得多，并且对发生3D效果的部分

进行标记。通过查看结果，工程师可以判断材料是否包含3D音频效果。

场景2：

要求工程师找到电影音轨中最令人印象深刻的3D音频部分。通过查看3D性计量仪的结果，可以更快地识别具有3D效果的点(spot)。仅需收听3D性计量仪所指出的片段。

场景3：

制作公司需要决定应该为以附加3D音频轨道针对蓝光发布两个可能标题中的哪个标题。3D性计量仪的结果指示哪个标题更频繁地使用3D音频效果，并且可以作为经济决策的基础。

场景4：

对3D音频制作进行混音。3D性计量仪可以监测信号并向混音工程师指示何时所需的3D效果非常强，因此可能会分散注意力。或者工程师想要创建3D效果，而3D性计量仪指示该效果不够强到被容易地感知。

场景5：

交付了3D音频混音，并且客户想要检查该混音是由具有艺术意向的工程师创建的，还是仅是自动上混。如果已应用自动上混，则3D性计量仪可以给出指示。

在实施例中，3D性计量仪的概念不仅包括所测参数的图形或数字表示，而且包括确定3D音频信号中的听觉3D效果的存在和数量的整个过程。

此外，3D性计量仪的方法也可以用于非3D音频内容或2D多声道环绕声内容，以指示期望的环绕声效果的程度以及它们位于节目的什么时间。为此，不是比较

两个竖直间隔开的通道或通道组，而可以比较水平间隔开的通道或通道组，例如前通道和环绕声通道。

虽然已经在装置的上下文中描述了一些方面，但是将清楚的是，这些方面还表示对应方法的描述，其中，块或设备对应于方法步骤或方法步骤的特征。类似地，在方法步骤上下文中描述的方面也表示对相应块或项或者相应装置的特征的描述。可以由(或使用)硬件设备(诸如，微处理器、可编程计算机或电子电路)来执行一些或全部方法步骤。在一些实施例中，可以由这种装置来执行最重要方法步骤中的一个或多个方法步骤。

取决于某些实现要求，可以在硬件中或在软件中实现本发明的实施例。可以使用其上存储有电子可读控制信号的数字存储介质(例如，软盘、DVD、蓝光、CD、ROM、PROM、EPROM、EEPROM或闪存)来执行实现，该电子可读控制信号与可编程计算机系统协作(或者能够与之协作)从而执行相应方法。因此，数字存储介质可以是计算机可读的。

根据本发明的一些实施例包括具有电子可读控制信号的数据载体，其能够与可编程计算机系统协作以便执行本文所述的方法之一。

通常，本发明的实施例可以实现为具有程序代码的计算机程序产品，程序代码可操作以在计算机程序产品在计算机上运行时执行方法之一。程序代码可以例如存储在机器可读载体上。

其他实施例包括存储在机器可读载体上的计算机程序，该计算机程序用于执行本文所述的方法之一。

换言之，本发明方法的实施例因此是具有程序代码的计算机程序，该程序代码用于在计算机程序在计算机上运行时执行本文所述的方法之

因此，本发明方法的另一实施例是其上记录有计算机程序的数据载体(或者数字存储介质或计算机可读介质)，该计算机程序用于执行本文所述的方法之一。数据载体、数字存储介质或记录介质通常是有形的和/或非瞬时性的。

因此，本发明方法的另一实施例是表示计算机程序的数据流或信号序列，所述计算机程序用于执行本文所述的方法之一。数据流或信号序列可以例如被配置为经由数据通信连接(例如，经由互联网)传送。

另一实施例包括处理装置，例如，计算机或可编程逻辑器件，所述处理装置被配置为或适于执行本文所述的方法之一。

另一实施例包括其上安装有计算机程序的计算机，该计算机程序用于执行本文所述的方法之一。

根据本发明的另一实施例包括被配置为向接收机(例如，以电子方式或以光学方式)传送计算机程序的装置或系统，该计算机程序用于执行本文所述的方法之一。接收器可以是例如计算机、移动设备、存储设备等。装置或系统可以例如包括用于向接收器传送计算机程序的文件服务器。

在一些实施例中，可编程逻辑器件(例如，现场可编程门阵列)可以用于执行本文所述的方法的功能中的一些或全部。在一些实施例中，现场可编程门阵列可以与微处理器协作以执行本文所述的方法之一。通常，方法优选地由任意硬件装置来执行。

本文描述的装置可以使用硬件装置、或者使用计算机、或者使用硬件装置和计算机的组合来实现。

本文描述的装置或本文描述的装置的任何组件可以至少部分地在硬件和/或软件中实现。

本文描述的方法可以使用硬件装置、或者使用计算机、或者使用硬件装置和计算机的组合来执行。

本文描述的方法或本文描述的装置的任何组件可以至少部分地由硬件和/或由软件执行。

上述实施例对于本发明的原理仅是说明性的。应当理解的是，本文所述的布置和细节的修改和变形对于本领域其他技术人员将是显而易见的。因此，旨在仅由所附专利权利要求的范围来限制而不是由借助对本文的实施例的描述和解释所给出的具体细节来限制。

参考文献：

[1]EBU.EBU TECH 3344：Practical guidelines for distribution systems inaccordance with EBU R 128.Geneva，2011.

[2]IRT.Technische Richtlinien-HDTV.Zur Herstellung vonFernsehproduktionen für ARD，ZDF und ORF.Frankfurt a.M.，2011.

[3]ARTE.Allgemeine technische Richtlinien.ARTE，Kehl，2013.

[4]Gerhard Spikofski and Siegfried Klar.Levelling and Loudness inRadio and Television Broadcasting.European Broadcast Union，Geneva，2004.

[5]ITU.ITU-R BS.2054-2：Audio Levels and Loudness，volume2.International Telecommunication Union，Geneva，2011.

[6]Robin Gareus and Chris Goddard.Audio Signal Visualisation andMeasurement.In International Computer Music and Sound&Music ComputingConference，Athens，2014.

[7]B Mendiburu.3D Movie Making-Stereoscopic Digital Cinema fromScript to Screen.Focal Press，2009.

[8]B.Mendiburu.3D TV and 3D Cinema.Tools and Processes for CreativeStereoscopy.Focal Press，2011.

[9]Andreas Silzle.3D Audio Quality Evaluation：Theory and Practice.InInternational Conference on Spatial Audio，Erlangen，2014.VDT.

[10]Nick Zacharov and Torben Holm Pedersen.Spatial sound attributesdevelopment of a common lexicon.In AES 139th Convention，New York，2015.AudioEngineering Society.

[11]Michael Schoeffler，Sarah Conrad，and Jürgen Herre.The Inuence ofthe Single/Multi-Channel-System on the Overall Listening Experience.In AES55th Conference，Helsinki，2014.

[12]Ulli Scuda.Comparison of Multichannel Surround Speaker Setups in2D and 3D.In Malte Kob，editor，International Conference on Spatial Audio，Erlangen，2014.VDT.

[13]R Sazdov，G Paine，and K Stevens.Perceptual Investigation intoEnvelopment，Spatial Clarity and Engulfment in Reproduced Multi-ChannelAudio.In AES 31st Conference，London，2007.Audio Engineering Society.

[14]R Sazdov.The effect of elevated loudspeakers on the perception ofengulfment，and the effect of horizontal loudspeakers on the perception ofenvelopment.In ICSA 2011.VDT.

[15]Robert Sazdov.Envelopment vs.Engulfment：Multidimensional scalingon the effect of spectral content and spatial dimension within a three-dimensional loudspeaker setup.In International Conference on Spatial Audio，Graz，2015.VdT.

[16]Torben Holm Pedersen and Nick Zacharov.The development of a SoundWheel for Reproduced Sound.In AES 138th Convention，Warsaw，2015.AES.

[17]AES.Technical Document AESTD 1005.1.16-09：Audio Guidelines forOver the Top Television and Video Streaming.AES，New York，2016.

[18]Hyunkook Lee.The Relationship between Interchannel Time and LevelDifferences in Vertical Sound Localisation and Masking.In AES 131^stConvention，number Icld，pages 1-13,2011.

[19]Hanne Stenzel，Ulli Scuda，and Hyunkook Lee.Localization andMasking Thresholds of Diagonally Positioned Sound Sources and TheirRelationship to Interchannel Time and Level Differences.In InternationalConference on Spatial Audio，Erlangen，2014.VDT。

Claims

1.一种用于评估音频流的装置(100；200；304)，

其中所述音频流(105)包括要在至少两个不同的空间层(420；410)再现的音频通道(106；206；305)，其中所述两个空间层以沿着空间轴间隔开的方式布置，

其中，所述装置被配置为评估所述音频流的音频通道以提供与所述音频流相关联的空间性度量(115；235)。

2.根据权利要求1所述的装置，其中，所述空间轴是水平定向的，或者其中，所述空间轴是竖直定向的。

3.根据权利要求1或权利要求2所述的装置，其中，所述装置被配置为基于所述音频流的第一组音频通道获得第一等级信息，并基于所述音频流的第二组音频通道获得第二等级信息，以及

其中，所述装置被配置为基于第一等级信息和第二等级信息确定空间等级信息(220a′)，并基于所述空间等级信息确定所述空间性度量。

4.根据权利要求3所述的装置，其中，所述音频流的第一组音频通道与所述音频流的第二组音频通道不相交。

5.根据权利要求3或权利要求4所述的装置，其中，所述音频流的第一组音频通道将被再现在一个或多个第一空间层中的扬声器上，并且其中，所述音频流的第二组音频通道将被再现在一个或多个第二空间层上的扬声器上，

其中，所述一个或多个第一层和所述一个或多个第二层在空间上间隔开。

6.根据权利要求5所述的装置，其中，所述装置被配置为基于所述第一组音频通道的等级信息来确定掩蔽阈值，并将所述掩蔽阈值与所述第二组音频通道的等级信息进行比较，以及

其中，所述装置被配置为：当所述比较指示所述第二组音频通道的等级信息超过所述掩蔽阈值时，增大空间等级信息。

7.根据权利要求1至6之一所述的装置，其中，所述装置被配置为确定要在一个或多个第一空间层再现的所述音频流的第一组音频通道与要在一个或多个第二空间层再现的所述音频流的第二组音频通道之间的相似性度量(220b′)，并基于所述相似性度量确定所述空间性度量。

8.根据权利要求7所述的装置，其中，所述装置被配置为确定所述空间性度量，使得所述相似性度量越低，所述空间性度量越大。

9.根据权利要求7或权利要求8所述的装置，其中，所述装置被配置为基于所述第一组音频通道的等级信息来确定掩蔽阈值，并将所述掩蔽阈值与所述第二组音频通道的等级信息进行比较，以及

其中，所述装置被配置为：当所述比较指示所述第二组音频通道的等级信息超过所述掩蔽阈值并且所述相似性度量指示所述第一组音频通道和所述第二组音频通道之间的低相似性时，增大所述空间性度量。

10.根据权利要求1至9之一所述的装置，其中，所述装置被配置为相对于声源在音频通道上的平移的时间变化来分析所述音频流的音频通道。

11.根据权利要求1至10之一所述的装置，其中，所述装置被配置为基于所述音频流的第一组音频通道与所述音频流的第二组音频通道之间的相似性度量来获得上混起源估计(220d′)，并基于所述上混起源估计来确定所述空间性度量。

12.根据权利要求11所述的装置，其中，所述装置被配置为：当所述上混起源估计指示音频流的音频通道是从具有较少音频通道的音频流导出的时，基于所述上混起源估计来减小所述空间性度量。

13.根据权利要求11或权利要求12所述的装置，其中，所述装置被配置为输出所述空间性度量连同所述上混起源估计。

14.根据权利要求1至13之一所述的装置，其中，所述装置被配置为基于以下参数中的至少两个参数的加权(230)来提供所述空间性度量：

所述音频流的空间等级信息，和/或

所述音频流的相似性度量，和/或

所述音频流的平移信息，和/或

所述音频流的上混起源估计。

15.根据权利要求1至14之一所述的装置，其中，所述装置被配置为可视地输出(320)所述空间性度量。

16.根据权利要求15所述的装置，其中，所述装置被配置为作为曲线图(310)来提供所述空间性度量，其中，所述曲线图被配置为提供随时间的关于空间性度量的信息，其中，所述曲线图的时间轴与所述音频流对准。

17.根据权利要求1至16之一所述的装置，其中，所述装置被配置为作为数值(320)来提供所述空间性度量，其中，所述数值表示整个音频流。

18.根据权利要求1至17之一所述的装置，其中，所述装置被配置为将所述空间性度量写入日志文件(330)。

19.一种用于评估音频流的方法(500)，所述方法包括：

评估(510)所述音频流的音频通道以提供与所述音频流相关联的空间性度量；

其中，所述音频流包括要在至少两个不同的空间层再现的音频通道，其中，所述两个空间层以沿着空间轴间隔开的方式布置。

20.一种具有程序代码的计算机程序，所述程序代码用于当所述计算机程序运行在计算机或微控制器上运行时执行根据权利要求19所述的方法。