CN110998724B

CN110998724B - 基于位置元数据的音频对象分类

Info

Publication number: CN110998724B
Application number: CN201880049177.7A
Authority: CN
Inventors: M·W·杰勒德
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2017-08-01
Filing date: 2018-07-26
Publication date: 2021-05-21
Anticipated expiration: 2038-07-26
Also published as: CN110998724A; EP3662470B1; EP3662470A1; US20200381003A1; US11386913B2

Abstract

本发明提供方法(700、800、900)、系统(200、300、400、500、600)及计算机程序产品。接收(801)与音频对象相关联的位置元数据(620)。所述位置元数据定义所述音频对象在音频场景中的位置。基于所述位置元数据来估计(630、802)所述音频对象是否包含对话。将代表所述估计的结果的值指派(803)给对象类型参数(231)。在一些实例实施例中，基于音频对象的相应对象类型参数的值来选择(661、662、804)音频对象。在一些实例实施例中，将所述选定音频对象中的至少一者提交给对话增强(690、807)。

Description

基于位置元数据的音频对象分类

相关申请案的交叉参考

本申请案主张都在2017年8月1日申请的第62/539,599号美国临时申请案及第17184244.6号欧洲专利申请案的优先权的权益，所述申请案以引用方式并入本文中。

技术领域

本发明大体上涉及音频处理领域，且更具体来说，涉及基于位置元数据对音频对象进行分类的方法、设备及系统。

背景技术

可采用不同类型的多声道音频格式来再现音频场景。不同音频声道可例如旨在由相应扬声器播放以一起再现音频场景。音频声道通常与某个空间位置或某个扬声器(例如，左扬声器、右扬声器或中央扬声器)相关联。近年来，已引入其中传统音频声道被与时变空间位置相关联的音频对象补充(或甚至替换)的音频格式。音频对象通常包括音频内容及相关联位置元数据。音频内容代表实际音频信号(或实际音频流)，而位置元数据定义音频对象在音频场景中的位置。已提出用于经由此类音频格式代表的音频的编码、解码或渲染的许多不同音频处理系统。此类音频格式及音频处理系统的期望性质是能够忠实地重建原始音频场景。因此，期望避免或减轻由音频处理系统及/或音频再现系统所致的编码伪像或其它伪像。其它期望性质可例如包含位率效率及/或计算效率。然而，通常难以提供高位率效率及/或高计算效率，同时仍提供没有听觉伪像的忠实重建。一种用于在这些有时冲突的性质之间进行合适权衡的方法是以不同方式处理不同类型的音频信号。

作为实例，文献US 2016/0078879 A1(其全文以引用方式并入本文中)揭示用于对音频信号进行分类及处理的设备及方法。音频分类器实时地将音频信号分类为至少一种音频类型。音频改进装置处理音频信号以改进听众的收听体验。调整单元基于至少一种音频类型的置信度值来以连续方式调整音频改进装置的至少一个参数。在一个实例实施方案中，当音频信号中存在语音时音频改进单元采用对话增强，而当音频信号中缺乏语音时关闭对话增强。

作为另一实例，文献US 2015/0332680 A1(其全文以引用方式并入本文中)揭示一种其中确定音频对象的感知重要性且其中基于音频对象的感知重要性来来将音频对象集群化的方法。这个文献还揭示一种音频分类组件，所述音频分类组件采用代表相应目标音频类型(例如对话、音乐、声音效果及噪声)的统计性质的预训练模型集来计算每种目标音频类型的置信度分数，且估计最匹配的音频类型。使用不同机器学习方法来计算置信度分数。

作为进一步实例，文献US 2010/0121634 A1(其全文以引用方式并入本文中)揭示用于娱乐音频中的语音增强的方法及设备。在一个实施方案中，分析娱乐音频以将音频的时间段分类为语音或其它音频。将语音增强应用于分类为语音的时间段。

然而，仍期望提供用于解决一或多个上述问题的新系统及方法。

发明内容

在一方面，本申请涉及一种用于对音频对象进行分类的方法(700)，其包括：接收(701)与音频对象相关联的位置元数据(210)，其中所述位置元数据定义所述音频对象在音频场景中的位置；基于所述位置元数据来估计(702)所述音频对象是否包含对话；及将代表所述估计的结果的值指派(703)给对象类型参数(231)，其中估计所述音频对象是否包含对话包括：基于与不同时间帧相关联的位置元数据来计算所述音频对象的速率(108)；及基于所述速率来估计所述音频对象是否包含对话。

在另一方面，本申请涉及一种包括计算机可读媒体的计算机程序产品，所述计算机可读媒体具有用于执行根据上述方法的指令。

在另一方面，本申请涉及一种经配置以接收与音频对象相关联的位置元数据(220)的系统(200)，其中所述位置元数据定义所述音频对象在音频场景中的位置，所述系统包括：处理区段(230)，其经配置以基于所述位置元数据来估计所述音频对象是否包含对话且将代表所述估计的结果的值指派给对象类型参数(231)，其中估计所述音频对象是否包含对话包括：基于与不同时间帧相关联的位置元数据来计算所述音频对象的速率(108)，及基于所述速率来估计所述音频对象是否包含对话。

附图说明

现将参考附图描述实例实施例，在附图上：

图1是具有用于再现音频场景的实例扬声器设置的房间的透视图；

图2展示根据实例实施例的用于基于位置元数据来对音频对象进行分类的编码器端系统；

图3展示根据实例实施例的用于基于位置元数据来对音频对象进行分类的解码器端系统；

图4展示根据实例实施例的用于基于位置元数据及音频内容两者来对音频对象进行分类的系统；

图5展示根据实例实施例的用于对音频对象进行分类且基于音频对象分类来对音频对象进行集群化的系统；

图6展示根据实例实施例的用于对音频对象进行分类且基于音频对象分类来增强音频信号的系统；

图7是根据实例实施例的基于位置元数据来对音频对象进行分类的方法的流程图；

图8是根据实例实施例的用于对音频对象进行分类且基于音频对象分类来执行对话增强的方法的流程图；

图9是根据实例实施例的用于对音频对象进行分类且基于音频对象分类来执行集群化的方法的流程图；

图10是图1中的房间的俯视图；及

图11是图1中的房间的侧视图。

所有图都是示意性的且通常仅展示为了阐明本发明所必需的部分，而其它部分可被省略或仅仅被暗示。除非另有指示，否则在不同图中相同参考数字是指相同部件。

具体实施方式

如本文中所使用，音频信号可为纯音频信号、视听信号或多媒体信号的音频部分、或与元数据组合的这些信号中的任一者。

如本文中所使用，声道是与预定义/固定空间位置/定向或未定义空间位置(例如“左”或“右”)相关联的音频信号。

如本文中所使用，音频对象或音频对象信号是与易于时变的空间位置相关联的音频信号，换句话说其值可随时间推移重新指派或更新的空间位置。

I.概述

根据第一方面，实例实施例提供一种方法。所述方法包括接收与音频对象相关联的位置元数据。位置元数据定义音频对象在音频场景中的位置。所述方法还包括基于位置元数据来估计音频对象是否包含对话及将代表估计结果的值指派给对象类型参数。

在所属领域中已知用于对音频对象进行分类的方案。在背景技术章节中也提及的文献US 2016/0078879 A1(其全文以引用方式并入本文中)、US 2015/0332680 A1(其全文以引用方式并入本文中)及US 2010/0121634 A1(其全文以引用方式并入本文中)中揭示此类方案的实例。然而，用于对音频对象进行分类的此类已知方案基是于音频对象的实际音频内容的分析。此类分析可具有高计算复杂度，尤其是在音频场景中存在许多音频对象且应实时执行分类的情况下。音频场景可例如包含数十个或甚到超过一百个音频对象。分析音频对象的位置元数据对计算的要求较小，且仍可提供音频对象是否包含对话的估计。这在对MCPS(每秒数百万个时钟循环)敏感应用(例如嵌入式DSP(数字信号处理)解决方案)中可能有用。

将明白，包含对话的音频对象可例如包含语音或话音内容。

根据一些实例实施例，对象类型参数可指示音频对象包含对话的置信度水平。

对象类型参数可例如为数字(例如浮点数)。对象类型参数的高值可例如指示音频对象包含对话的高置信度，且对象类型参数的低值可例如指示音频对象不太可能包含对话。替代地，对象类型参数的低值可例如指示音频对象包含对话的高置信度，且对象类型参数的高值可例如指示音频对象不太可能包含对话。

根据一些实例实施例，对象类型参数可为指示音频对象包含对话的置信度水平是否高于(或超过)阈值的布尔类型参数。

对象类型参数为零可例如指示置信度水平低于阈值，且对象类型参数为一可例如指示置信度水平高于(或超过)阈值。替代地，对象类型参数为一可例如指示置信度水平低于阈值，且对象类型参数为零可例如指示置信度水平高于(或超过)阈值。

根据一些实例实施例，估计可基于音频对象在音频场景的前后方向上的位置来执行。前后方向上的位置可由位置元数据定义。

包含对话的音频对象通常定位在音频场景的前部处。定位在音频场景的后部处的音频对象不太可能包含对话。

将明白，音频场景的前部可在预期收听者的前方，且音频场景的后部可在预期收听者后方。音频场景的前部可例如为与屏幕(例如电影/电影院屏幕或TV屏幕)相关联的位置，在所述位置处应显示与音频场景相关联的图像(例如呈视频流形式)。包含对话的音频对象可例如定位在屏幕或屏幕边缘处。

根据一些实例实施例，估计音频对象是否包含对话可包括将音频场景的前部处的位置与音频对象包含对话的置信度水平相关联，所述置信度水平高于与音频场景中更靠后的位置相关联的置信度水平。换句话说，位置在音频场景的前部处的音频对象可被指派(或归属)其包含对话的置信度水平，所述置信度水平高于指派给(或归属于)定位在音频场景中更靠后处的音频对象的置信度水平。换句话说，如果音频对象的位置在音频场景中向后移动，那么音频对象包含对话的置信度水平可能减小。将明白，其它因素也可能影响音频对象是否包含对话的估计，且因此即使音频对象朝向音频场景的前部移动，置信度水平也可能减小。

根据一些实例实施例，估计音频对象是否包含对话可包括：基于与不同时间帧相关联的位置元数据来计算音频对象的速率(或速度)；及基于速率(或速度)来估计音频对象是否包含对话。

包含对话的音频对象通常在音频场景中不会移动太多。仅包含对话的对象可例如在音频场景中是静止的。在音频场景中迅速(或高速)移动的音频对象不太可能包含对话。

根据一些实例实施例，估计音频对象是否包含对话可包括将速率的第一值与音频对象包含对话的置信度水平相关联，所述置信度水平高于与速率的第二值相关联的置信度水平。速率的第一值可低于速率的第二值。换句话说，具有低(或零)速率的音频对象可被指派(或归属)其包含对话的置信度水平，所述置信度水平高于被指派给(或归属于)具有较高速率的音频对象的置信度水平。换句话说，如果音频对象的速率增加，那么音频对象包含对话的置信度水平可能减小。将明白，其它因素也可能影响音频对象是否包含对话的估计，且因此即使音频对象的速率减小，置信度水平也可能减小。

根据一些实例实施例，估计音频对象是否包含对话可包括：基于与不同时间帧相关联的位置元数据来计算音频对象的加速度；及基于加速度来估计音频对象是否包含对话。

与具有低/小(或零)加速度的音频对象相比，具有高/大加速度的音频对象不太可能包含对话。估计音频对象是否包含对话可例如包括将加速度的第一值与音频对象包含对话的置信度水平相关联，所述置信度水平高于与加速度的第二值相关联的置信度水平。加速度的第一值可例如低于加速度的第二值。换句话说，具有低(或零)加速度的音频对象可例如被指派(或归属)其包含对话的置信度水平，所述置信度水平高于指派给(或归属于)具有较高加速度的音频对象的置信度水平。换句话说，如果音频对象的加速度增加，那么音频对象包含对话的置信度水平例如可能减小。将明白，其它因素也可能影响音频对象是否包含对话的估计，且因此即使音频对象的加速度减小，置信度水平也可能减小。

根据一些实例实施例，估计可基于由位置元数据定义的音频对象的标高水平来执行。

包含对话的音频对象通常定位在预期收听者平面或地板平面处。定位在音频场景中的预期收听者上方的升高位置处的音频对象通常不太可能包含对话。

根据一些实例实施例，估计音频对象是否包含对话可包括将音频对象的第一标高水平与音频对象包含对话的置信度水平相关联，所述置信度水平高于与音频对象的其它标高水平相关联的置信度水平。第一标高水平可对应于音频场景的地板平面或预期收听者的竖直位置。换句话说，具有与预期收听者类似的竖直位置(或经定位在地板平面处)的音频对象可被指派(或归属)其包含对话的置信度水平，所述置信度水平高于指派给(或归属于)定位在音频场景中更高或更低处的音频对象的置信度水平。换句话说，如果音频对象远离收听者的预期竖直位置(或远离音频场景的地板平面)移动，那么音频对象包含对话的置信度水平可能减小。将明白，其它因素也可能影响音频对象是否包含对话的估计，且因此即使音频对象更靠近收听者的预期竖直位置移动，置信度水平也可能减小。

根据一些实例实施例，估计音频对象是否包含对话可包括计算音频对象的至少位置及音频对象的速率的线性组合(或加权和)。

将明白，线性组合(或加权和)的一些项可例如被指派负号，而其它项可被指派正号。

根据一些实例实施例，所述方法可包括：设置线性组合(或加权和)中的相应项的初始系数；使用线性组合来估计多个音频对象是否包含对话；及基于估计且基于相应音频对象是否实际上包含对话的认知来调整线性组合中的相应项的系数。以这种方式，可调谐线性组合中的系数以改进估计的可靠度(或准确度)。

根据一些实例实施例，所述方法可包括接收多个音频对象。所述经接收音频对象中的每一者可包含音频内容及位置元数据。音频对象(例如，所述经接收音频对象中的每一者)的位置元数据可定义所述音频对象在音频场景中的位置。所述方法可包括：基于相应音频对象的位置元数据来估计相应音频对象是否包含对话；将代表相应估计结果的值指派给对象类型参数；及基于对象类型参数的经指派值来选择多个音频对象的子集。所述子集可包含一或多个音频对象。

选定子集可例如包含最有可能包含对话的所述音频对象。

根据一些实例实施例，对象类型参数中的每一者的经指派值可指示对应音频对象包含对话的置信度水平。选择多个音频对象的子集可包括选择对应音频对象包含对话的置信度水平高于阈值的所述一或多个音频对象。

根据一些实例实施例，所述方法可包括使选定子集中的至少一个音频对象经受对话增强。

可例如将对话增强应用于阐明或增加对话(或语音)的清晰度以使对话更易于收听及理解。在所属领域中已知增强对话(或语音)的若干不同方式。可例如在US 2016/0078879 A1(其全文以引用方式并入本文中)的段落[0208]及US 2010/0121634 A1(其全文以引用方式并入本文中)段落[0027]到[0028]的中找到增强对话的方式的实例。

根据一些实例实施例，所述方法可包括执行集群化，使得来自多个音频对象中除选定子集外的所述音频对象的音频内容被包含在集群的集合中，且使得选定子集的至少一个音频对象被排除在集群外或选定子集的至少一个音频对象的音频内容被包含在集群中，所述集群不包含来自多个音频对象中除选定子集外的所述音频对象中的任一者的音频内容(或其仅包含来自选定子集中的音频对象的音频内容)。

虽然集群化可为降低具有许多音频对象的音频场景的复杂度(例如，以改进编码器端与解码器端之间传输的位率效率)的有效方式，但对话可能被认为非常重要，使得其应保持与其它音频对象分离。因此，可期望将对话音频对象排除在集群化外，或使对话音频对象与不包含对话的音频对象分离地集群化。

在所属领域中已知若干不同集群化方案。集群化可例如基于位置元数据。一起紧密定位在音频场景中的音频对象可例如在集群化期间组合到相同集群中。

根据一些实例实施例，所述方法可包括对于选定子集中的一或多个音频对象中的每一者，分析音频对象的音频内容且基于所述分析来确定指示音频对象包含对话的置信度水平的值。

与对象类型参数(其基于位置元数据来获得)相比，对音频对象的音频内容的分析可提供音频对象是否包含对话的更可靠估计。经由对音频对象的音频内容的分析获得的置信度水平因此可被称为精细化置信度水平。由于对大数目个音频对象的音频内容的分析可具有高计算复杂度，因此采用对象类型参数(其基于音频对象的位置元数据来获得)来减少要经受此音频内容分析的音频对象数目可能是有利的。

音频内容的分析可例如包含频谱通量检测及/或机器学习算法的使用。背景技术章节中提及的文献US 2016/0078879 A1(其全文以引用方式并入本文中，尤其参见其中的段落[0405]、[0431]及[0443])、US 2015/0332680 A1(其全文以引用方式并入本文中)及US2010/0121634 A1(其全文以引用方式并入本文中，尤其参见其中的段落[0021])也提供分析音频内容以估计音频信号是否包含对话(或语音)的方式的实例。

根据一些实例实施例，所述方法可包括使来自选定子集的至少一个音频对象经受对话增强。可基于对应的至少一个经确定值来确定至少一个音频对象所经受的对话增强的程度。

例如，如果音频对象似乎包含被大量其它音频内容“污染”的对话，那么可例如将高对话增强程度应用于所述音频对象以使所述音频对象中的对话更易于收听及/或区分。

对话增强程度可例如为时间相关的及/或频率相关的。

根据一些实例实施例，选定子集可包含多个音频对象。所述方法可包括基于经确定值来从选定子集选择至少一个音频对象，及使选定的至少一个音频对象经受对话增强。

对象类型参数可例如指示音频对象包含对话，但对音频对象的音频内容的更仔细分析可揭露音频对象事实上不包含对话。因此，对于此音频对象可省略对话增强。

根据一些实例实施例，选定子集可包含多个音频对象。所述方法可包括：基于经确定值来从选定子集选择至少一个音频对象；及执行集群化，使得来自多个音频对象中除选定的至少一个音频对象外的所述音频对象的音频内容被包含在集群的集合中。可执行集群化，使得至少一个选定音频对象被排除在集群外或至少一个选定音频对象的音频内容被包含在集群中，所述集群不包含来自多个音频对象中除至少一个选定音频对象外的所述音频对象中的任一者的音频内容(或其仅包含来自至少一个选定音频对象的音频内容)。

对象类型参数可例如指示音频对象包含对话，但是对音频对象的音频内容的更仔细分析可揭露音频对象事实上不包含对话。此音频对象可因此被包含在集群化中，就像不包含对话的其它音频对象一样，而实际上包含对话的音频对象可被排除在集群化外或也可单独集群化。

根据一些实例实施例，所述方法可包括输出位流。对于至少一个音频对象(或对于经接收音频对象中的每一者)，位流可包含音频内容、位置元数据及对象类型参数的经指派值(其基于音频对象的位置元数据来确定)。

根据一些实例实施例，所述方法可包括输出位流。对于选定子集中的音频对象(或对于选定子集中的每一音频对象)，位流可包括音频内容、位置元数据及指示音频对象包含对话的置信度水平的经确定值(其基于对音频对象的音频内容的分析来确定)。

根据第二方面，实例实施例提供一种包括计算机可读媒体的计算机程序产品，所述计算机可读媒体具有用于执行根据第一方面的实例实施例中任一实例实施例所述的方法的指令。计算机可读媒体可例如为非暂时性计算机可读媒体。

根据第三方面，实例实施例提供一种经配置以接收与音频对象相关联的位置元数据的系统。位置元数据定义音频对象在音频场景中的位置。所述系统包括处理区段，所述处理区段经配置以基于位置元数据来估计音频对象是否包含对话，且将代表估计结果的值指派给对象类型参数。

所述系统(或其中包括的处理区段)可例如经配置以执行根据第一方面的实例实施例中任一实例实施例所述的方法。

根据一些实例实施例，所述系统可经配置以接收多个音频对象。所述音频对象中的每一者可包含音频内容及位置元数据。音频对象的位置元数据可定义相应音频对象在音频场景中的位置。处理区段可经配置以基于相应位置元数据来估计相应音频对象是否包含对话，且将代表相应估计结果的值指派给对象类型参数。所述系统可进一步包括选择区段，所述选择区段经配置以基于对象类型参数的经指派值来选择多个音频对象的子集。所述子集可包含一或多个音频对象。

根据一些实例实施例，所述系统可包括对话增强区段，所述对话增强区段经配置以使选定子集中的至少一个音频对象经受对话增强。

根据一些实例实施例，所述系统可包括集群化区段，所述集群化区段经配置以执行集群化，使得来自多个音频对象中除选定子集外的所述音频对象的音频内容被包含在集群的集合中，且使得选定子集的至少一个音频对象被排除在集群化外或选定子集的至少一个音频对象的音频内容被包含在集群中，所述集群不包含来自多个音频对象中除选定子集外的所述音频对象中的任一者的音频内容。

根据一些实例实施例，所述系统可包括分析区段。对于选定子集中的一或多个音频对象中的每一者，分析区段可经配置以分析音频对象的音频内容且基于所述分析来确定指示音频对象包含对话的置信度水平的值。

根据一些实例实施例，所述系统可包括对话增强区段，所述对话增强区段经配置以使选定子集中的至少一个音频对象经受对话增强。对话增强区段可经配置以基于对应的至少一个经确定值来确定至少一个音频对象所经受的对话增强的程度。

根据一些实例实施例，所述系统可包括对话增强区段，所述对话增强区段经配置以使选定子集中的至少一个音频对象经受对话增强。选定子集可包含多个音频对象。可(例如，由第二选择区段，其可例如被包括在所述系统中)基于经确定值来选择要经受对话增强的至少一个音频对象。

根据一些实例实施例，所述系统可包括第二选择区段，所述第二选择区段经配置以基于经确定值来从选定子集选择至少一个音频对象。集群化区段可经配置以执行集群化，使得来自多个音频对象中除选定的至少一个音频对象外的所述音频对象的音频内容被包含在集群的集合中。集群化区段可经配置以执行集群化，使得至少一个选定音频对象(即，基于经确定值来选择的至少一个音频对象)被排除在集群化外或至少一个选定音频对象被包含在集群中，所述集群不包含来自多个音频对象中除至少一个选定音频对象外的所述音频对象中的任一者的音频内容。

根据一些实例实施例，所述系统可包括输出区段，所述输出区段经配置以输出位流。对于至少一个音频对象(或对于经接收音频对象中的每一者)，位流可包含音频内容、位置元数据及对象类型参数的经指派值。

根据一些实例实施例，所述系统可包括输出区段，所述输出区段经配置以输出位流。对于选定子集的至少一个音频对象(或对于选定子集的每一音频对象)，位流可包含音频内容、位置元数据及指示音频对象包含对话的置信度水平的经确定值。

应注意，即使在互异权利要求中引述，实例实施例也包含所有特征组合。

II.实例实施例

图1是具有用于再现音频场景的实例扬声器设置的房间的透视图。图10是图1中的房间的俯视图。图11是图1中的房间的侧视图。在本实例中，收听者101坐在房间中间的沙发102中。收听者101正在电视屏幕103上观看电影。扬声器经分布在房间中以根据5.1.2扬声器设置再现(或传达)三维音频场景。中央扬声器C经定位在收听者101前部的屏幕103正下方的中央处。用于传达低频效果的超低音音箱SW也经布置在屏幕103下方。左前LF扬声器及右前RF扬声器经定位在收听者101的前部，但在屏幕103的任一侧处。左环绕LS扬声器及右环绕RS扬声器在房间的任一侧布置在收听者101后方。还提供两个天花板扬声器TL及TR。天花板扬声器TL及TR在用户101的任一侧布置(或安装)在天花板中。

将明白，参考图1、10及11所描述的5.1.2扬声器设置仅用作实例。可采用许多其它扬声器设置来再现音频场景。还将明白，可在除具有电视的房间以外的其它环境中再现音频场景。音频场景可例如在电影院处再现，其中分布扬声器以在电影院屏幕上显示电影的同时传达三维音频场景。

可经由坐标(例如笛卡尔坐标或球形坐标)定义房间中(或要在房间中再现的音频场景中)的位置。音频场景的前部在收听者101的前方，其中布置屏幕103及中央扬声器C。音频场景的前部可例如被定义为其中布置屏幕103的平面110。音频场景的后部在用户101后方，例如在其中布置左环绕LS扬声器及右环绕RS扬声器的平面111中。如果采用笛卡尔坐标，那么第一坐标104可定义前后方向104上的位置，第二坐标105可定义左右方向105上的位置，且第三坐标106可定义地板平面114与天花板113之间的竖直位置106(标高)，其中定位天花板扬声器TL及TR。在一些扬声器设置中，一或多个扬声器可经布置在收听者平面112下方以便传达定位在收听者101下方的音频对象的效果。在此类扬声器设置中，第三坐标106可定义定位在收听者平面112下方的扬声器与定位在天花板113中的天花板扬声器TL及TR之间的竖直位置106(或标高)。

将明白，可采用其它坐标系代替笛卡尔坐标。例如，可采用球形或圆柱形坐标来定义房间中的位置。

扬声器系统要再现的音频对象可包括音频内容及定义音频对象在音频场景中的位置的位置元数据。位置元数据在时间帧之间的改变指示对象正在移动。通过使用扬声器的适当组合来播放音频内容，可传达音频对象经定位在音频场景中相对于收听者101的预期位置处的效果。图1中展示实例音频对象107。音频对象107经定位在收听者101右方。如由箭头108所指示，音频对象107在音频场景中向后移动。图1中还展示另一实例音频对象109。音频对象109经定位在音频场景的前部处且不移动。

至少一些音频格式允许经由元数据标记音频对象类型。因此，可对应地标记包含对话的音频对象，使得接收音频对象的音频处理系统(例如编码器、解码器或渲染器)知道音频对象是否包含对话。然而，许多音频内容创建者未采用这个可能性来标记音频对象。因此，接收音频对象集合的音频处理系统不知道使哪些音频对象经受对话增强。在此情况下，处理系统可能完全避免执行对话增强。替代地，处理系统可分析音频对象中的每一者的音频内容以确定相应音频对象是否包含对话。分析音频对象的音频内容以对音频对象进行分类的方式的实例是频谱通量语音检测及数字信号机器学习算法。在上文在背景技术章节中提及的文献US 2016/0078879A1(其全文以引用方式并入本文中)、US2015/0332680A1(其全文以引用方式并入本文中)及US 2010/0121634A1(其全文以引用方式并入本文中)中也提供分析音频对象的音频内容以对音频对象进行分类的方式的实例。

用于分析音频对象的音频内容的此类方案与相对较高的计算复杂度相关联。如下文参考图2到9所描述，提出用于对音频对象进行分类的不同方法。

知晓音频对象是否包含对话在旨在通过将对象简化为集群来降低音频场景的总位率的空间编码工具中也可能有用。此类编码工具可从对对象类型的理解受益，因为其允许在编码过程期间进行对象隔离以在渲染过程期间实现收听者个性化，或允许在空间编码之后针对多种语言切换对话音轨。

图2展示根据实例实施例的系统200。在本实施例中，已由内容创建者创建音频对象。音频对象包括音频内容210及相关联位置元数据220。音频内容210可例如呈脉冲编码调制(PCM)文件(例如WAV文件)的形式提供。位置元数据220可例如呈文本文件的形式提供。

系统200接收音频对象的位置元数据220。系统200包括处理区段230，处理区段230基于位置元数据220来估计音频对象是否包含对话。处理区段230将代表估计结果的值指派给对象类型参数231。接着，可由系统200输出对象类型参数231以作为元数据与音频内容210及位置元数据220一起传输。

在本实施例中，系统200是包括输出区段240的编码系统。输出区段240输出位流250，位流250包含音频内容210、位置元数据220及对象类型参数231的经指派值。输出区段240可例如采用编码区段来对音频内容210进行编码(例如，在例如正交镜像滤波器、QMF、库域或修正型离散余弦变换MDCT域的变换域中)。输出区段240可例如采用多路复用器来将不同信号组合到位流250中。对象类型参数231通知接收音频处理系统(例如解码器或渲染器)位流250中提供的音频对象是否可能包含对话。例如，可在位流中经由布尔标志指示对象类型参数231。

可以不同方式计算对象类型参数231。例如，可根据以下方程式基于音频对象在前后方向y上的位置且基于其速度v来计算对象类型参数231：

对象类型参数值＝k(1-y)+m(1-v)。 (1)

在以上方程式(1)中，前后方向y已经归一化使得y＝0对应于音频场景的前部110处的位置，且y＝1对应于音频场景的后部111处的位置。前后方向y对应于上文参考图1所描述的前后方向104。例如，可根据以下方程式将以上方程式(1)中的速度v(或更确切地说速率，因为其是标量值)计算为音频对象在两个连续帧中的位置之间的差异：

其中坐标x、y及z的指数表示帧数。与前后方向上的位置y类似，速度v可经归一化使得v＝0对应于音频对象是静止的，且v＝1对应于在一个时间帧内音频对象从房间的一侧移动到房间的另一侧。

也可采用方程式(2)的速度v对于多个帧计算的时间平均值，代替直接在方程式(1)中采用来自方程式(2)的v。换句话说，可经由方程式(2)对于不同时间帧计算一系列速度v。这些速率的平均值接着可用作方程式(1)中的v。

根据方程式(1)，将对象类型参数计算为位置y及速度v的线性组合(或加权和)。方程式(1)中的系数k及m是经指派以反映位置y及速度v的相关性以估计音频对象是否包含对话的置信度水平的权重。例如，可基于测试数据经由均方拟合来确定方程式(1)中应用的合适权重。

可被包含在方程式(1)中的其它方面可例如为音频对象的标高水平(图1中的竖直位置106)及/或音频对象的加速度(或音频对象的位置的甚至更高阶导数)。与定位成更靠近天花板113的音频对象相比，与收听者101处于相同标高水平(或与收听者101处于相同竖直位置112)的音频对象更有可能包含对话。例如，可经由均方拟合基于测试数据来获得应用于影响置信度水平的不同方面的合适权重。替代地，可采用机器学习算法以基于此类不同方面来生成置信度水平。

用于计算对象类型参数的以上方程式(1)反映以下事实：典型电影院混音中的对话音频对象通常是静止的(或缓慢移动)且通常定位在屏幕103所在的音频场景的前部110处。

上文参考图1所描述的第一实例音频对象107将在方程式(1)中得到低值，因为其不靠近音频场景的前部110且因为其正在移动。这指示音频对象107不太可能包含对话。第二实例对象109在音频场景的前部110处且不移动。因此，其将在方程式(1)中得到更高值，这指示其可能包含对话。

图3展示根据实例实施例的系统300。与上文参考图2所描述的系统200类似，系统300接收音频对象的位置元数据320，且系统300的处理区段330(基于位置元数据320)估计音频对象是否包含对话。处理区段330将代表估计结果的值指派给对象类型参数331。接着，可由系统300输出对象类型参数331以作为元数据与音频对象的音频内容310及位置元数据320一起传输。

与上文参考图2所描述的系统200相比，系统300是解码系统。音频内容310及位置元数据320可已经由使用多路复用器301编码到位流302中，且可通过系统300经由使用多路分用器303从位流302检索。解码系统300可例如将其输出提供给另一系统进行进一步处理。解码系统300可例如将其输出提供给渲染系统或音频再现系统。

由系统300接收的音频对象可能已经由原始音频对象集的集群化而获得。此集群化可能已致使静止对话音频对象被包含在具有时变空间位置的集群中。因此，即使对话音频对象通常可能是静止的，包含对话的经接收音频对象也可能在音频场景中移动。因此，可期望使用基于音频对象的音频内容的精细化对象类型估计来补充由处理区段330提供的初始对象类型估计，如下文参考图4到6所描述。

图4展示根据实例实施例的系统400。与上文参考图2所描述的系统200类似，系统400接收音频对象的位置元数据420，且系统400的处理区段430(基于位置元数据420)估计相应音频对象是否包含对话。处理区段430将代表相应估计结果的值指派给对象类型参数。

系统400经由选择区段460及分析区段470执行进一步处理来代替输出对象类型参数以作为元数据与音频对象的音频内容410及位置元数据420一起输出。

选择区段460基于对象类型参数的经指派值来选择音频对象的子集。选择区段460应用阈值以选择音频对象的子集。在本实施例中，对象类型参数中的每一者指示相关联音频对象是否包含对话的置信度水平。由选择区段460选择具有高于阈值的置信度水平的音频对象。例如，如果以上方程式(1)中的系数k及m两者具有值1/2且参数y及v经归一化到0与1之间的范围，那么选择区段460可例如将阈值1/2、1/3、1/4或1/5用于对象类型参数以选择音频对象。

接着，将由选择区段470选择的音频对象提供给分析区段470。分析区段470分析选定音频对象的音频内容且确定指示相应音频对象包含对话的精细化置信度水平的值。由分析区段470提供的精细化置信度水平可能比由处理区段430提供的对象类型参数更可靠，因为精细化置信度水平是基于实际音频内容的分析，而非基于位置元数据420。另一方面，处理区段430及选择区段460一起允许减少待由分析区段470分析的音频对象数目，借此降低整体计算复杂度。例如，音频对象中未被选择区段460选择的所述音频对象可例如被指派精细化置信度值0。

系统400可例如为编码系统。输出区段440可提供位流450，位流450包含音频内容410、位置元数据420及所有音频对象的精细化置信度水平。

图5展示根据实例实施例的系统500。与上文参考图4所描述的系统400类似，系统500包括处理区段530、选择区段560、分析区段570及输出区段540。然而，系统500进一步包括第二选择区段571及集群化区段580，集群化区段580在输出区段将音频对象包含到位流550中之前对音频对象执行集群化。

第二选择区段571采用来自分析区段570的精细化置信度水平来选择将哪些音频对象排除在集群化外。虽然可将不包含对话的音频对象集群在一起以提供更具位率效率的编码格式，但可能(或被认为)包含对话的音频对象对于整体音频体验而言可能太重要而无法与其它音频对象集群在一起。因此，可通过第二选择区段571将此类音频对象排除在集群化外。

集群化区段580执行集群化且将集群及相关联元数据提供给输出区段540。排除在集群化外的选定音频对象可例如与其相应元数据一起包含在音频位流中。

图6展示根据实例实施例的系统600。系统600可例如为解码系统或渲染系统的部分。系统600接收包含音频内容610及相关联位置元数据620的多个音频对象。由系统600接收的音频对象可例如为在编码器端处执行以减少在编码器端与解码器端之间传输的位数的集群化操作的结果。因此，对话音频对象可能已与非对话音频对象集群在一起，使得由系统600接收的音频对象可包含对话及其它音频内容的组合。由于对话可能已被其它音频内容“污染”，因此可期望执行对话增强以使对话更易于收听者听到及/或与其余音频内容区分开。

处理区段630基于位置元数据来对音频对象进行分类。更具体来说，处理区段630基于位置元数据620来估计音频对象是否包含对话，且基于估计结果来将值指派给对象类型参数。

在比较器661中比较对象类型参数的值与阈值，使得仅增强最可能包含对话的音频对象。比较器661的输出为是否允许由开关662控制的对音频对象的进一步处理的布尔决定。比较器661及开关662一起充当与上文参考图4及5所描述的选择区段460及560类似的选择区段。

如果音频对象有资格进行进一步处理(即，如果对象类型参数高于由比较器661采用的阈值)，那么在分析区段670中分析所述音频对象的音频内容610。

分析区段670采用音频信号处理技术，所述音频信号处理技术可包含在时域及频域中检查信号以增强音频对象中存在对话的置信度。例如，如果由处理区段630生成的对象类型参数建议由于音频对象的速度及位置而存在音频对象中的对话的高似然性，那么分析区段670可执行频谱通量语音检测算法以确定在当前时间帧内存在对话。分析区段670的所得输出是多维特征置信度分数(可能包含时变及频变置信度值)以指导由对话增强区段690执行的音频信号增强。对话增强区段690的输出是具有用以改进经检测到的对话的增强的输入音频内容610的更改版本。对话增强例如可包含提升中频频带以改进对话清晰度。对话增强区段690可例如执行频率相关处理以改进经受对话增强的音频对象的相应频带中的信噪比。

图7是根据实施例的方法700的流程图。方法700可例如由上文参考图2到6所描述的系统200到600中的任一者来执行。方法700包括：接收701与音频对象相关联的位置元数据，其中位置元数据定义音频对象在音频场景中的位置；基于位置元数据来估计702音频对象是否包含对话；及将代表估计结果的值指派703a给对象类型参数。

图8是根据实施例的方法800的流程图。方法800可例如由上文参考图6所描述的系统600来执行。方法800包括：接收801多个音频对象；基于相应音频对象的位置元数据来估计802相应音频对象是否包含对话；将代表相应估计结果的值指派803给对象类型参数；及基于对象类型参数的经指派值来选择804多个音频对象的子集。对于选定子集中的一或多个音频对象中的每一者，方法800进一步包括：分析805音频对象的音频内容；基于所述分析来确定806指示音频对象包含对话的置信度水平的值(经确定值可例如被称为精细化置信度水平或精细化对象类型参数)；及使来自选定子集的至少一个音频对象经受807对话增强。一些音频对象可能比其它音频对象经受更高程度的对话增强。至少一个音频对象所经受的对话增强的程度可例如基于对应的至少一个经确定的精细化对象类型参数值来确定。

图9是根据实施例的方法900的流程图。方法900可例如由上文参考图5所描述的系统500来执行。方法900可例如包含与上文参考图8所描述的方法800相同的步骤801到806，但最后步骤可与集群化907而非对话增强807相关。更具体来说，可基于在步骤806处确定的精细化对象类型参数值来执行集群907。可将具有足够高的精细化对象类型参数值的音频对象排除在集群化外。换句话说，将被认为包含对话的所述音频对象排除在集群化外，而将其它音频对象在集群在一起成为一或多个集群。

III.等效物、扩展物、替代物及其它

在研究上文描述之后，本发明的进一步实施例对于所属领域的技术人员将变得显而易见。即使本说明书及附图揭示实施例及实例，本发明也不限于这些特定实例。在不脱离由所附权利要求书定义的本发明的范围的情况下，可做出许多修改及变动。权利要求书中出现的任何参考标志不应被理解为限制其范围。

另外，通过研究附图、本发明及所附权利要求书，所属领域的技术人员可在实践本发明时理解且实现所揭示实施例的变动。在权利要求书中，词语“包括”不排除其它元件或步骤，且不定冠词“一”或“一个”不排除多个。在互异的从属权利要求中引述某些措施的事实并不指示不能有利地使用这些措施的组合。方法步骤不一定必须按其在权利要求书中或在上文所描述的实例实施例中出现的顺序来执行，除非明确描述要求按某个顺序。

上文中所揭示的装置及方法可被实施为软件、固件、硬件或其组合。在硬件实施方案中，上文描述中提及的功能单元之间的任务划分不一定对应于物理单元的划分；相反，一个物理组件可具有多个功能，且一个任务可由若干物理组件协同实行。某些组件或所有组件可被实施为由数字信号处理器或微处理器执行的软件，或被实施为硬件或专用集成电路。此软件可经分布在计算机可读媒体上，所述计算机可读媒体可包括计算机存储媒体(或非暂时性媒体)及通信媒体(或暂时性媒体)。如所属领域的技术人员所熟知，术语计算机存储媒体包含以用于存储信息(例如计算机可读指令、数据结构、程序模块或其它数据)的任何方法或技术实施的易失性及非易失性、可卸除及不可卸除媒体。计算机存储媒体包含但不限于RAM、ROM、EEPROM、快闪存储器或其它存储器技术、CD-ROM、数字通用光盘(DVD)或其它光盘存储装置、磁带盒、磁带、磁盘存储装置或其它磁性存储装置、或可用于存储所要信息且可由计算机存取的任何其它媒体。此外，所属领域的技术人员熟知，通信媒体通常在调制数据信号(例如载波或其它输送机制)中体现计算机可读指令、数据结构、程序模块或其它数据且包含任何信息传递媒体。

从以下列举的实例实施例(EEE)可理解本发明的各个方面：

EEE1.一种方法(700)，其包括：

接收(701)与音频对象相关联的位置元数据(210)，其中所述位置元数据定义所述音频对象在音频场景中的位置；

基于所述位置元数据来估计(702)所述音频对象是否包含对话；及

将代表所述估计的结果的值指派(703)给对象类型参数(231)。

EEE2.根据EEE 1所述的方法，其中所述对象类型参数：

指示所述音频对象包含对话的置信度水平；或

是指示所述音频对象包含对话的置信度水平是否高于阈值的布尔类型参数。

EEE3.根据前述EEE中任一EEE所述的方法，其中所述估计是基于所述音频对象在所述音频场景的前后方向(104)上的位置来执行，所述前后方向上的所述位置由所述位置元数据定义。

EEE4.根据EEE 3所述的方法，其中估计所述音频对象是否包含对话包括：

将所述音频场景的前部(110)处的位置(109)与所述音频对象包含对话的置信度水平相关联，所述置信度水平高于与所述音频场景中更靠后的位置(107)相关联的置信度水平。

EEE5.根据前述EEE中任一EEE所述的方法，其中估计所述音频对象是否包含对话包括：

基于与不同时间帧相关联的位置元数据来计算所述音频对象的速率(108)；及

基于所述速率来估计所述音频对象是否包含对话。

EEE6.根据EEE 5所述的方法，其中估计所述音频对象是否包含对话包括：

将所述速率的第一值与所述音频对象包含对话的置信度水平相关联，所述置信度水平高于与所述速率的第二值相关联的置信度水平，其中所述速率的所述第一值低于所述速率的所述第二值。

EEE7.根据前述EEE中任一EEE所述的方法，其中估计所述音频对象是否包含对话包括：

基于与不同时间帧相关联的位置元数据来计算所述音频对象的加速度；及

基于所述加速度来估计所述音频对象是否包含对话。

EEE8.根据前述EEE中任一EEE所述的方法，其中所述估计是基于由所述位置元数据定义的所述音频对象的标高(106)水平来执行。

EEE9.根据EEE 8所述的方法，其中估计所述音频对象是否包含对话包括：

将所述音频对象的第一标高水平与所述音频对象包含对话的置信度水平相关联，所述置信度水平高于与所述音频对象的其它标高水平相关联的置信度水平，其中所述第一标高水平对应于所述音频场景的地板平面(114)或预期收听者(101)的竖直位置(112)。

EEE10.根据前述EEE中任一EEE所述的方法(800)，其包括：

接收(801)多个音频对象，所述经接收音频对象中的每一者包含音频内容(610)及位置元数据(620)，其中音频对象的所述位置元数据定义所述音频对象在音频场景中的位置；

基于所述相应音频对象的所述位置元数据来估计(802)所述相应音频对象是否包含对话；

将代表所述相应估计的结果的值指派(803)给对象类型参数；及

基于所述对象类型参数的所述经指派值来选择(804)所述多个音频对象的子集，其中所述子集包含一或多个音频对象。

EEE11.根据EEE 10所述的方法，其中所述对象类型参数中的每一者的所述经指派值指示所述对应音频对象包含对话的置信度水平，且其中选择所述多个音频对象的子集包括：

选择所述对应音频对象包含对话的所述置信度水平高于阈值的所述一或多个音频对象。

EEE12.根据EEE 10到11中任一EEE所述的方法，其进一步包括：

使所述选定子集中的至少一个音频对象经受(807)对话增强。

EEE13.根据EEE 10到12中任一EEE所述的方法(900)，其进一步包括执行集群化(907)，使得来自所述多个音频对象中除所述选定子集外的所述音频对象的所述音频内容被包含在集群的集合中且使得：

所述选定子集的至少一个音频对象被排除在所述集群外；或

所述选定子集的至少一个音频对象的所述音频内容被包含在集群中，所述集群不包含来自所述多个音频对象中除所述选定子集外的所述音频对象中的任一者的音频内容。

EEE14.根据EEE 10到13中任一EEE的方法，其进一步包括对于所述选定子集中的所述一或多个音频对象中的每一者：

分析(805)所述音频对象的所述音频内容；及

基于所述分析来确定(806)指示所述音频对象包含对话的置信度水平的值。

EEE15.根据EEE 14所述的方法(800)，其包括：

使来自所述选定子集的至少一个音频对象经受(807)对话增强，其中基于所述对应的至少一个经确定值来确定所述至少一个音频对象所经受的对话增强的程度。

EEE16.根据EEE 14到15中任一EEE所述的方法(800)，其中所述选定子集包含多个音频对象，所述方法包括：

基于所述经确定值来从所述选定子集选择至少一个音频对象；及

使所述选定的至少一个音频对象经受(807)对话增强。

EEE17.根据EEE 14到16中任一EEE所述的方法(900)，其中所述选定子集包含多个音频对象，所述方法包括：

执行(907)集群化，使得来自所述多个音频对象中除所述选定的至少一个音频对象外的所述音频对象的所述音频内容被包含在集群的集合中，

其中执行所述集群化，使得：

所述至少一个选定音频对象被排除在所述集群化外；或

所述至少一个选定音频对象的所述音频内容被包含在集群中，所述集群不包含来自所述多个音频对象中除所述至少一个选定音频对象外的所述音频对象中的任一者的音频内容。

EEE18.一种包括计算机可读媒体的计算机程序产品，所述计算机可读媒体具有用于执行根据EEE 1到17中任一EEE所述的方法的指令。

EEE19.一种经配置以接收与音频对象相关联的位置元数据(220)的系统(200)，其中所述位置元数据定义所述音频对象在音频场景中的位置，所述系统包括：

处理区段(230)，其经配置以基于所述位置元数据来估计所述音频对象是否包含对话且将代表所述估计的结果的值指派给对象类型参数(231)。

EEE20.根据EEE 19所述的系统(400、500、600)，其中所述系统经配置以接收多个音频对象，所述音频对象中的每一者包含音频内容(410、510、610)及位置元数据(420、520、620)，其中音频对象的所述位置元数据定义所述音频对象在音频场景中的位置，且其中所述处理区段(430、530、630)经配置以：

基于所述相应位置元数据来估计所述相应音频对象是否包含对话；及

将代表所述相应估计的结果的值指派给对象类型参数，

所述系统进一步包括：

选择区段(460、560、661、662)，其经配置以基于所述对象类型参数的所述经指派值来选择所述多个音频对象的子集，其中所述子集包含一或多个音频对象。

EEE21.根据EEE 20所述的系统，其进一步包括：

对话增强区段(690)，其经配置以使所述选定子集中的至少一个音频对象经受对话增强。

EEE22.根据EEE 20到21中任一EEE所述的系统，其进一步包括集群化区段(580)，所述集群化区段(580)经配置以执行集群化，使得来自所述多个音频对象中除所述选定子集外的所述音频对象的所述音频内容被包含在集群的集合中且使得：

所述选定子集的至少一个音频对象被排除在所述集群化外；或

EEE23.根据EEE 20到22中任一EEE所述的系统，其进一步包括分析区段(470、570、670)，所述分析区段(470、570、670)经配置以对于所述选定子集中的所述一或多个音频对象中的每一者：

分析所述音频对象的所述音频内容；及

基于所述分析来确定指示所述音频对象包含对话的置信度水平的值。

EEE24.根据EEE 23所述的系统，其中所述系统包括：

对话增强区段(690)，其经配置以使所述选定子集中的至少一个音频对象经受对话增强，其中所述对话增强区段经配置以基于所述对应的至少一个经确定值来确定所述至少一个音频对象所经受的对话增强的程度。

EEE25.根据EEE 23到24中任一EEE所述的系统，其中所述系统包括：

对话增强区段(690)，其经配置以使所述选定子集中的至少一个音频对象经受对话增强，其中所述选定子集包含多个音频对象，且其中基于所述经确定值来选择要经受对话增强的所述至少一个音频对象。

EEE26.根据EEE 23到24中任一EEE所述的系统，其中所述选定子集包含多个音频对象，所述系统进一步包括：

第二选择区段(571)，其经配置以基于所述经确定值来从所述选定子集选择至少一个音频对象，

其中集群化区段(580)经配置以执行集群化，使得来自所述多个音频对象中除所述选定的至少一个音频对象外的所述音频对象的所述音频内容被包含在集群的集合中，且其中所述集群化区段经配置以执行所述集群化，使得：

所述至少一个选定音频对象被排除在所述集群化外；或

Claims

1.一种用于对音频对象进行分类的方法(700)，其包括：

将代表所述估计的结果的值指派(703)给对象类型参数(231)，

其中估计所述音频对象是否包含对话包括：

基于所述速率来估计所述音频对象是否包含对话。

2.根据权利要求1所述的方法，其中所述对象类型参数：

指示所述音频对象包含对话的置信度水平；或

3.根据前述权利要求中任一权利要求所述的方法，其中所述估计是基于所述音频对象在所述音频场景的前后方向(104)上的位置来执行，所述前后方向上的所述位置由所述位置元数据定义。

4.根据权利要求3所述的方法，其中估计所述音频对象是否包含对话包括：

5.根据权利要求1和2中任一权利要求所述的方法，其中估计所述音频对象是否包含对话包括：

6.根据权利要求1和2中任一权利要求所述的方法，其中所述估计是基于由所述位置元数据定义的所述音频对象的标高(106)水平来执行。

7.根据权利要求6所述的方法，其中估计所述音频对象是否包含对话包括：

8.根据权利要求1和2中任一权利要求所述的方法(800)，其包括：

接收(801)多个音频对象，经接收音频对象中的每一者包含音频内容(610)及位置元数据(620)，其中音频对象的所述位置元数据定义所述音频对象在音频场景中的位置；

基于相应音频对象的所述位置元数据来估计(802)所述相应音频对象是否包含对话；

将代表相应估计的结果的值指派(803)给对象类型参数；及

基于所述对象类型参数的经指派值来选择(804)所述多个音频对象的子集以获得选定子集，其中所述子集包含一或多个音频对象。

9.根据权利要求8所述的方法，其进一步包括：

使所述选定子集中的至少一个音频对象经受(807)对话增强；及/或

执行集群化(907)，使得来自所述多个音频对象中除所述选定子集外的所述音频对象的所述音频内容被包含在集群的集合中且使得：

10.根据权利要求8所述的方法，其进一步包括对于所述选定子集中的所述一或多个音频对象中的每一者：

分析(805)所述音频对象的所述音频内容；及

基于所述分析来确定(806)指示所述音频对象包含对话的置信度水平的值以获得对应的至少一个经确定值。

11.根据权利要求10所述的方法(800)，其包括：

使来自所述选定子集的至少一个音频对象经受(807)对话增强，其中所述至少一个音频对象所经受的对话增强的程度是基于所述对应的至少一个经确定值来确定。

12.根据权利要求10所述的方法(800)，其中所述选定子集包含多个音频对象，所述方法包括：

基于所述对应的至少一个经确定值来从所述选定子集选择至少一个音频对象以获得至少一个选定音频对象；及

使所述至少一个选定音频对象经受(807)对话增强及/或执行(907)集群化，使得来自所述多个音频对象中除所述选定的至少一个音频对象外的所述音频对象的所述音频内容被包含在集群的集合中，其中执行所述集群化，使得：

所述至少一个选定音频对象被排除在所述集群化外；或

13.一种计算机可读介质，所述计算机可读介质具有用于执行根据权利要求1到12中任一权利要求所述的方法的指令。

14.一种经配置以接收与音频对象相关联的位置元数据(220)的系统(200)，其中所述位置元数据定义所述音频对象在音频场景中的位置，所述系统包括：

处理区段(230)，其经配置以基于所述位置元数据来估计所述音频对象是否包含对话且将代表所述估计的结果的值指派给对象类型参数(231)，其中估计所述音频对象是否包含对话包括：基于与不同时间帧相关联的位置元数据来计算所述音频对象的速率(108)，及基于所述速率来估计所述音频对象是否包含对话。