CN113812136A

CN113812136A - 可缩放话音场景媒体服务器

Info

Publication number: CN113812136A
Application number: CN202080035165.6A
Authority: CN
Inventors: G·N·迪金斯; 邓峰; M·埃克特; C·约翰斯顿; P·霍姆伯格
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2019-04-03
Filing date: 2020-04-03
Publication date: 2021-12-17
Anticipated expiration: 2040-04-03
Also published as: KR20210145265A; BR112021019785A2; JP2022527111A; EP3949368A1; US11803351B2; JP7562554B2; CN113812136B; EP3949368B1; US20220197592A1; WO2020206344A1; ES2967185T3

Abstract

一种通信系统、方法及其计算机可读媒体包括经配置以从对应多个客户端装置接收多个音频流的媒体服务器，所述媒体服务器包含电路系统，所述电路系统经配置以：基于预定度量将所述多个音频流排名；将所述多个音频流的第一部分分组成第一组，所述多个音频流的所述第一部分是N个最高排名音频流；将所述多个音频流的第二部分分组成第二组，所述多个音频流的所述第二部分是M个最低排名音频流；将所述第一组的相应音频流转发到接收器装置；及舍弃所述第二组的相应音频流，其中N与M是独立的整数。

Description

可缩放话音场景媒体服务器

相关申请案的交叉参考

本申请案主张2020年3月19日提出申请的美国临时专利申请案第62/991,645号、2019年4月30日提出申请的美国临时专利申请案第62/840,857号、2019年7月16日提出申请的欧洲专利申请案第19186491.7号及2020年2月20日提出申请的国际申请案第PCT/CN2020/076047号(其主张2019年4月3日提出申请的国际申请案第PCT/CN2019/081317号的权益)的优先权权益，上述所有申请案特此以全文引用的方式并入。

技术领域

本申请案大体上涉及多方通信。更具体来说，本申请案涉及除其它之外还用于音频及话音通信的可缩放话音场景媒体服务器及方法。

背景技术

视频及音频电话会议系统可允许多方远程交互以进行会议。通常，用于话音中音频会议的中心媒体服务器的现有设计使用某种策略或呈两种形式中的一者的策略组合。

在一种形式中，通过将所有传入音频流转发到将在会议上收听所述音频流的所有参与者，服务器能够避免所有处理负载且赋予客户端更多再现灵活性。然而，此方法不能缩放及管理下游带宽。

在另一种形式中，通过将传入流混合到如将由每一端点接收的特定混合或空间音频场景中，且仅发送所述混合，所述服务器可能够最小化且具有固定下游带宽，而无论会议中的客户端的数目如何。然而，此方法需要在服务器上进行大量处理及音频解码、混合及再编码，这将导致成本及额外处理延迟。即使在此些系统尝试减少且再使用各种处理及混合操作的情况下，这仍保持大负载。一旦经混合，客户端将感知音频场景显著改变成与由服务器提供的场景不同的场景(例如，实施头部跟踪)的可能性便受到限制。

系统可涉及先前两种形式的某种组合，在针对仅几个讲话者活跃的情况使用转发与许多讲话者活跃的情况使用混合之间交替。然而，此些系统可具有缺点，例如不能够提供效率、缩放性或带宽管理的充分增加。

因此，存在对管理发送到客户端的峰值及平均数据位速率而无须在服务器上进行密集音频混合的系统及方法的需要。此外，存在对具有将每一流的空间位置个别地再现成似真且感知的连续场景而无论服务器上发生任何混合或剔除操作的能力的系统及方法的需要。

发明内容

本发明的各个方面涉及用于包含话音通信的可缩放多方通信的电路、系统及方法。

在本发明的一个示范性方面中，提供一种通信系统，其包括经配置以从对应多个客户端装置接收多个音频流的媒体服务器，所述媒体服务器包含电路系统，所述电路系统经配置以：基于预定度量将所述多个音频流排名；将所述多个音频流的第一部分分组成第一组，所述多个音频流的所述第一部分是N个最高排名音频流；将所述多个音频流的第二部分分组成第二组，所述多个音频流的所述第二部分是M个最低排名音频流；将所述第一组的相应音频流转发到接收器装置；及舍弃所述第二组的相应音频流，其中N与M是独立的整数。

在本发明的另一示范性方面中，提供一种通信方法，其包括：从对应多个客户端装置接收多个音频流；基于预定度量将所述多个音频流排名；将所述多个音频流的第一部分分组成第一组，所述多个音频流的所述第一部分是N个最高排名音频流；将所述多个音频流的第二部分分组成第二组，所述多个音频流的所述第二部分是M个最低排名音频流；将所述第一组的相应音频流转发到接收器装置；及舍弃所述第二组的相应音频流，其中N与M是独立的整数。

在本发明的另一示范性方面中，提供一种非暂时性计算机可读媒体，其存储指令，所述指令在由媒体服务器的处理器执行时致使所述媒体服务器执行包括以下各项的操作：从对应多个客户端装置接收多个音频流；基于预定度量将所述多个音频流排名；将所述多个音频流的第一部分分组成第一组，所述多个音频流的所述第一部分是N个最高排名音频流；将所述多个音频流的第二部分分组成第二组，所述多个音频流的所述第二部分是M个最低排名音频流；将所述第一组的相应音频流转发到接收器装置；及舍弃所述第二组的相应音频流，其中N与M是独立的整数。

以此方式，本发明的各个方面提供至少在电信技术领域的改进。

本发明可体现为各种形式，包含通过计算机实施的方法控制的硬件或电路，计算机程序产品，计算机系统及网络，用户界面及应用编程界面；以及硬件实施的方法，信号处理电路，存储器阵列，专用集成电路，现场可编程门阵列等等。前述发明内容仅打算给出本发明的各个方面的一般理念，且不以任何方式限制本发明的范围。

附图说明

参考附图，在以下说明中更全面揭示各种实施例的这些及其它更详细及特定特征，附图中：

图1A到1C分别图解说明根据本发明的各个方面的示范性通信系统；

图2图解说明根据本发明的各个方面的示范性语音活动数据的标绘图；

图3A到3C分别图解说明根据本发明的各个方面的示范性加权函数；

图4图解说明根据本发明的各个方面的另一示范性通信系统；

图5图解说明根据本发明的各个方面的示范性通信方法的流程；及

图6A图解说明根据本发明的各个方面的另一示范性通信方法的流程；

图6B图解说明根据本发明的各个方面的另一示范性通信方法的流程；及

图7图解说明根据本发明的各个方面的另一示范性通信方法的流程。

具体实施方式

在以下说明中，陈述例如电路配置、时序、操作等众多细节，以便提供对本发明的一或多个方面的理解。所属领域的技术人员将显而易见，这些特定细节仅是示范性的且不打算限制本申请案的范围。

此外，虽然本发明主要集中于其中在话音通信中使用各种电路的实例，但将理解，这仅是实施方案的一个实例。将进一步理解，所揭示系统及方法可在其中需要创建各种声音源及目的地的普遍音频连接性的任何装置中使用；例如，全局通信、物联网、虚拟及增强现实系统、替代及混合现实系统、更广泛的合作、社区成长及支持等。此外，所揭示系统及方法可适用于仅音频应用以及音频与其它感觉模态的组合。

概述

本发明的各个方面提供一种其中可能创建具有许多同时讲话者的场景的高质量的且在一些情形中不可区分的印象同时在任何时间点仅传输实际音频流的子组的系统。因此，本发明的各个方面利用人类听力中的神经学、神经生理学及感知因素的各方面来创建完整复杂话音场景的错觉，而无需详尽的数据传输或混合。

在可能的情况下，人类倾向于将跨越时间及频率的音频分量分组成较小组的感知对象。也就是说，人类往往会依据流感知地分析听觉场景，其中空间、频谱、临时行为、纹理、音高、音高移动等的相似性导致对象融合在一起。此外，人类能够感知跨越听觉流的元素的连续性，甚至当刺激中可能不存在此连续性时。

音位恢复是连续性错觉及其与高级大脑功能及听觉场景的完全感知的关联程度的因素。举例来说，当听者在收听单个讲话者且音节被遮盖或从音频移除且适当遮蔽时，听者将感知发生移除的声音。对于有意义的语言，所感知的声音将是对句子最具意义的声音。此处，“遮蔽”并非指音频内容的忽略，而是用另一声音或噪声覆盖特定声音。以此方式，人类大脑以与缺乏有意义音频信号(无内容，但噪声填充间隙)不同的方式处理无声(寂静)。当被遮蔽时，缺失信息的上下文可以通过启动及导致听觉事件的信息(在一些情形中，在事件之前的数个小时)以及事件后的音频提供。这种现象可以是如此强烈，以致听者相信他或她听到(或记着听到)句子中其未曾存在的点处的缺失声音。举例来说，暴露于音频流“**轮在推车上”及“**食在桌子上”(其中**指示从所述流中移除且遮蔽的音节)的听者报告分别听到“轮子”及“餐食”，尽管音频直到所述流的最终单词为止都是相同的。

因此，在存在从语音适当遮蔽或填充于语音中的缺失内容的情况下，听者可以是稳健的或甚至努力创造将适合于覆盖损失的声音。尽管参考单个讲话者提供上述说明，但所述概念可扩展到其中损失或冲突发生在语音叠加语音及缺失分量被另一语音的存在所遮蔽的情况。

改变盲区是连续性错觉的另一因素。改变盲区是在存在大量活动或听觉场景发生改变的情况下，听者借此不大可能听到声音在时间、频率或空间上的失真、改变、缺失分段及一般操纵的概念。这是一般感知科学的一个子集，其中研究往往与视觉信息相关；然而，由此产生的注意力偏差及感知错误在大多数意义上是相似的。

改变盲区与注意力不集中偏差的概念类似及相关。两个概念略有不同，因为注意力不集中盲区来自于主动及选择性注意力离开可能正在改变或错误的事物，而改变盲区来自于发生许多事件或大量活动且因此更容易隐藏改变的情况。

以上内容可概况为可用于趋向于跟踪对象(流式传输)及活动(改变)的功能的有限感知能力或努力的影响。事实上，人类认为听到的大部分声音实际上是一种以似乎合理的方式与听者的当前情况及听觉输入相匹配的幻觉或记忆中的声音构造。当处理是分层话音叠加话音的内容时，可利用这些感知观察来最小化通信系统中向个别听者进行传输所需的信息量，以借此重新创建由多个话音组成的空间场景。

通信系统

图1A到1C图解说明根据本发明的各个方面的通信系统100a、100b或100c的各种实例。在与区分特定类型无关的情况下，所述系统可统称为通信系统100。

图1A图解说明集中式通信系统100a，其中中央媒体服务器101从多个客户端装置102(为了图解说明清楚，仅标记了其中一个)接收音频流。媒体服务器101进一步为客户端装置102的至少一部分创建一组输出流。对于规模足够大的系统，单个媒体服务器101可能无法管理所有的传入音频流。

图1B图解说明嵌套式通信系统100b，其中中央媒体服务器101经由多个中间服务器103从多个客户端装置102接收音频流。中间服务器103可在处理或不处理的情况下转发来自多个客户端装置102的音频流及/或将输出流转发到所述客户端装置的各种子组。

图1C图解说明共享通信系统100c，其中多个媒体服务器101从多个客户端装置102接收音频流，且其中多个媒体服务器101中的相应者彼此通信。虽然图1C中未特别图解说明，但共享通信系统100c可进一步包含中间服务器，这取决于共享通信系统100c的规模。

在通信系统100中，在特定客户端装置102提供音频流但不接收输出流的情况下，通信链路由单向箭头图解说明且可称为单工通信。在特定客户端102提供音频流并且也接收输出流的情况下，通信链路由双向箭头图解说明且可称为双工通信。虽然未明确图解说明，但本发明也适用于其中特定客户端装置102接收输出流但不提供音频流的配置。

此外，在通信系统100中，各种通信链路可为有线(例如，经由导电线及/或光纤)、无线(例如，经由Wi-Fi、蓝牙、近场通信(NFC)等)或有线与无线的组合(例如，客户端装置102的麦克风与处理器之间，有线；及客户端装置102与媒体服务器101之间，无线)。虽然图1A到1C图解说明特定数目个客户端装置102(总体上以及对于每一媒体服务器101及/或中间服务器103)，但本发明不限于此且可适用于呈任何布置的任何数目个客户端装置102。

在通信系统100中，表示话音的音频数据可包含一系列话音帧。出于图解说明的目的，此处描述其中话音帧具有低噪声或经适当处理以移除噪声的实例。那么可能考虑每一帧的两个特征：帧的均方根(RMS)能量，及帧的频谱峰值或最大值。在此情形中，考虑具有恒定带宽与频率比的一组频带中的能量会导致频带的对数间距。在大部分频谱上，这反映了感知带的性质，例如等效直线带宽(ERB)、巴克尺度(Bark Scale)或梅尔间距(melspacing)。由于带宽随频率线性地增加，因此每单位频率的恒定能量或白噪声将在此尺度上具有单调增加的功率谱。

图2图解说明根据本发明的各个方面的示范性语音活动数据的散点图201及条形图202。具体来说，图1图解说明表示标准语音活动(“哈佛句子(Harvard sentence)”)的一组样本短语的语音活动数据。散点图201展示以分贝(dB)为单位的帧的RMS水平随以赫兹(Hz)为单位的频率而变。更具体来说，散点图201展示具有1/3倍频程混合的哈佛句子的20毫秒(ms)帧。条形图202将来自散点图201的数据展示为频带的计数，并且仅考虑能量高于本底噪声(大约-60dB)的帧。如图2中所图解说明，水平轴在对数尺度上，而垂直轴在线性尺度上(尽管dB本身表示对数值)。

如图2中可见，在低频(<500Hz)处存在大量高能量帧。较高频率(>2kHz)内容帧的数目较少，但对可理解性及声音定位很重要。因此，如果混合或剔除机制不考虑此频率差异，那么可能会丢失用于管理空间存在、可理解性及总体频谱的重要帧。这与话音是音位的级数并且在较高频率处具有峰值的音位本质上是清音及/或摩擦音的理念一致。

在两个或更多个语音帧重叠的情况下，在任何时刻存在高能量帧的可能性增加。在例如上文所描述的媒体服务器100等的服务器在任何时刻仅选择活跃话音帧的子组用于输出的情况下，输出混合将可能由较低频率帧支配。取决于所选择的子组，可能会发生各种情况。举例来说，混和的总体频谱可能会被低频能量所支配且因此听起来在感知上会显得沉闷或不那么清脆。在一些情形中，这对听者来说甚至可能听起来好像系统正在丢失带宽。此外，对可理解性很重要的高频分量(例如，在摩擦音或清音中)可能会从混合中丢失及减少。此外，对于在客户端处在空间上再现减少组的流的情形，丢失的瞬态或宽带内容可能导致空间存在感及丰富的沉浸式音频的减少。

感知突显性

为了避免上述情况，引入加权或其它优先化方案并将其应用于语音帧。优先化方案可基于经加权能量、结构特征或冗长度中的一或多者，包含其组合，且借此提供用于确定给定帧的感知突显性的基础。经加权能量是指引入到帧能量计算中的频谱倾斜或加权函数，以便强调较高频率。结构特征是指对帧的结构及/或语义相关性的考虑，且包含对时序的考虑，其中起始帧被赋予较高优先级及/或语音标记，其中优先级经偏斜以强调将具有较高频谱频率内容及较低能量的帧。冗长度是指其中依据最近活动的量或给定流的冗长度使加权偏移、偏向或直接得出加权的情形，注意包含较近的活动的流可能具有较高的语义重要性且因此更有可能成为感知关注的焦点。

作为加权的基础，考虑图2中所图解说明的散点图201。此形式的典型RMS计算将使用来自块域变换的时间样本或频率仓(frequency bin)样本中的功率和来执行。在使用频域变换的系统的情形中，可使用变换的频率仓。此处，RMS与总功率计算之间的差异对应于通过块大小及平方根运算进行的正规化。在值以dB表达的情况下，从解释的角度来看，最简单的方法是参考音频的平均(每样本)或总(每帧)能量，尽管进行平方根运算，但不失一般性。此外，在不失一般性的情况下，可以仅参考单个信道来解释加权。对于n个样本帧，帧功率P可以根据以下表达式(1)表示：

在表达式(1)中，x(t)(t＝0,…,n-1)是音频；w_t是窗函数，例如sin(π(t+.5)/n)；且X(k)可根据以下表达式(2)表示：

功率P可从帧中的经解码音频样本中计算，或者其可直接存在于经编码音频流中。此外，可从音频译码帧的各方面提取功率P，例如频域变换中的指数，或者从基于自回归模式的编解码器中的线谱对或频率包络提取功率P。在一些情形中，针对帧计算的能量可包含一些处理，例如移除通常由噪声支配的非常低(例如，<100Hz)的频率。

散点图201具有两群集性质。为了更强调右侧的点群集，引入频域加权函数H(k)。通过加权函数H(k)，上面的表达式(1)变成了以下表达式(3)：

在表达式(3)中，加权函数H(k)由以下表达式(4)表示：

以上，h(t)是时域脉冲响应。将频率加权系数表示为H_k，功率P变成以下表达式(5)：

图3A到3C图解说明示范性加权函数301a、301b及301c，且为了参考，重现散点图201。在与区分特定函数无关的情况下，所述函数可统称为加权函数301。为了方便起见，加权函数301将通过以Hz为单位的频率经加权系数来描述，注意k与f之间的关系由块大小及取样频率决定(例如，k＝(n×f)/(F_s×n))。图3A图解说明具有特定形式H(f)＝((2000+f)/6000)⁸的幂加权函数301a。此函数撤销强调低于1000Hz的内容且强调具有处于4000Hz及以上的能量的内容。此方法确保RMS计算不会丢失高信息内容的较低能量语音帧。

加权函数H(k)不限于幂函数。举例来说，图3B及3C分别图解说明逐步线性加权函数301b及301c。图3B的逐步线性加权函数301b将-30dB的权重应用于低于1000Hz的内容，将20dB的权重应用于高于5000Hz的内容，且线性地增加其间的权重。图3B的逐步线性加权函数301b将-30dB的权重应用于低于1000Hz的内容，将10dB的权重应用于高于2500Hz的内容，且线性地增加其间的权重。实施后，逐步线性加权函数301b将对语音中的齿音应用强调。逐步线性加权函数301c将对摩擦音及关键瞬态应用强调。逐步线性加权函数301b及逐步线性加权函数301c两者将撤销强调浊音及爆破音。

在任何情况下，加权函数301具有确保散点图201右侧的群集得分更高并且优先于散点图201左侧的更频繁且更高宽带能量的帧的影响。因此，基于加权函数301的优先化方案保留与留下高频内容及话音印象、可理解性以及关联于这些摩擦音及瞬态的空间线索最相关的帧。因此，加权函数301通过撤销强调频率低于1000Hz的内容及强调频率高于4000Hz的内容来修正远离感知突显性的帧的偏差。以此方式，加权函数301不限于图3A到3C中所图解说明的精确形式。

感知突显性的计算(也就是说，将加权函数301应用于音频数据)优选地由例如上文所描述的多个客户端装置102等的客户端装置执行。因此，由对应多个客户端装置上传的多个音频流可包含指示音频流的内容的音频数据及指示音频流的内容的加权及/或感知突显性的元数据两者。

除以上加权函数之外，感知突显性的计算还可包含瞬时带状信噪比(SNR)、起始检测、其它事件检测、音位加权、冗长度或其组合。

瞬时带状SNR基于跨越一组感知间隔(例如，对数间隔)频带在逐帧基础上进行噪声估计及功率估计的理念。原理上，帧中的能量经由加权矩阵W_b,k从一组n个变换频率仓拆分成一组B个感知带。这可根据以下表达式(6)表示：

通过跟踪信号中最近的平稳噪声的最小值或某种形式的估计，可能检查存在的信号与背景的比率。这提供了一种量度，其中每一感知带b中的活动具有同等重要性，而不管所述带中的绝对功率或所述带中的背景噪声水平如何。这可根据以下表达式(7)及(8)表示：

N_b＝min(P_b|_t＝0，P_b|_t＝－1，P_b|t_＝－2...) (8)

以上，S表示基于感知带的信号活动值，且N_b表示信号中最近的平稳噪声。

起始检测基于对前一帧的分析，以便在当前帧中的能量(通过平稳噪声调整后)明显高于前一帧时，就对正差异进行评分来表达活动。这可包含在以上表达式(8)的N_b的表征中，包含用最近几个帧的平均值P_b替代表达式(8)。以此方式，信号活动S将偏向于仅对最近起始或能量增加的带进行计数。

其它形式的事件检测可基于语音活动的分类。在此分类中，可从基本特征中提取与频谱形状及/或统计参数均值及方差有关的额外特征。在一个实例中，分类器可基于特征的提升来创建决策边界。分类器可另外或替代地基于频谱通量，所述频谱通量是帧随时间在低频与高频频谱峰值之间交替的程度的量度。以此方式，频谱通量增加了对听者倾向于注意到的帧的强调，而这些帧会因另一个能量量度而丢失。

另外或替代地，例如上文所描述的客户端装置102等的客户端装置可具备执行语音分析的能力，这可提供对输入处存在哪个音位的瞬时估计。在一个此类实例中，客户端装置可基于音位的熵对音位进行加权，从而赋予出现频率较低或持续时间较短的音位更高的分数。这将提供语音选择向更突显帧的转变，以保留高频内容及空间化。

流的选择也可能偏向于保留那些最近活跃(或冗长)的流。可基于给定流在其活跃而其它流不活跃的时段内的冗长度的增加来测量冗长度偏差。用于确定冗长度V的算法的一个非限制性实例输出介于0与1之间的值，出于正规化目的在任一极端处饱和。较高的值指示端点更加活跃，且因此更有可能或适合在输出混合中作为最近活跃的声场持续存在。冗长度可根据一组参数在每一帧或瞬间时间进行修改；然而，本发明并不特别限制可选择或包含哪些参数。通常，当端点是活跃的时，冗长度V将增加，且如果其是给定时间唯一活跃的端点，那么冗长度可能会增加得更快。在没有活动的情况下，有可能维持冗长度V的水平或进行衰减并将衰减与相关联声场的淡出联系起来。

在一个实例中，依据以上表达式，由于冗长度V的高值导致的偏差或强调相当于6dB的更大功率或经加权感知突显性(P)。这可由以下表达式(9)表示：

P(db)＝10log₁₀(P)+6V (9)

在表达式(9)中，冗长度V的缩放是示范性而非限制性的。替代上文的为6的缩放，所述缩放可为3dB到10dB之间的任何值。

可在客户端装置中、中间服务器中或媒体服务器中执行上述计算的任何组合。此外，可使用装置的组合来执行所述组合。在一个实例中，可在客户端装置处执行任何冗长度转变之前的感知突显性的计算，且可在服务器处执行进一步的转变。可将加权进一步编码成一系列位；举例来说，通过范围从(000)到(111)的3位二进制代码x，可将加权编码为P＝-35+5x。此编码可促进媒体服务器对包进行排名，如下文将更详细地描述。

可能在不分析整个帧的情况下获取上述数据中的任一者，例如帧RMS。举例来说，在频域中，可能仅使用包络来提取帧RMS。在语音式编码器中，可能从激励向量及线性预测译码(LPC)参数中导出信息。

上文所描述的加权方案主要针对于话音包。在基于话音的加权提供比期望更高的灵敏度的情形(例如，非话音音频的噪声的某些情形)中，可能仅应用加权方案，其中执行加权的装置确信信号包含话音活动。

混合及流选择

例如上文所描述的媒体服务器101等的服务器装置接收且处理由对应多个客户端装置上传的多个音频流。此处理包含选择音频流的子组来瞬时地在服务器装置处转发及/或混合。基于上文所描述的原理，可能通过仅使用潜在活跃流的子组来创建令人信服且有时在感知上无法区分的流再现。

图4图解说明可实施此处理的根据本发明的各个方面的示范性通信系统400。通信系统400可与上文所描述的通信系统100相同或类似。通信系统400包含可与媒体服务器101相同或类似的服务器装置410，及可与客户端装置102相同或类似的多个客户端装置420。

客户端装置420中的每一者将包含音频数据421及元数据422的音频流提供到服务器装置410。虽然图4使用不同箭头图解说明音频数据421及元数据422，但在实践中，音频流可包含编码到单个数据流中的音频数据421及元数据422。元数据422可包含指示加权及/或感知突显性的数据、指示场景中的空间位置的数据及/或其它数据。此外，一些数据继可包含于音频数据421内而其它数据包含于元数据422内。在一个非限制性实例中，音频数据421包含指示加权及/或感知突显性的数据，而元数据422包含空间位置数据。

服务器装置410包含音频流服务器/路由器430、混合器470以及处理及/或多路复用单元480。在其中执行空间再现的情形中，服务器装置410可包含空间计算器440、全局场景信息单元450及控制服务器460。音频流服务器/路由器430从多个客户端装置420接收音频数据421且将所述数据分类成多个组431到433。所述分类可基于包含于音频数据421、元数据422或两者中的数据。此外，虽然图4图解说明三个组431到433，但本发明不限于此。在本发明的一些方面中，可提供仅两个组(或者四个或更多个组)。音频流服务器/路由器430可通过首先基于预定度量(例如上文所描述的加权或感知突显性)将多个音频流排名且基于音频流的排名将音频流分组而执行所述分类。

在本发明的一个示范性方面中，音频流服务器/路由器430从L个客户端装置420接收L个音频流，将N个最高排名音频流分组成第一组431，将M个最低排名音频流分组成第三组433，且将具中间排名的音频流分组成第二组432。以上，L、M及N是独立的整数，使得L≥M+N。可经由处理及/或多路复用单元480将第一组431的音频流作为输出流490转发到一或多个接收器装置；且可舍弃或忽略第三组433的音频流。在本发明的一些方面中，将第二组432的音频流的音频内容混合到第一组431的音频流中的一者中，借此作为输出流490的部分来转发。举例来说，可将第二组432混合到第一组431的最低排名的流中。每一组中流的数目不被特别限制。在一些情形中，第一组431可包含仅单个流；在其它情形中，第一组431可包含多个流。接收器装置可为多个客户端装置420中的任一者或多者及/或与多个客户端装置420分开的额外装置。

在一些实例中，N或M可为零。也就是说，在给定时间点，输入音频流中的任一者均可不包含突显内容，在此情形中，第一组431将为空(N＝0)。此情况可在例如对应于所有客户端装置420的音频流包含应作为输出流490的部分转发的相关音频内容或话音数据时发生。此外，在给定时间点，所有输入音频流可包含突显内容，在此情形中，第三组433将为空(M＝0)。此情况可在例如对应于所有客户端装置420的音频流为寂静的或仅包含非话音数据时发生。

服务器装置410可从多个客户端装置420接收所有音频流且对每一音频编解码帧中的所接收流执行瞬时检查，借此确定与接收器装置相关的流。可以音频帧速率或以比音频帧速率慢的速率更新所述组。此外，在其中存在多个接收器装置的情形中，服务器装置410(例如，通过控制服务器460)可针对每一接收器装置独立地计算组431到433。可将来自空间计算器单元430的信息提供到处理及/或多路复用单元480以包含于输出流490中。

充当接收器装置的客户端装置420中的相应者可具有编解码器的多个实例以适应可能的传入流。然而，在此情形中，客户端装置420不需要使编解码器覆盖所有潜在源，而是可包含足以在通过在服务器装置410处瞬时选择流来传输而停止及开始流的情况下或时确保经解码音频及空间再现的相对连续性的一定数目个编解码器。突然被停止的流可能需要一到两个帧来运行通过编解码器以淡出或返回到中性状态。

在频域编解码器的情形中，这相当于刷新具有重叠窗的淡出部分的解码帧缓冲区。在基于模型或深度神经网络(DNN)的编解码器的情形中，这可能是当前及最近的流模型轨迹的短外推，加上适当的淡出。

图5图解说明用于确定例如图4中所图解说明的组431到433等的组的示范性算法。图5图解说明示范性算法，通过所述示范性算法将N个最突显流转发到客户端装置。在步骤S510处，例如图4的服务器装置410等的服务器装置接收若干个包L。在步骤S520处，服务器装置根据所选择度量将所接收包分类。步骤S520可包含首先基于例如上文所描述的加权或感知突显性等的预定度量将多个包排名，且基于音频流的排名将音频流分组，使得将N个最突显流分组成第一组。在步骤S530处，将第一组的包转发到接收器装置且舍弃或忽略剩余包。

图6A图解说明示范性算法，通过所述示范性算法将N个最突显流转发到客户端装置，且使来自中间突显性流的音频作为混合被包含。在步骤S610处，例如图4的服务器装置410等的服务器装置接收若干个包L。在步骤S620处，服务器装置根据所选择度量将所接收包分类。步骤S620可包含首先基于例如上文所描述的加权或感知突显性等的预定度量将多个包排名，且基于音频流的排名将音频流分组，使得将N个最突显流分组成第一组，将中间突显性流分组成第二组，且将M个最不突显流分组成第三组。在步骤S630处，将来自中间突显性流(也就是说，既不是N个最突显又不是M个最不突显的流)的音频混合到第一组的最不突显包中。在包的总数是L、最突显包的数目是N且最不突显包的数目是M的情况下，可将中间突显性流表示为组[N+1,L-M-1]且可将第一组的最不突显包表示为包N。在步骤S640处，将包含来自作为混合的第二组的音频的第一组的包转发到接收器装置且舍弃或忽略剩余M个包。

如上文所述，虽然未特别限制N及M，但在本发明的一些方面中，N可等于2或3。

存在其中从服务器转发的流需要适应于最大总位速率内的情形。在这些情形中，必须决定如何在流之间分配位。优选方法是将更多位分配给突显性更高的流。图6B图解说明用于在总的N个经转发流必须限制于固定预定最大位速率时在个别流之间分配位的示范性算法。在此情形中，根据突显性度量(例如，基于经加权能量)将位向每一流的分配排序，使得突显性较低的每一流接收到与分配给较高突显性流的位数目相等或更低的位。举例来说，如果指定总‘位桶’为48kbps，限制为三个流，那么可为第一流分配24Kbps，为第二及第三流分配12Kbps。在此情形中，24kbps将被分配给具有最高突显性的流，且每个12Kbps将被分配给具有最低突显性的包。在步骤S650处，例如图4的服务器装置410等的服务器装置接收若干个包L。在步骤S660处，服务器装置根据所选择度量将所接收包分类。步骤S660可包含首先基于例如上文所描述的加权或其它感知突显性度量等的预定度量将多个包排名，且基于音频流的排名将音频流分组，使得将N个最突显流分组成第一组，将中间突显性流分组成第二组，且将M个最不突显流分组成第三组。在步骤S670处，服务器装置按突显性次序将位分配给N个流中的每一者，使得总计不超过最大位速率。在步骤S680处，将包含来自作为混合的第二组的音频的第一组的包转发到接收器装置且舍弃或忽略剩余M个包。

图7图解说明用于在总的N个经转发流必须限制于固定预定最大位速率时在个别流之间分配位的另一示范性算法。在此算法中，将低于阈值的流混合到最高突显性包中且接着按突显性次序将位分配给每一流，其中突显性较低的流接收到与突显性较高的流数目相等或更低的位。在步骤S710处，例如图4的服务器装置410等的服务器装置接收若干个包L。在步骤S720处，服务器装置根据所选择度量将所接收包分类。步骤S720可包含首先基于例如上文所描述的加权或感知突显性等的预定度量将多个包排名，且基于音频流的排名将音频流分组，使得将N个最突显流分组成第一组，将中间突显性流分组成第二组，且将M个最不突显流分组成第三组。在步骤S730处，将来自中间突显性流(也就是说，既不是N个最突显又不是M个最不突显的流)的音频混合到对应于最高突显性流的包1中。在步骤S7400处，服务器装置按突显性的次序将位分配给N个流中的每一者，使得总计不超过最大位速率。在步骤S750处，将包含来自作为混合的第二组的音频的第一组的包转发到接收器装置且舍弃或忽略剩余M个包。

应用

关于本文中所描述的过程、系统、方法、启发等，应理解，尽管已将此类过程的步骤等描述为根据某一经排序顺序发生，但可在以与本文中所描述的次序不同的次序执行所描述步骤的情况下实践此类过程。进一步应理解，可同时执行某些步骤，可添加其它步骤或可省略本文中所描述的某些步骤。换句话说，对本文中的过程的说明是出于图解说明某些实施例的目的而提供的，且绝不应被解释为是为了限制权利要求书。

已主要关于话音场景的管理及再现描述了上述实例；然而，本发明不应被理解为仅适用于或特定于话音内容。本发明中所描述的概念通常可扩展到具高度瞬态性质的任何信号，包含语义及潜在交互信息内容。关于人类对话音及类似话音的声音的感知的以上说明是作为实例提供的，而不是对系统使用的限制。

此外，虽然本发明就终端客户端处音频的重组及再现大体上提及空间信息的方面，但本发明可扩展到其中存在音频流的情况，所述音频流具有关于其在流中的既定位置、识别符及客户端信息的明确信息或关于在何处呈现流的决定或者这两者的某种组合。所述信息可进一步与来自其它音频控制系统的额外场景控制信息组合。以此方式，空间应用表示也涵盖单声道的一个超集，其中大部分旨在控制再现的方向及/或距离信息可能被忽略或不存在。在使用空间音频技术再现场景以向用户创建空间图像的情况下，可以许多不同的方式递送音频。举例来说，音频流可通过耳机(双耳)递送并模拟在声音真正出现在用户附近的情况下会发生的声学传播及空间声学；替代地，可控制听者周围的几个扬声器位置的输出，以产生近似或感知有效的声场感。

本发明涉及一组音频流，每一音频流来自特定源，所述特定源可具有独立于其它源的活动。然而，这些音频流中的每一者不需要仅表示一个音频声道。音频流本身可具有已在其中部分编码的空间音频特性；举例来说，流可为双耳音频或某种形式的多声道空间音频。此外，在给定流内，可存在额外的层及阶层方法来表示信号精度(例如，位速率)及空间精度(例如，层或声道)两个方面的保真度。

在各种实施方案中，本说明书中所揭示的技术适用于但不限于多声道音频的音频编码，其中通信系统可为音频译码系统，媒体服务器可为音频编码器，且客户端可为音频源。

可从以下所列举实例实施例(EEE)了解本发明的各个方面：

所列举实例实施例1.一种通信系统，其包括：

媒体服务器，其经配置以从对应多个客户端装置接收多个音频流，所述媒体服务器包含经配置以进行以下操作的电路系统：

基于预定度量将所述多个音频流排名，

将所述多个音频流的第一部分分组成第一组，所述多个音频流的所述第一部分是N个最高排名音频流，

将所述多个音频流的第二部分分组成第二组，所述多个音频流的所述第二部分是M个最低排名音频流，

将所述第一组的相应音频流转发到接收器装置，及

舍弃所述第二组的相应音频流，

其中N与M是独立的整数。

所列举实例实施例2.根据所列举实例实施例1所述的通信系统，所述电路系统进一步经配置以：

将所述多个音频流的第三部分分组成第三组，所述多个音频流的所述第三部分是排名在所述第一部分与所述第二部分之间的所述音频流，及

将所述第三组的音频内容混合到所述第一组的所述音频流中的一者中。

所列举实例实施例3.根据所列举实例实施例1或2所述的通信系统，其中所述多个音频流中的相应者包含音频数据及元数据，所述元数据包含指示加权的数据。

所列举实例实施例4.根据所列举实例实施例3所述的通信系统，其中所述加权基于感知突显性。

所列举实例实施例5.根据所列举实例实施例4所述的通信系统，其中每一流被分配若干个位，其中较高突显性的流接收到等于或高于较低突显性的流的位。

所列举实例实施例6.根据所列举实例实施例3到5中任一所列举实例实施例所述的通信系统，其中所述元数据进一步包含指示场景中的空间位置的数据。

所列举实例实施例7.根据所列举实例实施例3到6中任一所列举实例实施例所述的通信系统，其中所述加权撤销强调具有低于1000Hz的频率的内容且强调具有高于4000Hz的频率的内容。

所列举实例实施例8.根据所列举实例实施例1到7中任一所列举实例实施例所述的通信系统，其中所述接收器装置是所述多个客户端装置中的一者。

所列举实例实施例9.一种通信方法，其包括：

从对应多个客户端装置接收多个音频流；

基于预定度量将所述多个音频流排名；

将所述多个音频流的第一部分分组成第一组，所述多个音频流的所述第一部分是N个最高排名音频流；

将所述多个音频流的第二部分分组成第二组，所述多个音频流的所述第二部分是M个最低排名音频流；

将所述第一组的相应音频流转发到接收器装置；及

舍弃所述第二组的相应音频流，

其中N与M是独立的整数。

所列举实例实施例10.根据所列举实例实施例9所述的通信方法，其进一步包括：

所列举实例实施例11.根据所列举实例实施例9或10所述的通信方法，其中所述多个音频流中的相应者包含音频数据及元数据，所述元数据包含指示加权的数据。

所列举实例实施例12.根据所列举实例实施例11所述的通信方法，其中所述加权基于感知突显性。

所列举实例实施例13.根据所列举实例实施例12所述的通信方法，其中每一流被分配若干个位，其中较高突显性的流接收到等于或高于较低突显性的流的位。

所列举实例实施例14.根据所列举实例实施例11到13中任一所列举实例实施例所述的通信方法，其中所述元数据进一步包含指示场景中的空间位置的数据。

所列举实例实施例15.根据所列举实例实施例11到14中任一所列举实例实施例所述的通信方法，其中所述加权撤销强调具有低于1000Hz的频率的内容且强调具有高于4000Hz的频率的内容。

所列举实例实施例16.根据所列举实例实施例9到15中任一所列举实例实施例所述的通信方法，其中所述接收器装置是所述多个客户端装置中的一者。

所列举实例实施例17.一种非暂时性计算机可读媒体，其存储指令，所述指令在由媒体服务器的处理器执行时致使所述媒体服务器执行包括以下各项的操作：

从对应多个客户端装置接收多个音频流；

基于预定度量将所述多个音频流排名；

将所述第一组的相应音频流转发到接收器装置；及

舍弃所述第二组的相应音频流，

其中N与M是独立的整数。

所列举实例实施例18.根据所列举实例实施例17所述的非暂时性计算机可读媒体，其进一步包括：

所列举实例实施例19.根据所列举实例实施例17或18所述的非暂时性计算机可读媒体，其中所述多个音频流中的相应者包含音频数据及元数据，所述元数据包含指示加权的数据。

所列举实例实施例20.根据所列举实例实施例19所述的非暂时性计算机可读媒体，其中所述加权基于感知突显性。

所列举实例实施例21.根据所列举实例实施例20所述的非暂时性计算机可读媒体，其中每一流被分配若干个位，其中较高突显性的流接收到等于或高于较低突显性的流的位。

所列举实例实施例22.根据所列举实例实施例19到21中任一所列举实例实施例所述的非暂时性计算机可读媒体，其中所述元数据进一步包含指示场景中的空间位置的数据。

所列举实例实施例23.根据所列举实例实施例19到22中任一所列举实例实施例所述的非暂时性计算机可读媒体，其中其中所述加权撤销强调具有低于1000Hz的频率的内容且强调具有高于4000Hz的频率的内容。

Claims

1.一种通信系统，其包括：

基于预定度量将所述多个音频流排名；其中音频流的所述度量包括所述音频流的帧的经加权能量；其中使用加权函数来确定所述音频流的所述帧的所述经加权能量，所述加权函数撤销强调具有低于1000Hz的频率的频谱频率内容且强调具有高于4000Hz的频率的频谱频率内容，

将所述第一组的相应音频流转发到接收器装置，及

舍弃所述第二组的相应音频流，

其中N与M是独立的整数。

2.根据权利要求1所述的通信系统，所述电路系统进一步经配置以：

3.根据权利要求1或2所述的通信系统，其中所述多个音频流中的相应者包含音频数据及元数据，音频流的所述元数据包含指示所述音频流的帧的所述经加权能量的数据。

4.根据权利要求1到3中任一权利要求所述的通信系统，其中待由所述服务器转发的每一流被分配若干个位，其中较高排名的流接收到等于或高于较低排名的流的位。

5.根据权利要求3或4所述的通信系统，其中音频流的所述元数据进一步包含指示场景中的空间位置的数据。

6.根据权利要求1到5中任一权利要求所述的通信系统，其中所述接收器装置是所述多个客户端装置中的一者。

7.一种通信方法，其包括：

从对应多个客户端装置接收多个音频流；

基于预定度量将所述多个音频流排名；其中音频流的所述度量包括所述音频流的帧的经加权能量；其中使用加权函数来确定所述音频流的所述帧的所述经加权能量，所述加权函数撤销强调具有低于1000Hz的频率的频谱频率内容且强调具有高于4000Hz的频率的频谱频率内容；

将所述第一组的相应音频流转发到接收器装置；及

舍弃所述第二组的相应音频流，

其中N与M是独立的整数。

8.根据权利要求7所述的通信方法，其进一步包括：

9.根据权利要求7或8所述的通信方法，其中所述多个音频流中的相应者包含音频数据及元数据，音频流的所述元数据包含指示所述音频流的帧的所述经加权能量的数据。

10.根据权利要求7到9中任一权利要求所述的通信方法，其中每一流被分配若干个位，其中较高排名的流接收到等于或高于较低排名的流的位。

11.根据权利要求9或10所述的通信方法，其中音频流的所述元数据进一步包含指示场景中的空间位置的数据。

12.根据权利要求7到11中任一权利要求所述的通信方法，其中所述接收器装置是所述多个客户端装置中的一者。

13.一种非暂时性计算机可读媒体，其存储指令，所述指令在由媒体服务器的处理器执行时致使所述媒体服务器执行包括以下各项的操作：

从对应多个客户端装置接收多个音频流；

将所述第一组的相应音频流转发到接收器装置；及

舍弃所述第二组的相应音频流，

其中N与M是独立的整数。

14.根据权利要求13所述的非暂时性计算机可读媒体，其进一步包括：

15.根据权利要求13或14所述的非暂时性计算机可读媒体，其中所述多个音频流中的相应者包含音频数据及元数据，音频流的所述元数据包含指示所述音频流的帧的所述经加权能量的数据。

16.根据权利要求13到15中任一权利要求所述的非暂时性计算机可读媒体，其中每一流被分配若干个位，其中较高排名的流接收到等于或高于较低排名的流的位。

17.根据权利要求13到16中任一权利要求所述的非暂时性计算机可读媒体，其中音频流的所述元数据进一步包含指示场景中的空间位置的数据。