CN107408395B

CN107408395B - 会议音频管理

Info

Publication number: CN107408395B
Application number: CN201680016361.2A
Authority: CN
Inventors: 芬卡特拉曼·S·阿提; 丹尼尔·J·辛德尔; 尼古拉·梁; 维韦克·拉金德朗
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2015-04-05
Filing date: 2016-03-30
Publication date: 2020-12-01
Anticipated expiration: 2036-03-30
Also published as: WO2016164233A1; US10225814B2; AU2016244809A1; EP3512186B1; TWI713511B; CN107408395A; BR112017021350A2; EP3281396A1; EP3512186A1; JP2021067956A; US20190150113A1; US11910344B2; AU2016244809B2; TW201640878A; JP2018515009A; HUE044919T2; US20160295539A1; ES2736878T3; ES2847416T3; EP3281396B1

Abstract

本发明公开一种用于在会议期间管理音频的方法，所述方法包含：在移动装置的第一缓冲器处接收来自与所述会议的第一参与者相关联的第一装置的第一音频流。所述方法还包含：在所述移动装置的第二缓冲器处接收来自与所述会议的第二参与者相关联的第二装置的第二音频流。所述方法进一步包含：在所述移动装置的延迟控制器处产生控制信号。将所述控制信号提供到所述第一缓冲器及所述第二缓冲器以使从所述第一缓冲器输出的第一缓冲音频与从所述第二缓冲器输出的第二缓冲音频同步化。

Description

会议音频管理

优先权主张

本申请主张2016年3月29日申请的标题为“会议音频管理(CONFERENCE AUDIOMANAGEMENT)”的美国专利申请第15/083,974号，及2015年4月5日申请的标题为“移动装置处的会议音频管理(CONFERENCE AUDIO MANAGEMENT AT A MOBILE DEVICE)”的美国临时专利申请第62/143,154号，及2015年4月7日申请的标题为“会议音频管理(CONFERENCE AUDIOMANAGEMENT)”的美国临时专利申请第62/144,033号的优先权，所述美国专利申请的内容以全文引用的方式并入本文中。

技术领域

本发明大体上是关于会议音频管理。

背景技术

技术的前进已产生较小且较强大的计算装置。举例来说，当前存在各种便携式个人计算装置，包含无线计算装置，例如小型、轻质且容易由用户携载的便携式无线电话、个人数字助理(PDA)及传呼装置。更具体来说，便携式无线电话(例如蜂窝式电话及因特网协议(IP)电话)可经由无线网络传达语音及数据包。此外，许多此些无线电话包含并入其中的其它类型装置。举例来说，无线电话也可包含数字静止相机、数字摄像机、数字记录器及音频文件播放器。

与三个或三个以上对应无线装置相关联的三个或三个以上参与者可使用“电话会议”来彼此通信。在电话会议期间，第一无线装置可接收来自网络混合器的“混合音频流”。举例来说，网络混合器可接收来自电话会议的每一参与者的音频流。在接收音频流之后，网络混合器可将来自第二无线装置的音频流与来自第三无线装置的音频流混合以产生混合音频流来提供给第一无线装置。为了产生混合音频流，网络混合器对每一传入音频流进行解码，混合经解码音频流及对混合的经解码音频流进行重新编码。然而，与产生混合音频流相关联的音频处理可引入延迟。另外，因为会议参与者从中央网络混合物接收混合音频流，所以其可不可能个别地调整参与者音频。举例来说，如果A方、B方及C方参与会议，那么A方可不能够使用增益调整或空间处理技术来超过C方的语音而强调B方的语音，这是因为网络混合器为A方提供包含来自B方及C方两者的语音的单一混合流。

发明内容

公开用于在会议期间管理音频的系统及方法。根据特定实施方案，为了实现对来自个别会议参与者的音频的调整，网络混合器可代替产生混合流而延迟个别音频流到参与者。举例来说，在三方会议中，A方可分别接收来自B方及C方的单独音频流。然而，由于网络状况的变化，来自B方及C方的流可彼此不同步化，此可导致A方装置的暂时错误输出。为了说明，如果B方的流被延迟，那么A方可在听到C方对由B方提出问题的回答之后才听到所述问题。

根据本文中所描述的技术，移动装置可使用缓冲器管理来使从不同装置接收的流同步化。举例来说，可将来自第一会议参与者的第一音频流提供到所述移动装置的第一缓冲器(例如，去抖音缓冲器)，且可将来自第二会议参与者的第二音频流提供到所述移动装置的第二缓冲器。在接收到所述第一音频流及所述第二音频流之后，延迟控制器可比较所述第一音频流的时戳与所述第二音频流的时戳以使来自所述第一会议参与者的音频与来自所述第二会议参与者的音频同步化。所述音频的同步化可在所述会议期间满足第三代合作伙伴计划(3GPP)技术规范(TS)26.114延迟要求。举例来说，所述延迟控制器可基于所述时戳而提供控制信号到所述第一缓冲器及所述第二缓冲器，使得所述第一缓冲器输出所述第一音频流的实时传送协议(RTP)包，大约同时所述第二缓冲器输出所述第二音频流的对应RTP包。

在同步化之后，可对所述第一音频流及所述第二音频流进行单独解码以分别产生第一经解码音频及第二经解码音频。可将所述第一经解码音频及所述第二经解码音频混合以在所述移动装置处产生输出音频流。在一些实施方案中，可将第一头部相关转移函数(HRTF)应用于所述第一经解码音频以基于用户定义设定而调整所述第一经解码音频的第一增益且空间操纵(例如，平移(pan))所述第一经解码音频。另外，可将第二HRTF应用于所述第二经解码音频以基于用户定义设定而调整所述第二经解码音频的第二增益且空间操纵所述第二经解码音频。因此，将所述第一音频流及所述第二音频流提供到所述移动装置(与在网络混合器处混合所述音频流且将所得混合音频流提供到所述移动装置相反)可实现所述移动装置可能够控制个别音频流的特性(例如，增益特性及空间平移特性)。特定来说，音频平移可使得再现装置能够进行选择以通过调整所述混合增益来变化或调整所述参与者的音频电平。此外，音频空间化可使得所述再现装置能够选择不同HRTF函数以将所述参与者进行空间分布(例如，虚拟安排座位)，此可在同时说话者的状况下改进说话者/话语区分及优选理解。另外，可减少(例如，消除)与在所述网络混合器处混合音频流相关联的延迟。

根据本文中所描述的技术的一项实例，一种用于在会议期间管理音频的方法包含：在移动装置的第一缓冲器处接收来自与所述会议的第一参与者相关联的第一装置的第一音频流。所述方法还包含：在所述移动装置的第二缓冲器处接收来自与所述会议的第二参与者相关联的第二装置的第二音频流。所述方法进一步包含：在所述移动装置的延迟控制器处产生控制信号。将所述控制信号提供到所述第一缓冲器及所述第二缓冲器以使从所述第一缓冲器输出的第一缓冲音频与从所述第二缓冲器输出的第二缓冲音频同步化。

根据本文中所描述的技术的另一实例，一种移动装置包含第一缓冲器，所述第一缓冲器经配置以从与会议的第一参与者相关联的第一装置接收第一音频流。所述移动装置还包含第二缓冲器，所述第二缓冲器经配置以从与所述会议的第二参与者相关联的第二装置接收第二音频流。所述移动装置进一步包含延迟控制器，所述延迟控制器经配置以产生控制信号。将所述控制信号提供到所述第一缓冲器及所述第二缓冲器以使从所述第一缓冲器输出的第一缓冲音频与从所述第二缓冲器输出的第二缓冲音频同步化。

根据本文中所描述的技术的另一实例，一种非暂时性计算机可读媒体包含用于在会议期间管理音频的指令。所述指令在由移动装置中的处理器执行时致使所述处理器执行操作。所述操作包含：在第一缓冲器处接收来自与所述会议的第一参与者相关联的第一装置的第一音频流。所述操作进一步包含：在第二缓冲器处接收来自与所述会议的第二参与者相关联的第二装置的第二音频流。所述操作还包含：在延迟控制器处产生控制信号。将所述控制信号提供到所述第一缓冲器及所述第二缓冲器以使从所述第一缓冲器输出的第一缓冲音频与从所述第二缓冲器输出的第二缓冲音频同步化。

根据本文中所描述的技术的另一实例，一种设备包含用于从与会议的第一参与者相关联的第一装置接收第一音频流的装置。所述设备还包含用于从与所述会议的第二参与者相关联的第二装置接收第二音频流的装置。所述设备进一步包含用于产生控制信号的装置。将所述控制信号提供到用于接收所述第一音频流的所述装置及用于接收所述第二音频流的所述装置以使从用于接收所述第一音频流的所述装置输出的第一缓冲音频与从用于接收所述第二音频流的所述装置输出的第二缓冲音频同步化。

由所公开实施方案中的至少一者提供的特定优点包含减少与在网络混合器处混合会议中的多个音频流相关联的延迟。举例来说，略过在网络混合器处的音频混合可改进(例如，减少)所述会议期间的延迟。在检阅整个申请(包含以下章节)之后，本发明的其它实施方案、优点及特征将变得显而易见：“图式简单说明”、“实施方式”及“权利要求书”。

附图说明

图1A是说明可操作以在会议期间管理音频的系统的图解；

图1B是说明可操作以在会议期间管理音频的另一系统的图解；

图1C是说明可操作以在会议期间管理音频的另一系统的图解；

图2A是可操作以在会议期间管理音频的移动装置的图解；

图2B是图2A中的移动装置的另一实施；

图3是说明使用头部相关转移函数(HRTF)处理的经解码音频的图解；

图4是说明使用HRTF及头部跟踪数据处理的经解码音频的图解；

图5是说明可操作以在会议期间使用因特网协议(IP)多播会话管理音频的系统的图解；

图6是说明用于在会议期间管理音频的方法的流程图；及

图7是可操作以根据图1A到6的系统、图解及方法执行信号处理操作的移动装置的框图。

具体实施方式

参考图式描述本发明的特定技术。在描述中，贯穿诸图式共同特征由共同参考数字指定。

参考图1A，展示可操作以在会议期间管理音频的系统100的特定实施方案。系统100包含移动装置102、第一装置110、第二装置120、第三装置130及网络装置190。在一项实例中，移动装置102、第一装置110、第二装置120及第三装置130可各自包含与第三代合作伙伴计划(3GPP)标准兼容的用户装备(UE)。尽管图1A中说明四方会议，但应理解，在替代实施中，四个以上或四个以下方可参与会议。

移动装置102、第一装置110、第二装置120及第三装置130可参与会议(例如，音频电话会议)中。网络装置190可经配置以将音频(例如，音频流)从一个装置路由到连接到电话会议的每一其它装置。

为了说明，移动装置102可经配置以产生音频流104，音频流104在移动装置102处经编码。音频流104可包含语音(例如，用户语音)及/或背景噪声。音频流104可经提供到网络装置190，且网络装置190可将音频流104(或其经转码/经处理版本)路由到其它装置110、120、130。第一装置110可经配置以产生第一音频流114，第一音频流114在第一装置110处经编码。第一音频流114可包含来自会议的第一参与者(例如，第一装置110的用户)的语音及/或第一装置110处的背景噪声。第一音频流114可经提供到网络装置190，且网络装置190可将第一音频流114(或其经转码/经处理版本)路由到其它装置102、120、130。第二装置120可经配置以产生第二音频流124，第二音频流124在第二装置120处经编码。第二音频流124可包含来自会议的第二参与者(例如，第二装置120的用户)的语音及/或第二装置120处的背景噪声。第二音频流124可经提供到网络装置190，且网络装置190可将第二音频流124(或其经转码/经处理版本)路由到其它装置102、110、130。第三装置130可经配置以产生第三音频流134，第三音频流在第三装置130处经编码。第三音频流134可包含来自会议的第三参与者(例如，第三装置130的用户)的语音及/或第三装置130处的背景噪声。第三音频流134可经提供到网络装置190，且网络装置190可将第三音频流134(或其经转码/经处理版本)路由到其它装置102、110、120。

尽管每一音频流104、114、124、134经描述为包含来自会议的特定用户/参与者的语音，但在其它实例中，一或多个音频流104、114、124、134可包含来自会议的多个参与者的语音。举例来说，装置中的两者或两个以上者可彼此相对紧密接近且可“拾取”来自会议的多个参与者的语音。另外或在替代方案中，音频流可包含来自与单个用户装备(例如，单个移动装置)相关联的多个会议参与者的语音。举例来说，多个会议参与者可对着单个移动(或固定)装置演说，且移动(或固定)装置可产生包含来自多个会议参与者的语音的音频流。为了说明，第一音频流114可为包含来自多个扬声器的语音的单个音频流。举例来说，如果四个人正对着第一装置110演说，那么第一音频流114可为单声道音频流、立体声音频流、4声道音频流(例如，每扬声器一个声道)等等。

如上文所描述，网络装置190可将分别来自装置110、120、130的经编码音频流114、124、134路由到移动装置102。根据本文中所描述的技术，移动装置102可执行音频混合使得在网络装置190处略过音频混合。关于图2A更详细地描述移动装置102处的音频混合。因此，代替对音频流114、124、134进行解码，混合经解码音频流以产生混合音频流，对混合音频流进行重新编码以产生经重新编码音频流，及将经重新编码音频流提供到移动装置102，网络装置190可将每一经编码音频流114、124、134路由到移动装置102。

根据一项实例，网络装置190可作为“主交换器”进行操作以在其它装置102、110、120、130之间执行发信活动。举例来说，网络装置190可分别从装置102、110、120、130接收音频流104、114、124、134，且可协商与延迟音频流104、114、124、134相关联的位率控制。在接收到音频流之后，网络装置190可协商将特定音频流路由到特定装置的位率。作为说明性非限制实例，网络装置190可协商(与移动装置102)将第一音频流114提供到移动装置102的第一位率、将第二音频流124提供到移动装置102的第二位率及将第三音频流134提供到移动装置102的第三位率。基于个别装置能力，网络装置190也能够协商可传达信号(例如，音频流)的带宽(例如，上行链路带宽及下行链路带宽)。举例来说，基于每一装置102、110、120、130的编码器/解码器(CODEC)能力，网络装置190可能够协商将音频流提供到特定装置的带宽。

略过在网络装置190处的音频混合且在个别装置102、110、120及130处执行音频混合可减少可原本与网络装置190处的音频处理链相关联的质量降级。举例来说，可减少由于网络装置190处的解码操作、网络装置190处的混合操作、及网络装置190处的重新编码操作所致的音频质量降级。因此，通过在个别装置102、110、120及130处执行音频混合(与网络装置190相反)，可略过汇接编码操作及转码操作。另外，可减少双耳觉的损失。举例来说，如果第一音频流114为立体声音频流且其它音频流124、134为单声道音频流，那么移动装置102可在将个别音频流114、124、134发送到移动装置102的条件下保留第一音频流114的立体声质量。然而，在网络装置190处执行音频混合(例如，解码、混合及重新编码)且将混合音频流提供到移动装置102可增加第一音频流114的立体声质量将“损失”的可能性。举例来说，可不保证在音频混合期间网络装置190将保留第一音频流114的立体声质量。

另外，略过在网络装置190处的音频混合可减少音频处理链(例如，转码链)中的延迟。举例来说，在网络装置190处执行音频混合可要求网络装置190支持去抖音缓冲器，所述去抖音缓冲器添加延迟到音频处理链。也可通过略过在网络装置190处的音频混合而避免多个重新编码。举例来说，为了产生用于移动装置102的混合流，网络装置190可对包含音频流114、124、134(或由其产生)的混合音频流进行重新编码。作为另一实例，为了产生用于第一装置110的混合流，网络装置190可对包含音频流104、124、134(或由其产生)的混合音频流进行重新编码。可执行类似重新编码操作以将混合音频提供到其它装置120、130。系统100可通过略过在网络装置190处的音频混合而避免此些重新编码操作。

在特定实施方案中，如关于图2A到4所描述，移动装置102可将个人化头部相关转移函数(HRTF)应用于音频流114、124、134。因此，可使用HRTF来执行空间操纵来实现超过“传统”立体声音频能力的多声道音频(例如，左声道音频、右声道音频或其组合)。此外，如关于图2A及4所描述，略过在网络装置190处的音频混合可基于移动装置102处的头部跟踪特征而实现空间操纵。在其中会议包含音频流及视频流的情景中，略过在网络装置190处的音频混合也可使得移动装置102能够在视频未在例如网络装置190的网络装置处转码的条件下使音频及视频同步化。

在特定实施方案中，所描述的系统及方法可支持会议的音频/视频同步化，所述同步化可使用各种技术执行。根据音频/视频同步化的一项实例，音频流及对应视频流可在网络装置190处转码。根据音频/视频同步化的另一实例，可通过网络装置190将来自每一装置102、110、120、130的视频流中继到系统100内的其它装置，且可将来自每一装置102、110、120、130的音频流104、114、124、134在网络装置190处转码以产生混合音频流。举例来说，网络装置190可产生包含音频流114、124、134(或由其产生)的混合音频流且可将混合音频流发送到移动装置102。中继到移动装置102的个别视频流(与装置110、120、130相关联)可包含具有从装置110、120、130产生的时戳的RTP包，这是因为网络装置190略过对视频流的转码操作。然而，混合音频流可由于网络装置190处的转码操作而具有不同于视频流的时戳的时戳。移动装置120可确定(例如，跟踪)视频流的时戳与混合音频流的时戳之间的延迟。在确定延迟之后，移动装置102可调整混合音频流及/或视频流以使音频及视频同步化。

根据音频/视频同步化的另一实例，可通过网络装置190将来自每一装置102、110、120、130的视频流中继到系统100内的其它装置，且也可通过网络装置190将来自每一装置102、110、120、130的音频流104、114、124、134中继到系统100内的其它装置。根据此实例，在网络装置190处略过用于音频及视频的转码操作。由于视频流及音频流104、114、124、134在单独RTP包中发送，因此，RTP视频包与对应RTP音频包之间可存在漂移(例如，延迟)。举例来说，来自第一装置110的第一音频流114的RTP音频包及对应RTP视频包可具有不同时戳。在接收RTP音频包及对应RTP视频包之后，移动装置102可使RTP音频包及对应RTP视频包同步化。

根据本文中所描述的技术，移动装置102可能够基于用户定义设定、移动装置102的硬件能力或其组合而“协商”(例如，调整或执行会话描述协议(SDP)协商)在会议期间提供到移动装置102的每一音频流114、124、134的位率及/或带宽。为了说明，移动装置102可将第一信号(未展示)提供到网络装置190以调整将第一音频流114提供到移动装置102的第一位率，将第二信号(未展示)提供到网络装置190以调整将第二音频流124提供到移动装置102的第二位率及/或将第三信号(未展示)提供到网络装置190以调整将第三音频流134提供到移动装置102的第三位率。作为说明性非限制实例，移动装置102可向网络装置190发送信号，所述信号指示移动装置102的用户偏好使第一音频流114而非其它音频流124、134具有较高质量(例如，较大带宽)(例如，以强调来自使用第一装置110的会议参与者的语音)。

根据另一实施方案，系统100中的每一装置可“直接”与系统100中的其它装置协商位率及/或带宽(例如，略过网络装置190处的协商)。作为非限制实例，移动装置102可直接与第一装置110协商以调整将第一音频流114提供到移动装置102的第一位率。根据此非限制性实例，网络装置190可作为“管理装置”操作且可监视接收传入音频流104、114、124、134的位率。然而，与在网络装置190处相反，在装置102、110、120、130处执行协商。

在特定情景中，网络装置190可作为“包集束器”操作且可集束用于系统100中的特定装置的RTP包。为了说明，网络装置190可将音频流104、第二音频流124及第三音频流134(例如，其包)集束到提供到第一装置110的“经集束包”中。网络装置190可将RTP标头插入于经集束包中且可将经集束包发送到第一装置110。根据此情景，第一装置110可利用单个去抖音缓冲器来处理从网络装置190接收的经集束(RTP)包的流。网络装置190可指派经集束包中的装置识别符(ID)以就哪一音频流104、124、134与每一装置102、120、130相关联指示第一装置110内的处理元件。举例来说，集束内的每一包可包含产生包的装置的识别符。在特定实施中，集束内的包可包含其特有时戳。集束整体上可或可不包含时戳。因此，在特定实施中，去抖音缓冲器管理可包含利用流内时戳以及流间时戳，如参考图2A进一步描述。

在一项实例中，用以接收音频流114、124、134的移动装置102处的带宽可取决于给定时间处的作用扬声器的数目。举例来说，基于移动装置102的硬件能力(例如，带宽限制)，移动装置102可具有对接收及处理来自网络装置190的音频的带宽。随着给定时间处的作用扬声器的数目增加，移动装置102处的可用资源(例如，硬件)带宽可减少。

为了减轻带宽限制，会议可“自调节”以减少给定时间处的作用扬声器的数目。通常，不会同时存在许多作用扬声器；否则，会议交谈的跟踪难度可能益增。如果在给定时间特定装置处的参与者未进行演说，由所述装置产生的对应音频流中的数据帧可包含已中止传输(DTX)数据帧且可具有指示背景噪声特性的相对低位率(例如，大约0.3千位/秒(kbps))。举例来说，如果第一装置110处的第一参与者在给定时间处沉默，那么第一音频流114的平均数据速率可为大约0.3kbps(基于每8个帧发送2.4kbps帧(例如，2.4kbps/8＝0.3kbps))。

假定作用扬声器根据具有每8个帧的频率的协议的信号指示符(SID)具有上行链路位率13.2kbps。在一项非限制实例中，协议可为增强型语音服务(EVS)协议。当存在一个作用扬声器(例如，第一装置110处的第一参与者)时，第一装置110的平均上行链路位率可为13.2kbps，且其它装置102、120、130中的每一者的平均上行链路位率可为0.3kbps(例如，DTX位率)。因此，平均总上行链路网络带宽可为大约13.2+0.3+0.3+0.3＝14.1kbps。当在参与者装置处执行音频混合(与在网络装置190处相反)时，到移动装置102的下行链路位率为13.8kbps，到第一装置110的平均下行链路位率为0.9kbps，到第二装置120的平均下行链路位率为13.8kbps，且到第三装置130的平均下行链路位率为13.8kbps。因此，平均总下行链路位率可为大约42.3kbps。平均总下行链路位率可小于当在网络装置190处执行混合时的平均总下行链路位率。

当在给定时间会议中的两个参与者正进行演说时，每一作用扬声器可具有13.2kbps的平均上行链路位率。如果在给定时间第一装置110处的第一参与者及第二装置120处的第二参与者正进行演说，第一装置110的平均上行链路位率可为13.2kbps且第二装置120的平均上行链路位率可为13.2kbps。其它装置102、130中的每一者的平均上行链路位率可为0.3kbps(例如，DTX位率)。因此，平均总上行链路网络带宽可为大约27kbps。当在参与者装置处执行音频混合(与在网络装置190处相反)时，到移动装置102的平均下行链路位率为26.7kbps，到第一装置110的平均下行链路位率为13.8kbps，到第二装置120的平均下行链路位率为13.8kbps，且到第三装置130的平均下行链路位率为26.7kbps。因此，平均总下行链路位率可为大约82kbps。平均总下行链路位率可小于当在网络装置190处执行混合时的平均总下行链路位率。

如上文所描述，除了会议的“自调节”性质外，移动装置102可发送信号到网络装置190以基于用户定义设定减少下行链路带宽。作为非限制实例，如果移动装置102的用户不想要听到第一装置110的第一参与者不得不说的内容，用户可对网络装置190发信从而以较低位率(例如，“下一”减少作用帧编码速率，作为说明性非限制实例例如9.6kbps)提供第一音频流114以减少对移动装置102处的带宽限制的约束。特定来说，对音频的此隐式发言权控制可基于从再现装置到网络装置的设定及发信。举例来说，可允许移动装置的多流客户端接收能够在给定时间同时解码的更多音频流。在此状况下，终端中的多流客户端可具有用于选择哪些流进行优选排序且哪些流忽略的装置。可依据哪些流未处于DTX模式而作出此选择。也可基于音频流的作用电平或音量而对媒体流进行优选排序。然而，此要求对来自每一流的媒体的解码以确定最大声流。替代地，可对媒体流子集进行周期性地解码且可先验地使用每媒体流的作用电平及帧能量的长期统计来决定哪些音频流进行解码。可将经优先排序流进一步在空间上混合以用于再现。

因为与在网络装置190处相反，在移动装置102处执行音频混合，移动装置102可经配置以使来自每一所接收音频流114、124、134的音频同步化以保留会议的整体音频质量。此些同步化操作可用于补偿接收音频流114、124、134中的延迟的变化量(例如，由于不同音频流的不同网络状况)。如关于图2A更详细描述，移动装置102可包含经配置以产生用以使从每一所接收音频流114、124、134接收的音频同步化的控制信号的“延迟控制器”。举例来说，延迟控制器可操作使得接收对应音频流114、124、134的每一去抖音缓冲器(在移动装置102中)的平均延迟大体上相同以便满足帧错误率(FER)。作为非限制实例，延迟控制器可确保每一去抖音缓冲器的平均延迟为3个帧、5个帧、7个帧等等。

图1A的系统100可通过在移动装置102处执行音频处理(例如，混合)(且与在装置110、120、130处类似)来减少可原本与在网络装置190处的音频处理链相关联的质量降级。举例来说，可减少由于网络装置190处的解码操作、网络装置190处的混合操作及网络装置190处的重新编码操作所致的音频质量降级。因此，通过在个别装置102、110、120、130处执行音频混合，可略过转码操作。

参考图1B，展示可操作以在会议期间管理音频的另一系统153的特定实施。系统153包含移动装置102、第一装置110、第二装置120及第三装置130。

系统150可以与图1A的系统100大体上类似的方式操作；然而，系统153中的音频流104、114、124、134可从装置路由到装置而无需中央网络连线系统(例如，图1A的网络装置190)。因此，可在图1B的系统153中减少与网络装置190处的路由相关联的延迟。

参考图1C，展示可操作以在会议期间管理音频的另一系统170的特定实施。系统170包含移动装置102、第一装置110、第二装置120、第三装置130、第四装置140、第五装置150及网关180(例如，网络混合器)。根据一项实施，网关180可为移动装置。根据另一实施，网关180可为固定装置。

在图1C的说明中，第四装置140及第五装置150为旧式装置。举例来说，旧式装置140、150可不能够相对于其它装置102、110、120、130以图1A到1B中所描述的方式执行多个音频流的音频混合(例如，由于旧式装置140、150处的资源约束)。确切来说，旧式装置140、150可经配置以接收包含其它装置的音频流104、114、124、134(或由其产生)的单个音频流(例如，混合音频流184)。为了说明，网络装置190可将音频流104、114、124、134中继到网关180。网关180可对音频流104、114、124、134执行音频混合以产生混合音频流184。在产生混合音频流184之后，网关180可将混合音频流184中继到第四装置140及第五装置150。

第四装置140可经配置以产生第四音频流144，第四音频流144在第四装置140处经编码。第四音频流144可包含语音(例如，用户语音)及/或背景噪声。可将第四音频流144提供到网关180，网关180可将第四音频流144(或其经转码/经处理版本)路由到网络装置190，且网络装置190可将第四音频流144(或其经转码/经处理版本)路由到其它装置102、110、120、130。第五装置150可经配置以产生在第五装置150处经编码的第五音频流154。第五音频流154可包含语音(例如，用户语音)及/或背景噪声。可将第五音频流154提供到网关180，网关180可将第五音频流154(或其经转码/经处理版本)路由到网络装置190，且网络装置190可将第五音频流154(或其经转码/经处理版本)路由到其它装置102、110、120、130。

尽管图1C描绘网关180路由作为单独音频流的第四音频流144及第五音频流154，但在其它实施中，网关180可对第四音频流144及第五音频流154执行音频混合以产生混合音频流。可将混合音频流路由到网络装置190，且网络装置190可将混合音频流中继到其它装置102、110、120、130。

另外，尽管图1C描绘第四装置140及第五装置150接收相同的混合音频流184，但在其它实施中，第四装置140及第五装置150可接收不同的混合音频流。举例来说，由第四装置140接收的混合音频流可包含分别来自装置102、110、120、130、150的音频流104、114、124、134、154(或可由其产生)。因此，网关180可经配置以将第五音频流154与其它音频流104、114、124、134混合以将混合音频流提供到第四装置140。以类似方式，由第五装置150接收的混合音频流可包含分别来自装置102、110、120、130、140的音频流104、114、124、134、144(或可由其产生)。因此，网关180可经配置以将第四音频流144与其它音频流104、114、124、134混合以提供混合音频流到第五装置150。

参考图2A，展示移动装置102的特定实施方案。移动装置102包含延迟控制器202、第一缓冲器210、第一解码器212、第二缓冲器220、第二解码器222、第三缓冲器230、第三解码器232、空间操纵处理器240及头部跟踪模块250。应注意，尽管图2A说明移动装置102的组件，但类似组件可被包含于与会议相关联的其它装置110、120、130中。

在一项实例中，每一缓冲器210、220、230可为经配置以缓冲对应音频流的去抖音缓冲器。举例来说，第一缓冲器210可接收来自与会议的第一参与者相关联的第一装置110的第一音频流114(例如，第一实时传送协议(RTP)包)，第二缓冲器220可接收来自与会议的第二参与者相关联的第二装置120的第二音频流124(例如，第二RTP包)，且第三缓冲器230可接收来自与会议的第三参与者相关联的第三装置130的第三音频流134(例如，第三RTP包)。根据另一实施，第一缓冲器210可接收来自图1A的网络装置190的第一音频流114，第二缓冲器220可接收来自网络装置190的第二音频流124，且第三缓冲器230可接收来自网络装置190的第三音频流134。根据此实施方案(例如，“网络延迟”实施方案)，如由第一缓冲器210接收的第一音频流114的RTP时戳与由第一装置110提供的RTP时戳相同，如由第二缓冲器220接收的第二音频流124的RTP时戳与由第二装置120提供的RTP时戳相同，且如由第三缓冲器230接收的第三音频流134的RTP时戳与由第三装置130提供的RTP时戳相同。

尽管图2A的移动装置102经展示为包含用于三个对应音频流114、124、134的三个缓冲器210、220、230，如上文关于图1A所描述，但在替代实施中，图1A的网络装置190可集束音频流114、124、134的包以产生集束音频流，其中所集束音频流的每一包除集束包的RTP标头外还包含来自个别音频流114、124、134的包。在此情景中，移动装置102可利用经配置以接收所集束音频流的包的单个缓冲器(例如，单个去抖音缓冲器)。举例来说，所集束音频流的包可包含RTP标头、由指派到第一装置110的第一ID识别的第一RTP包(对应于第一音频流114)、由指派到第二装置120的第二ID识别的第二RTP包(对应于第二音频流124)及由指派到第三装置130的第三ID识别的第三RTP包(对应于第三音频流134)。所集束包的RTP标头可包含时戳。替代地，或另外，第一RTP包、第二RTP包及第三RTP包可包含其特有RTP标头及时戳。

第一缓冲器210可经配置以缓冲第一音频流114并将第一缓冲音频214输出到第一解码器212。第二缓冲器220可经配置以缓冲第二音频流124并将第二缓冲音频224输出到第二解码器222。第三缓冲器230可经配置以缓冲第三音频流134并将第三缓冲音频234输出到第三解码器232。每一缓冲器210、220、230可包含参考延迟计算算法(RDCA)。举例来说，第一缓冲器210可包含第一RDCA 211，第二缓冲器220可包含第二RDCA 221，且第三缓冲器230可包含第三RDCA 231。每一RDCA 211、221、231可通过处理器(例如，在对应缓冲器210、220、230内)执行指令来实施。每一缓冲器210、220、230的延迟可基于对应RDCA 211、221、231。如下文所描述，延迟控制器202控制器可操作使得每一缓冲器210、220、230的平均延迟大体上相同以便满足FER。举例来说，延迟控制器202可经配置以修改每一RDCA 211、221、231以确保第一缓冲音频214、第二缓冲音频224及第三缓冲音频234大体上同步化。

延迟控制器202(例如，去抖音缓冲器同步化器)可经配置以产生控制信号204，控制信号204经提供到每一缓冲器210、220、230。基于控制信号204，缓冲器210、220、230可使第一缓冲音频214、第二缓冲音频224及第三缓冲音频234的输出同步化。替代地，可将不同控制信号提供到缓冲器210、220、230中的每一者。根据一项实施，延迟控制器202可确定每一缓冲器210、220、230内的延迟。举例来说，基于第一RDCA 211，第一缓冲器210可确定第一缓冲器210内的第一延迟且可经由反馈信号205将与第一延迟相关联的信息提供到延迟控制器202。第二缓冲器220可基于第二RDCA 221而确定第二缓冲器220内的第二延迟且可经由反馈信号205将与第二延迟相关联的信息提供到延迟控制器202。另外，第三缓冲器230可基于第三RDCA 231而确定第三缓冲器230内的第三延迟且可经由反馈信号205将与第三延迟相关联的信息提供到延迟控制器202。可基于个别音频流内的流内时戳而确定第一延迟、第二延迟及第三延迟。作为非限制实例，第一延迟可基于第一音频流114中的RTP时戳(例如，第一延迟可与其它音频流124、134中的RTP时戳无关)。

延迟控制器202可使用关于第一延迟、第二延迟及第三延迟的信息来产生控制信号204。尽管图2A中描绘单个控制信号，但可将第一控制信号提供到第一缓冲器210，可将第二控制信号提供到第二缓冲器220，且可将第三控制信号提供到第三缓冲器230。控制信号204(或多个控制信号)可指示每一缓冲器210、220、230“加速”、增加延迟或维持当前延迟使得每一缓冲器210、220、230具有大体上类似平均延迟。“加速”缓冲器可包含指示缓冲器“丢弃(drop)”一或多个帧。为了说明，第一缓冲器210可具有两个帧的平均延迟，第二缓冲器220可具有四个帧的平均延迟，且第三缓冲器230可具有六个帧的平均延迟。基于此些统计，延迟控制器202可指示第一缓冲器210使其平均延迟增加两个帧，指示第二缓冲器220维持其当前平均延迟，且指示第三缓冲器230使其平均延迟加速两个帧使得每一缓冲器210、220、230具有大约四个帧的平均延迟。另外，可基于延迟调整重新分配缓冲器资源。举例来说，因为第一缓冲器210需要使其平均延迟增加两个帧且第三缓冲器230需要使其延迟减少两个帧，所以可在第三缓冲器230与第一缓冲器210之间重新分配缓冲器资源。

因此，延迟控制器202可除流内时戳外还使用流间时戳来调整每一缓冲器210、220、230的延迟。举例来说，可基于比较每一缓冲器210、220、230的平均延迟来调整每一缓冲器210、220、230的延迟，且每一缓冲器210、220、230的平均延迟基于对应音频流114、124、134的RTP时戳。作为说明性非限制实例，从三个装置“A”、“B”及“C”接收的各种RTP包的时戳可为t(A,1)、t(A,2)、t(A,3)…t(A,N)；t(B,1)、t(B,2)、t(B,3)…t(B,N)；t(C,1)、t(C,2)、t(C,3)…t(C,N)。流内时戳可对应于相同RTP流(例如，t(A,2)及t(A,1))的两个包之间的时间差。延迟控制器202可确定及/或使用流内的平均延迟及流之间的流间延迟来产生控制信号204。

根据另一实施，延迟控制器202可比较第一音频流114(例如，第一RTP包)的第一时戳、第二音频流124(例如，第二RTP包)的第二时戳及第三音频流134(例如，第三RTP包)的第三时戳。在一项实例中，第一时戳、第二时戳及第三时戳可基于提供(例如，通过计时服务器或其它时钟源)到102、110、120及130的共同时钟源(例如，全局时钟源)。音频流114、124、134的时戳可通过未被图1A的网络装置190改变的移动装置102接收。延迟控制器202可确定第一时戳与第二时戳之间的第一时间差、第二时戳与第三时戳之间的第二时间差及第三时戳与第一时戳之间的第三时间差。

在特定实施中，延迟控制器202基于比较来自不同缓冲器的个别包而确定时间差。举例来说，第一时间差可对应于第一缓冲器210中的“最早”包(例如，待输出的下一包)的时戳与第二缓冲器220中的最早包的时戳之间的差。类似地，第二时间差可对应于第二缓冲器220中的最早包的时戳与第三缓冲器230中的最早包的时戳之间的差。第三差可对应于第三缓冲器230中的最早包的时戳与第一缓冲器210中的最早包的时戳之间的差。

基于时间差，延迟控制器202可产生用以控制分别从缓冲器210、220、230输出缓冲音频214、224、234的时间的控制信号204，使得使缓冲音频214、224、234同步化。举例来说，控制信号204(或如上文所描述的多个控制信号)可致使大体上同时输出具有相同时戳的缓冲器210、220及230中的包/帧，而不管此些包/帧实际上何时被移动装置102接收。在从缓冲器210、220、230中的一者输出包之后，延迟控制器202可重新计算时间差中的一或多者并相应地修改控制信号204。通过产生用以使缓冲音频214、224、234同步化的控制信号204，延迟控制器202可辅助缓冲器210、220、230中的每一者在会议期间满足3GPP技术规范(TS)26.114平均延迟要求，例如通过使跨越缓冲器210、220、230的平均延迟可比较。

作为使第一缓冲音频214与第二缓冲音频224同步化的非限制说明，如果第一时戳指示早于第二时戳的时间，那么延迟控制器202可向第一缓冲器210指示(经由控制信号204)使输出第一缓冲音频214(例如，其下一包)延迟第一时间差。如果第二时戳指示早于第一时戳的时间，那么延迟控制器202可向第二缓冲器220指示(经由控制信号204)使输出第二缓冲音频224(例如，其下一包)延迟第一时间差。

因此，延迟控制器202可经配置以监视每一个别缓冲器210、220、230的性能，使得在多会话(例如，会议)期间满足TS 26.114最小性能抖音缓冲器管理(JBM)延迟要求。此外，延迟控制器202可将额外时戳调整信息提供到每一缓冲器210、220、230中的RDCA 211、221、231使得高效地执行“缓冲器处置”。如上文所描述，延迟控制器202可经由反馈信号205从在每一缓冲器210、220、230中执行的RDCA 211、221、231接收时戳内特性，且延迟控制器202可使用此信息来管理缓冲器210、220、230。因此，可实施用于管理缓冲器延迟的“闭环”方法。

响应于接收到第一缓冲音频214，第一解码器212可解码第一缓冲音频214以产生第一经解码音频216。可将第一经解码音频216提供到空间操纵处理器240。然而，如果第一缓冲音频214中的帧为DTX(或NODATA)帧(例如，对应于背景噪声及/或静音)，那么可略过第一解码器212处的解码操作以减少功率消耗且节省处理资源。当针对一帧跳过解码操作时，可维持先前经解码作用帧的解码状态/记忆以供用于随后解码下一作用帧。响应于接收到第二缓冲音频224，第二解码器222可对第二缓冲音频224进行解码以产生第二经解码音频226。可将第二经解码音频226提供到空间操纵处理器240。如果第二缓冲音频224中的帧为DTX(或NODATA)帧，那么可略过第二解码器222处的解码操作以减少功率消耗且节省处理资源。响应于接收到第三缓冲音频234，第三解码器232可解码第三缓冲音频234以产生第三经解码音频236。可将第三经解码音频236提供到空间操纵处理器240。如果第三缓冲音频234中的帧为DTX帧，那么可略过第三解码器232处的解码操作以减少功率消耗且节省处理资源。在特定实施中，移动装置102可基于RTP包长度而确定帧(例如，包)是否为DTX(或NODATA)帧。

空间操纵处理器240可经配置以对第一经解码音频216执行第一空间操纵操作从而从扬声器以第一角度(α1)投射第一经解码音频216。举例来说，空间操纵处理器240可将第一HRTF 242应用于第一经解码音频216以根据第一角度(α1)操纵(例如，平移)第一经解码音频216。图3中描绘根据第一角度(α1)操纵第一经解码音频216的说明。第一HRTF 242也可由空间操纵处理器240用于调整第一经解码音频216的第一增益。根据一项实施，可基于移动装置102处的用户定义设定而调整第一增益及第一角度(α1)。举例来说，如果用户确定来自与第一装置110相关联的第一参与者的语音相较于与会议的其它参与者相关联的语音更重要，那么用户可向移动装置102指示增加第一经解码音频216的第一增益。基于用户指示，空间操纵处理器240可使用第一HRTF 242来增加第一经解码音频216的第一增益。

空间操纵处理器240也可经配置以对第二经解码音频226执行第二空间操纵操作从而从扬声器以第二角度(α2)投射第二经解码音频226。举例来说，空间操纵处理器240可将第二HRTF 244应用于第二经解码音频226以根据第二角度(α2)操纵(例如，平移)第二经解码音频226。图3中描绘根据第二角度(α2)操纵第二经解码音频226的说明。第二HRTF 244也可由空间操纵处理器240用于调整第二经解码音频226的第二增益。根据一项实施，可基于移动装置102处的用户定义设定而调整第二增益及第二角度(α2)。举例来说，如果用户确定来自与第二装置120相关联的第二参与者的语音相较于与会议的其它参与者相关联的语音较不重要，那么用户可向移动装置102指示减少第二经解码音频226的第二增益(或屏蔽第二经解码音频226)。基于用户指示，空间操纵处理器240可使用第二HRTF 244来降低第二经解码音频226的第二增益。

空间操纵处理器240也可经配置以对第三经解码音频236执行第三空间操纵操作从而从扬声器以第三角度(α3)投射第三经解码音频236。举例来说，空间操纵处理器240可将第三HRTF 246应用于第三经解码音频236以根据第三角度(α3)操纵(例如，平移)第三经解码音频236。图3中描绘根据第三角度(α3)操纵第三经解码音频236的说明。第三HRTF 246也可由空间操纵处理器240用于调整第三经解码音频236的第三增益。根据一项实施，可基于移动装置102处的用户定义设定而调整第三增益及第三角度(α3)。举例来说，如果用户确定来自与第三装置130相关联的第三参与者的语音相较于与会议的其它参与者相关联的语音较不重要，那么用户可向移动装置102指示减少第三经解码音频236的第三增益(或屏蔽第三经解码音频236)。基于用户指示，空间操纵处理器240可使用第三HRTF 246来降低第三经解码音频236的第三增益。

每一HRTF 242、244、246可为泛用的或可由移动装置102的用户“个人化”。举例来说，基于传入音频流114、124、134的数目及基于移动装置102的硬件能力，用户可指示待投射特定音频流114、124、134的位置(例如，角度)。因此，第一HRTF 242可不同于第二HRTF244，且第二HRTF 244可不同于第三HRTF 246。举例来说，用户可向移动装置102指示(经由第一HRTF 242)在“扬声器”的左侧(例如，用户的感知收听领域)处投射第一经解码音频216，向移动装置102指示(经由第二HRTF 244)以在扬声器的右侧处投射第二经解码音频226，及向移动装置102指示(经由第三HRTF 246)以在中间投射第三经解码音频236。在另一实施中，用户可向网络混合器(例如，图1A的网络装置190)指示在网络混合器正执行音频混合的条件下使用特定HRTF。举例来说，网络装置190或另一网络混合器可填充有可在会议设置期间协商的HRTF。

因此，空间操纵处理器240可将HRTF 242、244、246分别应用于经解码音频216、226、236以对经解码音频216、226、236进行空间操纵，使得似乎与经解码音频216、226、236相关联的会议参与者被空间分布成特定配置。HRTF 242、244、246可用于在移动装置102处执行音频平移。音频平移可在会议的多个参与者正进行演说时减少移动装置102的用户的“疲劳”。举例来说，如果第一参与者(例如，与第一经解码音频216相关联的参与者及第三参与者(例如，与第三经解码音频236相关联的参与者)正同时进行演说，音频平移可使得对用户来说似乎第一参与者正在一个位置处进行演说且第三参与者正在另一位置处进行演说，此可减少用户所感受的疲劳。

音频平移也可使得移动装置102的用户能够在HRTF混合之前(例如，在产生立体声信号270之前，如下文所描述)变化参与者的音频电平(例如，增益)。举例来说，移动装置102的用户可相对于其它参与者的音频赋予第一参与者的音频(例如，第一经解码音频216)较大重要性且可在每一HRTF 242、244、246中选择性调整混合增益。在一项实例中，移动装置102的用户可在多个参与者正同时讲话时屏蔽除第一经解码音频216外的经解码音频226、236的全部。如关于图1A所阐释，移动装置102的用户也可基于讲话者偏好及移动装置102的硬件能力而向网络装置190发信以管理每一音频流114、124、134的位率及音频带宽。

在特定实施方案中，可基于头部跟踪数据(例如，指示与移动装置102的用户相关联的头部移动的数据)而进一步改善移动装置102处的空间处理。举例来说，头部跟踪模块250可跟踪移动装置102的用户的头部的移位(例如，旋转)。举例来说，头部跟踪模块250可跟踪用户的头部的定向并将信号(举例来说，指示定向上的移位量(β))提供到空间操纵处理器240。空间操纵处理器可将每一HRTF 242、244、246调整移位量(β)以适应在扬声器处投射经解码音频216、226、236的各别角度。因此，空间操纵处理器240可使用第一角度(α1)及移位量(β)作为第一HRTF 242的输入，使用第二角度(α2)及移位量(β)作为第二HRTF 244的输入，且使用第三角度(α3)及移位量(β)作为第三HRTF 246的输入。

空间操纵处理器240可输出(例如，向扬声器提供)立体声信号270，立体声信号270包含由各别HRTF 242、244、246调整的每一经解码音频216、226、236。尽管图2A说明立体声信号270是由空间操纵处理器240输出，但在另一实施中，空间操纵处理器240可输出三个单调信号(未展示)。举例来说，第一单调信号可包含由第一HRTF 242调整的第一经解码音频216，第二单调信号可包含由第二HRTF 244调整的第二经解码音频226，且第三单调信号可包含由第三HRTF 246调整的第三经解码音频236。

图2A的移动装置102可通过使缓冲音频214、224、234同步化来在会议期间满足3GPP TS 26.114延迟要求。举例来说，延迟控制器202可基于对应音频流114、124、134的RTP包中的时戳而产生用以使缓冲音频214、224、234同步化的控制信号204。另外，移动装置102可使得音频平移能够在会议的多个参与者正同时演说时减少“疲劳”。举例来说，移动装置102可对经解码音频216、226、236进行空间操纵使得似乎与经解码音频216、226、236相关联的会议参与者被空间分布。

参考图2B，展示移动装置102的另一实施。除了图2A中所描绘的组件外，图2B中所描绘的移动装置102也可包含实施于空间操纵处理器240内的第N缓冲器280、第N解码器282及第N HRTF 284。因此，根据所描述系统及方法，装置可利用单个去抖音缓冲器(例如，在处理经集束RTP流的状况下)、两个去抖音缓冲器、三个去抖音缓冲器或N去抖音缓冲器(例如，其中N是大于或等于4的整数)。举例来说，如果N等于七，那么图2B中所描绘的移动装置102可包含实施于空间操纵处理器240内的七个缓冲器(经配置以接收七个对应音频流)、七个解码器及七个HRTF。

第N缓冲器280可以与缓冲器210、220、230大体上类似的方式操作。举例来说，第N缓冲器可经配置以从会议中的装置(或从图1A的网络装置190)接收第N音频流292并基于控制信号204输出第N缓冲音频294。第N缓冲音频294可分别与来自其它缓冲器210、220、230的缓冲音频214、224、234同步化。第N解码器282可以与解码器212,222,232大体上类似的方式操作。举例来说，第N解码器232可对第N缓冲音频294进行解码以产生第N经解码音频296。第N经解码音频296可被提供到空间操纵处理器240。空间操纵处理器240也可经配置以对第N经解码音频296执行第N空间操纵操作从而从扬声器以第N角度(αN)投射第N经解码音频296。举例来说，空间操纵处理器240可将第N HRTF 284应用于第N经解码音频296以根据第N角度(αN)操纵(例如，平移)第N经解码音频296。

参考图3，展示说明在应用HRTF 242、244、246之后的经解码音频216、226、236的空间布置的实例的图解。在特定实施方案中，可基于“优选”虚拟扬声器位置指派而预先计算HRTF 242、244、246。举例来说，第一HRTF 242可将第一经解码音频216空间操纵成感知犹如来自扬声器的左侧(例如，来自第一角度(α1))。类似地，第二HRTF 244可将第二经解码音频226空间操纵成感知犹如来自扬声器的左中侧(例如，来自第二角度(α2))，且第三HRTF 246可将第三经解码音频236空间操纵成感知犹如来自扬声器的右侧(例如，来自第三角度(α3))。如关于图2A所描述，HRTF 242、244、246也可包含用以相对于其它扬声器强调“优选”扬声器的增益控制。

参考图4，展示说明在应用HRTF 242、244、246及头部跟踪数据之后的经解码音频216、226、236的空间布置的实例的图解。在图4中，头部跟踪模块250可检测到用户的头部移位了移位量(β)。基于头部跟踪信息，空间操纵处理器240可使包含经解码音频216、226、236的声场移位了移位量(β)，如图4中所说明。因此，当移动装置102的用户使其头部移位时对图3中所说明的经解码音频216、226、236的位置的感知可大体上未改变。

参考图5，展示可操作以在会议期间使用因特网协议(IP)多播会话管理音频的系统500的特定实施。系统500包含移动装置102、第一装置110及第二装置120。

根据特定操作实施方案，移动装置102可起始与第一装置110的呼叫。移动装置102可随后起始第一装置110的会话描述协议(SDP)参考以起始与第二装置120的多播会话。第二装置120也可起始与移动装置102的会话。在特定实施方案中，如果N节点参与会议，那么可每媒体起始N*(N-1)个会话(例如，针对3个节点，可针对音频起始3*2＝6个会话，可针对视频起始另外3*2＝6个会话等等)。在图5的多播会话中，不存在隐式网络装置，例如图1A的网络装置190。因此，会话起始协议(SIP)发信及SDP协商可基于由每一装置102、110、120支持的CODEC。SIP发信及SDP协商可用于选择音频CODEC、位率、音频带宽等等。

根据一项实施方案，装置102、110、120中的一或多者可基于可用的硬件资源而操作为网关(例如，网络网关)。如果装置操作为网关，那么可放松CODEC要求。举例来说，如果第一装置110的CODEC与解码来自移动装置102的音频流104兼容，那么第二装置120可操作为网关且对音频流104进行解码、以第一装置110支持的格式对音频流进行重新编码并将经重新编码音频流提供到第一装置110。

参考图6，展示用于在会议期间管理音频的方法600的流程图。方法600可由图1A到2B的移动装置102、图1A到1C的第一装置110、图1A到1C的第二装置120、图1A到1C的第三装置130或其组合执行。

方法600包含：在602处，在移动装置的第一缓冲器处接收来自与会议的第一参与者相关联的第一装置的第一音频流。举例来说，参考图2A，第一缓冲器210可接收来自第一装置110的第一音频流114(例如，RTP包)。

方法600还可包含：在604处，在移动装置的第二缓冲器处接收来自与会议的第二参与者相关联的第二装置的第二音频流。举例来说，参考图2A，第二缓冲器220可接收来自第二装置120的第二音频流124(例如，RTP包)。

可在606处，在移动装置的延迟控制器处产生控制信号。可将所述控制信号提供到所述第一缓冲器及所述第二缓冲器以使从所述第一缓冲器输出的第一缓冲音频与从所述第二缓冲器输出的第二缓冲音频同步化。举例来说，参考图2A，延迟控制器202可比较第一音频流114(例如，其较早包)的第一时戳与第二音频流124(例如，其较早包)的第二时戳，确定第一时戳与第二时戳之间的时间差。如果第一时戳指示比第二时戳早的时间，那么控制信号204可向第一缓冲器210指示将输出第一缓冲音频214延迟时间差以使第一缓冲音频214与第二缓冲音频224同步化。如果第二时戳指示比第一时戳早的时间，那么控制信号204可向第二缓冲器220指示将输出第二缓冲音频224延迟时间差以使第一缓冲音频214与第二缓冲音频224同步化。延迟控制器可考量来自参与者A及B的包[A1、A2、…]与包[B1、B2、…]之间的包间到达时间，且估计用于缓冲来自参与者A及参与者B的媒体同时保持包损失(或抖音诱发隐藏)为低且满足3GPP TS 26.114的最小性能要求所需要的变化去抖音缓冲深度。举例来说，参与者A可处于不良无线电信号条件且具有高的包损失率及低抖音，而参与者B处于良好无线电信号条件及极其低的包损失率但高抖音。延迟控制器考量来自参与者A及B的包的抖音/损失特性以为来自参与者B的包指派(例如)较大缓冲器深度，使得整个包损失不超过从参与者A所经历的损失。上述延迟控制器机制也可扩展用于包含接收两个以上媒体流的状况。

根据一项实施方案，方法600可进一步包含：在移动装置的第一解码器处对第一缓冲音频进行解码以产生第一经解码音频。举例来说，参考图2A，第一解码器212可对第一缓冲音频214进行解码以产生第一经解码音频216。方法600还可包含：在移动装置的第二解码器处对第二缓冲音频进行解码以产生第二经解码音频。举例来说，参考图2A，第二解码器222可对第二缓冲音频224进行解码以产生第二经解码音频226。

根据一项实施方案，方法600可包含：对第一经解码音频执行第一空间操纵操作从而从扬声器以第一角度投射第一经解码音频。举例来说，参考图2A，空间操纵处理器240可对第一经解码音频216执行第一空间操纵操作从而从扬声器以第一角度(α1)投射第一经解码音频216。为了说明，空间操纵处理器240可将第一HRTF 242应用于第一经解码音频216以根据第一角度(α1)操纵(例如，平移)第一经解码音频216。第一HRTF242也可由空间操纵处理器240用于调整第一经解码音频216的第一增益。

根据方法600的一项实施方案，第一解码器可接收来自延迟控制器的控制信号且第二解码器也可接收来自延迟控制器的控制信号。第一解码器可基于控制信号而对与第一音频流相关联的第一数据包进行解码或基于控制信号而略过对第一数据包的解码操作。类似地，第二解码器可基于控制信号而对与第二音频流相关联的第二数据包进行解码或基于控制信号而略过对第二数据包的解码操作。根据一项实施方案，第一解码器及第二解码器为不同解码器。第一解码器可被所有会议参与者支持且第二解码器可由会议参与者的子组支持。根据另一实施，第一解码器及第二解码器包含以不同模式操作的类似解码器。

方法600还可包含：对第二经解码音频执行第二空间操纵操作从而从扬声器以第二角度投射第二经解码音频。举例来说，参考图2A，空间操纵处理器240可对第二经解码音频226执行第二空间操纵操作从而从扬声器以第二角度(α2)投射第二经解码音频226。为了说明，空间操纵处理器240可将第二HRTF 244应用于第二经解码音频226以根据第二角度(α2)操纵(例如，平移)第二经解码音频226。第二HRTF 244也可由空间操纵处理器240用于调整第二经解码音频226的第二增益。

根据一项实施方案，方法600可包含：将第一信号提供到网络装置以调整第一音频流的第一位率。举例来说，参考图1A及2A，网络装置190可将来自第一装置110的第一音频流114路由到移动装置102的第一缓冲器210，且网络装置190可将第二装置120的第二音频流124路由到移动装置102的第二缓冲器220。移动装置102可将第一信号提供到网络装置190以调整将第一音频流114提供到移动装置102的第一位率。方法600还可包含：将第二信号提供到网络装置以调整第二音频流的第二位率。举例来说，参考图1A，移动装置102可将第二信号提供到网络装置190以调整将第二音频流124提供到移动装置102的第二位率。

图6的方法600可通过使缓冲音频214、224、234同步化来在会议期间满足3GPPTS26.114延迟要求。举例来说，延迟控制器202可基于对应音频流114、124、134的RTP包中的时戳而产生用以使缓冲音频214、224、234同步化的控制信号204。另外，方法600可使得音频平移能够在会议的多个参与者正同时演说时减少“疲劳”。举例来说，方法600可实现经解码音频216、226、236的空间操纵使得似乎与经解码音频216、226、236相关联的会议参与者被空间分布。

在一些实例中，图6的方法600可经由处理单元的硬件(例如，FPGA装置、ASIC等等)(例如中央处理单元(CPU)、DSP或控制器)，经由固件装置或其任一组合来实施。作为实例，图6的方法600可由执行指令的处理器执行，如关于图7所描述。

参考图7，展示移动装置102的特定说明性实施的框图。在特定实施中，装置102包含处理器706(例如，CPU)。移动装置102可包含一或多个额外处理器710(例如，一或多个DSP)。

移动装置102可包含存储器732及耦合到天线742的无线控制器740。无线控制器740包含图2A到2B的延迟控制器202、图2A到2B的第一缓冲器210、图2A到2B的第一解码器212、图2A到2B的第二缓冲器220、图2A到2B的第二解码器222、图2A到2B的第三缓冲器230、图2A到2B的第三解码器232及图2A到2B的空间操纵处理器240。图2A到2B的延迟控制器202的逻辑也可实施在处理器706或一或多个额外处理器710内。因此，无线控制器740中的第一缓冲器210可经配置以经由天线742接收第一音频流114，无线控制器740中的第二缓冲器220可经配置以经由天线742接收第二音频流124，且无线控制器740中的第三缓冲器230可经配置以经由天线742接收第三音频流134。为了在会议期间满足3GPP TS 26.114延迟要求，可将控制信号(未展示)提供到缓冲器210、220、230以使从缓冲器210、220、230输出的缓冲音频同步化，如上文所描述。

移动装置102可包含耦合到显示器控制器726的显示器728。扬声器736、麦克风738或两者可耦合到CODEC 734。CODEC 734可包含数字/模拟转换器(DAC)702及模拟/数字转换器(ADC)704。在一项实例中，可将空间操纵处理器的输出(例如，立体声信号)提供到一或多个额外处理器710以供进一步处理且提供到CODEC 734。可经由DAC702将立体声信号转换成模拟信号并在扬声器736处输出。

存储器732可包含指令760，指令760可由处理器706、处理器710、CODEC 734、无线控制器740及其组件或其组合执行以执行图6的方法600。存储器732或处理器706、处理器710、无线控制器740及/或CODEC 734的一或多个组件可为非暂时性计算机可读媒体，所述非暂时性计算机可读媒体包含当由计算机(例如，CODEC 734中的处理器、处理器706及/或处理器710)执行时致使所述计算机执行图6的方法600的指令(例如，指令760)。

尽管延迟控制器202、缓冲器210、220、230及解码器212、222、232及空间操纵处理器240经描绘为在无线控制器740内部，但在其它实施中，缓冲器210、220、230、解码器212、222、232或空间操纵处理器240中的一或多者可在CODEC 734、处理器710、一或多个额外处理器706内部或在移动装置102的另一组件中。

在特定实施方案中，移动装置102可被包含在系统级封装或系统芯片装置722(例如，移动台调制解调器(MSM))中。在特定实施方案中，处理器706、处理器710、显示器控制器726、存储器732、CODEC 734及无线控制器740被包含在系统级封装或系统芯片装置722中。在特定实施方案中，输入装置730(例如触控屏幕及/或小键盘)及电力供应器744耦合到系统芯片装置722。此外，在特定实施中，如在图7中所说明，显示器728、输入装置730、扬声器736、麦克风738、天线742及电力供应器744在系统芯片装置722外部。然而，显示器728、输入装置730、扬声器738、麦克风736、天线742及电力供应器744中的每一者可耦合到系统芯片装置722的组件，例如接口或控制器。在说明实例中，移动装置102对应于移动通信装置、智能电话、蜂窝式电话、膝上型计算机、计算机、平板计算机、个人数字助理、显示装置、电视、游戏主机、音乐播放器、无线电、数字视频播放器、光学光盘播放器、调谐器、相机、导航装置、解码器系统、编码器系统或其任一组合。

尽管图7描绘移动装置102的组件，但本文中所描述的其它装置(例如，图1A到1C的第一装置110、图1A到1C的第二装置120及/或图1A到1C的第三装置130)可包含类似于移动装置102的图7中所说明的那些组件的组件。

本发明的额外实施方案以附录的形式呈现于本文中。应理解，代替参考图1A到7所说明及所描述的某些实施方案或除其外，也可利用此些实施方案。

结合所描述实施方案，公开包含用于接收来自与会议的第一参与者相关联的第一装置的第一音频流的装置的设备。举例来说，用于接收第一音频流的装置可包含图2A到2B及7的第一缓冲器210、图7的无线控制器740、经配置以接收第一音频流的一或多个装置(例如，执行非暂时性计算机可读存储媒体处的指令的处理器)，或其任一组合。

所述设备也可包含用于接收来自与所述会议的第二参与者相关联的第二装置的第二音频流的装置。举例来说，用于接收第二音频流的装置可包含图2A到2B及7的第二缓冲器220、图7的无线控制器740、经配置以接收第二音频流的一或多个装置(例如，执行非暂时性计算机可读存储媒体处的指令的处理器)，或其任一组合。

所述设备也可包含用于产生控制信号的装置。可将所述控制信号提供到用于接收所述第一音频流的所述装置及用于接收所述第二音频流的所述装置，以使从用于接收所述第一音频流的所述装置输出的第一缓冲音频与从用于接收所述第二音频流的所述装置输出的第二缓冲音频同步化。举例来说，用于产生控制信号的装置可包含图2A到2B及7的延迟控制器202、图7的无线控制器740、图7的处理器706、图7的一或多个额外处理器710、经配置以产生控制信号的一或多个装置(例如，执行非暂时性计算机可读存储媒体处的指令的处理器)或其任一组合。

所属领域的技术人员将进一步了解，结合本文中所公开实施方案所描述的各种说明性逻辑块、配置、模块、电路及算法步骤可实施为电子硬件、由例如硬件处理器的处理装置执行的计算机软件或其组合。各种说明性组件、块、配置、模块、电路及步骤也在上文大体就其功能方面加以描述。此功能性是实施为硬件还是可执行软件取决于强加于整个系统的特定应用及设计约束。虽然所属领域的技术人员可针对每一特定应用以变化方式实施所描述功能性，但不应将此些实施决策解释为导致对本发明的范围的脱离。

结合本文中的公开实施方案所描述的方法或算法的步骤可直接以硬件、由处理器执行的软件模块或两者的组合体现。软件模块可驻存于存储器装置中，例如随机存取存储器(RAM)、磁阻式随机存取存储器(MRAM)、自旋扭矩转移MRAM(STT-MRAM)、快闪存储器、只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、寄存器、硬盘、可抽换磁盘或紧密光盘只读存储器(CD-ROM)。示范性存储器装置耦合到处理器使得所述处理器可从所述存储器装置读取信息且将信息写入到所述存储器装置。在替代方案中，存储器装置可与处理器成一体。处理器及存储媒体可驻存于ASIC中。ASIC可驻存于计算装置或用户终端中。在替代方案中，处理器及存储媒体可作为离散组件驻存于计算装置或用户终端中。

所公开实施的前述描述经提供以使得所属领域的技术人员能够制作或使用所公开实施方案。在不脱离本发明的范围的情况下，对此些实施方案的各种修改对于所属领域的技术人员来说将易于显而易见，且本文中所定义的原理可应用于其它实施方案。因此，本发明并不打算限于本文中所展示的实施方案，而是意图赋予其与以下权利要求书所定义的原理及新颖特征相一致的最宽广范围。

Claims

1.一种用于在会议期间管理音频的方法，所述方法包括：

在移动装置的第一缓冲器处接收来自与所述会议的第一参与者相关联的第一装置的第一音频流；

在所述移动装置的第二缓冲器处接收来自与所述会议的第二参与者相关联的第二装置的第二音频流；及

在所述移动装置的延迟控制器处产生控制信号，将所述控制信号提供到所述第一缓冲器及所述第二缓冲器，以使从所述第一缓冲器输出的第一缓冲音频与从所述第二缓冲器输出的第二缓冲音频同步化，在执行解码操作以输出与所述第一缓冲音频相关联的第一信号和与所述第二缓冲音频相关联的第二信号之前，将所述第一缓冲音频与所述第二缓冲音频同步。

2.根据权利要求1所述的方法，其进一步包括：

在所述移动装置处比较所述第一音频流的第一时戳与所述第二音频流的第二时戳，所述第一时戳及所述第二时戳基于共同时钟源；及

在所述移动装置处确定所述第一时戳与所述第二时戳之间的时间差。

3.根据权利要求2所述的方法，其中如果所述第一时戳指示早于所述第二时戳的时间，那么所述控制信号向所述第一缓冲器指示以使输出所述第一缓冲音频延迟所述时间差。

4.根据权利要求2所述的方法，其中如果所述第二时戳指示早于所述第一时戳的时间，那么所述控制信号向所述第二缓冲器指示以使输出所述第二缓冲音频延迟所述时间差。

5.根据权利要求1所述的方法，其中所述第一缓冲器包括第一去抖音缓冲器，且其中所述第二缓冲器包括第二去抖音缓冲器。

6.根据权利要求1所述的方法，其进一步包括：

在所述移动装置的第一解码器处对所述第一缓冲音频进行解码以产生第一经解码音频；及

在所述移动装置的第二解码器处对所述第二缓冲音频进行解码以产生第二经解码音频。

7.根据权利要求6所述的方法，其进一步包括：

在所述移动装置处对所述第一经解码音频执行第一空间操纵操作从而从扬声器以第一角度投射所述第一经解码音频；及

在所述移动装置处对所述第二经解码音频执行第二空间操纵操作从而从所述扬声器以第二角度投射所述第二经解码音频。

8.根据权利要求7所述的方法，其中执行所述第一空间操纵操作包括：将第一头部相关转移函数HRTF应用于所述第一经解码音频，且其中执行所述第二空间操纵操作包括：将第二HRTF应用于所述第二经解码音频。

9.根据权利要求7所述的方法，其中所述第一角度及所述第二角度基于用户定义设定。

10.根据权利要求9所述的方法，其进一步包括：响应于检测到与所述移动装置的用户相关联的头部移动而使所述第一角度及所述第二角度移位一移位量。

11.根据权利要求6所述的方法，其进一步包括：

调整所述第一经解码音频的第一增益；及

调整所述第二经解码音频的第二增益。

12.根据权利要求11所述的方法，其中基于用户定义设定而调整所述第一增益及所述第二增益。

13.根据权利要求1所述的方法，其中经由网络装置将所述第一音频流从所述第一装置路由到所述第一缓冲器，且其中经由所述网络装置将所述第二音频流从所述第二装置路由到所述第二缓冲器。

14.根据权利要求13所述的方法，其进一步包括：

将第一特定信号提供到所述网络装置以调整所述第一音频流的第一位率；及

将第二特定信号提供到所述网络装置以调整所述第二音频流的第二位率。

15.根据权利要求14所述的方法，其中基于用户定义设定、所述移动装置的硬件能力或其组合而调整所述第一位率及所述第二位率。

16.根据权利要求1所述的方法，其中所述移动装置、所述第一装置及所述第二装置各自包括与第三代合作伙伴计划3GPP标准兼容的用户装备UE。

17.根据权利要求1所述的方法，其中经由所述移动装置的天线接收所述第一音频流。

18.根据权利要求1所述的方法，其中所述第一缓冲器、所述第二缓冲器及延迟控制器被包含在所述移动装置的调制解调器中。

19.一种用于在会议期间管理音频的移动装置，所述移动装置包括：

第一缓冲器，其经配置以接收来自与会议的第一参与者相关联的第一装置的第一音频流；

第二缓冲器，其经配置以接收来自与所述会议的第二参与者相关联的第二装置的第二音频流；及

延迟控制器，其经配置以产生控制信号，将所述控制信号提供到所述第一缓冲器及所述第二缓冲器以使从所述第一缓冲器输出的第一缓冲音频与从所述第二缓冲器输出的第二缓冲音频同步化，在执行解码操作以输出与所述第一缓冲音频相关联的第一信号和与所述第二缓冲音频相关联的第二信号之前，将所述第一缓冲音频与所述第二缓冲音频同步。

20.根据权利要求19所述的移动装置，其中所述延迟控制器经配置以：

比较所述第一音频流的第一时戳与所述第二音频流的第二时戳，所述第一时戳及所述第二时戳基于共同时钟源；及

确定所述第一时戳与所述第二时戳之间的时间差。

21.根据权利要求20所述的移动装置，其中如果所述第一时戳指示早于所述第二时戳的时间，那么所述控制信号向所述第一缓冲器指示以使输出所述第一缓冲音频延迟所述时间差。

22.根据权利要求20所述的移动装置，其中如果所述第二时戳指示早于所述第一时戳的时间，那么所述控制信号向所述第二缓冲器指示以使输出所述第二缓冲音频延迟所述时间差。

23.根据权利要求19所述的移动装置，其中所述第一缓冲器包括第一去抖音缓冲器，且其中所述第二缓冲器包括第二去抖音缓冲器。

24.根据权利要求19所述的移动装置，其进一步包括：

第一解码器，其经配置以对所述第一缓冲音频进行解码以产生第一经解码音频；及

第二解码器，其经配置以对所述第二缓冲音频进行解码以产生第二经解码音频。

25.根据权利要求24所述的移动装置，其进一步包括空间操纵处理器，所述空间操纵处理器经配置以：

对所述第一经解码音频执行第一空间操纵操作从而从扬声器以第一角度投射所述第一经解码音频；及

对所述第二经解码音频执行第二空间操纵操作从而从所述扬声器以第二角度投射所述第二经解码音频。

26.根据权利要求25所述的移动装置，其中执行所述第一空间操纵操作包括：将第一头部相关转移函数HRTF应用于所述第一经解码音频，且其中执行所述第二空间操纵操作包括：将第二HRTF应用于所述第二经解码音频。

27.根据权利要求19所述的移动装置，其进一步包括：

第一解码器，其经配置以：

接收来自所述延迟控制器的所述控制信号；及

基于所述控制信号，对与所述第一音频流相关联的第一数据包进行解码或略过对所述第一数据包的解码操作；及

第二解码器，其经配置以：

接收来自所述延迟控制器的所述控制信号；及

基于所述控制信号，对与所述第二音频流相关联的第二数据包进行解码或略过对所述第二数据包的解码操作。

28.根据权利要求27所述的移动装置，其中所述第一解码器及所述第二解码器为不同解码器。

29.根据权利要求19所述的移动装置，其进一步包括天线，所述天线经配置以：

接收所述第一音频流；及

将所述第一音频流提供到所述第一缓冲器。

30.根据权利要求19所述的移动装置，其进一步包括调制解调器，所述调制解调器包含所述第一缓冲器、所述第二缓冲器及所述延迟控制器。

31.一种非暂时性计算机可读媒体，其包括用于在会议期间管理音频的指令，所述指令在由移动装置中的处理器执行时致使所述处理器执行包括以下步骤的操作：

在第一缓冲器处接收来自与所述会议的第一参与者相关联的第一装置的第一音频流；

在第二缓冲器处接收来自与所述会议的第二参与者相关联的第二装置的第二音频流；及

在延迟控制器处产生控制信号，将所述控制信号提供到所述第一缓冲器及所述第二缓冲器以使从所述第一缓冲器输出的第一缓冲音频与从所述第二缓冲器输出的第二缓冲音频同步化，在执行解码操作以输出与所述第一缓冲音频相关联的第一信号和与所述第二缓冲音频相关联的第二信号之前，将所述第一缓冲音频与所述第二缓冲音频同步。

32.根据权利要求31所述的非暂时性计算机可读媒体，其中所述操作进一步包括：

确定所述第一时戳与所述第二时戳之间的时间差。

33.一种用于在会议期间管理音频的设备，所述设备包括：

用于接收来自与会议的第一参与者相关联的第一装置的第一音频流的装置；

用于接收来自与所述会议的第二参与者相关联的第二装置的第二音频流的装置；

用于产生控制信号的装置，将所述控制信号提供到用于接收所述第一音频流的所述装置及用于接收所述第二音频流的所述装置，以使从用于接收所述第一音频流的所述装置输出的第一缓冲音频与从用于接收所述第二音频流的所述装置输出的第二缓冲音频同步化，在执行解码操作以输出与所述第一缓冲音频相关联的第一信号和与所述第二缓冲音频相关联的第二信号之前，将所述第一缓冲音频与所述第二缓冲音频同步。

34.根据权利要求33所述的设备，其进一步包括：

用于对所述第一缓冲音频进行解码以产生第一经解码音频的装置；及

用于对所述第二缓冲音频进行解码以产生第二经解码音频的装置。

35.根据权利要求33所述的设备，其中用于接收所述第一音频流的所述装置、用于接收所述第二音频流的所述装置及用于产生所述控制信号的所述装置被包含在移动装置中。