CN110072021B

CN110072021B - 一种在音频电话会议混合系统中的方法、装置和计算机可读介质

Info

Publication number: CN110072021B
Application number: CN201910508336.1A
Authority: CN
Inventors: R·J·卡特莱特
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2014-02-28
Filing date: 2015-02-17
Publication date: 2022-01-07
Anticipated expiration: 2035-02-17
Also published as: CN110072021A; US10009475B2; JP6408020B2; WO2015130508A2; WO2015130508A3; US20170070615A1; CN106063238B; EP3111626B1; JP2017507602A; CN106063238A; EP3111626A2

Abstract

本发明涉及电话会议中的在感知上连续的混合。一种在音频电话会议混合系统中将多个当前音频上行传输流混合在一起以产生至少一个音频输出流的方法，所述音频电话会议混合系统是混合多个第一音频上行传输输入流以产生用于下行传输到至少一个会议参与者的至少一个音频下行传输输出流的类型，其中所述多个第一音频上行传输输入流包含包括被感测到的音频的音频信息以及相关联的控制信息，其中所述音频上行传输输入流可以潜在地包括连续传输(CTX)流和非连续传输(DTX)流，所述方法包括以下步骤：(a)确定指示每个当前音频上行传输流的可能重要性的冗长量度；以及(b)当至少一个当前音频上行传输流可以包括CTX流时，在混合中利用至少一个CTX流以产生所述至少一个音频输出流。

Description

一种在音频电话会议混合系统中的方法、装置和计算机可读介质

本申请是申请号为201580010640.3、申请日为2015年2月17 日、发明名称为“电话会议中的在感知上连续的混合”的发明专利申请的分案申请。

对相关申请的交叉引用

本申请要求于2014年2月28日提交的、标题为“Perceptually Continuous Mixingin a Teleconference”的美国临时申请No. 61/946042的优先权，该申请通过引用被并入于此。

技术领域

本发明涉及音频电话会议领域，并且特别公开了用于混合音频电话会议中的多个音频流的方法。

背景技术

在整个说明书中对背景技术的讨论绝对不应该被认为是承认这种技术在本领域中是众所周知的或者形成公知常识的一部分。

其中多个参与方远程地交互以举行会议的视频和音频电话会议系统是重要的资源。已知许多这种系统。大多数系统依赖于集中式或分布式的服务器资源来确保每个参与者通过使用例如专用的电话会议设备、具有音频/输入输出设备的标准计算机资源或智能电话类型的设备而能够听到和/或看到其他参与者。集中式或分布式的服务器资源负责将来自每个会议参与者的上行传输音频信号适当地混合在一起，并且下行传输用于由每个音频输出设备回放的音频信号。

作为背景，在典型的(已知的)电话会议系统中，混合器从每个电话端点接收携带有该电话端点捕获的音频信号的相应的“上行传输流(uplink stream)”，并且向每个电话端点发送相应的“下行传输流(downlink stream)”，因此每个电话端点接收到能够携带其它电话端点捕获的相应音频信号的混合的下行传输流。因此，当电话会议中的两个或更多个参与者同时讲话时，其它的参与者可以听到全部参与者讲话。

已知(并且通常期望)混合器采用自适应方法，由此它响应于感知到一个或多个音频信号中的某些变化而改变混合。例如，响应于确定音频信号不包含语音(即，只包含背景噪声)，可以从混合中省略该音频信号。

考虑其中电话端点各自将上行传输音频流发送到电话会议混合器的电话会议系统。在这种系统中，上行传输和下行传输可以被数字地编码并且经由诸如互联网协议电话(Voice over Internet Protocol， VoIP)网络之类的合适的包交换网络传送，或者它们可以在诸如公共交换电话网(PSTN)之类的电路交换网络上传输。无论哪种方式，混合器的责任都是产生下行传输音频流以发送回到每个端点，使得通常每个参与者听到除自己以外的每个其他参与者。

这种系统中的一类端点在上行传输上采用非连续传输 (DTX)。这种端点试图通过以下中的一项或多项来在最小化网络资源使用的同时最大化可懂度(intelligibility)：采用靠近讲话者嘴巴的麦克风布置；去除背景噪声的噪声抑制信号处理；仅发送存在人类语音时的上行传输流。

这种策略可能使得收听者听到较少的异常噪声，但是也可能导致较少的自然发声体验，首先是因为当背景噪声是非平稳的时，噪声抑制信号处理典型地导致引入烦扰的动态伪像(artefact)，其次是因为噪声抑制影响了语音的均衡，第三是因为基于来自话音活动检测器 (VAD)的不完善信息的二元的发射/不发射判定将有时候导致语音被截断以及在其它时候导致残余噪声被传输为语音。因此，从DTX 设备接收的音频流是被期望包含不多于可忽略量的人类可感知的背景噪声的音频输入流的示例。

第二类端点在上行传输上采用连续传输(CTX)。即，不管 VAD(如果有的话)确定语音存在与否，CTX端点都发送音频流。在这里，意图往往是最大化收听体验的自然度(naturalness)以及允许远程收听者执行众所周知的双声道处理的鸡尾酒会问题(cocktail party problem)，就好像他或她亲自在现场一样。因此，CTX端点可以采用多个麦克风来保持空间多样性，以允许双声道免于掩蔽。 CTX设备的设计者也可以力图限制设备所执行的噪声抑制处理的量，以便最小化烦扰的动态伪影和频谱染色(spectralcolouration) 的可能性。因此，从CTX设备接收的音频流是被期望包含多于可忽略量的能被人类感知的背景噪声的音频输入流的示例。

发明内容

一般地，DTX设备力图去除、抑制或以其它方式避免传输它认为不构成人类语音的任何东西，而CTX设备力图是透明的、以尽可能在感知上最连续且相关的方式传输一切东西。任何混合器必须将此考虑在内。由于在未检测到语音时DTX端点的上行传输基本上是静默的，因此当未检测到语音时，混合器可以能够随意地丢弃它的上行传输流，而不会为收听者带来感知影响。但是，当形成包含CTX流的下行传输混合时，混合器必须在它如何对流应用混合转换方面小心。例如，在未检测到讲话时丢弃CTX流可能容易被收听者注意到，因为与该流相关联的背景噪声可能听起来被关掉了，尤其是当没有其它CTX流存在来掩盖转换时。收听者可能疑惑系统是否已出现故障，或CTX端点是否已从会议断开连接。在这种情况下将无法满足提供自然的收听体验的目标。

通常，电话会议混合器的目标是允许每个参与者听到来自除自己以外的每个其他参与者的语音。但是，对这个目标，存在一些细微区别。例如，如果各自包含背景噪声的许多CTX流同时被收听者听到，则所听到的总背景噪声功率会增大到令人分散注意力或有损可懂度的程度。考虑其中多个上行传输流全都同时讲话的进一步示例。其结果可能是太杂乱而无助于有用的交流。

本文所公开的各种创造性的方法、设备、装置和系统提供了音频会议混合的改善形式。

根据本公开内容的第一方面，提供了一种在音频电话会议混合系统中将多个当前音频上行传输流混合在一起以产生至少一个音频输出流的方法，所述音频电话会议混合系统是混合第一多个音频上行传输输入流以产生用于下行传输到至少一个会议参与者的至少一个音频下行传输输出流的类型，其中所述音频上行传输输入流包含包括被感测到的音频的音频信息以及相关联的控制信息，其中所述音频上行传输输入流可以潜在地包括连续传输(CTX)流和非连续传输(DTX) 流，所述方法包括以下步骤：(a)确定指示每个当前音频上行传输流的可能重要性(likely importance)的冗长(verbosity)量度；以及(b)当至少一个当前音频上行传输流可以包括CTX流时，在混合中利用至少一个CTX流来产生至少一个当前下行传输输出流。

在一些实施例中，所述方法包括在混合中利用具有最高冗长量度的CTX流来产生至少一个当前下行传输输出流的步骤。优选地，步骤(b)还可以包括如下步骤：(i)当优选地存在其上未检测到语音的辅助CTX流时，衰减该辅助CTX流。优选地，步骤(b)还可以包括如下步骤：(ii)当具有最高冗长量度的当前CTX流未被提供话音长达延长的时间段时，衰减该当前CTX流。

在一些实施例中，所述方法还包括如下步骤：(c)当音频输入流的数量超过预定的限制时，丢弃具有最低冗长量度的CTX流。

本公开内容的第二方面提供了一种在音频电话会议混合系统中基于多个音频输入流产生至少一个音频输出流的方法，所述音频电话会议混合系统是被配置为混合所述多个音频输入流以由此产生用于发送到至少一个电话端点的所述至少一个音频输出流的类型，所述方法包括：确定所述多个音频输入流包括至少一个被期望包含多于可忽略量的人类可感知的背景噪声的音频输入流(在下文中称为“携带噪声的音频输入流”)，并且所述携带噪声的音频输入流或所述携带噪声的音频输入流中的每一个是其中当前未检测到语音的音频流；以及将所述携带噪声的音频输入流或所述携带噪声的音频输入流中的至少一个包括在所述至少一个音频输出流中。

尽管即使当包含可听到的背景噪声的至少一个音频输入流不包括语音时将所述音频输入流包括在音频输出流中也可能被认为是违反直觉的，本发明人认识到，可听到的背景噪声的存在会导致提供更自然的收听体验的“氛围”(例如，纸张翻页、打呵欠、玩钢笔等)。

在一些实施例中，所述方法包括：确定所述多个音频输入流包括多个其中当前未检测到语音的携带噪声的音频输入流并且所述携带噪声的音频输入流中的每一个是的音频流；针对所述携带噪声的音频输入流中的每个携带噪声的音频输入流，确定各自的感知重要性量度；基于所述携带噪声的音频输入流的各自的感知重要性量度，选择所述携带噪声的音频输入流的子集；以及将所述携带噪声的音频输入流的所述子集包括在所述至少一个音频输出流中。

在一些实施例中，所述方法包括：选择感知重要性量度最高的一个或多个携带噪声的音频输入流；以及将所选择的携带噪声的音频输入流包括在所述至少一个音频输出流中。

本公开内容的第三方面提供了一种在音频电话会议混合系统中基于多个音频输入流产生至少一个音频输出流的方法，所述音频电话会议混合系统是被配置为混合所述多个音频输入流以由此产生用于发送到至少一个电话端点的所述至少一个音频输出流的类型，所述方法包括：确定所述多个音频输入流包括至少一个被期望包括不多于可忽略量的人类可感知的背景噪声的音频输入流(在下文中称为“噪声可忽略的音频输入流”)并且所述噪声可忽略的音频输入流或所述携带噪声的音频输入流中的每一个是其中当前未检测到语音的音频流；以及将所述噪声可忽略的音频输入流或所述噪声可忽略的音频输入流中的至少一个包括在所述至少一个音频输出流中。

在一些实施例中，所述方法包括：将所有噪声可忽略的音频输入流都包括在所述至少一个音频输出流中。尽管将所有的噪声可忽略的音频输入流都包括在所述至少一个音频输出流中会被认为是违反直觉的，但是本发明人认识到，这不会显著地损害呼叫的“自然度”，并且不省略这些音频信号会导致音频信号的较少交换。

本公开内容的第四方面提供了一种在音频电话会议混合系统中基于多个音频输入流产生至少一个音频输出流的方法，所述音频电话会议混合系统是被配置为混合所述多个音频输入流以由此产生用于发送到至少一个电话端点的所述至少一个音频输出流的类型，所述方法包括：确定所述多个音频输入流包括多于阈值数量的其中当前检测到语音的携带噪声的音频输入流；针对所述携带噪声的音频输入流中的每个携带噪声的音频输入流，确定各自的感知重要性量度；基于所述携带噪声的音频输入流的各自的感知重要性量度，选择所述携带噪声的音频输入流的子集；以及将所述携带噪声的音频输入流的所述子集包括在所述至少一个音频输出流中。

本发明人意识到，在音频输出流中存在过多(例如，多于五个) 携带噪声的音频输入流在某些情况下将显著地损害呼叫的“自然度”。

在一些实施例中，所述方法包括：确定所述多个音频输入流还包括其中当前检测到语音的噪声可忽略的音频输入流；以及将所述噪声可忽略的音频输入流与所述携带噪声的音频输入流的所述子集一起包括在所述至少一个音频输出流中。

在一些实施例中，所述方法包括：确定所述多个音频输入流还包括多个其中当前检测到语音的噪声可忽略的音频输入流；以及将所述噪声可忽略的音频输入流与所述携带噪声的音频输入流的所述子集包括在所述至少一个音频输出流中。

在一些实施例中，针对音频输入流确定感知重要性量度包括指示该音频输入流在当前呼叫期间已包括多少语音的量度。这可能有助于参与者听到的“氛围”的感知连续性。

在一些实施例中，所述携带噪声的音频输入流或所述携带噪声的音频输入流中的每个是连续传输(CTX)音频输入流。

在一些实施例中，所述噪声可忽略的音频输入流或所述噪声可忽略的音频输入流中的每个是非连续传输(DTX)音频输入流。

本公开内容的第五方面提供了用于在电话会议混合系统中使用的装置，该装置被配置为接收多个音频输入流并基于音频输入流产生至少一个音频输出流，该装置包括被配置为执行上述方法中的至少一个方法的处理器。

本公开内容的第六方面提供了携带有计算机可解释指令的计算机可读介质，当所述计算机可解释指令被用于在电话会议混合系统中使用的装置的处理器执行时，其中该装置被配置为接收多个音频输入流并基于音频输入流产生至少一个音频输出流，使得该装置执行上述方法中的至少一个方法。

在各种实施例中，如果携带噪声的音频输入流在超过预定的最大时间内不包含语音，则它将淡出(fade out)，而不是突然从音频输出流中省略。

本公开内容的这些方面和其它方面可以从示例性实施例的以下描述中得以理解。

附图说明

现在将参照附图，以举例的方式描述各种实施例，其中：

图1示意性地例示了优选实施例的自适应混合布置的一种形式；

图2示意性地例示了优选实施例的电话会议混合器；以及

图3是示出了电话会议混合器元件的示例的框图。

具体实施方式

优选实施例在用于音频电话会议(具有或不具有相关联的视频流)的环境中操作，并且提供了用于混合多个上行传输流的方法，以确保在CTX和DTX环境中对输出信号进行高效的混合。

在图1中示出了示例性的音频电话会议系统。在这种布置中，一系列会议参与者共同提供音频输入与输出。例如，在布置1中，第一参与者2使用互连到计算机6的一对耳机5和输入麦克风3来参与会议。计算机6通过网络9提供与混合器11的上行传输8和下行传输 7连接。

第二组参与者(例如，20)使用音频设备21，音频设备21提供包括空间化信息的音频输出。音频设备21也提供内部计算和通信能力，并且包括经由网络25与混合器11互连的上行传输23和下行传输24通道。

其它参与者也可以通过其它手段互连到混合器11。

图1的布置包括使用DTX端点(以具有悬挂式麦克风(boom microphone)3的双耳耳机5为例)的多个会议参与者2。所述多个 DTX端点中的每个DTX端点典型地经由网络9来向电话会议混合器 11断言DTX上行传输(8)流。混合器产生用于每个DTX端点的下行传输(7)流，下行传输(7)流通过网络9被传输回到端点2以被参与者2听到。

多个CTX端点(以扬声电话设备21为例)中的每个CTX端点捕获另外的多个参与者20的语音27。不平凡的背景噪声也可以被这种设备捕获。所述多个CTX端点中的每个CTX端点典型地经由网络25向混合器11断言CTX上行传输(23)流。不失一般性，网络 25可以是由DTX端点使用的网络相同的网络。混合器11为每个 CTX端点产生下行传输(24)流，下行传输(24)流通过网络25被传输回到端点21以便回放给多个参与者20。

在电话会议系统中，每个参与者端点发送上行传输音频流到电话会议混合器并且从其接收下行传输流。在这种系统中，上行传输和下行传输可以被数字地编码并且经由诸如互联网协议电话(VoIP)网络之类的合适的包交换网络传输，或者它们可以通过诸如公共交换电话网(PSTN)之类的电路交换网络传送。无论哪种方式，混合器11 的责任都是产生下行传输音频流以发送回给每个端点5、21，使得通常每个参与者听到除自己以外的每个其他参与者。

但是，对于这个目标，存在一些细微区别。例如，如果各自包含背景噪声的许多CTX流同时被收听者听到，则所听到的总背景噪音功率会增加到令人分散注意力或有损可懂度的程度。作为进一步的示例，考虑多个上行传输流全部同时讲话。其结果可能是太杂乱而不便于进行有用的交流。在这种情况下，只让两个或三个在感知上最相关的流通过可能更好。包括本作者在内的许多作者已提议了用于实现这个的方法。例如，Enbom等人的欧洲专利申请EP 1855455B1公开了一种这样的方法。

虽然混合器按照需要管理电话会议呼叫，但是图2示意性地例示了电话会议混合器11的说明性形式。

如图2中所示，多个上行传输(一些DTX(31，32)，一些 CTX(33))流被断言到混合器11。每个上行传输流经过相应的解包单元35、36、37。取决于上行传输编码信息，每个解包单元对相应的上行传输流进行解包，并且从上行传输流中提取VAD 38、掩蔽事件信息和音频信息40，并且如下所述地识别掩蔽事件39。

混合器11产生多个下行传输(42、43、44)流。在图2中示出了与下行传输(43)流之一相关联的子混合装置46。为每个其它下行传输(42、44)流存在的各个类似的子混合装置未被示出。用于该下行传输的混合控制单元47对由与其它下行传输相关联的解包单元 35、37产生的VAD和掩蔽事件信号进行操作，并且为除上行传输 36之外的每个上行传输产生增益，因为下行传输43将会被生成上行传输32的同一端点Y听到。这些增益被用于缩放48、49和混合50 来自上行传输的音频，以产生适合通过下行传输43重新打包和编码 51回去的最终音频流。

优选实施例提供了用于在电话会议系统中将DTX和CTX上行传输混合在一起以形成具有整体唯一混合策略的一系列在感知上连续的下行传输的方法。

考虑服务多个DTX端点(即，仅当估计存在语音时才在上行传输上传输音频的端点)和多个CTX端点(即，连续地在上行传输上传输音频的端点)的VoIP(互联网协议电话)电话会议服务器。周期性地(例如每20ms)，服务器需要分析自从上次之后已通过网络接收到的编码音频的上行传输包，并且产生包含编码音频的新的下行传输包以发送给每个端点。由于发送端点上的时钟和服务器上的时钟之间的偏差以及由于网络中引入的抖动和包丢失，所以上行传输包可能不是以服务器需要它们的正好相同的速率(例如每20ms)到达。因此，服务器将需要采用如本领域技术人员已知的抖动缓冲方案。在抖动缓冲之后，应该在任何端点处的收听者听到来自除他自己以外的每个其它端点的语音的总体目标下、基于输入包来形成下行传输包。

优选实施例提供了通过根据以下原则以在感知上连续的方式处理 DTX和CTX流这两者来延伸先前技术的方法。

关于哪些流被听到和哪些流不被听到的判定基于冗长度量，冗长度量是描述对话中特定上行传输的重要性的度量。可以使用不同表征形式的冗长度量或类似物，包括诸如每个通道的功率谱分析之类的简单的量度。冗长的一种较复杂的量度在于2012年9月27日提交的、标题为“Method for Improving Perceptual Continuity in a SpatialTeleconferencing System”的美国专利申请61/706315中获得，该申请的内容通过交叉引用被并入于此。

当人们讲话时，除非存在极端条件，否则他们期望被听到。因此，每当与CTX流相关联的VAD估计流中存在语音时，该CTX流将被听到，除非超过了包含活动语音的CTX流的某个最大计数 N_MAX(例如，5)。在多于N_MAX个CTX流同时包含语音的情况下，具有最高冗长的N_MAX个流将被听到，而其它的流可以被剔除。如果许多CTX流被听到，则结果立即很可能变得杂乱或嘈杂，并且还会消耗显著的服务器资源来进行混合。

期望的是：当CTX流都未包含活动语音时，在大部分时间，单个CTX上行传输在每个下行传输中可听到。如果CTX流在讲话一停止就突然被关闭，则这将立即被注意到并且将听起来不自然。另一方面，如果许多CTX流被听到，则结果立即可能是令人分心地杂乱或嘈杂，并且也将消耗显著的服务器资源来混合。

在优选实施例中，期望具有在任何时间在每个下行传输中活动的至少单个CTX流。这个流被表示为发言者。选择最冗长(即，最高冗长)的流成为发言者是合乎逻辑的，因为考虑到那是在最近的历史中在会议中已包含最多语音的数据流，所以它最有可能是收听者的关注焦点。

期望的是CTX流被文雅地中断。这意味着，当没有语音存在时，不是直接将其关闭，而是服务器应该在等待某个最小保持时间以查看是否即将到来更多语音之后将它淡出。但是，更重要的是，人们被听到。因此，当多于N_MAX个CTX流活动时，不应该应用此原则。

如果CTX流全都在长时间段(例如，1分钟)内不包含语音，则可以“逐渐降低”所听到的最后一个CTX流。这可以通过每次声明掩蔽事件时应用量值G_STEP(例如，-2dB)的离散衰减步骤来完成。当端点在长度T_MASK(例如，3秒)的静默时间段之后开始讲话时，掩蔽事件被检测到。一旦流被衰减超过一定量，例如 G_THRESHOLD(例如，-18dB)，它就可以被淡出和中止。确定流已长时间段处于非活动状态的简单方法是检查其冗长是否处于某个小的阈值V_THRESHOLD(例如，0.05)以下。

具体实施例

现在将描述图2的子混合单元46的实现的具体实施例的一种形式。

对于每个连接的端点或下行传输，维护场景对象作为从帧到帧的状态。场景对象可以包括：1.对输入流的一组引用(即，来自其它被连接的端点的上行传输流)；2.一组输出流定义，其中每个输出流定义又包括：a)对所分配的输入流的一组引用；b)关于对所分配输入流的每个引用，相关联的混合增益。

周期性地(例如，每20ms)：

1)将集合D(该帧将需要被执行解码的输入流的集合)初始化为空集合。

2)将集合S(该帧将需要被混合和重新编码的场景的集合)初始化为空集合。

3)执行准备遍历；对于每个被连接的端点：

a)从抖动缓冲区获取下一个上行传输音频包。

b)确定音频包中是否存在语音(讲话标志)。

这可以通过对包进行解码并且应用合适的VAD或者通过提取已由发送端点在音频包中提供的讲话标志元数据来完成。

4)执行冗长更新遍历；对于每个被连接的端点：

基于讲话标志为这个端点更新冗长度量。

由于冗长是长期聚合体，因此使用来自先前帧的讲话标志也是能接受的，使得冗长可以被计算为第一遍历的一部分。

5)执行计划遍历；对于每个被连接的端点，更新场景对象：

a)在第一子遍历中，有必要确定哪些输入流要启用：

i.记录已断言其讲话标志的CTX输入流的数量n_ctx。

ii.创建不超过N_MAX个具有当前被断言的讲话标志的最冗长(即，最高冗长)输入流的集合L。

iii.记录其讲话标志被设置、但不是集合L的成员的输入流的数量n_cull。

iv.如果有的话，则找到哪个CTX输入流当前具有最高冗长 (至少为V_THRESHOLD)。指定这个流为发言者。

v.如果在不活动至少T_MASK的时间段之后，任何输入流的讲话标志经历从被清除到被断言该帧，则声明与此场景相关联的掩蔽事件。

b)在第二子遍历中，有必要在场景中启用输入流。对于集合 L中的每个输入流：

i.将混合增益设置为0dB(一致)。

ii.确保输入流被分配给输出流。如果多个输入流被分配给相同的输出流，则它们可以在服务器处被解码和混合。仅被分配单个输入流的任何输出流可以在不解码的情况下被转发。输出包可以包含多个输出流，在这种情况下，它们被混合在一起并且在接收端点处被呈现。

c)在第三子遍历中，从场景中剔除之前听到的输入流。对于当前被分配给输出流但不是集合L的成员的每个输入流：

i.如果输入流是DTX，则立即将它从其输出流解除分配。

ii.如果输入流是CTX并且n_cull非零，则将该流在这个输出流中标记为淡出。否则：

iii.如果输入流没有被指定为发言者、n_ctx大于1并且该流已经不活动长达至少T_HOLD，则将该输入流在其输出流中标记为淡出。

iv.如果输入流没有被指定为发言者并且n_ctx是1(这是当前听到的唯一CTX流，但它不是发言者)，则在掩蔽事件已被声明时将其混合增益减少G_STEP。如果混合增益现在小于 G_THRESHOLD，则将这个输入流在其输出流中标记为淡出。

d)在第四子遍历中，对正在淡出的流的增益进行更新。对于当前被分配给输出流的每个输入流：

i.如果输入流被标记为淡出，则将其混合增益减少 G_FADE。

ii.如果输入流的混合增益小于G_CUT，则将它从输出流解除分配。

iii.在第五子遍历中，我们把为了对场景进行混合而需要执行解码的任何输入流添加到集合D，如果它们还不是成员的话。

iv.如果所得到的场景不是空的，则将它添加到集合S。

6)可选地，通过定位和合并集合S中的相同场景来执行场景共享遍历。如果每个输出流由具有相同混合增益的一组相同的输入流形成，则两个场景应该被视为相同的。相同的场景应该被合并成单个场景对象，该单个场景对象记录了它应该被发送到哪些端点。

7)执行集合D中的每个输入流解码，使得解码的音频数据可用于混合。

8)执行混合遍历；对于S中的每个场景：

(a)对于场景中的每个输出流：

i.如果输出流具有分配给它的多个输入流，则将在解码遍历 (7)中从输入流导出的解码音频混合在一起，并且重新编码混合后的音频，以准备用于在下行传输包中传输。

ii.否则，如果输出流具有分配给它的单个输入流：则复制或引用该输入流，以准备用于在下行传输包中发送，而无需重新编码。

9)执行发送遍历；对于S中的每个场景，并且对于要接收这个场景的每个端点：

(a)通过利用任何所需要的特定于端点的头部信息(例如，序列号)预先考虑在混合遍历(8)中产生的输出流数据来形成完整的下行传输包。

(b)将下行传输包发送到端点。

10)当接收到下行传输包时，端点应该解码在其中发现的每个流、将它们混合在一起、并且通过扬声器或耳机呈现它们。

假设20毫秒的帧时段，在以上讨论中以斜体大写字母示出的每个常数的建议值在下表中给出。

N_MAX	5
		V_THRESHOLD	0.05
T_MASK	3秒
		T_HOLD	1秒
G_STEP	-2dB
		G_THRESHOLD	-18dB
G_FADE	-20dB/秒(0.4dB/帧)
		G_CUT	-60dB

图3是示出了电话会议混合器元件的示例的框图。图3中示出的部件的类型和数量仅仅以示例的方式示出。可替代的实现可以包括更多、更少和/或不同的部件。电话会议混合器300例如可以是电话会议服务器的实例。在一些示例中，电话会议混合器300可以是另一个设备的部件。例如，在一些实现中，电话会议混合器300可以是远程会议服务器的部件，例如，线卡(line card)。电话会议混合器300 可以至少部分地由如下控制系统来实现：该控制系统可以包括通用的单芯片或多芯片处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立门或晶体管逻辑和/或分立硬件部件。在一些实现中，电话会议混合器300可以根据存储在一个或多个非临时性介质上的指令(例如，软件)来实现。这种非临时性介质可以包括存储器设备，诸如本文所描述的那些，包括但不限于：随机存取存储器(RAM)设备、只读存储器(ROM)设备，等等。

在图3示出的示例中，电话会议混合器300包括解包单元303A- 303C，解包单元303A-303C被示出为接收DTX上行传输流301A- 301C。这里，电话会议混合器300还包括解包单元304A-304C，解包单元304A-304C被示出接收CTX上行传输流302A-302C。在一些实现中，解包单元303A-303C可以是图2和以上所述的解包单元35 和36的实例，并且解包单元304A-304C可以是图2和以上所述的解包单元37的实例。

虽然解包单元303A-303C和解包单元304A-304C都没有示出输出事件信息(诸如在图2中示出的X事件、Y事件和Z事件信息)，但是，在一些实现中，解包单元303A-303C和/或解包单元 304A-304C可以能够确定所接收的上行传输流中的事件以及能够输出事件信息。根据一些这种实现，解包单元303A-303C和/或解包单元 304A-304C可以能够根据所接收的上行传输流中的事件标志(或类似指示)确定事件。可替代地或附加地，在一些实现中，解包单元 303A-303C和/或解包单元304A-304C可以能够通过其它手段确定事件，诸如通过对所接收的上行传输流进行分析。

一些此类示例可以包括特征提取器和事件检测器。在一些实现中，特征提取器和事件检测器这两者都可以在解包单元或在电话会议混合器的一个或多个其它部件中实现。在可替代的实现中，特征提取器和事件检测器这两者都可以在电话端点中实现。在其它实现中，特征提取器可以在电话端点中实现，而事件检测器可以在解包单元中或在电话会议混合器的一个或多个其它部件中实现。

特征提取器可以能够分析输入波形以及产生对应于一种或多种特征的输出，诸如等级的变化和/或谱通量的变化(例如，节距的变化)。在一些示例中，特征提取器可以能够有VAD功能。根据一些这种示例，特征提取器可以能够分析输入波形以及能够输出VAD结果。

事件检测器402可以能够分析由特征提取器提取的特征以及能够产生对应于一种或多种事件的输出。在一些实现中，事件可以与语音的开始、语音的停止、特别音节的出现、语音的词或类别、音量的变化、谱通量的变化或其它类似变化、和/或根据听觉场景分析而确定的标准对应。在一些实现中，事件检测器的输出可以是“二元的”，仅指示事件是否存在或不存在。但是，在一些示例中，事件检测器的输出也可以指示事件量值。

根据一些示例，解包单元303A-303C可以能够只处理DTX上行传输流并且解包单元304A-304C可以能够只处理CTX上行传输流。但是，在一些实现中，解包单元303A-303C和/或解包单元304A- 304C可以能够处理CTX上行传输流和DTX上行传输流这两者。根据一些这种实现，解包单元303A-303C和/或解包单元304A-304C可以能够根据标志、上行传输流中的头部或其它信息来确定把上行传输流作为CTX上行传输流还是DTX上行传输流来处理。在一些实现中，关于把上行传输流作为CTX上行传输流还是DTX上行传输流来处理的信息可以在上行传输流的外部。在一些这种实现中，关于把上行传输流作为CTX上行传输流还是DTX上行传输流来处理的信息可以在会话发起过程期间交换，例如，在端点和电话会议服务器 (或其一部分，诸如解包单元)之间根据会话发起协议(SIP)的协商期间。可替代地，关于把上行传输流作为CTX上行传输流还是 DTX上行传输流来处理的信息可能在上行传输流中或在会话发起过程期间没有被显式地指示，但是可以根据对于上行传输流的包中的诸如VAD标志之类的信息的分析来确定。在一个这种示例中，CTX上行传输流可以通过两个连续包的两个VAD标志被设置为零的实例来识别。

根据一些实现，解包单元的数量将取决于上行传输流的数量并且解包单元的功能将取决于上行传输流是CTX上行传输流还是DTX 上行传输流。例如，在一些这种实现中，控制系统可以调用对应于上行传输流的数量的多个软件模块。每个软件模块可以具有取决于对应的上行传输流是CTX上行传输流还是DTX上行传输流的解包单元功能。

在图3中所示的示例中，解包单元303A-303C和解包单元304A- 304C能够输出音频信息306A-306F，每个音频信息306A-306F来自对应的上行传输流。取决于特定的实现，音频信息306A-306F可以是在时域或频域中。在一些示例中，音频信息306A-306F可以被修改为离散余弦变换(MDCT)音频数据。取决于特定的实现，音频信息306A-306F可以被编码或解码。在本示例中，至少音频信息306D- 306F可以被解码。

在本示例中，解包单元303A-303C和解包单元304A-304C能够输出语音活动信息305A-305F，指示对应的上行传输流中的语音。在一些实现中，当DTX端点已检测到语音时，DTX端点将只发送上行传输流。根据一些此类示例，解包单元303A-303C可以能够输出与在其间接收到DTX上行传输流的时间间隔对应的语音活动信息。

在一些实现中，CTX端点可以能够进行语音活动检测，并且可以将诸如VAD标志之类的信息包括在CTX上行传输流中，以指示 CTX上行传输流中音频数据的哪些部分对应于语音。根据一些这种示例，解包单元304A-304C可以能够输出与CTX上行传输流302A- 302C中检测到的VAD标志或其它这种信息对应的语音活动信息。但是，在可替代的示例中，解包单元304A-304C可以能够进行语音活动检测，并且可以能够输出与CTX上行传输流302A-302C中检测到的语音对应的语音活动信息。

在本示例中，解包单元303A-303C和解包单元304A-304C能够将语音活动信息305A-305F输出到冗长估计器模块308。因此，在这个实现中，来自电话会议中涉及的所有上行传输流的语音活动信息被输入到冗长估计器模块308。在本示例中，冗长估计器模块308能够为CTX端点计算冗长度量，诸如对应于CTX上行传输流302A- 302C的三个CTX端点。如本文其它地方所指出的，冗长度量可以指示上行传输流的可能重要性。

计算冗长度量的过程和/或冗长度量本身可以根据实现而变化。在一些实现中，冗长估计器模块308可以能够至少部分地基于每个上行传输流的功率谱分析来计算冗长度量。在一些实现中，冗长估计器模块308可以能够根据在于2013年9月25日提交的国际专利申请 No.PCT/US2013/061648中例如第24-29页描述的一种或多种方法来计算冗长量度，该申请的内容通过引用被并入于此。

一些这种实现可能涉及随着时间积累(例如，每个会话参与者或每个上行传输流的)每个输入声场信号的冗长度量。这种实现可能涉及为每个端点i的输入声场信号确定冗长值V_i。冗长值V_i可以取决于会议中的活动而被修改。V_i的相对高的值可以指示端点i已更加活跃，并且因此更可能或更适于被维持为多路复用输出声场信号中的最近活动的声场。冗长度量V_i可以在每帧或根据一组规则和参数的时刻被修改。规则和参数的示例在下面表1中列出。特别地，表1例示了机制和对冗长度量的建议修改。

表1

一般而言，根据上面的一组参数，当端点i活动时，用于端点i 的冗长V_i可以增加，并且如果端点i是唯一的活动端点，则增加得更快。当端点i不活动时，并且至少一个其它端点活动时，冗长V_i可以减少。如果只有一个活动端点，则冗长V_i可以减少得更快。在会议中没有活动的情况下，在一些示例中当前冗长等级可以被维持。在一些实施例中，可以优选地应用冗长V_i的适当衰减并且将衰减链接到端点i的相关联的声场信号的淡出。

根据一些示例，如果第一会议参与者在第一时间间隔期间已比其他会议参与者讲得更多，并且然后在第二时间间隔期间停止讲话，但是在第二时间间隔期间，没有其他会议参与者在讲话，则第一会议参与者的冗长可以在该时间间隔期间保持恒定。但是，如果另一个会议参与者在第二时间间隔期间开始讲话，则第一会议参与者的冗长可以在该时间间隔期间减少。根据一些实现，如果多于一个其它会议参与者在第二时间间隔期间开始讲话，则第一会议参与者的冗长可以在第二时间间隔期间减少得更快。

在图3所示的示例中，冗长估计器模块308被示为输出冗长度量 V1-V3，冗长度量V1-V3分别对应于CTX上行传输流302A-302C之一。在一些实现中，冗长估计器模块308可以能够输出0(意味着交谈参与者在至少预定长度的时间内根本没有讲话)和1(意味着交谈参与者在至少预定长度的时间内已是最主要的讲话者)之间的数字。

根据本示例，冗长度量V1-V3被输入到增益控制单元309。在这个实现中，增益控制单元309能够确定混合策略，混合策略包括用于 CTX上行传输流302A-302C中的每一个CTX上行传输流的至少部分基于冗长度量V1-V3的增益。这里，增益控制单元309能够将对应于冗长度量V1-V3的增益信息314A-314C提供给对应的增益单元 310A-310C。因此，在本示例中，增益控制单元309可以为具有相对较高的冗长度量的CTX上行传输流确定相对较高的增益，并且可以为具有相对较低的冗长度量的CTX上行传输流确定相对较低的增益。

混合策略也可以基于其它因素。例如，在图3所示的示例中，为简单起见，只有单个下行传输流320被示为正在从多路复用器313中输出。下行传输流320对应于电话会议中涉及的单个端点。电话会议混合器300将一般地输出多个下行传输流，电话会议中涉及的每个端点一个下行传输流。在一些实现中，电话会议混合器300可以能够允许每个会议参与者听到来自除她或他自己以外的每个其他会议参与者的讲话(具有一些可能的约束)。因此，在一些这种实现中，混合策略还可以包括为来自对应于下行传输流320的端点的CTX上行传输流确定低(或零)增益。

在一些示例中，增益控制单元309可以能够提供与以上参照图2 描述的混合控制单元47的功能类似的功能。根据一些这种示例，增益控制单元309可以能够至少部分地实现以上描述的本公开内容的各个方面。例如，在一些实现中，增益控制单元309可以能够根据各种标准(诸如本文所公开的那些标准)来衰减一个或多个CTX上行传输流、丢弃一个或多个CTX流、即使在输入流中当前未检测到讲话也将携带噪声的CTX上行传输流包括在输出流中、将当前检测到其中有讲话的携带噪声的CTX上行传输流的子集包括在输出流中、即使在CTX上行传输流中当前未检测到讲话也将噪声可忽略的CTX 上行传输流包括在输出流中，等等。尽管在图3所示的示例中，增益控制单元309没有被示出从解包单元接收事件信息，但是在可替代的示例中，增益控制单元309可以至少部分地基于由解包单元产生的事件信号来确定混合策略。

在本示例中，对应的增益单元310A-310C能够基于由增益控制单元309提供的增益信息来将增益应用到CTX上行传输流中对应的一个。在这个实现中，CTX混合器311能够混合从增益单元310A- 310C输出的CTX上行传输流。在一些示例中，CTX混合器311可以能够提供与以上参照图2描述的混合单元50的功能类似的功能。

在这个实现中，CTX混合器311能够将混合后的CTX流315提供给重新编码/重新打包单元312。重新编码/重新打包单元312可以能够对混合后的CTX流315进行编码并且能够将混合后的编码CTX 流317提供给多路复用器313。

在图3所示的示例中，DTX混合器307从解包单元303A-303C 接收对应于DTX上行传输流301A-301C的音频信息306A-306C。在一些实现中，音频信息306A-306C可以被编码，而在其它实现中，音频信息306A-306C可以被解码。

根据一些实现，DTX混合器307可以允许多达最大数量的编码 DTX流被包括在下行传输流320中。在一些这种实现中，DTX混合器307可以在虚拟空间中向每个编码DTX流分配相关联的位置。根据一些实现，DTX混合器307可以能够根据一组规则，诸如在标题为“Placement of Talkers in 2D or 3D Conference Scene”的国际申请号PCT/US2013/033270中例如第1-10和22-36页描述的那些规则，将会议参与者语音分配到虚拟空间中的位置。在图3所示的实现中，多路复用器313能够向多路复用器313提供混合后的DTX流 319。在本示例中，多路复用器313能够将混合后的编码CTX流317 与混合后的DTX流319多路复用，以产生下行传输流320。

解释

贯穿本说明书，对“一种实施例”、“一些实施例”或“实施例”的引用意味着联系该实施例描述的特定特征、结构或特性被包括在本发明的至少一个实施例中。因此，在贯穿本说明书的不同位置中，短语“在一种实施例中”、“在一些实施例中”或“在实施例中”的出现不一定都指代相同的实施例，但是可以指代相同的实施例。此外，在一个或多个实施例中，如本领域普通技术人员根据本公开内容而显而易见的，特定特征、结构或特性可以以任何合适的方式进行组合，。

在下面的权利要求和本文的描述中，术语“包括”、“包含”中的任何一个是意味着至少包括后面的要素/特征但不排除其它要素/特征的开放性术语。因此，当在权利要求中使用时，术语“包括”不应该被解释为受限于之后列出的手段或要素或步骤。例如，表述设备包括A和B的范围不应该被限制为设备只由元素A和B组成。如本文中所使用的术语“包括”或“包含”中的任何一个也是开放性术语，其也意味着至少包括该术语之后的要素/特征，但不排除其它的要素/ 特征。因此，包含与包括是同义词并且意味着包括。

如本文中所使用的，术语“示例性”是在提供示例的意义上被使用，而不是指示质量。即，“示例性实施例”是作为示例提供的实施例，而不一定是示例性质量的实施例。

应当理解，在本发明的示例性实施例的以上描述中，出于组织本公开内容和帮助对各种创造性方面中的一个或多个方面的理解的目的，本发明的各种特征有时在单个实施例、附图或其描述中被组合在一起。但是，这种公开方法不应该被解释为反映所要求保护的发明需要的特征要多于在每个权利要求中明确描述的特征的意图。相反，如以下权利要求反映的，创造性方面在于少于单个上述公开实施例的所有特征。因此，具体实施方式后面的权利要求由此被明确地结合到具体实施方式中，其中每项权利要求独立地作为本发明的单独实施例。

此外，虽然本文中所描述的一些实施例包括其它实施例中所包括的某些特征，而不包括其它特征，但是如本领域技术人员将理解的，不同实施例的特征的组合意味着要在本发明的范围之内，并且形成不同的实施例。例如，在下面的权利要求中，要求保护的任何实施例可以以任何组合被使用。

此外，一些实施例在本文中被描述为可由计算机系统的处理器或由执行功能的其他手段实现的方法或方法要素的组合。因此，具有用于执行这种方法或方法要素的必要指令的处理器形成用于执行方法或方法要素的装置。此外，装置实施例的在本文中所描述的元件是用于执行由该元件执行的功能以便执行本发明的装置的示例。

可以采用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外、或半导体的系统、装置或设备，或者以上各项的任何合适的组合。计算机可读存储介质的更具体的示例(非穷举的列表)包括以下：具有一个或多个导线的电连接、便携式计算机盘、硬盘、随机存取存储器 (RAM)、只读存储器(ROM)、可擦可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储设备、磁存储设备、或者以上各项的任何合适的组合。在本文件中，计算机可读存储介质可以是包含或存储程序的任何有形介质，该程序可以被指令执行系统、装置或设备使用或者与其结合使用。

计算机可读信号介质可以包括基带中的或者作为载波一部分的、其中包含了计算机可读程序代码的传播数据信号。这种传播数据信号可以采用各种形式中的任何形式，包括但不限于：电磁信号、光信号或其任何合适的组合。

计算机可读信号介质还可以是计算机可读存储介质以外的、可以传送、传播或者传输用于由指令执行系统、装置或设备使用或者与其结合使用的程序的任何计算机可读介质。

计算机可读介质上包含的程序代码可以用任何适当的介质传送，包括但不限于：无线、有线、光缆、RF等等，或者以上各项的任何合适的组合。

用于执行本申请的各方面的操作的计算机程序代码可以以一种或多种编程语言的任何组合来编写，编程语言包括：面向对象的编程语言，诸如Java、Smalltalk、C++等；以及常规的过程式编程语言，诸如“C”编程语言或类似的编程语言。程序代码可以作为独立的软件包完全地在用户计算机上执行、或者部分地在用户计算机上和部分地在远程计算机上执行或完全地在远程计算机或服务器上执行。在后者的情形中，远程计算机可以通过任何类型的网络(包括局域网 (LAN)或广域网(WAN))连接到用户计算机，或者可以连接到外部计算机(例如，利用互联网服务提供商通过互联网)。

在本文提供的描述中，阐述了许多具体细节。但是，应该理解，本发明的实施例可以在没有这些具体细节的情况下实践。在其它实例中，众所周知的方法、结构和技术没有被详细示出，以免混淆对本描述的理解。

虽然已描述了被认为是本发明的优选实施例的内容，但是本领域技术人员将认识到，在不脱离本发明的精神的情况下，可以对其做出其它和进一步的修改，并且意在要求所有这种变化和修改落入本发明的范围之内。例如，以上给出的任何公式仅仅代表可以使用的过程。可以从框图中添加或删除功能，并且操作可以在功能块之间互换。在本发明的范围之内可以对所描述的方法添加或删除步骤。

Claims

1.一种在音频电话会议混合系统中基于多个音频输入流产生至少一个音频输出流的方法，所述音频电话会议混合系统是被配置为混合所述多个音频输入流以由此产生用于发送到至少一个电话端点的所述至少一个音频输出流的类型，所述方法包括：

确定所述多个音频输入流包括多个携带噪声的音频输入流，所述携带噪声的音频输入流被预计包含多于可忽略量的人类可感知的背景噪声，并且所述携带噪声的音频输入流中的每一个是当前未检测到语音的音频流；

针对所述携带噪声的音频输入流中的每个携带噪声的音频输入流，确定各自的感知重要性量度，其中，针对音频输入流确定感知重要性量度包括确定指示该音频输入流在当前呼叫期间已包括多少语音的量度；

基于所述携带噪声的音频输入流的各自的感知重要性量度，选择所述携带噪声的音频输入流的子集；以及

将所述携带噪声的音频输入流的所述子集包括在所述至少一个音频输出流中。

2.如权利要求1所述的方法，包括：

选择感知重要性量度最高的一个或多个携带噪声的音频输入流；以及

将所选择的携带噪声的音频输入流包括在所述至少一个音频输出流中。

3.如权利要求1-2中的任一项所述的方法，其中所述携带噪声的音频输入流或所述携带噪声的音频输入流中的每一个是连续传输(CTX)音频输入流。

4.一种在音频电话会议混合系统中基于多个音频输入流产生至少一个音频输出流的方法，所述音频电话会议混合系统是被配置为混合所述多个音频输入流以由此产生用于发送到至少一个电话端点的所述至少一个音频输出流的类型，所述方法包括：

确定所述多个音频输入流包括多于阈值数量的其中当前检测到语音的携带噪声的音频输入流；

5.如权利要求4所述的方法，包括：

确定所述多个音频输入流还包括其中当前检测到语音的噪声可忽略的音频输入流；以及

将所述噪声可忽略的音频输入流与所述携带噪声的音频输入流的所述子集一起包括在所述至少一个音频输出流中。

6.如权利要求5所述的方法，包括：

确定所述多个音频输入流还包括多个其中当前检测到语音的噪声可忽略的音频输入流；以及

7.如权利要求4-6中的任一项所述的方法，其中所述携带噪声的音频输入流或所述携带噪声的音频输入流中的每一个是连续传输(CTX)音频输入流。

8.如权利要求5-6中的任一项所述的方法，其中所述噪声可忽略的音频输入流或所述噪声可忽略的音频输入流中的每一个是非连续传输(DTX)音频输入流。

9.一种用于在电话会议混合系统中使用的装置，该装置被配置为接收多个音频输入流并基于音频输入流产生至少一个音频输出流，该装置包括被配置为执行以下方法中的至少一个方法的处理器：

权利要求1至8中的任一项所述的方法。

10.一种携带计算机可解释指令的计算机可读介质，所述计算机可解释指令当被用于在电话会议混合系统中使用的装置的处理器执行时，使得该装置执行以下方法中的至少一个方法，其中该装置被配置为接收多个音频输入流并基于音频输入流产生至少一个音频输出流：

权利要求1至8中的任一项所述的方法。

11.一种用于基于多个音频输入流产生至少一个音频输出流的装置，包括用于执行权利要求1-8中的任一项所述的方法的步骤的单元。