CN103988486B

CN103988486B - 在多方电话会议的混音中选择活动信道的方法

Info

Publication number: CN103988486B
Application number: CN201280061199.8A
Authority: CN
Inventors: 多哈·苏克·吉姆
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2011-12-13
Filing date: 2012-12-13
Publication date: 2016-10-05
Anticipated expiration: 2032-12-13
Also published as: US8880412B2; EP2786552A1; US20130151242A1; EP2786552B1; WO2013086994A1; EP2786552A4; CN103988486A

Abstract

一种装置，包括入端口，用于接收包括对应于多个源的编码音频信号的信号；以及耦合到所述入端口的处理器，用于计算所述多个编码音频信号中每个信号的参数，其中无需解码任一所述编码音频信号计算每个参数，根据所述编码音频信号中每个信号的所述参数选择所述编码音频信号中一些信号但非所有信号，解码所述所选信号以生成多个解码音频信号，以及将所述多个解码音频信号组合成第一音频信号。

Description

在多方电话会议的混音中选择活动信道的方法

相关申请案交叉申请

本发明要求2011年12月13日由Doh-Suk Kim递交的发明名称为“在多方电话会议的混音中选择活动信道的方法(Method to Select Active Channels inAudio Mixing for Multi-Party Teleconferencing)”的第13/324056号美国专利申请案的在先申请优先权，该在先申请的内容以引入的方式并入本文本中，如全文再现一般。

技术领域

本发明涉及通信网络，尤其涉及在多方电话会议的混音中选择活动信道的方法。

背景技术

利用标准网络通信协议的分组交换电话会议系统正变得越来越普遍。这些系统可利用网络通信协议的普遍性和相对低成本以更好地提供电话会议服务。但是，随着电话会议业务的普及，以及因此可能参与电话会议的用户数已经增加，混合来自许多不同源的音频以生成不同用户听到的信号所必需的软件和/或硬件的复杂性也相应地增加。例如，在具有多个参与者的系统中，一个方案可能涉及解码，然后混合来自所有参与者的所有音频信号，并随后将混合的音频信号传输回参与者。这种方法的一个问题在于由于数字表示，来自大量参与者的音频信号的求和可能引起音频信号的饱和和/或失真，导致质量较差。这种方法的第二个问题是来自静默参与者的音频信号可仅包含背景噪声，并且增加来自这些参与者的信号可以在所产生的混合音频信号中增加背景噪音的电平。最后，这种方法的第三个问题是解码大量信号需要处理与用户数成比例的(例如，以每秒百万条指令(MIPS)为单位测量的)资源。因此，有必要通过降低复杂性和/或提高语音质量开发适应涉及更大人群的电话会议的方法和/或系统。

发明内容

在一方面，本发明包括一种装置，包括入端口，用于接收包括对应于多个源的编码音频信号的信号；以及耦合到所述入端口的处理器，用于计算所述多个编码音频信号中每个信号的参数，其中无需解码任一所述编码音频信号计算每个参数，根据所述编码音频信号中每个信号的所述参数选择所述编码音频信号中一些信号但非所有信号，解码所述所选信号以生成多个解码音频信号，以及将所述多个解码音频信号组合成第一音频信号。

在另一方面，本发明包括一种方法，包括接收对应于电话会议系统中的多个参与者的多个音频信号，其中每个音频信号是压缩语音信号，并且m表示音频信号的数目；计算所述多个音频信号中每个信号的参数，其中无需解压任一所述多个音频信号获得每个参数；根据所述音频信号中每个信号的所述参数，从所述多个音频信号中选择M个最佳信号，其中M是小于m的正整数；解压所述M个最佳信号以生成M个未压缩的音频信号；以及将所述M个未压缩的音频信号组合成第一未压缩的音频信号。

在又一方面，本发明包括一种网络服务器，包括入端口，用于接收信号，其中所述信号包括m个压缩音频流，m是至少等于2的整数；耦合到所述入端口的处理器，用于无需解压任一音频流计算所述m个压缩音频流中每个音频流的参数，其中每个参数提供其对应的压缩音频流的质量的指示，基于所述参数选择M个所述压缩音频流用于解压缩，其中M是小于m的正整数，解压所述M个所选压缩音频流，组合所述M个所选解压音频流以形成第一解压音频流，以及压缩所述第一解压音频流以生成第一压缩音频流；以及耦合到所述处理器的出端口，用于传输所述第一压缩音频流。

结合附图和权利要求书，可从以下的详细描述中更清楚地理解这些和其他特征。

附图说明

为了更完整地理解本发明，现在参考以下结合附图和详细描述进行的简要描述，其中相同参考标号表示相同部分。

图1是电话会议架构的实施例的示意图。

图2是语音编码系统的实施例的方框图。

图3是语音源选择方法的实施例的流程图。

图4是混音系统的实施例的示意图。

图5是码激励线性预测(CELP)解码器和帧能量估计器的实施例的示意图。

图6是网络单元的实施例的示意图。

图7是通用计算机系统的实施例的示意图。

具体实施方式

首先应该理解的是，尽管下面提供了一种或多种实施例的示例性实施方式，本发明公开的系统和/或方法可通过多种当前已知的或存在的技术实施。本发明决不应限于下文所说明的所述说明性实施方案、图式和技术，包含本文所说明并描述的示范性设计和实施方案，而是可以在所附权利要求书的范围以及其均等物的完整范围内修改。

本文公开了用于多方电话会议中的混音的系统和方法，导致了给定数目的参与者的处理减少、性能提高，和/或对于给定的音频质量参与者的数目增加。这些系统和方法涉及基于信道信号的能量等预定义特征的值在混合之前预筛选音频流。这些系统和方法涉及选择活动语音信号的子集用于解码和混合。该选择可能根据与基于输入处的到语音解码器的比特流，而非输出处的比特流获得的每个语音信号有关的参数(即，无需解码任一语音信号可获得参数)。因此，实施系统和/或系统所需的处理能力可降低，因为不需要对来自所有参与者的信号进行完整的音频解码。

图1展示了电话会议架构100的实施例的示意图。电话会议架构100可以是包括通过网络160连接到服务器150的m个终端110-140的客户端-服务器模式，其中m是整数。终端110-140中的每个终端可具有至少一个不同用户，共计至少m个不同用户。终端110-140可用于从对应的用户捕捉语音信号、数字化语音以及在网络160上将数字语音信号传输到服务器150。

服务器150可用于从m个终端中的每个终端接收数字语音信号，并且随后将语音信号传输回m个终端110-140中的每个终端，该语音信号是m个输入语音信号的一些组合。来自服务器150的传输可以是广播传输。在这种方式下，服务器150控制m个终端中的电话会议。

网络160可以是路由器和将语音信号从m个终端110-140中的每个终端传输到服务器150所必需的其他处理设备的任意组合。网络160可以是例如，公共因特网或本地以太网络。终端110-140可通过有线或无线链路连接到网络160。

控制电话会议服务的另一替代架构可以是包括m个终端的对等架构，其中每个终端通过网络直接与其他m–1个终端进行通信。在该架构中，每个终端可能能够接收m–1个音频流(从其他m–1个终端中的每个终端接收一个音频流)。对等架构不需要用于从不同终端接收所有音频信号的集中服务器。进一步地，每个终端可能能够解码一些音频流并且将流混合到用户能够听到的音频输出信号中。

图2是语音编码系统200的实施例的方框图。语音编码系统200可在图1中的m个终端110-140中的一个或多个终端中实施。语音编码系统200包括如图2所示布置的滤波器210、取样器220、模数(A/D)转换器230、语音编码器模块240，以及报文封装器模块250。语音编码系统200仅是语音编码系统的一个示例并且用于说明性目的。

语音源信号首先，例如从麦克风生成，麦克风将声波转换成电信号。滤波器210可以是模拟低通滤波器，用来格式化语音源信号以进行采样和A/D转换。采样器220可以充分促进A/D转换的速率对其输入信号进行采样以创建模拟离散时间输出信号。来自采样器220的输出可通过A/D转换器230转换成数字信号。

语音编码器240可接受未压缩的数字语音输入并产生压缩语音输出。语音编码器240可以，例如，是代数CELP编码器或增强型可变速率编码器(EVRC)等码激励线性预测(CELP)编码器的变体之一，其可产生全速率、半速率或第八速率语音。可以基于逐帧对输入比特流进行编码，这样生成了编码的语音帧。编码语音有时可称为压缩，解码有时可称为解压。

报文封装器模块250可格式化语音帧用于在网络上进行传输。例如，报文封装器模块250可将若干语音帧放置在一个报文内并添加报文头或其他类型的报文开销。取决于信号待传输所在的网络的类型，其他类型的模块可包括在信道编码器等语音编码系统200中。

图3是语音源选择方法300的实施例的流程图。方法300从步骤310开始，在此步骤中可接收来自m个音频源的语音帧。尽管来自不同源的语音可以以串行的方式被接收，与语音帧相关的定时信息可以是已知的或沿着语音帧进行传输，这样乱序接收或在接收自大约同时生成的不同源的语音帧可根据传输的时间大致对齐。

其次，在步骤320，计算来自m个源中的每个源与语音帧相关的参数。如上所述，对于给定的时间间隔，可能已经传输来自m个源中的一些或所有源的一个语音帧，并且定时信息可被用于识别哪个帧可以在时间上对齐。对于每个按时间对齐的帧，可无需解码语音帧来计算参数。

参数可包括无需解码语音信号获得的解码语音信号中的信号能量估计，和/或无需解码语音信号再次获得的信道质量的测量。关于信号能量估计，作为第一示例，如果使用CELP语音编码，例如，EVRC，根据2008年IEEE声学、语音和信号处理国际会议录(Proceedings of the IEEE International Conferenceon Acoustics,Speech,and Signal Processing)中由D.S.Kim、B.Cao和A.Tarraf撰写的“Frame Energy Estimation Based on Speech Codec Parameters(基于语音编解码参数的帧能量估计)”(“ICASSP参考文献”)，其以引用的方式并入本文中，以及由B.Cao、D.S.Kim和A.Tarraf递交的发明名称为“确定通信的估计帧能量的方法(Method of Determining an Estimated Frame Energy of aCommunication)”的第2009/0094026号美国专利公开案(“帧能量专利案”)，其以引用的方式并入本文中，可估计信号能量。下文详细论述用于估计信号能量的方法和系统。关于信道质量测量，作为第二个示例，信道质量测量可考虑(例如，可变速率编码系统中)为用户所选的不当的语音编解码器、给定扬声器的嘈杂的音频背景环境，和/或报文丢失信息。物理信道情况可通过信噪比、信干比或接收信号强度指示符估计来说明，如电气和电子工程师学会802.11标准中所述。

其次，在步骤330，可基于步骤320中计算的参数选择M个最佳活动源，其中M是小于m的整数。例如，可选择对应于具有估计的最大信号能量的M个语音信号的语音，这可以是这种场景下的M个“最佳”语音信号。例如，假设出于说明的目的，存在5个语音帧，每个帧来自不同的音频源，并且语音帧已经各自估计了第一到第五帧/源的信号能量E1、E2、E3、E4和E5。进一步地，假设E2>E4>E3>E1>E5。那么，可选择对应于第二、第四和第三源的语音信号。作为第二个示例，可选择对应于具有最佳信道质量(例如，最高估计信噪比)的M个语音信号的语音。在一些实施方式中，M可等于3，这样可选择来自三个源的音频。一旦在步骤320中进行选择，可解码仅来自M个最佳源的帧。

图4是混音系统400的实施例的示意图，混音系统400可用于实施语音源选择方法300。来自m个用户的比特流可提供给混音系统400用于处理。可通过串行接收的比特流的串并转换获得比特流。例如，携带来自m个终端110-140的语音的比特流可在服务器150处以串行比特流接收，并且混音系统400可在服务器150中实施。或者，在对等架构中，混音系统400的变体可在每个终端中实施，如下所述。

每个用户比特流可输入到参数计算模块410。每个比特流可能存在一个参数计算模块410。参数计算模块410可计算至少一个比特流的参数，而无需音频解码以获得参数。

参数比较模块420比较来自m个比特流中的每个比特流的参数以及基于参数选择M个最佳比特流。例如，如果信号能量用作参数，可根据M个最大信号能量级确定M个最佳比特流。根据比较，参数比较模块420控制m个比特流中的哪M个比特流可提供给音频解码器430。在图4中，例如，参数比较模块420在每个比特流上控制一个开关。参数比较模块420可选择开启M个开关，这样M个比特流可提供给对应的音频解码器430。音频解码器430将编码的比特流转换为解码的波形。例如，音频解码器430可进行语音编码器240在图2中进行的编码的反编码。

混音器440将来自音频解码器430的M个输出相加并将混合的输出传送到音频编码器450，音频编码器450可以是语音编码器。音频编码器450生成可通过客户端-服务器电话会议架构中的网络传输到终端用户的输出。或者，在对等网络架构中，终端可能实施音频编码器450并可能格式化混音器440的输出以上电一个或多个声扬声器用于提供给监听器。

如上所述，语音信号可使用CELP范例进行编码。如果使用CELP范例，如下所述可确定信号能量并且信号能量可用作图4中的参数计算模块410中和参数比较模块420中的参数。

图5是CELP解码器510和帧能量估计器模块540的实施例的示意图。CELP解码器510包括激励部件520和线性预测编码(LPC)合成滤波器530。激励部分520可包括固定码本、自适应码本、固定码本增益以及自适应码本增译，如，例如ICASSP参考文献和帧能量专利案中所述。

帧能量估计器模块540可采用来自CELP解码器510的参数以估计帧能量。参见，例如，ICASSP参考文献和帧能量专利案。例如，在EVRC比特流中，每20毫秒可进行逐帧处理，20毫秒为一个帧持续时间。每个帧可进一步划分为三个子帧。在第i个子帧P(i)中的能量可近似为P(i)＝λ_e(i)λ_h(i)，其中λ_e(i)和λ_h(i)分别是激励能量分量和LPC合成滤波器估计的第i个子帧能量。在一个不太准确但仍可能有用的实施方式中，可估计第i个子帧P(i)中的能量仅等于激励λ_e(i)的能量。

取决于EVRC中使用的全速率、半速率或第八速率语音，存在不同的方式计算λ_e(i)。对于全速率和半速率语音，第i个子帧的估计激励能量λ_e(i)可近似为其中g_p(i)是自适应码本增益，g_c(i)是固定码本增益，以及C是恒定能量项。在一个EVRC示例中，C的值设置为8。对于第八速率语音，第i个子帧的估计激励能量λ_e(i)可近似为其中r_q(i)是可从增量量化码本获得的增益项。

使用减少数目的样本，LPC合成滤波器λ_h(i)的能量可被估计为或近似于其中h(i；n)是第i子帧的脉冲响应，h²(i；n)可通过线谱对参数确定，以及K是在计算脉冲响应的能量中使用的样本的数目。例如，如果使用EVRC，可用K＝6获得令人满意的结果。

图6示出了网络单元600的实施例。网络单元600可以是通过网络传输数据或通过网络交换数据的任意设备。例如，网络单元600可以是网络相关联的路由器或服务器。网络单元600可以包括一个或多个耦合到接收器(Rx)612的入端口或单元610，用于从其他网络部件接收信号和帧/数据。网络单元600可以包括逻辑单元620，用于确定将数据发送到哪些网络部件。逻辑单元620可以使用硬件、软件或这两者来实施。网络单元600还可以包括一个或多个耦合到发射器(Tx)632的出端口或单元630，用于将信号和帧/数据传输到其他网络组件。网络单元600的组件可以如图6所示进行布置。

网络单元600可位于终端或服务器中，例如图1中的终端110-140和服务器150或对等架构中的终端，如上所述。服务器150可以，例如，通过一个或多个入端口610接收来自终端110-140的音频信号，以及可通过一个或多个出端口630传输音频信号等信息到终端110-140中的一个或多个终端。

上述网络组件可以在任意通用网络组件上实施，例如计算机或特定网络部件，其具有足够的处理能力、存储资源和网络吞吐能力以处理其上的必要工作量。图7示出了典型的通用网络组件700，其适用于实施本文本所公开的组件的一项或多项实施例，例如上述的部分终端或服务器。网络部件700包含处理器702(可以称为中央处理器或CPU)，所述处理器与包含以下项的存储设备通信：辅助存储器704、只读存储器(ROM)706、随机存取存储器(RAM)708、输入/输出(I/O)设备710，以及网络连接设备712。处理器702可以作为一个或多个CPU芯片实施，或者可以为一个或多个专用集成电路(ASIC)和/或数字信号处理器(DSP)的一部分。处理器702可实施先前所述参考图3-5的一些或所有方法、模块和系统。例如，处理器702可被编程或用于实施包括混音系统400的以下一些或所有部件：参数计算模块410、参数比较模块420、音频解码器430、混音器440或音频编码器450。

辅助存储装置704通常由一个或多个磁盘驱动器或可擦除可编程ROM(EPROM)组成，且用于数据的非易失性存储。辅助存储器704可以用于存储程序，当选择执行这些程序时，所述程序将加载到RAM708中。ROM706用于存储在程序执行期间读取的指令以及可能读取的数据。ROM706为非易失性存储设备，其存储容量相对于辅助存储器704的较大存储容量而言通常较小。RAM708用于存储易失性数据，并且可能用于存储指令。ROM706和RAM708两者的存取速度通常比辅助存储器704的存取速度快。

本发明公开至少一项实施例，且本领域的普通技术人员对所述实施例和/或所述实施例的特征作出的变化、组合和/或修改均在本发明公开的范围内。因组合、合并和/或省略所述实施例的特征而得到的替代性实施例也在本发明的范围内。在明确陈述数值范围或限制的情况下，应将此类表达范围或限制理解为包含属于明确陈述的范围或限制内的类似量值的迭代范围或限制(例如，从约为1到约为10包含2、3、4等；大于0.10包含0.11、0.12、0.13等)。例如，每当公开具有下限R_l和上限R_u的数值范围时，具体是公开落入所述范围内的任何数字。具体而言，特别公开所述范围内的以下数字：R＝R_l+k*(R_u–R_l)，其中k是从1％到100％以1％增量递增的变量，即，k是1％、2％、3％、4％、5％、……、50％、51％、52％、……、95％、96％、97％、98％、99％或100％。此外，还特此公开了，上文定义的两个R值所定义的任何数值范围。相对于权利要求的某一要素，术语“可选择”的使用表示该要素可以是“需要的”，或者也可以是“不需要的”，二者均在所述权利要求的范围内。例如包括、包含和具有等较广义的术语，应被理解为用于支持较狭义的术语，例如“由……组成”、“基本上由……组成”、以及“大体上由……成”等。因此，保护范围不受上文所述的限制，而是由所附权利要求书定义，所述范围包含所附权利要求书的标的物的所有等效物。每项和每条权利要求作为进一步公开的内容并入说明书中，且权利要求书是本发明的实施例。所述揭示内容中的参考的论述并不是承认其为现有技术，尤其是具有在本申请案的在先申请优先权日期之后的公开日期的任何参考。本发明中所引用的所有专利、专利申请案和公开案的揭示内容特此以引用的方式并入本文本中，其提供补充本发明的示例性、程序性或其他细节。

虽然本发明多个具体实施例，但应当理解，所公开的系统和方法也可通过其他多种具体形式体现，而不会脱离本发明的精神或范围。本发明的实例应被视为说明性而非限制性的，且本发明并不限于本文本所给出的细节。例如，各种元件或部件可以在另一系统中组合或合并，或者某些特征可以省略或不实施。

此外，在不脱离本发明的范围的情况下，各种实施例中描述和说明为离散或单独的技术、系统、子系统和方法可以与其他系统、模块、技术或方法进行组合或合并。展示或论述为彼此耦接或直接耦接或通信的其他项也可以采用电方式、机械方式或其他方式通过某一接口、装置或中间部件间接地耦接或通信。其他变更、替换、更替示例对本领域技术人员而言是显而易见的，均不脱离此处公开的精神和范围。

Claims

1.一种在多方电话会议的混音中选择活动信道的装置，其特征在于，包括：

入端口，用于接收包括对应于多个源的编码音频信号的信号；以及

耦合到所述入端口的处理器，用于

计算所述多个源的编码音频信号中每个信号的参数，其中无需解码任一所述多个源的编码音频信号计算所述每个信号的参数；

其中所述参数包括信号能量估计和信道质量估计中的至少一种；

根据所述多个源的编码音频信号中每个信号的所述参数选择所述多个源的编码音频信号中一些信号但非所有信号；

解码所述所选信号以生成多个解码音频信号；以及

将所述多个解码音频信号组合成第一音频信号。

2.根据权利要求1所述的装置，其特征在于，所述信号能量估计基于激励能量分量。

3.根据权利要求1所述的装置，其特征在于，所述信号能量估计基于激励能量分量和线性预测编码合成滤波器能量的乘积。

4.根据权利要求2所述的装置，其特征在于，所述激励能量分量基于自适应码本增益和固定码本增益。

5.根据权利要求4所述的装置，其特征在于，所述处理器进一步用于编码所述第一音频信号以形成第一编码音频信号，其中所述装置进一步包括耦合到所述处理器并用于将所述第一编码音频信号传输到多个终端的出端口，所述装置为服务器。

6.根据权利要求4所述的装置，其特征在于，所述装置是对等网络中的终端，所述装置进一步包括耦合到所述处理器并用于传输仅对应于一个源的编码音频信号的出端口。

7.一种在多方电话会议的混音中选择活动信道的方法，其特征在于，包括：

接收对应于电话会议系统中的多个参与者的多个音频信号，其中每个音频信号是压缩语音信号，并且m表示音频信号的数目；

计算所述多个音频信号中每个信号的参数，其中无需解压任一所述多个音频信号获得所述每个信号的参数；

根据所述音频信号中每个信号的所述参数，从所述多个音频信号中选择M个最佳信号，其中M是小于m的正整数；

解压所述M个最佳信号以生成M个未压缩的音频信号；以及

将所述M个未压缩的音频信号组合成第一未压缩的音频信号。

8.根据权利要求7所述的方法，其特征在于，所述信号能量估计基于激励能量分量。

9.根据权利要求8所述的方法，其特征在于，所述信号能量估计基于激励能量分量和线性预测编码合成滤波器能量的乘积。

10.根据权利要求9所述的方法，其特征在于，所述激励能量分量基于自适应码本增益和固定码本增益。

11.根据权利要求10所述的方法，其特征在于，进一步包括：

压缩所述第一未压缩的音频信号以形成第一压缩音频信号；以及

传输所述第一压缩音频信号。

12.一种网络服务器，其特征在于，包括：

入端口，用于接收信号，其中所述信号包括m个压缩音频流，m是至少等于2的整数；

耦合到所述入端口的处理器，用于

无需解压任一音频流计算所述m个压缩音频流中每个音频流的参数，其中每个参数提供其对应的压缩音频流的质量的指示；

基于所述参数选择M个所述压缩音频流用于解压缩，其中M是小于m的正整数；

解压所述M个所选压缩音频流；

组合所述M个所选解压音频流以形成第一解压音频流，以及

压缩所述第一解压音频流以生成第一压缩音频流；以及

耦合到所述处理器的出端口，用于传输所述第一压缩音频流。

13.根据权利要求12所述的网络服务器，其特征在于，所述信号能量估计基于激励能量分量。

14.根据权利要求12所述的网络服务器，其特征在于，所述信号能量估计基于激励能量分量和线性预测编码合成滤波器能量的乘积。

15.根据权利要求14所述的网络服务器，其特征在于，所述激励能量分量基于自适应码本增益和固定码本增益。