CN103988486A - 在多方电话会议的混音中选择活动信道的方法 - Google Patents

在多方电话会议的混音中选择活动信道的方法 Download PDF

Info

Publication number
CN103988486A
CN103988486A CN201280061199.8A CN201280061199A CN103988486A CN 103988486 A CN103988486 A CN 103988486A CN 201280061199 A CN201280061199 A CN 201280061199A CN 103988486 A CN103988486 A CN 103988486A
Authority
CN
China
Prior art keywords
signal
audio
parameter
audio signal
energy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201280061199.8A
Other languages
English (en)
Other versions
CN103988486B (zh
Inventor
多哈·苏克·吉姆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of CN103988486A publication Critical patent/CN103988486A/zh
Application granted granted Critical
Publication of CN103988486B publication Critical patent/CN103988486B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/568Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants

Abstract

一种装置,包括入端口,用于接收包括对应于多个源的编码音频信号的信号;以及耦合到所述入端口的处理器,用于计算所述多个编码音频信号中每个信号的参数,其中无需解码任一所述编码音频信号计算每个参数,根据所述编码音频信号中每个信号的所述参数选择所述编码音频信号中一些信号但非所有信号,解码所述所选信号以生成多个解码音频信号,以及将所述多个解码音频信号组合成第一音频信号。

Description

在多方电话会议的混音中选择活动信道的方法
相关申请案交叉申请
本发明要求2011年12月13日由Doh-Suk Kim递交的发明名称为“在多方电话会议的混音中选择活动信道的方法(Method to Select Active Channels inAudio Mixing for Multi-Party Teleconferencing)”的第13/324056号美国专利申请案的在先申请优先权,该在先申请的内容以引入的方式并入本文本中,如全文再现一般。
技术领域
本发明涉及通信网络,尤其涉及在多方电话会议的混音中选择活动信道的方法。
背景技术
利用标准网络通信协议的分组交换电话会议系统正变得越来越普遍。这些系统可利用网络通信协议的普遍性和相对低成本以更好地提供电话会议服务。但是,随着电话会议业务的普及,以及因此可能参与电话会议的用户数已经增加,混合来自许多不同源的音频以生成不同用户听到的信号所必需的软件和/或硬件的复杂性也相应地增加。例如,在具有多个参与者的系统中,一个方案可能涉及解码,然后混合来自所有参与者的所有音频信号,并随后将混合的音频信号传输回参与者。这种方法的一个问题在于由于数字表示,来自大量参与者的音频信号的求和可能引起音频信号的饱和和/或失真,导致质量较差。这种方法的第二个问题是来自静默参与者的音频信号可仅包含背景噪声,并且增加来自这些参与者的信号可以在所产生的混合音频信号中增加背景噪音的电平。最后,这种方法的第三个问题是解码大量信号需要处理与用户数成比例的(例如,以每秒百万条指令(MIPS)为单位测量的)资源。因此,有必要通过降低复杂性和/或提高语音质量开发适应涉及更大人群的电话会议的方法和/或系统。
发明内容
在一方面,本发明包括一种装置,包括入端口,用于接收包括对应于多个源的编码音频信号的信号;以及耦合到所述入端口的处理器,用于计算所述多个编码音频信号中每个信号的参数,其中无需解码任一所述编码音频信号计算每个参数,根据所述编码音频信号中每个信号的所述参数选择所述编码音频信号中一些信号但非所有信号,解码所述所选信号以生成多个解码音频信号,以及将所述多个解码音频信号组合成第一音频信号。
在另一方面,本发明包括一种方法,包括接收对应于电话会议系统中的多个参与者的多个音频信号,其中每个音频信号是压缩语音信号,并且m表示音频信号的数目;计算所述多个音频信号中每个信号的参数,其中无需解压任一所述多个音频信号获得每个参数;根据所述音频信号中每个信号的所述参数,从所述多个音频信号中选择M个最佳信号,其中M是小于m的正整数;解压所述M个最佳信号以生成M个未压缩的音频信号;以及将所述M个未压缩的音频信号组合成第一未压缩的音频信号。
在又一方面,本发明包括一种网络服务器,包括入端口,用于接收信号,其中所述信号包括m个压缩音频流,m是至少等于2的整数;耦合到所述入端口的处理器,用于无需解压任一音频流计算所述m个压缩音频流中每个音频流的参数,其中每个参数提供其对应的压缩音频流的质量的指示,基于所述参数选择M个所述压缩音频流用于解压缩,其中M是小于m的正整数,解压所述M个所选压缩音频流,组合所述M个所选解压音频流以形成第一解压音频流,以及压缩所述第一解压音频流以生成第一压缩音频流;以及耦合到所述处理器的出端口,用于传输所述第一压缩音频流。
结合附图和权利要求书,可从以下的详细描述中更清楚地理解这些和其他特征。
附图说明
为了更完整地理解本发明,现在参考以下结合附图和详细描述进行的简要描述,其中相同参考标号表示相同部分。
图1是电话会议架构的实施例的示意图。
图2是语音编码系统的实施例的方框图。
图3是语音源选择方法的实施例的流程图。
图4是混音系统的实施例的示意图。
图5是码激励线性预测(CELP)解码器和帧能量估计器的实施例的示意图。
图6是网络单元的实施例的示意图。
图7是通用计算机系统的实施例的示意图。
具体实施方式
首先应该理解的是,尽管下面提供了一种或多种实施例的示例性实施方式,本发明公开的系统和/或方法可通过多种当前已知的或存在的技术实施。本发明决不应限于下文所说明的所述说明性实施方案、图式和技术,包含本文所说明并描述的示范性设计和实施方案,而是可以在所附权利要求书的范围以及其均等物的完整范围内修改。
本文公开了用于多方电话会议中的混音的系统和方法,导致了给定数目的参与者的处理减少、性能提高,和/或对于给定的音频质量参与者的数目增加。这些系统和方法涉及基于信道信号的能量等预定义特征的值在混合之前预筛选音频流。这些系统和方法涉及选择活动语音信号的子集用于解码和混合。该选择可能根据与基于输入处的到语音解码器的比特流,而非输出处的比特流获得的每个语音信号有关的参数(即,无需解码任一语音信号可获得参数)。因此,实施系统和/或系统所需的处理能力可降低,因为不需要对来自所有参与者的信号进行完整的音频解码。
图1展示了电话会议架构100的实施例的示意图。电话会议架构100可以是包括通过网络160连接到服务器150的m个终端110-140的客户端-服务器模式,其中m是整数。终端110-140中的每个终端可具有至少一个不同用户,共计至少m个不同用户。终端110-140可用于从对应的用户捕捉语音信号、数字化语音以及在网络160上将数字语音信号传输到服务器150。
服务器150可用于从m个终端中的每个终端接收数字语音信号,并且随后将语音信号传输回m个终端110-140中的每个终端,该语音信号是m个输入语音信号的一些组合。来自服务器150的传输可以是广播传输。在这种方式下,服务器150控制m个终端中的电话会议。
网络160可以是路由器和将语音信号从m个终端110-140中的每个终端传输到服务器150所必需的其他处理设备的任意组合。网络160可以是例如,公共因特网或本地以太网络。终端110-140可通过有线或无线链路连接到网络160。
控制电话会议服务的另一替代架构可以是包括m个终端的对等架构,其中每个终端通过网络直接与其他m–1个终端进行通信。在该架构中,每个终端可能能够接收m–1个音频流(从其他m–1个终端中的每个终端接收一个音频流)。对等架构不需要用于从不同终端接收所有音频信号的集中服务器。进一步地,每个终端可能能够解码一些音频流并且将流混合到用户能够听到的音频输出信号中。
图2是语音编码系统200的实施例的方框图。语音编码系统200可在图1中的m个终端110-140中的一个或多个终端中实施。语音编码系统200包括如图2所示布置的滤波器210、取样器220、模数(A/D)转换器230、语音编码器模块240,以及报文封装器模块250。语音编码系统200仅是语音编码系统的一个示例并且用于说明性目的。
语音源信号首先,例如从麦克风生成,麦克风将声波转换成电信号。滤波器210可以是模拟低通滤波器,用来格式化语音源信号以进行采样和A/D转换。采样器220可以充分促进A/D转换的速率对其输入信号进行采样以创建模拟离散时间输出信号。来自采样器220的输出可通过A/D转换器230转换成数字信号。
语音编码器240可接受未压缩的数字语音输入并产生压缩语音输出。语音编码器240可以,例如,是代数CELP编码器或增强型可变速率编码器(EVRC)等码激励线性预测(CELP)编码器的变体之一,其可产生全速率、半速率或第八速率语音。可以基于逐帧对输入比特流进行编码,这样生成了编码的语音帧。编码语音有时可称为压缩,解码有时可称为解压。
报文封装器模块250可格式化语音帧用于在网络上进行传输。例如,报文封装器模块250可将若干语音帧放置在一个报文内并添加报文头或其他类型的报文开销。取决于信号待传输所在的网络的类型,其他类型的模块可包括在信道编码器等语音编码系统200中。
图3是语音源选择方法300的实施例的流程图。方法300从步骤310开始,在此步骤中可接收来自m个音频源的语音帧。尽管来自不同源的语音可以以串行的方式被接收,与语音帧相关的定时信息可以是已知的或沿着语音帧进行传输,这样乱序接收或在接收自大约同时生成的不同源的语音帧可根据传输的时间大致对齐。
其次,在步骤320,计算来自m个源中的每个源与语音帧相关的参数。如上所述,对于给定的时间间隔,可能已经传输来自m个源中的一些或所有源的一个语音帧,并且定时信息可被用于识别哪个帧可以在时间上对齐。对于每个按时间对齐的帧,可无需解码语音帧来计算参数。
参数可包括无需解码语音信号获得的解码语音信号中的信号能量估计,和/或无需解码语音信号再次获得的信道质量的测量。关于信号能量估计,作为第一示例,如果使用CELP语音编码,例如,EVRC,根据2008年IEEE声学、语音和信号处理国际会议录(Proceedings of the IEEE International Conferenceon Acoustics,Speech,and Signal Processing)中由D.S.Kim、B.Cao和A.Tarraf撰写的“Frame Energy Estimation Based on Speech Codec Parameters(基于语音编解码参数的帧能量估计)”(“ICASSP参考文献”),其以引用的方式并入本文中,以及由B.Cao、D.S.Kim和A.Tarraf递交的发明名称为“确定通信的估计帧能量的方法(Method of Determining an Estimated Frame Energy of aCommunication)”的第2009/0094026号美国专利公开案(“帧能量专利案”),其以引用的方式并入本文中,可估计信号能量。下文详细论述用于估计信号能量的方法和系统。关于信道质量测量,作为第二个示例,信道质量测量可考虑(例如,可变速率编码系统中)为用户所选的不当的语音编解码器、给定扬声器的嘈杂的音频背景环境,和/或报文丢失信息。物理信道情况可通过信噪比、信干比或接收信号强度指示符估计来说明,如电气和电子工程师学会802.11标准中所述。
其次,在步骤330,可基于步骤320中计算的参数选择M个最佳活动源,其中M是小于m的整数。例如,可选择对应于具有估计的最大信号能量的M个语音信号的语音,这可以是这种场景下的M个“最佳”语音信号。例如,假设出于说明的目的,存在5个语音帧,每个帧来自不同的音频源,并且语音帧已经各自估计了第一到第五帧/源的信号能量E1、E2、E3、E4和E5。进一步地,假设E2>E4>E3>E1>E5。那么,可选择对应于第二、第四和第三源的语音信号。作为第二个示例,可选择对应于具有最佳信道质量(例如,最高估计信噪比)的M个语音信号的语音。在一些实施方式中,M可等于3,这样可选择来自三个源的音频。一旦在步骤320中进行选择,可解码仅来自M个最佳源的帧。
图4是混音系统400的实施例的示意图,混音系统400可用于实施语音源选择方法300。来自m个用户的比特流可提供给混音系统400用于处理。可通过串行接收的比特流的串并转换获得比特流。例如,携带来自m个终端110-140的语音的比特流可在服务器150处以串行比特流接收,并且混音系统400可在服务器150中实施。或者,在对等架构中,混音系统400的变体可在每个终端中实施,如下所述。
每个用户比特流可输入到参数计算模块410。每个比特流可能存在一个参数计算模块410。参数计算模块410可计算至少一个比特流的参数,而无需音频解码以获得参数。
参数比较模块420比较来自m个比特流中的每个比特流的参数以及基于参数选择M个最佳比特流。例如,如果信号能量用作参数,可根据M个最大信号能量级确定M个最佳比特流。根据比较,参数比较模块420控制m个比特流中的哪M个比特流可提供给音频解码器430。在图4中,例如,参数比较模块420在每个比特流上控制一个开关。参数比较模块420可选择开启M个开关,这样M个比特流可提供给对应的音频解码器430。音频解码器430将编码的比特流转换为解码的波形。例如,音频解码器430可进行语音编码器240在图2中进行的编码的反编码。
混音器440将来自音频解码器430的M个输出相加并将混合的输出传送到音频编码器450,音频编码器450可以是语音编码器。音频编码器450生成可通过客户端-服务器电话会议架构中的网络传输到终端用户的输出。或者,在对等网络架构中,终端可能实施音频编码器450并可能格式化混音器440的输出以上电一个或多个声扬声器用于提供给监听器。
如上所述,语音信号可使用CELP范例进行编码。如果使用CELP范例,如下所述可确定信号能量并且信号能量可用作图4中的参数计算模块410中和参数比较模块420中的参数。
图5是CELP解码器510和帧能量估计器模块540的实施例的示意图。CELP解码器510包括激励部件520和线性预测编码(LPC)合成滤波器530。激励部分520可包括固定码本、自适应码本、固定码本增益以及自适应码本增译,如,例如ICASSP参考文献和帧能量专利案中所述。
帧能量估计器模块540可采用来自CELP解码器510的参数以估计帧能量。参见,例如,ICASSP参考文献和帧能量专利案。例如,在EVRC比特流中,每20毫秒可进行逐帧处理,20毫秒为一个帧持续时间。每个帧可进一步划分为三个子帧。在第i个子帧P(i)中的能量可近似为P(i)=λe(i)λh(i),其中λe(i)和λh(i)分别是激励能量分量和LPC合成滤波器估计的第i个子帧能量。在一个不太准确但仍可能有用的实施方式中,可估计第i个子帧P(i)中的能量仅等于激励λe(i)的能量。
取决于EVRC中使用的全速率、半速率或第八速率语音,存在不同的方式计算λe(i)。对于全速率和半速率语音,第i个子帧的估计激励能量λe(i)可近似为其中gp(i)是自适应码本增益,gc(i)是固定码本增益,以及C是恒定能量项。在一个EVRC示例中,C的值设置为8。对于第八速率语音,第i个子帧的估计激励能量λe(i)可近似为其中rq(i)是可从增量量化码本获得的增益项。
使用减少数目的样本,LPC合成滤波器λh(i)的能量可被估计为或近似于其中h(i;n)是第i子帧的脉冲响应,h2(i;n)可通过线谱对参数确定,以及K是在计算脉冲响应的能量中使用的样本的数目。例如,如果使用EVRC,可用K=6获得令人满意的结果。
图6示出了网络单元600的实施例。网络单元600可以是通过网络传输数据或通过网络交换数据的任意设备。例如,网络单元600可以是网络相关联的路由器或服务器。网络单元600可以包括一个或多个耦合到接收器(Rx)612的入端口或单元610,用于从其他网络部件接收信号和帧/数据。网络单元600可以包括逻辑单元620,用于确定将数据发送到哪些网络部件。逻辑单元620可以使用硬件、软件或这两者来实施。网络单元600还可以包括一个或多个耦合到发射器(Tx)632的出端口或单元630,用于将信号和帧/数据传输到其他网络组件。网络单元600的组件可以如图6所示进行布置。
网络单元600可位于终端或服务器中,例如图1中的终端110-140和服务器150或对等架构中的终端,如上所述。服务器150可以,例如,通过一个或多个入端口610接收来自终端110-140的音频信号,以及可通过一个或多个出端口630传输音频信号等信息到终端110-140中的一个或多个终端。
上述网络组件可以在任意通用网络组件上实施,例如计算机或特定网络部件,其具有足够的处理能力、存储资源和网络吞吐能力以处理其上的必要工作量。图7示出了典型的通用网络组件700,其适用于实施本文本所公开的组件的一项或多项实施例,例如上述的部分终端或服务器。网络部件700包含处理器702(可以称为中央处理器或CPU),所述处理器与包含以下项的存储设备通信:辅助存储器704、只读存储器(ROM)706、随机存取存储器(RAM)708、输入/输出(I/O)设备710,以及网络连接设备712。处理器702可以作为一个或多个CPU芯片实施,或者可以为一个或多个专用集成电路(ASIC)和/或数字信号处理器(DSP)的一部分。处理器702可实施先前所述参考图3-5的一些或所有方法、模块和系统。例如,处理器702可被编程或用于实施包括混音系统400的以下一些或所有部件:参数计算模块410、参数比较模块420、音频解码器430、混音器440或音频编码器450。
辅助存储装置704通常由一个或多个磁盘驱动器或可擦除可编程ROM(EPROM)组成,且用于数据的非易失性存储。辅助存储器704可以用于存储程序,当选择执行这些程序时,所述程序将加载到RAM708中。ROM706用于存储在程序执行期间读取的指令以及可能读取的数据。ROM706为非易失性存储设备,其存储容量相对于辅助存储器704的较大存储容量而言通常较小。RAM708用于存储易失性数据,并且可能用于存储指令。ROM706和RAM708两者的存取速度通常比辅助存储器704的存取速度快。
本发明公开至少一项实施例,且本领域的普通技术人员对所述实施例和/或所述实施例的特征作出的变化、组合和/或修改均在本发明公开的范围内。因组合、合并和/或省略所述实施例的特征而得到的替代性实施例也在本发明的范围内。在明确陈述数值范围或限制的情况下,应将此类表达范围或限制理解为包含属于明确陈述的范围或限制内的类似量值的迭代范围或限制(例如,从约为1到约为10包含2、3、4等;大于0.10包含0.11、0.12、0.13等)。例如,每当公开具有下限Rl和上限Ru的数值范围时,具体是公开落入所述范围内的任何数字。具体而言,特别公开所述范围内的以下数字:R=Rl+k*(Ru–Rl),其中k是从1%到100%以1%增量递增的变量,即,k是1%、2%、3%、4%、5%、……、50%、51%、52%、……、95%、96%、97%、98%、99%或100%。此外,还特此公开了,上文定义的两个R值所定义的任何数值范围。相对于权利要求的某一要素,术语“可选择”的使用表示该要素可以是“需要的”,或者也可以是“不需要的”,二者均在所述权利要求的范围内。例如包括、包含和具有等较广义的术语,应被理解为用于支持较狭义的术语,例如“由……组成”、“基本上由……组成”、以及“大体上由……成”等。因此,保护范围不受上文所述的限制,而是由所附权利要求书定义,所述范围包含所附权利要求书的标的物的所有等效物。每项和每条权利要求作为进一步公开的内容并入说明书中,且权利要求书是本发明的实施例。所述揭示内容中的参考的论述并不是承认其为现有技术,尤其是具有在本申请案的在先申请优先权日期之后的公开日期的任何参考。本发明中所引用的所有专利、专利申请案和公开案的揭示内容特此以引用的方式并入本文本中,其提供补充本发明的示例性、程序性或其他细节。
虽然本发明多个具体实施例,但应当理解,所公开的系统和方法也可通过其他多种具体形式体现,而不会脱离本发明的精神或范围。本发明的实例应被视为说明性而非限制性的,且本发明并不限于本文本所给出的细节。例如,各种元件或部件可以在另一系统中组合或合并,或者某些特征可以省略或不实施。
此外,在不脱离本发明的范围的情况下,各种实施例中描述和说明为离散或单独的技术、系统、子系统和方法可以与其他系统、模块、技术或方法进行组合或合并。展示或论述为彼此耦接或直接耦接或通信的其他项也可以采用电方式、机械方式或其他方式通过某一接口、装置或中间部件间接地耦接或通信。其他变更、替换、更替示例对本领域技术人员而言是显而易见的,均不脱离此处公开的精神和范围。

Claims (20)

1.一种装置,其特征在于,包括:
入端口,用于接收包括对应于多个源的编码音频信号的信号;以及
耦合到所述入端口的处理器,用于
计算所述多个编码音频信号中每个信号的参数,其中无需解码任一所述编码音频信号计算每个参数;
根据所述编码音频信号中每个信号的所述参数选择所述编码音频信号中一些信号但非所有信号;
解码所述所选信号以生成多个解码音频信号;以及
将所述多个解码音频信号组合成第一音频信号。
2.根据权利要求1所述的装置,其特征在于,所述参数是信号能量估计。
3.根据权利要求2所述的装置,其特征在于,所述信号能量估计基于激励能量分量。
4.根据权利要求2所述的装置,其特征在于,所述信号能量估计基于激励能量分量和线性预测编码合成滤波器能量的乘积。
5.根据权利要求3所述的装置,其特征在于,所述激励能量分量基于自适应码本增益和固定码本增益。
6.根据权利要求5所述的装置,其特征在于,所述处理器进一步用于编码所述第一音频信号以形成第一编码音频信号,其中所述装置进一步包括耦合到所述处理器并用于将所述第一编码音频信号传输到多个终端的出端口,所述装置为服务器。
7.根据权利要求5所述的装置,其特征在于,所述装置是对等网络中的终端,所述装置进一步包括耦合到所述处理器并用于传输仅对应于一个源的编码音频信号的出端口。
8.根据权利要求1所述的装置,其特征在于,所述参数是信道质量估计。
9.一种方法,其特征在于,包括:
接收对应于电话会议系统中的多个参与者的多个音频信号,其中每个音频信号是压缩语音信号,并且m表示音频信号的数目;
计算所述多个音频信号中每个信号的参数,其中无需解压任一所述多个音频信号获得每个参数;
根据所述音频信号中每个信号的所述参数,从所述多个音频信号中选择M个最佳信号,其中M是小于m的正整数;
解压所述M个最佳信号以生成M个未压缩的音频信号;以及
将所述M个未压缩的音频信号组合成第一未压缩的音频信号。
10.根据权利要求9所述的方法,其特征在于,所述参数是信号能量估计。
11.根据权利要求10所述的方法,其特征在于,所述信号能量估计基于激励能量分量。
12.根据权利要求11所述的方法,其特征在于,所述信号能量估计基于激励能量分量和线性预测编码合成滤波器能量的乘积。
13.根据权利要求12所述的方法,其特征在于,所述激励能量分量基于自适应码本增益和固定码本增益。
14.根据权利要求13所述的方法,其特征在于,进一步包括:
压缩所述第一未压缩的音频信号以形成第一压缩音频信号;以及
传输所述第一压缩音频信号。
15.一种网络服务器,其特征在于,包括:
入端口,用于接收信号,其中所述信号包括m个压缩音频流,m是至少等于2的整数;
耦合到所述入端口的处理器,用于
无需解压任一音频流计算所述m个压缩音频流中每个音频流的参数,其中每个参数提供其对应的压缩音频流的质量的指示;
基于所述参数选择M个所述压缩音频流用于解压缩,其中M是小于m的正整数;
解压所述M个所选压缩音频流;
组合所述M个所选解压音频流以形成第一解压音频流,以及
压缩所述第一解压音频流以生成第一压缩音频流;以及
耦合到所述处理器的出端口,用于传输所述第一压缩音频流。
16.根据权利要求15所述的装置,其特征在于,所述参数是信号能量估计。
17.根据权利要求16所述的装置,其特征在于,所述信号能量估计基于激励能量分量。
18.根据权利要求16所述的装置,其特征在于,所述信号能量估计基于激励能量分量和线性预测编码合成滤波器能量的乘积。
19.根据权利要求18所述的装置,其特征在于,所述激励能量分量基于自适应码本增益和固定码本增益。
20.根据权利要求15所述的装置,其特征在于,所述参数是信道质量估计。
CN201280061199.8A 2011-12-13 2012-12-13 在多方电话会议的混音中选择活动信道的方法 Active CN103988486B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US13/324,056 US8880412B2 (en) 2011-12-13 2011-12-13 Method to select active channels in audio mixing for multi-party teleconferencing
US13/324,056 2011-12-13
USUS13/324056 2011-12-13
PCT/CN2012/086534 WO2013086994A1 (en) 2011-12-13 2012-12-13 Method to select active channels in audio mixing for multi-party teleconferencing

Publications (2)

Publication Number Publication Date
CN103988486A true CN103988486A (zh) 2014-08-13
CN103988486B CN103988486B (zh) 2016-10-05

Family

ID=48572834

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280061199.8A Active CN103988486B (zh) 2011-12-13 2012-12-13 在多方电话会议的混音中选择活动信道的方法

Country Status (4)

Country Link
US (1) US8880412B2 (zh)
EP (1) EP2786552B1 (zh)
CN (1) CN103988486B (zh)
WO (1) WO2013086994A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104469032A (zh) * 2014-10-30 2015-03-25 苏州科达科技股份有限公司 混音处理方法及系统
CN109961802A (zh) * 2019-03-26 2019-07-02 北京达佳互联信息技术有限公司 音质比较方法、装置、电子设备及存储介质
CN112513986A (zh) * 2018-08-09 2021-03-16 谷歌有限责任公司 使用同步记录的音频噪声降低

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2901448A4 (en) * 2012-09-26 2016-03-30 Nokia Technologies Oy METHOD, APPARATUS AND COMPUTER PROGRAM PRODUCT FOR CREATING AUDIO COMPOSITION SIGNAL
CN103327014B (zh) * 2013-06-06 2015-08-19 腾讯科技(深圳)有限公司 一种语音处理方法、装置及系统
WO2015134422A1 (en) * 2014-03-04 2015-09-11 Comhear, Inc. Object-based teleconferencing protocol
CN106328149B (zh) * 2016-08-22 2018-09-07 腾讯科技(深圳)有限公司 一种混音处理方法及相关设备
US11252250B1 (en) * 2017-09-22 2022-02-15 Amdocs Development Limited System, method, and computer program for managing a plurality of heterogeneous services and/or a plurality of heterogeneous devices linked to at least one customer
GB2566760B (en) 2017-10-20 2019-10-23 Please Hold Uk Ltd Audio Signal
GB2566759B8 (en) * 2017-10-20 2021-12-08 Please Hold Uk Ltd Encoding identifiers to produce audio identifiers from a plurality of audio bitstreams
US20190190908A1 (en) * 2017-12-19 2019-06-20 Melo Inc. Systems and methods for automatic meeting management using identity database
US10923139B2 (en) * 2018-05-02 2021-02-16 Melo Inc. Systems and methods for processing meeting information obtained from multiple sources

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1113657A2 (en) * 1999-12-30 2001-07-04 Nortel Networks Limited Apparatus and method for packet-based media communications
JP2004364034A (ja) * 2003-06-05 2004-12-24 Victor Co Of Japan Ltd 電話会議装置
CN101340545A (zh) * 2007-07-04 2009-01-07 广达电脑股份有限公司 高分辨率视频会议系统及方法
CN101471804A (zh) * 2007-12-28 2009-07-01 华为技术有限公司 一种音频处理方法、系统和控制服务器

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6418125B1 (en) * 1998-06-18 2002-07-09 Cisco Technology, Inc. Unified mixing, speaker selection, and jitter buffer management for multi-speaker packet audio systems
US7328150B2 (en) * 2002-09-04 2008-02-05 Microsoft Corporation Innovations in pure lossless audio compression
MY151722A (en) 2006-07-07 2014-06-30 Fraunhofer Ges Forschung Concept for combining multiple parametrically coded audio sources
US20090094026A1 (en) 2007-10-03 2009-04-09 Binshi Cao Method of determining an estimated frame energy of a communication
WO2011086065A1 (en) * 2010-01-12 2011-07-21 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder, method for encoding and audio information, method for decoding an audio information and computer program using a hash table describing both significant state values and interval boundaries
US8787547B2 (en) * 2010-04-23 2014-07-22 Lifesize Communications, Inc. Selective audio combination for a conference

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1113657A2 (en) * 1999-12-30 2001-07-04 Nortel Networks Limited Apparatus and method for packet-based media communications
JP2004364034A (ja) * 2003-06-05 2004-12-24 Victor Co Of Japan Ltd 電話会議装置
CN101340545A (zh) * 2007-07-04 2009-01-07 广达电脑股份有限公司 高分辨率视频会议系统及方法
CN101471804A (zh) * 2007-12-28 2009-07-01 华为技术有限公司 一种音频处理方法、系统和控制服务器

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104469032A (zh) * 2014-10-30 2015-03-25 苏州科达科技股份有限公司 混音处理方法及系统
CN104469032B (zh) * 2014-10-30 2017-06-16 苏州科达科技股份有限公司 混音处理方法及系统
CN112513986A (zh) * 2018-08-09 2021-03-16 谷歌有限责任公司 使用同步记录的音频噪声降低
CN112513986B (zh) * 2018-08-09 2022-12-23 谷歌有限责任公司 用于处理音频信号的方法和非暂时性计算机可读介质
CN109961802A (zh) * 2019-03-26 2019-07-02 北京达佳互联信息技术有限公司 音质比较方法、装置、电子设备及存储介质
CN109961802B (zh) * 2019-03-26 2021-05-18 北京达佳互联信息技术有限公司 音质比较方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
US8880412B2 (en) 2014-11-04
US20130151242A1 (en) 2013-06-13
EP2786552A4 (en) 2014-10-08
WO2013086994A1 (en) 2013-06-20
EP2786552A1 (en) 2014-10-08
CN103988486B (zh) 2016-10-05
EP2786552B1 (en) 2016-10-26

Similar Documents

Publication Publication Date Title
CN103988486A (zh) 在多方电话会议的混音中选择活动信道的方法
US6044089A (en) System and method for scaleable audio transmission over a network
US9456273B2 (en) Audio mixing method, apparatus and system
CN101427551B (zh) 会议端点的系统和方法
CN102741831B (zh) 多点环境中的可伸缩音频
US7599834B2 (en) Method and apparatus of voice mixing for conferencing amongst diverse networks
US20070025546A1 (en) Method and apparatus for DTMF detection and voice mixing in the CELP parameter domain
CN100435506C (zh) 音频数据编码转换发送方法以及编码转换接收方法、设备和系统
CN101513030A (zh) 语音混合方法、多点会议服务器和利用该方法的程序
Sun et al. Guide to voice and video over IP: for fixed and mobile networks
EP2158753B1 (en) Selection of audio signals to be mixed in an audio conference
EP2572499B1 (en) Encoder adaption in teleconferencing system
US7020613B2 (en) Method and apparatus of mixing audios
US8515039B2 (en) Method for carrying out a voice conference and voice conference system
CN101478616A (zh) 一种即时语音通信方法
US8489216B2 (en) Sound mixing apparatus and method and multipoint conference server
Chinna Rao et al. Real-time implementation and testing of VoIP vocoders with asterisk PBX using wireshark packet analyzer
US7715365B2 (en) Vocoder and communication method using the same
US20180337964A1 (en) Selectively transforming audio streams based on audio energy estimate
Hellerud et al. Lossless compression of spherical microphone array recordings
CN1653515A (zh) 在分组网络环境中的语音传输编码
CN101926160A (zh) 声音混合设备和方法以及多点会议服务器
Varun et al. Transcoding of Voice Codecs G. 711 to G. 729 and Vice-versa Implementation on FPGA
Li et al. Multi-party audio conferencing based on a simpler MCU and client-side echo cancellation
CA2276954A1 (en) Technique for effectively mixing audio signals in a teleconference

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant