CN100579018C

CN100579018C - 一种处理音频信号的方法及其系统

Info

Publication number: CN100579018C
Application number: CN200610114149A
Authority: CN
Inventors: 徐磊
Original assignee: Vimicro Corp
Current assignee: Mid Star Technology Ltd By Share Ltd
Priority date: 2006-10-30
Filing date: 2006-10-30
Publication date: 2010-01-06
Anticipated expiration: 2026-10-30
Also published as: CN1946029A

Abstract

本发明公开了一种处理音频信号的方法，该方法为：多媒体会议服务器接收各个会议终端发送的音频信号，并根据该音频信号将所述会议终端区分为活动会议终端和非活动会议终端；接着，多媒体会议服务器屏蔽非活动会议终端发送的音频信号，并对所述活动会议终端发送的音频信号进行混音处理生成相应的输出信号；以及对所述输出信号进行编码并发送给相应的会议终端。这样，便使得混音后的输出信号在音质上有了很大程度的提高，同时也提升了多媒体会议系统的信噪比，并且在一定程度降低了编码算法的复杂度，提高了系统的负载能力。本发明同时公开了一种多媒体会议系统和一种多媒体会议系统服务器。

Description

一种处理音频信号的方法及其系统

技术领域

本发明涉及通讯领域，特别涉及一种处理音频信号的方法及其系统。

背景技术

随着IP网络的迅猛普及，基于分组交换网的多媒体会议系统成为通讯领域发展的又一新方向；由于受到网络带宽和端点处理能力的限制，多媒体会议系统通常采用专门的多媒体会议系统服务器对音频、视频和数据进行集中处理。

参阅图1所示，目前，多媒体会议系统服务器包括缓冲器、解码器、混音装置和编码器。假设一个多媒体会议系统中有N个会议终端，分别为T1、T2......TN，其在多媒体会议系统服务器上对应的输入码流分别为A1，A2......AN；那么，在现有技术下，多媒体会议系统服务器处理音频信号的流程如下：

A、解码器接收由缓冲器传送的各会议终端的输入码流，将其解码后分别生成音频信号A1′，A2′......AN′。

B、混音装置对音频信号A1′，A2′......AN′进行混音处理。

C、编码器对处理后的音频信号进行编码，生成相应的输出码流OUT1′，OUT2′......OUTN′并将其分别传送给会议终端A1，A2......AN。

上述流程中的OUTi(1≤i≤N)即为所有Aj′(j＝1，2......N且j≠i)在时域上的叠加。

这样，不仅大大减轻了网络的传输负担，更降低了多媒体会议系统对各会议终端的硬件要求，从而使得系统的性能得到全面提升。但是，多媒体会议系统服务器的引入也给整个系统带来了以下几种负面影响：

第一、在多媒体会议系统中，每一路会议终端都会有环境噪声，多媒体会议系统服务器在对音频信号进行混音处理时将所有环境噪声也加了进来，这就导致了混音后的音频信号虽然在总体能量上和混音前相比没有变化，但是其中环境噪声的能量所占的比例却增大了很多，使得系统的信噪比下降，音质恶化，造成听者无法识别任何一路音频信号。

第二、对于音频信号数据，多路音频信号的混音极易导致整体超出量化上限，而针对这种情况，多媒体会议系统服务器目前采用的混音算法只是对其只进行了简单的溢出处理，这往往会引入新的噪声。

第三、多媒体会议系统服务器承担了整个多媒体会议系统的控制和主要数据的处理工作，它为每一个会议终端都配置一个编码器为其进行编码；巨大的运算量成为制约整个系统提高负载能力的主要因素。

发明内容

本发明提供一种处理音频信号的方法及其系统，解决现有技术下，多媒体会议系统服务器在对音频信号进行混音处理时容易加入环境噪声或引入新的噪声，以及在对输出信号进行编码时因编码器数量的限制算法运算量过大而导致系统负载能力难以提高的问题。

本发明技术方案如下：

一种处理音频信号的方法，包括步骤：

多媒体会议服务器接收各个会议终端发送的音频信号，并根据该音频信号将所述会议终端区分为活动会议终端和非活动会议终端；

多媒体会议服务器屏蔽非活动会议终端发送的音频信号，获取各个活动会议终端发送的音频信号的短时平均幅度，以及根据所述短时平均幅度获取各个音频信号的权重，并根据所述权重对所述活动会议终端发送的音频信号进行混音处理生成相应的输出信号，在混音过程中使音频信号序列中平均幅度越大的部分，衰减越少，平均幅度越小的部分，衰减越多；其中，所述权重即该音频信号在所有活动会议终端发送的音频信号中所占的比例；

多媒体会议服务器对所述输出信号进行编码并发送给相应的会议终端。

根据上述方法：

所述多媒体会议服务器在区分活动会议终端和非活动会议终端时包括步骤：

获取不同的会议终端发送的音频信号中每帧信号对应于各个门限值的短时过门限率；

判断各个会议终端在预定时间内发送的音频信号的总的短时过门限率是否大于设定的阈值，若是，则确定该会议终端为活动会议终端；否则，确定该会议终端为非活动会议终端。

所述混音处理包括突出短时平均幅度大的音频信号、抑制短时平均幅度小的音频信号。

所述多媒体会议系统服务器分别针对每一个活动会议终端进行混音，并且，为任一个活动会议终端混音时将除该活动会议终端之外的其他活动会议终端发送的音频信号进行混音处理，以及生成相应的输出信号。

所述多媒体会议系统服务器为每一个活动会议终端配置一台编码器。

所述多媒体会议系统服务器针对所有非活动会议终端进行混音时，将所有活动会议终端发送的音频信号进行混音处理，并生成相应的输出信号。

所述多媒体会议系统服务器为所有非活动会议终端配置一台编码器。

一种多媒体会议系统服务器，包括：

判断装置，用于根据会议终端发送音频信号准确区分活动会议终端和非活动会议终端，并屏蔽所述非活动会议终端发送的音频信号；

混音装置，用于获取各个活动会议终端发送的音频信号的短时平均幅度，以及根据所述短时平均幅度获取各个音频信号的权重，并根据所述权重对所述活动会议终端发送的音频信号进行混音处理生成相应的输出信号，在混音过程中使音频信号序列中平均幅度越大的部分，衰减越少，平均幅度越小的部分，衰减越多；其中，所述权重即该音频信号在所有活动会议终端发送的音频信号中所占的比例；

编码器，用于对所述输出信号进行编码并发送给相应的会议终端。

所述判断装置包括：

用于接收会议终端发送的音频信号的单元；

用于根据所述音频信号区分活动会议终端和非活动会议终端的单元；

用于转发活动会议终端发送的音频信号以及屏蔽非活动会议终端发送的音频信号的单元。

所述混音装置包括：

用于接收活动会议终端发送的音频信号，或者向会议终端发送相应的输出信号的单元；

用于针对每一个活动会议终端进行混音，并且，为任一个活动会议终端混音时将除该活动会议终端之外的其他活动会议终端发送的音频信号进行混音处理，以及生成相应的输出信号；

用于针对所有的非活动会议终端进行混音，并且，为所述非活动会议终端混音时将所有活动会议终端发送的音频信号进行混音处理，以及生成相应的输出信号。

所述多媒体会议系统服务器为每一个活动会议终端配置一台编码器，同时为所有非活动会议终端配置一台编码器。

一种多媒体会议系统，包括：

会议终端，用于向多媒体会议系统服务器发送音频信号，并接收所述多媒体会议系统服务器返回的输出信号；

多媒体会议系统服务器，用于接收会议终端发送的音频信号，根据所述音频信号将会议终端区分为活动会议终端和非活动会议终端，再获取各个活动会议终端发送的音频信号的短时平均幅度，根据所述短时平均幅度获取各个音频信号的权重，并根据所述权重对所述活动会议终端发送的音频信号进行混音处理生成相应的输出信号，在混音过程中使音频信号序列中平均幅度越大的部分，衰减越少，平均幅度越小的部分，衰减越多，以及对所述输出信号进行编码并发送给相应的会议终端；其中，所述权重即该音频信号在所有活动会议终端发送的音频信号中所占的比例。

本发明有益效果如下：

本发明通过将会议终端区分为活动会议终端和非活动会议终端，并且只对所述活动会议终端发送的音频信号进行混音处理，使得混音后的输出信号在音质上有了很大程度的提高，同时也提升了多媒体会议系统的信噪比；另一方面，本发明为所述活动会议终端和非活动会议终端分别配置相应数量的编码器，这在一定程度降低了编码算法的复杂度，提高了系统的负载能力。

附图说明

图1为现有技术下多媒体会议系统服务器功能结构图；

图2A为本发明实施例中多媒体会议系统体系结构图；

图2B为本发明实施例中多媒体会议系统服务器功能结构图；

图2C为本发明实施例中判断装置功能结构图；

图2D为本发明实施例中混音装置功能结构图；

图3为本发明实施例中多媒体会议系统服务器处理音频信号流程图。

具体实施方式

为了解决现有技术下，多媒体会议系统服务器在对音频信号进行混音处理时，容易将环境噪声的比例增大或者引入新的噪声，以及系统中编码器的数量影响系统负载能力的提高的问题。本发明根据会议终端发送的音频信号将所述会议终端区分为活动会议终端和非活动会议终端，并且只对所述活动会议终端发送的音频信号进行混音处理；同时所述多媒体会议系统服务器针对活动会议终端和非活动会议终端分别配置相应数量的编码器。

在普通会议模式下，不存在两个人同时发言的情况，多媒体会议模式也应遵循这一特点，否则，多个会议终端同时发言，将严重影响其它会议终端的正确理解。参阅图2A所示，本发明实施例中，多媒体会议系统包括多媒体会议系统服务器20和会议终端21。所述多媒体会议服务器20用于接收会议终端21发送的音频信号，根据所述音频信号将会议终端21区分为活动会议终端和非活动会议终端，并对所述活动会议终端发送的音频信号进行混音处理生成相应的输出信号，以及对所述输出信号进行编码并发送给相应的会议终端21；所述会议终端21用于向多媒体会议系统服务器20发送音频信号，并接收所述多媒体会议系统服务器20返回的输出信号；

参阅图2B所示，所述多媒体会议系统服务器20除了包括缓冲器、解码器外，还包括判断装置200、混音装置201和编码器202。所述判断装置200用于准确区分活动会议终端和非活动会议终端；所述混音装置201用于对接收的音频信号进行混音处理；所述编码器202用于对不同的输出信号进行编码并发送给相应的会议终端。

所述判断装置200在区分活动会议终端和非活动会议终端时，由于背景音频信号或/和噪音的影响，可能会将多个会议终端21判定为活动会议终端，如果混音装置201采用传统的直接混音模式，那么多路音频信号的叠加将可能导致任意一个活动会议终端的音频信号都无法被识别；因此，混音装置201在进行混音处理时又将活动会议终端分为主要活动会议终端和次要活动会议终端，主要活动会议终端就是整个多媒体会议系统的发言者，混音装置201要突出主要活动会议终端的音频信号，抑制次要活动会议终端的音频信号，以便让各个会议终端都能听清主要活动会议终端的发言内容。

判断装置200在区分活动会议终端和非活动会议终端时为了提高判决的准确度，采用了多门限前端检测算法，该算法为：设置多个高低不同的门限，并对接收的每帧音频信号(帧长为N)求出对应于每个门限的短时过门限率，最后，根据所述短时过门限率及其相应的权重求出该信号的总过门限率(即总的短时过门限率)。所述门限为音频信号波形的幅值所能达到的不同高度，所述短时过门限率为音频信号波形的幅值在规定时间内(如30ms)达到门限值的次数。例如：设K个门限：T1＜T2＜......＜T_K，接着对每帧音频信号采用公式(1)分别求对应于T1，T2，......，T_K的短时过门限率Z1，Z2，......，Z_K然后用公式(2)计算出每帧音频信号的总过门限率，其中，β_i为各个短时过门限率的计算权值。

Z_{i} = Σ_{n = 1}^{N - 1} {| sgn [x (n) - T_{i}] - sgn [x (n - 1) - T_{i}] | + | sgn [x (n) + T_{i}] - sgn [x (n - 1) + T_{i}] |}

i＝1，2，3……K；n＝1，2，3……N (1)

Z = Σ_{i = 1}^{K} β_{i} Z_{i}

i＝1，2，3……K (2)

适当地选择门限值Ti和权值β_i(1≤i≤K)，可以使语音帧的总过门限率Z明显大于非语音帧的Z值，通过设定阈值Z0，可将语音帧和非语音帧准确进行区分：

当Z＞Z₀时，判断装置200判定该帧音频信号为语音帧，对应的会议终端21为活动会议终端；

当Z＜Z₀时，判断装置200判定该帧音频信号为非语音帧，对应的会议终端21为非活动会议终端。

在区分开活动会议终端和非活动会议终端后，判断装置200将活动会议终端发送的音频信号转发给混音装置201并对非活动会议终端发送的音频信号进行屏蔽。混音装置201在对活动会议终端输入的音频信号进行处理时，要在尽量突出主要活动会议终端(即发言者)的音频信号的前提下，使得其它次要活动会议终端的音频信号大幅衰减；由于主要活动会议终端的音频信号的短时平均幅度要远远大于次要活动会议终端的音频信号的短时平均幅度，因此，本实施例中采用自适应加权算法来实现这种效果。自适应加权算法的基本原理是：在音频信号序列中，平均幅度越大的部分，衰减越少，平均幅度越小的部分，衰减越多；这样就使得混音之后的输出信号中发言者的语音成分占的比重更大，语音效果更为清晰。

参阅图2B所示，在会议中，有M个活动会议终端，它们输入的音频信号分别为A1′，A2′......A_M′，其短时平均幅度分别为α₁，α₂......α_M，其对应的权重分别为W1，W2，......W_M，所述权重即该音频信号在所有活动会议终端输入的音频信号中所占的比例。

首先，由判断装置200对解码后输入的A1′，A2′......AN′进行判定，区分出活动会议终端和非活动会议终端，然后判断装置200将活动会议终端输入的音频信号传送给混音装置201进行混音处理，对非活动会议终端输入的音频信号进行屏蔽，这样便大大降低了系统噪音。

混音装置201在对音频信号进行混音处理时，针对不同类型的会议终端采用不同的混音方法：

对于M个活动会议终端而言，混音后，第i(1≤i≤M)个活动会议终端得到的OUT_i为：

{OUT}_{i} = Σ_{j = 1, j &NotEqual; i}^{M} α_{j} w_{j} / Σ_{l = 1, l &NotEqual; i}^{M} w_{l}

j＝1，2，…，M；l＝1，2，…M (3)

对于N-M个非活动会议终端而言，混音后，所有非活动会议终端得到的OUT是相同的，所述OUT为：

OUT = Σ_{k = 1}^{M} α_{k} w_{k}

k＝1，2，…，M (4)

上述公式(3)和公式(4)中，权重的取值法则是考虑了参与混音的多路音频信号自身的特点，以它们自身的比例作为权重，从而决定它们在混音后的输出中所占的比重，由此定义：

w_{k} = w_{j} = {α_{j}}^{2} / Σ_{p = 1}^{M} {α_{p}}^{2}

j＝1，2，…，M；p＝1，2，…M (5)

现有的混音算法采用了信号幅值直接叠加的方式来进行混音处理，这样极易造成幅值的溢出，而对于溢出的情况，现有的混音算法只对其进行简单的溢出处理，这不仅影响音质，还会引入新的噪声。本实施例中的自适应加权算法以信号幅值自身平方的比例作为权重，拉开了比例的分布，突出幅值大的信号，抑制幅值小的信号，从而调整了它们在混音后的输出中各自所占的比例。例如，将公式(5)代入公式(3)中，便可以证明，混音后所得到的数据总是小于输入的最大值，而且是接近最大值；因此，在进行混音处理时采用自适应加权混音算法可以有效地避免数据的溢出以及引入新的噪声，从而提高了系统的信噪比。

参阅图2C所示，所述判断装置200包括接收单元2000、处理单元2001和发送单元2002。所述接收单元2000用于接收解码器发送的音频信号；所述处理单元2001用于根据多门限前端检测算法区分活动会议终端和非活动会议终端；所述发送单元2002用于将活动会议终端的音频信号发送给混音装置201以及屏蔽非活动会议终端的音频信号。

参阅图2D所示，所述混音装置201包括通信单元2010、第一混音单元2011和第二混音单元2012。所述通信单元2010用于接收判断装置200发送的活动会议终端的音频信号，或者向会议终端21发送相应的输出信号；所述第一混音单元2011用于针对活动会议终端根据自适应加权算法对接收的音频信号进行混音处理，并生成相应的输出信号；第二混音单元2012用于针对非活动会议终端根据自适应加权算法对接收的音频信号进行混音处理并生成相应的输出信号。第一混音单元2011和第二混音单元2012所生成的输出信号均由相应的编码器202在进行编码后发送给相应的会议终端21。

本实施例中，第一混音单元2011在针对任一个活动会议终端进行混音时，将除该活动会议终端之外的其他活动会议终端发送的音频信号进行混音处理；第二混音单元2012在针对所有的非活动会议终端进行混音时，将所有活动会议终端发送的音频信号进行混音处理。另一方面，多媒体会议系统服务器20分别为每一个活动会议终端配置一台编码器202，同时为所有非活动会议终端配置一台编码器202。

参阅图3所示，本发明实施例中，多媒体会议系统服务器20处理音频信号的详细流程流程如下：

步骤300：判断装置200接收解码器转发的会议终端发送的音频信号。

步骤301：判断装置200根据多门限前端检测算法区分活动会议终端和非活动会议终端。

步骤302：判断装置200将活动会议终端的音频信号发送给混音装置201，同时屏蔽非活动会议终端的音频信号。

步骤303：判断装置200根据自适应加权算法对接收的音频信号进行混音处理，突出主要活动会议终端的音频信号，抑制次要活动会议终端的音频信号。

步骤304：混音装置201针对不同类型的会议终端发送相应的混音后的输出信号。

上述实施例中，混音装置201发送的音频信号在到达会议终端21前先要由编码器202进行编码。现有技术对于N个会议终端21就有N个编码器202分别为每一个会议终端进行编码；而本实施例中，由于混音装置201仅对活动会议终端发送的音频信号进行混音处理，则所有非活动会议终端接收到的输出信号是相同的，对于相同的信号只需要编码一次，因此，所有的N-M个非活动会议终端可以共享同一个编码器202，这样，便在很大程度上减少了编码器202的数量，降低了编码算法的运算量，提高了系统的负载能力。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1、一种处理音频信号的方法，其特征在于，包括步骤：

2、如权利要求1所述的方法，其特征在于，所述多媒体会议服务器在区分活动会议终端和非活动会议终端时包括步骤：

3、如权利要求1所述的方法，其特征在于，所述混音处理包括突出短时平均幅度大的音频信号、抑制短时平均幅度小的音频信号。

4、如权利要求1所述的方法，其特征在于，所述多媒体会议系统服务器分别针对每一个活动会议终端进行混音，并且，为任一个活动会议终端混音时将除该活动会议终端之外的其他活动会议终端发送的音频信号进行混音处理，以及生成相应的输出信号。

5、如权利要求4所述的方法，其特征在于，所述多媒体会议系统服务器为每一个活动会议终端配置一台编码器。

6、如权利要求1-5任一项所述的方法，其特征在于，所述多媒体会议系统服务器对所有活动会议终端发送的音频信号进行混音处理，并将生成的输出信号发送给所有非活动会议终端。

7、如权利要求6所述的方法，其特征在于，所述多媒体会议系统服务器为所有非活动会议终端配置一台编码器。

8、一种多媒体会议系统服务器，其特征在于，包括：

9、如权利要求8所述的多媒体会议系统服务器，其特征在于，所述判断装置包括：

用于接收会议终端发送的音频信号的单元；

10、如权利要求8所述的多媒体会议系统服务器，其特征在于，所述混音装置包括：

用于针对每一个活动会议终端进行混音，并且，为任一个活动会议终端混音时将除该活动会议终端之外的其他活动会议终端发送的音频信号进行混音处理，以及生成相应的输出信号的单元；

用于针对所有的非活动会议终端进行混音，并且，为所述非活动会议终端混音时将所有活动会议终端发送的音频信号进行混音处理，以及生成相应的输出信号的单元。

11、如权利要求8、9或10所述的多媒体会议系统服务器，其特征在于，每一个活动会议终端对应一台编码器，同时所有非活动会议终端对应一台编码器。

12、一种多媒体会议系统，其特征在于，包括：

13、如权利要求12所述的多媒体会议系统，其特征在于，所述多媒体会议服务器进一步包括：

判断装置，用于根据会议终端发送的音频信号准确区分活动会议终端和非活动会议终端，并屏蔽所述非活动会议终端发送的音频信号；

混音装置，用于对所述活动会议终端发送的音频信号进行混音处理生成相应的输出信号；