CN102005206A

CN102005206A - 多路音频的混音方法

Info

Publication number: CN102005206A
Application number: CN2010105486997A
Authority: CN
Inventors: 刘睿; 刘晓露; 熊模昌; 张子刚
Original assignee: SHANGHAI AVCON INFORMATION TECHNOLOGY Co Ltd
Current assignee: SHANGHAI AVCON INFORMATION TECHNOLOGY Co Ltd
Priority date: 2010-11-16
Filing date: 2010-11-16
Publication date: 2011-04-06
Anticipated expiration: 2030-11-16
Also published as: CN102005206B

Abstract

本发明提供一种多路音频帧的混音方法，其先将多路音频帧中相应的采样点的值分别叠加以获得至少一个样点数据，且当有叠加后的结果超出预设范围时，对当前帧增益因子进行调整，当一帧叠加完成后，将所得的当前帧增益因子与前一帧增益因子进行比较，根据比较后的结果再次调整当前帧增益因子，接着，再根据再次调整后的当前帧增益因子、及音量强度的初始值计算当前帧的音量强度等级，并判断音量强度等级是否等于预设值，如果是，则将叠加后获得的各样点数据形成的帧作为混音帧，如果否，则根据所述音量强度等级对各样点数据进行处理，以使处理后的各样点数据都处于所述预设范围内，并将处理后的各样点数据所形成的帧作为混音帧，此法简单易施。

Description

多路音频的混音方法

技术领域

本发明涉及一种多路音频的混音方法。

背景技术

目前，随着视频会议及监控的迅速发展，视频和音频的应用技术已经相对成熟。在实际应用中，音频的交互处理仍然处于最基本最核心的位置，对音频的实时性要求更为苛刻，由此，对于实际使用中的不同地点的多个终端，若要进行多个点的实时音频的交互，在网络带宽允许的条件下，需要将多路音频按照一定的策略进行混合并最终编码送给另外的终端。

为解决此类问题，传统的方法是采用多点控制单元(MCU)将多路音频信号混音为一路，如此可以有效降低网络数据的传输量。MCU混音的方式是：根据信号线性叠加的原理，将多路音频信号的采样量化数据叠加。随着终端数量的增多，此种方式会导致MCU的运算负荷和上传带宽急剧增大，所以此方式只能适用在较小规模的会议系统中。

将混音处理都集中在一服务器来进行，对服务器的上传带宽和CPU处理能力要求很高，由此衍生出了分布式处理方式，即由多个终端来进行混音处理，而分布式的混音遇到的问题最主要就是对终端的下载带宽要求较高，同时也需要终端具有较高的多路音频解码和混音的处理能力，此外还需要终端配置良好的混音算法以获得高质量的混音效果。

目前，诸多的混音算法，用于处理4路以内的音频，还能获得较好的混音效果，然而对于4路以上的音频，混音后音质会急剧下降，而且极易出现量化溢出等问题。为了确保各路音频的波形尽量能够在混音后保持原始的形态，以达到声音真实还原和音质更佳的效果，就必须解决数据叠加溢出的问题。

常见的几种解决溢出的问题的方式如下：

1＞平均化时域线性叠加的方法；

即

i＝0，1，...，N-1，其中，M是音频信号路数，input[j][i]为第j路音频的第i个采样样本，mixout[i]为混音后一帧的第i个采样样本此法最为简单，但是混音效果很不好，存在混音后各路的音频衰减太多，音量偏小，不利于实时的沟通。

2＞基于变换域的混音方法：

将各路音频转化为频域并做覆盖性差值，最后转换回时域得到混音数据的方法。此类方法虽然能很好解决溢出问题，但实现四路以上的混音难度较高，不具备普遍应用的优势。

总之，多路音频交互的核心问题就是混音，而提供一资源使用率相对低且音频交互质量更高的混音方法，以提升用户的实际体验效果，已成为本领域技术人员需要解决的技术难题。

发明内容

本发明的目的在于提供一种简单易施的多路音频帧的混音方法。

为了达到上述目的及其他目的，本发明提供的多路音频帧的混音方法，其中，多路音频帧各自都由音频信号采样得到，每一路都包含至少一个采样点，所述方法包括步骤：1)将多路音频帧中相应的采样点的值分别叠加以获得至少一个样点数据，且当有叠加后的结果超出预设范围时，根据该超出预设范围的叠加结果、及所述预设范围调整当前帧增益因子，否则不调整当前帧增益因子，其中，当前帧增益因子的初始值预先设定；2)在叠加完成后，将步骤1)所得的当前帧增益因子与前一帧增益因子进行比较，根据比较后的结果再次调整当前帧增益因子，其中，前一帧增益因子的初始值预先设定；3)根据再次调整后的当前帧增益因子、及音量强度的初始值计算当前帧的音量强度等级，其中，音量强度的初始值预先设定；以及4)判断所述音量强度等级是否等于预设值，如果是，则将叠加后获得的各样点数据形成的帧作为混音帧，如果否，则根据所述音量强度等级对各样点数据进行处理，以使处理后的各样点数据都处于所述预设范围内，并将处理后的各样点数据所形成的帧作为混音帧。

此外，所述多路音频帧的混音方法还可包括步骤：将步骤2)中再次调整后的当前帧增益因子赋值给前一帧增益因子，以供下一帧混音之用。

较佳的，多路音频帧可以是至少4路以上音频帧。

综上所述，本发明的多路音频帧的混音方法通过对线性叠加后的混音数据进行溢出判断，当溢出时，对当前帧增益因子做一定的调整和计算，然后通过对混音后每帧数据进行对比分析，根据对比前后帧的相关参数来不断调整增益调节因子，并当混音出现溢出的时候自动将当前帧做饱和处理，能够避免混音后产生的溢出的噪音，并保持原始波形基本不变，音量大小基本不会受影响。

附图说明

图1为本发明的多路音频帧的混音方法的流程图。

图2为本发明的多路音频帧的混音方法对6路音频信号混音后结果示意图。

图3为现有混音方法对对6路音频信号混音后结果示意图。

具体实施方式

以下将结合附图对本发明的多路音频帧的混音方法进行详细说明。在本实施例中，以混音设备(例如计算机)对6路音频，即音频信号1、音频信号2……音频信号6，进行混音为例进行说明。其中，音频信号1、音频信号2……音频信号6各自都由模拟音频信号经过采样后形成，即音频信号1由模拟音频信号1经采样后形成，音频信号2由模拟音频信号2经采样后形成……音频信号6由模拟音频信号6经采样后形成，对模拟音频信号1、模拟音频信号2……模拟音频信号6的采样，可基于同一采样频率来进行，而且，在采样时，可以一定的采样时间内所采样的数据作为一帧，由此，形成的各路音频包含多帧，而每一帧又包含多个采样点。例如，音频信号1包含帧11、帧12……帧1m，音频信号2包含帧21、帧22……帧2m，……音频信号6包含帧61、帧62……帧6m。

需要说明的是，本领域技术人员应该理解，上述混音设备并非以应用在计算机上为限，事实上，还可以是数字信号处理器、便携式设备等；此外，混音的音频信号也并非以6路为限，可以是2路或2路以上的音频信号等；再有，每路音频信号包含的帧的数量、每一帧包含的采样点的数量并非以完全相等为限，例如，音频信号1包含2帧，而音频信号2包含3帧等，再例如，音频信号1的第一帧即帧11包含5个采样点，而音频信号2的第一帧即帧21包含6个采样点等等。

以下先描述各音频信号的第一帧，即：音频信号1的帧11、音频信号2的帧21、……音频信号6的帧61，的混音过程。

如图1所示，第一步：首先，设置当前帧增益因子、前一帧增益因子、及音量强度初始值。如果各音频帧的各采样点的值都以nbit表示，则可将当前帧增益因子、前一帧增益因子、及音量强度初始值都可设置为一个中间值，即：

例如，采样点的值都以16bit表示，则当前帧增益因子、前一帧增益因子、及音量强度初始值都设置为中间值2^16/2-1＝128。本领域技术人员应该理解，当前帧增益因子、前一帧增益因子、及音量强度初始值的设置可以根据实际情况，例如音频信号的数量、混音设备的处理能力、各路音频信号自身的性质(如来源、信号强度等等)，来确定，各初始值也并非以相等为限，例如，当前帧增益因子和前一帧增益因子为128，音量强度初始值为64等。

第二步，计算机将6路音频帧中相应的采样点的值分别叠加以获得多个样点数据，且当有叠加后的结果超出预设范围时，根据该超出预设范围的叠加结果、及所述预设范围调整当前帧增益因子，否则不调整当前帧增益因子。其中，预设范围可以为(-2^n-1，2^n-1)，当n＝16时，预设范围为(-32768，32768)。由于是对第一帧进行混音，故当前帧增益因子的起始值为初始值，例如：

而叠加过程可以依序进行，即计算机先将音频信号1的帧11的第一个采样点的值和音频信号2的帧21的第一个采样点的值叠加获得第一次叠加结果，接着，计算机再将音频信号3的帧31的第一个采样点的值和第一次叠加结果再次叠加，以获得第二次叠加结果，接着，计算机将音频信号4的帧41的第一个采样点的值和第二次叠加结果再次叠加，以获得第三次叠加结果，接着，计算机将音频信号5的帧51的第一个采样点的值和第三次叠加结果再次叠加，以获得第四次叠加结果，接着，计算机将音频信号6的帧61的第一个采样点的值和第四次叠加结果再次叠加，以获得第五次叠加结果，即获得一个样点数据，接着，开始第二个采样点的值的叠加，其过程与进行第一个采样点的值的叠加过程类似，即计算机先将音频信号1的帧11的第二个采样点的值和音频信号2的帧21的第二个采样点的值叠加获得第二轮的第一次叠加结果，……，同样经过5次叠加后可以获得第二个样点数据，如此依序进行，直到将音频信号6的帧61的最后一个采样点的值叠加完获得最后一个样点数据为止。在叠加过程中，计算机可以在每获得一次叠加结果后即判断该叠加结果是否超过预设范围，也可仅判断部分叠加结果(例如所获得的各样点数据)是否超过预设范围，如果有叠加后的结果超过(-32768，32768)，则计算机可按照mix_agc′＝mix_agc×(2^n-1/mixout)来对当前帧增益因子进行调整，其中，mix_agc′是调整后的当前帧增益因子，mix_agc是该次调整前的当前帧增益因子，mixout是超出预设范围的叠加结果。需要说明的是，如果有多个叠加后的结果超过预设范围，可以根据每一次超过预设范围的叠加结果对当前帧增益因子进行多次调整，例如，前一次的叠加结果mixout1和后一次的叠加结果mixout2都超过预设范围，则判断叠加结果mixout1超过预设范围后，调整一次当前帧增益因子，即：mix_agc1′＝mix_agc×(2^n-1/mixout1)，当判断叠加结果mixout2超过预设范围后，再一次调整当前帧增益因子，即：mix_agc2′＝mix_agc1′×(2^n-1/mixout2)；此外，如果有多个叠加后的结果超过预设范围，也可以仅仅根据最后一次的结果来调整当前帧增益因子，例如，叠加后的结果mixout1、mixout2、mixout3都超过预设范围，mixout3是在mixout1和mixout2之后获得的叠加结果，则可只根据mixout3来调整当前帧增益因子。如果采用多次调整的方式，即一叠加后的结果超出预设范围，就调整一次当前帧增益因子，则第一次调整当前帧增益因子时，式mix_agc′＝mix_agc×(2^n-1/mixout)中的mix_agc为当前帧增益因子的起始值，而第二次调整当前帧增益因子时，式mix_agc′＝mix_agc×(2^n-1/mixout)中的mix_agc为第一调整后的结果。

第三步，在叠加结束后，也就是将音频信号6的帧61的最后一个采样点的值叠加完获得最后一个样点数据后，计算机将所获得的当前帧增益因子与前一帧增益因子进行比较，并根据比较后的结果再次调整当前帧增益因子。同样，此时的前一帧增益因子的起始值也为初始值，例如：

再次调整当前帧增益因子的方式可以为：

其中，mix_agc″是再次调整后的当前帧增益因子，mix_agc_prec是前一帧增益因子，mix_agc1是叠加完成后所得的当前帧增益因子，A＝SampleRate/framesize，B＝1，SampleRate是采样率，framesize是帧长。也就是说，当所获得的当前帧增益因子大于或等于前一帧增益因子时，按照采样率、帧长等来调整当前帧增益因子；当所获得的当前帧增益因子小于前一帧增益因子时，则直接计算两者的平均值作为调整后的当前帧增益因子。

第四步，根据再次调整后的当前帧增益因子mix_agc″、及音量强度的初始值计算当前帧的音量强度等级，音量强度的初始值为：

可以按照

来计算音量强度等级，其中，level为音量强度等级，mix_vol为音量强度初始值。在本实施例中，level＝mix_agc″。

第五步，判断所述音量强度等级是否等于预设值，如果是，则将叠加后获得的各样点数据形成的帧作为混音帧，如果否，则根据所述音量强度等级对各样点数据进行处理，以使处理后的各样点数据都处于所述预设范围内，并将处理后的各样点数据所形成的帧作为混音帧。根据所述音量强度等级对各样点数据进行处理的方式可以为：先判断w[i]是否超出预设范围，如果是，则将w[i]调整至预设范围(例如：(-2^n-1，2^n-1))的端点值，其中，mixout[i]是第i个样点数据。通常，当w[i]大于2^n-1时，将其调整为2^n-1；当w[i]小于-2^n-1时，将其调整为-2^n-1，由此可以避免数据溢出。需要说明的是，在本实施例中，由于level＝mix_agc″，因此，也可以直接判断再次调整后的当前帧增益因子mix_agc″是否等于预设值，由此来确定是否需要对样点数据进行处理。

第六步，将再次调整后的当前帧增益因子赋值给前一帧增益因子，以供下一帧混音之用，也就是供计算机对第二帧，即音频信号1的帧12、音频信号2的帧22、……音频信号6的帧62，进行混音时用。不过，本领域技术人员应该理解，将当前帧增益因子赋值给前一帧增益因子的步骤并非限定在第五步之后进行，事实上，也可在前述第三步、或者第四步之后进行。

第七步(图未示)，计算机开始对音频信号1的帧12、音频信号2的帧22、……音频信号6的帧62，进行混音，其混音的过程和前述对各音频信号第一帧的混音过程类似，在此不再详述，不过，当叠加结果超出预设范围时，按照mix_agc′＝mix_agc×(2^n-1/mixout)来调整当前帧增益因子时，式mix_agc′＝mix_agc×(2^n-1/mixout)中的mix_agc的起始值是第一帧混音过程中获得的调整后的当前帧增益因子，也就是第三步所获得当前帧增益因子mix_agc″，而前一帧增益因子的起始值也等于mix_agc″(在前述第六步中予以赋值的结果)。

在完成了对各音频信号的第二帧的混音后，依照对第二帧混音的方法，计算机继续对各音频信号的第三帧混音，一直进行到对各音频信号的最后一帧，即，音频信号1的帧1m、音频信号2的帧2m、……音频信号6的帧6m，的混音为止。不过需要说明的是，在对最后一帧混音后，可以不用再将调整后的当前帧增益因子赋值给前一帧增益因子。

为进一步验证本发明的方法的性能，将本发明的混音方法应用于文件数据流的进行混音测试，以验证效果，输入六路音频信号，音频信号包括男声、女声、童声、英语、音乐等类型，分别将此方法混音后输出的信号和现有直接叠加混音方式输出的信号进行对比分析测试，其中，设置的音频信号为16位采样精度，采样率src＝8000Hz，帧长framesize＝160，本发明的混音方法的部分伪代码描述如下：

A＝SampleRate/framesize，B＝1；

While(读取五个混音数据帧到对应缓冲区中成功)

{

For M＝0 to 6 do

begin

p_in＝&input_buf[m*framesize]；

For N＝0 to framesize do

begin

mix_buf+＝p_in[N]；

If(当前采样值超过16bit采样范围)

{

根据mix_buf[N]计算mix_agc参数；

}

end

If(mix_agc＞＝mix_agc_prev)

mix_agc＝(A*(mix_agc_prev+1)+B*mix_agc)/(A+B)

Else

mix_agc＝(mix_agc_prev＞＞1+mix_agc＞＞1)；

mix_agc_prev＝mix_agc；

If(((mix_agc*128)＞＞7)！＝128)

{

重新计算mix_buf[N]的采样值，并对采样值进行16位的归一化处理；

}

Else

{

将32bit数据转化为16bit数据输出；

}

输出当前帧到混音文件；

清空混音缓冲区；

}

验证的结果如图2和图3所示，其中，图2为本发明的混音方法所获得混音结果，图3为现有直接叠加混音方式所获得混音结果。由图可见，超过6路的音频输入，采用本发明的混音方法后仍然可以保持波形的原始形态，不出现采样过载的问题。而采用现有混音方法，不断出现溢出问题，导致声音不能完全再现其原始的效果。

综上所述，本发明的多路音频帧的混音方法相对于现有的多路音频混音方法，其是一种基于时域信号叠加的自适应的多路音频混合方法，能够混合超过四路以上的音频，实现方法相对简单，基于定点更易于应用在便携设备和低功耗设备上，并可以完全解决多路混音后存在的采样叠加溢出的问题，彻底避免混音产生的不同程度的噪音问题。此方法可以用于集中式或分布式的各种环境中，在超过五路以上音频混音的总体输出效果超过了其他方法。验证结果也表明，相比现有的方法，在保持了音频的波形质量的同时，可以混合更多路数的音频作为混音输出。完全可以应用在更大型的指挥监控系统中，实现更多点的音频实时交互功能。

上述实施例仅列示性说明本发明的原理及功效，而非用于限制本发明。任何熟悉此项技术的人员均可在不违背本发明的精神及范围下，对上述实施例进行修改。因此，本发明的权利保护范围，应如权利要求书所列。

Claims

1.一种多路音频帧的混音方法，其中，多路音频帧各自都由音频信号采样得到，每一路都包含至少一个采样点，所述方法的特征在于包括步骤：

1)将多路音频帧中相应的采样点的值分别叠加以获得至少一个样点数据，且当有叠加后的结果超出预设范围时，根据该超出预设范围的叠加结果、及所述预设范围调整当前帧增益因子，否则不调整当前帧增益因子，其中，当前帧增益因子的初始值预先设定；

2)在叠加完成后，将步骤1)所得的当前帧增益因子与前一帧增益因子进行比较，根据比较后的结果再次调整当前帧增益因子，其中，前一帧增益因子的初始值预先设定；

3)根据再次调整后的当前帧增益因子、及音量强度的初始值计算当前帧的音量强度等级，其中，音量强度的初始值预先设定；

4)判断所述音量强度等级是否等于预设值，如果是，则将叠加后获得的各样点数据形成的帧作为混音帧，如果否，则根据所述音量强度等级对各样点数据进行处理，以使处理后的各样点数据都处于所述预设范围内，并将处理后的各样点数据所形成的帧作为混音帧。

2.如权利要求1所述的多路音频帧的混音方法，其特征在于还包括步骤：将步骤2)中再次调整后的当前帧增益因子赋值给前一帧增益因子，以供下一帧混音之用。

3.如权利要求1所述的多路音频帧的混音方法，其特征在于：多路音频帧为至少4路以上音频帧。

4.如权利要求1所述的多路音频帧的混音方法，其特征在于：如果每一音频帧中的各采样点的值都以nbit表示，则当前帧增益因子、及前一帧增益因子的初始值都设置为

5.如权利要求4所述的多路音频帧的混音方法，其特征在于：预设范围为(-2^n-1，2^n-1)，步骤1)调整当前帧增益因子的方式为：mix_agc′＝mix_agc×(2^n-1/mixout)，其中，mix_agc′是调整后的当前帧增益因子，mix_agc是该次调整前的当前帧增益因子，mixout是超出预设范围的叠加结果。

6.如权利要求5所述的多路音频帧的混音方法，其特征在于：再次调整当前帧增益因子的方式为：

其中，mix_agc″是再次调整后的当前帧增益因子，mix_agc_prec是前一帧增益因子，mix_agc1是步骤1)所得的当前帧增益因子，A＝SampleRate/framesize，B＝1，SampleRate是采样率，framesize是帧长。

7.如权利要求6所述的多路音频帧的混音方法，其特征在于：按照

来计算音量强度等级，其中，level为音量强度等级，mix_vol为音量强度初始值。

8.如权利要求7所述的多路音频帧的混音方法，其特征在于：根据所述音量强度等级对各样点数据进行处理的方式为：判断w[i]是否超出预设范围，如果是，则将w[i]调整至预设范围的端点值，其中，mixout[i]是第i个样点数据。