CN101179693B

CN101179693B - 一种会议电视系统的混音处理方法

Info

Publication number: CN101179693B
Application number: CN2007100772740A
Authority: CN
Inventors: 唐庶
Original assignee: SHENZHEN DVISION VIDEO TELECOMMUNICATION CO Ltd
Current assignee: Shenzhen Di Vision Ltd By Share Ltd
Priority date: 2007-09-26
Filing date: 2007-09-26
Publication date: 2011-02-02
Anticipated expiration: 2027-09-26
Also published as: CN101179693A

Abstract

本发明公开了一种会议电视系统的混音处理方法，包括至少一个会场终端，包含如下步骤：A、解码各会场终端的语音码流，获得各会场终端语音信号；B、将会场终端中的主席终端和发言人终端选定为混音激活终端；C、对主席终端和发言人终端外的会场终端，比较各会场终端的语音信号音量值，按各会场终端的语音信号音量值由大至小的顺序依序至少选出一个会场终端作为混音激活终端；D、将步骤B和C中确定的混音激活终端的语音信号按预定原则进行混音，发送给相应会场终端。本发明不但能随时听见每个会场的发言，而且能够保证不会有太多的会场混合在一起而造成声音的杂乱，实际混音效果清晰，易于辨认，而且也节约了多点控制单元的处理能力。

Description

一种会议电视系统的混音处理方法

技术领域

本发明涉及会议电视领域，具体地说涉及一种会议电视系统的混音处理方法。

背景技术

随着电信技术的发展，会议电视业务得到了越来越广泛的应用，会议电视系统中一般包括用于会议控制的多点控制单元(MCU)和至少一个会场终端(与会者)。一般的语音业务中仅涉及到两个通话方，而在会议电视系统中，通常与会者都不止两个，其中任一与会者的语音都可以传送至所有其他与会者，而每一与会者都同时可听到多个其他与会者的声音。因此，在会议电视系统中，通常都需要进行混音处理，即将多个与会者的语音混合起来，以便任一与会者都可同时听到其他与会者的声音。

通常，在一个会议电视系统的多个会场终端中，包括有以下几种类型的会场终端：

主席终端：即整个会议中的主席会场，能够取得会议的控制权。

发言人终端：即会议中的当前发言人会场，一般在一个会议中的一个时刻只有一个发言人，与会的其他会场终端都可以看到发言人会场的图像。

其他终端：一般的与会会场。

在实际的会议过程中，绝大多数情况下只有主席和发言人说话，其他的一般会场处于听的状态。因此，可确定对于会议电视系统的混音处理的需求主要是：

1)每个会场需要随时听见其他会场的声音；

2)应该保证主席和发言人会场的声音优先权；此外，可能出现的插话会场应该是声音较大的一方，以符合人们收听声音最大的一方的习惯。

传统的混音方法中，包括有全混音方法，即将同时说话的所有会场的语音信号混音发送给各会场，这种方案虽然满足会场可随时听见其他会场的声音的需求，然而，对于一个会场终端数目众多的会议电视系统而言，不加区分的将所有会场终端的声音都进行混合，不仅对于会议电视系统的MCU处理要求较高，同时，也容易造成混音效果不佳，甚至让人无法听清。

另一种现有的混音方法是：混合数个声音较大的会场终端的语音信号。这种方法虽然符合人们收听声音最大一方的习惯，然而，常常有可能将主席终端和发言人终端淹没，导致会议的秩序混乱，也容易造成声音的频繁切换。

发明内容

有鉴于此，本发明所要解决的技术问题是提供一种会议电视系统的混音处理方法，可以提高混音效果，降低MCU的能力消耗，同时保证会议的有序进行。

为实现上述目的，本发明采用如下技术方案：

一种会议电视系统的混音处理方法，包括至少一个会场终端，该方法包含如下步骤：

A、解码各会场终端的语音码流，获得各会场终端语音信号；

B、将会场终端中的主席终端和发言人终端选定为混音激活终端；

C、对主席终端和发言人终端外的会场终端，比较各会场终端的语音信号音量值，按各会场终端的语音信号音量值由大至小的顺序依序至少选出一个会场终端作为混音激活终端；

D、将步骤B和C中确定的混音激活终端的语音信号按预定原则进行混音，发送给相应会场终端。

所述步骤D中，混音激活终端的语音信号按预定原则进行混音，发送给相应会场终端是按如下方式实现：

1)对混音激活终端，将除该混音激活终端外的其他混音激活终端的语音信号进行混音，发送给该混音激活终端；

2)对混音激活终端以外的其他会场终端，将全部混音激活终端的语音信号进行混音，发送给各其他会场终端。

所述步骤C中，比较各会场终端语音信号音量值是采用延时处理方式：连续多次采集各会场终端的语音信号音量值，计算采集到的各会场终端的多个语音信号音量值的平均值，对各会场终端语音信号音量值的所述平均值进行比较。

当主席终端和发言人终端为同一会场终端时，所述步骤C中，对主席终端和发言人终端外的会场终端，按各会场终端语音信号音量值由大至小的顺序依序至少选出两个会场终端作为混音激活终端。

所述步骤D中，当混音信号超过设定的混音门限时，在将混音信号发送给相应的会场终端前，还包括对混音信号进行箝位处理的步骤。

所述步骤D中，确定的混音激活终端的总数为3个。

本发明的有益效果在于：确定主席终端、发言人终端和各会场终端的语音信号音量值由大至小的顺序依序至少选出的一个会场终端作为混音激活终端。因此在保证会议有序进行的基础上，降低了多点控制单元的处理能力消耗，混音效果清晰。

附图说明

图1是本发明具体实施方式的会议电视系统的系统框架示意图；

图2是本发明具体实施方式的混音处理方法的流程图。

具体实施方式

下面对照附图结合具体实施方式对本发明作详细说明。

如图1所示，图中示意性地展示了一个会议电视系统，包括一个多点控制单元和6个会场终端。需要了解的是，会场终端的数目并不构成对本发明的限定。

如图2所示，本发明具体实施方式的所述方法，包含如下步骤：

1、解码各会场终端的语音码流，获得各会场终端语音信号；

2、将会场终端中的主席终端和发言人终端选定为混音激活终端；

3、对主席终端和发言人终端外的会场终端，比较各会场终端的语音信号音量值，按各会场终端的语音信号音量值由大至小的顺序依序至少选出一个会场终端作为混音激活终端；

4、将步骤B和C中确定的混音激活终端的语音信号按预定原则进行混音，发送给相应会场终端。

在步骤4中，混音激活终端的语音信号按预定原则进行混音，发送给相应会场终端采用如下方式：

对混音激活终端，将除该混音激活终端外的其他混音激活终端的语音信号进行混音，发送给该混音激活终端；

对混音激活终端以外的其他会场终端，将全部混音激活终端的语音信号进行混音，发送给各其他会场终端。

下面以一实例对本发明作进一步说明。

如图1所示，一会议电视系统中包括6个会场终端：A会场终端、B会场终端、C会场终端、D会场终端、E会场终端、F会场终端；在一采样周期，通常为20毫秒，所有说话的会场终端的声音码流传送到多点控制单元，多点控制单元对这些声音码流进行解码，得到每个会场终端的语音信号。

定义所有允许加入混音的会场终端为混音候选终端，实际选定加入混音的终端为混音激活终端。以上语音信号到达多点控制单元的终端即混音候选终端。由于通常混音候选终端的数目较多，如果全部加入混音，容易造成混音效果不佳的缺陷。实验表明，混音三路的效果是在满足同时发言的条件下最好的选择。

在一个有序进行的会议过程中，通常应该保证主席终端和发言人终端的声音能够被其他会场听见。因此，可以通过多点控制单元对主席终端和发言人终端设定标志位或优先级的方式，将两者选定为必选的混音激活终端。对于主席终端和发言人终端之外的其他混音候选终端，比较各会场终端的语音信号音量值，按该音量值由大至小的顺序依序至少选出一个会场终端作为混音激活终端。在混音三路的情况下，如果主席终端和发言人终端不同，则选出的是声音最大的会场终端作为主席终端和发言人终端之外的另一个混音激活终端；如果主席终端和发言人终端是同一个会场终端，则选出的是声音最大和次大的两个会场终端作为另外两个混音激活终端。

确定了三个混音激活终端之后，将对三路语音信号按预定的原则进行混音处理，首先是语音信号的叠加，假设A会场终端为主席终端，B会场终端为发言人终端，C会场终端为声音最大终端，由于通常说话方并不需要在混音中听到自己的声音，因此，叠加的原则是：

对于主席终端A，叠加的语音信号是B+C；

对于发言人终端B，叠加的语音信号是A+C；

对于声音最大终端C，叠加的语音信号是A+B；

对于其他会场终端D、E、F，叠加的语音信号是A+B+C。

叠加后的混音信号有可能音量过高，从而使得收听效果不佳，因此还需设定一个混音门限，当叠加的语音信号超过该混音门限，则对叠加的语音信号按照一定的收缩系数进行收缩。收缩系数主要用于确定在多大的音量下进行何种程度的收缩，这可以通过实验进行确定。

最后，对上述四种叠加语音信号进行编码，按上述的预定原则，发送到相应的会场终端。

进一步的，在确定声音最大的会场终端的过程中，可以采用延时处理方式，通常在现有技术中确定声音最大终端时，采用在20毫秒中采样声音，以采样点中音量绝对值最大作为终端的音量参考值，此种方式可能因突如其来的噪声而造成声音最大会场终端的误判。因此，可连续多次采集各会场终端的语音音量，计算各会场终端的连续多次语音音量采集值的平均值，对各会场终端语音音量的所述平均值进行比较，从而更准确地确定声音最大的会场终端。

比较全混音方法和本发明方法对MCU的处理要求，如果会场终端数为N，对于全混音方法，首先其解码次数为N，然后对于每一终端，需要混合其自身以外的其他会场终端的语音信号，因此叠加次数和编码次数同样也是N。当N数目很大时，将造成MCU的严重消耗。而对于本发明的方法，其在N＜＝4的情况下，与全混音方法相同，然而，在N＞4的时候，从上述说明可以看出，其编码次数仍然为N，但是，叠加次数和编码次数都将降至仅有4次，从而不仅大大降低了MCU的处理消耗，同时实际的混音效果清晰，易于辨认。

与混音数个声音最大的现有混音方法相比，首先，由于在实际会议过程中，主席和发言人在相对长的时间内是基本固定的，不会频繁变化，将其作为必选混音激活终端，可以避免混音激活终端变化过快，此外，也避免了可能出现主席和发言人被排除在混音激活终端之外的情况，这些都可以保证会议的有序进行，使得会议电视系统更加稳定有效。

本发明通过确定主席终端、发言人终端和按其他会场终端的语音音量由大至小的顺序依序至少选出的一个会场终端作为混音激活终端，从而可以满足良好的混音需求，同时不但能随时听见每个会场的发言，而且能够保证不会有太多的会场混合在一起而造成声音的杂乱。采用本发明的方法，会议过程可以保持有序进行，混音效果清晰易辨，多点控制单元的处理能力消耗不高，整个会议电视系统运行稳定高效。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种会议电视系统的混音处理方法，包括至少一个会场终端，其特征在于，该方法包含如下步骤：

A、解码各会场终端的语音码流，获得各会场终端语音信号；

D、将步骤B和C中确定的混音激活终端的语音信号按下述原则进行混音并发送给相应会场终端：

2.如权利要求1所述的混音处理方法，其特征在于，所述步骤C中，比较各会场终端语音信号音量值是采用延时处理方式：连续多次采集各会场终端的语音信号音量值，计算采集到的各会场终端的多个语音信号音量值的平均值，对各会场终端语音信号音量值的所述平均值进行比较。

3.如权利要求1或2所述的混音处理方法，其特征在于，当主席终端和发言人终端为同一会场终端时，所述步骤C中，对主席终端和发言人终端外的会场终端，按各会场终端语音信号音量值由大至小的顺序依序至少选出两个会场终端作为混音激活终端。

4.如权利要求1或2所述的混音处理方法，其特征在于，所述步骤D中，当混音信号超过设定的混音门限时，在将混音信号发送给相应的会场终端前，还包括对混音信号进行箝位处理的步骤。

5.如权利要求1或2所述的混音处理方法，其特征在于，所述步骤D中，确定的混音激活终端的总数为3个。