CN101674450A

CN101674450A - 视频指挥调度系统中的混音方法

Info

Publication number: CN101674450A
Application number: CN200810216072A
Authority: CN
Inventors: 刘为超
Original assignee: Shenzhen Bangyan Information Technology Co Ltd
Current assignee: Shenzhen Bangyan Information Technology Co Ltd
Priority date: 2008-09-10
Filing date: 2008-09-10
Publication date: 2010-03-17

Abstract

本发明提供了一种在视频指挥调度系统中的混音方法，该方法包括：A.根据视频指挥调度系统的应用场景分析噪声信号的范围，并在音频数据信号中去除噪声信号的影响；B.根据智能判定与会方的重要性并分配不同的权重；C.将与会各方的音频数据乘以各自的权重，再作为混合处理的输入方并累加算出输出的音频数据；D.对输出的音频信号进行平滑处理；E.平抑部分溢出过大的波形；F.根据与会各方重要性的不同分配不同的带宽。由上述发明提供的技术方案可以看出，本发明通过对各与会人员语音信号的分析，有效的消除了噪声信号的影响，大幅度提高了语音传输系统中的有效信息量，保证了指挥调度系统在多种应用环境下能够可靠的运行。

Description

视频指挥调度系统中的混音方法

技术领域

本发明涉及语音通信技术领域，尤其涉及视频指挥调度系统中的混音方法。

背景技术

随着技术的飞速发展和各行业竞争的日益激烈，降低运营成本、提高工作效率、加强异地各部门之间的联系、保证上级对下级工作环境和工作状况的清晰了解等问题逐渐显现出来，视频指挥调度系统应运而生，而在实际的视频指挥调度应用中，语音信号仍然是不可或缺的重要信息。

通常，视频指挥调度系统采用的混音方法与视频会议类似(模型参见图1)，即首先获取各与会方的音频信号，然后将各方的信号量以平等的权重进行混合，混合的方法有：①直接将音频数据进行加和，在与会方较多的情况下，有可能过多的人同时说话导致音频信号溢出从而失真；如果背景噪声较大的话，叠加后的噪声甚至可能直接掩盖有效音频信号；②按比例减小音频数据大小，然后进行加和，这样有可能在同时说话的人较少时混合输出的音量太小；③强行抑制越界，也就是在加和各方音频数据之后，在溢出的区域乘以衰减因子以消除音频数据越界现象。

综上所述，由于混音算法本身的固有缺陷，导致了与会方数量和会议效果都受到限制，从而面减少了会议中有效参与方，也浪费了有限的语音带宽资源。本专利提出的混音方法能够很好的解决上述问题，在视频指挥调度系统中应用优势明显，在视频会议中也是一种很好的混音方法。

视频指挥调度系统中，通常根据与会各方的重要性将各方区分开：

1.指挥方：通常是指挥调度系统中的上级，而这里的上级还直接参与指挥调度。

2.接收方：通常是指挥调度系统中的下级，而这里的下级还负责接受指挥方的指挥并对指挥方发出的命令做出相应的动作。

3.参与方：具有一定的指挥权限但是更多是以旁听或顾问的身份与会。

4.收听方：参与会议但没有话语权。

由图1所示，在普通的视频指挥调度系统中，通常先解码各与会方的音频流，然后直接进行混合处理，再进行编码发送。这样导致：

1.在参与方较多且背景噪声较大的场合，由于噪声叠加导致与会的重要信号被淹没；

2.没有突出与会指挥方和接收方的重要性，保证他们的音频数据能够在系统中顺畅的传输。

3.混合后输出的音频信号舒适度较差。

发明内容

本发明的目的是提供一种混音方法，最大限度的保留视频指挥调度系统中的重要信号，突出指挥方和接收方的重要性，从而保证视频指挥调度系统的有效运行。

本发明的目的是通过以下技术方案实现的：

视频指挥调度系统中的混音方法，包括以下步骤：

A.接收并解码：接收各与会方音频数据并将其解码。

B.前处理：①分析出音频信号中噪声信号的取值范围，从而消除噪声信号的影响；②根据各与会方重要性分配不同的权重。

C.混合处理：将各路音频信号进行加权混合，获得输出音频信号。

D.后处理：针对视频指挥调度系统中不同的应用环境进行音频信号的后处理，提高音频信号的舒适度。

E.编码并发送：在带宽有限的情况下优先保证重要的参与方的音频质量。

附图说明

图1所示为普通视频会议系统的模型

图2所示为本发明所实施的混音方法示意图

图3所示为本发明所实施的混音方法流程图

具体实施方式

下面根据附图和实例对本发明做进一步详细说明：

混音系统简化模型如图2所示，假定与会方只有指挥方(A)，接收方(B)，参与方(C)，收听方(D)。则混音处理的详细步骤(流程图参见图3)为：

1.接收并解码：接收各与会方的码流，并将其解码，解码后的数据分别为A(x)、B(x)、C(x)。

2.前处理：这是混音中的核心部分。在Ai(x)、Bi(x)、Ci(x)中，有的与会方是有效音频信号，而有的与会方的音频信号可能只是噪声信号；而在有效音频信号中，也可能包含噪声信息。因此，需要在前处理部分消除噪声信号的影响，则在混合处理部分就能够更好的保留有效数据信息。

2.1降噪处理：对Ai(x)、Bi(x)、Ci(x)进行的降噪处理是相同的，即取连续的几个时间片，对它们进行能量分析，根据能量对比差别从而估算出噪声的能量范围(每间隔一段时间重新估算一次)。当与会方的某些时间段的数据范围在噪声的能量范围之内，则直接将其置零，而在有效时间片则减去噪声数据。这样，一方面减少了参与混合处理的数据输入方，另一方面也避免了由于与会方过多造成叠加噪声过大的情况。

2.2分配权重：通常，进行混音时是将各与会方的声音进行加和的，这也就意味着各与会方不论其重要性，进行加和的语音信号的权重都是1，这样在时间片中仅有一人或少数几人发言时，语音失真的可能性较小，而当出现同时发言人数较多的情况，则即淹没了重要与会人员的声音，又使得混合的声音失真。而通过合理的分配权重则能够很好的解决这一问题。所谓权重，指的就是根据个与会人员重要性为其分配不同的比例因子，从而最大限度的保证重要的与会人员的音频数据不会被掩盖或者丢失。下面将针对不同的角色提取比例因子：

a)指挥方：在某些视频指挥调度系统中，由于接收方背景噪声过大，可能导致噪声信号完全掩盖了接收方的有效信号，在这种情况下，只能以视频作为辅助，因此，指挥方的音频显得尤为重要。在这种情况下，有必要提高指挥方的比例因子，并同时降低其余各方的比例因子。

b)接收方：在通常环境下，为了保证语音的交互，因此，指挥方和接收方的重要性是相当的，因此，可以将指挥方和接收方作为重要参与方，而将其余各方看作次要参与方，并由此确保重要参与方的权重较大，而次要参与方的权重较小。

c)参与方：通常参与方是作为次要参与方与会的，但是不排除有的次要参与方能够在特殊场合下发挥作用，因此，系统中将对次要参与方的与会重要性进行自适应调整和判定，当某些次要参与方累加发言时间较长时，将能够获得和重要参与方相当的权重，而当其发言时间减少时，则减小其权重。

3.混合处理：就是将各与会方的声音混合起来。由于在前处理部分已经对各与会方的音频数据的权重进行了适当的分配，因此，这里的混音就是对音频数据进行简单的加权处理。

4.后处理：经过混合处理后，各方的混音数据为Ao(x)、Bo(x)、Co(x)、Do(x)。由于混合处理是将各方声音的叠加，因此，可能出现如下两种对音效影响较明显的情况：

4.1平滑处理：混合处理是以时间片为单位对音频数据进行混合的，因此，时间间隔之间可能会出现信号的突然上升或者突然下降的跳变现象，这样会出现一些不协调的声音，因此，需要对其进行滤波处理，平滑音频信号。

4.2平抑处理：加权后的音频信号可能在某些时间片内有较多的数据溢出，也可能在极少的时间片内出现数据过大而其他时间的数据则非常小的情况，因此，有必要针对不同的情境对音频数据进行不同的加工处理。针对前一种情况则将音频数据乘以一个比例因子缩小音频数据；而针对后一种情况，则需要采用抑制因子，将过于突出的波峰强行限制在非溢出范围内。

5.编码和发送：对于带宽有限的环境下，为重要参与方分配的较大的带宽，而为次要参与方分配的较小的带宽。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种视频指挥调度系统的混音方法，包括以下步骤：

1.1接收各与会方的码流并解码；

1.2对解码后的数据进行前处理；

a)降噪处理：通过较长时间的分析，提取出噪声所在音频数据的数值范围，并以此为依据，置零纯噪声信号的时间片，其余时间片则减去预估的噪声信号。

b)提取能量因子：根据各与会方的重要性和参与度的不同，智能的分配各信号进行混音的权重(能量因子)。

1.3根据对各与会方分配的权重，对各音频数据进行混合处理；

1.4对混合后的数据进行后处理：

a)平滑处理：对混合后的音频数据进行平滑滤波处理；

b)平抑处理：将某些音量过大的时间片的音频数据强制压低在有效值范围内，防止溢出现象发生。

1.5编码和发送：在编码时，优先保证重要参与方的音频质量。

2.根据专利要求1所述的方法，其特征在于：在视频指挥调度系统中，侧重于一方指挥，另一方服从指挥并反馈信息这样一种模式，因此，同一时间段说话的人非常少，但是有权参与的人员可能比较多，因此，造成的叠加噪声对有效信号造成的影响较大。

3.根据专利要求2所述的方法，其特征在于：通过一段时间对各与会音频数据信号进行的能量分析，估算出噪声信号的大致范围。

4.根据专利要求3所述的方法，其特征在于：将等于或低于噪声范围的信号置零，而其余信号需要减去估算的噪声范围。

5.根据专利要求1所述的方法，其特征在于：根据与会方的重要性和参与度的不同，为音频信号分配不同的权重，如一般参与方权重为1，重要参与方权重为2，次要参与方权重为0.5等。

6.根据专利要求5所述的方法，其特征在于：通过长时间累计估算参与方音频信号的有效时间，再通过各方有效音频时间的相对关系，从而确定与会各方的权重，而对于重要参与方权重不低于1，次要参与方权重不高于1，从而保证参与视频指挥调度系统的重要参与方的有效音频数据不被削弱。

7.根据专利要求1所述的方法，其特征在于：各与会方音频数据乘以各自的权重，再进行累加，获得各方的混合后输出的原始音频数据。

8.根据专利要求1所述的方法，其特征在于：对混音后的数据进行平滑处理，由于人发出的声音信号通常是缓慢渐变的数据，因此，对音频数据进行平滑处理能够有效的提高舒适度。

9.根据专利要求1所述的方法，其特征在于：由于某些时间片可能出现较多的音频数据溢出情况，此时需要乘以一个统一的比例因子缩小音频数据。

10.根据专利要求1所述的方法，其特征在于：由于某些极短的时间片可能出现声音信号远大于周边信号(如突发性噪声等)，为充分保证周边信号的音量，将过大的信号乘以衰减因子使其在合理范围内。