CN102222503A

CN102222503A - 一种音频信号的混音处理方法、装置及系统

Info

Publication number: CN102222503A
Application number: CN2010101483468A
Authority: CN
Inventors: 梁丽燕
Original assignee: Huawei Device Co Ltd
Current assignee: Huawei Device Co Ltd; Huawei Device Shenzhen Co Ltd
Priority date: 2010-04-14
Filing date: 2010-04-14
Publication date: 2011-10-19
Anticipated expiration: 2030-04-14
Also published as: EP2560160A4; EP2560160B1; WO2011127816A1; EP2560160A1; CN102222503B; US8705770B2; US20130034247A1

Abstract

本发明实施例提供一种音频信号的混音处理方法、装置与系统，方法包括：判断接收终端的声道类型，针对单声道接收终端，向其发送混音的音频信号的同时发送混音信号中各个子带上音频信号能量最大的发送终端方位信息；针对双声道接收终端或多声道接收终端，根据为单声道发送终端分配的方位信息为其上混得到双声道或多声道音频数据后，对参加混音的音频数据进行混音处理后得到双声道或多声道混音数据并发送。本发明实施例还提供了一种音频信号的混音处理装置及系统。本发明实施例提供的方案在存在多个声道类型的接收终端的混音系统中，使得各个发送终端均具备空间方位信息的混音处理方案，提高了在复杂混音情况下，听众的临场收听感觉。

Description

一种音频信号的混音处理方法、装置及系统

技术领域

本发明实施例涉及多媒体通信技术领域，尤其涉及一种音频信号的混音处理方法、装置及系统。

背景技术

在多媒体通信系统中，MCU(Multipoint Control Unit，多点控制单元)对参加会议的会场发送的音频信号进行混音处理。N方混音处理具体包括：MCU对接收到的音频信号进行处理得到会议中最大N方会场的音频信号；向最大N方会场之外的会场发送最大N方会场的混音信号，向最大N方会场发送除自身会场之外的N-1方会场的混音信号。

在混音处理过程中，针对参加混音的最大N方会场中的单声道会场，通常会为其设置空间方位信息，并将设置的空间方位信息作为辅助信息发送给接收方的单声道会场，以便接收方的单声道会场播放混音信号时产生方位感。

发明人在实现本发明的过程中，发现现有技术中至少存在如下问题：

现有的混音处理方案中，并没有解决当参加混音的会场中既包含单声道会场，也包含双声道会场和/或多声道会场，且接收方既包含单声道会场，也包含双声道会场和/或多声道会场时，如何使得参加混音的各会场均具备空间方位信息的问题。

发明内容

鉴于上面提出的技术问题，本发明的实施例提供了一种音频信号的混音处理方法、装置及系统，从而提高听众的临场体验感觉。

本发明的目的是通过以下技术方案实现的：

一种音频信号的混音处理方法，包括：

判断接收终端的声道类型；

针对单声道接收终端，将双声道发送终端或多声道发送终端的音频信号下混为单声道音频信号，将单声道发送终端的音频信号、双声道发送终端和/或多声道发送终端经过处理之后的单声道音频信号进行混音后编码发送给所述单声道接收终端，并将混音信号中各个子带上音频信号能量最大的参加混音的发送终端的方位信息发送给所述单声道接收终端；

针对双声道接收终端，针对单声道发送终端，根据预先为所述单声道发送终端指定的方位信息，上混得到所述单声道发送终端的具备设定方位的双声道音频信号；针对多声道发送终端，下混得到所述多声道发送终端的双声道音频信号；将参加混音的单声道发送终端的经过处理之后的双声道音频信号、双声道发送终端的音频信号和/或多声道发送终端经过处理后的双声道音频信号进行混音处理后编码发送给所述双声道接收终端；

针对多声道接收终端，针对单声道发送终端，根据预先为所述单声道发送终端指定的方位信息，上混得到所述单声道发送终端的具备设定方位的多声道音频信号；针对双声道发送终端，上混得到所述双声道发送终端的多声道音频信号；将参加混音的单声道发送终端的经过处理之后的多声道音频信号、双声道发送终端经过处理后的多声道音频信号和/或多声道发送终端的音频信号进行混音处理后编码发送给所述多声道接收终端。

一种音频信号的混音处理装置，包括：

声道类型判断模块，用于判断接收终端的声道类型；

第一混音处理模块，用于将双声道发送终端或多声道发送终端的音频信号下混为单声道音频信号，将单声道发送终端的音频信号、双声道发送终端和/或多声道发送终端经过处理后的单声道音频信号进行混音后编码发送给所述单声道接收终端，并将混音信号中各个子带上音频信号能量最大的参加混音的发送终端的方位信息发送给单声道接收终端；

第二混音处理模块，针对单声道发送终端，用于根据预先为所述单声道发送终端指定的方位信息，上混得到所述单声道发送终端的具备设定方位的双声道音频信号；针对多声道发送终端，用于下混得到所述多声道发送终端的双声道音频信号；将参加混音的单声道发送终端的经过处理之后的双声道音频信号、双声道发送终端的音频信号和/或多声道发送终端经过处理后的双声道音频信号进行混音处理后编码发送给双声道接收终端；

第三混音处理模块，针对单声道发送终端，用于根据预先为所述单声道发送终端指定的方位信息，上混得到所述单声道发送终端的具备设定方位的多声道音频信号；针对双声道发送终端，用于上混得到所述双声道发送终端的多声道音频信号；将参加混音的单声道发送终端的经过处理之后的多声道音频信号、双声道发送终端经过处理后的多声道音频信号和/或多声道发送终端的音频信号进行混音处理后编码发送给所述多声道接收终端。

一种音频信号的混音处理方法，包括：

判断接收终端的声道类型；

针对单声道接收终端，将双声道发送终端的音频信号下混为单声道音频信号，将单声道发送终端的音频信号和/或双声道发送终端经过处理之后的单声道音频信号进行混音后编码发送给所述单声道接收终端，并将混音信号中各个子带上音频信号能量最大的参加混音的发送终端的方位信息发送给所述单声道接收终端；

针对双声道接收终端，针对单声道发送终端，根据预先为所述单声道发送终端指定的方位信息，上混得到所述单声道发送终端的具备设定方位的双声道音频信号；将参加混音的单声道发送终端的经过处理之后的双声道音频信号和/或双声道发送终端的音频信号进行混音处理后编码发送给所述双声道接收终端。

一种音频信号的混音处理方法，包括：

判断接收终端的声道类型；

针对单声道接收终端，将多声道发送终端的音频信号下混为单声道音频信号，将单声道发送终端的音频信号和/或多声道发送终端经过处理之后的单声道音频信号进行混音后编码发送给所述单声道接收终端，并将混音信号中各个子带上音频信号能量最大的参加混音的发送终端的方位信息发送给所述单声道接收终端；

针对多声道接收终端，针对单声道发送终端，根据预先为所述单声道发送终端指定的方位信息，上混得到所述单声道发送终端的具备设定方位的多声道音频信号；将参加混音的单声道发送终端的经过处理之后的多声道音频信号和/或多声道发送终端的音频信号进行混音处理后编码发送给所述多声道接收终端。

一种音频信号的混音处理方法，包括：

判断接收终端的声道类型；

针对双声道接收终端，针对多声道发送终端，下混得到所述多声道发送终端的双声道音频信号；将参加混音的双声道发送终端的音频信号和/或多声道发送终端经过处理后的双声道音频信号进行混音处理后编码发送给所述双声道接收终端；

针对多声道接收终端，针对双声道发送终端，上混得到所述双声道发送终端的多声道音频信号；将参加混音的双声道发送终端经过处理后的多声道音频信号和/或多声道发送终端的音频信号进行混音处理后编码发送给所述多声道接收终端。

一种音频信号的混音处理系统，该系统包括上述的音频信号的混音处理装置、和至少一个通过所述音频信号的混音处理装置发送或接收音频信号的终端，所述终端的类型为单声道终端、双声道终端或多声道终端，当终端参加混音时，所述终端为发送终端，当终端接收混音信号时，所述终端为接收终端。

由上述本发明的实施例提供的技术方案可以看出，本发明实施例提供了存在任意声道类型的发送终端和任意声道类型的接收终端的混音系统中，如何使得各个发送终端均具备方位感的混音处理方案，提高了听众的会议临场感觉。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种混音处理过程示意图；

图2为本发明实施例提供的多画面显示示意图；

图3为本发明实施例提供的网真画面显示示意图；

图4为本发明实施例一提供的混音系统示意图；

图5本发明实施例一提供的混音处理过程示意图；

图6为本发明实施例二提供的混音系统示意图；

图7为本发明实施例二提供的混音处理过程示意图；

图8为本发明实施例三提供的混音系统示意图；

图9为本发明实施例三提供的混音处理过程示意图；

图10为本发明实施例提供的装置结构示意图；

图11为本发明实施例提供的系统结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种音频信号的混音处理方法，以便在任意声道类型终端并存的混音系统中，听众能够清楚地收听到会议的混音信号，提高听众的临场体验感觉。该方法的处理过程可以应用在视频会议、音频会议以及其他音频混音系统中，其实现方式如图1所示，包括：

S101、判断接收终端的声道类型，如果是单声道接收终端，则执行S102，如果是双声道接收终端，则执行S103，如果是多声道接收终端，则执行S104；

S102、将双声道发送终端或多声道发送终端的音频信号下混为单声道音频信号，将单声道发送终端的音频信号、双声道发送终端和/或多声道发送终端经过处理之后的单声道音频信号进行混音后进行编码并发送给所述单声道接收终端，并将混音信号中各个子带(在音频处理技术中，通常按照频域划分若干子带，以便对音频信号分子带进行处理)上音频信号能量最大的参加混音的发送终端的方位信息发送给所述单声道接收终端；

S103、如果参加混音的发送终端中有单声道发送终端，根据预先为所述单声道发送终端指定的方位信息，上混得到所述单声道发送终端的具备设定方位的双声道音频信号；如果参加混音的发送终端中有多声道发送终端，下混得到所述多声道发送终端的双声道音频信号；将参加混音的单声道发送终端的经过处理之后的双声道音频信号、双声道发送终端的音频信号和/或多声道发送终端经过处理后的双声道音频信号进行混音处理后进行编码并发送给所述双声道接收终端；

S104、如果参加混音的发送终端中有单声道发送终端，根据预先为所述单声道发送终端指定的方位信息，上混得到所述单声道发送终端的具备设定方位的多声道音频信号；如果参加混音的发送终端中有双声道发送终端，下混得到所述双声道发送终端的多声道音频信号；将参加混音的单声道发送终端的经过处理之后的多声道音频信号、双声道发送终端经过处理后的多声道音频信号和/或多声道发送终端的音频信号进行混音处理后进行编码发送给所述双声道接收终端。

其中，单声道发送终端和单声道接收终端是指采用单声道传输音频信号的终端；双声道发送终端和双声道接收终端是指采用双声道传输音频信号的终端；而多声道发送终端和多声道接收终端是指采用多声道(例如5.1声道)传输音频信号的终端。

上述发送终端的方位可以是左、右、偏左、偏右、前、后、中间等等。

在混音系统中，终端可以同时作为发送终端和接收终端。以视频通信系统为例，参加混音的最大N方会场(发送终端)同时也会接收到除自身之外的其他N-1方会场的混音信号。

本发明实施例中，上混是指将N声道音频信号进行处理，得到M声道音频信号，其中，N、M为正整数，且N＜M。下混是指将E声道音频信号进行处理，得到F声道音频信号，其中，E、F为正整数，且E＜F。

本发明实施例提供的技术方案，使得在任意声道类型的发送终端和任意声道类型的接收终端的混音系统中，参加混音的各个发送终端均具备方位感，提高了听众的会议临场感觉。

上述S102中，需要将参加混音的双声道发送终端或多声道发送终端的音频信号下混为单声道音频信号以便参加混音，作为举例而非限定，该操作的具体实现方式如下：对所述双声道发送终端或多声道发送终端的各个声道进行检测；选择音频信号能量满足预定条件的声道，并将所述音频信号能量满足预定条件的声道的音频信号合并为单声道音频信号。作为举例而非限定，其中的满足预定条件可以是大于设定的阈值(N)，则表示该声道内的音频信号为有效的语音信号而非背景噪音；满足预定条件还可以是针对有效的语音信号生成的判别式。

上述S102还包括获得混音信号中各个子带上音频信号能量最大的参加混音的发送终端的方位信息的实现方式：在参加混音信号中的各个子带上，对参加混音的单声道发送终端的音频信号能量、参加混音的双声道发送终端经过处理后的单声道音频信号能量、和/或参加混音的多声道发送终端经过处理后的单声道音频信号能量分别进行比较；确定各个子带上音频信号能量最大的参加混音的发送终端；获得各个子带上音频信号能量最大的参加混音的发送终端的方位信息，其中，单声道发送终端的方位信息为预先为其分配的方位信息，双声道发送终端或多声道发送终端的方位信息可以通过检测得到，具体检测方式为现有技术，在此不再赘述，或者，双声道发送终端或多声道发送终端的方位信息还可以为预先为其分配的方位信息。

作为举例而非限定，上述S102中，将单声道发送终端的音频信号、双声道发送终端和/或多声道发送终端经过处理之后的单声道音频信号进行混音的具体实现方式是：将单声道发送终端的音频信号、双声道发送终端和/或多声道发送终端经过处理之后的单声道音频信号进行叠加，获得混音信号。

作为举例而非限定，上述S103中，如果参加混音的发送终端中有单声道发送终端时，根据预先为所述单声道发送终端指定的方位信息，上混得到所述单声道发送终端的具备设定方位的双声道音频信号的具体实现方式具体可以是：根据单声道发送终端的方位信息，对该单声道发送终端的单声道音频信号进行能量分配，获得具备空间方位信息的双声道音频信号。例如：为单声道发送终端指定的方位为“右”，则可为生成的右声道音频信号分配的能量大于为生成的左声道音频信号分配的能量。

作为举例而非限定，上述S103中，如果参加混音的发送终端中有多声道发送终端，下混得到所述多声道发送终端的双声道音频信号的具体实现方式可以是：根据多声道发送终端的方位信息，重新对多声道发送终端的多声道音频信号进行能量分配，获得具备该多声道发送终端的方位信息的双声道音频信号。

作为举例而非限定，上述S103中，将参加混音的单声道发送终端的经过处理之后的双声道音频信号、双声道发送终端的音频信号和/或多声道发送终端经过处理后的双声道音频信号进行混音的具体实现方式可以是：将参加混音的单声道发送终端的经过处理之后的左声道音频信号、双声道发送终端的左声道音频信号和/或多声道发送终端经过处理后的左声道音频信号进行叠加；将参加混音的单声道发送终端的经过处理之后的右声道音频信号、双声道发送终端的右声道音频信号和/或多声道发送终端经过处理后的右声道音频信号进行叠加；获取混音后的双声道音频信号。

上述S104中，如果参加混音的发送终端中有单声道发送终端参加混音时，根据预先为所述单声道发送终端指定的方位信息，上混得到所述单声道发送终端的具备设定方位的多声道音频信号的具体实现方式可参照上述生成双声道音频信号的实现方式，这里不再赘述。

作为举例而非限定，上述S104中，如果参加混音的发送终端中有双声道发送终端，上混得到所述双声道发送终端的多声道音频信号的具体实现方式可以是：根据双声道发送终端的方位信息，重新对双声道发送终端的双声道音频信号进行能量分配，获得具备该双声道发送终端的方位信息的多声道音频信号。

作为举例而非限定，上述S104中，将参加混音的单声道发送终端的经过处理之后的多声道音频信号、双声道发送终端经过处理后的双声道音频信号和/或多声道发送终端的音频信号进行混音的实现方式是：将参加混音的单声道发送终端的经过处理之后的多声道音频信号、双声道发送终端经过处理后的多声道音频信号和/或多声道发送终端的音频信号中相同声道的音频信号分别进行叠加，获取混音后的多声道音频信号。

上述本发明实施例中，参加混音的单声道发送终端的方位信息是预先为其指定的，双声道发送终端或多声道发送终端的方位信息也可以是预先为其指定的。为单声道发送终端、双声道发送终端或多声道发送终端指定方位信息的实现方式包括但不仅限于：(一)在发送终端(指单声道发送终端、双声道发送终端或多声道发送终端，下同)进入混音系统时，由控制端(例如MCU)为所述发送终端指定方位信息；(二)如果本发明实施例应用在视频通信系统中，根据所述发送终端在所述视频通信系统的视频画面中的位置，为所述发送终端指定方位信息，其中视频画面中的位置可以是指在多画面，即一个显示屏中多格画面中显示的位置，也可以是指在网真画面，即多个显示屏组成的视频画面中显示的位置；例如，在如图2所示的多画面中，会场1在多画面中的显示位置为左，则指定会场1的方位为“左”；在如图3所示的网真画面中，会场2在网真画面中的显示位置为中，则指定会场2的方位为“中”；(三)如果本发明实施例应用在通信系统中，接收终端可以为参加混音的发送终端指定方位，并向控制端发送方位指定信息，该方位指定信息是所述接收终端为所述发送终端指定的方位，控制端该方位指定信息为所述发送终端设置方位信息。其中，方位指定信息中还可以携带指定生效信息，该指定生效信息用来指示仅在发送给该接收终端的混音处理时，为该发送终端指定方位信息；或者在发送给若干或全部接收终端的混音处理时，为发送终端指定方位信息。如果有多个接收终端为同一发送终端指定方位，则控制端可根据接收到不同方位指定信息的先后顺序轮流实现对该发送终端的方位设置，或者按照申请令牌方式对该发送终端的方位进行设置，也可以按照其他设定的规则控制接收终端设置该发送终端方位的权限。

当混音系统中的终端类型包括单声道终端和双声道终端时，本发明实施例提供一种音频信号的混音处理方法，该方法包括如下操作：

判断接收终端的声道类型；

其中，将参加混音的双声道发送终端下混为单声道音频信号的实现方式在上述本发明实施例中有描述，这里不再赘述。

将单声道发送终端的音频信号和/或双声道发送终端经过处理之后的单声道音频信号进行混音后编码发送给所述单声道接收终端，并将混音信号中各个子带上音频信号能量最大的参加混音的发送终端的方位信息发送给所述单声道接收终端之前，还包括：在预先为参加混音信号进行频带划分得到的各个子带上，对参加混音的单声道发送终端的音频信号能量和/或参加混音的双声道发送终端经过处理后的单声道音频信号能量分别进行比较；确定各个子带上音频信号能量最大的参加混音的发送终端；获得各个子带上音频信号能量最大的参加混音的发送终端的方位信息。

当混音系统中的终端类型包括单声道终端和多声道终端时，本发明实施例提供一种音频信号的混音处理方法，该方法包括如下操作：

判断接收终端的声道类型；

其中，将参加混音的多声道发送终端下混为单声道音频信号的实现方式在上述本发明实施例中有描述，这里不再赘述。

将单声道发送终端的音频信号和/或多声道发送终端经过处理之后的单声道音频信号进行混音后编码发送给所述单声道接收终端，并将混音信号中各个子带上音频信号能量最大的参加混音的发送终端的方位信息发送给所述单声道接收终端之前，还包括：在预先为参加混音信号进行频带划分得到的各个子带上，对参加混音的单声道发送终端的音频信号能量和/或参加混音的多声道发送终端经过处理后的单声道音频信号能量分别进行比较；确定各个子带上音频信号能量最大的参加混音的发送终端；获得各个子带上音频信号能量最大的参加混音的发送终端的方位信息。

当混音系统中的终端类型包括双声道终端和多声道终端时，本发明实施例提供一种音频信号的混音处理方法，该方法包括如下操作：

判断接收终端的声道类型；

其中，将双声道音频信号上混得到多声道音频信号，以及将多声道音频信号下混得到双声道音频信号的实现方式在上述本发明实施例中有描述，这里不再赘述。

下面将对本发明实施例在实际应用过程中的具体实现方式进行详细的说明。

以视频通信系统为例，MCU在接收到视频会议中各会场的语音码流后，对各会场的语音码流进行解码，并计算解码后每个会场的语音包络，通过对各个会场的语音包络进行比较得到最大N方会场。对最大N方会场的音频信号进行混音处理后发送。其中，在进行混音处理过程中，MCU会对参加混音的最大N方会场的声道类型以及接收端会场的声道类型进行判断，根据参加混音的最大N方会场的声道类型，分别进行相应的处理，进而进行相应的混音处理后，发送给不同声道类型的接收端会场。

参加会议的会场可能是单声道会场、双声道会场和/或多声道会场，在以下的应用实施例中，将分别就不同的混音模式输出的混音信号发送给不同声道模式的会场的场景中，应用本发明实施例提供的混音处理方法进行详细介绍。

实施例一

实施例一为图4所示的针对单声道接收端的最大4方会场的混音场景，其中，最大4方会场中的会场1、2、4为双声道(或多声道)会场，会场3为单声道会场，则混音处理过程如图5所示，具体实现方式包括如下操作：

S501、MCU检测会场1、2、4的方位；

S502、MCU分别对双声道(或多声道)会场1、2、4的各个声道进行检测，针对每个会场，在该会场各个声道中选择音频信号能量满足预定条件的声道，如果只有一个声道的音频信号能量满足预定条件，则将该声道的音频信号作为该会场的单声道音频信号参加混音处理，如果该会场的两个(或多个)声道的音频信号能量满足预定条件，则将该两个(或多个)声道音频信号进行叠加后得到单声道音频信号参加混音处理，作为举例而非限定，其中的满足预定条件可以是大于设定的阈值(N)，则表示该声道内的音频信号为有效的语音信号而非背景噪音；满足预定条件还可以是针对有效的语音信号生成的判别式；

S503、MCU将经过S502处理后得到的单声道音频信号以及单声道会场3的音频信号进行叠加，生成混音信号，并将该混音信号编码后发送给最大4方会场以外的单声道会场；将经过S502处理后得到的单声道音频信号进行叠加，生成混音信号，并将该混音信号编码后发送给单声道会场3；

S504、MCU确定参加混音的单声道会场3的方位信息，其中，单声道会场3的方位可以预先由MCU指定，也可以是单声道会场3在视频画面中的方位，还可以是参加会议的会场指定的方位；

S505、MCU对会场1～4的在混音信号的各个子带上的音频信号能量进行比较，得到各个子带上音频信号能量最大的会场，并将各个子带上音频信号能量最大的会场的方位作为辅助信息发送给最大4方以外的单声道会场，其中的音频信号是指单声道会场3的音频信号，双声道(或多声道)会场1、2、4经过处理后的单声道音频信号。

接收端的单声道会场根据收到的混音信号以及辅助信息获得参加混音的会场携带方位信息的音频信号。其中，接收端的单声道会场对混音信号及方位信息的处理可通过已有的技术手段实现，并非本发明实施例讨论的重点，在此不再赘述。

上述处理过程中，S502～S503的操作可以在MCU完成对会场1、2、4的方位检测后的任意时间完成，而不仅限于上述实施例一中描述的时序。

通过上述混音处理过程，使得任意声道类型混音模式下输出混音信号给单声道会场时，接收端的单声道会场收听到的声音有方位感，提高了听众的临场体验感觉。

实施例二

实施例二为图6所示的针对双声道接收端的最大4方会场的混音场景，其中，最大4方会场中的会场2、4为双声道会场，会场3为单声道会场，会场1为多声道会场，则混音处理过程如图7所示，具体实现方式包括如下操作：

S701、MCU确定参加混音的单声道会场3的方位信息，其中，单声道会场3的方位可以由MCU指定，也可以是单声道会场3在视频画面中的方位，还可以是参加会议的会场指定的方位；

S702、MCU根据单声道会场3的方位，通过对单声道会场3的单声道音频信号进行能量分配，将单声道会场3的单声道音频信号上混为设定方位的双声道音频信号；MCU根据多声道会场1的方位，对该多声道会场1的音频信号重新进行能量分配得到双声道音频信号；

S703、MCU将4个会场的双声道音频信号中的各声道音频信号分别进行叠加，生成双声道的混音信号，并将该混音信号编码后发送给最大4方会场之外的双声道会场；MCU将会场1、3、4的双声道音频信号中的各声道音频信号分别进行叠加，生成双声道的混音信号，并将该混音信号编码后发送给双声道会场2；MCU将会场1、2、3的双声道音频信号中的各声道音频信号分别进行叠加，生成双声道的混音信号，并将该混音信号编码后发送给双声道会场4。

接收端的双声道会场根据收到的具有空间方位信息的混音信号播放参加混音的会场的语音。其中，接收端的双声道会场对混音信号的处理可通过已有的技术手段实现，并非本发明实施例讨论的重点，在此不再赘述。

通过上述混音处理过程，使得任意声道类型混音模式下输出混音信号给双声道会场时，接收端的双声道会场收听到的声音有方位感，提高了听众的临场体验感觉。

实施例三

实施例三为图8所示的针对多声道接收端的最大4方会场的混音场景，其中，最大4方会场中的会场2、4为双声道会场，会场3为单声道会场，会场1为多声道会场，则混音处理过程如图9所示，具体实现方式包括如下操作：

S901、MCU确定参加混音的单声道会场3的方位信息，其中，单声道会场3的方位可以由MCU指定，也可以是单声道会场3在视频画面中的方位，还可以是参加会议的会场指定的方位；

S902、MCU根据单声道会场3的方位，通过对单声道会场3的单声道音频信号进行能量分配，将单声道会场3的单声道音频信号上混为设定方位的多声道音频信号；MCU根据双声道会场2的方位，对该双声道会场2的音频信号重新进行能量分配得到多声道音频信号；MCU根据双声道会场4的方位，对该双声道会场4的音频信号重新进行能量分配得到多声道音频信号；

S903、MCU将4个会场的多声道音频信号中的各声道音频信号分别进行叠加，生成多声道的混音信号，并将该混音信号编码后发送给最大4方会场之外的多声道会场；MCU将会场2、3、4的多声道音频信号中的各声道音频信号分别进行叠加，生成多声道的混音信号，并将该混音信号编码后发送给多声道会场1。

接收端的多声道会场根据收到的具有空间方位信息的混音信号播放参加混音会场的语音。其中，接收端的多声道会场对混音信号的处理可通过已有的技术手段实现，并非本发明实施例讨论的重点，在此不再赘述。

通过上述混音处理过程，使得任意声道类型混音模式下输出混音信号给多声道会场时，接收端的多声道会场收听到的会场的声音有方位感，提高了听众的临场体验感觉。

本发明实施例还提供了一种音频信号的混音处理装置，其结构如图10所示，具体实现结构包括：

声道类型判断模块1001，用于判断接收终端的声道类型，如果是单声道接收终端，则通知第一混音处理模块1002工作，如果是双声道接收终端，则通知第二混音处理模块1003工作，如果是多声道接收终端，则通知第三混音处理模块1004工作；第一混音处理模块1002，用于将双声道发送终端或多声道发送终端的音频信号下混为单声道音频信号，将单声道发送终端的音频信号、双声道发送终端和/或多声道发送终端经过处理后的单声道音频信号进行混音后编码发送给所述单声道接收终端，并将混音信号中各个子带(在音频处理技术中，通常按照频域划分若干子带，以便对音频信号分子带进行处理)上音频信号能量最大的参加混音的发送终端的方位信息发送给单声道接收终端，其中，将单声道发送终端的音频信号、双声道发送终端和/或多声道发送终端经过处理之后的单声道音频信号进行混音的具体实现方式可以但不仅限于：将单声道发送终端的音频信号、双声道发送终端和/或多声道发送终端经过处理之后的单声道音频信号进行叠加，获得混音信号；第二混音处理模块1003，用于如果参加混音的发送终端中有单声道发送终端，根据预先为所述单声道发送终端指定的方位信息，上混得到所述单声道发送终端的具备设定方位的双声道音频信号；如果参加混音的发送终端中有多声道发送终端，下混得到所述多声道发送终端的双声道音频信号；将参加混音的单声道发送终端的经过处理之后的双声道音频信号、双声道发送终端的音频信号和/或多声道发送终端经过处理后的双声道音频信号进行混音处理后编码发送给双声道接收终端；第三混音处理模块1004，用于如果参加混音的发送终端中有单声道发送终端，根据预先为所述单声道发送终端指定的方位信息，上混得到所述单声道发送终端的具备设定方位的多声道音频信号；如果参加混音的发送终端中有双声道发送终端，上混得到所述双声道发送终端的多声道音频信号；将参加混音的单声道发送终端的经过处理之后的多声道音频信号、双声道发送终端经过处理后的多声道音频信号和/或多声道发送终端的音频信号进行混音处理后编码发送给所述多声道接收终端。

其中，如果参加混音的发送终端中有单声道发送终端参加混音时，第二混音处理模块1003根据预先为所述单声道发送终端指定的方位信息，上混得到所述单声道发送终端的具备设定方位的双声道音频信号的具体实现方式具体可以但不仅限于是：根据单声道发送终端的方位信息，对该单声道发送终端的单声道音频信号进行能量分配，获得具备空间方位信息的双声道音频信号。例如：为单声道发送终端指定的方位为“右”，则可为生成的右声道音频信号分配的能量大于为生成的左声道音频信号分配的能量。如果参加混音的发送终端中有多声道发送终端，第二混音处理模块1003下混得到所述多声道发送终端的双声道音频信号的具体实现方式可以但不仅限于是：根据多声道发送终端的方位信息，重新对多声道发送终端的多声道音频信号进行能量分配，获得具备该多声道发送终端的方位信息的双声道音频信号。如果参加混音的发送终端中有单声道发送终端参加混音时，第三混音处理模块1004根据预先为所述单声道发送终端指定的方位信息，上混得到所述单声道发送终端的具备设定方位的多声道音频信号的具体实现方式可参照上述生成双声道音频信号的实现方式，这里不再赘述。如果参加混音的发送终端中有双声道发送终端，第三混音处理模块1004上混得到所述双声道发送终端的多声道音频信号的具体实现方式可以但不仅限于是：根据双声道发送终端的方位信息，重新对双声道发送终端的双声道音频信号进行能量分配，获得具备该双声道发送终端的方位信息的多声道音频信号。

上述本发明实施例提供的装置可以设置在视频通信系统中，也可以设置在电话会议等其他需要混音处理的音频系统中，其具体可以是MCU。

本发明实施例提供的装置，使得在多个声道类型的发送终端和多个声道类型的接收终端的混音系统中，参加混音的各个发送终端均具备方位感，提高了听众的会议临场感觉。

针对单声道接收终端，需要将参加混音的双声道发送终端或多声道发送终端的音频信号合并为单声道音频信号以便参加混音，相应的，第一混音处理模块1002还包括双/多声道处理子模块10021，用于对参加混音的双声道发送终端或多声道发送终端的各个声道进行检测；选择音频信号能量满足预定条件的声道，并将所述音频信号能量满足预定条件的声道的音频信号合并为单声道音频信号。作为举例而非限定，其中的满足预定条件可以是大于设定的阈值(N)，则表示该声道内的音频信号为有效的语音信号而非背景噪音；满足预定条件还可以是针对有效的语音信号生成的判别式。

针对单声道接收终端，为了获得混音信号中各个子带上音频信号能量最大的参加混音的发送终端的方位信息，第一混音处理模块1002还包括方位信息获取子模块10022，用于在参加混音的音频信号中各个子带上，对参加混音的单声道发送终端的音频信号能量、参加混音的双声道发送终端经过处理后的单声道音频信号能量、和/或参加混音的多声道发送终端经过处理后的单声道音频信号能量分别进行比较；确定各个子带上音频信号能量最大的参加混音的发送终端；获得各个子带上音频信号能量最大的参加混音的发送终端的方位信息。如果某个子带上音频信号能量最大的参加混音的发送终端为发送双声道发送终端或多声道发送终端的方位信息，则所述方位信息获取子模块获得所述某个子带上音频信号能量最大的双声道发送终端或多声道发送终端的方位信息的具体实现方式包括：对所述双声道发送终端或多声道发送终端的方位进行检测，获得所述双声道发送终端或多声道发送终端的方位信息，所述方位信息为所述双声道发送终端或多声道发送终端的实际方位，或者所述方位信息为预先为所述双声道发送终端或多声道发送终端指定的方位。

上述本发明实施例中，第二混音处理模块1003包括第二混音子模块10031，用于将参加混音的单声道发送终端的经过处理之后的左声道音频信号、双声道发送终端的左声道音频信号和/或多声道发送终端经过处理后的左声道音频信号进行叠加；将参加混音的单声道发送终端的经过处理之后的右声道音频信号、双声道发送终端的右声道音频信号和/或多声道发送终端经过处理后的右声道音频信号进行叠加；获取混音后的双声道音频信号。

上述本发明实施例中，第三混音处理模块1004包括第三混音子模块10041，用于将参加混音的单声道发送终端的经过处理之后的多声道音频信号、双声道发送终端经过处理后的双声道音频信号和/或多声道发送终端的音频信号中相同声道的音频信号分别进行叠加，获取混音后的多声道音频信号。

上述本发明实施例中，参加混音的单声道发送终端的方位信息是预先为其指定的，参加混音的双声道发送终端的方位信息可以通过检测得到，具体检测方式为现有技术，在此不再赘述，或者，双声道发送终端或多声道发送终端的方位信息还可以为预先为其分配的方位信息。相应的，如果本发明实施例提供的装置在视频通信系统中，该装置还包括第一方位指定模块1005，用于根据所述单声道发送终端、双声道发送终端或多声道发送终端在所述视频通信系统的视频画面中的位置，为所述单声道发送终端、双声道发送终端或多声道发送终端指定方位信息，其中视频画面中的位置可以是指在多画面，即一个显示屏中多格画面中显示的位置，也可以是指在网真画面，即多个显示屏组成的视频画面中显示的位置。如果本发明实施例提供的装置在通信系统中，该装置还包括第二方位指定模块1006，用于根据通信系统中的接收终端发送的方位指定信息，为所述单声道发送终端、双声道发送终端或多声道发送终端设置方位信息，所述方位指定信息为所述接收终端为所述单声道发送终端、双声道发送终端或多声道发送终端指定的方位。其中，方位指定信息中还可以携带指定生效信息，该指定生效信息用来指示仅在发送给该接收终端的混音处理时，为该单声道发送终端、双声道发送终端或多声道发送终端指定方位信息；或者在发送给若干或全部接收终端的混音处理时，为单声道发送终端、双声道发送终端或多声道发送终端指定方位信息。如果有多个接收终端为同一单声道发送终端、双声道发送终端或多声道发送终端指定方位，则控制端可根据接收到不同方位指定信息的先后顺序轮流实现对该单声道发送终端、双声道发送终端或多声道发送终端的方位设置，或者按照申请令牌方式对该发送终端的方位进行设置，也可以按照其他设定的规则控制终端设置该发送终端方位的权限。上述本发明实施例中，还包括预先为双声道发送终端或多声道发送终端指定方位的情况，为双声道发送终端或多声道发送终端指定方位的实现方式参考上述为单声道发送终端指定方位的实现方式。

本发明实施例还提供一种音频信号的混音处理系统，其结构如图11所示，具体实现结构包括上述所述的音频信号的混音处理装置1101、和至少一个通过所述音频信号的混音处理装置发送或接收音频信号的终端1102～110n，所述终端的类型为单声道终端、双声道终端或多声道终端，当终端参加混音时，称所述终端为发送终端，当终端接收混音信号时，称所述终端为接收终端。该系统可以是视频通信系统，也可以是音频通信系统，还可以是其他需要进行混音处理的混音处理系统。该混音系统的具体混音处理过程可参照上述本发明实施例的描述，这里不再赘述。

实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种音频信号的混音处理方法，其特征在于，包括：

判断接收终端的声道类型；

2.根据权利要求1所述的方法，其特征在于，针对单声道接收终端，将双声道发送终端或多声道发送终端的音频信号合并为单声道音频信号包括：

对所述双声道发送终端或多声道发送终端的各个声道进行检测；

选择音频信号能量满足预定条件的声道，并将所述音频信号能量满足预定条件的声道的音频信号合并为单声道音频信号。

3.根据权利要求1所述的方法，其特征在于，针对单声道接收终端，将单声道发送终端的音频信号、双声道发送终端和/或多声道发送终端经过处理之后的单声道音频信号进行混音后编码发送给所述单声道接收终端，并将混音信号中各个子带上音频信号能量最大的参加混音的发送终端的方位信息发送给所述单声道接收终端之前包括：

在预先为参加混音信号进行频带划分得到的各个子带上，对参加混音的单声道发送终端的音频信号能量、参加混音的双声道发送终端经过处理后的单声道音频信号能量和/或参加混音的多声道发送终端经过处理后的单声道音频信号能量分别进行比较；

确定各个子带上音频信号能量最大的参加混音的发送终端；

获得各个子带上音频信号能量最大的参加混音的发送终端的方位信息。

4.根据权利要求3所述的方法，其特征在于，如果某个子带上音频信号能量最大的参加混音的发送终端为双声道发送终端或多声道发送终端的方位信息，则获得所述某个子带上音频信号能量最大的双声道发送终端或多声道发送终端的方位信息包括：

对所述双声道发送终端或多声道发送终端的方位进行检测，获得所述双声道发送终端或多声道发送终端的方位信息，所述方位信息为所述双声道发送终端或多声道发送终端的实际方位，或者所述方位信息为预先为所述双声道发送终端或多声道发送终端指定的方位。

5.根据权利要求1所述的方法，其特征在于，针对双声道接收终端，将参加混音的单声道发送终端的经过处理之后的双声道音频信号、双声道发送终端的音频信号和/或多声道发送终端经过处理后的双声道音频信号进行混音处理具体包括：

将参加混音的单声道发送终端的经过处理之后的左声道音频信号、双声道发送终端的左声道音频信号和/或多声道发送终端经过处理后的左声道音频信号进行叠加得到混音后的左声道音频信号；

将参加混音的单声道发送终端的经过处理之后的右声道音频信号、双声道发送终端的右声道音频信号和/或多声道发送终端经过处理后的右声道音频信号进行叠加得到混音后的右声道音频信号；

根据所述混音后的左、右声道音频信号，获取混音后的双声道音频信号。

6.根据权利要求1所述的方法，其特征在于，针对多声道接收终端，将参加混音的单声道发送终端的经过处理之后的多声道音频信号、双声道发送终端经过处理后的多声道音频信号和/或多声道发送终端的音频信号进行混音处理具体包括：

将参加混音的单声道发送终端的经过处理之后的多声道音频信号、双声道发送终端经过处理后的多声道音频信号和/或多声道发送终端的音频信号中相同声道的音频信号分别进行叠加，获取混音后的多声道音频信号。

7.根据权利要求1～6任意一项所述的方法，其特征在于，在视频通信系统中，该方法还包括预先为参加混音的单声道发送终端、双声道发送终端或多声道发送终端指定方位信息：

根据所述单声道发送终端、双声道发送终端或多声道发送终端在所述视频通信系统的视频画面中的位置，为所述单声道发送终端、双声道发送终端或多声道发送终端指定方位信息。

8.根据权利要求1～6任意一项所述的方法，其特征在于，在通信系统中，该方法还包括预先为参加混音的单声道发送终端、双声道发送终端或多声道发送终端指定方位信息：

根据接收到的通信系统中的接收终端的方位指定信息，为所述单声道发送终端、双声道发送终端或多声道发送终端设置方位信息，所述方位指定信息为所述接收终端为所述单声道发送终端、双声道发送终端或多声道发送终端指定的方位。

9.一种音频信号的混音处理装置，其特征在于，包括：

声道类型判断模块，用于判断接收终端的声道类型；

10.根据权利要求9所述的装置，其特征在于，所述第一混音处理模块还包括双/多声道处理子模块，用于对参加混音的双声道发送终端或多声道发送终端的各个声道进行检测；选择音频信号能量满足预定条件的声道，并将所述音频信号能量满足预定条件的声道的音频信号合并为单声道音频信号。

11.根据权利要求10所述的装置，其特征在于，所述第一混音处理模块还包括方位信息获取子模块，用于在预先为混音信号进行频带划分得到的各个子带上，对参加混音的单声道发送终端的音频信号能量、参加混音的双声道发送终端经过处理后的单声道音频信号能量和/或参加混音的多声道发送终端经过处理后的单声道音频信号能量分别进行比较；确定各个子带上音频信号能量最大的参加混音的发送终端；获得各个子带上音频信号能量最大的参加混音的发送终端的方位信息，并将所述各个子带上音频信号能量最大的参加混音的发送终端的方位信息发送给所述第一混音处理模块。

12.根据权利要求11所述的装置，其特征在于，如果某个子带上音频信号能量最大的参加混音的发送终端为双声道发送终端或多声道发送终端的方位信息，则所述方位信息获取子模块获得所述某个子带上音频信号能量最大的双声道发送终端或多声道发送终端的方位信息的具体实现方式包括：对所述双声道发送终端或多声道发送终端的方位进行检测，获得所述双声道发送终端或多声道发送终端的方位信息，所述方位信息为所述双声道发送终端或多声道发送终端的实际方位，或者所述方位信息为预先为所述双声道发送终端或多声道发送终端指定的方位。

13.根据权利要求9所述的装置，其特征在于，所述第二混音处理模块包括第二混音子模块，用于将参加混音的单声道发送终端的经过处理之后的左声道音频信号、双声道发送终端的左声道音频信号和/或多声道发送终端经过处理后的左声道音频信号进行叠加得到混音后的左声道音频信号；将参加混音的单声道发送终端的经过处理之后的右声道音频信号、双声道发送终端的右声道音频信号和/或多声道发送终端经过处理后的右声道音频信号进行叠加得到混音后的右声道音频信号；根据所述混音后的左、右声道音频信号，获取混音后的双声道音频信号。

14.根据权利要求9所述的装置，其特征在于，所述第三混音处理模块包括第三混音子模块，用于将参加混音的单声道发送终端的经过处理之后的多声道音频信号、双声道发送终端经过处理后的双声道音频信号和/或多声道发送终端的音频信号中相同声道的音频信号分别进行叠加，获取混音后的多声道音频信号。

15.根据权利要求9～14任意一项所述的装置，其特征在于，如果所述装置在视频通信系统中，该装置还包括第一方位指定模块，用于根据所述单声道发送终端、双声道发送终端或多声道发送终端在所述视频通信系统的视频画面中的位置，为所述单声道发送终端、双声道发送终端或多声道发送终端指定方位信息。

16.根据权利要求9～14任意一项所述的装置，其特征在于，如果所述装置在通信系统中，该装置还包括第二方位指定模块，用于根据接收到的通信系统中的接收终端的方位指定信息，为所述单声道发送终端、双声道发送终端或多声道发送终端设置方位信息，所述方位指定信息为所述接收终端为所述单声道发送终端、双声道发送终端或多声道发送终端指定的方位。

17.根据权利要求9～14任意一项所述的装置，其特征在于，所述装置为多点控制单元MCU。

18.一种音频信号的混音处理方法，其特征在于，包括：

判断接收终端的声道类型；

19.根据权利要求18所述的方法，其特征在于，针对单声道接收终端，将单声道发送终端的音频信号和/或双声道发送终端经过处理之后的单声道音频信号进行混音后编码发送给所述单声道接收终端，并将混音信号中各个子带上音频信号能量最大的参加混音的发送终端的方位信息发送给所述单声道接收终端之前包括：

在预先为参加混音信号进行频带划分得到的各个子带上，对参加混音的单声道发送终端的音频信号能量和/或参加混音的双声道发送终端经过处理后的单声道音频信号能量分别进行比较；

确定各个子带上音频信号能量最大的参加混音的发送终端；

20.一种音频信号的混音处理方法，其特征在于，包括：

判断接收终端的声道类型；

21.根据权利要求20所述的方法，其特征在于，针对单声道接收终端，将单声道发送终端的音频信号和/或多声道发送终端经过处理之后的单声道音频信号进行混音后编码发送给所述单声道接收终端，并将混音信号中各个子带上音频信号能量最大的参加混音的发送终端的方位信息发送给所述单声道接收终端之前包括：

在预先为参加混音信号进行频带划分得到的各个子带上，对参加混音的单声道发送终端的音频信号能量和/或参加混音的多声道发送终端经过处理后的单声道音频信号能量分别进行比较；

确定各个子带上音频信号能量最大的参加混音的发送终端；

22.一种音频信号的混音处理方法，其特征在于，包括：

判断接收终端的声道类型；

23.一种音频信号的混音处理系统，其特征在于，该系统包括上述权利要求9～17任意一项所述的音频信号的混音处理装置、和至少一个通过所述音频信号的混音处理装置发送或接收音频信号的终端，所述终端的类型为单声道终端、双声道终端或多声道终端，当终端参加混音时，所述终端为发送终端，当终端接收混音信号时，所述终端为接收终端。