CN102056053A

CN102056053A - 一种多话筒混音方法及装置

Info

Publication number: CN102056053A
Application number: CN2010105945220A
Authority: CN
Inventors: 彭远疆
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2010-12-17
Filing date: 2010-12-17
Publication date: 2011-05-11
Anticipated expiration: 2030-12-17
Also published as: CN102056053B; WO2012079459A1

Abstract

本发明涉及音频信息处理领域，公开了一种多话筒混音方法及装置，能够降低输入通道选通的误判率，提高混音后的音频质量。本发明的方法包括：统计当前时段的各输入通道的信号强度，并选出信号强度最大的至少两个输入通道进行语音检测；将检测出的有语音的输入通道确定为语音输入通道，当语音输入通道为至少两个时，确定各语音输入通道的信号之间的信号相似度；根据各个信号相似度控制语音输入通道的选通；将选通的语音输入通道的信号进行加权混音输出。

Description

一种多话筒混音方法及装置

技术领域

本发明涉及音频信息处理领域，尤其涉及一种多话筒混音方法及装置。

背景技术

在视频会议系统中，需要使用话筒来采集本地发言人的声音，该声音经过音频编码后传输到远端，在远端系统中解码后经过功率放大器输出到音箱中回放出来。为了减小房间混响和背景噪音的影响，在视频会议系统中一般采用定向话筒来采集声音(即拾音)。由于定向话筒在正对着话筒的方向上拾音效果最好，为了保证不同方位发言人讲话时都有良好的拾音效果，一般需要多只定向话筒来采集不同方位发言人的语音，这种拾音方式称为分布式拾音。如图1所示为分布式拾音方式示意图，图1描述了视频会议系统中一个典型的会议室布局，每个与会者使用一个单独的话筒作为拾音设备。分布式拾音为了防止相邻话筒采集到的语音信号出现串扰，要求每个话筒都靠近一个或几个讲话人，且话筒之间的间距一般比话筒到对应讲话人间的距离要大。有时为了降低话筒总数量，视频会议系统中也会使用阵列麦克风来进行集中式拾音。如图2所示，为集中式拾音方式示意图，图2描述了视频会议系统中使用了阵列麦克风的集中式拾音方案，图中所有与会者共同使用一个阵列麦克风作为拾音设备。阵列麦克风把多个拾音单元按一定的布局装配于一个整体设备之中，阵列麦克风外形多为圆盘或多边形形状，每个拾音单元一般布处于设备外边沿且指向外方向。阵列麦克风中相邻拾音单元之间的间距一般远小于阵列麦克风设备到讲话人的距离。当单个阵列麦克风无法有效覆盖整个房间时，可以使用多个阵列麦克风来分区域拾音。如图3所示为使用多个阵列麦克风的集中式拾音方式示意图。图3描述了在一个较大的房间中，使用了多个阵列麦克风拾音，每个阵列麦克风负责一片区域的拾音。

考虑到编解码复杂度、传输带宽、系统兼容性等因素，需要把多个话筒(拾音单元)采集到的多通道信号混合成单通道或者双通道立体声信号，然后再做单通道/立体声编码和传输。评价多话筒混音技术指标主要是混音后输出语音的信噪比、音质以及语音的平稳性，对于立体声系统，声像方位(相位)信息的保真度也是一个重要的衡量指标。

传统的视频会议系统多使用简单的基于信号强度(短时能量或者信号幅度)的混音方法，把多个话筒采集到的语音信号混合后输出，典型的混音方法有：

1、直接混音法：即简单地把各个通道输入信号相加混音后输出到单通道，确定是混音后背景噪声变大，信噪比(SNR)明显降低，而且混响严重导致语音含糊、音质差。

2、第一话筒优先混音法：统计各输入通道的信号强度，找出信号强度最大的有声通道直接作为输出通道。这种方法不会降低信噪比，但其缺点是当有两个或两个以上不同位置的人同时说话时会有明显的通道切换感，语音和背景噪声的音量大小会有明显变化。

3、动态加权混音法：统计各有声通道的信号强度并按照大小排序，只将信号强度最大的几个通道进行加权混音，其它通道不参与混音。这种方法可以减轻不同位置讲话人同时讲话时的通道切换，但其缺点是由于只利用了信号的强度信息，单个人讲话时也会打开物理上相邻的两个或多个通道，导致信噪比降低，混响加重且语音含糊。

上述混音方法，完全基于信号强度来判断通道选通，在很多应用场景中性能较低，容易出现误判：

1)在典型的阵列麦克风的应用中，如图2，当距离阵列话筒较远位置的某一发言人讲话时，阵列话筒设备中的每个话筒采集到的信号强度差异很小，导致混音时容易出现误判。

2)即使在分散放置话筒的应用中，由于桌面、白板、墙面等的反射作用，如图4所示，为含有反射物的分布式拾音方式示意图，基于信号强度的判别方法也容易出现误判，导致反射声/混响声较大的通道被错误选通，严重影响了混音后的语音音质。

在立体声/多通道系统中，混音时除了考虑不同通道的能量混合，还要求混音后信号仍能保持原始声源的方位(位置)信息，不同位置的话筒往往对应着音源的不同位置，错误的选通会导致声像位置的突变，从而对远端听者造成更大的干扰。

发明内容

本发明提供一种多话筒混音方法及装置，能够降低输入通道选通的误判率，提高混音后的音频质量。

一种多话筒混音方法，包括：

统计当前时段各输入通道的信号强度，并选出信号强度最大的至少两个输入通道进行语音检测；

将检测出的有语音的输入通道确定为语音输入通道，当语音输入通道为至少两个时，确定各语音输入通道的信号之间的信号相似度；

根据各个信号相似度控制语音输入通道的选通；

将选通的语音输入通道的信号进行加权混音输出。

一种多话筒混音装置，包括：

统计模块，用于统计当前时段各输入通道的信号强度，并选出信号强度最大的至少两个输入通道进行语音检测；

相似度确定模块，用于将检测出的有语音的输入通道确定为语音输入通道，当语音输入通道为至少两个时，确定各语音输入通道的信号之间的信号相似度；

选通模块，用于根据各个信号相似度控制语音输入通道的选通；

混音模块，用于将选通的语音输入通道的信号进行加权混音输出。

本发明实施例提供的多话筒混音方法，在对输入通道进行选通判别时，同时考虑了各输入通道的信号强度大小和通道间的信号相似度，使得出现通道误选通的几率大大减小，从而大幅度提高了混音后的语音质量。

附图说明

图1为分布式拾音方式示意图；

图2为集中式拾音方式示意图；

图3为使用多个阵列麦克风的集中式拾音方式示意图；

图4为含有反射物的分布式拾音方式示意图；

图5为本发明实施例提供的多话筒混音方法流程图；

图6为本发明实施例一提供的多话筒混音方法流程图；

图7为本发明实施例二提供的多话筒混音方法流程图；

图8为本发明实施例提供的多话筒混音装置的结构图。

具体实施方式

本发明实施例提供一种多话筒混音方法，如图5所示，包括：

S501、统计当前时段的各输入通道的信号强度，并选出信号强度最大的至少两个输入通道进行语音检测；

在该步骤中，选出信号强度最大的输入通道进行语音检测，最少为2个，当选取的输入通道过多时，在后续的混音计算过程中，会比较复杂，因此，一般选取2～4个。

S502、将检测出的有语音的输入通道确定为语音输入通道，并检测语音输入通道的个数，若语音输入通道的个数为至少两个时，执行步骤S503，若语音输入通道的个数为一个时，执行步骤S505，若语音输入通道的个数为0个时，执行步骤S506；

S503、当语音输入通道的个数为至少两个，确定各语音输入通道的信号之间的信号相似度；

当语音输入通道只有两个时，信号相似度只有一个，当语音输入通道多于两个时，每两个语音输入通道之间具有信号相似度。

S504、根据各个信号相似度控制语音输入通道的选通，并将选通的语音输入通道的信号进行加权混音输出。

具体为：

1)若两个语音输入通道的信号相似度小于等于第一阈值时，控制该两个输入通道都预选通；

其中，当两个语音输入通道的信号相似度等于第一阈值时，也可以执行步骤2)。

若任意的两个语音输入通道的信号相似度都小于等于第一阈值时，则所有的通道都预选通，可直接将预选通的通道选通。

若存在两个语音输入通道的信号相似度大于第一阈值，则在1)的基础上，进一步执行步骤2)，可保证混音的精确性。当然，若任意两个信号的相似度都大于第一阈值，也可以不执行步骤1)，只执行步骤2)。

2)若两个语音输入通道的信号相似度大于等于第一阈值时，根据该两个语音输入通道的信号强度大小以及信号相似度对应的两信号的延时，控制该两个语音输入通道的选通；信号相似度即两信号的相似性函数的最值(归一化互相关函数值的最大值或者平均幅度差异函数的最小值)，信号相似度对应的两信号的时延即相似度函数的最值对应的两信号的延时。

其中：根据该两个语音输入通道的信号强度大小以及信号相似度对应的两信号的延时，控制该两个语音输入通道的选通，具体为：

当两个语音输入通道的信号强度差异值大于等于设定值时，控制该两个输入通道中的一个选通；“等于”时也可以执行下述步骤。

当两个语音输入通道的信号强度差异值小于等于设定值时，确定两个语音输入通道的信号相似度对应的两信号的延时，若两信号的延时大于设定时长，则控制两个语音输入通道中的一个选通，若两信号的延时小于设定时长，则控制两个语音输入通道都选通。

上述步骤中：例如A、B、C语音输入通道，当A与B相似度小于第一阈值，A、C相似度小于第一阈值，且B、C相似度大于第一阈值，则根据A、B相似度、A、C相似度，控制A、B、C均选通，再根据B、C相似度控制B、C中一个选通，因此，控制A、C或A、B选通。

其中，步骤S503中确定相似度的方法具体为：

将各语音输入通道的信号进行带通滤波预处理；

对预处理后的每两个信号利用归一化互相关函数确定其信号相似度。

当利用归一化函数确定信号相似度时，信号相似度即是归一化互相关函数值的最大值。

或者使用平均幅度差异函数来确定相似度，具体为：

将各语音输入通道的信号进行带通滤波预处理；

对预处理后的每两个信号利用平均幅度差异函数确定其信号相似度。

当采用平均幅度差异函数确定信号相似度时，信号相似度即是平均幅度差异函数的最小值，信号相似度大于一定的第一阈值，即平均幅度差异函数的最小值小于设定的第二阈值。

S505、当语音输入通道的个数只有一个时，直接控制该语音输入通道选通，并输出。

S506、当语音输入通道的个数为0时，利用上一次的选通进行输入通道的选通。

当语音输入通道的个数为0时，即本次不重新进行通道的选通判别，直接采用上一次的选通结果进行本次输入通道的选通，并输出。

采用本发明实施例的方法，在对输入通道进行选通判别时，同时考虑了各输入通道的信号强度大小和通道间的信号相似度，使得出现通道误选通的几率大大减小，从而大幅度提高了混音后的语音质量。

下面结合附图，详细说明本发明实施例的方法。

实施例一

如图6所示，为本发明实施例一提供的多话筒混音方法流程图，具体包括：

S601、统计当前时段的各输入通道的信号强度，并选出信号强度最大的两个输入通道A、B进行语音检测；

S602、当输入通道A、B没有语音时，直接采用上一次的判别结果；

S603、当输入通道A有语音时，B没有语音时，即A为语音输入通道，直接控制输入通道A选通；

S604、当输入通道A、B都有语音时，即A、B都为语音输入通道，将通道A和通道B的信号分别通过一个80Hz～800Hz的带通滤波预处理，并对预处理后的两个信号计算其归一化互相关函数(NCCF)，并确定归一化互相关函数(NCCF)值的最大值ρ(τ)，并确定此时(即归一化互相关函数值的最大值)对应的A、B间的信号时延τ；

NCCF的定义和计算方法是本领域公知的，在此不再赘述。

对每一个延时τ，确定NCCF值ρ(τ)，找出NCCF值的最大值并确定该最大值对应的时延；

S605、判断ρ(τ)最大值是否小于等于设定的门限值V1，如果是，执行步骤S608，如果否，执行步骤S606；

S606、当ρ(τ)最大值大于等于设定的门限值V1时，再确定A、B两个通道的信号强度的差异，判断A、B通道的信号强度差异值是否小于等于设定值时，如果是，执行步骤S607，如果否，执行步骤S609；

当A、B通道的信号归一化互相关函数最大值大于等于设定的门限值时，可以认为本地只有一个发言人在讲话，再继续根据A、B两个通道的信号强度差异值以及时延控制A、B通道的选通。

当然，在此步中，当差异值等于设定值时，也可以执行步骤S609。

判断A、B通道信号强度差异值，可以直接采用A的信号强度-B的信号强度，或者采用两者的信号强度的比值(信号强度小/信号强度大)，或者采用两者的差值/两者中任意一个的信号强度值，当然，还可以采用各种方法确定A、B通道的信号强度差异值，差异值小于设定值，说明两者信号强度相差不大。

S607、确定最大值对应的时延τ是否小于等于设定时长，如果是，执行步骤S608，如果否，执行步骤S609；

当然，时延等于设定时长时，也可以执行步骤S609。

S608、控制通道A、B都选通；

当ρ(τ)最大值小于等于设定的门限值V1时，控制通道A、B都选通；当最大值小于等于设定的门限值V1时，认为通道A、B对应的话筒前有不同人在同时说话，所以通道A、B均应该打开，输出＝A*0.5+B*0.5；

当然，当最大值等于设定的门限值V1时，也可以执行步骤S606。

当ρ(τ)最大值大于等于设定的门限值V1时，说明A、B话筒前有一个讲话人在讲话，当A、B通道的信号强度差异值很小，并且NCCF值最大值对应的信号时延很小时，可以认为讲话人到两个通道对应的话筒距离都很接近，可以同时打开通道A、B，输出＝A*0.5+B*0.5；

S609、控制A、B通道中的一个选通；

控制A、B通道中的一个选通，较佳地，控制A、B通道中信号强度较大的通道选通。

其中，在步骤S606中，当ρ(τ)最大值大于等于设定的门限值V1时，可以直接执行步骤S609，控制A、B通道中的一个选通，也可以完成混音。当然步骤S606中信号强度差异值的判断以及S607中信号时延的判断，以及S608的执行，使得信号判断更为精准，进一步提高了多话筒混音的质量。

实施例二

如图7所示，为本发明实施例二提供的多话筒混音方法流程图。

S701、统计当前时段的各输入通道的信号强度，并选出信号强度最大的两个输入通道A、B进行语音检测；

S702、当输入通道A、B没有语音时，直接采用上一次的判别结果；

S703、当输入通道A有语音时，B没有语音时，直接控制输入通道A选通；

S704、当输入通道A、B都有语音时，将通道A和通道B的信号分别通过一个80Hz～800Hz的带通滤波预处理，并对预处理后的两个信号计算其平均幅度差异函数(AMDF)，并确定平均幅度差异函数(AMDF)值的最小值ψ(τ)，并确定此时(即平均幅度差异函数值的最小值)对应的A、B间的信号时延τ；

AMDF的定义和计算方法是本领域公知的，在此不再赘述。

对每一个延时τ，确定AMDF值ψ(τ)，找出AMDF值的最小值并确定该最小值对应的时延；

S705、判断ψ(τ)最小值是否大于等于设定的门限值V₁′，如果是，执行步骤S708，如果否，执行步骤S706；

S706、当ψ(τ)最大值小于等于设定的门限值V₁′时，再确定A、B两个通道的信号强度的差异，判断A、B通道的信号强度差异值是否小于等于设定值时，如果是，执行步骤S707，如果否，执行步骤S709；

当A、B通道的平均幅度差异函数最小值小于等于设定的门限值时，可以认为本地只有一个发言人在讲话，再继续根据A、B两个通道的信号强度差异值以及时延控制A、B通道的选通。

S707、确定最小值对应的时延τ是否小于设定时长，如果是，执行步骤S708，如果否，执行步骤S709；

S708、控制通道A、B都选通；

当ψ(τ)最小值大于等于设定的门限值V₁′时，控制通道A、B都选通；当最小值大于等于设定的门限值V₁′时，认为通道A、B对应的话筒前有不同人在同时说话，所以通道A、B均应该打开，输出＝A*0.5+B*0.5；

当ψ(τ)最小值小于等于设定的门限值V₁′时，认为A、B话筒前有一个讲话人在讲话，当A、B通道的信号强度差异值很小，并且AMDF值最小值对应的信号时延很小时，可以认为讲话人到两个通道对应的话筒距离都很接近，可以同时打开通道A、B，输出＝A*0.5+B*0.5；

S709、控制A、B通道中的一个选通；

其中，在步骤S706中，当ψ(τ)最小值小于等于设定的门限值V₁′时，可以直接执行步骤S709，控制A、B通道中的一个选通，也可以完成混音。当然步骤S706中信号强度差异值的判断以及S707中信号时延的判断，以及S708的执行，使得信号判断更为精准，进一步提高了多话筒混音的质量。

需要注意的是，本发明中并不限定评价不同通道间信号相似度的具体方法和允许同时打开的最大通道数，也没有限定评判不同通道间的混音权重。如在实施例一中，评判不同通道间信号相似度的具体方法是使用NCCF函数，允许同时打开最大通道数是2，通道间的混音权重在单声道系统中固定为(0.5，0.5)，而在立体声系统中，不同通道的混音权重和其对应话筒的空间位置有关，在此不再详细分析。

本发明实施例还提供一种多话筒混音装置，如图8所示，包括：

统计模块81，用于统计当前时段各输入通道的信号强度，并选出信号强度最大的至少两个输入通道进行语音检测；

相似度确定模块82，用于将检测出的有语音的输入通道确定为语音输入通道，当语音输入通道为至少两个时，确定各语音输入通道的信号之间的信号相似度；

选通模块83，用于根据各个信号相似度控制语音输入通道的选通；

混音模块84，用于将选通的语音输入通道的信号进行加权混音输出。

较佳地，选通模块83，还用于当语音输入通道只有一个时，直接控制该语音输入通道选通。

较佳地，选通模块83，具体用于对任意两个语音输入通道，若两个语音输入通道的信号相似度都小于等于第一阈值时，控制该两个输入通道都选通。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种多话筒混音方法，其特征在于，包括：

根据各个信号相似度控制语音输入通道的选通；

将选通的语音输入通道的信号进行加权混音输出。

2.如权利要求1所述的方法，其特征在于，还包括：当语音输入通道只有一个时，直接控制该语音输入通道选通。

3.如权利要求1所述的方法，其特征在于，根据各个信号相似度控制语音输入通道的选通，具体为：

对任意两个语音输入通道，若两个语音输入通道的信号相似度都小于等于第一阈值时，控制该两个输入通道都选通。

4.如权利要求1或3所述的方法，其特征在于，还包括：

若存在两个语音输入通道的信号相似度大于等于第一阈值时，根据该两个语音输入通道的信号强度大小以及信号相似度对应的两信号的延时，控制该两个语音输入通道的选通。

5.如权利要求4所述的方法，其特征在于，根据该两个语音输入通道的信号强度大小以及信号相似度对应的两信号的延时，控制该两个语音输入通道的选通，具体为：

当两个语音输入通道的信号强度差异值大于等于设定值时，控制该两个语音输入通道中的一个选通；

6.如权利要求5所述的方法，其特征在于，所述控制两个语音输入通道中的一个选通，具体为：

控制两个语音输入通道中信号强度较大的语音输入通道选通。

7.如权利要求1所述的方法，其特征在于，所述确定各语音输入通道的信号之间的信号相似度，具体为：

将各语音输入通道的信号进行带通滤波预处理；

对预处理后的每两个信号利用归一化互相关函数或者平均幅度差异函数确定其信号相似度。

8.一种多话筒混音装置，其特征在于，包括：

9.如权利要求8所述的装置，其特征在于，选通模块，还用于当语音输入通道只有一个时，直接控制该语音输入通道选通。

10.如权利要求8所述的装置，其特征在于，选通模块，具体用于对任意两个语音输入通道，若两个语音输入通道的信号相似度小于等于第一阈值时，控制该两个输入通道都选通。