CN104219013B

CN104219013B - 一种视频会议系统的多麦克风混音方法

Info

Publication number: CN104219013B
Application number: CN201410441776.7A
Authority: CN
Inventors: 毕永建
Original assignee: Xiamen Yealink Network Technology Co Ltd
Current assignee: Xiamen Yealink Network Technology Co Ltd
Priority date: 2014-09-01
Filing date: 2014-09-01
Publication date: 2017-05-24
Anticipated expiration: 2034-09-01
Also published as: CN104219013A

Abstract

本发明提供一种视频会议系统的多麦克风混音方法，通过各麦克风通道采集声音与扬声器播放声音之间的延时时间以及采集声音的能量大小来判定最大回声通道，以排除回声最大的通道，再由各可选通道采集帧能量值以及它们之间的相关性，选择最佳通道采集的声音作为混音源并确定所选通道的混音权值，最后根据所选通道及确定的混音权值进行混音输出。本发明选择最佳通道采集的声音作为最优混音源，且所有算法按照自适应设计，能动态调整最优混音源，保证了声音的采集范围和音质效果。

Description

一种视频会议系统的多麦克风混音方法

技术领域

本发明涉及一种混音处理方法，更具体地说，涉及一种用于视频会议的多麦克风混音处理方法。

背景技术

早期的视频会议系统一般都使用定向或者全向麦克风来进行声音采集，全向麦克风的声音采集范围大，但混响严重，音质不佳，定向麦克风音质好，但声音采集范围窄，为解决音质和声音采集范围的矛盾，目前视频会议系统已经开始采用多麦克风的方案，通过多个定向麦克风的组合，来保证声音的采集范围和音质。而如何组合多麦克风采集的数据，形成最佳的混音(多路语音数据混合形成一路输出语音)效果，成为多麦克风方案需要解决的核心问题。

自适应是指处理和分析过程中，根据处理数据的数据特征自动调整处理方法、处理顺序、处理参数、边界条件或约束条件，使其与所处理数据的统计分布特征、结构特征相适应，以取得最佳的处理效果。

发明内容

本发明要解决的技术问题，在于提供一种视频会议系统的多麦克风混音方法，先判定最大回声通道并将其排除，再选择出最佳通道采集的声音作为混音源，最后确定动态变化的混音权值输出混音。选择最佳通道采集的声音作为最优混音源，保证了声音的采集范围和音质效果。

本发明是这样实现的：一种视频会议系统的多麦克风混音方法，所述方法包括声音采集过程、延时估计过程、回声通道判定过程、混音源选择过程和混音输出过程：

所述声音采集过程是：扬声器播放声音，复数个麦克风通道采集声音；将所述扬声器播放的声音和各麦克风通道采集的声音按帧分块存储，得到扬声器的播放帧能量和各麦克风通道的采集帧能量，每帧长度为一固定值，每帧包含复数个点；

所述延时估计过程：得到各麦克风通道每次采集的声音与扬声器每次播放的声音之间的延时时间；

所述最大回声通道判定过程：根据得到的各麦克风通道的延时时间，将各麦克风通道采集的声音与扬声器播放的声音按帧一一对齐，再根据对齐后的麦克风通道的各子带能量与扬声器的各子带能量之比的均值判定最大回声通道，即该通道所含的回声成分最高，选择混音源时将最大回声通道排除，以保证消除会议系统的回声；

所述混音源选择过程：将所述最大回声通道排除后，选择其余麦克风通道中采集帧能量最大的两个麦克风通道所采集的声音作为混音源进行混音，计算所述两个混音源每帧的混音权值；

所述混音输出过程是：由所述两个混音源每帧的混音权值得到混音每帧各个点的输出值，最终再由各麦克风通道输出混音。

进一步的，所述延时时间的计算过程如下：

步骤21、把各麦克风通道的采集帧能量与对应扬声器的播放帧能量进行一一对比，得到各麦克风通道的延时时间，计算公式如下公式1所示：

公式(1)中，N表示声音最大延时对应的样点数，n为1到N的正整数，i表示声音每帧包含的点数，cap(i+n)表示麦克风通道的采集帧第i+n个点的值，play(i)表示扬声器的播放帧第i个点的值，cor(n)表示麦克风通道和扬声器播放通道的线性相关值；

步骤22、公式(1)中每一个n对应一个所述线性相关值，将最大的线性相关值对应的n换算成t，得到麦克风通道的延时时间，换算过程如下公式(2)所示：

t＝n/采样频率 (2)。

进一步的，所述子带能量是指声音每帧上的各个点经过FFT后对应得到的每个点的能量幅值，所述最大回声通道判定过程，具体如下公式(3)和公式(4)所示：

公式(3)和公式(4)中，i表示通道索引，j表示子带索引，M表示子带总数，P_cap(i,j)表示第i麦克风通道第j子带能量，P_play(j)为扬声器第j子带能量，η(i,j)表示第i麦克风通道第j子带能量的衰减比，η_mean(i)表示第i麦克风通道平均子带能量的衰减比；

将公式(3)得到的值代入公式(4)中能得到各麦克风通道对应的平均子带能量的衰减比，再对每个麦克风通道的平均子带能量的衰减比进行排序，其中最大平均子带能量的衰减比对应的麦克风通道就是最大回声通道。

进一步的，所述混音源包括，任意选择采集帧能量最大的两个麦克风通道中的一个麦克风通道采集的声音记为混音源mix0，则另一个麦克风通道采集的声音记为混音源mix1，所述两个混音源mix0和mix1每帧的混音权值计算过程，如公式(5)和公式(6)所示：

λ_mix0＝γ*λ_mix0+(1-γ)(P_cap(mix0)/(p_cap(mix0)+p_cap(mix1))) (5)

λ_mix1＝1-λ_mix0 (6)

所述公式(5)和公式(6)中，λ_mixo与λ_mix1分别表示混音源mix0和mix1每帧的混音权值，γ表示遗忘因子，为一固定常数，P_cap(mix0)表示混音源mix0每帧的能量值，P_cap(mix1)表示混音源mix1每帧的能量值；

将公式(5)得到的混音源mix0每帧的混音权值代入公式(6)能得到混音源mix1每帧的混音权值，两个混音源的混音权值都是每帧更新一次，其中混音源mix0的混音权值有初始值。

进一步的，所述混音输出的过程如公式(7)所示：

out[i]＝λ_mix0*cap_mixo[i]+λ_mix1*cap_mix1[i] (7)

所述公式(7)中，i表示混音源mix0和混音源mix1采集声音每帧所包含的点数，cap_mix0[i]表示混音源mix0的采集帧第i个点的值，cap_mix1[i]表示混音源mix1的采集帧第i个点的值，out[i]表示混音每帧第i个点的输出值；

将所述公式(5)和公式(6)得到的混音源mix0和mix1每帧的混音权值代入公式(7)，就得到混音每帧第i个点的输出值。

本发明具有如下优点：

1、通过各麦克风通道采集声音与扬声器播放声音之间的延时时间以及采集声音的能量大小，找出回声最大的通道，把该通道从混音源中排除，保证会议系统的回声消除效果；

2、根据各可选通道采集帧能量值以及它们之间的相关性，选出最佳通道所采集的声音作为混音源，保证了音质；

3、所有算法按照自适应设计，能动态调整最优混音源。

附图说明

下面参照附图结合实施例对本发明作进一步的说明。

图1为本发明方法执行流程图。

图2为本发明一实施例声音采集过程示意图。

具体实施方式

请参照图1，本发明一种视频会议系统的多麦克风混音方法，所述方法包括声音采集过程、延时估计过程、回声通道判定过程、混音源选择过程和混音输出过程：

所述声音采集过程是：扬声器播放声音，复数个麦克风通道采集声音；将所述扬声器播放的声音和各麦克风通道采集的声音按帧分块存储，得到扬声器的播放帧能量和各麦克风通道的采集帧能量，每帧长度为一固定值，每帧包含复数个点：以采样频率8K为例，若声音每帧长度为10毫米，则每帧包含80个点，若声音每帧长度为20毫米，则每帧包含160个点；

如图2所示，以一设有三个麦克风通道的麦克风为例，扬声器为电视，麦克风到电视的距离d为2-3米，其中一个麦克风通道正对电视，一般认为该麦克风通道所采集的声音中含有的回声是最大的，实际选择混音源时需要排除该麦克风通道；

所述延时估计过程：得到各麦克风通道每次采集的声音与扬声器每次播放的声音之间的延时时间，所述延时时间的计算过程如下：

步骤21、把各麦克风通道的采集帧能量与对应扬声器的播放帧能量进行一一对比，得到各麦克风通道的延时时间，计算公式如下公式(1)所示：

t＝n/采样频率 (2)。

所述回声通道判定过程：根据得到的各麦克风通道的延时时间，将各麦克风通道采集的声音与扬声器播放的声音按帧一一对齐，再根据对齐后的麦克风通道的各子带能量与扬声器的各子带能量之比的均值判定最大回声通道，即该通道所含的回声成分最高，选择混音源时将最大回声通道排除，以保证消除会议系统的回声；

所述子带能量是指声音每帧上的各个点经过FFT(快速傅里叶变换)后对应得到的每个点的能量幅值，所述最大回声通道判定过程，具体如下公式(3)和公式(4)所示：

将公式(3)得到的值代入公式(4)中能得到各麦克风通道对应的平均子带能量的衰减比，再对每个麦克风通道的平均子带能量的衰减比进行排序，其中最大平均子带能量的衰减比对应的麦克风通道就是最大回声通道；

所述混音源选择过程：将所述最大回声通道排除后，选择其余麦克风通道中采集帧能量最大的两个麦克风通道所采集的声音作为混音源进行混音，任意选择其中一个麦克风通道采集的声音记为混音源mix0，则另一个麦克风通道采集的声音记为混音源mix1，计算所述两个混音源每帧的混音权值；

所述两个混音源每帧的混音权值计算过程，如公式(5)和公式(6)所示：

λ_mix0＝γ*λ_mix0+(1-γ)(P_cap(mix0)/(p_cap(mix0)+p_cap(mix1))) (5)

λ_mix1＝1-λ_mix0 (6)

将公式(5)得到的混音源mix0每帧的混音权值代入公式(6)能得到混音源mix1每帧的混音权值，两个混音源的混音权值都是每帧更新一次，其中混音源mix0的混音权值有初始值；

所述混音输出过程是：由所述混音源mix0和mix1每帧的混音权值得到混音每帧各个点的输出值，最终再由各麦克风通道输出混音；

所述混音输出的过程如公式(7)所示：

out[i]＝λ_mix0*cap_mixo[i]+λ_mix1*cap_mix1[i] (7)

所述公式(7)中，i表示混音源mix0和混音源mix1采集声音每帧所包含的点数，cap_mix0[i]表示混音源mix0的采集帧第i个点的能量，cap_mix1[i]表示混音源mix1的采集帧第i个点的能量，out[i]表示混音每帧第i个点的输出值；

虽然以上描述了本发明的具体实施方式，但是熟悉本技术领域的技术人员应当理解，我们所描述的具体的实施例只是说明性的，而不是用于对本发明的范围的限定，熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化，都应当涵盖在本发明的权利要求所保护的范围内。

Claims

1.一种视频会议系统的多麦克风混音方法，其特征在于，所述方法包括声音采集过程、延时估计过程、最大回声通道判定过程、混音源选择过程和混音输出过程：

2.根据权利要求1所述一种视频会议系统的多麦克风混音方法，其特征在于，所述延时时间的计算过程如下：

c o r (n) = Σ_{i = 0}^{N - 1} c a p (i + n) p l a y (i) - - - (1)

t＝n/采样频率 (2)。

3.根据权利要求1所述一种视频会议系统的多麦克风混音方法，其特征在于，所述子带能量是指声音每帧上的各个点经过FFT后对应得到的每个点的能量幅值，所述最大回声通道判定过程，具体如下公式(3)和公式(4)所示：

η (i, j) = \frac{P_{c a p} (i, j)}{P_{p i a y} (j)} - - - (3)

η_{m e a n} (i) = \frac{Σ η (i, j)}{M} - - - (4)

4.根据权利要求1所述一种视频会议系统的多麦克风混音方法，其特征在于，所述混音源包括，任意选择采集帧能量最大的两个麦克风通道中的一个麦克风通道采集的声音记为混音源mix0，则另一个麦克风通道采集的声音记为混音源mix1，所述两个混音源mix0和mix1每帧的混音权值计算过程，如公式(5)和公式(6)所示：

λ_mix0＝γ*λ_mix0+(1-γ)(P_cap(mix0)/(p_cap(mix0)+p_cap(mix1))) (5)

λ_mix1＝1-λ_mix0 (6)

5.根据权利要求4所述一种视频会议系统的多麦克风混音方法，其特征在于，所述混音输出的过程如公式(7)所示：

out[i]＝λ_mix0*cap_mixo[i]+λ_mix1*cap_mix1[i] (7)