CN104219013B - 一种视频会议系统的多麦克风混音方法 - Google Patents

一种视频会议系统的多麦克风混音方法 Download PDF

Info

Publication number
CN104219013B
CN104219013B CN201410441776.7A CN201410441776A CN104219013B CN 104219013 B CN104219013 B CN 104219013B CN 201410441776 A CN201410441776 A CN 201410441776A CN 104219013 B CN104219013 B CN 104219013B
Authority
CN
China
Prior art keywords
audio mixing
sound
formula
frame
microphone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410441776.7A
Other languages
English (en)
Other versions
CN104219013A (zh
Inventor
毕永建
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Yealink Network Technology Co Ltd
Original Assignee
Xiamen Yealink Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Yealink Network Technology Co Ltd filed Critical Xiamen Yealink Network Technology Co Ltd
Priority to CN201410441776.7A priority Critical patent/CN104219013B/zh
Publication of CN104219013A publication Critical patent/CN104219013A/zh
Application granted granted Critical
Publication of CN104219013B publication Critical patent/CN104219013B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Circuit For Audible Band Transducer (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Abstract

本发明提供一种视频会议系统的多麦克风混音方法,通过各麦克风通道采集声音与扬声器播放声音之间的延时时间以及采集声音的能量大小来判定最大回声通道,以排除回声最大的通道,再由各可选通道采集帧能量值以及它们之间的相关性,选择最佳通道采集的声音作为混音源并确定所选通道的混音权值,最后根据所选通道及确定的混音权值进行混音输出。本发明选择最佳通道采集的声音作为最优混音源,且所有算法按照自适应设计,能动态调整最优混音源,保证了声音的采集范围和音质效果。

Description

一种视频会议系统的多麦克风混音方法
技术领域
本发明涉及一种混音处理方法,更具体地说,涉及一种用于视频会议的多麦克风混音处理方法。
背景技术
早期的视频会议系统一般都使用定向或者全向麦克风来进行声音采集,全向麦克风的声音采集范围大,但混响严重,音质不佳,定向麦克风音质好,但声音采集范围窄,为解决音质和声音采集范围的矛盾,目前视频会议系统已经开始采用多麦克风的方案,通过多个定向麦克风的组合,来保证声音的采集范围和音质。而如何组合多麦克风采集的数据,形成最佳的混音(多路语音数据混合形成一路输出语音)效果,成为多麦克风方案需要解决的核心问题。
自适应是指处理和分析过程中,根据处理数据的数据特征自动调整处理方法、处理顺序、处理参数、边界条件或约束条件,使其与所处理数据的统计分布特征、结构特征相适应,以取得最佳的处理效果。
发明内容
本发明要解决的技术问题,在于提供一种视频会议系统的多麦克风混音方法,先判定最大回声通道并将其排除,再选择出最佳通道采集的声音作为混音源,最后确定动态变化的混音权值输出混音。选择最佳通道采集的声音作为最优混音源,保证了声音的采集范围和音质效果。
本发明是这样实现的:一种视频会议系统的多麦克风混音方法,所述方法包括声音采集过程、延时估计过程、回声通道判定过程、混音源选择过程和混音输出过程:
所述声音采集过程是:扬声器播放声音,复数个麦克风通道采集声音;将所述扬声器播放的声音和各麦克风通道采集的声音按帧分块存储,得到扬声器的播放帧能量和各麦克风通道的采集帧能量,每帧长度为一固定值,每帧包含复数个点;
所述延时估计过程:得到各麦克风通道每次采集的声音与扬声器每次播放的声音之间的延时时间;
所述最大回声通道判定过程:根据得到的各麦克风通道的延时时间,将各麦克风通道采集的声音与扬声器播放的声音按帧一一对齐,再根据对齐后的麦克风通道的各子带能量与扬声器的各子带能量之比的均值判定最大回声通道,即该通道所含的回声成分最高,选择混音源时将最大回声通道排除,以保证消除会议系统的回声;
所述混音源选择过程:将所述最大回声通道排除后,选择其余麦克风通道中采集帧能量最大的两个麦克风通道所采集的声音作为混音源进行混音,计算所述两个混音源每帧的混音权值;
所述混音输出过程是:由所述两个混音源每帧的混音权值得到混音每帧各个点的输出值,最终再由各麦克风通道输出混音。
进一步的,所述延时时间的计算过程如下:
步骤21、把各麦克风通道的采集帧能量与对应扬声器的播放帧能量进行一一对比,得到各麦克风通道的延时时间,计算公式如下公式1所示:
公式(1)中,N表示声音最大延时对应的样点数,n为1到N的正整数,i表示声音每帧包含的点数,cap(i+n)表示麦克风通道的采集帧第i+n个点的值,play(i)表示扬声器的播放帧第i个点的值,cor(n)表示麦克风通道和扬声器播放通道的线性相关值;
步骤22、公式(1)中每一个n对应一个所述线性相关值,将最大的线性相关值对应的n换算成t,得到麦克风通道的延时时间,换算过程如下公式(2)所示:
t=n/采样频率 (2)。
进一步的,所述子带能量是指声音每帧上的各个点经过FFT后对应得到的每个点的能量幅值,所述最大回声通道判定过程,具体如下公式(3)和公式(4)所示:
公式(3)和公式(4)中,i表示通道索引,j表示子带索引,M表示子带总数,Pcap(i,j)表示第i麦克风通道第j子带能量,Pplay(j)为扬声器第j子带能量,η(i,j)表示第i麦克风通道第j子带能量的衰减比,ηmean(i)表示第i麦克风通道平均子带能量的衰减比;
将公式(3)得到的值代入公式(4)中能得到各麦克风通道对应的平均子带能量的衰减比,再对每个麦克风通道的平均子带能量的衰减比进行排序,其中最大平均子带能量的衰减比对应的麦克风通道就是最大回声通道。
进一步的,所述混音源包括,任意选择采集帧能量最大的两个麦克风通道中的一个麦克风通道采集的声音记为混音源mix0,则另一个麦克风通道采集的声音记为混音源mix1,所述两个混音源mix0和mix1每帧的混音权值计算过程,如公式(5)和公式(6)所示:
λmix0=γ*λmix0+(1-γ)(Pcap(mix0)/(pcap(mix0)+pcap(mix1))) (5)
λmix1=1-λmix0 (6)
所述公式(5)和公式(6)中,λmixo与λmix1分别表示混音源mix0和mix1每帧的混音权值,γ表示遗忘因子,为一固定常数,Pcap(mix0)表示混音源mix0每帧的能量值,Pcap(mix1)表示混音源mix1每帧的能量值;
将公式(5)得到的混音源mix0每帧的混音权值代入公式(6)能得到混音源mix1每帧的混音权值,两个混音源的混音权值都是每帧更新一次,其中混音源mix0的混音权值有初始值。
进一步的,所述混音输出的过程如公式(7)所示:
out[i]=λmix0*capmixo[i]+λmix1*capmix1[i] (7)
所述公式(7)中,i表示混音源mix0和混音源mix1采集声音每帧所包含的点数,capmix0[i]表示混音源mix0的采集帧第i个点的值,capmix1[i]表示混音源mix1的采集帧第i个点的值,out[i]表示混音每帧第i个点的输出值;
将所述公式(5)和公式(6)得到的混音源mix0和mix1每帧的混音权值代入公式(7),就得到混音每帧第i个点的输出值。
本发明具有如下优点:
1、通过各麦克风通道采集声音与扬声器播放声音之间的延时时间以及采集声音的能量大小,找出回声最大的通道,把该通道从混音源中排除,保证会议系统的回声消除效果;
2、根据各可选通道采集帧能量值以及它们之间的相关性,选出最佳通道所采集的声音作为混音源,保证了音质;
3、所有算法按照自适应设计,能动态调整最优混音源。
附图说明
下面参照附图结合实施例对本发明作进一步的说明。
图1为本发明方法执行流程图。
图2为本发明一实施例声音采集过程示意图。
具体实施方式
请参照图1,本发明一种视频会议系统的多麦克风混音方法,所述方法包括声音采集过程、延时估计过程、回声通道判定过程、混音源选择过程和混音输出过程:
所述声音采集过程是:扬声器播放声音,复数个麦克风通道采集声音;将所述扬声器播放的声音和各麦克风通道采集的声音按帧分块存储,得到扬声器的播放帧能量和各麦克风通道的采集帧能量,每帧长度为一固定值,每帧包含复数个点:以采样频率8K为例,若声音每帧长度为10毫米,则每帧包含80个点,若声音每帧长度为20毫米,则每帧包含160个点;
如图2所示,以一设有三个麦克风通道的麦克风为例,扬声器为电视,麦克风到电视的距离d为2-3米,其中一个麦克风通道正对电视,一般认为该麦克风通道所采集的声音中含有的回声是最大的,实际选择混音源时需要排除该麦克风通道;
所述延时估计过程:得到各麦克风通道每次采集的声音与扬声器每次播放的声音之间的延时时间,所述延时时间的计算过程如下:
步骤21、把各麦克风通道的采集帧能量与对应扬声器的播放帧能量进行一一对比,得到各麦克风通道的延时时间,计算公式如下公式(1)所示:
公式(1)中,N表示声音最大延时对应的样点数,n为1到N的正整数,i表示声音每帧包含的点数,cap(i+n)表示麦克风通道的采集帧第i+n个点的值,play(i)表示扬声器的播放帧第i个点的值,cor(n)表示麦克风通道和扬声器播放通道的线性相关值;
步骤22、公式(1)中每一个n对应一个所述线性相关值,将最大的线性相关值对应的n换算成t,得到麦克风通道的延时时间,换算过程如下公式(2)所示:
t=n/采样频率 (2)。
所述回声通道判定过程:根据得到的各麦克风通道的延时时间,将各麦克风通道采集的声音与扬声器播放的声音按帧一一对齐,再根据对齐后的麦克风通道的各子带能量与扬声器的各子带能量之比的均值判定最大回声通道,即该通道所含的回声成分最高,选择混音源时将最大回声通道排除,以保证消除会议系统的回声;
所述子带能量是指声音每帧上的各个点经过FFT(快速傅里叶变换)后对应得到的每个点的能量幅值,所述最大回声通道判定过程,具体如下公式(3)和公式(4)所示:
公式(3)和公式(4)中,i表示通道索引,j表示子带索引,M表示子带总数,Pcap(i,j)表示第i麦克风通道第j子带能量,Pplay(j)为扬声器第j子带能量,η(i,j)表示第i麦克风通道第j子带能量的衰减比,ηmean(i)表示第i麦克风通道平均子带能量的衰减比;
将公式(3)得到的值代入公式(4)中能得到各麦克风通道对应的平均子带能量的衰减比,再对每个麦克风通道的平均子带能量的衰减比进行排序,其中最大平均子带能量的衰减比对应的麦克风通道就是最大回声通道;
所述混音源选择过程:将所述最大回声通道排除后,选择其余麦克风通道中采集帧能量最大的两个麦克风通道所采集的声音作为混音源进行混音,任意选择其中一个麦克风通道采集的声音记为混音源mix0,则另一个麦克风通道采集的声音记为混音源mix1,计算所述两个混音源每帧的混音权值;
所述两个混音源每帧的混音权值计算过程,如公式(5)和公式(6)所示:
λmix0=γ*λmix0+(1-γ)(Pcap(mix0)/(pcap(mix0)+pcap(mix1))) (5)
λmix1=1-λmix0 (6)
所述公式(5)和公式(6)中,λmixo与λmix1分别表示混音源mix0和mix1每帧的混音权值,γ表示遗忘因子,为一固定常数,Pcap(mix0)表示混音源mix0每帧的能量值,Pcap(mix1)表示混音源mix1每帧的能量值;
将公式(5)得到的混音源mix0每帧的混音权值代入公式(6)能得到混音源mix1每帧的混音权值,两个混音源的混音权值都是每帧更新一次,其中混音源mix0的混音权值有初始值;
所述混音输出过程是:由所述混音源mix0和mix1每帧的混音权值得到混音每帧各个点的输出值,最终再由各麦克风通道输出混音;
所述混音输出的过程如公式(7)所示:
out[i]=λmix0*capmixo[i]+λmix1*capmix1[i] (7)
所述公式(7)中,i表示混音源mix0和混音源mix1采集声音每帧所包含的点数,capmix0[i]表示混音源mix0的采集帧第i个点的能量,capmix1[i]表示混音源mix1的采集帧第i个点的能量,out[i]表示混音每帧第i个点的输出值;
将所述公式(5)和公式(6)得到的混音源mix0和mix1每帧的混音权值代入公式(7),就得到混音每帧第i个点的输出值。
虽然以上描述了本发明的具体实施方式,但是熟悉本技术领域的技术人员应当理解,我们所描述的具体的实施例只是说明性的,而不是用于对本发明的范围的限定,熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化,都应当涵盖在本发明的权利要求所保护的范围内。

Claims (5)

1.一种视频会议系统的多麦克风混音方法,其特征在于,所述方法包括声音采集过程、延时估计过程、最大回声通道判定过程、混音源选择过程和混音输出过程:
所述声音采集过程是:扬声器播放声音,复数个麦克风通道采集声音;将所述扬声器播放的声音和各麦克风通道采集的声音按帧分块存储,得到扬声器的播放帧能量和各麦克风通道的采集帧能量,每帧长度为一固定值,每帧包含复数个点;
所述延时估计过程:得到各麦克风通道每次采集的声音与扬声器每次播放的声音之间的延时时间;
所述最大回声通道判定过程:根据得到的各麦克风通道的延时时间,将各麦克风通道采集的声音与扬声器播放的声音按帧一一对齐,再根据对齐后的麦克风通道的各子带能量与扬声器的各子带能量之比的均值判定最大回声通道,即该通道所含的回声成分最高,选择混音源时将最大回声通道排除,以保证消除会议系统的回声;
所述混音源选择过程:将所述最大回声通道排除后,选择其余麦克风通道中采集帧能量最大的两个麦克风通道所采集的声音作为混音源进行混音,计算所述两个混音源每帧的混音权值;
所述混音输出过程是:由所述两个混音源每帧的混音权值得到混音每帧各个点的输出值,最终再由各麦克风通道输出混音。
2.根据权利要求1所述一种视频会议系统的多麦克风混音方法,其特征在于,所述延时时间的计算过程如下:
步骤21、把各麦克风通道的采集帧能量与对应扬声器的播放帧能量进行一一对比,得到各麦克风通道的延时时间,计算公式如下公式1所示:
c o r ( n ) = Σ i = 0 N - 1 c a p ( i + n ) p l a y ( i ) - - - ( 1 )
公式(1)中,N表示声音最大延时对应的样点数,n为1到N的正整数,i表示声音每帧包含的点数,cap(i+n)表示麦克风通道的采集帧第i+n个点的值,play(i)表示扬声器的播放帧第i个点的值,cor(n)表示麦克风通道和扬声器播放通道的线性相关值;
步骤22、公式(1)中每一个n对应一个所述线性相关值,将最大的线性相关值对应的n换算成t,得到麦克风通道的延时时间,换算过程如下公式(2)所示:
t=n/采样频率 (2)。
3.根据权利要求1所述一种视频会议系统的多麦克风混音方法,其特征在于,所述子带能量是指声音每帧上的各个点经过FFT后对应得到的每个点的能量幅值,所述最大回声通道判定过程,具体如下公式(3)和公式(4)所示:
η ( i , j ) = P c a p ( i , j ) P p i a y ( j ) - - - ( 3 )
η m e a n ( i ) = Σ η ( i , j ) M - - - ( 4 )
公式(3)和公式(4)中,i表示通道索引,j表示子带索引,M表示子带总数,Pcap(i,j)表示第i麦克风通道第j子带能量,Pplay(j)为扬声器第j子带能量,η(i,j)表示第i麦克风通道第j子带能量的衰减比,ηmean(i)表示第i麦克风通道平均子带能量的衰减比;
将公式(3)得到的值代入公式(4)中能得到各麦克风通道对应的平均子带能量的衰减比,再对每个麦克风通道的平均子带能量的衰减比进行排序,其中最大平均子带能量的衰减比对应的麦克风通道就是最大回声通道。
4.根据权利要求1所述一种视频会议系统的多麦克风混音方法,其特征在于,所述混音源包括,任意选择采集帧能量最大的两个麦克风通道中的一个麦克风通道采集的声音记为混音源mix0,则另一个麦克风通道采集的声音记为混音源mix1,所述两个混音源mix0和mix1每帧的混音权值计算过程,如公式(5)和公式(6)所示:
λmix0=γ*λmix0+(1-γ)(Pcap(mix0)/(pcap(mix0)+pcap(mix1))) (5)
λmix1=1-λmix0 (6)
所述公式(5)和公式(6)中,λmixo与λmix1分别表示混音源mix0和mix1每帧的混音权值,γ表示遗忘因子,为一固定常数,Pcap(mix0)表示混音源mix0每帧的能量值,Pcap(mix1)表示混音源mix1每帧的能量值;
将公式(5)得到的混音源mix0每帧的混音权值代入公式(6)能得到混音源mix1每帧的混音权值,两个混音源的混音权值都是每帧更新一次,其中混音源mix0的混音权值有初始值。
5.根据权利要求4所述一种视频会议系统的多麦克风混音方法,其特征在于,所述混音输出的过程如公式(7)所示:
out[i]=λmix0*capmixo[i]+λmix1*capmix1[i] (7)
所述公式(7)中,i表示混音源mix0和混音源mix1采集声音每帧所包含的点数,capmix0[i]表示混音源mix0的采集帧第i个点的值,capmix1[i]表示混音源mix1的采集帧第i个点的值,out[i]表示混音每帧第i个点的输出值;
将所述公式(5)和公式(6)得到的混音源mix0和mix1每帧的混音权值代入公式(7),就得到混音每帧第i个点的输出值。
CN201410441776.7A 2014-09-01 2014-09-01 一种视频会议系统的多麦克风混音方法 Expired - Fee Related CN104219013B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410441776.7A CN104219013B (zh) 2014-09-01 2014-09-01 一种视频会议系统的多麦克风混音方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410441776.7A CN104219013B (zh) 2014-09-01 2014-09-01 一种视频会议系统的多麦克风混音方法

Publications (2)

Publication Number Publication Date
CN104219013A CN104219013A (zh) 2014-12-17
CN104219013B true CN104219013B (zh) 2017-05-24

Family

ID=52100188

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410441776.7A Expired - Fee Related CN104219013B (zh) 2014-09-01 2014-09-01 一种视频会议系统的多麦克风混音方法

Country Status (1)

Country Link
CN (1) CN104219013B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104616665B (zh) * 2015-01-30 2018-04-24 深圳市云之讯网络技术有限公司 基于语音类似度的混音方法
GB201615538D0 (en) 2016-09-13 2016-10-26 Nokia Technologies Oy A method , apparatus and computer program for processing audio signals
CN109658946A (zh) * 2017-10-12 2019-04-19 深圳前海黑鲸科技有限公司 一种回声处理方法、装置、存储介质及终端设备
CN109451194B (zh) * 2018-09-28 2020-11-24 武汉船舶通信研究所(中国船舶重工集团公司第七二二研究所) 一种会议混音方法及装置
CN110310637A (zh) * 2019-06-25 2019-10-08 重庆信络威科技有限公司 一种基于分布式多麦克风及蓝牙Mesh的语音控制方法及系统
CN110677208B (zh) * 2019-09-11 2021-06-25 厦门亿联网络技术股份有限公司 一种用于会议系统的混音方法和系统
CN111770413B (zh) * 2020-06-30 2021-08-27 浙江大华技术股份有限公司 一种多音源混音方法、装置及存储介质
CN112885329B (zh) * 2021-02-02 2023-10-31 广州广哈通信股份有限公司 一种提高混音音质的控制方法、装置及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011035466A (ja) * 2009-07-29 2011-02-17 Tamura Seisakusho Co Ltd ディレイ調整システム
CN102056053A (zh) * 2010-12-17 2011-05-11 中兴通讯股份有限公司 一种多话筒混音方法及装置
CN102461205A (zh) * 2009-06-02 2012-05-16 皇家飞利浦电子股份有限公司 声学多通道消除

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101975251B1 (ko) * 2012-07-09 2019-05-07 삼성전자주식회사 오디오 신호 처리 시스템 및 이의 에코 신호 제거 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102461205A (zh) * 2009-06-02 2012-05-16 皇家飞利浦电子股份有限公司 声学多通道消除
JP2011035466A (ja) * 2009-07-29 2011-02-17 Tamura Seisakusho Co Ltd ディレイ調整システム
JP5372643B2 (ja) * 2009-07-29 2013-12-18 株式会社タムラ製作所 ディレイ調整システム
CN102056053A (zh) * 2010-12-17 2011-05-11 中兴通讯股份有限公司 一种多话筒混音方法及装置

Also Published As

Publication number Publication date
CN104219013A (zh) 2014-12-17

Similar Documents

Publication Publication Date Title
CN104219013B (zh) 一种视频会议系统的多麦克风混音方法
CN102652337B (zh) 用于声通信的设备和方法
JP7266916B2 (ja) ラウドネスレベルを制御するオーディオ信号処理方法及び装置
US20130094669A1 (en) Audio signal processing apparatus, audio signal processing method and a program
CN101917658A (zh) 用于降低助听器中的反馈的方法
CN105989853A (zh) 一种音频质量评测方法及系统
US7991171B1 (en) Method and apparatus for processing an audio signal in multiple frequency bands
JP2012522255A (ja) オーディオ信号分類の方法および装置
CN107564538A (zh) 一种实时语音通信的清晰度增强方法及系统
CN103841241B (zh) 音量调整方法及装置
CN107396274A (zh) 有源线阵音响声场调校的方法、装置及系统
CN104616665B (zh) 基于语音类似度的混音方法
CN108198571A (zh) 一种基于自适应带宽判断的带宽扩展方法及系统
CN116013367A (zh) 音频质量的分析方法和装置、电子设备以及存储介质
JP6789827B2 (ja) 音声信号を明瞭化するためのマルチ聴覚mmse分析技法
CN107093432B (zh) 一种用于通信系统的语音质量评价系统
CN117544262A (zh) 定向广播的动态控制方法、装置、设备及存储介质
Mu et al. An objective analysis method for perceptual quality of a virtual bass system
JP4922427B2 (ja) 信号補正装置
CN112954569B (zh) 多核助听芯片、助听方法及助听器
Mu Perceptual quality improvement and assessment for virtual bass system
CN109428625A (zh) 一种小区信号的合并传输方法及装置
CN102970269B (zh) 基于人耳感知的iboc系统的动态数据发送方法
Hoffmann et al. Towards audio signal equalization based on spectral characteristics of a listening room and music content reproduced
CN112735455A (zh) 声音信息的处理方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170524

CF01 Termination of patent right due to non-payment of annual fee