CN117037830A - 一种麦克风阵列的拾音方法、电子设备及存储介质 - Google Patents
一种麦克风阵列的拾音方法、电子设备及存储介质 Download PDFInfo
- Publication number
- CN117037830A CN117037830A CN202311111347.9A CN202311111347A CN117037830A CN 117037830 A CN117037830 A CN 117037830A CN 202311111347 A CN202311111347 A CN 202311111347A CN 117037830 A CN117037830 A CN 117037830A
- Authority
- CN
- China
- Prior art keywords
- signal
- filter
- arrival
- omega
- signals
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000003860 storage Methods 0.000 title claims abstract description 8
- 238000012545 processing Methods 0.000 claims abstract description 7
- 230000000903 blocking effect Effects 0.000 claims abstract description 6
- 230000003111 delayed effect Effects 0.000 claims abstract description 5
- 238000009499 grossing Methods 0.000 claims description 16
- 230000003044 adaptive effect Effects 0.000 claims description 13
- 238000001914 filtration Methods 0.000 claims description 13
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 4
- 230000021615 conjugation Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 2
- 230000001131 transforming effect Effects 0.000 claims description 2
- 238000004088 simulation Methods 0.000 description 6
- 230000009467 reduction Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000035945 sensitivity Effects 0.000 description 3
- 241000209140 Triticum Species 0.000 description 2
- 235000021307 Triticum Nutrition 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 239000003990 capacitor Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开了一种麦克风阵列的拾音方法、电子设备及计算机可读存储介质。该拾音方法包括如下步骤:对麦克风阵列接收的语音信号进行固定波束形成,将麦克风阵列的波束形成方向指向估计的预期波达方向;对处理后的语音信号进行阻塞处理,以阻塞来自预期波达方向的语音信号,只保留非预期波达方向的语音信号;以处理后的信号作为参考信号,通过第一滤波器滤除非预期波达方向的信号,保留预期波达方向的信号;根据下式(I)计算第一滤波器的更新因子, 为第m个麦克风通道的第一滤波器的更新因子,SNRf,d(ω,l)为Yf,d(ω,l)的信噪比,Yf,d(ω,l)为步骤S1处理后的信号经延迟处理后的延迟信号,SNRm(ω,l)为步骤S2处理后的信号Um(ω,l)的信噪比。本发明进一步提高语音质量。
Description
本申请是申请日为2021年5月21日、申请号为202110556564.3的发明的分案申请。
技术领域
本发明属于麦克风阵列拾音领域,涉及一种鲁棒性麦克风阵列拾音方法、电子设备及计算机可读存储介质。
背景技术
视频会议系统是人们协同办公的必备工具,线上协同办公模式越来越受青睐,语音拾音作为视频会议系统的重要入口因此受到了广泛关注。当前视频会议系统的主流拾音方式是单麦拾音,虽然单麦拾音实现简单,但受限于灵敏度、复杂声反射环境等因素,拾音距离较短,而麦克风阵列拾音通过利用更多的空间信息,具有增益高、抑制噪声和混响能力强等优点,可以进一步加强拾音距离。
广义旁瓣消除(Generalized Sidelobe Cancelling,GSC)算法由于能够将约束最优问题转化为无约束问题,因此在麦克风阵列拾音工程中得到了广泛应用。传统的GSC算法对误差比较敏感,方向失配、麦克风通道不一致、混响等因素都会导致期望信号对消,从而降低语音质量,尽管在后续发展中有了一系列改进,但存在不足。
发明内容
本发明的目的是提供一种麦克风阵列的拾音方法、电子设备及计算机可读存储介质,进一步提高语音质量。
根据本发明的第一个方面,一种麦克风阵列的拾音方法,包括如下步骤:
S1、对麦克风阵列接收的语音信号进行固定波束形成,将所述麦克风阵列的波束形成方向指向估计的预期波达方向;
S2、对步骤S1处理的语音信号进行阻塞处理,以阻塞来自所述预期波达方向的信号,只保留非预期波达方向的信号;
S3、以步骤S2处理后的信号作为参考信号,通过第一滤波器滤除步骤S1处理后的语音信号中的非预期波达方向的信号,保留所述预期波达方向的信号;
所述拾音方法还包括如下步骤:
S4、根据下式(I)计算步骤S3中第一滤波器的更新因子,更新第一滤波器的系数,
其中,为第m个麦克风通道的第一滤波器的更新因子,SNRf,d(ω,l)为Yf,d(ω,l)的信噪比,Yf,d(ω,l)为步骤S1处理后的信号Yf(ω,l)经延迟处理后的延迟信号,SNRm(ω,l)为步骤S2处理后的信号Um(ω,l)的信噪比,m=1…M,M是麦克风通道数,ω是角频率,l是帧下标。
根据一个优选方面,步骤S4具体包括:
S4-1、估计出Yf,d(ω,l)中的噪声,将Yf,d(ω,l)的能量除以该噪声,获得信噪比SNRf,d(ω,l);
S4-2、估计出Um(ω,l)中的噪声,将Um(ω,l)的能量除以该噪声,获得信噪比SNRm(ω,l);
S4-3、根据式(I)计算更新因子,根据式对第一滤波器的系数进行自适应更新,其中,/>是当前帧的第一滤波器的系数,是下一帧的第一滤波器的系数,μ为步长因子,Y(ω,l)为步骤S3处理后的信号输出,Y(ω,l)*为Y(ω,l)的共轭,/>为Um(ω,l)的平滑能量。
根据一个优选方面,步骤S2中,采用第二滤波器对步骤S1处理后的语音信号进行阻塞处理,所述拾音方法还包括如下步骤:
S5、根据下式(II)计算步骤S2中的第二滤波器的更新因子,更新第二滤波器的系数,
其中,为第m个麦克风通道的第二滤波器的更新因子,/>为Yf(ω,l)的平滑能量,/>为Um(ω,l)的平滑能量,THRBM为预设阀值参数。
更优选地,步骤S5具体包括:
S5-1、估计Yf(ω,l)的平滑能量
S5-2、估计Um(ω,l)的平滑能量
S5-3、根据式(II)计算更新因子,根据式
对第二滤波器进行自适应更新,其中/>是当前帧的第二滤波器的频域系数,/>是下一帧的第二滤波器的中间频域系数,Um(ω,l)*为Um(ω,l)的共轭,/>是Yf(ω,l)经过概率补偿后的信号Yc(ω,l)的平滑能量,μ为步长因子;
将频域系数转换为时域系数/>其中nl+1是离散时间下标,并根据下式对/>做约束,
将约束完以后的再做FFT变换转化为下一帧的第二滤波器频域系数进入下一轮的滤波和系数更新,其中low_boundm(nl+1)和high_boundm(nl+1)分别为预设滤波器系数的上限和下限;
滤波器系数上下限作如下限定:
其中max{}是取最大数,tmax是在允许波达方向空间[θ-θerr,θ+θerr]两通道之间的最大延迟,θ是预期波达方向,θerr是允许的最大方向误差。
根据一个优选方面,所述步骤S2具体包括:
S2-1、对步骤S1处理后的语音信号进行延迟形成信号Zm,d(ω,l);
S2-2、根据各麦克风通道的所述信号Zm,d(ω,l)的相位差估计信号存在波达方向一定范围内[θ-θerr,θ+θerr]的概率,θ是预期波达方向,θerr是允许的最大方向误差;
S2-3、根据式Yc(ω,l)=Prob(ω,l)Yf(ω,l)进行概率补偿得到Yc(ω,l);
S2-4、根据式滤波输出,其中,/>是第m个麦克风通道的第二滤波器的频域系数;
S2-5、对第二滤波器的系数进行自适应更新。
更优选地,步骤S2-2具体如下:
S2-2-1、根据式将相邻麦克风通道的相位进行相减获得相位差/>其中angle{}为取信号相位,unwrap{}为通过连续相加或相减2π让相位差/>处在区间[-π,π]之内,Zm+1,d(ω,l)和Zm,d(ω,l)分别为相邻两个麦克风通道经延迟处理的信号;
S2-2-2、根据式将相位差/>转化为时间差/>
S2-2-3、根据允许的最大范围误差角度θerr,换算成允许的最大时间差如果真实获得的时间差/>在/>之内,则认为此时期望信号大概率存在允许的波达方向空间内,如果不在此区间内,则认为此时期望信号大概率不存在允许的波达方向空间内;预先设定概率函数/>在/>内尽量为1,在此区间外尽量为0,其中s和α为预设参数;根据预设的概率函数Pr(t)和时间差/>换算出概率Probm(ω,l),则令信号存在允许波达方向空间内的总概率因子为
S2-2-4、对总概率因子Prob(ω,l)进行纠正,令其如下式所示,
其中,ω0为预设的分界频率。
进一步地,s满足当时,Pr(t)=0.707。
根据一个优选方面,步骤S1中,根据估计的波达方向对麦克风接收信号Xm(ω,l)进行延迟操作获得Zm(ω,l),其中,Xm(ω,l),m=1…M为麦克风阵列接收信号的STFT变换,将信号Zm(ω,l)送入步骤S2中;对延迟对齐以后的信号进行相加获得信号将信号Yf(ω,l)进行延迟处理后得到信号Yf,d(ω,l)并送入步骤S3中。
根据一个优选方面,步骤S3中,根据式进行滤波输出,其中/>是第一滤波器的系数。
优选地,第一滤波器为NAF滤波器。
优选地,第二滤波器为CCAF滤波器。
根据本发明的第二个方面,一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述的拾音方法。
根据一个优选且具体的方面,所述电子设备为远程会议设备。
根据本发明的第三个方面,一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现如上所述的拾音方法。
本发明采用以上方案,相比现有技术具有如下优点:
本发明的拾音方法,可以在整个频段内较好的滤除预设波达方向的信号,同时保留输出非预设波达方向的信号,可以有效降低波达方向估计误差的敏感度,同时利用信噪比估计确定何时更新MC滤波器系数更新,进一步提高语音质量。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为根据本发明实施例的一种拾音方法的示意图;
图2为根据本发明实施例对第一滤波器的更新原理示意图;
图3为麦克风阵列示意图;
图4为估计人声方向为0度时的仿真结果图;
图5为估计人声方向为10度时的仿真结果图。
具体实施方式
下面结合附图对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域的技术人员理解。在此需要说明的是,对于这些实施方式的说明用于帮助理解本发明,但并不构成对本发明的限定。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。
参照图1所示,麦克风阵列拾取的语音信号经过FBF、ABM、MC及Control四个部分的模块处理。下面对各个部分的运行过程进行详细描述。
FBF(Fixed Beamforming)模块:固定波束形成,将固定麦克风波束形成方向指向估计的波达方向,增强来自波达方向的语音。
1、如图1所示,Xm(ω,l),m=1…M为麦克风接收信号的STFT变换,M是麦克风通道数,ω是频率,l是帧下标。
2、图1中steering是根据估计的波达方向对麦克风接收信号Xm(ω,l)进行延迟操作获得Zm(ω,l),让来自波达方向的信号在时间上对齐。
3、对延迟对齐以后的信号进行相加
ABM(Adaptive Blocking Matrix)模块:用于阻塞来自波达方向θ的信号,只保留非波达方向的信号。一种常用的固定方式是将延迟对齐以后的信号Zm(ω,l)进行两两相减,因为理论上对齐以后来自波达方向θ的信号一致,通过相减可以获得非波达方向的信号。但是在实际情况下,估计的波达方向和真实波达方向θ之间的误差会导致BM模块输出的信号中含有波达方向θ的信号,即期望信号泄露现象,从而会导致后续MC(Multiple-input Canceller)模块存在期望信号自消现象。为了解决此问题,本实施例采用联合空间信号存在概率因子和CCAF(Coefficient-constrained adaptive filters)约束的自适应滤波器去降低期望信号泄露现象。
1、delay模块延迟,为确保自适应滤波器因果性需要添加的延迟,经过延迟以后的信号为Zm,d(ω,l)。
2、Prob{}是根据各通道信号的相位差估计信号存在波达方向一定范围内[θ-θerr,θ+θerr]的概率,θerr是允许的最大方向误差。
2.1、是将相邻通道的相位进行相减获得相位差,其中angle{}为取信号相位,因为相位以2π为周期,因此unwrap{}通过连续相加或相减2π,让相位差/>处在区间[-π,π]之内。
2.2、将相位差转化为时间差ω为角频率。
2.3、如果估计的波达方向和真实波达方向θ之间无误差,则时间差/>为0,否则不为0,根据允许的最大范围误差角度θerr,换算成允许的最大时间差/>如果真实获得的时间差在/>之内,则认为此时期望信号大概率存在允许的波达方向空间内,如果不在此区间内,则认为此时期望信号大概率不存在允许的波达方向空间内。预先设定一个概率函数/>在/>尽量为1,在此区间外尽量为0,其中s和α为预设参数,其中α为控制从预设时间范围之内到范围之外的陡峭程度,数值越大越陡峭,在确定完α的基础上,调整s满足当/>时,Pr(t)=0.707。根据预设的概率函数Pr(t)和时间差/>换算出概率Probm(ω,l),则令信号存在允许波达方向空间内的总概率因子为/>
2.4、考虑到在中高频处,在实际环境中由于受散射影响,中高频处相位差未必准确,因此在中高频处不考虑概率因子,令其为1,因此最终纠正后的总概率因子为,其中ω0为预设的分界频率:
3.Yc(ω,l)=Prob(ω,l)Yf(ω,l)。
4.滤波输出:其中Um(ω,l)和/>分别是第m通道输出和第二滤波器。
5.第二滤波器系数更新,第二滤波器即图1中的CCAF滤波器采用常用的NLMS算法在频域中进行自适应滤更新。
其中Um(ω,l)*为Um(ω,l)的共轭,μ为步长因子,/>为Yc(ω,l)的平滑能量,/>为更新因子,只能取1或者0,由Control模块产生。
在更新完频域滤波器系数以后,需要将频域系数转换为时域系数其中nl+1是离散时间下标,并对/>做约束
将约束完以后的再做FFT变换转化为/>进入下一轮的滤波和系数更新,其中low_boundm(nl+1)和high_boundm(nl+1)分别预设的滤波器系数的上限和下限。通过预设滤波器系数的上限和下限,可以将ABM的输出信号只保留除波达方向以外的信号。滤波器系数上下限一般做如下限定:
其中max{}是取最大数,tmax是在允许波达方向空间[θ-θerr,θ+θerr],两通道之间的最大延迟。
CCAF算法核心是通过对滤波器系数做上下限限制来约束滤波器只滤除预设波达方向的信号,保留输出非预设波达方向的信号,而按照上述公式选择的限制在低频处仍会存在非预设波达方向的信号,不利于后续MC模块消除非预设波达方向的信号。而利用相位差判断信号是否处在预设波达方向在低频处较准,因此通过相位差判断信号是否处在预设波达方向内,如果存在,则概率接近为1,CCAF的参考输入信号基本不变,因此有利于CCAF去除预设波达方向内的信号,如果不存在,则则概率接近为0,CCAF的参考输入信号基本为0,因此无论怎么更新,都无法去除非预设波达方向内的信号,有利于后续MC模块进一步消除噪声。
ABM模块利用联合空间信号存在概率因子和CCAF(Coefficient-constrainedadaptive filters)约束的自适应滤波器,可以在整个频段内较好的滤除预设波达方向的信号,同时保留输出非预设波达方向的信号。
MC(Multiple-input Canceller)模块:利用ABM的模块输出Um(ω,l)作为参考信号,滤除FBF输出信号中的非预设波达方向的信号,最大化只保留预设波达方向的信号。
1.滤波输出:其中/>是第一滤波器即图1中的自适滤波器NAF的系数。
2.第一滤波器系数更新,NAF采用常用的NLMS算法在频域中进行自适应滤更新,同时对滤波器系数能量做限幅,如果总能量超过预设值,则按预设值进行归一化,否则保持不变。
其中Y(ω,l)*为Y(ω,l)的共轭,μ为步长因子,为Um(ω,l)的平滑能量,为更新因子,只能取1或者0,由Control模块产生。
Control模块:通过各种约束,ABM仍会存在少量预设波达方向的信号,如果这部分信号为语音信号,此时仍对MC模块进行更新滤波,则会损伤输出的语音。为降低损伤语音,需要判断何时进行更新滤波器系数。Control模块中C是指比较器,SNR是指求信噪比,E是指求平滑能量。
产生:
1、估计Yf(ω,l)的平滑能量
2、估计第m通道Um(ω,l)的平滑能量
3、其中THRBM是预设阀值参数。
产生:
1、估计Yf,d(ω,l)的信噪比SNRf,d(ω,l):
1.1、利用噪声方法估计出Yf,d(ω,l)中的噪声,常用的单声通道噪声估计mcra方法,参考书籍“Loizou,Philipos C,《Speech Enhancement:Theory and Practice》”;
1.2、将Yf,d(ω,l)的能量除以1.1中的噪声,获得当前信噪比SNRf,d(ω,l);
2、同理估计Um(ω,l)的信噪比为SNRm(ω,l);
3、
更新原理描述如下:
参见图2,
令
v1(ω)=a1s(ω)+b1n(ω) (1)
v2(ω)=a2s(ω)+b2n(ω) (2)
g(ω)=v1(ω)-hv2(ω) (3)
其中s(ω)是语音信号,n(ω)是噪声信号,ω为角频率,a1、a2、b1和b2是对应的权重系数,v1(ω)作为期望信号,v2(ω)为参考输入信号,则最优问题表达式为(下面为简单,省略符号ω):
其中E{}为求期望值。对公式(4)进行最优化求解可得最优解为:
将公式(1)、(2)和(6)代入(3)可得
定义输入信噪比
定义输出信噪比
期望在经过自适应滤器以后,输出信号g的信噪比SNRo要大于原始信号v1的信噪比SNR1
其中将其代入公式(10)并化解得
其中
将公式(12)代入公式(11)得
因此如果想提升信噪比,得SNR1SNR2小于1。
本算法中的ABM模块利用联合空间信号存在概率因子和CCAF(Coefficient-constrained adaptive filters)约束的自适应滤波器,可以在整个频段内较好的滤除预设波达方向的信号,同时保留输出非预设波达方向的信号,可以有效降低波达方向估计误差的敏感度,同时利用信噪比估计确定何时更新MC滤波器系数更新,进一步提高语音质量。
仿真例
参照图3所示,采用的麦克风阵列为三元均匀分布圆阵,以逆时旋转计算角度,三元阵角度分别为[90,210,330]度,圆周半径为4cm,目标人声处在0度方向,噪声源处在110度方向,信噪比为0dB,算法ABM中分界频率点为300Hz,概率函数中的α设为4,最大允许误差方向为±10度,滤波器阶数为160,步长因子为0.1,延迟p为80,MC中滤波器阶数为160,中步长因子为0.1,延迟q为100,滤波器总约束能量开方值设为0.2。控制模块中THRBM取0.5。仿真时所用的信噪比约为6dB。
采用传统的GSC方法和本实施例的robust-gsc方法进行仿真,结果比对如下。
估计人声方向为0度,即无误差,结果参见表1和图4。
表1
gsc | robust-gsc | |
降噪(dB) | 23.1421 | 18.0317 |
PESQ | 1.7943 | 2.3794 |
估计人声方向为10度,即存在误差为10度,结果参见表2和图5。
表2
gsc | robust-gsc | |
降噪(dB) | 22.5463 | 17.8811 |
PESQ | 1.3403 | 2.3817 |
从仿真中可以看出,在无误差的情况下,虽然robust-gsc的降噪比传统的gsc差一点,但是pesq值有较大提高,语音质量得到明显改善,而在有误差的情况下,传统的gsc语音质量会进一步下降,语音信号几乎全被消没了。因此提出的robust-gsc无论是降噪量还是pesq值并没有明显降低。
上述实施例只为说明本发明的技术构思及特点,是一种优选的实施例,其目的在于熟悉此项技术的人士能够了解本发明的内容并据以实施,并不能以此限定本发明的保护范围。凡根据本发明的精神实质所作的等效变换或修饰,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种麦克风阵列的拾音方法,包括如下步骤:
S1、对麦克风阵列接收的语音信号进行固定波束形成,将所述麦克风阵列的波束形成方向指向估计的预期波达方向;
S2、对步骤S1处理的语音信号进行阻塞处理,以阻塞来自所述预期波达方向的信号,只保留非预期波达方向的信号;
S3、以步骤S2处理后的信号作为参考信号,通过第一滤波器滤除步骤S1处理后的语音信号中的非预期波达方向的信号,保留所述预期波达方向的信号;
其特征在于,所述拾音方法还包括如下步骤:
S4、根据下式(I)计算步骤S3中第一滤波器的更新因子,根据计算得到的所述更新因子更新第一滤波器的系数,
其中,为第m个麦克风通道的第一滤波器的更新因子,SNRf,d(ω,l)为Yf,d(ω,l)的信噪比,Yf,d(ω,l)为步骤S1处理后的信号Yf(ω,l)经延迟处理后的延迟信号,SNRm(ω,l)为步骤S2处理后的信号Um(ω,l)的信噪比,m=1…M,M是麦克风通道数,ω是角频率,l是帧下标。
2.根据权利要求1所述的拾音方法,其特征在于,步骤S4中,所述第一滤波器为自适应滤波器,所述自适应滤波器采用NLMS算法在频域中进行自适应更新。
3.根据权利要求1所述的拾音方法,其特征在于,步骤S2中,采用第二滤波器对步骤S1处理后的语音信号进行阻塞处理,所述拾音方法还包括如下步骤:
S5、根据下式(II)计算步骤S2中的第二滤波器的更新因子,所述第二滤波器为CCAF滤波器,所述CCAF滤波器根据所述第二滤波器的更新因子采用NLMS算法在频域中自适应更新第二滤波器的系数,
其中,为第m个麦克风通道的第二滤波器的更新因子,/>为Yf(ω,l)的平滑能量,/>为Um(ω,l)的平滑能量,THRBM为预设阀值参数。
4.根据权利要求3所述的拾音方法,其特征在于,步骤S5具体包括:
S5-1、估计Yf(ω,l)的平滑能量
S5-2、估计Um(ω,l)的平滑能量
S5-3、根据式(II)计算更新因子,根据式
对第二滤波器进行自适应更新,其中/>是当前帧的第二滤波器的频域系数,/>是下一帧的第二滤波器的中间频域系数,Um(ω,l)*为Um(ω,l)的共轭,PYc(ω,l)是Yf(ω,l)经过概率补偿后的信号Yc(ω,l)的平滑能量,μ为步长因子;
将频域系数转换为时域系数/>其中nl+1是离散时间下标,并根据下式对/>做约束,
将约束完以后的再做FFT变换转化为下一帧的第二滤波器频域系数进入下一轮的滤波和系数更新,其中low_boundm(nl+1)和high_boundm(nl+1)分别为预设滤波器系数的上限和下限;
滤波器系数上下限作如下限定:
其中max{}是取最大数,tmax是在允许波达方向空间[θ-θerr,θ+θerr]两通道之间的最大延迟,θ是预期波达方向,θerr是允许的最大方向误差。
5.一种麦克风阵列的拾音方法,包括如下步骤:
S1、对麦克风阵列接收的语音信号进行固定波束形成,将所述麦克风阵列的波束形成方向指向估计的预期波达方向;
S2、对步骤S1处理的语音信号进行阻塞处理,以阻塞来自所述预期波达方向的信号,只保留非预期波达方向的信号;
S3、以步骤S2处理后的信号作为参考信号,通过第一滤波器滤除步骤S1处理后的语音信号中的非预期波达方向的信号,保留所述预期波达方向的信号;
其特征在于,步骤S2具体包括:
S2-1、对步骤S1处理后的语音信号进行延迟形成信号Zm,d(ω,l);
S2-2、根据各麦克风通道的所述信号Zm,d(ω,l)的相位差估计信号存在波达方向一定范围内[θ-θerr,θ+θerr]的概率,θ是预期波达方向,θerr是允许的最大方向误差;
S2-3、根据式Yc(ω,l)=Prob(ω,l)Yf(ω,l)得到Yc(ω,l);
S2-4、根据式滤波输出,其中,/>是第m个麦克风通道的第二滤波器的频域系数;
S2-5、对第二滤波器的系数进行自适应更新。
6.根据权利要求5所述的拾音方法,其特征在于,步骤S2-2具体如下:
S2-2-1、根据式将相邻麦克风通道的相位进行相减获得相位差/>其中angle{}为取信号相位,unwrap{}为通过连续相加或相减2π让相位差/>处在区间[-π,π]之内,Zm+1,d(ω,l)和Zm,d(ω,l)分别为相邻两个麦克风通道经延迟处理的信号;
S2-2-2、根据式将相位差/>转化为时间差/>
S2-2-3、根据允许的最大范围误差角度θerr,换算成允许的最大时间差如果真实获得的时间差/>在/>之内,则认为此时期望信号大概率存在允许的波达方向空间内,如果不在此区间内,则认为此时期望信号大概率不存在允许的波达方向空间内;预先设定概率函数/>在/>内尽量为1,在此区间外尽量为0,其中s和α为预设参数;根据预设的概率函数Pr(t)和时间差/>换算出概率Probm(ω,l),则令信号存在允许波达方向空间内的总概率因子为
S2-2-4、对总概率因子Prob(ω,l)进行纠正,令其如下式所示,
其中,ω0为预设的分界频率。
7.根据权利要求6所述的拾音方法,其特征在于,s满足当时,Pr(t)=0.707。
8.根据权利要求5所述的拾音方法,其特征在于,步骤S1中,根据估计的波达方向对麦克风接收信号Xm(ω,l)进行延迟操作获得Zm(ω,l),其中,Xm(ω,l),m=1…M为麦克风阵列接收信号的STFT变换,将信号Zm(ω,l)送入步骤S2中;对延迟对齐以后的信号进行相加获得信号将信号Yf(ω,l)进行延迟处理后得到信号Yf,d(ω,l)并送入步骤S3中;
步骤S3中,根据式进行滤波输出,其中/>是第一滤波器的系数。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至8任一项所述的拾音方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现权利要求1至8任一项所述的拾音方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311111347.9A CN117037830A (zh) | 2021-05-21 | 2021-05-21 | 一种麦克风阵列的拾音方法、电子设备及存储介质 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311111347.9A CN117037830A (zh) | 2021-05-21 | 2021-05-21 | 一种麦克风阵列的拾音方法、电子设备及存储介质 |
CN202110556564.3A CN113470681B (zh) | 2021-05-21 | 2021-05-21 | 一种麦克风阵列的拾音方法、电子设备及存储介质 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110556564.3A Division CN113470681B (zh) | 2021-05-21 | 2021-05-21 | 一种麦克风阵列的拾音方法、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117037830A true CN117037830A (zh) | 2023-11-10 |
Family
ID=77871198
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110556564.3A Active CN113470681B (zh) | 2021-05-21 | 2021-05-21 | 一种麦克风阵列的拾音方法、电子设备及存储介质 |
CN202311111347.9A Pending CN117037830A (zh) | 2021-05-21 | 2021-05-21 | 一种麦克风阵列的拾音方法、电子设备及存储介质 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110556564.3A Active CN113470681B (zh) | 2021-05-21 | 2021-05-21 | 一种麦克风阵列的拾音方法、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN113470681B (zh) |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4989967B2 (ja) * | 2003-07-11 | 2012-08-01 | コクレア リミテッド | ノイズ低減のための方法および装置 |
EP1640971B1 (en) * | 2004-09-23 | 2008-08-20 | Harman Becker Automotive Systems GmbH | Multi-channel adaptive speech signal processing with noise reduction |
US20090012786A1 (en) * | 2007-07-06 | 2009-01-08 | Texas Instruments Incorporated | Adaptive Noise Cancellation |
EP2237270B1 (en) * | 2009-03-30 | 2012-07-04 | Nuance Communications, Inc. | A method for determining a noise reference signal for noise compensation and/or noise reduction |
CN101976565A (zh) * | 2010-07-09 | 2011-02-16 | 瑞声声学科技(深圳)有限公司 | 基于双麦克风语音增强装置及方法 |
CN102404672B (zh) * | 2011-10-27 | 2013-12-18 | 苏州上声电子有限公司 | 数字化扬声器阵列系统的通道均衡与波束控制方法和装置 |
CN107369456A (zh) * | 2017-07-05 | 2017-11-21 | 南京邮电大学 | 数字助听器中基于广义旁瓣抵消器的噪声消除方法 |
KR102475989B1 (ko) * | 2018-02-12 | 2022-12-12 | 삼성전자주식회사 | 오디오 신호의 주파수의 변화에 따른 위상 변화율에 기반하여 노이즈가 감쇠된 오디오 신호를 생성하는 장치 및 방법 |
-
2021
- 2021-05-21 CN CN202110556564.3A patent/CN113470681B/zh active Active
- 2021-05-21 CN CN202311111347.9A patent/CN117037830A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
CN113470681A (zh) | 2021-10-01 |
CN113470681B (zh) | 2023-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107742522B (zh) | 基于麦克风阵列的目标语音获取方法及装置 | |
CN108922554B (zh) | 基于对数谱估计的lcmv频率不变波束形成语音增强算法 | |
JP3216704B2 (ja) | 適応アレイ装置 | |
US9280965B2 (en) | Method for determining a noise reference signal for noise compensation and/or noise reduction | |
CN105575397B (zh) | 语音降噪方法及语音采集设备 | |
US20220109929A1 (en) | Cascaded adaptive interference cancellation algorithms | |
CN112331226B (zh) | 一种针对主动降噪系统的语音增强系统及方法 | |
US9589572B2 (en) | Stepsize determination of adaptive filter for cancelling voice portion by combining open-loop and closed-loop approaches | |
US20040258255A1 (en) | Post-processing scheme for adaptive directional microphone system with noise/interference suppression | |
WO2007123051A1 (ja) | 適応アレイ制御装置、方法、プログラム、及び適応アレイ処理装置、方法、プログラム | |
CN110491405A (zh) | 基于协同非线性自适应滤波的麦克风阵列语音增强方法 | |
CN110191245B (zh) | 一种基于时变参数的自适应回声消除方法 | |
CN112530451A (zh) | 基于去噪自编码器的语音增强方法 | |
CN113470681B (zh) | 一种麦克风阵列的拾音方法、电子设备及存储介质 | |
Yu et al. | Speech enhancement based on the generalized sidelobe cancellation and spectral subtraction for a microphone array | |
CN113362846B (zh) | 一种基于广义旁瓣相消结构的语音增强方法 | |
CN115346548A (zh) | 一种广义旁瓣抵消器及语音增强方法 | |
CN114724574A (zh) | 一种期望声源方向可调的双麦克风降噪方法 | |
DE102019105458B4 (de) | System und Verfahren zur Zeitverzögerungsschätzung | |
CN107483029B (zh) | 一种voip通讯中的自适应滤波器的长度调节方法及装置 | |
US8144863B2 (en) | Method and apparatus for echo cancellation | |
JP3765567B2 (ja) | 収音装置、収音方法、収音プログラムおよび記録媒体 | |
CN113658605B (zh) | 一种基于深度学习辅助rls滤波处理的语音增强方法 | |
CN115942194B (zh) | 用于听力康复治疗设备处理器的方向性处理方法及系统 | |
Shen et al. | Speech Noise Reduction by EMD-LMS |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |