CN113660578B - 拾音角度范围可调的双麦克风定向拾音方法和装置 - Google Patents
拾音角度范围可调的双麦克风定向拾音方法和装置 Download PDFInfo
- Publication number
- CN113660578B CN113660578B CN202110939767.0A CN202110939767A CN113660578B CN 113660578 B CN113660578 B CN 113660578B CN 202110939767 A CN202110939767 A CN 202110939767A CN 113660578 B CN113660578 B CN 113660578B
- Authority
- CN
- China
- Prior art keywords
- voice
- signal
- calculating
- frequency domain
- pickup
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000001228 spectrum Methods 0.000 claims abstract description 28
- 238000009499 grossing Methods 0.000 claims abstract description 18
- 230000009466 transformation Effects 0.000 claims abstract description 11
- 238000004364 calculation method Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 13
- 238000005070 sampling Methods 0.000 claims description 6
- 101100391172 Dictyostelium discoideum forA gene Proteins 0.000 claims description 5
- 230000009977 dual effect Effects 0.000 claims description 5
- 230000005251 gamma ray Effects 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 5
- 230000003595 spectral effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/08—Mouthpieces; Microphones; Attachments therefor
- H04R1/083—Special constructions of mouthpieces
Abstract
本发明实施例涉及拾音技术领域,公开了一种拾音角度范围可调的双麦克风定向拾音方法和装置。该方法包括:获取加窗后的两路麦克风各通道的单帧信号,并将两路麦克风单帧信号转换为频域信号;基于频域信号计算语音存在的先验概率;根据信号均值对应的噪声功率谱;基于频域信号、噪声功率谱以及平滑后的各频点语音存在的先验概率计算语音存在的后验概率;基于语音存在的后验概率计算语音的增益系数;将增益系数和信号均值的乘积作为两路麦克风通道叠加的频域信号,并进行傅里叶反变换,得到对应拾音角度范围内的时域信号。实施本发明实施例,可以实现指定角度范围的定向拾音,抑制指定角度范围之外的语音。
Description
技术领域
本发明涉及拾音技术领域,具体涉及一种拾音角度范围可调的双麦克风定向拾音方法和装置。
背景技术
在一些小型通信设备或者录音设备中,常需要利用双麦克风阵列来实现增强期望声音、抑制噪音,其基本思想是依赖声源定位检测结果,通过波束成形来提取期望区域的声源,传统的延时加成的方法通过估计声源定位结果来纠正两个声道直接的延时,再叠加两个声道数据在一定程度上抵消环境噪音。但是,在混响较大或嘈杂环境的中提取效果并不理想,还是需要借助谱减法达到最终降噪的目的,影响听音感受。
发明内容
针对所述缺陷,本发明实施例公开了一种拾音角度范围可调的双麦克风定向拾音方法和装置,可以实现指定角度范围的定向拾音,抑制指定角度范围之外的语音。
本发明实施例第一方面公开一种拾音角度范围可调的双麦克风定向拾音方法,所述方法包括:
获取加窗后的两路麦克风各通道的单帧信号,并将所述两路麦克风单帧信号转换为频域信号;
基于所述频域信号计算语音存在的先验概率,并对所述语音先验存在概率进行平滑处理,得到平滑后的各频点语音存在的先验概率;
基于所述频域信号计算所述两路麦克风各通道的信号均值,并根据所述信号均值对应的噪声功率谱;
基于所述频域信号、噪声功率谱以及平滑后的各频点语音存在的先验概率计算语音存在的后验概率;
基于所述语音存在的后验概率计算语音的增益系数;
将所述增益系数和所述信号均值的乘积作为两路麦克风通道叠加的频域信号,并将所述叠加的频域信号进行傅里叶反变换,得到对应拾音角度范围内的时域信号。
作为较佳的实施例,在本发明实施例第一方面中,获取加窗后的两路麦克风各通道的单帧信号,并将所述两路麦克风单帧信号转换为频域信号,包括:
对接收的两路麦克风各通道的单帧信号进行加窗处理,得到两路麦克风各通道的单帧信号,分别为x1(n)和x2(n),其中,n为正整数,1≤n≤L,L为帧叠后的一帧语音数据的长度;
随所述两路单帧信号分别进行快速傅里叶变换,得到两路频域信号,分别为X1(k)和X2(k)其中,k为正整数,表示频点序号,1≤k≤L。
作为较佳的实施例,在本发明实施例第一方面中,基于所述频域信号计算语音存在的先验概率,并对所述语音先验存在概率进行平滑处理,得到平滑后的各频点语音存在的先验概率,包括:
计算语音存在的先验概率:
其中,ΔΨ(k)表示频点K所对应的相位差,即:
ΔΨ(k)=∠X1(k)-∠X2(k)
符号∠表示取相位;ζ(k)表示相位差阈值:
fs表示采样频率,d表示两个麦克风之间的直线距离,c表示空气中的声速,通常取340m/s,θ表示拾音角度;
对相邻频点的语音存在的先验概率进行平滑处理,得到平滑后的各频点语音存在的先验概率
其中,w(i)表示Gammatone滤波器系数,0≤i≤I-1,I为Gammatone通道的数量;w(i)按照下式进行计算:
其中,表示两路麦克风信号的信号均值:
Hi(k)表示Gammatone滤波器曲线的采样值。
作为较佳的实施例,在本发明实施例第一方面中,基于所述频域信号计算所述两路麦克风各通道的信号均值,并根据所述信号均值对应的噪声功率谱,包括:
以作为单通道语音信号,按照噪声谱估计方法计算/>对应的噪声功率谱λ(k)。
作为较佳的实施例,在本发明实施例第一方面中,基于所述频域信号、噪声功率谱以及平滑后的各频点语音存在的先验概率计算语音存在的后验概率,包括:
计算后验信噪比γs(k):
计算语音存在的先验概率的均值以先验概率的均值作为判断单帧信号是否存在语音的标识:
其中,kmax和kmin分别表示最大频点和最小频点对应的序号;
计算语音不存在的后验概率q(k):
其中,表示先验概率均值的阈值,与拾音范围角度的大小有关系;γmax表示后验信噪比的最大值;
计算先验信噪比ξ(k):
ξ(k)=max(γs(k)-1,0)
计算语音存在的后验概率Ppos(k):
其中,
作为较佳的实施例,在本发明实施例第一方面中,基于所述语音存在的后验概率计算语音的增益系数,包括:
计算增益系数G(k):
G(k)=G0(k)p(k)*(Gmin)1-p(k)
其中,
Gmin表示增益的最小值,取值越小,对噪声和非拾音范围内的语音压制就越强,但拾音范围内的语音失真度会越大。
作为较佳的实施例,在本发明实施例第一方面中,将所述增益系数和所述信号均值的乘积作为两路麦克风通道叠加的频域信号,并将所述叠加的频域信号进行傅里叶反变换,得到对应拾音角度范围内的时域信号,包括:
计算两路麦克风通道叠加的频域信号Y(k):
将Y(k)进行傅里叶反变换,可得处理后的时域信号y(n):
y(n)=IFFT(Y(k))
将各时域信号y(n)利用重叠相加法进行叠加处理,得到该帧语音数据最终的时域信号。
本发明实施例第二方面公开了拾音角度范围可调的双麦克风定向拾音装置,其包括:
获取单元,用于获取加窗后的两路麦克风各通道的单帧信号,并将所述两路麦克风单帧信号转换为频域信号;
第一计算单元,用于基于所述频域信号计算语音存在的先验概率,并对所述语音先验存在概率进行平滑处理,得到平滑后的各频点语音存在的先验概率;
第二计算单元,用于基于所述频域信号计算所述两路麦克风各通道的信号均值,并根据所述信号均值对应的噪声功率谱;
第三计算单元,用于基于所述频域信号、噪声功率谱以及平滑后的各频点语音存在的先验概率计算语音存在的后验概率;
第四计算单元,用于基于所述语音存在的后验概率计算语音的增益系数;
处理单元,用于将所述增益系数和所述信号均值的乘积作为两路麦克风通道叠加的频域信号,并将所述叠加的频域信号进行傅里叶反变换,得到对应拾音角度范围内的时域信号。
本发明实施例第三方面公开一种电子设备,包括:存储有可执行程序代码的存储器;与所述存储器耦合的处理器;所述处理器调用所述存储器中存储的所述可执行程序代码,用于执行本发明实施例第一方面公开的一种拾音角度范围可调的双麦克风定向拾音方法。
本发明实施例第四方面公开一种计算机可读存储介质,其存储计算机程序,其中,所述计算机程序使得计算机执行本发明实施例第一方面公开的一种拾音角度范围可调的双麦克风定向拾音方法。
本发明实施例第五方面公开一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得所述计算机执行本发明实施例第一方面公开的一种拾音角度范围可调的双麦克风定向拾音方法。
本发明实施例第六方面公开一种应用发布平台,所述应用发布平台用于发布计算机程序产品,其中,当所述计算机程序产品在计算机上运行时,使得所述计算机执行本发明实施例第一方面公开的一种拾音角度范围可调的双麦克风定向拾音方法。
与现有技术相比,本发明实施例具有以下有益效果:
本发明实施例利用两个麦克风组成一个拾音麦克风阵列,采用语音存在先验概率的均值作为语音是否存在标记,再通过语音不存在的后验概率的计算方法,最后调整语音存在先验概率均值的阈值来控制拾音范围的方式来实现指定角度范围的定向拾音,抑制指定角度范围之外的语音,而且拾音角度范围可以调节;可应用到车载环境以及各种嘈杂环境的定向拾音中。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人体来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例公开的一种拾音角度范围可调的双麦克风定向拾音方法的流程示意图;
图2是本发明实施例公开的原始录音的信号曲线图;
图3是本发明实施例公开的拾音范围θ=±15°的拾音效果图;
图4是本发明实施例公开的拾音范围θ=±30°的拾音效果图;
图5是本发明实施例公开的拾音范围θ=±45°的拾音效果图;
图6是本发明实施例公开的一种拾音角度范围可调的双麦克风定向拾音装置的结构示意图;
图7是本发明实施例公开的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人体在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书中的术语“第一”、“第二”、“第三”、“第四”等是用于区别不同的对象,而不是用于描述特定顺序。本发明实施例的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,示例性地,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例公开了一种拾音角度范围可调的双麦克风定向拾音方法和装置,可以实现指定角度范围的定向拾音,抑制指定角度范围之外的语音,而且拾音角度范围可以调节;以下结合附图进行详细描述。
实施例一
请参阅图1,图1是本发明实施例公开的一种拾音角度范围可调的双麦克风定向拾音方法的流程示意图。如图1所示,该拾音角度范围可调的双麦克风定向拾音方法包括以下步骤:
S110、获取加窗后的两路麦克风各通道的单帧信号,并将所述两路麦克风单帧信号转换为频域信号。
语音长时非平稳的,但认为短时平稳,一般认为在10ms的语音是平稳的。因此,常规的处理方式都是对语音按照10ms一帧的方式进行处理。连续两帧之间存在一定比例的帧叠,以保证语音的连续性。
语音分帧之后,对语音进行加窗处理,以避免频谱泄漏。
令L表示考虑了帧叠之后的一帧数据长度,x1(n)和x2(n),n=1,2,…,L表示加窗后的两路麦克风单帧信号。对两路信号通过快速傅里叶变换FFT后,得到频域后的信号为X1(k)和X2(k),k=1,2,…,L,其中,k表示频点序号。
接下来所有的处理都将立足于频域信号X1(k)和X2(k)。
S120、基于所述频域信号计算语音存在的先验概率,并对所述语音先验存在概率进行平滑处理,得到平滑后的各频点语音存在的先验概率。
计算语音存在的先验概率P(k)。
理论上可以认为,当说话者处于某个角度(相对于麦克风)输出语音信号时,两路麦克风所接收的信号只存在相位上的差异。因此,可根据两路信号的相位差,来判断各个频点下语音是否存在。
其中,ΔΨ(k)表示频点K所对应的相位差,即:
ΔΨ(k)=∠X1(k)-∠X2(k)
符号∠表示取相位,需要注意的,相位差ΔΨ(k)需要解卷绕到(-π,π]的区间中;ζ(k)表示相位差阈值:
fs表示采样频率(Hz),d表示两个麦克风之间的直线距离(m),c表示空气中的声速,通常取340m/s,θ表示拾音角度;
考虑到相邻频点之间存在高度的相关性,因此,可以对相邻频点的语音存在概率进行平滑,提高频率计算结果的准确性和相邻帧之间结果的连续性对相邻频点的语音存在的先验概率进行平滑处理,得到平滑后的各频点语音存在的先验概率
其中,w(i)表示Gammatone滤波器系数,0≤i≤I-1,I为Gammatone通道的数量,典型值为I=20或40等,根据具体需求而定;w(i)按照下式进行计算:
其中,表示两路麦克风信号的信号均值:
Hi(k)表示Gammatone滤波器曲线的采样值。
S130、基于所述频域信号计算所述两路麦克风各通道的信号均值,并根据所述信号均值对应的噪声功率谱。
以作为单通道语音信号,按照常见的噪声谱估计方法,如最小值追踪方法等,计算/>对应的噪声功率谱λ(k)。
S140、基于所述频域信号、噪声功率谱以及平滑后的各频点语音存在的先验概率计算语音存在的后验概率。
计算后验信噪比γs(k):
计算语音存在的先验概率的均值以先验概率的均值作为判断单帧信号是否存在语音的标识:
其中,kmax和kmin分别表示最大频点和最小频点对应的序号。考虑到语音信号在低频范围内方向性不够明显,kmin的取值应该保证对应的频率在1kHz左右;kmax的取值与两个麦克风的间距d有关,通常需要保证对应的频率最高不超过4kHz。
计算语音不存在的后验概率q(k):
其中,表示先验概率均值的阈值,与拾音范围角度的大小有关系,当确定了拾音范围角度之后,方可确定这个阈值;γmax表示后验信噪比的最大值,取4~5之间的值,可取得较好的调试结果。
计算先验信噪比ξ(k):
ξ(k)=max(γs(k)-1,0)
计算语音存在的后验概率Ppos(k):
其中,
S150、基于所述语音存在的后验概率计算语音的增益系数。
计算增益系数G(k):
G(k)=G0(k)p(k)*(Gmin)1-p(k)
其中,
Gmin表示增益的最小值,取值越小,对噪声和非拾音范围内的语音压制就越强,但拾音范围内的语音失真度会越大。因此,应该兼顾这两个因素进行取值,通常至少取值为0.1,以避免处理后的语音信号过度失真
S160、将所述增益系数和所述信号均值的乘积作为两路麦克风通道叠加的频域信号,并将所述叠加的频域信号进行傅里叶反变换,得到对应拾音角度范围内的时域信号。
计算两路麦克风通道叠加的频域信号Y(k):
将Y(k)进行傅里叶反变换,可得处理后的时域信号y(n):
y(n)=IFFT(Y(k))
将各时域信号y(n)利用重叠相加法进行叠加处理,得到该帧语音数据最终的时域信号。
以下通过一具体实例对本发明的原理和效果进行说明:
(1)双麦克风定向拾音设备参数和录音参数。
双麦克风间距d=5cm;采样周期fs=16000Hz;指向性麦克风。
单个说话人在双麦克风连线中心点位置正前方(θ=0°)、θ=±15°、θ=±30°、θ=±45°、θ=±60°、θ=±75°和θ=±90°的方向各说一段话,具体内容为从1读到10。
记录的信号曲线如图2所示:
根据要求,设定了三个拾音角度范围,分别为θ=±15°、θ=±30°和θ=±45°。θ=±15°时,参数θ=±30°时,参数/>θ=±45°时,参数/>对应的定向拾音结果分别如图3-图5所示。
从图3-图5可以看出,拾音范围内的语音得到了较好的保留,而拾音范围之外的声音得到很好的抑制。试验结果表明,拾音范围内的语音相对于范围之外的语音,相差15dB左右,证实了该方案的有效性。
综上所述,本发明实施例采用语音存在先验概率的均值作为语音是否存在标记,再通过语音不存在的后验概率的计算方法,最后调整语音存在先验概率均值的阈值来控制拾音范围的方式来实现指定角度范围的定向拾音,抑制指定角度范围之外的语音,而且拾音角度范围可以调节。
实施例二
请参阅图6,图6是本发明实施例公开的一种拾音角度范围可调的双麦克风定向拾音装置的结构示意图。如图6所示,该拾音角度范围可调的双麦克风定向拾音装置,可以包括:
获取单元210,用于获取加窗后的两路麦克风各通道的单帧信号,并将所述两路麦克风单帧信号转换为频域信号;
第一计算单元220,用于基于所述频域信号计算语音存在的先验概率,并对所述语音先验存在概率进行平滑处理,得到平滑后的各频点语音存在的先验概率;
第二计算单元230,用于基于所述频域信号计算所述两路麦克风各通道的信号均值,并根据所述信号均值对应的噪声功率谱;
第三计算单元240,用于基于所述频域信号、噪声功率谱以及平滑后的各频点语音存在的先验概率计算语音存在的后验概率;
第四计算单元250,用于基于所述语音存在的后验概率计算语音的增益系数;
处理单元260,用于将所述增益系数和所述信号均值的乘积作为两路麦克风通道叠加的频域信号,并将所述叠加的频域信号进行傅里叶反变换,得到对应拾音角度范围内的时域信号。
优选地,所述获取单元210,可以包括:
接收子单元,用于对接收的两路麦克风各通道的单帧信号进行加窗处理,得到两路麦克风各通道的单帧信号,分别为x1(n)和x2(n),其中,n为正整数,1≤n≤L,L为帧叠后的一帧语音数据的长度;
变换子单元,用于随所述两路单帧信号分别进行快速傅里叶变换,得到两路频域信号,分别为X1(k)和X2(k)其中,k为正整数,表示频点序号,1≤k≤L。
优选地,所述第一计算单元220,可以包括:
存在先验概率计算子单元,用于计算语音存在的先验概率:
其中,ΔΨ(k)表示频点K所对应的相位差,即:
ΔΨ(k)=∠X1(k)-∠X2(k)
符号∠表示取相位;ζ(k)表示相位差阈值:
fs表示采样频率,d表示两个麦克风之间的直线距离,c表示空气中的声速,通常取340m/s,θ表示拾音角度;
平滑处理子单元,用于对相邻频点的语音存在的先验概率进行平滑处理,得到平滑后的各频点语音存在的先验概率
其中,w(i)表示Gammatone滤波器系数,0≤i≤I-1,I为Gammatone通道的数量;w(i)按照下式进行计算:
其中,表示两路麦克风信号的信号均值:
Hi(k)表示Gammatone滤波器曲线的采样值。
优选地,所述第二计算单元230,可以包括:
以作为单通道语音信号,按照噪声谱估计方法计算/>对应的噪声功率谱λ(k)。
优选地,所述第三计算单元240,可以包括:
后验信噪比计算子单元,用于计算后验信噪比γs(k):
存在先验概率均值计算子单元,用于计算语音存在的先验概率的均值以先验概率的均值作为判断单帧信号是否存在语音的标识:
其中,kmax和kmin分别表示最大频点和最小频点对应的序号;
不存在后验概率计算子单元,用于计算语音不存在的后验概率q(k):
其中,表示先验概率均值的阈值,与拾音范围角度的大小有关系;γmax表示后验信噪比的最大值;
先验信噪比计算子单元,用于计算先验信噪比ξ(k):
ξ(k)=max(γs(k)-1,0)
存在后验概率计算子单元,用于计算语音存在的后验概率Ppos(k):
其中,
优选地,所述第四计算单元250,可以包括:
增益系数计算子单元,用于计算增益系数G(k):
G(k)=G0(k)p(k)*(Gmin)1-p(k)
其中,
Gmin表示增益的最小值,取值越小,对噪声和非拾音范围内的语音压制就越强,但拾音范围内的语音失真度会越大。
优选地,所述处理单元260,可以包括:
相乘子单元,用于计算两路麦克风通道叠加的频域信号Y(k):
傅里叶反变换子单元,用于将Y(k)进行傅里叶反变换,可得处理后的时域信号y(n):
y(n)=IFFT(Y(k))
叠加子单元,用于将各时域信号y(n)利用重叠相加法进行叠加处理,得到该帧语音数据最终的时域信号。
实施例三
请参阅图7,图7是本发明实施例公开的一种电子设备的结构示意图。如图7所示,该电子设备可以包括:
存储有可执行程序代码的存储器310;
与存储器310耦合的处理器320;
其中,处理器320调用存储器310中存储的可执行程序代码,执行实施例一中的一种拾音角度范围可调的双麦克风定向拾音方法中的部分或全部步骤。
本发明实施例公开一种计算机可读存储介质,其存储计算机程序,其中,该计算机程序使得计算机执行实施例一中的一种拾音角度范围可调的双麦克风定向拾音方法中的部分或全部步骤。
本发明实施例还公开一种计算机程序产品,其中,当计算机程序产品在计算机上运行时,使得计算机执行实施例一中的一种拾音角度范围可调的双麦克风定向拾音方法中的部分或全部步骤。
本发明实施例还公开一种应用发布平台,其中,应用发布平台用于发布计算机程序产品,其中,当计算机程序产品在计算机上运行时,使得计算机执行实施例一中的一种拾音角度范围可调的双麦克风定向拾音方法中的部分或全部步骤。
在本发明的各种实施例中,应理解,所述各过程的序号的大小并不意味着执行顺序的必然先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物单元,即可位于一个地方,或者也可以分布到多个网络单元上。可根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。所述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元若以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可获取的存储器中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或者部分,可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干请求用以使得一台计算机设备(可以为个人计算机、服务器或者网络设备等,具体可以是计算机设备中的处理器)执行本发明的各个实施例所述方法的部分或全部步骤。
在本发明所提供的实施例中,应理解,“与A对应的B”表示B与A相关联,根据A可以确定B。但还应理解,根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其他信息确定B。
本领域普通技术人体可以理解所述实施例的各种方法中的部分或全部步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
以上对本发明实施例公开的一种拾音角度范围可调的双麦克风定向拾音方法和装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (6)
1.一种拾音角度范围可调的双麦克风定向拾音方法,其特征在于,包括:
获取加窗后的两路麦克风各通道的单帧信号,并将所述两路麦克风单帧信号转换为频域信号;
基于所述频域信号计算语音存在的先验概率,并对所述语音先验存在概率进行平滑处理,得到平滑后的各频点语音存在的先验概率;
基于所述频域信号计算所述两路麦克风各通道的信号均值,并根据所述信号均值对应的噪声功率谱;
基于所述频域信号、噪声功率谱以及平滑后的各频点语音存在的先验概率计算语音存在的后验概率;
基于所述语音存在的后验概率计算语音的增益系数;
将所述增益系数和所述信号均值的乘积作为两路麦克风通道叠加的频域信号,并将所述叠加的频域信号进行傅里叶反变换,得到对应拾音角度范围内的时域信号;
其中,获取加窗后的两路麦克风各通道的单帧信号,并将所述两路麦克风单帧信号转换为频域信号,包括:
对接收的两路麦克风各通道的单帧信号进行加窗处理,得到两路麦克风各通道的单帧信号,分别为x1(n)和x2(n),其中,n为正整数,1≤n≤L,L为帧叠后的一帧语音数据的长度;
随所述两路单帧信号分别进行快速傅里叶变换,得到两路频域信号,分别为X1(k)和X2(k)其中,k为正整数,表示频点序号,1≤k≤L;
基于所述频域信号计算语音存在的先验概率,并对所述语音先验存在概率进行平滑处理,得到平滑后的各频点语音存在的先验概率,包括:
计算语音存在的先验概率:
其中,ΔΨ(k)表示频点K所对应的相位差,即:
ΔΨ(k)=∠X1(k)-∠X2(k)
符号∠表示取相位;ζ(k)表示相位差阈值:
fs表示采样频率,d表示两个麦克风之间的直线距离,c表示空气中的声速,通常取340m/s,θ表示拾音角度;
对相邻频点的语音存在的先验概率进行平滑处理,得到平滑后的各频点语音存在的先验概率
其中,w(i)表示Gammatone滤波器系数,0≤i≤I-1,I为Gammatone通道的数量;w(i)按照下式进行计算:
其中,表示两路麦克风信号的信号均值:
Hi(k)表示Gammatone滤波器曲线的采样值;
基于所述频域信号计算所述两路麦克风各通道的信号均值,并根据所述信号均值对应的噪声功率谱,包括:
以作为单通道语音信号,按照噪声谱估计方法计算/>对应的噪声功率谱λ(k);
基于所述频域信号、噪声功率谱以及平滑后的各频点语音存在的先验概率计算语音存在的后验概率,包括:
计算后验信噪比γs(k):
计算语音存在的先验概率的均值以先验概率的均值作为判断单帧信号是否存在语音的标识:
其中,kmax和kmin分别表示最大频点和最小频点对应的序号;
计算语音不存在的后验概率q(k):
其中,表示先验概率均值的阈值,与拾音范围角度的大小有关系;γmax表示后验信噪比的最大值;
计算先验信噪比ξ(k):
ξ(k)=max(γs(k)-1,0)
计算语音存在的后验概率Ppos(k):
其中,
2.根据权利要求1所述的拾音角度范围可调的双麦克风定向拾音方法,其特征在于,基于所述语音存在的后验概率计算语音的增益系数,包括:
计算增益系数G(k):
G(k)=G0(k)p(k)*(Gmin)1-p(k)
其中,
Gmin表示增益的最小值,取值越小,对噪声和非拾音范围内的语音压制就越强,但拾音范围内的语音失真度会越大。
3.根据权利要求2所述的拾音角度范围可调的双麦克风定向拾音方法,其特征在于,将所述增益系数和所述信号均值的乘积作为两路麦克风通道叠加的频域信号,并将所述叠加的频域信号进行傅里叶反变换,得到对应拾音角度范围内的时域信号,包括:
计算两路麦克风通道叠加的频域信号Y(k):
将Y(k)进行傅里叶反变换,可得处理后的时域信号y(n):
y(n)=IFFT(Y(k))
将各时域信号y(n)利用重叠相加法进行叠加处理,得到该帧语音数据最终的时域信号。
4.一种拾音角度范围可调的双麦克风定向拾音装置,其特征在于,其包括:
获取单元,用于获取加窗后的两路麦克风各通道的单帧信号,并将所述两路麦克风单帧信号转换为频域信号;
第一计算单元,用于基于所述频域信号计算语音存在的先验概率,并对所述语音先验存在概率进行平滑处理,得到平滑后的各频点语音存在的先验概率;
第二计算单元,用于基于所述频域信号计算所述两路麦克风各通道的信号均值,并根据所述信号均值对应的噪声功率谱;
第三计算单元,用于基于所述频域信号、噪声功率谱以及平滑后的各频点语音存在的先验概率计算语音存在的后验概率;
第四计算单元,用于基于所述语音存在的后验概率计算语音的增益系数;
处理单元,用于将所述增益系数和所述信号均值的乘积作为两路麦克风通道叠加的频域信号,并将所述叠加的频域信号进行傅里叶反变换,得到对应拾音角度范围内的时域信号;
其中,获取单元,包括:
对接收的两路麦克风各通道的单帧信号进行加窗处理,得到两路麦克风各通道的单帧信号,分别为x1(n)和x2(n),其中,n为正整数,1≤n≤L,L为帧叠后的一帧语音数据的长度;
随所述两路单帧信号分别进行快速傅里叶变换,得到两路频域信号,分别为X1(k)和X2(k)其中,k为正整数,表示频点序号,1≤k≤L;
第一计算单元,包括:
计算语音存在的先验概率:
其中,ΔΨ(k)表示频点K所对应的相位差,即:
ΔΨ(k)=∠X1(k)-∠X2(k)
符号∠表示取相位;ζ(k)表示相位差阈值:
fs表示采样频率,d表示两个麦克风之间的直线距离,c表示空气中的声速,通常取340m/s,θ表示拾音角度;
对相邻频点的语音存在的先验概率进行平滑处理,得到平滑后的各频点语音存在的先验概率
其中,w(i)表示Gammatone滤波器系数,0≤i≤I-1,I为Gammatone通道的数量;w(i)按照下式进行计算:
其中,表示两路麦克风信号的信号均值:
Hi(k)表示Gammatone滤波器曲线的采样值;
第二计算单元,包括:
以作为单通道语音信号,按照噪声谱估计方法计算/>对应的噪声功率谱λ(k);
第三计算单元,包括:
计算后验信噪比γs(k):
计算语音存在的先验概率的均值以先验概率的均值作为判断单帧信号是否存在语音的标识:
其中,kmax和kmin分别表示最大频点和最小频点对应的序号;
计算语音不存在的后验概率q(k):
其中,表示先验概率均值的阈值,与拾音范围角度的大小有关系;γmax表示后验信噪比的最大值;
计算先验信噪比ξ(k):
ξ(k)=max(γs(k)-1,0)
计算语音存在的后验概率Ppos(k):
其中,
5.一种电子设备,其特征在于,包括:存储有可执行程序代码的存储器;与所述存储器耦合的处理器;所述处理器调用所述存储器中存储的所述可执行程序代码,用于执行权利要求1至3任一项所述的一种拾音角度范围可调的双麦克风定向拾音方法。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机程序,其中,所述计算机程序使得计算机执行权利要求1至3任一项所述的一种拾音角度范围可调的双麦克风定向拾音方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110939767.0A CN113660578B (zh) | 2021-08-16 | 2021-08-16 | 拾音角度范围可调的双麦克风定向拾音方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110939767.0A CN113660578B (zh) | 2021-08-16 | 2021-08-16 | 拾音角度范围可调的双麦克风定向拾音方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113660578A CN113660578A (zh) | 2021-11-16 |
CN113660578B true CN113660578B (zh) | 2023-11-28 |
Family
ID=78479331
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110939767.0A Active CN113660578B (zh) | 2021-08-16 | 2021-08-16 | 拾音角度范围可调的双麦克风定向拾音方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113660578B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115567864B (zh) * | 2022-12-02 | 2024-03-01 | 浙江华创视讯科技有限公司 | 麦克风增益的调整方法和装置、存储介质及电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101916567A (zh) * | 2009-11-23 | 2010-12-15 | 瑞声声学科技(深圳)有限公司 | 应用于双麦克风系统的语音增强方法 |
JP2013186383A (ja) * | 2012-03-09 | 2013-09-19 | Nippon Telegr & Teleph Corp <Ntt> | 音源分離装置、音源分離方法、およびプログラム |
CN107331386A (zh) * | 2017-06-26 | 2017-11-07 | 上海智臻智能网络科技股份有限公司 | 音频信号的端点检测方法、装置、处理系统及计算机设备 |
CN107393550A (zh) * | 2017-07-14 | 2017-11-24 | 深圳永顺智信息科技有限公司 | 语音处理方法及装置 |
-
2021
- 2021-08-16 CN CN202110939767.0A patent/CN113660578B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101916567A (zh) * | 2009-11-23 | 2010-12-15 | 瑞声声学科技(深圳)有限公司 | 应用于双麦克风系统的语音增强方法 |
JP2013186383A (ja) * | 2012-03-09 | 2013-09-19 | Nippon Telegr & Teleph Corp <Ntt> | 音源分離装置、音源分離方法、およびプログラム |
CN107331386A (zh) * | 2017-06-26 | 2017-11-07 | 上海智臻智能网络科技股份有限公司 | 音频信号的端点检测方法、装置、处理系统及计算机设备 |
CN107393550A (zh) * | 2017-07-14 | 2017-11-24 | 深圳永顺智信息科技有限公司 | 语音处理方法及装置 |
Non-Patent Citations (1)
Title |
---|
基于连续频谱最小值跟踪的语音增强算法;邵虹;王杰;;电子测量技术(14);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113660578A (zh) | 2021-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109215677B (zh) | 一种适用于语音和音频的风噪检测和抑制方法和装置 | |
US8762137B2 (en) | Target voice extraction method, apparatus and program product | |
US9467775B2 (en) | Method and a system for noise suppressing an audio signal | |
JP5272920B2 (ja) | 信号処理装置、信号処理方法、および信号処理プログラム | |
US8885839B2 (en) | Signal processing method and apparatus | |
US8300846B2 (en) | Appratus and method for preventing noise | |
US20120179458A1 (en) | Apparatus and method for estimating noise by noise region discrimination | |
US20110054891A1 (en) | Method of filtering non-steady lateral noise for a multi-microphone audio device, in particular a "hands-free" telephone device for a motor vehicle | |
US20090232318A1 (en) | Output correcting device and method, and loudspeaker output correcting device and method | |
CN110706719B (zh) | 一种语音提取方法、装置、电子设备及存储介质 | |
US8666737B2 (en) | Noise power estimation system, noise power estimating method, speech recognition system and speech recognizing method | |
US11749294B2 (en) | Directional speech separation | |
CN112485761B (zh) | 一种基于双麦克风的声源定位方法 | |
CN113660578B (zh) | 拾音角度范围可调的双麦克风定向拾音方法和装置 | |
JP2010124370A (ja) | 信号処理装置、信号処理方法、および信号処理プログラム | |
US20120232895A1 (en) | Apparatus and method for discriminating speech, and computer readable medium | |
JP4098647B2 (ja) | 音響信号の残響除去方法、装置、及び音響信号の残響除去プログラム、そのプログラムを記録した記録媒体 | |
CN115932733A (zh) | 声源定位及语音增强方法、装置 | |
WO2020110228A1 (ja) | 情報処理装置、プログラム及び情報処理方法 | |
CN116106826A (zh) | 声源定位方法、相关装置和介质 | |
Tachioka et al. | Direction of arrival estimation by cross-power spectrum phase analysis using prior distributions and voice activity detection information | |
KR20090098552A (ko) | 위상정보를 이용한 자동 이득 조절 장치 및 방법 | |
JP6638248B2 (ja) | 音声判定装置、方法及びプログラム、並びに、音声信号処理装置 | |
JPH1155784A (ja) | 場内拡声方法およびその装置 | |
JP3540988B2 (ja) | 発音体指向性補正方法およびその装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |