CN112420068A - 一种基于Mel频率尺度分频的快速自适应波束形成方法 - Google Patents
一种基于Mel频率尺度分频的快速自适应波束形成方法 Download PDFInfo
- Publication number
- CN112420068A CN112420068A CN202011146181.0A CN202011146181A CN112420068A CN 112420068 A CN112420068 A CN 112420068A CN 202011146181 A CN202011146181 A CN 202011146181A CN 112420068 A CN112420068 A CN 112420068A
- Authority
- CN
- China
- Prior art keywords
- frequency
- mel
- voice
- frame
- band
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000001228 spectrum Methods 0.000 claims abstract description 32
- 239000011159 matrix material Substances 0.000 claims abstract description 16
- 239000013598 vector Substances 0.000 claims abstract description 15
- 238000012545 processing Methods 0.000 claims abstract description 11
- 238000009432 framing Methods 0.000 claims abstract description 7
- 238000013507 mapping Methods 0.000 claims abstract description 7
- 238000005070 sampling Methods 0.000 claims description 7
- 230000003044 adaptive effect Effects 0.000 claims description 5
- 230000017105 transposition Effects 0.000 claims 1
- 238000005516 engineering process Methods 0.000 description 5
- 230000003993 interaction Effects 0.000 description 5
- 238000013461 design Methods 0.000 description 3
- 102100026436 Regulator of MON1-CCZ1 complex Human genes 0.000 description 2
- 101710180672 Regulator of MON1-CCZ1 complex Proteins 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开了一种基于Mel频率尺度分频的快速自适应波束形成方法,包括语音信号分帧和加窗后得到语音帧;对语音帧进行FFT变换得到频谱再映射成Mel频谱;将频谱划分成Mel频率子带,计算频率子带的阵列方向矢量、数据协方差矩阵和Mel频率子带对应的语音帧的权值;频率子带与权值相乘累加得到处理后的语音帧;将语音帧经过通道叠加、频域补全处理后,再经过逆傅里叶变换得到语音帧时域信号;再将语音帧时域信号加窗并重叠相加,得到输出语音。在MVDR波束形成方法的基础上,对分帧后的语音信号进行Mel频带划分,将傅氏频点的加权运算替换成了Mel频带的加权运算,减少了矩阵求逆运算,提高运算速度和输出语音的质量。
Description
技术领域
本发明涉及智能家电语音交互技术领域,具体的说,是一种基于Mel频率尺度分频的快速自适应波束形成方法。
背景技术
随着物联网和人工智能等新一代信息技术的发展和应用,人机智能语音交互技术逐渐成为新型交互技术中最重要的一类技术。智能语音交互技术的便利程度与物联网、人工智能的发展程度成正比,设备或机器的智能程度越高,智能语音交互的程度等级也越高。作为智能语音识别系统中最重要的语音前端处理算法,麦克风阵列波束形成是一种集时间和空间信息的信号处理技术,它通过麦克风阵列采集由空间发送的语音信号并通过阵列信号处理的手段处理语音信号。麦克风阵列波束形成器本质是一个空间滤波器,它可以增强期望方向的语音并抑制无关方向的噪声及干扰。由于语音信号是典型的宽带信号,当采用常规的波束形成方法进行语音增强时,由于不同的频率分量对应的阵列方向矢量不相等,即不同的频率分量对应的波束主瓣宽度不一致,这会导致阵列处理后的语音频谱发生畸变。这种畸变会对语音识别系统的性能产生不良的影响。所以需要针对不同的频率分量设计不同的加权矢量来保证得到无失真的语音信号。基于频率点加权的最小方差无畸变响应(Minimum Variance Distortionless Response,MVDR)波束设计方法可以对语音信号进行增强,但是由于该方法中有大量的矩阵求逆运算,所以使用该方法会大大影响语音识别系统的唤醒速度和性能。因此,提高波束形成算法的运算速度,提高智能语音识别系统的唤醒速度在智慧家居产品中也就显得极其重要。
现有技术中也有一些改进传统MVDR方法语音增强效果的方法,但是均没有从减少MVDR自适应波束形成器的运算复杂度方面提高波束形成器的性能以及提高波束形成的速度。
发明内容
本发明的目的在于提供基于Mel频率尺度分频的快速自适应波束形成方法,用于解决现有技术中采用传统MVDR波束设计方法对语音信号增强存在唤醒速度和性能受影响的问题。
本发明通过下述技术方案解决上述问题:
一种基于Mel频率尺度分频的快速自适应波束形成方法,包括:
步骤S100:采用麦克风均匀圆形阵列采集语音信号,并对语音信号进行分帧和加窗处理,得到多个语音帧;
步骤S200:对每个语音帧分别进行离散傅里叶变换得到频谱,再将频谱映射到Mel频率尺度得到Mel频谱;
步骤S300:将Mel频谱进行频带划分,得到Mel频率子带,计算每个Mel频率子带中心频率对应的阵列方向矢量,并计算每个Mel频率子带对应的数据协方差矩阵以及数据协方差逆矩阵;
步骤S400:根据所述阵列方向矢量和数据协方差逆矩阵计算每个Mel频率子带对应的语音帧的权值;
步骤S500:将每个Mel频率子带与对应的权值相乘累加得到处理后的语音帧;
步骤S600:将处理后的语音帧经过通道叠加、频域补全处理后,再经过逆傅里叶变换得到语音帧时域信号;再将语音帧时域信号加窗并重叠相加,得到输出语音。
所述步骤S100中分帧为将语音信号分为256个数据采样点、帧移位为116个采样点的语音帧;所述加窗为使用256个数据采样点的汉明窗对语音信号进行加窗。
语音帧的离散傅里叶变换方法为:
其中,Xi(k)为第i个语音帧经过傅里叶变换后的频谱,xi(n)表示第i帧的语音信号,k表示语音帧中的频率点,L表示每个语音帧的数据采样点长度,L取值为256。
将频谱映射到Mel频率尺度得到Mel频谱Xi(k)'的映射方法为:Mel(f)=1125lg(1+f/700)。
将Mel频谱进行频带划分得到Mel频率子带的方法为:
采用128个点对Mel频谱进行频带划分,选取每8个频率点为一个子带,共计16个频率子带,即:
Xi(k)'=∑Xi,j(k)',k=8×(j-1)+1
其中,Xi,j(k)'表示第i个Mel频谱划分的第j个Mel频率子带,j=1,2,...,16,k表示第j个频率子带对应的中心频率点。
所述麦克风均匀圆形阵列包括6个阵元。
计算第i个Mel频谱的每个Mel频率子带中心频率对应的阵列方向矢量ai,j的公式为:
ai,j=exp[2iπf0(j)τm]
其中:f0(j)表示第j个频带的中心频率,τm表示第m个阵元相对于参考阵元的平面波传播时延,m=1,2,...,6,θ为估计的来波方向。
所述步骤S400计算每个Mel频率子带对应的语音帧的权值的公式为:
其中,Ri,j为第i帧Mel频谱第j个频率子带的数据协方差矩阵,Wi,j表示第i帧语音第j个频率子带的阵列加权矢量,符号(·)-1表示矩阵求逆,(·)H表示求共轭转置。
语音帧时域信号yi(n):
yi(n)=IFFT(Yi(k))
其中,Yi(k)为处理后的语音帧Yi,j(k)经通道叠加和频域补全后的语音帧频域表示;
语音帧时域信号yi(n)加窗并重叠相加得到输出信号y(n)。
本发明与现有技术相比,具有以下优点及有益效果:
本发明中将频域映射到Mel频谱,Mel频谱分析着眼于人耳的听觉特征,将频率进行非线性的子带划分,Mel临界频率会随着频率的变化而变化,在1000Hz下大致呈线性分布,在1000Hz上呈对数增长,这样会极大地减少频率子带的划分,从而减少波束形成运算复杂度。本发明在频率点加权的MVDR波束形成方法的基础上,对分帧后的语音信号进行基于Mel频率的频带划分,将每一傅氏频点的加权运算替换成了Mel频带的加权运算,大大减少了矩阵求逆运算,提高了波束形成方法的运算速度,提高输出语音的质量。
附图说明
图1为本发明的流程示意图;
图2为麦克风均匀圆形阵列的结构示意图。
具体实施方式
下面结合实施例对本发明作进一步地详细说明,但本发明的实施方式不限于此。
实施例:
一种基于Mel频率尺度的快速自适应波束形成方法,包括:
步骤S101:采用6阵元的麦克风均匀圆形阵列采集语音信号,如图2所示,6阵元的麦克风均匀圆形阵列的半径为r,入射的语音信号表示为s(t),入射方位角为Θ。6个麦克风分别为mic1、mic2、mic3、mic4、mic5、mic6,以mic1为参考阵元,则6个麦克风对应的入射角度分别为0°、60°、120°、180°、240°、300°。假设语音对准mic2入射,则入射角为60°。
如图1所示,先对语音信号分别进行分帧,每一语音帧的长度为256个数据采样点,帧移位116个采样点;加窗是使用256个采样点的汉明窗对语音信号进行加窗。以分帧和加窗后的语音信号为处理对象,进行波束形成器的设计。波束形成方法包括步骤102-107:
步骤102,通过快速傅里叶变换(FFT)实现语音帧的离散傅里叶变换,其中,第i帧的语音经过FFT变换后的频谱为:
在上述表达式中,xi(n)表示第i帧的语音,k表示语音帧中的频率点,L表示每一语音帧的数据采样点长度,取值为256。
步骤103,将Xi(k)映射到Mel频率尺度,得到映射后的频谱Xi(k)',Mel频率与实际频率的具体关系如下:
Mel(f)=1125lg(1+f/700)
将变换后的Mel频谱Xi(k)'进行划分子带,由于Xi(k)'是关于中心频率点对称的,所以只需要取128个点进行频带的划分,选取每8个频率点为一个子带,共计16个频率子带,如下式所示:
Xi(k)'=∑Xi,j(k)',k=8×(j-1)+1
其中,Xi,j(k)'表示Mel频谱Xi(k)'划分后的第j个频率子带,j=1,2,...,16,k表示第j个频率子带对应的中心频率点。
步骤104,对每一Mel频率子带的语音帧数据进行自适应权值的设计,采用的方法是多频带MVDR自适应波束形成方法。当前帧的权值由下式确定:
其中,Ri,j为第i帧语音第j个频率子带的数据协方差矩阵,ai,j表示第i帧语音第j个频率子带的阵列方向矢量,Wi,j表示第i帧语音第j个频率子带的阵列加权矢量,符号(·)-1表示矩阵求逆,(·)H表示矩阵求共轭转置。
步骤105,将每一帧语音和当前帧的权值进行相乘累加得到处理后的语音帧Yi(k),表示如下:
步骤106,对处理后的语音帧进行频域补全、逆傅里叶变换得到处理后单通道的语音帧时域表示:
yi(n)=IFFT(Yi(k))
其中Yi(k)表示频域补全后的语音帧频域表示,yi(n)表示经过逆傅里叶变换后的时域信号。
步骤107,语音信号恢复:将每一帧处理后的语音帧进行加窗叠加就可以得到波束形成的输出信号y(n)。y(n)即为用于智能语音系统唤醒的增强语音。
尽管这里参照本发明的解释性实施例对本发明进行了描述,上述实施例仅为本发明较佳的实施方式,本发明的实施方式并不受上述实施例的限制,应该理解,本领域技术人员可以设计出很多其他的修改和实施方式,这些修改和实施方式将落在本申请公开的原则范围和精神之内。
Claims (10)
1.一种基于Mel频率尺度分频的快速自适应波束形成方法,其特征在于,包括:
步骤S100:采用麦克风均匀圆形阵列采集语音信号,并对语音信号进行分帧和加窗处理,得到多个语音帧;
步骤S200:对每个语音帧分别进行离散傅里叶变换得到频谱,再将频谱映射到Mel频率尺度得到Mel频谱;
步骤S300:将Mel频谱进行频带划分,得到Mel频率子带,计算每个Mel频率子带中心频率对应的阵列方向矢量,并计算每个Mel频率子带对应的数据协方差矩阵以及数据协方差逆矩阵;
步骤S400:根据所述阵列方向矢量和数据协方差逆矩阵计算每个Mel频率子带对应的语音帧的权值;
步骤S500:将每个Mel频率子带与对应的权值相乘累加得到处理后的语音帧;
步骤S600:将处理后的语音帧经过通道叠加、频域补全处理后,再经过逆傅里叶变换得到语音帧时域信号;再将语音帧时域信号加窗并重叠相加,得到输出语音。
2.根据权利要求1所述的一种基于Mel频率尺度分频的快速自适应波束形成方法,其特征在于,所述步骤S100中分帧为将语音信号分为256个数据采样点、帧移位为116个采样点的语音帧;所述加窗为使用256个数据采样点的汉明窗对语音信号进行加窗。
4.根据权利要求3所述的一种基于Mel频率尺度分频的快速自适应波束形成方法,其特征在于,将频谱映射到Mel频率尺度得到Mel频谱Xi(k)'的映射方法为:Mel(f)=1125lg(1+f/700)。
5.根据权利要求4所述的一种基于Mel频率尺度分频的快速自适应波束形成方法,其特征在于,将Mel频谱进行频带划分得到Mel频率子带的方法为:
采用128个点对Mel频谱进行频带划分,选取每8个频率点为一个子带,共计16个频率子带,即:
Xi(k)'=∑Xi,j(k)',k=8×(j-1)+1
其中,Xi,j(k)'表示第i个Mel频谱划分的第j个Mel频率子带,j=1,2,...,16,k表示第j个频率子带对应的中心频率点。
6.根据权利要求5所述的一种基于Mel频率尺度分频的快速自适应波束形成方法,其特征在于,所述麦克风均匀圆形阵列包括6个阵元。
7.根据权利要求6所述的一种基于Mel频率尺度分频的快速自适应波束形成方法,其特征在于,计算第i个Mel频谱的每个Mel频率子带中心频率对应的阵列方向矢量ai,j的公式为:
ai,j=exp[2iπf0(j)τm]
其中:f0(j)表示第j个频带的中心频率,τm表示第m个阵元相对于参考阵元的平面波传播时延,m=1,2,...,6,θ为估计的来波方向。
10.根据权利要求9所述的一种基于Mel频率尺度分频的快速自适应波束形成方法,其特征在于,语音帧时域信号yi(n):
yi(n)=IFFT(Yi(k))
其中,Yi(k)为处理后的语音帧Yi,j(k)经通道叠加和频域补全后的语音帧频域表示;
语音帧时域信号yi(n)加窗并重叠相加得到输出信号y(n)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011146181.0A CN112420068B (zh) | 2020-10-23 | 2020-10-23 | 一种基于Mel频率尺度分频的快速自适应波束形成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011146181.0A CN112420068B (zh) | 2020-10-23 | 2020-10-23 | 一种基于Mel频率尺度分频的快速自适应波束形成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112420068A true CN112420068A (zh) | 2021-02-26 |
CN112420068B CN112420068B (zh) | 2022-05-03 |
Family
ID=74841984
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011146181.0A Active CN112420068B (zh) | 2020-10-23 | 2020-10-23 | 一种基于Mel频率尺度分频的快速自适应波束形成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112420068B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113689869A (zh) * | 2021-07-26 | 2021-11-23 | 浙江大华技术股份有限公司 | 语音增强方法、电子设备以及计算机可读存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030144839A1 (en) * | 2002-01-31 | 2003-07-31 | Satyanarayana Dharanipragada | MVDR based feature extraction for speech recognition |
EP2081189A1 (en) * | 2008-01-17 | 2009-07-22 | Harman Becker Automotive Systems GmbH | Post-filter for beamforming means |
US20130301837A1 (en) * | 2012-05-11 | 2013-11-14 | Qualcomm Incorporated | Audio User Interaction Recognition and Context Refinement |
CN106023996A (zh) * | 2016-06-12 | 2016-10-12 | 杭州电子科技大学 | 基于十字形声阵列宽带波束形成的声识别方法 |
CN107170462A (zh) * | 2017-03-19 | 2017-09-15 | 临境声学科技江苏有限公司 | 基于mvdr的隐声方法 |
CN108831495A (zh) * | 2018-06-04 | 2018-11-16 | 桂林电子科技大学 | 一种应用于噪声环境下语音识别的语音增强方法 |
CN109188366A (zh) * | 2018-08-08 | 2019-01-11 | 河海大学 | 基于子带最大信噪比准则的宽带发射自适应波束形成方法 |
WO2019205798A1 (zh) * | 2018-04-27 | 2019-10-31 | 深圳市沃特沃德股份有限公司 | 语音增强的方法、装置及设备 |
CN110838307A (zh) * | 2019-11-18 | 2020-02-25 | 苏州思必驰信息科技有限公司 | 语音消息处理方法及装置 |
-
2020
- 2020-10-23 CN CN202011146181.0A patent/CN112420068B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030144839A1 (en) * | 2002-01-31 | 2003-07-31 | Satyanarayana Dharanipragada | MVDR based feature extraction for speech recognition |
EP2081189A1 (en) * | 2008-01-17 | 2009-07-22 | Harman Becker Automotive Systems GmbH | Post-filter for beamforming means |
US20130301837A1 (en) * | 2012-05-11 | 2013-11-14 | Qualcomm Incorporated | Audio User Interaction Recognition and Context Refinement |
CN106023996A (zh) * | 2016-06-12 | 2016-10-12 | 杭州电子科技大学 | 基于十字形声阵列宽带波束形成的声识别方法 |
CN107170462A (zh) * | 2017-03-19 | 2017-09-15 | 临境声学科技江苏有限公司 | 基于mvdr的隐声方法 |
WO2019205798A1 (zh) * | 2018-04-27 | 2019-10-31 | 深圳市沃特沃德股份有限公司 | 语音增强的方法、装置及设备 |
CN108831495A (zh) * | 2018-06-04 | 2018-11-16 | 桂林电子科技大学 | 一种应用于噪声环境下语音识别的语音增强方法 |
CN109188366A (zh) * | 2018-08-08 | 2019-01-11 | 河海大学 | 基于子带最大信噪比准则的宽带发射自适应波束形成方法 |
CN110838307A (zh) * | 2019-11-18 | 2020-02-25 | 苏州思必驰信息科技有限公司 | 语音消息处理方法及装置 |
Non-Patent Citations (2)
Title |
---|
AGUSTÍN ÁLVAREZ-MARQUINA,等: "A robust mel-scale subband voice activity detector for a car platform", 《INTERSPEECH 2007》 * |
廖逢钗: "基于听觉滤波器波束形成的声源定位", 《三明学院学报》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113689869A (zh) * | 2021-07-26 | 2021-11-23 | 浙江大华技术股份有限公司 | 语音增强方法、电子设备以及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112420068B (zh) | 2022-05-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106782590B (zh) | 基于混响环境下麦克风阵列波束形成方法 | |
US8942976B2 (en) | Method and device for noise reduction control using microphone array | |
US8363850B2 (en) | Audio signal processing method and apparatus for the same | |
CN104717587A (zh) | 用于音频信号处理的耳机和方法 | |
WO2015196729A1 (zh) | 一种麦克风阵列语音增强方法及装置 | |
CN109285557B (zh) | 一种定向拾音方法、装置及电子设备 | |
Xu et al. | Generalized spatio-temporal RNN beamformer for target speech separation | |
TW201248613A (en) | System and method for monaural audio processing based preserving speech information | |
US11373667B2 (en) | Real-time single-channel speech enhancement in noisy and time-varying environments | |
CN110534126B (zh) | 一种基于固定波束形成的声源定位和语音增强方法及系统 | |
CN113129918B (zh) | 联合波束形成和深度复数U-Net网络的语音去混响方法 | |
WO2019205796A1 (zh) | 减少频域处理量的方法、装置及设备 | |
CN105679330A (zh) | 基于改进子带信噪比估计的数字助听器降噪方法 | |
CN105702262A (zh) | 一种头戴式双麦克风语音增强方法 | |
Liu et al. | Inplace gated convolutional recurrent neural network for dual-channel speech enhancement | |
WO2023108864A1 (zh) | 小型麦克风阵列设备的区域拾音方法及系统 | |
CN112420068B (zh) | 一种基于Mel频率尺度分频的快速自适应波束形成方法 | |
Mizumachi | Neural network-based broadband beamformer with less distortion | |
CN112435681B (zh) | 一种基于声聚焦和麦克风阵列波束形成的语音增强方法 | |
Zhang et al. | Binaural Reverberant Speech Separation Based on Deep Neural Networks. | |
CN113763984A (zh) | 一种用于分布式多说话人的参数化噪声消除系统 | |
Wang et al. | A robust doa estimation method for a linear microphone array under reverberant and noisy environments | |
WO2019205797A1 (zh) | 噪音处理方法、装置及设备 | |
CN116320947B (zh) | 一种应用于助听器的频域双通道语音增强方法 | |
CN114724574B (zh) | 一种期望声源方向可调的双麦克风降噪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |