CN112420068A - 一种基于Mel频率尺度分频的快速自适应波束形成方法 - Google Patents

一种基于Mel频率尺度分频的快速自适应波束形成方法 Download PDF

Info

Publication number
CN112420068A
CN112420068A CN202011146181.0A CN202011146181A CN112420068A CN 112420068 A CN112420068 A CN 112420068A CN 202011146181 A CN202011146181 A CN 202011146181A CN 112420068 A CN112420068 A CN 112420068A
Authority
CN
China
Prior art keywords
frequency
mel
voice
frame
band
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011146181.0A
Other languages
English (en)
Other versions
CN112420068B (zh
Inventor
李俊潇
王平
王前慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Changhong Electric Co Ltd
Original Assignee
Sichuan Changhong Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Changhong Electric Co Ltd filed Critical Sichuan Changhong Electric Co Ltd
Priority to CN202011146181.0A priority Critical patent/CN112420068B/zh
Publication of CN112420068A publication Critical patent/CN112420068A/zh
Application granted granted Critical
Publication of CN112420068B publication Critical patent/CN112420068B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开了一种基于Mel频率尺度分频的快速自适应波束形成方法,包括语音信号分帧和加窗后得到语音帧;对语音帧进行FFT变换得到频谱再映射成Mel频谱;将频谱划分成Mel频率子带,计算频率子带的阵列方向矢量、数据协方差矩阵和Mel频率子带对应的语音帧的权值;频率子带与权值相乘累加得到处理后的语音帧;将语音帧经过通道叠加、频域补全处理后,再经过逆傅里叶变换得到语音帧时域信号;再将语音帧时域信号加窗并重叠相加,得到输出语音。在MVDR波束形成方法的基础上,对分帧后的语音信号进行Mel频带划分,将傅氏频点的加权运算替换成了Mel频带的加权运算,减少了矩阵求逆运算,提高运算速度和输出语音的质量。

Description

一种基于Mel频率尺度分频的快速自适应波束形成方法
技术领域
本发明涉及智能家电语音交互技术领域,具体的说,是一种基于Mel频率尺度分频的快速自适应波束形成方法。
背景技术
随着物联网和人工智能等新一代信息技术的发展和应用,人机智能语音交互技术逐渐成为新型交互技术中最重要的一类技术。智能语音交互技术的便利程度与物联网、人工智能的发展程度成正比,设备或机器的智能程度越高,智能语音交互的程度等级也越高。作为智能语音识别系统中最重要的语音前端处理算法,麦克风阵列波束形成是一种集时间和空间信息的信号处理技术,它通过麦克风阵列采集由空间发送的语音信号并通过阵列信号处理的手段处理语音信号。麦克风阵列波束形成器本质是一个空间滤波器,它可以增强期望方向的语音并抑制无关方向的噪声及干扰。由于语音信号是典型的宽带信号,当采用常规的波束形成方法进行语音增强时,由于不同的频率分量对应的阵列方向矢量不相等,即不同的频率分量对应的波束主瓣宽度不一致,这会导致阵列处理后的语音频谱发生畸变。这种畸变会对语音识别系统的性能产生不良的影响。所以需要针对不同的频率分量设计不同的加权矢量来保证得到无失真的语音信号。基于频率点加权的最小方差无畸变响应(Minimum Variance Distortionless Response,MVDR)波束设计方法可以对语音信号进行增强,但是由于该方法中有大量的矩阵求逆运算,所以使用该方法会大大影响语音识别系统的唤醒速度和性能。因此,提高波束形成算法的运算速度,提高智能语音识别系统的唤醒速度在智慧家居产品中也就显得极其重要。
现有技术中也有一些改进传统MVDR方法语音增强效果的方法,但是均没有从减少MVDR自适应波束形成器的运算复杂度方面提高波束形成器的性能以及提高波束形成的速度。
发明内容
本发明的目的在于提供基于Mel频率尺度分频的快速自适应波束形成方法,用于解决现有技术中采用传统MVDR波束设计方法对语音信号增强存在唤醒速度和性能受影响的问题。
本发明通过下述技术方案解决上述问题:
一种基于Mel频率尺度分频的快速自适应波束形成方法,包括:
步骤S100:采用麦克风均匀圆形阵列采集语音信号,并对语音信号进行分帧和加窗处理,得到多个语音帧;
步骤S200:对每个语音帧分别进行离散傅里叶变换得到频谱,再将频谱映射到Mel频率尺度得到Mel频谱;
步骤S300:将Mel频谱进行频带划分,得到Mel频率子带,计算每个Mel频率子带中心频率对应的阵列方向矢量,并计算每个Mel频率子带对应的数据协方差矩阵以及数据协方差逆矩阵;
步骤S400:根据所述阵列方向矢量和数据协方差逆矩阵计算每个Mel频率子带对应的语音帧的权值;
步骤S500:将每个Mel频率子带与对应的权值相乘累加得到处理后的语音帧;
步骤S600:将处理后的语音帧经过通道叠加、频域补全处理后,再经过逆傅里叶变换得到语音帧时域信号;再将语音帧时域信号加窗并重叠相加,得到输出语音。
所述步骤S100中分帧为将语音信号分为256个数据采样点、帧移位为116个采样点的语音帧;所述加窗为使用256个数据采样点的汉明窗对语音信号进行加窗。
语音帧的离散傅里叶变换方法为:
Figure BDA0002739804750000031
其中,Xi(k)为第i个语音帧经过傅里叶变换后的频谱,xi(n)表示第i帧的语音信号,k表示语音帧中的频率点,L表示每个语音帧的数据采样点长度,L取值为256。
将频谱映射到Mel频率尺度得到Mel频谱Xi(k)'的映射方法为:Mel(f)=1125lg(1+f/700)。
将Mel频谱进行频带划分得到Mel频率子带的方法为:
采用128个点对Mel频谱进行频带划分,选取每8个频率点为一个子带,共计16个频率子带,即:
Xi(k)'=∑Xi,j(k)',k=8×(j-1)+1
其中,Xi,j(k)'表示第i个Mel频谱划分的第j个Mel频率子带,j=1,2,...,16,k表示第j个频率子带对应的中心频率点。
所述麦克风均匀圆形阵列包括6个阵元。
计算第i个Mel频谱的每个Mel频率子带中心频率对应的阵列方向矢量ai,j的公式为:
ai,j=exp[2iπf0(j)τm]
其中:f0(j)表示第j个频带的中心频率,τm表示第m个阵元相对于参考阵元的平面波传播时延,m=1,2,...,6,θ为估计的来波方向。
所述步骤S400计算每个Mel频率子带对应的语音帧的权值的公式为:
Figure BDA0002739804750000032
Figure BDA0002739804750000033
其中,Ri,j为第i帧Mel频谱第j个频率子带的数据协方差矩阵,Wi,j表示第i帧语音第j个频率子带的阵列加权矢量,符号(·)-1表示矩阵求逆,(·)H表示求共轭转置。
处理后的语音帧Yi,j(k):
Figure BDA0002739804750000041
其中:
Figure BDA0002739804750000042
由第i帧语音第j个频率子带的阵列加权矢量求共轭转置得到。
语音帧时域信号yi(n):
yi(n)=IFFT(Yi(k))
其中,Yi(k)为处理后的语音帧Yi,j(k)经通道叠加和频域补全后的语音帧频域表示;
语音帧时域信号yi(n)加窗并重叠相加得到输出信号y(n)。
本发明与现有技术相比,具有以下优点及有益效果:
本发明中将频域映射到Mel频谱,Mel频谱分析着眼于人耳的听觉特征,将频率进行非线性的子带划分,Mel临界频率会随着频率的变化而变化,在1000Hz下大致呈线性分布,在1000Hz上呈对数增长,这样会极大地减少频率子带的划分,从而减少波束形成运算复杂度。本发明在频率点加权的MVDR波束形成方法的基础上,对分帧后的语音信号进行基于Mel频率的频带划分,将每一傅氏频点的加权运算替换成了Mel频带的加权运算,大大减少了矩阵求逆运算,提高了波束形成方法的运算速度,提高输出语音的质量。
附图说明
图1为本发明的流程示意图;
图2为麦克风均匀圆形阵列的结构示意图。
具体实施方式
下面结合实施例对本发明作进一步地详细说明,但本发明的实施方式不限于此。
实施例:
一种基于Mel频率尺度的快速自适应波束形成方法,包括:
步骤S101:采用6阵元的麦克风均匀圆形阵列采集语音信号,如图2所示,6阵元的麦克风均匀圆形阵列的半径为r,入射的语音信号表示为s(t),入射方位角为Θ。6个麦克风分别为mic1、mic2、mic3、mic4、mic5、mic6,以mic1为参考阵元,则6个麦克风对应的入射角度分别为0°、60°、120°、180°、240°、300°。假设语音对准mic2入射,则入射角为60°。
如图1所示,先对语音信号分别进行分帧,每一语音帧的长度为256个数据采样点,帧移位116个采样点;加窗是使用256个采样点的汉明窗对语音信号进行加窗。以分帧和加窗后的语音信号为处理对象,进行波束形成器的设计。波束形成方法包括步骤102-107:
步骤102,通过快速傅里叶变换(FFT)实现语音帧的离散傅里叶变换,其中,第i帧的语音经过FFT变换后的频谱为:
Figure BDA0002739804750000051
在上述表达式中,xi(n)表示第i帧的语音,k表示语音帧中的频率点,L表示每一语音帧的数据采样点长度,取值为256。
步骤103,将Xi(k)映射到Mel频率尺度,得到映射后的频谱Xi(k)',Mel频率与实际频率的具体关系如下:
Mel(f)=1125lg(1+f/700)
将变换后的Mel频谱Xi(k)'进行划分子带,由于Xi(k)'是关于中心频率点对称的,所以只需要取128个点进行频带的划分,选取每8个频率点为一个子带,共计16个频率子带,如下式所示:
Xi(k)'=∑Xi,j(k)',k=8×(j-1)+1
其中,Xi,j(k)'表示Mel频谱Xi(k)'划分后的第j个频率子带,j=1,2,...,16,k表示第j个频率子带对应的中心频率点。
步骤104,对每一Mel频率子带的语音帧数据进行自适应权值的设计,采用的方法是多频带MVDR自适应波束形成方法。当前帧的权值由下式确定:
Figure BDA0002739804750000061
Figure BDA0002739804750000062
其中,Ri,j为第i帧语音第j个频率子带的数据协方差矩阵,ai,j表示第i帧语音第j个频率子带的阵列方向矢量,Wi,j表示第i帧语音第j个频率子带的阵列加权矢量,符号(·)-1表示矩阵求逆,(·)H表示矩阵求共轭转置。
步骤105,将每一帧语音和当前帧的权值进行相乘累加得到处理后的语音帧Yi(k),表示如下:
Figure BDA0002739804750000063
Figure BDA0002739804750000064
步骤106,对处理后的语音帧进行频域补全、逆傅里叶变换得到处理后单通道的语音帧时域表示:
yi(n)=IFFT(Yi(k))
其中Yi(k)表示频域补全后的语音帧频域表示,yi(n)表示经过逆傅里叶变换后的时域信号。
步骤107,语音信号恢复:将每一帧处理后的语音帧进行加窗叠加就可以得到波束形成的输出信号y(n)。y(n)即为用于智能语音系统唤醒的增强语音。
尽管这里参照本发明的解释性实施例对本发明进行了描述,上述实施例仅为本发明较佳的实施方式,本发明的实施方式并不受上述实施例的限制,应该理解,本领域技术人员可以设计出很多其他的修改和实施方式,这些修改和实施方式将落在本申请公开的原则范围和精神之内。

Claims (10)

1.一种基于Mel频率尺度分频的快速自适应波束形成方法,其特征在于,包括:
步骤S100:采用麦克风均匀圆形阵列采集语音信号,并对语音信号进行分帧和加窗处理,得到多个语音帧;
步骤S200:对每个语音帧分别进行离散傅里叶变换得到频谱,再将频谱映射到Mel频率尺度得到Mel频谱;
步骤S300:将Mel频谱进行频带划分,得到Mel频率子带,计算每个Mel频率子带中心频率对应的阵列方向矢量,并计算每个Mel频率子带对应的数据协方差矩阵以及数据协方差逆矩阵;
步骤S400:根据所述阵列方向矢量和数据协方差逆矩阵计算每个Mel频率子带对应的语音帧的权值;
步骤S500:将每个Mel频率子带与对应的权值相乘累加得到处理后的语音帧;
步骤S600:将处理后的语音帧经过通道叠加、频域补全处理后,再经过逆傅里叶变换得到语音帧时域信号;再将语音帧时域信号加窗并重叠相加,得到输出语音。
2.根据权利要求1所述的一种基于Mel频率尺度分频的快速自适应波束形成方法,其特征在于,所述步骤S100中分帧为将语音信号分为256个数据采样点、帧移位为116个采样点的语音帧;所述加窗为使用256个数据采样点的汉明窗对语音信号进行加窗。
3.根据权利要求1所述的一种基于Mel频率尺度分频的快速自适应波束形成方法,其特征在于,语音帧的离散傅里叶变换方法为:
Figure FDA0002739804740000011
其中,Xi(k)为第i个语音帧经过傅里叶变换后的频谱,xi(n)表示第i帧的语音信号,k表示语音帧中的频率点,L表示每个语音帧的数据采样点长度,L取值为256。
4.根据权利要求3所述的一种基于Mel频率尺度分频的快速自适应波束形成方法,其特征在于,将频谱映射到Mel频率尺度得到Mel频谱Xi(k)'的映射方法为:Mel(f)=1125lg(1+f/700)。
5.根据权利要求4所述的一种基于Mel频率尺度分频的快速自适应波束形成方法,其特征在于,将Mel频谱进行频带划分得到Mel频率子带的方法为:
采用128个点对Mel频谱进行频带划分,选取每8个频率点为一个子带,共计16个频率子带,即:
Xi(k)'=∑Xi,j(k)',k=8×(j-1)+1
其中,Xi,j(k)'表示第i个Mel频谱划分的第j个Mel频率子带,j=1,2,...,16,k表示第j个频率子带对应的中心频率点。
6.根据权利要求5所述的一种基于Mel频率尺度分频的快速自适应波束形成方法,其特征在于,所述麦克风均匀圆形阵列包括6个阵元。
7.根据权利要求6所述的一种基于Mel频率尺度分频的快速自适应波束形成方法,其特征在于,计算第i个Mel频谱的每个Mel频率子带中心频率对应的阵列方向矢量ai,j的公式为:
ai,j=exp[2iπf0(j)τm]
其中:f0(j)表示第j个频带的中心频率,τm表示第m个阵元相对于参考阵元的平面波传播时延,m=1,2,...,6,θ为估计的来波方向。
8.根据权利要求7所述的一种基于Mel频率尺度分频的快速自适应波束形成方法,其特征在于,所述步骤S400计算每个Mel频率子带对应的语音帧的权值的方法为:
Figure FDA0002739804740000031
Figure FDA0002739804740000032
Figure FDA0002739804740000033
其中,Ri,j为第i帧Mel频谱第j个频率子带的数据协方差矩阵,Wi,j表示第i帧语音第j个频率子带的阵列加权矢量,符号(·)-1表示矩阵求逆,(·)H表示求共轭转置;
对Wi,j求转置矩阵得到权值。
9.根据权利要求8所述的一种基于Mel频率尺度分频的快速自适应波束形成方法,其特征在于,处理后的语音帧Yi,j(k):
Figure FDA0002739804740000034
其中:
Figure FDA0002739804740000035
由第i帧语音第j个频率子带的阵列加权矢量求共轭转置得到。
10.根据权利要求9所述的一种基于Mel频率尺度分频的快速自适应波束形成方法,其特征在于,语音帧时域信号yi(n):
yi(n)=IFFT(Yi(k))
其中,Yi(k)为处理后的语音帧Yi,j(k)经通道叠加和频域补全后的语音帧频域表示;
语音帧时域信号yi(n)加窗并重叠相加得到输出信号y(n)。
CN202011146181.0A 2020-10-23 2020-10-23 一种基于Mel频率尺度分频的快速自适应波束形成方法 Active CN112420068B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011146181.0A CN112420068B (zh) 2020-10-23 2020-10-23 一种基于Mel频率尺度分频的快速自适应波束形成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011146181.0A CN112420068B (zh) 2020-10-23 2020-10-23 一种基于Mel频率尺度分频的快速自适应波束形成方法

Publications (2)

Publication Number Publication Date
CN112420068A true CN112420068A (zh) 2021-02-26
CN112420068B CN112420068B (zh) 2022-05-03

Family

ID=74841984

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011146181.0A Active CN112420068B (zh) 2020-10-23 2020-10-23 一种基于Mel频率尺度分频的快速自适应波束形成方法

Country Status (1)

Country Link
CN (1) CN112420068B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113689869A (zh) * 2021-07-26 2021-11-23 浙江大华技术股份有限公司 语音增强方法、电子设备以及计算机可读存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030144839A1 (en) * 2002-01-31 2003-07-31 Satyanarayana Dharanipragada MVDR based feature extraction for speech recognition
EP2081189A1 (en) * 2008-01-17 2009-07-22 Harman Becker Automotive Systems GmbH Post-filter for beamforming means
US20130301837A1 (en) * 2012-05-11 2013-11-14 Qualcomm Incorporated Audio User Interaction Recognition and Context Refinement
CN106023996A (zh) * 2016-06-12 2016-10-12 杭州电子科技大学 基于十字形声阵列宽带波束形成的声识别方法
CN107170462A (zh) * 2017-03-19 2017-09-15 临境声学科技江苏有限公司 基于mvdr的隐声方法
CN108831495A (zh) * 2018-06-04 2018-11-16 桂林电子科技大学 一种应用于噪声环境下语音识别的语音增强方法
CN109188366A (zh) * 2018-08-08 2019-01-11 河海大学 基于子带最大信噪比准则的宽带发射自适应波束形成方法
WO2019205798A1 (zh) * 2018-04-27 2019-10-31 深圳市沃特沃德股份有限公司 语音增强的方法、装置及设备
CN110838307A (zh) * 2019-11-18 2020-02-25 苏州思必驰信息科技有限公司 语音消息处理方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030144839A1 (en) * 2002-01-31 2003-07-31 Satyanarayana Dharanipragada MVDR based feature extraction for speech recognition
EP2081189A1 (en) * 2008-01-17 2009-07-22 Harman Becker Automotive Systems GmbH Post-filter for beamforming means
US20130301837A1 (en) * 2012-05-11 2013-11-14 Qualcomm Incorporated Audio User Interaction Recognition and Context Refinement
CN106023996A (zh) * 2016-06-12 2016-10-12 杭州电子科技大学 基于十字形声阵列宽带波束形成的声识别方法
CN107170462A (zh) * 2017-03-19 2017-09-15 临境声学科技江苏有限公司 基于mvdr的隐声方法
WO2019205798A1 (zh) * 2018-04-27 2019-10-31 深圳市沃特沃德股份有限公司 语音增强的方法、装置及设备
CN108831495A (zh) * 2018-06-04 2018-11-16 桂林电子科技大学 一种应用于噪声环境下语音识别的语音增强方法
CN109188366A (zh) * 2018-08-08 2019-01-11 河海大学 基于子带最大信噪比准则的宽带发射自适应波束形成方法
CN110838307A (zh) * 2019-11-18 2020-02-25 苏州思必驰信息科技有限公司 语音消息处理方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
AGUSTÍN ÁLVAREZ-MARQUINA,等: "A robust mel-scale subband voice activity detector for a car platform", 《INTERSPEECH 2007》 *
廖逢钗: "基于听觉滤波器波束形成的声源定位", 《三明学院学报》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113689869A (zh) * 2021-07-26 2021-11-23 浙江大华技术股份有限公司 语音增强方法、电子设备以及计算机可读存储介质

Also Published As

Publication number Publication date
CN112420068B (zh) 2022-05-03

Similar Documents

Publication Publication Date Title
CN106782590B (zh) 基于混响环境下麦克风阵列波束形成方法
US8942976B2 (en) Method and device for noise reduction control using microphone array
US8363850B2 (en) Audio signal processing method and apparatus for the same
CN104717587A (zh) 用于音频信号处理的耳机和方法
WO2015196729A1 (zh) 一种麦克风阵列语音增强方法及装置
CN109285557B (zh) 一种定向拾音方法、装置及电子设备
Xu et al. Generalized spatio-temporal RNN beamformer for target speech separation
TW201248613A (en) System and method for monaural audio processing based preserving speech information
US11373667B2 (en) Real-time single-channel speech enhancement in noisy and time-varying environments
CN110534126B (zh) 一种基于固定波束形成的声源定位和语音增强方法及系统
CN113129918B (zh) 联合波束形成和深度复数U-Net网络的语音去混响方法
WO2019205796A1 (zh) 减少频域处理量的方法、装置及设备
CN105679330A (zh) 基于改进子带信噪比估计的数字助听器降噪方法
CN105702262A (zh) 一种头戴式双麦克风语音增强方法
Liu et al. Inplace gated convolutional recurrent neural network for dual-channel speech enhancement
WO2023108864A1 (zh) 小型麦克风阵列设备的区域拾音方法及系统
CN112420068B (zh) 一种基于Mel频率尺度分频的快速自适应波束形成方法
Mizumachi Neural network-based broadband beamformer with less distortion
CN112435681B (zh) 一种基于声聚焦和麦克风阵列波束形成的语音增强方法
Zhang et al. Binaural Reverberant Speech Separation Based on Deep Neural Networks.
CN113763984A (zh) 一种用于分布式多说话人的参数化噪声消除系统
Wang et al. A robust doa estimation method for a linear microphone array under reverberant and noisy environments
WO2019205797A1 (zh) 噪音处理方法、装置及设备
CN116320947B (zh) 一种应用于助听器的频域双通道语音增强方法
CN114724574B (zh) 一种期望声源方向可调的双麦克风降噪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant