CN110600050A - 基于深度神经网络的麦克风阵列语音增强方法及系统 - Google Patents

基于深度神经网络的麦克风阵列语音增强方法及系统 Download PDF

Info

Publication number
CN110600050A
CN110600050A CN201910866598.5A CN201910866598A CN110600050A CN 110600050 A CN110600050 A CN 110600050A CN 201910866598 A CN201910866598 A CN 201910866598A CN 110600050 A CN110600050 A CN 110600050A
Authority
CN
China
Prior art keywords
voice
noise
neural network
deep neural
microphone array
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910866598.5A
Other languages
English (en)
Other versions
CN110600050B (zh
Inventor
郑敏
郑炜乔
刘钊祎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Huachuang Technology Co Ltd
Original Assignee
Shenzhen Huachuang Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Huachuang Technology Co Ltd filed Critical Shenzhen Huachuang Technology Co Ltd
Priority to CN201910866598.5A priority Critical patent/CN110600050B/zh
Publication of CN110600050A publication Critical patent/CN110600050A/zh
Application granted granted Critical
Publication of CN110600050B publication Critical patent/CN110600050B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Abstract

本发明公开了基于深度神经网络的麦克风阵列语音增强方法及系统,利用麦克风阵列进行多通道语音信号的采集并对采集到的语音信号进行预处理,通过使用深度神经网络对预处理后的多通道语音信号估计噪声与目标语音的掩膜并计算得到噪声和目标语音的协方差矩阵,根据得到的噪声和目标语音协方差矩阵计算波束形成系数对带噪的多通道语音信号进行波束形成处理,并将波束形成处理后的语音信号通过由深度神经网络估计的目标语音掩膜进行消除残留噪声的后处理。本发明采用基于深度神经网络的方式对麦克风阵列进行语音增强处理,不需要依赖例如平面波假设或者阵列几何这样的先验知识进行波束形成处理,所实现的麦克风阵列语音增强系统具有较好的鲁棒性。

Description

基于深度神经网络的麦克风阵列语音增强方法及系统
技术领域
本发明涉及人机语音交互技术领域,特别是基于深度神经网络的麦克风阵列语音增强方法及系统。
背景技术
语音增强技术是语音信号处理的一个重要方向,是语音信号处理系统的核心技术之一,在服务机器人,语音通讯,智能音箱以及智能家居等方面有着广泛的应用。语音增强的目的是当干净语音在现实生活场景中受到来自各种噪声干扰时,利用一定的算法和技术将声学环境中的噪声消除,从而提高语音质量与听者主观感受方面的满意度,进而提高语音应用系统的性能。根据采集语音设备的不同,语音增强技术可分为单通道语音增强和麦克风阵列语音增强。传统的麦克风阵列增强需要先验知识的辅助,例如:麦克风几何信息,平面波假设以及空间语者到达方向信息(Direction of Arrival,DOA)估计。因为这些算法对于先验知识的依赖较高,在实际应用中有较大的局限性;且由于大部分传统麦克风阵列增强使用波束形成进行线性的麦克风阵列语音增强处理,对于实际应用环境的鲁棒性较差。
与此同时,近年来的研究表明,在人类语音信号的产生和感知过程在生物学行为中具有明显的多层次或深层次处理结构,而深度神经网络的学习正是使用了多层的非线性信号与信号处理技术有监督的进行特征提起、信号的转化和模式分类的机器学习方法。由于深度神经网络具有良好复杂特征提取表达能力和擅长对数据中的结构化信息进行建模的能力,近几年来常常被用于对语音信号和信息处理的领域中。深度神经网络也为语音增强在现实应用中具有复杂多变的声学环境带来了更高的鲁棒性。
因此,为解决传统麦克风阵列语音增强依赖先验知识与提升在现实生活场景应用中的鲁棒性,本发明提出了一种基于深度神经网络的麦克风阵列语音增强方法及系统。
发明内容
本发明为了解决上述问题,采用基于深度神经网络的方式对麦克风阵列进行语音增强处理,且不需要依赖例如平面波假设或者阵列几何这样的先验知识进行波束形成处理,所实现的麦克风阵列语音增强系统具有较好的鲁棒性。
为此,根据本发明的一个方面,提供了基于深度神经网络的麦克风阵列语音增强方法,包括如下步骤:
步骤S101:使用麦克风阵列采集多通道语音信号,数学表示为y={y1,y2,……yk},k为在麦克风阵列中的个数,k≥2;
步骤S102:对采集到的多通道带噪声语音信号进行预处理,得到对应的时频谱如下公式:
Yf,t={Y1(t,f),Y2(t,f),...,Yk(t,f)},
其中,f为频带数,t为时间帧;
步骤S103:构建深度神经网络训练模块;步骤S104:将训练好的深度神经网络模型用于估计麦克风阵列采集的每个通道带噪信号的目标语音掩膜和噪声掩膜并进行对应的噪声协方差计算与语音协方差计算,语音协方差计算的计算公式为
噪声协方差计算的计算公式为:
T为时间帧总数,H表示共轭转置;
步骤S105:通过计算好的噪声协方差矩阵与语音协方差矩阵估计波束形成系数,公式如下:
步骤S106:利用估计的波束形成系数通过广义特征值波束形成方法(generalizedeigenvalue beamformer,GE V)对带噪的麦克风阵列语音信号进行波束形成处理,得到波束形成后的信号,公式如下:
步骤S107:将波束形成后的信号与由步骤S104中估计得到的目标语音掩膜进行矩阵点乘的计算从而实现消除残留噪声的后处理,得到增强后的语音信号的时频谱图,公式如下:
步骤S108:对增强后的语音信号时频谱图进行反傅里叶变换(ISTFT)从而使信号重构,得到时域信号z(t)。
基于深度神经网络的方式对麦克风阵列进行语音增强处理,且不需要依赖例如平面波假设或者阵列几何这样的先验知识进行波束形成处理,所实现的麦克风阵列语音增强系统具有较好的鲁棒性。
在一些实施方式中,所述步骤S102还包括:以16Hz的采样率对多通道带噪语音信号进行采样;对采样后的时域信号进行离散傅里叶变换(Short-Time Fourier Transform,STFT),得到对应的时频谱图。
在一些实施方式中,所述步骤S103还包括:构建深度神经网络;深度神经网络隐含层之间均用Relu作为激活函数,使用sigmoid函数作为输出层激活函数;将得到的多通道带噪语音信号STFT时频谱图作为神经网络的输入;将初始的学习速率设定为1e-5,每经过10个迭代学习速率减少为之前的一半;采用二元交叉熵为损失函数进行训练得到估计的噪声掩膜谱图与估计的目标语音掩膜谱图保存训练后模型所得到的参数。
在一些实施方式中,输出层为1026个神经元节点的FC(Fully connected layer,FC)。
根据本发明的另一个方面,提供了基于深度神经网络的麦克风阵列语音增强系统,包括:多通道数据获取模块,使用麦克风阵列拾音,获取多通道的带噪语音信号;预处理模块,将得到的多通道带噪语音信号进行采样,并使用STFT将各个通道的语音时域信号转换为对应的时频谱图;深度神经网络模块,该模块分为训练阶段与测试阶段,在训练阶段中将得到的多通道STFT时频谱图送入到深度神经网络中,以目标语音掩膜和噪声掩膜作为监督信息进行训练,在测试阶段中,输入带噪语音信号的STFT时频谱图到训练好的神经网络中,得到对应的目标语音掩膜和噪声掩膜;波束形成模块,该模块通过估计得到的噪声掩膜与目标语音掩膜计算得出对应的噪声与目标语音协方差矩阵,从而进一步计算出波束形成系数,最后得到波束形成后的信号;后处理模块,将估计得到的目标语音掩膜与波束形成后的信号相乘从而进一步波束形成后消除残留的噪声信号;音频信号重构模块,获得增强后的语音信号时频谱后,利用对应混合语音的相位谱通过逆短时傅立叶变换恢复出该目标说话者的时域信号。
在一些实施方式中,3层隐含层,第一层为有256个神经元结点的双向长短时记忆网络层(bidirectional long short-term memory,BLSTM),第2-3隐含层为有513个神经元结点的全连接层(Fully connected layer,FC)。
与现有技术相比,本发明的有益效果如下:
本发明采用基于深度神经网络的方式对麦克风阵列进行语音增强处理,且不需要依赖例如平面波假设或者阵列几何这样的先验知识进行波束形成处理,所实现的麦克风阵列语音增强系统具有较好的鲁棒性。
附图说明
图1为本发明一实施方式的基于深度神经网络的麦克风阵列语音增强方法流程图;
图2为本发明一实施方式的基于深度神经网络的麦克风阵列语音增强方法对采集到的多通道带噪声语音信号进行预处理流程图;
图3为本发明一实施方式的基于深度神经网络的麦克风阵列语音增强方法构建深度神经网络训练模块流程图;
图4为本发明一实施方式的基于深度神经网络的麦克风阵列语音增强系统框图;
图5为本发明一实施方式的基于深度神经网络的麦克风阵列语音增强系统神经网络结构图。
具体实施方式
下面结合附图对本发明作进一步详细的说明。
图1示意性地显示了根据本发明的基于深度神经网络的麦克风阵列语音增强方法流程图,如图1所示,本实施例包括如下步骤:
步骤S101:使用麦克风阵列采集多通道语音信号,数学表示为y={y1,y2,……yk},k为在麦克风阵列中的个数,k≥2。
步骤S102:对采集到的多通道带噪声语音信号进行预处理,得到对应的时频谱如下公式:
Yf,t={Y1(t,f),Y2(t,f),...,Yk(t,f)}
其中,f为频带数,t为时间帧。
步骤S103:构建深度神经网络训练模块;
步骤S104:将训练好的深度神经网络模型用于估计麦克风阵列采集的每个通道带噪信号的目标语音掩膜和噪声掩膜并进行对应的噪声协方差计算与语音协方差计算,语音协方差计算的计算公式为:
噪声协方差计算的计算公式为:
T为时间帧总数,H表示共轭转置。
步骤S105:通过计算好的噪声协方差矩阵与语音协方差矩阵估计波束形成系数,公式如下:
步骤S106:利用估计的波束形成系数通过广义特征值波束形成方法(generalizedeigenvalue beamformer,GEV)对带噪的麦克风阵列语音信号进行波束形成处理,得到波束形成后的信号,公式如下:
步骤S107:将波束形成后的信号与由步骤S104中估计得到的目标语音掩膜进行矩阵点乘的计算从而实现消除残留噪声的后处理,得到增强后的语音信号的时频谱图,公式如下:
步骤S108:对增强后的语音信号时频谱图进行逆傅里叶变换(ISTFT)从而使信号重构,得到时域信号z(t)。
利用麦克风阵列进行多通道语音信号的采集并对采集到的语音信号进行预处理,通过使用深度神经网络对预处理后的多通道语音信号估计噪声与目标语音的掩膜,利用掩膜计算得到对应的协方差矩阵,根据估计得到的噪声协方差矩阵计算波束形成系数从而对带噪的多通道语音信号进行波束形成处理,并将波束形成处理后的语音信号通过由深度神经网络估计的目标语音掩膜进行消除残留噪声的后处理,从而实现多通道语音信号的增强。基于深度神经网络的方式对麦克风阵列进行语音增强处理,且不需要依赖例如平面波假设或者阵列几何这样的先验知识进行波束形成处理,所实现的麦克风阵列语音增强系统具有较好的鲁棒性。
图2示意性地显示了根据本发明一实施方式的基于深度神经网络的麦克风阵列语音增强方法对采集到的多通道带噪声语音信号进行预处理流程图,如图2所示,本实施例包括如下步骤:
以16Hz的采样率对多通道带噪语音信号进行采样;对采样后的时域信号进行离散傅里叶变换(Short-Time Fourier Transform,STFT),得到对应的时频谱图。该图谱用于构建深度神经网络训练模块。
图3示意性地显示了根据本发明一实施方式的基于深度神经网络的麦克风阵列语音增强方法构建深度神经网络训练模块流程图,如图3所示,本实施例包括如下步骤:
构建深度神经网络;深度神经网络隐含层之间均用Relu作为激活函数,输出层为1026个神经元节点的FC,使用sigmoid函数作为输出层激活函数;将得到的多通道带噪语音信号STFT时频谱图作为神经网络的输入;将初始的学习速率设定为1e-5,每经过10个迭代学习速率减少为之前的一半;采用二元交叉熵为损失函数进行训练得到估计的噪声掩膜谱图与估计的目标语音掩膜谱图保存训练后模型所得到的参数。
图4为本发明一实施方式的基于深度神经网络的麦克风阵列语音增强系统框图,如图4所示,
本实施例的基于深度神经网络的麦克风阵列语音增强系统包括:多通道数据获取模块、预处理模块、深度神经网络模块、波束形成模块、后处理模块、音频信号重构模块。
其中,多通道数据获取模块,使用麦克风阵列拾音,获取多通道的带噪语音信号;
预处理模块,将得到的多通道带噪语音信号进行采样,并使用STFT将各个通道的语音时域信号转换为对应的时频谱图;
深度神经网络模块,该模块分为训练阶段与测试阶段,在训练阶段中将得到的多通道STFT时频谱图送入到深度神经网络中,以目标语音掩膜和噪声掩膜作为监督信息进行训练,在测试阶段中,输入带噪语音信号的STFT时频谱图到训练好的神经网络中,得到对应的目标语音掩膜和噪声掩膜;
波束形成模块,该模块通过估计得到的噪声掩膜与目标语音掩膜计算得出对应的噪声与目标语音协方差矩阵,从而进一步计算出波束形成系数,最后得到波束形成后的信号;
后处理模块,将估计得到的目标语音掩膜与波束形成后的信号相乘从而进一步波束形成后消除残留的噪声信号;
音频信号重构模块,获得增强后的语音信号时频谱后,利用对应混合语音的相位谱通过短时傅里叶逆变换恢复出该目标说话者的时域信号。
图5为本发明一实施方式的基于深度神经网络的麦克风阵列语音增强系统框图,如图5所示,
深度神经网络包括:
3层隐含层,第一层为有256个神经元结点的双向长短时记忆网络层(bidirectional long short-term memory,BLSTM),第2-3隐含层为有513个神经元结点的全连接层(Fully connected layer,FC)。
本发明采用基于深度神经网络的方式对麦克风阵列进行语音增强处理,且不需要依赖例如平面波假设或者阵列几何这样的先验知识进行波束形成处理,所实现的麦克风阵列语音增强系统具有较好的鲁棒性。
以上所述的仅是本发明的一些实施方式。对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

Claims (6)

1.基于深度神经网络的麦克风阵列语音增强方法,其特征在于,包括如下步骤:
步骤S101:使用麦克风阵列采集多通道语音信号,数学表示为y={y1,y2,……yk},k为在麦克风阵列中的个数,k≥2;
步骤S102:对采集到的多通道带噪声语音信号进行预处理,得到对应的时频谱如下公式:
Yf,t={Y1(t,f),Y2(t,f),...,Yk(t,f)}
其中,f为频带数,t为时间帧;
步骤S103:构建深度神经网络训练模块;
步骤S104:将训练好的深度神经网络模型用于估计麦克风阵列采集的每个通道带噪信号的目标语音掩膜和噪声掩膜并进行对应的噪声协方差计算与语音协方差计算,语音协方差计算的计算公式为:
噪声协方差计算的计算公式为:
T为时间帧总数,H表示共轭转置;
步骤S105:通过计算好的噪声协方差矩阵与语音协方差矩阵估计波束形成系数,公式如下:
步骤S106:利用估计的波束形成系数通过广义特征值波束形成方法(generalizedeigenvalue beamformer,GEV)对带噪的麦克风阵列语音信号进行波束形成处理,得到波束形成后的信号,公式如下:
步骤S107:将波束形成后的信号与由步骤S104中估计得到的目标语音掩膜进行矩阵点乘的计算从而实现消除残留噪声的后处理,得到增强后的语音信号的时频谱图,公式如下:
步骤S108:对增强后的语音信号时频谱图进行反傅里叶变换(ISTFT)从而使信号重构,得到时域信号z(t)。
2.根据权利要求1所述的方法,其特征在于,所述步骤S102还包括:
以16Hz的采样率对多通道带噪语音信号进行采样;
对采样后的时域信号进行离散傅里叶变换(Short-Time Fourier Transform,STFT),得到对应的时频谱图。
3.根据权利要求1所述的方法,其特征在于,所述步骤S103还包括:
构建深度神经网络;
深度神经网络隐含层之间均用Relu作为激活函数,使用sigmoid函数作为输出层激活函数;
将得到的多通道带噪语音信号STFT时频谱图作为神经网络的输入;
将初始的学习速率设定为1e-5,每经过10个迭代学习速率减少为之前的一半;
采用二元交叉熵为损失函数进行训练得到估计的噪声掩膜谱图与估计的目标语音掩膜谱图
保存训练后模型所得到的参数。
4.根据权利要求3所述的方法,其特征在于,输出层为1026个神经元节点的FC(Fullyconnected layer,FC)。
5.基于深度神经网络的麦克风阵列语音增强系统,其特征在于,包括:
多通道数据获取模块,使用麦克风阵列拾音,获取多通道的带噪语音信号;
预处理模块,将得到的多通道带噪语音信号进行采样,并使用STFT将各个通道的语音时域信号转换为对应的时频谱图;
深度神经网络模块,该模块分为训练阶段与测试阶段,在训练阶段中将得到的多通道STFT时频谱图送入到深度神经网络中,以目标语音掩膜和噪声掩膜作为监督信息进行训练,在测试阶段中,输入带噪语音信号的STFT时频谱图到训练好的神经网络中,得到对应的目标语音掩膜和噪声掩膜;
波束形成模块,该模块通过估计得到的噪声掩膜与目标语音掩膜计算得出对应的噪声与目标语音协方差矩阵,从而进一步计算出波束形成系数,最后得到波束形成后的信号;
后处理模块,将估计得到的目标语音掩膜与波束形成后的信号相乘从而进一步波束形成后消除残留的噪声信号;
音频信号重构模块,获得增强后的语音信号时频谱后,利用对应混合语音的相位谱通过逆短时傅立叶变换恢复出该目标说话者的时域信号。
6.根据权利要求5所述的系统,其特征在于,深度神经网络包括:
3层隐含层,第一层为有256个神经元结点的双向长短时记忆网络层(bidirectionallong short-term memory,BLSTM),第2-3隐含层为有513个神经元结点的全连接层(Fullyconnected layer,FC)。
CN201910866598.5A 2019-09-12 2019-09-12 基于深度神经网络的麦克风阵列语音增强方法及系统 Active CN110600050B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910866598.5A CN110600050B (zh) 2019-09-12 2019-09-12 基于深度神经网络的麦克风阵列语音增强方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910866598.5A CN110600050B (zh) 2019-09-12 2019-09-12 基于深度神经网络的麦克风阵列语音增强方法及系统

Publications (2)

Publication Number Publication Date
CN110600050A true CN110600050A (zh) 2019-12-20
CN110600050B CN110600050B (zh) 2022-04-15

Family

ID=68859335

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910866598.5A Active CN110600050B (zh) 2019-09-12 2019-09-12 基于深度神经网络的麦克风阵列语音增强方法及系统

Country Status (1)

Country Link
CN (1) CN110600050B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110956951A (zh) * 2019-12-23 2020-04-03 苏州思必驰信息科技有限公司 一种语音增强采集配件、方法、系统、设备及存储介质
CN111341339A (zh) * 2019-12-31 2020-06-26 深圳海岸语音技术有限公司 基于声学矢量传感器自适应波束形成和深度神经网络技术的目标语音增强方法
CN111508516A (zh) * 2020-03-31 2020-08-07 上海交通大学 基于信道关联时频掩膜的语音波束形成方法
CN112331226A (zh) * 2020-09-29 2021-02-05 江苏清微智能科技有限公司 一种针对主动降噪系统的语音增强系统及方法
CN113030862A (zh) * 2021-03-12 2021-06-25 中国科学院声学研究所 一种多通道语音增强方法及装置
CN113223552A (zh) * 2021-04-28 2021-08-06 锐迪科微电子(上海)有限公司 语音增强方法、装置、设备、存储介质及程序
CN113470686A (zh) * 2021-07-23 2021-10-01 平安科技(深圳)有限公司 语音增强方法、装置、设备及存储介质
TWI749547B (zh) * 2020-05-08 2021-12-11 元智大學 應用深度學習的語音增強系統
CN113889137A (zh) * 2021-12-06 2022-01-04 中国科学院自动化研究所 麦克风阵列语音增强的方法、装置、电子设备及存储介质
CN114283832A (zh) * 2021-09-09 2022-04-05 腾讯科技(深圳)有限公司 用于多通道音频信号的处理方法及装置
CN114580445A (zh) * 2022-03-10 2022-06-03 昆明理工大学 基于领域感知的掩码子结构的多领域自适应神经机器翻译方法
CN114664295A (zh) * 2020-12-07 2022-06-24 北京小米移动软件有限公司 用于机器人的语音识别方法、装置及机器人

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107452389A (zh) * 2017-07-20 2017-12-08 大象声科(深圳)科技有限公司 一种通用的单声道实时降噪方法
US20180261225A1 (en) * 2017-03-13 2018-09-13 Mitsubishi Electric Research Laboratories, Inc. System and Method for Multichannel End-to-End Speech Recognition
CN108831495A (zh) * 2018-06-04 2018-11-16 桂林电子科技大学 一种应用于噪声环境下语音识别的语音增强方法
US20190139563A1 (en) * 2017-11-06 2019-05-09 Microsoft Technology Licensing, Llc Multi-channel speech separation
CN110085246A (zh) * 2019-03-26 2019-08-02 北京捷通华声科技股份有限公司 语音增强方法、装置、设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180261225A1 (en) * 2017-03-13 2018-09-13 Mitsubishi Electric Research Laboratories, Inc. System and Method for Multichannel End-to-End Speech Recognition
CN107452389A (zh) * 2017-07-20 2017-12-08 大象声科(深圳)科技有限公司 一种通用的单声道实时降噪方法
US20190139563A1 (en) * 2017-11-06 2019-05-09 Microsoft Technology Licensing, Llc Multi-channel speech separation
CN108831495A (zh) * 2018-06-04 2018-11-16 桂林电子科技大学 一种应用于噪声环境下语音识别的语音增强方法
CN110085246A (zh) * 2019-03-26 2019-08-02 北京捷通华声科技股份有限公司 语音增强方法、装置、设备和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
TAKUYA YOSHIOKA ETC: "A microhone array system integrating beamforming, feature enhancement, and spectral mask-based noise estimation", 《2011 JOINT WORKSHOP ON HAND-FREE SPEECH COMMUNICATION AND MICROPHONE ARRAYS》 *
王智国 等: ""基于掩码迭代估计的多通道语音识别算法"", 《信息技术与标准化》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110956951A (zh) * 2019-12-23 2020-04-03 苏州思必驰信息科技有限公司 一种语音增强采集配件、方法、系统、设备及存储介质
CN111341339A (zh) * 2019-12-31 2020-06-26 深圳海岸语音技术有限公司 基于声学矢量传感器自适应波束形成和深度神经网络技术的目标语音增强方法
CN111508516A (zh) * 2020-03-31 2020-08-07 上海交通大学 基于信道关联时频掩膜的语音波束形成方法
TWI749547B (zh) * 2020-05-08 2021-12-11 元智大學 應用深度學習的語音增強系統
CN112331226A (zh) * 2020-09-29 2021-02-05 江苏清微智能科技有限公司 一种针对主动降噪系统的语音增强系统及方法
CN112331226B (zh) * 2020-09-29 2024-04-12 江苏清微智能科技有限公司 一种针对主动降噪系统的语音增强系统及方法
CN114664295A (zh) * 2020-12-07 2022-06-24 北京小米移动软件有限公司 用于机器人的语音识别方法、装置及机器人
CN113030862A (zh) * 2021-03-12 2021-06-25 中国科学院声学研究所 一种多通道语音增强方法及装置
CN113223552A (zh) * 2021-04-28 2021-08-06 锐迪科微电子(上海)有限公司 语音增强方法、装置、设备、存储介质及程序
CN113223552B (zh) * 2021-04-28 2023-06-13 锐迪科微电子(上海)有限公司 语音增强方法、装置、设备、存储介质及程序
CN113470686A (zh) * 2021-07-23 2021-10-01 平安科技(深圳)有限公司 语音增强方法、装置、设备及存储介质
CN114283832A (zh) * 2021-09-09 2022-04-05 腾讯科技(深圳)有限公司 用于多通道音频信号的处理方法及装置
CN113889137A (zh) * 2021-12-06 2022-01-04 中国科学院自动化研究所 麦克风阵列语音增强的方法、装置、电子设备及存储介质
CN114580445A (zh) * 2022-03-10 2022-06-03 昆明理工大学 基于领域感知的掩码子结构的多领域自适应神经机器翻译方法
CN114580445B (zh) * 2022-03-10 2023-03-10 昆明理工大学 基于领域感知的掩码子结构的多领域自适应神经机器翻译方法

Also Published As

Publication number Publication date
CN110600050B (zh) 2022-04-15

Similar Documents

Publication Publication Date Title
CN110600050B (zh) 基于深度神经网络的麦克风阵列语音增强方法及系统
CN107845389B (zh) 一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法
CN110867181B (zh) 基于scnn和tcnn联合估计的多目标语音增强方法
CN110085245B (zh) 一种基于声学特征转换的语音清晰度增强方法
US8880396B1 (en) Spectrum reconstruction for automatic speech recognition
CN112151059A (zh) 面向麦克风阵列的通道注意力加权的语音增强方法
CN105741849A (zh) 数字助听器中融合相位估计与人耳听觉特性的语音增强方法
CN110931031A (zh) 一种融合骨振动传感器和麦克风信号的深度学习语音提取和降噪方法
CN112735456B (zh) 一种基于dnn-clstm网络的语音增强方法
Li et al. Real-time monaural speech enhancement with short-time discrete cosine transform
CN111986660A (zh) 一种神经网络子带建模的单通道语音增强方法、系统及存储介质
CN114041185A (zh) 用于确定深度过滤器的方法和装置
Halimeh et al. Complex-valued spatial autoencoders for multichannel speech enhancement
CN110970044B (zh) 一种面向语音识别的语音增强方法
Li et al. A multi-objective learning speech enhancement algorithm based on IRM post-processing with joint estimation of SCNN and TCNN
CN115424627A (zh) 基于卷积循环网络和wpe算法的语音增强混合处理方法
Ram et al. Use of radial basis function network with discrete wavelet transform for speech enhancement
Liu et al. A separation and interaction framework for causal multi-channel speech enhancement
CN113409804A (zh) 一种基于变张成广义子空间的多通道频域语音增强算法
CN116013344A (zh) 一种多种噪声环境下的语音增强方法
Radha et al. Enhancing speech quality using artificial bandwidth expansion with deep shallow convolution neural network framework
CN114189781A (zh) 双麦神经网络降噪耳机的降噪方法及系统
Chowdhury et al. Speech enhancement using k-sparse autoencoder techniques
Ram et al. The Use of Deep Learning in Speech Enhancement.
Schmidt et al. Multichannel nonnegative matrix factorization with motor data-regularized activations for robust ego-noise suppression

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant