CN110503972B - 语音增强方法、系统、计算机设备及存储介质 - Google Patents
语音增强方法、系统、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN110503972B CN110503972B CN201910799126.2A CN201910799126A CN110503972B CN 110503972 B CN110503972 B CN 110503972B CN 201910799126 A CN201910799126 A CN 201910799126A CN 110503972 B CN110503972 B CN 110503972B
- Authority
- CN
- China
- Prior art keywords
- spectrogram
- mask
- signal
- channel
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000001228 spectrum Methods 0.000 claims abstract description 63
- 238000013528 artificial neural network Methods 0.000 claims abstract description 57
- 230000000873 masking effect Effects 0.000 claims abstract description 34
- 238000012545 processing Methods 0.000 claims abstract description 19
- 238000001914 filtration Methods 0.000 claims abstract description 14
- 238000007781 pre-processing Methods 0.000 claims abstract description 12
- 108091006146 Channels Proteins 0.000 claims description 25
- 210000002569 neuron Anatomy 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 13
- 230000004913 activation Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 6
- 230000001629 suppression Effects 0.000 claims description 5
- 230000000052 comparative effect Effects 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 4
- 238000003066 decision tree Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 239000004576 sand Substances 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 5
- 230000003993 interaction Effects 0.000 abstract description 2
- 230000008901 benefit Effects 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 241000182185 Alfalfa virus S Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明提供了一种语音增强方法、系统、计算机设备及存储介质,涉及人机语音交互的技术领域,包括通过声学矢量传感器采集多通道声学信号,对多通道声学信号进行预处理并获取时频谱,对时频谱进行滤波处理并输出信号图谱;通过非线性掩膜对信号图谱进行掩蔽处理并输出增强后的单通道语谱图;将单通道语谱图输入至深度神经网络掩膜估计模型并输出掩膜谱图,通过掩膜谱图对信号图谱进行时频掩蔽增强处理获得增强的幅度语谱图;通过增强的幅度语谱图重构输出增强的目标语音信号,解决了多通道语音增强具有硬件成本较高、采集系统体积大、运算复杂度高的技术问题,在不同干扰噪声种类、强度和房间混响条件下都可获得优秀的语音增强效果的技术效果。
Description
技术领域
本发明涉及人机语音交互技术领域,尤其是涉及一种基于声学矢量传感器和深度神经网络的语音增强方法、系统、计算机设备及存储介质。
背景技术
语音增强技术是语音信号处理的一个重要研究方向,是语音处理系统的核心技术之一,在移动电话,助听器,服务机器人以及智能家居等方面有着广泛的应用。语音增强的目的是抑制采集的多通道声学信号中的非目标语音和噪声干扰信号,同时增强目标语音信号,从而提高语音的可懂度和提高语音识别系统的性能。根据采集语音设备的不同,语音增强技术可分为单通道和多通道语音增强,其中多通道语音增强具有更有效抑制环境噪声、混响的优势,但具有硬件成本较高、采集系统体积大、运算复杂度高等局限。
发明内容
本发明的目的在于提供一种语音增强方法、系统、计算机设备及存储介质,以降低采集设备的硬件成本、提升语音增强性能。
本发明提供的一种语音增强方法,所述方法应用于语音增强系统,所述方法包括:
通过声学矢量传感器采集多通道声学信号,对多通道声学信号进行预处理并获取时频谱,对时频谱进行滤波处理并输出信号图谱;
通过非线性掩膜对信号图谱进行掩蔽处理并输出增强后的单通道语谱图;
将单通道语谱图输入至深度神经网络掩膜估计模型并输出掩膜谱图,通过掩膜谱图对信号图谱进行时频掩蔽增强处理获得增强的幅度语谱图;
通过增强的幅度语谱图重构输出增强的目标语音信号。
进一步的,所述通过声学矢量传感器采集多通道声学信号,对多通道声学信号进行预处理并获取时频谱,对时频谱进行滤波处理并输出信号图谱的步骤包括:
通过声学矢量传感器采集多通道声学信号,对所述多通道声学信号进行短时傅里叶变换获得时频谱;
对时频谱进行滤波处理并输出信号图谱。
进一步的,所述通过非线性掩膜对信号图谱进行掩蔽处理并输出增强后的单通道语谱图的步骤包括:
根据声学矢量传感器通道间的信号数据比值计算传感器间的数据比值;
通过数据比值预估时频点的波达方向角值;
判断预估时频点的波达方向角值是否属于目标语音;
基于时频点的波达方向角值是否属于目标语音的判断结果计算非线性掩膜;
通过非线性掩膜对信号图谱进行掩蔽处理,并输出增强后的单通道语谱图。
进一步的,所述将单通道语谱图输入至深度神经网络掩膜估计模型并输出掩膜谱图,通过掩膜谱图对信号图谱进行时频掩蔽增强处理获得增强的幅度语谱图的步骤包括:
将单通道语谱图作为深度神经网络的输入;
将目标语音的理想二值掩膜和噪声信号的理想二值掩膜作为深度神经网络的学习目标;
训练所述深度神经网络得到深度神经网络掩膜估计模型。
进一步的,将单通道语谱图输入至深度神经网络掩膜估计模型并输出掩膜谱图,通过掩膜谱图对信号图谱进行时频掩蔽增强处理获得增强的幅度语谱图的步骤还包括:
将单通道语谱图作为深度神经网络模型的输入;
输出噪声掩膜谱图和语音掩膜谱图;
通过噪声掩膜谱图和语音掩膜谱图对信号图谱进行时频掩蔽增强处理获得增强的幅度语谱图。
进一步的,所述通过增强的幅度语谱图重构输出增强的目标语音信号的步骤包括:
采用幅度语谱图的幅度谱和信号图谱的相位谱,进行逆傅里叶变换后输出增强的目标语音时域信号。
进一步的,语音增强方法包括如下步骤:
A1:通过声学矢量传感器采集多通道声学信号xavs(t);
获得u-通道信号xu(t)、v-通道信号xv(t)、w-通道信号xw(t)及o-通道信号xo(t),上述方法表述为:{Input:xavs(t)=[xu(t),xv(t),xw(t),xo(t)]};
对多通道声学信号xavs(t)进行短时傅里叶变换获得时频谱Xavs(τ,ω),上述方法表述为:{Xavs(t,w)=[Xu(t,w),Xv(t,w),Xw(t,w),Xo(t,w)]T};
A3:所述wm H是固定波束形成器的权向量,通过下面公式计算:
wm H=aH(θs,φs)/||a(θs,φs)||2;
式中,a(θs,φs)是目标语音的导向矢量;
B1:根据声学矢量传感器通道间的信号数据比值计算传感器间的数据比值,所述声学矢量传感器通道间的信号数据比值表述为:Iij(τ,ω)=Xi(τ,ω)/Xj(τ,ω)where(i≠j),所述声学矢量传感器间的数据比值向量表达为:{Iisdr=[Iuv(τ,ω),Ivu(τ,ω),Iwo(τ,ω)]},所述声学矢量传感器通道间的信号数据比值的计算步骤为:
Iuv(τ,ω)=Xu(τ,ω)/Xv(τ,ω)
Ivu(τ,ω)=Xv(τ,ω)/Xu(τ,ω)
Iwo(τ,ω)=Xw(τ,ω)/Xo(τ,ω);
B2:采用决策树方法选择有效的声学矢量传感器间的数据比值,进行短时傅里叶变换得到每个时频点(τ,ω)的波达方向角值:
B3:将每个时频点(τ,ω)的波达方向角值与已知的目标语音的波达方向值(θs,φs)进行比较,判断各时频点(τ,ω)是否属于目标语音,对水平和俯仰角分别设置不同的阈值δ1和δ2,进行如下比较计算:
B4:基于时频点(τ,ω)的波达方向角值是否属目标语音的判断,采用下式计算目标语音的理想二值掩膜:
B5:基于时频点(τ,ω)的波达方向角值是否属目标语音的判断,采用下式计算目标语音的非线性掩膜:
式中,ξ是一个正数,ρ(0≤ρ<1)是一个趋近于0的正数,ρ反映了噪声的抑制效果,参数δ1和δ2控制掩膜提取质量;
B6:基于非线性掩膜mask(τ,ω)对输出的信号图谱Ym(τ,ω)进行时频掩蔽增强处理,得到增强的单通道语谱图Ys(τ,ω):
Ys(τ,ω)=Ym(τ,ω)×mask(τ,ω);
C1:通过声学矢量传感器采集多通道声学信号xavs(t)=[xu(t),xv(t),xw(t),xo(t)];
C2:将单通道语谱图Ys(τ,ω)作为深度神经网络的输入;将目标语音的理想二值掩膜和噪声信号的理想二值掩膜作为深度神经网络的学习目标;
C3:深度神经网络包括3层隐藏层,第一隐藏层有256个神经元,第二隐藏层及第三隐藏层有513个神经元,神经元激活函数均采用Relu,输出层有1026个神经元,其激活函数为sigmoid,初始学习速率设定为1e-5,每经过10个迭代学习速率减少为之前的一半;采用二元交叉熵为损失函数进行训练,深度神经网络输出一个噪声掩膜谱图N_mask(τ,ω)和一个语音掩膜谱图X_mask(τ,ω);
C4:保存训练好的深度神经网络的模型参数得到深度神经网络掩膜估计模型;
D1:将单通道语谱图Ys(τ,ω)输入至深度神经网络掩膜估计模型,输出相应的噪声掩膜谱图N_mask(τ,ω)和语音掩膜谱图X_mask(τ,ω);
D2:通过噪声掩膜谱图N_mask(τ,ω)和语音掩膜谱图X_mask(τ,ω);对信号图谱Ys(τ,ω)进行时频掩蔽增强处理计算增强的幅度语谱图Ys-nn(τ,ω):
Ys_nn(τ,ω)=[Ys(τ,ω)×X_mask(τ,ω)+Ys(τ,ω)-Ys(τ,ω)×N_mask(τ,ω)]/2;
E1:采用增强的幅度语谱图Ys-nn(τ,ω)的幅度谱和信号图谱Ys(τ,ω)的相位谱,进行逆傅里叶变换后输出增强的目标语音时域信号y(t)。
本发明还提供一种语音增强系统,包括:
语音采集与预处理模块,用于采集多通道声学信号,对多通道声学信号进行预处理并获取时频谱,对时频谱进行滤波处理并输出信号图谱;
声学矢量传感器掩膜去干扰模块,用于通过非线性掩膜对信号图谱进行掩蔽处理并输出增强后的单通道语谱图;
深度神经网络去噪模块,用于将单通道语谱图输入至深度神经网络掩膜估计模型并输出掩膜谱图,通过掩膜谱图对信号图谱进行时频掩蔽增强处理获得增强的幅度语谱图;
增强语音信号重构模块,用于通过增强的幅度语谱图重构输出增强的目标语音信号。
本发明还提供一种计算机设备,包括:包括处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述处理器执行所述机器可读指令,以执行时执行如上任一所述的语音增强方法的步骤。
本发明提供的存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上任一所述的语音增强方法的步骤。
本发明提供的语音增强方法,通过声学矢量传感器采集音频信号,具有硬件成本低、算法复杂度低的优点;利用声学矢量传感器的输出做固定波束形成,消除空间干扰;通过掩膜谱图进一步消除噪声,获得增强后的语音;通过深度神经网络掩膜估计模型进一步消除信号的残留噪声与混响,获得更为鲁棒的语音增强。在不同干扰噪声种类、强度和房间混响条件下都可获得优秀的语音增强效果。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的语音增强方法的流程示意图;
图2为本发明实施例提供的语音增强系统的结构示意图;
图3为本发明实施例提供的语音增强系统的系统示意框图;
图4为本发明实施例提供的计算机设备的结构示意图。
图标:100-语音采集与预处理模块;200-声学矢量传感器掩膜去干扰模块;300-深度神经网络去噪模块;400-增强语音信号重构模块;501-存储器;502-处理器。
具体实施方式
下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本实施例提供一种基于声学矢量传感器和深度神经网络的语音增强方法,本方法使用声学矢量传感器(Acoustic Vector Sensor,AVS)采集音频信号,在远程语音应用中,AVS的四个传感器被认为具有相同空间位置,AVS的四颗传感器时间同步地采集输出四通道语音信号。通常AVS选取压力传感器作为全向传感器,质点速度传感器和差分麦克风作为指向传感器。工业界已有投入商用的AVS,其物理体积仅占5mm3,具有体积小,同位多通道采集信号的优势,可广泛应用于对前端语音采集系统体积有严格要求的场景,如智能服务机器人等。基于AVS的特定物理结构和传感器声学特性,AVS四个通道所接受到的音频信号具有一定的三角函数关系。理论上,可以利用该函数关系推导出通道间信号关系,这些关系与空间声源信号在频域上的分布、声源与AVS的距离是无关,声源信号到达AVS传感器的入射方向有关,这是AVS采集设备独有的优点。AVS具有体积小、阵元少和轻重量等特点,可以更好地减少音频信号接收器的硬件体积,从而降低成本。
考虑到现实应用中所面临的复杂的声学场景,采用有监督的深度神经网络来学习目标语音掩膜和噪声掩膜,从而提高本发明语音增强系统在复杂声学场景下的鲁棒性。
如图1所示,语音增强方法包括:
S110:通过声学矢量传感器采集多通道声学信号,对多通道声学信号进行预处理并获取时频谱,对时频谱进行滤波处理并输出信号图谱;
S120:通过非线性掩膜对信号图谱进行掩蔽处理并输出增强后的单通道语谱图;
S130:将单通道语谱图输入至深度神经网络掩膜估计模型并输出掩膜谱图,通过掩膜谱图对信号图谱进行时频掩蔽增强处理获得增强的幅度语谱图;
S140:通过增强的幅度语谱图重构输出增强的目标语音信号。
语音增强方法的具体步骤如下,如图2所示:
A1:通过声学矢量传感器采集多通道声学信号xavs(t);
获得u-通道信号xu(t)、v-通道信号xv(t)、w-通道信号xw(t)及o-通道信号xo(t),上述方法表述为:{Input:xavs(t)=[xu(t),xv(t),xw(t),xo(t)]};
对多通道声学信号xavs(t)进行短时傅里叶变换(STFT,)获得时频谱Xavs(τ,ω),上述方法表述为:{Xavs(t,w)=[Xu(t,w),Xv(t,w),Xw(t,w),Xo(t,w)]T};
A3:所述wm H是固定波束形成器的权向量,通过下面公式计算:
wm H=aH(θs,φs)/||a(θs,φs)||2;
式中,a(θs,φs)是目标语音的导向矢量;
B1:根据声学矢量传感器通道间的信号数据比值计算传感器间的数据比值,所述声学矢量传感器通道间的信号数据比值表述为:Iij(τ,ω)=Xi(τ,ω)/Xj(τ,ω)where(i≠j),所述声学矢量传感器间的数据比值向量表达为:{Iisdr=[Iuv(τ,ω),Ivu(τ,ω),Iwo(τ,ω)]},所述声学矢量传感器通道间的信号数据比值的计算步骤为:
Iuv(τ,ω)=Xu(τ,ω)/Xv(τ,ω)
Ivu(τ,ω)=Xv(τ,ω)/Xu(τ,ω)
Iwo(τ,ω)=Xw(τ,ω)/Xo(τ,ω);
B2:采用决策树方法选择有效的声学矢量传感器间的数据比值,进行短时傅里叶变换得到每个时频点(τ,ω)的波达方向角值:
B3:将每个时频点(τ,ω)的波达方向角值与已知的目标语音的波达方向值(θs,φs)进行比较,判断各时频点(τ,ω)是否属于目标语音,对水平和俯仰角分别设置不同的阈值δ1和δ2,进行如下比较计算:
B4:基于时频点(τ,ω)的波达方向角值是否属目标语音的判断,采用下式计算目标语音的理想二值掩膜:
B5:基于时频点(τ,ω)的波达方向角值是否属目标语音的判断,采用下式计算目标语音的非线性掩膜:
式中,ξ是一个正数,ρ(0≤ρ<1)是一个趋近于0的正数,ρ反映了噪声的抑制效果,参数δ1和δ2控制掩膜提取质量;
B6:基于非线性掩膜mask(τ,ω)对输出的信号图谱Ym(τ,ω)进行时频掩蔽增强处理,得到增强的单通道语谱图Ys(τ,ω):
Ys(τ,ω)=Ym(τ,ω)×mask(τ,ω);
C1:通过声学矢量传感器采集多通道声学信号xavs(t)=[xu(t),xv(t),xw(t),xo(t)];
C2:将单通道语谱图Ys(τ,ω)作为深度神经网络的输入;将目标语音的理想二值掩膜和噪声信号的理想二值掩膜作为深度神经网络的学习目标;
C3:深度神经网络包括3层隐藏层,第一隐藏层有256个神经元,第二隐藏层及第三隐藏层有513个神经元,神经元激活函数均采用Relu,输出层有1026个神经元,其激活函数为sigmoid,初始学习速率设定为1e-5,每经过10个迭代学习速率减少为之前的一半;采用二元交叉熵为损失函数进行训练,深度神经网络输出一个噪声掩膜谱图N_mask(τ,ω)和一个语音掩膜谱图X_mask(τ,ω);
C4:保存训练好的深度神经网络的模型参数得到深度神经网络掩膜估计模型;
D1:将单通道语谱图Ys(τ,ω)输入至深度神经网络掩膜估计模型,输出相应的噪声掩膜谱图N_mask(τ,ω)和语音掩膜谱图X_mask(τ,ω);
D2:通过噪声掩膜谱图N_mask(τ,ω)和语音掩膜谱图X_mask(τ,ω);对信号图谱Ys(τ,ω)进行时频掩蔽增强处理计算增强的幅度语谱图Ys-nn(τ,ω):
Ys_nn(τ,ω)=[Ys(τ,ω)×X_mask(τ,ω)+Ys(τ,ω)-Ys(τ,ω)×N_mask(τ,ω)]/2;
E1:采用增强的幅度语谱图Ys-nn(τ,ω)的幅度谱和信号图谱Ys(τ,ω)的相位谱,进行逆傅里叶变换后输出增强的目标语音时域信号y(t)。
如图3所示,一种语音增强系统,包括:
语音采集与预处理模块100,用于通过声学矢量传感器采集多通道声学信号,对多通道声学信号进行预处理并获取时频谱,对时频谱进行滤波处理并输出信号图谱;
声学矢量传感器掩膜去干扰模块200,用于通过非线性掩膜对信号图谱进行掩蔽处理并输出增强后的单通道语谱图;
深度神经网络去噪模块300,用于将单通道语谱图输入至深度神经网络掩膜估计模型并输出掩膜谱图,通过掩膜谱图对信号图谱进行时频掩蔽增强处理获得增强的幅度语谱图;
增强语音信号重构模块400,用于通过增强的幅度语谱图重构输出增强的目标语音信号。
如图4所示,一种计算机设备,包括:包括处理器502、存储器501和总线,所述存储器501存储有所述处理器502可执行的机器可读指令,当计算机设备运行时,所述处理器502与所述存储器501之间通过总线通信,所述处理器502执行所述机器可读指令,以执行时执行如上任一所述的语音增强方法的步骤。
一种存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上任一所述的语音增强方法的步骤。
本发明的有益效果在于:1)本发明所述的方法易于在移动或便携设备上应用。本发明采用AVS采集音频信号,该传感器仅有1cm3大小,易于在小型设备上集成系统;同时算法复杂度低,易于实时运行在运算能力有限的嵌入式平台上。2)本发明所述的方法利用AVS传感器的输出做固定波束形成,以消除空间干扰;然后通过分析AVS四通道输出的相互关系传感器间数据比值,设计一种有效的目标语音掩膜产生方法,进一步消除噪声,获得增强后的语音,该方法在干扰噪声场和背景噪声场都能够有效抑制噪声,并且在散射噪声场中也能够获得良好的效果,有较好的鲁棒性。3)最后,本发明所述的方法能够利用深度神经网络较强的学习能力,采用仿真数据,有监督地训练一个深度神经网络目标语音掩膜模型,采用该深度神经网络掩膜估计模型,进一步消除信号的残留噪声与混响,获得更为鲁棒的语音增强,从而应对现实环境中复杂的声学环境。实验数据验证了本发明在不同的干扰噪声种类、强度和房间混响条件下,都能获得优秀的语音增强效果。
实验结果和性能:
采用本发明方法的语音增强实验结果与性能对比
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (9)
1.一种语音增强方法,其特征在于,所述方法应用于语音增强系统,所述方法包括:
通过声学矢量传感器采集多通道声学信号,对多通道声学信号进行预处理并获取时频谱,对时频谱进行滤波处理并输出信号图谱;
通过非线性掩膜对信号图谱进行掩蔽处理并输出增强后的单通道语谱图;
将单通道语谱图输入至深度神经网络掩膜估计模型并输出掩膜谱图,通过掩膜谱图对信号图谱进行时频掩蔽增强处理获得增强的幅度语谱图;
通过增强的幅度语谱图重构输出增强的目标语音信号;
其中,所述方法包括如下步骤:
A1:通过声学矢量传感器采集多通道声学信号xavs(t);
获得u-通道信号xu(t)、v-通道信号xv(t)、w-通道信号xw(t)及o-通道信号xo(t),上述方法表述为:{Input:xavs(t)=[xu(t),xv(t),xw(t),xo(t)]};
对多通道声学信号xavs(t)进行短时傅里叶变换获得时频谱Xavs(τ,ω),上述方法表述为:{Xavs(t,w)=[Xu(t,w),Xv(t,w),Xw(t,w),Xo(t,w)]T},其中,Xu(t,w)为u通道信号的时频谱,Xv(t,w)为v通道信号的时频谱,Xw(t,w)为w通道信号的时频谱,Xo(t,w)为o通道信号的时频谱;
A3:所述wm H是固定波束形成器的权向量,通过下面公式计算:
wm H=aH(θs,φs)/||a(θs,φs)||2;
式中,a(θs,φs)是目标语音的导向矢量;
B1:根据声学矢量传感器通道间的信号数据比值计算传感器间的数据比值,所述声学矢量传感器通道间的信号数据比值表述为:Iij(τ,ω)=Xi(τ,ω)/Xj(τ,ω)where(i≠j),所述声学矢量传感器间的数据比值向量表达为:{Iisdr=[Iuv(τ,ω),Ivu(τ,ω),Iwo(τ,ω)]},所述声学矢量传感器通道间的信号数据比值的计算步骤为:
Iuv(τ,ω)=Xu(τ,ω)/Xv(τ,ω)
Ivu(τ,ω)=Xv(τ,ω)/Xu(τ,ω)
Iwo(τ,ω)=Xw(τ,ω)/Xo(τ,ω);
B2:采用决策树方法选择有效的声学矢量传感器间的数据比值,进行短时傅里叶变换得到每个时频点(τ,ω)的波达方向角值:
B3:将每个时频点(τ,ω)的波达方向角值与已知的目标语音的波达方向值(θs,φs)进行比较,判断各时频点(τ,ω)是否属于目标语音,对水平和俯仰角分别设置不同的阈值δ1和δ2,进行如下比较计算:
B4:基于时频点(τ,ω)的波达方向角值是否属目标语音的判断,采用下式计算目标语音的理想二值掩膜:
B5:基于时频点(τ,ω)的波达方向角值是否属目标语音的判断,采用下式计算目标语音的非线性掩膜:
式中,ξ是一个正数,ρ(0≤ρ<1)是一个趋近于0的正数,ρ反映了噪声的抑制效果,参数δ1和δ2控制掩膜提取质量;
B6:基于非线性掩膜mask(τ,ω)对输出的信号图谱Ym(τ,ω)进行时频掩蔽增强处理,得到增强的单通道语谱图Ys(τ,ω):
Ys(τ,ω)=Ym(τ,ω)×mask(τ,ω);
C1:通过声学矢量传感器采集多通道声学信号xavs(t)=[xu(t),xv(t),xw(t),xo(t)];
C2:将单通道语谱图Ys(τ,ω)作为深度神经网络的输入;将目标语音的理想二值掩膜和噪声信号的理想二值掩膜作为深度神经网络的学习目标;
C3:深度神经网络包括3层隐藏层,第一隐藏层有256个神经元,第二隐藏层及第三隐藏层有513个神经元,神经元激活函数均采用Relu,输出层有1026个神经元,其激活函数为sigmoid,初始学习速率设定为1e-5,每经过10个迭代学习速率减少为之前的一半;采用二元交叉熵为损失函数进行训练,深度神经网络输出一个噪声掩膜谱图N_mask(τ,ω)和一个语音掩膜谱图X_mask(τ,ω);
C4:保存训练好的深度神经网络的模型参数得到深度神经网络掩膜估计模型;
D1:将单通道语谱图Ys(τ,ω)输入至深度神经网络掩膜估计模型,输出相应的噪声掩膜谱图N_mask(τ,ω)和语音掩膜谱图X_mask(τ,ω);
D2:通过噪声掩膜谱图N_mask(τ,ω)和语音掩膜谱图X_mask(τ,ω);对单通道语谱图Ys(τ,ω)进行时频掩蔽增强处理计算增强的幅度语谱图Ys-nn(τ,ω):
E1:采用增强的幅度语谱图Ys-nn(τ,ω)的幅度谱和单通道语谱图Ys(τ,ω)的相位谱,进行逆傅里叶变换后输出增强的目标语音时域信号y(t)。
2.根据权利要求1所述的语音增强方法,其特征在于,所述通过声学矢量传感器采集多通道声学信号,对多通道声学信号进行预处理并获取时频谱,对时频谱进行滤波处理并输出信号图谱的步骤包括:
通过声学矢量传感器采集多通道声学信号,对所述多通道声学信号进行短时傅里叶变换获得时频谱;
对时频谱进行滤波处理并输出信号图谱。
3.根据权利要求2所述的语音增强方法,其特征在于,所述通过非线性掩膜对信号图谱进行掩蔽处理并输出增强后的单通道语谱图的步骤包括:
根据声学矢量传感器通道间的信号数据比值计算传感器间的数据比值;
通过数据比值预估时频点的波达方向角值;
判断预估时频点的波达方向角值是否属于目标语音;
基于时频点的波达方向角值是否属于目标语音的判断结果计算非线性掩膜;
通过非线性掩膜对信号图谱进行掩蔽处理,并输出增强后的单通道语谱图。
4.根据权利要求3所述的语音增强方法,其特征在于,所述将单通道语谱图输入至深度神经网络掩膜估计模型并输出掩膜谱图,通过掩膜谱图对信号图谱进行时频掩蔽增强处理获得增强的幅度语谱图的步骤包括:
将通过非线性掩膜对信号图谱进行掩蔽处理并输出增强后的单通道语谱图作为深度神经网络的输入;
将目标语音的理想二值掩膜和噪声信号的理想二值掩膜作为深度神经网络的学习目标;
训练所述深度神经网络得到深度神经网络掩膜估计模型。
5.根据权利要求4所述的语音增强方法,其特征在于,将单通道语谱图输入至深度神经网络掩膜估计模型并输出掩膜谱图,通过掩膜谱图对信号图谱进行时频掩蔽增强处理获得增强的幅度语谱图的步骤包括:
通过非线性掩膜对信号图谱进行掩蔽处理并输出增强后的单通道语谱图;
输出噪声掩膜谱图和语音掩膜谱图;
通过噪声掩膜谱图和语音掩膜谱图对信号图谱进行时频掩蔽增强处理,得到增强的幅度语谱图。
6.根据权利要求5所述的语音增强方法,其特征在于,所述通过增强的幅度语谱图重构输出增强的目标语音信号的步骤包括:
采用幅度语谱图的幅度谱和信号图谱的相位谱,进行逆傅里叶变换后输出增强的目标语音时域信号。
7.一种语音增强系统,其特征在于,包括:
语音采集与预处理模块,用于通过声学矢量传感器采集多通道声学信号,对多通道声学信号进行预处理并获取时频谱,对时频谱进行滤波处理并输出信号图谱;
声学矢量传感器掩膜去干扰模块,用于通过非线性掩膜对信号图谱进行掩蔽处理并输出增强后的单通道语谱图;
深度神经网络去噪模块,用于将单通道语谱图输入至深度神经网络掩膜估计模型并输出掩膜谱图,通过掩膜谱图对信号图谱进行时频掩蔽增强处理获得增强的幅度语谱图;
增强语音信号重构模块,用于通过增强的幅度语谱图重构输出增强的目标语音信号;
其中,所述系统用于:
A1:通过声学矢量传感器采集多通道声学信号xavs(t);
获得u-通道信号xu(t)、v-通道信号xv(t)、w-通道信号xw(t)及o-通道信号xo(t),上述方法表述为:{Input:xavs(t)=[xu(t),xv(t),xw(t),xo(t)]};
对多通道声学信号xavs(t)进行短时傅里叶变换获得时频谱Xavs(τ,ω),上述方法表述为:{Xavs(t,w)=[Xu(t,w),Xv(t,w),Xw(t,w),Xo(t,w)]T},其中,Xu(t,w)为u通道信号的时频谱,Xv(t,w)为v通道信号的时频谱,Xw(t,w)为w通道信号的时频谱,Xo(t,w)为o通道信号的时频谱;
A3:所述wm H是固定波束形成器的权向量,通过下面公式计算:
wm H=aH(θs,φs)/||a(θs,φs)||2;
式中,a(θs,φs)是目标语音的导向矢量;
B1:根据声学矢量传感器通道间的信号数据比值计算传感器间的数据比值,所述声学矢量传感器通道间的信号数据比值表述为:Iij(τ,ω)=Xi(τ,ω)/Xj(τ,ω)where(i≠j),所述声学矢量传感器间的数据比值向量表达为:{Iisdr=[Iuv(τ,ω),Ivu(τ,ω),Iwo(τ,ω)]},所述声学矢量传感器通道间的信号数据比值的计算步骤为:
Iuv(τ,ω)=Xu(τ,ω)/Xv(τ,ω)
Ivu(τ,ω)=Xv(τ,ω)/Xu(τ,ω)
Iwo(τ,ω)=Xw(τ,ω)/Xo(τ,ω);
B2:采用决策树方法选择有效的声学矢量传感器间的数据比值,进行短时傅里叶变换得到每个时频点(τ,ω)的波达方向角值:
B3:将每个时频点(τ,ω)的波达方向角值与已知的目标语音的波达方向值(θs,φs)进行比较,判断各时频点(τ,ω)是否属于目标语音,对水平和俯仰角分别设置不同的阈值δ1和δ2,进行如下比较计算:
B4:基于时频点(τ,ω)的波达方向角值是否属于目标语音的判断,采用下式计算目标语音的理想二值掩膜:
B5:基于时频点(τ,ω)的波达方向角值是否属于目标语音的判断,采用下式计算目标语音的非线性掩膜:
式中,ξ是一个正数,ρ(0≤ρ<1)是一个趋近于0的正数,ρ反映了噪声的抑制效果,参数δ1和δ2控制掩膜提取质量;
B6:基于非线性掩膜mask(τ,ω)对输出的信号图谱Ym(τ,ω)进行时频掩蔽增强处理,得到增强的单通道语谱图Ys(τ,ω):
Ys(τ,ω)=Ym(τ,ω)×mask(τ,ω);
C1:通过声学矢量传感器采集多通道声学信号xavs(t)=[xu(t),xv(t),xw(t),xo(t)];
C2:将单通道语谱图Ys(τ,ω)作为深度神经网络的输入;将目标语音的理想二值掩膜和噪声信号的理想二值掩膜作为深度神经网络的学习目标;
C3:深度神经网络包括3层隐藏层,第一隐藏层有256个神经元,第二隐藏层及第三隐藏层有513个神经元,神经元激活函数均采用Relu,输出层有1026个神经元,其激活函数为sigmoid,初始学习速率设定为1e-5,每经过10个迭代学习速率减少为之前的一半;采用二元交叉熵为损失函数进行训练,深度神经网络输出一个噪声掩膜谱图N_mask(τ,ω)和一个语音掩膜谱图X_mask(τ,ω);
C4:保存训练好的深度神经网络的模型参数得到深度神经网络掩膜估计模型;
D1:将单通道语谱图Ys(τ,ω)输入至深度神经网络掩膜估计模型,输出相应的噪声掩膜谱图N_mask(τ,ω)和语音掩膜谱图X_mask(τ,ω);
D2:通过噪声掩膜谱图N_mask(τ,ω)和语音掩膜谱图X_mask(τ,ω);对单通道语谱图Ys(τ,ω)进行时频掩蔽增强处理计算增强的幅度语谱图Ys-nn(τ,ω):
E1:采用增强的幅度语谱图Ys-nn(τ,ω)的幅度谱和单通道语谱图Ys(τ,ω)的相位谱,进行逆傅里叶变换后输出增强的目标语音时域信号y(t)。
8.一种计算机设备,其特征在于,包括处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述处理器执行所述机器可读指令,以执行时执行如权利要求1-6任一所述的语音增强方法的步骤。
9.一种存储介质,其特征在于,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1-6任一所述的语音增强方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910799126.2A CN110503972B (zh) | 2019-08-26 | 2019-08-26 | 语音增强方法、系统、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910799126.2A CN110503972B (zh) | 2019-08-26 | 2019-08-26 | 语音增强方法、系统、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110503972A CN110503972A (zh) | 2019-11-26 |
CN110503972B true CN110503972B (zh) | 2022-04-19 |
Family
ID=68590144
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910799126.2A Active CN110503972B (zh) | 2019-08-26 | 2019-08-26 | 语音增强方法、系统、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110503972B (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111243617B (zh) * | 2020-01-13 | 2022-11-18 | 中国科学院声学研究所 | 一种基于深度学习降低mfcc特征失真的语音增强方法 |
CN111312273A (zh) * | 2020-05-11 | 2020-06-19 | 腾讯科技(深圳)有限公司 | 混响消除方法、装置、计算机设备和存储介质 |
CN111768796B (zh) * | 2020-07-14 | 2024-05-03 | 中国科学院声学研究所 | 一种声学回波消除与去混响方法及装置 |
CN111951819B (zh) * | 2020-08-20 | 2024-04-09 | 北京字节跳动网络技术有限公司 | 回声消除方法、装置及存储介质 |
CN112017682B (zh) * | 2020-09-18 | 2023-05-23 | 中科极限元(杭州)智能科技股份有限公司 | 一种单通道语音同时降噪和去混响系统 |
CN112712816B (zh) * | 2020-12-23 | 2023-06-20 | 北京达佳互联信息技术有限公司 | 语音处理模型的训练方法和装置以及语音处理方法和装置 |
CN112289334B (zh) * | 2020-12-29 | 2021-04-02 | 北京达佳互联信息技术有限公司 | 一种混响消除方法及装置 |
CN113030862B (zh) * | 2021-03-12 | 2023-06-02 | 中国科学院声学研究所 | 一种多通道语音增强方法及装置 |
FR3121542A1 (fr) * | 2021-04-01 | 2022-10-07 | Orange | Estimation d’un masque optimisé pour le traitement de données sonores acquises |
CN113314147B (zh) * | 2021-05-26 | 2023-07-25 | 北京达佳互联信息技术有限公司 | 音频处理模型的训练方法及装置、音频处理方法及装置 |
CN113470686B (zh) * | 2021-07-23 | 2023-05-30 | 平安科技(深圳)有限公司 | 语音增强方法、装置、设备及存储介质 |
CN113299306B (zh) * | 2021-07-27 | 2021-10-15 | 北京世纪好未来教育科技有限公司 | 回声消除方法、装置、电子设备及计算机可读存储介质 |
WO2023102930A1 (zh) * | 2021-12-10 | 2023-06-15 | 清华大学深圳国际研究生院 | 语音增强方法、电子设备、程序产品及存储介质 |
CN114176563B (zh) * | 2021-12-13 | 2023-11-21 | 中南大学湘雅医院 | 贴附式的无线呼吸监测装置、计算机设备与存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20110089782A (ko) * | 2010-02-01 | 2011-08-09 | 서강대학교산학협력단 | Duet 를 기반으로 한 관심 음원 향상 방법 |
CN103531204A (zh) * | 2013-10-11 | 2014-01-22 | 深港产学研基地 | 语音增强方法 |
CN104103277A (zh) * | 2013-04-15 | 2014-10-15 | 北京大学深圳研究生院 | 一种基于时频掩膜的单声学矢量传感器目标语音增强方法 |
US10043527B1 (en) * | 2015-07-17 | 2018-08-07 | Digimarc Corporation | Human auditory system modeling with masking energy adaptation |
CN109308904A (zh) * | 2018-10-22 | 2019-02-05 | 上海声瀚信息科技有限公司 | 一种阵列语音增强算法 |
CN110164470A (zh) * | 2019-06-12 | 2019-08-23 | 成都嗨翻屋科技有限公司 | 人声分离方法、装置、用户终端及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160111107A1 (en) * | 2014-10-21 | 2016-04-21 | Mitsubishi Electric Research Laboratories, Inc. | Method for Enhancing Noisy Speech using Features from an Automatic Speech Recognition System |
-
2019
- 2019-08-26 CN CN201910799126.2A patent/CN110503972B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20110089782A (ko) * | 2010-02-01 | 2011-08-09 | 서강대학교산학협력단 | Duet 를 기반으로 한 관심 음원 향상 방법 |
CN104103277A (zh) * | 2013-04-15 | 2014-10-15 | 北京大学深圳研究生院 | 一种基于时频掩膜的单声学矢量传感器目标语音增强方法 |
CN103531204A (zh) * | 2013-10-11 | 2014-01-22 | 深港产学研基地 | 语音增强方法 |
US10043527B1 (en) * | 2015-07-17 | 2018-08-07 | Digimarc Corporation | Human auditory system modeling with masking energy adaptation |
CN109308904A (zh) * | 2018-10-22 | 2019-02-05 | 上海声瀚信息科技有限公司 | 一种阵列语音增强算法 |
CN110164470A (zh) * | 2019-06-12 | 2019-08-23 | 成都嗨翻屋科技有限公司 | 人声分离方法、装置、用户终端及存储介质 |
Non-Patent Citations (2)
Title |
---|
《Enhancing Target Speech Based on Nonlinear Soft Masking Using a Single Acoustic Vector Sensor》;Yuexian Zou et al.;《Applied Sciences-Basel》;20180823;第8卷(第9期);第1-17页 * |
《基于单AVS的空间目标语音增强方法》;邹月娴 等;《清华大学学报(自然科学版)》;20130427;第53卷(第6期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110503972A (zh) | 2019-11-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110503972B (zh) | 语音增强方法、系统、计算机设备及存储介质 | |
CN109841226B (zh) | 一种基于卷积递归神经网络的单通道实时降噪方法 | |
CN107452389B (zh) | 一种通用的单声道实时降噪方法 | |
CN108986838B (zh) | 一种基于声源定位的自适应语音分离方法 | |
AU2022200439B2 (en) | Multi-modal speech separation method and system | |
CN110459234B (zh) | 用于车载的语音识别方法及系统 | |
CN109817209B (zh) | 一种基于双麦克风阵列的智能语音交互系统 | |
CN110600050B (zh) | 基于深度神经网络的麦克风阵列语音增强方法及系统 | |
Han et al. | Learning spectral mapping for speech dereverberation | |
US20180190280A1 (en) | Voice recognition method and apparatus | |
CN110148420A (zh) | 一种适用于噪声环境下的语音识别方法 | |
CN111239687A (zh) | 一种基于深度神经网络的声源定位方法及系统 | |
WO2022012206A1 (zh) | 音频信号处理方法、装置、设备及存储介质 | |
CN111445919A (zh) | 结合ai模型的语音增强方法、系统、电子设备和介质 | |
JP2022529912A (ja) | 深層フィルタを決定するための方法および装置 | |
CN113903353A (zh) | 一种基于空间区分性检测的定向噪声消除方法及装置 | |
CN113707136B (zh) | 服务型机器人语音交互的音视频混合语音前端处理方法 | |
CN113782044B (zh) | 一种语音增强方法及装置 | |
Li et al. | Robust voice activity detection using a masked auditory encoder based convolutional neural network | |
CN111681649B (zh) | 语音识别方法、交互系统及包括该系统的成绩管理系统 | |
Kim et al. | Sound source separation algorithm using phase difference and angle distribution modeling near the target. | |
CN110797008A (zh) | 一种远场语音识别方法、语音识别模型训练方法和服务器 | |
Ajay et al. | Comparative study of deep learning techniques used for speech enhancement | |
CN110838307B (zh) | 语音消息处理方法及装置 | |
Xiang et al. | Distributed Microphones Speech Separation by Learning Spatial Information With Recurrent Neural Network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |