CN110503972B - 语音增强方法、系统、计算机设备及存储介质 - Google Patents

语音增强方法、系统、计算机设备及存储介质 Download PDF

Info

Publication number
CN110503972B
CN110503972B CN201910799126.2A CN201910799126A CN110503972B CN 110503972 B CN110503972 B CN 110503972B CN 201910799126 A CN201910799126 A CN 201910799126A CN 110503972 B CN110503972 B CN 110503972B
Authority
CN
China
Prior art keywords
spectrogram
mask
signal
channel
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910799126.2A
Other languages
English (en)
Other versions
CN110503972A (zh
Inventor
邹月娴
刘钊祎
张皓然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University Shenzhen Graduate School
Original Assignee
Peking University Shenzhen Graduate School
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Shenzhen Graduate School filed Critical Peking University Shenzhen Graduate School
Priority to CN201910799126.2A priority Critical patent/CN110503972B/zh
Publication of CN110503972A publication Critical patent/CN110503972A/zh
Application granted granted Critical
Publication of CN110503972B publication Critical patent/CN110503972B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明提供了一种语音增强方法、系统、计算机设备及存储介质,涉及人机语音交互的技术领域,包括通过声学矢量传感器采集多通道声学信号,对多通道声学信号进行预处理并获取时频谱,对时频谱进行滤波处理并输出信号图谱;通过非线性掩膜对信号图谱进行掩蔽处理并输出增强后的单通道语谱图;将单通道语谱图输入至深度神经网络掩膜估计模型并输出掩膜谱图,通过掩膜谱图对信号图谱进行时频掩蔽增强处理获得增强的幅度语谱图;通过增强的幅度语谱图重构输出增强的目标语音信号,解决了多通道语音增强具有硬件成本较高、采集系统体积大、运算复杂度高的技术问题,在不同干扰噪声种类、强度和房间混响条件下都可获得优秀的语音增强效果的技术效果。

Description

语音增强方法、系统、计算机设备及存储介质
技术领域
本发明涉及人机语音交互技术领域,尤其是涉及一种基于声学矢量传感器和深度神经网络的语音增强方法、系统、计算机设备及存储介质。
背景技术
语音增强技术是语音信号处理的一个重要研究方向,是语音处理系统的核心技术之一,在移动电话,助听器,服务机器人以及智能家居等方面有着广泛的应用。语音增强的目的是抑制采集的多通道声学信号中的非目标语音和噪声干扰信号,同时增强目标语音信号,从而提高语音的可懂度和提高语音识别系统的性能。根据采集语音设备的不同,语音增强技术可分为单通道和多通道语音增强,其中多通道语音增强具有更有效抑制环境噪声、混响的优势,但具有硬件成本较高、采集系统体积大、运算复杂度高等局限。
发明内容
本发明的目的在于提供一种语音增强方法、系统、计算机设备及存储介质,以降低采集设备的硬件成本、提升语音增强性能。
本发明提供的一种语音增强方法,所述方法应用于语音增强系统,所述方法包括:
通过声学矢量传感器采集多通道声学信号,对多通道声学信号进行预处理并获取时频谱,对时频谱进行滤波处理并输出信号图谱;
通过非线性掩膜对信号图谱进行掩蔽处理并输出增强后的单通道语谱图;
将单通道语谱图输入至深度神经网络掩膜估计模型并输出掩膜谱图,通过掩膜谱图对信号图谱进行时频掩蔽增强处理获得增强的幅度语谱图;
通过增强的幅度语谱图重构输出增强的目标语音信号。
进一步的,所述通过声学矢量传感器采集多通道声学信号,对多通道声学信号进行预处理并获取时频谱,对时频谱进行滤波处理并输出信号图谱的步骤包括:
通过声学矢量传感器采集多通道声学信号,对所述多通道声学信号进行短时傅里叶变换获得时频谱;
对时频谱进行滤波处理并输出信号图谱。
进一步的,所述通过非线性掩膜对信号图谱进行掩蔽处理并输出增强后的单通道语谱图的步骤包括:
根据声学矢量传感器通道间的信号数据比值计算传感器间的数据比值;
通过数据比值预估时频点的波达方向角值;
判断预估时频点的波达方向角值是否属于目标语音;
基于时频点的波达方向角值是否属于目标语音的判断结果计算非线性掩膜;
通过非线性掩膜对信号图谱进行掩蔽处理,并输出增强后的单通道语谱图。
进一步的,所述将单通道语谱图输入至深度神经网络掩膜估计模型并输出掩膜谱图,通过掩膜谱图对信号图谱进行时频掩蔽增强处理获得增强的幅度语谱图的步骤包括:
将单通道语谱图作为深度神经网络的输入;
将目标语音的理想二值掩膜和噪声信号的理想二值掩膜作为深度神经网络的学习目标;
训练所述深度神经网络得到深度神经网络掩膜估计模型。
进一步的,将单通道语谱图输入至深度神经网络掩膜估计模型并输出掩膜谱图,通过掩膜谱图对信号图谱进行时频掩蔽增强处理获得增强的幅度语谱图的步骤还包括:
将单通道语谱图作为深度神经网络模型的输入;
输出噪声掩膜谱图和语音掩膜谱图;
通过噪声掩膜谱图和语音掩膜谱图对信号图谱进行时频掩蔽增强处理获得增强的幅度语谱图。
进一步的,所述通过增强的幅度语谱图重构输出增强的目标语音信号的步骤包括:
采用幅度语谱图的幅度谱和信号图谱的相位谱,进行逆傅里叶变换后输出增强的目标语音时域信号。
进一步的,语音增强方法包括如下步骤:
A1:通过声学矢量传感器采集多通道声学信号xavs(t);
获得u-通道信号xu(t)、v-通道信号xv(t)、w-通道信号xw(t)及o-通道信号xo(t),上述方法表述为:{Input:xavs(t)=[xu(t),xv(t),xw(t),xo(t)]};
对多通道声学信号xavs(t)进行短时傅里叶变换获得时频谱Xavs(τ,ω),上述方法表述为:{Xavs(t,w)=[Xu(t,w),Xv(t,w),Xw(t,w),Xo(t,w)]T};
A2:对时频谱Xavs(τ,ω)进行滤波处理并输出信号图谱:
Figure BDA0002179184840000031
A3:所述wm H是固定波束形成器的权向量,通过下面公式计算:
wm H=aHss)/||a(θss)||2
式中,a(θss)是目标语音的导向矢量;
B1:根据声学矢量传感器通道间的信号数据比值计算传感器间的数据比值,所述声学矢量传感器通道间的信号数据比值表述为:Iij(τ,ω)=Xi(τ,ω)/Xj(τ,ω)where(i≠j),所述声学矢量传感器间的数据比值向量表达为:{Iisdr=[Iuv(τ,ω),Ivu(τ,ω),Iwo(τ,ω)]},所述声学矢量传感器通道间的信号数据比值的计算步骤为:
Iuv(τ,ω)=Xu(τ,ω)/Xv(τ,ω)
Ivu(τ,ω)=Xv(τ,ω)/Xu(τ,ω)
Iwo(τ,ω)=Xw(τ,ω)/Xo(τ,ω);
B2:采用决策树方法选择有效的声学矢量传感器间的数据比值,进行短时傅里叶变换得到每个时频点(τ,ω)的波达方向角值:
Figure BDA0002179184840000041
Figure BDA0002179184840000042
Figure BDA0002179184840000043
Figure BDA0002179184840000044
B3:将每个时频点(τ,ω)的波达方向角值与已知的目标语音的波达方向值(θss)进行比较,判断各时频点(τ,ω)是否属于目标语音,对水平和俯仰角分别设置不同的阈值δ1和δ2,进行如下比较计算:
Figure BDA0002179184840000045
Figure BDA0002179184840000046
B4:基于时频点(τ,ω)的波达方向角值是否属目标语音的判断,采用下式计算目标语音的理想二值掩膜:
Figure BDA0002179184840000047
B5:基于时频点(τ,ω)的波达方向角值是否属目标语音的判断,采用下式计算目标语音的非线性掩膜:
Figure BDA0002179184840000051
式中,ξ是一个正数,ρ(0≤ρ<1)是一个趋近于0的正数,ρ反映了噪声的抑制效果,参数δ1和δ2控制掩膜提取质量;
B6:基于非线性掩膜mask(τ,ω)对输出的信号图谱Ym(τ,ω)进行时频掩蔽增强处理,得到增强的单通道语谱图Ys(τ,ω):
Ys(τ,ω)=Ym(τ,ω)×mask(τ,ω);
C1:通过声学矢量传感器采集多通道声学信号xavs(t)=[xu(t),xv(t),xw(t),xo(t)];
C2:将单通道语谱图Ys(τ,ω)作为深度神经网络的输入;将目标语音的理想二值掩膜和噪声信号的理想二值掩膜作为深度神经网络的学习目标;
C3:深度神经网络包括3层隐藏层,第一隐藏层有256个神经元,第二隐藏层及第三隐藏层有513个神经元,神经元激活函数均采用Relu,输出层有1026个神经元,其激活函数为sigmoid,初始学习速率设定为1e-5,每经过10个迭代学习速率减少为之前的一半;采用二元交叉熵为损失函数进行训练,深度神经网络输出一个噪声掩膜谱图N_mask(τ,ω)和一个语音掩膜谱图X_mask(τ,ω);
C4:保存训练好的深度神经网络的模型参数得到深度神经网络掩膜估计模型;
D1:将单通道语谱图Ys(τ,ω)输入至深度神经网络掩膜估计模型,输出相应的噪声掩膜谱图N_mask(τ,ω)和语音掩膜谱图X_mask(τ,ω);
D2:通过噪声掩膜谱图N_mask(τ,ω)和语音掩膜谱图X_mask(τ,ω);对信号图谱Ys(τ,ω)进行时频掩蔽增强处理计算增强的幅度语谱图Ys-nn(τ,ω):
Ys_nn(τ,ω)=[Ys(τ,ω)×X_mask(τ,ω)+Ys(τ,ω)-Ys(τ,ω)×N_mask(τ,ω)]/2;
E1:采用增强的幅度语谱图Ys-nn(τ,ω)的幅度谱和信号图谱Ys(τ,ω)的相位谱,进行逆傅里叶变换后输出增强的目标语音时域信号y(t)。
本发明还提供一种语音增强系统,包括:
语音采集与预处理模块,用于采集多通道声学信号,对多通道声学信号进行预处理并获取时频谱,对时频谱进行滤波处理并输出信号图谱;
声学矢量传感器掩膜去干扰模块,用于通过非线性掩膜对信号图谱进行掩蔽处理并输出增强后的单通道语谱图;
深度神经网络去噪模块,用于将单通道语谱图输入至深度神经网络掩膜估计模型并输出掩膜谱图,通过掩膜谱图对信号图谱进行时频掩蔽增强处理获得增强的幅度语谱图;
增强语音信号重构模块,用于通过增强的幅度语谱图重构输出增强的目标语音信号。
本发明还提供一种计算机设备,包括:包括处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述处理器执行所述机器可读指令,以执行时执行如上任一所述的语音增强方法的步骤。
本发明提供的存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上任一所述的语音增强方法的步骤。
本发明提供的语音增强方法,通过声学矢量传感器采集音频信号,具有硬件成本低、算法复杂度低的优点;利用声学矢量传感器的输出做固定波束形成,消除空间干扰;通过掩膜谱图进一步消除噪声,获得增强后的语音;通过深度神经网络掩膜估计模型进一步消除信号的残留噪声与混响,获得更为鲁棒的语音增强。在不同干扰噪声种类、强度和房间混响条件下都可获得优秀的语音增强效果。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的语音增强方法的流程示意图;
图2为本发明实施例提供的语音增强系统的结构示意图;
图3为本发明实施例提供的语音增强系统的系统示意框图;
图4为本发明实施例提供的计算机设备的结构示意图。
图标:100-语音采集与预处理模块;200-声学矢量传感器掩膜去干扰模块;300-深度神经网络去噪模块;400-增强语音信号重构模块;501-存储器;502-处理器。
具体实施方式
下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本实施例提供一种基于声学矢量传感器和深度神经网络的语音增强方法,本方法使用声学矢量传感器(Acoustic Vector Sensor,AVS)采集音频信号,在远程语音应用中,AVS的四个传感器被认为具有相同空间位置,AVS的四颗传感器时间同步地采集输出四通道语音信号。通常AVS选取压力传感器作为全向传感器,质点速度传感器和差分麦克风作为指向传感器。工业界已有投入商用的AVS,其物理体积仅占5mm3,具有体积小,同位多通道采集信号的优势,可广泛应用于对前端语音采集系统体积有严格要求的场景,如智能服务机器人等。基于AVS的特定物理结构和传感器声学特性,AVS四个通道所接受到的音频信号具有一定的三角函数关系。理论上,可以利用该函数关系推导出通道间信号关系,这些关系与空间声源信号在频域上的分布、声源与AVS的距离是无关,声源信号到达AVS传感器的入射方向有关,这是AVS采集设备独有的优点。AVS具有体积小、阵元少和轻重量等特点,可以更好地减少音频信号接收器的硬件体积,从而降低成本。
考虑到现实应用中所面临的复杂的声学场景,采用有监督的深度神经网络来学习目标语音掩膜和噪声掩膜,从而提高本发明语音增强系统在复杂声学场景下的鲁棒性。
如图1所示,语音增强方法包括:
S110:通过声学矢量传感器采集多通道声学信号,对多通道声学信号进行预处理并获取时频谱,对时频谱进行滤波处理并输出信号图谱;
S120:通过非线性掩膜对信号图谱进行掩蔽处理并输出增强后的单通道语谱图;
S130:将单通道语谱图输入至深度神经网络掩膜估计模型并输出掩膜谱图,通过掩膜谱图对信号图谱进行时频掩蔽增强处理获得增强的幅度语谱图;
S140:通过增强的幅度语谱图重构输出增强的目标语音信号。
语音增强方法的具体步骤如下,如图2所示:
A1:通过声学矢量传感器采集多通道声学信号xavs(t);
获得u-通道信号xu(t)、v-通道信号xv(t)、w-通道信号xw(t)及o-通道信号xo(t),上述方法表述为:{Input:xavs(t)=[xu(t),xv(t),xw(t),xo(t)]};
对多通道声学信号xavs(t)进行短时傅里叶变换(STFT,)获得时频谱Xavs(τ,ω),上述方法表述为:{Xavs(t,w)=[Xu(t,w),Xv(t,w),Xw(t,w),Xo(t,w)]T};
A2:对时频谱Xavs(τ,ω)进行滤波处理并输出信号图谱:
Figure BDA0002179184840000081
A3:所述wm H是固定波束形成器的权向量,通过下面公式计算:
wm H=aHss)/||a(θss)||2
式中,a(θss)是目标语音的导向矢量;
B1:根据声学矢量传感器通道间的信号数据比值计算传感器间的数据比值,所述声学矢量传感器通道间的信号数据比值表述为:Iij(τ,ω)=Xi(τ,ω)/Xj(τ,ω)where(i≠j),所述声学矢量传感器间的数据比值向量表达为:{Iisdr=[Iuv(τ,ω),Ivu(τ,ω),Iwo(τ,ω)]},所述声学矢量传感器通道间的信号数据比值的计算步骤为:
Iuv(τ,ω)=Xu(τ,ω)/Xv(τ,ω)
Ivu(τ,ω)=Xv(τ,ω)/Xu(τ,ω)
Iwo(τ,ω)=Xw(τ,ω)/Xo(τ,ω);
B2:采用决策树方法选择有效的声学矢量传感器间的数据比值,进行短时傅里叶变换得到每个时频点(τ,ω)的波达方向角值:
Figure BDA0002179184840000091
Figure BDA0002179184840000092
Figure BDA0002179184840000093
Figure BDA0002179184840000094
B3:将每个时频点(τ,ω)的波达方向角值与已知的目标语音的波达方向值(θss)进行比较,判断各时频点(τ,ω)是否属于目标语音,对水平和俯仰角分别设置不同的阈值δ1和δ2,进行如下比较计算:
Figure BDA0002179184840000095
Figure BDA0002179184840000096
B4:基于时频点(τ,ω)的波达方向角值是否属目标语音的判断,采用下式计算目标语音的理想二值掩膜:
Figure BDA0002179184840000101
B5:基于时频点(τ,ω)的波达方向角值是否属目标语音的判断,采用下式计算目标语音的非线性掩膜:
Figure BDA0002179184840000102
式中,ξ是一个正数,ρ(0≤ρ<1)是一个趋近于0的正数,ρ反映了噪声的抑制效果,参数δ1和δ2控制掩膜提取质量;
B6:基于非线性掩膜mask(τ,ω)对输出的信号图谱Ym(τ,ω)进行时频掩蔽增强处理,得到增强的单通道语谱图Ys(τ,ω):
Ys(τ,ω)=Ym(τ,ω)×mask(τ,ω);
C1:通过声学矢量传感器采集多通道声学信号xavs(t)=[xu(t),xv(t),xw(t),xo(t)];
C2:将单通道语谱图Ys(τ,ω)作为深度神经网络的输入;将目标语音的理想二值掩膜和噪声信号的理想二值掩膜作为深度神经网络的学习目标;
C3:深度神经网络包括3层隐藏层,第一隐藏层有256个神经元,第二隐藏层及第三隐藏层有513个神经元,神经元激活函数均采用Relu,输出层有1026个神经元,其激活函数为sigmoid,初始学习速率设定为1e-5,每经过10个迭代学习速率减少为之前的一半;采用二元交叉熵为损失函数进行训练,深度神经网络输出一个噪声掩膜谱图N_mask(τ,ω)和一个语音掩膜谱图X_mask(τ,ω);
C4:保存训练好的深度神经网络的模型参数得到深度神经网络掩膜估计模型;
D1:将单通道语谱图Ys(τ,ω)输入至深度神经网络掩膜估计模型,输出相应的噪声掩膜谱图N_mask(τ,ω)和语音掩膜谱图X_mask(τ,ω);
D2:通过噪声掩膜谱图N_mask(τ,ω)和语音掩膜谱图X_mask(τ,ω);对信号图谱Ys(τ,ω)进行时频掩蔽增强处理计算增强的幅度语谱图Ys-nn(τ,ω):
Ys_nn(τ,ω)=[Ys(τ,ω)×X_mask(τ,ω)+Ys(τ,ω)-Ys(τ,ω)×N_mask(τ,ω)]/2;
E1:采用增强的幅度语谱图Ys-nn(τ,ω)的幅度谱和信号图谱Ys(τ,ω)的相位谱,进行逆傅里叶变换后输出增强的目标语音时域信号y(t)。
如图3所示,一种语音增强系统,包括:
语音采集与预处理模块100,用于通过声学矢量传感器采集多通道声学信号,对多通道声学信号进行预处理并获取时频谱,对时频谱进行滤波处理并输出信号图谱;
声学矢量传感器掩膜去干扰模块200,用于通过非线性掩膜对信号图谱进行掩蔽处理并输出增强后的单通道语谱图;
深度神经网络去噪模块300,用于将单通道语谱图输入至深度神经网络掩膜估计模型并输出掩膜谱图,通过掩膜谱图对信号图谱进行时频掩蔽增强处理获得增强的幅度语谱图;
增强语音信号重构模块400,用于通过增强的幅度语谱图重构输出增强的目标语音信号。
如图4所示,一种计算机设备,包括:包括处理器502、存储器501和总线,所述存储器501存储有所述处理器502可执行的机器可读指令,当计算机设备运行时,所述处理器502与所述存储器501之间通过总线通信,所述处理器502执行所述机器可读指令,以执行时执行如上任一所述的语音增强方法的步骤。
一种存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上任一所述的语音增强方法的步骤。
本发明的有益效果在于:1)本发明所述的方法易于在移动或便携设备上应用。本发明采用AVS采集音频信号,该传感器仅有1cm3大小,易于在小型设备上集成系统;同时算法复杂度低,易于实时运行在运算能力有限的嵌入式平台上。2)本发明所述的方法利用AVS传感器的输出做固定波束形成,以消除空间干扰;然后通过分析AVS四通道输出的相互关系传感器间数据比值,设计一种有效的目标语音掩膜产生方法,进一步消除噪声,获得增强后的语音,该方法在干扰噪声场和背景噪声场都能够有效抑制噪声,并且在散射噪声场中也能够获得良好的效果,有较好的鲁棒性。3)最后,本发明所述的方法能够利用深度神经网络较强的学习能力,采用仿真数据,有监督地训练一个深度神经网络目标语音掩膜模型,采用该深度神经网络掩膜估计模型,进一步消除信号的残留噪声与混响,获得更为鲁棒的语音增强,从而应对现实环境中复杂的声学环境。实验数据验证了本发明在不同的干扰噪声种类、强度和房间混响条件下,都能获得优秀的语音增强效果。
实验结果和性能:
采用本发明方法的语音增强实验结果与性能对比
Figure BDA0002179184840000121
Figure BDA0002179184840000131
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (9)

1.一种语音增强方法,其特征在于,所述方法应用于语音增强系统,所述方法包括:
通过声学矢量传感器采集多通道声学信号,对多通道声学信号进行预处理并获取时频谱,对时频谱进行滤波处理并输出信号图谱;
通过非线性掩膜对信号图谱进行掩蔽处理并输出增强后的单通道语谱图;
将单通道语谱图输入至深度神经网络掩膜估计模型并输出掩膜谱图,通过掩膜谱图对信号图谱进行时频掩蔽增强处理获得增强的幅度语谱图;
通过增强的幅度语谱图重构输出增强的目标语音信号;
其中,所述方法包括如下步骤:
A1:通过声学矢量传感器采集多通道声学信号xavs(t);
获得u-通道信号xu(t)、v-通道信号xv(t)、w-通道信号xw(t)及o-通道信号xo(t),上述方法表述为:{Input:xavs(t)=[xu(t),xv(t),xw(t),xo(t)]};
对多通道声学信号xavs(t)进行短时傅里叶变换获得时频谱Xavs(τ,ω),上述方法表述为:{Xavs(t,w)=[Xu(t,w),Xv(t,w),Xw(t,w),Xo(t,w)]T},其中,Xu(t,w)为u通道信号的时频谱,Xv(t,w)为v通道信号的时频谱,Xw(t,w)为w通道信号的时频谱,Xo(t,w)为o通道信号的时频谱;
A2:对时频谱Xavs(τ,ω)进行滤波处理并输出信号图谱:
Figure FDA0003412540280000011
A3:所述wm H是固定波束形成器的权向量,通过下面公式计算:
wm H=aHss)/||a(θss)||2
式中,a(θss)是目标语音的导向矢量;
B1:根据声学矢量传感器通道间的信号数据比值计算传感器间的数据比值,所述声学矢量传感器通道间的信号数据比值表述为:Iij(τ,ω)=Xi(τ,ω)/Xj(τ,ω)where(i≠j),所述声学矢量传感器间的数据比值向量表达为:{Iisdr=[Iuv(τ,ω),Ivu(τ,ω),Iwo(τ,ω)]},所述声学矢量传感器通道间的信号数据比值的计算步骤为:
Iuv(τ,ω)=Xu(τ,ω)/Xv(τ,ω)
Ivu(τ,ω)=Xv(τ,ω)/Xu(τ,ω)
Iwo(τ,ω)=Xw(τ,ω)/Xo(τ,ω);
B2:采用决策树方法选择有效的声学矢量传感器间的数据比值,进行短时傅里叶变换得到每个时频点(τ,ω)的波达方向角值:
Figure FDA0003412540280000021
Figure FDA0003412540280000022
Figure FDA0003412540280000023
Figure FDA0003412540280000024
B3:将每个时频点(τ,ω)的波达方向角值与已知的目标语音的波达方向值(θss)进行比较,判断各时频点(τ,ω)是否属于目标语音,对水平和俯仰角分别设置不同的阈值δ1和δ2,进行如下比较计算:
Figure FDA0003412540280000025
Figure FDA0003412540280000026
B4:基于时频点(τ,ω)的波达方向角值是否属目标语音的判断,采用下式计算目标语音的理想二值掩膜:
Figure FDA0003412540280000027
B5:基于时频点(τ,ω)的波达方向角值是否属目标语音的判断,采用下式计算目标语音的非线性掩膜:
Figure FDA0003412540280000028
式中,ξ是一个正数,ρ(0≤ρ<1)是一个趋近于0的正数,ρ反映了噪声的抑制效果,参数δ1和δ2控制掩膜提取质量;
B6:基于非线性掩膜mask(τ,ω)对输出的信号图谱Ym(τ,ω)进行时频掩蔽增强处理,得到增强的单通道语谱图Ys(τ,ω):
Ys(τ,ω)=Ym(τ,ω)×mask(τ,ω);
C1:通过声学矢量传感器采集多通道声学信号xavs(t)=[xu(t),xv(t),xw(t),xo(t)];
C2:将单通道语谱图Ys(τ,ω)作为深度神经网络的输入;将目标语音的理想二值掩膜和噪声信号的理想二值掩膜作为深度神经网络的学习目标;
C3:深度神经网络包括3层隐藏层,第一隐藏层有256个神经元,第二隐藏层及第三隐藏层有513个神经元,神经元激活函数均采用Relu,输出层有1026个神经元,其激活函数为sigmoid,初始学习速率设定为1e-5,每经过10个迭代学习速率减少为之前的一半;采用二元交叉熵为损失函数进行训练,深度神经网络输出一个噪声掩膜谱图N_mask(τ,ω)和一个语音掩膜谱图X_mask(τ,ω);
C4:保存训练好的深度神经网络的模型参数得到深度神经网络掩膜估计模型;
D1:将单通道语谱图Ys(τ,ω)输入至深度神经网络掩膜估计模型,输出相应的噪声掩膜谱图N_mask(τ,ω)和语音掩膜谱图X_mask(τ,ω);
D2:通过噪声掩膜谱图N_mask(τ,ω)和语音掩膜谱图X_mask(τ,ω);对单通道语谱图Ys(τ,ω)进行时频掩蔽增强处理计算增强的幅度语谱图Ys-nn(τ,ω):
Figure FDA0003412540280000031
E1:采用增强的幅度语谱图Ys-nn(τ,ω)的幅度谱和单通道语谱图Ys(τ,ω)的相位谱,进行逆傅里叶变换后输出增强的目标语音时域信号y(t)。
2.根据权利要求1所述的语音增强方法,其特征在于,所述通过声学矢量传感器采集多通道声学信号,对多通道声学信号进行预处理并获取时频谱,对时频谱进行滤波处理并输出信号图谱的步骤包括:
通过声学矢量传感器采集多通道声学信号,对所述多通道声学信号进行短时傅里叶变换获得时频谱;
对时频谱进行滤波处理并输出信号图谱。
3.根据权利要求2所述的语音增强方法,其特征在于,所述通过非线性掩膜对信号图谱进行掩蔽处理并输出增强后的单通道语谱图的步骤包括:
根据声学矢量传感器通道间的信号数据比值计算传感器间的数据比值;
通过数据比值预估时频点的波达方向角值;
判断预估时频点的波达方向角值是否属于目标语音;
基于时频点的波达方向角值是否属于目标语音的判断结果计算非线性掩膜;
通过非线性掩膜对信号图谱进行掩蔽处理,并输出增强后的单通道语谱图。
4.根据权利要求3所述的语音增强方法,其特征在于,所述将单通道语谱图输入至深度神经网络掩膜估计模型并输出掩膜谱图,通过掩膜谱图对信号图谱进行时频掩蔽增强处理获得增强的幅度语谱图的步骤包括:
将通过非线性掩膜对信号图谱进行掩蔽处理并输出增强后的单通道语谱图作为深度神经网络的输入;
将目标语音的理想二值掩膜和噪声信号的理想二值掩膜作为深度神经网络的学习目标;
训练所述深度神经网络得到深度神经网络掩膜估计模型。
5.根据权利要求4所述的语音增强方法,其特征在于,将单通道语谱图输入至深度神经网络掩膜估计模型并输出掩膜谱图,通过掩膜谱图对信号图谱进行时频掩蔽增强处理获得增强的幅度语谱图的步骤包括:
通过非线性掩膜对信号图谱进行掩蔽处理并输出增强后的单通道语谱图;
输出噪声掩膜谱图和语音掩膜谱图;
通过噪声掩膜谱图和语音掩膜谱图对信号图谱进行时频掩蔽增强处理,得到增强的幅度语谱图。
6.根据权利要求5所述的语音增强方法,其特征在于,所述通过增强的幅度语谱图重构输出增强的目标语音信号的步骤包括:
采用幅度语谱图的幅度谱和信号图谱的相位谱,进行逆傅里叶变换后输出增强的目标语音时域信号。
7.一种语音增强系统,其特征在于,包括:
语音采集与预处理模块,用于通过声学矢量传感器采集多通道声学信号,对多通道声学信号进行预处理并获取时频谱,对时频谱进行滤波处理并输出信号图谱;
声学矢量传感器掩膜去干扰模块,用于通过非线性掩膜对信号图谱进行掩蔽处理并输出增强后的单通道语谱图;
深度神经网络去噪模块,用于将单通道语谱图输入至深度神经网络掩膜估计模型并输出掩膜谱图,通过掩膜谱图对信号图谱进行时频掩蔽增强处理获得增强的幅度语谱图;
增强语音信号重构模块,用于通过增强的幅度语谱图重构输出增强的目标语音信号;
其中,所述系统用于:
A1:通过声学矢量传感器采集多通道声学信号xavs(t);
获得u-通道信号xu(t)、v-通道信号xv(t)、w-通道信号xw(t)及o-通道信号xo(t),上述方法表述为:{Input:xavs(t)=[xu(t),xv(t),xw(t),xo(t)]};
对多通道声学信号xavs(t)进行短时傅里叶变换获得时频谱Xavs(τ,ω),上述方法表述为:{Xavs(t,w)=[Xu(t,w),Xv(t,w),Xw(t,w),Xo(t,w)]T},其中,Xu(t,w)为u通道信号的时频谱,Xv(t,w)为v通道信号的时频谱,Xw(t,w)为w通道信号的时频谱,Xo(t,w)为o通道信号的时频谱;
A2:对时频谱Xavs(τ,ω)进行滤波处理并输出信号图谱:
Figure FDA0003412540280000061
A3:所述wm H是固定波束形成器的权向量,通过下面公式计算:
wm H=aHss)/||a(θss)||2
式中,a(θss)是目标语音的导向矢量;
B1:根据声学矢量传感器通道间的信号数据比值计算传感器间的数据比值,所述声学矢量传感器通道间的信号数据比值表述为:Iij,ω)=Xi(τ,ω)/Xj(τ,ω)where(i≠j),所述声学矢量传感器间的数据比值向量表达为:{Iisdr=[Iuv(τ,ω),Ivu(τ,ω),Iwo(τ,ω)]},所述声学矢量传感器通道间的信号数据比值的计算步骤为:
Iuv(τ,ω)=Xu(τ,ω)/Xv(τ,ω)
Ivu(τ,ω)=Xv(τ,ω)/Xu(τ,ω)
Iwo(τ,ω)=Xw(τ,ω)/Xo(τ,ω);
B2:采用决策树方法选择有效的声学矢量传感器间的数据比值,进行短时傅里叶变换得到每个时频点(τ,ω)的波达方向角值:
Figure FDA0003412540280000062
Figure FDA0003412540280000063
Figure FDA0003412540280000064
Figure FDA0003412540280000071
B3:将每个时频点(τ,ω)的波达方向角值与已知的目标语音的波达方向值(θss)进行比较,判断各时频点(τ,ω)是否属于目标语音,对水平和俯仰角分别设置不同的阈值δ1和δ2,进行如下比较计算:
Figure FDA0003412540280000072
Figure FDA0003412540280000073
B4:基于时频点(τ,ω)的波达方向角值是否属于目标语音的判断,采用下式计算目标语音的理想二值掩膜:
Figure FDA0003412540280000074
B5:基于时频点(τ,ω)的波达方向角值是否属于目标语音的判断,采用下式计算目标语音的非线性掩膜:
Figure FDA0003412540280000075
式中,ξ是一个正数,ρ(0≤ρ<1)是一个趋近于0的正数,ρ反映了噪声的抑制效果,参数δ1和δ2控制掩膜提取质量;
B6:基于非线性掩膜mask(τ,ω)对输出的信号图谱Ym(τ,ω)进行时频掩蔽增强处理,得到增强的单通道语谱图Ys(τ,ω):
Ys(τ,ω)=Ym(τ,ω)×mask(τ,ω);
C1:通过声学矢量传感器采集多通道声学信号xavs(t)=[xu(t),xv(t),xw(t),xo(t)];
C2:将单通道语谱图Ys(τ,ω)作为深度神经网络的输入;将目标语音的理想二值掩膜和噪声信号的理想二值掩膜作为深度神经网络的学习目标;
C3:深度神经网络包括3层隐藏层,第一隐藏层有256个神经元,第二隐藏层及第三隐藏层有513个神经元,神经元激活函数均采用Relu,输出层有1026个神经元,其激活函数为sigmoid,初始学习速率设定为1e-5,每经过10个迭代学习速率减少为之前的一半;采用二元交叉熵为损失函数进行训练,深度神经网络输出一个噪声掩膜谱图N_mask(τ,ω)和一个语音掩膜谱图X_mask(τ,ω);
C4:保存训练好的深度神经网络的模型参数得到深度神经网络掩膜估计模型;
D1:将单通道语谱图Ys(τ,ω)输入至深度神经网络掩膜估计模型,输出相应的噪声掩膜谱图N_mask(τ,ω)和语音掩膜谱图X_mask(τ,ω);
D2:通过噪声掩膜谱图N_mask(τ,ω)和语音掩膜谱图X_mask(τ,ω);对单通道语谱图Ys(τ,ω)进行时频掩蔽增强处理计算增强的幅度语谱图Ys-nn(τ,ω):
Figure FDA0003412540280000081
E1:采用增强的幅度语谱图Ys-nn(τ,ω)的幅度谱和单通道语谱图Ys(τ,ω)的相位谱,进行逆傅里叶变换后输出增强的目标语音时域信号y(t)。
8.一种计算机设备,其特征在于,包括处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述处理器执行所述机器可读指令,以执行时执行如权利要求1-6任一所述的语音增强方法的步骤。
9.一种存储介质,其特征在于,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1-6任一所述的语音增强方法的步骤。
CN201910799126.2A 2019-08-26 2019-08-26 语音增强方法、系统、计算机设备及存储介质 Active CN110503972B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910799126.2A CN110503972B (zh) 2019-08-26 2019-08-26 语音增强方法、系统、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910799126.2A CN110503972B (zh) 2019-08-26 2019-08-26 语音增强方法、系统、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN110503972A CN110503972A (zh) 2019-11-26
CN110503972B true CN110503972B (zh) 2022-04-19

Family

ID=68590144

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910799126.2A Active CN110503972B (zh) 2019-08-26 2019-08-26 语音增强方法、系统、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN110503972B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111243617B (zh) * 2020-01-13 2022-11-18 中国科学院声学研究所 一种基于深度学习降低mfcc特征失真的语音增强方法
CN111312273A (zh) * 2020-05-11 2020-06-19 腾讯科技(深圳)有限公司 混响消除方法、装置、计算机设备和存储介质
CN111768796B (zh) * 2020-07-14 2024-05-03 中国科学院声学研究所 一种声学回波消除与去混响方法及装置
CN111951819B (zh) * 2020-08-20 2024-04-09 北京字节跳动网络技术有限公司 回声消除方法、装置及存储介质
CN112017682B (zh) * 2020-09-18 2023-05-23 中科极限元(杭州)智能科技股份有限公司 一种单通道语音同时降噪和去混响系统
CN112712816B (zh) * 2020-12-23 2023-06-20 北京达佳互联信息技术有限公司 语音处理模型的训练方法和装置以及语音处理方法和装置
CN112289334B (zh) * 2020-12-29 2021-04-02 北京达佳互联信息技术有限公司 一种混响消除方法及装置
CN113030862B (zh) * 2021-03-12 2023-06-02 中国科学院声学研究所 一种多通道语音增强方法及装置
FR3121542A1 (fr) * 2021-04-01 2022-10-07 Orange Estimation d’un masque optimisé pour le traitement de données sonores acquises
CN113314147B (zh) * 2021-05-26 2023-07-25 北京达佳互联信息技术有限公司 音频处理模型的训练方法及装置、音频处理方法及装置
CN113470686B (zh) * 2021-07-23 2023-05-30 平安科技(深圳)有限公司 语音增强方法、装置、设备及存储介质
CN113299306B (zh) * 2021-07-27 2021-10-15 北京世纪好未来教育科技有限公司 回声消除方法、装置、电子设备及计算机可读存储介质
WO2023102930A1 (zh) * 2021-12-10 2023-06-15 清华大学深圳国际研究生院 语音增强方法、电子设备、程序产品及存储介质
CN114176563B (zh) * 2021-12-13 2023-11-21 中南大学湘雅医院 贴附式的无线呼吸监测装置、计算机设备与存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110089782A (ko) * 2010-02-01 2011-08-09 서강대학교산학협력단 Duet 를 기반으로 한 관심 음원 향상 방법
CN103531204A (zh) * 2013-10-11 2014-01-22 深港产学研基地 语音增强方法
CN104103277A (zh) * 2013-04-15 2014-10-15 北京大学深圳研究生院 一种基于时频掩膜的单声学矢量传感器目标语音增强方法
US10043527B1 (en) * 2015-07-17 2018-08-07 Digimarc Corporation Human auditory system modeling with masking energy adaptation
CN109308904A (zh) * 2018-10-22 2019-02-05 上海声瀚信息科技有限公司 一种阵列语音增强算法
CN110164470A (zh) * 2019-06-12 2019-08-23 成都嗨翻屋科技有限公司 人声分离方法、装置、用户终端及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160111107A1 (en) * 2014-10-21 2016-04-21 Mitsubishi Electric Research Laboratories, Inc. Method for Enhancing Noisy Speech using Features from an Automatic Speech Recognition System

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110089782A (ko) * 2010-02-01 2011-08-09 서강대학교산학협력단 Duet 를 기반으로 한 관심 음원 향상 방법
CN104103277A (zh) * 2013-04-15 2014-10-15 北京大学深圳研究生院 一种基于时频掩膜的单声学矢量传感器目标语音增强方法
CN103531204A (zh) * 2013-10-11 2014-01-22 深港产学研基地 语音增强方法
US10043527B1 (en) * 2015-07-17 2018-08-07 Digimarc Corporation Human auditory system modeling with masking energy adaptation
CN109308904A (zh) * 2018-10-22 2019-02-05 上海声瀚信息科技有限公司 一种阵列语音增强算法
CN110164470A (zh) * 2019-06-12 2019-08-23 成都嗨翻屋科技有限公司 人声分离方法、装置、用户终端及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《Enhancing Target Speech Based on Nonlinear Soft Masking Using a Single Acoustic Vector Sensor》;Yuexian Zou et al.;《Applied Sciences-Basel》;20180823;第8卷(第9期);第1-17页 *
《基于单AVS的空间目标语音增强方法》;邹月娴 等;《清华大学学报(自然科学版)》;20130427;第53卷(第6期);全文 *

Also Published As

Publication number Publication date
CN110503972A (zh) 2019-11-26

Similar Documents

Publication Publication Date Title
CN110503972B (zh) 语音增强方法、系统、计算机设备及存储介质
CN109841226B (zh) 一种基于卷积递归神经网络的单通道实时降噪方法
CN107452389B (zh) 一种通用的单声道实时降噪方法
CN108986838B (zh) 一种基于声源定位的自适应语音分离方法
AU2022200439B2 (en) Multi-modal speech separation method and system
CN110459234B (zh) 用于车载的语音识别方法及系统
CN109817209B (zh) 一种基于双麦克风阵列的智能语音交互系统
CN110600050B (zh) 基于深度神经网络的麦克风阵列语音增强方法及系统
Han et al. Learning spectral mapping for speech dereverberation
US20180190280A1 (en) Voice recognition method and apparatus
CN110148420A (zh) 一种适用于噪声环境下的语音识别方法
CN111239687A (zh) 一种基于深度神经网络的声源定位方法及系统
WO2022012206A1 (zh) 音频信号处理方法、装置、设备及存储介质
CN111445919A (zh) 结合ai模型的语音增强方法、系统、电子设备和介质
JP2022529912A (ja) 深層フィルタを決定するための方法および装置
CN113903353A (zh) 一种基于空间区分性检测的定向噪声消除方法及装置
CN113707136B (zh) 服务型机器人语音交互的音视频混合语音前端处理方法
CN113782044B (zh) 一种语音增强方法及装置
Li et al. Robust voice activity detection using a masked auditory encoder based convolutional neural network
CN111681649B (zh) 语音识别方法、交互系统及包括该系统的成绩管理系统
Kim et al. Sound source separation algorithm using phase difference and angle distribution modeling near the target.
CN110797008A (zh) 一种远场语音识别方法、语音识别模型训练方法和服务器
Ajay et al. Comparative study of deep learning techniques used for speech enhancement
CN110838307B (zh) 语音消息处理方法及装置
Xiang et al. Distributed Microphones Speech Separation by Learning Spatial Information With Recurrent Neural Network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant