CN110503972B

CN110503972B - 语音增强方法、系统、计算机设备及存储介质

Info

Publication number: CN110503972B
Application number: CN201910799126.2A
Authority: CN
Inventors: 邹月娴; 刘钊祎; 张皓然
Original assignee: Peking University Shenzhen Graduate School
Current assignee: Peking University Shenzhen Graduate School
Priority date: 2019-08-26
Filing date: 2019-08-26
Publication date: 2022-04-19
Anticipated expiration: 2039-08-26
Also published as: CN110503972A

Abstract

本发明提供了一种语音增强方法、系统、计算机设备及存储介质，涉及人机语音交互的技术领域，包括通过声学矢量传感器采集多通道声学信号，对多通道声学信号进行预处理并获取时频谱，对时频谱进行滤波处理并输出信号图谱；通过非线性掩膜对信号图谱进行掩蔽处理并输出增强后的单通道语谱图；将单通道语谱图输入至深度神经网络掩膜估计模型并输出掩膜谱图，通过掩膜谱图对信号图谱进行时频掩蔽增强处理获得增强的幅度语谱图；通过增强的幅度语谱图重构输出增强的目标语音信号，解决了多通道语音增强具有硬件成本较高、采集系统体积大、运算复杂度高的技术问题，在不同干扰噪声种类、强度和房间混响条件下都可获得优秀的语音增强效果的技术效果。

Description

语音增强方法、系统、计算机设备及存储介质

技术领域

本发明涉及人机语音交互技术领域，尤其是涉及一种基于声学矢量传感器和深度神经网络的语音增强方法、系统、计算机设备及存储介质。

背景技术

语音增强技术是语音信号处理的一个重要研究方向，是语音处理系统的核心技术之一，在移动电话，助听器，服务机器人以及智能家居等方面有着广泛的应用。语音增强的目的是抑制采集的多通道声学信号中的非目标语音和噪声干扰信号，同时增强目标语音信号，从而提高语音的可懂度和提高语音识别系统的性能。根据采集语音设备的不同，语音增强技术可分为单通道和多通道语音增强，其中多通道语音增强具有更有效抑制环境噪声、混响的优势，但具有硬件成本较高、采集系统体积大、运算复杂度高等局限。

发明内容

本发明的目的在于提供一种语音增强方法、系统、计算机设备及存储介质，以降低采集设备的硬件成本、提升语音增强性能。

本发明提供的一种语音增强方法，所述方法应用于语音增强系统，所述方法包括：

通过声学矢量传感器采集多通道声学信号，对多通道声学信号进行预处理并获取时频谱，对时频谱进行滤波处理并输出信号图谱；

通过非线性掩膜对信号图谱进行掩蔽处理并输出增强后的单通道语谱图；

将单通道语谱图输入至深度神经网络掩膜估计模型并输出掩膜谱图，通过掩膜谱图对信号图谱进行时频掩蔽增强处理获得增强的幅度语谱图；

通过增强的幅度语谱图重构输出增强的目标语音信号。

进一步的，所述通过声学矢量传感器采集多通道声学信号，对多通道声学信号进行预处理并获取时频谱，对时频谱进行滤波处理并输出信号图谱的步骤包括：

通过声学矢量传感器采集多通道声学信号，对所述多通道声学信号进行短时傅里叶变换获得时频谱；

对时频谱进行滤波处理并输出信号图谱。

进一步的，所述通过非线性掩膜对信号图谱进行掩蔽处理并输出增强后的单通道语谱图的步骤包括：

根据声学矢量传感器通道间的信号数据比值计算传感器间的数据比值；

通过数据比值预估时频点的波达方向角值；

判断预估时频点的波达方向角值是否属于目标语音；

基于时频点的波达方向角值是否属于目标语音的判断结果计算非线性掩膜；

通过非线性掩膜对信号图谱进行掩蔽处理，并输出增强后的单通道语谱图。

进一步的，所述将单通道语谱图输入至深度神经网络掩膜估计模型并输出掩膜谱图，通过掩膜谱图对信号图谱进行时频掩蔽增强处理获得增强的幅度语谱图的步骤包括：

将单通道语谱图作为深度神经网络的输入；

将目标语音的理想二值掩膜和噪声信号的理想二值掩膜作为深度神经网络的学习目标；

训练所述深度神经网络得到深度神经网络掩膜估计模型。

进一步的，将单通道语谱图输入至深度神经网络掩膜估计模型并输出掩膜谱图，通过掩膜谱图对信号图谱进行时频掩蔽增强处理获得增强的幅度语谱图的步骤还包括：

将单通道语谱图作为深度神经网络模型的输入；

输出噪声掩膜谱图和语音掩膜谱图；

通过噪声掩膜谱图和语音掩膜谱图对信号图谱进行时频掩蔽增强处理获得增强的幅度语谱图。

进一步的，所述通过增强的幅度语谱图重构输出增强的目标语音信号的步骤包括：

采用幅度语谱图的幅度谱和信号图谱的相位谱，进行逆傅里叶变换后输出增强的目标语音时域信号。

进一步的，语音增强方法包括如下步骤：

A1：通过声学矢量传感器采集多通道声学信号x_avs(t)；

获得u-通道信号x_u(t)、v-通道信号x_v(t)、w-通道信号x_w(t)及o-通道信号x_o(t)，上述方法表述为：{Input：x_avs(t)＝[x_u(t),x_v(t),x_w(t),x_o(t)]}；

对多通道声学信号x_avs(t)进行短时傅里叶变换获得时频谱X_avs(τ,ω)，上述方法表述为：{X_avs(t,w)＝[X_u(t,w),X_v(t,w),X_w(t,w),X_o(t,w)]^T}；

A2：对时频谱X_avs(τ,ω)进行滤波处理并输出信号图谱：

A3：所述w_m ^H是固定波束形成器的权向量，通过下面公式计算：

w_m ^H＝a^H(θ_s,φ_s)/||a(θ_s,φ_s)||²；

式中，a(θ_s,φ_s)是目标语音的导向矢量；

B1：根据声学矢量传感器通道间的信号数据比值计算传感器间的数据比值，所述声学矢量传感器通道间的信号数据比值表述为：I_ij(τ,ω)＝X_i(τ,ω)/X_j(τ,ω)where(i≠j)，所述声学矢量传感器间的数据比值向量表达为：{I_isdr＝[I_uv(τ,ω),I_vu(τ,ω),I_wo(τ,ω)]}，所述声学矢量传感器通道间的信号数据比值的计算步骤为：

I_uv(τ,ω)＝X_u(τ,ω)/X_v(τ,ω)

I_vu(τ,ω)＝X_v(τ,ω)/X_u(τ,ω)

I_wo(τ,ω)＝X_w(τ,ω)/X_o(τ,ω)；

B2：采用决策树方法选择有效的声学矢量传感器间的数据比值，进行短时傅里叶变换得到每个时频点(τ,ω)的波达方向角值：

B3：将每个时频点(τ,ω)的波达方向角值与已知的目标语音的波达方向值(θ_s,φ_s)进行比较，判断各时频点(τ,ω)是否属于目标语音，对水平和俯仰角分别设置不同的阈值δ₁和δ₂，进行如下比较计算：

B4：基于时频点(τ,ω)的波达方向角值是否属目标语音的判断，采用下式计算目标语音的理想二值掩膜：

B5：基于时频点(τ,ω)的波达方向角值是否属目标语音的判断，采用下式计算目标语音的非线性掩膜：

式中，ξ是一个正数，ρ(0≤ρ<1)是一个趋近于0的正数，ρ反映了噪声的抑制效果，参数δ₁和δ₂控制掩膜提取质量；

B6：基于非线性掩膜mask(τ,ω)对输出的信号图谱Y_m(τ,ω)进行时频掩蔽增强处理，得到增强的单通道语谱图Y_s(τ,ω)：

Y_s(τ,ω)＝Y_m(τ,ω)×mask(τ,ω)；

C1：通过声学矢量传感器采集多通道声学信号x_avs(t)＝[x_u(t),x_v(t),x_w(t),x_o(t)]；

C2：将单通道语谱图Y_s(τ,ω)作为深度神经网络的输入；将目标语音的理想二值掩膜和噪声信号的理想二值掩膜作为深度神经网络的学习目标；

C3：深度神经网络包括3层隐藏层，第一隐藏层有256个神经元，第二隐藏层及第三隐藏层有513个神经元，神经元激活函数均采用Relu，输出层有1026个神经元，其激活函数为sigmoid，初始学习速率设定为1e-5，每经过10个迭代学习速率减少为之前的一半；采用二元交叉熵为损失函数进行训练，深度神经网络输出一个噪声掩膜谱图N_mask(τ,ω)和一个语音掩膜谱图X_mask(τ,ω)；

C4：保存训练好的深度神经网络的模型参数得到深度神经网络掩膜估计模型；

D1：将单通道语谱图Y_s(τ,ω)输入至深度神经网络掩膜估计模型，输出相应的噪声掩膜谱图N_mask(τ,ω)和语音掩膜谱图X_mask(τ,ω)；

D2：通过噪声掩膜谱图N_mask(τ,ω)和语音掩膜谱图X_mask(τ,ω)；对信号图谱Y_s(τ,ω)进行时频掩蔽增强处理计算增强的幅度语谱图Y_s-nn(τ,ω)：

Y_{s_nn}(τ,ω)＝[Y_s(τ,ω)×X_mask(τ,ω)+Y_s(τ,ω)-Y_s(τ,ω)×N_mask(τ,ω)]/2；

E1：采用增强的幅度语谱图Y_s-nn(τ,ω)的幅度谱和信号图谱Y_s(τ,ω)的相位谱，进行逆傅里叶变换后输出增强的目标语音时域信号y(t)。

本发明还提供一种语音增强系统，包括：

语音采集与预处理模块，用于采集多通道声学信号，对多通道声学信号进行预处理并获取时频谱，对时频谱进行滤波处理并输出信号图谱；

声学矢量传感器掩膜去干扰模块，用于通过非线性掩膜对信号图谱进行掩蔽处理并输出增强后的单通道语谱图；

深度神经网络去噪模块，用于将单通道语谱图输入至深度神经网络掩膜估计模型并输出掩膜谱图，通过掩膜谱图对信号图谱进行时频掩蔽增强处理获得增强的幅度语谱图；

增强语音信号重构模块，用于通过增强的幅度语谱图重构输出增强的目标语音信号。

本发明还提供一种计算机设备，包括：包括处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述处理器执行所述机器可读指令，以执行时执行如上任一所述的语音增强方法的步骤。

本发明提供的存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上任一所述的语音增强方法的步骤。

本发明提供的语音增强方法，通过声学矢量传感器采集音频信号，具有硬件成本低、算法复杂度低的优点；利用声学矢量传感器的输出做固定波束形成，消除空间干扰；通过掩膜谱图进一步消除噪声，获得增强后的语音；通过深度神经网络掩膜估计模型进一步消除信号的残留噪声与混响，获得更为鲁棒的语音增强。在不同干扰噪声种类、强度和房间混响条件下都可获得优秀的语音增强效果。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的语音增强方法的流程示意图；

图2为本发明实施例提供的语音增强系统的结构示意图；

图3为本发明实施例提供的语音增强系统的系统示意框图；

图4为本发明实施例提供的计算机设备的结构示意图。

图标：100-语音采集与预处理模块；200-声学矢量传感器掩膜去干扰模块；300-深度神经网络去噪模块；400-增强语音信号重构模块；501-存储器；502-处理器。

具体实施方式

下面将结合实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本实施例提供一种基于声学矢量传感器和深度神经网络的语音增强方法，本方法使用声学矢量传感器(Acoustic Vector Sensor,AVS)采集音频信号，在远程语音应用中，AVS的四个传感器被认为具有相同空间位置，AVS的四颗传感器时间同步地采集输出四通道语音信号。通常AVS选取压力传感器作为全向传感器，质点速度传感器和差分麦克风作为指向传感器。工业界已有投入商用的AVS，其物理体积仅占5mm3，具有体积小，同位多通道采集信号的优势，可广泛应用于对前端语音采集系统体积有严格要求的场景，如智能服务机器人等。基于AVS的特定物理结构和传感器声学特性，AVS四个通道所接受到的音频信号具有一定的三角函数关系。理论上，可以利用该函数关系推导出通道间信号关系，这些关系与空间声源信号在频域上的分布、声源与AVS的距离是无关，声源信号到达AVS传感器的入射方向有关，这是AVS采集设备独有的优点。AVS具有体积小、阵元少和轻重量等特点，可以更好地减少音频信号接收器的硬件体积，从而降低成本。

考虑到现实应用中所面临的复杂的声学场景，采用有监督的深度神经网络来学习目标语音掩膜和噪声掩膜，从而提高本发明语音增强系统在复杂声学场景下的鲁棒性。

如图1所示，语音增强方法包括：

S110：通过声学矢量传感器采集多通道声学信号，对多通道声学信号进行预处理并获取时频谱，对时频谱进行滤波处理并输出信号图谱；

S120：通过非线性掩膜对信号图谱进行掩蔽处理并输出增强后的单通道语谱图；

S130：将单通道语谱图输入至深度神经网络掩膜估计模型并输出掩膜谱图，通过掩膜谱图对信号图谱进行时频掩蔽增强处理获得增强的幅度语谱图；

S140：通过增强的幅度语谱图重构输出增强的目标语音信号。

语音增强方法的具体步骤如下，如图2所示：

A1：通过声学矢量传感器采集多通道声学信号x_avs(t)；

对多通道声学信号x_avs(t)进行短时傅里叶变换(STFT，)获得时频谱X_avs(τ,ω)，上述方法表述为：{X_avs(t,w)＝[X_u(t,w),X_v(t,w),X_w(t,w),X_o(t,w)]^T}；

A2：对时频谱X_avs(τ,ω)进行滤波处理并输出信号图谱：

w_m ^H＝a^H(θ_s,φ_s)/||a(θ_s,φ_s)||²；

式中，a(θ_s,φ_s)是目标语音的导向矢量；

I_uv(τ,ω)＝X_u(τ,ω)/X_v(τ,ω)

I_vu(τ,ω)＝X_v(τ,ω)/X_u(τ,ω)

I_wo(τ,ω)＝X_w(τ,ω)/X_o(τ,ω)；

Y_s(τ,ω)＝Y_m(τ,ω)×mask(τ,ω)；

如图3所示，一种语音增强系统，包括：

语音采集与预处理模块100，用于通过声学矢量传感器采集多通道声学信号，对多通道声学信号进行预处理并获取时频谱，对时频谱进行滤波处理并输出信号图谱；

声学矢量传感器掩膜去干扰模块200，用于通过非线性掩膜对信号图谱进行掩蔽处理并输出增强后的单通道语谱图；

深度神经网络去噪模块300，用于将单通道语谱图输入至深度神经网络掩膜估计模型并输出掩膜谱图，通过掩膜谱图对信号图谱进行时频掩蔽增强处理获得增强的幅度语谱图；

增强语音信号重构模块400，用于通过增强的幅度语谱图重构输出增强的目标语音信号。

如图4所示，一种计算机设备，包括：包括处理器502、存储器501和总线，所述存储器501存储有所述处理器502可执行的机器可读指令，当计算机设备运行时，所述处理器502与所述存储器501之间通过总线通信，所述处理器502执行所述机器可读指令，以执行时执行如上任一所述的语音增强方法的步骤。

一种存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上任一所述的语音增强方法的步骤。

本发明的有益效果在于：1)本发明所述的方法易于在移动或便携设备上应用。本发明采用AVS采集音频信号，该传感器仅有1cm³大小，易于在小型设备上集成系统；同时算法复杂度低，易于实时运行在运算能力有限的嵌入式平台上。2)本发明所述的方法利用AVS传感器的输出做固定波束形成，以消除空间干扰；然后通过分析AVS四通道输出的相互关系传感器间数据比值，设计一种有效的目标语音掩膜产生方法，进一步消除噪声，获得增强后的语音，该方法在干扰噪声场和背景噪声场都能够有效抑制噪声，并且在散射噪声场中也能够获得良好的效果，有较好的鲁棒性。3)最后，本发明所述的方法能够利用深度神经网络较强的学习能力，采用仿真数据，有监督地训练一个深度神经网络目标语音掩膜模型，采用该深度神经网络掩膜估计模型，进一步消除信号的残留噪声与混响，获得更为鲁棒的语音增强，从而应对现实环境中复杂的声学环境。实验数据验证了本发明在不同的干扰噪声种类、强度和房间混响条件下，都能获得优秀的语音增强效果。

实验结果和性能：

采用本发明方法的语音增强实验结果与性能对比

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种语音增强方法，其特征在于，所述方法应用于语音增强系统，所述方法包括：

通过增强的幅度语谱图重构输出增强的目标语音信号；

其中，所述方法包括如下步骤：

A1：通过声学矢量传感器采集多通道声学信号x_avs(t)；

对多通道声学信号x_avs(t)进行短时傅里叶变换获得时频谱X_avs(τ,ω)，上述方法表述为：{X_avs(t,w)＝[X_u(t,w),X_v(t,w),X_w(t,w),X_o(t,w)]^T}，其中，X_u(t，w)为u通道信号的时频谱，X_v(t，w)为v通道信号的时频谱，X_w(t，w)为w通道信号的时频谱，X_o(t，w)为o通道信号的时频谱；

A2：对时频谱X_avs(τ,ω)进行滤波处理并输出信号图谱：

w_m ^H＝a^H(θ_s,φ_s)/||a(θ_s,φ_s)||²；

式中，a(θ_s,φ_s)是目标语音的导向矢量；

I_uv(τ,ω)＝X_u(τ,ω)/X_v(τ,ω)

I_vu(τ,ω)＝X_v(τ,ω)/X_u(τ,ω)

I_wo(τ,ω)＝X_w(τ,ω)/X_o(τ,ω)；

Y_s(τ,ω)＝Y_m(τ,ω)×mask(τ,ω)；

D2：通过噪声掩膜谱图N_mask(τ,ω)和语音掩膜谱图X_mask(τ,ω)；对单通道语谱图Y_s(τ,ω)进行时频掩蔽增强处理计算增强的幅度语谱图Y_s-nn(τ,ω)：

E1：采用增强的幅度语谱图Y_s-nn(τ,ω)的幅度谱和单通道语谱图Y_s(τ,ω)的相位谱，进行逆傅里叶变换后输出增强的目标语音时域信号y(t)。

2.根据权利要求1所述的语音增强方法，其特征在于，所述通过声学矢量传感器采集多通道声学信号，对多通道声学信号进行预处理并获取时频谱，对时频谱进行滤波处理并输出信号图谱的步骤包括：

对时频谱进行滤波处理并输出信号图谱。

3.根据权利要求2所述的语音增强方法，其特征在于，所述通过非线性掩膜对信号图谱进行掩蔽处理并输出增强后的单通道语谱图的步骤包括：

通过数据比值预估时频点的波达方向角值；

判断预估时频点的波达方向角值是否属于目标语音；

4.根据权利要求3所述的语音增强方法，其特征在于，所述将单通道语谱图输入至深度神经网络掩膜估计模型并输出掩膜谱图，通过掩膜谱图对信号图谱进行时频掩蔽增强处理获得增强的幅度语谱图的步骤包括：

将通过非线性掩膜对信号图谱进行掩蔽处理并输出增强后的单通道语谱图作为深度神经网络的输入；

训练所述深度神经网络得到深度神经网络掩膜估计模型。

5.根据权利要求4所述的语音增强方法，其特征在于，将单通道语谱图输入至深度神经网络掩膜估计模型并输出掩膜谱图，通过掩膜谱图对信号图谱进行时频掩蔽增强处理获得增强的幅度语谱图的步骤包括：

输出噪声掩膜谱图和语音掩膜谱图；

通过噪声掩膜谱图和语音掩膜谱图对信号图谱进行时频掩蔽增强处理，得到增强的幅度语谱图。

6.根据权利要求5所述的语音增强方法，其特征在于，所述通过增强的幅度语谱图重构输出增强的目标语音信号的步骤包括：

7.一种语音增强系统，其特征在于，包括：

语音采集与预处理模块，用于通过声学矢量传感器采集多通道声学信号，对多通道声学信号进行预处理并获取时频谱，对时频谱进行滤波处理并输出信号图谱；

增强语音信号重构模块，用于通过增强的幅度语谱图重构输出增强的目标语音信号；

其中，所述系统用于：

A1：通过声学矢量传感器采集多通道声学信号x_avs(t)；

A2：对时频谱X_avs(τ,ω)进行滤波处理并输出信号图谱：

w_m ^H＝a^H(θ_s,φ_s)/||a(θ_s,φ_s)||²；

式中，a(θ_s,φ_s)是目标语音的导向矢量；

B1：根据声学矢量传感器通道间的信号数据比值计算传感器间的数据比值，所述声学矢量传感器通道间的信号数据比值表述为：I_ij(τ_,ω)＝X_i(τ,ω)/X_j(τ,ω)where(i≠j)，所述声学矢量传感器间的数据比值向量表达为：{I_isdr＝[I_uv(τ,ω),I_vu(τ,ω),I_wo(τ,ω)]}，所述声学矢量传感器通道间的信号数据比值的计算步骤为：

I_uv(τ,ω)＝X_u(τ,ω)/X_v(τ,ω)

I_vu(τ,ω)＝X_v(τ,ω)/X_u(τ,ω)

I_wo(τ,ω)＝X_w(τ,ω)/X_o(τ,ω)；

B4：基于时频点(τ,ω)的波达方向角值是否属于目标语音的判断，采用下式计算目标语音的理想二值掩膜：

B5：基于时频点(τ,ω)的波达方向角值是否属于目标语音的判断，采用下式计算目标语音的非线性掩膜：

Y_s(τ,ω)＝Y_m(τ,ω)×mask(τ,ω)；

8.一种计算机设备，其特征在于，包括处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述处理器执行所述机器可读指令，以执行时执行如权利要求1-6任一所述的语音增强方法的步骤。

9.一种存储介质，其特征在于，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1-6任一所述的语音增强方法的步骤。