CN110808058B

CN110808058B - 语音增强方法、装置、设备及可读存储介质

Info

Publication number: CN110808058B
Application number: CN201911099098.XA
Authority: CN
Inventors: 陈昊亮; 许敏强; 杨世清
Original assignee: Guangzhou Speakin Intelligent Technology Co ltd
Current assignee: Guangzhou Speakin Intelligent Technology Co ltd
Priority date: 2019-11-11
Filing date: 2019-11-11
Publication date: 2022-06-21
Anticipated expiration: 2039-11-11
Also published as: CN110808058A

Abstract

本发明公开了一种语音增强方法、装置、设备和可读存储介质，所述语音增强方法包括：获取待增强语音，并通过预设第一语音增强器对所述待增强语音进行第一语音增强处理，获得第一语音增强处理结果，将所述待增强语音输入预设第二语音增强器，对所述待增强语音进行第二语音增强处理，获得第二语音增强处理结果，对所述第一语音增强处理结果和所述第二语音增强处理结果进行加权求和，获得目标增强语音。本发明解决了语音增强效果差的技术问题。

Description

语音增强方法、装置、设备及可读存储介质

技术领域

本发明涉及语音信号处理技术领域，尤其涉及一种语音增强方法、装置、设备及可读存储介质。

背景技术

在实际生活中，语音信号是我们生活中常见的信号，在麦克风拾取语音信号时，不可避免的会受到来自周围环境噪声、传输媒介噪声、通信设备内部电噪声、房间混响以及其它说话人的话音干扰，因此拾取语音的质量受到影响，目前，在现有技术中，通常是通过单个麦克风来进行语音增强，以实现语音信号损失最小的前提下实现消除干扰噪声，但干扰噪声往往总是来自于四面八方，且干扰噪声与语音信号在时域和频域上常常是相互交叠的，再加上回波和混响的影响，所以，通过单个麦克风来进行语音增强的效果较差，所以，现有技术中存在语音增强效果差的技术问题。

发明内容

本发明的主要目的在于提供一种语音增强方法、装置、设备和可读存储介质，旨在解决现有技术中语音增强效果差的技术问题。

为实现上述目的，本发明实施例提供一种语音增强方法，所述语音增强方法应用于语音增强设备，所述语音增强方法包括：

获取待增强语音，并通过预设第一语音增强器对所述待增强语音进行第一语音增强处理，获得第一语音增强处理结果；

将所述待增强语音输入预设第二语音增强器，对所述待增强语音进行第二语音增强处理，获得第二语音增强处理结果；

对所述第一语音增强处理结果和所述第二语音增强处理结果进行加权求和，获得目标增强语音。

可选地，所述第一语音增强处理结果包括第一语音数据，所述第二语音增强处理结果包括第二语音数据，

所述对所述第一语音增强处理结果和所述第二语音增强处理结果进行加权求和，获得目标增强语音的步骤包括：

获取所述第一语音数据对应的第一权重和所述第二语音数据的对应第二权重；

基于所述第一权重和所述第二权重，对所述第一语音数据和所述第二语音进行加权求和，获得目标语音数据；

基于所述目标语音数据，输出所述目标增强语音。

可选地，所述对所述第一语音增强处理结果和所述第二语音增强处理结果进行加权求和，获得目标增强语音的步骤包括：

计算所述第一语音增强处理结果对应的第一信噪比和所述第二语音增强处理结果对应的第二信噪比，并将所述第一信噪比与所述第二信噪比进行比对；

当所述第一信噪比大于或者等于所述第二信噪比时，将所述第一语音增强处理结果作为所述目标增强语音；

当所述第一信噪比小于所述第二信噪比时，将所述第二语音增强处理结果作为所述目标增强语音。

可选地，所述预设第二语音增强器包括神经网络模型，

所述将所述待增强语音输入预设第二语音增强器，对所述待增强语音进行第二语音增强处理，获得第二语音增强处理结果的步骤包括：

将所述待增强语音输入所述预设第二语音增强器，对所述待增强语音进行加窗处理和短时傅里叶变换，获得第一信号频谱；

将所述第一信号频谱输入所述神经网络模型，输出第二信号频谱；

对所述第二信号频谱进行傅里叶逆变换和声音重构处理，获得所述第二语音增强处理结果。

可选地，所述预设第一语音增强器包括麦克风阵列，

所述通过预设第一语音增强器对所述待增强语音进行第一语音增强处理，获得第一语音增强处理结果的步骤包括：

通过所述麦克风阵列对所述待增强语音进行波束处理，获得波束处理结果；

通过预设后置滤波器对所述波束处理结果进行滤波处理，获得所述第一语音处理结果。

可选地，所述将所述待增强语音输入预设第二语音增强器，对所述待增强语音进行第二语音增强处理，获得第二语音增强处理结果的步骤之前包括：

获取第一训练数据和基础训练模型，其中，所述第一训练数据包括第一训练输入数据和第一训练结果；

将所述第一训练输入数据输入所述基础训练模型，获得第二训练结果；

将所述第一训练结果和所述第二训练结果进行比对，获得模型误差值；

将所述模型误差值与预设模型误差阀值进行比对，若所述模型误差值大于或者等于所述预设模型误差阀值，则基于所述模型误差对所述基础训练模型进行更新并重新进行训练；

若所述模型误差值小于所述预设模型误差阀值，则将所述基础训练模型作为所述预设第二语音增强器备用的待验证模型。

可选地，所述若所述模型误差值小于所述预设模型误差阀值，则将所述基础训练模型作为所述预设第二语音增强器备用的待验证模型的步骤之后包括：

获取第一验证数据，其中，所述第一验证数据包括第一验证输入数据和第一验证结果；

将各所述第一验证输入数据输入所述待验证模型，获得第二验证结果；

将各所述第二验证结果与各所述第一验证结果进行比对，获得多个验证模型误差值；

计算在预设误差范围内的所述验证模型误差值的误差值数量占比，若所述误差值数量占比大于或者等于预设数量占比，则将所述待验证模型作为所述预设第二语音增强器；

若所述误差值数量占比小于所述预设数量占比，则对所述基础训练模型重新进行训练，直至所述误差值数量占比大于或者等于所述预设数量占比。

本发明还提供一种语音增强装置，所述语音增强装置应用于语音增强设备，所述语音增强装置包括：

第一语音增强模块，用于所述获取待增强语音，并通过预设第一语音增强器对所述待增强语音进行第一语音增强处理，获得第一语音增强处理结果；

第二语音增强模块，用于所述将所述待增强语音输入预设第二语音增强器，对所述待增强语音进行第二语音增强处理，获得第二语音增强处理结果；

输出模块，用于所述对所述第一语音增强处理结果和所述第二语音增强处理结果进行加权求和，获得目标增强语音。

可选地，所述输出模块包括：

获取单元，用于所述获取所述第一语音数据对应的第一权重和所述第二语音数据的对应第二权重；

加权求和单元，用于所述基于所述第一权重和所述第二权重，对所述第一语音数据和所述第二语音进行加权求和，获得目标语音数据；

输出单元，用于所述基于所述目标语音数据，输出所述目标增强语音。

可选地，所述输出模块包括：

比对单元，用于计算所述第一语音增强处理结果对应的第一信噪比和所述第二语音增强处理结果对应的第二信噪比，并将所述第一信噪比与所述第二信噪比进行比对；

第一判断单元，用于所述当所述第一信噪比大于或者等于所述第二信噪比时，将所述第一语音增强处理结果作为所述目标增强语音；

第二判断单元，用于所述当所述第一信噪比小于所述第二信噪比时，将所述第二语音增强处理结果作为所述目标增强语音。

可选地，所述第二语音增强模块包括：

第一输入单元，用于所述将所述待增强语音输入所述预设第二语音增强器，对所述待增强语音进行加窗处理和短时傅里叶变换，获得第一信号频谱；

第二输入单元，用于所述将所述第一信号频谱输入所述神经网络模型，输出第二信号频谱；

声音重构单元，用于所述对所述第二信号频谱进行傅里叶逆变换和声音重构处理，获得所述第二语音增强处理结果。

可选地，所述第一语音增强模块包括：

波束单元，用于所述通过所述麦克风阵列对所述待增强语音进行波束处理，获得波束处理结果；

滤波单元，用于所述通过预设后置滤波器对所述波束处理结果进行滤波处理，获得所述第一语音处理结果。

可选地，所述语音增强装置还包括：

第一获取模块，用于所述获取第一训练数据和基础训练模型，其中，所述第一训练数据包括第一训练输入数据和第一训练结果；

第一输入模块，用于所述将所述第一训练输入数据输入所述基础训练模型，获得第二训练结果；

第一比对模块，用于所述将所述第一训练结果和所述第二训练结果进行比对，获得模型误差值；

第二比对模块，用于所述将所述模型误差值与预设模型误差阀值进行比对，若所述模型误差值大于或者等于所述预设模型误差阀值，则基于所述模型误差对所述基础训练模型进行更新并重新进行训练；

第一判断模块，用于所述若所述模型误差值小于所述预设模型误差阀值，则将所述基础训练模型作为所述预设第二语音增强器备用的待验证模型。

可选地，所述语音增强装置还包括：

第二获取模块，用于所述获取第一验证数据，其中，所述第一验证数据包括第一验证输入数据和第一验证结果；

第二输入模块，用于所述将各所述第一验证输入数据输入所述待验证模型，获得第二验证结果；

第三比对模块，用于所述将各所述第二验证结果与各所述第一验证结果进行比对，获得多个验证模型误差值；

第四比对模块，用于所述计算在预设误差范围内的所述验证模型误差值的误差值数量占比，若所述误差值数量占比大于或者等于预设数量占比，则将所述待验证模型作为所述预设第二语音增强器；

第二判断模块，用于所述若所述误差值数量占比小于所述预设数量占比，则对所述基础训练模型重新进行训练，直至所述误差值数量占比大于或者等于所述预设数量占比。

本发明还提供一种语音增强设备，所述语音增强设备包括：存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的所述语音增强方法的程序，所述语音增强方法的程序被处理器执行时可实现如上述的语音增强方法的步骤。

本发明还提供一种可读存储介质，所述可读存储介质上存储有实现语音增强方法的程序，所述语音增强方法的程序被处理器执行时实现如上述的语音增强方法的步骤。

本申请通过获取待增强语音，并通过预设第一语音增强器对所述待增强语音进行第一语音增强处理，获得第一语音增强处理结果，进而将所述待增强语音输入预设第二语音增强器，对所述待增强语音进行第二语音增强处理，获得第二语音增强处理结果，进一步地，对所述第一语音增强处理结果和所述第二语音增强处理结果进行加权求和，获得目标增强语音。也即，本申请首先进行待增强语音的获取，进而通过预设第一语音增强器进行对所述待增强语音的第一语音增强处理，获得第一语音增强处理结果，进一步地，通过将所述待增强语音输入预设第二语音增强器，进行待增强语音的第二语音增强处理，获得第二语音增强处理结果，进而进行对所述第一语音增强处理结果和所述第二语音增强处理结果的加权求和，获得目标增强语音。也即，本申请提供了两种语音增强的方法，通过这两种方法分别获得第一语音增强处理结果和第二语音增强处理结果，进而通过对所述第一语音增强处理结果和所述第二语音增强处理结果进行加权求和，也即，综合两次语音增强处理结果，获取目标增强语音，可提高对待增强语音的预测准确率，也即，达到了提高语音增强效果的目的，避免了由于单个语音增强器的预测准确率低而导致语音增强效果差的情况，所以，解决了现有技术中语音增强效果差的技术问题。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明语音增强方法第一实施例的流程示意图；

图2为本发明语音增强方法第二实施例的流程示意图；

图3为本发明实施例方案涉及的硬件运行环境的设备结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种语音增强方法，所述语音增强方法应用于语音增强设备，在本申请语音增强方法的第一实施例中，参照图1，所述语音增强方法包括：

步骤S10，获取待增强语音，并通过预设第一语音增强器对所述待增强语音进行第一语音增强处理，获得第一语音增强处理结果；

在本实施例中，需要说明的是，所述待增强语音可通过声学矢量传感器或者麦克风进行采集，所述预设第一语音增强器包括麦克风阵列和后置维纳滤波器等。

获取待增强语音，并通过预设第一语音增强器对所述待增强语音进行第一语音增强处理，获得第一语音增强处理结果，具体地，获取待增强语音，并通过所述麦克风阵列对所述待增强语音进行第一语音增强处理，获得增强语音，进而通过所述后置维纳滤波器消除所述增强语音中的残余噪声，获得第一语音增强处理结果。

其中，所述预设第一语音增强器包括麦克风阵列，

步骤S11，通过所述麦克风阵列对所述待增强语音进行波束处理，获得波束处理结果；

在本实施例中，需要说明的是，所述麦克风阵列指的是由一定数目的声学传感器组成，可用于对声场的空间特性进行采样并处理的系统，其中，所述声学传感器包括麦克风。

通过所述麦克风阵列对所述待增强语音进行波束处理，获得波束处理结果，具体地，通过所述麦克风阵列利用所述待增强语音的空间信息形成波束，也即，通过所述麦克风阵列抑制不属于述待增强语音方向的干扰噪音信号，保留所述待增强语音方向上的语音信号，进而获得所述待增强语音方向上的语音信号，也即，获得波束处理结果。

步骤S12，通过预设后置滤波器对所述波束处理结果进行滤波处理，获得所述第一语音处理结果。

在本实施例中，需要说明的是，所述预设后置滤波器用于消除所述波束处理结果中的残余噪声，其中，所述残余噪声包括具有明确方向的相干噪声、具有明确方向的非相干噪声和无明确方向的散漫噪声等，所述第一语音处理结果包括第一语音信号，其中，所述第一语音信号是所述待增强语音经第一语音增强处理而得到的。

步骤S20，将所述待增强语音输入预设第二语音增强器，对所述待增强语音进行第二语音增强处理，获得第二语音增强处理结果；

在本实施例中，需要说明的是，所述预设第二语音增强器包括神经网络模型，其中，所述神经网络模型是已经确定训练好的模型，所述第二语音增强处理结果包括第二语音信号，其中，所述第二语音信号是所述待增强语音经第二语音增强处理而得到的，所述待增强语音包括待增强语音特征与时间之间的关系图谱，也即，所述待增强语音包括时域信号图谱，其中，所述待增强语音特征包括频率、波长等特征。

将所述待增强语音输入预设第二语音增强器，对所述待增强语音进行第二语音增强处理，获得第二语音增强处理结果，具体地，将所述待增强语音输入预设第二语音增强器，以在所述时域信号图谱中进行连续采样，获得连续采样结果，并对所述采样结果进行短时傅里叶变换，获得频域信号图谱，并将所述频域信号图谱输入所述神经网络模型，获得第二语音增强处理之后的频域信号图谱，并对所述第二语音增强处理之后的频域信号图谱进行傅里叶逆变换和声音重构处理，获得所述第二语音信号，进而获得所述第二语音增强处理结果，其中，所述声音重构处理用于将声音的时域信号图谱转化为语音信号。

其中，所述预设第二语音增强器包括神经网络模型，

步骤S21，将所述待增强语音输入所述预设第二语音增强器，对所述待增强语音进行加窗处理和短时傅里叶变换，获得第一信号频谱；

在本实施例中，需要说明的是，所述加窗处理即为对所述待增强语音的时域信号图谱进行连续采样的过程，且两次相邻加窗处理对应的窗之间在时间线上连接，所述短时傅里叶变换可将所述待增强语音的时域信号图谱转化为频域信号图谱。

将所述待增强语音输入所述预设第二语音增强器，对所述待增强语音进行加窗处理和短时傅里叶变换，获得第一信号频谱，具体地，将所述待增强语音输入所述预设第二语音增强器，对所述待增强语音进行加窗处理，以对所述待增强语音的时域信号图谱进行连续采样，获得加窗处理结果，进一步地，对所述加窗处理结果进行短时傅里叶变换，获得所述时域信号图谱对应的频域信号图谱，也即，获得第一信号频谱。

步骤S22，将所述第一信号频谱输入所述神经网络模型，输出第二信号频谱；

在本实施例中，需要说明的是，所述神经网络模型中包括多个数据处理层，其中，所述数据处理层包括卷积层、池化层、全连接层、反卷积层等。

将所述第一信号频谱输入所述神经网络模型，输出第二信号频谱，具体地，将所述第一信号频谱输入所述神经网络模型，以基于用户自主选择的数据处理层对所述第一信号频谱进行处理，获得所述第二信号频谱。

步骤S23，对所述第二信号频谱进行傅里叶逆变换和声音重构处理，获得所述第二语音增强处理结果。

在本实施例中，需要说明的是，所述傅里叶逆变换用于将所述频域信号图谱转化为时域信号图谱。

对所述第二信号频谱进行傅里叶逆变换和声音重构处理，获得所述第二语音增强处理结果，具体地，对所述第二信号频谱进行傅里叶逆变换，获得各所述第二信号频谱对应的时域信号图谱，其中，每一所述时域信号图谱均对应也加窗处理的采样样本，进而基于各所述第二信号频谱对应的时域信号图谱，进行声音重构处理，获得所述第二语音信号，也即，获得所述第二语音增强处理结果。

步骤S30，对所述第一语音增强处理结果和所述第二语音增强处理结果进行加权求和，获得目标增强语音。

在本实施例中，需要说明的是，所述第一语音增强处理结果包括第一语音数据，所述第二语音增强处理结果包括第二语音数据，所述第一语音数据包括第一语音信号特征与时间的第一关系图谱，所述第二语音数据包括第二语音信号特征与时间的第二关系图谱。

对所述第一语音增强处理结果和所述第二语音增强处理结果进行加权求和，获得目标增强语音，具体地，对所述第一语音数据中的各时间点的特征值和所述第二语音数据中的对应时间点的特征值进行加权求和，获得多个目标增强语音特征值，并基于所述目标增强语音特征值与时间之间的关系，建立所述目标增强语音对应的时域信号图谱，进而输出所述目标增强语音。

其中，所述第一语音增强处理结果包括第一语音数据，所述第二语音增强处理结果包括第二语音数据，

步骤A10，获取所述第一语音数据对应的第一权重和所述第二语音数据的对应第二权重；

在本实施例中，需要说明的是，所述第一权重和所述第二权重可由用户自主选择确定，其中，所述语音增强器的预测准确率越高，也即，所述语音增强器的语音增强效果越好，则所述权重越大。

步骤A20，基于所述第一权重和所述第二权重，对所述第一语音数据和所述第二语音进行加权求和，获得目标语音数据；

基于所述第一权重和所述第二权重，对所述第一语音数据和所述第二语音进行加权求和，获得目标语音数据，具体地，求取第一语音数据和第一权重的之间的第一乘积，第二语音数据与第二权重之间的第二乘积，进而对所述第一乘积和所述第二乘积求和，获得所述目标语音数据，例如，假设所述第一语音数据中的一个特征值为频率5赫兹，第一权重为60％，在同一时间点的第二语音数据中，该特征值对应的特征值为频率10赫兹，第二权重为40％，则在同一时间点的目标语音数据中的特征值为7赫兹。

另外地，本实施例中通过加权求和的方法获取所述目标与语音数据还可提高目标语音数据的可信度，也即，可提高目标语音数据对应的语音增强效果，例如，假设所述第一语音数据的可信度为90％，所述第二语音数据的可信度为90％，所述第一权重和所述第二权重均为50％，进一步地，基于所述可信度可假设语音信号频率范围为0赫兹至10赫兹，频率为1赫兹至10赫兹为语音增强效果好的特征值，频率为0赫兹至1赫兹则为语音增强效果差的特征值，所以所述目标语音数据对应的特征值一定为0赫兹至1赫兹的概率为1％，所述目标语音数据对应的特征值可能为0赫兹至1赫兹的概率为2％，所以，所述目标语音数据对应的特征值处于1赫兹至10赫兹的概率大于或者等于97％，也即，所述目标语音数据的可信度大于或者等于90％。

步骤A30，基于所述目标语音数据，输出所述目标增强语音。

在本实施例中，基于所述目标语音数据，输出所述目标增强语音，具体地，基于所述目标语音数据，获取所述目标语音的时域信号图谱，进而基于所述时域信号图谱，输出所述目标增强语音。

其中，所述对所述第一语音增强处理结果和所述第二语音增强处理结果进行加权求和，获得目标增强语音的步骤包括：

步骤B10，计算所述第一语音增强处理结果对应的第一信噪比和所述第二语音增强处理结果对应的第二信噪比，并将所述第一信噪比与所述第二信噪比进行比对；

在本实施例中，需要说明的是，所述信噪比指的是一个电子设备或者电子系统中信号与噪声之比。

计算所述第一语音增强处理结果对应的第一信噪比和所述第二语音增强处理结果对应的第二信噪比，并将所述第一信噪比与所述第二信噪比进行比对，具体地，将所述第一语音增强处理结果和所述第二语音增强处理结果分别输入预设信噪比预测模型中，以计算所述第一语音增强处理结果对应的第一信噪比和所述第二语音增强处理结果对应的第二信噪比，其中，所述预设信噪比预测模型是预先确定训练好的神经网络模型，进而，将所述第一信噪比与所述第二信噪比进行比对。

步骤B20，当所述第一信噪比大于或者等于所述第二信噪比时，将所述第一语音增强处理结果作为所述目标增强语音；

在本实施例中，需要说明的是，所述信噪比越大，则语音增强处理效果越好。

当所述第一信噪比大于或者等于所述第二信噪比时，将所述第一语音增强处理结果作为所述目标增强语音，具体地，当所述第一信噪比大于或者等于所述第二信噪比时，则表明所述第一语音增强处理结果的语音增强处理的效果更好，所以，将所述第一语音增强处理结果作为所述目标增强语音。

步骤B30，当所述第一信噪比小于所述第二信噪比时，将所述第二语音增强处理结果作为所述目标增强语音。

在本实施例中，当所述第一信噪比小于所述第二信噪比时，将所述第二语音增强处理结果作为所述目标增强语音，具体地，当所述第一信噪比小于所述第二信噪比时，则表明所述第二语音增强处理结果的语音增强处理的效果更好，所以，将所述第二语音增强处理结果作为所述目标增强语音。

本实施例通过获取待增强语音，并通过预设第一语音增强器对所述待增强语音进行第一语音增强处理，获得第一语音增强处理结果，进而将所述待增强语音输入预设第二语音增强器，对所述待增强语音进行第二语音增强处理，获得第二语音增强处理结果，进一步地，对所述第一语音增强处理结果和所述第二语音增强处理结果进行加权求和，获得目标增强语音。也即，本实施例首先进行待增强语音的获取，进而通过预设第一语音增强器进行对所述待增强语音的第一语音增强处理，获得第一语音增强处理结果，进一步地，通过将所述待增强语音输入预设第二语音增强器，进行待增强语音的第二语音增强处理，获得第二语音增强处理结果，进而进行对所述第一语音增强处理结果和所述第二语音增强处理结果的加权求和，获得目标增强语音。也即，本实施例提供了两种语音增强的方法，通过这两种方法分别获得第一语音增强处理结果和第二语音增强处理结果，进而通过对所述第一语音增强处理结果和所述第二语音增强处理结果进行加权求和，也即，综合两次语音增强处理结果，获取目标增强语音，可提高对待增强语音的预测准确率，也即，达到了提高语音增强效果的目的，避免了由于单个语音增强器的预测准确率低而导致语音增强效果差的情况，所以，解决了现有技术中语音增强效果差的技术问题。

进一步地，参照图2，基于本申请中第一实施例，在语音增强方法的另一实施例中，所述将所述待增强语音输入预设第二语音增强器，对所述待增强语音进行第二语音增强处理，获得第二语音增强处理结果的步骤之前包括：

步骤C10，获取第一训练数据和基础训练模型，其中，所述第一训练数据包括第一训练输入数据和第一训练结果；

在本实施例中，需要说明的是，所述基础训练模型是未能确定是否已经训练好的神经网络模型，所述第一训练数据是预先收集好的带噪音语音信号并存储于预设训练数据存储库中，所述第一训练输入数据与所述第一训练结果一一对应，且所述第一训练结果为理想正确输出结果，也即，所述第一训练结果为纯净语音信号。

步骤C20，将所述第一训练输入数据输入所述基础训练模型，获得第二训练结果；

在本实施例中，将所述第一训练输入数据输入所述基础训练模型，获得第二训练结果，具体地，将所述第一训练输入数据输入所述基础训练模型，以基于所述基础训练模型的数据处理层对所述第一训练输入数据进行数据处理，获得所述第二训练结果。

步骤C30，将所述第一训练结果和所述第二训练结果进行比对，获得模型误差值；

在本实施例中，将所述第一训练结果和所述第二训练结果进行比对，获得模型误差值，具体地，将所述第一训练结果和所述第二训练结果进行比对，以所述第一训练结果为标准计算所述第二训练结果与所述第一训练结果之间的误差，进而获得所述模型误差值。

步骤C40，将所述模型误差值与预设模型误差阀值进行比对，若所述模型误差值大于或者等于所述预设模型误差阀值，则基于所述模型误差对所述基础训练模型进行更新并重新进行训练；

在本实施例中，将所述模型误差值与预设模型误差阀值进行比对，若所述模型误差值大于或者等于所述预设模型误差阀值，则基于所述模型误差对所述基础训练模型进行更新并重新进行训练，具体地，将所述模型误差值与预设模型误差阀值进行比对，若所述模型误差值大于或者等于所述预设模型误差阀值，则表明所述基础训练模型误差过大，进而基于所述模型误差值对应的梯度向量值对所述基础训练模型的网络权重进行更新，并重新训练所述基础训练模型，直至所述若所述模型误差值小于所述预设模型误差阀值，其中，所述梯度向量由损失函数求取偏导数获取，所述损失函数为关于模型误差和网络权重的二次函数。

步骤C50，若所述模型误差值小于所述预设模型误差阀值，则将所述基础训练模型作为所述预设第二语音增强器备用的待验证模型。

在本实施例中，若所述模型误差值小于所述预设模型误差阀值，则将所述基础训练模型作为所述预设第二语音增强器备用的待验证模型，具体地，若所述模型误差值小于所述预设模型误差阀值，则表明所述模型误差值在允许误差范围内，则将所述基础训练模型作为所述预设第二语音增强器备用的待验证模型，其中，所述待验证模型可直接作为所述预设第二语音增强器，也可对所述待验证模型进行验证，当验证通过时，将所述待验证模型作为所述预设第二语音增强器。

其中，所述若所述模型误差值小于所述预设模型误差阀值，则将所述基础训练模型作为所述预设第二语音增强器备用的待验证模型的步骤之后包括：

步骤D10，获取第一验证数据，其中，所述第一验证数据包括第一验证输入数据和第一验证结果；

在本实施例中，需要说明的是，所述第一验证数据是预先收集好的带噪音语音信号并存储于预设验证数据存储库中，所述第一验证输入数据与所述第一验证结果一一对应，且所述第一验证结果为理想正确输出结果，也即，所述第一验证结果为纯净语音信号，且所述第一验证数据中包括一个或者多个第一验证输入数据和一个或者多个第一验证结果。

步骤D20，将各所述第一验证输入数据输入所述待验证模型，获得第二验证结果；

在本实施例中，将各所述第一验证输入数据输入所述待验证模型，获得第二验证结果，具体地，将所述第一验证输入数据输入所述待验证模型，以基于所述待验证模型的数据处理层对所述第一验证输入数据进行数据处理，获得所述第二验证结果。

步骤D30，将各所述第二验证结果与各所述第一验证结果进行比对，获得多个验证模型误差值；

在本实施例中，将各所述第二验证结果与各所述第一验证结果进行比对，获得多个验证模型误差值，具体地，将各所述第一验证结果和各所述第二验证结果进行比对，以各所述第一验证结果为标准计算对应的各所述第二验证结果与各所述第一验证结果之间的误差，进而获得所述多个验证模型误差值

步骤D40，计算在预设误差范围内的所述验证模型误差值的误差值数量占比，若所述误差值数量占比大于或者等于预设数量占比，则将所述待验证模型作为所述预设第二语音增强器；

在本实施例中，计算在预设误差范围内的所述验证模型误差值的误差值数量占比，若所述误差值数量占比大于或者等于预设数量占比，则将所述待验证模型作为所述预设第二语音增强器，具体地，计算在预设误差范围内的所述验证模型误差值的误差值数量占比，若所述误差值数量占比大于或者等于预设数量占比，则表明所述待验模型验证通过，进而将所述待验证模型作为所述预设第二语音增强器。

步骤D50，若所述误差值数量占比小于所述预设数量占比，则对所述基础训练模型重新进行训练，直至所述误差值数量占比大于或者等于所述预设数量占比。

在本实施例中，若所述误差值数量占比小于所述预设数量占比，则对所述基础训练模型重新进行训练，直至所述误差值数量占比大于或者等于所述预设数量占比，具体地，若所述误差值数量占比小于所述预设数量占比，则表明所述待验证模型验证不通过，进而对所述基础训练模型重新进行训练，直至所述误差值数量占比大于或者等于所述预设数量占比。

本实施例通过获取第一训练数据和基础训练模型，其中，所述第一训练数据包括第一训练输入数据和第一训练结果，进而将所述第一训练输入数据输入所述基础训练模型，获得第二训练结果，进而将所述第一训练结果和所述第二训练结果进行比对，获得模型误差值，进而将所述模型误差值与预设模型误差阀值进行比对，若所述模型误差值大于或者等于所述预设模型误差阀值，则基于所述模型误差对所述基础训练模型进行更新并重新进行训练，进而若所述模型误差值小于所述预设模型误差阀值，则将所述基础训练模型作为所述预设第二语音增强器备用的待验证模型。也即，本实施例提供了一种通过训练所述基础训练模型获取待验证模型的方法，进而可将所述待验证模型作为所述预设第二语音增强处理器，或者对所述待验证模型进行进一步验证获取所述预设第二语音增强处理器，进而通过所述预设第二语音增强处理器获取所述第二语音增强处理结果，进而为获取所述目标增强语音奠定了基础，所以，本实施例为解决现有技术中语音增强效果差的技术问题奠定了基础。

参照图3，图3是本发明实施例方案涉及的硬件运行环境的设备结构示意图。

如图3所示，该语音增强设备可以包括：处理器1001，例如CPU，存储器1005，通信总线1002。其中，通信总线1002用于实现处理器1001和存储器1005之间的连接通信。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。

可选地，该语音增强设备还可以包括矩形用户接口、网络接口、摄像头、RF(RadioFrequency，射频)电路，传感器、音频电路、WiFi模块等等。矩形用户接口可以包括显示屏(Display)、输入子模块比如键盘(Keyboard)，可选矩形用户接口还可以包括标准的有线接口、无线接口。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。

本领域技术人员可以理解，图3中示出的语音增强设备结构并不构成对语音增强设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图3所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块以及语音增强程序。操作系统是管理和控制语音增强设备硬件和软件资源的程序，支持语音增强程序以及其它软件和/或程序的运行。网络通信模块用于实现存储器1005内部各组件之间的通信，以及与语音增强系统中其它硬件和软件之间通信。

在图3所示的语音增强设备中，处理器1001用于执行存储器1005中存储的语音增强程序，实现上述任一项所述的语音增强方法的步骤。

本发明语音增强设备具体实施方式与上述语音增强方法各实施例基本相同，在此不再赘述。

本发明还提供一种语音增强装置，所述语音增强装置包括：

可选地，所述输出模块包括：

可选地，所述第二语音增强模块包括：

可选地，所述第一语音增强模块包括：

可选地，所述语音增强装置还包括：

本发明语音增强装置的具体实施方式与上述语音增强方法各实施例基本相同，在此不再赘述。

本发明提供了一种可读存储介质，所述可读存储介质存储有一个或者一个以上程序，所述一个或者一个以上程序还可被一个或者一个以上的处理器执行以用于实现上述任一项所述的语音增强方法的步骤。

本发明介质具体实施方式与上述语音增强方法各实施例基本相同，在此不再赘述。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利处理范围内。

Claims

1.一种语音增强方法，其特征在于，所述语音增强方法包括：

对所述第一语音增强处理结果和所述第二语音增强处理结果进行加权求和，获得目标增强语音；

其中，所述预设第一语音增强器包括麦克风阵列和预设后置滤波器，所述通过预设第一语音增强器对所述待增强语音进行第一语音增强处理，获得第一语音增强处理结果的步骤包括：

通过所述麦克风阵列抑制所述待增强语音中不属于待增强语音方向的干扰噪音信号，且保留所述待增强语音中属于所述待增强语音方向上的语音信号，得到波束处理结果；

通过所述预设后置滤波器对所述波束处理结果进行滤波处理，以消除所述波束处理结果中的残余噪声，获得所述第一语音处理结果；

其中，所述预设第二语音增强器包括神经网络模型，所述将所述待增强语音输入预设第二语音增强器，对所述待增强语音进行第二语音增强处理，获得第二语音增强处理结果的步骤包括：

对所述第二信号频谱进行傅里叶逆变换和声音重构处理，获得所述第二语音增强处理结果；

对所述第一语音增强处理结果中的各时间点的特征值和所述第二语音增强处理结果中的对应时间点的特征值进行加权求和，获得多个目标增强语音特征值；基于所述目标增强语音特征值与时间之间的关系，建立所述目标增强语音对应的时域信号图谱，输出所述目标增强语音。

2.如权利要求1所述语音增强方法，其特征在于，所述第一语音增强处理结果包括第一语音数据，所述第二语音增强处理结果包括第二语音数据，

基于所述目标语音数据，输出所述目标增强语音。

3.如权利要求1所述语音增强方法，其特征在于，所述对所述第一语音增强处理结果和所述第二语音增强处理结果进行加权求和，获得目标增强语音的步骤包括：

4.如权利要求1所述语音增强方法，其特征在于，所述将所述待增强语音输入预设第二语音增强器，对所述待增强语音进行第二语音增强处理，获得第二语音增强处理结果的步骤之前包括：

5.如权利要求4所述语音增强方法，其特征在于，所述若所述模型误差值小于所述预设模型误差阀值，则将所述基础训练模型作为所述预设第二语音增强器备用的待验证模型的步骤之后包括：

6.一种语音增强装置，其特征在于，所述语音增强装置应用于语音增强设备，所述语音增强装置包括：

第一语音增强模块，用于获取待增强语音，并通过预设第一语音增强器对所述待增强语音进行第一语音增强处理，获得第一语音增强处理结果；

第二语音增强模块，用于将所述待增强语音输入预设第二语音增强器，对所述待增强语音进行第二语音增强处理，获得第二语音增强处理结果；

输出模块，用于对所述第一语音增强处理结果和所述第二语音增强处理结果进行加权求和，获得目标增强语音；

其中，所述预设第一语音增强器包括麦克风阵列和预设后置滤波器，所述第一语音增强模块还用于：

其中，所述预设第二语音增强器包括神经网络模型，所述第二语音增强模块还用于：

其中，所述输出模块还用于：

7.一种语音增强设备，其特征在于，所述语音增强设备包括：存储器、处理器以及存储在存储器上的用于实现所述语音增强方法的程序，

所述存储器用于存储实现语音增强方法的程序；

所述处理器用于执行实现所述语音增强方法的程序，以实现如权利要求1至5中任一项所述语音增强方法的步骤。

8.一种可读存储介质，其特征在于，所述可读存储介质上存储有实现语音增强方法的程序，所述实现语音增强方法的程序被处理器执行以实现如权利要求1至5中任一项所述语音增强方法的步骤。