CN110070887B

CN110070887B - 一种语音特征重建方法及装置

Info

Publication number: CN110070887B
Application number: CN201810065070.3A
Authority: CN
Inventors: 张鹏远; 战鸽; 潘接林; 颜永红
Original assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Current assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Priority date: 2018-01-23
Filing date: 2018-01-23
Publication date: 2021-04-09
Anticipated expiration: 2038-01-23
Also published as: CN110070887A

Abstract

本发明涉及一种语音特征重建方法及装置，该方法包括：基于二值掩蔽算法从待处理的原始语音信号中分离出第一有效语音信号；将第一有效语音信号转换为第一时频域特征；根据第一时频域特征以及预设长度的滑动窗，对预设的第一掩模矩阵进行处理，获取处理后的第一掩模矩阵；将处理后的第一掩模矩阵与第一时频域特征进行拼接，构成第一复合特征；将第一复合特征输入至预建立的最优深度神经网络模型中，重建与原始语音信号对应的所有语音特征。上述方式，可以实现语音信号缺失特征重建，尤其是恢复了被噪音遮蔽的语音成分，提升语音信号质量。

Description

一种语音特征重建方法及装置

技术领域

本发明涉及信号处理技术领域，特别涉及一种语音特征重建方法及装置。

背景技术

针对受到噪声干扰的单通道语音信号，以借助于理想二值掩蔽的语音分离进行语音增强是较为有效的处理方法。通过理想二值掩蔽，可以将时频域内带噪声的语音信号成分进行分类，区分开被噪声遮蔽的成分，保留语音信号能量较强的成分。分离出的语音信号成分带有重要的语音信息，常常被用于后续的语音识别和语音感知处理。但是，被噪声遮蔽的语音成分，同样带有语音信息，缺少了这些成分的语音信号不可避免地表现出感知质量的下降和识别正确率的降低，严重阻碍了对语音信的分析和利用。因而，针对语音分离信号的语音特征重建方法，在研究和应用层面都具有独到的重要性。

现阶段的语音信号语音特征重建技术，主要依据对纯净语音信号的时频域特征进行统计，根据统计量来估计缺失的特征。这样的统计量是在用于统计的语音信号的平均化结果，虽然在统计意义上可以表达语音信号成分的分布，但是在局部意义上缺少特异性。同时，基于统计量的语音特征重建，需要选取参照特征，依据待重建成分周围的参照特征进行重建，因而受到参照范围的限制。这些属性导致经过重建得到的语音信号质量提升有限。

深度神经网络适用于图像、语音信号处理，通常被用来构建复杂的、高度非线性的相关关系。同时，深度神经网络可以扩大参考范围，在更大的时频空间上建立从参考成分到待重建成分的映射关系。不过，由于深度神经网络对输入特征不加区分，因而无法充分利用分离语音信号的掩蔽信息。从而导致语音特征重建带来更大的难度，从而导致语音信号质量的提升更加成为比较困难的问题。

发明内容

本发明的目的在于，克服现阶段语音信号语音特征重建技术所存在的缺陷，包括语音信号缺少特异性，以及语音信号质量提升有限的问题，提供一种语音特征重建方法及装置。

为解决上述技术问题，本发明的技术方案所提供的一种语音特征重建方法，该方法包括：

基于二值掩蔽算法从待处理的原始语音信号中分离出第一有效语音信号；

将第一有效语音信号转换为第一时频域特征；

根据第一时频域特征以及预设长度的滑动窗，对预设的第一掩模矩阵进行处理，获取处理后的第一掩模矩阵；

将处理后的第一掩模矩阵与第一时频域特征进行拼接，构成第一复合特征；

将第一复合特征输入至预建立的最优深度神经网络模型中，重建与原始语音信号对应的所有语音特征。

本发明提供的一种语音特征重建方法，优点在于：通过第一时频域特征和预设长度的滑动窗，对预设的第一掩模矩阵进行处理，获取处理后的第一掩模矩阵。即通过分离出的语音信号推测出掩蔽信息。利用深度神经网络模型，根据第一掩模矩阵和第一时频域特征进行拼接后，输入至最优深度神经网络模型中，重建与原始语音信号对应的所有语音特征。通过上述方式，可以实现语音信号缺失特征重建，尤其是恢复了被噪音遮蔽的语音成分，提升语音信号质量。

作为上述方法的一种改进，将第一有效语音信号转换为第一时频域特征，具体包括：

对第一有效语音信号进行分帧和加窗处理，获取处理后的语音信号；

将处理后的语音信号进行傅里叶变换，获取与处理后的语音信号对应的功率谱；

对功率谱取对数，获取第一时频域特征。

采用上述进一步方案的有益效果是：通过对有效信号进行分帧和加窗处理，获取处理后的语音信号，然后对处理后的语音信号进行傅里叶变换，进而获取功率谱，对功率谱对对数，从而可以获取第一时频域特征。

作为上述方法的又一种改进，第一时频域特征为第一对数功率谱，预设的第一掩模矩阵的长度和宽度，均与第一时频域特征的长度和宽度相同，根据第一时频域特征以及预设长度的滑动窗，对预设的第一掩模矩阵进行处理，获取处理后的第一掩模矩阵，具体包括：

利用预设长度的滑动窗按照第一对数功率谱的长度轨迹逐点滑动，并开始计时，其中滑动窗的宽度与第一对数功率谱的宽度相同；

当达到预设时刻时，遍历在预设时刻时的滑动窗内的第二对数功率谱的每个元素；

当确定滑动窗内的第二对数功率谱的第k个元素值是否大于预设阈值时，确定第一掩模矩阵中与第k个元素位置相同的元素的元素值为1，否则，确定第一掩模矩阵中与第k个元素位置相同的元素的元素值为0；

当第一对数功率谱中第h个元素重复出现在滑动窗内时,获取第h个元素每一次出现在滑动窗时，M矩阵中与第h个元素对应位置的元素的设定值，并计算所有M矩阵中与第h个元素对应位置的元素的设定值的平均值，作为M矩阵中与第h个元素对应位置的元素的最终元素值，其中k和h均为大于或者等于1，且小于或者等于滑动窗内的第二对数功率谱的元素总个数的正整数，第二对数功率谱为第一对数功率谱的一部分。

采用上述进一步方案的有益效果是：通过上述方式，可以通过第一时频域特征和预设长度的滑动窗，对预设的第一掩模矩阵进行处理，获取处理后的第一掩模矩阵，即通过分离出的语音信号推测出掩蔽信息。

作为上述方法的再一种改进，将第一复合特征输入至预建立的最优深度神经网络模型中，重建与原始语音信号对应的所有语音特征之前，方法还包括：

基于二值掩蔽算法从至少两个样本语音信号中每一个样本语音信号中分离出与之对应的第二有效语音信号；将第i个样本语音信号对应第二有效语音信号转换为第二时频域特征，以及将第i个样本语音信号转换为第三时频域特征；

根据第i个样本语音信号对应的第二时频域特征以及预设长度的滑动窗，对预设的第二掩模矩阵进行处理，获取处理后的第二掩模矩阵，其中预设的第二掩模矩阵的长度和第i个样本语音信号对应的第二时频域特征的长度相同，且预设的第二掩模矩阵中所有元素值均为0；

将第i个样本语音信号对应的处理后的第二掩模矩阵与第i个样本语音信号对应的第二时频域特征进行拼接，构成与第i个样本语音信号对应的第二复合特征；

根据第i个样本语音信号对应的第二复合特征以及第i个样本语音信号对应的第三时频域特征，对深度神经网络模型进行训练，获取最优深度神经网络模型，其中i为大于或者等于2的正整数，且初始取值为1，i在相邻两次取值时，对应数值之间差值为1。

采用上述进一步方案的有益效果是：为了将具有噪音的原始语音信号的所有语音特征提取成功，则需要利用最优深度神经网络模型，因此需要事先利用大量的样本数据对深度神经网络模型进行训练，继而获取最优深度神经网络模型。

作为上述方法的还一种改进，根据第i个样本语音信号对应的第二复合特征以及第i个样本语音信号对应的第三时频域特征，对深度神经网络模型进行训练，获取最优深度神经网络模型，具体包括：

设置深度神经网络的第一初始权重；

根据第i个样本语音信号对应的第二复合特征，采用受限玻尔兹曼机的训练方式，分别对神经网络每一层的权重系数进行训练，并获取神经网络每一层的权重系数；

根据第i个样本语音信号对应的第二复合特征以及第i个样本语音信号对应的第三时频域特征，分别对神经网络每一层的权重系数进行优化训练，获取神经网络每一层的最优权重系数；

根据神经网络每一层的最优权重系数，计算深度神经网络的输出值与第三时频域特征之间的误差，且误差小于预设阈值时，确定当前深度神经网络模型为最优深度神经网络模型。

采用上述进一步方案的有益效果是：通过对样本信号的权重系数进行不断重复的训练，最终获取最优权重系数。根据该最优权重系数，计算深度神经网络的输出值与第三时频域特征之间的误差，且误差小于预设阈值，确定当前深度神经网络模型为最优深度神经网络模型。

本发明的技术方案还提供了一种语音特征重建装置，该装置包括：

分离单元，用于基于二值掩蔽算法从待处理的原始语音信号中分离出第一有效语音信号；

转换单元，用于将第一有效语音信号转换为第一时频域特征；

处理单元，用于根据第一时频域特征以及预设长度的滑动窗，对预设的第一掩模矩阵进行处理，获取处理后的第一掩模矩阵；将处理后的第一掩模矩阵与第一时频域特征进行拼接，构成第一复合特征；

语音特征构建单元，用于将第一复合特征输入至预建立的最优深度神经网络模型中，重建与原始语音信号对应的所有语音特征。

本发明提供的一种语音特征重建装置，优点在于：通过第一时频域特征和预设长度的滑动窗，对预设的第一掩模矩阵进行处理，获取处理后的第一掩模矩阵。即通过分离出的语音信号推测出掩蔽信息。利用深度神经网络模型，根据第一掩模矩阵和第一时频域特征进行拼接后，输入至最优深度神经网络模型中，重建与原始语音信号对应的所有语音特征。通过上述方式，可以实现语音信号缺失特征重建，尤其是恢复了被噪音遮蔽的语音成分，提升语音信号质量。

作为上述方法进一步的改进，转换单元具体用于，对第一有效语音信号进行分帧和加窗处理，获取处理后的语音信号；

对功率谱取对数，获取第一时频域特征。

作为上述方法的又一种改进，第一时频域特征为第一对数功率谱，预设的第一掩模矩阵的长度和宽度，均与第一时频域特征的长度和宽度相同，处理单元具体用于,利用预设长度的滑动窗按照第一对数功率谱的长度轨迹逐点滑动，并开始计时，其中滑动窗的宽度与第一对数功率谱的宽度相同；

作为上述方法的再一种改进，分离单元还用于，基于二值掩蔽算法从至少两个样本语音信号中每一个样本语音信号中分离出与之对应的第二有效语音信号；

转换单元还用于，将第i个样本语音信号对应第二有效语音信号转换为第二时频域特征，以及将第i个样本语音信号转换为第三时频域特征；

处理单元还用于，根据第i个样本语音信号对应的第二时频域特征以及预设长度的滑动窗，对预设的第二掩模矩阵进行处理，获取处理后的第二掩模矩阵，其中预设的第二掩模矩阵的长度和第i个样本语音信号对应的第二时频域特征的长度相同，且预设的第二掩模矩阵中所有元素值均为0；

语音特征构建单元还用于，根据第i个样本语音信号对应的第二复合特征以及第i个样本语音信号对应的第三时频域特征，对深度神经网络模型进行训练，获取最优深度神经网络模型，其中i为大于或者等于2的正整数，且初始取值为1，i在相邻两次取值时，对应数值之间差值为1。

作为上述方法的还一种改进，语音特征构建单元具体用于，设置深度神经网络的第一初始权重；

附图说明

图1为本发明实施例提供的一种语音特征重建方法流程示意图；

图2为本发明实施例提供的另一种语音特征重建方法流程示意图；

图3将处理后的第一掩模矩阵与第一时频域特征进行拼接，构成第一复合特征的示意图；

图4为具体的预训练和调优示意图；

图5为本发明实施例提供的一种语音特征重建装置结构示意图。

具体实施方式

以下结合实施例进一步说明本发明所提供的技术方案。

如图1所示，图1为本发明实施提供的一种语音特征重建方法流程示意图，该方法包括：

步骤110，基于二值掩蔽算法从待处理的原始语音信号中分离出第一有效语音信号。

根据二值掩蔽算法从待处理的原始语音信号中分离出第一有效语音信号的方式为现有技术，这两不做过多介绍。

步骤120，将第一有效语音信号转换为第一时频域特征。

步骤130，根据第一时频域特征以及预设长度的滑动窗，对预设的第一掩模矩阵进行处理，获取处理后的第一掩模矩阵。

具体的，预设的第一掩模矩阵的长度和第一时频域特征的长度相同。

步骤140，将处理后的第一掩模矩阵与第一时频域特征进行拼接，构成第一复合特征。

步骤150，将第一复合特征输入至预建立的最优深度神经网络模型中，重建与原始语音信号对应的所有语音特征。

本发明实施例提供的一种语音特征重建方法，通过第一时频域特征和预设长度的滑动窗，对预设的第一掩模矩阵进行处理，获取处理后的第一掩模矩阵。即通过分离出的语音信号推测出掩蔽信息。利用深度神经网络模型，根据第一掩模矩阵和第一时频域特征进行拼接后，输入至最优深度神经网络模型中，重建与原始语音信号对应的所有语音特征。通过上述方式，可以实现语音信号缺失特征重建，尤其是恢复了被噪音遮蔽的语音成分，提升语音信号质量。

为进一步说明本发明实施例的技术方案，本发明实施例还提供了另一种语音特征重建方法，具体如图2所示，该方法包括：

步骤120，将第一有效语音信号转换为第一时频域特征。

将第一有效语音信号转换为第一时频域特征时可以采用功率谱。可选的，可以采用如下步骤，利用功率谱，实现将第一有效语音信号转换为第一时频域特征。具体如下：

步骤1201，对第一有效语音信号进行分帧和加窗处理，获取处理后的语音信号。

实际而言，有效语音信号时序的数字信号。即，本步骤为对时序的数字信号进行分帧和加窗处理，或聘请处理后的语音信号(数值信号)。

步骤1202，将处理后的语音信号进行傅里叶变换，获取与处理后的语音信号对应的功率谱。

具体的，对加窗后的信号进行快速傅里叶变换，对每个元素取平方，得到与处理后的信号对应的功率谱。

步骤1203，对功率谱取对数，获取第一时频域特征。

具体的，对功率谱取对数压缩动态范围，得到第一对数功率谱X，其中X为长为T,宽为F的矩阵。而这个对数功率谱实际就是第一时频域特征。

需要说明的是，这里采用的快速傅里叶变换为标准的数字信号处理技术，对数可以以10为底，也可以以其他自然数为底，不同的对数操作改变的是对数功率谱的动态范围，在后续步骤中有相应的处理，因此将不会影响整体效果。

可选的，步骤130可以包括如下执行步骤：

步骤1301，利用预设长度的滑动窗按照第一对数功率谱的长度轨迹逐点滑动，并开始计时。

如步骤1203中所介绍的，第一对数功率谱X长为T,宽为F的矩阵。而预先设定的第一掩模矩阵M的长度和宽度，均与第一对数功率谱X的长度和宽度相同。即预先设定的掩模矩阵M的长度为T，宽度为F。而且，预先设定的第一掩模矩阵M中的所有元素初始值均为0。

首先利用预设长度的滑动窗按照第一对数功率谱的长度轨迹，逐点滑动，这里的逐点实际可以理解为逐个元素滑动，并且从0时刻开始计时，滑动窗的宽度是与第一对数功率谱的宽度相同。

步骤1302，当达到预设时刻时，遍历在预设时刻时的滑动窗内的第二对数功率谱的每个元素。

具体的，可以设定滑动窗的长度为W,沿着矩阵X的长边逐点滑动滑动窗。当达到预设时刻t0时，则统计窗内的功率谱总和。具体功率谱总和公式如下所示：

其中，E_t0为t0时刻滑动窗内的功率谱总和，t的取值范围为[t0，T-W+1],t0取值范围为[1,T-W+1],f为滑动窗的宽度，f的取值范围为[1,F]。

如设定门限因子α，则门限值为ρ_t0＝αE_t0。

步骤1303，当确定滑动窗内的第二对数功率谱的第k个元素值是否大于预设阈值时，确定第一掩模矩阵中与第k个元素位置相同的元素的元素值为1，否则，确定第一掩模矩阵中与第k个元素位置相同的元素的元素值为0。

具体的，当根据步骤1302遍历滑动窗内的每一个元素值时，其中的一个元素值大于预设阈值，也即是门限值ρ_t0，则设定第一掩模矩阵中与第k个元素位置相同的元素的元素值为1，否则，确定第一掩模矩阵中与第k个元素位置相同的元素的元素值为0。即:

当然，因为滑动窗时逐点滑动，那么，X中的元素必然有很多都是重复出现在滑动窗内的。而重复的元素在和其他不同元素组成滑动窗内的元素时，所计算出的功率总和必然是不同的，那么对于M矩阵中的对应位置元素的设定也会受到影响。为了去除这种影响，则可以按照如下方式计算：

步骤1304，当第一对数功率谱中第h个元素重复出现在滑动窗内时,获取第h个元素每一次出现在滑动窗时，M矩阵中与第h个元素对应位置的元素的设定值，并计算所有M矩阵中与第h个元素对应位置的元素的设定值的平均值，作为M矩阵中与第h个元素对应位置的元素的最终元素值。其中，h为大于或者等于1，且小于或者等于滑动窗内的第二对数功率谱的元素总个数的正整数，第二对数功率谱为第一对数功率谱的一部分。

例如，X中某一位置元素重复出现3次，第一次出现时，M矩阵中对应位置元素设定值为1，第二次出现时，M矩阵中对应位置元素设定值为0，第三次出现时，M矩阵中对应位置元素设定值为1，那么，M矩阵中对应位置元素设定元素最终值为1/3。

通过上述方式，则可以推测出第一掩蔽信息的具体表达矩阵式。

需要说明的是，门限因子α取值在0到1之间，起到调节掩蔽比例的作用，由于输入是经过分离得到的语音信号，因而需要保留大部分能量，宜将α设置为较小值。

即将M与X拼接成长为T,宽为2F的矩阵，作为复合特征。图3为具体的拼接示意图。

进一步可选的，为了建立最优的深度神经网络模型，必然需要通过大量的样本数据对深度神经网络模型进行训练。

因此，该方法步骤150之前，该方法还可以包括步骤160至步骤190。

步骤160，基于二值掩蔽算法从至少两个样本语音信号中每一个样本语音信号中分离出与之对应的第二有效语音信号；将第i个样本语音信号对应第二有效语音信号转换为第二时频域特征，以及将第i个样本语音信号转换为第三时频域特征。

步骤170，根据第i个样本语音信号对应的第二时频域特征以及预设长度的滑动窗，对预设的第二掩模矩阵进行处理，获取处理后的第二掩模矩阵。

步骤180，将第i个样本语音信号对应的处理后的第二掩模矩阵与第i个样本语音信号对应的第二时频域特征进行拼接，构成与第i个样本语音信号对应的第二复合特征。

步骤190，根据第i个样本语音信号对应的第二复合特征以及第i个样本语音信号对应的第三时频域特征，对深度神经网络模型进行训练，获取最优深度神经网络模型。

其中，i为大于或者等于2的正整数，且初始取值为1，i在相邻两次取值时，对应数值之间差值为1。

实际上而言，步骤160到步骤180与上文所介绍的方法步骤相类似，因此这里不再赘述。

可选的，步骤190可以通过如下步骤实现：

步骤1901，设置深度神经网络的第一初始权重。

步骤1902，根据第i个样本语音信号对应的第二复合特征，采用受限玻尔兹曼机的训练方式，分别对神经网络每一层的权重系数进行训练，并获取神经网络每一层的权重系数；

步骤1903，根据第i个样本语音信号对应的第二复合特征以及第i个样本语音信号对应的第三时频域特征，分别对神经网络每一层的权重系数进行优化训练，获取神经网络每一层的最优权重系数；

步骤1904，根据神经网络每一层的最优权重系数，计算深度神经网络的输出值与第三时频域特征之间的误差，且误差小于预设阈值时，确定当前深度神经网络模型为最优深度神经网络模型。

实际上，以上步骤可以分为预训练和调优两大步骤。

预训练：

按照高斯分布产生随机数作为深度神经网络的初始权重。然后利用训练数据的复合特征，由输入层向输出层，采用受限玻尔兹曼机的训练方式，对每一层的权重系数进行训练。具体地，当输入层与第一个隐含层之间的权重首先训练完成后，由输入特征和第一层权重得到输出值，作为第二个隐含层的输入特征，采用受限玻尔兹曼机的训练方式训练第一个隐含层与第二个隐含层之间的权重。如此重复下去，直到倒数第二个隐含层与最后一个隐含层之间的权重训练完成为止。

调优：

经过预训练得到的权重作为神经网络的初始权重，为神经网络增加一层作为最终的输出，相应增加最后一层隐藏层与输出层之间的权重系数，利用训练数据的复合特征以及对应的监督信息，采用误差反向传播算法，对所有的权重进行优化训练。具体地，首先根据当前权重值，计算出深度神经网络的输出与监督信息之间的误差，然后计算出误差对权重的梯度，最后根据梯度下降算法对权重进行更新。如此重复下去，直到深度神经网络的输出与监督信息之间的误差满足精度要求为止。

该过程为深度神经网络的常用训练流程，受限玻尔兹曼机已有标准操作步骤，按照高斯分布的随机初始化以及梯度下降算法都是通用的方法。针对本发明的实践，只需要安排输入的复合特征和相应的监督信息，不需要创造性劳动即可实现，因而不再详述深度神经网络的具体训练过程。图4为具体的预训练和调优示意图。

与上述方法相对应的，本发明实施例还提供了一种语音特征重建装置，该装置可以包括：分离单元501、转换单元502、处理单元503以及语音特征构建单元504。

其中，分离单元501，用于基于二值掩蔽算法从待处理的原始语音信号中分离出第一有效语音信号；

转换单元502，用于将第一有效语音信号转换为第一时频域特征；

处理单元503，用于根据第一时频域特征以及预设长度的滑动窗，对预设的第一掩模矩阵进行处理，获取处理后的第一掩模矩阵；将处理后的第一掩模矩阵与第一时频域特征进行拼接，构成第一复合特征；

语音特征构建单元504，用于将第一复合特征输入至预建立的最优深度神经网络模型中，重建与原始语音信号对应的所有语音特征。

可选的，转换单元502具体用于，对第一有效语音信号进行分帧和加窗处理，获取处理后的语音信号；

对功率谱取对数，获取第一时频域特征。

进一步可选的，述第一时频域特征为第一对数功率谱，预设的第一掩模矩阵的长度和宽度，均与第一时频域特征的长度和宽度相同，处理单元503具体用于，利用预设长度的滑动窗按照第一对数功率谱的长度轨迹逐点滑动，并开始计时，其中滑动窗的宽度与第一对数功率谱的宽度相同；

可选的，分离单元501还用于，基于二值掩蔽算法从至少两个样本语音信号中每一个样本语音信号中分离出与之对应的第二有效语音信号；

转换单元502还用于，将第i个样本语音信号对应第二有效语音信号转换为第二时频域特征，以及将第i个样本语音信号转换为第三时频域特征；

处理单元503还用于，根据第i个样本语音信号对应的第二时频域特征以及预设长度的滑动窗，对预设的第二掩模矩阵进行处理，获取处理后的第二掩模矩阵，其中预设的第二掩模矩阵的长度和第i个样本语音信号对应的第二时频域特征的长度相同，且预设的第二掩模矩阵中所有元素值均为0；

语音特征构建单元504还用于，根据第i个样本语音信号对应的第二复合特征以及第i个样本语音信号对应的第三时频域特征，对深度神经网络模型进行训练，获取最优深度神经网络模型，其中i为大于或者等于2的正整数，且初始取值为1，i在相邻两次取值时，对应数值之间差值为1。

进一步可选的，语音特征构建单元504具体用于，设置深度神经网络的第一初始权重；

本发明实施例提供的语音特征重建装置中各功能单元所执行的功能均已在上述两个实施例所提供的语音特征重建方法中做了详细介绍，这里不做赘述。

本发明实施例提供的一种语音特征重建装置，通过第一时频域特征和预设长度的滑动窗，对预设的第一掩模矩阵进行处理，获取处理后的第一掩模矩阵。即通过分离出的语音信号推测出掩蔽信息。利用深度神经网络模型，根据第一掩模矩阵和第一时频域特征进行拼接后，输入至最优深度神经网络模型中，重建与原始语音信号对应的所有语音特征。通过上述方式，可以实现语音信号缺失特征重建，尤其是恢复了被噪音遮蔽的语音成分，提升语音信号质量。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种语音特征重建方法，其特征在于，所述方法包括：

将所述第一有效语音信号转换为第一时频域特征；具体包括：

对所述第一有效语音信号进行分帧和加窗处理，获取处理后的语音信号；

将所述处理后的语音信号进行傅里叶变换，获取与所述处理后的语音信号对应的功率谱；

对所述功率谱取对数，获取所述第一时频域特征；

所述第一时频域特征为第一对数功率谱X，X为长为T,宽为F的矩阵；预设的第一掩模矩阵M的长度和宽度，均与所述第一时频域特征的长度和宽度相同；

根据所述第一时频域特征以及预设长度的滑动窗，对预设的第一掩模矩阵进行处理，获取处理后的第一掩模矩阵；具体包括：

利用预设长度的滑动窗按照所述第一对数功率谱的长度轨迹逐点滑动，并开始计时，其中所述滑动窗的宽度与所述第一对数功率谱的宽度相同；

当达到预设时刻时，遍历在所述预设时刻时的所述滑动窗内的第二对数功率谱的每个元素；

当确定所述滑动窗内的第二对数功率谱的第k个元素值是否大于预设阈值时，确定所述第一掩模矩阵中与所述第k个元素位置相同的元素的元素值为1，否则，确定所述第一掩模矩阵中与所述第k个元素位置相同的元素的元素值为0；

当所述第一对数功率谱中第h个元素重复出现在所述滑动窗内时,获取所述第h个元素每一次出现在滑动窗时，M矩阵中与所述第h个元素对应位置的元素的设定值，并计算所有所述M矩阵中与所述第h个元素对应位置的元素的设定值的平均值，作为所述M矩阵中与所述第h个元素对应位置的元素的最终元素值，其中k和h均为大于或者等于1，且小于或者等于所述滑动窗内的所述第二对数功率谱的元素总个数的正整数，所述第二对数功率谱为所述第一对数功率谱的一部分；

将所述处理后的第一掩模矩阵与所述第一时频域特征进行拼接，构成第一复合特征；

即将处理后的第一掩模矩阵M与第一对数功率谱X拼接成长为T,宽为2F的矩阵，作为第一复合特征；

将所述第一复合特征输入至预建立的最优深度神经网络模型中，重建与所述原始语音信号对应的所有语音特征。

2.如权利要求1所述的语音特征重建方法，其特征在于，所述将所述第一复合特征输入至预建立的最优深度神经网络模型中，重建与所述原始语音信号对应的所有语音特征之前，所述方法还包括：

基于二值掩蔽算法从至少两个样本语音信号中每一个样本语音信号中分离出与之对应的第二有效语音信号；将第i个样本语音信号对应第二有效语音信号转换为第二时频域特征，以及将所述第i个样本语音信号转换为第三时频域特征；

根据所述第i个样本语音信号对应的第二时频域特征以及预设长度的滑动窗，对预设的第二掩模矩阵进行处理，获取处理后的第二掩模矩阵；

将所述第i个样本语音信号对应的处理后的第二掩模矩阵与所述第i个样本语音信号对应的第二时频域特征进行拼接，构成与所述第i个样本语音信号对应的第二复合特征；

根据所述第i个样本语音信号对应的第二复合特征以及所述第i个样本语音信号对应的第三时频域特征，对深度神经网络模型进行训练，获取最优深度神经网络模型，其中i为大于或者等于2的正整数，且初始取值为1，i在相邻两次取值时，对应数值之间差值为1。

3.如权利要求2所述的语音特征重建方法，其特征在于，根据所述第i个样本语音信号对应的第二复合特征以及所述第i个样本语音信号对应的第三时频域特征，对深度神经网络模型进行训练，获取最优深度神经网络模型，具体包括：

设置所述深度神经网络的第一初始权重；

根据第i个样本语音信号对应的第二复合特征，采用受限玻尔兹曼机的训练方式，分别对所述神经网络每一层的权重系数进行训练，并获取所述神经网络每一层的权重系数；

根据所述第i个样本语音信号对应的第二复合特征以及所述第i个样本语音信号对应的第三时频域特征，分别对所述神经网络每一层的权重系数进行优化训练，获取所述神经网络每一层的最优权重系数；

根据所述神经网络每一层的最优权重系数，计算所述深度神经网络的输出值与所述第三时频域特征之间的误差，且所述误差小于预设阈值时，确定当前深度神经网络模型为最优深度神经网络模型。

4.一种语音特征重建装置，其特征在于，所述装置包括：

转换单元，用于将所述第一有效语音信号转换为第一时频域特征；所述转换单元具体用于，对所述第一有效语音信号进行分帧和加窗处理，获取处理后的语音信号；

对所述功率谱取对数，获取所述第一时频域特征；

处理单元，用于根据所述第一时频域特征以及预设长度的滑动窗，对预设的第一掩模矩阵进行处理，获取处理后的第一掩模矩阵；将所述处理后的第一掩模矩阵与所述第一时频域特征进行拼接，构成第一复合特征；

所述第一时频域特征为第一对数功率谱X，X为长为T,宽为F的矩阵，所述预设的第一掩模矩阵M的长度和宽度，均与所述第一时频域特征的长度和宽度相同，所述处理单元具体用于，利用预设长度的滑动窗按照所述第一对数功率谱的长度轨迹逐点滑动，并开始计时，其中所述滑动窗的宽度与所述第一对数功率谱的宽度相同；

将处理后的第一掩模矩阵M与第一对数功率谱X拼接成长为T,宽为2F的矩阵，作为第一复合特征；

语音特征构建单元，用于将所述第一复合特征输入至预建立的最优深度神经网络模型中，重建与所述原始语音信号对应的所有语音特征。

5.如权利要求4所述的语音特征重建装置，其特征在于，所述分离单元还用于，基于二值掩蔽算法从至少两个样本语音信号中每一个样本语音信号中分离出与之对应的第二有效语音信号；

所述转换单元还用于，将第i个样本语音信号对应第二有效语音信号转换为第二时频域特征，以及将所述第i个样本语音信号转换为第三时频域特征；

所述处理单元还用于，根据所述第i个样本语音信号对应的第二时频域特征以及预设长度的滑动窗，对预设的第二掩模矩阵进行处理，获取处理后的第二掩模矩阵，其中所述预设的第二掩模矩阵的长度和所述第i个样本语音信号对应的第二时频域特征的长度相同，且所述预设的第二掩模矩阵中所有元素值均为0；

所述语音特征构建单元还用于，根据所述第i个样本语音信号对应的第二复合特征以及所述第i个样本语音信号对应的第三时频域特征，对深度神经网络模型进行训练，获取最优深度神经网络模型，其中i为大于或者等于2的正整数，且初始取值为1，i在相邻两次取值时，对应数值之间差值为1。

6.如权利要求5所述的语音特征重建装置，其特征在于，语音特征构建单元具体用于，设置所述深度神经网络的第一初始权重；