CN109671446A

CN109671446A - 一种基于绝对听觉阈值的深度学习语音增强方法

Info

Publication number: CN109671446A
Application number: CN201910126915.XA
Authority: CN
Inventors: 卿朝进; 万东琴; 蔡斌; 阳庆瑶; 张岷涛
Original assignee: Xihua University
Current assignee: Xihua University
Priority date: 2019-02-20
Filing date: 2019-02-20
Publication date: 2019-04-23
Anticipated expiration: 2039-02-20
Also published as: CN109671446B

Abstract

本发明公开了一种基于绝对听觉阈值的深度学习语音增强方法,包括以下步骤：S1.对输入的时域音频信号进行预处理，得到频域语音信号；S2.对频域语音信号进行声学特征处理，得到特征语音信号；S3.基于深度神经网络，构建特征语音增强网络模型；S4.对特征语音增强网络模型进行离线训练，得到成熟的特征语音增强网络模型；S5.利用成熟的特征语音增强网络模型进行在线语音增强。本发明利用绝对听觉阈值对语音信号进行声学特征处理，突出语音信号特征，在不损失输出音频的可懂度和清晰度的情况下，降低网络输入语音信号的数据量，减少网络输入参数，提高网络训练速率。

Description

一种基于绝对听觉阈值的深度学习语音增强方法

技术领域

本发明涉及通信系统中语音信号的增强技术，特别是涉及一种基于绝对听觉阈值的深度学习语音增强方法。

背景技术

语音信号的增强技术一直是语音领域的热门研究点。目前应用较为广泛的传统语音增强方法有谱减法，维纳滤波法，基于统计模型的方法和子空间法等，这些方法均属于无监督语音增强方法。然而，只有在噪声是慢变或短时平稳的情况下，无监督语音增强方法才能获得较好的性能。近年来，有监督语音增强方法得到蓬勃发展，随着深度学习(DeepLearning，DL)概念的提出以及其在语音增强性能提升方面的成功应用，使得属于有监督语音增强方法的基于深度神经网络(Deep Neural Network，DNN)的语音增强方法的得到广泛关注。

深度神经网络的网络结构主要分为输入层，隐藏层，输出层。基于深度神经网络的语音增强方法通常是将带噪语音信号作为输入层数据，纯净语音信号作为输出目标数据，以此训练网络模型。然而，根据人耳的听觉特性，语音信号中的部分信号是不能被人耳所感知的。将带噪语音信号数据和纯净语音信号数据直接代入深度神经网络训练，网络同样会对那部分人耳未能感知的信号数据进行训练，这部分冗余数据将造成训练网络的负担，降低网络训练速率以及影响网络输出音频的可懂度和清晰度。因此，通过绝对听觉阈值对语音信号进行特征处理，去除人耳不能感知的冗余信号，将处理后的信号作为网络训练数据，并不会损失输出音频的可懂度和清晰度，且提升网络对目标信号的收敛以及训练速率。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于绝对听觉阈值的深度学习语音增强方法，利用绝对听觉阈值对语音信号进行声学特征处理，突出语音信号特征，在不损失输出音频的可懂度和清晰度的情况下，降低网络输入语音信号的数据量，减少网络输入参数，提高网络训练速率。

本发明的目的是通过以下技术方案来实现的：一种基于绝对听觉阈值的深度学习语音增强方法，包括以下步骤：

S1.对输入的时域音频信号进行预处理，得到频域语音信号；

S2.对频域语音信号进行声学特征处理，得到特征语音信号；

S3.基于深度神经网络，构建特征语音增强网络模型FaeNet；

S4.对特征语音增强网络模型FaeNet进行离线训练，得到成熟的特征语音增强网络模型；

S5.利用成熟的特征语音增强网络模型进行在线语音增强。

进一步地，步骤S1中所述的时域音频信号包括带噪语音信号和纯净语音信号，其中带噪语音信号由纯净语音信号和噪声信号混合而成。所述的纯净语音信号和噪声信号来自TIMIT语料库、中国科学院自动化语音库以及采集的语音构成的语音库，达到更能泛化的目的。

进一步地，所述步骤S1包括以下子步骤：

S101.对输入的时域音频信号进行分帧处理，得到长度为N的语音帧信号y(t)：

y(t)＝[y(t₁),y(t₂),...,y(t_N)]；

其中，t_i表示时间，y(t_i)表示语音帧信号y(t)中时间t_i所对应时域信号，i＝1,2,...,N；

S102.对语音帧信号y(t)进行DCT变换，使语音帧信号y(t)从时域变换到频域，得到长度为N的频域语音信号Y(f)：

Y(f)＝[Y(f₁),Y(f₂),...,Y(f_N)]；

其中，Y(f_i)表示由时域信号y(t_i)变换得到的频域信号，f_i表示频域信号Y(f_i)的频率，i＝1,2,...,N。

进一步地，所述步骤S2包括以下子步骤：

S201.对于频域语音信号Y(f)中任一频域信号Y(f_i)，计算其声压级SPL(f_i)：

SPL(f_i)＝PN+10*log₁₀Y²(f_i)，i＝1,2,...,N

其中PN＝90.306；SPL(f_i)与PN的单位均为dB；

S202.重复步骤S201,计算频域语音信号Y(f)中各个频域信号Y(f₁),Y(f₂),...,Y(f_N)的声压级SPL(f₁),SPL(f₂),...,SPL(f_N)，即频域语音信号Y(f)的声压级SPL(f)为：

SPL(f)＝[SPL(f₁),SPL(f₂),...,SPL(f_N)]；

S203.对于频域语音信号Y(f)中任一频域信号Y(f_i)，计算其绝对听觉阈值ATH(f_i)：

其中，ATH(f_i)的单位为dB，i＝1,2,...,N；

S204.重复步骤S203，计算频域语音信号Y(f)中各个频域信号Y(f₁),Y(f₂),...,Y(f_N)的绝对听觉阈值ATH(f₁),ATH(f₂),...,ATH(f_N)，即频域语音信号Y(f)的绝对听觉阈值ATH(f)为：

ATH(f)＝[ATH(f₁),ATH(f₂),...,ATH(f_N)]；

S205.在频域语音信号Y(f)＝[Y(f₁),Y(f₂),...,Y(f_N)]中，将频率f_i的声压级SPL(f_i)与绝对听觉阈值ATH(f_i)进行比较，如果SPL(f_i)低于ATH(f_i)，则将频率f_i所对应的频域信号Y(f_i)置为0，得到长度为N稀疏度为的特征语音信号其中其中稀疏度是指信号中非零元素的个数。

进一步地，所述特征语音增强网络模型FaeNet的输入为：带噪语音信号经步骤S1和S2处理后得到的带噪特征语音信号特征语音增强网络模型FaeNet的增强目标为：纯净语音信号经步骤S1和S2处理后得到纯净特征语音信号

进一步地，所述特征语音增强网络模型FaeNet包括一个输入层、L个隐藏层和一个输出层；其中L≥2；输入层节点数为N，隐藏层节点数为N_l,l＝1,2,…,L；输出层节点数为N；所述特征语音增强网络模型FaeNet的激活函数采用sigmoid函数、tanh函数、ReLU函数、ELU函数或PReLU函数；所述特征语音增强网络模型FaeNet的损失函数采用均方误差(MeanSquare Erro，MSE)、短时可懂度(Short Time Objective Intelligibility，STOI)和主观语音质量评分(Perceptual Evaluation of Speech Quality，PESQ)。

进一步地，所述步骤S4包括以下子步骤：

S401.将带噪特征语音信号作为特征语音增强网络模型FaeNet的输入，得到特征语音增强网络模型FaeNet的输出的估计值将纯净特征语音信号作为特征语音增强网络模型FaeNet的增强目标；

S402.根据均方误差、短时可懂度分值和主观语音质量评分三种损失函数对特征语音增强网络模型FaeNet的参数进行调整；具体地，所述步骤S402包括：

计算均方误差，调整网络参数，使获得的均方误差最小；其中，均方误差是指输出信号与目标信号差的平方的期望；

将输出音频以目标音频为标准进行打分，得到短时可懂度分值，调整网络参数，使获得的分值趋近于1分，其中，短时可懂度是指语音的可懂度，即语音内容是否可以被人听懂，短时可懂度分值的最高分值为1分，最低分值为0分；

将输出音频以目标音频为标准进行主观语音质量评价，得到主观语音质量评分，调整网络参数，使获得的主观语音质量评分趋近于4.5分，其中，主观语音质量评分是指语音的质量，反映语音感知的清晰度，主观语音质量评分的最高分值为4.5分，最低分值为-0.5分。

S403.获取不同的带噪语音信号和对应的纯净语音信号，按照步骤S1～S2进行处理，得到对应的带噪特征语音信号和纯净特征语音信号，并利用得到的信号再次进行步骤S401～S402；

S404.反复执行步骤S403以实现对特征语音增强网络模型FaeNet的训练；直到估计值收敛至纯净特征语音信号

S405.记录此时特征语音增强网络模型FaeNet的参数，将该参数对应的模型作为成熟的特征语音增强网络模型。

进一步地，所述步骤S5包括：

将待增强的时域音频信号按照步骤S1～S2进行处理后，输入成熟的特征语音增强网络模型，模型输出的语音信号即为增强后的语音信号。

本发明的有益效果是：本发明利用绝对听觉阈值对语音信号进行声学特征处理，突出语音信号特征，在不损失输出音频的可懂度和清晰度的情况下，降低网络输入语音信号的数据量，减少网络输入参数，提高网络训练速率；并在语音可懂度和清晰度相当的情况下，降低网络复杂度。

附图说明

图1为本发明的方法流程图；

图2为实施例中FaeNet模型的训练原理示意图。

具体实施方式

下面结合附图进一步详细描述本发明的技术方案，但本发明的保护范围不局限于以下所述。

如图1所示，一种基于绝对听觉阈值的深度学习语音增强方法，包括以下步骤：

S1.对输入的时域音频信号进行预处理，得到频域语音信号；

其中，所述的时域音频信号包括带噪语音信号和纯净语音信号，其中带噪语音信号由纯净语音信号和噪声信号混合而成。所述的纯净语音信号和噪声信号来自TIMIT语料库、中国科学院自动化语音库以及采集的语音构成的语音库，达到更能泛化的目的。

具体地，在本申请的实施例中，所述步骤S1包括以下子步骤：

y(t)＝[y(t₁),y(t₂),...,y(t_N)]；

Y(f)＝[Y(f₁),Y(f₂),...,Y(f_N)]；

S2.对频域语音信号进行声学特征处理，得到特征语音信号；具体地，在本申请的实施例中所述步骤S2包括以下子步骤：

SPL(f_i)＝PN+10*log₁₀Y²(f_i)，i＝1,2,...,N

其中PN＝90.306；SPL(f_i)与PN的单位均为dB；

SPL(f)＝[SPL(f₁),SPL(f₂),...,SPL(f_N)]；

其中，ATH(f_i)的单位为dB，i＝1,2,...,N；

ATH(f)＝[ATH(f₁),ATH(f₂),...,ATH(f_N)]；

在本申请的实施例中，设：

f＝[1625,1640.625,1656.25,1671.875,1687.5,1703.125,1718.75,1734.375,1750,1765.625]，Y(f)＝10-⁴×[0.4760,0.6418,0.3037,-0.1495,-0.4086,0.5358,-0.4934,0.4026,0.2771,0.2385]，

可得：

SPL(f)＝[3.8581,6.4540,-0.0451,-6.2012,2.5320,4.8861,4.1700,2.4035,-0.8413,-2.1442]

在此基础上，

ATH(f)＝[1.2680,1.2112,1.1537,1.0958,1.0374,0.9784,0.9188,0.8587,0.7980,0.7367]；

在f_i＝1656.25,1671.875,1750,1765.625处，SPL(f_i)＜ATH(f_i)，故将这些f_i所对应的频域信号Y(f_i)置为0，即得到特征语音信号：

S3.基于深度神经网络，构建特征语音增强网络模型FaeNet；模型的输入为带噪语音信号经步骤S1和S2处理后得到的带噪特征语音信号模型的增强目标为纯净语音信号经步骤S1和S2处理后得到纯净特征语音信号

在本申请的实施例中，所述特征语音增强网络模型FaeNet包括一个输入层、L个隐藏层和一个输出层；其中L≥2；输入层节点数为N，隐藏层节点数为N_l,l＝1,2,…,L；输出层节点数为N；所述特征语音增强网络模型FaeNet的激活函数采用sigmoid函数、tanh函数、ReLU函数、ELU函数或PReLU函数；所述特征语音增强网络模型FaeNet的损失函数采用均方误差(Mean Square Erro，MSE)、短时可懂度(Short Time Objective Intelligibility，STOI)和主观语音质量评分(Perceptual Evaluation of Speech Quality，PESQ)。

S4.对特征语音增强网络模型FaeNet进行离线训练，得到成熟的特征语音增强网络模型；具体地，在本申请的实施例中，所述步骤S4包括：

S401.如图2所示，将带噪特征语音信号作为特征语音增强网络模型FaeNet的输入，得到特征语音增强网络模型FaeNet的输出的估计值将纯净特征语音信号作为特征语音增强网络模型FaeNet的增强目标；

S402.根据均方误差、短时可懂度分值和主观语音质量评分三种损失函数对特征语音增强网络模型FaeNet的参数进行调整；该实施例中，所述步骤S402包括：

S5.利用成熟的特征语音增强网络模型进行在线语音增强。具体地，所述步骤S5包括：

与直接将带噪语音作为输入进行训练的语音增强网络进行对比，本发明方案对网络输入语音信号进行声学特征处理，突出语音信号特征，降低网络输入语音信号的数据量，可有效提高深度神经网络的训练速度，改善增强语音的可懂度和清晰度；并在语音可懂度和清晰度相当的情况下，降低网络复杂度。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的实施方法，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种基于绝对听觉阈值的深度学习语音增强方法，其特征在于：包括以下步骤：

S1.对输入的时域音频信号进行预处理，得到频域语音信号；

S2.对频域语音信号进行声学特征处理，得到特征语音信号；

S3.基于深度神经网络，构建特征语音增强网络模型FaeNet；

S5.利用成熟的特征语音增强网络模型进行在线语音增强。

2.根据权利要求1所述的一种基于绝对听觉阈值的深度学习语音增强方法，其特征在于：所述步骤S1包括以下子步骤：

y(t)＝[y(t₁),y(t₂),...,y(t_N)]；

Y(f)＝[Y(f₁),Y(f₂),...,Y(f_N)]；

3.根据权利要求1所述的一种基于绝对听觉阈值的深度学习语音增强方法，其特征在于：所述步骤S2包括以下子步骤：

SPL(f_i)＝PN+10*log₁₀Y²(f_i)，i＝1,2,...,N

其中PN＝90.306；SPL(f_i)与PN的单位均为dB；

SPL(f)＝[SPL(f₁),SPL(f₂),...,SPL(f_N)]；

其中，ATH(f_i)的单位为dB，i＝1,2,...,N；

ATH(f)＝[ATH(f₁),ATH(f₂),...,ATH(f_N)]；

4.根据权利要求1所述的一种基于绝对听觉阈值的深度学习语音增强方法，其特征在于：步骤S1中所述的时域音频信号包括带噪语音信号和纯净语音信号，其中带噪语音信号由纯净语音信号和噪声信号混合而成。

5.根据权利要求1所述的一种基于绝对听觉阈值的深度学习语音增强方法，其特征在于：所述特征语音增强网络模型FaeNet的输入为：带噪语音信号经步骤S1和S2处理后得到的带噪特征语音信号特征语音增强网络模型FaeNet的增强目标为：纯净语音信号经步骤S1和S2处理后得到纯净特征语音信号

6.根据权利要求1所述的一种基于绝对听觉阈值的深度学习语音增强方法，其特征在于：所述特征语音增强网络模型FaeNet包括一个输入层、L个隐藏层和一个输出层；其中L≥2；输入层节点数为N，隐藏层节点数为N_l,l＝1,2,…,L；输出层节点数为N；所述特征语音增强网络模型FaeNet的激活函数采用sigmoid函数、tanh函数、ReLU函数、ELU函数或PReLU函数；所述特征语音增强网络模型FaeNet的损失函数采用均方误差、短时可懂度和主观语音质量评分。

7.根据权利要求1所述的一种基于绝对听觉阈值的深度学习语音增强方法，其特征在于：所述步骤S4包括以下子步骤：

S402.根据均方误差、短时可懂度分值和主观语音质量评分三种损失函数对特征语音增强网络模型FaeNet的参数进行调整；

8.根据权利要求7所述的一种基于绝对听觉阈值的深度学习语音增强方法，其特征在于：所述步骤S402包括：

9.根据权利要求1所述的一种基于绝对听觉阈值的深度学习语音增强方法，其特征在于：所述步骤S5包括：