CN110136741B

CN110136741B - 一种基于多尺度上下文的单通道语音增强方法

Info

Publication number: CN110136741B
Application number: CN201910411692.1A
Authority: CN
Inventors: 韩纪庆; 杜志浩; 郑贵滨; 郑铁然
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2019-05-16
Filing date: 2019-05-16
Publication date: 2021-07-13
Anticipated expiration: 2039-05-16
Also published as: CN110136741A

Abstract

一种基于多尺度上下文的单通道语音增强方法，本发明涉及单通道语音增强方法。本发明是为了解决现有单通道语音增强中，带噪相位与增强频谱不匹配、语音特征和语音增强任务不匹配、以及未有效考虑语音中多尺度上下文信息的问题。过程为：步骤一、对语音进行标准化；步骤二、计算全卷积网络第一层语音特征；步骤三、计算全卷积网络第l层语音特征，l取整数；步骤四、综合多层语音特征，构成多尺度语音特征；步骤五、根据多尺度语音特征，预测纯净语音波形。本发明用于语音增强领域。

Description

一种基于多尺度上下文的单通道语音增强方法

技术领域

本发明涉及单通道语音增强方法，具体是一种直接在时域上进行的基于多尺度上下文信息的单通道语音增强方法。

背景技术

随着语音信号处理技术的迅猛发展，计算机需要处理的语音信号种类和环境也急剧增加。如何能够自动、准确的将语音从纷繁复杂的噪声环境中提取出来并进行增强，就成为一个既重要又具有挑战性的研究课题。语音增强技术一方面作为语音识别、说话人识别，以及关键词识别等语音信号处理技术的前端处理，能够显著提升这些技术对噪声的鲁棒性；另一方面能够提升噪声环境下听者主观的语音可懂度和语音质量。因此，语音增强在实际生活中具有广阔的应用前景。单通道语音增强技术是指只使用单麦克风录制的语音信号，将目标语音从噪声环境中提取并进行增强的技术。相对于多通道语音增强技术，单通道技术具有对设备要求低、实用性强的优点。

近年来，单通道语音增强被看作频域的有监督学习任务，并获得了显著进步。然而将其视为频域的有监督学习任务存在着如下问题：(1)频域上的语音增强仅对语音频谱进行增强，而语音信号是一种时域信号，还需要将增强后的频域信号转换到时域，这一转换过程中引入了带有噪声干扰的相位，这样的带噪相位与增强后的频谱不匹配，从而引入了语音畸变，进而影响了语音质量；(2)频域上的语音增强技术中，采用的语音特征多是基于人耳听觉机理的特征，并非专门为语音增强任务设计的特征，这会造成输入特征和语音增强任务的不匹配，影响增强效果；(3)语音中包含时间上不同尺度的信息，既有大尺度的语义信息，也有小尺度的语音细节纹理，目前的语音增强方法并没有很好地考虑并利用这些多尺度信息。

发明内容

本发明是为了解决现有单通道语音增强中，带噪相位与增强频谱不匹配、语音特征和语音增强任务不匹配、以及未有效考虑语音中多尺度上下文信息的问题，而提出一种基于多尺度上下文的单通道语音增强方法。

一种基于多尺度上下文的单通道语音增强方法具体过程为：

步骤一、对语音进行标准化；

步骤二、计算全卷积网络第一层语音特征；

步骤三、计算全卷积网络第l层语音特征，l取整数；

步骤四、综合多层语音特征，构成多尺度语音特征；

步骤五、根据多尺度语音特征，预测纯净语音波形。

本发明的有益效果为：

本发明省略频域与时域之间的转换，直接研究在时域上进行的基于多尺度上下文信息的单通道语音增强方法，既有理论意义又有现实意义。

本发明针对单通道语音增强，提出了一种更加直接，高效的时域语音增强方法，提高语音听觉上的质量和可懂度。

对语音的时域表示(语音波形)，采用一种全新设计的深度全卷积神经网络，利用语音的多尺度上下文信息对语音进行增强。本发明神经网络以带噪语音波形作为输入，在网络的底层直接对语音波形进行建模，并提取语音特征。随后在网络的高层，利用这些语音特征进行语音增强。这样就将语音特征的提取过程与增强模型融合到一个神经网络中，便可以同时学习增强模型和语音特征提取过程，从而避免了语音特征和语音增强任务不匹配的问题。

本发明中的神经网络以增强后的语音波形作为输出，不再根据频谱和相位合成语音。由于语音波形中既包含频谱信息也包含相位信息，这样便同时对语音的频谱和相位进行了增强，从而避免了带噪相位与增强频谱不匹配的问题。

本发明中的神经网络由多个膨胀卷积层(Dilated Convolution)堆叠而成，随着层数的加深，每一层卷积的感受野大小呈指数级增长。对于较浅的卷积层，其感受野较小更容易学习到高频信息(短时上下文)；对于较深的卷积层，其感受野较大更容易学习到低频信息(长时上下文)。最终将来自不同深度卷积层的输出汇集起来，便得到了不同尺度的上下文信息，利用这些上下文信息可以更好地进行语音增强。从而解决了多尺度上下文信息利用不足的问题。

如表1所示，对不同带噪语音信噪比进行语音可懂度、语音质量和信噪比的评价，如表1所示，在-12dB带噪语音信噪比下，时不变预测器的语音可懂度为0.49，语音质量为1.25，信噪比为1.94，时变预测器的语音可懂度为0.48，语音质量为1.29，信噪比为2.24，带噪语音的语音可懂度为0.43，语音质量为1.05，信噪比为-12.00，可见在-12dB、-6dB、0dB、6dB、12dB带噪语音信噪比下，时不变预测器和时变预测器在语音可懂度、语音质量和信噪比都优于带噪语音在语音可懂度、语音质量和信噪比。

附图说明

图1为网络中使用到的一维膨胀卷积的示意图，图中给出了某层卷积的输出单元对应的低层感受野大小，p⁽¹⁾为第一层感受野大小，p⁽²⁾为第二层感受野大小，p⁽³⁾为第三层感受野大小；

图2为全卷积网络的结构图，Conventional Conv为传统卷机层，1×1为卷积核大小，channel为通道，linear为线性激活，Dilated Conv为膨胀卷积，r为膨胀系数，pReLU为激活函数。

具体实施方式

具体实施方式一：本实施方式一种基于多尺度上下文的单通道语音增强方法具体过程为：

步骤一、对语音进行标准化；

步骤二、计算全卷积网络第一层语音特征；

步骤三、计算全卷积网络第l层语音特征，l取整数；

步骤四、综合多层语音特征，构成多尺度语音特征；

步骤五、根据多尺度语音特征，预测纯净语音波形。

具体实施方式二：本实施方式与具体实施方式一不同的是，所述步骤一中对语音进行标准化；具体过程为：

对于有N个采样点的语音片段

计算语音片段

的时域能量α：

得到时域能量α后，用时域能量α对语音片段

进行标准化，得到标准化后的语音片段S：

其中，

为长度为N的语音片段中第n个采样点，S(n)为标准化后的语音片段中第n个采样点，1≤n≤N。

在后续的处理中，如果不加特殊说明，都使用标准化后的语音片段S，而不使用原始的语音片段

其它步骤及参数与具体实施方式一相同。

具体实施方式三：本实施方式与具体实施方式一或二不同的是，所述步骤二中计算全卷积网络第一层语音特征；具体过程为：

使用膨胀系数r＝2⁰＝1的膨胀卷积核k对标准化后的语音片段S进行1维卷积操作，得到中间信号

其中，

表示全卷机网络第一层卷积后得到的中间信号，i表示其第i个采样点；*_r表示膨胀系数为r的卷积操作；c表示第c个通道，1≤c≤C，C表示每一层通道总数；q表示卷积核的下标，q∈[-m,m]∩Z，m表示卷积核的大小，Z表示整数集合；

表示膨胀卷积参数，q表示其下标；S(p)表示与膨胀卷积参数

相乘的信号中的对应采样点，p表示中间变量；

经过上述卷积之后，可以得到与标准化后的语音片段S(n)长度相同的一种中间信号

对中间信号

进行非线性变换pReLu，得到第一层的一种语音特征

其中，α_c为可学习参数，初始值为0.1；

将上述的膨胀卷积参数

分别随机初始化C次，计算得到C个中间信号

再分别进行非线性变换pReLu，得到C个语音特征

C个语音特征

称为C个通道，共同构成了第一层语音特征L⁽¹⁾。

其它步骤及参数与具体实施方式一或二相同。

具体实施方式四：本实施方式与具体实施方式一至三之一不同的是，所述步骤三中计算全卷积网络第l层语音特征，l取整数；具体过程为：

对于全卷积网络第l层网络，2≤l≤10，以l-1层网络输出的语音特征L^(l-1)作为输入，使用膨胀系数r＝2^l-1的膨胀卷积核k对语音特征L^(l-1)进行卷积操作，得到中间信号

其中，

表示全卷机网络第l层卷积后得到的中间信号的第i个采样点，

表示第l层输入的所有C个通道对应的卷积核的集合，

表示第l层输入的第u个通道对应的卷积核，q表示

的下标，

表示第l层输入的第u个通道，p表示

的下标；

将上述的膨胀卷积参数

分别随机初始化C次，并分别计算得到C个

随后分别进行非线性变换pReLu，得到C个语音特征

C个语音特征

称为C个通道，共同构成第l层的语音特征L^(l)；

依序重复执行步骤三9次，得到语音特征L⁽²⁾、L⁽³⁾、L⁽³⁾、L⁽⁴⁾、L⁽⁵⁾、L⁽⁶⁾、L⁽⁷⁾、L⁽⁸⁾、L⁽⁹⁾、L⁽¹⁰⁾，再加上L⁽¹⁾共计10种尺度的语音特征。

其它步骤及参数与具体实施方式一至三之一相同。

具体实施方式五：本实施方式与具体实施方式一至四之一不同的是，所述步骤四中综合多层语音特征，构成多尺度语音特征；具体过程为：

将语音特征L⁽⁴⁾、L⁽⁶⁾、L⁽⁸⁾、L⁽¹⁰⁾按照通道合并在一起，共得到4种不同尺度的语音特征，每种尺度C种特征，共得到4C种不同的语音特征，分别代表了不同尺度的上下文信息，一同构成了多尺度语音特征U。

其它步骤及参数与具体实施方式一至四之一相同。

具体实施方式六：本实施方式与具体实施方式一至五之一不同的是，所述步骤五中根据多尺度语音特征，预测纯净语音波形；具体过程为：

基于时不变预测器，预测纯净语音波形；过程为：

根据多尺度语音特征U，可以通过1维卷积操作预测纯净语音波形：

其中，Y(i)表示全卷积网络预测出的纯净语音波形中的第i个采样点；L^(out)(i)表示全卷积网络预测出的纯净语音波形中的第i个采样点，U_c,i表示多尺度语音特征第c个通道第i个采样点，1≤c≤4C，w_c为时不变预测器第c个通道对应的可学习权重，b_c为时不变预测器第c个通道对应的偏置；

对所有N个采样点进行预测，得到预测的纯净语音波形。

其它步骤及参数与具体实施方式一至五之一相同。

具体实施方式七：本实施方式与具体实施方式一至五之一不同的是，所述步骤五中根据多尺度语音特征，预测纯净语音波形；具体过程为：

基于时变预测器，预测纯净语音波形；过程为：

将多尺度语音特征U作为时变预测器的输入，预测每一个采样点的4C个加权系数：

其中，W为时变预测器的学习权重，b_c为时变预测器第c个通道对应的偏置，b_g为时变预测器的偏置，v、h为多尺度语音特征U中通道的下标，1≤v≤4C，1≤g≤4C；g为时变预测器学习权重W输出维度的下标，1≤g≤4C；

表示时变预测器第c个通道预测出的纯净语音波形中的第i个采样点；

使用

对4C个通道的多尺度语音特征U进行加权求和：

其中，Y(i)表示全卷积网络预测出的纯净语音波形中的第i个采样点；U_c,i表示多尺度语音特征第c个通道第i个采样点，1≤c≤4C；

从而预测出纯净语音波形的第i个采样点；

对所有N个采样点进行预测，得到预测的纯净语音波形。

其它步骤及参数与具体实施方式一至五之一相同。

采用以下实施例验证本发明的有益效果：

实施例一：

本实施例具体是按照以下步骤制备的：

对不同带噪语音信噪比进行语音可懂度、语音质量和信噪比的评价，如表1所示，在-12dB带噪语音信噪比下，时不变预测器的语音可懂度为0.49，语音质量为1.25，信噪比为1.94，时变预测器的语音可懂度为0.48，语音质量为1.29，信噪比为2.24，带噪语音的语音可懂度为0.43，语音质量为1.05，信噪比为-12.00，可见在-12dB、-6dB、0dB、6dB、12dB带噪语音信噪比下，时不变预测器和时变预测器在语音可懂度、语音质量和信噪比的值都优于带噪语音在语音可懂度、语音质量和信噪比的值。

表1

本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，本领域技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。