CN112634927B

CN112634927B - 一种短波信道语音增强方法

Info

Publication number: CN112634927B
Application number: CN202011404180.1A
Authority: CN
Inventors: 陈延涛; 董彬虹; 张晓雪; 韩耀华; 刘天昊
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-12-03
Filing date: 2020-12-03
Publication date: 2022-07-29
Anticipated expiration: 2040-12-03
Also published as: CN112634927A

Abstract

该发明公开了一种短波信道语音增强方法，属于通信技术领域。本发明提出将神经网络应用于短波通信语音降噪模块，并根据Anti‑fading Net和Denoising Net的性能需求与特点，选择了相同的基于映射的卷积神经网络，能取得更好的噪声抑制效果；将卷积神经网络降噪模型Denoising Net与现有的经典非监督语音增强算法OMLSA结合，以等增益合并的方式，保留两种算法降噪的优势，从而提高单独使用Denoising Net或OMLSA算法的降噪语音质量；第三，本发明通过堆叠两个结构简单的卷积神经网络，取得了比一般的复杂结构神经网络更好的降噪效果。

Description

一种短波信道语音增强方法

技术领域

本发明属于通信技术领域，涉及一种神经网络结合非监督算法的短波语音增强方法。

背景技术

短波通信通过电离层实现远距离通信，是应急和军事通信不可或缺的最后通信手段，同时由于其通信设备的低成本和高灵活性也深受业余无线电爱好者的欢迎。由于电离层的时变特性，短波实时可通频段很窄，语音信号通常采用模拟单边带(Single-sideband,SSB)调制方式，经过长距离传输后接收到的语音信号质量往往较差，严重影响听觉舒适度；由于SSB信号无法采用数字信号处理的方法对抗短波信道传输中的衰落、噪声，因此只有对短波接收语音进行增强处理，才能得到高质量的语音信号。

语音增强是语音信号处理的重要环节，其主要任务是移除、削弱语音信号中的背景噪声，以提高语音信号的质量和可懂度。早期的语音增强算法主要以非监督学习算法为主，包括谱减法，非负矩阵分解(Nonnegative matrix factorization，NMF)算法以及基于统计模型的方法等，这些算法在大多数环境下都能够发挥一定的作用，具有较好的泛化性能，但难以处理性质与算法假设条件不匹配的噪声以及非平稳环境下的噪声。此外，语音增强技术通常假设信道是理想的，但在电离层短波信道环境下这种假设是不成立的，需要通过信道均衡以消除信道的影响，从而避免语音信号因信噪比过低，而淹没在噪声中被增强算法清除的情况发生。

近年来，随着深度学习的快速发展和广泛运用，基于深度学习的语音增强方法成为语音增强的主要研究方向，这类方法主要有基于掩蔽、基于映射以及端到端三类，基于映射的方法在低信噪比下比较有效，而基于掩蔽的方法在高信噪比下性能更佳，端到端的方法似乎更有发展潜力，但其计算量更大，并且往往需要复杂的模型结构。

发明内容

本发明针对背景技术的缺陷，引入深度学习完成噪声抑制和信道衰落补偿，提出了一种新型的神经网络结合非监督算法的短波信道语音增强方法。使用一个神经网络执行抗衰落处理以移除短波信道对语音信号的影响，使用另一个神经网络结合非监督增强算法执行噪声抑制处理以尽可能估计出发送的纯净语音信号。

本发明适用的短波语音通信的简化框图如图1所示。发射端通过麦克风获得语音信号后，使用现有的语音增强技术消除背景环境噪声，然后采用SSB调制并上变频到短波频段发射，发射信号通过电离层短波信道到达发射机，发射机接收到信号后，进行下变频和SSB解调后，执行本发明所提语音增强模块，最后得到增强后的语音信号。

本发明技术方案为一种短波信道语音增强方法，该方法包括神经网络训练阶段(步骤1～3)，和语音增强阶段(步骤4～9)；所述步骤神经网络训练阶段包括如下步骤：

步骤1：由纯净语音数据集x^train构造含有信道衰落的短波语音数据集

和含噪语音数据集

其中，h^train表示衰落短波信道，x^train表示纯净语音数据集，n^train为指定信噪比的加性噪声，“*”表示卷积；将纯净语音数据集x^train、衰落短波语音数据集

和含噪语音数据集

经过短时傅里叶变换(Short time Fourier transform，STFT)进行特征提取，获得相应语音信号的幅度谱数据集|X^train|、

和

转入步骤2；

步骤2：训练衰落补偿卷积神经网络模型(Anti-fading Net)，将步骤1所得的衰落短波语音幅度谱数据集

作为输入信号，将含噪语音幅度谱数据集

作为目标，进行卷积神经网络训练，最终获得具有抗衰落神经网络模型Anti-fading Net，转入步骤3；

步骤3：训练噪声抑制卷积神经网络模型(Denoising Net)，将步骤1所得的含噪语音幅度谱数据集

作为输入信号，纯净语音幅度谱数据集|X^train|作为目标，进行卷积神经网络训练，最终获得具有噪声抑制神经网络模型Denoising Net，转入步骤4；

所述语音增强阶段包括如下步骤：

步骤4：接收机接收到短波信号后进行下变频和SSB解调后，获得待增强的接收语音y^test，对y^test进行短时傅里叶变换并提取其相位信息

和幅度谱

转入步骤5；

步骤5：使用步骤2获得的抗衰落神经网络模型Anti-fading Net处理步骤4得到的待增强语音信号幅度谱

以移除短波信道衰落的影响，从而获得均衡后的语音信号幅度谱

转入步骤6；

步骤6：使用最优修正对数谱估计(optimally-modifed log-spectralamplitude，OMLSA)非监督算法处理步骤5所得的语音信号幅度谱

获得该方法增强的语音信号幅度谱

转入步骤7；

步骤7：使用步骤3获得的噪声抑制神经网络模型Denoising Net对步骤5所得的语音信号幅度谱

获得基于卷积神经网络增强的语音信号幅度谱

转入步骤8；

步骤8：将步骤6基于最优修正对数谱估计非监督算法获得的增强语音信号幅度谱

和步骤7基于卷积神经网络获得的增强语音信号幅度谱

等增益合并，获得本发明方法增强后的短波语音信号幅度谱|X^test|；即

转入步骤9；

步骤9：将步骤8获得的增强后语音信号幅度谱|X^test|结合步骤4所得的短波语音信号相位信息

对信号重构，从而获得最终增强后的语音信号|x^test|，完成短波语音增强。

进一步地，上述使用的抗衰落和噪声抑制卷积神经网络结构相同，输入和目标不同；两者都包含4个卷积层和1个全连接层，使用连续的11帧幅度谱作为输入层的输入特征图，使用第6帧语音的幅度谱作为目标。

进一步地，所述4层卷积层的参数表示为{卷积核大小,卷积层通道数,卷积步长}，前3层参数具体表示为{(5×1),64,(2,1)}，第4层卷积层参数具体为{(5×1),192,(2,1)}；4层卷积层的输出特征图表示为(特征图尺寸×特征图数量×训练批次(Batch)大小)，依次具体表示为(65×64×200)，(33×64×200)，(17×64×200)和(9×192×200)；所述全连接层的神经元数目为1024，使用PReLU作为激活函数。

本发明的主要特点在于：第一，创新性地提出将神经网络应用于短波通信语音降噪模块，并根据Anti-fading Net和Denoising Net的性能需求与特点，选择了相同的基于映射的卷积神经网络，能取得更好的噪声抑制效果；第二，创新性地将卷积神经网络降噪模型Denoising Net与现有的经典非监督语音增强算法OMLSA结合，以等增益合并的方式，保留两种算法降噪的优势，从而提高单独使用Denoising Net或OMLSA算法的降噪语音质量；第三，本发明通过堆叠两个结构简单的卷积神经网络，取得了比一般的复杂结构神经网络更好的降噪效果。

附图说明

图1为本发明适用的短波语音通信模型的结构框图；

图2为本发明在接收端的处理流程图，包括训练阶段和语音增强阶段；

图3为本发明方法采用的卷积神经网络结构图。

具体实施方式

下面结合附图和实施例，详述本发明的技术方案。但不应将此理解为本发明上述主体的范围仅限于以下实施例，凡基于本发明内容所实现的技术均属于本发明的范围。

数据集和仿真参数设置如下：

本发明实施例采用TIMIT数据集对神经网络进行训练和测试，该数据集包含了由630名发音人员构成的6300条音频(70％为男性)。选择其中的4620条音频作为训练数据x^train，另外1680条作为测试数据x^test。

训练数据x^train所选短波信道为ITU-R F.1487中纬度干扰信道；指定AWGN噪声SNR为-5dB,-4dB,-3dB,-1dB和0dB，每个SNR下的音频数目为1500，即总共9000条音频用于训练。

测试数据x^test所选短波信道也为上述训练数据采用瑞利信道，指定AWGN噪声SNR为0dB,5dB和10dB。

所有音频数据采样率为16kHz，使用汉明窗进行加窗分帧操作，帧长为256样本，帧移为128样本。

卷积神经网络使用adam optimizer以1e-5的学习率对模型进行训练，训练轮次使用均方误差(mean-square error,MSE)，mini-batch的大小为200。

评价指标：语音质量感知指标(PESQ，Perceptual evaluation of speechquality)，分数越高，表示语音质量越好。

具体实施例包括以下步骤：

步骤1：由将上述TIMIT语音训练数据集x^train构造含有信道衰落的短波语音数据集

和含噪语音数据集

其中n^train为指定信噪比的加性噪声，“*”表示卷积。从而获得9000条衰落短波语音数据集x^train和含噪语音数据集

将这两个处理后的数据集与纯净语音数据集经过短时傅里叶变换(Short time Fourier transform，STFT)进行特征提取，获得相应语音信号的幅度谱数据集

和|X^train|，转入步骤2.

作为输入信号，将含噪语音幅度谱数据集

作为目标，按照上述所设参数进行卷积神经网络训练，最终获得具有抗衰落功能的神经网络模型Anti-fading Net，转入步骤3.

作为输入信号，纯净语音幅度谱数据集|X^train|作为目标，按照上述所设参数进行卷积神经网络训练，最终获得具有噪声抑制功能的神经网络模型DenoisingNet，转入步骤4.

步骤4：将上述TIMIT语音测试数据集x^test经过所设短波信道，添加指定信噪比AWGN噪声，获得待增强的接收语音y^test

y^test＝h^test*x^test+n^test

对y^test进行STFT并提取其相位信息

和幅度谱

转入步骤5.

步骤5：使用步骤2获得的抗衰落神经网络模型Anti-fading Net处理步骤4得到的测试语音信号幅度谱

转入步骤6.

步骤6：使用经典的最优修正对数谱估计(optimally-modifed log-spectralamplitude，OMLSA)非监督算法处理步骤5所得的语音信号幅度谱

获得该方法增强的语音信号幅度谱

转入步骤7.

获得基于卷积神经网络增强的语音信号幅度谱

转入步骤8.

步骤8：将步骤6获得的基于OMLSA非监督算法的增强语音信号幅度谱

和步骤7获得的基于卷积神经网络的增强语音信号幅度谱

等增益合并，从而获得本发明方法增强后的短波语音信号幅度谱|X^test|。即

转入步骤9.

对信号重构，从而获得最终增强后的语音信号|x^test|，由此完成本发明的短波语音增强。

与本发明的方法对比的有：短波语音不经过增强处理(unprocessed)，使用现有非监督算法OMLSA，以及本发明所用方法(AF-CNN+NS-CNN+OMLSA)。如下表1所示，为不同方法在不同噪声上对于PESQ指标的测试结果。

表1

实验对比结果表示，本发明相比现有的非监督语音增强算法，显著提高了增强语音质量。

Claims

1.一种短波信道语音增强方法，该方法包括神经网络训练阶段，和语音增强阶段；所述神经网络训练阶段包括如下步骤：

和含噪语音数据集

和含噪语音数据集

经过短时傅里叶变换进行特征提取，获得相应语音信号的幅度谱数据集|X^train|、

和

转入步骤2；

步骤2：训练衰落补偿卷积神经网络模型，将步骤1所得的衰落短波语音幅度谱数据集

作为输入信号，将含噪语音幅度谱数据集

步骤3：训练噪声抑制卷积神经网络模型，将步骤1所得的含噪语音幅度谱数据集

所述语音增强阶段包括如下步骤：

和幅度谱

转入步骤5；

转入步骤6；

步骤6：使用最优修正对数谱估计非监督算法处理步骤5所得的语音信号幅度谱

获得该方法增强的语音信号幅度谱

转入步骤7；

获得基于卷积神经网络增强的语音信号幅度谱

转入步骤8；

和步骤7基于卷积神经网络获得的增强语音信号幅度谱

转入步骤9；

2.如权利要求1所述的一种短波信道语音增强方法，其特征在于，所述抗衰落神经网络模型Anti-fading Net和噪声抑制神经网络模型Denoising Net的结构相同；两者都包含4个卷积层和1个全连接层，使用连续的11帧幅度谱作为输入层的输入特征图，使用第6帧语音的幅度谱作为目标。

3.如权利要求2所述的一种短波信道语音增强方法，其特征在于，所述4个卷积层的参数表示为{卷积核大小,卷积层通道数,卷积步长}，前3层参数具体表示为{(5×1),64,(2,1)}，第4个卷积层参数具体为{(5×1),192,(2,1)}；4层卷积层的输出特征图表示为(特征图尺寸×特征图数量×训练批次大小)，依次具体表示为(65×64×200)，(33×64×200)，(17×64×200)和(9×192×200)；所述全连接层的神经元数目为1024，使用PReLU作为激活函数。