CN112634926A

CN112634926A - 一种基于卷积神经网络的短波信道语音抗衰落辅助增强方法

Info

Publication number: CN112634926A
Application number: CN202011328103.2A
Authority: CN
Inventors: 陈延涛; 董彬虹; 张晓雪; 蔡沅沅; 李�昊
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-11-24
Filing date: 2020-11-24
Publication date: 2021-04-09
Anticipated expiration: 2040-11-24
Also published as: CN112634926B

Abstract

该发明公开了一种基于卷积神经网络的短波信道语音抗衰落辅助增强方法，属于通信技术领域，特别是抗短波衰落的语音增强辅助方法。首先定义发明所适用的短波语音通信模型。发射端获得语音信号样本后，会使用现有的语音增强技术消除背景环境噪声，然后进行SSB调制，并上变频到短波频段发射，发射信号通过短波信道到达远端的接收机，在进行下变频和SSB解调后执行接收信号语音增强，从而实现本发明的发明目的。本发明抗衰落卷积神经网络可用于辅助大部分基于语音特征提取的语音增强算法，进一步提高短波接收语音信号的质量，例如可以与背景技术中阐述的谱减法，基于统计模型的方法和NMF算法等相结合。

Description

一种基于卷积神经网络的短波信道语音抗衰落辅助增强方法

技术领域

本发明属于通信技术领域，特别是抗短波衰落的语音增强辅助方法。

背景技术

无线短波信道语音通信是一种常见的通信手段，在紧急通信、军事通信以及无线电通信中广泛使用。通过电离层短波信道可以以较低的成本进行长距离的无线通信，因此短波通信具有低成本和高灵活性的特点。但由于短波信道带宽较低，语音信号往往在进行模拟单边带(Single-side band,SSB)调制后以模拟信号的方式发送。短波信道具有快速变化、频率选择性的特点，以及信号经过长距离传输后的大尺度能量损耗，接收到的短波语音信号质量往往较差，严重影响听觉舒适度。因此，需要对短波语音接收信号进行增强处理，以得到高质量的语音信号。

语音增强是语音信号处理的重要环节，其主要任务是移除或者削弱噪声语音信号中的背景噪声，以提高语音信号的质量和可懂度；现有的语音增强技术通常假设信道是理想的，例如谱减法，基于统计模型的方法和非负矩阵分解(Nonnegative matrixfactorization，NMF)算法等，但在电离层短波信道环境下这往往无法满足，尤其是当深衰落发生时，语音信号会因为信噪比过低，被淹没在噪声中而被增强算法完全清除，因此需要消除信道的影响以取得较好的增强效果。

目前，在短波语音通信的语音增强技术通常关注多路接收信号的分集合并，以及对多普勒频偏的修正。对于单路接收语音信号的增强处理研究较少，倾向于直接采用现有的语音增强方法，因此对单路接收语音信号的改善有限。

发明内容

本发明针对背景技术的缺陷，创造性地提出了一种基于卷积神经网络的抗衰落方法用于辅助语音增强，引入深度学习完成衰落补偿，以尽可能移除短波信道的影响，从而实现更为有效的短波语音增强。

首先定义发明所适用的短波语音通信模型。发射端获得语音信号样本后，会使用现有的语音增强技术消除背景环境噪声，然后进行SSB调制，并上变频到短波频段发射，发射信号通过短波信道到达远端的接收机，在进行下变频和SSB解调后执行接收信号语音增强，从而实现本发明的发明目的。

本发明技术方案为一种基于卷积神经网络的短波信道语音抗衰落辅助增强方法，该方法包括神经网络训练阶段(步骤1)和语音增强阶段(步骤2～5)；

其中神经网络训练阶段的具体方法为：

步骤1：通过语音数据集x^train构造含有信道衰落的短波语音数据集

和含噪语音数据集

其中，h^train表示衰落短波信道，“*”表示卷积，n^train为指定信噪比的加性噪声；将得到的短波语音数据集

和含噪语音数据集

分别经过短时傅里叶变换进行特征提取，获得短波语音信号的幅度谱数据集

和含噪语音信号幅度谱数据集

将

作为输入信号，

作为目标，进行卷积神经网络训练，最终获得具有抗衰落功能的卷积神经网络模型Anti-fading Net，由此完成训练；

所述语音增强阶段的具体方法为：

步骤2：接收机接收到短波信号后进行下变频和模拟单边带解调后，获取待增强的接收语音信号y^test，对y^test进行短时傅里叶变换，然后提取其相位信息

和幅度谱

步骤3：使用步骤1得到的抗衰落模型Anti-fading Net处理步骤2得到的待增强短波语音信号幅度谱

以移除信道衰落的影响，从而获得含噪语音信号幅度谱

步骤4：将步骤3获得的含噪语音信号幅度谱

进行降噪处理，使用OMLSA降噪算法，计算得出增益函数G，并使用该增益函数对

进行降噪处理：

从而获得降噪后的语音信号幅度谱|X^test|；

步骤5：将步骤4所得的降噪后语音信号幅度谱|X^test|结合步骤2所得的短波语音信号相位信息

对信号重构，从而获得最终增强后的语音信息|x^test|，由此完成短波语音增强。

进一步地，所述使用的卷积神经网络包含4个卷积层和1个全连接层，使用连续的11帧幅度谱作为输入层的输入特征图，使用第6帧纯净语音的幅度谱作为目标；所述4层卷积层的参数表示为{卷积核大小,卷积层通道数,(卷积横向步长,卷积纵向步长)}，前3层参数具体表示为{(5×1),64,(2,1)}，第4层卷积层参数具体为{(5×1),192,(2,1)}；卷积层的输出特征图表示为{特征图尺寸×特征图数量×训练批次大小}，四层卷积层依次具体表示为{65×64×200}，{33×64×200}，{17×64×200}和{9×192×200}；所述全连接层的神经元数目为1024，使用PReLU作为激活函数。

本发明的主要特点在于：第一，提出将抗信道衰落模块用于辅助实现短波语音增强，移除了信道对语音信号的影响，同时将该模块放在降噪模块之前，是为了避免在降噪过程中，由于短波信道深衰落导致噪声淹没信号，从而使改信号被降噪算法完全清除的损失；第二，提出使用神经网络进行抗衰落处理，并根据抗衰落的性能要求和参数特征，设计出基于映射的卷积神经网络，并移除池化层，通过连续使用卷积层实现数据压缩和特征提取，同时只保留一个全连接层以加快训练速度；第三，本发明的抗衰落卷积神经网络可用于辅助大部分基于语音特征提取的语音增强算法，进一步提高短波接收语音信号的质量，例如可以与背景技术中阐述的谱减法，基于统计模型的方法和NMF算法等相结合。

附图说明

图1为本发明适用的短波语音通信模型的简化框图；

图2为本发明在接收端的语音增强处理流程图；

图3为本发明所用卷积神经网络结构框架。

具体实施方式

下面结合附图和实施例，详述本发明的技术方案。但不应将此理解为本发明上述主体的范围仅限于以下实施例，凡基于本发明内容所实现的技术均属于本发明的范围。

数据集和仿真参数设置如下：

本发明实施例采用TIMIT数据集对神经网络进行训练和测试，该数据集包含了由630名发音人员构成的6300条音频。选择其中的4620条音频作为训练数据x^train，另外1680条作为测试数据x^test。

训练数据所选短波信道为ITU-R F.1487中纬度干扰信道；指定AWGN噪声SNR为-5dB,-4dB,-3dB,-1dB和0dB，每个SNR下的音频数目为1500，即总共9000条音频用于训练。

测试数据所选短波信道也为上述训练数据采用瑞利信道，指定AWGN噪声SNR为0dB,5dB和10dB。

所有音频数据采样率为16kHz，使用Hamming windows进行加窗分帧操作，帧长和帧移分别为256和128样本。

本发明实施例降噪模块采用经典的最优修正对数谱估计(optimally-modifedlog-spectral amplitude，OMLSA)非监督算法。

评价指标：语音质量感知指标(PESQ，Perceptual evaluation of speechquality)，分数越高，表示语音质量越好。

具体实施例包括以下步骤：

步骤1：将上述TIMIT语音数据集x^train构造含有信道衰落的短波语音数据集

和含噪语音数据集

其中n^train为指定信噪比的加性噪声，“*”表示卷积。从而获得9000条总时长约为10小时的含有信道衰落的短波语音

和含噪语音

短波语音数据集

和含噪语音数据集

经过短时傅里叶变换(Short time Fourier transform，STFT)进行特征提取。特征提取获得的短波语音信号幅度谱数据集

作为输入信号，含噪语音信号幅度谱数据集

作为目标，使用adam optimizer以1e-5的学习率对卷积神经网络模型训练，训练epochs数目固定为45，使用均方误差(MSE)作为目标函数。最终获得具有抗衰落功能的卷积神经网络模型Anti-fading Net，由此完成训练，转入步骤2。

步骤2：将上述TIMIT语音数据集测试语音经过所设短波信道，添加指定信噪比AWGN噪声，获取到待增强的接收语音信号y^test

y^test＝h^test*x^test+n^test

其中h^test为未在训练集中出现的测试信道。将y^test做STFT进行特征提取获取其相位信息

和幅度谱

转入步骤3。

步骤3：将步骤1所得的抗衰落卷积神经网络模型Anti-fading Net处理步骤2获得的待增强短波语音信号幅度谱

以移除信道衰落的影响，从而获得只含噪声的语音信号幅度谱

转入步骤4。

步骤4：将步骤3获得的只含噪声的语音信号幅度谱

经过OMLSA降噪模块进行处理，即可获得降噪后的语音信号幅度谱|X^test|，转入步骤5。

与本发明的方法对比的有：短波语音不经过增强处理(unprocessed)，只经过OMLSA降噪模块(OMLSA)，以及本发明使用抗衰落卷积神经网络(AF-CNN)辅助OMLAS降噪模块(OMLSA)实现语音增强。如下表1所示，为不同模型在不同噪声上对于PESQ指标的测试结果。

表1

实验对比结果表示，使用了基于卷积神经网络的抗衰落模块(AF-CNN)辅助语音增强后，语音质量有了较为显著的提升。

Claims

1.一种基于卷积神经网络的短波信道语音抗衰落辅助增强方法，该方法包括神经网络训练阶段和语音增强阶段；

其中神经网络训练阶段的具体方法为：

和含噪语音数据集

和含噪语音数据集

和含噪语音信号幅度谱数据集

将

作为输入信号，

所述语音增强阶段的具体方法为：

和幅度谱

以移除信道衰落的影响，从而获得含噪语音信号幅度谱

步骤4：将步骤3获得的含噪语音信号幅度谱

进行降噪处理：

从而获得降噪后的语音信号幅度谱|X^test|；

2.如权利要求1所述的一种基于卷积神经网络的短波信道语音抗衰落辅助增强方法，其特征在于，所述使用的卷积神经网络包含4个卷积层和1个全连接层，使用连续的11帧幅度谱作为输入层的输入特征图，使用第6帧纯净语音的幅度谱作为目标；所述4层卷积层的参数表示为{卷积核大小,卷积层通道数,(卷积横向步长,卷积纵向步长)}，前3层参数具体表示为{(5×1),64,(2,1)}，第4层卷积层参数具体为{(5×1),192,(2,1)}；卷积层的输出特征图表示为{特征图尺寸×特征图数量×训练批次大小}，四层卷积层依次具体表示为{65×64×200}，{33×64×200}，{17×64×200}和{9×192×200}；所述全连接层的神经元数目为1024，使用PReLU作为激活函数。