CN114842864A

CN114842864A - 一种基于神经网络的短波信道信号分集合并方法

Info

Publication number: CN114842864A
Application number: CN202210409128.8A
Authority: CN
Inventors: 刘翠婷; 陈延涛; 郑小莲; 何坤阳; 董彬虹
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-04-19
Filing date: 2022-04-19
Publication date: 2022-08-02
Anticipated expiration: 2042-04-19
Also published as: CN114842864B

Abstract

该发明公开了一种基于神经网络的短波信道信号分集合并方法，属于信号处理领域。本发明提出将卷积神经网络和注意力机制应用于短波语音信号分集合并方法中，通过卷积神经网络对信息进行压缩和提取，再使用注意力机制对卷积神经网络输出的信息进行逐帧处理，得到每帧对应的权重，使得合并权重能够根据输入信号的特征信息进行动态分配，不需要使用复杂的信噪比估计算法，从而避免了估计信噪比过程中产生的误差；同时本发明能够应用于各种短波分集合并场景，无需对合并方法进行选择，所取得的效果优于传统的分集合并方法。

Description

一种基于神经网络的短波信道信号分集合并方法

技术领域

本发明属于通信领域，涉及一种基于神经网络的短波信道信号分集合并方法。

背景技术

无线短波信道通信是一种常见的通信手段，在紧急通信、军事通信以及无线电通信中广泛使用。通过电离层短波信道可以以较低的成本进行长距离的无线通信，因此短波通信具有低成本和高灵活性的特点。但由于短波信道带宽较低，信号经过调制以及上变频后以模拟信号的方式发送，而短波信道具有快速变化、频率选择性的特点，经过长距离的传输后接收到的短波信号质量往往较差，严重影响信号的特征信息。因此，可以利用多路分集接收技术来提高通信系统的接收质量和性能。

多路分集接收技术是两个或两个以上的接收端采用相同或不同的接收方法对同一信号进行接收，利用多路衰落独立的接收信号，对其进行处理，用以提高通信的抗衰落能力。传统的分集合并方式主要包括等增益合并，选择合并和最大比合并这三种方法，等增益合并性能较好且易于实现，但当各支路接收信号之间的质量相差较大时，性能明显下降；选择合并只利用其中一路信号的信息，舍弃了其它支路的有效信息，对信息的利用率较低；最大比合并性能最好但复杂度较高，需要先估计出较为准确的信噪比，这在无先验信息的短波接收语音信号中存在不可避免的误差，且无法确保当前段在每一个时间点均符合此段计算出的信噪比，故合并性能仍有提升空间。

近年来，随着深度学习的快速发展和广泛应用，基于深度学习的信号增强方法成为主要研究方向。目前，信号增强技术通常关注单路接收信号的增强处理，对于多路接收信号的分集合并方法研究较少，因此对多路接收信号的改善有限。

发明内容

本发明针对背景技术的缺陷，创造性地提出了一种基于卷积神经网络和注意力机制的分集合并方法，用于辅助信号增强，引入深度学习完成多路接收信号的分集合并，提高多路短波信号的合并性能。

首先确定发明所适用的多路短波信号通信模型。以短波语音信号为例，发射端获得语音信号样本后，会使用现有的语音增强技术消除背景环境噪声，然后进行SSB调制，并上变频到短波频段发射，发射信号通过短波信道到达远端的接收机，接收机收到多路独立的短波语音信号，对多路信号分别进行下变频和SSB解调后，执行接收信号语音增强，再通过合并网络进行分集合并处理，从而实现本发明的发明目的。

本发明技术方案为一种基于神经网络的短波信道信号分集合并方法，该方法包括神经网络训练阶段和语音合并阶段；

所述神经网络训练阶段方法为：

步骤1：通过纯净语音数据集x^train构造多路含有信道衰落以及加性噪声的短波语音数据集

其中，

表示第j路独立的衰落短波信道，*表示卷积，

表示第j路独立指定信噪比的加性噪声；将得到的短波语音数据集

和纯净语音数据集x^train分别经过短时傅里叶变换进行特征提取，获得各路短波语音信号的幅度谱数据集

和纯净语音的幅度谱数据集|X^train|；将各路幅度谱数据集作为合并网络的输入信号，|X^train|作为目标，进行合并网络训练，最终获得具有分集合并功能的神经网络模型，由此完成训练；

所述语音合并阶段方法为：

步骤2：对各路短波信号进行下变频和模拟单边带解调后，再分别对各路语音信号做语音增强，对增强后的各路语音进行短时傅里叶变换，提取其特征信息，相位信息为

幅度谱分别为

步骤3：将步骤2中的幅度谱

按照通道维度进行拼接，作为步骤1中分集合并模型的输入，实现利用更多的语音信息，以此移除信道衰落的部分影响；此外，使用注意力机制结构来计算第j路幅度谱的权重w_j，首先对各路幅度谱

按照通道维度进行拼接，得到输入Y，对Y的频率维度取均值得到Y_GAP，再连续使用两个1×1卷积对Y_GAP进行处理，最终得到各路语音信号对应的合并权重

上述两个1×1卷积分别表示为

和

其中σ是取值范围为(0,1)区间内的常数；

其中，T为总帧数，H为频点维度，t表示第t帧，C_i表示输入通道总数，h表示第h个频点，b表示第b个批次，φ表示线性整流激活函数；最后根据第j路幅度谱

拼接前的通道维度大小，来获得各路语音信号对应的合并权重

步骤4：将步骤3所得各路语音信号的合并权重

分别与对应语音信号幅度谱

加权，获得分集合并后的语音幅度谱

步骤5：根据步骤3中获得的各路语音信号的合并权重

进行逐帧比较，保留当前帧权重w_jf最大的语音信号相位谱

w_jf表示第j路语音信号的第f帧的权重，再将分集合并后的语音幅度谱

对应帧的幅度谱与相位谱

相乘，从而获得最终的合并语音

由此完成两路短波语音信号分集合并。

进一步地，上述使用的神经网络模型包括5层卷积层和2层全连接层，使用每路语音信号的幅度谱作为输入层的输入特征图，使用对应纯净语音的幅度谱作为目标；所述5层卷积层的参数表示为{卷积核大小，卷积层输入通道数，卷积层输出通道数，(卷积横向步长，卷积纵向步长)}，第1层参数具体表示为{(5×1)，2，64，(2，1)}，第2层和第4层参数具体表示为{(3×1)，64，64，(2，1)}，第5层参数具体表示为{(3×1)，64，192，(2，1)}；卷积层的输出特征图表示为{特征图尺寸×特征图数量×训练批次大小}，五层卷积层依次具体表示为{65×64×200}，{33×64×200}，{17×64×200}，{9×64×200}，{5×192×200}；所述全连接层的参数表示为{输入特征数，输出特征数}，则第1层参数具体表示为{960，192}，第2层参数具体表示为{192，129}，两个全连接层之间使用PReLU作为激活函数。

本发明的主要特点在于：提出将卷积神经网络和注意力机制应用于短波语音信号分集合并方法中，通过卷积神经网络对信息进行压缩和提取，再使用注意力机制对卷积神经网络输出的信息进行逐帧处理，得到每帧对应的权重，使得合并权重能够根据输入信号的特征信息进行动态分配，不需要使用复杂的信噪比估计算法，从而避免了估计信噪比过程中产生的误差；同时本发明能够应用于各种短波分集合并场景，无需对合并方法进行选择，所取得的效果优于传统的分集合并方法。

附图说明

图1为本发明适用的短波语音通信模型的简化框图；

图2为本发明在接收端的分集合并网络处理流程图；

图3为本发明所用分集合并神经网络结构框架。

具体实施方式

下面结合附图和实施例，详述本发明的技术方案。但不应将此理解为本发明上述主体的范围仅限于以下实施例，凡基于本发明内容所实现的技术均属于本发明的范围。

数据集和仿真参数设置如下：

本发明实施例采用TIMIT数据集对分集合并网络进行训练和测试，该数据集包含了由630名发音人员构成的6300条音频(70％为男性)。选择其中的4620条音频作为训练数据x^train，另外1680条作为测试数据x^test。

训练数据x^train添加的噪声类型为短波噪声，指定噪声SNR为-5dB,-4dB,-3dB,-1dB和0dB，每个SNR下的音频数目为1500，即总共9000条音频用于训练。

测试数据x^test所选噪声类型为短波噪声，指定噪声SNR为0dB。

所有音频数据采样率为8kHz，使用汉明窗进行加窗分帧操作，帧长为256样本，帧移为128样本。

卷积神经网络使用adam优化器以1e-3的初始学习率对模型进行训练，每一个小批次(mini-batch)的大小为8，每10个训练周期(epoch)减小一半学习率。

评价指标：语音质量感知指标(Perceptual evaluation of speech quality，PESQ)，该指标的量化区间为-0.5～4.5，分数越高，表示语音质量越好。短时客观可懂度(Short-Time Objective Intelligibility,STOI)，该指标的量化区间为0～1，可使用百分比的形式表示，分数越高代表语音质量越好。

具体实施例包括以下步骤：

步骤1：将上述TIMIT语音训练数据集x^train构造两路含有信道衰落以及加性噪声的短波语音数据集

和

其中，

和

分别表示两路独立的衰落短波信道，*表示卷积，

和

表示两路独立指定信噪比的加性噪声。从而获得9000条总时长约为10小时的含有信道衰落的短波语音

和

以及纯净语音x^train，将得到的短波语音数据集

和

和纯净语音数据集x^train分别经过短时傅里叶变换进行特征提取，获得两路短波语音信号的幅度谱数据集

和

和纯净语音的幅度谱数据集|X^train|；将

和

作为合并网络的输入信号，|X^train|作为目标，进行合并网络训练，最终获得具有分集合并功能的神经网络模型，由此完成训练；

步骤2：将上述TIMIT语音数据集测试语音经过所设短波信道，添加指定信噪比AWGN噪声，获得两路待增强的接收语音信号

和

其中

和

为未在训练集中出现的测试信道。将

和

做STFT进行特征提取获得其相位信息和幅度谱信息，其中相位信息为

和

幅度谱信息为

和

转入步骤3.

步骤3：将步骤1所获得的分集合并网络模型处理步骤2所获得的待增强短波语音信息幅度谱

和

作为输入信号，实现利用更多的语音信息，以此移除信道衰落的部分影响；此外，使用注意力机制结构来计算权重w，首先对幅度谱

和

按照第2个维度进行拼接，得到输入Y，对Y的每个频率维度取均值得到Y_GAP∈R^B×C×1×T，再连续使用两个1×1卷积对Y_GAP进行处理，最终得到通道分支参数z^(CH)∈R^B×C×1×T，所述的两个卷积分别表示为

和

其中σ是取值范围为(0,1)区间内的常数。

其中，T为总帧数，H为频点维度，t表示第t帧，h表示第h个频点，b表示第b个批次，φ表示线性整流激活函数，将z^(CH)沿着第2个维度复制H次，规整后的形式为

最后根据幅度谱

和

拼接前的第2个维度的大小，来获得两路语音信号对应的合并权重w₁和w₂；

步骤4：将步骤3所得两路语音信号的每帧的合并权重w₁和w₂分别与对应语音信号幅度谱

和

相乘相加，获得分集合并后的语音幅度谱

转入步骤5.

步骤5：根据步骤3中获得的两路语音信号的每帧的合并权重w₁和w₂，进行逐帧比较，保留当前帧权重w最大的语音信号相位谱

再将分集合并后的语音幅度谱

对应帧的幅度谱与相位谱

相乘，从而获得最终的合并语音

由此完成两路短波语音信号分集合并。

与本发明的方法对比的有：。

表1

实验对比结果表示，本发明相比等增益分集合并算法，语音质量有着较为明显的提升。

Claims

1.一种基于神经网络的短波信道信号分集合并方法，该方法包括神经网络训练阶段和语音合并阶段；

所述神经网络训练阶段方法为：

其中，

表示第j路独立的衰落短波信道，*表示卷积，

所述语音合并阶段方法为：

幅度谱分别为

步骤3：将步骤2中的幅度谱

上述两个1×1卷积分别表示为

和

其中σ是取值范围为(0,1)区间内的常数；

步骤4：将步骤3所得各路语音信号的合并权重

分别与对应语音信号幅度谱

加权，获得分集合并后的语音幅度谱

步骤5：根据步骤3中获得的各路语音信号的合并权重

进行逐帧比较，保留当前帧权重w_jf最大的语音信号相位谱

对应帧的幅度谱与相位谱

相乘，从而获得最终的合并语音

由此完成两路短波语音信号分集合并。

2.如权利要求1所述的一种基于神经网络的短波信道信号分集合并方法，其特征在于，所述神经网络模型包括5层卷积层和2层全连接层，使用每路语音信号的幅度谱作为输入层的输入特征图，使用对应纯净语音的幅度谱作为目标；所述5层卷积层的参数表示为{卷积核大小，卷积层输入通道数，卷积层输出通道数，(卷积横向步长，卷积纵向步长)}，第1层参数具体表示为{(5×1)，2，64，(2，1)}，第2层和第4层参数具体表示为{(3×1)，64，64，(2，1)}，第5层参数具体表示为{(3×1)，64，192，(2，1)}；卷积层的输出特征图表示为{特征图尺寸×特征图数量×训练批次大小}，五层卷积层依次具体表示为{65×64×200}，{33×64×200}，{17×64×200}，{9×64×200}，{5×192×200}；所述全连接层的参数表示为{输入特征数，输出特征数}，则第1层参数具体表示为{960，192}，第2层参数具体表示为{192，129}，两个全连接层之间使用PReLU作为激活函数。