CN113300813B

CN113300813B - 基于注意力的针对文本的联合信源信道方法

Info

Publication number: CN113300813B
Application number: CN202110581032.5A
Authority: CN
Inventors: 陈雪晨; 刘婷
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2021-05-27
Filing date: 2021-05-27
Publication date: 2022-08-30
Anticipated expiration: 2041-05-27
Also published as: CN113300813A

Abstract

本发明公开了一种基于注意力的针对文本的联合信源信道方法，采用基于包括编码器、信道和解码器的生成器对文本进行联合信源信道编码，采用GRU来代替LSTM，计算速度更快。同时加入注意力机制，提高译码的效率和准确性。利用GAN框架，使生成模型的参数更新不是直接来自原数据样本，而是来自判别模型的反向传播。本发明中将基于GRU的单向文本译码框架作为生成模型，利用CNN作为判别模型，对生成器生成的样本进行判别。束搜索中加入点互信息，和最大似然概率一起，更准确的译码单词。在译码端，本发明采用同步双向译码的方法。同时L2R和R2L译码，利用SBAtt以及双向束搜索，实现对齐及信息的交互，即同时利用过去和未来的信息，从而降低解码的单词错误率。

Description

基于注意力的针对文本的联合信源信道方法

技术领域

本发明涉及无线通信领域，特别涉及一种基于注意力的针对文本的联合信源信道方法。

背景技术

随着计算机技术，现代通信技术和网络信息处理技术的发展，文本已经成为用户获取和传播信息的主要载体。文本数据的编码和传输也面临着巨大的挑战。一方面，在许多应用场合，都会有需要对海量的文本数据信息进行传输的问题。为了能在带宽受限的信道中传输大量信息，在传输前必须进行高效率的压缩编码。另一方面，由于无线信道的日益复杂，如何有效应对信道对文本传输的影响，也是一个亟待解决的问题。

香农分离定理指出，码长足够长时，分开信源信道编码理论上是最优的。因此传统的通信系统设计中，信源编码和信道编码通常是分开设计的。信源编码对信源进行高效的压缩以充分利用有限的信道带宽，信道编码添加冗余，提高数据传输效率，降低误码率。但是，分离定理没有考虑实际应用中的复杂性和延迟要求，忽视了实际通信系统的不完美性，将信源和信道编码分别设计优化有时并不能达到整体的最佳效果。随着现代通信技术的迅速发展，网络环境越来越复杂，分离原理的局限性就愈加明显。

因此，为了更有效，可靠的传输大量文本信息，同时应对复杂的无线信道。需要将信源编码和信道编码总体考虑，联合优化。近些年来，关于联合信源信道编码(JointSource-Channel coding，JSCC)的研究也越来越多，而深度学习作为当下研究的热点，在计算机视觉、语音识别、自然语言处理等场景下相比于比传统方法，取得了显著的性能提升。而机器翻译领域的编码-译码(encoder-decoder)模型和联合信源信道编码方法有相似之处。故基于encoder-decoder模型来实现联合信源信道是具有实际意义的。

发明内容

为了解决目前信源编码和信道编码分开设计而无法适应现有复杂网络环境的技术问题，本发明提供一种基于注意力的针对文本的联合信源信道方法。

为了实现上述技术目的，本发明的技术方案是，

一种基于注意力的针对文本的联合信源信道方法，基于包括编码器、信道和解码器的生成器对文本进行联合信源信道编码，包括以下步骤：

步骤1，首先将经过预处理的文本输入编码器：使用固定长度的嵌入向量表示词汇表中的每个单词，得到嵌入向量以作为堆叠双向门控循环单元GRU网络编码器的输入；然后通过全连接层将编码器的输出转换为低维向量并二值化；

步骤2，通过信道传播步骤1的结果，得到观测向量；

步骤3，将观测向量通过全连接层输入至基于双向神经网络JSCC框架的解码器，解码器首先使用前后向的GRU和目标语句

和

来获得前向隐藏状态和后向隐藏状态，然后输入到作为最低子层的同步双向注意网络SBAtt，并采用双向束搜索实现同时基于过去与未来的信息进行解码，接下来通过堆叠的另外两个子层来寻找与译码文本有关的源文本，最后使用线性变换和softmax激活函数来计算下一个词的概率，从而进行分类预测，得到译码文本。

所述的一种基于注意力的针对文本的联合信源信道方法，所述的生成器是通过以下步骤进行训练得到：

建立包括生成器、判别器和语句级别的字错误率WER所组成的SeqGAN模型来对生成器进行训练，在训练阶段，生成器的编码器与信道执行过程不变，但解码器为单向神经网络JSCC框架的解码器；且解码器使用GRU去初始化embedding状态，然后利用多头注意力MHAtt计算上下文注意力；对于计算当前时间步的译码状态，解码器根据上一个时间步的词向量、上下文向量及译码状态来计算；得到译码状态之后，通过Linear层和Softmax层，进行分类预测，并使用束搜索算法来确保概率最大的多个单词不被丢弃；

然后使用策略梯度训练方法将生成器得到的概率值通过判别器处理后，再回传给生成器，从而对生成器的参数进行更新，同时将判别器的评估和句子基本的WER同时作为奖励值，用来训练生成器。

所述的一种基于注意力的针对文本的联合信源信道方法，所述的判别器为CNN，在进行判别时，首先将所有输入序列和生成序列扩展到固定长度，然后利用卷积运算和激活函数得到新的特征映射，利用输入语句和生成语句的特征表示，判定得到的生成语句是真实的概率值。

所述的一种基于注意力的针对文本的联合信源信道方法，所述的步骤1中，所述的嵌入向量是采用Glove进行初始化；堆叠双向GRU是将两个单向的GRU进行叠加，以将第一个GRU的输出作为第二个GRU的输入，并将两个GRU的输出均发送至全连接层；所述的全连接层包括至少一层激活函数，且最后一层为激活函数tanh。

所述的一种基于注意力的针对文本的联合信源信道方法，所述的步骤3中，前后向的GRU均包括两层GRU，每层的尺寸为256。隐藏层维度为128。

所述的一种基于注意力的针对文本的联合信源信道方法，所述的步骤3中，目标语句

是将掩码<start>作为起始符号，将<end>作为终止符号，目标语句

是将掩码<end>作为起始符号，将<start>作为终止符号；同步双向注意网络为：

其中l表示层数，d表示解码器的自注意力，LayerNorm代表层归一化，SBAtt由h个注意头组成；s^l-1代表

即前向隐藏状态和后向隐藏状态；

其中

为：

SBDPA代表同步双向点乘注意力机制：

所述的一种基于注意力的针对文本的联合信源信道方法，采用双向束搜索实现同时基于过去与未来的信息进行解码，是使用广度优先策略来构建束搜索的搜索树，并在树的每一层，根据启发式成本对节点进行分类，然后仅留下预定数量即波束宽度的节点，留下的节点继续在下一级扩展，其他节点被切断，且一半的波束大小从前向解码，而另一半波束从后向解码，从而在每个时间步长分别从两半波束中选择最佳项，以继续同时扩展。

所述的一种基于注意力的针对文本的联合信源信道方法，所述的步骤3中，通过堆叠的另外两个子层来寻找与译码文本有关的源文本为：

其中e表示编码器-解码器的注意表示；MHAtt是多头注意，h^N是信源顶层隐藏状态h₀，FFN代表前馈神经网络。

所述的一种基于注意力的针对文本的联合信源信道方法，所述的步骤3中，使用线性变换和softmax激活函数来计算下一个词的概率为：

其中θ是从左往右和从右往左解码的共享权重，W是权重矩阵，则代价函数为：

所述的一种基于注意力的针对文本的联合信源信道方法，所述的步骤2中，信道为点对点或广播信道，其中所述的广播信道将观测向量发送给至少两个解码器。

本发明的技术效果在于，现有的基于LSTM的encoder-decoder模型框架收敛较慢，而本发明采用GRU来代替LSTM，由于GRU参数更少因此更容易收敛，故比LSTM计算速度更快。同时加入注意力机制(Attention Mechanism)，在众多的输入信息中聚焦于对当前任务更为关键的信息，降低对其他信息的关注度，甚至过滤掉无关信息，提高译码的效率和准确性。为了解决人为设定的目标函数，其精确率通常无法覆盖所有可能出现的关键数据分布的问题。本发明利用GAN框架，其特点是生成模型的参数更新不是直接来自原数据样本，而是来自判别模型的反向传播。本发明中将基于GRU的单向文本译码框架作为生成模型，利用CNN作为判别模型，对生成器生成的样本进行判别。此外，考虑到文本的单词之间是有意义的，在测试阶段，束搜索中加入点互信息，和最大似然概率一起，更准确的译码单词。为了解决单向译码，输出不平衡的问题。在译码端，本发明采用同步双向译码的方法。同时L2R和R2L译码，利用SBAtt以及双向束搜索(Bidirectional Beam Search)，实现对齐及信息的交互，L2R(R2L)生成不仅取决于先前生成的输出，而且还取决于R2L(L2R)解码所预测的未来上下文。即同时利用过去和未来的信息，从而降低解码的单词错误率。

下面结合附图对本发明作进一步说明。

附图说明

图1为本发明SeqGAN模型图；

图2为本发明单向JSCC神经网络生成器示意图；

图3为本发明双向JSCC神经网络生成器示意图；

图4为本发明同步双向注意力机制示意图；

图5为本发明同步双向束搜索示意图；

图6为本发明广播信道下JSCC结构图；

图7为验证结果示意图，其中(a)为BEC下擦除概率为0.05时，WER随配比特数变化情况，(b)为用户2的CSNR在高斯广播信道中发生变化时的WER变化情况。

具体实施方式

本实施例基于基于深度学习，采用GRU对具有固定码长的文本数据实现了JSCC。本实施例提出包括两部分：

1)本实施例使用GAN训练单向JSCC模型，并在束搜索(beam search)过程中添加点互信息(Pointwise Mutual Information，PMI)。

2)为了克服单向JSCC的不足，本实施例又采用同步双向注意(SynchronousBidirectional Attention，SBAtt)和同步双向束搜索来交互地使用过去和将来的信息来解码文本。

1)GAN训练单向神经网络

参见图1，SeqGAN模型由三个部分组成：生成器G,判别器D和语句级别的字错误率(Word Error Rate，WER)。生成器的译码端是基于单向GAN神经网络，整个生成器可以看成是一个JSCC框架，目的是将输入信源语句译码成目标语句，并且尽可能减小目标语句和真实语言的区别。而判别器要尽可能的区分深度学习生成的句子和真实句子。由于D是与G同步更新的，G的参数更新原来于D的反向传播，因此D可被视为动态目标。将目标句子级别的WER作为增强型目标。WER是静态函数，在训练过程中不会更新。因此，SeqGAN的奖励是由D和WER一起提供的。

参见图2，生成器包括三个部分：编码器，信道和解码器。编码器网络的输入语句为x＝[w₁,w₂...,w_m]，w_i∈v，v是词汇表中所有单词的集合。假设r是长度为f的二进制向量，令c表示解码器处的观测向量。注意，o不一定是二进制矢量，它可以是实数或自然数的矢量，具体取决于所考虑的信道。解码器输出恢复的句子

在编码之前要进行数据的预处理，包括数据筛选，分词处理，建立词典。分词的目的是将字符串转变为单词列表，本实施例选用Jieba工具

编码端第一步使用固定长度的嵌入向量表示词汇表中的每个单词，得到嵌入向量E，将其作为堆叠双向GRU(BGRU)网络的输入。本实施例使用Glove初始化嵌入向量；BGRU就是两个单向的GRU上下叠加在一起

本实施例使用了具有两个堆叠式BGRU的编码器，因此，接下来将在每层的最后一步将输出连接起来，得到总的隐藏状态h。接下来，需要将h转换为长度为f的二进制向量，首先，使用一个全连接层“Dense”，目的是根据分配的比特数，将高维变成低维向量，同时保留有用信息。全连接层使用激活函数tanh，得到输出h^*的范围是[-1.1]。虽然本实施例使用的是一个全连接层，但也可以使用多层。但最后一层激活函数需要始终为tanh，以确保输出值在[-1,1]范围内。然后将h^*从[-1,1]范围使用二值化函数变为二进制值r，范围是{-1,1}。

接下来，将编码端的结果r通过信道传播，为了对编码器和解码器进行端到端训练，信道必须允许反向传播，也就是说表示信道输入和信道输出之间的关系的函数是可微的。所以，在这部分工作中，本实施例采用使用神经网络层来制定各种信道。主要考虑三个信道：BEC，AWGN信道和瑞利衰落信道，通过信道得到观测向量o。其中BEC用dropout层模拟，AWGN和瑞利衰落信道额外加上高斯随机变量。

解码器的第一步是使用GRU去初始化的embedding状态，然后利用多头注意力(Multi-Head Attention，MHAtt)计算上下文注意力。对于计算当前时间步的译码状态，解码器根据上一个时间步的词向量、上下文向量及译码状态来计算。得到译码状态之后，通过通过Linear层和Softmax层，进行分类预测，得到译码文本。同时在训练和测试期间，都始终使用束搜索算法每一次都找到最大概率的几个单词，从而不会过早的丢弃可能情况，以提高整体的译码性能。这里根据实际需要，也可以使用其他的注意力机制。

接下来，本实施例选用CNN作为判别器，考虑到由生成器生成的句子长度不同，第一步将所有输入序列和生成序列扩展到固定长度。这里的固定长度是指设定的输出最大长度。

然后利用卷积运算和激活函数得到新的特征映射，这里本实施例使用批量标准化(Batch normalization，BN)应用于激活函数的输入，加快训练速度。为了得到最终的特征表示，对此特征图应用最大时间池化(Max-over-time Pooling)操作。最后，本实施例利用输入语句和生成语句的特征表示，判定得到的生成语句是真实的概率值。

在训练阶段，使用策略梯度(Policy Gradient)训练方法将生成器得到的概率值通过判别器处理后，再回传给生成器，从而对生成器的参数进行更新。同时，将判别器的评估和句子基本的WER同时作为奖励值，用来训练生成器。本实施例中，WER是指为归一化句子长度后，两个句子间的的编辑距离。

同时，由于GAN的训练非常不稳定，因此有必要使生成器和判别器同步。一旦生成器的结果在某些数据批次上出现某些变化或者差异，则判别器将其视为假样本，此后生成器将立即失去其优化方向。为了缓解这个问题，本实施例采用了teacher-forcing的方法训练。

2)双向神经网络

参见图3，本实施例将SBAtt来代替单向解码器方案中的MHAtt，用双向束搜索机制代替单向束搜索。而模型的神经编码器与单向模型中介绍的编码器相同。接下来，具体介绍解码端进行同步双向解码的实现方案。

首先已知，信道的输出向量o被输入到解码器，初始状态h₀，然后本实施例使用前后向的GRU和目标语句

和

来获得前向隐藏状态和后向隐藏状态。其中目标语句

将掩码<start>作为起始符号，而<end>作为终止符号，

将掩码<end>作为起始符号，将<start>作为终止符号。接下来本实施例使用同步双向注意网络，其原理图如图4所示：

对于双向解码器中的每一层，最低的子层是本实施例提出的同步双向注意网络，它也使用每个子层周围的剩余连接，然后进行层归一化。

其中l表示层数，d表示解码器的自注意力，LayerNorm代表层归一化，同步双向多头部注意(SBAtt)由h个注意头组成。s^l-1代表

即前向隐藏状态和后向隐藏状态。本实施例让每个头部同时关注前向和后向隐藏状态：

其中

可表示为：

而SBDPA代表同步双向点乘注意力机制(Synchronous bidirectional Dot-Product attention，SBDPA)：

然后解码器堆叠另外两个子层，以寻找与译码文本有关的源文本，以弥合两者之间的差距：

其中e表示编码器-解码器的注意表示。MHAtt是多头注意与上述类似，h^N是信源顶层隐藏状态h₀，FFN代表前馈神经网络。最后，本实施例使用线性变换和softmax激活函数来计算下一个词的概率：

其中θ是从左往右和从右往左解码的共享权重，W是权重矩阵。给定一组训练数据，源文本和目标文本是一致的，从而代价函数可以表示为：

得到代价函数之后，本实施例希望损失函数的值越小越好。本实施例通过反向传播通计算损失函数对各参数的梯度，并根据梯度进行参数的更新，本实施例读取大小为64的输入文件和批处理语句。编码器BGRU具有两层，尺寸为256，前向和后向解码器均具有两层GRU，每层的尺寸为256。隐藏层维度为128。同时采用Adam算法自适应调整学习率等参数，使神经网络以最小的迭代收敛得最快。同时，在测试过程中，使用如图5所示的双向束搜索机制。束搜索使用广度优先策略来构建搜索树。在树的每一层，根据启发式成本对节点进行分类，然后仅留下预定数量的节点，即波束宽度。如果波束宽度等于1，则是一个贪婪的搜索。该节点继续在下一级扩展，其他节点被切断。在训练过程中优化了两个特殊的开始令牌，本实施例让一半的波束大小从左往右(left to right，L2R)解码，而另一半波束从从右往左(right to left，R2L)解码。在每个时间步长，本实施例从L2R解码的半光束中选择最佳项，并从R2L解码的半光束中选择最佳项，以继续同时扩展。使用所描述的SBAtt模型，L2R(R2L)生成不仅取决于先前生成的输出，而且取决于R2L(L2R)解码预测的未来上下文。黑色圆框显示了假设的连续扩展。当预测了句子结束标记<end>时，解码将终止，最后，从所有完整假设中以最高概率输出翻译结果。

参见图6，本实施例将提出的两种JSCC结构扩展到高斯广播信道。广播信道有一个发射机和多个接收机。退化的广播信道是广播信道的特例。在解码端，本实施例采用先前提出的解码器，包括单向和双向解码器。在这种情况下不采用GAN。此外，在执行单向解码时，除了在目标文本中两个连续单词的PMI之外，本实施例还在波束搜索过程中向目标函数添加了额外的空间PMI。此空间PMI反映了NMT将另一个文本中的解码单词转换为目标文本中的单词的可能性。本实施例采用的NMT模型是从本实施例提出的双向模型转变而来的以用户2为例，他对解码英文文本感兴趣。用户2首先对中文文本进行解码，然后通过目标函数的公式采用空间获得英文文本。

本实施例在二进制擦除信道(Binary Erasure Channel，BEC)，AWGN信道和瑞利衰落信道上测试了模型的性能。将模型与三种传统的SSCC方法以及现有的基于深度学习的文本编解码方案进行了比较。归一化的句子长度的编辑距离被用作评估标准WER。实验结果表明，在低比特预算，句子长度较长和小信噪比的情况下，本实施例的方法的性能优于传统的SSCC方法。在任何条件下，本实施例提出的两种方法都优于现有的深度学习JSCC方法。就训练阶段的时间复杂度而言，本实施例的方法也不会比以前的深度学习方法花费太多训练时间。而在广播信道下，本实施例为两个接收端输入相同含义的中文和英文文本。一个接收端对中文文本感兴趣，而另一个接收端对英语文本感兴趣。同样的，本实施例提出的方法的优势也得到了验证。在点对点信道和广播信道下的仿真结果如下所示。其中(a)使用英文数据集，在BEC下进行实验。(b)在广播信道下，使用中英数据集，CSNR1固定为2dB，随CSNR2变化，用户2WER变化情况。

Claims

1.一种基于注意力的针对文本的联合信源信道方法，其特征在于，基于包括编码器、信道和解码器的生成器对文本进行联合信源信道编码，包括以下步骤：

步骤2，通过信道传播步骤1的结果，得到观测向量；

和

来获得前向隐藏状态和后向隐藏状态，然后输入到作为最低子层的同步双向注意网络SBAtt，并采用双向束搜索实现同时基于过去与未来的信息进行解码，接下来通过堆叠的另外两个子层来寻找与译码文本有关的源文本，最后使用线性变换和softmax激活函数来计算下一个词的概率，从而进行分类预测，得到译码文本；

所述的步骤3中，目标语句

即前向隐藏状态和后向隐藏状态；

其中

为：

SBDPA代表同步双向点乘注意力机制：

2.根据权利要求1所述的一种基于注意力的针对文本的联合信源信道方法，其特征在于，所述的生成器是通过以下步骤进行训练得到：

3.根据权利要求2所述的一种基于注意力的针对文本的联合信源信道方法，其特征在于，所述的判别器为CNN，在进行判别时，首先将所有输入序列和生成序列扩展到固定长度，然后利用卷积运算和激活函数得到新的特征映射，利用输入语句和生成语句的特征表示，判定得到的生成语句是真实的概率值。

4.根据权利要求1所述的一种基于注意力的针对文本的联合信源信道方法，其特征在于，所述的步骤1中，所述的嵌入向量是采用Glove进行初始化；堆叠双向GRU是将两个单向的GRU进行叠加，以将第一个GRU的输出作为第二个GRU的输入，并将两个GRU的输出均发送至全连接层；所述的全连接层包括至少一层激活函数，且最后一层为激活函数tanh。

5.根据权利要求1所述的一种基于注意力的针对文本的联合信源信道方法，其特征在于，所述的步骤3中，前后向的GRU均包括两层GRU，每层的尺寸为256；隐藏层维度为128。

6.根据权利要求1所述的一种基于注意力的针对文本的联合信源信道方法，其特征在于，采用双向束搜索实现同时基于过去与未来的信息进行解码，是使用广度优先策略来构建束搜索的搜索树，并在树的每一层，根据启发式成本对节点进行分类，然后仅留下预定数量即波束宽度的节点，留下的节点继续在下一级扩展，其他节点被切断，且一半的波束大小从前向解码，而另一半波束从后向解码，从而在每个时间步长分别从两半波束中选择最佳项，以继续同时扩展。

7.根据权利要求1所述的一种基于注意力的针对文本的联合信源信道方法，其特征在于，所述的步骤3中，通过堆叠的另外两个子层来寻找与译码文本有关的源文本为：

8.根据权利要求6所述的一种基于注意力的针对文本的联合信源信道方法，其特征在于，所述的步骤3中，使用线性变换和softmax激活函数来计算下一个词的概率为：

9.根据权利要求1所述的一种基于注意力的针对文本的联合信源信道方法，其特征在于，所述的步骤2中，信道为点对点或广播信道，其中所述的广播信道将观测向量发送给至少两个解码器。