CN116961672A

CN116961672A - 基于Transformer编码器的无损数据压缩方法

Info

Publication number: CN116961672A
Application number: CN202310919126.8A
Authority: CN
Inventors: 宋霄罡; 袁浩宇; 闫星宇; 黑新宏
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2023-07-25
Filing date: 2023-07-25
Publication date: 2023-10-27

Abstract

本发明公开了基于Transformer编码器的无损数据压缩方法，步骤1，数据预处理；步骤2，构建基于Transformer编码器的概率预测模块；步骤3，构建自适应算术编码模块；采用本发明，通过实验结果表明，相较于经典的传统方法，压缩率有了明显提升，相较于经典深度学习方法，提高了压缩速率，丰富了自然语言处理的方法体系，支撑了数据压缩邻域的发展，为文本数据无损压缩邻域提供了一种选择。

Description

基于Transformer编码器的无损数据压缩方法

技术领域

本发明属于自然语言处理技术领域，涉及基于Transformer编码器的无损数据压缩方法。

背景技术

无损数据压缩是指使用计算机对数据进行分析，通过利用数据中存在的冗余和模式来减小数据的大小，生成更紧凑的表示形式以减少数据的存储空间，同时确保压缩后的数据可以完全恢复为原始数据，不会丢失任何信息；

近年来，在数据压缩邻域，无损压缩的关注度越来越高，如何实现具有更高压缩率的无损数据压缩方法，成了自然语言处理中的研究热点；传统研究方法常用基于哈夫曼编码的、基于字典的、基于预测的以及基于高斯消除的方法，随着机器学习和深度学习的发展又产生了基于学习的方法，其中基于循环神经网络算法在压缩率方面取得了较大的突破，是目前最主流的基于深度学习的无损数据压缩方法，但存在缺乏上下文相关性，不能捕获全局信息等问题。

发明内容

本发明的目的是提供基于Transformer编码器的无损数据压缩方法，解决了现有基于深度学习方法存在的缺乏上下文相关性，不能捕获全局信息等问题，具有更高的压缩率。

本发明所采用的技术方案是，基于Transformer编码器的无损数据压缩方法，具体按以下步骤实施：

步骤1，数据预处理，将离散的词语表示转换为连续的低维向量表示；

步骤2，构建基于Transformer编码器的概率预测模块，对序列数据进行概率估计；

步骤3，构建自适应算术编码模块，将预测概率映射到区间范围内的数值进行编码，实现数据的压缩。

本发明的特点还在于：

其中步骤1具体为：

步骤1.1，构建词汇表：将训练数据中出现的所有不重复的词语进行收集和编号；

步骤1.2，One-Hot编码：对于每个训练样本中的词语，使用One-Hot编码将其表示为一个稀疏向量；

步骤1.3，嵌入矩阵初始化：将稀疏的One-Hot向量映射到稠密的低维词嵌入向量空间；

步骤1.4，嵌入矩阵查找：将One-Hot向量与嵌入矩阵相乘，将输入的离散词语转换为低维的词嵌入向量；

步骤1.5，词嵌入输出：将转换后的词嵌入向量作为词嵌入层的输出，供后续的神经网络模型使用；

其中步骤2具体按以下步骤实施：

步骤2.1，构建TransformerEncoder层，由多个相同的TransformerEncoder层堆叠而成，逐渐提取更高级别的特征；

步骤2.2，构建Flatten层，将多个TransformerEncoder层的输出展平为一维向量；

步骤2.3，构建两通道模块，分别为全连接层和密集层+线性层；

步骤2.4，使用激活函数将全连接层的输出映射到预测的概率分布，激活函数选用log_softmax函数；

其中步骤2.1具体按以下步骤实施：

步骤2.1.1，自注意力机制，用于捕捉输入序列中不同位置之间的关系，从而捕捉序列中的上下文信息，通过计算查询Query、键Key和值Value之间的相似度来对输入序列进行加权聚合，自注意力机制的计算公式如(1)所示：

式中，Q是查询矩阵，K是键矩阵，V是值矩阵，d_k是查询和键的维度；通过计算查询和键的相似度得到注意力权重，然后将注意力权重与值进行加权求和得到最终的自注意力输出；

步骤2.1.2，前馈神经网络，在Transformer模型的Encoder模块中用于对自注意力的输出进行进一步的非线性变换；由两个线性层和一个激活函数ReLU组成，前馈神经网络的计算公式如(2)所示：

FFN(x)＝ReLU(xW₁+b₁)W₂+b₂ (2)

式中，x是自注意力的输出，W₁和W₂是权重矩阵，b₁和b₂是偏置向量；

其中步骤2.3具体为：

全连接层对展平后的特征进行线性变换和非线性映射；给定展平后的特征X，通过全连接层的权重矩阵W和偏置向量b进行线性变换，并通过激活函数ReLU进行非线性映射，公式如下：

Y＝EeLU(XW+b) (3)

式中，W和b是学习的参数；

密集层+线性层将输入数据与权重矩阵相乘，并通过激活函数引入非线性转换，生成输出特征表示；

其中步骤3具体为：

步骤3.1，将待编码数据的范围映射到一个初始的区间范围，将区间初始化为[0，1)，表示待编码数据的范围；

步骤3.2，利用符号概率建模确定每个符号的概率模型，用于在编码和解码过程中更新区间范围，初始时，将每个符号的概率均分为相等的值；

步骤3.3，编码过程，对于每个待编码的符号，根据符号的概率模型来更新区间，并将区间缩小为对应符号的范围；

步骤3.4，解码过程，对于解码过程，使用与编码过程相同的概率模型来重建区间，并根据已经解码的符号来逐步恢复原始数据序列；

其中步骤3.2具体按以下步骤实施：

步骤3.2.1，初始概率设定，在开始编码之前，将每个符号的概率均分为相等的值，即有n个不同的符号，则初始概率可以设定为

步骤3.2.2，动态更新概率，在编码过程中，每遇到一个符号，都要根据当前的概率模型来更新符号的概率；

其中步骤3.2.2具体按以下步骤实施：

步骤3.2.2.1，统计符号频率，对于每个已经编码的符号，统计其出现的频率或计数；

步骤3.2.2.2，更新符号概率，根据已经统计的符号频率，更新符号的概率；使用频率除以总频率的比例作为符号的概率，即某个符号出现的频率为f，总频率为F，则该符号的概率为

步骤3.2.2.3，平滑处理，为了避免出现频率为0的符号，使用平滑处理方法来调整概率，对所有符号的频率进行平滑调整，以确保每个符号都有非零的概率；

其中步骤3.3具体按以下步骤实施：

步骤3.3.1，将待编码的数据序列的第一个符号取出，并根据符号的概率模型来更新区间；

步骤3.3.2，对于序列中的每个后续符号，根据符号的概率模型来更新区间；将区间缩小为对应符号的范围，即重新计算下界、上界和区间宽度；

步骤3.3.3，当区间的上界和下界变得非常接近时，需要进行重归化操作；将区间的小数部分取出，作为编码输出，并重新调整区间的范围；即区间的上界和下界的小数部分都是0，将整数部分输出，重归化区间至[0，1)；

步骤3.3.4，在最后一个输出概率区间内，将左右边界转换为二进制，并在区间内截取最终压缩结果，该过程称之为比特编码。

本发明的有益效果是

本发明的基于Transformer编码器的无损数据压缩方法中数据预处理工作不参与模型训练过程，概率预测器采用基于Transformer编码器构建，更加关注概率预测过程中的上下文相关性，利用Transformer的并行计算、长期依赖关系以及全局信息捕获等优点，实现了对高压缩率的提高；并且本方法与大多数现有的基于神经网络的压缩器不同，其通过对压缩的序列在压缩之前执行多遍以半自适应方式训练，其中半自适应训练是指模型首先在输入序列上进行多次训练；训练的模型参数与算术编码输出一起保存为压缩文件的一部分，因为它们需要用于解压缩。实验结果表明，与主流的无损数据压缩方法相比，压缩结果所占存储空间更小，丰富了自然语言处理的方法体系，支撑了数据压缩邻域的发展，为高压缩率无损数据压缩方法提供了一种选择。

附图说明

图1是本发明基于Transformer编码器的无损数据压缩方法中训练与压缩的示意图；

图2是本发明基于Transformer编码器的无损数据压缩方法中预测模块的结构示意图；

图3是本发明基于Transformer编码器的无损数据压缩方法中Transformer编码器的结构示意图；

图4是本发明基于Transformer编码器的无损数据压缩方法中自适应算术编码阶段以数据[1.064，0.395，1.061，0.704]为例的编码过程；

图5是本发明基于Transformer编码器的无损数据压缩方法中自适应算术编码阶段以数据[1.064，0.395，1.061，0.704]为例的编码结果的比特编码。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明选择以Transformer编码器方法为基础，以概率预测和自适应算术编码的基本构架展开研究；通过基于Transformer编码器的概率预测模块对序列数据进行处理得到预测概率，在将预测概率输入到自适应算术编码模块完成压缩，其中概率预测模块采用半自适应训练的方法继续训练；通过利用Transformer具有的并行计算、长期依赖关系以及全局信息捕获等优点，弥补基于循环神经网络的无损数据压缩方法存在的缺乏上下文相关性，不能捕获全局信息等问题，这对实现更高压缩率具有重要意义。

实施例1

本发明提供了基于Transformer编码器的无损数据压缩方法，具体按以下步骤实施：

步骤1，数据预处理；

步骤2，构建基于Transformer编码器的概率预测模块；

步骤3，构建自适应算术编码模块。

其中步骤1用于将离散的词语表示转换为连续的低维向量表示；步骤2用于对序列数据进行概率估计；步骤3用于将预测概率映射到区间范围内的数值进行编码，实现数据的压缩。

实施例2

本发明提供了基于Transformer编码器的无损数据压缩方法，采用概率预测+自适应算术编码的构架，如图1所示，具体按以下步骤实施压缩：

步骤1.1，构建词汇表：首先，需要构建一个词汇表，即将训练数据中出现的所有不重复的词语进行收集和编号，每个词语都会被赋予一个唯一的整数索引，用于后续的处理。词汇表的大小通常取决于训练数据的规模，可以是几千到几十万个词语；

步骤1.2，One-Hot编码：对于每个训练样本中的词语，使用One-Hot编码将其表示为一个稀疏向量，One-Hot编码是一种表示方法，将一个词语编码为一个全零向量，只在对应的整数索引位置上设置为1，例如，如果词汇表的大小为N，一个词语可以被表示为一个长度为N的向量，除了对应索引位置为1，其他位置都为0；

步骤1.3，嵌入矩阵初始化：词嵌入层的目标是将稀疏的One-Hot向量映射到稠密的低维词嵌入向量空间，为此，需要初始化一个嵌入矩阵，它的维度为(词汇表大小N)×(嵌入维度d)，其中d是指定的词嵌入维度，通常是几十到几百；

步骤1.4，嵌入矩阵查找：通过将One-Hot向量与嵌入矩阵相乘，可以将输入的离散词语转换为低维的词嵌入向量，嵌入矩阵的第i行对应于词汇表中第i个词语的词嵌入向量；

词嵌入向量＝One-Hot向量×嵌入矩阵；

这样，每个词语就被表示为一个连续的低维向量，它捕捉了词语之间的语义和语法关系；

步骤1.5，词嵌入输出：将转换后的词嵌入向量作为词嵌入层的输出，供后续的神经网络模型使用；这些词嵌入向量可以被视为输入数据的特征表示，用于进行文本分类、命名实体识别、情感分析等自然语言处理任务；

步骤2，基于Transformer编码器的概率预测，用于对序列数据进行概率估计，概率预测器模型如图2所示：

步骤2.1，构建TransformerEncoder层，它由多个相同的TransformerEncoder层堆叠而成，逐渐提取更高级别的特征，Transformer编码器结构如图3所示；

其中双层TransformerEncoder层按照以下步骤实施：

步骤2.1.1，自注意力机制，用于捕捉输入序列中不同位置之间的关系，从而捕捉序列中的上下文信息；它通过计算查询(Query)、键(Key)和值(Value)之间的相似度来对输入序列进行加权聚合。自注意力机制的计算公式如(1)所示：

步骤2.1.2，前馈神经网络，在Transformer模型的Encoder模块中用于对自注意力的输出进行进一步的非线性变换；它由两个线性层和一个激活函数(ReLU)组成；前馈神经网络的计算公式如(2)所示：

FFN(x)＝ReLU(xW₁+b₁)W₂+b₂ (2)

步骤2.2，构建Flatten层，将多个TransformerEncoder层的输出展平为一维向量，以便输入到下一层全连接层，输入的形状为(batch_size，seq_length，hidden_size)，则展平后的形状为(batch_size，seq_length*hidden_size)；

Y＝EeLU(XW+b) (3)

式中，W和b是学习的参数；

密集层+线性层的主要功能是将输入数据与权重矩阵相乘，并通过激活函数引入非线性转换，生成输出特征表示，密集层(具有ReLU激活)的输出和全连接层的输出在线性层之后被加在一起；

步骤2.4，最后，使用适当的激活函数将全连接层的输出映射到预测的概率分布，本发明选用log_softmax函数；

步骤3，自适应算术编码器编码，用于将预测概率映射到区间范围内的数值进行编码，实现数据的压缩；

步骤3.1，将待编码数据的范围映射到一个初始的区间范围，本方法中将区间初始化为[0，1)，表示待编码数据的范围。初始区间是编码和解码的基础，随着编码过程的进行，区间会不断缩小或扩大，以适应不同符号的编码需求；

步骤3.2，符号概率建模是自适应算术编码中的关键步骤，用于确定每个符号的概率模型，以便在编码和解码过程中更新区间范围；初始时，可以将每个符号的概率均分为相等的值；

步骤3.2.1，初始概率设定，在开始编码之前，需要为每个可能的符号初始化概率；本方法是将每个符号的概率均分为相等的值，例如，如果有n个不同的符号，则初始概率可以设定为

步骤3.2.2，动态更新概率，在编码过程中，每次遇到一个符号，都要根据当前的概率模型来更新符号的概率；

步骤3.2.2.2，更新符号概率，根据已经统计的符号频率，更新符号的概率；本方法是使用频率除以总频率的比例作为符号的概率；例如，如果某个符号出现的频率为f，总频率为F，则该符号的概率为

步骤3.2.2.3，平滑处理，为了避免出现频率为0的符号，可以使用平滑处理方法来调整概率，对所有符号的频率进行平滑调整，以确保每个符号都有非零的概率；

步骤3.3，编码过程，对于每个待编码的符号，根据符号的概率模型来更新区间，并将区间缩小为对应符号的范围；如图4所示为以一组[1.064，0.395，1.061，0.704]为例的编码过程；

步骤3.3.1，将待编码的数据序列的第一个符号取出，并根据符号的概率模型来更新区间；设符号的概率为P，当前区间的范围为[下界，上界)，区间宽度为上界-下界，根据概率分布，更新区间的上界和下界：

下界＝下界+区间宽度×P_累积概率

上界＝下界+区间宽度×P_符号概率

区间宽度＝上界-下界

步骤3.3.2，对于序列中的每个后续符号，根据符号的概率模型来更新区间，将区间缩小为对应符号的范围，即重新计算下界、上界和区间宽度；

步骤3.3.3，当区间的上界和下界变得非常接近时，需要进行重归化操作；将区间的小数部分取出，作为编码输出，并重新调整区间的范围；例如，如果区间的上界和下界的小数部分都是0，那么将整数部分输出，重归化区间至[0，1)；

步骤3.3.4，在最后一个输出概率区间内，将左右边界转换为二进制，并在区间内截取最终压缩结果，该过程称之为比特编码，如图5所示为数据[1.064，0.395，1.061，0.704]编码的最终结果；

步骤3.4，解码过程，对于解码过程，需要使用与编码过程相同的概率模型来重建区间，并根据已经解码的符号来逐步恢复原始数据序列。

实施例3

实验结果如表1，表2，表3所示，本发明方法较固定字符概率的算术编码压缩率更高，平均提升了约29.03％；较基于字典的LZW算法，压缩率平均提升了约7.98％，实验表明本发明方法在压缩用电采集数据的场景下压缩率较主流传统压缩算法有明显提升；相比于Cmix v19，本发明方法平均压缩速率为其7.85倍，平均压缩率相差0.89％；相比于NNCP，本发明方法平均压缩速率为其5.33倍，平均压缩率相差0.72％；在保持较高的压缩速率的同时取得接近基准的压缩率；实验表明本文提出的方法在压缩用电采集数据的场景下相比于其他深度学习算法具有更强的实用性。

表1传统方法下电力历史数据压缩率对比结果

表2深度学习方法下压缩率对比结果

表3深度学习方法下压缩时间对比结果

Claims

1.基于Transformer编码器的无损数据压缩方法，其特征在于，具体按以下步骤实施：

2.根据权利要求1所述的基于Transformer编码器的无损数据压缩方法，其特征在于，所述步骤1具体为：

步骤1.5，词嵌入输出：将转换后的词嵌入向量作为词嵌入层的输出，供后续的神经网络模型使用。

3.根据权利要求1所述的基于Transformer编码器的无损数据压缩方法，其特征在于，所述步骤2具体按以下步骤实施：

步骤2.4，使用激活函数将全连接层的输出映射到预测的概率分布，激活函数选用log_softmax函数。

4.根据权利要求3所述的基于Transformer编码器的无损数据压缩方法，其特征在于，所述步骤2.1具体按以下步骤实施：

FFN(x)＝ReLU(xW₁+b₁)W₂+b₂ (2)

式中，x是自注意力的输出，W₁和W₂是权重矩阵，b₁和b₂是偏置向量。

5.根据权利要求3所述的基于Transformer编码器的无损数据压缩方法，其特征在于，所述步骤2.3具体为：

Y＝EeLU(XW+b) (3)

式中，W和b是学习的参数；

密集层+线性层将输入数据与权重矩阵相乘，并通过激活函数引入非线性转换，生成输出特征表示。

6.根据权利要求1所述的基于Transformer编码器的无损数据压缩方法，其特征在于，所述步骤3具体为：

步骤3.4，解码过程，对于解码过程，使用与编码过程相同的概率模型来重建区间，并根据已经解码的符号来逐步恢复原始数据序列。

7.根据权利要求6所述的基于Transformer编码器的无损数据压缩方法，其特征在于，所述步骤3.2具体按以下步骤实施：

步骤3.2.2，动态更新概率，在编码过程中，每遇到一个符号，都要根据当前的概率模型来更新符号的概率。

8.根据权利要求7所述的基于Transformer编码器的无损数据压缩方法，其特征在于，所述步骤3.2.2具体按以下步骤实施：

步骤3.2.2.3，平滑处理，为了避免出现频率为0的符号，使用平滑处理方法来调整概率，对所有符号的频率进行平滑调整，以确保每个符号都有非零的概率。

9.根据权利要求6所述的基于Transformer编码器的无损数据压缩方法，其特征在于，所述步骤3.3具体按以下步骤实施：

步骤3.3.3，当区间的上界和下界变得非常接近时，需要进行重归化操作；将区间的小数部分取出，作为编码输出，并重新调整区间的范围；即区间的上界和下界的小数部分都是0，将整数部分输出，重归化区间至[0,1)；