CN116303374B

CN116303374B - 基于sql数据库的多维度报表数据优化压缩方法

Info

Publication number: CN116303374B
Application number: CN202310578028.2A
Authority: CN
Inventors: 商黄鹤; 黎惟春
Original assignee: Shenzhen Dimension Data Technology Co ltd
Current assignee: Shenzhen Dimension Data Technology Co ltd
Priority date: 2023-05-22
Filing date: 2023-05-22
Publication date: 2023-08-29
Anticipated expiration: 2043-05-22
Also published as: CN116303374A

Abstract

本发明涉及数据处理技术领域，具体涉及基于SQL数据库的多维度报表数据优化压缩方法，包括：获取数据，根据数据的重复性进行数据融合，获取融合后的数据字符类型直方图，利用比特块将融合后的数据中的游程值的二进制编码进行切分及添加引导标识符和定位标识符，根据重复字符二进制位数、重复位数得到游程合并必要性，根据统计直方图中字符类型对应二进制编码的长度和字符类型的字符频率得到每层比特块优选程度，根据优选程度确定的比特位数进行分层压缩，将压缩后的数据进行预解码。本发明根据字符分布情况进行自适应比特分层提高数据压缩率，同时还可以直接定位到需要处理的字符处，对数据进行处理时不用从头开始解压缩，提高数据处理效率。

Description

基于SQL数据库的多维度报表数据优化压缩方法

技术领域

本发明涉及数据处理技术领域，具体涉及基于SQL数据库的多维度报表数据优化压缩方法。

背景技术

目前，随着数据量的不断增加，多维度报表数据的存储和处理成为了一个极具挑战性的问题。传统的数据压缩方法往往不能很好地适应多维度报表数据的特点，多维度报表数据通常包含大量重复的数据和稀疏的数据，而且不同维度之间的数据关系非常复杂导致存储空间的浪费和数据处理效率的低下。因此，需要一种基于SQL数据库的多维度报表数据优化压缩方法，以提高数据存储和处理的效率。

传统的数据压缩方法往往只能适用于单一维度的数据，不能很好地处理多维度报表数据。同时传统的数据压缩方法往往需要从头解压缩才能进行数据处理，导致数据处理效率低下。

本发明通过对多维度报表数据进行统计，根据数据类型对多维度报表数据进行自适应比特分层，每层自适应获取优选的比特位数，通过自适应选择比特分层层深与每层比特优选位数对多维度报表数据进行压缩，在大大增大压缩率的同时还可精准定位目标数据，达到提高数据存储和处理的效率的目的。

发明内容

本发明提供基于SQL数据库的多维度报表数据优化压缩方法，以解决现有的问题。

本发明的基于SQL数据库的多维度报表数据优化压缩方法采用如下技术方案：

本发明一个实施例提供了基于SQL数据库的多维度报表数据优化压缩方法，该方法包括以下步骤：

获取SQL数据库多维度报表数据；

根据多维度报表数据的重复性进行数据融合，根据融合后的数据构建字符类型直方图，选择获取比特块切分参数，根据比特块切分参数将融合后的数据中的游程值的二进制编码进行切分及添加引导标识符，根据切分后的二进制编码进行分层及添加定位标识符；

根据游程值的重复字符二进制位数、重复位数与标识符增添系数、标识符增添位数得到重复字符游程合并必要性，根据游程合并必要性对重复字符进行游程化合并，将所有字符类型对应二进制编码的长度的最小值和最大值组成的范围作为比特位数范围，对于比特范围中的任意一个比特位数，根据二进制编码的长度等于比特位数的所有字符类型的二进制编码的长度和频率，得到比特位数的优选程度；

选择优选程度最大值所对应的比特位数作为第一层的比特位数；

同理，将所有字符类型的二进制编码除去第一层的比特位数，根据剩余二进制编码获得第二层的比特位数，依次获得所有分层的比特位数，当剩余的二进制位数小于等于预设阈值停止，将剩余字符类型的二进制编码的长度的最大值作为最后一层的比特位数；

进一步地，所述根据比特块切分参数将融合后的数据中的游程值的二进制编码进行切分及添加引导标识符，包括的具体步骤如下：

获取融合数据中的游程值的二进制编码，根据比特块切分参数将融合数据中的游程值的二进制编码进行切分，比特块的切分是从二进制编码的末位向首位进行切分的，即从右往左切分，得到多个比特块，在每个比特块前面增加一位引导标识符，将任意一个比特块记为目标比特块，如果目标比特块左侧存在比特块，则目标比特块的引导标识符为1，否则，目标比特块的引导标识符为0。

进一步地，所述根据切分后的二进制编码进行分层及添加定位标识符，包括的具体步骤如下：

将融合数据中的游程值的二进制编码按照比特块的切分顺序进行分层，第一次切分得到的二进制编码为第一层，依次得到多个分层，将融合数据中的游程值对应的二进制游程长度也记录到第一层中，在第一层游程值的二进制编码前添加定位标识符-，在第一层记录的二进制游程长度前添加定位标识符--。

进一步地，所述根据游程值的重复字符二进制位数、重复位数与标识符增添系数、标识符增添位数得到重复字符游程合并必要性，包括的具体步骤如下：

式中，表示游程值的重复数据的游程合并必要性，/>表示重复字符的单字符二进制位数，即游程值的二进制位数，n表示重复位数，即游程长度，b表示标识符增添位数，/>表示标识符增添系数。

进一步地，所述根据二进制编码的长度等于比特位数的所有字符类型的二进制编码的长度和频率，得到比特位数的优选程度，包括的具体步骤如下：

式中表示比特位数/>的优选程度，r的取值为统计直方图中所有字符类型对应二进制编码的长度，/>表示字符类型对应二进制编码的长度等于r的第/>种字符的字符频率，表示字符类型对应二进制编码的长度等于r的字符类型个数，/>表示第i种字符转换为二进制编码后的编码长度为，/>表示字符总数量，/>表示字符类型对应二进制编码的长度小于r的字符类型个数，/>表示字符类型对应二进制编码的长度小于r的第k种字符的字符数量，表示字符类型对应二进制编码的长度小于r的第k种字符转换为二进制编码后的编码长度，/>表示二进制字符串的总长度。

本发明的技术方案的有益效果是：通过对SQL数据库的多维度报表数据进行分析处理，获取SQL数据库的多维度报表数据中字符的分布情况，根据字符分布情况进行自适应比特分层，通过对比特分层后的SQL数据库的多维度报表数据进行编码压缩处理，提高最终的压缩率，大大减小存储空间占用率，同时还可以直接定位到需要处理的字符处，对数据进行处理时不用从头开始解压缩，大大提高数据处理效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于SQL数据库的多维度报表数据优化压缩方法的步骤流程图；

图2为本发明的字符类型直方图；

图3为本发明的编码表示意图；

图4本发明的第一分层结果示意图；

图5本发明的第二分层结果示意图；

图6本发明的第三分层结果示意图；

图7本发明的第四分层结果示意图。

实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的一种应用于安全运维系统的数据管理方法基于SQL数据库的多维度报表数据优化压缩方法，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的基于SQL数据库的多维度报表数据优化压缩方法的具体方案。

请参阅图1，其示出了本发明一个实施例提供的基于SQL数据库的多维度报表数据优化压缩方法的步骤流程图，该方法包括以下步骤：

步骤S001、获取SQL数据库多维度报表数据。

需要说明的是，SQL数据库的数据体系结构基本上是三级结构，在SQL中，关系模式(模式)称为“基本表”；存储模式(内模式)称为“存储文件”；子模式(外模式)称为“视图”；元组称为“行”；属性称为“列”。

具体的，采集处理的数据为存储模式中的存储文件，其中采集的SQL数据库的数据类型是多种多样的，至此得到采集数据。

步骤S002、根据多维度报表数据的重复性进行数据融合，根据融合后的数据构建字符类型直方图，选择获取比特块切分参数，根据比特块切分参数将融合后的数据中的游程值的二进制编码进行切分及添加引导标识符，根据切分后的二进制编码进行分层及添加定位标识符。

需要说明的是，多维度报表数据通常包含大量重复的数据和稀疏的数据，同时需要经常对数据进行处理，故压缩存储的数据要具备随机存储能力，具备随机存储能力的编码为定长编码，但定长编码压缩率低，会浪费大量的存储空间。故通过分层思想对数据进行分层处理，第一层起到定位作用，后续的层起压缩作用，因此需要获取优选的层深和每层的比特位数，层深越深，需要标记的符号越多，比特位数越大，补0所占位数越多，因此需要根据数据的分布情况自适应获取有序的比特位数，达到较好的压缩效果。

进一步需要说明的是，在对重复数据进行处理时，对每一个字符的处理方式均相同，因此可根据重复性进行融合，对于重复部分仅处理一个字符，其他字符的处理方法相同，以达到简化算法、增大压缩率的目的。

需要说明的是，采集的数据为一维序列数据，要获取融合数据，则可对采集的数据进行游程编码，得到游程序列和游程码字，游程码字由游程长度和游程值组成。

例如，假设采集数据的原始数据流为“AAAAABBBBBCCCCC”其中A、B、C连续出现的次数分别为5、5、5。则游程编码后的数据流为“5A5B5C”，即游程序列。解压时，读取游程码字“5A”，即游程码字，将A重复5次；读取游程码字“5B”，将B重复5次；读取游程码字“5C”，将C重复5次。最终还原出原始数据流“AAAAABBBBBCCCCC”。通过游程编码的方式将原始数据融合为游程编码压缩后的数据，即融合数据。

进一步需要说明的是，统计融合后数据的分布情况，根据统计批量获取比特块的大小，比特块太大会导致补0太多，不利于压缩，比特块太小会导致层深太深，标识符增加位数太多，也不利于压缩，故需要根据数据分布频率选择优选的比特块大小。

具体的，构建字符类型直方图，字符类型直方图仅仅统计融合后的数据，其中游程长度并不参与统计。

例如融合后的数据为5A5B5C5A5B5CDEACAE，则参与统计的数据为ABCABCDEACAE，请参阅图2，其示出了对应的字符类型直方图。

1.根据比特块切分参数将融合数据中的游程值的二进制编码进行切分及添加引导标识符。

具体的，在本实施例中，获取融合数据中的游程值的二进制编码，根据比特块切分参数将融合数据中的游程值的二进制编码进行切分，比特块的切分是从二进制编码的末位向首位进行切分的，即从右往左切分，得到多个比特块，在每个比特块前面增加一位引导标识符，将任意一个比特块记为目标比特块，如果目标比特块左侧存在比特块，则目标比特块的引导标识符为1，否则，目标比特块的引导标识符为0。

举例说明：序列X={（4，10）、（6，21）、5、（3，19）}，比特块切分参数b定为2，请参阅图3，其示出了编码表。如表所示，21的二进制编码为10101，比特块切分参数b的值为2，则将10101编码切分为01、01、01，切分时从后往前，即从1开始往前取2位，当最后一个数不足2位时补0，即21的二进制编码10101切分补0后为：01、01、01，此时从后往前看，01所在的比特块前面还有01的比特块，故01的引导标识符为1，代表该块前还有比特块，该比特块的编码为101；此时看向下一个比特块01，01所在的比特块前面还有01的比特块，故01的引导标识符为1，代表该块前还有比特块，该比特块的编码为101；此时看下一个比特块01，01所在的比特块前面无其他比特块，故01的引导标识符为0，代表该块前没有比特块，该比特块的编码为001，同理对所有数据进行编码，请参阅图4，其示出了分层表，其中第一层记录对应游程值的游程长度，Cn表示第n层数，An表示第n层比特块中原始数据的二进制编码段，Bn表示第n层比特块的引导标识符。其中在第一层中存在游程长度，可根据游程长度判断当前字符码字个数。

2.根据切分后的二进制编码进行分层及添加定位标识符。

具体的，将融合数据中的游程值的二进制编码按照比特块的切分顺序进行分层，第一次切分得到的二进制编码为第一层，依次得到多个分层，将融合数据中的游程值对应的二进制游程长度也记录到第一层中，在第一层游程值的二进制编码前添加定位标识符-，在第一层记录的二进制游程长度前添加定位标识符--。

需要说明的是，为了定位区分，需要增加定位标识符，例如上述示例中C1层的编码为：10（100）、01（110）、01、11（11），通过增加定位标识位后为：-10--100-01--110-01-11--11-…，其中需要进行定位解码时通过扫描定位标识符，字符前为-时累计数量为1，字符前为--时累计数为--与-之间的二进制数对应的十进制位数，需要说明的是--后为游程长度，在计算位数时--后对应的十进制数要覆盖前一个累计数量1，例如需要还原第11位的数，则有--100--110-1---11，其中二进制100对应的十进制为4，二进制110对应的十进制为6，则读取到11位读到的字符为-1-对应的字符01。后续还可再对其进行多层还原即可得到完整第11位的数据，具体还原规则在步骤S004中。

步骤S003、根据游程值的重复字符二进制位数、重复位数与标识符增添系数、标识符增添位数得到重复字符游程合并必要性，根据游程合并必要性对重复字符进行游程化合并，根据字符类型直方图中字符类型对应二进制编码的长度和字符类型的字符频率得到每层比特块优选程度。

需要说明的是，上述分析发现，影响压缩率的因素为游程长度与比特位数，游程长度短，后续增加的标识符多，压缩效率不高，比特位数小，层深多，每层补0和每层的标识符多，故需要获取游程合并必要性与比特位数的优选程度。

进一步需要说明的是，比特位数为比特块中包含的二进制位个数，例如比特块大小为3，则比特位数即为3。

1.根据融合数据中重复字符的单字符二进制位数、重复位数、标识符增添系数、标识符增添位数比值得到游程合并必要性。

具体的，游程长度越小时，代表连续相同的数据越少，由于后续需要进行增添标识符，若连续相同的数据越少，代表减小的数据量少，此时减少的数据量小于增加的标识符所占位数，则游程值的重复数据的游程合并必要性为：

需要说明的是，本实施例中以b为3进行计算，在实施时可以设置为其他值，在此不进行固定限制，本实施例中以为1.5进行计算，在实施时可以设置为其他值，在此不进行固定限制，若w的值小于等于1，则合并的增益较小甚至会出现压缩率增大的情况，当w的值大于1时，才进行重复数据的游程化合并。需要说明的是，b表示标识符增添位数包括引导标识符和定位标识符。

2.根据统计直方图中字符类型对应二进制编码的长度和字符类型的字符频率得到每层比特块优选程度。

需要说明的是，通过统计直方图可得到融合后的数据字符类型的码字二进制长度的出现频率，在进行比特分层时，期望分层后的补码位数尽可能的少，层深尽可能浅，例如1100110001、1011、101111、101111、11011，若追求补0尽可能少，则比特位数可选择4、2、4分层，分层结果请参阅图5，其示出了所选比特位数的分层结果。此时标识符位数和补0位数的总和为11位。若追求层深尽可能少，则比特位数可选择6、4，则对应的分层表请参阅图6，其示出了所选比特位数的分层结果。此时得到的增添数据位数为9位。

进一步需要说明的是，通过上述比特位数的优选程度示例分析，比特位数优选程度可以根据字符类型对应二进制长度的字符频率进行比特块优选程度的计算，需要说明的是，字符类型、字符频率可以根据统计直方图获得，将统计直方图中的字符频数作为对应字符类型的字符频率，再次说明，比特位数为比特块中包含的二进制位个数，例如比特块大小为3，则比特位数即为3。当某一个字符二进制长度频率远远大于小于该长度的字符的数据频率时，优选程度越大（比特位数的优选程度）。

具体的，比特位数的优选程度具体计算如下：

式中表示比特位数/>的优选程度，r的取值为统计直方图中所有字符类型对应二进制编码的长度，/>表示字符类型对应二进制编码的长度等于r的第种字符的字符频率，/>表示字符类型对应二进制编码的长度等于r的字符类型个数，/>表示第i种字符转换为二进制编码后的编码长度为，/>表示字符总数量，/>表示字符类型对应二进制编码的长度小于r的字符类型个数，/>表示字符类型对应二进制编码的长度小于r的第k种字符的字符数量，表示字符类型对应二进制编码的长度小于r的第k种字符转换为二进制编码后的编码长度，/>表示二进制字符串的总长度。

进一步的，选择优选程度最大值所对应的比特块大小作为第一层的比特块，后续分层计算时，作为第一层的二进制位数不参与计算，将剩余二进制位数按照上述方法从新计算，得到第二层的比特块，依次获得后续分层的比特块，当剩余的二进制位数小于等于，不再进行比特块的计算，将剩余字符位数的最大值作为最后一层的比特块。

例如1100110001的二进制编码长度有10位，第一层被分走了6位，剩下4位，剩下的四位不在进行分层，则最后一层的比特位数即为4。本实施例中以x=40为例进行说明，实施时可以设置为其他值，本实施例不进行具体限定。

需要说明的是，字符的字符频率越大，该字符类型长度总和与小于该字符长度的字符类型长度总和的差异越大，代表后续补0越少，即该比特块大小的优选程度越大。

步骤S004、根据每层比特块大小优选程度确定的比特位数进行分层压缩，根据分层压缩后的数据进行预解码。

需要说明的是，通过上述计算获取每层的比特位数，根据上述规则对数据进行比特分层编码，将编码完成后的数据通过添加标识符变为一维数据序列，通过添加对应的标识符，将第二层的数据拼接到第一层之后，同理将第三层的数据拼接到第二层数据之后，以此类推，由此得到最终的一维数据。

进一步需要说明的是，通过上述操作后，将SQL数据库的多维度报表数据进行压缩处理，数据压缩后，若想精准解码需要操作的数据段或字符时，解码过程如下：

例如对于序列X={（4，10）、（6，21）、5、（3，19）}，比特块切分参数b=2，编码压缩后的序列X为一维数据，通过标识符将其转换为多层数据，则序列中每个数字对应的二进制编码与变长编码结果请参阅图7。

例如我们需要对例如需要还原第11位的数，则有--100--110-1---11，其中二进制100对应的十进制为4，二进制110对应的十进制为6，则读取到11位读到的字符为-1-对应的字符01，对应上述表格，C1为第一层，A1表示第一层的编码，B1表示标识符，第11个数对应的编码为01，标识符为1，具体在表中的第5列位置，由于第11位数的第一层标识符为1，说明第11位数分层之后还有第二层，对应到第二层中的第五列位置为01，此时标识符为0，说明第11位的数没有下一层，结束，得到对应的二进制编码为：0101，去掉首位补0后为101，其二进制解码对应的数据值为5，此时即可得到所需数据。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于SQL数据库的多维度报表数据优化压缩方法，其特征在于，该方法包括以下步骤：

获取SQL数据库多维度报表数据；

根据每层比特块大小优选程度确定的比特位数进行分层压缩，根据分层压缩后的数据进行预解码；其中，

所述根据游程值的重复字符二进制位数、重复位数与标识符增添系数、标识符增添位数得到重复字符游程合并必要性，包括的具体步骤如下：

式中，/>表示游程值的重复数据的游程合并必要性，/>表示重复字符的单字符二进制位数，即游程值的二进制位数，n表示重复位数，即游程长度，b表示标识符增添位数，/>表示标识符增添系数；

所述根据二进制编码的长度等于比特位数的所有字符类型的二进制编码的长度和频率，得到比特位数的优选程度，包括的具体步骤如下：

式中/>表示比特位数/>的优选程度，r的取值为统计直方图中所有字符类型对应二进制编码的长度，/>表示字符类型对应二进制编码的长度等于r的第/>种字符的字符频率，/>表示字符类型对应二进制编码的长度等于r的字符类型个数，/>表示第i种字符转换为二进制编码后的编码长度，/>表示字符总数量，/>表示字符类型对应二进制编码的长度小于r的字符类型个数，/>表示字符类型对应二进制编码的长度小于r的第k种字符的字符数量，/>表示字符类型对应二进制编码的长度小于r的第k种字符转换为二进制编码后的编码长度，/>表示二进制字符串的总长度。

2.根据权利要求1所述基于SQL数据库的多维度报表数据优化压缩方法，其特征在于，所述根据比特块切分参数将融合后的数据中的游程值的二进制编码进行切分及添加引导标识符，包括的具体步骤如下：

3.根据权利要求1所述基于SQL数据库的多维度报表数据优化压缩方法，其特征在于，所述根据切分后的二进制编码进行分层及添加定位标识符，包括的具体步骤如下：