CN115276662B

CN115276662B - 一种微服务用户信息高效压缩传输方法

Info

Publication number: CN115276662B
Application number: CN202210891833.6A
Authority: CN
Inventors: 路丽娜; 王忠伟; 丁鹏亮; 胡月
Original assignee: Hangzhou Yuema Senchuang Information Technology Co ltd
Current assignee: Hangzhou Yuema Senchuang Information Technology Co ltd
Priority date: 2022-07-27
Filing date: 2022-07-27
Publication date: 2023-01-31
Anticipated expiration: 2042-07-27
Also published as: CN115276662A

Abstract

本发明涉及通信技术领域，具体涉及一种微服务用户信息高效压缩传输方法，获取微服务中的用户信息的二进制编码，将每四位二进制数字作为一个编码段，将用户信息的二进制编码进行划分为多个目标编码区间，将每个编码区间中概率大于其他概率之和编码段特征编码段，将每个目标编码区间中的特征编码段对应的的四位二进制数字作为一个特征数据段，其他编码段对应的二进制数据为非特征数据段，将每个特征数据段和其前一个特征数据段之间的非特征数据作为检错数据，对检错数据进行模二除法运算判断该特征数据段所在位是否为压缩位，对每个编码区间中处于压缩位上的每个特征数据段使用一个空位进行替换，进行压缩传输，提高了数据压缩传输效率。

Description

一种微服务用户信息高效压缩传输方法

技术领域

本申请涉及通信技术领域，具体涉及一种微服务用户信息高效压缩传输方法。

背景技术

随着科技的发展，软件行业的开发逐渐完善，单体应用其架构也因为部署成本高，改动影响大，部署频率低等缺点而被逐渐抛弃，取而代之重新崛起的是微服务架构，微服务架构因为其开发、运行、维护和业务切分等方面的优点越来越受到人们的关注。而微服务中用户信息的处理一直因为其繁琐的操作手续备受诟病，所以需要在对微服务中的用户信息进行压缩后用于传输，以提高处理的效率，对于微服务中用户信息压缩之后的传输，往往需要进行检错，来确定信息的正确性和完整性。

常规的对于微服务中用户信息压缩传输方式为，先对用户信息进行单次压缩，并且在压缩的信息之后增加校验码，然后将压缩的信息和校验码作为整体数据传输给接收信息方，接收信息方根据整体数据中的校验码对压缩信息进行校验，判断信息是否正确，例如常规的检错方法为CRC检错码，即循环冗余校验码，包含信息字段和校验字段，通常为在128位二进制编码之后添加额外的一定数量的校验码，接收方根据校验码对传输的信息进行检错，此种常规压缩传输方式，在压缩的信息之后增加校验码时，占用了额外的空间，当传输数据量大时，使用额外的空间来设定校验码进行检错会增加数据传输量，进而影响压缩传输效率。

发明内容

本发明提供一种微服务用户信息高效压缩传输方法，解决信息压缩后检错效率低的问题，采用如下技术方案：

获取微服务中的用户信息的二进制编码，并将每四位二进制作为一个编码段；

对用户信息的二进制编码设置初始编码区间，根据初始编码区间中每个编码段出现的次数得到每个编码段的概率；

若初始编码区间中出现概率大于其他概率之和的编码段，则该编码段为特征编码段，初始编码区间为目标编码区间，否则，增加初始编码区间长度，直至区间中出现特征编码段为止，将出现特征编码段时的初始编码区间作为目标编码区间；

将每个目标编码区间的特征编码段对应的四位二进制数字作为特征数据段，将其他数字对应的四位二进制数字作为非特征数据段；

将每个特征数据段和其前一个相邻的特征数据段之间的非特征数据段作为检错数据，对检错数据进行模二除法运算，根据模二除法运算得到的商和余数之和判断该特征数据段所在位是否为压缩位；

将每个目标编码区间中处于压缩位上的特征数据段使用一个空位进行替换，将替换后的目标编码进行压缩传输。

所述获取微服务中的用户信息的二进制编码的具体方法为：

利用GZIP对微服务中的用户信息初次编码，得到微服务中的用户信息的二进制编码。

所述每个编码段的概率的另一种获取方法为：

将初始编码区间中每个编码段转化为十进制数字，统计该十进制数字在初始编码区间中出现的次数得到每个编码段的概率。

所述目标编码区间的获取方法的方法为：

设定初始编码区间长度A；

计算初始编码区间中每个编码段出现的次数得到每个编码段的概率；

根据每个编码段的概率判断初始编码区间是否为目标编码区间：

若存在编码段X的概率大于其他编码段的概率之和，则该初始区间为目标编码区间，编码段X为该目标编码区间的特征编码段，否则，该初始编码区间不是目标编码区间；

若初始编码区间不是目标编码区间，则增加初始编码区间长度，每次增加初始编码区间长度为α，直至增加长度后的编码区间中出现特征编码段为止，将出现特征编码段时的编码区间作为目标编码区间。

所述将每个目标编码区间的特征编码段对应的四位二进制数字作为特征数据段的同时，若一个特征数据段的末位与另一个特征数据段的首位相邻，则将二者合并为同一个特征数据段。

所述根据模二除法运算得到的商和余数之和判断该特征数据段所在位是否为压缩位的方法为：

将检错数据作为被除数，该特征数据段作为除数，对检错数据进行模二除法运算，得到商和余数；

将商和余数相加，若相加后得到的数字最后一位为0，则该特征数据段所在位为非压缩位，若相加后得到的数字最后一位为1，则该特征数据段所在位为压缩位。

所述将替换后的目标编码进行压缩传输的方法为：

将每个编码区间中处于压缩位上的特征数据段使用一个空位进行替换，并在第一个空位上添加该编码区间中的特征数据作为标识符，处于非压缩位上的特征数据段和其他非特征数据段不变，对该编码区间内的所有数据进行整体传输。

所述空位需要延迟一个时钟信号传输。

本发明的有益效果是：对微服务中的用户信息进行预处理，使其结构化便于压缩；将机构化后的用户信息使用常规GZIP方式进行初次编码得到用户信息的二进制编码，将每4个字节的二进制数据转化为十进制，而后根据十进制数据出现的概率进行自适应划分区间，该方法将4位二进制转化为十进制化并且根据其概率进行自适应划分，在使得区间最短的情况下，确保每个区间内某4位的二进制编码的重复性较高，从而使得压缩效率更大；在划分编码区间的基础上，利用每个区间的二进制编码中自身含有特征数据对当前区间进行检错，通过检测结果再确定压缩位，利用特征数据对处于压缩位的特征数据进行压缩，在利用每个区间自身数据特征压缩的基础上，进行检错，且不使用额外的空间来添加任何的冗余检错编码，提高了压缩效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的一种微服务用户信息高效压缩传输方法流程示意图；

图2是本发明的一种微服务用户信息高效压缩传输方法中的特征数据和非特征数据示意图；

图3是本发明的一种微服务用户信息高效压缩传输方法中选择出的检错数据示意图；

图4是本发明的一种微服务用户信息高效压缩传输方法中非特征数据后紧跟一个压缩位的示意图；

图5是本发明的一种微服务用户信息高效压缩传输方法中特征数据后紧跟一个非压缩位的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的一种微服务用户信息高效压缩传输方法的实施例，如图1所示，包括：

步骤一：获取微服务中的用户信息的二进制编码，并将每四位二进制作为一个编码段；

该步骤的目的是，对待传输的微服务的用户信息进行预处理，包括结构化处理和初次编码压缩，得到用户信息的二进制编码。

其中，获取微服务中的用户信息的二进制编码的方法为：

首先对微服务中的用户信息进行结构化的处理，结构化处理方式为“时间”+“用户ID”+“操作方式”，即微服务的所有用户信息以上述结构进行存储，而后利用GZIP的压缩方式对结构化处理之后的微服务用户信息进行初次编码压缩，得到微服务中的用户信息的二进制编码，获得了微服务用户信息数据初次压缩后的二进制编码D_I，I为二进制编码的长度；

其中，GZIP的编码压缩方式主要为首先对结构化的微服务用户信息进行基于lz77编码压缩，获得lz77编码压缩后的结构化数据的压缩编码，而后利用Hofmann编码技术对已经利用lz77编码压缩后的编码进行再次压缩，并将微服务中的用户信息的二进制编码中每四位二进制作为一个编码段。

步骤二：对用户信息的二进制编码设置初始编码区间，根据初始编码区间中每个编码段出现的次数得到每个编码段的概率；若初始编码区间中出现概率大于其他概率之和的编码段，则该编码段为特征编码段，初始编码区间为目标编码区间，否则，增加初始编码区间长度，直至区间中出现特征编码段为止，将出现特征编码段时的初始编码区间作为目标编码区间；

该步骤的目的是，对微服务用户信息的二进制数据进行编码区间划分，并获取到每个编码区间内每个编码段出现概率的概率，根据概率选出该区间的数据特征量。

其中，每个编码段的概率的获取方法为：

获取用户信息的二进制编码信息，长度为I，对用户信息的二进制编码设置初始编码区间，长度为A，该区间从用户信息的二进制编码信息第一位开始，到第A位结束；

计算初始编码区间中每个编码段该在区间中所有编码段中出现的次数得到每个编码段的概率；

其中，每个编码段的概率的另一种获取方法为：

对于二进制编码，利用现有技术以每个编码段即每4位二进制(将后续的检错码的设置为4位)转化为一个十进制数字，获得用户信息的二进制编码对应十进制编码序列D′_I′，其中I′为十进制编码序列整体长度，

且D′_i′∈[0,15])，第i个十进制编码表示为为D′_i′，因为4位二进制最小值为0000，最大值为1111，所以转化为十进制后最大的十进制数字为15，最小值为0；

对用户信息的十进制编码，设置初始编码区间，长度为A，计算初始编码区间中每个十进制数字出现的概率，将其作为该十进制数字对应的编码段的概率，其中，A为经验值，本实施例中，若采用十进制数字计算概率，则A的值为128，128个十进制数字，因为常规的校验方式规定的校验码的区间长度为128位，若D′_I长度小于128则以其本身长度为初始区间长度，若D′_I长度大于等于128，则以128作为初始区间长度，初始编码区间为用户信息的十进制编码的第一个十进制数字到第A个十进制数字为止；若采用二进制编码段计算概率，则A的值为512。

需要说明的是常规的分区压缩编码的方式为基于比特位数进行固定比特位数的分区，这种分区压缩方式在对数据进行固定位的压缩，分区时所选择的比特位数过长，压缩时检索效率太慢；分区时选择的比特位数过小，未压缩的相同数据不在同一个区间无法压缩。

针对上述问题，所以本实施例利用编码的结构性特征将每4位的二进制数据转换为十进制数字，而后根据十进制数据出现的概率进行自适应划分区间，该方法的有益效果为：将4位二进制数字进行十进制化并且根据其概率进行自适应划分，使得编码区间最短的情况下，确保每个区间内某个4位的二进制编码的重复性较高，从而使得压缩效率更大，并且转换为十进制后减少了计算量，更加简单快速的计算出概率。

其中，目标编码区间的获取方法的方法为：根据每个编码段的概率判断初始编码区间是否为目标编码区间：若存在编码段X的概率大于其他编码段的概率之和，则该初始区间为目标编码区间，编码段X为该目标编码区间的特征编码段，否则，该初始编码区间不是目标编码区间；若初始编码区间不是目标编码区间，则增加初始编码区间长度，每次增加初始编码区间长度为α，直至增加长度后的编码区间中出现特征编码段为止，将出现特征编码段时的编码区间作为目标编码区间。

本实施例选择利用将每个编码段转化为十进制数字的方式来获取目标编码区间和特征编码段：

(1)获取初始编码区间中每个十进制数字的概率；

(2)根据每个十进制数字的概率判断初始编码区间是否为目标编码区间：

(3)若存在十进制数字M的概率大于其他十进制数字概率之和，则该初始区间为目标编码区间，十进制数字M为该目标编码区间的特征数字，十进制数字M对应的二进制编码段为特征编码段，否则，该初始编码区间不是目标编码区间；

(4)若初始编码区间不是目标编码区间，则增加初始编码区间长度，每次增加初始编码区间长度为α，直至增加长度后的编码区间中出现特征数字为止，将出现特征数字时的编码区间作为目标编码区间，将目标编码区间的特征数字对应的二进制编码段作为特征编码段。

按照上述方法，在初始区间长度的基础上进行自适应区间长度的划分：

以第1个区间为例，其区间内的数据为：[D′_1′,D′_128′]，分别计算其中每个十进制数字的出现概率，即每个十进制数字在该区间中出现的次数作为概率，概率的计算方法为，每个数据出现的次数与区间的总数字个数进行比值，可获得该区间内每个十进制数字D′_i′出现的概率，可获得最多16种概率(因为每个十进制数字的范围为[0,15]；进行概率判断，判断这区间中每个十进制数字的概率中的最大概率是否大于其余剩余所有概率之和：若区间内存在这种概率，最大概率对应的十进制数字为特征数字，当前区间长度即为目标区间长度；若区间内不存在这种概率，则对区间进行加长自适应，每次增加区间长度为α，一个α的经验值为

再重新计算增加长度后的区间内每个十进制数字出现的概率，进行概率判断，重复上述过程，直至第一个区间满足概率判断条件时，第一个区间长度自适应完成，利用上述方式完成所有区间长度的自适应，可将十进制编码划分为J个十进制编码区间。

步骤三：将每个目标编码区间的特征编码段对应的四位二进制数字作为特征数据段，将其他数字对应的四位二进制数字作为非特征数据段；将每个特征数据段和其前一个相邻的特征数据段之间的非特征数据段作为检错数据，对检错数据进行模二除法运算，根据模二除法运算得到的商和余数之和判断该特征数据段所在位是否为压缩位；

该步骤的目的是，利用每个编码区间中的特征数据件将每个编码区间进行分段，根据非特征数据和特征数据判断出每个区间中的压缩位；

需要说明的是，将步骤二中得到的J个十进制编码区间对每个区间的最大概率对应的特征数字进行记录并对所有区间内的每一个数据进行转二进制操作，获得J个二进制值编码区间，并且得到每个区间中的十进制特征数字对应的特征编码段。

其中，根据每个目标编码区间中每个特征数据的起止位为端点，将每个目标编码区间分为多个特征数据段和非特征数据段的方法为：

(1)获取每个目标编码区间中的特征编码段对应的所有的四位二进制数字；

(2)将每个特征编码段对应每个四位二进制数字作为一个特征数据段，若一个特征数据段的末位与另一个特征数据段的首位相邻，则合并为同一个特征数据段；

(3)将特征数据段之外的其他二进制数字作为非特征数据段，本方法是获取每个编码在区间中的特征编码段，将每个目标编码区间分为多个分段，如图2所示，特征编码段对应的数据为特征数据，非特征编码段对应的数据为非特征数据，每个目标编码区间中的特征数据和非特征数据，为了保证特征编码段和非特征编码段是相间出现，若一个特征数据段的末位与另一个特征数据段的首位相邻，则将二者合并为同一个特征数据段。

需要说明的是，常规的数据压缩技术在对微服务用户信息进行压缩的时候，需要添加额外的检错码进行检错，造成编码冗余，本发明在利用微服务用户信息的二进制编码中的特征数据的基础上，利用特征数据进行压缩位(对处于压缩位上的特征数据进行压缩，处于非压缩位上的特征数据不进行压缩)的计算，在牺牲较少二次压缩的效率的情况下，利用检错结果和压缩位对微服务用户信息进行二次压缩。具体实现过程如下所示：

本步骤以第j个微服务用户信息的二进制编码区间为例(j∈[1,J])，其利用区间内特征数据压缩检错的具体方式如下：

获取第j个二进制编码区间的特征数据，选择方式为上述中第j个编码区间中的特征数字对应的特征编码(4位二进制编码，即出现概率最大的十进制数据所对应的4位二进制编码)利用该特征编码对应的十进制编码的出现概率进行区域划分，所以选择该数据作为特征值对整个区间的数据进行压缩来确保达到最高的压缩效率，而每个区间的二进制编码和十进制编码具有唯一对应性，即每一个十进制编码对应相应的二进制编码，不会产生混乱。

其中，将每个特征数据段和其前一个相邻的特征数据段之间的非特征数据段作为检错数据，对检错数据进行模二除法运算，根据模二除法运算得到的商和余数之和判断该特征数据段所在位是否为压缩位的方法如下：

(1)获取每个特征数据段和其前一个特征数据段之间的非特征数据，将该非特征数据作为检错数据，将该检错数据作为被除数，该组特征数据作为除数，对非特征数据进行模二除法运算，得到商和余数；

以第n组特征数据为例，首先选择第n-1组特征数据之后，并且在第n组特征数据之前的非特征数据，将其作为检错数据，如图3所示，第n-1组特征数据和第n组特征数据之间的非特征数据为所选数据(检错数据)。

(2)将商和余数相加，若相加后得到的数字最后一位为0，则该特征数据段所在位为非压缩位，若相加后得到的数字最后一位为1，则该特征数据段所在位为压缩位。

本步骤是对每个编码区间中的非特征数据(检错数据)进行模二除法进行计算，模二除法中被除数为所选的非特征数据(检错数据)，除数为特征数据，以第n组特征数据为例，利用模二除法对所选中的该非特征数据进行计算可获得商和余数R_n和Q_n，接着对R_n和Q_n进行相加取最后一位进行判断，若相加后的最后一位为“0”，则认为第n组特征数据为非压缩位；若相加后的最后一位“1”，则认为第n组特征数据为压缩位。

第n组特征数据和第n-1特征数据之间的非特征数据(检错数据)虽然具有自身的结构特征，具体为相应的长度和值都为二进制结构，但是由于模二除法计算时本质上为二进制的与或运算，所以必然可以与第n组的特征数据进行模二除法运算，并且在模二除法运算的过程之前，已经将所有与除数相同的数据结构的4个字节长度的数据命名为特征数据，故利用模二除法将第n组特征数据之前的非特征数据与第n组特征数据计算，一定可以获得相应的商和余数R_n和Q_n用来作为压缩位的计算。

(3)以第j个区间的第n组数据的压缩位的计算方式对整体编码数据进行计算，可获得整体微服务用户信息的二进制编码数据的每个编码区间中的压缩位和非压缩位。

步骤四：将每个目标编码区间中处于压缩位上的特征数据段使用一个空位进行替换，将替换后的目标编码进行压缩传输。

该步骤的目的是利用特征数据实现编码的压缩传输，提升了传输效率。

其中，对每个编码区间中处于压缩位上的每个特征数据段使用一个空位进行替换，将替换后的编码进行压缩传输的具体方法为：

根据压缩位与非压缩为对整体数据进行压缩，具体以第j个区间为例，对第j个区间内的所有的处于压缩位上的特征数据段进行置换，以一个空位作为置换(后续传输过程中遇见空位可以延迟一个时钟信号进行传输作为区分)，并在第j个区间中的第一个空位处添加该区间的特征数据作为标识符；对于处于非压缩位上的特征数据段不进行压缩，因为上述的数据分区的过程中，每个区间的划分为以该区间含有大量的特征数据段作为基础，所以以特征数据段对整个区间进行压缩具有相对来说较高的压缩率；

至此，完成了所有微服务用户信息的二进制编码的压缩传输。

其中，所有微服务用户信息的二进制编码整体数据的检错过程如下：

接收端收到压缩后的微服务用户信息的数据后，对第j个区间的特征数据进行检索，而后根据特征数据对压缩位和未压缩位进行定位，可获得两种情况：

第一种情况：一组非特征数据后紧跟一个压缩位，如图4所示，该情况下为一组非特征数据后紧跟一个压缩位，检错方式以第n组特征数据为例(第n组特征数据处于压缩位上)，利用该压缩位前的非特征数据与第j个区间的特征数据进行模二除法获得商和余数R_n和Q_n，而后对其进行求和运算，取求和结果的最后一位进行判断，若最后一位为“1”，则该压缩位之前至上一个压缩位或非压缩为位之间的非特征数据传输过程中未收到信道或其他因素的影响未出错；若最后一位为“0”，则该压缩位之前至上一个压缩位或非压缩为位之间的非特征数据传输过程中收到信道或其他因素的影响出错。

第二种情况：一组非特征数据后紧跟一个非压缩位，用来检错的数据后面跟了个非压缩位，如图5所示，检错方式以第n组特征数据为例(第n组特征数据处于非压缩位上)，利用该非压缩位前的非特征数据与第j个区间的特征数据进行模二除法获得商和余数R_n和Q_n，而后对其进行求和运算，取求和结果的最后一位进行判断，若最后一位为“0”，则该非压缩位之前至上一个压缩位或非压缩为位之间的非特征数据传输过程中未收到信道或其他因素的影响未出错；若最后一位为“1”，则该非压缩位之前至上一个压缩位或非压缩为位之间的非特征数据传输过程中收到信道或其他因素的影响出错。

至此，整体微服务用户信息的检错压缩完成，利用上述的步骤可以获得所有的微服务中用户信息的压缩检错编码，现对其进行传输，传输的方式为：对每个区间的二进制压缩检错编码数据进行分别传输，数据的传输格式为，在上述步骤二中所预留的特征数据标识位上添加该区间特征数据作为标识符，而后对该区间内的压缩检错数据进行整体传输即可。

本实施例中对整体微服务用户信息的二进制编码进行了区间划分，现对每个区间进行检错码的获取和利用检错码对区间内数据进行检错并对检测特征进行量化，常规的编码的检测方式为利用添加冗余码的方式进行检错，但是检错长度常规选择为128位，即意味着每128为编码需要添加相应的检错码进行检错，造成了一定的数据冗余。

本实施例首先对微服务用户数据的GZIP压缩编码进行分区，在二进制编码分区的基础上，获取每个区间内的编码进行特征数据，利用每个区间的二进制编码中自身含有特征数据对当前区间进行检错，而后通过检测结果再确定压缩位，而后利用特征数据对处于压缩位的特征数据进行压缩。较常规的检错方式在利用每个区间自身数据特征压缩的基础上，进行检错，且不用添加任何的冗余编码，提高了压缩效率。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种微服务用户信息高效压缩传输方法，其特征在于，包括：

2.根据权利要求1所述的一种微服务用户信息高效压缩传输方法，其特征在于，所述获取微服务中的用户信息的二进制编码的具体方法为：

3.根据权利要求1所述的一种微服务用户信息高效压缩传输方法，其特征在于，所述每个编码段的概率的另一种获取方法为：

4.根据权利要求1所述的一种微服务用户信息高效压缩传输方法，其特征在于，所述目标编码区间的获取方法的方法为：

设定初始编码区间长度A；

若存在编码段X的概率大于其他编码段的概率之和，则该初始编码区间为目标编码区间，编码段X为该目标编码区间的特征编码段，否则，该初始编码区间不是目标编码区间；

5.根据权利要求1所述的一种微服务用户信息高效压缩传输方法，其特征在于，所述将每个目标编码区间的特征编码段对应的四位二进制数字作为特征数据段的同时，若一个特征数据段的末位与另一个特征数据段的首位相邻，则将二者合并为同一个特征数据段。

6.根据权利要求1所述的一种微服务用户信息高效压缩传输方法，其特征在于，所述根据模二除法运算得到的商和余数之和判断该特征数据段所在位是否为压缩位的方法为：

7.根据权利要求1所述的一种微服务用户信息高效压缩传输方法，其特征在于，所述将替换后的目标编码进行压缩传输的方法为：

8.根据权利要求7所述的一种微服务用户信息高效压缩传输方法，其特征在于，所述空位需要延迟一个时钟信号传输。