CN117082154A - 基于大数据的双路服务器数据存储系统 - Google Patents
基于大数据的双路服务器数据存储系统 Download PDFInfo
- Publication number
- CN117082154A CN117082154A CN202311330141.5A CN202311330141A CN117082154A CN 117082154 A CN117082154 A CN 117082154A CN 202311330141 A CN202311330141 A CN 202311330141A CN 117082154 A CN117082154 A CN 117082154A
- Authority
- CN
- China
- Prior art keywords
- length
- sequence
- compressed
- compression
- sub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013500 data storage Methods 0.000 title claims abstract description 20
- 230000006835 compression Effects 0.000 claims abstract description 132
- 238000007906 compression Methods 0.000 claims abstract description 132
- 238000000034 method Methods 0.000 claims abstract description 19
- 108091026890 Coding region Proteins 0.000 claims abstract description 13
- 238000010586 diagram Methods 0.000 description 5
- 230000006837 decompression Effects 0.000 description 4
- 229910002056 binary alloy Inorganic materials 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L69/00—Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
- H04L69/04—Protocols for data compression, e.g. ROHC
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L1/00—Arrangements for detecting or preventing errors in the information received
- H04L1/22—Arrangements for detecting or preventing errors in the information received using redundant apparatus to increase reliability
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Security & Cryptography (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明涉及数据存储技术领域,具体涉及基于大数据的双路服务器数据存储系统,包括:根据每种长度的两个二进制数的按位异或运算结果获得每种长度对应的所有待压缩编码和所有待压缩编码的压缩编码;统计每种长度对应的不属于待压缩编码的子序列的数量;根据每种长度的压缩效率获得最优长度;将不属于最优长度对应的待压缩编码的子序列转换为属于最优长度对应的待压缩编码的子序列;将服务器二进制数据序列的编码结果和位置编码序列作为服务器二进制数据序列的压缩结果。本发明根据两个二进制数按位异或运算结果和偏移一位后按位异或运算结果的长度大于两个二进制数的长度的特点,获得最优长度,使服务器二进制数据序列的压缩效率最大化。
Description
技术领域
本发明涉及数据存储技术领域,具体涉及基于大数据的双路服务器数据存储系统。
背景技术
双路服务器是一种具有冗余备份功能的服务器,可以提供更高的可靠性和容错能力,双路服务器是二进制系统,因此,在将数据存储到双路服务器之前,需要通过编码和压缩方法将数据转换为二进制形式。
为了提高双路服务器的系统性能,需要对存储到双路服务器上的二进制形式的数据进行二次压缩;由于二进制形式的数据是有0和1两种码数组成的数据,常规的基于多种数据的频率进行压缩的霍夫曼编码、字典压缩算法(如LZW压缩)以及算数编码都不适用于对二进制形式的数据进行压缩。
发明内容
为了解决上述问题,本发明提供基于大数据的双路服务器数据存储系统,所述系统包括:
数据编码模块,用于对存储到双路服务器的数据进行编码,获得服务器二进制数据序列;
最优长度获取模块,用于根据每种长度的两个二进制数的按位异或运算结果获得每种长度对应的所有待压缩编码和每种长度对应的所有待压缩编码的压缩编码;根据每种长度将服务器二进制数据序列划分为子序列,统计每种长度对应的不属于待压缩编码的子序列的数量;根据每种长度对应的待压缩编码、每种长度对应的待压缩编码的压缩编码以及每种长度对应的不属于待压缩编码的子序列的数量,计算每种长度的压缩效率;根据每种长度的压缩效率获得最优长度;
压缩结果存储模块,用于将不属于最优长度对应的待压缩编码的子序列转换为属于最优长度对应的待压缩编码的子序列;根据所有属于最优长度对应的待压缩编码的子序列的压缩编码获得服务器二进制数据序列的编码结果;获得位置编码序列;将服务器二进制数据序列的编码结果和位置编码序列作为服务器二进制数据序列的压缩结果;将服务器二进制数据序列的压缩结果存储在双路服务器上。
进一步地,所述获得每种长度对应的所有待压缩编码和每种长度对应的所有待压缩编码的压缩编码,包括的具体步骤如下:
将[2,C]范围内的每个整数作为长度,C表示预设最大长度,将任意一个长度作为目标长度c,将长度等于c的所有二进制数记为目标二进制数,获得每两种目标二进制数按位异或运算结果以及偏移一位后按位异或运算结果;
将每两种目标二进制数按位异或运算结果以及偏移一位后按位异或运算结果拼接组成的长度等于2c+1的二进制数作为目标长度对应的待压缩编码,将每两种目标二进制数拼接组成的长度等于2c的二进制数作为目标长度对应的待压缩编码的压缩编码。
进一步地,所述计算每种长度的压缩效率,包括的具体步骤如下:
式中,表示目标长度c的压缩效率,L表示服务器二进制数据序列的长度,/>表示向下取整,s表示目标长度对应的不属于待压缩编码的子序列的数量;
依此类推,计算所有长度的压缩效率。
进一步地,所述获得最优长度,包括的具体步骤如下:
如果所有长度的压缩效率的最大值大于0,将压缩效率最大的长度记为最优长度。
进一步地,所述将不属于最优长度对应的待压缩编码的子序列转换为属于最优长度对应的待压缩编码的子序列,包括的具体步骤如下:
获得最优长度对应的待压缩编码以及最优长度对应的待压缩编码的压缩编码,将服务器二进制数据序列划分为长度等于2y+1的若干个子序列,其中,y表示最优长度;对不属于最优长度对应的待压缩编码的子序列的第一位进行转换,将不属于最优长度对应的待压缩编码的子序列转换为属于最优长度对应的待压缩编码的子序列。
进一步地,所述对不属于最优长度对应的待压缩编码的子序列的第一位进行转换,包括的具体步骤如下:
如果不属于最优长度对应的待压缩编码的子序列的第一位为第一码数,将不属于最优长度对应的待压缩编码的子序列的第一位转换为第二码数,如果不属于最优长度对应的待压缩编码的子序列的第一位为第二码数,将不属于最优长度对应的待压缩编码的子序列的第一位转换为第一码数。
进一步地,所述获得服务器二进制数据序列的编码结果,包括的具体步骤如下:
根据最优长度对应的待压缩编码以及最优长度对应的待压缩编码的压缩编码,获得所有属于最优长度对应的待压缩编码的子序列的压缩编码,将所有属于最优长度对应的待压缩编码的子序列的压缩编码按照先后顺序组成的序列作为服务器二进制数据序列的编码结果。
进一步地,所述获得位置编码序列,包括的具体步骤如下:
按照从左到右的顺序所有子序列的序号分别为1到,用长度等于的定长编码对子序列的序号进行编码,其中,y表示最优长度,L表示服务器二进制数据序列的长度,/>表示向下取整,获得所有不属于最优长度对应的待压缩编码的子序列的编码组成的位置编码序列。
进一步地,所述第一码数、第二码数的获取方法具体如下:
将0记为第一码数,将1记为第二码数。
进一步地,所述获得服务器二进制数据序列,包括的具体步骤如下:
对于属于图像、视频和音频的数据,通过霍夫曼编码进行编码,对于属于文件的数据,通过UTF16编码方式进行编码,获得服务器二进制数据序列。
本发明的技术方案的有益效果是:针对常规的基于多种数据的频率进行压缩的霍夫曼编码、字典压缩算法以及算数编码都不适用于对二进制形式的数据进行压缩的问题,本发明根据两个二进制数按位异或运算结果和偏移一位后按位异或运算结果的长度大于两个二进制数的长度,因此,可以考虑将两个二进制数按位异或运算结果和偏移一位后按位异或运算结果拼接作为待压缩数据,将两个二进制数拼接作为压缩结果,以此实现对二进制数据的压缩;为了使服务器二进制数据序列的压缩效率最大化,综合压缩减少的数据量和为了记录所有不属于最优长度对应的待压缩编码的子序列的位置而增加的数据量,获得将服务器二进制数据序列划分的不同长度的二进制数的压缩效率,进而获得最优长度,使服务器二进制数据序列的压缩效率最大化。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的基于大数据的双路服务器数据存储系统的系统框图;
图2为按位异或运算结果和偏移一位后按位异或运算结果的示意图;
图3为每两个长度等于2的二进制数按位异或运算结果和偏移1后按位异或运算结果的示意图;
图4为待压缩数据和压缩结果的对应关系。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的基于大数据的双路服务器数据存储系统,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的基于大数据的双路服务器数据存储系统的具体方案。
请参阅图1,其示出了本发明一个实施例提供的基于大数据的双路服务器数据存储系统,该系统包括以下模块:
数据编码模块101,用于对存储到双路服务器的数据进行编码,获得服务器二进制数据序列。
需要说明的是,双路服务器是二进制系统,因此,在将数据存储到双路服务器之前,需要通过编码和压缩方法将数据转换为二进制形式。
具体的,对需要存储到双路服务器的数据,根据数据类型对数据进行编码,获得服务器二进制数据序列,具体的:对于属于图像、视频和音频的数据,通过无损压缩方法进行编码,常见无损压缩方法包括:霍夫曼编码、LZW编码、算数编码和游程编码等,本实施例中使用的无损压缩方法为霍夫曼编码;对于属于文件的数据,通过文本编码方式进行编码,常见文本编码方式包括:UTF8编码方式、UTF16编码方式、GB2312编码方式、ASCII编码方式等,本实施例中使用的文本编码方式为UTF16编码方式。
最优长度获取模块102,用于根据每种长度的两个二进制数的按位异或运算结果获得每种长度对应的所有待压缩编码和每种长度对应的所有待压缩编码的压缩编码;根据每种长度将服务器二进制数据序列划分为子序列,统计每种长度对应的不属于待压缩编码的子序列的数量;根据每种长度对应的待压缩编码、每种长度对应的待压缩编码的压缩编码以及每种长度对应的不属于待压缩编码的子序列的数量,计算每种长度的压缩效率;根据每种长度的压缩效率获得最优长度。
需要说明的是,对于长度为x的两个二进制数据D1和D2,按位异或运算结果P1的长度等于x,偏移一位后按位异或运算结果P2的长度等于x+1;请参阅图2,其示出了按位异或运算结果和偏移一位后按位异或运算结果的示意图,对于两个长度x=6的二进制数据D1=101010和D2=010101,两个二进制数据按位异或运算结果P1=111111,长度等于6,两个二进制数据偏移一位后按位异或运算结果P2=1000001,长度等于7。因此,对于任意两个二进制数据D1和D2,可以通过按位异或运算操纵,获得两个二进制数据按位异或运算结果以及偏移一位后按位异或运算结果;反之,根据两个二进制数据按位异或运算结果P1和两个二进制数据偏移一位后按位异或运算结果P2,就可以按照之字形解码还原这两个二进制数据D1和D2,即两个二进制数据按位异或运算结果P1和两个二进制数据偏移一位后按位异或运算结果P2,与两个二进制数据D1和D2唯一对应。其中,对于长度为x的两个二进制数据D1和D2,按位异或运算结果P1的长度等于x,偏移一位后按位异或运算结果P2的长度等于x+1,则P1+P2的长度等于2x+1,D1+D2的长度等于2x,则D1+D2的长度小于P1+P2的长度,因此,可以考虑将P1+P2作为待压缩数据,将D1+D2作为压缩结果,以此实现对二进制数据的压缩。
进一步需要说明的是,针对长度等于2的所有二进制数,请参阅图3,其示出了每两个长度等于2的二进制数按位异或运算结果和偏移1后按位异或运算结果的示意图,将每两个长度等于2的二进制数按位异或运算结果和偏移1后按位异或运算结果合并为一个5位二进制数,将每两个长度等于2的二进制数合并为一个4位二进制数,针对上述将P1+P2作为待压缩数据、D1+D2作为压缩结果的压缩方法,请参阅图4,其示出了待压缩数据和压缩结果的对应关系;观察图4发现其中只有部分5位二进制数,因此,不是所有的5位二进制数都存在对应的压缩结果,其中,00000、11000、01001、10001、01010、10010、00011、11011、01100、10100、00101、11101、00110、11110、01111、10111这16个5位二进制数有对应的压缩结果,而10000、01000、11001、00001、11010、00010、10011、01011、11100、00100、10101、01101、10110、01110、11111、00111这16个5位二进制数不存在对应的压缩结果,对于不存在对应的压缩结果的5位二进制数,可以通过对5位二进制数的第一位的码数进行转换,将其转换为有对应的压缩结果的5位二进制数,进而获得对应的压缩结果,同时记录不存在对应的压缩结果的5位二进制数的位置,以此保证解压的准确性。
进一步需要说明的是,对于长度为x的两个二进制数据D1和D2,压缩效率为,则二进制数据的长度越小,则压缩效率越高,同时,为了保证解压的准确性,需要记录不存在对应的压缩结果的二进制数的位置,记录的位置会增加压缩后的数据量,记录的位置的数量越少,则压缩效率越高,因此,综合获得将服务器二进制数据序列划分的不同长度的二进制数的压缩效率,进而使服务器二进制数据序列的压缩效率最大化。
预设一个最大长度C,其中本实施例C=10为例进行叙述,本实施例不进行具体限定,其中C根据具体实施情况而定。
具体的,将[2,C]范围内的每个整数作为长度,将任意一个长度作为目标长度c,将长度等于c的所有二进制数记为目标二进制数,获得每两种目标二进制数按位异或运算结果以及偏移一位后按位异或运算结果,其中,每两种目标二进制数按位异或运算结果的长度等于c,每两种目标二进制数偏移一位后按位异或运算结果的长度等于c+1;将每两种目标二进制数按位异或运算结果以及偏移一位后按位异或运算结果拼接组成的长度等于2c+1的二进制数作为目标长度对应的待压缩编码,将每两种目标二进制数拼接组成的长度等于2c的二进制数作为目标长度对应的待压缩编码的压缩编码。
例如,对于两个长度x=2的二进制数据D1=10和D2=01,两个二进制数据按位异或运算结果P1=11,长度等于2,两个二进制数据偏移一位后按位异或运算结果P2=101,长度等于3;将每两个二进制数按位异或运算结果P1=11以及偏移一位后按位异或运算结果P2=101拼接组成的长度等于5的二进制数11101作为待压缩编码,将两个二进制数D1=10和D2=01拼接组成的长度等于4的二进制数1001作为待压缩编码11101的压缩编码。
进一步,将服务器二进制数据序列划分为长度等于2c+1的若干个子序列,统计目标长度对应的不属于待压缩编码的子序列的数量;例如,请参阅图4,其示出了目标长度c=2时待压缩数据和压缩结果的对应关系,不是所有的5位二进制数都存在对应的压缩结果,即不是所有的5位二进制数都属于待压缩编码,其中,00000、11000、01001、10001、01010、10010、00011、11011、01100、10100、00101、11101、00110、11110、01111、10111这16个5位二进制数有对应的压缩结果,属于待压缩编码,而10000、01000、11001、00001、11010、00010、10011、01011、11100、00100、10101、01101、10110、01110、11111、00111这16个5位二进制数不存在对应的压缩结果,不属于待压缩编码。
进一步,根据目标长度对应的待压缩编码、目标长度对应的待压缩编码的压缩编码以及目标长度对应的不属于待压缩编码的子序列的数量,计算目标长度的压缩效率,具体计算公式为:
式中,表示目标长度c的压缩效率,L表示服务器二进制数据序列的长度,2c+1表示子序列的长度,/>表示向下取整,/>表示将服务器二进制数据序列划分为长度等于2c+1的子序列的数量,由于本实施例将长度等于2c+1的子序列压缩为长度等于2c的压缩编码,因此,每个子序列减少的数据量为1,/>表示服务器二进制数据序列压缩后减少的数据量,s表示目标长度对应的不属于待压缩编码的子序列的数量,目标长度对应的不属于待压缩编码的子序列不存在对应的压缩结果,因此,需要记录目标长度对应的不属于待压缩编码的子序列的位置,通过定长编码记录目标长度对应的不属于待压缩编码的子序列的位置,定长编码的长度为/>,而记录目标长度对应的不属于待压缩编码的子序列的位置会增加数据量,则/>表示增加的数据量。
计算所有长度的压缩效率;如果所有长度的压缩效率的最大值小于等于0,不对服务器二进制数据序列进行进一步压缩;如果所有长度的压缩效率的最大值大于0,将压缩效率最大的长度记为最优长度。
压缩结果存储模块103,用于将不属于最优长度对应的待压缩编码的子序列转换为属于最优长度对应的待压缩编码的子序列;根据所有属于最优长度对应的待压缩编码的子序列的压缩编码获得服务器二进制数据序列的编码结果;获得位置编码序列;将服务器二进制数据序列的编码结果和位置编码序列作为服务器二进制数据序列的压缩结果;将服务器二进制数据序列的压缩结果存储在双路服务器上。
具体的,获得最优长度对应的待压缩编码以及最优长度对应的待压缩编码的压缩编码,将服务器二进制数据序列划分为长度等于2y+1的若干个子序列,其中,y表示最优长度;将0记为第一码数,将1记为第二码数,对不属于最优长度对应的待压缩编码的子序列的第一位进行转换,具体转换过程为:如果不属于最优长度对应的待压缩编码的子序列的第一位为第一码数,将不属于最优长度对应的待压缩编码的子序列的第一位转换为第二码数,如果不属于最优长度对应的待压缩编码的子序列的第一位为第二码数,将不属于最优长度对应的待压缩编码的子序列的第一位转换为第一码数;将不属于最优长度对应的待压缩编码的子序列转换为属于最优长度对应的待压缩编码的子序列,进而获得对应的压缩结果。
进一步,根据最优长度对应的待压缩编码以及最优长度对应的待压缩编码的压缩编码,获得所有子序列的压缩编码,将所有子序列的压缩编码按照先后顺序组成的序列作为服务器二进制数据序列的编码结果。
需要说明的是,为了保证服务器二进制数据序列的压缩结果的解码准确性,需要记录不属于最优长度对应的待压缩编码的子序列的位置。
具体的,按照从左到右的顺序所有子序列的序号分别为1到,用长度等于的定长编码对子序列的序号进行编码,其中,y表示最优长度,L表示服务器二进制数据序列的长度,/>表示向下取整,获得所有不属于最优长度对应的待压缩编码的子序列的编码组成的位置编码序列。
进一步,将服务器二进制数据序列的编码结果和位置编码序列作为服务器二进制数据序列的压缩结果;服务器二进制数据序列的压缩结果存储在双路服务器上。
进一步,当需要获取存储在双路服务器上的数据的时候,根据最优长度将服务器二进制数据序列的编码结果划分为若干个长度等于2y的子序列,将每个子序列划分为两个长度等于y的二进制数,计算两个二进制数按位异或运算结果以及偏移一位后按位异或运算结果,将两个二进制数按位异或运算结果以及偏移一位后按位异或运算结果拼接组成的长度等于2y+1的二进制数作为解压结果,在根据位置编码序列的解码结果对部分解压结果的第一位进行转换,进而获得服务器二进制数据序列,对服务器二进制数据序列进行解码获得存储在双路服务器上的数据。
本发明的系统包括数据编码模块、最优长度获取模块和压缩结果存储模块。针对常规的基于多种数据的频率进行压缩的霍夫曼编码、字典压缩算法以及算数编码都不适用于对二进制形式的数据进行压缩的问题,本发明根据两个二进制数按位异或运算结果和偏移一位后按位异或运算结果的长度大于两个二进制数的长度,因此,可以考虑将两个二进制数按位异或运算结果和偏移一位后按位异或运算结果拼接作为待压缩数据,将两个二进制数拼接作为压缩结果,以此实现对二进制数据的压缩;为了使服务器二进制数据序列的压缩效率最大化,综合压缩减少的数据量和为了记录所有不属于最优长度对应的待压缩编码的子序列的位置而增加的数据量,获得将服务器二进制数据序列划分的不同长度的二进制数的压缩效率,进而获得最优长度,使服务器二进制数据序列的压缩效率最大化。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.基于大数据的双路服务器数据存储系统,其特征在于,所述系统包括:
数据编码模块,用于对存储到双路服务器的数据进行编码,获得服务器二进制数据序列;
最优长度获取模块,用于根据每种长度的两个二进制数的按位异或运算结果获得每种长度对应的所有待压缩编码和每种长度对应的所有待压缩编码的压缩编码;根据每种长度将服务器二进制数据序列划分为子序列,统计每种长度对应的不属于待压缩编码的子序列的数量;根据每种长度对应的待压缩编码、每种长度对应的待压缩编码的压缩编码以及每种长度对应的不属于待压缩编码的子序列的数量,计算每种长度的压缩效率;根据每种长度的压缩效率获得最优长度;
压缩结果存储模块,用于将不属于最优长度对应的待压缩编码的子序列转换为属于最优长度对应的待压缩编码的子序列;根据所有属于最优长度对应的待压缩编码的子序列的压缩编码获得服务器二进制数据序列的编码结果;获得位置编码序列;将服务器二进制数据序列的编码结果和位置编码序列作为服务器二进制数据序列的压缩结果;将服务器二进制数据序列的压缩结果存储在双路服务器上;
所述获得每种长度对应的所有待压缩编码和每种长度对应的所有待压缩编码的压缩编码,包括的具体步骤如下:
将[2,C]范围内的每个整数作为长度,C表示预设最大长度,将任意一个长度作为目标长度c,将长度等于c的所有二进制数记为目标二进制数,获得每两种目标二进制数按位异或运算结果以及偏移一位后按位异或运算结果;
将每两种目标二进制数按位异或运算结果以及偏移一位后按位异或运算结果拼接组成的长度等于2c+1的二进制数作为目标长度对应的待压缩编码,将每两种目标二进制数拼接组成的长度等于2c的二进制数作为目标长度对应的待压缩编码的压缩编码。
2.根据权利要求1所述的基于大数据的双路服务器数据存储系统,其特征在于,所述计算每种长度的压缩效率,包括的具体步骤如下:
式中,表示目标长度c的压缩效率,L表示服务器二进制数据序列的长度,/>表示向下取整,s表示目标长度对应的不属于待压缩编码的子序列的数量;
依此类推,计算所有长度的压缩效率。
3.根据权利要求1所述的基于大数据的双路服务器数据存储系统,其特征在于,所述获得最优长度,包括的具体步骤如下:
如果所有长度的压缩效率的最大值大于0,将压缩效率最大的长度记为最优长度。
4.根据权利要求1所述的基于大数据的双路服务器数据存储系统,其特征在于,所述将不属于最优长度对应的待压缩编码的子序列转换为属于最优长度对应的待压缩编码的子序列,包括的具体步骤如下:
获得最优长度对应的待压缩编码以及最优长度对应的待压缩编码的压缩编码,将服务器二进制数据序列划分为长度等于2y+1的若干个子序列,其中,y表示最优长度;对不属于最优长度对应的待压缩编码的子序列的第一位进行转换,将不属于最优长度对应的待压缩编码的子序列转换为属于最优长度对应的待压缩编码的子序列。
5.根据权利要求4所述的基于大数据的双路服务器数据存储系统,其特征在于,所述对不属于最优长度对应的待压缩编码的子序列的第一位进行转换,包括的具体步骤如下:
如果不属于最优长度对应的待压缩编码的子序列的第一位为第一码数,将不属于最优长度对应的待压缩编码的子序列的第一位转换为第二码数,如果不属于最优长度对应的待压缩编码的子序列的第一位为第二码数,将不属于最优长度对应的待压缩编码的子序列的第一位转换为第一码数。
6.根据权利要求1所述的基于大数据的双路服务器数据存储系统,其特征在于,所述获得服务器二进制数据序列的编码结果,包括的具体步骤如下:
根据最优长度对应的待压缩编码以及最优长度对应的待压缩编码的压缩编码,获得所有属于最优长度对应的待压缩编码的子序列的压缩编码,将所有属于最优长度对应的待压缩编码的子序列的压缩编码按照先后顺序组成的序列作为服务器二进制数据序列的编码结果。
7.根据权利要求1所述的基于大数据的双路服务器数据存储系统,其特征在于,所述获得位置编码序列,包括的具体步骤如下:
按照从左到右的顺序所有子序列的序号分别为1到,用长度等于/>的定长编码对子序列的序号进行编码,其中,y表示最优长度,L表示服务器二进制数据序列的长度,/>表示向下取整,获得所有不属于最优长度对应的待压缩编码的子序列的编码组成的位置编码序列。
8.根据权利要求5所述的基于大数据的双路服务器数据存储系统,其特征在于,所述第一码数、第二码数的获取方法具体如下:
将0记为第一码数,将1记为第二码数。
9.根据权利要求1所述的基于大数据的双路服务器数据存储系统,其特征在于,所述获得服务器二进制数据序列,包括的具体步骤如下:
对于属于图像、视频和音频的数据,通过霍夫曼编码进行编码,对于属于文件的数据,通过UTF16编码方式进行编码,获得服务器二进制数据序列。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311330141.5A CN117082154B (zh) | 2023-10-16 | 2023-10-16 | 基于大数据的双路服务器数据存储系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311330141.5A CN117082154B (zh) | 2023-10-16 | 2023-10-16 | 基于大数据的双路服务器数据存储系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117082154A true CN117082154A (zh) | 2023-11-17 |
CN117082154B CN117082154B (zh) | 2023-12-15 |
Family
ID=88712007
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311330141.5A Active CN117082154B (zh) | 2023-10-16 | 2023-10-16 | 基于大数据的双路服务器数据存储系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117082154B (zh) |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040113820A1 (en) * | 2000-06-26 | 2004-06-17 | Elena Leanza | Method for numeric compression and decompression of binary data |
US20070085714A1 (en) * | 2005-09-30 | 2007-04-19 | Intel Corporation | Apparatus, system, and method of data compression |
US20100259631A1 (en) * | 2007-10-26 | 2010-10-14 | Fujifilm Corporation | Data compression apparatus, data compression program and image-taking apparatus |
US20110176743A1 (en) * | 2010-01-21 | 2011-07-21 | Sankar Pathamadi V | Data compression methods |
CN103546161A (zh) * | 2013-10-31 | 2014-01-29 | 江苏引跑网络科技有限公司 | 基于二进制位处理的无损压缩方法 |
CN108810553A (zh) * | 2018-05-02 | 2018-11-13 | 上海大学 | 一种基于稀疏化处理的移动节点监测数据序列压缩方法 |
CN111367913A (zh) * | 2020-03-03 | 2020-07-03 | 青岛大学 | 一种面向全空间的数据模型的建模方法 |
CN111653318A (zh) * | 2019-05-24 | 2020-09-11 | 北京哲源科技有限责任公司 | 一种用于基因比对的加速方法、装置、存储介质与服务器 |
CN115379066A (zh) * | 2022-08-26 | 2022-11-22 | 西安理工大学 | 基于自适应压缩编码的加密图像可逆数据加密解密方法 |
CN116546201A (zh) * | 2023-04-10 | 2023-08-04 | 西安理工大学 | 基于块的自适应编码和比特流压缩的可逆数据隐藏方法 |
CN116594572A (zh) * | 2023-07-17 | 2023-08-15 | 北京四维纵横数据技术有限公司 | 浮点数流式数据压缩方法、装置、计算机设备及介质 |
CN116644069A (zh) * | 2023-05-31 | 2023-08-25 | 北京诺司时空科技有限公司 | 针对时间序列数据库的多模型学习索引构建方法及系统 |
CN116737716A (zh) * | 2023-05-12 | 2023-09-12 | 中冶京诚工程技术有限公司 | 时序数据压缩方法及装置 |
CN116887073A (zh) * | 2023-07-20 | 2023-10-13 | 南京启点电子科技有限公司 | 一种基于计算机网络通信的电能表数据采集控制系统 |
-
2023
- 2023-10-16 CN CN202311330141.5A patent/CN117082154B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040113820A1 (en) * | 2000-06-26 | 2004-06-17 | Elena Leanza | Method for numeric compression and decompression of binary data |
US20070085714A1 (en) * | 2005-09-30 | 2007-04-19 | Intel Corporation | Apparatus, system, and method of data compression |
US20100259631A1 (en) * | 2007-10-26 | 2010-10-14 | Fujifilm Corporation | Data compression apparatus, data compression program and image-taking apparatus |
US20110176743A1 (en) * | 2010-01-21 | 2011-07-21 | Sankar Pathamadi V | Data compression methods |
CN103546161A (zh) * | 2013-10-31 | 2014-01-29 | 江苏引跑网络科技有限公司 | 基于二进制位处理的无损压缩方法 |
CN108810553A (zh) * | 2018-05-02 | 2018-11-13 | 上海大学 | 一种基于稀疏化处理的移动节点监测数据序列压缩方法 |
CN111653318A (zh) * | 2019-05-24 | 2020-09-11 | 北京哲源科技有限责任公司 | 一种用于基因比对的加速方法、装置、存储介质与服务器 |
CN111367913A (zh) * | 2020-03-03 | 2020-07-03 | 青岛大学 | 一种面向全空间的数据模型的建模方法 |
CN115379066A (zh) * | 2022-08-26 | 2022-11-22 | 西安理工大学 | 基于自适应压缩编码的加密图像可逆数据加密解密方法 |
CN116546201A (zh) * | 2023-04-10 | 2023-08-04 | 西安理工大学 | 基于块的自适应编码和比特流压缩的可逆数据隐藏方法 |
CN116737716A (zh) * | 2023-05-12 | 2023-09-12 | 中冶京诚工程技术有限公司 | 时序数据压缩方法及装置 |
CN116644069A (zh) * | 2023-05-31 | 2023-08-25 | 北京诺司时空科技有限公司 | 针对时间序列数据库的多模型学习索引构建方法及系统 |
CN116594572A (zh) * | 2023-07-17 | 2023-08-15 | 北京四维纵横数据技术有限公司 | 浮点数流式数据压缩方法、装置、计算机设备及介质 |
CN116887073A (zh) * | 2023-07-20 | 2023-10-13 | 南京启点电子科技有限公司 | 一种基于计算机网络通信的电能表数据采集控制系统 |
Non-Patent Citations (1)
Title |
---|
梁华国, 蒋翠云: "基于交替与连续长度码的有效测试数据压缩和解压", 计算机学报, no. 04 * |
Also Published As
Publication number | Publication date |
---|---|
CN117082154B (zh) | 2023-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103067022B (zh) | 一种整型数据无损压缩方法、解压缩方法及装置 | |
US20120130965A1 (en) | Data compression method | |
CN116016606B (zh) | 一种基于智慧云的污水处理运维数据高效管理系统 | |
KR20110037898A (ko) | 멀티미디어 서명 코딩 및 디코딩 | |
CN108810553B (zh) | 一种基于稀疏化处理的移动节点监测数据序列压缩方法 | |
Vestergaard et al. | A randomly accessible lossless compression scheme for time-series data | |
US20220224947A1 (en) | Coding method and related device | |
CN114520659A (zh) | 结合rANS和LZ4编码的数据无损压缩、解码方法 | |
CN102014283A (zh) | 一阶差分前缀表示的图像数据无损压缩的编码方法 | |
US20040037461A1 (en) | Adaptive method and system for mapping parameter values to codeword indexes | |
JP5913748B2 (ja) | セキュアで損失のないデータ圧縮 | |
CN117082154B (zh) | 基于大数据的双路服务器数据存储系统 | |
CN116827354B (zh) | 一种文件数据分布式存储管理系统 | |
CN112449191B (zh) | 压缩多个图像的方法、解压缩图像的方法和装置 | |
CN116805537B (zh) | 用于心肺康复管理系统的数据处理方法 | |
US20140015698A1 (en) | System and method for fixed rate entropy coded scalar quantization | |
KR101023536B1 (ko) | 데이터 무손실 압축 방법 | |
CN113873094B (zh) | 一种混沌压缩感知图像加密方法 | |
CN115913248A (zh) | 一种直播软件开发数据智能管理系统 | |
CN111274950B (zh) | 特征向量数据编解码方法及服务器和终端 | |
US6433707B1 (en) | Universal lossless compressor for digitized analog data | |
Ezhilarasan et al. | A new entropy encoding technique for multimedia data compression | |
US8754791B1 (en) | Entropy modifier and method | |
CN110739974B (zh) | 数据压缩方法及装置和计算机可读存储介质 | |
Raja et al. | A new variable-length integer code for integer representation and its application to text compression |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |