CN117216023A - 一种大规模网络数据存储方法及系统 - Google Patents
一种大规模网络数据存储方法及系统 Download PDFInfo
- Publication number
- CN117216023A CN117216023A CN202311466298.0A CN202311466298A CN117216023A CN 117216023 A CN117216023 A CN 117216023A CN 202311466298 A CN202311466298 A CN 202311466298A CN 117216023 A CN117216023 A CN 117216023A
- Authority
- CN
- China
- Prior art keywords
- character
- code
- network data
- priority
- characters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000013500 data storage Methods 0.000 title claims abstract description 26
- 238000007906 compression Methods 0.000 claims abstract description 28
- 230000006835 compression Effects 0.000 claims abstract description 28
- 230000008859 change Effects 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000013144 data compression Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 6
- 108091026890 Coding region Proteins 0.000 claims description 5
- 230000008030 elimination Effects 0.000 claims description 2
- 238000003379 elimination reaction Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 description 12
- 230000006870 function Effects 0.000 description 7
- 238000013507 mapping Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明涉及数据存储技术领域,具体涉及一种大规模网络数据存储方法及系统,包括:获取网络数据中的所有种字符和所有种字符串,根据字符串的频率以及字符串的长度计算每种字符串的优先级,利用费诺编码获得所有种编码,根据每种编码的长度和冗余度计算每种编码的优先级,根据每种字符的关联字符串的优先级和数量计算每种字符的优先级,根据每种字符的优先级和每种编码的优先级获得每种字符的编码结果,根据所有种字符的编码结果对网络数据进行编码获得网络数据的编码结果,根据游程编码对网络数据的编码结果进行重压缩获得网络数据的压缩结果,对网络数据的压缩结果进行存储。本发明减少存储空间的占用,提高存储性能。
Description
技术领域
本发明涉及数据存储技术领域,具体涉及一种大规模网络数据存储方法及系统。
背景技术
网络数据存储是指将网络中产生的大量数据进行有效的存储和管理,以便后续的分析和应用。随着互联网的快速发展和智能设备的普及,网络数据的规模和复杂性不断增加,传统的存储方法已经无法满足大规模的网络数据存储的需求。由于网络数据的规模庞大,传统的存储方法无法高效的存储和管理大规模数据,因此,需要对网络数据进行压缩,以减少其所需存储空间大小,提升其存储性能。
大规模网络数据通常需要占用大量的存储空间,通过利用费诺编码进行压缩,可以减少存储空间的占用,节省存储成本。传统的费诺编码通过分割数据样本集合,将每个符号映射为唯一的二进制码字,从而实现对数据进行压缩存储的目的。传统的费诺编码仅考虑到数据中的各类字符在数据中的频率分布对数据进行编码,并未考虑到字符在数据中的空间分布,无法使利用费诺编码完成后的数据,利用游程编码进行重压缩可达到更好的效果。
发明内容
为了解决上述问题,本发明提供一种大规模网络数据存储方法及系统。
本发明提供了一种大规模网络数据存储方法,该方法包括以下步骤:
获取网络数据中的所有种字符和所有种字符串,获得每种字符的频率和每种字符串的频率;
根据字符串的频率以及字符串的长度,计算每种字符串的优先级;根据所有种字符的频率利用费诺编码获得所有种编码;根据每种编码的长度和变化次数获得每种编码的冗余度;根据每种编码的长度和冗余度计算每种编码的优先级;
获得每种字符的关联字符串;根据每种字符的关联字符串的优先级和数量,计算每种字符的优先级;
根据每种字符的优先级和每种编码的优先级,获得每种字符的编码结果;根据所有种字符的编码结果对网络数据进行编码获得网络数据的编码结果,根据游程编码对网络数据的编码结果进行重压缩获得网络数据的压缩结果,对网络数据的压缩结果进行存储。
进一步地,所述计算每种字符串的优先级,包括的具体步骤如下:
式中,表示第/>种字符串的优先级,/>表示第/>种字符串的频率,/>表示第/>种字符串的长度,/>表示以自然常数为底数的指数函数。
进一步地,所述根据每种编码的长度和变化次数获得每种编码的冗余度,包括的具体步骤如下:
将0记为第一数码,将1记为第二数码,每种编码由若干个第一数码和第二数码组成;对于任意一种编码,如果相邻两位是不同的数码,则该种编码的变化次数加1,获得每种编码的变化次数;
每种编码的冗余度的计算公式为:
式中,表示第/>种编码的冗余度,/>表示第/>种编码的长度,/>表示第/>种编码的变化次数。
进一步地,所述计算每种编码的优先级,包括的具体步骤如下:
式中,表示第/>种编码的优先级,/>表示第/>种编码的长度,/>表示第/>种编码的冗余度,/>表示以自然常数为底数的指数函数。
进一步地,所述根据所有种字符的频率利用费诺编码获得所有种编码,包括的具体步骤如下:
将所有种字符按照频率从大到小进行排序获得字符序列,利用传统的费诺编码来构建字符序列的费诺编码树,根据字符序列的费诺编码树获取所有种编码。
进一步地,所述计算每种字符的优先级,包括的具体步骤如下:
式中,表示第/>种字符的优先级,/>表示第/>种字符的关联字符串的数量,/>表示第/>种字符的第/>个关联字符串中的第/>种字符的数量,/>表示第/>种字符的第/>个关联字符串的优先级大小。
进一步地,所述获得每种字符的关联字符串,包括的具体步骤如下:
对于每种字符,将包含每种字符的所有字符串记为每种字符的关联字符串。
进一步地,所述获得每种字符的编码结果,包括的具体步骤如下:
将所有种编码按照优先级从大到小进行排序,得到编码顺序序列;将所有种编码按照优先级从大到小进行排序,得到编码顺序序列;将编码顺序序列中序号为i的编码作为字符顺序序列中序号为i的字符的编码结果,获得每种字符的编码结果。
进一步地,所述获取网络数据中的所有种字符和所有种字符串,包括的具体步骤如下:
通过自动化程序访问每个网页并提取每个网页的文本,将每个网页的文本划分为若干个单个字符,将所有单个字符组成的序列作为网络数据,将网络数据中的每个单个字符作为网络数据中的每个数据;对所有数据进行去重,将去重后的所有数据作为所有种字符;对每个网页的文本进行jieba分词,对jieba分词获得的所有词语进行去重,将去重后的所有词语作为所有种字符串。
本发明另外还提供了一种大规模网络数据存储系统,包括数据获取模块、编码调整模块、数据压缩模块和数据存储模块;数据获取模块,用于获取网络数据中的所有种字符和所有种字符串,获得每种字符的频率和每种字符串的频率;编码调整模块,用于根据字符串的频率以及字符串的长度,计算每种字符串的优先级,根据所有种字符的频率利用费诺编码获得所有种编码,根据每种编码的长度和变化次数获得每种编码的冗余度,根据每种编码的长度和冗余度计算每种编码的优先级,获得每种字符的关联字符串,根据每种字符的关联字符串的优先级和数量,计算每种字符的优先级,根据每种字符的优先级和每种编码的优先级,获得每种字符的编码结果;数据压缩模块,用于根据所有种字符的编码结果对网络数据进行编码获得网络数据的编码结果,根据游程编码对网络数据的编码结果进行重压缩获得网络数据的压缩结果;数据存储模块,用于存储网络数据的压缩结果。
针对传统的费诺编码对网络数据进行编码的过程中,仅考虑到各种字符的频率,并未考虑到网络数据的各种字符的空间分布特征,以至于对利用费诺编码后的网络数据的编码结果再利用游程编码进行重压缩的效果不好的问题,本发明根据字符串的频率以及字符串的长度计算每种字符串的优先级,根据每种字符的关联字符串的优先级和数量,分析网络数据中的各种字符的空间分布,计算每种字符的优先级,根据每种编码的长度和变化次数获得每种编码的冗余度,根据每种编码的长度和冗余度计算每种编码的优先级,对费诺编码树进行自适应调整,给优先级高的字符串分配优先级高的编码,给优先级低的字符串分配优先级低的编码,缩短网络数据的编码结果的长度的同时,提高网络数据的编码结果的冗余性,从而使利用游程编码对网络数据的编码结果进行重压缩的压缩效果最大化,以减少存储空间的占用,提高存储性能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的一种大规模网络数据存储方法的步骤流程图;
图2为本发明的一种大规模网络数据存储系统的系统框图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种大规模网络数据存储方法,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种大规模网络数据存储方法的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种大规模网络数据存储方法的步骤流程图,该方法包括以下步骤:
S001,获取网络数据中的所有种字符和所有种字符串,获得每种字符的频率和每种字符串的频率。
需要说明的是,网络数据是指在互联网上产生的大量多样化的数据,例如:网页内容、社交媒体帖子、新闻文章、博客文章等文本数据,网络上生成的数据非常庞大且多样化,对于各个领域的研究、业务分析、决策制定和机器学习等应用具有重要意义。
具体的,通过自动化程序访问每个网页并提取每个网页的文本,将每个网页的文本划分为若干个单个字符,将所有单个字符组成的序列作为网络数据,将网络数据中的每个单个字符作为网络数据中的每个数据;对所有数据进行去重,将去重后的所有数据作为所有种字符,统计每种字符在网络数据中的频率;对每个网页的文本进行jieba分词,对jieba分词获得的所有词语进行去重,将去重后的所有词语作为所有种字符串,统计每种字符串在去重前的所有词语中的频率,作为每种字符串的频率。
S002,根据字符串的频率以及字符串的长度,计算每种字符串的优先级;根据所有种字符的频率利用费诺编码获得所有种编码;根据每种编码的长度和变化次数获得每种编码的冗余度;根据每种编码的长度和冗余度计算每种编码的优先级;获得每种字符的关联字符串;根据每种字符的关联字符串的优先级和数量,计算每种字符的优先级。
需要说明的是,由于网络数据是从网页上提取的网页内容、社交媒体帖子、新闻文章、博客文章等文本数据,因此每个网页的文本中都有一些出现频率较高的关键词,这些关键词通常都是由若干个单个字符组成的,因此,有些字符不仅具有频率特征,还和其他一些高频的字符具有空间分布特征;传统的费诺编码是通过统计各种字符的频率来构造费诺编码树,根据费诺编码树获得每种字符的编码结果,每种字符的编码结果为二进制数据,根据所有种字符的编码结果对网络数据进行编码,使频率较高的字符的编码结果的长度较短,频率较低的字符的编码结果的长度较长;传统的费诺编码只结合数据的频率没有考虑到各种字符的空间分布特征,利用传统的费诺编码对网络数据进行压缩,无法使压缩后的网络数据的冗余度最大化,即利用费诺编码对网络数据进行压缩,然后利用游程编码对网络数据的压缩结果进项重压缩的压缩效果无法达到最大化,因此本实施例需要结合网络数据中词语对应的字符串反映的各种字符的空间分布特征,对费诺编码树进行自适应调整。
1、根据字符串的频率以及字符串的长度,计算每种字符串的优先级。
需要说明的是,在网络数据中,由于网络搜索、广告投放、社交媒体等领域会存在大量的关键词,这些关键词可以帮助搜索引擎更准确的匹配用户的搜索意图。通过对费诺编码树中的字符对应的编码进行调整,可以使关键词对应的字符串在编码后的二进制数据表现出更高的连续性,从而使利用费诺编码获得的网络数据的压缩结果再利用游程编码进行重压缩的压缩效果进一步的提升。
进一步需要说明的是,由于网络数据中频率较高的关键词对应的字符串在网络数据中占据了较大的比例,通过对这些字符串的编码结果进行优化,可实现对网络数据的压缩效果的提升。频率越大且长度越长的字符串在利用费诺编码获得的网络数据的压缩结果占据较多的位数,在存储时需要花费更多的存储空间,因此应该尽可能缩短这些字符串的编码长度,同时提高这些字符串的编码结果的冗余程度,因此,需要综合字符串的频率以及字符串的长度,使频率越高、长度越长的字符串的优先级越高。
具体的,根据字符串的频率以及字符串的长度,计算每种字符串的优先级,具体计算公式如下:
式中,表示第/>种字符串的优先级,/>表示第/>种字符串的频率,/>表示第/>种字符串的长度,/>表示以自然常数为底数的指数函数。
为了使关键词对应的字符串的编码结果表现出更高的连续性,对于频率越高且字符串的长度越长的字符串,越需要提高其编码结果的冗余程度,因此,字符串的优先级越高。
2、根据所有种字符的频率利用费诺编码获得所有种编码,根据每种编码的长度和变化次数获得每种编码的冗余度;根据每种编码的长度和冗余度计算每种编码的优先级。
具体的,将所有种字符按照频率从大到小进行排序获得字符序列,利用传统的费诺编码来构建字符序列的费诺编码树,根据字符序列的费诺编码树获取所有种编码,由于费诺编码将所有字符编码为二进制数据,因此,每种编码都是由0和1组成的二进制数据;将0记为第一数码,将1记为第二数码,每种编码由若干个第一数码和第二数码组成;对于任意一种编码,如果相邻两位是不同的数码,则该种编码的变化次数加1,获得每种编码的变化次数。
例如:编码“10101”的长度为5,变化次数为4;编码“111”的长度为3,变化次数为0;编码“1100”的长度为4;编码变化次数为1。
进一步,根据每种编码的长度和变化次数获得每种编码的冗余度,具体计算公式为:
式中,表示第/>种编码的冗余度,/>表示第/>种编码的长度,/>表示第/>种编码的变化次数。
进一步,根据每种编码的长度和冗余度计算每种编码的优先级,具体计算公式如下:
式中,表示第/>种编码的优先级,/>表示第/>种编码的长度,/>表示第/>种编码的冗余度,/>表示以自然常数为底数的指数函数。
其中,表示第/>种编码的冗余度,即第/>种编码中的重复项的数量,该值越大说明第/>种编码中的重复项越多,该值越小说明第/>种编码中的重复项越少;第/>种编码的冗余度越大且长度越短,则第/>种编码的优先级越高。
进一步,将所有种编码按照优先级从大到小进行排序,得到编码顺序序列。
3、获得每种字符的关联字符串,根据每种字符的关联字符串的优先级和数量,计算每种字符的优先级。
需要说明的是,在网络数据中,某种字符在多个字符串中会多次出现,当某种字符在多个字符串中频繁出现时,则对该字符的编码结果进行调整,即分配越短的编码,会影响更多的字符串,进而使利用费诺编码获得的网络数据的压缩结果的压缩效果进一步的提升,因此,在越多种优先级高的字符串中出现的次数越多的字符进行调整的优先级越高,这样的字符应该分配越短的编码,则对整数编码的压缩效果提升的越高。因此,需要考虑每种字符所关联的字符串的数量和优先级以及所关联的字符串中所包含的该字符的数量,计算各种字符的优先级,来为各种字符与各种编码建立映射关系。
具体的,对于每种字符,将包含每种字符的所有字符串记为每种字符的关联字符串,根据每种字符的关联字符串的优先级和数量,计算每种字符的优先级,具体计算公式如下:
式中,表示第/>种字符的优先级,/>表示第/>种字符的关联字符串的数量,/>表示第/>种字符的第/>个关联字符串中的第/>种字符的数量,/>表示第/>种字符的第/>个关联字符串的优先级大小。
在对费诺编码树中的字符进行调整以适应游程编码的特点时,高优先级的字符串中的字符应该优先调整,且高优先级的字符串中的字符在费诺编码树中的较高层次,以便这些字符的编码越短,从而使后续利用游程编码进行压缩的压缩效果更好;因此,第种字符的关联字符串的数量越多、第/>种字符的第/>个关联字符串中的第/>种字符的数量且第/>种字符的关联字符串的优先级越高,则第/>种字符的优先级越高。
进一步,将所有种字符按照优先级从大到小进行排序,得到字符顺序序列。
S003,根据每种字符的优先级和每种编码的优先级,获得每种字符的编码结果;根据所有种字符的编码结果对网络数据进行编码获得网络数据的编码结果,根据游程编码对网络数据的编码结果进行重压缩获得网络数据的压缩结果,对网络数据的压缩结果进行存储。
需要说明的是,优先级越高的字符会在越多频率的关键词对应的字符串中多次出现,因此,给优先级越高的字符分配长度越短且冗余度越大的编码,会对网络数据中更多的数据产生影响,进而使利用费诺编码获得的网络数据的压缩结果的压缩效果进一步的提升,给优先级高的字符串分配优先级高的编码,给优先级低的字符串分配优先级低的编码,为字符与编码建立映射关系,使字符与编码一一对应。
具体的,将编码顺序序列中序号为i的编码作为字符顺序序列中序号为i的字符的编码结果;根据每种字符方编码结果对网络数据中的每个数据进行编码,网络数据中所有数据的编码结果组成网络数据的编码结果,根据游程编码对网络数据的编码结果进行重压缩,获得网络数据的压缩结果,将网络数据的压缩结果存储在数据存储模块中。
请参阅图2,其示出了本发明一个实施例提供的一种大规模网络数据存储系统的系统框图,该系统包括数据获取模块、编码调整模块、数据压缩模块和数据存储模块,具体为:
数据获取模块用于实现上述S001方法的步骤;
编码调整模块用于实现上述S002方法的步骤;
数据压缩模块和数据存储模块用于实现上述S003方法的步骤。
针对传统的费诺编码对网络数据进行编码的过程中,仅考虑到各种字符的频率,并未考虑到网络数据的各种字符的空间分布特征,以至于对利用费诺编码后的网络数据的编码结果再利用游程编码进行重压缩的效果不好的问题,本发明根据字符串的频率以及字符串的长度计算每种字符串的优先级,根据每种字符的关联字符串的优先级和数量,分析网络数据中的各种字符的空间分布,计算每种字符的优先级,根据每种编码的长度和变化次数获得每种编码的冗余度,根据每种编码的长度和冗余度计算每种编码的优先级,对费诺编码树进行自适应调整,给优先级高的字符串分配优先级高的编码,给优先级低的字符串分配优先级低的编码,缩短网络数据的编码结果的长度的同时,提高网络数据的编码结果的冗余性,从而使利用游程编码对网络数据的编码结果进行重压缩的压缩效果最大化,以减少存储空间的占用,提高存储性能。
实施例采用函数来呈现反比例关系及归一化处理,实施者可根据实际情况选择反比例函数及归一化函数。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种大规模网络数据存储方法,其特征在于,所述方法包括以下步骤:
获取网络数据中的所有种字符和所有种字符串,获得每种字符的频率和每种字符串的频率;
根据字符串的频率以及字符串的长度,计算每种字符串的优先级;根据所有种字符的频率利用费诺编码获得所有种编码;根据每种编码的长度和变化次数获得每种编码的冗余度;根据每种编码的长度和冗余度计算每种编码的优先级;获得每种字符的关联字符串;根据每种字符的关联字符串的优先级和数量,计算每种字符的优先级;
根据每种字符的优先级和每种编码的优先级,获得每种字符的编码结果;根据所有种字符的编码结果对网络数据进行编码获得网络数据的编码结果,根据游程编码对网络数据的编码结果进行重压缩获得网络数据的压缩结果,对网络数据的压缩结果进行存储。
2.根据权利要求1所述的一种大规模网络数据存储方法,其特征在于,所述计算每种字符串的优先级,包括的具体步骤如下:
式中,表示第/>种字符串的优先级,/>表示第/>种字符串的频率,/>表示第/>种字符串的长度,/>表示以自然常数为底数的指数函数。
3.根据权利要求1所述的一种大规模网络数据存储方法,其特征在于,所述根据每种编码的长度和变化次数获得每种编码的冗余度,包括的具体步骤如下:
将0记为第一数码,将1记为第二数码,每种编码由若干个第一数码和第二数码组成;对于任意一种编码,如果相邻两位是不同的数码,则该种编码的变化次数加1,获得每种编码的变化次数;
每种编码的冗余度的计算公式为:
式中,表示第/>种编码的冗余度,/>表示第/>种编码的长度,/>表示第/>种编码的变化次数。
4.根据权利要求1所述的一种大规模网络数据存储方法,其特征在于,所述计算每种编码的优先级,包括的具体步骤如下:
式中,表示第/>种编码的优先级,/>表示第/>种编码的长度,/>表示第/>种编码的冗余度,/>表示以自然常数为底数的指数函数。
5.根据权利要求1所述的一种大规模网络数据存储方法,其特征在于,所述根据所有种字符的频率利用费诺编码获得所有种编码,包括的具体步骤如下:
将所有种字符按照频率从大到小进行排序获得字符序列,利用传统的费诺编码来构建字符序列的费诺编码树,根据字符序列的费诺编码树获取所有种编码。
6.根据权利要求1所述的一种大规模网络数据存储方法,其特征在于,所述计算每种字符的优先级,包括的具体步骤如下:
式中,表示第/>种字符的优先级,/>表示第/>种字符的关联字符串的数量,/>表示第种字符的第/>个关联字符串中的第/>种字符的数量,/>表示第/>种字符的第/>个关联字符串的优先级大小。
7.根据权利要求1所述的一种大规模网络数据存储方法,其特征在于,所述获得每种字符的关联字符串,包括的具体步骤如下:
对于每种字符,将包含每种字符的所有字符串记为每种字符的关联字符串。
8.根据权利要求1所述的一种大规模网络数据存储方法,其特征在于,所述获得每种字符的编码结果,包括的具体步骤如下:
将所有种编码按照优先级从大到小进行排序,得到编码顺序序列;将所有种编码按照优先级从大到小进行排序,得到编码顺序序列;将编码顺序序列中序号为i的编码作为字符顺序序列中序号为i的字符的编码结果,获得每种字符的编码结果。
9.根据权利要求1所述的一种大规模网络数据存储方法,其特征在于,所述获取网络数据中的所有种字符和所有种字符串,包括的具体步骤如下:
通过自动化程序访问每个网页并提取每个网页的文本,将每个网页的文本划分为若干个单个字符,将所有单个字符组成的序列作为网络数据,将网络数据中的每个单个字符作为网络数据中的每个数据;对所有数据进行去重,将去重后的所有数据作为所有种字符;对每个网页的文本进行jieba分词,对jieba分词获得的所有词语进行去重,将去重后的所有词语作为所有种字符串。
10.一种大规模网络数据存储系统,其特征在于,包括数据获取模块、编码调整模块、数据压缩模块和数据存储模块;所述数据获取模块,用于获取网络数据中的所有种字符和所有种字符串,获得每种字符的频率和每种字符串的频率;所述编码调整模块,用于根据字符串的频率以及字符串的长度,计算每种字符串的优先级,根据所有种字符的频率利用费诺编码获得所有种编码,根据每种编码的长度和变化次数获得每种编码的冗余度,根据每种编码的长度和冗余度计算每种编码的优先级,获得每种字符的关联字符串,根据每种字符的关联字符串的优先级和数量,计算每种字符的优先级,根据每种字符的优先级和每种编码的优先级,获得每种字符的编码结果;所述数据压缩模块,用于根据所有种字符的编码结果对网络数据进行编码获得网络数据的编码结果,根据游程编码对网络数据的编码结果进行重压缩获得网络数据的压缩结果;所属数据存储模块,用于存储网络数据的压缩结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311466298.0A CN117216023B (zh) | 2023-11-07 | 2023-11-07 | 一种大规模网络数据存储方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311466298.0A CN117216023B (zh) | 2023-11-07 | 2023-11-07 | 一种大规模网络数据存储方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117216023A true CN117216023A (zh) | 2023-12-12 |
CN117216023B CN117216023B (zh) | 2024-01-26 |
Family
ID=89041091
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311466298.0A Active CN117216023B (zh) | 2023-11-07 | 2023-11-07 | 一种大规模网络数据存储方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117216023B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117767960A (zh) * | 2024-02-22 | 2024-03-26 | 智联信通科技股份有限公司 | 一种传感器数据优化采集存储方法 |
CN118054976A (zh) * | 2024-04-16 | 2024-05-17 | 大连博讯科技有限公司 | 一种物联网数据安全管理方法及系统 |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030038739A1 (en) * | 2001-08-21 | 2003-02-27 | Deutsche Telekom Ag | Method for compressing data |
US20050283355A1 (en) * | 2002-12-26 | 2005-12-22 | Fujitsu Limited | Data compression method, program, and apparatus |
CN101917625A (zh) * | 2010-06-03 | 2010-12-15 | 北京邮电大学 | 一种基于联合信源-网络编码的可分级视频流传输方法 |
CN102394718A (zh) * | 2011-08-26 | 2012-03-28 | 韩建华 | 一种传感网络数据压缩编码/解码方法 |
JP2013162474A (ja) * | 2012-02-08 | 2013-08-19 | Tamura Seisakusho Co Ltd | データ圧縮方法及び装置 |
CN108768403A (zh) * | 2018-05-30 | 2018-11-06 | 中国人民解放军战略支援部队信息工程大学 | 基于lzw的无损数据压缩、解压方法及lzw编码器、解码器 |
WO2019041919A1 (zh) * | 2017-08-30 | 2019-03-07 | 前海中科芯片控股 (深圳)有限公司 | 一种数据编码方法、装置以及存储介质 |
CN110518917A (zh) * | 2019-07-17 | 2019-11-29 | 华东计算技术研究所(中国电子科技集团公司第三十二研究所) | 基于Huffman编码的LZW数据压缩方法及系统 |
WO2022120912A1 (zh) * | 2020-12-11 | 2022-06-16 | 中国科学院深圳先进技术研究院 | 编码方法、解码方法、装置及计算机可读存储介质 |
CN114697654A (zh) * | 2020-12-30 | 2022-07-01 | 中国科学院计算技术研究所 | 一种神经网络量化压缩方法及系统 |
CN115883109A (zh) * | 2023-02-16 | 2023-03-31 | 北京飞安航空科技有限公司 | 一种航空系统的数据压缩加密方法及系统 |
CN116318173A (zh) * | 2023-05-10 | 2023-06-23 | 青岛农村商业银行股份有限公司 | 一种金融融资服务数字智能管理系统 |
CN116614139A (zh) * | 2023-07-20 | 2023-08-18 | 酒仙网络科技股份有限公司 | 一种售酒小程序内用户交易信息压缩存储方法 |
CN116913057A (zh) * | 2023-09-12 | 2023-10-20 | 西安中创博远网络科技有限公司 | 基于物联网的畜牧养殖异常预警系统 |
CN116915259A (zh) * | 2023-09-12 | 2023-10-20 | 山东先飞数智物流科技有限公司 | 基于物联网的仓配数据优化储存方法及系统 |
CN116975312A (zh) * | 2023-09-22 | 2023-10-31 | 山东五棵松电气科技有限公司 | 一种智慧校园教育数据管理系统 |
-
2023
- 2023-11-07 CN CN202311466298.0A patent/CN117216023B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030038739A1 (en) * | 2001-08-21 | 2003-02-27 | Deutsche Telekom Ag | Method for compressing data |
US20050283355A1 (en) * | 2002-12-26 | 2005-12-22 | Fujitsu Limited | Data compression method, program, and apparatus |
CN101917625A (zh) * | 2010-06-03 | 2010-12-15 | 北京邮电大学 | 一种基于联合信源-网络编码的可分级视频流传输方法 |
CN102394718A (zh) * | 2011-08-26 | 2012-03-28 | 韩建华 | 一种传感网络数据压缩编码/解码方法 |
JP2013162474A (ja) * | 2012-02-08 | 2013-08-19 | Tamura Seisakusho Co Ltd | データ圧縮方法及び装置 |
WO2019041919A1 (zh) * | 2017-08-30 | 2019-03-07 | 前海中科芯片控股 (深圳)有限公司 | 一种数据编码方法、装置以及存储介质 |
CN108768403A (zh) * | 2018-05-30 | 2018-11-06 | 中国人民解放军战略支援部队信息工程大学 | 基于lzw的无损数据压缩、解压方法及lzw编码器、解码器 |
CN110518917A (zh) * | 2019-07-17 | 2019-11-29 | 华东计算技术研究所(中国电子科技集团公司第三十二研究所) | 基于Huffman编码的LZW数据压缩方法及系统 |
WO2022120912A1 (zh) * | 2020-12-11 | 2022-06-16 | 中国科学院深圳先进技术研究院 | 编码方法、解码方法、装置及计算机可读存储介质 |
CN114697654A (zh) * | 2020-12-30 | 2022-07-01 | 中国科学院计算技术研究所 | 一种神经网络量化压缩方法及系统 |
CN115883109A (zh) * | 2023-02-16 | 2023-03-31 | 北京飞安航空科技有限公司 | 一种航空系统的数据压缩加密方法及系统 |
CN116318173A (zh) * | 2023-05-10 | 2023-06-23 | 青岛农村商业银行股份有限公司 | 一种金融融资服务数字智能管理系统 |
CN116614139A (zh) * | 2023-07-20 | 2023-08-18 | 酒仙网络科技股份有限公司 | 一种售酒小程序内用户交易信息压缩存储方法 |
CN116913057A (zh) * | 2023-09-12 | 2023-10-20 | 西安中创博远网络科技有限公司 | 基于物联网的畜牧养殖异常预警系统 |
CN116915259A (zh) * | 2023-09-12 | 2023-10-20 | 山东先飞数智物流科技有限公司 | 基于物联网的仓配数据优化储存方法及系统 |
CN116975312A (zh) * | 2023-09-22 | 2023-10-31 | 山东五棵松电气科技有限公司 | 一种智慧校园教育数据管理系统 |
Non-Patent Citations (7)
Title |
---|
MAHENDRAN, RK 等: "An efficientpriority-basedconvolutionalauto-encoderapproach for electrocardiogram signal compression in Internet of Things based healthcare system", TRANSACTIONS ON EMERGING TELECOMMUNICATIONS TECHNOLOGIES, pages 71 - 81 * |
倪桂强;李彬;罗健欣;张雪;: "BWT与经典压缩算法研究", 计算机与数字工程, no. 11, pages 26 - 29 * |
冻伟东;鲜峰;吕晔;: "实时遥测数据信源压缩技术", 计算机测量与控制, no. 05, pages 1120 - 1123 * |
刘晨;李玉峰;陈好;: "基于LZW无损数据压缩技术的改进与实现", 电子设计工程, no. 24, pages 51 - 56 * |
刘林;: "基于LZW优化算法的雷达数据压缩技术", 舰船科学技术, no. 11, pages 120 - 123 * |
夏小玲;李海燕;王梅;: "列存储数据仓库中基于概率的保序字符串压缩方法", 计算机研究与发展, no. 08, pages 1674 - 1682 * |
毕永成;: "多媒体数据处理中几种无损压缩算法的比较", 今日科苑, no. 10, pages 119 - 120 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117767960A (zh) * | 2024-02-22 | 2024-03-26 | 智联信通科技股份有限公司 | 一种传感器数据优化采集存储方法 |
CN118054976A (zh) * | 2024-04-16 | 2024-05-17 | 大连博讯科技有限公司 | 一种物联网数据安全管理方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN117216023B (zh) | 2024-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Moffat | Word‐based text compression | |
CN117216023B (zh) | 一种大规模网络数据存储方法及系统 | |
CN107609356B (zh) | 基于标签模型的文本无载体信息隐藏方法 | |
CN106202172B (zh) | 文本压缩方法及装置 | |
JP2012529105A (ja) | 分散連想メモリベースを提供する方法、システム、及びコンピュータプログラム製品 | |
CN110196784A (zh) | 数据库及固态磁盘(ssd)控制器 | |
CN107784110B (zh) | 一种索引建立方法及装置 | |
CN115840799B (zh) | 一种基于深度学习的知识产权综合管理系统 | |
CN110008192A (zh) | 一种数据文件压缩方法、装置、设备及可读存储介质 | |
CN100472526C (zh) | 一种数据存储方法、数据读取方法以及数据检索方法 | |
CN105488471B (zh) | 一种字形识别方法及装置 | |
CN112597345A (zh) | 一种实验室数据自动采集与匹配方法 | |
CN101241499A (zh) | Patricia树快速查找方法 | |
CN105045891B (zh) | 提高顺序表性能方法、系统、架构、优化方法及存储装置 | |
CN114036907A (zh) | 一种基于领域特征的文本数据扩增方法 | |
CN114138792A (zh) | 一种Key-value分离存储方法及系统 | |
CN102693315A (zh) | 一种基于共享内存映射的url去重方法及装置 | |
CN116301656A (zh) | 基于日志结构合并树的数据存储方法、系统及设备 | |
CN111465929B (zh) | 用于内容不可知文件标引的方法及系统 | |
CN107832341B (zh) | Agnss用户去重统计方法 | |
CN115048682A (zh) | 一种土地流转信息的安全存储方法 | |
CN109002446A (zh) | 一种智能排序方法、终端与计算机可读存储介质 | |
Konow et al. | Inverted treaps | |
CN117375631B (zh) | 一种基于哈夫曼编码的快速编码方法 | |
CN117708434B (zh) | 一种基于关键词的用户推荐浏览内容生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |