CN117093666B - 一种用于沉浸式企业办公系统的数据存储方法 - Google Patents
一种用于沉浸式企业办公系统的数据存储方法 Download PDFInfo
- Publication number
- CN117093666B CN117093666B CN202311360665.9A CN202311360665A CN117093666B CN 117093666 B CN117093666 B CN 117093666B CN 202311360665 A CN202311360665 A CN 202311360665A CN 117093666 B CN117093666 B CN 117093666B
- Authority
- CN
- China
- Prior art keywords
- original data
- character
- length
- type
- characters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000013500 data storage Methods 0.000 title claims abstract description 19
- 238000009825 accumulation Methods 0.000 claims abstract description 111
- 230000009467 reduction Effects 0.000 claims abstract description 95
- 238000007654 immersion Methods 0.000 claims abstract description 5
- 238000004364 calculation method Methods 0.000 claims description 17
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 238000007906 compression Methods 0.000 abstract description 15
- 230000006835 compression Effects 0.000 abstract description 15
- 230000000694 effects Effects 0.000 description 5
- 238000005457 optimization Methods 0.000 description 5
- 238000007726 management method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 230000009365 direct transmission Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明涉及数据处理技术领域,具体涉及一种用于沉浸式企业办公系统的数据存储方法,包括:根据沉浸式企业办公系统中采集的所有数据对应在ASCII表中的字符,构成原数据,由此得到原数据中每类字符的初始长度和分布累计表的未分配长度,获取每类字符的编码长度缩减量和原数据中字符编码长度的平均缩减量,得到每类字符的编码长度缩减因子,从而得到每类字符的分配优先级,再结合每类字符的初始长度、分布累计表的未分配长度,得到原始数据的新分布累计表,使用rANS算法对原数据进行编码压缩,得到压缩数据,并将压缩数据存储至数据库中。本发明使分布累计表中每类字符的长度分配最优,提高压缩效率。
Description
技术领域
本发明涉及数据处理技术领域,具体涉及一种用于沉浸式企业办公系统的数据存储方法。
背景技术
沉浸式企业办公系统作为一种新兴的技术和应用领域,正在逐渐受到企业的关注和采用。该办公系统的使用过程中也会产生大量数据需要进行管理与存储,直接对数据进行传输和存储会占用大量的存储空间和传输带宽,故需要一种用于沉浸式企业办公系统的数据优化存储方法。
现有技术通过rANS编码进行数据压缩,rANS编码是一种无损压缩算法,压缩率高而且实现简单。沉浸式企业办公数据中存在较多的重复数据,有着较明显的统计特征,使用rANS压缩可以达到很好的压缩率。rANS压缩算法通过字符频率计算分布累计表,常规算法通过四舍五入将根据频率获取的分布累计表长度的小数取整。
现有的问题:rANS压缩算法通过四舍五入直接进行分布累计表长度分配没有考虑字符频率对应不同长度的编码优化程度,而沉浸式企业办公系统中大量重复的数据会导致各字符频率对应的分布累计表长度变化对最终编码长度有着较大的影响,仅通过四舍五入进行取整很难达到较高的压缩率。
发明内容
本发明提供一种用于沉浸式企业办公系统的数据存储方法,以解决现有的问题。
本发明的一种用于沉浸式企业办公系统的数据存储方法采用如下技术方案:
本发明一个实施例提供了一种用于沉浸式企业办公系统的数据存储方法,该方法包括以下步骤:
根据沉浸式企业办公系统中采集的所有数据对应在ASCII表中的字符,构成原数据;将原数据中不同字符的数量,记为原数据中的字符种类数量;将原数据中每个相同字符的数量除以原数据中的字符数量,记为每类字符在原数据中的出现频率;
将二的原数据中的字符种类数量的次方,记为原数据的分布累计表的长度;根据原数据的分布累计表的长度、每类字符在原数据中的出现频率,得到原数据中每类字符的初始长度和分布累计表的未分配长度;
根据原数据中每类字符的初始长度和分布累计表的长度,得到原数据中每类字符的编码长度;根据原数据中每类字符的编码长度和每类字符的初始长度以及分布累计表的长度,得到原数据中每类字符的编码长度缩减量;
根据原数据中的字符种类数量和分布累计表的长度,得到原数据中字符编码长度的平均缩减量;根据原数据中字符编码长度的平均缩减量、原数据中每类字符的编码长度缩减量,得到原数据中每类字符的编码长度缩减因子;
根据原数据中的字符种类数量、每类字符在原数据中的出现频率、每类字符的编码长度缩减因子,得到原数据中每类字符的分配优先级;
根据原数据中每类字符的分配优先级、每类字符的初始长度、分布累计表的未分配长度,得到原始数据的新分布累计表;根据原始数据的新分布累计表,使用rANS算法对原数据进行编码压缩,得到压缩数据,并将压缩数据存储至数据库中。
进一步地,所述根据原数据的分布累计表的长度、每类字符在原数据中的出现频率,得到原数据中每类字符的初始长度和分布累计表的未分配长度,包括的具体步骤如下:
将每类字符在原数据中的出现频率与原数据的分布累计表的长度的乘积的向下取整,记为原数据中每类字符的初始长度;
计算原数据中所有类字符的初始长度之和,将原数据的分布累计表的长度减去所述初始长度之和,记为分布累计表的未分配长度。
进一步地,所述根据原数据中每类字符的初始长度和分布累计表的长度,得到原数据中每类字符的编码长度对应的具体计算公式为:
其中为原数据中第i类字符的编码长度,/>为原数据中第i类字符的初始长度,为原数据的分布累计表的长度,n为原数据中的字符种类数量,/>为以2为底的负对数。
进一步地,所述根据原数据中每类字符的编码长度和每类字符的初始长度以及分布累计表的长度,得到原数据中每类字符的编码长度缩减量,包括的具体步骤如下:
根据原数据中每类字符的初始长度加一、原数据的分布累计表的长度,得到原数据中每类字符的更新编码长度;
根据原数据中每类字符的更新编码长度与每类字符的编码长度,得到原数据中每类字符的编码长度缩减量。
进一步地,所述根据原数据中每类字符的更新编码长度与每类字符的编码长度,得到原数据中每类字符的编码长度缩减量对应的具体计算公式为:
其中为原数据中第i类字符的编码长度缩减量,/>为原数据中第i类字符的编码长度,/>为原数据中第i类字符的初始长度,/>为原数据的分布累计表的长度,n为原数据中的字符种类数量,/>为原数据中第i类字符的更新编码长度,/>为以2为底的负对数。
进一步地,所述根据原数据中的字符种类数量和分布累计表的长度,得到原数据中字符编码长度的平均缩减量,包括的具体步骤如下:
根据原数据中的字符种类数量与原数据的分布累计表的长度,得到原数据中字符的平均长度;
根据原数据中字符的平均长度的向下取整值、原数据中字符的平均长度的向下取整加一值,得到原数据中字符编码长度的平均缩减量。
进一步地,所述根据原数据中字符的平均长度的向下取整值、原数据中字符的平均长度的向下取整加一值,得到原数据中字符编码长度的平均缩减量对应的具体计算公式为:
其中为原数据中字符编码长度的平均缩减量,/>为原数据的分布累计表的长度,n为原数据中的字符种类数量,/>为原数据中字符的平均长度,/>为以2为底的负对数,/>为/>的向下取整。
进一步地,所述根据原数据中字符编码长度的平均缩减量、原数据中每类字符的编码长度缩减量,得到原数据中每类字符的编码长度缩减因子,包括的具体步骤如下:
将原数据中每类字符的编码长度缩减量除以原数据中字符编码长度的平均缩减量,记为原数据中每类字符的编码长度缩减因子。
进一步地,所述根据原数据中的字符种类数量、每类字符在原数据中的出现频率、每类字符的编码长度缩减因子,得到原数据中每类字符的分配优先级,包括的具体步骤如下:
将每类字符在原数据中的出现频率与原数据中的字符种类数量的乘积,记为原数据中每类字符的频率因子;
将原数据中每类字符的频率因子与对应的每类字符的编码长度缩减因子的乘积,记为原数据中每类字符的分配优先级。
进一步地,所述根据原数据中每类字符的分配优先级、每类字符的初始长度、分布累计表的未分配长度,得到原始数据的新分布累计表,包括的具体步骤如下:
将原数据中所有类字符,根据所有类字符的分配优先级从大到小排序,得到字符序列;
根据分布累计表的未分配长度的数据值大小,依次分别对字符序列中第一类至第所述数据值大小的类字符的初始长度加一,得到字符序列中每类字符的更新初始长度;
根据字符序列中所有类字符和所有类字符的更新初始长度,构成原始数据的新分布累计表。
本发明的技术方案的有益效果是:
本发明实施例中,根据沉浸式企业办公系统中采集的所有数据对应在ASCII表中的字符,构成原数据,并得到原数据中的字符种类数量和每类字符在原数据中的出现频率。由此得到原数据中每类字符的初始长度和分布累计表的未分配长度,从而得到原数据中每类字符的编码长度,再得到原数据中每类字符的编码长度缩减量。根据原数据中的字符种类数量和分布累计表的长度,得到原数据中字符编码长度的平均缩减量,将原数据中每类字符的编码长度缩减量除以原数据中字符编码长度的平均缩减量,记为原数据中每类字符的编码长度缩减因子,从而得到原数据中每类字符的分配优先级。结合每类字符的初始长度、分布累计表的未分配长度,得到原始数据的新分布累计表,使用rANS算法对原数据进行编码压缩,得到压缩数据,并将压缩数据存储至数据库中。由此本实施例通过计算每类字符的分配优先级,对字符在分布累计表中的长度进行计算,使分布累计表中各字符的长度分配最优,对于沉浸式企业办公系统中数据量大、重复性高的数据有着更好地压缩效果,避免了传统rANS编码中四舍五入对沉浸式企业办公系统数据的压缩率的影响,达到了最大化编码压缩率的目的。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种用于沉浸式企业办公系统的数据存储方法的步骤流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种用于沉浸式企业办公系统的数据存储方法,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种用于沉浸式企业办公系统的数据存储方法的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种用于沉浸式企业办公系统的数据存储方法的步骤流程图,该方法包括以下步骤:
步骤S001:根据沉浸式企业办公系统中采集的所有数据对应在ASCII表中的字符,构成原数据;将原数据中不同字符的数量,记为原数据中的字符种类数量;将原数据中每个相同字符的数量除以原数据中的字符数量,记为每类字符在原数据中的出现频率。
采集沉浸式企业办公系统的数据,主要包括日程、任务、统计数据、员工信息、人力资源管理、设备和设施信息等数据。采集这些数据可以帮助员工更加方便快捷地办公,方便管理人员对员工进行统筹安排。这些数据包括但不限于员工工作日程安排、会议时间和地点、企业内部任务分配、销售数据、财会数据员工个人信息、薪资福利以及企业设备清单、设备维护记录等数据。可通过沉浸式企业办公系统完成这些数据的采集。
由于采集的这些数据都可通过ASCII码表中的字符表示,故根据沉浸式企业办公系统中采集的所有数据对应在ASCII表中的字符,构成原数据。将原数据中不同字符的数量,记为原数据中的字符种类数量。将原数据中每个相同字符的数量除以原数据中的字符数量,记为每类字符在原数据中的出现频率。
步骤S002:将二的原数据中的字符种类数量的次方,记为原数据的分布累计表的长度;根据原数据的分布累计表的长度、每类字符在原数据中的出现频率,得到原数据中每类字符的初始长度和分布累计表的未分配长度。
传统rANS熵编码根据字符在原数据中的频率大小将原数据的分布累计表的长度分配给各字符,对于存在小数部分无法将分布累计表正好分配的字符,采用四舍五入的方式进行取整。对于沉浸式企业办公系统这样数据量大且重复性高的数据,字符在分布累计表中的一位长度对最终编码长度具有较大影响,仅根据四舍五入的方式对分布累计表长度进行分配会使分布累计表无法达到最优分配效果,导致编码的压缩率降低。本实施例通过先将按照频率算出的包含小数的部分全部向下取整,计算每个字符对应分布累计表长度加一可以带来的编码长度优化获取各字符分配优先级,将未分配的分配累计表长度按照字符的分配优先级分配给各字符,使算法分布累计表长度达到最优的分配方案,达到最大化压缩率的目的。
本实施例摒弃了传统rANS算法通过四舍五入的方式进行分布累计表长度分配的方式,先将所有包含小数的字符应分配长度向下取整,获取各字符对应的最小分布累计表长度,以及分布累计表中的未分配长度,以便后续操作的进行。
根据rANS算法可知,应为原数据的原数据的分布累计表的长度,其中n为原数据中的字符种类数量。故将二的原数据中的字符种类数量n的次方/>,记为原数据的分布累计表的长度。其中,rANS算法为公知技术,具体方法在此不做介绍。由此可知原数据中每类字符的初始长度的计算公式为:
其中,为原数据中第i类字符的初始长度,/>为原数据中的字符种类数量,/>为第i类字符在原数据中的出现频率,/>为原数据的分布累计表的长度。/>为的向下取整。
所需说明的是:表示原数据中第i类字符的理论长度,在原数据中所有类字符的理论长度中,为整数的理论长度可以直接作为初始长度,而对于包含小数部分的理论长度通过向下取整的方式得到初始长度,由此用/>表示原数据中第i类字符的初始长度,其体现了第i类字符在原数据的分布累计表的长度中被分配的初始长度。
由于向下取整的方式计算所有类字符的初始长度,会使原数据的分布累计表的长度存在一部分长度剩余。由此可知分布累计表的未分配长度的计算公式为:
其中为分布累计表的未分配长度,n为原数据中的字符种类数量,/>为原数据中第i类字符的初始长度,/>为原数据的分布累计表的长度。
所需说明的是:为原数据中所有类字符的初始长度之和,故原数据的分布累计表的长度/>减去/>,表示分布累计表的未分配长度。后续会将未分配长度分配给各字符。
步骤S003:根据原数据中每类字符的初始长度和分布累计表的长度,得到原数据中每类字符的编码长度;根据原数据中每类字符的编码长度和每类字符的初始长度以及分布累计表的长度,得到原数据中每类字符的编码长度缩减量。
根据每类字符的初始长度分配规则,频率越高的字符在分布累计表中所分配到的长度越大。一类字符的初始长度越长,为其分配分布累计表的未分配长度,可获得的编码长度的缩减增益就越小;而此类字符的频率较高,也会导致该类字符编码长度减小使原数据总编码长度减小。根据每类字符的初始长度增大后编码长度缩减增益和每类字符的频率进行分析,获取未分配长度分配给各类字符的分配优先级。
根据原数据中每类字符的初始长度,可知原数据中每类字符的编码长度的计算公式为:
其中为原数据中第i类字符的编码长度,/>为原数据中第i类字符的初始长度,n为原数据中的字符种类数量,/>为原数据的分布累计表的长度,/>为以2为底的负对数。
所需说明的是:每类字符的编码长度,与其初始长度与分布累计表总长度的比值有关,根据该比值以2为底取负对数,此对数的值即为rANS编码中每类字符对应的单个字符编码长度,故用表示原数据中第i类字符的编码长度。在以2为底的负对数中,由于/>处于0到1之间,因此/>为正数,且/>越大,/>越小。
故将未分配长度分配给一些类字符后,即对这些类字符的初始长度加一,会使这些类字符的编码长度缩减,且这些类字符的初始长度越大,编码长度的缩减会随之逐渐减小。因此每类字符的编码长度的缩减量可根据每类字符的编码长度和初始长度加一后的新编码长度的增量计算。
由此可知原数据中每类字符的编码长度缩减量的计算公式为:
其中为原数据中第i类字符的编码长度缩减量,/>为原数据中第i类字符的编码长度,n为原数据中的字符种类数量,/>为原数据中第i类字符的初始长度。/>为以2为底的负对数。/>为原数据的分布累计表的长度。
所需说明的是:表示原数据中第i类字符的更新编码长度,故用/>减去/>,得到原数据中第i类字符的编码长度缩减量。
已知在将未分配长度分配给各类字符时,最多只需给每类字符分配未分配长度/>中的一个单位长度。每类字符通过理论长度向下取整的方式进行初始长度的计算,为其分配一个单位长度后,每类字符对应的分布累计表中的新长度为理论长度向上取整的长度。将未分配长度/>分配给字符前后,字符对应的分布累计表长度为最接近理论长度的两整数长度,故不存在将超过一个单位长度分配给某一字符的情况。
步骤S004:根据原数据中的字符种类数量和分布累计表的长度,得到原数据中字符编码长度的平均缩减量;根据原数据中字符编码长度的平均缩减量、原数据中每类字符的编码长度缩减量,得到原数据中每类字符的编码长度缩减因子。
根据原数据中的字符种类数量n和原数据的分布累计表的长度,可得到原数据中字符的平均长度/>,由此可知原数据中字符编码长度的平均缩减量/>的计算公式为:
其中为原数据中字符编码长度的平均缩减量,n为原数据中的字符种类数量。为以2为底的负对数。/>为原数据的分布累计表的长度。/>为原数据中字符的平均长度。/>为/>的向下取整。
所需说明的是:为原数据中字符编码长度的平均缩减,其表示了原数据中每类字符获取未分配长度后对字符编码的平均增益,可以通过将原数据中每类字符的编码缩减量与平均缩减进行比较,以便更直观地反映各类字符对单个字符最终编码长度的优化效果。
由此可知原数据中每类字符的编码长度缩减因子的计算公式为:
其中为原数据中第i类字符的编码长度缩减因子,/>为原数据中第i类字符的编码长度缩减量,/>为原数据中字符编码长度的平均缩减量。
所需说明的是:某类字符的编码长度缩减因子越小,说明为该类字符分配为分配长度获得的该类字符编码长度的减小程度越小。
编码长度缩减因子的计算只考虑了相应的一类字符在最终编码中的缩减长度,为了获取未分配长度分配给不同类字符后产生的增益,还应分析相应类字符在原数据中出现的频率,根据一类字符的出现频率与其在原数据中的出现频率能够更精准的衡量该类字符被分配未分配长度后对整体数据的编码长度缩减增益。
步骤S005:根据原数据中的字符种类数量、每类字符在原数据中的出现频率、每类字符的编码长度缩减因子,得到原数据中每类字符的分配优先级。
根据每类字符的缩减因子和频率共同获取对最终编码的优化程度,需要将频率的计算与缩减因子统一,故将频率与所有类字符的平均频率做商以获取每类字符的频率因子,通过与平均频率做商也可以更直观地表示出对应字符的频率水平。
由于在沉浸式企业办公系统中,存在大量结构化数据之间存在相似性,包括同一个项目中也存在大量相似的数据字符等,传统的熵编码根据四舍五入决定保留字符的分配会对沉浸式企业办公系统数据的最终编码结果造成较大的影响,单个字符本身缩减因子和字符频率因子能够很好地反映数据中字符的优化情况,可以更好地衡量企业办公系统数据中字符的优先级。
由此可知原数据中每类字符的频率因子的计算公式为:
其中为原数据中第i类字符的频率因子,/>为原数据中的字符种类数量,/>为第i类字符在原数据中的出现频率。
所需说明的是:表示原数据中字符的平均频率,将/>除以/>,即为/>,表示原数据中第i类字符的频率因子。一类字符的频率因子越小,说明为该类字符分配未分配长度获得的数据总编码长度减小程度越小。
由此可知原数据中每类字符的分配优先级的计算公式为:
其中为原数据中第i类字符的分配优先级,/>为原数据中第i类字符的频率因子,/>为原数据中第i类字符的编码长度缩减因子。/>越大,原数据中第i类字符的分配优先级越高。
步骤S006:根据原数据中每类字符的分配优先级、每类字符的初始长度、分布累计表的未分配长度,得到原始数据的新分布累计表;根据原始数据的新分布累计表,使用rANS算法对原数据进行编码压缩,得到压缩数据,并将压缩数据存储至数据库中。
将原数据中所有类字符,根据所有类字符的分配优先级从大到小排序,得到字符序列。根据分布累计表的未分配长度,依次分别对字符序列中第一类至第/>类字符的初始长度加一,得到字符序列中每类字符的更新初始长度。所需说明的是,字符序列中不是前类字符的初始长度不变。
根据字符序列中所有类字符和所有类字符的更新初始长度,构成原始数据的新分布累计表。根据原始数据的新分布累计表,使用rANS算法对原数据进行编码压缩,得到压缩数据。将压缩数据存储至数据库中。所需说明的是,原数据的分布累计表是统计原始数据中的每一类字符和每一类字符在原数据中的出现次数,此时用每一类字符的更新初始长度作为每一类字符在原数据中的出现次数,构成原始数据的新分布累计表。
至此,本发明完成。
综上所述,在本发明实施例中,根据沉浸式企业办公系统中采集的所有数据对应在ASCII表中的字符,构成原数据,并得到原数据中的字符种类数量和每类字符在原数据中的出现频率。由此得到原数据中每类字符的初始长度和分布累计表的未分配长度,从而得到原数据中每类字符的编码长度,再得到原数据中每类字符的编码长度缩减量。根据原数据中的字符种类数量和分布累计表的长度,得到原数据中字符编码长度的平均缩减量,将原数据中每类字符的编码长度缩减量除以原数据中字符编码长度的平均缩减量,记为原数据中每类字符的编码长度缩减因子,从而得到原数据中每类字符的分配优先级。结合每类字符的初始长度、分布累计表的未分配长度,得到原始数据的新分布累计表,使用rANS算法对原数据进行编码压缩,得到压缩数据,并将压缩数据存储至数据库中。本发明通过计算每类字符的分配优先级,对每类字符在分布累计表中的长度进行计算,使分布累计表中每类字符的长度分配最优,达到了最大化编码压缩率的目的。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种用于沉浸式企业办公系统的数据存储方法,其特征在于,该方法包括以下步骤:
根据沉浸式企业办公系统中采集的所有数据对应在ASCII表中的字符,构成原数据;将原数据中不同字符的数量,记为原数据中的字符种类数量;将原数据中每个相同字符的数量除以原数据中的字符数量,记为每类字符在原数据中的出现频率;
将二的原数据中的字符种类数量n的次方,记为原数据的分布累计表的长度;根据原数据的分布累计表的长度、每类字符在原数据中的出现频率,得到原数据中每类字符的初始长度和分布累计表的未分配长度;
根据原数据中每类字符的初始长度和分布累计表的长度,得到原数据中每类字符的编码长度;根据原数据中每类字符的编码长度和每类字符的初始长度以及分布累计表的长度,得到原数据中每类字符的编码长度缩减量;
根据原数据中的字符种类数量和分布累计表的长度,得到原数据中字符编码长度的平均缩减量;根据原数据中字符编码长度的平均缩减量、原数据中每类字符的编码长度缩减量,得到原数据中每类字符的编码长度缩减因子;
根据原数据中的字符种类数量、每类字符在原数据中的出现频率、每类字符的编码长度缩减因子,得到原数据中每类字符的分配优先级;
根据原数据中每类字符的分配优先级、每类字符的初始长度、分布累计表的未分配长度,得到原始数据的新分布累计表;根据原始数据的新分布累计表,使用rANS算法对原数据进行编码压缩,得到压缩数据,并将压缩数据存储至数据库中。
2.根据权利要求1所述一种用于沉浸式企业办公系统的数据存储方法,其特征在于,所述根据原数据的分布累计表的长度、每类字符在原数据中的出现频率,得到原数据中每类字符的初始长度和分布累计表的未分配长度,包括的具体步骤如下:
将每类字符在原数据中的出现频率与原数据的分布累计表的长度的乘积的向下取整,记为原数据中每类字符的初始长度;
计算原数据中所有类字符的初始长度之和,将原数据的分布累计表的长度减去所述初始长度之和,记为分布累计表的未分配长度。
3.根据权利要求1所述一种用于沉浸式企业办公系统的数据存储方法,其特征在于,所述根据原数据中每类字符的初始长度和分布累计表的长度,得到原数据中每类字符的编码长度对应的具体计算公式为:
其中为原数据中第i类字符的编码长度,/>为原数据中第i类字符的初始长度,/>为原数据的分布累计表的长度,n为原数据中的字符种类数量,/>为以2为底的负对数。
4.根据权利要求1所述一种用于沉浸式企业办公系统的数据存储方法,其特征在于,所述根据原数据中每类字符的编码长度和每类字符的初始长度以及分布累计表的长度,得到原数据中每类字符的编码长度缩减量,包括的具体步骤如下:
根据原数据中每类字符的初始长度加一、原数据的分布累计表的长度,得到原数据中每类字符的更新编码长度;
根据原数据中每类字符的更新编码长度与每类字符的编码长度,得到原数据中每类字符的编码长度缩减量。
5.根据权利要求4所述一种用于沉浸式企业办公系统的数据存储方法,其特征在于,所述根据原数据中每类字符的更新编码长度与每类字符的编码长度,得到原数据中每类字符的编码长度缩减量对应的具体计算公式为:
其中为原数据中第i类字符的编码长度缩减量,/>为原数据中第i类字符的编码长度,/>为原数据中第i类字符的初始长度,/>为原数据的分布累计表的长度,n为原数据中的字符种类数量,/>为原数据中第i类字符的更新编码长度,/>为以2为底的负对数。
6.根据权利要求1所述一种用于沉浸式企业办公系统的数据存储方法,其特征在于,所述根据原数据中的字符种类数量和分布累计表的长度,得到原数据中字符编码长度的平均缩减量,包括的具体步骤如下:
根据原数据中的字符种类数量与原数据的分布累计表的长度,得到原数据中字符的平均长度;
根据原数据中字符的平均长度的向下取整值、原数据中字符的平均长度的向下取整加一值,得到原数据中字符编码长度的平均缩减量。
7.根据权利要求6所述一种用于沉浸式企业办公系统的数据存储方法,其特征在于,所述根据原数据中字符的平均长度的向下取整值、原数据中字符的平均长度的向下取整加一值,得到原数据中字符编码长度的平均缩减量对应的具体计算公式为:
其中为原数据中字符编码长度的平均缩减量,/>为原数据的分布累计表的长度,n为原数据中的字符种类数量,/>为原数据中字符的平均长度,/>为以2为底的负对数,/>为/>的向下取整。
8.根据权利要求1所述一种用于沉浸式企业办公系统的数据存储方法,其特征在于,所述根据原数据中字符编码长度的平均缩减量、原数据中每类字符的编码长度缩减量,得到原数据中每类字符的编码长度缩减因子,包括的具体步骤如下:
将原数据中每类字符的编码长度缩减量除以原数据中字符编码长度的平均缩减量,记为原数据中每类字符的编码长度缩减因子。
9.根据权利要求1所述一种用于沉浸式企业办公系统的数据存储方法,其特征在于,所述根据原数据中的字符种类数量、每类字符在原数据中的出现频率、每类字符的编码长度缩减因子,得到原数据中每类字符的分配优先级,包括的具体步骤如下:
将每类字符在原数据中的出现频率与原数据中的字符种类数量的乘积,记为原数据中每类字符的频率因子;
将原数据中每类字符的频率因子与对应的每类字符的编码长度缩减因子的乘积,记为原数据中每类字符的分配优先级。
10.根据权利要求1所述一种用于沉浸式企业办公系统的数据存储方法,其特征在于,所述根据原数据中每类字符的分配优先级、每类字符的初始长度、分布累计表的未分配长度,得到原始数据的新分布累计表,包括的具体步骤如下:
将原数据中所有类字符,根据所有类字符的分配优先级从大到小排序,得到字符序列;
根据分布累计表的未分配长度的数据值大小,依次分别对字符序列中第一类至第所述数据值大小的类字符的初始长度加一,得到字符序列中每类字符的更新初始长度;
根据字符序列中所有类字符和所有类字符的更新初始长度,构成原始数据的新分布累计表。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311360665.9A CN117093666B (zh) | 2023-10-20 | 2023-10-20 | 一种用于沉浸式企业办公系统的数据存储方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311360665.9A CN117093666B (zh) | 2023-10-20 | 2023-10-20 | 一种用于沉浸式企业办公系统的数据存储方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117093666A CN117093666A (zh) | 2023-11-21 |
CN117093666B true CN117093666B (zh) | 2024-01-05 |
Family
ID=88775733
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311360665.9A Active CN117093666B (zh) | 2023-10-20 | 2023-10-20 | 一种用于沉浸式企业办公系统的数据存储方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117093666B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2867279A1 (en) * | 2013-10-18 | 2015-04-18 | Palantir Technologies, Inc. | Systems and user interfaces for dynamic and interactive simultaneous querying of multiple data stores |
CN106469106A (zh) * | 2015-08-20 | 2017-03-01 | 陕西千山航空电子有限责任公司 | 一种基于符号数据模型的状态监测方法 |
CN107783736A (zh) * | 2016-08-25 | 2018-03-09 | 佳能株式会社 | 图像形成装置、控制方法及存储程序的存储介质 |
CN114521260A (zh) * | 2020-08-27 | 2022-05-20 | 华为技术有限公司 | 在不可信存储系统中进行数据去重和压缩的方法和系统 |
CN116827350A (zh) * | 2023-08-29 | 2023-09-29 | 众科云(北京)科技有限公司 | 基于云边协同的灵活用工平台智能监管方法及系统 |
CN116861041A (zh) * | 2023-09-04 | 2023-10-10 | 世窗信息股份有限公司 | 一种电子公文处理方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10474652B2 (en) * | 2013-03-14 | 2019-11-12 | Inpixon | Optimizing wide data-type storage and analysis of data in a column store database |
US10430182B2 (en) * | 2015-01-12 | 2019-10-01 | Microsoft Technology Licensing, Llc | Enhanced compression, encoding, and naming for resource strings |
-
2023
- 2023-10-20 CN CN202311360665.9A patent/CN117093666B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2867279A1 (en) * | 2013-10-18 | 2015-04-18 | Palantir Technologies, Inc. | Systems and user interfaces for dynamic and interactive simultaneous querying of multiple data stores |
CN106469106A (zh) * | 2015-08-20 | 2017-03-01 | 陕西千山航空电子有限责任公司 | 一种基于符号数据模型的状态监测方法 |
CN107783736A (zh) * | 2016-08-25 | 2018-03-09 | 佳能株式会社 | 图像形成装置、控制方法及存储程序的存储介质 |
CN114521260A (zh) * | 2020-08-27 | 2022-05-20 | 华为技术有限公司 | 在不可信存储系统中进行数据去重和压缩的方法和系统 |
CN116827350A (zh) * | 2023-08-29 | 2023-09-29 | 众科云(北京)科技有限公司 | 基于云边协同的灵活用工平台智能监管方法及系统 |
CN116861041A (zh) * | 2023-09-04 | 2023-10-10 | 世窗信息股份有限公司 | 一种电子公文处理方法及系统 |
Non-Patent Citations (2)
Title |
---|
基于改进TESP算法的边防车辆类型声音识别;王艳;李文藻;张意;张卫华;李智;周激流;;四川大学学报(工程科学版)(第S2期);全文 * |
汉语文本动态字母表0阶模型算术编码;王忠效, 范植华;中文信息学报(第01期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117093666A (zh) | 2023-11-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116192971B (zh) | 智能云能源运维服务平台数据管理方法 | |
CN1183683C (zh) | 使用前缀预测的位自适应编码方法 | |
CN116318174B (zh) | 一种污水处理厂的垃圾运输管理系统的数据管理方法 | |
CN116610265B (zh) | 一种商务信息咨询系统的数据存储方法 | |
WO2023087658A1 (zh) | 一种任务调度方法、装置、设备及可读存储介质 | |
CN110162390B (zh) | 一种雾计算系统的任务分配方法及系统 | |
WO2024037244A9 (zh) | 点云数据的解码方法、编码方法、装置、存储介质及设备 | |
CN115858476A (zh) | 用于web开发系统中自定义表单获取数据的高效存储方法 | |
CN117093666B (zh) | 一种用于沉浸式企业办公系统的数据存储方法 | |
CN116614139A (zh) | 一种售酒小程序内用户交易信息压缩存储方法 | |
CN115658628A (zh) | 用于mes系统的生产数据智能管理方法 | |
CN118075472A (zh) | 一种基于loco-i算法和哈夫曼编码的频谱压缩方法 | |
US10211851B2 (en) | Method and system for compressing data from smart meter | |
CN117040542B (zh) | 一种智能综合配电箱能耗数据处理方法 | |
CN116011403A (zh) | 一种用于计算机数据存储的重复数据识别方法 | |
CN112506876B (zh) | 一种支持sql查询的无损压缩查询方法 | |
CN114741198B (zh) | 视频流处理方法及装置、电子设备、计算机可读介质 | |
CN115811317A (zh) | 一种基于自适应不解压直接计算的流处理方法和系统 | |
CN110602569B (zh) | 一种基于带宽趋势的带宽复用方法和系统 | |
CN103297182A (zh) | 频谱感知测量数据的发送方法及装置 | |
CN111510715A (zh) | 视频处理方法、系统、计算机设备及存储介质 | |
CN109472481A (zh) | 一种中低压配网工程全过程数据流转方法及装置 | |
CN117812185B (zh) | 一种智能外呼系统的管控方法及系统 | |
CN117767960B (zh) | 一种传感器数据优化采集存储方法 | |
CN116896769B (zh) | 一种摩托车蓝牙音响数据优化传输方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |