CN117278055B - 基于数据分析的车辆销售信息优化存储方法 - Google Patents
基于数据分析的车辆销售信息优化存储方法 Download PDFInfo
- Publication number
- CN117278055B CN117278055B CN202311479434.XA CN202311479434A CN117278055B CN 117278055 B CN117278055 B CN 117278055B CN 202311479434 A CN202311479434 A CN 202311479434A CN 117278055 B CN117278055 B CN 117278055B
- Authority
- CN
- China
- Prior art keywords
- data information
- vehicle sales
- sales data
- various characters
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000007405 data analysis Methods 0.000 title claims abstract description 17
- 230000009467 reduction Effects 0.000 claims abstract description 32
- 230000008859 change Effects 0.000 claims abstract description 22
- 230000008569 process Effects 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000007906 compression Methods 0.000 abstract description 11
- 230000006835 compression Effects 0.000 abstract description 11
- 230000000694 effects Effects 0.000 abstract description 5
- 238000013144 data compression Methods 0.000 abstract description 4
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 238000005457 optimization Methods 0.000 abstract 1
- 230000000977 initiatory effect Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/40—Conversion to or from variable length codes, e.g. Shannon-Fano code, Huffman code, Morse code
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及数据压缩存储技术领域,具体涉及一种基于数据分析的车辆销售信息优化存储方法,获取待压缩车辆销售数据信息以及历史参考车辆销售数据信息,根据待压缩车辆销售数据信息中的各种字符在历史参考车辆销售数据信息中的位置以及频次,得到位置削减因子,接着基于位置削减因子得到各种字符在历史参考车辆销售数据信息中的修正位置特征,然后根据各种字符的修正位置特征得到频率变化权值,以对各种字符的频率进行修正得到各种字符的霍夫曼优先级指标,最后根据霍夫曼优先级指标,采用霍夫曼编码算法进行编码压缩存储,能够更加准确地计算得到每类字符的霍夫曼优先级,提升编码压缩效果,达到最优化动态霍夫曼编码压缩率的有益效果。
Description
技术领域
本发明涉及数据压缩存储技术领域,具体涉及一种基于数据分析的车辆销售信息优化存储方法。
背景技术
车辆销售信息数据包括车辆的基本信息(如品牌、型号、颜色、发动机规格等)、销售记录、客户信息等。随着汽车销售业务的增长和数字化转型,数据量不断增加,对数据的存储和处理提出了更高的要求,故需要对车辆销售信息数据进行可靠优化存储。
霍夫曼编码是一种较为常用的数据压缩存储方法,现有技术通常采用动态霍夫曼编码对车辆销售信息数据进行压缩存储。动态霍夫曼编码能够较好地应对需要频繁更新的车辆销售信息数据,而且能够比较满足数据的压缩率。然而,现有的动态霍夫曼编码通过字符在历史编码中的出现频率动态调整各类字符在霍夫曼树上的位置,以达到历史最优树的编码。随着编码的进行,一些历史数据在霍夫曼数得确定过程中已经不再具有参考意义,继续根据该历史出现频率进行编码会使未来出现的字符数据过于受到历史数据的影响,导致编码压缩效果较差。
发明内容
有鉴于此,为了解决采用现有的数据压缩存储方法会导致车辆销售信息数据的编码压缩效果较差的技术问题,本发明提供一种基于数据分析的车辆销售信息优化存储方法。
所采用的技术方案具体如下:
一种基于数据分析的车辆销售信息优化存储方法,包括:
获取待压缩车辆销售数据信息,以及历史参考车辆销售数据信息;
根据所述待压缩车辆销售数据信息中的各种字符在所述历史参考车辆销售数据信息中的位置信息,得到各种字符所对应的初始位置特征,并根据各种字符的所述初始位置特征、所述位置信息以及在所述历史参考车辆销售数据信息中的频次,得到各种字符的位置削减因子;
根据各种字符的位置削减因子,结合历史参考车辆销售数据信息的预设位置特征,得到各种字符在所述历史参考车辆销售数据信息中的修正位置特征;
根据各种字符的所述修正位置特征以及所述预设位置特征,得到各种字符的频率变化权值,并结合各种字符在所述历史参考车辆销售数据信息中出现的频率,得到各种字符的霍夫曼优先级指标;
根据各种字符的霍夫曼优先级指标,采用霍夫曼编码算法,对所述待压缩车辆销售数据信息进行编码压缩存储。
优选地,各种字符在所述历史参考车辆销售数据信息中的位置信息为各种字符在所述历史参考车辆销售数据信息中的索引编号;
所述根据各种字符的所述初始位置特征、所述位置信息以及在所述历史参考车辆销售数据信息中的频次,得到各种字符的位置削减因子,包括:
对于第i类字符,第i类字符的位置削减因子的计算公式如下:
其中,Fi为第i类字符的位置削减因子,ni为第i类字符在历史参考车辆销售数据信息中的频次,Hi(j)为第i类字符中的第j个字符的索引编号,为第i类字符的初始位置特征对应的数值,L为历史参考车辆销售数据信息的字符总数量,min()为最小值函数。
优选地,所述初始位置特征为第i类字符中各个字符的索引编号的平均值。
优选地,所述历史参考车辆销售数据信息的预设位置特征为历史参考车辆销售数据信息的字符总数量的二分之一;
所述根据各种字符的位置削减因子,结合历史参考车辆销售数据信息的预设位置特征,得到各种字符在所述历史参考车辆销售数据信息中的修正位置特征,包括:
对于第i类字符,第i类字符在所述历史参考车辆销售数据信息中的修正位置特征的计算公式如下:
其中,Gi为第i类字符在历史参考车辆销售数据信息中的修正位置特征,Fi为第i类字符的位置削减因子,为第i类字符的初始位置特征对应的数值,L为历史参考车辆销售数据信息的字符总数量。
优选地,所述根据各种字符的所述修正位置特征以及所述预设位置特征,得到各种字符的频率变化权值,包括:
计算各种字符的所述修正位置特征与所述预设位置特征的差值,各种字符的频率变化权值与所述差值呈正相关关系。
优选地,所述结合各种字符在所述历史参考车辆销售数据信息中出现的频率,得到各种字符的霍夫曼优先级指标,包括:
计算各种字符在所述历史参考车辆销售数据信息中出现的频率与对应的频率变化权值的乘积,作为各种字符的霍夫曼优先级指标。
优选地,所述根据各种字符的霍夫曼优先级指标,采用霍夫曼编码算法,对所述待压缩车辆销售数据信息进行编码压缩存储,包括:
将各种字符的霍夫曼优先级指标替换各种字符在所述待压缩车辆销售数据信息中的频率,然后采用霍夫曼编码算法,对所述待压缩车辆销售数据信息进行编码压缩存储。
优选地,所述历史参考车辆销售数据信息的获取过程,包括:
按照时序获取历史车辆销售初始数据信息,将所述历史车辆销售初始数据信息进行ASCII编码,得到历史车辆销售编码数据信息;
从所述历史车辆销售编码数据信息中选取预设长度的数据信息,作为所述历史参考车辆销售数据信息。
优选地,所述预设长度的获取过程,包括:
获取所述待压缩车辆销售数据信息中的字符种类数量,计算所述字符种类数量与预设种类倍数的乘积,作为所述预设长度;其中所述预设种类倍数为大于1的正整数。
优选地,所述待压缩车辆销售数据信息的获取过程,包括:
获取待压缩车辆销售初始数据信息,将所述待压缩车辆销售初始数据信息进行ASCII编码,得到所述待压缩车辆销售数据信息。
本发明至少具有如下有益效果:针对霍夫曼编码中数据在霍夫曼树上的优先级受字符历史出现频率影响较大的问题,根据待压缩车辆销售数据信息中的各种字符在历史参考车辆销售数据信息中的位置信息,以及在历史参考车辆销售数据信息中的频次,得到各种字符的位置削减因子,进而根据位置削减因子得到各种字符在历史参考车辆销售数据信息中的修正位置特征,修正位置特征用于得到各种字符的频率变化权值,以结合各种字符的原始频率调整得到各种字符的霍夫曼优先级指标,最后根据各种字符的霍夫曼优先级指标,采用霍夫曼编码算法,对待压缩车辆销售数据信息进行编码压缩存储。因此,通过待压缩车辆销售数据信息中的各种字符在历史参考车辆销售数据信息中的相关变化情况,结合当前待压缩车辆销售数据信息以及历史参考车辆销售数据信息,能够更加准确地计算得到每类字符的霍夫曼优先级,并根据实际得到的字符的霍夫曼优先级对霍夫曼编码算法中涉及到的各种字符的频率进行调整,能够使得字符编码结果与实际情况相符,提升编码压缩效果,达到最优化动态霍夫曼编码压缩率的有益效果。
附图说明
图1是本发明提供的一种基于数据分析的车辆销售信息优化存储方法的流程图。
具体实施方式
本实施例提供一种基于数据分析的车辆销售信息优化存储方法,如图1所示,包括如下步骤:
步骤S1:获取待压缩车辆销售数据信息,以及历史参考车辆销售数据信息:
获取车辆销售数据信息,车辆销售数据信息为车辆在销售过程中产生的车辆相关的数据信息,作为一个具体实施方式,车辆销售数据信息包括车辆基本信息、销售信息和客户信息。其中,车辆基本信息包括车辆尺寸信息、车辆动力参数信息、车辆型号信息等等,销售信息包括车价信息和销售时间信息,客户信息包括买方身份信息。应当理解,除了上述给出的车辆销售数据信息之外,还可以包括车辆销售过程中产生的其他相关信息,比如:销售合同信息。
本实施例所需的车辆销售数据信息包括当前待压缩车辆销售数据信息和历史参考车辆销售数据信息。
车辆销售数据信息为获取到的处理之前的初始数据信息,包括数字、字母、特殊字符和汉字。为了便于后续处理,需要预处理成计算机可识别的数据信息。相应地,待压缩车辆销售数据信息的获取过程,包括:
获取待压缩车辆销售初始数据信息,为包括数字、字母、特殊字符和汉字的初始数据,将待压缩车辆销售初始数据信息进行ASCII编码,得到待压缩车辆销售数据信息。应当理解,其中数字、字母和特殊字符可直接通过ASCII表中的字符表示,而汉字的种类繁多,直接对汉字进行编码压缩会导致某类汉字的出现频率极低,降低霍夫曼编码的压缩效果,故在本实施例中,需要对车辆销售数据信息中存在的汉字进行预处理,具体的,在完成采集待压缩车辆销售初始数据信息后,先将数据中存在的汉字通过16位Unicode码进行编码,再将每个汉字的16位Unicode码拆分为前八位和后八位两部分,将两部分分别编码为两个8位扩展的ASCII码,并使用两个ASCII码在扩展的ASCII码表中对应的字符代替汉字,实现将数字、字母、特殊字符和汉字统一转换成ASCII码的字符。因此,本实施例中的字符为经过ASCII编码得到的字符。
获取历史参考车辆销售数据信息,历史参考车辆销售数据信息为待压缩车辆销售初始数据信息之前的数据信息,历史参考车辆销售数据信息可以理解为之前已经进行数据压缩的车辆销售数据信息。作为一个具体实施方式,历史参考车辆销售数据信息并非是所有的历史数据,而是从所有的历史数据中选取出来的一部分数据信息。本实施例中,历史车辆销售初始数据信息是由历史每一次进行车辆销售所产生的销售数据信息构成。按照时序获取历史车辆销售初始数据信息,即按照车辆销售数据产生的时间先后顺序,获取历史一段时间内的历史车辆销售初始数据信息,比如:待压缩车辆销售初始数据信息的获取时刻之前一个月内或者半年内的历史车辆销售初始数据信息。将获取到的历史车辆销售初始数据信息进行ASCII编码,得到历史车辆销售编码数据信息,可以采用上述对待压缩车辆销售初始数据信息的处理方式进行处理,不再赘述。由于历史车辆销售初始数据信息是时序数据,那么,历史车辆销售初始数据信息中的各个字符具有顺序,即具有序号。然后从历史车辆销售编码数据信息中选取预设长度的数据信息,作为历史参考车辆销售数据信息。本实施例中,选取的预设长度的数据信息,为时间上距离待压缩车辆销售初始数据信息最近的数据信息,即时间上距离当前最近的数据信息。距离待压缩车辆销售初始数据信息时间越近,其与待压缩车辆销售初始数据信息的关联越密切,越具有参考价值。其中,预设长度可以为预设的一个固定数据长度,也可以是一个与待压缩车辆销售初始数据信息相关的可变数据。本实施例中,获取待压缩车辆销售数据信息所对应的ASCII码中出现的字符的种类数量c,然后计算字符种类数量c与一个预设种类倍数a的乘积,得到的乘积就是预设长度L。其中预设种类倍数a为大于1的正整数,由实际需要进行设置,比如a等于3。应当理解,预设种类倍数a的数值可以设置的较大一些,以确保待压缩车辆销售数据信息中出现的所有种类的字符均在历史车辆销售编码数据信息中出现。预设长度L就是历史参考车辆销售数据信息的字符总数量。应当理解,若历史参考车辆销售数据信息是历史已进行压缩存储的数据,则应当是已经转换成ASCII码的字符数据,则可以不再进行上述ASCII码转换,而是直接将已经转换成ASCII码的字符数据拿来使用。
应当理解,在获取待压缩车辆销售数据信息所对应的ASCII码中出现的字符的种类数量c时,各种字符(也称为各类字符)在待压缩车辆销售数据信息中的字符数量可以只有一个,也可以有多个。而且,根据各类字符构建待压缩车辆销售数据信息所对应的字符种类序列,并对字符种类序列中的各类字符进行编号,以得到各类字符的序号,使得各类字符的序号具有唯一性。
步骤S2:根据所述待压缩车辆销售数据信息中的各种字符在所述历史参考车辆销售数据信息中的位置信息,得到各种字符所对应的初始位置特征,并根据各种字符的所述初始位置特征、所述位置信息以及在所述历史参考车辆销售数据信息中的频次,得到各种字符的位置削减因子:
需要说明的是,在历史参考车辆销售数据信息中,每类字符的分布不尽相同,不同的字符出现的索引分布不同,其在后续数据中的出现概率也会受到一定影响。故需要获取每类字符在历史参考车辆销售数据信息中的出现索引,根据每类字符的索引分布对字符在霍夫曼树中的优先级进行分析。
获取待压缩车辆销售数据信息中的各类字符在历史参考车辆销售数据信息中的位置信息,本实施例中,位置信息具体为索引编号。具体地:对历史参考车辆销售数据信息中的各个字符进行索引编号,由于L是历史参考车辆销售数据信息的字符总数量,那么,索引编号范围为1~L。那么,获取各类字符在历史参考车辆销售数据信息中的索引编号,并获取各类字符在历史参考车辆销售数据信息中的出现频次。比如:对于待压缩车辆销售数据信息所对应的字符种类序列中的第i类字符,获取第i类字符在历史参考车辆销售数据信息中出现位置对应的索引编号,记为字符在历史参考车辆销售数据信息中的索引,第i类字符在历史参考车辆销售数据信息中的全部出现位置对应的索引编号构成第i类字符的索引序列Hi,第i类字符索引序列中的第j个字符索引记为Hi(j)。并获取第i类字符在历史参考车辆销售数据信息中的出现频次,记为ni。
获取各类字符在历史参考车辆销售数据信息中的出现频率,其中,以Pi表示第i类字符在历史参考车辆销售数据信息中的出现频率。出现频率为各类字符在历史参考车辆销售数据信息中的出现频次与历史参考车辆销售数据信息的字符总数量的比值,比如:第i类字符在历史参考车辆销售数据信息中的出现频率为Pi/L。
需要说明的是,根据每类字符在历史参考车辆销售数据信息中出现索引的分布情况获取字符出现频率的变化程度,如果字符在历史参考车辆销售数据信息中的出现索引整体偏大,说明该类字符的出现频率在逐渐变大。根据第i类字符在历史参考车辆销售数据信息中全部出现位置的索引判断字符在历史参考车辆销售数据信息中的整体范围。
获取各类字符的初始位置特征,初始位置特征由各类字符的索引编号获取得到,作为一个具体实施方式,对于任意一类字符,以第i类字符为例,初始位置特征为第i类字符中各个字符的索引编号的平均值。计算得到的索引编号的平均值为各类字符的初始位置中心,以第i类字符为例,第i类字符中各个字符的索引编号的平均值为第i类字符的初始位置中心,记为
需要说明的是,第i类字符的初始位置中心越大,说明第i类字符在历史参考车辆销售数据信息中的整体位置就越向历史参考车辆销售数据信息最后的位置靠近。然而字符在历史参考车辆销售数据信息中的整体位置也与字符的离散程度有关,无论字符的初始位置中心靠近历史参考车辆销售数据信息中的开始端还是末端,字符方差越大,说明有越多的字符处于历史参考车辆销售数据信息中的某一端。故需要根据字符的方差计算字符位置偏差的削减因子。
因此,根据各类字符的初始位置特征、各类字符的位置信息以及在历史参考车辆销售数据信息中的频次,得到各类字符的位置削减因子。以第i类字符为例,第i类字符的位置削减因子的计算公式如下:
其中,Fi为第i类字符的位置削减因子,ni为第i类字符在历史参考车辆销售数据信息中的频次,Hi(j)为第i类字符中的第j个字符的索引编号,为第i类字符的初始位置特征对应的数值,即第i类字符中各个字符的索引编号的平均值,L为历史参考车辆销售数据信息的字符总数量,min()为最小值函数。
需要说明的是,对于第i类字符索引序列,其中所有索引值均处于区间[1,L]之中,而索引序列的平均值将该区间分为两个子区间,将两个子区间中较小的子区间长度记为小区间长度Lmin,即公式中的计算每个索引值与索引序列平均值的差值,由于每个索引值均处于区间[1,L]内,所有差值的平均值应小于Lmin,故将第i类字符的每个索引值与索引平均值的差值与小区间长度作商,即公式中的/>通过求商的方式将所有索引值与平均值的差异归一化,获取所有归一化后差异的二次幂的平均值即可反映数据索引值的离散程度,离散程度越大,表征得到的位置削减因子越大。计算得到的位置削减因子用于对数据的平均值进行削减修正。
步骤S3:根据各种字符的位置削减因子,结合历史参考车辆销售数据信息的预设位置特征,得到各种字符在所述历史参考车辆销售数据信息中的修正位置特征:
获取历史参考车辆销售数据信息的预设位置特征,预设位置特征是预设的一个特定的位置特征值,由于上述中各类字符的初始位置特征为各类字符中各个字符的索引编号的平均值,为初始位置中心,那么,历史参考车辆销售数据信息的预设位置特征为历史参考车辆销售数据信息的索引编号的中值,即L/2。
那么,根据各类字符的位置削减因子,结合历史参考车辆销售数据信息的预设位置特征,得到各类字符在历史参考车辆销售数据信息中的修正位置特征,具体为:以第i类字符为例,第i类字符在历史参考车辆销售数据信息中的修正位置特征的计算公式如下:
其中,Gi为第i类字符在历史参考车辆销售数据信息中的修正位置特征,也可以理解为第i类字符的加权位置中心。
将第i类字符的初始位置中心与历史参考车辆销售数据信息的中值L/2作差,获取第i类字符的初始位置中心与历史参考车辆销售数据信息中值的差值,记为第i类字符的位置偏差Di。
对于初始位置中心接近历史参考车辆销售数据信息任意一端的数据,获取的位置削减因子越大,说明有越多的该类字符分布在历史参考车辆销售数据信息中的某一端,故只需要根据位置削减因子对该类字符与历史参考车辆销售数据信息中心之间的差值进行削减修正获取修正后的字符索引平均值,即公式中的
步骤S4:根据各种字符的所述修正位置特征,以及所述预设位置特征,得到各种字符的频率变化权值,并结合各种字符在所述历史参考车辆销售数据信息中出现的频率,得到各种字符的霍夫曼优先级指标:
需要说明的是,每类字符的加权位置中心反映了该类字符在历史参考车辆销售数据信息中的出现位置的中心,该类字符出现位置越接近历史参考车辆销售数据信息的最大索引,即越靠后,说明该类字符在历史参考车辆销售数据信息中一开始的出现频率较低,而后逐渐变高。故可以通过每类字符的加权位置中心判断每类字符在历史参考车辆销售数据信息中的频率变化情况,获取每类字符的频率变化权值。
本实施例中,计算各类字符的修正位置特征与历史参考车辆销售数据信息的中值的差值,各类字符的频率变化权值与该差值呈正相关关系。以第i类字符为例,频率变化权值的计算公式如下:
其中,Wi为第i类字符的频率变化权值,exp()为以自然常数e为底数的指数函数。
需要说明的是,在历史参考车辆销售数据信息中,对于历史参考车辆销售数据信息中存在且前后频率没有变化的字符,其加权位置中心刚好为历史参考车辆销售数据信息的中心位置。如果任意一类字符的加权位置中心大于历史参考车辆销售数据信息中心位置索引,说明该类字符的频率是逐渐变大的,且该类字符的加权位置中心大于历史参考车辆销售数据信息中心位置索引越多,说明该字符的频率变化得越剧烈。故将任意一类字符的加权中心位置与历史参考车辆销售数据信息的中心位置作差,作为自然常数e的指数,通过指数函数运算获取该类字符的频率变化权值。
因此,对于任意一类字符,其加权位置中心与历史参考车辆销售数据信息的中值相差越大,该类字符的频率变化权值越大,该类字符在历史参考车辆销售数据信息中一开始的出现频率较低,而后逐渐变高,说明越需要调高该类字符的频率。
判断每类字符在历史参考车辆销售数据信息中的频率变化情况,获取每类字符的频率变化权值。
应当理解,正相关关系除了采用上述中的以自然常数e为底数的指数函数之外,还可以采用其他的方式,比如:以其他大于1的数值为底数的指数函数,或者,将该差值与一个大于1的数值相乘,得到的乘积为频率变化权值,等等。
然后,结合各类字符在历史参考车辆销售数据信息中出现的频率,得到各类字符的霍夫曼优先级指标。需要说明的是,传统的动态霍夫曼算法直接根据每类字符的出现频率作为字符的优先级构建霍夫曼树,容易受到较大历史数据范围内的字符频率影响。通过字符在历史参考车辆销售数据信息中的频率变化优先级对字符的频率进行加权能够获取更加准确的霍夫曼优先级。那么,计算各类字符在历史参考车辆销售数据信息中出现的频率与对应的频率变化权值的乘积,作为各类字符的霍夫曼优先级指标。以第i类字符为例,第i类字符的霍夫曼优先级指标的计算公式如下:
Ui=Wi×Pi
其中,Ui为第i类字符的霍夫曼优先级指标。
因此,根据历史参考车辆销售数据信息中全部种类字符的频率变化优先级对对应类字符的频率进行加权,获取全部种类字符的霍夫曼优先级指标。
步骤S5:根据各种字符的霍夫曼优先级指标,采用霍夫曼编码算法,对所述待压缩车辆销售数据信息进行编码压缩存储:
根据各类字符的霍夫曼优先级指标,采用霍夫曼编码算法,对动态霍夫曼树进行调整,并对待压缩车辆销售数据信息进行编码压缩存储。本实施例中,将各类字符的霍夫曼优先级指标替换各类字符在待压缩车辆销售数据信息中的频率,以霍夫曼优先级指标替代字符频率,然后采用霍夫曼编码算法,对待压缩车辆销售数据信息进行编码压缩存储。因此,根据全部种类字符的霍夫曼优先级对霍夫曼树进行动态调整,使霍夫曼优先级高的字符对应霍夫曼树中的较高层。根据调整后的霍夫曼树对待压缩车辆销售数据信息的各类字符进行压缩,最终完成对待压缩车辆销售数据信息的编码压缩存储,将编码存储在计算机设备中。应当理解,根据各种字符的频率采用霍夫曼编码算法进行编码,为常规技术手段,不再赘述。
应当理解,由于历史车辆销售数据是由每次的车辆销售数据构成,那么,在后续中,每对一次待压缩车辆销售数据信息进行编码压缩存储后,都会造成历史参考车辆销售数据信息的改变,故可以在每对一次待压缩车辆销售数据信息进行编码压缩存储完成后更新历史参考车辆销售数据信息与霍夫曼树,然后根据新的历史参考车辆销售数据信息计算每类字符新的霍夫曼优先级,根据每类字符新的霍夫曼优先级动态更新霍夫曼树以对后续待编码数据进行压缩。通过动态霍夫曼编码进行压缩的数据减少了占用的存储空间,实现了对于车辆销售信息数据的优化存储。本段上文是一种优化的具体实施方式,在满足技术方案可行性的基础上,还可以不进行本段上文中的动态调整。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围,均应包含在本申请的保护范围之内。
Claims (9)
1.一种基于数据分析的车辆销售信息优化存储方法,其特征在于,包括:
获取待压缩车辆销售数据信息,以及历史参考车辆销售数据信息;
根据所述待压缩车辆销售数据信息中的各种字符在所述历史参考车辆销售数据信息中的位置信息,得到各种字符所对应的初始位置特征,并根据各种字符的所述初始位置特征、所述位置信息以及在所述历史参考车辆销售数据信息中的频次,得到各种字符的位置削减因子;
根据各种字符的位置削减因子,结合历史参考车辆销售数据信息的预设位置特征,得到各种字符在所述历史参考车辆销售数据信息中的修正位置特征;
根据各种字符的所述修正位置特征以及所述预设位置特征,得到各种字符的频率变化权值,并结合各种字符在所述历史参考车辆销售数据信息中出现的频率,得到各种字符的霍夫曼优先级指标;
根据各种字符的霍夫曼优先级指标,采用霍夫曼编码算法,对所述待压缩车辆销售数据信息进行编码压缩存储;
各种字符在所述历史参考车辆销售数据信息中的位置信息为各种字符在所述历史参考车辆销售数据信息中的索引编号;
所述根据各种字符的所述初始位置特征、所述位置信息以及在所述历史参考车辆销售数据信息中的频次,得到各种字符的位置削减因子,包括:
对于第i类字符,第i类字符的位置削减因子的计算公式如下:
其中,Fi为第i类字符的位置削减因子,ni为第i类字符在历史参考车辆销售数据信息中的频次,Hi(j)为第i类字符中的第j个字符的索引编号,为第i类字符的初始位置特征对应的数值,L为历史参考车辆销售数据信息的字符总数量,min()为最小值函数。
2.根据权利要求1所述的基于数据分析的车辆销售信息优化存储方法,其特征在于,所述初始位置特征为第i类字符中各个字符的索引编号的平均值。
3.根据权利要求1所述的基于数据分析的车辆销售信息优化存储方法,其特征在于,所述历史参考车辆销售数据信息的预设位置特征为历史参考车辆销售数据信息的字符总数量的二分之一;
所述根据各种字符的位置削减因子,结合历史参考车辆销售数据信息的预设位置特征,得到各种字符在所述历史参考车辆销售数据信息中的修正位置特征,包括:
对于第i类字符,第i类字符在所述历史参考车辆销售数据信息中的修正位置特征的计算公式如下:
其中,Gi为第i类字符在历史参考车辆销售数据信息中的修正位置特征,Fi为第i类字符的位置削减因子,为第i类字符的初始位置特征对应的数值,L为历史参考车辆销售数据信息的字符总数量。
4.根据权利要求1所述的基于数据分析的车辆销售信息优化存储方法,其特征在于,所述根据各种字符的所述修正位置特征以及所述预设位置特征,得到各种字符的频率变化权值,包括:
计算各种字符的所述修正位置特征与所述预设位置特征的差值,各种字符的频率变化权值与所述差值呈正相关关系。
5.根据权利要求1所述的基于数据分析的车辆销售信息优化存储方法,其特征在于,所述结合各种字符在所述历史参考车辆销售数据信息中出现的频率,得到各种字符的霍夫曼优先级指标,包括:
计算各种字符在所述历史参考车辆销售数据信息中出现的频率与对应的频率变化权值的乘积,作为各种字符的霍夫曼优先级指标。
6.根据权利要求1所述的基于数据分析的车辆销售信息优化存储方法,其特征在于,所述根据各种字符的霍夫曼优先级指标,采用霍夫曼编码算法,对所述待压缩车辆销售数据信息进行编码压缩存储,包括:
将各种字符的霍夫曼优先级指标替换各种字符在所述待压缩车辆销售数据信息中的频率,然后采用霍夫曼编码算法,对所述待压缩车辆销售数据信息进行编码压缩存储。
7.根据权利要求1所述的基于数据分析的车辆销售信息优化存储方法,其特征在于,所述历史参考车辆销售数据信息的获取过程,包括:
按照时序获取历史车辆销售初始数据信息,将所述历史车辆销售初始数据信息进行ASCII编码,得到历史车辆销售编码数据信息;
从所述历史车辆销售编码数据信息中选取预设长度的数据信息,作为所述历史参考车辆销售数据信息。
8.根据权利要求7所述的基于数据分析的车辆销售信息优化存储方法,其特征在于,所述预设长度的获取过程,包括:
获取所述待压缩车辆销售数据信息中的字符种类数量,计算所述字符种类数量与预设种类倍数的乘积,作为所述预设长度;其中所述预设种类倍数为大于1的正整数。
9.根据权利要求1所述的基于数据分析的车辆销售信息优化存储方法,其特征在于,所述待压缩车辆销售数据信息的获取过程,包括:
获取待压缩车辆销售初始数据信息,将所述待压缩车辆销售初始数据信息进行ASCII编码,得到所述待压缩车辆销售数据信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311479434.XA CN117278055B (zh) | 2023-11-07 | 2023-11-07 | 基于数据分析的车辆销售信息优化存储方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311479434.XA CN117278055B (zh) | 2023-11-07 | 2023-11-07 | 基于数据分析的车辆销售信息优化存储方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117278055A CN117278055A (zh) | 2023-12-22 |
CN117278055B true CN117278055B (zh) | 2024-04-16 |
Family
ID=89201112
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311479434.XA Active CN117278055B (zh) | 2023-11-07 | 2023-11-07 | 基于数据分析的车辆销售信息优化存储方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117278055B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117708513B (zh) * | 2024-02-05 | 2024-04-19 | 贵州省畜牧兽医研究所 | 一种用于缬草特征研究的种植数据管理方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5945933A (en) * | 1998-01-27 | 1999-08-31 | Infit Ltd. | Adaptive packet compression apparatus and method |
CN112995199A (zh) * | 2021-03-29 | 2021-06-18 | 北京沃东天骏信息技术有限公司 | 数据编解码方法、装置、传输系统、终端设备及存储介质 |
CN113852379A (zh) * | 2021-09-03 | 2021-12-28 | 山东云海国创云计算装备产业创新中心有限公司 | 一种数据编码方法、系统、设备及计算机可读存储介质 |
CN116506073A (zh) * | 2023-06-26 | 2023-07-28 | 深圳市研创科技有限公司 | 一种工业计算机平台数据快速传输方法及系统 |
CN116915258A (zh) * | 2023-09-12 | 2023-10-20 | 湖南省湘辉人力资源服务有限公司 | 一种企业薪酬管理方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6511836B2 (ja) * | 2015-01-30 | 2019-05-15 | 富士通株式会社 | 圧縮プログラム、圧縮方法、圧縮装置および伸長プログラム |
-
2023
- 2023-11-07 CN CN202311479434.XA patent/CN117278055B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5945933A (en) * | 1998-01-27 | 1999-08-31 | Infit Ltd. | Adaptive packet compression apparatus and method |
CN112995199A (zh) * | 2021-03-29 | 2021-06-18 | 北京沃东天骏信息技术有限公司 | 数据编解码方法、装置、传输系统、终端设备及存储介质 |
CN113852379A (zh) * | 2021-09-03 | 2021-12-28 | 山东云海国创云计算装备产业创新中心有限公司 | 一种数据编码方法、系统、设备及计算机可读存储介质 |
CN116506073A (zh) * | 2023-06-26 | 2023-07-28 | 深圳市研创科技有限公司 | 一种工业计算机平台数据快速传输方法及系统 |
CN116915258A (zh) * | 2023-09-12 | 2023-10-20 | 湖南省湘辉人力资源服务有限公司 | 一种企业薪酬管理方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN117278055A (zh) | 2023-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117278055B (zh) | 基于数据分析的车辆销售信息优化存储方法 | |
CN110162290B (zh) | 一种针对OLED屏DeMURA数据的压缩方法 | |
CN117290364B (zh) | 一种市场调查数据智能存储方法 | |
CN116388767A (zh) | 用于软件开发数据的安全管理方法 | |
CN111950889A (zh) | 一种客户风险评估方法、装置、可读存储介质及终端设备 | |
CN115543946A (zh) | 一种金融大数据优化存储方法 | |
CN117316301B (zh) | 一种基因检测数据智能压缩处理方法 | |
CN114626487B (zh) | 基于随机森林分类算法的线变关系校核方法 | |
EP2048787A1 (en) | Method and device for quantizing vector | |
US6807312B2 (en) | Robust codebooks for vector quantization | |
CN117040542B (zh) | 一种智能综合配电箱能耗数据处理方法 | |
CN114221663A (zh) | 一种基于字符编码的实时频谱数据压缩及恢复的方法 | |
US8154558B2 (en) | Conversion table creating device, storage medium storing conversion table creating program, and conversion table creating method | |
CN111275371B (zh) | 数据处理方法、数据处理设备和计算机可读存储介质 | |
CN117194490B (zh) | 基于人工智能的金融大数据存储查询方法 | |
CN114095035A (zh) | 一种依托云字典基于字节的无损压缩方法 | |
Azhar et al. | Data compression techniques for stock market prediction | |
CN117176178B (zh) | 一种光电通信系统的数据处理方法 | |
CN117880761B (zh) | 基于大数据的短信消息智能化推送方法及系统 | |
CN117557582B (zh) | 基于人工智能的建筑景观设计图像处理系统 | |
CN117273764B (zh) | 一种电子雾化器防伪管理方法及系统 | |
CN115169499B (zh) | 资产数据降维方法、装置、电子设备和计算机存储介质 | |
CN116977454B (zh) | 一种电子印章数据优化存储方法 | |
CN117454844A (zh) | 一种电厂物资仓储管理系统数据处理方法 | |
CN116405037B (zh) | 一种面向天文星表的压缩预处理编码器、应用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |