CN115543946A - 一种金融大数据优化存储方法 - Google Patents

一种金融大数据优化存储方法 Download PDF

Info

Publication number
CN115543946A
CN115543946A CN202211532808.5A CN202211532808A CN115543946A CN 115543946 A CN115543946 A CN 115543946A CN 202211532808 A CN202211532808 A CN 202211532808A CN 115543946 A CN115543946 A CN 115543946A
Authority
CN
China
Prior art keywords
data
stock price
price data
target
binary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211532808.5A
Other languages
English (en)
Other versions
CN115543946B (zh
Inventor
岳发宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shengyin Digital Technology Shenyang Co ltd
Original Assignee
Shaanxi Xiangqin Hengxing Technology Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shaanxi Xiangqin Hengxing Technology Group Co ltd filed Critical Shaanxi Xiangqin Hengxing Technology Group Co ltd
Priority to CN202211532808.5A priority Critical patent/CN115543946B/zh
Publication of CN115543946A publication Critical patent/CN115543946A/zh
Application granted granted Critical
Publication of CN115543946B publication Critical patent/CN115543946B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1744Redundancy elimination performed by the file system using compression, e.g. sparse files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/3084Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method
    • H03M7/3086Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method employing a sliding window, e.g. LZ77

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明涉及数据处理技术领域,具体涉及一种金融大数据优化存储方法,该方法包括:获取股价数据,对股价数据进行二进制编码得到二进制编码数据,得到多段目标二进制数据,获取每段目标二进制数据的最优字典滑窗长度,对目标二进制数据进行压缩并存储,本发明通过自适应获取的最优字典滑窗长度,从而在利用LZ77编码算法编码时,实现对数据的高效压缩,进而减少压缩后的数据占用的存储空间。

Description

一种金融大数据优化存储方法
技术领域
本发明涉及数据处理技术领域,具体涉及一种金融大数据优化存储方法。
背景技术
随着社会的不断发展,人们投资意识的不断提高,越来越多的人加入了股票投资市场的行列,使得股票市场不断的壮大起来。而股票市场的快速发展,不仅可以为就业问题做出良好的改善,还可以为经济的增长做出突出贡献,因此,提高股票的收益率,不断壮大股票市场,就变得尤为重要。
目前最能有效预测股价的方法为大数据分析,通过股票价格的浮动去预测未来的走势,但是这需要海量的股票价格数据做支撑,而股票市场从成立到现在,已经储蓄了大量的数据,在进行大数据分析时,预处理数据的难度极大,且储存所占空间较大,增添了不必要的成本与精力,因此如何将该数据在不丢失原始信息的同时降低储存空间是急需要解决的问题。
目前的压缩算法有LZ77编码算法,LZ77编码算法可以对数据进行压缩,然后对压缩后的数据进行储存,但是在压缩过程中,由于股票价格的波动数据变化较小且具有一定的规律,传统的LZ77编码算法对该数据进行压缩时,字典滑窗长度始终唯一,对于整体数据来说,长度唯一的字典滑窗在某一段数据内适应度较高,压缩速率相对应较高,但长度唯一的字典滑窗对于不适应的数据段来说,压缩效率便较低,故使得整体数据的压缩效率低,进而导致存储占用空间大。
发明内容
本发明提供一种金融大数据优化存储方法,以解决现有的压缩效率低,导致存储占用空间大的问题。
本发明的一种金融大数据优化存储方法采用如下技术方案:
获取每天的股价数据;
对每天的股价数据进行二进制编码得到二进制编码数据;
获取每相邻两天的股价数据对应的波动图,根据波动图中的股价数据获取相邻两天的股价数据的平稳程度;
获取相邻两天的股价数据的差异性值,根据差异性值和平稳程度获取相邻两天的股价数据的关联程度,根据相邻两天的股价数据的关联程度判断是否对连续相邻天的股价数据所对应的二进制编码数据进行合并,并得到多段目标二进制数据;
获取每段目标二进制数据中每类相同的数据串出现的频率及对应类的数据串长度,根据每类相同的数据串出现的频率及数据串长度获取每类相同的数据串对应的匹配率,根据匹配率、最高频率数据串的长度和各数据串的长度大小确定目标二进制数据的最优字典滑窗长度;
利用最优字典滑窗长度将对应的目标二进制数据进行压缩并存储。
优选的,得到多段目标二进制数据包括:
其中,每段目标二进制数据包括第一目标二进制数据或者第二目标二进制数据;
第一目标二进制数据由连续相邻天的股价数据对应的二进制编码数据构成,且连续相邻天的股价数据中的每相邻两天的股价数据的关联程度均大于关联程度阈值;
第二目标二进制数据由单天的股价数据对应的二进制编码数据构成,该单天对应的所有相邻两天的股价数据的关联程度均小于或者等于关联程度阈值。
优选的,获取每类相同的数据串对应的匹配率包括:
获取每类相同的数据串出现的频率与对应类的数据串长度的目标比值;
以自然常数为底,以目标比值的负值为幂得到指数函数值;
将1减去指数函数值得到每类相同的数据串对应的匹配率。
优选的,获取相邻两天的股价数据的平稳程度包括:
设定第一权重系数和第二权重系数,且第一权重系数小于第二权重系数;
获取波动图的股价数据峰值的方差及股价数据的最大差值;
以最大差值与第一权重系数的乘积为底数,以第二权重系数与波动图中股价数据峰值的方差的乘积倒数为幂,得到指数函数值,并将指数函数值作为相邻两天的股价数据的平稳程度。
优选的,获取相邻两天的股价数据的差异性值包括:
获取每天的股价数据对应的二进制编码数据中出现频率最高的重复数据串,并作为目标数据串;
获取每天的股价数据对应的二进制编码数据中的目标数据串的总长度占二进制编码数据的总长度的长度比值;
获取相邻两天的股价数据对应的二进制编码数据中目标数据串对应的长度比值差值;
获取相邻两天的股价数据对应的二进制编码数据中目标数据串的长度;
根据目标数据串的长度、目标数据串对应的长度比值差值获取相邻两天的股价数据的差异性值。
优选的,相邻两天的股价数据的差异性值的计算公式为:
Figure 100002_DEST_PATH_IMAGE001
式中,
Figure 588327DEST_PATH_IMAGE002
表示相邻两天的股价数据中的第
Figure 100002_DEST_PATH_IMAGE003
天的股价数据与第
Figure 938537DEST_PATH_IMAGE004
天的股价数据之间的差异性值;
Figure 100002_DEST_PATH_IMAGE005
表示第
Figure 169798DEST_PATH_IMAGE003
天的股价数据对应的二进制编码数据中所有目标数据串的总长度;
Figure 69490DEST_PATH_IMAGE006
表示第
Figure 728004DEST_PATH_IMAGE004
天的股价数据对应的二进制编码数据中所有目标数据串的总长度;
Figure 100002_DEST_PATH_IMAGE007
表示第
Figure 565510DEST_PATH_IMAGE003
天的股价数据对应的二进制编码数据的总长度;
Figure 849730DEST_PATH_IMAGE008
表示第
Figure 620240DEST_PATH_IMAGE004
天的股价数据对应的二进制编码数据的总长度;
Figure 100002_DEST_PATH_IMAGE009
表示第
Figure 184076DEST_PATH_IMAGE003
天的股价数据对应的二进制编码数据中单个目标数据串的长度;
Figure 295164DEST_PATH_IMAGE010
表示第
Figure 133807DEST_PATH_IMAGE004
天的股价数据对应的二进制编码数据中单个目标数据串的长度。
优选的,将相邻两天的股价数据对应的平稳程度与对应的差异性值的比值作为相邻两天的股价数据的关联程度。
优选的,获取相邻两天的股价数据对应的波动图包括:
去除每天的股价数据中的最大股价数据和最小股价数据,得到去除后的目标股价数据;
根据相邻两天的目标股价数据获取目标股价数据对应的波动图。
优选的,得到二进制编码数据包括:
将每天的股价数据转化为流式数据;
对流式数据进行霍夫曼编码得到二进制编码数据。
优选的,将每天的股价数据转化为流式数据包括:
将每天的股价数据中的每一次股价波动的股价数据中小数点前预设位数的数据和小数点后预设位数的数据得到一个多位数的数据;
将每天的股价数据中的每一次股价波动的股价数据与前一次股价波动的股价数据对应的多位数的数据拼接得到流式数据,其中,将多位数的数据中空缺的位置补0。
本发明的一种金融大数据优化存储方法的有益效果是:
通过对股价数据进行二进制编码得到二进制编码数据,然后利用相邻两天的股价数据的波动性来反映相邻两天的股价数据的平稳程度,并获取相邻两天的股价数据的差异性值,利用相邻两天的股价数据的差异性值、平稳程度来反映相邻两天的股价数据的关联程度,得到关联程度的目的是为了:将相关联的二进制编码数据进行合并得到目标二进制数据,使得尽可能多的将相似度高数据合并在一起,即使得合并后得到的目标二进制数据中的出现重复数据的频率更高,从而便于寻找数据中存在的规律性,然后,基于得到的目标二进制数据进行最优字典滑窗长度的自适应选取,使得每段目标二进制数据都对应一个最优字典滑窗长度,从而在利用LZ77编码算法编码时能根据自适应获取的最优字典滑窗长度实现对高规律性的目标二进制数据的进行高效压缩,进而减少压缩后的数据占用的存储空间。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的一种金融大数据优化存储方法的实施例的流程图;
图2为本发明的一种金融大数据优化存储方法的实施例中霍夫曼树的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的一种金融大数据优化存储方法的实施例,本实施例的场景为:由于股票价格的波动数据变化较小且具有一定的规律,传统的LZ77编码算法对该数据进行压缩时,字典滑窗长度始终唯一,对于整体数据来说,长度唯一的字典滑窗在某一段数据内适应度较高,压缩速率相对应较高,但长度唯一的字典滑窗对于不适应的数据段来说,压缩效率便较低,进而影响整体数据的压缩效率,因此,本实施例需要根据不同特征的数据段自适应得到不同的字典滑窗长度,从而提高利用LZ77算法压缩股价数据时的压缩速率。
具体的,如图1所示,本实施例包括:
S1、获取股价数据;
由于,不同股票的价格在不同时间下会发生不同程度的波动,因此便于后期对该数据进行压缩处理,先获取历史数据中每天的股价数据。
S2、对股价数据进行二进制编码得到二进制编码数据;
具体的,将每天的股价数据转化为流式数据;对流式数据进行霍夫曼编码得到二进制编码数据。
其中,将每天的股价数据转化为流式数据包括:将每天的股价数据中的每一次股价波动的股价数据中小数点前预设位数的数据和小数点后预设位数的数据得到一个多位数的数据;将每天的股价数据中的每一次股价波动的股价数据与前一次股价波动的股价数据对应的多位数的数据拼接得到流式数据,其中,将多位数的数据中空缺的位置补0,因为,历史中股票最高价格在千位,并且股票价格精确至小数点后两位,因此将小数点前四位加小数点后两位作为每天的股价数据中的每一次股价波动的数据,因为绝大多数股票每3秒进行一次调整,因此每三秒记录一次股价数据,将对应的股价数据按照时间顺序进行拼接,便实现了将股价历史数据转化为流式数据,对应位数不够的数据,用0将该位数补齐即可。
具体的,本实施例中,将股票价格的小数点前预设位数为4位,小数点后的预设位数为2位,即将每天的股价数据中的每一次股价波动的股价数据中小数点前四位和小数点后两位得到一个6位数的数据;将每一次股价波动的股价数据与前一次股价波动的股价数据对应的6位数的数据拼接得到流式数据,其中,将6位数的数据中空缺的位置补0,故得到每天的股价数据对应的流式数据。
需要说明的是,通过将每天的股价数据作为一段数据,并转化流式数据,目的是由于股价数据波动的特殊性,相邻天数之间的价格波动并不会发生较大的差距,两者之间的数据相似度较高,对应的流式数据中数字重复出现的位置与频率的相似度就较高,因此,转化为流式数据后的中数字重复出现的位置与频率的相似度就较高,便于寻找数据中存在的规律性。
由于,股票的波动价格转化为流式数据之后,就会转变为范围在0至9的一连串数据,对于这一连串数据来说,里面出现重复数字的频率会因每天的股价数据不同对应的流式数据就不同,故不同流式数据中出现重复数字的频率也是不同的,因而可以对流式数据进行霍夫曼编码,用短编码来表示出现频率较高的数字,长编码来表示出现频率较低的数字,进而将原始数据转化为规律性较强的二进制编码数据,这样即达到了对数据的初步压缩,并且使得数据的规律性变得较强,故,对流式数据进行霍夫曼编码得到二进制编码数据包括:获取流式数据中每个阿拉伯数字在流式数据中出现的频率;根据每个阿拉伯数字在流式数据中出现的频率对流式数据进行霍夫曼编码得到二进制编码数据,具体的,按照频率从小到大排序,选取最小频率的两种字符组合作为起始点,按照频率从小到大的顺序,从下往上构建霍夫曼树,完成对流式数据的霍夫曼编码,得到流式数据编码后的二进制编码数据,例如,以第一天的股价数据对应的流式数据002452002463002478002563002452为例,对流式数据中的每个阿拉伯数字进行出现次数的统计(频率统计),具体的,流式数据002452002463002478002563002452的频率统计如下表1,其中,表1为流式数据的频率统计表:
表1
Figure DEST_PATH_IMAGE011
从表1中能得到除未统计到的阿拉伯数字1和9,其中,阿拉伯数字7和8出现的次数最少,0出现的次数最多,即频率最大,故,进行霍夫曼编码得到的霍夫曼树如图2所示,从图2中即可得到每个阿拉伯数字对应的二进制编码,具体的,流式数据002452002463002478002563002452对应的霍夫曼编码后的二进制编码数据为:0010110111101000101101111101110001011011111101111111001011110111110111000101101111010,至此,每天的股价数据对应的流式数据进行霍夫曼编码完成,获得的二进制数据相对于其他编码方式来说,编码更短,降低了储存空间,实现了对数据初步压缩。
S3、得到多段目标二进制数据;
具体的,获取每相邻两天的股价数据对应的波动图,根据波动图中的股价数据获取相邻两天的股价数据的平稳程度,获取相邻两天的股价数据的差异性值,根据差异性值和平稳程度获取相邻两天的股价数据的关联程度,根据相邻两天的股价数据的关联程度判断是否对连续相邻天的股价数据所对应的二进制编码数据进行合并,并得到多段目标二进制数据。
由于,对每天的股价数据对应的流式数据进行霍夫曼编码之后,由于股价数据波动的特殊性,相邻天数之间的价格波动并不会发生较大的差距,两者之间的数据相似度较高,因此,对应的流式数据中数字重复出现的位置与频率的相似度就较高,因此,通过分析相邻两天的股价数据对应的流式数据之间的关联程度,将关联程度大的两天的股价数据对应的流式数据的二进制编码数据进行合并,进而实现对二进制编码数据的重新分段,使得尽可能多的将相似度高数据分割在一起,便于最大程度的寻找数据中存在规律性。
故,先获取每相邻两天的股价数据对应的波动图,根据波动图中股价数据获取相邻两天的股价数据的平稳程度,具体的,获取相邻两天的股价数据的平稳程度时,先设定第一权重系数和第二权重系数,且第一权重系数小于第二权重系数;以最大差值与第一权重系数的乘积为底数,以第二权重系数与波动图中股价数据峰值的方差的乘积的倒数为幂,得到指数函数值,并将指数函数值作为相邻两天的股价数据的平稳程度,具体的,相邻两天的股价数据的平稳程度的计算公式为:
Figure 398304DEST_PATH_IMAGE012
式中,
Figure DEST_PATH_IMAGE013
表示相邻两天的股价数据的平稳程度;
Figure 133042DEST_PATH_IMAGE014
表示第一权重系数;
Figure DEST_PATH_IMAGE015
表示第二权重系数;
Figure 928828DEST_PATH_IMAGE016
表示相邻两天的股价数据对应的波动图中股价数据峰值的方差;
Figure DEST_PATH_IMAGE017
表示相邻两天的股价数据对应波动图中最大股价数据;
Figure 305583DEST_PATH_IMAGE018
表示相邻两天的股价数据对应波动图中最小股价数据;
为了避免特殊数据造成的误差,在获取波动图之前,去除每天的股价数据中的最大股价数据和最小股价数据,得到去除后的目标股价数据;然后根据相邻两天的目标股价数据获取目标股价数据对应的波动图,将相邻两天的目标股价数据获取目标股价数据对应的波动图作为计算平稳程度时的波动图。
需要说明的是,第一权重系数、第二权重系数由经验确定,本发明的第一权重系数
Figure DEST_PATH_IMAGE019
、第二权重系数
Figure 362270DEST_PATH_IMAGE020
,其次,波动图中最大股价数据与最小股价数据之间的差距越小,即
Figure DEST_PATH_IMAGE021
的值越小,说明对应的相邻两天的股价数据变化不大,由于方差反映的是数据的波动性,当波动图中对应的峰值的方差越小,即
Figure 2329DEST_PATH_IMAGE016
越小,即对应的相邻两天的股价数据的波动性较小,数据较为稳定,即平稳程度
Figure 816571DEST_PATH_IMAGE022
越大。
其中,获取相邻两天的股价数据的差异性值,根据差异性值和平稳程度获取相邻两天的股价数据的关联程度,根据相邻两天的股价数据的关联程度判断是否对连续相邻天的股价数据所对应的二进制编码数据进行合并,并得到多段目标二进制数据,具体的,获取相邻两天的股价数据的差异性值包括:获取每天的股价数据对应的二进制编码数据中出现频率最高的重复数据串,并作为目标数据串;获取每天的股价数据对应的二进制编码数据中的目标数据串的总长度占二进制编码数据的总长度的长度比值;获取相邻两天的股价数据对应的二进制编码数据中目标数据串对应的长度比值差值;获取相邻两天的股价数据对应的二进制编码数据中目标数据串的长度;根据目标数据串的长度、目标数据串对应的长度比值差值获取相邻两天的股价数据的差异性值,其中,计算相邻两天的股价数据的差异性值的公式为:
Figure DEST_PATH_IMAGE023
式中,
Figure 465858DEST_PATH_IMAGE002
表示相邻两天的股价数据中的第
Figure 65466DEST_PATH_IMAGE003
天的股价数据与第
Figure 916573DEST_PATH_IMAGE004
天的股价数据之间的差异性值;
Figure 968843DEST_PATH_IMAGE005
表示第
Figure 687400DEST_PATH_IMAGE003
天的股价数据对应的二进制编码数据中所有目标数据串的总长度;
Figure 141515DEST_PATH_IMAGE006
表示第
Figure 169383DEST_PATH_IMAGE004
天的股价数据对应的二进制编码数据中所有目标数据串的总长度;
Figure 708949DEST_PATH_IMAGE007
表示第
Figure 231197DEST_PATH_IMAGE003
天的股价数据对应的二进制编码数据的总长度;
Figure 539819DEST_PATH_IMAGE008
表示第
Figure 754899DEST_PATH_IMAGE004
天的股价数据对应的二进制编码数据的总长度;
Figure 499870DEST_PATH_IMAGE009
表示第
Figure 825809DEST_PATH_IMAGE003
天的股价数据对应的二进制编码数据中单个目标数据串的长度;
Figure 988938DEST_PATH_IMAGE010
表示第
Figure 358608DEST_PATH_IMAGE004
天的股价数据对应的二进制编码数据中单个目标数据串的长度;
需要说明的是,相邻两天的股价数据对应的二进制编码数据中频率最高的重复数据串(目标数据串)的总长度与对应的二进制编码数据的长度比值差别越小,即
Figure 872766DEST_PATH_IMAGE024
越小,两个目标数据串的长度差值越小,即
Figure DEST_PATH_IMAGE025
越小,说明相邻两天的股价数据之间的相似性越高,即差异性值小,其中,式中的+1为了保证差异性值不为0;对于相邻两天的股价数据的平稳程度,本实施例中认为相邻两天的股价数据的平稳程度越大,说明相邻两天的股价数据的变化越小,即股价数据越平稳,相邻两天的股价数据的关联程度越大。
故,将相邻两天的股价数据对应的平稳程度与对应的差异性值的比值作为相邻两天的股价数据的关联程度,当差异性值越小,即分母越小,平稳程度越大,即分子越大,对应的得到的相邻两天的股价数据的关联程度就越大,相邻两天的股价数据就越关联,基于此得到所有相邻两天的股价数据的关联程度。
其中,在获取多段目标二进制数据时包括:基于得到相邻两天的股价数据的关联程度,首先设定关联程度阈值,本实施例中设定参考关联程度阈值为10;其中,每段目标二进制数据为第一目标二进制数据或者第二目标二进制数据;第一目标二进制数据由连续相邻天的股价数据对应的二进制编码数据构成,且连续相邻天的股价数据中的每相邻两天的股价数据的关联程度均大于关联程度阈值;第二目标二进制数据由单天的股价数据对应的二进制编码数据构成,该单天对应的所有相邻两天的股价数据的关联程度均小于或者等于关联程度阈值,具体的,以第1、2、3天的股价数据为例,即第1、2、3天为连续相邻的3天,在第1、2天的股价数据的关联程度大于10,且第2、3天的股价数据的关联程度大于10时,则说明第1、2天的股价数据相关联,第2、3天的股价数据相关联,即将第1、2、3天的股价数据对应的二进制数据进行合并即得到了一段目标二进制数据,即第一目标二进制数据,当在第1、2天的股价数据的关联程度小于或者等于10,且第2、3天的股价数据的关联程度小于或者等于10时,则说明连续相邻的3天的第1、2、3天的股价数据不关联,即将第1、2天的股价数据对应的每个二进制数据作为一段目标二进制数据,即第二目标二进制数据,在第1、2天的股价数据的关联程度大于10,而第2、3天的股价数据的关联程度小于或者等于10时,则第1、2天的股价数据对应的二进制数据进行合并为第一目标二进制数据,并且,再根据第3、4天的股价数据的关联程度,确定第3天的股价数据对应的二进制数据是第一目标二进制数据还是第二目标二进制数据,至此,即可得到每段目标二进制数据。
S4、获取每段目标二进制数据的最优字典滑窗长度;
具体的,获取每段目标二进制数据中每类相同的数据串出现的频率及对应类的数据串长度,根据每类相同的数据串出现的频率及数据串长度获取每类相同的数据串对应的匹配率,根据匹配率、最高频率数据串的长度和各数据串的长度大小确定目标二进制数据的最优字典滑窗长度。
由于,在不同天对应的股价数据经过霍夫曼编码之后的数据分布会存在不同,而在使用LZ77编码算法对霍夫曼编码后的数据进行压缩时,字典滑窗的长度设置不同,对于压缩速率的影响较大,选取的字典滑窗长度过大或过小,都会降低压缩速率,而将字典滑窗的长度设置为在数据中出现频率较高的数据串对应的长度,这样会最大程度的适应整个一段数据,使得在对数据进行压缩时会提高压缩率,同时会降低储存时的占用空间。
具体的,对于S3步骤得到了多段目标二进制数据,每段目标二进制数据中的数据分布会存在差异,故每段目标二进制数据中相同的数据串出现的频率和长度不同,因此,需要通过分析霍夫曼编码的结果,通过相同的数据串出现数量和长度来确定最优字典滑窗长度,这样便可以在利用LZ77编码算法压缩时最大程度的使得重复率高的数据串与字典长度相适应,进而提高LZ77编码算法的压缩速率。
其中,获取每段目标二进制数据中每类相同的数据串出现的频率及对应类的数据串长度,根据每类相同的数据串出现的频率及数据串长度获取每类相同的数据串对应的匹配率,其中,获取每类相同的数据串对应的匹配率的步骤包括:获取每类相同的数据串出现的频率及对应类的数据串长度的目标比值;以自然常数为底,以目标比值的负值为幂得到指数函数值;将1减去指数函数值得到每类相同的数据串对应的匹配率,具体的,每类相同的数据串对应的匹配率的计算公式为:
Figure 471237DEST_PATH_IMAGE026
式中,
Figure DEST_PATH_IMAGE027
表示第
Figure 206981DEST_PATH_IMAGE003
段目标二进制数据中每类相同的数据串对应的匹配率;
Figure 29444DEST_PATH_IMAGE028
表示第
Figure 765318DEST_PATH_IMAGE003
段目标二进制数据中每类相同的数据串出现的频率;
Figure DEST_PATH_IMAGE029
表示第
Figure 151169DEST_PATH_IMAGE003
段目标二进制数据中每类相同的数据串中的数据串长度;
Figure 23310DEST_PATH_IMAGE030
表示第
Figure 751095DEST_PATH_IMAGE003
段目标二进制数据中的频率最高的数据串的长度;
Figure DEST_PATH_IMAGE031
表示以自然常数e为底的指数函数;
需要说明的是,若将字典滑窗长度设置为在二进制编码数据中出现频率最高的数据串对应的长度
Figure 708687DEST_PATH_IMAGE032
,在进行压缩时,只是对于频率最高的重复数据串压缩效果较好,而相对频率较低且数据串长度大于
Figure 163808DEST_PATH_IMAGE032
的数据串适应能力并不足,因此该长度
Figure 156034DEST_PATH_IMAGE032
并不是最优的字典滑窗长度,若字典滑窗长度选择频率相对最高值偏小的且长度相对大于
Figure 54720DEST_PATH_IMAGE032
时,对于出现频率最高的数据串的压缩效率并没有降低,同时,对于相对频率较低且数据串长度大于长度
Figure 499608DEST_PATH_IMAGE032
的数据串适应能力增强,压缩效率较高,因此对于整体的压缩效率便会得到显著的提升,故,本实施例中,限定
Figure DEST_PATH_IMAGE033
大于
Figure 492841DEST_PATH_IMAGE032
,在此条件下,当重复数据串的长度越短,出现的频率越高,即
Figure 605153DEST_PATH_IMAGE034
越大,说明数据串长度与字典滑窗长度的匹配率越高,故,本实施例中,将在
Figure 409161DEST_PATH_IMAGE033
大于
Figure 862051DEST_PATH_IMAGE032
的条件下得到的匹配率中的最大匹配率对应的数据串长度作为对应段的目标二进制数据的最优字典滑窗长度。
S5、对目标二进制数据进行压缩并存储;
利用最优字典滑窗长度将对应的目标二进制数据进行LZ77编码得到压缩数据并存储,其中,LZ77编码算法为现有技术算法,其解压过程本实施例也不再赘述。
本发明的一种金融大数据优化存储方法,通过对股价数据进行二进制编码得到二进制编码数据,然后利用相邻两天的股价数据的波动性来反映相邻两天的股价数据的平稳程度,并获取相邻两天的股价数据的差异性值,利用相邻两天的股价数据的差异性值、平稳程度来反映相邻两天的股价数据的关联程度,得到关联程度的目的是为了:将相关联的二进制编码数据进行合并得到目标二进制数据,使得尽可能多的将相似度高数据合并在一起,即使得合并后得到的目标二进制数据中的出现重复数据的频率更高,从而便于寻找数据中存在的规律性,然后,基于得到的目标二进制数据进行最优字典滑窗长度的自适应选取,使得每段目标二进制数据都对应一个最优字典滑窗长度,从而在利用LZ77编码算法编码时能根据自适应获取的最优字典滑窗长度实现对高规律性的目标二进制数据的进行高效压缩,进而减少压缩后的数据占用的存储空间。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种金融大数据优化存储方法,其特征在于,包括:
获取每天的股价数据;
对每天的股价数据进行二进制编码得到二进制编码数据;
获取每相邻两天的股价数据对应的波动图,根据波动图中的股价数据获取相邻两天的股价数据的平稳程度;
获取相邻两天的股价数据的差异性值,根据差异性值和平稳程度获取相邻两天的股价数据的关联程度,根据相邻两天的股价数据的关联程度判断是否对连续相邻天的股价数据所对应的二进制编码数据进行合并,并得到多段目标二进制数据;
获取每段目标二进制数据中每类相同的数据串出现的频率及对应类的数据串长度,根据每类相同的数据串出现的频率及数据串长度获取每类相同的数据串对应的匹配率,根据匹配率、最高频率数据串的长度和各数据串的长度大小确定目标二进制数据的最优字典滑窗长度;
利用最优字典滑窗长度将对应的目标二进制数据进行压缩并存储。
2.根据权利要求1所述的一种金融大数据优化存储方法,其特征在于,获取每类相同的数据串对应的匹配率包括:
获取每类相同的数据串出现的频率与对应类的数据串长度的目标比值;
以自然常数为底,以目标比值的负值为幂得到指数函数值;
将1减去指数函数值得到每类相同的数据串对应的匹配率。
3.根据权利要求1所述的一种金融大数据优化存储方法,其特征在于,得到多段目标二进制数据包括:
其中,每段目标二进制数据包括第一目标二进制数据或者第二目标二进制数据;
第一目标二进制数据由连续相邻天的股价数据对应的二进制编码数据构成,且连续相邻天的股价数据中的每相邻两天的股价数据的关联程度均大于关联程度阈值;
第二目标二进制数据由单天的股价数据对应的二进制编码数据构成,该单天对应的所有相邻两天的股价数据的关联程度均小于或者等于关联程度阈值。
4.根据权利要求1所述的一种金融大数据优化存储方法,其特征在于,获取相邻两天的股价数据的平稳程度包括:
设定第一权重系数和第二权重系数,且第一权重系数小于第二权重系数;
获取波动图的股价数据峰值的方差及股价数据的最大差值;
以最大差值与第一权重系数的乘积为底数,以第二权重系数与波动图中股价数据峰值的方差的乘积的倒数为幂,得到指数函数值,并将指数函数值作为相邻两天的股价数据的平稳程度。
5.根据权利要求1所述的一种金融大数据优化存储方法,其特征在于,获取相邻两天的股价数据的差异性值包括:
获取每天的股价数据对应的二进制编码数据中出现频率最高的重复数据串,并作为目标数据串;
获取每天的股价数据对应的二进制编码数据中的目标数据串的总长度占二进制编码数据的总长度的长度比值;
获取相邻两天的股价数据对应的二进制编码数据中目标数据串对应的长度比值差值;
获取相邻两天的股价数据对应的二进制编码数据中目标数据串的长度;
根据目标数据串的长度、目标数据串对应的长度比值差值获取相邻两天的股价数据的差异性值。
6.根据权利要求5所述的一种金融大数据优化存储方法,其特征在于,相邻两天的股价数据的差异性值的计算公式为:
Figure DEST_PATH_IMAGE001
式中,
Figure 585202DEST_PATH_IMAGE002
表示相邻两天的股价数据中的第
Figure DEST_PATH_IMAGE003
天的股价数据与第
Figure 210088DEST_PATH_IMAGE004
天的股价数据之间的差异性值;
Figure DEST_PATH_IMAGE005
表示第
Figure 552076DEST_PATH_IMAGE003
天的股价数据对应的二进制编码数据中所有目标数据串的总长度;
Figure 493487DEST_PATH_IMAGE006
表示第
Figure 810199DEST_PATH_IMAGE004
天的股价数据对应的二进制编码数据中所有目标数据串的总长度;
Figure DEST_PATH_IMAGE007
表示第
Figure 938692DEST_PATH_IMAGE003
天的股价数据对应的二进制编码数据的总长度;
Figure 875250DEST_PATH_IMAGE008
表示第
Figure 671168DEST_PATH_IMAGE004
天的股价数据对应的二进制编码数据的总长度;
Figure DEST_PATH_IMAGE009
表示第
Figure 158781DEST_PATH_IMAGE003
天的股价数据对应的二进制编码数据中单个目标数据串的长度;
Figure 289417DEST_PATH_IMAGE010
表示第
Figure 520678DEST_PATH_IMAGE004
天的股价数据对应的二进制编码数据中单个目标数据串的长度。
7.根据权利要求1所述的一种金融大数据优化存储方法,其特征在于,将相邻两天的股价数据对应的平稳程度与对应的差异性值的比值作为相邻两天的股价数据的关联程度。
8.根据权利要求1所述的一种金融大数据优化存储方法,其特征在于,获取相邻两天的股价数据对应的波动图包括:
去除每天的股价数据中的最大股价数据和最小股价数据,得到去除后的目标股价数据;
根据相邻两天的目标股价数据获取目标股价数据对应的波动图。
9.根据权利要求1所述的一种金融大数据优化存储方法,其特征在于,得到二进制编码数据包括:
将每天的股价数据转化为流式数据;
对流式数据进行霍夫曼编码得到二进制编码数据。
10.根据权利要求9所述的一种金融大数据优化存储方法,其特征在于,将每天的股价数据转化为流式数据包括:
将每天的股价数据中的每一次股价波动的股价数据中小数点前预设位数的数据和小数点后预设位数的数据得到一个多位数的数据;
将每天的股价数据中的每一次股价波动的股价数据与前一次股价波动的股价数据对应的多位数的数据拼接得到流式数据,其中,将多位数的数据中空缺的位置补0。
CN202211532808.5A 2022-12-02 2022-12-02 一种金融大数据优化存储方法 Active CN115543946B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211532808.5A CN115543946B (zh) 2022-12-02 2022-12-02 一种金融大数据优化存储方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211532808.5A CN115543946B (zh) 2022-12-02 2022-12-02 一种金融大数据优化存储方法

Publications (2)

Publication Number Publication Date
CN115543946A true CN115543946A (zh) 2022-12-30
CN115543946B CN115543946B (zh) 2023-11-17

Family

ID=84721651

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211532808.5A Active CN115543946B (zh) 2022-12-02 2022-12-02 一种金融大数据优化存储方法

Country Status (1)

Country Link
CN (1) CN115543946B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116346940A (zh) * 2023-05-29 2023-06-27 德州禹工环保设备有限公司 一种智慧海绵城市的监测管理系统
CN116561084A (zh) * 2023-07-07 2023-08-08 众科云(北京)科技有限公司 一种灵活用工平台数据智能存储方法及系统
CN117254819A (zh) * 2023-11-20 2023-12-19 深圳市瑞健医信科技有限公司 一种医疗废物智能监管系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140040276A1 (en) * 2012-07-31 2014-02-06 International Business Machines Corporation Method and apparatus for processing time series data
US20140164288A1 (en) * 2012-10-10 2014-06-12 F-Squared Investments, Inc. Systems for determining and providing a portfolio overlay for investment portfolio adjustment to mitigate financial risk
CN105354642A (zh) * 2015-11-20 2016-02-24 浪潮(北京)电子信息产业有限公司 一种基于云计算的股票数据分析系统
CN112132356A (zh) * 2020-09-28 2020-12-25 清华大学深圳国际研究生院 一种基于时空图注意力机制的股价预测方法
CN115173866A (zh) * 2022-07-14 2022-10-11 郑州朗灵电子科技有限公司 一种小程序数据的高效存储方法
CN115361027A (zh) * 2022-10-18 2022-11-18 江苏量超科技有限公司 一种污水处理效果识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140040276A1 (en) * 2012-07-31 2014-02-06 International Business Machines Corporation Method and apparatus for processing time series data
US20140164288A1 (en) * 2012-10-10 2014-06-12 F-Squared Investments, Inc. Systems for determining and providing a portfolio overlay for investment portfolio adjustment to mitigate financial risk
CN105354642A (zh) * 2015-11-20 2016-02-24 浪潮(北京)电子信息产业有限公司 一种基于云计算的股票数据分析系统
CN112132356A (zh) * 2020-09-28 2020-12-25 清华大学深圳国际研究生院 一种基于时空图注意力机制的股价预测方法
CN115173866A (zh) * 2022-07-14 2022-10-11 郑州朗灵电子科技有限公司 一种小程序数据的高效存储方法
CN115361027A (zh) * 2022-10-18 2022-11-18 江苏量超科技有限公司 一种污水处理效果识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
AZHAR S: "Data compression techniques for stock market prediction", 《DATA COMPRESSION CONFERENCE IEEE》 *
杨长生等: "HLZ:一种采用混合字典的自适应无损编码算法", 《浙江大学学报(工学版)》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116346940A (zh) * 2023-05-29 2023-06-27 德州禹工环保设备有限公司 一种智慧海绵城市的监测管理系统
CN116346940B (zh) * 2023-05-29 2023-08-22 德州禹工环保设备有限公司 一种智慧海绵城市的监测管理系统
CN116561084A (zh) * 2023-07-07 2023-08-08 众科云(北京)科技有限公司 一种灵活用工平台数据智能存储方法及系统
CN116561084B (zh) * 2023-07-07 2023-09-19 众科云(北京)科技有限公司 一种灵活用工平台数据智能存储方法及系统
CN117254819A (zh) * 2023-11-20 2023-12-19 深圳市瑞健医信科技有限公司 一种医疗废物智能监管系统
CN117254819B (zh) * 2023-11-20 2024-02-27 深圳市瑞健医信科技有限公司 一种医疗废物智能监管系统

Also Published As

Publication number Publication date
CN115543946B (zh) 2023-11-17

Similar Documents

Publication Publication Date Title
CN115543946A (zh) 一种金融大数据优化存储方法
CN116388767B (zh) 用于软件开发数据的安全管理方法
CN116681036B (zh) 基于数字孪生的工业数据存储方法
CN115204754B (zh) 一种基于大数据的热力供需信息管理平台
CN103067022A (zh) 一种整型数据无损压缩方法、解压缩方法及装置
CN115858476A (zh) 用于web开发系统中自定义表单获取数据的高效存储方法
CN117290364B (zh) 一种市场调查数据智能存储方法
CN116702708B (zh) 一种道路路面施工数据管理系统
CN116610265B (zh) 一种商务信息咨询系统的数据存储方法
CN116915259A (zh) 基于物联网的仓配数据优化储存方法及系统
CN116016606A (zh) 一种基于智慧云的污水处理运维数据高效管理系统
CN115964347B (zh) 一种市场监管监测中心数据的智能存储方法
CN117439616B (zh) 基于Linux系统的数据沙盒实现方法
CN117040542B (zh) 一种智能综合配电箱能耗数据处理方法
CN116318172A (zh) 一种设计仿真软件数据自适应压缩方法
Slyz et al. A nonlinear VQ-based predictive lossless image coder
CN104124982B (zh) 编码方法以及编码装置
CN117194490B (zh) 基于人工智能的金融大数据存储查询方法
Shportko et al. Rejection of the Inefficient Replacements while Forming the Schedule of the Modified Algorithm LZ77 in the Process of Progressive Hierarchical Compression of Images without Losses.
CN116707538B (zh) 基于云边协同的田径运动员信息数据管理方法及系统
CN117880761B (zh) 基于大数据的短信消息智能化推送方法及系统
CN117176178B (zh) 一种光电通信系统的数据处理方法
CN115292392B (zh) 用于智能仓储的数据管理方法
CN117995205B (zh) 一种基于多模态数据的教学资源系统
CN117375631B (zh) 一种基于哈夫曼编码的快速编码方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20231013

Address after: Room 315, No. 35 Hunnan Middle Road, Hunnan District, Shenyang City, Liaoning Province, 110170

Applicant after: Shengyin Digital Technology (Shenyang) Co.,Ltd.

Address before: 710082 Room 2702, Block C, Fortune Center, Gaoxin 3rd Road, Lianhu District, Xi'an, Shaanxi

Applicant before: Shaanxi Xiangqin Hengxing Technology Group Co.,Ltd.

GR01 Patent grant
GR01 Patent grant