CN116934487B - 一种金融清算数据优化存储方法及系统 - Google Patents
一种金融清算数据优化存储方法及系统 Download PDFInfo
- Publication number
- CN116934487B CN116934487B CN202311195525.0A CN202311195525A CN116934487B CN 116934487 B CN116934487 B CN 116934487B CN 202311195525 A CN202311195525 A CN 202311195525A CN 116934487 B CN116934487 B CN 116934487B
- Authority
- CN
- China
- Prior art keywords
- character
- data segment
- frequency
- target
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000003860 storage Methods 0.000 title claims abstract description 30
- 230000011218 segmentation Effects 0.000 claims abstract description 176
- 238000007906 compression Methods 0.000 claims abstract description 112
- 230000006835 compression Effects 0.000 claims abstract description 112
- 238000004590 computer program Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 6
- 238000005303 weighing Methods 0.000 claims description 6
- 230000009467 reduction Effects 0.000 claims description 3
- 235000010627 Phaseolus vulgaris Nutrition 0.000 claims description 2
- 244000046052 Phaseolus vulgaris Species 0.000 claims description 2
- 238000013144 data compression Methods 0.000 abstract description 4
- 238000013500 data storage Methods 0.000 abstract description 2
- 230000008859 change Effects 0.000 description 9
- 230000000694 effects Effects 0.000 description 6
- 238000009826 distribution Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Finance (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Technology Law (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明涉及数据压缩存储技术领域,具体涉及一种金融清算数据优化存储方法及系统,包括:采集金融清算数据,获取金融清算字符序列;获取目标分段标准下的数据段,获取数据段的所有字符组合以及每种字符组合的频数,进而得到所有频数为1的字符组合的压缩贡献度以及所有频数大于1的字符组合的压缩贡献度,根据目标分段标准的扩展第一占比差值序列的递增程度获取所有频数为1的字符组合的权重以及所有频数大于1的字符组合的权重,结合压缩贡献度得到数据段的LZW压缩程度,进而获取最优数据段,根据最优数据段对金融清算字符序列进行压缩存储。本发明实现了自适应分段,确保最终得到的所有最优数据段的压缩效率达到最高,节省了存储空间。
Description
技术领域
本发明涉及数据压缩存储技术领域,具体涉及一种金融清算数据优化存储方法及系统。
背景技术
金融清算数据一般包含金融交易过程中产生的各种账户、支付、结算数据,即为各种金融交易的金额、账户、时间等信息。一般不同类型数据可采用不同数据库进行存储,给定相应的映射标记,即可得到一条完整金融清算数据。对于一般金融清算中的金额数据,数据量大,存在一定重复性的数据组合,通常可采用LZW进行数据压缩,优化存储,减少数据库存储资源利用。
由于金融清算数据整体重复性不强,对金融清算数据直接采用LZW编码进行压缩,压缩效果较差。并且金融清算数据中存在各种频数为1的字符组合,使得LZW编码的压缩字典较大,导致对于频数大于1的字符组合利用字典中对应字符组合的序号进行压缩时,序号较大,进而导致压缩结果转化为二进制数据进行存储时,对应的数据量较大,存储效率低。
发明内容
为了解决上述问题,本发明一种金融清算数据优化存储方法及系统。
本发明的一种金融清算数据优化存储方法采用如下技术方案:
本发明一个实施例提供了一种金融清算数据优化存储方法,该方法包括以下步骤:
采集金融清算数据,根据金融清算数据获取多个金融清算字符序列;
获取多个分段标准,将任意一个分段标准作为目标分段标准,根据金融清算字符序列获取目标分段标准下的数据段;获取目标分段标准下的数据段的所有字符组合以及每种字符组合的频数;
根据每种字符组合的频数获取目标分段标准下的数据段中所有频数为1的字符组合的压缩贡献度以及所有频数大于1的字符组合的压缩贡献度;根据每种字符组合的频数获取目标分段标准的数据段的第一占比,根据第一占比获取目标分段标准的扩展第一占比差值序列;获取目标分段标准的扩展第一占比差值序列的递增程度;根据目标分段标准的扩展第一占比差值序列的递增程度获取目标分段标准下的数据段中所有频数为1的字符组合的权重,以及所有频数大于1的字符组合的权重;
根据目标分段标准下的数据段中所有频数为1的字符组合的压缩贡献度和权重以及所有频数大于1的字符组合的压缩贡献度和权重,获取目标分段标准下的数据段的LZW压缩程度;
根据每个分段标准下的数据段的LZW压缩程度获取最优数据段,根据最优数据段对金融清算字符序列进行压缩存储。
优选的,所述根据金融清算字符序列获取目标分段标准下的数据段,包括的具体步骤如下:
将目标分段标准用表示,获取金融清算字符序列中前/>个字符,构成一个序列,作为目标分段标准下的数据段。
优选的,所述获取目标分段标准下的数据段的所有字符组合以及每种字符组合的频数,包括的具体步骤如下:
构建一个空的字符组合序列;将目标分段标准下的数据段称为目标分段,以目标分段中第一个字符为开始,获取目标分段中与字符组合序列中所有字符组合都不相同的最短子串,作为一个字符组合,将该字符组合加入到字符组合序列中,将该字符组合作为上一字符组合;以上一字符组合末位的字符为开始,获取目标分段中与字符组合序列中所有字符组合都不相同的最短子串,作为一个新的字符组合,将该新的字符组合加入到字符组合序列中,将新的字符组合作为上一字符组合;以此类推,直到目标分段中不存在以上一字符组合末位的字符为开始,且与字符组合序列中所有字符组合都不相同的最短子串时,停止迭代;
将得到的字符组合序列中每种字符组合作为目标分段的一种字符组合;统计目标分段的每种字符组合在目标分段中出现的次数,作为目标分段的每种字符组合的频数。
优选的,所述根据每种字符组合的频数获取目标分段标准下的数据段中所有频数为1的字符组合的压缩贡献度以及所有频数大于1的字符组合的压缩贡献度,包括的具体步骤如下:
获取目标分段标准下的数据段中所有频数为1的字符组合的压缩贡献度:
其中,/>为目标分段标准下的数据段中所有频数为1的字符组合的压缩贡献度;/>为目标分段标准下的数据段中所有频数为1的字符组合的个数;
获取目标分段标准下的数据段中所有频数大于1的字符组合的压缩贡献度:
其中,/>为目标分段标准下的数据段中所有频数大于1的字符组合的压缩贡献度;/>为目标分段标准下的数据段中所有频数大于1的字符组合的个数;/>为目标分段标准下的数据段中第/>个频数大于1的字符组合的频数。
优选的,所述根据每种字符组合的频数获取目标分段标准的数据段的第一占比,根据第一占比获取目标分段标准的扩展第一占比差值序列,包括的具体步骤如下:
将作为目标分段标准下的数据段的第一占比;
将作为目标分段标准的扩展范围,其中/>为目标分段标准,将目标分段标准的扩展范围内每个整数分别作为目标分段标准的一个扩展分段标准,其中/>为预设的缩减阈值,/>为预设的扩展阈值;获取目标分段标准的每个扩展分段标准下的数据段的第一占比,将目标分段标准的所有扩展分段标准下的数据段的第一占比按照扩展分段标准从小到大的顺序排列,得到目标分段标准的扩展第一占比序列;
获取目标分段标准的扩展第一占比序列中所有相邻两个数据的差值,构成目标分段标准的扩展第一占比差值序列。
优选的,所述获取目标分段标准的扩展第一占比差值序列的递增程度,包括的具体步骤如下:
获取扩展第一占比差值序列中大于0的元素数量占扩展第一占比差值序列中所有元素数量的比值,作为目标分段标准的扩展第一占比差值序列的递增程度。
优选的,所述根据目标分段标准的扩展第一占比差值序列的递增程度获取目标分段标准下的数据段中所有频数为1的字符组合的权重,以及所有频数大于1的字符组合的权重,包括的具体步骤如下:
获取目标分段标准下的数据段中所有频数为1的字符组合的权重:
其中,/>为目标分段标准下的数据段中所有频数为1的字符组合的权重;/>为目标分段标准的扩展第一占比差值序列的递增程度;为最大值函数;/>为预设的范围阈值/>的右边界,/>为预设的范围阈值/>的左边界;
获取目标分段标准下的数据段中所有频数大于1的字符组合的权重:
其中,/>为目标分段标准下的数据段中所有频数大于1的字符组合的权重;/>为最小值函数。
优选的,所述获取目标分段标准下的数据段的LZW压缩程度,包括的具体步骤如下:
其中,/>为目标分段标准下的数据段的LZW压缩程度;/>为目标分段标准下的数据段中所有频数为1的字符组合的权重;/>为目标分段标准下的数据段中所有频数为1的字符组合的压缩贡献度;/>为目标分段标准下的数据段中所有频数大于1的字符组合的权重;/>为目标分段标准下的数据段中所有频数大于1的字符组合的压缩贡献度。
优选的,所述根据每个分段标准下的数据段的LZW压缩程度获取最优数据段,根据最优数据段对金融清算字符序列进行压缩存储,包括的具体步骤如下:
将LZW压缩程度最高的分段标准下的数据段作为最优数据段;将最优数据段从金融清算字符序列中剔除,实现金融清算字符序列的更新,根据更新后的金融清算字符序列重新获取新的最优数据段,将新的最优数据段从更新后的金融清算字符序列中剔除,实现金融清算字符序列的再次更新,以此类推,直到金融清算字符序列为空时停止迭代;
对得到的每个最优数据段利用LZW编码分别进行压缩,得到每个最优数据段的压缩结果;对所有最优数据段的压缩结果进行存储。
本发明还提出一种金融清算数据优化存储系统,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现任意一项所述一种金融清算数据优化存储方法的步骤。
本发明的技术方案的有益效果是:本发明采集金融清算数据,获取金融清算字符序列;获取目标分段标准下的数据段,获取数据段的所有字符组合以及每种字符组合的频数,进而得到所有频数为1的字符组合的压缩贡献度以及所有频数大于1的字符组合的压缩贡献度,根据目标分段标准的扩展第一占比差值序列的递增程度获取所有频数为1的字符组合的权重以及所有频数大于1的字符组合的权重,结合压缩贡献度得到数据段的LZW压缩程度,根据LZW压缩程度获取最优数据段,根据最优数据段对金融清算字符序列进行压缩存储。本发明通过分析不同分段标准下的数据段中字符组合的变化情况,获取不同分段标准下的数据段的LZW压缩程度,根据LZW压缩程度获取最优数据段,实现了自适应分段,确保最终得到的所有最优数据段的压缩效率达到最高,实现了金融清算数据的存储优化,节省了存储空间。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的一种金融清算数据优化存储方法的步骤流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种金融清算数据优化存储方法,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种金融清算数据优化存储方法的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种金融清算数据优化存储方法的步骤流程图,该方法包括以下步骤:
S001.采集金融清算数据,获取金融清算字符序列。
需要说明的是,金融清算数据包括交易金额、交易人员、账户信息、交易时间以及账户地址信息等。交易金额、交易人员、账户信息、交易时间以及账户地址信息等包含多种类型的数据,若对于交易金额、交易人员、账户信息、交易时间以及账户地址信息等金融清算数据统一进行压缩,在不同类型的数据影响下,较难压缩,同时压缩效率较低。因此可将不同类型的数据放在不同的数据库中,为每种信息赋予标识,通过标识在不同的数据库中组合得到完整的金融清算数据。本发明对每种类型的数据进行统一压缩。
在本发明实施例中,采集金融清算数据,包括交易金额、交易人员、账户信息、交易时间以及账户地址信息等,将金融清算数据中每个类型的数据构成一个序列,称为金融清算分类序列,如此可得到多个金融清算分类序列,例如金融清算数据中交易金额为数字类型的数据,则将所有交易金额构成一个序列,作为一个金融清算分类序列。
本发明针对每个金融清算分类序列进行压缩,将金融清算分类序列中每个数据中每个元素视作一个字符,例如交易金额“324”中“3”、“2”、“4”可分别视为一个字符,交易人员“张三”中“张”、“三”可分别视为一个字符,则每个数据可转换为多个字符来表示,将金融清算分类序列中每个数据利用其对应的字符来表示,得到新的序列,称为金融清算字符序列。
至此,获取了金融清算字符序列。需要说明的是,本发明实施例将金融清算数据分为多个金融清算分类序列,每个金融清算分类序列中的数据类型相同,将金融清算分类序列转化为金融清算字符序列,可确保每个金融清算字符序列中字符类型较少,后续对每个金融清算字符序列进行压缩可达到较大的压缩效率。
S002.采用不同的分段标准对金融清算字符序列进行分段,获取不同分段标准下的数据段的字符组合。
需要说明的是,LZW编码是一种数据压缩算法,通过不断将数据序列中出现的字符组合添加到压缩字典中,根据压缩字典进行编码,当金融清算字符序列中字符组合的重复率较高时,压缩效果较好,但金融清算字符序列中字符组合的重复率不一定较高,因此本发明实施例对金融清算字符序列利用不同的分段标准进行分段,获取字符组合重复率最高的每个分段数据,从而达到尽可能高的压缩效率。
在本发明实施例中,预设一个分段长度范围L,在本发明实施例中以L=[20,50]为例进行叙述,具体不做限定,实施人员可根据具体实施情况设置分段长度范围。将分段长度范围L内的每个整数分别作为一个分段标准。
将任意一个分段标准作为目标分段标准,用表示,获取金融清算字符序列中前/>个字符,构成一个序列,作为目标分段标准下的数据段。
至此,得到了目标分段标准下的数据段。
将目标分段标准下的数据段称为目标分段,构建一个空的字符组合序列,用来存在目标分段中的字符组合。以目标分段中第一个字符为开始,获取目标分段中与字符组合序列中所有字符组合都不相同的最短子串,作为一个字符组合,将该字符组合加入到字符组合序列中,将该字符组合作为上一字符组合;以上一字符组合末位的字符为开始,获取目标分段中与字符组合序列中所有字符组合都不相同的最短子串,作为一个新的字符组合,将该新的字符组合加入到字符组合序列中,将新的字符组合作为上一字符组合;以此类推,直到目标分段中不存在以上一字符组合末位的字符为开始,且与字符组合序列中所有字符组合都不相同的最短子串时,停止迭代。最终得到的字符组合序列中每种字符组合即为目标分段的一种字符组合。
例如目标分段为abcdabcdabcce时,以目标分段中第一个字符a为开始,且与字符组合序列中所有字符组合都不相同的最短子串为a,则字符组合为a,将a加入到字符组合序列,得到{a},将a作为上一字符组合;以目标分段中上一字符组合a的末位的字符a为开始,且与字符组合序列中所有字符组合都不相同的最短子串为ab,则字符组合为ab,将ab加入到字符组合序列,得到{a,ab},将ab作为上一字符组合;以目标分段中上一字符组合ab的末位的字符b为开始,且与字符组合序列中所有字符组合都不相同的最短子串为b,则字符组合为b,将b加入到字符组合序列,得到{a,ab,b},将b作为上一字符组合;以目标分段中上一字符组合b的末位的字符b为开始,且与字符组合序列中所有字符组合都不相同的最短子串为bc,则字符组合为bc,将bc加入到字符组合序列,得到{a,ab,b,bc},将bc作为上一字符组合;以此类推,得到最终的字符组合序列为{a,ab,b,bc,c,cd,d,da,abc,cda,abcc,e}。
统计目标分段的每种字符组合在目标分段中出现的次数,作为目标分段的每种字符组合的频数。例如字符组合ab在目标分段abcdabcdabcce中出现了3次,则ab的频数为3。
至此,获取了目标分段标准下的目标分段的所有字符组合以及每种字符组合的频数。
同理,获取每个分段标准下的数据段的所有字符组合以及每种字符组合的频数。
S003.根据每个分段标准下的数据段的所有字符组合获取每个分段标准下的数据段的LZW压缩程度。
需要说明的是,当数据段中频数为1的字符组合较多时,字符组合的重复率较低,若利用LZW编码对数据段进行压缩,会使得数据段中大部分字符无法利用动态加入到字典的字符组合来进行编码,使得压缩效率较低,同时频数为1的字符组合都需要加入到字典中,使得字典的长度较大,影响压缩速率。当数据段中频数大于1的字符组合较多,同时字符组合的频数较大时,字符组合的重复率越大,若利用LZW编码对数据段进行压缩,会使得数据段中大部分字符可利用动态加入到字典的字符组合来编码,使得压缩效率较大,压缩效果好。因此,本发明实施例首先获取数据段中频数为1的字符组合和频数大于1的字符组合对LZW编码的压缩贡献度。
在本发明实施例中,获取目标分段标准下的数据段中所有频数为1的字符组合的压缩贡献度:
其中,/>为目标分段标准下的数据段中所有频数为1的字符组合的压缩贡献度;/>为目标分段标准下的数据段中所有频数为1的字符组合的个数,当目标分段标准下的数据段中所有频数为1的字符组合的个数越少,目标分段标准下的数据段中所有频数为1的字符组合的压缩贡献度越大。
获取目标分段标准下的数据段中所有频数大于1的字符组合的压缩贡献度:
其中,/>为目标分段标准下的数据段中所有频数大于1的字符组合的压缩贡献度;/>为目标分段标准下的数据段中所有频数大于1的字符组合的个数;/>为目标分段标准下的数据段中第/>个频数大于1的字符组合的频数;当每种频数大于1的字符组合的频数越大时,目标分段标准下的数据段中所有频数大于1的字符组合的压缩贡献度越大。
需要说明的是,对于LZW编码而言,字符组合的重复率越大,压缩效果越好,单独出现的字符组合越少,即频数为1的字符组合越少,LZW编码越容易对数据段进行压缩。不同的分段标准下数据段中,频数为1的字符组合的占比不同,频数大于1的字符组合的占比不同。并且在分段标准变化的情况下,频数为1的字符组合的占比、频数大于1的字符组合的占比,此两类参数的变化率也不同,应根据数据段中两类参数实际变化规律进行权重分配,结合两类参数的压缩贡献度获取数据段的LZW压缩程度。
在本发明实施例中,目标分段标准下的数据段中频数为1的字符组合的个数为,目标分段标准下的数据段中频数大于1的字符组合的个数为/>。将/>作为目标分段标准下的数据段的第一占比。
预设一个缩减阈值以及一个扩展阈值/>,本发明实施例以/>,/>为例进行叙述,具体不做限定,实施人员可根据具体实施情况设置。将/>作为目标分段标准的扩展范围,将目标分段标准的扩展范围内每个整数分别作为目标分段标准的一个扩展分段标准,其中/>为目标分段标准。
获取目标分段标准的每个扩展分段标准下的数据段的第一占比,将目标分段标准的所有扩展分段标准下的数据段的第一占比按照扩展分段标准从小到大的顺序排列,得到目标分段标准的扩展第一占比序列。
需要说明的是,目标分段标准的扩展第一占比序列为目标分段标准的局部范围内的各个扩展分段标准下的数据段的第一占比,扩展第一占比序列中第一占比的变化情况可反映目标分段标准的局部范围内频数为1的字符组合在不同的分段标准下的变化情况。可根据变化情况为目标分段标准下的数据段中所有频数为1的字符组合的压缩贡献度、目标分段标准下的数据段中所有频数大于1的字符组合的压缩贡献度设置权重。
在本发明实施例中,获取目标分段标准的扩展第一占比序列中所有相邻两个数据的差值,构成目标分段标准的扩展第一占比差值序列。获取扩展第一占比差值序列中大于0的元素数量占扩展第一占比差值序列中所有元素数量的比值,作为目标分段标准的扩展第一占比差值序列的递增程度。
需要说明的是,当扩展第一占比差值序列中大于0的元素数量占扩展第一占比差值序列中所有元素数量的比值越大时,扩展第一占比差值序列中元素的分布越趋于递增的形式,此时目标分段标准的扩展第一占比差值序列的递增程度越大,说明在目标分段标准的局部范围内,随着分段标准的增大,频数大于1的字符组合的数量越多,可带来更大的压缩效率,此时频数大于1的字符组合的压缩贡献度的权重越大。当扩展第一占比差值序列中大于0的元素数量占扩展第一占比差值序列中所有元素数量的比值越小时,扩展第一占比差值序列中元素的分布越趋于递减的形式,此时目标分段标准的扩展第一占比差值序列的递增程度越小,说明在目标分段标准的局部范围内,随着分段标准的增大,频数为1的字符组合的数量越多,此些字符组合都要加入到字典中,使得字典的长度增大,同时在LZW编码过程中,由于数据段中其他字符或字符串与加入到字典中的频数为1的字符组合都不相同,无法利用加入到字典中的频数为1的字符组合进行编码,使得压缩效率较低,此时更应该关注频数为1的字符组合的压缩贡献度。当扩展第一占比差值序列中大于0的元素数量占扩展第一占比差值序列中所有元素数量的比值处于中间时,扩展第一占比差值序列中元素的分布为波动变化的,此时说明在目标分段标准的局部范围内,随着分段标准的增大,频数大于1的字符组合的数量的占比变化规律性较小,此时为了避免频数为1的字符组合的数量对字典长度造成较大影响,可根据扩展第一占比差值序列中大于0的元素数量占扩展第一占比差值序列中所有元素数量的比值,为频数为1的字符组合设置稍大的压缩贡献度的权重。
在本发明实施例中,预设范围阈值[],本发明实施例以/>为例进行叙述,具体不做限定,实施人员可根据实际实施情况设置。
根据范围阈值以及目标分段标准的扩展第一占比差值序列的递增程度获取目标分段标准下的数据段中所有频数为1的字符组合的权重:
其中,/>为目标分段标准下的数据段中所有频数为1的字符组合的权重;/>为目标分段标准的扩展第一占比差值序列的递增程度;为最大值函数,/>表示取/>和/>中的最大值;/>为预设的范围阈值的右边界,/>为预设的范围阈值/>的左边界。
根据范围阈值获取目标分段标准下的数据段中所有频数大于1的字符组合的权重:
其中,/>为目标分段标准下的数据段中所有频数大于1的字符组合的权重;/>为最小值函数;/>表示取/>和/>中的最小值。
根据目标分段标准下的数据段中所有频数为1的字符组合的压缩贡献度以及权重、所有频数大于1的字符组合的压缩贡献度以及权重,获取目标分段标准下的数据段的LZW压缩程度:
其中,/>为目标分段标准下的数据段的LZW压缩程度;/>为目标分段标准下的数据段中所有频数为1的字符组合的权重;/>为目标分段标准下的数据段中所有频数为1的字符组合的压缩贡献度;/>为目标分段标准下的数据段中所有频数大于1的字符组合的权重;/>为目标分段标准下的数据段中所有频数大于1的字符组合的压缩贡献度;当目标分段标准下的数据段中所有频数为1的字符组合越少,目标分段标准下的数据段中所有频数大于1的字符组合越多,同时目标分段标准下的数据段中所有频数大于1的字符组合的频数越大时,目标分段标准下的数据段的LZW压缩程度越大。
同理,获取每个分段标准下的数据段的LZW压缩程度。
S004.获取最优数据段,对金融清算字符序列进行压缩,实现金融清算数据的优化存储。
需要说明的是,LZW压缩程度越高,对应的分段标准下的数据段的压缩效率越高。
在本发明实施例中,将LZW压缩程度最高的分段标准下的数据段作为最优数据段。将最优数据段从金融清算字符序列中剔除,实现金融清算字符序列的更新,根据更新后的金融清算字符序列利用步骤S002、S003中的方法重新获取新的最优数据段,重复此过程,直到金融清算字符序列为空时停止迭代。
对得到的每个最优数据段利用LZW编码分别进行压缩,得到每个最优数据段的压缩结果。将所有最优数据段的压缩结果作为原始的金融清算字符序列的压缩数据。
需要说明的是,通过不断地获取最优数据段,实现了金融清算字符序列的自适应分段,得到的每个最优数据段都为局部位置利用LZW编码能够达到最大压缩效率的数据段。通过对每个最优数据段利用LZW编码进行压缩,相较于对金融清算数据进行压缩,可极大的提高压缩效率,减少数据的存储资源,实现优化存储。
通过以上步骤,完成了金融清算数据的优化存储。
本发明实施例还提出一种金融清算数据优化存储系统,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现任意一项所述一种金融清算数据优化存储方法的步骤。
本发明实施例通过采集金融清算数据,获取金融清算字符序列;获取目标分段标准下的数据段,获取数据段的所有字符组合以及每种字符组合的频数,进而得到所有频数为1的字符组合的压缩贡献度以及所有频数大于1的字符组合的压缩贡献度,根据目标分段标准的扩展第一占比差值序列的递增程度获取所有频数为1的字符组合的权重以及所有频数大于1的字符组合的权重,结合压缩贡献度得到数据段的LZW压缩程度,根据LZW压缩程度获取最优数据段,根据最优数据段对金融清算字符序列进行压缩存储。本发明通过分析不同分段标准下的数据段中字符组合的变化情况,获取不同分段标准下的数据段的LZW压缩程度,根据LZW压缩程度获取最优数据段,实现了自适应分段,确保最终得到的所有最优数据段的压缩效率达到最高,实现了金融清算数据的存储优化,节省了存储空间。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种金融清算数据优化存储方法,其特征在于,该方法包括以下步骤:
采集金融清算数据,根据金融清算数据获取多个金融清算字符序列;
获取多个分段标准,将任意一个分段标准作为目标分段标准,根据金融清算字符序列获取目标分段标准下的数据段;获取目标分段标准下的数据段的所有字符组合以及每种字符组合的频数;
根据每种字符组合的频数获取目标分段标准下的数据段中所有频数为1的字符组合的压缩贡献度以及所有频数大于1的字符组合的压缩贡献度;根据每种字符组合的频数获取目标分段标准的数据段的第一占比,根据第一占比获取目标分段标准的扩展第一占比差值序列;获取目标分段标准的扩展第一占比差值序列的递增程度;根据目标分段标准的扩展第一占比差值序列的递增程度获取目标分段标准下的数据段中所有频数为1的字符组合的权重,以及所有频数大于1的字符组合的权重;
根据目标分段标准下的数据段中所有频数为1的字符组合的压缩贡献度和权重以及所有频数大于1的字符组合的压缩贡献度和权重,获取目标分段标准下的数据段的LZW压缩程度;
根据每个分段标准下的数据段的LZW压缩程度获取最优数据段,根据最优数据段对金融清算字符序列进行压缩存储;
所述根据每种字符组合的频数获取目标分段标准下的数据段中所有频数为1的字符组合的压缩贡献度以及所有频数大于1的字符组合的压缩贡献度,包括的具体步骤如下:
获取目标分段标准下的数据段中所有频数为1的字符组合的压缩贡献度:
其中,/>为目标分段标准下的数据段中所有频数为1的字符组合的压缩贡献度;为目标分段标准下的数据段中所有频数为1的字符组合的个数;
获取目标分段标准下的数据段中所有频数大于1的字符组合的压缩贡献度:
其中,/>为目标分段标准下的数据段中所有频数大于1的字符组合的压缩贡献度;/>为目标分段标准下的数据段中所有频数大于1的字符组合的个数;/>为目标分段标准下的数据段中第/>个频数大于1的字符组合的频数;
所述根据每种字符组合的频数获取目标分段标准的数据段的第一占比,根据第一占比获取目标分段标准的扩展第一占比差值序列,包括的具体步骤如下:
将作为目标分段标准下的数据段的第一占比;
将作为目标分段标准的扩展范围,其中/>为目标分段标准,将目标分段标准的扩展范围内每个整数分别作为目标分段标准的一个扩展分段标准,其中/>为预设的缩减阈值,/>为预设的扩展阈值;获取目标分段标准的每个扩展分段标准下的数据段的第一占比,将目标分段标准的所有扩展分段标准下的数据段的第一占比按照扩展分段标准从小到大的顺序排列,得到目标分段标准的扩展第一占比序列;
获取目标分段标准的扩展第一占比序列中所有相邻两个数据的差值,构成目标分段标准的扩展第一占比差值序列;
所述根据目标分段标准的扩展第一占比差值序列的递增程度获取目标分段标准下的数据段中所有频数为1的字符组合的权重,以及所有频数大于1的字符组合的权重,包括的具体步骤如下:
获取目标分段标准下的数据段中所有频数为1的字符组合的权重:
其中,/>为目标分段标准下的数据段中所有频数为1的字符组合的权重;/>为目标分段标准的扩展第一占比差值序列的递增程度;/>为最大值函数;/>为预设的范围阈值/>的右边界,/>为预设的范围阈值/>的左边界;
获取目标分段标准下的数据段中所有频数大于1的字符组合的权重:
其中,/>为目标分段标准下的数据段中所有频数大于1的字符组合的权重;/>为最小值函数;
所述获取目标分段标准下的数据段的LZW压缩程度,包括的具体步骤如下:
其中,/>为目标分段标准下的数据段的LZW压缩程度;/>为目标分段标准下的数据段中所有频数为1的字符组合的权重;/>为目标分段标准下的数据段中所有频数为1的字符组合的压缩贡献度;/>为目标分段标准下的数据段中所有频数大于1的字符组合的权重;/>为目标分段标准下的数据段中所有频数大于1的字符组合的压缩贡献度。
2.根据权利要求1所述的一种金融清算数据优化存储方法,其特征在于,所述根据金融清算字符序列获取目标分段标准下的数据段,包括的具体步骤如下:
将目标分段标准用表示,获取金融清算字符序列中前/>个字符,构成一个序列,作为目标分段标准下的数据段。
3.根据权利要求1所述的一种金融清算数据优化存储方法,其特征在于,所述获取目标分段标准下的数据段的所有字符组合以及每种字符组合的频数,包括的具体步骤如下:
构建一个空的字符组合序列;将目标分段标准下的数据段称为目标分段,以目标分段中第一个字符为开始,获取目标分段中与字符组合序列中所有字符组合都不相同的最短子串,作为一个字符组合,将该字符组合加入到字符组合序列中,将该字符组合作为上一字符组合;以上一字符组合末位的字符为开始,获取目标分段中与字符组合序列中所有字符组合都不相同的最短子串,作为一个新的字符组合,将该新的字符组合加入到字符组合序列中,将新的字符组合作为上一字符组合;以此类推,直到目标分段中不存在以上一字符组合末位的字符为开始,且与字符组合序列中所有字符组合都不相同的最短子串时,停止迭代;
将得到的字符组合序列中每种字符组合作为目标分段的一种字符组合;统计目标分段的每种字符组合在目标分段中出现的次数,作为目标分段的每种字符组合的频数。
4.根据权利要求1所述的一种金融清算数据优化存储方法,其特征在于,所述获取目标分段标准的扩展第一占比差值序列的递增程度,包括的具体步骤如下:
获取扩展第一占比差值序列中大于0的元素数量占扩展第一占比差值序列中所有元素数量的比值,作为目标分段标准的扩展第一占比差值序列的递增程度。
5.根据权利要求1所述的一种金融清算数据优化存储方法,其特征在于,所述根据每个分段标准下的数据段的LZW压缩程度获取最优数据段,根据最优数据段对金融清算字符序列进行压缩存储,包括的具体步骤如下:
将LZW压缩程度最高的分段标准下的数据段作为最优数据段;将最优数据段从金融清算字符序列中剔除,实现金融清算字符序列的更新,根据更新后的金融清算字符序列重新获取新的最优数据段,将新的最优数据段从更新后的金融清算字符序列中剔除,实现金融清算字符序列的再次更新,以此类推,直到金融清算字符序列为空时停止迭代;
对得到的每个最优数据段利用LZW编码分别进行压缩,得到每个最优数据段的压缩结果;对所有最优数据段的压缩结果进行存储。
6.一种金融清算数据优化存储系统,包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-5任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311195525.0A CN116934487B (zh) | 2023-09-18 | 2023-09-18 | 一种金融清算数据优化存储方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311195525.0A CN116934487B (zh) | 2023-09-18 | 2023-09-18 | 一种金融清算数据优化存储方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116934487A CN116934487A (zh) | 2023-10-24 |
CN116934487B true CN116934487B (zh) | 2023-12-12 |
Family
ID=88386506
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311195525.0A Active CN116934487B (zh) | 2023-09-18 | 2023-09-18 | 一种金融清算数据优化存储方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116934487B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117560016B (zh) * | 2024-01-09 | 2024-03-19 | 学术桥(北京)教育科技有限公司 | 基于大数据的高校招聘信息管理方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115801902A (zh) * | 2023-02-09 | 2023-03-14 | 北京特立信电子技术股份有限公司 | 一种网络访问请求数据的压缩方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7222258B2 (en) * | 2002-12-18 | 2007-05-22 | Intel Corporation | Compressing a firmware image |
-
2023
- 2023-09-18 CN CN202311195525.0A patent/CN116934487B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115801902A (zh) * | 2023-02-09 | 2023-03-14 | 北京特立信电子技术股份有限公司 | 一种网络访问请求数据的压缩方法 |
Non-Patent Citations (3)
Title |
---|
A linguistic steganography based on word indexing compression and candidate selection;Lingyun Xiang et al;Multimed Tools Appl;第77卷;28969-28989 * |
LZW无损压缩算法的研究与改进;许霞;马光思;鱼涛;;计算机技术与发展(04);125-127 * |
基于LZW 编码的卷积神经网络压缩方法;刘崇阳;计算机工程;第45卷(第9期);188-193 * |
Also Published As
Publication number | Publication date |
---|---|
CN116934487A (zh) | 2023-10-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116934487B (zh) | 一种金融清算数据优化存储方法及系统 | |
CN116681036B (zh) | 基于数字孪生的工业数据存储方法 | |
CN112953550B (zh) | 数据压缩的方法、电子设备及存储介质 | |
CN116153452B (zh) | 基于人工智能的医疗电子病历存储系统 | |
CN112003625A (zh) | 一种霍夫曼编码方法、系统及设备 | |
US7698312B2 (en) | Performing recursive database operations | |
CN117290364B (zh) | 一种市场调查数据智能存储方法 | |
CN117082156B (zh) | 一种网络流量大数据智能分析方法 | |
CN116506073A (zh) | 一种工业计算机平台数据快速传输方法及系统 | |
CN116614139B (zh) | 一种售酒小程序内用户交易信息压缩存储方法 | |
CN112463784A (zh) | 数据去重方法、装置、设备及计算机可读存储介质 | |
CN117278054B (zh) | 一种智慧电网监控数据存储方法及系统 | |
CN108880559B (zh) | 数据压缩方法、数据解压缩方法、压缩设备及解压缩设备 | |
US20130332433A1 (en) | Computer product, generating apparatus, and generating method | |
CN113852443B (zh) | Scma系统中一种低复杂度多用户检测方法 | |
JP6835285B1 (ja) | データ圧縮方法、データ圧縮装置、データ圧縮プログラム、データ伸長方法、データ伸長装置およびデータ伸長プログラム | |
CN116318172A (zh) | 一种设计仿真软件数据自适应压缩方法 | |
CN108182283A (zh) | 一种基于单快照的多体模拟有损压缩技术 | |
CN108259515A (zh) | 一种适用于带宽受限下传输链路的无损信源压缩方法 | |
CN112101548A (zh) | 数据压缩方法及装置、数据解压方法及装置、电子设备 | |
CN113919289A (zh) | 比特币钱包地址字符串的编码方法及地址编号表生成方法 | |
CN117874049B (zh) | 一种手游数据更新方法及系统 | |
CN113242044B (zh) | 一种减少内存占用的区块链数据存储压缩方法 | |
CN117171399B (zh) | 基于云平台的新能源数据优化存储方法 | |
CN117874314B (zh) | 一种基于大数据处理的信息可视化方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |