CN116934487B

CN116934487B - 一种金融清算数据优化存储方法及系统

Info

Publication number: CN116934487B
Application number: CN202311195525.0A
Authority: CN
Inventors: 贾庆佳; 孙剑; 王仕林; 逄璇; 张磊
Original assignee: Qingdao Off Site Market Clearing Center Co ltd
Current assignee: Qingdao Off Site Market Clearing Center Co ltd
Priority date: 2023-09-18
Filing date: 2023-09-18
Publication date: 2023-12-12
Anticipated expiration: 2043-09-18
Also published as: CN116934487A

Abstract

本发明涉及数据压缩存储技术领域，具体涉及一种金融清算数据优化存储方法及系统，包括：采集金融清算数据，获取金融清算字符序列；获取目标分段标准下的数据段，获取数据段的所有字符组合以及每种字符组合的频数，进而得到所有频数为1的字符组合的压缩贡献度以及所有频数大于1的字符组合的压缩贡献度，根据目标分段标准的扩展第一占比差值序列的递增程度获取所有频数为1的字符组合的权重以及所有频数大于1的字符组合的权重，结合压缩贡献度得到数据段的LZW压缩程度，进而获取最优数据段，根据最优数据段对金融清算字符序列进行压缩存储。本发明实现了自适应分段，确保最终得到的所有最优数据段的压缩效率达到最高，节省了存储空间。

Description

一种金融清算数据优化存储方法及系统

技术领域

本发明涉及数据压缩存储技术领域，具体涉及一种金融清算数据优化存储方法及系统。

背景技术

金融清算数据一般包含金融交易过程中产生的各种账户、支付、结算数据，即为各种金融交易的金额、账户、时间等信息。一般不同类型数据可采用不同数据库进行存储，给定相应的映射标记，即可得到一条完整金融清算数据。对于一般金融清算中的金额数据，数据量大，存在一定重复性的数据组合，通常可采用LZW进行数据压缩，优化存储，减少数据库存储资源利用。

由于金融清算数据整体重复性不强，对金融清算数据直接采用LZW编码进行压缩，压缩效果较差。并且金融清算数据中存在各种频数为1的字符组合，使得LZW编码的压缩字典较大，导致对于频数大于1的字符组合利用字典中对应字符组合的序号进行压缩时，序号较大，进而导致压缩结果转化为二进制数据进行存储时，对应的数据量较大，存储效率低。

发明内容

为了解决上述问题，本发明一种金融清算数据优化存储方法及系统。

本发明的一种金融清算数据优化存储方法采用如下技术方案：

本发明一个实施例提供了一种金融清算数据优化存储方法，该方法包括以下步骤：

采集金融清算数据，根据金融清算数据获取多个金融清算字符序列；

获取多个分段标准，将任意一个分段标准作为目标分段标准，根据金融清算字符序列获取目标分段标准下的数据段；获取目标分段标准下的数据段的所有字符组合以及每种字符组合的频数；

根据每种字符组合的频数获取目标分段标准下的数据段中所有频数为1的字符组合的压缩贡献度以及所有频数大于1的字符组合的压缩贡献度；根据每种字符组合的频数获取目标分段标准的数据段的第一占比，根据第一占比获取目标分段标准的扩展第一占比差值序列；获取目标分段标准的扩展第一占比差值序列的递增程度；根据目标分段标准的扩展第一占比差值序列的递增程度获取目标分段标准下的数据段中所有频数为1的字符组合的权重，以及所有频数大于1的字符组合的权重；

根据目标分段标准下的数据段中所有频数为1的字符组合的压缩贡献度和权重以及所有频数大于1的字符组合的压缩贡献度和权重，获取目标分段标准下的数据段的LZW压缩程度；

根据每个分段标准下的数据段的LZW压缩程度获取最优数据段，根据最优数据段对金融清算字符序列进行压缩存储。

优选的，所述根据金融清算字符序列获取目标分段标准下的数据段，包括的具体步骤如下：

将目标分段标准用表示，获取金融清算字符序列中前/>个字符，构成一个序列，作为目标分段标准下的数据段。

优选的，所述获取目标分段标准下的数据段的所有字符组合以及每种字符组合的频数，包括的具体步骤如下：

构建一个空的字符组合序列；将目标分段标准下的数据段称为目标分段，以目标分段中第一个字符为开始，获取目标分段中与字符组合序列中所有字符组合都不相同的最短子串，作为一个字符组合，将该字符组合加入到字符组合序列中，将该字符组合作为上一字符组合；以上一字符组合末位的字符为开始，获取目标分段中与字符组合序列中所有字符组合都不相同的最短子串，作为一个新的字符组合，将该新的字符组合加入到字符组合序列中，将新的字符组合作为上一字符组合；以此类推，直到目标分段中不存在以上一字符组合末位的字符为开始，且与字符组合序列中所有字符组合都不相同的最短子串时，停止迭代；

将得到的字符组合序列中每种字符组合作为目标分段的一种字符组合；统计目标分段的每种字符组合在目标分段中出现的次数，作为目标分段的每种字符组合的频数。

优选的，所述根据每种字符组合的频数获取目标分段标准下的数据段中所有频数为1的字符组合的压缩贡献度以及所有频数大于1的字符组合的压缩贡献度，包括的具体步骤如下：

获取目标分段标准下的数据段中所有频数为1的字符组合的压缩贡献度：

其中，/>为目标分段标准下的数据段中所有频数为1的字符组合的压缩贡献度；/>为目标分段标准下的数据段中所有频数为1的字符组合的个数；

获取目标分段标准下的数据段中所有频数大于1的字符组合的压缩贡献度：

其中，/>为目标分段标准下的数据段中所有频数大于1的字符组合的压缩贡献度；/>为目标分段标准下的数据段中所有频数大于1的字符组合的个数；/>为目标分段标准下的数据段中第/>个频数大于1的字符组合的频数。

优选的，所述根据每种字符组合的频数获取目标分段标准的数据段的第一占比，根据第一占比获取目标分段标准的扩展第一占比差值序列，包括的具体步骤如下：

将作为目标分段标准下的数据段的第一占比；

将作为目标分段标准的扩展范围，其中/>为目标分段标准，将目标分段标准的扩展范围内每个整数分别作为目标分段标准的一个扩展分段标准，其中/>为预设的缩减阈值，/>为预设的扩展阈值；获取目标分段标准的每个扩展分段标准下的数据段的第一占比，将目标分段标准的所有扩展分段标准下的数据段的第一占比按照扩展分段标准从小到大的顺序排列，得到目标分段标准的扩展第一占比序列；

获取目标分段标准的扩展第一占比序列中所有相邻两个数据的差值，构成目标分段标准的扩展第一占比差值序列。

优选的，所述获取目标分段标准的扩展第一占比差值序列的递增程度，包括的具体步骤如下：

获取扩展第一占比差值序列中大于0的元素数量占扩展第一占比差值序列中所有元素数量的比值，作为目标分段标准的扩展第一占比差值序列的递增程度。

优选的，所述根据目标分段标准的扩展第一占比差值序列的递增程度获取目标分段标准下的数据段中所有频数为1的字符组合的权重，以及所有频数大于1的字符组合的权重，包括的具体步骤如下：

获取目标分段标准下的数据段中所有频数为1的字符组合的权重：

其中，/>为目标分段标准下的数据段中所有频数为1的字符组合的权重；/>为目标分段标准的扩展第一占比差值序列的递增程度；为最大值函数；/>为预设的范围阈值/>的右边界，/>为预设的范围阈值/>的左边界；

获取目标分段标准下的数据段中所有频数大于1的字符组合的权重：

其中，/>为目标分段标准下的数据段中所有频数大于1的字符组合的权重；/>为最小值函数。

优选的，所述获取目标分段标准下的数据段的LZW压缩程度，包括的具体步骤如下：

其中，/>为目标分段标准下的数据段的LZW压缩程度；/>为目标分段标准下的数据段中所有频数为1的字符组合的权重；/>为目标分段标准下的数据段中所有频数为1的字符组合的压缩贡献度；/>为目标分段标准下的数据段中所有频数大于1的字符组合的权重；/>为目标分段标准下的数据段中所有频数大于1的字符组合的压缩贡献度。

优选的，所述根据每个分段标准下的数据段的LZW压缩程度获取最优数据段，根据最优数据段对金融清算字符序列进行压缩存储，包括的具体步骤如下：

将LZW压缩程度最高的分段标准下的数据段作为最优数据段；将最优数据段从金融清算字符序列中剔除，实现金融清算字符序列的更新，根据更新后的金融清算字符序列重新获取新的最优数据段，将新的最优数据段从更新后的金融清算字符序列中剔除，实现金融清算字符序列的再次更新，以此类推，直到金融清算字符序列为空时停止迭代；

对得到的每个最优数据段利用LZW编码分别进行压缩，得到每个最优数据段的压缩结果；对所有最优数据段的压缩结果进行存储。

本发明还提出一种金融清算数据优化存储系统，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现任意一项所述一种金融清算数据优化存储方法的步骤。

本发明的技术方案的有益效果是：本发明采集金融清算数据，获取金融清算字符序列；获取目标分段标准下的数据段，获取数据段的所有字符组合以及每种字符组合的频数，进而得到所有频数为1的字符组合的压缩贡献度以及所有频数大于1的字符组合的压缩贡献度，根据目标分段标准的扩展第一占比差值序列的递增程度获取所有频数为1的字符组合的权重以及所有频数大于1的字符组合的权重，结合压缩贡献度得到数据段的LZW压缩程度，根据LZW压缩程度获取最优数据段，根据最优数据段对金融清算字符序列进行压缩存储。本发明通过分析不同分段标准下的数据段中字符组合的变化情况，获取不同分段标准下的数据段的LZW压缩程度，根据LZW压缩程度获取最优数据段，实现了自适应分段，确保最终得到的所有最优数据段的压缩效率达到最高，实现了金融清算数据的存储优化，节省了存储空间。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的一种金融清算数据优化存储方法的步骤流程图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的一种金融清算数据优化存储方法，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的一种金融清算数据优化存储方法的具体方案。

请参阅图1，其示出了本发明一个实施例提供的一种金融清算数据优化存储方法的步骤流程图，该方法包括以下步骤：

S001．采集金融清算数据，获取金融清算字符序列。

需要说明的是，金融清算数据包括交易金额、交易人员、账户信息、交易时间以及账户地址信息等。交易金额、交易人员、账户信息、交易时间以及账户地址信息等包含多种类型的数据，若对于交易金额、交易人员、账户信息、交易时间以及账户地址信息等金融清算数据统一进行压缩，在不同类型的数据影响下，较难压缩，同时压缩效率较低。因此可将不同类型的数据放在不同的数据库中，为每种信息赋予标识，通过标识在不同的数据库中组合得到完整的金融清算数据。本发明对每种类型的数据进行统一压缩。

在本发明实施例中，采集金融清算数据，包括交易金额、交易人员、账户信息、交易时间以及账户地址信息等，将金融清算数据中每个类型的数据构成一个序列，称为金融清算分类序列，如此可得到多个金融清算分类序列，例如金融清算数据中交易金额为数字类型的数据，则将所有交易金额构成一个序列，作为一个金融清算分类序列。

本发明针对每个金融清算分类序列进行压缩，将金融清算分类序列中每个数据中每个元素视作一个字符，例如交易金额“324”中“3”、“2”、“4”可分别视为一个字符，交易人员“张三”中“张”、“三”可分别视为一个字符，则每个数据可转换为多个字符来表示，将金融清算分类序列中每个数据利用其对应的字符来表示，得到新的序列，称为金融清算字符序列。

至此，获取了金融清算字符序列。需要说明的是，本发明实施例将金融清算数据分为多个金融清算分类序列，每个金融清算分类序列中的数据类型相同，将金融清算分类序列转化为金融清算字符序列，可确保每个金融清算字符序列中字符类型较少，后续对每个金融清算字符序列进行压缩可达到较大的压缩效率。

S002．采用不同的分段标准对金融清算字符序列进行分段，获取不同分段标准下的数据段的字符组合。

需要说明的是，LZW编码是一种数据压缩算法，通过不断将数据序列中出现的字符组合添加到压缩字典中，根据压缩字典进行编码，当金融清算字符序列中字符组合的重复率较高时，压缩效果较好，但金融清算字符序列中字符组合的重复率不一定较高，因此本发明实施例对金融清算字符序列利用不同的分段标准进行分段，获取字符组合重复率最高的每个分段数据，从而达到尽可能高的压缩效率。

在本发明实施例中，预设一个分段长度范围L，在本发明实施例中以L=[20,50]为例进行叙述，具体不做限定，实施人员可根据具体实施情况设置分段长度范围。将分段长度范围L内的每个整数分别作为一个分段标准。

将任意一个分段标准作为目标分段标准，用表示，获取金融清算字符序列中前/>个字符，构成一个序列，作为目标分段标准下的数据段。

至此，得到了目标分段标准下的数据段。

将目标分段标准下的数据段称为目标分段，构建一个空的字符组合序列，用来存在目标分段中的字符组合。以目标分段中第一个字符为开始，获取目标分段中与字符组合序列中所有字符组合都不相同的最短子串，作为一个字符组合，将该字符组合加入到字符组合序列中，将该字符组合作为上一字符组合；以上一字符组合末位的字符为开始，获取目标分段中与字符组合序列中所有字符组合都不相同的最短子串，作为一个新的字符组合，将该新的字符组合加入到字符组合序列中，将新的字符组合作为上一字符组合；以此类推，直到目标分段中不存在以上一字符组合末位的字符为开始，且与字符组合序列中所有字符组合都不相同的最短子串时，停止迭代。最终得到的字符组合序列中每种字符组合即为目标分段的一种字符组合。

例如目标分段为abcdabcdabcce时，以目标分段中第一个字符a为开始，且与字符组合序列中所有字符组合都不相同的最短子串为a，则字符组合为a，将a加入到字符组合序列，得到{a}，将a作为上一字符组合；以目标分段中上一字符组合a的末位的字符a为开始，且与字符组合序列中所有字符组合都不相同的最短子串为ab，则字符组合为ab，将ab加入到字符组合序列，得到{a,ab}，将ab作为上一字符组合；以目标分段中上一字符组合ab的末位的字符b为开始，且与字符组合序列中所有字符组合都不相同的最短子串为b，则字符组合为b，将b加入到字符组合序列，得到{a,ab,b}，将b作为上一字符组合；以目标分段中上一字符组合b的末位的字符b为开始，且与字符组合序列中所有字符组合都不相同的最短子串为bc，则字符组合为bc，将bc加入到字符组合序列，得到{a,ab,b,bc}，将bc作为上一字符组合；以此类推，得到最终的字符组合序列为{a,ab,b,bc,c,cd,d,da,abc,cda,abcc,e}。

统计目标分段的每种字符组合在目标分段中出现的次数，作为目标分段的每种字符组合的频数。例如字符组合ab在目标分段abcdabcdabcce中出现了3次，则ab的频数为3。

至此，获取了目标分段标准下的目标分段的所有字符组合以及每种字符组合的频数。

同理，获取每个分段标准下的数据段的所有字符组合以及每种字符组合的频数。

S003．根据每个分段标准下的数据段的所有字符组合获取每个分段标准下的数据段的LZW压缩程度。

需要说明的是，当数据段中频数为1的字符组合较多时，字符组合的重复率较低，若利用LZW编码对数据段进行压缩，会使得数据段中大部分字符无法利用动态加入到字典的字符组合来进行编码，使得压缩效率较低，同时频数为1的字符组合都需要加入到字典中，使得字典的长度较大，影响压缩速率。当数据段中频数大于1的字符组合较多，同时字符组合的频数较大时，字符组合的重复率越大，若利用LZW编码对数据段进行压缩，会使得数据段中大部分字符可利用动态加入到字典的字符组合来编码，使得压缩效率较大，压缩效果好。因此，本发明实施例首先获取数据段中频数为1的字符组合和频数大于1的字符组合对LZW编码的压缩贡献度。

在本发明实施例中，获取目标分段标准下的数据段中所有频数为1的字符组合的压缩贡献度：

其中，/>为目标分段标准下的数据段中所有频数为1的字符组合的压缩贡献度；/>为目标分段标准下的数据段中所有频数为1的字符组合的个数，当目标分段标准下的数据段中所有频数为1的字符组合的个数越少，目标分段标准下的数据段中所有频数为1的字符组合的压缩贡献度越大。

其中，/>为目标分段标准下的数据段中所有频数大于1的字符组合的压缩贡献度；/>为目标分段标准下的数据段中所有频数大于1的字符组合的个数；/>为目标分段标准下的数据段中第/>个频数大于1的字符组合的频数；当每种频数大于1的字符组合的频数越大时，目标分段标准下的数据段中所有频数大于1的字符组合的压缩贡献度越大。

需要说明的是，对于LZW编码而言，字符组合的重复率越大，压缩效果越好，单独出现的字符组合越少，即频数为1的字符组合越少，LZW编码越容易对数据段进行压缩。不同的分段标准下数据段中，频数为1的字符组合的占比不同，频数大于1的字符组合的占比不同。并且在分段标准变化的情况下，频数为1的字符组合的占比、频数大于1的字符组合的占比，此两类参数的变化率也不同，应根据数据段中两类参数实际变化规律进行权重分配，结合两类参数的压缩贡献度获取数据段的LZW压缩程度。

在本发明实施例中，目标分段标准下的数据段中频数为1的字符组合的个数为，目标分段标准下的数据段中频数大于1的字符组合的个数为/>。将/>作为目标分段标准下的数据段的第一占比。

预设一个缩减阈值以及一个扩展阈值/>，本发明实施例以/>，/>为例进行叙述，具体不做限定，实施人员可根据具体实施情况设置。将/>作为目标分段标准的扩展范围，将目标分段标准的扩展范围内每个整数分别作为目标分段标准的一个扩展分段标准，其中/>为目标分段标准。

获取目标分段标准的每个扩展分段标准下的数据段的第一占比，将目标分段标准的所有扩展分段标准下的数据段的第一占比按照扩展分段标准从小到大的顺序排列，得到目标分段标准的扩展第一占比序列。

需要说明的是，目标分段标准的扩展第一占比序列为目标分段标准的局部范围内的各个扩展分段标准下的数据段的第一占比，扩展第一占比序列中第一占比的变化情况可反映目标分段标准的局部范围内频数为1的字符组合在不同的分段标准下的变化情况。可根据变化情况为目标分段标准下的数据段中所有频数为1的字符组合的压缩贡献度、目标分段标准下的数据段中所有频数大于1的字符组合的压缩贡献度设置权重。

在本发明实施例中，获取目标分段标准的扩展第一占比序列中所有相邻两个数据的差值，构成目标分段标准的扩展第一占比差值序列。获取扩展第一占比差值序列中大于0的元素数量占扩展第一占比差值序列中所有元素数量的比值，作为目标分段标准的扩展第一占比差值序列的递增程度。

需要说明的是，当扩展第一占比差值序列中大于0的元素数量占扩展第一占比差值序列中所有元素数量的比值越大时，扩展第一占比差值序列中元素的分布越趋于递增的形式，此时目标分段标准的扩展第一占比差值序列的递增程度越大，说明在目标分段标准的局部范围内，随着分段标准的增大，频数大于1的字符组合的数量越多，可带来更大的压缩效率，此时频数大于1的字符组合的压缩贡献度的权重越大。当扩展第一占比差值序列中大于0的元素数量占扩展第一占比差值序列中所有元素数量的比值越小时，扩展第一占比差值序列中元素的分布越趋于递减的形式，此时目标分段标准的扩展第一占比差值序列的递增程度越小，说明在目标分段标准的局部范围内，随着分段标准的增大，频数为1的字符组合的数量越多，此些字符组合都要加入到字典中，使得字典的长度增大，同时在LZW编码过程中，由于数据段中其他字符或字符串与加入到字典中的频数为1的字符组合都不相同，无法利用加入到字典中的频数为1的字符组合进行编码，使得压缩效率较低，此时更应该关注频数为1的字符组合的压缩贡献度。当扩展第一占比差值序列中大于0的元素数量占扩展第一占比差值序列中所有元素数量的比值处于中间时，扩展第一占比差值序列中元素的分布为波动变化的，此时说明在目标分段标准的局部范围内，随着分段标准的增大，频数大于1的字符组合的数量的占比变化规律性较小，此时为了避免频数为1的字符组合的数量对字典长度造成较大影响，可根据扩展第一占比差值序列中大于0的元素数量占扩展第一占比差值序列中所有元素数量的比值，为频数为1的字符组合设置稍大的压缩贡献度的权重。

在本发明实施例中，预设范围阈值[]，本发明实施例以/>为例进行叙述，具体不做限定，实施人员可根据实际实施情况设置。

根据范围阈值以及目标分段标准的扩展第一占比差值序列的递增程度获取目标分段标准下的数据段中所有频数为1的字符组合的权重：

其中，/>为目标分段标准下的数据段中所有频数为1的字符组合的权重；/>为目标分段标准的扩展第一占比差值序列的递增程度；为最大值函数，/>表示取/>和/>中的最大值；/>为预设的范围阈值的右边界，/>为预设的范围阈值/>的左边界。

根据范围阈值获取目标分段标准下的数据段中所有频数大于1的字符组合的权重：

其中，/>为目标分段标准下的数据段中所有频数大于1的字符组合的权重；/>为最小值函数；/>表示取/>和/>中的最小值。

根据目标分段标准下的数据段中所有频数为1的字符组合的压缩贡献度以及权重、所有频数大于1的字符组合的压缩贡献度以及权重，获取目标分段标准下的数据段的LZW压缩程度：

其中，/>为目标分段标准下的数据段的LZW压缩程度；/>为目标分段标准下的数据段中所有频数为1的字符组合的权重；/>为目标分段标准下的数据段中所有频数为1的字符组合的压缩贡献度；/>为目标分段标准下的数据段中所有频数大于1的字符组合的权重；/>为目标分段标准下的数据段中所有频数大于1的字符组合的压缩贡献度；当目标分段标准下的数据段中所有频数为1的字符组合越少，目标分段标准下的数据段中所有频数大于1的字符组合越多，同时目标分段标准下的数据段中所有频数大于1的字符组合的频数越大时，目标分段标准下的数据段的LZW压缩程度越大。

同理，获取每个分段标准下的数据段的LZW压缩程度。

S004．获取最优数据段，对金融清算字符序列进行压缩，实现金融清算数据的优化存储。

需要说明的是，LZW压缩程度越高，对应的分段标准下的数据段的压缩效率越高。

在本发明实施例中，将LZW压缩程度最高的分段标准下的数据段作为最优数据段。将最优数据段从金融清算字符序列中剔除，实现金融清算字符序列的更新，根据更新后的金融清算字符序列利用步骤S002、S003中的方法重新获取新的最优数据段，重复此过程，直到金融清算字符序列为空时停止迭代。

对得到的每个最优数据段利用LZW编码分别进行压缩，得到每个最优数据段的压缩结果。将所有最优数据段的压缩结果作为原始的金融清算字符序列的压缩数据。

需要说明的是，通过不断地获取最优数据段，实现了金融清算字符序列的自适应分段，得到的每个最优数据段都为局部位置利用LZW编码能够达到最大压缩效率的数据段。通过对每个最优数据段利用LZW编码进行压缩，相较于对金融清算数据进行压缩，可极大的提高压缩效率，减少数据的存储资源，实现优化存储。

通过以上步骤，完成了金融清算数据的优化存储。

本发明实施例还提出一种金融清算数据优化存储系统，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现任意一项所述一种金融清算数据优化存储方法的步骤。

本发明实施例通过采集金融清算数据，获取金融清算字符序列；获取目标分段标准下的数据段，获取数据段的所有字符组合以及每种字符组合的频数，进而得到所有频数为1的字符组合的压缩贡献度以及所有频数大于1的字符组合的压缩贡献度，根据目标分段标准的扩展第一占比差值序列的递增程度获取所有频数为1的字符组合的权重以及所有频数大于1的字符组合的权重，结合压缩贡献度得到数据段的LZW压缩程度，根据LZW压缩程度获取最优数据段，根据最优数据段对金融清算字符序列进行压缩存储。本发明通过分析不同分段标准下的数据段中字符组合的变化情况，获取不同分段标准下的数据段的LZW压缩程度，根据LZW压缩程度获取最优数据段，实现了自适应分段，确保最终得到的所有最优数据段的压缩效率达到最高，实现了金融清算数据的存储优化，节省了存储空间。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种金融清算数据优化存储方法，其特征在于，该方法包括以下步骤：

根据每个分段标准下的数据段的LZW压缩程度获取最优数据段，根据最优数据段对金融清算字符序列进行压缩存储；

所述根据每种字符组合的频数获取目标分段标准下的数据段中所有频数为1的字符组合的压缩贡献度以及所有频数大于1的字符组合的压缩贡献度，包括的具体步骤如下：

其中，/>为目标分段标准下的数据段中所有频数为1的字符组合的压缩贡献度；为目标分段标准下的数据段中所有频数为1的字符组合的个数；

其中，/>为目标分段标准下的数据段中所有频数大于1的字符组合的压缩贡献度；/>为目标分段标准下的数据段中所有频数大于1的字符组合的个数；/>为目标分段标准下的数据段中第/>个频数大于1的字符组合的频数；

所述根据每种字符组合的频数获取目标分段标准的数据段的第一占比，根据第一占比获取目标分段标准的扩展第一占比差值序列，包括的具体步骤如下：

将作为目标分段标准下的数据段的第一占比；

获取目标分段标准的扩展第一占比序列中所有相邻两个数据的差值，构成目标分段标准的扩展第一占比差值序列；

所述根据目标分段标准的扩展第一占比差值序列的递增程度获取目标分段标准下的数据段中所有频数为1的字符组合的权重，以及所有频数大于1的字符组合的权重，包括的具体步骤如下：

其中，/>为目标分段标准下的数据段中所有频数为1的字符组合的权重；/>为目标分段标准的扩展第一占比差值序列的递增程度；/>为最大值函数；/>为预设的范围阈值/>的右边界，/>为预设的范围阈值/>的左边界；

其中，/>为目标分段标准下的数据段中所有频数大于1的字符组合的权重；/>为最小值函数；

所述获取目标分段标准下的数据段的LZW压缩程度，包括的具体步骤如下：

2.根据权利要求1所述的一种金融清算数据优化存储方法，其特征在于，所述根据金融清算字符序列获取目标分段标准下的数据段，包括的具体步骤如下：

3.根据权利要求1所述的一种金融清算数据优化存储方法，其特征在于，所述获取目标分段标准下的数据段的所有字符组合以及每种字符组合的频数，包括的具体步骤如下：

4.根据权利要求1所述的一种金融清算数据优化存储方法，其特征在于，所述获取目标分段标准的扩展第一占比差值序列的递增程度，包括的具体步骤如下：

5.根据权利要求1所述的一种金融清算数据优化存储方法，其特征在于，所述根据每个分段标准下的数据段的LZW压缩程度获取最优数据段，根据最优数据段对金融清算字符序列进行压缩存储，包括的具体步骤如下：

6.一种金融清算数据优化存储系统，包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-5任意一项所述方法的步骤。