CN117194490B - 基于人工智能的金融大数据存储查询方法 - Google Patents
基于人工智能的金融大数据存储查询方法 Download PDFInfo
- Publication number
- CN117194490B CN117194490B CN202311465846.8A CN202311465846A CN117194490B CN 117194490 B CN117194490 B CN 117194490B CN 202311465846 A CN202311465846 A CN 202311465846A CN 117194490 B CN117194490 B CN 117194490B
- Authority
- CN
- China
- Prior art keywords
- data
- string
- sub
- strings
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 11
- 238000013500 data storage Methods 0.000 title claims abstract description 11
- 238000012545 processing Methods 0.000 claims abstract description 20
- 238000007906 compression Methods 0.000 claims description 13
- 230000006835 compression Effects 0.000 claims description 13
- 230000008521 reorganization Effects 0.000 claims description 13
- 230000008859 change Effects 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000005215 recombination Methods 0.000 claims description 4
- 230000006798 recombination Effects 0.000 claims description 4
- 238000000638 solvent extraction Methods 0.000 claims description 3
- 241001632422 Radiola linoides Species 0.000 claims 1
- 230000000694 effects Effects 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 5
- 238000007405 data analysis Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000000903 blocking effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013144 data compression Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明涉及金融数据处理技术领域,具体涉及一种基于人工智能的金融大数据存储查询方法,包括:获取企业不同的交易数据表中不同类型的金融交易数据构建不同交易数据表的长字符串;根据每个子字符串的数据类型为每个子字符串添加校验码;根据每个长字符串中每个子字符串的校验码和长度对每个长字符串中的子字符串进行重组得到重组字符串;对重组字符串进行处理得到每个重组字符串的编码数据,根据每个重组字符串的编码数据中不同长度的编码数据的分布情况得到中每种编码数据的重要性指标;对每个重组字符串进行分块处理得到数据块,根据数据块对应的子字符串的校验码对所有数据块进行标记存储。本发明使得数据存储查询的效率更高。
Description
技术领域
本发明涉及金融数据处理技术领域,具体涉及一种基于人工智能的金融大数据存储查询方法。
背景技术
随着互联网的发展,数据的流通越来越频繁,在进行金融资产交易的过程中往往伴随着大量的金融资产数据,此类数据需要进行长期保存作为资产交易的凭证,如此便储蓄了大量的金融交易数据,在进行大数据分析时,预处理数据的难度极大,且储存所占空间较大,增添了不必要的成本与精力,因此,对金融大数据进行压缩分块存储就显得尤为重要。现有的常采用压缩编码算法对数据进行压缩处理后再存储,但是仅对数据进行压缩存储并未考虑数据中的重要性情况,使得后续对存储的数据进行查找过于繁琐。
发明内容
为了解决现有的压缩存储方法对存储的数据进行查找过于繁琐的技术问题,本发明的目的在于提供一种基于人工智能的金融大数据存储查询方法,所采用的技术方案具体如下:
获取企业不同的交易数据表中不同类型的金融交易数据构建不同交易数据表的长字符串,所述长字符串包括不同类型的子字符串;根据每个子字符串的数据类型为每个子字符串添加校验码;
根据每个长字符串中每个子字符串的校验码和长度对每个长字符串中的子字符串进行重组,得到每个长字符串对应的重组字符串;
利用压缩编码算法对重组字符串进行处理得到每个重组字符串的编码数据,根据每个重组字符串的编码数据中不同长度的编码数据的分布情况,得到每个重组字符串中每种编码数据的重要性指标;
根据所述重要性指标对每个重组字符串进行分块处理得到数据块,根据数据块对应的子字符串的校验码对所有数据块进行标记存储。
优选地,所述根据每个重组字符串的编码数据中不同长度的编码数据的分布情况,得到每个重组字符串中每种编码数据的重要性指标,具体包括:
对于重组字符串中任意一种长度的编码数据,根据编码数据在重组字符串中对应的字符出现的频次和编码数据长度、以及重组字符串对应的交易数据表的重要程度,得到编码数据的重要性指标。
优选地,所述编码数据的重要性指标的计算公式具体为:
;
其中,表示第i种长度的编码数据的重要性指标,/>表示第i种长度的编码数据的预设的调整系数,/>表示第i种长度的编码数据在重组字符串中对应的字符出现的频次,表示所有种长度的编码数据在重组字符串中对应的字符出现的频次的均值,/>表示第i种长度的编码数据的长度,/>表示所有种长度的编码数据的长度的均值,/>表示第i种长度的编码数据的重要性系数。
优选地,所述重要性系数的获取方法具体为:
根据编码数据所在的重组字符串对应的交易数据表的重要程度得到重要性系数,所述重要程度与重要性系数呈正相关关系。
优选地,所述长字符串具体包括:
将长字符串中数据类型为字母对应的字符串记为第一类型子字符串;将长字符串中数据类型为数字对应的字符串记为第二类型子字符串。
优选地,所述根据每个子字符串的数据类型为每个子字符串添加校验码,具体包括:
计算长字符串中子字符串为第一类型子字符串的数量占比得到第一占比,计算长字符串中子字符串为第二类型子字符串的数量占比得到第二占比;
若第一占比小于第二占比,则将所有第二类型子字符串的校验码设置为第一数值;
若第一占比大于第二占比,则将所有第一类型子字符串的校验码设置为第二数值。
优选地,所述根据每个长字符串中每个子字符串的校验码和长度对每个长字符串中的子字符串进行重组,得到每个长字符串对应的重组字符串,具体包括:
对于任意一个长字符串,将每个子字符串的校验码和对应的子字符串进行组合得到每个子字符串对应的校验字符串;
对于任意一个子字符串,将与该子字符串的校验字符串相同的子字符串进行组合得到组合字符串;
获取每个组合字符串中包含的子字符串的数量,将所有组合字符串按照所述数量从大到小的顺序进行排列组合,得到长字符串对应的重组字符串。
优选地,所述根据所述重要性指标对每个重组字符串进行分块处理,具体包括:
对于任意一个重组字符串,分别计算每种编码数据与其他种编码数据之间的重要性指标的差异,将所述差异小于预设的差异阈值对应的两种编码数据划分到同一个数据块中。
优选地,所述根据数据块对应的子字符串的校验码对所有数据块进行标记存储,具体包括:
对于任意一个数据块,若数据块内对应的第一类型子字符串的数量大于第二类型子字符串的数量,则将数据块的标记码设置为第一数值;若数据块内对应的第一类型子字符串的数量小于第二类型子字符串的数量,则将数据块的标记码设置为第二数值;并将数据块与对应的标记码进行存储。
优选地,所述利用压缩编码算法对重组字符串进行处理得到每个重组字符串的编码数据具体为:利用霍夫曼编码算法对重组字符串进行处理得到每个重组字符串的编码数据。
本发明实施例至少具有如下有益效果:
本发明首先基于不同的金融交易数据构建不同的交易数据表的长字符串,以便后续可以针对不同重要程度的金融交易数据进行不同程度的数据划分操作,并且通过对每个子字符串的数据类型进行分析为每个子字符串添加校验码,使得后续基于数据类型对数据进行存储查找时能够更加方便快捷。然后,根据每个长字符串中每个子字符串的校验码和长度对每个长字符串中的子字符串进行重组,获得重组字符串,通过分析校验码和字符串长度,对子字符串进行重组,使得对重组字符串进行编码时效果更佳,效率更快。进一步的,对每个重组字符串的编码数据中不同长度的编码数据的分布情况进行分析,获得每种编码数据的重要性指标,通过不同长度的编码数据的分布情况,对不同长度的编码数据的重要程度进行量化,重要性指标表征了编码数据的重要程度。最终对重组字符串进行分块处理获得数据块,在实现金融交易数据压缩的同时,实现了以金融交易数据的重要性为依据的数据分块处理,最后为每个数据块添加标记进行数据的存储,即每个分块数据每种不同重要程度的编码数据均存在对应的索引标记,使得数据存储查询的效率更高,效果更佳。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本发明的一种基于人工智能的金融大数据存储查询方法的方法流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种基于人工智能的金融大数据存储查询方法,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种基于人工智能的金融大数据存储查询方法的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种基于人工智能的金融大数据存储查询方法的方法流程图,该方法包括以下步骤:
步骤一,获取企业不同的交易数据表中不同类型的金融交易数据构建不同交易数据表的长字符串,所述长字符串包括不同类型的子字符串;根据每个子字符串的数据类型为每个子字符串添加校验码。
首先,获取金融交易数据,即通过数据库或者数据接口等形式获取金融交易数据,为公知技术,在此不再过多介绍,其中金融交易数据的形式主要包括文字数据形式和数字数据形式。在本实施例中,主要获取企业不同的交易数据表中的金融交易数据,具体包括,交易方、交易方式、交易金额以及交易单号等。其中,交易方和交易方式中大多为文字数据形式,交易金额和交易单号大多是数字数据形式。
由于金融交易数据中包含的数据类型不同,无法直接对其进行数据分析。同时,文字的组成数以万计,而对数字来说,其基本组成只有十个数字,因此直接利用压缩编码算法对原始数据进行处理的误差较大,且数据量庞大,压缩结果容易出现偏差。故在本实施例中,将获取到的金融交易数据中的文字数据和数字数据均转换为十进制字符串,其中将文字和数字转换为十进制字符串采用的是GBK编码集。每个文字为一位,对应一个十进制字符串,每个数字也为一位,也对应一个十进制字符串。
进一步的,将每个交易数据表对应的所有十进制字符串组合成的字符串记为长字符串,将每个十进制字符串记为子字符串,同时,将长字符串中数据类型为字母对应的字符串记为第一类型子字符串;将长字符串中数据类型为数字对应的字符串记为第二类型子字符串。
通过比较长字符串中不同数据类型的数据占比情况,为占比较少的数据类型对应的字符串添加校验位,其好处在于,使得整体数据量的变化较小,如果为占比较大的数据类型对应的字符串添加校验码,使得添加的数据较多,导致整体数据量增大,最终的数据压缩效果较不明显。
具体地,计算长字符串中子字符串为第一类型子字符串的数量占比得到第一占比,计算长字符串中子字符串为第二类型子字符串的数量占比得到第二占比。即计算长字符串中所有第一类型子字符串的数量与长字符串中包含的所有子字符串的数量之间的比值获得第一占比。计算长字符串中所有第二类型子字符串的数量与长字符串中包含的所有子字符串的数量之间的比值获得第二占比。若第一占比小于第二占比,则将所有第二类型子字符串的校验码设置为第一数值;若第一占比大于第二占比,则将所有第一类型子字符串的校验码设置为第二数值。在本实施例中,所述第一数值的取值为1,所述第二数值的取值为0,实施者可根据具体实施场景进行设置。
需要说明的是,在对金融交易数据进行数据转换后,原始数据中的文字信息和数字信息不容易被分辨。而对金融交易数据进行分析时,例如需要对总支出和总收入等金额数据近似计算分析,则需要从存储的数据中获取数字类型部分的压缩数据。若需要对交易市场进行分析,例如在哪家企业的交易成功率高,在哪个企业的交易次数多,则需要获取文字数据较多的部分。因此,添加校验码能够使得金融交易数据在进行数据转换后也能够快速获取文字类型的数据或者数字类型的数据,从而实现快速压缩存储查询。
步骤二,根据每个长字符串中每个子字符串的校验码和长度对每个长字符串中的子字符串进行重组,得到每个长字符串对应的重组字符串。
常用的压缩编码算法例如霍夫曼编码算法,是通过获取长字符串中每个字符出现的频次进行构建霍夫曼树,进而对每个字符进行编码,而本实施例中,为了区分文字类型数据和数字类型数据,额外为每个子字符串添加了检验码,同时,将一个子字符串作为单个字符获取其出现的频率,一定程度上缩短了编码后编码数据的长度,使得编码压缩效果更佳。
需要说明的是,在本实施例中,并非每个子字符串均存在校验码,但是在进行数据分析时,需要将存在校验码的子字符串与其对应的检验码进行组合,不存在校验码的子字符串则不进行组合,直接进行数据分析。
具体地,对于任意一个长字符串,将每个子字符串的校验码和对应的子字符串进行组合得到每个子字符串对应的校验字符串。在本实施例中,将校验码放置在对应子字符串的首位,获得对应的校验字符串。对于任意一个子字符串,将与该子字符串的校验字符串相同的子字符串进行组合得到组合字符串。
例如某个子字符串为20013,其对应的原始数据为文字“中”,若文字为占比较多的类型数据,则该子字符串的校验码为1,进而子字符串20013对应的校验字符为120013。若存在3个与校验字符串120013相同的字符串,则对应的组合字符串为200132001320013,进而说明子字符串20013出现的次数为3次。
获取每个组合字符串中包含的子字符串的数量,将所有组合字符串按照所述数量从大到小的顺序进行排列组合,得到长字符串对应的重组字符串。可以理解的是,每个组合字符串中包含的子字符串的数量即为对应子字符串出现的次数,并且每种子字符串仅对应一个组合字符串。
步骤三,利用压缩编码算法对重组字符串进行处理得到每个重组字符串的编码数据,根据每个重组字符串的编码数据中不同长度的编码数据的分布情况,得到每个重组字符串中每种编码数据的重要性指标。
在每个长字符串对应的重组字符串中,字符的频次顺序为排序依据,由大到小进行排列,利用压缩编码算法对重组字符串进行处理得到每个重组字符串的编码数据。在本实施例中,采用霍夫曼编码对重组字符串进行处理。在霍夫曼编码的过程中,对出现频次越高的数据采用越短的字符串进行编码,故最终的编码长度可以表征对应数据在所有字符串中出现的频次大小,同时,金融交易数据中数据的频次大小又能够体现金融交易数据的重要性程度。
当金融数据对应的子字符串,在被编码的金融数据对应的重组字符串中出现的频次越高,其具有交易信息较大的代表性,因此对应的重要程度越大,即对金融交易信息来说,相同的交易数据更能够代表金融交易的市场大趋势。
具体地,在某公司产品定位为某一具体数值时,其成交量、订单数量以及采购方中采购数量越大,采购次数越多,对应的时长趋势的分析更具有代表性,因此数据的重要程度越大。而当金融数据对应的子字符串出现的频次较低时,同样也具有市场分析价值,例如,市场趋势预测的数据价值,其更能够代表市场异常的情况,或者金融交易数据的异常情况,因此对应的数据的重要程度也越高。
基于此,对于每个重组字符串经过霍夫曼编码后的数据编码长度,较长与较短的数据的重要程度较高,长度位于中间的数据的重要程度相对较低,因此,最终的数据的重要程度与单个字符串的频率和编码长度有关。即根据每个重组字符串的编码数据中不同长度的编码数据的分布情况,得到每个重组字符串中每种编码数据的重要性指标。
具体地,对于重组字符串中任意一种长度的编码数据,根据编码数据在重组字符串中对应的字符出现的频次和编码数据长度、以及重组字符串对应的交易数据表的重要程度,得到编码数据的重要性指标。
需要说明的是,本实施例以每个子字符串为单个字符进行编码处理,进而不同种的子字符串具有不同的编码数据长度,每种子字符串均对应一个经霍夫曼编码后的编码数据。在本实施例中,以任意一个重组字符串中,以任意一种子字符串对应的编码数据为例进行说明,则编码数据的重要性指标的计算公式可以表示为:
;
其中,表示第i种长度的编码数据的重要性指标,也即是第i种子字符串对应的编码数据的重要性指标,/>表示第i种长度的编码数据的预设的调整系数,/>表示第i种长度的编码数据在重组字符串中对应的字符出现的频次,/>表示所有种长度的编码数据在重组字符串中对应的字符出现的频次的均值,/>表示第i种长度的编码数据的长度,/>表示所有种长度的编码数据的长度的均值,/>表示第i种长度的编码数据的重要性系数。
调整系数表征了对应重要程度变化率进行控制的系数,重要程度变化率即数据对应的子字符串出现的频次变化与对应的编码长度变化相对于数据重要程度的变化幅度,在本实施例中调整系数的取值为1,实施者可根据具体实施场景进行设置。
重要性系数表征了编码数据对应的交易数据表的重要程度,即根据编码数据所在的重组字符串对应的交易数据表的重要程度得到重要性系数,所述重要程度与重要性系数呈正相关关系。编码数据对应的原始数据所在的交易数据表越重要,对应的重要性系数的取值越大,在本实施例中,重要性系数的取值为2。
例如,存在n张交易数据表需要被压缩编码后进行存储,其中交易数据表的重要程度不同,某张交易数据表仅是简单的基础货物交易,其重要程度较低,可以将其对应的重要性系数设置为0.5。而某张交易数据表中涉及到企业的高级产品交易,其重要程度较高,可以将其对应的重要性系数设置为8,实施者可根据具体实施场景进行设置。
字符出现的频次的取值越大,/>编码数据的长度越长,对应的编码数据的重要性越大,重要性指标的取值越大。而出现频次高且编码长度短的编码数据、出现频次低且编码长度长的编码数据对应的重要性较为接近,这两种情况下的数据重要程度相较于出现频次和编码长度位于中间的数据重要程度高。
最终的重要程度的趋势近似于二元一次函数的曲线形式,将每种子字符串对应的编码数据的频次与编码长度对应的乘积比值作为自变量,构建函数表达式,对编码数据的重要性指标进行量化。重要性指标表征了编码数据对应的子字符串的重要程度,重要性指标的取值越大,编码数据对应的子字符串的重要程度越大。重要性指标的取值越小,编码数据对应的子字符串的重要程度越小。
步骤四,根据所述重要性指标对每个重组字符串进行分块处理得到数据块,根据数据块对应的子字符串的校验码对所有数据块进行标记存储。
重要性指标表征了每个重组字符串中对应的每个编码数据的重要程度,根据不同的重要程度将不同的编码数据划分到不同的数据块中,能够使得不同重要程度的数据进行分类保存,同时对其进行标记,使得后续进行存储查找时更加方便快捷。
基于此,根据所述重要性指标对每个重组字符串进行分块处理得到数据块。具体地,对于任意一个重组字符串,分别计算每种编码数据与其他种编码数据之间的重要性指标的差异,将所述差异小于预设的差异阈值对应的两种编码数据划分到同一个数据块中。
在本实施例中,将两种编码数据对应的重要性指标之间的差值绝对值作为对应的差异,差异阈值的取值为30,实施者可根据具体实施场景进行设置。即以重要性指标的最小值为起始值,将差异小于差异阈值K对应的编码数据划分到同一个数据块中。再以剩余的数据中重要性指标的最小值为起始值,将与其之间的差异小于差异阈值K的编码数据划分到同一个数据块中,以此类推,完成所有编码数据的数据分块处理操作。
按照上述数据分块方法,每个数据块的重要性指标的取值范围依次为,为第一个数据块中编码数据的重要性指标的取值范围,为第二个数据块中编码数据的重要性指标的取值范围,为第三个数据块中编码数据的重要性指标的取值范围,以此类推,直至所有编码数据均被划分后停止。其中,/>表示所有编码数据的重要性指标的最小值,K为差异阈值。
最后,对于划分完成的数据块,需要对其进行标记存储,即数据块中可能存在文字类型数据也可能存在数字类型的数据,进而根据数据块中编码数据对应的原始子字符串的校验码即可获得其对应的数据类型,进而进行标记存储,有利于后续数据的存储查询。
基于此,根据数据块对应的子字符串的校验码对所有数据块进行标记存储。具体地,对于任意一个数据块,若数据块内对应的第一类型子字符串的数量大于第二类型子字符串的数量,则将数据块的标记码设置为第一数值;若数据块内对应的第一类型子字符串的数量小于第二类型子字符串的数量,则将数据块的标记码设置为第二数值;并将数据块与对应的标记码进行存储。
需要说明的是,当数据块内对应的第一类型子字符串的数据与第二类型子字符串的数量相等时,说明数据块内两者的占比相同,此时实施者可根据实际情况为对应的数据块的标记码设置一个第三数值,以标记数据块中的数据类型情况。在其他实施例中,实施者也可以将占比相同的数据块的标记码设置为第一数值或者第二数值,实施者可根据具体实施场景进行设置。
在数据块内编码数据对应的所有子字符串中,当属于文字类型的数据占比较大时,则对该数据块标记与第一类型子字符串的校验码相同的数值,在本实施例中取值为1。当属于数字类型的数据占比较大时,则对该数据块标记与第二类型子字符串的校验码相同的数值,在本实施例中的取值为0。由此可以通过查询标记快速定位数字或者文字数据,使得压缩存储查询的效率较高。
需要说明的是,最终的编码数据可以通过重要性程度以及标记码的数值数进行快速定位数字数据较多还是文字数据较多的数据块。因为在不同场景下,对于文字数据和数字数据的需求不同,比如总支出,总收入等金额数据进行计算,则需要优先获取带有数字较多的数据块,而如果进行市场分析,比如在哪家公司的交易成功率高,哪个公司的交易次数多时,则需要优先获取文字数据较多的数据块,使得压缩存储查询的效率较高,效果更佳。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围,均应包含在本申请的保护范围之内。
Claims (2)
1.一种基于人工智能的金融大数据存储查询方法,其特征在于,该方法包括以下步骤:
获取企业不同的交易数据表中不同类型的金融交易数据构建不同交易数据表的长字符串,所述长字符串包括不同类型的子字符串;根据每个子字符串的数据类型为每个子字符串添加校验码;
根据每个长字符串中每个子字符串的校验码和长度对每个长字符串中的子字符串进行重组,得到每个长字符串对应的重组字符串;
利用压缩编码算法对重组字符串进行处理,得到每个重组字符串的编码数据,根据每个重组字符串的编码数据中不同长度的子字符串的编码数据的分布情况,得到每个重组字符串中子字符串的每种编码数据的重要性指标;
根据所述重要性指标对每个重组字符串的子字符串进行分块处理得到数据块,根据数据块对应的子字符串的校验码对所有数据块进行标记存储;
所述根据每个重组字符串的编码数据中不同长度的子字符串的编码数据的分布情况,得到每个重组字符串的子字符串的每种编码数据的重要性指标,具体包括:
对于重组字符串中的子字符串的任意一种长度的编码数据,根据子字符串的编码数据在重组字符串中对应的字符出现的频次和编码数据长度、以及重组字符串对应的交易数据表的重要程度,得到子字符串的编码数据的重要性指标;
所述子字符串的编码数据的重要性指标的计算公式具体为:
;
其中,表示第i种长度的编码数据的重要性指标,即第i种子字符串对应的编码数据的重要性指标;/>表示第i种长度的编码数据的预设的调整系数,即第i种子字符串对应的编码数据的预设的调整系数;/>表示第i种长度的编码数据在重组字符串中对应的字符出现的频次,即第i种子字符串对应的编码数据在重组字符串中对应的字符出现的频次;/>表示所有种长度的编码数据在重组字符串中对应的字符出现的频次的均值,即所有种子字符串对应的编码数据在重组字符串中对应的字符出现的频次的均值;/>表示第i种长度的编码数据的长度,即第i种子字符串对应的编码数据的长度;/>表示所有种长度的编码数据的长度的均值,即所有种子字符串对应的编码数据的长度的均值;/>表示第i种长度的编码数据的重要性系数,即第i种子字符串对应的编码数据的重要性系数;调整系数/>表征了对应重要程度变化率进行控制的系数,重要程度变化率即数据对应的子字符串出现的频次变化与对应的编码长度变化相对于数据重要程度的变化幅度;
所述重要性系数的获取方法具体为:
根据编码数据所在的重组字符串对应的交易数据表的重要程度得到重要性系数,所述重要程度与重要性系数呈正相关关系;
所述长字符串具体包括:
将长字符串中数据类型为字母对应的字符串记为第一类型子字符串;将长字符串中数据类型为数字对应的字符串记为第二类型子字符串;
所述根据每个子字符串的数据类型为每个子字符串添加校验码,具体包括:
计算长字符串中子字符串为第一类型子字符串的数量占比得到第一占比,计算长字符串中子字符串为第二类型子字符串的数量占比得到第二占比;
若第一占比小于第二占比,则将所有第二类型子字符串的校验码设置为第一数值;
若第一占比大于第二占比,则将所有第一类型子字符串的校验码设置为第二数值;
所述根据每个长字符串中每个子字符串的校验码和长度对每个长字符串中的子字符串进行重组,得到每个长字符串对应的重组字符串,具体包括:
对于任意一个长字符串,将每个子字符串的校验码和对应的子字符串进行组合得到每个子字符串对应的校验字符串;
对于任意一个子字符串,将与该子字符串的校验字符串相同的子字符串进行组合得到组合字符串;
获取每个组合字符串中包含的子字符串的数量,将所有组合字符串按照所述数量从大到小的顺序进行排列组合,得到长字符串对应的重组字符串;
所述根据所述重要性指标对每个重组字符串进行分块处理,具体包括:
对于任意一个重组字符串,分别计算子字符串的每种编码数据与子字符串的其他种编码数据之间的重要性指标的差异,将所述差异小于预设的差异阈值对应的两种子字符串的编码数据划分到同一个数据块中;
所述根据数据块对应的子字符串的校验码对所有数据块进行标记存储,具体包括:
对于任意一个数据块,若数据块内对应的第一类型子字符串的数量大于第二类型子字符串的数量,则将数据块的标记码设置为第一数值;若数据块内对应的第一类型子字符串的数量小于第二类型子字符串的数量,则将数据块的标记码设置为第二数值;并将数据块与对应的标记码进行存储。
2.根据权利要求1所述的一种基于人工智能的金融大数据存储查询方法,其特征在于,所述利用压缩编码算法对重组字符串进行处理,得到每个重组字符串的编码数据具体为:利用霍夫曼编码算法对重组字符串进行处理,得到每个重组字符串的编码数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311465846.8A CN117194490B (zh) | 2023-11-07 | 2023-11-07 | 基于人工智能的金融大数据存储查询方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311465846.8A CN117194490B (zh) | 2023-11-07 | 2023-11-07 | 基于人工智能的金融大数据存储查询方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117194490A CN117194490A (zh) | 2023-12-08 |
CN117194490B true CN117194490B (zh) | 2024-04-05 |
Family
ID=88998323
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311465846.8A Active CN117194490B (zh) | 2023-11-07 | 2023-11-07 | 基于人工智能的金融大数据存储查询方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117194490B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104160394A (zh) * | 2011-12-23 | 2014-11-19 | 阿米亚托股份有限公司 | 用于半结构化数据的可缩放分析平台 |
CN111522791A (zh) * | 2020-04-30 | 2020-08-11 | 电子科技大学 | 一种分布式文件重复数据删除系统及方法 |
CN114422531A (zh) * | 2022-03-11 | 2022-04-29 | 深圳市金政软件技术有限公司 | 数据同步方法、系统、设备及存储介质 |
CN115964457A (zh) * | 2021-10-13 | 2023-04-14 | 中核核电运行管理有限公司 | 一种文档字符串编码模糊匹配方法 |
CN116611032A (zh) * | 2023-05-17 | 2023-08-18 | 厦门市美亚柏科信息股份有限公司 | 一种jar包中嵌入和提取软件水印的方法、系统和存储介质 |
-
2023
- 2023-11-07 CN CN202311465846.8A patent/CN117194490B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104160394A (zh) * | 2011-12-23 | 2014-11-19 | 阿米亚托股份有限公司 | 用于半结构化数据的可缩放分析平台 |
CN111522791A (zh) * | 2020-04-30 | 2020-08-11 | 电子科技大学 | 一种分布式文件重复数据删除系统及方法 |
CN115964457A (zh) * | 2021-10-13 | 2023-04-14 | 中核核电运行管理有限公司 | 一种文档字符串编码模糊匹配方法 |
CN114422531A (zh) * | 2022-03-11 | 2022-04-29 | 深圳市金政软件技术有限公司 | 数据同步方法、系统、设备及存储介质 |
CN116611032A (zh) * | 2023-05-17 | 2023-08-18 | 厦门市美亚柏科信息股份有限公司 | 一种jar包中嵌入和提取软件水印的方法、系统和存储介质 |
Non-Patent Citations (1)
Title |
---|
Quantum Resources Required to Block-Encode a Matrix of Classical Data;B. David Clader等;《arXiv:2206.03505v1》;正文第1-31页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117194490A (zh) | 2023-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101049699B1 (ko) | 데이터의 압축방법 | |
US20100281079A1 (en) | Compression analyzer | |
US8312026B2 (en) | Compressing massive relational data | |
JP7006966B2 (ja) | ベクトル量子化の混合に基づく符号化方法及びこれを用いた最近傍探索(nns)方法 | |
CN115543946B (zh) | 一种金融大数据优化存储方法 | |
CN117290364B (zh) | 一种市场调查数据智能存储方法 | |
CN116016606B (zh) | 一种基于智慧云的污水处理运维数据高效管理系统 | |
CN115204754A (zh) | 一种基于大数据的热力供需信息管理平台 | |
Gao et al. | Squish: Near-optimal compression for archival of relational datasets | |
US20230045121A1 (en) | Double-pass lempel-ziv data compression with automatic selection of static encoding trees and prefix dictionaries | |
CN108319714A (zh) | 一种基于HBase的列存储压缩方法 | |
Rahman et al. | A novel lossless coding technique for image compression | |
CN117194490B (zh) | 基于人工智能的金融大数据存储查询方法 | |
CN115964347B (zh) | 一种市场监管监测中心数据的智能存储方法 | |
CN117278055A (zh) | 基于数据分析的车辆销售信息优化存储方法 | |
US9235610B2 (en) | Short string compression | |
CN112506876B (zh) | 一种支持sql查询的无损压缩查询方法 | |
US8918374B1 (en) | Compression of relational table data files | |
CN114095035A (zh) | 一种依托云字典基于字节的无损压缩方法 | |
WO2009001174A1 (en) | System and method for data compression and storage allowing fast retrieval | |
CN115088038A (zh) | 基于新上下文的经比对的测序数据中的改进质量值压缩框架 | |
CN117560016B (zh) | 基于大数据的高校招聘信息管理方法 | |
CN116405037B (zh) | 一种面向天文星表的压缩预处理编码器、应用 | |
CN117273764B (zh) | 一种电子雾化器防伪管理方法及系统 | |
CN117278056B (zh) | 一种社保信息处理方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |