CN116318173A - 一种金融融资服务数字智能管理系统 - Google Patents
一种金融融资服务数字智能管理系统 Download PDFInfo
- Publication number
- CN116318173A CN116318173A CN202310518599.7A CN202310518599A CN116318173A CN 116318173 A CN116318173 A CN 116318173A CN 202310518599 A CN202310518599 A CN 202310518599A CN 116318173 A CN116318173 A CN 116318173A
- Authority
- CN
- China
- Prior art keywords
- character
- frequency
- financial
- codes
- code
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000007726 management method Methods 0.000 claims abstract description 19
- 238000000034 method Methods 0.000 claims abstract description 16
- 238000013144 data compression Methods 0.000 claims abstract description 12
- 238000009826 distribution Methods 0.000 claims abstract description 10
- 235000008694 Humulus lupulus Nutrition 0.000 claims description 10
- 238000013523 data management Methods 0.000 claims description 4
- 238000007906 compression Methods 0.000 abstract description 6
- 230000006835 compression Effects 0.000 abstract description 6
- 238000013500 data storage Methods 0.000 abstract description 2
- 238000003860 storage Methods 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 14
- 238000003672 processing method Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000009825 accumulation Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/40—Conversion to or from variable length codes, e.g. Shannon-Fano code, Huffman code, Morse code
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9027—Trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Finance (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明涉及数据压缩存储领域,具体涉及一种金融融资服务数字智能管理系统,该系统包括:金融数据采集模块、优选编码获取模块、组合字符统计模块、最优编码获取模块、金融数据压缩模块、金融数据管理模块,获取金融字符数据,构建空霍夫树,获取空霍夫树中的二型父节点,进而得到基础霍夫曼树,获取频数在基础霍夫曼树中的节点对应的编码作为候选编码,根据候选编码获取频数的优选编码,将频数的优选编码分配给字符,获取所有分配方式,根据组合字符的频数获取每种分配方式的整体复杂度,进而得到每种字符的最优编码,对金融字符数据进行两次压缩。本发明首次压缩的结果冗余度高,进行重压缩的效率更高,减少了金融字符数据的存储成本。
Description
技术领域
本发明涉及数据压缩存储领域,具体涉及一种金融融资服务数字智能管理系统。
背景技术
近年来,伴随着金融科技的快速发展,金融行业通过借鉴同业的系统架构结合自身的发展现状,也构建出了销售系统、运营管理系统、投研系统、以及信息管理系统的完整金融融资服务架构体系,为金融融资业务提供了强有力的技术支撑。金融融资服务架构需要对全域数据的采集,并存储至云端,配合业务人员进行数据分析。
随着数据量的增大,对采集到的数据存储至云端所需要的成本也越来越大,因此需要对采集到的数据进行压缩以便减少存储至云端的成本。现有的无损压缩技术霍夫曼编码,在对数据进行压缩时,对于其中等概出现的数据的处理手段是随机相加,无法达到编码后的冗余度最大化,进行重压缩的效果不理想。
发明内容
为了解决上述问题,本发明提供一种金融融资服务数字智能管理系统,所述系统包括:
金融数据采集模块,获取金融字符数据,统计金融字符数据中每种字符的频数,构建字符频数表;
优选编码获取模块,根据每种字符的频数构建空霍夫树;对空霍夫曼树中每个父节点进行分类,得到二型父节点;对空霍夫曼树进行深度遍历,在遍历每个分支时,当遇到二型父节点时,停止当前分支的遍历,进行下个分支的遍历,将遍历到的所有节点构成的霍夫曼树作为基础霍夫曼树;将字符频数表中所有种频数按照从大到小的顺序进行排序,得到频数序列;
获取每种频数的优选编码,包括:
S1:将频数序列中第一个频数作为目标频数;
S2:获取目标频数在基础霍夫曼树中对应的所有节点的编码,作为目标频数的候选编码,根据目标频数在字符频数表中的个数以及候选编码的个数获取目标频数的优选编码;
S3:根据优选编码获取新的基础霍夫曼树;
S4:将频数序列中下一个频数作为新的目标频数;
S5、重复S2-S4,直到频数序列中所有频数均已遍历时停止迭代;
组合字符统计模块,构建组合字符频数表;
最优编码获取模块,将频数的优选编码不放回的分配给频数对应的每种字符,得到所有分配方式;根据组合字符频数表计算每种分配方式下的整体复杂度;根据整体复杂度获取每种字符的最优编码;
金融数据压缩模块,根据每种字符的最优编码对金融字符数据进行压缩,得到第二压缩数据;
金融数据管理模块,对第二压缩数据进行存储以及解压。
优选的,所述根据每种字符的频数构建空霍夫树,包括的步骤为:
根据所有种字符的频数构建一个霍夫曼树,构建霍夫曼树时仅考虑频数,不考虑频数所对应的字符,构建的霍夫曼树中每个叶节点均不分配字符,将构建的霍夫曼树作为空霍夫曼树。
优选的,所述对空霍夫曼树中每个父节点进行分类,得到二型父节点,包括的步骤为:
将空霍夫曼树中任意一个父节点作为目标父节点,获取与目标父节点属于同一父节点的子节点,作为判断节点,若判断节点为父节点,将目标父节点作为一型父节点;若判断节点为叶节点,将目标父节点作为二型父节点。
优选的,所述根据目标频数在字符频数表中的个数以及候选编码的个数获取目标频数的优选编码,包括的步骤为:
优选的,所述根据优选编码获取新的基础霍夫曼树,包括的步骤为:
将优选编码对应的节点作为叶节点,将优选编码以外的候选编码对应的节点作为父节点,对父节点向下划分,得到新的基础霍夫曼树。
优选的,所述构建组合字符频数表,包括的步骤为:
将金融字符数据中每相邻两个字符组成的字符串作为一个组合字符,统计金融字符数据中每种组合字符的频数,构建组合字符频数表。
优选的,所述根据组合字符频数表计算每种分配方式下的整体复杂度,包括的步骤为:
其中为第t种分配方式下的整体复杂度;/>为第j种组合字符在第t种分配方式下对应的编码的长度,/>为第j种组合字符在第t种分配方式下对应的编码的跳变数;/>为第j种组合字符的频数;w为组合字符的种类数。
优选的,所述根据整体复杂度获取每种字符的最优编码,包括的步骤为:
选择整体复杂度最小的分配方式作为最优分配方式,将最优分配方式下每种字符的优选编码作为每种字符的最优编码。
优选的,所述根据每种字符的最优编码对金融字符数据进行压缩,得到第二压缩数据,包括的步骤为:
利用每种字符的最优编码对金融字符数据进行压缩,得到第一压缩数据;对第一压缩数据进行游程编码,得到第二压缩数据。
本发明具有如下有益效果:本发明根据霍夫编码过程中不同频数对应的不同编码的复杂度,来自适应调整等概率出现的数据的累加顺序,获取每种频数的优选编码,使得出现频数大的字符的编码的冗余度最大化,进行重压缩的效率更高;本发明结合每种组合字符的频数来获取组合字符中每种字符的最优编码,确保频数大的字符的最优编码冗余度大的同时使得字符组合出现时编码的冗余度也较大,使得最终的编码结果的整体冗余度达到最大,对最终的编码结果进行重压缩时效果更好;传统的霍夫曼编码在对数据进行压缩时,对于等概出现的数据的处理手段是随机相加,无法达到编码后的冗余度最大化,进行重压缩的效果不理想,本发明相较于传统的霍夫曼编码,编码后的冗余度可达到最大化,进行重压缩时效果更好,减少了金融字符数据的存储至云端的成本。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明一个实施例提供的一种金融融资服务数字智能管理系统的系统框图;
图2为本发明的一个空霍夫曼树;
图3为本发明的另一个空霍夫曼树;
图4为本发明的父节点类型示意图;
图5为本发明的空霍夫曼树遍历示意图;
图6为本发明的基础霍夫曼树;
图7为本发明的父节点划分示意图;
图8为本发明的最优空霍夫曼树;
图9为本发明的最优霍夫曼树。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种金融融资服务数字智能管理系统,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构、或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种金融融资服务数字智能管理系统的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种金融融资服务数字智能管理系统,该系统包括以下模块:
金融数据采集模块S101,采集金融数据,获取金融数据的字符频数表。
获取金融融资服务架构中需要存储至云端的数据,记为金融数据。
需要说明的是,为了减少存储至云端的成本,需要对金融数据进行压缩。金融数据包含多种数据类型,为了实现对金融数据的统一压缩,需要将进入数据编码成统一的数据格式。
在本发明实施例中,若金融数据仅包含字符类型的数据,则对金融数据不进行编码,将金融数据称为金融字符数据。若金融数据还包含其他类型的数据,则先将金融数据编码成二进制数据,再利用ASCII码对二进制数据进行解码,实现将金融数据转换为字符类型的数据,将经过ASCII码解码得到的数据称为金融字符数据。
统计金融字符数据中每种字符出现的频数,构建字符频数表。例如金融字符数据为“data compression processing method based on big data”时,金融字符数据中出现的字符包括{d,a,t,c,o,m,p,r,e,s,i,n,g,h,b,空字符},其中空字符即为“datacompression processing method based on big data”中的空格,此时金融字符数据对应的字符频数表参见表1。
表1字符频数表
数据 | h | b | c | g | m | p | r | i |
频数 | 1 | 2 | 2 | 2 | 2 | 2 | 2 | 3 |
数据 | n | t | d | e | a | o | s | 空字符 |
频数 | 3 | 3 | 4 | 4 | 5 | 5 | 5 | 7 |
至此,获取了字符频数表。
优选编码获取模块S102,获取每种频数的优选编码。
需要说明的是,现有的霍夫曼编码是基于数据中字符的频数来进行编码的,在对数据进行压缩的过程中,通过迭代选择最小的两个频数相加来构建霍夫曼树,但若最小的频数有多个时,则随机选择其中两个最小的频数。而随机选择的机制使得霍夫曼编码的结果无法保证冗余度最大化,对霍夫曼编码的结果进行重压缩的效果不理想,压缩效果无法达到最优。因此本发明实施例根据霍夫编码过程中不同频数对应的不同编码的复杂度,来自适应调整等概率出现的数据的累加顺序,使得霍夫曼编码的结果冗余度最大化,以便后续再利用游程编码对霍夫曼编码的结果进行重压缩时,重压缩的效果能达到最优。
在本发明实施例中,根据所有种字符的频数构建一个霍夫曼树,构建霍夫曼树时仅考虑频数,不考虑频数所对应的字符,即构建的霍夫曼树中每个叶节点均不分配字符。将构建的霍夫曼树作为空霍夫曼树。
需要说明的是,由于霍夫曼编码中对于相同的频数随机选择的机制,使得构建出的霍夫曼树可能有多种情况,同一个频数在不同的空霍夫曼树中对应的编码不同。例如对金融字符数据“data compression processing method based on big data”构建的一个空霍夫曼树如图2所示,图2中灰色的节点为叶节点,在本发明实施例的其他附图中灰色的节点均为叶节点,另一个空霍夫曼树如图3所示。对图2的空霍夫曼中的两个分支进行框选,且对图3的空霍夫曼树中的两个分支进行框选。图2的分支1与图3的分支1对应,图2的分支2和图3的分支2对应。图2的分支1中,频数1对应的编码为111110,频数2对应的编码为111111、11110,分支2中频数5对应的编码为010。而在图3的分支2中,频数1对应的编码为01010,频数2对应的编码为0100、01011,分支1中频数5对应的编码为1111。在此两个空霍夫曼树中,相同频数对应的编码的冗余度不同。因此需要根据空霍夫曼树中的节点对应的编码自适应获取每个频数对应的优选编码,使得每个频数对应的字符的编码整体冗余度最大。在本发明实施例中仅构建一个空霍夫曼树,此处举例构建了两个空霍夫曼树,仅为说明同一个频数在不同的空霍夫曼树中对应的编码不同,实施人员在具体实施时,仅需构建一个空霍夫曼树。
需要进一步说明的是,可根据金融字符数据的所有空霍夫曼树中每个频数对应的编码中0、1跳变的次数来获取每个空霍夫曼树对应的复杂程度,从而筛选出最优的空霍夫曼树,得到每个频数的优选编码。但由于金融字符数据中所有种字符的频数分布无规律,对应的空霍夫曼树可能有较多种,构建金融字符数据的所有霍夫曼树可能会花费较多的时间和空间资源,效率较低。因此本发明实施例仅根据一个空霍夫曼树获取每个频数的优选编码。而依据相同的数据构建的不同的空霍夫曼树中,较浅层的节点是保持不变的,例如图2所示的空霍夫曼树中与图3所示的空霍夫曼树中的较浅层节点是相同的。
在本发明实施例中,将空霍夫曼树中任意一个父节点作为目标父节点,对目标父节点进行判断:获取与目标父节点属于同一父节点的子节点,作为判断节点,若判断节点为父节点,将目标父节点作为一型父节点,若判断节点为叶节点,将目标父节点作为二型父节点。
同理,对空霍夫曼树中每个父节点进行判断,将所有的父节点分为一型父节点以及二型父节点。例如对图2所示的空霍夫曼树的父节点的判断结果参见图4。
对空霍夫曼树进行深度遍历,在遍历每个分支时,当遇到二型父节点时,则停止该分支的遍历,进行下个分支的遍历。将遍历到的所有节点构成的霍夫曼树作为基础霍夫曼树。对图2所示的空霍夫曼树进行遍历的过程参见图5,得到的基础霍夫曼树参见图6。
需要说明的是,基础霍夫曼树为金融字符数据的所有空霍夫曼树中相同的节点对应的树。由于部分频数在基础霍夫曼树中对应多个节点,为了确保频数对应的编码的冗余效果最好,需要对频数在基础霍夫曼树中对应的节点的编码进行复杂度判断,选择复杂度最低的编码对应的节点作为频数的节点,选择复杂度最低的编码作为频数的优选编码。当频数越大时,该频数对应的字符在金融字符数据中出现的次数越多,当该频数对应的编码冗余效果越好时,对于金融字符数据的整体压缩结果的冗余度提升越大,此时越应该考虑该频数的对应的编码的冗余效果。因此,可按照频数从大到小的方式依次获取每个频数的优选编码。
在本发明实施例中,获取每个频数的优选编码的具体方法为:
1、将字符频数表中相同的频数视为一种频数,对所有种频数按照从大到小的顺序进行排序,得到频数序列,将频数序列中第一个频数作为目标频数。例如表2的字符频数表中所有种频数构成的频数序列为{7,5,4,3,2,1}。
2、获取目标频数在基础霍夫曼树中对应的所有节点的编码,作为目标频数的候选编码。当目标频数在字符频数表中的个数与候选编码的个数/>相同时,将所有候选编码作为目标频数的优选编码。当目标频数在字符频数表中的个数/>小于候选编码的个数/>时,计算每个候选编码的复杂度:
其中表示第/>个候选编码的复杂度;/>表示第/>个候选编码的长度;/>表示第个候选编码的跳变数,第/>个候选编码的跳变数的具体获取方法为,将第/>个候选编码中01视作一次跳变,01视作一次跳变,则第/>个候选编码的跳变数为编码中01、10出现的总次数。当跳变数越大时,第/>个候选编码的冗余度越小,复杂度越大,反之,当跳变数越小时,第个候选编码的冗余度越大,复杂度越小。
将复杂度最小的个候选编码作为目标频数的优选编码。例如目标频数为7时,表2中频数7出现的个数为1,图6的基础霍夫曼树频数7对应的节点有两个,此时候选编码有两个,分别为101和100,101的复杂度为2/3,100的复杂度为1/3,因此将100作为目标频数7的优选编码。
3、将优选编码对应的节点作为叶节点,将优选编码以外的候选编码对应的节点作为父节点,并向下划分,将得到的树作为新的基础霍夫曼树。例如图6中选择第二个频数为7的节点作为叶节点,选择第一个频数为7的节点作为父节点,对父节点向下划分的结果参见图7。
4、将频数序列中目标频数的下一个频数作为新的目标频数。
5、重复步骤2-4,直到频数序列中所有频数均已遍历时停止迭代。
将最终的基础霍夫曼树作为最优空霍夫曼树,金融字符数据“data compressionprocessing method based on big data”对应的最优空霍夫曼树参见图8。
至此,得到了频数序列中每个频数的优选编码。例如表2的对应的频数序列{7,5,4,3,2,1}中每个频数的优选编码为,7:100;5:1111、001、000;3:1110、1100;3:0111、0110、1010;2:11011、10111、11010、10110、01011、0100;1:01010。
组合字符统计模块S103,获取金融数据的组合字符频数表。
在本发明实施例中,优选编码获取模块获得的每种频数的优选编码可能有多个,并且仅考虑了单个字符的编码的冗余度,未考虑多个字符组合出现时的冗余度。因此还需要获取金融字符数据中的组合字符以及组合字符的频数。以便后续根据组合字符的频数为单个字符筛选出最优编码,使得单个字符的最优编码冗余度大的同时金融字符数据的霍夫曼编码的整体的冗余度也很大。
在本发明实施例中,将金融字符数据中每相邻两个字符组成的字符串作为一个组合字符,将相同的组合字符视作一种组合字符,统计金融字符数据中每种组合字符出现的次数,作为每种组合字符的频数。根据每种组合字符的频数构建组合字符频数表。例如金融字符数据为“data compression processing method based on big data”时,组合字符频数表参见表2,表2中的“空”表示空字符,观察表2可知,存在多种组合的频数相同。
表2 组合字符频数表
组合字符 | da | at | ta | pr | es | ss | si | on | n空 | g空 | d空 | 空b | a空 |
频数 | 2 | 2 | 2 | 2 | 2 | 2 | 2 | 2 | 2 | 2 | 2 | 2 | 1 |
组合字符 | 空c | co | om | mp | re | io | 空p | ro | oc | ce | in | ng | 空m |
频数 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 |
组合字符 | me | et | th | ho | od | ba | as | se | ed | 空o | bi | ig | 空d |
频数 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 |
至此,获取了组合字符频数表。
最优编码获取模块S104,根据每种频数的优选编码以及组合字符频数表获取每种字符的最优编码。
需要说明的是,对于每种频数,其有多个优选编码,较大的频数的优选编码的冗余度较大,但优选编码仅能体现单个字符的冗余度,无法体现出金融字符数据中多个字符组合出现时的冗余度。因此可结合每种组合字符的频数来获取组合字符中每种字符的最优编码,确保频数大的字符的最优编码冗余度大的同时使得字符组合出现时编码的冗余度也较大,从而使得后续根据编码结果进行重压缩时效果更好。
在本发明实施例中,每种频数的优选编码有多个,且优选编码的个数等于每种频数对应的字符的种类数,因此将每种频数的优选编码不放回的分配给每种频数对应的每种字符,使得每种字符对应一个优选编码,则有多个分配方式。获取所有的分配方式,计算每种分配方式下的整体复杂度:
其中为第t种分配方式下的整体复杂度;/>为第j种组合字符在第t种分配方式下对应的编码的长度,/>为第j种组合字符在第t种分配方式下对应的编码的跳变数;/>为第j种组合字符的频数;w为组合字符的种类数;当组合字符的频数越大,该组合字符越重要,则越应该关注该组合字符的编码的冗余度,反之,当组合字符的频数越小,该组合字符越不重要,则越不需要关注该组合字符的编码的冗余度,因此本发明实施例将组合字符的频数乘以/>。
需要说明的是,第j种组合字符在第t种分配方式下对应的编码为第j种组合字符包含的两种字符在第t种分配方式下的编码组成。
选择整体复杂度最小的分配方式作为最优分配方式,将最优分配方式下每种字符的优选编码作为每种字符的最优编码。将每种字符分配给其最优编码在最优空霍夫曼树中对应的节点,得到最终的霍夫曼树,记为最优霍夫曼树,金融字符数据“data compressionprocessing method based on big data”中每种字符的最优编码参见表3,对应的最优霍夫曼树参见图9。
表3最优编码
字符 | 空格 | a | o | s | d | e | i | n |
最优编码 | 100 | 000 | 001 | 1111 | 1110 | 1100 | 1010 | 0110 |
字符 | t | p | r | g | b | m | c | h |
最优编码 | 0111 | 11011 | 11010 | 10111 | 0100 | 01011 | 10110 | 01010 |
至此,获取了每种字符的最优编码。
金融数据压缩模块S105,根据每种字符的最优编码对金融数据进行压缩。
利用每种字符的最优编码对金融字符数据进行压缩,得到第一压缩数据。对第一压缩数据进行游程编码,得到第二压缩数据。
至此,完成了金融数据的压缩。
金融数据管理模块S106,对金融数据进行存储。
将第二压缩数据以及最优霍夫曼树存储至云端。当业务人员需要查看金融数据时,对第二压缩数据利用游程编码进行解压得到第一压缩数据,根据最优霍夫曼树对第一压缩数据利用霍夫曼编码进行解压得到金融字符数据,将金融字符数据转换为金融数据。
至此,完成了金融数据的存储以及解压。
综上所述,本发明的系统包括金融数据采集模块、优选编码获取模块、组合字符统计模块、最优编码获取模块、金融数据压缩模块、金融数据管理模块,本发明根据霍夫编码过程中不同频数对应的不同编码的复杂度,来自适应调整等概率出现的数据的累加顺序,获取每种频数的优选编码,使得出现频数大的字符的编码的冗余度最大化,进行重压缩的效率更高;本发明结合每种组合字符的频数来获取组合字符中每种字符的最优编码,确保频数大的字符的最优编码冗余度大的同时使得字符组合出现时编码的冗余度也较大,使得最终的编码结果的整体冗余度达到最大,对最终的编码结果进行重压缩时效果更好;传统的霍夫曼编码在对数据进行压缩时,对于等概出现的数据的处理手段是随机相加,无法达到编码后的冗余度最大化,进行重压缩的效果不理想,本发明相较于传统的霍夫曼编码,编码后的冗余度可达到最大化,进行重压缩时效果更好,减少了金融字符数据的存储至云端的成本。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种金融融资服务数字智能管理系统,其特征在于,所述系统包括:
金融数据采集模块,获取金融字符数据,统计金融字符数据中每种字符的频数,构建字符频数表;
优选编码获取模块,根据每种字符的频数构建空霍夫树;对空霍夫曼树中每个父节点进行分类,得到二型父节点;对空霍夫曼树进行深度遍历,在遍历每个分支时,当遇到二型父节点时,停止当前分支的遍历,进行下个分支的遍历,将遍历到的所有节点构成的霍夫曼树作为基础霍夫曼树;将字符频数表中所有种频数按照从大到小的顺序进行排序,得到频数序列;
获取每种频数的优选编码,包括:
S1:将频数序列中第一个频数作为目标频数;
S2:获取目标频数在基础霍夫曼树中对应的所有节点的编码,作为目标频数的候选编码,根据目标频数在字符频数表中的个数以及候选编码的个数获取目标频数的优选编码;
S3:根据优选编码获取新的基础霍夫曼树;
S4:将频数序列中下一个频数作为新的目标频数;
S5、重复S2-S4,直到频数序列中所有频数均已遍历时停止迭代;
组合字符统计模块,构建组合字符频数表;
最优编码获取模块,将频数的优选编码不放回的分配给频数对应的每种字符,得到所有分配方式;根据组合字符频数表计算每种分配方式下的整体复杂度;根据整体复杂度获取每种字符的最优编码;
金融数据压缩模块,根据每种字符的最优编码对金融字符数据进行压缩,得到第二压缩数据;
金融数据管理模块,对第二压缩数据进行存储以及解压。
2.根据权利要求1所述的一种金融融资服务数字智能管理系统,其特征在于,所述根据每种字符的频数构建空霍夫树,包括的步骤为:
根据所有种字符的频数构建一个霍夫曼树,构建霍夫曼树时仅考虑频数,不考虑频数所对应的字符,构建的霍夫曼树中每个叶节点均不分配字符,将构建的霍夫曼树作为空霍夫曼树。
3.根据权利要求1所述的一种金融融资服务数字智能管理系统,其特征在于,所述对空霍夫曼树中每个父节点进行分类,得到二型父节点,包括的步骤为:
将空霍夫曼树中任意一个父节点作为目标父节点,若与目标父节点属于同一父节点的子节点为父节点,将目标父节点作为一型父节点;若与目标父节点属于同一父节点的子节点为叶节点,将目标父节点作为二型父节点。
5.根据权利要求1所述的一种金融融资服务数字智能管理系统,其特征在于,所述根据优选编码获取新的基础霍夫曼树,包括的步骤为:
将优选编码对应的节点作为叶节点,将优选编码以外的候选编码对应的节点作为父节点,对父节点向下划分,得到新的基础霍夫曼树。
6.根据权利要求1所述的一种金融融资服务数字智能管理系统,其特征在于,所述构建组合字符频数表,包括的步骤为:
将金融字符数据中每相邻两个字符组成的字符串作为一个组合字符,统计金融字符数据中每种组合字符的频数,构建组合字符频数表。
8.根据权利要求1所述的一种金融融资服务数字智能管理系统,其特征在于,所述根据整体复杂度获取每种字符的最优编码,包括的步骤为:
选择整体复杂度最小的分配方式作为最优分配方式,将最优分配方式下每种字符的优选编码作为每种字符的最优编码。
9.根据权利要求1所述的一种金融融资服务数字智能管理系统,其特征在于,所述根据每种字符的最优编码对金融字符数据进行压缩,得到第二压缩数据,包括的步骤为:
利用每种字符的最优编码对金融字符数据进行压缩,得到第一压缩数据;对第一压缩数据进行游程编码,得到第二压缩数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310518599.7A CN116318173B (zh) | 2023-05-10 | 2023-05-10 | 一种金融融资服务数字智能管理系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310518599.7A CN116318173B (zh) | 2023-05-10 | 2023-05-10 | 一种金融融资服务数字智能管理系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116318173A true CN116318173A (zh) | 2023-06-23 |
CN116318173B CN116318173B (zh) | 2023-08-11 |
Family
ID=86790839
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310518599.7A Active CN116318173B (zh) | 2023-05-10 | 2023-05-10 | 一种金融融资服务数字智能管理系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116318173B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116681036A (zh) * | 2023-08-02 | 2023-09-01 | 天津轻工职业技术学院 | 基于数字孪生的工业数据存储方法 |
CN116702708A (zh) * | 2023-08-04 | 2023-09-05 | 陕西交通电子工程科技有限公司 | 一种道路路面施工数据管理系统 |
CN116865768A (zh) * | 2023-08-31 | 2023-10-10 | 临沂安迪电气有限公司 | 一种plc设备数据优化存储方法 |
CN117034865A (zh) * | 2023-10-09 | 2023-11-10 | 青岛畅通市政工程设计有限公司 | 一种市政工程设计数据优化处理方法 |
CN117155406A (zh) * | 2023-10-30 | 2023-12-01 | 深圳市成为高科技有限公司 | 一种社会调查数据智能管理系统 |
CN117216023A (zh) * | 2023-11-07 | 2023-12-12 | 陕西长瑞安驰信息技术集团有限公司 | 一种大规模网络数据存储方法及系统 |
CN118631261A (zh) * | 2024-08-12 | 2024-09-10 | 中国人民解放军空军军医大学 | 基于医疗数据挖掘的护理信息处理方法、设备及系统 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0937262A (ja) * | 1995-07-14 | 1997-02-07 | Canon Inc | 画像処理装置及び方法 |
JP2010067808A (ja) * | 2008-09-11 | 2010-03-25 | Nuflare Technology Inc | 描画装置、描画データの変換方法及び描画方法 |
CN102122960A (zh) * | 2011-01-18 | 2011-07-13 | 西安理工大学 | 一种针对二进制数据的多字符组合无损数据压缩方法 |
US20120121180A1 (en) * | 2010-11-12 | 2012-05-17 | Dynacomware Taiwan Inc. | Method and system for dot-matrix font data compression and decompression |
CN104283568A (zh) * | 2013-07-12 | 2015-01-14 | 中国科学院声学研究所 | 一种基于部分霍夫曼树的数据压缩编码方法 |
CN108259911A (zh) * | 2018-03-29 | 2018-07-06 | 苏州佳智彩光电科技有限公司 | 一种OLED屏Demura数据无损压缩、解压缩方法 |
CN108628898A (zh) * | 2017-03-21 | 2018-10-09 | 中国移动通信集团河北有限公司 | 数据入库的方法、装置和设备 |
CN111884660A (zh) * | 2020-07-13 | 2020-11-03 | 山东云海国创云计算装备产业创新中心有限公司 | 一种哈夫曼编码设备 |
KR102360116B1 (ko) * | 2021-03-26 | 2022-02-08 | 세종대학교산학협력단 | 압축 모듈을 포함하는 인공지능 가속기 및 이를 이용한 데이터 전달 방법 |
WO2022148304A1 (zh) * | 2021-01-07 | 2022-07-14 | 苏州浪潮智能科技有限公司 | 一种基于排序网络的动态霍夫曼编码方法、装置及设备 |
CN114900193A (zh) * | 2022-04-08 | 2022-08-12 | 博流智能科技(南京)有限公司 | 适应性霍夫曼编码系统及方法 |
CN115883109A (zh) * | 2023-02-16 | 2023-03-31 | 北京飞安航空科技有限公司 | 一种航空系统的数据压缩加密方法及系统 |
-
2023
- 2023-05-10 CN CN202310518599.7A patent/CN116318173B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0937262A (ja) * | 1995-07-14 | 1997-02-07 | Canon Inc | 画像処理装置及び方法 |
JP2010067808A (ja) * | 2008-09-11 | 2010-03-25 | Nuflare Technology Inc | 描画装置、描画データの変換方法及び描画方法 |
US20120121180A1 (en) * | 2010-11-12 | 2012-05-17 | Dynacomware Taiwan Inc. | Method and system for dot-matrix font data compression and decompression |
CN102122960A (zh) * | 2011-01-18 | 2011-07-13 | 西安理工大学 | 一种针对二进制数据的多字符组合无损数据压缩方法 |
CN104283568A (zh) * | 2013-07-12 | 2015-01-14 | 中国科学院声学研究所 | 一种基于部分霍夫曼树的数据压缩编码方法 |
CN108628898A (zh) * | 2017-03-21 | 2018-10-09 | 中国移动通信集团河北有限公司 | 数据入库的方法、装置和设备 |
CN108259911A (zh) * | 2018-03-29 | 2018-07-06 | 苏州佳智彩光电科技有限公司 | 一种OLED屏Demura数据无损压缩、解压缩方法 |
CN111884660A (zh) * | 2020-07-13 | 2020-11-03 | 山东云海国创云计算装备产业创新中心有限公司 | 一种哈夫曼编码设备 |
WO2022148304A1 (zh) * | 2021-01-07 | 2022-07-14 | 苏州浪潮智能科技有限公司 | 一种基于排序网络的动态霍夫曼编码方法、装置及设备 |
KR102360116B1 (ko) * | 2021-03-26 | 2022-02-08 | 세종대학교산학협력단 | 압축 모듈을 포함하는 인공지능 가속기 및 이를 이용한 데이터 전달 방법 |
CN114900193A (zh) * | 2022-04-08 | 2022-08-12 | 博流智能科技(南京)有限公司 | 适应性霍夫曼编码系统及方法 |
CN115883109A (zh) * | 2023-02-16 | 2023-03-31 | 北京飞安航空科技有限公司 | 一种航空系统的数据压缩加密方法及系统 |
Non-Patent Citations (2)
Title |
---|
M. A. MAHMOOD等: "A Feasible Compression Scheme for Bangla Natural Text", 《2023 INTERNATIONAL CONFERENCE ON INNOVATIVE DATA COMMUNICATION TECHNOLOGIES AND APPLICATION (ICIDCA)》, pages 414 - 420 * |
冷星星 何小海 刘凤民 罗代升: "高压缩低损耗图像编码算法研究", 《 成都信息工程学院学报》, pages 182 - 186 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116681036B (zh) * | 2023-08-02 | 2023-10-03 | 天津轻工职业技术学院 | 基于数字孪生的工业数据存储方法 |
CN116681036A (zh) * | 2023-08-02 | 2023-09-01 | 天津轻工职业技术学院 | 基于数字孪生的工业数据存储方法 |
CN116702708B (zh) * | 2023-08-04 | 2023-11-03 | 陕西交通电子工程科技有限公司 | 一种道路路面施工数据管理系统 |
CN116702708A (zh) * | 2023-08-04 | 2023-09-05 | 陕西交通电子工程科技有限公司 | 一种道路路面施工数据管理系统 |
CN116865768B (zh) * | 2023-08-31 | 2023-11-21 | 临沂安迪电气有限公司 | 一种plc设备数据优化存储方法 |
CN116865768A (zh) * | 2023-08-31 | 2023-10-10 | 临沂安迪电气有限公司 | 一种plc设备数据优化存储方法 |
CN117034865A (zh) * | 2023-10-09 | 2023-11-10 | 青岛畅通市政工程设计有限公司 | 一种市政工程设计数据优化处理方法 |
CN117034865B (zh) * | 2023-10-09 | 2024-01-16 | 青岛畅通市政工程设计有限公司 | 一种市政工程设计数据优化处理方法 |
CN117155406A (zh) * | 2023-10-30 | 2023-12-01 | 深圳市成为高科技有限公司 | 一种社会调查数据智能管理系统 |
CN117155406B (zh) * | 2023-10-30 | 2024-02-02 | 深圳市成为高科技有限公司 | 一种社会调查数据智能管理系统 |
CN117216023A (zh) * | 2023-11-07 | 2023-12-12 | 陕西长瑞安驰信息技术集团有限公司 | 一种大规模网络数据存储方法及系统 |
CN117216023B (zh) * | 2023-11-07 | 2024-01-26 | 陕西长瑞安驰信息技术集团有限公司 | 一种大规模网络数据存储方法及系统 |
CN118631261A (zh) * | 2024-08-12 | 2024-09-10 | 中国人民解放军空军军医大学 | 基于医疗数据挖掘的护理信息处理方法、设备及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN116318173B (zh) | 2023-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116318173B (zh) | 一种金融融资服务数字智能管理系统 | |
US11743479B2 (en) | Methods and apparatuses for encoding and decoding a bytestream | |
US5764807A (en) | Data compression using set partitioning in hierarchical trees | |
CN103858433A (zh) | 分层熵编码及解码 | |
CN101106377B (zh) | 用于维持解码表的系统 | |
US5692012A (en) | Method for image compression coding in an image transmission system | |
CN101241508B (zh) | 结构化数据序列的压缩方法 | |
US6919826B1 (en) | Systems and methods for efficient and compact encoding | |
US20040202374A1 (en) | Compression system for integrated sensor devices | |
CN116681036B (zh) | 基于数字孪生的工业数据存储方法 | |
CN1310913A (zh) | 图像压缩 | |
US10911066B2 (en) | Method and system of content based dynamic data compression | |
US5594435A (en) | Permutation-based data compression | |
CN101282121A (zh) | 一种基于条件概率的哈夫曼解码的方法 | |
CN104704825A (zh) | 分段图像数据的无损压缩 | |
CN115882866A (zh) | 一种基于数据差值特征的数据压缩方法 | |
CN117997963A (zh) | 一种基于多线程数据处理的无人机数据传输方法 | |
CN1252187A (zh) | 用于编码数据序列的一种方法和一种设备 | |
CN113381768B (zh) | 一种哈夫曼校正编码方法、系统及相关组件 | |
US20120117133A1 (en) | Method and device for processing a digital signal | |
Yeh et al. | On the optimality of code options for a universal noiseless coder | |
CN116934487B (zh) | 一种金融清算数据优化存储方法及系统 | |
US20040234146A1 (en) | Coefficient computation in image compression using set partitioning in hierarchical trees | |
CN116074514A (zh) | 一种多媒体数据的安全通信方法及云广播系统 | |
CN109831544B (zh) | 一种应用于电子邮箱地址的编码存储方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |