CN110825762A - 数据存储方法、装置及系统 - Google Patents
数据存储方法、装置及系统 Download PDFInfo
- Publication number
- CN110825762A CN110825762A CN201911111771.7A CN201911111771A CN110825762A CN 110825762 A CN110825762 A CN 110825762A CN 201911111771 A CN201911111771 A CN 201911111771A CN 110825762 A CN110825762 A CN 110825762A
- Authority
- CN
- China
- Prior art keywords
- data set
- hash value
- service data
- current
- service
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 238000013500 data storage Methods 0.000 title claims abstract description 41
- 230000008569 process Effects 0.000 claims description 23
- 238000004364 calculation method Methods 0.000 claims description 16
- 230000003993 interaction Effects 0.000 claims description 14
- 230000009193 crawling Effects 0.000 claims description 12
- 238000000638 solvent extraction Methods 0.000 claims 1
- 238000005516 engineering process Methods 0.000 description 7
- 238000012163 sequencing technique Methods 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2255—Hash tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
Abstract
本申请提供数据存储方法、装置及系统,其中方法包括:获取当前业务数据集,并计算当前业务数据集中每个业务数据对应的哈希值;将当前业务数据集的哈希值与数据库中历史业务数据集的哈希值进行对比,确定出哈希值由重叠至不重叠的临界哈希值;依据临界哈希值划分当前业务数据集,从当前业务数据集中确定出相对于历史业务数据的增量业务数据集;存储增量业务数据集至数据库。本发明不再直接将当前业务数据全部添加至数据库中,而是添加增量业务数据集至数据库即可,由于增量业务数据集的数据量小于当前业务数据集的数据量,因此可以大大减少存储数据量,继而减少存储时间和提升存储效率,进而提升整个信用评分操作效率。
Description
技术领域
本申请涉及通信技术领域,尤其涉及数据存储方法、装置及系统。
背景技术
目前互联网金融信用体系,从单一实名认证转向多维度认证,多维度认证主要包括多个第三方认证。例如,运营商认证、中国银行的征信认证、公积金认证、社保认证等等。
在对用户进行信用评分时,需要从多个第三方获取用户的业务数据。目前信用评分设备在获取当前用户数据后,会直接将当前业务数据添加至历史业务数据中,以便利用更新后业务数据来计算最新的信用评分。
由于用户的业务数据是随着时间不断增长的(以公积金为例,随着月份不断递增),因此当前业务数据的数据量通常较大,往往需要10-20秒时间存储至本地。即数据存储过程耗费时间较长,效率较低。
为此,现在需要一种数据存储方法,可以减少业务数据的存储时间,以便提升数据存储效率,进而提升整个信用评分操作效率。
发明内容
鉴于此,本申请提供一种数据存储方法、装置及系统,可减少业务数据的存储时间,以便提升数据存储效率,进而提升整个信用评分操作效率。
为了实现上述目的,本申请提供了下述技术特征:
一种数据存储方法,包括:
获取当前业务数据集,并计算所述当前业务数据集中每个业务数据对应的哈希值;
将所述当前业务数据集的哈希值与数据库中历史业务数据集的哈希值进行对比,确定出哈希值由重叠至不重叠的临界哈希值;
依据所述临界哈希值划分所述当前业务数据集,从所述当前业务数据集中确定出相对于所述历史业务数据的增量业务数据集;
存储所述增量业务数据集至所述数据库。
可选的,所述将所述当前业务数据集的哈希值与数据库中历史业务数据集的哈希值进行对比,确定出哈希值由重叠至不重叠的临界哈希值,包括:
从所述当前业务数据集中,按时间顺序依次选择一业务数据对应的哈希值;
在所述历史业务数据集的哈希值中查询该哈希值;
若查找到该哈希值,则说明所述当前业务数据集与所述历史业务数据集的哈希值重叠,进入步骤:从所述当前业务数据集中,按时间顺序依次选择一业务数据对应的哈希值;
若查找不到该哈希值,则说明所述当前业务数据集与所述历史业务数据集的哈希值不重叠,则将该哈希值作为所述临界哈希值。
可选的,所述依据所述临界哈希值划分所述当前业务数据集,从所述当前业务数据集中确定出相对于所述历史业务数据的增量业务数据集,包括:
确定所述临界哈希值对应业务数据的临界时间戳;
从所述当前业务数据集中,将时间戳小于所述临界时间戳的业务数据确定为所述数据库已存储的已存业务数据集;
从所述当前业务数据集中,将时间戳大于所述临界时间戳的业务数据确定为所述增量业务数据集。
可选的,还包括:
计算并保存所述历史业务数据集中的各个业务数据对应的哈希值;
在所述存储所述增量业务数据集至所述数据库之后,还包括:存储所述增量业务数据集中各个业务数据对应的哈希值至所述数据库。
可选的,一业务数据包括多个字段:时间戳、业务地址、业务金额、业务方式和业务账号;
则所述计算所述当前业务数据集中每个业务数据对应的哈希值,包括:
按照计算哈希值的多个预设字段,从所述业务数据中获取所述多个预设字段的数据值;
基于所述多个预设字段的数据值,计算所述业务数据的哈希值。
一种数据存储装置,包括:
第一获取单元,用于获取当前业务数据集;
第一计算单元,用于计算所述当前业务数据集中每个业务数据对应的哈希值;
第一对比单元,用于将所述当前业务数据集的哈希值与数据库中历史业务数据集的哈希值进行对比,确定出哈希值由重叠至不重叠的临界哈希值;
第一确定单元,用于依据所述临界哈希值划分所述当前业务数据集,从所述当前业务数据集中确定出相对于所述历史业务数据的增量业务数据集;
第一存储单元,用于存储所述增量业务数据集至所述数据库。
一种数据存储系统,包括:
第三方设备,用于与用户终端进行业务交互,存储业务交互过程中的业务数据;
数据库设备,用于从所述第三方设备爬取用户的当前业务数据集,并计算所述当前业务数据集中每个业务数据对应的哈希值;将所述当前业务数据集的哈希值与数据库中历史业务数据集的哈希值进行对比,确定出哈希值由重叠至不重叠的临界哈希值;依据所述临界哈希值划分所述当前业务数据集,从所述当前业务数据集中确定出相对于所述历史业务数据的增量业务数据集;存储所述增量业务数据集至所述数据库,以用于后续计算信用评分。
一种数据存储方法,包括:
获取当前用户数据;其中所述当前用户数据包括多个当前业务数据集;
针对每个当前业务数据集执行下述操作:
计算所述当前业务数据集中每个业务数据对应的哈希值;将所述当前业务数据集的哈希值与数据库中本业务对应的历史业务数据集的哈希值进行对比,确定出哈希值由重叠至不重叠的临界哈希值;依据所述临界哈希值划分所述当前业务数据集,从所述当前业务数据集中确定出相对于本业务对应的历史业务数据的增量业务数据集;存储所述增量业务数据集至所述数据库中本业务对应的存储空间。
一种数据存储装置,包括:
第二获取单元,用于获取当前用户数据;其中所述当前用户数据包括多个业务对应的当前业务数据集;
针对每个业务对应的当前业务数据集执行下述操作:
第二计算单元,用于计算所述当前业务数据集中每个业务数据对应的哈希值;
第二对比单元,用于将所述当前业务数据集的哈希值与数据库中本业务对应的历史业务数据集的哈希值进行对比,确定出哈希值由重叠至不重叠的临界哈希值;
第二确定单元,用于依据所述临界哈希值划分所述当前业务数据集,从所述当前业务数据集中确定出相对于本业务对应的历史业务数据的增量业务数据集;
第二存储单元,用于存储所述增量业务数据集至所述数据库中本业务对应的存储空间。
一种数据存储系统,包括:
多个第三方设备,用于与用户终端进行业务交互,存储业务交互过程中的业务数据;
数据库设备,用于从所述第三方设备爬取当前用户数据;其中所述当前用户数据包括多个当前业务数据集;针对每个当前业务数据集执行下述操作:
计算所述当前业务数据集中每个业务数据对应的哈希值;将所述当前业务数据集的哈希值与数据库中本业务对应的历史业务数据集的哈希值进行对比,确定出哈希值由重叠至不重叠的临界哈希值;依据所述临界哈希值划分所述当前业务数据集,从所述当前业务数据集中确定出相对于所述历史业务数据的增量业务数据集;存储所述增量业务数据集至所述数据库。
通过以上技术手段,可以实现以下有益效果:
本发明中在获取当前业务数据集后,会计算当前业务数据集中各个业务数据的哈希值,然后将当前业务数据集的哈希值与历史业务数据集的哈希值进行对比,从而找到当前业务数据集与历史业务数据集中哈希值由重叠至不重叠的临界哈希值,基于临界哈希值从当前业务数据集中确定出增量业务数据集。
本发明不再直接将当前业务数据全部添加至数据库中,而是添加增量业务数据集至数据库即可,无需再添加数据库中已有的业务数据至数据库。
由于增量业务数据集的数据量小于当前业务数据集的数据量,在用户短时间频繁进行信用评分操作时,甚至会出现增量业务数据集为空的情况,因此仅添加增量业务数据集至数据库,可以大大减少存储数据量,继而减少存储时间和提升存储效率,进而提升整个信用评分操作效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a-1b为本申请实施例公开的数据存储系统的结构示意图;
图2-3为本申请实施例公开的数据存储方法的流程图;
图4-5为本申请实施例公开的数据存储装置的结构示意图。
具体实施方式
本发明提供的数据存储方法,适用于第三方设备中业务数据随着时间业务数据不断递增,且,历史业务数据不会发生变化的应用场景。例如:公积金缴存场景、社保缴存场景,个人消费记录场景,个人使用记录场景等等。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请提供了数据存储系统的实施例一,以便本领域技术人员了解本发明的系统架构。参见图1a,可以包括:
第三方设备100,用于与用户终端进行业务交互,存储业务交互过程中的业务数据。
可以理解的是,第三方设备与用户终端进行交互,并在业务交互过程中产生业务数据,且,业务数据只会逐渐递增,已存业务数据不会在发生变化。
数据库设备200,用于从所述第三方设备爬取用户的当前业务数据集,并计算所述当前业务数据集中每个业务数据对应的哈希值;将所述当前业务数据集的哈希值与数据库中历史业务数据集的哈希值进行对比,确定出哈希值由重叠至不重叠的临界哈希值;依据所述临界哈希值划分所述当前业务数据集,从所述当前业务数据集中确定出相对于所述历史业务数据的增量业务数据集;存储所述增量业务数据集至所述数据库,以用于后续计算信用评分。
数据库设备200可以用于接收用户终端发送的信用评分请求,并基于信用评分请求到第三方设备爬取用户的当前业务数据集。也可以定时爬取机制,定时到第三方设备爬取用户的当前业务数据集。
本申请提供了数据存储系统的实施例二,以便本领域技术人员了解本发明的系统架构。参见图1b,可以包括:
多个第三方设备100,用于与用户终端进行业务交互,存储业务交互过程中的业务数据。
可以理解的是,每个第三方设备与用户终端进行交互,并在业务交互过程中产生业务数据,且,业务数据只会逐渐递增,已存业务数据不会在发生变化。
数据库设备200,用于从所述第三方设备爬取当前用户数据;其中所述当前用户数据包括多个当前业务数据集;针对每个当前业务数据集执行下述操作:
计算所述当前业务数据集中每个业务数据对应的哈希值;将所述当前业务数据集的哈希值与数据库中本业务对应的历史业务数据集的哈希值进行对比,确定出哈希值由重叠至不重叠的临界哈希值;依据所述临界哈希值划分所述当前业务数据集,从所述当前业务数据集中确定出相对于所述历史业务数据的增量业务数据集;存储所述增量业务数据集至所述数据库,以用于后续计算信用评分。
数据库设备200可以用于接收用户终端发送的信用评分请求,并基于信用评分请求到第三方设备爬取用户的当前业务数据集。也可以定时爬取机制,定时到第三方设备爬取用户的当前业务数据集。
当然,还可以采用其它方式来获取当前业务数据集。至于具体实现,可以根据应用场景而定,在此做限定。
关于实施例一和实施例二中数据库设备200在获取当前业务数据集后步骤的详细介绍,可详见图2所示的实施例,在此暂不详细描述。
本申请提供一种数据存储方法的实施例一,与图1a所示的数据存储系统实施例一对应,本实施例一于从一个第三方设备获取一个当前业务数据集。
数据存储方法的实施例一应用于数据库设备,参见图2,包括以下步骤:
步骤S200:计算并保存历史业务数据集中的各个业务数据对应的哈希值。
本步骤仅在第一次使用本方法时使用,后续可以不必在使用,属于可选步骤。
数据库设备已存储多个业务数据,多个业务数据可以统称为历史业务数据集。数据库设备按照预先设定的哈希值计算方式,为数据库中各个业务数据计算哈希值,并保存各个业务数据的哈希值。
一业务数据包括多个字段:时间戳、业务地址、业务金额、业务方式和业务账号;则计算业务数据的哈希值的过程,可以按照计算哈希值的多个预设字段,从所述业务数据中获取所述多个预设字段的数据值;基于所述多个预设字段的数据值,计算所述业务数据的哈希值。关于哈希值的具体计算过程已为成熟技术,在此不再赘述。
步骤S201:获取当前业务数据集,并计算所述当前业务数据集中每个业务数据对应的哈希值。
在图1a所示的数据存储系统中具有一个第三方设备,所以数据库设备可以从一个第三方设备中爬取很多业务数据并组成当前业务数据集。关于数据库设备从第三方设备爬取业务数据的过程,已为成熟技术,在此不再赘述。
数据库设备按照预先设定的哈希值计算方式,为当前业务数据集中每个业务数据计算哈希值。可以理解的是,步骤S200与步骤S201中计算哈希值的方式是一致的。
即,一业务数据包括多个字段:时间戳、业务地址、业务金额、业务方式和业务账号;则计算业务数据的哈希值,可以按照计算哈希值的多个预设字段,从所述业务数据中获取所述多个预设字段的数据值;基于所述多个预设字段的数据值,计算所述业务数据的哈希值。关于哈希值的具体计算过程已为成熟技术,在此不再赘述。
步骤S202:将所述当前业务数据集的哈希值与数据库中历史业务数据集的哈希值进行对比,确定出哈希值由重叠至不重叠的临界哈希值;
本步骤将所述当前业务数据集的哈希值与数据库中历史业务数据集的哈希值进行对比可以采用多种实现方式,只要能够确定临界哈希值即可。
下面以一种实现方式为例,进行详细说明:
步骤S1:对所述当前业务数据集按时间戳执行排序操作。
按时间戳执行顺序排序操作或倒序排序操作均可,只要当前业务数据集能够按照时间戳执行排序操作即可。可以理解的是,很多情况下,从第三方设备获取到的当前业务数据已经为按照时间戳排序的,所以本步骤并不是必须执行操作。
步骤S2:从所述当前业务数据集中,按时间顺序依次选择一业务数据对应的哈希值。
在当前业务数据集按时间顺序排序后,按照时间顺序依次选择一业务数据,以便逐个对业务数据的哈希值进行查询操作。
步骤S3:在所述历史业务数据集的哈希值中查询该哈希值。
在历史业务数据集的哈希值中,查询该哈希值以获得查询结果。
可以理解的是,已存储的业务数据是不会再发生变化的,所以若历史业务数据集和当前业务数据集均具有一业务数据的情况下,历史业务数据集中该业务数据对应的哈希值,与,当前业务数据集中该业务数据对应的哈希值是一致的,也即哈希值有重叠。
反之,在第三方设备更新业务数据后,若当前业务数据集具有一业务数据但历史业务数据集不具有该业务数据,则当前业务数据集中具有该业务数据对应的哈希值;历史业务数据集不具有该业务数据对应的哈希值,即,哈希值不重叠。
步骤S4:若查找到该哈希值,则说明所述当前业务数据集与所述历史业务数据集的哈希值重叠,进入步骤S2。
步骤S5:若查找不到该哈希值,则说明所述当前业务数据集与所述历史业务数据集的哈希值不重叠,则将该哈希值作为所述临界哈希值。
由于当前业务数据集是按时间顺序排序的,本次查询操作也是按照时间顺序依次执行查询操作的,因此查询结果可能有两种情况:
第一种情况:查询过程中前期不具有重叠哈希值,直到某一个哈希值出现重叠,将该哈希值作为临界哈希值。
第二种情况:查询过程中前期具有重叠哈希值,直到某一个哈希值出现不重叠,将该哈希值作为临界哈希值。
步骤S203:依据所述临界哈希值划分所述当前业务数据集,从所述当前业务数据集中确定出相对于所述历史业务数据的增量业务数据集。
步骤S1:确定所述临界哈希值对应业务数据的临界时间戳。
步骤S2:从所述当前业务数据集中,将时间戳小于所述临界时间戳的业务数据确定为所述数据库已存储的已存业务数据集。
步骤S3:从所述当前业务数据集中,将时间戳大于所述临界时间戳的业务数据确定为所述增量业务数据集。
针对步骤S5中第一种情况,将临界哈希值对应的业务数据归入已存业务数据集。针对步骤S5中第二种情况,将临界哈希值对应的业务数据归入增量业务数据集。
步骤S204:存储所述增量业务数据集至所述数据库。
通过以上技术手段,可以实现以下有益效果:
本发明中在获取当前业务数据集后,会计算当前业务数据集中各个业务数据的哈希值,然后将当前业务数据集的哈希值与历史业务数据集的哈希值进行对比,从而找到当前业务数据集与历史业务数据集中哈希值由重叠至不重叠的临界哈希值,基于临界哈希值从当前业务数据集中确定出增量业务数据集。
本发明不再直接将当前业务数据全部添加至数据库中,而是添加增量业务数据集至数据库即可,无需再添加数据库中已有的业务数据至数据库。
由于增量业务数据集的数据量小于当前业务数据集的数据量,在用户短时间频繁进行信用评分操作时,甚至会出现增量业务数据集为空的情况,因此仅添加增量业务数据集至数据库,可以大大减少存储数据量,继而减少存储时间和提升存储效率,进而提升整个信用评分操作效率。
本申请提供一种数据存储方法的实施例二,与图1b所示的数据存储系统实施例二对应,本实施例二于从多个第三方设备获取多个当前业务数据集。
数据存储方法的实施例二应用于数据库设备,参见图3,包括以下步骤:
步骤S300:计算并保存多个历史业务数据集中的各个业务数据对应的哈希值。
本步骤仅在第一次使用本方法时使用,后续可以不必在使用,属于可选步骤。
数据库设备具有与多个业务对应存储空间,每个存储空间已存储多个业务数据,多个业务数据可以统称为历史业务数据集。多个业务空间一一对应多个历史业务数据集。
针对每个历史业务数据集:数据库设备按照预先设定的哈希值计算方式,为各个业务数据计算哈希值,并保存各个业务数据的哈希值。
一业务数据包括多个字段:时间戳、业务地址、业务金额、业务方式和业务账号;则计算业务数据的哈希值的过程,可以按照计算哈希值的多个预设字段,从所述业务数据中获取所述多个预设字段的数据值;基于所述多个预设字段的数据值,计算所述业务数据的哈希值。关于哈希值的具体计算过程已为成熟技术,在此不再赘述。
步骤S301:获取当前用户数据;其中所述当前用户数据包括多个当前业务数据集。
在图1b所示的数据存储系统中具有多个第三方设备,所以数据库设备可以从多个第三方设备中分别爬取很多业务数据并组成多个当前业务数据集。一个第三方设备对应一个当前业务数据集。关于数据库设备从第三方设备爬取业务数据的过程,已为成熟技术,在此不再赘述。
针对每个当前业务数据集执行步骤S302~步骤S305。
步骤S302:计算当前业务数据集中每个业务数据对应的哈希值。
数据库设备按照预先设定的哈希值计算方式,为当前业务数据集中每个业务数据计算哈希值。可以理解的是,步骤S300与步骤S302中计算哈希值的方式是一致的。
即,一业务数据包括多个字段:时间戳、业务地址、业务金额、业务方式和业务账号;则计算业务数据的哈希值,可以按照计算哈希值的多个预设字段,从所述业务数据中获取所述多个预设字段的数据值;基于所述多个预设字段的数据值,计算所述业务数据的哈希值。关于哈希值的具体计算过程已为成熟技术,在此不再赘述。
步骤S303:将所述当前业务数据集的哈希值与数据库中本业务对应的历史业务数据集的哈希值进行对比,确定出哈希值由重叠至不重叠的临界哈希值。
可以理解的是,数据库存储有多个业务对应的历史业务数据集,本步骤将所述当前业务数据集的哈希值与本业务对应的数据库中历史业务数据集的哈希值进行对比可以采用多种实现方式,只要能够确定临界哈希值即可。
下面以一种实现方式为例,进行详细说明:
步骤S1:对所述当前业务数据集按时间戳执行排序操作。
按时间戳执行顺序排序操作或倒序排序操作均可,只要当前业务数据集能够按照时间戳执行排序操作即可。可以理解的是,很多情况下,从第三方设备获取到的当前业务数据已经为按照时间戳排序的,所以本步骤并不是必须执行操作。
步骤S2:从所述当前业务数据集中,按时间顺序依次选择一业务数据对应的哈希值。
在当前业务数据集按时间顺序排序后,按照时间顺序依次选择一业务数据,以便逐个对业务数据的哈希值进行查询操作。
步骤S3:在所述历史业务数据集的哈希值中查询该哈希值。
在历史业务数据集的哈希值中,查询该哈希值以获得查询结果。
可以理解的是,已存储的业务数据是不会再发生变化的,所以若历史业务数据集和当前业务数据集均具有一业务数据的情况下,历史业务数据集中该业务数据对应的哈希值,与,当前业务数据集中该业务数据对应的哈希值是一致的,也即哈希值有重叠。
反之,在第三方设备更新业务数据后,若当前业务数据集具有一业务数据但历史业务数据集不具有该业务数据,则当前业务数据集中具有该业务数据对应的哈希值;历史业务数据集不具有该业务数据对应的哈希值,即,哈希值不重叠。
步骤S4:若查找到该哈希值,则说明所述当前业务数据集与所述历史业务数据集的哈希值重叠,进入步骤S2。
步骤S5:若查找不到该哈希值,则说明所述当前业务数据集与所述历史业务数据集的哈希值不重叠,则将该哈希值作为所述临界哈希值。
由于当前业务数据集是按时间顺序排序的,本次查询操作也是按照时间顺序依次执行查询操作的,因此查询结果可能有两种情况:
第一种情况:查询过程中前期不具有重叠哈希值,直到某一个哈希值出现重叠,将该哈希值作为临界哈希值。
第二种情况:查询过程中前期具有重叠哈希值,直到某一个哈希值出现不重叠,将该哈希值作为临界哈希值。
步骤S304:依据所述临界哈希值划分所述当前业务数据集,从所述当前业务数据集中确定出相对于本业务对应的历史业务数据的增量业务数据集。
步骤S1:确定所述临界哈希值对应业务数据的临界时间戳。
步骤S2:从所述当前业务数据集中,将时间戳小于所述临界时间戳的业务数据确定为所述数据库已存储的已存业务数据集。
步骤S3:从所述当前业务数据集中,将时间戳大于所述临界时间戳的业务数据确定为所述增量业务数据集。
针对步骤S5中第一种情况,将临界哈希值对应的业务数据归入已存业务数据集。针对步骤S5中第二种情况,将临界哈希值对应的业务数据归入增量业务数据集。
步骤S305:存储所述增量业务数据集至所述数据库中本业务对应的存储空间。
通过以上技术手段,可以实现以下有益效果:
本发明中在获取当前业务数据集后,会计算当前业务数据集中各个业务数据的哈希值,然后将当前业务数据集的哈希值与历史业务数据集的哈希值进行对比,从而找到当前业务数据集与历史业务数据集中哈希值由重叠至不重叠的临界哈希值,基于临界哈希值从当前业务数据集中确定出增量业务数据集。
本发明不再直接将当前业务数据全部添加至数据库中,而是添加增量业务数据集至数据库即可,无需再添加数据库中已有的业务数据至数据库。
由于增量业务数据集的数据量小于当前业务数据集的数据量,在用户短时间频繁进行信用评分操作时,甚至会出现增量业务数据集为空的情况,因此仅添加增量业务数据集至数据库,可以大大减少存储数据量,继而减少存储时间和提升存储效率,进而提升整个信用评分操作效率。
参见图4,本申请提供了一种数据存储装置,本数据存储装置与图2所示的实施例一对应,数据存储装置包括:
第一获取单元41,用于获取当前业务数据集;
第一计算单元42,用于计算所述当前业务数据集中每个业务数据对应的哈希值;
第一对比单元43,用于将所述当前业务数据集的哈希值与数据库中历史业务数据集的哈希值进行对比,确定出哈希值由重叠至不重叠的临界哈希值;
第一确定单元44,用于依据所述临界哈希值划分所述当前业务数据集,从所述当前业务数据集中确定出相对于所述历史业务数据的增量业务数据集;
第一存储单元45,用于存储所述增量业务数据集至所述数据库。
关于图4所示的数据存储装置的具体实现,可以详见图2所示的数据存储方法,在此不再赘述。
参见图5,本申请提供了一种数据存储装置,本数据存储装置与图3所示的实施例二对应,数据存储装置包括:
第二获取单元51,用于获取当前用户数据;其中所述当前用户数据包括多个业务对应的当前业务数据集;
针对每个业务对应的当前业务数据集执行下述操作:
第二计算单元52,用于计算所述当前业务数据集中每个业务数据对应的哈希值;
第二对比单元53,用于将所述当前业务数据集的哈希值与数据库中本业务对应的历史业务数据集的哈希值进行对比,确定出哈希值由重叠至不重叠的临界哈希值;
第二确定单元54,用于依据所述临界哈希值划分所述当前业务数据集,从所述当前业务数据集中确定出相对于本业务对应的历史业务数据的增量业务数据集;
第二存储单元55,用于存储所述增量业务数据集至所述数据库中本业务对应的存储空间。
关于图5所示的数据存储装置的具体实现,可以详见图3所示的数据存储方法,在此不再赘述。
本实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算设备可读取存储介质中。基于这样的理解,本申请实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一台计算设备(可以是个人计算机,服务器,移动计算设备或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种数据存储方法,其特征在于,包括:
获取当前业务数据集,并计算所述当前业务数据集中每个业务数据对应的哈希值;
将所述当前业务数据集的哈希值与数据库中历史业务数据集的哈希值进行对比,确定出哈希值由重叠至不重叠的临界哈希值;
依据所述临界哈希值划分所述当前业务数据集,从所述当前业务数据集中确定出相对于所述历史业务数据的增量业务数据集;
存储所述增量业务数据集至所述数据库。
2.如权利要求1所述的方法,其特征在于,所述将所述当前业务数据集的哈希值与数据库中历史业务数据集的哈希值进行对比,确定出哈希值由重叠至不重叠的临界哈希值,包括:
从所述当前业务数据集中,按时间顺序依次选择一业务数据对应的哈希值;
在所述历史业务数据集的哈希值中查询该哈希值;
若查找到该哈希值,则说明所述当前业务数据集与所述历史业务数据集的哈希值重叠,进入步骤:从所述当前业务数据集中,按时间顺序依次选择一业务数据对应的哈希值;
若查找不到该哈希值,则说明所述当前业务数据集与所述历史业务数据集的哈希值不重叠,则将该哈希值作为所述临界哈希值。
3.如权利要求1所述的方法,其特征在于,所述依据所述临界哈希值划分所述当前业务数据集,从所述当前业务数据集中确定出相对于所述历史业务数据的增量业务数据集,包括:
确定所述临界哈希值对应业务数据的临界时间戳;
从所述当前业务数据集中,将时间戳小于所述临界时间戳的业务数据确定为所述数据库已存储的已存业务数据集;
从所述当前业务数据集中,将时间戳大于所述临界时间戳的业务数据确定为所述增量业务数据集。
4.如权利要求1所述的方法,其特征在于,还包括:
计算并保存所述历史业务数据集中的各个业务数据对应的哈希值;
在所述存储所述增量业务数据集至所述数据库之后,还包括:存储所述增量业务数据集中各个业务数据对应的哈希值至所述数据库。
5.如权利要求1所述的方法,其特征在于,一业务数据包括多个字段:时间戳、业务地址、业务金额、业务方式和业务账号;
则所述计算所述当前业务数据集中每个业务数据对应的哈希值,包括:
按照计算哈希值的多个预设字段,从所述业务数据中获取所述多个预设字段的数据值;
基于所述多个预设字段的数据值,计算所述业务数据的哈希值。
6.一种数据存储装置,其特征在于,包括:
第一获取单元,用于获取当前业务数据集;
第一计算单元,用于计算所述当前业务数据集中每个业务数据对应的哈希值;
第一对比单元,用于将所述当前业务数据集的哈希值与数据库中历史业务数据集的哈希值进行对比,确定出哈希值由重叠至不重叠的临界哈希值;
第一确定单元,用于依据所述临界哈希值划分所述当前业务数据集,从所述当前业务数据集中确定出相对于所述历史业务数据的增量业务数据集;
第一存储单元,用于存储所述增量业务数据集至所述数据库。
7.一种数据存储系统,其特征在于,包括:
第三方设备,用于与用户终端进行业务交互,存储业务交互过程中的业务数据;
数据库设备,用于从所述第三方设备爬取用户的当前业务数据集,并计算所述当前业务数据集中每个业务数据对应的哈希值;将所述当前业务数据集的哈希值与数据库中历史业务数据集的哈希值进行对比,确定出哈希值由重叠至不重叠的临界哈希值;依据所述临界哈希值划分所述当前业务数据集,从所述当前业务数据集中确定出相对于所述历史业务数据的增量业务数据集;存储所述增量业务数据集至所述数据库,以用于后续计算信用评分。
8.一种数据存储方法,其特征在于,包括:
获取当前用户数据;其中所述当前用户数据包括多个当前业务数据集;
针对每个当前业务数据集执行下述操作:
计算所述当前业务数据集中每个业务数据对应的哈希值;将所述当前业务数据集的哈希值与数据库中本业务对应的历史业务数据集的哈希值进行对比,确定出哈希值由重叠至不重叠的临界哈希值;依据所述临界哈希值划分所述当前业务数据集,从所述当前业务数据集中确定出相对于本业务对应的历史业务数据的增量业务数据集;存储所述增量业务数据集至所述数据库中本业务对应的存储空间。
9.一种数据存储装置,其特征在于,包括:
第二获取单元,用于获取当前用户数据;其中所述当前用户数据包括多个业务对应的当前业务数据集;
针对每个业务对应的当前业务数据集执行下述操作:
第二计算单元,用于计算所述当前业务数据集中每个业务数据对应的哈希值;
第二对比单元,用于将所述当前业务数据集的哈希值与数据库中本业务对应的历史业务数据集的哈希值进行对比,确定出哈希值由重叠至不重叠的临界哈希值;
第二确定单元,用于依据所述临界哈希值划分所述当前业务数据集,从所述当前业务数据集中确定出相对于本业务对应的历史业务数据的增量业务数据集;
第二存储单元,用于存储所述增量业务数据集至所述数据库中本业务对应的存储空间。
10.一种数据存储系统,其特征在于,包括:
多个第三方设备,用于与用户终端进行业务交互,存储业务交互过程中的业务数据;
数据库设备,用于从所述第三方设备爬取当前用户数据;其中所述当前用户数据包括多个当前业务数据集;针对每个当前业务数据集执行下述操作:
计算所述当前业务数据集中每个业务数据对应的哈希值;将所述当前业务数据集的哈希值与数据库中本业务对应的历史业务数据集的哈希值进行对比,确定出哈希值由重叠至不重叠的临界哈希值;依据所述临界哈希值划分所述当前业务数据集,从所述当前业务数据集中确定出相对于所述历史业务数据的增量业务数据集;存储所述增量业务数据集至所述数据库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911111771.7A CN110825762A (zh) | 2019-11-14 | 2019-11-14 | 数据存储方法、装置及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911111771.7A CN110825762A (zh) | 2019-11-14 | 2019-11-14 | 数据存储方法、装置及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110825762A true CN110825762A (zh) | 2020-02-21 |
Family
ID=69555058
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911111771.7A Pending CN110825762A (zh) | 2019-11-14 | 2019-11-14 | 数据存储方法、装置及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110825762A (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6718346B1 (en) * | 2000-08-17 | 2004-04-06 | 3Com Corporation | Generating summary data for a requested time period having a requested start time and end time a plurality of data records |
EP2645286A1 (en) * | 2012-03-09 | 2013-10-02 | ABB Research Ltd. | Authentication in an industrial control system |
CN105138635A (zh) * | 2015-08-21 | 2015-12-09 | 中国人民解放军装备学院 | 一种利用哈希值比对进行数据增量复制的方法 |
CN105740259A (zh) * | 2014-12-09 | 2016-07-06 | 阿里巴巴集团控股有限公司 | 一种增量数据的处理方法和装置 |
CN109284177A (zh) * | 2017-07-20 | 2019-01-29 | 北京京东尚科信息技术有限公司 | 一种数据更新方法和装置 |
CN109472439A (zh) * | 2018-09-13 | 2019-03-15 | 深圳市买买提信息科技有限公司 | 信用评估方法、装置、设备和系统 |
CN110046155A (zh) * | 2018-12-07 | 2019-07-23 | 阿里巴巴集团控股有限公司 | 特征数据库的更新、数据特征的确定方法、装置及设备 |
CN110147380A (zh) * | 2019-05-23 | 2019-08-20 | 腾讯科技(成都)有限公司 | 数据更新方法、装置、服务器以及存储介质 |
CN110276613A (zh) * | 2019-06-20 | 2019-09-24 | 卓尔智联(武汉)研究院有限公司 | 基于区块链的数据处理装置、方法及计算机可读存储介质 |
-
2019
- 2019-11-14 CN CN201911111771.7A patent/CN110825762A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6718346B1 (en) * | 2000-08-17 | 2004-04-06 | 3Com Corporation | Generating summary data for a requested time period having a requested start time and end time a plurality of data records |
EP2645286A1 (en) * | 2012-03-09 | 2013-10-02 | ABB Research Ltd. | Authentication in an industrial control system |
CN105740259A (zh) * | 2014-12-09 | 2016-07-06 | 阿里巴巴集团控股有限公司 | 一种增量数据的处理方法和装置 |
CN105138635A (zh) * | 2015-08-21 | 2015-12-09 | 中国人民解放军装备学院 | 一种利用哈希值比对进行数据增量复制的方法 |
CN109284177A (zh) * | 2017-07-20 | 2019-01-29 | 北京京东尚科信息技术有限公司 | 一种数据更新方法和装置 |
CN109472439A (zh) * | 2018-09-13 | 2019-03-15 | 深圳市买买提信息科技有限公司 | 信用评估方法、装置、设备和系统 |
CN110046155A (zh) * | 2018-12-07 | 2019-07-23 | 阿里巴巴集团控股有限公司 | 特征数据库的更新、数据特征的确定方法、装置及设备 |
CN110147380A (zh) * | 2019-05-23 | 2019-08-20 | 腾讯科技(成都)有限公司 | 数据更新方法、装置、服务器以及存储介质 |
CN110276613A (zh) * | 2019-06-20 | 2019-09-24 | 卓尔智联(武汉)研究院有限公司 | 基于区块链的数据处理装置、方法及计算机可读存储介质 |
Non-Patent Citations (1)
Title |
---|
丁国浩 等: "《面向日志结构化数据存储的高效数据加载》", 《华东师范大学学报(自然科学版)》, pages 143 - 158 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107147501A (zh) | 时间戳处理方法及装置 | |
CN110233741B (zh) | 服务计费方法、装置、设备及存储介质 | |
CN106407191B (zh) | 一种数据处理方法及服务器 | |
CN110738477A (zh) | 一种对账方法、装置、计算机设备及存储介质 | |
CN111224831B (zh) | 用于生成话单的方法和系统 | |
CN107967279A (zh) | 分布式数据库的数据更新方法及装置 | |
CN105912679A (zh) | 一种数据查询的方法和装置 | |
CN114282011B (zh) | 知识图谱的构建方法和装置、图计算方法及装置 | |
CN111125118B (zh) | 关联数据查询方法、装置、设备及介质 | |
CN104503983A (zh) | 为搜索引擎提供网站认证数据的方法及装置 | |
CN111045735B (zh) | 个性化引导页推送方法、装置及系统 | |
CN108399266A (zh) | 数据抽取方法、装置、电子设备及计算机可读存储介质 | |
CN110825762A (zh) | 数据存储方法、装置及系统 | |
CN108537577B (zh) | 数据的有效性查询方法及装置、存储介质、服务器 | |
CN112328873A (zh) | 信息推荐方法、装置、设备及存储介质 | |
CN115879889A (zh) | 基于区块链的业务处理方法、装置和计算机设备 | |
CN112669163B (zh) | 基于大数据和云计算的金融业务管理方法及系统 | |
CN108021597B (zh) | 一种并行计数器、服务器和一种计数方法 | |
CN114519151A (zh) | 业务实验的流量分配方法及装置 | |
CN110929153A (zh) | 个性化启动页推送方法、装置及系统 | |
CN106777178A (zh) | 一种手机号码的存储方法及查询方法 | |
CN111274203B (zh) | 一种话单存储系统及方法 | |
CN111737729A (zh) | 基于业务数据区块链的评价数据存储方法及系统 | |
CN110334909A (zh) | 一种风险管控方法、装置及设备 | |
CN112015993B (zh) | 一种信息查询方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
AD01 | Patent right deemed abandoned |
Effective date of abandoning: 20240227 |
|
AD01 | Patent right deemed abandoned |