一种数据存储方法、装置及设备
技术领域
本说明书实施例涉及信息技术领域,尤其涉及一种数据存储方法、装置及设备。
背景技术
在块链式的账本中,同一业务属性(例如,同一用户名、同一项目名等等)相关的数据记录被分散的存储于各数据块上,难以体现数据记录之间的相关性和连续性。
基于此,需要一种更有利于体现数据之间相关性的数据存储方案。
发明内容
本申请实施例的目的是提供一种有利于体现数据之间相关性的数据存储方案。
为解决上述技术问题,本申请实施例是这样实现的:
一种数据存储方法,应用于以块链式账本存储数据的中心化的数据库服务端中,包括:
获取包含业务属性的待存储数据记录;
在所述块链式账本中,获取包含同一业务属性的前一数据记录;
确定所述前一数据记录的哈希值,生成包含所述哈希值和待存储数据记录的合并数据记录;
将所述合并数据记录写入所述块链式账本中。
对应的,本说明书实施例还提供一种数据存储装置,应用于以块链式账本存储数据的中心化的数据库服务端中,包括:
第一获取模块,获取包含业务属性的待存储数据记录;
第二获取模块,在所述块链式账本中,获取包含同一业务属性的前一数据记录;
生成模块,确定所述前一数据记录的哈希值,生成包含所述哈希值和待存储数据记录的合并数据记录;
写入模块,将所述合并数据记录写入所述块链式账本中。
通过本说明书实施例所提供的方案,在接收到用户需要存储的数据记录时,根据数据记录中的业务属性,获取同一业务属性下前一数据记录的哈希值,生成合并数据记录进行存储,在账本中同一业务属性下的数据记录分散在多个数据块间进行存储时,实现用户数据记录之间的相互关联,从而日后可以从存储的合并数据记录中进行链路式的查询或者验证,提高用户体验。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本说明书实施例。
此外,本说明书实施例中的任一实施例并不需要达到上述的全部效果。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本说明书实施例所涉及的系统架构示意图;
图2是本说明书实施例提供的一种数据存储方法的流程示意图;
图3为本说明书实施例所提供的合并数据记录的生成方式的示意图;
图4为本说明书实施例提供的一种数据记录的索引创建方法的流程示意图;
图5是本说明书实施例提供的一种数据存储装置的结构示意图;
图6是用于配置本说明书实施例方法的一种设备的结构示意图。
具体实施方式
为了使本领域技术人员更好地理解本说明书实施例中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行详细地描述,显然,所描述的实施例仅仅是本说明书的一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于保护的范围。
在实际应用中,数据库服务端面向的常常为各种机构,各机构则可以将它们与第三方用户(包括其它机构或者个人)之间所产生的数据记录在数据库服务端进行存储。如图1所示,图1为本说明书实施例所涉及的系统架构示意图。在该示意图中,一个企业机构可以面向多名用户,而每个用户均可以通过其对应的企业机构向数据库服务端进行查询。
例如,数据库服务端对接的机构是某金融产品公司,数据记录可以是个人用户在该金融产品公司的理财记录;或者,对接的机构可以是政府部门,其中的数据记录是政府部门对于该部门所管理的公共项目的开销明细;或者,数据库服务端对接的机构是某个医院,其中的数据记录是病人的病历;或者,数据库服务端对接的机构是第三方支付机构,数据记录可以是个人用户通过该机构的支付记录,等等。
对于用户而言,其数据记录通常是分散式的存储在多个数据块中的。例如,医院对于所有病人的病历记录按照时间产生的顺序,依次上传。则同一用户的不同病历记录可能就被分散的存储于不同的数据块中。基于此,本说明书实施例提供一种块链式账本中的数据存储方案,以体现各数据记录之间的相关性。
以下结合附图,详细说明本说明书各实施例提供的技术方案。如图2所示,图2是本说明书实施例提供的一种数据存储方法的流程示意图,该流程具体包括如下步骤:
S201,获取包含业务属性的待存储数据记录。
在每个与数据库服务端对接的机构中,所述业务属性在所述对接机构中,一般而言是唯一存在的,业务属性基于不同的业务场景,可以包括用户名、用户身份证号、驾照编号、手机号、项目唯一编号等等。
例如,对于第三方支付机构而言,数据记录是用户的消费记录,此时的业务属性即为用户标识(包括手机号、身份证号、用户名等等),或者对该用户标识进行哈希算法所得到的哈希值;或者,对于政府机构而言,数据记录为多个公共项目的开销流水,则此时的业务属性可以为每个项目的唯一编号。
S203,在所述块链式账本中,获取包含同一业务属性的前一数据记录。
具体而言,首先,数据库服务端可以从待存储数据记录中的指定标识字段获取业务属性。
指定标识字段的具体位置以及获取方式可以是数据库服务端和对接机构事先协商。例如,对接机构所提供的数据记录为标准结构化的数据记录时,指定标识字段可以从数据记录中指定偏移量获取,或者由特定字符标识起始位置和结束位置(例如,以字符OE标识业务属性的开头,以字符OF标识结尾);又或者,对接机构所提供的数据记录为非结构化的数据时,在对接机构上传时可以直接在每条数据记录的开头拼接上包含业务属性的头部,数据库服务端可以直接从头部获取每条数据记录的业务属性。
在确定了业务属性之后,一种可行的方式即为,数据库服务端可以从账本中由后往前对数据记录进行遍历,获取包含同一业务属性的前一数据记录;或者,另一种可行的方式即为,从预先建立的倒排索引中查询获取包含同一业务属性的前一数据记录。
倒排索引中包含了业务属性和位置信息的对应关系,所述位置信息包括数据记录所处的数据块的块高,以及,在所处的数据块中的偏移量。倒排索引的具体建立方式以及使用方式将在下文详述。
此处的前一数据记录指的是在块链式账本中的写入时间(即数据记录所处的数据块的成块时间)距离当前最近的数据记录,由于块链式账本的数据块块高和成块时间都是单调递增,因此,前一数据记录也可以是指所处数据块的块高最大的数据记录。
S205,确定所述前一数据记录的哈希值,生成包含所述哈希值和待存储数据记录的合并数据记录。
前一数据记录的哈希值指的是前一合并数据记录的哈希值。
合并数据记录的生成方式可以是直接拼接前一数据的哈希值和待存储的数据记录,例如,将前一数据的哈希值置于待存储的数据记录的头部或者尾部,拼接得到合并数据记录。如图3所示,图3为本说明书实施例所提供的合并数据记录的生成方式的示意图。由该示意图可以看出,前一数据记录是可以基于Pre-hash(前一数据记录的哈希)一直向前追溯直至最初的数据记录的。
S207,将所述合并数据记录写入所述块链式账本中。
具体而言,在以块链式账本存储数据的中心化的数据库服务端中,合并数据记录写入账本的方式如下所述:
获取至少一条合并数据记录,确定各合并数据记录的哈希值。
此处的合并数据记录,即包含了用户所产生的的待存储数据记录和前一数据记录的哈希值。
用户所产生的的待存储数据记录可以是客户端个人用户的各种消费记录,也可以是应用服务器基于用户的指令,在执行业务逻辑时产生的业务结果、中间状态以及操作记录等等。具体的业务场景可以包括消费记录、审计日志、供应链条、政府监管记录、医疗记录等等。
当达到预设的成块条件时,当达到预设的成块条件时,确定待写入数据块中的各合并数据记录,生成包含数据块的哈希值和合并数据记录的第N个数据块。
在最细粒度下,可以一条合并数据记录即生成一个数据块,在这种方式下对于服务端的计算和存储能力都要求较高。
更常见的应用方式为在一个数据块中存储多条合并数据记录。因此,一般会基于预设条件生成数据块,所述预设的成块条件包括:待存储的合并数据记录的数量达到数量阈值,例如,每接收到一千条合并数据记录时,生成一个新数据块,将一千条合并数据记录写入块中;或者,距离上一次成块时刻的时间间隔达到时间阈值,例如,每隔5分钟,生成一个新数据块,将在这5分钟内接收到的合并数据记录写入块中。
此处的N指的是数据块的序号,换言之,在本说明书实施例中,数据块是以块链的形式,基于成块时间的顺序先后排列,具有很强的时序特征。其中,数据块的块高基于成块时间的先后顺序单调递增。块高可以是序号,此时第N个数据块的块高即为N。
块高也可以其它方式生成,例如,确定数据块的成块时间,而后采用对称加密算法将所述成块时间其转换为整型数据,将所述整型数据作为所述数据块的块高,成块时间越早,整型数据越小。具体而言,这里的整型可以是一个大整型数据,例如,一个13位的大整数。从而,由于大整型是基于时间对称加密得到的,从而在需要数据块的成块时间时,可以同样的对称解密获得成块时间。如,对于成块时间“20xx-01-19 03:14:07.938576”,在经过对称加密之后,可以转换为一个大整型“1547838847938”,由于整型数据随时间单调递增,因此,“1547838847938”。此时即可以做为该数据块的块高,用于标识该数据块。
当N=1时,即此时的数据块为为初始数据块。初始数据块的哈希值和块高基于预设方式给定。例如,初始数据块中不包含数据记录,哈希值则为任一给定的哈希值,块高blknum=0;又例如,初始数据块的生成触发条件与其它数据块的触发条件一致,但是初始数据块的哈希值由对初始数据块中的所有内容取哈希确定。
当N>1时,由于前一数据块的内容和哈希值已经确定,则此时,可以基于前一数据块(即第N-1个数据块)的哈希值生成当前数据块(第N个数据块)的哈希值,例如,一种可行的方式为,确定每一条将要写入第N个块中的合并数据记录的哈希值,按照在块中的排列顺序,生成一个默克尔树,将默克尔树的根哈希值和前一数据块的哈希值拼接在一起,再次采用哈希算法,生成当前块的哈希值。又例如,还可以按照块中的合并数据记录的顺序进行拼接并取哈希得到整体数据记录的哈希值,拼接前一数据块的哈希值和整体数据记录的哈希值,并对拼接得到的字串进行哈希运算,生成数据块的哈希值。
在块链式账本的数据块中,可以包括块头和块体,块头用于存储关于数据块的元数据,元数据可以包括诸如前一数据块的哈希值,自身数据块的哈希值,自身数据块中的数据记录的默克尔树的根哈希,自身数据块中的收据树的根哈希值,版本号等等;块体中则可以同于存储数据记录,以及,数据记录对应的收据记录等等。
通过前述的数据块的生成方式,每一个数据块通过哈希值确定,数据块的哈希值由数据块中的数据记录的内容、顺序以及前一数据块的哈希值决定。用户可以随时基于数据块的哈希值发起验证,对于数据块中任何内容(包括对于数据块中数据记录内容或者顺序的修改)的修改都会造成在验证时计算得到的数据块的哈希值和数据块生成时的哈希值不一致,而导致验证失败,从而实现了中心化下的不可篡改。
在每将一条合并数据记录写入数据块之后,数据库服务端即可以将用户所产生的合并数据记录的哈希值返回给客户端,以便客户端随时发起查询和验证。
当用户在查询时,输入相应的哈希值至数据库服务端,服务端即可以返回相应的合并数据记录至客户端,从而客户端可以从合并数据记录中得到自身所产生的待存储的数据记录,以及前一数据记录的哈希值。进而,在客户端有需要时,还可以进行进一步的往前追溯查询,直至客户端所产生的第一条写入账本的数据记录,得到一条完整的基于业务属性的数据记录的链路。在客户端进行验证时也是类似的原理。
通过本说明书实施例所提供的方案,在接收到用户需要存储的数据记录时,根据数据记录中的业务属性,获取同一业务属性下前一数据记录的哈希值,生成合并数据记录进行存储,在账本中同一业务属性下的数据记录虽然是分散在多个数据块间进行存储,但是实现相互关联,从而日后可以从存储的合并数据记录中进行链路式的查询或者验证,提高用户体验。
在本说明书实施例中,合并数据记录通常是分散式的存储在多个数据块中,因此,还可以在合并数据记录写入账本后,创建相应的索引,以便查询。具体而言,所述索引的创建方式如图4所示,图4为本说明书实施例提供的一种数据记录的索引创建方法的流程示意图,该流程具体包括如下步骤:
S401,获取数据记录中的业务属性。
获取数据记录中的业务属性的方式在前文已经进行了说明,此处不再赘述。
S403,确定所述数据记录在账本中的位置信息。
如前所述,一个块链式的账本由多个数据块组成,同时,一个数据块中通常包含多个合并数据记录。因此,在本说明书实施例中,所述的位置信息具体指的是一条合并数据记录被保存时,处于账本中的哪个数据块上,以及,在该数据块中的偏移量。
在本说明书实施例所提供的数据块中,可以有多种方式用来标识不同的数据块,包括数据块的哈希值或者块高。
数据块的哈希值为根据前一区块哈希值和自身数据记录进行哈希计算而得到的哈希值,可以用于唯一、明确地标识一个数据块。在块链式的账本中,通常第一个数据块其块高为0,以后每增加一个数据块,块高加1;或者,还可以将数据块的成块时间转换为一个大的单调递增整型数据(一般为12至15位)序列,作为数据块的块高。因此,一个数据块通常有一个明确的块高。
在一个已经确定的要写入数据库的数据块,其中数据记录的排序也已经固定,因此一个数据记录在该数据块中的序号也是明确的,在数据记录的长度为固定单位时,序号同样可以用于明确该数据记录在其所处的数据块中的位置信息。即,序号同样也可以用于指示偏移量。
同时,在一个数据块中,由于通常包含了多个数据记录,因此,还可以用各数据记录在该数据块中的地址偏移量来分别标识数据块中的数据记录。显而易见,在同一个数据块中,各数据记录的地址偏移量并不相同。
当然,由于在本说明书实施例所提供的方式中,数据块的具体格式是可以自定义的(例如,数据块的块头中所包含的元数据信息和备注信息,数据块的块高所采取的形式等等),在不同的格式下,位置信息的内容也会有所不同,这并不构成对本方案的限定。
S405,建立所述业务属性和位置信息的对应关系,写入以所述业务属性为主键的倒排索引。
在该索引中,主键是合并数据记录中所包含的业务属性。具体的写入方式为,当索引中的主键不包含所述业务属性时,在索引表中创建以所述业务属性为主键的索引记录。
当所述索引中的主键包含所述业务属性时,将所述位置信息写入所述业务属性所处的索引记录。需要说明的是,此处的写入不是覆盖性的写入,而是将位置信息添加到该索引记录的值中,与其它位置信息并列存在与该索引记录中。
如表1所示,表1为本说明书实施例所提供的一种示例性索引表。其中Key即为业务属性的具体值,Value部分的每个数组即为一条位置信息,每个数组中的前部分块高,后部分为合并数据记录在该数据块中的序号,通过块高和序号即可以唯一的确定一条合并数据记录。容易理解,在索引表中,一个key可以对应于多个位置信息。
表1
Key |
Value |
0X123456 |
(2,08),(2,10),(300,89),(300,999) |
344X0001 |
(5,01),(8,22) |
…… |
…… |
通过本说明书实施例所提供的方案,对于写入账本的数据记录,确定出数据记录的业务属性,以及在账本中的存储位置,建立起二者的对应关系,创建以业务属性为主键的倒排索引,不必了解用户的业务详情,从索引中即可以基于业务属性对于数据记录进行相应统计,以及后续的查询和验证。
在一种实施例中,获取包含同一业务属性的前一数据记录时,即可以从前述的索引表中进行查询获取。例如,若有一条新的待存储记录中,其业务属性为“344X0001”,则此时从表中可以查询得到其对应的数据记录所处的块高为5和8,因此,可以根据块高的最大值“8”所对应的位置信息(8,22)获取前一数据记录。
进一步地,如果块高的最大值所对应的位置信息存在多条,则此时,可以根据偏移量的大小来确定前一数据记录的位置信息。例如,若有一条新的待存储记录中,其业务属性为“0X123456”,则此时可以查询得到该业务属性所对应的块高的最大值为300,存在两条对应的位置信息(300,89),(300,999),此时,则可以基于偏移量的大小,确定位置信息(300,999)来获取前一数据记录。
在一种实施例中,如果在倒排索引中基于业务属性查询不到相应的位置信息,或者,遍历账本也查询不到包含同一业务属性的数据记录。则,此时可以认定在该账本中,该业务属性为初次写入,则此时,可以将待存储数据记录本身确定为所述前一数据记录。
对应的,本说明书实施例还提供一种数据存储装置,应用于以块链式账本存储数据的中心化的数据库服务端中,如图5所示,图5是本说明书实施例提供的一种数据存储装置的结构示意图,包括:
第一获取模块501,获取包含业务属性的待存储数据记录;
第二获取模块503,在所述块链式账本中,获取包含同一业务属性的前一数据记录;
生成模块505,确定所述前一数据记录的哈希值,生成包含所述哈希值和待存储数据记录的合并数据记录;
写入模块507,将所述合并数据记录写入所述块链式账本中。
进一步地,所述第二获取模块503,从预先建立的倒排索引中查询获取所述业务属性所对应的位置信息,其中,所述位置信息包括数据记录所处的数据块的块高,以及,在所处的数据块中的偏移量;确定所述位置信息中的块高的最大值;根据所述块高的最大值所对应的位置信息获取所述前一数据记录。
进一步地,所述第二获取模块503还用于,若所述倒排索引中查询所述获取所述业务属性所对应的位置信息失败,将所述待存储数据记录本身确定为所述前一数据记录。
进一步地,所述写入模块507,获取至少一条合并数据记录,确定各合并数据记录的哈希值;当达到预设的成块条件时,确定待写入数据块中的各合并数据记录,生成包含数据块的哈希值和数据记录的第N个数据块,具体包括:
当N=1时,初始数据块的哈希值和块高基于预设方式给定;
当N>1时,根据待写入数据块中的各合并数据记录和第N-1个数据块的哈希值确定第N个数据块的哈希值,生成包含第N个数据块的哈希值和各合并数据记录的第N个数据块,其中,数据块的块高基于成块时间的先后顺序单调递增。
进一步地,所述预设的成块条件包括:待存储的数据记录数量达到数量阈值;或者,距离上一次成块时刻的时间间隔达到时间阈值。
进一步地,所述装置还还包括索引建立模块509,获取待存储数据记录中的业务属性;确定所述数据记录在账本中的位置信息,所述位置信息包括数据记录所处的数据块的块高,以及,在所处的数据块中的偏移量;建立所述业务属性和位置信息的对应关系,写入以所述业务属性为主键的倒排索引。
本说明书实施例还提供一种计算机设备,其至少包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,处理器执行所述程序时实现图2所示的数据存储方法。
图6示出了本说明书实施例所提供的一种更为具体的计算设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
本说明书实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现图2所示的数据存储方法。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本说明书实施例可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本说明书实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本说明书实施例各个实施例或者实施例的某些部分所述的方法。
上述实施例阐明的系统、方法、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于方法实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的方法实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,在实施本说明书实施例方案时可以把各模块的功能在同一个或多个软件和/或硬件中实现。也可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅是本说明书实施例的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本说明书实施例原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本说明书实施例的保护范围。