CN111259001B

CN111259001B - 基于区块链的数据新鲜度度量方法

Info

Publication number: CN111259001B
Application number: CN201911265690.2A
Authority: CN
Inventors: 张家锐
Original assignee: Hefei University
Current assignee: Hefei University
Priority date: 2019-12-11
Filing date: 2019-12-11
Publication date: 2023-04-07
Anticipated expiration: 2039-12-11
Also published as: CN111259001A

Abstract

本发明公开了一种基于区块链的数据新鲜度度量方法，包括以下步骤：以区块链系统为支撑，将共享域内所有系统的数据生产、数据维护、数据传播操作的结果全部按时间戳进入区块，每个区块记载一次操作，并有区分数据生产、数据维护、数据传播操作的标记；再通过对区块链的检索，解析区块，将同一“数据版权”对应的存储于各区块的“数据”进行比较，可以轻松、方便、快捷地找出指定“数据”是否最新鲜。本发明借助区块链的支撑，使得解决数据新鲜度度量的时间复杂度由传统技术方法O(n⁴)降低为O(n)，通过对区块链的一遍检索即可实现数据新鲜度度量，具有无须增加计算能力、无须增加网络带宽、成本低、效益高的特点。

Description

基于区块链的数据新鲜度度量方法

技术领域

本发明涉及区块链技术领域，特别是涉及一种基于区块链的数据新鲜度度量方法。

背景技术

随着互联互通、信息共享的逐步推进，跨系统获取其它系统所生产的数据已经成为一种常态。然而，由于我们并没有对被共享数据的“源”和“副本”建立有效的关联和约束，使得在应用中“源”与“副本”之间存在以下情况：

1.生产数据的系统可能在“源数据”被传播后对其进行更新(update)或删除(delete)；

2.通过共享获取到数据的系统，可能对该数据的“副本”进行随意处置，包括可能的清洗、修改(update)。

因此，在整个共享域内，被共享的“数据”可能存在：“源”与“副本”不一致、多个“副本”之间不一致。由此，我们需要对共享数据的游走轨迹进行跟踪、及时发现数据冲突、对数据的新鲜度进行度量。

解决数据验证问题基本原理是在共享域范围内，将“副本”与“源”进行实时比对。那么，在寻找“副本”对应的“源”时，传统方法需要：找到共享域内对应节点的库、该库的数据表、该表的某条记录，进行比对，比对结束的下一秒继续重复该步骤。因而利用传统技术来解决数据的新鲜度度量问题的时间复杂度为O(n⁴)。采用传统技术解决这些问题，理论上可行，实际上非常“棘手”。

因此亟需提供一种新型的数据新鲜度度量方法来解决上述问题。

发明内容

本发明所要解决的技术问题是提供一种基于区块链的数据新鲜度度量方法，能够将其时间复杂度降低为O(n)，即通过对区块链的一遍检索即可完成对应的计算，极大地提升了解决问题的效率。

为解决上述技术问题，本发明采用的一个技术方案是：提供一种基于区块链的数据新鲜度度量方法，包括以下步骤：

S1：以区块链系统为支撑，将共享域内所有系统的数据生产、数据维护、数据传播操作的结果全部按时间戳进入区块，每个区块记载一次操作，并有区分数据生产、数据维护、数据传播操作的标记；

S2：从区块链当前的链尾向链首或最近一次已检索位置进行顺序检索，对检索到的每一个区块文件进行解析，解析的结果写入区块解析数据表；所述区块解析数据表包含七个数据字段，分别为序号、数据版权、{值}、节点1、节点2、时间戳、操作标识；

S3：针对指定的数据版权，从所述区块解析数据表中查询出数据版权等于指定值的所有记录，再在此查询结果对应的活动数据集中，按时间戳升序排列，取第一条记录的节点1作为生产节点，取节点1等于生产节点且时间戳最大的记录的{值}作为{新鲜的值}，删除节点1等于生产节点且操作标识不为传播的所有记录，剩余记录分别取其 {值}与{新鲜的值}比较，如有差异，则记载其节点1或节点2并提示。

在本发明一个较佳实施例中，所述数据为社会活动或事务处理所需的一个或多个相关的数据集，采用如下元组表示：

数据＝<键，{值}> (1)

其中，键用以区分不同的数据；{值}表示相关数据的具体数值的集合。

在本发明一个较佳实施例中，所述数据版权是生产数据的环境、参与者，以及时间标记的计算结果，其逻辑涵义为：参与者们在一个特定时刻，通过特定信息化系统完成了某个事务处理，数据版权模型如下式所示：

数据版权＝计算(<{服务对象},{服务提供者},{数据维护者},{服务工具},服务时间戳>) (2)

在(2)式中，计算采用SHA256或国密算法SM3；

服务对象：指事务处理过程中被服务的人群；

服务提供者：指操作“服务工具”向“服务对象”提供服务的人群；

数据维护者：指维护事务处理结果数据的人群，一般为DBA；

服务工具：指提供服务的信息系统或业务系统；

服务时间戳：指该事务处理结束的时间戳。

进一步的，一个事务处理的结果形式化表示为以下元组：

事务处理＝<数据版权，{值}> (3)

其中，数据版权是数据的键，而{值}是该数据版权对应事务处理的数据变量的值的集合。

在本发明一个较佳实施例中，步骤S3的具体步骤包括：

S301:接收用户指定的数据版权，其值赋给变量A；

S302:在所述区块解析数据表中查询出“数据版权”＝A的所有记录；

S303:如果查询结果的记录数＝0，则提示：未找到对应数据，进入S314；

S304:如果查询结果的记录数＝1，则提示：该数据是新鲜的，进入S314；

S305:按时间戳的升序对查询结果记录进行排序；

S306:取第一条记录的“节点1”值赋给“生产节点”，“{值}”赋给“{新鲜的值}”；

S307:选择“节点1”值等于“生产节点”值的所有记录，取其中“时间戳”最大的记录，并将该记录的“{值}”赋给“{新鲜的值}”；

S308:删除“节点1”值等于“生产节点”值且“操作标识”值不为“传播”的所有记录；

S309:如果剩余记录数为0，则提示：该数据是新鲜的，进入S314；

S310:设定p为记录指针，p＝1；

S311:读取p记录的“{值}”，并与“{新鲜的值}”比较；

S312:如果比较结果有差异，则判断“操作标识”是否为“传播”，若是，则记载“节点2”并提示差异，否则记载“节点1”并提示差异；

S313:判断p是否为最后一条记录，如果不是，则p＝p+1，进入S311；

S314:结束。

本发明的有益效果是：

(1)本发明利用区块链技术进行数据新鲜度度量，在共享域内，将所有系统的数据生产(insert)、数据维护(update或delete)、数据传播(数据的“副本”传输)行为和结果格式化成“交易”，并按发生的时间顺序写入对应的区块，存储于区块链上；再通过对区块链的检索，解析区块，将同一“数据版权”对应的存储于各区块的“数据”进行比较，可以轻松、方便、快捷地找出指定“数据”是否最新鲜；

(2)本发明借助区块链的支撑，使得解决数据新鲜度度量的时间复杂度由传统技术方法O(n⁴)降低为O(n)，通过对区块链的一遍检索即可实现数据新鲜度度量，其方法本身具有无须增加计算能力、无须增加网络带宽、成本低、效益高的特点；另外，解决数据新鲜度度量问题是互联互通、信息共享工作推进中存在的刚性需求，为数据中心升级为数据版权中心、数据验证中心提供了一种可靠的技术方法，具有很高的应用价值。

附图说明

图1是数据生产、数据维护、数据传播操作入链的示意图；

图2是检索区块链的流程图；

图3是本发明基于区块链的数据新鲜度度量方法的流程图。

具体实施方式

下面结合附图对本发明的较佳实施例进行详细阐述，以使本发明的优点和特征能更易于被本领域技术人员理解，从而对本发明的保护范围做出更为清楚明确的界定。

首先对本发明中出现的术语进行解释，以使本发明所述方法能更易于被本领域技术人员理解。

1.1.数据

权威文献指出，数据(data)是事实或观察的结果，是对客观事物的逻辑归纳，是用于表示客观事物的未经加工的原始素材。

一般而言，通过数字化手段将某个事实或观察结果(如：社会活动、事务处理结果)记载下来，需要通过一个或多个相关的数据集来实现。而这一个或多个相关的数据集通常就被称为这个社会活动或事务处理所对应的“数据”。且这个“数据”中用以标识其唯一性的部分被称为“键”，剩下的数据被称为“值”，即如下的元组：

数据＝<键，{值}> (1)

在(1)式中，“键”用以区分不同的数据；“{值}”表示相关数据的具体数值的集合。

本发明中沿用这种习惯，以下所有“数据”皆来源于记载事务处理结果的“数据集”，皆用(1)式描述。

1.2.数据版权

数据版权是生产数据的环境、参与者，以及时间标记的计算结果。其逻辑涵义为：“参与者”们在一个特定“时刻”，通过特定“信息化系统”完成了某个“事务处理”。因此，数据版权模型可用下式表示：

在(2)式中，“计算”可用SHA256或国密算法SM3。

服务对象：指事务处理过程中被服务的人群；

数据维护者：指维护事务处理结果数据的人群，一般为DBA(Database Administrator，数据库管理员)；

服务工具：指提供服务的信息系统或业务系统；

服务时间戳：指该事务处理结束的时间戳。

利用“公式(1)和公式(2)”,可将一个事务处理的结果形式化表示为以下元组：

事务处理＝<数据版权，{值}>(3)

其中，“数据版权”是“数据”的键，而{值}是该“数据版权”对应事务处理的数据变量的值的集合。

在数据生产阶段，“数据版权”得以确定。在数据维护阶段：如果是更新(update)，根据(3)式可知，更新数据的{值}时，其“数据版权”不发生变化；如果是删除(delete)，则数据的{值}被删除，其对应的“数据版权”同时消失。在数据传播阶段，传递数据的 {值}的同时，也同时传播“数据版权”，即数据传播不改变“数据版权”。

1.3.数据新鲜度

是指共享域内，某系统在某时刻生产了指定“数据版权”的“数据”，该数据在不同时刻被分别传播至其它节点，之后，生产系统对该数据进行了更新，使得之前已经接收共享数据的节点与生产系统中对应该“数据版权”的最新“数据”存在差异。此时，称之前被共享的数据是不新鲜的。

例3：Node1节点在时间戳为4658971时刻生产了数据版权为：

391ef5239da2a3904cda1fd995fb7c43的数据，其值为：

{姓名:刘强,性别:男,民族:汉,出生年月:198607,学历:本科,学位:工学学士,职业:中学数学教师,婚姻状况:未婚}。

该数据于时间戳为4659256时刻被传播至Node2，于时间戳为4659645时刻由Node2被传播至Node3，之后，

Node1节点于时间戳为4659856时刻对该数据进行了更新，其值为：

{姓名:刘强,性别:男,民族:汉,出生年月:198607,学历:本科,学位:工学学士,职业:中学数学教师,婚姻状况:已婚}。

此时，Node2、Node3节点对应数据版权为：

391ef5239da2a3904cda1fd995fb7c43的数据，其值为：

而该数据生产系统节点Node1中，数据版权为：

391ef5239da2a3904cda1fd995fb7c43的数据，其值被更新为：

则说明，Node2、Node3节点所获取的数据不是新鲜的。

请参阅图3，一种基于区块链的数据新鲜度度量方法，包括以下步骤：

结合图1，给出了共享域内所有业务系统的数据生产(对应图上的“新增”)、数据维护(对应图上的“修改”、“删除”)、数据传播(对应图上的“传播”)操作时，其数据入链的示意图。每个业务系统每次上述所指的操作将被格式化为一个区块进入当前区块链的链尾，在这些区块中有特定变量记载了操作的类型标识(0表示“新增”，1表示“修改”，2表示“删除”，3表示“传播”，4表示“其它”)。

S2：从区块链当前的链尾向链首或最近一次已检索位置进行顺序检索，对检索到的每一个区块文件进行解析，解析的结果写入区块解析数据表；最近一次已检索位置即每次检索的当时“链尾”区块位置记载在检索记录表中。所述检索记录表的结构如表1 所示。

表1

该数据表包含两个数据字段，分别为：

“时间戳”：表示最近一次检索的时间；

“区块头的哈希值”：表示最近一次检索时的“链尾”区块的区块头哈希值。

如果该数据表的记录数为0，则表示未检索过，否则仅有的一条记录记载了最近一次检索的最终位置。

所述区块解析数据表的结构如表2所示。

表2

该数据表包含七个数据字段，分别为：

“序号”：整数，由系统自动增加并产生，是记录的key；

“数据版权”：32个字节，是公式(2)计算的结果；

“{值}”：是该区块中除“数据版权”外的其它数据项的值的集合；

“节点1”：是节点名称或节点ID，不能为空。当“操作标识”为3时，表示发送数据的节点；

“节点2”：是节点名称或节点ID，当“操作标识”为3时不能为空，表示接收数据的节点；

“时间戳”：略；

“操作标识”：1位数字。其中，0表示新增；1表示修改；2表示删除；3表示传播； 4表示其它。

结合图2，给出了检索区块链的操作过程，每次检索都是从当前的“链尾”区块开始，一直检索到“链首”(第一次检索)或“上次检索位置区块”(非第一次检索)为止。

具体过程如下：

S201:读取“检索记录表”，统计其记录数；

S202:如果“记录数>0”，则进入SA201；

S203:如果“记录数＝0”，则读取区块链系统的“链尾”文件；

S204:获取当前区块；

S205:依据区块结构解析当前区块；

S206:判断当前区块是否为“链首”区块？

S207:如果不是，则将解析结果写入“区块解析数据表”，读取“前向区块”指针，进入S204；否则进入SA207；

SA201:获取“最近检索的区块位置值”；

SA202:读取区块链系统的“链尾”文件；

SA203:获取当前区块；

SA204:依据区块结构解析当前区块；

SA205:判断当前区块是否为“最近检索的区块位置值”区块？

SA206:如果不是，则将解析结果写入“区块解析数据表”，读取“前向区块”指针，进入SA203；否则进入SA207；

SA207:用当前“时间戳”和“链尾区块值”替代“检索记录表”中内容；

SA208:结束。

S3：针对指定的数据版权，从所述区块解析数据表中查询出数据版权等于指定值的所有记录，再在此查询结果对应的活动数据集中，按时间戳升序排列，取第一条记录的节点1作为生产节点，取节点1等于生产节点且时间戳最大的记录的{值}作为{新鲜的值}，删除节点1等于生产节点且操作标识不等于3的所有记录，剩余记录分别取其{值} 与{新鲜的值}比较，如有差异，则记载其节点1或节点2并提示。具体步骤包括：

S301:接收用户指定的数据版权，其值赋给变量A；

S305:按时间戳的升序对查询结果记录进行排序；

S308:删除“节点1”值等于“生产节点”值且“操作标识”值不等于3的所有记录；

S310:设定p为记录指针，p＝1；

S311:读取p记录的“{值}”，并与“{新鲜的值}”比较；

S312:如果比较结果有差异，则判断“操作标识”是否为3，若是，则记载“节点 2”并提示差异，否则记载“节点1”并提示差异；

S314:结束。

下面结合一实施例对本发明所述方法进行详细阐述：

共享域内有三个业务系统：公安人口信息系统、社区服务平台、民政殡葬死亡登记系统。其应用场景如下：

X市Y区公安分局，于1982年6月11日9时32分12秒，由工作人员张刚操作“公安人口信息管理系统”对群众杨某的人口信息进行了登记，维护该数据的DBA为刘翔东。其记载的信息有：

{姓名:杨某,性别:男,民族:汉,居民身份证号码:340100********0617,居住地:Z社区K1小区9栋602室,生存状态:正常}

2010年10月12日14时20分17秒，Z社区服务平台工作人员柳红通过X市共享交换平台向公安局张刚申请第356号接口的执行，获得本社区居民杨某的有关信息。

因车祸事故，杨某身故，2016年8月2日10时12分16秒，X市的民政局殡葬部门工作人员尚小龙操作民政殡葬死亡登记系统，对杨某的死亡事实进行了登记，维护该数据的工作人员为赵鸿滨。其登记的信息有：

{姓名:杨某,性别:男,居民身份证号码:340100********0617,死亡时间:20160802, 死亡原因:车祸}

2016年8月6日8时24分38秒，民政殡葬死亡登记系统将杨某死亡信息共享给公安人口信息系统，因此，公安人口信息系统于2016年8月6日11时8分28秒，对杨某的人口信息进行了更新。更新后的信息为：

{姓名:杨某,性别:男,民族:汉,居民身份证号码:340100********0617,居住地:Z社区K1小区9栋602室,生存状态:死亡}

以下结合区块链系统对应用场景进行分析：

假定，实施例中数据版权计算假定采用SHA256算法；

公安人口信息系统、社区服务平台、民政殡葬死亡登记系统在区块链网络中对应的节点名分别为N1，N2，N3。

1.公安人口信息系统：于1982年6月11日9时32分12秒进行了一次事务处理，生产了对应数据，其中，

“数据版权”＝SHA256(杨某,张刚,刘翔东,公安人口信息管理系统,392607132)＝0cdea35e056dcac311e1d103498286c76cfbc981877070404bba44f5dfcc66ef。

数据的“{值}”＝{姓名:杨某,性别:男,民族:汉,居民身份证号码:340100********0617,居住地:Z社区K1小区9栋602室,生存状态:正常}

该事务处理的结果数据将被写入对应区块，包括：

0cdea35e056dcac311e1d103498286c76cfbc981877070404bba44f5dfcc66ef,{杨某,男, 汉,340100********0617,Z社区K1小区9栋602室,正常},392607132,N1,null,0

2.社区服务平台：与公安人口信息系统之间执行一个数据传播事务，被写入区块的数据如下：

0cdea35e056dcac311e1d103498286c76cfbc981877070404bba44f5dfcc66ef,{杨某,男, 汉,340100********0617,Z社区K1小区9栋602室,正常},1286864417,N1,N2,3

3.民政殡葬死亡登记系统：因对杨某的死亡进行登记，形成一次数据生产：“数据版权”＝SHA256(杨某,尚小龙,赵鸿滨,民政殡葬死亡登记系统,1470103936) ＝134cb96c0e2ede8af5a3071f61292cc0a0fe13a075209d174d3e375389213dac。

数据的“{值}”＝{姓名:杨某,性别:男,居民身份证号码:340100********0617,死亡时间:2016.8.2,死亡原因:车祸}。

该事务处理的结果数据被写入区块，包括：

134cb96c0e2ede8af5a3071f61292cc0a0fe13a075209d174d3e375389213dac,{杨某, 男,340100********0617,20160802,车祸},1470103936,N3,null,0

4.民政殡葬死亡登记系统将杨某因车祸死亡的信息共享给公安人口信息系统，形成一次数据传播事务，被写入区块的数据如下：

134cb96c0e2ede8af5a3071f61292cc0a0fe13a075209d174d3e375389213dac,{杨某, 男,340100********0617,20160802,车祸},1470443078,N3,N1,3

5.公安人口信息系统因接收了民政殡葬死亡登记系统共享的杨某死亡信息，对其原人口信息进行了更新，其结果被写入区块，包括：

0cdea35e056dcac311e1d103498286c76cfbc981877070404bba44f5dfcc66ef,{杨某,男, 汉,340100********0617,Z社区K1小区9栋602室,死亡},1470452908,N1,null,1

以下根据本发明给出的方法进行数据新鲜度度量的处理，假定“检索记录表”为空，则说明是第一次对区块链进行检索。

按照“图2”的处理流程，从“链尾”向“链首”进行区块检索，并解析每一个区块，解析结果写入“区块解析数据表”中，那么，检索结束后“区块解析数据表”的内容如下：

当用户输入待处理的“数据版权”值：0cdea35e056dcac311e1d103498286c76cfbc981877070404bba44f5dfcc66ef后，查询“区块解析数据表”中“数据版权”等于输入值的所有记录，并按时间戳升序排列，结果如下：

表4从“区块解析数据表”中查询出符合条件并按时间戳升序排列的记录

根据图3的处理流程，参见“表4”数据可知，指定的“数据版权”对应的数据，在生产节点N1做过更新(update)，其新鲜的“{值}”为：

{杨某,男,汉,340100********0617,Z社区K1小区9栋602室,死亡}

而节点N2早前通过共享获得的有关杨某的信息为：

{杨某,男,汉,340100********0617,Z社区K1小区9栋602室,正常}

是不新鲜的。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于区块链的数据新鲜度度量方法，包括以下步骤：

S3：针对指定的数据版权，从所述区块解析数据表中查询出数据版权等于指定值的所有记录，再在此查询结果对应的活动数据集中，按时间戳升序排列，取第一条记录的节点1作为生产节点，取节点1等于生产节点且时间戳最大的记录的{值}作为{新鲜的值}，删除节点1等于生产节点且操作标识不为传播的所有记录，剩余记录分别取其{值}与{新鲜的值}比较，如有差异，则记载其节点1或节点2并提示。

2.根据权利要求1所述的基于区块链的数据新鲜度度量方法，其特征在于，所述数据为社会活动或事务处理所需的一个或多个相关的数据集，采用如下元组表示：

数据＝<键，{值}> (1)

3.根据权利要求1所述的基于区块链的数据新鲜度度量方法，其特征在于，所述数据版权是生产数据的环境、参与者，以及时间标记的计算结果，其逻辑涵义为：参与者们在一个特定时刻，通过特定信息化系统完成了某个事务处理，数据版权模型如下式所示：

在(2)式中，计算采用SHA256或国密算法SM3；

服务对象：指事务处理过程中被服务的人群；

数据维护者：指维护事务处理结果数据的人群；

服务工具：指提供服务的信息系统或业务系统；

服务时间戳：指该事务处理结束的时间戳。

4.根据权利要求2或3所述的基于区块链的数据新鲜度度量方法，其特征在于，一个事务处理的结果形式化表示为以下元组：

事务处理＝<数据版权，{值}> (3)

5.根据权利要求1所述的基于区块链的数据新鲜度度量方法，其特征在于，步骤S3的具体步骤包括：

S301:接收用户指定的数据版权，其值赋给变量A；

S305:按时间戳的升序对查询结果记录进行排序；

S310:设定p为记录指针，p＝1；

S311:读取p记录的“{值}”，并与“{新鲜的值}”比较；

S314:结束。