CN111222164B

CN111222164B - 联盟链数据发布的隐私保护方法

Info

Publication number: CN111222164B
Application number: CN202010026466.4A
Authority: CN
Inventors: 李先贤; 蒋权; 王利娥; 石贞奎; 刘鹏
Original assignee: Guangxi Normal University
Current assignee: Beijing Ruihang Zhizhen Technology Co ltd
Priority date: 2020-01-10
Filing date: 2020-01-10
Publication date: 2022-03-25
Anticipated expiration: 2040-01-10
Also published as: CN111222164A

Abstract

本发明公开一种联盟链数据发布的隐私保护方法，首先对原始数据进行预处理，使得数据易于后续操作并且对标识属性进行加密；然后在聚类分组阶段中交易按属性进行聚类，使得属性相似的记录分到一组，最后基于分组等价类进行属性概化，使得每一个组在属性上取值相同，从而保护区块链使用者的身份隐私和交易隐私。

Description

联盟链数据发布的隐私保护方法

技术领域

本发明涉及数据隐私保护技术领域，具体涉及一种联盟链数据发布的隐私保护方法。

背景技术

从2008年中本聪发明比特币以来，区块链得到飞速的发展，它使得众多互不信任的用户能在没有可信第三方的情况下对某些交易或事务达成共识，可以解决中心化系统中普遍存在的高成本、低效率和数据存储不安全等问题。除了在加密货币的应用外，区块链还在金融、医疗、物联网等各行各业得到了得到了应用。可以说区块链的发展为分布式系统的发展提供了新的思路。

根据实际应用场景和需求，区块链可以分为三类：公有链、联盟链、和私有链。公有链上的各个节点可以自由加入和退出网络，任何节点无需许可即可参与链上的交易和共识，网络中不存在任何中心化的服务端节点。比特币和以太坊都是典型的公有链，同时也是使用率最多的区块链。私有链中各个节点的写入权限由内部控制，读取权限视需求有选择性地对外开放。联盟链的各个节点通常有与之对应的实体机构组织，通过授权后才能加入与退出网络，本质上联盟链也是一种私有链。

在当今的大数据时代，政府、科研人员、企业都对大数据投入了大量的精力，收集大数据信息，挖掘在大数据中的价值，成为了热点。现大数据已经涉及社会发展、经济繁荣、国家安全、群众生活、技术进步等各个领域的各个方面，有诸多应用场景。政府使用大数据了解各地发展状况；监管部门利用大数据统计社会治安状况；企业利用大数据对市场进行分析，调整自己的经营策略。当前，比特币和以太坊等公有链已经上线多年，大量用户参与其中，同时也产生了海量的交易记录，目前仅比特币的区块数据总大小已经超过200Gb，通过对这些数据进行分析可以帮助我们理解区块链的生态系统。目前联盟链管理者由于隐私等原因不发布其中的数据，这就造成巨大的信息浪费，例如在金融联盟链中，数据收集者和研究人员可以通过对大量的交易记录进行分析，分析结果可以帮助管理者了解企业的经营情况从而适当地调整经营策略，投资者也可以从这些数据得到一部分参考以便做出相应的决策。但是如果直接发布区块链中的信息可能会造成信息的泄漏，因为在攻击者可以根据背景知识结合发布在区块链上面的信息获取到用户的历史交易记录。例如攻击者如果知道Alice在t时刻使用区块链进行了一笔交易，价值为v，那么攻击者只需要在区块链上面查找符合条件的交易就可以找出对应的交易以及被攻击者的区块链账号，这样就造成了隐私的泄露。总的来说，区块链中的隐私问题包括2个方面，其中区块链用户的现实身份和区块链地址之间的关联性称为身份隐私，区块链用户所属的全部区块链地址在区块链中的交易行为称为交易隐私。

目前也有关于区块链隐私保护的方法，但是这些方案主要是针对比特币等公有链的，目前主流的方法主要包括混币和零知识证明，其中混币还可以包括中心化的混币的混币和去中心化的混币，不管是混币还是零知识证明，目前公有链的匿名方法都必须通过修改区块链本身的共识算法或验证方法达到目的，但是这类方法大大降低了区块链的性能，这在联盟链很多场景下是不可接受的。

发明内容

本发明提供一种联盟链数据发布的隐私保护方法，其能够使得区块链数据能得到合理运用的同时，区块链参与者的隐私得到保障。

为解决上述问题，本发明是通过以下技术方案实现的：

联盟链数据发布的隐私保护方法，包括步骤如下：

步骤1、将区块链中的交易从区块里提取出来，并对所提取的交易进行预处理，即去掉每条交易记录中与与交易不相关的属性，且对交易记录中的所有标识属性进行匿名后，组成原始交易记录集合；

步骤2、计算原始交易记录集合中每2条交易记录的距离，得到原始交易记录集合的距离矩阵；其中2个交易记录t_p和t_q之间的距离dist(t_p,t_q)为：

其中，

代表交易记录t_p和t_q在准标识属性s上的差异度，m代表每条交易记录中的准标识属性数目；

步骤3、基于步骤2所得到的原始交易记录集合的距离矩阵，采用基于k-medoids的聚类算法对原始交易记录集合内的交易记录进行聚类，得到包含有若干个聚类的聚类交易记录集合；

步骤4、对聚类交易记录集合的每个聚类中的所有交易记录的准标识属性进行概化，使得属于同一个聚类的所有交易记录在准标识属性上拥有相同的取值，以得到匿名后的交易记录集合；

步骤5、发布步骤4所得的匿名后的交易记录集合。

上述步骤1中，交易记录中的标识属性为交易id和区块链地址。

上述步骤2中，交易记录t_p和t_q在准标识属性s上的差异度分为2种情况：

1)当准标识属性s是数值型数据属性时，两个交易t_p和t_q在准标识属性s上的差异度

为：

其中，

代表交易记录t_p的准标识属性s的属性值，

代表交易记录t_q的准标识属性s的属性值，

代表原始交易记录集合内所有交易记录中准标识属性s的最大属性值，

代表原始交易记录集合内所有交易记录中准标识属性s的最小属性值；

2)当准标识属性s是分类型数据属性时，两个交易t_p和t_q在准标识属性s上的差异度

为：

其中，

代表交易记录t_p和t_q准标识属性s在s属性的属性概化树上的最小上界节点，

代表交易记录t_p的准标识属性s在s属性的属性概化树上所对应的节点，

代表交易记录t_q的准标识属性s在s属性的属性概化树上所对应的节点，

代表s属性的属性概化树上的最外层叶子节点，

代表s属性的属性概化树上的根节点，

代表s属性的属性概化树上节点

到节点

的距离，

代表s属性的属性概化树上节点

到节点

的距离，

代表s属性的属性概化树上最外层叶子节点

到根节点

的距离。

上述步骤3的具体过程如下：

步骤3.1、构建队列Q、数组T*和数组V，其中队列Q用于存放要划分的聚类，数组T*用于存放交易记录个数大于等于k的聚类，数组V用户存放交易记录个数小于k的聚类；其中k为设定值；

步骤3.2、将队列Q初始化为原始交易记录集合T，并将数组T*和数组V初始为空集；

步骤3.3、从队列Q中取出一个聚类C，使用k-mediods算法将C划分为两个聚类C₁和C₂，并用|C₁|表示聚类C₁中记录的个数，|C₂|表示聚类C₂中记录的个数；

1)如果|C₁|<k且|C₂|<k，停止对聚类C继续划分，并且将聚类C加入数组T*中；

2)如果|C₁|>＝k且|C₂|>＝k，继续对聚类C₁和聚类C₂进行划分，将聚类C₁和聚类C₂入队列Q；

3)如果|C₁|>＝k且|C₂|<k，继续对聚类C₁进行划分，停止对聚类C₂进行划分，将聚类C₁加入队列Q，聚类C₂加入数组V中；

步骤3.4、重复执行步骤3.3，直到队列Q为空；

步骤3.5、将数组V中的聚类合并到数组T*中，用|T*|代表数组T*中聚类的数量；

步骤3.6、将数组T*作为聚类交易记录集合输出。

上述步骤3.5中将数组V中的聚类合并到数组T*中的具体方法是：对于数组V中每一个聚类C_V，首先计算聚类C_V到数组T*中的每一个聚类C_T*的距离，再将聚类C_V中的所有记录合并到最小距离对应的聚类C_T*中。

与现有技术相比，本发明首先对原始数据进行预处理，使得数据易于后续操作并且对标识属性进行加密；然后在聚类分组阶段中交易按属性进行聚类，使得属性相似的记录分到一组，最后基于分组等价类进行属性概化，使得每一个组在属性上取值相同，从而保护区块链使用者的身份隐私和交易隐私。此外，本发明针对区块链里面的交易记录不同于传统的数据库数据类型，在这种数据类型中没有明显的敏感属性和准标识属性的区分，并且交易和交易之间是有关联性的，本发明使用k-匿名模型对区块链中的交易记录进行匿名，使得攻击者利用背景知识关联到任意一条交易记录的概率不超过1/k，从而保护与这条交易相关的个体身份的隐私信息。

附图说明：

图1为属性概化树的示例图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实例，对本发明进一步详细说明。

一种联盟链数据发布的隐私保护方法，其具体实现过程包括步骤如下：

步骤1、提取区块链中的交易记录，并对交易记录进行预处理。

1)提取交易：

区块链中的数据是以区块为单位存储的，每隔一段时间，网络中的交易被拥有记账权的矿工打包到区块中，每一个区块中都包含若干个交易。在预处理阶段首先将交易从区块里提取出来，在后面的匿名步骤以及数据发布中，均以交易为单位进行处理。假设待发布的交易记录的集合为T，总共包含的共有n条交易记录。

2)去掉一些额外的属性：

由于发布的数据中主要是交易相关的属性，而在区块链中有一些与交易不相关的属性是不需要发布的(比如区块链中的配置信息，与区块相关的属性，以及交易输入里面包含的交易方的签名信息等)，因此在进行匿名步骤之前首先去掉这些交易不相关的属性。

3)匿名交易的标识属性：

在每个交易记录中，包括标识属性和准标识属性，其中标识属性是指交易记录中能够唯一标识该交易记录的属性，即只需要这一个标识属性就可以确定是某一交易记录。准标识属性是指一个特殊的属性组，联合准标识属性可以用于推断一个具体记录的相关信息。

由于在交易记录中，交易id和区块链地址都是标识属性，其中交易id能唯一标识一个交易记录。区块链地址能唯一标识一个用户在区块链中的身份，包括输入地址和输出地址，因此需要对交易id和区块链地址进行匿名。

在保护区块链地址隐私的时候，暂时不考虑输入这个属性，因为交易的所有输入都是指向上一个交易的输出，因此只要对所有交易的输出进行匿名，所有的区块链地址都会得到匿名。

对每个交易的交易id和区块链地址这两个属性做匿名处理的方法是对于一个交易的交易id和这个交易输出的所有输出地址进行加密和哈希的操作。

表1预处理后的交易

如表1所示，假设表中的交易id和输出地址已经经过匿名处理。其中交易输入代表交易的发起方，交易输出代表交易金额的接收方。在区块链中，一个交易的输入输出可以包多条记录。在表1中，交易id35包含2个输入和2个输出。输入没有单独的取值，而是指向上一个交易的输出，表明输入的来源，每个输入指向某一个交易id的多个输出中的其中一个。输出包含两个属性，其中一个为交易地址，表示收款方的地址，另外一个是交易金额，表中id35中输出1的输出地址为address 20，输出金额为32.5。另外，区块链中的时间通常使用unix时间戳表示，如表中所示。

步骤2、遍历交易记录集合T的交易记录，并计算每2条交易记录的距离，得到该交易记录集合T的距离矩阵。

假设每条交易记录中的准标识属性数为m。假如有2个交易记录t_p和t_q，则t_p和t_q之间的距离dist(t_p，t_q)定义为所有准标识属性差异度的平均值，即为：

其中，

代表交易记录t_p和t_q在准标识属性s上的差异度，m代表每条交易记录中的准标识属性数目。

而关于2个交易记录t_p和t_q在准标识属性s上差异度，则可以分为数值型属性和分类型属性两种情况进行考虑，其中数值型数据指的是年龄、薪酬等这类属性值为数值的属性；分类型属性指职业、爱好等这类属性值离散的属性：

1)当准标识属性s是数值型数据的情况时，两个交易t_p和t_q在准标识属性s上的差异度

定义为：

其中，

代表交易记录t_p的准标识属性s的属性值，

代表交易记录t_q的准标识属性s的属性值，

2)当准标识属性s是分类型数据的情况时，两个交易t_p和t_q在准标识属性s上的差异度

定义为：

其中，

代表s属性的属性概化树上的最外层叶子节点，

代表s属性的属性概化树上的根节点，

代表s属性的属性概化树上节点

到节点

的距离，

代表s属性的属性概化树上节点

到节点

的距离，

代表s属性的属性概化树上最外层叶子节点

到根节点

的距离。

s个属性概化树是利用交易记录集合T中所有交易记录中的s属性的属性值所构建。图1是属性概化树的示例图，图中，叶子节点代表属性的实际取值，父节点是子结点概化后的值。例如对苹果和梨这两个属性来说，它们的最小上界节点是蔷薇科，这里

取值为苹果，

取值为梨，

取值为蔷薇科，则有

则有

为2，计算可得差异度为1/2。

使用上面的距离计算公式可以得出交易记录集合T内所有交易记录之间的距离，得到距离矩阵。

步骤3、基于步骤2所得到的交易记录集合T距离矩阵，对交易记录集合T内的交易记录进行聚类，本发明采用基于k-medoids的聚类算法对交易记录进行划分，基本思想是每次将数据集划分为两个聚类，如果这两个聚类满足k-匿名，就继续对聚类进行划分，否则，停止划分。

在本步骤中，使用了三个数据结构Q、T*和V。其中Q是一个队列，存放要划分的聚类；T*是一个数组，存放交易记录个数大于等于k的聚类；V是一个数组，存放交易记录个数小于k的聚类。

步骤3.1、先对Q、T*和V进行初始化。Q初始化为T，T*和V初始为空集。

步骤3.2、从队列Q中取出一个聚类C，使用k-mediods算法将C划分为两个聚类C₁和C₂。用|C₁|表示C₁中记录的个数，|C₂|表示C₂中记录的个数。

步骤3.3、根据|C₁|和|C₂|的取值分三种情况：

1)如果|C₁|<k且|C₂|<k，停止对C继续划分，并且将C加入数组T*中；

2)如果|C₁|>＝k且|C₂|>＝k，继续对C₁和C₂进行划分，将C₁和C₂入队列Q；

3)如果|C₁|和|C₂|有一个大于等于k，一个小于k，不妨设|C₁|>＝k且|C₂|<k，继续对C₁进行划分，停止对C₂进行划分，将C₁加入队列Q，C₂加入数组V中。

步骤3.4、重复执行步骤3.2和步骤3.3，直到队列Q为空。

步骤3.5、将V中的聚类合并到T*中，用|T*|代表T*中聚类的数量。具体方法：对于V中每一个聚类C_V，计算C_V到T*中的每一个聚类C_T*的距离(这里C_V和C_T*的距离定义为C_V的聚类中心到C_T*的聚类中心的距离)，这样得到|T*|个距离，将C_V中的所有记录合并到最小距离对应的C_T*中。

表2分组之后的表

表2是表1经过分组之后的表，其中id35和id38对应的交易记录被分到同一组中，id36和id37对应的交易记录被分到同一组中，其中，k＝2。

例如在表2中，准标识属性为时间，商品类型，商品数量，输出。其中id35对应的交易输出包含2项，金额之和为2者之和54.0，则在聚类时这个交易的准标识属性取值为(1573525784，苹果，200，54.0)。

经过上面的聚类之后，T*中包含若干个聚类，每个聚类至少包含了k个交易记录。

步骤4、把每个聚类中的交易记录的准标识属性进行概化，在经过概化后，属于同一个聚类的所有记录在准标识属性上拥有相同的取值。具体来说概化也要分为数值型数据和分类型数据两种不同的情况进行处理。

在概化数值型属性时，对于T*中的某个聚类C_i(i＝1，2，…，|T*|)，假设C_i中数值型属性S_x的取值为集合为A[S_x]，则将C_i中的所有记录的S_x属性上的值概化为[min(A[S_x])，max(A[S_x])]；

对于分类型属性，需要按照预先建立的属性概化树进行概化，各个属性值被概化为可以概括各原有属性值的范围更广的最小类型值，从概化树上看，就是多个原节点的最小上界节点，例如，在图1中，对于苹果和梨来说，可以概括这两个属性的值是蔷薇科。如果有三个属性苹果、梨和香蕉，则概化为水果。

表3概化之后的表

表3是表2经过概化后的表，经过概化后得到了一个2-匿名的表。

步骤5、数据发布

上面的步骤已经对交易进行了匿名处理，在这一步骤发布交易信息，每隔一个固定的时间发布在这个时间段生成的所有区块包含的所有交易信息。

需要说明的是，尽管以上本发明所述的实施例是说明性的，但这并非是对本发明的限制，因此本发明并不局限于上述具体实施方式中。在不脱离本发明原理的情况下，凡是本领域技术人员在本发明的启示下获得的其它实施方式，均视为在本发明的保护之内。