CN113553377A

CN113553377A - 基于区块链和联邦学习的数据共享方法及装置

Info

Publication number: CN113553377A
Application number: CN202110822518.3A
Authority: CN
Inventors: 杨征; 王云丽; 尹海波; 谭林; 冯斌
Original assignee: Hunan Tianhe Guoyun Technology Co Ltd
Current assignee: Hunan Tianhe Guoyun Technology Co Ltd
Priority date: 2021-07-21
Filing date: 2021-07-21
Publication date: 2021-10-26
Anticipated expiration: 2041-07-21
Also published as: CN113553377B

Abstract

本发明提供一种基于区块链和联邦学习的数据共享方法及装置，该方法包括：对用户数据资产进行数据分布特征提取建立高斯混合模型；对高斯混合偏离较大的数据进行剔除操作并发布计算任务；对发布的计算任务进行资源和模块的调度，并进行任务分解，以便于训练联邦学习模型；采用贝叶斯决策理论，对训练生成的联邦学习模型进行评价，生成模型的误差评价矩阵；对各用户参与联邦学习的数据资产进行价值评价，并将各用户数据资产价值和用户哈希ID及联邦模型打包为区块进行上链存证。与相关技术相比，本发明提供的基于区块链和联邦学习的数据共享方法及装置，其能够促进和推动公平激励机制的可计量、可存证。

Description

基于区块链和联邦学习的数据共享方法及装置

技术领域

本发明涉及区块链技术领域，尤其涉及一种基于区块链和联邦学习的数据共享方法及装置。

背景技术

当前，人工智能的发展，进入到依靠大量数据实现高精度高泛化模型训练的阶段。亟待引入分布式计算方案，解决大量异构场景模型训练过程中，资金投入和基础计算资源短缺问题。同时，数据作为第七大生产要素，其数据权属成为数据资产安全和保护的重点。数据资产的计量、价值评估成为数据赋能的关键。

现有的计算方式分为中心计算和分布式计算两种，中心计算要求获得数据所有权和计算资源的所有权，分布式计算则需要将数据共享到多个计算设备当中，需要获得分布式设备的计算资源并共享数据的使用权。中心计算受限于计算能力并存在资源的闲置浪费，但分布式计算造成用户数据和用户隐私的泄露。现有的分布式计算由于计算的数据由中心服务器或者单一用户提供，在使用分布计算的过程中数据的安全无法保障，用户数据的基本轮廓和用户的个人隐私被公开于使用的分布计算资源当中，尤其对具有严格数据隐私安全要求的用户来说，这无法保护用户的数据资产安全。

当前的联邦学习过程中，对单一的建模任务一般需要多个用户参与数据资产的共享，经用户授权后，用于本地模型的训练，再上传模型的训练结果到中心服务器。在单一的建模任务中，不同用户提供的数据大部分是未经清洗的原始数据，这些数据在模型的训练过程中发挥了不同的作用。面对多样的模型训练任务时，用户的数据资产价值性就更为重要。用户提供的垃圾数据将导致模型训练过程中的收敛性变差，泛化能力变弱。这些问题的产生均来源与目前联邦学习技术中，无法对用户提供的数据资产价值进行定量评估。

通过联邦学习，能够实现模型的训练和用户数据的隐私保护，但无法存证用户数据资产的基本轮廓和分布，无法进行数据的泛化使用。这样的结果使得在联邦学习后，如何对用户激励成为一个难点。同时，以均分的方式进行联邦学习成果的均分又使得整个用户激励机制缺失公平特征。这些问题造成用户对参与联邦学习，在其终端设备提供加密模型训练的数据资产共享缺乏积极性，对实现模型的优化和提升用户服务产生了障碍。

因此，有必要提供一种新型的基于区块链和联邦学习的数据共享方法及装置，以克服上述缺陷。

发明内容

本发明的目的在于提供一种新型的基于区块链和联邦学习的数据共享方法及装置，其能够有效改善现有联邦学习过程中无法对不同特征用户数据资产进行价值定量的缺陷，促进和推动公平激励机制的可计量、可存证。

为了达到上述目的，本发明提供一种基于区块链和联邦学习的数据共享方法，包括：

对用户数据资产进行数据分布特征提取建立高斯混合模型；

对高斯混合偏离较大的数据进行剔除操作并发布计算任务；

对发布的计算任务进行资源和模块的调度，并进行任务分解，以便于训练联邦学习模型；

采用贝叶斯决策理论，对训练生成的联邦学习模型进行评价，生成模型的误差评价矩阵；

利用误差评价矩阵获得的最小损失决策权重对各用户参与联邦学习的数据资产进行价值评价，获得用户资产价值，并将计算得到的各用户数据资产价值和用户哈希ID及联邦模型一并作为内容打包为区块进行上链存证。

本发明提供一种基于区块链和联邦学习的数据共享装置，该装置包括区块链交互模块、设备通信模块和资源管理模块；

区块链交互模块，用于提供用户数据资产使用的存证，并初始化参数；

设备通信模块，用于存储用户数据资产，数据资产的采用；

资源管理模块，用于为联邦学习提供资源调度、任务分发、训练参数加密共享和容错保障联邦学习中的协调管理控制部分。

本发明一方面还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述基于区块链和联邦学习的数据共享方法的步骤。

本发明另一方面还提供一种计算机终端，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述基于区块链和联邦学习的数据共享方法的步骤。

与相关技术相比较，本发明的基于区块链和联邦学习的数据共享方法及装置采用数据资产价值的计量和评估，利用高斯混合回归和最小错误率的贝叶斯决策，实现均衡数据采样及训练，提高了模型训练的泛化能力，同时利用区块链的存证能力，实现特定应用场景和模型中的用户数据资产价值证明与存证，可推进相似问题解决时参与用户的选择。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图，其中：

图1为本发明的基于区块链和联邦学习的数据共享方法的流程图；

图2为本发明的基于区块链和联邦学习的数据共享方法的时序图；

图3为本发明的基于区块链和联邦学习的数据共享装置的架构图。

具体实施方式

下面将对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明中，各参与方针对特定场景提供的数据资产的价值被量化评估，发明采用了同态加密、高斯混合和贝叶斯决策方式来实现特定模型训练中数据价值的分析和量化，利用区块链进行价值的存证，为实现公平的激励提供科学基础，下面对本发明需要使用到的区块链技术名词进行解释：

联邦学习(Federated Learning)，2016年由谷歌公司最先提出，是一种新兴的人工智能基础技术。联邦学习的目的是解决终端设备(移动设备、固定设备)的用户实现本地模型的更新问题，其建设目标是保障数据交换时的信息安全和个人数据隐私，在合法合规的前提之下，实现多方参与或多节点之间开展机器学习。联邦学习分为横向联邦学习、纵向联邦学习和联邦迁移学习，本发明主要针对分布在不同用户不同数据分布特征的纵向联邦学习，同时也适用于横向联邦学习和联邦迁移学习。

横向联邦学习的本质是扩大相同数据分布特征的数据样本量，同时采用了分布计算方法，适用于参与者业态相同，数据特征重叠的场景。纵向联邦学习的本质则是基于不同参与者数据特征不相似，且具有不同样本量的状况，数据按照数据特征的维度纵向分割。联邦迁移学习则是参与各方的数据不同、用户不同，数据特征不同，各方持有的数据重叠程度较小。

同态加密(Homomorphic Encryption，HE)，是一种不需要访问数据本身就可以加工数据的方法。对经过同态加密的数据进行处理得到一个输出，将这一输出进行解密，其结果与用同一方法处理未加密的原始数据得到的输出结果是一样的。同态加密主要应用在需要第三方处理敏感数据的场合，如云计算、匿名投票等。同态加密按照自身实现方式，分为半同态加密、全同态加密两种。其中，半同态加密又分为加法同态和乘法同态两种。加法同态加密中，加密算法f满足f(A)+f(B)＝f(A+B)，典型的加法同态加密算法为Paillier算法。乘法同态加密中，加密算法f满足f(A)×f(B)＝f(A×B)，典型的乘法同态加密算法有RSA、Elgamal算法。全同态加密中，加密算法f同时满足加法同态和乘法同态，代表的算法有Gentry、DGHV、CAFED算法。在纵向联邦学习场景中，需要利用同态加密技术实现隐私保护，经过同态加密的聚合，能够将不同特征在加密状态下加以聚合。

高斯混合模型(Gaussian Mixture Model)，通常简称GMM，该方法使用了高斯分布作为参数模型，并使用了期望最大(Expectation Maximization，简称EM)算法进行训练，采用了多个高斯分布的组合来刻画数据分布特征。本发明中高斯混合模型用于对联邦学习中各参与方的数据分布特征进行描述和定量，并将参与的所有用户数据分布特征集成，形成对特定场景模型训练中使用的数据集的特征描述。

贝叶斯决策，考虑不同场景和状况产生的数据样本，以及这些分散在不同用户终端的数据分布特征，在联邦学习过程中，各参与方提供的不同特征和分布的数据构成了模型训练的整体数据集，各方在此数据集中的有效数据占比即为一种针对模型的最优策略，采用贝叶斯算法对各参与方的有效数据概率计算形成最优决策下各参与方的数据价值权重。

请参阅图1，本发明提供一种基于区块链和联邦学习的数据共享方法，包括：对用户数据资产进行数据分布特征提取建立高斯混合模型；

对高斯混合偏离较大的数据进行剔除操作并发布计算任务；

方案具体实施的整体流程如图2所示，主要对图1中的内容作详细阐述，包括：用户数据资产的数据分布特征提取、高斯混合模型建立、特征筛选和剔除、数据选择后的参数初始化、联邦学习过程、损失概率矩阵建立与贝叶斯最小损失决策、数据资产价值计量等重要环节，以及伴随整个流程各个环节的用户数据资产描述信息(非原始数据)的上链存证。各参与方和中心层均采用了数据指纹或凭证密钥等方式进行了身份识别与验证，验证信息在区块链上存证，并生成各个参与方的哈希ID和独立加密密钥。

步骤1：对参与联邦学习的用户数据资产进行数据分布特征提取，建立高斯混合模型，并存证。

参与联邦学习的用户数据是存储于用户设备的，训练的过程中，缺少对用户数据有效性和真实性检验。实际的联邦学习过程中，存在用户提供垃圾数据和无效数据的状况，这不但严重影响了模型的精度，浪费了计算资源，还降低了模型的泛化特征。

高斯混合模型通过多个单一高斯模型拟合复杂的数据特征分布。随机变量符合高斯分布则有：

那么，对多个高斯分布加权形成的混合分布可以充分的描述总体分布的多模态，即：

当变量为多为数据样本时，存在：

其中，μ为均值，∑为协方差矩阵，d为变量的维度；

那么高斯混合模型可计算为：

其中，

为第i个单高斯模型的权重，且存在

本发明中，在保证用户数据资产安全的前提下，对用户数据的分布特征进行提取(偏度、峰度、离散度)，并建立特征分布(高斯混合回归)，利用区块链进行数据的存证，实现了用户数据资产的确权与真实性检验。

步骤2：对高斯混合中偏离大的数据进行剔除，对计算任务和资源进行任务分解。

当前的联邦学习采用数据对齐方式处理数据，并对参与各方进行参数的初始化，这种处理是建立在学习的数据具有较高一致性特征和无垃圾数据的假设之上。因此对各参与用户的数据特征进行综合，综合方法为：首先，将各用户的高斯混合模型分解为单高斯混合，并添加用户ID；其次，求解各高斯分布的均值和方差，计算所有分布内均值之间的样本距离、峰度中位数，建立数据分布特征矩阵。再次，采用策略进行样本的剔除。

策略的实现方式为：

a)求各变量均值之间的归一化均值距离权重，如：

其中x_i为第i个高斯回归分布，

为第i个回归的均值与其他回归均值的距离之和，

为所有样本间均值距离之和，则对于每个分布i来说，对应一个在其样本中均值的权重位置

同理，对数据的峰度进行距离分析，计算样本的归一化峰度距离权重：

筛选后各样本的覆盖度2σ_i，求样本在全局的归一化覆盖度权重：

那么对于所有样本的均值距离、峰值距离和覆盖度即形成三个集合

b)计算W_Lμ、D_Lk和S_Lσ的中位数、均值、四分位数。判断对应均值处、中位数取值处变量x的峰度值和四分位位置处的峰度差异。若取均值或中位数位置处变量的峰度远远大于四分位(75％)位置处的峰度，则认为W_Lμ中四分位(75％)后的数据为噪声的可能性非常高，因此剔除此距离范围，得到W′_Lμ。同理，分别计算D_Lk和S_Lσ经筛选后的值D′_Lk和S′_Lσ。当中位数小于均值时，设75％为阈值，否则设85％为阈值。W_Lμ中的最小值是近似一致的样本特征，其峰度和方差越大的变量认为其数据资产的价值越高，参与联邦学习训练的权重越大。

c)将筛选后的W′_Lμ中的距离权重

作为标准，获得实际选择的数据分布样本x’_i，则该x’_ix_i对应的用户数据资产即为合适用于联邦学习的数据。对经过筛选后的样本，重新计算各权重，获得新的距离权重W″_Lμ、峰度权重D″_Lk和S″_Lσ，其中W″_Lμ、D″_Lk和S″_Lσ的加权值归一化为1。

d)将带有用户ID和数据分布特征的信息采用分布式记账方式(区块链)进行记录，包括：用户ID、原始样本特征(高斯混和模型分解维度d)、筛选后的特征、剔除的距离权重

峰度权重

样本覆盖权重

以生成对用户数据特征的描述，用于进行最终联邦模型利益的分配和激励存证。采用剔除的距离权重能够防止其他用户使用高斯概率模型重构原始样本，极大的保障了用户数据资产的安全性，同时兼顾了用户数据的有效性。

e)将筛选后的样本特征作为进行组合，形成针对各参与方差异化的初始参数集合，构成联邦学习的预训练特征。

步骤3：对发布的计算任务进行资源和模块的调度，对计算任务进行分解。

在用户的本地设备中，对步骤2的不同初始化参数集进行解密，利用初始化参数采样本地设备中的数据，依据步骤1中剔除的

进行对应单一高斯特征用户数据的相应筛出，其余部分为参与联邦学习的数据集，这样。中心服务器或虚拟第三方对全域的计算任务进行分配并且获得资源的使用权限，在参与各方中共享模型。联邦学习的优化问题可定义为：

其中，n_Ck是用户设备Ck上数据数量，ω^Ck是来自用户设备Ck的参数，Ck∈S，S为每个通信轮次中含有m个参与方的特征子集。这种假设建立在独立同分布的基础之上；

通过步骤1的数据特征筛选后，得到面向不同用户数据特征(独立同分布、分布不均衡、偏态分布)的独立训练数据资产，因此，在联邦学习中的优化问题转为：

为针对客户设备Ck上每个单一高斯分布样本覆盖度的权重，此权重由步骤1得到。采用联邦学习的参数训练方法进行模型的训练，各参与方通过与计算中心的同态加密交换实现参数的修正和训练，实现联邦模型的参数率定。

步骤4：采用贝叶斯决策理论，对训练生成的联邦学习模型进行评价，生成模型的误差评价矩阵。

开展对联邦学习结果的评价，采用交互形式将加密后的联邦模型在用户设备端共享。用户设备端使用其具有的数据资产进行联邦学习模型的测试，获得模型数据的测试精度和误差指标，然后将用于模型评价的测试精度和误差指标以加密形式上传中心服务器(或虚拟第三方)，同步进行区块链的上链存证。根据各个用户数据资产特征训练后的误差能够建立误差评价矩阵，采用贝叶斯最小损失决策方法进行决策，计算决策后各数据资产样本的归一化权重，权重信息上链并存证。具体决策流程如图2所示。包括三个主要环节：利用联合模型在各用户数据上的预测，计算各用户数据上各高斯特征模型的精度和误差损失；建立损失矩阵进行贝叶斯决策，获得最优的决策权重；利用权重和用户数据分布特征信息定量数据资产价值。

a)采用各参与方的本地数据，进行模型精度和误差的计算。

将各参与方中除参与联邦模型训练之外的数据用作联邦模型的验证，获得模型精度和误差损失，包含了：精度、召回率、F-Score，采用如下方式计算：

precision＝TP/(TP+FP)

recall＝TP/(TP+FN)

其中，TP为真正例，TN为真负例，S为验证的样本总量，P为精度，R为召回率。

b)建立用户数据评价联邦学习的损失矩阵。

设用户数据x_i在全局的条件错误率为P(ε|x_i)，则有：

其中，

为某一用户数据在联邦模型中F-Score在全局的归一化权重，为ω′_j。因为归一化后的F-Score体现了样本在全局的正确性，所以误差为1-P(ω_i|x_i)。那么可以建立损失矩阵，描述所有联邦学习参与者数据资产的损失特征：

δ(a_i,ω′_j)

c)贝叶斯最小风险决策

贝叶斯最小损失决策的目标函数为：

minP(e)＝∫P(ε|x)p(x)dx＝∑P(ε|x)P(x)

即连续概率和离散概率两种形式，采用建立的损失矩阵可以进行最小风险的决策。利用贝叶斯计算后验概率：

利用损失矩阵则有：

最优决策为：

则针对每个用户数据的后验概率权重则为a_i。

步骤5：用户数据资产定量决策与区块链存证，形成公平合理的激励框架。

利用步骤4获得的最小损失决策权重对各用户参与联邦学习的数据资产进行价值评价。资产的价值依据两个部分：先验概率，即训练前用户数据资产的分布特征获得的评价权重(

和

)，后验概率，即在获得联邦模型状况下进行了贝叶斯决策后的特征权重

用户的数据资产价值即为：参与联邦学习的价值+验证精度的价值，表示为：

其中，

为综合三个权重的先验概率函数，

为后验概率函数，

为参与联邦学习模型训练的数据占比，

为验证联邦模型的数据占比。a,b为价值评价的综合占比，依据训练数据和验证数据的使用情况，可设置为0.8和0.2。计算得到的各用户数据资产价值和用户哈希ID及联邦模型一并作为内容打包为区块进行上链存证。提供有效数据量越多、高斯混合模型中数据覆盖度越广和峰度越高、验证中损失最小的数据资产对于联邦学习的价值越高，因此，联邦模型的应用效益将依据用户数据资产价值进行分配，分配依据在区块链上进行了过程存证，在保证用户数据安全的条件下，实现了联邦学习与区块链结合构建的激励框架。

请参阅图3，本发明提供一种基于区块链和联邦学习的数据共享装置，该装置包括区块链交互模块、设备通信模块和资源管理模块；

区块链交互模块，主要用于提供用户数据资产使用的存证，并初始化参数；区块链提供了用户数据资产使用的存证，其不可篡改的特点使参与联邦学习的用户获取了数据资产确权的凭证，有利于数据资产的保护；其次，区块链还存证了初始化参数、数据资产价值等信息，为构建公平合理的激励机制提供了基础。

设备通信模块，主要用于存储用户数据资产，数据资产的采用；包含了固定设备和移动设备等，设备既作为计算的节点又存储了用户数据资产，设备层之间禁止数据资产的交互。通信层主要指可靠通信网络，包含了有线和无线方式，数据在此层上的传递均使用了同态加密算法进行。

资源管理模块，主要用于为联邦学习提供资源调度、任务分发、训练参数加密共享和容错保障联邦学习中的协调管理控制部分。

与相关技术相比，本发明专利侧重于数据资产价值的计量和评估，利用高斯混合回归和最小错误率的贝叶斯决策，实现均衡数据采样及训练，提高了模型训练的泛化能力。利用区块链的存证能力，实现特定应用场景和模型中的用户数据资产价值证明与存证，可推进相似问题解决时参与用户的选择。本方案的有益效果包括：

(1)提高了分布式计算过程中用户数据的安全性和用户隐私保护，采用联邦学习机制，对参与学习的数据资产进行数据分布特征提取，并进行高斯混合模型的建立。依据汇总后高斯混合模型的数据分布特征，进行偏离特征的单一分布剔除，达到用户数据资产筛选的目的。通过集成后的高斯混合分布选择，形成了针对模型训练的初始化数据集合与初始参数，并记录在区块链上进行存证，以构成了一种新的联邦学习的数据共享模式。

(2)建立了针对联邦学习的数据资产价值评价方法，实现了用户的数据资产价值的定量评估，推动了用户数据资产的合理估值。采用经过特征选择后的数据进行训练，降低了模型训练的难度，提高了模型的泛化特性。根据训练后各个高斯分布数据的预测结果和误差建立了误差概率矩阵，采用贝叶斯决策理论(Bayesian Decision Theory)，进行最小误差的最优决策，得到各个用户数据资产各高斯分布的概率，通过用户提供的实际数据占比，定量联邦学习中用户数据资产的实际价值。此方法合理的考虑了用户提供的数据效用和数据量，综合模型的全局使用状况，提供了更为公平合理的数据资产价值定量决策方法。

(3)建立了基于联邦学习数据价值存证和激励框架，实现了针对模型训练过程中各参与者贡献度的均衡评价，为建立公平合理的激励依据提供了基础依据。本发明专利采用了联邦学习和区块链的结合，针对用户数据资产，进行了数据分布特征、数据量的存证，进行了联合分布概率筛选后的训练初始化信息存证，并在训练后进行了针对模型的数据价值存证。通过对数据价值的定量存证，建立了用户激励的基础，弥补了当前联邦学习缺少激励评价机制的缺陷。

本发明另一方面还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述基于区块链和联邦学习的数据共享方法的步骤。

作为本发明另一方面的延伸还提供一种计算机终端，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述基于区块链和联邦学习的数据共享方法的步骤。

所述处理器执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能。示例性的，所述计算机程序可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器中，并由所述处理器执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在终端设备中的执行过程。

所述计算机终端可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。可包括但不仅限于，处理器、存储器。可以包括更多或更少的部件，或者组合某些部件，或者不同的部件，例如还可以包括输入输出设备、网络接入设备、总线等。

所述处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器可以是内部存储单元，例如硬盘或内存。所述存储器也可以是外部存储设备，例如插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器还可以既包括内部存储单元也包括外部存储设备。所述存储器用于存储所述计算机程序以及其他程序和数据。所述存储器还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于区块链和联邦学习的数据共享方法，其特征在于，包括：

对用户数据资产进行数据分布特征提取建立高斯混合模型；

对高斯混合偏离较大的数据进行剔除操作并发布计算任务；

2.根据权利要求1所述的基于区块链和联邦学习的数据共享方法，其特征在于，所述对用户数据资产进行数据分布特征提取建立高斯混合模型包括：

高斯混合模型通过多个单一高斯模型拟合复杂的数据特征分布，随机变量符合高斯分布则有：

对多个高斯分布加权形成的混合分布进行充分的描述总体分布的多模态，则有：

当变量为多位数据样本时，存在：

其中，μ为均值，∑为协方差矩阵，d为变量的维度；

那么高斯混合模型计算为：

其中，

为第i个单高斯模型的权重，且存在

3.根据权利要求2所述的基于区块链和联邦学习的数据共享方法，其特征在于，所述对高斯混合偏离较大的数据进行剔除采用策略进行样本的剔除包括：

a.求各变量均值之间的归一化均值距离权重：

其中x_i为第i个高斯回归分布，

为第i个回归的均值与其他回归均值的距离之和，

为所有样本间均值距离之和；

b.对数据的峰度进行距离分析，计算样本的归一化峰度距离权重：

c.计算W_Lμ和D_Lk的中位数、均值、四分位数，并筛选出W′_Lμ、D′_Lk和S′_Lσ；

d.将筛选后的W′_Lu中的距离权重

作为标准，获得实际选择的数据分布样本x_i，由

和

各自经过筛选后构成的集合W″_Lμ、D″_Lk和S″_Lσ；

e.根据用户ID、原始样本特征、筛选后的特征、剔除的距离权重

峰度权重

样本覆盖权重

以生成对用户数据特征的描述，用于进行最终联邦模型利益的分配和激励存证；

f.将筛选后的样本特征作为进行组合，形成针对各参与方差异化的初始参数集合，构成联邦学习的预训练特征。

4.根据权利要求3所述的基于区块链和联邦学习的数据共享方法，其特征在于，所述对发布的计算任务进行资源和模块的调度，并进行任务分解，以便于训练联邦学习模型包括：

对不同初始化参数集进行解密，利用初始化参数采样本地设备中的数据，剔除的

进行对应单一高斯特征用户数据的相应筛出，其余部分为参与联邦学习的数据集，联邦学习的优化问题可定义为：

其中，n_Ck是用户设备Ck上数据数量，ω^Ck是来自用户设备Ck的参数，Ck∈S，S为每个通信轮次中含有m个参与方的特征子集；

假设建立在独立同分布的基础之上，通过数据特征筛选后，得到面向不同用户数据特征的独立训练数据资产，因此，在联邦学习中的优化问题转为：

为针对客户设备Ck上每个单一高斯分布样本覆盖度的权重。

5.根据权利要求1所述的基于区块链和联邦学习的数据共享方法，其特征在于，所述采用贝叶斯决策理论，对训练生成的联邦学习模型进行评价，生成模型的误差评价矩阵包括：

采用各参与方的本地数据，进行模型精度和误差的计算；

将各参与方中除参与联邦模型训练之外的数据用作联邦模型的验证，获得模型精度和误差损失，采用如下方式计算：

precision＝TP/(TP+FP)

recall＝TP/(TP+FN)

其中，TP为真正例，TN为真负例，S为验证的样本总量，P为精度，R为召回率；

建立用户数据评价联邦学习的损失矩阵；

设用户数据x_i在全局的条件错误率为P(ε|x_i)，则有：

其中，

为某一用户数据在联邦模型中F-Score在全局的归一化权重，为ω′_j；因为归一化后的F-Score体现了样本在全局的正确性，所以误差为1-P(ω_i|x_i)；建立损失矩阵，描述所有联邦学习参与者数据资产的损失特征：δ(a_i,ω′_j)；

贝叶斯最小风险决策；贝叶斯最小损失决策的目标函数为：

min P(e)＝∫P(ε|x)p(x)dx＝∑P(ε|x)P(x)

利用贝叶斯计算后验概率：

利用损失矩阵则有：

最优决策为：

α＝argmin_i＝1,…,kR(a_i|x)

则针对每个用户数据的后验概率权重则为a_i。

6.根据权利要求5所述的基于区块链和联邦学习的数据共享方法，其特征在于，所述利用误差评价矩阵获得的最小损失决策权重对各用户参与联邦学习的数据资产进行价值评价包括：

先验概率，即训练前用户数据资产的分布特征获得的评价权重

和

后验概率，即在获得联邦模型状况下进行了贝叶斯决策后的特征权重

则用户的数据资产价值即为：参与联邦学习的价值+验证精度的价值，表示为：

其中，

为综合三个权重的先验概率函数，

为后验概率函数，

为参与联邦学习模型训练的数据占比，

为验证联邦模型的数据占比；a,b为价值评价的综合占比，依据训练数据和验证数据的使用情况，设置为0.8和0.2。

7.一种应用如权利要求1至6任一所述的基于区块链和联邦学习的数据共享方法的装置，其特征在于，该装置包括区块链交互模块、设备通信模块和资源管理模块；

设备通信模块，用于存储用户数据资产，数据资产的采用；

8.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于区块链和联邦学习的数据共享方法的步骤。

9.一种计算机终端，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述基于区块链和联邦学习的数据共享方法的步骤。