CN116049680A

CN116049680A - 基于区块链的模型训练方法及系统

Info

Publication number: CN116049680A
Application number: CN202310335420.4A
Authority: CN
Inventors: 左磊; 张沈斌
Original assignee: Tianju Dihe Suzhou Technology Co ltd
Current assignee: Tianju Dihe Suzhou Technology Co ltd
Priority date: 2023-03-31
Filing date: 2023-03-31
Publication date: 2023-05-02
Anticipated expiration: 2043-03-31
Also published as: CN116049680B

Abstract

本申请公开了一种基于区块链的模型训练方法及系统，属于区块链技术领域。所述方法包括：模型拥有方发布待训练模型的模型信息；多个数据拥有方注册训练数据的数据信息；模型拥有方根据模型信息选择目标数据信息，并向每个目标数据拥有方请求抽样验证；验证通过后，在智能合约中预存训练费用；每个目标数据拥有方利用各自的目标训练数据对模型进行联合训练，在训练结束后将各自生成的模型参数加密存储到区块链中；模型拥有方根据区块链上的模型参数生成训练后的模型；智能合约将训练费用分配给每个目标数据拥有方。本申请能保证数据质量和定价的合理性，也能保证数据交易的公平公正性，还能保证数据的安全性，避免出现版权纠纷。

Description

基于区块链的模型训练方法及系统

技术领域

本申请涉及区块链技术领域，特别涉及一种基于区块链的模型训练方法及系统。

背景技术

模型拥有方在训练机器学习模型时，需要搜集自己需要的训练数据，再基于中心化的本地数据进行模型训练。如果模型训练方自身的训练数据不够，则需要向数据拥有方购买数据，将该数据作为训练数据来训练模型。数据交易过程由双方线下商议后确定。

目前，数据属于商业秘密的一部分，数据拥有方不会轻易公开数据，除非模型拥有方向数据拥有方购买数据。在数据交易的过程中，模型拥有方如何能买到自己需要的高质量数据，并且在交易的过程中，如何对数据进行定价，如何保证交易的公平公正性，都是亟待解决的问题。而且，数据拥有方无法阻止模型拥有方在获得数据后向第三方转卖数据。此外，目前的方案很难鉴定模型版权以及数据版权。

发明内容

本申请提供了一种基于区块链的模型训练方法及系统，用于解决无法确定数据的质量和定价以及数据交易的公平公正性、无法鉴定模型版权和数据版权，且无法阻止模型拥有方向第三方转卖数据的问题。所述技术方案如下：

一方面，提供了一种基于区块链的模型训练方法，所述方法包括：

模型拥有方在区块链上发布待训练模型的模型信息；

多个数据拥有方在所述区块链上注册其所拥有的训练数据的数据信息；

所述模型拥有方根据所述模型信息选择目标数据信息，并向每条目标数据信息对应的目标数据拥有方请求抽样验证；在抽样验证通过后，在所述区块链的智能合约中预存训练费用；

每个目标数据拥有方利用各自的目标训练数据对所述模型进行联合训练，在训练结束后将各自生成的模型参数加密存储到所述区块链中；

所述模型拥有方根据所述区块链上的模型参数生成训练后的模型；

所述智能合约将所述训练费用分配给每个目标数据拥有方。

在一种可能的实现方式中，当所述训练费用包括数据使用费和模型训练费时，所述智能合约将所述费用分配给每个目标数据拥有方，包括：

所述智能合约向所述模型拥有方获取所述模型的准确率；

所述智能合约获取每个目标数据拥有方的训练贡献度和其所提供的目标训练数据的数据量；

对于每个目标数据拥有方，所述智能合约根据所述数据量和数据单价计算数据使用费，根据所述准确率和所述训练贡献度计算模型训练费，将所述数据使用费和所述模型训练费相加后得到所述目标数据拥有方的应得费用，从所述训练费用抽取所述应得费用分配给所述目标数据拥有方。

在一种可能的实现方式中，在所述模型拥有方根据所述区块链上的模型参数生成训练后的模型之后，所述方法还包括：

所述模型拥有方获取与所述模型对应的验证方式，所述模型为分类模型、回归模型或生成模型；

所述模型拥有方利用自身的测试集和所述验证方式计算所述模型的准确率；

所述模型拥有方将所述准确率发送给所述智能合约。

在一种可能的实现方式中，所述模型拥有方利用自身的测试集和所述验证方式计算所述模型的准确率，包括：

当所述模型是分类模型时，所述模型拥有方利用所述分类模型对所述测试集进行分类，计算正确分类的数据与所有分类的数据的比值，将所述比值确定为所述分类模型的准确率；

当所述模型是回归类型时，所述模型拥有方利用所述回归模型对所述测试集的特征向量进行处理，得到预测值，计算所述预测值与所述测试集中标注的标准值之间的第一余弦相似度，将所述第一余弦相似度确定为所述回归模型的准确率；

当所述模型是生成模型时，所述模型拥有方利用所述生成模型对所述测试集的特征向量进行模拟，得到新生成的数据，计算所述测试集中的数据与所述新生成的数据之间的第二余弦相似度，将所述第二余弦相似度确定为所述生成模型的准确率。

在一种可能的实现方式中，所述方法还包括：

所述智能合约获取每一轮训练时，每个目标数据拥有方得到的各个模型参数的梯度下降值；

所述智能合约计算每个模型参数的梯度下降值之和，将所有梯度下降值之和组成梯度下降向量；

所述智能合约根据所述梯度下降向量计算每个目标数据拥有方对所有模型参数的训练贡献度。

在一种可能的实现方式中，所述向每条目标数据信息对应的目标数据拥有方请求抽样验证，包括：

所述模型拥有方向所述目标数据拥有方发送数据使用请求，所述数据使用请求中携带有目标训练数据的分布类型、数据量和数值范围；

所述目标数据拥有方根据所述数据量确定抽样次数，根据所述分布类型、所述数据范围和所述抽样次数对所述训练数据进行抽样，将得到的多个数据块确定为目标训练数据；根据所述多个数据块创建默克尔树，将所述默克尔树的根哈希上传到所述区块链上；将所述多个数据块的编号发送给所述模型拥有方；

所述模型拥有方从所述多个数据块的编号中选择目标编号，将所述目标编号发送给所述目标数据拥有方；

所述目标数据拥有方将所述目标编号对应的目标数据块和默克尔证明发送给所述模型拥有方；

所述模型拥有方验证所述目标数据块的数据分布与自身的测试集中的数据分布是否相同，验证根据所述目标数据块和所述默克尔证明生成的根哈希与所述区块链上的根哈希是否相同。

在一种可能的实现方式中，所述方法还包括：

所述模型拥有方向所述目标数据拥有方发送第一验证请求，所述第一验证请求中携带有训练轮数n；

所述数据拥有方根据所述训练轮数n获取第n-1轮训练后得到的第一模型参数哈希和第n轮训练后得到的第二模型参数哈希，以所述第一模型参数哈希和所述第二模型参数哈希为公开变量，以所述目标训练数据的特征向量和模型参数为私有变量，生成第一零知识证明，将所述第一零知识证明发送给所述模型拥有方；

所述模型拥有方根据所述第一零知识证明验证在模型训练时是否使用了所述目标训练数据。

在一种可能的实现方式中，所述方法还包括：

模型使用方通过智能合约向所述模型拥有方购买所述模型的使用服务。

在一种可能的实现方式中，当所述模型为分类模型或回归模型时，所述模型使用方通过智能合约向所述模型拥有方购买所述模型的使用服务，包括：

模型使用方向所述模型拥有方发送携带有输入数据的使用请求；

所述模型使用方在所述智能合约中预存模型使用费；

所述模型拥有方使用所述模型对所述输入数据进行处理，将生成的预测值发送给所述模型使用方，并将生成的第二零知识证明发送给所述智能合约；

所述智能合约对所述第二零知识证明进行验证；

在验证通过后，所述智能合约将所述模型使用费分配给所述模型拥有方，或者，所述智能合约将所述模型使用费分配给所述模型拥有方和各个目标数据拥有方。

在一种可能的实现方式中，当所述模型为生成模型时，所述模型使用方通过智能合约向所述模型拥有方购买所述模型的使用服务，包括：

所述模型使用方利用所述模型和自身的测试集得到新生成的数据，对所述新生成的数据生成第三零知识证明，将所述新生成的数据的数据哈希和所述第三零知识证明发送给所述智能合约；

所述智能合约对所述第三零知识证明进行验证，在验证通过后发布所述数据哈希；

模型使用方根据所述数据哈希向所述智能合约支付模型使用费，以购买所述新生成的数据；

所述智能合约将所述模型使用费分配给所述模型拥有方，或者，所述智能合约将所述模型使用费分配给所述模型拥有方和各个目标数据拥有方。

在一种可能的实现方式中，所述智能合约将所述模型使用费分配给所述模型拥有方和各个数据拥有方，包括：

所述智能合约获取预设的第一权重，将所述第一权重乘以所述模型使用费得到所述模型拥有方的应得费用，从所述模型使用费中抽取所述应得费用分配给所述模型拥有方；

所述智能合约将剩余的模型使用费分配给各个目标数据拥有方。

在一种可能的实现方式中，所述智能合约将剩余的模型使用费分配给各个目标数据拥有方，包括：

对于第i个目标数据拥有方，所述智能合约获取预设的第二权重和第三权重，将所述第i个目标数据拥有方的训练贡献度乘以所述第二权重得到第一结果，计算所述测试集中的数据与所述新生成的数据之间的第二余弦相似度，将所述第二余弦相似度乘以第三权重得到第二结果，将所述第一结果和所述第二结果相加后乘以剩余的模型使用费，得到所述第i个目标数据拥有方的应得费用，其中，所述第二权重和所述第三权重之和为1，i为正整数；

所述智能合约从剩余的模型使用费中抽取所述应得费用分配给所述第i个目标数据拥有方。

一方面，提供了一种基于区块链的模型训练系统，所述模型训练系统包括区块链、模型拥有方和数据拥有方；

所述模型拥有方，用于在所述区块链上发布待训练模型的模型信息；

多个数据拥有方，用于在所述区块链上注册其所拥有的训练数据的数据信息；

所述模型拥有方，还用于根据所述模型信息选择目标数据信息，并向每条目标数据信息对应的目标数据拥有方请求抽样验证；在抽样验证通过后，在所述区块链的智能合约中预存训练费用；

每个目标数据拥有方，用于利用各自的目标训练数据对所述模型进行联合训练，在训练结束后将各自生成的模型参数加密存储到所述区块链中；

所述模型拥有方，还用于根据所述区块链上的模型参数生成训练后的模型；

所述智能合约，用于将所述训练费用分配给每个目标数据拥有方。

本申请提供的技术方案的有益效果至少包括：

由于数据交易是在区块链上进行的，且模型拥有方可以对数据进行抽样验证，既可以保证数据的质量和定价的合理性，也可以保证数据交易的公平公正性；并且，多个数据拥有方可以基于自身的数据对模型进行联合训练，而不是将数据发送给模型拥有方，可以避免模型拥有方将数据转卖给第三方，从而保证了数据的安全性；另外，模型拥有方可以根据模型参数生成训练后的模型，可以确保模型版权属于模型拥有方；数据拥有方可以在不泄露数据的前提下训练模型，可以确定数据版权属于数据拥有方，避免出现版权纠纷。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是一种基于区块链的模型训练系统的结构示意图；

图2是本申请一个实施例提供的基于区块链的模型训练方法的方法流程图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本实施例中涉及一种基于区块链的模型训练系统，该模型训练系统中包含区块链110、多个模型拥有方120、多个数据拥有方130和多个模型使用方140，如图1所示。其中，每个模型拥有方120、每个数据拥有方130、每个模型使用方140分别与区块链110相连。

模型拥有方120是需要购买模型训练服务和数据的用户所使用的电子设备，数据拥有方130是需要出售数据并提供模型训练服务的用户所使用的电子设备，模型使用方140是需要购买模型使用服务的用户所使用的电子设备，本实施例中不限定电子设备的具体类型。

本实施例中，模型拥有方120可以在区块链110上向数据拥有方130购买数据，并由数据拥有方130根据出售的数据提供模型训练服务，将训练得到的模型参数存储到区块链中，这样，可以保证数据不会被模型拥有方120获取到，也就可以避免模型拥有方120将数据转卖给第三方的，从而保证了数据的安全性。并且，数据交易是在区块链上进行的，且模型拥有方120可以对数据进行抽样验证，既可以保证数据的质量和定价的合理性，也可以保证数据交易的公平公正性。另外，模型拥有方120可以根据模型参数生成训练后的模型，可以确保模型版权属于模型拥有方；数据拥有方可以在不泄露数据的前提下训练模型，可以确定数据版权属于数据拥有方，避免出现版权纠纷。

模型使用方140可以在区块链110上购买模型使用服务，可以确保模型是基于真实的样本数据训练出来的，也可以确保模型的输出结果是使用模型推导出来的；而且，还可以对模型的使用进行合理定价，并在交易后进行权益分配。

请参考图2，其示出了本申请一个实施例提供的基于区块链的模型训练方法的方法流程图，该基于区块链的模型训练方法可以应用于图1所示的模型训练系统中。该基于区块链的模型训练方法，可以包括：

步骤201，模型拥有方在区块链上发布待训练模型的模型信息。

待训练模型可以是机器学习模型。根据模型的用途，可以将模型分为三个类别，分别是分类模型、回归模型和生成模型。其中，分类模型用于对输入数据进行分类，回归模型用于基于回归分析对输入数据预测输出值；生成模型用于生成与输入数据相似的新的数据。

模型拥有方发布的模型信息至少包括以下几种：

（1）模型的描述：用于定义模型的应用场景，如贷款审批模型、医疗诊断模型等。

（2）模型类别：分类模型（如神经网络）、回归模型（如线性回归）、生成模型（如GAN网络）。

（3）模型架构：如神经网络的架构，包括输入层、隐藏层、输出层、激活函数，损失函数。

（4）模型特征：用于定义模型的特征向量，如描述房价的特征向量为（城市、房屋地址、房屋面积、城市平均房价）。

（5）特征权重：用于定义特征向量中每个参数的权重。

（6）样本数据类别：用于定义数据的分布类型（如均匀分布、正态分布、指数分布等），数据范围（如最大值，最小值）。

其中，模型拥有方可以根据自身的测试集拟合出分布类型，再将该分布类型确定为样本数据类别。

（7）模型拥有者：模型拥有方的did（分布式数字身份）。

其中，did是模型拥有方在区块链上注册数字身份后分配的。

步骤202，多个数据拥有方在区块链上注册其所拥有的训练数据的数据信息。

数据拥有方发布的数据信息至少包括以下几种：

（1）数据描述：用于定义数据的应用场景。

（2）数据类别：用于定义支持的样本数据的分布类型。

（3）数据特征：用于定义数据的特征向量，如贷款客户的数据特征包括姓名、年龄、收入和房产价值。

（4）数据拥有者：数据提供方的did。

其中，did是数据拥有方在区块链上注册数字身份后分配的。

步骤203，模型拥有方根据模型信息选择目标数据信息，并向每条目标数据信息对应的目标数据拥有方请求抽样验证；在抽样验证通过后，在区块链的智能合约中预存训练费用。

模型拥有方可以将模型信息与多条数据信息进行比较，以选择与模型信息相匹配的多条数据信息，本实施例中将选出的数据信息称为目标数据信息，将对应的数据拥有方称为目标数据拥有方。然后，模型拥有方可以请求对目标数据拥有方进行抽样验证，以确保目标训练数据的质量。

具体的，向每条目标数据信息对应的目标数据拥有方请求抽样验证，可以包括：

（1）模型拥有方向目标数据拥有方发送数据使用请求，该数据使用请求中携带有目标训练数据的分布类型、数据量和数值范围。

（2）目标数据拥有方根据数据量确定抽样次数，根据分布类型、数据范围和抽样次数对训练数据进行抽样，将得到的多个数据块确定为目标训练数据；根据多个数据块创建默克尔树，将默克尔树的根哈希上传到区块链上；将多个数据块的编号发送给模型拥有方。

比如，一个目标数据拥有方每次抽取1000条符合正态分布、且数值范围合适的数据作为一个数据块，每次抽样都不重复，最终得到一定数量的数据块，将这些数据块编号后确定为目标训练数据。然后，目标数据拥有方可以将所有的数据块作为叶子节点，并构建默克尔树，将默克尔树的根哈希上传到区块链上。

（3）模型拥有方从多个数据块的编号中选择目标编号，将目标编号发送给目标数据拥有方。

（4）目标数据拥有方将目标编号对应的目标数据块和默克尔证明发送给模型拥有方。

比如，目标数据拥有方抽取了数据库1-4，数据块1-4的哈希分别记为hash1-4，hash1和hash2的哈希记为hash12，hash3和hash4的哈希记为hash34，且hash12和hash34的哈希记为根哈希，假设目标数据块为数据块1，则默克尔证明包括包括hash2和hash34。

（5）模型拥有方验证目标数据块的数据分布与自身的测试集中的数据分布是否相同，验证根据目标数据块和默克尔证明生成的根哈希与区块链上的根哈希是否相同。

模型拥有方可以分析目标数据块的分布类型，检测该分布类型与测试集中的数据的分布类型是否相同，模型拥有方还可以根据目标数据块和默克尔证明生成根哈希，检测该根哈希与区块链上的根哈希是否相同；若两者都相同，则确定抽样验证通过；若至少一者不同，则确定抽样验证不通过。

在抽样验证通过后，模型拥有方将目标数据拥有方选为模型的训练节点，并在区块链的智能合约中预存训练费用，该训练费用包括数据使用费和模型训练费。

步骤204，每个目标数据拥有方利用各自的目标训练数据对模型进行联合训练，在训练结束后将各自生成的模型参数加密存储到区块链中。

每个目标数据拥有方可以基于联邦学习框架对模型进行联合训练，并对训练过程进行存证。具体的，每个目标数据拥有方可以在本地利用自身的目标训练数据对模型进行训练，并将每一轮迭代的梯度信息和模型参数哈希发送给智能合约（模型协调服务），智能合约将每一轮迭代时每个目标数据拥有方更新的梯度信息和模型参数哈希上传到区块链上。在训练完成后，每个目标数据拥有方利用模型拥有方的公钥对模型参数进行加密后上传到区块链上。

步骤205，模型拥有方根据区块链上的模型参数生成训练后的模型。

模型拥有方可以利用私钥对加密的模型参数进行解密，并根据解密得到的模型参数生成模型。

为了验证目标数据拥有方是否利用了目标训练数据来训练模型，模型拥有方可以向目标数据拥有方发送第一验证请求，该第一验证请求中携带有训练轮数n；数据拥有方根据训练轮数n获取第n-1轮训练后得到的第一模型参数哈希和第n轮训练后得到的第二模型参数哈希，以第一模型参数哈希和第二模型参数哈希为公开变量，以目标训练数据的特征向量和模型参数为私有变量，生成第一零知识证明，将第一零知识证明发送给模型拥有方；模型拥有方根据第一零知识证明验证在模型训练时是否使用了目标训练数据。

本实施例中，模型拥有方还可以对模型的准确率进行评估。具体的，模型拥有方获取与模型对应的验证方式，模型为分类模型、回归模型或生成模型；模型拥有方利用自身的测试集和验证方式计算模型的准确率；模型拥有方将准确率发送给智能合约。

不同类型的模型具有不同的验证方式，下面分别对三种类型的模型对应的验证方式进行说明。

（1）当模型是分类模型时，模型拥有方利用分类模型对测试集进行分类，计算正确分类的数据与所有分类的数据的比值，将比值确定为分类模型的准确率。

分类模型的准确率的计算公式，其中，classifyCorrectRecords表示试集中分类正确的数据，totalTestRecords表示测试集中所有的数据。

（2）当模型是回归类型时，模型拥有方利用回归模型对测试集的特征向量进行处理，得到预测值，计算预测值与测试集中标注的标准值之间的第一余弦相似度，将第一余弦相似度确定为回归模型的准确率。

测试集的特征向量testInput=（x1，x2，…，xn），回归模型的预测值的特征向量predictOutput=regressionModel（testInput），第一余弦相似度，其中，predictOutput表示预测值的特征向量，standardOutput表示标准值的特征向量。

（3）当模型是生成模型时，模型拥有方利用生成模型对测试集的特征向量进行模拟，得到新生成的数据，计算测试集中的数据与新生成的数据之间的第二余弦相似度，将第二余弦相似度确定为生成模型的准确率。

测试集的特征向量testRecordFeature=（f1，f2，…，fn），新生成的数据generatedFeature=generateModel（testRecordFeature），第二余弦相似度，其中，testRecordFeature表示测试集中的数据的特征向量，generatedFeature为新生成的数据的特征向量。

步骤206，智能合约将训练费用分配给每个目标数据拥有方。

当训练费用包括数据使用费和模型训练费时，智能合约将费用分配给每个目标数据拥有方，可以包括：

（1）智能合约向模型拥有方获取模型的准确率。

（2）智能合约获取每个目标数据拥有方的训练贡献度和其所提供的目标训练数据的数据量。

其中，训练贡献度的计算方式如下：

a）智能合约获取每一轮训练时，每个目标数据拥有方得到的各个模型参数的梯度下降值。

每一轮迭代，智能合约中会记录节点对每个模型参数的梯度下降值。

b）智能合约计算每个模型参数的梯度下降值之和，将所有梯度下降值之和组成梯度下降向量。

其中，单个模型参数的梯度下降总和，其中，Δpara（iteator_i）表示每一轮迭代后单个模型参数的梯度下降值。

所有模型参数的梯度下降值组成模型的m维梯度下降向量为ΔmodelPara_node=（Δpara1，Δpara2，…，Δpara_m），其中，Δpara_i 表示单个模型参数的梯度下降值总和。

c）智能合约根据梯度下降向量计算每个目标数据拥有方对所有模型参数的训练贡献度。

所有目标数据拥有方对模型的训练贡献度为单个节点的梯度下降贡献度占所有节点的梯度下降贡献度总和的比率。

单个目标数据拥有方对每个特征的训练贡献度为。

单个节点对所有特征的训练贡献度为所有特征值贡献度的平均值。

（3）对于每个目标数据拥有方，智能合约根据数据量和数据单价计算数据使用费，根据准确率和训练贡献度计算模型训练费，将数据使用费和模型训练费相加后得到目标数据拥有方的应得费用，从训练费用抽取应得费用分配给目标数据拥有方。

模型拥有方可以以测试集的哈希值、模型的准确率、各个目标数据拥有方的训练贡献率为公开变量，以测试集的特征向量和模型参数为私有变量生成权益分配的第四零知识证明，将第四零知识证明发送给智能合约，智能合约对第四零知识证明进行验证，在验证通过后分配训练费用。

本实施例中，训练费用=（目标数据拥有方的数据总量×单条数据的使用费+预估模型训练费用），每个目标数据拥有方的应得费用=预估模型训练费×模型的准确率×每个目标数据拥有方的训练贡献度。

需要说明的是，当模型的准确率不是100%时，模型拥有方可以根据智能合约的结算获取退费。

综上所述，本申请实施例提供的基于区块链的模型训练方法，由于数据交易是在区块链上进行的，且模型拥有方可以对数据进行抽样验证，既可以保证数据的质量和定价的合理性，也可以保证数据交易的公平公正性；并且，多个数据拥有方可以基于自身的数据对模型进行联合训练，而不是将数据发送给模型拥有方，可以避免模型拥有方将数据转卖给第三方，从而保证了数据的安全性；另外，模型拥有方可以根据模型参数生成训练后的模型，可以确保模型版权属于模型拥有方；数据拥有方可以在不泄露数据的前提下训练模型，可以确定数据版权属于数据拥有方，避免出现版权纠纷。

在模型拥有方得到模型后，可以向外提供模型使用服务。具体的，模型拥有方可以利用对模型使用方提供的输入计算输出结果，并根据模型的使用次数计费。现有技术中，模型使用方无法知道模型是否是基于真实的样本数据训练出来的，也无法知道模型的输出结果是否是使用模型推导出来的。而且，目前的方案很难对模型的使用进行合理定价，也很难在交易后进行权益分配。

本实施例中，模型使用方可以通过智能合约向模型拥有方购买模型的使用服务。其中，区块链上可能会发布多个模型，模型使用方可以根据自身的需求以及模型的准确率来选择合适的模型，并向对应的模型拥有方请求使用模型。

下面针对模型类型对三种模型的使用流程进行说明。

（1）当模型为分类模型或回归模型时，模型使用方通过智能合约向模型拥有方购买模型的使用服务，可以包括：模型使用方向模型拥有方发送携带有输入数据的使用请求；模型使用方在智能合约中预存模型使用费；模型拥有方使用模型对输入数据进行处理，将生成的预测值发送给模型使用方，并将生成的第二零知识证明发送给智能合约；智能合约对第二零知识证明进行验证；在验证通过后，智能合约将模型使用费分配给模型拥有方，或者，智能合约将模型使用费分配给模型拥有方和各个目标数据拥有方。

在使用过程中，第二零知识证明可以保证获得的结果是基于模型拥有方的模型计算出的，这样，模型拥有方既保护了模型参数的隐私，又保证了模型计算过程的正确性。

本实施例中，模型使用费可以全部分配给模型拥有方，也可以同时分配给模型拥有方和目标数据拥有方。

（2）当模型为生成模型时，模型使用方通过智能合约向模型拥有方购买模型的使用服务，可以包括：模型使用方利用模型和自身的测试集得到新生成的数据，对新生成的数据生成第三零知识证明，将新生成的数据的数据哈希和第三零知识证明发送给智能合约；智能合约对第三零知识证明进行验证，在验证通过后发布数据哈希；模型使用方根据数据哈希向智能合约支付模型使用费，以购买新生成的数据；智能合约将模型使用费分配给模型拥有方，或者，智能合约将模型使用费分配给模型拥有方和各个目标数据拥有方。

其中，生成模型用于模拟测试集中的数据生成大量相似的新生成的数据。模型拥有方在出售新生成的数据时，第三零知识证明保证了新生成的数据确实是基于模型计算出来的，且该模型的参数哈希与链上存证的参数哈希一致。

当模型使用费需要同时分配给模型拥有方和目标数据拥有方时，智能合约获取预设的第一权重，将第一权重乘以模型使用费得到模型拥有方的应得费用，从模型使用费中抽取应得费用分配给模型拥有方；智能合约将剩余的模型使用费分配给各个目标数据拥有方。

假设第一权重记α，模型使用费为totalFee，则模型拥有方的应得费用modelOwnerFee=totalFee×α，所有目标数据拥有方的收益总和otalTrainingNodeFee=totalFee×（1-α）。

本实施例中，智能合约将剩余的模型使用费分配给各个目标数据拥有方，可以包括：对于第i个目标数据拥有方，智能合约获取预设的第二权重和第三权重，将第i个目标数据拥有方的训练贡献度乘以第二权重得到第一结果，计算测试集中的数据与新生成的数据之间的第二余弦相似度，将第二余弦相似度乘以第三权重得到第二结果，将第一结果和第二结果相加后乘以剩余的模型使用费，得到第i个目标数据拥有方的应得费用，其中，第二权重和第三权重之和为1，i为正整数；智能合约从剩余的模型使用费中抽取应得费用分配给第i个目标数据拥有方。

智能合约根据每个目标数据拥有方的训练贡献率以及新生成的数据和测试集中的数据的第二余弦相似度，计算每个目标数据拥有方的应得费用：trainingNodeFee（i）=totaTrainingNodeFee×[nodeContrubutionRate（i）×β+similarity（newData，testSampleData（i））×（1-β）]，其中，trainingNodeFee（i）表示第i个目标数据拥有方的应得费用，nodeContrubutionRate（i）表示第i个目标数据拥有方的训练贡献率，similarity（newData，testSampleData（i））表示新生成的数据与测试集中的数据的余弦相似度，β表示第二权重，1-β表示第三权重。

模型使用方可以在区块链上购买模型使用服务，可以确保模型是基于真实的样本数据训练出来的，也可以确保模型的输出结果是使用模型推导出来的。而且，还可以对模型的使用进行合理定价，并在交易后进行权益分配。

如图1所示的基于区块链的模型训练系统可以包括：区块链110、模型拥有方120、数据拥有方130和模型使用方140；其中，数据拥有方中包含目标数据拥有方为。

模型拥有方120，用于在区块链110上发布待训练模型的模型信息；

多个数据拥有方130，用于在区块链110上注册其所拥有的训练数据的数据信息；

模型拥有方120，还用于根据模型信息选择目标数据信息，并向每条目标数据信息对应的目标数据拥有方130请求抽样验证；在抽样验证通过后，在区块链110的智能合约中预存训练费用；

每个目标数据拥有方130，用于利用各自的目标训练数据对模型进行联合训练，在训练结束后将各自生成的模型参数加密存储到区块链110中；

模型拥有方120，还用于根据区块链110上的模型参数生成训练后的模型；

智能合约，用于将训练费用分配给每个目标数据拥有方130。

在一个可选的实施例中，当训练费用包括数据使用费和模型训练费时，智能合约，还用于向模型拥有方120获取模型的准确率；

智能合约，还用于获取每个目标数据拥有方130的训练贡献度和其所提供的目标训练数据的数据量；

对于每个目标数据拥有方130，智能合约，还用于根据数据量和数据单价计算数据使用费，根据准确率和训练贡献度计算模型训练费，将数据使用费和模型训练费相加后得到目标数据拥有方130的应得费用，从训练费用抽取应得费用分配给目标数据拥有方130。

在一个可选的实施例中，模型拥有方120，还用于获取与模型对应的验证方式，模型为分类模型、回归模型或生成模型；

模型拥有方120，还用于利用自身的测试集和验证方式计算模型的准确率；

模型拥有方120，还用于将准确率发送给智能合约。

在一个可选的实施例中，

当模型是分类模型时，模型拥有方120，还用于利用分类模型对测试集进行分类，计算正确分类的数据与所有分类的数据的比值，将比值确定为分类模型的准确率；

当模型是回归类型时，模型拥有方120，还用于利用回归模型对测试集的特征向量进行处理，得到预测值，计算预测值与测试集中标注的标准值之间的第一余弦相似度，将第一余弦相似度确定为回归模型的准确率；

当模型是生成模型时，模型拥有方120，还用于利用生成模型对测试集的特征向量进行模拟，得到新生成的数据，计算测试集中的数据与新生成的数据之间的第二余弦相似度，将第二余弦相似度确定为生成模型的准确率。

在一个可选的实施例中，智能合约，还用于获取每一轮训练时，每个目标数据拥有方130得到的各个模型参数的梯度下降值；

智能合约，还用于计算每个模型参数的梯度下降值之和，将所有梯度下降值之和组成梯度下降向量；

智能合约，还用于根据梯度下降向量计算每个目标数据拥有方130对所有模型参数的训练贡献度。

在一个可选的实施例中，模型拥有方120，还用于向目标数据拥有方130发送数据使用请求，数据使用请求中携带有目标训练数据的分布类型、数据量和数值范围；

目标数据拥有方130，还用于根据数据量确定抽样次数，根据分布类型、数据范围和抽样次数对训练数据进行抽样，将得到的多个数据块确定为目标训练数据；根据多个数据块创建默克尔树，将默克尔树的根哈希上传到区块链110上；将多个数据块的编号发送给模型拥有方120；

模型拥有方120，还用于从多个数据块的编号中选择目标编号，将目标编号发送给目标数据拥有方130；

目标数据拥有方130，还用于将目标编号对应的目标数据块和默克尔证明发送给模型拥有方120；

模型拥有方120，还用于验证目标数据块的数据分布与自身的测试集中的数据分布是否相同，验证根据目标数据块和默克尔证明生成的根哈希与区块链110上的根哈希是否相同。

在一个可选的实施例中，模型拥有方120，还用于向目标数据拥有方130发送第一验证请求，第一验证请求中携带有训练轮数n；

数据拥有方130，还用于根据训练轮数n获取第n-1轮训练后得到的第一模型参数哈希和第n轮训练后得到的第二模型参数哈希，以第一模型参数哈希和第二模型参数哈希为公开变量，以目标训练数据的特征向量和模型参数为私有变量，生成第一零知识证明，将第一零知识证明发送给模型拥有方120；

模型拥有方120，还用于根据第一零知识证明验证在模型训练时是否使用了目标训练数据。

在一个可选的实施例中，模型使用方140，用于通过智能合约向模型拥有方120购买模型的使用服务。

在一个可选的实施例中，当模型为分类模型或回归模型时，模型使用方140，还用于向模型拥有方120发送携带有输入数据的使用请求；

模型使用方140，还用于在智能合约中预存模型使用费；

模型拥有方120，还用于使用模型对输入数据进行处理，将生成的预测值发送给模型使用方，并将生成的第二零知识证明发送给智能合约；

智能合约，还用于对第二零知识证明进行验证；

在验证通过后，智能合约，还用于将模型使用费分配给模型拥有方120，或者，智能合约将模型使用费分配给模型拥有方120和各个目标数据拥有方130。

在一个可选的实施例中，当模型为生成模型时，模型使用方140，还用于利用模型和自身的测试集得到新生成的数据，对新生成的数据生成第三零知识证明，将新生成的数据的数据哈希和第三零知识证明发送给智能合约；

智能合约，还用于对第三零知识证明进行验证，在验证通过后发布数据哈希；

模型使用方，还用于140，还用于根据数据哈希向智能合约支付模型使用费，以购买新生成的数据；

智能合约，还用于将模型使用费分配给模型拥有方120，或者，智能合约将模型使用费分配给模型拥有方120和各个目标数据拥有方130。

在一个可选的实施例中，智能合约，还用于获取预设的第一权重，将第一权重乘以模型使用费得到模型拥有方120的应得费用，从模型使用费中抽取应得费用分配给模型拥有方120；

智能合约，还用于将剩余的模型使用费分配给各个目标数据拥有方130。

在一个可选的实施例中，对于第i个目标数据拥有方130，智能合约，还用于获取预设的第二权重和第三权重，将第i个目标数据拥有方130的训练贡献度乘以第二权重得到第一结果，计算测试集中的数据与新生成的数据之间的第二余弦相似度，将第二余弦相似度乘以第三权重得到第二结果，将第一结果和第二结果相加后乘以剩余的模型使用费，得到第i个目标数据拥有方130的应得费用，其中，第二权重和第三权重之和为1，i为正整数；

智能合约，还用于从剩余的模型使用费中抽取应得费用分配给第i个目标数据拥有方130。

综上所述，本申请实施例提供的基于区块链的模型训练系统，由于数据交易是在区块链上进行的，且模型拥有方可以对数据进行抽样验证，既可以保证数据的质量和定价的合理性，也可以保证数据交易的公平公正性；并且，多个数据拥有方可以基于自身的数据对模型进行联合训练，而不是将数据发送给模型拥有方，可以避免模型拥有方将数据转卖给第三方，从而保证了数据的安全性；另外，模型拥有方可以根据模型参数生成训练后的模型，可以确保模型版权属于模型拥有方；数据拥有方可以在不泄露数据的前提下训练模型，可以确定数据版权属于数据拥有方，避免出现版权纠纷。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述并不用以限制本申请实施例，凡在本申请实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请实施例的保护范围之内。

Claims

1.一种基于区块链的模型训练方法，其特征在于，所述方法包括：

模型拥有方在区块链上发布待训练模型的模型信息；

所述智能合约将所述训练费用分配给每个目标数据拥有方。

2.根据权利要求1所述的基于区块链的模型训练方法，其特征在于，当所述训练费用包括数据使用费和模型训练费时，所述智能合约将所述费用分配给每个目标数据拥有方，包括：

所述智能合约向所述模型拥有方获取所述模型的准确率；

3.根据权利要求2所述的基于区块链的模型训练方法，其特征在于，在所述模型拥有方根据所述区块链上的模型参数生成训练后的模型之后，所述方法还包括：

所述模型拥有方将所述准确率发送给所述智能合约。

4.根据权利要求3所述的基于区块链的模型训练方法，其特征在于，所述模型拥有方利用自身的测试集和所述验证方式计算所述模型的准确率，包括：

当所述模型是生成模型时，所述模型拥有方利用所述生成模型对所述测试集的特征向量进行模拟，得到新生成数据，计算所述测试集中的数据与所述新生成数据之间的第二余弦相似度，将所述第二余弦相似度确定为所述生成模型的准确率。

5.根据权利要求2所述的基于区块链的模型训练方法，其特征在于，所述方法还包括：

6.根据权利要求1所述的基于区块链的模型训练方法，其特征在于，所述向每条目标数据信息对应的目标数据拥有方请求抽样验证，包括：

7.根据权利要求1所述的基于区块链的模型训练方法，其特征在于，所述方法还包括：

8.根据权利要求1至7任一所述的基于区块链的模型训练方法，其特征在于，所述方法还包括：

9.根据权利要求8所述的基于区块链的模型训练方法，其特征在于，当所述模型为分类模型或回归模型时，所述模型使用方通过智能合约向所述模型拥有方购买所述模型的使用服务，包括：

所述模型使用方在所述智能合约中预存模型使用费；

所述智能合约对所述第二零知识证明进行验证；

10.根据权利要求8所述的基于区块链的模型训练方法，其特征在于，当所述模型为生成模型时，所述模型使用方通过智能合约向所述模型拥有方购买所述模型的使用服务，包括：

所述模型使用方利用所述模型和自身的测试集得到新生成数据，对所述新生成数据生成第三零知识证明，将所述新生成数据的数据哈希和所述第三零知识证明发送给所述智能合约；

模型使用方根据所述数据哈希向所述智能合约支付模型使用费，以购买所述新生成数据；

11.根据权利要求10所述的基于区块链的模型训练方法，其特征在于，所述智能合约将所述模型使用费分配给所述模型拥有方和各个数据拥有方，包括：

12.根据权利要求11所述的基于区块链的模型训练方法，其特征在于，所述智能合约将剩余的模型使用费分配给各个目标数据拥有方，包括：

对于第i个目标数据拥有方，所述智能合约获取预设的第二权重和第三权重，将所述第i个目标数据拥有方的训练贡献度乘以所述第二权重得到第一结果，计算所述测试集中的数据与所述新生成数据之间的第二余弦相似度，将所述第二余弦相似度乘以第三权重得到第二结果，将所述第一结果和所述第二结果相加后乘以剩余的模型使用费，得到所述第i个目标数据拥有方的应得费用，其中，所述第二权重和所述第三权重之和为1，i为正整数；

13.一种基于区块链的模型训练系统，其特征在于，所述系统包括区块链、模型拥有方和数据拥有方；