CN111899023A

CN111899023A - 一种基于区块链的群智感知机器学习安全众包方法及系统

Info

Publication number: CN111899023A
Application number: CN202010796577.3A
Authority: CN
Inventors: 李冬芬; 刘明哲; 何菊兰; 王林平; 钟豪; 唐小川
Original assignee: Chengdu Univeristy of Technology
Current assignee: Chengdu Univeristy of Technology
Priority date: 2020-08-10
Filing date: 2020-08-10
Publication date: 2020-11-06
Anticipated expiration: 2040-08-10
Also published as: CN111899023B

Abstract

本发明涉及一种基于区块链的群智感知机器学习安全众包方法及系统，该众包系统共分为四个核心功能模块：平台用户模块、众包流程模块、众包项目模块和系统管理模块，平台用户、众包项目和系统管理相关数据存储在底层区块链之中。众包流程数据则存储在传统中心化数据库。通过该系统，可以查询不同项目组织所有人员的交易记录，相比传统的众包平台或联合学习，本系统的交易记录不可篡改、不可伪造，极大体现了平台的信任度和安全性。用户可以使用不同身份登录本系统，通过底层区块链的访问控制和身份认证进行管理。系统所有的交易信息都会完整存储在区块链中。交易是用户与区块链交互的唯一方式，用户通过Fabric链码发起交易，从未对区块链数据进行增删改查。

Description

一种基于区块链的群智感知机器学习安全众包方法及系统

技术领域

本发明涉及软件系统领域，特别涉及一种基于区块链的群智感知机器学习安全众包方法及系统。

背景技术

区块链技术被认为是数字经济的基石，由于区块链技术的开放透明、不可篡改、对等互联、易于追溯等特性，能够把医疗票据、财税发票、电子合同、应收账款、贸易仓单这样的传统资产更容易地进行数字化记录和连接。最终，从根本上形成一种基于可信数据和多方共识的新型信任机制。众包是一种提供给互联网用户的分布式任务完成机制，它把互联网上互相不认识的用户组织起来共同实现单一个体难以完成的任务。由于众包有很多应用背景，如海量图像识别、网上商品质量评价等，因此近几年众包在计算机领域的学术界得到了非常广泛地关注，已经成为了研究的热点话题。机器学习作为人工智能技术中最主要方法，可以从外界输入的大量数据学习到规律，从而进行识别和判断。然而越来越多的机器学习模型，尤其是深度学习领域，存在数据量不够、参数更新不够快等问题，因而深度学习众包尤其受到广泛关注。众所周知的ImageNet数据集就是在付费众包平台AMT(AmazonMechanical Turk)上完成的。通过很多参与者的加入，并且并行地执行数据标记任务，每一个付费的工人仅仅标注少量图片，很快就能完成一个大批量数据集的标注。但是，由于训练数据、模型参数以及用户隐私暴露、信任度等问题，深度学习众包仍存在很多的挑战。

发明内容

本发明的目的在于克服现有技术的不足，鉴于机器学习众包中存在的用户本地数据和模型泄露问题、存在用户欺骗的问题、公平保障的问题，本发明将用区块链技术来解决机器学习众包中存在的问题，实现一种基于区块链的群智感知机器学习安全众包方法及系统。

本发明的发明目的是通过以下技术方案实现的：一种基于区块链的群智感知机器学习安全众包方法，包括以下子步骤：

S1.用户注册、登录；

S2.发起者设计众包项目，描述具体项目需求和质量等级区间及其对应的酬金；

S3.将设计好的众包项目开发流程部署至系统，并将交易的酬金锁定在平台中；

S4.对该机器学习众包项目感兴趣的参与者申请参与，当身份审核通过，根据流程参与机器学习项目开发；

S5.项目参与者在截止日期前提交贡献，通过人员资产和信誉值进行筛选产生评估员；所述评估员与平台智能合约通过期望最大值算法对提交贡献进行联合审核；

S6.根据贡献质量评估等级发放相应的酬金；

S7.项目发起者则通过参与者上传的参数或数据更新项目进展。

所述步骤S5中评估员通过以下子步骤得到：

S5011.普通用户节点报名成为评估员，报名人数为N，平台用户人数为All；平台智能合约判断是否符合N＞＞All*1％，如果符合，则执行步骤S502，若不符合，则合约继续等待用户报名直至满足条件；其中，所述评估员由项目无关的普通用户报名和选举产生，负责平台众包项目数据审核；

S5012.平台通过智能合约在报名的所有节点当前持有的资产asset基础上各加上一个随机数r和用户的信誉值c，根据总和选取前5名作为评估员。

所述步骤S5中评估员和平台智能合约联合审核包括以下子步骤：

S5021.评估员根据项目发起者发起的众包项目描述划分质量等级；

S5022.通过期望最大值算法写入智能合约，进行自动评估；

其中，所述步骤S5022具体包括以下子步骤：

S50221.项目共计K个参与者，众包项目的子任务有：i＝1,…I；已知评估项目子任务的相关性结果为q(1≤q≤J),即该任务的真实答案是q，则有：

T_iq＝1,Tij＝0(j≠q)；

其中，{T_ij:j＝1,…,J}是一组质量等级区间；

S50222.众包任务的真实结果是i，参与者提交的结果所在区间为j；当众包任务只有一个参与者时，则子任务的提交次数服从二项分布，似然函数为：

其中，

为项目的每个参与者设定一个混合矩阵；

S50223.通过公式

计算得到每个参与者提交任务质量的估计值；其中，所述

为每个参与者提交任务质量的估计值，

为项目参与者k对子任务i提交出的答案次数，{T_ij:j＝1,…,J}是一组质量等级区间；

S50224.通过参与者提交的答案与估计得到的正确答案进行比较，得到对参与者提交结果的整体质量评价。

当平台出现故障或者被非法用户破坏导致系统故障、数据丢失等安全问题时，平台借由区块链数据存储的永久保存以及不可篡改等特点，平台管理员可以通过查询系统历史交易检索到具体某个存在问题的交易接着可以找到执行该交易的用户，并进行追责。

一种基于区块链的群智感知机器学习安全众包系统，包括：平台用户模块，用于对系统添加系统管理员、众包项目发起者和项目参与者的个人基本信息，包括用户ID、姓名、电话、邮箱以及地址等，当添加用户信息时会对隐私信息进行隐藏，并通过零知识证明技术在不透露隐私信息的情况下验证用户身份正确性；众包流程模块，用于设计、发布和参与机器学习众包项目开发的流程，平台众包流程涉及的相关数据被存储在传统数据库，从而减轻区块链的存储压力；众包项目模块，实现项目发起者发布众包机器学习项目、项目参与者参与众包机器学习项目，更新项目数据和参数以及结合系统智能合约审核验收答案、整合众包成果；系统管理模块，平台管理员对系统注册用户进行身份管理，当系统出现问题时，能够对系统历史交易信息进行检索查询用于追责；

其中，所述平台用户模块包括添加平台管理模块、添加项目发起人模块和添加项目接收人模块；所述众包流程模块包括项目设计模块、项目发布模块和项目参与模块；所述众包项目模块包括审核模块、添加模块和查询模块；所述众包流程管理模块包括项目设计模块、项目发布模块和项目参与模块；所述系统管理模块包括用户身份管理模块、历史交易查询模块和更新交易信息模块。

所述项目设计模块包括激励模块、质量控制模块和隐私保护模块；所述激励模块对每个新用户添加相同的初始信誉值，当发现用户发起女巫攻击不劳而获、项目发布者发布恶意众包造成项目参与者的损失、项目参与者拖延完成任务时，触发智能合约减少用户的信誉值，当信誉值低于设定阈值时，将无法参与或发起平台的项目；所述质量控制模块通过选举得到评估员，项目发起者对项目设置质量等级，评估员通过验证数据，对项目进行质量等级评估，平台根据不同的质量等级进行报酬分配；所述隐私保护模块，通过非对称加密算法，对用户在众包项目时的数据安全进行保护。

所述平台管理模块包括平台用户身份管理模块、众包交易查询模块、更新网络模块；其中，所述平台用户身份管理模块用于新用户注册，为用户颁发并绑定代表不同权限的身份证书，并当平台用户需要注销身份时，管理员为用户撤销拥有的身份证书，再删除用户信息进行注销；所述众包交易查询模块用于为用户提供查询众包交易功能；所述更新网络模块用于系统升级时采取的操作；在不丢失原有数据的基础上，由系统管理员进行操作，将已有的账本复制一份，然后进行修改，更新整个网络。

本发明的有益效果：

(1)通过该系统，可以查询不同项目组织所有人员的交易记录，相比传统的众包平台或联合学习，本系统的交易记录不可篡改、不可伪造，极大体现了平台的信任度和安全性。

(2)用户可以使用不同身份登录本系统，通过底层区块链的访问控制和身份认证进行管理。

(3)系统所有的交易信息都会完整存储在区块链中。

(4)交易是用户与区块链交互的唯一方式，用户通过Fabric链码发起交易，从未对区块链数据进行增删改查。

附图说明

图1为本发明的系统结构框图；

图2为本发明的隐私保护机制设计SM2算法的非对称加密算法组成示意图；

图3为本发明的隐私保护机制设计SM2加密通信流程示意图；

图4为本发明的众包质量保障机制设计质量审核节点选取流程示意图；

图5为本发明的系统架构图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图说明本发明的具体实施方式，但本发明的保护范围不局限于以下所述。

一种基于区块链的群智感知机器学习安全众包方法，包括以下子步骤：

S1.用户注册、登录；

S6.根据贡献质量评估等级发放相应的酬金；

所述步骤S5中评估员通过以下子步骤得到：

S5022.通过期望最大值算法写入智能合约，进行自动评估；

其中，所述步骤S5022具体包括以下子步骤：

T_iq＝1,Tij＝0(j≠q)；

其中，{T_ij:j＝1,…,J}是一组质量等级区间；

其中，

为项目的每个参与者设定一个混合矩阵；

S50223.通过公式

计算得到每个参与者提交任务质量的估计值；其中，所述

为每个参与者提交任务质量的估计值，

如图1，一种基于区块链的群智感知机器学习安全众包系统，包括：平台用户模块，用于对系统添加系统管理员、众包项目发起者和项目参与者的个人基本信息，包括用户ID、姓名、电话、邮箱以及地址等，当添加用户信息时会对隐私信息进行隐藏，并通过零知识证明技术在不透露隐私信息的情况下验证用户身份正确性；众包流程模块，用于设计、发布和参与机器学习众包项目开发的流程，平台众包流程涉及的相关数据被存储在传统数据库，从而减轻区块链的存储压力；众包项目模块，实现项目发起者发布众包机器学习项目、项目参与者参与众包机器学习项目，更新项目数据和参数以及结合系统智能合约审核验收答案、整合众包成果；系统管理模块，平台管理员对系统注册用户进行身份管理，当系统出现问题时，能够对系统历史交易信息进行检索查询用于追责；

本实施例中：

隐私保护机制设计：

系统安全是影响众包平台项目执行的重要因素之一，例如恶意用户因此，本实施例设计使用基于国密SM2算法的非对称加密算法用于保障用户在进行众包项目时数据安全。SM2算法采用的是ECC椭圆曲线密码机制，采用了相对更安全的机制，其组成部分如图2所示。RSA算法的危机在于其存在亚指数算法，而SM2椭圆曲线公钥密码算法，是ECC的一种，其计算复杂度为指数级。SM2加密通信过程如图3所示。项目参与者与发起者之间通信过程具体描述如下：

1)众包项目参与者B准备将本地训练好的参数或者标记好的数据传送到平台进行审核验证。验证通过后，众包项目发起者A将选定一条椭圆曲线Ep(a,b)，并取椭圆曲线上一点，作为基点G。

2)发起者A选择一个私有密钥k，并生成公开密钥K＝kG。将Ep(a,b)和点K，G传给项目参与者B。

3)参与者B接到信息后，将待传输的资料明文编码到Ep(a,b)上一点M，并产生一个随机整数r(r<n)。计算点C1＝M+rK；C2＝rG。

4)参与者B将C1、C2传给发起者A。发起者A接收到信息后，计算C1-k×C2，结果就是点M。对点M进行解码就可以得到数据明文。

众包质量保障机制设计：

(1)质量审核节点选取

众包平台的项目发起者不仅重视众包的效率问题，还注重众包的完成质量。众包成果质量越高，能够吸引越多用户参与进来。因此，平台有必有设置工人作为审核节点对项目参与者的数据质量进行验证。本文设计一种基于区块链智能合约的工人筛选算法。审核节点生成流程图如图4所示。

1)审核节点由项目无关的普通用户报名和选举产生，负责平台众包项目数据审核。

2)普通用户节点报名成为审核节点，假定报名人数为N，平台用户人数为All。平台智能合约判断是否符合N＞＞All*1％，如果符合，则启动筛选流程。

3)启动筛选流程后，平台通过智能合约在报名的所有节点当前持有的资产asset基础上各加上一个随机数r和用户的信誉值c，根据总和选取前5名作为审核节点。

4)若不足总数的1％，合约继续等待用户报名直至满足条件。为防止固定节点长期垄断审核平台，每批审核节点的生命周期与众包项目声明周期一致。项目结束后合约会自动取消所选审核节点。

(2)数据质量评估

首先是人工数据验证，选举到的工人收到经过零知识证明技术(隐私保护机制会有所涉及)加密数据后，首先验数据的质量以作为平台发送酬金的标准，项目完成质量划分的等级越多，质量估计越精细，对应的激励方法越精确。工人根据项目发起者发起的众包项目描述划分质量等级。质量等级区间不可以太精细，会导致质量估计复杂度变大，因此项目发起者会权衡精度和复杂性来最大化自己的利益，因而给出不同的质量标准等级。平台根据不同的质量进行报酬分配，以此鼓励项目参与者提交完成度比较高的数据。

其次是通过算法写入智能合约进行自动评估。本文基于Dawid等人提出的期望最大值算法(EM算法)，在多个项目参与者参与的机器学习众包任务中，估计出参与者提交结果的误差率，从而实现对项目参与者众包任务完成质量的自动评估。EM算法不断循环迭代直到收敛主要是利用多个参与者所提交的贡献(相关或不相关)，估计出每项任务数据的正确答案。通过参与者提交的答案与估计得到的正确答案进行比较，得到对参与者提交结果的整体质量评价。EM算法的最终输出结果是每项众包任务估计出的正确答案和每个项目参与者的“混合矩阵”。这个结果可以作为每个参与者质量评价的一个标量值。众包项目参与者质量估计的期望最大值(EM)算法如表3-13所示。

下面是算法的具体设计：

1)项目共计K个参与者，众包项目的子任务有：i＝1,…I。

是项目参与者k对子任务i提交出的答案次数。{T_ij:j＝1,…,J}是一组质量等级区间。已知某一项评估项目子任务的相关性结果为q(1≤q≤J),即该任务的真实答案是q，则T_iq＝1,Tij＝0(j≠q)。

2)为项目的每个参与者设定一个混合矩阵

某项众包任务的真实结果是i，参与者提交的结果所在区间为j。对于某些只有一个参与者的众包任务，则子任务的提交次数服从二项分布，似然函数为

3)通过公式

计算得到每个参与者提交任务质量的估计值。

激励机制设计：

激励机制的公平可信性、可持续性、隐私性、安全性都是效用的评估点。本实施例将传统的信誉激励机制、电子货币激励机制结合区块链去中心化、不可篡改、可追溯等特点，设计出一套基于区块链的激励机制。传统的信誉机制下机器学习众包平台用户无论是发布项目还是参与项目，其信誉值越高，就越值得信任，因而在发起机器学习众包任务时，更容易被平台展示出来且更容易吸引用户参与该众包项目。与此同时，信誉高的用户参与机器学习众包项目时更容易被项目发起者信任且同意。因此，使用信誉机制能够促进平台用户诚实地进行操作，实现良性循环。采用平台电子货币能够提升激励机制的灵活性，使得用户之间能够简单自由交易，通过金钱换取资源。

本系统激励机制包括信誉值激励、按任务完成质量分配报酬。每个个新用户都有相同的初始信誉值。之后如果发现用户发起女巫攻击不劳而获、项目发布者发布恶意众包(Crowdturfing)造成项目参与者的损失、项目参与者拖延完成任务等，将会触发智能合约减少用户的信誉值，信誉值低于某个阈值，将无法参与或发起平台的项目。针对某些项目参与者项目参与热情不高，本系统将按照后文设计的众包质量保障机制对用户按贡献度支付酬金。能够一定程度激发用户的参与热情。

系统架构设计：

基于区块链的机器学习安全众包系统整体架构图如图5所示，系统架构分为三层：上层为界面层也称用户交互层，中层是业务开发的逻辑层，底层则是最重要的数据存储访问层。系统采用如此的分层架构是为了把用户交互与数据存储分离开来，用户交互过程中的用户体验与传统中心化架构一样，只需要通过浏览器登录访问即可而无需考虑底层数据如何存储等。

系统界面层也即用户交互层，主要包含系统各功能模块业务逻辑的浏览器端页面，用户在浏览器端操作就可以实现底层的业务逻辑服务。系统中间的业务逻辑层是系统平台的核心业务层，界面层展示的所有功能模块的业务逻辑需要在该层进行实现。首先基于底层提供的REST APIs服务接口，然后再使用传统开发流程进行开发来实现业务。系统底层是数据存储层。传统数据库用于存储管理一些不重要的流程数据，区块链层减少数据存储压力并提高系统效率。区块链层主要包括组织节点的部署以及利用其去中心化存储特性存放系统主要业务数据信息等。

以上所述仅是本发明的优选实施方式，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种基于区块链的群智感知机器学习安全众包方法，其特征在于，包括以下子步骤：

S1.用户注册、登录；

S6.根据贡献质量评估等级发放相应的酬金；

2.根据权利要求1所述的一种基于区块链的群智感知机器学习安全众包方法，其特征在于，所述步骤S5中通过人员资产和信誉值进行筛选产生评估员，具体包括以下子步骤得到：

3.根据权利要求1所述的一种基于区块链的群智感知机器学习安全众包方法，其特征在于，所述步骤S5中评估员和平台智能合约联合审核包括以下子步骤：

S5022.通过期望最大值算法写入智能合约，进行自动评估；

其中，所述步骤S5022具体包括以下子步骤：

S50221.项目共计K个参与者，众包项目的子任务有：i＝1，...I；已知评估项目子任务的相关性结果为q(1≤q≤J)，即该任务的真实答案是q，则有：

T_iq＝1，Tij＝0(j≠q)；

其中，{T_ij：j＝1，...，J}是一组质量等级区间；

其中，

为项目的每个参与者设定一个混合矩阵；

S50223.通过公式

计算得到每个参与者提交任务质量的估计值；其中，所述为每个参与者提交任务质量的估计值，

为项目参与者k对子任务i提交出的答案次数，{T_ij：j＝1，...，J}是一组质量等级区间；

4.根据权利要求1所述的一种基于区块链的群智感知机器学习安全众包方法，其特征在于，当平台出现故障或者被非法用户破坏导致系统故障、数据丢失等安全问题时，平台借由区块链数据存储的永久保存以及不可篡改等特点，平台管理员可以通过查询系统历史交易检索到具体某个存在问题的交易接着可以找到执行该交易的用户，并进行追责。

5.一种基于区块链的群智感知机器学习安全众包系统，其特征在于，包括：

平台用户模块，用于对系统添加系统管理员、众包项目发起者和项目参与者的个人基本信息，包括用户ID、姓名、电话、邮箱以及地址等，当添加用户信息时会对隐私信息进行隐藏，并通过零知识证明技术在不透露隐私信息的情况下验证用户身份正确性；

众包流程模块，用于设计、发布和参与机器学习众包项目开发的流程，平台众包流程涉及的相关数据被存储在传统数据库，从而减轻区块链的存储压力；

众包项目模块，实现项目发起者发布众包机器学习项目、项目参与者参与众包机器学习项目，更新项目数据和参数以及结合系统智能合约审核验收答案、整合众包成果；

系统管理模块，平台管理员对系统注册用户进行身份管理，当系统出现问题时，能够对系统历史交易信息进行检索查询用于追责；

6.根据权利要求5所述的一种基于区块链的群智感知机器学习安全众包系统，其特征在于，所述项目设计模块包括激励模块、质量控制模块和隐私保护模块；所述激励模块对每个新用户添加相同的初始信誉值，当发现用户发起女巫攻击不劳而获、项目发布者发布恶意众包造成项目参与者的损失、项目参与者拖延完成任务时，触发智能合约减少用户的信誉值，当信誉值低于设定阈值时，将无法参与或发起平台的项目；所述质量控制模块通过选举得到评估员，项目发起者对项目设置质量等级，评估员通过验证数据，对项目进行质量等级评估，平台根据不同的质量等级进行报酬分配；所述隐私保护模块，通过非对称加密算法，对用户在众包项目时的数据安全进行保护。

7.根据权利要求5所述的一种基于区块链的群智感知机器学习安全众包系统，其特征在于，所述平台管理模块包括平台用户身份管理模块、众包交易查询模块、更新网络模块；其中，所述平台用户身份管理模块用于新用户注册，为用户颁发并绑定代表不同权限的身份证书，并当平台用户需要注销身份时，管理员为用户撤销拥有的身份证书，再删除用户信息进行注销；所述众包交易查询模块用于为用户提供查询众包交易功能；所述更新网络模块用于系统升级时采取的操作；在不丢失原有数据的基础上，由系统管理员进行操作，将已有的账本复制一份，然后进行修改，更新整个网络。