CN117763616A - 联邦学习共享过程多主体贡献评定方法及系统 - Google Patents
联邦学习共享过程多主体贡献评定方法及系统 Download PDFInfo
- Publication number
- CN117763616A CN117763616A CN202311833705.7A CN202311833705A CN117763616A CN 117763616 A CN117763616 A CN 117763616A CN 202311833705 A CN202311833705 A CN 202311833705A CN 117763616 A CN117763616 A CN 117763616A
- Authority
- CN
- China
- Prior art keywords
- contribution
- data
- model
- federal learning
- evaluation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 197
- 230000008569 process Effects 0.000 title claims abstract description 146
- 238000011156 evaluation Methods 0.000 claims abstract description 102
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 39
- 230000008520 organization Effects 0.000 claims abstract description 11
- 238000013475 authorization Methods 0.000 claims abstract description 10
- 238000004364 calculation method Methods 0.000 claims description 58
- 238000012549 training Methods 0.000 claims description 50
- 230000005540 biological transmission Effects 0.000 claims description 25
- 238000004590 computer program Methods 0.000 claims description 15
- 238000004891 communication Methods 0.000 claims description 11
- 230000002776 aggregation Effects 0.000 claims description 9
- 238000004220 aggregation Methods 0.000 claims description 9
- 230000003993 interaction Effects 0.000 claims description 9
- 238000003860 storage Methods 0.000 claims description 6
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 238000013502 data validation Methods 0.000 description 15
- 238000005516 engineering process Methods 0.000 description 10
- 230000008901 benefit Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 239000011159 matrix material Substances 0.000 description 7
- 238000009826 distribution Methods 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 238000013499 data model Methods 0.000 description 4
- 238000005065 mining Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 206010003591 Ataxia Diseases 0.000 description 1
- 206010010947 Coordination abnormal Diseases 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 208000016290 incoordination Diseases 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种联邦学习共享过程多主体贡献评定方法及系统,属于数据安全共享技术领域,各实体首先使用组织认证授权进行登记,以确保参与方的身份和信任度;参与者将贡献评估统计量传递给贡献评定智能合约,贡献评定智能合约接收和解析输入数据,并根据预设的贡献评定规则和算法对其进行处理,得到贡献评定结果,并将贡献评定结果存储。本发明实现共享多主体贡献评定的安全记录,保证了贡献评定过程中参与方的贡献度按照预先设定的规则进行评定,避免人为干预和不当操纵,有助于维护整个贡献度评定过程的稳定性和可靠性;同时,贡献度不只是通过评估指标来单一衡量,而是综合考虑了数据量,数据、模型的质量与价值等指标,贡献度的评价更为全面。
Description
技术领域
本发明涉及数据安全共享技术领域,具体涉及一种基于区块链和数据确权的联邦学习共享过程多主体贡献评定方法及系统。
背景技术
联邦学习本质上是一个分布式的学习模型。在模型训练中,模型相关参数能够在各个参与方之间进行交换,但是数据不能交换,仍在各个参与方的本地,这样可以保证各部分的数据隐私安全。
柔性化的数据确权可以实现复杂的数据权属关系识别。通过确权,数据的所有者可以明确自己对数据的所有权,并防止他人未经授权使用或侵犯数据的权益,从而保护数据的合法权益。
对于贡献评定,柔性化数据确权可以起到重要的作用。它可以明确数据的价值,当数据被用于共享时,可以通过确权矩阵得到共享数据价值,进而衡量数据共享多主体数据价值贡献度。
基于区块链技术实现共享多主体贡献评定的安全记录。区块链智能合约的自动执行功能保证了贡献评定过程中参与方的贡献度按照预先设定的规则进行评定,避免了人为干预和不当操纵。这种机制有助于维护整个贡献度评定过程的稳定性和可靠性。区块链的溯源、去中心化和隐私保护等特性,也为贡献评定过程提供了可追溯性、可信授权、公正性和隐私保护等方面的支持。
在数据共享时,利益分配是一个复杂且敏感的问题,可能会导致各方之间的矛盾和争议。在数据共享过程中,如果某些参与方提供了更多的数据或贡献,但其在利益分配中得到的回报却较少,可能会导致不公平的情况。这会导致参与方之间的不满和不合作,影响数据共享的长期可持续性。评估每个参与方对数据共享的贡献度是一个复杂的问题。数据贡献度可能不仅仅取决于数据量,还与数据、模型的质量、价值有关。因此,准确评估每个参与方的贡献度并进行公平的利益分配是一项挑战。联邦学习作为数据共享方法之一,遵循一定的基本步骤和规则,为贡献度评定智能合约的设计提供了可能性。
现有技术方案仅使用区块链技术进行记录根据所述数据参与方的贡献度向数据参与方分配的激励值,贡献度评定过程是由需求方单方根据评估指标来计算得到。Liu等人利用区块链记录支付交易,将联邦学习获得的收益按照一定的比例分配;孙凌云等人提出一种由数据需求方根据训练评估指标和本地训练集大小对数据参与方进行贡献评定的方法。
使用区块链技术进行记录根据所述数据参与方的贡献度向数据参与方分配的激励值,贡献度评定过程是由需求方单方评估,评估过程不透明不公开,无法避免人为干预和不当操纵。贡献度评估所使用的指标过少,贡献度评估不够全面。
发明内容
本发明的目的在于提供一种基于区块链和数据确权的联邦学习共享过程多主体贡献评定方法及系统,以解决上述背景技术中存在的至少一项技术问题。
为了实现上述目的,本发明采取了如下技术方案:
一方面,本发明提供一种联邦学习共享过程多主体贡献评定方法,包括:
基于区块链的数据共享贡献评定模型,结合智能合约计算,得到贡献评定结果;基于区块链的数据共享贡献评定模型交互过程包括:各实体首先使用组织认证授权进行登记,以确保参与方的身份和信任度;实体包括参与者、协调者和区块链;参与者将贡献评估统计量传递给贡献评定智能合约,贡献评定智能合约接收和解析输入数据,并根据预设的贡献评定规则和算法对其进行处理,得到贡献评定结果,并将贡献评定结果存储;其中,评估统计量数据主要包括基础信息、数据价值、本地模型评估、模型贡献权重四个维度。
可选的,参与者为联邦学习中执行本地模型训练的分布式节点,用于上传本地模型训练贡献评估统计量和申请个人贡献评估;协调者为用于协调参与者之间的通信和模型聚合过程的中央节点或服务器,用于上传通信和模型聚合过程贡献评估统计量以及申请模型贡献查看,作为参与者进行本地模型训练贡献评估统计量上传和个人贡献评估申请;区块链为互不信任的多方提供可信基础设施,通过智能合约向参与者和协调者提供贡献评定、个人贡献查看、模型贡献查看服务,记录用户对数据的所有操作。
可选的,智能合约贡献度算法包括资源贡献度算法,资源贡献度计算模型为:
其中为Pi主体为模型训练提供的计算资源贡献度、内存资源贡献度和数据传输资源贡献度,μ1、μ2、μ3为待定的参数,代表在资源贡献度计算过程中,计算、内存、数据传输资源贡献度的权重,μ1+μ2+μ3=1;
其中,计算资源贡献度计算模型为:
代表Pi主体在某联邦学习过程中m轮训练单位时间内训练的数据大小;/>代表Pi主体在某联邦学习过程中m轮训练单位时间内训练的数据大小占该联邦学习过程所有主体单位时间内训练的数据大小的比例,以此作为Pi主体为某联邦学习过程提供的计算资源贡献度,/>
内存资源贡献度计算模型为:
代表Pi主体在某联邦学习过程中m轮训练的内存使用量占该联邦学习过程所有主体n轮训练的总内存使用量的比例,以此作为Pi主体为某联邦学习过程提供的内存资源贡献度,/>
数据传输资源贡献度计算模型为:
代表Pi主体在某联邦学习过程中m轮训练的数据传输量占该联邦学习过程所有主体n轮训练的总数据传输量量的比例,以此作为Pi主体为某联邦学习过程提供的内存资源贡献度,/>
可选的,智能合约贡献度算法包括数据价值贡献度算法,数据价值贡献度计算模型为:
其中代表Pi主体在某联邦学习过程样本时间维度价值占比,用于衡量样本价值,/>为样本数量占比,/>为数据特征维度价值占比,/>为三类占比的乘积,用于综合衡量数据价值;
其中样本时间价值为:
xh表示第h个样本的产生时间到使用时间的时间间隔,(xh+1)q,q<0,表示第h个样本的时间价值,xh=0,时间间隔越短,样本时间维度价值越高,时间间隔为零时,样本时间维度价值(xh+1)q最大为1;
主体Pi的数据特征价值为:
其中βu为第u个特征的安全维度价值,RVu为第u个特征权利维度价值,为Pi主体的第u个特征是否参与了联邦学习过程。
可选的,通过特征的安全维度价值和权利维度价值共同衡量数据特征价值;
第u个特征权利维度价值为:
分别为特征被创建、编辑、使用的比例,用于衡量特征的创建、编辑、使用价值,θ1、θ1、θ1为待定的参数,代表在特征权利维度价值计算过程中,创建、编辑、使用价值的权重,θ1+θ2+θ3=1;RVu越大,代表Pi主体参与联邦学习的数据特征权利维度价值越高。
可选的,智能合约贡献度算法包括模型贡献度算法,模型贡献度计算模型为:
若为横向联邦学习,即WF=0,
若为纵向联邦学习,即WF=1,
其中
AC为聚合模型的准确度,用于衡量整个聚合模型的贡献;分别用于衡量横向、纵向联邦学习中主体Pi本地模型的贡献;L为本地模型与聚合模型损失值的差值,差值越小,/>越大,本地模型的贡献越大;鉴于部分联邦学习没有本地模型损失值,采用/>模型大小比例来计算模型复杂度,进而衡量本地模型贡献。
可选的,智能合约贡献度算法包括贡献度计算:主体Pi对于某联邦学习过程的贡献度/>为数据价值、模型、资源贡献度之和。
第二方面,本发明提供一种联邦学习共享过程多主体贡献评定系统,包括处理模块,该处理模块被配置为:基于区块链的数据共享贡献评定模型,结合智能合约计算,得到贡献评定结果;基于区块链的数据共享贡献评定模型交互过程包括:各实体首先使用组织认证授权进行登记,以确保参与方的身份和信任度;实体包括参与者、协调者和区块链;参与者将贡献评估统计量传递给贡献评定智能合约,贡献评定智能合约接收和解析输入数据,并根据预设的贡献评定规则和算法对其进行处理,得到贡献评定结果,并将贡献评定结果存储;其中,评估统计量数据主要包括基础信息、数据价值、本地模型评估、模型贡献权重四个维度。
第三方面,本发明提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质用于存储计算机指令,所述计算机指令被处理器执行时,实现如上所述的基于区块链和数据确权的联邦学习共享过程多主体贡献评定方法。
第四方面,本发明提供一种计算机设备,包括存储器和处理器,所述处理器和所述存储器相互通信,所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令执行如上所述的基于区块链和数据确权的联邦学习共享过程多主体贡献评定方法。
第五方面,本发明提供一种电子设备,包括:处理器、存储器以及计算机程序;其中,处理器与存储器连接,计算机程序被存储在存储器中,当电子设备运行时,所述处理器执行所述存储器存储的计算机程序,以使电子设备执行实现如上所述的基于区块链和数据确权的联邦学习共享过程多主体贡献评定方法的指令。
本发明有益效果:通过区块链技术实现共享多主体贡献评定的安全记录,通过区块链智能合约的自动执行功能保证了贡献评定过程中参与方的贡献度按照预先设定的规则进行评定,避免了人为干预和不当操纵,有助于维护整个贡献度评定过程的稳定性和可靠性;同时,贡献度不只是通过评估指标来单一衡量,而是综合考虑了数据量,数据、模型的质量与价值等指标,贡献度的评价更为全面。
本发明附加方面的优点,将在下述的描述部分中更加明显的给出,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例所述的基于联邦学习的数据共享模型框架图。
图2为本发明实施例所述的基于数据共享流程日志的数据确权模型框架图。
图3为本发明实施例所述的基于区块链的数据共享多主体贡献度评定机制逻辑框架图。
具体实施方式
下面详细叙述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件和/或它们的组。
为便于理解本发明,下面结合附图以具体实施例对本发明作进一步解释说明,且具体实施例并不构成对本发明实施例的限定。
本领域技术人员应该理解,附图只是实施例的示意图,附图中的部件并不一定是实施本发明所必须的。
实施例1
本实施例1中,首先提供了一种联邦学习共享过程多主体贡献评定系统,包括处理模块,该处理模块被配置为:基于区块链的数据共享贡献评定模型,结合智能合约计算,得到贡献评定结果;基于区块链的数据共享贡献评定模型交互过程包括:各实体首先使用组织认证授权进行登记,以确保参与方的身份和信任度;实体包括参与者、协调者和区块链;参与者将贡献评估统计量传递给贡献评定智能合约,贡献评定智能合约接收和解析输入数据,并根据预设的贡献评定规则和算法对其进行处理,得到贡献评定结果,并将贡献评定结果存储;其中,评估统计量数据主要包括基础信息、数据价值、本地模型评估、模型贡献权重四个维度。
本实施例1中,利用上述的系统,实现了一种联邦学习共享过程多主体贡献评定方法,包括:基于区块链的数据共享贡献评定模型,结合智能合约计算,得到贡献评定结果;基于区块链的数据共享贡献评定模型交互过程包括:各实体首先使用组织认证授权进行登记,以确保参与方的身份和信任度;实体包括参与者、协调者和区块链;参与者将贡献评估统计量传递给贡献评定智能合约,贡献评定智能合约接收和解析输入数据,并根据预设的贡献评定规则和算法对其进行处理,得到贡献评定结果,并将贡献评定结果存储;其中,评估统计量数据主要包括基础信息、数据价值、本地模型评估、模型贡献权重四个维度。
参与者为联邦学习中执行本地模型训练的分布式节点,用于上传本地模型训练贡献评估统计量和申请个人贡献评估;协调者为用于协调参与者之间的通信和模型聚合过程的中央节点或服务器,用于上传通信和模型聚合过程贡献评估统计量以及申请模型贡献查看,作为参与者进行本地模型训练贡献评估统计量上传和个人贡献评估申请;区块链为互不信任的多方提供可信基础设施,通过智能合约向参与者和协调者提供贡献评定、个人贡献查看、模型贡献查看服务,记录用户对数据的所有操作。
智能合约贡献度算法包括资源贡献度算法,资源贡献度计算模型为:
其中为Pi主体为模型训练提供的计算资源贡献度、内存资源贡献度和数据传输资源贡献度,μ1、μ2、μ3为待定的参数,代表在资源贡献度计算过程中,计算、内存、数据传输资源贡献度的权重,μ1+μ2+μ3=1;
其中,计算资源贡献度计算模型为:
代表Pi主体在某联邦学习过程中m轮训练单位时间内训练的数据大小;/>代表Pi主体在某联邦学习过程中m轮训练单位时间内训练的数据大小占该联邦学习过程所有主体单位时间内训练的数据大小的比例,以此作为Pi主体为某联邦学习过程提供的计算资源贡献度,/>
内存资源贡献度计算模型为:
代表Pi主体在某联邦学习过程中m轮训练的内存使用量占该联邦学习过程所有主体n轮训练的总内存使用量的比例,以此作为Pi主体为某联邦学习过程提供的内存资源贡献度,/>
数据传输资源贡献度计算模型为:
代表Pi主体在某联邦学习过程中m轮训练的数据传输量占该联邦学习过程所有主体n轮训练的总数据传输量量的比例,以此作为Pi主体为某联邦学习过程提供的内存资源贡献度,/>
智能合约贡献度算法包括数据价值贡献度算法,数据价值贡献度计算模型为:
其中代表Pi主体在某联邦学习过程样本时间维度价值占比,用于衡量样本价值,/>为样本数量占比,/>为数据特征维度价值占比,/>为三类占比的乘积,用于综合衡量数据价值;
其中样本时间价值为:
xh表示第h个样本的产生时间到使用时间的时间间隔,(xh+1)q,q<0,表示第h个样本的时间价值,xh=0,时间间隔越短,样本时间维度价值越高,时间间隔为零时,样本时间维度价值(xh+1)q最大为1;
主体Pi的数据特征价值为:
其中βu为第u个特征的安全维度价值,RVu为第u个特征权利维度价值,为Pi主体的第u个特征是否参与了联邦学习过程。
可选的,通过特征的安全维度价值和权利维度价值共同衡量数据特征价值;
第u个特征权利维度价值为:
分别为特征被创建、编辑、使用的比例,用于衡量特征的创建、编辑、使用价值,θ1、θ1、θ1为待定的参数,代表在特征权利维度价值计算过程中,创建、编辑、使用价值的权重,θ1+θ2+θ3=1;RVu越大,代表Pi主体参与联邦学习的数据特征权利维度价值越高。
智能合约贡献度算法包括模型贡献度算法,模型贡献度计算模型为:
若为横向联邦学习,即WF=0,
若为纵向联邦学习,即WF=1,
其中
AC为聚合模型的准确度,用于衡量整个聚合模型的贡献;分别用于衡量横向、纵向联邦学习中主体Pi本地模型的贡献;L为本地模型与聚合模型损失值的差值,差值越小,/>越大,本地模型的贡献越大;鉴于部分联邦学习没有本地模型损失值,采用/>模型大小比例来计算模型复杂度,进而衡量本地模型贡献。
智能合约贡献度算法包括贡献度计算:主体Pi对于某联邦学习过程的贡献度/>为数据价值、模型、资源贡献度之和。
实施例2
本实施例2提供一种基于区块链和数据确权的联邦学习多主体贡献评定方法,基于联邦计算的数据安全共享平台架构,提出一种数据安全共享多主体贡献评定方法,能够利用日志文件自动确定数据权属关系,对联邦学习数据流转过程进行监控,确保数据的所有权和控制权;在保证评定过程可信任、可追溯的前提下进行多主体贡献评定,为利益分配提供依据。
该基于区块链和数据确权的联邦学习共享过程多主体贡献评定方法,基于分布式的联邦学习平台,利用联邦学习过程产生的日志文件构建数据确权矩阵,对联邦学习数据流转过程进行监控,确保数据的所有权和控制权;设计区块链智能合约算法,利用基础信息、数据价值、模型评估量、资源统计量四个维度的数据进行联邦学习过程多主体贡献评定,为利益分配提供依据。
综上基于联邦学习的数据共享模型保护数据隐私与安全,基于数据共享流程日志的数据确权模型维护数据权益,评定数据价值,区块链技术为多主体贡献评定提供安全记录和信任机制,这三者共同构建了一个安全和公正的数据共享多主体贡献度评定框架。
具体的,本实施例2中,设计基于区块链和数据确权的联邦学习共享过程多主体贡献评定方法包括以下步骤:
S1:设计基于联邦学习的数据共享模型,保证不泄露共享需求、原始数据、共享结果的情况下实现数据安全共享,保证数据所有权仍然在数据提供方。
S2:设计基于数据共享流程日志的数据确权模型,能够利用日志文件自动化确定数据权属关系。
S3:设计基于区块链的数据共享多主体贡献度评定机制,利用区块链智能合约的自动执行功能保证了贡献评定过程中参与方的奖励或惩罚按照预先设定的规则进行,避免了人为干预和不当操纵。
本实施例设计的基于区块链和数据确权的联邦学习共享过程多主体贡献评定方法,能够利用日志文件自动确定数据权属关系,对联邦学习数据流转过程进行监控,确保数据的所有权和控制权,确保数据价值的合法归属,促进数据的合理使用和共享。此外,数据确权可以明确数据的价值,当数据被用于共享时,可以通过确权矩阵得到共享数据价值,进而衡量数据共享多主体数据价值贡献度。利用区块链的不可篡改特性,将所有参与贡献评估的统计量上链存储,智能合约实行严格访问控制,任意数据更改将留下痕迹,以防止评估统计量数据被恶意算改。同时智能合约的自动执行功能保证了贡献评定过程中参与方的奖励或惩罚按照预先设定的规则进行,避免了人为干预和不当操纵。这种机制有助于维护整个贡献度评定过程的稳定性和可靠性。
本实施例2中,设计了基于联邦计算的数据安全共享平台架构:
参照图1,在此架构中,参与方之间展开合作,共享数据,开展在数据共享模型的联邦学习建模和应用,通过采用联邦学习技术完成联合建模保证数据安全。(1)每个参与方都将自己的原始数据保存在本地,不将数据传输到外部环境,确保数据不出库,仍然由数据所有者控制;(2)参与方使用隐私求交技术来获取双方共有的数据,但在此过程中,双方的原始数据互不暴露,仅计算共有数据的聚合结果,以保护数据隐私;(3)每个参与方在本地保存自己的数据模型参数,这些参数由同态加密技术保护,确保在联邦学习过程中不会泄露任何敏感信息;此外,为了交互梯度更新模型,各参与方使用同态加密技术来加密梯度信息,从而保证在数据传输和计算过程中数据始终加密存储,不会被恶意方截获或解密;(4)协调方负责对各参与方的数据模型参数进行汇总,得到最终模型。在这一过程中,只有模型参数的聚合结果被共享,而不涉及原始数据或共享结果的泄露。
通过联邦学习架构,数据的安全共享得以实现,保证了数据的所有权仍然掌握在数据提供方手中,并由数据管理权所有者对数据安全进行管理和控制。联邦计算确保了数据隐私和安全性的同时,促进了多方之间的合作与共享,为各方带来更大的价值和效益。
本实施例2中,设计基于数据共享平台日志文件的数据确权模型:
在基于联邦学习的数据共享过程中,参与数据共享的多主体作为参与方/协调方参与联邦训练,训练过程会被保存在日志文件中。
基于数据共享流程日志的数据确权模型为一种基于事件日志流程挖掘的数据确权方法,流程简述如下:(1)获取联邦学习数据交换日志,并对联邦训练过程中蕴含数据共享规则的SQL日志信息进行抽取;(2)根据日志信息特征确定挖掘规则,使用文本挖掘的方法对抽取的日志信息进行分析,得到参与联邦学习数据共享信息,包括数据表、数据项、数据操作类型、联邦学习过程角色、联邦学习、数据来源方;(3)根据预先定义的规则,将数据表、数据项、数据操作类型作为活动,数据来源方作为参与者,利用Analysis-Originatorby Task Matrix算法得到任务矩阵即数据共享过程的权属矩阵。
通过确权模型可以得到参与联邦学习数据共享过程多主体与数据之间的权属关系。数据确权可以对联邦学习数据流转过程进行监控,确保数据的所有权和控制权,确保数据价值的合法归属,促进数据的合理使用和共享。此外,数据确权可以明确数据的价值,当数据被用于共享时,可以通过确权矩阵得到共享数据价值,进而衡量数据共享多主体数据价值贡献度。
本实施例中,设计了基于区块链的数据共享贡献评定模型:
基于区块链的数据共享贡献评定模型框架,如图3所示,该模型包含三类实体:参与者、协调者、区块链,各类实体的功能如下:
参与者:联邦学习中执行本地模型训练的分布式节点。在本框架中负责上传本地模型训练贡献评估统计量和申请个人贡献评估。
协调者:联邦学习中负责协调参与者之间的通信和模型聚合过程的中央节点或服务器。在本框架中负责上传通信和模型聚合过程贡献评估统计量以及申请模型贡献查看。协调者也可以作为参与者进行本地模型训练贡献评估统计量上传和个人贡献评估申请。
区块链:为互不信任的多方提供可信基础设施,通过智能合约向参与者和协调者提供贡献评定、个人贡献查看、模型贡献查看等服务,可靠地记录用户对数据的所有操作,保证数据整个生命周期的安全可追溯。
模型的交互过程包括以下几个步骤:(1)认证授权:各组织首先使用组织认证授权(Certification Authority,CA)进行登记,以确保参与方的身份和信任度。(2)参与方贡献评估:参与方将贡献评估统计量传递给贡献评定智能合约,贡献评定智能合约接收和解析输入数据,并根据预设的贡献评定规则和算法对其进行处理,得到贡献评定结果,并将贡献评定结果存储。(3)个人贡献查询:参与方调用个人贡献查看智能合约,合约将与参与方相关的账本数据取出返回给参与方。(4)模型贡献查询:协调方调用模型贡献查看智能合约,合约将与所查询模型相关的账本数据取出返回给参与方。
需要注意的是:由于不同联邦学习数据共享过程,联邦计算类型不同、模型不同,所使用的贡献度评估计算指标有一定差异,故贡献度评估的结果用于同一共享过程多主体之间比较,作为利益分配的依据。
数据模型:
利用区块链的不可篡改特性,将所有参与贡献评估的统计量上链存储,智能合约实行严格访问控制,任意数据更改将留下痕迹,以防止评估统计量数据被恶意算改。评估统计量数据主要包括基础信息、数据价值、本地模型评估、模型贡献权重四个维度,具体如表1所示。
表1数据模型
/>
贡献评定智能合约算法设计:
智能合约的自动执行功能保证了贡献评定过程中参与方的奖励或惩罚按照预先设定的规则进行,避免了人为干预和不当操纵。这种机制有助于维护整个贡献度评定过程的稳定性和可靠性。具体的智能合约贡献度算法包含四个子算法,如下:
(1)资源贡献度算法
资源贡献度计算模型为:
其中为Pi主体为模型训练提供的计算资源贡献度、内存资源贡献度和数据传输资源贡献度,μ1、μ2、μ3为待定的参数,代表在资源贡献度计算过程中,计算、内存、数据传输资源贡献度的权重,μ1+μ2+μ3=1。R越大,代表Pi主体的资源贡献度越高。
其中,计算资源贡献度计算模型为:
代表Pi主体在某联邦学习过程中m轮训练单位时间内训练的数据大小,该值越大,意味着Pi主为模型训练提供了更多的计算资源。上面公式代表Pi主体在某联邦学习过程中m轮训练单位时间内训练的数据大小占该联邦学习过程所有主体单位时间内训练的数据大小的比例,以此作为Pi主体为某联邦学习过程提供的计算资源贡献度,
内存资源贡献度计算模型为:
上面公式代表Pi主体在某联邦学习过程中m轮训练的内存使用量占该联邦学习过程所有主体n轮训练的总内存使用量的比例,以此作为Pi主体为某联邦学习过程提供的内存资源贡献度,
数据传输资源贡献度计算模型为:
上面公式代表Pi主体在某联邦学习过程中m轮训练的数据传输量占该联邦学习过程所有主体n轮训练的总数据传输量量的比例,以此作为Pi主体为某联邦学习过程提供的内存资源贡献度,
(2)数据价值贡献度算法
数据价值贡献度计算模型为:
其中代表Pi主体在某联邦学习过程样本时间维度价值占比,用于衡量样本价值,/>为样本数量占比,/>为数据特征维度价值占比。/>为三类占比的乘积,用于综合衡量数据价值。
其中样本时间价值:
xh表示第h个样本的产生时间到使用时间的时间间隔,(xh+1)q,q<0,表示第h个样本的时间价值,xh=0,时间间隔越短,样本时间维度价值越高,时间间隔为零时,样本时间维度价值(xh+1)q最大为1
主体Pi的数据特征价值为:
其中βu为第u个特征的安全维度价值,RVu为第u个特征权利维度价值,为Pi主体的第u个特征是否参与了联邦学习过程。通过特征的安全维度价值和权利维度价值共同衡量数据特征价值。
第u个特征权利维度价值为:
分别为特征被创建、编辑、使用的比例,用于衡量特征的创建、编辑、使用价值,θ1、θ1、θ1为待定的参数,代表在特征权利维度价值计算过程中,创建、编辑、使用价值的权重,θ1+θ2+θ3=1。RVu越大,代表Pi主体参与联邦学习的数据特征权利维度价值越高。
(3)模型贡献度算法
模型贡献度计算模型为:
若为横向联邦学习,即WF=0,
若为纵向联邦学习,即WF=1,
其中
AC为聚合模型的准确度,用于衡量整个聚合模型的贡献;分别用于衡量横向、纵向联邦学习中主体Pi本地模型的贡献;L为本地模型与聚合模型损失值的差值,差值越小,/>越大,本地模型的贡献越大;鉴于部分联邦学习没有本地模型损失值,采用/>模型大小比例来计算模型复杂度,进而衡量本地模型贡献。
(4)贡献度计算
主体Pi对于某联邦学习过程的贡献度为数据价值、模型、资源贡献度之和。
实施例3
本实施例3提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质用于存储计算机指令,所述计算机指令被处理器执行时,实现基于区块链和数据确权的联邦学习共享过程多主体贡献评定方法,该方法包括:
基于区块链的数据共享贡献评定模型,结合智能合约计算,得到贡献评定结果;基于区块链的数据共享贡献评定模型交互过程包括:各实体首先使用组织认证授权进行登记,以确保参与方的身份和信任度;实体包括参与者、协调者和区块链;参与者将贡献评估统计量传递给贡献评定智能合约,贡献评定智能合约接收和解析输入数据,并根据预设的贡献评定规则和算法对其进行处理,得到贡献评定结果,并将贡献评定结果存储;其中,评估统计量数据主要包括基础信息、数据价值、本地模型评估、模型贡献权重四个维度。
实施例4
本实施例4提供一种计算机设备,包括存储器和处理器,所述处理器和所述存储器相互通信,所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令执行基于区块链和数据确权的联邦学习共享过程多主体贡献评定方法,该方法包括:
基于区块链的数据共享贡献评定模型,结合智能合约计算,得到贡献评定结果;基于区块链的数据共享贡献评定模型交互过程包括:各实体首先使用组织认证授权进行登记,以确保参与方的身份和信任度;实体包括参与者、协调者和区块链;参与者将贡献评估统计量传递给贡献评定智能合约,贡献评定智能合约接收和解析输入数据,并根据预设的贡献评定规则和算法对其进行处理,得到贡献评定结果,并将贡献评定结果存储;其中,评估统计量数据主要包括基础信息、数据价值、本地模型评估、模型贡献权重四个维度。
实施例5
本实施例5提供一种电子设备,包括:处理器、存储器以及计算机程序;其中,处理器与存储器连接,计算机程序被存储在存储器中,当电子设备运行时,所述处理器执行所述存储器存储的计算机程序,以使电子设备执行实现基于区块链和数据确权的联邦学习共享过程多主体贡献评定方法的指令,该方法包括:
基于区块链的数据共享贡献评定模型,结合智能合约计算,得到贡献评定结果;基于区块链的数据共享贡献评定模型交互过程包括:各实体首先使用组织认证授权进行登记,以确保参与方的身份和信任度;实体包括参与者、协调者和区块链;参与者将贡献评估统计量传递给贡献评定智能合约,贡献评定智能合约接收和解析输入数据,并根据预设的贡献评定规则和算法对其进行处理,得到贡献评定结果,并将贡献评定结果存储;其中,评估统计量数据主要包括基础信息、数据价值、本地模型评估、模型贡献权重四个维度。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明公开的技术方案的基础上,本领域技术人员在不需要付出创造性劳动即可做出的各种修改或变形,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种联邦学习共享过程多主体贡献评定方法,其特征在于,包括:
基于区块链的数据共享贡献评定模型,结合智能合约计算,得到贡献评定结果;基于区块链的数据共享贡献评定模型交互过程包括:各实体首先使用组织认证授权进行登记,以确保参与方的身份和信任度;实体包括参与者、协调者和区块链;参与者将贡献评估统计量传递给贡献评定智能合约,贡献评定智能合约接收和解析输入数据,并根据预设的贡献评定规则和算法对其进行处理,得到贡献评定结果,并将贡献评定结果存储;其中,评估统计量数据主要包括基础信息、数据价值、本地模型评估、模型贡献权重四个维度。
2.根据权利要求1所述的联邦学习共享过程多主体贡献评定方法,其特征在于,参与者为联邦学习中执行本地模型训练的分布式节点,用于上传本地模型训练贡献评估统计量和申请个人贡献评估;协调者为用于协调参与者之间的通信和模型聚合过程的中央节点或服务器,用于上传通信和模型聚合过程贡献评估统计量以及申请模型贡献查看,作为参与者进行本地模型训练贡献评估统计量上传和个人贡献评估申请;区块链为互不信任的多方提供可信基础设施,通过智能合约向参与者和协调者提供贡献评定、个人贡献查看、模型贡献查看服务,记录用户对数据的所有操作。
3.根据权利要求1所述的联邦学习共享过程多主体贡献评定方法,其特征在于,智能合约贡献度算法包括资源贡献度算法,资源贡献度计算模型为:
其中为Pi主体为模型训练提供的计算资源贡献度、内存资源贡献度和数据传输资源贡献度,μ1、μ2、μ3为待定的参数,代表在资源贡献度计算过程中,计算、内存、数据传输资源贡献度的权重,μ1+μ2+μ3=1;
其中,计算资源贡献度计算模型为:
代表Pi主体在某联邦学习过程中m轮训练单位时间内训练的数据大小;/>代表Pi主体在某联邦学习过程中m轮训练单位时间内训练的数据大小占该联邦学习过程所有主体单位时间内训练的数据大小的比例,以此作为Pi主体为某联邦学习过程提供的计算资源贡献度,/>
内存资源贡献度计算模型为:
代表Pi主体在某联邦学习过程中m轮训练的内存使用量占该联邦学习过程所有主体n轮训练的总内存使用量的比例,以此作为Pi主体为某联邦学习过程提供的内存资源贡献度,/>
数据传输资源贡献度计算模型为:
代表Pi主体在某联邦学习过程中m轮训练的数据传输量占该联邦学习过程所有主体n轮训练的总数据传输量量的比例,以此作为Pi主体为某联邦学习过程提供的内存资源贡献度,/>
4.根据权利要求3所述的联邦学习共享过程多主体贡献评定方法,其特征在于,智能合约贡献度算法包括数据价值贡献度算法,数据价值贡献度计算模型为:
其中代表Pi主体在某联邦学习过程样本时间维度价值占比,用于衡量样本价值,/>为样本数量占比,/>为数据特征维度价值占比,/>为三类占比的乘积,用于综合衡量数据价值;
其中样本时间价值为:
xh表示第h个样本的产生时间到使用时间的时间间隔,(xh+1)q,q<0,表示第h个样本的时间价值,xh=0,时间间隔越短,样本时间维度价值越高,时间间隔为零时,样本时间维度价值(xh+1)q最大为1;
主体Pi的数据特征价值为:
其中βu为第u个特征的安全维度价值,RVu为第u个特征权利维度价值,为Pi主体的第u个特征是否参与了联邦学习过程。
5.根据权利要求4所述的联邦学习共享过程多主体贡献评定方法,其特征在于,通过特征的安全维度价值和权利维度价值共同衡量数据特征价值;
第u个特征权利维度价值为:
分别为特征被创建、编辑、使用的比例,用于衡量特征的创建、编辑、使用价值,θ1、θ1、θ1为待定的参数,代表在特征权利维度价值计算过程中,创建、编辑、使用价值的权重,θ1+θ2+θ3=1;RVu越大,代表Pi主体参与联邦学习的数据特征权利维度价值越高。
6.根据权利要求5所述的联邦学习共享过程多主体贡献评定方法,其特征在于,智能合约贡献度算法包括模型贡献度算法,模型贡献度计算模型为:
若为横向联邦学习,即WF=0,
若为纵向联邦学习,即WF=1,
其中
Ac为聚合模型的准确度,用于衡量整个聚合模型的贡献;分别用于衡量横向、纵向联邦学习中主体Pi本地模型的贡献;L为本地模型与聚合模型损失值的差值,差值越小,/>越大,本地模型的贡献越大;鉴于部分联邦学习没有本地模型损失值,采用/>模型大小比例来计算模型复杂度,进而衡量本地模型贡献。
7.根据权利要求6所述的联邦学习共享过程多主体贡献评定方法,其特征在于,智能合约贡献度算法包括贡献度计算:主体Pi对于某联邦学习过程的贡献度/>为数据价值、模型、资源贡献度之和。
8.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质用于存储计算机指令,所述计算机指令被处理器执行时,实现如权利要求1-6任一项所述的联邦学习共享过程多主体贡献评定方法。
9.一种计算机设备,其特征在于,包括存储器和处理器,所述处理器和所述存储器相互通信,所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令执行如权利要求1-6任一项所述的联邦学习共享过程多主体贡献评定方法。
10.一种电子设备,其特征在于,包括:处理器、存储器以及计算机程序;其中,处理器与存储器连接,计算机程序被存储在存储器中,当电子设备运行时,所述处理器执行所述存储器存储的计算机程序,以使电子设备执行实现如权利要求1-6任一项所述的联邦学习共享过程多主体贡献评定方法的指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311833705.7A CN117763616A (zh) | 2023-12-28 | 2023-12-28 | 联邦学习共享过程多主体贡献评定方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311833705.7A CN117763616A (zh) | 2023-12-28 | 2023-12-28 | 联邦学习共享过程多主体贡献评定方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117763616A true CN117763616A (zh) | 2024-03-26 |
Family
ID=90316209
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311833705.7A Pending CN117763616A (zh) | 2023-12-28 | 2023-12-28 | 联邦学习共享过程多主体贡献评定方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117763616A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118152999A (zh) * | 2024-05-11 | 2024-06-07 | 深圳中科保泰科技有限公司 | 数据治理平台及面向数据治理的数据确权方法 |
-
2023
- 2023-12-28 CN CN202311833705.7A patent/CN117763616A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118152999A (zh) * | 2024-05-11 | 2024-06-07 | 深圳中科保泰科技有限公司 | 数据治理平台及面向数据治理的数据确权方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Neisse et al. | A blockchain-based approach for data accountability and provenance tracking | |
Uddin et al. | A survey on the adoption of blockchain in iot: Challenges and solutions | |
CN109167695A (zh) | 基于联邦学习的联盟网络构建方法、设备及可读存储介质 | |
JP2020514904A (ja) | ブロックチェーン・データからの分析結果の自動生成のための方法、装置および非一過性コンピュータ可読ストレージ媒体 | |
CN112073484B (zh) | 一种基于联盟链的gdpr合规监管方法及系统 | |
US20220051261A1 (en) | Processes and systems of blockchain with verification through a consortium of stakeholders | |
CN110135186A (zh) | 基于区块链技术的医疗数据交易与共享方法 | |
CN117763616A (zh) | 联邦学习共享过程多主体贡献评定方法及系统 | |
Nilaiswariya et al. | Improving scalability and security medical dataset using recurrent neural network and blockchain technology | |
Carlini et al. | The Genesy model for a blockchain-based fair ecosystem of genomic data | |
KR20230054368A (ko) | 디지털 원장 기반 건강 데이터 공유 및 관리 | |
Noshad et al. | An incentive and reputation mechanism based on blockchain for crowd sensing network | |
Fotiou et al. | A privacy-preserving statistics marketplace using local differential privacy and blockchain: An application to smart-grid measurements sharing | |
Wen et al. | Application of blockchain technology in data management: advantages and solutions | |
Zainal et al. | A decentralized autonomous personal data management system in banking sector | |
Lisi et al. | Practical application and evaluation of atomic swaps for blockchain-based recommender systems | |
Mansoor et al. | A review of blockchain approaches for kyc | |
CN117094773A (zh) | 基于区块链隐私计算的在线迁移学习方法及系统 | |
CN117235692A (zh) | 一种基于Web3的软件供应链风险治理系统、方法和平台 | |
Sheeba et al. | Digital Hash Data Encryption for IoT Financial Transactions using Blockchain Security in the Cloud | |
Kafol et al. | Blockchain for energy utilities | |
Li et al. | A fair, verifiable and privacy-protecting data outsourcing transaction scheme based on smart contracts | |
Rouhani | Data trust framework using blockchain and smart contracts | |
Zhu | [Retracted] Research on Real‐Time Tracking Algorithm of E‐Commerce Logistics Information Based on Blockchain Technology | |
Liu et al. | Application and challenges of blockchain technology to big data-based credit reference in China |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |