CN116738444B

CN116738444B - 基于夏普利值的数据安全共享平台多方贡献度评估方法

Info

Publication number: CN116738444B
Application number: CN202311021069.8A
Authority: CN
Inventors: 杨明; 冯宏霖; 吴晓明; 王鑫; 陈振娅; 梁艳; 穆超; 徐硕; 王雪丽
Original assignee: Qilu University of Technology; Shandong Computer Science Center National Super Computing Center in Jinan
Current assignee: Qilu University of Technology; Shandong Computer Science Center National Super Computing Center in Jinan
Priority date: 2023-08-15
Filing date: 2023-08-15
Publication date: 2023-10-31
Anticipated expiration: 2043-08-15
Also published as: CN116738444A

Abstract

一种基于夏普利值的数据安全共享平台多方贡献度评估方法，属于数据治理计算机模型的技术领域。本发明综合考虑了服务分析模型改进程度、数据质量和数据参与度三个方面，在数据共享平台中，服务方根据自己的数据需求与数据所有者进行数据匹配，在安全数据传输与认证后，将匹配好的数据通过服务分析模型进行训练与评估，最后根对多个参与者的贡献进行评估。本发明能够更加公平合理地为数据所有者和服务方评估其贡献，提高各方数据共享的积极性，鼓励数据所有者提供真实可靠的数据。

Description

基于夏普利值的数据安全共享平台多方贡献度评估方法

技术领域

本发明公开一种基于夏普利值的数据安全共享平台多方贡献度评估方法，属于数据治理计算机模型的技术领域。

背景技术

在信息技术时代，随着数据爆炸性增长，海量数据的利用成为一个巨大的难题。数据共享成为解决这一问题的办法，通过机器学习等技术，将大量数据用于训练模型，从而提供可靠的数据分析。数据共享作为一种联盟形式的结构，需要多个成员的合作运作。由于数据分析的复杂性，公平评估每个成员对整个联盟的贡献至关重要，这是联盟顺利运行的基础。

然而现有技术中，对数据共享平台中各个成员进行公平贡献度评估是一个难点。如果无法实现公平评估，会导致成员缺乏合作的动力，产生信任危机，资源分配不均，最终导致联盟破裂。

中国专利文献CN113642034A公开一种基于横纵向联邦学习的医疗大数据安全共享方法和系统，其中所建立的数据安全共享平台，描述的是结合区块链和联邦学习解决了数据的隐私保护问题，利用进化博弈论实现激励机制，其中这里的激励的目的它说的是鼓励数据共享者进行数据共享，但在该专利文献中，并未记载比较详细的激励方案，只提到了数据提供者结合演化博弈论计算不同决策下所产生的收益，在联邦学习的模型训练过程中，计算数据提供者的贡献值，根据贡献值分配信誉币，专利文献没有记载关于收益和贡献值的公式，其激励是使数据提供者的收益最大化从而促使其进行数据共享，但是并未针对的解决数据共享中的贡献度公平评估的问题提出任何技术思路。

中国专利文献CN113065143A公开基于区块链的工业数据安全共享，其中记载了基于Shapley值的分配模型，设置激励机制确保数据的可靠性以及鼓励更多医疗相关参与共享过程，但是该专利文献只提到数据共享中模型参数的更新，共享过程中的隐私保护问题，但针对数据共享如何后续具体的应用场景并没有记载和进一步表述；该专利文献提到的分配模型中，对于每个参与者的贡献值，没有看到有具体的计算公式；其分配方法中，也只给出了Shapley值定义公式。

数据共享平台具有广泛的应用场景，例如在医疗领域，医院可以将病历数据共享给第三方机构，以提供疾病诊断服务。患者购买服务后获得诊断报告。为了提高数据分析服务的准确性，需要使用多个医疗数据进行训练。患者向第三方机构付费获取服务，而第三方机构需要根据医院提供的共享数据来进行收益分配。只有当收益公平分配时，数据共享平台才能合理运行，医院提供真实可靠的数据，第三方机构提供准确的诊断报告。

综上，在技术领域中，怎样使每个参与者能够按照其贡献得到公正的评估，从而激励各参与者积极参与数据共享，提供真实可靠的数据已成为主要关注和解决的技术问题。

发明内容

针对现有技术的不足，本发明公开一种基于夏普利值的数据安全共享平台多方贡献度评估方法。本发明能够更加公平合理地为数据所有者和服务方评估其贡献，提高各方数据共享的积极性，鼓励数据所有者提供真实可靠的数据：通过一种公正的激励机制，促进联盟的稳定运行，保证数据共享平台能够提供可靠的数据，并推动相关领域的发展。与现有技术相比，本发明是根据数据提供不同的数据分析服务；还给出了贡献值的定义，从三个方面综合考虑了数据参与者的贡献度，也根据数据共享平台的对原本的Shapley值计算公式进行了改进。

发明概述

本发明综合考虑了服务分析模型改进程度、数据质量和数据参与度三个方面，在数据共享平台中，服务方根据自己的数据需求与数据所有者进行数据匹配，在安全数据传输与认证后，将匹配好的数据通过服务分析模型进行训练与评估，最后对多个参与者的贡献进行评估。

本发明详细的技术方案如下：

一种基于夏普利值的数据安全共享平台多方贡献度评估方法，其特征在于，

其中，数据安全共享平台包括数据所有者和服务方；所述服务方根据服务需求提出共享数据的请求，所述数据所有者将通过数据匹配的数据通过安全数据传输与认证机制传输给服务方，在获取数据之后，服务方通过机器学习算法来执行数据分析，得到服务分析模型；当服务方发出请求，进行数据匹配之后，将数据共享给服务方进行数据分析；

S1：设数据安全共享平台有一组参与者，代表集合中参与者的数量；表示数据所有者的集合；表示服务方，；

S2：数据需求定向匹配，为了将数据所有者的数据与服务方的需求进行合理匹配，以满足服务方对于特定服务的需求，帮助服务方快速定位和获取符合其需求的数据，我们设计了数据匹配方法，确保服务方获取到与其需求最匹配的数据，提高了数据的应用效果，节约时间和成本；

对于每个数据所有者，设其持有数据的数据向量表示为，其中表示该数据所有者数据的维特征向量；

服务方提供一个需求向量，表示其对于各个数据特征的需求程度；

以计算其每个数据特征向量和需求向量之间的余弦相似度对应对于每个数据所有者和服务方之间的匹配度：

服务方在进行匹配之前设置需求的匹配个数，根据余弦相似度的大小，对所有数据进行排序，确定最优的几个数据与服务方匹配；若出现余弦相似度相同的情况，则根据数据集的数据质量，按照大小进行排序，确定较大的几个数据与服务方匹配；

S3：安全数据传输与认证，为了防止数据在传输过程中被恶意窃取和篡改，验证数据的来源和完整性，保护个人隐私和敏感信息，设计了安全数据传输与认证；

根据信息熵将数据集的不同属性划分为三个级别，分别为高敏感、中敏感和低敏感：

在公式（2）中，表示数据集属性中的单个数据记录；表示数据集属性的信息熵；根据具体场景来选择数据属性的具体的三个敏感级别划分，从而更好地满足数据共享的安全和隐私要求；其中信息熵越大，不确定性越高，敏感程度越高；

对数据集属性进行加密：使用加密算法对每个数据集属性进行加密：对高敏感的数据集属性采用的加密算法的强度大于中敏感数据集属性采用的加密算法和低敏感数据集属性采用的加密算法，以平衡数据的安全性和性能要求，确保数据得到适当的保护；

对数据集进行加密：针对数据集中的不同敏感级别的属性，使用相应的对称密钥对数据集进行加密，同时使用相应的私钥对加密后的数据集进行数字签名生成；

数据的传输：数据所有者将加密后的数据集和数字签名传输给服务方，传输过程采用安全的通信协议和措施；服务方收到数据集后，使用数据所有者的公钥对所述数字签名进行验证：在数字签名验证通过后，服务方使用对应的对称密钥对加密的数据集进行解密，还原为原始的数据内容；

S4：服务分析模型训练与评估，数据传输完成之后，根据所收到的数据集，划分为训练集和测试集，训练集用于服务分析模型的训练和参数优化，测试集用于评估服务分析模型的性能；在评估完成之后，将训练好的服务分析模型部署到数据安全共享平台中，匹配服务方的需求，以提供数据分析服务，输出与服务方需求匹配的数据结果，其中，所述服务分析模型是指加载在数据安全共享平台上的数据处理模型，该模型是根据具体需求和数据特征而确定的基于机器学习的模型，用于对数据处理后得到与具体需求匹配的处理结果，但是所述服务分析模型并不是本发明所要保护的技术内容，所述服务分析模型可以采用现有算法或者根据具体需求设计的算法；

S5：综合贡献度评估，

在数据安全共享平台中，数据所有者和服务方分别作为数据的发送方和接收方，是希望数据是可靠且可信的，为了确保数据所有者能够提供真实可靠的数据，则需要按照联盟中所有成员对服务分析模型的贡献来设计公平合理的多方贡献度评估方法；在数据安全共享平台中，在考虑数据所有者和服务方对服务分析模型改进程度贡献的同时，针对数据所有者，还考虑了数其数据质量和数据参与度；其中所述服务分析模型是指基于机器学习的模型；

设任意的一个非空子集为参与者的一个联盟，所述联盟通过内部协作共享数据以提供数据分析服务：

对于每个所述联盟，为整个参与者集合数据分析服务的贡献度的总合；将参与者对所述联盟的边际贡献定义为：

其中，表示参与者i加入联盟S之后整体的贡献度；表示未包含参与者i的联盟S的贡献度；

Shapley值是一种博弈论中的概念，用于衡量合作博弈中每个参与者对于整个联盟的贡献度，它是基于对不同的合作方式进行计算，并考虑到每个参与者加入博弈所带来的变化，其定义如下：

在公式（3）中，为权重因子；表示不包含参与者的的所有子集的集合；表示参与者i的Shapley值；表示的非空子集；

在数据安全共享平台中，数据所有者提供的数据的贡献之一是服务方对分析模型性能的边际改进，为了计算数据所有者的贡献，需要一种方法来衡量数据所有者对整个联盟的边际贡献，因此Shapley值用于计算每个数据所有者的数据对服务分析模型改进程度的贡献，因此选择一个衡量服务分析模型性能的通用指标作为公式（3）联盟N的贡献度的指标，这里的意思是根据这个数据分析服务的场景来选择一个合适的计算联盟N的贡献度的指标，这个指标的计算是结合了Shapley值和F1分数；由于F1分数在大多数情况下可以更好地衡量服务分析模型的性能，所以采用F1分数作为评估指标，在服务分析模型训练过程中，训练出来服务分析模型对来自不同数据所有者的数据集的效果是不同的，所以可在F1分数中体现，通过这种方式，以计算每个数据所有者对服务分析模型改进程度的贡献：

在联盟中，Shapley值与F1分数的关系：

在公式（4）中，是参与者的影响因子；表示参与者i加入到s后所得到的F1分数；表示未包含参与者i的s的F1分数；通过来量化每个参与者对F1分数的贡献；为F1分数的最大值，即为所有可能组成联盟N的情况中F1分数的最大值；通过除以F1分数的最大值对边际贡献进行归一化处理，因此影响因子可以看作是参与者对F1分数贡献的百分数；

Shapley值计算方法：

定义为的所有非空子集的集合；

其中，表示的一个非空子集；

定义为不包含数据所有者的的所有子集的集合；数据所有者和服务方的服务分析模型改进程度贡献度：

在公式（5）、（6）中，和分别为数据所有者和服务方对服务分析模型改进程度贡献的百分数，即可以得到数据所有者和服务方对于服务分析模型改进程度贡献的百分数；表示由和1个服务方所组成的联盟和权重因子表示参与者F1分数的边际贡献；表示由所组成的联盟的权重因子；表示由所组成的联盟进行数据分析服务所得的F1分数。

根据本发明优选的，在S5中的综合贡献度评估中，还包括，利用数据质量评估数据所有者的贡献度：

数据质量是评估数据在共享平台上的准确性、完整性和可靠性的指标。数据的质量对于服务分析模型的训练和预测结果具有重要影响，因此，在考虑数据所有者的贡献时，应该考虑其所提供数据的质量水平；

定义为联盟中数据所有者提供数据的数据质量，包括数据完整性、数据正确性、数据一致性、数据重复性和获取难易度五个指标；

在公式（7）中，分别表示数据完整性、数据正确性、数据一致性、数据重复性和获取难易度的权重，对于各个指标的权重，可以通过层次分析法计算得出，这里与后面的权重α、β、γ类似，根据不同的应用场景计算，可以采用同样的描述方法，使用层次分析法计算权重是一种比较常见的方法；分别表示数据完整性、数据正确性、数据一致性、数据重复性和获取难易度的指标值，这里的5个指标数据完整性、数据正确性、数据一致性、数据重复性、获取难易度都是可以根据数据集进行计算，这部分属于数据质量评估的内容，现有技术都比较成熟，相关技术人员应该都是默认这些指标值都是根据各自度量方法客观得到的；

将各个指标的权重和指标值相乘并进行归一化处理得到对于数据质量贡献的百分数：

在公式（8）中，j表示数据所有者个数；表示参与者中任意一个数据所有者。

根据本发明优选的，在S5中的综合贡献度评估中，还包括，利用数据参与度评估数据所有者的贡献度：

数据参与度是指数据所有者在数据安全共享平台上的活跃程度，数据参与度的高低反映了其对数据安全共享平台的积极性和投入程度；

定义为数据所有者的数据参与服务的次数，数据参与服务的次数与所有服务次数相除来表示数据参与度；

定义为联盟中数据所有者经过归一化处理后的对数据参与度贡献的百分数：

。

根据本发明优选的，所述基于夏普利值的数据安全共享平台多方贡献度评估方法，还包括，综合贡献度评估方法：

定义为数据所有者的服务分析模型改进程度在整体贡献中所占的权重；为数据所有者的数据质量在整体贡献中所占的权重；为数据所有者的数据参与度在整体贡献中所占的权重；所述权重、和分别是根据具体应用场景来选择权重，并不是本发明所要保护的内容；

定义为数据所有者的综合贡献度，为服务方的综合贡献度，且满足以下等式：

。

本发明的技术优势包括：

针对在数据安全共享平台中如何为各个参与者设计一个有效且公平的分配机制，从而鼓励多个参与者可以安全和协作地共享数据的技术难点，本发明通过基于Shapley值法，通过其公平性原理，设计了贡献评估方法；还设计了综合贡献评估方法，在服务分析模型改进程度的基础上，从数据质量和数据参与度两方面考虑了各个数据所有者对于数据共享平台的贡献，从而保证数据所有者能够提供真实可靠的数据。

附图说明

图1是本发明实施例1所述贡献评估方法的流程图；

图2是本发明实施例2所述贡献评估方法的流程图。

具体实施方式

下面结合实施例和说明书附图对本发明做详细的说明，但不限于此。

实施例1、

如图1所示，一种基于夏普利值的数据安全共享平台多方贡献度评估方法，包括：

S2：数据需求定向匹配，对于每个数据所有者，设其持有数据的数据向量表示为，其中表示该数据所有者数据的维特征向量；

S3：安全数据传输与认证，根据信息熵将数据集的不同属性划分为三个级别，分别为高敏感、中敏感和低敏感：

在公式（2）中，表示数据集属性中的单个数据记录；表示数据集属性的信息熵；

对数据集属性进行加密：使用加密算法对每个数据集属性进行加密：对高敏感的数据集属性采用的加密算法的强度大于中敏感数据集属性采用的加密算法和低敏感数据集属性采用的加密算法；

S4：服务分析模型训练与评估，数据传输完成之后，根据所收到的数据集，划分为训练集和测试集，训练集用于服务分析模型的训练和参数优化，测试集用于评估服务分析模型的性能；在评估完成之后，将训练好的服务分析模型部署到数据安全共享平台中，匹配服务方的需求，以提供数据分析服务，输出与服务方需求匹配的数据结果，其中，所述模型是指加载在数据安全共享平台上的数据处理模型，该服务分析模型是根据具体需求和数据特征而确定的基于机器学习的模型，用于对数据处理后得到与具体需求匹配的处理结果，但是所述服务分析模型并不是本发明所要保护的技术内容，所述服务分析模型可以采用现有算法或者根据具体需求设计的算法；

S5：综合贡献度评估，设任意的一个非空子集为参与者的一个联盟，所述联盟通过内部协作共享数据以提供数据分析服务：

在公式（3）中，为权重因子；表示不包含参与者的的所有子集的集合；表示参与者i的Shapley值；的非空子集；

在数据安全共享平台中，数据所有者提供的数据的贡献之一是服务方对服务分析模型性能的边际改进，为了计算数据所有者的贡献，需要一种方法来衡量数据所有者对整个联盟的边际贡献，因此Shapley值用于计算每个数据所有者的数据对服务分析模型改进程度的贡献，因此选择一个衡量服务分析模型性能的通用指标作为公式（3）联盟N的贡献度的指标，这里的意思是根据这个数据分析服务的场景来选择一个合适的计算联盟N的贡献度，这个指标的计算是结合了Shapley值和F1分数；由于F1分数在大多数情况下可以更好地衡量服务分析模型的性能，所以采用F1分数作为评估指标，在服务分析模型训练过程中，训练出来的服务分析模型对来自不同数据所有者的数据集的效果是不同的，所以可在F1分数中体现，通过这种方式，以计算每个数据所有者对服务分析模型改进程度的贡献：

在联盟中，Shapley值与F1分数的关系：

在公式（4）中，是参与者的影响因子；表示参与者i加入到s后所得到的F1分数；表示未包含参与者i的s的F1分数；通过来量化每个参与者对F1分数的贡献；为F1分数的最大值；通过除以F1分数的最大值对边际贡献进行归一化处理，因此影响因子可以看作是参与者对F1分数贡献的百分数；

Shapley值计算方法：

定义为的所有非空子集的集合；

其中，；

在公式（5）、（6）中，和分别为数据所有者和服务方对服务分析模型改进程度贡献的百分数，即可以得到数据所有者和服务方对于服务分析模型改进程度贡献的百分数；表示由和1个服务方所组成的联盟和权重因子；表示参与者F1分数的边际贡献；表示由组成的联盟的权重因子；表示由所组成的联盟进行数据分析服务所得的F1分数。

实施例2、

如附图2所示，如实施例1所述一种基于夏普利值的数据安全共享平台多方贡献度评估方法，在S5中的综合贡献度评估中，还包括，利用数据质量评估数据所有者的贡献度：

在公式（7）中，分别表示数据完整性、数据正确性、数据一致性、数据重复性和获取难易度的权重，对于各个指标的权重，可以通过层次分析法计算得出，这里与后面的权重α、β、γ类似，根据不同的应用场景计算，可以采用同样的描述方法，使用层次分析法计算权重是一种比较常见的方法；分别表示数据完整性、数据正确性、数据一致性、数据重复性和获取难易度的指标值，所述5个指标数据完整性、数据正确性、数据一致性、数据重复性、获取难易度均根据数据集进行计算，计算方法属于现有技术，并不是本发明所要保护的内容；

在S5中的综合贡献度评估中，还包括，利用数据参与度评估数据所有者的贡献度：

。

综合贡献度评估方法：

。

根据实施例1、实施例2所记载的技术内容，在以下应用场景中应用：所述数据安全共享平台有六个参与者，其中包含五个数据所有者和一个服务方，分别用和表示；服务方的需求向量为，数据所有者的数据特征向量分别为，，，，；

计算每个数据特征向量与需求向量之间的余弦相似度，以得到：

，，，，，设服务方选择匹配最优的两个数据所有者，则数据所有者和匹配成功；

根据信息熵将和的数据集的不同属性划分为三个级别，分别为高敏感、中敏感和低敏感：和分别为其数据集的每个敏感级别属性生成对应的密钥对；针对数据集中的不同敏感级别属性，数据所有者分别使用相应的对称密钥对数据进行加密，即例如：针对高敏感级别属性，使用AES-256算法对其进行加密；针对中敏感级别属性，使用AES-192算法对其进行加密；针对低敏感级别属性，使用AES-128算法对其进行加密。

针对整个数据集，和分别使用自己的私钥对数据集进行数字签名生成签名数据，例如，使用RSA算法和私钥对整个数据集进行签名生成数字签名。

和将加密后的数据和数字签名一起传输给服务方。

服务方收到数据后，首先使用数据所有者的公钥对数据签名进行验证。在数字签名验证通过后，服务方使用相应的对称密钥对加密的数据进行解密，还原为原始的数据内容。

数据传输完成之后，服务方将和的数据集进行数据预处理，将数据集划分为训练集和测试集，训练集用于服务分析模型的训练和参数优化，测试集用于评估服务分析模型的性能。

选择基于机器学习的模型进行训练，使用训练集进行服务分析模型训练，并根据训练过程中的损失函数进行参数优化。使用测试集对训练好的服务分析模型进行评估。在评估完成之后，将训练好的服务分析模型部署到数据共享平台中，匹配服务方的需求，提供数据分析服务。

根据评估结果，对参与者的贡献度进行评估。

用F1分数作为来衡量数据所有者的数据集对于服务分析模型改进程度的贡献，假设结果为，，。根据公式(4)和公式(5)，以得到,，。

接下来根据公式(6)、公式(7)、公式(8)分别计算数据所有者和归一化的数据质量和数据参与度，结果为，，，。

设，最后根据公式(10)和(11)，计算综合贡献度，结果为，，。

Claims

1.一种基于夏普利值的数据安全共享平台多方贡献度评估方法，其特征在于，包括：

S2：数据需求定向匹配；

S3：安全数据传输与认证，根据信息熵将数据集的不同属性划分为三个级别，分别为高敏感、中敏感和低敏感；

S4：服务分析模型训练与评估，数据传输完成之后，根据所收到的数据集，划分为训练集和测试集，训练集用于服务分析模型的训练和参数优化，测试集用于评估服务分析模型的性能；在评估完成之后，将训练好的服务分析模型部署到数据安全共享平台中，匹配服务方的需求，以提供数据分析服务，输出与服务方需求匹配的数据结果；

S5：综合贡献度评估，设任意的一个非空子集为参与者的一个联盟，所述联盟通过内部协作共享数据以提供数据分析服务；

在所述S5具体包括：

Shapley值定义如下：

在公式（3）中，为权重因子；表示不包含参与者的的所有子集的集合；表示参与者i的Shapley值；的非空子集；以计算每个数据所有者对服务分析模型改进程度的贡献：

在联盟中，Shapley值与F1分数的关系：

在公式（4）中，是参与者的影响因子；表示参与者i加入到s后所得到的F1分数；表示未包含参与者i的s的F1分数；为F1分数的最大值；

Shapley值计算方法：

定义为的所有非空子集的集合；

其中，表示的一个非空子集；

在公式（5）、（6）中，和分别为数据所有者和服务方对服务分析模型改进程度贡献的百分数；表示由和1个服务方所组成的联盟和权重因子；表示参与者F1分数的边际贡献；表示由所组成的联盟的权重因子；表示由所组成的联盟进行数据分析服务所得的F1分数；

在S5中的综合贡献度评估中，还包括，利用数据质量评估数据所有者的贡献度：

在公式（7）中，分别表示数据完整性、数据正确性、数据一致性、数据重复性和获取难易度的权重；分别表示数据完整性、数据正确性、数据一致性、数据重复性和获取难易度的指标值；

在公式（8）中，j表示数据所有者个数；表示参与者中任意一个数据所有者；

；

所述基于夏普利值的数据安全共享平台多方贡献度评估方法，还包括，综合贡献度评估方法：

定义为数据所有者的服务分析模型改进程度在整体贡献中所占的权重；为数据所有者的数据质量在整体贡献中所占的权重；为数据所有者的数据参与度在整体贡献中所占的权重；

。

2.根据权利要求1所述一种基于夏普利值的数据安全共享平台多方贡献度评估方法，其特征在于，所述S2中：数据需求定向匹配，对于每个数据所有者，设其持有数据的数据向量表示为，其中表示该数据所有者数据的维特征向量；

服务方在进行匹配之前设置需求的匹配个数，根据余弦相似度的大小，对所有数据进行排序，确定最优的几个数据与服务方匹配；若出现余弦相似度相同的情况，则根据数据集的数据质量，按照大小进行排序并选定前几个数据与服务方匹配。

3.根据权利要求1所述一种基于夏普利值的数据安全共享平台多方贡献度评估方法，其特征在于，所述S3中：安全数据传输与认证，根据信息熵将数据集的不同属性划分为三个级别，分别为高敏感、中敏感和低敏感，具体步骤：

数据的传输：数据所有者将加密后的数据集和数字签名传输给服务方；服务方收到数据集后，使用数据所有者的公钥对所述数字签名进行验证：在数字签名验证通过后，服务方使用对应的对称密钥对加密的数据集进行解密，还原为原始的数据内容。