CN114254381A - 基于多方安全计算的数据评估方法、装置、设备及介质 - Google Patents

基于多方安全计算的数据评估方法、装置、设备及介质 Download PDF

Info

Publication number
CN114254381A
CN114254381A CN202111438204.XA CN202111438204A CN114254381A CN 114254381 A CN114254381 A CN 114254381A CN 202111438204 A CN202111438204 A CN 202111438204A CN 114254381 A CN114254381 A CN 114254381A
Authority
CN
China
Prior art keywords
data set
data
platform
information
sample data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111438204.XA
Other languages
English (en)
Inventor
刘春�
尹志斌
杜自然
邵雷
董传晔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Shujuwan District Big Data Research Institute
Yi Chengqi
Original Assignee
Shenzhen Shujuwan District Big Data Research Institute
Yi Chengqi
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Shujuwan District Big Data Research Institute, Yi Chengqi filed Critical Shenzhen Shujuwan District Big Data Research Institute
Priority to CN202111438204.XA priority Critical patent/CN114254381A/zh
Publication of CN114254381A publication Critical patent/CN114254381A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/382Payment protocols; Details thereof insuring higher security of transaction
    • G06Q20/3829Payment protocols; Details thereof insuring higher security of transaction involving key management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Accounting & Taxation (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本公开实施例涉及人工智能技术领域,尤其涉及一种基于多方安全计算的数据评估方法、装置、设备及介质。该方法包括:从平台端获取数据介绍信息;根据数据介绍信息向平台端发送需求信息,以使平台端根据需求信息搭建试验子平台;其中,试验子平台包括与数据介绍信息相匹配的第一样本数据集;将预设的待测试模型和预设的第二样本数据集发送给平台端,以使平台端的试验子平台根据第一样本数据集和第二样本数据集对待测试模型进行测试,得到测试结果;获取测试结果;对测试结果进行分析评估,得到数据评估报告,其中,数据评估报告用于表征第一样本数据集对待测试模型的匹配度。本申请的方案,能够实现对数据的评估,降低决策成本。

Description

基于多方安全计算的数据评估方法、装置、设备及介质
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于多方安全计算的数据评估方法、装置、设备及介质。
背景技术
模型需要使用大量的数据进行训练,才能达到预期效果,然而,模型的训练方往往很难提供海量的数据用于特定模型的训练,需要到一些数据供应方购买数据,以满足模型训练的要求。在数据交易中,除了被数据权属和数据定价影响以外,数据与特定模型之间是否匹配也起着关键性的作用。
相关技术中,对数据和特定模型之间匹配度的评估是直接将卖方的数据拿来给买方进行测试的,或者直接将买方的待训练模型给卖方测试,这样操作容易导致卖方的数据泄露或者买方数据的泄露,更加不利于数据的交易。
发明内容
本公开实施例的主要目的在于提出一种基于多方安全计算的数据评估方法、装置、设备及介质,以实现对数据的评估,降低决策成本,避免了买卖双方数据的泄露,保障了买卖双方的数据隐私,提高了数据的安全性。
为实现上述目的,本公开实施例的第一方面提出了一种基于多方安全计算的数据评估方法,应用于使用端;
方法包括:
从平台端获取数据介绍信息;
根据数据介绍信息向平台端发送需求信息,以使平台端根据需求信息搭建试验子平台;其中,试验子平台包括与数据介绍信息相匹配的第一样本数据集;
将预设的待测试模型和预设的第二样本数据集发送给平台端,以使平台端的试验子平台根据第一样本数据集和第二样本数据集对待测试模型进行测试,得到测试结果;
获取测试结果;
对测试结果进行分析评估,得到数据评估报告;其中,数据评估报告用于表征第一样本数据集对待测试模型的匹配度。
在一些实施例中,数据评估报告包括信息值报告;
对测试结果进行分析评估,得到数据评估报告,包括:
从平台端获取关联关系;其中,关联关系包括横向联邦或者纵向联邦,关联关系用于表征第一样本数据集和第二样本数据集之间的联系;
根据关联关系对测试结果进行分组处理,得到若干个信息价值待评估组;
计算每个信息价值待评估组的信息价值指标,得到目标信息值集;
对目标信息值集进行统计分类处理,得到信息值报告。
在一些实施例中,对目标信息值集进行统计分类处理,得到信息值报告,包括:
根据预设的第一信息阈值和预设的第二信息阈值对目标信息值集进行分类处理,得到第一信息值集、第二信息值集和第三信息值集;
分别对第一信息值集、第二信息值集和第三信息值集进行统计,得到信息值报告。
在一些实施例中,数据评估报告还包括模型价值评估报告:
对测试结果进行分析评估,得到数据评估报告,包括:
对测试结果进行目标操作,得到模型价值评估报告;其中,目标操作包括以下操作的至少一种:曲线下面积计算、柯尔莫哥洛夫-斯米尔诺夫检验计算、精准率计算、召回率计算、沙普利值计算、平衡F分数计算。为实现上述目的,本公开实施例的第二方面提出了一种基于多方安全计算的数据评估方法,应用于平台端;
方法包括:
获取供应端的第一样本数据集;
根据第一样本数据集生成数据介绍信息,以使使用端根据数据介绍信息生成需求信息;
接收使用端根据数据介绍信息生成的需求信息;
根据需求信息搭建试验子平台;其中,试验子平台包括与数据介绍信息相匹配的第一样本数据集;
接收使用端发送的待测试模型和第二样本数据集;
调用试验子平台,以通过试验子平台根据第一样本数据集和第二样本数据集对待测试模型进行测试,得到测试结果;
将测试结果发送至使用端,以使使用端根据测试结果得到数据评估报告。
在一些实施例中,根据第一样本数据集和第二样本数据集对待测试模型进行测试,包括:
以预设的关联关系建立第一样本数据集和第二样本数据集之间的联系,得到联合数据集;其中,关联关系包括横向联邦或者纵向联邦;
对联合数据集进行归一分类处理,得到训练数据集和对抗数据集;
根据训练数据集和对抗数据集对待测试模型进行训练。
在一些实施例中,对联合数据集进行归一分类处理,得到训练数据集和对抗数据集,包括:
对联合数据集进行归一化处理,得到待评估数据集;
根据预设的权重比对待评估数据集进行分类处理,得到训练数据集和对抗数据集。
为实现上述目的,本公开实施例的第三方面提出了一种基于多方安全计算的数据评估装置,应用于使用端,装置包括:
信息获取模块,用于从平台端获取数据介绍信息;
第一发送模块,用于根据数据介绍信息向平台端发送需求信息,以使平台端根据需求信息搭建试验子平台;其中,试验子平台包括与数据介绍信息相匹配的第一样本数据集;
第二发送模块,用于将预设的待测试模型和预设的第二样本数据集发送给平台端,以使平台端的试验子平台根据第一样本数据集和第二样本数据集对待测试模型进行测试,得到测试结果;
结果获取模块,用于获取测试结果;
分析评估模块,用于对测试结果进行分析评估,得到数据评估报告,其中,数据评估报告用于表征第一样本数据集对待测试模型的匹配度。
为实现上述目的,本公开实施例的第四方面提出了一种电子设备,包括:
至少一个存储器;
至少一个处理器;
至少一个程序;
程序被存储在存储器中,处理器执行至少一个程序以实现:
如第一方面实施例任意一项的方法;或者,
如第二方面实施例任意一项的方法。
为实现上述目的,本公开实施例的第五方面提出了一种存储介质,存储介质为计算机可读存储介质,计算机可读存储介质存储有计算机可执行指令,计算机可执行指令用于使计算机执行:
如第一方面实施例任意一项的方法;或者,
如第二方面实施例任意一项的方法。
本公开实施例提出的基于多方安全计算的数据评估方法、装置、设备及介质,使用端通过从平台端获取数据介绍信息,并根据数据介绍信息生成并发送需求信息,以使平台端根据需求信息搭建试验子平台,并通过试验子平台对使用端的待测试模型和第二样本数据集进行测试,得到测试结果;使用端通过对测试结果进行分析评估,得到表征第一样本数据集对待测试模型匹配度的数据评估报告。通过这样设置,能够便于使用端实现对数据的评估,降低用户的决策成本,避免了买卖双方数据的泄露,保障了买卖双方的数据隐私,提高了数据的安全性,也保障类数据供应方的利益。
附图说明
图1是本申请实施例提供的基于多方安全计算的数据评估系统的模块框图;
图2是本申请实施例提供的基于多方安全计算的数据评估方法的第一流程图;
图3是图2中步骤S205的具体方法的流程图;
图4是图3中步骤S304的具体方法的流程图;
图5是本申请实施例提供的基于多方安全计算的数据评估方法的第二流程图;
图6是图5中步骤S506的具体方法的流程图;
图7是图6中步骤S602的具体方法流程图;
图8是本申请实施例提供的基于多方安全计算的数据评估装置的模块框图;
图9是本申请实施例提供的电子设备的硬件结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
需要说明的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
首先,对本申请中涉及的若干名词进行解析:
人工智能(artificial intelligence,AI):是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学;人工智能是计算机科学的一个分支,人工智能企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能还是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
多方安全计算(Multi-party Computation,MPC):多方安全计算作为密码学的一个子领域,其允许多个数据所有者在互不信任的情况下进行协同计算,输出计算结果,并保证任何一方均无法得到除应得的计算结果之外的其他任何信息。换句话说,MPC技术可以获取数据使用价值,却不泄露原始数据内容。MPC具有以下特点:
(1)同态加密(Homomorphic Encryption,HE)
同态加密是一类具有特殊自然属性的加密方法,可在密文域下进行数据运算的加密算法。与一般加密算法相比,同态加密除了能实现基本的加密操作之外,还能实现密文间的多种计算功能,即先计算后解密等价于先解密后计算。
(2)混淆电路(Garbled Circuit,GC)
混淆电路思想是利用计算机模拟集成电路的方式来实现多方安全计算的,它将运算任务转化为门电路的形式,并且对每一条线路进行加密,在很大程度上保障了用户的隐私安全。
(3)不经意传输(Oblivious Transfer,OT)
不经意传输协议是一种可保护隐私的秘密协议,它使得服务发送方和服务接收方以不经意的方式交互信息,从而可达到保护隐私的目的。不经意传输协议是一个两方安全计算协议,接收方从发送方的数据中选取部分数据,协议使得接收方除选取的内容外,对剩余数据一无所知,并且发送方也无从知道被选取的内容。
(4)秘密分享(Secret Sharing,SS)
秘密分享也被称为秘密分割,是一种对秘密信息的管理方式,它将秘密进行拆分,拆分后的每一个分片由不同的参与者管理,单个参与者无法恢复秘密信息,需要超过一定门限数量的人一同协作进行合并才能恢复秘密文件。
信息价值指标(Information value,IV):IV值衡量了某个特征对目标的影响程度,其基本思想是根据该特征所命中黑白样本的比率与总黑白样本的比率,来对比和计算其关联程度.因为计算过程中用的是命中黑白样本各自的比例,所以在工程实践中,一定程度上规避了黑白样本数的不同选择所带来的偏差。
曲线下面积(Area under Curve,AUC):AUC被定义为ROC曲线下的面积。往往使用AUC值作为模型的评价标准是因为很多时候ROC曲线并不能清晰的说明哪个分类器的效果更好,而作为一个数值,对应AUC更大的分类器效果更好。
受试者工作特征曲线(Receiver operating characteristic Curve,ROC):ROC是根据一系列不同的二分类方式(分界值或决定阈),以真阳性率(敏感性)为纵坐标,假阳性率(1-特异性)为横坐标绘制的曲线。
柯尔莫可洛夫-斯米洛夫检验(Kolmogorov–Smirnov test,K-S test):K-S检验方法能够利用样本数据推断样本来自的总体是否服从某一理论分布,是一种拟合优度的检验方法,适用于探索连续型随机变量的分布。
精准率(Precision):又叫查准率,它是针对预测结果而言的,它的含义是在所有被预测为正的样本中实际为正的样本的概率,意思就是在预测为正样本的结果中,有多少把握可以预测正确。
召回率(Recall):又叫查全率,它是针对原样本而言的,它的含义是在实际为正的样本中被预测为正样本的概率。
沙浦利值(Shapley value,SV):沙浦利值体现了合作各方对合作总目标的贡献程度,避免了分配上的平均主义,比任何一种仅按资源投入价值、资源配置效率及将二者相结合的分配方式都更具合理性和公平性,也体现了合作各方相互博弈的过程。
平衡F分数(balanced F Score):又称F1分数,是统计学中用来衡量二分类模型精确度的一种指标。它同时兼顾了分类模型的精确率和召回率。F1分数可以看作是模型精确率和召回率的一种调和平均,它的最大值是1,最小值是0。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
模型需要使用大量的数据进行训练,才能达到预期效果,然而,模型的训练方往往很难提供海量的数据用于特定模型的训练,需要到一些数据供应方购买数据,以满足模型训练的要求。在数据交易中,除了被数据权属和数据定价影响以外,数据与特定模型之间是否匹配也起着关键性的作用。因此,在数据交易之前需要对待交易的数据进行价值评估,以判断该数据是否与模型相匹配。然而,如果只是简单的将数据供应方的数据提供给数据使用方进行计算,不利于数据供应方数据的安全,损害了数据供应方的利益。
基于此,本申请实施例提供了基于多方安全计算的数据评估方法、系统、设备及介质,能够在保护数据供应方利益的前提下,便于数据使用方实现对数据价值的评估,降低数据使用方的决策成本,避免了买卖双方数据的泄露,保障了买卖双方的数据隐私,提高了数据的安全性,也保障了数据供应方的利益。
下面结合附图对本申请实施例做进一步阐述。
本申请实施例的基于多方安全计算的数据评估方法、装置、设备及介质,涉及人工智能技术领域。本申请实施例的基于多方安全计算的数据评估方法可应用于终端中,也可应用于服务器端中,还可以是运行于终端或服务器端中的软件。在一些实施例中,终端可以是智能手机、平板电脑、笔记本电脑、台式计算机或者智能手表等;服务器端可以配置成独立的物理服务器,也可以配置成多个物理服务器构成的服务器集群或者分布式系统,还可以配置成提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)以及大数据和人工智能平台等基础云计算服务的云服务器;软件可以是实现活动性分类模型训练方法、分类方法的应用等,但并不局限于以上形式。
本公开实施例可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
如图1所示,本申请实施例提供了一种数据评估系统,该数据评估系统包括使用端102、供应端103和平台端101,使用端102和供应端103可以设置有多个,分别和平台端101相连。其中,供应端103用于上传数据信息至平台端101,数据信息包括第一样本数据集以及与第一样本数据集相匹配的数据介绍信息;使用端102用于从平台端101获取数据介绍信息,并基于数据介绍信息生成需求信息,并将需求信息发送给平台端101;平台端101用于接收需求信息,并根据需求信息搭建试验子平台104,其中,试验子平台104包括与数据介绍信息相匹配的第一样本数据集;使用端102用于将预设的待测试模型和预设的第二样本数据集输入到试验子平台104;试验子平台104用于根据第一样本数据集和第二样本数据集对待测试模型进行测试,得到并输出测试结果;使用端102获取测试结果,并对测试结果进行分析评估,得到数据评估报告,其中,数据评估报告用于表征第一样本数据集对待测试模型的匹配度。
本申请实施例的数据评估系统,供应端103通过将数据信息上传至平台端101,使用端102只能在平台端101获取数据介绍信息;这样,保护了供应端103的利益,当使用端102选择某一数据后,供应端103根据使用端102的需求信息生成一个相匹配的试验子平台104,以便于使用端102运用第一数据样本数据集和预设的第二样本数据集对待测试模型进行测试,得到测试结果,使用端102然后对测试结果进行分析评估,得到表征第一样本数据集对待测试模型的匹配度的数据评估报告。通过这样设置,能够便于使用端102实现对数据的评估,降低用户的决策成本,避免了买卖双方数据的泄露,保障了买卖双方的数据隐私,提高了数据的安全性,也保障了数据供应方的利益。
基于图1所示的数据评估系统,参照图2,本申请的一些实施例提供了一种基于多方安全计算的数据评估方法,应用于使用端,方法包括步骤S201、步骤S202、步骤S203、步骤S204、步骤S205。下面对这五个步骤进行详细介绍,应理解,本申请实施例的基于多方安全计算的数据评估方法包括但不限于步骤S201至步骤S205。
步骤S201:从平台端获取数据介绍信息。
在步骤S201中,平台端与多个供应端、多个使用端相连,每个供应端可以上传多个数据信息至平台端,平台端会对供应端上传的数据信息进行一个初步的评估和审查,初步评估和审查都通过以后,平台端只将相关的数据介绍信息展示出来,而将相应的第一样本数据集隐藏起来,使用端只能从平台端获取数据介绍信息,而不能直接得到与该数据介绍信息对应的第一样本数据集。
步骤S202:根据数据介绍信息向平台端发送需求信息,以使平台端根据需求信息搭建试验子平台;其中,试验子平台包括与数据介绍信息相匹配的第一样本数据集。
在步骤S202中,用户通过使用端浏览平台端的数据介绍信息,并且基于多个数据介绍信息选择一个或者几个符合预期条件的数据介绍信息,并申请试用和购买以生成对应的需求信息,并将需求信息发送给平台端,以使平台端根据需求信息搭建试验子平台。
步骤S203:将预设的待测试模型和预设的第二样本数据集发送给平台端,以使平台端的试验子平台根据第一样本数据集和第二样本数据集对待测试模型进行测试,得到测试结果。
在步骤S203中,试验子平台相当于一个安全试验沙箱的计算环境,使用端不知道第一样本数据集具体的数据内容,只能调用第一样本数据集进行测试计算,得到一个测试结果。相当于提供了一个多方安全计算环境,每一方只能得到测试结果,而不知道具体的数据内容。并且,在本实施例中,待测试模型并不是一个固定的模型,可以根据使用端的变化而发生变化。待测试模型的数量也没有一个具体的限制,可以只输入一个模型进行测试,也可以输入多个模型进行测试。
步骤S204:获取测试结果。
步骤S205:对测试结果进行分析评估,得到数据评估报告;其中,数据评估报告用于表征第一样本数据集对待测试模型的匹配度。
在步骤S205中,使用端对测试结果进行分析评估,得到表征第一样本数据集对待测试模型匹配度的数据评估报告。使用端如果对该数据评估报告满意,则说明该第一样本数据集满足该使用端对数据的要求,在此基础上,使用端可以通过平台端购买供应端的数据;而如果不满意,则可以请求进行其他数据供应端的测试。
需要说明的是,本申请实施例提到的第一样本数据集和第二样本数据集都是经过脱敏处理以后的数据,进入试验子平台进行测试之前,所有数据都经过同态加密处理,试验子平台中的数据处理相当于多方安全协同计算。
本申请实施例的基于多方安全计算的数据评估方法,使用端通过从平台端获取数据介绍信息,并根据数据介绍信息生成并发送需求信息,以使平台端根据需求信息搭建试验子平台,并通过试验子平台对使用端的待测试模型和第二样本数据集进行测试,得到测试结果;使用端通过对测试结果进行分析评估,得到表征第一样本数据集对待测试模型匹配度的数据评估报告。通过这样设置,能够便于使用端实现对数据的评估,降低用户的决策成本,还能够避免买卖双方数据的泄露,保障了买卖双方的数据隐私,提高了数据的安全性,也保障了数据供应方的利益。
参照图3,在本申请的一些实施例中,数据评估报告包括信息值报告。步骤S205包括步骤S301、步骤S302、步骤S303和步骤S304。下面对这四个步骤进行详细描述,应理解,步骤S205包括但不限于步骤S301至步骤S304。
步骤S301:从平台端获取关联关系;其中,关联关系包括横向联邦或者纵向联邦,关联关系用于表征第一样本数据集和第二样本数据集之间的联系。
在步骤S301中,平台端的试验子平台通过预设的关联关系建立第一样本数据集和第二样本数据集之间的联系,得到联合数据集。如通过数据的类型建立联系,也可以通过数据的身份识别号(Identity,ID)建立联系。通过从平台端获取关联关系,以便于后续使用端对测试结果进行分组处理。
步骤S302:根据关联关系对测试结果进行分组处理,得到若干个信息价值待评估组。
在步骤S302中,依照前述步骤得到的关联关系对测试结果进行分组处理,得到若干个信息价值待评估组。例如,试验子平台是依照ID建立第一样本数据集和第二样本数据集之间的联系的,则关联关系为ID,在本实施例中,根据ID的不同将测试结果分为若干个信息价值待评估组。
步骤S303:计算每个信息价值待评估组的信息价值指标,得到目标信息值集。
在步骤S303中,计算每个信息价值待评估组的IV值,得到目标信息值集。IV值主要用来对输入变量进行编码和预测能力评估。特征变量IV值的大小即表示该变量预测能力的强弱。IV值的取值范围是[0,正无穷),如果当前分组中只包含响应客户或者未响应客户时,IV=正无穷。通过公式(1)进行计算:
Figure BDA0003382069090000081
在公式(1)中,DistributionGoodi表示i分组中命中白样本的占比,如果用goodi表示分组命中样本数,goodT表示所有的白样本总量,则
Figure BDA0003382069090000082
同理,可以知道DistributionBadi
步骤S304:对目标信息值集进行统计分类处理,得到信息值报告。
在步骤S304中,对步骤S303中计算的目标信息值集进行统计分类处理,得到信息值报告。一般情况下,IV值小于0.02表示模型没有预测能力,IV至在0.02~0.1之间时,认为模型拥有较弱的预测能力,IV值在0.1~0.3之间时,认为模型的预测能力一般,IV值在0.3~0.5之间时,认为模型用于较强的预测能力,而当IV值大于0.5时,由于预测性能过好显得不够真实。通过对目标信息值集进行统计分类,判断第一样本数据集对待测试模型的匹配度。
参照图4,在本申请的一些实施例中,步骤S304包括步骤S401和步骤S402。下面结合图4对这两个步骤进行详细介绍,应理解,步骤S304包括但不限于步骤S401和步骤S402。
步骤S401:根据预设的第一信息阈值和预设的第二信息阈值对目标信息值集进行分类处理,得到第一信息值集、第二信息值集和第三信息值集。
步骤S402:分别对第一信息值集、第二信息值集和第三信息值集进行统计,得到信息值报告。
具体地,在本实施例中,通过设置第一信息阈值和第二信息阈值将目标信息值集分为第一信息值集、第二信息值集和第三信息值集三类,然后在对第一信息值集、第二信息值集和第三信息值集进行分类统计,得到信息值报告。例如:第一信息阈值为0.3,第二信息阈值为0.5,第一信息值集表示小于0.3的信息值集合,第二信息值集表示在0.3~0.5范围内的信息值集合,第三信息值集表示在0.5以上的信息值集合。通过这样分类处理,用户更清楚第一样本数据集对待测试模型的匹配度。
在本申请的一些实施例中,数据评估报告还包括模型价值评估报告,步骤S205还包括但不限于步骤“对测试结果进行目标操作,得到模型价值评估报告;其中,目标操作包括以下操作的至少一种:曲线下面积计算、柯尔莫哥洛夫-斯米尔诺夫检验计算、精准率计算、召回率计算、沙普利值计算、平衡F分数计算”。
具体地,通过对测试结果进行目标操作,得到模型价值评估报告。这样设置,结合模型价值评估报告和IV值对第一样本数据集进行评估,得到的结果更为准确,便于用户的决策。在本实施例中,目标操作还可以是:计算曲线下面积的均值、计算K-S均值、精准率均值、召回率均值、F1-score均值、沙普利值最大值和沙普利均值等等。
基于图1所示的数据评估系统,参照图5,本申请的一些实施例提供了一种基于多方安全计算的数据评估方法,应用于平台端,方法包括步骤S501、步骤S502、步骤S503、步骤S504、步骤S505、步骤S506和步骤S507。
步骤S501:获取供应端的第一样本数据集。
步骤S502:根据第一样本数据集生成数据介绍信息,以使使用端根据数据介绍信息生成需求信息。
在步骤S501和步骤S502中,供应端设有多个,平台端获取每一个供应端的第一样本数据集,并根据每一个第一样本数据集生成对应的数据介绍信息,使用端在多个数据介绍信息中选择一个或多个数据介绍信息进行购买或者试用,从而生成对应的需求信息。
步骤S503:接收使用端根据数据介绍信息生成的需求信息。
步骤S504:根据需求信息搭建试验子平台;其中,试验子平台包括与数据介绍信息相匹配的第一样本数据集。
在步骤S503和步骤S504中,平台端接收使用端根据数据介绍信息生成的需求信息,并根据使用端选择的数据介绍信息获取对应的第一样本数据集。根据需求信息搭建试验子平台,将第一样本数据集输入至试验子平台中。
步骤S505:接收使用端发送的待测试模型和第二样本数据集;
步骤S506:调用试验子平台,以通过试验子平台根据第一样本数据集和第二样本数据集对待测试模型进行测试,得到测试结果。
在步骤S505和步骤S506中,平台端接收使用端发送的待测试模型和第二样本数据集,并将待测试模型和第二样本数据集输入至试验子平台中,调用试验子平台,通过试验子平台根据第一样本数据集和第二样本数据集对待测试模型进行测试,得到测试结果。
需要说明的是,试验子平台相当于一个安全试验沙箱的计算环境,使用端不能知道第一样本数据集具体的数据内容,只能调用第一样本数据集进行测试计算,得到一个测试结果。相当于提供了一个多方安全计算环境,每一方只能得到测试结果,而不知道具体的数据内容。待测试模型并不是一个固定的模型,可以根据使用端的变化而发生变化。待测试模型的数量也没有一个具体的限制,可以只输入一个模型进行测试,也可以输入多个模型进行测试。
步骤S507:将测试结果发送至使用端,以使使用端根据测试结果得到数据评估报告。
在步骤S507中,平台端将测试结果发送至使用端,以使使用端对测试结果进行分析评估,得到表征第一样本数据集对待测试模型的匹配度的数据评估报告。
本申请实施例的数据评估方法,平台端根据使用端的需求信息搭建试验子平台,并通过试验子平台对使用端的待测试模型和第二样本数据集进行测试,得到测试结果;使用端通过对测试结果进行分析评估,得到表征第一样本数据集对待测试模型匹配度的数据评估报告。通过这样设置,不能够便于使用端实现对数据的评估,降低用户的决策成本,还能够避免买卖双方数据的泄露,保障了买卖双方的数据隐私,提高了数据的安全性,也保障了数据供应方的利益。
参照图6,在本申请的一些实施例中,步骤S506包括步骤S601、步骤S602和步骤S603。下面结合图6对这三个步骤进行详细介绍,应理解,步骤S506包括但不限于步骤S601、步骤S602和步骤S603。
步骤S601:以预设的关联关系建立第一样本数据集和第二样本数据集之间的联系,得到联合数据集;其中,关联关系包括横向联邦或者纵向联邦。
在步骤S601中,平台端的试验子平台通过预设的关联关系建立第一样本数据集和第二样本数据集之间的联系,得到联合数据集。如通过数据的类型建立联系,也可以通过数据的身份识别号(Identity,ID)建立联系。
步骤S602:对联合数据集进行归一分类处理,得到训练数据集和对抗数据集。
步骤S603:根据训练数据集和对抗数据集对待测试模型进行训练。
参照图7,在本申请的一些实施例中,步骤S602包括步骤S701和步骤S702。下面结合图7对这两个步骤进行详细介绍,应理解,步骤S602包括但不限于步骤S701和步骤S702。
步骤S701:对联合数据集进行归一化处理,得到待评估数据集。
在步骤S701中,通过归一化处理,将联合数据集中的数据都缩放到区间[0,1]之间,得到待评估数据集,从而降低计算量。
步骤S702:根据预设的权重比对待评估数据集进行分类处理,得到训练数据集和对抗数据集。
在步骤S702中,预设的权重比可以是8:2,也可以是其他的权重比。如假设权重比是8:2,则按照训练数据集:对抗数据集=8:2的形式将待评估数据集进行随机分类。即相当于模型训练中的将原始数据分类训练集和验证集,通过这样设置,便于待测试模型的训练。
参照图8,本申请的一些实施例还提供了一种基于多方安全计算的数据评估装置,应用于使用端,装置包括信息获取模块801、第一发送模块802、第二发送模块803、结果获取模块804和分析评估模块805。
信息获取模块801,用于从平台端获取数据介绍信息.
第一发送模块802,用于根据数据介绍信息向平台端发送需求信息,以使平台端根据需求信息搭建试验子平台;其中,试验子平台包括与数据介绍信息相匹配的第一样本数据集。
第二发送模块803,用于将预设的待测试模型和预设的第二样本数据集发送给平台端,以使平台端的试验子平台根据第一样本数据集和第二样本数据集对待测试模型进行测试,得到测试结果.
结果获取模块804,用于获取测试结果。
分析评估模块805,用于对测试结果进行分析评估,得到数据评估报告,其中,数据评估报告用于表征第一样本数据集对待测试模型的匹配度。
本申请实施例的基于多方安全计算的数据评估装置,通过从平台端获取数据介绍信息,并根据数据介绍信息生成并发送需求信息,以使平台端根据需求信息搭建试验子平台,并通过试验子平台对待测试模型和第二样本数据集进行测试,得到测试结果;通过对测试结果进行分析评估,得到表征第一样本数据集对待测试模型匹配度的数据评估报告。通过这样设置,能够便于使用端实现对数据的评估,降低用户的决策成本,避免了买卖双方数据的泄露,保障了买卖双方的数据隐私,提高了数据的安全性,也保障了数据供应方的利益。
需要说明的是,本申请实施例的基于多方安全计算的数据评估装置与前述的基于多方安全计算的数据评估方法相对应,评估步骤类似,具体的请参照前述的基于多方安全计算的数据评估方法,在此不再赘述。
本申请实施例还提供了一种电子设备,包括存储器、处理器,存储器存储有计算机程序,处理器执行计算机程序时实现本申请实施例的基于多方安全计算的数据评估方法。
下面结合图9对电子设备的硬件结构进行详细说明。该电子设备包括:处理器901、存储器902、输入/输出接口903、通信接口904和总线905。
处理器901,可以采用通用的中央处理器(Central Processing Unit,CPU)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本申请实施例所提供的技术方案;
存储器902,可以采用只读存储器(Read Only Memory,ROM)、静态存储设备、动态存储设备或者随机存取存储器(Random Access Memory,RAM)等形式实现。存储器802可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器802中,并由处理器801来调用执行本申请实施例的网络服务部署方法;
输入/输出接口903,用于实现信息输入及输出;
通信接口904,用于实现本设备与其他设备的通信交互,可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信;和
总线905,在设备的各个组件(例如处理器901、存储器902、输入/输出接口903和通信接口904)之间传输信息;
其中处理器901、存储器902、输入/输出接口903和通信接口904通过总线905实现彼此之间在设备内部的通信连接。
本申请实施例还提供了计算机可读存储介质,存储介质存储有程序,程序被处理器执行实现如本申请实施例的基于多方安全计算的数据评估方法。
在一实施例中,该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个控制处理器执行,例如,执行图2中的方法步骤S201至步骤S205、图3中的方法步骤S301至步骤S304、图4中的方法步骤S401至步骤S402、图5中的方法步骤S501至步骤S507、图6中的方法步骤S601至步骤S603、执行图7中的方法步骤S701至步骤S702。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、储存设备存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包括计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
还应了解,本申请实施例提供的各种实施方式可以任意进行组合,以实现不同的技术效果。
以上是对本申请的较佳实施进行了具体说明,但本申请并不局限于上述实施方式,熟悉本领域的技术人员在不违背本申请精神的共享条件下还可作出种种等同的变形或替换,这些等同的变形或替换均包括在本申请权利要求所限定的范围内。

Claims (10)

1.一种基于多方安全计算的数据评估方法,其特征在于,应用于使用端;
所述方法包括:
从平台端获取数据介绍信息;
根据所述数据介绍信息向所述平台端发送需求信息,以使所述平台端根据所述需求信息搭建试验子平台;其中,所述试验子平台包括与所述数据介绍信息相匹配的第一样本数据集;
将预设的待测试模型和预设的第二样本数据集发送给所述平台端,以使所述平台端的试验子平台根据所述第一样本数据集和所述第二样本数据集对所述待测试模型进行测试,得到测试结果;
获取所述测试结果;
对所述测试结果进行分析评估,得到数据评估报告;其中,所述数据评估报告用于表征所述第一样本数据集对所述待测试模型的匹配度。
2.根据权利要求1所述的方法,其特征在于,所述数据评估报告包括信息值报告;
所述对所述测试结果进行分析评估,得到数据评估报告,包括:
从所述平台端获取关联关系;其中,所述关联关系包括横向联邦或者纵向联邦,所述关联关系用于表征所述第一样本数据集和所述第二样本数据集之间的联系;
根据所述关联关系对所述测试结果进行分组处理,得到若干个信息价值待评估组;
计算每个信息价值待评估组的信息价值指标,得到目标信息值集;
对所述目标信息值集进行统计分类处理,得到所述信息值报告。
3.根据权利要求2所述的方法,其特征在于,所述对所述目标信息值集进行统计分类处理,得到所述信息值报告,包括:
根据预设的第一信息阈值和预设的第二信息阈值对所述目标信息值集进行分类处理,得到第一信息值集、第二信息值集和第三信息值集;
分别对所述第一信息值集、第二信息值集和第三信息值集进行统计,得到所述信息值报告。
4.根据权利要求1至3任意一项所述的方法,其特征在于,所述数据评估报告还包括模型价值评估报告:
所述对所述测试结果进行分析评估,得到数据评估报告,包括:
对所述测试结果进行目标操作,得到模型价值评估报告;其中,所述目标操作包括以下操作的至少一种:曲线下面积计算、柯尔莫哥洛夫-斯米尔诺夫检验计算、精准率计算、召回率计算、沙普利值计算、平衡F分数计算。
5.一种基于多方安全计算的数据评估方法,其特征在于,应用于平台端;
所述方法包括:
获取供应端的第一样本数据集;
根据所述第一样本数据集生成数据介绍信息,以使所述使用端根据所述数据介绍信息生成需求信息;
接收所述使用端根据所述数据介绍信息生成的需求信息;
根据所述需求信息搭建试验子平台;其中,所述试验子平台包括与所述数据介绍信息相匹配的第一样本数据集;
接收所述使用端发送的待测试模型和第二样本数据集;
调用所述试验子平台,以通过所述试验子平台根据所述第一样本数据集和所述第二样本数据集对所述待测试模型进行测试,得到测试结果;
将所述测试结果发送至所述使用端,以使所述使用端根据所述测试结果得到数据评估报告。
6.根据权利要求5所述的方法,其特征在于,所述根据所述第一样本数据集和所述第二样本数据集对所述待测试模型进行测试,包括:
以预设的关联关系建立所述第一样本数据集和所述第二样本数据集之间的联系,得到联合数据集;其中,所述关联关系包括横向联邦或者纵向联邦;
对所述联合数据集进行归一分类处理,得到训练数据集和对抗数据集;
根据所述训练数据集和所述对抗数据集对所述待测试模型进行训练。
7.根据权利要求6所述的方法,其特征在于,所述对所述联合数据集进行归一分类处理,得到训练数据集和对抗数据集,包括:
对所述联合数据集进行归一化处理,得到待评估数据集;
根据预设的权重比对所述待评估数据集进行分类处理,得到训练数据集和对抗数据集。
8.一种基于多方安全计算的数据评估装置,其特征在于,应用于使用端,所述装置包括:
信息获取模块,用于从平台端获取数据介绍信息;
第一发送模块,用于根据所述数据介绍信息向所述平台端发送需求信息,以使所述平台端根据所述需求信息搭建试验子平台;其中,所述试验子平台包括与所述数据介绍信息相匹配的第一样本数据集;
第二发送模块,用于将预设的待测试模型和预设的第二样本数据集发送给所述平台端,以使所述平台端的试验子平台根据所述第一样本数据集和所述第二样本数据集对所述待测试模型进行测试,得到测试结果;
结果获取模块,用于获取所述测试结果;
分析评估模块,用于对所述测试结果进行分析评估,得到数据评估报告,其中,所述数据评估报告用于表征所述第一样本数据集对所述待测试模型的匹配度。
9.一种电子设备,其特征在于,包括:
至少一个存储器;
至少一个处理器;
至少一个程序;
所述程序被存储在所述存储器中,处理器执行所述至少一个程序以实现:
如权利要求1至4任意一项所述的方法;或者,
如权利要求5至7任意一项所述的方法。
10.一种存储介质,所述存储介质为计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行:
如权利要求1至4任意一项所述的方法;或者,
如权利要求5至7任意一项所述的方法。
CN202111438204.XA 2021-11-29 2021-11-29 基于多方安全计算的数据评估方法、装置、设备及介质 Pending CN114254381A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111438204.XA CN114254381A (zh) 2021-11-29 2021-11-29 基于多方安全计算的数据评估方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111438204.XA CN114254381A (zh) 2021-11-29 2021-11-29 基于多方安全计算的数据评估方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN114254381A true CN114254381A (zh) 2022-03-29

Family

ID=80793534

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111438204.XA Pending CN114254381A (zh) 2021-11-29 2021-11-29 基于多方安全计算的数据评估方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN114254381A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115941538A (zh) * 2023-02-21 2023-04-07 华控清交信息科技(北京)有限公司 一种针对多方安全计算的测试系统、测试方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115941538A (zh) * 2023-02-21 2023-04-07 华控清交信息科技(北京)有限公司 一种针对多方安全计算的测试系统、测试方法及装置

Similar Documents

Publication Publication Date Title
EP3965023A1 (en) Method and device for constructing decision trees
CN110378749B (zh) 客户端相似性的评估方法、装置、终端设备及存储介质
CN112132676B (zh) 联合训练目标模型的贡献度的确定方法、装置和终端设备
CN110443378A (zh) 联邦学习中特征相关性分析方法、装置及可读存储介质
CN113947215A (zh) 联邦学习管理方法、装置、计算机设备及存储介质
CN110889096B (zh) 登录方法、装置、计算机设备及存储介质
CN111563267B (zh) 用于联邦特征工程数据处理的方法和装置
CN114611008B (zh) 基于联邦学习的用户服务策略确定方法、装置及电子设备
CN113934983A (zh) 一种特征变量的分析方法、装置、计算机设备及存储介质
CN111783144A (zh) 基于区块链的数据处理方法以及装置
CN116915442A (zh) 漏洞测试方法、装置、设备和介质
CN115563600A (zh) 数据审核方法和装置、电子设备及存储介质
CN114254381A (zh) 基于多方安全计算的数据评估方法、装置、设备及介质
CN115296859A (zh) 隐私计算通信内容安全检测方法及装置
CN113807736A (zh) 一种数据质量评估方法、计算机设备及存储介质
CN117176417A (zh) 网络流量异常确定方法、装置、电子设备和可读存储介质
CN112328686A (zh) 一种基于数字证书的区块链节点共享方法及其相关产品
CN112597379B (zh) 数据识别方法、装置和存储介质及电子装置
CN115205089A (zh) 图像加密方法、网络模型的训练方法、装置及电子设备
CN114092268A (zh) 用户社群检测方法、装置、计算机设备及存储介质
CN114186039A (zh) 一种视觉问答方法、装置及电子设备
CN113190200A (zh) 展会数据安全的防护方法及装置
CN115348022A (zh) 一种数据处理方法、设备以及计算机可读存储介质
CN111274488A (zh) 推荐方法、装置、设备、系统、待执行终端及存储介质
CN116975924A (zh) 一种数据处理方法、装置、设备、存储介质及产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination