CN114861210A - 全流程加密的数据价值评估方法、系统及电子设备 - Google Patents

全流程加密的数据价值评估方法、系统及电子设备 Download PDF

Info

Publication number
CN114861210A
CN114861210A CN202210593602.7A CN202210593602A CN114861210A CN 114861210 A CN114861210 A CN 114861210A CN 202210593602 A CN202210593602 A CN 202210593602A CN 114861210 A CN114861210 A CN 114861210A
Authority
CN
China
Prior art keywords
data
determining
sample
private
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210593602.7A
Other languages
English (en)
Inventor
伍清华
刘登涛
毛仁歆
马煜翔
裴阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lanxiang Zhilian Hangzhou Technology Co ltd
Original Assignee
Lanxiang Zhilian Hangzhou Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lanxiang Zhilian Hangzhou Technology Co ltd filed Critical Lanxiang Zhilian Hangzhou Technology Co ltd
Priority to CN202210593602.7A priority Critical patent/CN114861210A/zh
Publication of CN114861210A publication Critical patent/CN114861210A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Business, Economics & Management (AREA)
  • Bioethics (AREA)
  • Finance (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Accounting & Taxation (AREA)
  • Technology Law (AREA)
  • Biophysics (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • General Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本公开提供一种全流程加密的数据价值评估方法,包括基于秘密分享协议确定数据提供方对应的第一隐私数据和数据使用方对应的第二隐私数据的联邦数据集;通过数据提供方对应的第一密钥和数据使用方对应的第二密钥,对联邦数据集进行特征分箱,确定联邦数据集的正样本和负样本;根据联邦数据集的正样本和负样本,在同时确定第一密钥和第二密钥的情况下,确定正样本和负样本的样本浓度;综合正样本和负样本的样本浓度,第一隐私数据与第二隐私数据,通过预先构建的数据价值评估模型,确定第一隐私数据对第二隐私数据的数据价值。本公开的方法能够在少量样本的情况下即可完成数据价值评估,可以同时保证在恶意环境下的安全性和计算速度。

Description

全流程加密的数据价值评估方法、系统及电子设备
技术领域
本公开涉及隐私计算技术领域,尤其涉及一种全流程加密的数据价值评估方法、系统及电子设备。
背景技术
目前的隐私计算系统是基于“诚实可信”的模式下开展建设的,主要保证数据不出域,并且在安全的环境下进行计算,但是对于可能存在的恶意攻击,并没有完全纳入考虑,并且由于攻击手段无法枚举,因此无法从技术体系上完全规避安全隐患,因此其目前主要用于合作双方进入项目合作之后的场景落地。
如果需要完全规避安全隐患,只有对隐私计算的全环节、全方位实现全面的安全管控,但是这会大大降低隐私计算执行的速度,从而导致无法在具体项目中落地。
在目前的隐私计算应用场景中,数据使用方期望在正式进入隐私计算联合项目之前可以提前评估数据提供方的数据对自身的具体业务的效果增益,由于传统的隐私计算平台的安全性在恶意环境下,可能存在安全隐患,对于数据提供方来说,在项目合作之前的商务对接阶段,数据提供方不愿意通过隐私计算平台为数据使用方提供数据价值评估的通道。
公开于本申请背景技术部分的信息仅仅旨在加深对本申请的一般背景技术的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。
发明内容
本公开实施例提供一种全流程加密的数据价值评估方法、系统及电子设备,能够在少量样本的情况下即可完成数据价值评估,可以同时保证在恶意环境下的安全性和计算速度。
本公开实施例的第一方面,
提供一种全流程加密的数据价值评估方法,其特征在于,所述方法用于所述数据提供方和所述数据使用方,包括:
基于秘密分享协议确定数据提供方对应的第一隐私数据和数据使用方对应的第二隐私数据的联邦数据集;
通过所述数据提供方对应的第一密钥和所述数据使用方对应的第二密钥,对所述联邦数据集进行特征分箱,确定所述联邦数据集的正样本和负样本;
根据所述联邦数据集的正样本和负样本,在同时确定所述第一密钥和所述第二密钥的情况下,确定所述正样本和所述负样本的样本浓度;
综合所述正样本和所述负样本的样本浓度,所述第一隐私数据与所述第二隐私数据,通过预先构建的数据价值评估模型,确定所述第一隐私数据对所述第二隐私数据的数据价值,其中,所述数据价值评估模型基于神经网络构建,用于确定隐私数据与数据使用场景的匹配度。
在一种可选的实施方式中,
所述基于秘密分享协议确定数据提供方对应的第一隐私数据和数据使用方对应的第二隐私数据的联邦数据集的方法包括:
所述数据提供方利用预先确定的第一密钥对第一隐私数据进行数据加密;
所述数据使用方利用预先确定的第二密钥对第二隐私数据进行数据加密;
根据第一密钥、第二密钥以及秘密分享乘法协议,确定所述第一隐私数据与所述第二隐私数据的联邦数据集。
在一种可选的实施方式中,
在确定所述第一隐私数据与所述第二隐私数据的联邦数据集之后,所述方法还包括:
基于所述第一隐私数据、所述第二隐私,以及所述联邦数据集,确定所述第一隐私数据和/或所述第二隐私数据的样本覆盖度,其中,
所述样本覆盖度用于指示所述第一隐私数据和/或所述第二隐私数据与所述联邦数据集的数据关联度;
将所述样本覆盖度通过不经意传输方式传输至所述数据提供方和所述数据使用方。
在一种可选的实施方式中,
所述通过所述数据提供方对应的第一密钥和所述数据使用方对应的第二密钥,对所述联邦数据集进行特征分箱的方法包括:
通过所述数据提供方对应的第一密钥确定所述第一密钥与所述联邦数据集的样本的第一关联度;
通过所述数据使用方对应的第二密钥确定所述第二密钥与所述联邦数据集的样本的第二关联度;
分别按照所述第一关联度和所述第二关联度的关联紧密程度对所述联邦数据集进行特征分箱。
在一种可选的实施方式中,
在确定所述正样本和所述负样本的样本浓度之前,所述方法还包括:
结合预先获取的历史数据,针对第一隐私数据对应的第一过滤策略,确定第一过滤结果;
结合预先获取的历史数据,针对第二隐私数据对应的第二过滤策略,确定第二过滤结果;
基于所述第一过滤结果和所述第二过滤结果,筛选所述联邦数据集不符合预设过滤条件的样本。
在一种可选的实施方式中,
通过预先构建的数据价值评估模型,确定所述第一隐私数据对所述第二隐私数据的数据价值的方法包括:
通过预先构建的数据价值评估模型,确定所述第一隐私数据对应的第一逻辑值;
通过预先构建的数据价值评估模型,确定所述第二隐私数据对应的第二逻辑值;
基于所述正样本和所述负样本的样本浓度,分别为所述第一逻辑值分配第一权重值,为所述第二逻辑值分配第二权重值;
基于所述第一逻辑值、所述第一权重值,以及所述第一隐私数据,确定第一信息价值指标;
基于所述第二逻辑值、所述第二权重值,以及所述第二隐私数据,确定第二信息价值指标;
根据所述第一信息价值指标和所述第二信息价值指标的匹配度,确定所述第一隐私数据对所述第二隐私数据的数据价值,其中,
所述数据价值用于指示所述第一隐私数据在所述第二隐私数据适用场景的匹配度。
本公开实施例的第二方面,
提供一种全流程加密的数据价值评估方法,所述方法用于所述数据提供方,包括:
基于秘密分享协议确定数据提供方对应的第一隐私数据和数据使用方对应的第二隐私数据的联邦数据集;
通过所述数据提供方对应的第一密钥,对所述联邦数据集进行特征分箱,确定所述联邦数据集的正样本和负样本;
根据所述联邦数据集的正样本和负样本,接收到所述数据使用方提供的第二密钥的情况下,确定所述正样本和所述负样本的样本浓度;
综合所述正样本和所述负样本的样本浓度,所述第一隐私数据与所述第二隐私数据,通过预先构建的数据价值评估模型,确定所述第一隐私数据对所述第二隐私数据的数据价值,其中,所述数据价值评估模型基于神经网络构建,用于确定隐私数据与数据使用场景的匹配度。
本公开实施例的第三方面,
提供一种全流程加密的数据价值评估方法,所述方法用于所述数据使用方,包括:
基于秘密分享协议确定数据提供方对应的第一隐私数据和数据使用方对应的第二隐私数据的联邦数据集;
通过所述数据使用方对应的第二密钥,对所述联邦数据集进行特征分箱,确定所述联邦数据集的正样本和负样本;
根据所述联邦数据集的正样本和负样本,接收到所述数据提供方提供的第一密钥的情况下,确定所述正样本和所述负样本的样本浓度;
综合所述正样本和所述负样本的样本浓度,所述第一隐私数据与所述第二隐私数据,通过预先构建的数据价值评估模型,确定所述第一隐私数据对所述第二隐私数据的数据价值,其中,所述数据价值评估模型基于神经网络构建,用于确定隐私数据与数据使用场景的匹配度。
本公开实施例的第四方面,
提供一种全流程加密的数据价值评估系统,所述系统包括:
第一单元,用于基于秘密分享协议确定数据提供方对应的第一隐私数据和数据使用方对应的第二隐私数据的联邦数据集;
第二单元,用于通过所述数据提供方对应的第一密钥和所述数据使用方对应的第二密钥,对所述联邦数据集进行特征分箱,确定所述联邦数据集的正样本和负样本;
第三单元,用于根据所述联邦数据集的正样本和负样本,在同时确定所述第一密钥和所述第二密钥的情况下,确定所述正样本和所述负样本的样本浓度;
第四单元,用于综合所述正样本和所述负样本的样本浓度,所述第一隐私数据与所述第二隐私数据,通过预先构建的数据价值评估模型,确定所述第一隐私数据对所述第二隐私数据的数据价值,其中,所述数据价值评估模型基于神经网络构建,用于确定隐私数据与数据使用场景的匹配度。
本公开实施例的第五方面,
提供一种电子设备,包括:
至少一个存储器:
至少一个处理器:
至少一个程序:
所述程序被存储在所述存储器中,处理器执行所述至少一个程序以实现:
如前述所述的方法。
本公开提供一种全流程加密的数据价值评估方法,包括基于秘密分享协议确定数据提供方对应的第一隐私数据和数据使用方对应的第二隐私数据的联邦数据集;通过数据提供方对应的第一密钥和数据使用方对应的第二密钥,对联邦数据集进行特征分箱,确定联邦数据集的正样本和负样本;根据联邦数据集的正样本和负样本,在同时确定第一密钥和第二密钥的情况下,确定正样本和负样本的样本浓度;综合正样本和负样本的样本浓度,第一隐私数据与第二隐私数据,通过预先构建的数据价值评估模型,确定第一隐私数据对第二隐私数据的数据价值。
本公开的方法能够在少量样本的情况下即可完成数据价值评估,可以同时保证在恶意环境下的安全性和计算速度;
将全量的原始数据,在密文状态下,直接进行计算,并且不输出任何除密文空间之外的有效信息,整个隐私计算过程中实现完全没有明文计算的情况;
整个计算环节,是在全加密的环境中计算,通过本申请的流程能够大大降低需要使用的样本集,从而使其在实际的业务场景中可以落地。
附图说明
图1为本公开实施例全流程加密的数据价值评估方法的流程示意图;
图2为本公开实施例全流程加密的数据价值评估装置的结构示意图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
应当理解,在本公开的各种实施例中,各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本公开实施例的实施过程构成任何限定。
应当理解,在本公开中,“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应当理解,在本公开中,“多个”是指两个或两个以上。“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。“包含A、B和C”、“包含A、B、C”是指A、B、C三者都包含,“包含A、B或C”是指包含A、B、C三者之一,“包含A、B和/或C”是指包含A、B、C三者中任1个或任2个或3个。
应当理解,在本公开中,“与A对应的B”、“与A相对应的B”、“A与B相对应”或者“B与A相对应”,表示B与A相关联,根据A可以确定B。根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其他信息确定B。A与B的匹配,是A与B的相似度大于或等于预设的阈值。
取决于语境,如在此所使用的“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。
下面以具体地实施例对本公开的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
在一个典型的统计问题中,样本数据垂直分布在多方,各方拥有样本的不同类别的信息,需要结合多方的不同类别的信息对样本做条件过滤,然后对条件过滤后的满足条件的样本做统计。举个具体例子,两个机构有各自用户的身份标识(比如身份证号、手机号等),其中一方有用户的年龄和工资信息,另一方有用户的学历信息。两个机构想要联合起来,对共同用户统计某种学历和某个年龄段的用户的收入信息,比如本科学历且年龄在25到30之间的人群的收入总和等。两个机构都可以得到统计的结果,但是除了统计结果外,不能泄露用户的信息。针对上述统计问题,现有技术中缺乏同时满足安全性和实用性的可行性方案。
图1示例性地示出本公开实施例全流程加密的数据价值评估方法的流程示意图,如图1所示,所述方法包括:
S101、基于秘密分享协议确定数据提供方对应的第一隐私数据和数据使用方对应的第二隐私数据的联邦数据集;
在一种可选的实施方式中,
所述基于秘密分享协议确定数据提供方对应的第一隐私数据和数据使用方对应的第二隐私数据的联邦数据集的方法包括:
所述数据提供方利用预先确定的第一密钥对第一隐私数据进行数据加密;
所述数据使用方利用预先确定的第二密钥对第二隐私数据进行数据加密;
根据第一密钥、第二密钥以及秘密分享乘法协议,确定所述第一隐私数据与所述第二隐私数据的联邦数据集。
示例性地,本公开实施例的秘密分享协议可以包括秘密分享乘法协议,还可以包括秘密分享加法协议等,本公开实施例对此不进行限定。
在一种可选的实施方式中,
在确定所述第一隐私数据与所述第二隐私数据的联邦数据集之后,所述方法还包括:
基于所述第一隐私数据、所述第二隐私,以及所述联邦数据集,确定所述第一隐私数据和/或所述第二隐私数据的样本覆盖度,其中,
所述样本覆盖度用于指示所述第一隐私数据和/或所述第二隐私数据与所述联邦数据集的数据关联度;
将所述样本覆盖度通过不经意传输方式传输至所述数据提供方和所述数据使用方。
示例性地,数据提供方的数据集A的样本数量为a,数据使用方的数据集B的样本数量为b,双方交集即联邦数据集的样本数量为c,则样本覆盖度为c/b。
本说明书实施例采用了不经意传输方式,使得第一方能够直接得到实际值,便于后续确定各样本的实际值,单方进行样本统计运算。相应地,实际值中也包含噪声值,因此即便单项统计值与第二隐私数据直接关联,也不会将第二隐私数据泄露给另一方。
不经意传输中,发送方有两个消息m_0和m_1,接收方想接收其中第b个消息(b=0或1)。两方通过运行不经意传输协议,接收方能够获得消息m_b,但不能获得m_{1-b},而且b的值也不会泄露给发送方。
S102、通过所述数据提供方对应的第一密钥和所述数据使用方对应的第二密钥,对所述联邦数据集进行特征分箱,确定所述联邦数据集的正样本和负样本;
示例性地,以贷款为例,本公开实施例的正样本可以包括偿还贷款的样本,负样本可以包括未偿还贷款的样本,在实际应用中,可以根据实际需要设定正样本和负样本的含义,本公开实施例对此并不进行限定。
在一种可选的实施方式中,
所述通过所述数据提供方对应的第一密钥和所述数据使用方对应的第二密钥,对所述联邦数据集进行特征分箱的方法包括:
通过所述数据提供方对应的第一密钥确定所述第一密钥与所述联邦数据集的样本的第一关联度;
通过所述数据使用方对应的第二密钥确定所述第二密钥与所述联邦数据集的样本的第二关联度;
分别按照所述第一关联度和所述第二关联度的关联紧密程度对所述联邦数据集进行特征分箱。
在一种可选的实施方式中,
在确定所述正样本和所述负样本的样本浓度之前,所述方法还包括:
结合预先获取的历史数据,针对第一隐私数据对应的第一过滤策略,确定第一过滤结果;
结合预先获取的历史数据,针对第二隐私数据对应的第二过滤策略,确定第二过滤结果;
基于所述第一过滤结果和所述第二过滤结果,筛选所述联邦数据集不符合预设过滤条件的样本。
示例性地,以贷款为例,可以根据年龄设定过滤策略,例如,年龄段可以包括18岁以下,18岁到30岁,30岁到50岁,若18岁以下用户超过80%无法偿还贷款,则该部分样本不具有参考价值,则可以将该部分用户对应的样本数据进行过滤,从而提高计算效率,降低计算压力。
S103、根据所述联邦数据集的正样本和负样本,在同时确定所述第一密钥和所述第二密钥的情况下,确定所述正样本和所述负样本的样本浓度;
S104、综合所述正样本和所述负样本的样本浓度,所述第一隐私数据与所述第二隐私数据,通过预先构建的数据价值评估模型,确定所述第一隐私数据对所述第二隐私数据的数据价值,其中,所述数据价值评估模型基于神经网络构建,用于确定隐私数据与数据使用场景的匹配度。
在一种可选的实施方式中,
通过预先构建的数据价值评估模型,确定所述第一隐私数据对所述第二隐私数据的数据价值的方法包括:
通过预先构建的数据价值评估模型,确定所述第一隐私数据对应的第一逻辑值;
通过预先构建的数据价值评估模型,确定所述第二隐私数据对应的第二逻辑值;
基于所述正样本和所述负样本的样本浓度,分别为所述第一逻辑值分配第一权重值,为所述第二逻辑值分配第二权重值;
基于所述第一逻辑值、所述第一权重值,以及所述第一隐私数据,确定第一信息价值指标;
基于所述第二逻辑值、所述第二权重值,以及所述第二隐私数据,确定第二信息价值指标;
根据所述第一信息价值指标和所述第二信息价值指标的匹配度,确定所述第一隐私数据对所述第二隐私数据的数据价值,其中,
所述数据价值用于指示所述第一隐私数据在所述第二隐私数据适用场景的匹配度。
根据本方具有的所述第一逻辑值,与所述第二方提供的所述目标样本针对混淆统计因子的混淆统计结果的各可能值,通过不经意传输的方式,得到所述混淆统计结果的实际值:其中,所述混淆统计结果的各可能值由所述第二方根据所述目标样本对应的第二隐私数据,计算所述目标样本针对所述第二过滤条件的第二过滤结果的第二逻辑值,再根据所述第二逻辑值与所述第一过滤结果的各可能值确定所述目标样本针对总过滤条件的总过滤结果的各可能取值,将所述目标样本对应的单项统计值与所述总过滤结果的各可能取值相乘后,再加上所述目标样本对应的噪声值得到的。可以理解的是,结果逻辑值体现了目标样本是否符合总过滤条件,如果目标样本符合总过滤条件,则该目标样本的结果逻辑值为1,否则为0。结果逻辑值不仅与第一逻辑值相关,而且与第二逻辑值相关。
本公开提供一种全流程加密的数据价值评估方法,包括基于秘密分享协议确定数据提供方对应的第一隐私数据和数据使用方对应的第二隐私数据的联邦数据集;通过数据提供方对应的第一密钥和数据使用方对应的第二密钥,对联邦数据集进行特征分箱,确定联邦数据集的正样本和负样本;根据联邦数据集的正样本和负样本,在同时确定第一密钥和第二密钥的情况下,确定正样本和负样本的样本浓度;综合正样本和负样本的样本浓度,第一隐私数据与第二隐私数据,通过预先构建的数据价值评估模型,确定第一隐私数据对第二隐私数据的数据价值。
本公开的方法能够在少量样本的情况下即可完成数据价值评估,可以同时保证在恶意环境下的安全性和计算速度;
将全量的原始数据,在密文状态下,直接进行计算,并且不输出任何除密文空间之外的有效信息,整个隐私计算过程中实现完全没有明文计算的情况;
整个计算环节,是在全加密的环境中计算,通过本申请的流程能够大大降低需要使用的样本集,从而使其在实际的业务场景中可以落地。
本公开实施例的第二方面,
提供一种全流程加密的数据价值评估方法,所述方法用于所述数据提供方,包括:
基于秘密分享协议确定数据提供方对应的第一隐私数据和数据使用方对应的第二隐私数据的联邦数据集;
通过所述数据提供方对应的第一密钥,对所述联邦数据集进行特征分箱,确定所述联邦数据集的正样本和负样本;
根据所述联邦数据集的正样本和负样本,接收到所述数据使用方提供的第二密钥的情况下,确定所述正样本和所述负样本的样本浓度;
综合所述正样本和所述负样本的样本浓度,所述第一隐私数据与所述第二隐私数据,通过预先构建的数据价值评估模型,确定所述第一隐私数据对所述第二隐私数据的数据价值,其中,所述数据价值评估模型基于神经网络构建,用于确定隐私数据与数据使用场景的匹配度。
本公开实施例的第三方面,
提供一种全流程加密的数据价值评估方法,所述方法用于所述数据使用方,包括:
基于秘密分享协议确定数据提供方对应的第一隐私数据和数据使用方对应的第二隐私数据的联邦数据集;
通过所述数据使用方对应的第二密钥,对所述联邦数据集进行特征分箱,确定所述联邦数据集的正样本和负样本;
根据所述联邦数据集的正样本和负样本,接收到所述数据提供方提供的第一密钥的情况下,确定所述正样本和所述负样本的样本浓度;
综合所述正样本和所述负样本的样本浓度,所述第一隐私数据与所述第二隐私数据,通过预先构建的数据价值评估模型,确定所述第一隐私数据对所述第二隐私数据的数据价值,其中,所述数据价值评估模型基于神经网络构建,用于确定隐私数据与数据使用场景的匹配度。
本公开实施例的第四方面,
提供一种全流程加密的数据价值评估系统,所述系统包括:
第一单元21,用于基于秘密分享协议确定数据提供方对应的第一隐私数据和数据使用方对应的第二隐私数据的联邦数据集;
第二单元22,用于通过所述数据提供方对应的第一密钥和所述数据使用方对应的第二密钥,对所述联邦数据集进行特征分箱,确定所述联邦数据集的正样本和负样本;
第三单元23,用于根据所述联邦数据集的正样本和负样本,在同时确定所述第一密钥和所述第二密钥的情况下,确定所述正样本和所述负样本的样本浓度;
第四单元24,用于综合所述正样本和所述负样本的样本浓度,所述第一隐私数据与所述第二隐私数据,通过预先构建的数据价值评估模型,确定所述第一隐私数据对所述第二隐私数据的数据价值,其中,所述数据价值评估模型基于神经网络构建,用于确定隐私数据与数据使用场景的匹配度。
本公开实施例的第五方面,
提供一种电子设备,包括:
至少一个存储器:
至少一个处理器:
至少一个程序:
所述程序被存储在所述存储器中,处理器执行所述至少一个程序以实现:
如前述所述的方法。
需要说明的是,本公开的第二方面、第三方面、第四方面以及第五方面实施例的有益效果均可以参考前述第一方面的有益效果,在此不再赘述。
本发明可以是方法、装置、系统和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于执行本发明的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。
这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理单元,从而生产出一种机器,使得这些指令在通过计算机或其他可编程数据处理装置的处理单元执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上,使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其他可编程数据处理装置、或其他设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
注意,除非另有直接说明,否则本说明书(包含任何所附权利要求、摘要和附图)中所揭示的所有特征皆可由用于达到相同、等效或类似目的的可替代特征来替换。因此,除非另有明确说明,否则所公开的每一个特征仅是一组等效或类似特征的一个示例。在使用到的情况下,进一步地、较优地、更进一步地和更优地是在前述实施例基础上进行另一实施例阐述的简单起头,该进一步地、较优地、更进一步地或更优地后带的内容与前述实施例的结合作为另一实施例的完整构成。在同一实施例后带的若干个进一步地、较优地、更进一步地或更优地设置之间可任意组合的组成又一实施例。
本领域的技术人员应理解,上述描述及附图中所示的本发明的实施例只作为举例而并不限制本发明。本发明的目的已经完整并有效地实现。本发明的功能及结构原理已在实施例中展示和说明,在没有背离所述原理下,本发明的实施方式可以有任何变形或修改。
最后应说明的是:以上各实施例仅用以说明本公开的技术方案,而非对其限制;尽管参照前述各实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本公开各实施例技术方案的范围。

Claims (10)

1.一种全流程加密的数据价值评估方法,其特征在于,所述方法用于数据提供方和数据使用方,包括:
基于秘密分享协议确定数据提供方对应的第一隐私数据和数据使用方对应的第二隐私数据的联邦数据集;
通过所述数据提供方对应的第一密钥和所述数据使用方对应的第二密钥,对所述联邦数据集进行特征分箱,确定所述联邦数据集的正样本和负样本;
根据所述联邦数据集的正样本和负样本,在同时确定所述第一密钥和所述第二密钥的情况下,确定所述正样本和所述负样本的样本浓度;
综合所述正样本和所述负样本的样本浓度,所述第一隐私数据与所述第二隐私数据,通过预先构建的数据价值评估模型,确定所述第一隐私数据对所述第二隐私数据的数据价值,其中,所述数据价值评估模型基于神经网络构建,用于确定隐私数据与数据使用场景的匹配度。
2.根据权利要求1所述的全流程加密的数据价值评估方法,其特征在于,所述基于秘密分享协议确定数据提供方对应的第一隐私数据和数据使用方对应的第二隐私数据的联邦数据集的方法包括:
所述数据提供方利用预先确定的第一密钥对第一隐私数据进行数据加密;
所述数据使用方利用预先确定的第二密钥对第二隐私数据进行数据加密;
根据第一密钥、第二密钥以及秘密分享乘法协议,确定所述第一隐私数据与所述第二隐私数据的联邦数据集。
3.根据权利要求2所述的全流程加密的数据价值评估方法,其特征在于,在确定所述第一隐私数据与所述第二隐私数据的联邦数据集之后,所述方法还包括:
基于所述第一隐私数据、所述第二隐私数据,以及所述联邦数据集,确定所述第一隐私数据和/或所述第二隐私数据的样本覆盖度,其中,
所述样本覆盖度用于指示所述第一隐私数据和/或所述第二隐私数据与所述联邦数据集的数据关联度;
将所述样本覆盖度通过不经意传输方式传输至所述数据提供方和所述数据使用方。
4.根据权利要求1所述的全流程加密的数据价值评估方法,其特征在于,所述通过所述数据提供方对应的第一密钥和所述数据使用方对应的第二密钥,对所述联邦数据集进行特征分箱的方法包括:
通过所述数据提供方对应的第一密钥确定所述第一密钥与所述联邦数据集的样本的第一关联度;
通过所述数据使用方对应的第二密钥确定所述第二密钥与所述联邦数据集的样本的第二关联度;
分别按照所述第一关联度和所述第二关联度的关联紧密程度对所述联邦数据集进行特征分箱。
5.根据权利要求1所述的全流程加密的数据价值评估方法,其特征在于,在确定所述正样本和所述负样本的样本浓度之前,所述方法还包括:
结合预先获取的历史数据,针对第一隐私数据对应的第一过滤策略,确定第一过滤结果;
结合预先获取的历史数据,针对第二隐私数据对应的第二过滤策略,确定第二过滤结果;
基于所述第一过滤结果和所述第二过滤结果,筛选所述联邦数据集不符合预设过滤条件的样本。
6.根据权利要求1所述的全流程加密的数据价值评估方法,其特征在于,通过预先构建的数据价值评估模型,确定所述第一隐私数据对所述第二隐私数据的数据价值的方法包括:
通过预先构建的数据价值评估模型,确定所述第一隐私数据对应的第一逻辑值;
通过预先构建的数据价值评估模型,确定所述第二隐私数据对应的第二逻辑值;
基于所述正样本和所述负样本的样本浓度,分别为所述第一逻辑值分配第一权重值,为所述第二逻辑值分配第二权重值;
基于所述第一逻辑值、所述第一权重值,以及所述第一隐私数据,确定第一信息价值指标;
基于所述第二逻辑值、所述第二权重值,以及所述第二隐私数据,确定第二信息价值指标;
根据所述第一信息价值指标和所述第二信息价值指标的匹配度,确定所述第一隐私数据对所述第二隐私数据的数据价值,其中,
所述数据价值用于指示所述第一隐私数据在所述第二隐私数据适用场景的匹配度。
7.一种全流程加密的数据价值评估方法,其特征在于,所述方法用于所述数据提供方,包括:
基于秘密分享协议确定数据提供方对应的第一隐私数据和数据使用方对应的第二隐私数据的联邦数据集;
通过所述数据提供方对应的第一密钥,对所述联邦数据集进行特征分箱,确定所述联邦数据集的正样本和负样本;
根据所述联邦数据集的正样本和负样本,接收到数据使用方提供的第二密钥的情况下,确定所述正样本和所述负样本的样本浓度;
综合所述正样本和所述负样本的样本浓度,所述第一隐私数据与所述第二隐私数据,通过预先构建的数据价值评估模型,确定所述第一隐私数据对所述第二隐私数据的数据价值,其中,所述数据价值评估模型基于神经网络构建,用于确定隐私数据与数据使用场景的匹配度。
8.一种全流程加密的数据价值评估方法,其特征在于,所述方法用于所述数据使用方,包括:
基于秘密分享协议确定数据提供方对应的第一隐私数据和数据使用方对应的第二隐私数据的联邦数据集;
通过所述数据使用方对应的第二密钥,对所述联邦数据集进行特征分箱,确定所述联邦数据集的正样本和负样本;
根据所述联邦数据集的正样本和负样本,接收到所述数据提供方提供的第一密钥的情况下,确定所述正样本和所述负样本的样本浓度;
综合所述正样本和所述负样本的样本浓度,所述第一隐私数据与所述第二隐私数据,通过预先构建的数据价值评估模型,确定所述第一隐私数据对所述第二隐私数据的数据价值,其中,所述数据价值评估模型基于神经网络构建,用于确定隐私数据与数据使用场景的匹配度。
9.一种全流程加密的数据价值评估系统,其特征在于,所述系统应用于数据提供方和数据使用方,包括:
第一单元,用于基于秘密分享协议确定数据提供方对应的第一隐私数据和数据使用方对应的第二隐私数据的联邦数据集;
第二单元,用于通过所述数据提供方对应的第一密钥和所述数据使用方对应的第二密钥,对所述联邦数据集进行特征分箱,确定所述联邦数据集的正样本和负样本;
第三单元,用于根据所述联邦数据集的正样本和负样本,在同时确定所述第一密钥和所述第二密钥的情况下,确定所述正样本和所述负样本的样本浓度;
第四单元,用于综合所述正样本和所述负样本的样本浓度,所述第一隐私数据与所述第二隐私数据,通过预先构建的数据价值评估模型,确定所述第一隐私数据对所述第二隐私数据的数据价值,其中,所述数据价值评估模型基于神经网络构建,用于确定隐私数据与数据使用场景的匹配度。
10.一种电子设备,其特征在于,包括:
至少一个存储器:
至少一个处理器:
至少一个程序:
所述程序被存储在所述存储器中,处理器执行所述至少一个程序以实现:
如权利要求1至6任意一项所述的方法;或者,
如权利要求7或8所述的方法。
CN202210593602.7A 2022-05-27 2022-05-27 全流程加密的数据价值评估方法、系统及电子设备 Pending CN114861210A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210593602.7A CN114861210A (zh) 2022-05-27 2022-05-27 全流程加密的数据价值评估方法、系统及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210593602.7A CN114861210A (zh) 2022-05-27 2022-05-27 全流程加密的数据价值评估方法、系统及电子设备

Publications (1)

Publication Number Publication Date
CN114861210A true CN114861210A (zh) 2022-08-05

Family

ID=82641079

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210593602.7A Pending CN114861210A (zh) 2022-05-27 2022-05-27 全流程加密的数据价值评估方法、系统及电子设备

Country Status (1)

Country Link
CN (1) CN114861210A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115168910A (zh) * 2022-09-08 2022-10-11 蓝象智联(杭州)科技有限公司 一种基于秘密分享的共享数据等宽分箱方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115168910A (zh) * 2022-09-08 2022-10-11 蓝象智联(杭州)科技有限公司 一种基于秘密分享的共享数据等宽分箱方法
CN115168910B (zh) * 2022-09-08 2022-12-23 蓝象智联(杭州)科技有限公司 一种基于秘密分享的共享数据等宽分箱方法

Similar Documents

Publication Publication Date Title
US20200125734A1 (en) Systems and methods for forecasting cybersecurity ratings based on event-rate scenarios
Alotaibi et al. A survey of cyber-security awareness in Saudi Arabia
US20170070480A1 (en) Anonymous information sharing
Killer et al. Security management and visualization in a blockchain-based collaborative defense
Zaki et al. Security threats for big data: A study on enron e-mail dataset
CN114861210A (zh) 全流程加密的数据价值评估方法、系统及电子设备
US11288397B2 (en) Masking text data for secure multiparty computation
Consolvo et al. " Why wouldn't someone think of democracy as a target?": Security practices & challenges of people involved with {US}. political campaigns
Joyce et al. International cyber incident repository system: Information sharing on a global scale
Mackenzie et al. Improving obfuscation in the cryptonote protocol
Coelho Paranoid Operating System Methodology for Anonymous & Secure Web Browsing
Halpin et al. Co-ordinating developers and high-risk users of privacy-enhanced secure messaging protocols
CN114692209B (zh) 一种基于混淆技术的图联邦方法及系统
Gcaza Cybersecurity Awareness and Education: A Necessary Parameter for Smart Communities.
KR102187782B1 (ko) 어플리케이션 기반 사용자 동의 시스템 및 방법
US20170180405A1 (en) Security indicator access determination
CN104618373A (zh) 一种适用于云计算平台的服务安全性量化评估方法及系统
Sheng et al. Factors affecting trust of software as a service usage in public network: A correlation analysis
Zwilling The Influence of COVID-19 Outbreak on the Readiness of Firms to Cyber Threats
Ab Rahman An evidence-based cloud incident handling framework
Balamurugan et al. Is Cloud Secure?
CN115186285B (zh) 联邦学习的参数聚合方法和装置
CN116488789B (zh) 一种数据处理方法、装置、设备和介质
Falch et al. Cybersecurity in SMEs in the Baltic Sea Region
Holmes Threat Actor Lateral Movement within Hybrid Cloud

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination