CN113536354A - 一种保护隐私安全的数据融合方法 - Google Patents

一种保护隐私安全的数据融合方法 Download PDF

Info

Publication number
CN113536354A
CN113536354A CN202110855638.3A CN202110855638A CN113536354A CN 113536354 A CN113536354 A CN 113536354A CN 202110855638 A CN202110855638 A CN 202110855638A CN 113536354 A CN113536354 A CN 113536354A
Authority
CN
China
Prior art keywords
data
label
value
original
calling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110855638.3A
Other languages
English (en)
Other versions
CN113536354B (zh
Inventor
张金琳
高航
俞学劢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Shuqin Technology Co Ltd
Original Assignee
Zhejiang Shuqin Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Shuqin Technology Co Ltd filed Critical Zhejiang Shuqin Technology Co Ltd
Priority to CN202110855638.3A priority Critical patent/CN113536354B/zh
Publication of CN113536354A publication Critical patent/CN113536354A/zh
Application granted granted Critical
Publication of CN113536354B publication Critical patent/CN113536354B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/64Protecting data integrity, e.g. using checksums, certificates or signatures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Storage Device Security (AREA)

Abstract

本发明涉及数据处理技术,具体涉及一种保护隐私安全的数据融合方法,包括:建立数据接收节点、若干个数据存储节点、标签模型接收节点和调用监听节点;数据源方将原始的数据提交给数据接收节点;标签模型接收节点接收原始的数据配套的标签转换模型;数据接收节点将数据分为若干个子数据,将若干个子数据分配给若干个数据存储节点加密存储;标签模型接收节点将标签数据分为若干个子数据,将若干个子数据分配给若干个数据存储节点加密存储;调用监听节点接收到标签数据调用请求时,将调用请求发送给数据源方请求授权后,将标签数据提供给调用请求者。本发明的实质性效果是:将数据源方提交的原始的数据分散加密存储,提高了数据的安全性。

Description

一种保护隐私安全的数据融合方法
技术领域
本发明涉及数据处理技术,具体涉及一种保护隐私安全的数据融合方法。
背景技术
信息技术的发展对人们的日常生活产生了广泛的影响。当前,人们已经习惯使用各种建立在数据之上的设备或应用所提供的服务,进行生活和工作。不仅大幅提高了人们的生活质量和生产效率,同时也带来了信息量和数据量的高速增长。各行各业均累积了数量可观的丰富的数据。随着大数据技术和人工智能技术的兴起,技术人员能够从数据中挖掘出更多的有价值想信息,并开发了功能愈加丰富的应用。虽然数据处理技术得到了较快的发展,然而数据处理应用在落地时,遇到了保护数据隐私和权益立场不同的瓶颈。除此之外,由于产生数据的厂商或机构不同,所积累的数据在字段及格式上存在较大的差异,即数据异构问题。且数据的真实性和完整度也较难以迅速判断,导致数据交易双方均面临较大的风险和不确定性。
中国专利CN113128609A,公开日2021年7月6日,公开了一种数据融合方法、装置和存储介质,通过获得第一标签组,第一标签组的每个标签均至少包括:属性结果和渠道;根据每个标签的属性结果和渠道确定每个标签的分类;根据每个标签的属性结果,确定每种属性结果的属性权重;获得不同渠道的渠道权重;根据属性权重和渠道权重,分别确定每类标签的第一结果概率;将第一结果概率的最大的一类标签的属性结果和渠道确定为融合标签的属性结果和渠道。其技术方案根据第一标签组中的多个标签的属性结果和渠道,确定融合标签的属性结果和渠道,并将融合标签作为第一标签组的融合结果,具有一定的普遍适用性。其丢弃了第一结果概率较小的大量数据,在数据融合过程中,数据失真较为严重,浪费了大量数据的价值。不适宜用于构建市场活跃度较高的数据交易市场。
发明内容
本发明要解决的技术问题是:目前缺乏能够将多源数据进行融合使用的技术方案的问题。提出了一种保护隐私安全的数据融合方法,本方法能够在多源数据进行融合利用时,有效保护数据的隐私性和安全性。
为解决上述技术问题,本发明所采取的技术方案为:一种保护隐私安全的数据融合方法,包括:建立数据接收节点、若干个数据存储节点、标签模型接收节点和调用监听节点;数据源方将原始的数据提交给数据接收节点,数据接收节点提取原始的数据的哈希值并上传区块链存储;标签模型接收节点接收原始的数据配套的标签转换模型,所述标签转换模型将原始的数据的数值转换为标签值,所述标签模型接收节点将原始的数据转换为标签数据;数据接收节点将数据分为若干个子数据,将若干个子数据分配给若干个数据存储节点加密存储;所述标签模型接收节点将标签数据分为若干个子数据,将若干个子数据分配给若干个数据存储节点加密存储;所述调用监听节点接收到标签数据调用请求时,验证调用格式后将调用请求发送给数据源方请求授权,数据源方授权后,与若干个数据存储节点通信恢复标签数据,将标签数据提供给调用请求者;所述调用监听节点接收到原始的数据调用请求时,验证调用请求者是否为数据源方,若是,则与若干个数据存储节点通信恢复原始的数据,若否,则不做操作。
作为优选,数据源方提交原始的数据后,所述数据接收节点执行机选标签模型,所述机选标签模型执行以下步骤:读取原始的数据的数值型字段和标签型字段,对每个数值型字段执行:将数值型字段的取值按升序排列,获得数值型字段取值的端值,获得端值差;以端值差的K分之一为区间长度,将数值型字段的取值区间划分为K个区间,统计落入每个区间内的取值数量;以区间序号为自变量,区间内取值的数量为函数值,拟合出第一函数;计算第一函数的一阶导数,将一阶导数的绝对值大于预设值的部分舍弃;在被部分舍弃的第一函数基础上,再次拟合获得第二函数;获得第二函数一阶导数取值取值为0的点,记为划分点;划分点所在区间的中值为最终划分点,将原始的数据按若干个划分点划分区间,以原始的数据落入的区间的序号,作为标签值,完成数值型数据的标签化;对每个标签型字段执行:统计每个标签型字段的取值,为每个取值使用序号代替;将标签型字段取值替换为序号,作为标签值;在预设的时长内,若所述标签模型接收节点未收到数据源方对应的标签转换模型,则将机选标签模型的结果作为标签数据,直到所述标签模型接收节点收到数据源方提供的标签转换模型。
作为优选,将数据分为若干个子数据,将若干个子数据分配给若干个数据存储节点加密存储的方法,包括以下步骤:将原始的数据中的数据行复制若干个副本,副本的数量与数据存储节点数量匹配;罗列原始的数据中的数值型字段,为每个数值型字段执行:将数值型字段的取值拆分为若干个加数,加数的数量与数据存储节点数量匹配;将若干个加数分配给若干个副本;罗列原始的数据中的标签型字段,为每个标签型字段执行;为标签型字段随机生成一个混淆标签,将真实标签分配给一个副本,其余副本则存储混淆标签,所述混淆标签取值落入真实标签取值范围内。
作为优选,还为每个数值型字段执行:在副本中为每个数值型字段选取一个整数M值,M∈[1,Ma],Ma为预设最大值;计算数值型字段的取值的M次方值;计算数值型字段取值的哈希值,截取哈希值的末尾若干位作为特征值,选择一个副本存储特征值;将数值型字段取值的M次方值分别拆分为若干个加数,加数的数量与剩余的副本数量匹配;将若干个加数分配给剩余的若干个副本存储;恢复原始的数据时,获得若干个副本的加数,求和后遍历[1,Ma]倒推原始的取值,直到找到与特征值匹配的取值,若存在多个倒推值的哈希值末尾若干个取值与特征值相同,则使用存储在区块链的原始的数据的哈希值进行验证,获得原始的取值。
作为优选,还为每个数值型字段执行:在副本中为每个数值型字段建立2至M次方分量字段;计算数值型字段的取值的2至M次方值;将数值型字段取值的1次方至M次方值分别拆分为若干个加数,加数的数量与副本数量匹配;将数值型字段取值的1次方至M次方值的若干个加数分别分配给若干个副本存储。
作为优选,所述调用监听节点接收到原始的数据调用请求时,验证调用请求者是否为数据源方,若否,则通知请求者提供数据处理模型,所述数据处理模型的输入为原始的数据,输出为标签值;所述调用监听节点验证所述数据处理模型的每个输出,所涉及到的输入字段,若存在某个输出仅涉及一个输入字段,则拒绝该数据处理模型;所述调用监听节点收到数据源方的授权后,复原原始的数据,并将复原的数据存储在调用监听节点上,代入所述数据处理模型;将数据处理模型的输出发送给请求者,而后删除复原的原始的数据。
作为优选,所述调用监听节点验证所述数据处理模型的对原始的数值型数据的第一步处理是否为函数计算,若是则进一步验证所述函数是否为一元函数,若是则进一步验证所述函数进行泰勒展开后是否为自变量1至N次方的加权和与误差项的和;若是,则不复原原始数据,将所述函数泰勒展开后前M项的权系数发送给每个数据存储节点;所述数据存储节点将所存储在1至M次方加数使用权系数,计算加权和,将加权和发送给所述调用监听节点;所述调用监听节点汇集全部数据存储节点发送的加权和后,再次求和,作为函数的输出,代入所述数据处理模型继续计算。
作为优选,若所述调用监听节点将所述函数泰勒展开后第M项的权系数设为0;而后将所述函数泰勒展开后前M项的权系数发送给每个数据存储节点;再次获得全部数据存储节点发送的加权和,并求和;两次求和的差值即为第M项的值,计算第M项的取绝对值占函数的输出的绝对值的比重,若比重超过预设阈值,则丢弃全部加权和,通知数据存储节点发送加数值,并复原原始的数据,重新计算函数的值。
作为优选,所述调用监听节点接收调用请求者提交的标签需求;所述数据接收节点接收数据源方提交的原始的数据时,同时接收数据源方提交的数据分类标识;所述标签模型接收节点统计同类数据的标签转换模型的输出标签,所述同类数据指数据分类标识相同的数据;汇集同类数据的输出标签和标签需求,并构建标签方案投票,所述标签方案为同类数据的标签转换模型的输出标签集合,将获票最高的前若干个标签方案,作为标准标签方案;将标准标签方案发送给后续提交同类数据的数据源方,由数据源方制定输出标签包含标准标签方案的标签转换模型。
本发明的实质性效果是:1)建立分布式数据存储节点,将数据源方提交的原始的数据分散加密存储,即使部分泄露,窃取者也无法恢复一条完整的数据行,提高了数据的安全性;2)通过标签转换模型,将原始数据转换为标签,直接隐藏了原始数据的取值,原始的值不再参与后续数据的处理,从根本上提高了数据的隐私性;3)使用机选标签模型为原始的数据生成机选标签,在数据源方未提交标签转换模型的情况下,使数据仍然能够提供服务;4)提供改进的数据处理模型执行方法,使得部分情况下不需要直接复原出原始的值,使原始值在执行数据处理模型时仍然保持隐藏,进一步提升了数据的隐私性和安全性。
附图说明
图1为实施例一数据融合方法流程示意图。
图2为实施例一机选标签模型执行方法流程示意图。
图3为实施例一数据存储节点存储数据方法流程示意图。
图4为实施例一原始的数据调用方法流程示意图。
图5为实施例二标准标签生成方法流程示意图。
具体实施方式
下面通过具体实施例,并结合附图,对本发明的具体实施方式作进一步具体说明。
实施例一:
一种保护隐私安全的数据融合方法,请参阅附图1,本方法包括以下步骤:
步骤A01)建立数据接收节点、若干个数据存储节点、标签模型接收节点和调用监听节点;
步骤A02)数据源方将原始的数据提交给数据接收节点,数据接收节点提取原始的数据的哈希值并上传区块链存储;
步骤A03)标签模型接收节点接收原始的数据配套的标签转换模型,标签转换模型将原始的数据的数值转换为标签值,标签模型接收节点将原始的数据转换为标签数据;
步骤A04)数据接收节点将数据分为若干个子数据,将若干个子数据分配给若干个数据存储节点加密存储;
步骤A05)标签模型接收节点将标签数据分为若干个子数据,将若干个子数据分配给若干个数据存储节点加密存储;
步骤A06)调用监听节点接收到标签数据调用请求时,验证调用格式后将调用请求发送给数据源方请求授权,数据源方授权后,与若干个数据存储节点通信恢复标签数据,将标签数据提供给调用请求者;
步骤A07)调用监听节点接收到原始的数据调用请求时,验证调用请求者是否为数据源方,若是,则与若干个数据存储节点通信恢复原始的数据,若否,则不做操作。本实施例使用SHA256进行哈希值的提取。若干个数据存储节点可仅与数据接收节点和调用监听节点连接,从而提高数据存储节点的安全性。
数据源方将原始的数据提交给数据接收节点,并发送到数据存储节点存储时,最为关心的是数据的安全问题。在长时间的存储过程中,要保证原始的数据不被泄露,也不会丢失和损坏。采用将原始的数据分散存储在若干个数据存储节点上,提高数据的安全性。
通过标签转换模型,将原始数据转换为标签,如将年龄转换为:未成年、青年、中青年、中年和老年,其划分标准分别为:未成年:0-17岁,青年:18-45,中青年:46-65岁,中年:66-79岁,老年:80岁以上。年龄按上述区间划分后,具体的年龄值将转化为标签,从而隐藏数据源中的真实年龄,达到保护隐私的目的。同样的科研按照公开的存款金额划分标准,将用户的存款金额转化为标签。如将存款划分为:区间一:0-5万,区间二:5.01-99万,区间三:99.01-1000万,区间四:1000.01万-1亿,区间五:大于1亿元。将具体的存款金额用区间一至区间五,这五个标签代替。达到隐藏用户具体存款金额的目的。这样的标签属于单一划分的标签,仍然会残留一些隐私信息。若数据源方使用两个字段结合进行划分标签,则会进一步降低标签中携带的隐私信息,如提供标签:富裕、中等、较贫穷和贫穷,五个标签,其中富裕标签的划分标准为:青年+区间三/区间四/区间五、中青年+区间四/区间五、中年或老年+区间四/区间五,中等的划分为:青年+区间二、中青年+区间三、中年或老年+区间三,较贫穷的划分为:青年+区间一、中青年+区间二、中年或老年+区间二,贫穷的划分为:中青年+区间一、中年或老年+区间一。这样的标签即能够为数据调用请求方提供有用的信息,同时基本上隐藏了全部的敏感数据。数据调用请求方无法从富裕、中等这样的标签,倒推用户的年龄情况和存款情况。
请参阅附图2,数据源方提交原始的数据后,数据接收节点执行机选标签模型,机选标签模型执行以下步骤:
步骤B01)读取原始的数据的数值型字段和标签型字段;
步骤B11)对每个数值型字段执行:
步骤B12)将数值型字段的取值按升序排列,获得数值型字段取值的端值,获得端值差;
步骤B13)以端值差的K分之一为区间长度,将数值型字段的取值区间划分为K个区间,统计落入每个区间内的取值数量;
步骤B14)以区间序号为自变量,区间内取值的数量为函数值,拟合出第一函数;
步骤B15)计算第一函数的一阶导数,将一阶导数的绝对值大于预设值的部分舍弃;
步骤B16)在被部分舍弃的第一函数基础上,再次拟合获得第二函数;
步骤B17)获得第二函数一阶导数取值取值为0的点,记为划分点;
步骤B18)划分点所在区间的中值为最终划分点;
步骤B19)将原始的数据按若干个划分点划分区间,以原始的数据落入的区间的序号,作为标签值,完成数值型数据的标签化;
步骤B21)对每个标签型字段执行:
步骤B22)统计每个标签型字段的取值,为每个取值使用序号代替;
步骤B23)将标签型字段取值替换为序号,作为标签值。在预设的时长内,若标签模型接收节点未收到数据源方对应的标签转换模型,则将机选标签模型的结果作为标签数据,直到标签模型接收节点收到数据源方提供的标签转换模型。
使用机选标签模型为原始的数据生成机选标签,在数据源方未提交标签转换模型的情况下,使数据仍然能够提供服务。当K取值足够大时,能够有效弥补机选标签带来的数据失真问题,使数据损失的信息减少,仍然能够提供基本的服务。在数据源方来不及制作标签转换模型的情况下,具有重要的意义。
通过标签转换模型,使异构数据能够转换为统一的标签数据,使用标签数据能够为数据调用请求方提供数据服务,从而在数据需求和多个数据源之间建立有效的数据应用途径。提供多个异构数据源的融合。
请参阅附图3,将数据分为若干个子数据,将若干个子数据分配给若干个数据存储节点加密存储的方法,包括以下步骤:
步骤C01)将原始的数据中的数据行复制若干个副本,副本的数量与数据存储节点数量匹配;
步骤C11)罗列原始的数据中的数值型字段,为每个数值型字段执行:
步骤C12)将数值型字段的取值拆分为若干个加数,加数的数量与数据存储节点数量匹配;
步骤C13)将若干个加数分配给若干个副本。
步骤C21)罗列原始的数据中的标签型字段,为每个标签型字段执行;
步骤C22)为标签型字段随机生成一个混淆标签;
步骤C23)将真实标签分配给一个副本,其余副本则存储混淆标签,混淆标签取值落入真实标签取值范围内。将真实的数值型字段的值划分为若干个加数,只有成功攻击全部的数据存储节点,才能获得真实的数值型字段的值。有效提高原始数据的安全性和隐私性。
请参阅附图4,当收到调用原始数据的请求时,本实施例执行以下步骤:
步骤D01)调用监听节点接收到原始的数据调用请求时,验证调用请求者是否为数据源方;
步骤D02)若是,则提供原始的数据;
步骤D03)若否,则通知请求者提供数据处理模型,数据处理模型的输入为原始的数据,输出为标签值;
步骤D04)调用监听节点验证数据处理模型的每个输出,所涉及到的输入字段;
步骤D05)若存在某个输出仅涉及一个输入字段,则拒绝该数据处理模型;
步骤D06)调用监听节点收到数据源方的授权后,复原原始的数据,并将复原的数据存储在调用监听节点上,代入数据处理模型;
步骤D07)将数据处理模型的输出发送给请求者,而后删除复原的原始的数据。借助于原始的数据调用请求者提供的数据处理模型,即调用请求者提供的标签转换模型,能够使调用请求者有机会使用原始的数据,获得更为有价值的标签输出。同时,在此过程中,仍然能够保持原始的数据不被泄露,有效保护数据的隐私性。
本实施例遍历数值型字段,为每个数值型字段执行:在副本中为每个数值型字段建立2至M次方分量字段;计算数值型字段的取值的2至M次方值;将数值型字段取值的1次方至M次方值分别拆分为若干个加数,加数的数量与副本数量匹配;将数值型字段取值的1次方至M次方值的若干个加数分别分配给若干个副本存储。调用监听节点验证数据处理模型的对原始的数值型数据的第一步处理是否为函数计算,若是则进一步验证函数是否为一元函数,若是则进一步验证函数进行泰勒展开后是否为自变量1至N次方的加权和与误差项的和;若是,则不复原原始数据,将函数泰勒展开后前M项的权系数发送给每个数据存储节点;数据存储节点将所存储在1至M次方加数使用权系数,计算加权和,将加权和发送给调用监听节点;调用监听节点汇集全部数据存储节点发送的加权和后,再次求和,作为函数的输出,代入数据处理模型继续计算。自变量1至N次方的加权和与误差项的和,即为一元函数的泰勒展开式,使用一元函数的泰勒展开式计算函数值,能够避免在计算过程中复原原始的值,使得在计算过程中,仍然保持数据的隐私性。
若调用监听节点将函数泰勒展开后第M项的权系数设为0;而后将函数泰勒展开后前M项的权系数发送给每个数据存储节点;再次获得全部数据存储节点发送的加权和,并求和;两次求和的差值即为第M项的值,计算第M项的取绝对值占函数的输出的绝对值的比重,若比重超过预设阈值,则丢弃全部加权和,通知数据存储节点发送加数值,并复原原始的数据,重新计算函数的值。使用本方法能够判断进行泰勒展开式计算时,带来的误差是否能够接收,若不能接受,则需要复原出原始的值进行计算。
本实施例的有益技术效果是:建立分布式数据存储节点,将数据源方提交的原始的数据分散加密存储,即使部分泄露,窃取者也无法恢复一条完整的数据行,提高了数据的安全性。通过标签转换模型,将原始数据转换为标签,直接隐藏了原始数据的取值,原始的值不再参与后续数据的处理,从根本上提高了数据的隐私性。
实施例二:
一种保护隐私安全的数据融合方法,相对于实施例一,本实施例进一步提高了数据的安全性和隐私性。本实施例还为每个数值型字段执行:在副本中为每个数值型字段选取一个整数M值,M∈[1,Ma],Ma为预设最大值;计算数值型字段的取值的M次方值;计算数值型字段取值的哈希值,截取哈希值的末尾若干位作为特征值,选择一个副本存储特征值;将数值型字段取值的M次方值分别拆分为若干个加数,加数的数量与剩余的副本数量匹配;将若干个加数分配给剩余的若干个副本存储;恢复原始的数据时,获得若干个副本的加数,求和后遍历[1,Ma]倒推原始的取值,直到找到与特征值匹配的取值,若存在多个倒推值的哈希值末尾若干个取值与特征值相同,则使用存储在区块链的原始的数据的哈希值进行验证,获得原始的取值。使用本方法能够有效的隐藏真实的值。调用监听节点能够快速的恢复出原始的数据,但是窃取者即使获得数据,也无从判断数据是原数据,还是数据的幂值,进一步提高了数据的安全性。
请参阅附图5,本实施例还包括制作标准标签的方法,包括:
步骤E01)调用监听节点接收调用请求者提交的标签需求;
步骤E02)数据接收节点接收数据源方提交的原始的数据时,同时接收数据源方提交的数据分类标识;
步骤E03)标签模型接收节点统计同类数据的标签转换模型的输出标签,同类数据指数据分类标识相同的数据;
步骤E04)汇集同类数据的输出标签和标签需求,并构建标签方案投票,标签方案为同类数据的标签转换模型的输出标签集合,将获票最高的前若干个标签方案,作为标准标签方案;
步骤E05)将标准标签方案发送给后续提交同类数据的数据源方,由数据源方制定输出标签包含标准标签方案的标签转换模型。
本实施例相对于实施例一,提供了标准标签,沟通了调用请求者和数据源方,使数据源方能够提供更为有价值的标签转换模型,提高数据的价值。
以上的实施例只是本发明的一种较佳的方案,并非对本发明作任何形式上的限制,在不超出权利要求所记载的技术方案的前提下还有其它的变体及改型。

Claims (10)

1.一种保护隐私安全的数据融合方法,其特征在于,
包括:
建立数据接收节点、若干个数据存储节点、标签模型接收节点和调用监听节点;
数据源方将原始的数据提交给数据接收节点,数据接收节点提取原始的数据的哈希值并上传区块链存储;
标签模型接收节点接收原始的数据配套的标签转换模型,所述标签转换模型将原始的数据的数值转换为标签值,所述标签模型接收节点将原始的数据转换为标签数据;
数据接收节点将数据分为若干个子数据,将若干个子数据分配给若干个数据存储节点加密存储;
所述标签模型接收节点将标签数据分为若干个子数据,将若干个子数据分配给若干个数据存储节点加密存储;
所述调用监听节点接收到标签数据调用请求时,验证调用格式后将调用请求发送给数据源方请求授权,数据源方授权后,与若干个数据存储节点通信恢复标签数据,将标签数据提供给调用请求者;
所述调用监听节点接收到原始的数据调用请求时,验证调用请求者是否为数据源方,若是,则与若干个数据存储节点通信恢复原始的数据,若否,则不做操作。
2.根据权利要求1所述的一种保护隐私安全的数据融合方法,其特征在于,
数据源方提交原始的数据后,所述数据接收节点执行机选标签模型,所述机选标签模型执行以下步骤:
读取原始的数据的数值型字段和标签型字段,
对每个数值型字段执行:
将数值型字段的取值按升序排列,获得数值型字段取值的端值,获得端值差;
以端值差的K分之一为区间长度,将数值型字段的取值区间划分为K个区间,统计落入每个区间内的取值数量;
以区间序号为自变量,区间内取值的数量为函数值,拟合出第一函数;
计算第一函数的一阶导数,将一阶导数的绝对值大于预设值的部分舍弃;
在被部分舍弃的第一函数基础上,再次拟合获得第二函数;
获得第二函数一阶导数取值取值为0的点,记为划分点;
划分点所在区间的中值为最终划分点,将原始的数据按若干个划分点划分区间,以原始的数据落入的区间的序号,作为标签值,完成数值型数据的标签化;
对每个标签型字段执行:
统计每个标签型字段的取值,为每个取值使用序号代替;
将标签型字段取值替换为序号,作为标签值;
在预设的时长内,若所述标签模型接收节点未收到数据源方对应的标签转换模型,则将机选标签模型的结果作为标签数据,直到所述标签模型接收节点收到数据源方提供的标签转换模型。
3.根据权利要求1或2所述的一种保护隐私安全的数据融合方法,其特征在于,
将数据分为若干个子数据,将若干个子数据分配给若干个数据存储节点加密存储的方法,包括以下步骤:
将原始的数据中的数据行复制若干个副本,副本的数量与数据存储节点数量匹配;
罗列原始的数据中的数值型字段,为每个数值型字段执行:
将数值型字段的取值拆分为若干个加数,加数的数量与数据存储节点数量匹配;
将若干个加数分配给若干个副本;
罗列原始的数据中的标签型字段,为每个标签型字段执行;
为标签型字段随机生成一个混淆标签,将真实标签分配给一个副本,其余副本则存储混淆标签,所述混淆标签取值落入真实标签取值范围内。
4.根据权利要求3所述的一种保护隐私安全的数据融合方法,其特征在于,
还为每个数值型字段执行:
在副本中为每个数值型字段选取一个整数M值,M∈[1,Ma],Ma为预设最大值;
计算数值型字段的取值的M次方值;
计算数值型字段取值的哈希值,截取哈希值的末尾若干位作为特征值,选择一个副本存储特征值;
将数值型字段取值的M次方值分别拆分为若干个加数,加数的数量与剩余的副本数量匹配;
将若干个加数分配给剩余的若干个副本存储;
恢复原始的数据时,获得若干个副本的加数,求和后遍历[1,Ma]倒推原始的取值,直到找到与特征值匹配的取值,若存在多个倒推值的哈希值末尾若干个取值与特征值相同,则使用存储在区块链的原始的数据的哈希值进行验证,获得原始的取值。
5.根据权利要求3所述的一种保护隐私安全的数据融合方法,其特征在于,
还为每个数值型字段执行:
在副本中为每个数值型字段建立2至M次方分量字段;
计算数值型字段的取值的2至M次方值;
将数值型字段取值的1次方至M次方值分别拆分为若干个加数,加数的数量与副本数量匹配;
将数值型字段取值的1次方至M次方值的若干个加数分别分配给若干个副本存储。
6.根据权利要求5所述的一种保护隐私安全的数据融合方法,其特征在于,
所述调用监听节点接收到原始的数据调用请求时,验证调用请求者是否为数据源方,若否,则通知请求者提供数据处理模型,所述数据处理模型的输入为原始的数据,输出为标签值;
所述调用监听节点验证所述数据处理模型的每个输出,所涉及到的输入字段,若存在某个输出仅涉及一个输入字段,则拒绝该数据处理模型;
所述调用监听节点收到数据源方的授权后,复原原始的数据,并将复原的数据存储在调用监听节点上,代入所述数据处理模型;
将数据处理模型的输出发送给请求者,而后删除复原的原始的数据。
7.根据权利要求6所述的一种保护隐私安全的数据融合方法,其特征在于,
所述调用监听节点验证所述数据处理模型的对原始的数值型数据的第一步处理是否为函数计算,若是则进一步验证所述函数是否为一元函数,若是则进一步验证所述函数进行泰勒展开后是否为自变量1至N次方的加权和与误差项的和;
若是,则不复原原始数据,将所述函数泰勒展开后前M项的权系数发送给每个数据存储节点;
所述数据存储节点将所存储在1至M次方加数使用权系数,计算加权和,将加权和发送给所述调用监听节点;
所述调用监听节点汇集全部数据存储节点发送的加权和后,再次求和,作为函数的输出,代入所述数据处理模型继续计算。
8.根据权利要求7所述的一种保护隐私安全的数据融合方法,其特征在于,
若所述调用监听节点将所述函数泰勒展开后第M项的权系数设为0;
而后将所述函数泰勒展开后前M项的权系数发送给每个数据存储节点;
再次获得全部数据存储节点发送的加权和,并求和;
两次求和的差值即为第M项的值,计算第M项的取绝对值占函数的输出的绝对值的比重,若比重超过预设阈值,则丢弃全部加权和,通知数据存储节点发送加数值,并复原原始的数据,重新计算函数的值。
9.根据权利要求1或2所述的一种保护隐私安全的数据融合方法,其特征在于,
所述调用监听节点接收调用请求者提交的标签需求;
所述数据接收节点接收数据源方提交的原始的数据时,同时接收数据源方提交的数据分类标识;
所述标签模型接收节点统计同类数据的标签转换模型的输出标签,所述同类数据指数据分类标识相同的数据;
汇集同类数据的输出标签和标签需求,并构建标签方案投票,所述标签方案为同类数据的标签转换模型的输出标签集合,将获票最高的前若干个标签方案,作为标准标签方案;
将标准标签方案发送给后续提交同类数据的数据源方,由数据源方制定输出标签包含标准标签方案的标签转换模型。
10.根据权利要求1或2所述的一种保护隐私安全的数据融合方法,其特征在于,
将标签数据分为若干个子数据的方法包括:
为每个标签数据的数据行分配唯一标识;
将标签数据的数据行转换为二进制流数据;
将二进制流数据截断为若干个子数据,子数据的数量与数据存储节点匹配,为每个子数据关联标签数据的唯一标识;
若干个子数据分配给若干个数据存储节点。
CN202110855638.3A 2021-07-28 2021-07-28 一种保护隐私安全的数据融合方法 Active CN113536354B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110855638.3A CN113536354B (zh) 2021-07-28 2021-07-28 一种保护隐私安全的数据融合方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110855638.3A CN113536354B (zh) 2021-07-28 2021-07-28 一种保护隐私安全的数据融合方法

Publications (2)

Publication Number Publication Date
CN113536354A true CN113536354A (zh) 2021-10-22
CN113536354B CN113536354B (zh) 2023-08-22

Family

ID=78089348

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110855638.3A Active CN113536354B (zh) 2021-07-28 2021-07-28 一种保护隐私安全的数据融合方法

Country Status (1)

Country Link
CN (1) CN113536354B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030220882A1 (en) * 2002-05-02 2003-11-27 Shieldip, Inc. Method and apparatus for protecting information and privacy
CN108509806A (zh) * 2018-04-09 2018-09-07 北京东方网润科技有限公司 一种具有隐私保护的大数据精准营销系统及设备
US10459990B1 (en) * 2018-12-27 2019-10-29 Silver Rocket Data Technology (Shanghai) Co., Ltd Data processing method and device, medium and terminal thereof
CN111951074A (zh) * 2020-08-05 2020-11-17 珠海格力电器股份有限公司 基于联盟链的共享设备系统
CN112989428A (zh) * 2021-05-08 2021-06-18 浙江数秦科技有限公司 一种联盟链数据快速加密存储方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030220882A1 (en) * 2002-05-02 2003-11-27 Shieldip, Inc. Method and apparatus for protecting information and privacy
CN108509806A (zh) * 2018-04-09 2018-09-07 北京东方网润科技有限公司 一种具有隐私保护的大数据精准营销系统及设备
US10459990B1 (en) * 2018-12-27 2019-10-29 Silver Rocket Data Technology (Shanghai) Co., Ltd Data processing method and device, medium and terminal thereof
CN111951074A (zh) * 2020-08-05 2020-11-17 珠海格力电器股份有限公司 基于联盟链的共享设备系统
CN112989428A (zh) * 2021-05-08 2021-06-18 浙江数秦科技有限公司 一种联盟链数据快速加密存储方法

Also Published As

Publication number Publication date
CN113536354B (zh) 2023-08-22

Similar Documents

Publication Publication Date Title
US5822533A (en) Information tracing system and information tracing method
CN104142984B (zh) 一种基于粗细粒度的视频指纹检索方法
CN111782620B (zh) 一种信用链路自动跟踪平台及其方法
US9971904B2 (en) Method and system for range search on encrypted data
CN111445212B (zh) 基于大数据的企业人才信息管理系统
CN112632129A (zh) 一种码流数据管理方法、装置及存储介质
CN113364813B (zh) 一种轨道交通能量回馈数据的压缩传输方法及系统
CN116205293A (zh) 基于多方绿电聚合交易系统的数据处理方法及装置
CN115049070A (zh) 联邦特征工程数据的筛选方法及装置、设备及存储介质
CN114866485A (zh) 一种基于聚合熵的网络流量分类方法及分类系统
CN115242371A (zh) 差分隐私保护的集合交集及其基数计算方法、装置及系统
CN113255002A (zh) 一种保护多方隐私的联邦k近邻查询方法
CN115576998A (zh) 一种基于多维信息融合的配电网数据整合方法及系统
CN115113821A (zh) 基于量子加密的5g大数据算力服务系统
CN113536354A (zh) 一种保护隐私安全的数据融合方法
CN117556437A (zh) 用户访问权限管控方法、系统、装置、设备及存储介质
CN112711683A (zh) 数据比对方法、装置及计算机设备
CN114329127B (zh) 特征分箱方法、装置及存储介质
CN109034938B (zh) 信息快速筛选匹配方法、装置、电子设备及存储介质
CN114564676B (zh) 一种提高区块链网络数据传输效率的方法
CN103108151A (zh) 视频监控的方法和系统
Fan et al. Hoppingsketch: More accurate temporal membership query and frequency query
CN113704816A (zh) 一种数据脱敏的方法、装置及存储介质
CN111091283A (zh) 基于贝叶斯网络的电力数据指纹评估方法
CN112559854A (zh) 一种分类方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant