CN114817970A - 基于数据来源保护的数据分析方法、系统及相关设备 - Google Patents

基于数据来源保护的数据分析方法、系统及相关设备 Download PDF

Info

Publication number
CN114817970A
CN114817970A CN202210754606.9A CN202210754606A CN114817970A CN 114817970 A CN114817970 A CN 114817970A CN 202210754606 A CN202210754606 A CN 202210754606A CN 114817970 A CN114817970 A CN 114817970A
Authority
CN
China
Prior art keywords
data
party
statistical
vector
parties
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210754606.9A
Other languages
English (en)
Other versions
CN114817970B (zh
Inventor
冯新宇
王湾湾
何浩
姚明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Dongjian Intelligent Technology Co ltd
Original Assignee
Shenzhen Dongjian Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Dongjian Intelligent Technology Co ltd filed Critical Shenzhen Dongjian Intelligent Technology Co ltd
Priority to CN202210754606.9A priority Critical patent/CN114817970B/zh
Publication of CN114817970A publication Critical patent/CN114817970A/zh
Application granted granted Critical
Publication of CN114817970B publication Critical patent/CN114817970B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2211/00Indexing scheme relating to details of data-processing equipment not covered by groups G06F3/00 - G06F13/00
    • G06F2211/007Encryption, En-/decode, En-/decipher, En-/decypher, Scramble, (De-)compress
    • G06F2211/008Public Key, Asymmetric Key, Asymmetric Encryption

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种基于数据来源保护的数据分析方法、系统及相关设备,应用于多方计算系统,该多方计算系统包括统计方和M个数据方,每一数据方对应一个数据源,M为大于1的整数,方法包括:通过统计方生成同态加密的公钥和私钥,将公钥发送给各个数据方;通过统计方获取第一零向量,并对第一零向量进行同态加密,得到第二零向量;通过M个数据方根据第二零向量、M个数据方的数据源和公钥构造目标数据统计向量;通过统计方根据私钥对目标数据统计向量进行解密,得到解密数据;对解密数据进行统计分析,得到分析结果。采用本申请实施例可以基于隐私保护,实现多方数据源的数据统计分析。

Description

基于数据来源保护的数据分析方法、系统及相关设备
技术领域
本申请涉及数据加密技术领域和数据处理技术领域,具体涉及一种基于数据来源保护的数据分析方法、系统及相关设备。
背景技术
随着人工智能的发展,数据的价值越来越受到重视。数据统计也成为研究的重点,目前本地频次统计应用较多,本地频次统计的方法较为单一,一般为对数据进行遍历,并直接统计每个数据的出现次数,最终输出所有非重复数据的频次值,但是,由于不同数据源的数据往往存在着很大的互补性,因此,如何隐私保护,实现多方数据源的数据统计分析的问题亟待解决。
发明内容
本申请实施例提供了一种基于数据来源保护的数据分析方法、系统及相关设备,可以基于隐私保护,实现多方数据源的数据统计分析。
第一方面,本申请实施例提供一种基于数据来源保护的数据分析方法,应用于多方计算系统,所述多方计算系统包括统计方和M个数据方,每一数据方对应一个数据源,M为大于1的整数,所述方法包括:
通过所述统计方生成同态加密的公钥和私钥,将所述公钥发送给各个数据方;
通过所述统计方获取第一零向量,并对所述第一零向量进行同态加密,得到第二零向量;
通过所述M个数据方根据所述第二零向量、所述M个数据方的数据源和所述公钥构造目标数据统计向量;
通过所述统计方根据所述私钥对所述目标数据统计向量进行解密,得到解密数据;
对所述解密数据进行统计分析,得到分析结果。
第二方面,本申请实施例提供了一种多方计算系统,所述多方计算系统包括统计方和M个数据方,每一数据方对应一个数据源,M为大于1的整数,所述方法包括:
所述统计方,用于生成同态加密的公钥和私钥,将所述公钥发送给各个数据方;以及获取第一零向量,并对所述第一零向量进行同态加密,得到第二零向量;
所述M个数据方,用于根据所述第二零向量、所述M个数据方的数据源和所述公钥构造目标数据统计向量;
所述统计方,用于根据所述私钥对所述目标数据统计向量进行解密,得到解密数据;以及对所述解密数据进行统计分析,得到分析结果。
第三方面,本申请实施例提供一种电子设备,包括处理器、存储器、通信接口以及一个或多个程序,其中,上述一个或多个程序被存储在上述存储器中,并且被配置由上述处理器执行,上述程序包括用于执行本申请实施例第一方面中的步骤的指令。
第四方面,本申请实施例提供了一种计算机可读存储介质,其中,上述计算机可读存储介质存储用于电子数据交换的计算机程序,其中,上述计算机程序使得计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。
第五方面,本申请实施例提供了一种计算机程序产品,其中,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。
实施本申请实施例,具备如下有益效果:
可以看出,本申请实施例中所描述的基于数据来源保护的数据分析方法、系统及相关设备,应用于多方计算系统,多方计算系统包括统计方和M个数据方,每一数据方对应一个数据源,M为大于1的整数,通过统计方生成同态加密的公钥和私钥,将公钥发送给各个数据方;通过统计方获取第一零向量,并对第一零向量进行同态加密,得到第二零向量;通过M个数据方根据第二零向量、M个数据方的数据源和公钥构造目标数据统计向量;通过统计方根据私钥对目标数据统计向量进行解密,得到解密数据;对解密数据进行统计分析,得到分析结果,进而,引入全同态加密技术,可以把数据映射为可以参与计算的整型值,每个数据源依次与统计方生成的经过同态加密的零向量进行运算,从而嵌入各自的本地数据,最终由统计方对同态加密密文进行解密并完成频次统计,在此过程中,统计方无法知晓数据的具体来源,只能知道每个数据的出现次数,可以基于隐私保护,实现多方数据源的数据统计分析。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种用于实现基于数据来源保护的数据分析方法的多方计算系统的架构示意图;
图2是本申请实施例提供的一种基于数据来源保护的数据分析方法的流程示意图;
图3是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本申请实施例所描述计算节点可以为电子设备,电子设备可以包括智能手机(如Android手机、iOS手机、Windows Phone手机等)、平板电脑、掌上电脑、行车记录仪、服务器、笔记本电脑、移动互联网设备(MID,Mobile Internet Devices)或穿戴式设备(如智能手表、蓝牙耳机)等,上述仅是举例,而非穷举,包含但不限于上述电子设备,该电子设备也可以为云服务器,或者,该电子设备也可以为计算机集群。
本申请实施例中,本地频次统计:一般为对数据进行遍历,并直接统计每个数据的出现次数,最终输出所有非重复数据的频次值。多方联合频次统计是指数据来自多个数据源,统计单一数据在所有数据源中总的出现次数。由于涉及到多个数据源,为了保护数据隐私,各个数据源往往不希望暴露数据的来源信息(即每个数据源都不希望其他人知道自己拥有某一条数据)。
下面对本申请实施例进行详细介绍。
请参阅图1,图1是本申请实施例提供的一种用于实现基于数据来源保护的数据分析方法的多方计算系统的架构示意图,如图所示,本多方计算系统可以包括统计方和M个数据方,每一数据方对应一个数据源,M为大于1的整数,M个数据方可以分别为:数据方1、数据方2、…、数据方M。
具体实现中,统计方用于实现提供公钥、私钥,以及提供零向量,和实现数据统计功能。数据方用于提供数据。不同的数据方对应不同的数据源,每一数据源中可以包括多条本地数据,本地数据可以包括任意需要统计的数据,例如,企业数据、学校数据、日常生活数据等等,在此不做限定。本地数据可以包括以下至少一种:身份证号、银行卡号、姓名、年龄、职业、公司名称等等,在此不做限定。
基于图1所描述的多方计算系统,可以实现如下功能:
所述统计方,用于生成同态加密的公钥和私钥,将所述公钥发送给各个数据方;以及获取第一零向量,并对所述第一零向量进行同态加密,得到第二零向量;
所述M个数据方,用于根据所述第二零向量、所述M个数据方的数据源和所述公钥构造目标数据统计向量;
所述统计方,用于根据所述私钥对所述目标数据统计向量进行解密,得到解密数据;以及对所述解密数据进行统计分析,得到分析结果。
可选的,在所述根据所述第二零向量、所述M个数据方的数据源和所述公钥构造目标数据统计向量方面,所述M个数据方具体用于:
通过所述M个数据方的每一数据方根据该数据方的数据源生成与其本地数据量等量的随机序列,得到M个随机序列;
通过所述M个数据方根据各自的随机序列以及其对应的数据源和所述公钥构造本地数据统计向量,得到M个本地数据统计向量;
通过所述M个数据方根据所述第二零向量和所述M个本地数据统计向量构造所述目标数据统计向量。
可选的,在所述M为3时,所述M个数据方包括第一数据方、第二数据方和第三数据方,在所述根据所述第二零向量和所述M个本地数据统计向量构造所述目标数据统计向量方面,包括:
通过所述第一数据方根据所述第二零向量和所述第一数据方对应的本地数据统计向量构造第一数据统计向量,再将所述第一数据统计向量发给所述第二数据方;
通过所述第二数据方根据所述第一数据统计向量和所述第二数据方对应的本地数据统计向量构造第二数据统计向量,再将所述第二数据统计向量发给所述第三数据方;
通过所述第三数据方根据所述第二数据统计向量和所述第三数据方对应的本地数据统计向量构造所述目标数据统计向量。
可选的,所述通过所述M个数据方根据各自的随机序列以及其对应的数据源和所述公钥构造本地数据统计向量,得到M个本地数据统计向量,包括:
通过目标数据方根据所述公钥对所述目标数据方对应的数据源中的本地数据进行加密,得到多个加密数据,所述目标数据方为所述M个数据方中的任一数据方;
根据所述目标数据方的随机序列和所述多个加密数据构造本地数据统计向量。
请参阅图2,图2是本申请实施例提供的一种基于数据来源保护的数据分析方法的流程示意图,应用于图1所示的多方计算系统,所述多方计算系统包括统计方和M个数据方,每一数据方对应一个数据源,M为大于1的整数,如图所示,本基于数据来源保护的数据分析方法包括:
201通过所述统计方生成同态加密的公钥和私钥,将所述公钥发送给各个数据方。
具体实现中,统计方可以生成同态加密公私钥
Figure 921536DEST_PATH_IMAGE001
,其中,
Figure 528098DEST_PATH_IMAGE002
为公钥,
Figure 459145DEST_PATH_IMAGE003
为私钥。私钥自己保留,而公钥则可以发送给各个数据方。
202、通过所述统计方获取第一零向量,并对所述第一零向量进行同态加密,得到第二零向量。
具体实现中,可以通过统计方获取第一零向量,第一零向量可以表示为
Figure 213474DEST_PATH_IMAGE004
n为大于1的整数,实际应用中,n应当大于需要统计的数据量的条数,例如,3个数据方,共有1000条数据,则n应该取大于或等于1000。进而,可以按照如下公式完成加密:
Figure 888169DEST_PATH_IMAGE005
其中,Encrypt表示加密运算,对第一零向量
Figure 411554DEST_PATH_IMAGE006
进行同态加密,得到第二零向量
Figure 277617DEST_PATH_IMAGE007
203、通过所述M个数据方根据所述第二零向量、所述M个数据方的数据源和所述公钥构造目标数据统计向量。
其中,本申请实施例中,通过公钥对各数据方的数据源的数据进行加密,通过第二零向量将各个加密后的数据融合,得到目标数据统计向量。
本申请实施例中,引入了单指令多数据(Single Instruction Multiple Data,SIMD)技术,根据M个数据方根据第二零向量、M个数据方的数据源和公钥构造目标数据统计向量,在同一个同态加密密文中打包多份待统计数据,从而大大降低了通信开销,提升了计算的吞吐量。
总而言之,本申请实施例中,可以针对多方联合频次统计场景,在保护数据来源的前提下实现高效的数据频次统计本申请实施例中引入了全同态加密及其单指令多数据编码技术,主要解决了现有隐私保护计算过程中效率低以及通信复杂度高的问题。
可选的,上述步骤203,通过所述M个数据方根据所述第二零向量、所述M个数据方的数据源和所述公钥构造目标数据统计向量,可以包括如下步骤:
31、通过所述M个数据方的每一数据方根据该数据方的数据源生成与其本地数据量等量的随机序列,得到M个随机序列;
32、通过所述M个数据方根据各自的随机序列以及其对应的数据源和所述公钥构造本地数据统计向量,得到M个本地数据统计向量;
33、通过所述M个数据方根据所述第二零向量和所述M个本地数据统计向量构造所述目标数据统计向量。
具体实现中,可以通过M个数据方的每一数据方根据该数据方的数据源生成与其本地数据量等量的随机序列,得到M个随机序列,再通过M个数据方根据各自的随机序列以及其对应的数据源和公钥构造本地数据统计向量,得到M个本地数据统计向量,本地数据统计向量中的向量维数与数据量相关,即一个数据源中有几条数据,则其向量维数为几。
进而,可以通过M个数据方根据第二零向量和M个本地数据统计向量构造目标数据统计向量。
可选的,在所述M为3时,所述M个数据方包括第一数据方、第二数据方和第三数据方,上述步骤33,根据所述第二零向量和所述M个本地数据统计向量构造所述目标数据统计向量,可以包括如下步骤:
331、通过所述第一数据方根据所述第二零向量和所述第一数据方对应的本地数据统计向量构造第一数据统计向量,再将所述第一数据统计向量发给所述第二数据方;
332、通过所述第二数据方根据所述第一数据统计向量和所述第二数据方对应的本地数据统计向量构造第二数据统计向量,再将所述第二数据统计向量发给所述第三数据方;
333、通过所述第三数据方根据所述第二数据统计向量和所述第三数据方对应的本地数据统计向量构造所述目标数据统计向量。
具体实现中,第一数据方A、第二数据方B、第三数据方C,则第一数据方的本地数据统计向量可以表示为
Figure 519242DEST_PATH_IMAGE008
,可以按照如下公式实现通过第一数据方根据第二零向量和第一数据方对应的本地数据统计向量构造第一数据统计向量:
Figure 732049DEST_PATH_IMAGE009
其中,
Figure 375520DEST_PATH_IMAGE010
为第一数据统计向量。
接着,可以将第一数据统计向量
Figure 648369DEST_PATH_IMAGE010
发给第二数据方,其中,第二数据方的本地数据统计向量可以表示为
Figure 377291DEST_PATH_IMAGE011
,可以按照如下公式实现通过第二数据方根据第一数据统计向量和第二数据方对应的本地数据统计向量构造第二数据统计向量:
Figure 393789DEST_PATH_IMAGE012
其中,
Figure 891766DEST_PATH_IMAGE013
为第二数据统计向量。
接着,可以将第二数据统计向量
Figure 99631DEST_PATH_IMAGE013
发给第三数据方,其中,第三数据方的本地数据统计向量可以表示为
Figure 50270DEST_PATH_IMAGE014
,可以按照如下公式实现通过第三数据方根据第二数据统计向量和第三数据方对应的本地数据统计向量构造目标数据统计向量:
Figure 745824DEST_PATH_IMAGE015
其中,
Figure 98308DEST_PATH_IMAGE016
为目标数据统计向量。
可选的,上述步骤31,通过所述M个数据方的每一数据方根据该数据方的数据源生成与其本地数据量等量的随机序列,得到M个随机序列,可以按照如下方式实施:
通过所述M个数据方的每一数据方,基于随机置换的数据编码技术,根据该数据方的数据源生成与其本地数据量等量的随机序列,得到M个随机序列。
具体实现中,每一数据方,则可以基于随机置换的数据编码技术,根据该数据方的数据源生成与其本地数据量等量的随机序列,得到M个随机序列。
例如,以第一数据方A为例,其可以基于随机置换的数据编码技术,生成与本地数据量
Figure 500512DEST_PATH_IMAGE017
等量的随机序列
Figure 876130DEST_PATH_IMAGE018
本申请实施例中,引入基于随机置换的数据编码技术,每个数据源通过随机置换实现随机选取同态加密的密文向量的对应位置并嵌入本地数据,保证了数据位置信息对于统计方的不可区分性,从而保证数据来源的隐私性。
可选的,上述步骤32,通过所述M个数据方根据各自的随机序列以及其对应的数据源和所述公钥构造本地数据统计向量,得到M个本地数据统计向量,可以包括如下步骤:
321、通过目标数据方根据所述公钥对所述目标数据方对应的数据源中的本地数据进行加密,得到多个加密数据,所述目标数据方为所述M个数据方中的任一数据方;
322、根据所述目标数据方的随机序列和所述多个加密数据构造本地数据统计向量。
其中,以目标数据方为例,目标数据方为M个数据方中的任一数据方,可以通过目标数据方根据公钥对目标数据方对应的数据源中的本地数据进行加密,得到多个加密数据,目标数据方为M个数据方中的任一数据方,再根据目标数据方的随机序列和多个加密数据构造本地数据统计向量,例如,以第一数据方A为例,按照随机序列
Figure 296747DEST_PATH_IMAGE019
的对应位置,嵌入本地数据并构造向量:
Figure 707000DEST_PATH_IMAGE020
204、通过所述统计方根据所述私钥对所述目标数据统计向量进行解密,得到解密数据。
具体实现中,通过统计方可以根据私钥对目标数据统计向量进行解密,得到解密数据,该解密数据可以为一个向量。
205、对所述解密数据进行统计分析,得到分析结果。
具体实现中,本申请实施例,可以对解密数据进行统计分析,例如,统计数据量,数据分布,得到分析结果,该分析结果不知道具体的数据来源,但可以看出数据分布情况或者数据总量。
本申请实施例中,引入全同态加密技术,首先把数据映射为可以参与计算的整型值,每个数据源依次与统计方生成的经过同态加密的零向量进行运算,从而嵌入各自的本地数据,最终由统计方对同态加密密文进行解密并完成频次统计,在此过程中,统计方无法知晓数据的具体来源,只能知道每个数据的出现次数。
举例说明下,以针对身份信息id的频次统计为例,参与方可以包括统计方和数据方,其中,统计方只有一方,负责完成数据统计,数据方可以有多个,如A、B、C三个数据方为例,每一数据方对应一个数据源,数据源提供各自的数据协助统计方完成统计。
具体步骤如下:
1、统计方生成同态加密的公私钥
Figure 820449DEST_PATH_IMAGE001
,并发送公钥
Figure 683363DEST_PATH_IMAGE002
给每个数据源。
2、统计方选取0向量,即
Figure 343889DEST_PATH_IMAGE006
,并可以按照如下公式进行同态加密,具体如下:
Figure 405386DEST_PATH_IMAGE005
3、统计方发送同态加密后的0向量,即
Figure 361841DEST_PATH_IMAGE007
给数据方A。
4、数据方A生成与本地数据量
Figure 774368DEST_PATH_IMAGE021
等量的随机序列
Figure 5629DEST_PATH_IMAGE022
,按照
Figure 124895DEST_PATH_IMAGE019
的对应位置,嵌入本地数据并构造本地数据统计向量:
Figure 314567DEST_PATH_IMAGE023
5、数据方A计算第一数据统计向量,具体如下:
Figure 650609DEST_PATH_IMAGE024
6、数据方A发送本地数据统计向量
Figure 216719DEST_PATH_IMAGE010
和随机序列
Figure 456071DEST_PATH_IMAGE019
给数据方B。
7、数据方B生成与本地数据量
Figure 488749DEST_PATH_IMAGE025
等量的随机序列
Figure 875868DEST_PATH_IMAGE026
,按照
Figure 448931DEST_PATH_IMAGE027
的对应位置,嵌入本地数据并构造本地数据统计向量:
Figure 775745DEST_PATH_IMAGE028
8、数据方B计算第二数据统计向量,具体如下:
Figure 572800DEST_PATH_IMAGE029
9、数据方B发送第二数据统计向量
Figure 853740DEST_PATH_IMAGE013
,随机序列
Figure 27232DEST_PATH_IMAGE019
,随机序列
Figure 241176DEST_PATH_IMAGE027
给数据方C。
10、数据方C生成与本地数据量
Figure 881236DEST_PATH_IMAGE030
等量的随机序列
Figure 977368DEST_PATH_IMAGE031
,按照
Figure 390769DEST_PATH_IMAGE032
的对应位置,嵌入本地数据并构造本地数据统计向量:
Figure 255957DEST_PATH_IMAGE033
11、数据方C计算目标数据统计向量,具体如下:
Figure 332497DEST_PATH_IMAGE034
12、数据方C发送目标数据统计向量
Figure 588029DEST_PATH_IMAGE016
给统计方
13、统计方执行解密操作:
Figure 41008DEST_PATH_IMAGE035
其中,Decrypt表示解密运算。
14、统计方对解密后得到的数据进行统计,即统计每个id的出现次数,并得到统计结果,例如,可以得到如下的统计结果:
Figure 196920DEST_PATH_IMAGE036
本申请实施例中,引入全同态加密技术,嵌入各个数据源的本地数据,保护数据的来源信息,引入基于随机置换的数据编码技术,保证数据位置信息对于统计方的不可区分性,从而保证数据来源的隐私性,引入了单指令多数据技术,在同一个同态加密密文中打包多份待统计数据,从而大大降低了通信开销,提升了计算的吞吐量。
可以看出,本申请实施例中所描述的基于数据来源保护的数据分析方法,应用于多方计算系统,多方计算系统包括统计方和M个数据方,每一数据方对应一个数据源,M为大于1的整数,通过统计方生成同态加密的公钥和私钥,将公钥发送给各个数据方;通过统计方获取第一零向量,并对第一零向量进行同态加密,得到第二零向量;通过M个数据方根据第二零向量、M个数据方的数据源和公钥构造目标数据统计向量;通过统计方根据私钥对目标数据统计向量进行解密,得到解密数据;对解密数据进行统计分析,得到分析结果,进而,引入全同态加密技术,可以把数据映射为可以参与计算的整型值,每个数据源依次与统计方生成的经过同态加密的零向量进行运算,从而嵌入各自的本地数据,最终由统计方对同态加密密文进行解密并完成频次统计,在此过程中,统计方无法知晓数据的具体来源,只能知道每个数据的出现次数,可以基于隐私保护,实现多方数据源的数据统计分析。
与上述实施例一致地,请参阅图3,图3是本申请实施例提供的一种电子设备的结构示意图,如图所示,该电子设备包括处理器、存储器、通信接口以及一个或多个程序,应用于多方计算系统,所述多方计算系统包括统计方和M个数据方,每一数据方对应一个数据源,M为大于1的整数,上述一个或多个程序被存储在上述存储器中,并且被配置由上述处理器执行,本申请实施例中,上述程序包括用于执行以下步骤的指令:
通过所述统计方生成同态加密的公钥和私钥,将所述公钥发送给各个数据方;
通过所述统计方获取第一零向量,并对所述第一零向量进行同态加密,得到第二零向量;
通过所述M个数据方根据所述第二零向量、所述M个数据方的数据源和所述公钥构造目标数据统计向量;
通过所述统计方根据所述私钥对所述目标数据统计向量进行解密,得到解密数据;
对所述解密数据进行统计分析,得到分析结果。
可选的,在所述通过所述M个数据方根据所述第二零向量、所述M个数据方的数据源和所述公钥构造目标数据统计向量方面,上述程序包括用于执行以下步骤的指令:
通过所述M个数据方的每一数据方根据该数据方的数据源生成与其本地数据量等量的随机序列,得到M个随机序列;
通过所述M个数据方根据各自的随机序列以及其对应的数据源和所述公钥构造本地数据统计向量,得到M个本地数据统计向量;
通过所述M个数据方根据所述第二零向量和所述M个本地数据统计向量构造所述目标数据统计向量。
可选的,在所述M为3时,在所述M个数据方包括第一数据方、第二数据方和第三数据方,所述根据所述第二零向量和所述M个本地数据统计向量构造所述目标数据统计向量方面,上述程序包括用于执行以下步骤的指令:
通过所述第一数据方根据所述第二零向量和所述第一数据方对应的本地数据统计向量构造第一数据统计向量,再将所述第一数据统计向量发给所述第二数据方;
通过所述第二数据方根据所述第一数据统计向量和所述第二数据方对应的本地数据统计向量构造第二数据统计向量,再将所述第二数据统计向量发给所述第三数据方;
通过所述第三数据方根据所述第二数据统计向量和所述第三数据方对应的本地数据统计向量构造所述目标数据统计向量。
可选的,在所述通过所述M个数据方的每一数据方根据该数据方的数据源生成与其本地数据量等量的随机序列,得到M个随机序列方面,上述程序包括用于执行以下步骤的指令:
通过所述M个数据方的每一数据方,基于随机置换的数据编码技术,根据该数据方的数据源生成与其本地数据量等量的随机序列,得到M个随机序列。
可选的,在所述通过所述M个数据方根据各自的随机序列以及其对应的数据源和所述公钥构造本地数据统计向量,得到M个本地数据统计向量方面,上述程序包括用于执行以下步骤的指令:
通过目标数据方根据所述公钥对所述目标数据方对应的数据源中的本地数据进行加密,得到多个加密数据,所述目标数据方为所述M个数据方中的任一数据方;
根据所述目标数据方的随机序列和所述多个加密数据构造本地数据统计向量。
可以看出,本申请实施例中所描述的电子设备,应用于多方计算系统,多方计算系统包括统计方和M个数据方,每一数据方对应一个数据源,M为大于1的整数,通过统计方生成同态加密的公钥和私钥,将公钥发送给各个数据方;通过统计方获取第一零向量,并对第一零向量进行同态加密,得到第二零向量;通过M个数据方根据第二零向量、M个数据方的数据源和公钥构造目标数据统计向量;通过统计方根据私钥对目标数据统计向量进行解密,得到解密数据;对解密数据进行统计分析,得到分析结果,进而,引入全同态加密技术,可以把数据映射为可以参与计算的整型值,每个数据源依次与统计方生成的经过同态加密的零向量进行运算,从而嵌入各自的本地数据,最终由统计方对同态加密密文进行解密并完成频次统计,在此过程中,统计方无法知晓数据的具体来源,只能知道每个数据的出现次数,可以基于隐私保护,实现多方数据源的数据统计分析。
本申请实施例还提供一种计算机存储介质,其中,该计算机存储介质存储用于电子数据交换的计算机程序,该计算机程序使得计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤,上述计算机包括电子设备。
本申请实施例还提供一种计算机程序产品,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。该计算机程序产品可以为一个软件安装包,上述计算机包括电子设备。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例上述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(英文:Read-Only Memory ,简称:ROM)、随机存取器(英文:Random Access Memory,简称:RAM)、磁盘或光盘等。
以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种基于数据来源保护的数据分析方法,其特征在于,应用于多方计算系统,所述多方计算系统包括统计方和M个数据方,每一数据方对应一个数据源,M为大于1的整数,所述方法包括:
通过所述统计方生成同态加密的公钥和私钥,将所述公钥发送给各个数据方;
通过所述统计方获取第一零向量,并对所述第一零向量进行同态加密,得到第二零向量;
通过所述M个数据方根据所述第二零向量、所述M个数据方的数据源和所述公钥构造目标数据统计向量;
通过所述统计方根据所述私钥对所述目标数据统计向量进行解密,得到解密数据;
对所述解密数据进行统计分析,得到分析结果。
2.根据权利要求1所述的方法,其特征在于,所述通过所述M个数据方根据所述第二零向量、所述M个数据方的数据源和所述公钥构造目标数据统计向量,包括:
通过所述M个数据方的每一数据方根据该数据方的数据源生成与其本地数据量等量的随机序列,得到M个随机序列;
通过所述M个数据方根据各自的随机序列以及其对应的数据源和所述公钥构造本地数据统计向量,得到M个本地数据统计向量;
通过所述M个数据方根据所述第二零向量和所述M个本地数据统计向量构造所述目标数据统计向量。
3.根据权利要求2所述的方法,其特征在于,在所述M为3时,所述M个数据方包括第一数据方、第二数据方和第三数据方,所述根据所述第二零向量和所述M个本地数据统计向量构造所述目标数据统计向量,包括:
通过所述第一数据方根据所述第二零向量和所述第一数据方对应的本地数据统计向量构造第一数据统计向量,再将所述第一数据统计向量发给所述第二数据方;
通过所述第二数据方根据所述第一数据统计向量和所述第二数据方对应的本地数据统计向量构造第二数据统计向量,再将所述第二数据统计向量发给所述第三数据方;
通过所述第三数据方根据所述第二数据统计向量和所述第三数据方对应的本地数据统计向量构造所述目标数据统计向量。
4.根据权利要求2所述的方法,其特征在于,所述通过所述M个数据方的每一数据方根据该数据方的数据源生成与其本地数据量等量的随机序列,得到M个随机序列,包括:
通过所述M个数据方的每一数据方,基于随机置换的数据编码技术,根据该数据方的数据源生成与其本地数据量等量的随机序列,得到M个随机序列。
5.根据权利要求2所述的方法,其特征在于,所述通过所述M个数据方根据各自的随机序列以及其对应的数据源和所述公钥构造本地数据统计向量,得到M个本地数据统计向量,包括:
通过目标数据方根据所述公钥对所述目标数据方对应的数据源中的本地数据进行加密,得到多个加密数据,所述目标数据方为所述M个数据方中的任一数据方;
根据所述目标数据方的随机序列和所述多个加密数据构造本地数据统计向量。
6.一种多方计算系统,其特征在于,所述多方计算系统包括统计方和M个数据方,每一数据方对应一个数据源,M为大于1的整数,其中,
所述统计方,用于生成同态加密的公钥和私钥,将所述公钥发送给各个数据方;以及获取第一零向量,并对所述第一零向量进行同态加密,得到第二零向量;
所述M个数据方,用于根据所述第二零向量、所述M个数据方的数据源和所述公钥构造目标数据统计向量;
所述统计方,用于根据所述私钥对所述目标数据统计向量进行解密,得到解密数据;以及对所述解密数据进行统计分析,得到分析结果。
7.根据权利要求6所述的系统,其特征在于,在所述根据所述第二零向量、所述M个数据方的数据源和所述公钥构造目标数据统计向量方面,所述M个数据方具体用于:
通过所述M个数据方的每一数据方根据该数据方的数据源生成与其本地数据量等量的随机序列,得到M个随机序列;
通过所述M个数据方根据各自的随机序列以及其对应的数据源和所述公钥构造本地数据统计向量,得到M个本地数据统计向量;
通过所述M个数据方根据所述第二零向量和所述M个本地数据统计向量构造所述目标数据统计向量。
8.根据权利要求7所述的系统,其特征在于,在所述M为3时,所述M个数据方包括第一数据方、第二数据方和第三数据方,在所述根据所述第二零向量和所述M个本地数据统计向量构造所述目标数据统计向量方面,包括:
通过所述第一数据方根据所述第二零向量和所述第一数据方对应的本地数据统计向量构造第一数据统计向量,再将所述第一数据统计向量发给所述第二数据方;
通过所述第二数据方根据所述第一数据统计向量和所述第二数据方对应的本地数据统计向量构造第二数据统计向量,再将所述第二数据统计向量发给所述第三数据方;
通过所述第三数据方根据所述第二数据统计向量和所述第三数据方对应的本地数据统计向量构造所述目标数据统计向量。
9.一种电子设备,其特征在于,包括处理器、存储器,所述存储器用于存储一个或多个程序,并且被配置由所述处理器执行,所述程序包括用于执行如权利要求1-5任一项所述的方法中的步骤的指令。
10.一种计算机可读存储介质,其特征在于,存储用于电子数据交换的计算机程序,其中,所述计算机程序使得计算机执行如权利要求1-5任一项所述的方法。
CN202210754606.9A 2022-06-30 2022-06-30 基于数据来源保护的数据分析方法、系统及相关设备 Active CN114817970B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210754606.9A CN114817970B (zh) 2022-06-30 2022-06-30 基于数据来源保护的数据分析方法、系统及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210754606.9A CN114817970B (zh) 2022-06-30 2022-06-30 基于数据来源保护的数据分析方法、系统及相关设备

Publications (2)

Publication Number Publication Date
CN114817970A true CN114817970A (zh) 2022-07-29
CN114817970B CN114817970B (zh) 2022-11-29

Family

ID=82522971

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210754606.9A Active CN114817970B (zh) 2022-06-30 2022-06-30 基于数据来源保护的数据分析方法、系统及相关设备

Country Status (1)

Country Link
CN (1) CN114817970B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018124513A (ja) * 2017-02-03 2018-08-09 Kddi株式会社 分類装置、分類方法及び分類プログラム
CN108768622A (zh) * 2018-03-30 2018-11-06 国网河南省电力公司新乡供电公司 一种云计算中矩阵行列式的安全外包计算加密方法
CN109787743A (zh) * 2019-01-17 2019-05-21 广西大学 一种基于矩阵运算的可验证的全同态加密方法
CN110147681A (zh) * 2019-04-02 2019-08-20 西安电子科技大学 一种支持灵活访问控制的隐私保护大数据处理方法及系统
CN110348231A (zh) * 2019-06-18 2019-10-18 阿里巴巴集团控股有限公司 实现隐私保护的数据同态加解密方法及装置
CN111611618A (zh) * 2017-10-31 2020-09-01 阿里巴巴集团控股有限公司 一种数据统计方法和装置
CN112989368A (zh) * 2021-02-07 2021-06-18 支付宝(杭州)信息技术有限公司 多方联合进行隐私数据处理的方法及装置
CN114640436A (zh) * 2022-02-10 2022-06-17 杭州博盾习言科技有限公司 一种基于隐私保护的分组统计参数计算方法、装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018124513A (ja) * 2017-02-03 2018-08-09 Kddi株式会社 分類装置、分類方法及び分類プログラム
CN111611618A (zh) * 2017-10-31 2020-09-01 阿里巴巴集团控股有限公司 一种数据统计方法和装置
CN108768622A (zh) * 2018-03-30 2018-11-06 国网河南省电力公司新乡供电公司 一种云计算中矩阵行列式的安全外包计算加密方法
CN109787743A (zh) * 2019-01-17 2019-05-21 广西大学 一种基于矩阵运算的可验证的全同态加密方法
CN110147681A (zh) * 2019-04-02 2019-08-20 西安电子科技大学 一种支持灵活访问控制的隐私保护大数据处理方法及系统
CN110348231A (zh) * 2019-06-18 2019-10-18 阿里巴巴集团控股有限公司 实现隐私保护的数据同态加解密方法及装置
CN112989368A (zh) * 2021-02-07 2021-06-18 支付宝(杭州)信息技术有限公司 多方联合进行隐私数据处理的方法及装置
CN114640436A (zh) * 2022-02-10 2022-06-17 杭州博盾习言科技有限公司 一种基于隐私保护的分组统计参数计算方法、装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
S.M.GHANEM 等: ""Secure Multiparty Computation via Homomorphic Encryption Library"", 《2019 NINTH INTERNATIONAL CONFERENCE ON INTELLIGENT COMPUTING AND INFORMATION SYSTEMS (ICICIS)》 *
孙泽栋 等: ""基于RLWE的密钥策略属性加密体制"", 《通信学报》 *
王珺晟: ""基于零向量的抗污染攻击的高效网络编码方案研究与设计"", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Also Published As

Publication number Publication date
CN114817970B (zh) 2022-11-29

Similar Documents

Publication Publication Date Title
US11558358B2 (en) Secure analytics using homomorphic and injective format-preserving encryption
CN113553610B (zh) 基于同态加密和可信硬件的多方隐私保护机器学习方法
CN110881063B (zh) 一种隐私数据的存储方法、装置、设备及介质
US20160094347A1 (en) Method and system for secure management of computer applications
CN110235409A (zh) 使用同态加密被保护的rsa签名或解密的方法
CN114696990B (zh) 基于全同态加密的多方计算方法、系统及相关设备
CN112287377A (zh) 基于联邦学习的模型训练方法、计算机设备及存储介质
CN110061968A (zh) 一种基于区块链的文件加解密方法、系统及存储介质
CN110391895B (zh) 数据预处理方法、密文数据获取方法、装置和电子设备
WO2014007296A1 (ja) 順序保存暗号化システム、暗号化装置、復号化装置、暗号化方法、復号化方法およびこれらのプログラム
CN109474616B (zh) 多平台数据共享方法和装置及计算机可读存储介质
CN105721156A (zh) 用于模幂加密方案的通用编码函数
Abdul Hussien et al. [Retracted] A Secure Environment Using a New Lightweight AES Encryption Algorithm for E‐Commerce Websites
CN116032667B (zh) 支持高效更新的在线匿踪查询方法、系统及相关设备
CN111935197A (zh) 一种招标文件加解密方法及装置
CN114785524B (zh) 电子印章生成方法、装置、设备和介质
CN115913537A (zh) 基于隐私保护的数据求交方法、系统及相关设备
CN115242514A (zh) 基于国密的隐私集合求交方法、系统及相关设备
CN117478303B (zh) 区块链隐蔽通信方法、系统和计算机设备
Dhiman et al. Retracted: Blockchain‐based covert software information transmission for bitcoin
CN113055153B (zh) 一种基于全同态加密算法的数据加密方法、系统和介质
CN111475690B (zh) 字符串的匹配方法和装置、数据检测方法、服务器
CN110598427B (zh) 数据的处理方法、系统和存储介质
CN117349685A (zh) 一种通信数据的聚类方法、系统、终端及介质
CN114817970B (zh) 基于数据来源保护的数据分析方法、系统及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant