CN112084384A - 多方联合进行安全统计的方法和装置 - Google Patents

多方联合进行安全统计的方法和装置 Download PDF

Info

Publication number
CN112084384A
CN112084384A CN202010956250.8A CN202010956250A CN112084384A CN 112084384 A CN112084384 A CN 112084384A CN 202010956250 A CN202010956250 A CN 202010956250A CN 112084384 A CN112084384 A CN 112084384A
Authority
CN
China
Prior art keywords
sample
party
result
value
statistical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010956250.8A
Other languages
English (en)
Other versions
CN112084384B (zh
Inventor
李漓春
张文彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202010956250.8A priority Critical patent/CN112084384B/zh
Publication of CN112084384A publication Critical patent/CN112084384A/zh
Application granted granted Critical
Publication of CN112084384B publication Critical patent/CN112084384B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9035Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Complex Calculations (AREA)

Abstract

本说明书实施例提供一种多方联合进行安全统计的方法和装置,方法包括:第一方根据目标样本对应的第一隐私数据,计算第一过滤条件的第一过滤结果的第一逻辑值;根据本方具有的第一逻辑值,与第二方提供的目标样本针对混淆统计因子的混淆统计结果的各可能值,通过不经意传输的方式,得到混淆统计结果的实际值;混淆统计结果的各可能值由第二方根据目标样本对应的第二隐私数据,确定目标样本针对总过滤条件的总过滤结果的各可能取值,将目标样本对应的单项统计值与总过滤结果的各可能取值相乘后,再加上目标样本对应的噪声值得到的;根据样本集合中各样本分别对应的混淆统计结果的实际值,进行样本统计运算。能够同时满足安全性和实用性。

Description

多方联合进行安全统计的方法和装置
技术领域
本说明书一个或多个实施例涉及计算机领域,尤其涉及多方联合进行安全统计的方法和装置。
背景技术
当前,普遍存在多方需要联合起来对各方的数据一起做统计的需求,比如若干商业保险机构联合统计得到行业的总体情况,或者若干医疗机构联合统计得到某些疾病的总体情况。由于各方的数据都是机密的,在做联合统计时,各方都需要保护自己的数据,不能泄露给其他方。这为多方的联合统计带来了很大的困难。
在一个典型的统计问题中,样本数据垂直分布在多方,各方拥有样本的不同类别的信息,需要结合多方的不同类别的信息对样本做条件过滤,然后对条件过滤后的满足条件的样本做统计。举个具体例子,两个机构有各自用户的身份标识(比如身份证号、手机号等),其中一方有用户的年龄和工资信息,另一方有用户的学历信息。两个机构想要联合起来,对共同用户统计某种学历和某个年龄段的用户的收入信息,比如本科学历且年龄在25到30之间的人群的收入总和等。两个机构都可以得到统计的结果,但是除了统计结果外,不能泄露用户的信息。针对上述统计问题,现有技术中缺乏同时满足安全性和实用性的可行性方案。
发明内容
本说明书一个或多个实施例描述了一种多方联合进行安全统计的方法和装置,能够同时满足安全性和实用性。
第一方面,提供了一种多方联合进行安全统计的方法,所述多方包括第一方和第二方,所述第一方具有样本集合中各样本分别对应的第一隐私数据,所述第二方具有所述各样本分别对应的第二隐私数据;所述安全统计包括,对所述各样本中符合总过滤条件的样本进行统计运算,所述总过滤条件包括,针对所述第一隐私数据的第一过滤条件和针对所述第二隐私数据的第二过滤条件;所述方法通过所述第一方执行,包括:
根据目标样本对应的第一隐私数据,计算所述目标样本针对所述第一过滤条件的第一过滤结果的第一逻辑值;所述目标样本为所述样本集合中的任一样本;
根据本方具有的所述第一逻辑值,与所述第二方提供的所述目标样本针对混淆统计因子的混淆统计结果的各可能值,通过不经意传输的方式,得到所述混淆统计结果的实际值;其中,所述混淆统计结果的各可能值由所述第二方根据所述目标样本对应的第二隐私数据,计算所述目标样本针对所述第二过滤条件的第二过滤结果的第二逻辑值,再根据所述第二逻辑值与所述第一过滤结果的各可能值确定所述目标样本针对总过滤条件的总过滤结果的各可能取值,将所述目标样本对应的单项统计值与所述总过滤结果的各可能取值相乘后,再加上所述目标样本对应的噪声值得到的;
根据所述样本集合中各样本分别对应的混淆统计结果的实际值,进行样本统计运算。
在一种可能的实施方式中,所述样本对应于用户,所述第一隐私数据包括用户的若干第一特征项,所述第二隐私数据包括用户的若干第二特征项。
在一种可能的实施方式中,所述样本集合中各样本分别对应的噪声值之和为0或预设噪声值。
在一种可能的实施方式中,所述样本统计运算包括,针对第二隐私数据中的第一数据项求和,所述单项统计值对应于所述第二隐私数据中的第一数据项;所述进行样本统计运算的步骤包括:
将所述样本集合中各样本分别对应的混淆统计结果的实际值进行求和,得到针对第二隐私数据中的第一数据项求和的最终结果。
在一种可能的实施方式中,所述样本统计运算包括,对满足所述总过滤条件的样本进行计数,所述单项统计值为常数1;所述进行样本统计运算的步骤包括:
将所述样本集合中各样本分别对应的混淆统计结果的实际值进行求和,得到对满足所述总过滤条件的样本进行计数的最终结果。
第二方面,提供了一种多方联合进行安全统计的方法,所述多方包括第一方和第二方,所述第一方具有样本集合中各样本分别对应的第一隐私数据,所述第二方具有所述各样本分别对应的第二隐私数据;所述安全统计包括,对所述各样本中符合总过滤条件的样本进行统计运算,所述总过滤条件包括,针对所述第一隐私数据的第一过滤条件和针对所述第二隐私数据的第二过滤条件;所述方法通过所述第二方执行,包括:
根据目标样本对应的第二隐私数据,计算所述目标样本针对所述第二过滤条件的第二过滤结果的第二逻辑值;所述目标样本为所述样本集合中的任一样本;
根据所述第二逻辑值与所述第一过滤条件的第一过滤结果的各可能值,确定所述目标样本针对总过滤条件的总过滤结果的结果逻辑值的各可能取值;
将所述目标样本对应的单项统计值与所述结果逻辑值的各可能取值相乘后,再加上所述目标样本对应的噪声值,得到所述目标样本针对混淆统计因子的混淆统计结果的各可能值;
根据本方具有的所述目标样本对应的混淆统计结果的各可能值,与所述第一方具有的第一逻辑值,通过不经意传输的方式,以使所述第一方得到所述混淆统计结果的实际值,根据所述样本集合中各样本分别对应的混淆统计结果的实际值,进行样本统计运算。
第三方面,提供了一种多方联合进行安全统计的方法,所述多方包括第一方和第二方,所述第一方具有样本集合中各样本分别对应的第一隐私数据,所述第二方具有所述各样本分别对应的第二隐私数据;所述安全统计包括,对所述各样本中符合总过滤条件的样本进行统计运算,所述总过滤条件包括,针对所述第一隐私数据的第一过滤条件和针对所述第二隐私数据的第二过滤条件;所述方法通过所述第一方执行,包括:
根据目标样本对应的第一隐私数据,计算所述目标样本针对所述第一过滤条件的第一过滤结果的第一逻辑值;所述目标样本为所述样本集合中的任一样本;
根据本方具有的所述第一逻辑值,与所述第二方提供的所述目标样本对应的统计因子的统计结果的各可能值,通过叠加秘密共享的扩展不经意传输方式,得到所述统计结果的实际值的第一分片;所述第二方得到所述统计结果的实际值的第二分片;所述统计结果的各可能值由所述第二方根据所述目标样本对应的第二隐私数据,计算所述目标样本针对所述第二过滤条件的第二过滤结果的第二逻辑值,再根据所述第二逻辑值与所述第一过滤结果的各可能值,确定所述目标样本针对总过滤条件的总过滤结果的结果逻辑值的各可能取值,将所述目标样本对应的单项统计值与所述结果逻辑值的各可能取值相乘后得到的;
根据本方具有的所述样本集合中各样本分别对应的统计结果的实际值的第一分片,与所述第二方具有的所述各样本分别对应的统计结果的实际值的第二分片,通过秘密共享的方式,进行样本统计运算。
在一种可能的实施方式中,所述样本对应于用户,所述第一隐私数据包括用户的若干第一特征项,所述第二隐私数据包括用户的若干第二特征项。
在一种可能的实施方式中,所述统计结果的实际值的第二分片为随机生成的噪声值的相反数。
在一种可能的实施方式中,所述样本统计运算包括,针对第二隐私数据中的第一数据项求和,所述单项统计值对应于所述第二隐私数据中的第一数据项;所述进行样本统计运算的步骤包括:
将本方具有的所述样本集合中各样本分别对应的统计结果的实际值的第一分片进行求和,得到针对第二隐私数据中的第一数据项求和的最终结果的第一分片;所述第二方具有该最终结果的第二分片。
在一种可能的实施方式中,所述样本统计运算包括,对满足所述总过滤条件的样本进行计数,所述单项统计值为常数1;所述进行样本统计运算的步骤包括:
将本方具有的所述样本集合中各样本分别对应的统计结果的实际值的第一分片进行求和,得到对满足所述总过滤条件的样本进行计数的最终结果的第一分片;所述第二方具有该最终结果的第二分片。
第四方面,提供了一种多方联合进行安全统计的方法,所述多方包括第一方和第二方,所述第一方具有样本集合中各样本分别对应的第一隐私数据,所述第二方具有所述样本集合中各样本分别对应的第二隐私数据;所述安全统计包括,对所述各样本中符合总过滤条件的样本进行统计运算,所述总过滤条件包括,针对所述第一隐私数据的第一过滤条件和针对所述第二隐私数据的第二过滤条件;所述方法通过所述第二方执行,包括:
根据目标样本对应的第二隐私数据,计算所述目标样本针对所述第二过滤条件的第二过滤结果的第二逻辑值;所述目标样本为所述样本集合中的任一样本;
根据所述第二逻辑值与所述第一过滤条件的第一过滤结果的各可能值,确定所述目标样本针对总过滤条件的总过滤结果的结果逻辑值的各可能取值;
将所述目标样本对应的单项统计值与所述结果逻辑值的各可能取值相乘后,得到所述目标样本针对统计因子的统计结果的各可能值;
根据本方具有的所述统计结果的各可能值,与所述第一方具有的所述目标样本针对所述第一过滤条件的第一过滤结果的第一逻辑值,通过叠加秘密共享的扩展不经意传输方式,得到所述统计结果的实际值的第二分片;所述第一方得到所述统计结果的实际值的第一分片;其中,所述第一逻辑值由所述第一方根据目标样本对应的第一隐私数据计算得到的;
根据本方具有的所述样本集合中各样本分别对应的统计结果的实际值的第二分片,与所述第一方具有的所述各样本分别对应的统计结果的实际值的第一分片,通过秘密共享的方式,进行样本统计运算。
第五方面,提供了一种多方联合进行安全统计的装置,所述多方包括第一方和第二方,所述第一方具有样本集合中各样本分别对应的第一隐私数据,所述第二方具有所述各样本分别对应的第二隐私数据;所述安全统计包括,对所述各样本中符合总过滤条件的样本进行统计运算,所述总过滤条件包括,针对所述第一隐私数据的第一过滤条件和针对所述第二隐私数据的第二过滤条件;所述装置设置于所述第一方,包括:
单方计算单元,用于根据目标样本对应的第一隐私数据,计算所述目标样本针对所述第一过滤条件的第一过滤结果的第一逻辑值;所述目标样本为所述样本集合中的任一样本;
不经意传输单元,用于根据本方具有的所述单方计算单元得到的第一逻辑值,与所述第二方提供的所述目标样本针对混淆统计因子的混淆统计结果的各可能值,通过不经意传输的方式,得到所述混淆统计结果的实际值;其中,所述混淆统计结果的各可能值由所述第二方根据所述目标样本对应的第二隐私数据,计算所述目标样本针对所述第二过滤条件的第二过滤结果的第二逻辑值,再根据所述第二逻辑值与所述第一过滤结果的各可能值确定所述目标样本针对总过滤条件的总过滤结果的各可能取值,将所述目标样本对应的单项统计值与所述总过滤结果的各可能取值相乘后,再加上所述目标样本对应的噪声值得到的;
单方统计单元,用于根据所述不经意传输单元得到的所述样本集合中各样本分别对应的混淆统计结果的实际值,进行样本统计运算。
第六方面,提供了一种多方联合进行安全统计的装置,所述多方包括第一方和第二方,所述第一方具有样本集合中各样本分别对应的第一隐私数据,所述第二方具有所述各样本分别对应的第二隐私数据;所述安全统计包括,对所述各样本中符合总过滤条件的样本进行统计运算,所述总过滤条件包括,针对所述第一隐私数据的第一过滤条件和针对所述第二隐私数据的第二过滤条件;所述装置设置于所述第二方,包括:
单方计算单元,用于根据目标样本对应的第二隐私数据,计算所述目标样本针对所述第二过滤条件的第二过滤结果的第二逻辑值;所述目标样本为所述样本集合中的任一样本;
逻辑推理单元,用于根据所述单方计算单元得到的第二逻辑值与所述第一过滤条件的第一过滤结果的各可能值,确定所述目标样本针对总过滤条件的总过滤结果的结果逻辑值的各可能取值;
混淆处理单元,用于将所述目标样本对应的单项统计值与所述逻辑推理单元得到的结果逻辑值的各可能取值相乘后,再加上所述目标样本对应的噪声值,得到所述目标样本针对混淆统计因子的混淆统计结果的各可能值;
不经意传输单元,用于根据本方具有的所述混淆处理单元得到的所述目标样本对应的混淆统计结果的各可能值,与所述第一方具有的第一逻辑值,通过不经意传输的方式,以使所述第一方得到所述混淆统计结果的实际值,根据所述样本集合中各样本分别对应的混淆统计结果的实际值,进行样本统计运算。
第七方面,提供了一种多方联合进行安全统计的装置,所述多方包括第一方和第二方,所述第一方具有样本集合中各样本分别对应的第一隐私数据,所述第二方具有所述各样本分别对应的第二隐私数据;所述安全统计包括,对所述各样本中符合总过滤条件的样本进行统计运算,所述总过滤条件包括,针对所述第一隐私数据的第一过滤条件和针对所述第二隐私数据的第二过滤条件;所述装置设置于所述第一方,包括:
单方计算单元,用于根据目标样本对应的第一隐私数据,计算所述目标样本针对所述第一过滤条件的第一过滤结果的第一逻辑值;所述目标样本为所述样本集合中的任一样本;
不经意传输单元,用于根据本方具有的所述单方计算单元得到的第一逻辑值,与所述第二方提供的所述目标样本对应的统计因子的统计结果的各可能值,通过叠加秘密共享的扩展不经意传输方式,得到所述统计结果的实际值的第一分片;所述第二方得到所述统计结果的实际值的第二分片;所述统计结果的各可能值由所述第二方根据所述目标样本对应的第二隐私数据,计算所述目标样本针对所述第二过滤条件的第二过滤结果的第二逻辑值,再根据所述第二逻辑值与所述第一过滤结果的各可能值,确定所述目标样本针对总过滤条件的总过滤结果的结果逻辑值的各可能取值,将所述目标样本对应的单项统计值与所述结果逻辑值的各可能取值相乘后得到的;
联合统计单元,用于根据本方具有的所述不经意传输单元得到的所述样本集合中各样本分别对应的统计结果的实际值的第一分片,与所述第二方具有的所述各样本分别对应的统计结果的实际值的第二分片,通过秘密共享的方式,进行样本统计运算。
第八方面,提供了一种多方联合进行安全统计的装置,所述多方包括第一方和第二方,所述第一方具有样本集合中各样本分别对应的第一隐私数据,所述第二方具有所述样本集合中各样本分别对应的第二隐私数据;所述安全统计包括,对所述各样本中符合总过滤条件的样本进行统计运算,所述总过滤条件包括,针对所述第一隐私数据的第一过滤条件和针对所述第二隐私数据的第二过滤条件;所述装置设置于所述第二方,包括:
单方计算单元,用于根据目标样本对应的第二隐私数据,计算所述目标样本针对所述第二过滤条件的第二过滤结果的第二逻辑值;所述目标样本为所述样本集合中的任一样本;
逻辑推理单元,用于根据所述单方计算单元得到的第二逻辑值与所述第一过滤条件的第一过滤结果的各可能值,确定所述目标样本针对总过滤条件的总过滤结果的结果逻辑值的各可能取值;
条件过滤单元,用于将所述目标样本对应的单项统计值与所述逻辑推理单元得到的结果逻辑值的各可能取值相乘后,得到所述目标样本针对统计因子的统计结果的各可能值;
不经意传输单元,用于根据本方具有的所述条件过滤单元得到的统计结果的各可能值,与所述第一方具有的所述目标样本针对所述第一过滤条件的第一过滤结果的第一逻辑值,通过叠加秘密共享的扩展不经意传输方式,得到所述统计结果的实际值的第二分片;所述第一方得到所述统计结果的实际值的第一分片;其中,所述第一逻辑值由所述第一方根据目标样本对应的第一隐私数据计算得到的;
联合统计单元,用于根据本方具有的所述不经意传输单元得到的所述样本集合中各样本分别对应的统计结果的实际值的第二分片,与所述第一方具有的所述各样本分别对应的统计结果的实际值的第一分片,通过秘密共享的方式,进行样本统计运算。
第九方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一至四方面中任一方面的方法。
第十方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一至四方面中任一方面的方法。
通过本说明书实施例提供的方法和装置,第一方具有样本集合中各样本分别对应的第一隐私数据,第二方具有所述各样本分别对应的第二隐私数据;安全统计包括,对所述各样本中符合总过滤条件的样本进行统计运算,所述总过滤条件包括,针对所述第一隐私数据的第一过滤条件和针对所述第二隐私数据的第二过滤条件;第一方首先根据目标样本对应的第一隐私数据,计算所述目标样本针对所述第一过滤条件的第一过滤结果的第一逻辑值;所述目标样本为所述样本集合中的任一样本;然后根据本方具有的所述第一逻辑值,与所述第二方提供的所述目标样本针对混淆统计因子的混淆统计结果的各可能值,通过不经意传输的方式,得到所述混淆统计结果的实际值;其中,所述混淆统计结果的各可能值由所述第二方根据所述目标样本对应的第二隐私数据,计算所述目标样本针对所述第二过滤条件的第二过滤结果的第二逻辑值,再根据所述第二逻辑值与所述第一过滤结果的各可能值确定所述目标样本针对总过滤条件的总过滤结果的各可能取值,将所述目标样本对应的单项统计值与所述总过滤结果的各可能取值相乘后,再加上所述目标样本对应的噪声值得到的;最后根据所述样本集合中各样本分别对应的混淆统计结果的实际值,进行样本统计运算。由上可见,本说明书实施例,针对样本数据垂直分布在多方的统计场景,通过使用不经意传输技术,对于由两方的多个过滤条件组合的复杂情形,只需一轮不经意传输便可得到混淆统计结果的实际值,交互轮数少,在过滤条件数量较小的情形下,通信量也较小,具有实用性。其中,不经意传输中,混淆统计结果各可能值是在目标样本对应的单项统计值与总过滤结果的各可能取值相乘后,再加上目标样本对应的噪声值得到的,整个过程中,不会泄露各方的隐私数据,能够同时满足安全性和实用性,支持多种统计运算,包括求和、计数等统计运算。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本说明书披露的一个实施例的实施场景示意图;
图2示出根据一个实施例的多方联合进行安全统计的方法流程图;
图3示出一种基础的不经意传输原理图;
图4示出根据另一个实施例的多方联合进行安全统计的方法流程图;
图5示出根据另一个实施例的多方联合进行安全统计的方法流程图;
图6示出一种扩展的不经意传输原理图;
图7示出根据另一个实施例的多方联合进行安全统计的方法流程图;
图8示出根据一个实施例的多方联合进行安全统计的装置的示意性框图;
图9示出根据另一个实施例的多方联合进行安全统计的装置的示意性框图;
图10示出根据另一个实施例的多方联合进行安全统计的装置的示意性框图;
图11示出根据另一个实施例的多方联合进行安全统计的装置的示意性框图。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
图1为本说明书披露的一个实施例的实施场景示意图。该实施场景涉及多方联合进行安全统计。可以理解的是,上述多方可以为两方或两方以上,例如,三方、四方等。本说明书实施例,以两方联合进行安全统计为例进行说明。参照图1,第一方11具有样本1的第一隐私数据10、样本2的第一隐私数据20、样本3的第一隐私数据30、样本4的第一隐私数据40、样本5的第一隐私数据50;第二方12具有样本1的第二隐私数据11、样本2的第二隐私数据21、样本3的第二隐私数据31、样本4的第二隐私数据41、样本5的第二隐私数据51。其中,第一隐私数据包括样本的第一特征部分,第一特征部分对应于第一维度集合,第二隐私数据包括样本的第二特征部分,第二特征部分对应于第二维度集合。以样本1为例,第一隐私数据10为样本1的第一特征部分,第二隐私数据11为样本1的第二特征部分,第一特征部分和第二特征部分分别对应于样本1的若干维度。
可以理解的是,第一方和第二方仅为对两方的区分,还可以将第一方称为A方,将第二方称为B方,等。假设有A和B两方,N个样本中每个样本的样本维度为d,其中A方拥有样本的d1维特征,B方拥有样本的d2维特征,d=d1+d2,本说明书实施例,需要结合多方的不同维度的特征对样本做条件过滤,然后对条件过滤后的满足条件的样本做统计。
本说明书实施例中,样本对应于第一方的第一隐私数据和第二方的第二隐私数据,对于各方的隐私数据涵盖的信息不做限定,可以是任何不可外传的信息,例如,用户的个人信息或商业秘密等。举例来说,隐私数据为用户的个人信息,包括了用户的姓名、年龄、收入等,隐私数据中的每项信息可以作为样本的一个维度的特征,具体可以参照表一所示的各样本包含特征的对应关系表。
表一:各样本包含特征的对应关系表
Figure BDA0002678695130000121
由表一可见,表一中不同列的数据可能分布在不同方,例如,姓名和年龄分布在第一方,收入、理财金额、消费金额分布在第二方,这种数据垂直分布在多方的数据分布方式,可以称为垂直切分。
本说明书实施例,需要基于多方的隐私数据进行安全统计,以图1为例,就是针对样本1、样本2、样本3、样本4和样本5先进行条件过滤,再对条件过滤后满足条件的样本进行安全统计,分布在不同方的隐私数据共同构成一个样本,一个样本最终是否满足条件,不仅取决于第一方的第一隐私数据,还取决于第二方的第二隐私数据。本说明书实施例,利用安全多方计算(secure multi-party computation,MPC)的方式,在不泄露隐私数据的前提下,实现多方联合进行安全统计。
图2示出根据一个实施例的多方联合进行安全统计的方法流程图,该方法可以基于图1所示的实施场景,所述多方包括第一方和第二方,所述第一方具有样本集合中各样本分别对应的第一隐私数据,所述第二方具有所述各样本分别对应的第二隐私数据;所述安全统计包括,对所述各样本中符合总过滤条件的样本进行统计运算,所述总过滤条件包括,针对所述第一隐私数据的第一过滤条件和针对所述第二隐私数据的第二过滤条件;所述方法通过所述第一方执行,由第一方单方进行样本统计运算。如图2所示,该实施例中多方联合进行安全统计的方法包括以下步骤:步骤21,根据目标样本对应的第一隐私数据,计算所述目标样本针对所述第一过滤条件的第一过滤结果的第一逻辑值;所述目标样本为所述样本集合中的任一样本;步骤22,根据本方具有的所述第一逻辑值,与所述第二方提供的所述目标样本针对混淆统计因子的混淆统计结果的各可能值,通过不经意传输的方式,得到所述混淆统计结果的实际值;其中,所述混淆统计结果的各可能值由所述第二方根据所述目标样本对应的第二隐私数据,计算所述目标样本针对所述第二过滤条件的第二过滤结果的第二逻辑值,再根据所述第二逻辑值与所述第一过滤结果的各可能值确定所述目标样本针对总过滤条件的总过滤结果的各可能取值,将所述目标样本对应的单项统计值与所述总过滤结果的各可能取值相乘后,再加上所述目标样本对应的噪声值得到的;步骤23,根据所述样本集合中各样本分别对应的混淆统计结果的实际值,进行样本统计运算。下面描述以上各个步骤的具体执行方式。
首先在步骤21,根据目标样本对应的第一隐私数据,计算所述目标样本针对所述第一过滤条件的第一过滤结果的第一逻辑值;所述目标样本为所述样本集合中的任一样本。可以理解的是,上述第一逻辑值可以根据第一隐私数据直接确定,当目标样本对应的第一隐私数据满足第一过滤条件时,该目标样本对应的第一逻辑值为1,否则为0。
本说明书实施例中,第一隐私数据可以包括若干数据项,当每个数据项代表一项样本特征时,数据项也可以称为特征项,第一逻辑值可以根据第一隐私数据包括的一个或多个数据项而确定。
在一个示例中,所述样本对应于用户,所述第一隐私数据包括用户的若干第一特征项,所述第二隐私数据包括用户的若干第二特征项。
可以理解的是,所述总过滤条件可以包括,针对所述第一隐私数据的一个或多个第一过滤条件,当有多个第一过滤条件时,可以根据目标样本对应的第一隐私数据,分别计算所述目标样本针对各第一过滤条件的第一过滤结果的第一逻辑值。
例如,第一方(也称为A方)对应有C1和C2两个第一过滤条件,对每个样本分别计算第一过滤条件C1对应的第一逻辑值A.C1,以及第一过滤条件C2对应的第一逻辑值A.C2,每个第一逻辑值为0或1。
然后在步骤22,根据本方具有的所述第一逻辑值,与所述第二方提供的所述目标样本针对混淆统计因子的混淆统计结果的各可能值,通过不经意传输的方式,得到所述混淆统计结果的实际值;其中,所述混淆统计结果的各可能值由所述第二方根据所述目标样本对应的第二隐私数据,计算所述目标样本针对所述第二过滤条件的第二过滤结果的第二逻辑值,再根据所述第二逻辑值与所述第一过滤结果的各可能值确定所述目标样本针对总过滤条件的总过滤结果的各可能取值,将所述目标样本对应的单项统计值与所述总过滤结果的各可能取值相乘后,再加上所述目标样本对应的噪声值得到的。可以理解的是,结果逻辑值体现了目标样本是否符合总过滤条件,如果目标样本符合总过滤条件,则该目标样本的结果逻辑值为1,否则为0。结果逻辑值不仅与第一逻辑值相关,而且与第二逻辑值相关。
本说明书实施例采用了基础的不经意传输方式,使得第一方能够直接得到混淆统计结果的实际值,便于后续基于各样本的混淆统计结果的实际值,单方进行样本统计运算。由于混淆统计结果的各可能值中包含噪声值,相应地,混淆统计结果的实际值中也包含噪声值,因此即便单项统计值与第二隐私数据直接关联,也不会将第二隐私数据泄露给第一方。
图3示出一种基础的不经意传输原理图。参照图3,不经意传输(oblivioustransfer,OT)中,发送方有两个消息m_0和m_1,接收方想接收其中第b个消息(b=0或1)。两方通过运行OT协议,接收方能够获得消息m_b,但不能获得m_{1-b},而且b的值也不会泄露给发送方。
本说明书实施例中,由于第二方不能获得第一隐私数据,所以不能确定目标样本对应的第一逻辑值,由于逻辑值只有0、1两个可能值,第二方可以先计算出目标样本对应的第二逻辑值,再结合第一逻辑值的各可能值,综合确定结果逻辑值的各可能取值。
可以理解的是,总过滤条件可以由两方的第一过滤条件和第二过滤条件通过“逻辑与(and)”或“逻辑或(or)”交错组合在一起。例如,第一方(也称为A方)对应有C1和C2两个第一过滤条件,对每个样本分别计算第一过滤条件C1对应的第一逻辑值A.C1,以及第一过滤条件C2对应的第一逻辑值A.C2,每个第一逻辑值为0或1。第二方(也称为B方)对应有D1和D2两个第二过滤条件,对每个样本分别计算第二过滤条件D1对应的第二逻辑值B.D1,以及第二过滤条件D2对应的第二逻辑值B.D2,每个第二逻辑值为0或1。第二方针对每个样本,遍历每个第一过滤条件的所有可能值,计算总过滤条件的所有可能值V,得到的第一过滤条件的可能值与总过滤条件的可能值之间的对应关系可以如表二所示。
表二:第一过滤条件的可能值与总过滤条件的可能值的对应关系表
Figure BDA0002678695130000151
Figure BDA0002678695130000161
由表二可见,第一列和第二列给出了第一过滤条件的所有可能值,第三列省略了第二过滤条件的第二逻辑值,第四列给出了经过逻辑推理得出的总过滤条件的值V,由于表中未给出具体的第二逻辑值,也未给出总过滤条件中第一过滤条件与第二过滤条件的逻辑关系,因此总过滤条件的值V统一用*代替。可以理解的是,若给出具体的第二逻辑值,并给出总过滤条件中第一过滤条件与第二过滤条件的逻辑关系,很容易得出总过滤条件的值V。例如,第二逻辑值B.D1为1,第二逻辑值B.D2为0,总过滤条件为(A.C1 and B.D1)or(A.C2and B.D2),得到的第一过滤条件的可能值与总过滤条件的可能值之间的对应关系可以如表三所示。
表三:第一过滤条件的可能值与总过滤条件的可能值的对应关系表
A.C1 A.C2 B.D1 B.D2 总过滤条件的值V(0或1)
0 0 1 0 0
1 0 1 0 1
0 1 1 0 0
1 1 1 0 1
由表三可见,第一列和第二列给出了第一过滤条件的所有可能值,第三列和第四列给出了第二过滤条件的第二逻辑值,第五列给出了经过逻辑推理得出的总过滤条件的值V。可以理解的是,只要知道A.C1和A.C2,就可以唯一确定总过滤条件的值V。
本说明书实施例中,上述总过滤条件可以基于结构化查询语言(structuredquery language,SQL)中的WHERE子句来实现,WHERE子句用于提取那些满足指定条件的记录。这种情况下,总过滤条件的值就是WHERE子句的值。
其中,第二方在得到总过滤结果的各可能取值后,将所述目标样本对应的单项统计值与所述总过滤结果的各可能取值相乘后,再加上所述目标样本对应的噪声值,得到混淆统计结果的各可能值。可以理解的是,上述单项统计值是第二方能够获取的。例如,所述单项统计值对应于所述第二隐私数据中的第一数据项;后续可以基于混淆统计结果的实际值,得到针对第二隐私数据中的第一数据项求和的结果。又例如,所述单项统计值为常数1;后续可以基于混淆统计结果的实际值,得到对满足所述总过滤条件的样本进行计数的结果。
可以理解的是,如果用Y代表单项统计值,用V代表总过滤结果的各可能取值,用R代表噪声值,用Z代表混淆统计结果的各可能值,则Z=Y*V+R。由于V的取值为逻辑值,只有0和1两种可能取值,当V=0时,Z=R,当V=1时,Z=Y+R,因此Z只有R和Y+R两种可能取值。
在一个示例中,所述样本集合中各样本分别对应的噪声值之和为0或预设噪声值。从而在不泄露隐私数据的情况下,减小噪声对最终统计结果的影响。
本说明书实施例中,第一方提供第一逻辑值C=[A.C1,A.C2],第二方提供混淆统计结果的各可能值Z,通过不经意传输方式,第一方得到混淆统计结果的实际值。
最后在步骤23,根据所述样本集合中各样本分别对应的混淆统计结果的实际值,进行样本统计运算。可以理解的是,混淆统计结果的实际值已经体现了对样本集合中各样本进行过滤后的过滤结果,可以基于该混淆统计结果的实际值进行单方的样本统计运算。
本说明书实施例中,样本统计运算可以但不限于包括针对第二隐私数据中的第一数据项求和、对满足所述总过滤条件的样本进行计数等。其中,第二隐私数据可以包括多个数据项,第一数据项可以为该多个数据项中的任意一个。
在一个示例中,所述样本统计运算包括,针对第二隐私数据中的第一数据项求和,所述单项统计值对应于所述第二隐私数据中的第一数据项;所述进行样本统计运算的步骤包括:
将所述样本集合中各样本分别对应的混淆统计结果的实际值进行求和,得到针对第二隐私数据中的第一数据项求和的最终结果。
在另一个示例中,所述样本统计运算包括,对满足所述总过滤条件的样本进行计数,所述单项统计值为常数1;所述进行样本统计运算的步骤包括:
将所述样本集合中各样本分别对应的混淆统计结果的实际值进行求和,得到对满足所述总过滤条件的样本进行计数的最终结果。
本说明书实施例中,上述最终结果可以为含有噪声的结果,噪声比较小,也就是说,出于隐私保护的需要,只让第一方得到一个粗略的统计结果。此外,在第一方得到上述最终结果后,还可以将该最终结果发送给第二方,使得第二方也能获得该最终结果。
图4示出根据另一个实施例的多方联合进行安全统计的方法流程图,该方法可以基于图1所示的实施场景,所述多方包括第一方和第二方,所述第一方具有样本集合中各样本分别对应的第一隐私数据,所述第二方具有所述各样本分别对应的第二隐私数据;所述安全统计包括,对所述各样本中符合总过滤条件的样本进行统计运算,所述总过滤条件包括,针对所述第一隐私数据的第一过滤条件和针对所述第二隐私数据的第二过滤条件;所述方法通过所述第二方执行,该实施例与图2所示的实施例相对应。如图4所示,该实施例中多方联合进行安全统计的方法包括以下步骤:步骤41,根据目标样本对应的第二隐私数据,计算所述目标样本针对所述第二过滤条件的第二过滤结果的第二逻辑值;所述目标样本为所述样本集合中的任一样本;步骤42,根据所述第二逻辑值与所述第一过滤条件的第一过滤结果的各可能值,确定所述目标样本针对总过滤条件的总过滤结果的结果逻辑值的各可能取值;步骤43,将所述目标样本对应的单项统计值与所述结果逻辑值的各可能取值相乘后,再加上所述目标样本对应的噪声值,得到所述目标样本针对混淆统计因子的混淆统计结果的各可能值;步骤44,根据本方具有的所述目标样本对应的混淆统计结果的各可能值,与所述第一方具有的第一逻辑值,通过不经意传输的方式,以使所述第一方得到所述混淆统计结果的实际值,根据所述样本集合中各样本分别对应的混淆统计结果的实际值,进行样本统计运算。
可以理解的是,本说明书实施例的多方联合进行安全统计的方法,需要第一方和第二方配合完成,第二方的处理过程均与第一方的处理过程相对应,在此不做赘述。
通过本说明书实施例提供的方法,第一方具有样本集合中各样本分别对应的第一隐私数据,第二方具有所述各样本分别对应的第二隐私数据;安全统计包括,对所述各样本中符合总过滤条件的样本进行统计运算,所述总过滤条件包括,针对所述第一隐私数据的第一过滤条件和针对所述第二隐私数据的第二过滤条件;第一方首先根据目标样本对应的第一隐私数据,计算所述目标样本针对所述第一过滤条件的第一过滤结果的第一逻辑值;所述目标样本为所述样本集合中的任一样本;然后根据本方具有的所述第一逻辑值,与所述第二方提供的所述目标样本针对混淆统计因子的混淆统计结果的各可能值,通过不经意传输的方式,得到所述混淆统计结果的实际值;其中,所述混淆统计结果的各可能值由所述第二方根据所述目标样本对应的第二隐私数据,计算所述目标样本针对所述第二过滤条件的第二过滤结果的第二逻辑值,再根据所述第二逻辑值与所述第一过滤结果的各可能值确定所述目标样本针对总过滤条件的总过滤结果的各可能取值,将所述目标样本对应的单项统计值与所述总过滤结果的各可能取值相乘后,再加上所述目标样本对应的噪声值得到的;最后根据所述样本集合中各样本分别对应的混淆统计结果的实际值,进行样本统计运算。由上可见,本说明书实施例,针对样本数据垂直分布在多方的统计场景,通过使用不经意传输技术,对于由两方的多个过滤条件组合的复杂情形,只需一轮不经意传输便可得到混淆统计结果的实际值,交互轮数少,在过滤条件数量较小的情形下,通信量也较小,具有实用性。其中,不经意传输中,混淆统计结果各可能值是在目标样本对应的单项统计值与总过滤结果的各可能取值相乘后,再加上目标样本对应的噪声值得到的,整个过程中,不会泄露各方的隐私数据,能够同时满足安全性和实用性,支持多种统计运算,包括求和、计数等统计运算。
图5示出根据另一个实施例的多方联合进行安全统计的方法流程图,该方法可以基于图1所示的实施场景,所述多方包括第一方和第二方,所述第一方具有样本集合中各样本分别对应的第一隐私数据,所述第二方具有所述各样本分别对应的第二隐私数据;所述安全统计包括,对所述各样本中符合总过滤条件的样本进行统计运算,所述总过滤条件包括,针对所述第一隐私数据的第一过滤条件和针对所述第二隐私数据的第二过滤条件;所述方法通过所述第一方执行,由第一方和第二个方联合进行样本统计运算。如图5所示,该实施例中多方联合进行安全统计的方法包括以下步骤:步骤51,根据目标样本对应的第一隐私数据,计算所述目标样本针对所述第一过滤条件的第一过滤结果的第一逻辑值;所述目标样本为所述样本集合中的任一样本;步骤52,根据本方具有的所述第一逻辑值,与所述第二方提供的所述目标样本对应的统计因子的统计结果的各可能值,通过叠加秘密共享的扩展不经意传输方式,得到所述统计结果的实际值的第一分片;所述第二方得到所述统计结果的实际值的第二分片;所述统计结果的各可能值由所述第二方根据所述目标样本对应的第二隐私数据,计算所述目标样本针对所述第二过滤条件的第二过滤结果的第二逻辑值,再根据所述第二逻辑值与所述第一过滤结果的各可能值,确定所述目标样本针对总过滤条件的总过滤结果的结果逻辑值的各可能取值,将所述目标样本对应的单项统计值与所述结果逻辑值的各可能取值相乘后得到的;步骤53,根据本方具有的所述样本集合中各样本分别对应的统计结果的实际值的第一分片,与所述第二方具有的所述各样本分别对应的统计结果的实际值的第二分片,通过秘密共享的方式,进行样本统计运算。下面描述以上各个步骤的具体执行方式。
首先在步骤51,根据目标样本对应的第一隐私数据,计算所述目标样本针对所述第一过滤条件的第一过滤结果的第一逻辑值;所述目标样本为所述样本集合中的任一样本。可以理解的是,该步骤的处理方式与步骤21相同。
在一个示例中,所述样本对应于用户,所述第一隐私数据包括用户的若干第一特征项,所述第二隐私数据包括用户的若干第二特征项。
然后在步骤52,根据本方具有的所述第一逻辑值,与所述第二方提供的所述目标样本对应的统计因子的统计结果的各可能值,通过叠加秘密共享的扩展不经意传输方式,得到所述统计结果的实际值的第一分片;所述第二方得到所述统计结果的实际值的第二分片;所述统计结果的各可能值由所述第二方根据所述目标样本对应的第二隐私数据,计算所述目标样本针对所述第二过滤条件的第二过滤结果的第二逻辑值,再根据所述第二逻辑值与所述第一过滤结果的各可能值,确定所述目标样本针对总过滤条件的总过滤结果的结果逻辑值的各可能取值,将所述目标样本对应的单项统计值与所述结果逻辑值的各可能取值相乘后得到的。可以理解的是,通过叠加秘密共享的扩展不经意传输方式,使得统计结果的实际值以分片的形式分布于第一方和第二方,第一方不会直接获得统计结果的实际值,从而不会将第二隐私数据泄露给第一方。
本说明书实施例采用了叠加秘密共享的扩展不经意传输方式,使得统计结果的实际值以分片的形式分布于第一方和第二方,便于后续基于统计结果的实际值的分片,采用秘密共享的方式进行样本统计运算。
其中,秘密共享(secret sharing,SS)也称为秘密分享,是一种秘密分割的技术,将秘密分割成多个分片,每个分片都是随机的,只有足够多的分片可以恢复出原始秘密。通过将秘密分成多个分片,分发给多个计算参与方,每个参与方有一个分片,多个参与方便可基于分片对数据安全地做加法、乘法,以及更复杂的比大小、求最大值、最小值等运算,而且计算过程中,数据都是处于分片状态的,任何参与方都无法获得原文数据,计算结束后的结果也以分片形式存在各方,需要恢复明文时,才把结果的分片聚集在一起恢复出明文。
图6示出一种扩展的不经意传输原理图,即本说明书实施例中采用的叠加秘密共享的扩展不经意传输方式。参照图6,发送方有两个消息m_0和m_1,接收方想接收其中第b个消息(b=0或1),但是接收方得到的是m_b的一个分片,发送方保存m_b的另一个分片。具体的实现方式,可以是发送方先本地生成随机数r,然后再将m_0-r,m_1-r作为基础OT的输入,那么接收方收到的m_b-r便是m_b的一个分片,而发送方本地已有r,即m_b的另一个分片。
本说明书实施例中,由于第二方不能获得第一隐私数据,所以不能确定目标样本对应的第一逻辑值,由于逻辑值只有0、1两个可能值,第二方可以先计算出目标样本对应的第二逻辑值,再结合第一逻辑值的各可能值,综合确定结果逻辑值的各可能取值。将所述目标样本对应的单项统计值与所述结果逻辑值的各可能取值相乘后,得到统计结果的各可能值。其中,结果逻辑值的各可能取值的确定方式与图2所示实施例中的确定方式相同,在此不做赘述。可以理解的是,上述单项统计值是第二方能够获取的。例如,所述单项统计值对应于所述第二隐私数据中的第一数据项;后续可以基于统计结果的实际值的分片,得到针对第二隐私数据中的第一数据项求和的结果的分片。又例如,所述单项统计值为常数1;后续可以基于统计结果的实际值的分片,得到对满足所述总过滤条件的样本进行计数的结果的分片。
可以理解的是,如果用Y代表单项统计值,用V代表总过滤结果的各可能取值,用Z代表统计结果的各可能值,则Z=Y*V。由于V的取值为逻辑值,只有0和1两种可能取值,当V=0时,Z=0,当V=1时,Z=Y,因此Z只有0和Y两种可能取值。
在一个示例中,所述统计结果的实际值的第二分片为随机生成的噪声值的相反数。举例来说,若统计结果的实际值为0,随机生成的噪声值为R,则第一方具有统计结果的实际值的第一分片R,第二方具有统计结果的实际值的第二分片-R;若统计结果的实际值为Y,随机生成的噪声值为R,则第一方具有统计结果的实际值的第一分片Y+R,第二方具有统计结果的实际值的第二分片-R。
本说明书实施例中,第一方提供第一逻辑值C=[A.C1,A.C2],第二方提供统计结果的各可能值Z,通过叠加秘密共享的扩展不经意传输方式,第一方得到统计结果的实际值的第一分片,第二方得到统计结果的实际值的第二分片。
最后在步骤53,根据本方具有的所述样本集合中各样本分别对应的统计结果的实际值的第一分片,与所述第二方具有的所述各样本分别对应的统计结果的实际值的第二分片,通过秘密共享的方式,进行样本统计运算。可以理解的是,统计结果的实际值已经体现了对样本集合中各样本进行过滤后的过滤结果,可以基于该统计结果的实际值的分片,双方联合进行样本统计运算。
本说明书实施例中,样本统计运算可以但不限于包括针对第二隐私数据中的第一数据项求和、对满足所述总过滤条件的样本进行计数等。其中,第二隐私数据可以包括多个数据项,第一数据项可以为该多个数据项中的任意一个。
在一个示例中,所述样本统计运算包括,针对第二隐私数据中的第一数据项求和,所述单项统计值对应于所述第二隐私数据中的第一数据项;所述进行样本统计运算的步骤包括:
将本方具有的所述样本集合中各样本分别对应的统计结果的实际值的第一分片进行求和,得到针对第二隐私数据中的第一数据项求和的最终结果的第一分片;所述第二方具有该最终结果的第二分片。
在另一个示例中,所述样本统计运算包括,对满足所述总过滤条件的样本进行计数,所述单项统计值为常数1;所述进行样本统计运算的步骤包括:
将本方具有的所述样本集合中各样本分别对应的统计结果的实际值的第一分片进行求和,得到对满足所述总过滤条件的样本进行计数的最终结果的第一分片;所述第二方具有该最终结果的第二分片。
在一个示例中,样本统计运算的最终结果以分片的形式存在于第一方和第二方,可以将该样本统计运算的最终结果对第一方和第二方保密,该最终结果作为整个安全计算过程中的中间结果,后续还可以基于该中间结果继续做安全计算。
在另一个示例中,样本统计运算的最终结果以分片的形式存在于第一方和第二方,第一方和第二方各自将具有的最终结果的分片发送给第三方,由第三方恢复出该最终结果。
在另一个示例中,样本统计运算的最终结果以分片的形式存在于第一方和第二方,第一方把具有的最终结果的第一分片发送给第二方,由第二方恢复出该最终结果。
图7示出根据另一个实施例的多方联合进行安全统计的方法流程图,该方法可以基于图1所示的实施场景,所述多方包括第一方和第二方,所述第一方具有样本集合中各样本分别对应的第一隐私数据,所述第二方具有所述各样本分别对应的第二隐私数据;所述安全统计包括,对所述各样本中符合总过滤条件的样本进行统计运算,所述总过滤条件包括,针对所述第一隐私数据的第一过滤条件和针对所述第二隐私数据的第二过滤条件;所述方法通过所述第二方执行,该实施例与图5所示的实施例相对应。如图7所示,该实施例中多方联合进行安全统计的方法包括以下步骤:步骤71,根据目标样本对应的第二隐私数据,计算所述目标样本针对所述第二过滤条件的第二过滤结果的第二逻辑值;所述目标样本为所述样本集合中的任一样本;步骤72,根据所述第二逻辑值与所述第一过滤条件的第一过滤结果的各可能值,确定所述目标样本针对总过滤条件的总过滤结果的结果逻辑值的各可能取值;步骤73,将所述目标样本对应的单项统计值与所述结果逻辑值的各可能取值相乘后,得到所述目标样本针对统计因子的统计结果的各可能值;步骤74,根据本方具有的所述统计结果的各可能值,与所述第一方具有的所述目标样本针对所述第一过滤条件的第一过滤结果的第一逻辑值,通过叠加秘密共享的扩展不经意传输方式,得到所述统计结果的实际值的第二分片;所述第一方得到所述统计结果的实际值的第一分片;其中,所述第一逻辑值由所述第一方根据目标样本对应的第一隐私数据计算得到的;步骤75,根据本方具有的所述样本集合中各样本分别对应的统计结果的实际值的第二分片,与所述第一方具有的所述各样本分别对应的统计结果的实际值的第一分片,通过秘密共享的方式,进行样本统计运算。
可以理解的是,本说明书实施例的多方联合进行安全统计的方法,需要第一方和第二方配合完成,第二方的处理过程均与第一方的处理过程相对应,在此不做赘述。
本说明书实施例提供的方法,针对样本数据垂直分布在多方的统计场景,通过使用不经意传输技术,对于由两方的多个过滤条件组合的复杂情形,只需一轮不经意传输便可得到总过滤结果的结果逻辑值,交互轮数少,在过滤条件数量较小的情形下,通信量也较小,具有实用性。此外,通过叠加秘密共享的扩展不经意传输方式,输出结果为两方分片的形式,使得不经意传输技术能够和秘密共享技术融合,支持多种统计运算,包括求和、计数等统计运算。整个过程中,不会泄露各方的隐私数据,能够同时满足安全性和实用性。
根据另一方面的实施例,还提供一种多方联合进行安全统计的装置,所述多方包括第一方和第二方,所述第一方具有样本集合中各样本分别对应的第一隐私数据,所述第二方具有所述各样本分别对应的第二隐私数据;所述安全统计包括,对所述各样本中符合总过滤条件的样本进行统计运算,所述总过滤条件包括,针对所述第一隐私数据的第一过滤条件和针对所述第二隐私数据的第二过滤条件;所述装置设置于所述第一方,所述装置用于执行图2所示的实施例提供的方法中所述第一方执行的动作。图8示出根据一个实施例的多方联合进行安全统计的装置的示意性框图。如图8所示,该装置800包括:
单方计算单元81,用于根据目标样本对应的第一隐私数据,计算所述目标样本针对所述第一过滤条件的第一过滤结果的第一逻辑值;所述目标样本为所述样本集合中的任一样本;
不经意传输单元82,用于根据本方具有的所述单方计算单元81得到的第一逻辑值,与所述第二方提供的所述目标样本针对混淆统计因子的混淆统计结果的各可能值,通过不经意传输的方式,得到所述混淆统计结果的实际值;其中,所述混淆统计结果的各可能值由所述第二方根据所述目标样本对应的第二隐私数据,计算所述目标样本针对所述第二过滤条件的第二过滤结果的第二逻辑值,再根据所述第二逻辑值与所述第一过滤结果的各可能值确定所述目标样本针对总过滤条件的总过滤结果的各可能取值,将所述目标样本对应的单项统计值与所述总过滤结果的各可能取值相乘后,再加上所述目标样本对应的噪声值得到的;
单方统计单元83,用于根据所述不经意传输单元82得到的所述样本集合中各样本分别对应的混淆统计结果的实际值,进行样本统计运算。
可选地,作为一个实施例,所述样本对应于用户,所述第一隐私数据包括用户的若干第一特征项,所述第二隐私数据包括用户的若干第二特征项。
可选地,作为一个实施例,所述样本集合中各样本分别对应的噪声值之和为0或预设噪声值。
可选地,作为一个实施例,所述样本统计运算包括,针对第二隐私数据中的第一数据项求和,所述单项统计值对应于所述第二隐私数据中的第一数据项;所述单方统计单元83,具体用于将所述样本集合中各样本分别对应的混淆统计结果的实际值进行求和,得到针对第二隐私数据中的第一数据项求和的最终结果。
可选地,作为一个实施例,所述样本统计运算包括,对满足所述总过滤条件的样本进行计数,所述单项统计值为常数1;所述单方统计单元83,具体用于将所述样本集合中各样本分别对应的混淆统计结果的实际值进行求和,得到对满足所述总过滤条件的样本进行计数的最终结果。
根据另一方面的实施例,还提供一种多方联合进行安全统计的装置,所述多方包括第一方和第二方,所述第一方具有样本集合中各样本分别对应的第一隐私数据,所述第二方具有所述各样本分别对应的第二隐私数据;所述安全统计包括,对所述各样本中符合总过滤条件的样本进行统计运算,所述总过滤条件包括,针对所述第一隐私数据的第一过滤条件和针对所述第二隐私数据的第二过滤条件;所述装置设置于所述第二方,所述装置用于执行图4所示实施例提供的方法中所述第二方执行的动作。图9示出根据另一个实施例的多方联合进行安全统计的装置的示意性框图。如图9所示,该装置900包括:
单方计算单元91,用于根据目标样本对应的第二隐私数据,计算所述目标样本针对所述第二过滤条件的第二过滤结果的第二逻辑值;所述目标样本为所述样本集合中的任一样本;
逻辑推理单元92,用于根据所述单方计算单元91得到的第二逻辑值与所述第一过滤条件的第一过滤结果的各可能值,确定所述目标样本针对总过滤条件的总过滤结果的结果逻辑值的各可能取值;
混淆处理单元93,用于将所述目标样本对应的单项统计值与所述逻辑推理单元92得到的结果逻辑值的各可能取值相乘后,再加上所述目标样本对应的噪声值,得到所述目标样本针对混淆统计因子的混淆统计结果的各可能值;
不经意传输单元94,用于根据本方具有的所述混淆处理单元93得到的所述目标样本对应的混淆统计结果的各可能值,与所述第一方具有的第一逻辑值,通过不经意传输的方式,以使所述第一方得到所述混淆统计结果的实际值,根据所述样本集合中各样本分别对应的混淆统计结果的实际值,进行样本统计运算。
通过本说明书实施例提供的装置,第一方的单方计算单元81首先根据目标样本对应的第一隐私数据,计算所述目标样本针对所述第一过滤条件的第一过滤结果的第一逻辑值;所述目标样本为所述样本集合中的任一样本;然后不经意传输单元82根据本方具有的所述第一逻辑值,与所述第二方的不经意传输单元94提供的所述目标样本针对混淆统计因子的混淆统计结果的各可能值,通过不经意传输的方式,得到所述混淆统计结果的实际值;其中,所述混淆统计结果的各可能值由所述第二方的单方计算单元91根据所述目标样本对应的第二隐私数据,计算所述目标样本针对所述第二过滤条件的第二过滤结果的第二逻辑值,再由逻辑推理单元92根据所述第二逻辑值与所述第一过滤结果的各可能值确定所述目标样本针对总过滤条件的总过滤结果的各可能取值,混淆处理单元93将所述目标样本对应的单项统计值与所述总过滤结果的各可能取值相乘后,再加上所述目标样本对应的噪声值得到的;最后单方统计单元83根据所述样本集合中各样本分别对应的混淆统计结果的实际值,进行样本统计运算。由上可见,本说明书实施例,针对样本数据垂直分布在多方的统计场景,通过使用不经意传输技术,对于由两方的多个过滤条件组合的复杂情形,只需一轮不经意传输便可得到混淆统计结果的实际值,交互轮数少,在过滤条件数量较小的情形下,通信量也较小,具有实用性。其中,不经意传输中,混淆统计结果各可能值是在目标样本对应的单项统计值与总过滤结果的各可能取值相乘后,再加上目标样本对应的噪声值得到的,整个过程中,不会泄露各方的隐私数据,能够同时满足安全性和实用性,支持多种统计运算,包括求和、计数等统计运算。
根据另一方面的实施例,还提供一种多方联合进行安全统计的装置,所述多方包括第一方和第二方,所述第一方具有样本集合中各样本分别对应的第一隐私数据,所述第二方具有所述各样本分别对应的第二隐私数据;所述安全统计包括,对所述各样本中符合总过滤条件的样本进行统计运算,所述总过滤条件包括,针对所述第一隐私数据的第一过滤条件和针对所述第二隐私数据的第二过滤条件;所述装置设置于所述第一方,所述装置用于执行图5所示实施例提供的方法中所述第一方执行的动作。图10示出根据另一个实施例的多方联合进行安全统计的装置的示意性框图。如图10所示,该装置1000包括:
单方计算单元1001,用于根据目标样本对应的第一隐私数据,计算所述目标样本针对所述第一过滤条件的第一过滤结果的第一逻辑值;所述目标样本为所述样本集合中的任一样本;
不经意传输单元1002,用于根据本方具有的所述单方计算单元1001得到的第一逻辑值,与所述第二方提供的所述目标样本对应的统计因子的统计结果的各可能值,通过叠加秘密共享的扩展不经意传输方式,得到所述统计结果的实际值的第一分片;所述第二方得到所述统计结果的实际值的第二分片;所述统计结果的各可能值由所述第二方根据所述目标样本对应的第二隐私数据,计算所述目标样本针对所述第二过滤条件的第二过滤结果的第二逻辑值,再根据所述第二逻辑值与所述第一过滤结果的各可能值,确定所述目标样本针对总过滤条件的总过滤结果的结果逻辑值的各可能取值,将所述目标样本对应的单项统计值与所述结果逻辑值的各可能取值相乘后得到的;
联合统计单元1003,用于根据本方具有的所述不经意传输单元1002得到的所述样本集合中各样本分别对应的统计结果的实际值的第一分片,与所述第二方具有的所述各样本分别对应的统计结果的实际值的第二分片,通过秘密共享的方式,进行样本统计运算。
可选地,作为一个实施例,所述样本对应于用户,所述第一隐私数据包括用户的若干第一特征项,所述第二隐私数据包括用户的若干第二特征项。
可选地,作为一个实施例,所述统计结果的实际值的第二分片为随机生成的噪声值的相反数。
可选地,作为一个实施例,所述样本统计运算包括,针对第二隐私数据中的第一数据项求和,所述单项统计值对应于所述第二隐私数据中的第一数据项;所述联合统计单元1003,具体用于将本方具有的所述样本集合中各样本分别对应的统计结果的实际值的第一分片进行求和,得到针对第二隐私数据中的第一数据项求和的最终结果的第一分片;所述第二方具有该最终结果的第二分片。
可选地,作为一个实施例,所述样本统计运算包括,对满足所述总过滤条件的样本进行计数,所述单项统计值为常数1;所述联合统计单元1003,具体用于将本方具有的所述样本集合中各样本分别对应的统计结果的实际值的第一分片进行求和,得到对满足所述总过滤条件的样本进行计数的最终结果的第一分片;所述第二方具有该最终结果的第二分片。
根据另一方面的实施例,还提供一种多方联合进行安全统计的装置,所述多方包括第一方和第二方,所述第一方具有样本集合中各样本分别对应的第一隐私数据,所述第二方具有所述各样本分别对应的第二隐私数据;所述安全统计包括,对所述各样本中符合总过滤条件的样本进行统计运算,所述总过滤条件包括,针对所述第一隐私数据的第一过滤条件和针对所述第二隐私数据的第二过滤条件;所述装置设置于所述第二方,所述装置用于执行图7所示实施例提供的方法中所述第二方执行的动作。图11示出根据另一个实施例的多方联合进行安全统计的装置的示意性框图。如图11所示,该装置1100包括:
单方计算单元1101,用于根据目标样本对应的第二隐私数据,计算所述目标样本针对所述第二过滤条件的第二过滤结果的第二逻辑值;所述目标样本为所述样本集合中的任一样本;
逻辑推理单元1102,用于根据所述单方计算单元1101得到的第二逻辑值与所述第一过滤条件的第一过滤结果的各可能值,确定所述目标样本针对总过滤条件的总过滤结果的结果逻辑值的各可能取值;
条件过滤单元1103,用于将所述目标样本对应的单项统计值与所述逻辑推理单元1102得到的结果逻辑值的各可能取值相乘后,得到所述目标样本针对统计因子的统计结果的各可能值;
不经意传输单元1104,用于根据本方具有的所述条件过滤单元1103得到的统计结果的各可能值,与所述第一方具有的所述目标样本针对所述第一过滤条件的第一过滤结果的第一逻辑值,通过叠加秘密共享的扩展不经意传输方式,得到所述统计结果的实际值的第二分片;所述第一方得到所述统计结果的实际值的第一分片;其中,所述第一逻辑值由所述第一方根据目标样本对应的第一隐私数据计算得到的;
联合统计单元1105,用于根据本方具有的所述不经意传输单元1104得到的所述样本集合中各样本分别对应的统计结果的实际值的第二分片,与所述第一方具有的所述各样本分别对应的统计结果的实际值的第一分片,通过秘密共享的方式,进行样本统计运算。
本说明书实施例提供的装置,针对样本数据垂直分布在多方的统计场景,通过使用不经意传输技术,对于由两方的多个过滤条件组合的复杂情形,只需一轮不经意传输便可得到总过滤结果的结果逻辑值,交互轮数少,在过滤条件数量较小的情形下,通信量也较小,具有实用性。此外,通过叠加秘密共享的扩展不经意传输方式,输出结果为两方分片的形式,使得不经意传输技术能够和秘密共享技术融合,支持多种统计运算,包括求和、计数等统计运算。整个过程中,不会泄露各方的隐私数据,能够同时满足安全性和实用性。
根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行结合图2或图4或图5或图7所描述的方法。
根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现结合图2或图4或图5或图7所描述的方法。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (26)

1.一种多方联合进行安全统计的方法,所述多方包括第一方和第二方,所述第一方具有样本集合中各样本分别对应的第一隐私数据,所述第二方具有所述各样本分别对应的第二隐私数据;所述安全统计包括,对所述各样本中符合总过滤条件的样本进行统计运算,所述总过滤条件包括,针对所述第一隐私数据的第一过滤条件和针对所述第二隐私数据的第二过滤条件;所述方法通过所述第一方执行,包括:
根据目标样本对应的第一隐私数据,计算所述目标样本针对所述第一过滤条件的第一过滤结果的第一逻辑值;所述目标样本为所述样本集合中的任一样本;
根据本方具有的所述第一逻辑值,与所述第二方提供的所述目标样本针对混淆统计因子的混淆统计结果的各可能值,通过不经意传输的方式,得到所述混淆统计结果的实际值;其中,所述混淆统计结果的各可能值由所述第二方根据所述目标样本对应的第二隐私数据,计算所述目标样本针对所述第二过滤条件的第二过滤结果的第二逻辑值,再根据所述第二逻辑值与所述第一过滤结果的各可能值确定所述目标样本针对总过滤条件的总过滤结果的各可能取值,将所述目标样本对应的单项统计值与所述总过滤结果的各可能取值相乘后,再加上所述目标样本对应的噪声值得到的;
根据所述样本集合中各样本分别对应的混淆统计结果的实际值,进行样本统计运算。
2.如权利要求1所述的方法,其中,所述样本对应于用户,所述第一隐私数据包括用户的若干第一特征项,所述第二隐私数据包括用户的若干第二特征项。
3.如权利要求1所述的方法,其中,所述样本集合中各样本分别对应的噪声值之和为0或预设噪声值。
4.如权利要求1所述的方法,其中,所述样本统计运算包括,针对第二隐私数据中的第一数据项求和,所述单项统计值对应于所述第二隐私数据中的第一数据项;所述进行样本统计运算的步骤包括:
将所述样本集合中各样本分别对应的混淆统计结果的实际值进行求和,得到针对第二隐私数据中的第一数据项求和的最终结果。
5.如权利要求1所述的方法,其中,所述样本统计运算包括,对满足所述总过滤条件的样本进行计数,所述单项统计值为常数1;所述进行样本统计运算的步骤包括:
将所述样本集合中各样本分别对应的混淆统计结果的实际值进行求和,得到对满足所述总过滤条件的样本进行计数的最终结果。
6.一种多方联合进行安全统计的方法,所述多方包括第一方和第二方,所述第一方具有样本集合中各样本分别对应的第一隐私数据,所述第二方具有所述各样本分别对应的第二隐私数据;所述安全统计包括,对所述各样本中符合总过滤条件的样本进行统计运算,所述总过滤条件包括,针对所述第一隐私数据的第一过滤条件和针对所述第二隐私数据的第二过滤条件;所述方法通过所述第二方执行,包括:
根据目标样本对应的第二隐私数据,计算所述目标样本针对所述第二过滤条件的第二过滤结果的第二逻辑值;所述目标样本为所述样本集合中的任一样本;
根据所述第二逻辑值与所述第一过滤条件的第一过滤结果的各可能值,确定所述目标样本针对总过滤条件的总过滤结果的结果逻辑值的各可能取值;
将所述目标样本对应的单项统计值与所述结果逻辑值的各可能取值相乘后,再加上所述目标样本对应的噪声值,得到所述目标样本针对混淆统计因子的混淆统计结果的各可能值;
根据本方具有的所述目标样本对应的混淆统计结果的各可能值,与所述第一方具有的第一逻辑值,通过不经意传输的方式,以使所述第一方得到所述混淆统计结果的实际值,根据所述样本集合中各样本分别对应的混淆统计结果的实际值,进行样本统计运算。
7.一种多方联合进行安全统计的方法,所述多方包括第一方和第二方,所述第一方具有样本集合中各样本分别对应的第一隐私数据,所述第二方具有所述各样本分别对应的第二隐私数据;所述安全统计包括,对所述各样本中符合总过滤条件的样本进行统计运算,所述总过滤条件包括,针对所述第一隐私数据的第一过滤条件和针对所述第二隐私数据的第二过滤条件;所述方法通过所述第一方执行,包括:
根据目标样本对应的第一隐私数据,计算所述目标样本针对所述第一过滤条件的第一过滤结果的第一逻辑值;所述目标样本为所述样本集合中的任一样本;
根据本方具有的所述第一逻辑值,与所述第二方提供的所述目标样本对应的统计因子的统计结果的各可能值,通过叠加秘密共享的扩展不经意传输方式,得到所述统计结果的实际值的第一分片;所述第二方得到所述统计结果的实际值的第二分片;所述统计结果的各可能值由所述第二方根据所述目标样本对应的第二隐私数据,计算所述目标样本针对所述第二过滤条件的第二过滤结果的第二逻辑值,再根据所述第二逻辑值与所述第一过滤结果的各可能值,确定所述目标样本针对总过滤条件的总过滤结果的结果逻辑值的各可能取值,将所述目标样本对应的单项统计值与所述结果逻辑值的各可能取值相乘后得到的;
根据本方具有的所述样本集合中各样本分别对应的统计结果的实际值的第一分片,与所述第二方具有的所述各样本分别对应的统计结果的实际值的第二分片,通过秘密共享的方式,进行样本统计运算。
8.如权利要求7所述的方法,其中,所述样本对应于用户,所述第一隐私数据包括用户的若干第一特征项,所述第二隐私数据包括用户的若干第二特征项。
9.如权利要求7所述的方法,其中,所述统计结果的实际值的第二分片为随机生成的噪声值的相反数。
10.如权利要求7所述的方法,其中,所述样本统计运算包括,针对第二隐私数据中的第一数据项求和,所述单项统计值对应于所述第二隐私数据中的第一数据项;所述进行样本统计运算的步骤包括:
将本方具有的所述样本集合中各样本分别对应的统计结果的实际值的第一分片进行求和,得到针对第二隐私数据中的第一数据项求和的最终结果的第一分片;所述第二方具有该最终结果的第二分片。
11.如权利要求7所述的方法,其中,所述样本统计运算包括,对满足所述总过滤条件的样本进行计数,所述单项统计值为常数1;所述进行样本统计运算的步骤包括:
将本方具有的所述样本集合中各样本分别对应的统计结果的实际值的第一分片进行求和,得到对满足所述总过滤条件的样本进行计数的最终结果的第一分片;所述第二方具有该最终结果的第二分片。
12.一种多方联合进行安全统计的方法,所述多方包括第一方和第二方,所述第一方具有样本集合中各样本分别对应的第一隐私数据,所述第二方具有所述样本集合中各样本分别对应的第二隐私数据;所述安全统计包括,对所述各样本中符合总过滤条件的样本进行统计运算,所述总过滤条件包括,针对所述第一隐私数据的第一过滤条件和针对所述第二隐私数据的第二过滤条件;所述方法通过所述第二方执行,包括:
根据目标样本对应的第二隐私数据,计算所述目标样本针对所述第二过滤条件的第二过滤结果的第二逻辑值;所述目标样本为所述样本集合中的任一样本;
根据所述第二逻辑值与所述第一过滤条件的第一过滤结果的各可能值,确定所述目标样本针对总过滤条件的总过滤结果的结果逻辑值的各可能取值;
将所述目标样本对应的单项统计值与所述结果逻辑值的各可能取值相乘后,得到所述目标样本针对统计因子的统计结果的各可能值;
根据本方具有的所述统计结果的各可能值,与所述第一方具有的所述目标样本针对所述第一过滤条件的第一过滤结果的第一逻辑值,通过叠加秘密共享的扩展不经意传输方式,得到所述统计结果的实际值的第二分片;所述第一方得到所述统计结果的实际值的第一分片;其中,所述第一逻辑值由所述第一方根据目标样本对应的第一隐私数据计算得到的;
根据本方具有的所述样本集合中各样本分别对应的统计结果的实际值的第二分片,与所述第一方具有的所述各样本分别对应的统计结果的实际值的第一分片,通过秘密共享的方式,进行样本统计运算。
13.一种多方联合进行安全统计的装置,所述多方包括第一方和第二方,所述第一方具有样本集合中各样本分别对应的第一隐私数据,所述第二方具有所述各样本分别对应的第二隐私数据;所述安全统计包括,对所述各样本中符合总过滤条件的样本进行统计运算,所述总过滤条件包括,针对所述第一隐私数据的第一过滤条件和针对所述第二隐私数据的第二过滤条件;所述装置设置于所述第一方,包括:
单方计算单元,用于根据目标样本对应的第一隐私数据,计算所述目标样本针对所述第一过滤条件的第一过滤结果的第一逻辑值;所述目标样本为所述样本集合中的任一样本;
不经意传输单元,用于根据本方具有的所述单方计算单元得到的第一逻辑值,与所述第二方提供的所述目标样本针对混淆统计因子的混淆统计结果的各可能值,通过不经意传输的方式,得到所述混淆统计结果的实际值;其中,所述混淆统计结果的各可能值由所述第二方根据所述目标样本对应的第二隐私数据,计算所述目标样本针对所述第二过滤条件的第二过滤结果的第二逻辑值,再根据所述第二逻辑值与所述第一过滤结果的各可能值确定所述目标样本针对总过滤条件的总过滤结果的各可能取值,将所述目标样本对应的单项统计值与所述总过滤结果的各可能取值相乘后,再加上所述目标样本对应的噪声值得到的;
单方统计单元,用于根据所述不经意传输单元得到的所述样本集合中各样本分别对应的混淆统计结果的实际值,进行样本统计运算。
14.如权利要求13所述的装置,其中,所述样本对应于用户,所述第一隐私数据包括用户的若干第一特征项,所述第二隐私数据包括用户的若干第二特征项。
15.如权利要求13所述的装置,其中,所述样本集合中各样本分别对应的噪声值之和为0或预设噪声值。
16.如权利要求13所述的装置,其中,所述样本统计运算包括,针对第二隐私数据中的第一数据项求和,所述单项统计值对应于所述第二隐私数据中的第一数据项;所述单方统计单元,具体用于将所述样本集合中各样本分别对应的混淆统计结果的实际值进行求和,得到针对第二隐私数据中的第一数据项求和的最终结果。
17.如权利要求13所述的装置,其中,所述样本统计运算包括,对满足所述总过滤条件的样本进行计数,所述单项统计值为常数1;所述单方统计单元,具体用于将所述样本集合中各样本分别对应的混淆统计结果的实际值进行求和,得到对满足所述总过滤条件的样本进行计数的最终结果。
18.一种多方联合进行安全统计的装置,所述多方包括第一方和第二方,所述第一方具有样本集合中各样本分别对应的第一隐私数据,所述第二方具有所述各样本分别对应的第二隐私数据;所述安全统计包括,对所述各样本中符合总过滤条件的样本进行统计运算,所述总过滤条件包括,针对所述第一隐私数据的第一过滤条件和针对所述第二隐私数据的第二过滤条件;所述装置设置于所述第二方,包括:
单方计算单元,用于根据目标样本对应的第二隐私数据,计算所述目标样本针对所述第二过滤条件的第二过滤结果的第二逻辑值;所述目标样本为所述样本集合中的任一样本;
逻辑推理单元,用于根据所述单方计算单元得到的第二逻辑值与所述第一过滤条件的第一过滤结果的各可能值,确定所述目标样本针对总过滤条件的总过滤结果的结果逻辑值的各可能取值;
混淆处理单元,用于将所述目标样本对应的单项统计值与所述逻辑推理单元得到的结果逻辑值的各可能取值相乘后,再加上所述目标样本对应的噪声值,得到所述目标样本针对混淆统计因子的混淆统计结果的各可能值;
不经意传输单元,用于根据本方具有的所述混淆处理单元得到的所述目标样本对应的混淆统计结果的各可能值,与所述第一方具有的第一逻辑值,通过不经意传输的方式,以使所述第一方得到所述混淆统计结果的实际值,根据所述样本集合中各样本分别对应的混淆统计结果的实际值,进行样本统计运算。
19.一种多方联合进行安全统计的装置,所述多方包括第一方和第二方,所述第一方具有样本集合中各样本分别对应的第一隐私数据,所述第二方具有所述各样本分别对应的第二隐私数据;所述安全统计包括,对所述各样本中符合总过滤条件的样本进行统计运算,所述总过滤条件包括,针对所述第一隐私数据的第一过滤条件和针对所述第二隐私数据的第二过滤条件;所述装置设置于所述第一方,包括:
单方计算单元,用于根据目标样本对应的第一隐私数据,计算所述目标样本针对所述第一过滤条件的第一过滤结果的第一逻辑值;所述目标样本为所述样本集合中的任一样本;
不经意传输单元,用于根据本方具有的所述单方计算单元得到的第一逻辑值,与所述第二方提供的所述目标样本对应的统计因子的统计结果的各可能值,通过叠加秘密共享的扩展不经意传输方式,得到所述统计结果的实际值的第一分片;所述第二方得到所述统计结果的实际值的第二分片;所述统计结果的各可能值由所述第二方根据所述目标样本对应的第二隐私数据,计算所述目标样本针对所述第二过滤条件的第二过滤结果的第二逻辑值,再根据所述第二逻辑值与所述第一过滤结果的各可能值,确定所述目标样本针对总过滤条件的总过滤结果的结果逻辑值的各可能取值,将所述目标样本对应的单项统计值与所述结果逻辑值的各可能取值相乘后得到的;
联合统计单元,用于根据本方具有的所述不经意传输单元得到的所述样本集合中各样本分别对应的统计结果的实际值的第一分片,与所述第二方具有的所述各样本分别对应的统计结果的实际值的第二分片,通过秘密共享的方式,进行样本统计运算。
20.如权利要求19所述的装置,其中,所述样本对应于用户,所述第一隐私数据包括用户的若干第一特征项,所述第二隐私数据包括用户的若干第二特征项。
21.如权利要求19所述的装置,其中,所述统计结果的实际值的第二分片为随机生成的噪声值的相反数。
22.如权利要求19所述的装置,其中,所述样本统计运算包括,针对第二隐私数据中的第一数据项求和,所述单项统计值对应于所述第二隐私数据中的第一数据项;所述联合统计单元,具体用于将本方具有的所述样本集合中各样本分别对应的统计结果的实际值的第一分片进行求和,得到针对第二隐私数据中的第一数据项求和的最终结果的第一分片;所述第二方具有该最终结果的第二分片。
23.如权利要求19所述的装置,其中,所述样本统计运算包括,对满足所述总过滤条件的样本进行计数,所述单项统计值为常数1;所述联合统计单元,具体用于将本方具有的所述样本集合中各样本分别对应的统计结果的实际值的第一分片进行求和,得到对满足所述总过滤条件的样本进行计数的最终结果的第一分片;所述第二方具有该最终结果的第二分片。
24.一种多方联合进行安全统计的装置,所述多方包括第一方和第二方,所述第一方具有样本集合中各样本分别对应的第一隐私数据,所述第二方具有所述样本集合中各样本分别对应的第二隐私数据;所述安全统计包括,对所述各样本中符合总过滤条件的样本进行统计运算,所述总过滤条件包括,针对所述第一隐私数据的第一过滤条件和针对所述第二隐私数据的第二过滤条件;所述装置设置于所述第二方,包括:
单方计算单元,用于根据目标样本对应的第二隐私数据,计算所述目标样本针对所述第二过滤条件的第二过滤结果的第二逻辑值;所述目标样本为所述样本集合中的任一样本;
逻辑推理单元,用于根据所述单方计算单元得到的第二逻辑值与所述第一过滤条件的第一过滤结果的各可能值,确定所述目标样本针对总过滤条件的总过滤结果的结果逻辑值的各可能取值;
条件过滤单元,用于将所述目标样本对应的单项统计值与所述逻辑推理单元得到的结果逻辑值的各可能取值相乘后,得到所述目标样本针对统计因子的统计结果的各可能值;
不经意传输单元,用于根据本方具有的所述条件过滤单元得到的统计结果的各可能值,与所述第一方具有的所述目标样本针对所述第一过滤条件的第一过滤结果的第一逻辑值,通过叠加秘密共享的扩展不经意传输方式,得到所述统计结果的实际值的第二分片;所述第一方得到所述统计结果的实际值的第一分片;其中,所述第一逻辑值由所述第一方根据目标样本对应的第一隐私数据计算得到的;
联合统计单元,用于根据本方具有的所述不经意传输单元得到的所述样本集合中各样本分别对应的统计结果的实际值的第二分片,与所述第一方具有的所述各样本分别对应的统计结果的实际值的第一分片,通过秘密共享的方式,进行样本统计运算。
25.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-12中任一项的所述的方法。
26.一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-12中任一项的所述的方法。
CN202010956250.8A 2020-09-11 2020-09-11 多方联合进行安全统计的方法和装置 Active CN112084384B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010956250.8A CN112084384B (zh) 2020-09-11 2020-09-11 多方联合进行安全统计的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010956250.8A CN112084384B (zh) 2020-09-11 2020-09-11 多方联合进行安全统计的方法和装置

Publications (2)

Publication Number Publication Date
CN112084384A true CN112084384A (zh) 2020-12-15
CN112084384B CN112084384B (zh) 2023-10-27

Family

ID=73737614

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010956250.8A Active CN112084384B (zh) 2020-09-11 2020-09-11 多方联合进行安全统计的方法和装置

Country Status (1)

Country Link
CN (1) CN112084384B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112765616A (zh) * 2020-12-18 2021-05-07 百度在线网络技术(北京)有限公司 多方安全计算方法、装置、电子设备和存储介质
CN112818337A (zh) * 2021-01-22 2021-05-18 支付宝(杭州)信息技术有限公司 一种程序运行方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060136205A1 (en) * 2004-12-21 2006-06-22 Song Jianming J Method of refining statistical pattern recognition models and statistical pattern recognizers
US20180219842A1 (en) * 2017-01-31 2018-08-02 Hewlett Packard Enterprise Development Lp Performing Privacy-Preserving Multi-Party Analytics on Vertically Partitioned Local Data
US20180218171A1 (en) * 2017-01-31 2018-08-02 Hewlett Packard Enterprise Development Lp Performing privacy-preserving multi-party analytics on horizontally partitioned local data
CN109756442A (zh) * 2017-11-01 2019-05-14 清华大学 基于混淆电路的数据统计方法、装置以及设备
CN110347432A (zh) * 2019-06-17 2019-10-18 海光信息技术有限公司 处理器、分支预测器及其数据处理方法、分支预测方法
US20200228340A1 (en) * 2017-08-10 2020-07-16 Visa International Service Association Use of biometrics and privacy preserving methods to authenticate account holders online
CN111523143A (zh) * 2020-07-03 2020-08-11 支付宝(杭州)信息技术有限公司 针对多方的隐私数据进行聚类的方法和装置
CN111523145A (zh) * 2020-07-03 2020-08-11 支付宝(杭州)信息技术有限公司 针对隐私数据进行安全运算的方法和装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060136205A1 (en) * 2004-12-21 2006-06-22 Song Jianming J Method of refining statistical pattern recognition models and statistical pattern recognizers
US20180219842A1 (en) * 2017-01-31 2018-08-02 Hewlett Packard Enterprise Development Lp Performing Privacy-Preserving Multi-Party Analytics on Vertically Partitioned Local Data
US20180218171A1 (en) * 2017-01-31 2018-08-02 Hewlett Packard Enterprise Development Lp Performing privacy-preserving multi-party analytics on horizontally partitioned local data
US20200228340A1 (en) * 2017-08-10 2020-07-16 Visa International Service Association Use of biometrics and privacy preserving methods to authenticate account holders online
CN109756442A (zh) * 2017-11-01 2019-05-14 清华大学 基于混淆电路的数据统计方法、装置以及设备
CN110347432A (zh) * 2019-06-17 2019-10-18 海光信息技术有限公司 处理器、分支预测器及其数据处理方法、分支预测方法
CN111523143A (zh) * 2020-07-03 2020-08-11 支付宝(杭州)信息技术有限公司 针对多方的隐私数据进行聚类的方法和装置
CN111523145A (zh) * 2020-07-03 2020-08-11 支付宝(杭州)信息技术有限公司 针对隐私数据进行安全运算的方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张恩;刘亚鹏;: "基于混淆布鲁姆过滤器的云外包隐私集合比较协议", 计算机应用, no. 10 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112765616A (zh) * 2020-12-18 2021-05-07 百度在线网络技术(北京)有限公司 多方安全计算方法、装置、电子设备和存储介质
CN112765616B (zh) * 2020-12-18 2024-02-02 百度在线网络技术(北京)有限公司 多方安全计算方法、装置、电子设备和存储介质
CN112818337A (zh) * 2021-01-22 2021-05-18 支付宝(杭州)信息技术有限公司 一种程序运行方法及系统

Also Published As

Publication number Publication date
CN112084384B (zh) 2023-10-27

Similar Documents

Publication Publication Date Title
Wagh et al. Dp-cryptography: marrying differential privacy and cryptography in emerging applications
EP4109314A1 (en) Secure-multi-party computation of differentially private heavy hitters
CN109726580B (zh) 一种数据统计方法和装置
Navarro-Arribas et al. Information fusion in data privacy: A survey
CN112084384A (zh) 多方联合进行安全统计的方法和装置
US20220247548A1 (en) Efficient distributed privacy-preserving computations
Truex et al. Privacy-preserving inductive learning with decision trees
CN111460510A (zh) 基于隐私保护确定相同业务数据的方法及装置
Sheikh et al. A modified CK-secure sum protocol for multi-party computation
CN115801253A (zh) 一种用于安全多方计算的多方秘密分享方法及电子设备
Rao et al. Review of certain recent advances in randomized response techniques
CN112084530B (zh) 多方联合进行安全统计的方法和装置
US11552783B2 (en) System architecture and method of processing data therein
CN114154200B (zh) 基于可交换弱伪随机函数的隐私集合求并方法及系统
CN112199639A (zh) 多方联合进行安全统计的方法和装置
Lamba et al. Privacy-preserving frequent itemset mining in vertically partitioned database using symmetric homomorphic encryption scheme
Case et al. The privacy-preserving padding problem: non-negative mechanisms for conservative answers with differential privacy
RU2774815C2 (ru) Способ безопасной передачи частей данных, описывающих единый объект и хранящихся в разных базах данных
CN116522402B (zh) 基于隐私计算的客户识别方法、装置、设备及介质
Zhan et al. Privacy-preserving multi-party decision tree induction
Mardi et al. Privacy Preserving Opinion Publishing System for Opinion Poll
Sekhavat et al. Mining frequent itemsets in the presence of malicious participants
CN116244650B (zh) 特征分箱方法、装置、电子设备和计算机可读存储介质
Dniestrzański Alpha Proportionality and Penrose Square Root Law
Zhan et al. Privacy-preserving multi-party decision tree induction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant