CN112597525A - 基于隐私保护的数据处理方法、装置和服务器 - Google Patents

基于隐私保护的数据处理方法、装置和服务器 Download PDF

Info

Publication number
CN112597525A
CN112597525A CN202110237534.6A CN202110237534A CN112597525A CN 112597525 A CN112597525 A CN 112597525A CN 202110237534 A CN202110237534 A CN 202110237534A CN 112597525 A CN112597525 A CN 112597525A
Authority
CN
China
Prior art keywords
data
server
groups
characteristic
tag
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110237534.6A
Other languages
English (en)
Other versions
CN112597525B (zh
Inventor
周亚顺
李漓春
尹栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202110237534.6A priority Critical patent/CN112597525B/zh
Publication of CN112597525A publication Critical patent/CN112597525A/zh
Application granted granted Critical
Publication of CN112597525B publication Critical patent/CN112597525B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Storage Device Security (AREA)

Abstract

本说明书提供了基于隐私保护的数据处理方法、装置和服务器。第一服务器根据第二服务器发送的第一标签列,确定出特征数据所对应的数据标签的密文数据;再根据数据值排列特征数据,得到第一特征列;基于第一特征列,将特征数据划分为多个第一数据组,并统计出第一数据组的数据标签的密文和;第二服务器获取上述数据,并通过解密得到第一数据组的数据标签的明文和;再根据预设的卡方分组规则,对第一数据组进行进一步合并,得到合并后的第二数据组的数据标签的明文和,以及合并参数;第一服务器获取并根据上述数据计算出特征数据的信息值。从而可以在保护双方数据隐私的前提下,通过合作完成符合要求的数据分箱,并确定出特征数据的信息值。

Description

基于隐私保护的数据处理方法、装置和服务器
技术领域
本说明书属于互联网技术领域,尤其涉及基于隐私保护的数据处理方法、装置和服务器。
背景技术
在许多数据处理场景中,常常会出现一个数据方(例如,第一数据方)持有与一组标识信息对应的特征数据,而另一个数据方(例如,第二数据方)持有与同一组标识信息对应的数据标签的情况。有时第二数据方需要与第一数据方合作进行下述数据处理:先合作对第一数据方所持有的特征数据进行指定要求的数据分箱,再合作基于分箱后的特征数据计算出特征数据的信息值。并且,还要求在上述数据处理过程中保护双方的数据隐私,避免向对方泄露己方所持有的数据。
目前,亟需一种能够在保护双方数据隐私的前提下,使得不同的数据方可以通过合作完成符合要求的数据分箱,并基于分箱后的数据确定出特征数据的信息值的方法。
发明内容
本说明书提供了一种基于隐私保护的数据处理方法、装置和服务器,以在保护数据隐私的前提下,使得第一服务器和第二服务可以通过合作,完成符合要求的数据分箱,并基于分箱后的数据准确地确定出特征数据的信息值。
本说明书提供的一种基于隐私保护的数据处理方法、装置和服务器是这样实现的:
一种基于隐私保护的数据处理方法,应用于第一服务器,包括:接收第二服务器发送的第一标签列,并根据所述第一标签列确定出特征数据所对应的数据标签的密文数据;其中,所述第一标签列包含有与标识信息对应的数据标签的密文数据,所述特征数据包括与标识信息对应的特征数据;根据特征数据的数据值,排列特征数据,以得到第一特征列;根据所述第一特征列,将所述特征数据划分为按顺序排列的多个第一数据组;并根据特征数据所对应的数据标签的密文数据,统计出各个第一数据组的数据标签的密文和;向所述第二服务器提供各个第一数据组的数据标签的密文和、各个第一数据组所包含的特征数据的数量,以及第一数据组的排列顺序;其中,所述第二服务器解密得到各个数据组的数据标签的明文和;所述第二服务器根据预设的卡方分组规则,利用第一数据组的排列顺序、各个第一数据组的数据标签的明文和、各个第一数据组所包含的特征数据的数量,对第一数据组进行多次合并,得到多个第二数据组的数据标签的明文和,并记录合并参数;接收第二服务器发送的多个第二数据组的数据标签的明文和,以及合并参数;并根据所述多个第二数据组的数据标签的明文和、合并参数,以及多个第一数据组,确定出特征数据的信息值。
一种基于隐私保护的数据处理方法,应用于第二服务器,包括:将第一标签列发送至第一服务器;其中,所述第一标签列包含有与标识信息对应的数据标签的密文数据;所述第一服务器根据第一标签列确定出特征数据所对应的数据标签的密文数据;所述第一服务器还将多个特征数据划分为多个第一数据组,统计得到各个第一数据组的数据标签的密文和;获取来自第一服务器的各个第一数据组的数据标签的密文和、各个第一数据组所包含的特征数据的数量,以及第一数据组的排列顺序;对所述各个第一数据组的数据标签的密文和进行解密,得到各个第一数据组的数据标签的明文和;并根据第一数据组的排列顺序排列第一数据组,得到排序后的多个第一数据组;根据预设的卡方分组规则,利用各个第一数据组的数据标签的明文和、各个第一数据组所包含的特征数据的数量,对所述排序后的多个第一数据组进行多次合并,得到多个第二数据组的数据标签的明文和,并记录合并参数;将所述多个第二数据组的数据标签的明文和,以及合并参数发送至第一服务器;其中,第一服务器根据所述多个第二数据组的数据标签的明文和、合并参数,以及多个第一数据组,确定出特征数据的信息值。
一种基于隐私保护的数据处理装置,包括:接收模块,用于接收第二服务器发送的第一标签列,并根据所述第一标签列确定出特征数据所对应的数据标签的密文数据;其中,所述第一标签列包含有与标识信息对应的数据标签的密文数据,所述特征数据包括与标识信息对应的特征数据;排列模块,用于根据特征数据的数据值,排列特征数据,以得到第一特征列;划分模块,用于根据所述第一特征列,将所述特征数据划分为按顺序排列的多个第一数据组;并根据特征数据所对应的数据标签的密文数据,统计出各个第一数据组的数据标签的密文和;传输模块,用于使得所述第二服务器获取各个第一数据组的数据标签的密文和、各个第一数据组所包含的特征数据的数量,以及第一数据组的排列顺序;其中,所述第二服务器解密得到各个数据组的数据标签的明文和;所述第二服务器根据预设的卡方分组规则,利用第一数据组的排列顺序、各个第一数据组的数据标签的明文和、各个第一数据组所包含的特征数据的数量,对第一数据组进行多次合并,得到多个第二数据组的数据标签的明文和,并记录合并参数;确定模块,用于接收第二服务器发送的多个第二数据组的数据标签的明文和,以及合并参数;并根据所述多个第二数据组的数据标签的明文和、合并参数,以及多个第一数据组,确定出特征数据的信息值。
一种基于隐私保护的数据处理装置,包括:第一发送模块,用于将第一标签列发送至第一服务器;其中,所述第一标签列包含有与标识信息对应的数据标签的密文数据;所述第一服务器根据第一标签列确定出特征数据所对应的数据标签的密文数据;所述第一服务器还将多个特征数据划分为多个第一数据组,统计得到各个第一数据组的数据标签的密文和;获取模块,用于获取来自第一服务器的各个第一数据组的数据标签的密文和、各个第一数据组所包含的特征数据的数量,以及第一数据组的排列顺序;处理模块,用于对所述各个第一数据组的数据标签的密文和进行解密,得到各个第一数据组的数据标签的明文和;并根据第一数据组的排列顺序排列第一数据组,得到排序后的多个第一数据组;合并模块,用于根据预设的卡方分组规则,利用各个第一数据组的数据标签的明文和、各个第一数据组所包含的特征数据的数量,对所述排序后的多个第一数据组进行多次合并,得到多个第二数据组的数据标签的明文和,并记录合并参数;第二发送模块,用于将所述多个第二数据组的数据标签的明文和,以及合并参数发送至第一服务器;其中,第一服务器根据所述多个第二数据组的数据标签的明文和、合并参数,以及多个第一数据组,确定出特征数据的信息值。
一种服务器,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现所述基于隐私保护的数据处理方法的相关步骤。
本说明书提供的一种基于隐私保护的数据处理方法、装置和服务器,持有特征数据的第一服务器可以根据第二服务器发送的包含有与标识信息对应的数据标签的密文数据的第一标签列,先确定出特征数据所对应的数据标签的密文数据;再根据特征数据的数据值排列特征数据,得到第一特征列;进而基于第一特征列,将多个特征数据划分为多个第一数据组,并统计出各个第一数据组的数据标签的密文和;第二服务器可以获取上述各个第一数据组的数据标签的密文和等数据,并通过解密得到各个第一数据组的数据标签的明文和;再根据预设的卡方分组规则,对多个第一数据组进行进一步的多次合并,以得到合并后的多个第二数据组的数据标签的明文和,以及合并参数;第一服务器获取并根据上述数据,计算出特征数据的信息值,从而可以使得第一服务器和第二服务器在保护双方数据隐私的前提下,通过合作完成符合要求的数据分箱;并基于分箱后的数据,准确地确定出特征数据的信息值,降低了上述数据处理过程中双方各自持有的数据遭到泄露的风险。
附图说明
为了更清楚地说明本说明书实施例,下面将对实施例中所需要使用的附图作简单地介绍,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是应用本说明书实施例提供的一种基于隐私保护的数据处理方法的系统的一个实施例的示意图;
图2是本说明书的一个实施例提供的基于隐私保护的数据处理方法的流程示意图;
图3是在一个场景示例中,应用本说明书实施例提供的基于隐私保护的数据处理方法的一种实施例的示意图;
图4是在一个场景示例中,应用本说明书实施例提供的基于隐私保护的数据处理方法的一种实施例的示意图;
图5是在一个场景示例中,应用本说明书实施例提供的基于隐私保护的数据处理方法的一种实施例的示意图;
图6是本说明书的一个实施例提供的基于隐私保护的数据处理方法的流程示意图;
图7是应用本说明书实施例提供的另一种基于隐私保护的数据处理方法的系统的一个实施例的示意图;
图8是本说明书的一个实施例提供的服务器的结构组成示意图;
图9是本说明书的一个实施例提供的基于隐私保护的数据处理装置的结构组成示意图;
图10是本说明书的一个实施例提供的基于隐私保护的数据处理装置的结构组成示意图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
本说明书实施例提供一种基于隐私保护的数据处理方法,该方法具体可以应用于包含有第一服务器和第二服务器的系统中。具体可以参阅图1所示。系统中第一服务器和第二服务器可以通过有线或无线的方式相连,以进行具体的数据交互。
其中,上述第一服务器具体可以理解为部署于第一数据方一侧的服务器。具体的,第一服务器至少可以持有第一数据方所拥有的与一组标识信息对应的特征数据。其中,上述标识信息具体可以用于指示所对应的数据对象(例如,用户对象、订单对象、商品对象等)。上述特征数据具体可以理解为一种通过数字来描述数据对象属性的数值型特征数据。例如,数据对象年龄、月收入、逾期次数等等。
上述第二服务器具体可以理解为部署于第二数据方一侧的服务器。具体的,第二服务器至少可以持有第二数据方所拥有的与同一组标识信息对应的数据标签。上述数据标签具体可以包括正标签和负标签两类。对应不同的应用场景,上述正标签和负标签可以用于表征不同的含义。具体的,例如,在用户的信用风险检测场景中,上述正标签可以是一种用于表征用户不存在信用风险的标签;相对的,上述负标签可以是一种用于表征用户存在信用风险的标签。
在本实施例中,上述第一服务器、第二服务器具体可以包括一种能够实现数据传输、数据处理等功能的后台服务器。具体的,上述第一服务器、第二服务器例如可以为一个具有数据运算、存储功能以及网络交互功能的电子设备。或者,上述第一服务器、第二服务器也可以为运行于该电子设备中,为数据处理、存储和网络交互提供支持的软件程序。在本实施例中,并不具体限定上述第一服务器、第二服务器所包含的服务器数量。上述第一服务器、第二服务器具体可以为一个服务器,也可以为几个服务器,或由若干服务器形成的服务器集群。
当前要求:在保护双方的数据隐私的前提下,第一服务器和第二服务器先利用各自所分别持有的特征数据和标签数据通过合作进行符合要求的数据分箱;再基于分箱后的特征数据计算出特征数据信息值。
在本实施例中,具体实施时,可以由第一服务器或第二服务器发起数据处理请求。
相应的,第一服务器可以响应该处理请求,根据基于标识信息的排列顺序,排列所持有的多个特征数据,得到初始特征列。
同时,第二服务器可以响应该处理请求,根据相同的,基于标识信息的排列顺序,排列所持有的多个数据标签,得到初始标签列。
由于初始标签列中的数据标签的排列顺序与初始特征列中的特征数据的排列顺序相同。因此可以对应相同标识信息的特征数据在初始标签列中的位置排序与数据标签在标签列中的位置排序相同。
接着,第二服务器可以通过同态加密算法对标签列中的各个数据标签进行加密处理,得到包含有多个数据标签的密文数据的第一标签列。
第二服务器将上述第一标签发送至第一服务器。
第一服务器在接收到上述第一标签列后,可以根据第一标签列和初始特征列,通过在第一标签列中检索与初始特征列中的特征数据的位置排序相同的数据标签的密文数据,确定出与各个特征数据所对应的数据标签的密文数据。
接着,第一服务器可以根据特征数据的数据值,将多个特征数据根据基于数据值的排列顺序(例如,数据值从小到大顺序,或数据值从大到小顺序)进行重新排列,得到对应的第一特征列(该步骤也可以在接收到第一标签列之前进行)。
第一服务器可以在上述第一特征列上,将多个特征数据划分为按顺序排列的多个第一数据组,完成第一次数据分箱(例如,等频分箱)。其中,不同的第一数据组之间所包含的特征数据的数量相同或相近,每一个第一数据组分别包含有一个或多个特征数据。
进一步,第一服务器可以确定出各个第一数据组所包含的特征数据的数据标签的密文数据,并统计得到各个第一数据组的数据标签的密文和。同时,第一服务器还会统计并记录各个第一数据组所包含的特征数据的数量,以及第一数据组的排列顺序。
第一服务器将上述各个第一数据组的数据标签的密文和、各个第一数据组所包含的特征数据的数量,以及第一数据组的排列顺序发送给第二服务器。
第二服务器可以先通过同态解密算法对所接收到的各个第一数据组的数据标签的密文和进行解密处理,得到各个第一数据组的数据标签的明文和。
接着,第二服务器可以根据第一数据组的排列顺序排列第一数据组,得到排序后的多个第一数据组;再根据预设的卡方分组规则,利用各个第一数据组的数据标签的明文和、各个第一数据组所包含的特征数据,对上述排序后的多个第一数据进行进一步的多次合并,得到合并后的多个第二数据组,完成在第一次数据分箱的基础上的第二次数据分箱(例如,卡方分箱)。同时,可以根据各个第一数据组的数据标签的明文和,统计得到多个第二数据组的数据标签的明文和;并在第二次数据分箱的过程中记录下每次合并时被合并的数据组的数据组标识,作为合并参数。
第二服务器将上述多个第二数据组的数据标签的明文和、合并参数发送至第一服务器。
相应的,第一服务器可以根据合并参数确定出被合并为第二数据组的第一数据组的数据组标识;根据所述被合并为第二数据组的第一数据组的数据组标识,和所述多个第一数据组,确定出各个第二数据组所包含的特征数据,从而完成了符合要求的数据分箱。
进一步,第一服务器还可以根据所述第二数据组所包含的特征数据,以及第二数据组的数据标签的明文和,确定出特征数据的信息值。
第二服务器可以获取特征数据的信息值,并根据所述特征数据的信息值,对第一服务器所持有的特征数据是否满足预设的质量要求进行判断。进而可以根据判断结果,确定是否要和第一服务器合作,利用第一服务器所持有的特征数据进行后续具体的数据处理(例如,联合建模等)。
通过上述系统,可以使得第一服务器和第二服务器在保护双方数据隐私的前提下通过合作完成符合要求的数据分箱;并基于分箱后的数据,准确地确定出特征数据的信息值。
参阅图2所示,本说明书实施例提供了一种基于隐私保护的数据处理方法。其中,该方法具体应用于第一服务器一侧。具体实施时,该方法可以包括以下内容。
S201:接收第二服务器发送的第一标签列,并根据所述第一标签列确定出特征数据所对应的数据标签的密文数据;其中,所述第一标签列包含有与标识信息对应的数据标签的密文数据,所述特征数据包括与标识信息对应的特征数据。
在一些实施例中,上述第二服务器具体可以理解为部署于第二数据方一侧的服务器,其中,第二服务器可以持有并使用第二数据方所拥有的与标识信息对应的数据标签。上述第一服务器具体可以理解为部署于第一数据方一侧的服务器,其中,第一服务器可以持有并使用第一数据方所拥有的与相同的标识信息对应的特征数据。通过标识信息与数据标签之间的对应关系,以及标识信息与特征数据之间的对应关系,可以将对应相同标识信息的特征数据和数据标签对应起来。需要补充的是,除了可以持有数据标签外,上述第二服务器也可以持与上述标识信息对应的其他特征数据。
在一些实施例中,上述标识信息具体可以包括一种用于指示数据对象,与数据对象存在一一对应关系的标识信息。具体的,上述标识信息可以是用户的身份ID、用户的账户名,或者用户的注册手机号码等。上述标识信息也可以是设备的设备编号、设备的物理地址,或者设备的IP地址等。上述标识信息还可以是通过哈希计算所得到的哈希值中的指定字段等。当然,上述所列举的标识信息只是一种示意性说明。具体实施时,根据具体的应用场景和处理需要,上述标识信息还可以包括指示其他类型的数据对象的其他形式的标识信息。对此,本说明书不作限定。
上述特征数据具体可以包括数值型特征数据。其中,上述数值型特征数据具体可以理解为一种以数值的形式表征所对应的数据对象的某个属性特征的数据。具体的,以用户作为数据对象为例,上述特征数据可以包括以下至少之一:用户的年龄、用户的月收入、用户的逾期次数等等。
上述数据标签具体可以包括一种用于表征数据对象所属类群的标签。具体的,上述数据标签可以包括正标签和负标签等。具体的,对应不同的应用场景,上述正标签和负标签可以用于表征不同的含义。例如,在用户的信用风险检测场景中,上述正标签可以是一种用于表征不存在信用风险的用户;相对的,上述负标签可以是一种用于表征存在信用风险的用户。又例如,在用户的购买意愿预测场景中,上述正标签可以指示具有购买意愿的用户,上述负标签可以用于指示不具有购买意愿的用户等等。
在一些实施例中,具体实施时,可以由第一服务器或第二服务器根据具体情况和具体需求,在确定需要与对方合作进行基于隐私保护的数据处理时,发起相应的数据处理请求。进而,第一服务器和第二服务器可以响应上述数据处理请求,触发执行本说明书实施例所描述的基于隐私保护的数据处理方法。
具体的,例如,在第二服务器想要确定第一服务器所持有的数值型特征数据是否适合进行后续的目标数据处理(例如,联合统计,或者联合建模等),以便确定是否要和第一服务器进行关于目标数据处理的相关合作时,可以先生成并发起上述数据处理请求,以与第一服务器合作向对第一服务器所持有的数值型特征数据进行符合要求的数据分箱,再基于分箱后的特征数据计算出特征数据的信息值。进而第二服务器可以根据上述信息值确定该特征数据是否满足预设的质量要求、是否适合进行后续的目标数据处理。
在一些实施例中,具体实施时,第一服务器可以响应上述数据处理请求,获取与数据标识分别对应的多个特征数据的数据值。例如,用户A的年龄为29,用户B的年龄为35等。
并将上述多个特征数据的数据值按照基于标识信息的排列顺序(例如,基于用户账户名的首字母的排列顺序等)进行排列,得到初始特征列。
相应的,第二服务器可以响应上述数据处理请求,获取与上述数据标识对应的数据标签,并将上述数据标签按照相同的基于标识信息的排列顺序进行排列,得到包含有按照相同顺序排列的多个数据标签的初始标签列。
在一些实施例中,上述基于标识信息的排列顺序具体可以理解为一种第一服务器和第二服务器共同知晓的排列顺序。具体的,上述基于标识信息的排列顺序可以是按照所对应的标识信息的笔画数量由少到多的排列顺序,也可以是按照所对应的标识信息的哈希值的数值由大到小的排列顺序,还可以是随机生成的但第一服务器和第二服务器共知的一种与标识信息相关的排列顺序。
在一些实施例中,第二服务器进一步可以利用所持有的公钥加密所述初始标签列中所包含的多个数据标签中的各个数据标签,得到包含有按照基于标识信息的排序顺序排列的多个数据标签的密文数据的第一标签列(例如,label_cipher)。同时,第二服务器还会持有不对外公开的,用于解密的私钥。
在一些实施例中,上述公钥具体可以包括基于同态加密算法的公钥数据。具体实施前,第二服务器可以根据同态加密算法的秘钥生成规则,生成相互对应的私钥(例如,sk)和公钥(例如,pk)。其中,上述私钥不对外公开。
其中,上述同态加密算法可以包括一种不确定性的加密算法。具体的,上述同态加密算法具体可以包括elgamal同态加密算法。当然,上述所列举的同态加密算法只是一种示意性说明。具体实施时,根据具体的应用场景和处理需求,第二服务器还可以采用其他合适的同态加密算法来生成公私钥对。对此,本说明书不作限定。
在一些实施例中,第二服务器可以通过有线或无线的方式将所述第一标签列发送至第一服务器。
相应的,第一服务器接收并获取上述第一标签列。由于第一服务器不具有用于解密的私钥。因此,第一服务器无法知晓与各个数据标识对应的数据标签的具体内容,从而可以避免向第一服务器或其他第三方泄露第二服务器所持有的数据标签,保护第二服务器一侧的数据隐私。
在一些实施例中,第二服务器在将第一标签列发送给第一服务器的同时,还可以将用于加密的公钥也一同发送给第一服务器,以便后续第一服务器利用上述公钥对要发送给第二服务器的数据进行随机化操作。
在一些实施例中,第一服务器在接收到第一标签列后,可以根据第一标签列,确定所持有的各个特征数据所对应的数据标签的密文数据。
在一些实施例中,上述根据所述第一标签列确定出特征数据所对应的数据标签的密文数据,具体实施时,可以包括以下内容:根据基于标识信息的排列顺序排列特征数据,得到初始特征列;根据所述初始特征列和所述第一标签列,确定出特征数据所对应的数据标签的密文数据。
在本实施例中,具体的,第一服务器可以根据第一标签列和初始特征列,通过在第一标签列中检索与初始特征列中的特征数据的位置排序相同的数据标签的密文数据,确定出与各个特征数据所对应的数据标签的密文数据。
S202:根据特征数据的数据值,排列特征数据,以得到第一特征列。
在一个实施例中,第一服务器可以根据特征数据的数据值,按照基于数据值的排列顺序(例如,数据值由小到大的顺序或者数据值由大到小的顺序)重新排列多个特征数据,得到对应的第一特征列。
S203:根据所述第一特征列,将所述特征数据划分为按顺序排列的多个第一数据组;并根据特征数据所对应的数据标签的密文数据,统计出各个第一数据组的数据标签的密文和。
在一些实施例中,第一服务器可以在第一特征列上,通过对特征数据进行等频分箱(可以记为第一次数据分箱),将第一特征列中的多个特征数据划分为按顺序排列的多个第一数据组。其中,不同数据组之间所包含的特征数据的数量相同或相近。即,不同的第一数据组之间所包含的特征数据的数量的差值小于预设的数量阈值。
在一些实施例中,上述根据所述第一特征列,将所述特征数据划分为按顺序排列的多个第一数据组,具体实施时,可以包括:根据参考数量和特征数据的数据值,从位于第一特征列的起始位置处的特征数据出发,沿所述第一特征列中特征数据的排列方向,遍历第一特征列中的特征数据的数据值,以将第一特征列中的特征数据划分为按顺序排列的多个第一数据组;其中,不同的第一数据组之间所包含的特征数据的数量的差值小于预设的数量阈值。
其中,上述参考数量的具体数值可以根据特征数据的总数量,以及针对第一数据组的划分精度要求灵活设置。
具体的,例如,可以参阅图3所示。参考数量设置为5,第一服务器可以从第一特征列的起始位置(即第1个位置)处数据值为1的特征数据出发,沿第一特征列中特征数据的排列方向(例如,向左)进行遍历,并累计特征数据的数量。当遍历到第一特征列中的第5个位置处的特征数据(即第2个数据值为2的特征数据)时,累计的特征数据的数量达到参考数量5。这时第一服务器会读取当前位置处的特征数据的数据值(例如,2),以及当前位置的下一个位置处的特征数据的数据值(例如,3),并将上述两个位置的特征数据的数据值进行比较。发现两个位置的特征数据的数据值不同,则将当前位置(即第5个位置)作为当前分组的结束位置,并在上述两个位置的特征数据之间设置第一个分组标记。
接着,第一服务器可以从分组标记之后的特征数据(即第6个位置处的特征数据)出发,向左进行遍历,并累计特征数据的数量。当遍历到第一特征列中的第10个位置处的特征数据(即第3个数据值为4的特征数据)时,累计的特征数据的数量又达到了参考数量5。这时第一服务器会读取当前位置处的特征数据的数据值(例如,4),以及当前位置的下一个位置(即第11个位置)处的特征数据的数据值(例如,4),并将上述两个位置的特征数据的数据值进行比较。发现两个位置的特征数据的数据值相同,则读取下一个位置的后一个位置(即第12个位置)处的特征数据的数据值(例如,5),并将第11个位置处的特征数据的数据值与第12个位置处的特征数据的数据值进行比较。发现两个位置的特征数据的数据值不同,则将第11个位置作为当前分组的结束位置,并在第11个位置和第12个位置之间设置第二个分组标记。
按照上述方式,继续遍历直到遍历完第一特征列中的特征数据,可以在第一特征列中设置出多个分组标记。进一步,可以将上述第一特征列中相邻的两个分组标记之间的特征数据划分进一个数据组,从而可以得到按顺序排列的多个第一数据组。
例如,可以参阅图3所示,可以将第一个分组标记以前的5个特征数据划分为第一个第一数据组,数据组标识记为L-1。接着,可以将第一个分组标记和第二个分组标记之间的特征数据划分为第二个第一数据组,数据组标识记为L-2。按照上述方式,继续分组,可以得到按顺序排列的数据组标识依次为:L-1、L-2、L-3……L-30,一共30个第一数据组。
其中,上述数据组标识(例如L-1)具体可以理解为一种用于指示所对应的第一数据组的标识信息。
通过上述方式划分得到的第一数据组分别包含有与参考数量相同或相近个特征数据。
在一些实施例中,进一步,第一服务器可以确定出各个第一数据组所包含的特征数据,以及各个特征数据所对应的数据标签的密文数据。接着,第一服务器可以针对每一个第一数据组,分别对第一数据组中的特征数据的数据标签的密文数据进行同态求和,得到该第一数据组的数据标签的密文和,从而可以得到各个第一数据组的数据标签的密文和。同时,第一服务器还会统计各个第一数据组所包含的特征数据的数量。
S204:向所述第二服务器提供各个第一数据组的数据标签的密文和、各个第一数据组所包含的特征数据的数量,以及第一数据组的排列顺序;其中,所述第二服务器解密得到各个数据组的数据标签的明文和;所述第二服务器根据预设的卡方分组规则,利用第一数据组的排列顺序、各个第一数据组的数据标签的明文和、各个第一数据组所包含的特征数据的数量,对第一数据组进行多次合并,得到多个第二数据组的数据标签的明文和,并记录合并参数。
在一些实施例中,根据具体情况,第一服务器可以采用合适的方式,将上述各个第一数据组的数据标签的密文和、各个第一数据组所包含的特征数据的数量,以及第一数据组的排列顺序提供给第二服务器。
具体的,例如,第一服务器可以主动地将上述各个第一数据组的数据标签的密文和、各个第一数据组所包含的特征数据的数量,以及第一数据组的排列顺序发送给第二服务器。
又例如,在第二服务器为处于单向网络环境中服务器的情况下,可以由第二服务器主动生成并向第一服务器发送相应的第一询问请求。
第一服务器接收第一询问请求,在确定已经统计出各个第一数据组的数据标签的密文和,以及各个第一数据组所包含的特征数据的数量的情况下,第一服务器可以生成针对第一询问请求的确认信息。相应的,第一询问请求可以在携带上述确认信息的同时,一并携带第一服务器所提供的各个第一数据组的数据标签的密文和、各个第一数据组所包含的特征数据的数量,以及第一数据组的排列顺序反馈给第二服务器。
从而可以使得处于单向网络环境中,无法接收来自外界的其他服务器主动发送的数据的第二服务器也能够顺利地获取来自第一服务器的各个第一数据组的数据标签的密文和、各个第一数据组所包含的特征数据的数量,以及第一数据组的排列顺序。
在一些实施例中,在向所述第二服务器提供各个第一数据组的数据标签的密文和、各个第一数据组所包含的特征数据的数量,以及第一数据组的排列顺序之前,所述方法具体实施时,还可以包括以下内容:对各个第一数据组的数据标签的密文和分别进行随机化操作,得到各个第一数据组的数据标签的随机化操作后的密文和。
相应的,第一服务器可以向第二服务器提供各个第一数据组的数据标签的随机化操作后的密文和,而不是直接提供给第一数据组的数据标签的密文和,从而可以避免第二服务器由于知晓数据标签的密文数据与标识信息的对应关系,根据所获取的各个第一数据组的数据标签的密文和,通过例如穷举等推测的方式,猜出与第一服务器所持有的特征数据相关的数据信息,从而可以更好地保护了第一服务器一侧的数据隐私。
在本实施例中,上述随机化操作具体可以包括rerandom操作。具体进行随机化操作时,第一服务器可以先利用公钥,在各个第一数据组中的特征数据的数据标签的密文数据上分别加上一个同态0的密文(例如,E(0),一种非确定性密文)。然后再统计各个第一数据组的数据标签的密文和。这样可以改变数据标签的密文数据,使得第二服务器无法根据数据标签的密文数据确定出对应的标识信息。同时,上述操作也不会影响后续的解密处理。
在一个实施例中,具体进行随机化操作时,第一服务器还可以先统计出各个第一数据组的数据标签的密文和;再在各个第一数据组的数据标签的密文和上分别加一个同态0的密文,得到各个第一数据组的数据标签的随机化操作后的密文和。
在一些实施例中,第二服务器在获取来自第一服务器的各个第一数据组的数据标签的密文和、各个第一数据组所包含的特征数据的数量,以及第一数据组的排列顺序之后,可以先利用所持有的私钥对上述各个第一数据组的数据标签的密文和进行解密处理,得到各个第一数据组的数据标签的明文和。
在一些实施例中,第二服务器可以根据第一数据组的数据标签的明文和,以及第一数据组所包含的特征数据的数量,确定出该第一数据组中数据标签为正标签的特征数据数量,以及数据标签为负标签的特征数据数量。但是第二服务器无法知道第一数据组中数据标签与标识信息的对应关系。
在一些实施例中,第二服务器可以根据第一数据组的排列顺序排列多个第一数据组,得到排序后的多个第一数据组。
需要说明的是,第二服务器不知晓每一个第一数据组所包含的具体特征数据,但可以利用第一数据组的数据组标识,对不同的第一数据组整体进行排序。
具体的,例如,可以参阅图4所示,第二服务器可以根据所接收到的第一数据组的排列顺序,将30个第一数据组的数据组标识按照顺序进行排列,得到相应的排序后的多个第一数据组。
在一些实施例中,第二服务器可以根据预设的卡方分组规则,对上述多个排序后的第一数据组进行卡方分箱(可以记为第二次数据分箱),从而可以将按照顺序排列的多个第一数据组,以数据组为单位进行多次合并,得到合并后的多个第二数据组。
在一些实施例中,上述根据预设的卡方分组规则,利用各个第一数据组的数据标签的明文和、各个第一数据组所包含的特征数据的数量,对所述排序后的多个第一数据组进行多次合并,具体实施时,可以包括以下内容:按照以下方式进行当前次合并:获取上一次合并后的多个数据组,并计算出上一次合并后的多个数据组中相邻的两个数据组之间的卡方值,得到多个卡方值;从多个卡方值中筛选出数值最小的卡方值,作为当前次的目标卡方值;检测当前次合并是否满足预设的合并条件;在确定当前次合并满足预设的合并条件的情况下,将当前次的目标卡方值所对应的相邻的两个数据组合并为一个数据组;并记录下被合并的数据组的数据组标识,作为当前次的合并参数。其中,上述合并参数具体可以理解为一种用于指示各个第二数据组具体是由哪几个第一数据组合并得到的参数数据。
在一些实施例中,所述合并参数至少可以包括被合并为第二数据组的第一数据组的数据组标识。
在一些实施例中,上述相邻的两个数据组之间的卡方值可以按照以下算式计算:
Figure 971401DEST_PATH_IMAGE001
其中,
Figure 452324DEST_PATH_IMAGE002
表示相邻的两个数据组的卡方值,i表示相邻的两个数据组,j表示两种标签。具体的,i=1可以表示相邻的两个数据组中的一个数据组,i=2可以表示相邻的两个数据组中的另一个数据组;j=1可以表示两种标签中的正标签,j=0可以表示两种标签中的负标签。
相应的,上述
Figure 219945DEST_PATH_IMAGE003
可以表示i数据组中数据标签为j标签的特征数据的实际频数;上述
Figure 146313DEST_PATH_IMAGE005
可以表示i数据组中数据标签为j标签的特征数据的期望频数。
进一步,上述i数据组中数据标签为j标签的特征数据的期望频数可以按照以下算式计算:
Figure 367210DEST_PATH_IMAGE007
其中,
Figure 720831DEST_PATH_IMAGE009
表示i数据组中的数据标签为正标签的特征数据的实际频数和数据标签为负标签的特征数据的实际频数的加和;
Figure 646586DEST_PATH_IMAGE011
表示相邻的两个数据组中数据标签为j标签的特征数据实际频数的加和;N为相邻的两个数据组所包含的特征数据的总数。
通过上述实施例,可以较为准确地计算出相邻的两个数据组之间的卡方值。
其中,上述卡方值可以用于描述相邻的两个数据组中特征数据的数据值区间的数据值分布的相似程度。
如果卡方值越小,则说明该卡方值所对应的相邻的两个数据组中特征数据的数据值分布的相似度越高,越适合将这两个数据组进行合并。相反,如果卡方值越大,则说明该卡方值所对应的相邻的两个数据组中特征数据的数据值分布的相似度越低,越不适合将这两个数据组进行合并。
在一些实施例中,第二服务器每次合并时,可以按照上述方式计算上一次合并后剩下的多个数据组中相邻的两个数据组的卡方值;再根据卡方值找到数据值分布相似度最高的相邻的两个数据组进行合并。从而可以通过多次合并,将找出数据值分布的相似度较高的多个第一数据组进行合并,得到合并后的多个第二数据组。
在一些实施例中,具体合并时,以进行当前次合并为例,计算出上一次合并后的多个数据组中相邻的两个数据组之间的卡方值,得到多个卡方值;并从多个卡方值中筛选出数值最小的卡方值之后,可以先检测当前次合并是否满足预设的合并条件;在确定当前次合并满足预设的合并条件的情况下,将当前次的目标卡方值所对应的相邻的两个数据组合并为一个数据组。并且在进行上述当前次合并的同时,还会记录下当前次被合并的数据组的数据组标识,作为当前次的合并参数。
在一些实施例中,上述检测当前次合并是否满足预设的合并条件,具体实施时,可以包括:确定预设的卡方值阈值,以及预设的数据组数阈值;统计上一次合并后的多个数据组数量,作为当前次的参考数据组数;比较所述预设的卡方值阈值和所述当前次的目标卡方值,得到第一比较结果;比较所述预设的数据组数阈值和当前次的参考数据组数,得到第二比较结果;根据所述第一比较结果和所述第二比较结果,确定当前次合并是否满足预设的合并条件。
其中,上述预设的卡方值阈值具体可以设置为0.9或0.95等,上述预设的数据组数阈值可以设置为5等。当然,上述所列举的预设的卡方值阈值和预设的数据组数阈值只是一种示意性说明。具体实施时,根据具体情况和处理需求,还可以设置其他数值作为预设的卡方值阈值和预设的数据组数阈值。对此,本说明书不作限定。
在一些实施例中,上述根据所述第一比较结果和所述第二比较结果,确定当前次合并是否满足预设的合并条件,具体实施时,可以包括:在根据第一比较结果确定当前次的目标卡方值大于预设的卡方值阈值,且,根据第二比较结果确定当前次的数据组数小于预设的数据组数阈值的情况下,确定当前次合并满足预设的合并条件。
相对的,在根据第一比较结果确定当前次的目标卡方值小于或等于预设的卡方值阈值,和/或,根据第二比较结果确定当前次的数据组数大于或等于预设的数据组数阈值的情况下,可以确定当前次合并不满足预设的合并条件。
在一些实施例中,在检测当前次合并是否满足预设的合并条件之后,所述方法还包括:在确定当前次合并不满足预设的合并条件的情况下,停止当前次合并;并将上一次合并后的多个数据组确定为多个第二数据组。
具体的,例如,可以参阅图5所示。之前第二服务器在第一次合并时,是将第一数据组L-3和L-4进行了合并,并在合并参数中记录下了第一次合并时被合并的数据组的数据组标识:L-3+L-4。其中,符号“+”用于连接该次合并时被合并的两个数据组的数据组标识。
当前要进行第二次合并,第二服务器会计算第一次并后的剩下的29个数据组之间的卡方值。具体计算时,第二服务器会将已经合并了的第一数据组L-3和L-4作为一个组合(可以记为L-3-L-4),来计算该组合与第一数据组L-2的卡方值。当确定上述组合L-3-L-4与第一数据组L-2之间的卡方值是数值最小的卡方值时,可以进一步检测当前次合并是否满足预设的合并条件。在确定当前次合并满足预设的合并条件的情况下,第二服务器可以将第一数据组L-2与组合L-3-L-4进行合并,完成当前次的合并,并在合并参数中记录下了第二次合并时被合并的数据组的数据组标识:L-2+(L-3-L-4)。
接着,第二服务器可以按照上述方式进行下一次合并,知道不满足预设的合并条件,从而完成多次合并,得到多个合并后的数据组,记为多个第二数据组。
在一些实施例中,进一步,第二服务器可以分析第二数据组具体是由哪几个第一数据组合并得到的;进而可以利用相应的第一数据组的数据标签的明文和,计算出该第二数据组的数据标签的明文和,从而可以得到多个第二数据组的数据标签的明文和。
在一些实施例中,第二服务器可以将上述多个第二数据组组的数据标签的明文和,以及合并参数发送给第一服务器。
S205:接收第二服务器发送的多个第二数据组的数据标签的明文和,以及合并参数;并根据所述多个第二数据组的数据标签的明文和、合并参数,以及多个第一数据组,确定出特征数据的信息值。
在本实施例中,第一服务器可以接收第二服务器所发送的多个第二数据组的数据标签的明文和,以及合并参数。并且,第一服务器可以根据上述合并参数确定出第二数据组分别是由之前的哪几个第一数据组合并得到的。
在一些实施例中,上述根据所述多个第二数据组的数据标签的明文和、合并参数,以及多个第一数据组,确定出特征数据的信息值,具体实施时,可以包括以下内容:根据合并参数确定出被合并为第二数据组的第一数据组的数据组标识;根据所述被合并为第二数据组的第一数据组的数据组标识,和所述多个第一数据组,确定出第二数据组所包含的特征数据;根据所述第二数据组所包含的特征数据,以及第二数据组的数据标签的明文和,确定出特征数据的信息值。
其中,上述特征数据的信息值(Information Value,IV)具体可以理解为一种能够衡量特征数据整体的预测能力的参数值。通常如果特征数据的信息值越大,表明该组特征数据的预测能力越高,用于模型训练或者数据统计的效果越好。相反,如果特征数据的信息值越小,表明该组特征数据的预测能力越低,用于模型训练或者数据统计的效果越差。
在一些实施例中,第一服务器可以根据第二数据组所包含的特征数据,恢复该第二数据组所包含的特征数据的数据值区间的区间边界,进而可以结合上述区间边界,以及该第二数据组的数据标签的明文和,计算该第二数据组的信息值。按照上述方式可以计算得到多个第二数据组的信息值,再根据多个第二数据组的信息值,计算得到特征数据的信息值。
在一些实施例中,根据所述第二数据组所包含的特征数据,以及第二数据组的数据标签的明文和,确定出特征数据的信息值,包括:根据第二数据组的数据标签的明文和,以及第二数据组所包含的特征数据,确定出第二数据组中数据标签为正标签的特征数据的数量,以及数据标签为负标签的特征数据的数量;再根据第二数据组中数据标签为正标签的特征数据的数量,以及数据标签为负标签的特征数据的数量,计算第二数据组的权重证明(Weight of Evidence,WOE);根据第二数据组中数据标签为正标签的特征数据的数量,以及数据标签为负标签的特征数据的数量,以及第二数据组的权重证明,计算出第二数据组的信息值;最后根据各个第二数据组的信息值,统计得到特征数据的信息值。
从而可以在完成符合要求的数据分箱之后,基于分箱后的特征数据,准确地计算出特征数据的信息值。
在一些实施例中,在确定出特征数据的信息值之后,所述方法还包括:第一服务器向第二服务器提供特征数据的信息值;其中,所述第二服务器根据所述特征数据的信息值确定第一服务器所持有的特征数据是否符合预设的质量要求,进而确定是否要与第一服务器合作,以利用第一服务器所持有的特征数据合作进行后续的目标数据处理。
由上可见,本说明书实施例提供的基于隐私保护的数据处理方法,持有特征数据的第一服务器可以根据第二服务器所发送的包含有与标识信息对应的数据标签的密文数据的第一标签列,先确定出特征数据所对应的数据标签的密文数据;再根据特征数据的数据值排列特征数据,得到第一特征列;进而基于第一特征列,将多个特征数据划分为多个第一数据组,并统计出各个第一数据组的数据标签的密文和;第二服务器可以获取上述各个第一数据组的数据标签的密文和等数据,并通过解密得到各个第一数据组的数据标签的明文和;再根据预设的卡方分组规则,对多个第一数据组进行进一步的多次合并,以得到合并后的多个第二数据组的数据标签的明文和,以及合并参数;第一服务器获取并根据上述数据计算特征数据的信息值,从而可以使得第一服务器和第二服务器在保护双方数据隐私的前提下通过合作完成符合要求的数据分箱;并基于分箱后的数据,准确地确定出特征数据的信息值,降低了数据处理过程中双方各自持有的数据遭到泄露的风险。还通过在向所述第二服务器提供各个第一数据组的数据标签的密文和、各个第一数据组所包含的特征数据的数量,以及第一数据组的排列顺序,由第一服务器先对各个第一数据组的数据标签的密文和分别进行随机化操作,得到各个第一数据组的数据标签的随机化操作后的密文和,使得第二服务器获取得到是随机化操作后的密文和,从而可以避免第二服务器根据所获取的各个第一数据组的数据标签的密文和,通过推测的方式,获取与第一服务器所持有的特征数据相关的数据信息,更好地保护了第一服务器一侧的数据隐私。还通过第二服务器主动生成并向第一服务器发起第一询问请求,以使得处于单向网络环境中的第二服务器可以通过第一询问请求,获取所述第一询问请求返回的各个第一数据组的数据标签的密文和、各个第一数据组所包含的特征数据的数量,以及第一数据组的排列顺序等数据,从而可以使得处于单向网络环境中的第二服务器也能够获取得到来自第一服务器提供的数据。
参阅图6所示,本说明书实施例还提供了一种基于隐私保护的数据处理方法。其中,该方法应用于第二服务器一侧,具体实施时,可以包括以下内容。
S601:将第一标签列发送至第一服务器;其中,所述第一标签列包含有与标识信息对应的数据标签的密文数据;所述第一服务器根据第一标签列确定出特征数据所对应的数据标签的密文数据;所述第一服务器还将多个特征数据划分为多个第一数据组,统计得到各个第一数据组的数据标签的密文和。
S602:获取来自第一服务器的各个第一数据组的数据标签的密文和、各个第一数据组所包含的特征数据的数量,以及第一数据组的排列顺序。
S603:对所述各个第一数据组的数据标签的密文和进行解密,得到各个第一数据组的数据标签的明文和;并根据第一数据组的排列顺序排列第一数据组,得到排序后的多个第一数据组。
S604:根据预设的卡方分组规则,利用各个第一数据组的数据标签的明文和、各个第一数据组所包含的特征数据的数量,对所述排序后的多个第一数据组进行多次合并,得到多个第二数据组的数据标签的明文和,并记录合并参数。
S605:将所述多个第二数据组的数据标签的明文和,以及合并参数发送至第一服务器;其中,第一服务器根据所述多个第二数据组的数据标签的明文和、合并参数,以及多个第一数据组,确定出特征数据的信息值。
在一些实施例中,在将第一标签列发送至第一服务器之前,所述方法具体实施时,还可以包括以下内容:生成基于同态加密算法的公钥和私钥;根据基于标识信息的排列顺序排列数据标签,得到初始标签列;利用公钥加密所述初始标签列中的数据标签,得到第一标签列。
在一些实施例中,在得到第一标签列之后,所述方法具体实施时,还可以包括以下内容:将所述第一标签列和公钥发送至第一服务器;其中,所述第一服务器利用所述公钥对各个第一数据组的数据标签的密文和进行随机化操作。
在一些实施例中,上述根据预设的卡方分组规则,利用各个第一数据组的数据标签的明文和、各个第一数据组所包含的特征数据的数量,对所述排序后的多个第一数据组进行多次合并,具体实施时,可以包括:按照以下方式进行当前次合并:获取上一次合并后的多个数据组,并计算出上一次合并后的多个数据组中相邻的两个数据组之间的卡方值,得到多个卡方值;从多个卡方值中筛选出数值最小的卡方值,作为当前次的目标卡方值;检测当前次合并是否满足预设的合并条件;在确定当前次合并满足预设的合并条件的情况下,将当前次的目标卡方值所对应的相邻的两个数据组合并为一个数据组;并记录下被合并的数据组的数据组标识,作为当前次的合并参数。
在一些实施例中,上述检测当前次合并是否满足预设的合并条件,具体实施时,可以包括以下内容:确定预设的卡方值阈值,以及预设的数据组数阈值;统计上一次合并后的多个数据组数量,作为当前次的参考数据组数;比较所述预设的卡方值阈值和所述当前次的目标卡方值,得到第一比较结果;比较所述预设的数据组数阈值和当前次的参考数据组数,得到第二比较结果;根据所述第一比较结果和所述第二比较结果,确定当前次合并是否满足预设的合并条件。
在一些实施例中,上述根据所述第一比较结果和所述第二比较结果,确定当前次合并是否满足预设的合并条件,具体实施时,可以包括:在根据第一比较结果确定当前次的目标卡方值大于预设的卡方值阈值,且,根据第二比较结果确定当前次的数据组数小于预设的数据组数阈值的情况下,确定当前次合并满足预设的合并条件。
在一些实施例中,在检测当前次合并是否满足预设的合并条件之后,所述方法具体实施时,还可以包括:在确定当前次合并不满足预设的合并条件的情况下,停止当前次合并;并将上一次合并后的多个数据组确定为多个第二数据组。
在一些实施例中,在第二服务器无法直接接收外部服务器发送的数据的情况(例如,第二服务器处于单向网络环境)下,上述获取来自第一服务器的各个第一数据组的数据标签的密文和、各个第一数据组所包含的特征数据的数量,以及第一数据组的排列顺序,具体实施时,可以包括:生成并向第一服务器发起第一询问请求;其中,所述第一询问请求用于根据预设的通信规则在向第二服务器返回第一服务器针对所述第一询问请求的确认信息的同时,还向第二服务器返回所携带的各个第一数据组的数据标签的密文和、各个第一数据组所包含的特征数据的数量,以及第一数据组的排列顺序;获取所述第一询问请求返回的各个第一数据组的数据标签的密文和、各个第一数据组所包含的特征数据的数量,以及第一数据组的排列顺序。
在一些实施例中,所述第一询问请求的访问地址中的路径字段中具体可以包含有用于指示返回时携带各个第一数据组的数据标签的密文和、各个第一数据组所包含的特征数据的数量,以及第一数据组的排列顺序的第一标识字符。
在一些实施例中,在将所述多个第二数据组的数据标签的明文和,以及合并参数发送至第一服务器之后,所述方法具体实施时,还可以包括以下内容:生成并向第一服务器发起第二询问请求;其中,所述第二询问请求用于根据预设的通信规则在向第二服务器返回第一服务器针对所述第二询问请求的确认信息的同时,还向第二服务器返回所携带的特征数据的信息值;获取所述第二询问请求返回的特征数据的信息值。
在一些实施例中,在获取所述第二询问请求返回的特征数据的信息值之后,所述方法具体实施时,还可以包括:根据特征数据的信息值,确定所述特征数据是否满足预设的质量要求。
在一些实施例中,在确定所述特征数据满足预设的质量要求的情况下,所述方法具体实施时,还可以包括:第二服务器生成并向第一服务器发送第三询问请求;其中,所述第三询问请求用于根据预设的通信规则在向第二服务器返回第一服务器针对所述第三询问请求的确认信息的同时,还向第二服务器返回所携带的特征数据;获取所述第三询问请求返回的特征数据;根据所述特征数据进行相应的目标数据处理。
在一些实施例中,上述根据所述特征数据进行相应的目标数据处理,具体可以包括:第一服务器和第二服务器合作分别利用各自所持有的特征数据和标签数据联合训练目标模型。
在一些实施例中,具体进行联合训练时,第二服务器可以以所持有的标签数据作为输入,与以特征数据作为输入的第一服务器通过多方安全计算,来共同训练目标模型。
在一些实施例中,通过上述方式进行联合训练目标模型,第二服务器可以得到效果较好的目标模型。进一步,第二服务器在接入数据对像的特征数据之后,可以调用上述目标模型处理数据对象的特征数据,以得到与该数据对象对应的标签数据。进而可以根据标签数据,对该数据对象进行相匹配的数据处理。
具体的,例如,上述目标模型可以是用户的信用风险预测模型。第二服务器可以调用上述目标模型处理用户对象的特征数据,以得到该用户对象的风险标签。进一步,可以根据风险标签确定该用户对象是否存在信用风险;并根据该用户对象是否存在信用风险,为该用户对象提供相匹配的业务服务。
由上可见,本说明书实施例提供的基于隐私保护的数据处理方法,可以使得第一服务器和第二服务器在保护双方数据隐私的前提下通过合作完成符合要求的数据分箱;并基于分箱后的数据,准确地确定出特征数据的信息值,降低了数据处理过程中双方各自持有的数据遭到泄露的风险。
本说明书实施例还提供了另一种基于隐私保护的数据处理方法,应用于第一服务器一侧。参阅图7所示,该方法具体实施时,可以包括以下内容:
S1:接收第二服务器发送的第一标签列,并根据所述第一标签列确定出特征数据所对应的数据标签的密文数据;其中,所述第一标签列包含有与标识信息对应的数据标签的密文数据,所述特征数据包括与标识信息对应的特征数据;
S2:根据特征数据的数据值,排列特征数据,以得到第一特征列;
S3:根据所述第一特征列,将所述特征数据划分为按顺序排列的多个第一数据组;并根据特征数据所对应的数据标签的密文数据,统计出各个第一数据组的数据标签的密文和;
S4:接收第二服务器发起的第一询问请求,其中,所述第一询问请求用于根据预设的通信规则在向第二服务器返回第一服务器针对所述第一询问请求的确认信息的同时,还向第二服务器返回所携带的各个第一数据组的数据标签的密文和、各个第一数据组所包含的特征数据的数量,以及第一数据组的排列顺序;所述第二服务器解密得到各个数据组的数据标签的明文和;所述第二服务器根据预设的卡方分组规则,利用第一数据组的排列顺序、各个第一数据组的数据标签的明文和、各个第一数据组所包含的特征数据的数量,对第一数据组进行多次合并,得到多个第二数据组的数据标签的明文和,并记录合并参数;
S5:接收第二服务器发送的多个第二数据组的数据标签的明文和,以及合并参数;并根据所述多个第二数据组的数据标签的明文和、合并参数,以及多个第一数据组,确定出特征数据的信息值。
本说明书实施例还提供了另一种基于隐私保护的数据处理方法,应用于第二服务器一侧。参阅图7所示,该方法具体实施时,可以包括以下内容:
S1:将第一标签列发送至第一服务器;其中,所述第一标签列包含有与标识信息对应的数据标签的密文数据;所述第一服务器根据第一标签列确定出特征数据所对应的数据标签的密文数据;所述第一服务器还将多个特征数据划分为多个第一数据组,统计得到各个第一数据组的数据标签的密文和;
S2:生成并向第一服务器发起第一询问请求;通过所述第一询问请求获取来自第一服务器的各个第一数据组的数据标签的密文和、各个第一数据组所包含的特征数据的数量,以及第一数据组的排列顺序;其中,所述第一询问请求用于根据预设的通信规则在向第二服务器返回第一服务器针对所述第一询问请求的确认信息的同时,还向第二服务器返回所携带的各个第一数据组的数据标签的密文和、各个第一数据组所包含的特征数据的数量,以及第一数据组的排列顺序;
S3:对所述各个第一数据组的数据标签的密文和进行解密,得到各个第一数据组的数据标签的明文和;并根据第一数据组的排列顺序排列第一数据组,得到排序后的多个第一数据组;
S4:根据预设的卡方分组规则,利用各个第一数据组的数据标签的明文和、各个第一数据组所包含的特征数据的数量,对所述排序后的多个第一数据组进行多次合并,得到多个第二数据组的数据标签的明文和,并记录合并参数;
S5:将所述多个第二数据组的数据标签的明文和,以及合并参数发送至第一服务器;其中,第一服务器根据所述多个第二数据组的数据标签的明文和、合并参数,以及多个第一数据组,确定出特征数据的信息值。
由上可见,基于本说明书实施例提供的基于隐私保护的数据处理方法,处于单向网络环境中无法直接获取外部其他服务器发送的数据的第二服务器可以与第一服务器合作,在保护双方数据隐私的前提下,先完成符合要求的数据分箱;并基于分箱后的特征数据,准确地确定出特征数据的信息值,降低了数据处理过程中双方各自持有的数据遭到泄露的风险。
本说明书实施例还提供了一种服务器,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器具体实施时可以根据指令执行以下步骤:接收第二服务器发送的第一标签列,并根据所述第一标签列确定出特征数据所对应的数据标签的密文数据;其中,所述第一标签列包含有与标识信息对应的数据标签的密文数据,所述特征数据包括与标识信息对应的特征数据;根据特征数据的数据值,排列特征数据,以得到第一特征列;根据所述第一特征列,将所述特征数据划分为按顺序排列的多个第一数据组;并根据特征数据所对应的数据标签的密文数据,统计出各个第一数据组的数据标签的密文和;向所述第二服务器提供各个第一数据组的数据标签的密文和、各个第一数据组所包含的特征数据的数量,以及第一数据组的排列顺序;其中,所述第二服务器解密得到各个数据组的数据标签的明文和;所述第二服务器根据预设的卡方分组规则,利用第一数据组的排列顺序、各个第一数据组的数据标签的明文和、各个第一数据组所包含的特征数据的数量,对第一数据组进行多次合并,得到多个第二数据组的数据标签的明文和,并记录合并参数;接收第二服务器发送的多个第二数据组的数据标签的明文和,以及合并参数;根据所述多个第二数据组的数据标签的明文和、合并参数,以及多个第一数据组,确定出特征数据的信息值。
为了能够更加准确地完成上述指令,参阅图8所示,本说明书实施例还提供了另一种具体的服务器,其中,所述服务器包括网络通信端口801、处理器802以及存储器803,上述结构通过内部线缆相连,以便各个结构可以进行具体的数据交互。
其中,所述网络通信端口801,具体可以用于接收第二服务器发送的第一标签列,并根据所述第一标签列确定出特征数据所对应的数据标签的密文数据;其中,所述第一标签列包含有与标识信息对应的数据标签的密文数据,所述特征数据包括与标识信息对应的特征数据。
所述处理器802,具体可以用于根据特征数据的数据值,排列特征数据,以得到第一特征列;根据所述第一特征列,将所述特征数据划分为按顺序排列的多个第一数据组;并根据特征数据所对应的数据标签的密文数据,统计出各个第一数据组的数据标签的密文和;向所述第二服务器提供各个第一数据组的数据标签的密文和、各个第一数据组所包含的特征数据的数量,以及第一数据组的排列顺序;其中,所述第二服务器解密得到各个数据组的数据标签的明文和;所述第二服务器根据预设的卡方分组规则,利用第一数据组的排列顺序、各个第一数据组的数据标签的明文和、各个第一数据组所包含的特征数据的数量,对第一数据组进行多次合并,得到多个第二数据组的数据标签的明文和,并记录合并参数;接收第二服务器发送的多个第二数据组的数据标签的明文和,以及合并参数;根据所述多个第二数据组的数据标签的明文和、合并参数,以及多个第一数据组,确定出特征数据的信息值。
所述存储器803,具体可以用于存储相应的指令程序。
在本实施例中,所述网络通信端口801可以是与不同的通信协议进行绑定,从而可以发送或接收不同数据的虚拟端口。例如,所述网络通信端口可以是负责进行web数据通信的端口,也可以是负责进行FTP数据通信的端口,还可以是负责进行邮件数据通信的端口。此外,所述网络通信端口还可以是实体的通信接口或者通信芯片。例如,其可以为无线移动网络通信芯片,如GSM、CDMA等;其还可以为Wifi芯片;其还可以为蓝牙芯片。
在本实施例中,所述处理器802可以按任何适当的方式实现。例如,处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。本说明书并不作限定。
在本实施例中,所述存储器803可以包括多个层次,在数字系统中,只要能保存二进制数据的都可以是存储器;在集成电路中,一个没有实物形式的具有存储功能的电路也叫存储器,如RAM、FIFO等;在系统中,具有实物形式的存储设备也叫存储器,如内存条、TF卡等。
本说明书实施例还提供了一种服务器,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器具体实施时可以根据指令执行以下步骤:将第一标签列发送至第一服务器;其中,所述第一标签列包含有与标识信息对应的数据标签的密文数据;所述第一服务器根据第一标签列确定出特征数据所对应的数据标签的密文数据;所述第一服务器还将多个特征数据划分为多个第一数据组,统计得到各个第一数据组的数据标签的密文和;获取来自第一服务器的各个第一数据组的数据标签的密文和、各个第一数据组所包含的特征数据的数量,以及第一数据组的排列顺序;对所述各个第一数据组的数据标签的密文和进行解密,得到各个第一数据组的数据标签的明文和;根据第一数据组的排列顺序排列第一数据组,得到排序后的多个第一数据组;根据预设的卡方分组规则,利用各个第一数据组的数据标签的明文和、各个第一数据组所包含的特征数据的数量,对所述排序后的多个第一数据组进行多次合并,得到多个第二数据组的数据标签的明文和,并记录合并参数;将所述多个第二数据组的数据标签的明文和,以及合并参数发送至第一服务器;其中,第一服务器根据所述多个第二数据组的数据标签的明文和、合并参数,以及多个第一数据组,确定出特征数据的信息值。
本说明书实施例还提供了一种基于上述基于隐私保护的数据处理方法的计算机存储介质,所述计算机存储介质存储有计算机程序指令,在所述计算机程序指令被执行时实现:接收第二服务器发送的第一标签列,并根据所述第一标签列确定出特征数据所对应的数据标签的密文数据;其中,所述第一标签列包含有与标识信息对应的数据标签的密文数据,所述特征数据包括与标识信息对应的特征数据;根据特征数据的数据值,排列特征数据,以得到第一特征列;根据所述第一特征列,将所述特征数据划分为按顺序排列的多个第一数据组;并根据特征数据所对应的数据标签的密文数据,统计出各个第一数据组的数据标签的密文和;向所述第二服务器提供各个第一数据组的数据标签的密文和、各个第一数据组所包含的特征数据的数量,以及第一数据组的排列顺序;其中,所述第二服务器解密得到各个数据组的数据标签的明文和;所述第二服务器根据预设的卡方分组规则,利用第一数据组的排列顺序、各个第一数据组的数据标签的明文和、各个第一数据组所包含的特征数据的数量,对第一数据组进行多次合并,得到多个第二数据组的数据标签的明文和,并记录合并参数;接收第二服务器发送的多个第二数据组的数据标签的明文和,以及合并参数;根据所述多个第二数据组的数据标签的明文和、合并参数,以及多个第一数据组,确定出特征数据的信息值。
本说明书实施例还提供了另一种基于上述基于隐私保护的数据处理方法的计算机存储介质,所述计算机存储介质存储有计算机程序指令,在所述计算机程序指令被执行时实现:将第一标签列发送至第一服务器;其中,所述第一标签列包含有与标识信息对应的数据标签的密文数据;所述第一服务器根据第一标签列确定出特征数据所对应的数据标签的密文数据;所述第一服务器还将多个特征数据划分为多个第一数据组,统计得到各个第一数据组的数据标签的密文和;获取来自第一服务器的各个第一数据组的数据标签的密文和、各个第一数据组所包含的特征数据的数量,以及第一数据组的排列顺序;对所述各个第一数据组的数据标签的密文和进行解密,得到各个第一数据组的数据标签的明文和;根据第一数据组的排列顺序排列第一数据组,得到排序后的多个第一数据组;根据预设的卡方分组规则,利用各个第一数据组的数据标签的明文和、各个第一数据组所包含的特征数据的数量,对所述排序后的多个第一数据组进行多次合并,得到多个第二数据组的数据标签的明文和,并记录合并参数;将所述多个第二数据组的数据标签的明文和,以及合并参数发送至第一服务器;其中,第一服务器根据所述多个第二数据组的数据标签的明文和、合并参数,以及多个第一数据组,确定出特征数据的信息值。
在本实施例中,上述存储介质包括但不限于随机存取存储器(Random AccessMemory, RAM)、只读存储器(Read-Only Memory, ROM)、缓存(Cache)、硬盘(Hard DiskDrive, HDD)或者存储卡(Memory Card)。所述存储器可以用于存储计算机程序指令。网络通信单元可以是依照通信协议规定的标准设置的,用于进行网络连接通信的接口。
在本实施例中,该计算机存储介质存储的程序指令具体实现的功能和效果,可以与其它实施方式对照解释,在此不再赘述。
参阅图9所示,在软件层面上,本说明书实施例还提供了一种基于隐私保护的数据处理装置,该装置具体可以包括以下的结构模块。
接收模块901,具体可以用于接收第二服务器发送的第一标签列,并根据所述第一标签列确定出特征数据所对应的数据标签的密文数据;其中,所述第一标签列包含有与标识信息对应的数据标签的密文数据,所述特征数据包括与标识信息对应的特征数据;
排列模块902,具体可以用于根据特征数据的数据值,排列特征数据,以得到第一特征列;
划分模块903,具体可以用于根据所述第一特征列,将所述特征数据划分为按顺序排列的多个第一数据组;并根据特征数据所对应的数据标签的密文数据,统计出各个第一数据组的数据标签的密文和;
传输模块904,具体可以用于使得所述第二服务器获取各个第一数据组的数据标签的密文和、各个第一数据组所包含的特征数据的数量,以及第一数据组的排列顺序;其中,所述第二服务器解密得到各个数据组的数据标签的明文和;所述第二服务器根据预设的卡方分组规则,利用第一数据组的排列顺序、各个第一数据组的数据标签的明文和、各个第一数据组所包含的特征数据的数量,对第一数据组进行多次合并,得到多个第二数据组的数据标签的明文和,并记录合并参数;
确定模块905,具体可以用于接收第二服务器发送的多个第二数据组的数据标签的明文和,以及合并参数;并根据所述多个第二数据组的数据标签的明文和、合并参数,以及多个第一数据组,确定出特征数据的信息值。
需要说明的是,上述实施例阐明的单元、装置或模块等,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书时可以把各模块的功能在同一个或多个软件和/或硬件中实现,也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
参阅图10所示,在软件层面上,本说明书实施例还提供了一种基于隐私保护的数据处理装置,该装置具体可以包括以下的结构模块。
第一发送模块1001,具体可以用于将第一标签列发送至第一服务器;其中,所述第一标签列包含有与标识信息对应的数据标签的密文数据;所述第一服务器根据第一标签列确定出特征数据所对应的数据标签的密文数据;所述第一服务器还将多个特征数据划分为多个第一数据组,统计得到各个第一数据组的数据标签的密文和;
获取模块1002,具体可以用于获取来自第一服务器的各个第一数据组的数据标签的密文和、各个第一数据组所包含的特征数据的数量,以及第一数据组的排列顺序;
处理模块1003,具体可以用于对所述各个第一数据组的数据标签的密文和进行解密,得到各个第一数据组的数据标签的明文和;并根据第一数据组的排列顺序排列第一数据组,得到排序后的多个第一数据组;
合并模块1004,具体可以用于根据预设的卡方分组规则,利用各个第一数据组的数据标签的明文和、各个第一数据组所包含的特征数据的数量,对所述排序后的多个第一数据组进行多次合并,得到多个第二数据组的数据标签的明文和,并记录合并参数;
第二发送模块1005,具体可以用于将所述多个第二数据组的数据标签的明文和,以及合并参数发送至第一服务器;其中,第一服务器根据所述多个第二数据组的数据标签的明文和、合并参数,以及多个第一数据组,确定出特征数据的信息值。
由上可见,本说明书实施例提供的隐私保护的数据处理装置,能够使得第一服务器和第二服务器在保护双方数据隐私的前提下通过合作完成符合要求的数据分箱;并基于分箱后的数据,准确地确定出特征数据的信息值,降低了数据处理过程中双方各自持有的数据遭到泄露的风险。
虽然本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或客户端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境,甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下,并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
通过以上的实施例的描述可知,本领域的技术人员可以清楚地了解到本说明书可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本说明书的技术方案本质上可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,移动终端,服务器,或者网络设备等)执行本说明书各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。本说明书可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
虽然通过实施例描绘了本说明书,本领域普通技术人员知道,本说明书有许多变形和变化而不脱离本说明书的精神,希望所附的权利要求包括这些变形和变化而不脱离本说明书的精神。

Claims (20)

1.一种基于隐私保护的数据处理方法,应用于第一服务器,包括:
接收第二服务器发送的第一标签列,并根据所述第一标签列确定出特征数据所对应的数据标签的密文数据;其中,所述第一标签列包含有与标识信息对应的数据标签的密文数据,所述特征数据包括与标识信息对应的特征数据;
根据特征数据的数据值,排列特征数据,以得到第一特征列;
根据所述第一特征列,将所述特征数据划分为按顺序排列的多个第一数据组;并根据特征数据所对应的数据标签的密文数据,统计出各个第一数据组的数据标签的密文和;
向所述第二服务器提供各个第一数据组的数据标签的密文和、各个第一数据组所包含的特征数据的数量,以及第一数据组的排列顺序;其中,所述第二服务器解密得到各个数据组的数据标签的明文和;所述第二服务器根据预设的卡方分组规则,利用第一数据组的排列顺序、各个第一数据组的数据标签的明文和、各个第一数据组所包含的特征数据的数量,对第一数据组进行多次合并,得到多个第二数据组的数据标签的明文和,并记录合并参数;
接收第二服务器发送的多个第二数据组的数据标签的明文和,以及合并参数;并根据所述多个第二数据组的数据标签的明文和、合并参数,以及多个第一数据组,确定出特征数据的信息值。
2.根据权利要求1所述的方法,根据所述第一标签列确定出特征数据所对应的数据标签的密文数据,包括:
根据基于标识信息的排列顺序排列特征数据,得到初始特征列;
根据所述初始特征列和所述第一标签列,确定出特征数据所对应的数据标签的密文数据。
3.根据权利要求1所述的方法,根据所述第一特征列,将所述特征数据划分为按顺序排列的多个第一数据组,包括:
根据参考数量和特征数据的数据值,从位于第一特征列的起始位置处的特征数据出发,沿所述第一特征列中特征数据的排列方向,遍历第一特征列中的特征数据的数据值,以将第一特征列中的特征数据划分为按顺序排列的多个第一数据组;其中,不同的第一数据组之间所包含的特征数据的数量的差值小于预设的数量阈值。
4.根据权利要求1所述的方法,在向所述第二服务器提供各个第一数据组的数据标签的密文和、各个第一数据组所包含的特征数据的数量,以及第一数据组的排列顺序之前,所述方法还包括:
对各个第一数据组的数据标签的密文和分别进行随机化操作,得到各个第一数据组的数据标签的随机化操作后的密文和。
5.根据权利要求1所述的方法,所述合并参数至少包括被合并为第二数据组的第一数据组的数据组标识。
6.根据权利要求5所述的方法,根据所述多个第二数据组的数据标签的明文和、合并参数,以及多个第一数据组,确定出特征数据的信息值,包括:
根据合并参数确定出被合并为第二数据组的第一数据组的数据组标识;
根据所述被合并为第二数据组的第一数据组的数据组标识,和所述多个第一数据组,确定出第二数据组所包含的特征数据;
根据所述第二数据组所包含的特征数据,以及第二数据组的数据标签的明文和,确定出特征数据的信息值。
7.一种基于隐私保护的数据处理方法,应用于第二服务器,包括:
将第一标签列发送至第一服务器;其中,所述第一标签列包含有与标识信息对应的数据标签的密文数据;所述第一服务器根据第一标签列确定出特征数据所对应的数据标签的密文数据;所述第一服务器还将多个特征数据划分为多个第一数据组,统计得到各个第一数据组的数据标签的密文和;
获取来自第一服务器的各个第一数据组的数据标签的密文和、各个第一数据组所包含的特征数据的数量,以及第一数据组的排列顺序;
对所述各个第一数据组的数据标签的密文和进行解密,得到各个第一数据组的数据标签的明文和;并根据第一数据组的排列顺序排列第一数据组,得到排序后的多个第一数据组;
根据预设的卡方分组规则,利用各个第一数据组的数据标签的明文和、各个第一数据组所包含的特征数据的数量,对所述排序后的多个第一数据组进行多次合并,得到多个第二数据组的数据标签的明文和,并记录合并参数;
将所述多个第二数据组的数据标签的明文和,以及合并参数发送至第一服务器;其中,第一服务器根据所述多个第二数据组的数据标签的明文和、合并参数,以及多个第一数据组,确定出特征数据的信息值。
8.根据权利要求7所述的方法,在将第一标签列发送至第一服务器之前,所述方法还包括:
生成基于同态加密算法的公钥和私钥;
根据基于标识信息的排列顺序排列数据标签,得到初始标签列;
利用公钥加密所述初始标签列中的数据标签,得到第一标签列。
9.根据权利要求8所述的方法,在得到第一标签列之后,所述方法还包括:
将所述第一标签列和公钥发送至第一服务器;其中,所述第一服务器利用所述公钥对各个第一数据组的数据标签的密文和进行随机化操作。
10.根据权利要求7所述的方法,根据预设的卡方分组规则,利用各个第一数据组的数据标签的明文和、各个第一数据组所包含的特征数据的数量,对所述排序后的多个第一数据组进行多次合并,包括:
按照以下方式进行当前次合并:
获取上一次合并后的多个数据组,并计算出上一次合并后的多个数据组中相邻的两个数据组之间的卡方值,得到多个卡方值;
从多个卡方值中筛选出数值最小的卡方值,作为当前次的目标卡方值;
检测当前次合并是否满足预设的合并条件;
在确定当前次合并满足预设的合并条件的情况下,将当前次的目标卡方值所对应的相邻的两个数据组合并为一个数据组;并记录下被合并的数据组的数据组标识,作为当前次的合并参数。
11.根据权利要求10所述的方法,检测当前次合并是否满足预设的合并条件,包括:
确定预设的卡方值阈值,以及预设的数据组数阈值;
统计上一次合并后的多个数据组数量,作为当前次的参考数据组数;
比较所述预设的卡方值阈值和所述当前次的目标卡方值,得到第一比较结果;比较所述预设的数据组数阈值和当前次的参考数据组数,得到第二比较结果;
根据所述第一比较结果和所述第二比较结果,确定当前次合并是否满足预设的合并条件。
12.根据权利要求10所述的方法,在检测当前次合并是否满足预设的合并条件之后,所述方法还包括:
在确定当前次合并不满足预设的合并条件的情况下,停止当前次合并;并将上一次合并后的多个数据组确定为多个第二数据组。
13.根据权利要求7所述的方法,获取来自第一服务器的各个第一数据组的数据标签的密文和、各个第一数据组所包含的特征数据的数量,以及第一数据组的排列顺序,包括:
生成并向第一服务器发起第一询问请求;其中,所述第一询问请求用于根据预设的通信规则在向第二服务器返回第一服务器针对所述第一询问请求的确认信息的同时,还向第二服务器返回所携带的各个第一数据组的数据标签的密文和、各个第一数据组所包含的特征数据的数量,以及第一数据组的排列顺序;
获取所述第一询问请求返回的各个第一数据组的数据标签的密文和、各个第一数据组所包含的特征数据的数量,以及第一数据组的排列顺序。
14.根据权利要求13所述的方法,所述第一询问请求的访问地址中的路径字段中包含有用于指示返回时携带各个第一数据组的数据标签的密文和、各个第一数据组所包含的特征数据的数量,以及第一数据组的排列顺序的第一标识字符。
15.根据权利要求13所述的方法,在将所述多个第二数据组的数据标签的明文和,以及合并参数发送至第一服务器之后,所述方法还包括:
生成并向第一服务器发起第二询问请求;其中,所述第二询问请求用于根据预设的通信规则在向第二服务器返回第一服务器针对所述第二询问请求的确认信息的同时,还向第二服务器返回所携带的特征数据的信息值;
获取所述第二询问请求返回的特征数据的信息值。
16.一种基于隐私保护的数据处理装置,包括:
接收模块,用于接收第二服务器发送的第一标签列,并根据所述第一标签列确定出特征数据所对应的数据标签的密文数据;其中,所述第一标签列包含有与标识信息对应的数据标签的密文数据,所述特征数据包括与标识信息对应的特征数据;
排列模块,用于根据特征数据的数据值,排列特征数据,以得到第一特征列;
划分模块,用于根据所述第一特征列,将所述特征数据划分为按顺序排列的多个第一数据组;并根据特征数据所对应的数据标签的密文数据,统计出各个第一数据组的数据标签的密文和;
传输模块,用于使得所述第二服务器获取各个第一数据组的数据标签的密文和、各个第一数据组所包含的特征数据的数量,以及第一数据组的排列顺序;其中,所述第二服务器解密得到各个数据组的数据标签的明文和;所述第二服务器根据预设的卡方分组规则,利用第一数据组的排列顺序、各个第一数据组的数据标签的明文和、各个第一数据组所包含的特征数据的数量,对第一数据组进行多次合并,得到多个第二数据组的数据标签的明文和,并记录合并参数;
确定模块,用于接收第二服务器发送的多个第二数据组的数据标签的明文和,以及合并参数;并根据所述多个第二数据组的数据标签的明文和、合并参数,以及多个第一数据组,确定出特征数据的信息值。
17.一种基于隐私保护的数据处理装置,包括:
第一发送模块,用于将第一标签列发送至第一服务器;其中,所述第一标签列包含有与标识信息对应的数据标签的密文数据;所述第一服务器根据第一标签列确定出特征数据所对应的数据标签的密文数据;所述第一服务器还将多个特征数据划分为多个第一数据组,统计得到各个第一数据组的数据标签的密文和;
获取模块,用于获取来自第一服务器的各个第一数据组的数据标签的密文和、各个第一数据组所包含的特征数据的数量,以及第一数据组的排列顺序;
处理模块,用于对所述各个第一数据组的数据标签的密文和进行解密,得到各个第一数据组的数据标签的明文和;并根据第一数据组的排列顺序排列第一数据组,得到排序后的多个第一数据组;
合并模块,用于根据预设的卡方分组规则,利用各个第一数据组的数据标签的明文和、各个第一数据组所包含的特征数据的数量,对所述排序后的多个第一数据组进行多次合并,得到多个第二数据组的数据标签的明文和,并记录合并参数;
第二发送模块,用于将所述多个第二数据组的数据标签的明文和,以及合并参数发送至第一服务器;其中,第一服务器根据所述多个第二数据组的数据标签的明文和、合并参数,以及多个第一数据组,确定出特征数据的信息值。
18.一种服务器,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现权利要求1至6,或7至15中任一项所述方法的步骤。
19.一种基于隐私保护的数据处理方法,应用于第一服务器,包括:
接收第二服务器发送的第一标签列,并根据所述第一标签列确定出特征数据所对应的数据标签的密文数据;其中,所述第一标签列包含有与标识信息对应的数据标签的密文数据,所述特征数据包括与标识信息对应的特征数据;
根据特征数据的数据值,排列特征数据,以得到第一特征列;
根据所述第一特征列,将所述特征数据划分为按顺序排列的多个第一数据组;并根据特征数据所对应的数据标签的密文数据,统计出各个第一数据组的数据标签的密文和;
接收第二服务器发起的第一询问请求,其中,所述第一询问请求用于根据预设的通信规则在向第二服务器返回第一服务器针对所述第一询问请求的确认信息的同时,还向第二服务器返回所携带的各个第一数据组的数据标签的密文和、各个第一数据组所包含的特征数据的数量,以及第一数据组的排列顺序;所述第二服务器解密得到各个数据组的数据标签的明文和;所述第二服务器根据预设的卡方分组规则,利用第一数据组的排列顺序、各个第一数据组的数据标签的明文和、各个第一数据组所包含的特征数据的数量,对第一数据组进行多次合并,得到多个第二数据组的数据标签的明文和,并记录合并参数;
接收第二服务器发送的多个第二数据组的数据标签的明文和,以及合并参数;并根据所述多个第二数据组的数据标签的明文和、合并参数,以及多个第一数据组,确定出特征数据的信息值。
20.一种基于隐私保护的数据处理方法,应用于第二服务器,包括:
将第一标签列发送至第一服务器;其中,所述第一标签列包含有与标识信息对应的数据标签的密文数据;所述第一服务器根据第一标签列确定出特征数据所对应的数据标签的密文数据;所述第一服务器还将多个特征数据划分为多个第一数据组,统计得到各个第一数据组的数据标签的密文和;
生成并向第一服务器发起第一询问请求,以获取来自第一服务器的各个第一数据组的数据标签的密文和、各个第一数据组所包含的特征数据的数量,以及第一数据组的排列顺序;其中,所述第一询问请求用于根据预设的通信规则在向第二服务器返回第一服务器针对所述第一询问请求的确认信息的同时,还向第二服务器返回所携带的各个第一数据组的数据标签的密文和、各个第一数据组所包含的特征数据的数量,以及第一数据组的排列顺序;
对所述各个第一数据组的数据标签的密文和进行解密,得到各个第一数据组的数据标签的明文和;并根据第一数据组的排列顺序排列第一数据组,得到排序后的多个第一数据组;
根据预设的卡方分组规则,利用各个第一数据组的数据标签的明文和、各个第一数据组所包含的特征数据的数量,对所述排序后的多个第一数据组进行多次合并,得到多个第二数据组的数据标签的明文和,并记录合并参数;
将所述多个第二数据组的数据标签的明文和,以及合并参数发送至第一服务器;其中,第一服务器根据所述多个第二数据组的数据标签的明文和、合并参数,以及多个第一数据组,确定出特征数据的信息值。
CN202110237534.6A 2021-03-04 2021-03-04 基于隐私保护的数据处理方法、装置和服务器 Active CN112597525B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110237534.6A CN112597525B (zh) 2021-03-04 2021-03-04 基于隐私保护的数据处理方法、装置和服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110237534.6A CN112597525B (zh) 2021-03-04 2021-03-04 基于隐私保护的数据处理方法、装置和服务器

Publications (2)

Publication Number Publication Date
CN112597525A true CN112597525A (zh) 2021-04-02
CN112597525B CN112597525B (zh) 2021-05-28

Family

ID=75210223

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110237534.6A Active CN112597525B (zh) 2021-03-04 2021-03-04 基于隐私保护的数据处理方法、装置和服务器

Country Status (1)

Country Link
CN (1) CN112597525B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112990487A (zh) * 2021-05-13 2021-06-18 上海冰鉴信息科技有限公司 一种快速卡方分箱的方法及装置
CN113362048A (zh) * 2021-08-11 2021-09-07 腾讯科技(深圳)有限公司 数据标签分布确定方法、装置、计算机设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110990857A (zh) * 2019-12-11 2020-04-10 支付宝(杭州)信息技术有限公司 保护隐私安全的多方联合进行特征评估的方法及装置
CN111401572A (zh) * 2020-06-05 2020-07-10 支付宝(杭州)信息技术有限公司 基于隐私保护的有监督特征分箱方法及装置
CN111539009A (zh) * 2020-06-05 2020-08-14 支付宝(杭州)信息技术有限公司 保护隐私数据的有监督特征分箱方法及装置
CN111539535A (zh) * 2020-06-05 2020-08-14 支付宝(杭州)信息技术有限公司 基于隐私保护的联合特征分箱方法及装置
CN112100643A (zh) * 2020-11-16 2020-12-18 支付宝(杭州)信息技术有限公司 基于隐私保护的数据处理方法、装置和服务器
CN112100679A (zh) * 2020-11-16 2020-12-18 支付宝(杭州)信息技术有限公司 基于隐私保护的数据处理方法、装置和服务器

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110990857A (zh) * 2019-12-11 2020-04-10 支付宝(杭州)信息技术有限公司 保护隐私安全的多方联合进行特征评估的方法及装置
CN111401572A (zh) * 2020-06-05 2020-07-10 支付宝(杭州)信息技术有限公司 基于隐私保护的有监督特征分箱方法及装置
CN111539009A (zh) * 2020-06-05 2020-08-14 支付宝(杭州)信息技术有限公司 保护隐私数据的有监督特征分箱方法及装置
CN111539535A (zh) * 2020-06-05 2020-08-14 支付宝(杭州)信息技术有限公司 基于隐私保护的联合特征分箱方法及装置
CN112100643A (zh) * 2020-11-16 2020-12-18 支付宝(杭州)信息技术有限公司 基于隐私保护的数据处理方法、装置和服务器
CN112100679A (zh) * 2020-11-16 2020-12-18 支付宝(杭州)信息技术有限公司 基于隐私保护的数据处理方法、装置和服务器

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112990487A (zh) * 2021-05-13 2021-06-18 上海冰鉴信息科技有限公司 一种快速卡方分箱的方法及装置
CN112990487B (zh) * 2021-05-13 2021-08-03 上海冰鉴信息科技有限公司 一种快速卡方分箱的方法及装置
CN113362048A (zh) * 2021-08-11 2021-09-07 腾讯科技(深圳)有限公司 数据标签分布确定方法、装置、计算机设备和存储介质
CN113362048B (zh) * 2021-08-11 2021-11-30 腾讯科技(深圳)有限公司 数据标签分布确定方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN112597525B (zh) 2021-05-28

Similar Documents

Publication Publication Date Title
CN112100679B (zh) 基于隐私保护的数据处理方法、装置和服务器
CN109829726B (zh) 一种基于区块链的药品信息管理方法及系统
CN112597525B (zh) 基于隐私保护的数据处理方法、装置和服务器
CN112100643B (zh) 基于隐私保护的数据处理方法、装置和服务器
CN110224808B (zh) 基于区块链的银行数据共享方法、装置、计算机设备和存储介质
CN102932336B (zh) 终端标识方法与装置
CN104731816A (zh) 一种处理异常业务数据的方法和装置
US20130305376A1 (en) Systems, methods and computer readable media for calculating a security index of an application hosted in a cloud environment
CN112073444B (zh) 数据集的处理方法、装置和服务器
CN109583889B (zh) 基于区块链的印章或签名识别系统
CN110019278B (zh) 一种数据验证方法、装置及设备
CN107465660A (zh) 一种视频流地址鉴权方法及装置
CN110020544A (zh) 区块链的区块中存储记录的哈希信息处理方法和系统
CN111507479A (zh) 特征分箱方法、装置、设备及计算机可读存储介质
CN112468521B (zh) 基于隐私保护的数据处理方法、装置和服务器
CN105989457A (zh) 一种信息查询方法及装置
CN111931221B (zh) 数据处理方法、装置和服务器
CN104573132B (zh) 歌曲查找方法及装置
CN112906064B (zh) 生成描述信息的方法及装置
CN108446168A (zh) 一种事务的浏览权限设置方法和装置
CN110008210B (zh) 一种索引创建方法、装置及设备
CN112468285B (zh) 基于隐私保护的数据处理方法、装置和服务器
CN115118520B (zh) 数据处理方法、装置和服务器
CN111212153A (zh) Ip地址核查方法、装置、终端设备及存储介质
CN113254989B (zh) 目标数据的融合方法、装置和服务器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant