CN112100678B - 基于隐私保护的数据处理方法、装置和服务器 - Google Patents
基于隐私保护的数据处理方法、装置和服务器 Download PDFInfo
- Publication number
- CN112100678B CN112100678B CN202011276387.5A CN202011276387A CN112100678B CN 112100678 B CN112100678 B CN 112100678B CN 202011276387 A CN202011276387 A CN 202011276387A CN 112100678 B CN112100678 B CN 112100678B
- Authority
- CN
- China
- Prior art keywords
- data
- reference value
- characteristic
- server
- current
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6227—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2291—User-Defined Types; Storage management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
- G06F16/278—Data partitioning, e.g. horizontal or vertical partitioning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Bioethics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Probability & Statistics with Applications (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本说明书提供了基于隐私保护的数据处理方法、装置和服务器。基于该方法,第一服务器可以根据与当前数据箱相关的分箱参数,在所持有的根据数据值排列的第一特征列上先确定出关于当前数据箱的第一参考分位点,并获取对应的第一参考值;同时,接收第二服务器基于相同方式所得到的第二参考值;并根据基于第一参考值和第二参考值得到的第一比较结果,确定出当前数据箱在第一特征列上的当前分位点;同时,第二服务器可以按照上述类似方式确定出当前数据箱在第二特征列上的当前分位点。从而使得第一服务器和第二服务器可以在不向对方泄露所持有的特征数据、保护数据隐私的前提下,安全地完成横向场景中的符合要求的特征数据的数据分箱。
Description
技术领域
本说明书属于互联网技术领域,尤其涉及基于隐私保护的数据处理方法、装置和服务器。
背景技术
在横向场景中,不同的数据方可能会分别拥有不同数据对象的相同类型的特征数据。例如,第一数据方拥有用户A的违约次数,而第二数据方拥有用户B的违约次数。
有时,某一个数据方需要利用其它数据方所拥有的特征数据进行例如联合统计等相关的数据处理。在进行上述数据处理前,往往需要先对双方所分别拥有的特征数据进行数据分箱,再利用分箱后的特征数据计算出总特征数据的信息值,进而可以以该信息值作为依据筛选出效果较好的特征数据来进行具体的数据处理。而参与上述数据分箱过程的数据方,通常又不希望向对方泄露己方所拥有的特征数据。
因此,亟需一种能够在不向对方泄露所持有的特征数据、保护数据隐私的前提下,安全地完成横向场景中的符合要求的特征数据的数据分箱的方法。
发明内容
本说明书提供了一种基于隐私保护的数据处理方法、装置和服务器,能够使得第一服务器和第二服务器可以在不向对方泄露所持有的特征数据、保护数据隐私的前提下,安全地完成横向场景中的符合要求的特征数据的数据分箱。
本说明书提供的一种基于隐私保护的数据处理方法、装置和服务器是这样实现的:
一种基于隐私保护的数据处理方法,包括:根据所获取的与当前数据箱相关的分箱参数,在第一特征列上确定出关于当前数据箱的第一参考分位点,并获取第一参考分位点处的第一特征数据的数据值作为第一参考值;其中,所述第一特征列包含有第一服务器所持有的多个第一特征数据,所述第一特征列上的多个第一特征数据根据数据值排列;接收来自第二服务器的第二参考值;其中,所述第二服务器根据分箱参数,在第二特征列上确定出关于当前数据箱的第二参考分位点,并获取第二参考分位点处的第二特征数据的数据值作为第二参考值;所述第二特征列包含有第二服务器所持有的多个第二特征数据,所述第二特征列上的多个第二特征数据根据数据值排列;比较所述第一参考值和第二参考值,得到相应的第一比较结果;根据所述第一比较结果,确定出当前数据箱在第一特征列上的当前分位点。
一种基于隐私保护的数据处理方法,应用于包含有第一服务器和第二服务器的系统中,包括:第一服务根据所获取的与当前数据箱相关的分箱参数,在第一特征列上确定出关于当前数据箱的第一参考分位点,并获取第一参考分位点处的第一特征数据的数据值作为第一参考值;第二服务器根据所获取的与当前数据箱相关的分箱参数,在第二特征列上确定出关于当前数据箱的第二参考分位点,并获取第二参考分位点处的第二特征数据的数据值作为第二参考值;其中,所述第一特征列包含有第一服务器所持有的多个第一特征数据,所述第一特征列上的多个第一特征数据根据数据值排列;所述第二特征列包含有第二服务器所持有的多个第二特征数据,所述第二特征列上的多个第二特征数据根据数据值排列;第一服务器将所述第一参考值发送至第二服务器;第二服务器将所述第二参考值发送至第一服务器;第一服务器比较所述第一参考值和第二参考值,并根据对应的第一比较结果,确定出当前数据箱在第一特征列上的当前分位点;第二服务器比较所述第一参考值和第二参考值,并根据对应的第一比较结果,确定出当前数据箱在第二特征列上的当前分位点。
一种基于隐私保护的数据处理装置,包括:第一确定模块,用于根据所获取的与当前数据箱相关的分箱参数,在第一特征列上确定出关于当前数据箱的第一参考分位点,并获取第一参考分位点处的第一特征数据的数据值作为第一参考值;其中,所述第一特征列包含有第一服务器所持有的多个第一特征数据,所述第一特征列上的多个第一特征数据根据数据值排列;接收模块,用于接收来自第二服务器的第二参考值;其中,所述第二服务器根据分箱参数,在第二特征列上确定出关于当前数据箱的第二参考分位点,并获取第二参考分位点处的第二特征数据的数据值作为第二参考值;所述第二特征列包含有第二服务器所持有的多个第二特征数据,所述第二特征列上的多个第二特征数据根据数据值排列;比较模块,用于比较所述第一参考值和第二参考值,得到相应的第一比较结果;第二确定模块,用于根据所述第一比较结果,确定出当前数据箱在第一特征列上的当前分位点。
一种服务器,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现根据所获取的与当前数据箱相关的分箱参数,在第一特征列上确定出关于当前数据箱的第一参考分位点,并获取第一参考分位点处的第一特征数据的数据值作为第一参考值;其中,所述第一特征列包含有第一服务器所持有的多个第一特征数据,所述第一特征列上的多个第一特征数据根据数据值排列;接收来自第二服务器的第二参考值;其中,所述第二服务器根据分箱参数,在第二特征列上确定出关于当前数据箱的第二参考分位点,并获取第二参考分位点处的第二特征数据的数据值作为第二参考值;所述第二特征列包含有第二服务器所持有的多个第二特征数据,所述第二特征列上的多个第二特征数据根据数据值排列;比较所述第一参考值和第二参考值,得到相应的第一比较结果;根据所述第一比较结果,确定出当前数据箱在第一特征列上的当前分位点。
一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现根据所获取的与当前数据箱相关的分箱参数,在第一特征列上确定出关于当前数据箱的第一参考分位点,并获取第一参考分位点处的第一特征数据的数据值作为第一参考值;其中,所述第一特征列包含有第一服务器所持有的多个第一特征数据,所述第一特征列上的多个第一特征数据根据数据值排列;接收来自第二服务器的第二参考值;其中,所述第二服务器根据分箱参数,在第二特征列上确定出关于当前数据箱的第二参考分位点,并获取第二参考分位点处的第二特征数据的数据值作为第二参考值;所述第二特征列包含有第二服务器所持有的多个第二特征数据,所述第二特征列上的多个第二特征数据根据数据值排列;比较所述第一参考值和第二参考值,得到相应的第一比较结果;根据所述第一比较结果,确定出当前数据箱在第一特征列上的当前分位点。
本说明书提供的一种基于隐私保护的数据处理方法、装置和服务器,基于该方法,第一服务器可以根据与当前数据箱相关的分箱参数,在所持有的根据数据值排列的第一特征列上先确定出关于当前数据箱的第一参考分位点,并获取对应的第一参考值;同时,接收第二服务器基于相同方式所得到的第二参考值;并根据基于第一参考值和第二参考值得到的第一比较结果,再根据第一比较结果确定出当前数据箱在第一特征列上的当前分位点;同时,第二服务器可以按照上述类似方式与第一服务器进行交互确定出当前数据箱在第二特征列上的当前分位点。这样第一服务器和第二服务器在对各自持有的特征数据进行联合分箱的过程中,不需要直接交互传输各自所持有的特征数据,从而能够使得第一服务器和第二服务器可以在不向对方泄露己方所持有的特征数据、保护数据隐私的前提下,安全地完成横向场景中的符合要求的特征数据的数据分箱。
附图说明
为了更清楚地说明本说明书实施例,下面将对实施例中所需要使用的附图作简单地介绍,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是应用本说明书实施例提供的基于隐私保护的数据处理方法的系统的结构组成的一个实施例的示意图;
图2是在一个场景示例中,应用本说明书实施例提供的基于隐私保护的数据处理方法的一种实施例的示意图;
图3是在一个场景示例中,应用本说明书实施例提供的基于隐私保护的数据处理方法的一种实施例的示意图;
图4是在一个场景示例中,应用本说明书实施例提供的基于隐私保护的数据处理方法的一种实施例的示意图;
图5是在一个场景示例中,应用本说明书实施例提供的基于隐私保护的数据处理方法的一种实施例的示意图;
图6是本说明书的一个实施例提供的服务器的结构组成示意图;
图7是本说明书的一个实施例提供的基于隐私保护的数据处理装置的结构组成示意图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
本说明书实施例提供一种基于隐私保护的数据处理方法。该方法具体可以应用于包含有第一服务器和第二服务器的系统中。具体的,可以参阅图1所示。第一服务器和第二服务器可以通过有线或无线的方式相连,以进行具体的数据交互。
其中,上述第一服务器具体可以理解为部署于第一数据方一侧的服务器,可以持有第一数据方所拥有的与第一数据对象的标识信息对应的特征数据(记为第一特征数据)。上述第二服务器具体可以理解为部署于第二数据方一侧的服务器,可以持有第二数据方所拥有的与第二数据对象的标识信息对应的特征数据(记为第二特征数据)。在横向场景中,上述第一特征数据和第二特征数据为同一种特征数据,但第一数据对象和第二数据对象是不同的数据对象。
在本实施例中,上述第一服务器、第二服务器具体可以包括一种能够实现数据传输、数据处理等功能的后台服务器。具体的,上述第一服务器、第二服务器例如可以为一个具有数据运算、存储功能以及网络交互功能的电子设备。或者,上述第一服务器、第二服务器也可以为运行于该电子设备中,为数据处理、存储和网络交互提供支持的软件程序。在本实施例中,并不具体限定上述第一服务器、第二服务器所包含的服务器数量。上述第一服务器、第二服务器具体可以为一个服务器,也可以为几个服务器,或者,由若干服务器形成的服务器集群。
当前要求在横向场景中,在不向对方泄露己方所持有的特征数据、保护数据隐私的前提下,安全地完成符合要求的特征数据的数据分箱。
具体进行数据分箱前,第一服务器可以先将所持有的第一特征数据,根据数据值(例如,数据值由小到大,或者数据值由大到小等顺序)进行排列,得到对应的第一特征列。同样,第二服务器先将所持有的第二特征数据,根据数据值进行类似的排列,得到对应的第二特征列。
具体进行数据分箱时,以处理当前数据箱为例,第一服务器可以根据所获取的与当前数据箱相关的分箱参数(例如,当前分箱时的累计分箱比例30%等),在第一特征列上确定出关于当前数据箱的第一参考分位点,并获取第一参考分位点处的第一特征数据的数据值作为第一参考值。同时,第二服务器可以类似的,根据所获取的分箱参数,在第二特征列上确定出关于当前数据箱的第二参考分位点,并获取第二参考分位点处的第二特征数据的数据值作为第二参考值。
进一步,第一服务器可以将第一参考值发送至第二服务器。同时,第二服务器可以将第二参考值发送至第一服务器。
第一服务器可以比较所述第一参考值和第二参考值,并根据对应的第一比较结果,确定出当前数据箱在第一特征列上的当前分位点。同时,第二服务器比较所述第一参考值和第二参考值,并根据对应的第一比较结果,确定出当前数据箱在第二特征列上的当前分位点。
通过上述方式,第一服务器和第二服务器可以分别在第一特征列和第二特征列上确定出与各个数据箱相关的分位点,并进行标记,完成横向场景中的例如等频分箱等符合要求的数据分箱。
并且,在上述数据分箱过程中,第一服务器和第二服务器不需要直接交互传输各自所持有的特征数据,从而能够使得第一服务器和第二服务器可以在不向对方泄露所持有的特征数据、保护数据隐私的前提下,安全地完成符合要求的特征数据的数据分箱。
参阅图2所示,本说明书实施例提供了一种基于隐私保护的数据处理方法。其中,该方法具体可以应用于第一服务器,或第二服务器一侧。下面以应用于第一服务器一侧为例进行具体说明。应用于第二服务器一侧的实施可以参考应用于第一服务器一侧的实施例。本说明书不作赘述。
该方法具体实施时,可以包括以下内容。
S201:根据所获取的与当前数据箱相关的分箱参数,在第一特征列上确定出关于当前数据箱的第一参考分位点,并获取第一参考分位点处的第一特征数据的数据值作为第一参考值;其中,所述第一特征列包含有第一服务器所持有的多个第一特征数据,所述第一特征列上的多个第一特征数据根据数据值排列。
在一个实施例中,上述第一服务器具体可以理解为部署于第一数据方一侧的服务器,其中,第一服务器可以持有并使用第一数据方所拥有的与第一数据对象的标识信息对应的第一特征数据。上述第二服务器具体可以理解为部署于第二数据方一侧的服务器,其中,第二服务器可以持有并使用第二数据方所拥有的与第二数据对象的标识信息对应的第二特征数据。
其中,上述标识信息具体可以包括一种能与数据对象一一对应的标识信息。具体的,上述标识信息可以是用户(对象)的身份ID、用户的账户名,或者用户的注册手机号码等。上述标识信息也可以是设备(对象)的设备编号、设备的物理地址,或者设备的IP地址等等。上述标识信息还可以是通过哈希计算所得到的哈希值中的指定字段等。当然,上述所列举的标识信息只是一种示意性说明。具体实施时,根据具体的应用场景和处理需要上述标识信息还可以包括其他类型的标识信息。对此,本说明书不作限定。
上述特征数据具体可以包括一种以数值的形式反映所对应的标识信息所指示的数据对象的属性状态的数据。例如,上述特征数据具体可以是用户的年龄、用户的月收入、用户的违约次数、用户的血压等数据。
在一个实施例中,在横向场景中,上述第一特征数据和第二特征数据可以是相同类型的特征数据,且第一数据对象和第二数据对象是不同的数据对象。
具体的,例如,在疾病预测场景中,第一服务器所持有的可以是A城居民的血压状态的特征数据,第二服务器所持有的可以是B城居民的血压状态的特征数据。但双方所各自拥有的特征数据的量相对较少,当前第一服务器和第二服务器期望可以通过合作,利用双方所拥有的特征数据来共同训练得到能够根据用户的血压状态特征预测用户罹患X疾病风险的预测模型作为目标模型。当然,上述所列举的横向场景只是一种示意性说明。具体实施时,根据具体情况和处理需求,还可以应用于其他相关的横向场景中。对此,本说明书不作限定。
在一个实施例中,具体实施前,第一服务器可以先根据第一特征数据的数据值,按照预设顺序(例如,由小到大的顺序,或者由大到小的顺序等)排列所持有的多个第一特征数据,得到对应的第一特征列。其中,上述第一特征列中具体可以包括包含有第一服务器所持有的多个第一特征数据,且在该第一特征列上的多个第一特征数据根据数据值排列。
类似的,第二服务器可以根据第二特征数据的数据值,按照相同的预设顺序排列所持有的多个第二特征数据,得到对应的第二特征列。其中,上述第二特征列中具体可以包括包含有第二服务器所持有的多个第二特征数据,且在该第二特征列上的多个第二特征数据根据数据值排列。
在一个实施例中,具体实施时,第一服务器可以响应联合分箱请求,与第二服务器合作,利用各自所持有的第一特征列、第二特征列,通过串行或并行的方式,联合对第一特征数据、第二特征数据进行符合要求的数据分箱。
其中,上述符合要求的数据分箱,具体可以是种等频分箱。通过等频分箱可以将第一特征数据和第二特征数据划分进行不同的数据箱中,且使得不同数据箱中所包含的第一特征数据和第二特征数据的数量和,与第一服务器和第二服务器所持有的第一特征数据和第二特征数据的数量总和的比值是相同的。
例如,第一服务器持有100个第一特征数据,第二服务器持有10个第二特征数据。当前要求划分成10个数据箱。通过上述等频分箱可以使得划分得到的每一个数据箱中的第一特征数据和第二特征数据的数量和,与第一服务器和第二服务器所持有的第一特征数据和第二特征数据的数量总和的比值都是10%。
此外,上述符合要求的数据分箱,还可以是一种基于预设比值的定制化的数据分箱。通过该定制化的数据分箱可以将第一特征数据和第二特征数据划分进行不同的数据箱中,且使得各个数据箱中所包含的第一特征数据和第二特征数据的数量和,与第一服务器和第二服务器所持有的第一特征数据和第二特征数据的数量总和的比值都满足各自对应的预设比值。
例如,第一服务器持有100个第一特征数据,第二服务器持有10个第二特征数据。当前要求划分成10个数据箱,并且还要求编号为1和2的数据箱中特征数据的数据量与特征数据总量的比值为5%,编号为3至10的这八个数据箱中的各个数据箱中特征数据的数量与特征数据总量的比值为11.25%。通过上述定制化的数据分箱可以使得划分得到的每一个数据箱中的第一特征数据和第二特征数据的数量和与第一服务器和第二服务器所持有的第一特征数据和第二特征数据的数量总和的比值分别满足所对应的预设比值。
在一个实施例中,上述联合分箱请求具体可以是第一服务器发起的,也可以是第二服务器发起的,还可以是其他第三方发起的。具体的,上述联合分箱请求中可以携带有与所请求的符合要求的数据分箱相关的分箱参数。
其中,上述分箱参数具体可以包括数据分箱时所要求划分出的数据箱的总数(例如,划分成10个数据箱),和/或,所要求划分出的每一个数据箱所包含的特征数据的数量,和/或,所要求划分出的每一个数据箱所包含的特征数据数量与特征数据的数量总和的比值(例如,预设比值),和/或,所要求划分出的当前数据箱和当前数据箱之前的其他数据箱所包含的特征数据的数量与特征数据的数量总和的比值等。
在一个实施例中,以划分当前数据箱(例如,编号为i的数据箱)为例。第一服务器可以先获取与当前数据箱相关的分箱参数;再单独在第一服务器本地,根据上述与当前数据箱相关的分箱参数,在第一特征列上确定出关于当前数据箱的第一参考分位点。
具体的,例如,第一服务器持有100个第一特征数据,第二服务器持有10个第二特征数据,且要求数据分箱得到的每一个数据箱所包含的特征数据的数量与双方所持有的特征数据的数量总和的比值为10%。
参阅图3所示。当前数据箱为编号为2的数据箱,与当前数据箱相关的分箱参数可以包括:要求当前数据箱(即编号为2的数据箱)和当前数据箱之前的其他数据箱(即编号为1的数据箱)所包含的特征数据的数量,与特征数据的数量总和的比值为10%+10%=20%。
具体实施时,第一服务器可以根据上述与当前数据箱相关的分箱参数,确定出编号为2的数据箱在第一特征列上的分位点有较大概率是在第一特征列上从起始位置点开始排序的20%的位置点(即第一特征列上根据数据值排序在第20的位置点)处附近。因此,可以先将该位置点确定为第一参考分位点,并获取上述第一参考分位点处特征数据的数据值25作为第一参考值。进而第一服务器可以只将上述第一参考值发送给第二服务器。
类似的,第二服务器可以根据上述与当前数据箱相关的分箱参数,确定出编号为2的数据箱在第二特征列上的分位点有较大概率是在第二特征列上从起始位置点开始排序的20%的位置点(即第二特征列上根据数据值排序在第2的位置点)处附近。进而可以将该位置点确定为第二参考分位点,并获取上述第二参考分位点处特征数据的数据值23作为第二参考值。进而第二服务器可以只将上述第二参考值发送给第一服务器。
这样,在第一服务器和第二服务器之间不用直接交互传输各自所持有的所有的特征数据,只需要交互传输几个特征数据的数据值。
在一个实施例中,为了避免上述第一参考值被其他第三方窃取,第一服务器可以先对上述第一参考值进行加密处理,得到第一参考值的密文数据;再将第一参考值的密文数据发送至第二服务器。
S202:接收来自第二服务器的第二参考值;其中,所述第二服务器根据分箱参数,在第二特征列上确定出关于当前数据箱的第二参考分位点,并获取第二参考分位点处的第二特征数据的数据值作为第二参考值;所述第二特征列包含有第二服务器所持有的多个第二特征数据,所述第二特征列上的多个第二特征数据根据数据值排列。
在一个实施例中,第一服务器可以接收获取第二服务器发送的第二参考值。同时,第二服务器起可以接收获取第一服务器发送的第一参考值。
在一个实施例中,根据预先达成的处理协议,第一服务器也可以只接收第二服务器发送的第二参考值,而不需要将第一参考值发送给第二服务器。相应的,后续相关的涉及第一参考值和第二参考值的比较处理可以只由第一服务器单独执行。再由第一服务器将基于第一参考值和第二参考值的比较结果发送至第二服务器。
S203:比较所述第一参考值和第二参考值,得到相应的第一比较结果。
在一个实施例中,具体实施时,第一服务器可以通过比较第一参考值和第二参考值的数值大小,以得到对应的第一比较结果。
类似的,第二服务器也可以通过比较第一参考值和第二参考值的数值大小,以得到对应的第一比较结果。
S204:根据所述第一比较结果,确定出当前数据箱在第一特征列上的当前分位点。
在一个实施例中,可以参阅图4所示,第一服务器可以根据上述第一比较结果,联合第二服务器各自分别在所持有的第一特征列、第二特征列上找到对应当前数据箱的当前分位点。
在一个实施例中,上述根据所述第一比较结果,确定出当前数据箱在第一特征列上的当前分位点,具体实施时,可以包括:第一服务器根据所述第一比较结果,在确定所述第一参考值(可以记为a)和所述第二参考值(可以记为b)相同的情况下,可以将所述第一参考分位点确定并标记为当前数据箱在第一特征列上的当前分位点。可以参阅图4所示。
进而,可以结合对应于第一特征列上的上一个数据箱的上一个分位点,将第一特征列上的上一个分位点与当前分位点之间所包含的第一特征数据划分进行当前数据箱中。
相应的,第二服务器可以将所找到的第二参考分位点确定并标记为当前数据箱在第二特征列上的当前分位点。进而可以结合对应于第二特征列上的上一个数据箱的上一个分位点,将第二特征列上的上一个分位点与当前分位点之间所包含的第二特征数据划分进行当前数据箱中。从而可以使得第一服务器和第二服务器不需要之间交互传输所各自持有的特征数据,就能分别在本地找到属于当前数据箱的特征数据,完成针对当前数据箱的分箱处理。
在一个实施例中,上述根据所述第一比较结果,确定出当前数据箱在第一特征列上的当前分位点,具体实施时,还可以包括以下内容:根据所述第一比较结果,在确定所述第一参考值和所述第二参考值不相同的情况下,计算第一参考值和第二参考值的平均值,作为第三参考值;根据第一特征列,统计数据值小于等于所述第三参考值的第一特征数据的数量,得到第一统计量;接收来自第二服务器的第二统计量;其中,所述第二服务器根据第二特征列,统计数据值小于等于所述第三参考值的第二特征数据的数量,得到第二统计量;根据所述第一统计量、所述第二统计量,以及所述第三参考值,确定出当前数据箱在第一特征列上的当前分位点。
具体的,可以参阅图4所示,根据比较结果,在确定第一参考值不等于第二参考值的情况下,第一服务器可以将第一参考值和第二参考值中的数值较小的数值记为min,将数值较大的数值记为max。并按照以下算式计算平均值:(min+max)/2(即(a+b)/2),作为第三参考值,记为avg。接着,第一服务器可以根据上述第一特征列,统计数据值小于等于第三参考值的第一特征数据的数量,记为第一统计量(n1)。将上述第一统计量发送给第二服务器。
同时,类似的,第二服务器可以按照相同的方式,计算出第三参考值avg。并根据上述第二特征列,统计数据值小于第三参考值的第二特征数据的数量,记为第二统计量(n2)。将上述第二统计量发送给第一服务器。
在一个实施例中,根据预先达成的处理协议,第一服务器也可以只接收第二服务器发送的第二统计量,而不需要将第一统计量发送给第二服务器。相应的,后续涉及第一统计量和第二统计量的相关处理可以只由第一服务器单独执行。再由第一服务器将基于第一统计量和第二统计量得到的处理结果发送至第二服务器。
在一个实施例中,根据所述第一统计量、所述第二统计量,以及所述第三参考值,确定出当前数据箱在第一特征列上的当前分位点,具体实施时,可以包括:根据所述分箱参数,计算当前统计量的参考值;比较所述当前统计量的参考值,与第一统计量和第二统计量的和,得到第二比较结果;根据所述第二比较结果、所述第三参考值,确定出当前数据箱在第一特征列上的当前分位点。
具体的,例如,第一服务器可以获取并根据第一服务器所持有的第一特征数据的总量(记为N1)和第二服务器所持有的第二特征数据的总量(记为N2),结合分箱参数,确定出当前统计量的参考值(可以记为N)。
以当前数据箱为编号为2的数据箱为例。可以计算出对应编号为2的数据箱的统计量的参考值N为(100+10)*20%=22。计算第一统计量和第二统计量的和(n1+n2)。再将上述第一统计量和第二统计量的和与上述统计量的参考值进行比较,得到对应的第二比较结果。进而可以根据上述第二比较结果,和第二服务器合作确定出编号为2的数据箱分别在第一特征列和第二特征列上的分位点。
在一个实施例中,上述根据所述第二比较结果、所述第三参考值,确定出当前数据箱在第一特征列上的当前分位点,具体实施时,可以包括:根据所述第二比较结果,在确定所述当前统计量的参考值等于第一统计量和第二统计量的和的情况下,在所述第一特征列上确定出数据值与所述第三参考值的差异值满足预设要求的第一特征数据,作为当前数据箱在第一特征列上的当前分位点。
具体的,例如,第一服务器根据第二比较结果,确定出n1+n2=22,可以确定出第三参考值是符合要求的。进而,可以在第一特征列上找到数据值等于第三参考值,或者数据值与第三参考值的差值最小的(即与所述第三参考值的差异值满足预设要求)的第一特征数据,作为编号为2的数据箱在第一特征列上的分位点。类似的,第二服务器可以按照相同的方式,根据第三参考值,在第二特征列上找到对应编号为2的数据箱的分位点。完成针对编号为2的数据箱的分箱处理。
在一个实施例中,上述根据所述第二比较结果、所述第三参考值,确定出当前数据箱在第一特征列上的当前分位点,具体实施时,还可以包括:根据所述第二比较结果,在确定所述当前统计量的参考值大于第一统计量和第二统计量的和的情况下,从所述第一参考值和第二参考值中筛选出数值大的数值作为第四参考值;计算所述第四参考值和所述第三参考值的平均值,作为更新后的第三参考值;根据第一特征列,统计数据值小于等于所述更新后的第三参考值的第一特征数据的数量,得到更新后的第一统计量;接收来自第二服务器的更新后的第二统计量;其中,所述第二服务器根据第二特征列,统计数据值小于等于所述更新后的第三参考值的第二特征数据的数量,得到更新后的第二统计量;根据所述更新后的第一统计量、更新后的第二统计量,以及所述更新后的第三参考值,确定出当前数据箱在第一特征列上的当前分位点。
具体的,可以参阅图4所示。在确定(n1+n2)<N时,可以从第一参考值和第二参考值中筛选出数值大的数值max,作为第四参考值。并根据上述第四参考值和原来的第三参考值avg,计算新的平均值:avg’=(avg+max)/2,以更新替换原有的第三参考值avg,作为更新后的第三参考值。进而可以根据第一特征列,统计数据值小于等于上述更新后的第三参考值,得到更新后的第一统计量(记为n1’)。第一服务器可以将上述更新后的第一统计量发送给第二服务器。
按照类似的方式,第二服务器可以确定出更新后的第三参考值,并根据第二特征列和更新后的第三参考值,统计得到更新后的第二统计量(记为n2’)。第二服务器可以将上述更新后的第二统计量发送给第一服务器。
在一个实施例中,上述根据所述第二比较结果、所述第三参考值,确定出当前数据箱在第一特征列上的当前分位点,具体实施时,还可以包括:根据所述第二比较结果,在确定所述当前统计量的参考值小于第一统计量和第二统计量的和的情况下,从所述第一参考值和第二参考值中筛选出数值小的数值作为第五参考值;计算所述第五参考值和所述第三参考值的平均值,作为更新后的第三参考值;根据第一特征列,统计数据值小于等于所述更新后的第三参考值的第一特征数据的数量,得到更新后的第一统计量;接收来自第二服务器的更新后的第二统计量;其中,所述第二服务器根据第二特征列,统计数据值小于等于所述更新后的第三参考值的第二特征数据的数量,得到更新后的第二统计量;根据所述更新后的第一统计量、更新后的第二统计量,以及所述更新后的第三参考值,确定出当前数据箱在第一特征列上的当前分位点。
具体的,可以参阅图4所示。在确定(n1+n2)>N时,可以从第一参考值和第二参考值中筛选出数值小的数值min,作为第五参考值。并根据上述第五参考值和原来的第三参考值avg,计算新的平均值:avg’=(avg+min)/2,以更新原有的第三参考值,作为更新后的第三参考值。进而可以根据第一特征列,统计数据值小于等于上述更新后的第三参考值,得到更新后的第一统计量(记为n1’)。第一服务器可以将上述更新后的第一统计量发送给第二服务器。
按照类似的方式,第二服务器可以确定出更新后的第三参考值,并根据第二特征列和更新后的第三参考值,统计得到更新后的第二统计量(记为n2’)。第二服务器可以将上述更新后的第二统计量发送给第一服务器。
在一个实施例中,第一服务器可以通过对更新后的第一统计量和更新后的第二统计量的和,与当前数据箱的统计量的参考值进行数值比较,重新确定更新后的第二比较结果;再根据上述更新后的第二比较结果,与第二服务器分别在各自持有的第一特征列、第二特征列上找到当前数据箱的分位点。
具体的,第一服务器可以比较(n1’+n2’)与N的数值大小得到对应的更新后的第二比较结果。根据第二比较结果,如果确定(n1’+n2’)等于N,则可以在第一特征列上确定出数据值与更新后的第三参考值的差异值满足预设要求的第一特征数据,作为当前数据箱在第一特征列上的当前分位点。
根据第二比较结果,如果确定(n1’+n2’)不等于N,可以重复执行上述处理操作,基于当前更新后的第三参考值重复更新第三参考值的数值,并比较基于更新后的第三参考值所得到的(n1’+n2’)与N的数值大小;直到基于最近一次更新后的第三参考值所确定出的(n1’+n2’)等于N为止。这时可以获取并根据该更新后的第三参考值,在所持有的第一特征列上找到对应当前数据箱的当前分位点。
类似的,第二服务器可以按照上述方式在第二服务器一侧进行相应处理,以便在所持有的第二特征列上找到对应当前数据箱的当前分位点。
通过上述方式第一服务器和第二服务器可以分别在各自所持有的第一特征列、第二特征列上确定出对应各个数据箱的分位点。
在一个实施例中,在根据第一比较结果,确定出当前数据箱在第一特征列上的当前分位点之后,所述方法具体实施时,还可以包括以下内容:第一服务器可以根据第一特征列上的分位点,将第一特征列上的第一特征数据划分进对应的数据箱中。其中,位于第一服务器一侧的数据箱可以记为第一数据箱。
具体实施时,第一服务器可以将第一特征列上相邻的两个分位点之间的第一特征数据划分进一个数据箱。具体的,第一服务器可以将第一特征列上对应当前数据箱的当前分位点,与当前分位点之前的上一个分位点之间所包含的第一特征数据划分进行当前数据箱中。
类似的,第二服务器可以按照上述方式,根据第二特征列上的分位点,将第二特征列上的第二特征数据划分进对应的数据箱中。其中,位于第二服务器一侧的数据箱可以记为第二数据箱。
其中,对应同一个编号的第一数据箱和第二数据箱组合可以得到一个完整的包含有第一特征数据和/或第二特征数据的数据箱。从而第一服务器和第二服务器可以联合对第一特征数据、第二特征数据进行符合要求的数据分箱。
在本实施例中,基于该方法,第一服务器可以根据与当前数据箱相关的分箱参数,在所持有的根据数据值排列的第一特征列上先确定出关于当前数据箱的第一参考分位点,并获取对应的第一参考值;同时,接收第二服务器基于相同方式所得到的第二参考值;并根据基于第一参考值和第二参考值得到的第一比较结果,确定出当前数据箱在第一特征列上的当前分位点;同时,第二服务器可以按照上述类似方式确定出当前数据箱在第二特征列上的当前分位点。这样第一服务器和第二服务器在对各自持有的特征数据进行联合分箱的过程中,不需要直接交互传输各自所持有的特征数据,从而能够使得第一服务器和第二服务器可以在不向对方泄露所持有的特征数据、保护数据隐私的前提下,安全地完成横向场景中的符合要求的特征数据的数据分箱。
在一个实施例中,参阅图5所示,在由第二服务器负责计算特征数据的信息值的情况下,在根据第一比较结果,确定出当前数据箱在第一特征列上的当前分位点之后,所述方法具体实施时,还可以包括以下内容:根据第一特征列上的分位点,将第一特征列上的多个特征数据划分为多个第一数据箱;根据多个第一数据箱所包含的特征数据,计算得到多个第一数据箱的统计值;将所述多个第一数据箱的统计值发送至第二服务器。
在一个实施例中,上述特征数据的信息值(Information Value,IV)具体可以理解为一种能够衡量特征数据整体的预测能力的参数值。通常如果特征数据的信息值越大,表明该组特征数据的预测能力越高,用于模型训练或者数据统计的效果越好。相反,如果特征数据的信息值越小,表明该组特征数据的预测能力越低,用于模型训练或者数据统计的效果越差。
具体计算特征数据的信息值时,第二服务器可以按照类似的方式,根据第二特征列上的分位点,将第二特征列上的多个特征数据划分为多个第二数据箱;根据多个第二数据箱所包含的特征数据,计算得到多个第二数据箱的统计值。进一步,可以根据所接收到的多个第一数据箱的统计值,将对应同一编号的第一数据箱的统计值和第二数据箱的统计值进行合并,得到对应该编号的完整的数据箱的统计值。再根据多个完整的数据箱的统计值,分别计算各个完整的数据箱的信息值;根据各个完整的数据箱的信息值计算得到特征数据的信息值。
在一个实施例中,在由第一服务器负责计算特征数据的信息值的情况下,在根据多个第一数据箱所包含的特征数据,计算得到多个第一数据箱的统计值之后,所述方法具体实施时,还可以包括以下内容:接收来自第二服务器的多个第二数据箱的统计值;其中,所述第二服务器用于根据第二特征列上的分位点,将第二特征列上的多个特征数据划分为多个第二数据箱,并计算得到多个第二数据箱的统计值;根据所述多个第一数据箱的统计值和所述多个第二数据箱的统计值,计算得到特征数据的信息值。
在一个实施例中,在根据所述第一比较结果,在确定所述第一参考值和所述第二参考值不相同的情况下,第一服务器和第二服务器还可以通过二分查找算法进行交互,以便确定出合适的更新后的第三参考值;进而可以根据该更新后的第三参考值,分别在各自所持有的第一特征列、第二特征列上确定出对应的数据箱分位点。
在一个实施例中,在具体确定更新后的第三参考值时,还可以根据第一统计量和第二统计量的和,与统计量的参考值的差异值,设置相应的权重值;再根据该权重值,通过加权求平均的方式计算更新后的第三参考值。从而可以更加快速地找到当前数据箱的当前分位点。
在一个实施例中,在计算得到特征数据的信息值之后,所述方法具体实施时,还可以包括:根据所述特征数据的信息值,从多个特征数据中筛选出符合目标要求的特征数据。
在一个实施例中,第一服务器和第二服务器还可以持有多种不同类型的特征数据。例如,第一服务器持有第一数据对象的第一类特征数据、第二类特征数据、第三类特征数据,第二服务器持有第二数据对象的第一类特征数据、第二类特征数据和第三类特征数据。
具体实施时,第一服务器和第二服务器可以按照上述方式合作,以联合确定出例如第一类特征数据的信息值、第二类特征数据的信息值、第三类特征数据的信息值等多个不同类型特征数据的信息值。再根据上述多个不同类型特征数据的信息值,筛选出一个或多个符合目标要求的特征数据来使用。
具体的,第一服务器和/或第二服务器可以根据多个不同类型特征数据的信息值,从多个不同类型的特征数据中筛选出信息值最大的一个或多个特征数据,作为符合目标要求的特征数据。或者,从多个不同类型特征数据的信息值中筛选出信息值大于预设的信息值阈值的特征数据,作为符合目标要求的特征数据等。进一步,第一服务器和/或第二服务器可以利用上述符合目标要求的特征数据,进行例如目标模型的训练;或者,数据统计等相关的数据处理。
在一个实施例中,所述第一特征数据具体可以包括第一用户的目标状态的特征数据;所述第二特征数据具体可以包括第二用户的目标状态的特征数据。
在例如疾病预测等横向场景中,所述目标状态具体可以包括以下至少之一:心跳状态、呼吸状态、血脂状态等。当然,根据具体的应用场景,上述目标状态还可以是其他类型的状态。对此,本说明书不作限定。
由上可见,本说明书实施例提供的基于隐私保护的数据处理方法,使得第一服务器和第二服务器可以在不向对方泄露所持有的特征数据、保护数据隐私的前提下,安全地完成横向场景中的符合要求的特征数据的数据分箱。进一步,还可以根据数据分箱后的第一特征数据和第二特征数据,安全、高效地计算出特征数据的信息值,并根据特征数据信息值筛选出符合目标要求的特征数据来使用。
本说明书实施例还提供了一种基于隐私保护的数据处理方法。该方法具体可以应用于包含有第一服务器和第二服务器的系统中,具体实施时,可以包括以下内容。
第一服务根据所获取的与当前数据箱相关的分箱参数,在第一特征列上确定出关于当前数据箱的第一参考分位点,并获取第一参考分位点处的第一特征数据的数据值作为第一参考值;第二服务器根据所获取的与当前数据箱相关的分箱参数,在第二特征列上确定出关于当前数据箱的第二参考分位点,并获取第二参考分位点处的第二特征数据的数据值作为第二参考值;其中,所述第一特征列包含有第一服务器所持有的多个第一特征数据,所述第一特征列上的多个第一特征数据根据数据值排列;所述第二特征列包含有第二服务器所持有的多个第二特征数据,所述第二特征列上的多个第二特征数据根据数据值排列;
第一服务器将所述第一参考值发送至第二服务器;第二服务器将所述第二参考值发送至第一服务器;
第一服务器比较所述第一参考值和第二参考值,并根据对应的第一比较结果,确定出当前数据箱在第一特征列上的当前分位点;第二服务器比较所述第一参考值和第二参考值,并根据对应的第一比较结果,确定出当前数据箱在第二特征列上的当前分位点。
由上可见,本说明书实施例提供的基于隐私保护的数据处理方法,可以在不向对方泄露所持有的特征数据、保护数据隐私的前提下,安全地完成横向场景中的符合要求的特征数据的数据分箱。
本说明书实施例还提供一种服务器,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器具体实施时可以根据指令执行以下步骤:根据所获取的与当前数据箱相关的分箱参数,在第一特征列上确定出关于当前数据箱的第一参考分位点,并获取第一参考分位点处的第一特征数据的数据值作为第一参考值;其中,所述第一特征列包含有第一服务器所持有的多个第一特征数据,所述第一特征列上的多个第一特征数据根据数据值排列;接收来自第二服务器的第二参考值;其中,所述第二服务器根据分箱参数,在第二特征列上确定出关于当前数据箱的第二参考分位点,并获取第二参考分位点处的第二特征数据的数据值作为第二参考值;所述第二特征列包含有第二服务器所持有的多个第二特征数据,所述第二特征列上的多个第二特征数据根据数据值排列;比较所述第一参考值和第二参考值,得到相应的第一比较结果;根据所述第一比较结果,确定出当前数据箱在第一特征列上的当前分位点。
为了能够更加准确地完成上述指令,参阅图6所示,本说明书实施例还提供了另一种具体的服务器,其中,所述服务器包括网络通信端口601、处理器602以及存储器603,上述结构通过内部线缆相连,以便各个结构可以进行具体的数据交互。
其中,所述网络通信端口601,具体可以用于接收来自第二服务器的第二参考值;其中,所述第二服务器根据分箱参数,在第二特征列上确定出关于当前数据箱的第二参考分位点,并获取第二参考分位点处的第二特征数据的数据值作为第二参考值;所述第二特征列包含有第二服务器所持有的多个第二特征数据,所述第二特征列上的多个第二特征数据根据数据值排列。
所述处理器602,具体可以用于根据所获取的与当前数据箱相关的分箱参数,在第一特征列上确定出关于当前数据箱的第一参考分位点,并获取第一参考分位点处的第一特征数据的数据值作为第一参考值;其中,所述第一特征列包含有第一服务器所持有的多个第一特征数据,所述第一特征列上的多个第一特征数据根据数据值排列;比较所述第一参考值和第二参考值,得到相应的第一比较结果;根据所述第一比较结果,确定出当前数据箱在第一特征列上的当前分位点。
所述存储器603,具体可以用于存储相应的指令程序。
在本实施例中,所述网络通信端口601可以是与不同的通信协议进行绑定,从而可以发送或接收不同数据的虚拟端口。例如,所述网络通信端口可以是负责进行web数据通信的端口,也可以是负责进行FTP数据通信的端口,还可以是负责进行邮件数据通信的端口。此外,所述网络通信端口还可以是实体的通信接口或者通信芯片。例如,其可以为无线移动网络通信芯片,如GSM、CDMA等;其还可以为Wifi芯片;其还可以为蓝牙芯片。
在本实施例中,所述处理器602可以按任何适当的方式实现。例如,处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。本说明书并不作限定。
在本实施例中,所述存储器603可以包括多个层次,在数字系统中,只要能保存二进制数据的都可以是存储器;在集成电路中,一个没有实物形式的具有存储功能的电路也叫存储器,如RAM、FIFO等;在系统中,具有实物形式的存储设备也叫存储器,如内存条、TF卡等。
本说明书实施例还提供了一种基于上述基于隐私保护的数据处理方法的计算机存储介质,所述计算机存储介质存储有计算机程序指令,在所述计算机程序指令被执行时实现:根据所获取的与当前数据箱相关的分箱参数,在第一特征列上确定出关于当前数据箱的第一参考分位点,并获取第一参考分位点处的第一特征数据的数据值作为第一参考值;其中,所述第一特征列包含有第一服务器所持有的多个第一特征数据,所述第一特征列上的多个第一特征数据根据数据值排列;接收来自第二服务器的第二参考值;其中,所述第二服务器根据分箱参数,在第二特征列上确定出关于当前数据箱的第二参考分位点,并获取第二参考分位点处的第二特征数据的数据值作为第二参考值;所述第二特征列包含有第二服务器所持有的多个第二特征数据,所述第二特征列上的多个第二特征数据根据数据值排列;比较所述第一参考值和第二参考值,得到相应的第一比较结果;根据所述第一比较结果,确定出当前数据箱在第一特征列上的当前分位点。
在本实施例中,上述存储介质包括但不限于随机存取存储器(Random AccessMemory, RAM)、只读存储器(Read-Only Memory, ROM)、缓存(Cache)、硬盘(Hard DiskDrive, HDD)或者存储卡(Memory Card)。所述存储器可以用于存储计算机程序指令。网络通信单元可以是依照通信协议规定的标准设置的,用于进行网络连接通信的接口。
在本实施例中,该计算机存储介质存储的程序指令具体实现的功能和效果,可以与其它实施方式对照解释,在此不再赘述。
参阅图7所示,在软件层面上,本说明书实施例还提供了一种基于隐私保护的数据处理装置,该装置具体可以包括以下的结构模块。
第一确定模块701,具体可以用于根据所获取的与当前数据箱相关的分箱参数,在第一特征列上确定出关于当前数据箱的第一参考分位点,并获取第一参考分位点处的第一特征数据的数据值作为第一参考值;其中,所述第一特征列包含有第一服务器所持有的多个第一特征数据,所述第一特征列上的多个第一特征数据根据数据值排列;
接收模块702,具体可以用于接收来自第二服务器的第二参考值;其中,所述第二服务器根据分箱参数,在第二特征列上确定出关于当前数据箱的第二参考分位点,并获取第二参考分位点处的第二特征数据的数据值作为第二参考值;所述第二特征列包含有第二服务器所持有的多个第二特征数据,所述第二特征列上的多个第二特征数据根据数据值排列;
比较模块703,具体可以用于比较所述第一参考值和第二参考值,得到相应的第一比较结果;
第二确定模块704,具体可以用于根据所述第一比较结果,确定出当前数据箱在第一特征列上的当前分位点。
需要说明的是,上述实施例阐明的单元、装置或模块等,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书时可以把各模块的功能在同一个或多个软件和/或硬件中实现,也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
由上可见,本说明书实施例提供的基于隐私保护的数据处理装置,可以使得第一服务器和第二服务器可以在不向对方泄露所持有的特征数据、保护数据隐私的前提下,安全地完成横向场景中的符合要求的特征数据的数据分箱。
虽然本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或客户端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境,甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下,并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
通过以上的实施例的描述可知,本领域的技术人员可以清楚地了解到本说明书可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本说明书的技术方案本质上可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,移动终端,服务器,或者网络设备等)执行本说明书各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。本说明书可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
虽然通过实施例描绘了本说明书,本领域普通技术人员知道,本说明书有许多变形和变化而不脱离本说明书的精神,希望所附的权利要求包括这些变形和变化而不脱离本说明书的精神。
Claims (15)
1.一种基于隐私保护的数据处理方法,包括:
根据所获取的与当前数据箱相关的分箱参数,在第一特征列上确定出关于当前数据箱的第一参考分位点,并获取第一参考分位点处的第一特征数据的数据值作为第一参考值;其中,所述第一特征列包含有第一服务器所持有的多个第一特征数据,所述第一特征列上的多个第一特征数据根据数据值排列;
接收来自第二服务器的第二参考值;其中,所述第二服务器根据分箱参数,在第二特征列上确定出关于当前数据箱的第二参考分位点,并获取第二参考分位点处的第二特征数据的数据值作为第二参考值;所述第二特征列包含有第二服务器所持有的多个第二特征数据,所述第二特征列上的多个第二特征数据根据数据值排列;
比较所述第一参考值和第二参考值,得到相应的第一比较结果;
根据所述第一比较结果,确定出当前数据箱在第一特征列上的当前分位点;
其中,根据所述第一比较结果,确定出当前数据箱在第一特征列上的当前分位点,包括:根据所述第一比较结果,在确定所述第一参考值和所述第二参考值不相同的情况下,计算第一参考值和第二参考值的平均值,作为第三参考值;根据第一特征列,统计数据值小于等于所述第三参考值的第一特征数据的数量,得到第一统计量;接收来自第二服务器的第二统计量;其中,所述第二服务器根据第二特征列,统计数据值小于等于所述第三参考值的第二特征数据的数量,得到第二统计量;根据所述第一统计量、所述第二统计量,以及所述第三参考值,确定出当前数据箱在第一特征列上的当前分位点。
2.根据权利要求1所述的方法,根据所述第一比较结果,确定出当前数据箱在第一特征列上的当前分位点,包括:
根据所述第一比较结果,在确定所述第一参考值和所述第二参考值相同的情况下,将所述第一参考分位点确定并标记为当前数据箱在第一特征列上的当前分位点。
3.根据权利要求1所述的方法,根据所述第一统计量、所述第二统计量,以及所述第三参考值,确定出当前数据箱在第一特征列上的当前分位点,包括:
根据所述分箱参数,计算当前统计量的参考值;
比较所述当前统计量的参考值,与第一统计量和第二统计量的和,得到第二比较结果;
根据所述第二比较结果、所述第三参考值,确定出当前数据箱在第一特征列上的当前分位点。
4.根据权利要求3所述的方法,根据所述第二比较结果、所述第三参考值,确定出当前数据箱在第一特征列上的当前分位点,包括:
根据所述第二比较结果,在确定所述当前统计量的参考值等于第一统计量和第二统计量的和的情况下,在所述第一特征列上确定出数据值与所述第三参考值的差异值满足预设要求的第一特征数据,作为当前数据箱在第一特征列上的当前分位点。
5.根据权利要求4所述的方法,根据所述第二比较结果、所述第三参考值,确定出当前数据箱在第一特征列上的当前分位点,还包括:
根据所述第二比较结果,在确定所述当前统计量的参考值大于第一统计量和第二统计量的和的情况下,从所述第一参考值和第二参考值中筛选出数值大的数值作为第四参考值;
计算所述第四参考值和所述第三参考值的平均值,作为更新后的第三参考值;
根据第一特征列,统计数据值小于等于所述更新后的第三参考值的第一特征数据的数量,得到更新后的第一统计量;
接收来自第二服务器的更新后的第二统计量;其中,所述第二服务器根据第二特征列,统计数据值小于等于所述更新后的第三参考值的第二特征数据的数量,得到更新后的第二统计量;
根据所述更新后的第一统计量、更新后的第二统计量,以及所述更新后的第三参考值,确定出当前数据箱在第一特征列上的当前分位点。
6.根据权利要求4所述的方法,根据所述第二比较结果、所述第三参考值,确定出当前数据箱在第一特征列上的当前分位点,还包括:
根据所述第二比较结果,在确定所述当前统计量的参考值小于第一统计量和第二统计量的和的情况下,从所述第一参考值和第二参考值中筛选出数值小的数值作为第五参考值;
计算所述第五参考值和所述第三参考值的平均值,作为更新后的第三参考值;
根据第一特征列,统计数据值小于等于所述更新后的第三参考值的第一特征数据的数量,得到更新后的第一统计量;
接收来自第二服务器的更新后的第二统计量;其中,所述第二服务器根据第二特征列,统计数据值小于等于所述更新后的第三参考值的第二特征数据的数量,得到更新后的第二统计量;
根据所述更新后的第一统计量、更新后的第二统计量,以及所述更新后的第三参考值,确定出当前数据箱在第一特征列上的当前分位点。
7.根据权利要求1所述的方法,在根据第一比较结果,确定出当前数据箱在第一特征列上的当前分位点之后,所述方法还包括:
根据第一特征列上的分位点,将第一特征列上的多个特征数据划分为多个第一数据箱;
根据多个第一数据箱所包含的特征数据,计算得到多个第一数据箱的统计值;
将所述多个第一数据箱的统计值发送至第二服务器。
8.根据权利要求7所述的方法,在根据多个第一数据箱所包含的特征数据,计算得到多个第一数据箱的统计值之后,所述方法还包括:
接收来自第二服务器的多个第二数据箱的统计值;其中,所述第二服务器用于根据第二特征列上的分位点,将第二特征列上的多个特征数据划分为多个第二数据箱,并计算得到多个第二数据箱的统计值;
根据所述多个第一数据箱的统计值和所述多个第二数据箱的统计值,计算得到特征数据的信息值。
9.根据权利要求8所述的方法,在计算得到特征数据的信息值之后,所述方法还包括:
根据所述特征数据的信息值,从多个特征数据中筛选出符合目标要求的特征数据。
10.根据权利要求1所述的方法,所述第一特征数据包括第一用户的目标状态的特征数据;所述第二特征数据包括第二用户的目标状态的特征数据。
11.根据权利要求10所述的方法,所述目标状态包括以下至少之一:心跳状态、呼吸状态、血脂状态。
12.一种基于隐私保护的数据处理方法,应用于包含有第一服务器和第二服务器的系统中,包括:
第一服务器根据所获取的与当前数据箱相关的分箱参数,在第一特征列上确定出关于当前数据箱的第一参考分位点,并获取第一参考分位点处的第一特征数据的数据值作为第一参考值;第二服务器根据所获取的与当前数据箱相关的分箱参数,在第二特征列上确定出关于当前数据箱的第二参考分位点,并获取第二参考分位点处的第二特征数据的数据值作为第二参考值;其中,所述第一特征列包含有第一服务器所持有的多个第一特征数据,所述第一特征列上的多个第一特征数据根据数据值排列;所述第二特征列包含有第二服务器所持有的多个第二特征数据,所述第二特征列上的多个第二特征数据根据数据值排列;
第一服务器将所述第一参考值发送至第二服务器;第二服务器将所述第二参考值发送至第一服务器;
第一服务器比较所述第一参考值和第二参考值,并根据对应的第一比较结果,确定出当前数据箱在第一特征列上的当前分位点;第二服务器比较所述第一参考值和第二参考值,并根据对应的第一比较结果,确定出当前数据箱在第二特征列上的当前分位点;
其中,所述第一服务器和第二服务器在根据所述第一比较结果,在确定所述第一参考值和所述第二参考值不相同的情况下,分别计算第一参考值和第二参考值的平均值,作为第三参考值;分别根据第一特征列和第二特征列,统计数据值小于等于所述第三参考值的第一特征数据的数量,得到第一统计量和第二统计量;所述第一服务器和第二服务器还根据所述第一统计量、所述第二统计量,以及所述第三参考值,分别确定出当前数据箱在第一特征列上的当前分位点和当前数据箱在第二特征列上的当前分位点。
13.一种基于隐私保护的数据处理装置,包括:
第一确定模块,用于根据所获取的与当前数据箱相关的分箱参数,在第一特征列上确定出关于当前数据箱的第一参考分位点,并获取第一参考分位点处的第一特征数据的数据值作为第一参考值;其中,所述第一特征列包含有第一服务器所持有的多个第一特征数据,所述第一特征列上的多个第一特征数据根据数据值排列;
接收模块,用于接收来自第二服务器的第二参考值;其中,所述第二服务器根据分箱参数,在第二特征列上确定出关于当前数据箱的第二参考分位点,并获取第二参考分位点处的第二特征数据的数据值作为第二参考值;所述第二特征列包含有第二服务器所持有的多个第二特征数据,所述第二特征列上的多个第二特征数据根据数据值排列;
比较模块,用于比较所述第一参考值和第二参考值,得到相应的第一比较结果;
第二确定模块,用于根据所述第一比较结果,确定出当前数据箱在第一特征列上的当前分位点;
其中,所述第二确定模块具体用于根据所述第一比较结果,在确定所述第一参考值和所述第二参考值不相同的情况下,计算第一参考值和第二参考值的平均值,作为第三参考值;根据第一特征列,统计数据值小于等于所述第三参考值的第一特征数据的数量,得到第一统计量;接收来自第二服务器的第二统计量;其中,所述第二服务器根据第二特征列,统计数据值小于等于所述第三参考值的第二特征数据的数量,得到第二统计量;根据所述第一统计量、所述第二统计量,以及所述第三参考值,确定出当前数据箱在第一特征列上的当前分位点。
14.一种服务器,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现权利要求1至11中任一项所述方法的步骤。
15.一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现权利要求1至11中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011276387.5A CN112100678B (zh) | 2020-11-16 | 2020-11-16 | 基于隐私保护的数据处理方法、装置和服务器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011276387.5A CN112100678B (zh) | 2020-11-16 | 2020-11-16 | 基于隐私保护的数据处理方法、装置和服务器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112100678A CN112100678A (zh) | 2020-12-18 |
CN112100678B true CN112100678B (zh) | 2021-02-05 |
Family
ID=73785562
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011276387.5A Active CN112100678B (zh) | 2020-11-16 | 2020-11-16 | 基于隐私保护的数据处理方法、装置和服务器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112100678B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111539535A (zh) * | 2020-06-05 | 2020-08-14 | 支付宝(杭州)信息技术有限公司 | 基于隐私保护的联合特征分箱方法及装置 |
CN111597548A (zh) * | 2020-07-17 | 2020-08-28 | 支付宝(杭州)信息技术有限公司 | 实现隐私保护的数据处理方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111506485B (zh) * | 2020-04-15 | 2021-07-27 | 深圳前海微众银行股份有限公司 | 特征分箱方法、装置、设备及计算机可读存储介质 |
CN111898765A (zh) * | 2020-07-29 | 2020-11-06 | 深圳前海微众银行股份有限公司 | 特征分箱方法、装置、设备及可读存储介质 |
-
2020
- 2020-11-16 CN CN202011276387.5A patent/CN112100678B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111539535A (zh) * | 2020-06-05 | 2020-08-14 | 支付宝(杭州)信息技术有限公司 | 基于隐私保护的联合特征分箱方法及装置 |
CN111597548A (zh) * | 2020-07-17 | 2020-08-28 | 支付宝(杭州)信息技术有限公司 | 实现隐私保护的数据处理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112100678A (zh) | 2020-12-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9280370B2 (en) | System structure management device, system structure management method, and program | |
CN111478857B (zh) | 一种接口限流控制方法、装置以及电子设备 | |
CN110990516A (zh) | 地图数据的处理方法、装置和服务器 | |
CN112100679B (zh) | 基于隐私保护的数据处理方法、装置和服务器 | |
CN111507479B (zh) | 特征分箱方法、装置、设备及计算机可读存储介质 | |
CN112100643B (zh) | 基于隐私保护的数据处理方法、装置和服务器 | |
CN109992473A (zh) | 应用系统的监控方法、装置、设备及存储介质 | |
CN103259869B (zh) | 一种基于分布式数据存储的集中信息管理方法 | |
CN112990583A (zh) | 一种数据预测模型的入模特征确定方法及设备 | |
CN109376981B (zh) | 数据处理方式的确定方法、装置、服务器和数据处理方法 | |
CN111580851A (zh) | 一种数据管理的方法以及相关装置 | |
CN111309946A (zh) | 一种已建立档案优化方法及装置 | |
CN111159131A (zh) | 性能优化方法、装置、设备及计算机可读存储介质 | |
CN112100678B (zh) | 基于隐私保护的数据处理方法、装置和服务器 | |
CN113076159A (zh) | 图像显示方法和装置、存储介质及电子设备 | |
CN107659982B (zh) | 一种无线网络接入点的分类方法及装置 | |
CN112597525A (zh) | 基于隐私保护的数据处理方法、装置和服务器 | |
CN114860295A (zh) | 资源文件更新方法、装置、设备及可读存储介质 | |
CN110580200B (zh) | 数据同步方法和装置 | |
CN111241521A (zh) | 一种云上函数权限检测并修复方法、装置、存储介质及终端 | |
CN111177625A (zh) | 数据获取方法、数据上报方法、终端设备及存储介质 | |
CN116561735B (zh) | 一种基于多认证源的互信认证方法、系统及电子设备 | |
CN111339097B (zh) | 一种数据处理方法及相关设备 | |
CN114926492A (zh) | 图像数据处理方法、装置和服务器 | |
CN113742582A (zh) | 资源处理方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |