CN115239486A

CN115239486A - 一种联合数据统计方法、装置、系统和可读存储介质

Info

Publication number: CN115239486A
Application number: CN202211140165.XA
Authority: CN
Inventors: 张建华
Original assignee: Huakong Tsingjiao Information Technology Beijing Co Ltd
Current assignee: Huakong Tsingjiao Information Technology Beijing Co Ltd
Priority date: 2022-09-20
Filing date: 2022-09-20
Publication date: 2022-10-25

Abstract

本发明实施例提供了一种联合数据统计方法、装置、系统和可读存储介质。其中的方法包括：接收第一数据方和第二数据方发送的预处理数据集；预处理数据集为数据方对其持有的数据条目进行预处理得到，每个数据条目包括标识数据和属性数据，每个数据条目对应有统计值，预处理包括将数据条目按照标识数据进行排序后再按照预设加密算法进行加密；基于密文对第一数据方和第二数据方的预处理数据集进行比对，并对比对得到的异常数据对应的统计值进行更新，在比对完成后得到异常统计结果；其中，异常数据指第一数据方和第二数据方包含的标识数据相同但属性数据不同的预处理数据。本发明实施例可以在保护数据隐私安全的前提下联合统计各数据方的异常数据。

Description

一种联合数据统计方法、装置、系统和可读存储介质

技术领域

本发明涉及多方安全计算领域，尤其涉及一种联合数据统计方法、装置、系统和可读存储介质。

背景技术

当申请人向银行机构申请贷款时，银行机构会对申请人进行贷款风险预测，以便根据风险预测结果确定是否向申请人发放相应的贷款。例如，通过了解申请人的贷款意向、资产情况、以及信用情况等，对申请人进行贷款风险预测。

在实际应用中，通常会出现同一个申请人在多家银行申请贷款的情况。如果同一个申请人在多家银行提供的用户信息不一致，可能是因为申请人信息未及时更新，或者还可能是存在冒名贷款等欺诈行为的风险。通过联合不同银行机构的数据进行风险控制能够降低此类风险。

然而，不同银行机构掌握各自的数据，如何在保护数据隐私安全的前提下联合各银行机构的数据统计出异常数据，成为亟待解决的问题。

发明内容

本发明实施例提供一种联合数据统计方法、装置、系统和可读存储介质，可以在保护数据隐私安全的前提下联合统计各数据方的异常数据。

为了解决上述问题，本发明实施例公开了一种联合数据统计方法，应用于密文计算平台，所述方法包括：

接收第一数据方和第二数据方发送的预处理数据集；所述预处理数据集为数据方对其持有的数据条目进行预处理得到，每个数据条目包括标识数据和属性数据，每个数据条目对应有统计值，所述预处理包括将所述数据条目按照标识数据进行排序后再按照预设加密算法进行加密；

基于密文对所述第一数据方和所述第二数据方的预处理数据集进行比对，并对比对得到的异常数据对应的统计值进行更新，在比对完成后得到异常统计结果；其中，所述异常数据指所述第一数据方和所述第二数据方包含的标识数据相同但属性数据不同的预处理数据。

另一方面，本发明实施例公开了一种联合数据统计装置，应用于密文计算平台，所述装置包括：

数据接收模块，用于接收第一数据方和第二数据方发送的预处理数据集；所述预处理数据集为数据方对其持有的数据条目进行预处理得到，每个数据条目包括标识数据和属性数据，每个数据条目对应有统计值，所述预处理包括将所述数据条目按照标识数据进行排序后再按照预设加密算法进行加密；

数据统计模块，用于基于密文对所述第一数据方和所述第二数据方的预处理数据集进行比对，并对比对得到的异常数据对应的统计值进行更新，在比对完成后得到异常统计结果；其中，所述异常数据指所述第一数据方和所述第二数据方包含的标识数据相同但属性数据不同的预处理数据。

再一方面，本发明实施例公开了一种联合数据统计系统，所述系统包括第一数据方、第二数据方和密文计算平台，其中：

所述第一数据方，用于对其持有的数据条目进行预处理得到预处理数据集，发送至所述密文计算平台；

所述第二数据方，用于对其持有的数据条目进行预处理得到预处理数据集，发送至所述密文计算平台；

其中，每个数据条目包括标识数据和属性数据，每个数据条目对应有统计值，所述预处理包括将所述数据条目按照标识数据进行排序后再按照预设加密算法进行加密；

所述密文计算平台，用于接收第一数据方和第二数据方发送的预处理数据集，基于密文对所述第一数据方和所述第二数据方的预处理数据集进行比对，并对比对得到的异常数据对应的统计值进行更新，在比对完成后得到异常统计结果；其中，所述异常数据指所述第一数据方和所述第二数据方包含的标识数据相同但属性数据不同的预处理数据。

再一方面，本发明实施例公开了一种用于联合数据统计的装置，应用于密文计算平台，所述装置包括有存储器，以及一个以上程序，其中一个以上程序存储于存储器中，且经配置以由一个以上处理器执行所述一个以上程序，所述一个以上程序包含用于进行如前述一个或多个所述的联合数据统计方法的指令。

又一方面，本发明实施例公开了一种机器可读存储介质，其上存储有指令，当所述指令由装置的一个或多个处理器执行时，使得装置执行如前述一个或多个所述的联合数据统计方法。

本发明实施例包括以下优点：

本发明实施例的联合数据统计方法包括明文处理阶段和密文处理阶段。首先，第一数据方和第二数据方分别在本地基于明文对各自持有的数据条目进行预处理，得到各自的预处理数据集。然后，第一数据方和第二数据方将各自的预处理数据集发送至密文计算平台，通过密文计算平台的密文比对，可以得到第一数据方和第二数据方的预处理数据集的异常统计结果。通过该异常统计结果可以得到第一数据方和/或第二数据方的预处理数据集中的异常数据。所述异常数据指所述第一数据方和所述第二数据方包含的标识数据相同但属性数据不同的预处理数据。通过本发明实施例的联合数据统计方法，可以在不泄露第一数据方和第二数据方的数据条目的明文的基础上，联合统计得到第一数据方和/或第二数据方中的异常数据，在保护数据隐私安全的前提下，可以帮助数据方进行风险控制。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的一种联合数据统计方法实施例的步骤流程图；

图2是本发明的一种联合数据统计装置实施例的结构框图；

图3是本发明的一种联合数据统计系统的架构示意图；

图4是本发明的一种用于联合数据统计的装置800的框图；

图5是本发明的一些实施例中服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中的术语“和/或”用于描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本发明实施例中术语“多个”是指两个或两个以上，其它量词与之类似。

参照图1，示出了本发明的一种联合数据统计方法实施例的步骤流程图，应用于密文计算平台，所述方法可以包括如下步骤：

步骤101、接收第一数据方和第二数据方发送的预处理数据集；所述预处理数据集为数据方对其持有的数据条目进行预处理得到，每个数据条目包括标识数据和属性数据，每个数据条目对应有统计值，所述预处理包括将所述数据条目按照标识数据进行排序后再按照预设加密算法进行加密；

步骤102、基于密文对所述第一数据方和所述第二数据方的预处理数据集进行比对，并对比对得到的异常数据对应的统计值进行更新，在比对完成后得到异常统计结果；其中，所述异常数据指所述第一数据方和所述第二数据方包含的标识数据相同但属性数据不同的预处理数据。

本发明实施例提供的联合数据统计方法通过数据方与密文计算平台之间的交互操作，可以统计得到各数据方的异常数据。所述数据方与密文计算平台之间的交互操作可以为明密文混合操作，数据方执行的操作为明文操作，密文计算平台执行的操作为密文操作。

第一数据方和第二数据方可以为数据拥有方。密文计算平台可以是一种保护数据隐私安全的计算平台。本发明实施例对所述密文计算平台支持的加密协议不做限制。示例性地，所述密文计算平台支持可以支持同态加密协议、秘密分享协议等。

所述密文计算平台可以部署有密文计算引擎，所述密文计算引擎可用于基于多方安全计算协议进行密文计算，每个数据方可以部署有明文计算引擎，所述明文计算引擎可用于进行明文运算，所述密文计算平台发送给所述数据方的数据为解密后的明文数据，所述数据方发送给所述密文计算平台的数据为加密后的密文数据。

在本发明实施例中，第一数据方和第二数据方可以为数据拥有方，示例性地，第一数据方和第二数据方可以为不同的银行机构或者不同的企业等。第一数据方和第二数据方分别持有各自的数据条目，并且第一数据方和第二数据方持有的数据条目可以存在交集。通过本发明实施例的联合数据统计方法，可以在不泄露第一数据方和第二数据方的数据条目的明文的基础上，联合统计得到第一数据方和/或第二数据方中的异常数据。

以第一数据方和第二数据方为不同的银行机构为例，假设第一数据方为银行A，第二数据方为银行B。假设申请人X在银行A和银行B都申请了贷款，第一数据方中存在一个数据条目为申请人X的数据信息，该数据条目包括标识数据和属性数据，假设该标识数据为申请人X的身份证号，该属性数据为申请人X的手机号。第二数据方中也存在一个数据条目为申请人X的数据信息，该数据条目包括标识数据和属性数据，假设该标识数据为申请人X的身份证号，该属性数据为申请人X的手机号。

如果银行A的该数据条目与银行B的该数据条目中的申请人X的身份证号相同，但是申请人X的手机号不同，则银行A的该数据条目和银行B的该数据条目为异常数据。

通过本发明实施例，可以在不泄露银行A和银行B的数据条目的明文的基础上，通过联合银行A和银行B的数据条目统计得到该异常数据。

在本发明实施例中，每个数据方持有的每个数据条目可以包括标识数据和属性数据，并且每个数据条目可以对应有统计值。其中，标识数据可用于唯一标识数据条目，如标识数据可以是身份证号或者手机号等。属性数据可以是用于表示属性的相关数据，如申请人的年龄、单位名称、单位地址、家庭地址、联系人电话等。所述统计值可用于标识异常数据。进一步地，在贷款风险控制场景下，所述统计值还可用于表示申请人申请贷款的申请次数。在具体实施中，每个数据方对其持有的数据条目进行预处理之后，可以为每个数据条目设置初始的统计值，这样，在密文计算平台的比对完成后，异常数据对应的统计值会发生更新，根据更新后的统计值即可确定异常数据。

在本发明实施例中，异常数据指所述第一数据方和所述第二数据方包含的标识数据相同但属性数据不同的预处理数据。例如，在该示例中，银行A和银行B包含的身份证号相同但手机号不同的申请人X对应的数据条目即为异常数据。又如，银行A和银行B包含的手机号相同但单位名称不同的数据条目也为异常数据。再如，银行A和银行B包含的单位地址相同但单位名称不同的数据条目也为异常数据。

本发明实施例的联合数据统计方法包括明文处理阶段和密文处理阶段。首先，在明文处理阶段，第一数据方和第二数据方分别在本地基于明文对各自持有的数据条目进行预处理，得到各自的预处理数据集。然后，第一数据方和第二数据方将各自的预处理数据集发送至密文计算平台，进入密文处理阶段，通过密文计算平台的密文比对，可以得到第一数据方和第二数据方的预处理数据集的异常统计结果。通过该异常统计结果可以得到第一数据方和/或第二数据方的预处理数据集中的异常数据。

所述预处理可以包括将所述数据条目按照标识数据进行排序后再按照预设加密算法进行加密。具体地，第一数据方将其持有的数据条目按照标识数据进行排序后再按照预设加密算法进行加密，得到第一数据方的预处理数据集。第二数据方将其持有的数据条目按照标识数据进行排序后再按照预设加密算法进行加密，得到第二数据方的预处理数据集。

所述按照标识数据进行排序可以包括：按照标识数据从小到大排序，或者，按照标识数据从大到小排序。

本发明实施例对所述预设加密算法不做限制。在本发明的一种可选实施例中，所述预设加密算法可以包括秘密分享算法。当然，在具体实施中，所述预设加密算法还可以为同态加密算法等任意加密算法。

密文计算平台接收到所述第一数据方的预处理数据集和所述第二数据方的预处理数据集之后，基于密文对两方的预处理数据集进行比对，并对比对得到的异常数据对应的统计值进行更新，在比对完成后可以得到异常统计结果；其中，所述异常数据指所述第一数据方和所述第二数据方包含的标识数据相同但属性数据不同的预处理数据。所述异常统计结果包括更新后的统计值，根据更新后的统计值即可确定异常数据。

本发明实施例对基于密文对所述第一数据方和所述第二数据方的预处理数据集进行比对的方法不做限制。例如，可以对所述第一数据方的预处理数据集和所述第二数据方的预处理数据集中的预处理数据进行两两比对，在比对时若确定当前的两个预处理数据的标识数据相同但属性数据不同，则可以确定当前的两个预处理数据为异常数据，并对该异常数据对应的统计值进行更新。

一个示例中，假设第一数据方为银行A，第二数据方为银行B。银行A持有的数据条目如表1所示，银行B持有的数据条目如表2所示。

表1

表2

在该示例中，标识数据为身份证号，属性数据为手机号。

银行A和银行B分别在本地对各自持有的数据条目进行预处理，所述预处理包括将所述数据条目按照标识数据进行排序后再按照预设加密算法进行加密。当然，所述预处理还可以包括去重等通用的数据预处理操作。

在该示例中，银行A和银行B分别将各自的数据条目去重后，按照标识数据进行排序，再按照预设加密算法进行加密。在本发明实施例中，为了便于统计异常数据，所述预处理还可以包括对每个数据条目设置初始的统计值。

参照表3，示出了银行A对其持有的数据条目进行预处理得到的预处理数据集，以及参照表4，示出了银行B对其持有的数据条目进行预处理得到的预处理数据集。

表3

表4

在本发明实施例中，照标识数据进行排序，可以包括：照标识数据从小到大排序，或者，照标识数据从大到小排序。

在该示例中，以从小到大排序为例，银行A和银行B分别对各自持有的数据条目去重后，按照身份证号从小到大进行排序，并设置每个数据条目对应的统计值，然后对预处理得到的每条预处理数据按照预设加密算法进行加密，得到各自的预处理数据集。如表3和表4所示，每条预处理数据对应的统计值为1。在该示例中，统计值表示申请次数。

需要说明的是，表3和表4所示的预处理数据集中的数据均为密文，本发明为便于描述，均以明文示出。

在本发明的一种可选实施例中，所述每个数据条目对应的统计值的初始值为预设初始值，或者，所述每个数据条目对应的统计值的初始值为每个数据条目对应的申请次数。

在本发明实施例中，每个数据方对其持有的数据条目进行预处理之后，可以为每个数据条目设置初始的统计值，密文计算平台在对所述第一数据方和所述第二数据方的预处理数据集进行比对的过程中，可以对两个数据方的预处理数据进行两两比对，并根据对比结果更新相应的统计值，从而在比对完成之后，可以根据统计值识别异常数据。本发明实施例对统计值的含义以及初始值不做限制。例如，所述每个数据条目对应的统计值的初始值可以为预设初始值。该预设初始值可以为统一的任意数值。或者，所述每个数据条目对应的统计值的初始值可以为每个数据条目对应的申请次数。该统计值不仅可以表示申请次数，还可以作为对比过程中用于标记异常数据的标记值。

进一步地，在具体实施中，根据不同的应用场景，还可以设置统计值具有不同的含义。以银行贷款风险控制的应用场景为例，统计值可用于表示每个数据条目对应申请人的申请次数。以表3为例，第一个数据条目为一个申请人的数据信息，统计值为1表示该申请人向银行A申请贷款的次数为1次。通过统计值，可以得知每个申请人在每个银行申请贷款的申请次数，从而可以根据统计值识别出异常申请贷款次数的异常数据。如统计值大于1的即为异常数据。

银行A将表3所示的预处理数据集发送至密文计算平台，银行B将表4所示的预处理数据集发送至密文计算平台，密文计算平台对银行A和银行B的预处理数据集进行比对。例如，对银行A的预处理数据集中的每一条预处理数据分别与银行B的预处理数据集中的每一条预处理数据进行比对，并对比对得到的异常数据对应的统计值进行更新，在比对完成后即可得到异常统计结果。其中，所述异常数据指所述第一数据方和所述第二数据方包含的标识数据相同但属性数据不同的预处理数据。例如，在比对过程中，识别出表3中的第三条预处理数据和表4中的第三条预处理数据中的身份证号相同但是手机号不同，因此，可以确定这两条预处理数据是异常数据，可以对这两条预处理数据的统计值进行更新。由此，根据更新后的统计值即可得知银行A的第三条预处理数据和银行B的第三条预处理数据为异常数据。

由于密文比较的过程较为复杂，通常需要消耗较多的计算资源和计算时间，为例减少密文比较次数，提高整个数据统计过程的效率，本发明实施例采用交叉位移的方法对所述第一数据方和所述第二数据方的预处理数据集进行比对。

在本发明的一种可选实施例中，所述基于密文对所述第一数据方和所述第二数据方的预处理数据集进行比对，并对比对得到的异常数据对应的统计值进行更新，可以包括：

步骤S11、从所述第一数据方和所述第二数据方的预处理数据集中分别获取第一条预处理数据作为待比较数据；

步骤S12、基于密文对两方的待比较数据中的标识数据进行比对；

步骤S13、若两方的标识数据不同，则保持标识数据大的一方的待比较数据不变，获取标识数据小的一方的下一条预处理数据作为待比较数据；返回步骤S12；

步骤S14、若两方的标识数据相同，则将所述待比较数据对应的统计值进行第一更新，并基于密文对两方的待比较数据中的属性数据进行比对，若两方的属性数据相同，则将所述待比较数据对应的统计值进行第二更新，若两方的属性数据不同，则保持当前的统计值不变，并分别获取两方的下一条预处理数据作为待比较数据；返回步骤S12；

步骤S15、直到两方中一方的预处理数据比较完毕。

在该示例中，首先，从第一数据方（银行A）和第二数据方（银行B）的预处理数据集中分别获取第一条预处理数据作为待比较数据。也即，分别获取表3的第一条预处理数据和表4的第一条预处理数据作为待比较数据。

基于密文对两方的待比较数据中的标识数据进行比对，也即，基于密文对表3的第一条预处理数据和表4的第一条预处理数据中的标识数据进行比对，由于两方的标识数据不同，则保持标识数据大的一方的待比较数据不变，获取标识数据小的一方的下一条预处理数据作为待比较数据。由于表3的第一条预处理数据中的身份证号大于表4的第一条预处理数据中的身份证号，因此，银行A为标识数据大的一方，保持银行A的待比较数据不变（仍然是表3的第一条预处理数据）。银行B为标识数据小的一方，则获取银行B的下一条预处理数据（获取表4的第二条预处理数据）作为待比较数据。也即，此时待比较数据包括表3的第一条预处理数据和表4的第二条预处理数据。

基于密文对两方的待比较数据中的标识数据进行比对，也即，基于密文对表3的第一条预处理数据和表4的第二条预处理数据中的标识数据进行比对，由于两方的标识数据相同，则将所述待比较数据对应的统计值进行第一更新，并基于密文对两方的待比较数据（表3的第一条预处理数据和表4的第二条预处理数据）中的属性数据进行比对，由于两方的属性数据相同，则将所述待比较数据对应的统计值进行第二更新，并分别获取两方的下一条预处理数据作为待比较数据。

在本发明的一种可选实施例中，所述将所述待比较数据对应的统计值进行第一更新，可以包括：将所述待比较数据对应的统计值加上预设增量值；所述将所述待比较数据对应的统计值进行第二更新，可以包括：将所述待比较数据对应的统计值减去所述预设增量值。

本发明实施例对所述预设增量值的具体数值不做限制。例如，所述预设增量值可以为1或2等任意数值。

可以理解的是，上述第一更新可以为对统计值加1，第二更新可以为对统计值减1，仅为本发明的一种应用示例。在具体实施中，第一更新也可以为对统计值加2，第二更新也可以为对统计值减2，等等。本发明实施例对第一更新和第二更新的操作类型不做限制。

在本发明实施例中，异常数据指所述第一数据方和所述第二数据方包含的标识数据相同但属性数据不同的预处理数据。本发明实施例在基于密文对所述第一数据方和所述第二数据方的预处理数据集进行比对的过程中，通过第一更新和第二更新来实现对比对得到的异常数据对应的统计值进行更新。

在本发明的一种可选实施例中，所述对比对得到的异常数据对应的统计值进行更新，可以包括：对比对得到的数据查询方的预处理数据集中的异常数据对应的统计值进行更新。所述方法还可以包括：将所述异常统计结果解密后发送至所述数据查询方，所述异常统计结果包括更新后的所述数据查询方的预处理数据集。在实际应用中，第一数据方和第二数据方中可以有一方是数据查询方，如第一数据方可以为数据查询方，则步骤S14中可以对所述待比较数据中第一数据方的待比较数据对应的统计值进行更新。这样，在第一数据方和第二数据方的预处理数据集比对完毕，得到异常统计结果之后，该异常统计结果包括的是更新后的第一数据方的预处理数据集，可以将该异常统计结果发送给第一数据方，以使第一数据方可以根据异常统计结果确定其持有的数据条目中哪些是异常数据。

当然，在具体实施中，第二数据方也可以是数据查询方，或者，第一数据方和第二数据方都可以是数据查询方。示例性地，所述对比对得到的异常数据对应的统计值进行更新，可以包括：对所述第一数据方和/或所述第二数据方的预处理数据集中的异常数据对应的统计值进行更新。这样，在第一数据方和第二数据方的预处理数据集比对完毕，得到异常统计结果之后，该异常统计结果可以包括更新后的第一数据方的预处理数据集和/或更新后的第二数据方的预处理数据集，密文计算平台可以将更新后的第一数据方的预处理数据集发送给第一数据方，将更新后的第二数据方的预处理数据集发送给第二数据方。

进一步地，所述将所述待比较数据对应的统计值加上预设增量值，可以包括：将所述数据查询方的待比较数据对应的统计值加上预设增量值；所述将所述待比较数据对应的统计值减去所述预设增量值，可以包括：将所述数据查询方的待比较数据对应的统计值减去所述预设增量值。

进一步地，所述预设增量值可以包括数据被查询方的待比较数据对应的统计值。以第一数据方为数据查询方，第二数据方为数据被查询方为例。对于当前获取的第一数据方和第二数据方的待比较数据，先比较两方的待比较数据中的标识数据是否相同，若二者相同，则可以进行第一更新操作，如将当前获取的第一数据方的待比较数据对应的统计值加上当前获取的第二数据方的待比较数据对应的统计值。然后继续比较当前获取的两方的待比较数据的属性数据是否相同，若二者也相同，则可以进行第二更新操作，如将当前获取的第一数据方的待比较数据对应的统计值减去当前获取的第二数据方的待比较数据对应的统计值。

本发明实施例中以第一数据方为数据查询方为例。在该示例中，假设第一数据方（银行A）为数据查询方，此时获取的待比较数据包括第一数据方的第一条预处理数据和第二数据方的第二条预处理数据，基于密文对表3的第一条预处理数据和表4的第二条预处理数据进行比对，由于两方的标识数据相同，则对银行A（数据查询方）的第一条预处理数据对应的统计值进行第一更新，如加上银行B（数据被查询方）的第二条预处理数据对应的统计值，银行B的第二条预处理数据对应的统计值为1，因此表3的第一条预处理数据对应的统计值加上1，此时表3的第一条预处理数据对应的统计值更新为2，再对两方的待比较数据（表3的第一条预处理数据和表4的第二条预处理数据）中的属性数据进行比对，由于两方的属性数据相同，则将银行A的第一条预处理数据对应的统计值进行第二更新，如减去银行B的第二条预处理数据对应的统计值（也即减去1），此时表3的第一条预处理数据对应的统计值更新为1，并分别获取两方的下一条预处理数据作为待比较数据。此时，获取的待比较数据包括银行A的第二条预处理数据和银行B的第三条预处理数据。

基于密文对两方的待比较数据中的标识数据进行比对，也即，基于密文对表3的第二条预处理数据和表4的第三条预处理数据中的标识数据进行比对，由于两方的标识数据不同，则保持标识数据大的一方的待比较数据不变，获取标识数据小的一方的下一条预处理数据作为待比较数据。由于表3的第二条预处理数据中的身份证号小于表4的第三条预处理数据中的身份证号，因此，银行B为标识数据大的一方，保持银行B的待比较数据不变（仍然是表4的第三条预处理数据）。银行A为标识数据小的一方，则获取银行A的下一条预处理数据（获取表3的第三条预处理数据）作为待比较数据。也即，此时获取的待比较数据包括银行A的第三条预处理数据和银行B的第三条预处理数据。

基于密文对两方的待比较数据中的标识数据进行比对，也即，基于密文对表3的第三条预处理数据和表4的第三条预处理数据中的标识数据进行比对，由于两方的标识数据相同，则对银行A（数据查询方）的第三条预处理数据对应的统计值加上银行B（数据被查询方）的第三条预处理数据对应的统计值，银行B的第三条预处理数据对应的统计值为1，因此表3的第三条预处理数据对应的统计值加上1，此时表3的第三条预处理数据对应的统计值更新为2，再对两方的待比较数据（表3的第三条预处理数据和表4的第三条预处理数据）中的属性数据进行比对，由于两方的属性数据不同，则保持当前的统计值不变。也即，表3的第三条预处理数据对应的统计值仍为2。

此时两方的预处理数据均比较完毕，比对结束，得到异常统计结果。由于该示例中以第一数据方（银行A）为数据查询方为例，因此，得到的异常统计结果包括更新后的第一数据方（银行A）的预处理数据集，如表5所示。

表5

在本发明的一种可选实施例中，所述方法还可以包括：将所述异常统计结果解密后发送至所述数据查询方，所述异常统计结果包括更新后的所述数据查询方的预处理数据集。

在该示例中，密文计算平台可以将如表5所示的异常统计结果解密后发送至所述第一数据方（如银行A），该异常统计结果包括更新后的所述第一数据方的预处理数据集。第一数据方（如银行A）获取该异常统计结果后，根据其中的统计值即可确定异常数据，如确定表5中统计值大于1的数据条目为异常数据。

在上述联合数据统计过程中，第一数据方和第二数据方分别在本地对各自持有的数据条目进行预处理后发送给密文计算平台，密文计算平台基于密文对所述第一数据方和所述第二数据方的预处理数据集进行比对，得到异常统计结果。本发明实施例在不暴露第一数据方和第二数据方的明文数据的前提下，可以统计出第一数据方和/或第二数据方的异常数据，在保护数据隐私安全的基础上，有助于数据方进行风险控制。

需要说明的是，本发明实施例中以两个数据方为例进行说明，在具体实施中，本发明实施例对数据方的数量不做限制。

在本发明的一种可选实施例中，所述第二数据方的个数为N，N为大于1的整数，所述基于密文对所述第一数据方和所述第二数据方的预处理数据集进行比对，可以包括：

步骤S21、基于密文对所述第一数据方和第一个第二数据方的预处理数据集进行比对，在比对完成后得到第一个异常统计结果；

步骤S22、基于密文对第i个异常统计结果和第j个第二数据方的预处理数据集进行比对，在比对完成后得到第j个异常统计结果；其中，i的取值为1~N-1，j的取值为2~N。i和j均为整数。

以第一数据方为数据查询方为例，所述第二数据方的个数N可以大于或等于1。在N大于1时，数据查询方可以对多个数据方的数据进行联合统计，以检测自身包含的异常数据。例如，数据查询方通过联合统计不同银行的数据，可以检测自身包含的异常数据，从而可以进行风险控制。

在所述第二数据方的个数N大于1时，第一数据方和N个第二数据方分别在本地对各自持有的数据条目进行预处理，得到各自的预处理数据集，并将各自的预处理数据集上传至密文计算平台。

密文计算平台基于密文对所述第一数据方和所述N个第二数据方的预处理数据集进行比对。比对过程与第一数据方和1个第二数据方相类似。具体地，首先基于密文对所述第一数据方和第一个第二数据方的预处理数据集进行比对，在比对完成后可以得到第一个异常统计结果；然后基于密文对该第一个异常统计结果与第二个第二数据方的预处理数据集进行比对，在比对完成后可以得到第二个异常统计结果；依次类推，基于密文对第N-1个异常统计结果和第N个第二数据方的预处理数据集进行比对，在比对完成后可以得到第N个异常统计结果。此时，第N个第二数据方的预处理数据集比对完成，得到第N个异常统计结果即为最终的异常统计结果。

综上，本发明实施例的联合数据统计方法包括明文处理阶段和密文处理阶段。首先，第一数据方和第二数据方分别在本地基于明文对各自持有的数据条目进行预处理，得到各自的预处理数据集。然后，第一数据方和第二数据方将各自的预处理数据集发送至密文计算平台，通过密文计算平台的密文比对，可以得到第一数据方和第二数据方的预处理数据集的异常统计结果。通过该异常统计结果可以得到第一数据方和/或第二数据方的预处理数据集中的异常数据。所述异常数据指所述第一数据方和所述第二数据方包含的标识数据相同但属性数据不同的预处理数据。通过本发明实施例的联合数据统计方法，可以在不泄露第一数据方和第二数据方的数据条目的明文的基础上，查询得到第一数据方和/或第二数据方中的异常数据，在保护数据隐私安全的前提下，帮助数据方进行风险控制。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图2，示出了本发明的一种联合数据统计装置实施例的结构框图，所述装置可应用于密文计算平台，所述装置可以包括：

数据接收模块201，用于接收第一数据方和第二数据方发送的预处理数据集；所述预处理数据集为数据方对其持有的数据条目进行预处理得到，每个数据条目包括标识数据和属性数据，每个数据条目对应有统计值，所述预处理包括将所述数据条目按照标识数据进行排序后再按照预设加密算法进行加密；

数据统计模块202，用于基于密文对所述第一数据方和所述第二数据方的预处理数据集进行比对，并对比对得到的异常数据对应的统计值进行更新，在比对完成后得到异常统计结果；其中，所述异常数据指所述第一数据方和所述第二数据方包含的标识数据相同但属性数据不同的预处理数据。

可选地，所述数据统计模块，包括：

第一获取子模块，用于从所述第一数据方和所述第二数据方的预处理数据集中分别获取第一条预处理数据作为待比较数据；

数据比对子模块，用于基于密文对两方的待比较数据中的标识数据进行比对；

第二获取子模块，用于若两方的标识数据不同，则保持标识数据大的一方的待比较数据不变，获取标识数据小的一方的下一条预处理数据作为待比较数据；

数据更新子模块，用于若两方的标识数据相同，则将所述待比较数据对应的统计值进行第一更新，并基于密文对两方的待比较数据中的属性数据进行比对，若两方的属性数据相同，则将所述待比较数据对应的统计值进行第二更新，若两方的属性数据不同，则保持当前的统计值不变，并分别获取两方的下一条预处理数据作为待比较数据；

比对完成子模块，用于直到两方中一方的预处理数据比较完毕。

可选地，所述数据更新子模块，包括：

第一更新单元，用于将所述待比较数据对应的统计值加上预设增量值；

第二更新单元，用于将所述待比较数据对应的统计值减去所述预设增量值。

可选地，所述第二数据方的个数为N，N为大于1的整数，所述数据统计模块，包括：

第一统计子模块，用于基于密文对所述第一数据方和第一个第二数据方的预处理数据集进行比对，在比对完成后得到第一个异常统计结果；

迭代统计子模块，用于基于密文对第i个异常统计结果和第j个第二数据方的预处理数据集进行比对，在比对完成后得到第j个异常统计结果；其中，i的取值为1~N-1，j的取值为2~N。

可选地，所述数据统计模块，具体用于对比对得到的数据查询方的预处理数据集中的异常数据对应的统计值进行更新；

所述装置还包括：

结果发送模块，用于将所述异常统计结果解密后发送至所述数据查询方，所述异常统计结果包括更新后的所述数据查询方的预处理数据集。

可选地，所述每个数据条目对应的统计值的初始值为预设初始值，或者，所述每个数据条目对应的统计值的初始值为每个数据条目对应的申请次数。

可选地，所述预设加密算法包括秘密分享算法。

本发明实施例的联合数据统计装置包括明文处理阶段和密文处理阶段。首先，第一数据方和第二数据方分别在本地基于明文对各自持有的数据条目进行预处理，得到各自的预处理数据集。然后，第一数据方和第二数据方将各自的预处理数据集发送至密文计算平台，通过密文计算平台的密文比对，可以得到第一数据方和第二数据方的预处理数据集的异常统计结果。通过该异常统计结果可以得到第一数据方和/或第二数据方的预处理数据集中的异常数据。所述异常数据指所述第一数据方和所述第二数据方包含的标识数据相同但属性数据不同的预处理数据。通过本发明实施例的联合数据统计装置，可以在不泄露第一数据方和第二数据方的数据条目的明文的基础上，查询得到第一数据方和/或第二数据方中的异常数据，在保护数据隐私安全的前提下，帮助数据方进行风险控制。

参照图3，示出了本发明实施例的一种联合数据统计系统的架构示意图，如图3所示，所述系统包括第一数据方301、第二数据方302和密文计算平台303。所述联合数据统计系统可以为多方安全计算系统。

所述第一数据方301，用于对其持有的数据条目进行预处理得到预处理数据集，发送至所述密文计算平台；

所述第二数据方302，用于对其持有的数据条目进行预处理得到预处理数据集，发送至所述密文计算平台；

所述密文计算平台303，用于接收第一数据方和第二数据方发送的预处理数据集，基于密文对所述第一数据方和所述第二数据方的预处理数据集进行比对，并对比对得到的异常数据对应的统计值进行更新，在比对完成后得到异常统计结果；其中，所述异常数据指所述第一数据方和所述第二数据方包含的标识数据相同但属性数据不同的预处理数据。

可选地，所述密文计算平台，具体用于：从所述第一数据方和所述第二数据方的预处理数据集中分别获取第一条预处理数据作为待比较数据；基于密文对两方的待比较数据中的标识数据进行比对；若两方的标识数据不同，则保持标识数据大的一方的待比较数据不变，获取标识数据小的一方的下一条预处理数据作为待比较数据；若两方的标识数据相同，则将所述待比较数据对应的统计值进行第一更新，并基于密文对两方的待比较数据中的属性数据进行比对，若两方的属性数据相同，则将所述待比较数据对应的统计值进行第二更新，若两方的属性数据不同，则保持当前的统计值不变，并分别获取两方的下一条预处理数据作为待比较数据；直到两方中一方的预处理数据比较完毕。

可选地，所述密文计算平台将所述待比较数据对应的统计值进行第一更新，包括：所述密文计算平台将所述待比较数据对应的统计值加上预设增量值；所述密文计算平台将所述待比较数据对应的统计值进行第二更新，包括：所述密文计算平台将所述待比较数据对应的统计值减去所述预设增量值。

可选地，所述第二数据方的个数为N，N为大于1的整数，所述密文计算平台，具体用于基于密文对所述第一数据方和第一个第二数据方的预处理数据集进行比对，在比对完成后得到第一个异常统计结果；基于密文对第i个异常统计结果和第j个第二数据方的预处理数据集进行比对，在比对完成后得到第j个异常统计结果；其中，i的取值为1~N-1，j的取值为2~N。

可选地，所述密文计算平台，具体用于对比对得到的数据查询方的预处理数据集中的异常数据对应的统计值进行更新；

所述密文计算平台，还用于将所述异常统计结果解密后发送至所述数据查询方，所述异常统计结果包括更新后的所述数据查询方的预处理数据集。

可选地，所述预设加密算法包括秘密分享算法。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本发明实施例提供了一种用于联合数据统计的装置，应用于密文计算平台，所述装置包括有存储器，以及一个以上的程序，其中一个以上程序存储于存储器中，且经配置以由一个以上处理器执行所述一个以上程序包含用于进行上述一个或多个实施例中所述的联合数据统计方法的指令。

图4是根据一示例性实施例示出的一种用于联合数据统计的装置800的框图。例如，装置800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图4，装置800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出（I/ O）的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制装置800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器（SRAM），电可擦除可编程只读存储器（EEPROM），可擦除可编程只读存储器（EPROM），可编程只读存储器（PROM），只读存储器（ROM），磁存储器，快闪存储器，磁盘或光盘。

电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理系统，一个或多个电源，及其他与为装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器（LCD）和触摸面板（TP）。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风（MIC），当装置800处于操作模式，如呼叫模式、记录模式和语音信息处理模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/ O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为装置800提供各个方面的状态评估。例如，传感器组件814可以检测到设备800的打开/关闭状态，组件的相对定位，例如所述组件为装置800的显示器和小键盘，传感器组件814还可以搜索装置800或装置800一个组件的位置改变，用户与装置800接触的存在或不存在，装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信（NFC）模块，以促进短程通信。例如，在NFC模块可基于射频信息处理（RFID）技术，红外数据协会（IrDA）技术，超宽带（UWB）技术，蓝牙（BT）技术和其他技术来实现。

在示例性实施例中，装置800可以被一个或多个应用专用集成电路（ASIC）、数字信号处理器（DSP）、数字信号处理设备（DSPD）、可编程逻辑器件（PLD）、现场可编程门阵列（FPGA）、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由装置800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器（RAM）、CD-ROM、磁带、软盘和光数据存储设备等。

图5是本发明的一些实施例中服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器（central processingunits，CPU）1922（例如，一个或一个以上处理器）和存储器1932，一个或一个以上存储应用程序1942或数据1944的存储介质1930（例如一个或一个以上海量存储设备）。其中，存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块（图示没标出），每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1922可以设置为与存储介质1930通信，在服务器1900上执行存储介质1930中的一系列指令操作。

服务器1900还可以包括一个或一个以上电源1926，一个或一个以上有线或无线网络接口1950，一个或一个以上输入输出接口1958，一个或一个以上键盘1956，和/或，一个或一个以上操作系统1941，例如Windows ServerTM，Mac OS XTM，UnixTM, LinuxTM，FreeBSDTM等等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置（服务器或者终端）的处理器执行时，使得装置能够执行图1所示的联合数据统计方法。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置（服务器或者终端）的处理器执行时，使得装置能够执行前文图1所对应实施例中联合数据统计方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机程序产品或者计算机程序实施例中未披露的技术细节，请参照本申请方法实施例的描述。

此外，需要说明的是：本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或者计算机程序可以包括计算机指令，该计算机指令可以存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器可以执行该计算机指令，使得该计算机设备执行前文图1所对应实施例中联合数据统计方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机程序产品或者计算机程序实施例中未披露的技术细节，请参照本申请方法实施例的描述。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

以上对本发明所提供的一种联合数据统计方法、装置、系统、一种用于联合数据统计的装置和一种可读存储介质，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种联合数据统计方法，其特征在于，应用于密文计算平台，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于密文对所述第一数据方和所述第二数据方的预处理数据集进行比对，并对比对得到的异常数据对应的统计值进行更新，包括：

从所述第一数据方和所述第二数据方的预处理数据集中分别获取第一条预处理数据作为待比较数据；

基于密文对两方的待比较数据中的标识数据进行比对；

若两方的标识数据不同，则保持标识数据大的一方的待比较数据不变，获取标识数据小的一方的下一条预处理数据作为待比较数据；

若两方的标识数据相同，则将所述待比较数据对应的统计值进行第一更新，并基于密文对两方的待比较数据中的属性数据进行比对，若两方的属性数据相同，则将所述待比较数据对应的统计值进行第二更新，若两方的属性数据不同，则保持当前的统计值不变，并分别获取两方的下一条预处理数据作为待比较数据；

直到两方中一方的预处理数据比较完毕。

3.根据权利要求2所述的方法，其特征在于，所述将所述待比较数据对应的统计值进行第一更新，包括：

将所述待比较数据对应的统计值加上预设增量值；

所述将所述待比较数据对应的统计值进行第二更新，包括：

将所述待比较数据对应的统计值减去所述预设增量值。

4.根据权利要求1所述的方法，其特征在于，所述第二数据方的个数为N，N为大于1的整数，所述基于密文对所述第一数据方和所述第二数据方的预处理数据集进行比对，包括：

基于密文对所述第一数据方和第一个第二数据方的预处理数据集进行比对，在比对完成后得到第一个异常统计结果；

基于密文对第i个异常统计结果和第j个第二数据方的预处理数据集进行比对，在比对完成后得到第j个异常统计结果；其中，i的取值为1~N-1，j的取值为2~N。

5.根据权利要求1所述的方法，其特征在于，所述对比对得到的异常数据对应的统计值进行更新，包括：

对比对得到的数据查询方的预处理数据集中的异常数据对应的统计值进行更新；

所述方法还包括：

将所述异常统计结果解密后发送至所述数据查询方，所述异常统计结果包括更新后的所述数据查询方的预处理数据集。

6.根据权利要求1所述的方法，其特征在于，所述每个数据条目对应的统计值的初始值为预设初始值，或者，所述每个数据条目对应的统计值的初始值为每个数据条目对应的申请次数。

7.根据权利要求1所述的方法，其特征在于，所述预设加密算法包括秘密分享算法。

8.一种联合数据统计装置，其特征在于，应用于密文计算平台，所述装置包括：

9.一种联合数据统计系统，其特征在于，所述系统包括第一数据方、第二数据方和密文计算平台，其中：

10.一种用于联合数据统计的装置，其特征在于，应用于密文计算平台，所述装置包括有存储器，以及一个以上程序，其中一个以上程序存储于存储器中，且经配置以由一个以上处理器执行所述一个以上程序，所述一个以上程序包含用于进行如权利要求1至7中任一所述的联合数据统计方法的指令。

11.一种可读存储介质，其上存储有指令，当所述指令由装置的一个或多个处理器执行时，使得装置执行如权利要求1至7中任一所述的联合数据统计方法。