CN109325357A

CN109325357A - 基于rsa的信息值计算方法、设备及可读存储介质

Info

Publication number: CN109325357A
Application number: CN201810913189.1A
Authority: CN
Inventors: 范涛; 马国强; 刘洋; 陈天健; 杨强
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2018-08-10
Filing date: 2018-08-10
Publication date: 2019-02-12
Anticipated expiration: 2038-08-10
Also published as: CN109325357B

Abstract

本发明公开了一种基于RSA的信息值计算方法、设备及可读存储介质，该方法包括步骤：当第二终端接收到第一终端发送的公钥后，第二终端根据公钥确定交集样本数据对应的标签集合，其中，交集样本数据为二终端的样本数据中，携带有与第一终端样本数据相同数据标识的样本数据；将标签集合发送给第一终端；当接收到第一终端发送的数据标识集合和变换后的标签集合后，根据数据标识集合和变换后的标签集合计算第一终端中特征变量的信息值。本发明实现了在第一终端和第二终端不泄露各自数据的情况下，第二终端通过与第一终端联合学习的方法计算第一终端中与其交集样本数据各个数据对应的信息值。

Description

基于RSA的信息值计算方法、设备及可读存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于RSA的信息值计算方法、设备及可读存储介质。

背景技术

在对数据进行统计建模或机器学习之前，需要进行大量的特征工程工作，即需要在大量数据中选取对建模或者机器学习比较重要的数据。因此，计算数据特征的重要性尤为重要。

随着科学技术的发展，数据的隐私保护越来越重要。然而很多的建模任务，需要利用多方的数据一起联合学习才能完成建模。因此，如何在多方不泄露各自数据的情况下，通过联合学习的方法计算数据的信息值，是亟待解决的问题，其中，信息值(InformationValue，简称IV)是一种表示数据特征重要性的指标。

发明内容

本发明的主要目的在于提供一种基于RSA的信息值计算方法、设备及可读存储介质，旨在解决现有的如何在多方不泄露各自数据的情况下，通过联合学习的方法计算数据的信息值的技术问题。

为实现上述目的，本发明提供一种基于RSA的信息值计算方法，所述基于RSA的信息值计算方法包括步骤：

当第二终端接收到第一终端发送的公钥后，所述第二终端根据所述公钥确定交集样本数据对应的标签集合，其中，所述交集样本数据为所述二终端的样本数据中，携带有与所述第一终端样本数据相同数据标识的样本数据；

将所述标签集合发送给所述第一终端，并检测是否接收到所述第一终端发送的数据标识集合和变换后的所述标签集合；

当接收到所述第一终端发送的所述数据标识集合和变换后的所述标签集合后，根据所述数据标识集合和变换后的所述标签集合计算所述第一终端中特征变量的信息值。

优选地，所述当接收到所述第一终端发送的所述数据标识集合和变换后的所述标签集合后，根据所述数据标识集合和变换后的所述标签集合计算所述第一终端中特征变量的信息值的步骤包括：

当接收到所述第一终端发送的所述数据标识集合和变换后的所述标签集合后，获取预设随机数，通过所述预设随机数对变换后的所述标签集合进行处理，得到处理后的所述标签集合；

计算处理后的所述标签集合与所述数据标识集合之间的交集，得到负样本个数和正样本个数；

根据所述负样本个数和所述正样本个数计算所述第一终端中特征变量的权重值；

通过所述权重值和预设的信息值计算公式计算得到所述特征变量的信息值。

优选地，所述当第二终端接收到第一终端发送的公钥后，所述第二终端根据所述公钥确定交集样本数据对应的标签集合的步骤包括：

当第二终端接收到第一终端发送的公钥后，所述第二终端获取所述交集样本数据中各个样本数据对应的数据标签，以及获取预设随机数和所述公钥中的随机数；

计算所述交集样本数据对应数据标识的哈希值，根据所述哈希值、所述预设随机数和所述公钥中的随机数对应计算得到所述交集样本数据的标识值；

根据所述数据标签将所述标识值进行分类，得到不同数据标签对应的标签集合。

优选地，所述当第二终端接收到第一终端发送的公钥后，所述第二终端根据所述公钥确定交集样本数据对应的标签集合的步骤之前，还包括:

当所述第二终端接收到所述第一终端发送的加密后的第一数据标识后，所述第二终端采用预设公钥对所述第一数据标识进行二次加密，得到第一加密值；

将采用所述预设公钥加密后的第二数据标识发送给所述第一终端，并检测是否接收到所述第一终端加密所述第二数据标识后返回的第二加密值；

当接收到所述第二加密值，且确定所述第一加密值与所述第二加密值相等时，确定携带所述第二数据标识的样本数据为交集样本数据。

优选地，所述当接收到所述第一终端发送的所述数据标识集合和变换后的所述标签集合后，根据所述数据标识集合和变换后的所述标签集合计算所述第一终端中特征变量的信息值的步骤之后，还包括：

当接收到建模指令后，根据所述信息值选取建模所需的特征变量。

此外，为实现上述目的，本发明还提供一种基于RSA的信息值计算方法，所述基于RSA的信息值计算方法包括步骤：

当第一终端确定与第二终端携带相同数据标识的交集样本数据后，所述第一终端根据所述交集样本数据中，属于同一类别的特征值对应的数据标识确定数据标识集合，其中，在所述交集样本数据中，每一样本数据至少对应一个特征变量，一个特征变量至少对应一个特征值；

根据预设私钥对所述数据标识集合中的数据标识进行变换，将变换后的所述数据标识集合发送给所述第二终端，并检测是否接收到所述第二终端发送的标签集合；

当接收到所述标签集合后，对所述标签集合进行变换，并将变换后的所述标签集合和变换后的所述数据标识集合发送给所述第二终端，以供所述第二终端根据变换后所述数据标识集合和变换后的所述标签集合对应计算所述特征变量的信息值。

优选地，所述当第一终端确定与第二终端携带相同数据标识的交集样本数据后，所述第一终端根据所述交集样本数据中，属于同一类别的特征变量对应的数据标识确定数据标识集合的步骤包括：

当所述第一终端确定与所述第二终端携带相同数据标识的交集样本数据后，所述第一终端按照预设方式对所述特征变量对应特征值进行分类，确定所述特征值所属类别；

将属于同一类别的所述特征值对应的数据标识组合成一个数据标识集合。

优选地，所述当接收到所述标签集合后，对所述标签集合进行变换，并将变换后的所述标签集合和变换后的所述数据标识集合发送给所述第二终端的步骤包括：

当接收到所述标签集合后，获取所述私钥中的特征值和所述标签集合中的标识值；

以所述标识值作为底数，所述特征值作为幂进行幂运算，得到幂运算结果，并转换所述幂运算结果以得到变换后的所述标签集合；

将变换后的所述标签集合和变换后的所述数据标识结合发送给所述第二终端。

此外，为实现上述目的，本发明还提供一种基于RSA的信息值计算设备，所述基于RSA的信息值计算设备包括存储器、处理器和存储在所述存储器上并可在所述处理器上运行的基于RSA的信息值计算程序，所述基于RSA的信息值计算程序被所述处理器执行时实现如上所述的基于RSA的信息值计算方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有基于RSA的信息值计算程序，所述基于RSA的信息值计算程序被处理器执行时实现如上所述的基于RSA的信息值计算方法的步骤。

本发明通过当第二终端接收到第一终端发送的公钥后，第二终端根据公钥确定交集样本数据对应的标签集合，其中，交集样本数据二终端的样本数据中，携带有与第一终端样本数据相同数据标识的样本数据；将标签集合发送给第一终端，并检测是否接收到第一终端发送的数据标识集合和变换后的标签集合；当接收到第一终端发送的数据标识集合和变换后的标签集合后，根据数据标识集合和变换后的标签集合计算第一终端中特征变量的信息值。实现了在第一终端和第二终端不泄露各自数据的情况下，第二终端通过与第一终端联合学习的方法计算第一终端中与其交集样本数据各个数据对应的信息值。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的结构示意图；

图2为本发明基于RSA的信息值计算方法第一实施例的流程示意图；

图3为本发明基于RSA的信息值计算方法第二实施例的流程示意图；

图4为本发明基于RSA的信息值计算方法第三实施例的流程示意图；

图5为本发明基于RSA的信息值计算方法第四实施例的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的结构示意图。

需要说明的是，图1即可为基于RSA的信息值计算设备的硬件运行环境的结构示意图。本发明实施例基于RSA的信息值计算设备可以是PC，便携计算机等终端设备。

如图1所示，该基于RSA的信息值计算设备可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的基于RSA的信息值计算设备结构并不构成对基于RSA的信息值计算设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及基于RSA的信息值计算程序。其中，操作系统是管理和控制基于RSA的信息值计算设备硬件和软件资源的程序，支持基于RSA的信息值计算程序以及其它软件或程序的运行。

在图1所示的基于RSA的信息值计算设备中，当基于RSA的信息值计算设备为第一终端时，用户接口1003主要用于连接第二终端，与第二终端进行数据通信；当基于RSA的信息值计算设备为第二终端时，用户接口1003主要用于连接第一终端，与第一终端进行数据通信；网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；当基于RSA的信息值计算设备为第二终端时，处理器1001可以用于调用存储器1005中存储的基于RSA的信息值计算程序，并执行以下操作：

当接收到第一终端发送的公钥后，根据所述公钥确定交集样本数据对应的标签集合，其中，所述交集样本数据为所述二终端的样本数据中，携带有与所述第一终端样本数据相同数据标识的样本数据；

进一步地，所述当接收到所述第一终端发送的所述数据标识集合和变换后的所述标签集合后，根据所述数据标识集合和变换后的所述标签集合计算所述第一终端中特征变量的信息值的步骤包括：

进一步地，所述当接收到第一终端发送的公钥后，根据所述公钥确定交集样本数据对应的标签集合的步骤包括：

当接收到第一终端发送的公钥后，获取所述交集样本数据中各个样本数据对应的数据标签，以及获取预设随机数和所述公钥中的随机数；

进一步地，所述当接收到第一终端发送的公钥后，根据所述公钥确定交集样本数据对应的标签集合的步骤之前，处理器1001还可以用于调用存储器1005中存储的基于RSA的信息值计算程序，并执行以下步骤:

当接收到所述第一终端发送的加密后的第一数据标识后，采用预设公钥对所述第一数据标识进行二次加密，得到第一加密值；

进一步地，所述当接收到所述第一终端发送的所述数据标识集合和变换后的所述标签集合后，根据所述数据标识集合和变换后的所述标签集合计算所述第一终端中特征变量的信息值的步骤之后，处理器1001还可以用于调用存储器1005中存储的基于RSA的信息值计算程序，并执行以下步骤：

进一步地，当基于RSA的信息值计算设备为第一终端时，处理器1001还可以用于调用存储器1005中存储的基于RSA的信息值计算程序，执行以下步骤：

当确定与第二终端携带相同数据标识的交集样本数据后，根据所述交集样本数据中，属于同一类别的特征值对应的数据标识确定数据标识集合，其中，在所述交集样本数据中，每一样本数据至少对应一个特征变量，一个特征变量至少对应一个特征值；

进一步地，所述当确定与第二终端携带相同数据标识的交集样本数据后，根据所述交集样本数据中，属于同一类别的特征变量对应的数据标识确定数据标识集合的步骤包括：

当确定与所述第二终端携带相同数据标识的交集样本数据后，按照预设方式对所述特征变量对应特征值进行分类，确定所述特征值所属类别；

进一步地，所述当接收到所述标签集合后，对所述标签集合进行变换，并将变换后的所述标签集合和变换后的所述数据标识集合发送给所述第二终端的步骤包括：

基于上述的结构，提出基于RSA的信息值计算方法的各个实施例。

参照图2，图2为本发明基于RSA的信息值计算方法第一实施例的流程示意图。

本发明实施例提供了基于RSA的信息值计算方法的实施例，需要说明的是，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

基于RSA的信息值计算方法应用于第二终端，第二终端可以包括诸如手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(Personal Digital Assistant，PDA)、等移动终端，以及诸如数字TV、台式计算机等固定终端。基于RSA的信息值计算方法包括：

步骤S10，当第二终端接收到第一终端发送的公钥后，所述第二终端根据所述公钥确定交集样本数据对应的标签集合，其中，所述交集样本数据为所述二终端的样本数据中，携带有与所述第一终端样本数据相同数据标识的样本数据。

当第二终端接收到第一终端发送的公钥后，第二终端根据该公钥确定其交集样本数据对应的标签集合。需要说明的是，在第一终端和第二终端中，都存在对应的样本数据，在第二终端中，每一个样本数据都对应着一个数据标识和一个数据标签；在第一终端中，样本数据只存在对应的数据标识，不存在数据标签。在第一终端和第二终端中，有些样本数据的数据标识可能相同，也可能不同。样本数据的数据标识是由第一终端和第二终端根据相同的规则所设置的。交集样本数据是第二终端的样本数据中，携带有与第一终端样本数据相同的数据标识的样本数据。如若第一终端的样本数据为：{<id1：x1，x2>，<id2:x1，x2>，<id3:x1，x2>},第二终端的样本数据为：{<id2:x3，x4>，<id3:x3，x4>，<id4:x3，x4>，则第二终端中交集样本数据为：{<id2:x3，x4>，<id3:x3，x4>}，第一终端中的交集样本数据为：{<id2:x1，x2>，<id3:x1，x2>}。其中，id1，id2，id3和id4为数据标识，x1，x2，x3和x4为对应样本数据的特征变量，每个特征变量都存在对应的特征值，如特征变量x1表示年龄，对应的特征值为0，5，16，25和50，记为x1＝{0,5,16,25,50}。

一个标签集合中只含有一种数据标签。如当第二终端的交集样本数据中存在两种数据标签，分别为0和1，标签集合分别为数据标签为“0”对应的数据标识集合，以及数据标签为“1”对应的数据标识集合。

进一步地，所述审核所述发送信息的步骤包括：

步骤a，当第二终端接收到第一终端发送的公钥后，所述第二终端获取所述交集样本数据各个样本数据对应的数据标签，以及获取预设随机数和所述公钥中的随机数。

当第二终端接收到第一终端发送的公钥后，第二终端获取其交集样本数据中各个样本数据所对应的数据标签，以及获取预设随机数和公钥中的随机数。其中，预设随机数是第二终端预先设置的随机数，该随机数的数值可根据具体需要而设置，在本实施例不限制预设随机数对应的具体数值。需要说明的是，本实施例中的公钥为RSA公钥。RSA算法的实现过程为：1.随意选择两个大的质数p和q，p不等于q，计算n＝p×q；2.根据欧拉函数，不大于n且与n互质的整数个数为(p-1)×(q-1)；3.选择一个整数e与(p-1)×(q-1)互质，并且e小于(p-1)×(q-1)；4.用以下这个公式计算d：d×e≡1(mod(p-1)(q-1))。需要说明的是，(n，e)组成RSA的公钥，(n，d)组成RSA的私钥。本实施例中所提及公钥中的随机数为e。

步骤b，计算所述交集样本数据对应数据标识的哈希值，根据所述哈希值、所述预设随机数和所述公钥中的随机数对应计算得到所述交集样本数据的标识值。

当第二终端得到交集样本数据后，第二终端获取其交集样本数据中各个样本数据对应的数据标识，计算该数据标识的哈希值。当第二终端计算得到哈希值后，第二终端根据该数据标识的哈希值、预设随机数和公钥中的随机数对应计算得到交集样本数据中样本数据的标识值。可以理解的是，在交集样本数据中，每一个样本数据对应一个数据标识，一个数据标识对应一个标识值。

步骤c，根据所述数据标签将所述标识值进行分类，得到不同数据标签对应的标签集合。

当第二终端计算得到交集样本数据中各个样本数据的标识值后，第二终端根据交集样本数据中各个样本数据对应的数据标签将该标识值进行分类，将对应相同数据标签的标识值分为同一类，得到不同数据标签对应的标签集合。可以理解的是，一个标签集合中只存在一种数据标签。如数据标签为“0”对应的标签集合可表示为：Y_{B_0}＝{r^eH(id)|yi＝0}，数据标签为“1”对应的标签集合可表示为：Y_{B_1}＝{r^eH(id)|yi＝1}。

其中，yi＝0表示数据标签为“0”，yi＝1表示数据标签为“1”，r表示预设随机数，e表示公钥中的随机数，H(id)表示对应数据标识的哈希值，Y_{B_1}表示第二终端中数据标签为“1”的标签集合，Y_{B_0}表示第二终端中数据标签为“0”的标签集合。需要说明的是，标签集合的个数与第二终端交集样本数据中数据标签的种类个数一致。

步骤S20，将所述标签集合发送给所述第一终端，并检测是否接收到所述第一终端发送的数据标识集合和变换后的所述标签集合。

当第二终端得到交集样本数据对应的标签集合后，第二终端将该标签集合发送给第一终端，并检测是否接收第一终端发送的数据标识集合和变换后的标签集合。当第一终端接收到第二终端发送的标签集合后，第一终端会对标签集合中的各个元素进行变换，得到变换后的标签集合。数据标识集合是第一终端对其交集样本数据中分类后的每个类别对应数据标识进行变换后所得的，一个类别的数据标识对应一个数据标识集合。当第一终端得到变换后的标签集合后，第一终端将其数据标识集合和变换后的标签集合发送给第二终端。

步骤S30，当接收到所述第一终端发送的所述数据标识集合和变换后的所述标签集合后，根据所述数据标识集合和变换后的所述标签集合计算所述第一终端中特征变量的信息值。

当第二终端接收到第一终端发送的数据标识集合和变换后的标签集合后，第二终端根据数据标识集合和变换后的标签集合对应计算第一终端交集样本数据中对应特征变量的信息值。

进一步地，步骤S30包括：

步骤d，当接收到所述第一终端发送的所述数据标识集合和变换后的所述标签集合后，获取预设随机数，通过所述预设随机数对变换后的所述标签集合进行处理，得到处理后的所述标签集合。

具体地，当第二终端接收到第一终端发送的数据标识集合和变换后的标签集合后，第二终端获取预设随机数，通过预设随机数对应变换后的标签集合进行处理，得到处理后的标签集合。需要说明的是，步骤d中的“预设随机数”和步骤a中的“预设随机数”是相同的一个数据，即都是r。变换后的标签集合分别为：Z_{B_0}＝shuffle({(r^eH(id))^d＝r*(H(id))^d％n|r^eH(id)∈Y_{B_0}})和Z_{B_1}＝shuffle({(r^eH(id))^d＝r*(H(id))^d％n|r^eH(id)∈Y_{B_1}})，其中，d是组成RSA的私钥中的数据，％为求余运算符。Shuffle是一个随机重排函数，shuffle(x)表示对x集合中元素进行随机重排。第一终端对Y_{B_0}中的元素进行变换，得到变换后的标签集合为Z_{B 0}；对Y_{B_1}中的元素进行变换，得到变换后的标签集合为Z_{B 1}。

数据标识集合的表达式为Z_A＝shuffle({H((H(id))^d)id∈id_set_i})，其中，id_set_i表示第一终端中，对应某个类别中所包含的数据标识。处理后的标签集合为D_{B_0}和D_{B_1}，其中，对Z_{B 0}进行处理，得到对应处理后的标签集合为：D_{B_0}＝{H(r*(H(id))^d/r)＝H((H(id))^d)|r*(H(id))^d∈Z_{B_0}}；对Z_{B 1}进行处理，得到对应处理后的标签集合为：D_{B_1}＝{H(r*(H(id))^d/r)＝H((H(id))^d)r*(H(id))^d∈Z_{B_1}}。由数据标识集合和处理后的标签集合的表达式可知，数据标识集合和处理后的标签集合中各个元素的表现形式是一致的，即数据标识集合中的H((H(id))^d)与处理后的标签集合中的H((H(id))^d)是一致的。

步骤e，计算处理后的所述标签集合与所述数据标识集合之间的交集，得到负样本个数和正样本个数。

当第二终端得到处理后的标签集合后，第二终端计算各个处理后的标签集合与数据标识集合之间的交集，以得到负样本个数和正样本个数。在本实施例中，负样本个数为第一终端中某个类别中携带数据标签为“0”的样本个数，正样本个数为第一终端中某个类别中携带数据标签“1”的样本个数。具体地，Z_A和D_{B_0}的交集大小为负样本个数，Z_A和D_{B_1}的交集大小为正样本个数。

步骤f，根据所述负样本个数和所述正样本个数计算所述第一终端中特征变量的权重值。

当第二终端得到负样本个数和正样本个数后，第二终端根据负样本个数和正样本个数计算第一终端中对应特征变量的权重值。具体地，第二终端将负样本个数除以其交集样本数据中携带与负样本相同数据标签的总样本个数，得到第一终端中对应特征变量中，对应类别的负样本权重值；将正样本个数除以其交集样本数据中携带与正样本相同数据标签的总样本个数，得到第一终端中对应特征变量中，对应类别的正样本权重值。当第二终端得到正样本对应的权重值和负样本对应的权重值后，第二终端通过预设的权重公式计算该特征变量对应类别的权重值。权重公式为：Woe_i＝100*log(distpos_i/distneg_i)，其中，distpos_i为正样本权重值，distneg_i为负样本权重值，Woe_i表示第一终端的交集样本数据中某个类别对应的权重值。

步骤g，通过所述权重值和预设的信息值计算公式计算得到所述特征变量的信息值。

当第二终端计算得到权重值后，第二终端根据计算所得的权重值和预设的信息值计算公式计算出特征变量对应类别的信息值。其中，预设的信息值计算公式为：

即预设的信息值计算公式为IV表示对应的信息值。需要说明的是，本实施例中的IV值只是某个特征变量对应某个类别的信息值，该特征变量对应的信息值等于其对应所有信息值之和。如当特征变量x1对应着4个类别，这4个类别对应的信息值分别为IV1、IV2、IV3和IV4时，特征变量x1的信息值＝IV1+IV2+IV3+IV4。

本实施例通过当第二终端接收到第一终端发送的公钥后，第二终端根据公钥确定交集样本数据对应的标签集合，其中，交集样本数据二终端的样本数据中，携带有与第一终端样本数据相同数据标识的样本数据；将标签集合发送给第一终端，并检测是否接收到第一终端发送的数据标识集合和变换后的标签集合；当接收到第一终端发送的数据标识集合和变换后的标签集合后，根据数据标识集合和变换后的标签集合计算第一终端中特征变量的信息值。实现了在第一终端和第二终端不泄露各自数据的情况下，第二终端通过与第一终端联合学习的方法计算第一终端中与其交集样本数据各个数据对应的信息值。

进一步地，提出本发明基于RSA的信息值计算方法第二实施例。

所述基于RSA的信息值计算方法第二实施例与所述基于RSA的信息值计算方法第一实施例的区别在于，参照图3，基于RSA的信息值计算方法还包括：

步骤S40，当所述第二终端接收到所述第一终端发送的加密后的第一数据标识后，所述第二终端采用预设公钥对所述第一数据标识进行二次加密，得到第一加密值。

当第二终端接收到第一终端发送的加密后的第一数据标识后，第二终端采用预设公钥对第一数据标识进行第二次加密，得到经过两次加密后的第一数据标识，并将该第一数据标识记为第一加密值。需要说明的是，第一终端发送的加密后的第一数据标识为第一终端加密其所持有的样本数据对应的数据标识后所得到的，具体地，第一终端可采用其预先生成的公钥加密第一数据标识。第一终端和第二终端加密所用的公钥是通过非对称加密算法生成的。

步骤S50，将采用所述预设公钥加密后的第二数据标识发送给所述第一终端，并检测是否接收到所述第一终端加密所述第二数据标识后返回的第二加密值。

第二终端将预设公钥加密后的第二数据标识发送给第一终端，并检测是否接收到第一终端加密第二数据标识后返回的第二加密值。其中，第二数据标识为第二终端样本数据对应的数据标识。当第一终端接收到第二终端发送的加密后的第二数据标识后，第一终端采用其公钥对第二数据标识进行二次加密，得到第二加密值，并将该第二加密值发送给第二终端。

步骤S60，当接收到所述第二加密值，且确定所述第一加密值与所述第二加密值相等时，确定携带所述第二数据标识的样本数据为交集样本数据。

当第二终端接收到第一终端发送的第二加密值后，第二终端判断第一加密值与第二加密值是否相等。若确定第一加密值与第二加密值相等，第二终端则确定对应携带第二数据标识的样本数据为交集样本数据；若确定第一加密值与第二加密值不相等，第二终端则确定携带第二数据标识的样本数据不是交集样本数据。可以理解的是，当第一加密值与第二加密值相等时，表明第一加密值对应的第一数据标识与第二加密值对应的第二数据标识是相同的。

如当第一终端的公钥为pub_a，第二终端的公钥为pub_b时，确定交集样本数据的过程为：(1)第一终端采用其公钥pub_a对id_a(第一数据标识)加密：id_a_fa＝f(id_a,pub_a)，然后把id_a_fa发送给第二终端，第二终端采用公钥pub_b把该id_a加密串进行再次加密，得到id_a_fa_fb＝f(id_a_fa,pub_b)。(2)第二终端采用公钥pub_b对id_b加密：id_b_fb＝f(id_b,pub_b)，然后把id_b_fb发送给第一终端，第一终端采用公钥pub_a把该id_b(第二数据标识)加密串进行再次加密：id_b_fb_fa＝f(id_b_fb,pub_a)，然后把id_b_fb_fa发送第二终端。(3)第二终端比较id_a_fa_fb和id_b_fb_fa，如果这两个加密串相等，则表示id_a和id_b相等。

本实施例通过在第一终端和第二终端不泄露自己所拥有数据的情况下，得到第一终端和第二终端样本数据的交集样本数据，提高了计算数据信息值过程中，第一终端和第二终端数据的安全性。

进一步地，提出本发明基于RSA的信息值计算方法第三实施例。

所述基于RSA的信息值计算方法第三实施例与所述基于RSA的信息值计算方法第一或第二实施例的区别在于，基于RSA的信息值计算方法还包括：

步骤S70，当接收到建模指令后，根据所述信息值选取建模所需的特征变量。

当第二终端接收到建模指令后，第二终端根据该信息值选取建模所需的特征变量。其中，该建模指令可由对应用户根据需要而触发。具体地，第二终端在建模所需特征变量的过程中，可判断该特征变量对应的信息值是否大于或者等于预设阈值。当确定某个特征变量的信息值大于或者等于预设阈值时，第二终端将该特征变量作为建模的数据源；当确定某个特征变量的信息值小于预设阈值中，第二终端在建模过程中，可不考虑该特征变量，或者降低将该特征变量在建模过程中权重。

本实施例通过信息值来选取建模所需的数据，提高了所建立模型的精确度，以及提高了建模的效率。

此外，本发明实施例还提出一种基于RSA的信息值计算方法，本发明实施例提供了基于RSA的信息值计算方法的实施例，需要说明的是，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

基于RSA的信息值计算方法应用于第一终端，第一终端可以包括诸如手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(Personal Digital Assistant，PDA)、等移动终端，以及诸如数字TV、台式计算机等固定终端。参照图5，基于RSA的信息值计算包括：

步骤S110，当第一终端确定与第二终端携带相同数据标识的交集样本数据后，所述第一终端根据所述交集样本数据中，属于同一类别的特征值对应的数据标识确定数据标识集合，其中，在所述交集样本数据中，每一样本数据至少对应一个特征变量，一个特征变量至少对应一个特征值。

当第一终端确定与第二终端携带相同数据标识的交集样本数据后，第一终端根据交集样本数据中，属于同一类别的特征值对应的数据标识确定数据标识集合。其中，在交集样本数据中，每一样本数据至少对应一个特征变量，一个特征变量至少对应一个特征值。需要说明的是，第一终端确定其交集样本数据的过程和第二终端确定其交集样本数据的过程原理一致，在本实施例不再详细赘述。可以理解的是，在第一终端和第二终端的交集样本数据中，对应的数据标识是相同，但是，相同数据标识所对应的特征变量可能不相同。

进一步地，步骤S110包括

步骤h，当所述第一终端确定与所述第二终端携带相同数据标识的交集样本数据后，所述第一终端按照预设方式对所述特征变量对应特征值进行分类，确定所述特征值所属类别。

当第一终端确定与第二终端携带相同数据标识的交集样本数据后，第一终端按照预设方式对交集样本数据中各个特征变量对应的特征值进行分类，以确定特征值所属类别。具体地，一个特征变量可对应一个或者多个特征值，第一终端可按照等距离或者等频率等方法对特征变量对应的特征值进行分类。需要说明的是，在第一终端中，一种特征变量对应的预设方式是一样的，如对于年龄这个特征变量对应特征值分类的方式都采用每间隔10岁进行分类，对于价格这个特征变量对应特征值分类的方式都采用每间隔1000元进行分类。

可以理解的是，第一终端也可以根据具体需要对特征变量对应的特征值进行分类。如特征变量x1对应的特征值有0，5，16，25和50，记为x1＝{0,5,16,25,50},分类为后变成x1＝{[0-10],[0-10],(10-20],(20-40],>40}形式，由此可知，0和5属于[0-10]这一类别，16属于(10-20]这一类别，25属于(20-40]这一类别，50属于大于40这一类别。

步骤i，将属于同一类别的所述特征值对应的数据标识组合成一个数据标识集合。

当第一终端确定其交集样本数据中各个特征变量对应特征值所属的类别后，第一终端确定属于同一类别的特征值对应数据标识，将属于同一类别的特征值对应的数据标识组合一个数据标识集合。需要说明的是，同一特征变量对应的多个特征值的数据标识是一样，一个样本数据至少存在一个特征变量，一个特征变量至少对应一个特征值，一个样本数据对应一个数据标识，各个样本数据之间可能存在相同的特征变量，也可能存在不同的特征变量。

步骤S120，根据预设私钥对所述数据标识集合中的数据标识进行变换，将变换后的所述数据标识集合发送给所述第二终端，并检测是否接收到所述第二终端发送的标签集合。

当第一终端得到数据标识集合后，第一终端获取其通过RSA算法所产生的私钥，即预设私钥，通过私钥中的d对数据标识集合中的数据标识进行变换，得到变换后的数据标识集合，并将变换后的数据标识集合发送给第二终端。第一终端检测是否接收到第二终端发送的标签集合。具体地，第一终端通过私钥中的d对数据标识集合中的数据标识进行变换的过程为：第一终端计算各个数据标识集合对应数据标识的哈希值，然后以该哈希值为底数，以私钥中的d为幂进行幂运算，得到幂运算的结果，最后计算该幂运算结果的哈希值，并对该数据标识集合中各个幂运算结果的哈希值进行随机重排，得到变换后的数据标识集合。如若第一终端中的某个数据标识集合为id_set_i＝{id3，id6，id7}，则变换后的数据标识集合为Z_A＝shuffle({H((H(id))^d)|id∈id_set_i})。

步骤S130，当接收到所述标签集合后，对所述标签集合进行变换，并将变换后的所述标签集合和变换后的所述数据标识集合发送给所述第二终端，以供所述第二终端根据变换后所述数据标识集合和变换后的所述标签集合对应计算所述特征变量的信息值。

当第一终端接收到第二终端发送的标签集合后，第一终端对标签集合进行变换，得到变换后的标签集合。当第一终端得到变换后的标签集合后，将变换后的标签集合和变换后的数据标识集合发送给第二终端，以供第二终端在接收到变换后的标签集合和变换后的数据标识集合后，根据变换后的标签集合和变换后的数据标识集合计算对应特征变量的信息值。

进一步地，步骤S130包括：

步骤j，当接收到所述标签集合后，获取所述私钥中的特征值和所述标签集合中的标识值。

步骤k，以所述标识值作为底数，所述特征值作为幂进行幂运算，得到幂运算结果，并转换所述幂运算结果以得到变换后的所述标签集合。

步骤l，将变换后的所述标签集合和变换后的所述数据标识结合发送给所述第二终端。

当第一终端接收到第二终端发送的标签集合后，第一终端获取私钥中的特征值和标签集合中的标识值，其中，私钥中的特征值为d，标签集合中的标识值为r^eH(id)。当第一终端获取到私钥中的特征值和标签集合中的标识值后，第一终端以该标识值作为底数，私钥中的特征值作为幂进行幂运算，得到幂运算结果，并将该幂运算结果转换为与其相等的运算结果，以得到变换后的标签集合。在本实施例中，第二终端发送给第一终端的标签集合为两个，分别为数据标签为“0”的标签集合，以及数据标签为“1”的标签集合，数据标签为“0”对应的标签集合的表达式为：Y_{B_0}＝{r^eH(id)yi＝0}，数据标签为“1”对应的标签集合的表达式为：Y_{B_1}＝{r^eH(id)yi＝1}。数据标签为“0”对应的标签集合变换后的数据标签表达式为:Z_{B_0}＝shuffle({(r^eH(id))^d＝r*(H(id))^d％n|r^eH(id)∈Y_{B_0}})；数据标签为“1”对应的标签集合变换后的数据标签表达式Z_{B_1}＝shuffle({(r^eH(id))^d＝r*(H(id))^d％n|r^eH(id)∈Y_{B_1}})。幂运算结果为(r^eH(id))^d，与幂运算结果相等的运算结果为r*(H(id))^d％n。

当第一终端得到变换后的数据标签集合和变换后的数据标识集合后，第一终端将变换后的数据标签集合和变换后的数据标识集合发送给第二终端，即第一终端将Z_A、Z_{B_0}和Z_{B_1}发送给第二终端。

本实施例通过第一终端将变换后的数据标识集合和变换标签集合发送给第二终端，以供第二终端根据变换后数据标识集合和变换后的标签集合对应计算特征变量的信息值，实现了在第一终端和第二终端不泄露各自数据的情况下，第二终端通过与第一终端联合学习的方法计算第一终端中与其交集样本数据各个数据对应的信息值。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有基于RSA的信息值计算程序，所述基于RSA的信息值计算程序被处理器执行时实现如上所述的基于RSA的信息值计算方法的步骤。

本发明计算机可读存储介质具体实施方式与上述基于RSA的信息值计算方法各实施例基本相同，在此不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于RSA的信息值计算方法，其特征在于，所述基于RSA的信息值计算方法包括以下步骤：

2.如权利要求1所述的基于RSA的信息值计算方法，其特征在于，所述当接收到所述第一终端发送的所述数据标识集合和变换后的所述标签集合后，根据所述数据标识集合和变换后的所述标签集合计算所述第一终端中特征变量的信息值的步骤包括：

3.如权利要求1所述的基于RSA的信息值计算方法，其特征在于，所述当第二终端接收到第一终端发送的公钥后，所述第二终端根据所述公钥确定交集样本数据对应的标签集合的步骤包括：

4.如权利要求1所述的基于RSA的信息值计算方法，其特征在于，所述当第二终端接收到第一终端发送的公钥后，所述第二终端根据所述公钥确定交集样本数据对应的标签集合的步骤之前，还包括:

5.如权利要求1至4任一项所述的基于RSA的信息值计算方法，其特征在于，所述当接收到所述第一终端发送的所述数据标识集合和变换后的所述标签集合后，根据所述数据标识集合和变换后的所述标签集合计算所述第一终端中特征变量的信息值的步骤之后，还包括：

6.一种基于RSA的信息值计算方法，其特征在于，所述基于RSA的信息值计算方法包括以下步骤：

7.如权利要求6所述的基于RSA的信息值计算方法，其特征在于，所述当第一终端确定与第二终端携带相同数据标识的交集样本数据后，所述第一终端根据所述交集样本数据中，属于同一类别的特征变量对应的数据标识确定数据标识集合的步骤包括：

8.如权利要求6或7所述的基于RSA的信息值计算方法，其特征在于，所述当接收到所述标签集合后，对所述标签集合进行变换，并将变换后的所述标签集合和变换后的所述数据标识集合发送给所述第二终端的步骤包括：

9.一种基于RSA的信息值计算设备，其特征在于，所述基于RSA的信息值计算设备包括存储器、处理器和存储在所述存储器上并可在所述处理器上运行的基于RSA的信息值计算程序，所述基于RSA的信息值计算程序被所述处理器执行时实现如权利要求1至5，或者权利要求6至8中任一项所述的基于RSA的信息值计算方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有基于RSA的信息值计算程序，所述基于RSA的信息值计算程序被处理器执行时实现如权利要求1至5，或者权利要求6至8中任一项所述的基于RSA的信息值计算方法的步骤。