CN111046423B

CN111046423B - 一种敏感数据采集的方法

Info

Publication number: CN111046423B
Application number: CN201911257598.1A
Authority: CN
Inventors: 张美跃; 范章华; 程少锋; 周业; 俞传情; 周定云
Original assignee: Hengruitong Fujian Information Technology Co ltd
Current assignee: Hengruitong Fujian Information Technology Co ltd
Priority date: 2019-12-10
Filing date: 2019-12-10
Publication date: 2021-06-18
Anticipated expiration: 2039-12-10
Also published as: CN111046423A

Abstract

本发明提供的一种敏感数据采集的方法，通过客户端创建扰动群组或加入扰动群组，成员客户端使用群主客户端的公钥PK_j对个人数据进行加密，并将加密后的数据以预设的消息格式通过所述服务端转发至群主客户端，所述群主客户端接收所述扰动群组内所有成员客户端发送的用户数据，并通过与所述群主客户端的公钥PK_j相适配的私钥SK_j进行解密，得到解密后的原始数据集，并对所述解密后的原始数据集进行扰动处理，得到扰动后数据集，并发送至服务器，可避免第三方服务器的介入，提高个人数据采集的安全性，可在满足数据可用性的同时，抵抗内部恶意用户和不可信服务器的攻击，保护数据的隐私安全，并确保用户的隐私不被泄露。

Description

一种敏感数据采集的方法

技术领域

本发明涉及信息安全技术领域，特别涉及一种敏感数据采集的方法。

背景技术

近几年来，随着具有采集功能的智能终端和无线通讯技术的日益普及，各种基于数据采集的服务正迅猛发展(如医疗数据采集或者个人资产采集)，现已经覆盖人们生活的方方面面。

在数据采集的过程中，用户上传的数据中蕴含了个人的敏感信息，如医疗费用、疾病信息、健康状况、兴趣爱好、宗教信仰和家庭住址等。如果用户直接上传包含敏感属性的数据，而不采取适当的数据保护机制，将可能造成个人的隐私泄露；而且对采集数据的不当应用也可能导致个人的隐私泄露。而且提供的数据越准确，服务器获取的数据质量越高，但用户的隐私泄露的风险越高。因此，在数据采集中一方面我们要对敏感数据提供一定的保护，另一方面需要满足数据可用性。

一方面，在现有的数据采集机制中，用户往往是将个人数据直接上传给服务器，然后由服务器对数据进行处理，而服务器往往是不受信任的，服务提供商有可能为了个人的利益而泄露用户的个人隐私数据；另一方面，现有的数据采集方法中大都是采取数据加噪的方法，然而所加噪音没有考虑属性之间的关系，而且对多维数据不适用。在数据采集中，数据的属性往往是多维的，而协方差在处理多维数据中起到至关重要的作用，它可以保持数据属性之间的线性关系。而且通过协方差产生的噪音项与敏感属性和公开属性有关，保证了数据之间的内在联系，可以减少样本误差，保证数据的可用性。

发明内容

(一)要解决的技术问题

为了解决现有技术的上述问题，本发明提供一种敏感数据采集的方法，能够提高敏感数据采集的安全性。

(二)技术方案

为了达到上述目的，本发明采用的主要技术方案包括：

一种敏感数据采集的方法，包括步骤：

S1、服务端判断客户端发送的指令信息是否为创建指令，若是，则创建一扰动群组G_j，并选定所述客户端为所述扰动群组的群主客户端，否则，选定所述客户端为成员客户端，并将所述成员客户端分配至相应的扰动群组，且所述创建指令包括群主客户端的公钥PK_j，其中j表示扰动群组的序号；

S2、成员客户端从所述服务端获取相应的扰动群组中群主客户端的公钥PK_j，并通过所述群主客户端的公钥PK_j对个人数据进行加密，并将加密后的数据以预设的消息格式通过所述服务端转发至群主客户端；

S3、所述群主客户端接收所述扰动群组内所有成员客户端发送的用户数据，并通过与所述群主客户端的公钥PK_j相适配的私钥SK_j进行解密，得到解密后的原始数据集，并对所述解密后的原始数据集进行扰动处理，得到扰动后数据集，并发送至服务器。

(三)有益效果

本发明的有益效果在于：通过客户端创建扰动群组或加入扰动群组，成员客户端使用群主客户端的公钥PK_j对个人数据进行加密，并将加密后的数据以预设的消息格式通过所述服务端转发至群主客户端，所述群主客户端接收所述扰动群组内所有成员客户端发送的用户数据，并通过与所述群主客户端的公钥PK_j相适配的私钥SK_j进行解密，得到解密后的原始数据集，并对所述解密后的原始数据集进行扰动处理，得到扰动后数据集，并发送至服务器，可避免第三方服务器的介入，提高个人数据采集的安全性，可在满足数据可用性的同时，抵抗内部恶意用户和不可信服务器的攻击，保护数据的隐私安全，并确保用户的隐私不被泄露。

附图说明

图1为本发明实施例的敏感数据采集的方法流程图；

图2为本发明实施例的敏感数据采集的方法的模型图；

图3为本发明实施例的敏感数据采集的方法的过程示意图。

具体实施方式

为了更好的解释本发明，以便于理解，下面结合附图，通过具体实施方式，对本发明作详细描述。

实施例一

请参照图1，一种敏感数据采集的方法，包括步骤：

S0、服务端为第i个客户端生成相应的假名ID_i'，其中i的取值范围为1至m，m表示客户端的总数量。

所述的将所述成员客户端分配至相应的扰动群组具体为：

以假名将所述成员客户端分配至相应的扰动群组。

所述指令信息为创建指令或加入指令；

所述创建指令还包括用户上限T_j。

所述的预设的消息格式具体为：

{ID_i',E_PKj(a_i1,…,a_in,b_i1,…,b_in)}；

其中，(a_i1,…a_in)表示所述个人数据中的n个敏感属性数据，(b_i1,…b_in) 表示所述个人数据中的n个公开属性数据。

所述解密后的原始数据集Q_j＝(U,V)，其中

步骤S3中所述的对所述解密后的原始数据集进行扰动处理，得到扰动后数据集包括：

S31、对解密后的原始数据集Q_j＝(U,V)中的U与V进行回归运算，计算参数

其中，U表示所述个人数据中的敏感属性数据，V表示所述个人数据中的公开属性数据，

表示协方差，

表示所述个人数据中的敏感属性数据U的均值，

表示所述个人数据中的公开属性数据V的均值；

S32、计算回归残差的协方差

S33、生成扰动噪音e，且所述扰动噪音e服从

正态分布；

S34、判断噪音e是否满足以下两个等式：S(e)＝0和

若不满足则返回步骤S33，其中，S(e)为标准差；

S35、通过标准正态分布产生随机矩阵D，D与U或S进行回归，并计算回归残差的协方差A_HH；

S36、计算一个新噪音C，

S37、判断噪音C是否满足以下两个等式：S(C)＝0和

若不满足，则返回步骤S36；

S38、计算得到扰动后数据集Q_j′＝(Y,V)。

实施例二

请参照图2和3，本实施例和实施例一的区别在于，本发明将结合具体的应用场景进一步说明本发明上述敏感数据采集的方法是如何实现的：

所述的将所述成员客户端分配至相应的扰动群组具体为：

以假名将所述成员客户端分配至相应的扰动群组。

所述指令信息为创建指令或加入指令；

所述创建指令还包括用户上限T_j。

所述的预设的消息格式具体为：

{ID_i',E_PKj(a_i1,…,a_in,b_i1,…,b_in)}；

其中，(a_i1,…a_in)表示所述个人数据中的n个敏感属性数据，(b_i1,…b_in) 表示所述个人数据中的n个公开属性数据，所述公开属性也称为非敏感属性，如年龄、籍贯、性别等；敏感属性即包含隐私数据的属性(也称为隐私属性)，如电话号码、家庭地址、疾病信息等。

所述解密后的原始数据集Q_j＝(U,V)，其中

表示协方差，

表示所述个人数据中的敏感属性数据U的均值，

表示所述个人数据中的公开属性数据V的均值；

S32、计算回归残差的协方差

S33、生成扰动噪音e，且所述扰动噪音e服从

正态分布；

S34、判断噪音e是否满足以下两个等式：S(e)＝0和

若不满足则返回步骤S33，其中，S(e)为标准差；

S36、计算一个新噪音C，

S37、判断噪音C是否满足以下两个等式：S(C)＝0和

若不满足，则返回步骤S36；

S38、计算得到扰动后数据集Q_j′＝(Y,V)。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等同变换，或直接或间接运用在相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种敏感数据采集的方法，其特征在于，包括步骤：

S3、所述群主客户端接收所述扰动群组内所有成员客户端发送的用户数据，并通过与所述群主客户端的公钥PK_j相适配的私钥SK_j进行解密，得到解密后的原始数据集，并对所述解密后的原始数据集进行扰动处理，得到扰动后数据集，并发送至服务器；

步骤S1之前还包括：

S0、服务端为第i个客户端生成相应的假名ID_i'，其中i的取值范围为1至m，m表示客户端的总数量；

所述的将所述成员客户端分配至相应的扰动群组具体为：

以假名将所述成员客户端分配至相应的扰动群组；

所述指令信息为创建指令或加入指令；

所述创建指令还包括用户上限T_j；

所述的预设的消息格式具体为：

{ID_i',E_PKj(a_i1,…,a_in,b_i1,…,b_in)}；

其中，(a_i1,…a_in)表示所述个人数据中第i个客户端用户的n个敏感属性数据，(b_i1,…b_in)表示所述个人数据中第i个客户端用户的n个公开属性数据；

所述解密后的原始数据集Q_j＝(U,V)，其中

表示协方差，

表示所述个人数据中的敏感属性数据U的均值，

表示所述个人数据中的公开属性数据V的均值；

S32、计算回归残差的协方差

S33、生成扰动噪音e，且所述扰动噪音e服从

正态分布；

S34、判断噪音e是否满足以下两个等式：S(e)＝0和

若不满足则返回步骤S33，其中，S(e)为标准差；

S35、通过标准正态分布产生随机矩阵D，D与U或V进行回归，并计算回归残差的协方差A_HH；

S36、计算一个新噪音C，

S37、判断噪音C是否满足以下两个等式：S(C)＝0和

若不满足，则返回步骤S36；

S38、计算得到扰动后数据集Q_j′＝(Y,V)。