CN112287387A

CN112287387A - 一种隐私保护统计分析方法及系统、服务器端、设备终端

Info

Publication number: CN112287387A
Application number: CN202011089047.1A
Authority: CN
Inventors: 王骞; 莫湲媛; 赵令辰; 沈超; 李琦
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2020-10-13
Filing date: 2020-10-13
Publication date: 2021-01-29
Anticipated expiration: 2040-10-13
Also published as: CN112287387B

Abstract

本发明提供了一种隐私保护统计分析方法及系统、服务器端、设备终端，首先初始化系统，生成初始化参数，将初始化参数传送给每个设备终端；然后在辅助验证数据集上测试每个设备终端上传的计算结果的拟合程度，计算每个终端上传计算结果的效用分数，再通过设置选取设备终端的概率与设备终端的得分成正比的方式选取出目标设备终端；最后对选取出的目标设备终端上传的计算结果进行平均求和，得到隐私保护统计分析结果，并发送至目标设备终端。本发明利用指数机制随机选择传感器上传的数据，实现保护参与训练者数据的质量信息，且对不可靠的采集数据具有较强的鲁棒性。

Description

一种隐私保护统计分析方法及系统、服务器端、设备终端

技术领域

本发明涉及计算机科学技术领域，具体涉及一种隐私保护统计分析方法及系统、服务器端、设备终端。

背景技术

物联网是通过射频识别、红外感应器、全球定位系统、激光扫描器等信息传感设备，按约定的协议，把任何物品与互联网即服务器连接起来，进行信息交换和通讯，以实现智能化识别、定位、跟踪、监控和管理。物联网由于具有海量多样化的传感器设备，对数据的采集起到了主要的贡献。一般来说，数据通常由用户个人的传感器产生，如GPS、摄像头、智能手机、心率监测器等。

本申请发明人在实施本发明的过程中，发现现有技术的方法，至少存在如下技术问题：

从隐私的角度来看，用户生成的数据由于包含大量个人信息，通常是高度敏感的，例如位置信息、个人医疗记录、社会关系等。将这些敏感数据收集在一个集中的地方将会引起对隐私泄露的严重担忧。此外，这些传感器的性能由于极易受到环境的影响，其数据的质量也有可能因此而造成损失。

发明内容

本发明提出一种隐私保护统计分析方法及系统、服务器端、设备终端，用于解决或者至少部分解决现有技术的方法中存在的安全性不高的技术问题。

为了解决上述技术问题，本发明第一方面提供了一种隐私保护统计分析方法，应用于服务器端，该方法包括：

初始化系统，生成初始化参数，将初始化参数传送给每个设备终端，以使设备终端基于初始化参数和预设统计分析算法对采集的数据进行计算，得到计算结果；

等待各设备终端完成计算任务，并接收各设备终端上传的计算结果，直到已经有M个终端上传其计算结果，其中，M为大于1的正整数；

在辅助验证数据集上测试每个设备终端上传的计算结果的拟合程度，计算每个终端上传计算结果的效用分数，其中，效用分数用以衡量设备中终端上传的计算结果的质量；

通过设置选取设备终端的概率与设备终端的得分成正比的方式选取出目标设备终端；

对选取出的目标设备终端上传的计算结果进行平均求和，得到隐私保护统计分析结果，并发送至目标设备终端。

在一种实施方式中，所述方法还包括：

如果是回归分析任务，则计算每个终端上传计算结果的效用分数的得分函数为

其中，G为分析模型，D为训练样本数据集，m为进行打分的设备终端；z_i为G(m)的输出，G(m)为分析模型对客户端m持有数据的分析结果，d为设备终端持有数据样本的数量，i为每次分析的数据样本的索引，y_i为辅助验证数据中的实值；

如果是分类任务，则计算每个终端上传信息的效用分数的得分函数为分类正确性，分类正确的数据样本个数占总测试样本个数的比例。

在一种实施方式中，通过设置选取设备终端的概率与设备终端的得分成正比的方式选取出目标设备终端，包括：

从M个终端中无放回抽样选择K个终端，使选取设备终端m的概率正比于

其中，Δu为得分函数u的敏感度，∈为控制噪声大小的隐私预算，K为小于或等于M的正整数。

基于同样的发明构思，本发明第二方面提供了一种隐私保护统计分析方法，应用于设备终端，该方法包括：

接收服务器端通过初始化系统生成的初始化参数，并基于初始化参数和预设统计分析算法对采集的数据进行计算，得到计算结果；

将得到的计算结果上传至服务器端，其中，服务器端等待各设备终端完成计算任务，直到已经有M个终端上传其计算结果，其中，M为大于1的正整数，并通过服务器端在辅助验证数据集上测试每个设备终端上传的计算结果的拟合程度，计算每个终端计算结果的效用分数，其中效用分数用以衡量设备中终端上传的计算结果的质量；然后通过设置选取设备终端的概率与设备终端的得分成正比的方式选取出目标设备终端；再对选取出的目标设备终端上传的计算结果进行平均求和，得到隐私保护统计分析结果；

接收服务器端发送的隐私保护统计分析结果。

在一种实施方式中，设备终端基于初始化参数和预设统计分析算法对采集的数据进行计算，得到计算结果，包括：

设置批量大小|S|、迭代次数I以及在每一轮通信中采用的预设统计分析算法；

在本地采集的数据中，选择批量大小为|S|的数据条目并运行对应的统计分析算法，在进行I次迭代后，将获得的计算结果上传至服务器端。

基于同样的发明构思，本发明第三方面提供了一种服务器端，包括：

初始化模块，用于初始化系统，生成初始化参数，将初始化参数传送给每个设备终端，以使设备终端基于初始化参数和预设统计分析算法对采集的数据进行计算，得到计算结果；

计算结果接收模块，用于等待各设备终端完成计算任务，并接收各设备终端上传的计算结果，直到已经有M个终端上传其计算结果，其中，M为大于1的整数；

打分模块，用于在辅助验证数据集上测试每个设备终端上传的计算结果的拟合程度，计算每个终端的计算结果的效用分数，其中，效用分数用以衡量设备中终端上传的计算结果的质量；

目标终端选取模块，通过设置选取设备终端的概率与设备终端的得分成正比的方式选取出目标设备终端；

隐私保护统计模块，用于对选取出的目标设备终端上传的计算结果进行平均求和，得到隐私保护统计分析结果，并发送至目标设备终端。

基于同样的发明构思，本发明第四方面提供了一种设备终端，包括：

参数接收模块，用于接收服务器端通过初始化系统生成的初始化参数，并基于初始化参数和预设统计分析算法对采集的数据进行计算，得到计算结果；

计算结果上传模块，用于得到的计算结果上传至服务器端，其中，服务器端等待各设备终端完成计算任务，直到已经有M个终端上传其计算结果，其中，M为大于1的正整数，并通过服务器端在辅助验证数据集上测试每个设备终端上传的计算结果拟合程度，计算每个终端上传的计算结果的效用分数，其中效用分数用以衡量设备中终端上传的计算结果的质量；然后通过设置选取设备终端的概率与设备终端的得分成正比的方式选取出目标设备终端；再对选取出的目标设备终端上传的计算结果进行平均求和，得到隐私保护统计分析结果；

隐私保护结果接收模块，用于接收服务器端发送的隐私保护统计分析结果。

基于同样的发明构思，本发明第五方面提供了一种隐私保护统计分析系统，包括第三方面所述的服务器端以及第四方面所述的设备终端。

本申请实施例中的上述一个或多个技术方案，至少具有如下一种或多种技术效果：

本发明提供了一种隐私保护统计分析方法，每个终端设备可以在用传感器采集数据后，先在本地使用本身采集的数据进行统计分析，然后将计算结果上传至服务器端，通过服务器端收集预设数量的终端的计算结果后，根据设备终端上传的计算结果的拟合程度，对设备终端进行评估，计算出对应的效用分数，并根据得分来确定设备终端的选取概率，从而选取出目标设备终端，最后，根据选取出的目标设备终端上传计算结果进行平均求和，得到隐私保护统计分析结果，并发送至目标设备终端。通过引入额外的技术来保证数据隐私，并在计算结果上加入随机噪声来阻止其他人通过分析结果而推测敏感数据有关信息，从而防止了隐私信息泄露，提高了物联网环境下异常数据的安全性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中应用于服务器端的隐私保护统计分析方法的流程示意图；

图2本发明实施例中应用于设备终端的隐私保护统计分析方法的流程示意图；

图3本发明实施例中提供的服务器端的结构框图；

图4本发明实施例中提供的设备终端的结构框图；

图5本发明实施例中隐私保护统计分析方法的原理图。

图6是本发明实施例的隐私保护统计方法的交互实现流程图。

具体实施方式

本发明提供了一种隐私保护统计分析方法及系统、服务器端、设备终端，用以改善现有技术的方法中存在的安全性不高的技术问题，从而达到对传感器端采集的数据进行隐私保护，提高安全性的技术效果。

为了达到上述技术效果，本发明的主要构思如下：

首先初始化系统，生成初始化参数，将初始化参数传送给每个设备终端，以使设备终端基于初始化参数和预设统计分析算法，得到对应的计算结果；其中，等待各设备终端完成计算任务，并接收各设备终端上传的计算结果，直到已经有M个终端上传其计算结果，其中，M为大于1的整数；然后在辅助验证数据集上测试每个设备终端上传的计算结果拟合程度，计算每个终端上传信息的效用分数；接着通过设置选取设备终端的概率与设备终端的得分成正比的方式选取出目标设备终端；再对选取出的目标设备终端上传的计算结果进行平均求和，得到隐私保护统计分析结果，并发送至目标设备终端。

本发明公开了一种对不可靠设备鲁棒的隐私数据保护方法，利用指数机制随机选择传感器上传的数据，实现保护参与训练者数据的质量信息，且对不可靠的采集数据具有较强的鲁棒性。

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

实施例一

本发明实施例提供了一种隐私保护统计分析方法，应用于服务器端，请参见图1，该方法包括：

具体来说，服务器端将初始化参数传送至设备终端后，会等待各设备终端的计算结果，当向服务器上传结果的终端数量达到预先设定的阈值M时，服务器停止接收上传的信息，发出停止信号，并通知其他终端不再需要上传，即直到已经有M个传感器端的结果W₁,W₂,…,W_M。

设备终端接收到初始化参数后，会利用预设统计分析算法和初始化参数，对采集的数据进行计算，得到对应的计算结果，数据是通过传感器采集的。

由于终端可能使用不可靠的采集数据，所以部分上传的计算结果可能存在偏差，降低全局统计分析结果的准确性。为了减少造成的影响，本发明设计通过计算每个终端上传信息(计算结果)的效用分数，来衡量设备终端上传的计算结果的数据质量，而设备终端的计算结果是利用传感器采集的数据得到的，从而可以衡量传感器采集的数据的质量。即通过在辅助验证数据集上测试每个上传信息的拟合精确度，对其进行打分u(G,D,m)。

在一种实施方式中，所述方法还包括：

具体来说，记

表示上传的结果信息集合，以回归与分类两类典型数据分析任务为例。对于回归任务，本发明定义得分函数

在不失一般性的前提下，y_i在[0,1]区间内。对分类任务，定义得分函数u为分类正确率，即分类正确的数据样本个数占总测试样本个数的比例。

具体来说，通过根据得分来选择使用哪些终端上传的信息(计算结果)，可以极大增强系统鲁棒性，避免最终获得的平均结果受异常数据的影响。然而这可以使其他终端通过平均后的结果反推出哪些终端的数据异常，并基于此推测用户的隐私信息。所以在本发明中，利用指数机制将不确定性注入到抽样过程中。假设服务器抽取K个传感器端，则选取到终端m的概率正比于

最后，为了充分利用所有终端的数据，对所有抽样选取到的终端所上传的数值，进行求和平均，将结果下发给终端以进行参数优化或使用。

实施例二

基于同样的发明构思，本实施例提供了一种隐私保护统计分析方法，应用于设备终端，请参见图2，该方法包括：

接收服务器端发送的隐私保护统计分析结果。

具体来说，设备终端从服务器下载相同的初始化参数W₀，设置本次执行任务所使用的数据批量个数|S|和迭代次数I，在每一轮通信中执行选择的统计分析优化算法，例如线性回归、神经网络等算法。然后在本地数据集中随机选择批量大小为|S|的数据集合，运行统计分析算法，进行I次迭代后，将获得的计算结果发送给服务器端。

请参见图5，为本发明实施例中隐私保护统计分析方法的原理图，其分别描述了服务器端和设备终端在该方法中执行的步骤。

请参见图6，本发明实施例的隐私保护统计方法的交互实现流程图。

实施例三

基于同样的发明构思，本实施例提供了一种服务器端，请参见图3，包括：

由于本发明实施例三所介绍的服务器端，为实施本发明实施例一中隐私保护统计分析方法所采用的服务器端，故而基于本发明实施例一所介绍的方法，本领域所属人员能够了解该服务器端的具体结构及变形，故而在此不再赘述。凡是本发明实施例一的方法所采用的服务器端都属于本发明所欲保护的范围。

实施例四

基于同样的发明构思，本实施例提供了一种设备终端，请参见图4，包括：

由于本发明实施例四所介绍的设备终端，为实施本发明实施例二中隐私保护统计分析方法所采用的设备终端，故而基于本发明实施例二所介绍的方法，本领域所属人员能够了解该设备终端的具体结构及变形，故而在此不再赘述。凡是本发明实施例二的方法所采用的服务器端都属于本发明所欲保护的范围。

实施例五

基于同样的发明构思，本实施例提供了一种隐私保护统计分析系统，包括实施例三所述的服务器端以及实施例四所述的设备终端。

由于本发明实施例五所介绍的系统，为包含实施例三中的服务器端和实施例四中设备终端的系统，故而基于本发明实施例三和四中的设备，本领域所属人员能够了解该系统的具体结构及变形，故而在此不再赘述。

本发明中所描述的具体实施的例子仅仅是对本发明的方法和步骤的举例说明。本发明所述技术领域的技术人员可以对所描述的具体实施步骤做相应的修改或补充或变形(即采用类似的替代方式)，但是不会背离本发明的原理和实质或者超越所附权利要求书所定义的范围。本发明的范围仅由所附权利要求书限定。

Claims

1.一种隐私保护统计分析方法，其特征在于，应用于服务器端，该方法包括：

2.如权利要求1所述的隐私保护统计分析方法，其特征在于，所述方法还包括：

3.如权利要求2所述的隐私保护统计分析方法，其特征在于，通过设置选取设备终端的概率与设备终端的得分成正比的方式选取出目标设备终端，包括：

4.一种隐私保护统计分析方法，其特征在于，应用于设备终端，该方法包括：

接收服务器端发送的隐私保护统计分析结果。

5.如权利要求4所述的隐私保护统计分析方法，其特征在于，设备终端基于初始化参数和预设统计分析算法对采集的数据进行计算，得到计算结果，包括：

6.一种服务器端，其特征在于，包括：

7.一种设备终端，其特征在于，包括：

8.一种隐私保护统计分析系统，其特征在于，包括如权利要求6所述的服务器端以及如权利要求7所述的设备终端。