CN107846670B

CN107846670B - 移动群体感知中保护数据隐私的盲回归建模及更新方法

Info

Publication number: CN107846670B
Application number: CN201711061127.4A
Authority: CN
Inventors: 李超; 常姗; 卢婷
Original assignee: Donghua University
Current assignee: Donghua University
Priority date: 2017-11-01
Filing date: 2017-11-01
Publication date: 2020-05-26
Anticipated expiration: 2037-11-01
Also published as: CN107846670A

Abstract

本发明提供了一种移动群体感知系统中保护数据隐私的盲回归建模方法，通过移动感知节点与移动感知服务器间的交互，实现盲回归建模，可概括为如下步骤：选取“干净”感知数据子集、构建粗糙的全局模型、全局回归模型求精。本发明还提供了上述盲回归建模方法所建的盲回归模型的更新方法，使用新感知数据进行模型更新可概括为如下步骤：构建新粗糙全局模型、新回归模型求精。本发明方法通过在移动感知服务器与移动感知节点间交换聚集结果，来保障感知数据内容不被公开；采用增量式模型更新以减少移动感知节点的通信与计算开销。通过本发明，可达到保护感知数据隐私、削弱异常数据对回归模型的影响、提高模型准确度、实现轻量级模型更新的效果。

Description

移动群体感知中保护数据隐私的盲回归建模及更新方法

技术领域

本发明涉及一种移动群体感知系统中保护感知数据隐私的盲回归建模及更新方法，特别是涉及一种通过移动感知服务器与移动感知节点间协作，在原始感知数据内容保密的前提下，识别“干净”感知数据子集，并逐步对回归模型求精及更新的方法。

背景技术

近年来，个人智能移动终端(例如智能手机、平板电脑等)在处理能力、嵌入式传感器的性能、存储能力和无线数据传输速率等方面取得了突飞猛进的发展，其对以人为中心的物理世界的感知能力不断增强，加之其庞大的保有数量，造就了实现大规模感知的新方式，即移动群体感知，核心思想是让日常生活的普通大众成为感知其自身及周围环境的主体。典型移动群体感知系统由移动感知节点、移动感知服务器与系统用户构成。移动感知节点利用其附带的传感单元对环境进行感知，并将感知结果通过移动互联网提供给移动感知服务器进行处理与分析，后将分析结果提供给系统用户。

移动群体感知系统中，移动感知节点常常同时对多个变量进行观测，且这些变量间往往会相互关联，存在内在的依赖关系。移动感知服务器对移动感知节点提供的多维感知数据(包括对多个自变量和一个因变量的测量)建立回归模型，可定量地描述各维度测量值间的相互依赖关系、对未来进行预测、识别不相关的或冗余的自变量等。例如，车载移动感知系统中，车辆将当前道路情况、行驶速度、剩余油量等测量值周期性地报告给应用服务器。平台通过对大量感知数据的回归分析，建立道路状况、行驶速度及油量消耗间的关系模型。服务平台可在未来的应用中使用该模型，根据实时路况及行驶速度向车辆用户推荐最省油的行驶路线。

感知数据回归分析涉及以下特征：1、感知数据往往涉及到用户的隐私信息，出于对个人隐私数据的顾虑，移动感知节点并不会直接提交其原始感知数据。2、未经训练的普通移动设备用户作为感知的基本单元，不可避免地会出现感知数据不精确、不完整、不一致等质量问题。因此，感知数据通常会呈现数据质量低、存在较大比例异常值的特征。3、感知数据的分布可能随时间而改变，意味着回归模型需不断更新。4、移动设备的计算、通信能力及电量有限，回归建模若向其施以繁重的计算和通信任务，将削弱移动节点参与感知任务的意愿。由此可见，移动群体感知中存在感知数据涉及隐私、异常值影响建模准确度、时变感知数据需模型更新、感知节点资源受限性等问题，使得在移动群体感知系统中实施准确的回归建模十分困难。

现有的感知数据分析中，隐私保护技术主要包括三类：1、基于同态加密等方法，检测数据点间距离，以识别孤立点为异常值，然而回归模型估计中“杠杆点”可能被错判；2、向感知数据中添加随机噪声的随机置乱类方法，该类方法将引起数据失真，影响模型准确度；3、单纯基于矩阵分块技术的最小二乘类回归方法，该类方法对异常值非常敏感，可能导致估计失效。因此，传统隐私保护的数据分析技术在移动群体感知数据回归建模中无效。

发明内容

本发明要解决的是基于移动群体感知数据回归建模中存在的感知数据隐私保护、异常值消除、回归模型更新、计算及通信开销问题，提供一种移动群体感知系统中保护感知数据隐私的盲回归建模和模型更新算法。

为了解决上述技术问题，本发明的技术方案是提供一种移动群体感知中保护数据隐私的盲回归建模方法，其特征在于，任何感知节点或服务器无需获得他人的原始感知数据，可在包含50％以下异常值的感知数据上建立准确的回归模型，即具有高崩溃点鲁棒性特征；具体包括如下步骤：

步骤1：选取“干净”感知数据子集；

参与初始盲回归建模的移动感知节点使用本地的一组多维感知数据测量值，通过无线通信连接移动感知服务器；移动感知节点计算当前本地感知数据测量值集合的统计均值及协方差值，并呈交给移动感知服务器；移动感知服务器获得上述统计结果用于估计全局统计均值及协方差，然后将全局统计结果分发给各移动感知节点；各移动感知节点根据所述全局统计结果计算每个本地感知数据的马氏距离，并呈交给移动感知服务器，马氏距离用作估计感知测量值异常可能性的依据；移动感知服务器对所获马氏距离排序，选出对应马氏距离最小的一组感知测量值，构成初始“干净”感知数据子集，并通知持有被选中“干净”感知数据的相应移动节点；

步骤2：构建粗糙的全局回归模型；

移动感知节点计算本地“干净”测量值子集(本发明中感知数据和测量值是等同概念)，用于参与普通最小二乘法回归建模所需的中间聚集结果；出于安全聚集的考虑，防止中间聚集结果被用于反解出原始测量值，移动感知节点使用切片技术将其本地聚集结果随机切分为若干切片，并与其网络拓扑中的邻居移动感知节点交换切片，以重构新的聚集结果并呈递给移动感知服务器；移动感知服务器集齐聚集切片后，据此构建最小二乘估计等效的粗略全局回归模型；

步骤3：全局回归模型求精；

移动感知服务器向移动感知节点公布当前全局回归模型，每个移动感知节点计算本地测量值相对于当前回归模型的残差及本地残差平方和，呈递给移动感知服务器，以计算全局残差平方和；移动感知服务器向感知节点公布全局残差平方和，并设定异常值所对应标准化残差的阈值；每个移动感知节点使用全局残差平方和导出的本地测量值的标准化残差，并使用前述阈值剔除异常值；使用剩余测量值重新构造全局回归模型。

优选地，所述步骤1中，由于移动感知服务器不具备感知测量结果本身的功能，因此需告知马氏距离被选中的感知数据所有者，使其选出相应感知测量值参与后续步骤。

优选地，所述步骤3中，使用剩余测量值重新构造全局回归模型的具体过程为：每个感知节点使用非异常测量值计算新最小二乘回归估计所需的中间聚集结果，并通过步骤2所述切片技术向移动感知服务器呈递重构后的聚集结果，从而实现回归模型求精。

本发明还提供了一种利用上述的移动群体感知中保护数据隐私的盲回归建模方法所建的盲回归模型的更新方法，其特征在于，无需重新估计模型，可基于当前回归模型系数和增量感知数据自适应地更新回归模型，具体包括如下步骤：

步骤A：构建新粗糙全局模型；

首先，根据新感知数据组，使用盲回归建模方法步骤1所述方法，发现新“干净”感知数据子集；然后，移动感知节点使用新的“干净”感知数据集计算更新全局模型所需的中间聚集结果，使用分片技术重构本地聚集结果并呈递给移动感知服务器；移动感知服务器基于当前回归模型和用新“干净”感知数据计算的聚集结果，构建新的粗糙全局回归模型，等效于将新“干净”测量值纳入回归模型估计中，达到模型更新的效果；

步骤B：新回归模型求精；

每个移动感知节点使用盲回归建模方法步骤3所述方法重新计算如下数据：1)符合盲回归建模方法步骤3所得旧全局模型的感知数据在新粗糙模型下的标准化残差；2)新感知测量值在当前粗糙模型下的标准化残差；以识别相对当前模型下的异常感知数据，从而判定需要加入新模型的感知数据和需要从当前模型中剔除的感知数据；随后，每个移动感知节点计算新增及删除感知数据所涉及的聚集结果，切片重构后分别呈递于移动感知服务器，移动感知服务器据此对当前模型求精。由于原始数据未被揭露，且只需在当前回归模型基础上实施必要地测量值增删操作，隐私保护和增量式更新可以实现。

优选地，当移动感知节点获得足够的新感知测量值或模型更新周期到达时，盲回归模型更新过程将被执行。

本发明提供的方法克服了现有技术的不足，移动感知节点与移动感知服务器间通过无线通信连接进行协作，实现了保护原始感知数据隐私，且具备高崩溃点特征的鲁棒回归估计。此外，可根据新感知数据集实现增量式回归模型更新，降低了移动感知节点端参与模型估计的计算与通信开销。

附图说明

图1为本实施例提供的移动群体感知中保护数据隐私的盲回归建模及更新方法工作机制示意图；

图2为本实施例提供的移动群体感知中保护数据隐私的盲回归建模及更新方法流程图；

图3为发现“干净”感知数据集示意图；

图4为全局回归模型求精示意图；

图5为与最优模型相对偏差vs更新的次数的实验结果图；

图6为与最优模型相对偏差vs正态分布噪声下的噪声比例的实验结果图；

图7为与最优模型相对偏差vs随机噪声下的噪声比例的实验结果图。

具体实施方式

下面结合具体实施例，进一步阐述本发明。

图1为本实施例提供的移动群体感知中保护数据隐私的盲回归建模及更新方法工作机制示意图，该方法中，任何感知节点或服务器，无需获得他人的原始感知数据，可在包含50％以下异常值的感知数据上建立准确的回归模型，即具有高崩溃点鲁棒性特征。无需重新估计模型，可基于当前回归模型系数和增量感知数据自适应地更新回归模型。

上述保护数据隐私的盲回归建模和更新算法中，参与初始回归建模或模型更新的移动感知节点使用本地的一组多维感知测量值，通过无线通信连接协助移动感知服务器，完成建模或更新过程。

本实施例中，移动群体感知数据线性回归建模问题涉及一组感知节点N_i(i＝1，2，...，m)，为方便表述，设定每轮回归建模或更新中，每个感知节点获得n条测量值，(实际中，任意轮次回归建模及更新中，各感知节点所获测量值的数目不必相同)。N_i的测量值集合记为o⁽ⁱ⁾；其中，单次测量包含p个自变量和1个因变量，第j条测量值记为

由感知节点N_i(i＝1，2，...，m)所测测量值集合(m×n条)构建回归模型

y＝Xβ+ε

其中，X＝[x⁽¹⁾，x⁽²⁾，...，x^(m)]^T，涉及所有感知节点的测量值中自变量部分；

涉及感知节点N_i的测量值中自变量部分。注意

添加一维值为1的列，以方便后续模型估计中截距有关的计算。

y＝[y⁽¹⁾，y⁽²⁾，...，y^(m)]^T，涉及所有感知节点测量值中因变量部分；

涉及感知节点Ni的测量值中因变量部分。

β＝[β₀，β₁，...，β_p]^T，即要估计的回归系数，ε为误差项。

移动感知服务器通过分布式计算方式，从N_i获得x⁽ⁱ⁾与y⁽ⁱ⁾用以估算β。此外，涉及线性回归的最小二乘法估计

令

则

u和v可由各感知节点N_i使用本地感知测量值计算的中间聚集结果(x⁽ⁱ⁾)^Tx⁽ⁱ⁾及(x⁽ⁱ⁾)^Ty⁽ⁱ⁾求和得出。

本发明所提出的保护感知数据隐私的盲回归建模及更新方法可实现为一组运行在移动群体感知服务器和移动设备上的协议。如图1所示，移动感知服务器利用移动感知节点提供的感知测量值构建初始回归模型，并周期的使用新收集的感知数据更新回归模型。每次模型更新贡献感知数据的移动感知节点无需相同，但历史参与者将协助移动感知服务器实施回归模型求精。具体地，结合图2，本发明实施中的盲回归建模和增量式回归模型更新方法如下：

盲回归建模通过以下步骤建立初始的全局回归模型：

步骤一：选取最小安全“干净”感知数据子集。令

表示m个移动感知节点测量值的集合。移动感知服务器取p+2个具有最小马氏距离的感知测量值组成用于回归建模的最小安全“干净”子集，p+2可保证移动感知服务器或其他攻击者无法通过回归模型求解算法反解出原始测量值。此外，使用最小“干净”子集以尽可能降低混入异常值的可能性。具体步骤如图3所示；

A1、计算全局均值μ：移动感知节点N_i对o⁽ⁱ⁾中所有感知数据的对应观测项求和，得到

并连同n一起呈递给移动感知服务器。移动感知服务器集齐s⁽ⁱ⁾(1，2，...，m)后，计算全局均值

并向各移动感知节点N_i公布μ；

A2、N_i计算局部协方差矩阵V⁽ⁱ⁾，每个移动感知节点N_i计算

然后将其发送给移动感知服务器用于计算全局协方差矩阵V：

A3、移动感知服务器对V求逆V^-1，并公布给各移动感知节点Ni；

A4、计算马氏距离：N_i依据V^-1和μ计算o⁽ⁱ⁾中各测量值的马氏距离，排序后将最小的p+2个马氏距离呈递给移动感知服务器；

A5、依据全局马氏距离构建“干净”测量值子集：移动感知服务器将从各移动感知节点获得的马氏距离排序，选出最小的p+2个马氏距离，并通知相应的移动感知节点被选中的测量值。各移动感知节点根据被选中的马氏距离，选出相应的感知数据作为本地“干净”子集。

步骤二：构建粗糙的全局回归模型。假设N_i在上述步骤中选出本地“干净”子集

其中，

N_i本地计算最小二乘回归估计所需的部分中间聚集结果

和

其中，

且

然后，将其发送给移动感知服务器。与此同时，本发明使用切片技术对上述中间聚集结果进行重构，防止由共享导致的原始测量值暴露问题。具体的步骤如下：

B1、N_i随机选择l_in个网络拓扑中的邻居移动感知节点。此外，实施中假设任意一对移动感知节点间可实现一对密钥用于安全数据传输。

B2、N_i将本地聚集结果随机划分成l_in+1份，如

B3、N_i保留

将其余l_in份切片

分别发送给选定的l_in个邻居移动感知节点。同时，N_i从相邻的l_out个邻居移动感知节点处接收l_out个切片

N_i用本地保留的

和接收到的

重构聚集结果，如

以代替

发送给移动感知服务器。

也进行同样的操作。

B4、移动感知服务器计算

和

据此，可实现不对移动感知服务器暴露原始隐私感知数据的前提下，构建粗糙的全局回归模型估计

步骤三：全局回归模型求精。移动感知服务器将

公布给所有移动感知节点。随后，移动感知服务器和移动感知节点间交互以实现模型求精，如图4所示。主要包括检验感知数据相对于

的异常性，最终将得到求精的初始全局模型估计

具体步骤如下：

C1、N_i依据

计算本地感知数据的残差，如

计算本地感知数据的残差平方和

其中，

之后，N_i将

发送给移动感知服务器。

C2、移动感知服务器计算全局残差平方和

并向感知节点公布R_ss和n×m的值。

C3：N_i计算其每个

的标准化残差

其中

是排除了

影响的均方误差。设定

大于阈值(本实施例中设为1.69)时，将相应的

标记为异常值。然后，未标记数据重组新子集

η_i为n与异常值数目的差值，

其中

C4：各N_i用r⁽ⁱ⁾重新实施模型估计。具体地，

和

可以被本地计算。其中，

和

分别涉及r⁽ⁱ⁾中测量值对应的自变量和因变量，即

且

然后，如同步骤二过程，进行切片，发送给移动感知服务器，由移动感知服务器构建求精后的初始全局回归模型估计

增量式盲回归模型更新包括以下步骤：

假设由m个感知节点构成一组新感知者集台

(实际中，各轮模型估计中所涉及的感知者的个数不必相等)。

持有新感知测量值集合

为使用新感知数据更新

移动感知服务器首先基于

和新的“干净”子集构建新粗糙估计

然后，对

求精。具体过程如下步骤：

步骤一：构建新粗糙全局模型。此步骤中，将构建新“干净”测量值，并将其添加到

中，从而构建出新粗糙全局模型

具体过程如下步骤：

D1、移动感知服务器和名

使用各

按照前述发现初始“干净”子集的步骤构建新本地“干净”子集，“干净”子集中属于

的部分表示为

其中

D2、如前述步骤B2-B4，

使用切片技术计算

和

其中

且

D3、移动感知服务器基于现有的

和

计算

据此，移动感知服务器构建新粗糙模型估计

步骤二：新回归模型求精。移动感知服务器将

发送给

中感知节点，执行下述步骤以对当前回归模型求精；

E1、基于新粗糙回归模型

移动感知服务器与各移动感知节点协作，以实现

中

的感知数据异常性的检测。该过程同步骤C1-C4。不符合模型

的感知数据将会从新的模型中移除；同时，通过检验的新感知数据将会被纳入模型中；

E2、假设集合

中的感知数据需从r⁽ⁱ⁾移除，无需参与构建求精的新回归模型，其中

(剩余部分表示为

集合

中的感知数据需要被用于构建新模型，其中

则，

其中，X^(R′)、

和X^(D)分别涉及测量值集合R′、

和D中自变量部分；Y^(R′)、

和Y^(D)分别涉及测量值集合R′、

和D中因变量部分。符合求精后新回归模型的感知数据集为

X_new和Y_new分别表示其对应的自变量矩阵、因变量矩阵。并且，

同样地，

然后

即求精后的新回归模型。

以上所述，仅为本发明的较佳实施例，并非对本发明任何形式上和实质上的限制，应当指出，对于本技术领域的普通技术人员，在不脱离本发明方法的前提下，还将可以做出若干改进和补充，这些改进和补充也应视为本发明的保护范围。凡熟悉本专业的技术人员，在不脱离本发明的精神和范围的情况下，当可利用以上所揭示的技术内容而做出的些许更动、修饰与演变的等同变化，均为本发明的等效实施例；同时，凡依据本发明的实质技术对上述实施例所作的任何等同变化的更动、修饰与演变，均仍属于本发明的技术方案的范围内。

验证实验：为评估本发明方法的有效性，使用本发明和经典最小二乘回归法(LS)、加权最小二乘(WLS)回归方法进行比较。使用数据集Concrete compressive strength(http：//archive.ics.uci.edu/ml/datasets/Concrete+Compressive+Strength)，来自UCI数据库(加州大学欧文分校提出的用于机器学习的数据库)。该数据集包含1030个观察值，每个观察值包括自变量特征cement、blast furnace slag、fly ash和age，以及回归模型的因变量特征concrete compressive strength。为验证本发明方法对异常值的高抵抗性，对数据中每维特征(包括自变量与因变量特征)添加独立噪声，分别为正态噪声N(μ，σ²)和均匀分布随机噪声U(0，Val_max-Val_min)。其中，μ和σ代表当前特征的均值与标准差估计，Valmax和Val_min是当前特征的最大值和最小值。此外，通过调整添加噪声的观察值在数据集中的比例，验证本发明方法对异常值的抵抗性能。以回归模型系数估计的相对偏差

作为评价指标，其中β_*为对原始数据集实施LS估计得到回归模型系数(视为最优回归估计)，

是使用本发明方法对加噪后数据集求得的回归模型系数估计。

图5绘制了本发明估计的模型系数与全局最优模型的系数的相对差异，其中Proposed-N(μ，σ²)和Proposed-Rand表示本发明提出的方法计算得到的回归模型估计与最优模型在噪声为正态分布和随机噪声情况下的相对偏差。横坐标表明回归模型更新的次数，其中0表明在没有回归模型更新的情况下的初始回归模型。从图5中可以看出，随着新的观察值组被用于回归模型更新，本发明估计的模型随着模型更新次数的增加，其准确性不断提高。与此同时，从图中可以看出随着模型更新次数的增加，本发明的方法可以得到比WLS和LS更好的回归估计。

图6和图7分别绘制了正态分布噪声和随机噪声下，随着异常值所占比例的变化，分别实施本发明所提方法(图中标示为Proposed)、LS和WLS三种回归估计，所得回归模型估计与相应的全局最优估计(即对各轮回归及更新中所涉及的原始观察值实施LS得到)间的相对差异变化情况。Initial-和Final-分别表示实施某回归估计(Proposed，LS，WLS)所得的初始回归模型与所有观察值用于更新后的回归模型。横坐标表示噪声所占的比例，从5％增长到50％，增幅间隔为5％。从图中可以看出，本发明提出的方法较WLS和LS估计更接近最优回归估计。LS估计对异常值很敏感，即使是在只有5％异常值的情况下，LS依旧得到较差的回归估计。本发明提出的方法在40％异常值的情况下，依旧保持较高准确度。由此可见，本发明提出的方法能够有效的抵抗异常值的影响，且随着更新次数的增长，回归估计的准确性显著提高。

Claims

1.一种移动群体感知中保护数据隐私的盲回归建模方法，其特征在于，任何感知节点或服务器无需获得其他感知节点或服务器的原始感知数据，可在包含50％以下异常值的感知数据上建立准确的回归模型：具体包括如下步骤：

步骤1、选取“干净”感知数据子集：

步骤2：构建粗糙的全局回归模型；

移动感知节点计算本地“干净”测量值子集，用于参与普通最小二乘法回归建模所需的中间聚集结果；出于安全聚集的考虑，防止中间聚集结果被用于反解出原始测量值，移动感知节点使用切片技术将其本地聚集结果随机切分为若干切片，并与其网络拓扑中的邻居移动感知节点交换切片，以重构新的聚集结果并呈递给移动感知服务器；移动感知服务器集齐聚集切片后，据此构建最小二乘估计等效的粗略全局回归模型；

步骤3：全局回归模型求精；

移动感知服务器向移动感知节点公布当前全局回归模型，每个移动感知节点计算本地测量值相对于当前回归模型的残差及本地残差平方和，呈递给移动感知服务器，以计算全局残差平方和；移动感知服务器向感知节点公布全局残差平方和，并设定异常值所对应标准化残差的阈值；每个移动感知节点使用全局残差平方和导出的本地测量值的标准化残差，并使用前述阈值剔除异常值；使用剩余测量值重新构造全局回归模型；

所述步骤3中，使用剩余测量值重新构造全局回归模型的具体过程为：每个感知节点使用非异常测量值计算新最小二乘回归估计所需的中间聚集结果，并通过步骤2所述切片技术向移动感知服务器呈递重构后的聚集结果，从而实现回归模型求精。

2.如权利要求1所述的一种移动群体感知中保护数据隐私的盲回归建模方法其特征在于：所述步骤1中，由于移动感知服务器不具备感知测量结果本身的功能，因此需告知马氏距离被选中的感知数据所有者，使其选出相应感知测量值参与后续步骤。

3.一种利用如权利要求1～2任一项所述的移动群体感知中保护数据隐私的盲回归建模方法所建的盲回归模型的更新方法，其特征在于，无需重新估计模型，可基于当前回归模型系数和增量感知数据自适应地更新回归模型；具体包括如下步骤：

步骤A：构建新粗糙全局模型；

步骤B：新回归模型求精；

每个移动感知节点使用盲回归建模方法步骤3所述方法重新计算如下数据：1)符合盲回归建模方法步骤3所得旧全局模型的感知数据在新粗糙模型下的标准化残差；2)新感知测量值在当前粗糙模型下的标准化残差；以识别相对当前模型下的异常感知数据，从而判定需要加入新模型的感知数据和需要从当前模型中剔除的感知数据；随后，每个移动感知节点计算新增及删除感知数据所涉及的聚集结果，切片重构后分别呈递于移动感知服务器，移动感知服务器据此对当前模型求精。