CN107846670B - 移动群体感知中保护数据隐私的盲回归建模及更新方法 - Google Patents

移动群体感知中保护数据隐私的盲回归建模及更新方法 Download PDF

Info

Publication number
CN107846670B
CN107846670B CN201711061127.4A CN201711061127A CN107846670B CN 107846670 B CN107846670 B CN 107846670B CN 201711061127 A CN201711061127 A CN 201711061127A CN 107846670 B CN107846670 B CN 107846670B
Authority
CN
China
Prior art keywords
mobile
sensing
model
data
regression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711061127.4A
Other languages
English (en)
Other versions
CN107846670A (zh
Inventor
李超
常姗
卢婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Donghua University
Original Assignee
Donghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Donghua University filed Critical Donghua University
Priority to CN201711061127.4A priority Critical patent/CN107846670B/zh
Publication of CN107846670A publication Critical patent/CN107846670A/zh
Application granted granted Critical
Publication of CN107846670B publication Critical patent/CN107846670B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W12/00Security arrangements; Authentication; Protecting privacy or anonymity
    • H04W12/02Protecting privacy or anonymity, e.g. protecting personally identifiable information [PII]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/12Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q2209/00Arrangements in telecontrol or telemetry systems
    • H04Q2209/50Arrangements in telecontrol or telemetry systems using a mobile data collecting device, e.g. walk by or drive by

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Computer Security & Cryptography (AREA)
  • Storage Device Security (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明提供了一种移动群体感知系统中保护数据隐私的盲回归建模方法,通过移动感知节点与移动感知服务器间的交互,实现盲回归建模,可概括为如下步骤:选取“干净”感知数据子集、构建粗糙的全局模型、全局回归模型求精。本发明还提供了上述盲回归建模方法所建的盲回归模型的更新方法,使用新感知数据进行模型更新可概括为如下步骤:构建新粗糙全局模型、新回归模型求精。本发明方法通过在移动感知服务器与移动感知节点间交换聚集结果,来保障感知数据内容不被公开;采用增量式模型更新以减少移动感知节点的通信与计算开销。通过本发明,可达到保护感知数据隐私、削弱异常数据对回归模型的影响、提高模型准确度、实现轻量级模型更新的效果。

Description

移动群体感知中保护数据隐私的盲回归建模及更新方法
技术领域
本发明涉及一种移动群体感知系统中保护感知数据隐私的盲回归建模及更新方法,特别是涉及一种通过移动感知服务器与移动感知节点间协作,在原始感知数据内容保密的前提下,识别“干净”感知数据子集,并逐步对回归模型求精及更新的方法。
背景技术
近年来,个人智能移动终端(例如智能手机、平板电脑等)在处理能力、嵌入式传感器的性能、存储能力和无线数据传输速率等方面取得了突飞猛进的发展,其对以人为中心的物理世界的感知能力不断增强,加之其庞大的保有数量,造就了实现大规模感知的新方式,即移动群体感知,核心思想是让日常生活的普通大众成为感知其自身及周围环境的主体。典型移动群体感知系统由移动感知节点、移动感知服务器与系统用户构成。移动感知节点利用其附带的传感单元对环境进行感知,并将感知结果通过移动互联网提供给移动感知服务器进行处理与分析,后将分析结果提供给系统用户。
移动群体感知系统中,移动感知节点常常同时对多个变量进行观测,且这些变量间往往会相互关联,存在内在的依赖关系。移动感知服务器对移动感知节点提供的多维感知数据(包括对多个自变量和一个因变量的测量)建立回归模型,可定量地描述各维度测量值间的相互依赖关系、对未来进行预测、识别不相关的或冗余的自变量等。例如,车载移动感知系统中,车辆将当前道路情况、行驶速度、剩余油量等测量值周期性地报告给应用服务器。平台通过对大量感知数据的回归分析,建立道路状况、行驶速度及油量消耗间的关系模型。服务平台可在未来的应用中使用该模型,根据实时路况及行驶速度向车辆用户推荐最省油的行驶路线。
感知数据回归分析涉及以下特征:1、感知数据往往涉及到用户的隐私信息,出于对个人隐私数据的顾虑,移动感知节点并不会直接提交其原始感知数据。2、未经训练的普通移动设备用户作为感知的基本单元,不可避免地会出现感知数据不精确、不完整、不一致等质量问题。因此,感知数据通常会呈现数据质量低、存在较大比例异常值的特征。3、感知数据的分布可能随时间而改变,意味着回归模型需不断更新。4、移动设备的计算、通信能力及电量有限,回归建模若向其施以繁重的计算和通信任务,将削弱移动节点参与感知任务的意愿。由此可见,移动群体感知中存在感知数据涉及隐私、异常值影响建模准确度、时变感知数据需模型更新、感知节点资源受限性等问题,使得在移动群体感知系统中实施准确的回归建模十分困难。
现有的感知数据分析中,隐私保护技术主要包括三类:1、基于同态加密等方法,检测数据点间距离,以识别孤立点为异常值,然而回归模型估计中“杠杆点”可能被错判;2、向感知数据中添加随机噪声的随机置乱类方法,该类方法将引起数据失真,影响模型准确度;3、单纯基于矩阵分块技术的最小二乘类回归方法,该类方法对异常值非常敏感,可能导致估计失效。因此,传统隐私保护的数据分析技术在移动群体感知数据回归建模中无效。
发明内容
本发明要解决的是基于移动群体感知数据回归建模中存在的感知数据隐私保护、异常值消除、回归模型更新、计算及通信开销问题,提供一种移动群体感知系统中保护感知数据隐私的盲回归建模和模型更新算法。
为了解决上述技术问题,本发明的技术方案是提供一种移动群体感知中保护数据隐私的盲回归建模方法,其特征在于,任何感知节点或服务器无需获得他人的原始感知数据,可在包含50%以下异常值的感知数据上建立准确的回归模型,即具有高崩溃点鲁棒性特征;具体包括如下步骤:
步骤1:选取“干净”感知数据子集;
参与初始盲回归建模的移动感知节点使用本地的一组多维感知数据测量值,通过无线通信连接移动感知服务器;移动感知节点计算当前本地感知数据测量值集合的统计均值及协方差值,并呈交给移动感知服务器;移动感知服务器获得上述统计结果用于估计全局统计均值及协方差,然后将全局统计结果分发给各移动感知节点;各移动感知节点根据所述全局统计结果计算每个本地感知数据的马氏距离,并呈交给移动感知服务器,马氏距离用作估计感知测量值异常可能性的依据;移动感知服务器对所获马氏距离排序,选出对应马氏距离最小的一组感知测量值,构成初始“干净”感知数据子集,并通知持有被选中“干净”感知数据的相应移动节点;
步骤2:构建粗糙的全局回归模型;
移动感知节点计算本地“干净”测量值子集(本发明中感知数据和测量值是等同概念),用于参与普通最小二乘法回归建模所需的中间聚集结果;出于安全聚集的考虑,防止中间聚集结果被用于反解出原始测量值,移动感知节点使用切片技术将其本地聚集结果随机切分为若干切片,并与其网络拓扑中的邻居移动感知节点交换切片,以重构新的聚集结果并呈递给移动感知服务器;移动感知服务器集齐聚集切片后,据此构建最小二乘估计等效的粗略全局回归模型;
步骤3:全局回归模型求精;
移动感知服务器向移动感知节点公布当前全局回归模型,每个移动感知节点计算本地测量值相对于当前回归模型的残差及本地残差平方和,呈递给移动感知服务器,以计算全局残差平方和;移动感知服务器向感知节点公布全局残差平方和,并设定异常值所对应标准化残差的阈值;每个移动感知节点使用全局残差平方和导出的本地测量值的标准化残差,并使用前述阈值剔除异常值;使用剩余测量值重新构造全局回归模型。
优选地,所述步骤1中,由于移动感知服务器不具备感知测量结果本身的功能,因此需告知马氏距离被选中的感知数据所有者,使其选出相应感知测量值参与后续步骤。
优选地,所述步骤3中,使用剩余测量值重新构造全局回归模型的具体过程为:每个感知节点使用非异常测量值计算新最小二乘回归估计所需的中间聚集结果,并通过步骤2所述切片技术向移动感知服务器呈递重构后的聚集结果,从而实现回归模型求精。
本发明还提供了一种利用上述的移动群体感知中保护数据隐私的盲回归建模方法所建的盲回归模型的更新方法,其特征在于,无需重新估计模型,可基于当前回归模型系数和增量感知数据自适应地更新回归模型,具体包括如下步骤:
步骤A:构建新粗糙全局模型;
首先,根据新感知数据组,使用盲回归建模方法步骤1所述方法,发现新“干净”感知数据子集;然后,移动感知节点使用新的“干净”感知数据集计算更新全局模型所需的中间聚集结果,使用分片技术重构本地聚集结果并呈递给移动感知服务器;移动感知服务器基于当前回归模型和用新“干净”感知数据计算的聚集结果,构建新的粗糙全局回归模型,等效于将新“干净”测量值纳入回归模型估计中,达到模型更新的效果;
步骤B:新回归模型求精;
每个移动感知节点使用盲回归建模方法步骤3所述方法重新计算如下数据:1)符合盲回归建模方法步骤3所得旧全局模型的感知数据在新粗糙模型下的标准化残差;2)新感知测量值在当前粗糙模型下的标准化残差;以识别相对当前模型下的异常感知数据,从而判定需要加入新模型的感知数据和需要从当前模型中剔除的感知数据;随后,每个移动感知节点计算新增及删除感知数据所涉及的聚集结果,切片重构后分别呈递于移动感知服务器,移动感知服务器据此对当前模型求精。由于原始数据未被揭露,且只需在当前回归模型基础上实施必要地测量值增删操作,隐私保护和增量式更新可以实现。
优选地,当移动感知节点获得足够的新感知测量值或模型更新周期到达时,盲回归模型更新过程将被执行。
本发明提供的方法克服了现有技术的不足,移动感知节点与移动感知服务器间通过无线通信连接进行协作,实现了保护原始感知数据隐私,且具备高崩溃点特征的鲁棒回归估计。此外,可根据新感知数据集实现增量式回归模型更新,降低了移动感知节点端参与模型估计的计算与通信开销。
附图说明
图1为本实施例提供的移动群体感知中保护数据隐私的盲回归建模及更新方法工作机制示意图;
图2为本实施例提供的移动群体感知中保护数据隐私的盲回归建模及更新方法流程图;
图3为发现“干净”感知数据集示意图;
图4为全局回归模型求精示意图;
图5为与最优模型相对偏差vs更新的次数的实验结果图;
图6为与最优模型相对偏差vs正态分布噪声下的噪声比例的实验结果图;
图7为与最优模型相对偏差vs随机噪声下的噪声比例的实验结果图。
具体实施方式
下面结合具体实施例,进一步阐述本发明。
图1为本实施例提供的移动群体感知中保护数据隐私的盲回归建模及更新方法工作机制示意图,该方法中,任何感知节点或服务器,无需获得他人的原始感知数据,可在包含50%以下异常值的感知数据上建立准确的回归模型,即具有高崩溃点鲁棒性特征。无需重新估计模型,可基于当前回归模型系数和增量感知数据自适应地更新回归模型。
上述保护数据隐私的盲回归建模和更新算法中,参与初始回归建模或模型更新的移动感知节点使用本地的一组多维感知测量值,通过无线通信连接协助移动感知服务器,完成建模或更新过程。
本实施例中,移动群体感知数据线性回归建模问题涉及一组感知节点Ni(i=1,2,...,m),为方便表述,设定每轮回归建模或更新中,每个感知节点获得n条测量值,(实际中,任意轮次回归建模及更新中,各感知节点所获测量值的数目不必相同)。Ni的测量值集合记为o(i);其中,单次测量包含p个自变量和1个因变量,第j条测量值记为
Figure BDA0001454322550000051
由感知节点Ni(i=1,2,...,m)所测测量值集合(m×n条)构建回归模型
y=Xβ+ε
其中,X=[x(1),x(2),...,x(m)]T,涉及所有感知节点的测量值中自变量部分;
Figure BDA0001454322550000052
涉及感知节点Ni的测量值中自变量部分。注意
Figure BDA0001454322550000053
添加一维值为1的列,以方便后续模型估计中截距有关的计算。
y=[y(1),y(2),...,y(m)]T,涉及所有感知节点测量值中因变量部分;
Figure BDA0001454322550000054
涉及感知节点Ni的测量值中因变量部分。
β=[β0,β1,...,βp]T,即要估计的回归系数,ε为误差项。
移动感知服务器通过分布式计算方式,从Ni获得x(i)与y(i)用以估算β。此外,涉及线性回归的最小二乘法估计
Figure BDA0001454322550000055
Figure BDA0001454322550000056
Figure BDA0001454322550000057
u和v可由各感知节点Ni使用本地感知测量值计算的中间聚集结果(x(i))Tx(i)及(x(i))Ty(i)求和得出。
本发明所提出的保护感知数据隐私的盲回归建模及更新方法可实现为一组运行在移动群体感知服务器和移动设备上的协议。如图1所示,移动感知服务器利用移动感知节点提供的感知测量值构建初始回归模型,并周期的使用新收集的感知数据更新回归模型。每次模型更新贡献感知数据的移动感知节点无需相同,但历史参与者将协助移动感知服务器实施回归模型求精。具体地,结合图2,本发明实施中的盲回归建模和增量式回归模型更新方法如下:
盲回归建模通过以下步骤建立初始的全局回归模型:
步骤一:选取最小安全“干净”感知数据子集。令
Figure BDA0001454322550000061
表示m个移动感知节点测量值的集合。移动感知服务器取p+2个具有最小马氏距离的感知测量值组成用于回归建模的最小安全“干净”子集,p+2可保证移动感知服务器或其他攻击者无法通过回归模型求解算法反解出原始测量值。此外,使用最小“干净”子集以尽可能降低混入异常值的可能性。具体步骤如图3所示;
A1、计算全局均值μ:移动感知节点Ni对o(i)中所有感知数据的对应观测项求和,得到
Figure BDA0001454322550000062
并连同n一起呈递给移动感知服务器。移动感知服务器集齐s(i)(1,2,...,m)后,计算全局均值
Figure BDA0001454322550000063
并向各移动感知节点Ni公布μ;
A2、Ni计算局部协方差矩阵V(i),每个移动感知节点Ni计算
Figure BDA0001454322550000064
Figure BDA0001454322550000065
然后将其发送给移动感知服务器用于计算全局协方差矩阵V:
Figure BDA0001454322550000066
A3、移动感知服务器对V求逆V-1,并公布给各移动感知节点Ni;
A4、计算马氏距离:Ni依据V-1和μ计算o(i)中各测量值的马氏距离,排序后将最小的p+2个马氏距离呈递给移动感知服务器;
A5、依据全局马氏距离构建“干净”测量值子集:移动感知服务器将从各移动感知节点获得的马氏距离排序,选出最小的p+2个马氏距离,并通知相应的移动感知节点被选中的测量值。各移动感知节点根据被选中的马氏距离,选出相应的感知数据作为本地“干净”子集。
步骤二:构建粗糙的全局回归模型。假设Ni在上述步骤中选出本地“干净”子集
Figure BDA0001454322550000071
其中,
Figure BDA0001454322550000072
Ni本地计算最小二乘回归估计所需的部分中间聚集结果
Figure BDA00014543225500000720
Figure BDA00014543225500000721
其中,
Figure BDA0001454322550000073
Figure BDA0001454322550000074
然后,将其发送给移动感知服务器。与此同时,本发明使用切片技术对上述中间聚集结果进行重构,防止由共享导致的原始测量值暴露问题。具体的步骤如下:
B1、Ni随机选择lin个网络拓扑中的邻居移动感知节点。此外,实施中假设任意一对移动感知节点间可实现一对密钥用于安全数据传输。
B2、Ni将本地聚集结果随机划分成lin+1份,如
Figure BDA0001454322550000075
B3、Ni保留
Figure BDA0001454322550000076
将其余lin份切片
Figure BDA0001454322550000077
分别发送给选定的lin个邻居移动感知节点。同时,Ni从相邻的lout个邻居移动感知节点处接收lout个切片
Figure BDA0001454322550000078
Ni用本地保留的
Figure BDA0001454322550000079
和接收到的
Figure BDA00014543225500000710
重构聚集结果,如
Figure BDA00014543225500000711
以代替
Figure BDA00014543225500000722
发送给移动感知服务器。
Figure BDA00014543225500000723
也进行同样的操作。
B4、移动感知服务器计算
Figure BDA00014543225500000712
Figure BDA00014543225500000713
据此,可实现不对移动感知服务器暴露原始隐私感知数据的前提下,构建粗糙的全局回归模型估计
Figure BDA00014543225500000714
步骤三:全局回归模型求精。移动感知服务器将
Figure BDA00014543225500000715
公布给所有移动感知节点。随后,移动感知服务器和移动感知节点间交互以实现模型求精,如图4所示。主要包括检验感知数据相对于
Figure BDA00014543225500000716
的异常性,最终将得到求精的初始全局模型估计
Figure BDA00014543225500000717
具体步骤如下:
C1、Ni依据
Figure BDA00014543225500000718
计算本地感知数据的残差,如
Figure BDA00014543225500000719
计算本地感知数据的残差平方和
Figure BDA0001454322550000081
其中,
Figure BDA0001454322550000082
之后,Ni
Figure BDA0001454322550000083
发送给移动感知服务器。
C2、移动感知服务器计算全局残差平方和
Figure BDA0001454322550000084
并向感知节点公布Rss和n×m的值。
C3:Ni计算其每个
Figure BDA0001454322550000085
的标准化残差
Figure BDA0001454322550000086
其中
Figure BDA0001454322550000087
是排除了
Figure BDA0001454322550000088
影响的均方误差。设定
Figure BDA0001454322550000089
大于阈值(本实施例中设为1.69)时,将相应的
Figure BDA00014543225500000810
标记为异常值。然后,未标记数据重组新子集
Figure BDA00014543225500000811
ηi为n与异常值数目的差值,
Figure BDA00014543225500000812
其中
Figure BDA00014543225500000813
C4:各Ni用r(i)重新实施模型估计。具体地,
Figure BDA00014543225500000830
Figure BDA00014543225500000831
可以被本地计算。其中,
Figure BDA00014543225500000832
Figure BDA00014543225500000833
分别涉及r(i)中测量值对应的自变量和因变量,即
Figure BDA00014543225500000829
Figure BDA00014543225500000814
然后,如同步骤二过程,进行切片,发送给移动感知服务器,由移动感知服务器构建求精后的初始全局回归模型估计
Figure BDA00014543225500000815
增量式盲回归模型更新包括以下步骤:
假设由m个感知节点构成一组新感知者集台
Figure BDA00014543225500000816
(实际中,各轮模型估计中所涉及的感知者的个数不必相等)。
Figure BDA00014543225500000817
持有新感知测量值集合
Figure BDA00014543225500000818
为使用新感知数据更新
Figure BDA00014543225500000819
移动感知服务器首先基于
Figure BDA00014543225500000820
和新的“干净”子集构建新粗糙估计
Figure BDA00014543225500000821
然后,对
Figure BDA00014543225500000822
求精。具体过程如下步骤:
步骤一:构建新粗糙全局模型。此步骤中,将构建新“干净”测量值,并将其添加到
Figure BDA00014543225500000823
中,从而构建出新粗糙全局模型
Figure BDA00014543225500000824
具体过程如下步骤:
D1、移动感知服务器和名
Figure BDA00014543225500000825
使用各
Figure BDA00014543225500000826
按照前述发现初始“干净”子集的步骤构建新本地“干净”子集,“干净”子集中属于
Figure BDA00014543225500000827
的部分表示为
Figure BDA00014543225500000828
Figure BDA0001454322550000091
其中
Figure BDA0001454322550000092
D2、如前述步骤B2-B4,
Figure BDA00014543225500000929
使用切片技术计算
Figure BDA0001454322550000093
Figure BDA0001454322550000094
其中
Figure BDA0001454322550000095
Figure BDA0001454322550000096
D3、移动感知服务器基于现有的
Figure BDA0001454322550000097
Figure BDA0001454322550000098
计算
Figure BDA0001454322550000099
Figure BDA00014543225500000910
据此,移动感知服务器构建新粗糙模型估计
Figure BDA00014543225500000911
步骤二:新回归模型求精。移动感知服务器将
Figure BDA00014543225500000912
发送给
Figure BDA00014543225500000913
中感知节点,执行下述步骤以对当前回归模型求精;
E1、基于新粗糙回归模型
Figure BDA00014543225500000914
移动感知服务器与各移动感知节点协作,以实现
Figure BDA00014543225500000915
Figure BDA00014543225500000916
的感知数据异常性的检测。该过程同步骤C1-C4。不符合模型
Figure BDA00014543225500000917
的感知数据将会从新的模型中移除;同时,通过检验的新感知数据将会被纳入模型中;
E2、假设集合
Figure BDA00014543225500000918
中的感知数据需从r(i)移除,无需参与构建求精的新回归模型,其中
Figure BDA00014543225500000919
(剩余部分表示为
Figure BDA00014543225500000920
集合
Figure BDA00014543225500000921
中的感知数据需要被用于构建新模型,其中
Figure BDA00014543225500000922
则,
Figure BDA00014543225500000923
其中,X(R′)
Figure BDA00014543225500000924
和X(D)分别涉及测量值集合R′、
Figure BDA00014543225500000925
和D中自变量部分;Y(R′)
Figure BDA00014543225500000926
和Y(D)分别涉及测量值集合R′、
Figure BDA00014543225500000927
和D中因变量部分。符合求精后新回归模型的感知数据集为
Figure BDA00014543225500000928
Xnew和Ynew分别表示其对应的自变量矩阵、因变量矩阵。并且,
Figure BDA0001454322550000101
同样地,
Figure BDA0001454322550000102
然后
Figure BDA0001454322550000103
即求精后的新回归模型。
以上所述,仅为本发明的较佳实施例,并非对本发明任何形式上和实质上的限制,应当指出,对于本技术领域的普通技术人员,在不脱离本发明方法的前提下,还将可以做出若干改进和补充,这些改进和补充也应视为本发明的保护范围。凡熟悉本专业的技术人员,在不脱离本发明的精神和范围的情况下,当可利用以上所揭示的技术内容而做出的些许更动、修饰与演变的等同变化,均为本发明的等效实施例;同时,凡依据本发明的实质技术对上述实施例所作的任何等同变化的更动、修饰与演变,均仍属于本发明的技术方案的范围内。
验证实验:为评估本发明方法的有效性,使用本发明和经典最小二乘回归法(LS)、加权最小二乘(WLS)回归方法进行比较。使用数据集Concrete compressive strength(http://archive.ics.uci.edu/ml/datasets/Concrete+Compressive+Strength),来自UCI数据库(加州大学欧文分校提出的用于机器学习的数据库)。该数据集包含1030个观察值,每个观察值包括自变量特征cement、blast furnace slag、fly ash和age,以及回归模型的因变量特征concrete compressive strength。为验证本发明方法对异常值的高抵抗性,对数据中每维特征(包括自变量与因变量特征)添加独立噪声,分别为正态噪声N(μ,σ2)和均匀分布随机噪声U(0,Valmax-Valmin)。其中,μ和σ代表当前特征的均值与标准差估计,Valmax和Valmin是当前特征的最大值和最小值。此外,通过调整添加噪声的观察值在数据集中的比例,验证本发明方法对异常值的抵抗性能。以回归模型系数估计的相对偏差
Figure BDA0001454322550000104
Figure BDA0001454322550000105
作为评价指标,其中β*为对原始数据集实施LS估计得到回归模型系数(视为最优回归估计),
Figure BDA0001454322550000106
是使用本发明方法对加噪后数据集求得的回归模型系数估计。
图5绘制了本发明估计的模型系数与全局最优模型的系数的相对差异,其中Proposed-N(μ,σ2)和Proposed-Rand表示本发明提出的方法计算得到的回归模型估计与最优模型在噪声为正态分布和随机噪声情况下的相对偏差。横坐标表明回归模型更新的次数,其中0表明在没有回归模型更新的情况下的初始回归模型。从图5中可以看出,随着新的观察值组被用于回归模型更新,本发明估计的模型随着模型更新次数的增加,其准确性不断提高。与此同时,从图中可以看出随着模型更新次数的增加,本发明的方法可以得到比WLS和LS更好的回归估计。
图6和图7分别绘制了正态分布噪声和随机噪声下,随着异常值所占比例的变化,分别实施本发明所提方法(图中标示为Proposed)、LS和WLS三种回归估计,所得回归模型估计与相应的全局最优估计(即对各轮回归及更新中所涉及的原始观察值实施LS得到)间的相对差异变化情况。Initial-和Final-分别表示实施某回归估计(Proposed,LS,WLS)所得的初始回归模型与所有观察值用于更新后的回归模型。横坐标表示噪声所占的比例,从5%增长到50%,增幅间隔为5%。从图中可以看出,本发明提出的方法较WLS和LS估计更接近最优回归估计。LS估计对异常值很敏感,即使是在只有5%异常值的情况下,LS依旧得到较差的回归估计。本发明提出的方法在40%异常值的情况下,依旧保持较高准确度。由此可见,本发明提出的方法能够有效的抵抗异常值的影响,且随着更新次数的增长,回归估计的准确性显著提高。

Claims (3)

1.一种移动群体感知中保护数据隐私的盲回归建模方法,其特征在于,任何感知节点或服务器无需获得其他感知节点或服务器的原始感知数据,可在包含50%以下异常值的感知数据上建立准确的回归模型:具体包括如下步骤:
步骤1、选取“干净”感知数据子集:
参与初始盲回归建模的移动感知节点使用本地的一组多维感知数据测量值,通过无线通信连接移动感知服务器;移动感知节点计算当前本地感知数据测量值集合的统计均值及协方差值,并呈交给移动感知服务器;移动感知服务器获得上述统计结果用于估计全局统计均值及协方差,然后将全局统计结果分发给各移动感知节点;各移动感知节点根据所述全局统计结果计算每个本地感知数据的马氏距离,并呈交给移动感知服务器,马氏距离用作估计感知测量值异常可能性的依据;移动感知服务器对所获马氏距离排序,选出对应马氏距离最小的一组感知测量值,构成初始“干净”感知数据子集,并通知持有被选中“干净”感知数据的相应移动节点;
步骤2:构建粗糙的全局回归模型;
移动感知节点计算本地“干净”测量值子集,用于参与普通最小二乘法回归建模所需的中间聚集结果;出于安全聚集的考虑,防止中间聚集结果被用于反解出原始测量值,移动感知节点使用切片技术将其本地聚集结果随机切分为若干切片,并与其网络拓扑中的邻居移动感知节点交换切片,以重构新的聚集结果并呈递给移动感知服务器;移动感知服务器集齐聚集切片后,据此构建最小二乘估计等效的粗略全局回归模型;
步骤3:全局回归模型求精;
移动感知服务器向移动感知节点公布当前全局回归模型,每个移动感知节点计算本地测量值相对于当前回归模型的残差及本地残差平方和,呈递给移动感知服务器,以计算全局残差平方和;移动感知服务器向感知节点公布全局残差平方和,并设定异常值所对应标准化残差的阈值;每个移动感知节点使用全局残差平方和导出的本地测量值的标准化残差,并使用前述阈值剔除异常值;使用剩余测量值重新构造全局回归模型;
所述步骤3中,使用剩余测量值重新构造全局回归模型的具体过程为:每个感知节点使用非异常测量值计算新最小二乘回归估计所需的中间聚集结果,并通过步骤2所述切片技术向移动感知服务器呈递重构后的聚集结果,从而实现回归模型求精。
2.如权利要求1所述的一种移动群体感知中保护数据隐私的盲回归建模方法其特征在于:所述步骤1中,由于移动感知服务器不具备感知测量结果本身的功能,因此需告知马氏距离被选中的感知数据所有者,使其选出相应感知测量值参与后续步骤。
3.一种利用如权利要求1~2任一项所述的移动群体感知中保护数据隐私的盲回归建模方法所建的盲回归模型的更新方法,其特征在于,无需重新估计模型,可基于当前回归模型系数和增量感知数据自适应地更新回归模型;具体包括如下步骤:
步骤A:构建新粗糙全局模型;
首先,根据新感知数据组,使用盲回归建模方法步骤1所述方法,发现新“干净”感知数据子集;然后,移动感知节点使用新的“干净”感知数据集计算更新全局模型所需的中间聚集结果,使用分片技术重构本地聚集结果并呈递给移动感知服务器;移动感知服务器基于当前回归模型和用新“干净”感知数据计算的聚集结果,构建新的粗糙全局回归模型,等效于将新“干净”测量值纳入回归模型估计中,达到模型更新的效果;
步骤B:新回归模型求精;
每个移动感知节点使用盲回归建模方法步骤3所述方法重新计算如下数据:1)符合盲回归建模方法步骤3所得旧全局模型的感知数据在新粗糙模型下的标准化残差;2)新感知测量值在当前粗糙模型下的标准化残差;以识别相对当前模型下的异常感知数据,从而判定需要加入新模型的感知数据和需要从当前模型中剔除的感知数据;随后,每个移动感知节点计算新增及删除感知数据所涉及的聚集结果,切片重构后分别呈递于移动感知服务器,移动感知服务器据此对当前模型求精。
CN201711061127.4A 2017-11-01 2017-11-01 移动群体感知中保护数据隐私的盲回归建模及更新方法 Active CN107846670B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711061127.4A CN107846670B (zh) 2017-11-01 2017-11-01 移动群体感知中保护数据隐私的盲回归建模及更新方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711061127.4A CN107846670B (zh) 2017-11-01 2017-11-01 移动群体感知中保护数据隐私的盲回归建模及更新方法

Publications (2)

Publication Number Publication Date
CN107846670A CN107846670A (zh) 2018-03-27
CN107846670B true CN107846670B (zh) 2020-05-26

Family

ID=61680752

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711061127.4A Active CN107846670B (zh) 2017-11-01 2017-11-01 移动群体感知中保护数据隐私的盲回归建模及更新方法

Country Status (1)

Country Link
CN (1) CN107846670B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113190798A (zh) * 2021-04-23 2021-07-30 通号(长沙)轨道交通控制技术有限公司 一种牵引变压器低压侧到高压侧的谐波传输系数估计方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7203431B2 (en) * 2003-12-26 2007-04-10 Ricoh Company, Ltd. Abnormality determining method, abnormality determining apparatus, and image forming apparatus
CN103476040A (zh) * 2013-09-24 2013-12-25 重庆邮电大学 带有隐私保护的分布式压缩感知数据融合方法
CN103487558A (zh) * 2013-07-30 2014-01-01 中国标准化研究院 一种应用智能感官信号进行茶叶品质的模式识别分析过程中检测异常样本的方法
CN103679701A (zh) * 2013-11-19 2014-03-26 西安理工大学 基于支持向量机回归的晶体图像直线轮廓检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130148513A1 (en) * 2011-12-08 2013-06-13 Telefonaktiebolaget Lm Creating packet traffic clustering models for profiling packet flows

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7203431B2 (en) * 2003-12-26 2007-04-10 Ricoh Company, Ltd. Abnormality determining method, abnormality determining apparatus, and image forming apparatus
CN103487558A (zh) * 2013-07-30 2014-01-01 中国标准化研究院 一种应用智能感官信号进行茶叶品质的模式识别分析过程中检测异常样本的方法
CN103476040A (zh) * 2013-09-24 2013-12-25 重庆邮电大学 带有隐私保护的分布式压缩感知数据融合方法
CN103476040B (zh) * 2013-09-24 2016-04-27 重庆邮电大学 带有隐私保护的分布式压缩感知数据融合方法
CN103679701A (zh) * 2013-11-19 2014-03-26 西安理工大学 基于支持向量机回归的晶体图像直线轮廓检测方法

Also Published As

Publication number Publication date
CN107846670A (zh) 2018-03-27

Similar Documents

Publication Publication Date Title
Winner et al. Statistical inference for home range overlap
EP3032780B1 (en) Method and apparatus for transmitting messages to users using trajectory-based clustering
Zhang et al. Data perturbation with state-dependent noise for participatory sensing
JP5624562B2 (ja) ウェブサイト訪問者の評価値を計算するための方法及びシステム
WO2020177484A1 (zh) 一种本地化差分隐私城市环卫数据报告和隐私计算方法
CN110705688B (zh) 对操作事件进行风险评估的神经网络系统、方法及装置
Ren et al. Where are you settling down: Geo-locating twitter users based on tweets and social networks
CN111128398A (zh) 一种基于人口迁徙大数据的流行病感染人数估算方法
CN105474599A (zh) 针对失配的先验信息对抗推断攻击的隐私
CN108595655A (zh) 一种基于会话特征相似性模糊聚类的异常用户检测方法
Yu et al. Quantifying community resilience using hierarchical Bayesian kernel methods: A case study on recovery from power outages
CN114297036A (zh) 数据处理方法、装置、电子设备及可读存储介质
CN110572397A (zh) 一种基于流量的webshell的检测方法
CN107623924A (zh) 一种验证影响关键质量指标kqi相关的关键性能指标kpi的方法和装置
CN107846670B (zh) 移动群体感知中保护数据隐私的盲回归建模及更新方法
Zounemat-Kermani Investigating chaos and nonlinear forecasting in short term and mid-term river discharge
Sumathi et al. Automatic Recommendation of Web Pages in Web Usage Mining C
CN116151485B (zh) 反事实预测和效果评估方法、系统
CN111221915B (zh) 基于CWK-means的在线学习资源质量分析方法
Huang et al. Efficient classification of distribution-based data for Internet of Things
CN110457387B (zh) 一种应用于网络中用户标签确定的方法及相关装置
CN112927092B (zh) 理赔趋势预测方法、装置、设备及存储介质
JP7024663B2 (ja) 評価更新装置、方法、及びプログラム
Deb et al. A correlation based imputation method for incomplete traffic accident data
CN110399399B (zh) 用户分析的方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant