CN108897640A

CN108897640A - 群智感知中错误位置数据的检测系统及方法

Info

Publication number: CN108897640A
Application number: CN201810593704.2A
Authority: CN
Inventors: 孔令和; 汪博文; 吴帆; 陈贵海
Original assignee: Shanghai Jiao Tong University
Current assignee: Shanghai Jiao Tong University
Priority date: 2018-06-11
Filing date: 2018-06-11
Publication date: 2018-11-27
Anticipated expiration: 2038-06-11
Also published as: CN108897640B

Abstract

一种群智感知中错误位置数据的检测系统及方法，基于时间序列和压缩感知的错误数据检测方法，通过迭代执行基于时间序列的异常值检测方法检测和压缩感知方法检测错误位置数据并同时对丢失位置数据进行恢复。迭代执行时间序列异常值检测方法和压缩感知，使得错误数据和丢失数据间的相互影响最小化，很好的控制了误报率和漏报率，获得了很高的精度(precision)和召回率(recall)。

Description

群智感知中错误位置数据的检测系统及方法

技术领域

本发明涉及的是一种信息处理领域的技术，具体是一种移动群智感知中基于压缩感知(Compressive Sensing)和时间序列(Time-series)的错误位置数据检测和丢失位置数据检测及恢复系统及方法。

背景技术

群智感知是一种新兴的环境信息采集方法，通过这种方法知采集到的数据可靠性较低，数据可能由于用户操作不当、设备故障、通信误码、恶意用户等原因而出现错误和丢失。

现有应对群智感知错误数据的方法主要分为以下三类：第一类是基于用户信誉值的方法，这种方法假设对于每个观测点都有若干观测值，给信誉值更高的用户提供的观测值赋予更高的权值，从而得到相对可靠的结果。但在位置数据中无法获得多个观测值。第二类方法是基于用户激励机制设计的，这种方法通过设计合理的用户激励机制来保证用户尽最大努力提供可靠的数据。但是，这种方法无法应对非用户主观因素造成的错误(如设备故障造成的错误)。第三类是基于时间序列的异常值检测方法，但这种方法没有将丢失数据纳入考虑。

发明内容

本发明针对现有群智感知存在的上述不足以及压缩感知无法处理数据集中的错误数据的缺陷，提出一种群智感知中错误位置数据的检测系统及方法，基于时间序列和压缩感知的错误数据检测方法，通过迭代执行基于时间序列的异常值检测方法检测和压缩感知方法检测错误位置数据并同时对丢失位置数据进行恢复。迭代执行时间序列异常值检测方法和压缩感知，使得错误数据和丢失数据间的相互影响最小化，很好的控制了误报率和漏报率，获得了很高的精度(precision)和召回率(recall)。

本发明的方法是一种即使存在大量丢失数据的情况下，也可以以很高的精度检测错误数据的方法。

本发明是通过以下技术方案实现的：

本发明涉及一种移动压缩感知中错误位置数据的检测系统，包括：错误检测模块、数据恢复模块以及误判修正模块，其中：错误检测模块接收原始数据作为输入，与数据恢复模块相连并传输初步筛选后的信息，数据恢复模块与误判修正模块相连，将错误检测模块中检测出的错误信息以及原始数据中本就存在的丢失数据一起进行恢复并将恢复后的数据输出至误判修正模块；误判修正模块对原始数据与恢复后的数据进行比较以判断在错误检测模块的检测结果中有无误判出现，并在存在误判时将恢复后的数据传回错误检测模块或输出检测结果和恢复后的数据。

所述的初步筛选后的信息中保证不会存在明显错误的信息，但允许存在正确信息被误判为错误的情况。

本发明涉及上述系统的实现方法，包括以下步骤：

第一步、对采集到的含有错误数据和丢失数据的位置信息进行建模，得到错误位置数据检测问题和丢失数据恢复问题的模型。

第二步、对感知矩阵S_X,S_Y的每一行使用基于时间序列的异常值优化检测方法进行错误检测。

第三步、将第二步中得到的检测矩阵与原始的存在矩阵整合成一个广义二进制标记矩阵并使用压缩感知技术解决丢失数据恢复问题。

第四步、将第二步中被检测为错误的数据与恢复后的数据进行比较并判断是否标记有误，若有误，则返回第二步；否则，输出错误点的集合和恢复后的数据集。

技术效果

与现有技术相比，本发明在检测阶段筛选出所有可能的错误数据，但不必关注有多少数据被误判，而在修正阶段将检测阶段中被判为错误的数据连同丢失数据一起进行恢复，并以恢复后的数据作为基准修正被误判的数据，并将修正后的数据重新输入检测阶段。本发明通过迭代至修正阶段中不再发现被误判的数据为条件，不需要对观测目标的重复观测数据，能够在存在大量丢失数据的数据集上进行错误检测、在存在错误数据的数据集上进行数据恢复以及在错误检测中兼顾误报率和漏报率。

附图说明

图1为检测系统结构图

图2为实施例1的流程图。

图3为时间序列异常值方法示意图。

图4为错误检测的精度和召回率与错误数据率和丢失数据率的关系。

图中：a为数据丢失率为20％时错误检测的精度，b为数据丢失率为40％时错误检测的精度，c为数据丢失率为20％时错误检测的召回率，d为数据丢失率为40％时错误检测的召回率；

图5为数据恢复误差与错误数据率和丢失数据率的关系；

图中：a为数据丢失率为10％时数据恢复误差与错误数据率之间的关系，b为数据丢失率为20％时数据恢复误差与错误数据率之间的关系。

具体实施方式

如图1所示，为本实施例涉及的一种移动压缩感知中错误位置数据的检测系统，包括：错误检测模块、数据恢复模块以及误判修正模块，其中：错误检测模块接收原始数据作为输入，与数据恢复模块相连并传输初步筛选后的信息，在初步筛选后的信息中，保证不会存在明显错误的信息，但允许存在正确信息被误判为错误的情况；数据恢复模块与误判修正模块相连，在该模块中将错误检测模块中检测出的错误信息以及原始数据中本就存在的丢失数据一起进行恢复，恢复后的数据将被送到误判修正模块；误判修正模块与错误检测模块相连，它对原始数据与恢复后的数据进行比较，以判断在错误检测模块的检测结果中有无误判出现，若有误判，则将恢复后的数据传回错误检测模块；否则，输出检测结果和恢复后的数据。

如图2所示，本实施例涉及上述系统的实现方法，包括以下步骤：

例如，将每个位置点分为X分量和Y分量，将时间划分成长度相等的时间槽(timeslot)，则n个用户，t个时间槽，则得到表示不存在错误和丢失的理论上的真值的位置信息的矩阵：X＝[x(i，j)]_n×t，Y＝[y(i，j)]_n×t，其中：i,j分别表示第i个用户和第j个时间槽。

类似地，将位置信息附带的速度信息分为X分量和Y分量，并分别表示为V_x＝[υ_x(i，j)]_n×t，V_y＝[υ_y(i，j)]_n×t，其中：i,j分别表示第i个用户和第j个时间槽，Vx，Vy分别表示速度的x方向分量和y方向分量。

所述的错误位置数据检测问题的模型为：找到一个检测矩阵(DM)，记为使得为以下最优化问题的解：

优化目标：最小化

限制条件：S_X,S_Y,ε，

其中：S_X和S_Y分别表示X方向上和Y方向上的感知矩阵(SM)表示实际采集到的位置信息，包含错误和丢失数据，具体为：其中：ε为存在矩阵(EM)，ο为矩阵点乘运算，即：两个大小相同的矩阵中对应元素相乘；Y方向上的感知矩阵定义类似；ε为存在矩阵(EM)，表示对应的数据点在SM中是否存在，具体为：为错误矩阵(FM)，表示SM中对应的数据点是否是错误数据，具体为：

所述的丢失数据恢复问题的模型为：给定S_X,S_Y以及B，找到可以最好地近似X和Y的和即以下最优化问题：

优化目标：最小化

限制条件：S_X,B(Y方向上最优化问题的定义类似)，

其中：为恢复矩阵(RM)，表示在感知矩阵(SM)和错误检测结果的基础上使用某种方法对数据进行恢复后得到的结果，和为广义二进制标记矩阵(GBIM)，

第二步、对感知矩阵S_X,S_Y的每一行使用基于时间序列的异常值优化检测方法进行错误检测，具体步骤包括：

2.1、如图3所示，选取一个滑动窗口的大小k，选取将某一行位置信息中连续k个点中的中位数作为参考点，当前检测的点为滑动窗口正中间的点，当当前检测的点与中位数之差的绝对值大于临界值δ，则将当前点暂时标记为错误点(将检测矩阵中对应的元素设置为1)。

所述的临界值δ的大小由该时间窗口内的速度有关，具体为：其中：l为滑动窗口最左边的点的编号，l＝min{max{1，j-(w-1)/2}，t-w+1}，ξ为可调节的参数，为平均速度矩阵

优选地，通过调节参数ξ的大小使得所有疑似错误的数据都被检测为错误数据点。在这一步中，只需要保证极低的漏判率，不需要考虑误判率的问题。

2.2、由左向右移动窗口，对矩阵一行数据(一组时间序列)上的所有点都执行步骤2.1；

2.3、对每一组时间序列都执行步骤2.1～2.2，最终得到初步检测结果的检测矩阵。

第三步、将第二步中得到的检测矩阵与原始的存在矩阵ε整合成一个广义二进制标记矩阵并使用压缩感知技术解决丢失数据恢复问题。

所述的压缩感知技术是指：根据奇异值分解的原理和压缩感知理论，并结合拉格朗日乘子法，将丢失数据恢复问题的模型转化成最小化问题：其中：

针对位置信息，为充分利用数据间的相关性以提高数据恢复的精度，所述的最小化问题进一步扩展为：其中：为平均速度矩阵，τ为时间槽长度，λ₁和λ₂为控制数量级的可调参数，利用了速度信息和相邻时间槽内位置信息和速度信息的相关性，从而提高了数据恢复的精度。

所述的最小化问题，即简化为关于L和R两个矩阵的凸函数，优选进一步通过ASD(Alternating Steepest Descent)方法解决。

第四步、将第二步中被检测为错误的数据与恢复后的数据进行比较并判断是否标记有误，最后输出错误点的集合和恢复后的数据集。

所述的判断是指：当标记为错误的数据与恢复后的数据的差值小于误判阈值，则认为该数据点被误判，进而取消对其错误的标记；当发现误判数据点时，在恢复后的数据集上重新执行上述第二步至第四步；否则输出错误点的集合和恢复后的数据集。

本实施实例的模拟实验基于SUVnet数据集。该数据集包含了从2007年2月1日至2007年3月1日之间上海市区2000多量出租车的GPS数据。该模拟实验从错误检测的精度(Precision)和召回率(Recall)以及数据恢复的精度两个方面，对实施例的效果进行了评估。

如图4a-d所示，为当丢失数据率α为20％和40％时错误检测的精度和召回率与错误数据率β之间的关系。其中，I(TS,CS)为该实施例所用的方法，而I(TS,CS)(w\o VT)是不使用速度信息和相邻时间槽位置信息相关性时的结果，I(TS,CS)是不使用速度信息的结果，TMM为只使用时间序列异常值检测系统及方法的结果。可以看出，I(TS,CS)在错误检测的精度和召回率上式中保持在98％左右，即使数据集中有40％的数据丢失，40％的数据错误的极端情况下，I(TS,CS)仍然保持着超过95％的精度和召回率。

如图5a-b所示，为当丢失数据率α为10％和20％时数据恢复的误差与错误数据率β之间的关系。图例中前三种方法前面已经介绍过，第四种方法CS为只使用压缩感知而不结合时间序列异常值检测系统及方法的结果。可以看到，绝大多数情况下I(TS,CS)的数据恢复误差保持在200m以内，即使在数据丢失率为20％，数据错误率为40％的极端情况下，I(TS,CS)仍然将误差控制在了300m上下，其它三种方法的恢复误差分别为400m，600m和1200+m。相比较而言，该实施例所采用的方法I(TS,CS)具有很大优势。

通过以上模拟实验的结果，与现有方法相比，本实施例所采用的方法I(TS,CS)在错误数据检测的精度和召回率，以及在数据恢复的误差方面确实拥有巨大的优势。

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由上述具体实施所限，在其范围内的各个实现方案均受本发明之约束。

Claims

1.一种移动压缩感知中错误位置数据的检测系统，其特征在于，包括：一种移动压缩感知中错误位置数据的检测系统，包括：错误检测模块、数据恢复模块以及误判修正模块，其中：错误检测模块接收原始数据作为输入，与数据恢复模块相连并传输初步筛选后的信息，数据恢复模块与误判修正模块相连，将错误检测模块中检测出的错误信息以及原始数据中本就存在的丢失数据一起进行恢复并将恢复后的数据输出至误判修正模块；误判修正模块对原始数据与恢复后的数据进行比较以判断在错误检测模块的检测结果中有无误判出现，并在存在误判时将恢复后的数据传回错误检测模块或输出检测结果和恢复后的数据。

2.一种基于上述系统的实现方法，其特征在于，包括以下步骤：

第一步、对采集到的含有错误数据和丢失数据的位置信息进行建模，得到错误位置数据检测问题和丢失数据恢复问题的模型；

第二步、对感知矩阵S_X,S_Y的每一行使用基于时间序列的异常值优化检测方法进行错误检测；

第三步、将第二步中得到的检测矩阵与原始的存在矩阵ε整合成一个广义二进制标记矩阵并使用压缩感知技术解决丢失数据恢复问题；

3.根据权利要求2所述的方法，其特征是，所述的错误位置数据检测问题的模型为：找到一个检测矩阵(DM)，记为使得为以下最优化问题的解：

优化目标：最小化

限制条件：S_X,S_Y,ε，

其中：S_X和S_Y分别表示X方向上和Y方向上的感知矩阵(SM)表示实际采集到的位置信息，包含错误和丢失数据，具体为：其中：ε为存在矩阵(EM)，○为矩阵点乘运算，即：两个大小相同的矩阵中对应元素相乘；Y方向上的感知矩阵定义类似；ε为存在矩阵(EM)，表示对应的数据点在SM中是否存在，具体为：为错误矩阵(FM)，表示SM中对应的数据点是否是错误数据，具体为：

4.根据权利要求2所述的方法，其特征是，所述的丢失数据恢复问题的模型为：给定S_X,S_Y以及找到可以最好地近似X和Y的和即以下最优化问题：

优化目标：最小化

限制条件：S_X,(Y方向上最优化问题的定义类似)，

其中：为恢复矩阵(RM)，表示在感知矩阵(SM)和错误检测结果的基础上使用某种方法对数据进行恢复后得到的结果，为广义二进制标记矩阵(GBIM)，

5.根据权利要求2所述的方法，其特征是，所述的第二步，具体步骤包括：

2.1、选取一个滑动窗口的大小k，选取将某一行位置信息中连续k个点中的中位数作为参考点，当前检测的点为滑动窗口正中间的点，当当前检测的点与中位数之差的绝对值大于临界值δ，则将当前点暂时标记为错误点(将检测矩阵中对应的元素设置为1)；

2.3、对每一组时间序列都执行步骤2.1～2.2，最终得到标记初步检测结果的检测矩阵。

6.根据权利要求5所述的方法，其特征是，所述的临界值δ的大小由该时间窗口内的速度有关，具体为：其中：l为滑动窗口最左边的点的编号，l＝min{max{l，j-(w-1)/2}，t-w+1}ξ为可调节的参数，为平均速度矩阵。

7.根据权利要求6所述的方法，其特征是，通过调节参数ξ的大小使得所有疑似错误的数据都被检测为错误数据点。

8.根据权利要求2所述的方法，其特征是，所述的压缩感知技术是指：根据奇异值分解的原理和压缩感知理论，并结合拉格朗日乘子法，将丢失数据恢复问题的模型转化成最小化问题：中：。

9.根据权利要求8所述的方法，其特征是，所述的最小化问题进一步扩展为：其中：为平均速度矩阵，τ为时间槽长度，λ₁和λ₂为控制数量级的可调参数，用了速度信息和相邻时间槽内位置信息和速度信息的相关性，从而提高了数据恢复的精度。

10.根据权利要求9所述的方法，其特征是，所述的最小化问题，即简化为关于L和R两个矩阵的凸函数，进一步通过ASD方法解决。

11.根据权利要求2所述的方法，其特征是，所述的判断是指：当标记为错误的数据与恢复后的数据的差值小于误判阈值，则认为该数据点被误判，进而取消对其错误的标记；当发现误判数据点时，在恢复后的数据集上重新执行上述第二步至第四步；否则输出错误点的集合和恢复后的数据集。