CN114978550A

CN114978550A - 一种基于历史数据回溯的可信数据感知方法

Info

Publication number: CN114978550A
Application number: CN202210578818.6A
Authority: CN
Inventors: 黄国盛; 刘安丰
Original assignee: Central South University; Hunan First Normal University
Current assignee: Central South University; Hunan First Normal University
Priority date: 2022-05-25
Filing date: 2022-05-25
Publication date: 2022-08-30
Anticipated expiration: 2042-05-25
Also published as: CN114978550B

Abstract

本发明公开了一种基于历史数据回溯的可信数据感知方法。群智网络中存在恶意的参与者提交虚假数据从而对网络造成危害，提出了一种对历史提交数据进行回溯而有效辨识参与者的信任度，选取可信参与者感知数据的方法。平台开始有一小部分可信的参与者，在选取参与者时，利用可信参与者提交的数据与信任度未知，中可信参与者的数据进行比对，依据二者数据是否一致来提升与下降其信任度。更重要的，一旦识别出新的可信参与者，则将此可信参与者历史曾经提交的数据为标准检验其它数据参与者的可信性，从而推导出更多参与者的信任度。从而以较少的代价，能够快速辨识出更多参与者的信任度，选取可信参与者提交数据，提高数据质量。

Description

一种基于历史数据回溯的可信数据感知方法

技术领域

本发明属于群智网络的可信数据收集领域，特别涉及群智网络中如何快速与低成本的获得参与者的可信度，采集真实数据的方法。

背景技术

群智感知网络是一种新型的网络，其数据收集方式是一种参与式方式。即系统平台发布采集数据的地点，数据采集的内容，给予数据参与者的报酬等信息。而数据参与者主要是指持有手机的人或者其它感知设备。数据参与者通过手机感知数据，然后，提交给平台而获得报酬。

由于数据参与者提交的数据直接影响平台构造应用的质量。然而，网络中有一些恶意的参与者为了攻击系统而提交一些虚假的、恶意的数据从而对平台造成损害。由于很多群智感知平台对数据有一定的要求，如果其中存在一些恶意数据，会使得依据这些数据构造的应用在使用过程中给用户造成损害。因而，如何辨识出参与者中的可信参与者与恶意参与者，从而选择可信的参与者，将恶意参与者排除在外，从而构造高质量的平台应用，具有重要的意义。

数据质量最重要的一个要求是要保证参与者提交的数据是真实的。也就是说，参与提交的数据与真实的数据误差范围在接受的范围内，这样的数据对构造应用是有益的。如果超过实际允许的误差范围，则其提交的数据对平台是有害的。然而，在群智网络中要辨识参与者提交的数据是不是真实的是非常难的。其原因是这样的：由于参与者分布在各处，群智网络的很多数据是与时间，空间相关的，其提交的数据平台是很难得到验证的。有些数据是可以重复观察的，但是，这需要平台另外派出专门的人或者设备到指定的地点重复观察以取得值。而，这是在大数据量的群智网络中，是很难实现的。而且，如果所有的数据都为了事后检验其值，再派专门的人或者设备重复检验，则前面让参与者观察数据就失去意义了。而且，有很多数据都是不可重复观察的。因而，即使平台让重复观察以检验其真实性也是不可行的。例如，在噪声观察中，即使在同一点，不同时间内观察得到的噪声数据不一定相同。因而参与者报告数据后，是非常难得到检验的。在这方面也有一些研究人员做出了一些研究。这些的共同点是一种基于数学统计的方法。是基于这样的一个假设：网络中大多数参与者都是可信的，而且是服务独立同分布的。这样，如果对同一感知对象同时选取n个参与者去感知。这样对这n个数据进行处理就能够得到较为真实的数据，从而避免被恶意参与者攻击的可能性。对这n个数据目前常采用的方法有：取平均值法。就是对n个数据取平均值后的值认为是估计的真实值，是与实际的真实值最接近的。这种方法的如果参与者是服从独立同分布，而且可信的参与者占大多数，n的取值较大的话，得到的结果是能够在即使存在恶意参与者的情况下仍然能够得到较真实的结果。因为，如果这n个参与者是可信的，得到的结果是真实的。如果其中存在少数的恶意参与者，由于恶意参与者是少数，仍然能够减弱恶意参与者的影响。但是，在实际的网络中并不一定是这种情况。在很多情况下，恶意参与者可以联合起来发起攻击，从而变为占多数了，这样就能够起到攻击效果。另外，简单的取平均值法还存在的问题是，恶意参与者报的数据显著大于或者小于其它参与者，则平均后的值仍然与其提交的数据接近，从而使最终结果与恶意参与者的结果接近，这些都会破坏这种方法的有效性。取中位数法。这种方法相对来说比平均值法更加有效，但是仍然存在上述的一些问题。加权平均值法：这种方法依据的原理是：一般来说感知的数据服从正态分布，因而，正态分布中心的值最接近真实值，因而其权重高，而离正态分布中心远的数据权重小，再加权这n个数据得到的值为估计的真值。显然，上述基于数学统计的方法中存的一个关键不足是：真实的数据是多少，有没有，平台其实是不知道的。而且对一个数据要同时要求n个参与者去观察，因而成本高。后面，有研究人员提出采用信任的方法来做真实的数据收集。基于信任方法的基本思想是：参与者的信任度是其本身内在的一种稳定性的属性。因而，可信的参与者提交的数据是诚实的真实的数据，而不可信的参与者提交的是恶意的数据。这样，如果能够辨识出参与者的信任度，则选择可信的参与者就可获得真实的数据。这种方法中最大的挑战是如何辨识出参与者的信任度。在这方面目前并没有有说服力的方法。本发明的方法就是提出一种有效的辨识参与者的信任度，特别是本以明的通过历史数据回溯以往的数据再进行信任度的计算。从而高效辨识参与者的信任度，是一种非常有效的方法。

发明内容

本发明公开了一种基于历史数据回溯的可信数据感知方法。该发明方法针对当前群智网络中获得数据中存在恶意攻击的行为而提出的。当前的解决采用数学统计方法如平均值，取中位法，加权平均值法都很难辨识出恶意参与者。因而，本发明的方法是提出一种低成本的，快速辨识参与者信任度，然后选择可信参与者感知数据的方法来实现可信数据感知的方法。本发明提出的方法基于初始平台开始有一小部分可信的参与者，然后，在选取参与者时对同一数据采集任务选取多个参与者，其方法是让与信任度未知，中可信参与者的数据与可信、可信参与者的数据进行比对，从而能够有效辨识出参与采集的数据是否真实，评价其信任度。与以往方法重要的不同是本发明的方法一旦辨识出可信的参与者，则从历史数据中提取其原来参与的数据提交数据，将些可信参与者提交的数据来检验历史与其对同一对象感知的数据进行比对，从而利用历史数据来检验出原来不能检验的参与者的是否可信，这样就能够加快信任辨识的速度，从而低成本的，快速的辨识出参与者的信任度，指导参与者选取时选择可信的参与者，从而使得平台获得的数据质量高。

发明的技术解决方案如下：

一种基于历史数据回溯的可信数据感知方法，包括以下步骤：

(1)系统平台初始知道小部分比例共

个参与者是可信的，其收集的数据是真实的，参与者的信任度是稳定的，可信参与者总是提供可信的数据，而恶意参与者总是提供虚假的数据。设初始的可信参与者集合

平台发布需要采集数据的任务，网络中的数据参与者获知采集数据的任务后，有m个参与者向平台申请数据采集，通过下面的方法使得平台获得的评估数据与真实的数据误差最小化；

(2)系统平台收到m个参与者的申请后，按下面的方法选取参与者：

如果这m个参与者有落在集合

中的参与者，则选取一个属于集合

的参与者设为P_b，然后，选取其它信任度大于阀值

或者信任度未知的参与者共x个；

如果这m个参与者没有落在集合

中的参与者，则选取y个信任度大于阀值δ的参与者，如果信任度大于阀值δ的参与者没有y个，则选取全部的信任度大于阀值δ的参与者。如果没有一个信任度大于阀值δ的参与者，则选z个取信任度未知的参与者；

(3)平台对获得的最终评估数据如下所示：

如果这m个参与者有落在集合

中的参与者，则平台最终评估数据为可信参与者P_b提交的数据；

如果这m个参与者没有落在集合

中的参与者，而有信任度大于阀值δ的参与者，则最终评估数据为选取的信任度大于阀值δ的参与者的数据的平均值；

如果这m个参与者没有落在集合

中的参与者，也没有信任度大于阀值δ的参与者，则最终的评估数据为选取的信任度未知参与者的平均值；

(4)平台对参与者的信任度更新过程如下：

如果这m个参与者有落在集合

中的参与者，可信参与者P_b报告的数据的值为v_b，对其它选取的x个参与者中的每一个参与者P_d，依据其提交的数据v_d计算本次的信任度，计算公式如下：

如果

则其新的信任度

其中ε表示允许的最大误差，在此误差范围内表示参与者提交的数据是可用的，增加其信任度；C'_d是参与者P_d更新前的信任度，C_d是更新后的信任度，k是一个大于等于2的整数，表示更新速度的快慢；

如果

则其新的信任度

参与者提交的数据超过误差范围，下降其信任度；

如果

是一个接近1的阀值，比如0.9，如果参与者P_d的信任度已经接近1了，则说明其是可信的，因而，这时加入到可信的集合：

(5)如果参与者P_d的信任度大于

加入

时，就对其历史数据进行回溯，重新校验与更新参与者的信任度，其计算方法如下：

对参与者P_d每次在历史上被选中，提交数据的历史情况进行信任度的重新计算。对每一次历史提交数据的行为中，如果平台选择的参与者中没有落在集合

中的参与者的情况时的每一次历史情况做如下计算：

对那次历史数据获取中的其它每一个参与者P_e，做如下计算

P_d提交的数据为v_d，参与者P_e提交的数据为v_e

如果

则其新的信任度

依据历史上原来不能得到验证的参与者，现在可以依据历史数据来更新其信任度，如果参与者历史上表现好，则提升其信任度；

如果

则其新的信任度

参与者历史上提交的数据超过误差范围，下降其信任度；

如果

这时将其加入到可信的集合：

有益效果

本发明公开了一种基于历史数据回溯的可信数据感知方法。发明的方法对比以往的方法更有益的效果如下：在以往的方法中，检验参与者提交的数据是否真实最困难之处在于不能够找到有效的可验证的标准来检验。或者，有的方法也是找到可信的参与者提交的数据来辨识其它参与者提交的数据是否真实来给出其信任度。但是，平台可获得的可信参与者数量比较少，参加数据感知任务的可信参与者更少。因而，会造成系统信任辨识的速度慢，或者为获得可信的参与者另外花费成本，这样成本高。本发明方法是在辨识的过程上，一旦获得可信的参与者，则将可信参与者历史上的数据提取出来进行检验，检验其它参与者的信任度。这样，使本发明的方法辨识参与者信任度的速度呈加速增长的方式。能够在很短的时间加速而辨识出大量参与者的信任度。而这些历史数据是系统里本身有的，因而不需要系统另外付出成本，但却能够有效提高辨识参与者信任度的速度，从而能够使群智网络能够以小的代价，快速，高质量的获得数据。

附图说明

图1为参与者信任度的变化情况；

图2辨识参与者可信与否的准确度。

具体实施方式

为了便于理解本发明，下文将结合说明书附图和较佳的实施例对本文发明做更全面、细致地描述，但本发明的保护范围并不限于以下具体实施例。

除非另有定义，下文中所使用的所有专业术语与本领域技术人员通常理解含义相同。本文中所使用的专业术语只是为了描述具体实施例的目的，并不是旨在限制本发明的保护范围。

除非另有特别说明，本发明中用到的各种原材料、试剂、仪器和设备等均可通过市场购买得到或者可通过现有方法制备得到。

实施例：

在智慧城市中，要实时监测城市中的环境，如温度，噪声，交通流量等进行数据感知。这时，城市中有大量的分布在城市中各个区域的持有手机设备的参与者，因而平台就可以通过给予数据感知一定报酬的方式而请求参与者参与数据感知。但是参与者中存在一些恶意的参与者报告虚虚假的，恶意的数据而对平台进行攻击。因而本发明公开了一种基于历史数据回溯的可信数据感知方法来辨识恶意参与者，选取可参与者提交高质量。实验方法如下：设城市中有10000个参与者，其中有恶意参与者的比例为15％。其它参与者均为可信参与者，可信参与者总是报告真实的数据，但是其数据与真实值存在一个允许的误差。而恶意参与者总提交与真实数据大于误差的数据以干扰，攻击平台。当平台有数据发出后，可信与恶意参与者均以同样的比例响应数据感知任务。而平台依据本发明的方法选取参与者，对其信任度进行评价与计算。特别的是利用历史对参与者的信任度进行回溯计算。

下面给出发明方法的实验结果。

图1给出的是采用不同方法得到的可信参与者与恶意参与者的信任度变化情况。实验方法是一种是只采用本发明方法的第一部分，而没有采用历史来验证信任度。另一种是采用完全的本发明方法。从实验结果可以看出：采用信任的方法能够辨识出参与者的信任度。恶意参与者的信任度下降，而信任参与者的信任度不断。而本发明的方法能够很快就识别出来，而不采用历史数据来辨识则需要更长的时间，而且效果也不如本发明的方法。

图2给出的实验结果是不同方法辨识参与者的准确度。本发明的方法能够对参与者的信任度辨识达到很高的准确度。而不采用信任度的方法，其识别的准确度低。