CN112396102B

CN112396102B - 基于时空移动特征分布的移动群智感知用户联盟聚类方法

Info

Publication number: CN112396102B
Application number: CN202011282797.0A
Authority: CN
Inventors: 王慧强; 邵子豪; 邹伊凡; 陆东浩; 李宜杭; 吕宏武; 冯光升; 郭方方
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2020-11-17
Filing date: 2020-11-17
Publication date: 2022-08-02
Anticipated expiration: 2040-11-17
Also published as: CN112396102A

Abstract

本发明属于移动群智感知中用户聚类及任务分配技术领域，具体涉及一种基于时空移动特征分布的移动群智感知用户联盟聚类方法，包括以下步骤：1)描述用户移动行为特征与用户活跃度，确定初始联盟聚类中心；2)基于用户上传数据，计算用户数据与联盟相似度，设置每个联盟中的用户上限，保障聚类数据的平衡性；3)结合得到的用户联盟相似度与当前联盟中用户数量，基于用户联盟判定准则，实现用户联盟聚类。本发明在用户数据质量已知的条件下，可有效地挖掘出重要用户数据，算法稳定，聚类速率快，保证聚类结果的平衡性并提升聚类效果。本发明与现有技术中两种常见的聚类方法进行性能相比，具有分类准确率高、平衡性效果优和计算复杂度低的优点。

Description

基于时空移动特征分布的移动群智感知用户联盟聚类方法

技术领域

本发明属于移动群智感知中用户聚类及任务分配技术领域，具体涉及一种基于时空移动特征分布的移动群智感知用户联盟聚类方法。

背景技术

近年来，随着用户手持移动智能设备的日益普及与通信网络技术的不断发展，移动群智感知(Mobile Crowdsensing,MCS)已成为跨空间和大规模数据传感的一个前沿研究问题，通过以参与用户作为中心，实现大量感知任务的执行。虽然移动群智感知的研究已得到了长足的发展，但考虑到用户感知能力的差异性，任务地理位置的多样性，如何确保任务的合理分配已成为一个亟待解决的问题。

任务分配是MCS感知任务中的关键问题，它是在用户与任务之间找到最佳匹配方法。通常，用户的时空分布将影响着任务分配的优劣。聚类使处于相同任务区域中的用户具有更高的相似性，提升了备选用户数据的可用性，增强任务分配的合理性。用户聚类是移动群智感知必不可少的技术之一

在现实中，现有的用户聚类方法普遍存才算法复杂度高于数据平衡性差的不足，因此，需要一种低复杂度且具有平衡性的用户聚类方法，以增强用户可用性，为任务分配高效性提供保障。

发明内容

本发明的目的在于提供在用户数据质量已知的条件下，可以有效地挖掘出重要用户数据，算法稳定，聚类速率快，保证聚类结果的平衡性并提升聚类效果的一种基于时空移动特征分布的移动群智感知用户联盟聚类方法。

本发明的目的通过如下技术方案来实现：包括以下步骤：

步骤1：计算用户移动行为特征与用户活跃度，确定K个联盟的初始聚类中心点c_j，j＝1,2,...,K；

所述的用户移动行为特征反映用户在给定时间间隔内，在不同空间位置上的移动时空行为分布特征，用户移动行为特征表示为：

其中，mbc(u_i,l_s)表示用户u_i在空间位置l_s上的用户移动行为特征；f_qua(u_i,l_s)表示用户u_i在空间位置l_s上的数据质量；f_qua(u_i,l)表示用户u_i在所有空间位置l上的数据质量；f_co(u_i,l_s)表示用户u_i在空间位置l_s上的感知成本；f_co(u_i,l)表示用户u_i在所有空间位置l上的感知成本；

所述的用户活跃度ma(u_i,l)为用户u_i在所有空间位置l上的数据质量与感知成本，用户活跃度ma(u_j,l)表示为：；

其中，n为用户的数量；

步骤2：基于用户上传数据，计算用户数据与联盟相似度，设置每个联盟中的用户上限τ，保障聚类数据的平衡性；

用户u_i与第j个联盟中心点c_j的相似度为：

其中，f_qua(c_j,l)表示第j个联盟中心点c_j在所有空间位置l上的数据质量；f_co(c_j,l)表示第j个联盟中心点c_j在所有空间位置l上的感知成本；

步骤3：根据用户联盟相似度与联盟中用户数量，基于用户联盟判定准则，实现用户联盟聚类；

步骤3.1：选择一个用户u_i，判断用户u_i是否能加入与用户u_i对应相似度

值最高的联盟k中；

步骤3.1.1：若联盟k中用户数量未达到上限τ，则将用户u_i加入到联盟k中，完成用户u_i的联盟聚类，执行步骤3.3；若联盟k中用户数量达到上限，则执行步骤3.1.2；

步骤3.1.2：提取联盟k中的边界用户u_e，判断

是否小于

若

则将用户u_i加入到联盟k中，剔除联盟k中的边界用户u_e，重新分配边界用户u_e的所属联盟，完成用户u_i的联盟聚类，执行步骤3.3；若

则执行步骤3.2；

步骤3.2：判断用户u_i是否能加入除联盟k以外的其他联盟中，按与用户u_i对应相似度

值从大到小依次判定，直至用户u_i加入到某联盟中，完成用户u_i的联盟聚类，执行步骤3.3；

步骤3.3：判断是否完成所有用户的联盟聚类，若未完成则返回步骤3.1。

本发明的有益效果在于：

本发明在用户数据质量已知的条件下，可有效地挖掘出重要用户数据，算法稳定，聚类速率快，保证聚类结果的平衡性并提升聚类效果。本发明与两种常见的聚类方法进行性能相比(即K-Means方法和Fuzzy C-means方法)，具有分类准确率高、平衡性效果优和计算复杂度低的优点。

附图说明

图1为本发明的总体流程图。

图2为本发明实施例在用户聚类中，不同用户规模下，三种方法的聚类准确率对比图。

图3为本发明实施例在用户聚类中，不同用户规模下，三种方法的标准信息熵对比图。

图4为本发明实施例在用户聚类中，不同用户规模下，三种方法的运行时间对比图。。

具体实施方式

下面结合附图对本发明做进一步描述。

本发明的目的是为了高效挖掘重要用户数据与保障聚类结果平衡。本发明在用户数据质量已知的条件下，可有效地挖掘出重要用户数据，算法稳定，聚类速率快，保证聚类结果的平衡性并提升聚类效果。

一种基于时空移动特征分布的移动群智感知用户联盟聚类方法，包括以下步骤：

其中，n为用户的数量；

用户u_i与第j个联盟中心点c_j的相似度为：

值最高的联盟k中；

步骤3.1.2：提取联盟k中的边界用户u_e，判断

是否小于

若

则执行步骤3.2；

本发明与两种常见的聚类方法进行性能相比(即K-Means方法和Fuzzy C-means方法)，具有分类准确率高、平衡性效果优和计算复杂度低的优点。

实施例1：

本实施例提供了一种基于时空移动特征分布的移动群智感知用户联盟聚类方法，所述方法的流程图如图1所述，包括以下步骤：

第一步、描述用户移动行为特征与用户活跃度，确定初始联盟聚类中心；

1)用户行为特征反映用户在给定时间间隔内，在不同空间位置上的移动时空行为分布特征，用户的行为特征表示为：

式中：mbc(u_j,l_i)表示用户u_j在空间位置l_i上的用户行为特征，f_qua(u_j,l_i)和f_qua(u_j,l)分别表示用户u_j在l_i上的数据质量以及在所有空间位置l上的数据质量，f_co(u_j,l_i)和f_co(u_j,l)分别表示用户u_j在l_i上的感知成本以及在所有空间位置l上的感知成本；

2)从本质上来看，用户行为特征属于相对值，用户活跃度属于绝对值。定义用户活跃度为用户u_j在不同空间位置上的数据质量与感知成本，用户活跃度表示为：

3)根据任务发布特点，计算参与用户活跃度，确定初始用户联盟中心；

第二步、基于用户上传数据，计算用户数据与联盟相似度，设置每个联盟中的用户上限，保障聚类数据的平衡性；

1)计算用户u_i与K个联盟中心点的相似度，相似度计算公式如下：

接着，将用户u_i与K个联盟中心点的相似度由大到小进行排序，表示为：

STC＝{sim_ui,j|j＝1,2,...,K} (4)

2)为了保障生成的用户聚类联盟的平衡性，应对每个用户联盟中的用户数量设定上限τ，定义如下：

||sim_ui,cj||≤τ (5)

其中，||sim_ui,cj||表示每个用户联盟中的用户数量；

第三步、结合第一步与第二步中得到的用户联盟相似度与当前联盟中用户数量，基于用户联盟判定准则，实现用户联盟聚类；

将用户u_i及与第j个联盟中心的相似度sim_ui,j存入CS_j＝{{u_i,sim_ui,j}...}，并根据以下用户联盟判定准则进行用户联盟聚类：

1)针对用户u_i，先尝试加入相似度最高的联盟中心c_j，若当前联盟中用户数量未达到上限，即||sim_ui,cj||＜τ，将u_i加入到联盟c_j中；

2)若当前联盟中用户数量达到上限，进一步判断联盟c_j。当前联盟c_j的边界用户的联盟相似度记为edgesim_ue,j，若

将u_i加入联盟c_j中，剔除边界用户u_e，重新分配边界用户的所属联盟；

3)若

则需使用相同策略考虑加入剩余最高相似度联盟c_j+1，直至成功添加进某个联盟；

通过用户移动行为特征、联盟相似度计算与分析，实现了用户聚类并保证了聚类结果平衡性，为群智感知任务分配提供用户保障。

图2、图3和图4分别展示了不同用户规模下，三种方法的聚类准确率对比、标准信息熵对比和运行时间对比。从图2可以看出，随着用户数量的增加，三种方法的聚类准确率均会出现一定程度的下降，这是因为大量用户数据中存在越来越多的低相似度数据，从而降低了聚类准确率。但本发明方法由于考虑各联盟用户数量上限，取得的准确率优于K-Means方法和Fuzzy C-means方法，这说明本发明方法具有聚类准确性高的优点。标准信息熵是用于衡量不同联盟间的平衡度，值越接近于1表示聚类结果平衡性越好，从图3可以看出，本发明方法的标准信息熵值基本保持在0.93以上，这说明了本发明方法具有平衡性强的优点。从图4可以看出，随着用户数量的增加，三种方法的运行时间都会相应的增加，但本发明方法的运行时间增长幅度低且均优于K-Means方法和Fuzzy C-means方法，这是因为所提发明方法是针对平衡约束的特点对K-Means方法进行改进，当联盟中用户数量达到上限时，新用户数据通过试探性地尝试与联盟边界用户交换位置，不仅保障了聚类结果与K-Means一样具有较好内聚性，还约束了不同联盟的平衡性，说明了本发明方法具有运行速度快的优点。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。