CN105404648A

CN105404648A - 一种基于密度与紧密度聚类的用户移动行为确定方法

Info

Publication number: CN105404648A
Application number: CN201510717733.1A
Authority: CN
Inventors: 于瑞云; 王兴伟; 李婕; 王靖; 薛晓迪; 马彧; 石佳
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2015-10-29
Filing date: 2015-10-29
Publication date: 2016-03-16

Abstract

一种基于密度与紧密度聚类的用户移动行为确定方法，属于数据业务领域。引入时间窗口，对用户的移动序列进行时间窗口的划分，将连续的移动序列划分为时间上离散的多个窗口序列；根据对移动轨迹的定义，从窗口序列中挖掘出用户的多条移动轨迹；根据对特征轨迹集的定义，对多条移动轨迹进行划分，将相似轨迹划分到同一特征轨迹集中，并去除噪声数据；根据对特征轨迹的定义，从特征轨迹集中分别选取对应的中心轨迹作为特征轨迹，进而最终确定用户的移动行为。该方法可以应用在实际的移动通信数据中，消除用户移动的随机性与异常点，所确定的用户的移动行为可作为基于位置服务的位置模块的输入，也可作为移动推荐系统的输入，从而带来个性化服务。

Description

一种基于密度与紧密度聚类的用户移动行为确定方法

技术领域

本发明属于数据业务领域，具体涉及一种基于密度与紧密度聚类的用户移动行为确定方法。

背景技术

随着移动便携设备的广泛普及、无线通信技术和全球定位技术的快速发展,使得人们已经能够获得大量的用户实时位置数据，移动网络中基于位置信息的服务也越来越受到国内外研究学者的关注，尤其在用户移动行为分析方面上。通常，用户移动数据包括GPS数据集与GSM(GlobalSystemforMobileCommunication,全球移动通信系统)数据集，其中GPS数据集记录了用户的经度，而GSM数据通过基站定位用户位置。对于用户移动行为分析，主要包括用户轨迹挖掘与轨迹聚类以及相关应用服务，其中轨迹挖掘从用户移动数据出发，挖掘用户的移动轨迹；轨迹聚类从用户轨迹数据出发，对轨迹数据进行聚类，从而发现用户的移动规律。

对于用户轨迹挖掘，ZhengY等人对轨迹数据挖掘研究进行了综述，给出了轨迹数据挖掘的整个过程，包括轨迹数据的预处理、轨迹数据挖掘、轨迹模式挖掘与轨迹分类；JeungH等人通过时间与空间来定义用户轨迹模式，通过对用户移动数据的分析，发现兴趣区域ROI(RegionsofInterest)，并基于多个ROI来定义用户的移动轨迹；TrasartiR等人通过对用户移动数据进行扫描，通过引入时间与空间阈值从而发现用户移动记录中的静止点，并定义用户的移动轨迹为两个静止点间的序列。

对于轨迹数据聚类，EsterM等人最早提出一种可用于空间数据聚类的算法DBSCAN(Density-BasedSpatialClusteringofApplicationswithNoise,具有噪声的基于密度的聚类方法)，将聚簇定义密度连通区域，从而挖掘出空间数据中的聚簇；胡宝清等人发明了一种基于移动对象时空信息轨迹分段聚类的方法，公开了一种基于移动对象时空信息轨迹分段聚类的方法,该基于移动对象时空信息轨迹分段聚类的方法包括：引入时间、速度和方向三个属性,并给出他们的相似度计算公式来分析移动对象轨迹内外部结构，提高了聚类效果。

然而现有的轨迹挖掘与轨迹聚类的技术研究通常各自独立，而实际上对于用户移动行为分析，需要结合轨迹挖掘与轨迹聚类，从而获取用户移动特征轨迹。尚存在的未解决的难点，主要有以下几点：

(1)关于轨迹挖掘，能够应用到真实移动通信用户数据的发明较少。因为现实通信环境中的数据是基于基站的位置数据，并不包含用户的GPS信息；此外移动用户的数据非常混乱，数据量巨大，包含用户随机移动的异常数据及因信号质量出现的基站乒乓切换现象的数据，对用户轨迹的提取造成巨大困难；

(2)关于用户轨迹聚类，现有的发明由于轨迹间的相似性的较难确定造成聚类效果一般，聚类结果的轨迹间相似度较低。由此得到的用户代表轨迹较少，进而会丢失用户移动轨迹信息，出现不符合现实用户的移动行为的问题。

发明内容

针对现有技术存在的不足，本发明结合轨迹挖掘与轨迹聚类，提供一种基于密度与紧密度聚类的用户移动行为确定方法。

本发明的技术方案：

一种基于密度与紧密度聚类的用户移动行为确定方法，包括如下步骤：

步骤1：获取某时间段内由用户经过的全部基站所构成的用户基站序列，即用户位置变换序列；

步骤2：基于时间和用户位置变换序列，进行移动用户行为轨迹挖掘；

步骤2.1：引入时间窗口并基于该时间窗口对用户位置变换序列进行划分，将连续的用户位置变换序列划分为时间上离散的多个子位置变换序列，即多个窗口序列；

所述时间窗口：将连续的时间划分为多个长度为win_size的时间片段，每个时间片段定义为一个时间窗口；

步骤2.2：计算用户在每个窗口中的移动状态；

给定空间范围阈值th_still，对于时间窗口w＝＜bt_k,bt_k+1,...,bt_l＞，则定义用户在窗口w内的移动状态state包括移动状态moving和静止状态still，如式(1)所示；

s t a t e = \{\begin{matrix} s t i l l, & \begin{matrix} i f & {&ForAll;}_{k \leq i, j \leq l}, D i s t ({bt}_{i}, {bt}_{j}) < {th}_{s t i l l} \end{matrix} \\ m o v i n g, & o t h e r w i s e \end{matrix} - - - (1)

其中bt代表用户的基站位置点；下标k,k+1,l,i,j分别代表基站位置点序号；Dist(bt_k,bt_j)表示基站位置点bt_i与基站位置点bt_j的空间距离；

步骤2.3：根据窗口的移动状态，挖掘出用户的多条行为轨迹；

若用户在某两个相邻窗口中的移动状态均为静止状态，则定义这两个相邻窗口之间的用户位置变换序列构成一条行为轨迹；依次遍历某时间段内各个窗口的移动状态，根据对移动轨迹的定义，挖掘出用户该时间段内的多条行为轨迹，并将所述多条行为轨迹的集合命名为Trajectory_list；

步骤3：对步骤2挖掘出的用户多条行为轨迹进行聚类分析，从而构建用户移动行为；

步骤3.1：利用改进的DBSCAN算法对步骤2挖掘出的用户多条行为轨迹进行聚类，找到用户的轨迹聚簇；

步骤3.1.1：设置初始轨迹聚簇个数为0，并且标记每条用户行为轨迹的状态为未被聚类，即标记为unclassified；

步骤3.1.2：根据信息熵设置Eps的值，并设置聚簇最小轨迹数MinTs；所述MinTs为所有轨迹Eps邻域内轨迹个数的平均值；所述Eps的值设置为0.45；

步骤3.1.3：找到任意一条用户行为轨迹，根据轨迹间的距离函数计算该轨迹的Eps邻域内的轨迹条数；

轨迹T_i∈Trajectory_list的Eps邻域定义为N_Eps(T_i)，即N_Eps(T_i)＝{T_j∈Trajectory_list|δ(T_i,T_j)≤Eps}，其中T_i和T_j分别为第i条用户行为轨迹和第j条用户行为轨迹，δ()为轨迹间距离函数；

δ (T_{i}, T_{j}) = 1 - \frac{L C S (T_{i}, T_{j})}{m a x (| T_{i} |, | T_{j} |)} - - - (2)

其中LCS()为公共子字符串计算函数；

步骤3.1.4：根据核心轨迹的定义，判断该轨迹是否为核心轨迹，否，则把该轨迹归为噪声轨迹，即其不属于任何聚簇，并转至步骤3.1.3；是，则创建一个含有该核心轨迹的聚簇，并更新聚簇个数；

所述核心轨迹指的是对于任一用户行为轨迹T_i当且仅当满足如下条件：|N_Eps(T_i)|≥MinTs时，该轨迹称为核心轨迹；

步骤3.1.5：扩展该轨迹所在的聚簇；

a)把Eps邻域内不属于其他聚簇的轨迹加入到该轨迹所在的聚簇中，并且更新该轨迹的状态为classified；

b)检查该新加入轨迹的Eps邻域，如果该新加入轨迹也是个核心轨迹，那么重复步骤a)，直到没有轨迹再能够加入到这个聚簇中为止，即直到本聚簇无法扩展为止；

步骤3.1.6：从剩下的unclassified轨迹中随机选择任一轨迹，按照步骤3.1.3至3.1.5的方法，重复执行，直到所有的轨迹状态都为classified，即直至找到用户的所有轨迹聚簇，得到聚簇集合C；

步骤3.2：为了满足特征轨迹的集的约束，对步骤3.1获得的聚簇进行再划分得到特征轨迹集及特征轨迹，进而得到用户移动行为；

步骤3.2.1：对于聚簇集合C中的任意轨迹聚簇，给定一个紧密度阈值th_spatial，如果该轨迹聚簇的紧密度大于th_spatial，则需要按照聚簇划分方法将其划分为两个更加紧密的子聚簇并将子聚簇加入到聚簇集合C中得到聚簇集合C'，直至C'中的所有聚簇紧密度均小于th_spatial为止；

所述紧密度阈值th_spatial设置为0.45；

所述聚簇划分方法为：A)从某个轨迹聚簇中随机选择两条轨迹作为该轨迹聚簇的两个中心，基于这两个聚簇中心将该轨迹聚簇划分为两个子聚簇；B)根据轨迹间距离函数，计算该聚簇内剩余的其他轨迹分别与这两个聚簇中心的距离，将这些轨迹分别划分到距离其各自更近的聚簇中心所在的子聚簇中；C)在两个子聚簇中，分别选择到其他轨迹的距离和最小的轨迹分别作为该两个子聚簇的新的聚簇中心；D)按照B)的方法，分别计算两个子聚簇中聚簇中心以外的轨迹分别与两个新的聚簇中心的距离，将这些轨迹分别重新划分到距离其各自更近的两个新的聚簇中心所在的两个子聚簇中；E)重复C)和D),直至两个子聚簇的中心不再改变为止；

所述聚簇的紧密度的计算方法为：假设给定轨迹聚簇c＝{T₁,T₂,...,T_k,...,T_n}，其中T_k为聚簇中心，n为轨迹聚簇c中的轨迹总数，T代表轨迹聚簇c中的轨迹，下标j、k为轨迹的顺序号，则聚簇紧密度为：

c l o s e n e s s (c) = \frac{Σ_{j = 1, j &NotEqual; k}^{n} δ (T_{j}, T_{k})}{n - 1} - - - (3)

步骤3.2.2：针对C'中的任意聚簇，给定一个支持度阈值th_support，如果该聚簇内轨迹数小于阈值th_support，则删除该聚簇；如果该聚簇内轨迹数大于阈值th_support，则该轨迹聚簇为用户的一个特征轨迹集；

步骤3.2.3：从特征轨迹集中选取特征轨迹，所述特征轨迹即是作为特征轨迹集的轨迹聚簇中的聚簇中心；

步骤3.2.4：全部特征轨迹构成用户的移动行为；

本发明的有益效果：本发明的方法可以应用在实际的移动通信数据中，根据用户位置更新产生的数据，挖掘用户日常的移动行为，消除用户移动的随机性与异常点。用户的移动行为可作为基于位置服务LBS(LocationBasedService)的位置模块的输入，也可作为移动推荐系统的输入，从而带来个性化服务；其次，通过用户移动行为的分析结果也可知道城市交通监测与规划，推动智能城市建设。

附图说明

图1为本发明具体实施方式的基于密度与紧密度聚类的用户移动行为确定方法流程图；

图2为本发明具体实施方式的基于时间窗口和用户位置变换序列的移动用户行为轨迹挖掘流程图；

图3为本发明具体实施方式中根据用户在窗口的移动状态进行用户行为轨迹挖掘的举例示意图；

图4为本发明具体实施方式的对用户多条行为轨迹进行聚类找到轨迹聚簇过程的流程图；

图5(a)为本发明具体实施方式中基于时间窗口对用户位置变换序列进行划分的示意图；

图5(b)为从图5(a)的窗口序列中挖掘出的用户移动轨迹的示意图；

图5(c)为从图5(b)的多条用户移动轨迹中获取的特征轨迹集的示意图；

图5(d)为从图5(c)中选取的特征轨迹及构成的用户移动行为示意图；

图6为本发明具体实施方式中基于密度与紧密度聚类的用户移动行为确定方法实验所使用的Hadoop集群拓扑图；

图7为本发明具体实施方式中基于密度与紧密度聚类的用户移动行为确定方法实验Eps参数信息熵增益变化趋势折线图；

图8为本发明具体实施方式中基于密度与紧密度聚类的用户移动行为确定方法实验紧密度阈值th_spatial设置SSE变化趋势折线图；

图9为本发明具体实施方式中基于密度与紧密度聚类的用户移动行为确定方法实验在RealityMining数据集轨迹结果分布情况折线图；

图10为本发明具体实施方式中基于密度与紧密度聚类的用户移动行为确定方法实验在移动数据集轨迹结果分布情况折线图。

具体实施方式

下面结合附图对本发明的一种实施方式作详细说明。

移动用户的位置移动虽然具有随机性，但是从一段时间出发来考虑，移动用户的移动行为表现出规律性，遵循一个简单而重复的模式。本发明主要从移动用户的移动行为出发，提出一种基于密度与紧密度的用户移动行为确定方法：首先，基于时间进行轨迹挖掘；其次，基于密度与紧密度的聚类方法对挖掘出的轨迹数据进行聚类分析，从而构建用户移动行为。本实施方式的基于密度与紧密度聚类的用户移动行为确定方法，如图1所示，包括如下步骤：

步骤1：获取由用户某时间段内经过的全部基站所构成的用户基站序列，即用户位置变换序列；

步骤2：基于时间和用户位置变换序列，进行移动用户行为轨迹挖掘，流程如图2所示；

步骤2.1：引入时间窗口并基于该时间窗口对用户位置变换序列进行划分，将连续的用户位置变换序列划分为时间上离散的多个子位置变换序列，即多个窗口；

例如，以一天时间为一个观察周期，对于移动用户而言，用户在一天内有自己的日常行程，且一天内位置变换记录相对较为完整。给定时间窗口长度win_size，可将一天的时间长度划分为24/win_size个时间窗口(win_size单位取小时)。然而对于移动用户而言，仅从一天出发构建移动用户的移动行为不能过滤掉随机的移动行为，由于用户的轨迹数据的复杂性，其中包含了许多噪声数据，包括由软硬件设备导致的故障以及用户移动的随机性带来的噪声，因此需要从一段较长时间(一般大于一个星期)的移动记录来分析用户的移动行为，过滤掉较少出现的轨迹(随意移动带来)，而将经常出现的轨迹定义用户的移动行为。

步骤2.2：计算用户在每个窗口中的移动状态；

s t a t e = \{\begin{matrix} s t i l l, & \begin{matrix} i f & {&ForAll;}_{k \leq i, j \leq l}, D i s t ({bt}_{i}, {bt}_{j}) < {th}_{s t i l l} \end{matrix} \\ m o v i n g, & o t h e r w i s e \end{matrix} - - - (1)

对于任一时间窗口，用户在该窗口下的移动状态为移动或静止，当用户在窗口下位置发生了较大移动即超出空间范围阈值th_still，则用户当前状态为移动，否则用户当前状态为静止。在移动网络下，基于基站ID来标示用户位置信息，对于窗口w_i，其记录的位置变换序列实际上是用户经过的基站序列w_i＝{bt_i1,bt_i2,...}，其中bt_ij表示用户在时间窗口w_i内经过的第j个基站的ID。

步骤2.3：根据用户在窗口的移动状态，挖掘出用户的多条行为轨迹；

例如在图3中，窗口w₃与w₆是两个连续的静止窗口，w_m′-2与w_m'也是两个连续的静止窗口，根据定义，窗口w₃到w₆、w_m′-2到w_m'之间的位置变换序列称为用户的移动轨迹。

对于用户移动行为分析，最直接的出发点在于将用户经常出现的轨迹作为移动行为，而将偶尔出现的轨迹作为噪声数据进行处理。

步骤3.1：利用改进的DBSCAN算法对步骤2挖掘出的用户多条行为轨迹进行聚类，找到用户的轨迹聚簇，具体流程如图4所示；

DBSCAN(Density-BasedSpatialClusteringofApplicationswithNoise)算法是一种基于密度的聚类算法，将聚簇定义为密度连接的点的最大集合，可以发现密度较高的区域并过滤掉密度低的噪声数据，因此引入DBSCAN密度聚类算法，对用户轨迹数据进行分析。

步骤3.1.2：根据信息熵设置Eps的值，并设置聚簇最小轨迹数MinTs；所述MinTs为所有Eps轨迹邻域内轨迹个数的平均值；

轨迹T_i∈Trajectory_list的Eps邻域定义为N_Eps(T_i)，即N_Eps(T_i)＝{T_j∈Trajectory_list|δ(T_i,T_j)≤Eps}，其中T_i和T_j分别为第i条用户行为轨迹和第j条用户行为轨迹，δ()为轨迹间距离函数，则T_i和T_j之间的距离为：

δ (T_{i}, T_{j}) = 1 - \frac{L C S (T_{i}, T_{j})}{m a x (| T_{i} |, | T_{j} |)} - - - (2)

其中LCS()为公共子字符串计算函数；

考虑轨迹的密度来反应其经常出现的程度。轨迹的密度通过其周围的轨迹数来衡量，因此本实施方式给出了一个距离函数来表示轨迹间的距离。本实施方式采用的轨迹距离函数δ基于最长公共子字符串，将基于基站变换的用户轨迹看成是由基站ID构成的字符串，因此通过公共子字符串的长度来衡量轨迹间的相似性。由公式(2)可知，轨迹间距离范围在[0,1]之间，其中LCS是最长公共子序列的缩写。

步骤3.1.5：扩展该轨迹所在的聚簇；

步骤3.2：为了满足特征轨迹的集的约束，对步骤2获得的聚簇进行再划分得到特征轨迹集及特征轨迹，进而得到用户移动行为；

假设给定轨迹聚簇c_i＝{T₁,T₂,...,T_n}，其中T_k为聚簇中心，j、k为轨迹的下标，则聚簇紧密度的定义，如公式(3)所示：

c l o s e n e s s (c_{i}) = \frac{Σ_{j = 1, j &NotEqual; k}^{n} δ (T_{j}, T_{k})}{n - 1} - - - (3)

公式(3)以轨迹聚簇的中心到其余轨迹距离的平均值作为聚簇内轨迹元素间相似性的评价。

步骤3.2.2：针对C'中的任意聚簇，给定一个支持度阈值th_support，如果该聚簇内轨迹数小于阈值th_support，则删除该聚簇；如果该聚簇内轨迹数大于阈值th_support，则该轨迹聚簇为用户的一个特征轨迹集S；

特征轨迹定义：给定一个特征轨迹集S，轨迹集合S的中心轨迹元素T′定义为特征轨迹，即满足公式(4)：

T^{'} = \underset{T &Element; S}{argmin} Σ δ (T, T^{'}) - - - (4)

步骤3.2.4：全部特征轨迹构成用户的移动行为；

图5示出了本实施方式的基于密度与紧密度聚类的用户移动行为确定方法中由用户位置变换序列到窗口序列到特征轨迹集到特征轨迹到用户移动行为的整个过程，如图5(a)所示，本实施方式首先引入时间窗口，对用户的移动序列进行时间窗口的划分，将连续的移动序列划分为时间上离散的多个窗口序列；然后，如图5(b)所示，根据对移动轨迹的定义，从窗口序列中挖掘出用户的多条移动轨迹；再然后，如图5(c)所示，根据对特征轨迹集的定义，对多条移动轨迹进行划分，将相似轨迹划分到同一特征轨迹集中，并去除噪声数据(支持度小的轨迹集)。从图中可以看出，图5(b)中的多条轨迹划分为了3个特征轨迹集S₁、S₂与S₃，并去除了两条噪声轨迹；最后，如图5(d)所示，根据对特征轨迹的定义，从图5(c)中3个特征轨迹集S₁、S₂与S₃中分别选取对应的3个中心轨迹T₁、T₂与T₃作为特征轨迹，并作为最终用户的移动行为。

本实施方式对本发明的基于密度与紧密度聚类的用户移动行为确定方法进行实验的实验平台采用的是Hadoop分布式平台，其中所采用的Hadoop版本为CDH(Cloudera'sDistributionIncludingApacheHadoop)，CDH发行版本号为4.2.1(基于ApacheHadoop2.0)。为了提高Hadoop处理数据的能力，实验中利用4台PC机搭建了一个分布式Hadoop集群：选择其中一台PC机作为Hadoop集群的主节点(MasterNode)，运行NameNode、ResourceManager与SecondaryNameNode守护进程，负责资源调度与任务分配；其余三台PC机作为从节点(SlaveNode)，运行DataNoder守护进程，负责数据存储与任务执行，集群拓扑情况如图6所示，4台PC机通过以太网交换机连接到同一个局域网内，各个PC机间通过配置SSH(SecureShell)协议可以相互访问。实验所用4台PC机的配置均为：Intel(R)Core(TM)i3-4150CPU3.50GHz，4G内存，操作系统为CentOS6.6。并采用Java语言开发本实施方式的基于密度与紧密度的用户移动行为确定方法，实验开发环境为MyEclipse-10.0+Hadoop-eclipse-plugin。

本实施方式所采用的用户移动相关数据集有MITRealityMining(麻省理工学院现实挖掘)数据集、真实移动数据集。MITRealityMining是一个真实的与用户行为有关的数据集，该数据集由Nathan等人在2004年收集得到的。该数据集通过移动手机记录了106个MIT的学生与教职工在一个学年内(2004年9月份到2005年6月份)的日常活动，包括通话、手机应用使用以及位置移动等，我们从中抽取了用户位置变换相关的数据，包含了3308710条记录，其中用户的位置是基于基站定位的；实验所采用的真实数据集来源于中国移动辽宁分公司记录的移动用户数据，其中数据采用Snappy进行压缩。从中提取出了三月份沈阳市和平区用户的位置变换记录，位置更新数据集大小为20G。

在进行实验前，需要考虑本发明方法所需参数的设置问题，重要参数包括(1)Eps参数设置；(2)紧密度阈值th_spatial；

对于邻域参数Eps的设置，本发明主要基于信息熵的启发式方法，对于Eps参数，如果设置过大，则样本集中所有轨迹数据都属于同一个密度聚簇，若Eps参数设置过小，则样本集中每条轨迹都自成一个聚簇，这两种情况下，样本数据的信息熵都比较大。而一个设置合适的Eps值应该能够将样本集划分为大小不一的多个聚簇，此时样本集对应的信息熵比较小，因此本实施方式选用信息熵作为Eps参数设置好坏的评价标准。给定n条轨迹构成的样本集Trajectory＝{T₁,T₂,...,T_n}，信息熵计算公式如公式(4)与(5)所示，其中0＜i＜n，H(X)表示数据集X的信息熵。

H (X) = - Σ_{i}^{n} P (T_{i}) \log_{2} P (T_{i}) = Σ_{i}^{n} P (T_{i}) \log_{2} \frac{1}{P (T_{i})} - - - (4)

P (T_{i}) = \frac{| N_{E p s} (T_{i}) |}{Σ_{j = 1}^{n} | N_{E p s} (T_{j}) |} - - - (5)

在实验中，确定Eps参数的值后，对于轨迹聚簇的获取，最简单的办法就是要求聚簇中所有轨迹的密度较高(至少大于一个最小的数值MinTs)，然而一个聚簇中有两种密度不同的轨迹，处于聚簇内部的轨迹与处于聚簇边界的轨迹，聚簇内部轨迹密度大，而处边界的轨迹密度较小。并且不同的轨迹聚簇，其密度分布情况也不一样，因此需要找到MinTs的最优值。在本发明中MinTs值设置为所有轨迹邻域内轨迹的个数的平均值，即MinTs参数设置如公式(6)所示，其中0＜i＜n:

M i n T s = \frac{1}{n} Σ_{i}^{n} | N_{E p s} (T_{i}) | - - - (6)

为了设置合适的Eps参数，实验中从MITRealityMining数据集中随机抽了3个用户的移动记录，计算Eps参数从0.1变化到0.9对应的样本数据的信息熵，如图7所示。根据图7可知，当Eps设置为0.4到0.5之间时对应的信息熵比较小。在实验中，Eps参数具体设置为0.45。

对于紧密度阈值th_spatial的设置，考虑到：当th_spatial设置较小时，为了满足该紧密度，需要将聚簇划分为更小的子聚簇，直到聚簇中只有一条轨迹为止，因此产生许多只有一条轨迹的聚簇；当th_spatial设置较大时，又会导致产生许多较大聚簇。基于如上分析，本发明提出一个评价紧密度设置好坏的标准如公式(7)所示：

S S E = Σ_{i = 1}^{n} \underset{T_{j}, T_{k} &Element; C_{i}}{Σ} δ (T_{j}, T_{k}) + \underset{T_{j}, T_{k} &Element; n o i s e}{Σ} δ (T_{j}, T_{k}) - - - (7)

其中noise为所有只有一个轨迹的聚簇构成的集合，C_i为聚簇个数大于1的聚簇。为了设置合适的阈值，在实验中计算th_spatial从0.1变化到0.95对应的SSE(SumofSquaredError，误差平方和)，如图8所示。从图中可以看出th_spatial设置为0.4到0.5之间比较合适，在实验中th_spatial的值取0.45。

为了验证本实施方式的基于密度与紧密度的用户移动行为确定方法，本发明选择DBSCAN-MPC(DBSCANforMobilityprofileconstruction，基于DBSCAN的移动行为构建方法)(参见文献：Trasarti,R.,Pinelli,F.,Nanni,M.,.etal.Miningmobilityuserprofilesforcarpooling[C].//InProceedingsofthe17thACMSIGKDDinternationalconferenceonKnowledgediscoveryanddatamining,2011,pp.1190-1198)进行实验比较，该基准算法应用密度算法DBSCAN聚类用户的移动轨迹，发现并挖掘用户的移动行为模式。

由于MITRealityMining数据集与真实移动数据中用户位置记录是基于基站的，因此不能给出一个可视化的结果，为了对算法进行评价，本实施方式给出了两个算法挖掘出的用户特征轨迹数与对应用户数分布情况，如图9与图10(图9与图10中记载的DCCMB代表本发明方法)所示，其中横轴表示特征轨迹数，而纵轴表示该轨迹数对应的人数。

从图9与图10中可以看出，基于DBSCAN-MPC的移动行为构建方法挖掘出的用户轨迹数分布在1-5条之间，而没有6条轨迹以上的用户；本发明方法在RealityMining数据集上挖掘出的轨迹数分布在1-22条之间，在真实移动数据集上挖掘出的用户轨迹数分布在1-19条之间。从用户轨迹数分布情况来看，本发明方法挖掘出的用户轨迹数更符合现实情况：大部分用户只需要1-6条特征轨迹，而存在少部分用户需要10条以上的特征轨迹。在图中，横轴与纵轴都取的是对数坐标，从图中曲线变化趋势可以看出，本发明方法挖掘出的用户轨迹数与对应户数的分布基本符合幂律分布(取完对数呈现直线趋势)。对于该分布现象，可以解释为在现实生活中用户的特征轨迹数分布也符合2-8法则，其中80％的用户只需要20％的轨迹数即可满足需求，但同时也存在20％的用户其需要移动轨迹数较多，占了整个轨迹数的80％。

Claims

1.一种基于密度与紧密度聚类的用户移动行为确定方法，其特征在于：包括如下步骤：

步骤1：获取某时间段内用户经过的全部基站所构成的用户基站序列，即用户位置变换序列；

步骤2.1：引入时间窗口并基于时间窗口对用户位置变换序列进行划分，将连续的用户位置变换序列划分为时间上离散的多个子位置变换序列，即多个窗口序列；

步骤2.2：计算用户在每个窗口中的移动状态；

s t a t e = \{\begin{matrix} s t i l l, i f {&ForAll;}_{k \leq i, j \leq l, i &NotEqual; j}, D i s t ({bt}_{i}, {bt}_{j}) < {th}_{s t i l l} \\ m o v i n g, o t h e r w i s e \end{matrix} - - - (1)

其中bt代表用户的基站位置点；下标k,k+1,l,i,j分别代表基站位置点顺序号；Dist(bt_k,bt_j)表示基站位置点bt_i与基站位置点bt_j的空间距离；

步骤2.3：依次遍历用户在各窗口的移动状态，挖掘出用户的多条行为轨迹；

若用户在某两个相邻窗口中的移动状态均为静止状态，则定义这两个相邻窗口之间的用户位置变换序列构成一条行为轨迹；依次遍历某时间段内用户在各个窗口的移动状态，根据对移动轨迹的定义，挖掘出用户该时间段内的多条行为轨迹，并将所述多条行为轨迹的集合命名为Trajectory_list；

步骤3.1.2：根据信息熵设置Eps的值，并设置聚簇最小轨迹数MinTs；所述MinTs为所有轨迹Eps邻域内轨迹个数的平均值；

δ (T_{i}, T_{j}) = 1 - \frac{L C S (T_{i}, T_{j})}{m a x (| T_{i} |, | T_{j} |)} - - - (2)

其中LCS()为公共子字符串计算函数；

步骤3.1.5：扩展该轨迹所在的聚簇；

a)把其Eps邻域内不属于其他聚簇的轨迹加入到该轨迹所在的聚簇中，并且更新该轨迹的状态为classified；

b)检查该新加入轨迹的Eps邻域，如果该新加入轨迹也是个核心轨迹，那么按照步骤a)的方法重复执行，直到没有轨迹再能够加入到这个聚簇中为止，即直到本聚簇无法扩展为止；

步骤3.1.6：从剩下的unclassified轨迹中随机选择一条轨迹，按照步骤3.1.3至3.1.5的方法，重复执行，直到所有的轨迹状态都为classified，即直至找到用户的所有轨迹聚簇，得到聚簇集合C；

步骤3.2：对步骤3.1获得的聚簇进行再划分得到特征轨迹集及特征轨迹，进而确定用户移动行为；

步骤3.2.1：对于聚簇集合C中的任意轨迹聚簇，给定一个紧密度阈值th_spatial，如果该轨迹聚簇的紧密度大于th_spatial，则需要按照聚簇划分方法将其划分为两个更加紧密的子聚簇并将子聚簇加入到聚簇集合C中得到聚簇集合C'，直至C'中所有聚簇的紧密度均小于th_spatial为止；

所述聚簇划分方法为：A)从某个轨迹聚簇中随机选择两条轨迹作为该轨迹聚簇的两个中心，基于这两个聚簇中心将该轨迹聚簇划分为两个子聚簇；B)根据轨迹间距离函数，计算该聚簇内剩余的其他轨迹分别与这两个聚簇中心的距离，将这些轨迹分别划分到距离其各自更近的聚簇中心所在的子聚簇中；C)在两个子聚簇中，分别选择到其他轨迹的距离和最小的轨迹分别作为该两个子聚簇的新的聚簇中心；D)按照B)的方法，分别计算两个子聚簇中聚簇中心以外的轨迹分别与两个新的聚簇中心的距离，将这些轨迹重新划分到距离其各自更近的两个新的聚簇中心所在的两个子聚簇中；E)按照C)至D)的方法重复执行,直至两个子聚簇的中心不再改变为止；

步骤3.2.3：从特征轨迹集中选取特征轨迹，所述特征轨迹即是作为特征轨迹集的轨迹聚簇的聚簇中心；

步骤3.2.4：全部特征轨迹构成用户的移动行为。

2.根据权利要求1所述的基于密度与紧密度聚类的用户移动行为确定方法，其特征在于：所述步骤2.1中所述的时间窗口为：将连续的时间划分为多个长度为win_size的时间片段，每个时间片段定义为一个时间窗口。

3.根据权利要求1所述的基于密度与紧密度聚类的用户移动行为确定方法，其特征在于：所述步骤3.1.2中所述Eps的值设置为0.45。

4.根据权利要求1所述的基于密度与紧密度聚类的用户移动行为确定方法，其特征在于：所述步骤3.2.1中所述紧密度阈值th_spatial设置为0.45。

5.根据权利要求1所述的基于密度与紧密度聚类的用户移动行为确定方法，其特征在于：所述步骤3.2.1中所述聚簇的紧密度的计算方法为：假设给定轨迹聚簇c＝{T₁,T₂,...,T_k,...,T_n}，其中T_k为聚簇中心，n为轨迹聚簇c中的轨迹总数，T代表轨迹聚簇c中的轨迹，下标j、k为轨迹的顺序号，则聚簇紧密度为：

c l o s e n e s s (c) = \frac{Σ_{j = 1, j &NotEqual; k}^{n} δ (T_{j}, T_{k})}{n - 1} - - - (3) .