CN112100652A

CN112100652A - 一种基于马尔科夫链的跨地理分布轨迹聚类方法

Info

Publication number: CN112100652A
Application number: CN202010843598.6A
Authority: CN
Inventors: 陈爱国; 罗光春; 赵太银; 田玲; 陈远帆; 王国安
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-08-20
Filing date: 2020-08-20
Publication date: 2020-12-18

Abstract

本发明提供一种基于马尔科夫链的跨地理分布轨迹聚类方法，包括步骤：S1属地轨迹预处理步骤；S2属地轨迹生成模型估计：属地节点将预处理后的轨迹子簇集合中所有轨迹经过的网格空间点转换至马尔科夫链模型中的状态空间，形成状态集合；利用轨迹子簇的中的状态集合训练该轨迹子簇对应的马尔科夫链模型，得到马尔科夫链模型对应的转移矩阵；属地节点将本地的转移矩阵和状态集合发送至中心节点；S3：综合求解步骤：中心节点利用各个属地节点传递的转移矩阵和状态集合实现全局轨迹的聚类操作得到簇心集合并发送至各属地节点。本发明提高了聚类准确度，同时在数据隐私保护和网络带宽压方面也有很好的表现。

Description

一种基于马尔科夫链的跨地理分布轨迹聚类方法

技术领域

本发明涉及分布式数据挖掘技术，特别涉及有数据隐私保护和网络带宽压缩要求的分布式轨迹聚类技术。

背景技术

随着大数据时代的来临，数据规模增长迅猛，如何从大规模数据中挖掘出有价值的信息成为众多企业和机构需要思考的问题。

聚类算法作为一种数据挖掘技术已被专业人员广泛地应用，聚类算法能够将大量无标签的数据划分成若干个簇，簇中的元素共同包含着某种隐性的特征。在移动互联网时代，用户轨迹数据快速积累，通过对时空轨迹数据的聚类分析，我们可以发现用户的行为模式，或筛选出异常的轨迹数据等等；聚类算法输入的数据是无标签的，在机器学习中属于无监督学习中的一种。

目前针对分布式聚类算法的研究已经取得了一些成果，一部分研究方法是以数据聚合为前提的，这类方法首先需要将分布式中的数据集合在一起，然后以特定的方式将数据集划分给各个属地节点以提高聚类准确度和计算高效性，这类方法在聚类准确度上和数据集中式聚类相当，但是由于需要原始数据在网络中传输，这使得该算法在很多需要考虑数据隐私性的场景下变得不适用；鉴于数据隐私层面的考虑，一部分研究基于安全多方计算提出了自定义用于分布式计算加密协议，这类方法虽然在数据隐私层面和聚类准确度上表现良好，但却消耗了大量的带宽资源，特别是对于在数据量爆炸式增长的今天。

另一部分研究主流思路是基于局部聚类和全局聚类相结合的方式，其主要思想为：在分布式框架中有两种角色，若干个属地节点和一个中心节点，属地节点基于本地的数据先进行局部聚类，然后依据局部聚类结果和一些额外的统计信息组成特定的数据结构，各个属地节点将由局部聚类结果和统计信息组成的数据结构通过网络传输给中心节点，中心节点利用局部聚类结果进行全局聚类，然后将全局聚类结果传输给各个属地节点。这类方法由于其在计算准确度、带宽和隐私性层面三方面的平衡，受到了很多学者的青睐，但这类算法的计算准确度不太稳定，造成这种不稳定的原因是这类方法在网络中传输的数据结构与数据的真实分布不是一一映射的关系，一个属地节点利用局部聚类结果和统计信息组成的数据结构可能对应多种数据分布，而这种映射到数据分布的多样性将给后续的全局聚类造成影响，数据结构到数据分布的多样性如图1所示。

图1中叉表示局部聚类得到的簇心，A对应的是真实数据分布，而A1、A2和A3对应的数据分布与A对应的数据分布有着同样的数据结构，即一个包括相同簇心和统计信息的数据结构会对应着多种数据分布，而不同的数据分布可能使得全局聚类的结果迥然不同，出现因数据分布多样性导致的聚类准确度不稳定的问题。

发明内容

本发明所要解决的技术问题是，提供一种能避免了因数据分布多样性导致的聚类准确度不稳定的跨地理分布轨迹聚类方法。

本发明为解决上述技术问题所采用的技术方案是，一种基于马尔科夫链的跨地理分布轨迹聚类方法，包括步骤：

S1属地轨迹预处理步骤：属地节点对属地轨迹数据进行预处理操作，将属地轨迹数据集划分成若干个轨迹子簇，并对每一个轨迹子簇进行网格化操作，使得轨迹子簇中所有轨迹坐标均通过网格空间中网格空间点表示；最后将网格化处理后的轨迹子簇进行网格坐标填充；

S2属地轨迹生成模型估计：属地节点利用预处理后的轨迹子簇集合模拟轨迹数据生成模型，具体步骤如下：

S21：将预处理后的轨迹子簇集合中所有轨迹经过的网格空间点转换至马尔科夫链模型中的状态空间，形成状态集合；网格空间中轨迹的交叉点和截止点之外的轨迹点均一一对应马尔科夫链模型中的一个状态，网格空间中轨迹的交叉点和截止点对应马尔科夫链模型中的2个以上状态；

S22：利用轨迹子簇的中的状态集合训练该轨迹子簇对应的马尔科夫链模型，得到马尔科夫链模型对应的转移矩阵；

S23：属地节点将本地的转移矩阵和状态集合发送至中心节点；

S3：综合求解步骤：中心节点利用各个属地节点传递的转移矩阵和状态集合实现全局轨迹的聚类操作得到簇心集合并发送至各属地节点。

具体的，中心节点得到簇心集合的具体步骤如下：

S31：中心节点利用各属地节点传递的转移矩阵和状态集合生成全局轨迹数据集；

S32：使用LCS_Dist算法计算全局轨迹数据集中轨迹间的距离度量，再基于轨迹间的距离度量使用kmedios聚类算法对全局轨迹数据集进行聚类操作得到簇心集合。

其中，本发明提出的LCS_Dist算法是针对不定长轨迹间的距离度量而提出的一种基于最长公共子序列的距离度量方式。

具体的，网格空间的网格空间点到状态空间的映射规则如下：

(1)针对单条轨迹，若轨迹中的坐标点既不是轨迹交叉点，也不是轨迹截止点，则将该网格空间点与状态空间中的状态是一一映射。

(2)针对单条轨迹，若轨迹中的坐标点(x,y)是轨迹交叉点或轨迹截止点，则将该网格空间点映射成状态空间中的M个状态：

M＝m_cross+m_end

其中m_cross表示网格空间点下一个可能转移到的网格空间点数量，取值范围2-4，m_end表示该网格空间点是否为轨迹截止点，如果是截止点其值取1，否则其值取0。

本发明的有益效果是，提高了聚类准确度，同时在数据隐私保护和网络带宽压方面也有很好的表现。

附图说明：

图1为数据结构到数据分布的多样性示意图；

图2为本方法的总体框架图；

图3为聚类算法k值选择示意图；

图4为轨迹坐标填充示意图；

图5为常用马尔科夫链模型生成轨道序列时错误示意图。

具体实施方式

算法主要分为四个部分：属地轨迹预处理、属地轨迹生成模型估计、综合求解和属地模型应用，如图2所示。

S1：属地轨迹预处理。属地节点对属地轨迹数据进行预处理操作，具体流程包含以下几个步骤：

S11：属地轨迹数据集作为输入，基于轨迹间的距离度量使用kmeans++聚类算法，将属地轨迹数据集划分成若干个子簇，子簇集合记为C；

其中，轨迹间的距离度量的计算方式为：

设属地节点的轨迹数据集为D，轨迹数据集包含有n条轨迹，每条轨迹由m个坐标点构成，坐标点的维度为2，即：

D＝{t₁，t₂，...，t_n}

t＝{(x₁，y₁)，(x₂，y₂)，...，(x_m，y_m)}

若现有轨迹A和轨迹B，且轨迹A与轨迹B长度相等，则这两条轨迹空间距离Dist(A，B)定义为：

其中，Dist为两条等长度轨迹空间距离计算函数，aⁱ _x、aⁱ _y分别表示轨迹A第i个点在x、y维度上的数值，bⁱ _x、bⁱ _y分别表示轨迹B第i个点在x、y维度上的数值。

S12：对于每一个轨迹子簇进行网格化操作，使得轨迹子簇中所有轨迹坐标均通过网格空间中网格空间点表示；

S13：将网格化处理后的轨迹子簇进行网格坐标填充，使得轨迹子簇中的每条轨迹在网格空间中是连续的；

s2：属地轨迹生成模型估计。属地节点利用预处理后的轨迹子簇集合模拟轨迹数据生成模型，具体流程如下所示：

S21：将预处理后的轨迹子簇集合中包含的所有轨迹点(子簇中所有轨迹经过的网格空间中对应的网格空间点)转换至马尔科夫链模型中的状态空间，形成状态集合。网格空间中轨迹的交叉点和截止点之外的轨迹点均一一对应马尔科夫链模型中的某一个状态，网格空间中轨迹的交叉点和截止点对应马尔科夫链模型中的多个状态；

S22：利用轨迹子簇的中的状态集合训练该轨迹子簇对应的马尔科夫链模型，得到模型对应的转移矩阵；

S23：属地节点将本地的转移矩阵和状态集合发送至中心节点。

S3：综合求解。中心节点利用各个属地节点传递的参数数据(转移矩阵和状态集合)实现全局轨迹的聚类操作，具体步骤如下：

S31：利用各属地节点传递的转移矩阵和状态集合生成全局轨迹数据集；

S32：使用本发明提出的LCS_Dist算法计算全局轨迹数据集中轨迹间的距离度量，再基于轨迹间的距离度量使用kmedios聚类算法对全局轨迹数据集进行聚类操作得到簇心集合；

S4：全局聚类模型应用。中心节点将簇心集合分发至各个属地中心，属地中心通过计算本地未知轨迹与各簇心的距离来对未知轨迹进行判断。

其中，本发明提出的LCS_Dist算法是针对不定长轨迹间的距离度量。设定了一种新的基于最长公共子序列的距离度量方式。

另外，通常使用马尔科夫链模型生成轨道序列的时候，经常会遇到两个问题。

1)对于轨迹序列存在交叉的点的情况，再利用拟合轨迹生成模型去生成轨迹数据的过程中，会生成原本轨迹数据分布模型图5(a)中不存在的轨迹。如下图所示。可能会形成图5(b)中正常的轨迹，也可能会形成如图5(c)所示的轨迹。2)生成轨迹数据过程中，由于原始轨迹中有些轨迹的截止点可能是另外一条轨迹中间的坐标点。这将导致截止条件无法确定的问题，从而使得生成轨迹过程无法停止或生成轨迹形状与原始轨迹形状存在差异问题。

本发明提出一种新的网格空间到状态空间的映射方法来解决上述两类问题，网格空间到状态空间的映射规则如下：

(3)针对单条轨迹，若轨迹中的坐标点既不是轨迹交叉点，也不是轨迹截止点，则将该网格空间点与状态空间中的状态是一一映射。

(4)针对单条轨迹，若轨迹中的坐标点(x,y)是轨迹交叉点或轨迹截止点，则将该网格空间点映射成状态空间中的M个状态：

M＝m_cross+m_end

其中m_cross表示网格空间点(x,y)下一个可能转移到的网格空间点(相邻的上、下、左、右四个可能的网格空间点)的数量，取值范围2-4，m_end表示该网格空间点是否为轨迹截止点，如果是截止点其值取1，否则其值取0；故映射关系可以表示为(x,y)＝>{‘(x,y,1)’,‘(x,y,2)’,…,‘(x,y,M)’}，前者表示网格空间中的网格空间点，后者是状态空间中的状态集合。M取值范围2-5。

同时，在生成轨迹序列过程中，对生成轨迹序列的长度必须满足：利用轨迹子簇A的马尔科夫链参数生成的轨迹序列长度必须在区间[minL，maxL]内，其中，minL和maxL分别表示离散轨迹子簇A中轨迹序列的最小长度和最大长度。

故对于轨迹生成的截止条件必须满足如下条件：当下所处状态满足m_end＝1，即为原始轨迹截止点对应的状态；且，此时轨迹序列长度在区间[minL，maxL]内。

实施例

假设目前有三个属地节点，分别记为node1、node2、node3，各节点上的轨迹数据集分别记为D₁、D₂、D₃。中心节点记为X。轨迹聚类的步骤具体为：

S11：轨迹子簇的生成。按照公式(1)计算等长轨迹之间的距离度量，基于该距离度量实现的kmeas++聚类，记为Tra_kmeans++轨迹聚类算法。为了找到合适的K值，可以以K取值作为变量，聚类算法损失函数作为因变量，得到如图2所示的折线图，随着K值增加，当损失函数开始缓慢下降时对应的K值作为此次聚类的K值选择，例如图3中在K＝3时损失函数开始缓慢下降。属地节点node1、node2、node3分别将各自的属地轨迹数据集D₁、D₂、D₃作为输入执行Tra_kmeans++聚类算法，分别得到轨迹子簇集合C₁、C₂、C₃。

S12：针对每个节点上的每个轨迹子簇执行网格化操作。以node1节点轨迹子簇C₁中的第一个轨迹子簇C₁₁为例，假设将C₁₁轨迹子簇中的所有轨迹从二维连续空间转换至网格粒度为1的二维网格空间，先将轨迹中的坐标点映射到网格空间中最近的网格空间点，即对每一个点每一维度坐标取值进行如下函数映射：

其中，sign为符号函数，

表示为向下取整，经过函数f(x)映射后，一条轨迹上的相邻的点可能映射到网格空间中的同一网格空间点，这些重复的点对于轨迹形状没有影响，故可将其重复的点简化成一个点，即对于原始轨迹中一段连续的映射至同一网格空间点的坐标序列集合g执行如下函数映射：

g{(x₁，y₁)，(x₂，y₂)，...，(x_l，y_l)}＝(x₁，y₁)

if(x₁，y₁)＝(x₂，y₂)＝...＝(x_l，y_l)

将node1、node2、node3节点所有轨迹子簇网格化后的轨迹子簇集合记为NC₁、NC₂、NC₃。

S13：经过网格化后的轨迹数据有可能在网格空间中表示连续的，为了适用于马尔科夫链模型中的随机游走模型，需要对网格化的轨迹进行坐标填充操作以保证轨迹在网格空间中的连续性。坐标填充策略保证网格空间中相邻的点必须是网格空间中相邻的网格空间点，其填充规则如下：

1)若两个坐标点其中一个维度坐标数值相同，则在两点之间填充两点连线经过的所有网格空间点，填充过程结束。

2)若两点坐标各个维度的坐标数值均不相等，两坐标点按时间先后顺序分为记为A和B，首先填充A点朝着B点横行(纵向)方向填充与A点相邻的网格空间点并将其记为新的A点，然后填充A点朝着B点纵向(横向)方向填充与A点相邻的网格空间点并将其记为新的A点，若此时：

2-1)A点与B点重合，则填充过程结束；

2-2)A点与B点各个维度坐标值均不相同，则再执行步骤2)；

2-3)A点与B点其中一个维度坐标数值相同，则再执行步骤1)。

坐标填充效果如图4所示。经过网格化和坐标填充后的轨迹子簇集合记为DC_i，轨迹子簇集合中的任意轨迹子簇记为DC_ij。

S21：网格空间到状态空间的映射。在使用马尔科夫链模型模拟轨迹序列生成模型之前，需要将轨迹子簇DC_ij在网格空间中网格状态的转换对应到马尔科夫链中的状态空间，网格空间到状态空间的映射规则如下：

(5)针对单条轨迹，若轨迹中的坐标点(x,y)既不是轨迹交叉点，也不是轨迹截止点，则将该网格空间点与状态空间中的状态是一一映射，即(x,y)＝>‘(x,y)’，其中前者是网格空间中的网格空间点，后者是状态空间中状态名称表示。

(6)针对单条轨迹，若轨迹中的坐标点(x,y)是轨迹交叉点或轨迹截止点，则将该网格空间点映射成状态空间中的M个状态：

M＝m_cross+m_end

其中m_cross表示网格空间点(x,y)下一个可能转移到的网格空间点(相邻的上、下、左、右四个可能的网格空间点)的数量，取值范围2-4，m_end表示该网格空间点是否为轨迹截止点，如果是截止点其值取1，否则其值取0；故映射关系可以表示为(x,y)＝>{‘(x,y,1)’,‘(x,y,2)’,…,‘(x,y,M)’}，前者表示网格空间中的网格空间点，后者是状态空间中的状态集合。

S22：利用轨迹子簇DCi_j求解马尔科夫链模型。确定了轨迹子簇DCi_j对应的状态空间，则可以将马尔科夫链对应的转移矩阵参数化表示出来，假设轨迹子簇DCi_j对应的状态空间包含有m个状态，对应的转移矩阵记为P，可以表示成：

p_ij则表示从状态i转移到状态j的概率，i与j的取值范围为1至m。轨迹子簇DC_ij对应的似然函数可以表示为：

其中n_ij表示在轨迹子簇中由状态i转移到状态j的次数。对上式似然函数取对数不影响似然函数取最大值时的参数取值，故轨迹子簇DCi_j对应的对数似然函数可以表示为：

LL＝n₁₁1n(p₁₁)+n₁₂ln(p₁₂)+...+n_mmln(p_mm)

通过最大化上述对数似然函数则可以求解转移矩阵中的各状态转移概率。

S31：各属地节点将其轨迹子簇集包含的马尔科夫链模型参数(初始状态、转移矩阵和状态集合以及该子簇轨迹最大长度和最小长度)传输给中心节点，中心节点基于马尔科夫链模型参数通过如下方式生成轨迹数据：

1)初始化第i条轨迹序列L_i，按照状态初始分布产生状态s，将该状态对应的网格空间点加入轨迹序列L_i；

2)若状态s不是截止状态，则依据转移矩阵得到状态s转移至其他状态的概率分布P，依据此概率分布随机产生新的状态s’，将s’加入轨迹序列L_i，利用s’更新s；

若状态s是截止状态，判断此时轨迹序列长度是否在对应子簇轨迹最小长度和最大长度之间，若是则将状态s加入当前轨迹序列L_i后，进入步骤3)，否则执行步骤1)。

3)将轨迹序列L_i放入全局轨迹数据集RD，判断是否处理完全部的n条轨迹，如是，则完成全局轨迹数据集生成，否则重新赋值i，返回步骤1)。

RD表示为：

RD＝{L₁，L₂，...，L_n}

L_i＝{(x₁，y₁)，(x₂，y₂)，...}

RD包含n条轨迹序列，其中L_i(i＝1，2，…，n)的长度不是固定的，即是不定长的轨迹序列集合。

532：全局轨迹数据聚类。由于RD中轨迹长度不相等，故基于公式(1)距离度量的kmeans++算法不再适用。本发明提出一种新的基于最长公共子序列的距离度量方式，并结合kmedios算法对不定长的轨迹序列集合进行聚类操作，距离度量计算过程如下：

1)设置邻域参数N(若两个坐标点在以邻域参数N为半径的圆内，则我们认为这两个点是状态相同的序列点)。设置最大间隔参数G(最长公共序列中各序列子段之间间隔不能超过G)；

2)基于邻域参数N利用动态规划求解最长公共子序列LCS；

3)在求得的最长公共子序列中找到满足最大间隔G的最长公共子序列；

4)计算两条轨迹序列在最长公共子序列范围内的距离；

5)计算总间隔数M；

6)计算最长公共子序列的长度Len；

7)求解不定长轨迹之间的距离：

LCS Dist(a，b)＝Dist(LCS(a，b，N，G))*g(Len)+C*M

其中LCS(a，b，N，G)是求解邻域参数为N最大间隔参数为G时轨迹a和轨迹b的最大公共子序列；g(.)是LCS长度的函数，形式如下：

g(Len)＝e^-Len

C*M表示总间隔数对距离度量的影响，其中常数C用来协调最大公共子序列和总间隔数对距离度量的影响程度。

基于LCSDist距离度量，利用kmedios聚类算法完成对轨迹数据集RD聚类操作，其中kmedios算法K值确定与S11中确定K值方法相同。

S41：通过S32可以得到K个簇心向量，将这K个簇心向量分发至个属地中心，属地中心则获得了全局聚类模型结果。分布式聚类完成。

Claims

1.一种基于马尔科夫链的跨地理分布轨迹聚类方法，其特征在于，包括以下步骤：

2.如权利要求1所述方法，其特征在于，步骤S21中将网格空间点转换至马尔科夫链模型中的状态空间的映射规则包括：

(1)单条轨迹中的坐标点既不是轨迹交叉点，也不是轨迹截止点，则该网格空间点与状态空间中的状态是一一映射；

M＝m_cross+m_end

其中，m_cross表示网格空间点下一个可能转移到的网格空间点数量，取值范围2-4，m_end表示该网格空间点是否为轨迹截止点，如果是截止点其值取1，否则其值取0。

3.如权利要求1所述方法，其特征在于，步骤S3中心节点得到簇心集合的具体步骤如下：

S32：计算全局轨迹数据集中轨迹间的距离度量，再基于轨迹间的距离度量使用kmedios聚类算法对全局轨迹数据集进行聚类操作得到簇心集合。

4.如权利要求2所述方法，其特征在于，S31中全局轨迹数据集的具体生成方法如下：

5.如权利要求4所述方法，其特征在于，全局轨迹数据集RD中轨迹序列L_i，i＝1,2,…,n，的长度不固定；计算全局轨迹数据集中轨迹间的距离度量的函数LCS Dist为：

LCS Dist(a，b)＝Dist(LCS(a，b，N，G))*g(Len)+C*M

其中，LCS(a,b,N,G)是求解邻域参数为N，最大间隔参数为G时轨迹a和轨迹b的最大公共子序列；Dist为两等长度轨迹的距离度量函数；g(.)是最大公共子序列长度的函数g(Len)＝e^-Len，Len为最大公共子序列长度；C*M表示总间隔数对距离度量的影响，常数C用来协调最大公共子序列和总间隔数对距离度量的影响程度。

6.如权利要求5所述方法，其特征在于，计算全局轨迹数据集中轨迹间的距离度量的方法为：

1)设置邻域参数N、最大间隔参数G；邻域参数N用于判断两个坐标点是状态相同的序列点，当两个坐标点在以邻域参数N为半径的圆内，则认为这是状态相同的序列点，否则认为两个坐标点是状态不相同的序列点；最大间隔参数G用于限定最长公共序列中各序列子段之间间隔不能超过的最大数；

2)基于邻域参数N利用动态规划求解最长公共子序列LCS；

4)计算两条轨迹序列在最长公共子序列范围内的距离；

5)计算总间隔数M；

6)计算最长公共子序列的长度Len；

7)利用函数LCS Dist求解不定长轨迹之间的距离。

7.如权利要求1所述方法，其特征在于，网格坐标填充的方式如下：

1)若两个坐标点其中一个维度坐标数值相同，则在两点之间填充两点连线经过的所有网格空间点，填充过程结束；

2)若两点坐标各个维度的坐标数值均不相等，两坐标点按时间先后顺序分为记为A和B，首先填充A点朝着B点横行方向填充与A点相邻的网格空间点并将其记为新的A点，然后填充A点朝着B点纵向方向填充与A点相邻的网格空间点并将其记为新的A点；或者，首先填充A点朝着B点纵向方向填充与A点相邻的网格空间点并将其记为新的A点，然后填充A点朝着B点横向方向填充与A点相邻的网格空间点并将其记为新的A点，若此时：

2-1)A点与B点重合，则填充过程结束；

2-2)A点与B点各个维度坐标值均不相同，则再执行步骤2)；

2-3)A点与B点其中一个维度坐标数值相同，则再执行步骤1)。