CN103942310B

CN103942310B - 基于时空模式的用户行为相似性挖掘方法

Info

Publication number: CN103942310B
Application number: CN201410159039.8A
Authority: CN
Inventors: 涂岩恺; 黄家乾; 时宜; 陈典全
Original assignee: Xiamen Yaxon Networks Co Ltd
Current assignee: Xiamen Yaxun Zhilian Technology Co ltd
Priority date: 2014-04-18
Filing date: 2014-04-18
Publication date: 2018-12-21
Anticipated expiration: 2034-04-18
Also published as: CN103942310A

Abstract

本发明涉及用户行为轨迹挖掘技术领域，具体涉及一种基于时空模式的用户行为相似性挖掘方法。本发明针对LBSN用户的签到记录不连续、碎片化严重的状况，发明了签到点集的时空模式匹配方法进行数据的用户行为挖掘，将签到点分为秩次子集与孤立点两类，对秩次子集内的时间顺序信息给予保留，并在相似性比较时与位置信息进行有效融合。发明了一种新的时空Hausdorff距离匹配方法进行有效的时空模式相似判别，无需进行签到点间的行为轨迹恢复，同时有效的利用了签到时间顺序信息，因而能比较好的判断用户签到行为的相似性。

Description

基于时空模式的用户行为相似性挖掘方法

技术领域

本发明涉及用户行为轨迹挖掘技术领域，具体涉及一种基于时空模式的用户行为相似性挖掘方法。

背景技术

在LBSN(基于位置的社交网络)中每天都会产生大量的签到数据。这些数据包括时间、位置、POI属性等信息，反映了用户真实的生活轨迹与兴趣倾向。对这些基于社交网络的签到数据进行挖掘，寻找行为兴趣相似的人群可以定量和估算人们的社会活动特征，进而发掘人们的行为规律，使人们能够更深层地认知智能化城市中社群的生活轨迹、社交行为、环境变动等，不仅能够满足LBSN用户越来越强烈的个性化、社会化需求，为社交网站的发展提供支持，而且能够为商务智能、个性化推荐提供支持。

由于LBSN用户的签到记录是不连贯和碎片化的，时间间隔可能为几分钟、几小时甚至几天几个月，在这样复杂的签到率下难以还原出用户的真实行动轨迹。传统的方法采用网格或交通路网匹配的方式试图还原用户签到点之间的轨迹(基于路网的LBSN用户移动轨迹聚类挖掘方法[J].计算机应用研究,2013,30(8):2410-2414.等)，但这种做法没考虑到签到点时间间隔较长的情况下会不可避免的产生轨迹估算错误。也有方法利用签到点的POI属性构建语义主题，通过主题相似性判断用户行为相似性(专利201310336664.0),但是这类方法也要求用户签到点时间间隔不能隔的太远，否则隔几个月的签到本身不具有什么主题意义联系。如果不恢复用户轨迹，直接用点集空间关系的相似性进行用户行为相似性匹配(专利201210390018.8)的方法忽略了签到点的先后时间关系，时间间隔较近的签到点顺序隐含了用户的行为顺序与兴趣优先信息。本发明用签到点集的时空模式匹配方法进行数据的用户行为挖掘，将同一天内的签到时间顺序与签到点位置数据进行融合，发明了一种新的时空Hausdorff距离匹配方法进行有效的时空模式相似判别，无需进行签到点间的行为轨迹恢复，同时有效的利用了签到时间顺序信息，因此能有效的比较用户签到行为的相似性。

发明内容

解决上述技术问题，本发明提供了一种基于时空模式的用户行为相似性挖掘方法，利用对用户签到点进行筛选划分为孤立点与孤立点、孤立点与秩次子集、秩次子集与秩次子集，再采用典型hausdorff距离方法计算的过程中，融合了空间位置与时间秩次信息，形成了基于LBSN用户签到数据的时空信息来判断用户相似性的方法。

为了达到上述目的，本发明所采用的技术方案是，一种基于时空模式的用户行为相似性挖掘方法，包括以下步骤：

步骤1：时空数据融合步骤，获取单个用户的所有签到数据，所述签到数据包括签到时间、签到点位置信息，将该签到点按签到时间先后顺序排列，并将该该签到点分成孤立点与秩次子集两类，孤立点只保留位置信息，秩次子集中包含若干签到点，并将签到时间转换为秩次信息，秩次子集中保留签到点位置和秩次信息。

步骤2：时空模式匹配步骤：利用时空Hausdorff距离匹配方法，基于秩次信息与签到点位置信息计算出的用户行为相似性，比较孤立点与孤立点之间的相似性距离，秩次子集合与秩次子集合之间的相似性距离，以及孤立点与秩次子集合之间的相似性距离，再根据该相似性距离，得到融合空间与时间两种信息的用户签到行为相似性度量值。

进一步的，所述步骤1还包括以下步骤：

步骤11：将每个用户的所有原始签到点的签到数据依据时间顺序排列为{P1,P2,P3,...,PM}，每个签到点的签到数据为Pi＝{x,y,t}(i＝1,2,...,M)，其中(x,y)表示签到点Pi的经纬度位置信息，t表示签到点Pi的签到时间，

步骤12：构成秩次子集，获取每个用户一天内的签到点P_i构成单独的子集合Qj＝{Pj,Pj+1,Pj+2,...,Pj+N}(N≤M)，并对该单独的子集合Qj内的签到点赋予秩次权值，即Q_j内按时间顺序第一个签到点秩次为rank＝1，第二个签到点秩次为rank＝2，以此类推，获得秩次后用秩次rank信息替换时间信息t，得到新的秩次子集合Q’_j＝{P’_j,P’_j+1,...P’_j+N}，P’_j＝{x,y,rank}，

步骤13：构成孤立点集合，所述孤立点的划分方法为：一用户1天以内(从当天0：00：00到23：59：59)只有一个签到点，则该签到点划分为孤立点P_i，由于该孤立点P_i不构成成秩次子集，则去除时间信息，只保留位置信息，形成孤立签到点P_i＝(x,y)。

进一步的，所述步骤2包括：

步骤21：计算两个独立点P1与P2之间的相似性距离Ds，直接取地理直线距离:

D_s＝d(P₁,P₂) (1)

步骤22：独立点Pi与秩次子集Q’j＝{P’j,P’j+1,...P’j+N}之间的相似性距离Db计算公式如下：

其中d(P_i,Q′_j)＝min[d(P_i,P′_j),d(P_i,P′_j+1),…,d(P_i,P_j′_+N)]。

步骤23：秩次子集Q’i＝{P’i,P’i+1,...P’i+M}与秩次子集Q’j＝{P’j,P’j+1,...P’j+N}的相似性距离Dr计算公式如下：

D_r＝max[d(Q′_i,Q′_j),d(Q′_j,Q′_i)] (3)

其中d(Q′_i,Q′_j)代表秩次子集Q′_i到子集Q′_j的距离

d(Q′_i,Q′_j)＝max[d(P′_i,Q′_j),d(P′_i+1,Q′_j),…d(P′_i+M,Q′_j)] (4)

在计算带秩次的点对P′_i与P′_j的距离时，融合秩次相似性权重值w_i,j＝|rank_i-rank_j|+1，则(4)式中的d(P′_i,Q′_j)按如下方法计算：

d(P′_i,Q′_j)＝min[w_i,jd(P′_i,P′_j),w_i,j+1d(P′_i,P′_j+1),…w_i,j+Nd(P′_i,P′_j+N)] (5)

秩次子集Q′_j到子集Q′_i的距离d(Q′_j,Q′_i)按相同的原理计算。计算公式如下：

d(Q′_j,Q′_i)＝max[d(P′_j,Q′_i),d(P′_j+1,Q′_i),…d(P′_j+N,Q′_i)] (6)

d(P′_j,Q′_i)＝min[w_j,id(P′_j,P′_i),w_j,i+1d(P′_j,P′_i+1),…w_j,i+Md(P′_j,P′_i+M)] (7)

具体地，设两个用户UserA和UserB的签到集合经时空数据融合处理后变换为分别包含若干孤立点与若干秩次子集的集合A＝{P_a1,P_a2,…,P_aN,Q′_a1,Q′_a2,…,Q′_aM}，B＝{P_b1,P_b2,…,P_bK,Q′_b1,Q′_b2,…,Q′_bL}，则两个用户间的行为相似性比较方法如下：

计算集合A中某元素a与集合B的距离其中若a,b是一对孤立点，则d(a,b)按(1)式计算；若a,b是孤立点与秩次子集，则d(a,b)按(2)式计算；若a,b均是秩次子集，则d(a,b)按(3)式计算。计算集合A与集合B的距离同理可计算集合B与集合A的距离d(B,A)，则用户UserA和UserB的最终相似性度量为：

H＝max[d(A,B),d(B,A)] (8)。

本发明通过采用上述技术方案，与现有技术相比，具有如下优点：

在LBSN(基于位置的社交网络)中依据用户的签到数据进行相似性比较计算，能够为商务智能、个性化推荐提供有价值的数据分析结果，其最典型应用就是协同过滤推荐，即行为相似的用户其兴趣相似的概率较高，则可将用户A感兴趣的产品，推送给与用户A行为相似的用户B，以提高LBSN网络的信息利用率与智能化水平。

本发明针对LBSN用户的签到记录不连续、碎片化严重的状况，发明了签到点集的时空模式匹配方法进行数据的用户行为挖掘，将签到点分为秩次子集与孤立点两类，对秩次子集内的时间顺序信息给予保留，并在相似性比较时与位置信息进行有效融合。发明了一种新的时空Hausdorff距离匹配方法进行有效的时空模式相似判别，无需进行签到点间的行为轨迹恢复，同时有效的利用了签到时间顺序信息，因而能比较好的判断用户签到行为的相似性。

具体实施方式

现结合具体实施方式对本发明进一步说明。

作为一个具体的实施例，本发明的一种基于时空模式的用户行为相似性挖掘方法，包括以下步骤：

进一步的，所述孤立点的划分方法为：一用户1天以内(从当天0：00：00到23：59：59)只有一个签到点，则该签到点是孤立点；

进一步的，所述步骤1还包括以下步骤：

步骤11：将单个用户的所有原始签到点的签到数据依据时间顺序排列为{P₁,P₂,P₃,...,P_M}，每个签到点的签到数据为P_i＝{x,y,t}(i＝1,2,...,M)，其中(x,y)表示签到点P_i的经纬度位置信息，t表示签到点P_i的签到时间，

步骤12：构成秩次子集，获取一天(当天0：00：00到23：59：59)的签到点P_i构成单独的子集合Qj＝{Pj,Pj+1,Pj+2,...,Pj+N}(N≤M)，并对该单独的子集合Qj内的签到点赋予秩次权值，即Q_j内按时间顺序第一个签到点秩次为rank＝1，第二个签到点秩次为rank＝2，以此类推，获得秩次后用秩次rank信息替换时间信息t，得到新的秩次子集合Q’_j＝{P’_j,P’_j+1,...P’_j+N}，P’_j＝{x,y,rank}，

步骤13：构成孤立点集合，对于不构成成秩次子集的签到点P_i，由于时间隔过远(大于一天)，在时间联系上的意义较弱，因此去除时间信息，只保留位置信息，形成孤立签到点P_i＝(x,y)。

进一步的，所述步骤2包括：

D_s＝d(P₁,P₂) (1)

其中d(P_i,Q′_j)＝min[d(P_i,P′_j),d(P_i,P′_j+1),…,d(P_i,P′_j+N)]

在计算孤立点与秩次子集的距离时，利用秩次信息拉大了它们之间的距离，突显了时间顺序差别的特征。在特殊情况下，秩次子集点个数为1的时候，秩次子集退化为孤立点，(2)式中N＝0,rank＝1，等价于(1)式，说明孤立点是秩次子集个数为1时的特殊形式。

D_r＝max[d(Q′_i,Q′_j),d(Q′_j,Q′_i)] (3)

其中d(Q′_i,Q′_j)代表秩次子集Q′_i到子集Q′_j的距离

在计算带秩次的点对P′_i与P′_j的距离时，需要融合秩次相似性权重值w_i,j＝|rank_i-rank_j|+1，则(4)式中的d(P′_i,Q′_j)按如下方法计算：

秩次子集Q′_j到子集Q′_i的距离d(Q′_j,Q′_i)按相同的原理计算。

计算公式如下：

在(5)式中融合了秩次相似性权重值之后，若两个秩次子集中的签到点有相同的位置与签到顺序，则距离值很小；若签到位置相同但签到顺序不同，秩次权值较大，距离值变大，这样在签到点位置特征比较中融合了时间顺序信息，以最终实现时空模式的签到行为相似比较。

具体地：设两个用户UserA和UserB的签到集合经时空数据融合处理后变换为分别包含若干孤立点与若干秩次子集的集合A＝{P_a1,P_a2,…,P_aN,Q′_a1,Q′_a2,…,Q′_aM}，B＝{P_b1,P_b2,…,P_bK,Q′_b1,Q′_b2,…,Q′_bL}，则两个用户间的行为相似性比较方法如下：

H＝max[d(A,B),d(B,A)] (8)

公式(8)是典型hausdorff距离公式，但是在具体计算集合内部元素距离的时候分别考虑与孤立点与孤立点、孤立点与秩次子集、秩次子集与秩次子集的情况，融合了空间位置与时间秩次信息，因此本发明本质上扩展了典型hausdorff距离方法，形成了基于LBSN用户签到数据的时空信息来判断用户相似性的时空hausdorff距离方法。

相似性度量值H值越小，表明用户签到行为相似性越高，依据H值的大小，可以从大量用户数据的比较中得出与当前查询用户最相似的用户(即H值最小的用户)，实现用户签到行为相似性挖掘。

这里举用户UserA、UserB、UserC的简化实例，对方法的具体实施进行说明。本例中用UserA的历史签到数据进行查询申请，从UserB和UserC中找出签到行为与UserA最相近的人做为数据挖掘结果。

三者历史签到数据按时间顺序排列如下所示：

UserA历史签到数据

UserA	签到时间	签到位置(纬度、经度)
			P<sub>a1</sub>	2014-02-04 10:52:47	(24.633811,118.073829)
P<sub>a2</sub>	2014-02-04 13:02:12	(24.623612,118.087136)
			P<sub>a3</sub>	2014-02-04 18:25:37	(24.614248,118.071257)
P<sub>a4</sub>	2014-04-13 15:21:56	(24.628761,118.072373)

UserB历史签到数据

UserB	签到时间	签到位置(纬度、经度)
			P<sub>b1</sub>	2013-11-04 09:06:14	(24.604728,118.109194)
P<sub>b2</sub>	2013-12-04 13:32:45	(24.622987,118.086878)
			P<sub>b3</sub>	2013-12-04 15:25:37	(24.614014,118.071772)
P<sub>b4</sub>	2014-03-22 12:30:16	(24.585217,118.06894)
			P<sub>b5</sub>	2014-06-20 18:32:11	(24.632974,118.093316)

UserC历史签到数据

步骤1对数据进行时空融合处理。将个用户签到数据分类成孤立点与秩次子集两类。孤立点只保留位置信息，秩次子集中包含若干签到点，并将签到时间替换为秩次信息，秩次子集中保留签到点位置和秩次信息。则:

用户UserA的签到孤立点为P_a4＝{24.633811,118.073829}；P_a1,P_a2,P_a3属于同一天的数据，可以融合成秩次子集，用秩次信息替换时间信息，得到签到秩次子集为Q’_a1＝{P’_a1,P’_a2,P’_a3},其中：

P’_a1＝{24.633811,118.073829,1}

P’_a2＝{24.623612,118.087136,2}

P’_a3＝{24.607225,118.076064,3}

则用户UserA的数据集为A＝{P_a4,Q’_a1}。

用户UserB的签到孤立点为P_b1＝{24.604728,118.109194},P_b4＝{24.633811,118.073829},P_b5＝{24.639489,118.079975}，P_b2,P_b3属于同一天的数据，可以融合构成秩次子集，用秩次信息替换时间信息，得到签到秩次子集为Q’_b1＝{P’_b2,P’_b3},其中：

P’_b2＝{24.622987,118.086878,1}

P’_b3＝{24.614014,118.071772,2}

则用户UserB的数据集为B＝{P_b1,P_b4,P_b5,Q’_b1}。

用户UserC的所有签到点均为孤立点

则用户UserC的数据集为C＝{P_c1,P_c2,P_c3,P_c4,P_c5,P_c6,P_c7}。

步骤2：

依据UserA的签到数据集A＝{P_a4,Q’_a1}与UserB的签到数据集B＝{P_b1,P_b4,P_b5,Q’_b1}，计算二者签到行为相似度。

2.1计算集合A与集合B的距离d(A,B)：

计算集合A中各元素与集合B的距离：d(P_a4,B)、d(Q’_a1,B)

则集合A与集合B的距离为d(A,B)＝max{d(P_a4,B),d(Q’_a1,B)}

2.1.1其中d(P_a4,B)计算过程如下：

计算P_a4与P_b1的距离D_s(P_a4,P_b1)，由于P_a4与P_b1均为孤立点，因此按(1)式取两点的地理距离D_s(P_a4,P_b1)＝d(P_a4,P_b1)＝4.582；

同理按(1)式计算P_a4与P_b4的距离D_s(Pa4,P_b4)＝4.854；

同理按(1)式计算P_a4与P_b5的距离D_s(P_a4,P_b5)＝2.168；

计算P_a4与Q’_b1的距离Db(P_a4,Q’_b1)，由于P_a4为孤立点，Q’_b1为秩次子集，因此按(2)式计算：

D_b(P_a4,Q’_b1)＝min{d(P_a4,P’_b2),d(P_a4,P’_b3)}×{(1+2)/2}

＝min{1.6006,1.6409}×1.5＝2.4009

因此d(P_a4,B)＝min{D_s(P_a4,P_b1)，D_s(P_a4,P_b4)，D_s(Pa4,P_b5)，D_b(P_a4,Q’_b1)}

＝min{4.582,4.854,2.168,2.4009}＝2.168

可以看到，虽然P_a4与Q’_b1中各点的距离都比较近(都在1.6左右)，但是在计算孤立点与秩次子集的距离时，利用秩次信息拉大了它们之间的距离到2.4以上，突显了时间顺序差别的特征。

2.1.2d(Q’_a1,B)计算过程如下：

计算Q’_a1与P_b1的距离D_b(Q’_a1,P_b1)，由于Q’_a1为秩次子集，P_b1为孤立点，同理按(2)式计算二者距离D_b(Q’_a1,P_b1)＝9.1887

同理按(2)式计算Q’_a1与P_b4的距离D_b(Q’_a1,P_b4)＝9.709；

同理按(2)式计算Q’_a1与P_b5的距离D_b(Q’_a1,P_b5)＝2.6571；

计算Q’_a1与Q’_b1的距离Dr(Q’_a1,Q’_b1)，由于Q’_a1、Q’_b1均为秩次子集，因此按(3)式计算：

D_r(Q’_a1,Q’_b1)＝max{d(Q’_a1,Q’_b1),d(Q’_b1,Q’_a1)}

其中d(Q’_a1,Q’_b1)＝max{d(P’_a1,Q’_b1),d(P’_a2,Q’_b1),d(P’_a3,Q’_b1)}

其中

d(P’_a1,Q’_b1)＝min{(|1-1|+1)d(P’_a1,P’_b2),(|1-2|+1)d(P’_a1,P’_b3)}＝1.7855

d(P’_a2,Q’_b1)＝min{(|2-1|+1)d(P’_a2,P’_b2),(|2-2|+1)d(P’_a2,P’_b3)}＝0.1484

d(P’_a3,Q’_b1)＝min{(|3-1|+1)d(P’_a3,P’_b2),(|3-2|+1)d(P’_a3,P’_b3)}＝0.1164

因此d(Q’_a1,Q’_b1)＝max{1.7855,0.1484,0.1164}＝1.7855

同理可得d(Q’_b1,Q’_a1)＝1.3142

因此D_r(Q’_a1,Q’_b1)＝max{1.7855,1.3142}＝1.7855

在计算带秩次的点的距离时，融合了秩次权重，若两个秩次子集中的签到点有相同的位置与签到顺序，则距离值很小，可以看出Q’a1,Q’b1有相似的位置与签到时间顺序，因此融合秩次权重后距离普遍比较小，最大值仅为1.7855；而若签到位置即使相近但签到顺序不同或孤立点没有签到顺序，例如前面计算Db(Q’a1,Pb1)、Db(Pa4,Q’b1)时，秩次权值较大，距离值变大，反映了用户签到行为在时间顺序上的差别。

得到d(Q’a1,B)＝min{9.1887,9.709,2.6571,1.7855}＝1.7855

d(A,B)＝max{d(Pa4,B),d(Q’a1,B)}＝max{2.168,1.7855}＝2.168

2.2计算集合B与集合A的距离d(B,A)。

计算原理与d(A,B)相同，得d(B,A)＝2.143

于是UserA与UserB的相似性距离H_AB＝max{d(A,B),d(B,A)}＝2.168

基于同样的计算原理，得UserA与UserC的相似性距离H_AC＝3.635

因为H_AB<H_AC说明在用户UserB与UserC中，UserB是与UserA在签到行为上最相似的用户，UserB即为数据挖掘的结果。本发明方法应用到大用户量数据库上，就能够通过计算用户相似性度量值H，从大量用户数据的比较中得出与当前查询用户最相似的用户(即H值最小的用户)，实现用户签到行为相似性挖掘。

尽管结合优选实施方案具体展示和介绍了本发明，但所属领域的技术人员应该明白，在不脱离所附权利要求书所限定的本发明的精神和范围内，在形式上和细节上可以对本发明做出各种变化，均为本发明的保护范围。

Claims

1.一种基于时空模式的用户行为相似性挖掘方法，其特征在于：包括以下步骤：

步骤1：时空数据融合步骤，获取单个用户的所有签到数据，所述签到数据包括签到时间、签到点位置信息，将该签到点按签到时间先后顺序排列，并将该签到点分成孤立点与秩次子集两类，孤立点只保留位置信息，秩次子集中包含若干签到点，并将签到时间转换为秩次信息，秩次子集中保留签到点位置和秩次信息；

步骤2：时空模式匹配步骤：利用时空Hausdorff距离匹配方法，基于秩次信息与签到点位置信息计算出的用户行为相似性，比较孤立点与孤立点之间的相似性距离，秩次子集合与秩次子集合之间的相似性距离，以及孤立点与秩次子集合之间的相似性距离，再根据该相似性距离，得到融合空间与时间两种信息的用户签到行为相似性度量值；

所述步骤1还包括以下步骤：

步骤11：将每个用户的所有原始签到点的签到数据依据时间顺序排列为{P₁,P₂,P₃,...,P_M}，每个签到点的签到数据为P_i＝{x,y,t}(i＝1,2,...,M)，其中(x,y)表示签到点P_i的经纬度位置信息，t表示签到点P_i的签到时间，

步骤12：构成秩次子集，获取每个用户一天的签到点P_i构成单独的子集合Qj＝{Pj,Pj+1,Pj+2,...,Pj+N}(N≤M)，并对该单独的子集合Qj内的签到点赋予秩次权值，即Q_j内按时间顺序第一个签到点秩次为rank＝1，第二个签到点秩次为rank＝2，以此类推，获得秩次后用秩次rank信息替换时间信息t，得到新的秩次子集合Q’_j＝{P’_j,P’_j+1,...P’_j+N}，P’_j＝{x,y,rank}，

2.根据权利要求1所述的一种基于时空模式的用户行为相似性挖掘方法，其特征在于：所述步骤2具体包括：

D_s＝d(P₁,P₂) (1)

其中d(P_i,Q′_j)＝min[d(P_i,P′_j),d(P_i,P′_j+1),…,d(P_i,P′_j+N)]，

D_r＝max[d(Q′_i,Q′_j),d(Q′_j,Q′_i)] (3)

其中d(Q′_i,Q′_j)代表秩次子集Q′_i到子集Q′_j的距离

秩次子集Q′_j到子集Q′_i的距离d(Q′_j,Q′_i)的计算公式如下：

d(P′_j,Q′_i)＝min[w_j,id(P′_j,P′_i),w_j,i+1d(P′_j,P′_i+1),…w_j,i+Md(P′_j,P′_i+M)] (7)。