CN103942310B - 基于时空模式的用户行为相似性挖掘方法 - Google Patents
基于时空模式的用户行为相似性挖掘方法 Download PDFInfo
- Publication number
- CN103942310B CN103942310B CN201410159039.8A CN201410159039A CN103942310B CN 103942310 B CN103942310 B CN 103942310B CN 201410159039 A CN201410159039 A CN 201410159039A CN 103942310 B CN103942310 B CN 103942310B
- Authority
- CN
- China
- Prior art keywords
- rank
- sign
- desk
- subset
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000005065 mining Methods 0.000 title claims abstract description 9
- 238000012163 sequencing technique Methods 0.000 claims abstract description 14
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000004927 fusion Effects 0.000 claims description 9
- 230000003542 behavioural effect Effects 0.000 claims description 8
- 230000002123 temporal effect Effects 0.000 claims description 8
- 230000014759 maintenance of location Effects 0.000 claims description 7
- 238000013461 design Methods 0.000 abstract description 3
- 230000004069 differentiation Effects 0.000 abstract description 3
- 238000013467 fragmentation Methods 0.000 abstract description 3
- 238000006062 fragmentation reaction Methods 0.000 abstract description 3
- 238000009412 basement excavation Methods 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 abstract description 2
- 230000010354 integration Effects 0.000 abstract description 2
- 230000000717 retained effect Effects 0.000 abstract description 2
- 230000006399 behavior Effects 0.000 description 22
- 238000013459 approach Methods 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000011524 similarity measure Methods 0.000 description 2
- 238000004883 computer application Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007850 degeneration Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000011273 social behavior Effects 0.000 description 1
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
Abstract
本发明涉及用户行为轨迹挖掘技术领域,具体涉及一种基于时空模式的用户行为相似性挖掘方法。本发明针对LBSN用户的签到记录不连续、碎片化严重的状况,发明了签到点集的时空模式匹配方法进行数据的用户行为挖掘,将签到点分为秩次子集与孤立点两类,对秩次子集内的时间顺序信息给予保留,并在相似性比较时与位置信息进行有效融合。发明了一种新的时空Hausdorff距离匹配方法进行有效的时空模式相似判别,无需进行签到点间的行为轨迹恢复,同时有效的利用了签到时间顺序信息,因而能比较好的判断用户签到行为的相似性。
Description
技术领域
本发明涉及用户行为轨迹挖掘技术领域,具体涉及一种基于时空模式的用户行为相似性挖掘方法。
背景技术
在LBSN(基于位置的社交网络)中每天都会产生大量的签到数据。这些数据包括时间、位置、POI属性等信息,反映了用户真实的生活轨迹与兴趣倾向。对这些基于社交网络的签到数据进行挖掘,寻找行为兴趣相似的人群可以定量和估算人们的社会活动特征,进而发掘人们的行为规律,使人们能够更深层地认知智能化城市中社群的生活轨迹、社交行为、环境变动等,不仅能够满足LBSN用户越来越强烈的个性化、社会化需求,为社交网站的发展提供支持,而且能够为商务智能、个性化推荐提供支持。
由于LBSN用户的签到记录是不连贯和碎片化的,时间间隔可能为几分钟、几小时甚至几天几个月,在这样复杂的签到率下难以还原出用户的真实行动轨迹。传统的方法采用网格或交通路网匹配的方式试图还原用户签到点之间的轨迹(基于路网的LBSN用户移动轨迹聚类挖掘方法[J].计算机应用研究,2013,30(8):2410-2414.等),但这种做法没考虑到签到点时间间隔较长的情况下会不可避免的产生轨迹估算错误。也有方法利用签到点的POI属性构建语义主题,通过主题相似性判断用户行为相似性(专利201310336664.0),但是这类方法也要求用户签到点时间间隔不能隔的太远,否则隔几个月的签到本身不具有什么主题意义联系。如果不恢复用户轨迹,直接用点集空间关系的相似性进行用户行为相似性匹配(专利201210390018.8)的方法忽略了签到点的先后时间关系,时间间隔较近的签到点顺序隐含了用户的行为顺序与兴趣优先信息。本发明用签到点集的时空模式匹配方法进行数据的用户行为挖掘,将同一天内的签到时间顺序与签到点位置数据进行融合,发明了一种新的时空Hausdorff距离匹配方法进行有效的时空模式相似判别,无需进行签到点间的行为轨迹恢复,同时有效的利用了签到时间顺序信息,因此能有效的比较用户签到行为的相似性。
发明内容
解决上述技术问题,本发明提供了一种基于时空模式的用户行为相似性挖掘方法,利用对用户签到点进行筛选划分为孤立点与孤立点、孤立点与秩次子集、秩次子集与秩次子集,再采用典型hausdorff距离方法计算的过程中,融合了空间位置与时间秩次信息,形成了基于LBSN用户签到数据的时空信息来判断用户相似性的方法。
为了达到上述目的,本发明所采用的技术方案是,一种基于时空模式的用户行为相似性挖掘方法,包括以下步骤:
步骤1:时空数据融合步骤,获取单个用户的所有签到数据,所述签到数据包括签到时间、签到点位置信息,将该签到点按签到时间先后顺序排列,并将该该签到点分成孤立点与秩次子集两类,孤立点只保留位置信息,秩次子集中包含若干签到点,并将签到时间转换为秩次信息,秩次子集中保留签到点位置和秩次信息。
步骤2:时空模式匹配步骤:利用时空Hausdorff距离匹配方法,基于秩次信息与签到点位置信息计算出的用户行为相似性,比较孤立点与孤立点之间的相似性距离,秩次子集合与秩次子集合之间的相似性距离,以及孤立点与秩次子集合之间的相似性距离,再根据该相似性距离,得到融合空间与时间两种信息的用户签到行为相似性度量值。
进一步的,所述步骤1还包括以下步骤:
步骤11:将每个用户的所有原始签到点的签到数据依据时间顺序排列为{P1,P2,P3,...,PM},每个签到点的签到数据为Pi={x,y,t}(i=1,2,...,M),其中(x,y)表示签到点Pi的经纬度位置信息,t表示签到点Pi的签到时间,
步骤12:构成秩次子集,获取每个用户一天内的签到点Pi构成单独的子集合Qj={Pj,Pj+1,Pj+2,...,Pj+N}(N≤M),并对该单独的子集合Qj内的签到点赋予秩次权值,即Qj内按时间顺序第一个签到点秩次为rank=1,第二个签到点秩次为rank=2,以此类推,获得秩次后用秩次rank信息替换时间信息t,得到新的秩次子集合Q’j={P’j,P’j+1,...P’j+N},P’j={x,y,rank},
步骤13:构成孤立点集合,所述孤立点的划分方法为:一用户1天以内(从当天0:00:00到23:59:59)只有一个签到点,则该签到点划分为孤立点Pi,由于该孤立点Pi不构成成秩次子集,则去除时间信息,只保留位置信息,形成孤立签到点Pi=(x,y)。
进一步的,所述步骤2包括:
步骤21:计算两个独立点P1与P2之间的相似性距离Ds,直接取地理直线距离:
Ds=d(P1,P2) (1)
步骤22:独立点Pi与秩次子集Q’j={P’j,P’j+1,...P’j+N}之间的相似性距离Db计算公式如下:
其中d(Pi,Q′j)=min[d(Pi,P′j),d(Pi,P′j+1),…,d(Pi,Pj′+N)]。
步骤23:秩次子集Q’i={P’i,P’i+1,...P’i+M}与秩次子集Q’j={P’j,P’j+1,...P’j+N}的相似性距离Dr计算公式如下:
Dr=max[d(Q′i,Q′j),d(Q′j,Q′i)] (3)
其中d(Q′i,Q′j)代表秩次子集Q′i到子集Q′j的距离
d(Q′i,Q′j)=max[d(P′i,Q′j),d(P′i+1,Q′j),…d(P′i+M,Q′j)] (4)
在计算带秩次的点对P′i与P′j的距离时,融合秩次相似性权重值wi,j=|ranki-rankj|+1,则(4)式中的d(P′i,Q′j)按如下方法计算:
d(P′i,Q′j)=min[wi,jd(P′i,P′j),wi,j+1d(P′i,P′j+1),…wi,j+Nd(P′i,P′j+N)] (5)
秩次子集Q′j到子集Q′i的距离d(Q′j,Q′i)按相同的原理计算。计算公式如下:
d(Q′j,Q′i)=max[d(P′j,Q′i),d(P′j+1,Q′i),…d(P′j+N,Q′i)] (6)
d(P′j,Q′i)=min[wj,id(P′j,P′i),wj,i+1d(P′j,P′i+1),…wj,i+Md(P′j,P′i+M)] (7)
具体地,设两个用户UserA和UserB的签到集合经时空数据融合处理后变换为分别包含若干孤立点与若干秩次子集的集合A={Pa1,Pa2,…,PaN,Q′a1,Q′a2,…,Q′aM},B={Pb1,Pb2,…,PbK,Q′b1,Q′b2,…,Q′bL},则两个用户间的行为相似性比较方法如下:
计算集合A中某元素a与集合B的距离其中若a,b是一对孤立点,则d(a,b)按(1)式计算;若a,b是孤立点与秩次子集,则d(a,b)按(2)式计算;若a,b均是秩次子集,则d(a,b)按(3)式计算。计算集合A与集合B的距离同理可计算集合B与集合A的距离d(B,A),则用户UserA和UserB的最终相似性度量为:
H=max[d(A,B),d(B,A)] (8)。
本发明通过采用上述技术方案,与现有技术相比,具有如下优点:
在LBSN(基于位置的社交网络)中依据用户的签到数据进行相似性比较计算,能够为商务智能、个性化推荐提供有价值的数据分析结果,其最典型应用就是协同过滤推荐,即行为相似的用户其兴趣相似的概率较高,则可将用户A感兴趣的产品,推送给与用户A行为相似的用户B,以提高LBSN网络的信息利用率与智能化水平。
本发明针对LBSN用户的签到记录不连续、碎片化严重的状况,发明了签到点集的时空模式匹配方法进行数据的用户行为挖掘,将签到点分为秩次子集与孤立点两类,对秩次子集内的时间顺序信息给予保留,并在相似性比较时与位置信息进行有效融合。发明了一种新的时空Hausdorff距离匹配方法进行有效的时空模式相似判别,无需进行签到点间的行为轨迹恢复,同时有效的利用了签到时间顺序信息,因而能比较好的判断用户签到行为的相似性。
具体实施方式
现结合具体实施方式对本发明进一步说明。
作为一个具体的实施例,本发明的一种基于时空模式的用户行为相似性挖掘方法,包括以下步骤:
步骤1:时空数据融合步骤,获取单个用户的所有签到数据,所述签到数据包括签到时间、签到点位置信息,将该签到点按签到时间先后顺序排列,并将该该签到点分成孤立点与秩次子集两类,孤立点只保留位置信息,秩次子集中包含若干签到点,并将签到时间转换为秩次信息,秩次子集中保留签到点位置和秩次信息。
步骤2:时空模式匹配步骤:利用时空Hausdorff距离匹配方法,基于秩次信息与签到点位置信息计算出的用户行为相似性,比较孤立点与孤立点之间的相似性距离,秩次子集合与秩次子集合之间的相似性距离,以及孤立点与秩次子集合之间的相似性距离,再根据该相似性距离,得到融合空间与时间两种信息的用户签到行为相似性度量值。
进一步的,所述孤立点的划分方法为:一用户1天以内(从当天0:00:00到23:59:59)只有一个签到点,则该签到点是孤立点;
进一步的,所述步骤1还包括以下步骤:
步骤11:将单个用户的所有原始签到点的签到数据依据时间顺序排列为{P1,P2,P3,...,PM},每个签到点的签到数据为Pi={x,y,t}(i=1,2,...,M),其中(x,y)表示签到点Pi的经纬度位置信息,t表示签到点Pi的签到时间,
步骤12:构成秩次子集,获取一天(当天0:00:00到23:59:59)的签到点Pi构成单独的子集合Qj={Pj,Pj+1,Pj+2,...,Pj+N}(N≤M),并对该单独的子集合Qj内的签到点赋予秩次权值,即Qj内按时间顺序第一个签到点秩次为rank=1,第二个签到点秩次为rank=2,以此类推,获得秩次后用秩次rank信息替换时间信息t,得到新的秩次子集合Q’j={P’j,P’j+1,...P’j+N},P’j={x,y,rank},
步骤13:构成孤立点集合,对于不构成成秩次子集的签到点Pi,由于时间隔过远(大于一天),在时间联系上的意义较弱,因此去除时间信息,只保留位置信息,形成孤立签到点Pi=(x,y)。
进一步的,所述步骤2包括:
步骤21:计算两个独立点P1与P2之间的相似性距离Ds,直接取地理直线距离:
Ds=d(P1,P2) (1)
步骤22:独立点Pi与秩次子集Q’j={P’j,P’j+1,...P’j+N}之间的相似性距离Db计算公式如下:
其中d(Pi,Q′j)=min[d(Pi,P′j),d(Pi,P′j+1),…,d(Pi,P′j+N)]
在计算孤立点与秩次子集的距离时,利用秩次信息拉大了它们之间的距离,突显了时间顺序差别的特征。在特殊情况下,秩次子集点个数为1的时候,秩次子集退化为孤立点,(2)式中N=0,rank=1,等价于(1)式,说明孤立点是秩次子集个数为1时的特殊形式。
步骤23:秩次子集Q’i={P’i,P’i+1,...P’i+M}与秩次子集Q’j={P’j,P’j+1,...P’j+N}的相似性距离Dr计算公式如下:
Dr=max[d(Q′i,Q′j),d(Q′j,Q′i)] (3)
其中d(Q′i,Q′j)代表秩次子集Q′i到子集Q′j的距离
d(Q′i,Q′j)=max[d(P′i,Q′j),d(P′i+1,Q′j),…d(P′i+M,Q′j)] (4)
在计算带秩次的点对P′i与P′j的距离时,需要融合秩次相似性权重值wi,j=|ranki-rankj|+1,则(4)式中的d(P′i,Q′j)按如下方法计算:
d(P′i,Q′j)=min[wi,jd(P′i,P′j),wi,j+1d(P′i,P′j+1),…wi,j+Nd(P′i,P′j+N)] (5)
秩次子集Q′j到子集Q′i的距离d(Q′j,Q′i)按相同的原理计算。
计算公式如下:
d(Q′j,Q′i)=max[d(P′j,Q′i),d(P′j+1,Q′i),…d(P′j+N,Q′i)] (6)
d(P′j,Q′i)=min[wj,id(P′j,P′i),wj,i+1d(P′j,P′i+1),…wj,i+Md(P′j,P′i+M)] (7)
在(5)式中融合了秩次相似性权重值之后,若两个秩次子集中的签到点有相同的位置与签到顺序,则距离值很小;若签到位置相同但签到顺序不同,秩次权值较大,距离值变大,这样在签到点位置特征比较中融合了时间顺序信息,以最终实现时空模式的签到行为相似比较。
具体地:设两个用户UserA和UserB的签到集合经时空数据融合处理后变换为分别包含若干孤立点与若干秩次子集的集合A={Pa1,Pa2,…,PaN,Q′a1,Q′a2,…,Q′aM},B={Pb1,Pb2,…,PbK,Q′b1,Q′b2,…,Q′bL},则两个用户间的行为相似性比较方法如下:
计算集合A中某元素a与集合B的距离其中若a,b是一对孤立点,则d(a,b)按(1)式计算;若a,b是孤立点与秩次子集,则d(a,b)按(2)式计算;若a,b均是秩次子集,则d(a,b)按(3)式计算。计算集合A与集合B的距离同理可计算集合B与集合A的距离d(B,A),则用户UserA和UserB的最终相似性度量为:
H=max[d(A,B),d(B,A)] (8)
公式(8)是典型hausdorff距离公式,但是在具体计算集合内部元素距离的时候分别考虑与孤立点与孤立点、孤立点与秩次子集、秩次子集与秩次子集的情况,融合了空间位置与时间秩次信息,因此本发明本质上扩展了典型hausdorff距离方法,形成了基于LBSN用户签到数据的时空信息来判断用户相似性的时空hausdorff距离方法。
相似性度量值H值越小,表明用户签到行为相似性越高,依据H值的大小,可以从大量用户数据的比较中得出与当前查询用户最相似的用户(即H值最小的用户),实现用户签到行为相似性挖掘。
这里举用户UserA、UserB、UserC的简化实例,对方法的具体实施进行说明。本例中用UserA的历史签到数据进行查询申请,从UserB和UserC中找出签到行为与UserA最相近的人做为数据挖掘结果。
三者历史签到数据按时间顺序排列如下所示:
UserA历史签到数据
UserA | 签到时间 | 签到位置(纬度、经度) |
P<sub>a1</sub> | 2014-02-04 10:52:47 | (24.633811,118.073829) |
P<sub>a2</sub> | 2014-02-04 13:02:12 | (24.623612,118.087136) |
P<sub>a3</sub> | 2014-02-04 18:25:37 | (24.614248,118.071257) |
P<sub>a4</sub> | 2014-04-13 15:21:56 | (24.628761,118.072373) |
UserB历史签到数据
UserB | 签到时间 | 签到位置(纬度、经度) |
P<sub>b1</sub> | 2013-11-04 09:06:14 | (24.604728,118.109194) |
P<sub>b2</sub> | 2013-12-04 13:32:45 | (24.622987,118.086878) |
P<sub>b3</sub> | 2013-12-04 15:25:37 | (24.614014,118.071772) |
P<sub>b4</sub> | 2014-03-22 12:30:16 | (24.585217,118.06894) |
P<sub>b5</sub> | 2014-06-20 18:32:11 | (24.632974,118.093316) |
UserC历史签到数据
步骤1对数据进行时空融合处理。将个用户签到数据分类成孤立点与秩次子集两类。孤立点只保留位置信息,秩次子集中包含若干签到点,并将签到时间替换为秩次信息,秩次子集中保留签到点位置和秩次信息。则:
用户UserA的签到孤立点为Pa4={24.633811,118.073829};Pa1,Pa2,Pa3属于同一天的数据,可以融合成秩次子集,用秩次信息替换时间信息,得到签到秩次子集为Q’a1={P’a1,P’a2,P’a3},其中:
P’a1={24.633811,118.073829,1}
P’a2={24.623612,118.087136,2}
P’a3={24.607225,118.076064,3}
则用户UserA的数据集为A={Pa4,Q’a1}。
用户UserB的签到孤立点为Pb1={24.604728,118.109194},Pb4={24.633811,118.073829},Pb5={24.639489,118.079975},Pb2,Pb3属于同一天的数据,可以融合构成秩次子集,用秩次信息替换时间信息,得到签到秩次子集为Q’b1={P’b2,P’b3},其中:
P’b2={24.622987,118.086878,1}
P’b3={24.614014,118.071772,2}
则用户UserB的数据集为B={Pb1,Pb4,Pb5,Q’b1}。
用户UserC的所有签到点均为孤立点
则用户UserC的数据集为C={Pc1,Pc2,Pc3,Pc4,Pc5,Pc6,Pc7}。
步骤2:
依据UserA的签到数据集A={Pa4,Q’a1}与UserB的签到数据集B={Pb1,Pb4,Pb5,Q’b1},计算二者签到行为相似度。
2.1计算集合A与集合B的距离d(A,B):
计算集合A中各元素与集合B的距离:d(Pa4,B)、d(Q’a1,B)
则集合A与集合B的距离为d(A,B)=max{d(Pa4,B),d(Q’a1,B)}
2.1.1其中d(Pa4,B)计算过程如下:
计算Pa4与Pb1的距离Ds(Pa4,Pb1),由于Pa4与Pb1均为孤立点,因此按(1)式取两点的地理距离Ds(Pa4,Pb1)=d(Pa4,Pb1)=4.582;
同理按(1)式计算Pa4与Pb4的距离Ds(Pa4,Pb4)=4.854;
同理按(1)式计算Pa4与Pb5的距离Ds(Pa4,Pb5)=2.168;
计算Pa4与Q’b1的距离Db(Pa4,Q’b1),由于Pa4为孤立点,Q’b1为秩次子集,因此按(2)式计算:
Db(Pa4,Q’b1)=min{d(Pa4,P’b2),d(Pa4,P’b3)}×{(1+2)/2}
=min{1.6006,1.6409}×1.5=2.4009
因此d(Pa4,B)=min{Ds(Pa4,Pb1),Ds(Pa4,Pb4),Ds(Pa4,Pb5),Db(Pa4,Q’b1)}
=min{4.582,4.854,2.168,2.4009}=2.168
可以看到,虽然Pa4与Q’b1中各点的距离都比较近(都在1.6左右),但是在计算孤立点与秩次子集的距离时,利用秩次信息拉大了它们之间的距离到2.4以上,突显了时间顺序差别的特征。
2.1.2d(Q’a1,B)计算过程如下:
计算Q’a1与Pb1的距离Db(Q’a1,Pb1),由于Q’a1为秩次子集,Pb1为孤立点,同理按(2)式计算二者距离Db(Q’a1,Pb1)=9.1887
同理按(2)式计算Q’a1与Pb4的距离Db(Q’a1,Pb4)=9.709;
同理按(2)式计算Q’a1与Pb5的距离Db(Q’a1,Pb5)=2.6571;
计算Q’a1与Q’b1的距离Dr(Q’a1,Q’b1),由于Q’a1、Q’b1均为秩次子集,因此按(3)式计算:
Dr(Q’a1,Q’b1)=max{d(Q’a1,Q’b1),d(Q’b1,Q’a1)}
其中d(Q’a1,Q’b1)=max{d(P’a1,Q’b1),d(P’a2,Q’b1),d(P’a3,Q’b1)}
其中
d(P’a1,Q’b1)=min{(|1-1|+1)d(P’a1,P’b2),(|1-2|+1)d(P’a1,P’b3)}=1.7855
d(P’a2,Q’b1)=min{(|2-1|+1)d(P’a2,P’b2),(|2-2|+1)d(P’a2,P’b3)}=0.1484
d(P’a3,Q’b1)=min{(|3-1|+1)d(P’a3,P’b2),(|3-2|+1)d(P’a3,P’b3)}=0.1164
因此d(Q’a1,Q’b1)=max{1.7855,0.1484,0.1164}=1.7855
同理可得d(Q’b1,Q’a1)=1.3142
因此Dr(Q’a1,Q’b1)=max{1.7855,1.3142}=1.7855
在计算带秩次的点的距离时,融合了秩次权重,若两个秩次子集中的签到点有相同的位置与签到顺序,则距离值很小,可以看出Q’a1,Q’b1有相似的位置与签到时间顺序,因此融合秩次权重后距离普遍比较小,最大值仅为1.7855;而若签到位置即使相近但签到顺序不同或孤立点没有签到顺序,例如前面计算Db(Q’a1,Pb1)、Db(Pa4,Q’b1)时,秩次权值较大,距离值变大,反映了用户签到行为在时间顺序上的差别。
得到d(Q’a1,B)=min{9.1887,9.709,2.6571,1.7855}=1.7855
d(A,B)=max{d(Pa4,B),d(Q’a1,B)}=max{2.168,1.7855}=2.168
2.2计算集合B与集合A的距离d(B,A)。
计算原理与d(A,B)相同,得d(B,A)=2.143
于是UserA与UserB的相似性距离HAB=max{d(A,B),d(B,A)}=2.168
基于同样的计算原理,得UserA与UserC的相似性距离HAC=3.635
因为HAB<HAC说明在用户UserB与UserC中,UserB是与UserA在签到行为上最相似的用户,UserB即为数据挖掘的结果。本发明方法应用到大用户量数据库上,就能够通过计算用户相似性度量值H,从大量用户数据的比较中得出与当前查询用户最相似的用户(即H值最小的用户),实现用户签到行为相似性挖掘。
尽管结合优选实施方案具体展示和介绍了本发明,但所属领域的技术人员应该明白,在不脱离所附权利要求书所限定的本发明的精神和范围内,在形式上和细节上可以对本发明做出各种变化,均为本发明的保护范围。
Claims (2)
1.一种基于时空模式的用户行为相似性挖掘方法,其特征在于:包括以下步骤:
步骤1:时空数据融合步骤,获取单个用户的所有签到数据,所述签到数据包括签到时间、签到点位置信息,将该签到点按签到时间先后顺序排列,并将该签到点分成孤立点与秩次子集两类,孤立点只保留位置信息,秩次子集中包含若干签到点,并将签到时间转换为秩次信息,秩次子集中保留签到点位置和秩次信息;
步骤2:时空模式匹配步骤:利用时空Hausdorff距离匹配方法,基于秩次信息与签到点位置信息计算出的用户行为相似性,比较孤立点与孤立点之间的相似性距离,秩次子集合与秩次子集合之间的相似性距离,以及孤立点与秩次子集合之间的相似性距离,再根据该相似性距离,得到融合空间与时间两种信息的用户签到行为相似性度量值;
所述步骤1还包括以下步骤:
步骤11:将每个用户的所有原始签到点的签到数据依据时间顺序排列为{P1,P2,P3,...,PM},每个签到点的签到数据为Pi={x,y,t}(i=1,2,...,M),其中(x,y)表示签到点Pi的经纬度位置信息,t表示签到点Pi的签到时间,
步骤12:构成秩次子集,获取每个用户一天的签到点Pi构成单独的子集合Qj={Pj,Pj+1,Pj+2,...,Pj+N}(N≤M),并对该单独的子集合Qj内的签到点赋予秩次权值,即Qj内按时间顺序第一个签到点秩次为rank=1,第二个签到点秩次为rank=2,以此类推,获得秩次后用秩次rank信息替换时间信息t,得到新的秩次子集合Q’j={P’j,P’j+1,...P’j+N},P’j={x,y,rank},
步骤13:构成孤立点集合,所述孤立点的划分方法为:一用户1天以内(从当天0:00:00到23:59:59)只有一个签到点,则该签到点划分为孤立点Pi,由于该孤立点Pi不构成成秩次子集,则去除时间信息,只保留位置信息,形成孤立签到点Pi=(x,y)。
2.根据权利要求1所述的一种基于时空模式的用户行为相似性挖掘方法,其特征在于:所述步骤2具体包括:
步骤21:计算两个独立点P1与P2之间的相似性距离Ds,直接取地理直线距离:
Ds=d(P1,P2) (1)
步骤22:独立点Pi与秩次子集Q’j={P’j,P’j+1,...P’j+N}之间的相似性距离Db计算公式如下:
其中d(Pi,Q′j)=min[d(Pi,P′j),d(Pi,P′j+1),…,d(Pi,P′j+N)],
步骤23:秩次子集Q’i={P’i,P’i+1,...P’i+M}与秩次子集Q’j={P’j,P’j+1,...P’j+N}的相似性距离Dr计算公式如下:
Dr=max[d(Q′i,Q′j),d(Q′j,Q′i)] (3)
其中d(Q′i,Q′j)代表秩次子集Q′i到子集Q′j的距离
d(Q′i,Q′j)=max[d(P′i,Q′j),d(P′i+1,Q′j),…d(P′i+M,Q′j)] (4)
在计算带秩次的点对P′i与P′j的距离时,融合秩次相似性权重值wi,j=|ranki-rankj|+1,则(4)式中的d(P′i,Q′j)按如下方法计算:
d(P′i,Q′j)=min[wi,jd(P′i,P′j),wi,j+1d(P′i,P′j+1),…wi,j+Nd(P′i,P′j+N)] (5)
秩次子集Q′j到子集Q′i的距离d(Q′j,Q′i)的计算公式如下:
d(Q′j,Q′i)=max[d(P′j,Q′i),d(P′j+1,Q′i),…d(P′j+N,Q′i)] (6)
d(P′j,Q′i)=min[wj,id(P′j,P′i),wj,i+1d(P′j,P′i+1),…wj,i+Md(P′j,P′i+M)] (7)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410159039.8A CN103942310B (zh) | 2014-04-18 | 2014-04-18 | 基于时空模式的用户行为相似性挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410159039.8A CN103942310B (zh) | 2014-04-18 | 2014-04-18 | 基于时空模式的用户行为相似性挖掘方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103942310A CN103942310A (zh) | 2014-07-23 |
CN103942310B true CN103942310B (zh) | 2018-12-21 |
Family
ID=51189978
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410159039.8A Active CN103942310B (zh) | 2014-04-18 | 2014-04-18 | 基于时空模式的用户行为相似性挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103942310B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104408043B (zh) * | 2014-10-17 | 2019-02-22 | 深圳大学 | 一种信息处理方法及服务器 |
CN106153031B (zh) * | 2015-04-13 | 2019-08-30 | 骑记(厦门)科技有限公司 | 运动轨迹表示方法和装置 |
CN105389332B (zh) * | 2015-10-13 | 2018-09-11 | 广西师范学院 | 一种地理社交网络下的用户相似性计算方法 |
CN105243148A (zh) * | 2015-10-25 | 2016-01-13 | 西华大学 | 一种基于签到数据的时空轨迹相似性度量方法及系统 |
CN106776930B (zh) * | 2016-12-01 | 2019-06-18 | 合肥工业大学 | 一种融入时间和地理位置信息的地点推荐方法 |
CN107169088B (zh) * | 2017-05-12 | 2020-05-12 | 中国矿业大学 | 一种基于时空交互的用户社交关系强度计算方法及系统 |
CN107515949B (zh) * | 2017-09-14 | 2021-01-15 | 云南大学 | 兴趣点预测和推荐中的用户时空相似性度量方法 |
CN108764951B (zh) * | 2018-03-23 | 2021-01-12 | 广州杰赛科技股份有限公司 | 用户相似度获得方法和装置、设备、存储介质 |
CN109522491B (zh) * | 2018-11-29 | 2020-07-31 | 杭州飞弛网络科技有限公司 | 一种基于位置属性的陌生人社交活动推荐方法与系统 |
CN109857829A (zh) * | 2019-02-16 | 2019-06-07 | 吉林师范大学 | 一种地理信息数据融合系统 |
CN110222278B (zh) * | 2019-06-18 | 2022-05-17 | 东北大学 | 综合因素下用户位置的获取方法 |
CN110826594B (zh) * | 2019-09-29 | 2022-08-09 | 成都华为技术有限公司 | 一种轨迹聚类的方法、设备及存储介质 |
CN110990722B (zh) * | 2019-12-19 | 2020-11-06 | 南京柏跃软件有限公司 | 基于大数据挖掘的模糊共站分析方法及其分析系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102880719A (zh) * | 2012-10-16 | 2013-01-16 | 四川大学 | 基于位置社交网络的用户轨迹相似性挖掘方法 |
CN103488678A (zh) * | 2013-08-05 | 2014-01-01 | 北京航空航天大学 | 一种基于用户签到相似度的好友推荐系统 |
-
2014
- 2014-04-18 CN CN201410159039.8A patent/CN103942310B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102880719A (zh) * | 2012-10-16 | 2013-01-16 | 四川大学 | 基于位置社交网络的用户轨迹相似性挖掘方法 |
CN103488678A (zh) * | 2013-08-05 | 2014-01-01 | 北京航空航天大学 | 一种基于用户签到相似度的好友推荐系统 |
Also Published As
Publication number | Publication date |
---|---|
CN103942310A (zh) | 2014-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103942310B (zh) | 基于时空模式的用户行为相似性挖掘方法 | |
Wu et al. | Inferring demographics from human trajectories and geographical context | |
He et al. | Inferring a personalized next point-of-interest recommendation model with latent behavior patterns | |
Lv et al. | The discovery of personally semantic places based on trajectory data mining | |
Zhang et al. | CoRe: Exploiting the personalized influence of two-dimensional geographic coordinates for location recommendations | |
Hu et al. | Spatio-temporal topic modeling in mobile social media for location recommendation | |
Deng et al. | A user identification algorithm based on user behavior analysis in social networks | |
Jiao et al. | A novel next new point-of-interest recommendation system based on simulated user travel decision-making process | |
Chen et al. | Constructing and comparing user mobility profiles for location-based services | |
Cao et al. | Automatic user identification method across heterogeneous mobility data sources | |
Wang et al. | Analysis of user behaviors by mining large network data sets | |
US20120143859A1 (en) | Real-time personalized recommendation of location-related entities | |
Chen et al. | Constructing and comparing user mobility profiles | |
CN107341261B (zh) | 一种面向位置社交网络的兴趣点推荐方法 | |
Lv et al. | Discovering personally semantic places from gps trajectories | |
Falcone et al. | What is this place? Inferring place categories through user patterns identification in geo-tagged tweets | |
Chen et al. | Predicting next locations with object clustering and trajectory clustering | |
Kong et al. | CoPFun: An urban co-occurrence pattern mining scheme based on regional function discovery | |
Yuan et al. | Multi-granularity periodic activity discovery for moving objects | |
Wei et al. | Finding and tracking local Twitter users for news detection | |
Assem et al. | RCMC: Recognizing crowd-mobility patterns in cities based on location based social networks data | |
Mazumdar et al. | An approach to compute user similarity for GPS applications | |
Redondo et al. | A hybrid analysis of LBSN data to early detect anomalies in crowd dynamics | |
Sun et al. | Deep convolutional autoencoder for urban land use classification using mobile device data | |
Liu et al. | Dynamic metric embedding model for point-of-interest prediction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address | ||
CP03 | Change of name, title or address |
Address after: 303-e, Zone C, innovation building, software park, Xiamen Torch hi tech Zone, Xiamen, Fujian, 361000 Patentee after: Xiamen Yaxun Zhilian Technology Co.,Ltd. Country or region after: China Address before: No.46 guanri Road, phase II, software park, Xiamen City, Fujian Province, 361000 Patentee before: XIAMEN YAXON NETWORK Co.,Ltd. Country or region before: China |