CN105389332A - 一种地理社交网络下的用户相似性计算方法 - Google Patents

一种地理社交网络下的用户相似性计算方法 Download PDF

Info

Publication number
CN105389332A
CN105389332A CN201510669496.6A CN201510669496A CN105389332A CN 105389332 A CN105389332 A CN 105389332A CN 201510669496 A CN201510669496 A CN 201510669496A CN 105389332 A CN105389332 A CN 105389332A
Authority
CN
China
Prior art keywords
user
access
time
similarity
lvs
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510669496.6A
Other languages
English (en)
Other versions
CN105389332B (zh
Inventor
段炼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangxi Teachers College
Original Assignee
Guangxi Teachers College
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangxi Teachers College filed Critical Guangxi Teachers College
Priority to CN201510669496.6A priority Critical patent/CN105389332B/zh
Publication of CN105389332A publication Critical patent/CN105389332A/zh
Application granted granted Critical
Publication of CN105389332B publication Critical patent/CN105389332B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于舆情监控领域,涉及社交网络用户推荐及信息服务推荐技术分析,尤其涉及一种地理社交网络下的用户相似性计算方法。主要包括以下步骤:包括时空语义抽取、建立用户时空访问模型及用户相似性计算。本发明的有益效果是(1)时空语义划分更周全,同时降低了数据稀疏性带来的问题;(2)统一考虑了位置功能语义和地理因素对用户相似性的影响,对用户画像的建模更加全面;(3)结合轨迹的物理时空邻近性与语义时空相似性,进行社交网络用户相似性计算,准确率更高,进而实现对社交网络用户群体的划分,用户分类及其兴趣类型判断效果更优。

Description

一种地理社交网络下的用户相似性计算方法
技术领域
本发明属于舆情监控领域,涉及社交网络用户推荐及商业服务推荐技术分析,尤其涉及一种地理社交网络下的用户相似性计算方法。
背景技术
随着具有移动定位功能的智能移动终端普及和在线社交网络的发展,位置服务和在线社交网络正趋于融合,产生了LBSN(Location-basedonlineSocialNetwork)。由于用户能通过LBSN实时记录着自己的地理行为,以及自己对地理事件和社会功能的感受,LBSN不仅反映了居民群体间的虚拟关系和联系,也是城市实体活动在网络空间中的体现。当前LBSN挖掘的一个重要研究方向是用户相似性计算。城市中居民由于其收入水平、工作性质、受教育程度等因素的不同,其行为空间范围、感兴趣位置和到达位置的时间甚至是生活行为习性上具有相似性,从而呈现出这一类用户所独有的社会移动模式,反映这一类用户的社会角色和兴趣偏好,能支撑好友推荐、信息推荐、位置服务推荐和地理广告营销等一系列的移动在线应用,同时也是挖掘社会时空行为模式,进而解读城市空间结构的重要视角。
当前这方面的研究趋势有两种,一种是将LBSN中的用户轨迹(签到数据)抽象为停留点(StayPoint)序列,或直接将用户某段时间内的签到数据作为停留点序列,利用停留点序列间各基本构成单元间的地理范围重叠性或功能语义重叠性判断他们之间的相似程度,从而判断用户的相似度。如对停留点进行空间层次聚类,利用不同空间尺度的聚类簇作为轨迹基本构成单元,通过找出时间约束下轨迹间的最长相似子序列表达轨迹间的相似性,进而体现出用户的相似性;或者基于停留点覆盖区域的语义功能进行层次聚类,利用不同粒度的聚类簇作为轨迹基本构成单元,通过构建Precedencegraph找到两个序列间的若干条时间约束下的最优相似子序列,进行体现用户间的相似性。
另外一种用户相似性计算方法是利用LDA(LatentDirichletAllocation)SVD等潜在因子模型,利用潜在主题表达用户,再通过潜在主题的相似性获取用户间的相似性。如将用户和位置看做LDA中所表达的“文章”和“词”,用户在长时间内对各位置的访问频次最为“词汇”出现频次,利用LDA模型获得用户潜在主题;或者用所有用户在多个时间内对各位置的访问频次生成矩阵,基于SVD分解获得用户对未记录未知的喜好程度,基于SVD能获取表达用户的低维特征向量,同样可用以实现用户相似性比较。
然而,当前技术和研究存在如下问题:
(1)未见统一考虑位置功能语义和地理因素对用户相似性的影响。已有研究依据轨迹的物理形态、驻留空间区域间的空间邻近度表达停留点序列间的相似性,然而,位置的语义特征表达了更多的用户兴趣信息,在轨迹的物理形态无法重合的情况下也能表达相似的用户兴趣。
(2)缺少较为周全的语义时间划分方法。没有考虑社会作息的总体规律,对于不是同一物理时刻但是具有相同语义含义的时间,如工作时间、节假日等无法识别;一些文献通过人为设定每个语义时段的间隔,带有较大的随意性,这些时间槽无法体现时间的社会人文含义,也无法最大程度体现出用户间的活跃差异度。
(3)缺少妥当表达不同时段内位置访问强度的方法。没有考虑用户在不同时间内的签到活跃程度和签到数量差异,忽略了尽管长时间上位置到达规律类似的、但位置到达时间差别突出的用户区别。
(4)缺少表达用户长时间内具有统计意义的位置访问序列模式。一类研究是对原始停留点序列进行时间约束下的比较,寻找他们的最长相似子序列这类方法由于要逐条轨迹相互比较,而当某些用户间的位置驻留记录总数差异较大时,原始停留点序列条数较少的用户与其他用户间的相似度会被削弱。另一类研究是将用户所有的位置访问数据作为一个对象,利用如LDA模型进行对象相似性的比较,能在全局时间上获得具有统计意义上位置访问强度,但没有考虑用户每个时段在各位置出现的统计意义上的强度。
发明内容
本发明的发明目的在于针对现有技术中存在的上述问题,提供一种地理社交网络下的用户相似性计算方法。
一种地理社交网络下的用户相似性计算方法,包括以下步骤:
(1)时空语义抽取:包括基于各用户对位置的访问热度,对位置进行的空间层次聚类;还包括依据用户连续签到位置间的距离、时间差异进行的时间层次聚类;
(2)建立用户时空访问模型:为基于不同时空语义条件下,构建的位置访问序列,所述位置访问序列的表达式为:
LVSu,o,k={Muti(lu,1,1,lu,1,2,…,lu,T1,|Sk|),Muti(lu,2,1,lu,2,2,…,lu,2,|Sk|),…,Muti(lu,|To|,1,lu,|To|,2,…,lu,|To|,|Sk|)}
其中,每个节点Muti(lu,|To|,1,lu,|To|,2,…,lu,|To|,|Sk|)为用户u在第|To|个语义时间内位于位置1——|Sk|个语义位置的访问热度分布,lu,|To|,|SK|表示用户u在第|To|个语义时间内对位置Sk的访问热度;
(3)用户相似性计算:所述用户相似性的计算公式为:
DIS(u,v)=Σo∈Qo×DISo(LVSu,LVSv)]
其中,β0为第o层时间尺度下的位置访问差异权重值;LVSu、LVSv分别为第o层时间尺度时用户u或v在所有空间尺度上的位置分布访问序列;DISo(LVSu,LVSv)表示两用户在第o层时间尺度时所有空间尺度上的差异值累积量。
进一步地,所述用户u对位置s的访问热度为:
其中,I{u→s}表示访问过s的用户数量;表示各用户u访问位置s的概率;U为用户集合;Ens(s)为位置熵。
进一步地,所述位置熵Ens(s)的表达式为:
其中,au,s为用户u访问位置s的次数。
更进一步地,所述步骤(3)的位置访问差异权重值为:
其中,Q表示时间尺度的总层数,i表示第i层时间尺度。
综上所述,本发明相对现有技术的有益效果是:
(1)自适应的进行用户活动时间的语义划分,语义时间划分更周全,较直接采用物理时间来说,更能从社会人文角度体现用户间的区别,同时降低了数据稀疏性带来的问题。
(2)统一考虑了位置功能语义和地理因素对用户相似性的影响,可获取更多的用户兴趣信息。
(3)妥当表达不同时段内位置访问强度的方法,缓减了因位置记录总数量级和用户记录意愿差异导致的用户位置访问强度不符合现实的情况。考虑用户在不同时间内的签到活跃程度和签到数量差异,呈现了长时间上位置到达规律类似的、但位置到达时间差别突出的用户区别。表达用户长时间内具有统计意义的位置访问序列模式,更准确地描述用户社会移动特征。
(4)依据位置热点计算公式,考虑了用户之间在所有位置签到总数的差异,可更加准确描述用户对各类型位置和区域的喜好水平。
(5)结合轨迹的物理时空邻近性与语义时空相似性,进行社交网络用户相似性计算,准确率更高;进而实现对社交网络用户群体的划分,用户分类效果更优。
附图说明
图1为社交网络下的用户相似性计算的原则流程图。
具体实施方式
以下将结合附图和具体实施例,对本发明提供的技术方案进行说明。
实施例1
步骤1:时空语义抽取
(1)多尺度空间语义
利用Checkin数据中的VenueID作为参数,通过Foursquare的RESTAPI获取Checkin位置的POI名称,从而得到该位置的最底层功能语义,如“WuhanUniversity”,而通过RESTAPI可进一步获取“WuhanUniversity”隶属于“Education”类,从而获取了该Checkin位置更高尺度下的功能语义,以此类推,从而要将各用户所有的Checkin位置映射到层次POI分类结构中,形成位置的多尺度语义树。
为表达用户在不同空间尺度的停留的相似度,我们在基于地理区划进行位置语义划分中,引入用户对位置的访问强度,基于位置间的空间距离,进行位置的空间层次聚类,从而在聚类邻近度中同时考虑了社会因素和地理空间因素。
设:位置li,lj∈S,S为位置集合,d(li,lj)为位置li和lj的空间距离,U为用户集合,ci为各用户在位置li的访问强度构成的向量,ci=[ci,1,ci,2,…,ci,u,…,ci,|U|]。基于IF-IDF表示用户u在位置li的访问强度ci,u
其中,ai,u为用户u访问i的次数,au为用户u访问所有位置的总次数,Ι[u′→i]为访问过i的用户数量。访问强度综合表达了该位置对用户的重要程度。相对于本方法,直接采用频次无法准确反映总签到数量少和总签到数量多的用户间对某位置的兴趣相似程度。
基于Pearson相关系数,表示位置li和lj的社会环境差异:
其中,为所有用户访问位置li的平均强度,σ(ci)为所有用户对位置li的访问强度的标准差。当两位置的社会环境完全相同时,ρi,j为0,反之,ρi,j趋向于2。相对于余弦距离或杰卡德相似系数,Pearson相关系数能体现用户在两位置上的兴趣度是否具有线性正相关或负相关性,即用户对其中一个位置的访问强度的增加是否引起该用户对另外一个位置访问强度的增加或减少,表现出位置对不同用户的吸引相似度。由此,我们定义两位置的聚类距离:
ω(li,lj)=d(li,lj)×(w+ρi,j)
其中,w为固定系数,一般设为0.1。
基于ω(li,lj),采用DBSCAN密度聚类方法,即可得到聚类结果。随着聚类邻近阈值的增加,将相似类型用户的日常社会行为集聚区域合并为同一区域,从而获取该更大尺度的语义地理区位,最终形成层次空间聚类。
(2)多尺度时间语义
通过分析发现,用户连续两个签到位置的距离,反映了该时段内用户社会行为发生的空间范围。因此,基于每个时段内用户签到位置与前一签到位置间的地理距离和间隔时间,得到t时间槽内用户u到达位置j虚拟移动速度υt,u,j
该值越大,表明用户在该时段前的活动范围越广。假设用户在t时间槽内进行了k次签到,则其在该时段内的平均虚拟移动速度为:
反映了用户在单位时间内的移动范围。由于不同类型用户在不同时刻的活动范围具有明显差异,因此,对区分不同类型用户有着显著作用。
基于社会规律,除了在一天的24小时中进行语义时段划分外,我们还需考虑工作日和周末时间用户行为的差异,如工作日和休息日,以捕获用户较长时间内的位置访问相近程度。
步骤2:建立用户时空访问模型
构造多树结构——多尺度时空访问森林:Forestu,表达用户u的日常签到位置集合特征如图所示。其中,Forestu内的每课树Treeu,h,t表达用户u在第h层时间尺度内的t语义时段中的签到位置特征,Treeu,h,t中的每个层次layeru,h,t,l,表达用户u在t语义时段对该l层空间尺度下各语义位置的访问特征,layerl中的每个结点su,h,t,l,i,表示用户u在t语义时段对第l层的第i个位置的访问热度。本文中,第一层时间尺度下有7个语义时段,第二层时间尺度下有3个语义时段,加上周末和工作日这2个语义时段,则每个用户的MSVF共有7+3+2=12棵树。由于每个位置有5类空间语义属性,则每棵树具有5层,每一层的结点数量最多时为该层空间语义中的位置类型个数。
本文在IF-IDF的基础上,进一步引入位置熵,表达位置s对各用户重要性的差异程度。设各用户访问位置s的概率位置熵定义为:
位置熵描述了位置受欢迎度在用户间分布的混沌状况。人们访问一个位置的概率越相近,表明该位置在人们心中的地位越一致,对于识别用户的差异就越不明显,位置熵越大;反之,位置熵小,人们对该位置的访问概率差异很大,表明该位置受欢迎程度差异很大,能有效表达用户间的差异。由此,用户u对位置s的访问热点为:
其中,I{u→s}表示访问过s的用户数量。位置s被用户u访问的频率越高,访问过该位置的用户越少,被各用户访问率的差异越大,该位置对s来说的热度就越大,从而更加准确描述用户对位置的喜好水平。
依据位置热点计算公式,我们就能对每棵树的结点进行填充,从而为每个用户构造出完整的MSVF。与式(2)不同的是,每棵树中的结点s是用户在某语义时间内在访问热点,所以,用户访问位置s的概率变为用户在语义时间t访问位置的概率为:
其中,au,t,s为用户u在语义时间t访问位置s的次数。相应,将式(2)变为:
其中,I{ut→s}表示在语义时间t到达位置s的用户数量。之后,对用户热点进行归一化:
至此,我们对所有时空语义尺度下用户的各时空语义结点赋予了访问热度,为每个用户填充了MSVF。
(1)时间尺度重要性计算
用户u和v间的距离定义为:
其中,Ti为第i个时间尺度,βi为时间尺度i下的位置访问差异度权重值,为用户在第i个时间尺度的第j个语义时间下的位置访问热度树。
将中等时间尺度下用户位置访问差异权重设置最高,其他时间尺度随着其距中等时间尺度的增加而变小,设共有Q层时间尺度,中等时间尺度的位置访问差异权重基于线性衰弱,则其他时间尺度的位置访问差异权重值为:
(2)空间尺度重要性计算
设第1层空间尺度(最大空间尺度)的权重为α1=1,第i层空间尺度的权重为:
αi=ei(5)
越小空间尺度下两用户的活动区域越相近,他们的相似度会呈指数增长。
位置特征树中,空间语义层的下面是基于POI的位置类型划分,同时间尺度重要性相似,中等空间尺度的POI语义层次应当较为妥当的反映出具有相似社会移动和兴趣偏好的用户群体,随着距离中等尺度的距离增加,越大和越小功能尺度的POI对反映相似用户行为模式的作用越低。因此,设空间尺度(非POI功能尺度)总共有Y层,POI功能尺度有Z层,中等POI功能尺度的位置访问差异权重基于线性衰弱,则其他POI功能尺度的位置访问差异权重值为:
为了区分用户的位置序列,需从同一时间尺度下的不同语义时间位置特征树中抽取多条不同空间尺度的位置分布访问序列(LocationVisitingSequence,LVS),序列中的每个节点为用户在该语义时间访问该空间尺度下各语义位置的多项式分布。以第2层时间尺度为例,该时间尺度下共有4课位置特征树,每颗树有5层,则共有5条LVS,每条LVS共有4个结点。
定义位置分布访问序列(LVS)为特定时间尺度下,用户在各语义时间的位置访问热点分布序列构成。用户u在第o个时间尺度和第k个空间尺度下的访问序列表示为:LVSu,o,k={Muti(lu,1,1,lu,1,2,…,lu,T1,|Sk|),Muti(lu,2,1,lu,2,2,…,lu,2,|Sk|),…,Muti(lu,|To|,1,lu,|To|,2,…,lu,|To|,|Sk|)},每个节点Muti(lu,|To|,1,lu,|To|,2,…,lu,|To|,|Sk|)为用户u在第|To|个语义时间内位于位置1——|Sk|个语义位置的访问热度多项式分布。步骤3:用户相似性计算
根据以上两个步骤,进行用户相似性的比较,就是进行每个用户相应LVS的相似性比较。LVS的每个结点可看成是随机变量P(s|t),即语义时间t内在各位置的分布,而随机变量间的相似性计算一般采用KL散度(Kullback–Leiblerdisvergence,简称KL距离)表达。KL散度,也叫做相对熵(RelativeEntropy),能衡量相同事件空间里两个概率分布的差异情况。其物理意义是:在相同事件空间里,概率分布P(x)的事件空间,若用概率分布Q(x)编码时,平均每个基本事件(符号)编码长度增加了多少比特。设LVSu,o,k的在t语义时间的结点为lu,t~Muti(lu,t,1,lu,t,2,…);,则处于第o层时间尺度和第k层空间尺度时,两个用户u和v在语义时间t距离表示为:
但是,KL散度不具有对称性,即从分布lu,t到lv,t的距离(或度量)通常并不等于从lv,t到lu,t的度量。此外,用户不可能在某一语义时段内到达过的语义位置极为有限,大量位置的概率为0,从而造成KL距离无穷大,或变为0,产生错误的相似度结果。为此,我们对每个语义时间内的位置s的到达概率统一加入一个较小的背景值τ,并利用KLo,k(lu,t||lv,t)和KLo,k(lv,t||lu,t)两者的结果共同表用户u和v在语义时间KL修正距离:
其中,
定义用户时态熵表达用户u在语义时间t的位置类型访问集中程度,即:
如果用户在t时间访问各个位置的热度相当,则时态熵大,用户在该时间可能位于任何位置,反之,用户趋向于在时间t访问固定的若干位置。利用两用户在同一位置的时态熵均值表达他们在该位置的随机程度:
当两用户AKL距离较小而平均时态熵较大时,他们在t语义时间的位置访问随机性高,则两用户在该时间内某一位置共现的概率较低,用户相似度降低;而当两用户AKL距离较大时而平均时态熵较大时,这表明了两用户在该时间到达的位置多,他们在同一位置共现的概率反而会有所升高。
通过对Checkin数据集的处理和观测,我们发现,两用户的AKL较小或较大时,他们的时态熵均值处于低值的概率高,即AHo,k(lu,s,lv,s)小于某一阈值的次数多。
这一发现揭示了兴趣或社会阶层差异巨大的两种用户群体间,尽管他们驻留的位置类型和位置地理分布范围的差异十分明显,但他们日常驻留的位置个数有限,驻留时间具有较强规律可循;而对于在位置s的AKL差异不是非常大的用户来说,他们在这些的AH值较大,通过对相应用户群体的分析发现,这部分群体中的59.78%的用户(占用户总数的3.92%)不位于AKL较小和较大时候的任何一个用户集合,其自身的时态熵很大,从而拉大了与其他用户共有的平均时态熵。这些用户对位置访问的时间随机性强,经过计算,在任意尺度的语义位置层次中,这部分群体访问的位置类型数量的平均值要高于其余用户,每天访问的位置序列和序列的物理长度也高于其余用户,有理由怀疑这部分用户群体的签到数据是通过某种类似刷票软件生成的“伪数据”。
同时,两用户在位置的时态熵差异越大,则他们的相似性程度越低。利用两用户时态熵差表达他们在该位置的随机差异程度:
ΔH(lu,s,lv,s)=|H(lu,s)-H(lv,s)|(11)
基于平均时态熵和时态熵差,得到用户u和v在语义时间t距离公式:
用户u和v之间在时空尺度分别为o和k时的LVS的距离可表示为:
DISo,k(LVSu,o,k,LVSv,o,k)=Σt∈Toδo,k(lu,t,lv,t)(13)
然而,KL散度无法体现用户不同时间下的签到强度和签到兴致,而如果考虑了用户在该时刻的签到强度,即当前时刻签到次数与用户总签到次数之比,即可表达用户在语义时间的位置访问序列特征和兴趣强度差异:
其中,au为用户u的总签到次数,au,t为用户u在语义时间t的签到次数。Lst(u,v)反映了用户u、v在各语义时间内签到强度的差别累计量。
基于式(14),结合不同空间尺度的权重,可获通过两用户在第o层时间尺度上各LVS相似性累计公式:
DISo(LVSu,LVSv)=Σk∈(Y+Z)k×DIS`o,k(LVSu,o,k,LVSv,o,k)](15)
则各时间尺度下用户间的相似性累计公式为:
DIS(u,v)=Σo∈Qo×DISo(LVSu,LVSv)](16)
DIS(u,v)可看做是为用户u和v之间的距离。基于式(16)和密度聚类OPTICS,便可将用户分为若干群体,每个用户群体表示一类社会移动模式。

Claims (4)

1.一种地理社交网络下的用户相似性计算方法,其特征在于,包括以下步骤:
(1)时空语义抽取:包括基于各用户对位置的访问热度,对位置进行的空间层次聚类;还包括依据用户连续签到位置间的距离、时间差异进行的时间层次聚类;
(2)建立用户时空访问模型:为基于不同时空语义条件下,构建的位置访问序列,所述位置访问序列的表达式为:
LVSu,o,k={Muti(lu,1,1,lu,1,2,…,lu,T1,|Sk|),Muti(lu,2,1,lu,2,2,…,lu,2,|Sk|),…,Muti(lu,|To|,1,lu,|To|,2,…,lu,|To|,|Sk|)}
其中,每个节点Muti(lu,|To|,1,lu,|To|,2,…,lu,|To|,|Sk|)为用户u在第|To|个语义时间内位于位置1——|Sk|个语义位置的访问热度分布,lu,|To|,|SK|表示用户u在第|To|个语义时间内对位置Sk的访问热度;
(3)用户相似性计算:所述用户相似性的计算公式为:
D I S ( u , v ) = Σ o ∈ Q [ β o × DIS o ( LVS u , LVS v ) ]
其中,β0为第o层时间尺度下的位置访问差异权重值;LVSu、LVSv分别为第o层时间尺度时用户u或v在所有空间尺度上的位置分布访问序列;
DISo(LVSu,LVSv)表示两用户在第o层时间尺度时所有空间尺度上的差异值累积量。
2.根据权利要求1所述的一种地理社交网络下的用户相似性计算方法,其特征在于:所述步骤(1)中用户u对位置s的访问热度为:
l u , s = v u , s × l o g | U | I { u → s } × e - E n s ( s )
其中,I{u→s}表示访问过s的用户数量; v u , s = a u , s Σ x ∈ S a u , x 表示各用户u访问位置s的概率;U为用户集合;Ens(s)为位置熵。
3.根据权利要求2所述的一种地理社交网络下的用户相似性计算方法,其特征在于:所述位置熵Ens(s)的表达式为:
E n s ( s ) = - Σ u ∈ U [ v u , s Σ x ∈ U v x , s l o g v u , s Σ x ∈ U v x , s ]
其中,au,s为用户u访问位置s的次数。
4.根据权利要求1所述的一种地理社交网络下的用户相似性计算方法,其特征在于:所述步骤(3)的位置访问差异权重值为:
β i = 1 1 + e | i - Q 2 | , i ≠ Q 2
其中,Q表示时间尺度的总层数,i表示第i层时间尺度。
CN201510669496.6A 2015-10-13 2015-10-13 一种地理社交网络下的用户相似性计算方法 Expired - Fee Related CN105389332B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510669496.6A CN105389332B (zh) 2015-10-13 2015-10-13 一种地理社交网络下的用户相似性计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510669496.6A CN105389332B (zh) 2015-10-13 2015-10-13 一种地理社交网络下的用户相似性计算方法

Publications (2)

Publication Number Publication Date
CN105389332A true CN105389332A (zh) 2016-03-09
CN105389332B CN105389332B (zh) 2018-09-11

Family

ID=55421622

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510669496.6A Expired - Fee Related CN105389332B (zh) 2015-10-13 2015-10-13 一种地理社交网络下的用户相似性计算方法

Country Status (1)

Country Link
CN (1) CN105389332B (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106022934A (zh) * 2016-05-05 2016-10-12 北京邮电大学 一种基于移动轨迹模式的潜在好友发现方法及系统
CN106056455A (zh) * 2016-06-02 2016-10-26 南京邮电大学 一种基于位置和社交关系的群组与地点推荐方法
CN107181672A (zh) * 2017-06-09 2017-09-19 西安电子科技大学 在位置社交网络中基于时间分布相对熵的好友推荐方法
CN107515949A (zh) * 2017-09-14 2017-12-26 云南大学 兴趣点预测和推荐中的用户时空相似性度量方法
CN108009690A (zh) * 2017-12-22 2018-05-08 北京工业大学 一种基于模块度最优化的地面公交扒窃团体自动检测方法
CN108399189A (zh) * 2018-01-23 2018-08-14 重庆邮电大学 基于社团发现的好友推荐系统及其方法
CN108520471A (zh) * 2018-04-27 2018-09-11 广州杰赛科技股份有限公司 重叠社区发现方法、装置、设备及存储介质
CN108960624A (zh) * 2018-07-03 2018-12-07 深圳市和讯华谷信息技术有限公司 基于用户到访信息的网格相似度判定方法、装置和系统
CN109213926A (zh) * 2018-07-12 2019-01-15 南京邮电大学 一种基于社区划分和多源信息融合的地点推荐方法
CN109344260A (zh) * 2018-08-28 2019-02-15 北京明略软件系统有限公司 一种基于时空轨迹的隐性关系挖掘方法、系统和终端
CN109977301A (zh) * 2019-02-28 2019-07-05 贵阳学院 一种用户使用习惯挖掘方法
CN110059795A (zh) * 2018-01-18 2019-07-26 中国科学院声学研究所 一种融合地理位置与时间特征的移动用户节点组网方法
CN110322295A (zh) * 2019-07-09 2019-10-11 北京百度网讯科技有限公司 关系强度确定方法及系统、服务器、计算机可读介质
CN110348990A (zh) * 2019-06-19 2019-10-18 北京淇瑀信息科技有限公司 基于用户出行轨迹的信贷额度调整方法、装置及电子设备
CN110442715A (zh) * 2019-07-31 2019-11-12 北京大学 一种基于多元大数据的综合城市地理语义挖掘方法
CN110515981A (zh) * 2018-05-21 2019-11-29 国家计算机网络与信息安全管理中心 一种基于时空轨迹的用户识别方法及装置
CN110519702A (zh) * 2019-08-19 2019-11-29 福州林景行信息技术有限公司 一种基于群体社交的文化旅游出行轨迹生成及服务系统及其工作方法
CN110895588A (zh) * 2018-09-13 2020-03-20 中国移动通信有限公司研究院 一种数据处理方法及设备
CN111159763A (zh) * 2019-12-26 2020-05-15 银江股份有限公司 一种涉法人员群体画像分析系统及方法
CN111723616A (zh) * 2019-03-20 2020-09-29 杭州海康威视系统技术有限公司 一种人员相关性度量方法及装置
CN112560910A (zh) * 2020-12-02 2021-03-26 中国联合网络通信集团有限公司 用户分类方法和装置
CN117520906A (zh) * 2024-01-05 2024-02-06 北京航空航天大学 基于人群出行活动熵的不同特征人群分类方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120030734A1 (en) * 2010-07-28 2012-02-02 At&T Intellectual Property I, L.P. Femtocell access provisioning based on social network, presence, and user preferences
CN102880719A (zh) * 2012-10-16 2013-01-16 四川大学 基于位置社交网络的用户轨迹相似性挖掘方法
CN103577592A (zh) * 2013-11-13 2014-02-12 西安工程大学 基于性格相似度匹配计算的网络社区用户好友推荐方法
CN103942310A (zh) * 2014-04-18 2014-07-23 厦门雅迅网络股份有限公司 基于时空模式的用户行为相似性挖掘方法
CN103995859A (zh) * 2014-05-15 2014-08-20 北京航空航天大学 一种应用于lbsn网络的基于地理标签的热点区域事件探测系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120030734A1 (en) * 2010-07-28 2012-02-02 At&T Intellectual Property I, L.P. Femtocell access provisioning based on social network, presence, and user preferences
CN102880719A (zh) * 2012-10-16 2013-01-16 四川大学 基于位置社交网络的用户轨迹相似性挖掘方法
CN103577592A (zh) * 2013-11-13 2014-02-12 西安工程大学 基于性格相似度匹配计算的网络社区用户好友推荐方法
CN103942310A (zh) * 2014-04-18 2014-07-23 厦门雅迅网络股份有限公司 基于时空模式的用户行为相似性挖掘方法
CN103995859A (zh) * 2014-05-15 2014-08-20 北京航空航天大学 一种应用于lbsn网络的基于地理标签的热点区域事件探测系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张莹等: ""基于位置的社交网络用户轨迹相似性算法"", 《四川大学学报(工程科学版)》 *
袁书寒等: ""位置服务社交网络用户行为相似性分析"", 《计算机应用》 *

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106022934A (zh) * 2016-05-05 2016-10-12 北京邮电大学 一种基于移动轨迹模式的潜在好友发现方法及系统
CN106056455A (zh) * 2016-06-02 2016-10-26 南京邮电大学 一种基于位置和社交关系的群组与地点推荐方法
CN107181672A (zh) * 2017-06-09 2017-09-19 西安电子科技大学 在位置社交网络中基于时间分布相对熵的好友推荐方法
CN107515949A (zh) * 2017-09-14 2017-12-26 云南大学 兴趣点预测和推荐中的用户时空相似性度量方法
CN107515949B (zh) * 2017-09-14 2021-01-15 云南大学 兴趣点预测和推荐中的用户时空相似性度量方法
CN108009690A (zh) * 2017-12-22 2018-05-08 北京工业大学 一种基于模块度最优化的地面公交扒窃团体自动检测方法
CN108009690B (zh) * 2017-12-22 2022-01-14 北京工业大学 一种基于模块度最优化的地面公交扒窃团体自动检测方法
CN110059795A (zh) * 2018-01-18 2019-07-26 中国科学院声学研究所 一种融合地理位置与时间特征的移动用户节点组网方法
CN108399189A (zh) * 2018-01-23 2018-08-14 重庆邮电大学 基于社团发现的好友推荐系统及其方法
CN108520471A (zh) * 2018-04-27 2018-09-11 广州杰赛科技股份有限公司 重叠社区发现方法、装置、设备及存储介质
CN108520471B (zh) * 2018-04-27 2021-06-18 广州杰赛科技股份有限公司 重叠社区发现方法、装置、设备及存储介质
CN110515981A (zh) * 2018-05-21 2019-11-29 国家计算机网络与信息安全管理中心 一种基于时空轨迹的用户识别方法及装置
CN110515981B (zh) * 2018-05-21 2022-04-12 国家计算机网络与信息安全管理中心 一种基于时空轨迹的用户识别方法及装置
CN108960624A (zh) * 2018-07-03 2018-12-07 深圳市和讯华谷信息技术有限公司 基于用户到访信息的网格相似度判定方法、装置和系统
CN109213926A (zh) * 2018-07-12 2019-01-15 南京邮电大学 一种基于社区划分和多源信息融合的地点推荐方法
CN109344260A (zh) * 2018-08-28 2019-02-15 北京明略软件系统有限公司 一种基于时空轨迹的隐性关系挖掘方法、系统和终端
CN110895588A (zh) * 2018-09-13 2020-03-20 中国移动通信有限公司研究院 一种数据处理方法及设备
CN110895588B (zh) * 2018-09-13 2022-07-22 中国移动通信有限公司研究院 一种数据处理方法及设备
CN109977301A (zh) * 2019-02-28 2019-07-05 贵阳学院 一种用户使用习惯挖掘方法
CN111723616B (zh) * 2019-03-20 2023-06-02 杭州海康威视系统技术有限公司 一种人员相关性度量方法及装置
CN111723616A (zh) * 2019-03-20 2020-09-29 杭州海康威视系统技术有限公司 一种人员相关性度量方法及装置
CN110348990A (zh) * 2019-06-19 2019-10-18 北京淇瑀信息科技有限公司 基于用户出行轨迹的信贷额度调整方法、装置及电子设备
CN110322295A (zh) * 2019-07-09 2019-10-11 北京百度网讯科技有限公司 关系强度确定方法及系统、服务器、计算机可读介质
CN110442715A (zh) * 2019-07-31 2019-11-12 北京大学 一种基于多元大数据的综合城市地理语义挖掘方法
CN110519702A (zh) * 2019-08-19 2019-11-29 福州林景行信息技术有限公司 一种基于群体社交的文化旅游出行轨迹生成及服务系统及其工作方法
CN111159763A (zh) * 2019-12-26 2020-05-15 银江股份有限公司 一种涉法人员群体画像分析系统及方法
CN112560910A (zh) * 2020-12-02 2021-03-26 中国联合网络通信集团有限公司 用户分类方法和装置
CN112560910B (zh) * 2020-12-02 2024-03-01 中国联合网络通信集团有限公司 用户分类方法和装置
CN117520906A (zh) * 2024-01-05 2024-02-06 北京航空航天大学 基于人群出行活动熵的不同特征人群分类方法及系统
CN117520906B (zh) * 2024-01-05 2024-03-12 北京航空航天大学 基于人群出行活动熵的不同特征人群分类方法及系统

Also Published As

Publication number Publication date
CN105389332B (zh) 2018-09-11

Similar Documents

Publication Publication Date Title
CN105389332A (zh) 一种地理社交网络下的用户相似性计算方法
Cao et al. Habit2vec: Trajectory semantic embedding for living pattern recognition in population
Yin et al. Joint modeling of user check-in behaviors for point-of-interest recommendation
CN105740401B (zh) 一种基于个体行为和群体兴趣的兴趣地点推荐方法及装置
CN105532030B (zh) 用于分析目标实体的移动的装置、系统和方法
Pooler Measuring geographical accessibility: a review of current approaches and problems in the use of population potentials
CN105719191B (zh) 多尺度空间下不确定行为语义的社交群体发现方法
CN105320719B (zh) 一种基于项目标签和图形关系的众筹网站项目推荐方法
CN110097125A (zh) 一种基于嵌入表示的跨网络账户关联方法
CN104462190A (zh) 一种基于海量空间轨迹挖掘的在线的位置预测方法
CN105183870A (zh) 一种利用微博位置信息的城市功能区探测方法及系统
CN109409393A (zh) 一种使用轨迹嵌入对用户活动轨迹建模的方法
CN109726594A (zh) 一种基于差分隐私的新型轨迹数据发布方法
CN109711883A (zh) 基于U-Net网络的互联网广告点击率预估方法
CN107909098A (zh) 一种基于大数据的城市居民锚点计算方法
CN109508428A (zh) 基于兴趣点真流行度与隐式信任挖掘的兴趣点推荐方法
CN108874877A (zh) 一种面向位置社交网络的基于图链接分析的兴趣点推荐方法
CN109714324A (zh) 基于机器学习算法的用户网络异常行为发现方法及系统
CN106991614A (zh) Spark下基于标签传播的并行重叠社区发现方法
Huang et al. Point-of-interest recommendation in location-based social networks with personalized geo-social influence
CN109992784A (zh) 一种融合多模态信息的异构网络构建和距离度量方法
CN111738447B (zh) 基于时空关系学习的移动社交网络用户关系推断方法
CN110134883A (zh) 一种异构社交网络位置实体锚链接识别方法
CN110008402A (zh) 一种基于社交网络的去中心化矩阵分解的兴趣点推荐方法
CN116108984A (zh) 基于流量-poi因果关系推理的城市流量预测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180911

Termination date: 20191013

CF01 Termination of patent right due to non-payment of annual fee