CN111460332B - 一种基于用户生活轨迹的社会关系评估方法 - Google Patents

一种基于用户生活轨迹的社会关系评估方法 Download PDF

Info

Publication number
CN111460332B
CN111460332B CN202010336442.9A CN202010336442A CN111460332B CN 111460332 B CN111460332 B CN 111460332B CN 202010336442 A CN202010336442 A CN 202010336442A CN 111460332 B CN111460332 B CN 111460332B
Authority
CN
China
Prior art keywords
user
similarity
function
representing
users
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010336442.9A
Other languages
English (en)
Other versions
CN111460332A (zh
Inventor
乔少杰
韩楠
罗佳
陈亮
肖月强
元昌安
范勇强
冉先进
彭京
甘戈
孙科
宋学江
覃晓
李斌勇
许源平
郑皎凌
张吉烈
张永清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Shendasen Technology Co ltd
Chengdu University of Information Technology
Original Assignee
Chengdu Shendasen Technology Co ltd
Chengdu University of Information Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Shendasen Technology Co ltd, Chengdu University of Information Technology filed Critical Chengdu Shendasen Technology Co ltd
Priority to CN202010336442.9A priority Critical patent/CN111460332B/zh
Publication of CN111460332A publication Critical patent/CN111460332A/zh
Application granted granted Critical
Publication of CN111460332B publication Critical patent/CN111460332B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Optimization (AREA)
  • Business, Economics & Management (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Primary Health Care (AREA)
  • General Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • Computing Systems (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Tourism & Hospitality (AREA)
  • Algebra (AREA)
  • Strategic Management (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于用户生活轨迹的社会关系评估方法,具体为:采集若干用户的生活轨迹,将其分为训练集和测试集,并计算训练集中两两用户之间的轨迹相似度;根据训练集中用户关系构建地理位置因子图中的节点;分别构建基本特征因子函数、二元相似度因子函数和三元相似度因子函数;并根据因子函数构建地理位置因子图的全局概率分布模型;对全局概率分布模型进行训练,根据全局概率分布模型并通过最大和积传播算法对测试集中未知标签进行预测,得到社会关系评估结果。本发明提出了使用用户的轨迹相似度来表示用户位置信息间的关联,借助用户的位置关联预测用户之间的社会关系,使用户间社会关系的预测和识别更加精准。

Description

一种基于用户生活轨迹的社会关系评估方法
技术领域
本发明属于数据挖掘领域,具体涉及一种基于用户生活轨迹的社会关系评估方法。
背景技术
近年来互联网加的蓬勃发展,网络服务中各种领域为了提高用户体验,向用户直接或间接地请求他们的位置信息。在社交网络中,用户常常把一些嵌入了位置信息的日志或图片分享到他们的朋友圈,而朋友之间更可能在同一个位置分享他们的日常活动,也就是说,朋友之间的日常交互让他们的活动范围存在一些交集,这些交集会一定程度上体现到了位置信息上的某些联系,比如用户轨迹。但是,许多时候用户分享的位置信息的时间是不确定的,而且大多数时候用户不会将定位系统长时间打开,这就造成了社交网络中位置信息的不平衡、不准确以及稀疏的问题。所以大多数的数据来源是不利于使用提取更多的特征来提高模型的准确率。当前基于LSBN(Location-based Social Network,基于位置的社会网络)的研究大多应用在了推荐系统,其中关于朋友等社会关系推荐系统的研究更多根据用户的位置信息和签入时间聚类出了用户中心位置,以此提取两个用户之间的距离特征;其他的研究中还通过信息熵来描述位置类型,然后选取两个用户信息的交集作为用户的相似度特征。其他方面的应用中,建立的模型结合了更多的个人信息到网络中建立朋友等社会关系模型。目前所有已知方法均存在一个问题,缺少可扩展性,每种方法基本上都是在特定的领域内有效的发挥作用;而且,相关的研究基本上都是从地理位置信息中提取特征,并没有提取用户位置信息之间的关联关系。
发明内容
针对现有技术中的上述不足,本发明提供的一种基于用户生活轨迹的社会关系评估方法解决了现有技术中可扩展性和实用性不足和没有提取位置信息之间的关联关系的问题。
为了达到上述发明目的,本发明采用的技术方案为:一种基于用户生活轨迹的社会关系评估方法,包括以下步骤:
S1、采集若干用户的生活轨迹,并将其分为训练集和测试集,并计算训练集中两两用户之间的轨迹相似度,得到用户轨迹相似度;
S2、根据训练集中用户关系网络构建地理位置因子图中的节点,得到地理位置因子图;
S3、根据用户关系网络提取节点特征构建基本特征因子函数,根据用户轨迹相似度和用户关系网络中的用户结构分别构建二元相似度因子函数和三元相似度因子函数;
S4、通过基本特征因子函数、二元相似度因子函数和三元相似度因子函数构建地理位置因子图的全局概率分布模型;
S5、对全局概率分布模型进行训练,根据全局概率分布模型并通过最大和积传播算法对测试集中未知标签进行预测,得到社会关系评估结果。
进一步地,所述步骤S1中计算训练集中两两用户之间的轨迹相似度的计算公式为:
Figure BDA0002466779600000022
所述Sim(Tri,Trj)、Sim(Tri work,Trj work)和Sim(Tri week,Trj week)通过相似度函数Sim()获取,所述相似度函数Sim()为:
Figure BDA0002466779600000021
所述subcost表示序列头部位置状态参数,所述序列头部位置状态参数subcost为:
Figure BDA0002466779600000031
所述Dist()表示两个序列头部点的距离函数,所述距离函数Dist(QH,RH)为:
Figure BDA0002466779600000032
其中,Sim(Tri,Trj)表示用户i和用户j之间的轨迹相似度,Sim(Tri work,Trj work)表示用户i和用户j之间的工作日轨迹相似度,Sim(Tri week,Trj week)表示用户i和用户j之间的周末轨迹相似度,Tri work表示用户i的工作日生活轨迹,Tri week表示用户i的周末生活轨迹,Trj work表示用户j的工作日生活轨迹,Trj week表示用户j的周末生活轨迹;Q为某一用户序列,Q序列长度为m,R为另一用户序列,R序列长度为n;m或n为零时,Sim(Q,R)=0;Rset()表示序列指针后移一位的函数;ε表示距离阈值,QH表示Q序列的头部点,RH表示R序列的头部点;re表示地球半径,QH_lat表示头部点QH的经度,QH_lon表示头部点QH的纬度,RH_lat表示头部点RH的经度,RH_lon表示头部点RH的纬度。
进一步地,所述步骤S2中根据训练集中用户关系网络构建地理位置因子图中的节点的具体方法为:从训练集的用户关系网络中随机选出两个用户,将两个用户的关系作为地理位置因子图中的节点,遍历训练集中所有其他用户,得到所有用户的地理位置因子图。
进一步地,所述步骤S3中根据用户关系网络提取节点特征构建基本特征因子函数f(yk,xk)为:
Figure BDA0002466779600000041
所述φ()表示第一特征函数,所述第一特征函数φ(yk,xk)为:
Figure BDA0002466779600000042
其中,Zλ表示第一归一化常数,exp表示幂函数,yk表示地理位置因子图中节点k的标签,即节点k所表示的用户关系,xk表示节点k的特征向量,λ表示第一训练参数向量,T表示转置操作;F表示用户关系标签,NF表示与标签F相对的关系标签,
Figure BDA0002466779600000043
表示节点k的标签为F时存在向量I,
Figure BDA0002466779600000044
表示节点k的标签为NF时存在向量I,I=(1,1,…,1)T,其维度与xk保持一致。
进一步地,所述步骤S3中根据用户轨迹相似度和用户关系网络中的用户结构构建二元相似度因子函数h(yk|S(k),yt|S(t))为:
Figure BDA0002466779600000045
所述h'()表示第二特征函数,所述第二特征函数h'(yk|S(k),yt|S(t))为:
Figure BDA0002466779600000046
所述
Figure BDA00024667796000000410
为第三特征函数,所述第三特征函数
Figure BDA0002466779600000047
为:
Figure BDA0002466779600000048
所述H()表示第一轨迹相似度特征函数,所述第一轨迹相似度特征函数H(S(k),S(t))为:
Figure BDA0002466779600000049
其中,Zα表示第二归一化常数,k和t均表示节点,S(k)表示组成节点k的两个用户之间的轨迹相似度,S(t)表示组成节点t的两个用户之间的轨迹相似度,α表示第二训练参数向量;yk=a表示节点k的标签为a,yt=b表示节点t的标签为b,abs()表示取绝对值,s表示相似度的实际值。
进一步地,所述步骤S3中根据用户轨迹相似度和用户关系网络中的用户结构构建三元相似度因子函数g{yv|S(v)}为:
Figure BDA0002466779600000051
所述G()为第二轨迹相似度特征函数,所述第二轨迹相似度特征函数G({S(v)})为:
Figure BDA0002466779600000052
所述
Figure BDA0002466779600000055
表示第四特征函数,所述第四特征函数
Figure BDA0002466779600000056
为:
Figure BDA0002466779600000053
其中,v=(k,t,r),所述k、t和r均表示节点,yr=c表示节点r的标签为c,Zβ表示第三归一化常数,β表示第三训练参数向量,yv∈{yk,yt,yr},S(v)∈(S(k),S(t),S(r))。
进一步地,所述步骤S4中全局概率分布模型p(Y|G)为:
Figure BDA0002466779600000054
其中,G表示地理位置因子图,Y表示标签集合,Z表示第四归一化常数,ek表示地理位置因子图中的节点,Λkt表示地理位置因子图中的二元因子节点,Δktr表示地理位置因子图中三元因子节点。
进一步地,所述步骤S5中对全局概率分布模型进行训练的具体方法为:将参数λ、α和β均初始化为0,使用梯度下降方法对模型进行训练,以梯度变化小于阈值为目标,设定梯度步长取值0.2,进行梯度下降迭代,梯度下降过程中使用LBP算法计算损失函数中的因子图概率分布,以概率分布计算各参数的梯度,并根据梯度步长对参数λ、α和β进行更新,直至各参数梯度最大值小于0.003时,训练结束。
进一步地,所述损失值函数Lose(θ)具体为:
Figure BDA0002466779600000061
其中,θ表示参数λ、α和β的集合,log表示求取对数,Y表示所有未知标签和已知标签的集合,YL表示已知标签的集合,S表示基本特征因子函数、二元相似度因子函数和三元相似度因子函数的和,Y|YL表示地理位置因子图中部分标签已知。
进一步地,所述步骤S5中对测试集中未知标签进行预测的具体公式为:
Figure BDA0002466779600000062
其中,Y*表示预测结果,p(Y|G,θ)表示p(Y|G)更新参数后的全局概率分布模型p(Y|G),argmax表示对测试集中未知标签进行预测时求取最大概率标签的集合。
本发明的有益效果为:
(1)本发明提出了使用用户的轨迹相似度来表达用户日常活动的轨迹信息间的关联,且在轨迹相似度条件下的二元相似度因子函数和三元相似度因子函数能够建立更加详细和准确的描述用户轨迹和用户间关系的特征,能够在发明方法学习过程中学习到更多用户轨迹信息的关联知识,使用户间社会关系的预测更加精准。
(2)本发明所使用的轨迹相似度计算方法能够有效地避免噪音和轨迹长短的影响,能够更好地衡量用户位置信息间的关联。
(3)本发明使用序列头部位置状态参数subcost,使相似度计算结果便于区分,构建的因子图模型的特征因子函数包含图结构特征、轨迹相似度和用户日常活动地点的距离,充分考虑了用户间日常活动位置信息与用户关系间的联系。
(4)本发明构建的二元因子函数和三元因子函数所包含的特征函数h'()和
Figure BDA0002466779600000071
且将h'()和
Figure BDA0002466779600000072
取值范围设置为{0,1},使不同标签组合下均能建立特征,二元因子函数和三元因子函数所包含的轨迹相似度特征函数H()和G(),且将H()和G()取值范围设置为{0,1},使不同相似度间的计算结果均能建立特征。(5)本发明具有很好的可扩展性和实用性,其轨迹提取方式和轨迹相似度计算方式适用于所有包含用户地理位置信息的社交网络,且评估效率较高。
附图说明
图1为本发明提出的一种基于用户生活轨迹的社会关系评估方法流程图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
下面结合附图详细说明本发明的实施例。
如图1所示,一种基于用户生活轨迹的社会关系评估方法,包括以下步骤:
S1、采集若干用户的生活轨迹,并将其分为训练集和测试集,并计算训练集中两两用户之间的轨迹相似度,得到用户轨迹相似度;
S2、根据训练集中用户关系网络构建地理位置因子图中的节点,得到地理位置因子图;
S3、根据用户关系网络提取节点特征构建基本特征因子函数,根据用户轨迹相似度和用户关系网络中的用户结构分别构建二元相似度因子函数和三元相似度因子函数;
S4、通过基本特征因子函数、二元相似度因子函数和三元相似度因子函数构建地理位置因子图的全局概率分布模型;
S5、对全局概率分布模型进行训练,根据全局概率分布模型并通过最大和积传播算法对测试集中未知标签进行预测,得到社会关系评估结果。
在本实施例中,使用的最大和积传播算法具体过程为:
A1、初始化地理位置因子图中所有节点的消息,所述节点消息一般取值为1或向量(1,1,...,1)T
A2、设定最大循环步骤、节点消息预设值、收敛阈值和计数器u=1;
A3、遍历所有节点发送新消息,通过每个节点合并邻居节点发送的消息并对合并消息执行归一化,得到归一化的合并消息;
A4、判断预设值是否大于归一化的合并消息,若是取预设值作为当前节点的新消息,并进入步骤A5,否则将归一化的合并消息作为当前节点的新消息,并进入A5;
A5、计算每个节点的新消息与旧消息的差值,并判断差值的最大值是否小于设定的收敛阈值,若是,则进入步骤A7,否则令计数器u的计数值加一,并进入步骤A6;
A6、判断计数器u的值是否等于或大于最大循环步骤,若是,则进入步骤A7,否则返回步骤A3;
A7、计算每个节点的置信度,将置信度进行归一化后得到近似边缘分布,完成预测。
在本实施例中,构建二元相似度因子函数的用户关系网络中的用户结构具体为:三个用户之间只有一个用户与其它两个用户之间存在关系。构建三元相似度因子函数中用户关系网络中的用户结构具体为:三个用户中两两之间均存在关系。
在本实施例中,i用户的生活轨迹包括工作日生活轨迹和周末生活轨迹,所述工作日生活轨迹为
Figure BDA0002466779600000091
所述周末生活轨迹
Figure BDA0002466779600000092
其中,Lworkη表示工作日生活轨迹中的点,η=1,2,...,M,M为工作日生活轨迹中点的总数,Lweekω表示周末生活轨迹中的点,ω=1,2,...,N,N为周末生活轨迹中点的总数。
所述步骤S1中计算训练集中两两用户之间的轨迹相似度的计算公式为:
Figure BDA0002466779600000093
所述
Figure BDA0002466779600000094
和Sim(Tri week,Trj week)通过相似度函数Sim()获取,所述相似度函数Sim()为:
Figure BDA0002466779600000095
所述subcost表示序列头部位置状态参数,所述序列头部位置状态参数subcost为:
Figure BDA0002466779600000096
所述Dist()表示两个序列头部点的距离函数,所述距离函数Dist(QH,RH)为:
Figure BDA0002466779600000097
其中,Sim(Tri,Trj)表示用户i和用户j之间的轨迹相似度,Sim(Tri work,Trj work)表示用户i和用户j之间的工作日轨迹相似度,Sim(Tri week,Trj week)表示用户i和用户j之间的周末轨迹相似度,Tri work表示用户i的工作日生活轨迹,Tri week表示用户i的周末生活轨迹,Trj work表示用户j的工作日生活轨迹,Trj week表示用户j的周末生活轨迹;Q为某一用户序列,Q序列长度为m,R为另一用户序列,R序列长度为n;m或n为零时,Sim(Q,R)=0;Rset()表示序列指针后移一位的函数;ε表示距离阈值,ε=10km,QH表示Q序列的头部点,RH表示R序列的头部点;re表示地球半径,QH_lat表示头部点QH的经度,QH_lon表示头部点QH的纬度,RH_lat表示头部点RH的经度,RH_lon表示头部点RH的纬度。
所述步骤S2中根据训练集中用户关系网络构建地理位置因子图中的节点的具体方法为:从训练集的用户关系网络中随机选出两个用户,将两个用户的关系作为地理位置因子图中的节点,遍历训练集中所有其他用户,得到所有用户的地理位置因子图。
在本实施例中,所述两个用户的关系为一组相对关系;相对关系为朋友和非朋友或者相对关系为竞争关系和合作关系。
所述步骤S3中根据用户关系网络提取节点特征构建基本特征因子函数f(yk,xk)为:
Figure BDA0002466779600000101
所述φ()表示第一特征函数,所述第一特征函数φ(yk,xk)为:
Figure BDA0002466779600000102
其中,Zλ表示第一归一化常数,exp表示幂函数,yk表示地理位置因子图中节点k的标签,即节点k所表示的用户关系,xk表示节点k的特征向量,λ表示第一训练参数向量,T表示转置操作;F表示用户关系标签,NF表示与标签F相对的关系标签,
Figure BDA0002466779600000103
表示节点k的标签为F时存在向量I,
Figure BDA0002466779600000104
表示节点k的标签为NF时存在向量I,I=(1,1,…,1)T,其维度与xk保持一致。
在本实施例中,
Figure BDA0002466779600000111
表示节点k的标签为朋友时存在向量I,
Figure BDA0002466779600000112
表示节点k的标签为非朋友时存在向量I;节点k的特征向量xk为0和1组成的向量,其维度与参数向量λ一致,其中1表示节点k的特征在所有特征组成的向量中所对应的位置。
所述步骤S3中根据用户轨迹相似度和用户关系网络中的用户结构构建二元相似度因子函数h(yk|S(k),yt|S(t))为:
Figure BDA0002466779600000113
所述h'()表示第二特征函数,所述第二特征函数h'(yk|S(k),yt|S(t))为:
Figure BDA0002466779600000114
所述
Figure BDA0002466779600000115
为第三特征函数,所述第三特征函数
Figure BDA0002466779600000116
为:
Figure BDA0002466779600000117
所述H()表示第一轨迹相似度特征函数,所述第一轨迹相似度特征函数H(S(k),S(t))为:
Figure BDA0002466779600000118
其中,Zα表示第二归一化常数,k和t均表示节点,S(k)表示组成节点k的两个用户之间的轨迹相似度,S(t)表示组成节点t的两个用户之间的轨迹相似度,α表示第二训练参数向量;yk=a表示节点k的标签为a,yt=b表示节点t的标签为b,abs()表示取绝对值,s表示相似度的实际值。
所述步骤S3中根据用户轨迹相似度和用户关系网络中的用户结构构建三元相似度因子函数g{yv|S(v)}为:
Figure BDA0002466779600000119
所述G()为第二轨迹相似度特征函数,所述第二轨迹相似度特征函数G({S(v)})为:
Figure BDA0002466779600000121
所述
Figure BDA0002466779600000125
表示第四特征函数,所述第四特征函数
Figure BDA0002466779600000126
为:
Figure BDA0002466779600000122
其中,v=(k,t,r),所述k、t和r均表示节点,yr=c表示节点r的标签为c,Zβ表示第三归一化常数,β表示第三训练参数向量,yv∈{yk,yt,yr},S(v)∈(S(k),S(t),S(r))。
所述步骤S4中全局概率分布模型p(Y|G)为:
Figure BDA0002466779600000123
其中,G表示地理位置因子图,Y表示标签集合,Z表示第四归一化常数,ek表示地理位置因子图中的节点,Λkt表示地理位置因子图中的二元因子节点,Δktr表示地理位置因子图中三元因子节点。
在本实施例中,第四归一化常数Z具体为:
Figure BDA0002466779600000124
其中,Z=ZλZαZβ
所述步骤S5中对全局概率分布模型进行训练的具体方法为:将参数λ、α和β均初始化为0,使用梯度下降方法对模型进行训练,以梯度变化小于阈值为目标,设定梯度步长取值0.2,进行梯度下降迭代,梯度下降过程中使用LBP算法计算损失函数中的因子图概率分布,以概率分布计算各参数的梯度,并根据梯度步长对参数λ、α和β进行更新,直至各参数梯度最大值小于0.003时,训练结束。
所述损失值函数Lose(θ)具体为:
Figure BDA0002466779600000131
其中,θ表示参数λ、α和β的集合,log表示求取对数,Y表示所有未知标签和已知标签的集合,YL表示已知标签的集合,S表示基本特征因子函数、二元相似度因子函数和三元相似度因子函数的和,Y|YL表示地理位置因子图中部分标签已知。
在本实施例中,对损失值函数Lose(θ)求偏导数,得到偏导数公式,将偏导数作为梯度距离求取公式,使用梯度下降算法对θ进行求解。
所述步骤S5中对测试集中未知标签进行预测的具体公式为:
Figure BDA0002466779600000132
其中,Y*表示预测结果,p(Y|G,θ)表示p(Y|G)更新参数后的全局概率分布模型p(Y|G),argmax表示对测试集中未知标签进行预测时求取最大概率标签的集合。
在本实施例中,在测试集上进行仿真实验,分别通过支持向量机、标签传播方法、多元关联因子模型和本发明提出的方法对测试集中用户社会关系进行评估,结果如表1所示。
表1
方法 支持向量机 标签传播方法 多元关联因子模型 本发明
正确率(%) 66.54 83.03 85.12 93.65
从表1可以看出,本发明基于地理位置构建因子图,是四种方法中关系评估正确率最高的。
本发明的有益效果为:
(1)本发明提出了使用用户的轨迹相似度来表达用户日常活动的轨迹信息间的关联,且在轨迹相似度条件下的二元相似度因子函数和三元相似度因子函数能够建立更加详细和准确的描述用户轨迹和用户间关系的特征,能够在发明方法学习过程中学习到更多用户轨迹信息的关联知识,使用户间社会关系的预测更加精准。
(2)本发明所使用的轨迹相似度计算方法能够有效地避免噪音和轨迹长短的影响,能够更好地衡量用户位置信息间的关联。
(3)本发明使用序列头部位置状态参数subcost,使相似度计算结果便于区分,构建的因子图模型的特征因子函数包含图结构特征、轨迹相似度和用户日常活动地点的距离,充分考虑了用户间日常活动位置信息与用户关系间的联系。
(4)本发明构建的二元因子函数和三元因子函数所包含的特征函数h'()和
Figure BDA0002466779600000141
且将h'()和
Figure BDA0002466779600000142
取值范围设置为{0,1},使不同标签组合下均能建立特征,二元因子函数和三元因子函数所包含的轨迹相似度特征函数H()和G(),且将H()和G()取值范围设置为{0,1},使不同相似度间的计算结果均能建立特征。
(5)本发明具有很好的可扩展性和实用性,其轨迹提取方式和轨迹相似度计算方式适用于所有包含用户地理位置信息的社交网络,且评估效率较高。

Claims (10)

1.一种基于用户生活轨迹的社会关系评估方法,其特征在于,包括以下步骤:
S1、采集若干用户的生活轨迹,并将其分为训练集和测试集,并计算训练集中两两用户之间的轨迹相似度,得到用户轨迹相似度;
S2、根据训练集中用户关系网络构建地理位置因子图中的节点,得到地理位置因子图;
S3、根据用户关系网络提取节点特征构建基本特征因子函数,根据用户轨迹相似度和用户关系网络中的用户结构分别构建二元相似度因子函数和三元相似度因子函数;
S4、通过基本特征因子函数、二元相似度因子函数和三元相似度因子函数构建地理位置因子图的全局概率分布模型;
S5、对全局概率分布模型进行训练,根据全局概率分布模型并通过最大和积传播算法对测试集中未知标签进行预测,得到社会关系评估结果。
2.根据权利要求1所述的基于用户生活轨迹的社会关系评估方法,其特征在于,所述步骤S1中计算训练集中两两用户之间的轨迹相似度的计算公式为:
Figure FDA0002682312070000011
所述Sim(Tri,Trj)、Sim(Tri work,Trj work)和Sim(Tri week,Trj week)通过相似度函数Sim()获取,所述相似度函数Sim()为:
Figure FDA0002682312070000012
所述subcost表示序列头部位置状态参数,所述序列头部位置状态参数subcost为:
Figure FDA0002682312070000021
所述Dist()表示两个序列头部点的距离函数,所述距离函数Dist(QH,RH)为:
Figure FDA0002682312070000022
其中,Sim(Tri,Trj)表示用户i和用户j之间的轨迹相似度,Sim(Tri work,Trj work)表示用户i和用户j之间的工作日轨迹相似度,Sim(Tri week,Trj week)表示用户i和用户j之间的周末轨迹相似度,Tri work表示用户i的工作日生活轨迹,Tri week表示用户i的周末生活轨迹,Trj work表示用户j的工作日生活轨迹,Trj week表示用户j的周末生活轨迹;Q为某一用户序列,Q序列长度为m,R为另一用户序列,R序列长度为n;m或n为零时,Sim(Q,R)=0;Rset()表示序列指针后移一位的函数;ε表示距离阈值,QH表示Q序列的头部点,RH表示R序列的头部点;re表示地球半径,QH_lat表示头部点QH的经度,QH_lon表示头部点QH的纬度,RH_lat表示头部点RH的经度,RH_lon表示头部点RH的纬度。
3.根据权利要求1所述的基于用户生活轨迹的社会关系评估方法,其特征在于,所述步骤S2中根据训练集中用户关系网络构建地理位置因子图中的节点的具体方法为:从训练集的用户关系网络中随机选出两个用户,将两个用户的关系作为地理位置因子图中的节点,遍历训练集中所有其他用户,得到所有用户的地理位置因子图。
4.根据权利要求3所述的基于用户生活轨迹的社会关系评估方法,其特征在于,所述步骤S3中根据用户关系网络提取节点特征构建基本特征因子函数f(yk,xk)为:
Figure FDA0002682312070000031
所述φ()表示第一特征函数,所述第一特征函数φ(yk,xk)为:
Figure FDA0002682312070000032
其中,Zλ表示第一归一化常数,exp表示幂函数,yk表示地理位置因子图中节点k的标签,即节点k所表示的用户关系,xk表示节点k的特征向量,λ表示第一训练参数向量,T表示转置操作;F表示用户关系标签,NF表示与标签F相对的关系标签,
Figure FDA0002682312070000033
表示节点k的标签为F时存在向量I,
Figure FDA0002682312070000034
表示节点k的标签为NF时存在向量I,I=(1,1,…,1)T,其维度与xk保持一致。
5.根据权利要求4所述的基于用户生活轨迹的社会关系评估方法,其特征在于,所述步骤S3中根据用户轨迹相似度和用户关系网络中的用户结构构建二元相似度因子函数h(yk|S(k),yt|S(t))为:
Figure FDA0002682312070000035
所述h’()表示第二特征函数,所述第二特征函数h’(yk|S(k),yt|S(t))为:
Figure FDA0002682312070000036
所述φ()为第三特征函数,所述第三特征函数φ(yk,,yt)为:
Figure FDA0002682312070000037
所述H()表示第一轨迹相似度特征函数,所述第一轨迹相似度特征函数H(S(k),S(t))为:
Figure FDA0002682312070000041
其中,Zα表示第二归一化常数,k和t均表示节点,S(k)表示组成节点k的两个用户之间的轨迹相似度,S(t)表示组成节点t的两个用户之间的轨迹相似度,α表示第二训练参数向量;yk=a表示节点k的标签为a,yt=b表示节点t的标签为b,abs()表示取绝对值,s表示相似度的实际值。
6.根据权利要求5所述的基于用户生活轨迹的社会关系评估方法,其特征在于,所述步骤S3中根据用户轨迹相似度和用户关系网络中的用户结构构建三元相似度因子函数g{yv|S(v)}为:
Figure FDA0002682312070000042
所述G()为第二轨迹相似度特征函数,所述第二轨迹相似度特征函数G({S(v)})为:
Figure FDA0002682312070000043
所述
Figure FDA0002682312070000044
表示第四特征函数,所述第四特征函数
Figure FDA0002682312070000045
为:
Figure FDA0002682312070000046
其中,v=(k,t,r),所述k、t和r均表示节点,yr=c表示节点r的标签为c,Zβ表示第三归一化常数,β表示第三训练参数向量,yv∈{yk,yt,yr},S(v)∈(S(k),S(t),S(r))。
7.根据权利要求6所述的基于用户生活轨迹的社会关系评估方法,其特征在于,所述步骤S4中全局概率分布模型p(Y|G)为:
Figure FDA0002682312070000051
其中,G表示地理位置因子图,Y表示标签集合,Z表示第四归一化常数,ek表示地理位置因子图中的节点,Λkt表示地理位置因子图中的二元因子节点,Δktr表示地理位置因子图中三元因子节点。
8.根据权利要求7所述的基于用户生活轨迹的社会关系评估方法,其特征在于,所述步骤S5中对全局概率分布模型进行训练的具体方法为:将参数λ、α和β均初始化为0,使用梯度下降方法对模型进行训练,以梯度变化小于阈值为目标,设定梯度步长取值0.2,进行梯度下降迭代,梯度下降过程中使用LBP算法计算损失函数中的因子图概率分布,以概率分布计算各参数的梯度,并根据梯度步长对参数λ、α和β进行更新,直至各参数梯度最大值小于0.003时,训练结束。
9.根据权利要求8所述的基于用户生活轨迹的社会关系评估方法,其特征在于,所述损失函数Lose(θ)具体为:
Figure FDA0002682312070000052
其中,θ表示参数λ、α和β的集合,log表示求取对数,Y表示所有未知标签和已知标签的集合,YL表示已知标签的集合,S表示基本特征因子函数、二元相似度因子函数和三元相似度因子函数的和,Y/YL表示地理位置因子图中部分标签已知。
10.根据权利要求8所述的基于用户生活轨迹的社会关系评估方法,其特征在于,所述步骤S5中对测试集中未知标签进行预测的具体公式为:
Figure FDA0002682312070000053
其中,Y*表示预测结果,p(Y|G,θ)表示p(Y|G)更新参数后的全局概率分布模型,argmax表示对测试集中未知标签进行预测时求取最大概率标签的集合。
CN202010336442.9A 2020-04-26 2020-04-26 一种基于用户生活轨迹的社会关系评估方法 Active CN111460332B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010336442.9A CN111460332B (zh) 2020-04-26 2020-04-26 一种基于用户生活轨迹的社会关系评估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010336442.9A CN111460332B (zh) 2020-04-26 2020-04-26 一种基于用户生活轨迹的社会关系评估方法

Publications (2)

Publication Number Publication Date
CN111460332A CN111460332A (zh) 2020-07-28
CN111460332B true CN111460332B (zh) 2020-10-30

Family

ID=71682717

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010336442.9A Active CN111460332B (zh) 2020-04-26 2020-04-26 一种基于用户生活轨迹的社会关系评估方法

Country Status (1)

Country Link
CN (1) CN111460332B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117140204B (zh) * 2023-10-31 2023-12-26 南通弘铭机械科技有限公司 一种用于机械加工的目标固定方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108154425B (zh) * 2018-01-19 2021-03-26 广州天源信息科技股份有限公司 一种结合社会网络和位置的线下商户推荐方法
CN109828967B (zh) * 2018-12-03 2021-10-19 深圳市北斗智能科技有限公司 一种伴随关系获取方法、系统、设备、存储介质
CN110751164B (zh) * 2019-03-01 2022-04-12 西安电子科技大学 一种基于位置服务的老人出行异常检测方法
CN110378002B (zh) * 2019-07-11 2023-05-12 华中农业大学 基于移动轨迹的社会关系建模方法

Also Published As

Publication number Publication date
CN111460332A (zh) 2020-07-28

Similar Documents

Publication Publication Date Title
CN111967294B (zh) 一种无监督域自适应的行人重识别方法
EP3241370B1 (en) Analyzing semantic places and related data from a plurality of location data reports
CN110119475B (zh) 一种poi推荐方法及推荐系统
Li et al. Multiple location profiling for users and relationships from social network and content
CN107247961B (zh) 一种应用模糊轨迹序列的轨迹预测方法
Yuan et al. Joint geo-spatial preference and pairwise ranking for point-of-interest recommendation
WO2018219223A1 (zh) 数据处理方法、装置及存储介质
Zhang et al. Deep representation learning of activity trajectory similarity computation
US20100153292A1 (en) Making Friend and Location Recommendations Based on Location Similarities
Le Falher et al. Where is the Soho of Rome? Measures and algorithms for finding similar neighborhoods in cities
Pang et al. DeepCity: A feature learning framework for mining location check-ins
CN106960044B (zh) 一种基于张量分解及加权hits的时间感知个性化poi推荐方法
WO2010062726A2 (en) Determining user similarities based on location histories
Cui et al. Hidden poi ranking with spatial crowdsourcing
Chen et al. From interest to function: Location estimation in social media
Muzammal et al. Trajectory mining using uncertain sensor data
CN105718999B (zh) 一种启发式代谢共表达网络的构建方法及系统
WO2019019385A1 (zh) 跨平台数据匹配方法、装置、计算机设备和存储介质
Guo et al. Transportation mode recognition with deep forest based on GPS data
CN115311478A (zh) 一种基于图深度聚类的联邦影像分类方法、存储介质
CN111460332B (zh) 一种基于用户生活轨迹的社会关系评估方法
Qian et al. Time and location aware points of interest recommendation in location-based social networks
Lang et al. POI recommendation based on a multiple bipartite graph network model
US9477757B1 (en) Latent user models for personalized ranking
CN108090132B (zh) 融合标签平均划分距离和结构关系的社区可重叠划分方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant