CN111460332B

CN111460332B - 一种基于用户生活轨迹的社会关系评估方法

Info

Publication number: CN111460332B
Application number: CN202010336442.9A
Authority: CN
Inventors: 乔少杰; 韩楠; 罗佳; 陈亮; 肖月强; 元昌安; 范勇强; 冉先进; 彭京; 甘戈; 孙科; 宋学江; 覃晓; 李斌勇; 许源平; 郑皎凌; 张吉烈; 张永清
Original assignee: Chengdu Shendasen Technology Co ltd; Chengdu University of Information Technology
Current assignee: Chengdu Shendasen Technology Co ltd; Chengdu University of Information Technology
Priority date: 2020-04-26
Filing date: 2020-04-26
Publication date: 2020-10-30
Anticipated expiration: 2040-04-26
Also published as: CN111460332A

Abstract

本发明公开了一种基于用户生活轨迹的社会关系评估方法，具体为：采集若干用户的生活轨迹，将其分为训练集和测试集，并计算训练集中两两用户之间的轨迹相似度；根据训练集中用户关系构建地理位置因子图中的节点；分别构建基本特征因子函数、二元相似度因子函数和三元相似度因子函数；并根据因子函数构建地理位置因子图的全局概率分布模型；对全局概率分布模型进行训练，根据全局概率分布模型并通过最大和积传播算法对测试集中未知标签进行预测，得到社会关系评估结果。本发明提出了使用用户的轨迹相似度来表示用户位置信息间的关联，借助用户的位置关联预测用户之间的社会关系，使用户间社会关系的预测和识别更加精准。

Description

一种基于用户生活轨迹的社会关系评估方法

技术领域

本发明属于数据挖掘领域，具体涉及一种基于用户生活轨迹的社会关系评估方法。

背景技术

近年来互联网加的蓬勃发展，网络服务中各种领域为了提高用户体验，向用户直接或间接地请求他们的位置信息。在社交网络中，用户常常把一些嵌入了位置信息的日志或图片分享到他们的朋友圈，而朋友之间更可能在同一个位置分享他们的日常活动，也就是说，朋友之间的日常交互让他们的活动范围存在一些交集，这些交集会一定程度上体现到了位置信息上的某些联系，比如用户轨迹。但是，许多时候用户分享的位置信息的时间是不确定的，而且大多数时候用户不会将定位系统长时间打开，这就造成了社交网络中位置信息的不平衡、不准确以及稀疏的问题。所以大多数的数据来源是不利于使用提取更多的特征来提高模型的准确率。当前基于LSBN(Location-based Social Network，基于位置的社会网络)的研究大多应用在了推荐系统，其中关于朋友等社会关系推荐系统的研究更多根据用户的位置信息和签入时间聚类出了用户中心位置，以此提取两个用户之间的距离特征；其他的研究中还通过信息熵来描述位置类型，然后选取两个用户信息的交集作为用户的相似度特征。其他方面的应用中，建立的模型结合了更多的个人信息到网络中建立朋友等社会关系模型。目前所有已知方法均存在一个问题，缺少可扩展性，每种方法基本上都是在特定的领域内有效的发挥作用；而且，相关的研究基本上都是从地理位置信息中提取特征，并没有提取用户位置信息之间的关联关系。

发明内容

针对现有技术中的上述不足，本发明提供的一种基于用户生活轨迹的社会关系评估方法解决了现有技术中可扩展性和实用性不足和没有提取位置信息之间的关联关系的问题。

为了达到上述发明目的，本发明采用的技术方案为：一种基于用户生活轨迹的社会关系评估方法，包括以下步骤：

S1、采集若干用户的生活轨迹，并将其分为训练集和测试集，并计算训练集中两两用户之间的轨迹相似度，得到用户轨迹相似度；

S2、根据训练集中用户关系网络构建地理位置因子图中的节点，得到地理位置因子图；

S3、根据用户关系网络提取节点特征构建基本特征因子函数，根据用户轨迹相似度和用户关系网络中的用户结构分别构建二元相似度因子函数和三元相似度因子函数；

S4、通过基本特征因子函数、二元相似度因子函数和三元相似度因子函数构建地理位置因子图的全局概率分布模型；

S5、对全局概率分布模型进行训练，根据全局概率分布模型并通过最大和积传播算法对测试集中未知标签进行预测，得到社会关系评估结果。

进一步地，所述步骤S1中计算训练集中两两用户之间的轨迹相似度的计算公式为：

所述Sim(Trⁱ,Tr^j)、Sim(Trⁱ _work,Tr^j _work)和Sim(Trⁱ _week,Tr^j _week)通过相似度函数Sim()获取，所述相似度函数Sim()为：

所述subcost表示序列头部位置状态参数，所述序列头部位置状态参数subcost为：

所述Dist()表示两个序列头部点的距离函数，所述距离函数Dist(Q_H,R_H)为：

其中，Sim(Trⁱ,Tr^j)表示用户i和用户j之间的轨迹相似度，Sim(Trⁱ _work,Tr^j _work)表示用户i和用户j之间的工作日轨迹相似度，Sim(Trⁱ _week,Tr^j _week)表示用户i和用户j之间的周末轨迹相似度，Trⁱ _work表示用户i的工作日生活轨迹，Trⁱ _week表示用户i的周末生活轨迹，Tr^j _work表示用户j的工作日生活轨迹，Tr^j _week表示用户j的周末生活轨迹；Q为某一用户序列，Q序列长度为m，R为另一用户序列，R序列长度为n；m或n为零时，Sim(Q,R)＝0；Rset()表示序列指针后移一位的函数；ε表示距离阈值，Q_H表示Q序列的头部点，R_H表示R序列的头部点；r_e表示地球半径，Q_{H_lat}表示头部点Q_H的经度，Q_{H_lon}表示头部点Q_H的纬度，R_{H_lat}表示头部点R_H的经度，R_{H_lon}表示头部点R_H的纬度。

进一步地，所述步骤S2中根据训练集中用户关系网络构建地理位置因子图中的节点的具体方法为：从训练集的用户关系网络中随机选出两个用户，将两个用户的关系作为地理位置因子图中的节点，遍历训练集中所有其他用户，得到所有用户的地理位置因子图。

进一步地，所述步骤S3中根据用户关系网络提取节点特征构建基本特征因子函数f(y_k,x_k)为：

所述φ()表示第一特征函数，所述第一特征函数φ(y_k,x_k)为：

其中，Z_λ表示第一归一化常数，exp表示幂函数，y_k表示地理位置因子图中节点k的标签，即节点k所表示的用户关系，x_k表示节点k的特征向量，λ表示第一训练参数向量，T表示转置操作；F表示用户关系标签，NF表示与标签F相对的关系标签，

表示节点k的标签为F时存在向量I，

表示节点k的标签为NF时存在向量I，I＝(1,1,…,1)^T，其维度与x_k保持一致。

进一步地，所述步骤S3中根据用户轨迹相似度和用户关系网络中的用户结构构建二元相似度因子函数h(y_k|S(k),y_t|S(t))为：

所述h'()表示第二特征函数，所述第二特征函数h'(y_k|S(k),y_t|S(t))为：

所述

为第三特征函数，所述第三特征函数

为：

所述H()表示第一轨迹相似度特征函数，所述第一轨迹相似度特征函数H(S(k),S(t))为：

其中，Z_α表示第二归一化常数，k和t均表示节点，S(k)表示组成节点k的两个用户之间的轨迹相似度，S(t)表示组成节点t的两个用户之间的轨迹相似度，α表示第二训练参数向量；y_k＝a表示节点k的标签为a，y_t＝b表示节点t的标签为b，abs()表示取绝对值，s表示相似度的实际值。

进一步地，所述步骤S3中根据用户轨迹相似度和用户关系网络中的用户结构构建三元相似度因子函数g{y_v|S(v)}为：

所述G()为第二轨迹相似度特征函数，所述第二轨迹相似度特征函数G({S(v)})为：

所述

表示第四特征函数，所述第四特征函数

为：

其中，v＝(k,t,r)，所述k、t和r均表示节点，y_r＝c表示节点r的标签为c，Z_β表示第三归一化常数，β表示第三训练参数向量，y_v∈{y_k,y_t,y_r}，S(v)∈(S(k),S(t),S(r))。

进一步地，所述步骤S4中全局概率分布模型p(Y|G)为：

其中，G表示地理位置因子图，Y表示标签集合，Z表示第四归一化常数，e_k表示地理位置因子图中的节点，Λkt表示地理位置因子图中的二元因子节点，Δktr表示地理位置因子图中三元因子节点。

进一步地，所述步骤S5中对全局概率分布模型进行训练的具体方法为：将参数λ、α和β均初始化为0，使用梯度下降方法对模型进行训练，以梯度变化小于阈值为目标，设定梯度步长取值0.2，进行梯度下降迭代，梯度下降过程中使用LBP算法计算损失函数中的因子图概率分布，以概率分布计算各参数的梯度，并根据梯度步长对参数λ、α和β进行更新，直至各参数梯度最大值小于0.003时，训练结束。

进一步地，所述损失值函数Lose(θ)具体为：

其中，θ表示参数λ、α和β的集合，log表示求取对数，Y表示所有未知标签和已知标签的集合，Y^L表示已知标签的集合，S表示基本特征因子函数、二元相似度因子函数和三元相似度因子函数的和，Y|Y^L表示地理位置因子图中部分标签已知。

进一步地，所述步骤S5中对测试集中未知标签进行预测的具体公式为：

其中，Y^*表示预测结果，p(Y|G,θ)表示p(Y|G)更新参数后的全局概率分布模型p(Y|G)，argmax表示对测试集中未知标签进行预测时求取最大概率标签的集合。

本发明的有益效果为：

(1)本发明提出了使用用户的轨迹相似度来表达用户日常活动的轨迹信息间的关联，且在轨迹相似度条件下的二元相似度因子函数和三元相似度因子函数能够建立更加详细和准确的描述用户轨迹和用户间关系的特征，能够在发明方法学习过程中学习到更多用户轨迹信息的关联知识，使用户间社会关系的预测更加精准。

(2)本发明所使用的轨迹相似度计算方法能够有效地避免噪音和轨迹长短的影响，能够更好地衡量用户位置信息间的关联。

(3)本发明使用序列头部位置状态参数subcost，使相似度计算结果便于区分，构建的因子图模型的特征因子函数包含图结构特征、轨迹相似度和用户日常活动地点的距离，充分考虑了用户间日常活动位置信息与用户关系间的联系。

(4)本发明构建的二元因子函数和三元因子函数所包含的特征函数h'()和

且将h'()和

取值范围设置为{0，1}，使不同标签组合下均能建立特征，二元因子函数和三元因子函数所包含的轨迹相似度特征函数H()和G()，且将H()和G()取值范围设置为{0，1}，使不同相似度间的计算结果均能建立特征。(5)本发明具有很好的可扩展性和实用性，其轨迹提取方式和轨迹相似度计算方式适用于所有包含用户地理位置信息的社交网络，且评估效率较高。

附图说明

图1为本发明提出的一种基于用户生活轨迹的社会关系评估方法流程图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

下面结合附图详细说明本发明的实施例。

如图1所示，一种基于用户生活轨迹的社会关系评估方法，包括以下步骤：

在本实施例中，使用的最大和积传播算法具体过程为：

A1、初始化地理位置因子图中所有节点的消息，所述节点消息一般取值为1或向量(1,1,...,1)^T；

A2、设定最大循环步骤、节点消息预设值、收敛阈值和计数器u＝1；

A3、遍历所有节点发送新消息，通过每个节点合并邻居节点发送的消息并对合并消息执行归一化，得到归一化的合并消息；

A4、判断预设值是否大于归一化的合并消息，若是取预设值作为当前节点的新消息，并进入步骤A5，否则将归一化的合并消息作为当前节点的新消息，并进入A5；

A5、计算每个节点的新消息与旧消息的差值，并判断差值的最大值是否小于设定的收敛阈值，若是，则进入步骤A7，否则令计数器u的计数值加一，并进入步骤A6；

A6、判断计数器u的值是否等于或大于最大循环步骤，若是，则进入步骤A7，否则返回步骤A3；

A7、计算每个节点的置信度，将置信度进行归一化后得到近似边缘分布，完成预测。

在本实施例中，构建二元相似度因子函数的用户关系网络中的用户结构具体为：三个用户之间只有一个用户与其它两个用户之间存在关系。构建三元相似度因子函数中用户关系网络中的用户结构具体为：三个用户中两两之间均存在关系。

在本实施例中，i用户的生活轨迹包括工作日生活轨迹和周末生活轨迹，所述工作日生活轨迹为

所述周末生活轨迹

其中，L_workη表示工作日生活轨迹中的点，η＝1,2,...,M，M为工作日生活轨迹中点的总数，L_weekω表示周末生活轨迹中的点，ω＝1,2,...,N，N为周末生活轨迹中点的总数。

所述步骤S1中计算训练集中两两用户之间的轨迹相似度的计算公式为：

所述

和Sim(Trⁱ _week,Tr^j _week)通过相似度函数Sim()获取，所述相似度函数Sim()为：

其中，Sim(Trⁱ,Tr^j)表示用户i和用户j之间的轨迹相似度，Sim(Trⁱ _work,Tr^j _work)表示用户i和用户j之间的工作日轨迹相似度，Sim(Trⁱ _week,Tr^j _week)表示用户i和用户j之间的周末轨迹相似度，Trⁱ _work表示用户i的工作日生活轨迹，Trⁱ _week表示用户i的周末生活轨迹，Tr^j _work表示用户j的工作日生活轨迹，Tr^j _week表示用户j的周末生活轨迹；Q为某一用户序列，Q序列长度为m，R为另一用户序列，R序列长度为n；m或n为零时，Sim(Q,R)＝0；Rset()表示序列指针后移一位的函数；ε表示距离阈值，ε＝10km，Q_H表示Q序列的头部点，R_H表示R序列的头部点；r_e表示地球半径，Q_{H_lat}表示头部点Q_H的经度，Q_{H_lon}表示头部点Q_H的纬度，R_{H_lat}表示头部点R_H的经度，R_{H_lon}表示头部点R_H的纬度。

所述步骤S2中根据训练集中用户关系网络构建地理位置因子图中的节点的具体方法为：从训练集的用户关系网络中随机选出两个用户，将两个用户的关系作为地理位置因子图中的节点，遍历训练集中所有其他用户，得到所有用户的地理位置因子图。

在本实施例中，所述两个用户的关系为一组相对关系；相对关系为朋友和非朋友或者相对关系为竞争关系和合作关系。

所述步骤S3中根据用户关系网络提取节点特征构建基本特征因子函数f(y_k,x_k)为：

所述φ()表示第一特征函数，所述第一特征函数φ(y_k,x_k)为：

表示节点k的标签为F时存在向量I，

在本实施例中，

表示节点k的标签为朋友时存在向量I，

表示节点k的标签为非朋友时存在向量I；节点k的特征向量x_k为0和1组成的向量，其维度与参数向量λ一致，其中1表示节点k的特征在所有特征组成的向量中所对应的位置。

所述步骤S3中根据用户轨迹相似度和用户关系网络中的用户结构构建二元相似度因子函数h(y_k|S(k),y_t|S(t))为：

所述

为第三特征函数，所述第三特征函数

为：

所述步骤S3中根据用户轨迹相似度和用户关系网络中的用户结构构建三元相似度因子函数g{y_v|S(v)}为：

所述

表示第四特征函数，所述第四特征函数

为：

所述步骤S4中全局概率分布模型p(Y|G)为：

在本实施例中，第四归一化常数Z具体为：

其中，Z＝Z_λZ_αZ_β。

所述步骤S5中对全局概率分布模型进行训练的具体方法为：将参数λ、α和β均初始化为0，使用梯度下降方法对模型进行训练，以梯度变化小于阈值为目标，设定梯度步长取值0.2，进行梯度下降迭代，梯度下降过程中使用LBP算法计算损失函数中的因子图概率分布，以概率分布计算各参数的梯度，并根据梯度步长对参数λ、α和β进行更新，直至各参数梯度最大值小于0.003时，训练结束。

所述损失值函数Lose(θ)具体为：

在本实施例中，对损失值函数Lose(θ)求偏导数，得到偏导数公式，将偏导数作为梯度距离求取公式，使用梯度下降算法对θ进行求解。

所述步骤S5中对测试集中未知标签进行预测的具体公式为：

在本实施例中，在测试集上进行仿真实验，分别通过支持向量机、标签传播方法、多元关联因子模型和本发明提出的方法对测试集中用户社会关系进行评估，结果如表1所示。

表1

方法	支持向量机	标签传播方法	多元关联因子模型	本发明
					正确率(％)	66.54	83.03	85.12	93.65

从表1可以看出，本发明基于地理位置构建因子图，是四种方法中关系评估正确率最高的。

本发明的有益效果为：

且将h'()和

取值范围设置为{0，1}，使不同标签组合下均能建立特征，二元因子函数和三元因子函数所包含的轨迹相似度特征函数H()和G()，且将H()和G()取值范围设置为{0，1}，使不同相似度间的计算结果均能建立特征。

(5)本发明具有很好的可扩展性和实用性，其轨迹提取方式和轨迹相似度计算方式适用于所有包含用户地理位置信息的社交网络，且评估效率较高。

Claims

1.一种基于用户生活轨迹的社会关系评估方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于用户生活轨迹的社会关系评估方法，其特征在于，所述步骤S1中计算训练集中两两用户之间的轨迹相似度的计算公式为：

3.根据权利要求1所述的基于用户生活轨迹的社会关系评估方法，其特征在于，所述步骤S2中根据训练集中用户关系网络构建地理位置因子图中的节点的具体方法为：从训练集的用户关系网络中随机选出两个用户，将两个用户的关系作为地理位置因子图中的节点，遍历训练集中所有其他用户，得到所有用户的地理位置因子图。

4.根据权利要求3所述的基于用户生活轨迹的社会关系评估方法，其特征在于，所述步骤S3中根据用户关系网络提取节点特征构建基本特征因子函数f(y_k,x_k)为：

所述φ()表示第一特征函数，所述第一特征函数φ(y_k,x_k)为：

表示节点k的标签为F时存在向量I，

5.根据权利要求4所述的基于用户生活轨迹的社会关系评估方法，其特征在于，所述步骤S3中根据用户轨迹相似度和用户关系网络中的用户结构构建二元相似度因子函数h(y_k|S(k),y_t|S(t))为：

所述h’()表示第二特征函数，所述第二特征函数h’(y_k|S(k),y_t|S(t))为：

所述φ()为第三特征函数，所述第三特征函数φ(y_k,,y_t)为：

6.根据权利要求5所述的基于用户生活轨迹的社会关系评估方法，其特征在于，所述步骤S3中根据用户轨迹相似度和用户关系网络中的用户结构构建三元相似度因子函数g{y_v|S(v)}为：

所述

表示第四特征函数，所述第四特征函数

为：

7.根据权利要求6所述的基于用户生活轨迹的社会关系评估方法，其特征在于，所述步骤S4中全局概率分布模型p(Y|G)为：

8.根据权利要求7所述的基于用户生活轨迹的社会关系评估方法，其特征在于，所述步骤S5中对全局概率分布模型进行训练的具体方法为：将参数λ、α和β均初始化为0，使用梯度下降方法对模型进行训练，以梯度变化小于阈值为目标，设定梯度步长取值0.2，进行梯度下降迭代，梯度下降过程中使用LBP算法计算损失函数中的因子图概率分布，以概率分布计算各参数的梯度，并根据梯度步长对参数λ、α和β进行更新，直至各参数梯度最大值小于0.003时，训练结束。

9.根据权利要求8所述的基于用户生活轨迹的社会关系评估方法，其特征在于，所述损失函数Lose(θ)具体为：

其中，θ表示参数λ、α和β的集合，log表示求取对数，Y表示所有未知标签和已知标签的集合，Y^L表示已知标签的集合，S表示基本特征因子函数、二元相似度因子函数和三元相似度因子函数的和，Y/Y^L表示地理位置因子图中部分标签已知。

10.根据权利要求8所述的基于用户生活轨迹的社会关系评估方法，其特征在于，所述步骤S5中对测试集中未知标签进行预测的具体公式为：

其中，Y^*表示预测结果，p(Y|G,θ)表示p(Y|G)更新参数后的全局概率分布模型，argmax表示对测试集中未知标签进行预测时求取最大概率标签的集合。