CN108074016B - 基于位置社交网络的用户关系强度预测方法、装置及设备 - Google Patents
基于位置社交网络的用户关系强度预测方法、装置及设备 Download PDFInfo
- Publication number
- CN108074016B CN108074016B CN201711422233.0A CN201711422233A CN108074016B CN 108074016 B CN108074016 B CN 108074016B CN 201711422233 A CN201711422233 A CN 201711422233A CN 108074016 B CN108074016 B CN 108074016B
- Authority
- CN
- China
- Prior art keywords
- user
- time
- context
- sequence
- context sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 230000004927 fusion Effects 0.000 claims abstract description 20
- 238000012549 training Methods 0.000 claims abstract description 19
- 230000002123 temporal effect Effects 0.000 claims description 18
- 239000013598 vector Substances 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 9
- 238000012795 verification Methods 0.000 claims description 8
- 238000004458 analytical method Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 5
- 238000012163 sequencing technique Methods 0.000 claims description 5
- 230000000007 visual effect Effects 0.000 description 8
- 235000019580 granularity Nutrition 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 3
- YVPYQUNUQOZFHG-UHFFFAOYSA-N amidotrizoic acid Chemical compound CC(=O)NC1=C(I)C(NC(C)=O)=C(I)C(C(O)=O)=C1I YVPYQUNUQOZFHG-UHFFFAOYSA-N 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Marketing (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Tourism & Hospitality (AREA)
- Development Economics (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了基于位置社交网络的用户关系强度方法,先获取包含时间信息和位置信息的用户签到数据和已标注的用户标志对;将用户标志按照时间信息和位置信息进行排列,确定时间上下文序列和位置上下文序列;再提取用户的时间上下文共现特征和位置上下文共现特征;利用上下文共现特征训练多视角分类器,利用多视角分类器预测用户间的时间关系强度得分和位置关系强度得分;最后对上述得分进行决策融合,确定用户间的最终关系强度值。可见,本发明综合考虑了时间上下文共现和位置上下文共现,提高了预测精度。本发明还提供了一种基于位置社交网络的用户关系强度预测装置、设备以及一种计算机可读存储设备,其作用与上述方法的作用相对应。
Description
技术领域
本发明涉及数据挖掘领域,特别是涉及一种基于位置社交网络的用户关系强度预测方法、装置、设备以及一种计算机可读存储介质。
背景技术
随着互联网技术的发展,一种新的社交网络——基于位置的社会网络LBSN逐渐兴起。因为移动传感设备的广泛使用,用户越来越容易和他们的朋友分享位置信息,众多大型的LBSN提供商都开始关注基于位置社交网络的用户关系强度预测问题。通过获取签到信息可以预测用户之间的关系,从而为用户提供更合乎用户需求的服务。例如,移动设备网络就是一个典型的LBSN,通过移动设备网络获取用户的位置信息,根据时间和位置信息预测用户之间的关系,为关系密切的用户推荐类似的广告;可以通过了解用户关系强度关系从而更好定制化用户的体验等。所以,基于位置信息预测用户关系在实际生活中具有重大研究意义。
关系强度强的两个人相比陌生人而言会有更大的概率出现在相同的场合,可能是由于相同的职业或者是由于相同的性趣爱好,比如:一起工作的同事在工作日经常会出现在一起;或者朋友经常一起喝咖啡。基于这样的设定,现在很多研究是基于共现特征来预测用户间的关系强度,但是目前的研究大多是根据位置共现来提取特征,位置这种方法只考虑到用户的位置共现特征,所以预测精度不够理想。
可见,如何提高用户之间关系强度的预测精度是亟待本领域技术人员解决的问题。
发明内容
本发明的目的是提供一种基于位置社交网络的用户关系强度预测方法,用以解决传统用于预测用户间的关系强度方法的预测精度较低的问题。
为解决上述技术问题,本发明提供一种基于位置社交网络的用户关系强度预测方法,包括:
获取包含时间信息和位置信息的用户签到数据,和已标注的用户标志对;
将所述用户签到数据中的所述用户标志分别按照所述时间信息和所述位置信息进行排列,确定时间上下文序列和位置上下文序列;
分别根据所述时间上下文序列和所述位置上下文序列,确定用户的时间上下文共现特征和位置上下文共现特征;
预先利用所述时间上下文共现特征和所述位置上下文共现特征分别训练多视角分类器,利用所述多视角分类器分别预测用户间的时间关系强度得分和位置关系强度得分;
对所述时间关系强度得分和所述位置关系强度得分进行决策融合,确定用户间的最终关系强度值。
其中,所述获取包含时间信息和位置信息的用户签到数据,和已标注的用户标志对包括:
获取包含时间信息和位置信息的用户签到数据,和已标注的用户标志对;
将所述用户标志对和对应的所述用户签到数据划分为训练集、验证集和测试集。
其中,所述将所述用户签到数据中的所述用户标志分别按照所述时间信息和所述位置信息进行排列,确定时间上下文序列和位置上下文序列包括:
将所述用户签到数据中的所述用户标志按时间域排序,将所述用户签到数据中处于同一所述时间域的所述用户标志,按照距离由近及远的原则进行排列,即随机选择一个位置上的所述用户标志作为第一个元素标志,选择离上述位置最近的位置上的所述用户标志作为第二个元素标志,依此类推,选择离前(N-1)个位置的中心点(Xn-1,Yn-1)最近的位置上的所述用户标志作为第N个元素标志,其中
在上式中,n为所述时间上下文序列中同一时间域中的所述用户标志的个数,longitude1、longitude2和longitude3分别为所述时间上下文序列中同一时间域中第一个所述位置信息的经度、第二个所述位置信息的经度和第n-1个所述位置信息的经度,latitude1、latitude2和latituden-1分别为所述时间上下文序列中同一时间域中第一个所述位置信息的纬度、第二个所述位置信息的纬度和第n-1个所述位置信息的纬度;
将所述用户签到数据中的所述用户标志按照位置域距离由近及远的原则进行排序,将所述用户签到数据中处于同一所述位置域的所述用户标志,按照时间的先后顺序进行排列,其中距离由近及远的原则与所述时间上下文序列中的距离由近及远的原则相对应。
其中,所述分别根据所述时间上下文序列和所述位置上下文序列,确定用户间的时间上下文共现特征和位置上下文共现特征包括:
其中,m为所述时间上下文序列或所述位置上下文序列中所述用户标志的个数,t=1,2,...,m,k为滑动窗口大小,j=-k,-k+1,...,k,wt为所述时间上下文序列或所述位置上下文序列中第t个所述用户标志,wt+j为所述时间上下文序列或所述位置上下文序列中第t+j个所述用户标志。
其中,所述预先利用所述时间上下文共现特征和所述位置上下文共现特征分别训练多视角分类器,并利用所述多视角分类器分别预测用户间的时间关系强度得分和位置关系强度得分包括:
预先利用所述时间上下文共现特征和所述位置上下文共现特征训练多视角模型;
利用训练好的所述多视角模型在测试集上分别预测用户间的时间关系强度得分和位置关系强度得分。
其中,所述对所述时间关系强度得分和所述位置关系强度得分进行决策融合,确定用户间的最终关系强度值包括:
基于多视角原则,对所述时间关系强度得分和所述位置关系强度得分进行决策融合,确定用户间的最终关系强度值。
其中,所述将所述用户签到数据中的所述用户标志分别按照所述时间信息和所述位置信息进行排列,确定时间上下文序列和位置上下文序列包括:
将所述用户标志按照所述时间信息进行排列,确定天上下文序列、小时上下文序列;
将所述用户标志按照所述位置信息进行排列,确定位置上下文序列。
本发明还提供了一种基于位置社交网络的用户关系强度预测装置,包括:
数据获取模块:用于获取包含时间信息和位置信息的用户签到数据,和已标注的用户标志对;
多视角分析模块:用于将所述用户签到数据中的所述用户标志分别按照所述时间信息视角和所述位置信息视角进行排列,确定时间上下文序列和位置上下文序列;
特征提取模块:用于分别根据所述时间上下文序列和所述位置上下文序列,确定用户间的时间上下文共现特征和位置上下文共现特征;
分类器预测模块:用于预先利用所述时间上下文共现特征和所述位置上下文共现特征分别训练多视角分类器,并利用所述多视角分类器分别预测用户间的时间关系强度得分和位置关系强度得分;
决策融合模块:用于对所述时间关系强度得分和所述位置关系强度得分进行决策融合,确定用户间的最终用户关系强度值。
除此之外,本发明还提供了一种基于位置社交网络的用户关系强度预测设备,包括:
存储器:用于存储计算机程序;
处理器:用于执行所述计算机程序以实现如上所述的基于位置社交网络的用户关系强度预测方法的步骤。
最后,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存有计算机程序,所述计算机程序被处理器执行时实现如上所述的基于位置社交网络的用户关系强度预测方法的步骤。
本发明所提供的基于位置社交网络的用户关系强度方法,包含五个阶段:首先,获取包含时间信息和位置信息的用户签到数据,已标注的用户标志对;其次,将所述用户标志分别按照所述时间信息和所述位置信息进行排列,确定时间上下文序列和位置上下文序列;再分别根据所述时间上下文序列和所述位置上下文序列,确定用户的时间上下文共现特征和位置上下文共现特征;接下来,利用上下文共现特征训练多视角分类器,并利用预先训练好的多视角分类器分别预测用户间的时间关系强度得分和位置关系强度得分;最后,对所述时间关系强度得分和所述位置关系强度得分进行决策融合,确定用户间的最终关系强度值。可见,本发明提供的基于位置社交网络的用户关系强度预测方法,综合考虑了时间共现和位置共现,并且考虑到了时间上下文与位置上下文,一定程度上提高了预测精度。
另外,本发明还提供了一种基于位置社交网络的用户关系强度预测装置、设备以及一种计算机可读存储设备,其作用与上述一种基于位置社交网络的用户关系强度预测方法的作用相对应,这里不再赘述。
附图说明
为了更清楚的说明本发明实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种基于位置社交网络的用户关系强度预测方法实施例的实现流程图;
图2为本发明提供的一种基于位置社交网络的用户关系强度预测方法的平台结构图;
图3-1为本发明提供的一种基于位置社交网络的用户关系强度预测方法在Brightkite数据集上与EBM方法的P-R曲线对比图;
图3-2为本实施例提供的一种基于位置社交网络的用户关系强度预测方法在Gowalla数据集上与EBM方法以及TR方法的P-R曲线对比图;
图4为本发明提供的一种基于位置社交网络的用户关系强度预测装置的结构框图。
具体实施方式
本发明的核心是提供一种基于位置社交网络的用户关系强度预测方法、装置、设备以及一种计算机可读存储介质,大大提高了预测用户之间关系强度的预测精度。
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面开始详细介绍本发明提供的一种基于位置社交网络的用户关系强度预测的方法实施例,参见图1,该实施例具体包括:
步骤S11:获取包含时间信息和位置信息的用户签到数据,和已标注的用户标志对。
将用户签到数据处理成<用户id,签到时间,经纬度>这样的格式,其中用户id即是用户标志,同时获取已标注的用户对关系数据;我们实验所用到的数据集描述参见表1,表1描述的是用户签到数据、用户数以及用户关系数,我们对用户对数据和所对应的签到数据进行数据集的划分,用户关系对的训练集、验证集和测试集的比例划分分别为70%,10%和20%,由于在这里我们仅知道正标签,所以采用生成负标签的方式,因为任何两个不存在关系的用户对即为负标签,从而达到正负标签的平衡。
表1
Datasets | Brightkite | Gowalla |
Checkins | 4,491,144 | 6,442,890 |
Nodes(User ID) | 50,686 | 107,092 |
Edges(User Pairs) | 194,090 | 456,830 |
步骤S12:将所述用户签到数据中的所述用户标志分别按照所述时间信息和所述位置信息进行排列,确定时间上下文序列和位置上下文序列。
对于时间上下文序列,具体的:时间域可以根据粒度划分为天和小时,我们这里选取时间域为天作进一步介绍,首先选取时间域最小的天作为第一组,将所述时间信息处于同一时间域的所述用户标志,在相同的时间域内,按照距离由近及远的原则进行组内的排序:在组内随机选择一个用户标志作为第一个标志,离第一个用户位置坐标最近的用户标志作为第二标志,离前N-1个用户位置坐标中心点(Xn-1,Yn-1)距离最近的用户标志作为第N个用户标志,依此类推;最终确定多个所述时间上下文序列。
其中,当时间域相同时n即为所述组内已排序好的用户标志的个数,longtitude1、longtitude2和longtituden-1分别为所述时间上下文序列中第一个所述位置信息的经度、第二个所述位置信息的经度和第n-1个所述位置信息的经度,latitude1、latitude2和latituden-1分别为所述时间上下文序列中第一个所述位置信息的纬度、第二个所述位置信息的纬度和第n-1个所述位置信息的纬度。
对于第二个时间区域的组,选定次小的天作为第二组,其次在相同的时间域内,按照距离由近及远的原则进行组内的排序。
依此类推,最终得到一个基于天的上下文序列,由于可以根据时间域粒度的不同,可以将时间域划分为天和小时两种粒度,所以以两种粒度分别进行排列,可以得到天上下文序列和小时上下文序列。
对于位置上下文序列,具体的,首先根据距离由近及远的原则进行排序:首先任选定一个签到位置作为第一个用户序列标志,然后找出所有出现在第一个签到位置的用户序列标志,在相同位置域的用户签到数据组,我们按签到时间的先后顺序进行排序,得到第一组基于位置的上下文序列标志。
对于第二个位置上下文序列组标志,首先选择与第一组位置最近的位置作为第二个位置,在位置标志相同的组内,在组内按签到时间的先后顺序排序,得到第二组位置序列标志。
对于第N个位置序列标志,可以先计算出前N-1个位置的中心点(X′n′-1,Y′n′-1),然后找到与中心点(X′n′-1,Y′n′-1)最近的位置作为第N个位置,在相同的位置的组内,在组内进行签到时间的先后顺序排序,得到第N组位置序列标志。
其中,n’为已排序好的位置组的个数,Longitude、Latitude分别为签到数据的经度和纬度。
依此类推,值得注意的是,此处距离由近及远的原则与时间上下文序列中的距离由近及远的原则相对应,只不过这里的距离由近及远原则是对于所有基于位置域组的数据,而时间上下文序列中的距离由近及远原则是作用在相同时间域的组内用户标志;其次在每个位置域相同的情况下,组内按照时间先后顺序进行排序。最终我们可以确定基于位置的上下文序列。
步骤S13:分别根据所述时间上下文序列和所述位置上下文序列,确定用户间的时间上下文共现特征和位置上下文共现特征。
具体的,我们已经产生基于时间(天、小时)的上下文序列和基于位置的上下文序列,这里我们以其中的基于天的上下文序列为例作进一步说明,其中上下文序列表示为{w1,w2,w3,...,wm},我们的目标是最大化第一公式的平均概率值,其中,m为所述上下文序列中所述用户标志的个数,t=1,2,...,m,k为序列中的滑动窗口,j=-k,-k+1,...,k,内循环是从-k到k之间,wt为上下文序列中第t个用户标志,wt+j为上下文序列中第t+j个用户标志,其中窗口两端的边界值采用边界值填充的方式,外循环遍历上下文序列中所有的元素。每个序列元素w关联两个要学习的向量,分别是uw和vw,它们分别是元素w的“输入”和“输出”向量。所以在给定wt的情况下正确预测wt+j的概率可改写为第二公式V为所述上下文序列中不同的用户标志。以上模型通过随机梯度下降的方式进行训练,梯度的计算是通过反向传播的规则。学习出来的表示词向量,即是我们需要的用户上下文共现特征。自然语言处理工具word2vec中skip-gram框架和我们的目标函数一致,我们可以通过该工具确保第一公式的平均概率值最大,第一公式的用户标志wt关联的输出特征向量即为上下文共现特征。在这里,我们将word2vec的滑动窗口即k设置为10,输出特征向量的维度即设置为200,学习率设置为0.1,其它参数为默认值,最终我们可以得到200维的用户上下文共现特征。
由于有三种类型的上下文序列,分别是天上下文序列、小时上下文序列和位置上下文序列。这三种类型的上下文序列提取上下文共现的特征的方式相同,所以可以产生三种类型的用户上下文共现特征,分别是天上下文共现特征、小时上下文共现特征和位置上下文共现特征。
步骤S14:预先利用所述时间上下文共现特征和所述位置上下文共现特征训练多视角分类器,利用所述多视角分类器分别预测用户间的时间关系强度得分和位置关系强度得分。
具体的,根据天上下文共现特征、小时上下文共现特征和位置上下文共现特征,这里我们以天上下文共现特征为例作进一步说明,其它两类上下文共现特征的方法与此相同,我们利用用户对的共现特征组合在训练集上进行训练模型,学习器我们采用xgboost模型,在输入模型之前的特征组合是400维的向量,xgboost模型的booster参数设置为gbtree,树的最大深度设置为3从而避免过拟合,学习速率设置为0.1,目标函数为logistic,迭代次数设置为500,其它参数保持默认。最后利用训练好了的模型在测试集上进行预测,确定用户对关系强度得分。由于有三个视角,三个视角的用户对关系强度得分的求法相同,所以可以得到基于天的用户关系强度得分、基于小时的用户关系强度得分和基于位置的用户关系强度得分。
其中,xgboost模型是一种使用树集成的监督学习方法,对于给定的数据集,有n条数据且有m个特征D={(xi,yi)}(|D|=n,xi∈Rm,yi∈[0,1]),树集成模型使用K个增强函数来预测结果:fk∈F,F为回归树的位置,输出是用户间关系强度得分,我们以降序的方式排序总得来说,用户对关系强度得分越高,他们的关系强度就越大。
步骤S15:对所述时间关系强度得分和所述位置关系强度得分进行决策融合,确定用户间的最终关系强度值。
分别根据时间(天、小时)和位置共三个视角,D为多视角(在这里共三个视角),di为D中某一个视角,W(di)为某一视角所占的权重,为某一具体视角的关系强度得分,W(di)由概率W'(di)经过L1正则化得到,其中(δ为非常小的值,例如取0.1),ValAUC为三个视角分别在验证集上的AUC,利用测证集上的AUC求得视角的权重,最终的用户关系强度通过视角权重和视角得分乘积加权得到,即为Result即为融合三个视角的最终用户关系强度值。
我们根据基于天的用户关系强度得分、基于小时的用户关系强度得分和基于位置的用户关系强度得分加权求得最终的用户关系强度值。表2为经过决策融合得到的最终关系强度AUC与单一视角得到的关系强度AUC的对比图,显然经过决策融合得到的关系强度值的精准度要更高。
表2
本发明所提供的基于位置社交网络用户关系强度预测的方法,包含五个阶段:首先,获取包含时间信息和位置信息的用户签到数据,和已标注的用户标志对;其次,将所述用户标志分别按照所述时间信息和所述位置信息进行排列,确定时间上下文序列和位置上下文序列;然后分别根据所述时间上下文序列和所述位置上下文序列,确定用户间的时间上下文共现特征和位置上下文共现特征;再用预先训练好的分类器分别预测用户之间的时间关系强度得分和位置关系强度得分,最后对所述时间关系强度得分和所述位置关系强度得分进行决策融合,确定用户间的最终关系值。
很少有研究提出时间共现的概念,有研究专门针对位置上下文提出相应的方法,但没有研究针对时间上下文提出相应的模型。在我们的方法中我们结合共现和上下文提出了上下文共现,同时基于时间和位置两个视角分别提出时间上下文和位置上下文,此外,时间视角的信息分为两个粒度,分别为天和小时。所以我们的方法相比其它方法而言进一步提升了预测精度。
为了使得本实施例的实施效果更加清楚直观,下面参见图3-1和图3-2,图3-1和图3-2分别为本实施例提供的一种基于位置信息预测关系强度的方法与两种同类方法在同样的测试集上P-R曲线图,其中两种同类方法分别为基于熵的EBM方法和基于轨迹的TR方法。显然,本实施例提供的基于位置信息预测关系强度的方法的预测精度要大于其他两种方法。
下面对本发明实施例提供的一种基于位置社交网络的用户关系强度预测的装置进行介绍,下文描述的一种基于位置社交网络的用户关系强度预测的装置与上文描述的一种基于位置社交网络的用户关系强度预测的方法可相互对应参照。
图4为本发明实施例提供的一种基于位置社交网络的用户关系强度预测的装置的结构框图,参照图4,该装置具体包括:
数据获取模块21:用于获取包含时间信息和位置信息的用户签到数据,和已标注的用户标志对;
多视角分析模块22:用于将所述用户签到数据中的所述用户标志分别按照所述时间信息和所述位置信息进行排列,分别确定时间上下文序列和位置上下文序列;
特征提取模块23:用于分别根据所述时间上下文序列和所述位置上下文序列,确定用户之间的时间上下文共现特征和位置上下文共现特征;
分类器预测模块24:预先利用所述时间上下文共现特征和所述位置上下文共现特征训练多视角分类器,并利用所述多视角分类器分别预测用户之间的时间关系强度得分和位置关系强度得分;
决策融合模块25:对所述时间关系强度得分和所述位置关系强度得分进行决策融合,确定用户之间的最终关系强度值。
其中,数据获取模块包括:
利用移动传感器等设备获取用户签到数据,并将用户签到数据处理成<用户id,签到时间,经纬度>这样的格式,其中用户id即是用户标志,同时获取已标注的用户对关系数据;我们实验所用到的数据集描述参见表1,表1描述的是用户签到数据、用户数以及用户关系数,我们对签到数据和用户对数据进行数据集的划分,用户关系对的训练集、验证集和测试集的比例划分可以分别为70%,10%和20%,由于在这里我们仅知道正标签,所以采用生成负标签的方式,因为任何两个不存在关系的用户对即为负标签,从而达到正负标签的平衡。
其中,所述多视角分析模块包括:
时间上下文序列生成单元:将所述的用户签到数据按时间域进行排序,在相同的时间域的情况下,按照距离由近及远原则进行用户标志的排序:随机选择一个用户标志作为第一个标志,离第一个用户位置坐标最近的用户标志作为第二个标志,离前N-1个用户位置坐标中心点(Xn-1,Yn-1)距离最近的用户位置坐标作为第N个用户标志,依此类推;
其中,当时间区域相同时n即为所述相同时间区域中所述已排序的用户标志的个数,Longitude、Latitude分别为用户签到数据的经度和纬度。由于时间域可以根据时间的粒度划分成天、小时,所以我们按两种粒度划分时间域,所以最终可以得天上下文序列和小时上下文序列。
位置上下文序列生成单元:首先按照距离由近及远原则进行用户标志的排序,在相同的位置域的情况下,按照时间先后顺序进行排序。最终确定位置上下文序列。
其中,所述特征提取模块包括:
分别根据所述时间上下文序列和所述位置上下文序{w1,w2,w3,...,wm},确定保证第一公式的值最大,以上模型通过随机梯度下降的方式进行训练,梯度的计算是通过反向传播的规则,学习出来的wt关联的词向量即是我们需要的上下文共现特征,我们分别从时间和位置视角进行提取特征,最终确定基于时间上下文共现特征和基于位置的上下文共现特征。
其中,m为所述时间上下文序列或所述位置上下文序列中所述用户标志的个数,t=1,2,...,m,k为序列中的滑动窗口,j=-k,-k+1,...,k,wt为所述时间上下文序列或所述位置上下文序列中第t个所述用户标志,wt+j为所述时间上下文序列或所述位置上下文序列中第t+j个所述用户标志,内循环为给定wt的情况下预测wt+j的概率,内循环是从-k到k之间,窗口两端的边界值采用边界值填序的方式,外循环遍历上下文序列中所有的元素。V为所述上下文序列中不同用户标志。
其中,所述分类器预测模块包括:
分别根据所述基于时间的上下文共现特征和基于位置的上下文共现特征,进行分类器的训练和预测包括。利用户标志对的特征组合分别训练XGBoost模型,利用训练好了的模型分别在测试集上进行预测,由于分为时间和位置两个维度,所以可以得到基于天的用户关系强度得分、基于小时的用户关系强度得分和基于位置的用户关系强度得分。
其中,决策融合模块包括:
分别根据时间(天、小时)和位置共三个视角,D为多视角(在这里共三个视角),di为D中某一个视角,W(di)为某一视角所占的权重,为某一具体视角的关系强度得分,W(di)由概率W'(di)经过L1正则化得到,其中(δ为非常小的值,例如取0.1),ValAUC为三个视角分别在验证集上的AUC,利用测证集上的AUC求得视角的权重,最终的用户关系强度通过视角权重和视角得分乘积加权得到,即为Result即为融合三个视角的最终的用户关系强度值。
本实施例的一种基于位置社交网络的用户关系强度预测装置用于实现前述对应的方法,因此该装置中的具体实施方式可见前文中的方法的实施例部分,例如,获取数据模块21,多视角分析模块22,特征提取模块23,分类器学习模块24和决策融合模块25,分别用于实现上述方法中步骤S11,S12,S13,S14和S15。所以,其具体实施方式可以参照相应的各个部分实施例的描述,在此不再展开介绍。
由于本实施例提供的一种基于位置社交网络的用户关系强度预测装置用于实现前述一种基于位置社交网络的用户关系强度预测方法,因此本实施例的作用与前述方法实施例的作用相互对应,这里不再赘述。
除此之外,本发明还提供了一种基于位置社交网络的用户关系强度预测设备,包括:
存储器:用于存储计算机程序;
处理器:用于执行所述计算机程序以实现前述的基于位置社交网络的用户关系强度预测方法的步骤。
最后,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存有计算机程序,所述计算机程序被处理器执行时实现前述的基于位置社交网络的用户关系强度预测方法的步骤。
由于本发明提供的一种基于位置社交网络的用户关系强度预测设备以及一种计算机可读存储介质用于实现前述一种基于位置社交网络的用户关系强度预测方法,因此,两者的作用均与前述一种基于位置社交网络的用户关系强度预测方法实施例的作用相对应,这里不再赘述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本发明所提供的一种基于位置社交网络的用户关系强度预测方法、装置、设备以及一种计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
Claims (9)
1.一种基于位置社交网络的用户关系强度预测方法,其特征在于,包括:
获取包含时间信息和位置信息的用户签到数据,和已标注的用户标志对;
将所述用户签到数据中的用户标志分别按照所述时间信息和所述位置信息进行排列,确定时间上下文序列和位置上下文序列;
分别根据所述时间上下文序列和所述位置上下文序列,确定用户的时间上下文共现特征和位置上下文共现特征;
预先利用所述时间上下文共现特征和所述位置上下文共现特征分别训练多视角分类器,利用所述多视角分类器分别预测用户间的时间关系强度得分和位置关系强度得分;
对所述时间关系强度得分和所述位置关系强度得分进行决策融合,确定用户间的最终关系强度值;
所述将所述用户签到数据中的用户标志分别按照所述时间信息和所述位置信息进行排列,确定时间上下文序列和位置上下文序列包括:
将所述用户签到数据中的用户标志按时间域排序,将所述用户签到数据中处于同一时间域的用户标志,按照距离由近及远的原则进行排列,以随机选择一个位置上的用户标志作为第一个元素标志,选择离上述用户标志所属位置最近的位置上的用户标志作为第二个元素标志,依此类推,选择离前(N-1)个位置的中心点(Xn-1,Yn-1)最近的位置上的用户标志作为第N个元素标志,其中
其中,n为所述时间上下文序列中同一时间域中的用户标志的个数,longitude1、longitude2和longituden-1分别为所述时间上下文序列中同一时间域中第一个位置信息的经度、第二个位置信息的经度和第n-1个位置信息的经度,latitude1、latitude2和latituden-1分别为所述时间上下文序列中同一时间域中第一个位置信息的纬度、第二个位置信息的纬度和第n-1个位置信息的纬度;
将所述用户签到数据中的用户标志按照位置域进行排序,将所述用户签到数据中处于同一位置域的用户标志,按照时间的先后顺序进行排列,其中距离由近及远的原则与所述时间上下文序列中的由远及近的原则相对应。
2.如权利要求1所述的方法,其特征在于,所述获取包含时间信息和位置信息的用户签到数据,和已标注的用户标志对包括:
获取包含时间信息和位置位置信息的用户签到数据,和已标注的用户标志对;
将所述用户标志对和对应的所述用户签到数据划分为训练集、验证集和测试集。
3.如权利要求1所述的方法,其特征在于,所述分别根据所述时间上下文序列和所述位置上下文序列,确定用户的时间上下文共现特征和位置上下文共现特征包括:
其中,m为所述时间上下文序列或所述位置上下文序列中所述用户标志的个数,t=1,2,...,m,k为滑动窗口大小,j=-k,-k+1,...,k,wt为所述时间上下文序列或所述位置上下文序列中第t个所述用户标志,wt+j为所述时间上下文序列或所述位置上下文序列中第t+j个所述用户标志。
4.如权利要求1所述的方法,其特征在于,所述预先利用所述时间上下文共现特征和所述位置上下文共现特征分别训练多视角分类器,利用所述多视角分类器分别预测用户间的时间关系强度得分和位置关系强度得分包括:
预先利用所述时间上下文共现特征和所述位置上下文共现特征训练多视角模型;
利用训练好的所述多视角模型在测试集上分别预测用户间的时间关系强度得分和位置关系强度得分。
5.如权利要求1所述的方法,其特征在于,所述对所述时间关系强度得分和所述位置关系强度得分进行决策融合,确定用户间的最终关系强度值包括:
基于多视角原则,对所述时间关系强度得分和所述位置关系强度得分进行决策融合,确定用户间的最终关系强度值。
6.如权利要求1-5任意一项所述的方法,其特征在于,所述将所述用户签到数据中的用户标志分别按照所述时间信息和所述位置信息进行排列,确定时间上下文序列和位置上下文序列包括:
将所述用户标志按照所述时间信息进行排列,确定天上下文序列、小时上下文序列;
将所述用户标志按照所述位置信息进行排列,确定位置上下文序列。
7.一种基于位置社交网络的用户关系强度预测装置,其特征在于,包括:
数据获取模块:用于获取包含时间信息和位置信息的用户签到数据,和已标注的用户标志对;
多视角分析模块:用于将所述用户签到数据中的用户标志分别按照所述时间信息和所述位置信息进行排列,确定时间上下文序列和位置上下文序列;
特征提取模块:用于分别根据所述时间上下文序列和所述位置上下文序列,确定用户的时间上下文共现特征和位置上下文共现特征;
分类器预测模块:用于预先利用所述时间上下文共现特征和所述位置上下文共现特征分别训练多视角分类器,并利用所述多视角分类器分别预测用户间的时间关系强度得分和位置关系强度得分;
决策融合模块:用于对所述时间关系强度得分和所述位置关系强度得分进行决策融合,确定用户间的最终用户关系强度值;
所述将所述用户签到数据中的用户标志分别按照所述时间信息和所述位置信息进行排列,确定时间上下文序列和位置上下文序列包括:
将所述用户签到数据中的用户标志按时间域排序,将所述用户签到数据中处于同一时间域的用户标志,按照距离由近及远的原则进行排列,以随机选择一个位置上的用户标志作为第一个元素标志,选择离上述用户标志所属位置最近的位置上的用户标志作为第二个元素标志,依此类推,选择离前(N-1)个位置的中心点(Xn-1,Yn-1)最近的位置上的用户标志作为第N个元素标志,其中
其中,n为所述时间上下文序列中同一时间域中的用户标志的个数,longitude1、longitude2和longituden-1分别为所述时间上下文序列中同一时间域中第一个位置信息的经度、第二个位置信息的经度和第n-1个位置信息的经度,latitude1、latitude2和latituden-1分别为所述时间上下文序列中同一时间域中第一个位置信息的纬度、第二个位置信息的纬度和第n-1个位置信息的纬度;
将所述用户签到数据中的用户标志按照位置域进行排序,将所述用户签到数据中处于同一位置域的用户标志,按照时间的先后顺序进行排列,其中距离由近及远的原则与所述时间上下文序列中的由远及近的原则相对应。
8.一种基于位置社交网络的用户关系强度预测设备,其特征在于,包括:
存储器:用于存储计算机程序;
处理器:用于执行所述计算机程序以实现如权利要求1-6任意一项所述的基于位置社交网络的用户关系强度预测方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-6任意一项所述的基于位置社交网络的用户关系强度预测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711422233.0A CN108074016B (zh) | 2017-12-25 | 2017-12-25 | 基于位置社交网络的用户关系强度预测方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711422233.0A CN108074016B (zh) | 2017-12-25 | 2017-12-25 | 基于位置社交网络的用户关系强度预测方法、装置及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108074016A CN108074016A (zh) | 2018-05-25 |
CN108074016B true CN108074016B (zh) | 2021-07-30 |
Family
ID=62155686
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711422233.0A Active CN108074016B (zh) | 2017-12-25 | 2017-12-25 | 基于位置社交网络的用户关系强度预测方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108074016B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109102480B (zh) * | 2018-07-06 | 2022-02-22 | 中科星图股份有限公司 | 一种适用于分布式架构的Gram-Schmidt融合方法 |
CN109992724B (zh) * | 2019-04-03 | 2024-05-31 | 西咸新区心灯软件科技有限公司 | 一种基于个人特征信息的用户契合度的计算方法和装置 |
CN112054949A (zh) * | 2019-06-06 | 2020-12-08 | 阿里巴巴集团控股有限公司 | 用户信息的处理方法、信息推送方法、装置及电子设备 |
CN110322295B (zh) * | 2019-07-09 | 2022-04-26 | 北京百度网讯科技有限公司 | 关系强度确定方法及系统、服务器、计算机可读介质 |
CN110675192A (zh) * | 2019-09-27 | 2020-01-10 | 深圳市掌众信息技术有限公司 | 一种亲密关系挖掘方法、广告推送方法及系统 |
CN113641917A (zh) * | 2020-05-11 | 2021-11-12 | 杭州海康威视数字技术股份有限公司 | 关系获取方法及装置 |
CN112183465A (zh) * | 2020-10-26 | 2021-01-05 | 天津大学 | 一种基于人物属性和上下文的社会关系识别方法 |
CN115687801B (zh) * | 2022-09-27 | 2024-01-19 | 南京工业职业技术大学 | 基于位置时效特征和时间感知动态相似性的位置推荐方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104537442A (zh) * | 2014-12-31 | 2015-04-22 | 苏州大学 | 预测时空数据的用户社交联系强度的方法 |
CN106021290A (zh) * | 2016-04-29 | 2016-10-12 | 中国科学院信息工程研究所 | 一种基于多尺度地理信息的社交网络关联挖掘方法 |
CN107133262A (zh) * | 2017-03-30 | 2017-09-05 | 浙江大学 | 一种基于多影响嵌入的个性化poi推荐方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080313202A1 (en) * | 2007-06-12 | 2008-12-18 | Yakov Kamen | Method and apparatus for semantic keyword clusters generation |
-
2017
- 2017-12-25 CN CN201711422233.0A patent/CN108074016B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104537442A (zh) * | 2014-12-31 | 2015-04-22 | 苏州大学 | 预测时空数据的用户社交联系强度的方法 |
CN106021290A (zh) * | 2016-04-29 | 2016-10-12 | 中国科学院信息工程研究所 | 一种基于多尺度地理信息的社交网络关联挖掘方法 |
CN107133262A (zh) * | 2017-03-30 | 2017-09-05 | 浙江大学 | 一种基于多影响嵌入的个性化poi推荐方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108074016A (zh) | 2018-05-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108074016B (zh) | 基于位置社交网络的用户关系强度预测方法、装置及设备 | |
EP3234871B1 (en) | Generating numeric embeddings of images | |
CN107133277B (zh) | 一种基于动态主题模型和矩阵分解的旅游景点推荐方法 | |
US11514063B2 (en) | Method and apparatus of recommending information based on fused relationship network, and device and medium | |
CN109902665A (zh) | 相似人脸检索方法、装置及存储介质 | |
CN109299344A (zh) | 排序模型的生成方法、搜索结果的排序方法、装置及设备 | |
CN110580500A (zh) | 一种面向人物交互的网络权重生成少样本图像分类方法 | |
CN110633745A (zh) | 一种基于人工智能的图像分类训练方法、装置及存储介质 | |
US11449788B2 (en) | Systems and methods for online annotation of source data using skill estimation | |
US20200057925A1 (en) | Image disambiguation method and apparatus, storage medium, and electronic device | |
CN108734146A (zh) | 人脸图像年龄判断方法、装置、计算机设备及存储介质 | |
CN105045889B (zh) | 一种信息推送方法及装置 | |
CN104778283B (zh) | 一种基于微博的用户职业分类方法及系统 | |
CN113642431A (zh) | 目标检测模型的训练方法及装置、电子设备和存储介质 | |
CN112818995B (zh) | 图像分类方法、装置、电子设备及存储介质 | |
CN109919252A (zh) | 利用少数标注图像生成分类器的方法 | |
CN108596276A (zh) | 基于特征加权的朴素贝叶斯微博用户分类方法 | |
WO2022142903A1 (zh) | 身份识别方法、装置、电子设备及相关产品 | |
CN113051486A (zh) | 基于交友场景的推荐模型的训练方法、装置、电子设备和计算机可读存储介质 | |
CN107392392A (zh) | 基于深度学习的微博转发预测方法 | |
CN108549857B (zh) | 事件检测模型训练方法、装置及事件检测方法 | |
CN115187772A (zh) | 目标检测网络的训练及目标检测方法、装置及设备 | |
CN106897282B (zh) | 一种用户群的分类方法和设备 | |
CN117726884B (zh) | 对象类别识别模型的训练方法、对象类别识别方法及装置 | |
CN110457387B (zh) | 一种应用于网络中用户标签确定的方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |