CN110020178A - 兴趣点识别方法、装置、设备及存储介质 - Google Patents

兴趣点识别方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN110020178A
CN110020178A CN201711487390.XA CN201711487390A CN110020178A CN 110020178 A CN110020178 A CN 110020178A CN 201711487390 A CN201711487390 A CN 201711487390A CN 110020178 A CN110020178 A CN 110020178A
Authority
CN
China
Prior art keywords
point
interest
user
time
motion track
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711487390.XA
Other languages
English (en)
Inventor
才鑫
姜国强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Group Liaoning Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Group Liaoning Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Group Liaoning Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201711487390.XA priority Critical patent/CN110020178A/zh
Publication of CN110020178A publication Critical patent/CN110020178A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种兴趣点识别方法、装置、设备及存储介质。该兴趣点识别方法包括:获取用户的移动轨迹信息;依据所述移动轨迹信息建立用户轨迹模型以挖掘用户行为信息;依据挖掘到的用户行为信息,利用时间窗口识别用户的密集活动时间区间;针对每一个密集活动时间区间,采用二阶速度协同聚类兴趣点识别算法识别用户兴趣点。通过本发明的技术方案可较准确识别用户兴趣点。

Description

兴趣点识别方法、装置、设备及存储介质
技术领域
本发明涉及移动互联网技术领域,尤其涉及一种兴趣点识别方法、装置、设备及存储介质。
背景技术
由于移动互联网和大数据时代的到来,随着移动终端的普及,可以提取的用户信息越来越全面,并且在人们日常生活中得到了广泛应用,进而在海量数据中如何得到高精度、有参考价值的数据成为大家关注的焦点。移动端的各种应用使得每天都产生数以亿计的移动数据,这些移动端产生的海量移动数据成为了研究挖掘移动轨迹以及精确个性推荐的数据基础。
与此同时随着经济的飞速发展,线上线下交互已经成为人们生活中不可或缺的一部分。然而大多兴趣点识别仅仅是针对用户历史轨迹进行行为研究,并没有考虑时间维度及速度维度,这样就会导致推荐的内容会显得不合时宜。
在海量用户的移动行为轨迹数据中可以从不同的方面体现出各个地点的热度,以及地点之间的相互关联。某个地点是否可以判为用户兴趣点是一个研究问题,并且在特定的时间段内根据上下文环境,如何高效合理进行个性推荐又是一个研究问题。也因此,在解决前一个问题的基础上,可以解决第二个问题。从而得到更有针对性、更有效率的推荐,进而提高用户体验。
识别兴趣点一直是研究的一个热点,但是实时识别兴趣点以及兴趣点区域的范围判定在国内外还是比较欠缺的、并没得到很好应用及推广,目前仍然没有得到深入研究。正是由于兴趣点识别还没有得到相关的深入研究,结合实时个性推荐问题也随之变成了没有深入研究的领域。
现有的技术方法主要通过海量的用户移动轨迹信息进行特征提取。所做到的是有效提取特征值,以及在海量数据中,识别出哪些数据是噪声数据,筛选过滤出垃圾数据,进而保留相对有价值的数据。并且分析数据,从中提取运动轨迹相关信息来得到用户的某些特征行为,最后根据特征行为进行大数据分析,从而分析用户的兴趣特征。但是,它们都没有考虑到时间维度和速度维度。
综上所述,现有技术的兴趣点推荐还存在推荐实时性不佳以及内容推荐不准确等问题。
发明内容
本发明实施例提供了一种兴趣点识别方法、装置、设备及存储介质用以解决现有技术中有关兴趣点的内容推荐不准的技术问题。
第一方面,本发明实施例提供了一种兴趣点识别方法,其中,所述方法包括:
获取用户的移动轨迹信息;
依据所述移动轨迹信息建立用户轨迹模型以挖掘用户行为信息;
依据挖掘到的用户行为信息,利用时间窗口识别用户的密集活动时间区间;
针对每一个密集活动时间区间,采用二阶速度协同聚类兴趣点识别算法识别用户兴趣点。
第二方面,本发明实施例提供了一种兴趣点识别装置,其中,所述装置包括:
获取模块,用于获取用户的移动轨迹信息;
挖掘模块,用于依据所述移动轨迹信息建立用户轨迹模型以挖掘用户行为信息;
第一识别模块,用于依据挖掘到的用户行为信息,利用时间窗口识别用户的密集活动时间区间;
第二识别模块,用于针对每一个密集活动时间区间,采用二阶速度协同聚类兴趣点识别算法识别用户兴趣点。
第三方面,本发明实施例提供了一种兴趣点识别设备,包括:至少一个处理器、至少一个存储器以及存储在存储器中的计算机程序指令,当计算机程序指令被处理器执行时实现如上述实施方式中第一方面的方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序指令,当计算机程序指令被处理器执行时实现如上述实施方式中第一方面的方法。
本发明实施例提供的兴趣点识别方法、装置、设备及存储介质,通过用户的移动轨迹信息,提出用户轨迹模型进行分析挖掘出用户感兴趣的地点,再通过打标签得到用户在不同时刻感兴趣的信息,以此来进行高效率、有针对性的推荐,从而保证了推荐内容是用户感兴趣的。相比于传统的推荐算法,在实时性方面进行了加强,而且易于更新。正是由于该算法是建立在位置兴趣点识别的基础上,整体正确率相比于基于用户的协同过滤推荐算法要高,并且缩小冷启动问题对推荐效果的影响。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明一种实施例的兴趣点识别方法的流程示意图。
图2示出了本发明一种实施例的兴趣点识别方法的数据流程示意图。
图3示出了本发明一种实施例的兴趣点识别方法的信息传输过程的流程示意图。
图4示出了本发明较佳实施例的兴趣点识别装置的结构示意图。
图5示出了示出了本发明较佳实施例的兴趣点识别设备的结构示意图。
具体实施方式
下面将详细描述本发明的各个方面的特征和示例性实施例,为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本发明,并不被配置为限定本发明。对于本领域技术人员来说,本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
请参照图1至图3,本发明提供一种兴趣点识别方法,其中,所述方法包括:
S01、获取用户的移动轨迹信息;
S02、依据所述移动轨迹信息建立用户轨迹模型以挖掘用户行为信息;
S03、依据挖掘到的用户行为信息,利用时间窗口识别用户的密集活动时间区间;
S04、针对每一个密集活动时间区间,采用二阶速度协同聚类兴趣点识别算法识别用户兴趣点。
首先针对用户的移动轨迹进行行为挖掘,利用时间窗口识别用户的密集活动时间区间,以此保证用户的兴趣点是具有时效性的,兴趣点集合会随时间变化而变化。再针对每一个密集时间区间进行用户兴趣点识别。在进行移动用户兴趣点识别过程中,提出二阶速度协同聚类兴趣点识别算法,解决在以往聚类过程中不同维度进行聚类计算时需要预设权值,在此算法中提出利用自适应偏移量的策略进行计算权值。同时在兴趣点发现的过程中考虑了速度因素,避免出现低价值的兴趣点。
其次结合兴趣点集合提出基于时效性的个性推荐算法,根据用户历史移动轨迹生成的兴趣点标签集合,先进行标签打分,之后是结合不同密集时间区间内标签集合挖掘标签之间的关联度。最终综合考虑后,按照标签级别进行排序后,根据标签进行相关内容推荐。利用用户移动轨迹具有周期性的特性提出了标签自动打分的机制策略,同时简化了标签之间关联度计算的复杂度,并且结合时效性进行实时推荐,提高了推荐内容的相关的准确率。
进一步地,所述方法还包括:推荐最相关的预定数量的兴趣点至用户。
进一步地,所述推荐最相关的预定数量的兴趣点至用户包括:根据所述移动轨迹信息将所述用户兴趣点进行集合,并为所述用户兴趣点添加标签生成兴趣点标签集合;
根据不同的所述密集活动时间区间内的兴趣点标签集合计算各兴趣点标签之间的关联度,依据所述关联度对所述兴趣点标签进行排序;
依据所述兴趣点标签的排序,推荐最相关的预定数量的兴趣点至用户。
进一步地,所述方法在所述获取用户的移动轨迹信息之前,所述方法还包括:筛选并剔除所述用户的移动轨迹信息中的异常数据。其中,所述异常数据至少包括以下之一:数值偏离正常值的噪声数据、出现重复的冗余数据。本方法中所使用的数据为移动运营商所获取的用户原始移动数据轨迹,无法直接应用到对用户推荐和广告投放的数据分析中。为得到高质量数据,本部分采用以下方法,剔除包括数据偏离,重复上传或采集过于频繁所产生的异常数据,减少数据不连贯,严重失真等问题。
所述筛选并剔除所述用户的移动轨迹信息中的异常数据包括:
通过在预设时间范围内的用户移动轨迹的偏移数据是否在正常范围内识别噪声数据,并过滤掉所述噪声数据;
在预定时间间隔内,采集用户移动轨迹的数据在采集的时间间隔小于所述预定时间间隔则直接将用户移动轨迹的数据删除,保证用户移动轨迹的数据的最小时间间隔都大于所述预定时间间隔,并将在密集活动区间内的冗余信息删除;
当连续读取的数据对应的时间间隔大于预定时间间隔的N倍时,采用模糊填充的方式修正用户移动轨迹信息,其中N为大于等于2的正数。
在下文中对上述步骤做进一步详细描述。
(1)剔除噪声点
识别噪声数据主要依赖短时间内经纬度是否偏移在合理的范围内,如果在给定时间范围后出现的经纬度坐标点距离前后坐标点出现短时间不服常理的距离就将其过滤。具体误差判定公式如下,其中P代表当前坐标点,disError(P)表示该点的距离误差判定标准,Plast表示该点的前一个点的坐标,Pnext表示该点的后一个点的坐标,distance函数表示两个坐标点之间的距离。规定disError(P)大于某一个值则认为该点为偏差值,将该点进行剔除。
disError(P)=max{distance(P,Plast),distance(P,Pnext)}
(2)删除多行冗余数据
定义时间间隔△T,采集数据在采集的时间间隔小于△T则直接将期间数据进行整行删除,保证数据最小时间间隔都大于△T。其中在此密集频繁区间内取轨迹点取均值将多行冗余信息删除,具体公式如下:
其中(x,y)表示新生成的填充点坐标,v代表速度,t代表当前轨迹点的瞬时时间,上述的坐标及速度均是采用坐标均值作为规整填充点,时间采用是在t.start至t.stop段时间内中位数时间,防止噪声在某些区域过于频繁导致时间采集的不准确。
(3)整行模糊填充数据
当连续读取的数据时间间隔过大,从现实语义上认为该用户出现了空白期,选择进行模糊填充,结合空白期的长度按照△T为最小单位进行填充,将数据从时间维度进行有效的规整。
在一个具体实施例中,所述依据挖掘到的用户行为信息,利用时间窗口识别用户的密集活动时间区间进一步包括:
将获取的所述用户的移动轨迹信息中按时间维度分为密集时间采集区间和稀疏时间采集区间;
通过预设的滑动窗口动态滤除所述稀疏时间采集区间,所述预设的滑动窗口包括多个连续的时间段;
将所述密集时间采集区间内的移动轨迹点进行聚类,并记录聚类后的聚类簇状态信息;
判断所述聚类簇状态信息与已记录的聚类簇状态信息相比是否有改变;
若有改变,则将所述预设的滑动窗口的时间区间作为所述密集活动时间区间。
具体来说,利用自定义滑动时间窗口动态的描述一个用户在某一天的移动轨迹,在得到用户一天移动轨迹数据后,在某一动态窗口中使用二阶速度协同聚类算法针对用户轨迹数据进行模式挖掘与发现,最终发现用户感兴趣的地点,得到真正的高价值POI(Pointof Interest,兴趣点)。
定义用户移动到某一时刻的状态量S=(x,y,t,v),其中(x,y)代表该用户所在的位置,t代表当前用户的时间,v表示用户的瞬时速度。用户的轨迹Tr=(S1,…,Si,…,Sn),1≤i≤n,其中Tr表示用户当前一天运动轨迹的记录。移动用户轨迹时距TInterval=ti–ti-1,时距表示采集数据时间间隔,按照TInterval为粒度划分每条用户轨迹信息即以TInterval为最小划分单位进行单位分割。在某一范围区域内最小区域支持度MinReSup,即如果想要考虑某一区域纳入计算的范围内需要保证置信度达到MinReSup设定的值,其具体形式如下:ReSup=(r,c,f)≥MinReSup,其中ReSup表示为区域支持度,r表示某一区域,c表示某一时间周期,f表示出现频次。
请参见图2,由于手机用户的移动轨迹采样中,按照时间维度会出现密集时间采集区间以及稀疏时间采集区间,为了解决稀疏布局对轨迹挖掘正确性干扰的问题,进而引出了自定义滑动窗口的概念,这样可以利用窗口的滑动动态过滤掉稀疏布局的时间区间。这里的滑动窗口由多个连续时距(TInterval)组成。采用按照时间状态量维度递增方向为窗口队列的滑动方向。如果窗口队列内时距个数没达到窗口队列容纳上限就继续添加一个新时距,但此时如果新增加的时距TInterval对应的区间轨迹个数小于MinReSup,则不添加到窗口队列中,并记录窗口中最早时距的起始时间及窗口中最后添加到窗口队列中时距的结束时刻点,此时这一段时间间隔认为是可以提取的密集时间区间,提取密集时间后清空窗口队列。在窗口队列为空的情况下继续审查新的时距对应的区域信息,直到有新的区域信息添加到窗口队列中,若窗口队列时距的个数达到窗口容纳上限个数,记录窗口中最早开始时刻点以及最晚时刻点,形成新的密集时间区间,同时将窗口内所有轨迹点进行聚类,并记录类簇状态信息。当新的时距来临若小于阈值则清空窗口队列,否则按照队列的性质将清除最早放入的时距信息,添加新的时距信息后进行轨迹点聚类,若聚类效果没有发生改变则不记录时间区间,认为新增加的轨迹点并没有针对轨迹有实质性改变,或者说新增加的轨迹点没有过多的参考价值。重复上述操作,按照时间状态量依次遍历,窗口队列内时距的个数达到队列容纳的个数上限再进行聚类,针对聚类变化进行时间区间提取,之后每一次更新窗口队列都进行数据筛选操作。
进一步地,针对每一个密集活动时间区间,采用二阶速度协同聚类兴趣点识别算法识别用户兴趣点具体包括:
在所述密集活动时间区间内,查找所述兴趣点;
采用二阶速度协同聚类兴趣点识别算法将用户的兴趣点聚合生成兴趣点集合;
分析所述兴趣点集合的语义,识别出所述用户兴趣点。
在一个具体实施例中,对于二阶速度协同聚类兴趣点识别算法的具体描述如下:
由于用户真正感兴趣的地点往往瞬时速度很低,在某一轨迹路线路线速度很快显然是仅是路过,例如:用户可能每天早上乘坐固定时间的地铁去公司,由于地铁线路的固定,继而很容易得到用户每天早上路过的地点都是高频有序的。因此,为针对速度等附加因素进行筛选处理,本节中提出了一种二阶速度协同聚类兴趣点识别算法,步骤如下:
①分析在TIntervalSets中每一个时间区间{T.start,T.end}进行热点区域发现,找到对应POI。首先依赖状态量S中三维属性即(S.x,S.y,S.t)结合时间区间{T.start,T.end},将所有轨迹点投影映射到面XOY面上,形成多维转二维的轨迹点集合,同时针对面XOY进行网格化,定义单位网格cell的大小,即整个XOY面由n个网格组成即满足如下公式:
AreaXOY=n×cell
进行基于平面网格的密度聚类,并将每一个聚类网格进行标号统计。针对TIntervalSets中每个区间都进行轨迹点映射及网格密度聚类,这样针对每一个时间区间进行热点区域发现,保证了热点区域发现的时效性,能够体现更多的现实动态语义、更贴近现实活动轨迹。
②针对每一个时间区间内所有时距对应轨迹相同编号的网格内轨迹点纵向聚类。因为速度维度很大程度上影响着用户的兴趣度,本方法中使用速度作为参考维度替代了时间,以贴近现实用户移动行为。
定义当P点属于某一个类Clu时,该点在Clu中某一维度的偏移量D(P)i:
D(P)i表示P点第i维偏移量,表示该点第i维与所在类平均相差距离,Q表示在P目前所在类内任一点,P.i-Q.i表示P、Q两点映射到第i维上对应点的距离差,||Clu(P)||表示P所在的类中对应的点数。
定义权重Wi为:
设定拟合系数k并要求k远大于1,Clu(P)i.max表示P点所在的类中i维向量的最大值,Clu(P)i.min表示P点所在的类中i维向量的最小值,即整体为偏差占整个区间的比例。
多维属性下的距离公式为:
结合以上,定义目标函数模型为:
μ为自定义阈值,D.count表示多维向量的维数,Clu(P).i表示P点所在的聚类质心的第i个属性的值。
利用如上算法通过迭代计算,求得的T保证为最小值即聚类结束。该聚类结果利用了轨迹位置结合速度与时间维度进行聚类后取交集联合聚类,该步骤所聚类的结果即是用户的兴趣点集合。
本部分根据高频轨迹点时间区间以及对应的兴趣点集合,结合实际地理位置的语义,针对兴趣地点进行打标签等操作,具体步骤如下:
(1)进行标签规整
针对兴趣点集合进行不同策略的标签转化。包括:
①标签生成,结合该地理坐标结合实际周边建筑或建筑物内特定的商店或具有代表性的商家进行标签化,例如某一个位置坐标对应的是咖啡馆,则该标签对应的内容就是咖啡馆,通过周边卖家进行位置语义对应,保证从坐标位置转化为可读的社会语义环境;
②冗余标签过滤,分为合并多个兴趣点坐标转化后形成的相同标签和合并标签语义转化过程中生成的标签语义相似成分(如:图书室和图书馆)。
(2)自适应标签打分及权重计算
提出一种自适应标签打分的机制,在用户不进行反馈的情况下进行行为评价,保证得到真实的用户行为以及具体的行为偏好特征。
①定义偏好标签打分即用户更倾向于哪一种偏好标签如下:
Labs表示瞬时用户偏好标签集合,label表示对应的语义标签,T.start表示时间开始时刻,T.stop表示时间结束时刻,Tblock表示用户感兴趣的一个时间段。Tsets表示由若干个用户感兴趣的时间块(Tblock)组成,由此可以看出Tsets在一定程度上可以认为是用户的兴趣点(POI)模型。
②定义针对用户模型感兴趣的标签的打分公式:
P.labeli表示第i个标签的用户偏好值,且0<P.labeli≤1。||label||表示标签的总出现次数。||labeli||表示第i个标签出现的次数。不筛选重复元素。
③针对标签进行权值计算,以解决用户实际客观制约带来的影响。定义第i个标签对应的权重值如下:
该权值的作用是在用户喜好的基础上,进一步考虑用户实际情况(如:在该兴趣点的停留时间)的制约。
④结合偏好打分以及权重考虑后整体标签分数Score.labeli定义如下:
结合以上公式,根据标签偏好打分以及权重计算标签整体打分情况。这样既考虑到了用户主观的喜好情况,又能够表现用户客观对该兴趣点的关注程度。
(3)时效性状态量转移
本节提出标签状态量转移策略,以结合实时性挖掘出用户下一步想要做的行为动作作为内容进行相关推荐服务,提供准确率高的用户推荐。该步骤结合实时性挖掘出用户下一步想要做的行为动作作为内容进行相关推荐和广告投放服务,让推荐内容作为建议出现在用户面前,这样的推荐内容才是用户想要的、有价值的,即是准确率高的用户推荐。
①由于在不同时间区间兴趣点的不同针对转化后对应的种类标签集合也有所不同,同时标签之间往往也会存在某种联系,定义标签二元项具有如下特征:
其中在标签集合中按照排列组合的形式都化简为形如上式的二项式,rel为标签联系度,λ代表标签转移中的衰减系数。
由于密集时间区间是根据用户历史轨迹进行密度聚类分析得出的结果集,即密集时间区间间隔的时长也不尽相同,需要采用动态划分标签转移状态个数,定义如下:
η(start,stop)表示从start时刻开始到stop时刻结束共需要划分多少个状态转移变化量,即划分出η(start,stop)个Tinterval
②由于每一个标签在不同时间区间内关联度都不同,定义关联度变化量:
变量relVar表示时间从Ti.stop到Ti+1.start标签α的单位变化量,时间间隔为上文提到的TInterval,从上式可以看出从转换到需要经历η个变化转换,每一次标签变化量为relVar。并且时间从Ti.stop到Ti+1.start满足如下要求:
Ti+1.start-Ti.stop=η×Tinterval
③由上求得标签状态量转移公式如下:
变量curLabelRelα表示在指定时刻对应的标签状态量,表示当前时刻的前一个密集时间区间中标签α状态量。考虑到当前时间距离上一个密集时间区间的结束时刻的间隔不一定会是整数个时距,由此需要进行向下取整的操作。
(一)进行时效性推荐
本部分中,为提高移动用户的推荐命中率,主要结合状态量以及标签打分进行有权操作并依赖下一个密集时间区间的标签集合内容对用户进行推荐。
Top K排序策略采用如下:
labelLeveli=α×curLabelReli+labelReli.Tnext+β×Score.labeli.Tnext+P.labeli.Tnext
其中labelLeveli表示第i个标签的等级,此处的等级代表最终进行推荐的衡量标准,α表示衰减系数,β为标签分数系数。
应用实施例
请参见图3,假设用户乘私家车上下班,并在车上安装了使用了本算法的POI识别和推荐软件。首先,在该用户每天的行车过程中,软件会获取用户的移动轨迹和时间,速度信息。在获得这些信息后,首先,它会筛选出有效的数据,然后分析挖掘出某段路径或者某些区域集中的、密集的重复出现(亦称之为热点区域),根据这些数据,分析出用户的POI。接下来,通过标签匹配,对用户的兴趣位置打上对应的标签,当用户想要寻找餐厅,游乐场等地点时,本算法会通过查找POI库中具有相同或相似标签的地点,不仅为用户推荐常用地点,还会向用户推荐相似的、用户可能有兴趣的地点。相比于传统算法,本算法由于采用了时间窗口技术,其实时性和准确性都有了一定的提高,比如用户午餐和晚餐所喜好的餐厅类型不同,本算法在中午和下午,为其推荐的餐厅均为符合用户在该时间所喜好类型的餐厅,保证了推荐的实时性。用户经常经过但不作停留的地点,本算法会对其进行准确的剔除,相比于其他算法更为精确。
首先收集用户的移动轨迹及驻留位置,分析出用户在12时到13时喜欢去某餐厅,16时喜欢去某咖啡厅等等,将这些数据上传到服务器上。接下来通过服务器分析这些数据,为这些POI进行打标签操作,当用户需要类似的地点推荐,如餐厅时,系统就会通过这些数据,为用户提供一些用户在该时间段经常光顾或可能喜欢的餐厅推荐,供该用户选择。
由于移动互联网和大数据时代的到来,随着移动终端的普及,可以提取的用户信息越来越全面,并且在人们日常生活中得到了广泛应用,进而在海量数据中如何得到高精度、有参考价值的数据成为大家关注的焦点。移动端的各种应用使得每天都产生数以亿计的移动数据,这些移动端产生的海量移动数据成为了研究挖掘移动轨迹以及精确个性推荐的数据基础。本文所述的内容能够针对用户兴趣,提取用户兴趣信息,对了解用户习惯,提升用户体验,增加用户忠诚度有着独特的优势。
(1)商家广告投放
由于本方法能够通过用户的移动轨迹进行用户兴趣推荐,其具有更精确和更实时的特点,推荐效果较好。采用更精确实时的推荐能够减少用户对广告投放的方案,提升用户对APP的忠诚度。此外,本方案将完全依赖于移动运营商自身数据,并不需要多余的信息采集。
(2)协同推荐
根据本方法的结果,可以筛选拥有相同兴趣的用户,作为社交APP软件中好友推荐的依据。因为具有相似兴趣之间的用户,其相似程度更高,相互联系之后成为好友的可能性也更高,因此使用本方法进行陌生人推荐,其推荐效果更好。本方案同样完全依赖移动运营商自有真实数据,分析推荐结果准确性高。
(3)用户习惯分析
用户的兴趣往往反映出用户的习惯,用户的层次等用户信息。通过用户的兴趣点,分析如某个地区,某个公司用户兴趣集中点,可以反映该地区,该公司的用户爱好,进而为该地区,公司的发展提供建议和意见。这对于企业调整策略等具有较大的借鉴意义。
如图4所示,本发明实施例的兴趣点识别装置,其中,所述装置包括:
获取模块10,用于获取用户的移动轨迹信息;
挖掘模块20,用于依据所述移动轨迹信息建立用户轨迹模型以挖掘用户行为信息;
第一识别模块30,用于依据挖掘到的用户行为信息,利用时间窗口识别用户的密集活动时间区间;
第二识别模块40,用于针对每一个密集活动时间区间,采用二阶速度协同聚类兴趣点识别算法识别用户兴趣点。
进一步地,本发明实施例的兴趣点识别装置包括:推荐模块,推荐最相关的预定数量的兴趣点至用户。
优选地,上述推荐模块还包括:
兴趣点标签集合生成单元,用于根据所述移动轨迹信息将所述用户兴趣点进行集合,并为所述用户兴趣点添加标签生成兴趣点标签集合;
关联度计算单元,用于根据不同的所述密集活动时间区间内的兴趣点标签集合计算各兴趣点标签之间的关联度,依据所述关联度对所述兴趣点标签进行排序;
推荐单元,用于依据所述兴趣点标签的排序,推荐最相关的预定数量的兴趣点至用户。
进一步地,兴趣点识别装置还包括:异常数据筛选与剔除模块,筛选并剔除所述用户的移动轨迹信息中的异常数据。所述异常数据至少包括以下之一:数值偏离正常值的噪声数据、出现重复的冗余数据。
进一步地,上述第一识别模块30包括:
用于将获取的所述用户的移动轨迹信息按时间维度分为密集时间采集区间和稀疏时间采集区间的单元;
用于通过预设的滑动窗口动态滤除所述稀疏时间采集区间,所述预设的滑动窗口包括多个连续的时间段的单元;
用于将所述密集时间采集区间内的移动轨迹点进行聚类,并记录聚类后的聚类簇状态信息的单元;
用于判断所述聚类簇状态信息与已记录的聚类簇状态信息相比是否有改变的单元;
用于在有改变时将所述预设的滑动窗口的时间区间作为所述密集活动时间区间。
进一步地,所述第二识别模块40包括:
查找单元,用于在所述密集活动时间区间内,查找所述兴趣点;
聚合单元,用于采用二阶速度协同聚类兴趣点识别算法将用户的兴趣点聚合生成兴趣点集合;
识别单元,用于分析所述兴趣点集合的语义,识别出所述用户兴趣点。
另外,结合图1至图3描述的本发明实施例的兴趣点识别方法可以由兴趣点识别设备来实现。图5示出了本发明实施例提供的兴趣点识别设备的硬件结构示意图。
兴趣点识别设备可以包括处理器401以及存储有计算机程序指令的存储器402。
具体地,上述处理器401可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本发明实施例的一个或多个集成电路。
存储器402可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器402可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器402可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器402可在数据处理装置的内部或外部。在特定实施例中,存储器402是非易失性固态存储器。在特定实施例中,存储器402包括只读存储器(ROM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。
处理器401通过读取并执行存储器402中存储的计算机程序指令,以实现上述实施例中的任意一种兴趣点识别方法。
在一个示例中,兴趣点识别设备还可包括通信接口403和总线410。其中,如图5所示,处理器401、存储器402、通信接口403通过总线410连接并完成相互间的通信。
通信接口403,主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。
总线410包括硬件、软件或两者,将兴趣点识别设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线410可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线,但本发明考虑任何合适的总线或互连。
另外,结合上述实施例中的兴趣点识别方法,本发明实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种兴趣点识别方法。
需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本发明中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本发明不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
以上所述,仅为本发明的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种兴趣点识别方法,其特征在于,所述方法包括:
获取用户的移动轨迹信息;
依据所述移动轨迹信息建立用户轨迹模型以挖掘用户行为信息;
依据挖掘到的用户行为信息,利用时间窗口识别用户的密集活动时间区间;
针对每一个密集活动时间区间,采用二阶速度协同聚类兴趣点识别算法识别用户兴趣点。
2.根据权利要求1所述的兴趣点识别方法,其特征在于,所述方法还包括:推荐最相关的预定数量的兴趣点至用户。
3.根据权利要求2所述的兴趣点识别方法,其特征在于,所述推荐最相关的预定数量的兴趣点至用户包括:
根据所述移动轨迹信息将所述用户兴趣点进行集合,并为所述用户兴趣点添加标签生成兴趣点标签集合;
根据不同的所述密集活动时间区间内的兴趣点标签集合计算各兴趣点标签之间的关联度,依据所述关联度对所述兴趣点标签进行排序;
依据所述兴趣点标签的排序,推荐最相关的预定数量的兴趣点至用户。
4.根据权利要求3所述的兴趣点识别方法,其特征在于,在获取用户的移动轨迹信息之前,所述方法还包括:筛选并剔除所述用户的移动轨迹信息中的异常数据。
5.根据权利要求4所述的兴趣点识别方法,其特征在于,所述依据挖掘到的用户行为信息,利用时间窗口识别用户的密集活动时间区间包括:
将获取的所述用户的移动轨迹信息按时间维度分为密集时间采集区间和稀疏时间采集区间;
通过预设的滑动窗口动态滤除所述稀疏时间采集区间,所述预设的滑动窗口包括多个连续的时间段;
将所述密集时间采集区间内的移动轨迹点进行聚类,并记录聚类后的聚类簇状态信息;
判断所述聚类簇状态信息与已记录的聚类簇状态信息相比是否有改变;
若有改变,则将所述预设的滑动窗口的时间区间作为所述密集活动时间区间。
6.根据权利要求4所述的兴趣点识别方法,其特征在于,所述异常数据至少包括以下之一:数值偏离正常值的噪声数据、出现重复的冗余数据。
7.根据权利要求1所述的兴趣点识别方法,其特征在于,所述针对每一个密集活动时间区间,采用二阶速度协同聚类兴趣点识别算法识别用户兴趣点包括:
在所述密集活动时间区间内,查找所述兴趣点;
采用二阶速度协同聚类兴趣点识别算法将用户的兴趣点聚合生成兴趣点集合;
分析所述兴趣点集合的语义,识别出所述用户兴趣点。
8.一种兴趣点识别装置,其特征在于,所述装置包括:
获取模块,用于获取用户的移动轨迹信息;
挖掘模块,用于依据所述移动轨迹信息建立用户轨迹模型以挖掘用户行为信息;
第一识别模块,用于依据挖掘到的用户行为信息,利用时间窗口识别用户的密集活动时间区间;
第二识别模块,用于针对每一个密集活动时间区间,采用二阶速度协同聚类兴趣点识别算法识别用户兴趣点。
9.一种兴趣点识别设备,其特征在于,包括:至少一个处理器、至少一个存储器以及存储在所述存储器中的计算机程序指令,当所述计算机程序指令被所述处理器执行时实现如权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,当所述计算机程序指令被处理器执行时实现如权利要求1-7中任一项所述的方法。
CN201711487390.XA 2017-12-30 2017-12-30 兴趣点识别方法、装置、设备及存储介质 Pending CN110020178A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711487390.XA CN110020178A (zh) 2017-12-30 2017-12-30 兴趣点识别方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711487390.XA CN110020178A (zh) 2017-12-30 2017-12-30 兴趣点识别方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN110020178A true CN110020178A (zh) 2019-07-16

Family

ID=67187157

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711487390.XA Pending CN110020178A (zh) 2017-12-30 2017-12-30 兴趣点识别方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN110020178A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110995834A (zh) * 2019-12-02 2020-04-10 北京应用科学技术研究院 社交网络轨迹跟随方法及系统
CN111160977A (zh) * 2019-12-31 2020-05-15 中国移动通信集团黑龙江有限公司 用户关系兴趣特征图的获取方法、装置、设备及介质
CN111352964A (zh) * 2020-02-07 2020-06-30 北京梧桐车联科技有限责任公司 获取兴趣点信息的方法、装置、设备及存储介质
CN111461118A (zh) * 2020-03-31 2020-07-28 中国移动通信集团黑龙江有限公司 兴趣特征确定方法、装置、设备及存储介质
CN111651669A (zh) * 2020-05-20 2020-09-11 拉扎斯网络科技(上海)有限公司 信息推荐方法、装置、电子设备和计算机可读存储介质
CN111694912A (zh) * 2020-06-05 2020-09-22 百度在线网络技术(北京)有限公司 地图兴趣点的检测方法、装置、设备和可读存储介质
CN112884514A (zh) * 2021-02-19 2021-06-01 平安科技(深圳)有限公司 基于多边形算法的活动数据分析方法、装置、设备及介质
CN112989222A (zh) * 2021-03-04 2021-06-18 北京嘀嘀无限科技发展有限公司 一种位置确定方法、装置及电子设备
CN113139137A (zh) * 2020-01-19 2021-07-20 北京三快在线科技有限公司 确定poi坐标的方法、装置、存储介质及电子设备
CN114895982A (zh) * 2022-05-13 2022-08-12 中国电信股份有限公司 基于用户信息的应用唤起方法、系统、设备及存储介质
CN117591751A (zh) * 2024-01-19 2024-02-23 国网湖北省电力有限公司信息通信公司 基于图嵌入的上下文忠诚度融合的兴趣点推荐方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104199872A (zh) * 2014-08-19 2014-12-10 北京搜狗科技发展有限公司 一种信息推荐的方法以及装置
CN104915861A (zh) * 2015-06-15 2015-09-16 浙江经贸职业技术学院 基于评分和标签构建用户群体模型的电子商务推荐方法
US20170220577A1 (en) * 2016-01-29 2017-08-03 Facebook, Inc. Systems and methods for recommendation of topical authorities

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104199872A (zh) * 2014-08-19 2014-12-10 北京搜狗科技发展有限公司 一种信息推荐的方法以及装置
CN104915861A (zh) * 2015-06-15 2015-09-16 浙江经贸职业技术学院 基于评分和标签构建用户群体模型的电子商务推荐方法
US20170220577A1 (en) * 2016-01-29 2017-08-03 Facebook, Inc. Systems and methods for recommendation of topical authorities

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
才鑫等: "基于移动数据分析的POI识别方法的研究与实现", 《辽宁省通信学会2017年通信网络与信息技术年会 论文集》 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110995834A (zh) * 2019-12-02 2020-04-10 北京应用科学技术研究院 社交网络轨迹跟随方法及系统
CN111160977A (zh) * 2019-12-31 2020-05-15 中国移动通信集团黑龙江有限公司 用户关系兴趣特征图的获取方法、装置、设备及介质
CN113139137A (zh) * 2020-01-19 2021-07-20 北京三快在线科技有限公司 确定poi坐标的方法、装置、存储介质及电子设备
CN113139137B (zh) * 2020-01-19 2022-05-03 北京三快在线科技有限公司 确定poi坐标的方法、装置、存储介质及电子设备
CN111352964A (zh) * 2020-02-07 2020-06-30 北京梧桐车联科技有限责任公司 获取兴趣点信息的方法、装置、设备及存储介质
CN111352964B (zh) * 2020-02-07 2023-09-12 北京梧桐车联科技有限责任公司 获取兴趣点信息的方法、装置、设备及存储介质
CN111461118A (zh) * 2020-03-31 2020-07-28 中国移动通信集团黑龙江有限公司 兴趣特征确定方法、装置、设备及存储介质
CN111461118B (zh) * 2020-03-31 2023-11-24 中国移动通信集团黑龙江有限公司 兴趣特征确定方法、装置、设备及存储介质
CN111651669A (zh) * 2020-05-20 2020-09-11 拉扎斯网络科技(上海)有限公司 信息推荐方法、装置、电子设备和计算机可读存储介质
CN111694912B (zh) * 2020-06-05 2023-11-14 百度在线网络技术(北京)有限公司 地图兴趣点的检测方法、装置、设备和可读存储介质
CN111694912A (zh) * 2020-06-05 2020-09-22 百度在线网络技术(北京)有限公司 地图兴趣点的检测方法、装置、设备和可读存储介质
CN112884514A (zh) * 2021-02-19 2021-06-01 平安科技(深圳)有限公司 基于多边形算法的活动数据分析方法、装置、设备及介质
CN112884514B (zh) * 2021-02-19 2023-09-26 平安科技(深圳)有限公司 基于多边形算法的活动数据分析方法、装置、设备及介质
CN112989222A (zh) * 2021-03-04 2021-06-18 北京嘀嘀无限科技发展有限公司 一种位置确定方法、装置及电子设备
CN114895982A (zh) * 2022-05-13 2022-08-12 中国电信股份有限公司 基于用户信息的应用唤起方法、系统、设备及存储介质
CN114895982B (zh) * 2022-05-13 2024-02-09 中国电信股份有限公司 基于用户信息的应用唤起方法、系统、设备及存储介质
CN117591751A (zh) * 2024-01-19 2024-02-23 国网湖北省电力有限公司信息通信公司 基于图嵌入的上下文忠诚度融合的兴趣点推荐方法及系统
CN117591751B (zh) * 2024-01-19 2024-04-26 国网湖北省电力有限公司信息通信公司 基于图嵌入的上下文忠诚度融合的兴趣点推荐方法及系统

Similar Documents

Publication Publication Date Title
CN110020178A (zh) 兴趣点识别方法、装置、设备及存储介质
Hasnat et al. Identifying tourists and analyzing spatial patterns of their destinations from location-based social media data
CN106912015B (zh) 一种基于移动网络数据的人员出行链识别方法
CN102591911B (zh) 位置相关实体的实时个性化推荐
CN104750856B (zh) 一种多维协同推荐的系统与方法
Zhong et al. Detecting the dynamics of urban structure through spatial network analysis
US20200012654A1 (en) System and methods for generating optimal post times for social networking sites
US20180268337A1 (en) User objective assistance technologies
Ghaemi et al. A visual segmentation method for temporal smart card data
CN105701123B (zh) 人车关系的识别方法及装置
US20120174006A1 (en) System, method, apparatus and computer program for generating and modeling a scene
US20100082427A1 (en) System and Method for Context Enhanced Ad Creation
CN103914536A (zh) 一种用于电子地图的兴趣点推荐方法及系统
Tang et al. A network Kernel Density Estimation for linear features in space–time analysis of big trace data
CN105894089A (zh) 一种征信模型的建立方法、征信确定方法及对应装置
CN103218442A (zh) 一种基于移动设备传感器数据的生活模式分析方法及系统
CN109190033A (zh) 一种用户好友推荐方法及系统
WO2015177858A1 (ja) トリップ属性推定システム、トリップ属性推定方法、トリップ属性推定プログラム、及び交通行動調査システム
CN108399226A (zh) 一种用于数字图书馆的大数据清洗方法
CN112463859B (zh) 基于大数据和业务分析的用户数据处理方法及服务器
CN103001994A (zh) 好友推荐方法及装置
CN110263840A (zh) 一种线路分析方法、装置及程序产品、存储介质
CN104216889A (zh) 基于云服务的数据传播性分析预测方法及系统
CN104750829A (zh) 一种基于签到特征的用户位置分类方法及系统
CN108399229A (zh) 一种基于大数据的数字图书馆数据库建设方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190716