CN110650438B - 用户常住区域相似度判断方法、装置、设备及介质 - Google Patents
用户常住区域相似度判断方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN110650438B CN110650438B CN201810669658.XA CN201810669658A CN110650438B CN 110650438 B CN110650438 B CN 110650438B CN 201810669658 A CN201810669658 A CN 201810669658A CN 110650438 B CN110650438 B CN 110650438B
- Authority
- CN
- China
- Prior art keywords
- base station
- user
- similarity
- resident
- compared
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/02—Services making use of location information
- H04W4/029—Location-based management or tracking services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Probability & Statistics with Applications (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明实施例涉及通信技术领域,尤其涉及一种用户常住区域相似度判断方法、装置、设备及介质。本发明实施例的方法包括获取待对比用户在预设时段内所附着的基站信息;根据基站信息确定待对比用户的常驻区域;利用动态时间规整DTW方法根据常驻区域确定任意两个待对比用户的常住区域相似度。本发明实施例的用户常住区域相似度判断方法、装置、设备及介质,能够快速、准确地判断出任意两个不同用户之间的常驻区域相似度,解决了现有技术无法对常驻区域数量不同的用户进行常驻区域相似度的对比的问题。
Description
技术领域
本发明涉及通信技术领域,尤其涉及一种用户常住区域相似度判断方法、装置、设备及介质。
背景技术
在移动通信领域中,同一用户的位置轨迹的计算结果和不同用户的常住区域相似度的计算结果是否精确,会对运营商进一步的业务应用如位置服务、客户画像、客户营销等造成较大影响。
一般情况下,不同用户的常住区域相似度是基于对同一用户的位置轨迹的计算结果计算得到的。而现有的同一用户的位置轨迹的计算方法是根据基站的位置数据进行计算的。基站的位置数据主要包括用户附着基站的编号、经度、纬度,进入基站的时间和离开基站的时间,以及基站的名称和基站的类型。
但是,现有的对用户的位置轨迹的计算方法具有如下缺点:
在分析驻留基站和驻留时间时,由于用户的手机制式不同,导致用户在通话及上网时选择的基站不同,不同的基站的基站类型可能不同(例如2G或4G基站),现有的分析驻留基站和驻留时间的方法中未对2G和4G基站进行区分,由于用户在通话及上网时选择的基站的主观性比较强,随机性较大,不同基站类型的切换频率也不同,导致得到的结果误差较大。
在对用户频繁活动的精确位置进行识别时,现有技术是基于用户基站的位置数据识别精确位置,即把用户附着的基站作为用户的精确位置。但是,基站一般是扇形覆盖的,覆盖半径在一公里左右,这导致对于用户的精确位置的识别较模糊。
在对用户活动区域进行识别时,由于不同用户的出行习惯、出行时间和移动轨迹都是不一样的,而现有技术基于基站的位置数据、基站经纬度的地图对应以及时间维度,综合评估用户的活动区域时,未考虑用户个体化差异,导致对用户活动区域识别结果不准确。
在对不同用户的常驻区域相似度进行计算时,由于不同用户的活动区域个数可能不同,现有的通过距离计算相似度的方法,无法判断出具有不同个数的活动区域的用户的常住区域的相似度。
综上所述,现有技术对不同用户的常住区域的相似度进行计算时,由于基站位置是区域范围,并且用户切换基站的频繁程度、以及每个用户的停留、运动轨迹、基站类型和时间等因素的差异,导致通过基站的位置数据识别用户的位置轨迹时具有误差较大的问题,以及对不同用户的常住区域的相似度的计算准确性较低或者无法进行相似度判断的问题。
发明内容
本发明实施例提供了一种用户常住区域相似度判断方法、装置、设备及介质,能够快速、准确地判断出任意两个不同用户之间的常驻区域相似度,解决了现有技术无法对常驻区域数量不同的用户进行常驻区域相似度的对比的问题。
第一方面,本发明实施例提供了一种用户常住区域相似度判断方法,方法包括:
获取待对比用户在预设时段内所附着的基站信息;
根据基站信息确定待对比用户的常驻区域;
利用动态时间规整DTW方法根据常驻区域确定任意两个待对比用户的常住区域相似度。
第二方面,本发明实施例提供了一种用户常住区域相似度判断装置,装置包括:
数据获取模块,其配置为获取待对比用户在预设时段内所附着的基站信息;
第一处理模块,其配置为根据基站信息确定待对比用户的常驻区域;
第二处理模块,其配置为利用动态时间规整DTW方法根据常驻区域确定任意两个待对比用户的常住区域相似度。
本发明实施例提供了一种用户常住区域相似度判断设备,包括:至少一个处理器、至少一个存储器以及存储在存储器中的计算机程序指令,当计算机程序指令被处理器执行时实现如上述实施方式中第一方面的方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序指令,当计算机程序指令被处理器执行时实现如上述实施方式中第一方面的方法。
本发明实施例提供的用户常住区域相似度判断方法、装置、设备及介质,能够利用待对比用户在预设时段内所附着的基站信息确定出用户的常驻区域,并且任意两个待对比用户的常驻区域可能不同的情况下利用DTW方法进行常驻区域相似度的对比,即由于待对比用户的常驻区域数量不同,通过动态序列相似判断方法,分别计算出用户经度相似度、纬度相似度和时间相似度,最后完成对常驻区域相似度的计算,解决了现有技术无法对常驻区域数量不一致的两个待对比用户之间的常驻区域相似度进行计算的问题。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明实施例的用户常住区域相似度判断方法的流程示意图;
图2示出了本发明一个实施例的确定待对比用户的常驻区域方法的流程示意图;
图3示出了本发明一个实施例用户附着的基站位置与驻留位置对比图;
图4示出了本发明一个实施例利用密度聚类模型确定的用户的密度聚类示意图;
图5示出了本发明一个实施例中不同用户常驻区域个数示例图;
图6示出了本发明一个实施例的确定任意两个待对比用户的常住区域相似度方法的流程示意图;
图7示出了本发明实施例的用户常住区域相似度判断装置的结构示意图;
图8示出了本发明一个实施例的第一处理模块的结构示意图;
图9示出了本发明一个实施例的第二处理模块的结构示意图;
图10示出了本发明实施例提供的用户常住区域相似度判断设备的硬件结构示意图。
具体实施方式
下面将详细描述本发明的各个方面的特征和示例性实施例,为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本发明,并不被配置为限定本发明。对于本领域技术人员来说,本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
图1示出了本发明实施例的用户常住区域相似度判断方法的流程示意图。
如图1所示,本发明实施例的一种用户常住区域相似度判断方法,方法100包括:
S110、获取待对比用户在预设时段内所附着的基站信息。
S120、根据基站信息确定待对比用户的常驻区域。
S130、利用DTW方法根据常驻区域确定任意两个待对比用户的常住区域相似度。
基站即公用移动通信基站是无线电台站的一种形式,是指在一定的无线电覆盖区中,通过移动通信交换中心,与移动电话终端之间进行信息传递的无线电收发信电台。用户在进行开机、通话、上网等操作时会与其附近的基站产生信号命令的交互,同时数据侧会从信令数据中汇总得到用户某一时间点附着的基站信息。在本发明实施例中,待对比用户在预设时段内所附着的基站信息可以包括基站编号、基站位置、进入时间、离开时间等。
图2示出了本发明一个实施例的确定待对比用户的常驻区域方法的流程示意图。
如图2所示,在本发明实施例中,步骤S120中,根据基站信息确定待对比用户的常驻区域的方法可以包括:
S121、根据基站信息确定待对比用户在预设时段内附着的各个基站对应的驻留时间和基站位置;
S122、根据各个基站对应的驻留时间和基站位置确定待对比用户的常驻区域。
在本发明实施例中,步骤S122中,根据各个基站对应的驻留时间和基站位置确定待对比用户的常驻区域的方法可以包括:先根据各个基站对应的驻留时间和基站位置确定待对比用户的多个驻留位置,再根据驻留位置及待对比用户对应的驻留时间确定待对比用户的常驻区域。
其中,根据各个基站对应的驻留时间和基站位置确定待对比用户的多个驻留位置的方法可以包括:
判断驻留时间是否大于预设阈值;
若驻留时间大于或等于预设阈值,则驻留时间对应的基站位置为驻留位置;
若驻留时间小于预设阈值,则根据驻留时间对应的基站位置确定待对比用户在驻留时间内所附着的多个参考基站,根据多个参考基站的基站位置确定驻留位置。
由于用户不同的行为会附着不同类型的基站,如通话产生2G基站数据、上网产生4G基站数据,并且4G基站与2G基站在使用场景、覆盖范围及切换频率方面均有所不同。根据取得的样本数据分析得出,用户在基站的驻留时间从0秒(s)到46366s不等,一个用户在某基站的单次驻留时间均值为880s,而且2G基站和4G基站用户的驻留时间得最大最小值以及均值都不相同。考虑用户在基站的驻留时间呈近似正太分布,而且数据量较大,因此,在本发明实施例中,可以通过四分位距方法分别计算出4G基站和2G基站对应的预设阈值,根据不同的基站类型与其对应的预设阈值,精确地判断用户的驻留位置。
在本发明实施例中,通过四分位距方法分别计算出4G基站和2G基站对应的预设阈值的具体步骤如下:
首先,剔除异常用户数据,选择每天正常在用的用户群,此时,能够获得如表1所示示例的数据,表1是用户附着的基站信息数据采集表。其中,停留时间(s)=离开基站时间-进入基站时间。基站类型中4代表4G基站,2代表2G基站。
表1
时间 | 用户标识 | 基站标识 | 基站经度 | 基站纬度 | 停留时间 | 基站类型 | |
1 | 20171204 | 8770 | 130286869 | 115.892467 | 28.696602 | 75 | 4 |
2 | 20171210 | 3202 | 200352798 | 115.901418 | 28.650335 | 153 | 4 |
3 | 20171210 | 8770 | 132275230 | 115.84022 | 28.67258 | 16 | 4 |
4 | 20171210 | 8770 | 132275230 | 115.84022 | 28.67258 | 29 | 4 |
5 | 20171210 | 8770 | 132275230 | 115.84022 | 28.67258 | 598 | 4 |
6 | 20171210 | 8770 | 132275230 | 115.84022 | 28.67258 | 8 | 4 |
7 | 20171210 | 8770 | 132275230 | 115.84022 | 28.67258 | 31 | 4 |
8 | 20171210 | 8770 | 132275230 | 115.84022 | 28.67258 | 29 | 4 |
9 | 20171210 | 8770 | 132275230 | 115.84022 | 28.67258 | 16 | 4 |
10 | …… | …… | …… | …… | …… | …… | …… |
其次,计算用户分别在2G基站和4G基站停留时间的四分位数,其中,2G基站为(Q2g_1,Q2g_2,Q2g_3),4G基站为(Q4g_1,Q4g_2,Q4g_3)。
再次,计算2G基站和4G基站长时间停留的时间阈值,其中,2G基站阈值为IQR2g=Q2g_3+1.5*(Q2g_3-Q2g_1),4G基站阈值为IQR4g=Q4g_3+1.5*(Q4g_3–Q4g_1)。
最后,结合基站建设、城乡发展等客观因素,修正2G基站和4G基站长时间驻留的时间阈值,并将其作为预设阈值。
最终的计算结果如下:2G基站长时间驻留的预设阈值为751.75s,4G基站长时间驻留的预设阈值为1130.75s,即用户如果单次在2G基站的驻留时间超过751秒或4G基站的驻留时间超过1130.75s,则对应基站的基站位置就是用户的驻留位置。
除了上述的情况,用户还有可能会在较小范围内附着多个基站,此时,这些基站可以作为用于计算用户的驻留位置的参考基站。在本发明实施例中,根据多个参考基站的基站位置确定驻留位置包括:对于基站的驻留时间低于预设阈值的记录,可以在多个参考基站中选取三个参考基站,并利用三角形重心法根据三个参考基站的基站位置确定驻留位置。具体地,可以通过分布定位法根据用户频繁切换基站的顺序,滚动选择最近三个基站作为参考基站,三个参考基站对应的基站位置可以形成三角形,计算该三角形的重心,既可以精确识别用户的驻留位置。
例如,若三个参考基站的基站位置分别为A0(long0,lati0)、A1(long1,lati1)、A2(long2,lati2),则用户的驻留位置为Location0((long0+long1+long2)/3,(lati0+lati1+lati2)/3)
本发明实施例中,根据多个参考基站的基站位置确定驻留位置的具体步骤如下:
首先,筛选用户频繁切换基站的数据,即驻留时间低于预设阈值(2G基站为751.75s,4G基站为1130.75s)的对应的基站信息数据;
然后,将用户使用的2G基站数据和4G基站数据合并,并按时间戳排序;
再按时间戳排序,将每三条相邻记录对应的基站作为参考基站,应用三角形重心的计算方法计算驻留位置。
最后,按计算出的驻留位置,重新确定该驻留位置对应的开始时间、结束时间以及驻留时间,能够获得如表2所示示例的数据,表2是用户的驻留位置数据采集表。
表2
图3示出了本发明一个实施例用户附着的基站位置与驻留位置对比图。具体地,以表2编号为7757的用户为例,将其附着的基站位置及驻留位置的数据制作成效果图,如图3所示。其中,横坐标为京都标准化后的值,纵坐标为纬度标准化后的值,标准化方法为0-1标准化,图形“x”为用户频繁切换的基站位置,图形“·”为用户的驻留位置。从图3中可以看出,通过利用参考基站确定的驻留位置,其位置更加精确,更贴近于用户的真实位置。
在本发明实施例中,根据驻留位置及待对比用户对应的驻留时间确定待对比用户的常驻区域的方法可以包括:将驻留位置及待对比用户对应的驻留时间分别输入预设的密度聚类模型,并输出待对比用户的常驻区域。
密度聚类是一种基于密度的聚类算法,一般假定类别可以通过样本分布的紧密程度决定。同一类别的样本之间是紧密相连的,即在该类别任意样本周围不远处一定有同类别的样本存在。因此,可以通过建立密度聚类模型将紧密相连的样本划为一类,这样就可以得到一个聚类类别。
在本发明实施例中,可以根据用户的驻留位置以及在不同时间、不同经纬度基于不同驻留位置的驻留时间的差异,明显区分用户的一些常驻区域或者某一天去过的一些区域。因此,可以根据上述能够对区域进行区分的参数构建预设的密度聚类模型,然后再通过该密度聚类模型根据用户不同时间的驻留位置及驻留时间,聚合为不同的位置范围,并将其标记为用户的常驻区域,以达到精细化细分用户的常驻区域的目的。
在本发明一个实施例中,利用密度聚类模型识别用户的常驻区域的具体步骤为:
首先,提取每个用户的驻留位置;
然后,对每个用户的预设时段内的驻留位置进行时间初始化。由于考虑到用户的常驻区域存在时序性,比如用户早上在家和晚上在家,在计算用户相似的时候,应该区分两个区域,因此,需要对驻留位置进行实际初始化。时间初始化修正后用户的驻留位置的时间公式为:每个位置的时间-当天零点零分的时间,其单位为秒,可以获得如表3所示示例的数据,表3是时间初始化修正后的用户驻留位置数据表。
表3
时间 | 用户标识 | 驻留位置精度 | 驻留位置纬度 | 初始化后的时间 | |
1 | 20171213 | 7757 | 115.80349 | 28.676598 | 214.6666667 |
2 | 20171213 | 7757 | 115.8034483 | 28.67657567 | 309 |
3 | 20171213 | 7757 | 115.8031533 | 28.67576467 | 328 |
4 | 20171213 | 7757 | 115.8031117 | 28.67574233 | 537.3333333 |
5 | 20171213 | 7757 | 115.803195 | 28.675787 | 804 |
6 | 20171213 | 7757 | 115.8031117 | 28.67574233 | 1085 |
7 | 20171213 | 7757 | 115.8031117 | 28.67574233 | 1326 |
8 | 20171213 | 7757 | 115.8031117 | 28.67574233 | 2489.333333 |
9 | 20171213 | 7757 | 115.8031533 | 28.67576467 | 2503.666667 |
10 | …… | …… | …… | …… | …… |
其次,根据采用数据构建用户的密度聚类模型;
再次,优化密度聚类模型的两个驻留位置之间的间距eps和核心驻留位置的高密度区域的最少驻留位置个数min_samples;其中,对于eps而言,当两个驻留位置之间的间距大于设定值,则两个驻留位置便可以被判定不在一个密度聚类中,因此,eps也可以理解为使一个密度聚类的密度,当两个驻留位置之间的间距小于eps的设定值时,便可以将两个驻留位置归为一类。对于min_samples而言,是用于控制任一类密度聚类中最小的样本数据的参数,密度聚类的每一个类别中的最小样本数据需要大于min_samples的设定值。
最后,将驻留位置及其对应的驻留时间分别输入密度聚类模型,并输出不同用户在不同日期的常驻区域的具体位置。
以表3中编号为7757的用户为例,模型输出的常驻区域的数据示例如表4所示,表4是密度聚类模型输出数据表,其中,-1代表其他类别,-1之外的类别可以通过驻留(time_num_sum)模糊的分析该用户的密度聚类后的名称,例如对于用户7757而言,类别1为:早上8点10分,早上准备出门。类别2为:早上8点30分,早餐;类别3为:上午8点40分,工作单位。
表4
时间 | 用户标识 | 驻留位置经度 | 驻留位置纬度 | 初始化后的时间 | 密度聚类类别 | |
1 | 20171213 | 7757 | 115.8274967 | 28.65781467 | 28907.33333 | -1 |
2 | 20171213 | 7757 | 115.8281007 | 28.65545567 | 29065 | 1 |
3 | 20171213 | 7757 | 115.8277647 | 28.654383 | 29306 | 1 |
4 | 20171213 | 7757 | 115.8638067 | 28.66204233 | 29740.33333 | -1 |
5 | 20171213 | 7757 | 115.871181 | 28.672327 | 30095 | -1 |
6 | 20171213 | 7757 | 115.875978 | 28.68263533 | 30447.66667 | -1 |
7 | 20171213 | 7757 | 115.847467 | 28.68643433 | 30514 | 2 |
8 | 20171213 | 7757 | 115.8478852 | 28.68786049 | 30549 | 2 |
9 | 20171213 | 7757 | 115.8508299 | 28.68881016 | 30581.66667 | 3 |
10 | …… | …… | …… | …… | …… | …… |
图4示出了本发明一个实施例利用密度聚类模型确定的用户的密度聚类示意图。图4为根据表4取编号为7757的用户在2017年12月13日的聚类数据(此时,eps=0.2,min_samples=2)构成的效果图。其中,图4中横坐标为标准化后的经度,纵坐标为标准化后的维度,标准化方法采用的为z-score法。从图4中可知,编号为7757的用户共有9类密度聚类,除“·”代表的其他密度聚类类别意外,可用的密度聚类为8类,具体如表5所示,表5是用户的密度聚类数据表。
表5
图5示出了本发明一个实施例中不同用户常驻区域个数示例图。其中,纵坐标代表用户编号,横坐标代表常驻区域的数量。根据上述的密度聚类模型确定出的不同用户的常驻区域可能如图5所示,常驻区域的数量各有不同。因此,在本发明实施例中,需要采用下述的方法确定不同用户之间的常驻区域相似度。
图6示出了本发明一个实施例的确定任意两个待对比用户的常住区域相似度方法的流程示意图。
如图6所示,在本发明实施例中,步骤S130中,利用DTW方法根据常驻区域确定任意两个待对比用户的常住区域相似度包括:
S131、利用DTW方法根据常驻区域确定任意两个待对比用户的常驻区域的经度相似度、纬度相似度和初始化时间相似度;
S132、根据变异系数法确定经度相似度、纬度相似度和初始化时间相似度对应的权重系数;
S133、为经度相似度、纬度相似度、初始化时间相似度赋予对应的权重系数并确定任意两个待对比用户的常住区域相似度。
由于用户的位置轨迹隐含了人的行为和喜好。因此,不同用户在驻留位置移动的相似性,也一定程度上反映了不同用户之间偏好和习惯的相似性。为了找到这些相似性,可以先采用DTW方法分别对两个待对比用户之间的常驻区域的经度、纬度、初始化时间进行相似计算,然后再计算经度相似度、纬度相似度和初始化时间相似度在常住区域相似度计算时的权重,得出其对应的权重系数,最后利用经度相似度、纬度相似度和初始化时间相似度及其对应的权重系数来计算两个待对比用户的常住区域相似度。
将编号为653和编号为7501的两个用户作为两个待对比用户,以其对应的常驻区域的已标准化的经度数据为例,说明采用DTW方法对经度相似度的计算具体计算方法。编号为653和编号为7501的两个用户的经度数据分别为:
Long_653:{1.00,0.95,0.26,0.13,0.10,0.16,1.00}
Long_7501:{0.87,0.86,0.85,0.86,0.86,0.86,0.86}
根据上述经度数据计算得到两个待对比用户各个常驻区域之间的经度距离d(i,j)得到矩阵M为如表6所示。其中,i为距离的I维向量,j为距离的J维向量。表6是两个待对比用户各个常驻区域之间的经度距离矩阵表。
表6
然后计算从M[0,0]到M[i,j]的最短路径值g(i,j),并标记路径。
M[1,j]的最短路径值g(i,j)计算结果如表7所示。表7是M[1,j]的最短路径计算结果表。其中,g(1,1)=g(0,0)+2*d(1,1),由于g(0,0)为0,因此g(1,1)=0.26。
表7
M[2,j]的最短路径值g(i,j)计算结果如表8所示。表8是M[2,j]的最短路径计算结果表。其中,g(2,2)是分别计算g(1,2)+d(2,2)=0.49、g(1,1)+2*d(2,2)=0.44、g(2,1)+d(2,2)=0.43后,取最小值0.43得到的结果,其对应的路径为:M[2,1]到M[2,2]。
表8
然后,计算全部g(i,j),并标记路径,如表9所示。表9是M[i,j]的最短路径计算结果表。
表9
最终,计算出编号为7501的用户和编号为653的用户的经度相似最短路径为表10中所示的粗箭头所标记的路线,经度相似度为3.83。表10是经度相似路径比较表。
表10
按照上述的经度相似度的计算方法可以计算纬度相似度和初始化时间相似度,因此,在本发明一个实施例中,计算经度相似度、纬度相似度和初始化时间相似度的具体步骤如下:
首先,准备两个待对比用户的常驻区域的数据,包括待对比用户ID、常驻区域的经度、纬度和初始化时间,并对上述数据按时间排序;
然后,对两个待对比用户的常驻区域经度、纬度和初始化时间进行最小最大值标准化,以消除量纲的影响;
其次,分经度、纬度和初始化时间,计算两个待对比用户之间的DWT最短距离,输出常驻区域经度相似度DWT_LONG,纬度相似度DWT_LATI,初始化时间相似度DWT_TIME。其中,相似度越接近于0,相似性越高。
表11是编号为653的待对比用户的常驻区域数据表。表12是编号为7501的待对比用户的常驻区域数据表。以表11和表12为例,取编号为653的待对比用户的常驻区域数据(常驻区域为6个)和编号为7501的待对比用户的常驻区域数据(常驻区域为5个)如下:
表11
用户标识 | 驻留位置纬度 | 驻留位置经度 | 密度聚类类别 | 初始化后的时间 |
653 | 28.647438 | 115.90766 | 0 | 27568.5 |
653 | 28.645824 | 115.902863 | 1 | 29433.75 |
653 | 28.658701 | 115.830057 | 2 | 32171.55556 |
653 | 28.662411 | 115.81654 | 3 | 33584.66667 |
653 | 28.662062 | 115.813241 | 4 | 44454.16667 |
653 | 28.662964 | 115.820214 | 5 | 68813.83333 |
653 | 28.646982 | 115.907242 | 6 | 77219.11111 |
表12
用户标识 | 驻留位置经度 | 驻留位置经度 | 密度聚类类别 | 初始化后的时间 |
7501 | 28.652427 | 115.894353 | 0 | 29659.33333 |
7501 | 28.65019 | 115.893034 | 1 | 57716.66667 |
7501 | 28.650583 | 115.892239 | 2 | 59187.55556 |
7501 | 28.64893 | 115.892758 | 3 | 78735 |
7501 | 28.650193 | 115.893053 | 4 | 83451.88889 |
7501 | 28.651457 | 115.893348 | 5 | 83435.33333 |
根据表11和表12,可以计算得到,经度相似性DWT_LONG=3.83,纬度相似性DWT_LATI=0.58,时间相似性DWT_TIME=1.21。
由于三个维度的权重不同,所以不能直接计算用户的常驻区域相似度,需要计算三个维度的权重,通过变异系数法可以计算出经度相似性、纬度相似性和初始化时间相似性对应的权重系数,其中,经度权重系数cur_long1=0.26,纬度权重系数cur_lati1=0.3,时间权重系数time_num_sum=0.39。
最后,通过加权平均计算得到两个待对比用户的常驻区域相似性为0.70,其中,相似度越接近于0,相似性越高。
综上所述,本发明实施例的用户常住区域相似度判断方法,能够降低基站信息数据对用户常驻区域相似度判断的影响,从用户驻留位置识别、用户常驻区域识别以及基于用户常驻区域相似度的计算三个方面,提升对基站位置数据的业务应用能力。具体地,本发明实施例能够区分基站类型识别驻留时间是否为长时间驻留,更贴近业务应用,并且能够深化用户的位置服务;通过分布定位法识别参考基站,并且利用参考基站的基站位置数据精确识别用户在短时间驻留时的驻留位置,减小驻留位置识别的误差;利用密度聚类模型输入用户的驻留位置及其对应的驻留时间进行模型训练,并且输出每个用户的常驻区域,做到差异化细分用户的效果;通过DTW方法解决不同用户一天中常驻区域个数不一致的难题,通过构造一个i×j的矩阵网格,寻找一条通过此网格中若干格点的路径,该路径通过的格点即为两个序列进行计算的对齐的点,从而寻找最短路径和计算相似度。
图7示出了本发明实施例的用户常住区域相似度判断装置的结构示意图。
如图7所示,本发明实施例的一种用户常住区域相似度判断装置200,包括:
数据获取模块210,其配置为获取待对比用户在预设时段内所附着的基站信息;
第一处理模块220,其配置为根据所述基站信息确定所述待对比用户的常驻区域;
第二处理模块230,其配置为利用DTW方法根据所述常驻区域确定任意两个所述待对比用户的常住区域相似度。
图8示出了本发明一个实施例的第一处理模块的结构示意图。
如图8所示,第一处理模块220包括:
基站信息处理单元221,其配置为根据基站信息确定待对比用户在预设时段内附着的各个基站对应的驻留时间和基站位置;
常驻区域处理单元222,其配置为根据各个基站对应的驻留时间和基站位置确定待对比用户的常驻区域。
在本发明实施例中,基站信息处理单元221被具体配置为:
根据各个基站对应的驻留时间和基站位置确定待对比用户的多个驻留位置;
根据驻留位置及待对比用户对应的驻留时间确定待对比用户的常驻区域。
在本发明实施例中,基站信息处理单元221被进一步配置为:
判断驻留时间是否大于预设阈值;
若驻留时间大于或等于预设阈值,则驻留时间对应的基站位置为驻留位置;
若驻留时间小于预设阈值,则根据驻留时间对应的基站位置确定待对比用户在驻留时间内所附着的多个参考基站,根据多个参考基站的基站位置确定驻留位置。
其中,根据多个参考基站的基站位置确定驻留位置包括:
在多个参考基站中选取三个参考基站,利用三角形重心法根据三个参考基站的基站位置确定驻留位置。
在本发明实施例中,常驻区域处理单元222被具体配置为:
将驻留位置及待对比用户对应的驻留时间分别输入预设的密度聚类模型,并输出待对比用户的常驻区域。
图9示出了本发明一个实施例的第二处理模块的结构示意图。
如图9所示,在本发明实施例中,第二处理模块230包括:
相似度计算单元231,其配置为利用DTW方法根据常驻区域确定确定任意两个待对比用户的常驻区域的经度相似度、纬度相似度和初始化时间相似度;
权重系数计算单元232,其配置为根据变异系数法确定经度相似度、纬度相似度和初始化时间相似度对应的权重系数;
相似度确定单元233,其配置为为经度相似度、纬度相似度、初始化时间相似度赋予对应的权重系数并确定任意两个待对比用户的常住区域相似度。
另外,结合图1描述的本发明实施例的用户常住区域相似度判断方法可以由用户常住区域相似度判断设备来实现。图10示出了本发明实施例提供的用户常住区域相似度判断设备的硬件结构示意图。
用户常住区域相似度判断设备可以包括处理器301以及存储有计算机程序指令的存储器302。
图10是示出能够实现根据本发明实施例的通信方法和网络服务器的计算设备的示例性硬件架构的结构图。如图10所示,计算设备300包括输入设备301、输入接口302、处理器303、存储器304、输出接口305、以及输出设备306。
其中,输入接口302、处理器303、存储器304、以及输出接口305通过总线310相互连接,输入设备301和输出设备306分别通过输入接口302和输出接口305与总线310连接,进而与计算设备300的其他组件连接。
具体地,输入设备301接收来自外部的输入信息,并通过输入接口302将输入信息传送到处理器303;处理器303基于存储器304中存储的计算机可执行指令对输入信息进行处理以生成输出信息,将输出信息临时或者永久地存储在存储器304中,然后通过输出接口305将输出信息传送到输出设备306;输出设备306将输出信息输出到计算设备300的外部供用户使用。
计算设备300可以执行本申请上述的通信方法中的各步骤。
处理器303可以是一个或多个中央处理器(Central Processing Unit,CPU)。在处理器601或处理器701是一个CPU的情况下,该CPU可以是单核CPU,也可以是多核CPU。
存储器304可以是但不限于随机存储存储器(RAM)、只读存储器(ROM),可擦除可编程只读存储器(EPROM)、光盘只读存储器(CD-ROM)、硬盘等中的一种或多种。存储器304用于存储程序代码。
可以理解的是,在本申请实施例中,图7-图9提供的任一模块或单元的功能可以用图10所示的中央处理器303实现。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。
本说明书的各个部分均采用递进的方式进行描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点介绍的都是与其他实施例不同之处。尤其,对于装置和系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例部分的说明即可。
Claims (8)
1.一种用户常住区域相似度判断方法,其特征在于,所述方法包括:
获取待对比用户在预设时段内所附着的基站信息;
根据所述基站信息确定所述待对比用户的常驻区域;
利用动态时间规整DTW方法根据所述常驻区域确定任意两个所述待对比用户的常住区域相似度;
所述根据所述基站信息确定所述待对比用户的常驻区域,包括:
根据所述基站信息确定所述待对比用户在所述预设时段内附着的各个基站对应的驻留时间和基站位置;
根据所述各个基站对应的驻留时间和基站位置确定所述待对比用户的常驻区域;
所述根据所述各个基站对应的驻留时间和基站位置确定所述待对比用户的常驻区域,包括:
确定所述各个基站中每个基站对应的基站类型;
分别计算多个基站类型中,每个基站类型对应的驻留时间的预设阈值;
根据所述每个基站类型对应的驻留时间的预设阈值,在多个基站位置中确定待对比用户的多个驻留位置;
根据所述待对比用户的多个驻留位置,确定所述用户的常驻区域。
2.根据权利要求1所述的方法,其特征在于,所述根据所述各个基站对应的驻留时间和基站位置确定所述待对比用户的多个驻留位置,包括:
判断所述驻留时间是否大于预设阈值;
若所述驻留时间大于或等于所述预设阈值,则所述驻留时间对应的基站位置为所述驻留位置;
若所述驻留时间小于所述预设阈值,则根据所述驻留时间对应的基站位置确定所述待对比用户在所述驻留时间内所附着的多个参考基站,根据所述多个参考基站的基站位置确定所述驻留位置。
3.根据权利要求2所述的方法,其特征在于,所述根据所述多个参考基站的基站位置确定所述驻留位置,包括:
在所述多个参考基站中选取三个参考基站,利用三角形重心法根据三个所述参考基站的基站位置确定所述驻留位置。
4.根据权利要求1所述的方法,其特征在于,所述根据所述驻留位置及所述待对比用户对应的驻留时间确定所述待对比用户的常驻区域,包括:
将所述驻留位置及所述待对比用户对应的驻留时间分别输入预设的密度聚类模型,并输出所述待对比用户的常驻区域。
5.根据权利要求1所述的方法,其特征在于,所述利用DTW方法根据所述常驻区域确定任意两个所述待对比用户的常住区域相似度,包括:
利用DTW方法根据所述常驻区域确定任意两个所述待对比用户的常驻区域的经度相似度、纬度相似度和初始化时间相似度;
根据变异系数法确定所述经度相似度、所述纬度相似度和所述初始化时间相似度对应的权重系数;
为所述经度相似度、所述纬度相似度、所述初始化时间相似度赋予对应的权重系数并确定任意两个所述待对比用户的常住区域相似度。
6.一种用户常住区域相似度判断装置,其特征在于,所述装置包括:
数据获取模块,其配置为获取待对比用户在预设时段内所附着的基站信息;
第一处理模块,其配置为根据所述基站信息确定所述待对比用户的常驻区域;
第二处理模块,其配置为利用动态时间规整DTW方法根据所述常驻区域确定任意两个所述待对比用户的常住区域相似度;
所述第一处理模块,包括:
基站信息处理单元,其配置为根据所述基站信息确定所述待对比用户在所述预设时段内附着的各个基站对应的驻留时间和基站位置;
常驻区域处理单元,其配置为根据所述各个基站对应的驻留时间和基站位置确定所述待对比用户的常驻区域;
所述常驻区域处理单元,具体被配置为确定所述各个基站中每个基站对应的基站类型;分别计算多个基站类型中,每个基站类型对应的驻留时间的预设阈值;根据所述每个基站类型对应的驻留时间的预设阈值,在多个基站位置中确定待对比用户的多个驻留位置;根据所述待对比用户的多个驻留位置,确定所述用户的常驻区域。
7.一种用户常住区域相似度判断设备,其特征在于,包括:至少一个处理器、至少一个存储器以及存储在所述存储器中的计算机程序指令,当所述计算机程序指令被所述处理器执行时实现如权利要求1-5中任一项所述的方法。
8.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,当所述计算机程序指令被处理器执行时实现如权利要求1-5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810669658.XA CN110650438B (zh) | 2018-06-26 | 2018-06-26 | 用户常住区域相似度判断方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810669658.XA CN110650438B (zh) | 2018-06-26 | 2018-06-26 | 用户常住区域相似度判断方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110650438A CN110650438A (zh) | 2020-01-03 |
CN110650438B true CN110650438B (zh) | 2021-12-07 |
Family
ID=68988427
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810669658.XA Active CN110650438B (zh) | 2018-06-26 | 2018-06-26 | 用户常住区域相似度判断方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110650438B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109769210A (zh) * | 2018-11-23 | 2019-05-17 | 亚信科技(中国)有限公司 | 用户活动区域相似度判断方法、装置、计算机设备 |
CN111578933B (zh) * | 2020-05-09 | 2022-03-11 | 北京上下文系统软件有限公司 | 一种快速识别用户进入特定地理区域内的方法 |
CN114364020B (zh) * | 2021-12-29 | 2024-06-07 | 中国电信股份有限公司 | 一种异网用户定位方法、装置、设备及介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8737961B2 (en) * | 2009-09-23 | 2014-05-27 | Nokia Corporation | Method and apparatus for incrementally determining location context |
CN105095909A (zh) * | 2015-07-13 | 2015-11-25 | 中国联合网络通信集团有限公司 | 一种应用于移动网络的用户相似性评估方法及装置 |
CN106960006B (zh) * | 2017-02-24 | 2020-05-05 | 河海大学 | 一种不同轨迹间相似度度量系统及其度量方法 |
CN107484134B (zh) * | 2017-10-17 | 2020-05-15 | 南京市城市与交通规划设计研究院股份有限公司 | 常驻位置分析方法及装置 |
-
2018
- 2018-06-26 CN CN201810669658.XA patent/CN110650438B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110650438A (zh) | 2020-01-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107798557B (zh) | 电子装置、基于lbs数据的服务场所推荐方法及存储介质 | |
US10474727B2 (en) | App recommendation using crowd-sourced localized app usage data | |
US20220164813A1 (en) | System and method for demographic profiling of mobile terminal users based on network-centric estimation of installed mobile applications and their usage patterns | |
CN109104688B (zh) | 使用聚集技术生成无线网络接入点模型 | |
CN110650438B (zh) | 用户常住区域相似度判断方法、装置、设备及介质 | |
CN111309614B (zh) | A/b测试方法、装置及电子设备 | |
CN107086922B (zh) | 一种用户行为识别方法和装置 | |
KR20190139130A (ko) | 피셀 알고리즘을 이용하여 실시간 유동 인구 데이터의 제공이 가능한 유동인구 정보 분석 방법 | |
US11762396B2 (en) | Positioning system and positioning method based on WI-FI fingerprints | |
US8830909B1 (en) | Methods and systems to determine user relationships, events and spaces using wireless fingerprints | |
US20150347437A1 (en) | Most Relevant Application Recommendation Based on Crowd-Sourced Application Usage Data | |
CN108366012B (zh) | 一种社交关系建立方法、装置及电子设备 | |
CN111757464B (zh) | 一种区域轮廓提取方法及装置 | |
KR20140093772A (ko) | 사용자의 선호도 및 이동 패턴을 이용한 관심지역 추천 방법 | |
CN111310009A (zh) | 用户分类方法、装置、存储介质、计算机设备 | |
CN107767155B (zh) | 一种评估用户画像数据的方法及系统 | |
Villatoro et al. | The tweetbeat of the city: Microblogging used for discovering behavioural patterns during the mwc2012 | |
CN111444933B (zh) | 一种对象分类方法及装置 | |
US10812934B2 (en) | System and method for identifying associated subjects from location histories | |
CN111861526B (zh) | 一种分析对象来源的方法和装置 | |
CN107040603B (zh) | 用于确定应用程序App活跃场景的方法和装置 | |
Khaoampai et al. | FloorLoc-SL: Floor localization system with fingerprint self-learning mechanism | |
CN115967906A (zh) | 用户常驻位置识别方法、终端、电子设备及存储介质 | |
US20160140606A1 (en) | Method and system for identifying mobile device according to information feature of applications of mobile device | |
CN110569475A (zh) | 一种网民影响力的评估方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |