CN109769210A

CN109769210A - 用户活动区域相似度判断方法、装置、计算机设备

Info

Publication number: CN109769210A
Application number: CN201811407225.3A
Authority: CN
Inventors: 宋勇; 孟祥德
Original assignee: Asiainfo Technologies China Inc
Current assignee: Asiainfo Technologies China Inc
Priority date: 2018-11-23
Filing date: 2018-11-23
Publication date: 2019-05-17

Abstract

本申请涉及一种用户活动区域相似度判断方法、装置、计算机设备。所述方法包括：根据用户所使用的基站的基站属性信息和基站类型，获取用户常驻区域信息；分别选取两个用户的所述常驻区域信息并进行比较，计算得到所述两个用户的常驻区域之间的相似度。采用本方法能够提高用户活动区域相似度判断的准确性。

Description

用户活动区域相似度判断方法、装置、计算机设备

技术领域

本申请涉及计算机技术领域，特别是涉及一种用户活动区域相似度判断方法、装置、计算机设备。

背景技术

随着移动通信技术的发展，出现了3G、4G、5G技术，使得通信更加快捷，人们对通信的依赖程度越来越高，基于基站数据的用户画像使用越来越广泛，通过用户画像可以向挖掘用户需求和分析用户偏好，支撑个性化推荐、自动化营销等。用户活动区域的相似度判断是用户画像的一个重要组成部分。

然而，目前对用户活动区域的相似度判断过程中，存在无法识别用户精确位置的问题，因而无法对用户活动区域做出准确的判断。

发明内容

基于此，有必要针对上述技术问题，提供一种能够准确判断用户活动区域的用户活动区域相似度判断方法、装置、计算机设备。

一种用户活动区域相似度判断方法，所述方法包括：

根据用户所使用的基站的基站属性信息和基站类型，获取用户常驻区域信息；

分别选取两个用户的所述常驻区域信息并进行比较，计算得到所述两个用户的常驻区域之间的相似度。

一种用户长时间停留位置计算方法，所述方法包括：

获取用户所处基站属性信息和基站类型；

根据用户所处基站属性信息和基站类型确定驻留时长阈值，所述基站属性信息包括停留时长；

根据所述基站类型，将所述停留时长大于所述驻留时长阈值的基站属性信息对应的基站位置，确定为用户长时间停留位置。

一种用户常驻区域信息的识别方法，所述方法包括：

根据用户所处基站属性信息和基站类型，确定用户长时间停留位置；

将所述长时间停留位置输入所述密度聚类模型，得到用户在不同日期的常驻区域信息。

一种用户常驻区域相似度计算方法，所述方法包括：

根据每两个用户之间的所述常驻区域信息，利用动态时间规整值计算方法计算得到每两个用户所述常驻区域之间的经度相似度、纬度相似度、时间相似度；

结合多个用户中每两个用户常驻区域之间的所述经度相似度、纬度相似度、时间相似度以及经度权重、纬度权重、时间权重，计算得到每两个用户常驻区域之间的相似度。

一种用户活动区域相似度判断装置，所述装置包括：

用户常驻区域信息获取模块，用于根据用户所使用的基站的基站属性信息和基站类型，获取用户常驻区域信息；

相似度计算模块，用于分别选取两个用户的所述常驻区域信息并进行比较，计算得到所述两个用户的常驻区域之间的相似度。

一种用户长时间停留位置计算装置，所述装置包括：

基站数据获取模块，用于获取用户所处基站属性信息和基站类型；

驻留时长阈值确定模块，用于根据用户所处基站属性信息和基站类型确定驻留时长阈值，所述基站属性信息包括停留时长；

用户长时间停留位置确定模块，用于根据所述基站类型，将所述停留时长大于所述驻留时长阈值的基站属性信息对应的基站位置，确定为用户长时间停留位置。

一种用户常驻区域信息的识别装置，所述装置包括：

用户长时间停留位置确定模块，用于根据用户所处基站属性信息和基站类型，确定用户长时间停留位置；

常驻区域信息获取模块，用于将所述长时间停留位置输入所述密度聚类模型，得到用户在不同日期的常驻区域信息。

一种用户常驻区域相似度计算装置，所述装置包括：

动态时间规整值计算模块，用于根据每两个用户之间的所述常驻区域信息，利用动态时间规整值计算方法计算得到每两个用户所述常驻区域之间的经度相似度、纬度相似度、时间相似度；

相似度计算模块，用于结合多个用户中每两个用户常驻区域之间的所述经度相似度、纬度相似度、时间相似度以及经度权重、纬度权重、时间权重，计算得到每两个用户常驻区域之间的相似度。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述用户活动区域相似度判断方法、装置、计算机设备，通过依据不同基站类型来获取用户长时间停留位置，并对长时间停留位置进行聚类，获得用户常驻区域信息，根据每两个用户常驻区域信息最终计算得到每两个用户常驻区域之间的相似度，能够准确计算用户实际位置，从而提高用户之间的活动区域相似度判断的准确性。

附图说明

图1为一个实施例中用户活动区域相似度判断方法的应用环境图；

图2为一个实施例中用户活动区域相似度判断方法的流程示意图；

图3为一个实施例中获取用户常驻区域信息方法的流程示意图；

图4为一个实施例中每两个用户常驻区域之间的相似度计算方法的流程示意图；

图5为一个实施例中获取用户长时间停留位置步骤的流程示意图；

图6为一个实施例中计算每两个用户之间的经度相似度、纬度相似度、时间相似度步骤的流程示意图；

图7为一个实施例中用户长时间停留位置计算方法的流程示意图；

图8为一个实施例中用户常驻区域信息的识别方法的流程示意图；

图9为一个实施例中用户常驻区域相似度计算方法的流程示意图；

图10为一个实施例中用户活动区域相似度判断装置的结构框图；

图11为一个实施例中聚类类别划分示意图；

图12为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的用户活动区域相似度判断方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104通过网络进行通信。服务器104获取终端102所处基站数据，根据用户所处基站属性信息和基站类型，获取用户长时间停留位置；其中，所述用户长时间停留位置数据包括经度信息、纬度信息和停留时间信息；通过聚类模型对所述长时间停留位置进行聚类，获得用户常驻区域信息；根据两个用户之间的所述常驻区域信息，计算得到两个用户之间的经度相似度、纬度相似度、时间相似度；结合多个用户中两个用户常驻区域之间的所述经度相似度、纬度相似度、时间相似度以及经度权重、纬度权重、时间权重，计算得到两个用户常驻区域之间的相似度。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种用户活动区域相似度判断方法，包括以下步骤：

S110，根据用户所使用的基站的基站属性信息和基站类型，获取用户常驻区域信息。

其中，用户在使用手机等移动终端进行通信的过程中，会通过周围的基站收发数据。如果用户所处的位置在某一基站覆盖范围中，移动终端会与该基站建立通讯连接。因此可将用户所持移动终端所连接的基站的位置，作为用户所处的位置的依据。由于用户的停留位置可以通过基站属性信息来体现，因此停留位置会处于不同的区域，通过对停留位置进行归类处理能够用于提取用户常驻区域信息。其中，按照对信号的传输速率不同，基站类型包括1G基站、2G基站、3G基站、4G基站和5G基站。在判断用户停留位置的过程中，根据用户所使用的基站类型不同，对停留位置的判断方法也不相同。因此，不同类型的基站，可通过设置不同的驻留时间阈值，作为用户所处的某个位置是否是停留位置的判断依据，从而提高停留位置判断的精确度，例如，2G基站驻留时长阈值小于4G基站驻留时长阈值。在判断用户停留位置的过程中，将停留时长小于或等于驻留时长阈值的停留位置判断为用户短时间停留的位置，因为短时间停留的位置可能是用户正在移动过程中的位置，而不是用户真正的停留位置。其中，用户常驻区域为用户经常活动的区域，用户在不同时间、不同经纬度、基于不同位置的停留时间的差异，能明显区分用户常驻的一些区域或者某时段去过的一些区域，用户常驻区域信息包括经度信息、纬度信息、停留时间信息。

S120，分别选取两个用户的所述常驻区域信息并进行比较，计算得到所述两个用户的常驻区域之间的相似度。

任一用户的常驻区域信息能够反应该用户的行动轨迹以及行为习惯，而用户的行动轨迹隐含了用户的行为和喜好。因此，通过比较用户的常驻区域之间的相似度，能够得到人们在地理位置移动的相似度，也在一定程度上反映了不同用户之间偏好和习惯的相似度。

在其中一个实施例中，如图3所示，在步骤S110中，所述根据用户所使用的基站的基站属性信息和基站类型，获取用户常驻区域信息，包括：

S111，根据用户所处基站属性信息和基站类型，获取用户长时间停留位置；

S112，通过聚类模型对所述长时间停留位置进行聚类，获得用户常驻区域信息。

其中，所述用户长时间停留位置所对应的基站的基站属性信息包括经度信息、纬度信息和停留时间信息。

其中，所述通过聚类模型对所述长时间停留位置进行聚类包括对所述长时间停留位置的经度信息、纬度信息和停留时间信息分别进行聚类。聚类模型对用户长时间停留位置进行聚类时，考虑了用户常驻区域存在时序性，停留时间信息可反应用户在不同时段的常驻区域，比如用户早上在家和晚上在家对用户常驻区域分析是有差异的，因此结合长时间停留位置的停留时间信息进行聚类。通过结合长时间停留位置的停留时间信息能够更加精确反映用户的行为和喜好。

在其中一个实施例中，如图4所示，在步骤S120中，根据每两个用户之间的所述常驻区域信息，计算得到每两个用户常驻区域之间的相似度，包括：

S121，根据每两个用户之间的所述常驻区域信息，计算得到每两个用户所述常驻区域之间的经度相似度、纬度相似度、时间相似度；

S122，结合多个用户中每两个用户常驻区域之间的所述经度相似度、纬度相似度、时间相似度以及经度权重、纬度权重、时间权重，计算得到每两个用户常驻区域之间的相似度。

其中，在步骤S121中，可通过DTW(Dynamic Time Warping，动态时间归整)算法计算两个用户之间的经度相似度、纬度相似度、时间相似度。

其中，权重表示在评价过程中，是被评价对象的不同侧面的重要程度的定量分配，对各评价因子在总体评价中的作用进行区别对待。所述经度权重、纬度权重、时间权重均可通过变异系数法、熵值权重计算法、专家打分法中的任意一种方法计算得到。

变异系数法计算公式如下：

其中，V_i为第i项指标的变异系数，σ_i为第i项指标的标准差，χ_i为第i项指标的的平均值。

则各项指标的权重公式如下：

其中，W_i为第i项指标的权重，所有指标的权重之和为1，V_i为第i项指标的变异系数。

具体的，可通过以下公式计算两个用户常驻区域之间的所述经度相似度、纬度相似度、时间相似度以及经度权重、纬度权重、时间权重，计算得到每两个用户常驻区域之间的相似度：

相似度＝经度相似度×经度权重+纬度相似度×纬度权重+时间相似度×时间权重。

上述用户活动区域相似度判断方法中，通过依据不同基站类型来获取用户长时间停留位置，并对长时间停留位置进行聚类，获得用户常驻区域信息，根据每两个用户常驻区域信息最终计算得到每两个用户常驻区域之间的相似度，能够准确计算用户实际位置，从而提高用户之间的活动区域相似度判断的准确性。

在一个实施例中，在步骤S111中，如图5所示，所述根据用户所处基站属性信息和基站类型，获取用户长时间停留位置，包括：

S1112，根据用户所处基站属性信息和基站类型确定驻留时长阈值，所述基站属性信息包括停留时长。

其中，基站类型包括1G基站、2G基站、3G基站、4G基站和5G基站。可以理解，用户在不同类型的基站的单次停留时间的最大值、最小值和均值都不相同，因此，针对不同的基站类型采用不同驻留时长阈值，以便于后续能够根据在不同类型基站的停留时长，更加准确的判断停留位置。本实施例中，所选取的基站类型包括2G基站和4G基站，驻留时长阈值包括2G基站驻留时长阈值和4G基站驻留时长阈值。

S1114，根据所述基站类型，将所述停留时长大于所述基站类型对应的驻留时长阈值的基站属性信息对应的基站位置确定为用户长时间停留位置。

在一个具体的实施例中，根据用户所处的2G基站的基站属性信息，将所述停留时长大于所述2G基站驻留时长阈值的基站属性信息对应的基站位置确定为用户长时间停留位置；根据用户所处的4G基站的基站属性信息，将所述停留时长大于所述4G基站驻留时长阈值的基站属性信息对应的基站位置确定为用户长时间停留位置。

在其中一个实施例中，在步骤S111中，所述根据用户所处基站属性信息和基站类型，获取用户长时间停留位置，还包括：

S1116，根据所述基站类型，将所述停留时长小于或等于所述驻留时长阈值的基站属性信息对应的基站位置，确定为用户短时间停留位置。

在一个具体的实施例中，根据用户所处的2G基站的基站属性信息，将所述停留时长小于或等于所述2G基站驻留时长阈值的基站属性信息对应的基站位置确定为用户短时间停留位置；根据用户所处的4G基站的基站属性信息，将所述停留时长小于或等于所述4G基站驻留时长阈值的基站属性信息对应的基站位置确定为用户短时间停留位置。

S1118，对所述用户短时间停留位置进行位置修正，得到修正后的用户长时间停留位置。

在所述步骤S1112之后，包括步骤：S1113，判断所述停留时长是否大于所述驻留时长阈值。

其中，所述驻留时长阈值根据所述基站属性信息通过四分位距方法进行计算得到。四分位距(Inter Quartile Range，IQR)，又称四分差，是描述统计学中的一种方法，以确定第三四分位数和第一二分位数的区别。四分差与方差、标准差一样，表示统计资料中各变量分散情形，但四分差更多为一种稳健统计(robust statistic)，四分位距通常是用来构建箱形图，以及对概率分布的简要图表概述，对一个对称性分布数据(其中位数必然等于第三四分位数与第一四分位数的算术平均数)，二分之一的四分差等于绝对中位差(MAD)，中位数是集中趋势的反映。

所述驻留时长阈值的计算过程具体过程如下：

S1112a，剔除基站属性数据中的异常数据，获取预设时段内正常使用的不同用户所使用的基站的基站属性数据。

预设时段可为每小时、每天、每月、每年等，可以根据需要进行选择。本实施例中，以预设时段为每天进行说明。基站属性数据的示例如表1所示：

表1每天正常使用的用户群的基站属性数据

S1112b，根据第一基站属性数据、第二基站属性数据中的停留时间分别计算得到第一基站四分位数和第二基站四分位数。

第一基站为2G基站，2G基站的四分位数为：(Q2g_1，Q 2g_2，Q2g_3)；第二基站为4G基站，4G基站四分位数为：(Q4g_1，Q4g_2，Q4g_3)。

S1112c，根据第一基站四分位数计算得到第一基站时间阈值，根据第二基站四分位数计算得到第二基站时间阈值。

例如，2G基站四分位数：2G基站(Q2g_1，Q 2g_2，Q2g_3)、4G基站四分位数：4G基站(Q4g_1，Q4g_2，Q4g_3)计算得到：

2G基站时间阈值：IQR2g＝Q2g_3+1.5×(Q2g_3-Q2g_1)；

4G基站时间阈值：IQR4g＝Q4g_3+1.5×(Q4g_3-Q4g_1)。

S1112d，结合基站建设、城乡发展等客观因素，对第一基站时间阈值和第二基站时间阈值进行修正，得到第一基站驻留时长阈值和第二基站驻留时长阈值。

例如，计算结果如下：2G基站的驻留时长阈值：751.75s；4G基站的驻留时长阈值：1130.75s，即用户如果单次在2G基站停留超过751.75s或在4G基站停留超过1130.75s，则对应的基站位置就是用户长时间停留位置。

在其中一个实施例中，在步骤S1118中，对所述用户短时间停留位置进行位置修正，得到用户长时间停留位置，包括：

S1118a、对所述停留时长小于或等于所述驻留时长阈值的基站属性信息按照时间进行排序，选取时间相邻的三条基站属性信息；其中，所述基站属性信息包括基站经度和基站纬度。

S1118b、对所述时间相邻的三条基站属性信息中所述基站经度和基站纬度，通过三角形重心计算方法，得到用户长时间停留位置的经度信息和纬度信息，所述用户长时间停留位置的停留时间信息等于三条基站属性信息的停留时间之差。

例如，采用改进RSSI(Received Signal Strength Indicator，接收信号的强度指示)的分布定位法，根据用户频繁切换基站的时间顺序，滚动选择最近三个基站的位置，三个基站位置形成三角形，然后计算三角形的重心，作为用户实际位置。三角形重心是三角形三边中点与对角连线的交点，当几何体为匀质物体时，重心与形心重合，三角形的外心是三角形三条垂直平分线的交点(或三角形外接圆的圆心)。获取三个时间相邻的基站属性信息：A0(long0,lati0)、A1(long1,lati1)、A2(long2,lati2)，则用户长时间停留位置：Location0((long0+long1+long2)/3,(lati0+lati1+lati2)/3)。

在一个实施例中，在步骤S112中，所述通过聚类模型对所述长时间停留位置进行聚类，获得用户常驻区域信息，包括：

S1121，将所述长时间停留位置作为样本数据，构建密度聚类模型并优化密度聚类模型的参数；

S1122，将所述长时间停留位置输入所述密度聚类模型，得到用户在不同日期的常驻区域信息。

其中，密度聚类是一种基于密度的聚类算法，这类密度聚类算法一般假定类别可以通过样本分布的紧密程度决定，同一类别的样本，他们之间是紧密相连的，也就是说，在该类别任意样本周围不远处一定有同类别的样本存在。如图6所示，通过将紧密相连的样本划为一类，这样就得到了一个聚类类别。

在其中一个实施例中，在步骤S1121中，所述将所述长时间停留位置作为样本数据，构建密度聚类模型并优化密度聚类模型的参数，包括：获取用户历史长时间停留位置；将所述用户历史长时间停留位置作为样本，输入初始密度聚类模型进行训练，得到密度聚类模型优化参数；根据所述密度聚类模型优化参数，得到所述密度聚类模型。

具体的，通过聚类模型对所述长时间停留位置进行聚类获得用户常驻区域信息过程如下：

S1122a、将所述长时间停留位置进行时间初始化：初始化时间＝每个位置的时间-当天零点零分的时间，初始化时间的时间单位是秒。

其中，时间初始化是为了考虑用户常驻区域存在时序性，比如用户早上在家和晚上在家对用户常驻区域分析是有差异的，在计算用户常驻区域之间的相似度的时候，即使在同一地理区域，因为时间段不同(比如上午时间段和下午时间段)应当分为不同的用户常驻区域。

S1122b、将所述经过时间初始化的长时间停留位置作为样本数据。样本数据实例如表2所示：

表2样本数据

	拍照时间	用户编号	经度	纬度	初始化时间(s)
						1	20171213	7757	115.80349	28.676598	214.6666667
2	20171213	7757	115.8034483	28.67657567	309
						3	20171213	7757	115.8031533	28.67576467	328
4	20171213	7757	115.8031117	28.67574233	537.3333333
						5	20171213	7757	115.803195	28.675787	804
6	20171213	7757	115.8031117	28.67574233	1085
						7	20171213	7757	115.8031117	28.67574233	1326
8	20171213	7757	115.8031117	28.67574233	2489.333333
						9	20171213	7757	115.8031533	28.67576467	2503.666667
10	……	……	……	……	……

S1122c、优化密度聚类模型的参数eps和min_samples，eps是密度聚类核密度，min_samples是密度聚类最小的类别数阈值。

其中，根据用户的驻留区域的个数来优化密度聚类模型的参数eps和min_samples。结合用户的活动轨迹，通常用户每天的有效驻留区域不会太多，通常计算得到的常驻区域为十个左右时的参数eps和min_samples作为最优参数，在实际应用中还会结合用户的实际有效驻留区域进一步优化参数eps和min_samples，使得密度聚类模型更加精确。优化密度聚类模型的参数eps和min_samples的参数能够获得准确的用户的常驻区域信息，避免用户的常驻区域过多，而造成数据冗余使得计算效率降低和过多的消耗计算资源，并且能够避免后续在用户轨迹相似度判断时的过拟合。

S1122d、将样本数据输入密度聚类模型，则输出用户在不同日期的常驻区域信息。

其中，常驻区域信息如表3所示，-1代表其他类别，表3中除去其它类别共有三组，说明用户7757在2017年12月13日，有3个常驻区域。

表3常驻区域信息

	拍照时间	用户编号	经度	纬度	初始化时间(s)	组别
							1	20171213	7757	115.8274967	28.65781467	28907.33333	-1
2	20171213	7757	115.8281007	28.65545567	29065	1
							3	20171213	7757	115.8277647	28.654383	29306	1
4	20171213	7757	115.8638067	28.66204233	29740.33333	-1
							5	20171213	7757	115.871181	28.672327	30095	-1
6	20171213	7757	115.875978	28.68263533	30447.66667	-1
							7	20171213	7757	115.847467	28.68643433	30514	2
8	20171213	7757	115.8478852	28.68786049	30549	2
							9	20171213	7757	115.8508299	28.68881016	30581.66667	3
10	……	……	……	……	……	……

在其中一个实施例中，如图6所示，在步骤S121中，所述根据每两个用户之间的所述常驻区域信息，计算每两个用户之间的经度相似度、纬度相似度、时间相似度，包括：

S1211，根据用户的常驻区域信息，获取用户的经度向量、纬度向量和时间向量。

S1212，分别计算每两个用户之间的经度向量、纬度向量和时间向量的动态时间规整值。所述每两个用户之间的所述经度向量的动态时间规整值、纬度向量的动态时间规整值和时间向量的动态时间规整值分别对应每两个用户之间的经度相似度、纬度相似度、时间相似度。

下面通过一个具体的实施例对每两个用户之间的经度相似度的计算进行描述，其中纬度相似度和时间相似度可通过同样的计算方法得到：

S1212a、根据用户A和用户B的常驻区域信息，得到用户A和用户B的经度向量分别为：

Long_A：{1.00，0.59，0.26，0.13，0.10，0.16，1.00}；

Long_B：{0.87，0.86，0.85，0.86，0.86，0.86，0.86}。

S1212b、根据用户A和用户B的经度向量得到矩阵M，如表4所示，矩阵M中的值为d(i，j)，d(i，j)为向量Long_A与向量Long_B之间的对应分量的绝对差。

其中，在计算矩阵M中的值为d(i，j)的过程中，如果所述向量Long_A与向量Long_B之间的对应分量为数值，则计算所述对应分量的数值的差，如果所述向量Long_A与向量Long_B之间的对应分量为向量，则计算所述对应分量的向量的欧式距离。由于，所述向量Long_A与向量Long_B之间的对应分量的经度数据为数值，所以计算所述经度数据的数值的绝对差即可。

表4矩阵M

S1212c、计算矩阵从M[0,0]到M[i，j]的最短路径值DTW，最短路径值DTW就是经度向量的动态时间规整值，由于向量Long_A与向量Long_B具有时序性的，所以计算M[0,0]到M[i，j]的最短路径DTW需要满足三个条件：

1)边界条件：即最短路径值DTW的计算开始于M[0,0]，结束于M[i，j]，不能从其它位置开始或结束；

2)连续性：从M[0,0]到M[i，j]计算路径必须是连续的，计算路径不能越过矩阵M中的任何一个元素；

3)单调性：必须满足时序，只能按照矩阵中元素从M[0,0]朝向M[i，j]的顺序计算路径值。

因此，只有从M[i，j]到M[i+1，j]、M[i+1，j+1]、M[i，j+1]这三种方向来计算每一步的距离g(i，j)。则最短路径值DTW满足如下公式：

DTW＝min(∑g(i,j))

其中，

其中，d(i，j)为向量Long_A与向量Long_B之间的对应分量的绝对差。

如表5所示，计算得到g(1,1)、g(1,2)、g(1,3)、g(1,4)、g(1,5)、g(1,6)、g(1,7)过程如下：

表5计算g(1，j)的值

其中，g(1,1)为0.26、g(1,2)为0.34、g(1,3)为0.95、g(1,4)为1.69、g(1,5)为2.47、g(1,6)为3.18、g(1,7)为3.31。

通过表5中g(1，j)的值计算g(2，j)的值，并标记路径，得到表6如下：

表6计算g(2，j)的值

最后计算得到全部的g(i，j)，如表7所示：

表7计算g(i，j)的值

最终矩阵从M[0,0]到M[i，j]的最短路径值DTW为3.83，如表8所示：

表8最短路径值的计算路径

在一个具体实施例中，用户653和用户7501的常驻区域信息如表9和表10所示：

表9用户653的6个常驻区域信息

用户编号	修正后纬度	修正后经度	常驻区域	初始化时间
					653	28.647438	115.90766	0	27568.5
653	28.645824	115.902863	1	29433.75
					653	28.658701	115.830057	2	32171.55556
653	28.662411	115.81654	3	33584.66667
					653	28.662062	115.813241	4	44454.16667
653	28.662964	115.820214	5	68813.83333
					653	28.646982	115.907242	6	77219.11111

表10用户7501的5个常驻区域信息

用户编号	修正后纬度	修正后经度	常驻区域	初始化时间
					7501	28.652427	115.894353	0	29659.33333
7501	28.65019	115.893034	1	57716.66667
					7501	28.650583	115.892239	2	59187.55556
7501	28.64893	115.892758	3	78735
					7501	28.650193	115.893053	4	83451.88889
7501	28.651457	115.893348	5	83435.33333

根据上述实施例中所述技术方案，计算得到用户653和用户7501的经度相似度：DWT_LONG＝3.83、纬度相似度：DWT_LATI＝0.58、时间相似度：DWT_TIME＝1.21。

通过变异系数法计算得到经度权重为0.26，纬度权重为0.35，时间权重为0.39。则根据两个用户常驻区域之间的相似度计算公式：相似度＝经度相似度×经度权重+纬度相似度×纬度权重+时间相似度×时间权重，计算得到用户653和用户7501常驻区域之间的相似度为1.67。

在一个实施例中，如图7所示，提供了一种用户长时间停留位置计算方法，包括步骤：

S710，获取用户所处基站属性信息和基站类型。

S720，根据用户所处基站属性信息和基站类型确定驻留时长阈值，所述基站属性信息包括停留时长。

S730，根据所述基站类型，将所述停留时长大于所述驻留时长阈值的基站属性信息对应的基站位置，确定为用户长时间停留位置。

在其中一个实施例中，用户长时间停留位置计算方法，还包括步骤：

S740，根据所述基站类型，将所述停留时长小于或等于所述驻留时长阈值的基站属性信息对应的基站位置，确定为用户短时间停留位置。

S750，对所述用户短时间停留位置进行位置修正，得到用户长时间停留位置。

在其中一个实施例中，所述驻留时长阈值根据所述基站属性信息通过四分位距方法进行计算得到。

在其中一个实施例中，在步骤S750中，对所述用户短时间停留位置进行位置修正，得到用户长时间停留位置，包括：对所述停留时长小于或等于所述驻留时长阈值的基站属性信息按照时间进行排序，选取时间相邻的三条基站属性信息；其中，所述基站属性信息包括基站经度和基站纬度；对所述时间相邻的三条基站属性信息中所述基站经度和基站纬度，通过三角形重心计算方法，得到用户长时间停留位置的经度信息和纬度信息，所述用户长时间停留位置的停留时间信息等于三条基站属性信息的停留时间之差。

关于本实施例中用户长时间停留位置计算方法的具体限定参见上述实施例中对用户活动区域相似度判断方法的限定，在此不再赘述。

在一个实施例中，如图8所示，提供了一种用户常驻区域信息的识别方法，包括步骤：

S810，根据用户所处基站属性信息和基站类型，确定用户长时间停留位置。

S830，将所述长时间停留位置输入所述密度聚类模型，得到用户在不同日期的常驻区域信息。

在其中一个实施例中，在将所述长时间停留位置输入密度聚类模型，得到用户在不同日期的常驻区域信息的步骤之前，还包括：获取用户历史长时间停留位置；将所述用户历史长时间停留位置作为样本，输入初始密度聚类模型进行训练，得到密度聚类模型优化参数；根据所述密度聚类模型优化参数，得到所述密度聚类模型。

关于本实施例中用户常驻区域信息计算方法的具体限定参见上述实施例中对用户活动区域相似度判断方法的限定，在此不再赘述。

在一个实施例中，如图9所示，提供了一种用户常驻区域相似度计算方法方法，包括步骤：

S910，根据每两个用户之间的所述常驻区域信息，利用动态时间规整值计算方法计算得到每两个用户所述常驻区域之间的经度相似度、纬度相似度、时间相似度。

S920，结合多个用户中每两个用户常驻区域之间的所述经度相似度、纬度相似度、时间相似度以及经度权重、纬度权重、时间权重，计算得到每两个用户常驻区域之间的相似度。

在其中一个实施例中，在步骤S910中，所述根据每两个用户之间的所述常驻区域信息，利用动态时间规整值计算方法计算得到每两个用户之间的经度相似度、纬度相似度、时间相似度，包括：根据用户的常驻区域信息，获取用户的经度向量、纬度向量和时间向量；分别计算每两个用户之间的经度向量、纬度向量和时间向量的动态时间规整值；所述每两个用户之间的所述经度向量的动态时间规整值、纬度向量的动态时间规整值和时间向量的动态时间规整值分别对应每两个用户之间的经度相似度、纬度相似度、时间相似度。

关于本实施例中用户常驻区域相似度计算方法的具体限定参见上述实施例中对用户活动区域相似度判断方法的限定，在此不再赘述。

应该理解的是，虽然图2-9的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-9中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图10所示，提供了一种用户活动区域相似度判断装置，所述装置包括：用户常驻区域信息获取模块801，用于根据用户所使用的基站的基站属性信息和基站类型，获取用户常驻区域信息；相似度计算模块802，用于分别选取两个用户的所述常驻区域信息并进行比较，计算得到所述两个用户的常驻区域之间的相似度。

其中，用户常驻区域信息获取模块801包括：用户长时间停留位置获取模块和聚类模块；相似度计算模块802包括：DTW计算模块和相似度计算模块。其中：

用户长时间停留位置获取模块，用于根据用户所处基站属性信息和基站类型，获取用户长时间停留位置；其中，所述用户长时间停留位置携带经度信息、纬度信息和停留时间信息。

其中，所述用户长时间停留位置携带经度信息、纬度信息和停留时间信息。用户在使用手机等移动终端进行通信的过程中，会通过周围的基站收发数据，用户所处的位置在基站覆盖范围中，因此可将用户所处基站属性信息作为获取用户所处的位置的依据。

聚类模块，用于通过聚类模型对所述长时间停留位置进行聚类，获得用户常驻区域信息。

其中，所述通过聚类模型对所述长时间停留位置进行聚类包括对所述长时间停留位置的经度信息、纬度信息和停留时间信息进行聚类。用户常驻区域为用户经常活动的区域，用户在不同时间、不同经纬度基于不同位置的停留时间的差异，能明显区分用户常驻的一些区域或者某一天去过的一些区域，用户常驻区域信息包括经度信息、纬度信息、停留时间信息。聚类模型对用户长时间停留位置进行聚类时，考虑了用户的用户常驻区域存在时序性，比如用户早上在家和晚上在家对用户常驻区域分析是有差异的，因此结合长时间停留位置的停留时间信息进行聚类。

DTW计算模块，用于根据每两个用户之间的所述常驻区域信息，计算得到每两个用户所述常驻区域之间的经度相似度、纬度相似度、时间相似度。

其中，权重表示在评价过程中，是被评价对象的不同侧面的重要程度的定量分配，对各评价因子在总体评价中的作用进行区别对待。所述经度权重、纬度权重、时间权重可通过变异系数法、熵值权重计算法、专家打分法计算得到。其中，变异系数法计算公式如下：

则各项指标的权重公式如下：

在其中一个实施例中，所述用户长时间停留位置获取模块包括：驻留时长阈值确定单元，用于根据用户所处基站属性信息和基站类型确定驻留时长阈值，所述基站属性信息包括停留时长；判断单元，用于根据所述基站类型，将所述停留时长大于所述基站类型对应的驻留时长阈值的基站属性信息对应的基站位置确定为用户长时间停留位置，将所述停留时长小于或等于所述驻留时长阈值的基站属性信息对应的基站位置，确定为用户短时间停留位置；修正单元，用于对所述用户短时间停留位置进行位置修正，得到用户长时间停留位置。

在其中一个实施例中，所述聚类模块包括：密度聚类模型构建单元，用于将所述长时间停留位置作为样本数据，构建密度聚类模型并优化密度聚类模型的参数；输出单元，用于将所述长时间停留位置输入所述密度聚类模型，得到用户在不同日期的常驻区域信息。

其中，密度聚类是一种基于密度的聚类算法，这类密度聚类算法一般假定类别可以通过样本分布的紧密程度决定，同一类别的样本，他们之间是紧密相连的，也就是说，在该类别任意样本周围不远处一定有同类别的样本存在。如图11所示，通过将紧密相连的样本划为一类，这样就得到了一个聚类类别。

在其中一个实施例中，所述密度聚类模型构建单元包括：历史停留位置获取子单元，用于获取用户历史长时间停留位置；参数训练子单元，用于将所述用户历史长时间停留位置作为样本，输入初始密度聚类模型进行训练，得到密度聚类模型优化参数；模型构建子单元，用于根据所述密度聚类模型优化参数，得到所述密度聚类模型。

在其中一个实施例中，所述DTW计算模块包括：向量获取单元，用于根据用户的常驻区域信息，获取用户的经度向量、纬度向量和时间向量；动态时间规整值计算单元，用于分别计算每两个用户之间的经度向量、纬度向量和时间向量的动态时间规整值，所述每两个用户之间的所述经度向量的动态时间规整值、纬度向量的动态时间规整值和时间向量的动态时间规整值分别对应每两个用户之间的经度相似度、纬度相似度、时间相似度。

关于用户活动区域相似度判断装置的具体限定可以参见上文中对于用户活动区域相似度判断方法的限定，在此不再赘述。上述用户活动区域相似度判断装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种用户长时间停留位置计算装置，所述装置包括：基站数据获取模块，用于获取用户所处基站属性信息和基站类型；驻留时长阈值确定模块，用于根据用户所处基站属性信息和基站类型确定驻留时长阈值，所述基站属性信息包括停留时长；用户长时间停留位置确定模块，用于根据所述基站类型，将所述停留时长大于所述驻留时长阈值的基站属性信息对应的基站位置，确定为用户长时间停留位置。

在其中一个实施例中，所述用户长时间停留位置计算装置，还包括：用户短时间停留位置确定模块，用于根据所述基站类型，将所述停留时长小于或等于所述驻留时长阈值的基站属性信息对应的基站位置，确定为用户短时间停留位置；修正模块，用于对所述用户短时间停留位置进行位置修正，得到用户长时间停留位置。

关于用户长时间停留位置计算装置的具体限定可以参见上文中对于用户长时间停留位置计算方法的限定，在此不再赘述。

在一个实施例中，提供了一种用户常驻区域信息的识别装置，所述装置包括：用户长时间停留位置确定模块，用于根据用户所处基站属性信息和基站类型，确定用户长时间停留位置；常驻区域信息获取模块，用于将所述长时间停留位置输入所述密度聚类模型，得到用户在不同日期的常驻区域信息。

在其中一个实施例中，所述用户常驻区域信息的识别装置还包括：聚类模型建立模块，用于将所述长时间停留位置作为样本数据，构建密度聚类模型并优化密度聚类模型的参数。

其中，所述聚类模型建立模块包括：历史停留位置获取单元，用于获取用户历史长时间停留位置；参数训练单元，用于将所述用户历史长时间停留位置作为样本，输入初始密度聚类模型进行训练，得到密度聚类模型优化参数；模型构建单元，用于根据所述密度聚类模型优化参数，得到所述密度聚类模型。

关于用户常驻区域信息计算装置的具体限定可以参见上文中对于用户常驻区域信息计算方法的限定，在此不再赘述。

在一个实施例中，提供了一种用户常驻区域相似度计算装置，所述装置包括：动态时间规整值计算模块，用于根据每两个用户之间的所述常驻区域信息，利用动态时间规整值计算方法计算得到每两个用户所述常驻区域之间的经度相似度、纬度相似度、时间相似度；相似度计算模块，用于结合多个用户中每两个用户常驻区域之间的所述经度相似度、纬度相似度、时间相似度以及经度权重、纬度权重、时间权重，计算得到每两个用户常驻区域之间的相似度。

关于用户常驻区域相似度计算装置的具体限定可以参见上文中对于用户常驻区域相似度计算方法的限定，在此不再赘述。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图12所示。该计算机设备包括通过装置总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作装置、计算机程序和数据库。该内存储器为非易失性存储介质中的操作装置和计算机程序的运行提供环境。该计算机设备的数据库用于存储基站属性信息。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种用户活动区域相似度判断方法。

本领域技术人员可以理解，图12中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种用户活动区域相似度判断方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据用户所使用的基站的基站属性信息和基站类型，获取用户常驻区域信息，包括：

根据用户所处基站属性信息和基站类型，获取用户长时间停留位置；其中，所述用户长时间停留位置携带经度信息、纬度信息和停留时间信息；

通过聚类模型对所述长时间停留位置进行聚类，获得用户常驻区域信息。

3.根据权利要求2所述的方法，其特征在于，所述根据用户所处基站属性信息和基站类型，获取用户长时间停留位置，包括：

根据所述基站类型，将所述停留时长大于所述基站类型对应的驻留时长阈值的基站属性信息对应的基站位置确定为用户长时间停留位置。

4.根据权利要求3所述的方法，其特征在于，所述根据用户所处基站属性信息和基站类型，获取用户长时间停留位置，还包括：

根据所述基站类型，将所述停留时长小于或等于所述驻留时长阈值的基站属性信息对应的基站位置，确定为用户短时间停留位置；

对所述用户短时间停留位置进行位置修正，得到用户长时间停留位置。

5.根据权利要求3所述的方法，其特征在于，所述驻留时长阈值根据所述基站属性信息通过四分位距方法进行计算得到。

6.根据权利要求4所述的方法，其特征在于，对所述用户短时间停留位置进行位置修正，得到用户长时间停留位置，包括：

对所述停留时长小于或等于所述驻留时长阈值的基站属性信息按照时间进行排序，选取时间相邻的三条基站属性信息；其中，所述基站属性信息包括基站经度和基站纬度；

对所述时间相邻的三条基站属性信息中所述基站经度和基站纬度，通过三角形重心计算方法，得到用户长时间停留位置的经度信息和纬度信息，所述用户长时间停留位置的停留时间信息等于三条基站属性信息的停留时间之差。

7.根据权利要求2-6任一项所述的方法，其特征在于，所述通过聚类模型对所述长时间停留位置进行聚类，获得用户常驻区域信息，包括：

将所述长时间停留位置作为样本数据，构建密度聚类模型并优化密度聚类模型的参数；

8.根据权利要求1所述的方法，其特征在于，根据每两个用户之间的所述常驻区域信息，计算得到每两个用户常驻区域之间的相似度，包括：

根据每两个用户之间的所述常驻区域信息，计算得到每两个用户所述常驻区域之间的经度相似度、纬度相似度、时间相似度；

9.根据权利要求8所述的方法，其特征在于，所述根据每两个用户之间的所述常驻区域信息，计算得到每两个用户之间的经度相似度、纬度相似度、时间相似度，包括：

根据用户的常驻区域信息，获取用户的经度向量、纬度向量和时间向量；

分别计算每两个用户之间的经度向量、纬度向量和时间向量的动态时间规整值；

所述每两个用户之间的所述经度向量的动态时间规整值、纬度向量的动态时间规整值和时间向量的动态时间规整值分别对应每两个用户之间的经度相似度、纬度相似度、时间相似度。

10.根据权利要求8所述的方法，其特征在于，所述经度权重、纬度权重、时间权重通过变异系数法计算得到。