CN111143639B

CN111143639B - 用户亲密度计算方法、装置、设备及介质

Info

Publication number: CN111143639B
Application number: CN201911382547.1A
Authority: CN
Inventors: 林赛峰
Original assignee: Tongdun Guangzhou Technology Co ltd
Current assignee: Tongdun Guangzhou Technology Co ltd
Priority date: 2019-12-27
Filing date: 2019-12-27
Publication date: 2021-05-07
Anticipated expiration: 2039-12-27
Also published as: CN111143639A

Abstract

本发明公开了一种用户亲密度方法，涉及数据分析技术领域，用于解决现有缺乏对不连续及稀疏的用户地理位置轨迹数据进行用户行为相似度分析的方法，该方法包括以下步骤：接收用户地理位置数据；通过预设聚类算法对待分析地理位置数据进行聚类，得到第一聚集簇；通过Cn组合函数将每个所述第一聚集簇中的用户组成关系对；根据所述关系对，通过预设聚类算法对所述待分析地理位位置数据进行聚类，得到第二聚集簇；根据所述关系对及所述第二聚集簇计算衍生特征；根据所述衍生特征计算用户亲密度分数。本发明还公开了一种用户亲密度计算装置、电子设备和计算机存储介质。本发明提供一种用户亲密度计算方法，以便于得到用户行为相似度。

Description

用户亲密度计算方法、装置、设备及介质

技术领域

本发明涉及数据分析技术领域，尤其涉及一种用户亲密度计算方法、装置、设备及介质。

背景技术

LBS位置服务(location based service)是利用各类型的定位技术来获取定位设备当前的所在位置，通过移动互联网向定位设备提供信息资源和基础服务；通过LBS位置服务可以得到全面的用户地理位置轨迹信息。

通过收集用户地理位置轨迹信息，就可以计算出不同用户之间的亲密度；用户亲密度可以反映出用户的兴趣、习惯，并且可以挖掘出用户之间潜在的时空关联性。

目前也有一些用户亲密度的分析方法，这些方法通常不会对时间维度进行分析，或者时间计算维度较短，通常仅对一天内的用户亲密度进行计算，很多情况下由于用户地理位置轨迹数据不连续性而且稀疏性，短时间的时间计算维度难以准确计算出精确的用户行为相似度。

发明内容

为了克服现有技术的不足，本发明的目的之一在于提供一种用户亲密度计算方法，可以完成对大量数据的用户亲密度计算，通过增加获取数据的时间跨度，进而增加用户行为相似度计算的准确度。

本发明的目的之一采用以下技术方案实现：

一种用户亲密度计算方法，包括以下步骤：

接收预设时间段内的用户地理位置数据，并对所述用户地理位置数据进行预处理，得到待分析地理位置数据；

通过预设聚类算法对所述待分析地理位置数据按照时间维度和地域进行聚类，得到第一聚集簇；

通过Cn组合函数将每个所述第一聚集簇中的用户组成关系对；

根据所述关系对，通过预设聚类算法对所述待分析地理位位置数据进行聚类，得到第二聚集簇；

根据所述关系对及所述第二聚集簇计算衍生特征；

根据所述衍生特征计算用户亲密度分数。

进一步地，所述用户地理位置数据为LBS位置服务的定位数据。

进一步地，对所述用户地理位置数据进行预处理，包括以下步骤：

对所述用户地理位置数据进行格式校验，删除不符合格式要求的数据；

对所述用户地理位置数据进行数值校验，删除不符合预设数值区间的数据；

对校验后的所述用户地理位置数据进行经纬度解析，得到每个所述经纬度对应的地域信息，所述地域信息包括省市区信息。

进一步地，所述预设聚类算法为DBSCAN聚类算法，所述预设聚类算法通过预设参数调优算法进行权重调整。

进一步地，通过Cn组合函数将每个所述第一聚集簇中的用户组成关系对，包括以下步骤：

根据特征值，对每个所述第一聚集簇中的用户进行排序，所述特征值包括手机号、身份证号、用户ID中的一种；

通过Cn组合函数将所有所述用户拆分为两两关系对。

进一步地，所述衍生特征包括地理位置临近强度、地理位置临近稳定性，所述用户亲密度计算方法满足公式：(系数×位置临近强度+(1-系数)×位置临近稳定性)×用户权重，所述系数为调节系数，所述用户权重的计算公式为：lg(Nmax/N(a))，Nmax为地理位置临近用户个数最大值，N(a)为与a地理位置临近的用户个数，a为其中一个所述用户。

进一步地，根据所述衍生特征计算用户亲密度分数，包括以下步骤：

当所述用户亲密度分数超过预设阈值时，以所述预设阈值作为所述用户亲密度分数。

本发明的目的之二在于提供一种用户亲密度计算装置，可以完成对大量数据的用户亲密度计算，通过增加获取数据的时间跨度，进而增加用户行为相似度计算的准确度。

本发明的目的之二采用以下技术方案实现：

一种用户亲密度计算装置，其包括：

接收模块，用于接收预设时间段内的用户地理位置数据，并对所述用户地理位置数据进行预处理，得到待分析地理位置数据；

聚类模块，用于通过预设聚类算法对所述待分析地理位置数据按照时间维度和地域进行聚类，得到第一聚集簇；通过Cn组合函数将每个所述第一聚集簇中的用户组成关系对；根据所述关系对，通过预设聚类算法对所述待分析地理位位置数据进行聚类，得到第二聚集簇；

特征计算模块，用于根据所述关系对及所述第二聚集簇计算衍生特征；

亲密度计算模块，根据所述衍生特征计算用户亲密度分数。

本发明的目的之三在于提供执行发明目的之一的电子设备，其包括处理器、存储介质以及计算机程序，所述计算机程序存储于存储介质中，所述计算机程序被处理器执行时实现上述的用户亲密度计算方法。

本发明的目的之四在于提供存储发明目的之一的计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的用户亲密度计算方法。

相比现有技术，本发明的有益效果在于：

本发明可以根据需求调整分析数据的时间维度，解决了由于数据不连续性导致的用户行为相似度即用户亲密度计算结果的不准确，且本发明的方法在数据量很大的情况下依然可以实现用户亲密度的计算，不会受限于数据量的大小；通过本发明提供的用户亲密度计算方法可以快速分析出现实生活中的人物关系。

附图说明

图1是实施例一的用户亲密度计算方法的流程图；

图2是实施例一的地理位置数据预处理方法的流程图；

图3是实施例二的用户亲密度计算装置的结构框图；

图4是实施例三的电子设备的结构框图。

具体实施方式

以下将结合附图，对本发明进行更为详细的描述，需要说明的是，以下参照附图对本发明进行的描述仅是示意性的，而非限制性的。各个不同实施例之间可以进行相互组合，以构成未在以下描述中示出的其他实施例。

实施例一

实施例一提供了一种用户亲密度方法，旨在通过对地理位置数据进行聚类，通过聚类结果分析出特征信息，进而通过特征信息计算出用户亲密度。

请参照图1所示，一种用户亲密度计算方法，包括以下步骤：

S110、接收预设时间段内的用户地理位置数据，并对所述用户地理位置数据进行预处理，得到待分析地理位置数据；

S110中的预设时间段可以根据实际情况进行设定，例如一年，即对一年内的用户地理位置数据进行分析，对于连续性较低或稀疏的数据可以增加预设时间段，以便于得到较全面的分析数据，便于得到准确的用户亲密度分数。

上述的用户地理位置数据来源为用户设备的LBS位置服务的定位数据，比如高德导航、运营商通讯或者APP定位服务等，一般是经纬度数值信息，相比于现有技术用户地理位置数据常为用户签到数据，即用户需要在APP上签到才会记录位置信息，LBS位置服务的定位数据更全面，通常用户打开相关APP就可以获取用户的位置信息。

S110中的数据预处理指的是对地理位置数据进行格式检验，异常值处理等清洗，并且解析经纬度的归属省市区。请参照图2所示，具体包括以下步骤：

S1101、对所述用户地理位置数据进行格式校验，删除不符合格式要求的数据；

需要说明的是，当多种经纬度数据如基站cell、gps、wifi并存时，取值方法为取第一个不为空的数据，优先级顺序根据实际情况调整，该优先级指的是基站cell、gps、wifi的优先级。

S1102、对所述用户地理位置数据进行数值校验，删除不符合预设数值区间的数据；

S1102中的预设数值为经纬度范围，例如经度值范围[-180,180]，维度值范围[-90,90]，并且精度精确到小数后6位，超过该经纬度范围的数据会影响后续的亲密度计算，认为是异常数据，进行删除处理。

S1103、对校验后的所述用户地理位置数据进行经纬度解析，得到每个所述经纬度对应的地域信息，所述地域信息包括省市区信息。

由于每个省市区都有其固定的经纬度数据范围，省市区的经纬度数据会预先存储在进行解析的服务器中，通过调用该数据就可以根据经纬度完成省市区的位置解析，因此，S1103解析时，通过省市区的地址围栏经纬度数据，解析出用户地理位置数据中的经纬度所属的省市区。

S120、通过预设聚类算法对所述待分析地理位置数据按照时间维度和地域进行聚类，得到第一聚集簇；

本实施例中的预设聚类算法为DBSCAN聚类算法。DBSCAN(Density-Based SpatialClustering of Applications with Noise，具有噪声的基于密度的聚类方法)是一种基于密度的空间聚类算法。该算法将具有足够密度的区域划分为簇，并在具有噪声的空间数据库中发现任意形状的簇，它将簇定义为密度相连的点的最大集合。

S120在具体计算时，按省市区和小时维度分组，以小时为维度使用DBSCAN算法根据活动半径进行聚类，该活动半径即省市区，用DBSCAN聚类得到多个聚集簇，每个聚集簇包含多个用户，每个聚集簇就代表聚集簇内用户的共同常去地。输出参数包括中心点经纬度、人数、簇最大半径等信息。本实施例中还会对算法参数进行调优，以便于得到更精确的用户地址输出数据，具体地，当分组内同一个经纬度出现次数越多，这个经纬度的权重系数就会越高，本实施例不对具体调优算法进行限定，只要是权重系数自动调整的算法都可以用于算法调优，例如权重系数sample_weight。本实施例中的DBSCAN聚类算法模式为“ball_tree”，该模式会在一系列嵌套的超球体上分割数据，度量选择“haversine”。

S130、通过Cn组合函数将每个所述第一聚集簇中的用户组成关系对；

S130的Cn组合函数即排列组合函数，本实施例中将所有用户排列成两两关系对，当然，根据实际需求并不限于两两关系对，例如，当用户较多时，也可以是三个用户为一组的关系对。本实施例中排列成两两关系对的具体地步骤为：

通过Cn组合函数将所有所述用户拆分为两两关系对。

按照特征值进行排序是为了保证关系对不重复，因为A-B和B-A是相同的两个用户，因此此特征值排序可以防止同时得到这两种相同的关系对，避免一倍的数据冗余和特征计算量。

S140、通过预设聚类算法对所述待分析地理位置数据按照所述关系对进行聚类，得到第二聚集簇；

S140按S130中得到的关系对作为用户维度，使用DBSCAN聚类得到多个聚集簇，每个聚集簇代表着一个关系对之间一个共同的常去地址。聚类过程与S120相同，但是S140聚类时，是以关系对为维度进行聚类，活动半径为省市区，输出参数包括中心点经纬度、时间、簇最大半径等信息。

S150、根据所述关系对及所述第二聚集簇计算衍生特征；

所述衍生特征包括地理位置临近强度、地理位置临近稳定性。

由于S130和S140得到的数据只有两个用户的共同常去地，而本实施例的中的亲密度计算需要包括地理位置临近强度、地理位置临近稳定性在内的衍生特征信息，因此需要对S130和S140中得到的基础特征重新加工和计算得到这些衍生特征信息。

地理位置临近强度计算公式为：

其中，FREab-geo-cnt表示a用户和b用户的地理位置临近小时数；AVGall-geo-cnt表示a用户和其他所有地理位置临近用户的平均小时数；FREab-geo-addr表示a和b的地理位置临近地址个数；AVGall-geo-addr表示a用户和其所有地理位置临近用户的平均地址个数。

地理位置临近稳定性计算公式为：

其中，FREab-geo-week表示a用户和b用户地理位置临近周数；AVGall-geo-week表示a用户和其所有地理位置临近用户的平均周数；CVab-geo-week表示a用户和b用户地理位置临近间隔周数的离散系数；AVGCVall-geo-week表示a用户和其他所有地理位置临近用户的平均间隔周数的离散系数。

上述的a用户和b用户即一对用户关系对中的两个用户。其中涉及的离散系数即标准差与平均数的比值，以a用户和b用户地理位置临近间隔周数的离散系数为例，根据各个地理位置的临近间隔周数为输入数据进行标准差计算，再根据该标准差得到离散系数，由于离散系数的计算是常用的数学方法，因此本实施例不对其原理作过多描述。

S160、根据所述衍生特征计算用户亲密度分数。

所述用户亲密度计算方法满足公式：(系数×位置临近强度+(1-系数)×位置临近稳定性)×用户权重，所述系数为调节系数，所述用户权重的计算公式为：lg(Nmax/N(a))，Nmax为地理位置临近用户个数最大值，N(a)为与a地理位置临近的用户个数，a为其中一个所述用户。

上述的调节系数是为了调节地理位置临近强度及地理位置临近稳定性对用户亲密度计算结果的影响，调节系数越高，地理位置临近强度占比越高，调节系数越低，地理位置临近稳定性占比越高。调节系数需要根据实际情况进行设定。

用户亲密度计算的公式结合S150的衍生特征可以表示为：

上述公式的Sab即用户亲密度得分。

在实际计算时，由于部分衍生特征值会的异常值，会导致亲密度得分过高，因此通过设定预设阈值以保证分数的上限，当所述用户亲密度分数超过预设阈值时，以所述预设阈值作为所述用户亲密度分数。

实施例二

实施例二公开了一种对应上述实施例的用户亲密度计算方法对应的装置，为上述实施例的虚拟装置结构，请参照图3所示，包括：

接收模块210，用于接收预设时间段内的用户地理位置数据，并对所述用户地理位置数据进行预处理，得到待分析地理位置数据；

聚类模块220，用于通过预设聚类算法对所述待分析地理位置数据按照时间维度和地域进行聚类，得到第一聚集簇；通过Cn组合函数将每个所述第一聚集簇中的用户组成关系对；根据所述关系对，通过预设聚类算法对所述待分析地理位位置数据进行聚类，得到第二聚集簇；

特征计算模块230，用于根据所述关系对及所述第二聚集簇计算衍生特征；

亲密度计算模块240，根据所述衍生特征计算用户亲密度分数。

实施例三

图4为本发明实施例三提供的一种电子设备的结构示意图，如图4所示，该电子设备包括处理器310、存储器320、输入装置330和输出装置340；计算机设备中处理器310的数量可以是一个或多个，图4中以一个处理器310为例；电子设备中的处理器310、存储器320、输入装置330和输出装置340可以通过总线或其他方式连接，图4中以通过总线连接为例。

存储器320作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的用户亲密度计算方法对应的程序指令/模块(例如，用户亲密度计算方法装置中的接收模块210、聚类模块220、特征计算模块230和亲密度计算模块240)。处理器310通过运行存储在存储器320中的软件程序、指令以及模块，从而执行电子设备的各种功能应用以及数据处理，即实现上述实施例一的用户亲密度计算方法。

存储器320可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器320可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器320可进一步包括相对于处理器310远程设置的存储器，这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置330可用于接收输入的用户身份信息、地理位置数据等。输出装置340可包括显示屏等显示设备。

实施例四

本发明实施例七还提供一种包含计算机可执行指令的存储介质，该存储介质可用于计算机执行用户亲密度计算方法，该方法包括：

根据所述关系对及所述第二聚集簇计算衍生特征；

根据所述衍生特征计算用户亲密度分数。

当然，本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的基于用户亲密度计算方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(RandomAccess Memory，RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台电子设备(可以是手机，个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述基于用户亲密度计算方法装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

对本领域的技术人员来说，可根据以上描述的技术方案以及构思，做出其它各种相应的改变以及形变，而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。

Claims

1.一种用户亲密度计算方法，其特征在于，包括以下步骤：

根据所述关系对，通过预设聚类算法对所述待分析地理位置数据进行聚类，得到第二聚集簇；

根据所述关系对及所述第二聚集簇计算衍生特征，所述衍生特征包括地理位置临近强度、地理位置临近稳定性，所述地理位置临近强度计算公式为：

其中，FREab-geo-cnt表示a用户和b用户的地理位置临近小时数；AVGall-geo-cnt表示a用户和其他所有地理位置临近用户的平均小时数；FREab-geo-addr表示a用户和b用户的地理位置临近地址个数；AVGall-geo-addr表示a用户和其所有地理位置临近用户的平均地址个数；

所述地理位置临近稳定性计算公式为：

其中，FREab-geo-week表示a用户和b用户地理位置临近周数；AVGall-geo-week表示a用户和其所有地理位置临近用户的平均周数；CVab-geo-week表示a用户和b用户地理位置临近间隔周数的离散系数；AVGCVall-geo-week表示a用户和其他所有地理位置临近用户的平均间隔周数的离散系数；

根据所述衍生特征计算用户亲密度分数，所述用户亲密度分数的计算方法满足公式：(系数×位置临近强度+(1-系数)×位置临近稳定性)×用户权重，所述系数为调节系数，所述用户权重的计算公式为：lg(Nmax/N(a))，Nmax为地理位置临近用户个数最大值，N(a)为与a地理位置临近的用户个数，a为其中一个所述用户。

2.如权利要求1所述的用户亲密度计算方法，其特征在于，所述用户地理位置数据为LBS位置服务的定位数据。

3.如权利要求1所述的用户亲密度计算方法，其特征在于，对所述用户地理位置数据进行预处理，包括以下步骤：

4.如权利要求1所述的用户亲密度计算方法，其特征在于，所述预设聚类算法为DBSCAN聚类算法，所述预设聚类算法通过预设参数调优算法进行权重调整。

5.如权利要求1所述的用户亲密度计算方法，其特征在于，通过Cn组合函数将每个所述第一聚集簇中的用户组成关系对，包括以下步骤：

通过Cn组合函数将所有所述用户拆分为两两关系对。

6.如权利要求1-5任一项所述的用户亲密度计算方法，其特征在于，根据所述衍生特征计算用户亲密度分数，包括以下步骤：

7.一种用户亲密度计算装置，其特征在于，其包括：

聚类模块，用于通过预设聚类算法对所述待分析地理位置数据按照时间维度和地域进行聚类，得到第一聚集簇；通过Cn组合函数将每个所述第一聚集簇中的用户组成关系对；根据所述关系对，通过预设聚类算法对所述待分析地理位置数据进行聚类，得到第二聚集簇；

特征计算模块，用于根据所述关系对及所述第二聚集簇计算衍生特征，所述衍生特征包括地理位置临近强度、地理位置临近稳定性，所述地理位置临近强度计算公式为：

所述地理位置临近稳定性计算公式为：

亲密度计算模块，根据所述衍生特征计算用户亲密度分数，所述用户亲密度分数的计算方法满足公式：(系数×位置临近强度+(1-系数)×位置临近稳定性)×用户权重，所述系数为调节系数，所述用户权重的计算公式为：lg(Nmax/N(a))，Nmax为地理位置临近用户个数最大值，N(a)为与a地理位置临近的用户个数，a为其中一个所述用户。

8.一种电子设备，其包括处理器、存储介质以及计算机程序，所述计算机程序存储于存储介质中，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6任一项所述的用户亲密度计算方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6任一项所述的用户亲密度计算方法。