CN111078818B

CN111078818B - 地址分析方法、装置、电子设备及存储介质

Info

Publication number: CN111078818B
Application number: CN201911382559.4A
Authority: CN
Inventors: 林赛峰
Original assignee: Tongdun Guangzhou Technology Co ltd
Current assignee: Tongdun Guangzhou Technology Co ltd
Priority date: 2019-12-27
Filing date: 2019-12-27
Publication date: 2021-08-10
Anticipated expiration: 2039-12-27
Also published as: CN111078818A

Abstract

本发明公开了一种地址分析方法，涉及数据分析技术领域，该方法包括以下步骤：获取预设时间段内的业务数据，对业务数据进行预处理，得到有效地理位置数据；利用聚类算法对有效地理位置数据进行聚类，得到候选聚集簇；根据日期标签对候选聚集簇进行排序，得到第一聚集簇和第二聚集簇；根据第一时间阈值分别提取两个聚集簇对应的小时中位数；根据第二时间阈值对两个小时中位数进行判断，确定家庭地址和工作地址。该方法提取两个聚集簇的小时中位数符合用户常去地址的行为特性，可以获得用户准确的家庭和工作地址，分析效果好，计算效率高，应用方便。本发明还公开了一种地址分析装置、电子设备和计算机存储介质。

Description

地址分析方法、装置、电子设备及存储介质

技术领域

本发明涉及数据分析技术领域，尤其涉及一种地址分析方法、装置、电子设备及存储介质。

背景技术

LBS位置服务(location based service)是利用各类型的定位技术来获取定位设备当前的所在位置，通过移动互联网向定位设备提供信息资源和基础服务；通过LBS位置服务可以得到全面的用户地理位置轨迹信息。

通过挖掘通讯运营商、地图导航、APP商户等机构的业务数据中的地理位置信息，推测用户常去地是家庭地址还是工作地址，识别个人地址的真实性，可以有效识别虚假个人地址信息，了解用户群体的地理位置聚集特征，方便进行推广和营销等活动。

常用的挖掘技术根据用户地理位置信息，按用户维度分别聚类经纬度数据得到聚集簇，聚集簇中的位置信息经过特征计算和机器学习模型处理，进而分析判断对应的是家庭地址范围还是工作地址范围。但是，由于采集的经纬度数据通常呈现片段不连续性和稀疏性，无法获得准确的分析结果，并且对多个聚集簇的多个数据特征处理流程冗长，处理效率低。

发明内容

为了克服现有技术的不足，本发明的目的之一在于提供一种地址分析方法，其根据位置数据的时间范围获得两个聚集簇，进而通过提取两个聚集簇的小时中位数，准确获得用户的家庭地址和工作地址。

本发明的目的之一采用以下技术方案实现：

一种地址分析方法，包括以下步骤：

获取预设时间段内的业务数据，对所述业务数据进行预处理，得到有效地理位置数据；

利用聚类算法对所述有效地理位置数据进行聚类，得到候选聚集簇；

根据日期标签对所述候选聚集簇进行排序，得到第一聚集簇和第二聚集簇；

根据第一时间阈值，提取所述第一聚集簇的第一小时中位数和所述第二聚集簇的第二小时中位数；

根据第二时间阈值对所述第一小时中位数和所述第二小时中位数进行判断，确定家庭地址和工作地址。

进一步地，对所述业务数据进行预处理，得到有效地理位置数据，包括：

将所述业务数据按用户分组，得到单用户位置数据；

对所述单用户位置数据进行格式校验，删除不符合格式要求的数据；

对格式校验后的所述单用户位置数据进行数值校验，删除不符合预设数值区间的数据，得到所述有效地理位置数据。

进一步地，所述聚类算法为DBSCAN算法，所述聚类算法通过预设的调优算法进行参数调整。

进一步地，根据日期标签对所述候选聚集簇进行排序，得到第一聚集簇和第二聚集簇，包括：

获取所述候选聚集簇中每条数据的时间标签；

对每个候选聚集簇的时间标签进行统计，得到所述候选聚集簇的日期标签；

按所述日期标签从大到小对所述候选聚集簇进行排序，将排序靠前的2个候选聚集簇作为所述第一聚集簇和所述第二聚集簇。

进一步地，根据第一时间阈值，提取所述第一聚集簇的第一小时中位数和所述第二聚集簇的第二小时中位数，包括：

获取第一时间阈值；

根据所述第一时间阈值，获得第一聚集簇和第二聚集簇中每条数据的时钟标签；

所述第一聚集簇和所述第二聚集簇中的数据分别按照时钟标签进行排序，根据排序结果分别提取所述第一聚集簇和所述第二聚集簇的小时中位数。

进一步地，获得第一聚集簇和第二聚集簇中每条数据的时钟标签，包括：

当所述第一聚集簇和所述第二聚集簇中的数据的时间标签大于所述第一时间阈值时，所述时间标签与所述第一时间阈值进行减法计算，得到每条数据的时钟标签。

进一步地，根据第二时间阈值对所述第一小时中位数和所述第二小时中位数进行判断，确定家庭地址和工作地址，包括：

获取第二时间阈值，判断所述第一小时中位数是否小于所述第二时间阈值，得到第一判断结果；

当所述第一判断结果为是时，确定所述第一聚集簇的中心地址为家庭地址，并判断所述第二小时中位数是否小于所述第二时间阈值，得到第二判断结果；

当所述第二判断结果为否时，确定所述第二聚集簇的中心地址为工作地址；

当所述第一判断结果为否时，确定所述第一聚集簇的中心地址为工作地址，并判断所述第二小时中位数是否小于所述第二时间阈值，得到第三判断结果；

当所述第三判断结果为是时，确定所述第二聚集簇的中心地址为家庭地址。

本发明的目的之二在于提供一种地址分析装置，其根据位置数据的时间范围获得两个聚集簇，进而通过提取两个聚集簇的小时中位数，准确获得用户的家庭地址和工作地址。

本发明的目的之二采用以下技术方案实现：

一种地址分析装置，其包括：

数据获取模块，用于获取预设时间段内的业务数据，对所述业务数据进行预处理，得到有效地理位置数据；

聚类模块，用于利用聚类算法对所述有效地理位置数据进行聚类，得到候选聚集簇；根据日期标签对所述候选聚集簇进行排序，得到第一聚集簇和第二聚集簇；

中位数提取模块，用于根据第一时间阈值，提取所述第一聚集簇的第一小时中位数和所述第二聚集簇的第二小时中位数；

地址分析模块，用于根据第二时间阈值对所述第一小时中位数和所述第二小时中位数进行判断，确定家庭地址和工作地址。

本发明的目的之三在于提供执行发明目的之一的电子设备，其包括处理器、存储介质以及计算机程序，所述计算机程序存储于存储介质中，所述计算机程序被处理器执行时本发明目的之一的地址分析方法。

本发明的目的之四在于提供存储发明目的之一的计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现本发明目的之一的地址分析方法。

相比现有技术，本发明的有益效果在于：

本发明可以根据需求调整业务数据的时间维度，解决了因数据不连续性造成地址分析结果的不准确，根据位置数据的日期范围获得两个聚集簇，符合用户常去地址的行为特性，通过对最能体现用户常去地特性的小时中位数进行分析，可以准确获得用户的家庭和工作地址，分析效果好，计算效率高，适用于任意根据地理位置信息确定家庭和工作地址的业务场景。

附图说明

图1为本发明实施例一的地址分析方法流程图；

图2为本发明实施例一的业务数据预处理流程图；

图3为本发明实施例一的两个聚集簇获取流程图；

图4为本发明实施例一的小时中位数提取流程图；

图5为本发明实施例一的小时中位数分析判断流程图；

图6为本发明实施例二的地址分析装置的结构框图；

图7为本发明实施例三的电子设备的结构框图。

具体实施方式

以下将结合附图，对本发明进行更为详细的描述，需要说明的是，以下参照附图对本发明进行的描述仅是示意性的，而非限制性的。各个不同实施例之间可以进行相互组合，以构成未在以下描述中示出的其他实施例。

实施例一

实施例一提供了一种地址分析方法，旨在通过根据位置数据的时间范围获得两个聚集簇，进而通过提取两个聚集簇的小时中位数，准确获得用户的家庭地址和工作地址。

请参照图1所示，一种地址分析方法，包括以下步骤：

S110、获取预设时间段内的业务数据，对业务数据进行预处理，得到有效地理位置数据。

预设时间段可以根据实际情况进行设定，例如一年，即对一年内的业务数据进行处理分析，对于连续性较低或稀疏的数据可以增加预设时间段，以便获得更全面的分析数据，便于得到用户准确的家庭和工作地址。

业务数据来源为用户设备的LBS位置服务的定位数据，比如高德导航、运营商通讯或者APP定位服务等，一般是经纬度数值信息，相比于现有技术用户地理位置数据常为用户签到数据，即用户需要在APP上签到才会记录位置信息，LBS位置服务的定位数据更全面，通常用户打开相关APP就可以获取用户的位置信息。

对业务数据按用户分组，并进行格式检验、异常值处理等清洗处理，得到有效地理位置数据，为后续聚类算法提供了有效可靠的基础数据，保证算法快速计算。请参照图2所示，对业务数据的预处理包括以下步骤：

S1101、将业务数据按用户分组，得到单用户位置数据。

S1102、对单用户位置数据进行格式校验，删除不符合格式要求的数据。

需要说明的是，当多种经纬度数据如基站cell、gps、wifi并存时，取值方法为取第一个不为空的数据，优先级顺序根据实际情况调整，该优先级指的是基站cell、gps、wifi的优先级。

S1103、对格式校验后的单用户位置数据进行数值校验，删除不符合预设数值区间的数据，得到有效地理位置数据。

预设数值区间为经纬度范围，例如经度值范围[-180,180]，维度值范围[-90,90]，并且精度精确到小数后6位，超过该经纬度范围的数据会影响后续对地理位置数据的聚类处理，认为是异常数据，进行删除处理，从而保证聚类算法的基础数据有效可靠。

优选地，对有效地理位置数据进行经纬度解析，得到每个经纬度对应的地域信息。地域信息包括归属省市区信息。

由于每个省市区都有其固定的经纬度数据范围，省市区的经纬度数据会预先存储在进行解析的服务器中，通过调用该数据就可以根据经纬度完成省市区的位置解析。

S120、利用聚类算法对有效地理位置数据进行聚类，得到候选聚集簇。

本实施例中，采用DBSCAN聚类算法。DBSCAN(Density-Based SpatialClusteringof Applications with Noise)是一个基于密度的聚类算法。DBSCAN算法与划分和层次聚类方法不同，它将簇定义为密度相连的点的最大集合，能够把具有足够高密度的区域划分为簇，并可在噪声的空间数据库中发现任意形状的聚类。

有效地理位置数据按用户分组，使用DBSCAN算法根据活动半径和最少样本阈值进行聚类，获得多个位置数据的聚集簇，每个聚集簇包含单个用户不同时间的常在地址，将这些聚集簇作为候选聚集簇。

DBSCAN算法的算法模式algorithm包括“brute”、“kd_tree”、“ball_tree”三种最近邻搜索算法参数，度量metric包括“euclidean”、“manhattan”、“chebyshev”和“haversine”等最近邻距离度量参数，度量metric不限于上述四种度量参数。本实施例中，DBSCAN算法的算法模式algorithm采用“ball_tree”，该模式在一系列嵌套的超球体上分割数据，度量metric选择“haversine”。

优选地，根据预设的调优算法对算法参数进行调优，进而得到更精确的用户地址输出数据，例如权重系数sample_weight。当用户分组下同一个经纬度出现次数越多，这个经纬度的权重系数就会越高。本实施例不对具体调优算法进行限定，只要是权重系数自动调整的算法都可以用于算法调优，例如活动半径和最少样本阈值。

S130、根据日期标签对候选聚集簇进行排序，得到第一聚集簇和第二聚集簇。

对每个候选聚集簇中数据的时间标签进行统计，根据时间标签包含的日期范围倒序排列，选择日期范围最大的两个聚集簇作为第一聚集簇和第二聚集簇。请参照图3所示，具体包括以下步骤：

S1301、获取候选聚集簇中每条数据的时间标签。

每条数据的时间标签包括但不限于日期、时钟、分钟和秒钟等时间信息。本实施例中，时间标签包括日期信息和时钟信息，时钟信息采用24小时制。

S1302、对每个候选聚集簇的时间标签进行统计，得到候选聚集簇的日期标签。

针对每个候选聚集簇，统计聚集簇中数据的时间标签所包含的日期范围，将统计结果作为该聚集簇的日期标签。

S1303、按日期标签从大到小对候选聚集簇进行排序，将排序靠前的2个候选聚集簇作为第一聚集簇和第二聚集簇。

比如，用户在一年内的数据经过聚类，得到N个聚集簇。第i(1≤i≤N)个聚集簇包含M_i条数据，将M_i条数据的日期信息进行统计，得到第i个聚集簇的数据分布在一年中的x_i天里，将x_i天作为第i个聚集簇的日期标签。N个聚集簇对应获得N个日期标签，对N个日期标签从大到小排序。

根据聚集簇中的日期范围获得两个聚集簇，避免了聚集簇中的数据连续性较低或稀疏的情况，符合用户常去地址的行为特性，便于后续对家庭和工作地址的分析。

S140、根据第一时间阈值，提取第一聚集簇的第一小时中位数和第二聚集簇的第二小时中位数。

一个工作日内用户一般存在三个活动地址，分别为家庭--工作--家庭，通过第一阈值提取两聚集簇的小时中位数，进而根据用户活动时间偏移家庭或工作对地址进行分析判断。请参照图4所示，具体包括以下步骤：

S1401、获取第一时间阈值。

第一时间阈值对应用户的下班时点，通过实际应用的业务场景和对用户的有效地理位置数据调整获得。每位用户对应的第一时间阈值根据自身的位置数据，因此各个用户的第一时间阈值可以是相同的，也可以是不同的。

S1402、根据第一时间阈值，获得第一聚集簇和第二聚集簇中每条数据的时钟标签。

对第一聚集簇和第二聚集簇中的每条数据的时间标签与第一时间阈值进行比对判断。当有数据的时间标签大于第一时间阈值时，将该数据的时间标签减去第一时间阈值，将计算结果作为该数据的时钟标签，进而获得两个聚集簇中每条数据的时钟标签。

时钟标签使家庭地址对应的时间与工作地址对应的时间在数据上呈现线性单调，家庭时间与工作时间呈现二分性，便于后续对家庭和工作地址的判断。

S1403、第一聚集簇和第二聚集簇中的数据分别按照时钟标签进行排序，根据排序结果分别提取第一聚集簇和第二聚集簇的小时中位数。

将第一聚集簇包含的数据按照时钟标签进行升序或降序排列，根据排序结果提取第一聚集簇的小时中位数，作为第一小时中位数。同样地，提取第二聚集簇的第二小时中位数。

S150、根据第二时间阈值对第一小时中位数和第二小时中位数进行判断，确定家庭地址和工作地址。

通过第二时间阈值对最能体现用户常去地特性的小时中位数进行分析，可以准确获得用户的家庭和工作地址。请参照图5所示，具体包括以下步骤：

S1501、获取第二时间阈值。

第二时间阈值对应用户的上班时点，与步骤S1401中第一时间阈值的获取相同，通过实际应用的业务场景和对用户的有效地理位置数据调整获得。同样地，各个用户的第二时间阈值可以是相同的，也可以是不同的。

S1502、判断第一小时中位数是否小于第二时间阈值，得到第一判断结果，根据第一判断结果确定第一聚集簇对应的地址。

第一小时中位数是最能反应用户行为特性数据对应的时间。因此对第一小时中位数和第二时间阈值进行判断。当第一判断结果为是时，确定第一聚集簇的中心地址为家庭地址；当第一判断结果为否时，确定第一聚集簇的中心地址为工作地址。

S1503、当第一判断结果为是时，判断第二小时中位数是否小于第二时间阈值，得到第二判断结果，根据第二判断结果确定第二聚集簇对应的地址。

当第二判断结果为否时，确定第二聚集簇的中心地址为工作地址。当第二判断结果为是时，此时因业务场景中用户的实际地理位置数据只存在家庭地址，第二聚集簇的中心地址不作为工作地址。

S1504、当第一判断结果为否时，判断第二小时中位数是否小于第二时间阈值，得到第三判断结果，根据第三判断结果确定第二聚集簇对应的地址。

当第三判断结果为是时，确定第二聚集簇的中心地址为家庭地址。当第三判断结果为否时，此时因业务场景中用户的实际地理位置数据只存在工作地址，第二聚集簇的中心地址不作为家庭地址。

上述地址分析方法根据需求调整业务数据的时间维度，解决了因数据不连续性造成地址分析结果的不准确，并根据位置数据的日期范围获得两个聚集簇，符合用户常去地址的行为特性，通过对最能体现用户常去地特性的小时中位数进行分析，可以准确获得用户的家庭和工作地址，分析效果好，计算效率高，应用方便，适用于任意根据地理位置信息确定家庭和工作地址的业务场景。

实施例二

实施例二公开了一种对应上述实施例的一种地址分析装置，为上述实施例的虚拟装置结构，请参照图6所示，包括：

数据获取模块210，用于获取预设时间段内的业务数据，对所述业务数据进行预处理，得到有效地理位置数据；

聚类模块220，用于利用聚类算法对所述有效地理位置数据进行聚类，得到候选聚集簇；根据日期标签对所述候选聚集簇进行排序，得到第一聚集簇和第二聚集簇；

中位数提取模块230，用于根据第一时间阈值，提取所述第一聚集簇的第一小时中位数和所述第二聚集簇的第二小时中位数；

地址分析模块240，用于根据第二时间阈值对所述第一小时中位数和所述第二小时中位数进行判断，确定家庭地址和工作地址。

实施例三

图7为本发明实施例三提供的一种电子设备的结构示意图，如图7所示，该电子设备包括处理器310、存储器320、输入装置330和输出装置340；计算机设备中处理器310的数量可以是一个或多个，图7中以一个处理器310为例；电子设备中的处理器310、存储器320、输入装置330和输出装置340可以通过总线或其他方式连接，图7中以通过总线连接为例。

存储器320作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的地址分析方法对应的程序指令/模块(例如，地址分析装置中的数据获取模块210、聚类模块220、中位数提取模块230和地址分析模块240)。处理器310通过运行存储在存储器320中的软件程序、指令以及模块，从而执行电子设备的各种功能应用以及数据处理，即实现上述实施例一的地址分析方法。

存储器320可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器320可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器320可进一步包括相对于处理器310远程设置的存储器，这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置330可用于接收业务数据等。输出装置340可包括显示屏等显示设备。

实施例四

本发明实施例四还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行地址分析方法，该方法包括：

当然，本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的基于地址分析方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(RandomAccess Memory，RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台电子设备(可以是手机，个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述基于地址分析装置实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

对本领域的技术人员来说，可根据以上描述的技术方案以及构思，做出其它各种相应的改变以及形变，而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。

Claims

1.一种地址分析方法，其特征在于：包括以下步骤：

利用聚类算法对所述有效地理位置数据进行聚类，得到候选聚集簇，每个所述候选聚集簇中数据的时间标签包括日期信息和时钟信息，所述时钟信息为24小时制；

统计各所述候选聚集簇中数据的所述日期信息，按日期范围对所述候选聚集簇进行排序，选择日期范围最大的两个聚集簇作为第一聚集簇和第二聚集簇；

若所述时钟信息的时间大于下班时点，则将所述时钟信息的时间减去所述下班时点，将计算结果作为所述时钟信息；

提取所述第一聚集簇的第一小时中位数和所述第二聚集簇的第二小时中位数；

获取上班时点，判断所述第一小时中位数是否小于所述上班时点，得到第一判断结果；

当所述第一判断结果为是时，确定所述第一聚集簇的中心地址为家庭地址，并判断所述第二小时中位数是否小于所述上班时点，得到第二判断结果；

当所述第一判断结果为否时，确定所述第一聚集簇的中心地址为工作地址，并判断所述第二小时中位数是否小于所述上班时点，得到第三判断结果；

2.如权利要求1所述的一种地址分析方法，其特征在于：对所述业务数据进行预处理，得到有效地理位置数据，包括：

将所述业务数据按用户分组，得到单用户位置数据；

3.如权利要求1所述的一种地址分析方法，其特征在于：所述聚类算法为DBSCAN算法，所述聚类算法通过预设的调优算法进行参数调整。

4.如权利要求1所述的一种地址分析方法，其特征在于：所述业务数据来源为用户设备的LBS位置服务的定位数据。

5.如权利要求1所述的一种地址分析方法，其特征在于：按日期范围对所述候选聚集簇进行排序，选择日期范围最大的两个聚集簇作为第一聚集簇和第二聚集簇，包括：

获取所述候选聚集簇中每条数据的时间标签；

6.一种地址分析装置，其特征在于，其包括：

聚类模块，用于利用聚类算法对所述有效地理位置数据进行聚类，得到候选聚集簇，每个所述候选聚集簇中数据的时间标签包括日期信息和时钟信息，所述时钟信息为24小时制；统计各所述候选聚集簇中数据的所述日期信息，按日期范围对所述候选聚集簇进行排序，选择日期范围最大的两个聚集簇作为第一聚集簇和第二聚集簇；

中位数提取模块，用于若所述时钟信息的时间大于下班时点，则将所述时钟信息的时间减去所述下班时点，将计算结果作为所述时钟信息，提取所述第一聚集簇的第一小时中位数和所述第二聚集簇的第二小时中位数；

地址分析模块，用于获取上班时点，判断所述第一小时中位数是否小于所述上班时点，得到第一判断结果；当所述第一判断结果为是时，确定所述第一聚集簇的中心地址为家庭地址，并判断所述第二小时中位数是否小于所述上班时点，得到第二判断结果；当所述第二判断结果为否时，确定所述第二聚集簇的中心地址为工作地址；当所述第一判断结果为否时，确定所述第一聚集簇的中心地址为工作地址，并判断所述第二小时中位数是否小于所述上班时点，得到第三判断结果；当所述第三判断结果为是时，确定所述第二聚集簇的中心地址为家庭地址。

7.一种电子设备，其包括处理器、存储介质以及计算机程序，所述计算机程序存储于存储介质中，其特征在于，所述计算机程序被处理器执行时执行权利要求1至5任一项所述的地址分析方法。

8.一种计算机存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现权利要求1至5任一项所述的地址分析方法。