CN115599985A

CN115599985A - 目标客户识别方法和系统、电子设备及可读存储介质

Info

Publication number: CN115599985A
Application number: CN202110719740.0A
Authority: CN
Inventors: 曾瑞; 邵波; 闫文; 赵洪松; 张怀韬; 王典隆
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Group Heilongjiang Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Group Heilongjiang Co Ltd
Priority date: 2021-06-28
Filing date: 2021-06-28
Publication date: 2023-01-13

Abstract

本发明提供一种目标客户识别方法和系统、电子设备及可读存储介质，其中方法包括：对信令数据进行筛选，筛选出满足第一预设条件的游客；基于满足第一预设条件的游客的连接基站的时间与所经过的基站，确定时间排序的基站列表与连接基站时的时间列表，记录游客的访问轨迹；基于游客的访问轨迹，确定每两个游客之间经历基站的编辑距离；基于每两个游客之间进入与离开目标区域的的时间差、以及经历基站的编辑距离，识别出游客中的目标客户。本发明通过对景区游客数据进行聚类分析，再根据不同类别群体的相似性进行游客团散客分类，将相近用户划为团体进行分析，不但考虑了用户间的群体相似性，也显著减少了方法的运算量，提高了分析效率。

Description

目标客户识别方法和系统、电子设备及可读存储介质

技术领域

本发明涉及业务支撑技术领域，尤其涉及一种目标客户识别方法和系统、电子设备及可读存储介质。

背景技术

传统的旅游推荐与景区管理方面都存在诸多问题，例如数据无法共享，利用率低，无法精确的掌握舆情信息，导致景区服务质量存在一系列问题。而伴随着互联网技术的飞速发展，各行各业都在进行大数据的开发，从而进行数据变现。团散客分析为景区游客分析的主要内容之一，目的是对于景区中的游客，进行团散客的区分，从而获得游客团散客的喜好与景区团散客访问人数的对比，从而进行更精准的营销。

申请号为CN201811126280.5的专利公开了一种在差补前提下基于信令数据的人口细分方法。该技术划出指定城市地域周边基站作为边缘基站缓冲区，根据移动信令数据统计手机用户的移动行为，将当天移动行为出现在边界缓冲区内的用户统计为进/出城用户，其余未出现在边界缓冲区内的用户统计为未出城用户；对当日未出城用户进行驻留时长的双向差补，将当日未出城用户视为当日在当地驻留时长满24小时；以一个月为统计周期，统计用户在一个月内在城里的驻留时间，将一个月内至少有15天且每天在城里驻留时间超过10小时的用户，统计为常住人口，其他用户则统计为非常驻人口。该技术的特征在于通过动态监测手机用户的移动行为，借助手机大数据的分析，结合统计学原理，对城市人口进行统计和细分。

现有技术存在以下缺陷：将用户分为常驻人口和非常驻人口，使用单一标准，且人为设定标准指标导致分类结果的可信度较低。仅根据用户每月在城中驻留时间长短对用户是否为城市常驻人口进行划分，没有考虑用户间的群体关系。

发明内容

本发明提供一种目标客户识别方法和系统、电子设备及可读存储介质，用以解决现有技术中存在的技术缺陷。

本发明提供一种目标客户识别方法，包括：

对信令数据进行筛选，筛选出满足第一预设条件的游客；

基于所述满足第一预设条件的游客的连接基站的时间与所经过的基站，确定时间排序的基站列表与连接基站时的时间列表，记录游客的访问轨迹；

基于所述游客的访问轨迹，确定每两个游客之间经历基站的编辑距离；

基于每两个游客之间进入与离开目标区域的的时间差、以及经历基站的编辑距离，识别出游客中的目标客户。

根据本发明所述的目标客户识别方法，其中，所述对信令数据进行筛选，筛选出满足第一预设条件的游客，包括：

将所述信令数据中途径目标区域内的基站数量低于第一数量阈值、且在目标区域内的基站总连接时间低于第一时间阈值的过路行人对应的数据在信令数据中剔除；

将在所述目标区域内的预设周期内出现次数大于第二数量阈值、且在目标区域内的基站总连接时间不低于第二时间阈值的附近住户或景区工作人员对应的数据在信令数据中剔除并保存在数据库中；

将剔除过路行人、附近住户以及景区工作人员对应的数据后的信令数据作为满足第一预设条件的游客。

根据本发明所述的目标客户识别方法，其中，将剔除过路行人、附近住户以及景区工作人员对应的数据后的信令数据作为满足第一预设条件的游客之前，还包括：

将在所述目标区域内的与所述数据库中的历史数据相重合的部分剔除。

根据本发明所述的目标客户识别方法，其中，所述确定时间排序的基站列表与连接基站时的时间列表，记录游客的访问轨迹，包括：

将时间排序的基站列表与连接基站时的时间列表采用时间与字符串连接，利用数字字典序作为排序的特性，记录游客的访问轨迹。

根据本发明所述的目标客户识别方法，其中，所述基于所述游客的访问轨迹，确定每两个游客之间经历基站的编辑距离，包括：

基于所述游客的访问轨迹，采用以下公式确定每两个游客之间经历基站的编辑距离：

其中，x和y分别是表示两个序列，x序列是x游客的接入的基站形成的序列，y序列，就是y游客的接入的基站形成的序列，L_x,y(i,j) 表示x序列经历第i个基站、y序列经历第j个基站的编辑距离； L_x,y(i-1,j)表示x序列经历第i-1个基站、到y序列经历第j个基站的编辑距离；L_x,y(i,j-1)表示x序列经历第i个基站、到y序列经历第j-1个基站的编辑距离；L_x,y(i-1,j-1)表示x序列经历第i-1个基站、到y序列经历第j-1个基站的编辑距离；time_x,i表示x游客的基站序列中，第i个基站的接入时间；time_y,j表示y游客的基站序列中，第j个基站的接入时间，单位为ms；在判断x_i＝y_j时引入基站连接时间，若|time_a,i-time_b,j|<600000,即游客x,y在经历第i,j基站时相差时间不超过10min时，x_i＝y_j。

根据本发明所述的目标客户识别方法，其中，所述基于每两个游客之间进入与离开目标区域的的时间差、以及经历基站的编辑距离，识别出游客中的目标客户，包括：

基于每两个游客之间进入与离开目标区域的的时间差、以及经历基站的编辑距离，根据以下公式确定每两个游客之间的距离：

式中，distance是一个二维数组，distance(x,y)为游客x、y之间的距离，startt(x)为游客x的进入景区时间，startt(y)为游客y的进入景区时间，endt(x)为离开景区时间，endt(y)为y离开景区时间，单位为ms；

基于所述每两个游客之间的距离，识别出游客中的目标客户。

根据本发明所述的目标客户识别方法，其中，所述基于所述每两个游客之间的距离，识别出游客中的目标客户，包括：

基于所述每两个游客之间的距离，采用层次聚类算法，将游客中聚类间最小距离超过距离阈值的部分进行归类；

将归为同一类的游客作为目标客户。

本发明还提供了一种目标客户识别系统，包括：

筛选模块，用于对信令数据进行筛选，筛选出满足第一预设条件的游客；

访问轨迹确定模块，用于基于所述满足第一预设条件的游客的连接基站的时间与所经过的基站，确定时间排序的基站列表与连接基站时的时间列表，记录游客的访问轨迹；

编辑距离确定模块，用于基于所述游客的访问轨迹，确定每两个游客之间经历基站的编辑距离；

目标用户识别模块，用于基于每两个游客之间进入与离开目标区域的的时间差、以及经历基站的编辑距离，识别出游客中的目标客户。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述目标客户识别方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述目标客户识别方法的步骤。

本发明提供的目标客户识别方法和系统、电子设备及可读存储介质，通过对景区游客数据进行聚类分析，再根据不同类别群体的相似性进行游客团散客分类，提高了结果的说服力；在对用户数据进行分析的基础上，将相近用户划为团体进行分析，不但考虑了用户间的群体相似性，也显著减少了方法的运算量，提高了分析效率。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的目标客户识别方法的流程示意图；

图2是本发明提供的目标客户识别系统的结构示意图；

图3是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1描述本发明的一种目标客户识别方法，该方法包括：

S1、对信令数据进行筛选，筛选出满足第一预设条件的游客；

在景区信令数据表中，存在部分干扰数据：过路行人，例如开车或步行经过景区；景区所在地当地居民与景区工作人员。为了确保结果的准确性，需要对过路旅客及常驻居民进行筛选与去除，筛选出满足第一预设条件的游客。

S2、基于所述满足第一预设条件的游客的连接基站的时间与所经过的基站，确定时间排序的基站列表与连接基站时的时间列表，记录游客的访问轨迹；

团散客分析中需要用到游客在景区中游览时，根据时间排序的基站列表与连接基站时的时间列表，采用时间与字符串连接，利用数字字典序即为排序的特性。

S3、基于所述游客的访问轨迹，确定每两个游客之间经历基站的编辑距离；

编辑距离,是针对二个字符串(例如英文字)的差异程度的量化量测，量测方式是看至少需要多少次的处理才能将一个字符串变成另一个字符串。考虑到游客存在经过相同基站但经过时间不同情况，引入基站连接时间，若游客x,y在经历第i,j基站时相差时间不超过 10min，则采用改进后的公式进行计算。

S4、基于每两个游客之间进入与离开目标区域的的时间差、以及经历基站的编辑距离，识别出游客中的目标客户。

采用基于编辑距离的层次聚类算法，对游客进行团客的聚类。由于编辑距离仅涉及游览路径，故在计算用户间距离时引入开始与结束时间。

本发明主要包含：游客数据筛选：在景区信令数据表中，存在部分过路行人及景区所在地当地居民与景区工作人员。为了确保结果的准确性，需要对过路旅客及常驻居民进行筛选与去除。游客轨迹信息生成：团散客分析中需要用到游客在景区中游览时，根据时间排序的基站列表与连接基站时的时间列表，采用时间与字符串连接，利用数字字典序即为排序的特性。游客轨迹编辑距离计算：本提案考虑到游客存在经过相同基站但经过时间不同情况，引入基站连接时间，提出游客在经历基站时相差时间不超过10min情况下的编辑距离计算。基于编辑距离的层次聚类算法：本提案提出基于编辑距离的层次聚类算法，对游客进行团客的聚类，将两个游客间进入与离开的时间差，与游览路线的编辑距离均作为用户间距离的度量。

在景区信令数据表中，存在部分过路行人，例如开车或步行经过景区，为了确保结果的准确性，需要对过路旅客进行筛选与去除。根据本发明所述的目标客户识别方法，其中，所述对信令数据进行筛选，筛选出满足第一预设条件的游客，包括：

考虑到过路行人存在途径景区时间短，在景区内经过路径距离短的特性，反应在基站连接中即为，基站总连接时间短，途径基站数量少。对过路行人以用户ID与景区名为关键字，进行分组操作，并进行筛选：假定游客在景区内基站总连接时间超过第一时间阈值(可以设定为30分钟)，且景区内经过基站数大于等于第一数量阈值(3个)，这样，将所述信令数据中途径目标区域内的基站数量低于第一数量阈值、且在目标区域内的基站总连接时间低于第一时间阈值的过路行人对应的数据在信令数据中剔除，可以较大概率的对过路行人进行去除。经去除后的游客信息不再需要持续时间字段，故此时景区信令数据表将此字段去除。

常驻居民识别作为后续模块数据预处理的重要部分，主要识别景区所在地当地居民与景区工作人员，将识别出的结果保存在数据库中，以方便后续调用，从游客数据中删除对应数据，防止产生干扰。

对于常驻居民与工作人员的识别，采用统计预设周期(可以设置为一周内)在景区周围出现的频次的方法，对于一般游客，仅有极小概率在同一景区一周内多次停留。

统计游客访问景区次数，若用户在景区范围内一周出现第二数量阈值(可以设置为三天及三天以上)，在目标区域内的基站总连接时间不低于第二时间阈值(可以设置为30分钟以上)，且停留时间等均达到作为游客的标准，则认为其为附近住户或景区工作人员，且选取的时间避开节假日，以免出现节假日工作人员放假无法统计在内的问题。

团散客分析中需要用到游客在景区中游览时根据时间排序的基站列表与连接基站时的时间列表。考虑到对于由数字组成的字符串，对字符串排序时，其字典序即为数字的顺序，采用时间与字符串连接，利用数字字典序即为排序的特性。

1578672042046：4A11021-1578676135909：4A11021-1578676377284：14F287

游客对于基站的连接时间与基站标识符以“:”连接后，对其整体以字典序排序，字典序顺序即为连接时间顺序，同时其后附带基站标识符信息，不同基站间以“-”连接，生成的列表可以方便的进行后续计算。

编辑距离,也叫莱文斯坦距离(Levenshtein),是针对二个字符串(例如英文字)的差异程度的量化量测，量测方式是看至少需要多少次的处理才能将一个字符串变成另一个字符串。但是传统的编辑距离计算仅考虑到基站列表顺序，而未考虑到游客连接基站时间，可能出现游客游览路径相同但时间不同造成误判的情况。

故考虑到游客存在经过相同基站但经过时间不同情况，在判断 x_i＝y_j时引入基站连接时间，若|time_a,i-time_b,j|<600000,即游客 x,y在经历第i,j基站时相差时间不超过10min时，x_i＝y_j。

基于所述游客的访问轨迹，采用以下改进后的公式确定每两个游客之间经历基站的编辑距离，改进后的公式如下：

其中，x和y分别是表示两个序列，x序列是x游客的接入的基站形成的序列，y序列，就是y游客的接入的基站形成的序列，L_x,y(i,j) 表示x序列经历第i个基站、y序列经历第j个基站的编辑距离； L_x,y(i-1,j)表示x序列经历第i-1个基站、到y序列经历第j个基站的编辑距离；L_x,y(i,j-1)表示x序列经历第i个基站、到y序列经历第j-1个基站的编辑距离；L_x,y(i-1,j-1)表示x序列经历第i-1个基站、到y序列经历第j-1个基站的编辑距离；time_x,i表示x游客的基站序列中，第i个基站的接入时间；time_y,j表示y游客的基站序列中，第j个基站的接入时间，单位为ms。

算法如下：

输入：用户访问基站列表，访问基站时间

输出：用户间编辑距离

Step1:

m、n分别为用户X、Y访问基站列表长度+1；

初始化distance矩阵

遍历基站i和j；

distance(i,0)＝i；

distance(0,j)＝j；

Step2:

遍历基站i和j；

distance(i,j)＝min(distance(i,j-1)+1,distance(i- 1,j)+1,

distance(i-1,j-1)+1)

输出编辑距离distance(m-1,n-1)

采用动态规划的方法，将每次的计算结果记录在dis矩阵中，使得不需要重复计算已经计算过的编辑距离，时间复杂度为O(m*n)，考虑到单一景区一日游客量较小，故可以在较短时间内完成计算。

本系统采用基于编辑距离的层次聚类算法，对游客进行团客的聚类，由于编辑距离仅涉及游览路径，故在计算用户间距离时引入开始与结束时间。根据本发明所述的目标客户识别方法，其中，所述基于每两个游客之间进入与离开目标区域的的时间差、以及经历基站的编辑距离，识别出游客中的目标客户，包括：

式中，distance是一个二维数组，distance(x,y)为游客x、y之间的距离，startt(x)为游客x的进入景区时间，startt(y)为游客y的进入景区时间，endt(x)为离开景区时间，endt(y)为y离开景区时间，单位为ms；考虑到游客作为团客时，应具有在相近时间进入与离开景区，且游览路线大致相同的特征，故将两个游客间进入与离开的时间差，与游览路线的编辑距离均作为用户间距离的度量。

将归为同一类的游客作为目标客户。可以将相近的某个旅行团的团客作为一类目标客户，也可以将散客作为另一类目标客户。

对于将游客聚类的方法，选取层次聚类算法，层次聚类是聚类算法的一种，通过计算不同类别数据点间的相似度来创建一棵有层次的嵌套聚类树。在聚类树中，不同类别的原始数据点是树的最低层，树的顶层是一个聚类的根节点，本系统中利用自下而上的层次聚类算法。

对于层次聚类算法，首先将每一个样本均视为一个聚类，之后各聚类间的距离，接下来寻找最近的两个聚类并归为一类，重复以上两步直到聚类间最小距离超过设定的阈值，算法停止。

本系统利用并查集与最小堆对层次聚类算法计算进行加速，以期在较大数据量时也能较快得出正确结果，算法如下。

输入：游客-基站列表x

输出：游客团散客聚类

Step1:

将每一个游客作为一个单独的聚类，每个游客的父节点即为自己

初始化distance矩阵

Step2:

初始化最小堆q

遍历游客-基站列表中的基站i和j；

计算游客间的距离distance(i,j)

将三元组(i,j,distance(i,j))放入最小堆q

Step3:

While最小堆非空

p＝q堆顶元素

如果最小距离超过阈值则结束循环

如果p.x所在聚类不等于p.y所在聚类

合并p.x所在聚类与p.y所在聚类

变更后重新计算距离

q弹出堆顶元素

输出聚类结果

算法中采用阈值进行结束时间判定，对于景区内基站数较多的情况，选择判定阈值为5，而对于景区内基站数较少情况，则采用阈值为3，以确保当游客实际距离较远时能顺利停止。

对于算法输出的聚类，若聚类人数>＝4，则认为聚类为团客聚类，取出聚类中游客，并将其标记为对应景区的团客，存储到游客团散客表中，表结构如表1所示。

表1

参见图2，下面对本发明提供的目标客户识别系统进行描述，下文描述的目标客户识别系统与上文描述的目标客户识别方法可相互对应参照。该系统包括：

筛选模块10，用于对信令数据进行筛选，筛选出满足第一预设条件的游客；

访问轨迹确定模块20，用于基于所述满足第一预设条件的游客的连接基站的时间与所经过的基站，确定时间排序的基站列表与连接基站时的时间列表，记录游客的访问轨迹；

编辑距离确定模块30，用于基于所述游客的访问轨迹，确定每两个游客之间经历基站的编辑距离；

目标用户识别模块40，用于基于每两个游客之间进入与离开目标区域的的时间差、以及经历基站的编辑距离，识别出游客中的目标客户。

图3示例了一种电子设备的实体结构示意图，该电子设备可以包括：处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340，其中，处理器 310，通信接口320，存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令，以执行目标客户识别方法，该方法包括：

此外，上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的目标客户识别方法，该方法包括：

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的目标客户识别方法，该方法包括：

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种目标客户识别方法，其特征在于，包括：

对信令数据进行筛选，筛选出满足第一预设条件的游客；

2.根据权利要求1所述的目标客户识别方法，其特征在于，所述对信令数据进行筛选，筛选出满足第一预设条件的游客，包括：

3.根据权利要求2所述的目标客户识别方法，其特征在于，将剔除过路行人、附近住户以及景区工作人员对应的数据后的信令数据作为满足第一预设条件的游客之前，还包括：

4.根据权利要求1所述的目标客户识别方法，其特征在于，所述确定时间排序的基站列表与连接基站时的时间列表，记录游客的访问轨迹，包括：

5.根据权利要求1所述的目标客户识别方法，其特征在于，所述基于所述游客的访问轨迹，确定每两个游客之间经历基站的编辑距离，包括：

其中，x和y分别是表示两个序列，x序列是x游客的接入的基站形成的序列，y序列，就是y游客的接入的基站形成的序列，L_x，y(i,j)表示x序列经历第i个基站、y序列经历第j个基站的编辑距离；L_x,y(i-1,j)表示x序列经历第i-1个基站、到y序列经历第j个基站的编辑距离；L_x,y(i,j-1)表示x序列经历第i个基站、到y序列经历第j-1个基站的编辑距离；L_x,y(i-1,j-1)表示x序列经历第i-1个基站、到y序列经历第j-1个基站的编辑距离；time_x,i表示x游客的基站序列中，第i个基站的接入时间；time_y,j表示y游客的基站序列中，第j个基站的接入时间，单位为ms；在判断x_i＝y_j时引入基站连接时间，若|time_a,i-time_b,j|<600000,即游客x,y在经历第i,j基站时相差时间不超过10min时，x_i＝y_j。

6.根据权利要求5所述的目标客户识别方法，其特征在于，所述基于每两个游客之间进入与离开目标区域的的时间差、以及经历基站的编辑距离，识别出游客中的目标客户，包括：

7.根据权利要求6所述的目标客户识别方法，其特征在于，所述基于所述每两个游客之间的距离，识别出游客中的目标客户，包括：

将归为同一类的游客作为目标客户。

8.一种目标客户识别系统，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述的目标客户识别方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至7任一项所述的目标客户识别方法的步骤。