CN112699955A

CN112699955A - 一种用户分类方法、装置、设备及存储介质

Info

Publication number: CN112699955A
Application number: CN202110025609.4A
Authority: CN
Inventors: 刘文凯; 李鸿飞; 贾沛
Original assignee: Guangdong Huazhiyuan Information Engineering Co ltd; Guangzhou Huajia Software Co ltd; Guangzhou Jiadu Urban Rail Intelligent Operation And Maintenance Service Co ltd; Guangzhou Xinke Jiadu Technology Co Ltd
Current assignee: Guangdong Huazhiyuan Information Engineering Co ltd; Guangzhou Huajia Software Co ltd; Guangzhou Jiadu Urban Rail Intelligent Operation And Maintenance Service Co ltd; Guangzhou Xinke Jiadu Technology Co Ltd
Priority date: 2021-01-08
Filing date: 2021-01-08
Publication date: 2021-04-23

Abstract

本发明公开了一种用户分类方法、装置、设备及存储介质，该方法包括：获取多个乘客进出交通站点时记录的出行数据；从出行数据中提取在多个出行维度下表征乘客出行规律的特征，作为乘客的出行特征；沿出行特征的密度增长的方向对出行特征进行聚类，以确定多个簇；确定在同一个簇中出行特征所属的乘客为同一个用户群体。本发明直接从出行数据中挖掘出行规律、提取不同出行维度下的出行特征，更为客观可靠，沿出行特征的密度增长的方向对出行特征进行聚类是一种梯度搜索方式，便于寻找出行数据的多个模态，以将在不同模态下归属于同一类别的出行特征聚合到同一个簇中，对数据的动态变化过程不敏感，适应性强，区分度高，聚类精度高。

Description

一种用户分类方法、装置、设备及存储介质

技术领域

本发明实施例涉及用户分类技术，尤其涉及一种用户分类方法、装置、设备及存储介质。

背景技术

随着城市轨道交通建设的发展，通常会大量收集用户在城市中的出行数据，对出行数据进行深度挖掘和分析，为用户提供更好的出行服务，例如提供实时路况、实时公交、城市交通出行预测等。

在对出行大数据挖掘的过程中，通常会采用K-Means聚类方法将用户按照出行特征划分成不同的用户群体，使得可以进一步为不同的用户群体提供个性化的出行服务，例如推荐出行交通线路、推荐出行时间、提示交通站点的拥挤程度、推荐交通站点的周边设施，等等。

然而，K-Means聚类方法需要预先设置K值，即人为限定分类的数量，K值的设置会影响聚类的精度，因此在使用K-Means聚类方法对用户进行分类时会存在准确性较差的情况；同时，K-Means聚类方法仅在同一个特征维度下对所有数据进行聚类处理，当需要处理的数据集具备多个特征维度时，K-Means无法实现有效区分。

发明内容

本发明提供一种用户分类方法、装置、设备及存储介质，以解决K-Means聚类方法在用户分类应用中存在准确性较差、无法区分多个特征维度的问题。

第一方面，本发明实施例提供了一种用户分类方法，所述方法包括：

获取多个乘客进出交通站点时记录的出行数据；

从所述出行数据中提取在多个出行维度下表征所述乘客出行规律的特征，作为所述乘客的出行特征；

沿所述出行特征的密度增长的方向对所述出行特征进行聚类，以确定多个簇；

确定在同一个所述簇中所述出行特征所属的所述乘客为同一个用户群体。第二方面，本发明实施例还提供了一种用户分类装置，所述装置包括：

数据获取模块，用于获取多个乘客进出交通站点时记录的出行数据；

特征提取模块，用于从所述出行数据中提取在多个出行维度下表征所述乘客出行规律的特征，作为所述乘客的出行特征；

聚类模块，用于沿所述出行特征的密度增长的方向对所述出行特征进行聚类，以确定多个簇；

用户分类模块，用于确定在同一个所述簇中所述出行特征所属的所述乘客为同一个用户群体。

第三方面，本发明实施例还提供了一种计算机设备，所述计算机设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的用户分类方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所述的用户分类方法。

本发明通过获取多个乘客进出交通站点时记录的出行数据；从出行数据中提取在多个出行维度下表征乘客出行规律的特征，作为乘客的出行特征；沿出行特征的密度增长的方向对出行特征进行聚类，以确定多个簇；确定在同一个簇中出行特征所属的乘客为同一个用户群体。本发明直接从出行数据中挖掘出行规律、提取不同出行维度下的出行特征，更为客观可靠，同时，沿出行特征的密度增长的方向对出行特征进行聚类是一种梯度搜索方式，无需预先设置聚类的数量，能够自动寻找出行数据的多个模态，基于不同模态对出行数据进行特征分析，以将在不同模态下归属于同一类别的出行特征聚合到同一个簇中，能够实时跟踪不同维度下的出行特征，对数据的动态变化过程不敏感，适应性强，鲁棒性高，区分度高，聚类精度高，相比较K-Means聚类方法可以实现对出行数据在不同维度下的特征挖掘，针对用户群体分类的准确性较高。

附图说明

图1为本发明实施例一提供的一种用户分类方法的流程图；

图2为本发明实施例二提供的一种用户分类方法的流程图；

图3为本发明实施例二提供的一种数据处理架构示意图；

图4为本发明实施例二提供的一种质心移动的示意图；

图5为本发明实施例二提供的一种出行特征空间分析示意图；

图6为本发明实施例三提供的一种用户分类装置的结构示意图；

图7为本发明实施例四提供的一种计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

应注意到：在本发明实施例的描述中，术语“第一”、“第二”、“第三”等次序词仅用于区分描述，而不能理解为指示或暗示相对重要性。

在工业化和城市化加速发展的今天，数以百万计的人口涌入大城市，给城市管理和城市交通带来巨大的压力。轨道交通作为城市交通的骨干，能有效缓解交通拥堵，提高城市交通的效率。在国外，轨道交通经历了数百年的发展，已经被证实在城市发展中起到了举足轻重的作用，在公共交通中承担了主要份额。能否利用现有的数据，准确分析、掌握城市居民轨道出行规律，直接关系到城市轨道交通的发展战略、规划及政策制定的合理性和准确性。随着我国城市轨道交通建设的发展，城市化进程的快速推进，如何通过合理的轨道交通设计满足居民日益增长的出行需求已成为一个迫在眉睫的问题。通过直接观测人流量与站点吞吐量的传统轨道出行行为分析模型与方法已较难满足更加准确、精细化的需求。同时，居民轨道出行规律可以很好的反应城市社会空间的变化，为城市的合理规划，提供宝贵的参照。

随着大数据技术在我国智能交通系统的广泛应用，交通数据采集技术的迅速发展，很多城市都积累了海量多元的公共交通数据，这些数据不仅记录了每位乘客选择公共交通方式出行时的方式和时间顺序，还记录了公共交通车辆在运行时的时空轨迹，为研究不同人群的出行习惯和客流时空特征提供了可靠的数据来源。为了能够最大限度地发挥城市公共交通的优势，必须深入了解城市公共交通乘客的出行特征，分析乘客的出行习惯，并掌握乘客出行的时空特征。

实施例一

图1为本发明实施例一提供的一种用户分类方法的流程图，本实施例可适用于对进出交通站点的乘客依据出行数据进行分类的情况，该方法可以由用户分类装置来执行，该用户分类装置可以由软件和/或硬件实现，可配置在计算机设备中，例如，服务器、工作站、个人电脑，等等，该方法具体包括如下步骤：

S101、获取多个乘客进出交通站点时记录的出行数据。

在本实施例中，可以从不同的数据源中获取多个乘客进出交通站点时记录的出行数据，出行数据是指表征乘客出行规律的数据，可以包括出行距离、出行次数、出行时间、途经的交通站点、出行交易数据，等等，不同的数据源可以是交通卡的刷卡数据、售票机售卖乘车次卡的刷卡数据、公共交通应用的交易数据等，本实施例对此不作任何限定。

在本实施例的具体实现方式中，S101可以包括如下步骤：

S1011、获取多个乘客进出交通站点时记录的刷卡数据、售票机交易数据、应用过闸数据、二维码过闸数据中的至少一种作为乘客的原始出行数据。

S1012、基于乘客的身份标识对原始出行数据进行融合，得到多个乘客进出交通站点时记录的出行数据。

其中，身份标识包括身份证号、护照号、姓名、手机号、人脸数据、指静脉数据、掌静脉数据中的至少一种。

具体的，可以参考如下方式将来自不同数据源的原始出行数据进行整合关联：对原始出行数据进行格式归一化；从格式归一化后的原始出行数据中剔除交通站点的员工卡数据和脏数据，得到候选出行数据；查询与候选出行数据关联的身份标识，身份标识包括身份证号、护照号、姓名、手机号、人脸数据、指静脉数据、掌静脉数据等中的至少一种；将归属于同一乘客的所有身份标识所对应的候选出行数据进行合并，得到多个乘客进出交通站点时记录的出行数据。需要说明的是，本实施例对原始出行数据进行融合的具体实现方式不作限定。

S102、从出行数据中提取在多个出行维度下表征乘客出行规律的特征，作为乘客的出行特征。

由于可以从时间上和空间上对乘客的出行数据进行量化，以挖掘乘客的出行规律，例如，在时间方面，可以考虑出行次数、出行总时长、两次出行间隔的时长等因素来探究用户在时间维度上的出行规律，在空间方面，则可以考虑最长出行距离、最短出行距离、固定时间内的总出行距离等因素来探究用户在空间维度上的出行规律。

因此，具体的，可以从时间维度的各个因素和空间维度的各个因素出发，将表征乘客出行行为的这些因素作为不同的出行维度，从出行数据中提取在多个出行维度下表征乘客出行规律的特征，作为乘客的出行特征。即本实施中的出行维度包括暗含乘客出行行为的不同因素，这些因素包括时间因素和空间因素，时间因素包括出行次数、出行总时长、两次出行间隔的时长等，空间因素包括最长出行距离、最短出行距离、固定时间内的总出行距离等。

在本实施例中，可以按照时间因素和空间因素对乘客的出行数据进行统计分析，以提取乘客的出行特征，例如可以赋予时间因素和空间因素不同的权重，将归属于不同因素的出行数据进行线性融合，对融合后的数据进行均匀抽样，得到乘客的出行特征，本实施例对此不作限定。

在一种实现方式中，出行维度包括出行次数、出行时间、出行距离，S102可以包括如下步骤：

S1021、从所有出行数据中筛选出与出行次数、出行时间、出行距离三个出行维度对应的出行数据，作为目标出行数据。

S1022、在预设的时间周期内，将归属于同一乘客的目标出行数据依据出行次数、出行时间、出行距离进行数值统计，得到表征乘客出行规律的特征，作为乘客的出行特征。

作为一个示例，可以从目标出行数据中查询归属于同一乘客的出行次数，以对出行次数计算均值和筛选极值，作为表征乘客出行规律的第一特征；从目标出行数据中查询归属于同一乘客的出行时间，以对出行时间计算均值和筛选极值，作为表征乘客出行规律的第二特征；从目标出行数据中查询归属于同一乘客的出行距离，以对出行距离计算均值和筛选极值，作为表征乘客出行规律的第三特征；将第一特征、第二特征、第三特征作为乘客的出行特征。

S103、沿出行特征的密度增长的方向对出行特征进行聚类，以确定多个簇。

聚类是为了发现出行数据中潜在的关联关系，了解出行数据的分布规律，以对乘客进行分组归类，为乘客提供更好的个性化服务。

在本实施例中，可以将乘客的出行特征作为样本，对样本之间的相似程度进行评估可以将样本划分成多个簇，每个簇为一个类别。通常，挖掘样本之间的空间结构可以发现样本之间的联系，这种联系可以用以评估样本之间的相似程度，样本之间的空间结构可以用样本分布的紧密程度进行表示，即可以从样本密度的角度来考察样本之间的可连接性，并基于可连接样本不断扩展聚类簇以获得最终的聚类结果。因此，本实施例可以沿出行特征的密度增长的方向对出行特征进行聚类，以确定多个簇，这样做有利于直观地挖掘出行数据的分布规律，找到任意形状的簇，保留出行特征在不同出行维度下的特性，使得聚类出来的簇的区分度更高，更加准确。

具体的，从样本密度的角度对样本进行聚类主要包含两个部分：一是确定核心对象，二是簇聚类。其中，确定核心对象的具体方式可以包括：在空间中对待聚类的样本进行划分，例如随机选择单个样本构建该样本的邻域空间，基于样本之间的距离将空间中的样本划分为邻域空间的内点和外点，对内点计算特征向量，以确定邻域内的核心对象。簇聚类的具体方式可以包括：依次遍历样本空间中的核心对象，将核心对象密度可达的所有点，聚成一簇，将没有找到归属的样本标记为异常样本。

在本实施例中，沿出行特征的密度增长的方向对出行特征进行聚类的具体实现方式有很多种，本实施例对此不加以限定，例如，可以采用动态滑窗计算均值的方法寻找出行特征的密度增长的方向，其目标是找出每一个滑窗的中心点，并通过计算滑窗内点的均值更新滑窗的中心点，将中心点的移动方向确定为出行特征的密度增长的方向，待滑窗满足收敛条件时，确定滑窗中访问过的所有内点归属为一个簇，按照上述过程迭代多个滑窗对出行特征进行访问，从而找到每个出行特征对应的簇。还可以采用DBSCAN算法、OPTICS算法、DENCLUE算法对出行特征进行聚类，等等。

在本实施例中，沿出行特征的密度增长的方向对出行特征进行聚类，以确定多个簇，还包括：将乘客的出行特征依据不同的出行维度进行分类，得到与每一个出行维度对应的列向量；计算每个列向量中的最大值与最小值之间的差值，作为第一差值；计算每个列向量中每个出行特征与最大值之间的差值，作为第二差值；对第二差值与第一差值的比值取绝对值，得到在多个出行维度下归一化后的出行特征。

S104、确定在同一个簇中出行特征所属的乘客为同一个用户群体。

在本实施例中，在对出行特征进行聚类、确定多个簇之后，按照不同的簇将出行特征所归属的乘客进行分类，确定在同一个簇中出行特征所属的乘客为同一个用户群体。

将乘客进行分类后，可以为不同的用户群体提供个性化出行服务，包括：统计用户群体的年龄段，按照年龄段对用户群体打标签，若用户群体为上班族，则向该用户群体推荐高峰期时刻表和交通出行路线，以帮助乘客节省通勤时间；若用户群体为老年人，则向该用户群体提供交通人流热力表、列车出行班次及列车停靠时间，交通人流热力表用于表示交通的拥挤程度，以保障乘客的出行安全。

本发明实施例通过获取多个乘客进出交通站点时记录的出行数据；从出行数据中提取在多个出行维度下表征乘客出行规律的特征，作为乘客的出行特征；沿出行特征的密度增长的方向对出行特征进行聚类，以确定多个簇；确定在同一个簇中出行特征所属的乘客为同一个用户群体。本实施例直接从出行数据中挖掘出行规律、提取不同出行维度下的出行特征，更为客观可靠，同时，沿出行特征的密度增长的方向对出行特征进行聚类是一种梯度搜索方式，无需预先设置聚类的数量，能够自动寻找出行数据的多个模态，基于不同模态对出行数据进行特征分析，以将在不同模态下归属于同一类别的出行特征聚合到同一个簇中，能够实时跟踪不同维度下的出行特征，对数据的动态变化过程不敏感，适应性强，鲁棒性高，区分度高，聚类精度高，相比较K-Means聚类方法可以实现对出行数据在不同维度下的特征挖掘，针对用户群体分类的准确性较高。

实施例二

图2为本发明实施例二提供的一种用户分类方法的流程图，本实施例以前述实施例为基础，对用户分类方法进行了内容的细化和补充，该方法具体包括如下步骤：

S201、获取多个乘客进出交通站点时记录的出行数据。

S202、从出行数据中提取在多个出行维度下表征乘客出行规律的特征，作为乘客的出行特征。

作为本实施例的一个示例，从不同的数据源获取到某城市地铁的大量出行数据，通过对不同数据源进行整合关联，识别有效身份信息构建统一的乘客账户，采用分布式采集和存储计算的方式对获取的大量出行数据进行处理。

本示例对出行数据进行处理的总体架构如图3所示，包括以下内容；

1、数据源层

数据源层主要用于收集来自不同数据源的出行数据，数据源包括羊城通刷卡数据、售票机数据、地铁APP过闸数据、乘二维码过闸数据等。

2、数据集成层

数据集成层主要包括数据集成功能模块，提供分布式数据采集、协议适配对接、实时消息接入等功能，主要用于完成各个数据源之间的接口协议的适配、原始数据的采集与适配、采集任务调度等功能。

3、数据存储层

存储层用来存储历史出行记录数据和相关表，MySQL主要存储统一的账户信息数据，Hive的表均使用建立外表的方式，历史数据使用HDFS存储，按天作为分区字段。其中，Hive为分布式数据仓库数据库，HDFS为Hadoop分布式文件系统。

4、数据计算层

数据计算层包含数据清洗和数据处理，步骤如下：

(1)统一站点编号、统一账户ID；

(2)去除员工卡数据及垃圾数据(脏数据)；

(3)对不同数据源的数据采用有效身份信息进行识别，有效身份信息为注册时的身份证号、姓名、手机号、人脸ID、指静脉ID、掌静脉ID等，通过统一的账户ID进行关联合并。

其中，统一的账户表字段如表1所示：

表1统一账户字段

5、数据服务层

数据服务层用于提取乘客的出行特征，并对乘客进行分类，对其它系统提供服务接口。

可以从所有出行数据中筛选出与出行次数、出行时间、出行距离三个维度对应的出行数据，作为目标出行数据；在预设的固定时间周期内，对归属于同一乘客的目标出行数据进行均值统计和极值筛选，得到表征同一乘客出行规律的特征，作为乘客的出行特征。

在本示例中，以一个月的时间作为固定时间周期，在目标出行数据中，查询同一身份信息的乘客进出地铁站的月出行时间、月出行次数、月出行距离；基于月出行时间，计算一个月内平均每天出行时间，作为平均时间；从月出行时间中确定一个月内单次最长出行时间，作为最大时间；从月出行时间中确定一个月内单次最短出行时间，作为最小时间；统计一个月内出行总次数；基于月出行次数，计算一个月内平均每天出行次数，作为平均次数；从月出行次数中确定一个月内每天最大出行次数，作为单天最大次数；从月出行次数中确定一个月内每天最小出行次数，作为单天最小次数；基于月出行距离，计算一个月内平均每次出行距离，作为平均出行距离；从月出行距离中确定一个月内单次最大出行距离，作为最大出行距离；从月出行距离中确定一个月内单次最小出行距离，作为最小出行距离；对于同一身份信息的乘客，将平均时间、最大时间、最小时间、总次数、平均次数、单天最大次数、单天最小次数、平均出行距离、最大出行距离、最小出行距离作为该乘客的出行特征。

可以按照表2统计多个乘客在一个月内的出行数据，确定每个乘客在不同出行维度下的出行特征。

表2出行特征表

在表2中，n表示乘客在一个月内出行的出行总次数，d表示一个月的天数，t_i表示乘客单次出行的出行时间，m_i表示乘客每天的出行次数，dist_i表示乘客单次出行的出行距离。

在本示例中，每个乘客的出行特征可以表示为如下行向量：

x_i＝[t_mean，t_max，t_min，n，n_mean，n_max，n_min，dist_mean，dist_max，dist_min]

其中，行向量x_i中包括十种类别的特征数据，每个特征数据对应一个具体的出行维度。t_mean表示平均时间，t_max表示最大时间，t_min表示最小时间，n表示总次数，n_mean表示平均次数，n_max表示单天最大次数，n_min表示单天最小次数，dist_mean表示平均出行距离，dist_max表示最大出行距离，dist_min表示最小出行距离。

为了使十种类别的特征数据对出行特征的影响均衡化，本示例将不同出行维度下的特征统一量化，对所有出行特征中的每一类特征数据进行归一化处理，具体包括：将所有出行特征表示为一个包含多个行向量x_i的矩阵M，对矩阵M划分列向量Y＝[y₁，y₂，…，y_n]，每个列向量Y对应一个具体的出行维度，将出行特征按照列向量Y中的数值进行最大最小归一化处理，计算公式为：

其中，y_max为Y＝[y₁，y₂，…，y_n]中最大值，y_min为Y＝[y₁，y₂，…，y_n]中最小值。将y′_i替代列向量Y中的所有原始特征数据y_i，更新矩阵M，即可获得归一化后的出行特征。

S203、在乘客的未占用的出行特征中设置簇的质心。

在本实施例中，可以将乘客的未占用的出行特征映射在同一空间维度下，随机选择一个出行特征作为当前的初始种子点，确定初始种子点的搜索半径，以对空间中的出行特征划分属于初始种子点的邻域；在邻域范围内，基于出行特征与初始种子点之间的距离计算邻域内的质心。

S204、沿出行特征的密度增长的方向移动质心、以将与质心相邻的出行特征添加至簇中，直至簇收敛。

将基于初始种子点的邻域范围内计算得到的质心作为当前的候选质心

根据以下公式将当前的候选质心更新为下一时刻的质心：

t表示当前时刻，t+1表示下一时刻。

假定N(x_i)为与质心x_i距离在给定带宽内的相邻点集合，即N(x_i)为邻域范围内的出行特征的集合，m(x_i)为每次迭代计算中质心的平均偏移量，表示指向出行特征的密度增长的方向。利用下式可以将当前的候选质心

更新为下一时刻的质心

该公式也可以表示为邻域内出行特征的均值：

其中，

d为x的维度。

如图4所示，出行特征均用圆圈表示，邻域范围用虚线框出，在首次迭代计算中，判断当前时刻的质心402与初始种子点401之间的距离是否小于预设的阈值，若是，则表示本次迭代收敛，将与质心402相邻的出行特征添加到簇中，若否，则进入下一次迭代计算，具体的，以上一时刻的质心402作为当前的候选质心，重新确定候选质心的邻域范围，基于邻域范围内的出行特征与候选质心的距离计算邻域范围内的新的质心，即采用公式m(x_i)对候选质心进行更新，计算候选质心往密度最大区域移动的平均偏移量，将候选质心按照该平均偏移量进行移动，得到新的质心403，作为本次迭代的质心，计算新的质心403与候选质心(即质心402)之间的距离，判断该距离是否小于预设的阈值，若是，则表示本次迭代收敛，将与质心403相邻的出行特征添加到簇中，若否，则继续进入下一次迭代计算，具体过程如上述步骤。

在一种实现方式中，S204可以包括如下具体步骤：

S2041、将距离质心在设定的带宽内的出行特征添加至簇中。

在具体实现中，可以使用Sklearn的estimate_bandwidth函数的估计值来自动设置带宽，其中，Sklearn：Scikit-learn(sklearn)是机器学习中常用的第三方算法库，对常用的机器学习方法进行了封装，包括回归(Regression)、降维(DimensionalityReduction)、分类(Classfication)、聚类(Clustering)等方法。

S2042、计算从质心开始到簇中每个出行特征的向量，作为单体出行向量。

S2043、将单体出行向量相加，得到整体出行向量。

S2044、将质心沿整体出行向量移动，获得新的质心。

S2045、判断当前是否满足预设的收敛条件，若是，则执行S2046，若否，则返回执行S2041。

S2046、确定簇收敛。

S205、判断出行特征是否全部添加至簇中。

若是，则执行S206，若否，则执行S207。

S206、基于预设的聚类条件，输出多个有效的簇。

在本实施例的一个示例中，预设的聚类条件可以是：对于给定的出行特征，查询每个出行特征被簇访问的第一频次，确定每个出行特征归属到第一频次最高的簇。

在本实施例的另一个示例中，预设的聚类条件还可以是：对于给定的簇，统计簇在多次聚类时出现的第二频次，确定第二频次最高的簇有效。

在本实施例的又一个示例中，预设的聚类条件还可以是：对于给定的出行特征，查询每个出行特征被簇访问的第一频次，确定每个出行特征归属到第一频次最高的簇，同时，对于给定的簇，统计簇在多次聚类时出现的第二频次，确定第二频次最高的簇有效。

S207、对簇中的出行特征标记为占用，返回执行S203。

S208、确定在同一个簇中出行特征所属的乘客为同一个用户群体。

本实施例中所采用的聚类方法无需预先设置聚类的数量，也不依赖于参数带宽，可以自动调整带宽收敛邻域范围，当质心的偏移距离变化较小时，确定质心已经到达出行特征中密度最大的区域，确定本次聚类收敛，将与质心在移动过程中所有相邻的出行特征均添加至簇中，如图5所示，展示了对出行特征进行不同随机初始化后的聚类效果。

本实施例直接从出行数据中挖掘出行规律、提取不同出行维度下的出行特征，更为客观可靠，同时，沿出行特征的密度增长的方向对出行特征进行聚类是一种梯度搜索方式，无需预先设置聚类的数量，能够自动寻找出行数据的多个模态，基于不同模态对出行数据进行特征分析，以将在不同模态下归属于同一类别的出行特征聚合到同一个簇中，能够实时跟踪不同维度下的出行特征，对数据的动态变化过程不敏感，适应性强，鲁棒性高，区分度高，聚类精度高，相比较K-Means聚类方法可以实现对出行数据在不同维度下的特征挖掘，针对用户群体分类的准确性较高。

实施例三

图6为本发明实施例三提供的一种用户分类装置的结构示意图，该装置具体可以包括如下模块：

数据获取模块601，用于获取多个乘客进出交通站点时记录的出行数据；

特征提取模块602，用于从所述出行数据中提取在多个出行维度下表征所述乘客出行规律的特征，作为所述乘客的出行特征；

聚类模块603，用于沿所述出行特征的密度增长的方向对所述出行特征进行聚类，以确定多个簇；

用户分类模块604，用于确定在同一个所述簇中所述出行特征所属的所述乘客为同一个用户群体。

在本发明的一个实施例中，所述数据获取模块601包括：

数据获取子模块，用于获取多个乘客进出交通站点时记录的刷卡数据、售票机交易数据、应用过闸数据、二维码过闸数据中的至少一种作为所述乘客的原始出行数据；

数据融合子模块，用于基于所述乘客的身份标识对原始出行数据进行融合，得到多个乘客进出交通站点时记录的出行数据。

在本发明的一个实施例中，所述数据融合子模块包括：

格式归一化单元，用于对所述原始出行数据进行格式归一化；

候选出行数据确定单元，用于从格式归一化后的所述原始出行数据中剔除交通站点的员工卡数据和脏数据，得到候选出行数据；

身份标识确定单元，用于查询与所述候选出行数据关联的身份标识，所述身份标识包括身份证号、护照号、姓名、手机号、人脸数据、指静脉数据、掌静脉数据等中的至少一种；

出行数据确定单元，用于将归属于同一所述乘客的所有所述身份标识所对应的候选出行数据进行合并，得到多个乘客进出交通站点时记录的出行数据。

在本发明的一个实施例中，出行维度包括出行次数、出行时间、出行距离；所述特征提取模块602包括：

数据筛选子模块，用于从所有所述出行数据中筛选出与所述出行次数、所述出行时间、所述出行距离三个出行维度对应的出行数据，作为目标出行数据；

数值统计子模块，用于在预设的时间周期内，将归属于同一所述乘客的所述目标出行数据依据所述出行次数、所述出行时间、所述出行距离进行数值统计，得到表征所述乘客出行规律的特征，作为所述乘客的出行特征。

在本发明的一个实施例中，所述数值统计子模块包括：

第一特征确认单元，用于从所述目标出行数据中查询归属于同一所述乘客的所述出行次数，以对所述出行次数计算均值和筛选极值，作为表征所述乘客出行规律的第一特征；

第二特征确认单元，用于从所述目标出行数据中查询归属于同一所述乘客的所述出行时间，以对所述出行时间计算均值和筛选极值，作为表征所述乘客出行规律的第二特征；

第三特征确认单元，用于从所述目标出行数据中查询归属于同一所述乘客的所述出行距离，以对所述出行距离计算均值和筛选极值，作为表征所述乘客出行规律的第三特征；

出行特征确定单元，用于将所述第一特征、所述第二特征、所述第三特征作为所述乘客的出行特征。

在本发明的一个实施例中，所述聚类模块603包括：

质心设置子模块，用于在所述乘客的未占用的所述出行特征中设置簇的质心；

簇生成子模块，用于沿所述出行特征的密度增长的方向移动所述质心、以将与所述质心相邻的所述出行特征添加至所述簇中，直至所述簇收敛；

判断子模块，用于判断所述出行特征是否全部添加至所述簇中，若是，则调用簇输出子模块，若否，则调用返回执行子模块；

簇输出子模块，用于基于预设的聚类条件，输出多个有效的所述簇；

返回执行子模块，用于对所述簇中的所述出行特征标记为占用，返回执行所述在所述乘客的未占用的所述出行特征中设置簇的质心。

在本发明的一个实施例中，所述簇生成子模块包括：

特征添加单元，用于将距离所述质心在设定的带宽内的所述出行特征添加至所述簇中；

单体出行向量计算单元，用于计算从所述质心开始到所述簇中每个所述出行特征的向量，作为单体出行向量；

整体出行向量计算单元，用于将所述单体出行向量相加，得到整体出行向量；

质心移动单元，用于将所述质心沿所述整体出行向量移动，获得新的质心；

收敛判断单元，用于判断当前是否满足预设的收敛条件，若是，则调用簇收敛确认单元，若否，则调用特征添加单元。

簇收敛确认单元，用于确定所述簇收敛。

在本发明的一个实施例中，所述簇输出子模块包括：

第一频次确认单元，用于对于给定的所述出行特征，查询每个所述出行特征被所述簇访问的第一频次，确定每个所述出行特征归属到所述第一频次最高的所述簇；

和/或，

第二频次确认单元，用于对于给定的所述簇，统计所述簇在多次聚类时出现的第二频次，确定所述第二频次最高的所述簇有效。

在本发明的一个实施例中，所述聚类模块603还包括：

列向量生成单元，用于将所述乘客的所述出行特征依据不同的所述出行维度进行分类，得到与每一个所述出行维度对应的列向量；

第一差值计算单元，用于计算每个所述列向量中的最大值与最小值之间的差值，作为第一差值；

第二差值计算单元，用于计算每个所述列向量中每个所述出行特征与所述最大值之间的差值，作为第二差值；

归一化计算单元，用于对所述第二差值与所述第一差值的比值取绝对值，得到在多个所述出行维度下归一化后的所述出行特征。

本发明实施例所提供的用户分类装置可执行本发明任意实施例所提供的用户分类方法，具备执行方法相应的功能模块和有益效果。

实施例四

图7为本发明实施例四提供的一种计算机设备的结构示意图，如图7所示，该计算机设备包括处理器700、存储器701、通信模块702、输入装置703和输出装置704；计算机设备中处理器700的数量可以是一个或多个，图7中以一个处理器700为例；计算机设备中的处理器700、存储器701、通信模块702、输入装置703和输出装置704可以通过总线或其他方式连接，图7中以通过总线连接为例。

存储器701作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的用户分类方法对应的模块(例如，如图6所示的用户分类装置中的数据获取模块601、特征提取模块602、聚类模块603和用户分类模块604)。处理器700通过运行存储在存储器701中的软件程序、指令以及模块，从而执行计算机设备的各种功能应用以及数据处理，即实现上述的用户分类方法。

存储器701可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器701可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器701可进一步包括相对于处理器700远程设置的存储器，这些远程存储器可以通过网络连接至计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

通信模块702，用于与显示屏建立连接，并实现与显示屏的数据交互。

输入装置703可用于接收输入的数字或字符信息，以及产生与计算机设备的用户设置以及功能控制有关的键信号输入。

输出装置704可包括显示屏等显示设备。

需要说明的是，输入装置703和输出装置704的具体组成可以根据实际情况设定。

本实施例提供的计算机设备，可执行本发明任一实施例提供的用户分类方法，具备相应的功能和有益效果。

实施例五

本发明实施例五还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述任一实施例的用户分类方法。

该用户分类方法包括：

获取多个乘客进出交通站点时记录的出行数据；

确定在同一个所述簇中所述出行特征所属的所述乘客为同一个用户群体。

当然,本发明实施例所提供的计算机可读存储介质,其计算机程序不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的用户分类方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述用户分类装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种用户分类方法，其特征在于，包括：

获取多个乘客进出交通站点时记录的出行数据；

2.根据权利要求1所述的方法，其特征在于，所述获取多个乘客进出交通站点时记录的出行数据，包括：

获取多个乘客进出交通站点时记录的刷卡数据、售票机交易数据、应用过闸数据、二维码过闸数据中的至少一种作为所述乘客的原始出行数据；

基于所述乘客的身份标识对原始出行数据进行融合，得到多个乘客进出交通站点时记录的出行数据。

3.根据权利要求2所述的方法，其特征在于，所述基于所述乘客的身份标识对原始出行数据进行融合，得到多个乘客进出交通站点时记录的出行数据，包括：

对所述原始出行数据进行格式归一化；

从格式归一化后的所述原始出行数据中剔除交通站点的员工卡数据和脏数据，得到候选出行数据；

查询与所述候选出行数据关联的身份标识，所述身份标识包括身份证号、护照号、姓名、手机号、人脸数据、指静脉数据、掌静脉数据中的至少一种；

将归属于同一所述乘客的所有所述身份标识所对应的候选出行数据进行合并，得到多个乘客进出交通站点时记录的出行数据。

4.根据权利要求1所述的方法，其特征在于，出行维度包括出行次数、出行时间、出行距离；

所述从所述出行数据中提取在多个出行维度下表征所述乘客出行规律的特征，作为所述乘客的出行特征，包括：

从所有所述出行数据中筛选出与所述出行次数、所述出行时间、所述出行距离三个出行维度对应的出行数据，作为目标出行数据；

在预设的时间周期内，将归属于同一所述乘客的所述目标出行数据依据所述出行次数、所述出行时间、所述出行距离进行数值统计，得到表征所述乘客出行规律的特征，作为所述乘客的出行特征。

5.根据权利要求4所述的方法，其特征在于，所述将归属于同一所述乘客的所述目标出行数据依据所述出行次数、所述出行时间、所述出行距离进行数值统计，得到表征所述乘客出行规律的特征，作为所述乘客的出行特征，包括：

从所述目标出行数据中查询归属于同一所述乘客的所述出行次数，以对所述出行次数计算均值和筛选极值，作为表征所述乘客出行规律的第一特征；

从所述目标出行数据中查询归属于同一所述乘客的所述出行时间，以对所述出行时间计算均值和筛选极值，作为表征所述乘客出行规律的第二特征；

从所述目标出行数据中查询归属于同一所述乘客的所述出行距离，以对所述出行距离计算均值和筛选极值，作为表征所述乘客出行规律的第三特征；

将所述第一特征、所述第二特征、所述第三特征作为所述乘客的出行特征。

6.根据权利要求1-5任一所述的方法，其特征在于，所述沿所述出行特征的密度增长的方向对所述出行特征进行聚类，以确定多个簇，包括：

在所述乘客的未占用的所述出行特征中设置簇的质心；

沿所述出行特征的密度增长的方向移动所述质心、以将与所述质心相邻的所述出行特征添加至所述簇中，直至所述簇收敛；

判断所述出行特征是否全部添加至所述簇中；

若是，则基于预设的聚类条件，输出多个有效的所述簇；

若否，则对所述簇中的所述出行特征标记为占用，返回执行所述在所述乘客的未占用的所述出行特征中设置簇的质心。

7.根据权利要求6所述的方法，其特征在于，所述沿所述出行特征的密度增长的方向移动所述质心、以将与所述质心相邻的所述出行特征添加至所述簇中，直至所述簇收敛，包括：

将距离所述质心在设定的带宽内的所述出行特征添加至所述簇中；

计算从所述质心开始到所述簇中每个所述出行特征的向量，作为单体出行向量；

将所述单体出行向量相加，得到整体出行向量；

将所述质心沿所述整体出行向量移动，获得新的质心；

判断当前是否满足预设的收敛条件，若是，则确定所述簇收敛，若否，则返回执行所述将距离所述质心在设定的带宽内的所述出行特征添加至所述簇中。

8.根据权利要求6所述的方法，其特征在于，所述基于预设的聚类条件，确定输出多个有效的所述簇，包括：

对于给定的所述出行特征，查询每个所述出行特征被所述簇访问的第一频次，确定每个所述出行特征归属到所述第一频次最高的所述簇；

和/或，

对于给定的所述簇，统计所述簇在多次聚类时出现的第二频次，确定所述第二频次最高的所述簇有效。

9.根据权利要求6所述的方法，其特征在于，所述沿所述出行特征的密度增长的方向对所述出行特征进行聚类，以确定多个簇，还包括：

将所述乘客的所述出行特征依据不同的所述出行维度进行分类，得到与每一个所述出行维度对应的列向量；

计算每个所述列向量中的最大值与最小值之间的差值，作为第一差值；

计算每个所述列向量中每个所述出行特征与所述最大值之间的差值，作为第二差值；

对所述第二差值与所述第一差值的比值取绝对值，得到在多个所述出行维度下归一化后的所述出行特征。

10.一种用户分类装置，其特征在于，包括：

11.一种计算机设备，其特征在于，所述计算机设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-9中任一所述的用户分类方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1-9中任一所述的用户分类方法。