CN112801181B

CN112801181B - 城市信令交通流用户分类、预测方法、存储介质及系统

Info

Publication number: CN112801181B
Application number: CN202110110618.3A
Authority: CN
Inventors: 丁飞; 姚亮宇; 暴建民; 张海涛; 张登银
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-01-27
Filing date: 2021-01-27
Publication date: 2022-08-05
Anticipated expiration: 2041-01-27
Also published as: CN112801181A

Abstract

本发明公开了一种城市信令交通流用户分类、预测方法、存储介质及系统，包括：获取城市蜂窝网络信令数据进行预处理，提高数据精度；通过时空约束定义信令轨迹的平均速度和加速度特征，结合模糊统计和聚类特征，建立信令用户的时空轨迹的多维表达方法；从时间、空间的角度进行特征融合，利用预先训练好的分类模型获取出行方式识别结果；不同出行类别用户注入标签并分别存入文件，并转换为时间间隔相同的交通流数据集；分别针对交通流数据进行预测训练，预测值整合后作为最终预测结果。优点：考虑了城市信令交通流中不同出行用户的时空多维特征，能够满足对大规模路网进行交通流分类和预测的需要。

Description

城市信令交通流用户分类、预测方法、存储介质及系统

技术领域

本发明涉及一种城市交通流用户分类、预测方法、存储介质及系统，属于智能交通技术领域。

背景技术

目前对用户轨迹分析、用户分类与交通流预测研究采用的数据源大多是GPS数据，这类数据具有定位精度高和采样频率稳定的特点，但其覆盖范围与采集方式有限，并且获取成本高昂，导致获得的数据量偏少，从而影响分析预测模型的训练过程以及泛化能力。在进行用户轨迹分析与用户分类的过程中，现有的方案通常只考虑一般的用户出行特征，例如出行距离、出行时间、平均速度与加速度特征，没有考虑由一般特征衍生出的其它特征；在交通流预测方面，现有的方案通常只将不同时刻的交通流量作为输入，主要关注的是对预测模型的改进，忽略了出行方式不同的用户对交通流产生的影响，最终导致系统在复杂情况下的预测结果稳定性和精度都不高，难以适应对大规模路网的交通流预测。

发明内容

本发明所要解决的技术问题是克服现有技术的缺陷，提供一种城市交通流用户分类、预测方法、存储介质及系统。

为解决上述技术问题，本发明提供一种城市信令交通流用户分类方法，包括：

获取城市蜂窝网络的用户信令数据；

对每个用户的信令数据进行预处理，剔除无效数据，得到连续信令轨迹数据；

通过时空约束从所述连续信令轨迹数据中确定信令轨迹的平均速度和加速度特征，对平均速度和加速度特征进行模糊统计和聚类得到多维时空轨迹特征；

将所述多维时空轨迹特征输入到预先训练好的分类模型，获取出行方式识别结果；

将出行方式识别结果标签添加至对应的信令轨迹数据中；

将识别结果标签相同的用户存储到一个文件中。

进一步的，所述预处理的过程包括：

步骤11，对信令数据中含有空缺字段的数据进行筛选并剔除；

步骤12，对步骤11处理后的同一用户的信令数据按照时间顺序进行排序，判断同一用户相邻数据的起始时间Start_time与起始基站Start_no是否相同，如果相同则剔除掉其中一条数据；

步骤13，对步骤12处理后的每个用户的信令数据的信令轨迹P，从第一条记录即i＝1开始，选取相邻的两条信令数据P_i和P_i+1，将第i条数据的结束时间End_time、结束基站End_no与第i+1条数据的Start_time、Start_no进行比较，如果(End_time)_i＝(Start_time)_i+1且(End_no)_i＝(Start_no)_i+1，说明这两条数据为该用户在连续时间的信令轨迹，接下来令i＝i+1,继续比较P_i+1与P_i+2；如果(End_time)_i≠(Start_time)_i+1且(End_no)_i≠(Start_no)_i+1，说明这两条数据为该用户在不同时间的信令轨迹，接下来令i＝i+1,继续比较P_i+1与P_i+2，每一组相邻数据都需要经过以上两次比较，将满足其中任意一种条件的数据进行保留，最终获得用户的连续信令轨迹数据。

进一步的，所述通过时空约束从所述连续信令轨迹数据中确定信令轨迹的平均速度和加速度特征，对平均速度和加速度特征进行模糊统计和聚类得到多维时空轨迹特征的过程包括：

步骤21，根据连续信令轨迹数据，计算每条信令轨迹数据中开始基站与结束基站之间的距离、用户在每条信令轨迹中的驻留时间；

步骤22，根据每条信令轨迹数据中开始基站与结束基站之间的距离、用户在每条信令轨迹中的驻留时间计算用户的平均速度以及驻留点加速度；

步骤23，基于预先获取的先验知识总结结果与模糊理论建立不同出行方式平均速度与加速度对应的高斯隶属度函数，通过高斯隶属度函数获取信令用户的模糊统计特征，同时利用K-Means算法对平均速度与加速度特征进行聚类，得到信令用户的聚类特征，并将获得的模糊统计特征与聚类特征加入到信令轨迹数据中，将平均速度、加速度、模糊统计特征和聚类特征作为多维时空轨迹特征。

进一步的，所述将所述多维时空轨迹特征输入到预先训练好的分类模型，获取出行方式识别结果的过程包括：

步骤31，获取历史信令数据，提取历史信令数据的多维时空轨迹特征，在历史信令数据的每条信令轨迹数据中添加对应的多维时空轨迹特征；

步骤32，将步骤31处理后的历史信令数据的信令轨迹数据划分为训练集和测试集，利用训练集和测试集对预先获取的XGBoost模型进行训练与测试，获取最优的XGBoost模型；

步骤33，将要进行识别的信令数据中的多维时空轨迹特征，并输入至步骤32得到的最优的XGBoost模型，获取出行方式识别结果。

一种城市信令交通流预测方法，包括：

利用所述的分类方法对城市蜂窝网络的用户信令数据进行分类；

将每个文件中的数据转换为时间间隔相同的交通流数据集；将交通流数据集输入到预先训练好的预测模型，得到交通流预测值；将不同出行方式识别结果的用户在相同时刻获得的交通流预测值之和作为最终的交通流预测结果。

进一步的，所述将每个文件中的数据转换为时间间隔相同的交通流数据集；将交通流数据集输入到预先训练好的预测模型，得到交通流预测值；将不同出行方式识别结果的用户在相同时刻获得的交通流预测值之和作为最终的交通流预测结果的过程包括：

步骤41，根据相同的时间间隔对每类用户对应文件中的数据进行交通流统计，获得n类用户对应的n个交通流数据集；

步骤42，将n个交通流数据集划分为相同比例的训练集和测试集，分别对n个LSTM模型进行训练与测试，最后获得n类用户对应的n个最优LSTM预测模型{Y₁,Y₂,...,Y_n}；

步骤43，将n个最优LSTM预测模型{Y₁,Y₂,...,Y_n}在相同时刻的预测结果相加，获得最终交通流预测结果，如下式，其中y₁,y₂,...,y_n分别代表n类用户在某一时刻的交通流预测结果，y为该时刻最终的交通流预测结果；

y＝y₁+y₂+...+y_n

步骤44，通过下式对最终的交通流预测结果进行表达，其中

分别代表不同时刻的最终交通流预测结果Y，

。

一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行所述的城市交通流用户分类方法中的任一方法或者所述的城市交通流预测方法中的任一方法。

一种城市交通流用户分类系统，包括计算设备，所述计算设备包括，一个或多个处理器、存储器以及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行所述的城市交通流用户分类方法中的任一方法或者所述的城市交通流预测方法中的任一方法的指令。

本发明所达到的有益效果：

本发明将手机信令数据作为系统的数据源，可以有效降低成本，提高实时性，扩大覆盖范围，便于进行用户分类与城市交通流预测；

对信令用户的时空轨迹进行表达，在无法获得信令用户准确位置的情况下，利用一般特征衍生出其它特征，进而为研究用户轨迹提供帮助；

以信令用户的多维时空轨迹特征作为输入来进行出行方式的识别，并根据识别结果对用户进行分类，可以有效降低单一方法对分类结果产生的影响，提升了模型的性能；

考虑了出行方式不同的用户对城市交通流的影响，充分利用了数据特征，能够满足对大规模路网进行交通流预测的需要。

附图说明

图1是本发明的工作流程示意图；

图2是本发明的功能模块示意图；

图3是四种出行方式平均速度对应的高斯隶属度函数示意图；

图4是四种出行方式加速度对应的高斯隶属度函数示意图；

图5是使用K-Means算法对信令数据聚类的结果示意图。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

如图1所示，一种交通流预测方法，包括：首先对信令数据进行存储与数据格式转换；然后通过数据预处理获得用户的连续信令轨迹数据，利用信令轨迹数据中的原有特征对用户的出行特征进行计算与提取，将平均速度、加速度、模糊统计特征和聚类特征作为多维特征，对信令用户的时空轨迹进行表达；随后利用XGBoost模型搭建组合学习平台，以信令用户的多维时空轨迹特征作为输入来进行出行方式的识别，根据识别结果对用户进行分类，把出行方式识别结果相同的用户分别存储到一个文件中；最后将每个文件中的数据转换为时间间隔相同的交通流数据集，通过LSTM模型分别获取不同类型用户所对应的交通流预测结果，并将不同类型用户在相同时刻获得的交通流预测值之和作为最终的交通流预测结果。

蜂窝信令原始数据集，首先通过预处理，剔除无效数据并提高数据精度，预处理后的数据经由重构0步骤实现更新并轨迹重构。时空多维特征通过分类器训练后，获得信令用户出行分类结果，各交通流分类数据分别由重构1步骤和重构n步骤实现信令轨迹重构及新数据集建立。所述的新数据集是各类出行方式下的信令用户数据集，即标签为1的用户对应的交通流数据集重构为新数据集1，…，标签为n的用户对应的交通流数据集重构为新数据集n。各类出行方式下的信令用户数据集分别通过LSTM模型进行预测训练，累加整合后获得交通流预测结果。

如图2所示，相应的本发明还提供一种交通流预测系统，包括五个模块，，第一个模块为数据源模块，该模块在存储信令数据的同时对数据格式进行转换；第二个模块为数据预处理模块，该模块对信令数据中的不完整数据、重复位置数据、乒乓数据以及漂移数据进行处理，获得用户的连续信令轨迹数据；第三个模块为时空轨迹表达模块，该模块使用信令轨迹数据中的原有特征，对信令用户的驻留点距离和驻留时间进行计算并获取平均速度与加速度特征，使用先验知识对不同出行方式的平均速度范围和加速度阈值进行总结，并利用模糊理论建立不同出行方式平均速度和加速度对应的高斯隶属度函数，通过高斯隶属度函数获取信令用户的模糊统计特征,同时使用k均值(K-Means)算法获取信令用户的聚类特征，最后将平均速度、加速度、模糊统计特征和聚类特征作为多维特征，对信令用户的时空轨迹进行表达；第四个模块为用户分类模块，该模块利用XGBoost模型搭建组合学习平台，以信令用户的多维时空轨迹特征作为输入进行出行方式的识别，并将出行方式识别结果转换为标签添加至信令轨迹数据中，然后根据该标签对用户进行分类，把标签相同的用户分别存储到一个文件中；第五个模块为交通流预测模块，该模块把每类用户对应文件中的数据转换为时间间隔相同的交通流数据集，再将每个交通流数据集划分为相同比例的训练集与测试集分别对LSTM模型进行训练与测试，获取到每类用户对应的最优LSTM预测模型，最后将不同类型用户在相同时刻获得的交通流预测值之和作为最终的交通流预测结果。

数据源模块，该模块将一天内不同时间获取的手机信令数据存储到一个文件中，并对数据格式进行转换。本发明以南京市一家电信运营商提供的某天的手机信令数据为例进行说明，首先将不同时间获取到的信令数据保存到一个csv文件中，然后对数据格式进行转换，转换后的信令数据格式如表1所示，其中包括用户ID(User_id)，起始时间(Start_time)，起始基站编号(Start_no)，起始基站纬度(Start_lon)，起始基站经度(Start_lat)，结束时间(End_time)，结束基站编号(End_no)，结束基站纬度(End_lon)和结束基站经度(End_lat)。

表1转换后的信令数据格式

User_id	Start_time	Start_no	Start_lon	Start_lat	End_time	End_no	End_lon	End_lat
									eeaa6c..bcf7256	20180806...29	230..024	118.75..	32.05..	20180806...59	160..640	118.75..	32.05..
6bd502..43babf9	20180806...42	160...642	118.74..	32.06..	20180806...33	848..214	118.74..	32.06..
									24e16f..e7853aa	20180806...50	160...643	118.75..	32.06..	20180806...20	230..349	118.75..	32.06..

系统的第二个模块为数据预处理模块。该模块对信令数据中的不完整数据、重复位置数据、乒乓数据以及漂移数据进行处理，从而获得用户的连续信令轨迹数据，其数据预处理过程主要包括以下步骤：

步骤21：对含有空缺字段的数据进行筛选并剔除。

步骤22：对同一用户的信令数据按照时间顺序进行排序，判断同一用户相邻数据的Start_time与Start_no是否相同，如果相同则剔除掉其中一条数据。

步骤23：对每个用户的信令轨迹P，从第一条记录即i＝1开始，选取相邻的两条信令数据P_i和P_i+1，将第i条数据的End_time、End_no与第i+1条数据的Start_time、Start_no进行比较，如果(End_time)_i＝(Start_time)_i+1且(End_no)_i＝(Start_no)_i+1，说明这两条数据为该用户在连续时间的信令轨迹，接下来令i＝i+1,继续比较P_i+1与P_i+2；如果(End_time)_i≠(Start_time)_i+1且(End_no)_i≠(Start_no)_i+1，说明这两条数据为该用户在不同时间的信令轨迹，接下来令i＝i+1,继续比较P_i+1与P_i+2。每一组相邻数据都需要经过以上两次比较，将满足其中一种条件的数据进行保留，最终获得用户的连续信令轨迹数据。

第三个模块为时空轨迹表达模块，该模块利用连续信令轨迹数据对信令用户的出行特征进行计算与提取，由于信令数据无法获得用户的准确位置，因此本发明主要介绍对信令用户的驻留点距离、驻留时间、平均速度与加速度进行计算的过程，具体的计算包括以下步骤：

步骤31)，计算每条信令轨迹数据中开始基站与结束基站之间的距离，两座基站之间的距离使用Haversine公式计算，如公式1到公式3所示，其中R为6471km，表示地球半径，d表示两基站之间的距离，

表示第i条数据结束基站位置的纬度，

表示第i条数据开始基站的纬度，

表示第i条数据结束基站位置的经度，

表示第i条数据开始基站位置的经度。

步骤32，计算信令用户在每条信令轨迹中的驻留时间，该时间用公式4计算，其中i代表第i条数据，

代表第i条数据中的结束时间，

代表第i条数据中的起始时间。

步骤33，在获得步骤31与步骤32的计算结果后，通过公式5估算每条信令轨迹中用户的驻留点距离，通过公式6估算信令用户的平均速度，其中i代表第i条数据，d_i代表由Haversine公式计算出的第i条数据中的两座基站之间的距离，Θ代表道路非直线系数，D_i代表第i条数据中信令用户的驻留点距离，T_i代表第i条数据中信令用户的驻留时间。

D＝2×d_i×Θ (5)

步骤34，在获得步骤33的计算结果后，通过公式7估算用户在每条信令轨迹中驻留点的加速度，其中

代表第i条数据中信令用户的平均速度，

代表第i条数据中信令用户在驻留点的加速度。

步骤35，将步,33与步骤34获得的平均速度特征与加速度特征添加到信令轨迹数据中。

步骤36，在获得平均速度与加速度特征后，利用先验知识对不同出行方式的平均速度范围与加速度阈值进行总结，这里的先验知识通常指的是先前交通规划研究和从业人员通过对交通出行方式的不同特征进行总结而设置的规则集。然后基于先验知识总结结果与模糊理论建立不同出行方式平均速度与加速度对应的高斯隶属度函数，通过高斯隶属度函数获取信令用户的模糊统计特征，同时利用K-Means算法对平均速度与加速度特征进行聚类，以获取信令用户的聚类特征，并将获得的模糊统计特征与聚类特征加入到信令轨迹数据中，将平均速度、加速度、模糊统计特征和聚类特征作为多维特征，对信令用户的时空轨迹进行表达。本发明以步行、公交车、小汽车和地铁四种出行方式为例对时空轨迹表达过程进行说明，具体包括以下步骤：

步骤361，利用先验知识对步行、公交车、小汽车和地铁四种出行方式的平均速度范围与加速度阈值进行总结，总结结果如表3所示。

表3四种出行方式的平均速度范围与最大加速度阈值

步骤362，基于步骤361的总结结果与模糊理论建立四种出行方式平均速度与加速度对应的高斯隶属度函数，其函数表达式如公式8所示，其中μ为高斯函数的形状参数，μ越大表示数据分布越分散，反之则表示数据分布越集中；z为高斯函数的位置参数，表示以x＝z为对称轴，左右完全对称；x为每条数据中的平均速度或加速度绝对值，四种出行方式平均速度与加速度对应的高斯隶属度函数如图3与图4所示。

步骤363，将每条信令轨迹数据中的平均速度与加速度绝对值代入对应的高斯隶属度函数，分别获得平均速度与加速度对应的隶属度值。通过公式9计算每条信令轨迹数据平均速度与加速度所对应的联合隶属度值，其中U_j代表联合隶属度值，s_j代表速度对应的隶属度值，a_j代表加速度对应的隶属度值，1,2,3,4分别代表步行、公交车、小汽车和地铁的标签。由于本例中的出行方式为4种，则此时每条信令轨迹数据会得到4个不同的联合隶属度值。

U_j＝s_j×a_j(j＝1,2,3,4) (9)

步骤364，通过公式10获得最大联合隶属度值所对应的出行方式标签{1,2,3,4}，其中U_i代表判定出的第i条数据所对应的出行方式标签，此时获得的出行方式标签称为模糊统计特征。

U_i＝MAX(U_j)(j＝1,2,3,4) (10)

步骤365，将每条信令轨迹数据中的平均速度和加速度特征作为K-Means算法的输入，并将K-Means算法中的k设置为4，表示此时聚类的类别为4种，其聚类结果如图5所示，最终获得的聚类特征为{0,1,2,3}。

步骤6：将步骤4与步骤5获得的模糊统计特征与聚类特征添加到信令轨迹数据中，此时每条信令轨迹数据中的平均速度、加速度、模糊统计特征和聚类特征就作为多维特征，用于对信令用户的时空轨迹进行表达。

相应的本发明还提供一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行所述的城市交通流用户分类方法中的任一方法或者所述的城市交通流预测方法中的任一方法。

相应的本发明还提供一种城市信令交通流用户分类系统，包括计算设备，所述计算设备包括，一个或多个处理器、存储器以及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行所述的城市交通流用户分类方法中的任一方法或者所述的城市交通流预测方法中的任一方法的指令。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种城市信令交通流用户分类方法，其特征在于，包括：

获取城市蜂窝网络的用户信令数据；

通过时空约束从所述连续信令轨迹数据中确定信令轨迹的平均速度和加速度特征，对平均速度和加速度特征进行模糊统计和聚类得到多维时空轨迹特征，包括：

步骤23，基于预先获取的先验知识总结结果与模糊理论建立不同出行方式平均速度与加速度对应的高斯隶属度函数，通过高斯隶属度函数获取信令用户的模糊统计特征，同时利用K-Means算法对平均速度与加速度特征进行聚类，得到信令用户的聚类特征，并将获得的模糊统计特征与聚类特征加入到信令轨迹数据中，将平均速度、加速度、模糊统计特征和聚类特征作为多维时空轨迹特征；

将出行方式识别结果标签添加至对应的信令轨迹数据中；

将识别结果标签相同的用户存储到一个文件中。

2.根据权利要求1所述的城市信令交通流用户分类方法，其特征在于，所述预处理的过程包括：

3.根据权利要求1所述的城市信令交通流用户分类方法，其特征在于，所述将所述多维时空轨迹特征输入到预先训练好的分类模型，获取出行方式识别结果的过程包括：

4.一种城市信令交通流预测方法，其特征在于，包括：

利用权利要求1-3任意一项所述的分类方法对城市蜂窝网络的用户信令数据进行分类；

5.根据权利要求4所述的城市信令交通流预测方法，其特征在于，所述将每个文件中的数据转换为时间间隔相同的交通流数据集；将交通流数据集输入到预先训练好的预测模型，得到交通流预测值；将不同出行方式识别结果的用户在相同时刻获得的交通流预测值之和作为最终的交通流预测结果的过程包括：

y＝y₁+y₂+...+y_n

步骤44，通过下式对最终的交通流预测结果进行表达，其中

分别代表不同时刻的最终交通流预测结果Y，

。

6.一种存储一个或多个程序的计算机可读存储介质，其特征在于，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行根据权利要求1至3所述的城市信令交通流用户分类方法中的任一方法或者根据权利要求4至5所述的城市信令交通流预测方法中的任一方法。

7.一种城市信令交通流用户分类系统，包括计算设备，其特征在于，所述计算设备包括，一个或多个处理器、存储器以及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行根据权利要求1至3所述的城市信令交通流用户分类方法中的任一方法或者根据权利要求4至5所述的城市信令交通流预测方法中的任一方法的指令。