CN112633349B

CN112633349B - 基于贝叶斯模型的共享单车目的地预测方法

Info

Publication number: CN112633349B
Application number: CN202011502624.5A
Authority: CN
Inventors: 程琳; 宁翊森; 杜明洋
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2020-12-18
Filing date: 2020-12-18
Publication date: 2024-04-26
Anticipated expiration: 2040-12-18
Also published as: CN112633349A

Abstract

本发明公开了一种基于贝叶斯模型的共享单车目的地预测方法，通过采集目标用户的实时输入信息和历史出行信息，对实时输入信息和历史出行信息分别依次进行读写和转化，根据转化后的实时输入信息和历史出行信息分别构建目标用户的潜在目的地集合和出行特征集合，根据潜在目的地集合和出行特征集合训练贝叶斯模型，得到预测模型，采用预测模型预测用户到达潜在目的地集合中每个目的地的到达概率，按照到达概率从大到小的顺序对各个目的地进行排序，输出前m个的目的地，能够准确灵活地预测目标用户本次出行的目的地，有效缩短了用户的出行时间。

Description

基于贝叶斯模型的共享单车目的地预测方法

技术领域

本发明涉及物联网技术领域，尤其涉及一种基于贝叶斯模型的共享单车目的地预测方法。

背景技术

受益于共享经济和移动支付的快速发展，共享单车在世界范围内迅速兴起。相比于公共自行车，其取消了对固定租赁站点的限制，使其可在服务范围内的任意地点借还车，增加了其在短距离出行中的优势，并成为了城市交通“第一公里”和“最后一公里”的有效接驳工具。然而，在共享单车带来便利的同时，一系列的运营问题也由此出现，如单车调运不及时、故障频发、故障单车堆积、停放秩序混乱等。这些问题不仅造成了共享单车的供需不平衡、降低了用户的出行体验和满意度，也阻碍了其它交通方式的正常运行。

预测用户出行的终点有以下作用：(1)在共享单车的应用界面为用户提供较为准确的备选终点选项，适应用户起点位置和出行时间的变化，改善用户的出行体验。(2)为单车运营商提供必要的调度信息，使其可以提前调配和管理共享单车以满足用户的出行需求。

现有技术多根据GPS定位获取用户的起点信息，在应用界面仅能将最近几次出行的历史终点位置提供给用户。在出行起终点位置变化较大的情况下，用户需要手动输入相关信息。这种方式一方面会占用用户的出行时间，另一方面又不能灵活地预测用户本次出行的目的地。

发明内容

针对以上问题，本发明提出一种收集数据简便、预测效率高、能够有效提高用户出行体验的基于贝叶斯模型的共享单车目的地预测方法。

为实现本发明的目的，提供一种基于贝叶斯模型的共享单车目的地预测方法，包括如下步骤：

S10，采集目标用户的实时输入信息和历史出行信息；

S20，对实时输入信息和历史出行信息分别依次进行读写和转化；

S30，根据转化后的实时输入信息和历史出行信息分别构建目标用户的潜在目的地集合和出行特征集合；

S50，根据潜在目的地集合和出行特征集合训练贝叶斯模型，得到预测模型，采用预测模型预测用户到达潜在目的地集合中每个目的地的到达概率；

S60，按照到达概率从大到小的顺序对各个目的地进行排序，输出前m个的目的地。

在一个实施例中，采集目标用户的实时输入信息和历史出行信息包括：

S11，通过共享单车应用平台收集用户的实时输入信息；所述实时输入信息包括用户ID、共享单车ID、起点位置和骑行开始时间；

S12，通过共享单车运营商收集用户一个月内的历史出行信息，所述历史出行信息包括用户ID、共享单车ID、起点位置、终点位置、骑行开始时间和骑行时长。

在一个实施例中，对实时输入信息和历史出行信息分别依次进行读写和转化包括：

S21，将存在遗漏信息属性值的历史出行信息进行删除；

S22，对共享单车GPS定位的经纬度根据GeoHash算法进行二进制转换，并与对应的地理位置进行匹配；所述地理位置包括起点位置和终点位置；

S23，计算各个变量值，对连续性变量进行离散化处理，采用自然间断点分级法分别对变量值的计算结果和离散化处理的结果进行分段处理，得到转化后的实时输入信息和历史出行信息；所述变量值包括用户出行距离、出行次数和出行频率；所述连续性变量包括年龄和距离。

在一个实施例中，根据转化后的实时输入信息和历史出行信息构建目标用户的潜在目的地集合包括：

S31，提取出用户历史出行信息中所有的起点位置和终点位置构成起点集合S和终点集合T；

S32，根据用户历史出行信息中起点和终点位置出现的次数，对起点位置集合按照起点位置出现的频次从大到小的顺序进行排序得到S＝{s₁，s₂，...，s_n}，对终点位置集合按照终点位置出现的频次从大到小的顺序进行排序得到T＝{t₁，t₂，...，t_n}；

S33，根据起点位置间或终点位置间的欧式距离分别对起点位置和终点位置进行相似性归类，将经纬度数据在同一范围内的位置信息进行相似性归类；

S34，在集合S＝{s₁，s₂，...，s_n}和T＝{t₁，t₂，...，t_n}中将s₁和t₁以及与其同一类的位置排除后，继续以出现次数最多的s_i和t_i为基准，计算其与其他位置的欧式距离，距离小于或等于阈值的起点或终点，被认为是与s_i和t_i同一类的位置；i的取值范围为1至n；

S35，重复步骤S34，直到S和T中所有的位置处理完成；

S36，根据处理后的历史终点位置构建用户的潜在目的集合D＝{d₁，d₂，...，d_n}。

具体地，将经纬度数据在同一范围内的位置信息进行相似性归类包括：

考虑到用户多通过步行到达共享单车的上车点，将不同起点位置或终点位置间的距离阈值设为100m，以出现次数最高的位置s₁和t₁为基准，计算s₁和t₁与其他起终点位置的欧式距离，距离小于或等于阈值的起点或终点，被认为是与s₁和t₁同一类的位置，以实现相似性归类；在二维空间中，位置(x₁，y₁)和位置(x₂，y₂)间欧式距离ρ的计算公式如下：

在一个实施例中，根据转化后的实时输入信息和历史出行信息构建目标用户的出行特征集合包括：

S41，构建目标用户的个人特征；所述个人特征包括用户ID，性别，年龄，出行频率；根据用户一个月内的历史出行信息，共享单车出行频率的计算方法为：

S42，构建地理位置特征；所述地理位置特征包括起点位置和潜在终点位置，起点位置和潜在终点位置间的距离；其中起终点间的距离为欧式距离；

S43，构建时间特征；所述时间特征包括用户开始使用共享单车的时间和用户骑行的平均时长，将用户使用共享单车的时间划分周内和周末，并将每天开始使用共享单车的时间划分为上午(6：00-12：00)、下午(12：00-18：00)、晚上(18：00-24：00)、凌晨(24：00-6：00)；用户骑行的平均时长以半小时为间隔进行划分；

S44，构建出行规律特征；所述出行规律特征包括用户从起点位置出发的次数和时间；用户到达潜在终点的次数和时间；用户从起点位置到终点位置的次数和时间；

S45，根据步骤S41至S44，构建用户的出行特征集合。

在一个实施例中，用预测模型预测用户到达潜在目的地集合中每个目的地的到达概率包括：

S51，在潜在目的地集合D中，用户到达目的地d_i的概率为：

其中，X是用户对应的特征向量，所述特征向量包括个人特征、地理位置特征、时间特征和出行规律特征，P_i(D＝d_i|X)为已知出行特征为X的情况下，用户到达目的地d_i的后验概率，P(X|D＝d_i)是条件概率，P(D＝d_i)是用户到达目的地d_i的先验概率，利用贝叶斯模型计算用户到达每个潜在目的地的概率。

与现有技术相比，本发明的技术方案具有以下有益效果：

1、基于历史出行信息和实时定位信息构建用户出行的潜在目的地集合，实现单车时空信息、使用信息和历史信息的有效利用，为运营商制定合理的共享单车调度组织方案提供参考。

2、考虑用户的出行时空特性，建立用户的出行特征集合，基于此利用贝叶斯模型对用户共享单车出行目的地进行预测。在用户出行有一定差异的情况下，可有效提高用户本次出行终点的预测准确性。

3、结合用户历史出行数据，不仅仅局限于提供用户最近几次出行的终点位置，在应用界面可为用户提供多个到达概率较高的备选终点选项，减少或避免用户手动输入相关信息，节约用户出行时间，提升用户出行体验。

附图说明

图1是一个实施例的基于贝叶斯模型的共享单车目的地预测方法流程图；

图2是另一个实施例的基于贝叶斯模型的共享单车目的地预测方法流程图；

图3是一个实施例的训练贝叶斯模型的系统流程图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

参考图1所示，图1为一个实施例的基于贝叶斯模型的共享单车目的地预测方法流程图，包括如下步骤：

S10，采集目标用户的实时输入信息和历史出行信息。

该步骤可以实现数据提取，包括收集、存储和更新用户的实时输入信息和历史出行信息。

S20，对实时输入信息和历史出行信息分别依次进行读写和转化。

该步骤可以实现数据处理，对数据提取单元的用户信息进行读写和转化。

S30，根据转化后的实时输入信息和历史出行信息分别构建目标用户的潜在目的地集合和出行特征集合。

S50，根据潜在目的地集合和出行特征集合训练贝叶斯模型，得到预测模型，采用预测模型预测用户到达潜在目的地集合中每个目的地的到达概率。

该步骤可以训练贝叶斯模型预测用户到达潜在目的地集合中每个目的地的概率。

上述m可以取5等值。该步骤具体可以按照到达概率从大到小的顺序对潜在目的地进行排序，输出前5个概率最大的目的地位置。

在一个示例中，输出前5个概率最大的目的地位置包括：

S61，结合用户本次出行的时间特征和经过相似性处理后的起点位置，根据S50预测的概率按到达概率从大到小的顺序对潜在目的地集合中的位置进行排序。

S62，将概率最大的前5个位置作为用户本次出行可选的目的地位置，输出到应用平台。

在一个实施例中，上述基于贝叶斯模型的共享单车目的地预测方法也可以参考图2所示，包括如下过程：

1.用户出行信息采集。

用户通过扫描共享单车上的二维码使用车辆，并将相关信息传送给运营商。通过共享单车运营商及应用平台收集用户最近一个月的历史出行信息和本次出行的信息，包括用户ID、共享单车ID、起点、终点、用户开始使用共享单车的时间、用户骑行的时长等。

2.用户出行数据处理

对收集到的用户信息进行读写和转换。收集到的用户出行数据可能存在数据缺失、格式不匹配等数据问题，需要对数据进行预处理。包括以下步骤：

(1)数据缺失值处理，即将存在遗漏信息属性值的出行信息进行删除，减少对模型预测的影响。

(2)经纬度数据转换，即对共享单车GPS定位的经纬度数据根据GeoHash算法进行二进制转换，并与对应的地理位置进行匹配。

(3)数据计算与处理，即计算用户出行距离、出行次数、出行频率等变量值。为了更好的构建用户特征，需要对年龄、距离等连续性变量进行离散化处理，这里采用“自然间断点分级法”进行分段处理。

3.构建用户的潜在目的地集合

根据收集到的用户出行数据提取出用户历史出行中所有的起点和终点构成位置集合S和T，并按照历史数据中起点和终点位置出现频次从大到小的顺序，对位置集合进行排序，得到起点位置集合S＝{s₁，s₂，...，s_n}和终点位置集合T＝{t₁，t₂，...，t_n}。

考虑到GPS数据定位的误差，以及用户出行相同的起终点间存在短距离的偏差，不同的经纬度数据可能对应同一个地理位置。为了减少数据量，更好地构建用户出行的起终点集合，进而提高模型预测的效率，需要将得到的起终点位置进行相似性归类。本实施例中将不同起点或终点间的距离阈值设为100m，以出现次数最高的位置s₁和t₁为基准，依次计算s₁和t₁与其他起终点位置的欧式距离。认为与s₁或t₁距离小于或等于100m的起点或终点是与s₁和t₁同一类的位置(相似性归类)，并将该位置的名称替换为s₁或t₁的位置名称。在集合S＝{s₁，s₂，...，s_n}和T＝{t₁，t₂，...，t_n}中将s₁和t₁以及与其同一类的位置排除后，继续以出现次数最多的s_i和t_i为基准，计算其与剩余位置的欧式距离。经过多次计算后，完成对S和T中所有位置的处理。其中，在二维空间中，位置(x₁，y₁)和位置(x₂，y₂)间欧式距离ρ的计算公式如下：

位置处理完成后，根据用户的历史终点位置构建用户的潜在目的地集合D＝{d₁，d₂，...，d_n}。

4.构建用户的出行特征集合

根据收集到的用户出行数据，构建用户的出行特征集合，具体包括以下子步骤：

(1)构建用户个人特征，包括用户ID，性别，年龄，出行频率。其中，根据用户一个月内的历史出行信息，共享单车出行频率的计算方法为：

(2)构建地理位置特征，包括起点和潜在终点位置，起点和潜在终点位置间的距离。其中，起终点间的距离为欧式距离。

(3)构建时间特征，包括用户开始使用共享单车的时间和用户骑行的平均时长。其中，将用户使用共享单车的时间划分周内和周末，并将每天开始使用共享单车的时间划分为上午(6：00-12：00)、下午(12：00-18：00)、晚上(18：00-24：00)、凌晨(24：00-6：00)。用户骑行的平均时长以半小时为间隔进行划分。

(4)构建出行规律特征，包括用户从起点位置出发的次数和时间；用户到达潜在终点的次数和时间；用户从起点位置到终点位置的次数和时间。

(5)根据以上步骤构建用户的出行特征集合。

5.预测用户到达终点的概率

如图3所示，根据收集到的用户出行的历史信息和实时信息，训练贝叶斯模型。在潜在目的地集合D中，用户到达目的地d_i的概率为：

其中，X是用户对应的特征向量(包括个人特征、地理位置特征、时间特征和出行规律特征)，P_i(D＝d_i|X)为已知出行特征为X的情况下，用户到达目的地d_i的后验概率，P(X|D＝d_i)是条件概率，P(D＝d_i)是用户到达目的地d_i的先验概率。利用贝叶斯模型计算用户到达每个潜在目的地的概率。

6.输出用户潜在目的地

结合用户本次出行的时间特征和经过相似性处理后的起点位置，根据贝叶斯模型预测的概率按照到达概率从大到小的顺序对潜在目的地集合中的位置进行排序。将概率最大的前5个位置作为用户本次出行可选择的目的地位置，输出到应用平台。

上述基于贝叶斯模型的共享单车目的地预测方法，通过采集目标用户的实时输入信息和历史出行信息，对实时输入信息和历史出行信息分别依次进行读写和转化，根据转化后的实时输入信息和历史出行信息分别构建目标用户的潜在目的地集合和出行特征集合，根据潜在目的地集合和出行特征集合训练贝叶斯模型，得到预测模型，采用预测模型预测用户到达潜在目的地集合中每个目的地的到达概率，按照到达概率从大到小的顺序对各个目的地进行排序，输出前m个的目的地，能够准确灵活地预测目标用户本次出行的目的地，有效缩短了用户的出行时间。

S21，将存在遗漏信息属性值的历史出行信息进行删除。该步骤数据主要进行缺失值处理，即将存在遗漏信息属性值的出行信息进行删除，减少对模型预测的影响。

S22，对共享单车GPS定位的经纬度根据GeoHash算法进行二进制转换，并与对应的地理位置进行匹配；所述地理位置包括起点位置和终点位置。该步骤主要进行经纬度数据转换，即对共享单车GPS定位的经纬度数据根据GeoHash算法进行二进制转换，并与对应的地理位置进行匹配。

S23，计算各个变量值，对连续性变量进行离散化处理，采用自然间断点分级法分别对变量值的计算结果和离散化处理的结果进行分段处理，得到转化后的实时输入信息和历史出行信息；所述变量值包括用户出行距离、出行次数和出行频率；所述连续性变量包括年龄和距离。该步骤主要进行数据计算与处理，即计算用户出行距离、出行次数、出行频率等变量值。为了更好的构建用户特征，需要对年龄、距离等连续性变量进行离散化处理，这里采用“自然间断点分级法”进行分段处理。

S31，提取出用户历史出行信息中所有的起点位置和终点位置构成起点集合S和终点集合T。

S32，根据用户历史出行信息中起点位置和终点位置分别出现的次数，对起点位置集合按照起点位置出现的频次从大到小的顺序进行排序得到S＝{s₁，s₂，...，s_n}，对终点位置集合按照终点位置出现的频次从大到小的顺序进行排序得到T＝{t₁，t₂，...，t_n}。

S33，根据起点位置间或终点位置间的欧式距离分别对起点位置和终点位置进行相似性归类，将经纬度数据在同一范围内的位置信息进行相似性归类。该步骤根据起点间或终点间的欧式距离对起终点位置进行相似性归类。考虑到GPS数据定位的误差，以及用户出行相同的起终点间存在短距离的偏差，不同的经纬度数据可能对应同一个地理位置。为了减少数据量，更好地构建用户出行的起终点集合，进而提高模型预测的效率，需要将这类位置信息进行相似性归类。

S35，重复步骤S34，直到S和T中所有的位置处理完成；

S45，根据步骤S41至S44，构建用户的出行特征集合。

S51，在潜在目的地集合D中，用户到达目的地d_i的概率为：

与现有技术相比，本实施例的技术方案具有以下有益效果：

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

需要说明的是，本申请实施例所涉及的术语“第一\第二\第三”仅仅是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序。应该理解“第一\第二\第三”区分的对象在适当情况下可以互换，以使这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

本申请实施例的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块，而是可选地还包括没有列出的步骤或模块，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于贝叶斯模型的共享单车目的地预测方法，其特征在于，包括如下步骤：

S10，采集目标用户的实时输入信息和历史出行信息；

S60，按照到达概率从大到小的顺序对各个目的地进行排序，输出前m个的目的地；

根据转化后的实时输入信息和历史出行信息构建目标用户的出行特征集合包括：

S43，构建时间特征；所述时间特征包括用户开始使用共享单车的时间和用户骑行的平均时长，将用户使用共享单车的时间划分周内和周末，并将每天开始使用共享单车的时间划分为上午、下午、晚上、凌晨；用户骑行的平均时长以半小时为间隔进行划分；

S45，根据步骤S41至S44，构建用户的出行特征集合；

采用预测模型预测用户到达潜在目的地集合中每个目的地的到达概率包括：

S51，在潜在目的地集合D中，用户到达目的地d_i的概率为：

2.根据权利要求1所述的基于贝叶斯模型的共享单车目的地预测方法，其特征在于，采集目标用户的实时输入信息和历史出行信息包括：

3.根据权利要求2所述的基于贝叶斯模型的共享单车目的地预测方法，其特征在于，对实时输入信息和历史出行信息分别依次进行读写和转化包括：

S21，将存在遗漏信息属性值的历史出行信息进行删除；

4.根据权利要求3所述的基于贝叶斯模型的共享单车目的地预测方法，其特征在于，根据转化后的实时输入信息和历史出行信息构建目标用户的潜在目的地集合包括：

S32，根据用户历史出行信息中起点和终点位置出现的次数，对起点位置集合按照起点位置出现的频次从大到小的顺序进行排序得到S＝{s ₁，s ₂，...，s_n}，对终点位置集合按照终点位置出现的频次从大到小的顺序进行排序得到T＝{t₁，t₂，...，t_n}；

S35，重复步骤S34，直到S和T中所有的位置处理完成；

5.根据权利要求4所述的基于贝叶斯模型的共享单车目的地预测方法，其特征在于，将经纬度数据在同一范围内的位置信息进行相似性归类包括：

考虑到用户多通过步行到达共享单车的上车点，将不同起点位置或终点位置间的距离阈值设为100m，以出现次数最高的位置s₁和t₁为基准，计算s₁和t₁与其他起终点位置的欧式距离，距离小于或等于阈值的起点或终点，被认为是与s ₁和t₁同一类的位置，以实现相似性归类。