CN116431988A

CN116431988A - 基于活动模式-马尔科夫链的居民出行活动时间序列生成方法

Info

Publication number: CN116431988A
Application number: CN202310284250.1A
Authority: CN
Inventors: 孙轶琳; 朱斯杰; 张逸敏; 赵志健; 蔡余坤; 贾方圆
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2023-03-22
Filing date: 2023-03-22
Publication date: 2023-07-14

Abstract

本发明公开了一种基于活动模式‑马尔科夫链的居民出行活动时间序列生成方法。该方法使用活动模式这一交通行为特征对数据进行分类，能够很好的融合居民出行特性，避免不同活动模式之间相互的干扰，针对不同活动模式分类建模，使得预测模型收敛速度更快，精准率更高。本发明方法基于活动模式‑马尔科夫链生成居民出行活动时间序列，可以解决训练集中可获得居民出行活动时间序列不足的问题，生成数据准确率高，收敛速度快，缩短实验周期。

Description

基于活动模式-马尔科夫链的居民出行活动时间序列生成方法

技术领域

本发明涉及一种基于活动模式-马尔科夫链的居民出行活动时间序列生成方法。

背景技术

在城市交通规划领域，需要对城市的交通需求进行预测和分析，以便设计合适的交通网络和制定交通管理政策。居民出行活动时间序列往往是基于调查数据和经验数据来构建的，这些数据通常来自于交通调查和出行行为调查。然而，这种方法存在一些问题，例如调查数据的采样误差和样本偏倚，因此可能会导致预测结果的不准确性。随着计算机技术和数据挖掘技术的发展，人们开始尝试使用机器学习和人工智能技术来构建更准确和可靠的居民出行活动时间序列生成方法。这种方法不仅可以利用更多的数据源，还可以自动识别和学习出行行为的模式和规律，从而提高预测的准确性和效率。

现有技术生成居民出行活动时间序列数据通常采用马尔科夫链蒙特卡洛法(Markov Chain Monte Carlo，MCMC)。MCMC是一种基于随机采样的计算机模拟方法，主要用于解决概率统计问题。MCMC的核心思想是利用马尔科夫链的转移概率分布来生成样本，并通过对这些样本的统计分析来估计目标分布的特征。

但是马尔科夫链蒙特卡洛方法(MCMC)存在收敛速度慢、链接错误、依赖于初始值、高度敏感和难以估计误差的缺陷。MCMC方法的收敛速度通常很慢，需要大量的迭代才能获得准确的结果；MCMC方法生成的样本序列是一个马尔科夫链，需要满足马尔科夫链的收敛性和遍历性，否则可能导致估计结果不准确；MCMC方法的结果可能会受到初始值的影响，而且对分布的特性很敏感，不适合问题的特性可能导致收敛速度慢或估计结果不准确；MCMC方法生成的样本序列通常是相关的，因此难以估计误差，对估计结果的可靠性评估变得困难。

发明内容

本发明的目的是提供一种基于活动模式-马尔科夫链的居民出行活动时间序列生成方法，解决了现有技术中存在的预测精准率低和收敛速度慢的问题。

本发明所采用的技术方案是：

一种基于活动模式-马尔科夫链的居民出行活动时间序列生成方法，具体按照如下步骤实施：

步骤1，首先获取实测的居民出行活动时间序列数据，建立真实数据集；

步骤2，对真实数据集中的居民出行活动时间序列进行分类；

步骤3，根据居民出行活动时间序列的状态序列特征，确定每一类居民出行活动时间序列对应的出行活动模式，并对每个居民打上标签；

步骤4，基于每一类出行活动模式对应的居民出行活动时间序列，使用极大似然估计法计算马尔科夫链状态转移矩阵和初始状态概率分布向量；

步骤5，根据步骤4得到的初始状态概率分布向量生成居民出行活动时间序列的第一个字符(初始状态)，再将生成的第一个字符作为输入，使用步骤4得到的马尔科夫链状态转移矩阵生成新的字符(新的状态)；不断将新的字符作为新的输入，使用马尔科夫链状态转移矩阵生成新的字符，直至生成字符的数量达到预设阈值时，结束迭代并将所有生成的字符按照生成先后顺序拼接，即可得到居民出行活动时间序列。

步骤2中对居民出行活动时间序列进行分类的方法为K均值聚类方法，具体方法如下：

1)首先定义距离度量函数d(x_i，c_j)，表示样本序列x_i与聚类中心c_j之间的距离。本发明采用样本序列x_i与聚类中心c_j之间相似度的倒数作为它们之间的距离。

其中，

表示样本序列x_i与聚类中心c_j之间相似度函数，len(x_i)表示样本序列x_i的长度，x_i，k表示样本序列x_i第k个位置的符号。

2)随机初始化K个聚类中心c₁，c₂，...，c_K，通常可以随机选择K个样本序列作为聚类中心。

3)将所有样本序列x₁，x₂，...，x_n分配到距离它们最近的聚类中心所在的簇中，即：

其中，

表示第t次迭代后，第j个聚类簇的样本序列集合。

4)计算每个簇的新聚类中心，即簇内所有样本序列的平均值：

其中c_j，k表示聚类中心c_j序列的第k个字母，n表示活动类型数量。

5)重复步骤3)和步骤4)，直到聚类中心不再发生变化或达到预设的最大迭代次数。

6)最终输出K个聚类簇u₁，u₂，...，u_K，其中第j个聚类簇u_j包含所有被分配到第j个聚类中心c_j的样本序列：

其中，t_n表示最终迭代的次数。

本发明的有益效果是：

本发明基于活动模式-马尔科夫链生成居民出行活动时间序列，可以解决训练集中可获得居民出行活动时间序列不足的问题，生成数据准确率高，收敛速度快，缩短实验周期。本发明使用活动模式这一交通行为特征对数据进行分类，能够很好的融合居民出行特性，避免不同活动模式之间相互的干扰，针对不同活动模式分类建模，使得预测模型收敛速度更快，精准率更高。

附图说明

图1是本发明基于活动模式-马尔科夫链的居民出行活动时间序列生成方法的流程框图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明基于活动模式-马尔科夫链的居民出行活动时间序列生成方法，其流程如图1所示，具体按照如下步骤实施：

步骤2，对真实数据集中的居民出行活动时间序列进行分类；

步骤4，针对步骤3划分的出行活动模式，单独对每一类出行活动模式进行模型拟合，具体为：基于每一类出行活动模式对应的居民出行活动时间序列，使用极大似然估计法计算马尔科夫链状态转移矩阵和初始状态概率分布向量；

步骤2中对居民出行活动时间序列进行分类的方法为：

采用K均值聚类方法进行分类，具体步骤如下：

1)定义距离度量函数d(x_i，c_j)，表示样本x_i与聚类中心c_j之间的距离；采用样本x_i与聚类中心c_j之间的相似度

的倒数作为它们之间的距离；

其中，

表示样本序列x_i与聚类中心c_j之间相似度函数，len(x_i)表示样本序列x_i的长度，x_i，k表示样本序列x_i第k个位置的符号；

2)随机初始化K个聚类中心c₁，c₂，...，c_K；

其中，

表示第t次迭代后，第j个聚类簇的样本序列集合；

其中c_j，k表示聚类中心c_j序列的第k个字母，n表示活动类型数量；

5)重复步骤3)和步骤4)，直到聚类中心不再发生变化或达到预设的最大迭代次数；

其中，t_n表示最终迭代的次数。

Claims

1.一种基于活动模式-马尔科夫链的居民出行活动时间序列生成方法，其特征在于，包括如下步骤：

步骤2，对真实数据集中的居民出行活动时间序列进行分类；

步骤5，根据步骤4得到的初始状态概率分布向量生成居民出行活动时间序列的第一个字符，再将生成的第一个字符作为输入，使用步骤4得到的马尔科夫链状态转移矩阵生成新的字符；不断将新的字符作为输入，使用马尔科夫链状态转移矩阵生成新的字符，直至生成字符的数量达到预设阈值时，结束迭代并将所有生成的字符按照生成先后顺序拼接，即可得到居民出行活动时间序列。

2.根据权利要求1所述的基于活动模式-马尔科夫链的居民出行活动时间序列生成方法，其特征在于，所述步骤2中采用K均值聚类方法进行分类，具体步骤如下：

1)定义距离度量函数d(x_i,c_j)，表示样本x_i与聚类中心c_j之间的距离；采用样本序列x_i与聚类中心c_j之间的相似度