CN116431988A - 基于活动模式-马尔科夫链的居民出行活动时间序列生成方法 - Google Patents

基于活动模式-马尔科夫链的居民出行活动时间序列生成方法 Download PDF

Info

Publication number
CN116431988A
CN116431988A CN202310284250.1A CN202310284250A CN116431988A CN 116431988 A CN116431988 A CN 116431988A CN 202310284250 A CN202310284250 A CN 202310284250A CN 116431988 A CN116431988 A CN 116431988A
Authority
CN
China
Prior art keywords
resident
activity
activity time
sequence
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310284250.1A
Other languages
English (en)
Inventor
孙轶琳
朱斯杰
张逸敏
赵志健
蔡余坤
贾方圆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202310284250.1A priority Critical patent/CN116431988A/zh
Publication of CN116431988A publication Critical patent/CN116431988A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2123/00Data types
    • G06F2123/02Data types in the time domain, e.g. time-series data
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于活动模式‑马尔科夫链的居民出行活动时间序列生成方法。该方法使用活动模式这一交通行为特征对数据进行分类,能够很好的融合居民出行特性,避免不同活动模式之间相互的干扰,针对不同活动模式分类建模,使得预测模型收敛速度更快,精准率更高。本发明方法基于活动模式‑马尔科夫链生成居民出行活动时间序列,可以解决训练集中可获得居民出行活动时间序列不足的问题,生成数据准确率高,收敛速度快,缩短实验周期。

Description

基于活动模式-马尔科夫链的居民出行活动时间序列生成 方法
技术领域
本发明涉及一种基于活动模式-马尔科夫链的居民出行活动时间序列生成方法。
背景技术
在城市交通规划领域,需要对城市的交通需求进行预测和分析,以便设计合适的交通网络和制定交通管理政策。居民出行活动时间序列往往是基于调查数据和经验数据来构建的,这些数据通常来自于交通调查和出行行为调查。然而,这种方法存在一些问题,例如调查数据的采样误差和样本偏倚,因此可能会导致预测结果的不准确性。随着计算机技术和数据挖掘技术的发展,人们开始尝试使用机器学习和人工智能技术来构建更准确和可靠的居民出行活动时间序列生成方法。这种方法不仅可以利用更多的数据源,还可以自动识别和学习出行行为的模式和规律,从而提高预测的准确性和效率。
现有技术生成居民出行活动时间序列数据通常采用马尔科夫链蒙特卡洛法(Markov Chain Monte Carlo,MCMC)。MCMC是一种基于随机采样的计算机模拟方法,主要用于解决概率统计问题。MCMC的核心思想是利用马尔科夫链的转移概率分布来生成样本,并通过对这些样本的统计分析来估计目标分布的特征。
但是马尔科夫链蒙特卡洛方法(MCMC)存在收敛速度慢、链接错误、依赖于初始值、高度敏感和难以估计误差的缺陷。MCMC方法的收敛速度通常很慢,需要大量的迭代才能获得准确的结果;MCMC方法生成的样本序列是一个马尔科夫链,需要满足马尔科夫链的收敛性和遍历性,否则可能导致估计结果不准确;MCMC方法的结果可能会受到初始值的影响,而且对分布的特性很敏感,不适合问题的特性可能导致收敛速度慢或估计结果不准确;MCMC方法生成的样本序列通常是相关的,因此难以估计误差,对估计结果的可靠性评估变得困难。
发明内容
本发明的目的是提供一种基于活动模式-马尔科夫链的居民出行活动时间序列生成方法,解决了现有技术中存在的预测精准率低和收敛速度慢的问题。
本发明所采用的技术方案是:
一种基于活动模式-马尔科夫链的居民出行活动时间序列生成方法,具体按照如下步骤实施:
步骤1,首先获取实测的居民出行活动时间序列数据,建立真实数据集;
步骤2,对真实数据集中的居民出行活动时间序列进行分类;
步骤3,根据居民出行活动时间序列的状态序列特征,确定每一类居民出行活动时间序列对应的出行活动模式,并对每个居民打上标签;
步骤4,基于每一类出行活动模式对应的居民出行活动时间序列,使用极大似然估计法计算马尔科夫链状态转移矩阵和初始状态概率分布向量;
步骤5,根据步骤4得到的初始状态概率分布向量生成居民出行活动时间序列的第一个字符(初始状态),再将生成的第一个字符作为输入,使用步骤4得到的马尔科夫链状态转移矩阵生成新的字符(新的状态);不断将新的字符作为新的输入,使用马尔科夫链状态转移矩阵生成新的字符,直至生成字符的数量达到预设阈值时,结束迭代并将所有生成的字符按照生成先后顺序拼接,即可得到居民出行活动时间序列。
步骤2中对居民出行活动时间序列进行分类的方法为K均值聚类方法,具体方法如下:
1)首先定义距离度量函数d(xi,cj),表示样本序列xi与聚类中心cj之间的距离。本发明采用样本序列xi与聚类中心cj之间相似度的倒数作为它们之间的距离。
Figure BDA0004139161780000021
Figure BDA0004139161780000022
其中,
Figure BDA0004139161780000023
表示样本序列xi与聚类中心cj之间相似度函数,len(xi)表示样本序列xi的长度,xi,k表示样本序列xi第k个位置的符号。
2)随机初始化K个聚类中心c1,c2,...,cK,通常可以随机选择K个样本序列作为聚类中心。
3)将所有样本序列x1,x2,...,xn分配到距离它们最近的聚类中心所在的簇中,即:
Figure BDA0004139161780000024
其中,
Figure BDA0004139161780000025
表示第t次迭代后,第j个聚类簇的样本序列集合。
4)计算每个簇的新聚类中心,即簇内所有样本序列的平均值:
Figure BDA0004139161780000031
其中cj,k表示聚类中心cj序列的第k个字母,n表示活动类型数量。
5)重复步骤3)和步骤4),直到聚类中心不再发生变化或达到预设的最大迭代次数。
6)最终输出K个聚类簇u1,u2,...,uK,其中第j个聚类簇uj包含所有被分配到第j个聚类中心cj的样本序列:
Figure BDA0004139161780000032
其中,tn表示最终迭代的次数。
本发明的有益效果是:
本发明基于活动模式-马尔科夫链生成居民出行活动时间序列,可以解决训练集中可获得居民出行活动时间序列不足的问题,生成数据准确率高,收敛速度快,缩短实验周期。本发明使用活动模式这一交通行为特征对数据进行分类,能够很好的融合居民出行特性,避免不同活动模式之间相互的干扰,针对不同活动模式分类建模,使得预测模型收敛速度更快,精准率更高。
附图说明
图1是本发明基于活动模式-马尔科夫链的居民出行活动时间序列生成方法的流程框图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明基于活动模式-马尔科夫链的居民出行活动时间序列生成方法,其流程如图1所示,具体按照如下步骤实施:
步骤1,首先获取实测的居民出行活动时间序列数据,建立真实数据集;
步骤2,对真实数据集中的居民出行活动时间序列进行分类;
步骤3,根据居民出行活动时间序列的状态序列特征,确定每一类居民出行活动时间序列对应的出行活动模式,并对每个居民打上标签;
步骤4,针对步骤3划分的出行活动模式,单独对每一类出行活动模式进行模型拟合,具体为:基于每一类出行活动模式对应的居民出行活动时间序列,使用极大似然估计法计算马尔科夫链状态转移矩阵和初始状态概率分布向量;
步骤5,根据步骤4得到的初始状态概率分布向量生成居民出行活动时间序列的第一个字符(初始状态),再将生成的第一个字符作为输入,使用步骤4得到的马尔科夫链状态转移矩阵生成新的字符(新的状态);不断将新的字符作为新的输入,使用马尔科夫链状态转移矩阵生成新的字符,直至生成字符的数量达到预设阈值时,结束迭代并将所有生成的字符按照生成先后顺序拼接,即可得到居民出行活动时间序列。
步骤2中对居民出行活动时间序列进行分类的方法为:
采用K均值聚类方法进行分类,具体步骤如下:
1)定义距离度量函数d(xi,cj),表示样本xi与聚类中心cj之间的距离;采用样本xi与聚类中心cj之间的相似度
Figure BDA0004139161780000041
的倒数作为它们之间的距离;
Figure BDA0004139161780000042
Figure BDA0004139161780000043
其中,
Figure BDA0004139161780000044
表示样本序列xi与聚类中心cj之间相似度函数,len(xi)表示样本序列xi的长度,xi,k表示样本序列xi第k个位置的符号;
2)随机初始化K个聚类中心c1,c2,...,cK
3)将所有样本序列x1,x2,...,xn分配到距离它们最近的聚类中心所在的簇中,即:
Figure BDA0004139161780000045
其中,
Figure BDA0004139161780000046
表示第t次迭代后,第j个聚类簇的样本序列集合;
4)计算每个簇的新聚类中心,即簇内所有样本序列的平均值:
Figure BDA0004139161780000047
其中cj,k表示聚类中心cj序列的第k个字母,n表示活动类型数量;
5)重复步骤3)和步骤4),直到聚类中心不再发生变化或达到预设的最大迭代次数;
6)最终输出K个聚类簇u1,u2,...,uK,其中第j个聚类簇uj包含所有被分配到第j个聚类中心cj的样本序列:
Figure BDA0004139161780000051
其中,tn表示最终迭代的次数。

Claims (2)

1.一种基于活动模式-马尔科夫链的居民出行活动时间序列生成方法,其特征在于,包括如下步骤:
步骤1,首先获取实测的居民出行活动时间序列数据,建立真实数据集;
步骤2,对真实数据集中的居民出行活动时间序列进行分类;
步骤3,根据居民出行活动时间序列的状态序列特征,确定每一类居民出行活动时间序列对应的出行活动模式,并对每个居民打上标签;
步骤4,基于每一类出行活动模式对应的居民出行活动时间序列,使用极大似然估计法计算马尔科夫链状态转移矩阵和初始状态概率分布向量;
步骤5,根据步骤4得到的初始状态概率分布向量生成居民出行活动时间序列的第一个字符,再将生成的第一个字符作为输入,使用步骤4得到的马尔科夫链状态转移矩阵生成新的字符;不断将新的字符作为输入,使用马尔科夫链状态转移矩阵生成新的字符,直至生成字符的数量达到预设阈值时,结束迭代并将所有生成的字符按照生成先后顺序拼接,即可得到居民出行活动时间序列。
2.根据权利要求1所述的基于活动模式-马尔科夫链的居民出行活动时间序列生成方法,其特征在于,所述步骤2中采用K均值聚类方法进行分类,具体步骤如下:
1)定义距离度量函数d(xi,cj),表示样本xi与聚类中心cj之间的距离;采用样本序列xi与聚类中心cj之间的相似度
Figure FDA0004139161760000011
的倒数作为它们之间的距离;
Figure FDA0004139161760000012
Figure FDA0004139161760000013
其中,
Figure FDA0004139161760000014
表示样本序列xi与聚类中心cj之间相似度函数,len(xi)表示样本序列xi的长度,xi,k表示样本序列xi第k个位置的符号;
2)随机初始化K个聚类中心c1,c2,...,cK
3)将所有样本序列x1,x2,...,xn分配到距离它们最近的聚类中心所在的簇中,即:
Figure FDA0004139161760000015
其中,
Figure FDA0004139161760000016
表示第t次迭代后,第j个聚类簇的样本序列集合;
4)计算每个簇的新聚类中心,即簇内所有样本序列的平均值:
Figure FDA0004139161760000021
其中cj,k表示聚类中心cj序列的第k个字母,n表示活动类型数量;
5)重复步骤3)和步骤4),直到聚类中心不再发生变化或达到预设的最大迭代次数;
6)最终输出K个聚类簇u1,u2,...,uK,其中第j个聚类簇uj包含所有被分配到第j个聚类中心cj的样本序列:
Figure FDA0004139161760000022
其中,tn表示最终迭代的次数。
CN202310284250.1A 2023-03-22 2023-03-22 基于活动模式-马尔科夫链的居民出行活动时间序列生成方法 Pending CN116431988A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310284250.1A CN116431988A (zh) 2023-03-22 2023-03-22 基于活动模式-马尔科夫链的居民出行活动时间序列生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310284250.1A CN116431988A (zh) 2023-03-22 2023-03-22 基于活动模式-马尔科夫链的居民出行活动时间序列生成方法

Publications (1)

Publication Number Publication Date
CN116431988A true CN116431988A (zh) 2023-07-14

Family

ID=87088232

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310284250.1A Pending CN116431988A (zh) 2023-03-22 2023-03-22 基于活动模式-马尔科夫链的居民出行活动时间序列生成方法

Country Status (1)

Country Link
CN (1) CN116431988A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116628527A (zh) * 2023-07-24 2023-08-22 浙江大学 一种集成出行策略的设计方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116628527A (zh) * 2023-07-24 2023-08-22 浙江大学 一种集成出行策略的设计方法及系统
CN116628527B (zh) * 2023-07-24 2023-11-10 浙江大学 一种集成出行策略的设计方法及系统

Similar Documents

Publication Publication Date Title
CN106572493B (zh) Lte网络中的异常值检测方法及系统
CN112069310B (zh) 基于主动学习策略的文本分类方法及系统
CN110781266B (zh) 一种基于时空因果关系的城市感知数据处理方法
CN110851176B (zh) 一种自动构造并利用伪克隆语料的克隆代码检测方法
WO2019172848A1 (en) Method and apparatus for predicting occurrence of an event to facilitate asset maintenance
CN112685504B (zh) 一种面向生产过程的分布式迁移图学习方法
CN111368920A (zh) 基于量子孪生神经网络的二分类方法及其人脸识别方法
CN112132014B (zh) 基于非督导金字塔相似性学习的目标重识别方法及系统
CN112001422B (zh) 一种基于深度贝叶斯学习的图像标记估计方法
CN110990718A (zh) 一种公司形象提升系统的社会网络模型构建模块
CN111126820A (zh) 反窃电方法及系统
CN105471647A (zh) 一种电力通信网故障定位方法
CN116431988A (zh) 基于活动模式-马尔科夫链的居民出行活动时间序列生成方法
CN108596204B (zh) 一种基于改进型scdae的半监督调制方式分类模型的方法
CN114897085A (zh) 一种基于封闭子图链路预测的聚类方法及计算机设备
CN115965135A (zh) 基于朴素贝叶斯分类的新能源预测误差建模方法及系统
CN116031879A (zh) 一种适应电力系统暂态电压稳定评估的混合智能特征选择方法
CN105160598A (zh) 一种基于改进em算法的电网业务分类方法
CN115797041A (zh) 基于深度图半监督学习的金融信用评估方法
CN117636183A (zh) 一种基于自监督预训练的小样本遥感图像分类方法
CN111582313B (zh) 样本数据生成方法、装置及电子设备
CN113095466A (zh) 基于元学习模型的可满足性模理论求解器的算法
CN115169544A (zh) 一种短期光伏发电功率预测方法及系统
CN116342938A (zh) 基于多个潜在域混合的域泛化图像分类方法
CN110866838A (zh) 基于转移概率预处理的网络表示学习算法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination