CN115967950B - 基于手机数据的特征与时序双驱动城际出行模式辨识方法 - Google Patents

基于手机数据的特征与时序双驱动城际出行模式辨识方法 Download PDF

Info

Publication number
CN115967950B
CN115967950B CN202310128846.2A CN202310128846A CN115967950B CN 115967950 B CN115967950 B CN 115967950B CN 202310128846 A CN202310128846 A CN 202310128846A CN 115967950 B CN115967950 B CN 115967950B
Authority
CN
China
Prior art keywords
data
mobile phone
travel
city
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310128846.2A
Other languages
English (en)
Other versions
CN115967950A (zh
Inventor
丁璠
寿光明
屈韬
谭华春
张永毅
尹红亮
彭剑坤
裴剑平
白桦
朱治邦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202310128846.2A priority Critical patent/CN115967950B/zh
Publication of CN115967950A publication Critical patent/CN115967950A/zh
Application granted granted Critical
Publication of CN115967950B publication Critical patent/CN115967950B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了基于手机信令数据的特征与时序的城际出行模式辨识方法,1)建立城际出行交通网络,而后提取交通网络临近基站并为基站数据标记上路网信息,2)手机信令数据的获取和预处理,3)以基站信息为媒介关联手机信令数据和路网,构建信令数据特征表,4)基于随机森林和长短时记忆模型的混合模型,从数据特征库中提取样本数据对模型进行训练,并输出分类结果和准确率。本发明实现城际出行模式的高精度识别,在省域范围内居民跨城市细颗粒度出行模式识别和提出具有高置信度的模式识别基础上能够对已建城市间综合交通网络通勤现状进行评估,并为未来城市间综合交通网络规划和完善提供参考。

Description

基于手机数据的特征与时序双驱动城际出行模式辨识方法
技术领域
本发明属于智慧交通工程技术领域,特别涉及基于手机数据的特征与时序双驱动城际出行模式辨识方法。
背景技术
居民出行需求是城市道路基础设施规划与建设的基本依据之一,城市道路基础设施建设不仅涉及到市内交通网络建设,同时还包括连通城市的综合交通运输网络建设。传统的居民出行行为调查包括线下问卷调查、电话采访、邮件、网络问卷收集等方式。这些方法有着固有局限性,如覆盖范围小、覆盖率低、投入成本高、数据质量差等。面对跨市出行行为特征分析的需求,采用传统调查方式采集数据的难度和成本将进一步大幅提升。
近年来,随着智能手机的迅速发展和普及,基于移动网络数据的出行行为分析的研究已经成为热点。目前被应用于研究的数据类型可以分为两类:当用户使用服务(如呼叫、短消息服务或因特网)时记录的事件驱动数据((如呼叫详细记录CDR),和捕获信令事件的网络驱动数据(如切换、位置区域更新、定期位置更新)。其中基于网络驱动的数据又被称为蜂窝信号数据(CSD)。这些数据,通常由移动网络运营商在后台自动记录,用于计费、管理和维护,因此不需要最终用户额外提供。然而,受限于移动网络数据较低的空间精度和较长的采样周期,从这些数据中提取出行模式等移动性信息非常具有挑战性。
目前现有技术如下:
申请号:CN202011386165.9,申请名称:基于手机数据的居民出行量分布计算方法及系统,该申请公布了基于手机数据的居民出行量分布计算方法及系统,包括以下步骤:手机数据采集,通过移动通讯后台数据库采集用户一次性完整的手机数据,其中,手机数据包括匿名加密唯一用户标识,时间戳、基站编号和事件类型;手机数据处理,对手机数据中无效数据和乒乓效应数据进行清洗。本发明中,通过手机数据对用户的交通出行信息进行采集,从而分析用户的出行量信息,解决省级公路网层面的多交通方式居民出行量的统计计算问题,并对采集的手机数据中无效数据进行清理,提高数据处理效率,降低数据计算分析负担,且对采集的手机数据中乒乓效应数据进行清理,提高数据分析的准确性。
该申请只表述了提取特征数据,但是没有说明具体哪些特征,而本发明详细明确了根据本发明目的需要提取的数据特征类型;
该申请主要针对省级公路出行,统计公路网之间的OD量,本发明则考虑了高速、国省道、高铁、普铁等细分城际间交通出行方式;
该申请没有明确获取该出行量统计结果的方法,也没有明确特征量,而手机数据本身是不含有交通出行信息的。本发明详细表述了出行模式识别建模方法和识别准确率,具有较高的工程应用价值。
申请号:CN202011399981.3,申请名称:基于手机信令识别交通出行方式的方法与系统,该申请基于用户上报的手机数据实现。在实现过程中,首先基于用户上报的样本数据进行识别模型的训练,在剔除专有出行方式后,基于SVM二分类器的模型训练,采用年龄、性别、速度、瞬时速度、平均速度以及移动距离多维度特征进行训练,提高模型的辨识度和准确性;然后在预测模型的基础上,采用专用出行与SVM模型进行融合的方式,基于实际上报的信令数据进行特征提取并识别出出行方式;最后以时间序列为基础,将不同的出行方式的OD链合并,形成完整的交通方式出行轨迹段。
该申请中采用的是SVM二分类器对出行方式进行识别,本发明采用了基于随机森林+长短时记忆模型混合的 出行模式识别方法。
该申请中针对的出行方式包括高铁、动车、轻轨等轨道交通模式,本发明则考虑了高速、国省道、高铁、普铁等细分城际间交通出行方式。
该申请中采用了包括信令数据、个人信息、出行交通工具以及GPS数据等多源数据进行出行方式识别,而本发明仅基于手机数据进行建模计算,所需要的的数据获取量以及数据获取成本、难易度等远低于该发明,且通过构建混合模型得到了较高的出行模式识别准确率,具有较高的工程应用价值。
针对以上问题,本发明提出一种基于手机数据的城际出行模式识别算法,该方法利用手机数据和城际交通路网数据,生成面向出行模式识别的特性数据,并基于随机森林和长短时记忆模型构建混合算法模型,从而实现城际出行模式的高精度识别。
发明内容
为了解决以上问题,本申请提出基于手机数据的特征与时序双驱动城际出行模式辨识方法,该算法基于大数据和机器学习理论,实现省域范围内居民跨城市细颗粒度出行模式识别和提出具有高置信度的模式识别方法。能够对已建城市间综合交通网络通勤现状进行评估,并为未来城市间综合交通网络规划和完善提供参考。
为实现上述目的,本发明采取的技术方案是:
本发明提供基于手机数据的特征与时序双驱动城际出行模式辨识方法,包括以下步骤:
步骤S1,城际出行路网提取:从开源数据中提取涉及城际出行的路网类型并对出行路网的路网类型进行标识;
步骤S2,根据步骤S1提取的路网类型,绘制和构建城际出行路网, 网图的构建以开源地图为基础;
步骤S3,沿步骤S2构建的城际出行路网,并以基站信号覆盖直径作为路网线路宽度构建路网缓冲区,然后提取缓冲区内所有基站,并为基站标记上路网类型信息,形成基站列表;
步骤S4,根据建立的基站列表和手机数据采集库, 数据库由运营商提供,无法私人获取,从中提取手机信令打点数据即手机数据打点记录后的数据的字段中存在“位置上报地市”跳变的信令数据;
所述步骤S5中构建跨城市打点的手机数据的特征列表T;
T={mdn,time,cID,LON,LAT,GG_R,GDGS_R,TG_R,TS_R,RS,PS}
其中,mdn表示信令数据手机端用户唯一编码,time表示信令数据采样时刻,cID表示信令数据打点的4G基站的编号,LON表示基站的经度,LAT表示基站的维度,GDGS_R为国省道标识,GG_R为高速公路标识,TS_R为普通铁路标识,TG_R为高速铁路标识,RS为火车站标识,PS为客运站标识;
步骤S5,以提取的4G基站列表为中介,其中4G基站列表通过步骤S3 获取,将步骤S4中存在“位置上报地市”跳变的信令数据与步骤S2 构建的网图的路网信息进行关联,从而确定信令数据打点落在哪个或哪几个路网类型的缓冲区中,从而构建跨城市打点的手机数据的特征列表T;
步骤S6,定义以下特征参数:为相邻信令数据打点之间的时间间隔;S为基于打点坐标得到的两个相邻点之间的欧式距离,用于表示近似里程;表示平均速度,a表示两个相邻打点之间的速度变化,即平均加速度,Cos表示相邻打点轨迹连线之间的余弦角,因此计算得到信令数据第i个有效采样数据的打点时刻相对上一时刻打点之间的时间间隔
Figure SMS_1
、近似里程/>
Figure SMS_2
、平均速度/>
Figure SMS_3
、平均加速度/>
Figure SMS_4
和余弦角/>
Figure SMS_5
,从而得到单个打点第i个时刻的特征列表/>
Figure SMS_6
所述步骤S6中单个打点第i个时刻的特征列表,
Figure SMS_7
其中,
Figure SMS_8
表示第i个有效采样数据是否落在国省道,/>
Figure SMS_9
表示第i个有效采样数据是否落在高速公路,/>
Figure SMS_10
表示第i个有效采样数据是否落在普铁,/>
Figure SMS_11
表示第i个有效采样数据是否落在高铁,/>
Figure SMS_12
表示第i个有效采样数据是否落在火车站,/>
Figure SMS_13
标识表示第i个有效采样数据是否落在客运站;
Figure SMS_14
时,令/>
Figure SMS_15
;同时,根据城际出行的基本路径,确定出行状态Type,并以该出行状态作为分类输出结果,
Figure SMS_16
上式中,
Figure SMS_17
代表静止,GDGS为国省道标识,GG为高速公路标识, TS为普通铁路标识,TG为高速铁路标识;
步骤S7,构建基于随机森林和长短时记忆模型的混合模型,以步骤S6得到的特征列表
Figure SMS_18
和出行状态Type作为样本数据对模型进行训练,输出分类结果和准确率;
所述步骤S7的具体步骤包括:
(1)提取样本数据集:从特征表
Figure SMS_19
中随机提取n个mdn编号的手机用户数据作为混合模型训练样本数据,并根据单个手机用户当日采样点个数由少到多对样本数据排序,得到mdn编号为j的手机用户的样本特征表 />
Figure SMS_20
Figure SMS_21
式中
Figure SMS_22
,表示样本中编号为j的mdn的特征数据,m为编号为j的手机用户的信令数据的采样序号,/>
Figure SMS_23
表示样本中编号为j的手机用户的信令数据采样总个数;
(2)样本出行状态人工标记:对样本特征表
Figure SMS_24
的真实出行状态进行人工标记,得到人工标记的出行状态/>
Figure SMS_25
Figure SMS_26
式中,
Figure SMS_27
为编号为j的手机用户的采样序号为m时的真实出行状态;
(3)将
Figure SMS_28
和/>
Figure SMS_29
输入随机森林模型进行训练并输出出行状态预测值,并根据步骤(1)提取的样本数据集,从中随机选取部分样本数据作为模型训练集,剩余部分作为测试集,进行若干次交叉验证;
随机森林由复数个决策树组成,经过复数次决策投票的结果作为采样点的出行状态的最终预测结果
Figure SMS_30
,其中,m为编号为j的手机用户的信令数据的采样序号,/>
Figure SMS_31
表示样本中编号为j的手机用户的信令数据采样总个数;
经过随机森林模型训练的样本数据的出行状态预测结果集为
Figure SMS_32
(4)对上一个步骤中的出行状态预测结果
Figure SMS_33
进行数值编码转化,得到转化后特征数据/>
Figure SMS_34
Figure SMS_35
式中,
Figure SMS_36
为/>
Figure SMS_37
经过转化后的特征值,
(5)将步骤(4)转化后的特征数据
Figure SMS_38
作为LSTM模型训练的样本数据特征量,以手机用户为单位,按比例随机分为训练组/>
Figure SMS_39
和测试组/>
Figure SMS_40
,其中表示训练组数据总条数,表示测试组数据总条数,
然后,将训练组
Figure SMS_41
和测试组/>
Figure SMS_42
数据输入LSTM模型进行网络训练,训练结束后,将测试数据导入网络进行计算,得到出行模式的分类结果;
所述步骤S7的步骤(4)中所述出行状态预测结果
Figure SMS_43
进行数值编码转化,具体如下:/>
Figure SMS_44
中各种出行状态按照以下进行编码转化:
Figure SMS_45
所述步骤S7的步骤(5)中所述训练组
Figure SMS_46
中还进行拆分得到一组用于每轮网络训练迭代时对网络权重进行验证的验证组/>
Figure SMS_47
表示从训练组数据中抽取出来的验证组数据的总条数;
所述步骤S7的步骤(5)中将转化后的特征数据
Figure SMS_48
导入LSTM模型之前,还包括数据补全程序,过程如下:
首先,根据训练组单个手机用户采样点个数,设定最小批量组总组数为M的数据进行等分;
分别提取组内最长轨迹的长度
Figure SMS_49
对当前组组内其他轨迹数据进行等长补全
Figure SMS_50
,补全的特征用/>
Figure SMS_51
表示,即不含目标分类状态的任何特征信息;
得到经过补全后的最小批量组第组的输入特征数据组
Figure SMS_52
为:
Figure SMS_53
其中
Figure SMS_54
表示该最小批量组中第1条样本数据的第1个特征数据,/>
Figure SMS_55
表示该最小批量组中第1条样本数据的第/>
Figure SMS_56
个特征数据;/>
Figure SMS_57
表示单个最小批量组内样本数据的条数;
即;
Figure SMS_58
将训练组
Figure SMS_59
和验证组/>
Figure SMS_60
数据导入构建的LSTM模型进行网络训练;
待网络训练结束后,将测试组数据导入网络进行计算,得到出行模式分类结果;
所述步骤S7的步骤(5)中训练组和测试组的比例分别为80%和20%。
作为本发明进一步改进,所述步骤S1中涉及城际出行的路网类型包括国省道、高速公路、普铁和高铁,并以{GDGS、GG、TS、TG}进行表征。
作为本发明进一步改进,所述步骤S4提取的存在“位置上报地市”跳变的信令数据中,通过输入关键字查找相关说明,若存在地址反复跳变情形的跳变数据,选择丢弃。
与现有技术相比,本发明利用手机数据和城际交通路网数据,生成面向出行模式识别的特性数据,并基于随机森林和长短时记忆模型构建混合算法模型,从而实现城际出行模式的高精度识别,在省域范围内居民跨城市细颗粒度出行模式识别和提出具有高置信度的模式识别基础上能够对已建城市间综合交通网络通勤现状进行评估,并为未来城市间综合交通网络规划和完善提供参考。
附图说明
图1为本发明中技术方案流程示意图;
图2为本发明中混合模型框架示意图;
图3为本发明实施例中江苏省内交通路网图;
图4为本发明实施例中部分样例数据的城际出行轨迹图;
图5为本发明实施例中样本数据个体轨迹打点数分布图;
图6为本发明实施例中不同出行模式下的平均加速度分布图;
图7为本发明实施例中不同出行模式下的采样时间间隔分布图;
图8为本发明实施例中不同出行模式下的采样距离间隔分布图;
图9为本发明实施例中基于随机森林的分类结果混淆矩阵图;
图10为本发明实施例中基于混合模型的分类结果混淆矩阵图。
实施方式
下面结合附图和具体实施例对本发明作出进一步说明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示为基于手机数据的特征与时序双驱动城际出行模式辨识方法,包括以下步骤:
步骤1:根据现有的城际出行主要方式,确定城际出行涉及到的路网类型:本方法涉及城际出行路网类型包括国省道(限速60-100km/h)、高速公路(限速100-120km/h)、普通铁路(时速250km/h及以下)和高速铁路(时速300km/h及以上)四种类型路网分别用{GDGS_R、GG_R、TS_R、TG_R}进行表征,同时以{RS、PS}定义火车站和客运站;
步骤2:根据上一步确定的路网类型从开源地图数据库等渠道中抽取和绘制对应的城际出行路网并分别进行路网类型标记;
步骤3:假设单个4G基站的最大覆盖半径为L,则以2L为宽,路网线段为中线,构建路网缓冲区,提取缓冲区内所有4G基站,并为基站标记上对应路网类型信息,若单个基站落在多个路网缓冲区内,则标记上所有对应路网的信息;
步骤4:信令数据格式如下:
Figure SMS_61
根据手机数据,设定数据提取时间区间为每日的00:00:00-23:59:59,提取在上述时段内的存在“位置上报地市”跳变的信令数据。
进一步的,若存在“A-B-A-B”这样的“位置上报地市”跳变数据,则表示该数据为乒乓数据,选择丢弃;
步骤5:以4G基站列表为中介,实现手机数据与路网信息的关联,使用0(false)、1(real)表示该基站是否落在步骤(1)中所定义的路网类型的缓冲区内,并初步构建信令数据表T={mdn,time,cID,LON,LAT,GG_R,GDGS_R,TG_R,TS_R,RS,PS},其中mdn 为信令数据加密编号,用以表示用户唯一编码,time 为采样时刻,cID表示信令数据打点的4G基站的编号,LON和LAT分别表示基站的经纬度。
步骤6:根据初步建立的表T,分别计算每个mdn的打点时间间隔
Figure SMS_62
其中/>
Figure SMS_63
,表示当前mdn的第i个打点,/>
Figure SMS_64
表示当前mdn的最大有效采样个数 ,/>
Figure SMS_65
表示该mdn的当日的起始打点时刻,/>
Figure SMS_66
表示该mdn的当日的终止打点时刻;
步骤7:根据两个连续点之间的经纬度差计算距离作为两个打点之间的近似里程
Figure SMS_67
。R为地球半径,同时根据里程和时间间隔计算平均速度/>
Figure SMS_68
,平均加速度/>
Figure SMS_69
步骤8:同时进一步地,根据两点之间的经纬度,计算得到当前点与上一点之间的余弦角
Figure SMS_70
用于表示打点方位变化幅度;
步骤9:根据以上计算,得到对应mdn编号的手机用户在当日的单个采样点的特征表
Figure SMS_71
,其中设定/>
Figure SMS_72
;则当日对应mdn编号的手机用户所有采样点的特征列表为:
Figure SMS_73
同时根据城际出行的基本路径,将出行模式分为Type={静止(Static)、国省道(GDGS)、高速(GG)、高铁(TG)、普铁(TS)},作为需要通过机器学习分类识别的出行模式类型;
通过步骤1-9,完成了手机数据向交通特征数据的转化,并为每个mdn建立了特征列表,根据建立的特征列表,如图2所示构建基于随机森林和长短时记忆模型的混合训练模型:
第一步,从特征列表中随机提取n个mdn编号的手机用户数据作为混合模型训练的样本数据,根据单个手机用户当日采样点个数由少到多对样本数据排序,并使用数字编号1-n代替原来手机用户的mdn编号对样本数据进行标记,则样本数据的特征列表如下:
Figure SMS_74
样本数据中任意一个手机用户的单个采样点特征表表示如下:
Figure SMS_75
其中
Figure SMS_76
表示样本数据中第j个手机用户的采样点个数,
Figure SMS_77
同时对该样本数据每个采样点的真实出行状态进行标记,真实出行状态为:
Figure SMS_78
样本数据中任意一个采样点的真实出行状态表示如下:
Figure SMS_79
;其中/>
Figure SMS_80
表示样本数据中第j个手机用户的采样点个数,/>
Figure SMS_81
第二步,将
Figure SMS_82
和/>
Figure SMS_83
输入随机森林模型进行训练并输出出行状态预测值:根据第一步提取到的样本数据,其采样点的总数为:
Figure SMS_84
从N个采样点中采用随机选取的方式选择80%的样本数据作为模型的训练集,剩余的20%作为测试集,并进行5次交叉验证,随机森林由复数个决策树组成,经过复数颗决策树投票结果,用多数树的投票结果作为对单个采样点的出行状态的最终预测结果
Figure SMS_85
,其中/>
Figure SMS_86
表示样本数据中第j个手机用户的采样点个数,/>
Figure SMS_87
那么经过模型训练的样本数据的出行状态预测结果为:
Figure SMS_88
第三步,对第二步得到的
Figure SMS_89
进行处理,使用/>
Figure SMS_90
对出行状态进行表征,其中a,b,c,d,e的取值为0或1,并定义如下:
Figure SMS_91
其中
Figure SMS_93
表示将/>
Figure SMS_96
进行上述方式编码转换后的特征数据,/>
Figure SMS_98
表示将/>
Figure SMS_94
用/>
Figure SMS_95
表征后的/>
Figure SMS_97
, 其中/>
Figure SMS_99
表示样本数据中第j个手机用户的采样点个数,/>
Figure SMS_92
,则:
Figure SMS_100
Figure SMS_101
表示将/>
Figure SMS_102
转化为/>
Figure SMS_103
后,整个样本数据的/>
Figure SMS_104
的新的特征化表示形式。
第四步,将
Figure SMS_105
作为后续LSTM模型训练的样本数据特征量,以手机用户为单位(共n条样本数据),按比例随机分为训练组和测试组:
Figure SMS_106
其中
Figure SMS_107
。为了防止LSTM模型在训练时过拟合,从/>
Figure SMS_108
中进一步拆分出一组验证组/>
Figure SMS_109
,用于每轮网络训练迭代时对网络权重分配进行验证,
同时考虑到单个手机用户轨迹采样点数随出行模式、距离等因素的变化,并非完全一致,在将数据导入构建的LSTM模型时需要对数据长度进行补全,为了尽量减少由于数据补全导致的数据特性发生变化从而影响到分类结果,根据训练组单个手机用户采样点个数,设定最小批量组总组数为M对数据进行等分,分别提取组内最长轨迹的长度
Figure SMS_110
对当前组组内其他轨迹数据进行等长补全/>
Figure SMS_111
,补全的特征用/>
Figure SMS_112
表示,即不含目标分类状态的任何特征信息,以免对分类产生影响,继而我们得到经过补全后的最小批量组第/>
Figure SMS_113
组的输入特征量数据组/>
Figure SMS_114
为:/>
Figure SMS_115
将训练组和验证组数据导入构建的LSTM模型进行网络训练。待网络训练结束后,将测试组数据导入网络进行计算,得到出行模式分类结果。
根据本发明所列步骤,使用中国电信2021年7月11日至15日在江苏省内采集的部分城际出行数据进行实例验证,电信4G基站最大覆盖半径为500米,江苏省域路网图如图3所示,部分样例数据的城际出行轨迹图如图4所示,总共从数据库中随机挑选了443条出行数据,样本数据中个体轨迹数据采样最少为4个点,最多为79个点,数据特性如图5-8所示:
根据上述样本数据,分别使用随机森林模型和上文所述的混合模型进行分类结果准确性评估。从图9和10对比中可知,基于混合模型的分类极大地改善了GDGS、TG和TS出行模式的分类准确性,其中,对国省道出行模式的分类准确性从68.8%提升到了80.1%,对高铁出行模式的分类准确率从76.3%提升到了97.2%,对普铁出行模式的分类准确率从84.5%提升到了98.4%。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作任何其他形式的限制,而依据本发明的技术实质所作的任何修改或等同变化,仍属于本发明所要求保护的范围。

Claims (3)

1.基于手机数据的特征与时序双驱动城际出行模式辨识方法,包括以下步骤,其特征在于:
步骤S1,城际出行路网提取:从开源数据中提取涉及城际出行的路网类型并对出行路网的路网类型进行标识;
步骤S2,根据步骤S1提取的路网类型,绘制和构建城际出行路网, 网图的构建以开源地图为基础;
步骤S3,沿步骤S2构建的城际出行路网,并以基站信号覆盖直径作为路网线路宽度构建路网缓冲区,然后提取缓冲区内所有基站,并为基站标记上路网类型信息,形成基站列表;
步骤S4,根据建立的基站列表和手机数据采集库, 数据库由运营商提供,无法私人获取,从中提取手机信令打点数据即手机数据打点记录后的数据的字段中存在“位置上报地市”跳变的信令数据;
步骤S5,以提取的4G基站列表为中介,其中4G基站列表通过步骤S3 获取,将步骤S4中存在“位置上报地市”跳变的信令数据与步骤S2 构建的网图的路网信息进行关联,从而确定信令数据打点落在哪个或哪几个路网类型的缓冲区中,从而构建跨城市打点的手机数据的特征列表T;
所述步骤S5中构建跨城市打点的手机数据的特征列表T;
T={mdn,time,cID,LON,LAT,GG_R,GDGS_R,TG_R,TS_R,RS,PS}
其中,mdn表示信令数据手机端用户唯一编码,time表示信令数据采样时刻,cID表示信令数据打点的4G基站的编号,LON表示基站的经度,LAT表示基站的维度,GDGS_R为国省道标识,GG_R为高速公路标识,TS_R为普通铁路标识,TG_R为高速铁路标识,RS为火车站标识,PS为客运站标识;
步骤S6,定义以下特征参数:为相邻信令数据打点之间的时间间隔;S为基于打点坐标得到的两个相邻点之间的欧式距离,用于表示近似里程;表示平均速度,a表示两个相邻打点之间的速度变化,即平均加速度,Cos表示相邻打点轨迹连线之间的余弦角,因此计算得到信令数据第i个有效采样数据的打点时刻相对上一时刻打点之间的时间间隔
Figure QLYQS_1
、近似里程/>
Figure QLYQS_2
、平均速度/>
Figure QLYQS_3
、平均加速度/>
Figure QLYQS_4
和余弦角/>
Figure QLYQS_5
,从而得到单个打点第i个时刻的特征列表/>
Figure QLYQS_6
所述步骤S6中单个打点第i个时刻的特征列表,
Figure QLYQS_7
其中,
Figure QLYQS_8
表示第i个有效采样数据是否落在国省道,/>
Figure QLYQS_9
表示第i个有效采样数据是否落在高速公路,/>
Figure QLYQS_10
表示第i个有效采样数据是否落在普铁,/>
Figure QLYQS_11
表示第i个有效采样数据是否落在高铁,/>
Figure QLYQS_12
表示第i个有效采样数据是否落在火车站,/>
Figure QLYQS_13
标识表示第i个有效采样数据是否落在客运站;
Figure QLYQS_14
时,令/>
Figure QLYQS_15
;同时,根据城际出行的基本路径,确定出行状态Type,并以该出行状态作为分类输出结果,
Figure QLYQS_16
上式中,
Figure QLYQS_17
代表静止,GDGS为国省道标识,GG为高速公路标识, TS为普通铁路标识,TG为高速铁路标识;
步骤S7,构建基于随机森林和长短时记忆模型的混合模型,以步骤S6得到的特征列表
Figure QLYQS_18
和出行状态Type作为样本数据对模型进行训练,输出分类结果和准确率;
所述步骤S7的具体步骤包括:
(1)提取样本数据集:从特征表
Figure QLYQS_19
中随机提取n个mdn编号的手机用户数据作为混合模型训练样本数据,并根据单个手机用户当日采样点个数由少到多对样本数据排序,得到mdn编号为j的手机用户的样本特征表 />
Figure QLYQS_20
Figure QLYQS_21
式中
Figure QLYQS_22
,表示样本中编号为j的mdn的特征数据,m为编号为j的手机用户的信令数据的采样序号,/>
Figure QLYQS_23
表示样本中编号为j的手机用户的信令数据采样总个数;
(2)样本出行状态人工标记:对样本特征表
Figure QLYQS_24
的真实出行状态进行人工标记,得到人工标记的出行状态/>
Figure QLYQS_25
Figure QLYQS_26
式中,
Figure QLYQS_27
为编号为j的手机用户的采样序号为m时的真实出行状态;
(3)将
Figure QLYQS_28
和/>
Figure QLYQS_29
输入随机森林模型进行训练并输出出行状态预测值,并根据步骤(1)提取的样本数据集,从中随机选取部分样本数据作为模型训练集,剩余部分作为测试集,进行若干次交叉验证;
随机森林由复数个决策树组成,经过复数次决策投票的结果作为采样点的出行状态的最终预测结果
Figure QLYQS_30
,其中,m为编号为j的手机用户的信令数据的采样序号,/>
Figure QLYQS_31
表示样本中编号为j的手机用户的信令数据采样总个数;
经过随机森林模型训练的样本数据的出行状态预测结果集为
Figure QLYQS_32
(4)对上一个步骤中的出行状态预测结果
Figure QLYQS_33
进行数值编码转化,得到转化后特征数据/>
Figure QLYQS_34
Figure QLYQS_35
式中,
Figure QLYQS_36
为/>
Figure QLYQS_37
经过转化后的特征值,
(5)将步骤(4)转化后的特征数据
Figure QLYQS_38
作为LSTM模型训练的样本数据特征量,以手机用户为单位,按比例随机分为训练组/>
Figure QLYQS_39
和测试组/>
Figure QLYQS_40
,其中表示训练组数据总条数,表示测试组数据总条数,
然后,将训练组
Figure QLYQS_41
和测试组/>
Figure QLYQS_42
数据输入LSTM模型进行网络训练,训练结束后,将测试数据导入网络进行计算,得到出行模式的分类结果;
所述步骤S7的步骤(4)中所述出行状态预测结果
Figure QLYQS_43
进行数值编码转化,具体如下:/>
Figure QLYQS_44
中各种出行状态按照以下进行编码转化:
Figure QLYQS_45
所述步骤S7的步骤(5)中所述训练组
Figure QLYQS_46
中还进行拆分得到一组用于每轮网络训练迭代时对网络权重进行验证的验证组/>
Figure QLYQS_47
表示从训练组数据中抽取出来的验证组数据的总条数;
所述步骤S7的步骤(5)中将转化后的特征数据
Figure QLYQS_48
导入LSTM模型之前,还包括数据补全程序,过程如下:
首先,根据训练组单个手机用户采样点个数,设定最小批量组总组数为M的数据进行等分;
分别提取组内最长轨迹的长度
Figure QLYQS_49
对当前组组内其他轨迹数据进行等长补全
Figure QLYQS_50
,补全的特征用/>
Figure QLYQS_51
表示,即不含目标分类状态的任何特征信息;
得到经过补全后的最小批量组第组的输入特征数据组
Figure QLYQS_52
为:
Figure QLYQS_53
其中
Figure QLYQS_54
表示该最小批量组中第1条样本数据的第1个特征数据,/>
Figure QLYQS_55
表示该最小批量组中第1条样本数据的第/>
Figure QLYQS_56
个特征数据;/>
Figure QLYQS_57
表示单个最小批量组内样本数据的条数;
即;
Figure QLYQS_58
将训练组
Figure QLYQS_59
和验证组/>
Figure QLYQS_60
数据导入构建的LSTM模型进行网络训练;
待网络训练结束后,将测试组数据导入网络进行计算,得到出行模式分类结果;
所述步骤S7的步骤(5)中训练组和测试组的比例分别为80%和20%。
2.根据权利要求1所述基于手机数据的特征与时序双驱动城际出行模式辨识方法,其特征在于:
所述步骤S1中涉及城际出行的路网类型包括国省道、高速公路、普铁和高铁,并以{GDGS、GG、TS、TG}进行表征。
3.根据权利要求2所述基于手机数据的特征与时序双驱动城际出行模式辨识方法,其特征在于:
所述步骤S4提取的存在“位置上报地市”跳变的信令数据中,通过输入关键字查找相关说明,若存在地址反复跳变情形的跳变数据,选择丢弃。
CN202310128846.2A 2023-02-17 2023-02-17 基于手机数据的特征与时序双驱动城际出行模式辨识方法 Active CN115967950B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310128846.2A CN115967950B (zh) 2023-02-17 2023-02-17 基于手机数据的特征与时序双驱动城际出行模式辨识方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310128846.2A CN115967950B (zh) 2023-02-17 2023-02-17 基于手机数据的特征与时序双驱动城际出行模式辨识方法

Publications (2)

Publication Number Publication Date
CN115967950A CN115967950A (zh) 2023-04-14
CN115967950B true CN115967950B (zh) 2023-06-20

Family

ID=85899592

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310128846.2A Active CN115967950B (zh) 2023-02-17 2023-02-17 基于手机数据的特征与时序双驱动城际出行模式辨识方法

Country Status (1)

Country Link
CN (1) CN115967950B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116956133B (zh) * 2023-07-26 2024-02-27 中国地震局地质研究所 基于时序手机信令数据和机器学习的建筑功能识别方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112133090A (zh) * 2020-08-14 2020-12-25 南京瑞栖智能交通技术产业研究院有限公司 一种基于手机信令数据的多方式交通分布模型构建方法
CN112542045B (zh) * 2020-12-01 2021-09-24 江苏欣网视讯软件技术有限公司 基于手机信令识别交通出行方式的方法与系统
CN112711576B (zh) * 2020-12-11 2023-03-10 上海城市交通设计院有限公司 一种识别手机信令数据高铁、飞机城际出行方式的方法
CN112507624B (zh) * 2020-12-15 2023-11-10 交通运输部公路科学研究所 一种城际公路出行方式识别模型构建、识别方法及装置
CN114842641B (zh) * 2022-03-11 2024-02-09 华设设计集团股份有限公司 面向省域的多模式链式交通分配方法

Also Published As

Publication number Publication date
CN115967950A (zh) 2023-04-14

Similar Documents

Publication Publication Date Title
CN111653097B (zh) 一种基于手机信令数据且含个人属性修正的城市出行方式综合识别方法
Caceres et al. Deriving origin–destination data from a mobile phone network
CN111091720B (zh) 基于信令数据和浮动车数据的拥堵路段识别方法及装置
CN107958031B (zh) 基于融合数据的居民出行od分布提取方法
CN104766473A (zh) 基于多模式公交数据匹配的公共交通出行特征提取方法
CN112036757B (zh) 基于手机信令和浮动车数据的停车换乘停车场的选址方法
CN115967950B (zh) 基于手机数据的特征与时序双驱动城际出行模式辨识方法
CN110969861B (zh) 一种车辆识别方法、装置、设备及计算机存储介质
CN109561391A (zh) 基于蜂窝网和Wi-Fi数据的高速公路服务区人流量分析方法
CN115100848B (zh) 一种地面交通拥堵的出行溯源方法和系统
CN108122131A (zh) 基于公共自行车刷卡数据的通勤行为和职住地识别方法
Xu et al. Understanding vehicular routing behavior with location-based service data
CN115830729A (zh) 基于高速公路etc数据融合的车辆出行信息提取方法
Deng et al. Heterogenous Trip Distance‐Based Route Choice Behavior Analysis Using Real‐World Large‐Scale Taxi Trajectory Data
CN116233757A (zh) 一种基于手机信令数据的居民出行碳排放量计算方法
CN109615865B (zh) 一种基于od数据增量迭代式估计路段交通流量的方法
Chen et al. A travel mode identification framework based on cellular signaling data
CN112767686B (zh) 一种基于多源数据融合的公路网汽车排放估算方法
Wu et al. Analysis of the Relationship between Dockless Bicycle‐Sharing and the Metro: Connection, Competition, and Complementation
Yao et al. Trip end identification based on spatial-temporal clustering algorithm using smartphone positioning data
CN108596381B (zh) 基于od数据的城市停车需求预测方法
CN113345252B (zh) 一种收费站下道流量短时预测方法与装置
CN111931968B (zh) 一种应用手机gps数据来优化公共自行车站点布局的方法
Crawford et al. Analysing spatial intrapersonal variability of road users using point-to-point sensor data
Chen et al. Analysis of travel demand between transportation hubs in urban agglomeration based on mobile phone call detail record data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant