CN114493191B - 一种基于网约车数据的驾驶行为建模分析方法 - Google Patents

一种基于网约车数据的驾驶行为建模分析方法 Download PDF

Info

Publication number
CN114493191B
CN114493191B CN202210016003.9A CN202210016003A CN114493191B CN 114493191 B CN114493191 B CN 114493191B CN 202210016003 A CN202210016003 A CN 202210016003A CN 114493191 B CN114493191 B CN 114493191B
Authority
CN
China
Prior art keywords
data
state
driving behavior
driving
driver
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210016003.9A
Other languages
English (en)
Other versions
CN114493191A (zh
Inventor
陆文琦
芮一康
易紫薇
吴任飞
冉斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202210016003.9A priority Critical patent/CN114493191B/zh
Publication of CN114493191A publication Critical patent/CN114493191A/zh
Application granted granted Critical
Publication of CN114493191B publication Critical patent/CN114493191B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2477Temporal data queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/40Business processes related to the transportation industry
    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07CTIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
    • G07C5/00Registering or indicating the working of vehicles
    • G07C5/08Registering or indicating performance data other than driving, working, idle, or waiting time, with or without registering driving, working, idle or waiting time
    • G07C5/0808Diagnosing performance data
    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07CTIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
    • G07C5/00Registering or indicating the working of vehicles
    • G07C5/08Registering or indicating performance data other than driving, working, idle, or waiting time, with or without registering driving, working, idle or waiting time
    • G07C5/0841Registering performance data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Tourism & Hospitality (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Evolutionary Computation (AREA)
  • Quality & Reliability (AREA)
  • Marketing (AREA)
  • Fuzzy Systems (AREA)
  • Artificial Intelligence (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • General Business, Economics & Management (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Game Theory and Decision Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Operations Research (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Remote Sensing (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种基于网约车数据的驾驶行为建模及分析方法,具体包括:提取网约车轨迹数据和订单起讫点数据并进行预处理,得到含有速度和加速度变量的多组驾驶特征序列数据;采用基于分层狄利克雷过程‑隐半马尔科夫的改进非参数贝叶斯学习模型进行驾驶行为建模,对车辆的驾驶行为状态进行识别。构建状态空间向量对驾驶员的驾驶风格类型进行表征,并采用改进K‑means聚类算法对驾驶员进行聚类;依据驾驶行为状态识别和驾驶风格分类结果,可分析不同风格的类型驾驶员在不同交通运行状态下驾驶行为状态。本发明实现了对车辆驾驶行为状态进行识别以及对驾驶者类型划分,从而实现特定场景下不同类型驾驶员驾驶行为的分析。

Description

一种基于网约车数据的驾驶行为建模分析方法
技术领域
本发明涉及驾驶行为建模分析方法,尤其一种基于网约车数据的驾驶行为建模分析方法。
背景技术
近年人工智能为代表的科技革命的推动下,新一代移动通信技术、大数据、云平台、物联网等先进技术与城市交通系统有机结合,推动了智能网联汽车与智能驾驶的发展。作为智能驾驶和智能交通系统发展道路上的重要组成,驾驶行为建模和分析受到了广泛地关注和研究。通过研究多种场景下的驾驶行为可以实时了解车辆的行车状态,行而有效地提高行车安全,在对未来驾驶环境进行预估的基础上,对驾驶行为进行准确的估计和评价,实现对危险驾驶行为的精确预警,从而为驾驶者提供个性化的高级驾驶辅助服务。
现阶段对驾驶行为建模的方法主要采用驾驶模拟器,通过驾驶仿真来获取驾驶者的行为特征,但该类方法实验价格昂贵,实验数据量有限,且驾驶模拟器仿真对驾驶者的行为有一定干扰,难以真实反映驾驶行为。随着智能手机的普及,城市网约车轨迹数据的应用为驾驶行为建模提供了新的思路,网约车数据具有数据量大且信息丰富的优势。因此,如何基于城市交通系统中的大量的网约车数据,直接提取出车辆的多维特征,构建驾驶行为分析方法是一个值得研究的问题。
发明内容
本发明所要解决的技术问题在于,提供一种基于网约车数据的驾驶行为建模分析方法,为探究驾驶行为、制定个性化的高级驾驶辅助提供支持和保障。
为解决上述技术问题,本发明提供以下技术方案:
一种基于网约车数据的驾驶行为建模方法,包括如下步骤:
(1)提取网约车的轨迹数据和订单起讫点数据,并进行预处理,得到含有速度和加速度变量的多组驾驶特征序列数据;
(2)基于步骤(1)中预处理得到的多组驾驶特征序列数据,采用改进的非参数贝叶斯学习模型进行驾驶行为建模。
进一步,所述步骤(1)中网约车的轨迹数据包括司机ID、订单ID、时间戳、经度和纬度;订单起讫点数据包括订单ID、开始计费时间、结束计费时间、上车位置经度、上车位置纬度、下车位置经度下车位置纬度。
进一步,所述步骤(1)中对轨迹数据进行预处理的方法包括:
1)短行程去除:删去GPS轨迹点数量不满足设定条件的轨迹行程;
2)驾驶特征提取:结合GPS轨迹点采样时间间隔信息和车辆位置序列信息,计算车辆实时的运行特征;
3)异常值移除或平滑:对出现异常点数量大于5的行程予以剔除,对出现异常点数量小于等于5的行程实施特征值平滑处理,以提升驾驶行为建模试验数据集的质量,其中异常点是指显著偏离道路范围的GPS轨迹点;
4)坐标系转换及时间窗切分、空间映射:将GPS轨迹点的经纬度转换至标准WGS-84国际通用坐标系统;同时,为给轨迹点建立时间索引,以5min为基本时间切片区间,将一天24小时划分为288个时间窗,每个时间窗长度为5min,每个GPS轨迹点均被映射至对应的时间窗区间;
对订单数据进行预处理方法包括:重复数据剔除、OD地理筛选、时间片窗切分、坐标系转换、空间映射,其中:OD地理筛选是指筛选出起讫点均在研究范围内的订单。
进一步,所述步骤(2)具体如下:
S1:对多组驾驶特征序列数据进行随机采样获取建模数据集,并将建模数据集划分为训练数据集和测试数据集;
S2:利用基于分层狄利克雷过程-隐半马尔可夫的非参数贝叶斯学习模型对驾驶特征序列数据进行建模,所述的分层狄利克雷过程-隐半马尔可夫模型过程如下:
β|γ~GEM(γ)
πj|β,α~DP(α,β)j=1,2,...
θj|H(λ),λ~H(λ)j=1,2,...
ωj|Ω~Ωj=1,2,...
其中GEM(·)表示截棍构造Stick-breaking过程;β为离散测度变量序列,βj为β的第j个元素,γ表示集中系数;β|γ表示在给定γ下,β服从GEM过程;DP(·)表示狄利克雷DP过程,α表示DP过程的集中系数,π为由DP过程生成的状态转移概率矩阵,πji为状态转移概率矩阵的第j行第i列,πj为状态转移概率矩阵的第j行;πj|β,α表示在给定β,α下,πj服从DP分布;H(·)表示基分布,λ为H(λ)的分布参数;θj为由H(λ)产生的变量序列θ的第j个元素,θj|H(λ),λ表示在给定H(λ),λ下,θj服从基分布;ωj为特定状态持续时间分布的参数,Ω为给定样本空间;/>利用以πj到/>的确定性转移消除zs中的自转移;当i=j时δij为1,否则δij=0;zs、zs-1分别表示驾驶行为状态序列的第s个和第s-1个状态,zs为隐半马尔科夫模型的隐状态,s表示驾驶行为状态序列及其观测状态序列的时间戳,且s=1,2,...,S,S为驾驶行为状态序列的长度;Ds表示zs的驻留时间,D(.)为采样得出的参数化的状态驻留时长分布,/>为分布参数;ys表示驾驶行为观测状态,ys由驻留时间Ds中的一系列观测动作构成,t为观测动作序列的时间戳,t=1,2,...,T,T为观测动作序列的长度,y't表示t时刻的观测动作,且时刻t所观测的动作包括车辆的速度和加速度;/> Ds'为驾驶行为状态zs'的驻留时间,f(.)为采样得出的参数化的观测量分布,/>为分布参数,iid表示独立同分布independently identically distribution;/>表示在给定/>下,ys服从f(.)分布;
S3:采用吉布斯采样法并结合多组驾驶特征序列数据推断S2中模型的隐含变量,实现对驾驶行为状态的识别。
一种基于网约车数据的驾驶行为分析方法,基于上述建模方法所建模型的驾驶行为状态识别结果,包括如下步骤:
1)以各驾驶员的驾驶特征序列数据中的速度、加速度特征为基础,使用驾驶特征序列数据中速度和加速度的最大值、最小值、25分位数、75分位数、均值、标准差作为统计特征对速度和加速度进行描述,构建表征驾驶风格的状态空间向量,并采用改进K-means聚类算法进行聚类,得到依据驾驶风格的驾驶员分类结果;其中,第n个驾驶者的状态空间向量表示为 分别表示第n个驾驶者的速度最大值、速度最小值、速度25分位数、速度75分位数、速度均值、速度标准差、加速度最大值、加速度最小值、加速度25分位数、加速度75分位数、加速度均值、加速度标准差;
2)根据驾驶行为状态识别结果和驾驶员分类结果,得出不同驾驶风格类型的驾驶员在不同交通运行状态下的不同驾驶行为频率分布情况;其中依据网约车轨迹数据覆盖路段的平均速度,交通运行状态分为自由流状态、缓行状态和阻塞状态三种。
进一步,所述步骤1)所述的采用改进K-means聚类算法对状态空间向量进行聚类,具体步骤如下:
Step1:选定K的值,其中K∈[2,Kmax],其中Kmax为预设的聚类算法的最大分类数量;
Step2:从N个驾驶员中任意选择一个驾驶员作为第1个初始聚类中心C1,D(Yi,C1)为其余N-1个驾驶员中第i个驾驶员Yi与C1之间的欧式距离:
式中为驾驶员Yi的状态空间向量,/>为聚类中心C1的状态空间向量;
计算成为第k个初始聚类中心的概率P(Yi):
基于概率最大原则,选出第k个初始聚类中心Ck,重复上述步骤,直至选出所有的初始聚类中心,构成集合C={Ck|k=1,2,...,K};
Step3:求出每个驾驶员与所有初始聚类中心之间的欧式距离,基于距离最短的原则将每个驾驶员归到与其之间欧式距离最短的初始聚类中心对应的类别Zk,其中k=1,2,...,K,Zm为以第m个初始聚类中心Cm为中心的类别;对于第l个驾驶员Yl,若则Yl∈Zk,D(Yl,Ci)为驾驶员Yl与聚类中心Ci之间的欧式距离;
Step4:计算Step3得到的各类别的聚类中心n为Zk中的驾驶员数量;
Step5:计算聚类准则函数如果/>则进入Step6,否则返回Step2,其中,l为聚类准则临界值;
Step6:计算戴维森堡丁指数,其中,/>和/>分别为第p个类别和第q个类别中任两个驾驶员之间的欧式距离的平均值,Cp和Cq分别为第p个类别和第q个类别的聚类中心,D(Cp,Cq)为Cp和Cq之间的欧式距离;
Step7:令K=K+1,若K≤Kmax则返回Step1,否则进入Step8;
Step8:选择戴维森堡丁指数IDB最大时对应的K作为最优聚类数,输出最优聚类数K以及对应的K个类别。
本发明结合网约车数据,对原始轨迹和订单数据进行数据预处理,得到应用于后续建模分析的车辆速度、加速度、经纬度等信息;根据车辆驾驶员自然驾驶数据中的速度和加速度信息,采用改进非参数贝叶斯学习模型对车辆的行为状态进行识别,得到特定数量的驾驶行为状态;并利用改进K-means聚类算法对驾驶员进行聚类,得到不同类型的驾驶者;进而可以分析不同驾驶者在不同交通运行状态下的驾驶行为状态。本发明实现了基于网约车数据的驾驶行为建模分析方法,为交通行为和交通安全分析提供技术支撑。
附图说明
图1为本发明实施例的方法流程图;
图2为本发明实施例中网约车轨迹及订单数据覆盖范围;
图3为本发明实施例中分层狄利克雷过程-隐半马尔科夫模型的概率图;
图4为本发明实施例中观测动作序列以及驾驶行为观测状态序列示意图;
图5为本发明实施例中改进非参数贝叶斯学习模型的驾驶行为状态识别结果;
图6为本发明实施例中某驾驶员特定行程的驾驶状态;
图7为本发明实施例中改进K-means聚类不同聚类数对应的戴维森堡丁指数;
图8为本发明实施例中改进K-means聚类的驾驶员分类结果;
图9为本发明实施例中自由流状态下不同类别驾驶员状态行为对比。
具体实施方式
下面结合具体实施例以及附图,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
在一个实施例中,如图1所示,提供了一种基于网约车数据的驾驶行为建模方法,主要包括如下步骤:
步骤(1):提取网约车轨迹数据和订单起讫点数据,对原始轨迹和订单数据实施数据预处理,得到应用于后续建模分析的含有车辆速度、加速度、经纬度信息的的多组驾驶特征序列数据;
步骤(2):根据多组驾驶特征序列数据中的速度和加速信息,采用改进的非参数贝叶斯学习模型进行驾驶行为建模,对车辆驾驶员的驾驶行为状态进行识别,得到特定数量的驾驶行为状态。
在一个实施例中,步骤(1)所述的网约车轨迹数据包括司机ID、订单ID、时间戳、经度和纬度等;订单起讫点数据包括订单ID、开始计费时间、结束计费时间、上车位置经度、上车位置纬度、下车位置经度、等数据下车位置纬度等数据。
在一个实施例中,步骤(1)所述的轨迹数据处理预方法包括:
1)短行程去除:移除原始数据中GPS数据点过少的行程,若单次行程时间小于5min或者行程轨迹点数量小于50个,则该行程订单需要去除;
2)驾驶特征提取:结合轨迹点采样时间间隔信息和车辆位置序列信息,计算车辆实时的运行特征,如速度、加速度等,可间接反映驾驶员行为决策信息。利用轨迹点间距换算技术,将原始经纬度数据转换为轨迹点间距(m),结合时间间隔信息推算车辆实时速度(km/h)、加速度(m/s2),作为原始驾驶行为特征。
式中vt为t时刻车辆速度,km/h;at为t时刻车辆加速度;Wt为t时刻车辆经度和纬度;fl(.)为轨迹点经纬度转距离函数;ft(.)为作差函数。
3)异常值移除或平滑:对于一次行程中出现异常值点数量大于3的行程予以剔除,对数量小于等于3的行程实施特征值平滑处理,即参照异常点上下文特征值进行均值替换,以保证驾驶行为建模试验数据集的高质量,异常点是指显著偏离道路范围的轨迹点。
4)坐标系转换及时间窗切分、空间映射:原始GPS经纬度转换为标准WGS84国际通用坐标系统。同时,为给轨迹点建立时间索引,以5min为基本时间切片区间,将一天24小时划分为288个时间窗,每个时间窗长度为5min,每个轨迹点均被映射至对应的时间窗区间。
在一个实施例中,步骤(1)所述的订单数据预处理方法包括:重复数据剔除、OD地理筛选、时间片窗切分、坐标系转换、空间映射。其中:OD地理筛选是指筛选出起讫点均在研究范围内的订单。
在一个实施例中,步骤(2)具体过程如下:
S1:对多组驾驶特征序列数据进行随机采样获取建模数据集,并将建模数据集划分为训练数据集和测试数据集。
S2:利用基于分层狄利克雷过程-隐半马尔可夫的非参数贝叶斯学习模型对驾驶特征序列数据进行建模。构造分层狄利克雷过程作为隐半马尔可夫模型参数的先验分布,通过多组观测数据计算模型的后验概率。对隐半马尔可夫模型参数的参数进行动态调整,确定驾驶行为的状态数。
所述的分层狄利克雷过程-隐半马尔可夫模型过程如下:
β|γ~GEM(γ)
πj|β,α~DP(α,β)j=1,2,...
θj|H(λ),λ~H(λ)j=1,2,...
ωj|Ω~Ωj=1,2,...
其中GEM(·)表示截棍构造Stick-breaking过程;β为离散测度变量序列,βj为β的第j个元素,γ表示集中系数;β|γ表示在给定γ下,β服从GEM过程;DP(·)表示狄利克雷DP过程,α表示DP过程的集中系数,π为由DP过程生成的状态转移概率矩阵,πji为状态转移概率矩阵的第j行第i列,πj为状态转移概率矩阵的第j行;πj|β,α表示在给定β,α下,πj服从DP分布;H(·)表示基分布,λ为H(λ)的分布参数;θj为由H(λ)产生的变量序列θ的第j个元素,θj|H(λ),λ表示在给定H(λ),λ下,θj服从基分布;ωj为特定状态持续时间分布的参数,Ω为给定样本空间;/>利用以πj到/>的确定性转移消除zs中的自转移;当i=j时δij为1,否则δij=0;zs、zs-1分别表示驾驶行为状态序列的第s个和第s-1个状态,zs为隐半马尔科夫模型的隐状态,s表示驾驶行为状态序列及其观测状态序列的时间戳,且s=1,2,...,S,S为驾驶行为状态序列的长度;Ds表示zs的驻留时间,D(.)为采样得出的参数化的状态驻留时长分布,/>为分布参数;ys表示驾驶行为观测状态,ys由驻留时间Ds中的一系列观测动作构成,t为观测动作序列的时间戳,t=1,2,...,T,T为观测动作序列的长度,y't表示t时刻的观测动作,且时刻t所观测的动作包括车辆的速度和加速度;/> Ds'为驾驶行为状态zs'的驻留时间,f(.)为采样得出的参数化的观测量分布,/>为分布参数,iid表示独立同分布independently identically distribution;表示在给定/>下,ys服从f(.)分布。
如图9所示,观测动作序列ys的时间轴是1,2,…,T,驾驶行为观测状态y't的时间轴是1,2,…,S,每个s对应于观测动作序列时间轴上的一段时间,若s=1,t=1,2,3,…,x,S=2,t=x+1,x+2,…。只是在某个时刻的观测动作,/>是指包含/>和/>在内的Ds个观测动作,等同于ys
S3:采用吉布斯采样法并结合多组驾驶特征序列数据推断S2中模型的隐含变量,实现对驾驶行为状态的识别。
在一个实施例中,基于上述实施例所建模型的驾驶行为状态识别结果,提供了一种基于网约车数据的驾驶行为分析方法,包括如下步骤:
步骤1):以各驾驶员的驾驶特征序列数据中的速度、加速度特征为基础,使用驾驶特征序列数据中速度和加速度的最大值、最小值、25分位数、75分位数、均值、标准差作为统计特征对速度和加速度进行描述,构建表征驾驶风格的状态空间向量,并采用改进K-means聚类算法进行聚类,得到依据驾驶风格的驾驶员分类结果。
步骤2)根据驾驶行为状态识别结果和驾驶员分类结果,可依据轨迹数据中提取的平均速度,划分路网交通运行状态,进而可分析出不同驾驶风格类型的驾驶员在不同交通运行状态下的不同驾驶行为频率分布情况。其中交通运行状态依据网约车轨迹数据覆盖路段的平均速度,分为自由流状态、缓行状态和阻塞状态。
在一个实施例中,步骤1)所述的基于改进K-means驾驶员分类方法将第n个驾驶者的状态空间用12个统计特征构建,包括速度最大值速度最小值/>速度25分位数/>速度75分位数/>速度均值/>速度标准差/>加速度最大值/>加速度最小值/>加速度25分位数/>加速度75分位数/>加速度均值/>加速度标准差/>所述驾驶员的状态空间Hn如下:
若经过轨迹数据提取后的数据集中有N个驾驶员样本数据要划分成K类,具体步骤如下:
Step1:选定K的值,其中K∈[2,Kmax],其中Kmax为预设的聚类算法的最大分类数量;
Step2:从N个驾驶员中任意选择一个驾驶员作为第1个初始聚类中心C1,D(Yi,C1)为其余N-1个驾驶员中第i个驾驶员Yi与C1之间的欧式距离:
式中为驾驶员Yi的状态空间向量,/>为聚类中心C1的状态空间向量;
计算成为第k个初始聚类中心的概率P(Yi):
基于概率最大原则,选出第k个初始聚类中心Ck,重复上述步骤,直至选出所有的初始聚类中心,构成集合C={Ck|k=1,2,...,K};
Step3:求出每个驾驶员与所有初始聚类中心之间的欧式距离,基于距离最短的原则将每个驾驶员归到与其之间欧式距离最短的初始聚类中心对应的类别Zk,其中k=1,2,...,K,Zm为以第m个初始聚类中心Cm为中心的类别;对于第l个驾驶员Yl,若则Yl∈Zk,D(Yl,Ci)为驾驶员Yl与聚类中心Ci之间的欧式距离;
Step4:计算Step3得到的各类别的聚类中心n为Zk中的驾驶员数量;
Step5:计算聚类准则函数如果/>则进入Step6,否则返回Step2,其中,l为聚类准则临界值;
Step6:计算戴维森堡丁指数,其中,/>和/>分别为第p个类别和第q个类别中任两个驾驶员之间的欧式距离的平均值,Cp和Cq分别为第p个类别和第q个类别的聚类中心,D(Cp,Cq)为Cp和Cq之间的欧式距离;
Step7:令K=K+1,若K≤Kmax则返回Step1,否则进入Step8;
Step8:选择戴维森堡丁指数IDB最大时对应的K作为最优聚类数,输出最优聚类数K以及对应的K个类别。
在一个实施例中,提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的基于网约车数据的驾驶行为建模方法。
一个实施例中,提供了一种基于网约车数据的驾驶行为建模设备,包括:存储器和处理器;所述存储器上存储有计算机程序,当所述计算机程序被所述处理器执行时,实现如上所述的基于网约车数据的驾驶行为建模方法。
一个实施例中,提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的基于网约车数据的驾驶行为分析方法。
一个实施例中,提供了一种基于网约车数据的驾驶行为分析设备,包括:存储器和处理器;所述存储器上存储有计算机程序,当所述计算机程序被所述处理器执行时,实现如上所述的基于网约车数据的驾驶行为分析方法。
上述该计算机可读存储介质可以包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
在一个实施例中,使用滴滴网约车平台的订单司机轨迹数据,研究范围内的城市道路路网如图2所示。轨迹点的采集间隔是2~6s,轨迹点与实际路网进行绑定,从而保证轨迹和订单数据可以与实际路网相匹配。研究范围内包含2016年11月1日至2016年11月30日经过筛选的1000位驾驶员3723个订单数据。其中述的网约车轨迹数据包括司机ID、订单ID、时间戳、经度和纬度等;订单起讫点数据包括订单ID、开始计费时间、结束计费时间、上车位置经度、上车位置纬度、下车位置经度等数据。
根据步骤(1)提取包含速度和加速度的驾驶特征序列数据,对网约车轨迹数据进行包括短行程去除、驾驶特征提取、异常值移除或平滑、坐标系转换及时间窗切分在内的预处理;对订单数据进行重复数据剔除、OD地理筛选、时间片划分、坐标系转换、空间映射在内的预处理。
根据步骤(2)采用如图3所示的基于分层狄利克雷过程-隐半马尔科夫的改进非参数贝叶斯学习模型对含有速度和加速度数据等数据的多组驾驶特征序列数据进行建模,图4显示了建模过程中的观测动作序列以及驾驶行为观测状态序列。建模后采用吉布斯采样对模型参数进行推断,从而获得如图5所示的25个驾驶行为状态。图6显示了某驾驶员在在单次行程中的行为状态。
根据步骤(3)所述的以各驾驶者的12个统计特征构建驾驶者的状态空间,并采用改进K-means方法进行聚类分析,如图7所示,根据戴维森堡丁指数可知,将1000位驾驶者划分为3类较为合理,DBI可以取到最小值为1.102。并且图8给出了不同类型驾驶者的数量,通过对这三类驾驶者的状态空间参数进行分析,可以得到如表1所示。
表1:不同类型驾驶者的参数特征
根据步骤(4)所述,利用研究范围内网约车的轨迹数据,计算每5min内各路段上网约车的平均速度作为该路段平均车速,依据路段平均车速将交通状态划分成3类,路段平均车速大于35km/h为自由流状态,路段平均车速介于15km/h至35km/h之间为缓行状态,路段平均车速小于15km/h为阻塞状态。如图9所示,基于步骤(2)对驾驶行为状态识别以及步骤(3)对驾驶员风格的分类,得出不同风格类型的驾驶员在自由流状态下不同驾驶行为频率分布情况。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

Claims (3)

1.一种基于网约车数据的驾驶行为分析方法,其特征在于,包括如下步骤:
1)提取网约车的轨迹数据和订单起讫点数据,并进行预处理,得到含有速度和加速度变量的多组驾驶特征序列数据;
所述步骤1)中网约车的轨迹数据包括司机ID、订单ID、时间戳、经度和纬度;订单起讫点数据包括订单ID、开始计费时间、结束计费时间、上车位置经度、上车位置纬度、下车位置经度下车位置纬度;
所述步骤1)中对轨迹数据进行预处理的方法包括:
1)短行程去除:删去GPS轨迹点数量不满足设定条件的轨迹行程;
2)驾驶特征提取:结合GPS轨迹点采样时间间隔信息和车辆位置序列信息,计算车辆实时的运行特征;
3)异常值移除或平滑:对出现异常点数量大于5的行程予以剔除,对出现异常点数量小于等于5的行程实施特征值平滑处理,以提升驾驶行为建模试验数据集的质量,其中异常点是指显著偏离道路范围的GPS轨迹点;
4)坐标系转换及时间窗切分、空间映射:将GPS轨迹点的经纬度转换至标准WGS-84国际通用坐标系统;同时,为给轨迹点建立时间索引,以5min为基本时间切片区间,将一天24小时划分为288个时间窗,每个时间窗长度为5min,每个GPS轨迹点均被映射至对应的时间窗区间;
对订单数据进行预处理方法包括:重复数据剔除、OD地理筛选、时间片窗切分、坐标系转换、空间映射,其中:OD地理筛选是指筛选出起讫点均在研究范围内的订单;
2)基于步骤1)中预处理得到的多组驾驶特征序列数据,采用改进的非参数贝叶斯学习模型进行驾驶行为建模;
所述步骤2)具体如下:
S1:对多组驾驶特征序列数据进行随机采样获取建模数据集,并将建模数据集划分为训练数据集和测试数据集;
S2:利用基于分层狄利克雷过程-隐半马尔可夫的非参数贝叶斯学习模型对驾驶特征序列数据进行建模,所述的分层狄利克雷过程-隐半马尔可夫模型过程如下:
β|γ~GEM(γ)
πj|β,α~DP(α,β) j=1,2,...
θj|H(λ),λ~H(λ) j=1,2,...
ωj|Ω~Ω j=1,2,...
其中GEM(·)表示截棍构造Stick-breaking过程;β为离散测度变量序列,βj为β的第j个元素,γ表示集中系数;β|γ表示在给定γ下,β服从GEM过程;DP(·)表示狄利克雷DP过程,α表示DP过程的集中系数,π为由DP过程生成的状态转移概率矩阵,πji为状态转移概率矩阵的第j行第i列,πj为状态转移概率矩阵的第j行;πj|β,α表示在给定β,α下,πj服从DP分布;H(·)表示基分布,λ为H(λ)的分布参数;θj为由H(λ)产生的变量序列θ的第j个元素,θj|H(λ),λ表示在给定H(λ),λ下,θj服从基分布;ωj为特定状态持续时间分布的参数,Ω为给定样本空间;/>利用以πj到/>的确定性转移消除zs中的自转移;当i=j时δij为1,否则δij=0;zs、zs-1分别表示驾驶行为状态序列的第s个和第s-1个状态,zs为隐半马尔科夫模型的隐状态,s表示驾驶行为状态序列及其观测状态序列的时间戳,且s=1,2,...,S,S为驾驶行为状态序列的长度;Ds表示zs的驻留时间,D(.)为采样得出的参数化的状态驻留时长分布,/>为分布参数;ys表示驾驶行为观测状态,ys由驻留时间Ds中的一系列观测动作构成,t为观测动作序列的时间戳,t=1,2,...,T,T为观测动作序列的长度,y't表示t时刻的观测动作,且时刻t所观测的动作包括车辆的速度和加速度;/> Ds'为驾驶行为状态zs'的驻留时间,f(.)为采样得出的参数化的观测量分布,/>为分布参数,iid表示独立同分布independently identically distribution;/>表示在给定/>下,ys服从f(.)分布;
S3:采用吉布斯采样法并结合多组驾驶特征序列数据推断S2中模型的隐含变量,实现对驾驶行为状态的识别;
3)以各驾驶员的驾驶特征序列数据中的速度、加速度特征为基础,使用驾驶特征序列数据中速度和加速度的最大值、最小值、25分位数、75分位数、均值、标准差作为统计特征对速度和加速度进行描述,构建表征驾驶风格的状态空间向量,并采用改进K-means聚类算法进行聚类,得到依据驾驶风格的驾驶员分类结果;其中,第n个驾驶者的状态空间向量表示为 分别表示第n个驾驶者的速度最大值、速度最小值、速度25分位数、速度75分位数、速度均值、速度标准差、加速度最大值、加速度最小值、加速度25分位数、加速度75分位数、加速度均值、加速度标准差;
所述步骤3)所述的采用改进K-means聚类算法对状态空间向量进行聚类,具体步骤如下:
Step1:选定K的值,其中K∈[2,Kmax],其中Kmax为预设的聚类算法的最大分类数量;
Step2:从N个驾驶员中任意选择一个驾驶员作为第1个初始聚类中心C1,D(Yi,C1)为其余N-1个驾驶员中第i个驾驶员Yi与C1之间的欧式距离:
式中为驾驶员Yi的状态空间向量,/>为聚类中心C1的状态空间向量;
计算成为第k个初始聚类中心的概率P(Yi):
基于概率最大原则,选出第k个初始聚类中心Ck,重复上述步骤,直至选出所有的初始聚类中心,构成集合C={Ck|k=1,2,...,K};
Step3:求出每个驾驶员与所有初始聚类中心之间的欧式距离,基于距离最短的原则将每个驾驶员归到与其之间欧式距离最短的初始聚类中心对应的类别Zk,其中k=1,2,...,K,Zm为以第m个初始聚类中心Cm为中心的类别;对于第l个驾驶员Yl,若则Yl∈Zk,D(Yl,Ci)为驾驶员Yl与聚类中心Ci之间的欧式距离;
Step4:计算Step3得到的各类别的聚类中心n为Zk中的驾驶员数量;
Step5:计算聚类准则函数如果G≤l,则进入Step6,否则返回Step2,其中,l为聚类准则临界值;
Step6:计算戴维森堡丁指数,其中,/>和/>分别为第p个类别和第q个类别中任两个驾驶员之间的欧式距离的平均值,Cp和Cq分别为第p个类别和第q个类别的聚类中心,D(Cp,Cq)为Cp和Cq之间的欧式距离;
Step7:令K=K+1,若K≤Kmax则返回Step1,否则进入Step8;
Step8:选择戴维森堡丁指数IDB最大时对应的K作为最优聚类数,输出最优聚类数K以及对应的K个类别;
4)根据驾驶行为状态识别结果和驾驶员分类结果,得出不同驾驶风格类型的驾驶员在不同交通运行状态下的不同驾驶行为频率分布情况;其中依据网约车轨迹数据覆盖路段的平均速度,交通运行状态分为自由流状态、缓行状态和阻塞状态三种。
2.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1所述的基于网约车数据的驾驶行为分析方法。
3.一种基于网约车数据的驾驶行为分析设备,其特征在于,包括:存储器和处理器;所述存储器上存储有计算机程序,当所述计算机程序被所述处理器执行时,实现如权利要求1所述的基于网约车数据的驾驶行为分析方法。
CN202210016003.9A 2022-01-07 2022-01-07 一种基于网约车数据的驾驶行为建模分析方法 Active CN114493191B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210016003.9A CN114493191B (zh) 2022-01-07 2022-01-07 一种基于网约车数据的驾驶行为建模分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210016003.9A CN114493191B (zh) 2022-01-07 2022-01-07 一种基于网约车数据的驾驶行为建模分析方法

Publications (2)

Publication Number Publication Date
CN114493191A CN114493191A (zh) 2022-05-13
CN114493191B true CN114493191B (zh) 2024-04-30

Family

ID=81510019

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210016003.9A Active CN114493191B (zh) 2022-01-07 2022-01-07 一种基于网约车数据的驾驶行为建模分析方法

Country Status (1)

Country Link
CN (1) CN114493191B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115056798B (zh) * 2022-05-30 2024-04-09 天津大学 一种基于贝叶斯博弈的自动驾驶车辆换道行为车路协同决策算法
CN115081545B (zh) * 2022-07-22 2022-11-25 天津所托瑞安汽车科技有限公司 司机轮换识别方法以及识别模型构建方法
CN115512544B (zh) * 2022-09-22 2023-08-29 同济大学 一种基于状态识别的公交运行评估方法和系统
CN115995151B (zh) * 2023-03-06 2023-12-22 北京白龙马云行科技有限公司 应用于城市管理的网约车异常行为检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019114432A1 (zh) * 2017-12-13 2019-06-20 腾讯科技(深圳)有限公司 路况生成方法、装置、设备和存储介质
AU2020103488A4 (en) * 2020-11-17 2021-01-28 Chang'an University Method and device for evaluating driving behaviour of truck based on gps trajectory data
CN113297685A (zh) * 2021-07-27 2021-08-24 中汽研(天津)汽车工程研究院有限公司 一种车辆运行工况模式识别方法
CN113642682A (zh) * 2021-10-14 2021-11-12 北京理工大学 一种多车交互环境下的轨迹基元提取与分析方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019114432A1 (zh) * 2017-12-13 2019-06-20 腾讯科技(深圳)有限公司 路况生成方法、装置、设备和存储介质
AU2020103488A4 (en) * 2020-11-17 2021-01-28 Chang'an University Method and device for evaluating driving behaviour of truck based on gps trajectory data
CN113297685A (zh) * 2021-07-27 2021-08-24 中汽研(天津)汽车工程研究院有限公司 一种车辆运行工况模式识别方法
CN113642682A (zh) * 2021-10-14 2021-11-12 北京理工大学 一种多车交互环境下的轨迹基元提取与分析方法和系统

Also Published As

Publication number Publication date
CN114493191A (zh) 2022-05-13

Similar Documents

Publication Publication Date Title
CN114493191B (zh) 一种基于网约车数据的驾驶行为建模分析方法
Dong et al. Characterizing driving styles with deep learning
CN109840660B (zh) 一种车辆特征数据处理方法及车辆风险预测模型训练方法
CN108022012A (zh) 基于深度学习的车辆位置预测方法
CN112347993B (zh) 一种基于车辆-无人机协同的高速公路车辆行为和轨迹预测方法
CN115018016B (zh) 一种人工驾驶车辆换道意图识别方法和系统
JP7226855B2 (ja) 列車がトンネルを通過する時間の計算方法、システム及び記憶媒体
CN111582559B (zh) 一种到达时间的预估方法及装置
CN110223515B (zh) 一种车辆轨迹生成方法
CN111368879A (zh) 一种基于深半监督神经网络的轨迹数据挖掘方法
CN113127591B (zh) 一种基于Transformer和LSTM的位置预测方法
CN112101132B (zh) 一种基于图嵌入模型和度量学习的交通状况预测方法
CN117350519B (zh) 基于新能源乘用车充电需求预测的充电站规划方法及系统
CN112651570A (zh) 高速公路服务区交通量预测模型构建、预测方法及装置
Le Rhun et al. A stochastic data-based traffic model applied to vehicles energy consumption estimation
CN109145175B (zh) 基于stacking集成学习算法的时空数据预测方法
CN112559968B (zh) 一种基于多情境数据的驾驶风格表征学习方法
CN117436653A (zh) 一种网约车出行需求的预测模型构建方法和预测方法
CN115114786B (zh) 一种用于交通流仿真模型的评估方法、系统和存储介质
CN112651577B (zh) 一种基于融合时空数据的隧道形变预测方法
CN113252057A (zh) 一种基于高德导航数据的驾驶倾向性辨识方法和系统
SAN et al. Efficient Vehicle Recognition and Classification using Convolutional Neural Network
Siaminamini et al. Generating a risk profile for car insurance policyholders: A deep learning conceptual model
Mousa et al. Comparative evaluation of tree-based ensemble algorithms for short-term travel time prediction
CN116340767B (zh) 一种电动汽车行程能耗概率分布预测方法、系统及产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant