CN114493191B

CN114493191B - 一种基于网约车数据的驾驶行为建模分析方法

Info

Publication number: CN114493191B
Application number: CN202210016003.9A
Authority: CN
Inventors: 陆文琦; 芮一康; 易紫薇; 吴任飞; 冉斌
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2022-01-07
Filing date: 2022-01-07
Publication date: 2024-04-30
Anticipated expiration: 2042-01-07
Also published as: CN114493191A

Abstract

本发明公开了一种基于网约车数据的驾驶行为建模及分析方法，具体包括：提取网约车轨迹数据和订单起讫点数据并进行预处理，得到含有速度和加速度变量的多组驾驶特征序列数据；采用基于分层狄利克雷过程‑隐半马尔科夫的改进非参数贝叶斯学习模型进行驾驶行为建模，对车辆的驾驶行为状态进行识别。构建状态空间向量对驾驶员的驾驶风格类型进行表征，并采用改进K‑means聚类算法对驾驶员进行聚类；依据驾驶行为状态识别和驾驶风格分类结果，可分析不同风格的类型驾驶员在不同交通运行状态下驾驶行为状态。本发明实现了对车辆驾驶行为状态进行识别以及对驾驶者类型划分，从而实现特定场景下不同类型驾驶员驾驶行为的分析。

Description

一种基于网约车数据的驾驶行为建模分析方法

技术领域

本发明涉及驾驶行为建模分析方法，尤其一种基于网约车数据的驾驶行为建模分析方法。

背景技术

近年人工智能为代表的科技革命的推动下，新一代移动通信技术、大数据、云平台、物联网等先进技术与城市交通系统有机结合，推动了智能网联汽车与智能驾驶的发展。作为智能驾驶和智能交通系统发展道路上的重要组成，驾驶行为建模和分析受到了广泛地关注和研究。通过研究多种场景下的驾驶行为可以实时了解车辆的行车状态，行而有效地提高行车安全，在对未来驾驶环境进行预估的基础上，对驾驶行为进行准确的估计和评价，实现对危险驾驶行为的精确预警，从而为驾驶者提供个性化的高级驾驶辅助服务。

现阶段对驾驶行为建模的方法主要采用驾驶模拟器，通过驾驶仿真来获取驾驶者的行为特征，但该类方法实验价格昂贵，实验数据量有限，且驾驶模拟器仿真对驾驶者的行为有一定干扰，难以真实反映驾驶行为。随着智能手机的普及，城市网约车轨迹数据的应用为驾驶行为建模提供了新的思路，网约车数据具有数据量大且信息丰富的优势。因此，如何基于城市交通系统中的大量的网约车数据，直接提取出车辆的多维特征，构建驾驶行为分析方法是一个值得研究的问题。

发明内容

本发明所要解决的技术问题在于，提供一种基于网约车数据的驾驶行为建模分析方法，为探究驾驶行为、制定个性化的高级驾驶辅助提供支持和保障。

为解决上述技术问题，本发明提供以下技术方案：

一种基于网约车数据的驾驶行为建模方法，包括如下步骤：

(1)提取网约车的轨迹数据和订单起讫点数据，并进行预处理，得到含有速度和加速度变量的多组驾驶特征序列数据；

(2)基于步骤(1)中预处理得到的多组驾驶特征序列数据，采用改进的非参数贝叶斯学习模型进行驾驶行为建模。

进一步，所述步骤(1)中网约车的轨迹数据包括司机ID、订单ID、时间戳、经度和纬度；订单起讫点数据包括订单ID、开始计费时间、结束计费时间、上车位置经度、上车位置纬度、下车位置经度下车位置纬度。

进一步，所述步骤(1)中对轨迹数据进行预处理的方法包括：

1)短行程去除：删去GPS轨迹点数量不满足设定条件的轨迹行程；

2)驾驶特征提取：结合GPS轨迹点采样时间间隔信息和车辆位置序列信息，计算车辆实时的运行特征；

3)异常值移除或平滑：对出现异常点数量大于5的行程予以剔除，对出现异常点数量小于等于5的行程实施特征值平滑处理，以提升驾驶行为建模试验数据集的质量，其中异常点是指显著偏离道路范围的GPS轨迹点；

4)坐标系转换及时间窗切分、空间映射：将GPS轨迹点的经纬度转换至标准WGS-84国际通用坐标系统；同时，为给轨迹点建立时间索引，以5min为基本时间切片区间，将一天24小时划分为288个时间窗，每个时间窗长度为5min，每个GPS轨迹点均被映射至对应的时间窗区间；

对订单数据进行预处理方法包括：重复数据剔除、OD地理筛选、时间片窗切分、坐标系转换、空间映射，其中：OD地理筛选是指筛选出起讫点均在研究范围内的订单。

进一步，所述步骤(2)具体如下：

S1：对多组驾驶特征序列数据进行随机采样获取建模数据集，并将建模数据集划分为训练数据集和测试数据集；

S2：利用基于分层狄利克雷过程-隐半马尔可夫的非参数贝叶斯学习模型对驾驶特征序列数据进行建模，所述的分层狄利克雷过程-隐半马尔可夫模型过程如下：

β|γ～GEM(γ)

π_j|β,α～DP(α,β)j＝1,2,...

θ_j|H(λ),λ～H(λ)j＝1,2,...

ω_j|Ω～Ωj＝1,2,...

其中GEM(·)表示截棍构造Stick-breaking过程；β为离散测度变量序列，β_j为β的第j个元素，γ表示集中系数；β|γ表示在给定γ下，β服从GEM过程；DP(·)表示狄利克雷DP过程，α表示DP过程的集中系数，π为由DP过程生成的状态转移概率矩阵，π_ji为状态转移概率矩阵的第j行第i列，π_j为状态转移概率矩阵的第j行；π_j|β,α表示在给定β,α下，π_j服从DP分布；H(·)表示基分布，λ为H(λ)的分布参数；θ_j为由H(λ)产生的变量序列θ的第j个元素，θ_j|H(λ),λ表示在给定H(λ),λ下，θ_j服从基分布；ω_j为特定状态持续时间分布的参数，Ω为给定样本空间；/>利用以π_j到/>的确定性转移消除z_s中的自转移；当i＝j时δ_ij为1，否则δ_ij＝0；z_s、z_s-1分别表示驾驶行为状态序列的第s个和第s-1个状态，z_s为隐半马尔科夫模型的隐状态，s表示驾驶行为状态序列及其观测状态序列的时间戳，且s＝1,2,...,S，S为驾驶行为状态序列的长度；D_s表示z_s的驻留时间，D(.)为采样得出的参数化的状态驻留时长分布，/>为分布参数；y_s表示驾驶行为观测状态，y_s由驻留时间D_s中的一系列观测动作构成，t为观测动作序列的时间戳，t＝1,2,...,T，T为观测动作序列的长度，y'_t表示t时刻的观测动作，且时刻t所观测的动作包括车辆的速度和加速度；/> D_s'为驾驶行为状态z_s'的驻留时间，f(.)为采样得出的参数化的观测量分布，/>为分布参数，iid表示独立同分布independently identically distribution；/>表示在给定/>下，y_s服从f(.)分布；

S3：采用吉布斯采样法并结合多组驾驶特征序列数据推断S2中模型的隐含变量，实现对驾驶行为状态的识别。

一种基于网约车数据的驾驶行为分析方法，基于上述建模方法所建模型的驾驶行为状态识别结果，包括如下步骤：

1)以各驾驶员的驾驶特征序列数据中的速度、加速度特征为基础，使用驾驶特征序列数据中速度和加速度的最大值、最小值、25分位数、75分位数、均值、标准差作为统计特征对速度和加速度进行描述，构建表征驾驶风格的状态空间向量，并采用改进K-means聚类算法进行聚类，得到依据驾驶风格的驾驶员分类结果；其中，第n个驾驶者的状态空间向量表示为分别表示第n个驾驶者的速度最大值、速度最小值、速度25分位数、速度75分位数、速度均值、速度标准差、加速度最大值、加速度最小值、加速度25分位数、加速度75分位数、加速度均值、加速度标准差；

2)根据驾驶行为状态识别结果和驾驶员分类结果，得出不同驾驶风格类型的驾驶员在不同交通运行状态下的不同驾驶行为频率分布情况；其中依据网约车轨迹数据覆盖路段的平均速度，交通运行状态分为自由流状态、缓行状态和阻塞状态三种。

进一步，所述步骤1)所述的采用改进K-means聚类算法对状态空间向量进行聚类，具体步骤如下：

Step1：选定K的值，其中K∈[2,K_max],其中K_max为预设的聚类算法的最大分类数量；

Step2：从N个驾驶员中任意选择一个驾驶员作为第1个初始聚类中心C₁，D(Y_i,C₁)为其余N-1个驾驶员中第i个驾驶员Y_i与C₁之间的欧式距离：

式中为驾驶员Y_i的状态空间向量，/>为聚类中心C₁的状态空间向量；

计算成为第k个初始聚类中心的概率P(Y_i)：

基于概率最大原则，选出第k个初始聚类中心C_k，重复上述步骤，直至选出所有的初始聚类中心，构成集合C＝{C_k|k＝1,2,...,K}；

Step3：求出每个驾驶员与所有初始聚类中心之间的欧式距离，基于距离最短的原则将每个驾驶员归到与其之间欧式距离最短的初始聚类中心对应的类别Z_k，其中k＝1,2,...,K,Z_m为以第m个初始聚类中心C_m为中心的类别；对于第l个驾驶员Y_l，若则Y_l∈Z_k，D(Y_l,C_i)为驾驶员Y_l与聚类中心C_i之间的欧式距离；

Step4：计算Step3得到的各类别的聚类中心n为Z_k中的驾驶员数量；

Step5：计算聚类准则函数如果/>则进入Step6，否则返回Step2，其中，l为聚类准则临界值；

Step6：计算戴维森堡丁指数，其中，/>和/>分别为第p个类别和第q个类别中任两个驾驶员之间的欧式距离的平均值，C_p和C_q分别为第p个类别和第q个类别的聚类中心，D(C_p,C_q)为C_p和C_q之间的欧式距离；

Step7：令K＝K+1，若K≤K_max则返回Step1，否则进入Step8；

Step8：选择戴维森堡丁指数IDB最大时对应的K作为最优聚类数，输出最优聚类数K以及对应的K个类别。

本发明结合网约车数据，对原始轨迹和订单数据进行数据预处理，得到应用于后续建模分析的车辆速度、加速度、经纬度等信息；根据车辆驾驶员自然驾驶数据中的速度和加速度信息，采用改进非参数贝叶斯学习模型对车辆的行为状态进行识别，得到特定数量的驾驶行为状态；并利用改进K-means聚类算法对驾驶员进行聚类，得到不同类型的驾驶者；进而可以分析不同驾驶者在不同交通运行状态下的驾驶行为状态。本发明实现了基于网约车数据的驾驶行为建模分析方法，为交通行为和交通安全分析提供技术支撑。

附图说明

图1为本发明实施例的方法流程图；

图2为本发明实施例中网约车轨迹及订单数据覆盖范围；

图3为本发明实施例中分层狄利克雷过程-隐半马尔科夫模型的概率图；

图4为本发明实施例中观测动作序列以及驾驶行为观测状态序列示意图；

图5为本发明实施例中改进非参数贝叶斯学习模型的驾驶行为状态识别结果；

图6为本发明实施例中某驾驶员特定行程的驾驶状态；

图7为本发明实施例中改进K-means聚类不同聚类数对应的戴维森堡丁指数；

图8为本发明实施例中改进K-means聚类的驾驶员分类结果；

图9为本发明实施例中自由流状态下不同类别驾驶员状态行为对比。

具体实施方式

下面结合具体实施例以及附图，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

在一个实施例中，如图1所示，提供了一种基于网约车数据的驾驶行为建模方法，主要包括如下步骤：

步骤(1)：提取网约车轨迹数据和订单起讫点数据，对原始轨迹和订单数据实施数据预处理，得到应用于后续建模分析的含有车辆速度、加速度、经纬度信息的的多组驾驶特征序列数据；

步骤(2)：根据多组驾驶特征序列数据中的速度和加速信息，采用改进的非参数贝叶斯学习模型进行驾驶行为建模，对车辆驾驶员的驾驶行为状态进行识别，得到特定数量的驾驶行为状态。

在一个实施例中，步骤(1)所述的网约车轨迹数据包括司机ID、订单ID、时间戳、经度和纬度等；订单起讫点数据包括订单ID、开始计费时间、结束计费时间、上车位置经度、上车位置纬度、下车位置经度、等数据下车位置纬度等数据。

在一个实施例中，步骤(1)所述的轨迹数据处理预方法包括：

1)短行程去除：移除原始数据中GPS数据点过少的行程，若单次行程时间小于5min或者行程轨迹点数量小于50个，则该行程订单需要去除；

2)驾驶特征提取：结合轨迹点采样时间间隔信息和车辆位置序列信息，计算车辆实时的运行特征，如速度、加速度等，可间接反映驾驶员行为决策信息。利用轨迹点间距换算技术，将原始经纬度数据转换为轨迹点间距(m)，结合时间间隔信息推算车辆实时速度(km/h)、加速度(m/s²)，作为原始驾驶行为特征。

式中v_t为t时刻车辆速度，km/h；a_t为t时刻车辆加速度；W_t为t时刻车辆经度和纬度；f_l(.)为轨迹点经纬度转距离函数；f_t(.)为作差函数。

3)异常值移除或平滑：对于一次行程中出现异常值点数量大于3的行程予以剔除，对数量小于等于3的行程实施特征值平滑处理，即参照异常点上下文特征值进行均值替换，以保证驾驶行为建模试验数据集的高质量，异常点是指显著偏离道路范围的轨迹点。

4)坐标系转换及时间窗切分、空间映射：原始GPS经纬度转换为标准WGS84国际通用坐标系统。同时，为给轨迹点建立时间索引，以5min为基本时间切片区间，将一天24小时划分为288个时间窗，每个时间窗长度为5min，每个轨迹点均被映射至对应的时间窗区间。

在一个实施例中，步骤(1)所述的订单数据预处理方法包括：重复数据剔除、OD地理筛选、时间片窗切分、坐标系转换、空间映射。其中：OD地理筛选是指筛选出起讫点均在研究范围内的订单。

在一个实施例中，步骤(2)具体过程如下：

S1：对多组驾驶特征序列数据进行随机采样获取建模数据集，并将建模数据集划分为训练数据集和测试数据集。

S2：利用基于分层狄利克雷过程-隐半马尔可夫的非参数贝叶斯学习模型对驾驶特征序列数据进行建模。构造分层狄利克雷过程作为隐半马尔可夫模型参数的先验分布，通过多组观测数据计算模型的后验概率。对隐半马尔可夫模型参数的参数进行动态调整，确定驾驶行为的状态数。

所述的分层狄利克雷过程-隐半马尔可夫模型过程如下：

β|γ～GEM(γ)

π_j|β,α～DP(α,β)j＝1,2,...

θ_j|H(λ),λ～H(λ)j＝1,2,...

ω_j|Ω～Ωj＝1,2,...

其中GEM(·)表示截棍构造Stick-breaking过程；β为离散测度变量序列，β_j为β的第j个元素，γ表示集中系数；β|γ表示在给定γ下，β服从GEM过程；DP(·)表示狄利克雷DP过程，α表示DP过程的集中系数，π为由DP过程生成的状态转移概率矩阵，π_ji为状态转移概率矩阵的第j行第i列，π_j为状态转移概率矩阵的第j行；π_j|β,α表示在给定β,α下，π_j服从DP分布；H(·)表示基分布，λ为H(λ)的分布参数；θ_j为由H(λ)产生的变量序列θ的第j个元素，θ_j|H(λ),λ表示在给定H(λ),λ下，θ_j服从基分布；ω_j为特定状态持续时间分布的参数，Ω为给定样本空间；/>利用以π_j到/>的确定性转移消除z_s中的自转移；当i＝j时δ_ij为1，否则δ_ij＝0；z_s、z_s-1分别表示驾驶行为状态序列的第s个和第s-1个状态，z_s为隐半马尔科夫模型的隐状态，s表示驾驶行为状态序列及其观测状态序列的时间戳，且s＝1,2,...,S，S为驾驶行为状态序列的长度；D_s表示z_s的驻留时间，D(.)为采样得出的参数化的状态驻留时长分布，/>为分布参数；y_s表示驾驶行为观测状态，y_s由驻留时间D_s中的一系列观测动作构成，t为观测动作序列的时间戳，t＝1,2,...,T，T为观测动作序列的长度，y'_t表示t时刻的观测动作，且时刻t所观测的动作包括车辆的速度和加速度；/> D_s'为驾驶行为状态z_s'的驻留时间，f(.)为采样得出的参数化的观测量分布，/>为分布参数，iid表示独立同分布independently identically distribution；表示在给定/>下，y_s服从f(.)分布。

如图9所示，观测动作序列y_s的时间轴是1,2,…,T，驾驶行为观测状态y'_t的时间轴是1,2,…,S，每个s对应于观测动作序列时间轴上的一段时间，若s＝1,t＝1,2,3,…,x，S＝2,t＝x+1,x+2,…。只是在某个时刻的观测动作，/>是指包含/>和/>在内的D_s个观测动作，等同于y_s。

在一个实施例中，基于上述实施例所建模型的驾驶行为状态识别结果，提供了一种基于网约车数据的驾驶行为分析方法，包括如下步骤：

步骤1)：以各驾驶员的驾驶特征序列数据中的速度、加速度特征为基础，使用驾驶特征序列数据中速度和加速度的最大值、最小值、25分位数、75分位数、均值、标准差作为统计特征对速度和加速度进行描述，构建表征驾驶风格的状态空间向量，并采用改进K-means聚类算法进行聚类，得到依据驾驶风格的驾驶员分类结果。

步骤2)根据驾驶行为状态识别结果和驾驶员分类结果，可依据轨迹数据中提取的平均速度，划分路网交通运行状态，进而可分析出不同驾驶风格类型的驾驶员在不同交通运行状态下的不同驾驶行为频率分布情况。其中交通运行状态依据网约车轨迹数据覆盖路段的平均速度，分为自由流状态、缓行状态和阻塞状态。

在一个实施例中，步骤1)所述的基于改进K-means驾驶员分类方法将第n个驾驶者的状态空间用12个统计特征构建，包括速度最大值速度最小值/>速度25分位数/>速度75分位数/>速度均值/>速度标准差/>加速度最大值/>加速度最小值/>加速度25分位数/>加速度75分位数/>加速度均值/>加速度标准差/>所述驾驶员的状态空间H_n如下：

若经过轨迹数据提取后的数据集中有N个驾驶员样本数据要划分成K类，具体步骤如下：

计算成为第k个初始聚类中心的概率P(Y_i)：

Step7：令K＝K+1，若K≤K_max则返回Step1，否则进入Step8；

在一个实施例中，提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的基于网约车数据的驾驶行为建模方法。

一个实施例中，提供了一种基于网约车数据的驾驶行为建模设备，包括：存储器和处理器；所述存储器上存储有计算机程序，当所述计算机程序被所述处理器执行时，实现如上所述的基于网约车数据的驾驶行为建模方法。

一个实施例中，提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的基于网约车数据的驾驶行为分析方法。

一个实施例中，提供了一种基于网约车数据的驾驶行为分析设备，包括：存储器和处理器；所述存储器上存储有计算机程序，当所述计算机程序被所述处理器执行时，实现如上所述的基于网约车数据的驾驶行为分析方法。

上述该计算机可读存储介质可以包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

在一个实施例中，使用滴滴网约车平台的订单司机轨迹数据，研究范围内的城市道路路网如图2所示。轨迹点的采集间隔是2～6s，轨迹点与实际路网进行绑定，从而保证轨迹和订单数据可以与实际路网相匹配。研究范围内包含2016年11月1日至2016年11月30日经过筛选的1000位驾驶员3723个订单数据。其中述的网约车轨迹数据包括司机ID、订单ID、时间戳、经度和纬度等；订单起讫点数据包括订单ID、开始计费时间、结束计费时间、上车位置经度、上车位置纬度、下车位置经度等数据。

根据步骤(1)提取包含速度和加速度的驾驶特征序列数据，对网约车轨迹数据进行包括短行程去除、驾驶特征提取、异常值移除或平滑、坐标系转换及时间窗切分在内的预处理；对订单数据进行重复数据剔除、OD地理筛选、时间片划分、坐标系转换、空间映射在内的预处理。

根据步骤(2)采用如图3所示的基于分层狄利克雷过程-隐半马尔科夫的改进非参数贝叶斯学习模型对含有速度和加速度数据等数据的多组驾驶特征序列数据进行建模，图4显示了建模过程中的观测动作序列以及驾驶行为观测状态序列。建模后采用吉布斯采样对模型参数进行推断，从而获得如图5所示的25个驾驶行为状态。图6显示了某驾驶员在在单次行程中的行为状态。

根据步骤(3)所述的以各驾驶者的12个统计特征构建驾驶者的状态空间，并采用改进K-means方法进行聚类分析，如图7所示，根据戴维森堡丁指数可知，将1000位驾驶者划分为3类较为合理，DBI可以取到最小值为1.102。并且图8给出了不同类型驾驶者的数量，通过对这三类驾驶者的状态空间参数进行分析，可以得到如表1所示。

表1：不同类型驾驶者的参数特征

根据步骤(4)所述，利用研究范围内网约车的轨迹数据，计算每5min内各路段上网约车的平均速度作为该路段平均车速，依据路段平均车速将交通状态划分成3类，路段平均车速大于35km/h为自由流状态，路段平均车速介于15km/h至35km/h之间为缓行状态，路段平均车速小于15km/h为阻塞状态。如图9所示，基于步骤(2)对驾驶行为状态识别以及步骤(3)对驾驶员风格的分类，得出不同风格类型的驾驶员在自由流状态下不同驾驶行为频率分布情况。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

Claims

1.一种基于网约车数据的驾驶行为分析方法，其特征在于，包括如下步骤：

1)提取网约车的轨迹数据和订单起讫点数据，并进行预处理，得到含有速度和加速度变量的多组驾驶特征序列数据；

所述步骤1)中网约车的轨迹数据包括司机ID、订单ID、时间戳、经度和纬度；订单起讫点数据包括订单ID、开始计费时间、结束计费时间、上车位置经度、上车位置纬度、下车位置经度下车位置纬度；

所述步骤1)中对轨迹数据进行预处理的方法包括：

对订单数据进行预处理方法包括：重复数据剔除、OD地理筛选、时间片窗切分、坐标系转换、空间映射，其中：OD地理筛选是指筛选出起讫点均在研究范围内的订单；

2)基于步骤1)中预处理得到的多组驾驶特征序列数据，采用改进的非参数贝叶斯学习模型进行驾驶行为建模；

所述步骤2)具体如下：

β|γ～GEM(γ)

π_j|β,α～DP(α,β) j=1,2,...

θ_j|H(λ),λ～H(λ) j＝1,2,...

ω_j|Ω～Ω j＝1,2,...

S3：采用吉布斯采样法并结合多组驾驶特征序列数据推断S2中模型的隐含变量，实现对驾驶行为状态的识别；

3)以各驾驶员的驾驶特征序列数据中的速度、加速度特征为基础，使用驾驶特征序列数据中速度和加速度的最大值、最小值、25分位数、75分位数、均值、标准差作为统计特征对速度和加速度进行描述，构建表征驾驶风格的状态空间向量，并采用改进K-means聚类算法进行聚类，得到依据驾驶风格的驾驶员分类结果；其中，第n个驾驶者的状态空间向量表示为分别表示第n个驾驶者的速度最大值、速度最小值、速度25分位数、速度75分位数、速度均值、速度标准差、加速度最大值、加速度最小值、加速度25分位数、加速度75分位数、加速度均值、加速度标准差；

所述步骤3)所述的采用改进K-means聚类算法对状态空间向量进行聚类，具体步骤如下：

计算成为第k个初始聚类中心的概率P(Y_i)：

Step5：计算聚类准则函数如果G≤l，则进入Step6，否则返回Step2，其中，l为聚类准则临界值；

Step7：令K＝K+1，若K≤K_max则返回Step1，否则进入Step8；

Step8：选择戴维森堡丁指数IDB最大时对应的K作为最优聚类数，输出最优聚类数K以及对应的K个类别；

4)根据驾驶行为状态识别结果和驾驶员分类结果，得出不同驾驶风格类型的驾驶员在不同交通运行状态下的不同驾驶行为频率分布情况；其中依据网约车轨迹数据覆盖路段的平均速度，交通运行状态分为自由流状态、缓行状态和阻塞状态三种。

2.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1所述的基于网约车数据的驾驶行为分析方法。

3.一种基于网约车数据的驾驶行为分析设备，其特征在于，包括：存储器和处理器；所述存储器上存储有计算机程序，当所述计算机程序被所述处理器执行时，实现如权利要求1所述的基于网约车数据的驾驶行为分析方法。