CN108229567A

CN108229567A - 驾驶员身份识别方法及装置

Info

Publication number: CN108229567A
Application number: CN201810017569.7A
Authority: CN
Inventors: 林晓明; 耿文童; 何秋果; 鞠海涛
Original assignee: Beijing Interconnected Science And Technology Ltd Of Car Net; UNITED ELECTRONICS CO Ltd
Current assignee: Beijing Interconnected Science And Technology Ltd Of Car Net; UNITED ELECTRONICS CO Ltd
Priority date: 2018-01-09
Filing date: 2018-01-09
Publication date: 2018-06-29
Anticipated expiration: 2038-01-09
Also published as: CN108229567B

Abstract

本发明公开一种驾驶员身份识别方法及装置。该驾驶员身份识别方法，包括：获取给定行程数据，从所述给定行程数据提取行程特征；获取给定车主标识，根据所述给定车主标识获取对应分类模型；将所述提取的给定行程数据的行程特征输入所述分类模型，得到模型输出；根据所述模型输出确定所述给定行程数据对应的车主是否为所述给定车主标识对应的车主。本发明提供的方案，能比较准确的识别出驾驶员是否为原有车主，提高识别准确性。

Description

驾驶员身份识别方法及装置

技术领域

本发明涉及车联网技术领域，具体涉及一种驾驶员身份识别方法及装置。

背景技术

随着物联网的发展，车联网大数据的分析应用对于车辆行驶的作用愈加重要。在车辆驾驶过程中，车主的驾驶行为表现出多样性，不同车主的驾驶行为是不一致的，驾驶行为的特征主要体现在车速、加速度、急转弯等方面。相关技术中识别当前驾驶员是否为原有车主的方法，有的是利用地图轨迹间的相似度进行分类识别，但是，考虑到有时存在代驾行为，行驶的地图轨迹与原有车主驾驶的地图轨迹也是相似的，所以采用地图轨迹间的相似度进行车主分类识别也有较大的缺陷。

因此，现有的驾驶员身份识别方法，还不能比较准确的识别出车辆新行程的驾驶员是否为原有车主，识别准确性较差。

发明内容

有鉴于此，本发明的目的在于提出一种驾驶员身份识别方法及装置，能比较准确的识别出驾驶员是否为原有车主，提高识别准确性。

本发明提供一种驾驶员身份识别方法，包括：

获取给定行程数据，从所述给定行程数据提取行程特征；

获取给定车主标识，根据所述给定车主标识获取对应分类模型；

将所述提取的给定行程数据的行程特征输入所述分类模型，得到模型输出；

根据所述模型输出确定所述给定行程数据对应的车主是否为所述给定车主标识对应的车主。

优选的，所述根据所述给定车主标识获取对应分类模型，包括：

根据所述给定车主标识从数据库查找对应的文本型模型数据；

将所述文本型模型数据转化为分类模型。

优选的，所述分类模型预先建模建立，所述建模过程包括：

获取行程数据并提取行程特征；

根据所述提取的行程特征并基于二分类模型扩展建立行程判别模型。

优选的，所述根据所述提取的行程特征并基于二分类模型扩展建立行程判别模型，包括：

选择设定数量的固定建模车主；

将其他车主分别与所述设定数量的固定建模车主，根据所述提取的行程特征进行二分类模型训练，得到一组分类模型，并综合所述分类模型得到行程判别模型。

优选的，所述将其他车主分别与所述设定数量的固定建模车主，根据所述提取的行程特征进行二分类模型训练，包括：

筛选符合设定条件的车主及车主行程数据；

筛选特征重要性之和大于设定数值的行程特征；

将筛选的车主分别与所述设定数量的固定建模车主进行两两训练二分类模型。

优选的，所述根据模型输出确定所述给定行程数据对应的车主是否为所述给定车主标识对应的车主，包括：

根据模型输出值大于模型训练时所确定的阈值，确定所述给定行程数据对应的车主为所述给定车主标识对应的车主。

优选的，所述行程特征包括速度、加速度、加速度变化、曲率半径、角速度、向心加速度、航向角变化的特征数据。

本发明还提供一种驾驶员身份识别装置，包括：

给定行程获取模块，用于获取给定行程数据，从所述给定行程数据提取行程特征；

模型获取模块，用于获取给定车主标识，根据所述给定车主标识获取对应分类模型；

模型输出模块，用于将所述给定行程获取模块提取的给定行程数据的行程特征输入所述模型获取模块获取的分类模型，得到模型输出；

身份识别模块，用于根据所述模型输出模块的模型输出确定所述给定行程数据对应的车主是否为所述给定车主标识对应的车主。

优选的，所述装置还包括：

模型建模模块，用于预先建立分类模型，其中建模过程包括获取行程数据并提取行程特征，根据所述提取的行程特征并基于二分类模型扩展建立行程判别模型；

所述模型获取模块从所述模型建模模块获取所述分类模型。

优选的，所述模型建模模块包括：

行程特征提取子模块，用于获取行程数据并提取行程特征；

行程判别模型子模块，用于选择设定数量的固定建模车主，将其他车主分别与所述设定数量的固定建模车主，根据所述提取的行程特征进行二分类模型训练，得到一组分类模型，并综合所述分类模型得到行程判别模型。

可以发现，本发明实施例的技术方案，预先建立了车主的分类模型，可以根据给定车主标识获取给定车主标识对应分类模型，再将从给定行程数据提取的行程特征作为分类模型的输入，就可以计算得到模型输出，根据模型输出就可以确定给定行程数据对应的车主是否为给定车主标识对应的车主，这样相比于现有技术方案，能更准确的识别出车辆新行程的驾驶员是否为原有车主，提高了识别准确性。

进一步的，本发明实施例可以根据给定车主标识从数据库查找所述给定车主标识对应的文本型模型数据，再将所述文本型模型数据转化为分类模型，这样可以实现存储时采用更适合存储的格式例如存储为文本型模型数据，在需要获取模型时，再将文本型模型数据转化为分类模型。

进一步的，本发明实施例的分类模型的建模过程可以是：获取行程数据并提取行程特征，根据所述提取的行程特征并基于二分类模型扩展建立行程判别模型，其中可以包括选择设定数量的固定建模车主，将其他车主分别与所述设定数量的固定建模车主，根据所述提取的行程特征进行二分类模型训练，得到一组分类模型，并综合所述分类模型得到行程判别模型。

附图说明

通过结合附图对本公开示例性实施方式进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施方式中，相同的参考标号通常代表相同部件。

图1是根据本发明的一个实施例的一种驾驶员身份识别方法的示意性流程图；

图2是根据本发明的一个实施例的一种驾驶员身份识别方法的另一示意性流程图；

图3是根据本发明的一个实施例的一种驾驶员身份识别装置的示意性方框图；

图4是根据本发明的一个实施例的一种驾驶员身份识别装置的另一示意性方框图；

图5是根据本发明的一个实施例的一种驾驶员身份识别设备的示意性方框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

虽然附图中显示了本公开的优选实施方式，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本发明提供一种驾驶员身份识别方法，能比较准确的识别出驾驶员是否为原有车主，提高识别准确性。

以下结合附图详细描述本发明实施例的技术方案。

图1是根据本发明的一个实施例的一种驾驶员身份识别方法的示意性流程图。该方法可以应用于驾驶员身份识别装置中。

参照图1，所述方法包括：

在步骤101中，获取给定行程数据，从所述给定行程数据提取行程特征。

其中，所述提取的行程特征可以包括速度、加速度、加速度变化、曲率半径、角速度、向心加速度、航向角变化的特征数据。

在步骤102中，获取给定车主标识，根据所述给定车主标识获取对应分类模型。

该步骤可以包括：根据所述给定车主标识从数据库查找对应的文本型模型数据；将所述文本型模型数据转化为分类模型。例如，先查找得到的是字符串形式模型数据，将字符串形式模型数据解析转化分类模型。

所说的给定车主标识，可以是车辆ID、车主ID、设备ID，或者是其它的用于标记身份的标识。

在步骤103中，将所述提取的给定行程数据的行程特征输入所述分类模型，得到模型输出。

在步骤104中，根据所述模型输出确定所述给定行程数据对应的车主是否为所述给定车主标识对应的车主。

该步骤可以根据模型输出值大于模型训练时所确定的阈值，确定所述给定行程数据对应的车主为所述给定车主标识对应的车主。

图2是根据本发明的一个实施例的一种驾驶员身份识别方法的另一示意性流程图。图2相对于图1更详细描述了本发明方案。该方法可以应用于驾驶员身份识别装置中。

本发明实施例的方案，对于给定行程，可以判断该行程的风格与给定车主原有的驾驶风格是否一致，从而可以判断该行程车主是否为原有车主。简单而言，就是给定一条行程和一个车主ID，然后利用车主ID对应的分类模型判断这条行程跟这个车主ID历史上的行程的相似程度，其中将从给定行程提取的行程特征作为分类模型的输入，就可以计算得到模型输出，根据模型输出就可以确定给定行程对应的车主是否为给定车主ID对应的车主。本发明实施例的方案从速度、加速度、角度等方面提取行程特征，不再考虑轨迹间的相似度因素。本发明实施例的方案，可以有效应用于大量车主的模型训练。

需说明的是，本发明实施例的方案本质上是一种监督学习，预先收集车主一定数量的行程用于模型训练。本发明实施例的方案的判断结果，显示的是给定行程与模型训练时的行程之间的行程特征差别，如果行程特征相似度高，代表着给定行程的行程风格与用于模型训练的车主的行程风格相似，因此可认为给定行程的车主是原有车主。

还需说明的是，本发明实施例中所说的“车主”，指的是预先收集的行程数据的所有者的ID，只要用于模型训练的数据中ID是同一个，就认为是同一个“车主”，其中数据可以采集自车载设备，也可以采集自手机端。如果用于模型训练的行程数据来自两个人，但ID是同一个，那么本发明实施例会将这两人综合认定为一个“车主”。在本文之后的内容中，同一个“人”就是指代同一个“车主”。

本发明实施例主要是预先建模建立分类模型，然后将从给定行程数据提取的行程特征作为分类模型的输入，就可以计算得到模型输出，根据模型输出就可以确定给定行程数据对应的车主是否为给定车主标识对应的车主。其中预先建模部分又可以包括：1)对大量行程数据进行特征提取；2)基于二分类模型扩展建立行程判别模型。也就是说，本发明的方案主要是预先采集车辆行程数据以及对应的车主ID，对每个车主ID建模，当后续给定一条行程数据和同时给定一个车主ID后，判别给定行程数据的驾驶者是否是给定车主ID对应的车主，或者说这条行程的驾驶风格跟以前是否相同。

参照图2，所述方法包括：

在步骤201中，预先对大量行程数据进行特征提取。

该步骤可以基于SparkR(用R语言编写的Spark程序，是一种统计分析工具)预先对大量行程数据进行特征提取。

本发明实施例方案中，需要使用到车辆的相关行程数据，其中的维度可以包括车主ID、行程代号trip_number，以及对应的秒级的GPS(Global Positioning System，全球定位系统)数据等，其中GPS数据包含每秒的经度、纬度、速度、航向角以及数据对应的时间戳等。数据说明参见如下表格1所示：

表1

需说明的是，本发明可以基于GPS数据进行分析，使用GPS数据采集技术。在车联网领域，GPS数据采集技术有很多，例如可以使用OBD(On Board Diagnostics，车载自动诊断系统)进行采集，OBD在提供车辆故障的监测与诊断的同时，也能够采集车辆的时空轨迹数据；或者使用移动终端例如手机GPS进行采集，手机自带的GPS能够采集用户的GPS位置数据。

本发明采集数据时，由于数据采集设备或者信号缺失的原因，可以删除时间戳不确定的数据。

假设相邻的三个时间戳为time1、time2、time3，对应的速度为speed1、speed2、speed3，航向角分别为direction1、direction2、direction3。

定义time1时车辆的加速度:

acc1＝(speed2–speed1)/(time2–time1)

定义time1时车辆的加速度变化：

deta_acc1＝(speed3–speed2)/(time3–time2)-(speed2–speed1)/(time2–time1)

定义time1时车辆的航向角变化：

首先定义一个(-359，359)到[0，180]的映射f:

deta_direction1＝f(direction2–direction1)

定义time2时车辆行驶的曲率半径：

假设地球为一个半径为6371393m的规则球体，在此假设基础上定义两经纬度点间的弧线距离作为两点间的距离。假设连续三个时间戳time1、time2、time3所在点为A1、A2、A3。相邻的三个时间戳，三点所在的弧面三角形与三点所在的平面三角形是近似重合的，此时定义三点的外接圆半径为time2对应的曲率半径r2。

定义time2对应的角速度：

w2＝speed2/r2

定义time2对应的向心加速度为：

cen_acc2＝speed2²/r2

由以上定义，对于行程每秒的数据，包括了速度、加速度、加速度变化、曲率半径、角速度、向心加速度、航向角变化等七个维度的特征数据。本发明对于整条行程，可以从这七个维度来提取行程特征。

因为后续模型训练的时候，要求行程特征都是有效的，再结合实际，因此在提取行程特征之前，可以删除无效的秒级数据点。考虑速度为0的点为非行驶点，无法计算其它维度的特征，所以可以删除速度为0的点；考虑实际车辆数据，可以删除加速度绝对值大于10m/s²的秒级数据点；另外可以删除曲率半径、角速度、向心加速度特征无效的秒级数据点。

当去除行程数据的时间属性之后，每条行程在速度、加速度、加速度变化、曲率半径、角速度、向心加速度、航向角变化七个维度上的数据，都可以近似看成取自不同的分布的数据。采用行程各个维度的数据可以估计各自的总体分布。本发明考虑采用总体分布作为模型训练的输入，然而将所有数据作为行程特征存储困难，模型训练计算量太大，也不易于实现；但简单的计算均值、方差作为行程特征又会损失太多的信息。因此，本发明可以提取各个维度数据的分位数作为行程特征。为了提高计算效率，本发明采取分段统计数量及计算对应占比来提取行程在各个维度上的行程特征，以分段的数据特征来近似代表总体分布。可以参见如下表格2显示本发明的特征提取方式。

表2

其中，上述表格中的取值方式所描述的占比，其分母是行程的GPS点的个数。例如行程只有两个GPS点，一个速度为15km/h，另外一个为25km/h，那么[10-20]、[20-30]速度区间的占比分别为1/2、1/2，其它速度区间的占比为0。

本发明中，还可以进行行程轨迹的转弯判定。考虑当前时间点与前后各三个时间点，总共七个时间点中的六次航向角变换，若至少有四次角度变化大于5度，就认为当前点处于转弯状态，否则认为当前点处于直行状态。本发明计算行程特征时，除了计算行程所有时间点的特征外，还分别计算行程在转弯、直行时的特征。最后将这些特征拼接起来作为行程完整的行程特征。考虑行程特征的提取效率，本发明行程特征的提取在SparkR上实现。

在步骤202中，根据提取的行程特征并基于二分类模型扩展建立行程判别模型。

本发明选择采用二分类模型作为模型基础。目前二分类模型很多可供选择，例如随机森林，传统的GBDT(Gradient Boosting Decision Tree，梯度提升决策树)，xgboost，LightGBM(是一个梯度boosting框架)等等，只要基础二分类模型本身分类是有效的，就能用于建立行程判别模型。但是另一方面，车辆行程的行程判别模型中的数量是随着车主数量线性增长，当车主数量增大时，模型训练时间也会线性增大，所以本发明在实际应用时要求基础模型训练高效，在综合考虑模型训练的高效性、模型预测的准确性之后，本发明采用xgboost模型用于二分类但不局限于此。

进一步，本发明基于二分类模型扩展建立行程判别模型。考虑到进行单个车主的行程判别时，如果使用单个的二分类模型，虽然当给定的行程的实际车主是模型内的实际车主时，由于二分类模型的有效性，模型会有很大的可能性预测正确，但是当给定的行程不属于真实的车主，也不属于训练的二分类模型内的另一个车主时，此时的预测就相当于随机猜测了。也就是说，模型预测犯第二类错误的可能性很大。因此，本发明为了大幅降低分类模型犯第二类错误的可能，同时又不大幅降低分类模型犯第一类错误的可能，在基于二分类模型的基础上，扩展建立一种有效的车辆行程的行程判别模型。由于二分类模型的有效性，当一条行程的驾驶者为车主A，那么对于车主A与其他任意一个人建立的二分类模型，用该模型去预测该行程，都会有较大的可能性将该行程的驾驶者预测为A。而当一条行程的驾驶者不是车主A的时候，对于车主A与其它人建立的二分类模型，采用扩展建立的行程判别模型预测该行程，该行程被判为A的概率很可能比行程属于A的时候低。

本发明基于二分类模型扩展建立行程判别模型的过程可以包括:

1)从所有车主中选择设定数量的固定建模车主。

2)将其他每个车主分别与设定数量的固定建模车主，根据提取的行程特征进行二分类模型训练，得到一组分类模型，并综合所述分类模型得到行程判别模型。

举例说明：

1)随机选择50个车主作为固定的用于对比建模的车主。

2)其他每个车主都与已选的固定的50个车主训练二分类模型，得到一组二分类模型，也就是每个车主对应50个二分类模型，综合这些二分类模型得到行程判别模型。

基于二分类模型扩展建立行程判别模型后，后续如果新来一条行程，如果想判断它的驾驶者是否为车主A，就可以用车主A对应的50个二分类模型分别对这条行程进行判别。然后对50个二分类模型输出的50次判别结果取均值，根据均值与训练时确定的阈值比较的结果，判断该行程的驾驶者是否为车主A。如果根据测试的ROC(receiver operatingcharacteristic curve，受试者工作特征曲线)得到的阈值为0.767，那么如果均值大于0.767，判定为行程的驾驶者是车主A，否则判定为不是车主A。

需要说明的是，本发明实施例还对选择采用二分类模型作为模型基础进行了有效性检验，从而证明采用二分类模型是一个较佳选择。其中二分类模型有效性检验过程包括：1)从1000个车主中，随机筛选50个车主。2)将这50个车主的180条行程分割，分为126条行程的训练集以及54条行程的预测集。3)将50个车主两两建立分类模型，总共建立1225个二分类模型，每个分类模型训练集为252条行程。4)将每个模型作用于各自的预测集，得到预测结果。经过测试，这1225个模型的平均预测正确率约为94％。在测试电脑上，用R语言进行模型训练与预测，消耗的时间约为200s。因此上述检验结果显示了xgboost用于行程二分类的效果非常优异。另外，假设对于1000个车主，每个车主都用54条自己的行程和54条不是自己的行程用于预测，根据1000*108次预测结果的ROC曲线，也可以检验行程判别模型的分类效果是显著的。

其中，上述将其他车主分别与设定数量的固定建模车主，根据提取的行程特征进行二分类模型训练，可以包括：

筛选符合设定条件的车主及车主行程数据；

筛选特征重要性之和大于设定数值的行程特征；

将筛选的符合设定条件的车主分别与所述设定数量的固定建模车主进行两两训练二分类模型。

一)关于筛选车主及车主行程数据

在模型训练之前，本发明筛选有效行程数量满足设定条件的车主用于模型训练。当行程的有效点个数太少的时候，一方面此时判断准确度会下降，另一方面这时候对行程车主进行判断也没太大的实际意义。在此基础上，本发明考虑选择行程有效点的个数不少于300的行程用于建模和预测。此处的有效点是指行程特征提取时，删除无效的秒级数据点以后，剩余的数据点个数不少于300。进一步为了提高实用性和模型训练的效率，在满足判断准确率的基础上，每个车主的行程数量也尽量选取的少些，因此本发明最终筛选有效行程数量大于设定数量例如126条的车主用于模型训练，且模型训练时，每个车主使用126条行程数据用于模型训练。

为了减少特征提取的计算量，本发明筛选车主及车主行程数据的过程可以包括：

1)统计车主行程数量。

2)筛选有效行程数量大于或等于126的车主，每个车主选择前126条行程用于模型训练，并存储模型数据。对于有效行程数量小于126的车主，记录有效行程数量，等待该车主新行程数据的采集。

3)当新添加一条行程的时候，则对应的车主的行程数量增加1。若该车主的模型数据已存在，则返回模型数据，用于预测。若此时该车主行程数量小于126，则先不用于模型训练，等待该车主新行程数据的采集；若行程数量等于126，则提取行程特征训练模型并存储，并训练模型。

上述过程中，可以保存随机选择的50个车主用于模型训练的50*126条数据。需说明的是，本发明方案中的50和126是取经验值，其中50是经过很多验证确定的数值，太大了没必要，太小了最终分类效果变差。其中126是基于大部分车主两个月的行程数据量，希望行程数尽量少，这样才能比较好的用于其它人。

二)关于筛选行程特征

在模型训练之前，本发明可以先筛选行程特征。这是因为分类模型如果使用前述提取行程特征时所提取的全量行程特征并不是一个好的选择。一方面，全量的行程特征里面会包含很多对模型分类无效的特征；另一方面，全量的行程特征会占据大量的存储空间，在模型训练的时候也会消耗更多的内存。所以，在模型训练之前，可以先筛选行程特征。

本发明筛选行程特征的过程可以包括：

1)确定建立行程判别模型过程中选择的设定数量的固定建模车主。

2)对行程判别模型建模时建立的二分类模型的行程特征重要性进行分组求和及归一化处理。

3)选择特征重要性之和大于设定数值的行程特征。

举例说明：

1)固定行程判别模型建模过程中随机选择的50个车主。

2)对行程判别模型建模时建立的1000*50–50个二分类模型的行程特征重要性进行分组求和并归一化。

每个分类模型都会对每一个行程特征对模型分类起到的作用进行一个排名，同时给一个重要性得分(每个模型的重要性得分的和都是1)，其中行程特征在前述预先对大量行程数据进行特征提取的提取过程中可以获得。如果有1000*50–50个模型，此时每个行程特征出现的次数是1000*50–50次，因此可以对1000*50–50个二分类模型的行程特征重要性进行分组求和。这里的归一化，就是把模型的重要性得分的和重新化成1，归一化处理可以采用现有相关技术实现，本发明不加以限定。

3)选择行程特征重要性之和大于95％的最少量的行程特征。

需说明的是，该步骤与行程特征重要性之和比较的设定数值选取95％但不局限于此。此处设置95％是一个经验值，也可以设置其他数值。

在完成1)确定设定数量的固定建模车主；2)筛选车主及车主行程；3)筛选行程特征的准备工作之后，本发明将选择的设定数量例如50个车主固定为对比建模的车主，并将筛选的行程特征用于建模。同时，对于每一个筛选得到设定数量例如126条有效行程的车主，将筛选的行程特征作为有效特征。然后，每一个车主都将自己的行程数据与固定的50个人进行两两训练二分类模型，得到行程判别模型训练后的模型数据。此时，每个车主对应50个二分类的xgboost模型。

考虑模型训练的效率，本发明将模型训练过程在SparkR上实现。为了便于模型的存储与调用，本发明可以将每个车主训练得到的xgboost模型数据提取必要的模型数据后转化为文本型模型数据例如字符串数据，并将50个模型对应的字符串拼接，然后可以以parquet(面向分析型业务的列式存储格式)格式存储到分布式数据存储HDFS(HadoopDistributed File System，分布式文件系统)上。模型存储格式可以如下表格3所示：

名称	描述	类型	定义
				ID	车主代号	string
raw	xgboost模型数据	string

表3

其中，raw是模型数据，是一个字符串形式存储的数据，它存储了模型的参数。一般的模型是一个特殊格式的数据，不方便存储在HDFS上；另外每个车主对应了50个模型，同时这个模型会有很多的描述说明，模型占的内存太大，同时一个车主对应50条数据也扩大了数据量。因此为了有效的存储，本发明将模型里面用于分类的参数提取出来，同时将50个模型的数据拼接起来，拼成一个字符串，后续调用模型的时候，可以再将这个字符串转化成xgboost模型。

在步骤203中，获取给定行程数据，从给定行程数据提取行程特征。

本发明可以根据秒级GPS数据提取行程特征。这个秒级GPS数据正常的来源跟原始数据来源一致，例如原始数据可以来自车载OBD盒子但不局限于此，只要是能提供满足要求的GPS数据都可以。

在步骤204中，获取给定车主标识，根据给定车主标识获取对应分类模型。

该步骤可以包括：根据给定车主标识从数据库查找对应的文本型模型数据；将所述文本型模型数据转化为分类模型。

举例说明：

1)根据车主标识查询数据库中的文本型模型数据，若文本型模型数据存在，提取文本型模型数据。

2)解析文本型模型数据并转化为xgboost模型。

任何一个模型的数据，本质上都是一堆参数。之前存储的时候是提取模型的有效参数，然后把这些参数当成字符串存储。此时从数据库查询得到的模型数据是字符串，因此需要解析，先把它拆成50个模型的数据，然后再用每个模型的参数重新构建成xgboost模型。例如，假设原始分类模型是f(x)＝5*x²+2*x+1，如果存储整个模型，就需要存储整个函数，为了节省存储空间，本发明存储的时候可以只存储“5，2，1”，这是一个包含若干个字符的字符串，因此比存储一个函数可以节省很多存储空间。后续从数据库查询得到的文本型模型数据就是“5，2，1”，然后再将“5，2，1”转化为函数f(x)＝5*x²+2*x+1，就得到了分类模型。

需说明的是，如果根据车主标识查找文本型模型数据不存在，则可以提取行程特征，若该行程为有效，并且数据来源与原有数据来源一致，则将该车主有效行程数量增加1，同时存储行程特征，然后判断有效行程数量是否不小于126，若是不小于126，则用于模型训练，否则继续等待新行程数据的采集。因为模型要求有126条数据，但是数据采集的时候可能有些车主ID的数据量不到126条，此时该车主ID就不会有文本型模型数据，那么就需要记录下这个车主ID的行程数量，当这个车主ID的行程数据够126条，就将它用于训练，然后存储它的模型。

需说明的是，步骤203和204没有必然的顺序关系。

在步骤205中，将提取的给定行程数据的行程特征输入分类模型，得到模型输出，根据模型输出值确定给定行程数据对应的车主是否为给定车主标识对应的车主。

该步骤可以根据模型输出值大于模型训练时所确定的阈值，确定给定行程数据对应的车主为给定车主标识对应的车主。

本发明模型输出结果的格式可以如表格4所示：

表4

模型输出值可以是一个0-1之间的数值，值越大，差异越小。例如，如果模型训练时所确定的阈值为0.767，当模型输出值是大于阈值0.767时，可以确定给定行程数据对应的车主为给定车主标识对应的车主，最后的结论也可以通过逻辑值表示(例如1为是，0为不是)。举例说明：给定一条行程数据，同时给定一个车主ID(比如ID＝1)，然后，判断这条行程跟这个车主ID的行程的差异大小(模型输出值为0.9，0.9>>0.767，可以认为这条行程跟ID＝1的行程风格很像，认为它是车主ID＝1的车主驾驶)。

还需说明的是，本发明对于不同的数据来源，模型输出的结果代表的含义也会有所不同。

当GPS数据来自车载设备时，模型输出的结果显示的可以是行程的驾驶风格与模型训练时的车主驾驶风格的差异大小；

当GPS数据来自手机端时，模型输出的结果显示的是手机用户出行方式的特征与模型训练时的差异大小，此时的差异不仅指的驾驶风格的差别，也可能是坐车与开车的区别。

举例说明：

如果ID是车辆ID/车载设备ID，ID号为1的车一直是A在开，训练模型用的126条行程都是A开车时候的行程，某一天这辆车是B在开车，但是这条行程的ID还是1，因为车没变。由于B的开车风格和A不相同，这条行程可能被判断属于A的概率是0.6，因为0.6<0.767，此时这条行程会判断为不是A开的。

如果ID是手机ID，对于ID号为1的人，采集了很多行程，其中有126条出行方式被判定为车辆的行程被用于模型训练。如果这126条行程都是A开车的时候采集的，那么当某一天A坐车出门，因为数据来自手机，所以会判断这条数据的出行方式是车辆，但是这条行程的特征跟模型训练的数据特征不同，也会被判别为不是A开车的行程，但是因为数据来自A的手机，那么就会认为此时A是在坐车。

上述详细介绍了本发明的一种驾驶员身份识别方法，以下介绍本发明对应的驾驶员身份识别装置及设备。

图3是根据本发明的一个实施例的一种驾驶员身份识别装置的示意性方框图。

参照图3，在一种驾驶员身份识别装置30中，可以包括：给定行程获取模块31、模型获取模块32、模型输出模块33、身份识别模块34。

给定行程获取模块31，用于获取给定行程数据，从所述给定行程数据提取行程特征。其中，所述行程特征可以包括速度、加速度、加速度变化、曲率半径、角速度、向心加速度、航向角变化的特征数据。

模型获取模块32，用于获取给定车主标识，根据所述给定车主标识获取对应分类模型。其中，可以根据所述给定车主标识从数据库查找对应的文本型模型数据；将所述文本型模型数据转化为分类模型。

模型输出模块33，用于将所述给定行程获取模块31提取的给定行程数据的行程特征输入所述模型获取模块32获取的分类模型，得到模型输出。

身份识别模块34，用于根据模型输出模块33的模型输出确定所述给定行程数据对应的车主是否为所述给定车主标识对应的车主。其中可以根据模型输出值大于模型训练时所确定的阈值，确定所述给定行程数据对应的车主为所述给定车主标识对应的车主。

图4是根据本发明的一个实施例的一种驾驶员身份识别装置的另一示意性方框图。

参照图4，在一种驾驶员身份识别装置40中，包括：给定行程获取模块31、模型获取模块32、模型输出模块33、身份识别模块34、模型建模模块35。

给定行程获取模块31、模型获取模块32、模型输出模块33、身份识别模块34的功能可以参见图3所示。

其中，模型建模模块35，用于预先建立分类模型，其中建模过程包括获取行程数据并提取行程特征，根据所述提取的行程特征并基于二分类模型扩展建立行程判别模型；所述模型获取模块32从所述模型建模模块35获取分类模型。

其中，所述模型建模模块35还可以包括：行程特征提取子模块351、行程判别模型子模块352。

行程特征提取子模块351，用于获取行程数据并提取行程特征。

行程判别模型子模块352，用于选择设定数量的固定建模车主，将其他车主分别与所述设定数量的固定建模车主，根据所述提取的行程特征进行二分类模型训练，得到一组分类模型，并综合所述分类模型得到行程判别模型。

其中，将其他车主分别与所述设定数量的固定建模车主，根据所述提取的行程特征进行二分类模型训练，可以包括：筛选符合设定条件的车主及车主行程数据；筛选特征重要性之和大于设定数值的行程特征；将筛选的车主分别与所述设定数量的固定建模车主进行两两训练二分类模型。

参照图5，在一种驾驶员身份识别设备50中，包括：处理器51、存储器52。

处理器51，获取给定行程数据，从所述给定行程数据提取行程特征；获取给定车主标识，根据所述给定车主标识获取对应分类模型；将所述提取的给定行程数据的行程特征输入所述分类模型，得到模型输出；根据所述模型输出确定所述给定行程数据对应的车主是否为所述给定车主标识对应的车主。

存储器52，存储分类模型。

本发明实施例还提供一种非暂时性机器可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行以下所述的方法：

获取给定行程数据，从所述给定行程数据提取行程特征；

综上所述，本发明实施例的技术方案，预先建立了车主的分类模型，可以根据给定车主标识获取给定车主标识对应分类模型，再将从给定行程数据提取的行程特征作为分类模型的输入，就可以计算得到模型输出，根据模型输出就可以确定给定行程数据对应的车主是否为给定车主标识对应的车主，这样相比于现有技术方案，能更准确的识别出车辆新行程的驾驶员是否为原有车主，提高了识别准确性。另外，本发明实施例可以根据给定车主标识从数据库查找所述给定车主标识对应的文本型模型数据，再将所述文本型模型数据转化为分类模型，这样可以实现存储时采用更适合存储的格式例如存储为文本型模型数据，在需要获取模型时，再将文本型模型数据转化为分类模型。

上文中已经参考附图详细描述了根据本发明的技术方案。

此外，根据本发明的方法还可以实现为一种计算机程序或计算机程序产品，该计算机程序或计算机程序产品包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。

或者，本发明还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质)，其上存储有可执行代码(或计算机程序、或计算机指令代码)，当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时，使所述处理器执行根据本发明的上述方法的各个步骤。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。

所属领域的普通技术人员应当理解：以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种驾驶员身份识别方法，其特征在于，包括：

获取给定行程数据，从所述给定行程数据提取行程特征；

2.根据权利要求1所述的方法，其特征在于，所述根据所述给定车主标识获取对应分类模型，包括：

将所述文本型模型数据转化为分类模型。

3.根据权利要求1所述的方法，其特征在于，所述分类模型预先建模建立，所述建模过程包括：

获取行程数据并提取行程特征；

4.根据权利要求3所述的方法，其特征在于，所述根据所述提取的行程特征并基于二分类模型扩展建立行程判别模型，包括：

选择设定数量的固定建模车主；

5.根据权利要求4所述的方法，其特征在于，所述将其他车主分别与所述设定数量的固定建模车主，根据所述提取的行程特征进行二分类模型训练，包括：

筛选符合设定条件的车主及车主行程数据；

筛选特征重要性之和大于设定数值的行程特征；

6.根据权利要求1至5任一项所述的方法，其特征在于，所述根据模型输出确定所述给定行程数据对应的车主是否为所述给定车主标识对应的车主，包括：

7.根据权利要求1至5任一项所述的方法，其特征在于：

所述行程特征包括速度、加速度、加速度变化、曲率半径、角速度、向心加速度、航向角变化的特征数据。

8.一种驾驶员身份识别装置，其特征在于，包括：

9.根据权利要求8所述的装置，其特征在于，所述装置还包括：

所述模型获取模块从所述模型建模模块获取所述分类模型。

10.根据权利要求9所述的装置，其特征在于，所述模型建模模块包括：

行程特征提取子模块，用于获取行程数据并提取行程特征；