CN109033966B - 绕路检测模型训练方法和装置,以及绕路检测方法和装置 - Google Patents

绕路检测模型训练方法和装置,以及绕路检测方法和装置 Download PDF

Info

Publication number
CN109033966B
CN109033966B CN201810663143.9A CN201810663143A CN109033966B CN 109033966 B CN109033966 B CN 109033966B CN 201810663143 A CN201810663143 A CN 201810663143A CN 109033966 B CN109033966 B CN 109033966B
Authority
CN
China
Prior art keywords
order
detours
driving
completed
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810663143.9A
Other languages
English (en)
Other versions
CN109033966A (zh
Inventor
张凌宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Didi Infinity Technology and Development Co Ltd
Original Assignee
Beijing Didi Infinity Technology and Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Didi Infinity Technology and Development Co Ltd filed Critical Beijing Didi Infinity Technology and Development Co Ltd
Priority to CN201810663143.9A priority Critical patent/CN109033966B/zh
Publication of CN109033966A publication Critical patent/CN109033966A/zh
Application granted granted Critical
Publication of CN109033966B publication Critical patent/CN109033966B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/588Recognition of the road, e.g. of lane markings; Recognition of the vehicle driving pattern in relation to the road
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Traffic Control Systems (AREA)
  • Navigation (AREA)

Abstract

本申请提供了一种绕路检测模型训练方法和装置,以及绕路检测方法和装置,其中,该绕路检测模型训练方法包括:获取样本订单数据集合;所述样本订单数据集合中包括多个已完成订单的订单数据;每个已完成订单的订单数据包括多种行车特征以及该已完成订单对应的绕路结果属性,该绕路结果属性为已绕路或未绕路;以所述多种行车特征作为决策树模型的输入特征,以所述绕路结果属性作为所述决策树模型的输出特征,构建决策树模型,将构建好的决策树模型作为所述绕路检测模型。本申请实施例通过多种行车特征构建绕路检测模型,考虑多种行车特征对绕路结果属性的影响,所得到的绕路检测结果更加的准确。

Description

绕路检测模型训练方法和装置,以及绕路检测方法和装置
技术领域
本申请涉及深度学习技术领域,具体而言,涉及绕路模型训练方法和装置,以及绕路检测方法和装置。
背景技术
出租车、滴滴打车等出行方式已经成为目前人们出行的重要选择。很多人在乘坐出租车或者滴滴打车出行的时候,或多或少都发生过与司机之间的矛盾,导致出行过程的不愉快。造成与司机之间矛盾的原因有多种,司机对于道路选择,和乘客期望的道路之间的差异通常是乘客与司机之间爆发矛盾的重要原因。在很多情况下,当司机对于道路的选择和乘客期望不符合的时候,乘客会由此怀疑司机存在故意绕路的嫌疑,进而发生与司机之间的纠纷。
当前检测司机在搭载乘客的时候是否存在绕路行为的方法为:根据乘客出发地和目的地,确定从出发地到达目的地之间的多条路线,然后从多条路径中选择其中一条路程最短的路线作为基准路线,将司机在搭载乘客过程中途经的路线与该基准路线进行比对;若两条路线的路程长度相差超过预设的路程差阈值,则认为司机存在绕路行为。
但是上述只依靠路程差来界定司机是否存在绕路行为的方法,在绕路检测中存在很大误差。
发明内容
有鉴于此,本申请实施例的目的在于提供一种绕路检测模型训练方法和装置,以及绕路检测方法和装置,能够对司机在搭载乘客过程中是否存在绕路行为进行更加准确的检测。
第一方面,本申请实施例提供了一种绕路检测模型训练方法,包括:
获取样本订单数据集合;所述样本订单数据集合中包括多个已完成订单的订单数据;每个已完成订单的订单数据包括多种行车特征以及该已完成订单对应的绕路结果属性,该绕路结果属性为已绕路或未绕路;
以所述多种行车特征作为决策树模型的输入特征,以所述绕路结果属性作为所述决策树模型的输出特征,构建决策树模型,将构建好的决策树模型作为所述绕路检测模型。
结合第一方面,本申请实施例提供了第一方面的第一种可能的实施方式,其中:所述行车特征包括以下特征中的多种:
预估行车时长、实际行车时长、预估行车路程、实际行车路程、预计经过路口次数、实际经过路口次数、预计车辆转弯的次数、实际车辆转弯次数、连续两次转弯的转弯角度之差小于预设角度差阈值的次数、道路拥堵情况。
结合第一方面,本申请实施例提供了第一方面的第二种可能的实施方式,其中:通过下述步骤获取所述绕路结果属性为已绕路的已完成订单的订单数据:
获取事实绕路订单的订单数据以及疑似绕路订单的订单数据;
根据所述疑似绕路订单的订单数据的多种行车特征,以及所述事实绕路订单的订单数据的多种行车特征,从所述疑似绕路订单中,筛选出认定绕路订单;
将筛选出的认定绕路订单的订单数据和所述事实绕路订单的订单数据作为所述绕路结果属性为已绕路的已完成订单的订单数据。
结合第一方面的第二种可能的实施方式,本申请实施例提供了第一方面的第三种可能的实施方式,其中:所述获取事实绕路订单的订单数据,包括:
根据乘客投诉信息以及与乘客投诉信息对应的订单的行车特征,获取所述事实绕路订单的订单数据。
结合第一方面的第二种可能的实施方式,本申请实施例提供了第一方面的第四种可能的实施方式,其中:所述获取疑似绕路订单的订单数据,包括:
根据预设的疑似绕路行车特征,从已完成订单的订单数据库中筛选出所述疑似绕路订单的订单数据。
结合第一方面的第四种可能的实施方式,本申请实施例提供了第一方面的第五种可能的实施方式,其中:所述疑似绕路行车特征包括以下特征中的一种或多种:
行车路线与导航规划路线不一致;实际行车路程与预估行车路程之间的差值大于设定距离阈值;实际行车时长与预估行车时长之间的差值大于设定时长阈值;实际经过路口次数与预计经过路口次数之间的差值大于设定次数阈值;实际车辆转弯次数与预计车辆转弯的次数之间的差值大于设定转弯次数阈值。
结合第一方面的第二种可能的实施方式,本申请实施例提供了第一方面的第六种可能的实施方式,其中:根据所述疑似绕路订单的订单数据的多种行车特征,以及所述事实绕路订单的订单数据的多种行车特征,从所述疑似绕路订单中,筛选出认定绕路订单,包括:
基于所述疑似绕路订单对应的各个行车特征,生成第一特征向量,以及基于所述事实绕路订单对应的各个行车特征,生成第二特征向量;
计算所述第一特征向量和所述第二特征向量之间的相似度;
根据所述第一特征向量和所述第二特征向量之间的相似度,从所述疑似绕路订单中,筛选出所述认定绕路订单。
结合第一方面的第六种可能的实施方式,本申请实施例提供了第一方面的第七种可能的实施方式,其中:所述事实绕路订单有多个;所述计算所述第一特征向量和所述第二特征向量之间的相似度,包括:
针对每个疑似绕路订单,分别计算该疑似绕路订单的第一特征向量与多个所述事实绕路订单的第二特征向量中每个第二特征向量之间的相似度;
所述根据所述第一特征向量和所述第二特征向量之间的相似度,从所述疑似绕路订单中,筛选出认定绕路订单,包括:
针对每个疑似绕路订单,根据该疑似绕路订单的第一特征向量与多个所述第二特征向量中每个第二特征向量之间的相似度,计算该第一特征向量与多个所述第二特征向量之间的相似度的平均值;
若所述相似度的平均值大于预设的相似度阈值,则将所述疑似绕路订单确定为认定绕路订单。
结合第一方面的第二种可能的实施方式,本申请实施例提供了第一方面的第八种可能的实施方式,其中:所述从所述疑似绕路订单中,筛选出认定绕路订单之后,还包括:
根据所述事实绕路订单的订单数据,对所述认定绕路订单的订单数据进行调整;
所述将筛选出的认定绕路订单的订单数据和所述事实绕路订单的订单数据作为所述已绕路订单的订单数据,包括:
将调整后的所述认定绕路订单的订单数据,和所述事实绕路订单的订单数据作为所述已绕路订单的订单数据。
结合第一方面的第八种可能的实施方式,本申请实施例提供了第一方面的第九种可能的实施方式,其中:所述根据所述事实绕路订单的订单数据,对所述认定绕路订单的订单数据进行调整,包括:
获取基于多个事实绕路订单的行车特征得到的变换矩阵;
计算所述认定绕路订单的行车特征组成的第三特征向量和所述变换矩阵之间的乘积,得到所述认定绕路订单对应的调整后的第四特征向量;
将所述第四特征向量表征的订单数据,作为调整后的所述认定绕路订单的订单数据。
结合第一方面的第九种可能的实施方式,本申请实施例提供了第一方面的第十种可能的实施方式,其中:根据以下步骤确定所述变换矩阵:
确定由多个所述事实绕路订单的特征向量构成的多维矩阵;
将所述多维矩阵转换为能够与所述认定绕路订单的特征向量相乘的变换矩阵。
结合第一方面,本申请实施例提供了第一方面的第十一种可能的实施方式,其中:所述构建决策树模型,包括:
基于所述样本订单集合内多个已完成订单的订单数据,计算每种行车特征的信息增益;
将对应的信息增益最大的行车特征作为所述决策树模型的父节点;
根据所述父节点对应的多个特征区间,将所述样本订单集合内多个已完成订单分别划分到每个特征区间中;
针对每个特征区间,根据该特征区间内的已完成订单的订单数据,计算除所述父节点所在支路中已存在的节点外每种行车特征的信息增益,并将对应的信息增益最大的行车特征作为所述父节点的一个子节点;
将所述子节点作为新的父节点,将该新的父节点对应的特征区间内的已完成订单组成新的样本订单集合,返回所述根据所述父节点对应的多个特征区间,将所述样本订单集合内多个已完成订单分别划分到每个特征区间中的步骤,直到每个支路中包含了预设的全部行车特征;
根据所述决策树模型中每个支路的最后一个节点对应的多个特征区间,将该节点对应的已完成订单分别划分到每个特征区间中,基于每个特征区间内的已完成订单的绕路结果属性,为该节点对应的每个特征区间标注绕路结果标签。
结合第一方面的第十一种可能的实施方式,本申请实施例提供了第一方面的第十二种可能的实施方式,其中:基于所述样本订单集合内多个已完成订单的订单数据,计算每种行车特征的信息增益,包括:
针对每种行车特征,根据在当前样本订单集合中,绕路结果属性为已绕路的已完成订单的数量及绕路结果属性为未绕路的已完成订单的数量,以及,该行车特征的每个特征区间中,绕路结果属性为已绕路的已完成订单的数量及绕路结果属性为未绕路的已完成订单的数量,计算该行车特征的信息增益。
结合第一方面的第十二种可能的实施方式,本申请实施例提供了第一方面的第十三种可能的实施方式,其中:根据以下公式计算任一行车特征的信息增益Info_Gain(D):
其中,k表示所述任一行车特征对应的特征区间的数量;P(ci)表示该任一行车特征的第i个特征区间所包括的已完成订单的数量在当前样本订单集合内已完成订单总数量中所占的比例;P(t)表示当前样本订单集合中,绕路结果属性为已绕路的已完成订单的数量和当前样本订单集合中所有已完成订单数量的比值;表示当前样本订单集合中,绕路结果属性为未绕路的已完成订单的数量和当前样本订单集合中所有已完成订单数量的比值;P(ci|t)表示所述任一行车特征的第i个特征区间中,绕路结果属性为已绕路的已完成订单的数量与该特征区间中所有已完成订单数量的比值;表示所述任一行车特征的第i个特征区间中,绕路结果属性为未绕路的已完成订单的数量与该特征区间中所有已完成订单数量的比值。
第二方面,本申请实施例还提供一种绕路检测方法,该方法包括:
获取待检测订单数据;
提取所述待检测订单数据中的多种行车特征;
将所述待检测订单数据的多种行车特征输入到通过权利要求1~14任意一项所述的绕路检测模型训练方法得到的绕路检测模型中,得到与所述待检测订单数据对应的绕路检测结果。
第三方面,本申请实施例还提供一种绕路检测模型训练装置,该装置包括:获取模块和训练模块;其中,
所述获取模块,用于获取样本订单数据集合;所述样本订单数据集合中包括多个已完成订单的订单数据;每个已完成订单的订单数据包括多种行车特征以及该已完成订单对应的绕路结果属性,该绕路结果属性为已绕路或未绕路;
所述训练模块,用于以所述多种行车特征作为决策树模型的输入特征,以所述绕路结果属性作为所述决策树模型的输出特征,构建决策树模型,将构建好的决策树模型作为所述绕路检测模型。
结合第三方面,本申请实施例提供了第三方面的第一种可能的实施方式,其中:所述行车特征包括以下特征中的多种:
预估行车时长、实际行车时长、预估行车路程、实际行车路程、预计经过路口次数、实际经过路口次数、预计车辆转弯的次数、实际车辆转弯次数、连续两次转弯的转弯角度之差小于预设角度差阈值的次数、道路拥堵情况。
结合第三方面,本申请实施例提供了第三方面的第二种可能的实施方式,其中:所述获取模块,具体用于通过下述步骤获取所述绕路结果属性为已绕路的已完成订单的订单数据:
获取事实绕路订单的订单数据以及疑似绕路订单的订单数据;
根据所述疑似绕路订单的订单数据的多种行车特征,以及所述事实绕路订单的订单数据的多种行车特征,从所述疑似绕路订单中,筛选出认定绕路订单;
将筛选出的认定绕路订单的订单数据和所述事实绕路订单的订单数据作为所述绕路结果属性为已绕路的已完成订单的订单数据。
结合第三方面的第二种可能的实施方式,本申请实施例提供了第三方面的第三种可能的实施方式,其中:
所述获取模块,用于通过下述步骤获取事实绕路订单的订单数据:
根据乘客投诉信息以及与乘客投诉信息对应的订单的行车特征,获取所述事实绕路订单的订单数据。
结合第三方面的第二种可能的实施方式,本申请实施例提供了第三方面的第四种可能的实施方式,其中:所述获取模块,具体用于通过下述步骤获取疑似绕路订单的订单数据:
根据预设的疑似绕路行车特征,从已完成订单的订单数据库中筛选出所述疑似绕路订单的订单数据。
结合第三方面的第四种可能的实施方式,本申请实施例提供了第三方面的第五种可能的实施方式,其中:所述疑似绕路行车特征包括以下特征中的一种或多种:
行车路线与导航规划路线不一致;实际行车路程与预估行车路程之间的差值大于设定距离阈值;实际行车时长与预估行车时长之间的差值大于设定时长阈值;实际经过路口次数与预计经过路口次数之间的差值大于设定次数阈值;实际车辆转弯次数与预计车辆转弯的次数之间的差值大于设定转弯次数阈值。
结合第三方面的第二种可能的实施方式,本申请实施例提供了第三方面的第六种可能的实施方式,其中:所述获取模块,具体用于通过下述步骤从所述疑似绕路订单中,筛选出认定绕路订单:
基于所述疑似绕路订单对应的各个行车特征,生成第一特征向量,以及基于所述事实绕路订单对应的各个行车特征,生成第二特征向量;
计算所述第一特征向量和所述第二特征向量之间的相似度;
根据所述第一特征向量和所述第二特征向量之间的相似度,从所述疑似绕路订单中,筛选出所述认定绕路订单。
结合第三方面的第六种可能的实施方式,本申请实施例提供了第三方面的第七种可能的实施方式,其中:所述事实绕路订单有多个;所述获取模块,具体用于通过下述步骤计算所述第一特征向量和所述第二特征向量之间的相似度:
针对每个疑似绕路订单,分别计算该疑似绕路订单的第一特征向量与多个所述事实绕路订单的第二特征向量中每个第二特征向量之间的相似度;
针对每个疑似绕路订单,根据该疑似绕路订单的第一特征向量与多个所述第二特征向量中每个第二特征向量之间的相似度,计算该第一特征向量与多个所述第二特征向量之间的相似度的平均值;
若所述相似度的平均值大于预设的相似度阈值,则将所述疑似绕路订单确定为认定绕路订单。
结合第三方面的第二种可能的实施方式,本申请实施例提供了第三方面的第八种可能的实施方式,其中:所述获取模块,在从所述疑似绕路订单中,筛选出认定绕路订单之后,还用于:
根据所述事实绕路订单的订单数据,对所述认定绕路订单的订单数据进行调整;
所述获取模块,具体用于通过下述步骤将筛选出的认定绕路订单的订单数据和所述事实绕路订单的订单数据作为所述已绕路订单的订单数据:
将调整后的所述认定绕路订单的订单数据,和所述事实绕路订单的订单数据作为所述已绕路订单的订单数据。
结合第三方面的第八种可能的实施方式,本申请实施例提供了第三方面的第九种可能的实施方式,其中:所述获取模块,具体用于通过下述步骤对所述认定绕路订单的订单数据进行调整:
获取基于多个事实绕路订单的行车特征得到的变换矩阵;
计算所述认定绕路订单的行车特征组成的第三特征向量和所述变换矩阵之间的乘积,得到所述认定绕路订单对应的调整后的第四特征向量;
将所述第四特征向量表征的订单数据,作为调整后的所述认定绕路订单的订单数据。
结合第三方面的第九种可能的实施方式,本申请实施例提供了第三方面的第十种可能的实施方式,其中:所述获取模块,具体用于通过以下步骤确定所述变换矩阵:
确定由多个所述事实绕路订单的特征向量构成的多维矩阵;
将所述多维矩阵转换为能够与所述认定绕路订单的特征向量相乘的变换矩阵。
结合第三方面,本申请实施例提供了第三方面的第十一种可能的实施方式,其中:所述训练模块,具体用于通过下述步骤构建决策树模型:
基于所述样本订单集合内多个已完成订单的订单数据,计算每种行车特征的信息增益;
将对应的信息增益最大的行车特征作为所述决策树模型的父节点;
根据所述父节点对应的多个特征区间,将所述样本订单集合内多个已完成订单分别划分到每个特征区间中;
针对每个特征区间,根据该特征区间内的已完成订单的订单数据,计算除所述父节点所在支路中已存在的节点外每种行车特征的信息增益,并将对应的信息增益最大的行车特征作为所述父节点的一个子节点;
将所述子节点作为新的父节点,将该新的父节点对应的特征区间内的已完成订单组成新的样本订单集合,返回所述根据所述父节点对应的多个特征区间,将所述样本订单集合内多个已完成订单分别划分到每个特征区间中的步骤,直到每个支路中包含了预设的全部行车特征;
根据所述决策树模型中每个支路的最后一个节点对应的多个特征区间,将该节点对应的已完成订单分别划分到每个特征区间中,基于每个特征区间内的已完成订单的绕路结果属性,为该节点对应的每个特征区间标注绕路结果标签。
结合第三方面的第十一种可能的实施方式,本申请实施例提供了第三方面的第十二种可能的实施方式,其中:所述训练模块,具体用于通过下述步骤基于所述样本订单集合内多个已完成订单的订单数据,计算每种行车特征的信息增益:
针对每种行车特征,根据在当前样本订单集合中,绕路结果属性为已绕路的已完成订单的数量及绕路结果属性为未绕路的已完成订单的数量,以及,该行车特征的每个特征区间中,绕路结果属性为已绕路的已完成订单的数量及绕路结果属性为未绕路的已完成订单的数量,计算该行车特征的信息增益。
结合第三方面的第十二种可能的实施方式,本申请实施例提供了第三方面的第十三种可能的实施方式,其中:所述训练模块,具体用于根据以下公式计算任一行车特征的信息增益Info_Gain(D):
其中,k表示所述任一行车特征对应的特征区间的数量;P(ci)表示该任一行车特征的第i个特征区间所包括的已完成订单的数量在当前样本订单集合内已完成订单总数量中所占的比例;P(t)表示当前样本订单集合中,绕路结果属性为已绕路的已完成订单的数量和当前样本订单集合中所有已完成订单数量的比值;表示当前样本订单集合中,绕路结果属性为未绕路的已完成订单的数量和当前样本订单集合中所有已完成订单数量的比值;P(ci|t)表示所述任一行车特征的第i个特征区间中,绕路结果属性为已绕路的已完成订单的数量与该特征区间中所有已完成订单数量的比值;表示所述任一行车特征的第i个特征区间中,绕路结果属性为未绕路的已完成订单的数量与该特征区间中所有已完成订单数量的比值。
第四方面,本申请实施例还提供一种绕路检测装置,该装置包括:待检测订单获取模块、行车特征提取模块和检测模块;其中,
所述待检测订单获取模块,用于获取待检测订单数据;
所述行车特征提取模块,用于提取所述待检测订单数据中的多种行车特征;
所述检测模块,用于将所述待检测订单数据的多种行车特征输入到通过上述绕路检测模型训练装置训练得到的绕路检测模型中,得到与所述待检测订单数据对应的绕路检测结果。
第五方面,本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述绕路检测模型训练方法。
第六方面,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述绕路检测模型训练方法。
第七方面,本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述绕路检测方法。
第八方面,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述绕路检测方法。
本申请实施例所提供的绕路检测模型训练方法在具体实现的时候,将样本订单数据集合中包括的多个已完成订单的订单数据作为训练数据对绕路检测模型进行训练。为了实现对绕路检测模型的训练,首先要确定模型的解释变量和被解释变量,并在对模型进行训练的过程中,基于训练数据中所携带的解释变量和被解释变量的具体值,对模型进行训练。对在本申请中,行车特征即为解释变量,绕路结果属性即为被解释变量,对模型进行训练的过程,即是建立多种行车特征与绕路结果属性之间的关联关系的过程。另外,本申请通过构建决策树来生成绕路检测模型,构建决策树的过程,即为对绕路检测模型进行训练的过程。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的一种绕路检测模型训练方法的流程图;
图2示出了本申请实施例所提供的获取绕路结果属性为已绕路的已完成订单的订单数据的具体方法的流程图;
图3示出了本申请实施例所提供的从疑似绕路订单中筛选出认定绕路订单的具体方法的流程图;
图4示出了本申请实施例所提供的基于多个事实绕路订单的第二特征向量,对同一疑似绕路订单进行筛选的具体方法的流程图;
图5示出了本申请实施例所提供的另一种获取绕路结果属性为已绕路的已完成订单的订单数据的具体方法的流程图;
图6示出了本申请实施例所提供的对第一特征向量进行数据变换到的具体方法的流程图;
图7示出了本申请实施例所提供的一种构建决策树模型的具体方法的流程图;
图8示出了本申请实施例所提供的示例中所构建的决策树的示意图;
图9示出了本申请实施例所提供的一种绕路检测方法的流程图;
图10示出了本申请实施例所提供的绕路检测模型训练装置的结构示意图;
图11示出了本申请实施例所提供的电子设备110的结构示意图;
图12示出了本申请实施例所提供的绕路检测装置的结构示意图;
图13示出了本申请实施例所提供的另一种电子设备130的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
基于司机实际的行车路线和基准路线(规划的路程最短的路线)分别对应的路程长度之间的差值,以及预设的路程差阈值来检测司机在搭载乘客时是否存在绕路行为是存在较大误差的;例如当司机在道路出现限行、拥堵、事故等异常情况时,会采用合理的绕行来避开出现异常情况的路段,由此可能会造成司机实际的行车路线和基准路线之间的路程差超出预设的路程差阈值;在此种情况下,司机的驾驶行为实际上应当被归属为正常行为,但是由于实际行车路线和基准路线之间的路程差超出了预设的路程差阈值,而被判断为绕路行为。再者,由于出发地和目的地的多样性,路程差阈值的确定本身存在很大的困难,设置一个固定的路程差阈值,会造成在对司机是否存在绕路行为进行检测的过程中存在很大的误差。基于此,本申请提供的一种绕路检测模型训练方法和装置,以及绕路检测方法和装置,能够对司机在搭载乘客过程中是否存在绕路行为进行更加准确的检测。
为便于对本实施例进行理解,首先对本申请实施例所公开的一种绕路检测模型训练方法进行详细介绍,在本申请实施例中,通过该绕路检测模型训练方法得到的绕路检测模型用于对司机在搭载乘客过程中是否存在绕路行为进行检测。
参见图1所示,本申请实施例所提供的绕路检测模型训练方法包括:
S101:获取样本订单数据集合;所述样本订单数据集合中包括多个已完成订单的订单数据;每个已完成订单的订单数据包括多种行车特征以及该已完成订单对应的绕路结果属性,该绕路结果属性为已绕路或未绕路。
S102:以所述多种行车特征作为决策树模型的输入特征,以所述绕路结果属性作为所述决策树模型的输出特征,构建决策树模型,将构建好的决策树模型作为所述绕路检测模型。
本申请实施例通过将样本订单数据集合中包括的多个已完成订单的订单数据作中所包括的多种行车特征作为输入决策树模型的输入特征,并将绕路结果属性作为决策树模型的输出特征构建决策树模型,构建决策树模型的过程实际上是多种行车特征和绕路结果属性之间建立联系的过程,在将构建好的决策树模型作为绕路检测模型进行绕路检测的时候,所得到的绕路检测结果是基于多种行车特征得到的,从而考虑到多种行车特征对绕路结果属性的影响,所得到的绕路检测结果更加的准确。
本申请实施例所提供的绕路检测模型训练方法在具体实现的时候,将样本订单数据集合中包括的多个已完成订单的订单数据作为训练数据对绕路检测模型进行训练。为了实现对绕路检测模型的训练,首先要确定模型的解释变量和被解释变量,并在对模型进行训练的过程中,基于训练数据中所携带的解释变量和被解释变量的具体值,对模型进行训练。对在本申请中,行车特征即为解释变量,绕路结果属性即为被解释变量,对模型进行训练的过程,即是建立多种行车特征与绕路结果属性之间的关联关系的过程。另外,本申请通过构建决策树来生成绕路检测模型,构建决策树的过程,即为对绕路检测模型进行训练的过程。
在本申请中,行车特征包括以下特征中的多种:预估行车时长、实际行车时长、预估行车路程、实际行车路程、预计经过路口次数、实际经过路口次数、预计车辆转弯的次数、实际车辆转弯次数、连续两次转弯的转弯角度之差小于预设角度差阈值的次数、道路拥堵情况。
下面以上述以行车特征为例,对本申请实施例的具体实施过程进行说明。
具体地,某已完成订单对应的绕路结果属性为已绕路,会存在该已完成订单的行车特征部分或者全部出现异常。
这里的已完成订单的行车特征出现异常,是指出现如下异常情况中的至少一种:
(1)实际行车时长与预估行车时长的时间差大于预设的时间差阈值,该预设的时间差阈值可以是固定值,也可以根据预估行车时长动态设定;比如,由于预估行车时长越久,在行车过程中发生如等待红绿灯、拥堵、避让行人等突发状况的概率越大,这些突发状况可能导致实际行车时长大于预估行车时长,因此,预估行车时长越久,设置的时间差阈值可以越大;随着预估行车时长的增加,预设的时间差阈值的增加逐渐变缓,以适应司机在出发地和目的地之间距离较远的情况下,司机仅在部分路段出现绕路行为导致的实际行车时长只较之预估行车时长有较少的增加这种情况。
(2)实际行车路程和预估行车路程的路程差大于预设的路程差阈值;与上述(1)类似,该预设的路程差阈值可以根据预估行车路程来确定;比如,由于预估行车路程越长,在行车过程中发生如路况由通畅转变为拥堵、由未进行交通管制转变为交通管制等突发状况的概率也就越大;这些突发状况可能导致实际行车路程大于预估行车路程,因此,预估行车路程越大,设置的路程差阈值可以越大;并且随着预估行车路程的增加,预设的路程差阈值的增加会逐渐变缓,以适应司机在出发地和目的地之间距离较远的情况下,司机仅在部分路段出现绕路行为导致的实际行车路程大于预估行车路程。
(3)实际经过路口次数与预计经过路口次数的次数差大于预设的经过路口次数差阈值;此处,该经过路口次数阈值可以为定值,也可以根据预计经过路口次数来确定;当根据预计经过路口次数来确定预设经过路口次数差阈值时,预计经过路口次数越大,则对应的经过路口次数差阈值也就越大。
(4)实际车辆转弯次数与预计车辆转弯次数的次数差大于预设的转弯次数差阈值;此处,该转弯次数差阈值可以为定值,也可以根据预计车辆转弯次数来确定;当根据预计车辆婉转次数来确定转弯次数差阈值的时候,预计车辆转弯次数越多,则对应的转弯次数差阈值也就越大。
(5)连续两次转弯的转弯角度之差小于预设角度差阈值的次数大于预设的次数阈值;在具体实施中,连续两次转弯的转弯角度的差值可以通过下述方式确定:将车辆向着前方(任意一个方向)行驶时的转弯角度视作0度,将车辆向左或右其中一个方向转弯时转弯角度视作小于0度,并将车辆向剩余另一个方向转弯时转弯角度视作大于0度;连续两次转弯的转弯角度的差指连续两次转弯的转弯角度的差值的绝对值,若存在连续两次转弯的转弯角度的差值的绝对值小于预设的角度差阈值的情况,则认为司机连续两次都向左或者向右转弯,可能存在绕路行为。这里,较为特殊地,车辆掉头被认为是一次转弯。在实际实施中,此处的次数阈值可以设定为1。
(6)道路存在拥堵情况。
此处需要注意的是,道路拥堵情况包括如下几种数据中的至少一种:拥堵路程的长度以及与拥堵路程对应的拥堵程度;在实际中,发生拥堵情况的路段可能有多段,每段拥堵路段对应的拥堵程度都是不一样的;为了简化模型训练过程,可以将车辆行车过程中遇到的所有拥堵路段的总长度作为拥堵路程的长度,并根据每条拥堵路段的拥堵程度,对拥堵路程的拥堵程度进行综合性的判断。
在获取样本订单数据集合时,样本订单数据集合中每个已完成订单的订单数据的行车特征并非是全部能够基于已完成订单直接获取的。
例如已完成订单中的信息通常会包括多种信息,如订单开始时间、订单完成时间、出发地、目的地以及实际行驶路线、根据出发地以及目的地进行路线规划的规划路线、预估行车时长、实际行车路程等信息。
已完成订单的订单数据中所包括的多种行车特征,其中有一部分可以基于已完成订单的信息直接获得,例如预估行车时长、实际行车路程可以直接从已完成订单中包括的信息中直接读取;有另外一部分则要基于已完成订单的信息间接获得,例如预计经过路口次数和预计车辆转弯次数都要基于规划路线计算得到;实际经过路口次数、实际车辆转弯次数以及连续两次转弯的转弯角度之差小于预设角度差阈值的次数要基于实际行驶路线计算得到;道路拥堵情况则要基于订单开始时间,从交通管理系统获得,或者从数据库中存储的与订单开始时间对应的路况信息中获得。
当司机在搭载乘客过程中存在绕路情况时,会导致上述行车特征中的一种或者多种出现异常情况,但并非是上述行车特征中的一种或者多种出现异常情况,一定是由于司机绕路导致的。例如司机在对拥堵路段进行合理规避的时候,可能会导致实际行车路程与预估行车路程之间的差大于预设的路程差阈值,并可能会导致实际行车时长与预估行车时长之间的差大于预设的时间差阈值;这种情况下,虽然会存在行车特征部分出现异常的情况,但是实际上并不能被判定为司机存在绕路行为。
基于上述情况的存在,本申请实施例中并非是简单的采用司机实际行车路线和基准路线的路程长度之间的差值和预设的路程差阈值来检测司机在搭载乘客中是否存在绕路行为,而是采用多种行车特征作为解释变量,建立多种行车特征和绕路结果属性之间的联系,通过多种行车特征来确定司机是否存在绕路行为,因而能够得到更加准确的检测结果。
具体地,在样本订单数据集合中包括两种已完成订单的订单数据:
Ⅰ:绕路结果属性为未绕路的已完成订单的订单数据;
Ⅱ:绕路结果属性为已绕路的已完成订单的订单数据。
在上述Ⅰ中,绕路结果属性为未绕路的已完成订单的订单数据通常从已完成订单的数据库中进行筛选获得。
在筛选过程中,为了增加绕路检测模型的泛化能力,可以从已完成订单数据库中筛选多种类型不同的订单。其中,泛化能力是指模型对新鲜样本的适应能力;类型不同的订单,可以包括如下几种已完成订单中的多种:
其一,行车特征并无任何异常的已完成订单;
其二,出现异常情况的行车特征的数量少于第一预设数量,且经确定出现异常情况的行车特征属于合理的道路选择,并不存在绕路行为的已完成订单。
在上述Ⅱ中,绕路结果属性为已绕路的已完成订单,可以根据乘客的投诉信息,从投诉数据库中筛选经确认确实存在绕路行为的已完成订单,以下称这种订单为事实绕路订单。
事实上,由于投诉数据库中经确认确实存在绕路行为的已完成订单的数量是比较少的;若绕路结果属性为已绕路的已完成订单的订单数据过少,会导致最终所得到的绕路检测模型在进行绕路检测时,所得到的结果会存在比较大的误差;因此需要对绕路结果属性为已绕路的已完成订单的订单数据进行扩充。
为了实现对绕路结果属性为已绕路的已完成订单的订单数据的扩充,还可以从已完成订单数据库中筛选存在绕路行为,但是并未被投诉过的已完成订单,以下称这种订单为认定绕路订单。
最终获得的绕路结果属性为已绕路的已完成订单的订单数据,应当包括认定绕路订单的订单数据以及事实绕路订单的订单数据。
具体地,参见图2所示,本申请实施例还提供一种获取绕路结果属性为已绕路的已完成订单的订单数据的具体方法,该方法包括:
S201:获取事实绕路订单的订单数据以及疑似绕路订单的订单数据。
在具体实现的时候,事实绕路订单的订单数据为已经在事实上认定为存在绕路行为的已完成订单的订单数据,其能够基于乘客的投诉信息,从投诉数据库所包括的被投诉的已完成订单中获取。疑似绕路订单可以从已完成订单数据库中进行筛选。
在进行疑似绕路订单筛选的时候,可以通过人工进行筛选;为了提高筛选的效率,也可以根据预设的疑似绕路行车特征,从已完成订单的订单数据库中自动筛选出疑似绕路订单的订单数据。
其中,疑似绕路行车特征包括以下特征中的一种或多种:
行车路线与导航规划路线不一致;实际行车路程与预估行车路程之间的差值大于设定距离阈值;实际行车时长与预估行车时长之间的差值大于设定时长阈值;实际经过路口次数与预计经过路口次数之间的差值大于设定次数阈值;实际车辆转弯次数与预计车辆转弯的次数之间的差值大于设定转弯次数阈值。
这里需要注意的是,疑似绕路订单,是从订单数据库中的已完成订单中进行筛选的,而并非是从样本订单数据集合中包括的已完成订单的订单数据中筛选。
事实绕路订单的订单数据和疑似绕路订单的订单数据的获取方式与上述已完成订单的订单数据的获取方式类似,再次不再赘述。
S202:根据所述疑似绕路订单的订单数据的多种行车特征,以及所述事实绕路订单的订单数据的多种行车特征,从所述疑似绕路订单中,筛选出认定绕路订单。
此处,要确定疑似绕路订单是否能被作为认定绕路订单,要基于疑似绕路订单的订单数据的多种行车特征以及事实绕路订单的订单数据的多种行车特征进行判断。
具体地,疑似绕路订单的订单数据的行车特征与事实绕路订单的订单数据的行车特征之间的相似度越高,则疑似绕路订单作为认定绕路订单的概率也就越大。
具体地,参见图3所示,本申请实施例通过下述步骤根据所述疑似绕路订单的订单数据的多种行车特征,以及所述事实绕路订单的订单数据的多种行车特征,从所述疑似绕路订单中,筛选出认定绕路订单:
S301:基于疑似绕路订单对应的各个行车特征,生成第一特征向量,以及基于事实绕路订单对应的各个行车特征,生成第二特征向量。
S302:计算所述第一特征向量和所述第二特征向量之间的相似度;
S303:根据所述第一特征向量和所述第二特征向量之间的相似度,从所述疑似绕路订单中,筛选出所述认定绕路订单。
在具体实现的时候,第一特征向量和第二特征向量的维度应当是完全一致的;例如,假若第一特征向量的维度1*10,则第二特征向量的维度也为1*10。在基于疑似绕路订单对应的各个行车特征生成第一特征向量时,可以将各个行车特征对应的实际数值作为第一特征向量中每个元素的特征值。
例如,将车辆向着前方(任意一个方向)行驶时的转弯角度视作0度,将车辆向左或右其中一个方向转弯时转弯角度视作小于0度,并将车辆向剩余另一个方向转弯时转弯角度视作大于0度;
将道路拥堵情况分为三个档次,依次为不拥堵、轻微拥堵以及严重拥堵;且分别赋值为:0,1,2。
某疑似绕路订单对应的各个行车特征分别为:
预估行车时长:23分钟;
实际行车时长:44分钟;
预估行车路程:2.4公里;
实际行车路程:2.9公里;
预计经过路口次数:3次;
实际经过路口次数:5次;
预计车辆转弯的次数2次;
实际车辆转弯次数5次;
连续两次转弯的转弯角度之差小于预设角度差阈值的次数为;1;
道路拥堵情况:1。
则该疑似绕路订单的第一特征向量为:(24,44,2.4,2.9,3,5,2,5,2,1)。
类似地,在该种特征向量生成方式下,实时绕路订单的第二特征向量与上述生成方式类似,在此不再赘述。
此外,由于不同行车特征的度量单位会存在不一致的情况,例如预估行车时长的度量单位为分钟,预估行车路程的度量单位为公里,实际车辆转弯次数的度量单位为次,连续两次转弯的转弯角度之差小于预设角度差阈值的次数为度,直接基于这样的第一特征向量和第二特征向量计算相似度,可能导致计算相似度时存在一定的误差,因此也可以对各个行车特征对应的实际数值进行转化,例如针对任一订单,将该订单数据在每个行车特征下的实际数值除以样本订单数据集合中所有订单在该行车特征下的最大值,比如某疑似绕路订单的实际行车时长为44分钟,样本订单数据集合中所有订单的实际行车时长的最大值为100分钟,则该疑似绕路订单在实际行车时长这一行车特征下的特征值可以取值为44/100=0.44。或者,可以根据不同行车特征的取值特点,为每种行车特征设置调整系数,将每个订单在某个行车特征下的实际取值乘以对应该行车特征的调整系数,将得到的乘积作为该订单在该行车特征下的特征值。
在该种特征向量生成方式下,事实绕路订单的第二特征向量与上述生成方式类似,在此不再赘述。
需要注意的是,第一特征向量和第二特征向量的生成方式要保持一致。
在基于疑似绕路订单对应的各个行车特征生成第一特征向量,并基于事实绕路订单对应的各个行车特征生成第二特征向量后,要对第一特征向量和第二特征向量之间的相似度进行衡量。其中,第一特征线向量和第二特征向量的相似度越高,则意味着疑似绕路订单对应的各个行车特征和事实绕路订单对应的各个行车特征之间的相似度越高,疑似绕路订单存在绕路行为的可能性也越高。因此,要计算第一特征向量和第二特征向量之间的相似度。
具体地,第一特征向量和第二特征向量之间的相似度可以通过两者之间的预先相似度来度量。
在计算第一特征向量和第二特征向量之间的余弦相似度时,假设第一特征向量A满足:
A=(A1,A2,A3,A4,A5,A6,A7,A8,A9,A10);
第二特征向量B满足:
B=(B1,B2,B3,B4,B5,B6,B7,B8,B9,B10);
则第一特征向量和第二特征向量之间的余弦相似度ω满足:
其中,Ai为第一特征向量中的第i个元素的取值;Bi为第二特征向量中第i个元素的取值。
本申请实施例中,ω的取值范围为(0,1],且ω越趋近于1,则第一特征向量和第二特征向量的相似度越高。
在实际实施中,由于道路情况的复杂多变,不同的事实绕路订单中,存在异常情况的行车特征也有很大的区别。在基于第一特征向量和第二特征向量之间的相似度来确定疑似绕路订单是否能被归属为认定绕路订单时,假若使用第一特征向量和一个事实绕路订单的第二特征向量的相似度进行衡量,则可能会存在较大的判断误差。
为了降低事实绕路订单之间的差异性对认定绕路订单的筛选造成的干扰,可以基于多个事实绕路订单的第二特征向量,对同一疑似绕路订单进行筛选。
具体地,参见图4所述,基于多个事实绕路订单的第二特征向量,对同一疑似绕路订单进行筛选的方法如下述步骤所示:
S401:针对每个疑似绕路订单,分别计算该疑似绕路订单的第一特征向量与多个所述事实绕路订单的第二特征向量中每个第二特征向量之间的相似度;
S402:针对每个疑似绕路订单,根据该疑似绕路订单的第一特征向量与多个所述第二特征向量中每个第二特征向量之间的相似度,计算该第一特征向量与多个所述第二特征向量之间的相似度的平均值;
S403:若所述相似度的平均值大于预设的相似度阈值,则将所述疑似绕路订单确定为认定绕路订单。
在具体实现的时候,当事实绕路订单有多个时,针对每个疑似绕路订单,都能够得到该疑似绕路订单的第一特征向量和每个事实绕路订单的第二特征向量之间的相似度。然后计算第一特征向量和多个第二特征向量之间的相似度的平均值。
例如,假如疑似绕路订单有10个,分别为M1至M10,事实绕路订单有20个,分别为N1至N20。
在基于事实绕路订单N1-N20的第二特征向量,从疑似绕路订单M1至M10中筛选认定绕路订单时,对于疑似绕路订单M1而言,要依次疑似绕路订单M1的第一特征向量和事实绕路订单N1-N20的第二特征向量之间的相似度,共计能够得到20个相似度的值,然后对所得到的20个相似度的值求取平均值,并将该平均值和预设的相似度阈值进行比对。若该平均值大于预设的相似度阈值,则该疑似绕路订单M1属于认定绕路订单;若该平均值不大于预设的相似度阈值,则该疑似绕路订单M1不属于认定的绕路订单。
这样通过多个事实绕路订单,对事实绕路订单和疑似绕路订单之间的差异进行平均化,使得对疑似绕路订单是否属于认定绕路订单的筛选结果更加的准确。
在从疑似绕路订单筛选出认定绕路订单后,还包括:
S203:将筛选出的认定绕路订单的订单数据和所述事实绕路订单的订单数据作为所述绕路结果属性为已绕路的已完成订单的订单数据。
如此,通过上述方法能够获取绕路结果属性为已绕路的已完成订单的订单数据,并从已完成订单的订单数据库中筛选出绕路结果属性为未绕路的已完成订单的订单数据,并将绕路结果属性为已绕路的已完成订单的订单数据和绕路结果属性为未绕路的已完成订单的订单数据作为模型的训练数据,对绕路检测模型进行训练。
另外,由于认定绕路订单的订单数据和事实绕路订单的订单数据之间实际上可能会存在一定的差异;假若使用这种与事实绕路订单的订单数据对绕路检测模型进行训练,会造成绕路检测模型出现精确度下降的问题。为了减少认定绕路订单的订单数据和事实绕路订单的订单数据之间存在的差异,本申请利用迁移学习的思想对认定绕路订单的订单数据进行调整,减小认定绕路订单的订单数据和事实绕路订单的订单数据之间的差异,提升绕路检测模型的精度。
具体地,参见图5所示,本申请实施例提供另一种获取绕路结果属性为已绕路的已完成订单的订单数据的方法。该方法包括:
S501:根据所述事实绕路订单的订单数据,对所述认定绕路订单的订单数据进行调整;
S502:将调整后的所述认定绕路订单的订单数据,和所述事实绕路订单的订单数据作为所述已绕路订单的订单数据。
在具体实现的时候,根据事实绕路订单的订单数据对认定绕路订单的订单数据进行调整,其结果是要使得认定绕路订单的订单数据受到事实绕路订单的订单数据的影响,进而令认定绕路订单的订单数据能够向着事实绕路订单的订单数据所在的方向发生偏移,让进行调整后的认定绕路订单的订单数据更加接近事实绕路订单的订单数据,减小认定绕路订单的订单数据和事实绕路订单的订单数据之间的差异,从而提升绕路检测模型的精度。
此处,可以采用对认定绕路订单的第一特征向量进行数据变换的方法对认定绕路订单的订单数据进行调整:
参见图6所示,对第一特征向量进行数据变换的具体方式如下:
S601:获取基于多个事实绕路订单的行车特征得到变换矩阵;
S602:计算所述变换矩阵和所述认定绕路订单的行车特征组成的第三特征向量之间的乘积,得到所述认定绕路订单对应的调整后第四特征向量。
S603:将所述第四特征向量表征的订单数据,作为所述认定绕路订单的订单数据进行调整后的订单数据。
在具体实现的时候,要基于多个事实绕路订单的行车特征得到变换矩阵,首先要使用多个事实绕路订单对应的第二特征向量构成多维矩阵,并将所述多维矩阵转换为能够与所述认定绕路订单的特征向量相乘的变换矩阵。
其中,多维矩阵的维度与每个认定绕路订单的行车特征组成的特征向量的维度相关。
例如,假若认定绕路订单的行车特征组成的第三特征向量的维度为1*9,则为了能够使得第四特征向量的维度与第三特征向量的维度相等,则根据多个事实绕路订单的行车特征得到的变换矩阵的维度应当为9*9。
则第三特征向量和变换矩阵的维度的乘积的维度应当为:1*9。并将第三特征向量和变换矩阵的维度的乘积作为认定绕路订单对应的调整后的第四特征向量,并将第四特征向量表征的订单数据,作为认定绕路订单的订单进行调整后的订单数据。
具体地,本申请实施例还提供了几种获取变换矩阵的示例,需要注意的是,本申请实施例中获取变换矩阵的方法包括但不限于下述示例:
示例一:对第二特征向量构成多维矩阵进行初等矩阵变换,得到变换矩阵;其中,初等变换的目的是要在对第二特征向量构成的多维矩阵进行初等矩阵变换后,所得到的变换矩阵的维度为预设维度。
初等矩阵变换的方式包括:交换矩阵的两行(列);以一个非零数k乘矩阵的某一行(列);把矩阵的某一行(列)的z倍加于另一行(列)上。
示例二,计算第二特征向量构成的多维矩阵的特征值和特征向量;基于所获得的特征值,对特征向量进行矩阵的初等变换,例如当特征向量的行数少于变换矩阵的行数时,可以采用将特征向量中任意一行的元素分别乘以特征值,以构建新的一行元素,并将构建的新的一行元素添加至特征向量中,重复上述过程直至所要的变换矩阵的维度满足预设的维度要求。
示例三,使用预设的卷积核对多维矩阵进行卷积运算,使得卷积运算的结果满足变换矩阵的维度要求。
示例四,直接使用事实绕路数据的第二特征向量构建变换矩阵,认定绕路订单的行车特征组成的第三特征向量的维度为1*9,要得到的变换矩阵的维度应当为9*9,则可以使用9个维度为1*9的第二特征向量直接构建的多维矩阵直接作为变换矩阵。
在获取了获取样本订单数据集合,要基于样本订单数据集合中包括的已完成订单的订单数据对绕路检测模型进行训练。
本申请实施例中,对绕路检测模型进行训练的过程,即为以所述多种行车特征作为决策树模型的输入特征,以所述绕路结果属性作为所述决策树模型的输出特征,构建决策树模型的过程。
此处,在机器学习中,决策树是一个预测模型,它代表的是对象属性与对象值之间的一种映射关系。每个对象属性有至少两个可能的特征区间;在决策树中的每个分叉路径则表示某对象属性对应的一个特征区间。在本申请中,对象是指已完成订单;对象属性是指已完成订单的订单数据中包括的多种行车特征;对象值是指与已完成订单对应的绕路结果属性,与每种对象属性对应的属性值是指订单数据在该对象属性下的具体取值。
例如有已完成订单M的行车特征为:
预估行车时长:37分钟;
实际行车时长:44分钟;
预估行车路程:5.9公里;
实际行车路程:7.8公里;
预计经过路口次数:4次;
实际经过路口次数:7次;
预计车辆转弯的次数2次;
实际车辆转弯次数5次;
连续两次转弯的转弯角度之差小于预设角度差阈值的次数为;0;
道路拥堵情况:1;
与该已完成订单M对应的绕路结果属性为:已绕路。
则对象为已完成订单M,对象属性指:预估行车时长、实际行车时长、预估行车路程、实际行车路程、预计经过路口次数、实际经过路口次数、预计车辆转弯的次数、实际车辆转弯次数、连续两次转弯的转弯角度之差小于预设角度差阈值的次数、道路拥堵情况。
与每种对象属性对应的属性值依次为:37、44、5.9、7.8、4、7、2、50、0、1。
对象值为:已绕路;
在构建决策树的时候,总体而言需要执行下述几个步骤:
1:确定每个行车特征对应的特征区间。
特征区间的确定方法根据行车特征数据类型的不同,有不同的特征区间确定方法:针对数据类型为连续数据的行车特征,将连续数据离散化;针对数据类型为是离散数据的行车特征,将行车特征的每一个取值作为一个特征区间。
例如:已完成订单中的订单信息中,所包括的行车特征包括:预估行车时长、实际行车时长、预估行车路程、实际行车路程、预计经过路口次数、实际经过路口次数、预计车辆转弯的次数、实际车辆转弯次数、连续两次转弯的转弯角度之差小于预设角度差阈值的次数、道路拥堵情况。
其中,预估行车时长、实际行车时长、预估行车路程、实际行车路程、预计经过路口次数、实际经过路口次数、预计车辆转弯的次数、实际车辆转弯次数的数据类型均为连续数据,因此要依次对上述数据类型为连续数据的行车特征进行连续数据离散化处理,确定与每个行车特征对应的特征区间。
道路拥堵情况的数据类型为离散数据。
连续两次转弯的转弯角度之差小于预设角度差阈值的次数既可以是连续数据,又可以作为离散数据。
示例一:下面以预估行车时长为例,对连续数据离散化的处理过程加以说明,包括如下两种方式:
(1)按照多个已完成订单分别对应的预估行车时长,以将已完成订单均匀分配到多个特征区间内为原则,进行离散化处理。
例如,样本订单数据集合中包络10个已完成订单的订单数据,且这10个已完成订单在预估行车时长的取值分别为:12、33、45、7、23、19、42、15、27、37,单位为分钟。
按照预估行车时长从小到大的顺序进行排序,得:
7、12、15、19、23、27、33、37、42、45。
现要将10个订单均匀分配到5个特征区间内,并将每个特征区间内取值较大的预估行车时长作为当前特征区间的最大值,最终所形成的五个特征区间依次为:(0,12]、(12,19]、(19,27]、(27,37]、(37,45]。
(2)按照特征区间的取值范围均等的原则,对特征区间进行划分,实现连续数据的离散化处理。
例如,预估行车时长的特征区间有5个,划分得到的特征区间依次为:
(0,10]、(10,20]、(20,30]、(30,40]、(40,50]。
示例二:下面以道路拥堵情况为例,对离散数据的特征区间的划分加以说明:
将道路拥堵情况分为三个档次,依次为不拥堵、轻微拥堵以及严重拥堵;且分别赋值为:0,1,2。
则与道路拥堵情况对应的三个特征区间依次为:0,1和2。
此处需要注意的是,点值在普通意义中实际上是并不能被称为区间的,本申请实施例为了描述清楚,将点值作为特殊的特征区间。即该特殊的特征区间内,有且仅能够取到一个值。
2、构建决策树模型。
具体地,参见图7所示,本申请实施例还提供一种构建决策树模型的具体方法,该方法包括:
S701:基于所述样本订单集合内多个已完成订单的订单数据,计算每种行车特征的信息增益。
在具体实施中,某种行车特征在不同特征区间对应的已绕路订单与未绕路订单比例差异性越大,表明这个行车特征对于区分是否绕路越好用。因此,在实际实施中,可以针对每种行车特征,根据在当前样本订单集合中,绕路结果属性为已绕路的已完成订单的数量及绕路结果属性为未绕路的已完成订单的数量,以及,该行车特征的每个特征区间中,绕路结果属性为已绕路的已完成订单的数量及绕路结果属性为未绕路的已完成订单的数量,计算该行车特征的信息增益。
比如,在上述实施方式中,可以计算在当前样本订单集合中,绕路结果属性为已绕路的已完成订单的数量与绕路结果属性为未绕路的已完成订单的数量之间的比例Q,以及该行车特征的第i个特征区间中,绕路结果属性为已绕路的已完成订单的数量与绕路结果属性为未绕路的已完成订单的数量之间的比例Bi,根据不同特征区间对应的Bi/Q的取值,来确定该行车特征的信息增益。
再比如,在另一种更细化的实施方式中,信息增益的度量标准为熵,熵用于刻画样本订单集合的纯度。在本申请实施例中,熵即为信息熵,针对一个给定的样本订单数据集合,某行车特征D的熵Entropy(D)满足下述公式(1):
其中,k为该行车特征D对应的特征区间的数量;P(ci)表示行车特征D的第i个特征区间所包括的已完成订单的数量在当前样本订单集合内已完成订单总数量中所占的比例。α为大于1的常数或者自然对数的底e
则将样本订单集合内多个已完成订单分别划分到与行车特征D对应的每个特征区间后,所得的信息增益Info_Gain(D)满足下述公式(2):
其中,Entropy(D|T)表示将样本订单集合内多个已完成订单分别划分到与行车特征D对应的每个特征区间后,所有特征区间的熵的和;其中,T表示绕路结果属性,T的取值为t和且当T的取值为t时,表示绕路结果属性为已绕路,当T的取值为时,表示绕路结果属性为未绕路;
k表示行车特征D对应的特征区间的数量;P(ci)表示行车特征D的第i个特征区间所包括的已完成订单的数量在当前样本订单集合内已完成订单总数量中所占的比例;P(t)表示当前样本订单集合中,绕路结果属性为已绕路的已完成订单的数量和当前样本订单集合中所有已完成订单数量的比值;表示当前样本订单集合中,绕路结果属性为未绕路的已完成订单的数量和当前样本订单集合中所有已完成订单数量的比值;P(ci|t)表示行车特征D的第i个特征区间中,绕路结果属性为已绕路的已完成订单的数量与该特征区间中所有已完成订单数量的比值;表示行车特征D的第i个特征区间中,绕路结果属性为未绕路的已完成订单的数量与该特征区间中所有已完成订单数量的比值。
S702:将对应的信息增益最大的行车特征作为所述决策树模型的父节点。
S703:根据所述父节点对应的多个特征区间,将所述样本订单集合内多个已完成订单分别划分到每个特征区间中;
S704:针对每个特征区间,根据该特征区间内的已完成订单的订单数据,计算除所述父节点所在支路中已存在的节点外每种行车特征的信息增益,并将对应的信息增益最大的行车特征作为所述父节点的一个子节点;
S705:检测当前子节点所在支路中是否包含了预设的全部行车特征;如果否,则执行S706;如果是,则执行S707。
S706:将所述子节点作为新的父节点,将该新的父节点对应的特征区间内的已完成订单组成新的样本订单集合,返回步骤S703。
S707:根据所述决策树模型中每个支路的最后一个节点对应的多个特征区间,将该节点对应的已完成订单分别划分到每个特征区间中,基于每个特征区间内的已完成订单的绕路结果属性,为每个特征区间标注绕路结果标签。
在具体实现的时候,以下述示例为例对上述构建决策树模型的过程加以说明:
在该示例中,样本订单数据集合L1中包括100个已完成订单的订单数据;且每个已完成订单的订单数据所包括下述K1至K10,共10个行车特征;其中,行车特征K1为:预估行车时长;行车特征K2为:实际行车时长;行车特征K3为:预估行车路程;行车特征K4为:实际行车路程;行车特征K5为:预计经过路口次数;行车特征K6为:实际经过路口次数;行车特征K7为:预计车辆转弯的次数;行车特征K8为:实际车辆转弯次数;行车特征K9为:连续两次转弯的转弯角度之差小于预设角度差阈值的次数;行车特征K10为:道路拥堵情况。
其中,在样本订单数据集合L1中所包括的100个已完成订单中,有43个已完成订单的绕路结果属性为未绕路,57个已完成订单的订单属性为已绕路。
在开始构建决策树的时候:
(1)依次计算上述行车特征K1至K10的信息增益。
以计算行车特征K1的信息增益为例,假设行车特征K1有3个特征区间,分别为特征区间1、特征区间2和特征区间3,按照行车特征K1对应的3个特征区间,和当前样本订单集合内中的所有已完成订单数据中所包括的该行车特征K1的具体值落入的特征区间,计算每个特征区间内所包括的已完成订单的数量。
假设此时分类的结果为:
特征区间1中,所包括的已完成订单的总数量k1为33,在这33个已完成订单中,绕路结果属性为已绕路的已完成订单的数量m1为17,绕路结果属性为未绕路的已完成订单的数量n1为16。
特征区间2中,所包括的已完成订单的总数量k2为40,在这40个已完成订单中,绕路结果属性为已绕路的已完成订单的数量m2为26,绕路结果属性为未绕路的已完成订单的数量n2为14。
特征区间3中,所包括的已完成订单的总数量k3为27,在这27个已完成订单中,绕路结果属性为已绕路的已完成订单的数量m3为14,绕路结果属性为未绕路的已完成订单的数量n3为13。
且满足:k1+k2+k3=100;m1+m2+m3=57;n1+n2+n3=43。将上述数值代入上述公式2中,α取值为2,得到的行车特征K1的信息增益Info_Gain(K1)满足公式(3):
按照与上述类似的方法,能够依次计算出行车特征K1至K10的信息增益。
(2)将当前行车特征K1至K10的信息增益中最大的行车特征作为父节点。
假设此时信息增益最大的行车特征为行车特征K1,则将当前行车特征K1作为父节点。比较特殊的是,由于该行车特征K1又是决策树的第一个节点,又称为决策树的根节点。
(3)根据当前作为父节点的行车特征K1对应的特征区间1、特征区间3和特征区间3,将所述样本订单集合内的100个已完成订单分别划分到每个特征区间中。
此时分类的结果为:
特征区间1中,所包括的已完成订单的总数量k1为33,在这33个已完成订单中,绕路结果属性为已绕路的已完成订单的数量m1为17,绕路结果属性为未绕路的已完成订单的数量n1为16。
特征区间2中,所包括的已完成订单的总数量k2为40,在这40个已完成订单中,绕路结果属性为已绕路的已完成订单的数量m2为26,绕路结果属性为未绕路的已完成订单的数量n2为14。
特征区间3中,所包括的已完成订单的总数量k3为27,在这27个已完成订单中,绕路结果属性为已绕路的已完成订单的数量m3为14,绕路结果属性为未绕路的已完成订单的数量n3为13。
(4)依次针对特征区间1、特征区间2和特征区间3中的每个特征区间,根据该特征区间内已完成订单的订单数据,计算除父节点所在支路中已存在的节点外每种行车特征的信息增益。
以特征区间1为例,在特征区间1中,所包括的已完成订单的总数量k1为33,在这33个已完成订单中,绕路结果属性为已绕路的已完成订单的数量m1为17,绕路结果属性为未绕路的已完成订单的数量n1为16。
由于此时父节点为行车特征K1,因此根据该特征区间1内已完成订单的总数量k1,要计算出行车特征K1以外每种行车特征的信息增益,也即:基于特征区间1中包括的33个已完成订单的数量,计算行车特征K2至行车特征K10的信息增益。
计算方式与上述行车特征K1的信息增益的计算方式类似,以计算行车特征K5的信息增益为例具体为:
假设行车特征K5有2个特征区间,分别为特征区间a和特征区间b。按照行车特征K5对应的2个特征区间,和当前特征区间1所对应的样本订单集合内中的33个已完成订单数据中所包括的该行车特征K5的具体值落入的特征区间,分别每个特征区间a和特征区间b内所包括的已完成订单的数量。
假设此时分类的结果为:
特征区间a中,所包括的已完成订单的总数量s1为12,在这12个已完成订单中,绕路结果属性为已绕路的已完成订单的数量p1为7,绕路结果属性为未绕路的已完成订单的数量q1为5。
特征区间b中,所包括的已完成订单的总数量s2为21,在这21个已完成订单中,绕路结果属性为已绕路的已完成订单的数量p2为10,绕路结果属性为未绕路的已完成订单的数量q2为11。
且满足:s1+s2=33;p1+p2=17;q1+q2=16。将上述数值代入上述公式2中,得到在以行车特征K1作为父节点时,α取值为2,行车特征K5的信息增益Info_Gain(K5|K1)满足公式(4):
按照与上述类似的方法,能够在以行车特征K1为父节点时,依次计算出行车特征K2至K10的信息增益。
假设此时行车特征K5为信息增益最大的行车特征,则将行车特征K5作为当前父节点行车特征K1在特征区间1这一分支下的子节点。
(5)将行车特征K5作为新的父节点,将该新的父节点对应的特征区间内的已完成订单组成新的样本订单集合L2,此时该新的样本订单集合L2中包括的已完成订单的总数量为33,在这33个已完成订单中,绕路结果属性为已绕路的已完成订单的数量为17,绕路结果属性为未绕路的已完成订单的数量为16。
根据作为父节点K5对应的特征区间a和特征区间b,将该样本订单集合L2内的33个已完成订单划分到特征区间a和特征区间b中,依次针对特征区间a和特征区间b中,根据该特征区间a内已完成订单的订单数据,计算除作为新的父节点的行车特征K5,以及作为原有的父节点的行车特征K1,依次计算行车特征K2至行车特征K4、行车特征K6至行车特征K10的信息增益。
如此进行递归处理,直至子节点所在的支路中包含了预设的全部行车特征。
最终所构成的决策树的其中一个支路如图8所示。在该图8中,决策树的根节点为行车特征K1;在如图8中箭头所示的支路中,最后一个节点为行车特征Ki,且i是不为1和5的整数;假设行车特征Ki对应的特征区间为:特征区间Ⅰ和特征区间Ⅱ,最终基于特征区间Ⅰ和特征区间Ⅱ内已完成订单的绕路结果属性,为该节点标注绕路结果标签。
在完成决策树的构建后,所得到的决策树即为绕路检测模型。
此处,在根据所述决策树模型中每个支路的最后一个节点对应的多个特征区间,将该节点对应的已完成订单分别划分到每个特征区间中,并基于每个特征区间内的已完成订单的绕路结果属性,为该每隔特征区间标注绕路结果标签的时候,每个特征区间中所包括的已完成订单的绕路结果属性应当是一致的;若不一致,则认为决策树的构建出现了误差,需要重新返回上述确定每个行车特征对应的特征区间的步骤,重新确定每个行车特征对应的特征区间,并再次执行构建决策树的步骤。
这里需要注意的是,对于所构建的决策树,处于决策树中同一层的节点对应的行车特征可以相同,也可以不同。
参见图9所示,本申请实施例还提供一种绕路检测方法,该方法包括:
S901:获取待检测订单数据;
S902:提取所述待检测订单数据中的多种行车特征;
S903:将待检测订单数据的多种行车特征输入到通过上述实施例所示的绕路检测模型训练方法得到的绕路检测模型中,得到与所述待检测订单数据对应的绕路检测结果。
基于同一发明构思,本申请实施例中还提供了与绕路检测模型训练方法对应的绕路检测模型训练装置,由于本申请实施例中的装置解决问题的原理与本申请实施例上述绕路检测模型训练方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
参见图10所示,本申请实施例提供的绕路检测模型训练装置,包括:获取模块10和训练模块11;其中,
所述获取模块10,用于获取样本订单数据集合;所述样本订单数据集合中包括多个已完成订单的订单数据;每个已完成订单的订单数据包括多种行车特征以及该已完成订单对应的绕路结果属性,该绕路结果属性为已绕路或未绕路;
所述训练模块11,用于以所述多种行车特征作为决策树模型的输入特征,以所述绕路结果属性作为所述决策树模型的输出特征,构建决策树模型,将构建好的决策树模型作为所述绕路检测模型。
本申请实施例所提供的绕路检测模型训练装置在具体实现的时候,将样本订单数据集合中包括的多个已完成订单的订单数据作为训练数据对绕路检测模型进行训练。为了实现对绕路检测模型的训练,首先要确定模型的解释变量和被解释变量,并在对模型进行训练的过程中,基于训练数据中所携带的解释变量和被解释变量的具体值,对模型进行训练。对在本申请中,行车特征即为解释变量,绕路结果属性即为被解释变量,对模型进行训练的过程,即是建立多种行车特征与绕路结果属性之间的关联关系的过程。另外,本申请通过构建决策树来生成绕路检测模型,构建决策树的过程,即为对绕路检测模型进行训练的过程。
可选地,所述行车特征包括以下特征中的多种:
预估行车时长、实际行车时长、预估行车路程、实际行车路程、预计经过路口次数、实际经过路口次数、预计车辆转弯的次数、实际车辆转弯次数、连续两次转弯的转弯角度之差小于预设角度差阈值的次数、道路拥堵情况。
可选地,所述获取模块10,具体用于通过下述步骤获取所述绕路结果属性为已绕路的已完成订单的订单数据:
获取事实绕路订单的订单数据以及疑似绕路订单的订单数据;
根据所述疑似绕路订单的订单数据的多种行车特征,以及所述事实绕路订单的订单数据的多种行车特征,从所述疑似绕路订单中,筛选出认定绕路订单;
将筛选出的认定绕路订单的订单数据和所述事实绕路订单的订单数据作为所述绕路结果属性为已绕路的已完成订单的订单数据。
可选地,所述获取模块10,具体用于通过下述步骤获取事实绕路订单的订单数据:
根据乘客投诉信息以及与乘客投诉信息对应的订单的行车特征,获取所述事实绕路订单的订单数据。
可选地,所述获取模块10,具体用于通过下述步骤获取疑似绕路订单的订单数据:
根据预设的疑似绕路行车特征,从已完成订单的订单数据库中筛选出所述疑似绕路订单的订单数据。
可选地,所述疑似绕路行车特征包括以下特征中的一种或多种:
行车路线与导航规划路线不一致;实际行车路程与预估行车路程之间的差值大于设定距离阈值;实际行车时长与预估行车时长之间的差值大于设定时长阈值;实际经过路口次数与预计经过路口次数之间的差值大于设定次数阈值;实际车辆转弯次数与预计车辆转弯的次数之间的差值大于设定转弯次数阈值。
可选地,所述获取模块10,具体用于通过下述步骤从所述疑似绕路订单中,筛选出认定绕路订单:
基于所述疑似绕路订单对应的各个行车特征,生成第一特征向量,以及基于所述事实绕路订单对应的各个行车特征,生成第二特征向量;
计算所述第一特征向量和所述第二特征向量之间的相似度;
根据所述第一特征向量和所述第二特征向量之间的相似度,从所述疑似绕路订单中,筛选出所述认定绕路订单。
可选地,所述事实绕路订单有多个;所述获取模块11,具体用于通过下述步骤计算所述第一特征向量和所述第二特征向量之间的相似度:
针对每个疑似绕路订单,分别计算该疑似绕路订单的第一特征向量与多个所述事实绕路订单的第二特征向量中每个第二特征向量之间的相似度;
针对每个疑似绕路订单,根据该疑似绕路订单的第一特征向量与多个所述第二特征向量中每个第二特征向量之间的相似度,计算该第一特征向量与多个所述第二特征向量之间的相似度的平均值;
若所述相似度的平均值大于预设的相似度阈值,则将所述疑似绕路订单确定为认定绕路订单。
可选地,所述获取模块11,在从所述疑似绕路订单中,筛选出认定绕路订单之后,还用于:
根据所述事实绕路订单的订单数据,对所述认定绕路订单的订单数据进行调整;
所述获取模块11,具体用于通过下述步骤将筛选出的认定绕路订单的订单数据和所述事实绕路订单的订单数据作为所述已绕路订单的订单数据:
将调整后的所述认定绕路订单的订单数据,和所述事实绕路订单的订单数据作为所述已绕路订单的订单数据。
可选地,所述获取模块11,具体用于通过下述步骤对所述认定绕路订单的订单数据进行调整:
获取基于多个事实绕路订单的行车特征得到的变换矩阵;
计算所述认定绕路订单的行车特征组成的第三特征向量和所述变换矩阵之间的乘积,得到所述认定绕路订单对应的调整后的第四特征向量;
将所述第四特征向量表征的订单数据,作为调整后的所述认定绕路订单的订单数据。
可选地,所述获取模块11,具体用于通过以下步骤确定所述变换矩阵:
确定由多个所述事实绕路订单的特征向量构成的多维矩阵;
将所述多维矩阵转换为能够与所述认定绕路订单的特征向量相乘的变换矩阵。
可选地,所述训练模块12,具体用于通过下述步骤构建决策树模型:
基于所述样本订单集合内多个已完成订单的订单数据,计算每种行车特征的信息增益;
将对应的信息增益最大的行车特征作为所述决策树模型的父节点;
根据所述父节点对应的多个特征区间,将所述样本订单集合内多个已完成订单分别划分到每个特征区间中;
针对每个特征区间,根据该特征区间内的已完成订单的订单数据,计算除所述父节点所在支路中已存在的节点外每种行车特征的信息增益,并将对应的信息增益最大的行车特征作为所述父节点的一个子节点;
将所述子节点作为新的父节点,将该新的父节点对应的特征区间内的已完成订单组成新的样本订单集合,返回所述根据所述父节点对应的多个特征区间,将所述样本订单集合内多个已完成订单分别划分到每个特征区间中的步骤,直到每个支路中包含了预设的全部行车特征;
根据所述决策树模型中每个支路的最后一个节点对应的多个特征区间,将该节点对应的已完成订单分别划分到每个特征区间中,基于每个特征区间内的已完成订单的绕路结果属性,为该节点对应的每个特征区间标注绕路结果标签。
可选地,所述训练模块12,具体用于通过下述步骤基于所述样本订单集合内多个已完成订单的订单数据,计算每种行车特征的信息增益:
针对每种行车特征,根据在当前样本订单集合中,绕路结果属性为已绕路的已完成订单的数量及绕路结果属性为未绕路的已完成订单的数量,以及,该行车特征的每个特征区间中,绕路结果属性为已绕路的已完成订单的数量及绕路结果属性为未绕路的已完成订单的数量,计算该行车特征的信息增益。
可选地,所述训练模块12,具体用于通过根据以下公式计算任一行车特征的信息增益Info_Gain(D):
其中,k表示所述任一行车特征对应的特征区间的数量;P(ci)表示该任一行车特征的第i个特征区间所包括的已完成订单的数量在当前样本订单集合内已完成订单总数量中所占的比例;P(t)表示当前样本订单集合中,绕路结果属性为已绕路的已完成订单的数量和当前样本订单集合中所有已完成订单数量的比值;表示当前样本订单集合中,绕路结果属性为未绕路的已完成订单的数量和当前样本订单集合中所有已完成订单数量的比值;P(ci|t)表示所述任一行车特征的第i个特征区间中,绕路结果属性为已绕路的已完成订单的数量与该特征区间中所有已完成订单数量的比值;表示所述任一行车特征的第i个特征区间中,绕路结果属性为未绕路的已完成订单的数量与该特征区间中所有已完成订单数量的比值。
对应于图1中的绕路检测模型训练方法,如图11所示,本申请实施例还提供了一种电子设备110,包括:处理器111、存储器112和总线113;
所述存储器存储112有所述处理器111可执行的机器可读指令(比如,图10中的获取模块10和训练模块12对应的执行指令),当电子设备运行时,所述处理器111与所述存储器112之间通过总线113通信,所述机器可读指令被所述处理器91执行时执行如下处理:
获取样本订单数据集合;所述样本订单数据集合中包括多个已完成订单的订单数据;每个已完成订单的订单数据包括多种行车特征以及该已完成订单对应的绕路结果属性,该绕路结果属性为已绕路或未绕路;
以所述多种行车特征作为决策树模型的输入特征,以所述绕路结果属性作为所述决策树模型的输出特征,构建决策树模型,将构建好的决策树模型作为所述绕路检测模型。
在具体实施中,上述处理器111执行的处理中,所述行车特征包括以下特征中的多种:
预估行车时长、实际行车时长、预估行车路程、实际行车路程、预计经过路口次数、实际经过路口次数、预计车辆转弯的次数、实际车辆转弯次数、连续两次转弯的转弯角度之差小于预设角度差阈值的次数、道路拥堵情况。
在具体实施中,上述处理器111执行的处理中,通过下述步骤获取所述绕路结果属性为已绕路的已完成订单的订单数据:
获取事实绕路订单的订单数据以及疑似绕路订单的订单数据;
根据所述疑似绕路订单的订单数据的多种行车特征,以及所述事实绕路订单的订单数据的多种行车特征,从所述疑似绕路订单中,筛选出认定绕路订单;
将筛选出的认定绕路订单的订单数据和所述事实绕路订单的订单数据作为所述绕路结果属性为已绕路的已完成订单的订单数据。
在具体实施中,上述处理器111执行的处理中,所述获取事实绕路订单的订单数据,包括:
根据乘客投诉信息以及与乘客投诉信息对应的订单的行车特征,获取所述事实绕路订单的订单数据。
在具体实施中,上述处理器111执行的处理中,所述获取疑似绕路订单的订单数据,包括:
根据预设的疑似绕路行车特征,从已完成订单的订单数据库中筛选出所述疑似绕路订单的订单数据。
在具体实施中,上述处理器111执行的处理中,所述疑似绕路行车特征包括以下特征中的一种或多种:
行车路线与导航规划路线不一致;实际行车路程与预估行车路程之间的差值大于设定距离阈值;实际行车时长与预估行车时长之间的差值大于设定时长阈值;实际经过路口次数与预计经过路口次数之间的差值大于设定次数阈值;实际车辆转弯次数与预计车辆转弯的次数之间的差值大于设定转弯次数阈值。
在具体实施中,上述处理器111执行的处理中,根据所述疑似绕路订单的订单数据的多种行车特征,以及所述事实绕路订单的订单数据的多种行车特征,从所述疑似绕路订单中,筛选出认定绕路订单,包括:
基于所述疑似绕路订单对应的各个行车特征,生成第一特征向量,以及基于所述事实绕路订单对应的各个行车特征,生成第二特征向量;
计算所述第一特征向量和所述第二特征向量之间的相似度;
根据所述第一特征向量和所述第二特征向量之间的相似度,从所述疑似绕路订单中,筛选出所述认定绕路订单。
在具体实施中,上述处理器111执行的处理中,所述事实绕路订单有多个;所述计算所述第一特征向量和所述第二特征向量之间的相似度,包括:
针对每个疑似绕路订单,分别计算该疑似绕路订单的第一特征向量与多个所述事实绕路订单的第二特征向量中每个第二特征向量之间的相似度;
所述根据所述第一特征向量和所述第二特征向量之间的相似度,从所述疑似绕路订单中,筛选出认定绕路订单,包括:
针对每个疑似绕路订单,根据该疑似绕路订单的第一特征向量与多个所述第二特征向量中每个第二特征向量之间的相似度,计算该第一特征向量与多个所述第二特征向量之间的相似度的平均值;
若所述相似度的平均值大于预设的相似度阈值,则将所述疑似绕路订单确定为认定绕路订单。
在具体实施中,上述处理器111执行的处理中,所述从所述疑似绕路订单中,筛选出认定绕路订单之后,还包括:
根据所述事实绕路订单的订单数据,对所述认定绕路订单的订单数据进行调整;
所述将筛选出的认定绕路订单的订单数据和所述事实绕路订单的订单数据作为所述已绕路订单的订单数据,包括:
将调整后的所述认定绕路订单的订单数据,和所述事实绕路订单的订单数据作为所述已绕路订单的订单数据。
在具体实施中,上述处理器111执行的处理中,所述根据所述事实绕路订单的订单数据,对所述认定绕路订单的订单数据进行调整,包括:
获取基于多个事实绕路订单的行车特征得到的变换矩阵;
计算所述认定绕路订单的行车特征组成的第三特征向量和所述变换矩阵之间的乘积,得到所述认定绕路订单对应的调整后的第四特征向量;
将所述第四特征向量表征的订单数据,作为调整后的所述认定绕路订单的订单数据。
在具体实施中,上述处理器111执行的处理中,根据以下步骤确定所述变换矩阵:
确定由多个所述事实绕路订单的特征向量构成的多维矩阵;
将所述多维矩阵转换为能够与所述认定绕路订单的特征向量相乘的变换矩阵。
在具体实施中,上述处理器111执行的处理中,所述构建决策树模型,包括:
基于所述样本订单集合内多个已完成订单的订单数据,计算每种行车特征的信息增益;
将对应的信息增益最大的行车特征作为所述决策树模型的父节点;
根据所述父节点对应的多个特征区间,将所述样本订单集合内多个已完成订单分别划分到每个特征区间中;
针对每个特征区间,根据该特征区间内的已完成订单的订单数据,计算除所述父节点所在支路中已存在的节点外每种行车特征的信息增益,并将对应的信息增益最大的行车特征作为所述父节点的一个子节点;
将所述子节点作为新的父节点,将该新的父节点对应的特征区间内的已完成订单组成新的样本订单集合,返回所述根据所述父节点对应的多个特征区间,将所述样本订单集合内多个已完成订单分别划分到每个特征区间中的步骤,直到每个支路中包含了预设的全部行车特征;
根据所述决策树模型中每个支路的最后一个节点对应的多个特征区间,将该节点对应的已完成订单分别划分到每个特征区间中,基于每个特征区间内的已完成订单的绕路结果属性,为该节点对应的每个特征区间标注绕路结果标签。
在具体实施中,上述处理器111执行的处理中,基于所述样本订单集合内多个已完成订单的订单数据,计算每种行车特征的信息增益,包括:
针对每种行车特征,根据在当前样本订单集合中,绕路结果属性为已绕路的已完成订单的数量及绕路结果属性为未绕路的已完成订单的数量,以及,该行车特征的每个特征区间中,绕路结果属性为已绕路的已完成订单的数量及绕路结果属性为未绕路的已完成订单的数量,计算该行车特征的信息增益。
在具体实施中,上述处理器111执行的处理中,根据以下公式计算任一行车特征的信息增益Info_Gain(D):
其中,k表示所述任一行车特征对应的特征区间的数量;P(ci)表示该任一行车特征的第i个特征区间所包括的已完成订单的数量在当前样本订单集合内已完成订单总数量中所占的比例;P(t)表示当前样本订单集合中,绕路结果属性为已绕路的已完成订单的数量和当前样本订单集合中所有已完成订单数量的比值;表示当前样本订单集合中,绕路结果属性为未绕路的已完成订单的数量和当前样本订单集合中所有已完成订单数量的比值;P(ci|t)表示所述任一行车特征的第i个特征区间中,绕路结果属性为已绕路的已完成订单的数量与该特征区间中所有已完成订单数量的比值;表示所述任一行车特征的第i个特征区间中,绕路结果属性为未绕路的已完成订单的数量与该特征区间中所有已完成订单数量的比值。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述任一实施例绕路检测模型训练方法的步骤。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述绕路检测模型训练方法,从而解决目前依靠路程差来界定司机是否存在绕路行为的方法,在绕路检测中存在很大误差的问题,进而能够对司机在搭载乘客过程中是否存在绕路行为进行更加准确的检测。
基于同一发明构思,本申请实施例中还提供了与绕路检测方法对应的绕路检测装置,由于本申请实施例中的装置解决问题的原理与本申请实施例上述绕路检测方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
参见图12,本申请实施例提供的绕路检测装置,该装置包括:待检测订单获取模块121、行车特征提取模块122和检测模块123;其中,
所述待检测订单获取模块121,用于获取待检测订单数据;
所述行车特征提取模块122,用于提取所述待检测订单数据中的多种行车特征;
所述检测模块123,用于将所述待检测订单数据的多种行车特征输入到通过本申请实施例提供的绕路检测模型训练方法得到的绕路检测模型中,得到与所述待检测订单数据对应的绕路检测结果。
本申请实施例所提供的绕路检测装置,在对待检测订单进行绕路检测的时候,会将待检测订单数据输入至通过本申请实施例所示的绕路检测模型训练方法得到的绕路检测模型中,本申请实施例所提供的绕路检测模型训练方法通过将样本订单数据集合中包括的多个已完成订单的订单数据作中所包括的多种行车特征作为输入决策树模型的输入特征,并将绕路结果属性作为决策树模型的输出特征构建决策树模型,构建决策树模型的过程实际上是多种行车特征和绕路结果属性之间建立联系的过程,在将构建好的决策树模型作为绕路检测模型对待检测订单数据进行绕路检测的时候,所得到的绕路检测结果是基于多种行车特征得到的,而并非如现有技术中一样仅仅基于途经路线和基准路线的路程长度之间的差值,从而考虑到多种行车特征对绕路结果属性的影响,所得到的绕路检测结果更加的准确。
对应于图9中的绕路检测方法,如图13所示,本申请实施例还提供了一种电子设备130,包括:处理器131、存储器132和总线133;
所述存储器存储132有所述处理器131可执行的机器可读指令(比如,图11中的待检测订单获取模块121、行车特征提取模块122和检测模块123对应的执行指令),当电子设备运行时,所述处理器131与所述存储器132之间通过总线133通信,所述机器可读指令被所述处理器131执行时执行如下处理:
获取待检测订单数据;
提取所述待检测订单数据中的多种行车特征;
将待检测订单数据的多种行车特征输入到通过上述实施例所示的绕路检测模型训练方法得到的绕路检测模型中,得到与所述待检测订单数据对应的绕路检测结果。
本申请实施例还提供了另一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述任一实施例绕路检测方法的步骤。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述绕路检测方法,从而解决目前依靠路程差来界定司机是否存在绕路行为的方法,在绕路检测中存在很大误差的问题,进而能够对司机在搭载乘客过程中是否存在绕路行为进行更加准确的检测。
本申请实施例所提供的绕路检测模型训练方法和装置,以及绕路检测方法和装置的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (32)

1.一种绕路检测模型训练方法,其特征在于,包括:
获取样本订单数据集合;所述样本订单数据集合中包括多个已完成订单的订单数据;每个已完成订单的订单数据包括多种行车特征以及该已完成订单对应的绕路结果属性,该绕路结果属性为已绕路或未绕路;
以所述多种行车特征作为决策树模型的输入特征,以所述绕路结果属性作为所述决策树模型的输出特征,构建决策树模型,将构建好的决策树模型作为所述绕路检测模型;以及
通过下述步骤获取所述绕路结果属性为已绕路的已完成订单的订单数据:
获取事实绕路订单的订单数据以及疑似绕路订单的订单数据;
根据所述疑似绕路订单的订单数据的多种行车特征,以及所述事实绕路订单的订单数据的多种行车特征,从所述疑似绕路订单中,筛选出认定绕路订单;
将筛选出的认定绕路订单的订单数据和所述事实绕路订单的订单数据作为所述绕路结果属性为已绕路的已完成订单的订单数据。
2.根据权利要求1所述的方法,其特征在于,所述行车特征包括以下特征中的多种:
预估行车时长、实际行车时长、预估行车路程、实际行车路程、预计经过路口次数、实际经过路口次数、预计车辆转弯的次数、实际车辆转弯次数、连续两次转弯的转弯角度之差小于预设角度差阈值的次数、道路拥堵情况。
3.根据权利要求1所述的方法,其特征在于,所述获取事实绕路订单的订单数据,包括:
根据乘客投诉信息以及与乘客投诉信息对应的订单的行车特征,获取所述事实绕路订单的订单数据。
4.根据权利要求1所述的方法,其特征在于,所述获取疑似绕路订单的订单数据,包括:
根据预设的疑似绕路行车特征,从已完成订单的订单数据库中筛选出所述疑似绕路订单的订单数据。
5.根据权利要求4所述的方法,其特征在于,所述疑似绕路行车特征包括以下特征中的一种或多种:
行车路线与导航规划路线不一致;实际行车路程与预估行车路程之间的差值大于设定距离阈值;实际行车时长与预估行车时长之间的差值大于设定时长阈值;实际经过路口次数与预计经过路口次数之间的差值大于设定次数阈值;实际车辆转弯次数与预计车辆转弯的次数之间的差值大于设定转弯次数阈值。
6.根据权利要求1所述的方法,其特征在于,根据所述疑似绕路订单的订单数据的多种行车特征,以及所述事实绕路订单的订单数据的多种行车特征,从所述疑似绕路订单中,筛选出认定绕路订单,包括:
基于所述疑似绕路订单对应的各个行车特征,生成第一特征向量,以及基于所述事实绕路订单对应的各个行车特征,生成第二特征向量;
计算所述第一特征向量和所述第二特征向量之间的相似度;
根据所述第一特征向量和所述第二特征向量之间的相似度,从所述疑似绕路订单中,筛选出所述认定绕路订单。
7.根据权利要求6所述的方法,其特征在于,所述事实绕路订单有多个;所述计算所述第一特征向量和所述第二特征向量之间的相似度,包括:
针对每个疑似绕路订单,分别计算该疑似绕路订单的第一特征向量与多个所述事实绕路订单的第二特征向量中每个第二特征向量之间的相似度;
所述根据所述第一特征向量和所述第二特征向量之间的相似度,从所述疑似绕路订单中,筛选出认定绕路订单,包括:
针对每个疑似绕路订单,根据该疑似绕路订单的第一特征向量与多个所述第二特征向量中每个第二特征向量之间的相似度,计算该第一特征向量与多个所述第二特征向量之间的相似度的平均值;
若所述相似度的平均值大于预设的相似度阈值,则将所述疑似绕路订单确定为认定绕路订单。
8.根据权利要求1所述的方法,其特征在于,所述从所述疑似绕路订单中,筛选出认定绕路订单之后,还包括:
根据所述事实绕路订单的订单数据,对所述认定绕路订单的订单数据进行调整;
所述将筛选出的认定绕路订单的订单数据和所述事实绕路订单的订单数据作为所述已绕路订单的订单数据,包括:
将调整后的所述认定绕路订单的订单数据,和所述事实绕路订单的订单数据作为所述已绕路订单的订单数据。
9.根据权利要求8所述的方法,其特征在于,所述根据所述事实绕路订单的订单数据,对所述认定绕路订单的订单数据进行调整,包括:
获取基于多个事实绕路订单的行车特征得到的变换矩阵;
计算所述认定绕路订单的行车特征组成的第三特征向量和所述变换矩阵之间的乘积,得到所述认定绕路订单对应的调整后的第四特征向量;
将所述第四特征向量表征的订单数据,作为调整后的所述认定绕路订单的订单数据。
10.根据权利要求9所述的方法,其特征在于,根据以下步骤确定所述变换矩阵:
确定由多个所述事实绕路订单的特征向量构成的多维矩阵;
将所述多维矩阵转换为能够与所述认定绕路订单的特征向量相乘的变换矩阵。
11.根据权利要求1所述的方法,其特征在于,所述构建决策树模型,包括:
基于所述样本订单集合内多个已完成订单的订单数据,计算每种行车特征的信息增益;
将对应的信息增益最大的行车特征作为所述决策树模型的父节点;
根据所述父节点对应的多个特征区间,将所述样本订单集合内多个已完成订单分别划分到每个特征区间中;
针对每个特征区间,根据该特征区间内的已完成订单的订单数据,计算除所述父节点所在支路中已存在的节点外每种行车特征的信息增益,并将对应的信息增益最大的行车特征作为所述父节点的一个子节点;
将所述子节点作为新的父节点,将该新的父节点对应的特征区间内的已完成订单组成新的样本订单集合,返回所述根据所述父节点对应的多个特征区间,将所述样本订单集合内多个已完成订单分别划分到每个特征区间中的步骤,直到每个支路中包含了预设的全部行车特征;
根据所述决策树模型中每个支路的最后一个节点对应的多个特征区间,将该节点对应的已完成订单分别划分到每个特征区间中,基于每个特征区间内的已完成订单的绕路结果属性,为该节点对应的每个特征区间标注绕路结果标签。
12.根据权利要求11所述的方法,其特征在于,基于所述样本订单集合内多个已完成订单的订单数据,计算每种行车特征的信息增益,包括:
针对每种行车特征,根据在当前样本订单集合中,绕路结果属性为已绕路的已完成订单的数量及绕路结果属性为未绕路的已完成订单的数量,以及,该行车特征的每个特征区间中,绕路结果属性为已绕路的已完成订单的数量及绕路结果属性为未绕路的已完成订单的数量,计算该行车特征的信息增益。
13.根据权利要求12所述的方法,其特征在于,根据以下公式计算任一行车特征的信息增益Info_Gain(D):
其中,k表示所述任一行车特征对应的特征区间的数量;P(ci)表示该任一行车特征的第i个特征区间所包括的已完成订单的数量在当前样本订单集合内已完成订单总数量中所占的比例;P(t)表示当前样本订单集合中,绕路结果属性为已绕路的已完成订单的数量和当前样本订单集合中所有已完成订单数量的比值;表示当前样本订单集合中,绕路结果属性为未绕路的已完成订单的数量和当前样本订单集合中所有已完成订单数量的比值;P(ci|t)表示所述任一行车特征的第i个特征区间中,绕路结果属性为已绕路的已完成订单的数量与该特征区间中所有已完成订单数量的比值;表示所述任一行车特征的第i个特征区间中,绕路结果属性为未绕路的已完成订单的数量与该特征区间中所有已完成订单数量的比值。
14.一种绕路检测方法,其特征在于,该方法包括:
获取待检测订单数据;
提取所述待检测订单数据中的多种行车特征;
将所述待检测订单数据的多种行车特征输入到通过根据权利要求1-13任意一项所述的绕路检测模型训练方法得到的绕路检测模型中,得到与所述待检测订单数据对应的绕路检测结果。
15.一种绕路检测模型训练装置,其特征在于,所述装置包括:获取模块和训练模块;其中,
所述获取模块,用于获取样本订单数据集合;所述样本订单数据集合中包括多个已完成订单的订单数据;每个已完成订单的订单数据包括多种行车特征以及该已完成订单对应的绕路结果属性,该绕路结果属性为已绕路或未绕路;
所述训练模块,用于以所述多种行车特征作为决策树模型的输入特征,以所述绕路结果属性作为所述决策树模型的输出特征,构建决策树模型,将构建好的决策树模型作为所述绕路检测模型;以及
所述获取模块,具体用于通过下述步骤获取所述绕路结果属性为已绕路的已完成订单的订单数据:
获取事实绕路订单的订单数据以及疑似绕路订单的订单数据;
根据所述疑似绕路订单的订单数据的多种行车特征,以及所述事实绕路订单的订单数据的多种行车特征,从所述疑似绕路订单中,筛选出认定绕路订单;
将筛选出的认定绕路订单的订单数据和所述事实绕路订单的订单数据作为所述绕路结果属性为已绕路的已完成订单的订单数据。
16.根据权利要求15所述的装置,其特征在于,所述行车特征包括以下特征中的多种:
预估行车时长、实际行车时长、预估行车路程、实际行车路程、预计经过路口次数、实际经过路口次数、预计车辆转弯的次数、实际车辆转弯次数、连续两次转弯的转弯角度之差小于预设角度差阈值的次数、道路拥堵情况。
17.根据权利要求15所述的装置,其特征在于,所述获取模块,具体用于通过下述步骤获取事实绕路订单的订单数据:
根据乘客投诉信息以及与乘客投诉信息对应的订单的行车特征,获取所述事实绕路订单的订单数据。
18.根据权利要求15所述的装置,其特征在于,所述获取模块,具体用于通过下述步骤获取疑似绕路订单的订单数据:
根据预设的疑似绕路行车特征,从已完成订单的订单数据库中筛选出所述疑似绕路订单的订单数据。
19.根据权利要求18所述的装置,其特征在于,所述疑似绕路行车特征包括以下特征中的一种或多种:
行车路线与导航规划路线不一致;实际行车路程与预估行车路程之间的差值大于设定距离阈值;实际行车时长与预估行车时长之间的差值大于设定时长阈值;实际经过路口次数与预计经过路口次数之间的差值大于设定次数阈值;实际车辆转弯次数与预计车辆转弯的次数之间的差值大于设定转弯次数阈值。
20.根据权利要求15所述的装置,其特征在于,所述获取模块,具体用于通过下述步骤从所述疑似绕路订单中,筛选出认定绕路订单:
基于所述疑似绕路订单对应的各个行车特征,生成第一特征向量,以及基于所述事实绕路订单对应的各个行车特征,生成第二特征向量;
计算所述第一特征向量和所述第二特征向量之间的相似度;
根据所述第一特征向量和所述第二特征向量之间的相似度,从所述疑似绕路订单中,筛选出所述认定绕路订单。
21.根据权利要求20所述的装置,其特征在于,所述事实绕路订单有多个;所述获取模块,具体用于通过下述步骤计算所述第一特征向量和所述第二特征向量之间的相似度:
针对每个疑似绕路订单,分别计算该疑似绕路订单的第一特征向量与多个所述事实绕路订单的第二特征向量中每个第二特征向量之间的相似度;
针对每个疑似绕路订单,根据该疑似绕路订单的第一特征向量与多个所述第二特征向量中每个第二特征向量之间的相似度,计算该第一特征向量与多个所述第二特征向量之间的相似度的平均值;
若所述相似度的平均值大于预设的相似度阈值,则将所述疑似绕路订单确定为认定绕路订单。
22.根据权利要求15所述的装置,其特征在于,所述获取模块,在从所述疑似绕路订单中,筛选出认定绕路订单之后,还用于:
根据所述事实绕路订单的订单数据,对所述认定绕路订单的订单数据进行调整;
所述获取模块,具体用于通过下述步骤将筛选出的认定绕路订单的订单数据和所述事实绕路订单的订单数据作为所述已绕路订单的订单数据:
将调整后的所述认定绕路订单的订单数据,和所述事实绕路订单的订单数据作为所述已绕路订单的订单数据。
23.根据权利要求22所述的装置,其特征在于,所述获取模块,具体用于通过下述步骤对所述认定绕路订单的订单数据进行调整:
获取基于多个事实绕路订单的行车特征得到的变换矩阵;
计算所述认定绕路订单的行车特征组成的第三特征向量和所述变换矩阵之间的乘积,得到所述认定绕路订单对应的调整后的第四特征向量;
将所述第四特征向量表征的订单数据,作为调整后的所述认定绕路订单的订单数据。
24.根据权利要求23所述的装置,其特征在于,所述获取模块,用于通过以下步骤确定所述变换矩阵:
确定由多个所述事实绕路订单的特征向量构成的多维矩阵;
将所述多维矩阵转换为能够与所述认定绕路订单的特征向量相乘的变换矩阵。
25.根据权利要求15所述的装置,其特征在于,所述训练模块,具体用于通过下述步骤构建决策树模型:
基于所述样本订单集合内多个已完成订单的订单数据,计算每种行车特征的信息增益;
将对应的信息增益最大的行车特征作为所述决策树模型的父节点;
根据所述父节点对应的多个特征区间,将所述样本订单集合内多个已完成订单分别划分到每个特征区间中;
针对每个特征区间,根据该特征区间内的已完成订单的订单数据,计算除所述父节点所在支路中已存在的节点外每种行车特征的信息增益,并将对应的信息增益最大的行车特征作为所述父节点的一个子节点;
将所述子节点作为新的父节点,将该新的父节点对应的特征区间内的已完成订单组成新的样本订单集合,返回所述根据所述父节点对应的多个特征区间,将所述样本订单集合内多个已完成订单分别划分到每个特征区间中的步骤,直到每个支路中包含了预设的全部行车特征;
根据所述决策树模型中每个支路的最后一个节点对应的多个特征区间,将该节点对应的已完成订单分别划分到每个特征区间中,基于每个特征区间内的已完成订单的绕路结果属性,为该节点对应的每个特征区间标注绕路结果标签。
26.根据权利要求25所述的装置,其特征在于,所述训练模块,具体用于通过下述步骤基于所述样本订单集合内多个已完成订单的订单数据,计算每种行车特征的信息增益:
针对每种行车特征,根据在当前样本订单集合中,绕路结果属性为已绕路的已完成订单的数量及绕路结果属性为未绕路的已完成订单的数量,以及,该行车特征的每个特征区间中,绕路结果属性为已绕路的已完成订单的数量及绕路结果属性为未绕路的已完成订单的数量,计算该行车特征的信息增益。
27.根据权利要求26所述的装置,其特征在于,所述训练模块,具体用于根据以下公式计算任一行车特征的信息增益Info_Gain(D):
其中,k表示所述任一行车特征对应的特征区间的数量;P(ci)表示该任一行车特征的第i个特征区间所包括的已完成订单的数量在当前样本订单集合内已完成订单总数量中所占的比例;P(t)表示当前样本订单集合中,绕路结果属性为已绕路的已完成订单的数量和当前样本订单集合中所有已完成订单数量的比值;表示当前样本订单集合中,绕路结果属性为未绕路的已完成订单的数量和当前样本订单集合中所有已完成订单数量的比值;P(ci|t)表示所述任一行车特征的第i个特征区间中,绕路结果属性为已绕路的已完成订单的数量与该特征区间中所有已完成订单数量的比值;表示所述任一行车特征的第i个特征区间中,绕路结果属性为未绕路的已完成订单的数量与该特征区间中所有已完成订单数量的比值。
28.一种绕路检测装置,其特征在于,该装置包括:待检测订单获取模块、行车特征提取模块和检测模块;其中,
所述待检测订单获取模块,用于获取待检测订单数据;
所述行车特征提取模块,用于提取所述待检测订单数据中的多种行车特征;
所述检测模块,用于将所述待检测订单数据的多种行车特征输入到通过根据权利要求15-27任意一项所述的绕路检测模型训练装置训练得到的绕路检测模型中,得到与所述待检测订单数据对应的绕路检测结果。
29.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行根据权利要求1-13任一所述的绕路检测模型训练方法。
30.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行根据权利要求1-13任一所述的绕路检测模型训练方法。
31.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行根据权利要求14所述的绕路检测方法。
32.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行根据权利要求14所述的绕路检测方法。
CN201810663143.9A 2018-06-25 2018-06-25 绕路检测模型训练方法和装置,以及绕路检测方法和装置 Active CN109033966B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810663143.9A CN109033966B (zh) 2018-06-25 2018-06-25 绕路检测模型训练方法和装置,以及绕路检测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810663143.9A CN109033966B (zh) 2018-06-25 2018-06-25 绕路检测模型训练方法和装置,以及绕路检测方法和装置

Publications (2)

Publication Number Publication Date
CN109033966A CN109033966A (zh) 2018-12-18
CN109033966B true CN109033966B (zh) 2019-07-23

Family

ID=64610257

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810663143.9A Active CN109033966B (zh) 2018-06-25 2018-06-25 绕路检测模型训练方法和装置,以及绕路检测方法和装置

Country Status (1)

Country Link
CN (1) CN109033966B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111768254A (zh) * 2019-04-01 2020-10-13 北京嘀嘀无限科技发展有限公司 一种订单处理方法及装置
CN111833138A (zh) * 2020-01-21 2020-10-27 北京嘀嘀无限科技发展有限公司 订单处理方法、系统和计算机可读存储介质
CN111695931A (zh) * 2020-05-11 2020-09-22 北京顺达同行科技有限公司 物流计费方法、相关装置及计算机可读存储介质
CN112183856A (zh) * 2020-09-27 2021-01-05 拉扎斯网络科技(上海)有限公司 一种数据处理的方法、装置、可读存储介质和电子设备
CN112561108A (zh) * 2020-12-24 2021-03-26 北京嘀嘀无限科技发展有限公司 数据处理方法、装置、设备和介质
CN113688923B (zh) * 2021-08-31 2024-04-05 中国平安财产保险股份有限公司 订单异常智能检测方法、装置、电子设备及存储介质
CN113570170A (zh) * 2021-09-23 2021-10-29 北京交研智慧科技有限公司 一种行程切分方法、装置及存储介质
CN114639247B (zh) * 2022-05-19 2022-08-12 文诚恒远(天津)供应链管理服务有限公司 一种更新车辆限行数据的方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107478231A (zh) * 2017-08-10 2017-12-15 千寻位置网络有限公司 基于多边形障碍检测的无人机路线规划算法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4602646B2 (ja) * 2003-06-20 2010-12-22 名古屋電機工業株式会社 情報表示装置
CN101145281A (zh) * 2006-09-11 2008-03-19 黄金富 公共交通车辆行车记录监察系统
CN104504460A (zh) * 2014-12-09 2015-04-08 北京嘀嘀无限科技发展有限公司 预测叫车平台的用户流失的方法和装置
CN105095373A (zh) * 2015-06-30 2015-11-25 百度在线网络技术(北京)有限公司 一种基于路径的订单推送方法及装置
CN106372674B (zh) * 2016-09-30 2020-01-21 百度在线网络技术(北京)有限公司 在线叫车服务平台中的司机分类方法和装置
US10290074B2 (en) * 2017-05-25 2019-05-14 Uber Technologies, Inc. Coordinating on-demand transportation with autonomous vehicles

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107478231A (zh) * 2017-08-10 2017-12-15 千寻位置网络有限公司 基于多边形障碍检测的无人机路线规划算法

Also Published As

Publication number Publication date
CN109033966A (zh) 2018-12-18

Similar Documents

Publication Publication Date Title
CN109033966B (zh) 绕路检测模型训练方法和装置,以及绕路检测方法和装置
CN107038478B (zh) 路况预测方法及装置、计算机设备与可读介质
CN109668570A (zh) 行驶路线推荐方法、装置、系统以及存储介质
CN109360421B (zh) 一种基于机器学习的交通信息预测方法及装置、电子终端
US20130191314A1 (en) Method and system for extracting route choice preference of a user
CN106204118A (zh) 一种用于商圈发现的方法与装置
CN106248096B (zh) 路网权重的获取方法和装置
JPWO2008117787A1 (ja) マップマッチングシステム、マップマッチング方法およびプログラム
JP2012027905A (ja) 分岐点に関連するコスト情報を提供するための方法およびデバイス並びにルートを決定する方法
CN106919957B (zh) 处理数据的方法及装置
JP2015161557A5 (zh)
US8892343B2 (en) Determining a spatiotemporal impact of a planned event on traffic
EP4016412A1 (en) Traffic prediction
CN108806241A (zh) 一种常用驾车路线的确定方法及装置
CN114450557B (zh) 路线偏差量化及基于此的车辆路线学习
CN107949770A (zh) 路径搜索装置、路径搜索方法及程序
CN104123305A (zh) 地理数据处理方法及其系统
Banaei-Kashani et al. Discovering patterns in traffic sensor data
CN110986992A (zh) 无人售卖车辆的导航方法、装置、电子设备和存储介质
Lee et al. Congestion pattern model for predicting short-term traffic decongestion times
US9739622B2 (en) System and method for selecting path according to selection conditions
US9140573B2 (en) Path finding in a map editor
CN111121803A (zh) 获取道路常用停靠点的方法及装置
CN110264725B (zh) 路段流量的确定方法及装置
CN106383738A (zh) 任务处理方法和分布式计算框架

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant