CN110836675B

CN110836675B - 一种基于决策树的自动驾驶搜索决策方法

Info

Publication number: CN110836675B
Application number: CN201911021966.2A
Authority: CN
Inventors: 李大庆; 李秋玥
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2019-10-25
Filing date: 2019-10-25
Publication date: 2021-09-28
Anticipated expiration: 2039-10-25
Also published as: CN110836675A

Abstract

本发明提出了一种基于决策树的自动驾驶搜索决策方法，其步骤为：步骤A：获取每辆出租车的搜索轨迹序列和载客轨迹序列，计算每辆出租车当天运载效率；步骤B：在城市范围内划分规定大小格点，并对各格点内的交通决策属性进行计算，计算搜索路径的特点；步骤C：利用ID3方法等方法构建决策树，进行重要度排序，进行决策树的验证；本发明通用性、客观性强，可行信度高，相比于传统的方法具有更好的可信度；本发明能够客观系统的解决问题，得到准确可信的搜索过程决策因素评价结果，弥补现有方法的不足。

Description

一种基于决策树的自动驾驶搜索决策方法

技术领域

本发明提出一种基于决策树的自动驾驶搜索决策方法，它是一种利用决策树算法的驾驶搜索过程决策方法，属于数据挖掘技术领域。

背景技术

目前，城市交通需求伴随城市人口规模持续增长，受限于城市物理空间，城市物理规模扩张速度逐渐落后于城市人口规模的扩增速度，多数大型或特大型城市已几乎没有空间来增设公共交通及道路基础设施，为改善城市交通运行效率、提升交通可靠性，应从提升交通网络整体利用率上思考应对之法。

出租车作为公共交通中的传统行业，占有相当市场份额，是城市运力中不可忽视的组成部分，同时因其受出行需求时空分布影响及全天路面行驶的特征，出租车也是城市道路交通压力中不可忽视的一部分，若能提升人车供需对接效率，不仅可提升城市交通运力，还可减少空车占路造成的交通拥堵，整体提升交通网络可靠性。但传统出租车空车率高、占用道路资源、自由度过高的问题已日益明显。

随着5G技术的普及与落地，自动驾驶或可提供新的人车对接解决方案——舍弃司机，利用数据和算法两者之间的驱动迭代闭环，基于深度学习的感知、地图和驾驶搜索决策技术，形成更高效准确的人车对接。普通的自动驾驶技术需要三点支撑：感知，高精度语义地图和驾驶决策技术。前两者在自动驾驶尝试和实验中在不断完善，而第三者，驾驶决策技术，对于以高效搜索载客为目的的自动驾驶搜索来说是远远不够的，在保证自动驾驶车辆能完成正常驾驶行为如自主上下匝道、主动变道、加塞处理等微观决策动作以外，它还应能形成更高的决策智能，高效的搜索到下一位乘客，再由算法和数据的闭环不断更新改进，发现更高效的搜索决策方法。

决策树算法是一种被广泛应用于金融分析、制造生产等多个领域的分类算法。在决策树的树结构中，每个非叶节点表示一个特征属性上的测试，每个分支代表这个特征属性在某个值域上的输出，而每个叶节点存放一个类别。使用决策树进行决策的过程就是从根节点开始，测试待分类项中相应的特征属性并按照其值选择输出分支，直到到达叶子节点，将叶子节点存放的类别作为决策结果。相较于贝叶斯算法等其他分类算法，决策树的构造过程不依赖于任何领域知识或参数设置，仅使用属性度量将样本尽可能的划分成不同的类属性，因此，对于实际应用中探测式的知识发现，决策树算法更加适用。

本发明考虑从某一城市的数千辆出租车历史日行驶轨迹出发，计算出租车运载效率，挖掘可能导致运载效率不同的搜索过程关键决策因素并对其进行时空分布量化，在此基础上，利用决策树算法分类排序高效与低效出租车在搜索过程中交通决策对其决策的影响重要度，为解决交通供需不平衡、提升交通运行效率、提高交通可靠性提供新的思路。

与搜索过程决策挖掘方法相比，基于决策树的不同效率车辆搜索决策过程挖掘方法主要具有如下优点。一方面，本方法可同时考虑数个交通搜索决策变量的影响，并可对影响重要度进行排序，充分考虑现实交通搜索决策变量的复杂性。另一方面，本方法具有相当强的一般性，只要获得某城市出租车行驶轨迹数据，就可对该城市的出租车进行搜索决策过程挖掘，既可总结各城市中搜索决策中的独特性，又可总结多个城市中搜索决策的共同特点，为未来的自动驾驶搜索决策提供支撑。

基于以上方法基础及现实意义，提出如下的“一种基于决策树的自动驾驶搜索决策方法”。

发明内容

(一)发明的目的

本发明主要用于解决在现实交通背景下人车匹配的效率问题，通过使用复杂网络理论与决策树算法，由城市多辆出租车日行驶轨迹数据计算出租车的运载效率；提出数个可能的交通搜索决策变量，利用行驶轨迹数据建立搜索决策变量的时空分布，通过追踪出租车的搜索轨迹，计算每辆出租车搜索过程中行经的区域搜索决策变量参数；最后，以运载效率高低进行类别划分，以多个交通搜索决策变量进行特征选择，构建决策树，得到导向高效搜索的自动驾驶搜索过程决策。现有方法大多是基于静态搜索指标，较少考虑出租车搜索过程中的动态决策过程，缺乏适应性和实时性，无法满足未来自动驾驶搜索的需求。因此针对于现有方法的不足，本专利提出了一种基于决策树的自动驾驶搜索决策方法。

(二)技术方案

为了实现上述目的，本发明的方法所采用的技术方案是：一种基于决策树的自动驾驶搜索决策方法。

本发明所述的“一种基于决策树的自动驾驶搜索决策方法”，其步骤如下：

步骤A：获取每辆出租车的搜索轨迹序列和载客轨迹序列，利用搜索轨迹序列及载客轨迹序列计算每辆出租车当天运载效率；

步骤B：选择包括城市乘客流量网络节点强度、行驶速度、搜索时长在内的数个交通决策属性，在城市范围内划分规定大小格点，并对各格点内的交通决策属性进行计算；基于城市交通属性的时空分布，计算搜索路径的特点；

步骤C：基于步骤B中计算的搜索决策变量参数，以运载效率高低作为类别划分标准，以选择的多个交通搜索决策变量为特征，利用ID3方法等方法构建决策树，分析多个交通搜索决策变量对搜索过程的影响，进行重要度排序，挖掘搜索过程中决策对不同搜索决策变量的依赖程度，进行决策树的验证。

其中，在步骤A中描述的“获取每辆出租车的搜索轨迹序列和载客轨迹序列，利用搜索轨迹序列及载客轨迹序列计算每辆出租车当天运载效率”，其做法如下：首先对轨迹数据进行清洗及过滤，接下来筛选具备一定运载次数的出租车，最后选择合适的统计方法计算出租车运载效率，以上所述过程的具体步骤如下：

步骤A1：轨迹数据清洗及过滤；出租车轨迹数据的记录中会因仪器及人为因素导致数据的异常或缺失，通过识别异常点，滤除不正确的采样数据；轨迹数据中，空载轨迹与载客轨迹交替出现，空载轨迹点由0表示，载客轨迹点由1表示，空载段轨迹由载客转为空载的第一个空载点到下一次载客轨迹点(含该载客轨迹点)，载客段轨迹由空载转为载客的第一个载客轨迹点到下一次空载轨迹点(含该空载轨迹点)；利用实时速度、里程等变量对数据中的异常轨迹点进行清洗，选择保证车辆营运数量的时间段；

步骤A2：出租车的选择；计算出租车运载效率，需要保证当天该出租车有足够的搜索及载客数据；使得效率计算不会仅由一次或两次搜索及载客数据而大幅波动；因此，设置最低日行驶时长与最低日载客次数，选择日行驶时间超过低日行驶时长，载客次数超过最低日载客次数的出租车作为总体进行运载效率的计算；

步骤A3：计算出租车运载效率；对于出租车的运载效率有多种评价标准，例如利用当日载客里程与行驶总里程之比作为效率评价标准等，这里为了更好刻画拥堵、等待对出租车运载效率的影响，选择用当日载客总收入与行驶总里程之比作为运载效率(yuan/km)；为计算当日载客总收入，需根据数据所在城市当地计价标准，结合出租车轨迹数据，进行计算，此举可将拥堵的计费补偿，等待时间的计费补偿涵盖在内，贴近真实成本与收益。

其中，在步骤B中所描述的“选择包括城市乘客流量网络节点强度、行驶速度、搜索时长在内的数个交通决策属性，在城市范围内划分规定大小格点，并对各格点内的交通决策属性进行计算；基于城市交通属性的时空分布，计算搜索路径的特点”，其做法如下：对于城市乘客流量网络节点强度、行驶速度、搜索时长等交通搜索决策变量进行统计分析，对于选择的交通搜索决策变量进行时空分布统计，最后对每辆出租车进行其交通搜索决策变量参数计算，以上所述过程的具体步骤如下：

步骤B1：计算交通搜索决策变量；包括城市乘客流量网络节点强度、行驶速度、搜索时长等；对于可能影响出租车搜索决策的交通搜索决策变量，从成本及收益两个角度考虑：成本为时间成本和油耗成本，这二者均与行驶速度强相关：拥堵路段会造成时间损耗和不断刹停所带来的油耗；除行驶速度外，乘客流量网络也会影响时间成本，某些区域既是大量乘客的目的地，也是大量乘客的上车区域，这些地点放下客人的出租车将有更大概率就近找到下一位乘客；收益与乘客流量网络节点强度和区域旅程长度较为相关，若途径区域是上客较多的区域，那么有更高概率获得下一位乘客，如果该区域(如机场)搭乘出租车的乘客倾向于去往更远的目的地，那么出租车的收益将会更高；这里交通搜索决策变量的选取并未有一定之规，以上几种仅作为选取参考，如区域出租车数量、区域是否有重大活动等也可作为交通搜索决策变量列入考量；

步骤B2：刻画交通搜索决策变量的时空分布；对于选取的交通搜索决策变量，应明确其在城市中的分布；应注意到，城市交通路况与乘客需求均有很强的日周期性，因此，将城市以500m×500m大小的方格进行空间划分，对于乘客流量网络节点强度、区域搜索距离、区域旅程长度和区域速度搜索决策变量，具体计算可以分时段进行，如早高峰、午平峰、晚高峰等等；在此时空划分基础上，对各日相应区域相应时段的相应搜索决策变量分别进行均值处理，得到各区域在各时段的搜索决策变量，即交通搜索决策变量的时空分布；

步骤B3：计算交通搜索决策变量参数；对于每辆出租车，选取其当日全部搜索轨迹，对每一个轨迹点，将其所在区域当前时段的相应交通搜索决策变量纳入计算，若当前轨迹点与上一轨迹点处于同一区域的同一时段，则跳至下一轨迹点，直至与上一纳入轨迹点区域不同或时段不同；最终得到该出租车当日在搜索过程中的交通搜索决策变量集合，对各交通搜索决策变量集合求均值，其值作为该出租车在相应交通搜索决策变量上的交通搜索决策变量参数。

其中，在步骤C中所描述的“基于步骤B中计算的搜索决策变量参数，以运载效率高低作为类别划分标准，以选择的多个交通搜索决策变量为特征，利用ID3方法等方法构建决策树，分析多个交通搜索决策变量对搜索过程的影响，进行重要度排序，挖掘搜索过程中决策对不同搜索决策变量的依赖程度，进行决策树的验证”，其做法如下：对所有变量进行特征选择与类别划分，在此基础上构建决策树，依据决策树结果分析各搜索决策变量对搜索决策的影响程度，以上所述过程的具体步骤如下：

步骤C1：特征选择与类别划分；由于决策树的特征及类别均须为有限离散值，而出租车的当日运载效率和当日交通搜索决策变量参数均为连续值，因此，在上述步骤B计算得到的出租车交通搜索决策变量参数的基础上，首先对各交通搜索决策变量参数利用二分法进行离散化，其次基于步骤A的每日出租车运载效率计算结果，选择运载效率在当日前10％和当日后10％的出租车作为样本，在所有样本中选择50％作为训练集，50％作为测试集；

步骤C2：构建决策树；在信息论中，期望信息越小，信息增益越大，ID3方法的核心思想就是利用信息增益度量属性选择，在每次需要分裂时，计算每个属性的信息增益，选择分裂后信息增益最大的属性进行分裂；其中，集合S的信息熵H(S)定义为：

其中当前样本集合S中第x类样本所占的比例为p(x)；

信息增益衡量的是一个属性所包含的“信息价值”，用属性A对样样本集合S进行划分所获得的信息增益表示为：

其中，H(S)为当前集合S的信息熵；T为通过属性A分割集合S创建的子集,使得S＝∪_t∈Tt；p(t)为t中元素数量与集合S中元素数量的比值；H(t)为子集t的信息熵；H(S|A)为得知属性A后的条件熵；因此，信息增益表现得知属性A的信息时样本集合不确定度减少的程度，在每一轮分裂时，选择信息增益最大的特征进行分裂，将其特征属性作为节点加入决策树，并进行下一轮信息熵、各分支信息熵(其和为条件熵)与信息增益的计算，直到全部分裂；

步骤C3：决策树的分析与验证；构建决策树后，对生成决策树进行节点分析，其中，根节点属性是区分出租车运载效率的最关键属性，其余各属性的重要度排序随远离根节点依次降低；对各城市的数据集所得到的决策树进行共性分析与特性分析；利用测试集数据，对生成的决策树进行模型验证。

(三)优点创新

1、通用性强：本专利并没有针对某个特定城市或特定环境的城市交通进行分析，而是通过格点化城市区域对交通搜索变量进行提取，因此具有更好的通用性。

2、客观性强：本专利相对于现有的传统方法采用了更少的主观判断及经验分析的方法，因此具有更好的客观性。

3、可行信度高：本专利的逻辑是从客观的角度出发，从实际数据的角度入手，因此相比于传统的方法具有更好的可信度。

综上，这种基于复杂网络及决策树的自动驾驶搜索决策方法能够客观系统的解决问题，得到准确可信的搜索过程决策因素评价结果，能够弥补现有方法的不足。

附图说明

图1为本发明所述方法的流程图。

图2为示例运载效率分布图，左虚线为运载效率10％分位线，右虚线为运载效率90％分位线。

图3为示例中区域旅程长度的空间分布图，浅灰色块代表区域旅程长度大于10千米的区域，深灰色块代表区域旅程长度小于10千米的区域。此图未进行时间划分，仅作示例。

图4为决策树生成流程图。

图5为示例数据集生成的决策树。

具体实施方式

为使本发明要解决的技术问题、技术方案更加清楚，下面将结合附图及具体实施案例进行详细描述。应当理解，此处所描述的实施实例仅用于说明和解释本发明，并不用于限定本发明。

本发明的目的在于通过优化搜索决策过程解决在现实交通背景下人车匹配的效率问题，现有的方法大多依赖于经验，并没有很好的利用数据及网络中产生的价值信息，本专利提出了一种基于决策树的自动驾驶搜索决策方法，该方法考虑了全局的交通搜索决策变量的时空分布，实现以数据为基础的搜索决策过程挖掘的目的，该方法具有通用性强、客观性强、可信度高、系统性强等特点。下面结合附图说明及具体实施方式对本发明进一步说明。

为使本发明要解决的技术问题、技术方案更加清楚，下面将例以某城市真实交通数据，结合附图1的方法流程图及附图4的决策树生成流程图进行详细描述。

本发明所述的“一种基于决策树的自动驾驶搜索决策方法”，附图1、4所示，其步骤如下：

本发明以北京2012年11月30天的出租车轨迹数据为例，经过数据清洗过滤、时段筛选、工作日筛选、搜索里程筛选及出租车筛选，获得日均6000余辆出租车，共21天数据。依据北京2012年的计价标准及载客段轨迹点，计算每辆出租车当日盈利数额，出租车当日行驶里程计算为载客里程与搜索里程之和，运载效率计算为当日盈利数额与当日行驶里程之比(元/千米)，其运载效率总分布如图2所示，图中左虚线为运载效率10％分位线，右虚线为运载效率90％分位线。

在本例中，选取乘客流量网络节点强度、区域搜索距离、区域旅程长度三个可能影响出租车搜索决策的交通搜索决策变量。由于城市交通路况与乘客需求均有很强的日周期性，因此，将城市以500m×500m大小的方格进行空间划分，对于乘客流量网络区域节点强度、区域搜索距离和区域旅程长度三个搜索决策变量，从6:00-22:00以20min为时间区间进行时间划分，得到48个时段，对于区域速度变量，以10min为时间区间，将6:00-22:00划分为96个时段。在此时空划分基础上，对各日相应区域相应时段的相应搜索决策变量分别进行均值处理，得到各区域在各时段的搜索决策变量，即交通搜索决策变量的时空分布，如图3所示，图中深色灰点代表区域旅程长度小于10千米，浅色灰点代表区域旅程长度大于10千米。

对每辆出租车提取它当日全部搜索轨迹，对搜索轨迹中每一个轨迹点，将其所在区域当前时段的相应交通搜索决策变量纳入计算，若当前轨迹点与上一轨迹点处于同一区域且同一时段，则跳至下一轨迹点，直至与上一纳入轨迹点区域不同或时段不同。最终对得到的该出租车当日搜索过程中交通搜索决策变量集合求均值，分别得到途径乘客流量网络平均节点强度，途径区域平均搜索距离和途径区域平均旅程长度三个交通搜索决策变量参数。

由于决策树特征及类别必须均为有限离散值，因此，将步骤B中计算得到的途径区域平均上客数量，途径区域平均搜索距离和途径区域平均旅程长度三个交通搜索决策变量参数分别利用二分法离散化。基于步骤A的每日出租车运载效率计算结果，选择运载效率在当日前10％和当日后10％的出租车作为样本集合，在所有样本中随机选择50％作为训练集，另50％作为测试集。此时，该样本集合中有三个离散特征属性：途径乘客流量网络平均节点强度，途径区域平均搜索距离、途径区域平均旅程长度。由于利用二分法离散化，每个属性的可能取值均为两个。如图5所示，生成决策树，其中信息熵H(S)：

其中当前样本集合S中第x类样本所占的比例为p(x)。

用属性A对样本集D进行划分所获得的信息增益表示为：

其中，H(S)为当前集合S的信息熵；T为通过属性A分割集合S创建的子集,使得S＝∪_t∈Tt；p(t)为t中元素数量与集合S中元素数量的比值；H(t)为子集t的信息熵；H(S|A)为得知属性A后的条件熵。因此，信息增益表现得知属性A的信息儿时的样本集合不确定度减少的程度，在每一轮分裂时，选择信息增益最大的特征进行分裂，将其特征属性作为节点加入决策树，并进行下一轮信息熵、各分支信息熵与信息增益的计算，直到循环结束。得到决策树如图5，构建决策树后，对生成决策树进行节点分析，可发现根节点途径区域的平均搜索距离是决定运载效率的最重要因素。对于途径平均搜索距离长且途径乘客流量网络平均节点强度大的车辆来说，搜索出现短程旅途的区域更容易提高运载效率。途径区域平均搜索距离短、途径乘客流量网络平均节点强度、途径区域平均旅程长度短的更倾向于高效。最后，利用测试集数据，对生成的决策树进行模型验证，在本例中，预测正确率达到72.6％。

本发明未详细阐述部分属于本领域公知技术。

以上所述，仅为本发明部分具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本领域的人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于决策树的自动驾驶搜索决策方法，其特征在于：其步骤如下：

步骤B：选择包括城市乘客流量网络节点强度、行驶速度、搜索时长在内的复数个交通决策属性，在城市范围内划分规定大小格点，并对各格点内的交通决策属性进行计算；基于城市交通属性的时空分布，计算搜索路径的特点；

在步骤B中所描述的“选择包括城市乘客流量网络节点强度、行驶速度、搜索时长在内的复数个交通决策属性，在城市范围内划分规定大小格点，并对各格点内的交通决策属性进行计算；基于城市交通属性的时空分布，计算搜索路径的特点”，其做法如下：对于城市乘客流量网络节点强度、行驶速度和搜索时长交通搜索决策变量进行统计分析，对于选择的交通搜索决策变量进行时空分布统计，最后对每辆出租车进行其交通搜索决策变量参数计算，具体步骤如下：

步骤B1：计算交通搜索决策变量；包括城市乘客流量网络节点强度、行驶速度和搜索时长；对于可能影响出租车搜索决策的交通搜索决策变量，从成本及收益两个角度考虑：成本为时间成本和油耗成本，这二者均与行驶速度强相关：

步骤B2：刻画交通搜索决策变量的时空分布；对于选取的交通搜索决策变量，应明确其在城市中的分布；应注意到，城市交通路况与乘客需求均有很强的日周期性，因此，将城市以500m×500m大小的方格进行空间划分，对于乘客流量网络节点强度、区域搜索距离、区域旅程长度和区域速度搜索决策变量，具体计算能分时段进行，时段分为早高峰、午平峰和晚高峰；在此时空划分基础上，对各日相应区域相应时段的相应搜索决策变量分别进行均值处理，得到各区域在各时段的搜索决策变量，即交通搜索决策变量的时空分布；

步骤B3：计算交通搜索决策变量参数；对于每辆出租车，选取其当日全部搜索轨迹，对每一个轨迹点，将其所在区域当前时段的相应交通搜索决策变量纳入计算，若当前轨迹点与上一轨迹点处于同一区域的同一时段，则跳至下一轨迹点，直至与上一纳入轨迹点区域不同及时段不同；最终得到该出租车当日在搜索过程中的交通搜索决策变量集合，对各交通搜索决策变量集合求均值，其值作为该出租车在相应交通搜索决策变量上的交通搜索决策变量参数；

步骤C：基于步骤B中计算的搜索决策变量参数，以运载效率高低作为类别划分标准，以选择的多个交通搜索决策变量为特征，利用ID3方法构建决策树，分析多个交通搜索决策变量对搜索过程的影响，进行重要度排序，挖掘搜索过程中决策对不同搜索决策变量的依赖程度，进行决策树的验证。

2.根据权利要求1所述的一种基于决策树的自动驾驶搜索决策方法，其特征在于：在步骤A中描述的“获取每辆出租车的搜索轨迹序列和载客轨迹序列，利用搜索轨迹序列及载客轨迹序列计算每辆出租车当天运载效率”，其做法如下：首先对轨迹数据进行清洗及过滤，接下来筛选具备一预定运载次数的出租车，最后选择合适的统计方法计算出租车运载效率，具体步骤如下：

步骤A1：轨迹数据清洗及过滤；出租车轨迹数据的记录中会因仪器及人为因素导致数据的异常及缺失，通过识别异常点，滤除不正确的采样数据；轨迹数据中，空载轨迹与载客轨迹交替出现，空载轨迹点由0表示，载客轨迹点由1表示，空载段轨迹由载客转为空载的第一个空载点到下一次载客轨迹点，含该载客轨迹点载客段轨迹由空载转为载客的第一个载客轨迹点到下一次空载轨迹点，含该空载轨迹点；利用实时速度、里程对数据中的异常轨迹点进行清洗，选择保证车辆营运数量的时间段；

步骤A2：出租车的选择；计算出租车运载效率，需要保证当天该出租车有足够的搜索及载客数据；使得效率计算不会仅由一次及两次搜索及载客数据而大幅波动；因此，设置最低日行驶时长与最低日载客次数，选择日行驶时间超过低日行驶时长，载客次数超过最低日载客次数的出租车作为总体进行运载效率的计算；

步骤A3：计算出租车运载效率；选择用当日载客总收入与行驶总里程之比作为运载效率即yuan/km；为计算当日载客总收入，需根据数据所在城市当地计价标准，结合出租车轨迹数据，进行计算，此举将拥堵的计费补偿，等待时间的计费补偿涵盖在内，贴近真实成本与收益。

3.根据权利要求1所述的一种基于决策树的自动驾驶搜索决策方法，其特征在于：在步骤C中所描述的“基于步骤B中计算的搜索决策变量参数，以运载效率高低作为类别划分标准，以选择的多个交通搜索决策变量为特征，利用ID3方法构建决策树，分析多个交通搜索决策变量对搜索过程的影响，进行重要度排序，挖掘搜索过程中决策对不同搜索决策变量的依赖程度，进行决策树的验证”，其做法如下：对所有变量进行特征选择与类别划分，在此基础上构建决策树，依据决策树结果分析各搜索决策变量对搜索决策的影响程度，具体步骤如下：

其中当前样本集合S中第x类样本所占的比例为p(x)；

信息增益衡量的是一个属性所包含的“信息价值”，用属性A对样本集合S进行划分所获得的信息增益表示为：

其中，H(S)为当前集合S的信息熵；T为通过属性A分割集合S创建的子集，使得S＝U_t∈Tt；p(t)为t中元素数量与集合S中元素数量的比值；H(t)为子集t的信息熵；H(S|A)为得知属性A后的条件熵；因此，信息增益表现得知属性A的信息时样本集合不确定度减少的程度，在每一轮分裂时，选择信息增益最大的特征进行分裂，将其特征属性作为节点加入决策树，并进行下一轮信息熵、各分支信息熵与信息增益的计算，直到全部分裂；