CN114418035A

CN114418035A - 决策树模型生成方法、基于决策树模型的数据推荐方法

Info

Publication number: CN114418035A
Application number: CN202210300936.0A
Authority: CN
Inventors: 钟子宏
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-03-25
Filing date: 2022-03-25
Publication date: 2022-04-29

Abstract

本申请的实施例揭示了决策树模型生成方法、基于决策树模型的数据推荐方法。该方法包括：获取由多个训练样本的特征信息形成的训练数据集，训练样本已知类别属性；在根据训练数据集生成决策树模型的过程中，迭代计算各节点下每个特征属性的信息增益，并根据最大信息增益对应的特征属性划分当前节点包含的数据集，直至根据节点包含的数据集能确定出类别属性；若当前节点下的多个特征属性的信息增益相等且为最大信息增益，则计算多个特征属性各自对应的修正信息增益，并根据计算得到的修正信息增益确定用于划分当前节点所包含数据集的特征属性；输出根据训练数据集所形成的决策树模型。本申请生成的决策树模型具有更准确的分类效果。

Description

决策树模型生成方法、基于决策树模型的数据推荐方法

技术领域

本申请涉及机器学习技术领域，具体涉及一种决策树模型生成方法、以及一种基于决策树模型的数据推荐方法。

背景技术

决策树模型是机器学习领域的经典算法模型，决策树算法是一种逼近离散函数值的方法，决策树是表示基于特征对样本进行分类的树形结构，决策树的分类过程可概括为从给定的数据集中依据特征选择的准则，递归地选择最优划分特征，并根据选择的最优划分特征将数据集进行分割，使得各子数据集有一个最好的分类的过程。

决策树模型依据的特征选择的准则包括信息增益，信息增益是表示以某特征划分数据集前后的信息熵的差值，而信息熵用于度量随机变量的不确定性，因此信息增益可用于衡量使用某特征对于数据集划分效果的好坏。在实际的应用场景中，数据集中容易包含较多相同数值的特征，导致在采用决策树模型进行分类时无法确定出最优划分特征，造成无法将数据集进行分割的问题，从而导致使用决策树模型进行分类的效果不佳。

发明内容

为解决上述技术问题，本申请的实施例提供了一种决策树模型生成方法及装置、基于决策树模型的数据推荐方法及装置、电子设备、计算机可读存储介质以及计算机程序产品。

根据本申请实施例的一个方面，提供了一种决策树模型生成方法，包括：获取由多个训练样本的特征信息形成的训练数据集，每个训练样本已知类别属性，且每个训练样本的特征信息对应不同的特征属性；在根据所述训练数据集生成决策树模型的过程中，迭代计算各节点下每个特征属性的信息增益，并根据最大信息增益对应的特征属性划分当前节点包含的数据集，以基于当前节点分裂形成多个子节点，直至根据节点包含的数据集能确定出类别属性；若当前节点下的多个特征属性的信息增益相等且为最大信息增益，则计算所述多个特征属性各自对应的修正信息增益，并根据计算得到的修正信息增益确定用于划分当前节点所包含数据集的特征属性；输出根据所述训练数据集所形成的决策树模型。

根据本申请实施例的一个方面，提供了一种决策树模型生成装置，包括：数据集获取模块，配置为获取由多个训练样本的特征信息形成的训练数据集，每个训练样本已知类别属性，且每个训练样本的特征信息对应不同的特征属性；模型生成模块，配置为在根据所述训练数据集生成决策树模型的过程中，迭代计算各节点下每个特征属性的信息增益，并根据最大信息增益对应的特征属性划分当前节点包含的数据集，以基于当前节点分裂形成多个子节点，直至根据节点包含的数据集能确定出类别属性；若当前节点下的多个特征属性的信息增益相等且为最大信息增益，则计算所述多个特征属性各自对应的修正信息增益，并根据计算得到的修正信息增益确定用于划分当前节点所包含数据集的特征属性；模型输出模块，配置为输出根据所述训练数据集所形成的决策树模型。

根据本申请实施例的一个方面，提供了一种基于决策树模型的数据推荐方法，包括：获取待推荐的候选样本集合，每个候选样本包含多个特征信息；根据决策树模型生成方法所得到的决策树模型，预测每个候选样本为指定类别属性的概率；将所述候选样本集合中的候选样本按照概率由大到小的顺序进行排序，并根据排序得到的结果选取目标候选样本进行推荐。

根据本申请实施例的一个方面，提供了一种基于决策树模型的数据推荐装置，包括：样本集合获取模块，配置为获取待推荐的候选样本集合，每个候选样本包含多个特征信息；概率预测模块，配置为根据决策树模型生成装置所得到的决策树模型，预测每个候选样本为指定类别属性的概率；样本推荐模块，配置为将所述候选样本集合中的候选样本按照概率由大到小的顺序进行排序，并根据排序得到的结果选取目标候选样本进行推荐。

根据本申请实施例的一个方面，提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述电子设备实现如前所述的决策树模型生成方法或者基于决策树模型的数据推荐方法。

根据本申请实施例的一个方面，提供了一种计算机可读存储介质，其上存储有计算机可读指令，当所述计算机可读指令被计算机的处理器执行时，使计算机执行如上所述的决策树模型生成方法或者基于决策树模型的数据推荐方法。

根据本申请实施例的一个方面，还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现如上所述的决策树模型生成方法或者基于决策树模型的数据推荐方法。

在本申请的实施例提供的技术方案中，对于生成决策树模型的过程，现有技术需要迭代计算各节点下每个特征属性的信息增益，并根据最大信息增益对应的特征属性划分当前节点包含的数据集，以基于当前节点分裂形成多个子节点，直至根据节点包含的数据集能确定出类别属性，如果某个节点下的多个特征属性的信息增益相等且为最大信息增益，现有技术则无法解决，导致得到的决策树模型分类不准确，本申请则是通过进行信息增益的修正来避免存在多个特征的信息增益相等且为最大信息增益时造成的无法划分当前节点包含的数据集的问题，具体是根据得到的修正信息增益确定用于划分当前节点所包含数据集的特征属性，由此使得最终生成的决策树模型具有更准确的分类效果。

应当理解的，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术者来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是一示例性的决策树的结构示意图。

图2是另一示例性的决策树的结构示意图。

图3是在车联网歌曲推荐场景下，为解决每首歌曲对应存在较多数值相同或数据差距较小的特征影响推荐效果的问题，现有技术中所提出的一种推荐实现流程的示意图。

图4是本申请的一示例性实施例示出的一种决策树生成方法的流程图。

图5是本申请的另一示例性实施例示出的一种决策树生成方法的流程图。

图6是一示例性的实施环境的示意图。

图7是本申请的一示例性实施例示出的一种基于决策树模型的数据推荐方法的流程图。

图8是一示例性的决策树模型从生成到应用的整体流程示意图。

图9是本申请的一示例性实施例示出的决策树模型生成装置的框图。

图10是本申请的一示例性实施例示出的基于决策树的数据推荐装置的框图。

图11是一示例性的适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

具体实施方式

这里将详细地对示例性实施例执行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

在本申请中提及的“多个”是指两个或者两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

首先需要说明的是，本申请涉及人工智能技术领域。人工智能(ArtificialIntelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析等多门学科。机器学习专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。

决策树模型是机器学习领域的经典算法模型，决策树算法是一种逼近离散函数值的方法，决策树是表示基于特征对样本进行分类的树形结构，决策树的分类过程可概括为从给定的数据集中依据特征选择的准则，递归地选择最优划分特征，并根据选择的最优划分特征将数据集进行分割，使得各数据子集有一个最好的分类的过程。

也可将选择最优划分特征对数据集进行分割的过程称为特征分组，因此使用决策树模型进行数据分类的过程也可概括为迭代地从当前数据集中选择最优划分特征对当前数据集包含的特征进行分组的过程。

图1是一示例性的决策树的结构示意图，应用于预测学生是否为好学生。如图1所示，决策树由若干节点构成，节点之间通过分支相连，其中节点包括内部节点和叶子节点，每个内部节点都表示在一个特征属性上的分类测试，每个分支代表这个特征属性在某个值域上的输出；每个叶子节点则代表类或类分布，如图1示意的叶子节点对应表示好学生和不是好学生两个类别；位于树形结构的最顶层的节点称为根节点。

应当理解，图1所示的决策树结构只是方便了解决策树结构所给出的一个示例，在实际应用中决策树应按照实际的数据集以及设定的特征选择准则生成具体的结构，例如在图2所示的决策树模型的结构示意图中，相比于图1所示的决策树模型的结构，减少了对应于分数这一特征属性的内部节点，且新增了对应于作业提交率这一特征属性的内部节点，本处不对决策树模型的具体结构进行限制。

决策树的生成过程是有监督学习的过程，通过给出若干样本，且每个样本都有一组特征属性和一个分类结果，也即是分类结果已知，通过学习这些样本的分类结果即可得到一个决策树模型，这个决策树模型能够对新样本的特征属性预测出正确的分类。

为了便于理解决策树的生成过程，仍以图1所示的决策树结构作为示例对生成决策树的过程进行介绍：给出若干学生各自的一组特征信息（包括学生的分数、出勤率、回答问题次数等特征属性）和对应的分类结果（好学生或者不是好学生），然后学习得到如图1所示的决策树模型，以使得决策树模型通过依次判断各特征属性的值是否满足特定条件来预测某个学生是否为好学生。具体地，决策树模型的根节点所包含的数据集为初始的数据集，其根据初始的数据集中包含的特征属性“分数”的取值将初始的数据集划分数据子集，例如划分为“分数大于A的学生的特征集合”以及“分数不大于A的学生的特征集合”两个数据子集，每个数据子集对应一个子节点，若基于子节点包含的数据集能确定出类别属性，则将此子节点作为叶子节点；若基于子节点包含的数据集不能确定出类别属性，则继续对此节点包含的数据集进行划分，由此递归地执行节点分裂的过程，直至将节点分裂为两个叶子节点，由此即可得到决策树模型。而对于具体选择哪个特征属性对当前节点包含的数据集进行划分，则依赖于所设定的特征选择的准则，请参见下述描述。

具体的，决策树的生成过程实质上是使用满足特征选择的准则将数据集不断地划分为最优的数据子集的过程，其对于数据集的每一次划分，都希望划分得到最优的数据子集，由此使得最终生成的决策树结构是最优的。决策树的生成过程所依据的特征选择的准则主要包括信息增益和信息熵，也即是通过信息增益和信息熵来度量数据集的每次划分是否最优。其中，信息熵用于度量随机变量的不确定性，为便于理解，若假设随机变量

的可能取值有

，

，…，

，对于每一个可能取值

，其概率表示为

，（

=1，2，…，

），随机变量

的信息熵表示如下:

对于数据集

来说，随机变量

是样本类别，即假设样本共有

个类别，每个类别的概率表示为

，其中

表示类别

的样本个数，

表示数据集

中的样本总数，对于数据集

来说信息熵表示如下：

信息增益是表示以某特征属性划分数据集前后的信息熵的差值，对于待划分的数据集，若将划分前的信息熵表示为entroy(前)，将划分之后的信息熵表示为entroy(后)，entroy(前)通常是一定的，entroy(后)则是不定的，entroy(后)越小说明使用当前特征划分得到的数据子集的不确定性越小，也即entroy(前)和entroy(后)之间的差值越大，说明使用当前特征属性划分数据集的不确定越小，因此可使用划分前后数据集的信息熵的差值（即信息增益）来衡量使用当前特征属性对于数据集划分效果的好坏。

在决策树的构建过程中，总是希望能更快速地达到不确定性更小的数据集划分，使得决策树结构能达到的分类效果更优，因此通常选择信息增益最大的特征来划分当前的数据集。但是在实际应用场景下，容易出现数据集包含的各样本之间具有数值相同的特征信息，例如在车联网歌曲推荐场景下由于用户点击、播放等行为较为不活跃，造成不同歌曲之间存在较多数值相同的歌曲特征（如点击次数、收藏次数、评价次数等特征的值都相同），或者存在较多数值差距较小的歌曲特征，导致在采用现有的决策树算法学习决策树模型时容易出现两个以上特征属性的信息增益相同而无法确定出最优的划分特征，造成无法将数据集进行划分的问题，使得最终学习到的决策树模型存在分类偏差，导致使用决策树模型进行分类的效果不佳的问题。

其它涉及分类推荐的应用场景也可能出现以上问题，如商品推荐场景，若商品样本因流通性较差导致存在较多数值相同或数据差距较小的特征，例如浏览次数、收藏次数、购买次数等，在此不对这些存在相同问题的应用场景一一列举。

另外，在车联网歌曲推荐场景下，由于每首歌曲对应存在较多数值相同或数据差距较小的特征影响推荐效果，现有技术一般采用方差分析的方法来实现歌曲推荐。现有技术依据用户对歌曲的评分数据，通过构建最大组间方差进行迭代分组，然后找出最优分组。如图3所示，现有技术采取的方案先确定分组数目，再通过迭代计算每个组别下的组间方差，从而得到每个分组数目下的组间方差向量序列，然后根据所有分组下的组件方差序列构建组间方差矩阵，选择组间方差矩阵最大的组间方差及对应的分组数字作为最优分组数据及最优分组，最后对每组分别构建CF（Collaborative Filtering-based，协同过滤）模型进行歌曲推荐。但是，由于现有技术需要的计算量非常大，因计算资源和存储资源消耗过大而造成计算效率较低的问题，并且该方案只能针对每一次全量的数据进行分组，并不能形成模型训练和预测的能力，造成模型缺乏泛化性的问题。

为解决如上的技术问题，本申请的实施例分别提出一种决策树模型生成方法及装置、一种基于决策树模型的数据推荐方法及装置、一种电子设备、一种计算机可读存储介质、以及一种计算机程序产品，下面将对这些实施例进行详细介绍。

首先参见图4，图4是本申请的一示例性实施例示出的一种决策树生成方法的流程图。该方法可以由终端设备执行，如手机、电脑、智能家电、车载终端、飞行器等，也可以由服务器执行，例如是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN（Content Delivery Network，内容分发网络）、以及大数据和人工智能平台等基础云计算服务的云服务器，本实施例不对此进行限制。

如图4所示，在一示例性实施例中，该决策树模型生成方法包括步骤S410至步骤S440，详细介绍如下。

步骤S410，获取由多个训练样本的特征信息形成的训练数据集，每个训练样本已知类别属性，且每个训练样本的特征信息对应不同的特征属性。

如前所述，决策树模型的生成是通过学习若干样本的特征属性和分类结果之间的关联以得到一个用于分类的数据模型，其实质过程是使用满足特征选择的准则将由若干特征的特征信息所形成的数据集不断进行最优数据子集划分的过程，因此对于决策树模型的生成，需要获取由多个训练样本在不同特征属性下的特征信息所形成的训练数据集，且已知各训练样本的类别属性，后续通过不断地划分训练数据集，相应生成决策树模型的各节点及分支，也即不断地进行节点的分裂，直至根据分裂得到的子节点所包含的数据集能够确定出属性类别，从而最终得到具有数据分类功能的决策树模型。

需要说明的是，特征信息是指具体的特征值，特征属性是用于描述同一类特征信息的属性。仍以图1作为示例举例来说，分数、出勤率、回答问题次数为特征属性，每个学生在对应特征属性下的特征值即为具体的特征信息，如某个学生的分数为90，出勤率为99%，回答问题次数为12，这些即为该学生在不同特征属性下的特征信息。应理解的是，训练样本的特征信息及特征信息对应的特征属性应根据实际场景确定，如上示例并不表示对不同特征属性下的特征信息的限制。

步骤S420，在根据训练数据集生成决策树模型的过程中，迭代计算各节点下每个特征属性的信息增益，并根据最大信息增益对应的特征属性划分当前节点包含的数据集，以基于当前节点分裂形成多个子节点，直至根据节点包含的数据集能确定出类别属性。

仍如前所述，在现有技术生成决策树模型的过程中，不仅要构建决策树模型的各个节点，包括内部节点（位于树型结构顶层的为根节点）和叶子节点，还需构建用于连接节点的分支。

由于内部节点表示在一个特征属性上的分类测试，因此在根据训练数据集生成决策树模型的过程中，需迭代计算各节点下每个特征属性的信息增益，并根据最大信息增益对应的特征属性划分当前节点包含的数据集，以基于当前节点分裂形成多个子节点，直至根据节点包含的数据集能确定出类别属性。其中，当前节点可称为分裂得到的子节点对应的父节点，连接父节点和子节点之间的关系称为分支，通常为父节点所表征的特征属性在某个值域上的输出。

需说明的是，步骤S420所提及的生成决策树模型的详细过程对应于决策树算法的内容，具体请参见前述记载的决策树生成原理，本处不再赘述。生成决策树模型的决策树算法例如包括ID3（一种以信息论为基础，以信息熵和信息增益度为衡量标准，从而实现对数据集的归纳分类的决策树算法）、C4.5（是在ID3算法上的扩展，与ID3算法一样使用了信息熵的概念，并和ID3算法一样通过学习数据集来建立决策树模型）、CART（ ClassificationAnd Regression Tree，分类回归树算法）等，本实施例不对此进行限制。

步骤S430，若当前节点下的多个特征属性的信息增益相等且为最大信息增益，则计算多个特征属性各自对应的修正信息增益，并根据计算得到的修正信息增益确定用于划分当前节点所包含数据集的特征属性。

实际应用场景下容易出现训练数据集包含的各训练样本之间具有数值相同的特征信息，例如在车联网歌曲推荐场景下由于用户点击、播放等行为较为不活跃，造成不同歌曲之间存在较多数值相同的歌曲特征（如点击次数、收藏次数、评价次数等特征的值都相同），或者存在较多数值差距较小的歌曲特征，导致在执行步骤S420所提及的迭代计算各节点下每个特征属性的信息增益，并根据最大信息增益对应的特征属性划分当前节点包含的数据集，以基于当前节点分裂形成多个子节点的过程中，容易出现当前节点下的多个特征属性的信息增益相等且为最大信息增益的情况，从而影响步骤S420中基于最大信息增益来选择用于划分当前节点包含的数据集的特征属性，导致生成的决策树模型分类效果不佳。

为解决此问题，本领域的技术人员容易想到的是，在信息增益相等且为最大信息增益的多个特征属性中随机选择一个特征属性用于当前数据集的划分，但是这种随机选择的方式会导致决策树模型的分类预测性能较弱，示例性的，若预测样本的某一项或多项特征属性的数值与训练样本集相差较大，则会导致根据训练样本集生成的决策树模型所对应的分类逻辑无法适应于预测样本的特征分布，从而无法对预测样本准确分类。

本实施例为解决此问题则是针对信息增益相等且为当前节点下的最大信息增益的各个特征属性分别计算各自对应的修正增益，然后根据计算得到的修正信息增益来确定出用于划分当前节点所包含数据的特征属性。也即，本实施例是对针对基于最大信息增益无法直接选择用于划分当前数据的特征属性时，通过进一步计算修正信息增益，即对无法唯一确定的各个最大信息增益进行修正，通过得到的修正信息增益来确定选择哪个特征数据进行当前数据集划分可以得到最优数据子集。

详细的修正过程请参见后续实施例中的描述，本处不对此进行赘述，但需要说明的是，本实施例对于多个特征属性各自对应的修正信息增益的计算是考虑了各特征属性对于目标类别属性的占比影响，其中目标类别属性可以是正样本对应的类别属性，如前示例的“好学生”类别属性，也可以是负样本对应的类别属性，如前示例的“不是好学生”类别属性，通常选择前者，也可根据实际需求进行选择。也即，本实施例是根据各特征属性对于目标类别属性的影响程度来对相应的信息增益进行修正，由此通过得到的修正信息增益来体现使用各特征属性用于划分当前节点包含的数据集能否得到的最优的数据子集。

对于相应计算得到的多个特征属性各自对应的修正信息增益，先确定这些修正信息增益中是否包含相等的修正信息增益，若这些修正信息增益的数值互不相等，选取最大修正信息增益对应的特征属性作为用于划分当前节点所包含数据集的特征属性。如前所述，最大修正信息增益对应的特征属性对于目标类别属性的影响程度应是大于其它修正信息增益的特征属性，因此选择最大修正信息增益对应的特征属性用于划分当前数据集能够得到最优的数据子集。若假设特征属性a1的修正信息增益大于特征属性a2的修正信息增益，当前节点包含的数据集中特征属性a1有3个取值，则可选择特征属性a1对当前节点包含的数据集进行划分，具体是根据特征属性a1的3个取值来将数据集划分为3个数据子集，从而形成相应的3个子节点。

若这些修正信息增益中包含相等的修正信息增益，则进一步确定相等的修正信息增益是否为最大修正信息增益，若确定为是，表示无法区分相应特征属性对于目标类别属性的影响程度的高低，或者表示相应特征属性对于目标类别属性的影响程度是一致的，则合并此相等的修正信息增益对应的特征属性，以得到合并特征属性，然后将此合并特征属性确定为用于划分当前节点所包含数据集的特征属性。仍举例来说，如果特征属性a1有3个特征值，对应可划分为3个子节点，特征属性a2有2个特征值，对应可划分为2个子节点，根据特征属性a1和特征属性a2形成的合并特征属性则可划分为3*2=6个子节点。

若确定相等的修正信息增益并非为最大修正信息增益，也即计算得到的修正信息增益中包含唯一的最大修正增益，则直接选取最大修正信息增益对应的特征属性作为用于划分当前节点所包含数据集的特征属性即可。

由上的特征属性确定过程，可保证针对每个节点所确定的用于划分当前节点所包含数据集的特征属性都是最优的，从而保证由此生成的决策树模型具有最优的分类效果。

步骤S440，输出根据训练数据集所形成的决策树模型。

如上的各步骤即体现的是根据训练数据集进行有监督学习的过程，通过如上过程学习训练数据集包含的训练样本的分类结果，即可得到根据训练数据集所形成的决策树模型，这个决策树模型能够对新样本的特征属性预测出正确的属性类别。

由上可以看出，本实施例通过计算修正信息增益，并通过比较修正信息增益的大小来确定最终用于划分当前数据集的特征属性，在现有决策树算法的基础上提升了数据集划分的准确性，即使在通过修正信息增益也无法唯一确定出用于划分数据集的特征属性的情况下，本实施例通过合并后的特征属性来进行数据集划分，相当于是在数据集划分时全面地考虑了进行最优数据子集划分的情况，因此能够有效地解决现有决策树算法中对于多个特征属性的信息增益相等的情况下的数据集划分问题，也使得本实施例所学习得到的决策树模型具备更加准确的分类性能。

下面以节点下信息增益最大且相等的特征属性的数量为两个作为示例，对步骤S230中计算修正信息增益的过程进行详细介绍。应理解的是，若节点下信息增益最大且相等的特征属性的数量为两个以上，也可同理计算得到各特征属性的修正信息增益，例如可通过将两个以上的特征属性划分为多个两两分组后再按照如下示例的过程计算对应的修正信息增益，本处不再对两个以上的情况进行赘述。

节点下各特征属性对应的修正信息增益为相应信息增益与修正因子之积，例如节点下信息增益最大且相等的两个特征属性分别为当前节点所包含数据集中的第

个特征属性（可表示为

）和第

个特征属性（可表示为

），对于节点所包含的数据集中的第

个特征属性，若将该特征属性对应的信息增益表示为

，将该特征属性对应的修正因子表示为

，该特征属性对应的修正信息增益则相应表示为

。

第

个特征属性对应的修正因子由第

个特征属性下当前节点包含的数据集中对应于目标类别属性的样本占比和第

个特征属性下当前节点包含的数据集中对应于目标类别属性的样本占比来确定。示例性的，节点所包含的数据集中的第

个特征属性对应的修正因子

可通过如下公式计算得到：

其中，

表示第

个特征属性下当前节点包含的数据集中对应于目标类别属性的样本占比，

表示第

个特征属性下当前节点包含的数据集中对应于目标类别属性的样本占比。

第

个特征属性下当前节点包含的数据集中对应于目标类别属性的样本占比由第

个特征下当前节点包含的数据集中对应于目标类别属性的样本数量和所述训练数据集包含的全部样本数量来确定。示例性的，第

个特征属性下，当前节点包含的数据集中对应于目标类别属性的样本占比

可通过如下公式计算得到：

其中

表示第

个特征下当前节点包含的数据集中对应于目标类别属性的样本数量，

表示训练数据集包含的全部样本数量。而第

个特征属性下当前节点包含的数据集中对应于目标类别属性的样本占比

可通过同样方式计算得到，本处不再赘述。

相应的，可得到节点所包含的数据集中的第

个特征属性对应的修正因子

通过如下公式计算得到：

可以看出，若

大于

，

的值大于1，

的值小于1，第

个特征属性对应的修正信息增益则大于第

个特征属性对应的修正信息增益，因此选择第

个特征属性对当前节点包含的数据集进行划分。若

小于

，

的值小于1，

的值大于1，第

个特征属性对应的修正信息增益则大于第

个特征属性对应的修正信息增益，因此选择第

个特征属性对当前节点包含的数据集进行划分。若

等于

，

的值等于1，

的值也等于1，第

个特征属性对应的修正信息增益也等于第

个特征属性对应的修正信息增益，因此将第

个特征属性和第

个特征属性合并得到的合并特征属性对当前节点包含的数据集进行划分。

由此可知，本实施例对于各特征属性对应的修正信息增益的计算是考虑了各特征属性对于目标类别属性的占比影响，最终选择影响程度更大的特征属性来划分当前数据集，由此得到最优的数据子集，从而提升所生成决策树模型的分类准确性。

特征属性对应的信息增益通过如下公式计算得到：

如上公式中，

表示训练数据集，

表示当前节点包含的数据集中的第

个特征属性，

表示第

个特征属性下的信息增益，

表示决策树模型的根节点的信息熵，

表示在第

个特征属性下的第

个子节点所划分的数据子集包含的样本数量，

表示训练数据集包含的全部样本数量，

表示第

个特征属性下的第

个子节点的信息熵，

表示第

个特征属性下的子节点总数。特征属性下的子节点总数

通常为该特征属性在当前节点包含的数据集中的取值总数。

由上可以看出，特征属性对应的信息增益是表示以该特征属性划分数据集前后的信息熵的差值，表示决策树模型的根节点的信息熵

通常是一定的，若数据集划分后的信息熵

越小，特征属性对应的信息增益越大，使用该特征属性进行数据集划分的效果也就越好。

决策树模型的根节点的信息熵

通过如下公式计算得到：

其中

表示训练数据集中类别属性为第

个类别的样本占比，类别属性的类别总数为2。当然在实际应用场景中，类别属性的总数可以大于2，这取决于待分类的实际需求，本实施例并不对此进行限制。

综合如上修正信息增益的计算过程可以得到一个整体的修正信息计算公式，如下所示：

如上公式中，假设节点下信息增益最大且相等的两个特征属性分别为当前节点所包含数据集中的第

个特征属性

和第

个特征属性

，

表示特征属性

对应的修正信息增益，

表示特征属性

对应的信息增益，

表示特征属性

对应的信息增益。可以看出，当特征属性

的信息增益不等于特征属性

的信息增益时，在进行节点下数据集划分时直接选择最大的信息增益对应的特征属性进行当前数据集的划分即可，因此是按照如上所示的第二个公式（在下的公式）计算，且具体计算的是信息增益，而并非修正信息增益。而当特征属性

的信息增益等于特征属性

的信息增益时（且这两个特征属性的信息增益是当前节点下的最大信息增益），在进行节点下数据集划分时无法直接选择最大的信息增益对应的特征属性进行当前数据集的划分，因此按照如上所示的第一个公式（在上的公式）计算修正信息增益。

如上实施例清楚地描述了生成决策树模型的详细过程，但对于决策树模型的最终获得，除包含如上所述的训练生成阶段以外，通常还包括对训练生成阶段得到的决策树模型进行测试的阶段，经过测试验证生成的决策树模型满足要求后，才将该决策树模型用于实际的分类预测。

如图5所示，在一示例性的实施例中，决策树模型生成方法在图4所示实施例包含的步骤S410至步骤S440的基础上，还包括步骤S450至步骤S470。也即在图5所示意的决策树模型生成方法中，在输出根据训练数据集形成的决策树模型之后还进一步包含对此决策树模型进行测试的过程，下面将针对决策树模型的测试过程进行详细描述，而如何根据训练数据集输出对应的决策树模型的过程请参见前述实施例中的描述，本处不作赘述。

还应说明的是，图5所示决策树模型生成方法的具体执行主体也与图4所示的实施例相同，既可以是如手机、电脑、智能家电、车载终端、飞行器等终端设备，也可以是独立的物理服务器，还可以是多个物理服务器构成的服务器集群或者分布式系统，或者可以是提供基础云计算服务的云服务器，本实施例不对此进行限制。

如图5所示，在一示例性的实施例中，在输出根据训练数据集形成的决策树模型之后所进一步包含的对决策树模型进行测试的过程包括步骤S450至步骤S470，详细介绍如下。

步骤S450，将输出的决策树模型作为待测试模型，输入测试数据集进行测试，得到所述待测试模型针对多个测试样本预测的分类结果。

为了更加准确地验证训练阶段生成的决策树模型的效果，用于测试决策树模型的测试数据集应当与训练数据具有类似的特征分布。通常而言，训练数据集和测试数据集具有相同的数据来源，示例性的，可将一个样本集合中包含的大量样本按照一定比例随机划分为训练样本和测试样本，由训练样本的特征集合构成训练数据集，以及由测试样本的特征集合构成测试数据集，如此即可保证训练数据集和测试数据集具有类似的特征分布，可用于对根据训练数据集学习到的决策树模型进行测试。

将输出的决策树模型作为待测试模型，输入测试数据集进行测试，则可得到待测试模型针对多个测试样本预测的分类结果。每个测试样本的属性类别也是已知的，因此根据待测试模型针对每个测试样本输出的分类结果可判定待测试模型是否输出的正确的分类结果，后续通过判断结果进行统计，即可确定待测试模型的模型效果是否达到预想效果。

步骤S460，根据得到的分类结果计算待测试模型的效果评估指标，效果评估指标包括准确率、查准率、查全率中的至少一种。

本实施例中，准确率是指分类正确的测试样本数据与测试样本总数之比，具体可通过如下公式计算得到：

其中

表示准确率，

表示被正确分类为正样本的测试样本，

表示被正确分类为负样本的测试样本，

表示全部的测试样本。需说明的是，正样本是指属于某一类别属性（一般是所求的类别属性）的测试样本，负样本则是指不属于这一类别属性的测试样本。

查准率是指被正确分类为正样本的测试样本数量与被分类为正样本的测试样本数量之比，通过如下公式计算得到：

其中

表示查准率，

表示被分类为正样本，实际是负样本的测试样本。

查全率是指被正确分类的正样本与应被正确分类的测试样本数之比，通过如下公式计算得到：

其中

表示查全率，

表示为被分类为正样本，实际是正样本的测试样本。

以上示出的任一个效果评估指标均可用于评估待测试模型的效果，但各自的侧重点或关注点不同，例如准确率可用于总体上衡量预测的性能，查准率更关注于待测试模型能够正确地对正样本进行分类的性能，查全率更关注于待测试模型能够对于全部的正样本进行正确分类的性能。因此在不同的应用场景下，可根据实际的性能关注点来选择至少一种效果评估指标，以对待测试模型的效果进行评估。

步骤S470，若效果评估指标指示待测试模型的模型效果达标，则将待测试模型作为最优的决策树模型。

效果评估指标指示待测试模型的模型效果达标例如是效果评估指标的数值大于预设阈值，该预设阈值通常是根据经验确定的，或者在效果评估指标为多个的情况下，若单项达标的效果评估指标的数量大于预设值，也可以是确定效果评估指标指示待测试模型的模型效果达标，在此不一一列举，可根据实际应用需求进行设置。

若效果评估指标指示待测试模型的模型效果达标，则可将待测试模型作为最优的决策树模型用于实际应用，也即使用该最优的决策树模型来预测真实样本的类别属性。

示例性的，本申请的实施例还提供了一种基于决策树模型的数据推荐方法，该方法中使用的决策树模型可以是图4所示实施例中得到的决策树模型，也可以是图5所示实施例中得到的最优的决策树模型，在此不进行限制。另外该方法的执行主体可以是如手机、电脑、智能家电、车载终端、飞行器等终端设备，也可以是独立的物理服务器，还可以是多个物理服务器构成的服务器集群或者分布式系统，或者可以是提供基础云计算服务的云服务器，本实施例也不对此进行限制。

例如在图6所示的示例性实施环境中，服务器610用于执行基于决策树模型的数据推荐方法，以从候选样本集合中确定出目标候选样本，并将这些目标候选样本传输给终端设备620。其中，服务器610与终端设备620之间简历的通信连接可以是有线通信或者无线通信，本实施环境不对此进行限制。

该基于决策树模型的数据推荐方法对应的流程图如图7所示，包括步骤S710至步骤S730，详细介绍如下。

步骤S710，获取待推荐的候选样本集合，每个候选样本包含多个特征信息。

本实施例中的候选样本集合是由待推荐的多个候选样本构成的，其中每个候选样本包含的多个特征信息可根据实际的应用场景确定，例如在前述的车联网歌曲推荐场景下，候选样本包含的特征信息例如包括点击次数、收藏次数、评价次数等，又例如在商品推荐场景下，候选样本包含的特征信息例如包括浏览次数、收藏次数、购买次数等。

步骤S720，根据决策树模型预测每个候选样本为指定类别属性的概率。

通常决策树模型针对每个候选样本进行分类预测可得到每个候选样本为预设的各个类别属性的概率，例如在二分类场景下，预测得到每个候选样本分别为第一类别属性的概率以及第二类别属性的概率。

指定类别属性是指希望获得的类别属性，例如在前述的车联网歌曲推荐场景下，类别属性一共包括“用户好评”和“用户差评”两种，指定类别属性选择“用户好评”，使得车联网歌曲的推荐是基于用户好评度实现的。又例如在前述的商品推荐场景下，类别属性一共包括“购买”和“不会购买”两种，指定类别属性选择“购买”，使得商品的推荐是基于用户会购买的可能性实现的。因此可以看出，指定类别属性是更有利候选样本推荐的类别属性。

步骤S730，将候选样本集合中的候选样本按照概率由大到小的顺序进行排序，并根据排序得到的结果选取目标候选样本进行推荐。

本实施例将候选样本集合中的候选样本按照概率由大到小的顺序进行排序，并根据排序得到的结果选取目标候选样本进行推荐，可以使得更容易被接受或认可的候选样本进行推荐，由此实现更加精确的推荐。

应说明的是，除前述的车联网歌曲推荐场景和商品推荐场景以外，本实施例提出的基于决策树模型的数据推荐方法可适用于更多的分类推荐场景，如根据用户喜爱度进行视频或资讯推荐的场景，在此不一一列举。但需要说明的是，无论是应用于哪一种应用场景，所使用的决策树模型应是基于同一应用场景下收集的训练数据集所学习得到的，以使得所使用的决策树模型能够适用于此种应用场景下的分类预测，提升对候选样本进行分类的准确性，也提升对候选样本进行推荐的准确性。另外还需要说明的是，本实施例提出的方法所适用的应用场景通常是具备待推荐的候选样本之间包含数值相同或特征数值差值小于预设阈值的特征信息，这类场景使用现有的决策树算法生成的决策树模型无法应对节点分裂过程中出现的最大信息增益相等的情况，导致使用现有的决策树算法生成的决策树模型无法准确对候选样本进行分类，即所得到的候选样本为指定类别属性的概率是不准确的，进而影响对候选样本的推荐准确性。

图8是一示例性的决策树模型从生成到应用的整体流程示意图。如图8所示，首先在输入数据阶段，需获得大量的样本特征数据，例如以每首车联网歌曲作为一个样本，样本特征数据例如为用户对歌曲的评分值、用户在每首歌曲中的点击次数、收藏次数、评价次数、评价类型（好评或差评）、是否取消播放、播放时间、播放次数、在每首歌曲的付费金额、付费次数、歌曲的风格、语言等特征数据。这些样本可以是不同时期的样本，例如包括T-1期的样本和T期的样本，T期是指实际的预测时间周期，T期一般理解为是当前，T-1期相应理解为是历史。

在样本构建阶段，将T-1期的样本按一定比例随机划分为训练样本和测试样本，例如训练样本与测试样本的比例为8:2，得到由训练样本的特征数据形成的训练数据集，以及由测试样本的特征数据形成的测试样本集。将T期的样本作为预测样本，预测样本的类别属性是未知待预测的，也即预测样本不含有用户对歌曲的评分类型这一特征信息。

在决策树模型基于训练数据集生成阶段，迭代计算各节点下不同特征属性的信息增益，如果节点下有两个特征属性的信息增益相等，且为当前节点下的最大信息增益（应理解，本实施例是以节点下有两个特征属性的信息增益相等且为最大信息增益为示例来说明整体流程），则构建并计算修正信息增益，详细的过程参见前述实施例中的记载，然后选择最大修正信息增益对当前数据集进行划分；如果节点下不存在信息增益相等且最大的特征属性，则选择最大信息增益对应的特征属性进行当前数据集的划分。

在最大修正信息增益对当前数据集进行划分阶段，若出现计算得到的两个修正信息增益仍然相等，则将对应的两个特征属性合并后用于划分当前数据集；如果两个修正信息增益不相等，则直接选择最大修正信息增益对应的特征属性对当前数据集进行划分。

基于如上的决策树模型生成过程，可相应得到基于训练数据集所学习到的决策树模型。然后将基于训练数据集所学习到的决策树模型作为待测试模型，使用测试数据集对待测试模型的预测效果进行测试，如果确定待测试模型已是最优的决策树模型，则得到最终的决策树模型；若确定待测试模型并不是最优的决策树模型，则继续基于训练数据集重新生成决策树模型，直至得到的决策树模型通过测试。

所最终得到的决策树模型将应用于对预测样本的预测分类，即使用最终得到的决策树模型来预测此预测样本为指定类别属性的概率，后续则基于得到的分类结果进行预测样本的推荐。需要说明的是，决策树模型的训练获得阶段、测试阶段以及预测阶段的详细过程请参见前述记载的各个实施例，本处不再进行赘述。

图9是本申请的一示例性实施例示出的决策树模型生成装置的框图。该装置可以配置于终端设备上，终端设备如手机、电脑、智能家电、车载终端、飞行器等，也可以配置于服务器上，服务器例如是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN（Content Delivery Network，内容分发网络）、以及大数据和人工智能平台等基础云计算服务的云服务器，本实施例不对此进行限制。

如图9所示，该决策树模型生成装置900包括：数据集获取模块910，配置为获取由多个训练样本的特征信息形成的训练数据集，每个训练样本已知类别属性，且每个训练样本的特征信息对应不同的特征属性；模型生成模块920，配置为在根据训练数据集生成决策树模型的过程中，迭代计算各节点下每个特征属性的信息增益，并根据最大信息增益对应的特征属性划分当前节点包含的数据集，以基于当前节点分裂形成多个子节点，直至根据节点包含的数据集能确定出类别属性；若当前节点下的多个特征属性的信息增益相等且为最大信息增益，则计算多个特征属性各自对应的修正信息增益，并根据计算得到的修正信息增益确定用于划分当前节点所包含数据集的特征属性；模型输出模块930，配置为输出根据训练数据所形成的决策树模型。

在另一示例性实施例中，模型生成模块920还配置为：确定计算得到的修正信息增益中是否包含相等的修正信息增益，若多个特征属性各自对应的修正信息增益不相等，选取最大修正信息增益对应的特征属性作为用于划分当前节点所包含数据集的特征属性。

在另一示例性实施例中，模型生成模块920还配置为：若计算得到的修正信息增益中包含相等的修正信息增益，确定相等的修正信息增益是否为最大修正信息增益；若确定为是，则合并相等的修正信息增益对应的特征属性，得到合并特征属性，并将合并特征属性确定为用于划分当前节点所包含数据集的特征属性；若确定为否，则选取最大修正信息增益对应的特征属性作为用于划分当前节点所包含数据集的特征属性。

在另一示例性实施例中，节点下信息增益最大且相等的特征属性的数量包括两个，分别当前节点所包含数据集中的第

个特征属性和第

个特征属性；模型生成模块920中，各特征属性对应的修正信息增益为相应信息增益与修正因子之积，第

个特征属性对应的修正因子由第

个特征属性下当前节点包含的数据集中对应于目标类别属性的样本占比来确定。

在另一示例性实施例中，第

个特征下当前节点包含的数据集中对应于目标类别属性的样本数量和所述训练数据集包含的全部样本数量来确定。

在另一示例性实施例中，每个特征属性对应的信息增益通过如下公式计算得到：

其中，

表示训练数据集，

表示当前节点包含的数据集中的第

个特征属性，

表示第

个特征属性下的信息增益，

表示决策树模型的根节点的信息熵，

表示在第

个特征属性下的第

个子节点所划分的数据子集包含的样本数量，

表示所述训练数据集包含的全部样本数量，

表示第

个特征属性下的第

个子节点的信息熵，

表示第

个特征属性下的子节点总数。

在另一示例性实施例中，决策树模型的根节点的信息熵

通过如下公式计算得到：

其中，

表示训练数据集中类别属性为第

个类别的样本占比，类别属性的类别总数为2。

在另一示例性实施例中，第

个特征下第

个子节点的信息熵

通过如下公式计算得到：

其中，

表示第

个特征属性下第

个子节点所划分的数据子集包含的样本占比。

在另一示例性实施例中，决策树模型生成装置还包括：

测试数据输入模块，配置为将输出的决策树模型作为待测试模型，输入测试数据集进行测试，得到待测试模型针对多个测试样本预测的分类结果；评估指标计算模块，配置为根据得到的分类结果计算待测试模型的效果评估指标，效果评估指标包括准确率、查准率、查全率中的至少一种；若效果评估指标指示待测试模型的模型效果达标，则将待测试模型作为最优的决策树模型。

图10是本申请的一示例性实施例示出的基于决策树的数据推荐装置的框图。该装置可以配置于终端设备上，终端设备如手机、电脑、智能家电、车载终端、飞行器等，也可以配置于服务器上，服务器例如是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN（Content Delivery Network，内容分发网络）、以及大数据和人工智能平台等基础云计算服务的云服务器，本实施例也不对此进行限制。

如图10所示，该基于决策树模型的数据推荐装置1000包括：

候选样本获取模块1010，配置为获取待推荐的候选样本集合，每个候选样本包含多个特征信息；预测分类模块1020，配置为根据决策树模型生成装置所得到的决策树模型，预测每个候选样本为指定类别属性的概率；排序推荐模块1030，配置为将候选样本集合中的候选样本按照概率由大到小的顺序进行排序，并根据排序得到的结果选取目标候选样本进行推荐。

在一示例性实施例中，候选样本集合包括由多首歌曲形成的样本集合，每首歌曲包含特征数值相同或特征数值差值小于预设阈值的特征信息。

需要说明的是，上述实施例所提供的装置与上述实施例所提供的方法属于同一构思，其中各个模块和单元执行操作的具体方式已经在方法实施例中进行了详细描述，此处不再赘述。上述实施例所提供的装置在实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能，本处也不对此进行限制。

本申请的实施例还提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述电子设备实现上述各个实施例中提供的决策树模型生成方法或者基于决策树模型的数据分类方法。

图11示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。需要说明的是，图11示出的电子设备的计算机系统仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图11所示，计算机系统包括中央处理单元（Central Processing Unit，CPU）1101，其可以根据存储在只读存储器（Read-Only Memory，ROM）1102中的程序或者从储存部分1108加载到随机访问存储器（Random Access Memory，RAM）1103中的程序而执行各种适当的动作和处理，例如执行上述实施例中所述的方法。在RAM 1103中，还存储有系统操作所需的各种程序和数据。CPU 1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出（Input /Output，I/O）接口1105也连接至总线1104。

以下部件连接至I/O接口1105：包括键盘、鼠标等的输入部分1106；包括诸如阴极射线管（Cathode Ray Tube，CRT）、液晶显示器（Liquid Crystal Display，LCD）等以及扬声器等的输出部分1107；包括硬盘等的储存部分1108；以及包括诸如LAN（Local AreaNetwork，局域网）卡、调制解调器等的网络接口卡的通信部分1109。通信部分1109经由诸如因特网的网络执行通信处理。驱动器1110也根据需要连接至I/O接口1105。可拆卸介质1111，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1110上，以便于从其上读出的计算机程序根据需要被安装入储存部分1108。

特别地，根据本申请的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的计算机程序。在这样的实施例中，该计算机程序可以通过通信部分1109从网络上被下载和安装，和/或从可拆卸介质1111被安装。在该计算机程序被中央处理单元（CPU）1101执行时，执行本申请的系统中限定的各种功能。

需要说明的是，本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（Erasable Programmable Read Only Memory，EPROM）、闪存、光纤、便携式紧凑磁盘只读存储器（Compact Disc Read-Only Memory，CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

本申请的另一方面还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如前所述的决策树模型生成方法或者基于决策树模型的数据分类方法。该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的，也可以是单独存在，而未装配入该电子设备中。

本申请的另一方面还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各个实施例中提供的决策树模型生成方法或者基于决策树模型的数据分类方法。

上述内容，仅为本申请的较佳示例性实施例，并非用于限制本申请的实施方案，本领域普通技术人员根据本申请的主要构思和精神，可以十分方便地进行相应的变通或修改，故本申请的保护范围应以权利要求书所要求的保护范围为准。

Claims

1.一种决策树模型生成方法，其特征在于，所述方法包括：

获取由多个训练样本的特征信息形成的训练数据集，每个训练样本已知类别属性，且每个训练样本的特征信息对应不同的特征属性；

在根据所述训练数据集生成决策树模型的过程中，迭代计算各节点下每个特征属性的信息增益，并根据最大信息增益对应的特征属性划分当前节点包含的数据集，以基于当前节点分裂形成多个子节点，直至根据节点包含的数据集能确定出类别属性；

若当前节点下的多个特征属性的信息增益相等且为最大信息增益，则计算所述多个特征属性各自对应的修正信息增益，并根据计算得到的修正信息增益确定用于划分当前节点所包含数据集的特征属性；

输出根据所述训练数据集所形成的决策树模型。

2.根据权利要求1所述的方法，其特征在于，所述计算所述多个特征属性各自对应的修正信息增益，并根据计算得到的修正信息增益确定用于划分当前节点所包含数据集的特征属性，包括：

确定所述计算得到的修正信息增益中是否包含相等的修正信息增益；

若所述多个特征属性各自对应的修正信息增益互不相等，选取最大修正信息增益对应的特征属性作为用于划分当前节点所包含数据集的特征属性。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

若所述计算得到的修正信息增益中包含相等的修正信息增益，确定所述相等的修正信息增益是否为最大修正信息增益；

若确定为是，则合并所述相等的修正信息增益对应的特征属性，得到合并特征属性，并将所述合并特征属性确定为用于划分当前节点所包含数据集的特征属性；

若确定为否，则选取最大修正信息增益对应的特征属性作为用于划分当前节点所包含数据集的特征属性。

4.根据权利要求1-3任一项所述方法，其特征在于，节点下信息增益最大且相等的特征属性的数量包括两个，分别当前节点所包含数据集中的第

个特征属性和第

个特征属性；

各特征属性对应的修正信息增益为相应信息增益与修正因子之积，第

个特征属性对应的修正因子由第

5.根据权利要求4所述的方法，其特征在于，所述第

6.根据权利要求1所述的方法，其特征在于，各节点下每个特征属性对应的信息增益通过如下公式计算得到：

其中，

表示训练数据集，

表示当前节点包含，的数据集中的第

个特征属性，

表示第

个特征属性下的信息增益，

表示决策树模型的根节点的信息熵，

表示在第

个特征属性下的第

个子节点所划分的数据子集包含的样本数量，

表示所述训练数据集包含的全部样本数量，

表示第

个特征属性下的第

个子节点的信息熵，

表示第

个特征属性下的子节点总数。

7.根据权利要求6所述的方法，其特征在于，所述决策树模型的根节点的信息熵

通过如下公式计算得到：

其中，

表示所述训练数据集中类别属性为第

个类别的样本占比，类别属性的类别总数为2。

8.根据权利要求6所述的方法，其特征在于，所述第

个特征属性下第

个子节点的信息熵

通过如下公式计算得到：

其中，

表示第

个特征属性下第

个子节点所划分的数据子集包含的样本占比。

9.根据权利要求1-3任一项所述的方法，其特征在于，在输出根据所述训练数据集所形成的决策树模型之后，所述方法还包括：

将输出的决策树模型作为待测试模型，输入测试数据集进行测试，得到所述待测试模型针对多个测试样本预测的分类结果；

根据得到的分类结果计算所述待测试模型的效果评估指标，所述效果评估指标包括准确率、查准率、查全率中的至少一种；

若所述效果评估指标指示所述待测试模型的模型效果达标，则将所述待测试模型作为最优的决策树模型。

10.一种基于决策树模型的数据推荐方法，其特征在于，所述方法包括：

获取待推荐的候选样本集合，每个候选样本包含多个特征信息；

根据如权利要求1-9中任一项方法所得到的决策树模型，预测每个候选样本为指定类别属性的概率；

将所述候选样本集合中的候选样本按照所述概率由大到小的顺序进行排序，并根据排序得到的结果选取目标候选样本进行推荐。

11.根据权利要求10所述的方法，其特征在于，所述候选样本集合包括由多首歌曲形成的样本集合，每首歌曲包含特征数值相同或特征数值差值小于预设阈值的特征信息。

12.一种决策树模型生成装置，其特征在于，所述装置包括：

数据集获取模块，配置为获取由多个训练样本的特征信息形成的训练数据集，每个训练样本已知类别属性，且每个训练样本的特征信息对应不同的特征属性；

模型生成模块，配置为在根据所述训练数据集生成决策树模型的过程中，迭代计算各节点下每个特征属性的信息增益，并根据最大信息增益对应的特征属性划分当前节点包含的数据集，以基于当前节点分裂形成多个子节点，直至根据节点包含的数据集能确定出类别属性；若当前节点下的多个特征属性的信息增益相等且为最大信息增益，则计算所述多个特征属性各自对应的修正信息增益，并根据计算得到的修正信息增益确定用于划分当前节点所包含数据集的特征属性；

模型输出模块，配置为输出根据所述训练数据集所形成的决策树模型。

13.一种基于决策树模型的数据推荐装置，其特征在于，所述装置包括：

样本集合获取模块，配置为获取待推荐的候选样本集合，每个候选样本包含多个特征信息；

概率预测模块，配置为根据如权利要求1-9中任一项方法所得到的决策树模型，预测每个候选样本为指定类别属性的概率；

样本推荐模块，配置为将所述候选样本集合中的候选样本按照概率由大到小的顺序进行排序，并根据排序得到的结果选取目标候选样本进行推荐。

14.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述电子设备实现如权利要求1-9或10-11中任一项所述的方法。

15.一种计算机可读存储介质，其特征在于，其上存储有计算机可读指令，当所述计算机可读指令被计算机的处理器执行时，使计算机执行权利要求1-9或10-11中任一项所述的方法。

16.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1-9或10-11中任一项所述的方法。