CN115759251A

CN115759251A - 一种决策树训练方法、装置、计算机设备以及存储介质

Info

Publication number: CN115759251A
Application number: CN202211509892.9A
Authority: CN
Inventors: 张翰林; 程刚
Original assignee: Qingdao University
Current assignee: Qingdao University
Priority date: 2022-11-29
Filing date: 2022-11-29
Publication date: 2023-03-07

Abstract

本发明公开了一种决策树训练方法、装置、计算机设备以及计算机可读存储介质，涉及计算机技术领域，其中方法包括：获取训练数据和属性；根据所述属性，从所述训练数据中分别提取样本集和样本子集；利用信息熵计算公式分别计算得到所述样本集和所述样本子集对应的信息熵；利用求和公式分别计算得到所述样本集和所述样本子集对应的权重总和；根据所述权重总和以及所述信息熵，通过计算得到所述属性的信息增益；根据所述信息增益，构建决策树。本发明通过根据样本集和样本子集的权重总和与信息熵，可以计算得到属性的信息增益的方式，相较于根据比例计算信息增益的方式，减少了需要计算比例的步骤，减少了数据量计算的同时提高了决策树训练的效率。

Description

一种决策树训练方法、装置、计算机设备以及存储介质

技术领域

本发明涉及计算机技术领域，特别涉及一种决策树训练方法、装置、计算机设备以及计算机可读存储介质。

背景技术

机器学习在日常生活中得到了广泛的应用，决策树算法如ID3、C4.5、CART等是经典的机器学习算法。作为一种监督学习算法，决策树的输入是包含属性值和分类结果的训练数据，输出是生成的决策树模型。训练的模型可以预测新数据的分类结果，模型的预测精度在很大程度上取决于训练数据的规模和质量，因此训练前的收集数据至关重要。为了更容易收集数据，增大数据集的规模，作为数据所有者的组织通常相互合作以获得更大的经济利润。

然而，在实际数据收集中，数据在许多场景中都会存在丢失属性值的问题，例如企业使用问卷进行数据收集，问卷中包含一些敏感数据如工资、病史等，有些用户选择提供私人数据，但有些用户拒绝提供私人数据，这导致用户提交的问卷数据不完整。目前有的处理缺失值的方法一种方法为处理和填充缺失的数据，使数据完整，以满足训练要求。但这种方式需要至少一方了解整个训练数据集，当数据集分布在多个参与者之间并且每个参与者都不想公开其数据时，这并不能解决数据隐私问题。另一种为丢弃这些属性不做采集，但是这样会造成数据集数量的减少，影响数据集质量导致训练模型预测精度降低。

发明内容

本发明的目的是提供一种决策树训练方法、装置、计算机设备以及计算机可读存储介质，通过根据样本集和样本子集的权重总和以及信息熵，可以计算得到属性的信息增益的方式，相较于之前根据比例计算信息增益的方式，减少了需要计算比例的步骤，减少了数据量计算的同时提高了决策树训练的效率。

依据本发明的一个方面，本发明提供了一种决策树训练方法，包括：

获取训练数据和属性；

根据所述属性，从所述训练数据中分别提取样本集和样本子集；

利用信息熵计算公式分别计算得到所述样本集和所述样本子集对应的信息熵；

利用求和公式分别计算得到所述样本集和所述样本子集对应的权重总和；

根据所述权重总和以及所述信息熵，通过计算得到所述属性的信息增益；

根据所述信息增益，构建决策树。

可选地，所述根据所述权重总和以及所述信息熵，通过计算得到所述属性的信息增益，包括：

将所述样本集的权重总和与信息熵相乘得到第一数值；

将所述样本子集的权重总和与信息熵相乘得到第二数值，将所有所述样本子集对应的第二数值相加得到第三数值；

将第一数值与第三数值相减得到所述属性的信息增益。

可选地，所述利用求和公式分别计算得到所述样本集和所述样本子集对应的权重总和之前，还包括：

分别设置所述样本集和所述样本子集中样本的权重。

可选地，所述根据所述属性，从所述训练数据中分别提取样本集和样本子集，包括：

根据所述属性，从所述训练数据中提取与所述属性对应的样本集；

根据所述属性的划分值，从所述样本集中提取与所述划分值对应的样本子集。

可选地，所述根据所述信息增益，构建决策树，包括：

对所有所述属性的信息增益进行排序；

确定与数值最大的所述信息增益对应的属性，将所述属性作为所述决策树的根节点；

根据所述信息增益，将与所述属性对应的属性值进行划分得到数据集，将所述数据集作为所述根节点的子节点。

可选地，所述获取训练数据之前，还包括：

利用复制秘密共享技术发送所述训练数据。

本发明提供一种数据处理方法，基于上述所述的一种决策树训练方法，包括：

获取数据信息；

利用训练的所述决策树对所述数据信息进行分析和预测，得到所述数据信息的分类结果和回归结果。

本发明提供一种决策树训练装置，其特征在于，包括：

获取模块，用于获取训练数据和属性；

提取模块，用于根据所述属性，从所述训练数据中分别提取样本集和样本子集；

第一计算模块，用于利用信息熵计算公式分别计算得到所述样本集和所述样本子集对应的信息熵；

第二计算模块，用于利用求和公式分别计算得到所述样本集和所述样本子集对应的权重总和；

信息增益计算模块，用于根据所述权重总和以及所述信息熵，通过计算得到所述属性的信息增益；

构建模块，用于根据所述信息增益，构建决策树。

本发明提供一种计算机设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上述所述的决策树训练方法。

本发明提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现如上述所述的决策树训练方法的步骤。

可见，本发明通过根据样本集和样本子集的权重总和以及信息熵，可以计算得到属性的信息增益的方式，相较于之前根据比例计算信息增益的方式，减少了需要计算比例的步骤，减少了数据量计算的同时提高了决策树训练的效率。本申请还提供一种决策树训练装置、计算机设备及计算机可读存储介质，具有上述有益效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例所提供的一种决策树训练方法的流程图；

图2为本发明实施例所提供的一种决策树训练装置的结构框图；

图3为本发明实施例所提供的一种计算机设备的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

鉴于此，本发明提供了一种决策树训练方法，通过根据样本集和样本子集的权重总和以及信息熵，可以计算得到属性的信息增益的方式，相较于之前根据比例计算信息增益的方式，减少了需要计算比例的步骤，减少了数据量计算的同时提高了决策树训练的效率。

下面进行详细介绍，请参考图1，图1为本发明实施例所提供的一种决策树训练方法的流程图，本发明实施例一种决策树训练方法可以包括：

步骤S101：获取训练数据和属性。

本发明实施例中属性可以分为连续属性和离散属性，其中连续属性为存在连续的数值，数值之间存在顺序关系例如身高，体重等，离散属性为存在有限或可数的数值例如性别等。

本发明实施例中训练数据为用来训练机器学习模型的数据集或者人为标注的数据集，需要说明的是，训练数据的内容可以根据不同的参与方，获取得到不同的数据集，其中，参与方的形式可以为机构，也可以为公司，本发明实施例中对此不做限制。例如若参与方为教育机构，获取训练数据的数据集可以为学生信息和科目信息等。

需要说明的是，本发明实施例中在获取训练数据之前，参与方可以利用复制秘密共享技术发送所述训练数据，提高数据的隐私性。本发明实施例中对参与方的数量不做限制，可以为存在三个参与方例如存在三方参与者参与的决策树训练，三方参与者在各自的计算机上部署数据即都可以是数据提供者，并且使用轻量级复制秘密共享技术提供训练数据，确保数据可用但不可见，再利用训练数据完成决策树训练后，将训练完成的决策树也利用复制秘密共享技术保存在三方参与者。具体的，本发明实施例中复制秘密共享技术可以为基于秘密共享值，生成随机值分给参与方，然后参与方根据随机值进行运算，保证数据的隐私性。例如若存在三方参与者，对于秘密值

2ⁿ为环模，随机生成三个随机值

且x＝x₁+x₂+x₃，将随机值分为三部分{(x₁,x₂),(x₂,x₃),(x₃,x₁)}，每个参与者都拥有一部分，例如参与方1有(x₁,x₂)，可以将这种秘密共享表示为[[x]]，参与方2有(x₂,x₃)，可以将这种秘密共享表示为[[y]]，参与方3有(x₃,x₁)，可以将这种秘密共享表示为[[z]]，然后参与方根据随机值进行加法和乘法运算，对于两个秘密值相加[[x]]+[[y]]，各方不需要相互通信，只需要本地计算[[x+y]]：＝{(x₁+y₁,x₂+y₂),(x₂+y₂,x₃+y₃),(x₃+y₃,x₁+y₁)}，若秘密值与常数相加[[x]]+c，只需要其中一个份额加上这个常数[[x]]+c：＝{(x₁+c,x₂),(x₂,x₃),(x₃,x₁+c)}。对于将秘密值与常数相乘，可以将每个份额与此常数相乘(c[[x]]：＝{(cx₁,cx₂),(cx₂,cx₃),(cx₃,cx1)})，对于两个秘密值的乘法运算[[x]]·[[y]]，各方需要交互才能完成，可以定义[[z]]＝[[xy]]，三个参与方计算相关随机性α,β,γ并且α+β+γ＝0。参与方1可以计算z₁＝x₁y₁+x₁y₂+x₂y₁+α并发送给参与方2，参与方2计算z₂＝x₂y₂+x₂y₃+x₃y₂+β并发送给参与方3，参与方3计算z₃＝x₃y₃+x₃y₁+x₁y₃+γ并发送给参与方1。

本发明实施例中通过利用复制秘密共享技术进行决策树训练，保护了数据的隐私，提高了决策树训练的安全性。

步骤S102：根据属性，从训练数据中分别提取样本集和样本子集。

本发明实施例中样本集为在属性上没有缺失值的样本集合，样本子集为在样本集中根据属性的划分值，提取的样本集合。其中，样本集和样本子集都可以包含一个或多个样本，本发明实施例中对此不做限制。需要说明的是，本发明实施例中可以先确定训练数据中是否存在与属性对应的属性值，若不存在则不根据属性进行提取，若存在则可以根据属性，从训练数据中提取与属性对应的样本集，然后根据所述属性的划分值，从所述样本集中提取与所述划分值对应的样本子集。例如存在如{a＝男}、{a＝男}、{a＝null}、{a＝女}、{a＝女}、{a＝女}的训练数据，其中a为表示性别的属性，可以判断训练数据中是否存在与属性对应的属性值，然后根据属性，从训练数据中提取与属性a对应的样本，得到包含{a＝男}、{a＝男}、{a＝女}、{a＝女}和{a＝女}的样本集，然后根据属性a存在男和女两个划分值根据划分值分别得到对应的样本子集，即从样本集中得到根据男划分的样本子集{a＝男}、{a＝男}和根据女划分的样本子集{a＝女}、{a＝女}和{a＝女}。

执行步骤S103：利用信息熵计算公式分别计算得到样本集和样本子集对应的信息熵。

本发明实施例中信息熵为度量样本集合纯度最常用的一种指标，可以利

用信息熵计算公式计算得到，公式如下：

其中，p_k(k∈{1,2,…,|y|})为集合D中第k类样本中所占的比例，Ent(D)表示D的信息熵，log为对数函数，需要将对数进行量化，将计算的对数值限定在[0.5,1),然后利用近似值生成对应的计算结果。

本发明实施例中可以根据上述公式，分别计算得到样本集和样本子集对应的信息熵，具体的例如本发明实施例中可以给定训练集D和属性a，令

表示中在属性a上没有缺失值的样本子集，可以假定属性a中有V个可取值{a¹,a²,...,a^V}，令

表示

中在属性a上取值为a^v的样本子集，利用公式，公式如下：

无缺失值样本中第k类所占的比例，

表示

中在属性a上取值为a^v的样本子集中第k类所占的比例。

执行步骤S104：利用求和公式分别计算得到样本集和样本子集对应的权重总和。得到权重总和后执行步骤S105：根据权重总和以及信息熵，通过计算得到属性的信息增益。

本发明实施例中权重总和为各个样本权重的总和，可以在计算权重总和之前，分别设置所述样本集和所述样本子集中样本的权重，本发明实施例中对设置的权重数值不做限制，可以为设计人员根据需求进行设置，也可以为根据具体的使用场景进行设置，例如可以为每个样本x赋予一个权重，在决策树训练的初始阶段，根节点中各样本的权重初始化为1。

本发明实施例中信息增益为一个统计量,用来描述一个属性区分数据样本的能力，可以根据权重总和以及信息熵，通过计算得到属性的信息增益，具体的本发明实施例中可以将样本集的权重总和与信息熵相乘得到第一数值，然后将样本子集的权重总和与信息熵相乘得到第二数值，将所有样本子集对应的第二数值相加得到第三数值，最后将第一数值与第三数值相减得到属性的信息增益，需要说明的是，可以通过公式表示上述过程，公式如下：

其中，x表示样本，

表示中在属性a上没有缺失值的样本集，V表示属性a中有V个可取值{a¹,a²,...,a^V}，

表示

中在属性a上取值为a^v的样本子集，

表示样本集

的权重总和，

表示

的信息熵，

表示样本子集

的权重总和，

表示

的信息熵，其中，通过

计算得到的数值为上述过程中的第一数值，通过

计算得到的数值为上述过程中的第二数值，通过

计算得到的数值为上述过程中的第三数值。

本发明实施例中通过对信息增益计算方式的改进，避免计算具体的样本比例，减少计算量的同时还支持了含有缺失属性值的数据参与训练，提高了训练决策树的效率。

步骤S106：根据信息增益，构建决策树。

本发明实施例中决策树是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。

本发明实施例中可以对所有属性的信息增益进行排序，确定与数值最大的信息增益对应的属性，将属性作为决策树的根节点，根据信息增益，将与属性对应的属性值进行划分得到数据集，将所述数据集作为所述根节点的子节点。具体的例如若存在离散属性性别的信息增益为0.8，连续属性身高的信息增益为0.9，连续属性包含160cm、170cm、175cm、180cm和190cm，比较两者信息增益的大小，提取连续属性作为决策树的根节点，若此时信息增益对应的划分点为175cm，则将数据集160cm、170cm和175cm作为左侧的子节点，将数据集180cm、190cm作为右侧的子节点，然后进入下一次迭代，构建决策树。

进一步，本发明实施例中还提供了一种数据处理方法，可以通过获取数据信息，然后利用训练的决策树对数据信息进行分析和预测，得到数据信息的分类结果和回归结果，实现对数据较为精准的预测。

基于上述实施例，本发明实施例提供了一种决策树训练方法，通过根据样本集和样本子集的权重总和以及信息熵，可以计算得到属性的信息增益的方式，相较于之前根据比例计算信息增益的方式，减少了需要计算比例的步骤，减少了数据量计算的同时提高了决策树训练的效率。

下面对本发明实施例所提供的一种决策树训练装置以及计算机设备进行介绍，下文描述的决策树训练装置以及计算机设备与上文描述的决策树训练方法可相互对应参照。

请参考图2，图2为本发明实施例所提供的一种决策树训练装置的结构框图，该装置可以包括：

获取模块10，用于获取训练数据和属性；

提取模块11，用于根据所述属性，从所述训练数据中分别提取样本集和样本子集；

第一计算模块12，用于利用信息熵计算公式分别计算得到所述样本集和所述样本子集对应的信息熵；

第二计算模块13，用于利用求和公式分别计算得到所述样本集和所述样本子集对应的权重总和；

信息增益计算模块14，用于根据所述权重总和以及所述信息熵，通过计算得到所述属性的信息增益；

构建模块15，用于根据所述信息增益，构建决策树。

基于上述实施例，所述获取模块10之前，还可以包括：

秘密共享模块，用于利用复制秘密共享技术发送所述训练数据。

基于上述任意实施例，所述提取模块11，可以包括：

第一提取模块，用于根据所述属性，从所述训练数据中提取与所述属性对应的样本集；

第二提取模块，用于根据所述属性的划分值，从所述样本集中提取与所述划分值对应的样本子集。

基于上述任意实施例，所述信息增益计算模块14，可以包括：

第一计算单元，用于将所述样本集的权重总和与信息熵相乘得到第一数值；

第二计算单元，用于将所述样本子集的权重总和与信息熵相乘得到第二数值，将所有所述样本子集对应的第二数值相加得到第三数值；

信息增益计算单元，用于将第一数值与第三数值相减得到所述属性的信息增益。

基于上述任意实施例，所述第二计算模块13之前，还可以包括：

设置模块，用于分别设置所述样本集和所述样本子集中样本的权重。

基于上述任意实施例，所述构建模块15，可以包括：

信息增益排序单元，用于对所有所述属性的信息增益进行排序；

判断单元，用于确定与数值最大的所述信息增益对应的属性，将所述属性作为所述决策树的根节点；

划分单元，用于根据所述信息增益，将与所述属性对应的属性值进行划分得到数据集，将所述数据集作为所述根节点的子节点。

本发明实施例中通过根据样本集和样本子集的权重总和以及信息熵，可以计算得到属性的信息增益的方式，相较于之前根据比例计算信息增益的方式，减少了需要计算比例的步骤，减少了数据量计算的同时提高了决策树训练的效率。

请参考图3，图3为本发明实施例所提供的一种计算机设备的结构框图，该计算机设备包括：

存储器10，用于存储计算机程序；

处理器20，用于执行所述计算机程序时，以实现上述的决策树训练方法。

如图3所示，为计算机设备的结构示意图，可以包括：存储器10、处理器20、通信接口31、输入输出接口32以及通信总线33。

在本发明实施例中，存储器10中用于存放一个或者一个以上程序，程序可以包括程序代码，程序代码包括计算机操作指令，在本申请实施例中，存储器10中可以存储有用于实现以下功能的程序：

获取训练数据和属性；

根据所述信息增益，构建决策树。

在一种可能的实现方式中，存储器10可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统，以及至少一个功能所需的应用程序等；存储数据区可存储使用过程中所创建的数据。

此外，存储器10可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据。存储器的一部分还可以包括NVRAM。存储器存储有操作系统和操作指令、可执行模块或者数据结构，或者它们的子集，或者它们的扩展集，其中，操作指令可包括各种操作指令，用于实现各种操作。操作系统可以包括各种系统程序，用于实现各种基础任务以及处理基于硬件的任务。

处理器20可以为中央处理器(Central Processing Unit，CPU)、特定应用集成电路、数字信号处理器、现场可编程门阵列或者其他可编程逻辑器件，处理器20可以是微处理器或者也可以是任何常规的处理器等。处理器20可以调用存储器10中存储的程序。

通信接口31可以为用于与其他设备或者系统连接的接口。

输入输出接口32可以为用于获取外界输入数据或向外界输出数据的接口。

当然，需要说明的是，图3所示的结构并不构成对本申请实施例中计算机设备的限定，在实际应用中计算机设备可以包括比图3所示的更多或更少的部件，或者组合某些部件。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机可执行指令，计算机可执行指令被处理器加载并执行时，实现获取训练数据和属性；根据所述属性，从所述训练数据中分别提取样本集和样本子集；利用信息熵计算公式分别计算得到所述样本集和所述样本子集对应的信息熵；利用求和公式分别计算得到所述样本集和所述样本子集对应的权重总和；根据所述权重总和以及所述信息熵，通过计算得到所述属性的信息增益；根据所述信息增益，构建决策树。本发明实施例中通过根据样本集和样本子集的权重总和以及信息熵，可以计算得到属性的信息增益的方式，相较于之前根据比例计算信息增益的方式，减少了需要计算比例的步骤，减少了数据量计算的同时提高了决策树训练的效率。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本发明所提供的一种决策树训练方法、装置、计算机设备以及存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种决策树训练方法，其特征在于，包括：

获取训练数据和属性；

根据所述信息增益，构建决策树。

2.如权利要求1所述的一种决策树训练方法，其特征在于，所述根据所述权重总和以及所述信息熵，通过计算得到所述属性的信息增益，包括：

将所述样本集的权重总和与信息熵相乘得到第一数值；

将第一数值与第三数值相减得到所述属性的信息增益。

3.如权利要求1所述的一种决策树训练方法，其特征在于，所述利用求和公式分别计算得到所述样本集和所述样本子集对应的权重总和之前，还包括：

分别设置所述样本集和所述样本子集中样本的权重。

4.如权利要求1所述的一种决策树训练方法，其特征在于，所述根据所述属性，从所述训练数据中分别提取样本集和样本子集，包括：

5.如权利要求1所述的一种决策树训练方法，其特征在于，所述根据所述信息增益，构建决策树，包括：

对所有所述属性的信息增益进行排序；

6.如权利要求1所述的一种决策树训练方法，其特征在于，所述获取训练数据之前，还包括：

利用复制秘密共享技术发送所述训练数据。

7.一种数据处理方法，其特征在于，基于上述权利要求1至6所述的一种决策树训练方法，包括：

获取数据信息；

8.一种决策树训练装置，其特征在于，包括：

获取模块，用于获取训练数据和属性；

构建模块，用于根据所述信息增益，构建决策树。

9.一种计算机设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至6任一项所述的决策树训练方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现如权利要求1至6任一项所述的决策树训练方法的步骤。