CN113516297A - 基于决策树模型的预测方法、装置和计算机设备 - Google Patents

基于决策树模型的预测方法、装置和计算机设备 Download PDF

Info

Publication number
CN113516297A
CN113516297A CN202110580543.5A CN202110580543A CN113516297A CN 113516297 A CN113516297 A CN 113516297A CN 202110580543 A CN202110580543 A CN 202110580543A CN 113516297 A CN113516297 A CN 113516297A
Authority
CN
China
Prior art keywords
decision tree
tree model
data set
target
training data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110580543.5A
Other languages
English (en)
Other versions
CN113516297B (zh
Inventor
林剑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An International Smart City Technology Co Ltd
Original Assignee
Ping An International Smart City Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An International Smart City Technology Co Ltd filed Critical Ping An International Smart City Technology Co Ltd
Priority to CN202110580543.5A priority Critical patent/CN113516297B/zh
Publication of CN113516297A publication Critical patent/CN113516297A/zh
Application granted granted Critical
Publication of CN113516297B publication Critical patent/CN113516297B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Abstract

本申请涉及人工智能领域,提供一种基于决策树模型的预测方法、装置、计算机设备和存储介质,方法包括:获取每个企业相关的影响特征数据;获取对应的每个企业的类别结果;基于影响特征数据与类别结果建立样本数据集;基于训练数据集训练决策树模型获得初始决策树模型;对初始决策树模型进行剪枝得到最优决策树模型;对最优决策树模型进行精度评估,在评估通过后,将最优决策树模型作为目标决策树模型;将待预测的影响特征数据输入至目标决策树模型内,以输出对应的目标预测类别结果。本申请能够有效地实现了对于企业是否产生环境卫生违法行为的准确预测。本申请还可以应用于区块链领域,上述目标预测类别结果等数据可以存储于区块链上。

Description

基于决策树模型的预测方法、装置和计算机设备
技术领域
本申请涉及人工智能技术领域,具体涉及一种基于决策树模型的预测方法、装置和计算机设备。
背景技术
工业园区是一个国家或区域的政府根据自身经济发展的内在要求,通过行政手段划出一块区域,聚集各种生产要素,在一定空间范围内进行科学整合,提高工业化的集约强度,突出产业特色,优化功能布局,使之成为适应市场竞争和产业升级的现代化产业分工协作生产区。
工业园区内的企业通常存在一定的环境卫生方面的问题,如废气、废水排放、垃圾随意倾倒和堆放、土壤污染等。很多环境卫生违法行为很难发现和排查,也很难预防。现有的排查企业是否产生环境卫生违法行为的方式,通常是由相关政府职能机构的监管人员对企业进行实地执法监督,这样的方式耗时耗力,缺乏智能性。且在政府职能机构进行执法监督后,部分企业仍然可能会出现再次违法的情况。因此,如何实现预测企业是否会产生环境卫生违法行为,成为了当前亟需解决的问题。
发明内容
本申请的主要目的为提供一种基于决策树模型的预测方法、装置、计算机设备和存储介质,旨在解决现有缺乏能够预测企业是否会产生环境卫生违法行为的实现手段的技术问题。
本申请提出一种基于决策树模型的预测方法,所述方法包括步骤:
分别获取与工业园区内每个企业的环境卫生违法行为相关的影响特征数据;
获取与各所述影响特征数据分别对应的每个所述企业的类别结果;
以所述影响特征数据作为自变量,以所述类别结果作为因变量,建立样本数据集,并按照预设比例将所述样本数据分为训练数据集、测试数据集与验证数据集;
基于所述训练数据集以及预设的决策树算法对预先建立的决策树模型进行训练,获得训练后的初始决策树模型;
基于所述测试数据集对所述初始决策树模型进行剪枝,得到对应的多个剪枝后的决策树模型,并基于交叉验证从所有所述剪枝后的决策树模型中选择出最优决策树模型;
基于所述验证数据集对所述最优决策树模型进行精度评估,并判断是否评估通过;
若评估通过,将所述最优决策树模型作为目标决策树模型;
将与目标企业对应的待预测的影响特征数据输入至所述目标决策树模型中,通过所述目标决策树模型输出与所述目标企业对应的目标预测类别结果;其中,所述目标企业为所述工业园区内包含的所有企业中的任意一企业。
可选地,所述基于所述训练数据集以及预设的决策树算法对预先建立的决策树模型进行训练,获得训练后的初始决策树模型的步骤,包括:
分别计算所述训练数据集中每一个影响特征为每一个特征值时所述训练数据集的第一基尼系数;
基于所有所述第一基尼系数,从所述训练数据集中包含的所有影响特征中筛选出第一基尼系数最小的第一影响特征,以及获取与所述第一影响特征对应的第一特征值;
将所述第一影响特征作为所述决策树模型的根节点,并将所述第一特征值作为所述根节点的切分点;
获取按照根节点的切分点划分的每个分支下的分支训练数据集;
分别计算所述分支训练数据集中每一个影响特征为每一个特征值时所述分支训练数据集的第二基尼系数;
基于所有所述第二基尼系数,从所述分支训练数据集中包含的所有影响特征中筛选出第二基尼系数最小的第二影响特征,以及获取与所述第二影响特征对应的第二特征值;
将所述第二影响特征作为每个分支的分裂节点,并将所述第二特征值作为分裂节点的切分点;
判断当前的决策树模型是否满足预设的停止建树条件;
若当前的决策树模型满足所述停止建树条件,将当前的决策树模型作为所述初始决策树模型;
若当前的决策树模型不满足所述停止建树条件,返回步骤“获取按照根节点的切分点划分的每个分支下的分支训练数据集”。
可选地,所述判断当前的决策树模型是否满足预设的停止建树条件的步骤,包括:
判断所有所述分裂节点的样本数量是否小于预设的最小数量阈值;
若所有所述分裂节点的样本数量小于所述最小数量阈值,判定当前的决策树模型满足停止建树条件;
若所有所述分裂节点的样本数量不小于所述最小数量阈值,判断当前的决策树模型的高度是否达到了预设的最大高度阈值;
若当前的决策树模型的高度达到了所述最大高度阈值,判定当前的决策树模型满足停止建树条件;
若当前的决策树模型的高度未达到所述最大高度阈值,判断所有所述分裂节点的数量是否达到了预设的最大数量阈值;
若所有所述分裂节点的数量达到了所述最大数量阈值,判定当前的决策树模型满足停止建树条件;
若所有所述分裂节点的数量未达到所述最大数量阈值,判定当前的决策树模型不满足停止建树条件。
可选地,所述分别计算所述训练数据集中每一个影响特征为每一个特征值时所述训练数据集的第一基尼系数的步骤,包括:
基于计算公式
Figure BDA0003085963670000041
计算所述训练数据集中影响特征A的取值为特征值a的条件下训练数据集的基尼系数;
其中,所述影响特征A为所述训练数据集中包含的所有影响特征中的任意一个影响特征,Gini()为基尼系数,D为训练数据集,Gini(D,A)为在影响特征A的取值为特征值a的条件下训练数据集D的基尼系数,D1、D2分别为训练数据集被特征值a分成的两个子集,|D1|为子集D1的样本数量,|D2|为子集D2的样本数量,|D|为训练数据集D的样本数量,Gini(D1)为子集D1的基尼系数,Gini(D2)为子集D2的基尼系数;其中,对于由训练数据集分成的子集Dx,x=1或2,子集Dx的样本数量为|Dx|,假设有K个类别,第k个类别的数量为|Ck|,则子集Dx的基尼系数的表达式为:
Figure BDA0003085963670000042
可选地,所述基于所述测试数据集对所述初始决策树模型进行剪枝,得到对应的多个剪枝后的决策树模型,并基于交叉验证从所有所述剪枝后的决策树模型中选择出最优决策树模型的步骤,包括:
将所述测试数据集中包含的所有数据输入至所述初始决策树模型内,并在所述所有数据进入所述初始决策树模型后,分别计算所述初始决策树模型内每一个节点的损失;
从所述初始决策树模型最下层的所有拥有子节点的节点开始,依次对每个节点的所有子节点依次遍历裁剪,并计算得到每个节点的新损失;
将每个节点的新损失与每个节点的损失进行大小比较,得到裁剪前后的损失大小比较结果;
基于所述损失大小比较结果,对所述初始决策树模型中进行剪枝后损失较小的节点枝节进行裁剪,在完成最下层裁剪后保存,并利用相同的方法自下而上进行裁剪,直到根节点为止;其中,在进行每一层剪枝后均会相应得到一个剪枝后的决策树模型;
从剪枝得到的所有所述剪枝后的决策树模型中筛选出损失最小的决策树模型;
将所述损失最小的决策树模型作为所述最优决策树模型。
可选地,所述基于所述验证数据集对所述最优决策树模型进行精度评估,并判断是否评估通过的步骤,包括:
将所述验证测试集中的每一组数据分别输入至所述最优决策树模型内,获取所述最优决策树模型输出的与所述每一组数据分别对应的预测类别结果;
基于所述验证测试集,从所有所述预测类别结果中筛选出正确的指定预测类别结果;
获取所述预测类别结果的第一数量,以及获取所述指定预测类别结果的第二数量;
计算所述第二数量与所述第一数量的比值;
判断所述比值是否大于预设的比值阈值;
若所述比值大于所述比值阈值,判定评估通过;
若所述比值不大于所述比值阈值,判定评估不通过。
可选地,所述将与目标企业对应的待预测的影响特征数据输入至所述目标决策树模型中,通过所述目标决策树模型输出与所述目标企业对应的目标预测类别结果的步骤之后,包括:
判断得到的所述目标预测类别结果是否为产生环境卫生违法行为;
若所述预测类别结果为产生环境卫生违法行为,获取与所述目标企业对应的企业信息;
基于所述企业信息与所述目标预测类别结果,生成对应的警报信息;
获取与目标用户对应的终端信息;
将所述警报信息发送至与所述终端信息对应的用户终端。
本申请还提供一种基于决策树模型的预测装置,包括:
第一获取模块,用于分别获取与工业园区内每个企业的环境卫生违法行为相关的影响特征数据;
第二获取模块,用于获取与各所述影响特征数据分别对应的每个所述企业的类别结果;
创建模块,用于以所述影响特征数据作为自变量,以所述类别结果作为因变量,建立样本数据集,并按照预设比例将所述样本数据分为训练数据集、测试数据集与验证数据集;
训练模块,用于基于所述训练数据集以及预设的决策树算法对预先建立的决策树模型进行训练,获得训练后的初始决策树模型;
筛选模块,用于基于所述测试数据集对所述初始决策树模型进行剪枝,得到对应的多个剪枝后的决策树模型,并基于交叉验证从所有所述剪枝后的决策树模型中选择出最优决策树模型;
评估模块,用于基于所述验证数据集对所述最优决策树模型进行精度评估,并判断是否评估通过;
确定模块,用于若评估通过,将所述最优决策树模型作为目标决策树模型;
预测模块,用于将与目标企业对应的待预测的影响特征数据输入至所述目标决策树模型中,通过所述目标决策树模型输出与所述目标企业对应的目标预测类别结果;其中,所述目标企业为所述工业园区内包含的所有企业中的任意一个企业。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
本申请中提供的基于决策树模型的预测方法、装置、计算机设备和存储介质,具有以下有益效果:
本申请中提供的基于决策树模型的预测方法、装置、计算机设备和存储介质,通过使用与工业园区内每个企业的环境卫生违法行为相关的影响特征数据,以及与各影响特征数据对应的每个企业所对应的类别结果建立样本数据集;然后基于该样本数据集中的训练数据集生成初始决策树模型;之后基于样本数据集中的测试数据集对初始决策树模型进行剪枝,并基于交叉验证从所有所述剪枝后的决策树模型中选择出目标决策树模型;后续基于该样本数据集中的验证数据集对所述最终决策树模型进行精度评估,并在精度评估通过后,将最终决策树模型作为目标决策树模型;最后使用目标决策树模型对输入的与目标企业对应的待预测的影响特征数据进行预测处理,输出与所述目标企业对应的目标预测类别结果,有效地实现了关于目标企业是否会产生环境卫生违法行为的准确预测。另外,目标决策树模型是基于测试数据集对初始决策树模型进行剪枝处理,以及基于验证数据集对所述最终决策树模型进行精度评估后生成的,使得生成的目标决策树模型具备较高的预测准确性,有效地保证了生成的目标预测类别结果的准确性。本方案可应用于智慧城市中的智慧环保领域,从而推动智慧城市的建设。
附图说明
图1是本申请一实施例的基于决策树模型的预测方法的流程示意图;
图2是本申请一实施例的基于决策树模型的预测装置的结构示意图;
图3是本申请一实施例的计算机设备的结构示意图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用于解释本申请,并不用于限定本申请。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本方案可应用于智慧城市中的智慧环保领域,从而推动智慧城市的建设。
参照图1,本申请一实施例的基于决策树模型的预测方法,包括:
S1:分别获取与工业园区内每个企业的环境卫生违法行为相关的影响特征数据;
S2:获取与各所述影响特征数据分别对应的每个所述企业的类别结果;
S3:以所述影响特征数据作为自变量,以所述类别结果作为因变量,建立样本数据集,并按照预设比例将所述样本数据分为训练数据集、测试数据集与验证数据集;
S4:基于所述训练数据集以及预设的决策树算法对预先建立的决策树模型进行训练,获得训练后的初始决策树模型;
S5:基于所述测试数据集对所述初始决策树模型进行剪枝,得到对应的多个剪枝后的决策树模型,并基于交叉验证从所有所述剪枝后的决策树模型中选择出最优决策树模型;
S6:基于所述验证数据集对所述最优决策树模型进行精度评估,并判断是否评估通过;
S7:若评估通过,将所述最优决策树模型作为目标决策树模型;
S8:将与目标企业对应的待预测的影响特征数据输入至所述目标决策树模型中,通过所述目标决策树模型输出与所述目标企业对应的目标预测类别结果;其中,所述目标企业为所述工业园区内包含的所有企业中的任意一个企业。
如上述步骤S1至S8所述,本方法实施例的执行主体为一种基于决策树模型的预测装置。在实际应用中,上述基于决策树模型的预测装置可以通过虚拟装置,例如软件代码实现,也可以通过写入或集成有相关执行代码的实体装置实现,且可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。本实施例中的基于决策树模型的预测装置,能够有效地实现了对于企业是否会产生环境卫生违法行为的准确预测。具体地,首先分别获取与工业园区内每个企业的环境卫生违法行为相关的影响特征数据。其中,上述工业园区可为任意一个工业园区。上述影响特征数据可包括预设时间周期内工业园区中每个企业的企业污染画像数据与企业外部行为数据。上述预设时间周期可根据实际需求进行确定,例如可为近半年内的时间段。企业污染画像数据可包括企业的生产经营数据(如原材料数据、辅助材料数据、产品上报数据)、污染排放数据、用电量数据、用水量数据等企业环境行为等数据,企业外部行为数据为与企业环境违法行为相关联的外部数据,可包括企业销售量数据、人员活动数据、天气数据等。另外,可从工业园区内每一个企业的污染台账信息、企业生产信息、企业环境违法信息等信息中提取出所需的影响特征数据。另外,影响特征数据的格式为包括影响特征以及影响特征所对应的特征值,影响特征的数量可包括多个。然后获取与各所述影响特征数据分别对应的每个所述企业的类别结果。其中,上述类别结果包括产生环境卫生违法行为以及未产生环境卫生违法行为。之后以所述影响特征数据作为自变量,以所述类别结果作为因变量,建立样本数据集,并按照预设比例将所述样本数据分为训练数据集、测试数据集与验证数据集。其中,对于上述预设比例的数值不做具体限定,可根据实际使用需求进行设置,例如可设置为6:2:2。
后续基于所述训练数据集以及预设的决策树算法对预先建立的决策树模型进行训练,获得训练后的初始决策树模型。其中,可先计算出训练数据集中每一个影响特征为每一个特征值时所述训练数据集的基尼系数,再选取基尼系数最小的影响特征作为初始决策树模型中的待确定节点,待确定节点可包括跟节点或分支的分裂节点,并将基尼系数最小的影响特征的特征值作为待确定节点的切分点,直至判断出当前的决策树模型满足了预设的停止建树条件后,将当前的决策树模型作为上述初始决策树模型。在得到了上述初始决策树模型后,基于所述测试数据集对所述初始决策树模型进行剪枝,得到对应的多个剪枝后的决策树模型,并基于交叉验证从所有所述剪枝后的决策树模型中选择出最优决策树模型。其中,通过测试数据集的数据对使用训练数据集递归建立的初始决策树模型进行剪枝的方法原理如下:对于一个固定的正则化参数α,在初始决策树T0中一定存在一颗树Tα使得损失函数Cα(T)最小。也就是每一个固定的α,都存在一颗相应的使得损失函数最小的树。这样不同的α会产生不同的最优树,于是在最优树未知的情况下,需要将α在其取值空间内划分为一系列区域,在每个区域都取一个α然后得到相应的最优树,最终选择损失函数最小的最优树作为最终决策树。
在得到了上述最优决策树模型后,基于所述验证数据集对所述最优决策树模型进行精度评估,并判断是否评估通过。其中,精度评估的过程可包括:先将所述验证测试集中的每一组数据分别输入至所述最终决策树模型内,获取所述最终决策树模型输出的与每一组数据分别对应的预测结果,再计算预测结果中包含的正确的预测结果与所有的预测结果的比值,如果该比值大于预设的比值阈值,则判定评估通过,否则判定评估不通过。若评估通过,将所述最优决策树模型作为目标决策树模型。其中,若评估未通过,即生成的最终决策树模型的精度不满足预设的精度要求,则需根据上述最终决策树模型的生成步骤重新生成新的最终决策树模型,并在新的最终决策树模型满足精度要求时将其作为目标决策树模型。最后将与目标企业对应的待预测的影响特征数据输入至所述目标决策树模型中,通过所述目标决策树模型输出与所述目标企业对应的目标预测类别结果。其中,所述目标企业为所述工业园区内包含的所有企业中的任意一个企业。
本实施例通过使用与工业园区内每个企业的环境卫生违法行为相关的影响特征数据,以及与各影响特征数据对应的每个企业所对应的类别结果建立样本数据集;然后基于该样本数据集中的训练数据集生成初始决策树模型;之后基于样本数据集中的测试数据集对初始决策树模型进行剪枝,并基于交叉验证从所有所述剪枝后的决策树模型中选择出目标决策树模型;后续基于该样本数据集中的验证数据集对所述最终决策树模型进行精度评估,并在精度评估通过后,将最终决策树模型作为目标决策树模型;最后使用目标决策树模型对输入的与目标企业对应的待预测的影响特征数据进行预测处理,输出与所述目标企业对应的目标预测类别结果,有效地实现了关于目标企业是否会产生环境卫生违法行为的准确预测。另外,目标决策树模型是基于测试数据集对初始决策树模型进行剪枝处理,以及基于验证数据集对所述最终决策树模型进行精度评估后生成的,使得生成的目标决策树模型具备较高的预测准确性,有效地保证了生成的目标预测类别结果的准确性。
进一步地,本申请一实施例中,上述步骤S4,包括:
S400:分别计算所述训练数据集中每一个影响特征为每一个特征值时所述训练数据集的第一基尼系数;
S401:基于所有所述第一基尼系数,从所述训练数据集中包含的所有影响特征中筛选出第一基尼系数最小的第一影响特征,以及获取与所述第一影响特征对应的第一特征值;
S402:将所述第一影响特征作为所述决策树模型的根节点,并将所述第一特征值作为所述根节点的切分点;
S403:获取按照根节点的切分点划分的每个分支下的分支训练数据集;
S404:分别计算所述分支训练数据集中每一个影响特征为每一个特征值时所述分支训练数据集的第二基尼系数;
S405:基于所有所述第二基尼系数,从所述分支训练数据集中包含的所有影响特征中筛选出第二基尼系数最小的第二影响特征,以及获取与所述第二影响特征对应的第二特征值;
S406:将所述第二影响特征作为每个分支的分裂节点,并将所述第二特征值作为分裂节点的切分点;
S407:判断当前的决策树模型是否满足预设的停止建树条件;
S408:若当前的决策树模型满足所述停止建树条件,将当前的决策树模型作为所述初始决策树模型;
S409:若当前的决策树模型不满足所述停止建树条件,返回步骤“获取按照根节点的切分点划分的每个分支下的分支训练数据集”。
如上述步骤S400至S409所述,所述基于所述训练数据集以及预设的决策树算法对预先建立的决策树模型进行训练,获得训练后的初始决策树模型的步骤,具体可包括:首先分别计算所述训练数据集中每一个影响特征为每一个特征值时所述训练数据集的第一基尼系数。其中,可基于预先配置的基尼系数计算公式来计算出第一基尼系数,详细计算过程可参阅后面相应实施例,在此不作赘述。然后基于所有所述第一基尼系数,从所述训练数据集中包含的所有影响特征中筛选出第一基尼系数最小的第一影响特征,以及获取与所述第一影响特征对应的第一特征值。并将所述第一影响特征作为所述决策树模型的根节点,并将所述第一特征值作为所述根节点的切分点。之后获取按照根节点的切分点划分的每个分支下的分支训练数据集。在得到了上述分支训练数据集后,分别计算所述分支训练数据集中每一个影响特征为每一个特征值时所述分支训练数据集的第二基尼系数。其中,同理可基于预先配置的基尼系数计算公式来计算出第二基尼系数。然后基于所有所述第二基尼系数,从所述分支训练数据集中包含的所有影响特征中筛选出第二基尼系数最小的第二影响特征,以及获取与所述第二影响特征对应的第二特征值。后续将所述第二影响特征作为每个分支的分裂节点,并将所述第二特征值作为分裂节点的切分点。最后判断当前的决策树模型是否满足预设的停止建树条件。其中,上述停止建树条件可包括所有分裂节点的样本数量小于预设的最小数量阈值;或者决策树模型的高度达到了预设的最大高度阈值;或者所有分裂节点的数量达到了预设的最大数量阈值。若当前的决策树模型满足所述停止建树条件,将当前的决策树模型作为所述初始决策树模型。而若当前的决策树模型不满足所述停止建树条件,返回步骤“获取按照根节点的切分点划分的每个分支下的分支训练数据集”。本实施例通过基于所述训练数据集以及预设的决策树算法对预先建立的决策树模型进行训练,可以实现快速智能地生成训练后的初始决策树模型,有利于后续基于该初始决策树模型进一步快速准确地生成相应的最优决策树模型。
进一步地,本申请一实施例中,上述步骤S407,包括:
S4070:判断所有所述分裂节点的样本数量是否小于预设的最小数量阈值;
S4071:若所有所述分裂节点的样本数量小于所述最小数量阈值,判定当前的决策树模型满足停止建树条件;
S4072:若所有所述分裂节点的样本数量不小于所述最小数量阈值,判断当前的决策树模型的高度是否达到了预设的最大高度阈值;
S4073:若当前的决策树模型的高度达到了所述最大高度阈值,判定当前的决策树模型满足停止建树条件;
S4074:若当前的决策树模型的高度未达到所述最大高度阈值,判断所有所述分裂节点的数量是否达到了预设的最大数量阈值;
S4075:若所有所述分裂节点的数量达到了所述最大数量阈值,判定当前的决策树模型满足停止建树条件;
S4076:若所有所述分裂节点的数量未达到所述最大数量阈值,判定当前的决策树模型不满足停止建树条件。
如上述步骤S4070至S4076所述,所述判断当前的决策树模型是否满足预设的停止建树条件的步骤,具体可包括:首先判断所有所述分裂节点的样本数量是否小于预设的最小数量阈值。其中,对于上述最小数量阈值的具体取值不作限定,可根据实际需求进行设置。若所有所述分裂节点的样本数量小于所述最小数量阈值,判定当前的决策树模型满足停止建树条件。若所有所述分裂节点的样本数量不小于所述最小数量阈值,则进一步判断当前的决策树模型的高度是否达到了预设的最大高度阈值。其中,对于上述最大高度阈值的具体取值不作限定,可根据实际需求进行设置。若当前的决策树模型的高度达到了所述最大高度阈值,判定当前的决策树模型满足停止建树条件。而若当前的决策树模型的高度未达到所述最大高度阈值,再判断所有所述分裂节点的数量是否达到了预设的最大数量阈值。其中,对于上述最大数量阈值的具体取值不作限定,可根据实际需求进行设置。若所有所述分裂节点的数量达到了所述最大数量阈值,判定当前的决策树模型满足停止建树条件。而若所有所述分裂节点的数量未达到所述最大数量阈值,判定当前的决策树模型不满足停止建树条件。本实施例只有判定出当前的决策树模型满足了预设的停止建树条件后,才会停止建树,并将当前的决策树模型作为初始决策树模型,保证了生成的初始决策树模型的准确性,有利于后续基于该初始决策树模型进一步快速准确地生成相应的最优决策树模型。
进一步地,本申请一实施例中,上述步骤S400,包括:
S4000:基于计算公式
Figure BDA0003085963670000141
计算所述训练数据集中影响特征A的取值为特征值a的条件下训练数据集的基尼系数;
其中,所述影响特征A为所述训练数据集中包含的所有影响特征中的任意一个影响特征,Gini()为基尼系数,D为训练数据集,Gini(D,A)为在影响特征A的取值为特征值a的条件下训练数据集D的基尼系数,D1、D2分别为训练数据集被特征值a分成的两个子集,|D1|为子集D1的样本数量,|D2|为子集D2的样本数量,|D|为训练数据集D的样本数量,Gini(D1)为子集D1的基尼系数,Gini(D2)为子集D2的基尼系数;其中,对于由训练数据集分成的子集Dx,x=1或2,子集Dx的样本数量为|Dx|,假设有K个类别,第k个类别的数量为|Ck|,则子集Dx的基尼系数的表达式为:
Figure BDA0003085963670000142
如上述步骤S4000所述,所述分别计算所述训练数据集中每一个影响特征为每一个特征值时所述训练数据集的第一基尼系数的步骤,具体可包括:基于计算公式
Figure BDA0003085963670000143
计算所述训练数据集中影响特征A的取值为特征值a的条件下训练数据集的基尼系数;其中,所述影响特征A为所述训练数据集中包含的所有影响特征中的任意一个影响特征,Gini()为基尼系数,D为训练数据集,Gini(D,A)为在影响特征A的取值为特征值a的条件下训练数据集D的基尼系数,D1、D2分别为训练数据集被特征值a分成的两个子集,|D1|为子集D1的样本数量,|D2|为子集D2的样本数量,|D|为训练数据集D的样本数量,Gini(D1)为子集D1的基尼系数,Gini(D2)为子集D2的基尼系数;另外,对于由训练数据集分成的子集Dx,x=1或2,子集Dx的样本数量为|Dx|,假设有K个类别,第k个类别的数量为|Ck|,则子集Dx的基尼系数的表达式为:
Figure BDA0003085963670000144
本实施例通过利用相关的基尼系数计算公式可以快速便捷地计算出所述训练数据集中每一个影响特征为每一个特征值时所述训练数据集的第一基尼系数,使得后续可以基于该第一基尼系数来准确地确定出决策树模型的根节点以及根节点的切分点,进而利用得到的根节点与根节点的切分点来快速的生成相应的初始决策树模型,有利于后续基于该初始决策树模型进一步快速准确地生成相应的最优决策树模型。
进一步地,本申请一实施例中,上述步骤S5,包括:
S500:将所述测试数据集中包含的所有数据输入至所述初始决策树模型内,并在所述所有数据进入所述初始决策树模型后,分别计算所述初始决策树模型内每一个节点的损失;
S501:从所述初始决策树模型最下层的所有拥有子节点的节点开始,依次对每个节点的所有子节点依次遍历裁剪,并计算得到每个节点的新损失;
S502:将每个节点的新损失与每个节点的损失进行大小比较,得到裁剪前后的损失大小比较结果;
S503:基于所述损失大小比较结果,对所述初始决策树模型中进行剪枝后损失较小的节点枝节进行裁剪,在完成最下层裁剪后保存,并利用相同的方法自下而上进行裁剪,直到根节点为止;其中,在进行每一层剪枝后均会相应得到一个剪枝后的决策树模型;
S504:从剪枝得到的所有所述剪枝后的决策树模型中筛选出损失最小的决策树模型;
S505:将所述损失最小的决策树模型作为所述最优决策树模型。
如上述步骤S500至S505所述,所述基于所述测试数据集对所述初始决策树模型进行剪枝,得到对应的多个剪枝后的决策树模型,并基于交叉验证从所有所述剪枝后的决策树模型中选择出最优决策树模型的步骤,具体可包括:首先将所述测试数据集中包含的所有数据输入至所述初始决策树模型内,并在所述所有数据进入所述初始决策树模型后,分别计算所述初始决策树模型内每一个节点的损失。其中,可基于如下损失函数计算公式计算损失:Cα(T)=C(T)+α|T|;其中,T为决策树中的任意一个节点,C(T)为节点对应的训练数据的预测误差,|T|为决策树的叶节点的数量,表示树的复杂度,α为正则化参数。然后从所述初始决策树模型最下层的所有拥有子节点的节点开始,依次对每个节点的所有子节点依次遍历裁剪,并计算得到每个节点的新损失。其中,每个节点的新损失同样使用上述损失函数计算公式计算得出。之后将每个节点的新损失与每个节点的损失进行大小比较,得到裁剪前后的损失大小比较结果。后续基于所述损失大小比较结果,对所述初始决策树模型中进行剪枝后损失较小的节点枝节进行裁剪,在完成最下层裁剪后保存,并利用相同的方法自下而上进行裁剪,直到根节点为止。其中,在进行每一层剪枝后均会相应得到一个剪枝后的决策树模型。最后从剪枝得到的所有所述剪枝后的决策树模型中筛选出损失最小的决策树模型,并将所述损失最小的决策树模型作为所述最优决策树模型。其中,通过测试数据集的数据对使用训练数据集递归建立的初始决策树模型进行剪枝的方法原理如下:对于一个固定的正则化参数α,在初始决策树T0中一定存在一颗树Tα使得损失函数Cα(T)最小。也就是每一个固定的α,都存在一颗相应的使得损失函数最小的树。这样不同的α会产生不同的最优树,于是在最优树未知的情况下,需要将α在其取值空间内划分为一系列区域,在每个区域都取一个α然后得到相应的最优树,最终选择损失函数最小的最优树作为最终决策树。本实施例通过对得到的初始决策树模型进行剪枝处理,并基于交叉验证从所有所述剪枝后的决策树模型中选择出最优决策树模型,有效地提升了得到的最优决策树模型的泛化性与准确性,以使得后续可以基于该最优决策树模型来精确的进行对于目标企业对应的待预测的影响特征数据的预测处理。
进一步地,本申请一实施例中,上述步骤S6,包括:
S600:将所述验证测试集中的每一组数据分别输入至所述最优决策树模型内,获取所述最优决策树模型输出的与所述每一组数据分别对应的预测类别结果;
S601:基于所述验证测试集,从所有所述预测类别结果中筛选出正确的指定预测类别结果;
S602:获取所述预测类别结果的第一数量,以及获取所述指定预测类别结果的第二数量;
S603:计算所述第二数量与所述第一数量的比值;
S604:判断所述比值是否大于预设的比值阈值;
S605:若所述比值大于所述比值阈值,判定评估通过;
S606:若所述比值不大于所述比值阈值,判定评估不通过。
如上述步骤S600至S606所述,所述基于所述验证数据集对所述最优决策树模型进行精度评估,并判断是否评估通过的步骤,具体可包括:首先将所述验证测试集中的每一组数据分别输入至所述最优决策树模型内,获取所述最优决策树模型输出的与所述每一组数据分别对应的预测类别结果。然后基于所述验证测试集,从所有所述预测类别结果中筛选出正确的指定预测类别结果。之后获取所述预测类别结果的第一数量,以及获取所述指定预测类别结果的第二数量。后续计算所述第二数量与所述第一数量的比值。最后判断所述比值是否大于预设的比值阈值。其中,对于上述比值阈值的具体取值不作限定,可根据实际需求进行确定,例如可设为0.95。若所述比值大于所述比值阈值,判定评估通过。而若所述比值不大于所述比值阈值,判定评估不通过。本实施例通过利用验证测试集对生成的最终决策树模型进行进一步的精度评估,并只有在最终决策树模型的预测精度满足设定的精度标准后,才会将该最终决策树模型作为用于后续进行预测处理的目标决策树模型,有效的保证了后续利用目标决策树模型进行对于待预测的影响特征数据的预测处理的准确性。
进一步地,本申请一实施例中,上述步骤S8之后,包括:
S800:判断得到的所述目标预测类别结果是否为产生环境卫生违法行为;
S801:若所述预测类别结果为产生环境卫生违法行为,获取与所述目标企业对应的企业信息;
S802:基于所述企业信息与所述目标预测类别结果,生成对应的警报信息;
S803:获取与目标用户对应的终端信息;
S804:将所述警报信息发送至与所述终端信息对应的用户终端。
如上述步骤S800至S804所述,当所述目标预测类别结果为产生环境卫生违法行为时,在执行完将与目标企业对应的待预测的影响特征数据输入至所述目标决策树模型中,通过所述目标决策树模型输出与所述目标企业对应的目标预测类别结果的步骤之后,还可包括基于目标预测类别结果生成对应的警报信息并发送给相应用户的过程。具体地,首先判断得到的所述目标预测类别结果是否为产生环境卫生违法行为。其中,当目标预测类别结果是否为产生环境卫生违法行为,可表明目标企业当前存在产生了环境卫生违法行为的可能性,或者已经产生了环境卫生违法行为。若所述预测类别结果为产生环境卫生违法行为,获取与所述目标企业对应的企业信息。然后基于所述企业信息与所述目标预测类别结果,生成对应的警报信息。其中,上述警报信息至少包括所述企业信息与所述预测类别结果。之后获取与目标用户对应的终端信息。其中,上述目标用户可为与环境卫生违法相关的政府职能机构的监管人员。最后将所述警报信息发送至与所述终端信息对应的用户终端。本实施例在获取了预测类别结果,且判定了该预测类别结果为具备环境卫生违法风险后,会智能地生成相应的警报信息,并将该警报信息发送至目标用户对应的用户终端,使得目标用户能够基于该警报信息及时了解到相关企业的具备环境卫生违法风险的信息,并及时作出相应处理,指导政府职能机构更好的开展执法工作,提前预防企业环境卫生违法行为的发生。
本申请实施例中的基于决策树模型的预测方法还可以应用于区块链领域,如将上述目标预测类别结果等数据存储于区块链上。通过使用区块链来对上述目标预测类别结果进行存储和管理,能够有效地保证上述目标预测类别结果的安全性与不可篡改性。
上述区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中,用户管理模块负责所有区块链参与者的身份信息管理,包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等,并且在授权的情况下,监管和审计某些真实身份的交易情况,提供风险控制的规则配置(风控审计);基础服务模块部署在所有区块链节点设备上,用来验证业务请求的有效性,并对有效请求完成共识后记录到存储上,对于一个新的业务请求,基础服务先对接口适配解析和鉴权处理(接口适配),然后通过共识算法将业务信息加密(共识管理),在加密之后完整一致的传输至共享账本上(网络通信),并进行记录存储;智能合约模块负责合约的注册发行以及合约触发和合约执行,开发人员可以通过某种编程语言定义合约逻辑,发布到区块链上(合约注册),根据合约条款的逻辑,调用密钥或者其它的事件触发执行,完成合约逻辑,同时还提供对合约升级注销的功能;运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出,例如:告警、监控网络情况、监控节点设备健康状态等。
参照图2,本申请一实施例中还提供了一种基于决策树模型的预测装置,包括:
第一获取模块1,用于分别获取与工业园区内每个企业的环境卫生违法行为相关的影响特征数据;
第二获取模块2,用于获取与各所述影响特征数据分别对应的每个所述企业的类别结果;
创建模块3,用于以所述影响特征数据作为自变量,以所述类别结果作为因变量,建立样本数据集,并按照预设比例将所述样本数据分为训练数据集、测试数据集与验证数据集;
训练模块4,用于基于所述训练数据集以及预设的决策树算法对预先建立的决策树模型进行训练,获得训练后的初始决策树模型;
筛选模块5,用于基于所述测试数据集对所述初始决策树模型进行剪枝,得到对应的多个剪枝后的决策树模型,并基于交叉验证从所有所述剪枝后的决策树模型中选择出最优决策树模型;
评估模块6,用于基于所述验证数据集对所述最优决策树模型进行精度评估,并判断是否评估通过;
确定模块7,用于若评估通过,将所述最优决策树模型作为目标决策树模型;
预测模块8,用于将与目标企业对应的待预测的影响特征数据输入至所述目标决策树模型中,通过所述目标决策树模型输出与所述目标企业对应的目标预测类别结果;其中,所述目标企业为所述工业园区内包含的所有企业中的任意一个企业。
本实施例中,上述基于决策树模型的预测装置中的第一获取模块1、第二获取模块2、创建模块3、训练模块4、筛选模块5、评估模块6、确定模块7与预测模块8的功能和作用的实现过程具体详见上述基于决策树模型的预测方法中对应步骤S1至S8的实现过程,在此不再赘述。
进一步地,本申请一实施例中,上述训练模块4,包括:
第一计算单元,用于分别计算所述训练数据集中每一个影响特征为每一个特征值时所述训练数据集的第一基尼系数;
第一筛选单元,用于基于所有所述第一基尼系数,从所述训练数据集中包含的所有影响特征中筛选出第一基尼系数最小的第一影响特征,以及获取与所述第一影响特征对应的第一特征值;
第一确定单元,用于将所述第一影响特征作为所述决策树模型的根节点,并将所述第一特征值作为所述根节点的切分点;
第一获取单元,用于获取按照根节点的切分点划分的每个分支下的分支训练数据集;
第二计算单元,用于分别计算所述分支训练数据集中每一个影响特征为每一个特征值时所述分支训练数据集的第二基尼系数;
第二筛选单元,用于基于所有所述第二基尼系数,从所述分支训练数据集中包含的所有影响特征中筛选出第二基尼系数最小的第二影响特征,以及获取与所述第二影响特征对应的第二特征值;
第二确定单元,用于将所述第二影响特征作为每个分支的分裂节点,并将所述第二特征值作为分裂节点的切分点;
第一判断单元,用于判断当前的决策树模型是否满足预设的停止建树条件;
第三确定单元,用于若当前的决策树模型满足所述停止建树条件,将当前的决策树模型作为所述初始决策树模型;
返回单元,用于若当前的决策树模型不满足所述停止建树条件,返回步骤“获取按照根节点的切分点划分的每个分支下的分支训练数据集”。
本实施例中,上述基于决策树模型的预测装置中的第一计算单元、第一筛选单元、第一确定单元、第一获取单元、第二计算单元、第二筛选单元、第二确定单元、第一判断单元、第三确定单元与返回单元的功能和作用的实现过程具体详见上述基于决策树模型的预测方法中对应步骤S400至S409的实现过程,在此不再赘述。
进一步地,本申请一实施例中,上述第一判断单元,包括:
第一判断子单元,用于判断所有所述分裂节点的样本数量是否小于预设的最小数量阈值;
第一判定子单元,用于若所有所述分裂节点的样本数量小于所述最小数量阈值,判定当前的决策树模型满足停止建树条件;
第二判断子单元,用于若所有所述分裂节点的样本数量不小于所述最小数量阈值,判断当前的决策树模型的高度是否达到了预设的最大高度阈值;
第二判定子单元,用于若当前的决策树模型的高度达到了所述最大高度阈值,判定当前的决策树模型满足停止建树条件;
第三判断子单元,用于若当前的决策树模型的高度未达到所述最大高度阈值,判断所有所述分裂节点的数量是否达到了预设的最大数量阈值;
第三判定子单元,用于若所有所述分裂节点的数量达到了所述最大数量阈值,判定当前的决策树模型满足停止建树条件;
第四判定子单元,用于若所有所述分裂节点的数量未达到所述最大数量阈值,判定当前的决策树模型不满足停止建树条件。
本实施例中,上述基于决策树模型的预测装置中的第一判断子单元、第一判定子单元、第二判断子单元、第二判定子单元、第三判断子单元、第三判定子单元与第四判定子单元的功能和作用的实现过程具体详见上述基于决策树模型的预测方法中对应步骤S4070至S4076的实现过程,在此不再赘述。
进一步地,本申请一实施例中,上述第一计算单元,包括:
计算子单元,用于基于计算公式
Figure BDA0003085963670000221
计算所述训练数据集中影响特征A的取值为特征值a的条件下训练数据集的基尼系数;
其中,所述影响特征A为所述训练数据集中包含的所有影响特征中的任意一个影响特征,Gini()为基尼系数,D为训练数据集,Gini(D,A)为在影响特征A的取值为特征值a的条件下训练数据集D的基尼系数,D1、D2分别为训练数据集被特征值a分成的两个子集,|D1|为子集D1的样本数量,|D2|为子集D2的样本数量,|D|为训练数据集D的样本数量,Gini(D1)为子集D1的基尼系数,Gini(D2)为子集D2的基尼系数;其中,对于由训练数据集分成的子集Dx,x=1或2,子集Dx的样本数量为|Dx|,假设有K个类别,第k个类别的数量为|Ck|,则子集Dx的基尼系数的表达式为:
Figure BDA0003085963670000222
本实施例中,上述基于决策树模型的预测装置中的计算子单元的功能和作用的实现过程具体详见上述基于决策树模型的预测方法中对应步骤S4000的实现过程,在此不再赘述。
进一步地,本申请一实施例中,上述筛选模块5,包括:
第三计算单元,用于将所述测试数据集中包含的所有数据输入至所述初始决策树模型内,并在所述所有数据进入所述初始决策树模型后,分别计算所述初始决策树模型内每一个节点的损失;
第四计算单元,用于从所述初始决策树模型最下层的所有拥有子节点的节点开始,依次对每个节点的所有子节点依次遍历裁剪,并计算得到每个节点的新损失;
比较单元,用于将每个节点的新损失与每个节点的损失进行大小比较,得到裁剪前后的损失大小比较结果;
处理单元,用于基于所述损失大小比较结果,对所述初始决策树模型中进行剪枝后损失较小的节点枝节进行裁剪,在完成最下层裁剪后保存,并利用相同的方法自下而上进行裁剪,直到根节点为止;其中,在进行每一层剪枝后均会相应得到一个剪枝后的决策树模型;
第三筛选单元,用于从剪枝得到的所有所述剪枝后的决策树模型中筛选出损失最小的决策树模型;
第四确定单元,用于将所述损失最小的决策树模型作为所述最优决策树模型。
本实施例中,上述基于决策树模型的预测装置中的第三计算单元、第四计算单元、比较单元、处理单元、第三筛选单元与第四确定单元的功能和作用的实现过程具体详见上述基于决策树模型的预测方法中对应步骤S500至S505的实现过程,在此不再赘述。
进一步地,本申请一实施例中,上述评估模块6,包括:
第二获取单元,用于将所述验证测试集中的每一组数据分别输入至所述最优决策树模型内,获取所述最优决策树模型输出的与所述每一组数据分别对应的预测类别结果;
第四筛选单元,用于基于所述验证测试集,从所有所述预测类别结果中筛选出正确的指定预测类别结果;
第三获取单元,用于获取所述预测类别结果的第一数量,以及获取所述指定预测类别结果的第二数量;
第五计算单元,用于计算所述第二数量与所述第一数量的比值;
判断单元,用于判断所述比值是否大于预设的比值阈值;
第一判定单元,用于若所述比值大于所述比值阈值,判定评估通过;
第二判定单元,用于若所述比值不大于所述比值阈值,判定评估不通过。
本实施例中,上述基于决策树模型的预测装置中的第二获取单元、第四筛选单元、第三获取单元、第五计算单元、判断单元、第一判定单元与第二判定单元的功能和作用的实现过程具体详见上述基于决策树模型的预测方法中对应步骤S600至S606的实现过程,在此不再赘述。
进一步地,本申请一实施例中,上述基于决策树模型的预测装置,包括:
判断模块,用于判断得到的所述目标预测类别结果是否为产生环境卫生违法行为;
第三获取模块,用于若所述预测类别结果为产生环境卫生违法行为,获取与所述目标企业对应的企业信息;
生成模块,用于基于所述企业信息与所述目标预测类别结果,生成对应的警报信息;
第四获取模块,用于获取与目标用户对应的终端信息;
发送模块,用于将所述警报信息发送至与所述终端信息对应的用户终端。
本实施例中,上述基于决策树模型的预测装置中的判断模块、第三获取模块、生成模块、第四获取模块与发送模块的功能和作用的实现过程具体详见上述基于决策树模型的预测方法中对应步骤S800至S804的实现过程,在此不再赘述。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏、输入装置和数据库。其中,该计算机设备设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括存储介质、内存储器。该存储介质存储有操作系统、计算机程序和数据库。该内存储器为存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储影响特征数据、类别结果、样本数据集、初始决策树模型、最优决策树模型、目标决策树模型以及目标预测类别结果。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机设备的显示屏是计算机中必不可少的一种图文输出设备,用于将数字信号转换为光信号,使文字与图形在显示屏的屏幕上显示出来。该计算机设备的输入装置是计算机与用户或其他设备之间进行信息交换的主要装置,用于把数据、指令及某些标志信息等输送到计算机中去。该计算机程序被处理器执行时以实现一种基于决策树模型的预测方法。
上述处理器执行上述基于决策树模型的预测方法的步骤:
分别获取与工业园区内每个企业的环境卫生违法行为相关的影响特征数据;
获取与各所述影响特征数据分别对应的每个所述企业的类别结果;
以所述影响特征数据作为自变量,以所述类别结果作为因变量,建立样本数据集,并按照预设比例将所述样本数据分为训练数据集、测试数据集与验证数据集;
基于所述训练数据集以及预设的决策树算法对预先建立的决策树模型进行训练,获得训练后的初始决策树模型;
基于所述测试数据集对所述初始决策树模型进行剪枝,得到对应的多个剪枝后的决策树模型,并基于交叉验证从所有所述剪枝后的决策树模型中选择出最优决策树模型;
基于所述验证数据集对所述最优决策树模型进行精度评估,并判断是否评估通过;
若评估通过,将所述最优决策树模型作为目标决策树模型;
将与目标企业对应的待预测的影响特征数据输入至所述目标决策树模型中,通过所述目标决策树模型输出与所述目标企业对应的目标预测类别结果;其中,所述目标企业为所述工业园区内包含的所有企业中的任意一个企业。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的装置、计算机设备的限定。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种基于决策树模型的预测方法,具体为:
分别获取与工业园区内每个企业的环境卫生违法行为相关的影响特征数据;
获取与各所述影响特征数据分别对应的每个所述企业的类别结果;
以所述影响特征数据作为自变量,以所述类别结果作为因变量,建立样本数据集,并按照预设比例将所述样本数据分为训练数据集、测试数据集与验证数据集;
基于所述训练数据集以及预设的决策树算法对预先建立的决策树模型进行训练,获得训练后的初始决策树模型;
基于所述测试数据集对所述初始决策树模型进行剪枝,得到对应的多个剪枝后的决策树模型,并基于交叉验证从所有所述剪枝后的决策树模型中选择出最优决策树模型;
基于所述验证数据集对所述最优决策树模型进行精度评估,并判断是否评估通过;
若评估通过,将所述最优决策树模型作为目标决策树模型;
将与目标企业对应的待预测的影响特征数据输入至所述目标决策树模型中,通过所述目标决策树模型输出与所述目标企业对应的目标预测类别结果;其中,所述目标企业为所述工业园区内包含的所有企业中的任意一个企业。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM通过多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种基于决策树模型的预测方法,其特征在于,包括:
分别获取与工业园区内每个企业的环境卫生违法行为相关的影响特征数据;
获取与各所述影响特征数据分别对应的每个所述企业的类别结果;
以所述影响特征数据作为自变量,以所述类别结果作为因变量,建立样本数据集,并按照预设比例将所述样本数据分为训练数据集、测试数据集与验证数据集;
基于所述训练数据集以及预设的决策树算法对预先建立的决策树模型进行训练,获得训练后的初始决策树模型;
基于所述测试数据集对所述初始决策树模型进行剪枝,得到对应的多个剪枝后的决策树模型,并基于交叉验证从所有所述剪枝后的决策树模型中选择出最优决策树模型;
基于所述验证数据集对所述最优决策树模型进行精度评估,并判断是否评估通过;
若评估通过,将所述最优决策树模型作为目标决策树模型;
将与目标企业对应的待预测的影响特征数据输入至所述目标决策树模型中,通过所述目标决策树模型输出与所述目标企业对应的目标预测类别结果;其中,所述目标企业为所述工业园区内包含的所有企业中的任意一个企业。
2.根据权利要求1所述的基于决策树模型的预测方法,其特征在于,所述基于所述训练数据集以及预设的决策树算法对预先建立的决策树模型进行训练,获得训练后的初始决策树模型的步骤,包括:
分别计算所述训练数据集中每一个影响特征为每一个特征值时所述训练数据集的第一基尼系数;
基于所有所述第一基尼系数,从所述训练数据集中包含的所有影响特征中筛选出第一基尼系数最小的第一影响特征,以及获取与所述第一影响特征对应的第一特征值;
基于所有所述第一基尼系数,从所述训练数据集中包含的所有影响特征中筛选出第一基尼系数最小的第一影响特征,以及获取与所述第一影响特征对应的第一特征值;
将所述第一影响特征作为所述决策树模型的根节点,并将所述第一特征值作为所述根节点的切分点;
获取按照根节点的切分点划分的每个分支下的分支训练数据集;
分别计算所述分支训练数据集中每一个影响特征为每一个特征值时所述分支训练数据集的第二基尼系数;
基于所有所述第二基尼系数,从所述分支训练数据集中包含的所有影响特征中筛选出第二基尼系数最小的第二影响特征,以及获取与所述第二影响特征对应的第二特征值;
将所述第二影响特征作为每个分支的分裂节点,并将所述第二特征值作为分裂节点的切分点;
判断当前的决策树模型是否满足预设的停止建树条件;
若当前的决策树模型满足所述停止建树条件,将当前的决策树模型作为所述初始决策树模型;
若当前的决策树模型不满足所述停止建树条件,返回步骤“获取按照根节点的切分点划分的每个分支下的分支训练数据集”。
3.根据权利要求2所述的基于决策树模型的预测方法,其特征在于,所述判断当前的决策树模型是否满足预设的停止建树条件的步骤,包括:
判断所有所述分裂节点的样本数量是否小于预设的最小数量阈值;
若所有所述分裂节点的样本数量小于所述最小数量阈值,判定当前的决策树模型满足停止建树条件;
若所有所述分裂节点的样本数量不小于所述最小数量阈值,判断当前的决策树模型的高度是否达到了预设的最大高度阈值;
若当前的决策树模型的高度达到了所述最大高度阈值,判定当前的决策树模型满足停止建树条件;
若当前的决策树模型的高度未达到所述最大高度阈值,判断所有所述分裂节点的数量是否达到了预设的最大数量阈值;
若所有所述分裂节点的数量达到了所述最大数量阈值,判定当前的决策树模型满足停止建树条件;
若所有所述分裂节点的数量未达到所述最大数量阈值,判定当前的决策树模型不满足停止建树条件。
4.根据权利要求2所述的基于决策树模型的预测方法,其特征在于,所述分别计算所述训练数据集中每一个影响特征为每一个特征值时所述训练数据集的第一基尼系数的步骤,包括:
基于计算公式
Figure FDA0003085963660000031
计算所述训练数据集中影响特征A的取值为特征值a的条件下训练数据集的基尼系数;
其中,所述影响特征A为所述训练数据集中包含的所有影响特征中的任意一个影响特征,Gini()为基尼系数,D为训练数据集,Gini(D,A)为在影响特征A的取值为特征值a的条件下训练数据集D的基尼系数,D1、D2分别为训练数据集被特征值a分成的两个子集,|D1|为子集D1的样本数量,|D2|为子集D2的样本数量,|D|为训练数据集D的样本数量,Gini(D1)为子集D1的基尼系数,Gini(D2)为子集D2的基尼系数;其中,对于由训练数据集分成的子集Dx,x=1或2,子集Dx的样本数量为|Dx|,假设有K个类别,第k个类别的数量为|Ck|,则子集Dx的基尼系数的表达式为:
Figure FDA0003085963660000032
5.根据权利要求1所述的基于决策树模型的预测方法,其特征在于,所述基于所述测试数据集对所述初始决策树模型进行剪枝,得到对应的多个剪枝后的决策树模型,并基于交叉验证从所有所述剪枝后的决策树模型中选择出最优决策树模型的步骤,包括:
将所述测试数据集中包含的所有数据输入至所述初始决策树模型内,并在所述所有数据进入所述初始决策树模型后,分别计算所述初始决策树模型内每一个节点的损失;
从所述初始决策树模型最下层的所有拥有子节点的节点开始,依次对每个节点的所有子节点依次遍历裁剪,并计算得到每个节点的新损失;
将每个节点的新损失与每个节点的损失进行大小比较,得到裁剪前后的损失大小比较结果;
基于所述损失大小比较结果,对所述初始决策树模型中进行剪枝后损失较小的节点枝节进行裁剪,在完成最下层裁剪后保存,并利用相同的方法自下而上进行裁剪,直到根节点为止;其中,在进行每一层剪枝后均会相应得到一个剪枝后的决策树模型;
从剪枝得到的所有所述剪枝后的决策树模型中筛选出损失最小的决策树模型;
将所述损失最小的决策树模型作为所述最优决策树模型。
6.根据权利要求1所述的基于决策树模型的预测方法,其特征在于,所述基于所述验证数据集对所述最优决策树模型进行精度评估,并判断是否评估通过的步骤,包括:
将所述验证测试集中的每一组数据分别输入至所述最优决策树模型内,获取所述最优决策树模型输出的与所述每一组数据分别对应的预测类别结果;
基于所述验证测试集,从所有所述预测类别结果中筛选出正确的指定预测类别结果;
获取所述预测类别结果的第一数量,以及获取所述指定预测类别结果的第二数量;
计算所述第二数量与所述第一数量的比值;
判断所述比值是否大于预设的比值阈值;
若所述比值大于所述比值阈值,判定评估通过;
若所述比值不大于所述比值阈值,判定评估不通过。
7.根据权利要求1所述的基于决策树模型的预测方法,其特征在于,所述将与目标企业对应的待预测的影响特征数据输入至所述目标决策树模型中,通过所述目标决策树模型输出与所述目标企业对应的目标预测类别结果的步骤之后,包括:
判断得到的所述目标预测类别结果是否为产生环境卫生违法行为;
若所述预测类别结果为产生环境卫生违法行为,获取与所述目标企业对应的企业信息;
基于所述企业信息与所述目标预测类别结果,生成对应的警报信息;
获取与目标用户对应的终端信息;
将所述警报信息发送至与所述终端信息对应的用户终端。
8.一种基于决策树模型的预测装置,其特征在于,包括:
第一获取模块,用于分别获取与工业园区内每个企业的环境卫生违法行为相关的影响特征数据;
第二获取模块,用于获取与各所述影响特征数据分别对应的每个所述企业的类别结果;
创建模块,用于以所述影响特征数据作为自变量,以所述类别结果作为因变量,建立样本数据集,并按照预设比例将所述样本数据分为训练数据集、测试数据集与验证数据集;
训练模块,用于基于所述训练数据集以及预设的决策树算法对预先建立的决策树模型进行训练,获得训练后的初始决策树模型;
筛选模块,用于基于所述测试数据集对所述初始决策树模型进行剪枝,得到对应的多个剪枝后的决策树模型,并基于交叉验证从所有所述剪枝后的决策树模型中选择出最优决策树模型;
评估模块,用于基于所述验证数据集对所述最优决策树模型进行精度评估,并判断是否评估通过;
确定模块,用于若评估通过,将所述最优决策树模型作为目标决策树模型;
预测模块,用于将与目标企业对应的待预测的影响特征数据输入至所述目标决策树模型中,通过所述目标决策树模型输出与所述目标企业对应的目标预测类别结果;其中,所述目标企业为所述工业园区内包含的所有企业中的任意一个企业。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202110580543.5A 2021-05-26 2021-05-26 基于决策树模型的预测方法、装置和计算机设备 Active CN113516297B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110580543.5A CN113516297B (zh) 2021-05-26 2021-05-26 基于决策树模型的预测方法、装置和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110580543.5A CN113516297B (zh) 2021-05-26 2021-05-26 基于决策树模型的预测方法、装置和计算机设备

Publications (2)

Publication Number Publication Date
CN113516297A true CN113516297A (zh) 2021-10-19
CN113516297B CN113516297B (zh) 2024-03-19

Family

ID=78064916

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110580543.5A Active CN113516297B (zh) 2021-05-26 2021-05-26 基于决策树模型的预测方法、装置和计算机设备

Country Status (1)

Country Link
CN (1) CN113516297B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114139636A (zh) * 2021-12-03 2022-03-04 中国建设银行股份有限公司 异常作业处理方法及装置
CN114422620A (zh) * 2021-12-20 2022-04-29 鹏城实验室 一种基于知识蒸馏的数据包分类方法及相关装置
CN114462167A (zh) * 2022-03-02 2022-05-10 中车大连机车研究所有限公司 一种铁路用双列圆锥滚子轴承轴向游隙合套评估方法
CN114496209A (zh) * 2022-02-18 2022-05-13 青岛市中心血站 一种献血智能决策方法及系统
CN114528946A (zh) * 2021-12-16 2022-05-24 浙江省新型互联网交换中心有限责任公司 一种自治域系统同胞关系识别方法
CN114580792A (zh) * 2022-04-28 2022-06-03 深圳丰尚智慧农牧科技有限公司 膨化机工作状态识别方法、装置、计算机设备、存储介质
CN115295145A (zh) * 2022-06-29 2022-11-04 国家卫生健康委科学技术研究所 遗传性代谢病的预测方法、装置和设备
CN115602282A (zh) * 2022-09-23 2023-01-13 北京华益精点生物技术有限公司(Cn) 血糖监测的指导方法及相关设备
CN115639327A (zh) * 2022-12-21 2023-01-24 南方电网数字电网研究院有限公司 基于油浸式套管气体检测的套管故障检测方法和装置
CN116010688A (zh) * 2022-12-12 2023-04-25 和元达信息科技有限公司 一种用户行为标签识别方法、系统、设备及存储介质
CN116187524A (zh) * 2022-12-19 2023-05-30 物产中大数字科技有限公司 一种基于机器学习的供应链分析模型对比方法及装置
WO2023134072A1 (zh) * 2022-01-11 2023-07-20 平安科技(深圳)有限公司 违约预测模型的生成方法、装置、设备及存储介质
CN116861204A (zh) * 2023-09-05 2023-10-10 山东山森数控技术有限公司 基于数字孪生的智能制造设备数据管理系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160078361A1 (en) * 2014-09-11 2016-03-17 Amazon Technologies, Inc. Optimized training of linear machine learning models
US20180308019A1 (en) * 2017-04-20 2018-10-25 Capital One Services, Llc Machine learning artificial intelligence system for predicting hours of operation
CN109685635A (zh) * 2018-09-11 2019-04-26 深圳平安财富宝投资咨询有限公司 金融业务的风险评估方法、风控服务端及存储介质
CN110909786A (zh) * 2019-11-19 2020-03-24 江苏方天电力技术有限公司 一种基于特性指标与决策树模型的新装用户负荷辨识方法
CN111291097A (zh) * 2020-05-08 2020-06-16 西南石油大学 一种基于决策树数据挖掘的钻井漏层位置实时预测方法
CN112547807A (zh) * 2020-10-30 2021-03-26 北京科技大学 一种基于决策树算法的热轧带钢质量精准判定方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160078361A1 (en) * 2014-09-11 2016-03-17 Amazon Technologies, Inc. Optimized training of linear machine learning models
US20180308019A1 (en) * 2017-04-20 2018-10-25 Capital One Services, Llc Machine learning artificial intelligence system for predicting hours of operation
CN109685635A (zh) * 2018-09-11 2019-04-26 深圳平安财富宝投资咨询有限公司 金融业务的风险评估方法、风控服务端及存储介质
CN110909786A (zh) * 2019-11-19 2020-03-24 江苏方天电力技术有限公司 一种基于特性指标与决策树模型的新装用户负荷辨识方法
CN111291097A (zh) * 2020-05-08 2020-06-16 西南石油大学 一种基于决策树数据挖掘的钻井漏层位置实时预测方法
CN112547807A (zh) * 2020-10-30 2021-03-26 北京科技大学 一种基于决策树算法的热轧带钢质量精准判定方法

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114139636A (zh) * 2021-12-03 2022-03-04 中国建设银行股份有限公司 异常作业处理方法及装置
CN114139636B (zh) * 2021-12-03 2024-04-30 中国建设银行股份有限公司 异常作业处理方法及装置
CN114528946A (zh) * 2021-12-16 2022-05-24 浙江省新型互联网交换中心有限责任公司 一种自治域系统同胞关系识别方法
CN114422620A (zh) * 2021-12-20 2022-04-29 鹏城实验室 一种基于知识蒸馏的数据包分类方法及相关装置
CN114422620B (zh) * 2021-12-20 2023-12-01 鹏城实验室 一种基于知识蒸馏的数据包分类方法及相关装置
WO2023134072A1 (zh) * 2022-01-11 2023-07-20 平安科技(深圳)有限公司 违约预测模型的生成方法、装置、设备及存储介质
CN114496209A (zh) * 2022-02-18 2022-05-13 青岛市中心血站 一种献血智能决策方法及系统
CN114496209B (zh) * 2022-02-18 2022-09-27 青岛市中心血站 一种献血智能决策方法及系统
CN114462167A (zh) * 2022-03-02 2022-05-10 中车大连机车研究所有限公司 一种铁路用双列圆锥滚子轴承轴向游隙合套评估方法
CN114462167B (zh) * 2022-03-02 2022-08-26 中车大连机车研究所有限公司 一种铁路用双列圆锥滚子轴承轴向游隙合套评估方法
CN114580792A (zh) * 2022-04-28 2022-06-03 深圳丰尚智慧农牧科技有限公司 膨化机工作状态识别方法、装置、计算机设备、存储介质
CN115295145A (zh) * 2022-06-29 2022-11-04 国家卫生健康委科学技术研究所 遗传性代谢病的预测方法、装置和设备
CN115602282A (zh) * 2022-09-23 2023-01-13 北京华益精点生物技术有限公司(Cn) 血糖监测的指导方法及相关设备
CN116010688A (zh) * 2022-12-12 2023-04-25 和元达信息科技有限公司 一种用户行为标签识别方法、系统、设备及存储介质
CN116187524A (zh) * 2022-12-19 2023-05-30 物产中大数字科技有限公司 一种基于机器学习的供应链分析模型对比方法及装置
CN116187524B (zh) * 2022-12-19 2023-08-25 物产中大数字科技有限公司 一种基于机器学习的供应链分析模型对比方法及装置
CN115639327A (zh) * 2022-12-21 2023-01-24 南方电网数字电网研究院有限公司 基于油浸式套管气体检测的套管故障检测方法和装置
CN116861204A (zh) * 2023-09-05 2023-10-10 山东山森数控技术有限公司 基于数字孪生的智能制造设备数据管理系统
CN116861204B (zh) * 2023-09-05 2023-12-08 山东山森数控技术有限公司 基于数字孪生的智能制造设备数据管理系统

Also Published As

Publication number Publication date
CN113516297B (zh) 2024-03-19

Similar Documents

Publication Publication Date Title
CN113516297A (zh) 基于决策树模型的预测方法、装置和计算机设备
Elfaki et al. Using intelligent techniques in construction project cost estimation: 10-year survey
CN112347310A (zh) 事件处理信息的查询方法、装置、计算机设备和存储介质
CN112527630A (zh) 测试用例生成方法、装置、计算机设备和存储介质
CN112329865A (zh) 基于自编码器的数据异常识别方法、装置和计算机设备
CN113742776A (zh) 基于生物识别技术的数据校验方法、装置和计算机设备
CN113282514A (zh) 问题数据的处理方法、装置、计算机设备和存储介质
CN112163131A (zh) 业务数据查询平台的配置方法、装置、计算机设备及介质
CN112328482A (zh) 基于脚本模板的测试方法、装置、计算机设备和存储介质
CN110009224A (zh) 嫌疑人违规概率预测方法、装置、计算机设备及存储介质
Calver et al. Comparative analysis of statistical and catchment modelling approaches to river flood frequency estimation
CN114978968B (zh) 微服务的异常检测方法、装置、计算机设备和存储介质
CN114817055A (zh) 基于接口的回归测试方法、装置、计算机设备和存储介质
CN113327037A (zh) 基于模型的风险识别方法、装置、计算机设备和存储介质
CN114237886A (zh) 任务处理方法、装置、计算机设备和存储介质
CN113626285A (zh) 基于模型的作业监控方法、装置、计算机设备和存储介质
CN113672654A (zh) 数据查询方法、装置、计算机设备和存储介质
CN112965981A (zh) 数据核对方法、装置、计算机设备和存储介质
CN113535260B (zh) 基于模拟器的数据处理方法、装置、设备及存储介质
CN113177396B (zh) 报表生成方法、装置、计算机设备和存储介质
CN113077185B (zh) 工作量评估方法、装置、计算机设备和存储介质
CN112650659B (zh) 埋点设置方法、装置、计算机设备和存储介质
CN114547053A (zh) 基于系统的数据处理方法、装置、计算机设备和存储介质
CN114625621A (zh) 性能测试方法、装置、计算机设备和存储介质
CN113627551A (zh) 基于多模型的证件分类方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant