CN112085157A

CN112085157A - 基于神经网络和树模型的预测模型建立方法及其装置

Info

Publication number: CN112085157A
Application number: CN202010699932.5A
Authority: CN
Inventors: 孙立锐; 阮佳程
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2020-07-20
Filing date: 2020-07-20
Publication date: 2020-12-15
Anticipated expiration: 2040-07-20
Also published as: CN112085157B

Abstract

本发明公开了一种基于神经网络和树模型的预测模型建立方法及其装置，该方法包括获取数据集，对所述数据集进行预处理得到预处理数据集，并将所述预处理数据集分为训练数据集和测试数据集；根据预设神经网络模型和预设树模型构建神经网络树模型，根据所述神经网络树模型构建神经网络随机森林模型；将所述训练数据集输入至所述神经网络随机森林模型进行模型训练；将所述测试数据集输入至训练结束后的神经网络随机森林模型进行模型验证。本发明提供的基于神经网络和树模型的预测模型建立方法，将神经网络与树模型相结合得到神经网络随机森林模型，通过神经网络随机森林模型进行相关预测，不仅提高了预测的准确度，也提高了预测的效率。

Description

基于神经网络和树模型的预测模型建立方法及其装置

技术领域

本发明属于机器学习算法与大数据技术领域，具体涉及一种基于神经网络和树模型的预测模型建立方法及其装置。

背景技术

随着大数据与人工智能(Artificial Intelligence，简称AI)领域的发展，“AI+”的概念逐渐扩展到众多领域。医疗行业也不例外，“AI+医疗”也是当下人工智能研究的重要领域。

医疗行业每天都会产生大量的数据，诸如患者的化验单数据、电子病历数据等等，而这些大量数据对于疾病预测方面有着重要的价值。机器学习算法让这些医疗数据有了应用的价值，它可以帮助患者进行疾病的预测。但是传统的机器学习算法应用在医疗数据集中，不仅准确率较低，而且算法运行速度还较慢。诸如：传统的神经网络算法，虽然准确率较高，但是运行速度却较慢；传统的树模型算法，虽然运行速度较快，但是准确率却较低。

发明内容

为了解决现有技术中存在的上述问题，本发明提供了一种基于神经网络和树模型的预测模型建立方法及其装置。

本发明的一个实施例提供了一种基于神经网络和树模型的预测模型建立方法，该基于神经网络和树模型的预测模型建立方法包括：

获取数据集，对所述数据集进行预处理得到预处理数据集，并将所述预处理数据集分为训练数据集和测试数据集；

根据预设神经网络模型和预设树模型构建神经网络树模型，根据所述神经网络树模型构建神经网络随机森林模型；

将所述训练数据集输入至所述神经网络随机森林模型进行模型训练；

将所述测试数据集输入至训练结束后的神经网络随机森林模型进行模型验证。

在本发明的一个实施例中，对所述数据集进行预处理得到预处理数据集包括：

对所述数据集进行数据清洗；

将数据清洗后的数据集中文字型数据转化为数值型数据；

计算每个所述数值型数据的相关性，并选择所述相关性大于或等于第一预设阈值的数值型数据形成所述预处理数据集。

在本发明的一个实施例中，所述预设神经网络模型包括输入层、输出层，以及位于所述输入层与所述输出层之间的若干层隐藏层，每一层所述隐藏层包括若干神经元节点，所述预设神经网络模型中隐藏层和神经元节点的集合表示为：

H＝{(h₁,n₁),(h₂,n₂),…,(h_n,n_n)}；

其中，H表示预设神经网络模型中隐藏层和神经元节点的集合，h_n表示第n层隐藏层，n_n表示隐藏层h_n里有n_n个神经元节点。

在本发明的一个实施例中，根据预设神经网络模型和预设树模型构建神经网络树模型包括：

将所述预设神经网络模型中输出层的神经元节点、每一层隐藏层的若干神经元节点均替换为所述预设树模型得到所述神经网络树模型。

在本发明的一个实施例中，所述预设树模型包括决策树模型、GBDT模型、XGBoost模型和AdaBoost模型。

在本发明的一个实施例中，根据所述神经网络树模型构建神经网络随机森林模型包括：

采用voting/averaging方法对若干所述神经网络树模型进行组合得到所述神经网络随机森林模型。

在本发明的一个实施例中，所述方法还包括：

若验证结果小于第二预设阈值，通过网格搜索方法优化所述训练结束后的神经网络随机森林模型。

本发明的又一实施例提供了一种基于神经网络和树模型的预测模型建立装置，包括：

数据获取及处理模块，用于获取数据集，对所述数据集进行预处理得到预处理数据集，并将所述预处理数据集分为训练数据集和测试数据集；

数据模型构建模块，用于根据预设神经网络模型和预设树模型构建神经网络树模型，根据所述神经网络树模型构建神经网络随机森林模型；

数据模型训练模块，用于将所述训练数据集输入至所述神经网络随机森林模型进行模型训练；

数据模型验证模块，用于将所述测试数据集输入至训练结束后的神经网络随机森林模型进行模型验证。

在本发明的一个实施例中，所述装置还包括：

数据模型优化模块，用于若验证结果小于第二预设阈值，通过网格搜索方法优化所述训练结束后的神经网络随机森林模型。

与现有技术相比，本发明的有益效果：

本发明提供的基于神经网络和树模型的预测模型建立方法，将神经网络与树模型相结合得到神经网络随机森林模型，通过神经网络随机森林模型进行相关预测，比如疾病预测，不仅提高了相关预测的准确度，也提高了相关预测的效率。

以下将结合附图及实施例对本发明做进一步详细说明。

附图说明

图1为本发明实施例提供的一种基于神经网络和树模型的预测模型建立方法的流程示意图；

图2为本发明实施例提供的一种基于神经网络和树模型的预测模型建立方法中神经网络随机森林模型构建过程的结构示意图；

图3为本发明实施例提供的一种基于神经网络和树模型的预测模型建立方法中神经网络随机森林模型构建过程的结构一实例示意图；

图4为本发明实施例提供的一种基于神经网络和树模型的预测模型建立方法中神经网络随机森林模型训练过程一实例示意图；

图5为本发明实施例提供的又一种基于神经网络和树模型的预测模型建立方法的流程示意图；

图6为本发明实施例提供的一种基于神经网络和树模型的预测模型建立装置的结构示意图；

图7为本发明实施例提供的又一种基于神经网络和树模型的预测模型建立方法的流程示意图。

具体实施方式

下面结合具体实施例对本发明做进一步详细的描述，但本发明的实施方式不限于此。

实施例一

为了兼顾预测模型的预测准确度和预测效率，请参见图1，图1为本发明实施例提供的一种基于神经网络和树模型的预测模型建立方法的流程示意图。本发明实施例提供了一种基于神经网络和树模型的预测模型建立方法，该基于神经网络和树模型的预测模型建立方法包括以下步骤：

步骤1、获取数据集，对数据集进行预处理得到预处理数据集，并将预处理数据集分为训练数据集和测试数据集。

具体而言，本实施例从数据库中获取需要的数据集，比如本实施例数据库具体为UCI官网的糖尿病数据库，从UCI官网上获取到糖尿病数据集，共768例数据，其中500人没有患病，268人患有疾病。

对数据集进行预处理得到预处理数据集具体包括步骤1.1、步骤1.2、步骤1.3：

步骤1.1、对数据集进行数据清洗。

具体而言，本实施例根据应用场景需求，对数据集进行数据清洗，即将数据集中的异常数据进行剔除，比如身体质量指数(Body Mass Index,简称BMI)为1000，则表示此类数据为异常数据，应被剔除，剔除数据集中所有的异常数据。剔除异常数据后，对缺失的数据进行填补操作：若缺失数据为连续型变量，则使用均值填补缺失值；若缺失数据为分类型变量，则使用众数填补缺失值。

步骤1.2、将数据清洗后的数据集中文字型数据转化为数值型数据。

具体而言，本实施例对数据清洗后的数据集中数据类型进行转化，具体地，将文字型数据转化为数值型数据，即将数据集中含有文字型数据转化为数值型数量，比如：将“阳性/阴性”转化为“1/-1”，将“是/否”转化为“1/0”，将“患有糖尿病/未患有糖尿病”转化为“1/0”。转为数值型数据后，再将所有整形的数值型数据转化为浮点型的数值型数据。

步骤1.3、计算每个数值型数据的相关性，并选择相关性大于或等于第一预设阈值的数值型数据形成预处理数据集。

具体而言，本实施例依据相关性对每个数值型数据进行筛选，具体地：采用皮尔逊相关系数对每个数值型数据进行皮尔逊系数相关性计算，得到基于皮尔逊系数的相关性矩阵，删去与目标数据相关性小于第一预设阈值的数值型数据，由相关性大于或等于第一预设阈值的数值型数据形成预处理数据集。比如，本实施例基于皮尔逊系数的相关性对每个数值型数据进行筛选，留下与目标疾病(比如糖尿病)相关性较大的特征，删去与目标疾病相关性较小的特征，最终可以形成分别为：“Pregnancies”、“Glucose”、“SkinThickness”、“Insulin”、“BMI”、“Age”一共6个特征属性形成的预处理数据集。其中，第一预设阈值根据实际需要进行设置，本实施例第一预设阈值取值为0.2。

本实施例将预处理数据集划分为训练数据集和测试数据集，分别用于后续的训练和测试，具体本实施例将数据集以7：3的比例分为训练数据集和测试数据集。

步骤2、根据预设神经网络模型和预设树模型构建神经网络树模型，根据神经网络树模型构建神经网络随机森林模型。

具体而言，请参见图2，图2为本发明实施例提供的一种基于神经网络和树模型的预测模型建立方法中神经网络随机森林模型构建过程的结构示意图，由图2中的STEP1可见，本实施例预设神经网络模型(Neural Network，简称NN)包括输入层、输出层，以及位于输入层与输出层之间的若干层隐藏层，输入层、输出层各包括一个神经元节点，每一层隐藏层包括若干神经元节点，则预设神经网络模型NN中隐藏层和神经元节点的集合表示为：

H＝{(h₁,n₁),(h₂,n₂),…,(h_n,n_n)}；

其中，H表示预设神经网络模型中隐藏层和神经元节点的集合，h_n表示第n层隐藏层，n_n表示隐藏层h_n里有n_n个神经元节点。请参见图3，图3为本发明实施例提供的一种基于神经网络和树模型的预测模型建立方法中神经网络随机森林模型构建过程的结构一实例示意图，由图3中的STEP1可见，本实施例预设神经网络模型NN为[1，2，3，1]结构，即输入层、输出层均为一个神经元节点，第一层隐藏层为两个神经元节点，第二层隐藏层为三个神经元节点。

本实施例将图2中的STEP1、图3中的STEP1所示的预设神经网络模型NN中输出层的神经元节点、每一层隐藏层的若干神经元节点均替换为预设树模型Tree(输入层的神经元节点不需要替换)，得到如图2中的STEP2、图3中的STEP2所示的神经网络树模型(NeuralNetwork Tree，简称NNT)。其中，预设树模型Tree包括决策树模型、梯度提升决策树模型(Gradient Boosting Decision Tree，简称GBDT)、极限梯度提升模型(eXtreme GradientBoosting，简称XGBoost)和自适应提升模型(Adaptive Boosting，简称AdaBoost)，本实施例优选替换的预设树模型Tree均为基本决策树单元模型，后续简称决策树。

之后，本实施例根据神经网络树模型NNT构建神经网络随机森林模型NNRF，具体如图2中的STEP3、图3中的STEP3所示，神经网络随机森林模型(Neural NetworkRandomForest，简称NNRF)由n个神经网络树模型NNT组成，n为大于0的整数，NNT_n表示第n个神经网络树模型NNT，并采用voting/averaging方法对n个神经网络树模型NNT的输出进行组合得到神经网络随机森林模型NNRF的输出。其中，若当前预测为分类问题，则使用voting投票法(即“少数服从多数”)进行组合，若当前预测为回归问题，则使用averaging(平均法)进行组合。

需要说明的是，本实施例预设神经网络模型中神经元节点替换的预设树模型可相同，可不相同，神经网络随机森林模型NNRF中若干神经网络树模型可相同，可不相同，具体根据实际需要进行选择。

步骤3、将训练数据集输入至神经网络随机森林模型NNRF进行模型训练。

具体而言，本实施例将步骤1得到的训练数据集输入至步骤2构建得到神经网络随机森林模型NNRF进行训练，本实施例以神经网络随机森林模型NNRF中第n个神经网络树模型NNT_n为例，在神经网络树模型NNT_n中包括输入层、输出层，以及位于输入层与输出层之间的n层隐藏层，比如第n层隐藏层h_n有n_n个神经元节点，即对应有n_n棵决策树，请再参见图2或图3，将每一棵决策树的输出作为新的特征向量，并与第n层隐藏层h_n的输入进行向量拼接操作后作为下一层隐藏层的输入，直到获得输出层的输出作为神经网络随机森林模型NNRF的输出，具体的训练过程如下：

请参见图4，图4为本发明实施例提供的一种基于神经网络和树模型的预测模型建立方法中神经网络随机森林模型训练过程一实例示意图，将训练数据集，即Input，分别输入至第一层隐藏层的两棵决策树中进行训练，训练完成后，将Input与两个决策树分别输出的向量进行拼接操作，将拼接结果整体作为下一层隐藏层的输入，即Input1；将Input1分别输入至第二层隐藏层的三棵决策树中进行训练，训练完成后，将Input1与三棵决策树分别输出的向量进行拼接操作，将拼接结果整体作为输出层的输入，即Input2；将Input2输入至输出层的决策树中进行训练，训练完成后得到该神经网络树模型NNT的输出。

对神经网络随机森林模型NNRF中每一个神经网络树模型NNT进行上述训练过程，得到n个Output_i，i＝1,2,…,n，通过voting/averaging方法对n个Output_i进行组合得到神经网络随机森林模型NNRF的最终输出，具体地：如图3中STEP3，根据上述方法训练3个神经网络树模型(NNT₁、NNT₂、NNT₃)，训练结束后得到3个输出——分别是Output_1、Output_2、Output_3，以当前预测为分类问题为例，将3个神经网络树模型进行voting组合，从而得到神经网络随机森林模型NNRF的输出Output。

步骤4、将测试数据集输入至训练结束后的神经网络随机森林模型NNRF进行模型验证。

具体而言，通过步骤1得到的测试数据集验证步骤3训练结束后的神经网络随机森林模型NNRF的效果，对训练结束后的神经网络随机森林模型NNRF进行模型验证评估得到模型验证结果，该模型验证结果将表明本实施例通过步骤3训练得到的神经网络随机森林模型NNRF是否为最优模型，具体地，本实施例根据实际需要设置有第二预设阈值，判断模型验证结果是否小于第二预设阈值，若模型验证结果小于第二预设阈值，则表明此时训练结束后的神经网络随机森林模型NNRF非最优模型，可以进行进一步地优化处理，若模型验证结果大于或等于第二预设阈值，表明此时训练结束后的神经网络随机森林模型NNRF可以作为最优模型，无需进行优化处理，直接用于后续目标疾病的预测。其中，第二预设阈值定义为测试数据集对应模型验证结果准确率，本实施例第二预设阈值设置为75％。

步骤5、若模型验证结果小于第二预设阈值，通过网格搜索方法优化训练结束后的神经网络随机森林模型NNRF。

具体而言，请参见图5，图5为本发明实施例提供的又一种基于神经网络和树模型的预测模型建立方法的流程示意图，本实施例对于步骤4中模型验证结果小于第二预设阈值的情况，即训练结束后的神经网络随机森林模型NNRF非最优模型，本实施例通过网格搜索方法来优化训练结束后的神经网络随机森林模型NNRF的参数，得到最优参数对应的神经网络随机森林模型NNRF，将此时的神经网络随机森林模型NNRF用于后续目标疾病的预测。

为了验证本实施例提出的基于神经网络和树模型的预测模型建立方法的有效性，本实施例除了使用本申请提出的NNRF外，还使用了传统的人工神经网络模型和传统随机森林模型作为对比试验，评估指标为模型的预测准确度和模型的运行时间，具体评估结果如表1所示。

表1模型预测评估结果

模型	预测准确率	模型运行时间/s
			NNRF	78.2％	0.02
人工神经网络	76.1％	0.98
			随机森林	74.8％	0.45

通过表1可见，本申请NNRF模型相比人工神经网络模型、随机森林模型，不仅在预测准确率有所提升，而且大幅减小了模型运行时间，提高了模型预测的效率。

综上所述，本实施例提供的基于神经网络和树模型的预测模型建立方法，获取数据集并进行数据预处理，之后依据相关性进行数据筛选，并将筛选的数据集划分为训练数据集/测试数据集；将预设神经网络模型NN中的神经元节点(除输入层的神经元节点)替换成决策树从而得到神经网络树模型NNT，再由若干神经网络树模型NNT通过voting/averaging构建神经网络随机森林模型NNRF；将训练数据集输入至神经网络随机森林模型NNRF进行模型训练得到训练结束后的神经网络随机森林模型NNRF；最后使用测试数据集验证该训练结束后的神经网络随机森林模型NNRF的效果，根据效果再使用网格搜索方法来进一步优化该训练结束后的神经网络随机森林模型NNRF。本实施例提供的基于神经网络和树模型的预测模型建立方法，建立的神经网络随机森林模型NNRF结合了神经网络模型和树模型的优势，该模型不仅在预测准确率有所提升，而且大幅减小了模型运行时间，提高了模型预测的效率。

实施例二

在上述实施例一的基础上，请参见图6，图6为本发明实施例提供的一种基于神经网络和树模型的预测模型建立装置的结构示意图，本实施例提供了一种基于神经网络和树模型的预测模型建立装置，该基于神经网络和树模型的预测模型建立装置包括：

数据获取及处理模块，用于获取数据集，对数据集进行预处理得到预处理数据集，并将预处理数据集分为训练数据集和测试数据集。

具体而言，本实施例数据获取及处理模块中对数据集进行预处理得到预处理数据集包括：

对数据集进行数据清洗；

将数据清洗后的数据集中文字型数据转化为数值型数据；

计算每个数值型数据的相关性，并选择相关性大于或等于第一预设阈值的数值型数据形成预处理数据集。

数据模型构建模块，用于根据预设神经网络模型和预设树模型构建神经网络树模型，根据神经网络树模型构建神经网络随机森林模型。

具体而言，本实施例数据模型构建模块中预设神经网络模型包括输入层、输出层，以及位于输入层与输出层之间的若干层隐藏层，每一个隐藏层包括若干神经元节点，预设神经网络模型中隐藏层和神经元节点的集合表示为：

H＝{(h₁,n₁),(h₂,n₂),…,(h_n,n_n)}；

进一步地，本实施例根据预设神经网络模型和预设树模型构建神经网络树模型包括：

将预设神经网络模型中输出层的神经元节点、每一层隐藏层的若干神经元节点均替换为预设树模型得到神经网络树模型。其中，预设树模型包括决策树模型、GBDT模型、XGBoost模型和AdaBoost模型。

进一步地，本实施例根据神经网络树模型构建神经网络随机森林模型包括：

采用voting/averaging方法对若干神经网络树模型进行组合得到神经网络随机森林模型。

数据模型训练模块，用于将训练数据集输入至神经网络随机森林模型进行模型训练。

数据模型验证模块，用于将测试数据集输入至训练结束后的神经网络随机森林模型进行模型验证。

进一步地，请参见图7，图7为本发明实施例提供的又一种基于神经网络和树模型的预测模型建立方法的流程示意图，本实施例基于神经网络和树模型的预测模型建立装置还包括：

数据模型优化模块，用于若模型验证结果小于第二预设阈值，通过网格搜索方法优化训练结束后的神经网络随机森林模型。

本实施例提供的基于神经网络和树模型的预测模型建立装置，可以执行上述实施例一所述的基于神经网络和树模型的预测模型建立方法实施例，其实现原理和技术效果类似，在此不再赘述

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于神经网络和树模型的预测模型建立方法，其特征在于，包括：

2.根据权利要求1所述的基于神经网络和树模型的预测模型建立方法，其特征在于，对所述数据集进行预处理得到预处理数据集包括：

对所述数据集进行数据清洗；

将数据清洗后的数据集中文字型数据转化为数值型数据；

3.根据权利要求1所述的基于神经网络和树模型的预测模型建立方法，其特征在于，所述预设神经网络模型包括输入层、输出层，以及位于所述输入层与所述输出层之间的若干层隐藏层，每一层所述隐藏层包括若干神经元节点，所述预设神经网络模型中隐藏层和神经元节点的集合表示为：

H＝{(h₁，n₁)，(h₂，n₂)，...，(h_n，n_n)}；

4.根据权利要求3所述的基于神经网络和树模型的预测模型建立方法，其特征在于，根据预设神经网络模型和预设树模型构建神经网络树模型包括：

5.根据权利要求1所述的基于神经网络和树模型的预测模型建立方法，其特征在于，所述预设树模型包括决策树模型、GBDT模型、XGBoost模型和AdaBoost模型。

6.根据权利要求1所述的基于神经网络和树模型的预测模型建立方法，其特征在于，根据所述神经网络树模型构建神经网络随机森林模型包括：

7.根据权利要求1所述的基于神经网络和树模型的预测模型建立方法，其特征在于，还包括：

若模型验证结果小于第二预设阈值，通过网格搜索方法优化所述训练结束后的神经网络随机森林模型。

8.一种基于神经网络和树模型的预测模型建立装置，其特征在于，包括：

9.根据权利要求8所述的基于神经网络和树模型的预测模型建立装置，其特征在于，还包括：

数据模型优化模块，用于若模型验证结果小于第二预设阈值，通过网格搜索方法优化所述训练结束后的神经网络随机森林模型。