CN114066036A

CN114066036A - 一种基于自修正融合模型的成本预测方法以及装置

Info

Publication number: CN114066036A
Application number: CN202111329023.3A
Authority: CN
Inventors: 刘莉; 张智慧; 李包华; 赵菀刘茜
Original assignee: East China Jiaotong University
Current assignee: East China Jiaotong University
Priority date: 2021-11-10
Filing date: 2021-11-10
Publication date: 2022-02-18
Anticipated expiration: 2041-11-10
Also published as: CN114066036B

Abstract

本发明涉及计算机技术领域，特别是涉及一种基于自修正融合模型的成本预测方法以及装置，所述方法包括：提取项目特征数据并进行预处理；将所述项目特征数据输入主模型以确定成本初值以及预测残差；将所述预测残差作为次模型的输入，以确定预测残差值；根据所述预测残差值对所述成本初值进行修正以确定预测成本。本发明采用自修正融合算法通过主次双模型进行预测，先由主模型融合算法进行预测成本初值，再利用主模型生成的残差序列作为次模型的数据集，接着用次模型残差自适应神经网络算法预测残差值，最后用残差值修正主模型预测值，提升施工成本预测值的准确性，快速完成施工成本预测。

Description

一种基于自修正融合模型的成本预测方法以及装置

技术领域

本发明涉及计算机技术领域，特别是涉及一种基于自修正融合模型的成本预测方法以及装置。

背景技术

高层住宅工程作为一种大型投资项目，具有高风险、规模大、建设周期较长的特点。高层住宅工程项目施工成本快速预测进行投标报价一直是建筑企业所关注的重点，也是工程数据挖掘以及建筑智能化等领域的重要研究课题。由于传统的施工成本预测方法需要大量的施工图纸、工程数据、报价信息与时间支撑，无法在较短时间内为建筑企业投标报价提供更为准确的依据。传统的报价方法通常以大量数据作为计算和预算定额为基础，但是由于建筑行业的特殊性与多变性，难以通过一个或者几个数学模型得到较为精确的施工成本预测值，因此高层住宅施工成本小样本数据进行快速测算报价是个亟待解决的问题。

目前国内施工成本预测使用较多的依然是回归预测法，即通过判断影响成本的主要因素，并且获得相当的数量，从而预测成本的方法。这种方法预测比较准确，但是需要确定影响成本的主要因素的种类跟数量，还要掌握充分高质量的统计数据，由于回归预测法对于样本要求较高，所以只适用于项目前期准备时间充分的建筑单位。

此外，通过人工智能技术中的BP神经网络、K近邻、决策树单一模型进行施工成本预测报价其速度快，但由于建筑工程施工成本预测体系构建并不完整，模型选择单一，所需数据量多，使得预测报价结果的准确性较低。

发明内容

基于此，有必要针对上述的问题，提供一种基于自修正融合模型的成本预测方法以及装置。

本发明实施例是这样实现的，一种基于自修正融合模型的成本预测方法，所述基于自修正融合模型的成本预测方法包括：

提取项目特征数据并进行预处理；

将所述项目特征数据输入主模型以确定成本初值以及预测残差；

将所述预测残差作为次模型的输入，以确定预测残差值；

根据所述预测残差值对所述成本初值进行修正以确定预测成本。

优选地，所述提取项目特征数据并进行预处理，包括以下步骤：

选定特征指标，所述特征指标包括桩基类型、基础类型、建筑结构形式、抗震等级、砌筑工程、楼地面装饰工程、内墙装修、外墙装修、门窗类型、安装完备程度、建筑面积、建筑长宽比、地上层数、地下层数、标准层高、建筑高度和工程造价指数中的若干个；

对于特征指标进行因子分析以确定主成分因子；

对所述特征指标进行重要性分析。

优选地，将所述项目特征数据输入主模型以确定成本初值以及预测残差，包括以下步骤：

将所述项目特征数据输入主模型第一层的三个单一学习器，所述单一学习器分别为支持向量机学习器、梯度提升学习器以及随机森林学习器；

每个学习器分别输出各自的预测结果以及预测残差；

根据所述预测结果确定所述成本初值。

优选地，所述根据所述预测结果确定所述成本初值，包括以下步骤：

将各个学习器的预测结果输入主模型的第二层并输出结果，主模型的第二层为支持向量机学习器。

优选地，将所述预测残差作为次模型的输入，以确定预测残差值，包括以下步骤：

将主模型三种算法产生随机森林预测值组Z₁＝{Z_1i,i＝1,...,N}、梯度提升预测值组Z₂＝{Z_2i,i＝1,...},和改进向量机预测值组Z₃＝{Z_3i,i＝1,...,N}分别与真实值 A＝{A_i,i＝1,...},N相减后得出三组的残差值组C₁＝{C_1i,i＝1,...,N}、C₂＝{C_2i,i＝1,...,N}和 C₃＝{C_3i,i＝1,...,N}，将这三组残差组合C＝{C_1i、C_2i、C_3i,i＝1,...,N}输入次模型进行残差修正，所述次模型由输入层、隐含层、状态层和输出层组成；

输入层将三组残差值组C₁、C₂和C₃输入修正神经网络并将其传递到隐含层；

隐含层将本时刻输入层传输的误差变量值和状态层反馈的上一时刻的隐含层输出值进行加权作为隐含层输入，传递到神经元的激活函数的后输出；

状态层接受并记忆隐含层神经元上一时刻输出值并将其反馈给隐含层作为其本时刻输入，隐含层和记忆层有相同的神经元个数；

输出层通过线性传递函数实现对隐含层的输出值进行线性加权得误差预测值。

优选地，所述基于自修正融合模型的成本预测方法还包括主模型的训练过程，具体为：

数据集S＝{(y_i，x_i),i＝1,...,N}，x_i是第i个样本的特征向量，y_i为第i个样本对应的目标值，N为样本个数；

将数据集S等分为5个子集记为S1、S2、S3、S4和S5，每个子集大小基本相同，对一级模型中第一个基学习器随机森林进行5次学习和测试，在第1次循环中，子集S1作为测试集，其他子集则合并到一起构成一个大训练数据集并通过学习获得相应的分类器，对S1测试集进行预测，完成第一次循环，而在第二次循环时，使用S1、S3、S4、S5作为训练数据集，S2作为测试数据集；如此下去5次循环得出随机森林预测值组Z₁，并对一层学习器另两个基学习器都进行5次循环预测，依次得出梯度提升和改进向量机的预测值组Z₂和Z₃，将3个基学习器的输出结果重新拼接成为新的数据集，S_new＝{(y_i,z_1i,z_2i,z_3i),i＝1,...,N}，

构成新的数据集：S_new＝{(y_i,z_1i,z_2i,z_3i),i＝1,...,N}为主模型第二层的输入数据，将主模型三种算法产生的三组预测值组Z₁、Z₂和Z₃分别与真实值A^*相减后得出三组的残差值组C₁、C₂和C₃构成残差数据集C＝{C_1i、C_2i、C_3i,i＝1,...,N} ；基于S_new对第二层预测模型进行目标量训练，得出初步成本预测值组L_new；通过次算法残差神经网络对

进行残差预测；用一阶残差修正成本预；

用一阶残差修正成本预测值。

优选地，所述基于自修正融合模型的成本预测方法还包括以下步骤：

训练主模型第一层中的随机森林学习器：

随机森林中CART树某一节点的训练过程等价于下面优化问题：

(x^*,v^*)＝argmin G(x_i,v_ij)寻找G最小的切分特征和切分点，即针对某一切分点：

其中：x^*为最佳特征向量，v^*为最佳切分值，x_i是第i个的特征向量，v_ij为切分特征的一个切分值，y_i为第i个目标值，N_δ分别为切分后左右叶子节点的训练样本个数和，

分别为左右叶子节点的目标值均值；

使用网格搜索法，在一定的范围内搜索切分点和每个特征的所有取值，从中找出满足条件的切分特征和切分点；

针对于切分特征和切分点的优劣，以切分后节点的不纯度来衡量，即各个子节点不纯度的加权和G(x_i,v_ij)，其计算公式如下：

其中X_left、X_right分别为左右叶子节点的特征向量集合，n_left、n_right分别为左右叶子节点的训练样本个数，H(x)为衡量节点不纯度的函数，随机森林是多颗树的集成，每颗树对于数据集子集的选取以及特征数量的选取都是随机的，最后以投票得数最高的结果作为随机森林第i个预测值Z_1i，依次完成所有样本得出随机森林预测组值Z₁；

训练主模型第一层中的梯度提升学习器：

梯度提升学习器参数为f_k(x_i)＝τ_kh_k(x_i；o_i)，x_i为第i个的特征向量，h_k为第k个回归树，o_i为第i个决策树参数是叶子节点的个数，τ_k为第k个回归树的权重参数，进而得到目标函数如下式子：

在第t步采用平方损失作为损失函数，其目标函数转化为梯度下降方式

即：

式中：N为样本个数,y_i为第i个目标值，

为第t步拟合后i的目标值，在回归算法中使用平方损失函数时，每一级向下的随机树都在拟合残差时产生，因此在进行了t次残差拟合之后，就有了t个随机树，依次将这些随机树从上到下进行相加即得到提升树模型并得出梯度提升第i个预测值Z_2i，依次完成所有样本得出Z₂；

训练主模型第一层中的改进向量机学习器：

根据数据集S和分离超平面w·x+^b＝0，w为分类面法向量，b为分类面截距，使得超平面与样本点的几何间隔为

将超平面与所有样本点的几何间隔的最小值定义为γ^*＝minγ_i；其中x_i为第i个的特征向量，y_i为第i 个目标值，γ^*为最小支持向量与超平面之间的间隔，γ_i为第i个支持向量与超平面之间的间隔，||w||为γ^*倒数；将SVM算法求解最优分离超平面的分割线转化为以下约束最优问题：

SVM准确的划分训练数据集，使得训练数据集之间的分离超平面间隔最大, 得出改进向量机预测值Z_3i，依次完成所有样本得出Z₃，

所述基于自修正融合模型的成本预测方法还包括以下步骤：

将主模模型一阶的三组预测数据S_new＝{(y_i,z_1i,z_2i,z_3i),i＝1,...,N}作为二阶的输入，先从中选取第一组预测数据组{(y_i,z_1i),i＝1,...,N}进行改过支持向量预测；

在高维特征空间中，核函数找最佳法向量：

其中Z_1i为随机森林第i个预测值，y_i为第i个目标值，w^*为最佳法向量，α^*为最佳分量，满足条件0＜α^*，继而计算最佳分类面截距b^*,N为样本个数：

进行修正系数调整，非线性支持向量机可以表示为：

式中K(z,z_1i)选用Sigmoid核函数，并输出L_1i，依次将数据{(y_i,z_2i),i＝1,...,N}和 {(y_i,z_3i),i＝1,...,N}进行上述计算输出L_2i和L_3i，最后对L_1i、L_2i和L_3i取均值,完成试测数后得出初步成本预测值组L_new

所述对所述特征指标进行重要性分析，具体采用如下确定随机森林特征指标重要性：

式中：Z_1i为随机森林第i个预测值，φ₀是指预测值的均值，P为特征的数量，ε_i指样本取值率，当ε_i＝1时f(Z_1i,ε_i)＝Z_1i；当ε_i＝0时，f(Z_1i,ε_i)＝0。

在其中一个实施例中，本发明提供了一种基于自修正融合模型的成本预测装置，所述基于自修正融合模型的成本预测装置包括：

提供模块，用于提取项目特征数据并进行预处理；

成本初会预测模块，用于将所述项目特征数据输入主模型以确定成本初值以及预测残差；

残差值预测模型，用于将所述预测残差作为次模型的输入，以确定预测残差值；

修正模块，用于根据所述预测残差值对所述成本初值进行修正以确定预测成本。

本发明采用自修正融合算法通过主次双模型进行预测，先由主模型融合算法进行预测成本初值，再利用主模型生成的残差序列作为次模型的数据集，接着用次模型残差自适应神经网络算法预测残差值，最后用残差值修正主模型预测值，提升施工成本预测值的准确性，快速完成施工成本预测，尤其适用于高层住宅项目。

附图说明

图1本发明实施例提供的基于自修正融合模型的成本预测方法的逻辑框图；

图2为残差自适应神经网络；

图3为本发明与单一模型的预测结果比较图；

图4为一个实施例中计算机设备的内部结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

可以理解，本发明所使用的术语“第一”、“第二”等可在本文中用于描述各种元件，但除非特别说明，这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。

图1为本发明实施例提供的基于自修正融合模型的成本预测方法的逻辑框图，所述基于自修正融合模型的成本预测方法包括：

提取项目特征数据并进行预处理；

将所述预测残差作为次模型的输入，以确定预测残差值；

在本发明实施例中，项目特征数据从已建成高层住宅项目的最终决算数据中筛选出来。本发明的自修正融合模型包括主模型以及次模型，其中主模型的输出的预测残差作为次模型的输入。进一步地，主模型分为两层，第一层输出预测残差以及本层的预测结果，第一层的预测结果作为第二层的输入，第二层输出成本初值，利用次模型输出的预测残差值对成本初值进行修正。当然，将主模型作为一个整体，总的来看其输出包括预测残差以及成本初值。

本发明采用自修正融合算法通过主次双模型进行预测，先由主模型融合算法进行预测成本初值，再利用主模型生成的残差序列作为次模型的数据集，接着用次模型残差自适应神经网络算法预测残差值，最后用残差值修正主模型预测值，提升施工成本预测值的准确性，快速完成施工成本预测，尤其适用于高层住宅项目；若非特别说明，本发明以高层住宅项目为例进行说明。

在本发明一个实施例中，所述提取项目特征数据并进行预处理，包括以下步骤：

对于特征指标进行因子分析以确定主成分因子；

对所述特征指标进行重要性分析。

在本发明实施例中，先进行高层住宅项目特征数据提取，选用已建高层住宅项目的最终决算数据，共44个已完高层住宅项目、17个特征指标和施工成本造价为目标值。特征指标包括桩基类型、基础类型、建筑结构形式、抗震等级、砌筑工程、楼地面装饰工程、内墙装修、外墙装修、门窗类型和安装完备程充10个指标为非数值型，建筑面积、建筑长宽比、地上层数、地下层数、标准层高、建筑高度和工程造价指数7个数值指标。

在本发明实施例中，以上述17个指标的方案为例，主成分分析(PrincipalComponent Analysis，PCA)具体为：将17个特征标记为X1-X17进行相关性分析，衡量各个影响因素之间的相关性。将X1-X17进行因子分析，从中归纳出潜在的“类别”，每一类变量代表了一个“共同因子”，因子分析即抽取其主要的“共同因子”。选定7个主成分因子，其累计特征百分比为85.399％。具体为：将17维建筑特征数据向量映射到7维上，则这7维是全新的正交特征也被称为主成分，即是在尽量减少原始数据样本所包含信息的基础上，将关系较为紧密的变量较少成为新的变量，实现数据降维。

在本发明一个实施例中，将所述项目特征数据输入主模型以确定成本初值以及预测残差，包括以下步骤：

每个学习器分别输出各自的预测结果以及预测残差；

根据所述预测结果确定所述成本初值。

在本发明实施例中，修正融合算法由主次双模型构成，主模型采用融合算法，次模型采用残差自适应神经模型。由主模型融合算法预测高层住宅施工成本初值，再用次模型自适应神经算法预测残差值并修正成本预测值如图1所示。

主模型采用融合算法，第一层单一学习器是SVM、GBDT、RF、KNN以及LR 五种算法进行默认参数进行预测。通过对单一预测模型的测试集进行预测，最后选用MAE作为预测结果的评判指标，对比预测结果准确度之后筛选预测结果相对准确的SVM、GBDT、RF三个算法作为单一学习器，第二层算法使用SVM为元学习器。

在本发明一个实施例中，所述根据所述预测结果确定所述成本初值，包括以下步骤：

在本发明一个实施例中，将所述预测残差作为次模型的输入，以确定预测残差值，包括以下步骤：

将主模型的预测值A和真实值A^*的偏差

输入次模型，其中C_ij为第i组、第j个样本残差值，A_ij为第i组、第j个样本预测值，

为第i组、第j个样本真实值，i＝3为三种算法形成的残差组数，所述次模型由输入层、隐含层、状态层和输出层组成；

输入层将差值向量C_ij输入修正神经网络并将其传递到隐含层，输入层神经元个数为误差向量的维数，为主模型一层预测所产生的差值向量组；

在本发明实施例中，构造基于差值修正的神经网络的数学模型为：

y_lc(k)＝y_r(k-1)

式中，

为第k层差值神经网络输出测试值；w_r(k)第k层差值神经网络隐含层到输出层的连接权值；t为隐含层神经元数；y_r(k)第k层差值神经网络隐含层神经元输出；b_t(k)为第k层差值神经网络输出层神经元阈值；y_lc(k)为第 k层差值神经网络状态层输出；y_r(k-1)第k-1层隐含层神经元输出；w_cr(k)第k 层差值神经网络a状态层到隐含层的连接权值；C_1i为第1组第i个残差值；C_2i为第2组第i个残差值；C_3i为第3组第i个残差值；N为样本个数；b_r(k)第k 层神经网络隐含层神经元阈值。以二次差值函数作为代价函数

式中，

为成本误差修正目标值；y_i为第i个目标值。各层之间连接权值、隐含层与输出层阈值决定了该算法预测性能的优劣程度。在残差神经网络中，隐含层与输出层各种阈值和各层之间连接权值决定了该算法预测残差修正的优劣程度。

针对次算法的残差神经网络预测算法各种阈值和权重的取值，采用自适应算法对残差神经网络的初始值和阈值进行编码、适应度函数、选择、交差、变异等操作。在算法中,需要设置一个适应度函数来确定个体被选择的概率.在搜索过程中是朝着适应度值不断增大的目标进行的,因此设计目标函数为：

其中

为成本误差修正目标值；y_i为修正神经网络输出误差修正值；ζ为一个较小值，为了避免分母为零,防止出现局部最优的问题。种群的多样性是保证算法性能的一个重要因素。其中交叉概率和变异概率的值的设置会影响算法的性能。交叉概率的值越大,那么新个体产生速度将越快,但交叉概率值过大会使高适性能下降.如果变异概率的值过小,就不容易生成新个体，造成速度下降。在实际情况中，很难通过设置一个固定的最优交叉概率变异概率来满足工程需求，通过能自适应调整的交叉概率和变异概率来确保群体的多样性。交叉概率为

变异概率

其中，Δf＝f_max-f_ave其中Δf为适应度应变值，f_max表示个体最大适应度值，f_ave表示平均适应度值。通过自适应算法,可以有效提高残差神经网络的全局搜索权值、阈值最优解的能力，如图2所示。

成本预测残差是由主算法一阶三种预测后的余值。残差值是通过预测值减去实际值得到的或者实际值减去预测值得到，残差值可正也可负。其代表着实际值和预测值到的距离。当缩小这个距离就能提高成本预测准确度。残差数列中包含着主预测算法没有抓住的数据特征。通过次算法充分挖掘残差中潜藏的规律，利用主次算法互补来配合来预测住宅施工成本。

在本发明一个实施例中，所述基于自修正融合模型的成本预测方法还包括主模型的训练过程，具体为：

将数据集S等分为5个子集记为S1、S2、S3、S4和S5，每个子集大小基本相同。对一级模型中第一个基学习器随机森林进行5次学习和测试，在第1次循环中，子集S1作为测试集，其他子集则合并到一起构成一个大训练数据集并通过学习获得相应的分类器，对S1测试集进行预测，完成第一次循环。而在第二次循环时，使用S1、S3、S4、S5作为训练数据集，S2作为测试数据集；如此下去5次循环得出随机森林预测值组Z₁。并对一层学习器另两个基学习器都进行5次循环预测，依次得出梯度提升和改进向量机的预测值组Z₂和Z₃，将3个基学习器的输出结果重新拼接成为新的数据集，S_new＝{(y_i,z_1i,z_2i,z_3i),i＝1,...,N}。

构成新的数据集：S_new＝{(y_i,z_1i,z_2i,z_3i),i＝1,...,N}为主模型第二层的输入数据，将主模型三种算法产生的三组预测值组Z₁、Z₂和Z₃分别与真实值A^*相减后得出三组的残差值组C₁、C₂和C₃。构成残差数据集C＝{C_1i、C_2i、C_3i,i＝1,...,N}；

基于S_new对第二层预测模型进行目标量训练，得出初步成本预测值组L_new；

通过次算法残差神经网络对C进行残差预测；用一阶残差修正成本预测值。

在本发明一个实施例中，所述基于自修正融合模型的成本预测方法还包括以下步骤：

训练主模型第一层中的随机森林学习器：

随机森林中CART树某一节点的训练过程等价于下面优化问题：

分别为左右叶子节点的目标值均值；

训练主模型第一层中的梯度提升学习器：

即：

式中：N为样本个数,y_i为第i个目标值，

训练主模型第一层中的改进向量机学习器：

根据数据集S和分离超平面w·x+b＝0，w为分类面法向量，b为分类面截距，使得超平面与样本点的几何间隔为

SVM准确的划分训练数据集，使得训练数据集之间的分离超平面间隔最大, 得出改进向量机预测值Z_3i，依次完成所有样本得出Z₃。

基于自修正融合模型的成本预测方法还包括以下步骤：

在高维特征空间中，核函数找最佳法向量：

进行修正系数调整，非线性支持向量机可以表示为：

对所述特征指标进行重要性分析，具体采用如下确定随机森林特征指标重要性：

在本发明实施例中，成本预测数据会受到各类外部经济因素和内部结构变化的影响,这些内外影响因素处于不断的变化和发展。其中一些发展的因素会使得成本数据含一定的规律,但是更多的特征因素具有非稳定的性质。这也是残差产生的关键。通过残差神经网络获取到这部分因素的数据作为特征加入到输入数据中,建立起它和残差之间的内在联系,对负荷和残差的预测更准确。借助SVM、RF和GBDT建立的多模型融合成本预测和残差神经预测算法。主算法能学习住宅数据中的多种信息从而较好地拟合负荷数据,次算法能从残差序列中学习信息从而较拟合残差序列数据,通过主次算法结合各类因素特征对成本数据和残差能够实现更精准的拟合。

以下以一个具体实施例对本发明的技术效果进行说明：

以高层住宅项目特征数数据作为输入，选用已建高层住宅项目的最终决算数据，共44个项目、17个建筑特征指标和1个施工成本造价为目标值。17个建筑特征指标为：地上建筑面积X1、地下建筑面积X2、地上层数X3、地下层数X4、标准层高X5、建筑高度X6、抗震等级X7、工程造价指数X8、桩基类型X9、基础类型X10、建筑结构形式X11、楼地面装饰X12、内墙装修X13、砌筑材料X14、门窗类型X15、外墙装修X16、安装完备程X17。并对特征数数进行对数变化后异常数值处理。将数据输入到本发明提供的模型中处理，并输出成本预测值。

为了验证算法性能，先将原始数据集进行划分，再分别对自修正融合算法、未进行修正的融合算法和单一算法中预测效果最好的SVM、GBDT四个算法的最终预测值与实际值对比图画出如图3所示。通过对图3分析可得，单一算法SVM、 GBDT的拟合度较差，自修正融合算法更接近真实预测效果，部分数据点能进行重合预测，其平均绝对误差为41.019，未修正的融合算法相对自修正融合算法部分算据点误差较大，其平均绝对误差为60.7977进行，进一步说了自修正融合算法中对数据中的残差修正能进一步提高算法预测的准确率。

选取平均绝对误(MAE)、均方根误差差(RMSE)和平均绝对百分比误差(MAPE) 评价指标对四种算法进行评价为算法预测性能的评价标准，得出表1。

表1四种算法各评价指标对比表

通过不同的评价标，将自修正融合算法与融合算法、SVM算法和GBDT算法的预测效果进行对比分析，根据表1可得，自修正融合算法的MAE比未进行修正的融合算法降低了32.53％，说明其误差的偏差程度较小；修正融合算法的RMSE 比未进行修正的融合算法降低了27.99％，说明修正融合算法预测效果更为稳定；修正融合算法的MAPE比未进行修正的融合算法降低了0.85％，说明修其预测结果的准确度优。

自修正融合模型通过从不同算法的不同角度对数据的空间与结构进行训练，使得算法之间可以取长补短，达到比单一模型更加精确的预测结果。高层住宅施工成本预测算例测试表明，对模型进行建筑项目特征贡献度分析，能够有效量化各个建筑项目特征的重要性。自修正融合模型在小样本施工成本的预测问题中，可以将单一模型中的误差值降的更低，在施工成本预测和快速报价问题的研究上有较高的应用价值。

自修正融合算法主模型融合算借鉴了融合的思想，由二阶学习器组成，一阶学习器由SVM、GBDT、RF三个算法组成，对一阶学习进行交叉训练后，二阶学习器由第一个学习器的结果再次进行训练，后得出成本预测初步值。借助融合的方法可以对多个强学习器进行融合从而得到功能更强的学习器。得到比单个模型预测效果更好。融合算法充分发挥各个算法自身优势，摒弃了各个算法中预测效果较差的环节。考虑到施工成本预测算法训练过程中的参数组合多，可能有多个组合在训练集上达到同等性能，但对少样本的算法泛化性能不强的风险。从算法优化角度来看，单一模型训练的优化过程中，模型往往会有陷入局部最小点的风险，有的局部极小点所对应的模型泛化性能可能较差，而通过多个组合学习器运行之后进行修正组合，可有效减少陷入局部极小点的风险。因此，自修正融合主模型比单个模型在成本预测精度就有所提升。

自修正融合算法的次模型是由自适应残差神经网络算法构成，从误差修正角度出发，计算预测结果的残差，用残差自适应神经网络拟合主模型一阶预测结果的残差。将残差自适神经网络的预测结果和主模型融合算法预测成本的输出结果相加作为最终的高层住宅施工成本预测结果。自适应残差神经网络能从无序的残差序列中发现有用信息并能够综合考虑外界因素特征，建立了残差预测模型用于修正残差，将主模型成本预测模型和次模型残差预测组合为自修正融合高层住宅施工成本预测。结果表明，残差自修正融合算的预测结果比未修正的成预测模型的预测结果准确率更高。

自修正融合算法采用主次双模型，主模型采用多模型融合算法，次模型采用残差自适应算法。通过主模型避免单个模型的局限性提升成本预测的准确度，再利用次模型采用残差自适应算法对列差进行分析通过缩小差残来进一步修正主模型预测，再次提升高层住宅施工成本预测。并通过对比实验，说明该方法的可信与可用性，为高层住宅施工成本报价决策者评提供了报价参考依据。

本发明一个实施例还提供了一种基于自修正融合模型的成本预测装置，所述基于自修正融合模型的成本预测装置包括：

提供模块，用于提取项目特征数据并进行预处理；

在本发明实施例中，对于各个模块的具体说明请参见本发明关于方法部分的内容，该预测装置是基于前述方法的，方法部分的所在说明均适用于本装置。

图4示出了一个实施例中计算机设备的内部结构图。如图4所示，该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现本发明实施例提供的基于自修正融合模型的成本预测方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行本发明实施例提供的基于自修正融合模型的成本预测方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图4中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本发明实施例提供的基于自修正融合模型的成本预测装置可以实现为一种计算机程序的形式，计算机程序可在如图4所示的计算机设备上运行。

在一个实施例中，提出了一种计算机设备，所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

提取项目特征数据并进行预处理；

将所述预测残差作为次模型的输入，以确定预测残差值；

在一个实施例中，提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时，使得处理器执行以下步骤：

提取项目特征数据并进行预处理；

将所述预测残差作为次模型的输入，以确定预测残差值；

应该理解的是，虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM (EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM 以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM (SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM (RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态 RAM(RDRAM)等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于自修正融合模型的成本预测方法，其特征在于，所述基于自修正融合模型的成本预测方法包括：

提取项目特征数据并进行预处理；

将所述预测残差作为次模型的输入，以确定预测残差值；

2.根据权利要求1所述的基于自修正融合模型的成本预测方法，其特征在于，所述提取项目特征数据并进行预处理，包括以下步骤：

对于特征指标进行因子分析以确定主成分因子；

对所述特征指标进行重要性分析。

3.根据权利要求1所述的基于自修正融合模型的成本预测方法，其特征在于，将所述项目特征数据输入主模型以确定成本初值以及预测残差，包括以下步骤：

每个学习器分别输出各自的预测结果以及预测残差；

根据所述预测结果确定所述成本初值。

4.根据权利要求3所述的基于自修正融合模型的成本预测方法，其特征在于，所述根据所述预测结果确定所述成本初值，包括以下步骤：

5.根据权利要求1所述的基于自修正融合模型的成本预测方法，其特征在于，将所述预测残差作为次模型的输入，以确定预测残差值，包括以下步骤：

将主模型三种算法产生随机森林预测值组Z₁＝{Z_1i,i＝1,...,N}、梯度提升预测值组Z₂＝{Z_2i,i＝1,...,N}和改进向量机预测值组Z₃＝{Z_3i,i＝1,...,N}分别与真实值A＝{A_i,i＝1,...,N}相减后得出三组的残差值组C₁＝{C_1i,i＝1,...,N}、C₂＝{C_2i,i＝1,...,N}和C₃＝{C_3i,i＝1,...,N}，将这三组残差组合C＝{C_1i、C_2i、C_3i,i＝1,...,N}输入次模型进行残差修正，所述次模型由输入层、隐含层、状态层和输出层组成；

输入层将三组残差值C₁、C₂和C₃输入修正神经网络并将其传递到隐含层；

6.根据权利要求3所述的基于自修正融合模型的成本预测方法，其特征在于，所述基于自修正融合模型的成本预测方法还包括主模型的训练过程，具体为：

假设数据集S＝{(y_i，x_i),i＝1,...,N}，x_i是第i个样本的特征向量，y_i为第i个样本对应的目标值，N为样本个数；

将数据集S等分为5个子集记为S1、S2、S3、S4和S5，每个子集大小基本相同，对一级模型中第一个基学习器随机森林进行5次学习和测试，在第1次循环中，子集S1作为测试集，其他子集则合并到一起构成一个大训练数据集并通过学习获得相应的分类器，对S1测试集进行预测，完成第一次循环，而在第二次循环时，使用S1、S3、S4、S5作为训练数据集，S2作为测试数据集；如此下去5次循环得出随机森林预测值组Z₁ ，并对一层学习器另两个基学习器都进行5次循环预测，依次得出梯度提升和改进向量机的预测值组Z₂和Z₃，将3 个基学习器的输出结果重新拼接成为新的数据集，S_new＝{(y_i,z_1i,z_2i,z_3i),i＝1,...,N}，

构成新的数据集：S_new＝{(y_i,z_1i,z_2i,z_3i),i＝1,...,N}为主模型第二层的输入数据，将主模型三种算法产生的三组预测值组Z₁、Z₂和Z₃分别与真实值A^*相减后得出三组的残差值组C₁、C₂和C₃ ，构成残差数据集C＝{C_1i、C_2i、C_3i,i＝1,...,N}；

7.根据权利要求3所述的基于自修正融合模型的成本预测方法，其特征在于，所述基于自修正融合模型的成本预测方法还包括以下步骤：

训练主模型第一层中的随机森林学习器：

随机森林中CART树某一节点的训练过程等价于下面优化问题：