CN114077874A

CN114077874A - 基于分段采样的段域神经网络回归方法、系统及存储介质

Info

Publication number: CN114077874A
Application number: CN202210048796.2A
Authority: CN
Inventors: 丘梓杰; 黄潮源; 凌永权; 刘庆; 陈丹妮; 韦怡婷
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2022-01-17
Filing date: 2022-01-17
Publication date: 2022-02-22

Abstract

本发明公开了一种基于分段采样的段域神经网络回归方法、系统及存储介质，包括：获取样本数据集，对样本数据进行特征选择；将完成特征挑选后的数据集划分为训练集和测试集，根据训练集进行k‑fold交叉验证，生成初级回归模型和初级回归模型的第一输出信息；根据第一输出信息生成新数据集，对新数据集进行连续分段采样得到不同段域的子集合；基于梯度下降对不同段域子集合进行训练得到次级回归模型，同时得到不同段域的权值矩阵及偏差矩阵；将测试集输入所述初级回归模型中生成第二输出信息，将第二输出信息输入次级回归模型，得到最终段域神经网络回归模型的预测结果。本发明的回归模型预测输出结果的准确性高、容错率高，有较强的鲁棒性能。

Description

基于分段采样的段域神经网络回归方法、系统及存储介质

技术领域

本发明涉及数据分析技术领域，更具体的，涉及一种基于分段采样的段域神经网络回归方法、系统及存储介质。

背景技术

当今时代是信息时代，每天都会出现大量的数据，利用好这些数据能对我们的生活带来很大的影响，利用大数据回归分析出准确的模型的问题，有很大的价值。利用大数据回归分析，就可以根据当前和过去的信息来预测未来情况。比如利用大数据回归分析公司未来几年的发展情况，在哪些方面需要加大投入决定了一个公司的走向，根据大数据回归分析顾客的喜好，给顾客推送相应的服务，让顾客得到更好的服务，提高了生活质量。人们在日常工作中会碰到从分类归纳的数据中找变量与变量之间的关系，这时利用大数据回归分析就可以通过图表清楚明了的展示出自变量与因变量之间的关系从而提高了工作效率。同时，回归分析还可以运用于医疗健康设备中，比如佩戴健康监测手表，给人们提供实时的健康状况告警或分析出复杂的医疗数据，所以大数据回归分析在当代生活中有广泛的应用。

当前的主流的回归分析算法有BP神经网络回归方法，但该方法的通用性不高，常常出现过拟合现象，造成网络泛化性能低，容错率低，收敛速度过快而导致过拟合，因此提供一种预测输出结果准确性高、容错率高，具有较强的鲁棒性及通用性的模型就显得尤为重要。

发明内容

为了解决上述技术问题，本发明提出了一种基于分段采样的段域神经网络回归方法、系统及存储介质。

本发明第一方面提供了一种基于分段采样的段域神经网络回归方法，包括：

获取样本数据集，采用包装特征选择方法对样本数据集进行特征选择，利用随机森林算法测试前向搜索特征选择结果与后向搜索特征选择结果的重要性；

判断前向搜索特征选择结果与后向搜索特征选择结果的重要性大小，通过重要性较大的特征选择结果生成特征挑选后的数据集；

将完成特征挑选后的数据集划分为训练集和测试集，根据训练集进行k-fold交叉验证，生成初级回归模型和初级回归模型的第一输出信息；

根据所述第一输出信息生成新数据集，对所述新数据集进行连续分段采样得到不同段域的子集合；

基于梯度下降对不同段域子集合进行训练得到次级回归模型，同时得到不同段域的权值矩阵及偏差矩阵；

将所述测试集输入所述初级回归模型中生成第二输出信息，将第二输出信息输入所述次级回归模型，得到最终段域神经网络回归模型的预测结果。

本方案中，所述的根据训练集进行k-fold交叉验证，生成初级回归模型和初级回归模型的第一输出信息，具体为：

将完成特征挑选后的数据集划分为训练集和测试集，将所述训练集随机划分成k份大小相似的子数据集；

通过k份子数据集进行k-fold交叉验证，得到k个初级回归模型和k个对应初级回归模型的第一输出信息，通过k个第一输出信息生成新数据集。

本方案中，所述基于梯度下降对不同段域子集合进行训练得到次级回归模型，同时得到不同段域的权值矩阵及偏差矩阵，具体为：

对所述新数据集通过预设段域采样函数进行连续分段采样，生成不同段域的样本点集合，所述预设段域采样函数

为：

其中，

为超参数，满足

，

为采样区间，即

具体地可表示为：

通过梯度下降的方法对不同段域的样本点集合里的数据进行第二次回归模型训练，得到次级回归模型。

本方案中，所述次级回归模型的训练过程为：

令次级回归模型为

，

表示次级回归表达式，

表示段域偏差信息，

表示段域权值信息，

表示误差项；

由梯度下降算法计算相应参数

和

的线性回归，定义次级回归模型的损失函数

，对

分别做

和

的偏导数，进行迭代训练直至导数收敛，生成相应段域的权值信息和偏差信息；

所述损失函数为：

其中，

表示损失函数，

表示训练数据中的数据总数，

表示数据项数，

表示段域偏差信息，

表示段域权值信息，

表示次级回归表达式；

将所有段域的权值信息组成权值向量，同时将对应的偏差信息组成偏差向量，根据所述权值向量及偏差向量输出训练后的次级回归模型，同时生成权值矩阵W与权值矩阵B。

本方案中，所述的将所述测试集输入所述初级回归模型中生成第二输出信息，将第二输出信息输入所述次级回归模型，得到最终段域神经网络回归模型的预测结果，具体为：

将所述测试集输入到交叉验证中训练出来的k个初级回归模型，生成第二输出信息；

将所述第二输出信息输入已经训练好的次级回归模型中，将所述第二输出信息和权值矩阵W相乘，相乘后和偏差矩阵B相加；

对运算完的矩阵的行向量取平均得到最终的段域神经网络回归模型的预测结果。

本发明第二方面还提供了一种基于分段采样的段域神经网络回归系统，该系统包括：存储器、处理器，所述存储器中包括一种基于分段采样的段域神经网络回归方法程序，所述一种基于分段采样的段域神经网络回归方法程序被所述处理器执行时实现如下步骤：

为：

其中，

为超参数，满足

，

为采样区间，即

具体地可表示为：

本方案中，所述次级回归模型的训练过程为：

令次级回归模型为

，

表示次级回归表达式，

表示段域偏差信息，

表示段域权值信息，

表示误差项；

由梯度下降算法计算相应参数

和

的线性回归，定义次级回归模型的损失函数

，对

分别做

和

所述损失函数为：

其中，

表示损失函数，

表示训练数据中的数据总数，

表示数据项数，

表示段域偏差信息，

表示段域权值信息，

表示次级回归表达式；

本发明第三方面还提供一种计算机可读存储介质，所述计算机可读存储介质中包括一种基于分段采样的段域神经网络回归方法程序，所述一种基于分段采样的段域神经网络回归方法程序被处理器执行时，实现如上述任一项所述的一种基于分段采样的段域神经网络回归方法的步骤。

本发明公开了一种基于分段采样的段域神经网络回归方法、系统及存储介质，包括：获取样本数据集，对样本数据进行特征选择；将完成特征挑选后的数据集划分为训练集和测试集，根据训练集进行k-fold交叉验证，生成初级回归模型和初级回归模型的第一输出信息；根据第一输出信息生成新数据集，对新数据集进行连续分段采样得到不同段域的子集合；基于梯度下降对不同段域子集合进行训练得到次级回归模型，同时得到不同段域的权值矩阵及偏差矩阵；将测试集输入所述初级回归模型中生成第二输出信息，将第二输出信息输入次级回归模型，得到最终段域神经网络回归模型的预测结果。本发明提出了一种根据初级模型的输出大小区间的不同然后分成多个集合，并对每个集合单独训练一个次级模型的方法及一个段域采样函数来对初级模型的输出进行取样来完成划分集合的方法。本发明不会出现过拟合现象，且预测输出结果准确性高、容错率高，训练出来的回归模型具有较强的鲁棒性能，模型的通用性高，可以服务于广泛的回归问题，能更好的预测生活中的各类回归分析问题。

附图说明

图1示出了本发明一种基于分段采样的段域神经网络回归方法的流程图；

图2示出了采样函数

在

取值范围的采样图；

图3示出了本发明一种基于分段采样的段域神经网络回归系统的框图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

图1示出了本发明一种基于分段采样的段域神经网络回归方法的流程图。

如图1所示，本发明第一方面提供了一种基于分段采样的段域神经网络回归方法，包括：

S102，获取样本数据集，采用包装特征选择方法对样本数据集进行特征选择，利用随机森林算法测试前向搜索特征选择结果与后向搜索特征选择结果的重要性；

S104，判断前向搜索特征选择结果与后向搜索特征选择结果的重要性大小，通过重要性较大的特征选择结果生成特征挑选后的数据集；

S106，将完成特征挑选后的数据集划分为训练集和测试集，根据训练集进行k-fold交叉验证，生成初级回归模型和初级回归模型的第一输出信息；

S108，根据所述第一输出信息生成新数据集，对所述新数据集进行连续分段采样得到不同段域的子集合；

S110，基于梯度下降对不同段域子集合进行训练得到次级回归模型，同时得到不同段域的权值矩阵及偏差矩阵；

S112，将所述测试集输入所述初级回归模型中生成第二输出信息，将第二输出信息输入所述次级回归模型，得到最终段域神经网络回归模型的预测结果；

所述最终段域神经网络回归模型包括初级回归模型及次级回归模型。

需要说明的是，所述的获取样本数据集，对所述样本数据进行特征选择，具体为：采用包装特征选择方法对样本数据集进行特征选择，所述包装特征选择方法包含前向搜索和后向搜索，所述前向搜索为每次增量地从剩余未选中的特征选出一个加入特征集中，待达到阈值或者样本总数时，从所有的特征集中选出错误率最小的特征组合；所述后向搜索为先将特征集设置为

，

为样本数据中的特征数目，然后每次删除一个特征，并评价，直到达到阈值或者为空；然后利用随机森林算法测试特征组合的重要性，生成完成特征挑选后的数据集。

需要说明的是，所述的根据训练集进行k-fold交叉验证，生成初级回归模型和初级回归模型的第一输出信息，具体为：

将完成特征挑选后的数据集以一定比例（主流以7：3或者8：2）随机地划分训练集和测试集，记训练集为

，测试集为

，

表示样本，

表示样本对应的响应。

再将训练集

随机地划分成k份大小相似的子数据集

，然后利用这k份的子数据集做k-fold交叉验证，则可以得到k个初级回归模型

和k个对应初级回归模型的第一输出信息，令k个初级回归模型产生的第一输出信息为新的

；新样本

的响应仍设置为

，故令

，

是由初级模型生成的新数据集。

需要说明的是，所述基于梯度下降对不同段域子集合进行训练得到次级回归模型，同时得到不同段域的权值矩阵及偏差矩阵，具体为：

为：

其中，

为超参数，满足

，

为采样区间，即

具体地可表示为：

图2示出了了采样函数

在

取值范围的采样图。

把

与

的

和

相乘，当

和

的大小在

这个区间时，样本点保持不变，而

和

的大小不在

这个区间时，样本点变为0，这样就获得了样本属于区间

大小的样本点，将这个区间的样本点保存成一个新的数据集合

。

当数据集

利用

段域采样函数进行连续分段采样后，会得到属于不同段域数据的集合

，集合

中保存属于该段域内的数据点。其中一组经过采样后得到不同段域的子集合为

，且可知

。再使用基于梯度下降的方法对不同段域的集合

里的数据进行第二次回归模型训练，可得到次级回归模型

，所述次级回归模型为线性回归模型。

需要说明的是，所述次级回归模型的训练过程为：

令次级回归模型为

，

表示次级回归表达式，

表示段域偏差信息，

表示段域权值信息，

表示误差项；

由梯度下降算法计算相应参数

和

的线性回归，定义次级回归模型的损失函数

，

表示训练数据中的数据总数，

表示数据项数；

梯度下降的目标是最小化损失函数

，其中的优化问题可表示为：

，对

分别做

和

的偏导数：

进行迭代训练直至导数收敛，同时运用

进行梯度更新，由梯度下降计算相应系数的线性回归生成相应段域的权值信息和偏差信息；

使用由梯度下降计算相应系数的线性回归，得到相应段域的权值

和偏差

，将所有段域的权值组成权值向量

，同时将对应的偏差组成偏差向量

，根据所述权值向量及偏差向量输出训练后的次级回归模型，同时生成权值矩阵W与偏差矩阵B；

其中，权值矩阵W为

偏差矩阵B为：

需要说明的是，所述的将所述测试集输入所述初级回归模型中生成第二输出信息，将第二输出信息输入所述次级回归模型，得到最终段域神经网络回归模型的预测结果，具体为：

将所述测试集

输入到交叉验证中训练出来的k个初级回归模型

，生成第二输出信息；

将所述第二输出信息输入已经训练好的次级回归模型中，将所述第二输出信息和权值矩阵相乘，相乘后和偏差矩阵相加；

已知次级模型

为线性回归模型，模型

由每一组

的不同段域的

训练出来，权值矩阵和偏差矩阵保存了不同段域的线性模型，故只需要把初级模型的输出和权值矩阵相乘，相乘后再和偏差矩阵相加，接着对运算完的矩阵的行向量取平均就得到最终的段域神经网络回归模型的预测结果。

本发明第二方面还提供了一种基于分段采样的段域神经网络回归系统3，该系统包括：存储器31、处理器32，所述存储器中包括一种基于分段采样的段域神经网络回归方法程序，所述一种基于分段采样的段域神经网络回归方法程序被所述处理器执行时实现如下步骤：

将所述测试集输入所述初级回归模型中生成第二输出信息，将第二输出信息输入所述次级回归模型，得到最终段域神经网络回归模型的预测结果；

，

，测试集为

，

表示样本，

表示样本对应的响应。

再将训练集

随机地划分成k份大小相似的子数据集

；新样本

的响应仍设置为

，故令

，

是由初级模型生成的新数据集。

为：

其中，

为超参数，满足

，

为采样区间，即

具体地可表示为：

图2示出了了采样函数

在

取值范围的采样框图。

把

与

的

和

相乘，当

和

的大小在

这个区间时，样本点保持不变，而

和

的大小不在

这个区间时，样本点变为0，这样就获得了样本属于区间

。

当数据集

利用

，集合

，且可知

。再使用基于梯度下降的方法对不同段域的集合

里的数据进行第二次回归模型训练，可得到次级回归模型

。

需要说明的是，所述次级回归模型的训练过程为：

令次级回归模型为

，

表示次级回归表达式，

表示段域偏差信息，

表示段域权值信息，

表示误差项；

由梯度下降算法计算相应参数

和

的线性回归，定义次级回归模型的损失函数

，

表示训练数据中的数据总数，

表示数据项数；

梯度下降的目标是最小化损失函数

，其中的优化问题可表示为：

，对

分别做

和

的偏导数：

进行迭代训练直至导数收敛，同时运用

和偏差

，将所有段域的权值组成权值向量

，同时将对应的偏差组成偏差向量

，根据所述权值向量及偏差向量输出训练后的次级回归模型，同时生成权值矩阵W与偏差矩阵B

其中，权重矩阵W为：

偏差矩阵B为：

将所述测试集

输入到交叉验证中训练出来的k个初级回归模型

，生成第二输出信息；

已知次级模型

为线性回归模型，模型

由每一组

的不同段域的

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机、服务器、或者网络设备等）执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。