CN114077874A - 基于分段采样的段域神经网络回归方法、系统及存储介质 - Google Patents
基于分段采样的段域神经网络回归方法、系统及存储介质 Download PDFInfo
- Publication number
- CN114077874A CN114077874A CN202210048796.2A CN202210048796A CN114077874A CN 114077874 A CN114077874 A CN 114077874A CN 202210048796 A CN202210048796 A CN 202210048796A CN 114077874 A CN114077874 A CN 114077874A
- Authority
- CN
- China
- Prior art keywords
- segment
- regression model
- output information
- neural network
- sampling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
- G06F18/2113—Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本发明公开了一种基于分段采样的段域神经网络回归方法、系统及存储介质,包括:获取样本数据集,对样本数据进行特征选择;将完成特征挑选后的数据集划分为训练集和测试集,根据训练集进行k‑fold交叉验证,生成初级回归模型和初级回归模型的第一输出信息;根据第一输出信息生成新数据集,对新数据集进行连续分段采样得到不同段域的子集合;基于梯度下降对不同段域子集合进行训练得到次级回归模型,同时得到不同段域的权值矩阵及偏差矩阵;将测试集输入所述初级回归模型中生成第二输出信息,将第二输出信息输入次级回归模型,得到最终段域神经网络回归模型的预测结果。本发明的回归模型预测输出结果的准确性高、容错率高,有较强的鲁棒性能。
Description
技术领域
本发明涉及数据分析技术领域,更具体的,涉及一种基于分段采样的段域神经网络回归方法、系统及存储介质。
背景技术
当今时代是信息时代,每天都会出现大量的数据,利用好这些数据能对我们的生活带来很大的影响,利用大数据回归分析出准确的模型的问题,有很大的价值。利用大数据回归分析,就可以根据当前和过去的信息来预测未来情况。比如利用大数据回归分析公司未来几年的发展情况,在哪些方面需要加大投入决定了一个公司的走向,根据大数据回归分析顾客的喜好,给顾客推送相应的服务,让顾客得到更好的服务,提高了生活质量。人们在日常工作中会碰到从分类归纳的数据中找变量与变量之间的关系,这时利用大数据回归分析就可以通过图表清楚明了的展示出自变量与因变量之间的关系从而提高了工作效率。同时,回归分析还可以运用于医疗健康设备中,比如佩戴健康监测手表,给人们提供实时的健康状况告警或分析出复杂的医疗数据,所以大数据回归分析在当代生活中有广泛的应用。
当前的主流的回归分析算法有BP神经网络回归方法,但该方法的通用性不高,常常出现过拟合现象,造成网络泛化性能低,容错率低,收敛速度过快而导致过拟合,因此提供一种预测输出结果准确性高、容错率高,具有较强的鲁棒性及通用性的模型就显得尤为重要。
发明内容
为了解决上述技术问题,本发明提出了一种基于分段采样的段域神经网络回归方法、系统及存储介质。
本发明第一方面提供了一种基于分段采样的段域神经网络回归方法,包括:
获取样本数据集,采用包装特征选择方法对样本数据集进行特征选择,利用随机森林算法测试前向搜索特征选择结果与后向搜索特征选择结果的重要性;
判断前向搜索特征选择结果与后向搜索特征选择结果的重要性大小,通过重要性较大的特征选择结果生成特征挑选后的数据集;
将完成特征挑选后的数据集划分为训练集和测试集,根据训练集进行k-fold交叉验证,生成初级回归模型和初级回归模型的第一输出信息;
根据所述第一输出信息生成新数据集,对所述新数据集进行连续分段采样得到不同段域的子集合;
基于梯度下降对不同段域子集合进行训练得到次级回归模型,同时得到不同段域的权值矩阵及偏差矩阵;
将所述测试集输入所述初级回归模型中生成第二输出信息,将第二输出信息输入所述次级回归模型,得到最终段域神经网络回归模型的预测结果。
本方案中,所述的根据训练集进行k-fold交叉验证,生成初级回归模型和初级回归模型的第一输出信息,具体为:
将完成特征挑选后的数据集划分为训练集和测试集,将所述训练集随机划分成k份大小相似的子数据集;
通过k份子数据集进行k-fold交叉验证,得到k个初级回归模型和k个对应初级回归模型的第一输出信息,通过k个第一输出信息生成新数据集。
本方案中,所述基于梯度下降对不同段域子集合进行训练得到次级回归模型,同时得到不同段域的权值矩阵及偏差矩阵,具体为:
通过梯度下降的方法对不同段域的样本点集合里的数据进行第二次回归模型训练,得到次级回归模型。
本方案中,所述次级回归模型的训练过程为:
所述损失函数为:
将所有段域的权值信息组成权值向量,同时将对应的偏差信息组成偏差向量,根据所述权值向量及偏差向量输出训练后的次级回归模型,同时生成权值矩阵W与权值矩阵B。
本方案中,所述的将所述测试集输入所述初级回归模型中生成第二输出信息,将第二输出信息输入所述次级回归模型,得到最终段域神经网络回归模型的预测结果,具体为:
将所述测试集输入到交叉验证中训练出来的k个初级回归模型,生成第二输出信息;
将所述第二输出信息输入已经训练好的次级回归模型中,将所述第二输出信息和权值矩阵W相乘,相乘后和偏差矩阵B相加;
对运算完的矩阵的行向量取平均得到最终的段域神经网络回归模型的预测结果。
本发明第二方面还提供了一种基于分段采样的段域神经网络回归系统,该系统包括:存储器、处理器,所述存储器中包括一种基于分段采样的段域神经网络回归方法程序,所述一种基于分段采样的段域神经网络回归方法程序被所述处理器执行时实现如下步骤:
获取样本数据集,采用包装特征选择方法对样本数据集进行特征选择,利用随机森林算法测试前向搜索特征选择结果与后向搜索特征选择结果的重要性;
判断前向搜索特征选择结果与后向搜索特征选择结果的重要性大小,通过重要性较大的特征选择结果生成特征挑选后的数据集;
将完成特征挑选后的数据集划分为训练集和测试集,根据训练集进行k-fold交叉验证,生成初级回归模型和初级回归模型的第一输出信息;
根据所述第一输出信息生成新数据集,对所述新数据集进行连续分段采样得到不同段域的子集合;
基于梯度下降对不同段域子集合进行训练得到次级回归模型,同时得到不同段域的权值矩阵及偏差矩阵;
将所述测试集输入所述初级回归模型中生成第二输出信息,将第二输出信息输入所述次级回归模型,得到最终段域神经网络回归模型的预测结果。
本方案中,所述的根据训练集进行k-fold交叉验证,生成初级回归模型和初级回归模型的第一输出信息,具体为:
将完成特征挑选后的数据集划分为训练集和测试集,将所述训练集随机划分成k份大小相似的子数据集;
通过k份子数据集进行k-fold交叉验证,得到k个初级回归模型和k个对应初级回归模型的第一输出信息,通过k个第一输出信息生成新数据集。
本方案中,所述基于梯度下降对不同段域子集合进行训练得到次级回归模型,同时得到不同段域的权值矩阵及偏差矩阵,具体为:
通过梯度下降的方法对不同段域的样本点集合里的数据进行第二次回归模型训练,得到次级回归模型。
本方案中,所述次级回归模型的训练过程为:
所述损失函数为:
将所有段域的权值信息组成权值向量,同时将对应的偏差信息组成偏差向量,根据所述权值向量及偏差向量输出训练后的次级回归模型,同时生成权值矩阵W与权值矩阵B。
本方案中,所述的将所述测试集输入所述初级回归模型中生成第二输出信息,将第二输出信息输入所述次级回归模型,得到最终段域神经网络回归模型的预测结果,具体为:
将所述测试集输入到交叉验证中训练出来的k个初级回归模型,生成第二输出信息;
将所述第二输出信息输入已经训练好的次级回归模型中,将所述第二输出信息和权值矩阵W相乘,相乘后和偏差矩阵B相加;
对运算完的矩阵的行向量取平均得到最终的段域神经网络回归模型的预测结果。
本发明第三方面还提供一种计算机可读存储介质,所述计算机可读存储介质中包括一种基于分段采样的段域神经网络回归方法程序,所述一种基于分段采样的段域神经网络回归方法程序被处理器执行时,实现如上述任一项所述的一种基于分段采样的段域神经网络回归方法的步骤。
本发明公开了一种基于分段采样的段域神经网络回归方法、系统及存储介质,包括:获取样本数据集,对样本数据进行特征选择;将完成特征挑选后的数据集划分为训练集和测试集,根据训练集进行k-fold交叉验证,生成初级回归模型和初级回归模型的第一输出信息;根据第一输出信息生成新数据集,对新数据集进行连续分段采样得到不同段域的子集合;基于梯度下降对不同段域子集合进行训练得到次级回归模型,同时得到不同段域的权值矩阵及偏差矩阵;将测试集输入所述初级回归模型中生成第二输出信息,将第二输出信息输入次级回归模型,得到最终段域神经网络回归模型的预测结果。本发明提出了一种根据初级模型的输出大小区间的不同然后分成多个集合,并对每个集合单独训练一个次级模型的方法及一个段域采样函数来对初级模型的输出进行取样来完成划分集合的方法。本发明不会出现过拟合现象,且预测输出结果准确性高、容错率高,训练出来的回归模型具有较强的鲁棒性能,模型的通用性高,可以服务于广泛的回归问题,能更好的预测生活中的各类回归分析问题。
附图说明
图1示出了本发明一种基于分段采样的段域神经网络回归方法的流程图;
图3示出了本发明一种基于分段采样的段域神经网络回归系统的框图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1示出了本发明一种基于分段采样的段域神经网络回归方法的流程图。
如图1所示,本发明第一方面提供了一种基于分段采样的段域神经网络回归方法,包括:
S102,获取样本数据集,采用包装特征选择方法对样本数据集进行特征选择,利用随机森林算法测试前向搜索特征选择结果与后向搜索特征选择结果的重要性;
S104,判断前向搜索特征选择结果与后向搜索特征选择结果的重要性大小,通过重要性较大的特征选择结果生成特征挑选后的数据集;
S106,将完成特征挑选后的数据集划分为训练集和测试集,根据训练集进行k-fold交叉验证,生成初级回归模型和初级回归模型的第一输出信息;
S108,根据所述第一输出信息生成新数据集,对所述新数据集进行连续分段采样得到不同段域的子集合;
S110,基于梯度下降对不同段域子集合进行训练得到次级回归模型,同时得到不同段域的权值矩阵及偏差矩阵;
S112,将所述测试集输入所述初级回归模型中生成第二输出信息,将第二输出信息输入所述次级回归模型,得到最终段域神经网络回归模型的预测结果;
所述最终段域神经网络回归模型包括初级回归模型及次级回归模型。
需要说明的是,所述的获取样本数据集,对所述样本数据进行特征选择,具体为:
采用包装特征选择方法对样本数据集进行特征选择,所述包装特征选择方法包含前向搜索
和后向搜索,所述前向搜索为每次增量地从剩余未选中的特征选出一个加入特征集中,待
达到阈值或者样本总数时,从所有的特征集中选出错误率最小的特征组合;所述后向搜索
为先将特征集设置为,为样本数据中的特征数目,然后每次删除一个特
征,并评价,直到达到阈值或者为空;然后利用随机森林算法测试特征组合的重要性,生成
完成特征挑选后的数据集。
需要说明的是,所述的根据训练集进行k-fold交叉验证,生成初级回归模型和初级回归模型的第一输出信息,具体为:
再将训练集随机地划分成k份大小相似的子数据集,
然后利用这k份的子数据集做k-fold交叉验证,则可以得到k个初级回归模型和k个对应初级回归模型的第一输出信息,令k个初级回归模型产生的
第一输出信息为新的;新样本的响应仍设置为,故令,是由初级模型生成的新数据集。
需要说明的是,所述基于梯度下降对不同段域子集合进行训练得到次级回归模型,同时得到不同段域的权值矩阵及偏差矩阵,具体为:
当数据集利用段域采样函数进行连续分段采样后,会得到属于不同段域
数据的集合,集合中保存属于该段域内的数据点。其中一组经过采样后得到不同段域
的子集合为,且可知。再使用基于梯度下降的方法对
不同段域的集合里的数据进行第二次回归模型训练,可得到次级回归模型,所述次级
回归模型为线性回归模型。
需要说明的是,所述次级回归模型的训练过程为:
使用由梯度下降计算相应系数的线性回归,得到相应段域的权值和偏差,
将所有段域的权值组成权值向量,同时将对应的
偏差组成偏差向量,根据所述权值向量及偏差向量
输出训练后的次级回归模型,同时生成权值矩阵W与偏差矩阵B;
其中,权值矩阵W为
偏差矩阵B为:
需要说明的是,所述的将所述测试集输入所述初级回归模型中生成第二输出信息,将第二输出信息输入所述次级回归模型,得到最终段域神经网络回归模型的预测结果,具体为:
将所述第二输出信息输入已经训练好的次级回归模型中,将所述第二输出信息和权值矩阵相乘,相乘后和偏差矩阵相加;
对运算完的矩阵的行向量取平均得到最终的段域神经网络回归模型的预测结果。
已知次级模型为线性回归模型,模型由每一组的不同段域的训练出来,
权值矩阵和偏差矩阵保存了不同段域的线性模型,故只需要把初级模型的输出和权值矩阵
相乘,相乘后再和偏差矩阵相加,接着对运算完的矩阵的行向量取平均就得到最终的段域
神经网络回归模型的预测结果。
图3示出了本发明一种基于分段采样的段域神经网络回归系统的框图。
本发明第二方面还提供了一种基于分段采样的段域神经网络回归系统3,该系统包括:存储器31、处理器32,所述存储器中包括一种基于分段采样的段域神经网络回归方法程序,所述一种基于分段采样的段域神经网络回归方法程序被所述处理器执行时实现如下步骤:
获取样本数据集,采用包装特征选择方法对样本数据集进行特征选择,利用随机森林算法测试前向搜索特征选择结果与后向搜索特征选择结果的重要性;
判断前向搜索特征选择结果与后向搜索特征选择结果的重要性大小,通过重要性较大的特征选择结果生成特征挑选后的数据集;
将完成特征挑选后的数据集划分为训练集和测试集,根据训练集进行k-fold交叉验证,生成初级回归模型和初级回归模型的第一输出信息;
根据所述第一输出信息生成新数据集,对所述新数据集进行连续分段采样得到不同段域的子集合;
基于梯度下降对不同段域子集合进行训练得到次级回归模型,同时得到不同段域的权值矩阵及偏差矩阵;
将所述测试集输入所述初级回归模型中生成第二输出信息,将第二输出信息输入所述次级回归模型,得到最终段域神经网络回归模型的预测结果;
所述最终段域神经网络回归模型包括初级回归模型及次级回归模型。
需要说明的是,所述的获取样本数据集,对所述样本数据进行特征选择,具体为:
采用包装特征选择方法对样本数据集进行特征选择,所述包装特征选择方法包含前向搜索
和后向搜索,所述前向搜索为每次增量地从剩余未选中的特征选出一个加入特征集中,待
达到阈值或者样本总数时,从所有的特征集中选出错误率最小的特征组合;所述后向搜索
为先将特征集设置为,为样本数据中的特征数目,然后每次删除一个特
征,并评价,直到达到阈值或者为空;然后利用随机森林算法测试特征组合的重要性,生成
完成特征挑选后的数据集。
需要说明的是,所述的根据训练集进行k-fold交叉验证,生成初级回归模型和初级回归模型的第一输出信息,具体为:
再将训练集随机地划分成k份大小相似的子数据集,
然后利用这k份的子数据集做k-fold交叉验证,则可以得到k个初级回归模型和k个对应初级回归模型的第一输出信息,令k个初级回归模型产生的
第一输出信息为新的;新样本的响应仍设置为,故令,是由初级模型生成的新数据集。
需要说明的是,所述基于梯度下降对不同段域子集合进行训练得到次级回归模型,同时得到不同段域的权值矩阵及偏差矩阵,具体为:
当数据集利用段域采样函数进行连续分段采样后,会得到属于不同段域
数据的集合,集合中保存属于该段域内的数据点。其中一组经过采样后得到不同段域
的子集合为,且可知。再使用基于梯度下降的方法对
不同段域的集合里的数据进行第二次回归模型训练,可得到次级回归模型。
需要说明的是,所述次级回归模型的训练过程为:
使用由梯度下降计算相应系数的线性回归,得到相应段域的权值和偏差,
将所有段域的权值组成权值向量,同时将对应的
偏差组成偏差向量,根据所述权值向量及偏差向量
输出训练后的次级回归模型,同时生成权值矩阵W与偏差矩阵B
其中,权重矩阵W为:
偏差矩阵B为:
需要说明的是,所述的将所述测试集输入所述初级回归模型中生成第二输出信息,将第二输出信息输入所述次级回归模型,得到最终段域神经网络回归模型的预测结果,具体为:
将所述第二输出信息输入已经训练好的次级回归模型中,将所述第二输出信息和权值矩阵相乘,相乘后和偏差矩阵相加;
对运算完的矩阵的行向量取平均得到最终的段域神经网络回归模型的预测结果。
已知次级模型为线性回归模型,模型由每一组的不同段域的训练出来,
权值矩阵和偏差矩阵保存了不同段域的线性模型,故只需要把初级模型的输出和权值矩阵
相乘,相乘后再和偏差矩阵相加,接着对运算完的矩阵的行向量取平均就得到最终的段域
神经网络回归模型的预测结果。
本发明第三方面还提供一种计算机可读存储介质,所述计算机可读存储介质中包括一种基于分段采样的段域神经网络回归方法程序,所述一种基于分段采样的段域神经网络回归方法程序被处理器执行时,实现如上述任一项所述的一种基于分段采样的段域神经网络回归方法的步骤。
本发明公开了一种基于分段采样的段域神经网络回归方法、系统及存储介质,包括:获取样本数据集,对样本数据进行特征选择;将完成特征挑选后的数据集划分为训练集和测试集,根据训练集进行k-fold交叉验证,生成初级回归模型和初级回归模型的第一输出信息;根据第一输出信息生成新数据集,对新数据集进行连续分段采样得到不同段域的子集合;基于梯度下降对不同段域子集合进行训练得到次级回归模型,同时得到不同段域的权值矩阵及偏差矩阵;将测试集输入所述初级回归模型中生成第二输出信息,将第二输出信息输入次级回归模型,得到最终段域神经网络回归模型的预测结果。本发明提出了一种根据初级模型的输出大小区间的不同然后分成多个集合,并对每个集合单独训练一个次级模型的方法及一个段域采样函数来对初级模型的输出进行取样来完成划分集合的方法。本发明不会出现过拟合现象,且预测输出结果准确性高、容错率高,训练出来的回归模型具有较强的鲁棒性能,模型的通用性高,可以服务于广泛的回归问题,能更好的预测生活中的各类回归分析问题。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (9)
1.一种基于分段采样的段域神经网络回归方法,其特征在于,包括如下步骤:
获取样本数据集,采用包装特征选择方法对样本数据集进行特征选择,利用随机森林算法测试前向搜索特征选择结果与后向搜索特征选择结果的重要性;
判断前向搜索特征选择结果与后向搜索特征选择结果的重要性大小,通过重要性较大的特征选择结果生成特征挑选后的数据集;
将完成特征挑选后的数据集划分为训练集和测试集,根据训练集进行k-fold交叉验证,生成初级回归模型和初级回归模型的第一输出信息;
根据所述第一输出信息生成新数据集,对所述新数据集进行连续分段采样得到不同段域的子集合;
基于梯度下降对不同段域子集合进行训练得到次级回归模型,同时得到不同段域的权值矩阵及偏差矩阵;
将所述测试集输入所述初级回归模型中生成第二输出信息,将第二输出信息输入所述次级回归模型,得到最终段域神经网络回归模型的预测结果。
2.根据权利要求1所述的一种基于分段采样的段域神经网络回归方法,其特征在于,所述的根据训练集进行k-fold交叉验证,生成初级回归模型和初级回归模型的第一输出信息,具体为:
将完成特征挑选后的数据集划分为训练集和测试集,将所述训练集随机划分成k份大小相似的子数据集;
通过k份子数据集进行k-fold交叉验证,得到k个初级回归模型和k个对应初级回归模型的第一输出信息,通过k个第一输出信息生成新数据集。
4.根据权利要求3所述的一种基于分段采样的段域神经网络回归方法,其特征在于,所述次级回归模型的训练过程为:
所述损失函数为:
将所有段域的权值信息组成权值向量,同时将对应的偏差信息组成偏差向量,根据所述权值向量及偏差向量输出训练后的次级回归模型,同时生成权值矩阵与偏差矩阵。
5.根据权利要求1所述的一种基于分段采样的段域神经网络回归方法,其特征在于,所述的将所述测试集输入所述初级回归模型中生成第二输出信息,将第二输出信息输入所述次级回归模型,得到最终段域神经网络回归模型的预测结果,具体为:
将所述测试集输入到交叉验证中训练出来的k个初级回归模型,生成第二输出信息;
将所述第二输出信息输入已经训练好的次级回归模型中,将所述第二输出信息和权值矩阵相乘,相乘后和偏差矩阵相加;
对运算完的矩阵的行向量取平均得到最终的段域神经网络回归模型的预测结果。
6.一种基于分段采样的段域神经网络回归系统,其特征在于,该系统包括:存储器、处理器,所述存储器中包括一种基于分段采样的段域神经网络回归方法程序,所述一种基于分段采样的段域神经网络回归的方法程序被所述处理器执行时实现如下步骤:
获取样本数据集,采用包装特征选择方法对样本数据集进行特征选择,利用随机森林算法测试前向搜索特征选择结果与后向搜索特征选择结果的重要性;
判断前向搜索特征选择结果与后向搜索特征选择结果的重要性大小,通过重要性较大的特征选择结果生成特征挑选后的数据集;
将完成特征挑选后的数据集划分为训练集和测试集,根据训练集进行k-fold交叉验证,生成初级回归模型和初级回归模型的第一输出信息;
根据所述第一输出信息生成新数据集,对所述新数据集进行连续分段采样得到不同段域的子集合;
基于梯度下降对不同段域子集合进行训练得到次级回归模型,同时得到不同段域的权值矩阵及偏差矩阵;
将所述测试集输入所述初级回归模型中生成第二输出信息,将第二输出信息输入所述次级回归模型,得到最终段域神经网络回归模型的预测结果。
7.根据权利要求6所述的一种基于分段采样的段域神经网络回归系统,其特征在于,所述的根据训练集进行k-fold交叉验证,生成初级回归模型和初级回归模型的第一输出信息,具体为:
将完成特征挑选后的数据集划分为训练集和测试集,将所述训练集随机划分成k份大小相似的子数据集;
通过k份子数据集进行k-fold交叉验证,得到k个初级回归模型和k个对应初级回归模型的第一输出信息,通过k个第一输出信息生成新数据集。
9.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质中包括一种基于分段采样的段域神经网络回归方法程序,所述一种基于分段采样的段域神经网络回归方法程序被处理器执行时,实现如权利要求1至5中任一项所述的一种基于分段采样的段域神经网络回归方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210048796.2A CN114077874A (zh) | 2022-01-17 | 2022-01-17 | 基于分段采样的段域神经网络回归方法、系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210048796.2A CN114077874A (zh) | 2022-01-17 | 2022-01-17 | 基于分段采样的段域神经网络回归方法、系统及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114077874A true CN114077874A (zh) | 2022-02-22 |
Family
ID=80284534
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210048796.2A Pending CN114077874A (zh) | 2022-01-17 | 2022-01-17 | 基于分段采样的段域神经网络回归方法、系统及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114077874A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106897821A (zh) * | 2017-01-24 | 2017-06-27 | 中国电力科学研究院 | 一种暂态评估特征选择方法及装置 |
CN108268426A (zh) * | 2016-12-30 | 2018-07-10 | 广东精点数据科技股份有限公司 | 一种基于切线单折线法的信赖域求解逻辑回归分析的方法 |
CN111368904A (zh) * | 2020-02-29 | 2020-07-03 | 华南理工大学 | 一种基于电力指纹的电器设备识别方法 |
US20210097453A1 (en) * | 2018-06-12 | 2021-04-01 | Tsinghua University | Method for quantile probabilistic short-term power load ensemble forecasting, electronic device and storage medium |
CN113436684A (zh) * | 2021-07-02 | 2021-09-24 | 南昌大学 | 一种癌症分类和特征基因选择方法 |
-
2022
- 2022-01-17 CN CN202210048796.2A patent/CN114077874A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108268426A (zh) * | 2016-12-30 | 2018-07-10 | 广东精点数据科技股份有限公司 | 一种基于切线单折线法的信赖域求解逻辑回归分析的方法 |
CN106897821A (zh) * | 2017-01-24 | 2017-06-27 | 中国电力科学研究院 | 一种暂态评估特征选择方法及装置 |
US20210097453A1 (en) * | 2018-06-12 | 2021-04-01 | Tsinghua University | Method for quantile probabilistic short-term power load ensemble forecasting, electronic device and storage medium |
CN111368904A (zh) * | 2020-02-29 | 2020-07-03 | 华南理工大学 | 一种基于电力指纹的电器设备识别方法 |
CN113436684A (zh) * | 2021-07-02 | 2021-09-24 | 南昌大学 | 一种癌症分类和特征基因选择方法 |
Non-Patent Citations (2)
Title |
---|
JIMIN LIU ET.AL.: "Early Diabetes Prediction Based on Stacking Ensemble Learning Model", 《2021 33RD CHINESE CONTROL AND DECISION CONFERENCE (CCDC)》 * |
薛宏伟等: "车联网环境下基于Stacking集成学习的车辆异常行为检测方法", 《汽车工程》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107609708B (zh) | 一种基于手机游戏商店的用户流失预测方法及系统 | |
Wisesa et al. | Prediction analysis sales for corporate services telecommunications company using gradient boost algorithm | |
CN113518011B (zh) | 异常检测方法和装置、电子设备及计算机可读存储介质 | |
CN107563645A (zh) | 一种基于大数据的金融风险分析方法 | |
US20190362228A1 (en) | Learning support device and learning support method | |
US20210397956A1 (en) | Activity level measurement using deep learning and machine learning | |
CN112163624A (zh) | 基于深度学习和极值理论的数据异常判断方法及系统 | |
CN111582577A (zh) | 一种电信用户离网预测方法、系统、介质及设备 | |
CN112801693A (zh) | 基于高价值用户的广告特征分析方法及系统 | |
CN110956278A (zh) | 重新训练机器学习模型的方法和系统 | |
CN113283673A (zh) | 一种模型性能衰减评价方法、模型训练方法及装置 | |
CN117592656A (zh) | 基于碳数据核算的碳足迹监控方法及系统 | |
CN117170915A (zh) | 数据中心设备故障预测方法、装置和计算机设备 | |
US7617172B2 (en) | Using percentile data in business analysis of time series data | |
CN114077874A (zh) | 基于分段采样的段域神经网络回归方法、系统及存储介质 | |
CN110796379A (zh) | 业务渠道的风险评估方法、装置、设备及存储介质 | |
CN115062687A (zh) | 企业信用监控方法、装置、设备及存储介质 | |
CN109978038B (zh) | 一种集群异常判定方法及装置 | |
CN115438885A (zh) | 业务异常波动的检测方法、装置、设备及存储介质 | |
CN111898708A (zh) | 一种迁移学习方法和电子设备 | |
CN112738098A (zh) | 一种基于网络行为数据的异常检测方法及装置 | |
CN112257072B (zh) | 基于去重算法的高性能数据风险影响面量化评估方法 | |
CN116542801B (zh) | 一种财务数据分析方法及系统 | |
CN117312350B (zh) | 钢铁行业碳排放数据管理方法及装置 | |
CN112348296B (zh) | 电信数据获取方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220222 |
|
RJ01 | Rejection of invention patent application after publication |