CN114077874A - 基于分段采样的段域神经网络回归方法、系统及存储介质 - Google Patents

基于分段采样的段域神经网络回归方法、系统及存储介质 Download PDF

Info

Publication number
CN114077874A
CN114077874A CN202210048796.2A CN202210048796A CN114077874A CN 114077874 A CN114077874 A CN 114077874A CN 202210048796 A CN202210048796 A CN 202210048796A CN 114077874 A CN114077874 A CN 114077874A
Authority
CN
China
Prior art keywords
segment
regression model
output information
neural network
sampling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210048796.2A
Other languages
English (en)
Inventor
丘梓杰
黄潮源
凌永权
刘庆
陈丹妮
韦怡婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202210048796.2A priority Critical patent/CN114077874A/zh
Publication of CN114077874A publication Critical patent/CN114077874A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明公开了一种基于分段采样的段域神经网络回归方法、系统及存储介质,包括:获取样本数据集,对样本数据进行特征选择;将完成特征挑选后的数据集划分为训练集和测试集,根据训练集进行k‑fold交叉验证,生成初级回归模型和初级回归模型的第一输出信息;根据第一输出信息生成新数据集,对新数据集进行连续分段采样得到不同段域的子集合;基于梯度下降对不同段域子集合进行训练得到次级回归模型,同时得到不同段域的权值矩阵及偏差矩阵;将测试集输入所述初级回归模型中生成第二输出信息,将第二输出信息输入次级回归模型,得到最终段域神经网络回归模型的预测结果。本发明的回归模型预测输出结果的准确性高、容错率高,有较强的鲁棒性能。

Description

基于分段采样的段域神经网络回归方法、系统及存储介质
技术领域
本发明涉及数据分析技术领域,更具体的,涉及一种基于分段采样的段域神经网络回归方法、系统及存储介质。
背景技术
当今时代是信息时代,每天都会出现大量的数据,利用好这些数据能对我们的生活带来很大的影响,利用大数据回归分析出准确的模型的问题,有很大的价值。利用大数据回归分析,就可以根据当前和过去的信息来预测未来情况。比如利用大数据回归分析公司未来几年的发展情况,在哪些方面需要加大投入决定了一个公司的走向,根据大数据回归分析顾客的喜好,给顾客推送相应的服务,让顾客得到更好的服务,提高了生活质量。人们在日常工作中会碰到从分类归纳的数据中找变量与变量之间的关系,这时利用大数据回归分析就可以通过图表清楚明了的展示出自变量与因变量之间的关系从而提高了工作效率。同时,回归分析还可以运用于医疗健康设备中,比如佩戴健康监测手表,给人们提供实时的健康状况告警或分析出复杂的医疗数据,所以大数据回归分析在当代生活中有广泛的应用。
当前的主流的回归分析算法有BP神经网络回归方法,但该方法的通用性不高,常常出现过拟合现象,造成网络泛化性能低,容错率低,收敛速度过快而导致过拟合,因此提供一种预测输出结果准确性高、容错率高,具有较强的鲁棒性及通用性的模型就显得尤为重要。
发明内容
为了解决上述技术问题,本发明提出了一种基于分段采样的段域神经网络回归方法、系统及存储介质。
本发明第一方面提供了一种基于分段采样的段域神经网络回归方法,包括:
获取样本数据集,采用包装特征选择方法对样本数据集进行特征选择,利用随机森林算法测试前向搜索特征选择结果与后向搜索特征选择结果的重要性;
判断前向搜索特征选择结果与后向搜索特征选择结果的重要性大小,通过重要性较大的特征选择结果生成特征挑选后的数据集;
将完成特征挑选后的数据集划分为训练集和测试集,根据训练集进行k-fold交叉验证,生成初级回归模型和初级回归模型的第一输出信息;
根据所述第一输出信息生成新数据集,对所述新数据集进行连续分段采样得到不同段域的子集合;
基于梯度下降对不同段域子集合进行训练得到次级回归模型,同时得到不同段域的权值矩阵及偏差矩阵;
将所述测试集输入所述初级回归模型中生成第二输出信息,将第二输出信息输入所述次级回归模型,得到最终段域神经网络回归模型的预测结果。
本方案中,所述的根据训练集进行k-fold交叉验证,生成初级回归模型和初级回归模型的第一输出信息,具体为:
将完成特征挑选后的数据集划分为训练集和测试集,将所述训练集随机划分成k份大小相似的子数据集;
通过k份子数据集进行k-fold交叉验证,得到k个初级回归模型和k个对应初级回归模型的第一输出信息,通过k个第一输出信息生成新数据集。
本方案中,所述基于梯度下降对不同段域子集合进行训练得到次级回归模型,同时得到不同段域的权值矩阵及偏差矩阵,具体为:
对所述新数据集通过预设段域采样函数进行连续分段采样,生成不同段域的样本 点集合,所述预设段域采样函数
Figure 594006DEST_PATH_IMAGE001
为:
Figure 42305DEST_PATH_IMAGE002
其中,
Figure 900670DEST_PATH_IMAGE003
Figure 827038DEST_PATH_IMAGE004
为超参数,满足
Figure 906990DEST_PATH_IMAGE005
Figure 260610DEST_PATH_IMAGE006
为 采样区间,即
Figure 809535DEST_PATH_IMAGE001
具体地可表示为:
Figure 336331DEST_PATH_IMAGE007
通过梯度下降的方法对不同段域的样本点集合里的数据进行第二次回归模型训练,得到次级回归模型。
本方案中,所述次级回归模型的训练过程为:
令次级回归模型为
Figure 536368DEST_PATH_IMAGE008
Figure 811623DEST_PATH_IMAGE009
表示次级回归表达式,
Figure 831531DEST_PATH_IMAGE010
表示段域偏 差信息,
Figure 99702DEST_PATH_IMAGE011
表示段域权值信息,
Figure 154245DEST_PATH_IMAGE012
表示误差项;
由梯度下降算法计算相应参数
Figure 662718DEST_PATH_IMAGE010
Figure 435502DEST_PATH_IMAGE011
的线性回归,定义次级回归模型的损失函 数
Figure 976205DEST_PATH_IMAGE013
,对
Figure 901567DEST_PATH_IMAGE013
分别做
Figure 767892DEST_PATH_IMAGE010
Figure 824709DEST_PATH_IMAGE011
的偏导数,进行迭代训练直至导数收敛,生成相应 段域的权值信息和偏差信息;
所述损失函数为:
Figure 185415DEST_PATH_IMAGE014
其中,
Figure 948971DEST_PATH_IMAGE015
表示损失函数,
Figure 251777DEST_PATH_IMAGE016
表示训练数据中的数据总数,
Figure 733573DEST_PATH_IMAGE017
表示数据项数,
Figure 694707DEST_PATH_IMAGE010
表示 段域偏差信息,
Figure 578350DEST_PATH_IMAGE011
表示段域权值信息,
Figure 786477DEST_PATH_IMAGE009
表示次级回归表达式;
将所有段域的权值信息组成权值向量,同时将对应的偏差信息组成偏差向量,根据所述权值向量及偏差向量输出训练后的次级回归模型,同时生成权值矩阵W与权值矩阵B。
本方案中,所述的将所述测试集输入所述初级回归模型中生成第二输出信息,将第二输出信息输入所述次级回归模型,得到最终段域神经网络回归模型的预测结果,具体为:
将所述测试集输入到交叉验证中训练出来的k个初级回归模型,生成第二输出信息;
将所述第二输出信息输入已经训练好的次级回归模型中,将所述第二输出信息和权值矩阵W相乘,相乘后和偏差矩阵B相加;
对运算完的矩阵的行向量取平均得到最终的段域神经网络回归模型的预测结果。
本发明第二方面还提供了一种基于分段采样的段域神经网络回归系统,该系统包括:存储器、处理器,所述存储器中包括一种基于分段采样的段域神经网络回归方法程序,所述一种基于分段采样的段域神经网络回归方法程序被所述处理器执行时实现如下步骤:
获取样本数据集,采用包装特征选择方法对样本数据集进行特征选择,利用随机森林算法测试前向搜索特征选择结果与后向搜索特征选择结果的重要性;
判断前向搜索特征选择结果与后向搜索特征选择结果的重要性大小,通过重要性较大的特征选择结果生成特征挑选后的数据集;
将完成特征挑选后的数据集划分为训练集和测试集,根据训练集进行k-fold交叉验证,生成初级回归模型和初级回归模型的第一输出信息;
根据所述第一输出信息生成新数据集,对所述新数据集进行连续分段采样得到不同段域的子集合;
基于梯度下降对不同段域子集合进行训练得到次级回归模型,同时得到不同段域的权值矩阵及偏差矩阵;
将所述测试集输入所述初级回归模型中生成第二输出信息,将第二输出信息输入所述次级回归模型,得到最终段域神经网络回归模型的预测结果。
本方案中,所述的根据训练集进行k-fold交叉验证,生成初级回归模型和初级回归模型的第一输出信息,具体为:
将完成特征挑选后的数据集划分为训练集和测试集,将所述训练集随机划分成k份大小相似的子数据集;
通过k份子数据集进行k-fold交叉验证,得到k个初级回归模型和k个对应初级回归模型的第一输出信息,通过k个第一输出信息生成新数据集。
本方案中,所述基于梯度下降对不同段域子集合进行训练得到次级回归模型,同时得到不同段域的权值矩阵及偏差矩阵,具体为:
对所述新数据集通过预设段域采样函数进行连续分段采样,生成不同段域的样本 点集合,所述预设段域采样函数
Figure 303040DEST_PATH_IMAGE001
为:
Figure 254816DEST_PATH_IMAGE002
其中,
Figure 258544DEST_PATH_IMAGE003
Figure 653884DEST_PATH_IMAGE004
为超参数,满足
Figure 110273DEST_PATH_IMAGE005
Figure 600161DEST_PATH_IMAGE006
为 采样区间,即
Figure 192816DEST_PATH_IMAGE001
具体地可表示为:
Figure 555795DEST_PATH_IMAGE007
通过梯度下降的方法对不同段域的样本点集合里的数据进行第二次回归模型训练,得到次级回归模型。
本方案中,所述次级回归模型的训练过程为:
令次级回归模型为
Figure 233901DEST_PATH_IMAGE008
Figure 793059DEST_PATH_IMAGE009
表示次级回归表达式,
Figure 53270DEST_PATH_IMAGE010
表示段域偏 差信息,
Figure 774101DEST_PATH_IMAGE011
表示段域权值信息,
Figure 205082DEST_PATH_IMAGE012
表示误差项;
由梯度下降算法计算相应参数
Figure 799223DEST_PATH_IMAGE010
Figure 632050DEST_PATH_IMAGE011
的线性回归,定义次级回归模型的损失函 数
Figure 320521DEST_PATH_IMAGE013
,对
Figure 989530DEST_PATH_IMAGE013
分别做
Figure 624911DEST_PATH_IMAGE010
Figure 843403DEST_PATH_IMAGE011
的偏导数,进行迭代训练直至导数收敛,生成相应 段域的权值信息和偏差信息;
所述损失函数为:
Figure 922348DEST_PATH_IMAGE014
其中,
Figure 796763DEST_PATH_IMAGE015
表示损失函数,
Figure 501414DEST_PATH_IMAGE016
表示训练数据中的数据总数,
Figure 590724DEST_PATH_IMAGE017
表示数据项数,
Figure 89839DEST_PATH_IMAGE010
表示 段域偏差信息,
Figure 717129DEST_PATH_IMAGE011
表示段域权值信息,
Figure 694312DEST_PATH_IMAGE009
表示次级回归表达式;
将所有段域的权值信息组成权值向量,同时将对应的偏差信息组成偏差向量,根据所述权值向量及偏差向量输出训练后的次级回归模型,同时生成权值矩阵W与权值矩阵B。
本方案中,所述的将所述测试集输入所述初级回归模型中生成第二输出信息,将第二输出信息输入所述次级回归模型,得到最终段域神经网络回归模型的预测结果,具体为:
将所述测试集输入到交叉验证中训练出来的k个初级回归模型,生成第二输出信息;
将所述第二输出信息输入已经训练好的次级回归模型中,将所述第二输出信息和权值矩阵W相乘,相乘后和偏差矩阵B相加;
对运算完的矩阵的行向量取平均得到最终的段域神经网络回归模型的预测结果。
本发明第三方面还提供一种计算机可读存储介质,所述计算机可读存储介质中包括一种基于分段采样的段域神经网络回归方法程序,所述一种基于分段采样的段域神经网络回归方法程序被处理器执行时,实现如上述任一项所述的一种基于分段采样的段域神经网络回归方法的步骤。
本发明公开了一种基于分段采样的段域神经网络回归方法、系统及存储介质,包括:获取样本数据集,对样本数据进行特征选择;将完成特征挑选后的数据集划分为训练集和测试集,根据训练集进行k-fold交叉验证,生成初级回归模型和初级回归模型的第一输出信息;根据第一输出信息生成新数据集,对新数据集进行连续分段采样得到不同段域的子集合;基于梯度下降对不同段域子集合进行训练得到次级回归模型,同时得到不同段域的权值矩阵及偏差矩阵;将测试集输入所述初级回归模型中生成第二输出信息,将第二输出信息输入次级回归模型,得到最终段域神经网络回归模型的预测结果。本发明提出了一种根据初级模型的输出大小区间的不同然后分成多个集合,并对每个集合单独训练一个次级模型的方法及一个段域采样函数来对初级模型的输出进行取样来完成划分集合的方法。本发明不会出现过拟合现象,且预测输出结果准确性高、容错率高,训练出来的回归模型具有较强的鲁棒性能,模型的通用性高,可以服务于广泛的回归问题,能更好的预测生活中的各类回归分析问题。
附图说明
图1示出了本发明一种基于分段采样的段域神经网络回归方法的流程图;
图2示出了采样函数
Figure 841391DEST_PATH_IMAGE001
Figure 511407DEST_PATH_IMAGE018
取值范围的采样图;
图3示出了本发明一种基于分段采样的段域神经网络回归系统的框图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1示出了本发明一种基于分段采样的段域神经网络回归方法的流程图。
如图1所示,本发明第一方面提供了一种基于分段采样的段域神经网络回归方法,包括:
S102,获取样本数据集,采用包装特征选择方法对样本数据集进行特征选择,利用随机森林算法测试前向搜索特征选择结果与后向搜索特征选择结果的重要性;
S104,判断前向搜索特征选择结果与后向搜索特征选择结果的重要性大小,通过重要性较大的特征选择结果生成特征挑选后的数据集;
S106,将完成特征挑选后的数据集划分为训练集和测试集,根据训练集进行k-fold交叉验证,生成初级回归模型和初级回归模型的第一输出信息;
S108,根据所述第一输出信息生成新数据集,对所述新数据集进行连续分段采样得到不同段域的子集合;
S110,基于梯度下降对不同段域子集合进行训练得到次级回归模型,同时得到不同段域的权值矩阵及偏差矩阵;
S112,将所述测试集输入所述初级回归模型中生成第二输出信息,将第二输出信息输入所述次级回归模型,得到最终段域神经网络回归模型的预测结果;
所述最终段域神经网络回归模型包括初级回归模型及次级回归模型。
需要说明的是,所述的获取样本数据集,对所述样本数据进行特征选择,具体为: 采用包装特征选择方法对样本数据集进行特征选择,所述包装特征选择方法包含前向搜索 和后向搜索,所述前向搜索为每次增量地从剩余未选中的特征选出一个加入特征集中,待 达到阈值或者样本总数时,从所有的特征集中选出错误率最小的特征组合;所述后向搜索 为先将特征集设置为
Figure 422731DEST_PATH_IMAGE019
Figure 954338DEST_PATH_IMAGE020
为样本数据中的特征数目,然后每次删除一个特 征,并评价,直到达到阈值或者为空;然后利用随机森林算法测试特征组合的重要性,生成 完成特征挑选后的数据集。
需要说明的是,所述的根据训练集进行k-fold交叉验证,生成初级回归模型和初级回归模型的第一输出信息,具体为:
将完成特征挑选后的数据集以一定比例(主流以7:3或者8:2)随机地划分训练集 和测试集,记训练集为
Figure 470770DEST_PATH_IMAGE021
,测试集为
Figure 311687DEST_PATH_IMAGE022
Figure 913569DEST_PATH_IMAGE023
表示样本,
Figure 248867DEST_PATH_IMAGE024
表示样本对应的响应。
再将训练集
Figure 619805DEST_PATH_IMAGE025
随机地划分成k份大小相似的子数据集
Figure 631624DEST_PATH_IMAGE026
, 然后利用这k份的子数据集做k-fold交叉验证,则可以得到k个初级回归模型
Figure 189644DEST_PATH_IMAGE027
和k个对应初级回归模型的第一输出信息,令k个初级回归模型产生的 第一输出信息为新的
Figure 328632DEST_PATH_IMAGE028
;新样本
Figure 554077DEST_PATH_IMAGE029
的响应仍设置为
Figure 736797DEST_PATH_IMAGE030
,故令
Figure 860742DEST_PATH_IMAGE031
Figure 787110DEST_PATH_IMAGE032
是由初级模型生成的新数据集。
需要说明的是,所述基于梯度下降对不同段域子集合进行训练得到次级回归模型,同时得到不同段域的权值矩阵及偏差矩阵,具体为:
对所述新数据集通过预设段域采样函数进行连续分段采样,生成不同段域的样本 点集合,所述预设段域采样函数
Figure 867061DEST_PATH_IMAGE001
为:
Figure 220682DEST_PATH_IMAGE002
其中,
Figure 769606DEST_PATH_IMAGE033
为超参数,满足
Figure 499665DEST_PATH_IMAGE005
Figure 434123DEST_PATH_IMAGE006
为 采样区间,即
Figure 771694DEST_PATH_IMAGE001
具体地可表示为:
Figure 791603DEST_PATH_IMAGE007
图2示出了了采样函数
Figure 856511DEST_PATH_IMAGE001
Figure 192945DEST_PATH_IMAGE018
取值范围的采样图。
Figure 888369DEST_PATH_IMAGE001
Figure 395574DEST_PATH_IMAGE032
Figure 218167DEST_PATH_IMAGE029
Figure 392797DEST_PATH_IMAGE030
相乘,当
Figure 259122DEST_PATH_IMAGE029
Figure 66672DEST_PATH_IMAGE030
的大小在
Figure 676645DEST_PATH_IMAGE034
这个 区间时,样本点保持不变,而
Figure 440201DEST_PATH_IMAGE029
Figure 477427DEST_PATH_IMAGE030
的大小不在
Figure 772274DEST_PATH_IMAGE034
这个区间时,样 本点变为0,这样就获得了样本属于区间
Figure 185937DEST_PATH_IMAGE034
大小的样本点,将这个 区间的样本点保存成一个新的数据集合
Figure 69580DEST_PATH_IMAGE035
当数据集
Figure 294019DEST_PATH_IMAGE032
利用
Figure 997533DEST_PATH_IMAGE001
段域采样函数进行连续分段采样后,会得到属于不同段域 数据的集合
Figure 949308DEST_PATH_IMAGE035
,集合
Figure 953036DEST_PATH_IMAGE035
中保存属于该段域内的数据点。其中一组经过采样后得到不同段域 的子集合为
Figure 867816DEST_PATH_IMAGE036
,且可知
Figure 324205DEST_PATH_IMAGE037
。再使用基于梯度下降的方法对 不同段域的集合
Figure 79672DEST_PATH_IMAGE038
里的数据进行第二次回归模型训练,可得到次级回归模型
Figure 688639DEST_PATH_IMAGE039
,所述次级 回归模型为线性回归模型。
需要说明的是,所述次级回归模型的训练过程为:
令次级回归模型为
Figure 504148DEST_PATH_IMAGE008
Figure 182254DEST_PATH_IMAGE009
表示次级回归表达式,
Figure 475832DEST_PATH_IMAGE010
表示段域偏 差信息,
Figure 939306DEST_PATH_IMAGE011
表示段域权值信息,
Figure 925716DEST_PATH_IMAGE012
表示误差项;
由梯度下降算法计算相应参数
Figure 356698DEST_PATH_IMAGE010
Figure 1437DEST_PATH_IMAGE011
的线性回归,定义次级回归模型的损失函 数
Figure 568684DEST_PATH_IMAGE040
Figure 725996DEST_PATH_IMAGE016
表示训练数据中的数据总数,
Figure 378694DEST_PATH_IMAGE017
表示数据 项数;
梯度下降的目标是最小化损失函数
Figure 764807DEST_PATH_IMAGE015
,其中的优化问题可表示为:
Figure 452141DEST_PATH_IMAGE041
,对
Figure 780354DEST_PATH_IMAGE042
分别做
Figure 467818DEST_PATH_IMAGE010
Figure 172469DEST_PATH_IMAGE011
的偏导 数:
Figure 714309DEST_PATH_IMAGE043
进行迭代训练直至导数收敛,同时运用
Figure 213423DEST_PATH_IMAGE044
进行 梯度更新,由梯度下降计算相应系数的线性回归生成相应段域的权值信息和偏差信息;
使用由梯度下降计算相应系数的线性回归,得到相应段域的权值
Figure 591446DEST_PATH_IMAGE045
和偏差
Figure 568630DEST_PATH_IMAGE046
, 将所有段域的权值组成权值向量
Figure 230555DEST_PATH_IMAGE047
,同时将对应的 偏差组成偏差向量
Figure 634992DEST_PATH_IMAGE048
,根据所述权值向量及偏差向量 输出训练后的次级回归模型,同时生成权值矩阵W与偏差矩阵B;
其中,权值矩阵W为
Figure 500310DEST_PATH_IMAGE049
偏差矩阵B为:
Figure 281185DEST_PATH_IMAGE050
需要说明的是,所述的将所述测试集输入所述初级回归模型中生成第二输出信息,将第二输出信息输入所述次级回归模型,得到最终段域神经网络回归模型的预测结果,具体为:
将所述测试集
Figure 797617DEST_PATH_IMAGE051
输入到交叉验证中训练出来的k个初级回归模型
Figure 638534DEST_PATH_IMAGE052
,生成第二输出信息;
将所述第二输出信息输入已经训练好的次级回归模型中,将所述第二输出信息和权值矩阵相乘,相乘后和偏差矩阵相加;
对运算完的矩阵的行向量取平均得到最终的段域神经网络回归模型的预测结果。
已知次级模型
Figure 787886DEST_PATH_IMAGE009
为线性回归模型,模型
Figure 372452DEST_PATH_IMAGE009
由每一组
Figure 743390DEST_PATH_IMAGE032
的不同段域的
Figure 505941DEST_PATH_IMAGE038
训练出来, 权值矩阵和偏差矩阵保存了不同段域的线性模型,故只需要把初级模型的输出和权值矩阵 相乘,相乘后再和偏差矩阵相加,接着对运算完的矩阵的行向量取平均就得到最终的段域 神经网络回归模型的预测结果。
图3示出了本发明一种基于分段采样的段域神经网络回归系统的框图。
本发明第二方面还提供了一种基于分段采样的段域神经网络回归系统3,该系统包括:存储器31、处理器32,所述存储器中包括一种基于分段采样的段域神经网络回归方法程序,所述一种基于分段采样的段域神经网络回归方法程序被所述处理器执行时实现如下步骤:
获取样本数据集,采用包装特征选择方法对样本数据集进行特征选择,利用随机森林算法测试前向搜索特征选择结果与后向搜索特征选择结果的重要性;
判断前向搜索特征选择结果与后向搜索特征选择结果的重要性大小,通过重要性较大的特征选择结果生成特征挑选后的数据集;
将完成特征挑选后的数据集划分为训练集和测试集,根据训练集进行k-fold交叉验证,生成初级回归模型和初级回归模型的第一输出信息;
根据所述第一输出信息生成新数据集,对所述新数据集进行连续分段采样得到不同段域的子集合;
基于梯度下降对不同段域子集合进行训练得到次级回归模型,同时得到不同段域的权值矩阵及偏差矩阵;
将所述测试集输入所述初级回归模型中生成第二输出信息,将第二输出信息输入所述次级回归模型,得到最终段域神经网络回归模型的预测结果;
所述最终段域神经网络回归模型包括初级回归模型及次级回归模型。
需要说明的是,所述的获取样本数据集,对所述样本数据进行特征选择,具体为: 采用包装特征选择方法对样本数据集进行特征选择,所述包装特征选择方法包含前向搜索 和后向搜索,所述前向搜索为每次增量地从剩余未选中的特征选出一个加入特征集中,待 达到阈值或者样本总数时,从所有的特征集中选出错误率最小的特征组合;所述后向搜索 为先将特征集设置为
Figure 329540DEST_PATH_IMAGE019
Figure 452217DEST_PATH_IMAGE020
为样本数据中的特征数目,然后每次删除一个特 征,并评价,直到达到阈值或者为空;然后利用随机森林算法测试特征组合的重要性,生成 完成特征挑选后的数据集。
需要说明的是,所述的根据训练集进行k-fold交叉验证,生成初级回归模型和初级回归模型的第一输出信息,具体为:
将完成特征挑选后的数据集以一定比例(主流以7:3或者8:2)随机地划分训练集 和测试集,记训练集为
Figure 677662DEST_PATH_IMAGE021
,测试集为
Figure 611114DEST_PATH_IMAGE022
Figure 187589DEST_PATH_IMAGE023
表示样本,
Figure 910694DEST_PATH_IMAGE024
表示样本对应的响应。
再将训练集
Figure 741378DEST_PATH_IMAGE025
随机地划分成k份大小相似的子数据集
Figure 360578DEST_PATH_IMAGE026
, 然后利用这k份的子数据集做k-fold交叉验证,则可以得到k个初级回归模型
Figure 158770DEST_PATH_IMAGE027
和k个对应初级回归模型的第一输出信息,令k个初级回归模型产生的 第一输出信息为新的
Figure 623250DEST_PATH_IMAGE053
;新样本
Figure 308440DEST_PATH_IMAGE029
的响应仍设置为
Figure 98541DEST_PATH_IMAGE030
,故令
Figure 118450DEST_PATH_IMAGE031
Figure 652200DEST_PATH_IMAGE032
是由初级模型生成的新数据集。
需要说明的是,所述基于梯度下降对不同段域子集合进行训练得到次级回归模型,同时得到不同段域的权值矩阵及偏差矩阵,具体为:
对所述新数据集通过预设段域采样函数进行连续分段采样,生成不同段域的样本 点集合,所述预设段域采样函数
Figure 254213DEST_PATH_IMAGE001
为:
Figure 949637DEST_PATH_IMAGE054
其中,
Figure 722421DEST_PATH_IMAGE003
Figure 545014DEST_PATH_IMAGE004
为超参数,满足
Figure 454065DEST_PATH_IMAGE005
Figure 585969DEST_PATH_IMAGE006
为 采样区间,即
Figure 314890DEST_PATH_IMAGE001
具体地可表示为:
Figure 941175DEST_PATH_IMAGE007
图2示出了了采样函数
Figure 970311DEST_PATH_IMAGE001
Figure 7537DEST_PATH_IMAGE018
取值范围的采样框图。
Figure 754913DEST_PATH_IMAGE001
Figure 727766DEST_PATH_IMAGE032
Figure 611408DEST_PATH_IMAGE029
Figure 819535DEST_PATH_IMAGE030
相乘,当
Figure 539361DEST_PATH_IMAGE029
Figure 756716DEST_PATH_IMAGE030
的大小在
Figure 229285DEST_PATH_IMAGE034
这个 区间时,样本点保持不变,而
Figure 873893DEST_PATH_IMAGE029
Figure 81015DEST_PATH_IMAGE030
的大小不在
Figure 836481DEST_PATH_IMAGE034
这个区间时,样 本点变为0,这样就获得了样本属于区间
Figure 694716DEST_PATH_IMAGE034
大小的样本点,将这个 区间的样本点保存成一个新的数据集合
Figure 57695DEST_PATH_IMAGE035
当数据集
Figure 735801DEST_PATH_IMAGE032
利用
Figure 294958DEST_PATH_IMAGE001
段域采样函数进行连续分段采样后,会得到属于不同段域 数据的集合
Figure 7699DEST_PATH_IMAGE035
,集合
Figure 479263DEST_PATH_IMAGE035
中保存属于该段域内的数据点。其中一组经过采样后得到不同段域 的子集合为
Figure 910245DEST_PATH_IMAGE036
,且可知
Figure 7514DEST_PATH_IMAGE037
。再使用基于梯度下降的方法对 不同段域的集合
Figure 574761DEST_PATH_IMAGE038
里的数据进行第二次回归模型训练,可得到次级回归模型
Figure 279543DEST_PATH_IMAGE039
需要说明的是,所述次级回归模型的训练过程为:
令次级回归模型为
Figure 666662DEST_PATH_IMAGE008
Figure 567622DEST_PATH_IMAGE009
表示次级回归表达式,
Figure 5688DEST_PATH_IMAGE010
表示段域偏 差信息,
Figure 333901DEST_PATH_IMAGE011
表示段域权值信息,
Figure 270633DEST_PATH_IMAGE012
表示误差项;
由梯度下降算法计算相应参数
Figure 460437DEST_PATH_IMAGE010
Figure 2277DEST_PATH_IMAGE011
的线性回归,定义次级回归模型的损失函 数
Figure 501391DEST_PATH_IMAGE040
Figure 128681DEST_PATH_IMAGE016
表示训练数据中的数据总数,
Figure 122176DEST_PATH_IMAGE017
表示数据 项数;
梯度下降的目标是最小化损失函数
Figure 784102DEST_PATH_IMAGE015
,其中的优化问题可表示为:
Figure 188538DEST_PATH_IMAGE041
,对
Figure 37546DEST_PATH_IMAGE042
分别做
Figure 834732DEST_PATH_IMAGE010
Figure 351164DEST_PATH_IMAGE011
的偏导 数:
Figure 192081DEST_PATH_IMAGE055
进行迭代训练直至导数收敛,同时运用
Figure 528384DEST_PATH_IMAGE044
进行 梯度更新,由梯度下降计算相应系数的线性回归生成相应段域的权值信息和偏差信息;
使用由梯度下降计算相应系数的线性回归,得到相应段域的权值
Figure 863682DEST_PATH_IMAGE045
和偏差
Figure 31358DEST_PATH_IMAGE046
, 将所有段域的权值组成权值向量
Figure 43176DEST_PATH_IMAGE047
,同时将对应的 偏差组成偏差向量
Figure 883087DEST_PATH_IMAGE048
,根据所述权值向量及偏差向量 输出训练后的次级回归模型,同时生成权值矩阵W与偏差矩阵B
其中,权重矩阵W为:
Figure 5764DEST_PATH_IMAGE056
偏差矩阵B为:
Figure 496788DEST_PATH_IMAGE057
需要说明的是,所述的将所述测试集输入所述初级回归模型中生成第二输出信息,将第二输出信息输入所述次级回归模型,得到最终段域神经网络回归模型的预测结果,具体为:
将所述测试集
Figure 679508DEST_PATH_IMAGE058
输入到交叉验证中训练出来的k个初级回归模型
Figure 475557DEST_PATH_IMAGE027
,生成第二输出信息;
将所述第二输出信息输入已经训练好的次级回归模型中,将所述第二输出信息和权值矩阵相乘,相乘后和偏差矩阵相加;
对运算完的矩阵的行向量取平均得到最终的段域神经网络回归模型的预测结果。
已知次级模型
Figure 401924DEST_PATH_IMAGE009
为线性回归模型,模型
Figure 747455DEST_PATH_IMAGE009
由每一组
Figure 648546DEST_PATH_IMAGE032
的不同段域的
Figure 446738DEST_PATH_IMAGE038
训练出来, 权值矩阵和偏差矩阵保存了不同段域的线性模型,故只需要把初级模型的输出和权值矩阵 相乘,相乘后再和偏差矩阵相加,接着对运算完的矩阵的行向量取平均就得到最终的段域 神经网络回归模型的预测结果。
本发明第三方面还提供一种计算机可读存储介质,所述计算机可读存储介质中包括一种基于分段采样的段域神经网络回归方法程序,所述一种基于分段采样的段域神经网络回归方法程序被处理器执行时,实现如上述任一项所述的一种基于分段采样的段域神经网络回归方法的步骤。
本发明公开了一种基于分段采样的段域神经网络回归方法、系统及存储介质,包括:获取样本数据集,对样本数据进行特征选择;将完成特征挑选后的数据集划分为训练集和测试集,根据训练集进行k-fold交叉验证,生成初级回归模型和初级回归模型的第一输出信息;根据第一输出信息生成新数据集,对新数据集进行连续分段采样得到不同段域的子集合;基于梯度下降对不同段域子集合进行训练得到次级回归模型,同时得到不同段域的权值矩阵及偏差矩阵;将测试集输入所述初级回归模型中生成第二输出信息,将第二输出信息输入次级回归模型,得到最终段域神经网络回归模型的预测结果。本发明提出了一种根据初级模型的输出大小区间的不同然后分成多个集合,并对每个集合单独训练一个次级模型的方法及一个段域采样函数来对初级模型的输出进行取样来完成划分集合的方法。本发明不会出现过拟合现象,且预测输出结果准确性高、容错率高,训练出来的回归模型具有较强的鲁棒性能,模型的通用性高,可以服务于广泛的回归问题,能更好的预测生活中的各类回归分析问题。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (9)

1.一种基于分段采样的段域神经网络回归方法,其特征在于,包括如下步骤:
获取样本数据集,采用包装特征选择方法对样本数据集进行特征选择,利用随机森林算法测试前向搜索特征选择结果与后向搜索特征选择结果的重要性;
判断前向搜索特征选择结果与后向搜索特征选择结果的重要性大小,通过重要性较大的特征选择结果生成特征挑选后的数据集;
将完成特征挑选后的数据集划分为训练集和测试集,根据训练集进行k-fold交叉验证,生成初级回归模型和初级回归模型的第一输出信息;
根据所述第一输出信息生成新数据集,对所述新数据集进行连续分段采样得到不同段域的子集合;
基于梯度下降对不同段域子集合进行训练得到次级回归模型,同时得到不同段域的权值矩阵及偏差矩阵;
将所述测试集输入所述初级回归模型中生成第二输出信息,将第二输出信息输入所述次级回归模型,得到最终段域神经网络回归模型的预测结果。
2.根据权利要求1所述的一种基于分段采样的段域神经网络回归方法,其特征在于,所述的根据训练集进行k-fold交叉验证,生成初级回归模型和初级回归模型的第一输出信息,具体为:
将完成特征挑选后的数据集划分为训练集和测试集,将所述训练集随机划分成k份大小相似的子数据集;
通过k份子数据集进行k-fold交叉验证,得到k个初级回归模型和k个对应初级回归模型的第一输出信息,通过k个第一输出信息生成新数据集。
3.根据权利要求1所述的一种基于分段采样的段域神经网络回归方法,其特征在于,所述基于梯度下降对不同段域子集合进行训练得到次级回归模型,同时得到不同段域的权值矩阵及偏差矩阵,具体为:
对所述新数据集通过预设段域采样函数进行连续分段采样,生成不同段域的样本点集 合,所述预设段域采样函数
Figure 92553DEST_PATH_IMAGE001
为:
Figure 292590DEST_PATH_IMAGE002
其中,
Figure 817112DEST_PATH_IMAGE003
Figure 102600DEST_PATH_IMAGE004
为超参数,满足
Figure 387082DEST_PATH_IMAGE005
Figure 238363DEST_PATH_IMAGE006
为采样 区间,即
Figure 933787DEST_PATH_IMAGE001
具体地可表示为:
Figure 457303DEST_PATH_IMAGE007
通过梯度下降的方法对不同段域的样本点集合里的数据进行第二次回归模型训练,得到次级回归模型。
4.根据权利要求3所述的一种基于分段采样的段域神经网络回归方法,其特征在于,所述次级回归模型的训练过程为:
令次级回归模型为
Figure 529164DEST_PATH_IMAGE008
Figure 172635DEST_PATH_IMAGE009
表示次级回归表达式,
Figure 304539DEST_PATH_IMAGE010
表示段域偏差信 息,
Figure 846510DEST_PATH_IMAGE011
表示段域权值信息,
Figure 722062DEST_PATH_IMAGE012
表示误差项;
由梯度下降算法计算相应参数
Figure 220040DEST_PATH_IMAGE010
Figure 70315DEST_PATH_IMAGE011
的线性回归,定义次级回归模型的损失函数
Figure 552112DEST_PATH_IMAGE013
,对
Figure 965776DEST_PATH_IMAGE013
分别做
Figure 600151DEST_PATH_IMAGE010
Figure 73857DEST_PATH_IMAGE011
的偏导数,进行迭代训练直至导数收敛,生成相应段 域的权值信息和偏差信息;
所述损失函数为:
Figure 42950DEST_PATH_IMAGE014
其中,
Figure 994726DEST_PATH_IMAGE015
表示损失函数,
Figure 483607DEST_PATH_IMAGE016
表示训练数据中的数据总数,
Figure 128215DEST_PATH_IMAGE017
表示数据项数,
Figure 584604DEST_PATH_IMAGE010
表示段域偏 差信息,
Figure 340071DEST_PATH_IMAGE011
表示段域权值信息,
Figure 949038DEST_PATH_IMAGE009
表示次级回归表达式;
将所有段域的权值信息组成权值向量,同时将对应的偏差信息组成偏差向量,根据所述权值向量及偏差向量输出训练后的次级回归模型,同时生成权值矩阵与偏差矩阵。
5.根据权利要求1所述的一种基于分段采样的段域神经网络回归方法,其特征在于,所述的将所述测试集输入所述初级回归模型中生成第二输出信息,将第二输出信息输入所述次级回归模型,得到最终段域神经网络回归模型的预测结果,具体为:
将所述测试集输入到交叉验证中训练出来的k个初级回归模型,生成第二输出信息;
将所述第二输出信息输入已经训练好的次级回归模型中,将所述第二输出信息和权值矩阵相乘,相乘后和偏差矩阵相加;
对运算完的矩阵的行向量取平均得到最终的段域神经网络回归模型的预测结果。
6.一种基于分段采样的段域神经网络回归系统,其特征在于,该系统包括:存储器、处理器,所述存储器中包括一种基于分段采样的段域神经网络回归方法程序,所述一种基于分段采样的段域神经网络回归的方法程序被所述处理器执行时实现如下步骤:
获取样本数据集,采用包装特征选择方法对样本数据集进行特征选择,利用随机森林算法测试前向搜索特征选择结果与后向搜索特征选择结果的重要性;
判断前向搜索特征选择结果与后向搜索特征选择结果的重要性大小,通过重要性较大的特征选择结果生成特征挑选后的数据集;
将完成特征挑选后的数据集划分为训练集和测试集,根据训练集进行k-fold交叉验证,生成初级回归模型和初级回归模型的第一输出信息;
根据所述第一输出信息生成新数据集,对所述新数据集进行连续分段采样得到不同段域的子集合;
基于梯度下降对不同段域子集合进行训练得到次级回归模型,同时得到不同段域的权值矩阵及偏差矩阵;
将所述测试集输入所述初级回归模型中生成第二输出信息,将第二输出信息输入所述次级回归模型,得到最终段域神经网络回归模型的预测结果。
7.根据权利要求6所述的一种基于分段采样的段域神经网络回归系统,其特征在于,所述的根据训练集进行k-fold交叉验证,生成初级回归模型和初级回归模型的第一输出信息,具体为:
将完成特征挑选后的数据集划分为训练集和测试集,将所述训练集随机划分成k份大小相似的子数据集;
通过k份子数据集进行k-fold交叉验证,得到k个初级回归模型和k个对应初级回归模型的第一输出信息,通过k个第一输出信息生成新数据集。
8.根据权利要求6所述的一种基于分段采样的段域神经网络回归系统,其特征在于,所述基于梯度下降对不同段域子集合进行训练得到次级回归模型,同时得到不同段域的权值矩阵及偏差矩阵,具体为:
对所述新数据集通过预设段域采样函数进行连续分段采样,生成不同段域的样本点集 合,所述预设段域采样函数
Figure 295705DEST_PATH_IMAGE001
为:
Figure 239391DEST_PATH_IMAGE002
其中,
Figure 549280DEST_PATH_IMAGE003
Figure 262021DEST_PATH_IMAGE004
为超参数,满足
Figure 779590DEST_PATH_IMAGE005
Figure 695725DEST_PATH_IMAGE006
为采样 区间,即
Figure 792994DEST_PATH_IMAGE001
具体地可表示为:
Figure 625821DEST_PATH_IMAGE018
通过梯度下降的方法对不同段域的样本点集合里的数据进行第二次回归模型训练,得到次级回归模型。
9.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质中包括一种基于分段采样的段域神经网络回归方法程序,所述一种基于分段采样的段域神经网络回归方法程序被处理器执行时,实现如权利要求1至5中任一项所述的一种基于分段采样的段域神经网络回归方法的步骤。
CN202210048796.2A 2022-01-17 2022-01-17 基于分段采样的段域神经网络回归方法、系统及存储介质 Pending CN114077874A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210048796.2A CN114077874A (zh) 2022-01-17 2022-01-17 基于分段采样的段域神经网络回归方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210048796.2A CN114077874A (zh) 2022-01-17 2022-01-17 基于分段采样的段域神经网络回归方法、系统及存储介质

Publications (1)

Publication Number Publication Date
CN114077874A true CN114077874A (zh) 2022-02-22

Family

ID=80284534

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210048796.2A Pending CN114077874A (zh) 2022-01-17 2022-01-17 基于分段采样的段域神经网络回归方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN114077874A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106897821A (zh) * 2017-01-24 2017-06-27 中国电力科学研究院 一种暂态评估特征选择方法及装置
CN108268426A (zh) * 2016-12-30 2018-07-10 广东精点数据科技股份有限公司 一种基于切线单折线法的信赖域求解逻辑回归分析的方法
CN111368904A (zh) * 2020-02-29 2020-07-03 华南理工大学 一种基于电力指纹的电器设备识别方法
US20210097453A1 (en) * 2018-06-12 2021-04-01 Tsinghua University Method for quantile probabilistic short-term power load ensemble forecasting, electronic device and storage medium
CN113436684A (zh) * 2021-07-02 2021-09-24 南昌大学 一种癌症分类和特征基因选择方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108268426A (zh) * 2016-12-30 2018-07-10 广东精点数据科技股份有限公司 一种基于切线单折线法的信赖域求解逻辑回归分析的方法
CN106897821A (zh) * 2017-01-24 2017-06-27 中国电力科学研究院 一种暂态评估特征选择方法及装置
US20210097453A1 (en) * 2018-06-12 2021-04-01 Tsinghua University Method for quantile probabilistic short-term power load ensemble forecasting, electronic device and storage medium
CN111368904A (zh) * 2020-02-29 2020-07-03 华南理工大学 一种基于电力指纹的电器设备识别方法
CN113436684A (zh) * 2021-07-02 2021-09-24 南昌大学 一种癌症分类和特征基因选择方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JIMIN LIU ET.AL.: "Early Diabetes Prediction Based on Stacking Ensemble Learning Model", 《2021 33RD CHINESE CONTROL AND DECISION CONFERENCE (CCDC)》 *
薛宏伟等: "车联网环境下基于Stacking集成学习的车辆异常行为检测方法", 《汽车工程》 *

Similar Documents

Publication Publication Date Title
CN107609708B (zh) 一种基于手机游戏商店的用户流失预测方法及系统
Wisesa et al. Prediction analysis sales for corporate services telecommunications company using gradient boost algorithm
CN113518011B (zh) 异常检测方法和装置、电子设备及计算机可读存储介质
CN107563645A (zh) 一种基于大数据的金融风险分析方法
US20190362228A1 (en) Learning support device and learning support method
US20210397956A1 (en) Activity level measurement using deep learning and machine learning
CN112163624A (zh) 基于深度学习和极值理论的数据异常判断方法及系统
CN111582577A (zh) 一种电信用户离网预测方法、系统、介质及设备
CN112801693A (zh) 基于高价值用户的广告特征分析方法及系统
CN110956278A (zh) 重新训练机器学习模型的方法和系统
CN113283673A (zh) 一种模型性能衰减评价方法、模型训练方法及装置
CN117592656A (zh) 基于碳数据核算的碳足迹监控方法及系统
CN117170915A (zh) 数据中心设备故障预测方法、装置和计算机设备
US7617172B2 (en) Using percentile data in business analysis of time series data
CN114077874A (zh) 基于分段采样的段域神经网络回归方法、系统及存储介质
CN110796379A (zh) 业务渠道的风险评估方法、装置、设备及存储介质
CN115062687A (zh) 企业信用监控方法、装置、设备及存储介质
CN109978038B (zh) 一种集群异常判定方法及装置
CN115438885A (zh) 业务异常波动的检测方法、装置、设备及存储介质
CN111898708A (zh) 一种迁移学习方法和电子设备
CN112738098A (zh) 一种基于网络行为数据的异常检测方法及装置
CN112257072B (zh) 基于去重算法的高性能数据风险影响面量化评估方法
CN116542801B (zh) 一种财务数据分析方法及系统
CN117312350B (zh) 钢铁行业碳排放数据管理方法及装置
CN112348296B (zh) 电信数据获取方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20220222

RJ01 Rejection of invention patent application after publication