CN115688924A - 一种多样本联合多元自适应回归样条模型 - Google Patents

一种多样本联合多元自适应回归样条模型 Download PDF

Info

Publication number
CN115688924A
CN115688924A CN202211154486.5A CN202211154486A CN115688924A CN 115688924 A CN115688924 A CN 115688924A CN 202211154486 A CN202211154486 A CN 202211154486A CN 115688924 A CN115688924 A CN 115688924A
Authority
CN
China
Prior art keywords
model
sample
samples
spline
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211154486.5A
Other languages
English (en)
Inventor
钱诚
王鹤翔
魏盛兴
孙博
任羿
王自力
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202211154486.5A priority Critical patent/CN115688924A/zh
Publication of CN115688924A publication Critical patent/CN115688924A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及数据拟合领域,具体涉及一种多样本联合多元自适应回归样条模型。为克服传统MARS技术的不足,本发明首先,对多样本数据进行数据截断以保证多样本数据长度相同;之后,逐步遍历多样本的自变量数值并通过多样本误差平方和衡量模型误差,选取最优结点;然后,循环迭代,直到模型项数达到预设值;最后,运用最小二乘法拟合得出模型样条函数的系数。本发明建立针对多个样本数据的统一模型,并获得拟合结果的显示表达式,方便后续对多个样本的数据特征进行统一分析。同时,本发明与现有的数据拟合方法相比,具有更大的灵活性,可以对复杂曲线进行拟合处理,允许曲线存在高曲率、多拐点、非线性的现象,并且处理速度快、准确率高。

Description

一种多样本联合多元自适应回归样条模型
技术领域
本发明涉及数据拟合领域,具体涉及一种针对多个样本数据建立统一拟合模型的方法。首先,对多样本数据进行数据截断以保证多样本数据长度相同;之后,逐步遍历多样本的自变量数值并通过多样本误差平方和衡量模型误差,选取最优结点;然后,循环迭代,直到模型项数达到预设值;最后,运用最小二乘法拟合得出模型样条函数的系数。
背景技术
多元自适应回归样条(Multivariate Adaptive Regression Splines,MARS)是由美国的统计学家Jerome Friedman于1991年提出的一种基于分段策略的非线性、非参数回归方法。这种方法的优点是能处理大量和高维的数据,并且在计算上快速而准确。此外,此方法不需要假设输入和输出变量之间存在的特定函数关系,二者之间的显式表达式可以自适应获得。
该方法包含两个过程:前向选择过程和后向剪枝过程,其中前向选择过程通过不断向模型中加入由基函数组成的样条函数,使得每一步加入到模型中的样条函数都可以最大化的减少残差平方和,直到模型项数达到预设值;后向剪枝过程的目的是对前向选择过程中模型的过拟合问题进行修正,通过删除使模型结果过拟合的样条函数以生成最佳性能模型,作为MARS的最终结果输出。因此,该方法不需要提前获得输入和输出变量之间特定的函数关系,而是通过逐步搜索的方法将试验数据划分为多个基函数,并通过划分的基函数自适应生成最优模型。基于上述特点,MARS生成的模型具有更大的灵活性,可以对多种复杂曲线进行拟合处理,允许曲线存在高曲率、多拐点、非线性的现象。
传统的MARS技术可以对单一样本的曲线进行准确度较高的拟合。但处理多样本曲线时,由于不同样本曲线间差异性较大,使用传统MARS技术分别拟合不同样本曲线时,拟合结果中样条函数的数量以及基函数的种类都不能保证一致,不能建立同时针对多样本的统一的MARS模型。
本发明基于以上背景,在MARS技术的基础上,通过同时考虑多样本的误差,修改算法逻辑中最优结点的寻找方法,面向多样本测试数据建立统一的MARS模型。与此同时,改进MARS的前向选择过程,使MARS算法具备可调项数功能,以实现多样本曲线的MARS拟合结果中样条函数数量可控。
发明内容
本发明的目的在于克服现有技术的不足,提供一种多样本联合多元自适应回归样条模型,实现快速、准确的对多样本数据同时建立统一拟合模型。
为了实现上述目的,本发明采用如下技术方案:一种多样本联合多元自适应回归样条模型,包括如下步骤:
步骤1:定义样本数量N和多样本联合多元自适应回归样条模型项数M(M为奇数)作为输入条件。
步骤2:读取N个样本全部数据,并对样本数据进行数据截断,计算N个样本的自变量数值的最大值,随后计算这些最大值中的最小值作为截断点,删除N个样本在截断点之后的自变量数值,使N个样本的自变量数值长度近似一致,截断点计算公式如式(1)所示:
X=min{Ximax}i=(1,2,......,N) (1)
式中:N为样本数量;Ximax为第i个样本的自变量数值最大值;X为截断点。
假设截断后第i个样本有Xi个自变量数值;
步骤3:多样本联合多元自适应回归样条模型fi(x)(i=1,2,......,N)由基函数和它们之间相互的线性组合建立,其表达式如式(2)所示:
Figure BDA0003853375180000021
式中:βi0为常数;βim为利用最小二乘法得出的第m个样条函数的系数;M为模型项数。
λm(X)为样条函数,其表达式如式(3)所示:
Figure BDA0003853375180000022
式中:Km为样条函数中包含的基函数个数,可取1或2;Sk,m为基函数符号,可取+1或-1;[Sk,m*(x-x(k,m))]+为基函数,其表达式由式(3)和式(4)所示:
Figure BDA0003853375180000023
Figure BDA0003853375180000031
式中:x(k,m)为基函数的结点,是原始数据自变量的任一取值。
步骤4:对多样本数据进行前向选择过程,使得模型更符合式(2)所示的函数形式。逐步遍历多样本的自变量数值并通过多样本误差平方和衡量模型误差,选取最优结点,具体包括以下步骤:
步骤4.1:选择第i个i=(1,2,......,N)样本的第j个j=(1,2,......,Xi)自变量数值xij作为新加入模型的样条函数中基函数的结点。
步骤4.2:利用式(6)计算加入如式(7)所示的样条函数后的N个样本的模型预测结果与原始数据(目标值)之间的多样本误差平方和并保存在数组SSE中,同时将其对应的自变量数值xij保存在另一数组X的相同位置中:
Figure BDA0003853375180000032
式中:SSE为多样本误差平方和;yij为目标值;fi(xij)为预测值;Xi为第i个样本自变量数值个数;N为样本数量。
βi(m+1)λ(x)×(xij-x)+i(m+2)λ(x)×(x-xij)+ (7)
式中:βi(m+1)和βi(m+2)为利用最小二乘法得出的第m+1和m+2个样条函数的系数;λ(x)为任意一个已经存在在模型中的样条函数,即λ(x)∈{λ1(x),λ2(x),......,λm(x)};(xij-x)+和(x-xij)+为任意的一个基函数对。
重复步骤4.1-4.2,直到N个样本的
Figure BDA0003853375180000033
个自变量数值均被选取。
步骤5:计算SSE数组中保存的多样本误差平方和的最小值并保存其对应的数组索引值,通过此索引值获得其对应的X数组中的自变量数值xp
Figure BDA0003853375180000034
步骤6:将此自变量数值xp作为新加入模型的样条函数中基函数的结点。
每一次前向选择过程中加入模型的样条函数为通过上述组合规则生成的形如式(7)的样条函数中使得多样本误差平方和下降最大的组合。
步骤7:重复步骤4-6,不断向模型中加入最优的样条函数,直到模型的项数达到预设值M,利用最小二乘法拟合得出模型的常数项βi0以及样条函数的系数βim
本发明具有以下有益效果:
1.本发明提供的多样本联合多元自适应回归样条模型,利用MARS技术建立针对多个样本数据的统一模型,并获得拟合结果的显示表达式,方便后续继续对多个样本的数据特征进行统一分析;
2.本发明提供的多样本联合多元自适应回归样条模型,与现有的数据拟合方法相比,具有更大的灵活性,可以对复杂曲线进行拟合处理,允许曲线存在高曲率、多拐点、非线性的现象,并且处理速度快、准确率高。
附图说明
图1是本发明提出的一种多样本联合多元自适应回归样条模型推导图;
图2是本发明实施例中四台智能化压力传感器供后续建模使用的最终老化试验数据;
图3是本发明实施例中四台传感器老化试验数据模型拟合结果。
具体实施方式
下面结合附图以及具体实施例进一步说明本发明。
本实施例中的多样本联合多元自适应回归样条模型是针对某型智能化压力传感器主板电路电流漂移试验数据,通过对多台传感器主板电流数据进行数据截断以保证多台传感器主板电流数据长度相同;逐步遍历多台传感器主板电流的累计老化时间数值并通过多样本误差平方和衡量模型误差,选取最优结点;通过循环迭代,使模型项数达到预设值;通过最小二乘法拟合得出模型样条函数的系数,建立多台传感器主板电流漂移模型。具体包括以下步骤:
步骤1:对四台智能化压力传感器开展高温老化试验,并获得四台传感器的主板电流漂移值数据,定义样本数量N=4和多样本联合多元自适应回归样条模型项数M=5作为输入条件。
1.本实施例中所使用的智能化压力传感器具体型号为3151系列智能压力传感器,可用于测量各种液体、气体的差压、压力等参数,并将被测的压力参数先转换为膜盒电压信号,再转化为4~20mA直流主板电流信号输出,该输出信号与传感器测量得到的压力值成正比,直接反映测量介质的压力参数信息,可作为后续系统的电信号输入。在长时间的高温环境下,智能化压力传感器内部主板电路上的元器件会发生参数漂移,从而导致其输出主板电流信号发生漂移,最终导致传感器压力值输出不准确,影响传感器功能。
2.本实施例中所使用的四台智能化压力传感器的编号、型号、试验条件以及总老化时长如表1所示。
表1试验传感器的老化测试信息
Figure BDA0003853375180000051
3.本实施例中所采集到的四台智能化压力传感器的主板电流漂移值随老化时间变化的试验数据如表2~表5所示。
表2传感器A1主板电流漂移值
Figure BDA0003853375180000052
表3传感器A2主板电流漂移值
Figure BDA0003853375180000053
Figure BDA0003853375180000061
表4传感器B1主板电流漂移值
Figure BDA0003853375180000062
表5传感器B2主板电流漂移值
Figure BDA0003853375180000063
由于试验数据采集点较少,故采用线性插值技术对老化试验数据进行增广,设定每两个相邻的数据点间插100个数据点,传感器A1、A2引入均值为0,方差为4E-8的正态分布误差项,传感器B1引入均值为0,方差为2.5E-11的正态分布误差项,传感器B2引入均值为0,方差为2.5E-9的正态分布误差项,形成最终的老化试验数据,供后续建模使用。传感器A1-传感器B2最终老化试验数据请参阅图2。
步骤2:对四台传感器最终老化试验数据进行数据截断,选取四台传感器总累计老化时长中的最小值作为截断点,删除四台传感器在截断点之后的试验数据,使四台传感器总累计老化时长接近一致,所用计算式如下,计算得到截断点X=8537min:
X=min{Ximax}i=(1,2,......,N)
式中:N为样本数量;Ximax为第i个样本的自变量数值最大值;X为截断点。
建立多样本联合多元自适应回归样条模型并计算模型常数项,具体包括以下步骤:
多样本联合多元自适应回归样条模型fi(x)(i=1,2,......,N)由基函数和它们之间相互的线性组合建立,其表达式如下:
Figure BDA0003853375180000071
式中:βi0为常数;βim为利用最小二乘法得出的第m个样条函数的系数;M为模型项数。
λm(X)为样条函数,其表达式如下:
Figure BDA0003853375180000072
式中:Km为样条函数中包含的基函数个数,可取1或2;Sk,m为基函数符号,可取+1或-1;[Sk,m*(x-x(k,m))]+为基函数,其表达式如下:
Figure BDA0003853375180000073
Figure BDA0003853375180000074
式中:x(k,m)为基函数的结点,是原始数据自变量的任一取值。
步骤4:对四台传感器的最终老化试验数据进行前向选择过程,使得模型更符合
Figure BDA0003853375180000075
的函数形式。逐步遍历四台传感器的累计老化时间数据并通过多样本误差平方和衡量模型误差,选取最优结点,具体包括以下步骤:
步骤4.1:选择第i台i=(1,2,......,N)传感器的第j个j=(1,2,......,Xi)累计老化时间数据xij作为新加入模型的样条函数中基函数的结点。
步骤4.2:向模型中加入βi(m+1)λ(x)×(xij-x)+i(m+2)λ(x)×(x-xij)+所示的样条函数;
式中:βi(m+1)和βi(m+2)为利用最小二乘法得出的第m+1和m+2个样条函数的系数;λ(x)为任意一个已经存在在模型中的样条函数,即λ(x)∈{λ1(x),λ2(x),......,λm(x)};(xij-x)+和(x-xij)+为任意的一个基函数对;
计算加入样条函数后的四台传感器的模型预测结果与原始数据(目标值)之间的多样本误差平方和并保存在数组SSE中,同时将其对应的累计老化时间数据xij保存在另一数组X的相同位置中,多样本误差平方和计算式如下:
Figure BDA0003853375180000081
式中:SSE为多样本误差平方和;yij为目标值;fi(xij)为预测值;Xi为第i个样本自变量数值个数;N为样本数量。
重复步骤4.1-4.2,直到四台传感器的
Figure BDA0003853375180000082
个累计老化时间数据均被选取。
步骤5:计算SSE数组中保存的多样本误差平方和的最小值并保存其对应的数组索引值,通过此索引值获得其对应的X数组中的累计老化时间数据xp
Figure BDA0003853375180000083
步骤6:将此累计老化时间数据xp作为新加入模型的样条函数中基函数的结点。
每一次前向选择过程中加入模型的样条函数为通过上述组合规则生成的形如βi(m+1)λ(x)×(xij-x)+i(m+2)λ(x)×(x-xij)+的样条函数中使得多样本误差平方和下降最大的组合。
步骤7:重复步骤4-6,不断向模型中加入最优的样条函数,直到模型的项数达到预设值M=5,通过上述步骤计算得到加入模型的样条函数中基函数的结点xp如表6所示。
表6加入模型的样条函数中基函数的结点xp
基函数的结点x<sub>p</sub> 传感器A1 传感器A2 传感器B1 传感器B2
x<sub>1</sub> 2716.03 2716.03 2716.03 2716.03
x<sub>2</sub> 4263.28 4263.28 4263.28 4263.28
利用最小二乘法拟合得出模型的常数项βi0以及样条函数的系数βim,计算结果如表7所示。
表7模型的常数项βi0以及样条函数的系数βim
Figure BDA0003853375180000091
模型拟合结果请参阅图3,四台传感器误差平方和以及R2数值如表8所示。
表7四台传感器误差平方和以及R2数值
Figure BDA0003853375180000092
从计算结果可以看出,采用本发明所提出的一种多样本联合多元自适应回归样条模型能够很好地对多个样本数据建立统一的拟合模型,模型结果拟合精度高。
本发明未详细公开的部分属于本领域的公知技术。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (3)

1.一种多样本联合多元自适应回归样条模型,其特征在于,包括以下几个实现步骤:
步骤1:定义样本数量N和多样本联合多元自适应回归样条模型项数M(M为奇数)作为输入条件;
步骤2:读取N个样本全部数据,并对样本数据进行数据截断;
步骤3:多样本联合多元自适应回归样条模型fi(x)(i=1,2,......,N)由基函数和它们之间相互的线性组合建立,其表达式如式(1)所示:
Figure FDA0003853375170000011
其中:
βi0为常数;
βim为利用最小二乘法得出的第m个样条函数的系数;
M为模型项数;
λm(X)为样条函数,其表达式如式(2)所示:
Figure FDA0003853375170000012
其中:
Km为样条函数中包含的基函数个数,可取1或2;
Sk,m为基函数符号,可取+1或-1;
[Sk,m*(x-x(k,m))]+为基函数,其表达式由式(3)和式(4)所示:
Figure FDA0003853375170000013
Figure FDA0003853375170000021
其中:
x(k,m)为基函数的结点;
步骤4:逐步遍历多样本的自变量数值并通过多样本误差平方和衡量模型误差,选取最优结点,具体包括以下步骤:
步骤4.1:选择第i个i=(1,2,......,N)样本的第j个j=(1,2,......,Xi)自变量数值xij作为新加入模型的样条函数中基函数的结点;
步骤4.2:计算加入如式(5)所示的样条函数后的N个样本的模型预测结果与原始数据之间的多样本误差平方和(SSE)的数值并保存;
βi(m+1)λ(x)×(xij-x)+i(m+2)λ(x)×(x-xij)+ (5)
其中:
βi(m+1)和βi(m+2)为利用最小二乘法得出的第m+1和m+2个样条函数的系数;
λ(x)为任意一个已经存在在模型中的样条函数,即λ(x)∈{λ1(x),λ2(x),......,λm(x)};
(xij-x)+和(x-xij)+为任意的一个基函数对;
步骤4.3:重复步骤4.1-4.2,直到N个样本的
Figure FDA0003853375170000022
个自变量数值均被选取;
步骤5:计算步骤4中保存的SSE数值的最小值并获得其对应的自变量数值xp
Figure FDA0003853375170000023
步骤6:将此自变量数值xp作为新加入模型的样条函数中基函数的结点;
步骤7:重复步骤4-6,直到模型的项数达到预设值M,利用最小二乘法拟合得出模型的常数项βi0以及样条函数的系数βim
2.根据权利要求1所述的一种多样本联合多元自适应回归样条模型,其特征在于,步骤2所述的样本数据截断方法具体为:计算N个样本的自变量数值的最大值,随后计算这些最大值中的最小值作为截断点,删除N个样本在截断点之后的自变量数值,使N个样本的自变量数值长度近似一致,截断点计算公式如式(6)所示:
X=min{Ximax}i=(1,2,......,N) (6)
其中:
N为样本数量;
Ximax为第i个样本的自变量数值最大值;
X为截断点。
3.根据权利要求1所述的一种多样本联合多元自适应回归样条模型,其特征在于,步骤4.2所述的多样本误差平方和(SSE)的数值计算方法具体为:利用式(7)计算加入样条函数后的N个样本的模型预测结果与原始数据(目标值)之间的多样本误差平方和:
Figure FDA0003853375170000031
其中:
yij为目标值;
fi(xij)为预测值;
Xi为第i个样本自变量数值个数;
N为样本数量。
CN202211154486.5A 2022-09-20 2022-09-20 一种多样本联合多元自适应回归样条模型 Pending CN115688924A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211154486.5A CN115688924A (zh) 2022-09-20 2022-09-20 一种多样本联合多元自适应回归样条模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211154486.5A CN115688924A (zh) 2022-09-20 2022-09-20 一种多样本联合多元自适应回归样条模型

Publications (1)

Publication Number Publication Date
CN115688924A true CN115688924A (zh) 2023-02-03

Family

ID=85063058

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211154486.5A Pending CN115688924A (zh) 2022-09-20 2022-09-20 一种多样本联合多元自适应回归样条模型

Country Status (1)

Country Link
CN (1) CN115688924A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117423000A (zh) * 2023-12-14 2024-01-19 江苏狄诺尼信息技术有限责任公司 一种基于mars的道路纵断面线形智能重构的方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117423000A (zh) * 2023-12-14 2024-01-19 江苏狄诺尼信息技术有限责任公司 一种基于mars的道路纵断面线形智能重构的方法
CN117423000B (zh) * 2023-12-14 2024-03-19 江苏狄诺尼信息技术有限责任公司 一种基于mars的道路纵断面线形智能重构的方法

Similar Documents

Publication Publication Date Title
CN112950924B (zh) 一种基于深度学习的复杂交通路网交通速度预测方法
CN115081316A (zh) 基于改进麻雀搜索算法的dc/dc变换器故障诊断方法及系统
CN107832789B (zh) 基于平均影响值数据变换的特征加权k近邻故障诊断方法
CN107977748B (zh) 一种多变量扭曲时间序列预测方法
CN112597610B (zh) 机械臂结构轻量化设计的优化方法、装置及设备
CN112380774B (zh) 一种基于残差回声状态网络的动态建模方法及系统
CN115688924A (zh) 一种多样本联合多元自适应回归样条模型
CN115308558A (zh) Cmos器件寿命预测方法、装置、电子设备及介质
CN114970339A (zh) 数据驱动识别偏微分方程的序列奇异值过滤方法
CN112511104B (zh) 一种单二极管结构光伏电池参数的辨识方法
CN116894180B (zh) 一种基于异构图注意力网络的产品制造质量预测方法
CN114897047B (zh) 基于深度字典的多传感器数据漂移检测方法
CN114819107B (zh) 基于深度学习的混合数据同化方法
CN116319378A (zh) 基于深度学习的网络流量矩阵估计、模型训练方法和系统
CN111210877A (zh) 一种推断物性参数的方法及装置
Jakubiec et al. Error model application in neural reconstruction of nonlinear sensor input signal
CN110852451A (zh) 基于核函数的递归核自适应滤波方法
CN116244894B (zh) 一种基于大步长的电力系统暂态仿真方法及系统
CN114580285B (zh) 一种基于cae网络的双曲型系统模型约简方法
CN117454212B (zh) 一种基于数据聚类的遥测数据互检测方法
CN107247819A (zh) 传感器的滤波方法和滤波器
Khosravani et al. A New Convex Hull, Sliding Window Based Online Adaptation Method for Fixed-Structure Radial Basis Function Neural Networks
CN113111717A (zh) 一种线性时变系统参数辨识方法
CN117313815A (zh) 一种优化MZI的ONNs相位配置的渐进式训练方法
CN117743757A (zh) 基于压缩感知的大坝安全监测数据缺失值插补方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination