CN115688924A

CN115688924A - 一种多样本联合多元自适应回归样条模型

Info

Publication number: CN115688924A
Application number: CN202211154486.5A
Authority: CN
Inventors: 钱诚; 王鹤翔; 魏盛兴; 孙博; 任羿; 王自力
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2022-09-20
Filing date: 2022-09-20
Publication date: 2023-02-03

Abstract

本发明涉及数据拟合领域，具体涉及一种多样本联合多元自适应回归样条模型。为克服传统MARS技术的不足，本发明首先，对多样本数据进行数据截断以保证多样本数据长度相同；之后，逐步遍历多样本的自变量数值并通过多样本误差平方和衡量模型误差，选取最优结点；然后，循环迭代，直到模型项数达到预设值；最后，运用最小二乘法拟合得出模型样条函数的系数。本发明建立针对多个样本数据的统一模型，并获得拟合结果的显示表达式，方便后续对多个样本的数据特征进行统一分析。同时，本发明与现有的数据拟合方法相比，具有更大的灵活性，可以对复杂曲线进行拟合处理，允许曲线存在高曲率、多拐点、非线性的现象，并且处理速度快、准确率高。

Description

一种多样本联合多元自适应回归样条模型

技术领域

本发明涉及数据拟合领域，具体涉及一种针对多个样本数据建立统一拟合模型的方法。首先，对多样本数据进行数据截断以保证多样本数据长度相同；之后，逐步遍历多样本的自变量数值并通过多样本误差平方和衡量模型误差，选取最优结点；然后，循环迭代，直到模型项数达到预设值；最后，运用最小二乘法拟合得出模型样条函数的系数。

背景技术

多元自适应回归样条(Multivariate Adaptive Regression Splines,MARS)是由美国的统计学家Jerome Friedman于1991年提出的一种基于分段策略的非线性、非参数回归方法。这种方法的优点是能处理大量和高维的数据，并且在计算上快速而准确。此外，此方法不需要假设输入和输出变量之间存在的特定函数关系，二者之间的显式表达式可以自适应获得。

该方法包含两个过程：前向选择过程和后向剪枝过程，其中前向选择过程通过不断向模型中加入由基函数组成的样条函数，使得每一步加入到模型中的样条函数都可以最大化的减少残差平方和，直到模型项数达到预设值；后向剪枝过程的目的是对前向选择过程中模型的过拟合问题进行修正，通过删除使模型结果过拟合的样条函数以生成最佳性能模型，作为MARS的最终结果输出。因此，该方法不需要提前获得输入和输出变量之间特定的函数关系，而是通过逐步搜索的方法将试验数据划分为多个基函数，并通过划分的基函数自适应生成最优模型。基于上述特点，MARS生成的模型具有更大的灵活性，可以对多种复杂曲线进行拟合处理，允许曲线存在高曲率、多拐点、非线性的现象。

传统的MARS技术可以对单一样本的曲线进行准确度较高的拟合。但处理多样本曲线时，由于不同样本曲线间差异性较大，使用传统MARS技术分别拟合不同样本曲线时，拟合结果中样条函数的数量以及基函数的种类都不能保证一致，不能建立同时针对多样本的统一的MARS模型。

本发明基于以上背景，在MARS技术的基础上，通过同时考虑多样本的误差，修改算法逻辑中最优结点的寻找方法，面向多样本测试数据建立统一的MARS模型。与此同时，改进MARS的前向选择过程，使MARS算法具备可调项数功能，以实现多样本曲线的MARS拟合结果中样条函数数量可控。

发明内容

本发明的目的在于克服现有技术的不足，提供一种多样本联合多元自适应回归样条模型，实现快速、准确的对多样本数据同时建立统一拟合模型。

为了实现上述目的，本发明采用如下技术方案：一种多样本联合多元自适应回归样条模型，包括如下步骤：

步骤1：定义样本数量N和多样本联合多元自适应回归样条模型项数M(M为奇数)作为输入条件。

步骤2：读取N个样本全部数据，并对样本数据进行数据截断，计算N个样本的自变量数值的最大值，随后计算这些最大值中的最小值作为截断点，删除N个样本在截断点之后的自变量数值，使N个样本的自变量数值长度近似一致，截断点计算公式如式(1)所示：

X＝min{X_imax}i＝(1,2,......,N) (1)

式中：N为样本数量；X_imax为第i个样本的自变量数值最大值；X为截断点。

假设截断后第i个样本有X_i个自变量数值；

步骤3：多样本联合多元自适应回归样条模型f_i(x)(i＝1,2,......,N)由基函数和它们之间相互的线性组合建立，其表达式如式(2)所示：

式中：β_i0为常数；β_im为利用最小二乘法得出的第m个样条函数的系数；M为模型项数。

λ_m(X)为样条函数，其表达式如式(3)所示：

式中：K_m为样条函数中包含的基函数个数，可取1或2；S_k,m为基函数符号，可取+1或-1；[S_k,m*(x-x_(k,m))]₊为基函数，其表达式由式(3)和式(4)所示：

式中：x_(k,m)为基函数的结点，是原始数据自变量的任一取值。

步骤4：对多样本数据进行前向选择过程，使得模型更符合式(2)所示的函数形式。逐步遍历多样本的自变量数值并通过多样本误差平方和衡量模型误差，选取最优结点，具体包括以下步骤：

步骤4.1：选择第i个i＝(1,2,......,N)样本的第j个j＝(1,2,......,X_i)自变量数值x_ij作为新加入模型的样条函数中基函数的结点。

步骤4.2：利用式(6)计算加入如式(7)所示的样条函数后的N个样本的模型预测结果与原始数据(目标值)之间的多样本误差平方和并保存在数组SSE中，同时将其对应的自变量数值x_ij保存在另一数组X的相同位置中：

式中：SSE为多样本误差平方和；y_ij为目标值；f_i(x_ij)为预测值；X_i为第i个样本自变量数值个数；N为样本数量。

β_i(m+1)λ(x)×(x_ij-x)₊+β_i(m+2)λ(x)×(x-x_ij)₊ (7)

式中：β_i(m+1)和β_i(m+2)为利用最小二乘法得出的第m+1和m+2个样条函数的系数；λ(x)为任意一个已经存在在模型中的样条函数，即λ(x)∈{λ₁(x),λ₂(x),......,λ_m(x)}；(x_ij-x)₊和(x-x_ij)₊为任意的一个基函数对。

重复步骤4.1-4.2，直到N个样本的

个自变量数值均被选取。

步骤5：计算SSE数组中保存的多样本误差平方和的最小值并保存其对应的数组索引值，通过此索引值获得其对应的X数组中的自变量数值x_p，

步骤6：将此自变量数值x_p作为新加入模型的样条函数中基函数的结点。

每一次前向选择过程中加入模型的样条函数为通过上述组合规则生成的形如式(7)的样条函数中使得多样本误差平方和下降最大的组合。

步骤7：重复步骤4-6，不断向模型中加入最优的样条函数，直到模型的项数达到预设值M，利用最小二乘法拟合得出模型的常数项β_i0以及样条函数的系数β_im。

本发明具有以下有益效果：

1.本发明提供的多样本联合多元自适应回归样条模型，利用MARS技术建立针对多个样本数据的统一模型，并获得拟合结果的显示表达式，方便后续继续对多个样本的数据特征进行统一分析；

2.本发明提供的多样本联合多元自适应回归样条模型，与现有的数据拟合方法相比，具有更大的灵活性，可以对复杂曲线进行拟合处理，允许曲线存在高曲率、多拐点、非线性的现象，并且处理速度快、准确率高。

附图说明

图1是本发明提出的一种多样本联合多元自适应回归样条模型推导图；

图2是本发明实施例中四台智能化压力传感器供后续建模使用的最终老化试验数据；

图3是本发明实施例中四台传感器老化试验数据模型拟合结果。

具体实施方式

下面结合附图以及具体实施例进一步说明本发明。

本实施例中的多样本联合多元自适应回归样条模型是针对某型智能化压力传感器主板电路电流漂移试验数据，通过对多台传感器主板电流数据进行数据截断以保证多台传感器主板电流数据长度相同；逐步遍历多台传感器主板电流的累计老化时间数值并通过多样本误差平方和衡量模型误差，选取最优结点；通过循环迭代，使模型项数达到预设值；通过最小二乘法拟合得出模型样条函数的系数，建立多台传感器主板电流漂移模型。具体包括以下步骤：

步骤1：对四台智能化压力传感器开展高温老化试验，并获得四台传感器的主板电流漂移值数据，定义样本数量N＝4和多样本联合多元自适应回归样条模型项数M＝5作为输入条件。

1.本实施例中所使用的智能化压力传感器具体型号为3151系列智能压力传感器，可用于测量各种液体、气体的差压、压力等参数，并将被测的压力参数先转换为膜盒电压信号，再转化为4～20mA直流主板电流信号输出，该输出信号与传感器测量得到的压力值成正比，直接反映测量介质的压力参数信息，可作为后续系统的电信号输入。在长时间的高温环境下，智能化压力传感器内部主板电路上的元器件会发生参数漂移，从而导致其输出主板电流信号发生漂移，最终导致传感器压力值输出不准确，影响传感器功能。

2.本实施例中所使用的四台智能化压力传感器的编号、型号、试验条件以及总老化时长如表1所示。

表1试验传感器的老化测试信息

3.本实施例中所采集到的四台智能化压力传感器的主板电流漂移值随老化时间变化的试验数据如表2～表5所示。

表2传感器A1主板电流漂移值

表3传感器A2主板电流漂移值

表4传感器B1主板电流漂移值

表5传感器B2主板电流漂移值

由于试验数据采集点较少，故采用线性插值技术对老化试验数据进行增广，设定每两个相邻的数据点间插100个数据点，传感器A1、A2引入均值为0，方差为4E-8的正态分布误差项，传感器B1引入均值为0，方差为2.5E-11的正态分布误差项，传感器B2引入均值为0，方差为2.5E-9的正态分布误差项，形成最终的老化试验数据，供后续建模使用。传感器A1-传感器B2最终老化试验数据请参阅图2。

步骤2：对四台传感器最终老化试验数据进行数据截断，选取四台传感器总累计老化时长中的最小值作为截断点，删除四台传感器在截断点之后的试验数据，使四台传感器总累计老化时长接近一致，所用计算式如下，计算得到截断点X＝8537min：

X＝min{X_imax}i＝(1,2,......,N)

建立多样本联合多元自适应回归样条模型并计算模型常数项，具体包括以下步骤：

多样本联合多元自适应回归样条模型f_i(x)(i＝1,2,......,N)由基函数和它们之间相互的线性组合建立，其表达式如下：

λ_m(X)为样条函数，其表达式如下：

式中：K_m为样条函数中包含的基函数个数，可取1或2；S_k,m为基函数符号，可取+1或-1；[S_k,m*(x-x_(k,m))]₊为基函数，其表达式如下：

步骤4：对四台传感器的最终老化试验数据进行前向选择过程，使得模型更符合

的函数形式。逐步遍历四台传感器的累计老化时间数据并通过多样本误差平方和衡量模型误差，选取最优结点，具体包括以下步骤：

步骤4.1：选择第i台i＝(1,2,......,N)传感器的第j个j＝(1,2,......,X_i)累计老化时间数据x_ij作为新加入模型的样条函数中基函数的结点。

步骤4.2：向模型中加入β_i(m+1)λ(x)×(x_ij-x)₊+β_i(m+2)λ(x)×(x-x_ij)₊所示的样条函数；

式中：β_i(m+1)和β_i(m+2)为利用最小二乘法得出的第m+1和m+2个样条函数的系数；λ(x)为任意一个已经存在在模型中的样条函数，即λ(x)∈{λ₁(x),λ₂(x),......,λ_m(x)}；(x_ij-x)₊和(x-x_ij)₊为任意的一个基函数对；

计算加入样条函数后的四台传感器的模型预测结果与原始数据(目标值)之间的多样本误差平方和并保存在数组SSE中，同时将其对应的累计老化时间数据x_ij保存在另一数组X的相同位置中，多样本误差平方和计算式如下：

重复步骤4.1-4.2，直到四台传感器的

个累计老化时间数据均被选取。

步骤5：计算SSE数组中保存的多样本误差平方和的最小值并保存其对应的数组索引值，通过此索引值获得其对应的X数组中的累计老化时间数据x_p，

步骤6：将此累计老化时间数据x_p作为新加入模型的样条函数中基函数的结点。

每一次前向选择过程中加入模型的样条函数为通过上述组合规则生成的形如β_i(m+1)λ(x)×(x_ij-x)₊+β_i(m+2)λ(x)×(x-x_ij)₊的样条函数中使得多样本误差平方和下降最大的组合。

步骤7：重复步骤4-6，不断向模型中加入最优的样条函数，直到模型的项数达到预设值M＝5，通过上述步骤计算得到加入模型的样条函数中基函数的结点x_p如表6所示。

表6加入模型的样条函数中基函数的结点x_p

基函数的结点x<sub>p</sub>	传感器A1	传感器A2	传感器B1	传感器B2
					x<sub>1</sub>	2716.03	2716.03	2716.03	2716.03
x<sub>2</sub>	4263.28	4263.28	4263.28	4263.28

利用最小二乘法拟合得出模型的常数项β_i0以及样条函数的系数β_im，计算结果如表7所示。

表7模型的常数项β_i0以及样条函数的系数β_im

模型拟合结果请参阅图3，四台传感器误差平方和以及R2数值如表8所示。

表7四台传感器误差平方和以及R2数值

从计算结果可以看出，采用本发明所提出的一种多样本联合多元自适应回归样条模型能够很好地对多个样本数据建立统一的拟合模型，模型结果拟合精度高。

本发明未详细公开的部分属于本领域的公知技术。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。