CN115203267A

CN115203267A - 一种基于数据库系统的统计学模型自定义和推荐方法

Info

Publication number: CN115203267A
Application number: CN202210754122.4A
Authority: CN
Inventors: 黄涛; 付修军; 马能武; 张力; 马瑞; 胡斌斌; 陶雷; 陈林; 叶芳毅; 廖东晓; 陈旭; 李方义; 姜斌; 宋文洁; 徐瑞; 陶蔚; 刘兵; 徐俊; 徐志敏
Original assignee: Changjiang Spatial Information Technology Engineering Co ltd; Enshi Qingjiang Dalongtan Hydropower Development Co ltd; Changjiang Institute of Survey Planning Design and Research Co Ltd
Current assignee: Changjiang Spatial Information Technology Engineering Co ltd; Enshi Qingjiang Dalongtan Hydropower Development Co ltd; Changjiang Institute of Survey Planning Design and Research Co Ltd
Priority date: 2022-06-28
Filing date: 2022-06-28
Publication date: 2022-10-18

Abstract

本发明公开了一种基于数据库系统的统计学模型自定义和推荐方法。它包括如下步骤，步骤一：自定义单个统计回归模型；步骤二：在数据库系统进行统计回归模型的表达式及相关参数、结果的存储管理；步骤三：利用数据库系统中存储管理的统计回归模型记录进行统计回归模型的自动推荐。本发明解决了现有技术对使用者要求较高的问题，克服了现有安全监测模型分析技术如需要重新选择影响因子构建分析模型需要重新编写程序，自定义程度不够高的问题；具有满足非专业人员进行模型分析的要求，允许技术人员不修改计算程序或软件就可以按自己的建模习惯与方法自定义统计学模型，或直接使用系统推荐的分析模型，满足非专业人员进行模型分析的要求的优点。

Description

一种基于数据库系统的统计学模型自定义和推荐方法

技术领域

本发明涉及一种统计学模型自定义和推荐的方法，更具体地说它是一种基于数据库系统的统计学模型自定义和推荐方法，是通过数据库系统管理实现自定义统计学模型，并记录模型使用情况进行模型自动推荐的方法。

背景技术

经过数理统计法建立的各变量之间的函数关系是统计学模型。

在大坝变形监测资料分析中，常常要建立统计回归模型。以下为某大坝变形模型的事例。

某大坝的变形(效应量)的主要影响因子(原因量)为上游水位、下游水位、温度和时效。

对于上游水位，以H_上表示下游水位,以H_上0表示下游水位的最低值，则上游水位的变化对大坝变形的影响分量可表示为：

y_H上＝α₁(H_上-H_上0)+α₂(H_上-H_上0)²(1)

对于下游水位，以H_下表示下游水位,以H_下0表示下游水位的最低值，则下游水位的变化对大坝变形的影响分量可表示为：

y_H下＝α₃(H_下-H_下0)+α₄(H_下-H_下0)²(2)

对于温度，可以用变形监测点附近的温度测点(或气温、水温)的变化来表示温度对大坝变形的影响。以T表示温度，T以年周期变化。由于温度对大坝变形的影响存在滞后效应，一般以观测当天的温度和前91天(约1/4年周期)的温度影响的表示大坝变形的温度影响分量，可表示为：

Y_T＝α₅(T_当天-T₀)+α₆(T_前91天-T₀)(3)

对于时效变形，是指随着时间逐渐增长的非弹性变形，一般以时间的抛物线函数、对数函数或反正切函数等表示。以对数函数为例，若观测当天时间为t，首次观测日为t₀，则时效变形分量可表示为：

Y_S＝α₇ln(t-t₀+1)(4)

根据(2)～(4)式，可以组成大坝某监测点变形的回归模型：

Y＝α₀+y_H上+y_H下+Y_T+Y_S

＝α₀+α₁(H_上-H_上0)+α₂(H_上-H_上0)²+α₃(H_下-H_下0)+α₄(H_下-H_下0)²+α₅(T_当天-T₀)+α₆(T_前91天-T₀)+α₇ln(t-t₀+1).(5)

对于第j次观测，监测点的观测值为L_j，其观测误差为V_j，对应的上下游水位、温度、91天前的温度及观测时间分别为H_上j、H_下j、T_j、T_j-91、t_j，

则第j次观测方程式为：

L_j+V_j＝α₀+α₁(H_上j-H_上0)+α₂(H_上j-H_上0)²+α₃(H_下j-H_下0)+α₄(H_下j-H_下0)²+α₅(T_j-T₀)+α₆(T_j-91-T₀)+α₇ln(t_j-t₀+1)

＝B_jX (6)

其中X＝(α₀α₁α₂α₃α₄α₅α₆α₇)^T

B_j＝(1 B_1j B_2j B_3j B_4j B_5j B_6j B_7j)

B_1j＝(H_上j-H_上0)

B_2j＝(H_上j-H_上0)²

B_3j＝H_下j-H_下0

B_4j＝(H_下j-H_下0)²

B_5j＝T_j-T₀

B_6j＝T_j-91-T₀

B_7j＝ln(t_j-t₀+1)

对于n次观测，则有：

L＝(L₁ L₂...L_n)^T

V＝(V₁ V₂...V_n)^T

可以组成用于平差计算的误差方程式为：

V＝BX－L (7)

利用最小二乘法，可以求解参数X

X＝(B^TB)^-1(B^TL) (8)

求解X之后，往往还需要用指标刻画各原因量项与效应量之间的相关关系，反映这种关联关系的量叫相关系数。同时，也需要指标刻画回归模型的效果，反映这种效果的量叫复相关系数。

要进行上述统计学模型分析，以往需要操作人员掌握大坝监测资料分析专业知识，先选定影响因子确定统计回归模型，根据回归模型编写求解模型参数的计算程序。需要专业知识储备，对使用者的专业要求较高，而且若需要修改模型，则要重新编写程序，自定义程度不够高。非专业人员和程序开发人员可能无法完成上述操作。

因此，开发一种并能够记录每一次的模型使用情况，进行模型自动推荐，满足非专业人员进行模型分析的要求，允许技术人员不修改计算程序(软件)就可以按自己的建模习惯与方法自定义统计学模型，或直接使用系统推荐的分析模型的统计学模型自定义和推荐方法很有必要。

发明内容

本发明的目的是为了提供一种基于数据库系统的统计学模型自定义和推荐方法，为一种基于数据库系统的自定义统计回归模型的方法，并能够记录每一次的模型使用情况，进行模型自动推荐，满足非专业人员进行模型分析的要求，允许技术人员不修改计算程序(软件)就可以按自己的建模习惯与方法自定义统计学模型，或直接使用系统推荐的分析模型；克服了现有技术普遍需要操作人员掌握大坝监测资料分析专业知识，对使用者专业要求较高的问题，同时克服了现有安全监测模型分析技术如需要重新选择影响因子构建分析模型需要重新编写程序，自定义程度不够高的问题。

为了实现上述目的，本发明的技术方案为：一种基于数据库系统的统计学模型自定义和推荐方法，其特征在于：如图1所示(在图1中，本发明自定义模型通过选择效应量建立新模型；模型在数据库的存储管理通过更新模型属性表，保存使用记录实现；通过使用次数、精度、评价等多种方式实现模型推荐)，包括如下步骤，

步骤一：自定义单个统计回归模型；本发明的模型自定义方法为自定义单个统计回归模型；(如图2所示，图2为自定义模型界面，由图2可以看出提供多种类型因子以及多种表达式供用户自选构建模型，构建结果包括模型表达式以及分析结果图表，说明本方法实现了模型自定义，使用简便)；

步骤二：在数据库系统进行统计回归模型的表达式及相关参数、结果的存储管理，在数据库存储管理所有的模型信息，以便后续进行模型推荐；

步骤三：利用数据库系统中存储管理的统计回归模型记录进行统计回归模型的自动推荐(如图3所示，图3为模型推荐界面，可以看出系统自动推荐的模型表达式及其精度信息，说明本方法可以实现模型推荐)。

在上述技术方案中，在步骤一中，单个统计回归模型的构造方法如下：

典型的统计学模型可用通式表示为：

y＝∑α_i(f_i(b_i(x_i+a_i)))^ki i＝0,1,2,…n (9)

在式(9)中：y为因变量；x为自变量或常数1(原因量和效应量是大坝安全监测领域名词，可理解为自变量、因变量)；f为函数名或常数1；n表示自变量的总数；a、b为常数；k为函数的幂次方；α为影响系数(即进行回归分析的待解参数)；

令B_i＝(f_i(b_i(x_i+a_i)))^ki

则y＝∑B_iα_i i＝0,1,2,…n (10)

在式(10)中：B_i为统计回归模型中待解参数α_i的系数；

对于某个(任意一个)回归模型M，该回归模型M中的各项次的表达式、各自变量与因变量之间的相关系数，可用数据库表表1的形式进行表示，该数据库表包括回归模型ID、加常数a、函数名f、乘常数b、自变量x、影响系数α、相关系数r、分组名等。

表1统计回归模型各分项属性信息

模型ID

α

f

b

x

a

k

相关系数

分组

备注(表达式)

M

α0

f0

b0

x0

a0

k0

r0

组0名

α0(f0(b0(x0+a0)))k0

M

α1

f1

b1

x1

a1

k1

r1

组1名

α1(f1(b1(x1+a1)))k1

M

α2

f2

b2

x2

a2

k2

r2

组2名

α2(f2(b2(x2+a2)))k2

M

...

M

αn

fn

bn

xn

an

kn

rn

组G名

αn(fn(bn(xn+an)))kn

在计算机实现时，分析系统按“模型ID”号，检索出模型M对应的所用记录，则可以按(9)式构成回归分析模型。

常用的用于回归分析的函数f是有限的。在程序开发阶段，可以内置在分析系统软件中。分析人员应用这个系统软件，选择适当的函数f后，系统软件就会调用相应的函数；x是原因量，例如温度、水位、降雨量等，这些原因量的实测值均保存在数据库系统中。a、b、k可以依据分析人员的经验设定，则(10)中的Bi可以计算出来，

当f₀＝1，b₀＝1，a₀＝0，x₀＝0，则α_iB_i简化为α₀，为常数项。

对于(10)式，j时间点上y_j的观测值为L_j，观测误差为V_j，误差方程式为：

L_j+V_j＝∑B_ijα_i (11)

根据上式，按最小二乘原理，可以求解参数为αi。得到的参数结果αi可以填写到表1的第2列相应位置。同样，也可以计算各原因量与效应量之间的相关关系，得到的相关系数填写到表1的第8列相应位置。另外，在统计回归分析的模型构造时，表达同一原因量对效应量的影响，往往不是选择一个因子。比如，分析温度对大坝变形的影响，考虑温度对变形的滞后效应，在构造统计回归模型时，可以考虑将当前温度以及一个季度前的温度等两个因子作为回归因子。在计算温度对大坝变形的影响时，也需要将两个回归因子的影响量相加，作为温度影响分量。同样的，考虑水位对变形的影响，在构造统计回归模型时，可以考虑将当前水位的一次方以及对位的二次方等两个因子作为回归因子。在计算水位对大坝变形的影响时，也需要将两个回归因子的影响量相加，作为水位影响分量。为了便于计算机自动计算影响分量，需要对回归因子进行分组。比如，将所有温度因子分在一组，并取名温度分量；将所有水位因子分在另一组，取名水位分量。分组的信息在统计回归模型构建时，可以在表1中设置。在计算机是实现时，系统软件会识别分组信息，并按分组信息进行分量的计算。因此，表1中既包括模型的组成形式，也包括其计算结果，还包括一些某些属性信息。

在上述技术方案中，在步骤二中，统计回归模型的管理方法为：

在安全监测数据管理分析系统中建一个回归模型总表，回归模型总表包括回归模型编号、编号模型中的因变量名称，该回归模型应用的项目名称、仪器类型、时间段，观测周期，所建回归模型的模型误差，使用者对分析结果的评分以及对回归模型的描述；时间段包括起始时间和结束时间；根据模型总表中模型记录出现的次数可以判定使用次数最多，根据模型总表中回归模型的模型误差可以判定精度最高，根据使用者对分析结果的评分可以判定评价最高。在实际应用中，一个大坝安全监测资料管理分析系统，往往需要构建大量统计回归模型。这些模型具备不同的属性，需要对模型各种属性进行管理。管理这些属性的方法是在安全监测数据管理分析系统中建一个模型总表。下表2是一个可能的表结构。在这个表2中，需要描述模型编号，该编号模型中的效应量名称，该模型应用的项目名称、仪器类型、时间段(包括起始时间和结束时间)，观测周期，所建模型的模型误差，使用者对分析结果的评价，以及对模型的描述。

表2统计回归模型属性信息

在上述技术方案中，在步骤三中，统计回归模型的自动推荐方法为：

在实际应用中，对于一些小微型的水电工程，由于人员配置不足，可能会缺乏专业的资料分析人员。一个大坝安全监测资料管理分析系统，若能提供分析模型的推荐功能，辅助操作人员建立专业的分析模型将大大降低对使用者的专业能力要求。模型总表详细记录了每一次的模型使用记录，各个编号模型的使用次数，每一次的分析精度，用户对模型的结果评价，都可以作为模型优劣的评价指标。

根据模型总表的模型使用记录进行模型推荐，过程如下：

进入回归模型构建界面，用户选择测点；

S31：根据项目名称、仪器类型、测点编号进行模型分析记录的多条件查询，查询符合条件的模型分析记录；

当符合条件的模型分析记录存在时，跳转至步骤S32；

当符合条件的模型分析记录不存在时，跳转至步骤S33；

S32：选择模型推荐的方式进行模型推荐，模型推荐的方式包含使用次数最多、精度最高、评价最高等；

使用次数最多，即根据某一ID的模型被使用次数的排序情况进行推荐；精度最高，即根据模型精度排序情况进行推荐；评价最高，即根据用户对模型分析结果的评价高低排序情况进行推荐；

S33：确定是否存在满意的模型；若是，则跳转至步骤S34；

若否，则利用步骤一中的方法再次进行自定义模型，跳转至步骤S34；

S34：用户根据推荐结果选择模型；

S35：根据用户所选模型进行模型分析，进行回归分析计算；

用户判断模型分析结果是否满足精度要求；若是，则用户进行模型分析效果评价，更新模型属性表，保存使用记录；

若否，则跳转至步骤S33中选择因变量利用步骤一中的方法建立新模型。

与现有技术相比，本发明的有益效果如下：

(1)高度自定义；本发明涵盖了大坝安全监测数据分析相关的水位、流量、温度、降雨量、时效等多种原因量，并将原因量配以多种数学表达式，供用户在构建统计学模型时自主选择，自动生成模型进行模型分析；克服了现有安全监测模型分析技术如需要重新选择影响因子构建分析模型需要重新编写程序，自定义程度不够高的问题；

(2)适用性强；不同工程项目在进行数据的回归模型分析时，由于工程项目坝型、水情、地质等各种因素不同，导致分析模型各不相同，本发明支持使用者快速自主定义分析模型，适用于各个工程项目；

(3)使用门槛低；本发明不要求使用者具备深厚的大坝安全监测专业知识或编程能力，即可简便快速完成自定义统计学模型或直接使用系统根据历史使用记录推荐的模型进行数据分析，操作简便、效率高，适用于各种专业或非专业的操作人员进行模型分析；克服了现有技术普遍需要操作人员掌握大坝监测资料分析专业知识，对使用者专业要求较高的问题。

附图说明

图1为本发明统计回归分析的流程图。

图2为本发明自定义模型分析界面图。

图3为本发明模型推荐界面图。

图4为本发明的流程图。

具体实施方式

下面结合附图详细说明本发明的实施情况，但它们并不构成对本发明的限定，仅作举例而已。同时通过说明使本发明的优点更加清楚和容易理解。

实施例

现以本发明试用于某大坝进行变形分析为实施例对本发明进行详细说明，对本发明应用于其他项目进行大坝安全监测数据的回归模型分析同样具有指导作用。

以公式(5)为例(公式(5)为：Y＝α₀+y_H上+y_H下+Y_T+Y_S

＝α₀+α₁(H_上-H_上0)+α₂(H_上-H_上0)²+α₃(H_下-H_下0)+α₄(H_下-H_下0)²+α₅(T_当天-T₀)+α₆(T_前91天-T₀)+α₇ln(t-t₀+1))

令其为某大坝变形分析的统计回归模型，定义该模型ID号为M1，其各分项的表达式如下表3所示，表3中相关信息与公式(5)对应。

表3本实施例统计回归模型各分项的属性信息及表达式

若温度分量改以正弦函数表示，时效分量改以反正切函数表示，则(5)式可以写成：

Y＝α₀+α₁(H_上-H_上0)+α₂(H_上-H_上0)²+α₃(H_下j-H_下0)+α₄(H_下j-H_下0)²+α₅sin(PI/180/365*t)+α₆sin(PI/180/365*t+PI/2)+α₇ATN(t-t₀+1)(12)

其中PI＝3.1415926。

则新的统计回归模型(设模型ID号为M2)各分项的表达式见表4。

表4本实施例统计回归模型各分项的属性信息及表达式

表3与表4是两个不同的回归模型(即公式(5)、公式(12))在数据库进行记录的样例，用以表述该数据表可以记录不同的回归模型。

如表3、表4所示，一个回归模型的系数矩阵各项的计算式可以用一个数据表来表示。对于一个安全监测数据库系统而言，表中上下游水位、温度测值、观测时间以及表中为涉及的变形观测值、应力应变观测值、施工强度与进度等与大坝变形相关的数据都存在数据库中。如果将回归分析模型中的各个分项按照上表的形式保存(最后两列可以不保存)在数据库的中，则自定义的回归分析模型所需要的函数、观测值等信息均可以在数据库中检索到。

编写回归分析计算程序时，事先考虑到表中“f”列中可能用到的函数，读取表中各行的计算式，并读取数据库中相关观测值与观测时间，就可以方便地计算出系数矩阵B和变形观测值矩阵L，按公式(8)(公式(8)为：X＝(B^TB)^-1(B^TL))就可以计算出参数X。为衡量建模效果，需要对所见模型进行评价。模型评价的常用指标是模型误差。也可根据需要设定其他指标。

在实际应用中，一个大坝安全监测资料管理分析系统，往往需要构建多个统计回归模型，为了更好地管理好这些模型，需要对模型各种属性进行管理。管理这些属性的方法是在安全监测数据管理分析系统中建一个模型总表。下表是一个可能的表结构，该模型总表结构还可以根据实际需求进行调整。

表5本实施例中的统计回归模型属性信息总表表结构

表6为统计回归模型总表的一个实例(即本实施例模型总表)。

表6模型总表实例

有了模型总表，还需要按表3、表4的形式建立每个模型的明细项。在计算因变量的影响分量的时候，往往存在相同明细项合并的问题。如表3中，上游水位、下游水位以及温度对大坝变形的影响均有两个分项，在计算上游水位对大坝变形影响大小时，应将与上游水位有关的两个分项的计算值相加，称两个上游水位分项之和为上游水位分量。同样，计算下游水位对大坝变形影响大小时，应将与下游水位有关的两个分项的计算值相加，称作下游水位分量；计算温度对大坝变形影响大小时，应将与温度有关的两个分项的计算值相加，称作温度分量。因此，应在模型明细表增加一个字段“分量名”。另外，如果要把统计回归分析的结果，即影响系数和相关系数也记录在模型明细表中，则下表7就是一个可能的回归模型明细项表结构，该模型明细项表结构还可以根据实际需求进行调整。

表7模型明细项表结构

字段名	标题名	详细描述
			ModelID	模型ID	模型编号
Component	分量名	影响分量的名称
			Function	函数名	自变量对因变量的影响关系
IndepVarible	自变量	自变量在数据库中的字段名
			PlusC	加常数	自变量的加常数
TimesC	乘常数	自变量的乘常数
			Power	幂次方	自变量或其函数的幂次方
AffectCoeff	影响系数	回归分析结果中的影响系数
			CorrelCoeff	相关系数	回归分析结果中的相关系数

表8是一个回归模型明细项表的实例(即本实施例模型的明细项表)，各参数由最小二乘法拟合得到，表8中参数为示例。

表8本实施例模型明细项表实例

随着使用记录的增多，通过模型精度、模型结果评价、模型使用次数等排序方式可对已使用模型记录进行排序显示，用户可选择模型精度最高模型、模型结果评价最优模型、模型使用次数最多模型进行模型分析，无需重新选择影响因子进行模型构建，降低使用难度。若所选模型分析结果良好，使用记录将被保存至模型总表，模型分析过程结束。若模型分析结果不佳，可选择其它模型继续进行分析，直至获得较好分析结果。

结论：本实施例采用本发明方法和步骤可以完成回归模型的自定义构建以及所构建模型相关信息在数据库的存储管理，并实现模型推荐。在不同工程项目应用时，用户可根据工程特点选择不同影响因子进行模型构建，自定义程度高，适用性广，且专业能力较低的用户也能够使用推荐模型进行数据分析，使用门槛低。

其它未说明的部分均属于现有技术。

Claims

1.一种基于数据库系统的统计学模型自定义和推荐方法，其特征在于：包括如下步骤，

步骤一：自定义单个统计回归模型；

步骤二：在数据库系统进行统计回归模型的表达式及相关参数、结果的存储管理；

步骤三：利用数据库系统中存储管理的统计回归模型记录进行统计回归模型的自动推荐。

2.根据权利要求1所述的基于数据库系统的统计学模型自定义和推荐方法，其特征在于：在步骤一中，单个统计回归模型的构造方法如下：

典型的统计学模型用通式表示为：

y＝∑α_i(f_i(b_i(x_i+a_i)))^ki i＝0,1,2,…n (9)

在式(9)中：y为因变量；x为自变量或常数1；f为函数名或常数1；n表示自变量的总数；a、b为常数；k为函数的幂次方；α为影响系数；

令B_i＝(f_i(b_i(x_i+a_i)))^ki

则y＝∑B_iα_i i＝0,1,2,…n (10)

在式(10)中：B_i为统计回归模型中待解参数α_i的系数；

对于某个回归模型M，该回归模型M中的各项次的表达式、各自变量与因变量之间的相关系数，用数据库表的形式进行表示，该数据库表包括回归模型ID、加常数a、函数名f、乘常数b、自变量x、影响系数α、相关系数r、分组名。

3.根据权利要求2所述的基于数据库系统的统计学模型自定义和推荐方法，其特征在于：在步骤二中，统计回归模型的管理方法为：

在安全监测数据管理分析系统中建一个回归模型总表，回归模型总表包括回归模型编号、编号模型中的因变量名称，回归模型应用的项目名称、仪器类型、时间段，观测周期，所建回归模型的模型误差，使用者对分析结果的评分以及对回归模型的描述；时间段包括起始时间和结束时间。

4.根据权利要求3所述的基于数据库系统的统计学模型自定义和推荐方法，其特征在于：在步骤三中，统计回归模型的自动推荐方法为：

根据回归模型总表的模型使用记录进行模型推荐，过程如下：

进入模型构建界面，用户选择测点；

当符合条件的模型分析记录存在时，跳转至步骤S32；

当符合条件的模型分析记录不存在时，跳转至步骤S33；

S32：选择模型推荐的方式进行模型推荐，模型推荐的方式包含使用次数、精度、评价；

S33：确定是否存在满意的模型；若是，则跳转至步骤S34；

若否，则利用步骤一中的方法进行自定义模型，跳转至步骤S34；

S34：用户根据推荐结果选择模型；

S35：根据用户所选模型进行模型分析，进行回归分析计算；