CN108776717B

CN108776717B - 核函数构造及数据预测方法、装置、设备和存储介质

Info

Publication number: CN108776717B
Application number: CN201810379459.5A
Authority: CN
Inventors: 尹峰; 陈天石
Original assignee: Shenzhen Research Institute of Big Data SRIBD; Chinese University of Hong Kong CUHK
Current assignee: Shenzhen Research Institute of Big Data SRIBD; Chinese University of Hong Kong CUHK
Priority date: 2018-04-25
Filing date: 2018-04-25
Publication date: 2020-11-10
Anticipated expiration: 2038-04-25
Also published as: CN108776717A

Abstract

本申请涉及一种核函数构造及数据预测方法、装置、计算机设备和存储介质。所述核函数构造方法包括：获取预设方差参数及预设频率平移参数；根据所述预设方差参数及所述预设频率平移参数构建核函数；对所述核函数的协方差矩阵进行特征分解得到分解结果；根据所述分解结果，通过最大化边缘对数似然函数对所述核函数的超参数进行优化，得到最优核函数。可以避免超参数优化陷入局部最优解，使得优化得到的最优核函数的准确性较高，从而使得通过该最优核函数构建的高斯过程回归模型的准确性较高，因此，将该高斯过程回归模型应用于数据预测时，得到的预测结果的准确性较高。

Description

核函数构造及数据预测方法、装置、设备和存储介质

技术领域

本申请涉及计算机信息技术领域，特别是涉及一种核函数构造方法、装置、计算机设备和存储介质，以及一种数据预测方法、装置、计算机设备和存储介质。

背景技术

由于高斯过程(Gaussian Processes)在函数逼近(function approximation)方面的出色表现以及模型自带的不确定性界限(uncertainty bound)，高斯过程回归模型的应用十分广泛。例如居民每天的生活数据(如水，电，煤气用量)的预测；城市交通在某一地区某个时段的出租车或网约车供应量或需求量的预测；网络中上下行数据流量的分时预测；股票走势的实时预测；城市天气和污染物(PM2.5，PM10等)的浓度预报等。

高斯过程回归模型的重点在于如何选择一个合适的核函数(kernel function)。一个好的核函数能够将原始特征提升到一个更高(甚至是无限)维空间，而在这个空间里，回归问题和分类问题可以更容易被处理。

传统的核函数包括一种谱混合(SM)核函数，其思想是首先在频域中找到一个真实谱密度(spectral density)的近似，然后将其转换回时域得到一个通用的平稳核函数(stationary kernel function)。由于在最小化超参数的过程容易陷入局部最优解，通过该谱混合核函数构建的高斯过程回归模型的准确性较低，从而将该高斯过程回归模型应用于数据预测时，得到的预测结果的准确性较低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高数据预测结果的准确性的核函数构造及数据预测方法、装置、计算机设备和存储介质。

一种核函数构造方法，所述方法包括：

获取预设方差参数及预设频率平移参数；

根据所述预设方差参数及所述预设频率平移参数构建核函数；

对所述核函数的协方差矩阵进行特征分解得到分解结果；

根据所述分解结果，通过最大化边缘对数似然函数对所述核函数的超参数进行优化，得到最优核函数。

在其中一个实施例中，所述获取预设方差参数及预设频率平移参数的步骤，包括：

获取方差参数的方差区间；

获取频率平移参数的频率平移区间；

在所述方差区间及所述频率平移区间形成的二维平面区域内，选取栅格点；

根据所述栅格点确定所述预设方差参数及所述预设频率平移参数。

在其中一个实施例中，所述对所述核函数的协方差矩阵进行特征分解得到分解结果的步骤，包括：

对所述核函数的协方差矩阵中接近零的特征进行截断，得到中间结果；

对所述中间结果进行特征分解，得到所述分解结果。

在其中一个实施例中，所述对所述核函数的协方差矩阵中接近零的特征进行截断，得到中间结果的步骤，包括：

获取截断阈值；

对所述核函数的协方差矩阵中小于所述截断阈值的特征设置为零，得到所述中间结果。

一种核函数构造装置，所述装置包括：

参数获取模块，用于获取预设方差参数及预设频率平移参数；

函数构建模块，用于根据所述预设方差参数及所述预设频率平移参数构建核函数；

矩阵分解模块，用于对所述核函数的协方差矩阵进行特征分解得到分解结果；

函数优化模块，用于根据所述分解结果，通过最大化边缘对数似然函数对所述核函数的超参数进行优化，得到最优核函数。

在其中一实施例中，所述参数获取模块，包括：

方差获取单元，用于获取方差参数的方差区间；

平移获取单元，用于获取频率平移参数的频率平移区间；

栅格选取单元，用于在所述方差区间及所述频率平移区间形成的二维平面区域内，选取栅格点；

参数确定单元，用于根据所述栅格点确定所述预设方差参数及所述预设频率平移参数。

在其中一实施例中，所述核函数构造装置，还包括：特征截断模块；

所述特征截断模块，用于对所述核函数的协方差矩阵中接近零的特征进行截断，得到中间结果；

所述矩阵分解模块，用于对所述中间结果进行特征分解，得到所述分解结果。

在其中一实施例中，所述核函数构造装置，还包括：阈值获取模块；

所述阈值获取模块，用于获取截断阈值；

所述特征截断模块，用于对所述核函数的协方差矩阵中小于所述截断阈值的特征设置为零，得到所述中间结果。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取预设方差参数及预设频率平移参数；

对所述核函数的协方差矩阵进行特征分解得到分解结果；

获取方差参数的方差区间；

获取频率平移参数的频率平移区间；

对所述中间结果进行特征分解，得到所述分解结果。

获取截断阈值；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取预设方差参数及预设频率平移参数；

对所述核函数的协方差矩阵进行特征分解得到分解结果；

获取方差参数的方差区间；

获取频率平移参数的频率平移区间；

对所述中间结果进行特征分解，得到所述分解结果。

获取截断阈值；

上述核函数构造方法、装置、计算机设备和存储介质，由于预先获取了固定的预设方差参数及预设频率平移参数，根据所述预设方差参数及所述预设频率平移参数构建核函数的方式构建的核函数，在对所述核函数的协方差矩阵进行特征分解得到分解结果后，根据所述分解结果，通过最大化边缘对数似然函数对所述核函数的超参数进行优化时的优化问题具有凸性结构，如此，可以避免超参数优化陷入局部最优解，使得优化得到的最优核函数的准确性较高，从而使得通过该最优核函数构建的高斯过程回归模型的准确性较高，因此，将该高斯过程回归模型应用于数据预测时，得到的预测结果的准确性较高。

一种数据预测方法，所述方法包括：

获取待预测时序序列；

将所述待预测时序序列输入至GPR预测模型，得到预测结果；

所述GPR预测模型是根据上述的核函数构造方法构造的最优核函数，而构造获得的。

在其中一个实施例中，所述将所述待预测时序序列输入至GPR预测模型，得到预测结果的步骤，包括：

对所述待预测时序序列进行去趋势化处理；

将去趋势化之后的所述待预测时序序列，输入至所述GPR预测模型得到预测结果。

一种数据预测装置，所述装置包括：

序列获取模块，用于获取待预测时序序列；

结果预测模块，用于将所述待预测时序序列输入至GPR预测模型，得到预测结果；

所述GPR预测模型是根据上述的核函数构造装置构造的最优核函数，而构造获得的。

在其中一实施例中，还包括：趋势处理模块；

所述趋势处理模块，用于对所述待预测时序序列进行去趋势化处理；

所述结果预测模块，用于将去趋势化之后的所述待预测时序序列，输入至所述GPR预测模型得到预测结果。

获取待预测时序序列；

将所述待预测时序序列输入至GPR预测模型，得到预测结果；

对所述待预测时序序列进行去趋势化处理；

获取待预测时序序列；

将所述待预测时序序列输入至GPR预测模型，得到预测结果；

对所述待预测时序序列进行去趋势化处理；

上述数据预测方法、装置、计算机设备和存储介质，将基于上述核函数构造方法或装置构造的最优核函数而构造的高斯回归过程模型，应用于数据预测。由于上述核函数构造方法或装置构造的最优核函数的准确性较高，从而使得通过该最优核函数构建的高斯过程回归模型的准确性较高，因此，将该高斯过程回归模型应用于数据预测时，得到的预测结果的准确性较高。

附图说明

图1为一个实施例中核函数构造方法及数据预测方法的应用环境图；

图2为一个实施例中核函数构造方法的流程示意图；

图3为一个实施例中获取预设方差参数及预设频率平移参数的步骤的流程示意图；

图4为一实施例中均匀选取栅格点的示意图；

图5为一个实施例中随机选取栅格点的示意图；

图6为一个实施例中对所述核函数的协方差矩阵进行特征分解得到分解结果的步骤的流程示意图；

图7为一个实施例中数据预测方法的流程示意图；

图8至图13为实验结果图；

图14为一个实施例中核函数构造装置的结构框图；

图15为一个实施例中数据预测装置的结构框图；

图16为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的核函数构造及数据预测方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104通过网络进行通信。核函数构造方法可以运行在服务器104上。服务器104获取预设方差参数及预设频率平移参数；根据所述预设方差参数及所述预设频率平移参数构建核函数；对所述核函数的协方差矩阵进行特征分解得到分解结果；根据所述分解结果，通过最大化边缘对数似然函数对所述核函数的超参数进行优化，得到最优核函数。数据预测方法可以运行在服务器104上，终端102可以发送数据预测请求至服务器104，该数据请求中携带有待预测时序序列；服务器104接收该数据预测请求，并获取数据预测请求中所携带的待预测时序序列；将所述待预测时序序列输入至GPR预测模型得到预测结果，该GPR预测模型是根据上述的核函数构造方法构造的最优核函数，而构造获得的。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。可以理解地，本申请提供的核函数构造及数据预测方法也可以应用于图1中的终端102上，还可以直接应用于不联网的终端或服务器上。

在一个实施例中，如图2所示，提供了一种核函数构造方法，以该方法应用于终端或服务器为例进行说明，包括以下步骤：

S202，获取预设方差参数及预设频率平移参数。

方差参数和频率平移参数是核函数中的两个重要参数。预设方差参数是指预先确定了的方差参数，预设频率平移参数是指预先确定了的频率平移参数；即预设方差参数及预设频率平移参数是固定的。可以通过在一个适当的取值区间中取值的方式获取到预设方差参数及预测频率平移参数。

S204，根据所述预设方差参数及所述预设频率平移参数构建核函数。

该核函数为谱混合核函数。普混合核函数的思想是首先在频域中找到一个真实谱密度的近似，然后将其转换回时域得到一个通用的平稳核函数。需要说明的是，这里的理论支持是：静态核函数及其谱密度为傅立叶对偶。

谱混合核函数可以通过用如下的高斯混合模型(Gaussian mixture model)来逼近真实的谱密度而获得：

其中，Q是高斯混合模式(Gaussian mixture modes)的数量，高斯混合模式的数量是固定的。α_q，μ_q，σ² _q分别为第q个混合分量的权重(weight)，频率平移(mean)和方差(variance)。exp是以自然常数e为底的指数函数，e的值约等于2.718281828。f是归一化频率，其取值可以为介于0-1/2之间的值。

对S(f)进行傅立叶逆变换(Fourier transform)，得到对应时域中的核函数：

其中，t是时间下标；t’是另一个时间下标；θ_h是对应核函数的超参数；τ是时间t和时间t’的差的绝对值，也就是|t-t’|。

在该核函数中待优化的超参数(hyper-parameter)包括：α_q、μ_q及σ² _q；其中，α₁表示第1个混合分量的权重；α₂表示第2个混合分量的权重；α_Q表示第Q个混合分量的权重；μ₁表示第1个混合分量的频率平移；μ₂表示第2个混合分量的频率平移；μ_Q表示第Q个混合分量的频率平移；σ² ₁表示第1个混合分量的方差；σ² ₂表示第2个混合分量的方差；σ² _Q表示第Q个混合分量的方差。

因此，可以通过获取预设方差参数及预设频率平移参数的方式，对该核函数进行栅格化，栅格化后的核函数可以叫作栅格谱混合(GSM)核函数。

栅格化是指通过在一个包括两个维度(如，可以是方差和频率平移)的平面上获取栅格点的方式，确定该两个纬度对应的参数的取值。

S206，对所述核函数的协方差矩阵进行特征分解得到分解结果。

由于在核函数中，给定一组数据后，需要利用核函数计算数据点两两之间的协方差(covariance)，而对于不少于两组的数据，就需要计算协方差矩阵。可以用K来标记GSM核函数所对应的协方差矩阵，这个协方差矩阵满足K＝sumα_iK_i，其中，子协方差矩阵K_i对应第i个子核函数，α_i表示第i个混合分量的权重；sum表示求和运算。

对于每一个子协方差矩阵K_i而言，它可以被证明至少是半正定的，因此，它可以被分解为如下形式：K_i＝L_iL_i ^T；其中矩阵分解因子L_i的秩为n_i≤n，其中n为数据样本点的总数。进一步地，如果K_i是正定的(positive definite)，L_i可以为K_i的Cholesky factor(乔利斯基分解因子)。如果K_i是半正定的(positive semi-definite)，可以利用特征分解获得K_i＝U_iΣ_iU_i ^T，进而得到L_i＝U_iΣ_i ^1/2；其中，U_i为包含所有特征向量的矩阵；Σ_i为一个维度为n×n的对角矩阵，其对角元为矩阵K_i的所有n个特征值。

需要说明的是，子协方差矩阵的数量由预设方差参数的数量及预设频率平移参数的数量决定。即根据预设方差参数的数量及预设频率平移参数的数量可以确定子协方差矩阵的数量。

分解结果在超参数优化之前得到，且可以保存在存储单元中以供调用。

S208，根据所述分解结果，通过最大化边缘对数似然函数对所述核函数的超参数进行优化，得到最优核函数。

可以通过最大化边缘对数似然函数，将所述核函数的超参数优化的目标方程表示为：

其中，y为训练数据集中的输出，C为协方差矩阵，α为权重参数，σ_e ²是噪声方差。

由该目标方程可知，该核函数的超参数优化问题具有凸性结构，从而可以避免对所述核函数的超参数进行优化陷入局部最优解，得到整体最优解。

上述核函数构造方法，由于预先获取了固定的预设方差参数及预设频率平移参数，根据所述预设方差参数及所述预设频率平移参数构建核函数的方式构建的核函数，在对所述核函数的协方差矩阵进行特征分解得到分解结果后，根据所述分解结果，通过最大化边缘对数似然函数对所述核函数的超参数进行优化时的优化问题具有凸性结构，如此，可以避免超参数优化陷入局部最优解，使得优化得到的最优核函数的准确性较高，从而使得通过该最优核函数构建的高斯过程回归模型的准确性较高，因此，将该高斯过程回归模型应用于数据预测时，得到的预测结果的准确性较高。

在其中一实施例中，请参阅图3，所述获取预设方差参数及预设频率平移参数的步骤，包括：

S322，获取方差参数的方差区间。

S324，获取频率平移参数的频率平移区间。

S326，在所述方差区间及所述频率平移区间形成的二维平面区域内，选取栅格点。

S328，根据所述栅格点确定所述预设方差参数及所述预设频率平移参数。

方差区间为方差参数的取值区间；频率平移区间为频率平移参数的取值区间。方差区间及频率平移区间，可以通过观察成熟的谱密度核函数中频率平移参数及方差参数的取值区间而获得；也可以通过领域知识手动设定。

可以理解地，在方差区间及所述频率平移区间形成的二维平面区域内选取的栅格点在两个维度上的取值，即为预设方差参数及频率平移参数。

栅格点的数量可以为预设数量，如可以用m表示，从而，超参数的维度也为预设数量。

在其中一具体实施例中，如图4所示，采取均匀选取栅格点的策略，即，在所述方差区间及所述频率平移区间形成的二维平面区域内，均匀选取栅格点。在另一具体实施例中，如图5所示，采取随机选取栅格点的策略，即，在所述方差区间及所述频率平移区间形成的二维平面区域内，随机选取栅格点。

需要说明的是，图4及图5中的横坐标可以为频率平移，纵坐标可以为方差。可以理解地，在一些实施例中，横坐标可以为方差，纵坐标可以为频率平移。

在均匀选取栅格点的实施例中，首先，获取到一个合适的方差区间，可以表示为[σ²low，σ²high],并获取一个合适的频率平移区间，该频率平移区间可以表示为[μlow，μhigh]。然后在方差区间内等间距划分第一预设数量个数m_i个栅格点σ_i ²,i＝1,2,…,m_i，在频率平移区间内等间距划分第二预设数量个数m_j个栅格点μ_j,j＝1,2,...,m_j。在其中一具体实施例中，μlow,μhigh可以是归一化频率[0,0.5)，也就是μlow大于等于0，而μhigh小于0.5。

在其中一实施例中，所述根据所述预设方差参数及所述预设频率平移参数构建核函数的步骤，构建的核函数为：

其中，对应核函数的超参数

此时，超参数仅包括权重参数；α_i，j是方差参数所在维度上的第i个、频率平移参数所在维度上的第j个栅格点对应的权重参数；m_i是方差参数所在维度上的栅格点的数量；m_j是频率平移参数所在维度上的栅格点的数量；σ_i ²是方差参数所在维度上的第i个栅格点所表示的预设方差参数；μ_j是频率平移参数所在维度上的第j个栅格点所表示的预设频率平移参数，τ为是时间t和时间t’的差的绝对值，也就是|t-t’|；π为圆周率，其取值可以约等于3.1415926。

在其中一实施例中，根据所述分解结果，通过最大化边缘对数似然函数对所述核函数的超参数进行优化，得到最优核函数的步骤，包括步骤(a)和步骤(b)。

(a)根据所述分解结果，将所述核函数的超参数的所述目标方程转化为：

其中，L_i为所述协方差矩阵的第i个子协方差矩阵的分解因子，T为矩阵转置运算符；协方差矩阵的分解结果可以表示为K_i＝L_iL_i ^T；I_n为一个n×n的单位矩阵。arg min为获取函数最小值所对应的参数的函数优化操作；log为对数运算符；det为求方块矩阵行列式的操作。

需要说明的是，在本实施例中，超参数包括权重参数α_i及噪声方差σ_e ²。噪声方差可以通过交叉验证滤波器类型方法来估计。

在本实施例中，超参数优化的所述目标方程转化成了两个凸函数(关于权值参数和噪声方差)的差(difference-of-convex)。如此，可以通过序贯的最大-最小(sequentialmajorization-minimization)算法高效求解。

(b)将所述目标方程演绎为二次锥优化问题：

其中，θ∈R^m+1，z＝[z₁,z₂,...,z_m,z']^T∈R^m+1,v∈Rⁿ,w_i∈Rⁿⁱ，i＝1,2,...,m。θ是模型总体超参数，包括核函数对应的超参数和其他模型参数(即噪声参数)；z_i，i＝1,2,…,m是新引入的优化变量；z’也是一个新引入的优化变量；z’与z_i的不同之处在于z_i是对于优化变量wi的模的平方，而z’对应向量v的模的平方，向量v是新引入的一组优化变量；Rm+1是整个(m+1)维的实数空间；m是待求解的模型所有参数数量；σ_e是噪声方差σ_e ²的平方根。

进一步地，在利用序贯的最大-最小算法求解的过程中包括一个递归过程，在该递归过程中需要优化一个主函数：

其中，θ^(k+1)表示模型总体超参数在第(k+1)次递归中的估计值，

表示优化函数，C是R^m+1中的一个凸集，argmin表示为获取函数最小值所对应的参数的函数优化操作。

可以令l(θ)＝g(θ)-h(θ)；

其中，g(θ)＝y^TC(θ)^-1y，h(θ)＝-logdetC(θ)，

是连续的凸函数，C是R^m+1中的一个凸集。

利用一阶的泰勒展开可以得到h(θ)的一个凸近似,代入到

l(θ)＝g(θ)-h(θ)中，可以得到：

因此，在每次递归过程中，最小化

变成一个凸优化问题。当条件满足时，序贯的最大-最小算法可以保证收敛到一个稳定点。

g(θ)是矩阵分数函数，序贯的最大-最小化算法中的每次递归实际上解决了凸矩阵分数最小化(convex fractional matrix minimization)问题。由于

是一系列正半定矩阵的和，因此，超参数优化的目标方程可以演绎为如步骤(b)中的二次锥优化问题。

二次锥优化问题可以利用商业函数优化软件MOSEK进行高效求解，一般只需要几次迭代即可获得良好的局部最优解。

在其中一实施例中，所述对所述核函数的协方差矩阵进行特征分解得到分解结果的步骤，包括：

采用奈斯特洛姆近似方式或者概率特征分解方式对所述核函数的协方差矩阵进行特征分解得到分解结果。

如此，可以降低特征分解的计算复杂度，从而节约系统资源，提高处理速度。

在其中一实施例中，如图6所示，所述对所述核函数的协方差矩阵进行特征分解得到分解结果的步骤，包括：

S662，对所述核函数的协方差矩阵中接近零的特征进行截断，得到中间结果。

S664，对所述中间结果进行特征分解，得到所述分解结果。

可以理解地，在本实施例中，将协方差矩阵截断接近零的特征，即将接近零的特征都设置为零，如此，可以节省存储空间，并在一定程度上降低计算复杂度，从而节约系统资源，提高处理速度。

进一步地，所述对所述核函数的协方差矩阵中接近零的特征进行截断，得到中间结果的步骤，包括：获取截断阈值；对所述核函数的协方差矩阵中小于所述截断阈值的特征设置为零，得到所述中间结果。

即根据所述截断阈值对所述协方差矩阵中接近零的特征进行截断，得到所述中间结果。其中，所述接近零的特征为小于所述截断阈值的特征。截断阈值为一个接近零的数，如可以用Th表示，取值可以为0.01。在本实施例中，通过将将小于截断阈值的特征设置为零实现截断。

由于将接近零的特征进行了截断，一方面可以在一定程度上降低计算量，另一方面，可以节约存储空间。从而，可以节约系统资源，提高处理速度。

在一个实施例中，如图7所示，一种数据预测方法，所述方法包括：

S702，获取待预测时序序列。

待预测时序序列，可以为具有多种数据模式(data pattern)的时序序列。例如，例如居民每天的生活数据(如水，电，煤气用量)；城市交通在某一地区某个时段的出租车或网约车供应量或需求量；网络中分时的上下行数据流量；股票走势的实时数据；城市天气和污染物(PM2.5，PM10等)的浓度等。

S704，将所述待预测时序序列输入至GPR预测模型，得到预测结果。

在本实施例中，将基于上述核函数构造方法构造的最优核函数而构造的高斯回归过程模型，应用于数据预测。由于上述核函数构造方法构造的最优核函数的准确性较高，从而使得通过该最优核函数构建的高斯过程回归模型的准确性较高，因此，将该高斯过程回归模型应用于数据预测时，得到的预测结果的准确性较高。

在其中一实施例中，所述将所述待预测时序序列输入至GPR预测模型，得到预测结果的步骤，包括：对所述待预测时序序列进行去趋势化处理；将去趋势化之后的所述待预测时序序列，输入至所述GPR预测模型得到预测结果。

由于待预测时序序列，可能会呈现出周期性、趋势性和非稳态性。因此，可以在对待预测时序序列进行预测之前，对所述待预测时序序列进行去趋势化处理，以便使待预测时序序列更符合零均值，稳态随机过程的假设。

去趋势化处理可以包括：取对数的操作或/及取一阶差的操作。其中，取对数的操作可以稳定方差，取一阶差的操作可以消除待预测时序序列中的增长趋势。

需要说明的是，在利用高斯过程回归对去趋势化处理后的待预测时序序列进行完预测，需要将预测结果变换回原有的单位。

在其中一实施例中，去趋势化处理的变换公式为：

其中，

表示取一阶差；log为取对数运算符，y_t为待预测时序序列的第t个元素，y_t-1为待预测时序序列的第t-1个元素。

该实施例中，在将预测结果变换回原有的单位时，对应的还原公式为：

在其中一具体实施例中，去趋势化处理的变换公式为：

其中，

表示对周期为12个时间索引(time index)的待预测时序序列取一阶差；y_t为待预测时序序列的第t个元素，y_t-12为待预测时序序列的第t-12个元素，即上一周期对应的元素。如此，可以消除周期性。可以理解地，在其它实施例中，周期可以为任意值，如可以为10个或7个时间索引。需要说明的是，周期的选取需要从待预测时序序列中得到。

在其中一实施例中，对GPR预测模型的后验概率分布(posterior distribution)为：

其中，y*是在待预测的时间点合集X*上的预测结果(测试集的输出)，X*是待预测时间点的合集(测试集的输入)，θ_h是核函数所对应的超参数，D代表整个训练数据集，包括输入X和输出y。

是一个后验的高斯分布,它的后验均值和后验方差如下给出：

后验均值的计算公式为：

后验方差的计算公式为：

其中，K表示协方差矩阵，X表示训练数据集中的时间点合集，X*是待预测时间点的合集，σ_e ²表示独立噪声的方差，I_n为一个n×n的单位矩阵，y表示训练数据集中对应X时间点集中所有时间点的输出结果。

为了更清楚的说明上述方法的有益效果，以下给出一些测试示例进行说明。旨在测试基于上述方法构造的最优核函数，在各种经典时间序列数据集上的性能，并进一步将结果与传统的基于谱混合核函数所获得的结果进行比较。实验选取了6个经典时间序列数据集进行测试。表1中显示了数据的描述以及训练集和测试集中的数据点数。

表1经典时间序列数据集

在实验过程中，对基于最优化核函数的高斯过程回归算法进行如下设置：

·网格点可以均匀或随机选取；

·频率平移区间的边界为μlow＝0，μhigh＝0.25；方差区间的边界为σ²low＝0,σ²high＝0.15。

·栅格点的数量设置为20000，即预设数量设置为20000。

·初始结果设置为全零。

·使用交叉验证滤波器类型方法估计噪声方差σ_e ²，并在优化过程中对其进行处理。

对基于谱混合核函数的高斯过程回归算法进行如下设置：

·高斯混合模式Q的数量设置为10。

在第一个实验中，我们希望展示基于最优核函数的高斯过程回归算法的预测均方差(MSE)，并进一步将结果与基于谱混合核函数的高斯过程回归算法的结果进行比较。为了计算MSE，执行30次独立的蒙特卡罗实验。在每次蒙特卡罗实验中，随机生成一组新的栅格点，并将初始结果设置为全零。统计了两个算法遭遇坏的局部最小值(无意义的预测)的次数占总的蒙特卡罗实验次数(30次)的比例，简称为算法失败率(PFR)。第一个实验的结果如表2所示。

表2实验结果对比

图8至图13中展示了的基于本申请中的最优核函数的高斯过程回归算法在一次蒙特卡洛实验的训练和预测结果。从结果来看，大大改善的整体MSE和稳定性。一般情况下，当栅格点数增加时，算法的性能会变得更好，更稳定。同时，算法给出的解具有稀疏性，其中非零的权重对于这6个经典时间序列数据集的平均值分别等于23,23,26,19,17,22。当使用均匀间隔的栅格点时，在一次独立的蒙特卡洛实验中的平均计算时间对应六个数据集分别为约8分钟，32分钟，1分钟，25分钟，10分钟，9分钟。

在第二个实验中，测试使用截断阈值Th＝0.01截断协方差矩阵的一些小于该截断阈值的一些特征后算法的性能。在每一次蒙特卡罗实验中，保持所有其它设置与第一个实验中所使用的相同。结果表明，与第一次实验所取得的结果相比，对协方差矩阵进行截断后算法的总体性能下降非常小，但保存协方差矩阵的分解结果所需的存储量却可以大大减少。实验还表明，如果选取更大的阈值Th,更多的存储空间可以被节省，但是代价是更严重的性能下降。

应该理解的是，虽然图2、3、6、7的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2、3、6、7中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图14所示，提供了一种核函数构造装置，包括：

参数获取模块1402，用于获取预设方差参数及预设频率平移参数；

函数构建模块1404，用于根据所述预设方差参数及所述预设频率平移参数构建核函数；

矩阵分解模块1406，用于对所述核函数的协方差矩阵进行特征分解得到分解结果；

函数优化模块1408，用于根据所述分解结果，通过最大化边缘对数似然函数对所述核函数的超参数进行优化，得到最优核函数。

上述核函数构造装置，由于预先获取了固定的预设方差参数及预设频率平移参数，根据所述预设方差参数及所述预设频率平移参数构建核函数的方式构建的核函数，在对所述核函数的协方差矩阵进行特征分解得到分解结果后，根据所述分解结果，通过最大化边缘对数似然函数对所述核函数的超参数进行优化时的优化问题具有凸性结构，如此，可以避免超参数优化陷入局部最优解，使得优化得到的最优核函数的准确性较高，从而使得通过该最优核函数构建的高斯过程回归模型的准确性较高，因此，将该高斯过程回归模型应用于数据预测时，得到的预测结果的准确性较高。

在其中一实施例中，所述参数获取模块1402，包括：

方差获取单元，用于获取方差参数的方差区间；

平移获取单元，用于获取频率平移参数的频率平移区间；

在其中一实施例中，该核函数构造装置，还包括：特征截断模块1405；

所述特征截断模块1405，用于对所述核函数的协方差矩阵中接近零的特征进行截断，得到中间结果；

所述矩阵分解模块1406，用于对所述中间结果进行特征分解，得到所述分解结果。

在其中一实施例中，该核函数构造装置，还包括：阈值获取模块1303；

所述阈值获取模块1403，用于获取截断阈值；

所述特征截断模块1405，用于对所述核函数的协方差矩阵中小于所述截断阈值的特征设置为零，得到所述中间结果。

关于核函数构造装置的具体限定可以参见上文中对于核函数构造方法的限定，在此不再赘述。上述核函数构造装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，如图15所示，提供了一种数据预测装置，包括：

序列获取模块1502，用于获取待预测时序序列；

结果预测模块1504，用于将所述待预测时序序列输入至GPR预测模型，得到预测结果；

所述GPR预测模型是上述的核函数构造装置构造的最优核函数，而构造获得的。

在本实施例中，将基于上述核函数构造装置构造的最优核函数而构造的高斯回归过程模型，应用于数据预测。由于上述核函数构造装置构造的最优核函数的准确性较高，从而使得通过该最优核函数构建的高斯过程回归模型的准确性较高，因此，将该高斯过程回归模型应用于数据预测时，得到的预测结果的准确性较高。

在其中一实施例中，还包括：趋势处理模块1503；

所述趋势处理模块1503，用于对所述待预测时序序列进行去趋势化处理；

所述结果预测模块1504，用于将去趋势化之后的所述待预测时序序列，输入至所述GPR预测模型得到预测结果。

关于数据预测装置的具体限定可以参见上文中对于数据预测方法的限定，在此不再赘述。上述数据预测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器或终端，其内部结构图可以如图16所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种核函数构造方法或/及数据预测方法。

本领域技术人员可以理解，图16中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取预设方差参数及预设频率平移参数；

对所述核函数的协方差矩阵进行特征分解得到分解结果；

在一个实施例中，所述获取预设方差参数及预设频率平移参数的步骤，包括：

获取方差参数的方差区间；

获取频率平移参数的频率平移区间；

在一个实施例中，所述对所述核函数的协方差矩阵进行特征分解得到分解结果的步骤，包括：

对所述中间结果进行特征分解，得到所述分解结果。

在一个实施例中，所述对所述核函数的协方差矩阵中接近零的特征进行截断，得到中间结果的步骤，包括：

获取截断阈值；

获取待预测时序序列；

将所述待预测时序序列输入至GPR预测模型，得到预测结果；

所述GPR预测模型是上述的核函数构造方法构造的最优核函数，而构造获得的。

在一个实施例中，所述将所述待预测时序序列输入至GPR预测模型，得到预测结果的步骤，包括：

对所述待预测时序序列进行去趋势化处理；

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取预设方差参数及预设频率平移参数；

对所述核函数的协方差矩阵进行特征分解得到分解结果；

获取方差参数的方差区间；

获取频率平移参数的频率平移区间；

对所述中间结果进行特征分解，得到所述分解结果。

获取截断阈值；

获取待预测时序序列；

将所述待预测时序序列输入至GPR预测模型，得到预测结果；

对所述待预测时序序列进行去趋势化处理；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种数据预测方法，应用于进行数据预测的服务器，所述数据预测包括：居民日常生活的水、电、煤气用量数据预测、城市交通车辆供应量或需求量预测、网络上下行数据流量预测、城市天气和污染物浓度预测、航班量预测、航空乘客飞行总旅程数据预测中的至少一项；所述方法包括：

获取待预测时序序列，所述待预测时序序列为具有多种数据模式的时序序列；

将所述待预测时序序列输入至GPR预测模型，得到预测结果，并输出所述待预测时序序列对应的预测结果；

所述GPR预测模型是根据最优核函数而构造获得的高斯回归过程模型，所述最优核函数的构造方法包括：

获取预设方差参数及预设频率平移参数；

根据所述预设方差参数及所述预设频率平移参数构建核函数，所述核函数为对谱混合核函数进行栅格化得到的栅格谱混合核函数；

对所述核函数的协方差矩阵进行特征分解得到分解结果；

根据所述分解结果，通过最大化边缘对数似然函数对所述核函数的超参数进行优化，得到所述最优核函数，所述超参数的优化问题具有凸性结构；

其中，所述谱混合核函数通过以下高斯混合模型来逼近真实的谱密度而获得：

其中，Q表示高斯混合模式的数量；α_q，μ_q，σ² _q分别表示第q个混合分量的权重，频率平移和方差；exp表示以自然常数e为底的指数函数；f表示归一化频率，其取值为介于0-1/2之间的值；

对S(f)进行傅立叶逆变换，得到对应时域中的核函数如下：

其中，t表示时间下标；t’表示另一个时间下标；θ_h表示对应核函数的超参数；τ表示时间t和时间t’的差的绝对值；

所述核函数的超参数优化的目标方程表示为：

其中，y表示训练数据集中的输出，C表示协方差矩阵，α表示权重参数，σ_e ²表示噪声方差。

2.根据权利要求1所述的方法，其特征在于，所述获取预设方差参数及预设频率平移参数的步骤，包括：

获取方差参数的方差区间；

获取频率平移参数的频率平移区间；

3.根据权利要求1所述的方法，其特征在于，所述对所述核函数的协方差矩阵进行特征分解得到分解结果的步骤，包括：

对所述中间结果进行特征分解，得到所述分解结果。

4.根据权利要求3所述的方法，其特征在于，所述对所述核函数的协方差矩阵中接近零的特征进行截断，得到中间结果的步骤，包括：

获取截断阈值；

5.根据权利要求1所述的方法，其特征在于，所述将所述待预测时序序列输入至GPR预测模型，得到预测结果的步骤，包括：

对所述待预测时序序列进行去趋势化处理；

6.根据权利要求5所述的方法，其特征在于，所述去趋势化处理包括：取对数的操作或/及取一阶差的操作。

7.一种数据预测装置，应用于进行数据预测的服务器，所述数据预测包括：居民日常生活的水、电、煤气用量数据预测、城市交通车辆供应量或需求量预测、网络上下行数据流量预测、城市天气和污染物浓度预测、航班量预测、航空乘客飞行总旅程数据预测中的至少一项；其特征在于，所述装置包括：

序列获取模块，用于获取待预测时序序列；

结果预测模块，用于将所述待预测时序序列输入至GPR预测模型，得到预测结果，并输出所述待预测时序序列对应的预测结果；

函数构建模块，用于根据所述预设方差参数及所述预设频率平移参数构建核函数，所述核函数为对谱混合核函数进行栅格化得到的栅格谱混合核函数；

函数优化模块，用于根据所述分解结果，通过最大化边缘对数似然函数对所述核函数的超参数进行优化，得到最优核函数，所述超参数的优化问题具有凸性结构；

对S(f)进行傅立叶逆变换，得到对应时域中的核函数如下：

所述核函数的超参数优化的目标方程表示为：

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。