CN110717148A

CN110717148A - 一种融合经验的数据驱动回归预测算法

Info

Publication number: CN110717148A
Application number: CN201910904026.1A
Authority: CN
Inventors: 张发恩; 刘俊龙; 周鹏程
Original assignee: Innovation Qizhi (guangzhou) Technology Co Ltd
Current assignee: Innovation Qizhi (guangzhou) Technology Co Ltd
Priority date: 2019-09-24
Filing date: 2019-09-24
Publication date: 2020-01-21

Abstract

本发明涉及一种融合经验的数据驱动回归预测算法，将业务经验或数据观察分析表达为与目标对应的数学方程式，利用神经网络函数对数学方程式中的自变量系数进行预测，并结合数学方程式中的自变量得出预测值，然后将该预测值和实际值进行对比，通过预测值和实际值间的损失函数反向传播，令损失函数最小，不断迭代更新自变量系数，最终得出准确的预测结果，从而实现对目标符合经验或观察分析地预测。本方法在预测未见数据时，使得训练样本在分布稀疏处可以实现良好的泛化能力，满足实际需要，并能得到相关敏感度，具有极大的市场应用价值。

Description

一种融合经验的数据驱动回归预测算法

技术领域

本专利申请属于数据预测技术领域，更具体地说，是涉及一种融合经验的数据驱动回归预测算法。

背景技术

现有数据驱动的统计机器学习方法在训练样本分布稀疏处无法实现良好的泛化能力。例如，对于不同型号电池的放电预测过程中，训练集在不同型号有不同的放电记录区间，由此得到的训练模型在放电区间外不具备精准预测的能力。或者在不同的影响因子下，销量的预测也无法做到准确。

发明内容

本发明需要解决的技术问题是提供一种融合经验的数据驱动回归预测算法，使得训练样本在分布稀疏处可以实现良好的泛化能力，满足实际需要。

为了解决上述问题，本发明所采用的技术方案是：

一种融合经验的数据驱动回归预测算法，将业务经验或数据观察分析表达为与目标对应的数学方程式，利用神经网络函数对数学方程式中的自变量系数进行预测，并结合数学方程式中的自变量得出预测值，然后将该预测值和实际值进行对比，通过预测值和实际值间的损失函数反向传播，令损失函数最小，不断迭代更新自变量系数，最终得出准确的预测结果，从而实现对目标符合经验或观察分析地预测。

本发明技术方案的进一步改进在于：具体过程为：

步骤a、构建数学方程式：对于任意回归数据集，从业务经验或数据观察分析得知已知数据集{影响因子，目标}存在可以数学化表示的关系，那么可以将该回归数据集中的每个样本表示为：y_pred＝∑W(Xi)x^i‘+W₀，其中x为样本的主要影响因子，y_pred为预测值，X为样本中除x的其他影响因子，Xi为第i个样本的标记，i’是主要影响因子x的次幂，W(X)指的是通过输入其他影响因子X输出的预测系数，W₀是主要影响因子x和y_pred之间的线性系数；

步骤b、令损失函数值最小：使用神经网络预测W₀和W(X)，迭代更新自变量系数，使得损失函数Loss(y_pred，y)最小，损失函数表示为：

其中：y_pred为预测值，y为真实值，y_{pred_i}为第i个样本的预测值，y_{true_i}为第i个样本的真实值。

本发明技术方案的进一步改进在于：涉及到的数学化表示的关系为线性相关或满足概率分布函数，线性相关包括正相关、负相关、指数相关或对数相关，概率分布函数包括高斯分布、二项分布、卡方分布或正态分布。

本发明技术方案的进一步改进在于：数学方程式包括多元多项式、指数函数或对数函数的一种或多种。

本发明技术方案的进一步改进在于：数学方程式为多元多项式(比如为泰勒公式)，通过神经网络函数f_k(x)对多元多项式内的多项式进行预测，将预测系数W(X)和线性系数W₀均表示为神经网络函数f_k(x)，其中f_k(x)为神经网络的输出，为神经网络的倒数第二层(第L-1层)，表示第k层神经网络函数，k取值为1～10；f_k(x)中的x为神经网络的输入，表示数据集中某一样本的影响因子(影响因子中的其他影响因子用x1......xn表示，主要影响因子用xn+1......xm表示)。

本发明技术方案的进一步改进在于：当业务经验或数据观察为销量预测时，由于销量随着价格增加成下凹状，销量随着排面增加成上凸状，因此销量和排面面积作为主要影响因子x，其他影响因子X包括节假日、天气、历史销量、版面，神经网络函数f_k(x)中的k＝5，则销量的多元多项式表示为：

销量＝f₁(X)*价格²+f₂(X)*价格+f₃(X)*排面²+f₄(X)*价格+f₅(X)，X为其他影响因子。

本发明技术方案的进一步改进在于：数学方程式为指数函数，当业务经验或数据观察为销量和价格时，则销量＝b*exp(-a/价格)，其中的a、b均为通过神经网络函数f_k(x)来表示的指数参数，即f_k(X)＝a,b，其中X表示某一个样本的其他影响因子，f_k(X)表示第k个神经网络函数。

本发明技术方案的进一步改进在于：数学方程式为对数函数，当业务经验或数据观察为销量和曝光面积时，则销量＝a*log(b*曝光面积)，其中的a、b均为通过神经网络函数f_k(x)来表示的对数参数，即f_k(X)＝a,b，其中X表示某一个样本的其他影响因子，f_k(X)表示第k个神经网络函数。

由于采用了上述技术方案，本发明取得的有益效果是：

1，对于训练集上分布稀疏点具有更好的泛化性能。例如，放电测试中电流和电压基本成正相关，使用该方法，电流作为x，其他影响因子X用于学习系数(斜率)，在预测未见电流时可以保持良好的泛化性能。

2，模型可解释性更强。例如，销量预测中价格和销量成负相关，使用该方法，价格作为主要影响因子x，其他影响因子X用于学习训练系数(斜率)，可以获取各商品在某价格位上，销量对价格的敏感度，可用于定价调节。

附图说明

图1为本发明神经网络预测的流程示意图。

具体实施方式

下面结合实施例对本发明做进一步详细说明。

本发明公开了一种融合经验的数据驱动回归预测算法，过程为：将业务经验或数据观察分析表达为与目标对应的数学方程式，利用神经网络函数对数学方程式中的自变量系数进行预测，并结合数学方程式中的自变量得出预测值，然后将该预测值和实际值进行对比，通过预测值和实际值间的损失函数反向传播，令损失函数最小，不断迭代更新自变量系数，最终得出准确的预测结果，从而实现对目标符合经验或观察分析地预测。

具体步骤为：

涉及到的数学化表示的关系为线性相关或满足概率分布函数，线性相关包括正相关、负相关、指数相关或对数相关，概率分布函数包括高斯分布、二项分布、卡方分布或正态分布。数学方程式包括多元多项式、指数函数或对数函数的一种或多种，可以为任一种，也可以为多种之间的组合。

比如，当数学方程式为多元多项式(比如为泰勒公式，泰勒公式，应用于数学、物理领域，是一个用函数在某点的信息描述其附近取值的公式。如果函数足够平滑的话，在已知函数在某一点的各阶导数值的情况之下，泰勒公式可以用这些导数值做系数构建一个多项式来近似函数在这一点的邻域中的值。泰勒公式还给出了这个多项式和实际的函数值之间的偏差)，则神经网络函数f_k(x)对多元多项式内的多项式进行预测，将预测系数W(X)和线性系数W₀均表示为神经网络函数f_k(x)，其中f_k(x)为神经网络的输出，为神经网络的倒数第二层(第L-1层)，表示第k层神经网络函数，k取值为1～10；f_k(x)中的x为神经网络的输入，表示数据集中某一样本的影响因子(影响因子中的其他影响因子用x1......xn表示，主要影响因子用xn+1......xm表示)。

当业务经验或数据观察为销量预测时，由于销量随着价格增加成下凹状，销量随着排面增加成上凸状，因此销量和排面面积作为主要影响因子x，其他影响因子X包括节假日、天气、历史销量、版面，神经网络函数f_k(x)中的k＝5，则销量的多元多项式表示为：

销量＝f₁(X)*价格²+f₂(X)*价格+f₃(X)*排面²+f₄(X)*价格+f₅(X)，X为其他影响因子。根据样本量进行逐一计算(比如X_i可表示第i个样本，f_k(X)表示某一个样本的第k个神经网络函数，k取值为1～5)。

由于经验的形式是多种多样的，有的是通过观察而来的。例如：特征集中的某一特征x和Target呈线性相关或满足某一分布，例如：高斯分布、二项分布等，以及在物理、化学等领域的问题中，有具体公式的先验知识，我们可以通过神经网络训练x和Target之间的方程系数。而有些经验没有固定的形式，例如：通过CNN识别印刷版上的文字，我们根据现有的大多数印刷版上的文字形状定制扫描窗口的样式，以此来提高模型的识别能力，这也是经验的一种。

再如当数学方程式为指数函数，当业务经验或数据观察为销量和价格时，则销量

＝b*exp(-a/价格)，其中的a、b均为通过神经网络函数f_k(x)来表示的指数参数，即f_k(X)＝a,b，其中X表示某一个样本的其他影响因子，f_k(X)表示第k个神经网络函数。

或者例如y＝x^a，可以写成具体公式，且公式包含自变量x和自变量系数a，我们可以通过神经网络预测自变量系数a，然后结合x得出预测结果y。然后通过y_pred和y_true间的损失函数反向传播，不断迭代更新自变量系数a，最终得出准确的预测结果y_pred。

又如数学方程式为对数函数，当业务经验或数据观察为销量和曝光面积时，则销量＝a*log(b*曝光面积)，其中的a、b均为通过神经网络函数f_k(x)来表示的对数参数，即f_k(X)＝a,b，其中X表示某一个样本的其他影响因子，f_k(X)表示第k个神经网络函数。

或者数学方程式为多元多项式、指数函数、对数函数的任意多种，按照前述段落的描述进行多元多项式、指数函数、对数函数的任意组合。

本专利中涉及到的人工神经网络是一个黑盒模型(black-box)。黑盒模型，通常具有很高的准确性。然而，这些模型的内部工作机制却难以理解，也无法估计每个特征对模型预测结果的重要性，更不能理解不同特征之间的相互作用关系。因此，我们通常只关注神经网络的输入和输出。f_i(X)，i＝1～5，即1个神经网络模型的5个输出而非5个公式。其整体是一个黑盒模型，没有具体的公式。其中，在本专利中，5个输出并非指经典神经网络的输出层L，而是指输出层的前一层L-1。

数据集里有多条样本，每条样本都包含特征向量和标签，特征向量包括主要特征向量和其他特征向量，标签是预测值。以销量预测为例，在图1中，特征向量里包含节假日，天气，价格，库存，曝光面积等，标签就是未来销量，其中的价格和曝光面积等为主要影响因子x(记作x_n+1…x_m)，节假日、天气和库存为其他影响因子X(记作X₁…X_n)，也就是在图1中的神经网络中，神经网络的输入是同一个样本的不同特征向量，写成x₁、x₂…x_m，(可能容易和第1,2,i个样本混淆，这里表示第1,2,…，m维特征)。w₁、w₂…w_n对应上述公式里的f_k(X)(也就是其他影响因子X)。

之所以k是5个而非4个或6个，其个数并没有明确限制。正如上段所述，fi(X)是神经网络的第L-1层，是神经网络的一部分。如同神经网络的层数、神经元数等参数是由使用者根据经验设置的一样，i＝5是算法工程师通过分析数据和个人业务经验设置的，并没有明确的规定。

Claims

1.一种融合经验的数据驱动回归预测算法，其特征在于：将业务经验或数据观察分析表达为与目标对应的数学方程式，利用神经网络函数对数学方程式中的自变量系数进行预测，并结合数学方程式中的自变量得出预测值，然后将该预测值和实际值进行对比，通过预测值和实际值间的损失函数反向传播，令损失函数最小，不断迭代更新自变量系数，最终得出准确的预测结果，从而实现对目标符合经验或观察分析地预测。

2.根据权利要求1所述的一种融合经验的数据驱动回归预测算法，其特征在于：具体过程为：

步骤a、构建数学方程式：对于任意回归数据集，从业务经验或数据观察分析得知已知数据集{影响因子，目标}存在可以数学化表示的关系，那么可以将该回归数据集中的每个样本表示为：y_pred＝∑W(Xi)x^i‘+W₀，其中y_pred为预测值，Xi为第i个样本的标记，x为样本的主要影响因子，X为样本中除x的其他影响因子，i’是主要影响因子x的次幂，W(X)指的是通过输入其他影响因子X输出的预测系数，W₀是主要影响因子x和y_pred之间的线性系数；

步骤b、令损失函数值最小：使用神经网络预测W₀和W(X)，并迭代更新，使得损失函数Loss(y_pred，y)最小，损失函数表示为：

3.根据权利要求2所述的一种融合经验的数据驱动回归预测算法，其特征在于：涉及到的数学化表示的关系为线性相关或满足概率分布函数，线性相关包括正相关、负相关、指数相关或对数相关，概率分布函数包括高斯分布、二项分布、卡方分布或正态分布。

4.根据权利要求3所述的一种融合经验的数据驱动回归预测算法，其特征在于：数学方程式包括多元多项式、指数函数或对数函数的一种或多种。

5.根据权利要求4所述的一种融合经验的数据驱动回归预测算法，其特征在于：数学方程式为多元多项式，通过神经网络函数f_k(x)对多元多项式内的多项式进行预测，将预测系数W(X)和线性系数W₀均表示为神经网络函数f_k(x)，其中f_k(x)为神经网络的输出，为神经网络的倒数第二层，f_k(x)表示第k层神经网络函数，k取值为1～10；f_k(x)中的x为神经网络的输入，表示数据集中某一样本的影响因子。

6.根据权利要求5所述的一种融合经验的数据驱动回归预测算法，其特征在于：当业务经验或数据观察为销量预测时，由于销量随着价格增加成下凹状，销量随着排面增加成上凸状，因此销量和排面面积作为主要影响因子x，其他影响因子X包括节假日、天气、历史销量、版面，神经网络函数f_k(x)中的k＝5，则销量的多元多项式表示为：

7.根据权利要求4所述的一种融合经验的数据驱动回归预测算法，其特征在于：数学方程式为指数函数，当业务经验或数据观察为销量和价格时，则销量＝b*exp(-a/价格)，其中的a、b均为通过神经网络函数f_k(x)来表示的指数参数，即f_k(X)＝a,b，其中X表示某一个样本的其他影响因子，f_k(X)表示第k个神经网络函数。

8.根据权利要求4所述的一种融合经验的数据驱动回归预测算法，其特征在于：数学方程式为对数函数，当业务经验或数据观察为销量和曝光面积时，则销量＝a*log(b*曝光面积)，其中的a、b均为通过神经网络函数f_k(x)来表示的对数参数，即f_k(X)＝a,b，其中X表示某一个样本的其他影响因子，f_k(X)表示第k个神经网络函数。