CN115392493A

CN115392493A - 一种分布式预测方法、系统、服务器及存储介质

Info

Publication number: CN115392493A
Application number: CN202211333745.0A
Authority: CN
Inventors: 张旭; 吴睿振; 王小伟; 孙华锦; 王凛
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2022-10-28
Filing date: 2022-10-28
Publication date: 2022-11-25

Abstract

本发明提出了一种分布式预测方法、系统、服务器及存储介质，其中，方法包括：本发明通过步骤S1给出了一个测试样本集合的先验概率分布，而后在步骤S2中利用上述先验概率密度分布预测了一个新的测试样本的后验概率分布；并在步骤S3中给出了一种确定从先验概率分布到后验概率分布的熵的变化的方式，并以此作为每个分布节点的预测精度的权重系数；最后在步骤S5中利用本发明提出的广义PoE聚合算法（为每个因子增加了权重系数）聚合来自多个分布节点的预测结果，从而实现对该新的测试样本的全局预测。本发明方法能够避免使用深度神经网络模型时的诸多缺陷且能够实现在线学习。

Description

一种分布式预测方法、系统、服务器及存储介质

技术领域

本发明设计机器学习领域，尤其涉及一种分布式预测方法、系统、服务器及存储介质。

背景技术

分布式机器学习的诞生，主要解决几类问题：一是计算量太大，二是训练数据太多，三是模型规模太大。对于计算量太大的情形，可以采取基于共享内存（或虚拟内存）的多线程或多机并行运算。对于训练数据太多的情形，需要将数据进行划分，并分配到多个工作节点上进行训练，这样每个工作节点的局部数据都在容限之内。每个工作节点会根据局部数据训练出一个子模型，并且会按照一定的规律和其他工作节点进行通信（通信的内容主要是子模型参数或者参数更新），以保证最终可以有效整合来自各个工作节点的训练结果并得到全局的机器学习模型。对于模型规模太大的情形，则需要对模型进行划分，并且分配到不同的工作节点上进行训练。与数据并行不同，模型并行的框架下各个子模型之间的依赖关系非常强，因为某个子模型的输出可能是另外一个子模型的输入，如果不进行中间计算结果的通信，则无法完成整个模型训练。并且现有技术中多采用深度神经网络模型作为机器学习模型，其不但存在上述缺陷，还仅适用于离线学习，而在实际应用中，工作机（分布节点）在实时产生数据流；

因此一种能够避免上述深度神经网络模型在应用过程中的缺陷的、且能够实现在线学习的分布式预测方案是本领域内所亟需的。

发明内容

为了解决背景技术中所提到的技术问题，在本发明的第一方面提出了一种分布式预测方法，所述方法包括：由分布节点对获得的测试样本集合进行高斯过程分析，获得符合高斯分布的局部预测模型以及针对所述测试样本集合的先验概率分布的第一期望和第一方差；响应于获得新的测试样本而将所述新的测试样本发送给多个所述分布节点，并由每个所述分布节点基于对应的局部预测模型通过高斯过程回归分析方法对所述新的测试样本进行局部预测，并获得针对新的测试样本集合的后验概率分布的第二期望及第二方差；以所述第一方差和所述第二方差的差值作为所述分布节点的权重系数；将多个所述分布节点的第二期望、第二方差以及对应的权重系数发送给云服务器；由所述云服务器采用PoE聚合算法根据多个所述分布节点的第二期望、第二方差以及对应的权重系数构建全局预测模型并输出对所述新的测试样本的全局预测结果。

在一个或多个实施例中，所述一种分布式预测方法，还包括：获取历史观测数据，所述历史观测数据包括观测输入及对应的观测输出；根据所述分布节点的个数，将所述历史观测数据划分到多个测试样本集合中并分派给各个分布节点。

在一个或多个实施例中，所述新的测试样本集合包括：在原始的所述测试样本集合中新增所述新的测试样本以及所述新的测试样本的局部预测输出后形成的测试样本集合。

在一个或多个实施例中，所述一种分布式预测方法还包括对所述新的测试样本集合进行精简，精简步骤包括：将所述新的测试样本集合投影到更高维度的空间中；在更高维度的空间中以所述新的测试样本的投影点为中心，以预设领域半径获得邻域内的邻域投影点；

获取对应所述邻域投影点的原始测试样本，并与所述新的测试样本组成精简后的测试样本集合。

在一个或多个实施例中，所述方法还包括：判断所述邻域投影点的个数是否大于等于预设值；响应于获得的邻域投影点的个数小于所述预设值，按照预设步长增大所述领域半径，直至获得邻域投影点的个数大于等于所述预设值。

在一个或多个实施例中，所述邻域投影点中应至少存在两个邻域投影点，且分别位于所述新的测试样本的投影点的不同方向上。

在一个或多个实施例中，所述方法还包括对所述新的测试样本集合进行精简，精简步骤包括：

定义历史观测输入x和新的测试样本

之间的距离为

，历史观测输入x到集合

的距离为

；历史观测输入x到测试样本集合

的投影集合为

；获得每一个分布节点

及其局部训练数据集

，针对测试数据

，计算测试数据

到训练集

的投影

；

在每一个时刻

，局部投影集合

包含有

个投影数据，即

；对每一个分布节点

及其投影集合

，取出每一个投影点

，其中，

表示第

个投影点，并针对每一个投影点

，找出该投影点

的一个邻域

使得

并保证

，

，

；对每一个分布节点

，构造新的训练集合

。

在一个或多个实施例中，所述由分布节点对获得的测试样本集合进行高斯过程分析，获得符合高斯分布的局部预测模型，包括：定义符合高斯分布的目标函数

，其中

是

维输入空间，不失一般性，设输出y为一维，即

；在时刻t，给定

，获得符合高斯分布的局部预测模型

，其中，

是服从均值为0，方差为

的高斯概率分布的高斯噪声，即

。

在一个或多个实施例中，所述由每个所述分布节点基于对应的局部预测模型通过高斯过程回归分析方法对所述新的测试样本进行局部预测，包括：确定对称正半定的核函数；利用所述正半定的核函数构建所述新的测试样本与所述样本集合中的观测输入之间的关系

，

其中，

，x为测试样本集合中的观测输入，

为新的测试样本,

为测度；让

返回列向量，使得所述列向量的第

个元素等于

；根据所述

的先验概率分布的均值函数

以及所述核函数是

,获得观测输出和预测输出

之间的关系，即服从联合概率分布

,

其中，

和

将分别返回由

和

组成的向量，

返回一个矩阵使得第

行第

列的元素是

。

在一个或多个实施例中，所述获得针对新的测试样本集合的后验概率分布的第二期望及第二方差，包括：在高斯回归分析过程中利用高斯过程的性质

，获得针对所述新的测试样本集合的后验概率分布的第二期望为

;

获得针对所述新的测试样本集合的后验概率分布的第二方差为

在一个或多个实施例中，所述对称正半定的核函数，包括：

其中，x为历史观测输入，

为新的测试样本，

和

为核函数的两个超参数。

在一个或多个实施例中，所述由所述云服务器采用PoE聚合算法根据多个所述分布节点的第二期望、第二方差以及对应的权重系数构建全局预测模型，包括：

根据多个所述分布节点的第二期望、第二方差以及对应的权重系数构造目标概率分布为多个概率密度的成绩，

其中，

是每个分布节点给出的条件概率分布，由每个分布节点的第二期望和第二方差计算获得，

为所述权重系数，表示对第i个工作机在输入x点对输出预测可靠性的度量，所述全局预测模型包括期望为

；所述全局预测模型还包括方差为

；其中，

为第i各分布节点的第二期望，

为第i个分布节点的第二方差，

表示第i个分布节点在输入点x时的精度。

在一个或多个实施例中，所述方法还包括：在构造目标概率分布为多个概率密度的成绩的过程中，排除所述权重系数小于预设阈值的第二期望及第二方差。

在一个或多个实施例中，所述预设阈值为0.6。

在一个或多个实施例中，所述方法还包括：将所述全局预测模型返回给多个所述分布节点；在每个分布节点中分别进行局部预测模型与所述全局预测模型的融合。

在一个或多个实施例中，所述多个分布节点包括多个虚拟机。

在一个或多个实施例中，所述多个分布节点包括多个物理机。

在本发明的第二方面，提出了一种分布式预测系统，包括：多个分布节点，配置用于对获得的测试样本集合进行高斯过程分析，获得符合高斯分布的局部预测模型以及针对所述测试样本集合的先验概率分布的第一期望和第一方差；分配节点：配置用于响应于获得新的测试样本而将所述新的测试样本发送给多个所述分布节点；所述多个分布节点还配置用于由每个所述分布节点基于对应的局部预测模型通过高斯过程回归分析方法对所述新的测试样本进行局部预测，并获得针对新的测试样本集合的后验概率分布的第二期望及第二方差；以所述第一方差和所述第二方差的差值作为所述分布节点的权重系数；将多个所述分布节点的第二期望、第二方差以及对应的权重系数发送给云服务器；云服务器，配置用于采用PoE聚合算法根据多个所述分布节点的第二期望、第二方差以及对应的权重系数构建全局预测模型并输出对所述新的测试样本的全局预测结果。

在本发明的第三方面，提出了一种服务器，包括：至少一个处理器；以及存储器，所述存储器中存储有可执行的计算机程序，所述计算机程序被所述至少一个处理器执行时用于实现如上述权利要求1-12任意一项所述的一种分布式预测方法的相应步骤。

在本发明的第四方面，提出了一种可读存储介质，包括：可执行的计算机程序，所述计算机程序被执行时用于实现如上述权利要求1-12任意一项所述的一种分布式预测方法的相应步骤。

本发明的有益效果包括：本发明提出了利用高斯过程回归模型作为分布式机器学习模型，并在此基础上给出了基于广义上PoE（Product of experts）专家乘积的联合预测算法用于构建全局预测模型。本发明的分布式预测方法至少具有以下优势：第一，不需要联合训练，就可以将逐个预测联合起来；第二，预测联合的方式依赖于输入；第三，联合的预测是一个有效的概率模型；第四，不可靠的预测会自动在联合预测里被滤除掉。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的实施例。

图1为本发明的一种分布式预测方法的工作流程图；

图2为本发明的一种分布式预测系统的结构示意图；

图3为本发明的一种服务器的结构示意图；

图4为本发明的一种可读存储介质的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明实施例进一步详细说明。

需要说明的是，本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量，可见“第一”“第二”仅为了表述的方便，不应理解为对本发明实施例的限定，后续实施例对此不再一一说明。

针对在线学习问题，高斯过程回归是一个有效的解决手段之一。实际上，高斯过程模型在某种意义下可以等价为现有的机器学习模型，如Bayesian（贝叶斯）线性模型或多层神经网络。根据中心极限定理，假设神经网络中的权重服从高斯正态分布，随着神经网络的宽度趋近于无穷，那么这样的神经网络等价于高斯过程回归。然而高斯过程回归是一个非超参数的统计概率模型，不像传统的学习模型，比如线性回归，逻辑回归，神经网络，需要求解优化问题使得损失函数最小来得到最优的模型参数，高斯过程回归并不需要求解优化问题。给定训练数据和测试输入，高斯过程回归的预测分为推断和预测两步。推断过程假设要学习的函数服从高斯过程，给出模型的高斯先验概率分布，然后利用观测值和Bayesian（贝叶斯）规则，求出模型的高斯后验概率分布。当完成局部模型预测之后，各个工作机将所得到的局部预测的期望和方差发送至服务器，让服务器完成全局模型的计算，例如，利用平均聚合算法求取全局模型。但是一般在多个概率模型的融合算法中，期望满足以下四个特性：第一，不需要联合训练，就可以将逐个预测联合起来；第二，预测联合的方式依赖于输入；第三，联合的预测是一个有效的概率模型；第四，不可靠的预测会自动在联合预测里被滤除掉。第一个特性允许每一个工作机进行独立的训练，使得总体的模型利用并行化可以容易的扩展。第二个特性给出了对于模型输入更强大的表达。第三个特性使得不确定性可以被量化，然后在接下来的建模或者决策中被应用。第四个特性确保了联合预测对于某些不够准确的预测是具有鲁棒性的。

本发明提出了利用高斯过程回归模型作为分布式机器学习模型，并在此基础上给出了基于广义上PoE（Product of experts）专家乘积（一种聚合算法）的预测算法，本发明为每个PoE算法的对应因子上增加用于刻画对应分布节点的预测精度的权重，且由于本发明中选用了高斯过程回归模型，因此，该权重的一个自然选择是从先验概率分布到后验概率分布的熵的变化。本发明提出的广义的PoE算法可以同时满足前述提到的四个特性。并且，比起平均算法，本发明基于广义PoE算法的预测算法可以保证预测是满足一致性的，即当训练集无限扩大时，那么模型预测结果将趋近于函数的真实值。以下将结合附图对本发明的技术方案进行更加详细的阐述。

图1为本发明的一种分布式预测方法的工作流程图。如图1所示，本发明的分布式预测方法的工作流程包括：步骤S1、由分布节点对获得的测试样本集合进行高斯过程分析，获得符合高斯分布的局部预测模型以及针对测试样本集合的先验概率分布的第一期望和第一方差；步骤S2、响应于获得新的测试样本而将新的测试样本发送给多个分布节点，并由每个分布节点基于对应的局部预测模型通过高斯过程回归分析方法对新的测试样本进行局部预测，并获得针对新的测试样本集合的后验概率分布的第二期望及第二方差；步骤S3、以第一方差和第二方差的差值作为分布节点的权重系数；步骤S4、将多个分布节点的第二期望、第二方差以及对应的权重系数发送给云服务器；步骤S5、由云服务器采用PoE聚合算法根据多个分布节点的第二期望、第二方差以及对应的权重系数构建全局预测模型并输出对新的测试样本的全局预测结果。

在本实施例中，本发明通过步骤S1给出了一个测试样本集合的先验概率分布，而后在步骤S2中利用上述先验概率密度分布预测了一个新的测试样本的后验概率分布；并在步骤S3中给出了一种确定从先验概率分布到后验概率分布的熵的变化的方式，即利用后验概率分布的方差与先验概率分布的方差之间的差值代表熵的变化，并以此作为每个分布节点的预测精度的权重系数；最后在步骤S5中利用本发明提出的广义PoE聚合算法聚合来自多个分布节点的预测结果，从而形成全局预测模型，并给出全局预测结果。

在进一步的实施例中，本发明的一种分布式预测方法还包括：获取历史观测数据，历史观测数据包括观测输入及对应的观测输出；根据分布节点的个数，将历史观测数据划分到多个测试样本集合中并分派给各个分布节点。其中，上述历史观测输入和观测输出均为量测值。

在进一步的实施例中，新的测试样本集合包括：在原始的测试样本集合中新增新的测试样本以及新的测试样本的局部预测输出结果后形成的测试样本集合。

在进一步的实施例中，本发明的方法还包括对新的测试样本集合进行精简，精简步骤包括：将新的测试样本集合投影到更高维度的空间中；在更高维度的空间中以新的测试样本的投影点为中心，以预设领域半径获得邻域内的邻域投影点；获取对应邻域投影点的原始测试样本，并与新的测试样本组成精简后的测试样本集合。

在进一步的实施例中，本发明的方法还包括：判断邻域投影点的个数是否大于等于预设值；响应于获得的邻域投影点的个数小于预设值，按照预设步长增大领域半径，直至获得邻域投影点的个数大于等于预设值。

在进一步的实施例中，邻域投影点中应至少存在两个邻域投影点，且分别位于新的测试样本的投影点的不同方向上。在一个优选的实施例中，若获得的两个邻域投影点在新的测试样本的投影点的同一方向上或同一侧，则可以通过再次增大邻域半径来获得更多的邻域投影点。

通过对新的测试样本集合的精简步骤能够大大降低计算后验概率分布的计算量，并保证预测速度不会随着测试样本增多而下降。精简操作的更具体的操作步骤请参照下面的一个实施例：

在进一步的实施例中，为了减少分布节点的计算量，本发明的方法还包括对新的测试样本集合进行精简，具体精简步骤包括：

定义历史观测输入x和新的测试样本

之间的距离为

，历史观测输入x到集合

的距离为

；

历史观测输入x到测试样本集合

的投影集合为

；

获得每一个分布节点

及其局部训练数据集

，针对测试数据

，计算测试数据

到训练集

的投影

；

在每一个时刻

，局部投影集合

包含有

个投影数据，即

；

对每一个分布节点

及其投影集合

，取出每一个投影点

，其中，

表示第

个投影点，并针对每一个投影点

，找出该投影点

的一个邻域

使得

并保证

，

，

；

对每一个分布节点

，构造新的训练集合

。

需要说明的是，本步骤可以在计算新的测试样本集合的后验概率分布的期望和方差之前计算。

以下将对本发明的步骤S1到S 5的具体实现步骤进行说明：

步骤S1的具体实现步骤包括：定义符合高斯分布的目标函数

，其中

是

维输入空间，不失一般性，设输出y为一维，即

；

在时刻t，给定

，获得符合高斯分布的局部预测模型

，其中，

是服从均值为0，方差为

的高斯概率分布的高斯噪声，即

。定义如下形式的训练集

，其中

是观测输入数据集合，

是聚合了观测输出的列向量。高斯过程回归分析的目标是利用训练集

在测试数据集合

上逼近函数

，高斯过程分析的目的是为了高斯过程回归分析做好准备，包括确定函数

，以及计算测试样本的先验概率分布、期望和方差。

步骤S2的具体实现步骤包括：确定对称正半定的核函数；利用正半定的核函数构建新的测试样本与样本集合中的观测输入之间的关系，如下：

，

其中，

，x为测试样本集合中的观测输入，

为新的测试样本,

为测度；

让

返回列向量，使得列向量的第

个元素等于

；

根据

的先验概率分布的均值函数

以及核函数是

,获得观测输出和预测输出

（

即为新的测试样本

的特征向量）之间的关系，其也服从联合概率分布，如下：

其中，

和

将分别返回由

和

组成的向量，

返回一个矩阵使得第

行第

列的元素是

；

在高斯回归分析过程中利用高斯过程的性质，即

，获得针对新的测试样本集合的第二期望为

;

获得针对新的测试样本集合的第二方差为

在针对新的测试样本集合计算上述第二期望和第二方差之前，既可以先对新的测试样本集合利用前述的精简方法进行处理，以降低分布节点的计算量。

在一个可选的实施例中，步骤S2中确定的对称正半定的核函数为：

其中，x为历史观测输入，

为新的测试样本，

和

为核函数的两个超参数。

步骤S3的具体实现步骤包括：

根据多个分布节点的第二期望、第二方差以及对应的权重系数构造目标概率分布为多个概率密度的成绩作为全局预测模型，

其中，

是每个分布节点给出的条件概率分布，可由每个分布节点的第二期望和第二方差计算获得，

为权重系数，表示对第i个工作机在输入x点对输出预测可靠性的度量，全局预测模型还包括全局预测的期望，

；

全局预测模型还包括全局预测的方差，

；

其中，

为第i各分布节点的第二期望，

为第i个分布节点的第二方差，

表示第i个分布节点在输入点x时的精度。

在进一步的实施例中，本发明的方法还包括：在构造目标概率分布为多个概率密度的成绩的过程中，排除权重系数小于预设阈值的第二期望及第二方差。其中，在一个可选的实施例中，预设阈值可以设为0.6。通过本实施例，能够去除明显不准确的局部预测结果对全局预测模型的影响，进而提升全局预测结果的准确度。

本发明采用广义PoE聚合算法具有如下好处：第一，不需要联合训练，就可以将逐个预测联合起来；第二，预测联合的方式依赖于输入；第三，联合的预测是一个有效的概率模型，可以量化预测不确定性；第四，不可靠的预测会自动在联合预测里被滤除掉，确保了联合预测对于某些不够好的预测是具有鲁棒性的；第五，模型预测可以满足一致性估计。因此，将广义PoE聚合算法应用在本发明的分布式在线学习框架中，有利于提升全局模型预测的准确性。

在进一步的实施例中，本发明的一种分布式预测方法还包括：将全局预测模型返回给多个分布节点；在每个分布节点中分别进行局部预测模型与全局预测模型的融合。其中，多个分布节点包括多个虚拟机或多个物理机。

在本发明的第二方面，提出了一种分布式预测系统。图2为本发明的一种分布式预测系统的结构示意图。如图2所示，本发明的分布式预测系统包括：多个分布节点100，配置用于对获得的测试样本集合进行高斯过程分析，获得符合高斯分布的局部预测模型以及针对测试样本集合的先验概率分布的第一期望和第一方差；分配节点200：配置用于响应于获得新的测试样本而将新的测试样本发送给多个分布节点；多个分布节点100还配置用于由每个分布节点基于对应的局部预测模型通过高斯过程回归分析方法对新的测试样本进行局部预测，并获得针对新的测试样本集合的后验概率分布的第二期望及第二方差；以第一方差和第二方差的差值作为分布节点的权重系数；将多个分布节点的第二期望、第二方差以及对应的权重系数发送给云服务器；云服务器300，配置用于采用PoE聚合算法根据多个分布节点的第二期望、第二方差以及对应的权重系数构建全局预测模型并输出对新的测试样本的全局预测结果。

在本发明的第三方面，提出了一种服务器。图3为本发明的一种服务器的结构示意图。如图3所示，本发明的服务器400包括：至少一个处理器401；以及存储器402，存储器402中存储有可执行的计算机程序，计算机程序被至少一个处理器401执行时用于实现如上述任意一实施例中的一种分布式预测方法的相应步骤。

在本发明的第四方面，提出了一种可读存储介质。图4为本发明的一种可读存储介质的结构示意图。如图4所示，本发明的可读存储介质500包括：可执行的计算机程序501，计算机程序501被执行时用于实现如上述任意一实施例中的一种分布式预测方法的相应步骤。

以上是本发明公开的示例性实施例，但是应当注意，在不背离权利要求限定的本发明实施例公开的范围的前提下，可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外，尽管本发明实施例公开的元素可以以个体形式描述或要求，但除非明确限制为单数，也可以理解为多个。

应当理解的是，在本文中使用的，除非上下文清楚地支持例外情况，单数形式“一个”旨在也包括复数形式。还应当理解的是，在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。

上述本发明实施例公开实施例序号仅仅为了描述，不代表实施例的优劣。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本发明实施例公开的范围（包括权利要求）被限于这些例子；在本发明实施例的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，并存在如上的本发明实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。因此，凡在本发明实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明实施例的保护范围之内。

Claims

1.一种分布式预测方法，其特征在于，所述方法包括：

由分布节点对获得的测试样本集合进行高斯过程分析，获得符合高斯分布的局部预测模型以及针对所述测试样本集合的先验概率分布的第一期望和第一方差；

响应于获得新的测试样本而将所述新的测试样本发送给多个所述分布节点，并由每个所述分布节点基于对应的局部预测模型通过高斯过程回归分析方法对所述新的测试样本进行局部预测，并获得针对新的测试样本集合的后验概率分布的第二期望及第二方差；

以所述第一方差和所述第二方差的差值作为所述分布节点的权重系数；

将多个所述分布节点的第二期望、第二方差以及对应的权重系数发送给云服务器；

由所述云服务器采用PoE聚合算法根据多个所述分布节点的第二期望、第二方差以及对应的权重系数构建全局预测模型并输出对所述新的测试样本的全局预测结果。

2.根据权利要求1所述的一种分布式预测方法，其特征在于，所述方法还包括：

获取历史观测数据，所述历史观测数据包括观测输入及对应的观测输出；

根据所述分布节点的个数，将所述历史观测数据划分到多个测试样本集合中并分派给各个分布节点。

3.根据权利要求1所述的一种分布式预测方法，其特征在于，所述新的测试样本集合包括：在原始的所述测试样本集合中新增所述新的测试样本以及所述新的测试样本的局部预测输出后形成的测试样本集合。

4.根据权利要求3所述的一种分布式预测方法，其特征在于，所述方法还包括对所述新的测试样本集合进行精简，精简步骤包括：

将所述新的测试样本集合投影到更高维度的空间中；

在更高维度的空间中以所述新的测试样本的投影点为中心，以预设领域半径获得邻域内的邻域投影点；

5.根据权利要求4所述的一种分布式预测方法，其特征在于，所述方法还包括：

判断所述邻域投影点的个数是否大于等于预设值；

响应于获得的邻域投影点的个数小于所述预设值，按照预设步长增大所述领域半径，直至获得邻域投影点的个数大于等于所述预设值。

6.根据权利要求5所述的一种分布式预测方法，其特征在于，所述邻域投影点中应至少存在两个邻域投影点，且分别位于所述新的测试样本的投影点的不同方向上。

7.根据权利要求3所述的一种分布式预测方法，其特征在于，所述方法还包括对所述新的测试样本集合进行精简，精简步骤包括：

定义历史观测输入x和新的测试样本

之间的距离为

，历史观测输入x 到集合

的距离为

；

历史观测输入x到测试样本集合

的投影集合为

；

获得每一个分布节点

及其局部训练数据集

，针对测试数据

，计算测试数据

到训练集

的投影

；

在每一个时刻

，局部投影集合

包含有

个投影数据，即

；

对每一个分布节点

及其投影集合

，取出每一个投影点

，其中，

表示第

个投影点，并针对每一个投影点

，找出该投影点

的一个邻域

使得

并保证

，

，

；

对每一个分布节点

，构造新的训练集合

。

8.根据权利要求2所述的一种分布式预测方法，其特征在于，所述由分布节点对获得的测试样本集合进行高斯过程分析，获得符合高斯分布的局部预测模型，包括：

定义符合高斯分布的目标函数

，其中

是

维输入空间，不失一般性，设输出y为一维，即

；

在时刻t，给定

，获得符合高斯分布的局部预测模型

，其中，

是服从均值为0，方差为

的高斯概率分布的高斯噪声，即

。

9.根据权利要求8所述的一种分布式预测方法，其特征在于，所述由每个所述分布节点基于对应的局部预测模型通过高斯过程回归分析方法对所述新的测试样本进行局部预测，包括：

确定对称正半定的核函数；

利用所述正半定的核函数构建所述新的测试样本与所述样本集合中的观测输入之间的关系

，

其中，

，x为测试样本集合中的观测输入，

为新的测试样本,

为测度；

让

返回列向量，使得所述列向量的第

个元素等于

；

根据所述

的先验概率分布的均值函数

以及所述核函数是

,获得观测输出和预测输出

之间的关系，即服从联合概率分布

,

其中，

和

将分别返回由

和

组成的向量，

返回一个矩阵使得第

行第

列的元素是

。

10.根据权利要求9所述的一种分布式预测方法，其特征在于，所述获得针对新的测试样本集合的后验概率分布的第二期望及第二方差，包括：

在高斯回归分析过程中利用高斯过程的性质

;

。

11.根据权利要求10所述的一种分布式预测方法，其特征在于，所述对称正半定的核函数，包括：

其中，x为历史观测输入，

为新的测试样本，

和

为核函数的两个超参数。

12.根据权利要求11所述的一种分布式预测方法，其特征在于，所述由所述云服务器采用PoE聚合算法根据多个所述分布节点的第二期望、第二方差以及对应的权重系数构建全局预测模型，包括：

其中，

；

所述全局预测模型还包括方差为

；

其中，

为第i各分布节点的第二期望，

为第i个分布节点的第二方差，

表示第i个分布节点在输入点x时的精度。

13.根据权利要求12所述的一种分布式预测方法，其特征在于，所述方法还包括：

在构造目标概率分布为多个概率密度的成绩的过程中，排除所述权重系数小于预设阈值的第二期望及第二方差。

14.根据权利要求13所述的一种分布式预测方法，其特征在于，所述预设阈值为0.6。

15.根据权利要求1所述的一种分布式预测方法，其特征在于，所述方法还包括：

将所述全局预测模型返回给多个所述分布节点；

在每个分布节点中分别进行局部预测模型与所述全局预测模型的融合。

16.根据权利要求1所述的一种分布式预测方法，其特征在于，所述多个分布节点包括多个虚拟机。

17.根据权利要求1所述的一种分布式预测方法，其特征在于，所述多个分布节点包括多个物理机。

18.一种分布式预测系统，其特征在于，包括：

多个分布节点，配置用于对获得的测试样本集合进行高斯过程分析，获得符合高斯分布的局部预测模型以及针对所述测试样本集合的先验概率分布的第一期望和第一方差；

分配节点：配置用于响应于获得新的测试样本而将所述新的测试样本发送给多个所述分布节点；

所述多个分布节点还配置用于由每个所述分布节点基于对应的局部预测模型通过高斯过程回归分析方法对所述新的测试样本进行局部预测，并获得针对新的测试样本集合的后验概率分布的第二期望及第二方差；

云服务器，配置用于采用PoE聚合算法根据多个所述分布节点的第二期望、第二方差以及对应的权重系数构建全局预测模型并输出对所述新的测试样本的全局预测结果。

19.一种服务器，其特征在于，包括：

至少一个处理器；以及

存储器，所述存储器中存储有可执行的计算机程序，所述计算机程序被所述至少一个处理器执行时用于实现如上述权利要求1-17任意一项所述的一种分布式预测方法的相应步骤。

20.一种可读存储介质，其特征在于，包括：

可执行的计算机程序，所述计算机程序被执行时用于实现如上述权利要求1-17任意一项所述的一种分布式预测方法的相应步骤。