CN110717608A

CN110717608A - 数据预测方法和数据预测装置

Info

Publication number: CN110717608A
Application number: CN201810680495.5A
Authority: CN
Inventors: 张柯
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2018-06-27
Filing date: 2018-06-27
Publication date: 2020-01-21

Abstract

本发明实施例提出一种数据预测方法和装置，该数据预测方法包括：确定地理平面区域，所述地理平面区域包括多个地理区格，所述多个地理区格的交汇点构成多个预测点，所述地理平面区域中包括多个数据获取点；依据各个数据获取点获得的观测数据，确定与所述各个数据获取点相邻的预测点的数据；对于与所述各个数据获取点不相邻的预测点，基于以所述不相邻的预测点为中心的环绕区域的区域特征数据，利用机器学习模型组件确定所述不相邻的预测点的数据。本发明利用机器学习模型对地理位置相关的数据进行预测，提高了预测的准确度。

Description

数据预测方法和数据预测装置

技术领域

本发明涉及信息处理领域，尤其涉及一种数据预测方法和数据预测装置。

背景技术

在一些地理相关的预测场景中，获取数据是提高预测准确程度的瓶颈。例如，在针对某一个区域的预测中，需要将该区域按照经纬度等方式划分成多个子区域，每一个子区域或者子区域的边界对应一个预测点。预测过程需要从每个预测点采集数据信息。但是如果在每一个预测点均架设一个用于获取数据的数据获取点，则会造成成本的大幅增加。

例如，在与地理相关的气象预报的业务场景中，当前所观测到的数据质量直接影响着天气预报的精准度，天气预报是一件非常困难的事情，一个地区未来几小时的天气情况可能不单单跟本地区的指标有关，可能还跟它周边地区当前、过去的指标有关，其地区彼此之间关联性非常强。重要的气象指标一般有降水、风速、湿度、温度、露点温度等，这些基础气象指标是我们进行气象预测的基础，目前只能通过在地面大量架设数据获取点来实时获取。

另一方面，随着气象服务精细化的需求，一般要做到“公里”级别的预报，即在相邻1公里的预测点处，需根据自身预测点所观察到的指标数据，给出不同的天气预报结果。在气象传统的认知当中，要想达到这个目的，就必须在每个相邻一公里的预测点处架设数据获取点，但从成本问题的角度来看，这几乎是不可能完成的任务

但是，由于架设数据获取点的成本太高，架设有数据获取点的有数据预测点只占所有预测点的5％左右，即绝大多数都是无数据预测点。

为了满足每一预测点均有数据的要求，现在业界广泛使用线性插值法获取预测点的数据，即，通过两端有数据的预测点对中间没有预测点的数据进行插值。但线性插值的方法也存在着三个主要的缺点：

首先，线性插值法只能线性单调预测而并不能预测极值。也就是说，利用线性插值法，是人为地假定了中间无数据预测点的值是按两端的观测数据值线性增大或减小，所以无论怎么插值，并不可能出现极值改变单调性，且值的范围永远无法突破两端值的区间。但在实际的气象平面问题中，显然没有这样的假设，极值完全可能出现在无数据预测点当中，甚至有可能大于或小于两个端点值。

其次，线性插值法没有从整个平面填充的角度进行插值。线性插值法从根本来说还是属于点与点之间的预测，并没有将平面上另外的信息考虑进来，导致填充值的预测过于简单粗暴，从而降低了填充的精准度。

再次，线性插值法对于局部有大量无数据预测点的预测效果欠佳。当在一个局部范围内没有有数据预测点或只有少量有数据预测点时，线性插值法并不能将有数据预测点密集地区的填充经验照搬复制过来，还是只能进行机械插值，导致获取的数据不准确。

由上述可知，现有的线性插值法明显达不到获取准确的预测数据、实现精确预测的目的。

除了上述气象预测的场景，在其他与地理位置相关的预测场景中，例如针对交通拥堵状况预测、人流量密度预测，海洋渔情预测等情形，由于数据获取点的成本缘故，现有技术同样是利用插值法预估大多数个点的数据，因此同样具有获取数据不准确、预测效果欠佳的问题。

发明内容

为解决现有技术存在的问题，本发明实施例提出了一种数据预测方法和数据预测装置，以解决现有技术存在的无法获得相对准确的预测数据、导致预测效果欠佳的问题。

本发明一实施例提出一种数据预测方法，包括：

确定模块，用于确定地理平面区域，所述地理平面区域包括多个地理区格，所述多个地理区格的交汇点构成多个预测点，所述地理平面区域中包括多个数据获取点；

依据各个数据获取点获得的观测数据，确定与所述各个数据获取点相邻的预测点的数据；

对于与所述各个数据获取点不相邻的预测点，基于以所述不相邻的预测点为中心的环绕区域的区域特征数据，利用机器学习模型组件确定所述不相邻的预测点的数据。

本发明一实施例还提出一种数据预测装置，包括：

区域数据确定模块，用于依据各个数据获取点获得的观测数据，确定与所述各个数据获取点相邻的预测点的数据；

预测点数据计算模块，用于对于与所述各个数据获取点不相邻的预测点，基于以所述不相邻的预测点为中心的环绕区域的区域特征数据，利用机器学习模型组件确定所述不相邻的预测点的数据。

本发明一实施例还公开一种计算处理装置，包括：

一个或多个处理器；和

其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述计算处理装置执行上述的方法。

本申请一实施例还公开一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得计算处理装置执行上述的方法。

本发明实施例提出的预测方法和预测装置，至少具有如下技术效果：

本发明将机器学习应用在地理位置相关的预测场景中，通过在地理区域中设置多个预测点，利用该机器学习模型来预测未来该预测点的数据。由于本发明的机器学习模型采集的数据是同一地理区域中多个数据获取点的数据，这些数据获取点在地理上有相互的关联，因此通过机器学习模型可以充分挖掘地理位置对各预测点的数据之间的相互影响，使得所获取的预测数据能够充分考虑地理位置的影响，相比于传统采用线性插值的方法，本发明的方法提高了预测数据的准确性。

在本发明优选实施例中，本发明可以利用机器学习的方式根据历史数据训练机器学习模型，获得预测精度更好的机器学习模型。此外，针对某些周边数据较少的区域，本发明可以丢弃较差的样本，尽量选取好的样本作为样本数据用于训练机器学习模型，提高了机器模型的精度。

在本发明优选实施例中，由于使用了机器学习模型来进行预测，克服了传统方案中只能实现线性单调预测而不能预测极值的缺陷，利用了平面上全样本的数据而非个别点之间的线性预测，所利用的信息更加多元。此外，由于机器学习模型是通过整体预测点作为样本训练获得的，所以适用于平面的任何位置，并不会由于局部缺少个别预测点而造成准确率下降。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1所示为本发明一实施例的预测方法的流程图。

图2所示为观测数据预测点化的示意图。

图3所示为区域划分的示意图。

图4所示为本发明第二实施例的预测方法的流程图。

图5所示为图4所示的S205的子步骤的流程图。

图6所示为本发明第三实施例的方框图。

图7所示为本发明第四实施例的方框图。

图8为图7中预测点划分模块包括的子模块的方框图。

图9示意性地示出了用于执行根据本发明的方法的计算设备的框图。

图10示意性地示出了用于保持或者携带实现根据本发明的方法的程序代码的存储单元。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本申请保护的范围。

本发明的核心构思在于利用机器学习的方式对地理平面区域中的各数据获取点的数据进行学习，并用机器学习模型对该数据获取点的数据进行预测，将机器学习模型应用至地理区域相关的预测中。

第一实施例

本发明第一实施例提出一种数据预测方法，如图1所示，该方法包括如下步骤：

S101，确定地理平面区域，所述地理平面区域包括多个地理区格，所述多个地理区格的交汇点构成多个预测点，所述地理平面区域中包括多个数据获取点；

在这一步骤中，首先确定地理平面区域。例如，执行主体(例如服务器等计算处理装置)中可以预先存储有地图，针对某一区域进行预测时，用户，可以首先在执行主体上输入需要预测的范围。例如，用户可以输入经纬度、半径等信息，确定需要进行数据预测的地理平面区域。此处的地理平面区域并不限定为完全平面，仅用于说明划分是针对地理上的区域进行划分，例如依据地面区域进行划分。

地理区格可以是在地理平面区域上划分形成的多个区格，例如，可以以每一个预测点为中心，将其周围的指定区域划分为多个区域，或者可以按照方格的方式进行划分。在一实施例中，例如可以按照前述经纬度的方式划分指定区域，也可以按照同心圆和扇形等方式划分。在这一步骤中，用户可以在执行主体中输入划分的方式，执行主体可以依据这些划分的方式，将地理平面区域，划分为多个区格。

在划分地理区格后，执行主体可以获取地理区格的交汇点，将地理区格的交汇点作为预测点，用于预测数据。例如，如果按照经纬度将地理平面区域划分为多个地里区格，经度的间隔为1公里，纬度的间隔也为1公里。则将每一条经线和纬线的交点作为预测点。执行主体中可以预先存储这些预测点，在需要调用时进行获取。

图2所示为划分区域的分割线以及所形成的预测点的示意图。如图2所示，设竖向的线为纬线，横向的线为经线，经线的间隔和纬线的间隔均为1公里，则多条经线和纬线的每一个交点处构成一个预测点。

多个地理区格中可以包括多个数据获取点。数据获取点例如为数据获取点或观测站。例如，某个地理区格中可以有一个或一个以上数据获取点、某一个地理区格中并无数据获取点、每一个地理区格中具有一个数据获取点等。这些数据获取点并不限于以平均分布的方式设置在地理区格中。

值得说明的是，在这一步骤中可以首先获得该地理平面区域的多个预测点，以及多个数据获取点，例如观测点。

在一实施例中，地里平面区域中可以设立多个观测站，观测站中可以具有上述的传感器，上述的传感器例如可以包括水量传感器、风速传感器、热成像传感器、湿度传感器、温度传感器、压力传感器、露点温度传感器等物联网(internet of things,IoT)传感器，这些传感器可以对应地设置在地里平面区域内的各数据获取点，对各点的数据进行采集，获得例如降水、风速、湿度、温度、露点温度等数据，并分别回传数据至计算处理装置。

在另一实施例中，数据获取点的数据除了可以是通过在各个数据获取点布置传感器进行采集之外，也可以从指定的渠道获取，例如从第三方机构、云端部署的数据库等。例如，当所需要采集的数据为降水量，则可以使用气象局提供的观测点的数据，例如从气象局提供的数据中获得观测点的ID和这些观测点所获得的数据。

以图2中的灰色点表示观测点，可以看出，观测点与预测点并非一一对应，也不重合，且观测点的数量可以少于预测点。

在一实施例中，划分地理区格的方法可以如图3所示。以每个预测点为中心，周边预测点根据与其相对位置的方位不同，分成8个方向，每个方向的区域呈45度扇形。然后再根据周边预测点与当前预测点的距离，将周边预测点区分为3个环形(例如，距离区间的选取为0-30公里、30-60公里、60-100公里)。最后将上述两种区分区域的方式进行组合，便可以得到当前预测点周围共8×3＝24个区域，再加上当前预测点本身作为一个区域，故可以将相对位置特征划分为25个区域。

本发明实施例并不限制划分地理区格的方法。例如在另一实施例中，每个方向的区域可以不限定为45度，例如可以为30度、15度、10度等，每个区域的角度也可以并不相同，本发明并不以此为限。另外，周边预测点也可以区分为其他数目的环形，不限为三个。每个环形之间的距离也可以相等或不等。

S102，依据各个数据获取点获得的观测数据，确定与所述各个数据获取点相邻的预测点的数据；

在这一步骤中，执行主体例如通过就近对应的方式，将观测点与就近的预测点对应，将观测点的观测数据作为预测点的预测点数据，使得部分的预测点成为有数据的预测点(即，能够获得来自观测点的数据支持的预测点)，而部分周围没有观测点对应的预测点成为无数据的预测点。

如图2所示，将观测点就近地对应到预测点后，以黑色的预测点表示有数据预测点。由图2可见，部分的预测点对应多个观测点，则可以将这些观测点测得的数值的平均值作为该预测点的预测点数据。

在实际操作中，可以根据观测点所在坐标的位置对应到预测点，按照间隔1公里的经纬度交叉预测点进行分隔，采用就近原则，可以将若干个观测数据与单一的预测点对应起来。若预测点周围0.5公里内没有观测点，那该预测点成为无数据预测点；若预测点周围0.5公里内存在一个观测点，则将该观测点的观测数据作为该预测点的预测点数据；若预测点周围0.5公里内存在多个观测点，则将这些观测点的观测数据的平均值作为该预测点的预测点数据，以此确定与多个数据获取点相邻的预测点的数据。在本实施例中，上述的“相邻”是指0.5km范围内，即二者相距0.5km以内。在其他实施例中，“相邻”可以是其他范围，例如1km范围内等，本发明并不以此为限。

S103，对于与所述各个数据获取点不相邻的预测点，基于以所述不相邻的预测点为中心的环绕区域的区域特征数据，利用机器学习模型组件确定所述不相邻的预测点的数据。

承上述，这些预测点中还包括多个无数据预测点，即与数据获取点不相邻的预测点。对于这些预测点，执行主体可以通过其周围的环绕区域的区域特征数据，计算出该无数据预测点的数据。

除了该有数据的预测点所在的区域外，其余的24个区域应该都包含多个有数据的预测点，可以将这些预测点按每个区域分别求出每个特征的平均值作为该区域的区域特征数据。

经过以上特征处理之后，在同一时刻，每个维度的特征都具有25个值，也就是将同一时刻同一维度的特征扩展成了25个特征，这25个特征虽然性质一样，但所表达的方位是不一样的。

在这一步骤中，需要针对无数据预测点确定其对应的数据，即利用地理平面区域内的观测数据，通过特定的计算方法填充无数据预测点中的预测点数据。在这一步骤中可以利用机器学习模型，根据每一个区域对应的区域数据，获得无数据预测点的预测点数据。

机器学习模型是利用一系列给定的权重与对应的特征计算目标值f，如下述公式：

f＝A₁x₁+A₂x₂+A₃x₃….+A_nx_n

其中A为特征权重，x为特征。特征有n个维度，用x₁到x_n表示。A₁到A_n为每一特征对应的特征权重。在机器模型的训练阶段，根据大量给定的、包括目标值f、x₁到x_n的样本数据，可以计算出一组特征权重A₁到A_n。

在一实施例中，在训练机器学习模型的过程中，机器学习模型输入是经过站点区域融合后的特征，按区域分为25个区域的降水量特征，每个区域分别可以获得当前时刻(t)、过去1小时(t-1)、过去2小时(t-2)、过去3小时(t-3)四个时间点的降水量，该公式可以包含总共100个特征。即，x1到x25为t时刻的25个区域的降水量；x26-x50为t-1时刻的25个区域的降水量；x51-x75为t-2时刻的25个区域的降水量；x76-x100为t-3时刻的25个区域的降水量；模型输出目标值f是未来一小时(t+1)时刻的降水量。针对某一区域，由于上述100个特征对应的降水量都可以采集到，未来一小时(t+1)时刻的降水量作为历史数据也可以采集到，因此利用这些数据训练机器学习模型，可以获得一组(例如本实施例的100个)特征权重A1～A100。

当机器学习模型训练完毕，获得特征权重A₁到A_n，当再输入各区域对应的区域数据x₁到x_n对应的降水量时，可以根据特征权重A₁到A_n和对应的特征x₁到x_n计算出目标值f，即未来一小时目标区域的降水量f，该降水量例如为本发明提供的方法中的无数据预测点对应的预测点数据。

预测点数据确定，即意味着该预测点对应的位置的数据确定。例如当本发明实施例提出的方案应用在天气预报中，该模型为针对降水量的模型，则该预测点对应的位置的降水量即可以确定。

根据上述可知，本发明将机器学习应用在地理位置相关的预测场景中，通过在地理区域中设置多个预测点，利用已有的数据获取点提供的数据确定部分预测点的数据，再利用该机器学习模型，结合已知的数据获取点和预测点的数据，来预测未来时间的预测点的数据。由于本发明的机器学习模型采集的数据是同一地理区域中多个数据获取点的数据，这些数据获取点在地理上有相互的关联，因此通过机器学习模型可以充分挖掘地理位置对各数据获取点的数据的影响，使得所获取的预测数据能够充分考虑地理位置的影响，相比于传统采用线性插值的方法，本发明的方法提高了预测数据的准确性。

第二实施例

图4所示为本发明第二实施例的数据预测方法的流程图。如图4所示，该方法包括如下步骤：

S201，确定地理平面区域，所述地理平面区域包括多个地理区格，所述多个地理区格的交汇点构成多个预测点，所述地理平面区域中包括多个数据获取点；

S204，依据各个数据获取点获得的观测数据，确定与所述各个数据获取点相邻的预测点的数据；

S207，对于与所述各个数据获取点不相邻的预测点，基于以所述不相邻的预测点为中心的环绕区域的区域特征数据，利用机器学习模型组件确定所述不相邻的预测点的数据。

上述步骤S201、S204可以与第一实施例的步骤S101、S102相同或相似；步骤S207可以与前述步骤S103相同或相似，具体内容可以参考上述实施例，本发明着重强调每一实施例的不同之处。

在本发明一实施例中，可选地，在步骤S204，即依据各个数据获取点获得的观测数据，确定与所述各个数据获取点相邻的预测点的数据的步骤之后，所述方法还可以包括如下步骤：

S206，利用与所述多个数据获取点相邻的预测点的历史数据和该预测点周围的多个区域对应的历史区域特征数据，训练所述机器学习模型。

在一实施例中，可以利用过去多个时刻的区域特征数据和历史数据，对机器学习模型进行训练。多个时刻的区域特征数据例如包括每个区域当前时刻(t)、过去1小时(t-1)、过去2小时(t-2)、过去3小时(t-3)四个时间点的区域特征数据，模型输出目标值f是未来若干时间(例如一小时(t+1))时刻的历史数据。由于上述的历史数据和区域特征数据均可以采集到，利用这些数据训练机器学习模型，可以获得一组机器学习模型的特征权重。

机器学习模型的相关内容已在第一实施例中进行了介绍，相关内容可以参考第一实施例，在此不再赘述。

以所获得的数据为降水量特征为例，每一个区域的降水量特征可以按照需求选取，不限于选取该区域对应的多个时刻的降水量特征，本发明并不特别限制特征的选取方式。作为优选实施例，选取过去多个时刻的降水量能够更准确地预测出未来的降水量。

在一实施例中，如图4所示，步骤S206，即利用与所述多个数据获取点相邻的预测点的历史数据和该预测点周围的多个区域对应的历史区域特征数据，训练所述机器学习模型的步骤之前，该方法还可以包括如下步骤：

S205，从多个预测点中选择符合样本要求的有效的预测点；

在步骤S205中，上述“样本要求”可以为特征缺失率满足指定条件，例如特征较为完善，则对应的特征缺失率低于指定值。

例如，如图5所示，上述的步骤S205可以包括如下子步骤：

S2051，确定预测点对应的区域中包含数据获取点的区域的数量；

S2052,当所述区域的数量符合预设条件时，确认所述预测点为有效的预测点。

在子步骤S2051中，针对每一个与所述数据获取点相邻的预测点，统计其周围划分的多个区域中所包含的有数据的区域(即与数据获取点相邻的区域)或者无数据区域(即不与任何数据获取点相邻的区域)的数量。例如某一个预测点周围具有24个区域，其中5个区域中具有有数据的预测点，因此这5个区域为有数据的区域，而其余的19个区域中不具有有数据的预测点，因而这19个区域为无数据区域。当一个预测点周围的有数据的区域的数量高于预设范围，例如50％、或者9个等预设范围时，则可以确认该有数据的预测点为有效，从而将该有数据的预测点作为样本，对机器学习模型进行训练。但是当有数据的区域的范围未在预设范围内时，则认为该有数据预测点不满足要求，不将其作为样本。

因此，通过上述方法，可以对不良的数据进行剔除，选择较好的样本数据，对机器学习模型进行训练，获得更准确的机器学习模型。

在一实施例中，上述的所述多个预测点是根据地理位置划分形成的预测点，例如前述的示例中根据经纬度划分，或者根据特定的距离划分等，在此不再赘述。划分时待测的预测点的位置可以位于区域的中间，或者位于区域的非中间位置，本发明同样并不限制。

在一实施例中，在确定地理平面区域的步骤之后，所述方法还包括如下步骤：

S202，确定每一预测点对应的相邻范围；

S203，获取该预测点对应的相邻范围内的数据获取点的观测数据。

在步骤S202中，用户可以在执行主体中输入相邻范围的确定条件，例如以预测点为圆心的半径0.5km范围、1km范围或者其他确定方式，也可以选择预设的相邻范围的确定方式。

在步骤S203中，在确定了某一预测点的相邻范围之后，执行主体可以针对每一个预测点，获取相邻范围内的数据获取点的观测数据。

在一实施例中，数据获取点的观测数据已预先由执行主体采集，在确定了相邻范围之后，可以根据该范围内的数据进行计算，确定数据获取点的观测数据。

所述步骤S206，即依据各个数据获取点获得的观测数据，确定与所述各个数据获取点相邻的预测点的数据的步骤可以包括：

S2061，当该预测点对应的相邻范围内存在一个数据获取点时，将所述数据获取点的观测数据作为该预测点的数据；以及

S2062，当该预测点对应的相邻范围内存在多个数据获取点时，计算该范围内的多个数据获取点的观测数据的平均值或加权平均值，作为该预测点的预测点数据。

子步骤S2061和子步骤S2062提出了两种确定预测点数据的方法。在子步骤S2061中，执行主体将相邻范围内存在的唯一一个数据获取点的数据作为预测点的数据；在子步骤S2062中，如果一个预测点周围的范围内存在多个观测点，则可以取这些观测点的平均值，作为该预测点的数据。或者同样可以采用加权平均的方式，为距离预测点较近的观测点设置较高的权重，而距离预测点较远的观测点设置较低的权重，通过加权平均的方式计算出预测点对应的值，作为预测点的预测点数据。例如，针对不同的数据获取点，将其权重设置为与预测点之间的距离的倒数正相关，从而距离预测点越近，则权重越大，对预测点的最终所得的数据的影响越大。

在本发明优选实施例中，由于使用了机器学习模型来进行预测，克服了传统方案中只能实现线性单调预测而不能预测极值的缺陷，利用了平面上全样本的数据而非个别点之间的线性预测，所利用的信息更加多元。此外，由于机器学习模型是通过整体有数据的预测点作为样本训练获得的，所以适用于平面的任何位置，并不会由于局部缺少个别有数据的预测点而造成准确率下降。

第三实施例

本发明第三实施例提出一种数据预测装置，例如可以应用于服务器等执行数据预测的计算处理装置。图6所示为该数据预测装置的方框图，该数据预测装置包括确定模块601、预测点数据确定模块602和预测点数据计算模块603。

确定模块601用于确定地理平面区域，所述地理平面区域包括多个地理区格，所述多个地理区格的交汇点构成多个预测点，所述地理平面区域中包括多个数据获取点；

计算处理装置中的确定模块601，可以用于确定地理平面区域。例如，计算处理装置中可以预先存储有地图，针对某一区域进行预测时，用户可以输入需要预测的范围(如某一经纬度范围内的区域、以某一点为圆心的指定半径内的区域等)，由确定模块601确定需要进行数据预测的地理平面区域。

地理区格可以是在地理平面区域上划分形成的多个区格，例如可以按照前述经纬度的方式划分，或者按照同心圆和扇形等方式划分地理平面区域，形成地理区格。用户可以在执行主体中输入划分的方式，确定模块601可以读取用户输入的划分的方式，将地理平面区域划分为多个区格。

在划分地理区格后，确定模块601可以获取地理区格的交汇点，将地理区格的交汇点作为预测点，用于预测数据。同时确定模块601可以获取多个地理区格中的多个数据获取点。

上述的数据获取点例如为数据获取点或观测站。数据获取点或者观测站分散设置在地里平面区域。在一实施例中，观测站中可以具有传感器，包括但不限于水量传感器、风速传感器、湿度传感器、温度传感器、露点温度传感器等IoT传感器，这些观测站能够检测各种指标，获得较为确定的观测数据。确定模块601可以获得这些观测点设置的传感器回传的数据，例如可以记录对应的观测点的ID，和这些观测点所回传的数据。在其他实施例中，观测站的数据可以是由第三方提供或者由远程数据存储库导入计算处理装置，在此并不限制。

预测点数据确定模块602用于依据各个数据获取点获得的观测数据，确定与所述各个数据获取点相邻的预测点的数据；

计算处理装置中的预测点数据确定模块602可以通过就近对应的方式，将观测点与就近的预测点进行对应，预测点数据确定模块602将观测点的传感器采集的观测数据作为预测点的预测点数据，使得部分的预测点成为有数据的预测点，而部分周围没有观测点对应的预测点成为无数据的预测点。

在实际操作中，可以根据观测点所在坐标的位置对应到预测点，按照间隔1公里的经纬度交叉预测点进行分隔，采用就近原则，可以将若干个观测数据与单一的预测点对应起来。若预测点周围0.5公里内没有观测点，那该预测点成为无数据预测点；若预测点周围0.5公里内存在一个观测点，则将该观测点的观测数据作为该预测点的预测点数据；若预测点周围0.5公里内存在多个观测点，则将这些观测点的观测数据的平均值作为该预测点的预测点数据，以此确定与多个数据获取点相邻的预测点的数据。

预测点数据计算模块603用于对于与所述各个数据获取点不相邻的预测点，基于以所述不相邻的预测点为中心的环绕区域的区域特征数据，利用机器学习模型组件确定所述不相邻的预测点的数据。

由于多个预测点中还包括无数据预测点，即与数据获取点不相邻的预测点。计算处理装置中的预测点数据计算模块603可以通过其周围的环绕区域的区域特征数据，计算出该无数据预测点的数据。预测点数据计算模块603可以利用服务器中的机器学习模型，根据每一个区域对应的区域数据，获得无数据预测点的预测点数据。例如，机器学习模型部署在计算处理装置，例如服务器中，利用该机器学习模型，预测点数据计算模块603可以根据区域特征数据确定预测点的数据。预测点数据计算模块603可以获取机器学习模型输出的数据，获得与数据获取点不相邻的预测点的数据。

利用机器学习模型组件确定预测点的数据的方法在第一实施例中已有描述，相关内容可以参考第一实施例，再次不再赘述。

根据上述可知，本发明实施例提供的数据预测装置，将机器学习应用在地理位置相关的预测场景中，通过在地理区域中设置多个预测点，利用已有的数据获取点提供的数据确定部分预测点的数据，再利用该机器学习模型，结合已知的数据获取点和预测点的数据，来预测未来时间的预测点的数据。由于本发明的机器学习模型采集的数据是同一地理区域中多个数据获取点的数据，这些数据获取点在地理上有相互的关联，因此通过机器学习模型可以充分挖掘地理位置对各数据获取点的数据的影响，使得所获取的预测数据能够充分考虑地理位置的影响，相比于传统采用线性插值的方法，本发明的方法提高了预测数据的准确性。

第四实施例

本发明第四实施例提出一种数据预测装置，例如可以应用于服务器等执行数据预测的计算处理装置。图7所示为该数据预测装置的方框图，该数据预测装置包括如下模块：

确定模块701，用于确定地理平面区域，所述地理平面区域包括多个地理区格，所述多个地理区格的交汇点构成多个预测点，所述地理平面区域中包括多个数据获取点；

预测点数据确定模块702，用于依据各个数据获取点获得的观测数据，确定与所述各个数据获取点相邻的预测点的数据；

预测点数据计算模块703，用于对于与所述各个数据获取点不相邻的预测点，基于以所述不相邻的预测点为中心的环绕区域的区域特征数据，利用机器学习模型组件确定所述不相邻的预测点的数据。

上述的确定模块701、预测点数据确定模块702和预测点数据计算模块703与第三实施例中的确定模块601、预测点数据确定模块602和预测点数据计算模块603相同或相似，在此不再赘述。

在一可选实施例中，所述装置还包括：

模型训练模块704，用于利用与所述多个数据获取点相邻的预测点的历史数据和该预测点周围的多个区域对应的历史区域特征数据，训练所述机器学习模型。

在一实施例中，模型训练模块704可以利用过去多个时刻的区域特征数据和历史数据，对机器学习模型进行训练。

多个时刻的区域特征数据例如包括每个区域当前时刻(t)、过去1小时(t-1)、过去2小时(t-2)、过去3小时(t-3)四个时间点的区域特征数据，模型输出目标值f是未来若干时间(例如一小时(t+1))时刻的历史数据。这些数据可以通过模型训练模块704从计算处理装置(例如服务器)的存储空间中获得，模型训练模块704利用这些数据训练机器学习模型，可以获得机器学习模型的特征权重。

在一可选实施例中，所述多个预测点是根据地理位置划分形成的预测点。

在一可选实施例中，所述装置还包括：

范围确定模块705，用于确定每一预测点对应的相邻范围；

观测数据获取模块706，用于获取该预测点对应的相邻范围内的数据获取点的观测数据。

用户可以在执行主体中输入相邻范围的确定条件，例如以预测点为圆心的半径0.5km范围、1km范围或者其他确定方式，也可以选择预设的相邻范围的确定方式。范围确定模块705可以获取用户输入的相邻范围的确定条件，并确定出预测点的相邻范围。

在确定了某一预测点的相邻范围之后，观测数据获取模块706可以针对每一个预测点，获取相邻范围内的数据获取点的观测数据。在一实施例中，数据获取点的观测数据已由观测点的传感器进行采集，并由计算处理装置从观测点抓取到计算处理装置的存储区域，在确定了相邻范围之后，可以根据该相邻范围内的数据进行计算，确定数据获取点的观测数据。

在一可选实施例中，如图8所示，所述预测点数据确定模块702包括：

第一确定子模块7021，用于当该预测点对应的相邻范围内存在一个数据获取点时，将所述数据获取点的观测数据作为该预测点的数据；以及

第二确定子模块7022，用于当该预测点对应的相邻范围内存在多个数据获取点时，计算该范围内的多个数据获取点的观测数据的平均值或加权平均值，作为该预测点的预测点数据。

计算处理装置的第一确定子模块7021和第二确定子模块7022用于根据不同的方式确定预测点数据的方法。第一确定子模块7021将相邻范围内存在的唯一一个数据获取点的数据作为预测点的数据；如果一个预测点周围的范围内存在多个观测点，第二确定子模块7022可以取这些观测点的平均值，计算该预测点的数据。或者第二确定子模块7022同样可以采用加权平均的方式，为距离预测点较近的观测点设置较高的权重，而距离预测点较远的观测点设置较低的权重，通过加权平均的方式计算出预测点对应的值，作为预测点的预测点数据。

例如，针对不同的数据获取点，第二确定子模块7022将多个数据获取点的数据的权重设置为与预测点之间的距离的倒数正相关，从而距离预测点越近，则权重越大，对预测点的最终所得的数据的影响越大，反之亦然。

在一可选实施例中，所述相邻范围为0.5km。

在一可选实施例中，所述预测点数据包括气象预测数据、海洋渔情预测数据、交通拥堵状况预测数据、人流量密度预测数据其中一种。

在一可选实施例中，所述装置还包括：

筛选模块707，用于从多个预测点中选择符合样本要求的有效的预测点。

计算处理装置的筛选模块707可以针对多个预测点进行筛选，选择出符合样本要求的有效的预测点。上述“样本要求”可以为特征缺失率满足指定条件，例如特征较为完善、对应的特征缺失率低于指定值。筛选模块707的设置可以避免质量不佳的预测点，影响数据预测的准确性。

在一可选实施例中，所述筛选模块707可以包括如下子模块：

数量确定子模块，用于确定预测点对应的区域中包含数据获取点的区域的数量；

有效预测点确定子模块，用于当所述区域的数量符合预设条件时，确认所述预测点为有效的预测点。

数量确定子模块可以针对每一个与所述数据获取点相邻的预测点，统计其周围划分的多个区域中所包含的有数据的区域(即与数据获取点相邻的区域)或者无数据区域(即不与任何数据获取点相邻的区域)的数量。例如某一个预测点周围具有24个区域，其中5个区域中具有有数据的预测点，因此这5个区域为有数据的区域，而其余的19个区域中不具有有数据的预测点，因而这19个区域为无数据区域。当一个预测点周围的有数据的区域的数量高于预设范围，例如高于50％、大于9个，则可以确认该有数据的预测点为有效，从而将该有数据的预测点作为样本，对机器学习模型进行训练。但是当有数据的区域的范围未在预设范围内时，则认为该有数据预测点不满足要求，不将其作为样本。

本发明实施例提供的数据预测装置，将机器学习应用在地理位置相关的预测场景中，通过在地理区域中设置多个预测点，利用已有的数据获取点提供的数据确定部分预测点的数据，再利用该机器学习模型，结合已知的数据获取点和预测点的数据，来预测未来时间的预测点的数据。由于本发明的机器学习模型采集的数据是同一地理区域中多个数据获取点的数据，这些数据获取点在地理上有相互的关联，因此通过机器学习模型可以充分挖掘地理位置对各数据获取点的数据的影响，使得所获取的预测数据能够充分考虑地理位置的影响，相比于传统采用线性插值的方法，本发明的方法提高了预测数据的准确性。

在本发明优选实施例中，由于使用了机器学习模型来进行预测，克服了传统方案中只能实现线性单调预测而不能预测极值的缺陷，利用了平面上全样本的数据而非个别点之间的线性预测，所利用的信息更加多元。此外，由于机器学习模型是通过整体有数据预测点作为样本训练获得的，所以适用于平面的任何位置，并不会由于局部缺少个别有数据预测点而造成准确率下降。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。

图9为本申请一实施例提供的计算处理装置的硬件结构示意图。如图9所示，该计算处理装置可以包括输入设备90、处理器91、输出设备92、存储器93和至少一个通信总线94。通信总线94用于实现元件之间的通信连接。存储器93可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器，存储器93中可以存储各种程序，用于完成各种处理功能以及实现本实施例的方法步骤。

可选的，上述处理器91例如可以为中央处理器(Central Processing Unit，简称CPU)、应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，该处理器91通过有线或无线连接耦合到上述输入设备90和输出设备92。

可选的，上述输入设备90可以包括多种输入设备，例如可以包括面向用户的用户接口、面向设备的设备接口、软件的可编程接口、摄像头、传感器中至少一种。可选的，该面向设备的设备接口可以是用于设备与设备之间进行数据传输的有线接口、还可以是用于设备与设备之间进行数据传输的硬件插入接口(例如USB接口、串口等)；可选的，该面向用户的用户接口例如可以是面向用户的控制按键、用于接收语音输入的语音输入设备以及用户接收用户触摸输入的触摸感知设备(例如具有触摸感应功能的触摸屏、触控板等)；可选的，上述软件的可编程接口例如可以是供用户编辑或者修改程序的入口，例如芯片的输入引脚接口或者输入接口等；可选的，上述收发信机可以是具有通信功能的射频收发芯片、基带处理芯片以及收发天线等。麦克风等音频输入设备可以接收语音数据。输出设备92可以包括显示器、音响等输出设备。

在本实施例中，该计算处理装置的处理器包括用于执行各设备中数据处理装置各模块的功能，具体功能和技术效果参照前述第三和第四实施例即可，此处不再赘述。

该计算处理装置的输入设备90可以用来接收外部的数据，例如前述的来自分散部署的多个IoT传感器、第三方机构、或者远程数据存储库所提供的数据获取点的数据。这些数据获取点的数据通过输入设备90输入计算处理装置中之后，可以存储在存储器93中，便于计算处理装置调用。

在一实施例中，上述的多个IoT传感器设置在地理平面区域的不同位置，并分别通过信号传送装置远程连接于计算处理装置，用于向计算处理装置提供数据获取点的数据。在计算处理装置需要获得某一或某些数据获取点的数据时，可以随时对这些数据进行调用。在其他实施例中，上述的IoT传感器的数据可以集中地被数据采集设备采集，并进行存储。在计算处理装置需要获得数据时，可以从数据采集设备集中地调用这些数据。

上述的IoT传感器例如可以包括一切风速、压力、积水、热成像、压力传感器等，本发明并不限制。

图10为本申请另一实施例提供的计算处理装置的硬件结构示意图。图10是对图9在实现过程中的一个具体的实施例。如图10所示，本实施例的计算处理装置包括处理器101以及存储器102。

处理器101执行存储器102所存放的计算机程序代码，实现上述实施例的数据预测方法。

存储器102被配置为存储各种类型的数据以支持在计算处理装置的操作。这些数据的示例包括用于在计算处理装置上操作的任何应用程序或方法的指令，例如消息，图片，视频等。存储器102可能包含随机存取存储器(random access memory，简称RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

可选地，处理器101设置在处理组件100中。该计算处理装置还可以包括：通信组件103，电源组件104，多媒体组件105，音频组件106，输入/输出接口107和/或传感器组件108。计算处理装置具体所包含的组件等依据实际需求设定，本实施例对此不作限定。

处理组件100通常控制计算处理装置的整体操作。处理组件100可以包括一个或多个处理器101来执行指令，以完成上述图1至图5方法的全部或部分步骤。此外，处理组件100可以包括一个或多个模块，便于处理组件100和其他组件之间的交互。例如，处理组件100可以包括多媒体模块，以方便多媒体组件105和处理组件100之间的交互。

电源组件104为计算处理装置的各种组件提供电力。电源组件104可以包括电源管理系统，一个或多个电源，及其他与为计算处理装置生成、管理和分配电力相关联的组件。

多媒体组件105包括在计算处理装置和用户之间的提供一个输出接口的显示屏。在一些实施例中，显示屏可以包括液晶显示器(LCD)和触摸面板(TP)。如果显示屏包括触摸面板，显示屏可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。

音频组件106被配置为输出和/或输入音频信号。例如，音频组件106包括一个麦克风(MIC)，当计算处理装置处于操作模式，如语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器102或经由通信组件103发送。在一些实施例中，音频组件106还包括一个扬声器，用于输出音频信号。

输入/输出接口107为处理组件100和外围接口模块之间提供接口，上述外围接口模块可以是点击轮，按钮等。这些按钮可包括但不限于：音量按钮、启动按钮和锁定按钮。

传感器组件108包括一个或多个传感器，用于为计算处理装置提供各个方面的状态评估。例如，传感器组件108可以检测到计算处理装置的打开/关闭状态，组件的相对定位，用户与计算处理装置接触的存在或不存在。传感器组件108可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在，包括检测用户与计算处理装置间的距离。在一些实施例中，该传感器组件108还可以包括摄像头等。

通信组件103被配置为便于计算处理装置和其他设备之间有线或无线方式的通信。计算处理装置可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个实施例中，该计算处理装置中可以包括SIM卡插槽，该SIM卡插槽用于插入SIM卡，使得计算处理装置可以登录GPRS网络，通过互联网与服务端建立通信。

由上可知，在图10实施例中所涉及的通信组件103、音频组件106以及输入/输出接口107、传感器组件108均可以作为图9实施例中的输入设备的实现方式。

本申请实施例提供了一种计算处理装装置，包括：一个或多个处理器；和其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述计算处理装置执行如本申请实施例中一个或多个所述的数据预测方法。

本申请实施例还提供一种计算处理系统，用于数据预测。在上述计算处理装置的基础上，本发明的计算处理系统还包括多个IoT传感器，所述多个IoT传感器设置于所述多个数据获取点，用于提供所述数据获取点的观测数据。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者计算处理装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者计算处理装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者计算处理装置中还存在另外的相同要素。

以上对本申请所提供的一种数据预测方法和装置，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种数据预测方法，其特征在于，包括：

确定地理平面区域，所述地理平面区域包括多个地理区格，所述多个地理区格的交汇点构成多个预测点，所述地理平面区域中包括多个数据获取点；

2.根据权利要求1所述的数据预测方法，其特征在于，依据各个数据获取点获得的观测数据，确定与所述各个数据获取点相邻的预测点的数据的步骤之后，所述方法还包括：

利用与所述多个数据获取点相邻的预测点的历史数据和该预测点周围的多个区域对应的历史区域特征数据，训练所述机器学习模型。

3.根据权利要求1所述的数据预测方法，其特征在于，所述多个预测点是根据地理位置划分形成的预测点。

4.根据权利要求1所述的数据预测方法，其特征在于，所述确定地理平面区域的步骤之后，所述方法还包括：

确定每一预测点对应的相邻范围；

获取该预测点对应的相邻范围内的数据获取点的观测数据。

5.根据权利要求4所述的数据预测方法，其特征在于，所述依据各个数据获取点获得的观测数据，确定与所述各个数据获取点相邻的预测点的数据的步骤包括：

当该预测点对应的相邻范围内存在一个数据获取点时，将所述数据获取点的观测数据作为该预测点的数据；以及

当该预测点对应的相邻范围内存在多个数据获取点时，计算该范围内的多个数据获取点的观测数据的平均值或加权平均值，作为该预测点的预测点数据。

6.根据权利要求4所述的数据预测方法，其特征在于，所述相邻范围为0.5km。

7.根据权利要求1所述的数据预测方法，其特征在于，所述预测点数据包括气象预测数据、海洋渔情预测数据、交通拥堵状况预测数据、人流量密度预测数据其中一种。

8.根据权利要求2所述的数据预测方法，其特征在于，所述利用与所述多个数据获取点相邻的预测点的历史数据和该预测点周围的多个区域对应的历史区域特征数据，训练所述机器学习模型的步骤之前，所述方法还包括：

从多个预测点中选择符合样本要求的有效的预测点。

9.根据权利要求8所述的数据预测方法，其特征在于，所述从多个预测点中选择符合样本要求的有效的预测点的步骤包括：

确定预测点对应的区域中包含数据获取点的区域的数量；

当所述区域的数量符合预设条件时，确认所述预测点为有效的预测点。

10.一种数据预测装置，其特征在于，包括：

预测点数据确定模块，用于依据各个数据获取点获得的观测数据，确定与所述各个数据获取点相邻的预测点的数据；

11.根据权利要求10所述的数据预测装置，其特征在于，所述装置还包括：

模型训练模块，用于利用与所述多个数据获取点相邻的预测点的历史数据和该预测点周围的多个区域对应的历史区域特征数据，训练所述机器学习模型。

12.根据权利要求10所述的数据预测装置，其特征在于，所述多个预测点是根据地理位置划分形成的预测点。

13.根据权利要求10所述的数据预测装置，其特征在于，所述装置还包括：

范围确定子模块，用于确定每一预测点对应的相邻范围；

观测数据获取模块，用于获取该预测点对应的相邻范围内的数据获取点的观测数据。

14.根据权利要求13所述的数据预测装置，其特征在于，所述预测点数据确定模块包括：

第一确定单元，用于当该预测点对应的相邻范围内存在一个数据获取点时，将所述数据获取点的观测数据作为该预测点的数据；以及

第二确定单元，用于当该预测点对应的相邻范围内存在多个数据获取点时，计算该范围内的多个数据获取点的观测数据的平均值或加权平均值，作为该预测点的预测点数据。

15.根据权利要求13所述的数据预测装置，其特征在于，所述相邻范围为0.5km。

16.根据权利要求10所述的数据预测装置，其特征在于，所述预测点数据包括气象预测数据、海洋渔情预测数据、交通拥堵状况预测数据、人流量密度预测数据其中一种。

17.根据权利要求11所述的数据预测装置，其特征在于，所述装置还包括：

筛选模块，用于从多个预测点中选择符合样本要求的有效的预测点。

18.根据权利要求17所述的数据预测装置，其特征在于，所述筛选模块包括：

19.一种计算处理装置，其特征在于，包括：

一个或多个处理器；和

其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述计算处理装置执行如权利要求1-9中一个或多个所述的方法。

20.一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得计算处理装置执行如权利要求1-9中一个或多个所述的方法。

21.一种计算处理系统，其特征在于，包括：

多个IoT传感器；

一个或多个处理器；和

其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述计算处理装置执行如下步骤：

对于与所述各个数据获取点不相邻的预测点，基于以所述不相邻的预测点为中心的环绕区域的区域特征数据，利用机器学习模型组件确定所述不相邻的预测点的数据；

其中，所述多个IoT传感器设置于所述多个数据获取点，用于提供所述观测数据。