CN114492935A

CN114492935A - 一种排污数据预测方法、装置、设备及介质

Info

Publication number: CN114492935A
Application number: CN202111614182.8A
Authority: CN
Inventors: 徐长朋; 商广勇; 胡立军; 李佳
Original assignee: Shandong Inspur Industrial Internet Industry Co Ltd
Current assignee: Shandong Inspur Industrial Internet Industry Co Ltd
Priority date: 2021-12-27
Filing date: 2021-12-27
Publication date: 2022-05-13

Abstract

本申请公开了一种排污数据预测方法、装置、设备及介质，方法包括：在预设时长范围内，获取目标排污口的历史排污数据；根据预设的时间间隔将历史排污数据划分为第一数量个排污数据集；通过聚类分析算法，将第一数量个排污数据集划分为第二数量个聚类簇以及噪点集，将所述噪点集进行剔除，并获取第二数量个聚类簇分别包含的排污数据集的数量；通过最短路径算法，在第二数量个聚类簇中分别确定聚类簇对应的核心点；根据第二数量个聚类簇分别包含的排污数据集的数量以及聚类簇对应的核心点，确定目标排污口的初始预测模型；在第一数量个排污数据集中随机选取部分排污数据集，并通过部分排污数据集对初始预测模型进行更新，以得到排污数据预测模型。

Description

一种排污数据预测方法、装置、设备及介质

技术领域

本申请涉及数据预测领域，具体涉及一种排污数据预测方法、装置、设备及介质。

背景技术

现有的排污数据获取方法中，由于在获取目标排污口的排污数据时，目标排污口的周围环境或是天气等因素也会对于获取到的排污数据造成影响，如雨天可能会出现测量到的废水的浓度相比晴天时更低的情况。因此，采集到的排污数据中除了正常数据外，还会存在大量的噪点。如果忽略掉这些噪点的影响，直接使用全部的排污数据进行预测，则会导致预测的准度较低。

同时，由于现有的排污数据预测方法还存在由于考虑因素过多而导致的计算量过大、建模较为复杂的情况，从而导致在难以处理噪点影响的同时，进一步导致排污数据预测的实用性较低，带来排污预测不准确的问题。

发明内容

为了解决上述问题，本申请提出了一种排污数据预测方法，包括：

在预设时长范围内，获取目标排污口的历史排污数据，所述历史排污数据至少包括：污染物的种类、历史排污量、排放时间、以及所述排放时间对应的所述目标排污口预设范围内的环境信息；根据预设的时间间隔将所述历史排污数据划分为第一数量个排污数据集；通过聚类分析算法，将所述第一数量个排污数据集划分为第二数量个聚类簇以及噪点集，将所述噪点集进行剔除，并获取所述第二数量个聚类簇分别包含的所述排污数据集的数量；通过最短路径算法，在所述第二数量个聚类簇中分别确定所述聚类簇对应的核心点；根据所述第二数量个聚类簇分别包含的所述排污数据集的数量以及所述聚类簇对应的所述核心点，确定所述目标排污口的初始预测模型；在所述第一数量个排污数据集中随机选取部分排污数据集，并通过所述部分排污数据集对所述初始预测模型进行更新，以得到排污数据预测模型；通过所述排污数据预测模型，预测所述目标排污口在未来时间段内的预测排污数据。

在一个示例中，所述根据所述预设的时间间隔将所述历史排污数据划分为第一数量个排污数据集，具体包括：随机将所述历史排污数据划分为若干个初始排污数据集；遍历所述若干个初始排污数据集，若所述初始排污数据集对应的排污时长大于所述时间间隔，则将所述初始排污数据集划分为排污时长小于所述时间间隔的多个排污数据集，以得到所述历史排污数据对应的第一数量个排污数据集。

在一个示例中，所述通过聚类分析算法，将所述第一数量个排污数据集划分为第二数量个聚类簇以及噪点集，具体包括：将所述排污数据集中的平均数据对应的数据点，作为所述排污数据集的聚类数据点；根据预设聚类簇数量，使用层次聚类方法对所述聚类数据点进行聚类，以得到所述预设聚类簇数量个初始聚类簇；确定所述预设聚类簇数量个初始聚类簇的初始质心，并将所述预设聚类簇数量个初始质心作为所述聚类数据点的质心；根据所述预设聚类簇数量个质心，以及预设聚类簇最低数据点数量阈值，以及预设同聚类簇最高距离阈值，将所述第一数量个排污数据集划分为第二数量个聚类簇以及噪点集。

在一个示例中，所述通过最短路径算法，在所述第二数量个聚类簇中分别确定所述聚类簇对应的核心点，具体包括：随机选取所述聚类簇中任一点，确定所述任一点到所述聚类簇中其他聚类点的路径之和，作为所述任一点的路径权值；遍历所述聚类簇中的全部聚类点，选择最小的所述路径权值对应的聚类点作为所述聚类簇对应的核心点。

在一个示例中，所述根据所述第二数量个聚类簇分别包含的所述排污数据集的数量以及所述聚类簇对应的所述核心点，确定所述目标排污口的初始预测模型，具体包括：确定所述核心点的排放时间与当前时间对应的时间差，并根据所述差生成所述核心点对应的时间影响参数；通过所述时间影响参数，并将所述聚类簇中的所述聚类数据点的所述历史排污数据拟合为所述聚类簇的核心点的所述历史排污数据，以得到所述目标排污口的初始预测模型；其中，所述初始预测模型中的预测排污数据为，所述第二数量个聚类簇分别对应的所述排污数据集数量，以及所述核心点对应的历史排污数据，以及所述核心点对应的所述时间影响参数的加权平均值。

在一个示例中，所述通过所述部分排污数据集对所述初始预测模型进行更新，以得到排污数据预测模型，具体包括：确定所述部分排污数据的所述的排放时间，并根据所述排放时间以及所述初始预测模型，得到在所述排放时间的预测排污数据；对比所述部分排污数据以及所述预测排污数据，确定误差值；若所述误差值高于预设阈值，则更新所述时间影响系数，直至将所述误差值减小至低于所述预设阈值。

在一个示例中，所述通过所述排污数据预测模型，预测所述目标排污口在未来时间段内的预测排污数据之后，所述方法还包括：获取所述目标排污口预设范围内的污染信息以及所述目标排污口对应的企业排污权，所述污染信息至少包括：污染物堆积量、最大污染物承受量、污染物治理速度；根据所述污染信息以及所述企业排污权，设置告警阈值；若所述目标排污口的排污量超过所述告警阈值，则通过告警模块进行告警。

本申请还提供了一种排污数据预测装置，包括：

数据获取模块，用于在预设时长范围内，获取目标排污口的历史排污数据，所述历史排污数据至少包括：污染物的种类、历史排污量、排放时间、以及所述排放时间对应的所述目标排污口预设范围内的环境信息；数据集划分模块，用于根据预设的时间间隔，并根据所述时间间隔将所述历史排污数据划分为第一数量个排污数据集；聚类分析模块，用于将所述第一数量个排污数据集划分为第二数量个聚类簇以及噪点集，将所述噪点集进行剔除，并获取所述第二数量个聚类簇分别包含的所述排污数据集的数量；核心点确定模块，用于通过最短路径算法，在所述第二数量个聚类簇中分别确定所述聚类簇对应的核心点；初始预测模型确定模块，用于根据所述第二数量个聚类簇分别包含的所述排污数据集的数量以及所述聚类簇对应的所述核心点，确定所述目标排污口的初始预测模型；训练模块，用于在所述第一数量个排污数据集中随机选取部分排污数据集，并通过所述部分排污数据集对所述初始预测模型进行训练，以得到排污数据预测模型；预测模块，用于通过所述排污数据预测模型，预测所述目标排污口在未来时间段内的预测排污数据。

本申请还提供了一种排污数据预测设备，包括：

至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行：在预设时长范围内，获取目标排污口的历史排污数据，所述历史排污数据至少包括：污染物的种类、历史排污量、排放时间、以及所述排放时间对应的所述目标排污口预设范围内的环境信息；根据预设的时间间隔将所述历史排污数据划分为第一数量个排污数据集；通过聚类分析算法，将所述第一数量个排污数据集划分为第二数量个聚类簇以及噪点集，将所述噪点集进行剔除，并获取所述第二数量个聚类簇分别包含的所述排污数据集的数量；通过最短路径算法，在所述第二数量个聚类簇中分别确定所述聚类簇对应的核心点；根据所述第二数量个聚类簇分别包含的所述排污数据集的数量以及所述聚类簇对应的所述核心点，确定所述目标排污口的初始预测模型；在所述第一数量个排污数据集中随机选取部分排污数据集，并通过所述部分排污数据集对所述初始预测模型进行训练，以得到排污数据预测模型；通过所述排污数据预测模型，预测所述目标排污口在未来时间段内的预测排污数据。

本申请还提供了一种非易失性计算机存储介质，存储有计算机可执行指令，其特征在于，所述计算机可执行指令设置为：在预设时长范围内，获取目标排污口的历史排污数据，所述历史排污数据至少包括：污染物的种类、历史排污量、排放时间、以及所述排放时间对应的所述目标排污口预设范围内的环境信息；根据预设的时间间隔将所述历史排污数据划分为第一数量个排污数据集；通过聚类分析算法，将所述第一数量个排污数据集划分为第二数量个聚类簇以及噪点集，将所述噪点集进行剔除，并获取所述第二数量个聚类簇分别包含的所述排污数据集的数量；通过最短路径算法，在所述第二数量个聚类簇中分别确定所述聚类簇对应的核心点；根据所述第二数量个聚类簇分别包含的所述排污数据集的数量以及所述聚类簇对应的所述核心点，确定所述目标排污口的初始预测模型；在所述第一数量个排污数据集中随机选取部分排污数据集，并通过所述部分排污数据集对所述初始预测模型进行训练，以得到排污数据预测模型；通过所述排污数据预测模型，预测所述目标排污口在未来时间段内的预测排污数据。

本申请实施例采用的上述至少一个技术方案能够达到以下有益效果：

通过本申请提出的方法通过将历史排污数据划分为第一数量个排污数据集，并对排污数据集中的数据进行筛选，以在保留数据特征的前提下，减少了样本数据的数量。同时，通过聚类分析算法，将样本数据中的噪点筛选出来，以忽略噪点对后续建模过程的影响，提升了排污数据预测的准确性。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例中一种排污数据预测方法的流程示意图；

图2为本申请实施例中一种排污数据预测装置的结构示意图；

图3为本申请实施例中一种排污数据预测设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

以下结合附图，详细说明本申请各实施例提供的技术方案。

图1为本说明书一个或多个实施例提供的一种排污数据预测方法的流程示意图。该方法可以应用于不同的排污口进行预测领域，废气排污口、废液排污口等。该流程可以由相应领域的计算设备执行，流程中的某些输入参数或者中间结果允许人工干预调节，以帮助提高准确性。

本申请实施例涉及的分析方法的实现可以为计算设备，也可以为服务器，本申请对此不作特殊限制。为了方便理解和描述，以下实施例均以计算设备为例进行详细描述。

图1中的流程具体包括以下步骤：

S101：在预设时长范围内，获取目标排污口的历史排污数据，所述历史排污数据至少包括：污染物的种类、历史排污量、排放时间、以及所述排放时间对应的所述目标排污口预设范围内的环境信息。

首先，需要确定排污数据预测任务，即确定需要进行排污数据预测的目标排污口，以及确定需要进行排污数据预测的未来时间段。即排污数据预测任务是预测目标排污口在某个未来时间段内的排污数据。因此，首先需要获取目标排污口的历史排污数据，需要说明的是，该历史排污数据为预设市场范围内的，即该历史排污数据的排污时长是已知的。历史排污数据应该至少包括污染物的种类、历史排污量、排放时间、以及所述排放时间对应的所述目标排污口预设范围内的环境信息。其中，污染物的种类至少包括废气类污染物以及废液类污染物。历史排污量则是指各类污染物的总体排放量，如果污染物是废液类，则该废液类污染物的历史排污量是该废液的浓度与该废液的液体体积相乘所得到的的废液所含污染物的物质总量。排放时间对应的目标排污口预设范围内的环境信息则是指获取的历史排污数据对应的排放时间内，该目标排污口附近的环境信息。这里的环境信息可以包括天气信息以及范围内的其他物体信息。

S102：根据预设的时间间隔将所述历史排污数据划分为第一数量个排污数据集。

在获取历史排污数据之后，由于每个时间点所对应的排污数据都是巨大的，如果直接对某一时间范围内的历史排污数据进行处理，那么该排污数据预测任务将会面临计算量过大的问题。因此，我们可以通过将某一整体时间段的排污数据划分为若干个较小时间段分别对应的排污数据，由于整体时间段也是由若干个较小时间段构成的，因此，较小时间段内的排污数据还是会保留整体时间段的各类信息，同时，将较为整体的时间段划分为若干个时间小段，更加容易对历史排污数据进行分析。因此，可以预设一个时间间隔，并根据时间间隔将历史排污数据划分为第一数量个排污数据集，这里的排污数据集是指较小时间段分别对应的排污数据。

在一个实施例中，在根据预设的时间间隔将历史排污数据划分为第一数量个排污数据集时，为方便划分，可以首先将历史排污数据随机划分为若干个初始排污数据集，这里的初始排污数据集的排污时长可能大于时间间隔，也可能小于时间间隔。为确保每个较小时间段都小于时间间隔，可以遍历划分后的若干个初始排污数据集，如果某个初始排污数据集的排污时长大于时间间隔，就将该初始排污数据集花费为排污时长小于时间间隔的多个排污数据集。通过遍历者若干个初始排污数据集，以得到第一数量个排污数据集，且这第一数量个排污数据集的排污时长都小于时间间隔。当然，在划分第一数量个排污数据集时，还可以直接通过等分的情况进行划分，在此不做具体限定。

S103：通过聚类分析算法，将所述第一数量个排污数据集划分为第二数量个聚类簇以及噪点集，将所述噪点集进行剔除，并获取所述第二数量个聚类簇分别包含的所述排污数据集的数量。

在将整体的历史排污数据划分为若干个较小时间段的排污数据，即获得第一数量个排污数据集后，由于在采集到的历史排污数据中，可能存在大量的噪点，即目标排污口的周围环境或是天气等因素可能对于获取到的排污数据造成影响，如雨天可能会出现测量到的废水的浓度相比晴天时更低的情况。因此，还需要对第一数量个的排污数据集进行去噪处理。在进行去噪时，可以通过聚类分析算法，把第一数量个排污数据集划分为第二数量个聚类簇以及噪点集，并将噪点集剔除，同时获取第二数量个聚类簇分别包含的排污数据及的数量。

在一个实施例中，在通过聚类分析算法，将第一数量个排污数据集划分为第二数量个聚类簇以及噪点集时，由于每个排污数据集都是一段时间内对应的排污数据，因此，首先需要在各个排污数据集中选择合适的点，作为后续的入模点。在这里选择每个排污数据集中排污数据的平均值对应的点作为入模点，也就是聚类数据点。需要说明的是，当时间间隔足够小时，每个排污数据集对应的排污时长也会足够小，此时每个排污数据集都可以看作为瞬时的排污数据，此时不再需要进行选取聚类数据点，但是计算量可能较大。

在对聚类数据点进行聚类时，不仅需要考虑聚类簇的数量，还需要考虑各个聚类簇的初始质心应当如何选取。因此，选取了聚类数据点之后，可以首先根据预设的聚类簇数量，使用层次聚类方法对选出的聚类数据点进行初始聚类，以将聚类数据点聚类为预设数量个初始聚类簇。这样可以得到预设聚类簇数量个初始聚类簇的初始质心，再将这些初始质心作为聚类数据点的质心，并通过迭代，以及预设的聚类簇最低数据点数量阈值，以及预设的同聚类簇最高距离阈值，对第一数量个排污数据集进行聚类，以得到第二数量个聚类簇以及噪点集。其中，聚类簇最低数据点数量阈值是指每个聚类簇中包含的数据点的最低值，同聚类簇最高距离阈值是指同一个聚类簇中的任意两个数据点之间的距离的最高值。

S104：通过最短路径算法，在所述第二数量个聚类簇中分别确定所述聚类簇对应的核心点。

通过聚类分析算法去除掉噪点集之后，现在还有第二数量个聚类簇，并且已知每个聚类簇中排污数据集的个数。由于每个聚类簇中的排污数据集中的排污数据比较相近，可以将一个聚类簇内的多个排污数据集近似为核心点的数据，即视每个聚类簇中的排污数据集含有的排污数据都相同，这样做能够大幅度降低计算量，当同聚类簇最高距离阈值较低时，还能保证后续过程的准确性。因此，需要确定每个聚类簇中的排污数据集对应的核心点。在确定核心点时，可以通过最短路径算法进行确定。

在一个实施例中，通过最短路径算法，在第二数量个聚类簇中分别确定聚类簇对应的核心点时，需要遍历聚类簇中的任一点，并确定任一点到聚类簇中其他聚类点的路径之和，并将路径之和作为任一点的路径权值。确定了聚类簇中所有聚类点的路径权值之后，选择路径权值最小的聚类点作为核心点。当然，这里选择路径之和作为路径权值，但是也可以选择其他值，例如各个点与任一点的方差值之和作为路径权值，在此不做限定。

S105：根据所述第二数量个聚类簇分别包含的所述排污数据集的数量以及所述聚类簇对应的所述核心点，确定所述目标排污口的初始预测模型。

在确定了各个聚类簇对应的核心点之后，可以将该聚类簇内其他排污数据集对应的排污数据近似为该核心点的排污数据。因此，可以根据第二数量个聚类簇内包含的历史排污数据，生成一个历史排污数据的拟合模型，作为目标排污口的初始预测模型，用于预测目标排污口在未来某个时间段内的排污数据。

在一个实施例中，根据第二数量个聚类簇分别包含的排污数据集的数量以及聚类簇对应的核心点，确定目标排污口的初始预测模型时，考虑到距离当前时间越近的历史排污数据，对于预测未来某个时间段时的准确度也就越高，因此首先需要通过核心点与当前时间对应的时间差，并根据时间差生成该核心点对应的时间影响参数。需要说明的是，这里的时间影响参数是个常数，但在通过时间差生成时间影响参数时，该常数还未被确定。在生成初始预测模型时，预测排污数据的数据值为第二数量个聚类簇分别对应的排污数据集数量、以及核心点对应的历史排污数据，以及核心点对应的时间影响参数的加权平均值。

S106：在所述第一数量个排污数据集中随机选取部分排污数据集，并通过所述部分排污数据集对所述初始预测模型进行更新，以得到排污数据预测模型。

生成了初始预测模型之后，由于时间影响参数还未被确定，因此，初始预测模型的准确度还有待评估。在评估时，可以在第一数量个排污数据集中随机选取部分排污数据集，并通过不烦你排污数据集对初始预测模型进行更新，以得到排污数据预测模型。

在一个实施例中，在通过部分排污数据集对初始预测模型进行更新，以得到排污数据预测模型时，首先需要确定部分排污数据的排放时间，并根据排放时间以及初始预测模型，得到通过初始预测模型以及该排放时间对应的预测排污数据。并通过部分排污数据以及预测排污数据，确定初始预测模型与实际的历史排污数据的误差值。如果误差值较高，则通过更新时间影响系数，以将该误差值降低至预设阈值一下，更新时间影响系数的方式可以是随机更新，在此不做限定。当误差值稳定低于预设阈值时，则说明更新后的初始预测模型准确度较高。

S107：通过所述排污数据预测模型，预测所述目标排污口在未来时间段内的预测排污数据。

得到排污数据预测模型后，可以通过该模型预测目标排污口在未来时间段内的预测排污数据。

在一个实施例中，在得到目标排污口在未来时间段内的预测排污数据之后，还需要对该预测排污数据进行监控，以能够提前做出治理，以防止由于企业或是园区的不当排污，对环境造成过大的影响。因此，在预测目标排污口在未来时间段内多预测排污数据之后，还可以获取目标排污口预设范围内的污染信息以及目标排污口对应的企业排污权，这里的污染信息至少包括：污染物堆积量、最大污染物承受量、污染物治理速度。并通过污染信息以及企业的排污权，设置告警阈值，当目标排污口的排污量或是排污速度超过告警阈值时，通过告警模块进行告警。

通过图1的方法，通过将历史排污数据划分为第一数量个排污数据集，并对排污数据集中的数据进行筛选，以在保留数据特征的前提下，减少了样本数据的数量。同时，通过聚类分析算法，将样本数据中的噪点筛选出来，以忽略噪点对后续建模过程的影响，提升了排污数据预测的准确性。

基于同样的思路，本申请的一些实施例还提供了上述方法对应的装置和设备。

如图2所示，本申请实施例还提供了一种排污数据预测装置，包括：

数据获取模块201，用于在预设时长范围内，获取目标排污口的历史排污数据，所述历史排污数据至少包括：污染物的种类、历史排污量、排放时间、以及所述排放时间对应的所述目标排污口预设范围内的环境信息；

数据集划分模块202，用于根据预设的时间间隔，并根据所述时间间隔将所述历史排污数据划分为第一数量个排污数据集；

聚类分析模块203，用于将所述第一数量个排污数据集划分为第二数量个聚类簇以及噪点集，将所述噪点集进行剔除，并获取所述第二数量个聚类簇分别包含的所述排污数据集的数量；

核心点确定模块204，用于通过最短路径算法，在所述第二数量个聚类簇中分别确定所述聚类簇对应的核心点；

初始预测模型确定模块205，用于根据所述第二数量个聚类簇分别包含的所述排污数据集的数量以及所述聚类簇对应的所述核心点，确定所述目标排污口的初始预测模型；

训练模块206，用于在所述第一数量个排污数据集中随机选取部分排污数据集，并通过所述部分排污数据集对所述初始预测模型进行训练，以得到排污数据预测模型；

预测模块207，用于通过所述排污数据预测模型，预测所述目标排污口在未来时间段内的预测排污数据。

如图3所示，本申请实施例还提供了一种排污数据预测设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够：

在预设时长范围内，获取目标排污口的历史排污数据，所述历史排污数据至少包括：污染物的种类、历史排污量、排放时间、以及所述排放时间对应的所述目标排污口预设范围内的环境信息；

根据预设的时间间隔将所述历史排污数据划分为第一数量个排污数据集；

通过聚类分析算法，将所述第一数量个排污数据集划分为第二数量个聚类簇以及噪点集，将所述噪点集进行剔除，并获取所述第二数量个聚类簇分别包含的所述排污数据集的数量；

通过最短路径算法，在所述第二数量个聚类簇中分别确定所述聚类簇对应的核心点；

根据所述第二数量个聚类簇分别包含的所述排污数据集的数量以及所述聚类簇对应的所述核心点，确定所述目标排污口的初始预测模型；

在所述第一数量个排污数据集中随机选取部分排污数据集，并通过所述部分排污数据集对所述初始预测模型进行训练，以得到排污数据预测模型；

通过所述排污数据预测模型，预测所述目标排污口在未来时间段内的预测排污数据。

本申请实施例还提供了一种非易失性计算机存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为：

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备和介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请实施例提供的设备和介质与方法是一一对应的，因此，设备和介质也具有与其对应的方法类似的有益技术效果，由于上面已经对方法的有益技术效果进行了详细说明，因此，这里不再赘述设备和介质的有益技术效果。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种排污数据预测方法，其特征在于，包括：

在所述第一数量个排污数据集中随机选取部分排污数据集，并通过所述部分排污数据集对所述初始预测模型进行更新，以得到排污数据预测模型；

2.根据权利要求1所述的方法，其特征在于，所述根据所述预设的时间间隔将所述历史排污数据划分为第一数量个排污数据集，具体包括：

随机将所述历史排污数据划分为若干个初始排污数据集；

遍历所述若干个初始排污数据集，若所述初始排污数据集对应的排污时长大于所述时间间隔，则将所述初始排污数据集划分为排污时长小于所述时间间隔的多个排污数据集，以得到所述历史排污数据对应的第一数量个排污数据集。

3.根据权利要求1所述的方法，其特征在于，所述通过聚类分析算法，将所述第一数量个排污数据集划分为第二数量个聚类簇以及噪点集，具体包括：

将所述排污数据集中的平均数据对应的数据点，作为所述排污数据集的聚类数据点；

根据预设聚类簇数量，使用层次聚类方法对所述聚类数据点进行聚类，以得到所述预设聚类簇数量个初始聚类簇；

确定所述预设聚类簇数量个初始聚类簇的初始质心，并将所述预设聚类簇数量个初始质心作为所述聚类数据点的质心；

根据所述预设聚类簇数量个质心，以及预设聚类簇最低数据点数量阈值，以及预设同聚类簇最高距离阈值，将所述第一数量个排污数据集划分为第二数量个聚类簇以及噪点集。

4.根据权利要求3所述的方法，其特征在于，所述通过最短路径算法，在所述第二数量个聚类簇中分别确定所述聚类簇对应的核心点，具体包括：

随机选取所述聚类簇中任一点，确定所述任一点到所述聚类簇中其他聚类点的路径之和，作为所述任一点的路径权值；

遍历所述聚类簇中的全部聚类点，选择最小的所述路径权值对应的聚类点作为所述聚类簇对应的核心点。

5.根据权利要求4所述的方法，其特征在于，所述根据所述第二数量个聚类簇分别包含的所述排污数据集的数量以及所述聚类簇对应的所述核心点，确定所述目标排污口的初始预测模型，具体包括：

确定所述核心点的排放时间与当前时间对应的时间差，并根据所述差生成所述核心点对应的时间影响参数；

通过所述时间影响参数，并将所述聚类簇中的所述聚类数据点的所述历史排污数据拟合为所述聚类簇的核心点的所述历史排污数据，以得到所述目标排污口的初始预测模型；

其中，所述初始预测模型中的预测排污数据为，所述第二数量个聚类簇分别对应的所述排污数据集数量，以及所述核心点对应的历史排污数据，以及所述核心点对应的所述时间影响参数的加权平均值。

6.根据权利要求5所述的方法，其特征在于，所述通过所述部分排污数据集对所述初始预测模型进行更新，以得到排污数据预测模型，具体包括：

确定所述部分排污数据的所述的排放时间，并根据所述排放时间以及所述初始预测模型，得到在所述排放时间的预测排污数据；

对比所述部分排污数据以及所述预测排污数据，确定误差值；

若所述误差值高于预设阈值，则更新所述时间影响系数，直至将所述误差值减小至低于所述预设阈值。

7.根据权利要求1所述的方法，其特征在于，所述通过所述排污数据预测模型，预测所述目标排污口在未来时间段内的预测排污数据之后，所述方法还包括：

获取所述目标排污口预设范围内的污染信息以及所述目标排污口对应的企业排污权，所述污染信息至少包括：污染物堆积量、最大污染物承受量、污染物治理速度；

根据所述污染信息以及所述企业排污权，设置告警阈值；

若所述目标排污口的排污量超过所述告警阈值，则通过告警模块进行告警。

8.一种排污数据预测装置，其特征在于，包括：

数据获取模块，用于在预设时长范围内，获取目标排污口的历史排污数据，所述历史排污数据至少包括：污染物的种类、历史排污量、排放时间、以及所述排放时间对应的所述目标排污口预设范围内的环境信息；

数据集划分模块，用于根据预设的时间间隔，并根据所述时间间隔将所述历史排污数据划分为第一数量个排污数据集；

聚类分析模块，用于将所述第一数量个排污数据集划分为第二数量个聚类簇以及噪点集，将所述噪点集进行剔除，并获取所述第二数量个聚类簇分别包含的所述排污数据集的数量；

核心点确定模块，用于通过最短路径算法，在所述第二数量个聚类簇中分别确定所述聚类簇对应的核心点；

初始预测模型确定模块，用于根据所述第二数量个聚类簇分别包含的所述排污数据集的数量以及所述聚类簇对应的所述核心点，确定所述目标排污口的初始预测模型；

训练模块，用于在所述第一数量个排污数据集中随机选取部分排污数据集，并通过所述部分排污数据集对所述初始预测模型进行训练，以得到排污数据预测模型；

预测模块，用于通过所述排污数据预测模型，预测所述目标排污口在未来时间段内的预测排污数据。

9.一种排污数据预测设备，其特征在于，包括：

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行：

10.一种非易失性计算机存储介质，存储有计算机可执行指令，其特征在于，所述计算机可执行指令设置为：