CN116257740B

CN116257740B - 一种海洋石油油气水生产大数据处理系统

Info

Publication number: CN116257740B
Application number: CN202310545373.6A
Authority: CN
Inventors: 车连发; 方健; 牛亚斌; 亢惠冉
Original assignee: CNOOC Tianjin Chemical Research and Design Institute Co Ltd
Current assignee: CNOOC Tianjin Chemical Research and Design Institute Co Ltd
Priority date: 2023-05-16
Filing date: 2023-05-16
Publication date: 2023-08-04
Anticipated expiration: 2043-05-16
Also published as: CN116257740A

Abstract

本发明涉及数据处理技术领域，具体涉及一种海洋石油油气水生产大数据处理系统，该系统包括：数据预处理模块，用于获取海上石油油气水生产的历史大数据以及实际数据，对历史大数据以及实际数据进行统一编号；数据处理模块，用于对生产数据进行聚类根据生产数据在对应簇类中的波动程度得到生产数据的服从性指标；簇类更新模块，用于根据服从性指标确定迁移顺序，计算迁移距离；根据迁移顺序和迁移距离对每个编号对应的各个维度下的簇类进行更新，得到优选簇类；数据分析模块，用于根据实际数据对应编号下的生产数据所在优选簇类和药剂量，得到实际数据对应的药剂量调整量。本发明能够获得较为准确的数据处理结果。

Description

一种海洋石油油气水生产大数据处理系统

技术领域

本发明涉及数据处理技术领域，具体涉及一种海洋石油油气水生产大数据处理系统。

背景技术

目前海上油田生产石油的过程包括：含水原油脱水、含油污水处理以及伴生气绿色资源化等油气水三相生产和处理过程。上下游相互制约，原油脱水出水直接影响着污水处理工艺段，容易产生水质和水量冲击。污水处理工艺过程无法根据水质及时调整设备参数和药剂加入量，进而导致废水处理出水不能稳定达标，回注水水质波动大，影响回注过程及驱油效率，严重时导致注入井堵塞，大幅度增加废水处理成本和降低采油效率。

现有通过对历史大数据进行分析的方式，获取污水处理工艺过程的相关参数，进而对药剂加入量进行调整。但是历史大数据为多维数据，现有多维数据的处理算法是基于不同维度数据对污水处理结果的影响程度，进行按权重分配，将多维数据映射至低维空间进行处理。但是在多维数据之间的线性关系较差的情况下，利用该方法进行处理的准确度较低。

发明内容

为了解决在多维数据之间的线性关系较差的情况下，基于不同维度数据对污水处理结果的影响程度，进行按权重分配进行处理的准确度较低的技术问题，本发明的目的在于提供一种海洋石油油气水生产大数据处理系统，所采用的技术方案具体如下：

数据预处理模块，用于获取海上石油油气水生产的历史大数据以及实际数据，对历史大数据以及实际数据进行统一编号，每个编号下的数据包括至少两个维度的生产数据以及对应的药剂量；

数据处理模块，用于对所有编号下每个维度的海上石油油气水的生产数据分别进行聚类得到每个维度下的至少两个簇类；根据每个编号对应的各个维度下的生产数据在对应簇类中的波动程度得到生产数据的服从性指标；

簇类更新模块，用于根据服从性指标确定每个编号下各个维度的聚类中心的迁移顺序，根据每个编号对应的迁移顺序中相邻两个维度的聚类中心之间的距离和服从性指标得到迁移距离；根据所述迁移顺序和迁移距离对每个编号对应的各个维度下的簇类进行更新，得到优选簇类；

数据分析模块，用于根据实际数据对应编号下的海上石油油气水的生产数据所在优选簇类和实际数据对应的编号下的药剂量，得到实际数据对应的药剂量调整量。

优选地，所述服从性指标的获取方法具体为：

对于任意一个编号下任意一个维度的生产数据，在根据每个编号对应的各个维度下的生产数据在对应簇类中的波动程度得到生产数据的服从性指标之前，计算生产数据在该维度下的数据值与生产数据对应的簇类的聚类中心之间的差异，进而根据所述差异与生产数据在对应簇类中的波动程度，得到生产数据的服从性指标。

优选地，所述服从性指标的计算公式具体为：

其中，表示编号A下第i个维度的生产数据的服从性指标，表示编号A下第i 个维度的生产数据的数据值，表示编号A下第i个维度的生产数据对应簇类的聚类中心的数据值，表示编号A下第i个维度的生产数据对应簇类中包含的所有生产数据的总数量。

优选地，所述迁移顺序的获取方法具体为：

对于任意一个编号，将该编号下所有维度的生产数据的服从性指标按照设定顺序进行排列，得到排列顺序；所述排列顺序为该编号下各个维度的聚类中心的迁移顺序。

优选地，所述根据每个编号对应的迁移顺序中相邻两个维度的聚类中心之间的距离和服从性指标得到迁移距离具体为：

对于任意一个编号下对应的迁移顺序中相邻两个维度，将所述相邻两个维度中服从性指标较大的维度记为第一维度，将所述相邻两个维度中服从性指标较小的维度记为第二维度；

计算第二维度的生产数据的服从性指标与第一维度的生产数据的服从性指标之间的比值；获取该编号下，第一维度生产数据所在簇类的聚类中心对应的编号下的第二维度中的生产数据记为特征数据；

计算特征数据与该编号下第二维度生产数据所在簇类的聚类中心之间的距离的一半；以所述比值与距离的一半之间的乘积作为该编号下第二维度对应的聚类中心的迁移距离。

优选地，所述根据所述迁移顺序和迁移距离对每个编号对应的各个维度下的簇类进行更新，得到优选簇类，具体包括：

对于任意一个编号下的迁移顺序，将迁移顺序中第二个维度的聚类中心向第一个维度对应的聚类中心对应编号下第二个维度中的生产数据，移动对应的迁移距离，获取与移动后的位置距离最近的数据点作为第二个维度新的聚类中心；

将第三个维度的聚类中心向第二个维度新的聚类中心对应编号下第三个维度中的生产数据，移动对应的迁移距离，获得与移动后的距离最近的数据点作为第三个维度新的聚类中心，以此类推，将该编号下所有维度的聚类中心按照迁移顺序依次进行移动，得到最优聚类中心；

根据每个编号下所有维度对应的最优聚类中心更新聚类结果，得到优选簇类。

优选地，所述根据实际数据对应编号下的生产数据所在优选簇类和实际数据对应的编号下的药剂量，得到每个编号下的药剂量调整量，具体包括：

获取实际数据对应编号下所有维度的生产数据所在优选簇类，计算实际数据对应的编号下的药剂量与该编号下维度的总数量的比值，基于每个维度的生产数据与其对应的最优聚类中心以及所述比值，得到实际数据对应的药剂量调整量。

优选地，所述药剂量调整量的计算公式具体为：

其中，表示实际数据对应的药剂量调整量，W表示实际数据对应的编号下的药剂量，表示实际数据对应的编号下第s个维度的生产数据的数据值，表示实际数据对应的编号下第s个维度的生产数据所在优选簇类的最优聚类中心，表示实际数据对应的编号下包含的维度总数量。

本发明实施例至少具有如下有益效果：

本发明首先将实际数据与历史数据进行统一编号处理，即将实际数据与历史数据一起进行数据分析，并获取多维度的生产数据使得最终数据分析处理结果更加准确；然后分别对所有编号下每个维度的生产数据分别进行聚类，能够得到每个维度下的多个簇类，根据每个编号对应的各个维度下的生产数据在对应簇类中的波动程度得到生产数据的服从性指标，对每个维度下的生产数据所在簇类的波动程度进行分析，利用服从性指标反映了生产数据所在簇类中的稳定性程度；进一步的，根据服从性指标确定每个编号下各个维度的聚类中心的迁移顺序，即根据生产数据所在簇类的稳定性程度确定其所在簇类的聚类中心的迁移方式，并计算迁移距离，能够获得每个维度下的最佳的聚类结果，即优选簇类，准确度较高，且相较于传统多维空间映射至低维空间进行聚类的方式，本发明没有限定数据形式，可以适用于维度较高较为复杂的数据；最终，根据实际数据对应编号所在优选簇类与实际数据对应的编号下的药剂量，得到实际数据对应的药剂量调整量，即通过对与实际数据较为相似的历史数据进行分析，获取实际数据的药剂量需要调整的程度，解决了多维度数据之间线性关系较差的情况下，数据按权分配准确度较低的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1是本发明的一种海洋石油油气水生产大数据处理系统的系统框图；

图2是本发明实施例中编号B对应的迁移顺序中第r个维度生产数据所在簇类的数据分布示意图；

图3是本发明实施例中编号B对应的迁移顺序中第r+1个维度生产数据所在簇类的数据分布示意图；

图4是本发明实施例中编号B对应的迁移顺序中第r+1个维度生产数据所在簇类更新后的数据分布示意图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的一种海洋石油油气水生产大数据处理系统，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的一种海洋石油油气水生产大数据处理系统的具体方案。

请参阅图1，其示出了本发明一个实施例提供的一种海洋石油油气水生产大数据处理系统的系统框图，该系统包括：数据预处理模块，数据处理模块，簇类更新模块以及数据分析模块。

数据预处理模块，用于获取海上石油油气水生产的历史大数据以及实际数据，对历史大数据以及实际数据进行统一编号，每个编号下的数据包括至少两个维度的生产数据以及对应的药剂量。

首先，获取海上石油油气水生产的历史大数据，在本实施例中，海上石油油气水生产的历史大数据主要是在污水处理过程中，对于不同水质参数、不同开采深度和不同采油污水水量等情况下，污水水质处理过程产生的数据。这些数据可以在一定程度上反馈在不同水质和水量下、以及在常规处理设备参数和药剂量下，污水水质的历史经验处理结果。在实际进行采油的过程中，可以根据历史经验处理结果，对当下正在进行的工艺处理参数进行借鉴和调节。

对采集到的海上石油油气水生产的历史大数据进行编号，每个编号下的历史大数据包括至少两个维度的生产数据以及对应的药剂量。在本实施例中，根据时间顺序对采集到的海上石油油气水生产的历史大数据进行编号，例如，在第一个时刻采集的数据编号为1，通过采集设定时间段内不同时刻的数据，根据时间顺序对数据进行编号，设定时间段的时间长度可以设置为一年，时刻之间的时间间隔可以设置为一个小时，实施者可根据实际情况进行设置。同时，实施者也可根据具体实施场景选择其他方法对数据进行编号。

在本实施例中，每个编号下的历史大数据包括的多个维度的生产数据主要为：水质参数、开采深度、污水水量、温度和湿度等，实施者可根据具体实施场景进行选择至少两种不同的参数数据作为两个维度的生产数据。

需要说明的是，由于对回注水水质的要求主要在于悬浮物、淤泥、沙砾、细菌以及钙、硫和铜等的含量，其处理过程中的化学药品也以絮凝剂为主，这是为了避免回注水中含有大量沉积物堵塞油井管道，因此，在本实施例中，利用平均沉积物质量基准系数法（SQG-Q）获取SQG系数，将SQG系数作为水质参数。其中，平均沉积物质量基准系数法为公知技术，在此不再过多介绍，SQG系数能够反映水质中重金属的污染情况的评价值，实施者可根据具体实施场景选择其他指标作为水质参数。

同时，注水的要求不同对应的开采深度也就不同。在不同海洋深度的水压不同，且离子浓度也不同因此注水也需要在相同深度进行取水，否则注水时离子浓度低注水上浮导致压强不足无法压出石油，而开采深度越深水质越复杂，处理难度不同，且回注水水质需要越高。并且在污水处理过程中，不同污水水量、温度以及湿度下所需的化学药剂量也就不同。

需要说明的是，在本实施例中，水质参数、开采深度、污水水量、温度和湿度与污水处理过程中所需的化学药剂量之间呈正相关关系。

基于此，在本实施例中海上石油油气水生产的历史大数据的数据形式为：数据编号，多维度生产数据的数据值，每个历史经验数据中污水处理过程加入的药剂量。

进一步的，通过从历史大数据中寻找到与当前污水处理过程影响因素相近的处理数据，以历史大数据中采用的药剂量作为借鉴，对当前污水处理过程所需药剂量进行调节，因此，需要将待调节的药剂量对应的多维度生产数据与历史大数据中的多维度生产数据一起进行数据处理。

获取海上石油油气水生产的实际数据，对历史大数据和实际数据进行统一编号，即对实际数据进行编号的方式与对历史大数据进行编号的方式相同，在本实施例中，根据时间顺序对实际数据进行编号，例如，在当前时刻之前一共采集了n-1个时刻的海上石油油气水的历史数据，实际数据为当前时刻采集的生产数据，按照时间顺序对实际数据进行编号，则实际数据的编号为n。且实际数据与历史大数据的数据形式相同。在本实施例中，实际数据为在当前时刻采集的海上石油油气水生产数据，实施者可根据具体实施场景进行设置。

数据处理模块，用于对所有编号下每个维度的海上石油油气水的生产数据分别进行聚类得到每个维度下的至少两个簇类；根据每个编号对应的各个维度下的生产数据在对应簇类中的波动程度得到生产数据的服从性指标。

首先，需要对每个编号下的生产数据进行聚类处理，通过对每个编号下的数据进行分析，能够根据历史数据中与当前污水处理过程中实际数据的影响因素相近的历史数据，进而以历史数据对应编号下的药剂量作为参考，对当前实际数据对应的药剂量进行调整。因此，需要对所有具有编号的生产数据进行聚类处理。

在多维数据聚类算法处理过程中，常采用数据降维算法将高维空间中的数据映射至低维空间中，以数据点之间的相似度转化为条件概率，同时保留了数据集的局部特性，然后再对降维后的数据进行聚类处理。但是数据维度数量较多时，很难存在某一个低维度空间可以容纳所有维度数据的映射值。

现有的根据多维数据对处理结果的影响程度对多维度数据赋权，进而进行多维度数据聚类，该方法本质上是利用多维数据与化学药剂量的线性关系进行加权，而对非线性的多维数据来说，利用该方法进行聚类处理准确度欠佳。

基于此，本发明实施例通过对每个维度下的生产数据进行单独聚类，获得每个生产数据在对应维度下聚类结果的服从性。即对所有编号下每个维度的生产数据分别进行聚类得到每个维度下的多个簇类，具体地，对所有编号下的每个维度的生产数据进行单独聚类。

例如，对于开采深度这一维度的所有编号下的生产数据，将深度差异作为生产数据之间的距离度量，利用k-means聚类算法对所有编号下的开采深度数据进行聚类处理，在本实施例中先采用手肘法或者轮廓系数法确定最优的k值，即k为最优的簇类个数，得到在开采深度维度下的聚类结果。对于其他维度，利用同样的方法进行处理，可以获得在每个维度下的聚类结果。

在所有编号下每个维度对应的聚类结果中，当一个编号下某一个维度的生产数据对应的聚类结果越不稳定，则该维度的聚类结果越需要服从其他维度的生产数据中更加稳定的聚类结果。对于任意一个维度的任意一个簇类，簇类中的数据越偏离其聚类中心，说明该簇类的聚类结果越不稳定，则在该簇类下的数据越应该服从其他维度更加稳定的聚类结果。

基于此，根据每个编号对应的各个维度下的生产数据在对应簇类中的波动程度得到生产数据的服从性指标，具体地，对于任意一个编号下任意一个维度的生产数据，在根据每个编号对应的各个维度下的生产数据在对应簇类中的波动程度得到生产数据的服从性指标之前，计算生产数据在该维度下的数据值与生产数据对应的簇类的聚类中心之间的差异，进而根据所述差异与生产数据在对应簇类中的波动程度，得到生产数据的服从性指标，所述服从性指标的计算公式具体为：

表示第i个维度的生产数据与其所在簇类的聚类中心之间的差异，反映了第i个维度的生产数据与其所在簇类的聚类中心之间的偏离程度，其取值越大，说明第i 个维度的数据越偏离对应簇类的聚类中心，利用比值使得偏离程度的取值为归一化数值，进而将该比值作为权重，该比值的取值越大，说明第i个维度的生产数据所在簇类的聚类结果较不稳定，对应的服从性指标的取值越大，说明第i个维度的生产数据越需要服从其他维度下的聚类结果。

类比方差的计算方法获得生产数据在对应簇类中的波动程度，即反映了第i个维度的生产数据所在簇类中，所有生产数据与对应簇类的聚类中心之间的偏离程度的波动程度，该取值越大时，说明在该簇类内所有生产数据与聚类中心之间的偏离程度的差异较大，进而说明该簇类的聚类结果较差，对应的服从性指标的取值较大，说明第 i个维度的生产数据越需要服从其他维度下的聚类结果。

服从性指标反映了生产数据在其对应簇类中的聚类结果的稳定性程度，当服从性指标的取值越大时，说明生产数据在对应簇类中的聚类结果越不稳定，即稳定性程度越低，进而说明生产数据越需要服从其他维度下的聚类结果。当服从性指标的取值越小时，说明生产数据对应簇类中的聚类结果越稳定，即稳定性程度越高，进而说明生产数据越不需要服从其他维度下的聚类结果。

簇类更新模块，用于根据服从性指标确定每个编号下各个维度的聚类中心的迁移顺序，根据每个编号对应的迁移顺序中相邻两个维度的聚类中心之间的距离和服从性指标得到迁移距离；根据所述迁移顺序和迁移距离对每个编号对应的各个维度下的簇类进行更新，得到优选簇类。

在本实施例中，每个编号下的数据包括水质参数、开采深度、污水水量、温度和湿度五个维度对应的数据值。例如，编号1下对应的五个维度的生产数据均存在其对应的服从性指标，即同一编号下，维度与生产数据是一一对应的关系，进而同一编号下每个维度均存在对应的聚类中心。服从性指标反映了生产数据在其对应簇类中的聚类结果的稳定性程度，以及是否需要服从其他维度下的聚类结果。

基于此，根据服从性指标确定每个编号下各个维度的聚类中心的迁移顺序，具体地，对于任意一个编号，将所有维度下的生产数据的服从性指标按照设定顺序进行排列，得到排列顺序；所述排列顺序为该编号下各个维度的聚类中心的迁移顺序。

在本实施例中，设定顺序为从大到小的顺序，依次将具有较高的服从性指标的生产数据的聚类结果映射在具有较低的服从性指标的生产数据的聚类结果中。即服从性指标越大，说明生产数据在对应簇类中的聚类结果越不稳定，进而越需要服从其他维度下的聚类结果。

需要说明的是，同一个编号下所有生产数据对应的服从性指标可能存在相等的情况，实施者可根据生产数据对最终需要进行调整的药剂量的影响程度对服从性指标相等的生产数据进行排序。例如，对于任意一个编号下，开采深度和污水水量对应的服从性指标相等时，由于污水水量对药剂量的影响较为直接，可将污水水量排列在开采深度后。

例如，在任意一个编号下对应的迁移顺序中，第一个维度为服从性指标最大的维度，第二个维度相对于第一个维度服从性指标较低的维度，即第一个维度的生产数据更需要服从于第二个维度的生产数据的聚类结果。

进一步的，第二个维度的生产数据所在簇类的聚类中心从当前位置向设定方向移动一定的距离，该设定方向即为第二个维度对应聚类中心到高服从性指标的生产数据所在簇类的聚类中心对应编号下第二个维度中的生产数据的方向，即第二个维度对应的聚类中心到第一个维度对应的聚类中心对应编号下第二个维度中的生产数据的方向，得到移动后新的聚类中心。

新的聚类中心是第一个维度服从于第二个维度，使得第二个维度对应的聚类中心迁移，但是迁移量较小，新的聚类中心仍更加偏向第二个维度对应的聚类中心。

如图2、图3和图4所示，图2为本发明实施例中编号B对应的迁移顺序中第r个维度生产数据所在簇类的数据分布示意图，为编号B对应的迁移顺序中第r个维度的生产数据，为编号C对应的迁移顺序中第r个维度的生产数据，即为所在簇类的聚类中心；图3为本发明实施例中编号B对应的迁移顺序中第r+1个维度生产数据所在簇类的数据分布示意图，为编号B对应的迁移顺序中第r+1个维度的生产数据，为编号E对应的迁移顺序中第r+1个维度的生产数据，即所在簇类的聚类中心；图4为本发明实施例中编号B对应的迁移顺序中第r+1个维度生产数据所在簇类更新后的数据分布示意图，为编号B对应的迁移顺序中第r+1个维度生产数据所在簇类的聚类中心进行迁移更新后的聚类中心，为编号C对应的迁移顺序中第r+1个维度的生产数据。

对于任意一个编号下对应的迁移顺序中相邻两个维度，将所述相邻两个维度中服从性指标较大的维度记为第一维度，将所述相邻两个维度中服从性指标较小的维度记为第二维度；计算第二维度的生产数据的服从性指标与第一维度的生产数据的服从性指标之间的比值；获取该编号下，第一维度生产数据所在簇类的聚类中心对应的编号下的第二维度中的生产数据记为特征数据；计算特征数据与该编号下第二维度生产数据所在簇类的聚类中心之间的距离的一半；以所述比值与距离的一半之间的乘积作为该编号下第二维度对应的聚类中心的迁移距离。

需要说明的是，任意一个编号下对应的迁移顺序中相邻两个维度是指，在迁移顺序中位置上相邻的两个维度，例如，编号B对应的迁移顺序中第r个维度和第r+1个维度为相邻两个维度，进而所述第r个维度为第一维度，所述第r+1个维度为第二维度。为在第一维度下所在簇类的聚类中心，则需获取编号C在第二维度下的生产数据，即编号C在第r +1个维度下的生产数据，即特征数据。

所述迁移距离的计算公式具体为：

其中，表示编号B对应的迁移顺序中第r+1个维度对应的聚类中心的迁移距离，表示编号B对应的迁移顺序中第r+1个维度生产数据的服从性指标，表示编号B对应的迁移顺序中第r个维度生产数据的服从性指标，为编号E对应的迁移顺序中第r+1个维度的生产数据，即所在簇类的聚类中心，为编号C对应的迁移顺序中第r+1个维度的生产数，即为特征数据，也即编号B对应的迁移顺序中第r个维度对应的聚类中心对应的编号下第r+1个维度的生产数据，表示第r+1个维度生产数据所在簇类的聚类中心与特征数据之间的距离。

表示距离的一半，表示迁移顺序中相邻两个维度下低服从性指标与低服从性指标之间的比值，将该比值作为迁移权重，由于高服从性指标对应的维度服从低服从性指标对应的维度的聚类结果，该比值的取值小于或等于1，因此，聚类中心的迁移量侧重于低服从性指标对应的维度所在簇类的聚类中心。

具体地，在图2中对应的聚类中心为，即编号B下的迁移顺序中第r个维度的生产数据所在簇类的聚类中心对应的编号可能不与其相同，故在迁移顺序中比第r个维度服从性指标较小的第r+1个维度中，聚类中心对应的编号下存在对应的生产数据，进而在图4中，编号B下的迁移顺序中第r+1个维度下，聚类中心与特征数据之间的距离就可以反映编号B对应的迁移顺序中第r个维度的聚类中心与第r+1个维度的聚类中心之间的距离。

进一步的，根据所述迁移顺序和迁移距离对每个编号对应的各个维度下的簇类进行更新，得到优选簇类，具体地，对于任意一个编号下的迁移顺序，将迁移顺序中第二个维度的聚类中心向第一个维度对应的聚类中心对应编号下第二个维度中的生产数据，移动对应的迁移距离，获取与移动后的位置距离最近的数据点作为第二个维度新的聚类中心；将第三个维度的聚类中心向第二个维度新的聚类中心对应编号下第三个维度中的生产数据，移动对应的迁移距离，获得与移动后的距离最近的数据点作为第三个维度新的聚类中心，以此类推，将该编号下所有维度的聚类中心按照迁移顺序依次进行移动，得到最优聚类中心。根据每个编号下所有维度对应的最优聚类中心更新聚类结果，得到优选簇类。

需要说明的是，一个编号下的所有维度的生产数据对应了一个最佳的聚类中心被记为最优聚类中心，按照服从性指标的大小顺序使聚类中心进行迁移的目的在于，通过聚类中心的多次迁移能够得到最可能为多维聚类中心点的某些数据点，使得多维聚类效果更佳。至此，得到所有编号下的生产数据的多维聚类中心点对单个编号下的数据而言是最佳的，但是对整体数据来说还存在数据冗余的情况，因此需要对优选簇类进行分析合并。

具体地，对于任意一个优选簇类，该簇类中数据点的数量越多，表示以该簇类中的聚类中心为中心的聚类簇的覆盖范围越大，其准确度越高，但是聚类簇覆盖范围可能存在冗余的情况，即一个较大覆盖范围的簇类，该簇类中存在某个其他簇类的点为聚类中心，进而需要将较大覆盖范围的簇类内其他优选簇类的簇类中心进行消除，然后将消除的数据进行合并处理。

例如，一个编号下的生产数据所在优选簇类的最优聚类中心为F，但是最优聚类中心F同时作为数据点也存在于其他优选簇类中，即最优聚类中心F存在的其他优选簇类的最优聚类中心为G，且最优聚类中心G所在簇类的覆盖范围的数据体量较大，即存在多个生产数据的最优聚类中心均为G，则最优聚类中心G就可以将最优聚类中心F消除，只保留最优聚类中心G作为聚类中心点，最优聚类中心F所在簇类中的所有数据将被合并在最优聚类中心G所在的簇类中。

同时，若最优聚类中心G作为数据点还存在与其他优选簇类中，但是其存在的其他优选簇类的覆盖范围小于最优聚类中心G所在簇类中，此时最优聚类中心作为聚类中心点存在的簇类不会被消除。进一步的，处理后可以消除冗余的聚类中心点。

具体地，获取实际数据对应编号下所有维度的生产数据所在优选簇类，计算实际数据对应的编号下的药剂量与该编号下维度的总数量的比值，基于每个维度的生产数据与其对应的最优聚类中心、以及所述比值，得到实际数据对应的药剂量调整量。

通过获取实际数据对应的编号下所有维度的生产数据较为相似的其他历史数据，进而根据相似程度将采油过程中的药剂量进行加权求和，再根据实际数据与较为相似的历史数据各个维度平均值的偏离程度对药剂量进行加权计算，获得对当前实际数据对应的药剂量的最终调整值。

所述药剂量调整量的计算公式具体为：

表示将实际数据对应编号下的药剂量在每个维度下进行平均分配，表示实际数据与其所在的优选簇类中的最优聚类中心之间的数据差异，反映了实际数据在各个维度的生产数据与其对应维度的数据平均值之间的偏离程度，进而计算比值，使得偏离程度的取值为归一化的数值，将比值作为权重对分配在每个维度下的药剂量进行加权，即将偏离程度决定一部分实际数据所需要使用的药剂量调整程度。

取值越小，说明在对应维度下，实际数据对应的生产数据的数据值与其所在优选簇类中的平均值较为接近，因此对应的调整量越小。取值越大，说明在对应维度下实际数据对应的生产数据的数据值与其所在优选簇类中的平均值之间的差异越大，由于在本实施例中，生产数据为水质参数、开采深度、污水水量、温度和湿度，且与污水处理过程中所需的化学药剂量之间呈正相关关系，因此，其差异越大，在对应维度下所需要的药剂量越多，则越需要对其进行调整，对应的调整量越大。的取值为负数时，说明实际数据的生产数据与其所在优选簇类中的平均值较小，则认为在对应维度下的药剂量应当适当的减少，进而获得药剂量调整值，所述药剂量调整值即为调整后的剂量。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围，均应包含在本申请的保护范围之内。

Claims

1.一种海洋石油油气水生产大数据处理系统，其特征在于，该系统包括：

数据预处理模块，用于获取海上石油油气水生产的历史大数据以及实际数据，对历史大数据以及实际数据进行统一编号，每个编号下的数据包括至少两个维度的生产数据以及对应的药剂量；所述生产数据为水质参数、开采深度、污水水量、温度和湿度；

所述服从性指标的获取方法具体为：

对于任意一个编号下任意一个维度的生产数据，在根据每个编号对应的各个维度下的生产数据在对应簇类中的波动程度得到生产数据的服从性指标之前，计算生产数据在该维度下的数据值与生产数据对应的簇类的聚类中心之间的差异，进而根据所述差异与生产数据在对应簇类中的波动程度，得到生产数据的服从性指标；

所述根据每个编号对应的迁移顺序中相邻两个维度的聚类中心之间的距离和服从性指标得到迁移距离具体为：

对于任意一个编号下对应的迁移顺序中相邻两个维度，将所述相邻两个维度中服从性指标较大的维度记为第一维度，将所述相邻两个维度中服从性指标较小的维度记为第二维度；计算第二维度的生产数据的服从性指标与第一维度的生产数据的服从性指标之间的比值；获取该编号下，第一维度生产数据所在簇类的聚类中心对应的编号下的第二维度中的生产数据记为特征数据；计算特征数据与该编号下第二维度生产数据所在簇类的聚类中心之间的距离的一半；以所述比值与距离的一半之间的乘积作为该编号下第二维度对应的聚类中心的迁移距离；

2.根据权利要求1所述的一种海洋石油油气水生产大数据处理系统，其特征在于，所述服从性指标的计算公式具体为：

其中，表示编号A下第i个维度的生产数据的服从性指标，/>表示编号A下第i个维度的生产数据的数据值，/>表示编号A下第i个维度的生产数据对应簇类的聚类中心的数据值，/>表示编号A下第i个维度的生产数据对应簇类中包含的所有生产数据的总数量。

3.根据权利要求1所述的一种海洋石油油气水生产大数据处理系统，其特征在于，所述迁移顺序的获取方法具体为：

4.根据权利要求3所述的一种海洋石油油气水生产大数据处理系统，其特征在于，所述根据所述迁移顺序和迁移距离对每个编号对应的各个维度下的簇类进行更新，得到优选簇类，具体包括：

5.根据权利要求4所述的一种海洋石油油气水生产大数据处理系统，其特征在于，所述根据实际数据对应编号下的生产数据所在优选簇类和实际数据对应的编号下的药剂量，得到每个编号下的药剂量调整量，具体包括：

6.根据权利要求5所述的一种海洋石油油气水生产大数据处理系统，其特征在于，所述药剂量调整量的计算公式具体为：

其中，表示实际数据对应的药剂量调整量，W表示实际数据对应的编号下的药剂量，表示实际数据对应的编号下第s个维度的生产数据的数据值，/>表示实际数据对应的编号下第s个维度的生产数据所在优选簇类的最优聚类中心，/>表示实际数据对应的编号下包含的维度总数量。