CN112699287A

CN112699287A - 可配置的模型数据自动预处理与分发方法和系统

Info

Publication number: CN112699287A
Application number: CN202011584391.8A
Authority: CN
Inventors: 许金朵; 林晨; 马荣华
Original assignee: Nanjing Institute of Geography and Limnology of CAS
Current assignee: Nanjing Institute of Geography and Limnology of CAS
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2021-04-23
Anticipated expiration: 2040-12-28
Also published as: CN112699287B

Abstract

本发明涉及可配置的模型数据自动预处理与分发方法的系统，包括数据采集、数据选取、计算设置、预处理和数据分发。本发明自动实时采集水质水文气象自动观测数据并入库，基于历史积累数据和实时采集的数据利用数据库技术和控件技术，为用户提供可视化的设置每个模型需要的数据类型、数据指标，设置计算参数，并集成数据预处理方法，依据用户设置自动进行模型数据预处理，将处理后的数据自动生成数据文件分发给模型，大大简化数学模型模拟计算的数据预处理和数据准备工作。本发明方法中的数学模型适用于水环境领域的所有数学模型，能够快速为模型准备好统一、规范化的水质水文气象数据文件，大大减少模型业务人员数据准备和模型数据预处理的工作量。

Description

可配置的模型数据自动预处理与分发方法和系统

技术领域

本发明属于水环境技术领域，具体涉及可配置的模型数据自动预处理与分发方法和系统，能自动实现模型数据数据获取、数据预处理、模型数据文件分发，尤其是针对长江中下游地区水环境领域数学模型需要的水质水文气象等边界条件数据的自动分发。

背景技术

水环境领域水质、水动力等数学模型的运行初始场、强迫函数、边界条件、参数集等多涉及水质水文气象观测数据，每个模型运行前都需要依据研究区域范围进行相关数据准备和预处理工作，而这些观测数据来源不同、时空分辨率不一，需要针对不同的模型计算条件进行大量的数据预处理，特别对模型相关管理系统的非专业人员来说数据准备难度大、耗时时间长、驱动效率低，不利于多工况多情景方案生成以及模型快速运行；模型计算需要的各类数据又多是文件格式，每次模型计算情景发生变化，均需要模型人员手动配置大量数据文件，为模型维护带来很大困难；在多个模型集成耦合计算时，各个模型使用不同数据源带来的数据时空尺度不一致等问题，影响模型计算结果的精度。此外，水文气象水质观测类数据获取也较困难，难以收集到需要年份的观测数据，影响模型计算精度。

发明内容

针对上述模型数据源多样、模型数据准备困难等问题，本发明提供了一种可配置的模型数据自动预处理与分发方法和系统，能够为模型自动获取江浙沪水质水文气象数据边界条件，进行数据预处理和数据文件分发，本发明方法适用于水环境领域的需要水质水文气象数据参与计算的所有模型，能够在界面上实现数据自动获取、数据预处理、数据文件生成分发，最大限度减少模型业务人员准备数据工作量。

为实现上述技术目的，本发明采用如下技术方案：

可配置的模型数据自动预处理与分发方法，包括如下步骤：

1)获取自动观测站的观测数据，同步至业务数据库；

2)从业务数据库中选择需要用于模型计算的数据；

3)设置计算的起始时间段以及计算步长；

4)根据数据原始观测频次、计算需要的起始时间段以及步长对数据进行插补；

5)设置分发格式，将数据文件分发给模型。

优选的，所述步骤1)中，观测数据获取方式如下：

a.建立并定义爬虫数据库和业务数据库数据字典映射表，字段包括站点名称、观测指标值和观测时间；

b.获取爬虫数据库表结构；

c.获取爬虫数据库数据；

d.将爬虫数据库数据同步至业务数据库；遍历获取到的爬虫数据库每一条数据，依据主键判断在业务数据库中是否存在该数据，存在的话进行更新，不存在的话进行Append插入。

本发明的方法可利用网络爬虫自动爬取江苏省水利厅水情信息、浙江水利厅发布的实时水雨情、上海水务发布的实时水务、安徽水文遥测发布的水情监测获取水位、降雨数据，从上海水务发布的河道水质、安徽省环保厅发布的实时水质获取逐月的水质数据，从太湖流域管理局获取实时河道流量、引排水量数据。爬取实时数据为模型研发人员自动提供江浙沪皖水质水文气象观测数据，大大节省模型人员在进行模型运算时为数据收集耗费的人力、物力、财力。

作为本发明的进一步优选，所述步骤1)还包括，将业务数据库中所有的观测数据进行空间关联；对点位数据添加空间位置的识别信息，包括所在省份、所在流域、所在湖泊、是否环湖。在选择空间范围后能够自动识别中该空间范围内的所有点位。用户选择所需的空间范围后，即可自由选择需要的点位。

作为本发明的进一步优选，所述步骤2)中，业务数据库在用户交互界面可视化展示，用户在交互界面根据需要选择参与计算的数据类型、参与计算的观测点位、需要的观测指标。

作为本发明的进一步优选，所述步骤4)中，基于数据类型、数据原始观测频次和设置的步长对数据进行预处理，将数据指标分配到设置的步长。包括：

对于水质、水位、流量、潮位、引排水量数据，若原始观测数据观测频次为月，步长为季度，则对各季度月份的观测数据进行平均处理；步长为日，则采用同值的方式处理，即各日数据同月份数据；

对于降雨量、蒸发量数据，若原始数据观测频次为日，计算步长为月、季，则对各日的数据进行加和处理；

选择观测频段为日的气象数据时，则依据不同的指标进行不同的处理：

平均气温、平均风速、平均气压观测指标计算步长为月、季时，观测数据取平均值；

累计降水量、日照时数、小型蒸发量、大型蒸发量观测指标计算步长为月、季时，对观测数据进行加和；

最大风速、最大风速、极大风速、极大风速的风向计算步长为月/季时，为该月/季数据的最大值，最/极大风速的风向为最/极大值对应的风向。

作为本发明的进一步优选，所述步骤(4)中，结合业务数据库中的原始水质水文气象数据和实时获取的观测数据，根据需要进行插值处理。

作为本发明的进一步优选，所述步骤(4)中，针对缺失观测数据的离散点选择资料插补的方法，包括不处理、线性插值、同值或相邻点回归分析；对需要进行空间插值的，生成矩阵网格式文件。

用户选择对离散点进行预处理时，可以选择线性插值，即可使用线性回归(一元一次方程)对观测数据补充前一监测频段或后一监测频段的值；选择同值，即使用缺失数据区间的该前一监测频段或后一监测频段的值来代替，或可使用去年同期的值；选择相邻点回归分析，使用缺失的观测数据区间前n个值和后m个值(n、m大于1)，使用拉格朗日插值法，进行多项式回归插值。不同插值方法计算公式如下，插值后结果记为X：

线性插值：使用缺失区间的前后值，进行线性回归插值，X＝(A+B)/2(缺失值前一观测频段值为A，后一观测频段值为B)；

同值：X＝A(缺失值前一观测频段值为A)；

相邻点回归分析：使用缺失区间的前n个值和后m个值，使用拉格朗日插值法，进行多项式回归插值，其中n和m至少为1，当n和m都为1时，该方法即退化为线性插值。假设缺失值前n日值为xx，后m日值为yy，则插值为lagrange(xx,yy)，其中lagrange算法如下：

作为本发明的进一步优选，所述步骤(4)还包括，将处理后的数据在观测时序上进行延长。使用时间序列之滑动平均模型(Moving average,MA)预测后m个时间段的值。假设缺失值前n日值为xx，预测后m日值，平滑系数为modulus＝0.5，则预测值为X＝predict(xx,m,modulus)。

作为本发明的进一步优选，所述步骤(4)中，采用空间插值的预处理方式时，先确认插值日期，然后使用克里金插值法对观测点的观测数据进行二维平面空间插值。

使用克里金插值法对监测站的数据进行二维平面空间插值：输入选择时间(某一日)下的监测站的测量指标及测量值，监测站经纬度，二维平面空间横向经度的起点、终点和网格的横向步长，二维平面空间纵向维度的起点、终点和网格的纵向步长(格网文件)，输出网格化插值结果的文本格式；或用户输入自定义的格网文件(某个区域平面的网格，如1公里*1公里大小的格网)，依据该格网文件空间范围和空间插值结果进行叠加，进而得到格网文件空间上的观测指标插值结果。

克里金插值公式：假设已知n个点数据，其经度为数组x，纬度维数组y，值为数组z，插值区域左上角经纬度为x_start，y_start，左上角经纬度为x_end，y_end，两点之间步长为step_x＝(x_end-x_start)/step_x，step_y＝(y_end-y_start)/step_y，则预测值X＝kriging(x,y,z,param,x_start,x_end,y_start,y_end,step_x,step_y)

作为本发明的进一步优选，所述步骤5)中，系统依据前序步骤的选择和设置，在线实时的对数据进行预处理，处理的离散点资料插补结果根据用户设置的文件格式生成数据文件，并由用户指定存储路径和文件名，提供给模型；空间插值的处理结果则根据空间网格的行列号生成矩阵数据，该矩阵的行列号和用户自定义的格网文件一致，矩阵数据由用户指定存储路径和文件名生成文本文件提供给模型。

本发明的另一目的在于提供一种可配置的模型数据自动预处理分发系统，包括：

数据获取模块；从自动观测站获取观测数据，并同步至本地的业务数据库；

业务数据库；存储获取的观测数据；

数据处理模块；从业务数据库中选择参与计算的数据类型、参与计算的观测点位、需要的观测指标，设置计算的起始时间段以及计算步长，并对数据进行预处理；

数据分发模块；从数据处理模块获取处理完毕的数据，设置分发格式，分发模型数据文件。

作为本发明的进一步优选，数据处理模块针对数据原始观测频次、计算需要的起始时间段以及步长对数据进行预处理，并自动集成了线性插值、同值、相邻点回归分析、时间延长常用的数据处理方法及空间插值克里金算法。模型用户无需额外对数据进行处理，系统自动实现对模型数据的前处理，并能够实现矩阵格网插值，得到矩阵结果，生成文本型或矩阵矢量/栅格格式数据。

本发明的方法和系统基于python、html、数据库技术和控件技术建立，可实现不同数据源水质水文气象数据的自动获取和集成，包括数据实时采集、数据预处理和数据文件分发采用可视化的界面定制方法，能够自动为模型计算提供所需的数据文件，并存放到指定目录，实现模型数据的可获取、可配置、可处理、可分发，大大节省了数据准备和数据预处理的时间，使繁杂的模型数据准备变得简单。本发明方法和系统适用于水环境领域的所有模型，自动采集的江浙沪皖水质水文气象数据能够向其它地区拓展，在界面上实现模型快速数据准备和数据分发，最大限度减少模型业务人员准备数据和预处理的工作量，同时保障了数据的来源统一和保证了计算的精度。

附图说明

图1为本发明方法的流程图。

图2为本发明实施例1方法的数据自动采集任务启动界面。

图3为本发明实施例1方法的水质数据点位选择与参与计算指标选择界面。

图4为本发明实施例1方法的计算参数设置界面。

图5为本发明实施例1方法的预处理方式设置界面。

图6为本发明实施例1方法的“B20#小湾里”水质站数据库原始数据(a)与系统处理后为模型分发的数据(b)对比图。

具体实施方式

下面结合说明书附图和具体的实施例，对本发明作详细描述。

实施例1

本实施例以太湖水质目标模型数据的准备、预处理和分发为例，对本发明的可配置的模型数据自动预处理分发方法和系统进行具体描述。

太湖水质目标模型利用太湖水质和藻类水华暴发规模、频率特征以及相应气象条件等，计算输出太湖不同分区内水质目标，即保证太湖水生态系统稳定的条件下各分区内水体总氮、总磷、氨氮、化学需氧量的目标含量。其需要的数据包括太湖环湖水质数据、太湖出入湖河流水位、流量，太湖风速、风向、气压、降雨量等观测数据。

图1为本发明方法的流程图，以太湖水质目标模型计算2021年太湖水质目标为计算案例：为计算2021年太湖水质目标，需要输入2020年太湖水质数据作为初始数据，2020年太湖气象数据、2020年环湖河道水位数据作为边界条件，空间范围覆盖江苏、浙江、上海。水质水文气象数据库中原始数据记录仅为2011-2014年，本例仅以原始库中输入2014年太湖水质数据说明对2020年数据的获取以及数据的选择、数据预处理和数据分发，包括如下步骤：

步骤一、数据获取

数据获取任务列表中罗列出数据获取的省份、数据类型，监测频次，用户点击操作栏的“启动”，系统自动将网络爬虫实时爬取的爬虫数据库中2020年江苏、浙江、上海两省一市水质站、水文站与气象站观测的水质、水位、流量、降雨、蒸发、潮位、引排水量等不同监测频次的数据进行数据同步至本系统的业务数据库(水质水文气象数据库)中，供用户使用。后台系统实现：

(1)定义爬虫数据库和业务数据库数据字典映射表

dic_sz＝{'station':'site_name','Oxygen':'do2','Permanganate':'cod','AmmoniaN':'codmn','ph':'ph','time':'time'}

dic_sw＝{'station':'site_name','waterlevel':'water_level','todaywaterlevel':'water_level','alertwaterlevel':'sw_level1','guarwaterlevel':'sw_level2','variation':'sw_change','gatestate':'status','time':'time'}

dic_js＝{'station':'site_name','time':'time','precipitation':'precipitation'}

(2)获取爬虫数据库表结构：SQL语句：sql＝"select table_name,TABLE_ROWSfrom information_schema.tables where table_schema＝'DataSpider'；"

(3)获取爬虫数据库数据read_all(table_name,params):

(4)将爬虫数据库数据同步至业务数据库：遍历获取到的爬虫数据库每一条数据，依据主键判断在业务数据库中是否存在，存在的话进行更新，不存在的话进行Append插入。

步骤二、选择水质数据参与计算；

用户在左侧菜单栏选择水质监测数据，然后选择区域“湖体-太湖湖体”，系统自动关联点位和所选择区域的空间关联关系，在“可选站点”列表框中自动罗列出数据库中太湖湖体范围内所有水质监测点，用户选择所有站点参与计算，所选择的站点罗列在“已选站点”列表框中；继续选择水质监测数据指标，在“未选指标”列表框中勾选所需的监测数据指标，包括站点名称、站点变化、经度、纬度、pH、溶解氧、总氮、总磷、氨氮、硝态氮、亚硝态氮、高锰酸盐指数、悬浮物、叶绿素，上述选择的指标出现在“已选指标”列表框中。

步骤三、设置计算参数；

在时间框中设置数据时间区间，为2020.1.1至2020.12.31，再设置数据观测频次的步长为“日”。

步骤四、设置预处理方式；

鉴于数据库中仅有步骤二所选择站点和观测指标的2011-2014年水质监测数据(监测频率为月)和2020.8月-12月爬虫爬取的数据(观测频次为月、日不等)，2020.1月-2020.7月数据缺失，需要依据2014年全年的数据及2020.8月-12月的数据将2020.1月-2020.7月的水质数据插值出来。利用2020.8-12月的数据和2011-2014年全年逐月数据建立相关关系，如2020年月度数据Y_2020m＝a*(X_2011m，X_2012m，X_2013m，X_2014m)+b(m＝1,2,3,4,5,6,7)，用相关关系补充1-7月份数据。计算步长为日，需要将原始数据插值成日的数据，选中离散点常用的“线性插值方法”将2020年原始数据由月插值到日的数据，插值过程中对pH、溶解氧、总氮、总磷、氨氮、硝态氮、亚硝态氮、化学需氧量、高锰酸盐指数、悬浮物、叶绿所有数据指标进行均值处理分配到日。同时对于某些点某段时间观测数据缺失的情况，勾选时间延长设置延长时间至2020.12.31日。系统按照用户选择的算法，对步骤二所选站点观测数据进行处理，输出为2020.1-12月逐日的数据，处理结果以json格式输出。

步骤五、设置分发格式、分发模型数据文件；

选择分发的数据文件格式为excel，系统自动将步骤二选择的指标作为表头，步骤三输出的json结果作为每一行值写入excel文件；

点击“生成文件”按钮，系统将步骤四生成的excel文件，存放到模型制定的文件路径，分发给模型使用。

Claims

1.一种可配置的模型数据自动预处理与分发方法，其特征在于，包括如下步骤：

1）获取自动观测站的观测数据，同步至业务数据库；

2）从业务数据库中选择需要用于模型计算的数据；

3）设置计算的起始时间段以及计算步长；

4）根据数据原始观测频次、计算需要的起始时间段以及步长对数据进行插补；

5）设置分发格式，将数据文件分发给模型。

2.根据权利要求1所述的方法，其特征在于，所述步骤1）中，观测数据获取方式如下：

a. 建立并定义爬虫数据库和业务数据库数据字典映射表，字段包括站点名称、观测指标值和观测时间；

b. 获取爬虫数据库表结构；

c. 获取爬虫数据库数据；

d. 将爬虫数据库数据同步至业务数据库；遍历获取到的爬虫数据库每一条数据，依据主键判断在业务数据库中是否存在该数据，存在的话进行更新，不存在的话进行Append插入。

3.根据权利要求1所述的方法，其特征在于，所述步骤1）还包括，将业务数据库中所有的观测数据进行空间关联；对点位数据添加空间位置的识别信息，包括所在省份、所在流域、所在湖泊、是否环湖。

4.根据权利要求1所述的方法，其特征在于，所述步骤2）中，业务数据库在用户交互界面可视化展示，用户在交互界面根据需要选择参与计算的数据类型、参与计算的观测点位、需要的观测指标。

5.根据权利要求1所述的方法，其特征在于，所述步骤4）中，基于数据类型、数据原始观测频次和设置的步长对数据进行预处理，将数据指标分配到设置的步长。

6.根据权利要求1或5所述的方法，其特征在于，所述步骤（4）中，针对缺失观测数据的离散点选择资料插补的方法，包括不处理、线性插值、同值或相邻点回归分析；对需要进行空间插值的，生成矩阵网格式文件。

7.根据权利要求1或7所述的方法，其特征在于，所述步骤（4）还包括，将处理后的数据在观测时序上进行延长，使用滑动平均模型预测后m个时间段的值。

8.根据权利要求1所述的方法，其特征在于，所述步骤（4）中，采用空间插值的预处理方式时，先确认插值日期，然后使用克里金插值法对观测点的观测数据进行二维平面空间插值。

9.根据权利要求1所述的方法，其特征在于，所述步骤5）中，处理的离散点资料插补结果根据用户设置的文件格式生成数据文件，并由用户指定存储路径和文件名，提供给模型；空间插值的处理结果则根据空间网格的行列号生成矩阵数据，该矩阵的行列号和用户自定义的格网文件一致，矩阵数据由用户指定存储路径和文件名生成文本文件提供给模型。

10.一种可配置的模型数据自动预处理与分发系统，其特征在于，包括：

业务数据库；存储获取的观测数据；