CN112699287A - 可配置的模型数据自动预处理与分发方法和系统 - Google Patents
可配置的模型数据自动预处理与分发方法和系统 Download PDFInfo
- Publication number
- CN112699287A CN112699287A CN202011584391.8A CN202011584391A CN112699287A CN 112699287 A CN112699287 A CN 112699287A CN 202011584391 A CN202011584391 A CN 202011584391A CN 112699287 A CN112699287 A CN 112699287A
- Authority
- CN
- China
- Prior art keywords
- data
- observation
- model
- database
- calculation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000007781 pre-processing Methods 0.000 title claims abstract description 27
- 238000004364 calculation method Methods 0.000 claims abstract description 32
- 238000009826 distribution Methods 0.000 claims abstract description 16
- 238000012545 processing Methods 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 11
- 238000012821 model calculation Methods 0.000 claims description 7
- 238000000611 regression analysis Methods 0.000 claims description 5
- 230000003993 interaction Effects 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 3
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 abstract description 54
- 238000002360 preparation method Methods 0.000 abstract description 10
- 238000013178 mathematical model Methods 0.000 abstract description 5
- 238000005516 engineering process Methods 0.000 abstract description 4
- 230000000007 visual effect Effects 0.000 abstract description 2
- 238000004088 simulation Methods 0.000 abstract 1
- 238000012544 monitoring process Methods 0.000 description 17
- IJGRMHOSHXDMSA-UHFFFAOYSA-N Atomic nitrogen Chemical compound N#N IJGRMHOSHXDMSA-UHFFFAOYSA-N 0.000 description 6
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 description 5
- 229910052760 oxygen Inorganic materials 0.000 description 5
- 239000001301 oxygen Substances 0.000 description 5
- 230000008020 evaporation Effects 0.000 description 4
- 238000001704 evaporation Methods 0.000 description 4
- OAICVXFJPJFONN-UHFFFAOYSA-N Phosphorus Chemical compound [P] OAICVXFJPJFONN-UHFFFAOYSA-N 0.000 description 3
- XKMRRTOUMJRJIA-UHFFFAOYSA-N ammonia nh3 Chemical compound N.N XKMRRTOUMJRJIA-UHFFFAOYSA-N 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 229910052757 nitrogen Inorganic materials 0.000 description 3
- 229910052698 phosphorus Inorganic materials 0.000 description 3
- 239000011574 phosphorus Substances 0.000 description 3
- 238000001556 precipitation Methods 0.000 description 3
- JVMRPSJZNHXORP-UHFFFAOYSA-N ON=O.ON=O.ON=O.N Chemical compound ON=O.ON=O.ON=O.N JVMRPSJZNHXORP-UHFFFAOYSA-N 0.000 description 2
- MMDJDBSEMBIJBB-UHFFFAOYSA-N [O-][N+]([O-])=O.[O-][N+]([O-])=O.[O-][N+]([O-])=O.[NH6+3] Chemical compound [O-][N+]([O-])=O.[O-][N+]([O-])=O.[O-][N+]([O-])=O.[NH6+3] MMDJDBSEMBIJBB-UHFFFAOYSA-N 0.000 description 2
- 229930002875 chlorophyll Natural products 0.000 description 2
- 235000019804 chlorophyll Nutrition 0.000 description 2
- ATNHDLDRLWWWCB-AENOIHSZSA-M chlorophyll a Chemical compound C1([C@@H](C(=O)OC)C(=O)C2=C3C)=C2N2C3=CC(C(CC)=C3C)=[N+]4C3=CC3=C(C=C)C(C)=C5N3[Mg-2]42[N+]2=C1[C@@H](CCC(=O)OC\C=C(/C)CCC[C@H](C)CCC[C@H](C)CCCC(C)C)[C@H](C)C2=C5 ATNHDLDRLWWWCB-AENOIHSZSA-M 0.000 description 2
- 230000009193 crawling Effects 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 230000002035 prolonged effect Effects 0.000 description 2
- 239000013535 sea water Substances 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 238000011282 treatment Methods 0.000 description 2
- 239000005422 algal bloom Substances 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A20/00—Water conservation; Efficient water supply; Efficient water use
- Y02A20/152—Water filtration
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Mathematical Physics (AREA)
- Pure & Applied Mathematics (AREA)
- Software Systems (AREA)
- Computational Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computing Systems (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Algebra (AREA)
- Life Sciences & Earth Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及可配置的模型数据自动预处理与分发方法的系统,包括数据采集、数据选取、计算设置、预处理和数据分发。本发明自动实时采集水质水文气象自动观测数据并入库,基于历史积累数据和实时采集的数据利用数据库技术和控件技术,为用户提供可视化的设置每个模型需要的数据类型、数据指标,设置计算参数,并集成数据预处理方法,依据用户设置自动进行模型数据预处理,将处理后的数据自动生成数据文件分发给模型,大大简化数学模型模拟计算的数据预处理和数据准备工作。本发明方法中的数学模型适用于水环境领域的所有数学模型,能够快速为模型准备好统一、规范化的水质水文气象数据文件,大大减少模型业务人员数据准备和模型数据预处理的工作量。
Description
技术领域
本发明属于水环境技术领域,具体涉及可配置的模型数据自动预处理与分发方法和系统,能自动实现模型数据数据获取、数据预处理、模型数据文件分发,尤其是针对长江中下游地区水环境领域数学模型需要的水质水文气象等边界条件数据的自动分发。
背景技术
水环境领域水质、水动力等数学模型的运行初始场、强迫函数、边界条件、参数集等多涉及水质水文气象观测数据,每个模型运行前都需要依据研究区域范围进行相关数据准备和预处理工作,而这些观测数据来源不同、时空分辨率不一,需要针对不同的模型计算条件进行大量的数据预处理,特别对模型相关管理系统的非专业人员来说数据准备难度大、耗时时间长、驱动效率低,不利于多工况多情景方案生成以及模型快速运行;模型计算需要的各类数据又多是文件格式,每次模型计算情景发生变化,均需要模型人员手动配置大量数据文件,为模型维护带来很大困难;在多个模型集成耦合计算时,各个模型使用不同数据源带来的数据时空尺度不一致等问题,影响模型计算结果的精度。此外,水文气象水质观测类数据获取也较困难,难以收集到需要年份的观测数据,影响模型计算精度。
发明内容
针对上述模型数据源多样、模型数据准备困难等问题,本发明提供了一种可配置的模型数据自动预处理与分发方法和系统,能够为模型自动获取江浙沪水质水文气象数据边界条件,进行数据预处理和数据文件分发,本发明方法适用于水环境领域的需要水质水文气象数据参与计算的所有模型,能够在界面上实现数据自动获取、数据预处理、数据文件生成分发,最大限度减少模型业务人员准备数据工作量。
为实现上述技术目的,本发明采用如下技术方案:
可配置的模型数据自动预处理与分发方法,包括如下步骤:
1)获取自动观测站的观测数据,同步至业务数据库;
2)从业务数据库中选择需要用于模型计算的数据;
3)设置计算的起始时间段以及计算步长;
4)根据数据原始观测频次、计算需要的起始时间段以及步长对数据进行插补;
5)设置分发格式,将数据文件分发给模型。
优选的,所述步骤1)中,观测数据获取方式如下:
a.建立并定义爬虫数据库和业务数据库数据字典映射表,字段包括站点名称、观测指标值和观测时间;
b.获取爬虫数据库表结构;
c.获取爬虫数据库数据;
d.将爬虫数据库数据同步至业务数据库;遍历获取到的爬虫数据库每一条数据,依据主键判断在业务数据库中是否存在该数据,存在的话进行更新,不存在的话进行Append插入。
本发明的方法可利用网络爬虫自动爬取江苏省水利厅水情信息、浙江水利厅发布的实时水雨情、上海水务发布的实时水务、安徽水文遥测发布的水情监测获取水位、降雨数据,从上海水务发布的河道水质、安徽省环保厅发布的实时水质获取逐月的水质数据,从太湖流域管理局获取实时河道流量、引排水量数据。爬取实时数据为模型研发人员自动提供江浙沪皖水质水文气象观测数据,大大节省模型人员在进行模型运算时为数据收集耗费的人力、物力、财力。
作为本发明的进一步优选,所述步骤1)还包括,将业务数据库中所有的观测数据进行空间关联;对点位数据添加空间位置的识别信息,包括所在省份、所在流域、所在湖泊、是否环湖。在选择空间范围后能够自动识别中该空间范围内的所有点位。用户选择所需的空间范围后,即可自由选择需要的点位。
作为本发明的进一步优选,所述步骤2)中,业务数据库在用户交互界面可视化展示,用户在交互界面根据需要选择参与计算的数据类型、参与计算的观测点位、需要的观测指标。
作为本发明的进一步优选,所述步骤4)中,基于数据类型、数据原始观测频次和设置的步长对数据进行预处理,将数据指标分配到设置的步长。包括:
对于水质、水位、流量、潮位、引排水量数据,若原始观测数据观测频次为月,步长为季度,则对各季度月份的观测数据进行平均处理;步长为日,则采用同值的方式处理,即各日数据同月份数据;
对于降雨量、蒸发量数据,若原始数据观测频次为日,计算步长为月、季,则对各日的数据进行加和处理;
选择观测频段为日的气象数据时,则依据不同的指标进行不同的处理:
平均气温、平均风速、平均气压观测指标计算步长为月、季时,观测数据取平均值;
累计降水量、日照时数、小型蒸发量、大型蒸发量观测指标计算步长为月、季时,对观测数据进行加和;
最大风速、最大风速、极大风速、极大风速的风向计算步长为月/季时,为该月/季数据的最大值,最/极大风速的风向为最/极大值对应的风向。
作为本发明的进一步优选,所述步骤(4)中,结合业务数据库中的原始水质水文气象数据和实时获取的观测数据,根据需要进行插值处理。
作为本发明的进一步优选,所述步骤(4)中,针对缺失观测数据的离散点选择资料插补的方法,包括不处理、线性插值、同值或相邻点回归分析;对需要进行空间插值的,生成矩阵网格式文件。
用户选择对离散点进行预处理时,可以选择线性插值,即可使用线性回归(一元一次方程)对观测数据补充前一监测频段或后一监测频段的值;选择同值,即使用缺失数据区间的该前一监测频段或后一监测频段的值来代替,或可使用去年同期的值;选择相邻点回归分析,使用缺失的观测数据区间前n个值和后m个值(n、m大于1),使用拉格朗日插值法,进行多项式回归插值。不同插值方法计算公式如下,插值后结果记为X:
线性插值:使用缺失区间的前后值,进行线性回归插值,X=(A+B)/2(缺失值前一观测频段值为A,后一观测频段值为B);
同值:X=A(缺失值前一观测频段值为A);
相邻点回归分析:使用缺失区间的前n个值和后m个值,使用拉格朗日插值法,进行多项式回归插值,其中n和m至少为1,当n和m都为1时,该方法即退化为线性插值。假设缺失值前n日值为xx,后m日值为yy,则插值为lagrange(xx,yy),其中lagrange算法如下:
作为本发明的进一步优选,所述步骤(4)还包括,将处理后的数据在观测时序上进行延长。使用时间序列之滑动平均模型(Moving average,MA)预测后m个时间段的值。假设缺失值前n日值为xx,预测后m日值,平滑系数为modulus=0.5,则预测值为X=predict(xx,m,modulus)。
作为本发明的进一步优选,所述步骤(4)中,采用空间插值的预处理方式时,先确认插值日期,然后使用克里金插值法对观测点的观测数据进行二维平面空间插值。
使用克里金插值法对监测站的数据进行二维平面空间插值:输入选择时间(某一日)下的监测站的测量指标及测量值,监测站经纬度,二维平面空间横向经度的起点、终点和网格的横向步长,二维平面空间纵向维度的起点、终点和网格的纵向步长(格网文件),输出网格化插值结果的文本格式;或用户输入自定义的格网文件(某个区域平面的网格,如1公里*1公里大小的格网),依据该格网文件空间范围和空间插值结果进行叠加,进而得到格网文件空间上的观测指标插值结果。
克里金插值公式:假设已知n个点数据,其经度为数组x,纬度维数组y,值为数组z,插值区域左上角经纬度为x_start,y_start,左上角经纬度为x_end,y_end,两点之间步长为step_x=(x_end-x_start)/step_x,step_y=(y_end-y_start)/step_y,则预测值X=kriging(x,y,z,param,x_start,x_end,y_start,y_end,step_x,step_y)
作为本发明的进一步优选,所述步骤5)中,系统依据前序步骤的选择和设置,在线实时的对数据进行预处理,处理的离散点资料插补结果根据用户设置的文件格式生成数据文件,并由用户指定存储路径和文件名,提供给模型;空间插值的处理结果则根据空间网格的行列号生成矩阵数据,该矩阵的行列号和用户自定义的格网文件一致,矩阵数据由用户指定存储路径和文件名生成文本文件提供给模型。
本发明的另一目的在于提供一种可配置的模型数据自动预处理分发系统,包括:
数据获取模块;从自动观测站获取观测数据,并同步至本地的业务数据库;
业务数据库;存储获取的观测数据;
数据处理模块;从业务数据库中选择参与计算的数据类型、参与计算的观测点位、需要的观测指标,设置计算的起始时间段以及计算步长,并对数据进行预处理;
数据分发模块;从数据处理模块获取处理完毕的数据,设置分发格式,分发模型数据文件。
作为本发明的进一步优选,数据处理模块针对数据原始观测频次、计算需要的起始时间段以及步长对数据进行预处理,并自动集成了线性插值、同值、相邻点回归分析、时间延长常用的数据处理方法及空间插值克里金算法。模型用户无需额外对数据进行处理,系统自动实现对模型数据的前处理,并能够实现矩阵格网插值,得到矩阵结果,生成文本型或矩阵矢量/栅格格式数据。
本发明的方法和系统基于python、html、数据库技术和控件技术建立,可实现不同数据源水质水文气象数据的自动获取和集成,包括数据实时采集、数据预处理和数据文件分发采用可视化的界面定制方法,能够自动为模型计算提供所需的数据文件,并存放到指定目录,实现模型数据的可获取、可配置、可处理、可分发,大大节省了数据准备和数据预处理的时间,使繁杂的模型数据准备变得简单。本发明方法和系统适用于水环境领域的所有模型,自动采集的江浙沪皖水质水文气象数据能够向其它地区拓展,在界面上实现模型快速数据准备和数据分发,最大限度减少模型业务人员准备数据和预处理的工作量,同时保障了数据的来源统一和保证了计算的精度。
附图说明
图1为本发明方法的流程图。
图2为本发明实施例1方法的数据自动采集任务启动界面。
图3为本发明实施例1方法的水质数据点位选择与参与计算指标选择界面。
图4为本发明实施例1方法的计算参数设置界面。
图5为本发明实施例1方法的预处理方式设置界面。
图6为本发明实施例1方法的“B20#小湾里”水质站数据库原始数据(a)与系统处理后为模型分发的数据(b)对比图。
具体实施方式
下面结合说明书附图和具体的实施例,对本发明作详细描述。
实施例1
本实施例以太湖水质目标模型数据的准备、预处理和分发为例,对本发明的可配置的模型数据自动预处理分发方法和系统进行具体描述。
太湖水质目标模型利用太湖水质和藻类水华暴发规模、频率特征以及相应气象条件等,计算输出太湖不同分区内水质目标,即保证太湖水生态系统稳定的条件下各分区内水体总氮、总磷、氨氮、化学需氧量的目标含量。其需要的数据包括太湖环湖水质数据、太湖出入湖河流水位、流量,太湖风速、风向、气压、降雨量等观测数据。
图1为本发明方法的流程图,以太湖水质目标模型计算2021年太湖水质目标为计算案例:为计算2021年太湖水质目标,需要输入2020年太湖水质数据作为初始数据,2020年太湖气象数据、2020年环湖河道水位数据作为边界条件,空间范围覆盖江苏、浙江、上海。水质水文气象数据库中原始数据记录仅为2011-2014年,本例仅以原始库中输入2014年太湖水质数据说明对2020年数据的获取以及数据的选择、数据预处理和数据分发,包括如下步骤:
步骤一、数据获取
数据获取任务列表中罗列出数据获取的省份、数据类型,监测频次,用户点击操作栏的“启动”,系统自动将网络爬虫实时爬取的爬虫数据库中2020年江苏、浙江、上海两省一市水质站、水文站与气象站观测的水质、水位、流量、降雨、蒸发、潮位、引排水量等不同监测频次的数据进行数据同步至本系统的业务数据库(水质水文气象数据库)中,供用户使用。后台系统实现:
(1)定义爬虫数据库和业务数据库数据字典映射表
dic_sz={'station':'site_name','Oxygen':'do2','Permanganate':'cod','AmmoniaN':'codmn','ph':'ph','time':'time'}
dic_sw={'station':'site_name','waterlevel':'water_level','todaywaterlevel':'water_level','alertwaterlevel':'sw_level1','guarwaterlevel':'sw_level2','variation':'sw_change','gatestate':'status','time':'time'}
dic_js={'station':'site_name','time':'time','precipitation':'precipitation'}
(2)获取爬虫数据库表结构:SQL语句:sql="select table_name,TABLE_ROWSfrom information_schema.tables where table_schema='DataSpider';"
(3)获取爬虫数据库数据read_all(table_name,params):
(4)将爬虫数据库数据同步至业务数据库:遍历获取到的爬虫数据库每一条数据,依据主键判断在业务数据库中是否存在,存在的话进行更新,不存在的话进行Append插入。
步骤二、选择水质数据参与计算;
用户在左侧菜单栏选择水质监测数据,然后选择区域“湖体-太湖湖体”,系统自动关联点位和所选择区域的空间关联关系,在“可选站点”列表框中自动罗列出数据库中太湖湖体范围内所有水质监测点,用户选择所有站点参与计算,所选择的站点罗列在“已选站点”列表框中;继续选择水质监测数据指标,在“未选指标”列表框中勾选所需的监测数据指标,包括站点名称、站点变化、经度、纬度、pH、溶解氧、总氮、总磷、氨氮、硝态氮、亚硝态氮、高锰酸盐指数、悬浮物、叶绿素,上述选择的指标出现在“已选指标”列表框中。
步骤三、设置计算参数;
在时间框中设置数据时间区间,为2020.1.1至2020.12.31,再设置数据观测频次的步长为“日”。
步骤四、设置预处理方式;
鉴于数据库中仅有步骤二所选择站点和观测指标的2011-2014年水质监测数据(监测频率为月)和2020.8月-12月爬虫爬取的数据(观测频次为月、日不等),2020.1月-2020.7月数据缺失,需要依据2014年全年的数据及2020.8月-12月的数据将2020.1月-2020.7月的水质数据插值出来。利用2020.8-12月的数据和2011-2014年全年逐月数据建立相关关系,如2020年月度数据Y2020m=a*(X2011m,X2012m,X2013m,X2014m)+b(m=1,2,3,4,5,6,7),用相关关系补充1-7月份数据。计算步长为日,需要将原始数据插值成日的数据,选中离散点常用的“线性插值方法”将2020年原始数据由月插值到日的数据,插值过程中对pH、溶解氧、总氮、总磷、氨氮、硝态氮、亚硝态氮、化学需氧量、高锰酸盐指数、悬浮物、叶绿所有数据指标进行均值处理分配到日。同时对于某些点某段时间观测数据缺失的情况,勾选时间延长设置延长时间至2020.12.31日。系统按照用户选择的算法,对步骤二所选站点观测数据进行处理,输出为2020.1-12月逐日的数据,处理结果以json格式输出。
步骤五、设置分发格式、分发模型数据文件;
选择分发的数据文件格式为excel,系统自动将步骤二选择的指标作为表头,步骤三输出的json结果作为每一行值写入excel文件;
点击“生成文件”按钮,系统将步骤四生成的excel文件,存放到模型制定的文件路径,分发给模型使用。
Claims (10)
1.一种可配置的模型数据自动预处理与分发方法,其特征在于,包括如下步骤:
1)获取自动观测站的观测数据,同步至业务数据库;
2)从业务数据库中选择需要用于模型计算的数据;
3)设置计算的起始时间段以及计算步长;
4)根据数据原始观测频次、计算需要的起始时间段以及步长对数据进行插补;
5)设置分发格式,将数据文件分发给模型。
2.根据权利要求1所述的方法,其特征在于,所述步骤1)中,观测数据获取方式如下:
a. 建立并定义爬虫数据库和业务数据库数据字典映射表,字段包括站点名称、观测指标值和观测时间;
b. 获取爬虫数据库表结构;
c. 获取爬虫数据库数据;
d. 将爬虫数据库数据同步至业务数据库;遍历获取到的爬虫数据库每一条数据,依据主键判断在业务数据库中是否存在该数据,存在的话进行更新,不存在的话进行Append插入。
3.根据权利要求1所述的方法,其特征在于,所述步骤1)还包括,将业务数据库中所有的观测数据进行空间关联;对点位数据添加空间位置的识别信息,包括所在省份、所在流域、所在湖泊、是否环湖。
4.根据权利要求1所述的方法,其特征在于,所述步骤2)中,业务数据库在用户交互界面可视化展示,用户在交互界面根据需要选择参与计算的数据类型、参与计算的观测点位、需要的观测指标。
5.根据权利要求1所述的方法,其特征在于,所述步骤4)中,基于数据类型、数据原始观测频次和设置的步长对数据进行预处理,将数据指标分配到设置的步长。
6.根据权利要求1或5所述的方法,其特征在于,所述步骤(4)中,针对缺失观测数据的离散点选择资料插补的方法,包括不处理、线性插值、同值或相邻点回归分析;对需要进行空间插值的,生成矩阵网格式文件。
7.根据权利要求1或7所述的方法,其特征在于,所述步骤(4)还包括,将处理后的数据在观测时序上进行延长,使用滑动平均模型预测后m个时间段的值。
8.根据权利要求1所述的方法,其特征在于,所述步骤(4)中,采用空间插值的预处理方式时,先确认插值日期,然后使用克里金插值法对观测点的观测数据进行二维平面空间插值。
9.根据权利要求1所述的方法,其特征在于,所述步骤5)中,处理的离散点资料插补结果根据用户设置的文件格式生成数据文件,并由用户指定存储路径和文件名,提供给模型;空间插值的处理结果则根据空间网格的行列号生成矩阵数据,该矩阵的行列号和用户自定义的格网文件一致,矩阵数据由用户指定存储路径和文件名生成文本文件提供给模型。
10.一种可配置的模型数据自动预处理与分发系统,其特征在于,包括:
数据获取模块;从自动观测站获取观测数据,并同步至本地的业务数据库;
业务数据库;存储获取的观测数据;
数据处理模块;从业务数据库中选择参与计算的数据类型、参与计算的观测点位、需要的观测指标,设置计算的起始时间段以及计算步长,并对数据进行预处理;
数据分发模块;从数据处理模块获取处理完毕的数据,设置分发格式,分发模型数据文件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011584391.8A CN112699287B (zh) | 2020-12-28 | 2020-12-28 | 可配置的模型数据自动预处理与分发方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011584391.8A CN112699287B (zh) | 2020-12-28 | 2020-12-28 | 可配置的模型数据自动预处理与分发方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112699287A true CN112699287A (zh) | 2021-04-23 |
CN112699287B CN112699287B (zh) | 2024-02-20 |
Family
ID=75513065
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011584391.8A Active CN112699287B (zh) | 2020-12-28 | 2020-12-28 | 可配置的模型数据自动预处理与分发方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112699287B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116069783A (zh) * | 2023-01-13 | 2023-05-05 | 珠江水文水资源勘测中心 | 水文数据处理方法、装置、计算机设备及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106227660A (zh) * | 2016-07-21 | 2016-12-14 | 中国科学院计算技术研究所 | 一种用于模拟真实物理环境的仿真数据生成方法 |
CN106648677A (zh) * | 2016-12-28 | 2017-05-10 | 中国科学院南京地理与湖泊研究所 | 一种水环境领域模型集成模板的可视化定制方法 |
CN106649734A (zh) * | 2016-12-23 | 2017-05-10 | 中国科学院南京地理与湖泊研究所 | 一种模型可配置的水质目标管理方法和系统 |
CN107340365A (zh) * | 2017-06-19 | 2017-11-10 | 中国科学院南京地理与湖泊研究所 | 一种面向湖泊蓝藻灾害的立体监控及数据挖掘系统和方法 |
CN108222082A (zh) * | 2018-01-09 | 2018-06-29 | 中南大学 | 多含水层条件下基坑动态降水室内模型试验方法及装置 |
US20180224415A1 (en) * | 2017-02-08 | 2018-08-09 | International Business Machines Corporation | Multi-Source Data Assimilation for Three-Dimensional Environmental Monitoring |
CN109063905A (zh) * | 2018-07-20 | 2018-12-21 | 北京师范大学 | 一种适应气候变化的水资源随机规划方法 |
CN109417595A (zh) * | 2016-06-09 | 2019-03-01 | 斯凯开驰有限公司 | 利用实时动态卫星导航识别飞行中的uav的摄像机位置 |
CN111158656A (zh) * | 2019-12-31 | 2020-05-15 | 中国银行股份有限公司 | 基于因果树法的测试代码生成方法及装置 |
-
2020
- 2020-12-28 CN CN202011584391.8A patent/CN112699287B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109417595A (zh) * | 2016-06-09 | 2019-03-01 | 斯凯开驰有限公司 | 利用实时动态卫星导航识别飞行中的uav的摄像机位置 |
CN106227660A (zh) * | 2016-07-21 | 2016-12-14 | 中国科学院计算技术研究所 | 一种用于模拟真实物理环境的仿真数据生成方法 |
CN106649734A (zh) * | 2016-12-23 | 2017-05-10 | 中国科学院南京地理与湖泊研究所 | 一种模型可配置的水质目标管理方法和系统 |
CN106648677A (zh) * | 2016-12-28 | 2017-05-10 | 中国科学院南京地理与湖泊研究所 | 一种水环境领域模型集成模板的可视化定制方法 |
US20180224415A1 (en) * | 2017-02-08 | 2018-08-09 | International Business Machines Corporation | Multi-Source Data Assimilation for Three-Dimensional Environmental Monitoring |
CN107340365A (zh) * | 2017-06-19 | 2017-11-10 | 中国科学院南京地理与湖泊研究所 | 一种面向湖泊蓝藻灾害的立体监控及数据挖掘系统和方法 |
CN108222082A (zh) * | 2018-01-09 | 2018-06-29 | 中南大学 | 多含水层条件下基坑动态降水室内模型试验方法及装置 |
CN109063905A (zh) * | 2018-07-20 | 2018-12-21 | 北京师范大学 | 一种适应气候变化的水资源随机规划方法 |
CN111158656A (zh) * | 2019-12-31 | 2020-05-15 | 中国银行股份有限公司 | 基于因果树法的测试代码生成方法及装置 |
Non-Patent Citations (4)
Title |
---|
TAO CHEN等: "comparison of spatial interpolation schemes for rainfall data and application in Hydrological modeling", WATER, vol. 9, no. 5, 11 May 2017 (2017-05-11), pages 342 * |
刘奇: "水环境容量与水质模型研究综述", 中国水运.航道科技, no. 1, 20 February 2018 (2018-02-20), pages 33 - 39 * |
成建国;冯钧;杨鹏;唐志贤;: "水利数据资源目录服务关键技术研究", 水利信息化, no. 06, 25 December 2014 (2014-12-25), pages 18 - 21 * |
王赵飞等: "巢湖流域非点源颗粒态磷负荷的空间差异及关键影响因子研究", 农业环境科学学报, vol. 38, no. 3, 20 March 2019 (2019-03-20), pages 659 - 670 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116069783A (zh) * | 2023-01-13 | 2023-05-05 | 珠江水文水资源勘测中心 | 水文数据处理方法、装置、计算机设备及存储介质 |
CN116069783B (zh) * | 2023-01-13 | 2023-08-18 | 珠江水文水资源勘测中心 | 水文数据处理方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112699287B (zh) | 2024-02-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111859800B (zh) | 用于pm2.5浓度分布的时空估算和预测方法 | |
CN114443982B (zh) | 一种大区域土壤重金属检测与时空分布特征分析方法及系统 | |
CN109558973B (zh) | 一种水质与水生态一体化预警系统、控制设备和存储介质 | |
CN105912836B (zh) | 一种纯遥感数据驱动的流域水循环模拟方法 | |
Li et al. | Effects of temperature change on water discharge, and sediment and nutrient loading in the lower Pearl River basin based on SWAT modelling | |
CN110887790B (zh) | 基于fvcom和遥感反演的城市湖泊富营养化模拟方法和系统 | |
Raneesh et al. | A study on the impact of climate change on streamflow at the watershed scale in the humid tropics | |
CN101916337B (zh) | 一种基于地理信息系统的水稻生产潜力动态预测方法 | |
CN102135531A (zh) | 大型浅水湖泊72小时蓝藻水华预测方法 | |
CN107316095A (zh) | 一种耦合多源数据的区域气象干旱等级预测方法 | |
CN104239706A (zh) | 一种地面观测气温时空数据集的制备方法 | |
CN109101781A (zh) | 一种复杂河网中污染源贡献比例的计算方法 | |
CN113065090B (zh) | 一种区域农田灌溉用水量分析计算方法 | |
CN102722766A (zh) | 基于修订的区域气候模式数据的小麦产量预测方法 | |
CN114254802B (zh) | 气候变化驱动下植被覆盖时空变化的预测方法 | |
CN114881544B (zh) | 一种水库流量调控方法、装置、电子设备及存储介质 | |
CN108764527B (zh) | 一种土壤有机碳库时空动态预测最优环境变量筛选方法 | |
Fang et al. | Climate-dependence of ecosystem services in a nature reserve in northern China | |
CN114169161A (zh) | 一种土壤有机碳时空变异和固碳潜力估计方法和系统 | |
Desclaux et al. | Suitability of a lumped rainfall–runoff model for flashy tropical watersheds in New Caledonia | |
CN112699287B (zh) | 可配置的模型数据自动预处理与分发方法和系统 | |
CN113780826B (zh) | 基于长江流域水环境模型的集成及可视化决策分析方法 | |
CN110263293A (zh) | 一种基于小波变换和联合概率分布的水文预报方法 | |
CN101276446B (zh) | 一种区域作物需水量测算方法 | |
CN116502050A (zh) | 全球通量站点蒸散发观测缺失的动态插补方法与系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |