CN112233734B - 基于机器学习的水质数据推演获取方法及系统 - Google Patents

基于机器学习的水质数据推演获取方法及系统 Download PDF

Info

Publication number
CN112233734B
CN112233734B CN202011060312.3A CN202011060312A CN112233734B CN 112233734 B CN112233734 B CN 112233734B CN 202011060312 A CN202011060312 A CN 202011060312A CN 112233734 B CN112233734 B CN 112233734B
Authority
CN
China
Prior art keywords
water quality
data
factor
deduction
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011060312.3A
Other languages
English (en)
Other versions
CN112233734A (zh
Inventor
程杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202011060312.3A priority Critical patent/CN112233734B/zh
Publication of CN112233734A publication Critical patent/CN112233734A/zh
Application granted granted Critical
Publication of CN112233734B publication Critical patent/CN112233734B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/18Water
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/90Programming languages; Computing architectures; Database systems; Data warehousing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medicinal Chemistry (AREA)
  • Analytical Chemistry (AREA)
  • Food Science & Technology (AREA)
  • Pathology (AREA)
  • Biochemistry (AREA)
  • Immunology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本申请公开了基于机器学习的水质数据推演获取方法及系统,此方法分为模型生成阶段和模型推演阶段。在模型生成阶段,将所研究水域的各监测站位所采集的各类特征的历史数据进行分析处理,得到目标水质因子的独立相关特征集及其对应的历史数据集,基于此数据集,通过机器学习方法获得目标水质因子的最优推演模型;在模型推演阶段,采集独立相关特征集所涵盖的各特征因子某时段的数据,将此数据输入最优推演模型,推算出该时段目标水质因子的数据。本申请是一种无需经过化学试剂和传感器检测等传统数据采集方式的新型的水质数据获取方法,可减少因传统水质数据采集方式所造成的环境污染和危险隐患,具有成本低、安全环保和高技术附加值等优点。

Description

基于机器学习的水质数据推演获取方法及系统
技术领域
本申请涉及水质监测数据获取和数据科学技术领域,特别是涉及基于机器学习的水质数据推演获取方法及系统。
背景技术
本部分的陈述仅仅是提到了与本申请相关的背景技术,并不必然构成现有技术。
目前,水质数据,如海域、河流、湖泊等水域的生物、化学、水文等特征数据,其采集主要使用取样分析测定和传感器检测等方式。取样分析,如化学试剂、光学法、离子法等,需要仪器、试剂和人力的投入,而水质传感器的购置、部署和维护成本也很高。由于水域范围广大,水质数据的获取通常需要广泛布点和周期采集,同时,有些水质数据的获取还存在着污染环境和危险因素,因此,获取水质数据的综合成本一直很高。
发明内容
为了解决现有技术的不足,本申请提供了基于机器学习的水质数据推演获取方法及系统;将所研究水域的各监测点位所采集的各类特征历史数据,如:时间、空间、物理、化学、生物、水文、气象、陆源信息等,进行分析处理,通过机器学习方法获得目标水质因子的推演模型。根据此推演模型,由已知特征数据集推算出目标水质数据。
第一方面,本申请提供了基于机器学习的水质数据推演获取方法;
基于机器学习的水质数据推演获取方法,包括:模型生成阶段和数据推演阶段;
模型生成阶段,采用机器学习方法,生成目标水质因子的独立相关特征集和最优推演模型;
数据推演阶段,将独立相关特征集所涵盖的各水质因子某时段的数据集输入最优推演模型,推算出当前时段的目标水质因子数据。
第二方面,本申请提供了基于机器学习的水质数据推演获取系统;
基于机器学习的水质数据推演获取系统,包括:模型生成模块和数据推演模块;
模型生成模块,其被配置为:采用机器学习方法,生成目标水质因子的独立相关特征集和最优推演模型;
数据推演模块,其被配置为:将独立相关特征集所涵盖的各水质因子某时段的数据集输入最优推演模型,推算出当前时段的目标水质因子数据。
第三方面,本申请还提供了一种电子设备,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述第一方面所述的方法。
第四方面,本申请还提供了一种计算机可读存储介质,用于存储第二方面所述系统程序和数据,所述系统程序和数据被处理器运行时,完成第一方面所述的方法。
第五方面,本申请还提供了一种计算机程序(产品),包括计算机程序,所述计算机程序当在一个或多个处理器上运行的时候用于实现前述第一方面任意一项的方法。
与现有技术相比,本申请的有益效果是:
本申请提供了一种无需经过取样分析和传感器检测等传统数据采集方式的新型的水质数据获取方法,此方法无需购买设备、试剂,无需进行采样分析,也无需购买、布设、维护水质传感器,因而极大降低水质数据的获取成本。
此方法因无需经过实地取样和化学分析,因而可减少因传统水质数据采集方式所造成的危险隐患和环境污染,是一种成本低、安全环保、且具有高技术附加值的数据获取方法。
此方法基于机器学习,充分利用已有样本数据集推算出未知水质数据,且推算准确率随着历史数据量的增大而提升,因而极大地提高了已有水质监测数据的利用率。
此方法还可以推广到土壤、大气等应用领域,用于这些领域中部分监测特征数据的推演获取。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1为本申请所述方法主要步骤流程示意图;
图2为本申请所述方法策略示意图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
对于稳定的水域环境,如近岸海域、河流、湖泊等,其各类水质特征,如:时间、空间、化学、生物、物理、水文、气象以及陆源信息等,存在着复杂且稳定的关联,基于机器学习方法,通过对上述特征历史数据集进行训练、测试可获得此关联模型;根据此关联模型,可由已知的特征数据推演出某些未知的特征数据,本申请称这种数据获取方式为推演获取。推演获取是一种无需经过取样分析和传感器检测等传统方式的新型的水质数据获取方法,可用于某些高成本水质数据的获取,具有成本低、安全环保和高技术附加值等优点。
值得说明的是,水质数据推演获取不同于水质数据预测。水质数据预测是根据当前时段的数据来测算未来时间的数据,是一种水质数据的预报预警技术,例如:根据本月的各类水质特征数据推算下个月的溶解氧数据,其推算通常需要本月的溶解氧数据;而推演获取是一种数据获取技术,是根据当前时段已知水质特征数据推算当前时段的未知特征数据,例如:根据本月已知的多类水质特征数据推算本月的溶解氧数据,其中,已知特征数据中不含溶解氧。
实施例一
本实施例提供了基于机器学习的水质数据推演获取方法;
如图1和图2所示,基于机器学习的水质数据推演获取方法,包括:模型生成阶段和数据推演阶段;
模型生成阶段,采用机器学习方法,生成目标水质因子的独立相关特征集和最优推演模型;
数据推演阶段,将独立相关特征集所涵盖的各水质因子某时段的数据集输入最优推演模型,推算出当前时段的目标水质因子数据。
进一步地,所述模型生成阶段,包括以下步骤:
S1-1:确定研究水域E和目标水质因子x,获取水域E的各监测站位水质监测历史数据集W;
S1-2:对历史数据集W进行处理,得到处理后的数据集W*;基于处理后的数据集W*,构造目标水质因子x的独立相关特征集R;
S1-3:采用机器学习方法,基于独立相关特征集R,获得目标水质因子x的最优推演模型m*
进一步地,所述数据推演阶段,包括以下步骤:
S2-1:在水域E,采集独立相关特征集R所涵盖的各特征因子某时段的数据集G;
S2-2:将数据集G输入最优推演模型m*,推算出该时段目标水质因子x的数值。
所述步骤S1-1中,所述水质监测历史数据集W,包括:时间、空间、物理、化学、生物、水文、气象、陆源等特征数据,其中每一类特征包括多种特征因子;
例如:时间特征包括:采集季节、日期、时间等特征因子;空间特征包括:水质监测站位的经度、纬度、采样深度等特征因子;化学特征包括:溶解氧浓度、化学需氧量、硝酸盐浓度、亚硝酸盐浓度、氨盐浓度、溶解无机氮浓度、溶解无机磷浓度、溶解无机硅浓度、pH值、盐度、石油浓度等特征因子。
所述步骤S1-2中,对数据集W进行处理,是指包括:数据去重、数据下采样、数据插补、特征构造、数据归一化、数据重组等步骤的处理过程;
所述步骤S1-2中,所述目标水质因子x的独立相关特征集R,是指满足以下条件的特征因子的集合:
条件1:R为W*所对应的特征因子集合的子集,且
Figure BDA0002712205640000051
条件2:对任意特征因子r∈R,r与目标水质因子x的相关性大于预设的阈值PA
条件3:对任意两个特征因子ri,rj∈R,ri与rj的相关性小于预设的阈值PB
上述条件中,条件1和条件2为必要条件,条件3为优化条件。
进一步地,若目标水质因子x存在核心关联因子集S,则增加必要条件:
条件4:存在核心关联因子y∈S,且
Figure BDA0002712205640000052
所述目标水质因子x的核心关联因子集,是指,若存在特征因子集合S,满足以下3个条件:
(1)S为W*所对应的特征因子集合的子集;
(2)对任意特征因子y∈S,y与目标水质因子x的相关性大于预设的阈值PC
(3)由S中所有特征因子通过数学计算可直接得到目标水质因子x的数值;则S即为目标水质因子x的核心关联因子集;S中的每个元素皆为目标水质因子x的核心关联因子。
所述步骤S1-3,包括以下步骤:
S1-3-1:根据独立相关特征集R,在所述数据集W*中分出R所对应的历史数据集
Figure BDA0002712205640000061
S1-3-2:选取学习器模型集M={m1,m2,…,mk},k为选取的学习器模型数量;
S1-3-3:将所述历史数据集
Figure BDA0002712205640000062
及水质因子x的历史数据划分训练集、验证集和测试集,对模型集M中各学习器分别进行模型训练、测试、评价,得到最优目标模型m*
所述步骤S2-2中,数据集G在输入模型m*之前,可进行必要的预处理。
所述步骤S1-3-3中,划分训练集、验证集和测试集采用随机划分、根据时间段划分、或者根据空间分布划分;所述评价,是指对各模型使用拟合优度、平均绝对误差、均方根误差等指标进行评价,并通过对比评价指标数值选取最优模型m*
所述步骤S1-3-3中,水质因子x的历史数据用来对模型进行验证。
以某水域溶解无机氮(DIN)的推演获取为例,说明如下:
由于DIN浓度=硝酸盐浓度+亚硝酸盐浓度+铵盐浓度,因此集合:{硝酸盐浓度,硝酸盐浓度,铵盐浓度}即为DIN的核心关联因子集,按照独立相关特征集的构造条件,本例在构造DIN的独立相关特征集时,选取硝酸盐浓度和铵盐浓度两个核心关联因子,使其不含在DIN的独立相关特征集中,即:本例用于解释,在不提供亚硝酸盐和铵盐浓度的条件下,如何推演获取DIN浓度数据。
推演步骤如下:
1.模型生成阶段:
步骤1-1:确定研究水域,设定目标水质因子为溶解无机氮浓度DIN,获取该水域的各监测站位水质监测历史数据集W,包括:时间、空间、化学、物理、生物、水文、气象、陆源等特征数据;
步骤1-2:包括以下步骤:
对数据集W进行数据去重、数据下采样、数据插补、特征构造、数据归一化、数据重组等处理过程,得到处理后的历史数据集W*
基于历史数据集W*,根据相关性计算、选取等步骤,得到DIN的独立相关特征集R,R包含:样本采集时间、季节、站位经度、纬度、样本采集深度、硝酸盐浓度、溶解无机磷浓度、溶解无机硅浓度、化学需氧量、溶解氧浓度、石油浓度、pH值、盐度、透明度、水色、海况、海域功能、陆源排污量等特征因子,但不含亚硝酸盐和铵盐浓度;
根据独立相关特征集R和数据集W*,得到R所对应的历史数据集
Figure BDA0002712205640000071
步骤1-3:选取学习器模型集M={XGBoost,AdaBoost,lightGBM,MLP},将独立相关特征集R所对应的历史数据集
Figure BDA0002712205640000072
及水质因子x的历史数据划分训练集、验证集和测试集,对模型集M中各学习器分别进行模型训练、测试,根据R2和MAE等指标进行评价,得到最优目标模型为基于XGBoost的最优推演模型m*
2.数据推演阶段:
步骤2-1:在当前水域,根据独立相关特征集R,采集当前时段R所对应的各特征因子数据集G;
步骤2-2:将数据集G输入最优推演模型m*,推算出该时段的DIN数值。
由上述实施例可以看出,本申请所述方法是一种无需经过化学试剂和传感器检测等传统数据采集方式的新型的水质数据获取方法,可减少因传统水质数据采集方式所造成的环境污染和危险隐患,具有成本低、安全环保和高技术附加值等优点。
实施例二
本实施例提供了基于机器学习的水质数据推演获取系统;
基于机器学习的水质数据推演获取系统,包括:模型生成模块和数据推演模块;
模型生成模块,其被配置为:采用机器学习方法,生成目标水质因子的独立相关特征集和最优推演模型;
数据推演模块,其被配置为:将独立相关特征集所涵盖的各水质因子某时段的数据集输入最优推演模型,推算出当前时段的目标水质。
此处需要说明的是,上述模型生成模块和数据推演模块对应于实施例一中的模型生成阶段和数据推演阶段,上述模块与对应的阶段所实现的示例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
上述实施例中对各个实施例的描述各有侧重,某个实施例中没有详述的部分可以参见其他实施例的相关描述。
所提出的系统,可以通过其他的方式实现。以上所描述的系统实施例仅仅是示意性的,例如上述模块的划分,仅仅为一种逻辑功能划分,实际实现时,可以有另外的划分方式,例如多个模块可以结合或者可以集成到另外一个系统,或一些特征可以忽略,或不执行。
实施例三
本实施例还提供了一种电子设备,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序及数据被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述实施例一所述的方法。
应理解,本实施例中,处理器可以是中央处理单元CPU,处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC,现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。
在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。
实施例一中的方法可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
本领域普通技术人员可以意识到,结合本实施例描述的各示例的单元及算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
实施例四
本实施例还提供了一种计算机可读存储介质,用于存储计算机指令和数据,所述计算机指令被处理器执行时,完成实施例一所述的方法。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (7)

1.基于机器学习的水质数据推演获取方法,其特征是,包括:模型生成阶段和数据推演阶段;
模型生成阶段,采用机器学习方法,生成目标水质因子的独立相关特征集和最优推演模型;
所述模型生成阶段,包括以下步骤:
S1-1:确定研究水域E和目标水质因子x,获取水域E的各监测站位水质监测历史数据集W;
S1-2:对历史数据集W进行处理,得到处理后的数据集W*;基于处理后的数据集W*,构造目标水质因子x的独立相关特征集R;
S1-3:采用机器学习方法,基于独立相关特征集R,获得目标水质因子x的最优推演模型m*
数据推演阶段,将独立相关特征集所涵盖的各水质因子某时段的数据集输入最优推演模型,推算出当前时段的目标水质因子数据;
所述数据推演阶段,包括以下步骤:
S2-1:在水域E,采集独立相关特征集R所涵盖的各特征因子某时段的数据集G;
S2-2:将数据集G输入最优推演模型m*,推算出该时段水质因子x的数值;
所述独立相关特征集,是指满足以下条件的特征因子的集合:
条件1:R为W*所对应的特征因子集合的子集,且
Figure FDA0003617512770000011
条件2:对任意特征因子r∈R,r与目标水质因子x的相关性大于预设的阈值PA
条件3:对任意两个特征因子ri,rj∈R,ri与rj的相关性小于预设的阈值PB
上述条件中,条件1和条件2为必要条件,条件3为优化条件;
进一步地,若目标水质因子x存在核心关联因子集S,则增加必要条件:
条件4:存在核心关联因子y∈S,且
Figure FDA0003617512770000021
所述目标水质因子x的核心关联因子集,是指,若存在特征因子集合S,满足以下3个条件:
(1)S为W*所对应的特征因子集合的子集;
(2)对任意特征因子y∈S,y与目标水质因子x的相关性大于预设的阈值PC
(3)由S中所有特征因子通过数学计算可直接得到目标水质因子x的数值;则,S即为目标水质因子x的核心关联因子集;S中的每个元素皆为目标水质因子x的核心关联因子。
2.如权利要求1所述的基于机器学习的水质数据推演获取方法,其特征是,
对历史数据集W进行处理,是指包括:数据去重、数据下采样、数据插补、特征构造、数据归一化、数据重组步骤的处理过程。
3.如权利要求1所述的基于机器学习的水质数据推演获取方法,其特征是,
采用机器学习方法,基于独立相关特征集R,获得目标水质因子x的最优推演模型m*,包括以下步骤:
S1-3-1:根据独立相关特征集R,在所述数据集W*中分出R所对应的历史数据集
Figure FDA0003617512770000022
S1-3-2:选取学习器模型集M={m1,m2,…,mk},k为选取的学习器模型数量;
S1-3-3:将所述历史数据集
Figure FDA0003617512770000023
及水质因子x的历史数据划分训练集、验证集和测试集,对模型集M中各学习器分别进行模型训练、测试、评价,得到最优目标模型m*
4.如权利要求3所述的基于机器学习的水质数据推演获取方法,其特征是,
所述步骤S1-3-3中,划分训练集、验证集和测试集采用随机划分、根据时间段划分、或者根据空间分布划分;所述评价,是指对各模型使用拟合优度、平均绝对误差、均方根误差指标进行评价,并通过对比评价指标数值选取最优模型m*
5.基于机器学习的水质数据推演获取系统,其特征是,包括:模型生成模块和数据推演模块;
模型生成模块,其被配置为:采用机器学习方法,生成目标水质因子的独立相关特征集和最优推演模型;
所述模型生成阶段,包括以下步骤:
S1-1:确定研究水域E和目标水质因子x,获取水域E的各监测站位水质监测历史数据集W;
S1-2:对历史数据集W进行处理,得到处理后的数据集W*;基于处理后的数据集W*,构造目标水质因子x的独立相关特征集R;
S1-3:采用机器学习方法,基于独立相关特征集R,获得目标水质因子x的最优推演模型m*
数据推演模块,其被配置为:将独立相关特征集所涵盖的各水质因子某时段的数据集输入最优推演模型,推算出当前时段的目标水质因子的数据;
所述数据推演阶段,包括以下步骤:
S2-1:在水域E,采集独立相关特征集R所涵盖的各特征因子某时段的数据集G;
S2-2:将数据集G输入最优推演模型m*,推算出该时段水质因子x的数值;
所述独立相关特征集,是指满足以下条件的特征因子的集合:
条件1:R为W*所对应的特征因子集合的子集,且
Figure FDA0003617512770000041
条件2:对任意特征因子r∈R,r与目标水质因子x的相关性大于预设的阈值PA
条件3:对任意两个特征因子ri,rj∈R,ri与rj的相关性小于预设的阈值PB
上述条件中,条件1和条件2为必要条件,条件3为优化条件;
进一步地,若目标水质因子x存在核心关联因子集S,则增加必要条件:
条件4:存在核心关联因子y∈S,且
Figure FDA0003617512770000042
所述目标水质因子x的核心关联因子集,是指,若存在特征因子集合S,满足以下3个条件:
(1)S为W*所对应的特征因子集合的子集;
(2)对任意特征因子y∈S,y与目标水质因子x的相关性大于预设的阈值PC
(3)由S中所有特征因子通过数学计算可直接得到目标水质因子x的数值;则,S即为目标水质因子x的核心关联因子集;S中的每个元素皆为目标水质因子x的核心关联因子。
6.一种电子设备,其特征是,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述权利要求1-4任一项所述的方法。
7.一种计算机可读存储介质,其特征是,用于存储计算机指令和数据,所述计算机指令被处理器执行时,完成权利要求1-4任一项所述的方法。
CN202011060312.3A 2020-09-30 2020-09-30 基于机器学习的水质数据推演获取方法及系统 Active CN112233734B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011060312.3A CN112233734B (zh) 2020-09-30 2020-09-30 基于机器学习的水质数据推演获取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011060312.3A CN112233734B (zh) 2020-09-30 2020-09-30 基于机器学习的水质数据推演获取方法及系统

Publications (2)

Publication Number Publication Date
CN112233734A CN112233734A (zh) 2021-01-15
CN112233734B true CN112233734B (zh) 2022-07-19

Family

ID=74120148

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011060312.3A Active CN112233734B (zh) 2020-09-30 2020-09-30 基于机器学习的水质数据推演获取方法及系统

Country Status (1)

Country Link
CN (1) CN112233734B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112506116B (zh) * 2021-02-04 2021-06-01 康玄谷(北京)国际生物科技有限公司 一种基于矿物质水的信息分析系统及方法
CN113420497B (zh) * 2021-06-01 2024-04-19 中国科学院南京地理与湖泊研究所 浑浊湖泊总磷浓度遥感估算方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107203810A (zh) * 2017-05-22 2017-09-26 河海大学 一种基于深度网络的降水量预测方法
CN107451703A (zh) * 2017-08-31 2017-12-08 杭州师范大学 一种基于因子图模型的社交网络多任务预测方法
CN107480775A (zh) * 2017-08-14 2017-12-15 中国水产科学研究院淡水渔业研究中心 一种基于数据修复的池塘溶解氧预测方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105022798A (zh) * 2015-06-30 2015-11-04 北京邮电大学 一种基于预测关系的离散贝叶斯网络分类数据挖掘方法
US10837895B2 (en) * 2018-01-08 2020-11-17 A. O. Smith Corporation Electrochemical analysis device for reagentless detection
CN109117864B (zh) * 2018-07-13 2020-02-28 华南理工大学 基于异构特征融合的冠心病风险预测方法、模型及系统
CN110472288B (zh) * 2019-07-17 2022-12-13 武汉科技大学 一种螺栓力矩衰减的预测方法、系统、装置和介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107203810A (zh) * 2017-05-22 2017-09-26 河海大学 一种基于深度网络的降水量预测方法
CN107480775A (zh) * 2017-08-14 2017-12-15 中国水产科学研究院淡水渔业研究中心 一种基于数据修复的池塘溶解氧预测方法
CN107451703A (zh) * 2017-08-31 2017-12-08 杭州师范大学 一种基于因子图模型的社交网络多任务预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于贝叶斯网络的水质评价及水质因子关联性分析;谢小慧;《万方数据库》;20200402;论文第38-43页 *

Also Published As

Publication number Publication date
CN112233734A (zh) 2021-01-15

Similar Documents

Publication Publication Date Title
CN110110466B (zh) 一种机器学习和工艺仿真的污水处理目标参数预测方法
Birkel et al. Integrating parsimonious models of hydrological connectivity and soil biogeochemistry to simulate stream DOC dynamics
CN112233734B (zh) 基于机器学习的水质数据推演获取方法及系统
CN104899473A (zh) 一种河流断面退化评价方法
CN110889196B (zh) 基于水质模型的水环境承载力评估方法、装置及存储介质
CN111879915B (zh) 一种滨海湿地高分辨率的逐月土壤盐度监测方法及系统
Piccioni et al. The thermal response of small and shallow lakes to climate change: new insights from 3D hindcast modelling
CN103198215A (zh) 一种基于差异进化支持向量机的坑外土体沉降预测方法
Zhu et al. A hybrid decomposition and Machine learning model for forecasting Chlorophyll-a and total nitrogen concentration in coastal waters
Chen et al. Urban river water quality monitoring based on self-optimizing machine learning method using multi-source remote sensing data
Ascione Kenov et al. Advances in modeling of water quality in estuaries
CN113821925A (zh) 一种基于水生土三要素的湿地动态边界确定方法
Huang et al. Seasonal dynamics of chromophoric dissolved organic matter in Poyang Lake, the largest freshwater lake in China
CN108959741A (zh) 一种基于海洋物理生态耦合模型的参数优化方法
Kovács et al. The role of annual periodic behavior of water quality parameters in primary production–Chlorophyll-a estimation
Pinto-Coelho et al. Effects of sampling effort on the estimation of spatial gradients in a tropical reservoir impacted by an oil refinery
Nash et al. Modelling phytoplankton dynamics in a complex estuarine system
Barclay et al. Where groundwater seeps: Evaluating modeled groundwater discharge patterns with thermal infrared surveys at the river-network scale
Zongo et al. Scaling properties of pH fluctuations in coastal waters of the English Channel: pH as a turbulent active scalar
Zhang et al. Numerical modelling of storm surge, nutrient pollution and saltwater intrusion in a large estuary with typhoon effects
Wen et al. Optimizing spatial interpolation method and sampling number for predicting cadmium distribution in the largest shallow lake of North China
CN114022008A (zh) 一种基于水生态分区理论的河口适宜生态流量评估方法
Polnikov et al. Estimation of extreme wind speeds and wave heights along the regional waters of India
Liu et al. Artificial neural network and random forest approaches for modeling of sea surface salinity
Zhu et al. Robust remote sensing retrieval of key eutrophication indicators in coastal waters based on explainable machine learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant