CN113160903A - 一种基于迁移学习的硝酸盐浓度预测模型泛化方法 - Google Patents
一种基于迁移学习的硝酸盐浓度预测模型泛化方法 Download PDFInfo
- Publication number
- CN113160903A CN113160903A CN202110443731.3A CN202110443731A CN113160903A CN 113160903 A CN113160903 A CN 113160903A CN 202110443731 A CN202110443731 A CN 202110443731A CN 113160903 A CN113160903 A CN 113160903A
- Authority
- CN
- China
- Prior art keywords
- visible spectrum
- ultraviolet
- spectrum data
- prediction model
- nitrate concentration
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 229910002651 NO3 Inorganic materials 0.000 title claims abstract description 40
- NHNBFGGVMKEFGY-UHFFFAOYSA-N Nitrate Chemical compound [O-][N+]([O-])=O NHNBFGGVMKEFGY-UHFFFAOYSA-N 0.000 title claims abstract description 40
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000013526 transfer learning Methods 0.000 title claims abstract description 20
- 238000012360 testing method Methods 0.000 claims abstract description 16
- 238000012549 training Methods 0.000 claims abstract description 15
- 238000013507 mapping Methods 0.000 claims abstract description 9
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 238000002371 ultraviolet--visible spectrum Methods 0.000 claims description 37
- 238000001228 spectrum Methods 0.000 claims description 16
- 238000013508 migration Methods 0.000 claims description 11
- 230000005012 migration Effects 0.000 claims description 11
- 238000005457 optimization Methods 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 abstract description 21
- 230000003595 spectral effect Effects 0.000 abstract description 8
- 238000004458 analytical method Methods 0.000 description 7
- 239000000126 substance Substances 0.000 description 5
- 239000003153 chemical reaction reagent Substances 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 239000011259 mixed solution Substances 0.000 description 3
- 238000004445 quantitative analysis Methods 0.000 description 3
- CLBRCZAHAHECKY-UHFFFAOYSA-N [Co].[Pt] Chemical compound [Co].[Pt] CLBRCZAHAHECKY-UHFFFAOYSA-N 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000002211 ultraviolet spectrum Methods 0.000 description 2
- 238000001429 visible spectrum Methods 0.000 description 2
- 238000002835 absorbance Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 229910052793 cadmium Inorganic materials 0.000 description 1
- BDOSMKKIYDKNTQ-UHFFFAOYSA-N cadmium atom Chemical compound [Cd] BDOSMKKIYDKNTQ-UHFFFAOYSA-N 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012851 eutrophication Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000004255 ion exchange chromatography Methods 0.000 description 1
- 150000002500 ions Chemical class 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 150000002823 nitrates Chemical class 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 239000002244 precipitate Substances 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000000243 solution Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/30—Prediction of properties of chemical compounds, compositions or mixtures
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/17—Systems in which incident light is modified in accordance with the properties of the material investigated
- G01N21/25—Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
- G01N21/31—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C10/00—Computational theoretical chemistry, i.e. ICT specially adapted for theoretical aspects of quantum chemistry, molecular mechanics, molecular dynamics or the like
Landscapes
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Biochemistry (AREA)
- General Physics & Mathematics (AREA)
- Immunology (AREA)
- Pathology (AREA)
- Crystallography & Structural Chemistry (AREA)
- Investigating Or Analysing Materials By Optical Means (AREA)
Abstract
本发明涉及一种水体中硝酸盐浓度预测模型搭建方法,具体为一种基于迁移学习的硝酸盐浓度预测模型泛化方法。解决使用同一硝酸盐浓度预测模型时,因光谱数据采集环境或水质不同而导致的模型失效或预测精度下降的问题,首先对测得的源域数据和目标域数据进行预处理,再通过迁移学习的方法对其进行光谱特征映射,分别计算得到迁移后的源域数据和目标域数据,并将其分别划分为训练集和测试集。使用训练集样本数据进行偏最小二乘PLS建模,使用所建模型对测试集样本数据进行预测。有效改善了在不同环境下获取的样本使用原模型预测时的模型失效问题,提升了硝酸盐浓度预测精度,增强了硝酸盐浓度预测模型在不同环境下的泛化能力。
Description
技术领域
本发明涉及一种水体中硝酸盐浓度预测模型搭建方法,具体为一种基于迁移学习的硝酸盐浓度预测模型泛化方法。
背景技术
水体中硝酸盐浓度过高会引起水体富营养化、危害人体健康等问题。传统的硝酸盐测定方法包括离子色谱法、镉柱还原法、离子电极法等,但普遍存在一些缺点,如大多数方法价格昂贵、操作复杂且分析时间长、需要消耗试剂、存在对水体的二次污染等。紫外可见光谱技术具有测量方便快捷、无需引入其他试剂等优点,因此可以用于硝酸盐浓度的测量。
一般利用紫外可见光谱数据建立光谱水质定量分析模型,但在在实际应用中,使用建立好的光谱水质定量分析模型时会受下列情况影响,导致模型预测精度下降,甚至发生模型失效现象:
1、在水质监测网络中,需要在不同的观察点放置多台光谱多参数水质监测仪,这些监测仪可能因仪器本身和外界环境的干扰有不同程度的偏差及噪声;
2、水环境的污染因素具有复杂性、随机性和综合性,不同水质的污染源和影响因素不同,导致光谱数据也千变万化。针对批量化生产的光谱多参数水质监测仪,其内置的水质组分定量分析模型很难适用于所有水体类型;
3、对实际水体水质组分浓度测定时,若其所用模型建模时的训练样本水质组分浓度范围不能够覆盖实际水体中水质组分的浓度,则可能导致相关组分的浓度预测精度下降。
发明内容
为了解决使用同一硝酸盐浓度预测模型时,因光谱数据采集环境或水质不同而导致的模型失效或预测精度下降的问题,本发明提出一种基于迁移学习的硝酸盐浓度预测模型泛化方法,增强在不同环境下基于光谱法的硝酸盐浓度预测模型的泛化能力。
迁移学习是机器学习中的一个重要研究问题,它的目标是将某个任务上学习到的知识应用到其它不同但相关领域的问题中。迁移学习放宽了传统机器学习中的两个基本假设:(1)用于学习的训练样本与新的测试样本满足独立同分布的条件;(2)必须有足够可利用的训练样本才能学习得到一个好的模型。迁移学习通过对已有知识的迁移来解决目标领域中仅有少量有标签样本数据甚至没有的学习问题,避免了繁复的样本采集及数据标记问题,能极大的提升学习的效果。
因此,在硝酸盐浓度预测建模时引入迁移学习的方法,可以降低分析建模的复杂度并节省时间精力。同时可以有效增强硝酸盐浓度预测模型的泛化能力,解决实际应用中的模型失效问题,提升模型在不同环境下的浓度预测精度。
该方法的基本思路是:首先对测得的源域数据(即原始实验环境下的数据)和目标域数据(即未来模型应用环境下的数据)进行预处理,再通过迁移学习的方法(迁移成分分析TCA)对其进行光谱特征映射,分别计算得到迁移后的源域数据和目标域数据,并将其分别划分为训练集和测试集。使用训练集样本数据进行偏最小二乘PLS建模,使用所建模型对测试集样本数据进行预测。
在对上述方法进行验证及评价时,将两组在不同环境下采集得到的包含同类物质的溶液样本,一部分作为训练集建立模型,另一部分作为测试集,对模型的预测准确性进行验证,最后得到基于迁移学习的硝酸盐浓度预测模型。
本发明的技术方案是提供一种基于迁移学习的硝酸盐浓度预测模型泛化方法,其特殊之处在于,包括以下步骤:
步骤1、采集源域和目标域的紫外可见光谱数据;
步骤2、对采集得的源域紫外可见光谱数据和目标域紫外可见光谱数据进行预处理;
步骤3、通过迁移学习的方法分别对步骤2预处理后的源域紫外可见光谱数据和目标域紫外可见光谱数据进行光谱特征映射,并计算得到迁移后的源域紫外可见光谱数据和目标域紫外可见光谱数据;
步骤4、将迁移后的源域紫外可见光谱数据作为训练集,将迁移后的目标域紫外可见光谱数据作为测试集;
步骤5、使用训练集样本数据进行偏最小二乘PLS建模,得到关于硝酸盐浓度的预测模型,使用所建预测模型对测试集样本数据进行预测,获得测试集样本数据对应的硝酸盐浓度。
进一步地,步骤5之后还包括使用RMSEP、R2评价指标对预测模型的预测性能进行评价的步骤。
进一步地,步骤3中利用优化后的迁移学习的方法分别对步骤2预处理后的源域紫外可见光谱数据和目标域紫外可见光谱数据进行光谱特征映射;优化后迁移学习的方法相关参数为:lambda=1,dim=100,kernel_type=‘primal’,gamma=1。
本发明的有益效果是:
1、本发明利用迁移成分分析TCA对样本数据进行光谱特征映射后再建立PLS模型,有效改善了在不同环境下获取的样本使用原模型预测时的模型失效问题,提升了硝酸盐浓度预测精度,增强了硝酸盐浓度预测模型在不同环境下的泛化能力。
2、使用本发明提出的方法,有效的避免了在目标域中繁复的样本采集及数据标记问题。同时无需针对目标域样本单独建模,降低分析建模的复杂度并节省时间精力。
3、紫外可见光谱技术测量方便快捷、无需引入其他试剂,不会对水体产生二次污染。
附图说明
图1为基于迁移学习的硝酸盐浓度预测模型建模流程图;
图2a为94组不同硝酸盐浊度色度混合溶液样本光谱曲线图;
图2b为125组不同硝酸盐浊度色度混合溶液样本光谱曲线图;
图3为对125个目标域样本中硝酸盐浓度预测结果对比图。
具体实施方式
以下结合附图及具体实施例对本发明做进一步地描述。
如图1所示,本发明基于迁移学习的硝酸盐浓度预测模型泛化方法包括以下步骤:
步骤一、获得源域紫外可见光谱数据(即原始实验环境下的紫外可见光谱数据)和目标域的紫外可见光谱数据(即原始实验环境下的紫外可见光谱数据);
步骤二、预处理上述紫外可见光谱数据;
对上述紫外可见光谱数据进行预处理,去除由仪器产生的噪声及液体中固体沉淀物质颗粒对光谱曲线产生的影响。
步骤三、采用预处理后的源域紫外可见光谱数据和目标域的紫外可见光谱数据进行迁移学习;
优化迁移成分分析TCA算法,最终将TCA相关参数选取为:lambda=1,dim=100,kernel_type=‘primal’,gamma=1。
采用优化后的迁移成分分析TCA算法,计算源域紫外可见光谱数据和目标域紫外可见光谱数据的光谱特征映射,并分别计算迁移后的源域紫外可见光谱数据和目标域紫外可见光谱数据。
步骤四、划分训练集与测试集;
将迁移后的源域紫外可见光谱数据作为训练集,将迁移后的目标域紫外可见光谱数据作为测试集;
步骤五、获得浓度预测模型;
采用偏最小二乘法PLS作为建模方法,对PLS提取的主成分数进行优化,最终主成分数优化结果为8。对训练集数据进行建模,得到关于硝酸盐浓度的预测模型;
PLS的建模效果会受到计算时主成分数的影响,建模过程中可以根据自变量矩阵的秩尽可能多的提取PLS模型的成分,但必须小于参与建模的样本数。理论上,计算时提取的主成分数越多,包含的光谱信息就越全面。但实际中,并不是所有的主成分都是对建模有益的,主要原因是测量得到的数据伴随着噪声,甚至其中一些主成分中可能只有噪声信息。此处的优化方法为交叉验证方法中的留一法,思路是计算出不同主成分数时的预测残差平方和(PRESS),选择使PRESS最小的主成分数。
步骤六、获得硝酸盐浓度;
将测试集数据带入预测模型,输出预测结果,获得测试集样本对应的硝酸盐浓度。
步骤七、模型评价;
使用RMSEP、R2等评价指标对模型的预测性能进行评价。
以下使用本发明预测方法在两组不同浊度色度硝酸盐混合溶液样本集上进行实验,两组样本数据在相同坐标系下的光谱曲线如图2a与图2b所示。其中,94组源域样本中各物质的浓度分布为硝酸盐7-15mg/L、浊度0.5-5NTU、色度7-15(铂钴色度单位),125组目标域样本中各物质的浓度分布为硝酸盐7-15mg/L、浊度1-5NTU、色度7-15(铂钴色度单位)。另外,两组样本集中各物质的浓度梯度设置不同,且浊度范围不同。从图中可以看出,两组样本集光谱曲线在不同波长处的趋势基本一致。但由于样本物质浓度不同、光谱数据采集环境不同,其光谱曲线的幅值(吸光度)的范围有明显差别。
对比了直接使用源域样本PLS模型以及本发明提出的加入TCA的PLS模型对目标域样本中硝酸盐浓度的预测结果,如图3。直接使用源域样本PLS模型时,目标域样本中硝酸盐浓度预测结果基本为负数,可知此时模型失效。而采用TCA对样本数据进行光谱特征映射后建立PLS模型对目标域样本中硝酸盐浓度预测,R2=0.6492,RMSEP=3.4184。
Claims (3)
1.一种基于迁移学习的硝酸盐浓度预测模型泛化方法,其特征在于,包括以下步骤:
步骤1、采集源域和目标域的紫外可见光谱数据;
步骤2、对采集得的源域紫外可见光谱数据和目标域紫外可见光谱数据进行预处理;
步骤3、通过迁移学习的方法分别对步骤2预处理后的源域紫外可见光谱数据和目标域紫外可见光谱数据进行光谱特征映射,并计算得到迁移后的源域紫外可见光谱数据和目标域紫外可见光谱数据;
步骤4、将迁移后的源域紫外可见光谱数据作为训练集,将迁移后的目标域紫外可见光谱数据作为测试集;
步骤5、使用训练集样本数据进行偏最小二乘PLS建模,得到关于硝酸盐浓度的预测模型,使用所建预测模型对测试集样本数据进行预测,获得测试集样本数据对应的硝酸盐浓度。
2.根据权利要求1所述的基于迁移学习的硝酸盐浓度预测模型泛化方法,其特征在于:步骤5之后还包括使用RMSEP、R2评价指标对预测模型的预测性能进行评价的步骤。
3.根据权利要求1或2所述的基于迁移学习的硝酸盐浓度预测模型泛化方法,其特征在于:步骤3中利用优化后的迁移学习的方法分别对步骤2预处理后的源域紫外可见光谱数据和目标域紫外可见光谱数据进行光谱特征映射;优化后迁移学习的方法相关参数为:lambda=1,dim=100,kernel_type=‘primal’,gamma=1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110443731.3A CN113160903A (zh) | 2021-04-23 | 2021-04-23 | 一种基于迁移学习的硝酸盐浓度预测模型泛化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110443731.3A CN113160903A (zh) | 2021-04-23 | 2021-04-23 | 一种基于迁移学习的硝酸盐浓度预测模型泛化方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113160903A true CN113160903A (zh) | 2021-07-23 |
Family
ID=76870035
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110443731.3A Pending CN113160903A (zh) | 2021-04-23 | 2021-04-23 | 一种基于迁移学习的硝酸盐浓度预测模型泛化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113160903A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108152239A (zh) * | 2017-12-13 | 2018-06-12 | 东北大学秦皇岛分校 | 基于特征迁移的样品成分含量测定方法 |
CN111220566A (zh) * | 2020-01-16 | 2020-06-02 | 东北大学秦皇岛分校 | 基于opls和pds的红外光谱测量仪器标定迁移方法 |
CN111523582A (zh) * | 2020-04-16 | 2020-08-11 | 厦门大学 | 一种基于迁移学习的跨仪器拉曼光谱定性分析方法 |
-
2021
- 2021-04-23 CN CN202110443731.3A patent/CN113160903A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108152239A (zh) * | 2017-12-13 | 2018-06-12 | 东北大学秦皇岛分校 | 基于特征迁移的样品成分含量测定方法 |
CN111220566A (zh) * | 2020-01-16 | 2020-06-02 | 东北大学秦皇岛分校 | 基于opls和pds的红外光谱测量仪器标定迁移方法 |
CN111523582A (zh) * | 2020-04-16 | 2020-08-11 | 厦门大学 | 一种基于迁移学习的跨仪器拉曼光谱定性分析方法 |
Non-Patent Citations (4)
Title |
---|
侯耀斌等: "基于神经网络模型的海水硝酸盐测量方法研究", 《光谱学与光谱分析》 * |
潘国锋: "基于K-S算法的水质硝酸盐含量光谱检测方法研究", 《光谱实验室》 * |
王雪霁 等: "基于复杂水体的硝酸盐浓度精细光谱定量分析与预测方法研究", 《知网博士论文工程科技Ⅰ辑》 * |
郑文瑞等: "土壤速效磷近红外迁移学习预测方法研究", 《分析测试学报》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103983595B (zh) | 一种基于紫外-可见光谱处理的水质浊度解算方法 | |
WO2020133944A1 (zh) | 水质指标预测模型构建方法及水质指标监测方法 | |
CN109470667A (zh) | 一种结合水质参数和三维荧光光谱进行污染物溯源的方法 | |
CN113916847B (zh) | 一种基于光谱技术和线性支持向量算法的水质检测方法 | |
CN101059426A (zh) | 基于近红外光谱技术无损测量茶叶中茶多酚含量的方法 | |
CN101413885A (zh) | 一种快速定量蜂蜜品质的近红外光谱方法 | |
CN111488926B (zh) | 一种基于优化模型的土壤有机质测定方法 | |
CN101609042A (zh) | 基于近红外光谱的手持式土壤养分无损测量系统 | |
CN101221125A (zh) | 用光谱技术测定富营养化水体特征参量的方法 | |
CN109669023A (zh) | 一种基于多传感器融合的土壤属性预测方法 | |
CN103543123A (zh) | 一种掺假牛奶的红外光谱识别方法 | |
JP3780646B2 (ja) | 下水中の複数成分定量方法とその装置 | |
CN201503392U (zh) | 基于近红外光谱的手持式土壤养分无损测量装置 | |
CN105911003B (zh) | 基于rbm回归的水质toc浓度分析方法 | |
CN103399134B (zh) | 一种基于输出观测器的污水cod软测量方法 | |
CN114460055A (zh) | 基于“聚类-回归”的光谱法监测cod的方法与装置 | |
CN110376154A (zh) | 基于光谱校正的水果在线检测方法及系统 | |
CN111896497B (zh) | 一种基于预测值的光谱数据修正方法 | |
CN103308507A (zh) | 一种快速测定聚氨酯中游离-nco的分析方法 | |
CN113160903A (zh) | 一种基于迁移学习的硝酸盐浓度预测模型泛化方法 | |
CN115165770B (zh) | 基于宽光谱及bpnn的水体cod与浊度同时检测方法 | |
CN116399836A (zh) | 基于交替梯度下降算法的串扰荧光光谱分解方法 | |
CN115660455A (zh) | 一种三水统筹下水质评价体系模型构建系统、设备及终端 | |
CN116187861A (zh) | 基于同位素的水质溯源监测方法及相关装置 | |
CN109884282A (zh) | 基于grnn神经网络的新型地沟油检测方法及其检测系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210723 |