CN113959974A - 一种普适性近红外光谱模型的传递方法 - Google Patents
一种普适性近红外光谱模型的传递方法 Download PDFInfo
- Publication number
- CN113959974A CN113959974A CN202111138492.7A CN202111138492A CN113959974A CN 113959974 A CN113959974 A CN 113959974A CN 202111138492 A CN202111138492 A CN 202111138492A CN 113959974 A CN113959974 A CN 113959974A
- Authority
- CN
- China
- Prior art keywords
- model
- convolution
- spectrum
- msrcnn
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000002329 infrared spectrum Methods 0.000 title claims abstract description 87
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000012546 transfer Methods 0.000 title claims abstract description 30
- 238000001228 spectrum Methods 0.000 claims abstract description 132
- 230000006870 function Effects 0.000 claims abstract description 48
- 238000013508 migration Methods 0.000 claims abstract description 23
- 230000005012 migration Effects 0.000 claims abstract description 23
- 238000012549 training Methods 0.000 claims description 76
- 238000011176 pooling Methods 0.000 claims description 41
- 238000012795 verification Methods 0.000 claims description 35
- 230000003595 spectral effect Effects 0.000 claims description 26
- 230000004913 activation Effects 0.000 claims description 21
- 239000011159 matrix material Substances 0.000 claims description 17
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 15
- 238000004497 NIR spectroscopy Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 11
- 230000000694 effects Effects 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 10
- 239000013598 vector Substances 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 9
- 230000008859 change Effects 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 5
- 238000003062 neural network model Methods 0.000 claims description 4
- 230000009191 jumping Effects 0.000 claims description 3
- 239000008186 active pharmaceutical agent Substances 0.000 claims description 2
- 238000012544 monitoring process Methods 0.000 claims description 2
- 238000000605 extraction Methods 0.000 abstract description 13
- 238000013528 artificial neural network Methods 0.000 abstract 1
- 239000010410 layer Substances 0.000 description 144
- 238000013527 convolutional neural network Methods 0.000 description 12
- 238000004458 analytical method Methods 0.000 description 10
- 241000209140 Triticum Species 0.000 description 8
- 235000021307 Triticum Nutrition 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 238000013507 mapping Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 206010029216 Nervousness Diseases 0.000 description 4
- 230000004927 fusion Effects 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 238000012937 correction Methods 0.000 description 3
- 230000008034 disappearance Effects 0.000 description 3
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000004451 qualitative analysis Methods 0.000 description 2
- 238000004445 quantitative analysis Methods 0.000 description 2
- 239000002356 single layer Substances 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000013526 transfer learning Methods 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 241000219000 Populus Species 0.000 description 1
- 229920002472 Starch Polymers 0.000 description 1
- 238000010521 absorption reaction Methods 0.000 description 1
- 229910052799 carbon Inorganic materials 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000012569 chemometric method Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000002689 soil Substances 0.000 description 1
- 235000019698 starch Nutrition 0.000 description 1
- 239000008107 starch Substances 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000001845 vibrational spectrum Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/17—Systems in which incident light is modified in accordance with the properties of the material investigated
- G01N21/25—Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
- G01N21/31—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
- G01N21/35—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
- G01N21/359—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light using near infrared light
Abstract
一种普适性近红外光谱模型的传递方法,搭建的1D‑MSRCNN,在普通一维卷积神经网络的基础上,加入构以二维图像的inception‑resnet结构为基础,1D‑inception‑resnet网络层;显著提升模型对近红外光谱的特征提取能力,并能够有效避免数据过拟合,达到更好的预测结果。且引入迁移学习方法,将在已有的厂商仪器采集的近红外光谱上建立的卷积网络模型迁移到其他厂商仪器采集的光谱,并在全连接层中加入多核MMD核函数,利用多核MMD核函数度量迁移前和迁移后数据间的差异,通过减少域差异来增强1D‑MSRCNN的具体任务层的特征迁移性。解决采集近红外光谱的仪器存在台间差异,在一台仪器上建立的模型,无法在另外的厂商仪器中应用问题,实现模型跨不同厂商的不同型号仪器的应用。
Description
技术领域
本发明属于近红外光谱分析技术领域,涉及一种普适性近红外光谱模型的传递方法。
背景技术
近红外光谱(NIR)是介于紫外-可见光与中红外光之间的电磁波,不同类型的光谱反应不同样本层次的分子信息,因此可利用近红外光谱对样品进行有效的定量或定性分析。相较于传统化学分析技术,基于近红外光谱的分析技术具有测定速度快、无破坏性、无污染性及多组分同时检测等优点,并以产业链的方式广泛应用于农业、石化、制药、食品等领域。
虽然近红外光谱分析技术被广泛应用,但其应用效果严重依赖于有效的定量或定性分析模型,所以建模方法成为近红外光谱分析技术核心。传统的建模方法是基于经典的机器学习方法,如偏最小二乘法(partial least squares-discriminant analysis,PLS)、支持向量机(support vector machine,SVM)、K最邻近算法(K-nearest neighboralgorithm,KNN)等。但是以上经典机器学习方法存在特征提取能力有限,预测效果较差的缺陷。
深度卷积神经网络能进行端到端的学习和特征提取,具有极强建模能力,可以根据具体问题确定相应的网络拓扑结构,具有自学习、自组织、自适应功能。目前,史杨采用一维卷积神经网络(Convolutional Neural Network,CNN)模型,用于土壤有机碳含量回归预测,取得了良好的效果。Acquarelli等设计一个含一层卷积的CNN模型,并用于振动光谱数据分析的分类和分析,得到其实验性能优于偏最小二乘-线性判别分析法(PLS-LDA),KNN法等。刘忆森等在申请公布号为CN107478598A的中国发明专利申请《一种基于一维卷积神经网络的近红外光谱分析方法》中提出一种基于单层一维卷积神经网络的近红外光谱分析方法,通过建立不同卷积核大小的单层卷积网络进行特征提取,该方法采用浅层CNN模型,特征提取能力不足。赵勇等人在在申请公布号为CN112098358A的中国发明专利申请《基于四元数卷积神经网络的近红外光谱并行融合定量建模方法》利用四元数和深度学习算法将近红外光谱及其导数光谱进行并行表示和并行特征提取,但计算复杂,且针对不同的光谱仪,需要重新进行建模。
在近红外光谱分析技术应用过程中,会不止使用一台仪器进行光谱采集,将某台仪器(常称为主机)上所建立的光谱模型直接用于另一台仪器(常称为从机),根据从机的样品光谱预测未知样品的性质,称为模型传递。但受限于测量仪器、测量环境和辅料的差异,对所测量样品的光谱会产生影响,使得不同仪器对同一样品的光谱响应不完全一致,进而导致已建立的模型失效或预测结果产生较大偏差,而重建模型需耗费大量的时间和成本。
目前,光谱模型转移方法按照是否需要在所用仪器上采集一一对应的标准光谱,而划分有标样模型转移算法和无标样模型转移算法。如利用柯西估计对主从仪器光谱共享的同一基进行鲁棒学习,变换矩阵可以由两个相应的系数矩阵计算得到,从仪器测量光谱用公共基表示,然后用变换矩阵传递相应的系数,利用公共基和修正系数可对从仪器的测量光谱进行传递;如将光谱进行小波变换预处理,然后利用动态时间规整算法找到近红外光谱波长点之间最优的对应关系并建立回归方程。如基于仿射不变的无标样的模型转移方法。该方法首先建立主仪器的偏最小二乘模型,得到两种仪器的得分矩阵和预测值,然后分别计算主仪器和从仪器的各自得分向量与预测值之间的回归系数,并分别计算主仪器的回归系数和从仪器的相应回归系数之间的角度和偏差。最后,通过引入仿射变换,根据得到的角度和偏差对新样本进行预测。虽然上述的模型转移方法都能较好的削弱同一厂同一型号不同仪器之间的差异,解决模型失效问题,但无法实现不同厂商型号仪器间的模型传递,当一个新的厂商仪器投入使用时,还是需要收集样本重新建模。
发明内容
本发明提供了一种普适性近红外光谱模型的传递方法,将在已有的厂商仪器采集的近红外光谱上建立的卷积网络模型与迁移学习方法结合,迁移到其他厂商仪器采集的光谱,并在全连接层中加入多核MMD核函数,利用多核MMD核函数度量迁移前和迁移后数据间的差异,通过减少域差异来增强1D-MSRCNN的具体任务层的特征迁移性。解决采集近红外光谱的仪器存在台间差异,实现模型跨不同厂商的不同型号仪器的应用。
本发明技术方案如下:
一种普适性近红外光谱模型的传递方法,包括如下步骤:
S1,采用第一光谱仪对同一种样品的一批样本集进行检测得到第一光谱集,采用第二光谱仪相同样本集进行检测得到第二光谱集,将第一光谱集和第二光谱集中同一样本的光谱分别进行样本属性标记,其中第一光谱集为源数据集,第二光谱集为目标数据集;
S2,以维度最小的光谱对应的向量为基准,将源数据集和目标数据集中每一光谱的维度均处理为相等,得到同一维度的光谱数据;将同一维度的光谱数据依次进行二阶差分预处理和标准化预处理,得到预处理光谱数据;然后根据样本属性标记,将第一光谱集的一部分样本的光谱对应的预处理光谱数据作为第一训练集,另一部分样本的光谱对应的预处理光谱数据作为第一验证集;将第二光谱集的一部分样本的光谱对应的预处理光谱数据作为第二训练集,另一部分样本的光谱对应的预处理光谱数据作为第二验证集;
S3,搭建适用于近红外光谱的一维-多尺度残差卷积神经网络模型,简称1D-MSRCNN;所述1D-MSRCNN包括输入层、隐藏层和输出层,所述隐藏层包括依次串联连接的普通一维卷积网络、1D-inception-resnet网络层、全局最大池化层以及全连接层;所述1D-inception-resnet网络层的结构包括基于一维卷积的inception-resnet结构,所述1D-inception-resnet网络层内的所有卷积均为一维卷积;所述1D-MSRCNN模型的损失函数为MSE函数;
S4,模型训练;将第一训练集从所述1D-MSRCNN的输入层输入到隐藏层,使用Adam优化器对所述隐藏层的各网络参数进行训练,得到1D-MSRCNN初始模型;
S5,模型验证;将第一验证集输入1D-MSRCNN初始模型,得到一组初始验证结果;
S6,模型优化,改变1D-MSRCNN初始模型的1D-inception-resnet网络层中各一维卷积的卷积核大小,和/或改变1D-inception-resnet网络层的数目,和/或改变普通一维卷积网络中的各一维卷积的卷积核大小和/或普通一维卷积网络中的一维卷积数目,和/或改变普通一维卷积网络的数目,和/或改变1D-MSRCNN初始模型中的全连接层的数目,并重复S4-S5;得到多个1D-MSRCNN初始模型和多组初始验证结果;选择预测数据与真实数据间的偏差最小的一组初始验证结果对应的1D-MSRCNN初始模型,作为该样品的普适性近红外光谱模型;
S7,搭建迁移模型,将在源数据集上建立的普适性近红外光谱模型的若干全连接层加入多核MMD函数,所述多核MMD函数用于度量源数据集和目标数据集间的差异,其公式如下:
其中,Φ(Xs)为在源数据集上的分布概率,Φ(Xt)为在目标数据集上的分布概率,Ep[Φ(Xs)]为在源数据集上的分布概率的期望,Ep[Φ(Xt)]为在目标数据集上的分布概率的期望;
源数据集上的普适性近红外模型的损失函数为MSE损失函数,普适性近红外模型迁移到目标数据集上的损失函数为MSE损失和多核MMD距离的结合,其公式如下:
其中,na为源数据集上的训练样本,Xi a为源数据集上的训练数据,即为第一训练集,yi a为源数据集上的训练数据所对应的真实值,Θ(xi a)为源数据集上的训练数据的Xi经过MSRCNN模型后的预测值,J(Θ(xi a),yi a)为源数据集上的对样本的预测数据与样本的真实值的差异,也即为MSE损失,λ为多核MMD损失函数的权重值,L代表第几层全连接层,DS表示源数据集,即为L厂商采集的光谱,Dt表示目标数据,即为M厂商采集的光谱,dk 2(Ds l,Dt l)表示源数据集和目标数据集间对同一批光谱因不同仪器采集而产生的差异;
S8,模型迁移,将第二光谱集的预处理光谱数据,输入到所述普适性近红外光谱模型的迁移模型中,使用Adam优化器对其隐藏层的网络参数进行训练,得到微调后的普适性近红外光谱模型,所述微调后的普适性近红外光谱模型实现对第二光谱仪的光谱数据预测。
作为优选,所述1D-inception-resnet网络层的inception-resnet结构为所有卷积均为一维卷积的inception-resnet-1D结构,所述inception-resnet-1D结构包括inception-1D结构和resnet-1D结构;所述inception-1D结构通过多个卷积分支进行不同尺度的一维卷积运算;所述resnet-1D结构包括并列在所述inception-1D结构之外的跳跃性卷积分支。
作为优选,所述inception-1D结构包括并行连接在所述普通一维卷积网络后面的小尺度卷积分支、中尺度卷积分支、大尺度卷积分支和池化卷积分支,所述小尺度卷积分支进行小尺寸的卷积核运算,所述中尺度卷积分支进行中尺寸的卷积核运算,所述大尺度卷积分支进行大尺寸的卷积核运算,所述池化卷积分支进行最大池化运算后再进行一维卷积运算;所述小尺度卷积分支、中尺度卷积分支、大尺度卷积分支和池化卷积分支中均包含激活操作以及BN操作。
作为优选,所述resnet-1D结构的跳跃性卷积分支包括一维卷积、BN操作以及激活操作。
作为优选,所述激活操作中的激活函数为Relu函数,其定义如下:
所述BN操作为Batch Normalization,用于对输入向量的各个维度单独进行均值为0、方差为1的标准化处理,不进行去相关操作,以避免协方差矩阵和矩阵求逆运算的同时加速训练的效果,其定义如下:
作为优选,在步骤S3中,使用Adam优化器对隐藏层的各卷积参数进行优化,具体包括:将Adam优化器的初始学习率设为0.01,将损失函数设为MSE函数,并采用Tensorflow提供的ReduceLROnPlateau方法在训练过程中监控学习指标并更新学习率,当训练过程中20个周期内的Loss曲线都停止提升时,将学习率降低为原来的0.5倍,并设置变化过程中的学习率不低于1e-6,。
作为优选,所述池化卷积分支进行尺寸为3的最大池化运算后,再进行卷积核为1的一维卷积运算。
作为优选,在步骤S3中,使用EarlyStopping方法监控loss曲线指标,当loss曲线指标在50个周期内未能提升,则提前停止训练;将此时1D-MSRCNN的各卷积参数锁定,得到1D-MSRCNN初始模型。
作为优选,在步骤S5中,重复步骤S3-S4时,可通过改变所述Adam优化器的初始学习率,进一步优化所述1D-MSRCNN初始模型,以使得其输出的预测值与真实值间的偏差进一步降低。
本发明相对于现有技术优势在于:
1、本发明所述普适性近红外光谱模型的传递方法,搭建的1D-MSRCNN,在普通一维卷积神经网络的基础上,加入1D-inception-resnet网络层;所述1D-inception-resnet网络层的结构以二维图像的inception-resnet结构为基础,包括以inception结构为基础的inception-1D结构和以resnet结构为基础的resnet-1D结构,其区别在于,将inception结构和resnet结构内的所有卷积均替换为一维卷积;其inception-1D结构利用多个并联的不同大小的卷积核对光谱数据进行一维卷积的特征信息提取,极大增加了网络的感受野,从而能有效提取不同分辨率的光谱信息。并在inception-1D结构的基础上,还加入resnet-1D结构,在加深网络深度的同时,避免梯度消失。此外,为减少网络参数和避免过拟合,还加入全局平均池化。由此,显著提升模型对近红外光谱的特征提取能力,并能够有效避免数据过拟合,达到更好的预测结果。
2、本发明所述普适性近红外光谱模型的传递方法,引入迁移学习方法,将在已有的厂商仪器采集的近红外光谱上建立的卷积网络模型迁移到其他厂商仪器采集的光谱,并在全连接层中加入多核MMD核函数,利用多核MMD核函数度量迁移前和迁移后数据间的差异,通过减少域差异来增强1D-MSRCNN的具体任务层的特征迁移性。解决采集近红外光谱的仪器存在台间差异,在一台仪器上建立的模型,无法在另外的厂商仪器中应用问题,实现了模型跨不同厂商的不同型号仪器的应用。
附图说明
图1是本发明所述普适性近红外光谱模型的传递方法的流程图;
图2是本发明所述普适性近红外光谱模型的传递方法中1D-MSRCNN整体结构示意图;
图3是本发明所述普适性近红外光谱模型的传递方法中1D-MSRCNN的inception-1D结构示意图;
图4是常规的resnet结构示意图;
图5是本发明所述普适性近红外光谱模型的传递方法中1D-MSRCNN的inception-resnet-1D结构示意图;
图6是本发明所述普适性近红外光谱模型的传递方法中1D-MSRCNN的全局平均池化示意图;
图7是本发明所述普适性近红外光谱模型的传递方法的整体结构示意图;
图8是L厂商生产的4台不同型号的光谱仪L1-L4和M厂商生产的光谱仪M1对同一样本采集后得到的光谱;
图9是采用本发明所述普适性近红外光谱模型的传递方法将根据L厂商光谱仪建立的普适性近红外光谱模型迁移到M厂商光谱仪前后对样本进行预测的对比图,其中深色圆点为迁移前M厂商直接采用根据L厂商光谱仪建立的普适性近红外光谱模型对样本进行预测的结果,浅色圆点为采用迁移后得到的微调后的普适性近红外光谱模型对样本进行预测的结果。
具体实施方式
为了便于理解本发明,下面结合附图和具体实施例,对本发明进行更详细的说明。
一普适性近红外光谱模型的传递方法,其流程图如图1所示,其模块化框图如图7所示,包括如下步骤:
S1,采用第一光谱仪对同一种样品的一批样本集进行检测得到第一光谱集,采用第二光谱仪对相同样本集进行检测得到第二光谱集,将第一光谱集和第二光谱集中同一样本的光谱分别进行样本属性标记,其中第一光谱集为源数据集,第二光谱集为目标数据集;
所述样本属性标记包括将样本的光谱和对应光谱的预测值属性进行标记,如小麦样品的第一个样本的光谱标记为A,对应样本属性为蛋白质或淀粉等的真实值标记为A1。
S2,以维度最小的光谱对应的向量为基准,将源数据集和目标数据集中每一光谱的维度均处理为相等,得到同一维度的光谱数据;将同一维度的光谱数据依次进行二阶差分预处理和标准化预处理,得到预处理光谱数据;然后根据样本属性标记,将第一光谱集的一部分样本的光谱对应的预处理光谱数据作为训练集,另一部分样本的光谱对应的预处理光谱数据作为验证集。由于不同光谱仪采集到的光谱数据的维度(也即为数据点数)不同,故而,以维度最小的光谱为基准,将数据点数调整为一致,以便于后续网络模型的训练和迁移。所述预处理光谱数据集的数据格式是[b,length],其中b代表光谱的数量,length代表光谱的维度(光谱中的采样数据点数)。
S3,搭建适用于近红外光谱的一维-多尺度网状卷积神经网络模型,(1D-MultiScale Residual Convolutional Neural Network简称1D-MSRCNN模型);所述1D-MSRCNN包括输入层、隐藏层和输出层,所述隐藏层包括依次串联连接的普通一维卷积网络、1D-inception-resnet网络层、全局最大池化层以及全连接层;所述1D-inception-resnet网络层的结构包括基于一维卷积的inception-resnet结构,所述1D-inception-resnet网络层内的所有卷积均为一维卷积;所述预处理光谱数据集中的每一个光谱数据均为一维向量,所述输入层设有代码函数(如Numpy提供的newaxis代码函数),当训练集或验证集的数据输入到输入层时,通过该代码函数为其增加一个代表特征映射矩阵数C的维度,使其数据格式变为[b,C,length]。所述1D-MSRCNN模型的损失函数为MSE函数。
S4,模型训练;将第一光谱集对应的训练集从所述1D-MSRCNN的输入层输入到隐藏层,使用Adam优化器对所述网络模型中的参数进行训练,得到1D-MSRCNN初始模型;其中,根据训练集的样本数据量以及计算机性能,选择将训练集的样本数据一次性或分批次多次送入所述1D-MSRCNN中进行学习。
S5,模型验证;将第一光谱集对应的验证集输入所述1D-MSRCNN初始模型,得到一组初始验证结果;
S6,模型优化,改变1D-MSRCNN初始模型的1D-inception-resnet网络层中各一维卷积的卷积核大小和/或各卷积分支的数目和/或各卷积分支中一维卷积数目,和/或改变1D-MSRCNN初始模型中的1D-inception-resnet网络层的数目,和/或改变1D-MSRCNN初始模型中的普通一维卷积网络中的各一维卷积的卷积核大小和/或普通一维卷积网络中的一维卷积数目,和/或改变1D-MSRCNN初始模型中的普通一维卷积网络的数目,和/或改变1D-MSRCNN初始模型中的全连接层的数目,并重复S4-S5;得到多个1D-MSRCNN初始模型和多组初始验证结果;选择预测值与真实值间的偏差最小的一组初始验证结果对应的1D-MSRCNN初始模型,作为该种样品的普适性近红外光谱模型;所述预测值为所述输出层输出的特征值。
以普通一维卷积网络的一维卷积数目的改变为例,若1D-MSRCNN初始模型中的普通一维卷积网络的一维卷积数目为1,其初始验证结果显示预测值与真实值间的偏差为5,则改变1D-MSRCNN初始模型的普通一维卷积网络的一维卷积数目为2,重复S4-S5,得到预测值与真实值间的偏差为3.5。故而,增加普通一维卷积网络的一维卷积数目,能够减小偏差。继续增加普通一维卷积网络的一维卷积数目为3,重复S4-S5,得到预测值与真实值间的偏差为2.8,普通一维卷积网络的一维卷积数目设为4,重复S4-S5,得到预测值与真实值间的偏差为2。继续将普通一维卷积网络的一维卷积数目设为5,重复S4-S5,得到预测值与真实值间的偏差为3.1,该偏差没有持续减小,则将普通一维卷积网络的一维卷积数目定为4。
在进行模型建立时,对于不同种类的样品,需通过模型优化,选择合适的网络层数目,得出最适合该种样品的高准确度近红外光谱模型。
在进行模型建立时,对于同一种样本,若已知针对该样本第一成分的高准确度近红外光谱模型,对该样本第二成分进行预测时(如得到针对小麦样品蛋白质含量的最优高准确度近红外光谱模型,需对小麦样品水分含量进行预测时),无需改变各网络层的个数,只需将第一成分对应真实值替换为第二成分的真实值,直接再次进行模型训练得到的1D-MSRCNN初始模型即为针对该第二成分的普适性近红外光谱模型。
S7,搭建迁移模型,将在源数据集上建立的普适性近红外光谱模型的若干全连接层加入多核MMD函数所述多核MMD函数用于度量源数据集和目标数据集间的差异,其公式如下:
其中,Φ(Xs)为在源数据集上的分布概率,Φ(Xt)为在目标数据集上的分布概率,Ep[Φ(Xs)]为在源数据集上的分布概率的期望,Ep[Φ(Xt)]为在目标数据集上的分布概率的期望;
源数据集上的普适性近红外模型的损失函数为MSE损失函数,普适性近红外模型迁移到目标数据集上的损失函数为MSE损失和多核MMD距离的结合,其公式如下:
其中,na为源数据集上的训练样本,Xi a为源数据集上的训练数据,即为第一训练集,yi a为源数据集上的训练数据所对应的真实值,Θ(xi a)为源数据集上的训练数据的Xi经过MSRCNN模型后的预测值,J(Θ(xi a),yi a)为源数据集上的对样本的预测数据与样本的真实值的差异,也即为MSE损失,λ为多核MMD损失函数的权重值,L代表第几层全连接层(l1-l2代表在第一层和第二层全连接层加入多核MMD损失函数),DS表示源数据集,Dt表示目标数据,dk 2(Ds l,Dt l)表示源数据集和目标数据集间对同一批光谱因不同仪器采集而产生的差异;S8,模型迁移,将第二光谱集的预处理光谱数据,输入到所述普适性近红外光谱模型的迁移模型中,使用Adam优化器对其隐藏层的网络参数进行训练,得到微调后的普适性近红外光谱模型,所述微调后的普适性近红外光谱模型实现第二光谱仪的光谱数据预测。
作为优选,所述S6中,模型优化时,优选采用如下方式:
S6.1改变1D-MSRCNN初始模型中的1D-inception-resnet网络层的数目;并重复S4-S5,得到第二1D-MSRCNN初始模型和第二组初始验证结果;
S6.2改变1D-MSRCNN初始模型的1D-inception-resnet网络层中各一维卷积的卷积核大小;并重复S4-S5,得到第三1D-MSRCNN初始模型和第三组初始验证结果;
S6.3改变1D-MSRCNN初始模型中的普通一维卷积网络中的各一维卷积的卷积核大小;并重复S4-S5,得到第四1D-MSRCNN初始模型和第四组初始验证结果;
S6.4改变1D-MSRCNN初始模型中的全连接层的数目;并重复S4-S5,得到第五1D-MSRCNN初始模型和第五组初始验证结果;
S6.5在所有初始验证结果中,选择预测值与真实值间的偏差最小的一组初始验证结果对应的1D-MSRCNN初始模型,作为该种样品的高准确度近红外光谱模型;所述预测值为所述输出层输出的特征值。
优选地,所述1D-inception-resnet网络层的inception-resnet结构为所有卷积均为一维卷积的inception-resnet-1D结构,所述inception-resnet-1D结构包括inception-1D结构和resnet-1D结构;所述inception-1D结构通过多个卷积分支进行不同尺度的一维卷积运算,从而获得不同分辨率的光谱特征;所述resnet-1D结构包括并列在所述inception-1D结构之外的跳跃性卷积分支,避免出现因inception结构导致的权重矩阵退化而引起的梯度消失现象。
所述1D-inception-resnet网络层不只一个,由多个串联堆叠而成,通过inception-1D结构增加网络宽度,通过resnet-1D结构增加网络深度,极大提高了网络的特征提取能力。
优选地,所述inception-1D结构包括并行连接在所述普通一维卷积网络后面的小尺度卷积分支、中尺度卷积分支、大尺度卷积分支和池化卷积分支,所述小尺度卷积分支进行小尺寸的卷积核运算,小尺度的卷积易学习到非稀疏信息,所述中尺度卷积分支进行中尺寸的卷积核运算,所述大尺度卷积分支进行大尺寸的卷积核运算,大尺度的卷积可以学习到稀疏信息,不同尺度的卷积能够增加网络对于光谱的适应度,获得不同平缓度的光谱信息,进而提高特征提取能力,从而能够有效提升利用近红外光谱校正模型的预测精度。所述池化卷积分支进行最大池化运算后再进行一维卷积运算;所述小尺度卷积分支、中尺度卷积分支、大尺度卷积分支和池化卷积分支中均包含激活操作以及BN操作。
优选地,所述resnet-1D结构的跳跃性卷积分支包括一维卷积、BN操作以及激活操作。
所述BN操作为Batch Normalization,用于对输入向量的各个维度单独进行均值为0、方差为1的标准化处理,不进行去相关操作,以避免协方差矩阵和矩阵求逆运算的同时加速训练的效果,其定义如下:
其中,Si为训练集中第i个样本对应的数据,μB为每批次训练样本的平均值,m为每批次训练样本的数量,ε为是为了防止Si与Ub相等,分母为0,而引入的引入的极小量。
优选地,送入全局平均池化层进行全局平均池化后的输出,重新调整为二维数据后,进入若干全连接层,全连接层的输出进入输出层进行结果预测。
优选地,模型训练和模型验证时,使用均方误差MSE评估1D-MSRCNN初始模型,其公式如下:
优选地,所述普通一维卷积层与所述全局最大池化层之间设有多个相互串联连接的1D-inception-resnet网络层,普通一维卷积层和1D-inception-resnet网络层都为一维卷积层,用于将原始数据映射到隐层特征空间,其作用是提取光谱中的特征。如图2所示,所述1D-MSRCNN的普通一维卷积层优选为1个,1D-inception-resnet网络层优选为2个,全局最大池化层优选为1个,以及全连接层优选为3个。
作为优选,所述1D-inception-resnet网络层的inception-resnet结构为所有卷积均为一维卷积的inception-resnet-1D结构,所述inception-resnet-1D结构包括inception-1D结构和resnet-1D结构;所述inception-1D结构以inception结构为基础,通过多个卷积分支进行不同尺度的一维卷积运算,增加网络宽度,从而获得不同分辨率的光谱特征。
优选地,如图3所示,所述inception-1D结构包括并联设置的小尺度卷积分支、中尺度卷积分支、大尺度卷积分支和池化卷积分支,进行大尺度的卷积的大尺度卷积分支可以学习到稀疏信息,进行小尺度的卷积的小尺度卷积分支可以学习到非稀疏信息。不同尺度的卷积能够增加网络对于光谱的适应度,获得不同平缓度的光谱信息,进而提高特征提取能力,从而能够有效提升利用近红外光谱校正模型的预测精度。其具体为:
所述小尺度卷积分支进行卷积核为m1的一维卷积运算,所述中尺度卷积分支进行卷积核为m2的一维卷积运算,所述大尺度卷积分支进行卷积核为m3的一维卷积运算,其中,m1<m2<m3。所述池化卷积分支进行最大池化运算后再进行一维卷积运算。其中,所述池化卷积分支的最大池化运算的尺寸为3,一维卷积运算的卷积核为1。所述小尺度卷积分支、中尺度卷积分支、大尺度卷积分支和池化卷积分支均连接在普通一维卷积层的后面,且均包含激活操作以及BN操作。所述激活操作中的激活函数为Relu函数,其定义如下:
所述BN操作为Batch Normalization,用于对输入向量的各个维度单独进行均值为0、方差为1的标准化处理,不进行去相关操作,以避免协方差矩阵和矩阵求逆运算的同时加速训练的效果,其定义如下:
然后,采用级联方式将小尺度卷积分支、中尺度卷积分支、大尺度卷积分支和池化卷积分支的输出进行信息融合,增加模型的感受野。
如图5所示,所述resnet-1D结构以图4所示的resnet结构为基础,其区别在于,所述resnet-1D结构为并列在所述inception-1D结构之外的跳跃性卷积分支,所述跳跃性卷积分支进行一维卷积、BN操作以及激活操作,可在增加网络深度的同时,避免出现因inception结构导致的权重矩阵退化而引起的梯度消失现象。所述激活操作中的激活函数为Relu函数,其定义如下:
所述BN操作为Batch Normalization,用于对输入向量的各个维度单独进行均值为0、方差为1的标准化处理,不进行去相关操作,以避免协方差矩阵和矩阵求逆运算的同时加速训练的效果,其定义如下:
图5为1D-MSRCNN的inception-resnet-1D结构示意图,其中,X是这一层残差块的输入,F(X)为残差项,是经过第一层线性变化并激活后的输出,H(X)是期望的残差映射。网络要想学习得到H(X)=X恒等映射时的参数是比较难的,但是让H(X)=F(X)+X,只需要使F(X)=0就可以做到H(X)=X。这是因为在每层的网络中参数的初始化偏向于0,这样相比于更新网络层的参数来学习H(X)=X,网络层学习F(X)=0的更新参数能更快达到收敛。在inception-1D结构的基础上,加入恒等映射X,在网络过深时,可以从X获得信息,避免梯度消失。具体地,resnet-1D结构中的恒等映射X由卷积核尺寸为1的一维卷积操作、BN操作和relu操作激活构成。卷积核尺寸为1的一维卷积操作用于将恒等映射的输出与F(x)路径的输出保持一致,BN用于缩小特征差距,relu激活函数用于增加非线性表征。
作为优选,由于经过普通一维卷积层和1D-inception-resnet网络层的多个一维卷积操作后的数据参数过多,使得网络训练速度减慢。同时,如果直接将卷积后的网络参数传给全连接层,过多的参数也会使得全连接层训练较差,造成过拟合。故而,在最后一层1D-inception-resnet网络层后面,加入如图6所示的全局平均池化层,将卷积操作传来的特征图的所有点值相加求平局,得到一个数值,即用该数值表示对应特征图,以减少网络参数和避免过拟合,全局平均池化层的输出数据在重新调整为二维数据后,进入全连接层,所述全连接层为所述全局最大池化层输出的特征进行加权,进而输出最优的光谱预测结果,所述输出层将最优的光谱预测结果输出。
具体使用本发明所述普适性近红外光谱模型的建立方法对小麦样本建立普适性近红外光谱模型并进行模型迁移后进行验证,其过程如下:
S1,从下载由248个小麦样本构成的IDRC 2016数据集作为源数据集,该IDRC 2016数据集由L厂商生产的4台不同型号的光谱仪L1-L4和M厂商生产的4台不同型号的光谱仪M1-M4分别测量248个小麦样本得到,然后采用L厂商生产的与L1-L4型号不同的光谱仪L5、M厂商生产的与M1-M4型号不同的光谱仪M5,测量另外的160个小麦样本。其L厂商生产的光谱仪L1-L5采集的近红外光谱的波长范围为730-1100nm,其间隔为0.5nm,每条光谱共741个数据点。M厂商生产的光谱仪M1-M5采集的近红外光谱波长范围为570-1100n m,其间隔为0.5nm,每条光谱共1061个数据点。图8所示为L厂商生产的4台不同型号的光谱仪L1-L4和M厂商生产的光谱仪M1对同一样本采集后得到的光谱。
S2,以维度(光谱数据点)最小的光谱,也即为L厂商生产的光谱仪采集的光谱,数据点数为741,将源数据集中L厂商和M厂商的光谱仪采集的光谱的维度均处理为741,得到同一维度的光谱数据;将同一维度的光谱数据依次二阶差分预处理和标准化预处理,得到预处理光谱数据;然后根据样本属性标记,将L厂商的L1-L5采集的近红外光谱中每一个光谱仪采集的80%的样本光谱对应的预处理光谱数据作为第一训练集,剩余20%样本的光谱对应的预处理光谱数据作为第一验证集;将M厂商的M1-M5采集的近红外光谱中每一个光谱仪采集的10%样本的光谱对应的预处理光谱数据作为第二训练集,剩余90%样本的光谱对应的预处理光谱数据作为第二验证集;
S3,搭建如图2所示的1D-MSRCNN;所述1D-MSRCNN包括输入层、隐藏层和输出层,所述隐藏层包括依次串联连接的2个普通一维卷积网络、2个1D-inception-resnet网络层、1个全局最大池化层以3个及全连接层;所述1D-inception-resnet网络层的结构包括基于一维卷积的inception-resnet结构,所述1D-inception-resnet网络层内的所有卷积均为一维卷积;具体地,该数据集下,2个所述普通一维卷积层的卷积核大小设定为21,输入通道为1,输出通道为32。两层1D-inception-resnet网络层中,小尺度卷积分支、中尺度卷积分支、大尺度卷积分支中的卷积核大小m1,m2,m3分别设为7,13和121,以使其分别达标小、中、大尺度的卷积操作。池化卷积分支的最大池化运算的尺寸为50,一维卷积运算的卷积核为1。全局平均池化层设为70。第一个全连接层的输入为4000,输出为1000,第二个全连接层的输入为1000,输出为100,第三个全连接层的输入为100,输出为1。
S4,模型训练,将第一训练集输入到所述1D-MSRCNN,具体地,光谱原始数据的格式是[b,length],其中b代表光谱的数量,length代表光谱的维度(光谱中的采样数据点数),当第一训练集进入输入层时,通过代码函数(Numpy提供的newaxis代码函数)为第一训练集增加一个代表特征映射矩阵数的维度,使其数据格式变为[b,C,length],C代表特征映射矩阵数。
在IDRC 2016数据集上,源数据格式为[248,741],也即为,源数据集中含有248个光谱的数据,每个光谱的特征数据点数为741个,增加一个代表特征映射矩阵数的维度变为[248,C,741]作为网络的输入格式。C的初始值为1,每经过一次一维卷积运算,该值便加1。将其中80%分为训练集(即326个样本),20%分为测试集(即82个样本)。
受限于现有计算机性能,无法将全部的第一训练集中的所有光谱样本同时输入计算,因此,每16个样本分别批次送入(326个样本分批次,16个为一组送入)。由此,经过普通一维卷积层,数据变为[16,32,741],也即为,16个样本在普通一维卷积层,经过32个一维卷积核同时卷积,光谱经过特征提取后还剩余741个特征数据点。然后送入第一个1D-inception-resnet网络层,数据格式变为[16,80,741],也即为16个样本在1D-inception-resnet网络层中,小尺度卷积分支经过20个一维卷积核同时卷积后,还剩余741个特征数据点,也即为输出[16,20,741];中尺度卷积分支经过20个一维卷积核同时卷积后,还剩余741个特征数据点,也即为输出[16,20,741];大尺度卷积分支经过20个一维卷积核同时卷积后,还剩余741个特征数据点,也即为输出[16,20,741];以及池化卷积分支经过20个一维卷积核同时卷积后,还剩余741个特征数据点,也即为输出[16,20,741],四个数据集合并后输出为[16,80,741]。经过第二层1D-inception-resnet网络层,数据格式变为[16,100,741],也即为,16个样本在第二层1D-inception-resnet网络层,经过25*4=100个一维卷积核同时卷积,光谱经过特征提取后还剩余741个特征数据点。经过全局平均池化层处理后数据变为[16,100,40],还剩余40个特征数据点,由此大幅度减少了特征数据点数。全局平均池化层处理后,将所有卷积得到的特征数据进行融合,使其重新变为二维数据集[16,4000],其中,16仍旧代表16个样本,每次一维卷积得到的特征数据点经全局平均池化层处理后,特征数据点数为70,经过100次一维卷积,每次卷积后的特征数据均进行特征融合后的数据点数为100*70=7000个。将其送入3个全连接层,第一个全连接层输入格式为[16,4000],输出为[16,1000],第二个全连接层输入为[16,1000],输出为[16,100],第三个全连接层输入为[16,100],输出为[16,1]。该输出最终使得每一个样本最后均得到一个特征数据点,将该特征数据点对应的数据值(也即为预测值)从输出层输出,并与真实值相比。训练集的198个样本光谱,依次全部输入的同时使用Adam优化器优化卷积参数,最后锁定并得到一个最优1D-MSRCNN初始模型。在模型训练过程中,使用Adam优化器对1D-MSRCNN的各卷积参数进行优化,具体地,将初始学习率设为0.01,损失函数为MSE,并采用Tensorflow提供的ReduceLROnPlateau方法,监控学习指标,当训练过程中20个周期内的Loss曲线都停止提升时,将学习率降低为原来的0.5倍,在变化过程中设置学习率不低于1e-6。为了防止过拟合,使用EarlyStopping方法监控loss曲线指标,当指标在50个训练周期内未能提升,则提前停止训练,将此时1D-MSRCNN的各卷积参数锁定,得到1D-MSRCNN初始模型。
S5,模型验证;将第一验证集输入1D-MSRCNN初始模型,得到一组初始验证结果;
S6,模型优化,改变1D-MSRCNN初始模型的1D-inception-resnet网络层中各一维卷积的卷积核大小和/或各卷积分支的数目和/或各卷积分支中一维卷积数目,和/或改变1D-MSRCNN初始模型中的1D-inception-resnet网络层的数目,和/或改变1D-MSRCNN初始模型中的普通一维卷积网络中的各一维卷积的卷积核大小和/或普通一维卷积网络中的一维卷积数目,和/或改变1D-MSRCNN初始模型中的普通一维卷积网络的数目,和/或改变1D-MSRCNN初始模型中的全连接层的数目,并重复S4-S5;得到多个1D-MSRCNN初始模型和多组初始验证结果;选择预测值与真实值间的偏差最小的一组初始验证结果对应的1D-MSRCNN初始模型,作为药片样品的普适性近红外光谱模型。
S7,搭建迁移模型,将普适性近红外光谱模型的若干全连接层加入多核MMD函数,用于度量源数据集(L厂商)和目标数据集间(M厂商)对同一批光谱因不同仪器采集而产生的差异:
其中,Φ(Xs)为在源数据集上(L厂商)的分布概率,Φ(Xt)为在目标数据集上(M厂商)的分布概率,Ep[Φ(Xs)]为在源数据集上(L厂商)的分布概率的期望,Ep[Φ(Xt)](M厂商)为在目标数据集上的分布概率的期望;
源数据集上的普适性近红外模型的损失函数为MSE损失函数,普适性近红外模型迁移到目标数据集上的损失函数为MSE损失和多核MMD距离的结合,其公式如下:
其中,na为源数据集上(L厂商)的训练样本,Xi a为源数据集上(L厂商)的训练数据,即为第一训练集,yi a为源数据集上(L厂商)的训练数据所对应的真实值,Θ(xi a)为源数据集上(L厂商)的训练数据的Xi经过MSRCNN模型后的预测值,J(Θ(xi a),yi a)为源数据集上(L厂商)的对样本的预测数据与样本的真实值的差异,也即为MSE损失,λ为多核MMD损失函数的权重值,L代表第几层全连接层(l1-l2代表在第一层和第二层全连接层加入多核MMD损失函数),DS表示源数据集,即为L厂商采集的光谱,Dt表示目标数据,即为M厂商采集的光谱,dk 2(Ds l,Dt l)表示源数据集(L厂商)和目标数据集间(M厂商)对同一批光谱因不同仪器采集而产生的差异;
S8,模型迁移,将第二训练集,输入到所述普适性近红外光谱模型的迁移模型中,使用Adam优化器对其隐藏层的各网络参数进行训练,得到微调后的普适性近红外光谱模型,所述微调后的普适性近红外光谱模型实现M厂家生产的光谱仪的光谱数据预测。
表1是在IDRC2016药品数据集上,分别使用PLS、SVR、普通一维卷积网络(CNN)以及本发明所改进的普适性近红外光谱模型(1D-MSRCNN模型)在L厂家的生产的光谱仪测量的光谱上建立普适性近红外光谱模型,分别对第一验证集和第二验证集进行预测得到的预测结果。整体而言,普通一维卷积模型相较于经典化学计量学方法(PLS、SVR)表现出了更强的特征提能力。同时,本发明的普适性近红外光谱模型(1D-MSRCNN)又相比于普通一维卷积模型(CNN)取得了最优的结果,均方根误差(Root Mean Squared Error,RMSE)和决定系数(R2)分别到达了0.309和0.977,验证引入多尺度融合和残差结构的有效性。但是,在没有进行模型迁移的情况下,不论是普通一维卷积网络(CNN)还是PLS、SVR模型,直接对M厂商生产的光谱仪采集得到的第二验证集进行预测的效果均较差。而本发明的普适性近红外光谱模型(1D-MSRCNN)在对比方法中最优,R2达到了0.935,仍然可用,但预测性能相较于第一光谱仪L1的下降较多。这表明针对L厂商生产的光谱仪建立的普适性红外光谱模型直接应用于M厂商生产的光谱仪采集的光谱,会产生预测误差。其中,均方根误差(Root Mean SquaredError,RMSE)和决定系数(R2)作为模型的评价指标,RMSE用于衡量预测值与真值间的偏差,R2用以评价回归模型的拟合程度,其公式分别为:
表1
图9是在IDRC2016数据集上,利用本发明所述普适性近红外光谱模型的传递方法,将利用L厂商光谱仪采集的光谱,建立的普适性近红外光谱模型迁移到M厂商光谱仪采集的光谱,对M厂商光谱仪采集的光谱的进行预测的预测图。其中,深色和浅色分别代表进行模型传递前后得到的不同预测点,粗实线表示真实值,离粗实线越近,预测效果越好。由该图可以得到,在进行模型迁移前,L厂商光谱仪采集的光谱建立的普适性近红外光谱模型对M厂商光谱仪采集的光谱的预测值RMSE为0.783,R2为0.835。在模型迁移后的预测值整体相较于迁移前离真实值更近,其RMSE和R2也分别达到了0.379和0.965。
本发明针对近红外光谱采集仪器存在台间差异,在已有厂商仪器上建立的样本模型,无法应用于其他厂商仪器的现状。对一维卷积神经网络进行改进,搭建适用于近红外光谱的一维-多尺度残差卷积神经网络模型,该1D-MSRCNN通过对近红外光谱数据在inception-1D进行并列结构的、不同尺寸的卷积核运算,并利用Resnet-1D结构连接并联的网络,可有效提取近红外光谱中较为陡峭的和较为平缓的吸收峰信息的同时,避免网络过深而引起的梯度消失,经过一系列的模型训练、模型验证和模型优化,从而得到能够有效提升利用近红外光谱模型的预测精度的普适性近红外光谱模型。再引入迁移模型,利用多核MMD函数度量迁移前数据和迁移后数据的差,成功将普适性近红外光谱模型迁移于其他厂商的光谱仪,实现对其他厂商仪器的测量光谱的预测。
以上所述仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换等都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (9)
1.一种普适性近红外光谱模型的传递方法,其特征在于,包括如下步骤:
S1,采用第一光谱仪对同一种样品的一批样本集进行检测得到第一光谱集,采用第二光谱仪相同样本集进行检测得到第二光谱集,将第一光谱集和第二光谱集中同一样本的光谱分别进行样本属性标记,其中第一光谱集为源数据集,第二光谱集为目标数据集;
S2,以维度最小的光谱对应的向量为基准,将源数据集和目标数据集中每一光谱的维度均处理为相等,得到同一维度的光谱数据;将同一维度的光谱数据依次进行二阶差分预处理和标准化预处理,得到预处理光谱数据;然后根据样本属性标记,将第一光谱集的一部分样本的光谱对应的预处理光谱数据作为第一训练集,另一部分样本的光谱对应的预处理光谱数据作为第一验证集;将第二光谱集的一部分样本的光谱对应的预处理光谱数据作为第二训练集,另一部分样本的光谱对应的预处理光谱数据作为第二验证集;
S3,搭建适用于近红外光谱的一维-多尺度残差卷积神经网络模型,简称1D-MSRCNN;所述1D-MSRCNN包括输入层、隐藏层和输出层,所述隐藏层包括依次串联连接的普通一维卷积网络、1D-inception-resnet网络层、全局最大池化层以及全连接层;所述1D-inception-resnet网络层的结构包括基于一维卷积的inception-resnet结构,所述1D-inception-resnet网络层内的所有卷积均为一维卷积;所述1D-MSRCNN模型的损失函数为MSE函数;
S4,模型训练;将第一训练集从所述1D-MSRCNN的输入层输入到隐藏层,使用Adam优化器对所述隐藏层的各网络参数进行训练,得到1D-MSRCNN初始模型;
S5,模型验证;将第一验证集输入1D-MSRCNN初始模型,得到一组初始验证结果;
S6,模型优化,改变1D-MSRCNN初始模型的1D-inception-resnet网络层中各一维卷积的卷积核大小,和/或改变1D-inception-resnet网络层的数目,和/或改变普通一维卷积网络中的各一维卷积的卷积核大小和/或普通一维卷积网络中的一维卷积数目,和/或改变普通一维卷积网络的数目,和/或改变1D-MSRCNN初始模型中的全连接层的数目,并重复S4-S5;得到多个1D-MSRCNN初始模型和多组初始验证结果;选择预测数据与真实数据间的偏差最小的一组初始验证结果对应的1D-MSRCNN初始模型,作为该样品的普适性近红外光谱模型;
S7,搭建迁移模型,将在源数据集上建立的普适性近红外光谱模型的若干全连接层加入多核MMD函数,所述多核MMD函数用于度量源数据集和目标数据集间的差异,其公式如下:
其中,Φ(Xs)为在源数据集上的分布概率,Φ(Xt)为在目标数据集上的分布概率,Ep[Φ(Xs)]为在源数据集上的分布概率的期望,Ep[Φ(Xt)]为在目标数据集上的分布概率的期望;
源数据集上的普适性近红外模型的损失函数为MSE损失函数,普适性近红外模型迁移到目标数据集上的损失函数为MSE损失和多核MMD距离的结合,其公式如下:
其中,na为源数据集上的训练样本,Xi a为源数据集上的训练数据,即为第一训练集,yi a为源数据集上的训练数据所对应的真实值,Θ(xi a)为源数据集上的训练数据的Xi经过MSRCNN模型后的预测值,J(Θ(xi a),yi a)为源数据集上的对样本的预测数据与样本的真实值的差异,也即为MSE损失,λ为多核MMD损失函数的权重值,L代表第几层全连接层,DS表示源数据集,即为L厂商采集的光谱,Dt表示目标数据,即为M厂商采集的光谱,dk 2(Ds l,Dt l)表示源数据集和目标数据集对同一批光谱因不同仪器采集而产生的差异;
S8,模型迁移,将第二光谱集的预处理光谱数据,输入到所述普适性近红外光谱模型的迁移模型中,使用Adam优化器对其隐藏层的各网络参数进行训练,得到微调后的普适性近红外光谱模型,所述微调后的普适性近红外光谱模型实现对第二光谱仪的光谱数据预测。
2.根据权利要求1所述普适性近红外光谱模型的传递方法,其特征在于,
所述1D-inception-resnet网络层的inception-resnet结构为所有卷积均为一维卷积的inception-resnet-1D结构,所述inception-resnet-1D结构包括inception-1D结构和resnet-1D结构;所述inception-1D结构通过多个卷积分支进行不同尺度的一维卷积运算;所述resnet-1D结构包括并列在所述inception-1D结构之外的跳跃性卷积分支。
3.根据权利要求2所述普适性近红外光谱模型的传递方法,其特征在于,所述inception-1D结构包括并行连接在所述普通一维卷积网络后面的小尺度卷积分支、中尺度卷积分支、大尺度卷积分支和池化卷积分支,所述小尺度卷积分支进行小尺寸的卷积核运算,所述中尺度卷积分支进行中尺寸的卷积核运算,所述大尺度卷积分支进行大尺寸的卷积核运算,所述池化卷积分支进行最大池化运算后再进行一维卷积运算;所述小尺度卷积分支、中尺度卷积分支、大尺度卷积分支和池化卷积分支中均包含激活操作以及BN操作。
4.根据权利要求3所述普适性近红外光谱模型的传递方法,其特征在于,所述resnet-1D 结构的跳跃性卷积分支包括一维卷积、BN操作以及激活操作。
6.根据权利要求1所述普适性近红外光谱模型的传递方法,其特征在于,在步骤S3中,使用Adam优化器对隐藏层的各网络参数进行优化,具体包括:将Adam优化器的初始学习率设为0.01,将损失函数设为MSE函数,并采用Tensorflow提供的ReduceLROnPlateau方法在训练过程中监控学习指标并更新学习率,当训练过程中20个周期内的Loss曲线都停止提升时,将学习率降低为原来的0.5倍,并设置变化过程中的学习率不低于1e-6。
7.根据权利要求3所述普适性近红外光谱模型的传递方法,其特征在于,所述池化卷积分支进行尺寸为3的最大池化运算后,再进行卷积核为1的一维卷积运算。
8.根据权利要求6所述普适性近红外光谱模型的传递方法,其特征在于,在步骤S3中,使用EarlyStopping方法监控loss曲线指标,当loss曲线指标在50个周期内未能提升,则提前停止训练;将此时1D-MSRCNN的各卷积参数锁定,得到1D-MSRCNN初始模型。
9.根据权利要求1所述普适性近红外光谱模型的传递方法,其特征在于,在步骤S5中,重复步骤S3-S4时,可通过改变所述Adam优化器的初始学习率,进一步优化所述1D-MSRCNN初始模型,以使得其输出的预测值与真实值间的偏差进一步降低。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111138492.7A CN113959974A (zh) | 2021-09-27 | 2021-09-27 | 一种普适性近红外光谱模型的传递方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111138492.7A CN113959974A (zh) | 2021-09-27 | 2021-09-27 | 一种普适性近红外光谱模型的传递方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113959974A true CN113959974A (zh) | 2022-01-21 |
Family
ID=79462361
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111138492.7A Pending CN113959974A (zh) | 2021-09-27 | 2021-09-27 | 一种普适性近红外光谱模型的传递方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113959974A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117273070A (zh) * | 2023-11-16 | 2023-12-22 | 云南烟叶复烤有限责任公司 | 一种基于孪生卷积自编码器构建的光谱模型转移方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106815643A (zh) * | 2017-01-18 | 2017-06-09 | 中北大学 | 基于随机森林迁移学习的红外光谱模型传递方法 |
CN107478598A (zh) * | 2017-09-01 | 2017-12-15 | 广东省智能制造研究所 | 一种基于一维卷积神经网络的近红外光谱分析方法 |
WO2020073737A1 (zh) * | 2018-10-10 | 2020-04-16 | 浙江大学 | 一种基于深度学习的定量光谱数据分析处理方法 |
CN113111958A (zh) * | 2021-04-23 | 2021-07-13 | 中南大学 | 一种基于cnn-svr模型和迁移学习的光谱模型传递方法 |
-
2021
- 2021-09-27 CN CN202111138492.7A patent/CN113959974A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106815643A (zh) * | 2017-01-18 | 2017-06-09 | 中北大学 | 基于随机森林迁移学习的红外光谱模型传递方法 |
CN107478598A (zh) * | 2017-09-01 | 2017-12-15 | 广东省智能制造研究所 | 一种基于一维卷积神经网络的近红外光谱分析方法 |
WO2020073737A1 (zh) * | 2018-10-10 | 2020-04-16 | 浙江大学 | 一种基于深度学习的定量光谱数据分析处理方法 |
CN113111958A (zh) * | 2021-04-23 | 2021-07-13 | 中南大学 | 一种基于cnn-svr模型和迁移学习的光谱模型传递方法 |
Non-Patent Citations (2)
Title |
---|
王其滨;杨辉华;潘细朋;李灵巧;: "基于小波变换动态时间规整的近红外光谱模型传递方法", 分析测试学报, no. 12, 31 December 2019 (2019-12-31), pages 28 - 34 * |
王璨;武新慧;李恋卿;王玉顺;李志伟;: "卷积神经网络用于近红外光谱预测土壤含水率", 光谱学与光谱分析, no. 01, 15 January 2018 (2018-01-15), pages 42 - 47 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117273070A (zh) * | 2023-11-16 | 2023-12-22 | 云南烟叶复烤有限责任公司 | 一种基于孪生卷积自编码器构建的光谱模型转移方法 |
CN117273070B (zh) * | 2023-11-16 | 2024-02-02 | 云南烟叶复烤有限责任公司 | 一种基于孪生卷积自编码器构建的光谱模型转移方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109493287B (zh) | 一种基于深度学习的定量光谱数据分析处理方法 | |
Xu et al. | ℓ0-based sparse hyperspectral unmixing using spectral information and a multi-objectives formulation | |
Mishra et al. | Deep learning for near-infrared spectral data modelling: Hypes and benefits | |
CN107844751B (zh) | 引导滤波长短记忆神经网络高光谱遥感图像的分类方法 | |
CN111126575A (zh) | 基于机器学习的气体传感器阵列混合气体检测方法及装置 | |
Boger | Selection of quasi-optimal inputs in chemometrics modeling by artificial neural network analysis | |
CN111563436B (zh) | 一种基于ct-cdd的红外光谱测量仪器标定迁移方法 | |
CN113342476B (zh) | 一种基于迁移学习的设备集群跨域故障预测方法及系统 | |
Wang et al. | Comparison of extreme learning machine models for gasoline octane number forecasting by near-infrared spectra analysis | |
Zhang et al. | Predicting soil moisture content over partially vegetation covered surfaces from hyperspectral data with deep learning | |
CN111310722A (zh) | 一种基于改进神经网络的电力设备图像的故障识别方法 | |
CN114626304B (zh) | 一种矿浆铜品位在线预测软测量建模方法 | |
CN114937173A (zh) | 一种基于动态图卷积网络的高光谱图像快速分类方法 | |
CN113959974A (zh) | 一种普适性近红外光谱模型的传递方法 | |
Wang et al. | Optimized light source spectral power distribution for RGB camera based spectral reflectance recovery | |
Li et al. | Improvement of NIR prediction ability by dual model optimization in fusion of NSIA and SA methods | |
CN113408616B (zh) | 基于pca-uve-elm的光谱分类方法 | |
Choudhary et al. | Automatic classification of cowpea leaves using deep convolutional neural network | |
Al Duhayyim et al. | Automated Deep Learning Driven Crop Classification on Hyperspectral Remote Sensing Images. | |
CN116975123A (zh) | 结合图结构学习与图注意力网络的多维时序异常检测方法 | |
CN108827905B (zh) | 一种基于局部加权Lasso的近红外模型在线更新方法 | |
Monteiro et al. | A particle swarm optimization-based approach for hyperspectral band selection | |
CN114858782A (zh) | 基于拉曼高光谱对抗判别模型的奶粉掺杂非定向检测方法 | |
Castanys et al. | Identification of Raman spectra through a case‐based reasoning system: application to artistic pigments | |
CN113945537A (zh) | 一种高准确度近红外光谱定量模型建立方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |