CN109299501B - 一种基于工作流的振动光谱分析模型优化方法 - Google Patents

一种基于工作流的振动光谱分析模型优化方法 Download PDF

Info

Publication number
CN109299501B
CN109299501B CN201810907269.6A CN201810907269A CN109299501B CN 109299501 B CN109299501 B CN 109299501B CN 201810907269 A CN201810907269 A CN 201810907269A CN 109299501 B CN109299501 B CN 109299501B
Authority
CN
China
Prior art keywords
hyper
model
parameter
combination
vibration spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810907269.6A
Other languages
English (en)
Other versions
CN109299501A (zh
Inventor
林涛
徐金凡
应义斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201810907269.6A priority Critical patent/CN109299501B/zh
Publication of CN109299501A publication Critical patent/CN109299501A/zh
Priority to US16/973,021 priority patent/US20210247367A1/en
Priority to PCT/CN2019/098673 priority patent/WO2020029851A1/zh
Application granted granted Critical
Publication of CN109299501B publication Critical patent/CN109299501B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N29/00Investigating or analysing materials by the use of ultrasonic, sonic or infrasonic waves; Visualisation of the interior of objects by transmitting ultrasonic or sonic waves through the object
    • G01N29/44Processing the detected response signal, e.g. electronic circuits specially adapted therefor
    • G01N29/46Processing the detected response signal, e.g. electronic circuits specially adapted therefor by spectral analysis, e.g. Fourier analysis or wavelet analysis
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/17Systems in which incident light is modified in accordance with the properties of the material investigated
    • G01N21/25Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
    • G01N21/31Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
    • G01N21/35Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
    • G01N21/3563Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light for analysing solids; Preparation of samples therefor
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/17Systems in which incident light is modified in accordance with the properties of the material investigated
    • G01N21/25Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
    • G01N21/31Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
    • G01N21/35Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
    • G01N21/359Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light using near infrared light
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/62Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light
    • G01N21/63Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light optically excited
    • G01N21/65Raman scattering
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N29/00Investigating or analysing materials by the use of ultrasonic, sonic or infrasonic waves; Visualisation of the interior of objects by transmitting ultrasonic or sonic waves through the object
    • G01N29/44Processing the detected response signal, e.g. electronic circuits specially adapted therefor
    • G01N29/4472Mathematical theories or simulation
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N29/00Investigating or analysing materials by the use of ultrasonic, sonic or infrasonic waves; Visualisation of the interior of objects by transmitting ultrasonic or sonic waves through the object
    • G01N29/44Processing the detected response signal, e.g. electronic circuits specially adapted therefor
    • G01N29/449Statistical methods not provided for in G01N29/4409, e.g. averaging, smoothing and interpolation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biochemistry (AREA)
  • Analytical Chemistry (AREA)
  • Immunology (AREA)
  • Chemical & Material Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Artificial Intelligence (AREA)
  • Computational Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Algebra (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Operations Research (AREA)
  • Medical Informatics (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Investigating Or Analysing Materials By Optical Means (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种基于工作流的振动光谱分析模型优化方法。初始化确定振动光谱分析模型的评价参数和振动光谱分析模型的优化对象,将预处理方法和多元分析方法进行排列组合得方法组合;计算各个方法组合下的超参数和对应的超参数空间组合;将训练集分别输入到各个方法组合,优化计算确定方法组合的最优超参数;将训练集分别输入训练得到模型参数,由此获得各个组合模型;将测试集输入各个组合模型,计算各个组合模型的评价参数,选出最优模型。本发明建立了工作流程,避免了繁琐的人工操作和主观判断,更充分地利用了并行计算资源,提供了传统光谱分析软件不具备的新的系统模型优化方式。

Description

一种基于工作流的振动光谱分析模型优化方法
技术领域
本发明涉及光谱分析领域的一种模型优化处理方法,尤其是涉及了一种基于工作流的振动光谱分析模型优化方法。
背景技术
现代光谱分析技术因其方便快捷、低成本、无污染等优势逐渐成为农业、医药、石油等产业的产品无损检测主流技术之一。由于各类生物系统的复杂性与差异性,振动光谱往往含有许多噪声成分,其所提供的信息往往不能被直观地观察到,因此需要使用各类多元分析方法搭配合适的预处理技术对光谱数据进行建模分析。不同的多元分析方法分别适用于不同类别的光谱数据和预测指标,各类预处理技术也具有这样的特点。在实际生产中,往往需要利用多个算法构成组合模型,并对其超参数进行优化选择,才能找到合适的建模方法。而庞大的超参数范围和算法间的高耦合度导致模型的优化难度大大提升,需要消耗大量的人力和计算资源才能找到最佳模型。同时,随着光谱采集手段的进步,用于研究分析的光谱数据量增加迅速,海量的数据对模型的构建提出了新的挑战。传统的基于特定领域背景知识,人为反复试验优化超参数的方法由于效率较低,且由于存在较强的主观性可能难以选到最优超参数,已逐渐无法适应针对大量光谱数据的高效建模和优化的需求。目前已有的各类光谱分析软件能够利用特定的分析方法快速建模,但没有提供模型的超参数优化和多个模型之间的性能比较的方便高效的工作流程。因此,特别需要开发一种针对振动光谱分析的模型优化的工作流程。
发明内容
针对振动光谱分析的模型超参数优化和多模型性能比较过于繁琐,缺乏系统的工作流程的问题,本发明的目的在于设计提供一种基于工作流的振动光谱分析模型优化方法,通过交叉验证和网格搜索来提供高效的工作流程。
本发明的目的是通过以下技术方案来实现的:
所述振动光谱分析模型包括预处理方法和多元分析方法,振动光谱分析模型是主要由预处理方法和多元分析方法的两个步骤依次实施构成,针对振动光谱分析模型采用以下步骤进行优化处理获得最优的振动光谱分析模型:
振动光谱分析模型中,输入的原始光谱数据先通过预处理方法进行基线校正、散射校正、平滑滤波和归一化等操作,再利用一种或多种多元分析方法对预处理方法后的光谱数据进行建模分析输出结果。对于定性分析,采用分类算法作为多元分析方法建模分析输出预测标签;对于定量分析,采用回归算法作为多元分析方法建模分析输出预测值。
步骤1):初始化确定振动光谱分析模型的评价参数和振动光谱分析模型的优化对象,振动光谱分析模型的优化对象包括所要优化和比较的预处理方法、各个预处理方法需要优化的超参数及其对应的超参数空间、所要优化和比较的多元分析方法、各个多元分析方法需要优化的超参数及其对应的超参数空间;
步骤2):将所述步骤1)中的各个预处理方法和各个多元分析方法进行排列组合,获得所有可能的方法组合;
选取所有预处理方法中的一种或者多种或者不选,再结合上多元分析方法中的一种或多种。
步骤3):根据所述步骤2)获得的所有可能的方法组合和所述步骤1)中各个预处理方法需要优化的超参数及其对应的超参数空间与各个多元分析方法需要优化的超参数及其对应的超参数空间,计算各个方法组合下的超参数和对应的超参数空间组合;
步骤4):将输入的振动光谱数据划分为训练集和测试集;
步骤5):将训练集的振动光谱数据分别输入到各个方法组合,根据步骤1)确定的评价参数,在方法组合下的超参数空间内对各个方法组合的超参数进行优化计算,确定方法组合的最优超参数;
步骤6):将训练集的振动光谱数据分别输入步骤5)获得的各个方法组合的最优超参数所对应建立的振动光谱分析模型进行训练,得到各个振动光谱分析模型的模型参数,由此获得各个组合模型;
步骤7):将测试集的振动光谱数据分别输入步骤6)中的各个组合模型,根据步骤1)确定的评价参数计算各个组合模型的评价参数,作为组合模型的模型性能,选出评价参数最优的组合模型作为最优模型。
本发明的振动光谱数据可以来源于用于鉴别红酒类别或质量的红酒近红外光谱、用于测定药物片剂中活性物质的药片近红外光谱和用于鉴别细菌类别的细菌表面增强拉曼散射光谱等。
所述步骤5)中,具体为:针对每个方法组合,采用交叉验证和网格搜索相结合的方式搜索每个方法组合的最优超参数:针对方法组合下所有超参数的超参数空间建立多维立体网格,每个超参数的超参数空间是离散的数值的集合,一个超参数对应一个维度,由所有不同超参数的超参数空间内各取的一个数值相组合形成一个超参数组合作为网格中的交叉点,每一个交叉点代表了一个超参数组合,由此获得所有超参数组合,对网格中的每一个交叉点进行遍历,通过交叉验证方式计算每一个交叉点的估测值,作为每一个超参数组合下对应的模型性能,然后从网格中选取估测值最佳的交叉点,以该交叉点的超参数组合作为方法组合的最优超参数;上述通过交叉验证方式计算每一个交叉点的估测值,具体为:将训练集分割成多个子样本,子样本的总个数为N;取一个单独的子样本作为验证子样本,其余的N-1个子样本作为训练子样本,将训练子样本输入到每个超参数组合下对应的模型中进行训练,用验证子样本进行验证;按照上述方式以每个子样本取出作为验证子样本进行交叉验证重复N次,每次训练后采用验证子样本验证一次获得验证结果,取N次的验证结果的平均值作为估测值,表征每一个超参数组合下对应的模型性能。
本发明具体是由步骤3)中各个方法组合需要优化的超参数对应的超参数空间组合采用网格搜索方法建立需要搜索的网格,利用交叉验证方式对网格搜索方法所建立的网格进行处理计算,这样的特殊处理方式能够准确获得方法组合的最优超参数。
所述步骤1)中,所述的评价参数在定性分析的振动光谱分析模型中为准确率α,所述的评价参数在定量分析的振动光谱分析模型中为均方根误差RMSE,计算公式如下:
Figure BDA0001758630190000031
Figure BDA0001758630190000032
其中,n是振动光谱数据中样本数据的总数,nt是定性分析中分类正确的样本数,
Figure BDA0001758630190000033
是定量分析中样本数据的预测值,yi是定量分析中样本数据的真实值。
所述步骤4)中,振动光谱数据训练集和测试集的划分方式为随机划分,训练集和测试集的比例为4:1。
每一种方法组合都要按顺序执行步骤5)、步骤6)和步骤7),针对不同的方法组合并行进行步骤5)、步骤6)和步骤7)的步骤,不同的方法组合所对应构建的振动光谱分析模型的超参数优化、模型参数训练和评价参数均同时进行。
所述步骤7)中选择最优模型的方法是选择评价参数最好的模型,在定性分析中是选择准确率最高的组合模型,在定量分析中是选择均方根误差最小的组合模型。
所述的预处理方法包括用于基线校正的非对称最小二乘(asymmetric leastsquares,ALS)、用于移除散射影响的标准正态变换(standard normal variate,SNV)、用于去除高频噪声达到平滑效果的Savitzky-Golay滤波(Savitzky-Golay filter,SGF)、用于使得特征中心对称的平均中心化(mean centering,MC)等等。
所述的多元分析方法包括偏最小二乘(partial least squares,PLS)、主成分分析(principle component analysis,PCA)、线性判别分析(linear discriminantanalysis,LDA)、Logistic回归(logistic regression,LogR)等等。
本发明中,超参数是指根据方法所建立的模型在开始训练之前人为设定其值且在训练过程中不再进行调整的参数,例如Savitzky-Golay滤波(Savitzky-Golay filter,SGF)中的窗口长度(sgf__window_length)、多项式阶数(sgf__polyorder)、偏最小二乘(partial least squares,PLS)中的潜变量个数(pls_n_components)和主成分分析(principle component analysis,PCA)中的主成分个数(pca_n_components)。
模型参数是指根据方法所建立的模型在训练过程中不断调整其值并在训练结束后最终确定其值的参数,例如Savitzky-Golay滤波(Savitzky-Golay filter,SGF)中单个滑动窗口内拟合的多项式中各单项式的系数、偏最小二乘(partial least squares,PLS)中的回归方程中各单项式的系数和主成分分析(principle component analysis,PCA)中的回归方程中各单项式的系数。
本发明是一种通用型的振动光谱数据处理方法,针对各种来源和途径获得的振动光谱分析模型,在未知背景知识或者未采用背景知识对原始振动光谱数据进行任何预处理的情况下,直接能够进行振动光谱分析模型的优化,获得最优模型。
本发明的有益效果是:
本发明方法确定所有需要优化和比较的组合模型与其对应的超参数空间,避免了繁琐的人工操作,并减少了可能造成的遗漏;基于交叉验证和网格搜索的超参数优化方式更加科学,避免了人工操作时的主观判断;各类方法的组合方式和超参数空间在初始化时就已确定,在实际优化和后期训练过程中可充分利用并行计算资源,达到效率的提升。
综合来说,本发明建立了针对振动光谱数据的通用处理方式,避免了繁琐的人工操作和主观判断,更充分地利用了并行计算资源,提供了传统光谱分析软件不具备的系统的模型优化工作流程,解决了传统光谱分析软件中缺乏系统的模型优化的工作流程的问题。
附图说明
图1是本发明方法的整体流程图;
图2是原始近红外光谱的示例图;
图3是方法组合的结构图;
表1是所有方法组合的最优超参数和评估结果;
表2是超参数的搜索范围。
具体实施方式
以下结合说明书附图对本发明作进一步说明。
本发明实施例如下:
考虑一个针对药片的拉曼光谱数据进行定性分析的建模任务。样本含有310条数据,4种类别,近红外光谱如图2所示。
建立的典型的方法组合结构图如图3所示,其中的预处理方法包括用于移除散射影响的标准正态变换(standard normal variate,SNV)和用于去除高频噪声达到平滑效果的Savitzky-Golay滤波(Savitzky-Golay filter,SGF)。,
其中的多元分析方法包括属于降维算法的偏最小二乘(partial least squares,PLS)、主成分分析(principle component analysis,PCA)和属于分类算法的线性判别分析(linear discriminant analysis,LDA)。
在预处理步骤中需要选择由两种预处理方法构成的一种组合,即可以选择一种或者两种预处理方法或者不选,在多元分析步骤中的降维步骤中选择两种降维算法中的一种,在多元分析步骤中的分类步骤中指定使用线性判别分析(linear discriminantanalysis,LDA)。
因此,需要评估的方法组合共有8种,如表1表格中第一列所示。
表1
Figure BDA0001758630190000051
Figure BDA0001758630190000061
需要优化的超参数及其范围如表2所示,包括SGF中的窗口长度(sgf__window_length)、多项式阶数(sgf__polyorder),PLS中的潜变量个数(pls__n_components)和PCA中的主成分个数(pca__n_components)。
表2
超参数 超参数搜索范围
sgf__window_length {5,7}
sgf__polyorder {2,3}
pls__n_components [2,21]
pca__n_components [2,21]
表1中的各个方法组合需要优化的超参数由其中的每个方法需要优化的超参数组合而成。每个超参数的超参数空间是可能的取值的集合,各个超参数之间相互独立。针对方法组合下所有超参数的可能的取值的集合建立集合,即为该方法组合对应的超参数空间组合。比如针对SGF-PCA-LDA方法组合,需要优化的超参数为sgf__window_length(超参数空间是{5,7})、sgf__polyorder(超参数空间是{2,3})和pca__n_components(超参数空间为[2,21]),对应的超参数空间组合为{sgf__window_length:{5,7},sgf__polyoorder:{2,3},pca__n_components:[2,21]}。
将样本按照4:1的比例随机划分为训练集和测试集。以分类准确率作为评价指标,在方法组合下的超参数空间内对各个方法组合的超参数进行优化计算,确定方法组合的最优超参数。确定单个方法组合下的最优超参数的具体方式为:针对方法组合下所有超参数的超参数空间建立多维立体网格,每个超参数的超参数空间是离散的数值的集合,一个超参数对应一个维度,由所有不同超参数的超参数空间的一个数值相组合形成一个超参数组合作为网格中的交叉点。每一个交叉点代表了一个超参数组合,由此获得所有超参数组合。对网格中的每一个交叉点进行遍历,在对每一个交叉点做计算时,将训练集分割成5个子样本,取一个单独的子样本作为验证子样本,其余的4个子样本作为训练子样本,用将训练子样本输入到该交叉点的超参数组合下对应的模型中进行训练,用验证子样本进行验证,按照上述方式以每个子样本取出作为验证子样本进行交叉验证重复5次,每次训练后采用验证子样本验证一次获得验证结果,取5次的验证结果的平均分类准确率作为估测值,表征每一个交叉点对应的超参数组合下对应的模型性能。然后从网格中选取估测值最佳的交叉点,以该交叉点的超参数组合作为方法组合的最优超参数。
将训练集的振动光谱数据分别输入获得的各个方法组合的最优超参数所对应建立的振动光谱分析模型进行训练,得到各个振动光谱分析模型的模型参数,由此获得各个组合模型。
将测试集的振动光谱数据分别输入各个组合模型,计算各个组合模型的分类准确率,作为组合模型的模型性能,选出评价参数最优的组合模型作为最优模型。根据表1的结果显示由PLS-LDA方法组合和SGF-PLS-LDA方法组合建立的组合模型具有最好的性能,这两个组合模型在测试集上的分类准确率均为98.39%,如表1中的第三列所示。这两个组合模型就是我们最终选出的最优组合模型。
本发明具有较强的通用性,不仅在此例以药片分类作为目标的拉曼光谱建模分析任务中取得了良好的效果,在其他测试中也表现优越,比如在以大肠杆菌分类为目标的拉曼光谱建模分析任务中快速建立了分类准确率达到87%的最优组合模型,而基于经验和背景知识,通过人工选择建立的模型往往难以超出80%的分类准确率。在以土壤有机质含量检测为目标的近红外光谱分析任务中本发明建立的工作流程帮助研究者在几小时内建立了RMSE达到12g/kg的最优组合模型,而基于经验和背景知识,通过人工选择建立的模型要想获得相近的准确率需要数倍的试错时间和精力。这说明本发明建立的针对振动光谱数据的通用工作流程避免了繁琐的人工操作和主观判断,更充分地利用了并行计算资源,提供了传统光谱分析软件不具备的系统的模型优化工作流程,解决了传统光谱分析软件中缺乏系统的模型优化的工作流程的问题。

Claims (6)

1.一种基于工作流的振动光谱分析模型优化方法,其特征在于:
所述振动光谱分析模型是主要由预处理方法和多元分析方法的两个步骤依次实施构成,针对振动光谱分析模型采用以下步骤进行优化处理:
步骤1):初始化确定振动光谱分析模型的评价参数和振动光谱分析模型的优化对象,振动光谱分析模型的优化对象包括所要优化和比较的预处理方法、各个预处理方法需要优化的超参数及其对应的超参数空间、所要优化和比较的多元分析方法、各个多元分析方法需要优化的超参数及其对应的超参数空间;
步骤2):将所述步骤1)中的各个预处理方法和各个多元分析方法进行排列组合,获得所有可能的方法组合;
步骤3):根据所述步骤2)获得的所有可能的方法组合和所述步骤1)中各个预处理方法需要优化的超参数及其对应的超参数空间与各个多元分析方法需要优化的超参数及其对应的超参数空间,计算各个方法组合下的超参数和对应的超参数空间组合;
步骤4):将输入的振动光谱数据划分为训练集和测试集;
步骤5):将训练集的振动光谱数据分别输入到各个方法组合,根据步骤1)确定的评价参数,在方法组合下的超参数空间内对各个方法组合的超参数进行优化计算,确定方法组合的最优超参数;
步骤6):将训练集的振动光谱数据分别输入步骤5)获得的各个方法组合的最优超参数所对应建立的振动光谱分析模型进行训练,得到各个振动光谱分析模型的模型参数,由此获得各个组合模型;
步骤7):将测试集的振动光谱数据分别输入步骤6)中的各个组合模型,计算各个组合模型的评价参数,选出评价参数最优的组合模型作为最优模型。
2.根据权利要求1所述的一种基于工作流的振动光谱分析模型优化方法,其特征在于:所述步骤5)具体为:针对每个方法组合,采用交叉验证和网格搜索相结合的方式搜索每个方法组合的最优超参数:针对方法组合下所有超参数的超参数空间建立多维立体网格,每个超参数的超参数空间是离散的数值的集合,一个超参数对应一个维度,由所有不同超参数的超参数空间内各取的一个数值相组合形成一个超参数组合作为网格中的交叉点,对网格中的每一个交叉点进行遍历,通过交叉验证方式计算每一个交叉点的估测值,然后从网格中选取估测值最佳的交叉点,以该交叉点的超参数组合作为方法组合的最优超参数;上述通过交叉验证方式计算每一个交叉点的估测值,具体为:将训练集分割成多个子样本,子样本的总个数为N;取一个单独的子样本作为验证子样本,其余的N-1个子样本作为训练子样本,将训练子样本输入进行训练,用验证子样本进行验证;按照上述方式以每个子样本取出作为验证子样本进行交叉验证重复N次,每次训练后采用验证子样本验证一次获得验证结果,取N次的验证结果的平均值作为估测值。
3.根据权利要求1所述的一种基于工作流的振动光谱分析模型优化方法,其特征在于:所述步骤1)中,所述的评价参数在定性分析的振动光谱分析模型中为准确率α,所述的评价参数在定量分析的振动光谱分析模型中为均方根误差RMSE,计算公式如下:
Figure FDA0001758630180000021
Figure FDA0001758630180000022
其中,n是振动光谱数据中样本数据的总数,nt是定性分析中分类正确的样本数,
Figure FDA0001758630180000023
定量分析中样本数据的预测值,yi是定量分析中样本数据的真实值。
4.根据权利要求1所述的一种基于工作流的振动光谱分析模型优化方法,其特征在于:所述步骤4)中,振动光谱数据训练集和测试集的划分方式为随机划分,训练集和测试集的比例为4:1。
5.根据权利要求1所述的一种基于工作流的振动光谱分析模型优化方法,其特征在于:每一种方法组合都要按顺序执行步骤5)、步骤6)和步骤7),针对不同的方法组合并行进行步骤5)、步骤6)和步骤7)的步骤,不同的方法组合所对应构建的振动光谱分析模型的超参数优化、模型参数训练和评价参数均同时进行。
6.根据权利要求1所述的一种基于工作流的振动光谱分析模型优化方法,其特征在于:所述步骤7)中选择最优模型的方法是选择评价参数最好的模型,在定性分析中是选择准确率最高的组合模型,在定量分析中是选择均方根误差最小的组合模型。
CN201810907269.6A 2018-08-08 2018-08-08 一种基于工作流的振动光谱分析模型优化方法 Active CN109299501B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201810907269.6A CN109299501B (zh) 2018-08-08 2018-08-08 一种基于工作流的振动光谱分析模型优化方法
US16/973,021 US20210247367A1 (en) 2018-08-08 2019-07-31 Workflow-based model optimization method for vibrational spectral analysis
PCT/CN2019/098673 WO2020029851A1 (zh) 2018-08-08 2019-07-31 一种基于工作流的振动光谱分析模型优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810907269.6A CN109299501B (zh) 2018-08-08 2018-08-08 一种基于工作流的振动光谱分析模型优化方法

Publications (2)

Publication Number Publication Date
CN109299501A CN109299501A (zh) 2019-02-01
CN109299501B true CN109299501B (zh) 2022-03-11

Family

ID=65170481

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810907269.6A Active CN109299501B (zh) 2018-08-08 2018-08-08 一种基于工作流的振动光谱分析模型优化方法

Country Status (3)

Country Link
US (1) US20210247367A1 (zh)
CN (1) CN109299501B (zh)
WO (1) WO2020029851A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299501B (zh) * 2018-08-08 2022-03-11 浙江大学 一种基于工作流的振动光谱分析模型优化方法
CN115398552A (zh) * 2020-04-10 2022-11-25 基因泰克公司 遗传算法用于基于拉曼光谱识别样品特征的用途
CN111624631B (zh) * 2020-05-19 2022-11-18 中国科学院国家授时中心 一种并行化信号质量评估方法
CN113674814B (zh) * 2021-08-24 2023-06-23 佛山市海天(高明)调味食品有限公司 一种光谱定量分析模型的构建方法及装置
CN113948206B (zh) * 2021-10-26 2024-05-07 中国矿业大学 一种基于多层级框架的疾病分期模型融合方法
CN114297946B (zh) * 2022-02-08 2023-03-24 无锡雪浪数制科技有限公司 一种实现多学科仿真模型降阶的工业互联网平台

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0265911A2 (en) * 1986-10-31 1988-05-04 Kabushiki Kaisha Toyota Chuo Kenkyusho Vibration control apparatus
CN105136688A (zh) * 2015-09-18 2015-12-09 东北大学 一种用于分析分子光谱的改进可变移动窗偏最小二乘法
CN107064054A (zh) * 2017-02-28 2017-08-18 浙江大学 一种基于cc‑pls‑rbfnn优化模型的近红外光谱分析方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101059425A (zh) * 2007-05-29 2007-10-24 浙江大学 基于多光谱图像的纹理分析鉴别不同品种绿茶的方法和装置
CN103528990B (zh) * 2013-10-31 2017-07-28 天津工业大学 一种近红外光谱的多模型建模方法
US20160328644A1 (en) * 2015-05-08 2016-11-10 Qualcomm Incorporated Adaptive selection of artificial neural networks
CN107389592B (zh) * 2017-07-10 2021-03-16 天津工业大学 一种复杂样品光谱信号选择性集成预处理建模方法
CN107909154A (zh) * 2017-12-11 2018-04-13 四川新网银行股份有限公司 一种基于网络搜索的风控模型参数优化方法
CN109299501B (zh) * 2018-08-08 2022-03-11 浙江大学 一种基于工作流的振动光谱分析模型优化方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0265911A2 (en) * 1986-10-31 1988-05-04 Kabushiki Kaisha Toyota Chuo Kenkyusho Vibration control apparatus
CN105136688A (zh) * 2015-09-18 2015-12-09 东北大学 一种用于分析分子光谱的改进可变移动窗偏最小二乘法
CN107064054A (zh) * 2017-02-28 2017-08-18 浙江大学 一种基于cc‑pls‑rbfnn优化模型的近红外光谱分析方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Induction Machine Condition Monitoring Using Neural Network Modeling;Hua Su 等;《IEEE Transactions on Industrial Electronics ( Volume: 54, Issue: 1, Feb. 2007)》;20070205;第241-249页 *
分辨率对近红外光谱和定量分析的影响研究;谢丽娟 等;《光谱学与光谱分析》;20070815;第1489-1492页 *

Also Published As

Publication number Publication date
CN109299501A (zh) 2019-02-01
US20210247367A1 (en) 2021-08-12
WO2020029851A1 (zh) 2020-02-13

Similar Documents

Publication Publication Date Title
CN109299501B (zh) 一种基于工作流的振动光谱分析模型优化方法
CN110674604B (zh) 基于多维时序帧卷积lstm的变压器dga数据预测方法
CN105630743A (zh) 一种光谱波数的选择方法
CN107179310B (zh) 基于鲁棒噪声方差估计的拉曼光谱特征峰识别方法
CN105431854B (zh) 用于分析生物样品的方法和设备
CN103487411A (zh) 一种随机森林算法结合激光诱导击穿光谱识别钢材牌号的方法
CN111079283B (zh) 对信息饱和度不均衡数据的处理方法
CN104655583A (zh) 一种基于傅里叶红外光谱的煤质快速识别方法
CN110569566A (zh) 一种板带力学性能预测方法
CN113420795A (zh) 一种基于空洞卷积神经网络的矿物光谱分类方法
CN111126865B (zh) 一种基于科技大数据的技术成熟度判断方法和系统
CN114764682B (zh) 一种基于多机器学习算法融合的大米安全风险评估方法
CN105223140A (zh) 同源物质的快速识别方法
CN111259929A (zh) 基于随机森林的食源性致病菌的分类模型训练方法
CN102135496A (zh) 基于多尺度回归的红外光谱定量分析方法和装置
CN112200252A (zh) 基于概率盒全局灵敏度分析和主动子空间的联合降维方法
CN113159225A (zh) 多变量工业过程故障分类方法
CN113793652A (zh) 一种基于分段智能优选的谱图化学计量学解析方法
CN111027799A (zh) 一种国企产能分析系统
CN114357886A (zh) 一种基于多模型加权平均的酒醅近红外光谱建模方法
CN104462751B (zh) 一种基于多元高斯拟合的近红外光谱建模方法
CN104049624B (zh) 化工产品生产模式优化方法、装置和连续型化工系统
CN105651727A (zh) 基于jade和elm的近红外光谱分析鉴别苹果货架期的方法
CN115270611A (zh) 一种石油化工中样品非线性指标的模型建立方法及装置
TWI755995B (zh) 對工程資料進行篩選以得到特徵的方法與系統、對工程資料進行多次篩選以得到特徵的方法、產生預測模型的方法以及將工程資料線上特徵化的系統

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant