CN109299501A - 一种基于工作流的振动光谱分析模型优化方法 - Google Patents
一种基于工作流的振动光谱分析模型优化方法 Download PDFInfo
- Publication number
- CN109299501A CN109299501A CN201810907269.6A CN201810907269A CN109299501A CN 109299501 A CN109299501 A CN 109299501A CN 201810907269 A CN201810907269 A CN 201810907269A CN 109299501 A CN109299501 A CN 109299501A
- Authority
- CN
- China
- Prior art keywords
- hyper parameter
- parameter
- combination
- vibrational
- vibrational spectra
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 105
- 238000001845 vibrational spectrum Methods 0.000 title claims abstract description 60
- 238000005457 optimization Methods 0.000 title claims abstract description 31
- 238000012549 training Methods 0.000 claims abstract description 33
- 238000011156 evaluation Methods 0.000 claims abstract description 21
- 238000012360 testing method Methods 0.000 claims abstract description 15
- 230000008878 coupling Effects 0.000 claims abstract description 5
- 238000010168 coupling process Methods 0.000 claims abstract description 5
- 238000005859 coupling reaction Methods 0.000 claims abstract description 5
- 238000004458 analytical method Methods 0.000 claims description 20
- 238000002790 cross-validation Methods 0.000 claims description 12
- 238000004451 qualitative analysis Methods 0.000 claims description 8
- 238000004445 quantitative analysis Methods 0.000 claims description 8
- 238000012795 verification Methods 0.000 claims description 5
- 241000208340 Araliaceae Species 0.000 claims description 3
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims description 3
- 235000003140 Panax quinquefolius Nutrition 0.000 claims description 3
- 235000008434 ginseng Nutrition 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 230000008859 change Effects 0.000 claims description 2
- 238000000411 transmission spectrum Methods 0.000 abstract description 5
- 238000002329 infrared spectrum Methods 0.000 description 5
- 238000010183 spectrum analysis Methods 0.000 description 5
- 238000001914 filtration Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000004611 spectroscopical analysis Methods 0.000 description 4
- 238000012937 correction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000000491 multivariate analysis Methods 0.000 description 3
- 238000000513 principal component analysis Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 241000894006 Bacteria Species 0.000 description 2
- 238000001237 Raman spectrum Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 235000020095 red wine Nutrition 0.000 description 2
- 238000009394 selective breeding Methods 0.000 description 2
- 241000588724 Escherichia coli Species 0.000 description 1
- 239000011149 active material Substances 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000009659 non-destructive testing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000004016 soil organic matter Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 239000004575 stone Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N29/00—Investigating or analysing materials by the use of ultrasonic, sonic or infrasonic waves; Visualisation of the interior of objects by transmitting ultrasonic or sonic waves through the object
- G01N29/44—Processing the detected response signal, e.g. electronic circuits specially adapted therefor
- G01N29/46—Processing the detected response signal, e.g. electronic circuits specially adapted therefor by spectral analysis, e.g. Fourier analysis or wavelet analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/17—Systems in which incident light is modified in accordance with the properties of the material investigated
- G01N21/25—Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
- G01N21/31—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
- G01N21/35—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
- G01N21/3563—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light for analysing solids; Preparation of samples therefor
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/17—Systems in which incident light is modified in accordance with the properties of the material investigated
- G01N21/25—Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
- G01N21/31—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
- G01N21/35—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
- G01N21/359—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light using near infrared light
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/62—Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light
- G01N21/63—Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light optically excited
- G01N21/65—Raman scattering
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N29/00—Investigating or analysing materials by the use of ultrasonic, sonic or infrasonic waves; Visualisation of the interior of objects by transmitting ultrasonic or sonic waves through the object
- G01N29/44—Processing the detected response signal, e.g. electronic circuits specially adapted therefor
- G01N29/4472—Mathematical theories or simulation
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N29/00—Investigating or analysing materials by the use of ultrasonic, sonic or infrasonic waves; Visualisation of the interior of objects by transmitting ultrasonic or sonic waves through the object
- G01N29/44—Processing the detected response signal, e.g. electronic circuits specially adapted therefor
- G01N29/449—Statistical methods not provided for in G01N29/4409, e.g. averaging, smoothing and interpolation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Immunology (AREA)
- Analytical Chemistry (AREA)
- Pathology (AREA)
- Biochemistry (AREA)
- General Health & Medical Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Signal Processing (AREA)
- General Engineering & Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Mathematics (AREA)
- Evolutionary Biology (AREA)
- Algebra (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Operations Research (AREA)
- Databases & Information Systems (AREA)
- Geometry (AREA)
- Computer Hardware Design (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Investigating Or Analysing Materials By Optical Means (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种基于工作流的振动光谱分析模型优化方法。初始化确定振动光谱分析模型的评价参数和振动光谱分析模型的优化对象,将预处理方法和多元分析方法进行排列组合得方法组合;计算各个方法组合下的超参数和对应的超参数空间组合;将训练集分别输入到各个方法组合,优化计算确定方法组合的最优超参数;将训练集分别输入训练得到模型参数,由此获得各个组合模型;将测试集输入各个组合模型,计算各个组合模型的评价参数,选出最优模型。本发明建立了工作流程,避免了繁琐的人工操作和主观判断,更充分地利用了并行计算资源,提供了传统光谱分析软件不具备的新的系统模型优化方式。
Description
技术领域
本发明涉及光谱分析领域的一种模型优化处理方法,尤其是涉及了一种基于工作流的振动光谱分析模型优化方法。
背景技术
现代光谱分析技术因其方便快捷、低成本、无污染等优势逐渐成为农业、医药、石油等产业的产品无损检测主流技术之一。由于各类生物系统的复杂性与差异性,振动光谱往往含有许多噪声成分,其所提供的信息往往不能被直观地观察到,因此需要使用各类多元分析方法搭配合适的预处理技术对光谱数据进行建模分析。不同的多元分析方法分别适用于不同类别的光谱数据和预测指标,各类预处理技术也具有这样的特点。在实际生产中,往往需要利用多个算法构成组合模型,并对其超参数进行优化选择,才能找到合适的建模方法。而庞大的超参数范围和算法间的高耦合度导致模型的优化难度大大提升,需要消耗大量的人力和计算资源才能找到最佳模型。同时,随着光谱采集手段的进步,用于研究分析的光谱数据量增加迅速,海量的数据对模型的构建提出了新的挑战。传统的基于特定领域背景知识,人为反复试验优化超参数的方法由于效率较低,且由于存在较强的主观性可能难以选到最优超参数,已逐渐无法适应针对大量光谱数据的高效建模和优化的需求。目前已有的各类光谱分析软件能够利用特定的分析方法快速建模,但没有提供模型的超参数优化和多个模型之间的性能比较的方便高效的工作流程。因此,特别需要开发一种针对振动光谱分析的模型优化的工作流程。
发明内容
针对振动光谱分析的模型超参数优化和多模型性能比较过于繁琐,缺乏系统的工作流程的问题,本发明的目的在于设计提供一种基于工作流的振动光谱分析模型优化方法,通过交叉验证和网格搜索来提供高效的工作流程。
本发明的目的是通过以下技术方案来实现的:
所述振动光谱分析模型包括预处理方法和多元分析方法,振动光谱分析模型是主要由预处理方法和多元分析方法的两个步骤依次实施构成,针对振动光谱分析模型采用以下步骤进行优化处理获得最优的振动光谱分析模型:
振动光谱分析模型中,输入的原始光谱数据先通过预处理方法进行基线校正、散射校正、平滑滤波和归一化等操作,再利用一种或多种多元分析方法对预处理方法后的光谱数据进行建模分析输出结果。对于定性分析,采用分类算法作为多元分析方法建模分析输出预测标签;对于定量分析,采用回归算法作为多元分析方法建模分析输出预测值。
步骤1):初始化确定振动光谱分析模型的评价参数和振动光谱分析模型的优化对象,振动光谱分析模型的优化对象包括所要优化和比较的预处理方法、各个预处理方法需要优化的超参数及其对应的超参数空间、所要优化和比较的多元分析方法、各个多元分析方法需要优化的超参数及其对应的超参数空间;
步骤2):将所述步骤1)中的各个预处理方法和各个多元分析方法进行排列组合,获得所有可能的方法组合;
选取所有预处理方法中的一种或者多种或者不选,再结合上多元分析方法中的一种或多种。
步骤3):根据所述步骤2)获得的所有可能的方法组合和所述步骤1)中各个预处理方法需要优化的超参数及其对应的超参数空间与各个多元分析方法需要优化的超参数及其对应的超参数空间,计算各个方法组合下的超参数和对应的超参数空间组合;
步骤4):将输入的振动光谱数据划分为训练集和测试集;
步骤5):将训练集的振动光谱数据分别输入到各个方法组合,根据步骤1)确定的评价参数,在方法组合下的超参数空间内对各个方法组合的超参数进行优化计算,确定方法组合的最优超参数;
步骤6):将训练集的振动光谱数据分别输入步骤5)获得的各个方法组合的最优超参数所对应建立的振动光谱分析模型进行训练,得到各个振动光谱分析模型的模型参数,由此获得各个组合模型;
步骤7):将测试集的振动光谱数据分别输入步骤6)中的各个组合模型,根据步骤1)确定的评价参数计算各个组合模型的评价参数,作为组合模型的模型性能,选出评价参数最优的组合模型作为最优模型。
本发明的振动光谱数据可以来源于用于鉴别红酒类别或质量的红酒近红外光谱、用于测定药物片剂中活性物质的药片近红外光谱和用于鉴别细菌类别的细菌表面增强拉曼散射光谱等。
所述步骤5)中,具体为:针对每个方法组合,采用交叉验证和网格搜索相结合的方式搜索每个方法组合的最优超参数:针对方法组合下所有超参数的超参数空间建立多维立体网格,每个超参数的超参数空间是离散的数值的集合,一个超参数对应一个维度,由所有不同超参数的超参数空间内各取的一个数值相组合形成一个超参数组合作为网格中的交叉点,每一个交叉点代表了一个超参数组合,由此获得所有超参数组合,对网格中的每一个交叉点进行遍历,通过交叉验证方式计算每一个交叉点的估测值,作为每一个超参数组合下对应的模型性能,然后从网格中选取估测值最佳的交叉点,以该交叉点的超参数组合作为方法组合的最优超参数;上述通过交叉验证方式计算每一个交叉点的估测值,具体为:将训练集分割成多个子样本,子样本的总个数为N;取一个单独的子样本作为验证子样本,其余的N-1个子样本作为训练子样本,将训练子样本输入到每个超参数组合下对应的模型中进行训练,用验证子样本进行验证;按照上述方式以每个子样本取出作为验证子样本进行交叉验证重复N次,每次训练后采用验证子样本验证一次获得验证结果,取N次的验证结果的平均值作为估测值,表征每一个超参数组合下对应的模型性能。
本发明具体是由步骤3)中各个方法组合需要优化的超参数对应的超参数空间组合采用网格搜索方法建立需要搜索的网格,利用交叉验证方式对网格搜索方法所建立的网格进行处理计算,这样的特殊处理方式能够准确获得方法组合的最优超参数。
所述步骤1)中,所述的评价参数在定性分析的振动光谱分析模型中为准确率α,所述的评价参数在定量分析的振动光谱分析模型中为均方根误差RMSE,计算公式如下:
其中,n是振动光谱数据中样本数据的总数,nt是定性分析中分类正确的样本数,是定量分析中样本数据的预测值,yi是定量分析中样本数据的真实值。
所述步骤4)中,振动光谱数据训练集和测试集的划分方式为随机划分,训练集和测试集的比例为4:1。
每一种方法组合都要按顺序执行步骤5)、步骤6)和步骤7),针对不同的方法组合并行进行步骤5)、步骤6)和步骤7)的步骤,不同的方法组合所对应构建的振动光谱分析模型的超参数优化、模型参数训练和评价参数均同时进行。
所述步骤7)中选择最优模型的方法是选择评价参数最好的模型,在定性分析中是选择准确率最高的组合模型,在定量分析中是选择均方根误差最小的组合模型。
所述的预处理方法包括用于基线校正的非对称最小二乘(asymmetric leastsquares,ALS)、用于移除散射影响的标准正态变换(standard normal variate,SNV)、用于去除高频噪声达到平滑效果的Savitzky-Golay滤波(Savitzky-Golay filter,SGF)、用于使得特征中心对称的平均中心化(mean centering,MC)等等。
所述的多元分析方法包括偏最小二乘(partial least squares,PLS)、主成分分析(principle component analysis,PCA)、线性判别分析(linear discriminantanalysis,LDA)、Logistic回归(logistic regression,LogR)等等。
本发明中,超参数是指根据方法所建立的模型在开始训练之前人为设定其值且在训练过程中不再进行调整的参数,例如Savitzky-Golay滤波(Savitzky-Golay filter,SGF)中的窗口长度(sgf__window_length)、多项式阶数(sgf__polyorder)、偏最小二乘(partial least squares,PLS)中的潜变量个数(pls_n_components)和主成分分析(principle component analysis,PCA)中的主成分个数(pca_n_components)。
模型参数是指根据方法所建立的模型在训练过程中不断调整其值并在训练结束后最终确定其值的参数,例如Savitzky-Golay滤波(Savitzky-Golay filter,SGF)中单个滑动窗口内拟合的多项式中各单项式的系数、偏最小二乘(partial least squares,PLS)中的回归方程中各单项式的系数和主成分分析(principle component analysis,PCA)中的回归方程中各单项式的系数。
本发明是一种通用型的振动光谱数据处理方法,针对各种来源和途径获得的振动光谱分析模型,在未知背景知识或者未采用背景知识对原始振动光谱数据进行任何预处理的情况下,直接能够进行振动光谱分析模型的优化,获得最优模型。
本发明的有益效果是:
本发明方法确定所有需要优化和比较的组合模型与其对应的超参数空间,避免了繁琐的人工操作,并减少了可能造成的遗漏;基于交叉验证和网格搜索的超参数优化方式更加科学,避免了人工操作时的主观判断;各类方法的组合方式和超参数空间在初始化时就已确定,在实际优化和后期训练过程中可充分利用并行计算资源,达到效率的提升。
综合来说,本发明建立了针对振动光谱数据的通用处理方式,避免了繁琐的人工操作和主观判断,更充分地利用了并行计算资源,提供了传统光谱分析软件不具备的系统的模型优化工作流程,解决了传统光谱分析软件中缺乏系统的模型优化的工作流程的问题。
附图说明
图1是本发明方法的整体流程图;
图2是原始近红外光谱的示例图;
图3是方法组合的结构图;
表1是所有方法组合的最优超参数和评估结果;
表2是超参数的搜索范围。
具体实施方式
以下结合说明书附图对本发明作进一步说明。
本发明实施例如下:
考虑一个针对药片的拉曼光谱数据进行定性分析的建模任务。样本含有310条数据,4种类别,近红外光谱如图2所示。
建立的典型的方法组合结构图如图3所示,其中的预处理方法包括用于移除散射影响的标准正态变换(standard normal variate,SNV)和用于去除高频噪声达到平滑效果的Savitzky-Golay滤波(Savitzky-Golay filter,SGF)。,
其中的多元分析方法包括属于降维算法的偏最小二乘(partial least squares,PLS)、主成分分析(principle component analysis,PCA)和属于分类算法的线性判别分析(linear discriminant analysis,LDA)。
在预处理步骤中需要选择由两种预处理方法构成的一种组合,即可以选择一种或者两种预处理方法或者不选,在多元分析步骤中的降维步骤中选择两种降维算法中的一种,在多元分析步骤中的分类步骤中指定使用线性判别分析(linear discriminantanalysis,LDA)。
因此,需要评估的方法组合共有8种,如表1表格中第一列所示。
表1
需要优化的超参数及其范围如表2所示,包括SGF中的窗口长度(sgf__window_length)、多项式阶数(sgf__polyorder),PLS中的潜变量个数(pls__n_components)和PCA中的主成分个数(pca__n_components)。
表2
超参数 | 超参数搜索范围 |
sgf__window_length | {5,7} |
sgf__polyorder | {2,3} |
pls__n_components | [2,21] |
pca__n_components | [2,21] |
表1中的各个方法组合需要优化的超参数由其中的每个方法需要优化的超参数组合而成。每个超参数的超参数空间是可能的取值的集合,各个超参数之间相互独立。针对方法组合下所有超参数的可能的取值的集合建立集合,即为该方法组合对应的超参数空间组合。比如针对SGF-PCA-LDA方法组合,需要优化的超参数为sgf__window_length(超参数空间是{5,7})、sgf__polyorder(超参数空间是{2,3})和pca__n_components(超参数空间为[2,21]),对应的超参数空间组合为{sgf__window_length:{5,7},sgf__polyoorder:{2,3},pca__n_components:[2,21]}。
将样本按照4:1的比例随机划分为训练集和测试集。以分类准确率作为评价指标,在方法组合下的超参数空间内对各个方法组合的超参数进行优化计算,确定方法组合的最优超参数。确定单个方法组合下的最优超参数的具体方式为:针对方法组合下所有超参数的超参数空间建立多维立体网格,每个超参数的超参数空间是离散的数值的集合,一个超参数对应一个维度,由所有不同超参数的超参数空间的一个数值相组合形成一个超参数组合作为网格中的交叉点。每一个交叉点代表了一个超参数组合,由此获得所有超参数组合。对网格中的每一个交叉点进行遍历,在对每一个交叉点做计算时,将训练集分割成5个子样本,取一个单独的子样本作为验证子样本,其余的4个子样本作为训练子样本,用将训练子样本输入到该交叉点的超参数组合下对应的模型中进行训练,用验证子样本进行验证,按照上述方式以每个子样本取出作为验证子样本进行交叉验证重复5次,每次训练后采用验证子样本验证一次获得验证结果,取5次的验证结果的平均分类准确率作为估测值,表征每一个交叉点对应的超参数组合下对应的模型性能。然后从网格中选取估测值最佳的交叉点,以该交叉点的超参数组合作为方法组合的最优超参数。
将训练集的振动光谱数据分别输入获得的各个方法组合的最优超参数所对应建立的振动光谱分析模型进行训练,得到各个振动光谱分析模型的模型参数,由此获得各个组合模型。
将测试集的振动光谱数据分别输入各个组合模型,计算各个组合模型的分类准确率,作为组合模型的模型性能,选出评价参数最优的组合模型作为最优模型。根据表1的结果显示由PLS-LDA方法组合和SGF-PLS-LDA方法组合建立的组合模型具有最好的性能,这两个组合模型在测试集上的分类准确率均为98.39%,如表1中的第三列所示。这两个组合模型就是我们最终选出的最优组合模型。
本发明具有较强的通用性,不仅在此例以药片分类作为目标的拉曼光谱建模分析任务中取得了良好的效果,在其他测试中也表现优越,比如在以大肠杆菌分类为目标的拉曼光谱建模分析任务中快速建立了分类准确率达到87%的最优组合模型,而基于经验和背景知识,通过人工选择建立的模型往往难以超出80%的分类准确率。在以土壤有机质含量检测为目标的近红外光谱分析任务中本发明建立的工作流程帮助研究者在几小时内建立了RMSE达到12g/kg的最优组合模型,而基于经验和背景知识,通过人工选择建立的模型要想获得相近的准确率需要数倍的试错时间和精力。这说明本发明建立的针对振动光谱数据的通用工作流程避免了繁琐的人工操作和主观判断,更充分地利用了并行计算资源,提供了传统光谱分析软件不具备的系统的模型优化工作流程,解决了传统光谱分析软件中缺乏系统的模型优化的工作流程的问题。
Claims (6)
1.一种基于工作流的振动光谱分析模型优化方法,其特征在于:
所述振动光谱分析模型是主要由预处理方法和多元分析方法的两个步骤依次实施构成,针对振动光谱分析模型采用以下步骤进行优化处理:
步骤1):初始化确定振动光谱分析模型的评价参数和振动光谱分析模型的优化对象,振动光谱分析模型的优化对象包括所要优化和比较的预处理方法、各个预处理方法需要优化的超参数及其对应的超参数空间、所要优化和比较的多元分析方法、各个多元分析方法需要优化的超参数及其对应的超参数空间;
步骤2):将所述步骤1)中的各个预处理方法和各个多元分析方法进行排列组合,获得所有可能的方法组合;
步骤3):根据所述步骤2)获得的所有可能的方法组合和所述步骤1)中各个预处理方法需要优化的超参数及其对应的超参数空间与各个多元分析方法需要优化的超参数及其对应的超参数空间,计算各个方法组合下的超参数和对应的超参数空间组合;
步骤4):将输入的振动光谱数据划分为训练集和测试集;
步骤5):将训练集的振动光谱数据分别输入到各个方法组合,根据步骤1)确定的评价参数,在方法组合下的超参数空间内对各个方法组合的超参数进行优化计算,确定方法组合的最优超参数;
步骤6):将训练集的振动光谱数据分别输入步骤5)获得的各个方法组合的最优超参数所对应建立的振动光谱分析模型进行训练,得到各个振动光谱分析模型的模型参数,由此获得各个组合模型;
步骤7):将测试集的振动光谱数据分别输入步骤6)中的各个组合模型,计算各个组合模型的评价参数,选出评价参数最优的组合模型作为最优模型。
2.根据权利要求1所述的一种基于工作流的振动光谱分析模型优化方法,其特征在于:所述步骤5)具体为:针对每个方法组合,采用交叉验证和网格搜索相结合的方式搜索每个方法组合的最优超参数:针对方法组合下所有超参数的超参数空间建立多维立体网格,每个超参数的超参数空间是离散的数值的集合,一个超参数对应一个维度,由所有不同超参数的超参数空间内各取的一个数值相组合形成一个超参数组合作为网格中的交叉点,对网格中的每一个交叉点进行遍历,通过交叉验证方式计算每一个交叉点的估测值,然后从网格中选取估测值最佳的交叉点,以该交叉点的超参数组合作为方法组合的最优超参数;上述通过交叉验证方式计算每一个交叉点的估测值,具体为:将训练集分割成多个子样本,子样本的总个数为N;取一个单独的子样本作为验证子样本,其余的N-1个子样本作为训练子样本,将训练子样本输入进行训练,用验证子样本进行验证;按照上述方式以每个子样本取出作为验证子样本进行交叉验证重复N次,每次训练后采用验证子样本验证一次获得验证结果,取N次的验证结果的平均值作为估测值。
3.根据权利要求1所述的一种基于工作流的振动光谱分析模型优化方法,其特征在于:所述步骤1)中,所述的评价参数在定性分析的振动光谱分析模型中为准确率α,所述的评价参数在定量分析的振动光谱分析模型中为均方根误差RMSE,计算公式如下:
其中,n是振动光谱数据中样本数据的总数,nt是定性分析中分类正确的样本数,定量分析中样本数据的预测值,yi是定量分析中样本数据的真实值。
4.根据权利要求1所述的一种基于工作流的振动光谱分析模型优化方法,其特征在于:所述步骤4)中,振动光谱数据训练集和测试集的划分方式为随机划分,训练集和测试集的比例为4:1。
5.根据权利要求1所述的一种基于工作流的振动光谱分析模型优化方法,其特征在于:每一种方法组合都要按顺序执行步骤5)、步骤6)和步骤7),针对不同的方法组合并行进行步骤5)、步骤6)和步骤7)的步骤,不同的方法组合所对应构建的振动光谱分析模型的超参数优化、模型参数训练和评价参数均同时进行。
6.根据权利要求1所述的一种基于工作流的振动光谱分析模型优化方法,其特征在于:所述步骤7)中选择最优模型的方法是选择评价参数最好的模型,在定性分析中是选择准确率最高的组合模型,在定量分析中是选择均方根误差最小的组合模型。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810907269.6A CN109299501B (zh) | 2018-08-08 | 2018-08-08 | 一种基于工作流的振动光谱分析模型优化方法 |
US16/973,021 US20210247367A1 (en) | 2018-08-08 | 2019-07-31 | Workflow-based model optimization method for vibrational spectral analysis |
PCT/CN2019/098673 WO2020029851A1 (zh) | 2018-08-08 | 2019-07-31 | 一种基于工作流的振动光谱分析模型优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810907269.6A CN109299501B (zh) | 2018-08-08 | 2018-08-08 | 一种基于工作流的振动光谱分析模型优化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109299501A true CN109299501A (zh) | 2019-02-01 |
CN109299501B CN109299501B (zh) | 2022-03-11 |
Family
ID=65170481
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810907269.6A Active CN109299501B (zh) | 2018-08-08 | 2018-08-08 | 一种基于工作流的振动光谱分析模型优化方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20210247367A1 (zh) |
CN (1) | CN109299501B (zh) |
WO (1) | WO2020029851A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020029851A1 (zh) * | 2018-08-08 | 2020-02-13 | 浙江大学 | 一种基于工作流的振动光谱分析模型优化方法 |
CN111624631A (zh) * | 2020-05-19 | 2020-09-04 | 中国科学院国家授时中心 | 一种并行化信号质量评估方法 |
CN114297946A (zh) * | 2022-02-08 | 2022-04-08 | 无锡雪浪数制科技有限公司 | 一种实现多学科仿真模型降阶的工业互联网平台 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115398552A (zh) * | 2020-04-10 | 2022-11-25 | 基因泰克公司 | 遗传算法用于基于拉曼光谱识别样品特征的用途 |
CN113674814B (zh) * | 2021-08-24 | 2023-06-23 | 佛山市海天(高明)调味食品有限公司 | 一种光谱定量分析模型的构建方法及装置 |
CN113948206B (zh) * | 2021-10-26 | 2024-05-07 | 中国矿业大学 | 一种基于多层级框架的疾病分期模型融合方法 |
CN114777920B (zh) * | 2022-03-01 | 2024-08-09 | 中南大学 | 一种光谱检测光源功率优化方法和系统 |
CN117033993A (zh) * | 2022-04-29 | 2023-11-10 | 华东交通大学 | 一种基于最小角排序选择的优选训练集的方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0265911A2 (en) * | 1986-10-31 | 1988-05-04 | Kabushiki Kaisha Toyota Chuo Kenkyusho | Vibration control apparatus |
CN105136688A (zh) * | 2015-09-18 | 2015-12-09 | 东北大学 | 一种用于分析分子光谱的改进可变移动窗偏最小二乘法 |
US20160328644A1 (en) * | 2015-05-08 | 2016-11-10 | Qualcomm Incorporated | Adaptive selection of artificial neural networks |
CN107064054A (zh) * | 2017-02-28 | 2017-08-18 | 浙江大学 | 一种基于cc‑pls‑rbfnn优化模型的近红外光谱分析方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101059425A (zh) * | 2007-05-29 | 2007-10-24 | 浙江大学 | 基于多光谱图像的纹理分析鉴别不同品种绿茶的方法和装置 |
US9927352B2 (en) * | 2007-08-06 | 2018-03-27 | The Regents Of The University Of California | Rapid and label-free procedure for microbial community screening and profiling |
US10006919B2 (en) * | 2013-03-15 | 2018-06-26 | Arizona Board Of Regents On Behalf Of Arizona State University | Peptide array quality control |
CN103528990B (zh) * | 2013-10-31 | 2017-07-28 | 天津工业大学 | 一种近红外光谱的多模型建模方法 |
US10963810B2 (en) * | 2014-06-30 | 2021-03-30 | Amazon Technologies, Inc. | Efficient duplicate detection for machine learning data sets |
CN107389592B (zh) * | 2017-07-10 | 2021-03-16 | 天津工业大学 | 一种复杂样品光谱信号选择性集成预处理建模方法 |
CN107909154A (zh) * | 2017-12-11 | 2018-04-13 | 四川新网银行股份有限公司 | 一种基于网络搜索的风控模型参数优化方法 |
CN109299501B (zh) * | 2018-08-08 | 2022-03-11 | 浙江大学 | 一种基于工作流的振动光谱分析模型优化方法 |
-
2018
- 2018-08-08 CN CN201810907269.6A patent/CN109299501B/zh active Active
-
2019
- 2019-07-31 WO PCT/CN2019/098673 patent/WO2020029851A1/zh active Application Filing
- 2019-07-31 US US16/973,021 patent/US20210247367A1/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0265911A2 (en) * | 1986-10-31 | 1988-05-04 | Kabushiki Kaisha Toyota Chuo Kenkyusho | Vibration control apparatus |
US20160328644A1 (en) * | 2015-05-08 | 2016-11-10 | Qualcomm Incorporated | Adaptive selection of artificial neural networks |
CN105136688A (zh) * | 2015-09-18 | 2015-12-09 | 东北大学 | 一种用于分析分子光谱的改进可变移动窗偏最小二乘法 |
CN107064054A (zh) * | 2017-02-28 | 2017-08-18 | 浙江大学 | 一种基于cc‑pls‑rbfnn优化模型的近红外光谱分析方法 |
Non-Patent Citations (2)
Title |
---|
HUA SU 等: "Induction Machine Condition Monitoring Using Neural Network Modeling", 《IEEE TRANSACTIONS ON INDUSTRIAL ELECTRONICS ( VOLUME: 54, ISSUE: 1, FEB. 2007)》 * |
谢丽娟 等: "分辨率对近红外光谱和定量分析的影响研究", 《光谱学与光谱分析》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020029851A1 (zh) * | 2018-08-08 | 2020-02-13 | 浙江大学 | 一种基于工作流的振动光谱分析模型优化方法 |
CN111624631A (zh) * | 2020-05-19 | 2020-09-04 | 中国科学院国家授时中心 | 一种并行化信号质量评估方法 |
CN114297946A (zh) * | 2022-02-08 | 2022-04-08 | 无锡雪浪数制科技有限公司 | 一种实现多学科仿真模型降阶的工业互联网平台 |
Also Published As
Publication number | Publication date |
---|---|
CN109299501B (zh) | 2022-03-11 |
US20210247367A1 (en) | 2021-08-12 |
WO2020029851A1 (zh) | 2020-02-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109299501A (zh) | 一种基于工作流的振动光谱分析模型优化方法 | |
CN109493287B (zh) | 一种基于深度学习的定量光谱数据分析处理方法 | |
CN105630743B (zh) | 一种光谱波数的选择方法 | |
CN106124449B (zh) | 一种基于深度学习技术的土壤近红外光谱分析预测方法 | |
CN101414183B (zh) | 基于灰色关联分析的卷烟工序质量综合评价系统及其方法 | |
CN103528990B (zh) | 一种近红外光谱的多模型建模方法 | |
CN104713835B (zh) | 一种烟叶颜色在线数值化识别方法 | |
CN110428270A (zh) | 基于逻辑回归算法的渠道潜在偏好客户识别方法 | |
CN107247033B (zh) | 基于快速衰减式淘汰算法和plsda鉴别黄花梨成熟度的方法 | |
CN102735642A (zh) | 一种快速无损鉴别初榨橄榄油和油橄榄果渣油的方法 | |
CN113420795B (zh) | 一种基于空洞卷积神经网络的矿物光谱分类方法 | |
CN107132267A (zh) | 一种基于随机森林的茶叶分类方法及系统 | |
CN111474137A (zh) | 一种基于卷积神经网络的柑橘糖度无损检测方法 | |
CN114416707A (zh) | 工业时序数据的自动化特征工程方法和装置 | |
CN112285056A (zh) | 一种用于光谱样品个性化校正集选择及建模方法 | |
CN102135496A (zh) | 基于多尺度回归的红外光谱定量分析方法和装置 | |
CN102854151B (zh) | 一种光谱分析中样品集划分的化学计量学方法 | |
CN117150232B (zh) | 一种大模型非时序训练数据质量评价方法 | |
CN117538287A (zh) | 一种无损检测黄冠梨果磷含量的方法及装置 | |
CN113408616A (zh) | 基于pca-uve-elm的光谱分类方法 | |
CN103793850A (zh) | 一种作物育种材料筛选方法和系统 | |
CN107064042A (zh) | 红外光谱的定性分析方法 | |
CN113793652A (zh) | 一种基于分段智能优选的谱图化学计量学解析方法 | |
CN114357886A (zh) | 一种基于多模型加权平均的酒醅近红外光谱建模方法 | |
CN104049624B (zh) | 化工产品生产模式优化方法、装置和连续型化工系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |