CN114184577B - 一种近红外定量检测模型的参数选取方法和定量检测方法 - Google Patents

一种近红外定量检测模型的参数选取方法和定量检测方法 Download PDF

Info

Publication number
CN114184577B
CN114184577B CN202111442860.7A CN202111442860A CN114184577B CN 114184577 B CN114184577 B CN 114184577B CN 202111442860 A CN202111442860 A CN 202111442860A CN 114184577 B CN114184577 B CN 114184577B
Authority
CN
China
Prior art keywords
modeling
sample
model
content
modeling set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111442860.7A
Other languages
English (en)
Other versions
CN114184577A (zh
Inventor
孙菁
李佩佩
李朵
龙若兰
冯丹
孟晓萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwest Institute of Plateau Biology of CAS
Original Assignee
Northwest Institute of Plateau Biology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwest Institute of Plateau Biology of CAS filed Critical Northwest Institute of Plateau Biology of CAS
Priority to CN202111442860.7A priority Critical patent/CN114184577B/zh
Publication of CN114184577A publication Critical patent/CN114184577A/zh
Application granted granted Critical
Publication of CN114184577B publication Critical patent/CN114184577B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/17Systems in which incident light is modified in accordance with the properties of the material investigated
    • G01N21/25Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
    • G01N21/31Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
    • G01N21/35Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
    • G01N21/359Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light using near infrared light
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/17Systems in which incident light is modified in accordance with the properties of the material investigated
    • G01N21/25Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
    • G01N21/31Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
    • G01N21/35Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
    • G01N21/3563Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light for analysing solids; Preparation of samples therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Analytical Chemistry (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Geometry (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Investigating Or Analysing Materials By Optical Means (AREA)

Abstract

本发明公开了一种近红外定量检测模型的参数选取方法和定量检测方法,基于麻花艽或全缘叶绿绒蒿的建模,所述参数选取方法包括建模集样本选择步骤,所述建模集样本选择步骤包括以下子步骤:设置建模集样本量,当基于麻花艽的建模时,所述建模集样本量为80‑100;当基于全缘叶绿绒蒿的建模时,所述建模集样本量为110‑130。本发明相较于现有技术中总是倾向于样本集具有大样本量,本发明的建模集样本量的设置,当基于麻花艽的建模时,所述建模集样本量为80‑100;当基于全缘叶绿绒蒿的建模时,所述建模集样本量为110‑130,使得后续模型质量最好。

Description

一种近红外定量检测模型的参数选取方法和定量检测方法
技术领域
本发明涉及近红外检测领域,尤其涉及一种近红外定量检测模型的参数选取方法和定量检测方法。
背景技术
近红外(Near Infrared,NIR)是一种介于可见光区与中红外区之间的电磁波,其波长范围0.8-2.5m,NIR谱图显示物质分子内部X-H(N-H、O-H、C-H等)的组频和倍频吸收[1]。近红外谱区于1800年被天文学家William Herschel发现,相较于中红外谱区发现的更早,其应用也更早,但是近红外吸收强度弱、谱图信息叠加严重,限于当时理论于技术水平的发展,研究重点逐渐转移到了中红外。到20世纪,随着近红外光谱分析仪的发展,人们开始对近红外光谱分析技术进行关注,结合化学计量学方法、现代光学、计算机处理技术的交叉使用,进一步发展成为了现代近红外光谱分析技术。
近红外光谱分析技术是指利用近红外谱区包含的物质信息来进行定性和定量分析的技术。与传统的湿化学分析技术相比,近红外光谱分析技术快速、高效、便宜、无污染,可以显著提高样品的日检测量,目前近红外光谱分析技术已经被广泛用于药材、农业、医学、食品等领域,通过模型的构建可进行定性、定量分析。这其中,模型的质量决定了模型的适用性,谱图处理、谱图特征提取、建模方法优化等数据处理方法是影响模型质量的主要因素,围绕此方面也开展了许多研究工作,也有针对样品研究部位对模型质量影响的研究,此外也有研究表明高质量的谱图对模型也有影响,扫描次数、分辨率、扫描速度、样品状态等均可影响谱图质量,且重复谱图间误差越小模型准确度越高。目前对建模集的研究集中在样本的选择方法上,常用的方法有Kennard-Stone方法、SPXY法、浓度梯度法、聚类分析等方法,对建模集样本量、样本集SD(Standard deviation)等的研究较少。建模集选择时应具有一定的代表性,因此现有技术中总是倾向于样本集具有大样本量(且浓度范围要广);但是对该选择是否正确(样本量、样本SD值与模型效果的关系)则鲜有研究。
发明内容
本发明的目的在于克服现有技术的不足,提供一种近红外定量检测模型的参数选取方法和定量检测方法。
本发明的目的是通过以下技术方案来实现的:
本发明的第一方面,提供一种近红外定量检测模型的参数选取方法,基于麻花艽或全缘叶绿绒蒿的建模,所述参数选取方法包括建模集样本选择步骤,所述建模集样本选择步骤包括以下子步骤:
设置建模集样本量:当基于麻花艽的建模时,所述建模集样本量为80-100;当基于全缘叶绿绒蒿的建模时,所述建模集样本量为110-130。
进一步地,当基于麻花艽的建模时,所述建模集样本量为90;当基于全缘叶绿绒蒿的建模时,所述建模集样本量为120。
进一步地,所述建模集样本选择步骤还包括以下子步骤:
选择离散性大的建模集作为建模集样本;对于麻花艽、全缘叶绿绒蒿建模时,选择SD值最大的建模集作为建模集样本。
进一步地,所述方法还包括单位选择步骤,所述单位选择步骤包括以下子步骤:
通过改变含量单位以增大含量值的数量级来建模,即将单位由%改为mg/g时模型各指标变化趋势一致,用于样本中含量低于0.10%的混合物的建模。
进一步地,对于麻花艽,所述含量为龙胆苦苷及马钱苷酸总和的百分含量;对于全缘叶绿绒蒿,所述含量为总黄酮所占百分含量。
进一步地,所述参数选取方法包括还包括建模集样本修正步骤,所述建模集样本修正步骤包括以下子步骤:
在后期进行模型修正时,不能一味地通过增加样本量,要对原有建模集进行适当的添加与删除。
进一步地,所述麻花艽或全缘叶绿绒蒿的样本大于300份。
本发明的第二方面,提供一种近红外定量检测方法,包括建模集选取步骤和定量检测步骤;所述建模集选取步骤采用所述的近红外定量检测模型的参数选取方法实现。
本发明的有益效果是:
(1)在本发明的一示例性实施例中,相较于现有技术中总是倾向于样本集具有大样本量,本示例性实施例中,当基于麻花艽的建模时,所述建模集样本量为90;当基于全缘叶绿绒蒿的建模时,所述建模集样本量为120,使得后续模型质量最好。
(2)在本发明的又一示例性实施例中,在进行后期的模型修正时不能一味地通过增加样本量来实现,要考虑对原有建模集进行适当的添加与删除。
(3)在本发明的又一示例性实施例中,通过改变含量单位以增大含量值的数量级来建模,即将单位由%改为mg/g时模型各指标变化趋势一致,用于样本中含量低于0.10%的混合物的建模。
(4)在本发明的又一示例性实施例中,进行建模集样本的选择时,要使建模集能够涵盖活性成分含量最大值与最小值,尽可能加大样本的离散性,使建模集具有一定的代表性。对于麻花艽、全缘叶绿绒蒿建模时,选择SD值最大的建模集作为建模集样本。
附图说明
图1为本发明一示例性实施例中提供的方法流程图;
图2为本发明一示例性实施例中提供的麻花艽建模集不同样本量对模型Rcal和模型Rcv效果的影响示意图;
图3为本发明一示例性实施例中提供的麻花艽建模集不同样本量对模型RMSEC和模型RMSECV效果的影响示意图;
图4为本发明一示例性实施例中提供的麻花艽建模集不同样本量的模型改变含量单位对模型参数Rcal的影响示意图;
图5为本发明一示例性实施例中提供的麻花艽建模集不同样本量的模型改变含量单位对模型参数Rcv的影响示意图;
图6为本发明一示例性实施例中提供的麻花艽建模集不同样本量的模型改变含量单位对模型参数RMSEC的影响示意图;
图7为本发明一示例性实施例中提供的麻花艽建模集不同样本量的模型改变含量单位对模型参数RMSECV的影响示意图;
图8为本发明一示例性实施例中提供的麻花艽建模集相同建模集样本量在不同含量范围内各模型参数示意图;
图9为本发明一示例性实施例中提供的全缘叶绿绒蒿建模集不同样本量对模型Rcal和模型Rcv效果的影响示意图;
图10为本发明一示例性实施例中提供的全缘叶绿绒蒿建模集不同样本量对模型RMSEC和模型RMSECV效果的影响示意图;
图11为本发明一示例性实施例中提供的全缘叶绿绒蒿建模集不同样本量的模型改变含量单位对模型参数Rcal的影响示意图;
图12为本发明一示例性实施例中提供的全缘叶绿绒蒿建模集不同样本量的模型改变含量单位对模型参数Rcv的影响示意图;
图13为本发明一示例性实施例中提供的全缘叶绿绒蒿建模集不同样本量的模型改变含量单位对模型参数RMSEC的影响示意图;
图14为本发明一示例性实施例中提供的全缘叶绿绒蒿建模集不同样本量的模型改变含量单位对模型参数RMSECV的影响示意图;
图15为本发明一示例性实施例中提供的全缘叶绿绒蒿建模集相同建模集样本量在不同含量范围内各模型参数示意图。
具体实施方式
下面结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,属于“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方向或位置关系为基于附图所述的方向或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,属于“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。此外,属于“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
参见图1,图1示出了本发明的一示例性实施例中提供一种近红外定量检测模型的参数选取方法,基于麻花艽或全缘叶绿绒蒿的建模,所述参数选取方法包括建模集样本选择步骤,所述建模集样本选择步骤包括以下子步骤:
设置建模集样本量:当基于麻花艽的建模时,所述建模集样本量为80-100;当基于全缘叶绿绒蒿的建模时,所述建模集样本量为110-130。
具体地,相较于现有技术中总是倾向于样本集具有大样本量,本示例性实施例中,当基于麻花艽的建模时,所述建模集样本量为80-100;当基于全缘叶绿绒蒿的建模时,所述建模集样本量为110-130,使得后续模型质量最好。
下述内容分别对麻花艽和全缘叶绿绒蒿的参数选择进行原理说明,其中,更优地,在一示例性实施例中,对于麻花艽,所述含量为龙胆苦苷及马钱苷酸总和的百分含量;对于全缘叶绿绒蒿,所述含量为总黄酮所占百分含量。首先为对麻花艽的说明:
1.样品来源
从地理分布尺度和生态分布梯度上开展大范围多点采样,于目标植物花期期间在青海省黄河以北地区共采集得到24个不同居群样品。在同一居群采样时,选取典型的有代表性的麻花艽资源分布的植物群落采集多株,共得到360份样品(即更优地,在一示例性实施例中,所述麻花艽或全缘叶绿绒蒿的样本大于300份)。原植物标本经孙菁研究员鉴定为龙胆科(Gentianaceae)龙胆属(Gentiana)麻花艽(Gentiana straminea Maxim.)。
2.建模集样本量
2020版《中华人民共和国药典》规定秦艽类药材中龙胆苦苷及马钱苷酸总量应大于2.5%,因此,所建定量模型为龙胆苦苷及马钱苷酸总和所占百分比的预测模型。以30为一个梯度将建模集样本量分别设置为30、60、90、120、150、180、210、240、270、300、330、360,共得到12个具有不同样本量的模型;建模集样本选择时,首先将样品龙胆苦苷和马钱苷酸活性成分含量总和按从低到高的顺序进行梯度排列,然后依次将样本划分为对应数量的组数,即样本量为多少个则划分为多少组,所有组的前一半取各组的第一个样品,后一半取各组的最后一个样品,以此保证不同样本量的建模集均包括化合物含量最大值及最小值,建模集样本浓度范围一致。如建模集样本量为30时,则将360份样品按含量从小到大的顺序排列,并分为30组,每组包含12个样品,在1-15分组中,选每组的第一个样品为建模集,在16-30分组中选每组的最后一个样品为建模集,以此类推,共30个样品组成样本集。
3.模型评价
根据之前研究,以上所有模型的建立均使用PLS方法,谱图预处理条件为MSC+D2,谱图平滑为Norris(5,5),建模波段为8843-4347cm-1。模型的考察指标为校正相关系数(coefficient of calibration,Rcal),交叉验证相关系数(coefficient of crossvalidation,Rcv),校正误差均方根(root mean square errors of calibration,RMSEC)和留一交叉验证误差均方根(root mean square errors of cross validation,RMSECV)。
4.建模集样本量对模型质量的影响
不同样本量条件下所建模型各指标结果如图2和图3所示。由图2和图3可知,建模集及交叉验证集的R值及RMSE值随样本量的增加,变化趋势一致:R值先升后降再升,最后趋于稳定,当建模集样本量为90时R值最大(Rcal=0.9181,Rcv=0.8389,如图2所示);RMSE值先降后升再降,随后趋于稳定,当建模集样本量为90时RMSE值最小(RMSEC=0.49,RMSECV=0.67,如图3所示)。当建模集样本量分别为30和150时,模型效果相对其他模型较差。由此可知,并非建模集样本量越多模型质量就越好,当样本量达到一定量时模型的质量趋于稳定,基于R及RMSE的变化,建模集样本量为90时,模型质量最好;当样本量为240时趋于稳定。因此建立模型应遵循“少而精”的原则,当建模样品数太多时,由于干扰信息的增强,会影响模型的质量,这很好的解释了随着建模集样本量的增加,模型效果下降的现象,这提示我们在进行定量模型的建立时应选择合适的样本量,样本量小模型效果差,且适应性也较差;而样本量过大又会因引入过多误差而降低模型质量。因此,当基于麻花艽的建模时,所述建模集样本量为80-100,模型效果很好;并且更优地,在一示例性实施例中,当基于麻花艽的建模时,所述建模集样本量为90,模型效果更好。
同理,对于,所述参数选取方法包括还包括建模集样本修正步骤,所述建模集样本修正步骤包括以下子步骤:
在后期进行模型修正时,不能一味地通过增加样本量,要对原有建模集进行适当的添加与删除。即要选择合适的样本量,这也提示我们在进行后期的模型修正时不能一味地通过增加样本量来实现,要考虑对原有建模集进行适当的添加与删除。
5.建模集样本活性成分含量
建模集样本活性成分含量考察分为两部分。2项下建模集样本量的考察是根据麻花艽中龙胆苦苷及马钱苷酸总和的百分含量进行,改变活性成分单位后其含量数量级大小会发生变化。因此,为了考察样本浓度对建模的影响,一方面将2项中12个模型中龙胆苦苷及马钱苷酸总和的单位由%改为mg/g后再建模进行比较;另一方面将样品按含量从低到高的顺序进行排列,根据2项中优化出的最佳建模集样本量,得到若干样本量相同但样本含量浓度范围不同的模型,考察建模集活性成分含量高低对模型质量的影响。
6.含量单位对模型的影响
同一样本集,在改变含量单位的情况下,其数值大小会发生改变。由图4~图7可知(分别为模型Rcal结果、模型Rcv结果、模型RMSEC结果、模型RMSECV结果),4项下各模型改变含量单位后,各模型Rcal、Rcv值基本保持不变,RMSEC、RMSECV值趋势与含量单位为%时趋势一致,数值相对变大,但本质上是由于改变单位后数量级变大造成的。由此可见,针对同一样本集,不论数据采用什么含量表述单位,其建模结果基本一样,也就是说含量单位的变化对模型效果基本没有影响。通常情况下,含量低于0.10%的化合物在利用近红外光谱建立定量模型时具有一定的局限,从我们的研究结果看,利用近红外光谱技术对含量过低的化合物建模时,可考虑通过改变其含量单位、增大含量值的数量级来建模。
因此可知,同一建模集,改变含量单位尽管可以使数量级变大,但是并不能提高模型质量。该结果对含量小于0.1%的化合物的建模提供了思路,即可通过改变参考值单位来进行建模。
即更优地,在一示例性实施例中,所述方法还包括单位选择步骤,所述单位选择步骤包括以下子步骤:
通过改变含量单位以增大含量值的数量级来建模,即将单位由%改为mg/g时模型各指标变化趋势一致,用于样本中含量低于0.10%的混合物的建模。
7.建模集含量范围对模型的影响
由于同一建模集改变含量单位对模型效果影响不大,所以只考虑含量单位为%时的情况。根据4项中建模集样本量对模型效果影响的考察,当样本量为90时模型质量最好。考察建模集含量高低对模型影响时,将样品按含量从低到高的顺序,以90个样品为一组分为不同含量范围来建模,360份样品分别设置1-90、91-180、181-270、271-360的4个含量范围进行建模,在此条件下各模型评价指数如表1所示。由表1可见,在相同样本量下,不同含量范围对建模有一定影响,所得4个模型质量均不好,模型R值较低,表明模型质量与样品含量高低之间并无内在关联,并不是样品含量越高模型质量越好,这一结果与2.2.1项中改变含量单位使数值变大对模型质量无影响的结果类似。
表1不同含量浓度变化范围对麻花艽建模效果的影响
Table 1 The influence of content variation to model performance
8.建模集SD值对模型质量的影响
表2给出了在相同含量浓度范围内,不同建模集样本量在不同含量单位的情况下,建模集SD值对模型的影响。由表2可知,同一建模集含量单位不同,其SD值不同,但是模型效果基本相同,所以对于同一建模集而言,SD值对建模效果无影响。在相同的建模集含量范围内,不同样本量间建模集SD值虽然相同,但是其模型效果不同,表明在含量范围相同的情况下建模集SD值对模型没有影响,对模型影响较大的是建模集样本量。而对于相同样本量但不同含量范围的模型来说,模型的R值和RMSE值随SD值的升高而升高(如图8所示)。R值的趋势表明,建模集的选择要有一定的离散性,模型适应的含量范围要尽可能大。
表2相同含量范围内不同麻花艽样本量条件下建模集SD值
Table 2 The SD values of model of different modeling numer in thesame content range
综上,在相同的样本含量范围内,不同样本量的建模集SD值相同,但是各模型效果不同,模型效果的差异主要由样本量决定;而对于相同样本量,不同建模集含量范围下所建的模型,模型质量随SD值的升高而升高。
因此,进行建模集样本的选择时,要使建模集能够涵盖活性成分含量最大值与最小值,尽可能加大样本的离散性,使建模集具有一定的代表性。对应地,更优地,在一示例性实施例中,所述建模集样本选择步骤还包括以下子步骤:
选择离散性大的建模集作为建模集样本;对于麻花艽建模时,选择SD值最大的建模集作为建模集样本。
然后,下述内容对全缘叶绿绒蒿进行说明,当没有其他额外说明时,部分方式(样本量、模型评价)与麻花艽相同:
1.建模集样本量对模型质量的影响
不同全缘叶绿绒蒿样本量条件下所建模型各指标结果如图9和图10所示。由图9和图10可知,各全缘叶绿绒蒿定量模型建模集及交叉验证集的R值及RMSE值随样本量的增加,变化趋势一致:R值先降后升,最后趋于稳定;当建模集样本量为30时R值最大(Rcal=0.8549,Rcv=0.7051,如图9所示),样本量为120时R值再次到达一个峰值(Rcal=0.8019,Rcv=0.7538,如图9所示);RMSE值先降后升再降,随后趋于稳定,当建模集样本量为120时RMSE值最小(RMSEC=1.02,RMSECV=1.12,如图10所示)。由此可知,并非建模集样本量越多模型质量就越好,当样本量达到一定量时模型的质量趋于稳定,基于R及RMSE的变化,建模集样本量为120时,模型质量最好。因此,当基于全缘叶绿绒蒿的建模时,所述建模集样本量为110-130,模型效果很好;并且更优地,在一示例性实施例中,当当基于全缘叶绿绒蒿的建模时,所述建模集样本量为120,模型效果更好。
同理,对于,所述参数选取方法包括还包括建模集样本修正步骤,所述建模集样本修正步骤包括以下子步骤:
在后期进行模型修正时,不能一味地通过增加样本量,要对原有建模集进行适当的添加与删除。即要选择合适的样本量,这也提示我们在进行后期的模型修正时不能一味地通过增加样本量来实现,要考虑对原有建模集进行适当的添加与删除。
2.含量单位对模型的影响
同一样本集,在改变含量单位的情况下,其数值大小会发生改变。由图11~图14可知(图1~图14分别位模型Rcal结果、模型Rcv结果、模型RMSEC结果、模型RMSECV结果),1项下各模型改变含量单位后,各模型Rcal、Rcv值完全重合,RMSEC、RMSECV值趋势与含量单位为%时趋势一致,数值相对变大,但本质上是由于改变单位后数量级变大造成的。由此可见,针对同一样本集,不论数据采用什么含量表述单位,全缘叶绿绒蒿建模结果基本一样,也就是说含量单位的变化对全缘叶绿绒蒿模型效果基本没有影响。通常情况下,含量低于0.10%的化合物在利用近红外光谱建立定量模型时具有一定的局限,从我们的研究结果看,利用近红外光谱技术对含量过低的化合物建模时,可考虑通过改变其含量单位、增大含量值的数量级来建模。
因此可知,同一建模集,改变含量单位尽管可以使数量级变大,但是并不能提高模型质量。该结果对含量小于0.1%的化合物的建模提供了思路,即可通过改变参考值单位来进行建模。
即更优地,在一示例性实施例中,所述方法还包括单位选择步骤,所述单位选择步骤包括以下子步骤:
通过改变含量单位以增大含量值的数量级来建模,即将单位由%改为mg/g时模型各指标变化趋势一致,用于样本中含量低于0.10%的混合物的建模。
3.建模集含量范围对模型的影响
由于同一建模集改变含量单位对模型效果影响不大,所以只考虑含量单位为%时的情况。根据2.1项中建模集样本量对全缘叶绿绒蒿模型效果影响的考察,当样本量为120时模型质量最好。考察建模集含量高低对模型影响时,将样品按含量从低到高的顺序,以120个样品为一组分为不同含量范围来建模,360份样品分别设置1-120、121-240、241-360以及浓度范围最大的1-360中选取120份样品,共4个含量范围进行建模,在此条件下各模型评价指数如表1所示。由表1可见,在相同样本量下,不同含量范围对建模有一定影响,所得4个模型质量均不好,模型R值较低,表明模型质量与样品含量高低之间并无内在关联,并不是样品含量越高模型质量越好,这一结果与2项中改变含量单位使数值变大对模型质量无影响的结果类似。
表3不同含量浓度变化范围对全缘叶绿绒蒿建模效果的影响
Table 3 The influence of content variation to model performance
4.建模集SD值对模型质量的影响
表4给出了在相同含量浓度范围内,不同建模集样本量在不同含量单位的情况下,建模集SD值对模型的影响。由表4可知,同一建模集含量单位不同,其SD值不同,但是模型效果基本相同,所以对于同一建模集而言,SD值对建模效果无影响。在相同的建模集含量范围内,不同样本量间建模集SD值即使相同,模型效果也不同,表明在含量范围相同的情况下建模集SD值对模型没有影响,对模型影响较大的是建模集样本量。而对于相同样本量但不同含量范围的模型而言,在总体趋势以上模型的R值及RMSE值随SD值的升高而升高(图3)。R值的趋势表明,建模集的选择要有一定的离散性,全缘叶绿绒蒿模型适应的含量范围要尽可能大。
表4相同含量范围内不同全缘叶绿绒蒿样本量条件下建模集SD值
Table 4 The SD values of model of different modeling numer in thesame content range
综上,在相同的样本含量范围内,不同样本量的建模集SD值相同,但是各模型效果不同,模型效果的差异主要由样本量决定;而对于相同样本量,不同建模集含量范围下所建的模型,模型质量随SD值的升高而升高。
因此,进行建模集样本的选择时,一方面要使建模集能够涵盖活性成分含量最大值与最小值,尽可能加大样本的离散性,使建模集具有一定的代表性。对应地,更优地,在一示例性实施例中,所述建模集样本选择步骤还包括以下子步骤:
选择离散性大的建模集作为建模集样本;对于全缘叶绿绒蒿建模时,选择SD值最大的建模集作为建模集样本。
基于上述任意一示例性实施例的实现,本发明的又一示例性实施例提供一种近红外定量检测方法,包括建模集选取步骤和定量检测步骤;所述建模集选取步骤采用上述任意一示例性实施例的近红外定量检测模型的参数选取方法实现。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定,对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其他不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (5)

1.一种近红外定量检测模型的参数选取方法,其特征在于:基于麻花艽或全缘叶绿绒蒿的建模,用于麻花艽中龙胆苦苷及马钱苷酸总和所占百分比的预测模型、以及全缘叶绿绒蒿中总黄酮所占百分含量的预测模型;所有模型的建立均使用PLS方法,谱图预处理条件为MSC+D2,谱图平滑为Norris(5,5),建模波段为8843-4347cm-1,模型的考察指标为校正相关系数Rcal、交叉验证相关系数Rcv、校正误差均方根RMSEC和留一交叉验证误差均方根RMSECV;
所述参数选取方法包括建模集样本选择步骤,所述建模集样本选择步骤包括以下子步骤:
设置建模集样本量:当基于麻花艽的建模时,所述建模集样本量为80-100;当基于全缘叶绿绒蒿的建模时,所述建模集样本量为110-130;
选择离散性大的建模集作为建模集样本;对于麻花艽、全缘叶绿绒蒿建模时,选择SD值最大的建模集作为建模集样本;
所述参数选取方法还包括单位选择步骤,所述单位选择步骤包括以下子步骤:
通过改变含量单位以增大含量值的数量级来建模,即将单位由%改为mg/g时模型各指标变化趋势一致,用于样本中含量低于0.10%的混合物的建模;
所述参数选取方法包括还包括建模集样本修正步骤,所述建模集样本修正步骤包括以下子步骤:
在后期进行模型修正时,不能一味地增加样本量,要对原有建模集进行适当的添加与删除。
2.根据权利要求1所述的一种近红外定量检测模型的参数选取方法,其特征在于:当基于麻花艽的建模时,所述建模集样本量为90;当基于全缘叶绿绒蒿的建模时,所述建模集样本量为120。
3.根据权利要求1所述的一种近红外定量检测模型的参数选取方法,其特征在于:对于麻花艽,所述含量为龙胆苦苷及马钱苷酸总和的百分含量;对于全缘叶绿绒蒿,所述含量为总黄酮所占百分含量。
4.根据权利要求1所述的一种近红外定量检测模型的参数选取方法,其特征在于:所述麻花艽或全缘叶绿绒蒿的样本大于300份。
5.一种近红外定量检测方法,其特征在于:包括建模集选取步骤和定量检测步骤;所述建模集选取步骤采用如权利要求1~4中任意一项所述的近红外定量检测模型的参数选取方法实现。
CN202111442860.7A 2021-11-30 2021-11-30 一种近红外定量检测模型的参数选取方法和定量检测方法 Active CN114184577B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111442860.7A CN114184577B (zh) 2021-11-30 2021-11-30 一种近红外定量检测模型的参数选取方法和定量检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111442860.7A CN114184577B (zh) 2021-11-30 2021-11-30 一种近红外定量检测模型的参数选取方法和定量检测方法

Publications (2)

Publication Number Publication Date
CN114184577A CN114184577A (zh) 2022-03-15
CN114184577B true CN114184577B (zh) 2023-08-22

Family

ID=80603014

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111442860.7A Active CN114184577B (zh) 2021-11-30 2021-11-30 一种近红外定量检测模型的参数选取方法和定量检测方法

Country Status (1)

Country Link
CN (1) CN114184577B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109270022A (zh) * 2018-09-14 2019-01-25 山东大学 一种近红外光谱模型的波段选择方法及模型构建方法
CN110068547A (zh) * 2019-05-06 2019-07-30 中国科学院西北高原生物研究所 一种黄管秦艽的判别方法
CN111024643A (zh) * 2019-11-26 2020-04-17 中国科学院西北高原生物研究所 一种麻花艽药材品质评价的近红外光谱检测方法
WO2021073541A1 (zh) * 2019-10-17 2021-04-22 山东大学 一种基于光谱相似度的校正集和验证集的选择及建模方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109270022A (zh) * 2018-09-14 2019-01-25 山东大学 一种近红外光谱模型的波段选择方法及模型构建方法
CN110068547A (zh) * 2019-05-06 2019-07-30 中国科学院西北高原生物研究所 一种黄管秦艽的判别方法
WO2021073541A1 (zh) * 2019-10-17 2021-04-22 山东大学 一种基于光谱相似度的校正集和验证集的选择及建模方法
CN111024643A (zh) * 2019-11-26 2020-04-17 中国科学院西北高原生物研究所 一种麻花艽药材品质评价的近红外光谱检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
龙胆药材中龙胆苦苷和马钱子苷酸含量的测定及其指纹图谱研究;李文龙等;药学学报;第42卷(第5期);566-570 *

Also Published As

Publication number Publication date
CN114184577A (zh) 2022-03-15

Similar Documents

Publication Publication Date Title
CN104048941B (zh) 采用近红外光谱快速测定麦冬中多指标性成分含量的方法
CN108680515B (zh) 一种单粒水稻直链淀粉定量分析模型构建及其检测方法
CN110716021B (zh) 一种快速判断六堡茶渥堆发酵程度的方法
CN108535375B (zh) 一种基于液质联用代谢组学分析玛咖标志性代谢产物的方法
CN108801975B (zh) 一种微型化近红外光谱仪检测酒糟成分的光谱预处理方法
CN106018335A (zh) 基于近红外光谱的整粒棉籽中植酸含量的无损测定方法
Faberi et al. Fatty acid composition and δ13C of bulk and individual fatty acids as marker for authenticating Italian PDO/PGI extra virgin olive oils by means of isotopic ratio mass spectrometry
CN109490246A (zh) 一种前胡药材质量的快速检测方法
CN110346445A (zh) 一种基于气体分析质谱及近红外光谱分析烟叶霉变的方法
Sha et al. Improving Raman spectroscopic identification of rice varieties by feature extraction
CN111208251B (zh) 一种白茶年份判别方法
CN113008815A (zh) 一种基于高光谱图像信息无损检测酸枣仁中总黄酮的方法
CN109916844B (zh) 一种小麦籽粒抗性淀粉含量的快速测定方法
CN104865322A (zh) 一种栀子萃取液浓缩过程快速检测方法
CN113176227A (zh) 一种快速预测河南石斛掺伪霍山石斛的方法
CN112630180B (zh) 水体中有机磷农药浓度检测的紫外/可见光吸收光谱模型
CN114184577B (zh) 一种近红外定量检测模型的参数选取方法和定量检测方法
CN109001143A (zh) 一种灵敏预测麻黄品质特性的中红外光谱法
WO2023207453A1 (zh) 一种基于光谱聚类的中药成分分析方法及系统
CN112326574B (zh) 一种基于贝叶斯分类的光谱波长选择方法
Gilmore et al. Accurate varietal classification and quantification of key quality compounds of grape extracts using the absorbance-transmittance fluorescence excitation emission matrix (A-TEEM) method and machine learning
CN115201393B (zh) 一种黄精芡实汤的质量检测方法
CN109406413A (zh) 基于高光谱成像技术预测枸杞子中圣草酚含量的方法
CN111624192B (zh) 一种多源光谱融合的滇龙胆种类识别方法及系统
CN108956527B (zh) 快速检测红枣中环磷酸腺苷cAMP含量的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant