CN114662858B - 基于数据融合的中藏药材成分质量评价方法 - Google Patents

基于数据融合的中藏药材成分质量评价方法 Download PDF

Info

Publication number
CN114662858B
CN114662858B CN202210185098.7A CN202210185098A CN114662858B CN 114662858 B CN114662858 B CN 114662858B CN 202210185098 A CN202210185098 A CN 202210185098A CN 114662858 B CN114662858 B CN 114662858B
Authority
CN
China
Prior art keywords
fusion
model
data
primary
regression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210185098.7A
Other languages
English (en)
Other versions
CN114662858A (zh
Inventor
孙菁
李朵
李佩佩
龙若兰
冯丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwest Institute of Plateau Biology of CAS
Original Assignee
Northwest Institute of Plateau Biology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwest Institute of Plateau Biology of CAS filed Critical Northwest Institute of Plateau Biology of CAS
Priority to CN202210185098.7A priority Critical patent/CN114662858B/zh
Publication of CN114662858A publication Critical patent/CN114662858A/zh
Application granted granted Critical
Publication of CN114662858B publication Critical patent/CN114662858B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06395Quality analysis or management
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/17Systems in which incident light is modified in accordance with the properties of the material investigated
    • G01N21/25Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
    • G01N21/31Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
    • G01N21/33Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using ultraviolet light
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/17Systems in which incident light is modified in accordance with the properties of the material investigated
    • G01N21/25Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
    • G01N21/31Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
    • G01N21/35Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/17Systems in which incident light is modified in accordance with the properties of the material investigated
    • G01N21/25Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
    • G01N21/31Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
    • G01N21/35Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
    • G01N21/359Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light using near infrared light
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/17Systems in which incident light is modified in accordance with the properties of the material investigated
    • G01N21/55Specular reflectivity
    • G01N21/552Attenuated total reflection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • General Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Pathology (AREA)
  • Immunology (AREA)
  • Biochemistry (AREA)
  • Analytical Chemistry (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Strategic Management (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Game Theory and Decision Science (AREA)
  • Evolutionary Biology (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Computing Systems (AREA)
  • Investigating Or Analysing Materials By Optical Means (AREA)

Abstract

本发明公开了基于数据融合的中藏药材成分质量评价方法,属于中药材鉴定技术领域,方法包括采集样品的NIR光谱、MIR光谱和ATR光谱,并将光谱进行串联融合处理得到初级融合数据,进而建立初级融合模型;基于SVR法提取初级融合数据的特征值进而得到中级融合数据,进而建立中级融合模型;将性能优异的模型进行决策层融合,得到高级融合模型,利用高级融合模型对中藏药材成分进行质量评价。本发明基于初级数据融合将不同特征综合在一起,有效地利用了全部特征,提高准确度;基于中级数据融合解决了特征维度过高的问题;基于高级融合克服了不同回归模型对不同样本回归时性能不同的问题,以此提升模型的准确性和稳健性。

Description

基于数据融合的中藏药材成分质量评价方法
技术领域
本发明涉及中药材鉴定技术领域,尤其涉及基于数据融合的中藏药材成分质量评价方法。
背景技术
药材品质是保障临床用药安全性和有效性的重要物质基础,是发展我国中医事业的关键,药材中活性成分的含量是评价药材品质好坏的重要标准。而化学成分含量受到环境、农艺、加工等诸多因素的影响。产地作为重要的因素之一,不同产地的同种药材之间存在质量差异,故而有必要对药材的产地进行准确判别,从源头把控药材品质。常见的药材活性成分含量测定方法有高效液相色谱法、紫外分光光度法、气相色谱法等,这些方法对药材具有破坏性,对多来源药材研究具有一定局限性,且耗时耗力、环境不友好。这些质量评价方法存在主观随机性和操作上滞后的问题,因此,亟待发展一种新的快速准确的质量评价方法。
1800年,英国物理学家Hershel从热观点研究各种色光时发现近红外后,经过科学家们一步步研究与探索,红外光谱分析技术已发展成为一门热门的技术。红外光谱分析是光谱测量技术、计算机技术、化学计量学技术与基础测试技术的有机结合,主要采用整体分析方法,可同时进行多种成分分析,分为近红外(Near Infrared,NIR),中红外(MidInfrared,MIR)和远红外。其主要优点在于测定快速、操作简单、用料少、样品前处理简单、测试重现性好,可实现在线检测,目前已广泛应用于药材、农业、医疗、食品和石油等领域。红外光谱虽然便于使用,但样品的光谱信息相互叠加,很难识别出其中的单一成分,化学计量学方法的结合应用可以从复杂信息中提取有效信息,使红外技术的应用更加方便与多元化。
单一光谱获得的化学信息中,往往容易忽略了多种成分与机制的协同作用,反映的信息较为片面,难以体现中藏药材的复杂化学成分,对原料药材产地溯源和质量评价具有一定的局限性。数据融合是一种将不同来源数据进行融合的策略,使用数学方法剔除无用信息而保留有效信息,增加样品被检测化学信息,弥补单一仪器分析方法上的不足,增强模型的稳健性。目前,数据融合策略已被应用于食品安全、环境科学、生物医药等行业。在中药质量评价研究领域,现有技术采用NIR、UV并结合光谱融合技术实现了对石斛属植物的快速分类,说明多光谱融合技术可用于原药材的定性分析;还采用FT-IR、UV结合光谱融合技术对不同地区的牛肝菌进行分类研究,结果表明多光谱数据融合技术在一定程度上可提高单一光谱产地判别模型的准确率。进一步地,有学者将红外-紫外光谱数据融合技术应用于测定中药注射剂中6种人参皂苷和4种糖,与单一光谱建立的模型相比,数据融合策略下的模型效果取得了显著性提高,表明多光谱数据融合策略可在一定程度上优化定量检测模型,可提高定量模型的性能。然而由于中藏药材的复杂化学成分,基于上述光谱融合技术仍无法实现可靠性高的中藏药材质量评价。因此,亟待建立一种快速精准测定中藏药材产地判别及有效成分含量的质量评价方法,以期提高药材质量标准,从源头上把控药材品质。
发明内容
本发明的目的在于克服现有技术无法快速精准实现全缘叶绿绒蒿原药材质量评价的问题,提供了基于数据融合的中藏药材成分质量评价方法。
本发明的目的是通过以下技术方案来实现的:基于数据融合的中藏药材成分质量评价方法,所述方法包括以下步骤:
A:测定各中藏药材样品中待测质量评价成分的含量;其中,待测质量评价成分(待测成分)可以为总黄酮、生物碱、多糖等,即本发明方法适用于对不同中藏药材中不同物质进行质量评价,进而快速精准测定中藏药材产地判别及有效成分含量。
B:采集样品的NIR光谱(近红外光谱)、MIR光谱(中红外光谱)和ATR光谱(衰减全反射光谱);在一示例中,采集NIR光谱的扫描参数为:扫描范围为10000-4000cm-1,分辨率为8cm-1,扫描64次;采集MIR光谱的扫描参数为:扫描范围为4000-400cm-1,分辨率为4cm-1,扫描32次;采集ATR光谱的扫描参数为:扫描范围为4000-400cm-1,分辨率为4cm-1,扫描32次。
C:将NIR光谱、MIR光谱和ATR光谱中任意两种或三种光谱进行串联融合处理,得到初级融合数据;其中,初级融合是将不同来源的数据之间连在一起,各光谱之间的数据可以相互补充,弥补单一数据的不足,增强模型的稳健性。优选初级融合数据为ATR-NIR光谱融合数据、MIR-NIR光谱融合数据、ATR-MIR光谱融合数据及ATR-MIR-NIR光谱融合数据。
D:基于初级融合数据采用多种回归法分别建立多个初级融合模型;本步骤中,可对各初级融合模型的性能进行评价,得到性能优异的建模方法。其中,性能优异定义为针对当前中藏药材样品中待测成分进行质量评价时,该模型能够得出更加贴合实际的质量评价结果。
E:基于SVR法(支持向量随机法)提取初级融合数据的特征值进而得到中级融合数据;其中,中级融合是特征层的融合,即采用化学计量学方法及SVR法对初级融合的数据进行特征值的提取,可以剔除无用信息而保留有效信息,在初级融合的基础上进一步提升模型的性能。
F:基于中级融合数据采用多种回归法分别建立多个中级融合模型,并对各中级融合模型的性能进行评价,得到性能优异的多个第一中级融合模型;
G:将多个第一中级融合模型进行决策层融合,得到高级融合模型,利用高级融合模型对中藏药材成分进行质量评价。
在一示例中,将多个第一中级融合模型进行决策层融合进行决策层融合还包括:
根据各第一中级融合模型的性能确定融合的权重系数;
根据各第一中级融合模型对应的权重系数进行决策层融合,得到高级融合模型。作为一示例,决策层融合过程中权重系数计算公式为:
其中,i=1…n;scorei为第i个模型的决定系数(coefficient ofdetermination)。
在一示例中,采用多种回归法分别建立初级融合模型和/或中级融合模型时,还包括:
利用Python软件基于贝叶斯岭回归BRR、高斯过程回归GPR、偏最小二乘回归PLS、弹性网络回归ENR、支持向量机回归SVR、随机森林中任意多种回归法建立初级融合模型或中级融合模型。优选,基于上述6中回归方法分别建立初级融合模型和中级融合模型,以得到针对目前中藏药材的待测成分最为精准的质量评价模型。
在一示例中,对初级融合模型和/或中级融合模型的性能进行评价时,具体包括:
以校正集均方根误差RMSEc、交叉验证均方根偏差RMSEcv、验证集均方根偏差RMSEp、校正集相关系数Rcal、验证集相关系数Rval、交叉相关系数Rcv、相对分析误差RPD中任意一种或多种指标评价模型性能,进而获取性能优异模型的建模参数。
需要进一步说明的是,上述各示例对应的技术特征可以相互组合或替换构成新的技术方案。
在一示例中,本发明方法用于对全缘叶绿绒蒿总黄酮质量评价时,测定各中藏药材样品中待质量评价成分的含量具体包括:
对全缘叶绿绒蒿样品进行总黄酮提取;
利用紫外分光光度法测定样品的吸光度,结合标准曲线计算出样品中总黄酮的含量。
在一示例中,全缘叶绿绒蒿样品总黄酮优选提取条件为:
以料液比1∶50、提取液浓度55%、提取时间20min、提取温度60℃、超声功率200W提取样品总黄酮。
进一步地,本发明方法用于对全缘叶绿绒蒿总黄酮质量评价,建立初级融合模型时,具体包括:
当初级融合数据为ATR-NIR光谱数据时,初级融合模型基于高斯过程回归法进行建模;模型参数RMSEc、Rcal、RMSEv、Rval分别为0.436、0.9670、0.545、0.9380,RPD值为3.10>3;
当初级融合数据为MIR-NIR光谱数据时,初级融合模型基于偏最小二乘回归法进行建模;模型参数RMSEc、Rcal、RMSEv、Rval分别为0.579、0.9400、0.622、0.9200,RPD值为2.72>2.5;
当初级融合数据为ATR-MIR光谱数据时,初级融合模型基于偏最小二乘回归法进行建模;模型参数RMSEc、Rcal、RMSEv、Rval分别为0.631、0.9280、0.629、0.9170,RPD值为2.69>2.5;
当初级融合数据为ATR-MIR-NIR光谱数据时,初级融合模型基于高斯过程回归法进行建模;模型参数RMSEc、Rcal、RMSEv、Rval分别为0.363、0.9770、0.640、0.9140,RPD值为2.70>2.5。
进一步地,本发明方法用于对全缘叶绿绒蒿总黄酮质量评价,建立中级融合模型时,具体包括:
当中级融合数据为ATR-NIR光谱数据时,中级融合模型基于高斯过程回归法进行建模;模型参数RMSEc、Rcal、RMSEv、Rval分别为0.494、0.9570、0.568、0.9320,RPD值为2.98;
当中级融合数据为MIR-NIR光谱数据时,中级融合模型基于偏最小二乘回归法进行建模;模型参数RMSEc、Rcal、RMSEv、Rval分别为0.598、0.9350、0.646、0.9120,RPD值为2.62>2.5;
当中级融合数据为ATR-MIR光谱数据时,中级融合模型基于偏最小二乘回归法进行建模;模型参数RMSEc、Rcal、RMSEv、Rval分别为0.632、0.9270、0.651、0.9100,RPD值为2.60>2.5;
当中级融合数据为ATR-MIR-NIR光谱数据时,中级融合模型基于高斯过程回归法进行建模;模型参数RMSEc、Rcal、RMSEv、Rval分别为0.432、0.9670、0.633、0.9150,RPD值为2.67>2.5。
在一示例中,本发明方法用于对全缘叶绿绒蒿总黄酮质量评价,基于贝叶斯岭回归法、高斯过程回归法、偏最小二乘回归法、支持向量机回归法四种方法中任意两种或多种建立高级融合模型。具体地,此时将基于上述回归方法得到的多个第一中级融合模型进行融合,得到高级融合模型。
在一示例中,本发明方法用于对全缘叶绿绒蒿总黄酮质量评价,根据ATR-NIR光谱融合数据,并采用贝叶斯岭回归法、高斯过程回归法、偏最小二乘回归法、支持向量机回归法四种方法中任意两种或多种方法建立高级融合模型。
与现有技术相比,本发明有益效果是:
本发明基于初级数据融合克服了不同光谱的特征不同对建模效果贡献不同的问题,将不同特征综合在一起,有效地利用了全部特征,提高准确度;基于中级数据融合克服了类别标签不均衡、特征维度远大于样本数目等技术障碍,解决了特征维度过高的问题;基于高级融合克服了不同回归模型对不同样本回归时性能不同的问题,将多个回归模型综合成一个回归模型(高级融合模型),以此提升模型的准确性和稳健性,以快速精准测定中藏药材产地判别及有效成分含量的质量评价。
附图说明
下面结合附图对本发明的具体实施方式作进一步详细的说明。
图1为本发明示例中总黄酮提取条件优化结果示意图;其中,图1a、1b、1c、1d、1e分别表示料液比、提取液浓度、提取时间、提取温度提取功率对总黄酮的提取影响的示意图。
图2为本发明方法的流程图;
图3为本发明示例中14个产地平均总黄酮含量测定结果图;
图4为本发明示例中样品总黄酮含量正态性检验图;
图5为本发明示例中基于单一光谱的总黄酮NIR定量模型参数示意图;
图6为本发明示例中基于单一光谱的总黄酮ATR定量模型参数示意图;
图7为本发明示例中基于单一光谱的总黄酮MIR定量模型参数示意图;
图8为本发明示例中基于TQ analyst软件的总黄酮ATR-NIR初级融合定量模型参数示意图;
图9为本发明示例中基于TQ analyst软件的总黄酮MIR-NIR初级融合定量模型参数示意图;
图10为本发明示例中基于TQ analyst软件的总黄酮ATR-MIR初级融合定量模型参数示意图;
图11为本发明示例中基于TQ analyst软件的总黄酮ATR-MIR-NIR初级融合定量模型参数示意图;
图12为本发明示例中基于Python软件的不同光谱类型下初级融合定量模型效果示意图;其中,图12a表示ATR-NIR初级融合定量模型效果示意图;图12b表示MIR-NIR初级融合定量模型效果示意图;图12c表示ATR-MIR初级融合定量模型效果示意图;图12d表示ATR-MIR-NIR初级融合定量模型效果示意图。
图13为本发明示例中基于TQ analyst软件的总黄酮ATR-NIR中级融合定量模型参数示意图;
图14为本发明示例中基于TQ analyst软件的总黄酮MIR-NIR中级融合定量模型参数示意图;
图15为本发明示例中基于TQ analyst软件的总黄酮ATR-MIR中级融合定量模型参数示意图;
图16为本发明示例中基于TQ analyst软件的总黄酮ATR-MIR-NIR中级融合定量模型参数示意图;
图17为本发明示例中基于Python软件的不同光谱类型下中级融合定量模型效果图;其中,图17a表示ATR-NIR中级融合定量模型效果示意图;图17b表示MIR-NIR中级融合定量模型效果示意图;图17c表示ATR-MIR中级融合定量模型效果示意图;图17d表示ATR-MIR-NIR中级融合定量模型效果示意图。
图18为本发明示例中基于Python软件的不同光谱类型下高级融合定量模型效果图;其中,图18a表示ATR-NIR模型效果示意图;图18b表示MIR-NIR模型效果示意图;图18c表示ATR-MIR模型效果示意图;图18d表示ATR-MIR-NIR模型效果示意图。
具体实施方式
下面结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
全缘叶绿绒蒿高30-60cm,产于西藏、青海、四川、云南西北部和甘肃。作为传统藏药材,全缘叶绿绒蒿以干燥全草入药,性味甘、涩、凉,具清热解毒、利尿、消炎止痛之功效,用于治疗肝炎、肺炎、头痛、水肿、肝与肺热等疾病,其中,花解热效果好,并能治血热和血旺。已有研究表明,全缘叶绿绒蒿中主要活性成分为生物碱和黄酮类化合物,虽然总生物碱镇痛效果明显优于黄酮类化合物,但总生物碱抗肝纤维化的作用不明显,而总黄酮具有抗肝纤维化作用,且具有抗氧化能力,故作为保肝类药材,全缘叶绿绒蒿中总黄酮的研究具有重要意义。目前已分离出的黄酮类化合物有槲皮素、双氢槲皮素、木犀草素、洋芹素、异鼠李素等。此外,全缘叶绿绒蒿中还含有挥发油、酚性、多糖等其他成分。目前对全缘叶绿绒蒿的研究工作主要集中于生态学研究、化学成分提取、分离、纯化以及药理药效学等研究,利用红外光谱技术围绕全缘叶绿绒蒿的产地来源及活性成分含量控制的研究尚未开展。因此,本发明以青藏高原地产藏药全缘叶绿绒蒿全草为研究对象,即提供了一种基于数据融合的全缘叶绿绒蒿总黄酮的质量评价方法。具体通过在青海省内进行大范围多点采样,在获取大量分析样本的基础上,利用红外光谱技术结合化学计量学方法和数据融合策略,开展全缘叶绿绒蒿的产地判别、活性成分总黄酮的定量检测和数据融合策略提升模型性能等工作,以期从源头对原药材进行质量评价,也可为其他藏药材资源定性与定量模型性能的提升提供技术支撑和参考借鉴。
1仪器与材料
仪器:Cary60紫外可见分光光度计(美国,Agilent公司);电子天平(瑞士,Meterler ME104,0.0001g);Milli-Q Integral3纯水机(美国,Merck公司);Eppendorf5810R离心机(德国,Eppendorf AG)。
试剂:芦丁标准品(中国科学院成都生物研究所,批号:MUST-13040302),无水乙醇(分析纯,中国成都科隆有限公司),氢氧化钠(分析纯,中国上海麦克林生化有限公司),硝酸铝(分析纯,中国上海麦克林生化有限公司),亚硝酸钠(分析纯,中国天津登科化学试剂有限公司)。
材料:待分析样品首先进行红外光谱采集后,从每个样点选出约1/2的样品(样品数量少的样点全选)对其进行总黄酮量测定。用于总黄酮含量测定的各样点样本量如表1,共计373份样品。
表1各样点总黄酮含量测定样品个数
样点 测定个数 样点 测定个数 样点 测定个数
P1 25 P6 32 P11 24
P2 18 P7 23 P12 24
P3 30 P8 24 P13 22
P4 32 P9 37 P14 27
P5 33 P10 22 合计 373
2实验方法
2.1总黄酮含量测定
2.1.1绘制标准曲线
称取20mg芦丁标准品,用75%乙醇定容至10mL容量瓶中配制成2.00mg/mL的母液后,稀释为0.10mg/mL、0.30mg/mL、0.50mg/mL、0.70mg/mL、0.90mg/mL浓度的标准工作液。量取各浓度标准工作溶液2mL置于25mL容量瓶中,加1mL 5%NaNO2溶液,摇匀,静置5min;加入1mL10%Al(NO3)3溶液,摇匀,静置6min;再加入1mL 40%NaOH溶液,用75%乙醇溶液定容至25mL容量瓶中,摇匀,放置15min。以不加对照品的75%乙醇溶液同法作空白,在波长510nm处进行检测。
2.1.2总黄酮提取条件优化
考虑可能影响总黄酮提取率的因素,设计5因素5水平试验表(表2),进行单因素试验。
表2单因素试验因素水平表
水平 A料液比 B提取液浓度(%) C提取时间(min) D提取温度(℃) E超声功率(W)
L1 1:10 45 10 30 100
L2 1:30 55 20 40 200
L3 1:50 65 30 50 300
L4 1:70 75 40 60 400
L5 1:90 85 50 70 500
A.料液比
准确称取0.5000g(±0.0001)样品,分别加入5mL、15mL、25mL、35mL、45mL的75%乙醇溶液中,于60℃、200W功率下超声处理30min,待冷却后转移至50mL离心管中于4000rap下离心15min,分别取上清液定容至50mL,采用紫外分光光度法法测定样品的吸光度,计算出对应总黄酮的浓度(n=3)。
B.提取液浓度
准确称取0.5000g(±0.0001)样品,根据A结果加入适量体积45%、55%、65%、75%、85%浓度的乙醇溶液,于60℃下功率为200W超声处理30min,待冷却后转移至50mL离心管中于4000rap下离心15min,分别取上清液定容至50mL,采用紫外分光光度法法测定样品的吸光度,计算出对应总黄酮的浓度(n=3)。
C.提取时间
准确称取0.5000g(±0.0001)样品,根据A结果加入适量体积B浓度的乙醇溶液,于60℃下功率为200W分别超声处理10min、20min、30min、40min、50min,待冷却后转移至50mL离心管中于4000rap下离心15min,分别取上清液定容至50mL,采用紫外分光光度法法测定样品的吸光度,计算出对应总黄酮的浓度(n=3)。
D.提取温度
准确称取0.5000g(±0.0001)样品,根据A结果加入适量体积B浓度的乙醇溶液,分别于30℃、40℃、50℃、60℃、70℃下功率为200W超声处理C时间,待冷却后转移至50mL离心管中于4000rap下离心15min,分别取上清液定容至50mL,采用紫外分光光度法法测定样品的吸光度,计算出对应总黄酮的浓度(n=3)。
E.超声功率
准确称取0.5000g(±0.0001)样品,根据A结果加入适量体积B浓度的乙醇溶液,于D提取温度温度下功率分别为100W、200W、300W、400W、500W超声处理C时间,待冷却后转移至50mL离心管中于4000rap下离心15min,分别取上清液定容至50mL,采用紫外分光光度法测定样品的吸光度,计算出对应总黄酮的浓度(n=3)。
F.方法学验证
①精密度试验:样品提取后,量取2mL样品置于25mL容量瓶中,加1mL 5%NaNO2溶液,摇匀,静置5min;加入1mL10%Al(NO3)3溶液,摇匀,静置6min;再加入1mL 40%NaOH溶液,用75%乙醇溶液定容至25mL容量瓶中,摇匀,放置15min。以不加对照品的75%乙醇溶液同法作空白,在波长510nm处进行检测。连续显色5次,测定吸光度值,计算出总黄酮含量,判断该方法的精密度。
②重复性试验:利用优化后的提取条件对同一样品进行总黄酮的提取,并利用紫外分光光度法测定含量,判断该方法的重复性。
③稳定性试验:同一样品在同一天内每隔2h检测一次,判断该方法稳定性。
④加标回收率试验:取已知总黄酮含量的全缘叶绿绒蒿样品待测液5份,每份1mL,分别加入浓度为0.5mg/mL的标准溶液1mL进行检测,计算加标回收率。
2.1.3样品中总黄酮含量测定
利用优化后的提取条件对样品进行总黄酮提取,再利用紫外分光光度法测定样品的吸光度,结合标准曲线计算出样品中总黄酮的含量。
2.2单一光谱下定量品质检测模型的构建
2.2.1NIR单一光谱定量品质检测模型的构建
将用于建模的373份样品的总黄酮含量数据分为20组进行正态分布分析,以判断用来建模的总黄酮含量数据集是否符合正态分布。
将近红外光谱和总黄酮含量数据输入TQ analyst软件,以2∶1的比例划分校正集与验证集。在PLS建模方法下,设计三因素三水平表(表3),利用单因素试验优化光程、谱图类型、平滑方式等谱图预处理方法。以RMSEc、RMSEp、RMSEcv、Rcal、Rval、Rcv、RPD作为指标评价优化建模条件,利用优化后的条件建立模型。
表3单因素试验因素水平表
水平 A光程类型 B谱图类型 C平滑方法
L1 Constant 原谱图 不平滑
L2 MSC D1 S-G平滑
L3 SNV D2 Norris(5,5)平滑
2.2.2ATR定量模型的构建
将ATR红外光谱数据和总黄酮含量数据输入TQ analyst软件,参照“2.2.1”项下的建模方法和谱图预处理方法进行ATR定量模型的构建。
2.2.3MIR定量模型的构建
将MIR红外光谱数据和总黄酮含量数据输入TQ analyst软件,参照“2.2.1”项下的建模方法和谱图预处理方法进行MIR定量模型的构建。
2.3数据融合策略下定量品质检测模型的构建
本发明数据融合策略包括了初级数据融合、中级数据融合和高级数据融合,如图1所示。具体基于初级数据融合克服了不同光谱的特征不同对建模效果贡献不同的问题,将不同特征综合在一起,有效地利用了全部特征,提高准确度;基于中级数据融合克服了类别标签不均衡、特征维度远大于样本数目等技术障碍,解决了特征维度过高的问题;基于高级融合克服了不同回归模型对不同样本回归时性能不同的问题,将多个回归模型综合成一个回归模型(高级融合模型),以此提升模型的准确性和稳健性,以快速精准测定中藏药材产地判别及有效成分含量的质量评价,现对各级数据融合策略进行详细说明。
2.3.1初级融合
初级融合数据是将不同光谱简单串联形成,在建立单光谱定量模型时一共采集了NIR、ATR、MIR共3种红外光谱,将这3种光谱一一串联,共形成NIR-ATR、NIR-MIR、ATR-MIR、ATR-MIR-NIR四组初级融合数据。一方面,将融合后的数据分别导入TQ analyst软件,利用软件自带的方法进行建模;另一方面,根据定量回归方法:贝叶斯岭回归(Bayesian RidgeRegression,BRR)、高斯过程回归(Gaussian Process Regression,GPR)、偏最小二乘回归(Partial Least Squares Regression,PLSR)、弹性网络回归(ElasticNet Regression,ENR)、支持向量机回归(Support Vactor Regression,SVR),利用Python软件用这5种方法依次建模,以RMSEc、RMSEp、Rcal、Rval、RPD作为指标评价各模型,比较不同建模方法及不同光谱类型对初级融合模型的影响。
2.3.2中级融合
根据定量数据的需求,利用SVR方法分别提取四组初级融合数据的特征值,形成对应的中级融合数据。一方面,将中级融合数据分别导入TQ analyst软件,利用软件自带的方法进行建模,选出最佳建模条件;另一方面,用Python软件用“2.3.1”项中5中建模方法进行建模,以RMSEc、RMSEp、Rcal、Rval、RPD作为指标评价各模型,比较不同建模方法及不同光谱类型对中级融合模型的影响。
2.3.3高级融合
根据初级和中级融合结果,选出较好的几种建模方法,利用Python软件将这几种方法下的模型进行决策层(高级)融合,形成高级融合模型,根据光谱类型不同,一共形成4个高级融合模型。
3结果与分析
3.1总黄酮含量测定
3.1.1绘制标准曲线
不同浓度梯度的芦丁标准品测定结果如下(表4)。以吸光度(A)为纵坐标,芦丁标准溶液浓度为横坐标,绘制标准曲线。利用SRSS软件获得线性回归方程为Y=0.8551X-0.0153,R2=0.9990,可见所建标曲线性关系良好,可用于全缘叶绿绒蒿中总黄酮含量测定。
表4芦丁标准溶液的吸光度值
3.1.2总黄酮提取条件优化
3.1.3单因素优化结果
利用单因素试验优化料液比、提取液浓度、提取时间、提取温度、提取功率,优化结果如图1所示。
由图1a可知,在料液比1∶50条件下总黄酮提取浓度最高,超过1:50后浓度降低并趋于平稳,因此选取1:50为最佳料液比。
由图1b可知,在55%乙醇提取条件下总黄酮浓度最大,超过55%后浓度降低,因此最佳提取液浓度为55%。
由图1c知,在20min时提取总黄酮浓度最大,超过20min后总黄酮浓度呈现缓慢下降趋势。因此最佳提取时间选20min。
由图1d可知,提取温度对总黄酮提取的影响较大,60℃以前随着温度的增加总黄酮浓度随之增加,在60℃时达到最大,超过60℃后浓度降低,因此最佳提取温度选60℃。
由图1e可知,提取功率对总黄酮的提取影响较小,但在200W时达到最大,超过200W后呈缓慢下降趋势,因此最佳提取功率选200W。
综上,得到最终提取条件为:料液比1:50,提取液浓度55%,提取时间20min,提取温度60℃,超声功率200W。
3.1.3.1方法学验证
A.精密度试验
样品提取后,以“2.1.1”项下方法连续显色5次,利用紫外分光光度法在510nm处测定吸光度值,待入标准曲线后计算出总黄酮含量,结果如表5所示:
表5精密度试验结果
由表5结果可知含量的RSD小于5%,说明方法具有较好的精密度。
B.重复性试验
利用优化后的提取条件对同一样品进行总黄酮的提取,并利用紫外分光光度法测定含量,结果如表6所示:
表6重复性试验结果
由表6可知含量的RSD小于5%,说明该方法具有较好的重复性。
C.稳定性试验
同一样品在同一天内每隔两小时检测一次,结果如表7所示:
表7稳定性试验结果
由表7可知,含量RSD值小于5%,说明方法稳定性较好。
D.加标回收率试验
取已知总黄酮含量的全缘叶绿绒蒿样品待测液5份,每份1.0mL,分别加入浓度为0.5mg/mL的标准溶液1.0mL进行检测,计算回收率,结果如表8所示,平均回收率为99.75%,RSD为2.25%,该方法加标回收效果较好。
表8回收率试验结果
3.1.4样品中总黄酮含量测定
利用优化后的提取条件对373份样品进行总黄酮的提取,并利用紫外分光光度法测定其含量。所测373份样品中,总黄酮含量的测定结果如表9所示。由结果可知,样品总黄酮含量范围在1.63%-10.17%,平均含量为5.51%,373份样品的SD为1.66,表明样品间含量差异较大,具有一定的离散性,能代表更多的样品。
表9各样品中总黄酮含量测定结果(n=3)
/>
/>
/>
图3为14个不同产地全缘叶绿绒蒿总黄酮含量的平均分布,图中横坐标表示产地(Populations),纵坐标表示黄体酮含量变化范围(Range);图例/>表示在25%-75%内变化;图例/>在1.5IQR范围内;图例“—”表示中线(Median Line);图例“a”表示均值;图例“◆”表示异常值;。不同产地总黄酮的平均含量范围为3.24-7.66%,含量变化较大。其中P10含量最大(7.66%),P2含量最小(3.24%)。采用单因素方差分析对14个产地的总黄酮含量进行分析,结果表明不同产地的总黄酮含量差异极显著(P=0.00<0.01)。这说明不同产地下全缘叶绿绒蒿的活性成分含量不同,品质存在差异,与前述红外光谱特征分析结果一致。
3.2单一光谱下定量品质检测模型的构建
3.2.1NIR单一光谱定量模型的构建
将用于建模的373份样品的总黄酮含量含量数据分为20组进行正态分析,结果如图4所示,图4横坐标为浓度,纵坐标为频率(Frequency),用于建模的总黄酮含量数据平均值为5.51%,标准差为1.66,P=0.948>0.05,表明用来建模的总黄酮含量数据集符合正态分布。
经异常值剔除后,样品中总黄酮含量模型建模集及校正集样品分布如表10所示。校正集样品含量范围为1.63-10.17%,均值5.55%,RSD为30.56%,验证集样品含量范围为1.74-9.78%,均值5.39,RSD为29.07%。可以看出,验证集与建模集均值、RSD值相近,验证集百分比含量范围在建模集范围内,符合分析要求。
表10总黄酮定量模型校正集与验证集样品分布表
/>
将近红外光谱和总黄酮含量数据输入TQ analyst软件,单因素试验优化建模条件结果如表11。其中,RMSEp可以估计预测值与实际值之间的偏差,RPD通常用于检验模型的适用性。一般认为RPD>3表示模型准确,3>RPD>2.5表示模型可以用于预测,RPD<2.5表示模型的预测性能不佳。
表11单因素试验优化NIR建模条件结果
由表11可知,最佳建模条件为PLS+Constant+D1+不平滑,建模波段为全波段10000-4000cm-1,建模因子为10。模型结果如图5所示,图中横坐标表示实际值(actual),纵坐标表示预测值(calculated);图例“○”(Calibration)表示校正集样本;图例“+”(Validation)表示验证集样本;图例“△”(Correction)表示校正的样本;图例“□”(Cross-correction)表示交叉验证集样本;图例(Ignore)表示剔除的样本。图5中A为校正集和验证集参数(RMSEc=0.459,RMSEp=0.590,Rcal=0.9626,Rval=0.9294),B为交叉验证集参数(RMSEcv=0.824,Rcv=0.8750),RPD为2.86>2.5,模型效果准确,可用于快速测定全缘叶绿绒蒿中总黄酮含量。需要进一步说明的是,图6-10、图13-15中横纵坐标及图例与图5同义,以下不再赘述。
3.2.2 ATR定量模型的构建
将ATR光谱和总黄酮含量数据输入TQ analyst软件,单因素试验优化建模条件,结果如表12所示。
表12单因素试验优化ATR建模条件结果
由表12可知,最佳建模条件为PLS+MSC+原谱图+不平滑/S-G平滑,建模波段为全波段(4000-400cm-1),建模因子为7,RPD为2.12,模型效果不佳。利用马氏距离剔除异常值,模型参数更优。剔除异常值后模型结果如图6所示,A为校正集和验证集参数(RMSEc=0.644,RMSEp=0.746,Rcal=0.9224,Rval=0.8856),B为交叉验证集参数(RMSEcv=0.759,Rcv=0.8907),建模因子为9,RPD为2.27<2.5,模型效果不佳,在快速测定全缘叶绿绒蒿中总黄酮含量时存在一定偏差。
将MIR光谱和总黄酮含量数据输入TQ analyst软件,单因素试验优化建模条件结果如表13。
表13单因素试验优化MIR建模条件结果
由表13可知,最佳建模条件为PLS+SNV+原谱图+不平滑/S-G平滑,建模波段为全波段(4000-400cm-1),建模因子为9,在该条件下利用马氏距离剔除异常值,模型参数更优。剔除异常值后模型结果如图7所示,A为校正集和验证集参数(RMSEc=0.699,RMSEp=0.647,Rcal=0.9148,Rval=0.9012),B为交叉验证集参数(RMSEcv=0.855,Rcv=0.8708),建模因子为9,RPD为2.61,介于2.5-3之间,模型效果一般,可在一定程度上用于快速测定全缘叶绿绒蒿中总黄酮含量,效果不如NIR定量模型。
3.2.3三种红外定量模型比较
三种定量模型经过优化谱图预处理方法后,NIR为采用D1处理,而ATR和MIR两种中红外用原谱图效果最好,比较3种红外的模型效果,NIR的模型效果最好(Rcal=0.9626、Rval=0.9294、RPD=2.86),ATR和MIR效果相差不多(ATR,Rcal=0.9224、Rval=0.8856、RPD=2.27;MIR,Rcal=0.9148、Rval=0.9012、RPD=2.61),均低于NIR。
3.3数据融合策略下定量品质检测模型的构建
3.3.1初级融合
3.3.1.1 TQ analyst软件
将4组初级融合数据分别导入TQ analyst软件,利用单因素试验优化建模条件,其中建模方法固定为PLS,优化结果如下:
表14单因素试验优化初级融合建模条件结果
/>
由表可知,①优化后ATR-NIR光谱数据的初级融合模型的建模条件为PLS+MSC+D1+Norris(5,5)平滑,建模波段为9600-497cm-1,模型参数RMSEc、Rcal、RMSEv、Rval分别为0.683,0.9168,0.859,0.8801,模型经交叉验证后RMSEcv和Rcv分别为0.910和0.8479,RPD=1.97,模型结果如图8所示。
②优化后MIR-NIR光谱数据的初级融合模型的建模条件为PLS+Constant+原谱图+SG平滑,建模波段为9863-546cm-1,模型参数RMSEc、Rcal、RMSEv、Rval分别为0.818,0.8757,0.920,0.8529,模型经交叉验证后RMSEcv和Rcv分别为0.967和0.8214,RPD=1.84,模型结果如图9所示。
③优化后ATR-MIR光谱数据的初级融合模型的建模条件为PLS+MSC+D1+不平滑,建模波段为3982-418cm-1,模型参数RMSEc、Rcal、RMSEv、Rval分别为0.994,0.8082,1.120,0.7809,模型经交叉验证后RMSEcv和Rcv分别为1.240和0.7058,RPD=1.51,模型结果如图10所示。
④优化后ATR-MIR-NIR光谱数据的初级融合模型的建模条件为PLS+SNV+原谱图+不平滑,建模波段为9552-448cm-1,模型参数RMSEc、Rcal、RMSEv、Rval分别为0.810,0.8773,0.903,0.8690,模型经交叉验证后RMSEcv和Rcv分别为1.040和0.7961,RPD=1.87,模型结果如图11所示。
不同光谱类型下对模型性能进行比较,ATR-NIR初级融合模型效果最好,MIR-NIR和ATR-MIR-NIR次之,ATR-MIR效果最差。
3.3.1.2Python软件
利用Python软件结合5种回归方法对初级融合后的光谱进行建模,模型效果如下表15所示:
表15Python软件下初级融合结果
在选择最佳方法时,以RMSEc、Rcal、RMSEv、Rval和RPD值为评价指标,RMSEc和RMSEp越低越好,Rcal、Rval和RPD值越高越好,且Rcal、Rval应该接近,Rval过高则会出现过拟合现象,模型的稳健性降低。
由表可知,ATR-NIR初级融合数据在GPR方法下模型效果最好,RMSEc(CalibrationRMSE)、Rcal(Calibration Corr.Coef)、RMSEv(Validation RMSE)、Rval(ValidationCorr.Coef)分别为0.436、0.9670、0.545、0.9380,RPD值为3.10>3,模型可用于快速准确测定全缘叶绿绒蒿中总黄酮含量,模型回归图(Regression result visualization)如图12a。
MIR-NIR初级融合数据在PLSR方法下模型效果最好,RMSEc、Rcal、RMSEv、Rval分别为0.579、0.9400、0.622、0.9200,RPD值为2.72>2.5,模型可用于快速准确测定全缘叶绿绒蒿中总黄酮含量,模型回归图如图12b。
ATR-MIR初级融合数据在PLSR方法下模型效果最好,RMSEc、Rcal、RMSEv、Rval分别为0.631、0.9280、0.629、0.9170,RPD值为2.69>2.5,模型可用于快速准确测定全缘叶绿绒蒿中总黄酮含量,模型回归图如图12c。
ATR-MIR-NIR初级融合数据在GPR方法下模型效果最好,RMSEc、Rcal、RMSEv、Rval分别为0.363、0.9770、0.640、0.9140,RPD值为2.70>2.5,模型可用于快速准确测定全缘叶绿绒蒿中总黄酮含量,模型回归图如图12d。
综合各模型参数可知,ATR-NIR组融合模型效果最好,建模集和验证集的相关系数高,且模型的RPD值大于3,模型性能良好。
3.3.2中级融合
3.3.2.1 TQ analyst软件
将4组中级融合数据分别导入TQ analyst软件,利用单因素试验优化建模条件,其中建模方法固定为PLS,优化结果如下:
表16单因素试验优化中级融合建模条件结果
/>
由表可知,①优化后ATR-NIR光谱数据的中级融合模型的建模条件为PLS+MSC+原谱图+SG平滑,模型参数RMSEc、Rcal、RMSEv、Rval分别为0.849,0.8662,0.854,0.8766,模型经交叉验证后RMSEcv和Rcv分别为1.05和0.7928,RPD=1.98,模型结果如图13所示。
②优化后MIR-NIR光谱数据的中级融合模型的建模条件为PLS+Constant+原谱图+SG平滑,模型参数RMSEc、Rcal、RMSEv、Rval分别为0.759,0.8932,0.827,0.8916,模型经交叉验证后RMSEcv和Rcv分别为0.903和0.8461,RPD=2.04,模型结果如图14所示。
③优化后ATR-MIR光谱数据的中级融合模型的建模条件为PLS+SNV+原谱图+SG平滑,模型参数RMSEc、Rcal、RMSEv、Rval分别为0.739,0.8992,0.878,0.8717,模型经交叉验证后RMSEcv和Rcv分别为0.889和0.8544,RPD=1.92,模型结果如图15所示。
④优化后ATR-MIR-NIR光谱数据的中级融合模型的建模条件为PLS+Constant+原谱图+不平滑,模型参数RMSEc、Rcal、RMSEv、Rval分别为0.762,0.8923,0.840,0.8879,模型经交叉验证后RMSEcv和Rcv分别为0.904和0.8478,RPD=2.01,模型结果如图16所示。不同光谱类型下对模型性能进行比较,ATR-MIR、MIR-NIR和ATR-MIR-NIR中级融合模型效果相差不多,而ATR-NIR较其他而言较差,这与初级融合结果刚好相反。
3.3.2.2Python软件
利用Python软件结合5种回归方法对中级融合后的数据进行建模,模型效果如下表:
表17Python软件下中级融合结果
由表17可知,ATR-NIR中级融合数据在GPR方法下模型效果最好,RMSEc、Rcal、RMSEv、Rval分别为0.494、0.9570、0.568、0.9320,RPD值为2.98,模型可用于快速准确测定全缘叶绿绒蒿中总黄酮含量,模型回归图如图17a。
MIR-NIR中级融合数据在PLSR方法下模型效果最好,RMSEc、Rcal、RMSEv、Rval分别为0.598、0.9350、0.646、0.9120,RPD值为2.62>2.5,模型可用于快速准确测定全缘叶绿绒蒿中总黄酮含量,模型回归图如图17b。
ATR-MIR中级融合数据在PLSR方法下模型效果最好,RMSEc、Rcal、RMSEv、Rval分别为0.632、0.9270、0.651、0.9100,RPD值为2.60>2.5,模型可用于快速准确测定全缘叶绿绒蒿中总黄酮含量,模型回归图如图17c。
ATR-MIR-NIR中级融合数据在GPR方法下模型效果最好,RMSEc、Rcal、RMSEv、Rval分别为0.432、0.9670、0.633、0.9150,RPD值为2.67>2.5,模型可用于快速准确测定全缘叶绿绒蒿中总黄酮含量,模型回归图如图17d。
综合各模型参数可知,ATR-NIR组融合模型效果最好,建模集和验证集的相关系数高,且模型的RPD值为3.31,模型性能良好。
3.3.3高级融合
由表16-17可知,BRR、GPR、PLSR、SVR四种回归方法的建模效果较好,将这4种方法下的模型进行融合,形成新的决策层模型,各光谱类型下的高级融合模型效果如表18所示。模型回归图如图18,其中,18a为ATR-NIR模型回归图,18b为MIR-NIR模型回归图,18c为ATR-MIR模型回归图,18d为ATR-MIR-NIR模型回归图。
表18Python软件下高级融合结果
建模方法 RMSEc Rcal RMSEp Rval RPD
ATR-NIR 0.494 0.9570 0.554 0.9350 3.05
MIR-NIR 0.591 0.9380 0.622 0.9180 2.72
ATR-MIR 0.638 0.9270 0.620 0.9200 2.73
ATR-MIR-NIR 0.540 0.9480 0.599 0.9240 2.82
3.3.4不同融合等级下模型的比较
利用Python软件将数据简单串联,形成初级融合数据,再利用SVR对初级融合数据进行特征值提取,形成中级融合数据,将对应的数据进行建模形成对应的模型,然后进行决策层融合。经不同光谱类型融合后,各融合等级下的模型效果如表19所示。由表可知,各融合等级下均是ATR-NIR模型效果最好,且初级融合效果最好。与单一光谱相比较,模型性能得到提升,表明数据融合策略能有效提升模型的准确定和稳健性。
表19总黄酮定量检测模型效果
/>
以上具体实施方式是对本发明的详细说明,不能认定本发明的具体实施方式只局限于这些说明,对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演和替代,都应当视为属于本发明的保护范围。

Claims (9)

1.基于数据融合的中藏药材成分质量评价方法,其特征在于:其包括以下步骤:
测定各中藏药材样品中待测质量评价成分的含量;
采集样品的NIR光谱、MIR光谱和ATR光谱;
将NIR光谱、MIR光谱和ATR光谱中任意两种或三种光谱进行串联融合处理,得到初级融合数据;
基于初级融合数据采用多种回归法分别建立初级融合模型;
基于SVR法提取初级融合数据的特征值进而得到中级融合数据;
基于中级融合数据采用多种回归法分别建立中级融合模型,并对各中级融合模型的性能进行评价,得到性能优异的多个第一中级融合模型;
将多个第一中级融合模型的决策层融合,得到高级融合模型,利用高级融合模型对中藏药材成分进行质量评价;
所述将多个第一中级融合模型的决策层融合还包括:
根据第一中级融合模型的性能确定融合的权重系数;
根据各第一中级融合模型对应的权重系数进行决策层融合,得到高级融合模型。
2.根据权利要求1所述的基于数据融合的中藏药材成分质量评价方法,其特征在于:采用多种回归法分别建立初级融合模型和/或中级融合模型时,还包括:
利用Python软件基于贝叶斯岭回归、高斯过程回归、偏最小二乘回归、弹性网络回归、支持向量机回归中任意多种回归法建立初级融合模型或中级融合模型。
3.根据权利要求2所述的基于数据融合的中藏药材成分质量评价方法,其特征在于:对初级融合模型和/或中级融合模型的性能进行评价时,具体包括:
以校正集均方根误差RMSEc、交叉验证均方根偏差RMSEcv、验证集均方根偏差RMSEp、校正集相关系数Rcal、验证集相关系数Rval、交叉相关系数Rcv、相对分析误差RPD中任意一种或多种指标评价模型性能。
4.根据权利要求1所述的基于数据融合的中藏药材成分质量评价方法,其特征在于:所述方法用于对全缘叶绿绒蒿总黄酮质量评价时,测定各中藏药材样品中待质量评价成分的含量具体包括:
对全缘叶绿绒蒿样品进行总黄酮提取;
利用紫外分光光度法测定样品的吸光度,结合标准曲线计算出样品中总黄酮的含量。
5.根据权利要求4所述的基于数据融合的中藏药材成分质量评价方法,其特征在于:所述全缘叶绿绒蒿样品总黄酮提取条件为:
以料液比1:50、提取液浓度55%、提取时间20min、提取温度60℃、超声功率200W提取样品总黄酮。
6.根据权利要求4所述的基于数据融合的中藏药材成分质量评价方法,其特征在于:建立初级融合模型时,具体包括:
当初级融合数据为ATR-NIR光谱数据时,初级融合模型基于高斯过程回归法进行建模;模型参数校正集均方根误差RMSEc、校正集相关系数Rcal、验证均方根误差RMSEv、验证集相关系数Rval分别为0.436、0.9670、0.545、0.9380,相对分析误差RPD值为3.10>3;
当初级融合数据为MIR-NIR光谱数据时,初级融合模型基于偏最小二乘回归法进行建模;模型参数校正集均方根误差RMSEc、校正集相关系数Rcal、验证均方根误差RMSEv、验证集相关系数Rval分别为0.579、0.9400、0.622、0.9200,相对分析误差RPD值为2.72>2.5;
当初级融合数据为ATR-MIR光谱数据时,初级融合模型基于偏最小二乘回归法进行建模;模型参数校正集均方根误差RMSEc、校正集相关系数Rcal、验证均方根误差RMSEv、验证集相关系数Rval分别为0.631、0.9280、0.629、0.9170,相对分析误差RPD值为2.69>2.5;
当初级融合数据为ATR-MIR-NIR光谱数据时,初级融合模型基于高斯过程回归法进行建模;模型参数校正集均方根误差RMSEc、校正集相关系数Rcal、验证均方根误差RMSEv、验证集相关系数Rval分别为0.363、0.9770、0.640、0.9140,相对分析误差RPD值为2.70>2.5。
7.根据权利要求4所述的基于数据融合的中藏药材成分质量评价方法,其特征在于:建立中级融合模型时,具体包括:
当中级融合数据为ATR-NIR光谱数据时,中级融合模型基于高斯过程回归法进行建模;模型参数校正集均方根误差RMSEc、校正集相关系数Rcal、验证均方根误差RMSEv、验证集相关系数Rval分别为0.494、0.9570、0.568、0.9320,相对分析误差RPD值为2.98;
当中级融合数据为MIR-NIR光谱数据时,中级融合模型基于偏最小二乘回归法进行建模;模型参数校正集均方根误差RMSEc、校正集相关系数Rcal、验证均方根误差RMSEv、验证集相关系数Rval分别为0.598、0.9350、0.646、0.9120,相对分析误差RPD值为2.62>2.5;
当中级融合数据为ATR-MIR光谱数据时,中级融合模型基于偏最小二乘回归法进行建模;模型参数校正集均方根误差RMSEc、校正集相关系数Rcal、验证均方根误差RMSEv、验证集相关系数Rval分别为0.632、0.9270、0.651、0.9100,相对分析误差RPD值为2.60>2.5;
当中级融合数据为ATR-MIR-NIR光谱数据时,中级融合模型基于高斯过程回归法进行建模;模型参数校正集均方根误差RMSEc、校正集相关系数Rcal、验证均方根误差RMSEv、验证集相关系数Rval分别为0.432、0.9670、0.633、0.9150,相对分析误差RPD值为2.67>2.5。
8.根据权利要求4所述的基于数据融合的中藏药材成分质量评价方法,其特征在于:基于贝叶斯岭回归法、高斯过程回归法、偏最小二乘回归法、支持向量机回归法四种方法中任意两种或多种方法建立高级融合模型。
9.根据权利要求4所述的基于数据融合的中藏药材成分质量评价方法,其特征在于:根据ATR-NIR光谱融合数据,并采用贝叶斯岭回归法、高斯过程回归法、偏最小二乘回归法、支持向量机回归法四种方法中任意两种或多种方法建立高级融合模型。
CN202210185098.7A 2022-02-28 2022-02-28 基于数据融合的中藏药材成分质量评价方法 Active CN114662858B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210185098.7A CN114662858B (zh) 2022-02-28 2022-02-28 基于数据融合的中藏药材成分质量评价方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210185098.7A CN114662858B (zh) 2022-02-28 2022-02-28 基于数据融合的中藏药材成分质量评价方法

Publications (2)

Publication Number Publication Date
CN114662858A CN114662858A (zh) 2022-06-24
CN114662858B true CN114662858B (zh) 2023-09-08

Family

ID=82027779

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210185098.7A Active CN114662858B (zh) 2022-02-28 2022-02-28 基于数据融合的中藏药材成分质量评价方法

Country Status (1)

Country Link
CN (1) CN114662858B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116793989A (zh) * 2023-06-19 2023-09-22 中国科学院西北高原生物研究所 一种中藏药材提取过程在线nir检测系统及方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101299022A (zh) * 2008-06-20 2008-11-05 河南中医学院 利用近红外光谱技术评价中药药材综合质量的方法
CN110110789A (zh) * 2019-05-08 2019-08-09 杭州麦迪特检测技术服务有限公司 一种基于多谱图信息融合技术的中草药品质鉴别方法
CN110163101A (zh) * 2019-04-17 2019-08-23 湖南省中医药研究院 中药材种子区别及等级快速判别方法
CN111024643A (zh) * 2019-11-26 2020-04-17 中国科学院西北高原生物研究所 一种麻花艽药材品质评价的近红外光谱检测方法
CN112768011A (zh) * 2021-01-26 2021-05-07 广东一方制药有限公司 玄参药材评价模型的构建方法和玄参药材品质的评价方法
WO2021128785A1 (zh) * 2019-12-23 2021-07-01 深圳市药品检验研究院(深圳市医疗器械检测中心) 一种评价化橘红质量的模式识别方法、计算机设备以及计算机可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101299022A (zh) * 2008-06-20 2008-11-05 河南中医学院 利用近红外光谱技术评价中药药材综合质量的方法
CN110163101A (zh) * 2019-04-17 2019-08-23 湖南省中医药研究院 中药材种子区别及等级快速判别方法
CN110110789A (zh) * 2019-05-08 2019-08-09 杭州麦迪特检测技术服务有限公司 一种基于多谱图信息融合技术的中草药品质鉴别方法
CN111024643A (zh) * 2019-11-26 2020-04-17 中国科学院西北高原生物研究所 一种麻花艽药材品质评价的近红外光谱检测方法
WO2021128785A1 (zh) * 2019-12-23 2021-07-01 深圳市药品检验研究院(深圳市医疗器械检测中心) 一种评价化橘红质量的模式识别方法、计算机设备以及计算机可读存储介质
CN112768011A (zh) * 2021-01-26 2021-05-07 广东一方制药有限公司 玄参药材评价模型的构建方法和玄参药材品质的评价方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于数据融合和多指标定量对滇龙胆产地鉴别和质量评价;王琴琴;沈涛;左智天;黄衡宇;王元忠;;中国中药杂志(第06期);第92-98页 *

Also Published As

Publication number Publication date
CN114662858A (zh) 2022-06-24

Similar Documents

Publication Publication Date Title
Chen et al. Quantification of total polysaccharides and triterpenoids in Ganoderma lucidum and Ganoderma atrum by near infrared spectroscopy and chemometrics
Chen et al. Rapid measurement of total acid content (TAC) in vinegar using near infrared spectroscopy based on efficient variables selection algorithm and nonlinear regression tools
Xie et al. Prediction of titratable acidity, malic acid, and citric acid in bayberry fruit by near-infrared spectroscopy
Cozzolino et al. Can spectroscopy geographically classify Sauvignon Blanc wines from Australia and New Zealand?
Jin et al. Near infrared spectroscopy in combination with chemometrics as a process analytical technology (PAT) tool for on-line quantitative monitoring of alcohol precipitation
Zaukuu et al. Authentication of Tokaj wine (Hungaricum) with the electronic tongue and near infrared spectroscopy
Chen et al. Simultaneous measurement of total acid content and soluble salt‐free solids content in Chinese vinegar using near‐infrared spectroscopy
Yan et al. Rapid detection of Rosa laevigata polysaccharide content by near-infrared spectroscopy
CN113588590A (zh) 一种基于数据挖掘的中药提取过程质量控制方法
Che et al. Application of visible/near‐infrared spectroscopy in the prediction of azodicarbonamide in wheat flour
CN114662858B (zh) 基于数据融合的中藏药材成分质量评价方法
Meng et al. Discrimination and content analysis of fritillaria using near infrared spectroscopy
Deng et al. Simultaneous quantitative analysis of protein, carbohydrate and fat in nutritionally complete formulas of medical foods by near-infrared spectroscopy
Li et al. Nondestructive detection of frying times for soybean oil by NIR-spectroscopy technology with Adaboost-SVM (RBF)
Wu et al. Rapid determination of process variables of Chinese rice wine using FT-NIR spectroscopy and efficient wavelengths selection methods
De Carvalho et al. Determination of the geographical origin and ethanol content of Brazilian sugarcane spirit using near-infrared spectroscopy coupled with discriminant analysis
Wang et al. Rapid determination of Lycium barbarum polysaccharide with effective wavelength selection using near-infrared diffuse reflectance spectroscopy
Martelo-Vidal et al. Classification of red wines from controlled designation of origin by ultraviolet-visible and near-infrared spectral analysis
Wang et al. Back propagation-artificial neural network model for prediction of the quality of tea shoots through selection of relevant near infrared spectral data via synergy interval partial least squares
Yuan et al. A comparative study on classification of edible vegetable oils by infrared, near infrared and fluorescence spectroscopy combined with chemometrics
Fan et al. Quality assessment of Fritillariae cirrhosae using portable NIR spectrometer
Dai et al. Detection of anthocyanin content in fresh Zijuan tea leaves based on hyperspectral imaging
Li et al. A feasibility study on quantitative analysis of low concentration methanol by FT-NIR spectroscopy and aquaphotomics
CN104865322A (zh) 一种栀子萃取液浓缩过程快速检测方法
Shen et al. Discrimination of blended Chinese rice wine ages based on near-infrared spectroscopy

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant