CN113008805A - 基于高光谱成像深度分析的白芷饮片质量预测方法 - Google Patents
基于高光谱成像深度分析的白芷饮片质量预测方法 Download PDFInfo
- Publication number
- CN113008805A CN113008805A CN202110175267.4A CN202110175267A CN113008805A CN 113008805 A CN113008805 A CN 113008805A CN 202110175267 A CN202110175267 A CN 202110175267A CN 113008805 A CN113008805 A CN 113008805A
- Authority
- CN
- China
- Prior art keywords
- data
- model
- prediction
- sample
- radix angelicae
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000000701 chemical imaging Methods 0.000 title claims abstract description 17
- 238000004458 analytical method Methods 0.000 title claims abstract description 16
- OLOOJGVNMBJLLR-UHFFFAOYSA-N imperatorin Chemical compound C1=CC(=O)OC2=C1C=C1C=COC1=C2OCC=C(C)C OLOOJGVNMBJLLR-UHFFFAOYSA-N 0.000 claims abstract description 29
- XKVWLLRDBHAWBL-UHFFFAOYSA-N imperatorin Natural products CC(=CCOc1c2OCCc2cc3C=CC(=O)Oc13)C XKVWLLRDBHAWBL-UHFFFAOYSA-N 0.000 claims abstract description 29
- 239000000843 powder Substances 0.000 claims abstract description 28
- 241000213006 Angelica dahurica Species 0.000 claims abstract description 25
- 230000002159 abnormal effect Effects 0.000 claims abstract description 17
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 238000002360 preparation method Methods 0.000 claims abstract description 8
- 238000010187 selection method Methods 0.000 claims abstract description 6
- 239000000523 sample Substances 0.000 claims description 61
- 230000003595 spectral effect Effects 0.000 claims description 33
- OKKJLVBELUTLKV-UHFFFAOYSA-N Methanol Chemical compound OC OKKJLVBELUTLKV-UHFFFAOYSA-N 0.000 claims description 27
- 238000010606 normalization Methods 0.000 claims description 20
- 230000000694 effects Effects 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 15
- 238000012360 testing method Methods 0.000 claims description 13
- 238000001514 detection method Methods 0.000 claims description 12
- 238000013528 artificial neural network Methods 0.000 claims description 11
- 238000012937 correction Methods 0.000 claims description 9
- 238000005259 measurement Methods 0.000 claims description 9
- 238000004128 high performance liquid chromatography Methods 0.000 claims description 8
- 210000002569 neuron Anatomy 0.000 claims description 8
- 238000011156 evaluation Methods 0.000 claims description 7
- 238000000611 regression analysis Methods 0.000 claims description 7
- 238000009499 grossing Methods 0.000 claims description 6
- 239000013558 reference substance Substances 0.000 claims description 6
- 239000000243 solution Substances 0.000 claims description 6
- 238000005303 weighing Methods 0.000 claims description 6
- 239000007788 liquid Substances 0.000 claims description 5
- 238000006073 displacement reaction Methods 0.000 claims description 4
- 238000009826 distribution Methods 0.000 claims description 4
- 238000011160 research Methods 0.000 claims description 4
- 238000001228 spectrum Methods 0.000 claims description 4
- 239000004575 stone Substances 0.000 claims description 4
- 238000010987 Kennard-Stone algorithm Methods 0.000 claims description 3
- 238000000342 Monte Carlo simulation Methods 0.000 claims description 3
- 230000003044 adaptive effect Effects 0.000 claims description 3
- 230000006399 behavior Effects 0.000 claims description 3
- 210000000692 cap cell Anatomy 0.000 claims description 3
- 230000002860 competitive effect Effects 0.000 claims description 3
- 238000001816 cooling Methods 0.000 claims description 3
- 239000000706 filtrate Substances 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- GBMDVOWEEQVZKZ-UHFFFAOYSA-N methanol;hydrate Chemical group O.OC GBMDVOWEEQVZKZ-UHFFFAOYSA-N 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000003672 processing method Methods 0.000 claims description 3
- 239000012088 reference solution Substances 0.000 claims description 3
- 239000012488 sample solution Substances 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000007873 sieving Methods 0.000 claims description 3
- 239000012085 test solution Substances 0.000 claims description 3
- 238000009210 therapy by ultrasound Methods 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 230000008030 elimination Effects 0.000 claims description 2
- 238000003379 elimination reaction Methods 0.000 claims description 2
- 230000036961 partial effect Effects 0.000 claims description 2
- 239000012528 membrane Substances 0.000 claims 1
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 238000004519 manufacturing process Methods 0.000 abstract description 3
- 238000011002 quantification Methods 0.000 abstract description 2
- 239000003814 drug Substances 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 5
- 239000000047 product Substances 0.000 description 3
- 241000208173 Apiaceae Species 0.000 description 2
- IGWDEVSBEKYORK-UHFFFAOYSA-N isoimperatorin Chemical compound O1C(=O)C=CC2=C1C=C1OC=CC1=C2OCC=C(C)C IGWDEVSBEKYORK-UHFFFAOYSA-N 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 239000012982 microporous membrane Substances 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 239000003960 organic solvent Substances 0.000 description 2
- 238000003908 quality control method Methods 0.000 description 2
- 238000004445 quantitative analysis Methods 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- ZPSAEGUNYMEKBP-UHFFFAOYSA-N 5-Isopentenyloxy-psoralen Natural products CC(C)C=COc1c2C=CC(=O)Oc2cc3occc13 ZPSAEGUNYMEKBP-UHFFFAOYSA-N 0.000 description 1
- BEYIWVKWKJROGZ-UHFFFAOYSA-N Alloimperatorin Natural products O1C(=O)C=CC2=C1C(O)=C1OC=CC1=C2OCC=C(C)C BEYIWVKWKJROGZ-UHFFFAOYSA-N 0.000 description 1
- 241000125175 Angelica Species 0.000 description 1
- 208000004232 Enteritis Diseases 0.000 description 1
- 235000001287 Guettarda speciosa Nutrition 0.000 description 1
- 206010019233 Headaches Diseases 0.000 description 1
- KGGUASRIGLRPAX-UHFFFAOYSA-N Meranzin hydrate Natural products C1=CC(=O)OC2=C(CC(O)C(C)(C)O)C(OC)=CC=C21 KGGUASRIGLRPAX-UHFFFAOYSA-N 0.000 description 1
- 206010028748 Nasal obstruction Diseases 0.000 description 1
- 206010039101 Rhinorrhoea Diseases 0.000 description 1
- 239000004480 active ingredient Substances 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000000202 analgesic effect Effects 0.000 description 1
- 230000000844 anti-bacterial effect Effects 0.000 description 1
- 230000003110 anti-inflammatory effect Effects 0.000 description 1
- 230000001754 anti-pyretic effect Effects 0.000 description 1
- 230000000259 anti-tumor effect Effects 0.000 description 1
- 239000002221 antipyretic Substances 0.000 description 1
- ZYGHJZDHTFUPRJ-UHFFFAOYSA-N benzo-alpha-pyrone Natural products C1=CC=C2OC(=O)C=CC2=C1 ZYGHJZDHTFUPRJ-UHFFFAOYSA-N 0.000 description 1
- 235000001671 coumarin Nutrition 0.000 description 1
- 150000004775 coumarins Chemical class 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 231100000869 headache Toxicity 0.000 description 1
- 208000006454 hepatitis Diseases 0.000 description 1
- 231100000283 hepatitis Toxicity 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000000491 multivariate analysis Methods 0.000 description 1
- 208000010753 nasal discharge Diseases 0.000 description 1
- 201000009240 nasopharyngitis Diseases 0.000 description 1
- 230000000704 physical effect Effects 0.000 description 1
- 238000004451 qualitative analysis Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 208000004371 toothache Diseases 0.000 description 1
- 229940126680 traditional chinese medicines Drugs 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/17—Systems in which incident light is modified in accordance with the properties of the material investigated
- G01N21/25—Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
Landscapes
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Biochemistry (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Immunology (AREA)
- Pathology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Investigating Or Analysing Materials By Optical Means (AREA)
Abstract
本发明公开了一种基于高光谱成像深度分析的白芷饮片质量预测方法,包括以下步骤:步骤1、获取白芷粉末样品;步骤2、获取白芷粉末样品的数据信息;步骤3、高光谱数据预处理;步骤4、特征波段选择与异常样本剔除,准备建模数据集;步骤5、划分数据集并建立DBN预测模型;步骤6、模型表现评估。本发明利用深度置信网络与多样化高光谱图像的波长特征选择方法结合进行建模,找到最高效的预测模型,以便于能够对多种白芷饮片中欧前胡素含量进行快速、准确量化,实现高效地中药制剂质量预测,有助于辅助产品分级和生产决策。
Description
技术领域
本发明涉及中药质量检测技术领域,具体涉及一种基于高光谱成像深度分析的白芷饮片质量预测方法。
背景技术
中药凭借其完整的体系和良好的治疗效果在全球传统医学中独树一帜、应用广泛。同时,中药治疗过程中的安全性事件也引起了全球的密切关注,产品质量合格、规范和标准等问题尚待解决。白芷是伞形科植物白芷或杭白芷的干燥根,属于伞形科当归属植物。因其具有解热、抗菌、镇痛、抗肿瘤以及消炎等多种药理作用,常用于治疗感冒头痛、鼻塞流涕、牙痛、肠炎以及肝炎等症。白芷主要活性成分为香豆素类的欧前胡素和异欧前胡素,对于欧前胡素的质量研究是白芷质量控制中的重要一项。目前,对白芷饮片中欧前胡素含量检测的研究以高效液相色谱法手段为主。然而,这样的传统质量控制方法大都需要经过有机溶剂的前处理才能对样本进行检测,不仅可能会影响待测样本理化性质,而且需要花费大量人力物力,也不能获取大规模样本的信息。进一步寻找和使用快速、绿色以及能够大规模科学获取中药材信息的检测方法是当代中药产业发展并和国际接轨的迫切需求。
高光谱成像(Hyperspectral Image,HSI)技术融合了传统的成像技术以及光谱技术的优点,不仅能够获取样本的空间信息还能够获取样本的原子、分子光谱等信息,是一种能够同时分析样品的化学性质和物理性质的强大而独特的技术,用于捕获样本中的某成分的空间分布。该技术不仅对环境友好,也降低了有机溶剂对中药有效成分产生不良影响的可能性,效率高且仪器操作难度低,能实现在线监测。
目前,高光谱在中药领域的研究还比较少,大都以分类为主,定量分析较少。在测量样本光谱数据的过程中,容易受到仪器或环境的影响产生一些噪声。更多地,采集样本的光谱信息时,是一整个连续的波长范围的信息,包含数百甚至上千个光谱数据。大量冗余的信息可能影响分析结果。因此,将HIS技术应用于白芷饮片中欧前胡素含量检测,通过选择有效的光谱特征波段,建立准确有效的光谱数据与测试样本期望属性之间的深度学习模型进行多变量数据分析,是亟需解决的问题。
发明内容
为了通过从共线性和含噪声的光谱数据与建立期望属性之间的关系,进行制剂含量的定性和定量分析,本发明提出一种基于深度置信网络(Deep Belief Net,DBN)的白芷饮片中欧前胡素含量预测的方法。该方法充分利用深度学习方法DBN的特征学习能力优势,建立有效的预测模型对白芷饮片中欧前胡素含量实现快速、准确的检测。
本发明解决其技术问题所采用的技术方案是:
一种基于高光谱成像深度分析的白芷饮片质量预测方法,所述方法包括以下步骤:
步骤1)获取白芷粉末样品
首先获得白芷饮片样本,然后用粉碎机粉碎白芷饮片样品,粉末过筛,收集白芷细粉末用于高光谱信息的采集。
步骤2)获取白芷粉末样品的数据信息
收集白芷细粉末用于高效液相色谱法的欧前胡素含量测定和高光谱信息的采集,从而获取多个白芷样本的不同红外波长下光谱反射率值。
步骤3)高光谱数据预处理
在测量样本光谱数据的过程中,容易受到仪器或环境的影响产生噪声;在建立定性或定量模型分析时,采用能够消除光谱数据的噪声以及基线漂移的预处理方法。
步骤4)特征波段选择与异常样本剔除,准备建模数据集
首先,对高光谱数据进行特征波段选择以去除冗余信息并提取有效特征;之后,光谱数据预处理并剔除掉其中的异常样本,将剩余的样本用于后续研究;最终,取每个样本的反射率值作为预测模型的输入变量,欧前胡素含量作为输出变量,形成方法建模用的数据集。
步骤5)划分数据集并建立预测模型
将全部的高光谱数据划分为训练集和测试集。预测模型包括底层深度特征提取的DBN架构与监督学习的反向传播神经网络(BPNN)的顶层架构用于实现回归预测;为了寻找高效的预测模型,选择全波段和不同特征选择方法挑选的特征波长进行建模。
步骤6)模型表现评估
采用预测集相关系数(RPre)、剩余预测偏差(RPD)、和预测集均方根误差(RMSEP)、R平方(R2)回归分析模型评价指标在测试集上对网络模型的预测性能进行评估。
进一步,所述步骤2的过程为:
步骤2.1:高效液相色谱法检测
A、对照品溶液的制备:称定欧前胡素对照品10.93g,加入1mL甲醇制成欧前胡素对照品溶液;B、供试品溶液的制备:称定白芷样品粉末0.4000g,放置于50mL的容量瓶中,加入45mL甲醇,超声处理l小时。将容量瓶取出,待室温下放冷,加入甲醇至容量瓶刻度,摇匀,置于0.25m的微孔滤膜过滤,取续滤液;C、液相色谱仪色谱条件:色谱柱为CAPCELL PAK C18,流动相为甲醇-水,检测波长为300nm;分别精密吸取对照品溶液与供试品溶液各20L,注入高效液相色谱液,测定。
步骤2.2:高光谱成像获取白芷样品高光谱信息
黑白图像校正后,将白芷粉末样品同一水平放置于电控位移平台上。电控移动平台移动速度为16mm/s,工作距离为20.5cm,曝光时间为4ms,按照上述参数条件采集在874-1734nm范围内的高光谱数据信息。
进一步,所述步骤3的过程为:
步骤3.1:数据去噪
平滑算法能够在不减少变量数目的前提下减少数据中的噪声。采用移动平均平滑算法对光谱数据进行去噪。
步骤3.2:基线校正和标准化算法
基线校正算法用于通过将数据调整到数据中的最小点或根据两个用户定义的变量进行线性校正来调整光谱偏移。标准化算法是一组按采样方式进行计算的变换处理方法。变量标准化通过对每个单独的光谱进行缩放来消除散射效应。变量标准化一般用于消除被测样品表面散射等因素所带来的误查。
进一步,所述步骤4的过程为:
步骤4.1:特征波段的提取
分别采用随机蛙跳(RF)、竞争性自适应重加权抽样(CARS)、蒙特卡罗无信息变量消元法(MC-UVE)、基于反向传播神经网络的平均影响值(MIV-BP)算法提取特征波段,后续根据不同的特征波段建模以选择最优的建模特征组合。
步骤4.2:异常样本剔除方法
采用蒙特卡罗方法对异常样本进行检测,并从数据集中删除,将剩余的样本组合成数据集。
进一步,所述步骤5的过程为:
步骤5.1:数据集归一化
为了加快模型的训练速度,对光谱数据进行最大最小归一化处理,具体公式如下所示:
式中表示x′归一化后得到的样本数据;x表示通过测量数据,xmin表示测量数据中的最小值,xmax表示测量数据中的最大值。
步骤5.2:采用Kennard-Stone(KS)方法划分数据集
KS划分步骤为:假设有一个矩阵,行为样本,作为样本的参数列出,Kennard-Stone算法将从中选择预定数量的样本。(a)首先计算两个样本之间的距离,然后选择距离最大的两个样本;(b)然后分别计算剩余样本与两个选定样本之间的距离;(c)对于每个剩余的样本,选择距所选择的样本最短的距离,然后选择与这些最短距离中的最长距离相对应的样本作为第三样本;(d)重复步骤(c),直到选择的样本数量等于预先确定的数量。
由于模型预测时,超参数为固定值,故未分离部分数据作为验证集,使得训练集的数据更加充分。
步骤5.3:建立基于BPNN的DBN预测模型DBN-BP
DBN是一个概率生成模型,主要由用于接收输入的显性神经元和用于提取特征的隐性神经元构成,生成模型是建立一个观察数据和标签之间的联合分布。通过训练其神经元间的权重,能够让整个神经网络按照最大概率来生成训练数据。在DBN的最后一层设置BPNN,接收受限玻尔兹曼机的输出特征向量作为它的输入特征向量,有监督地训练(又称监督学习,是一个机器学习中的方法)实体关系分类器。而且每一层玻尔兹曼机网络只能确保自身层内的权值对该层特征向量映射达到最优,并不是对整个DBN的特征向量映射达到最优,所以BPNN接收玻尔兹曼机的输出特征向量作为其输入特征向量将错误信息自顶向下传播至每一层玻尔兹曼机,微调整个DBN网络,直到达到全局最优。
构建好DBN-BP网络模型,在根据RF、CARS、MC-UVE、MIV-BP算法选择的特征波长以及全波长数据集上分别测试,选择最佳性能的预测模型。
进一步,所述步骤6的过程为:
回归分析模型评价指标是预测集相关系数(RPre)、剩余预测偏差(RPD)、预测集均方根误差(RMSEP)和R平方(R2)回归分析。RPre和RPD的值越大,RMSEP、R2值越小且两者之间的差距越小,模型预测效果越好,模型的预测能力越高,模型的准确度和稳健性越好。一般来说RPD<1,说明模型的预测效果很差,无法使用;RPD>2.5说明模型预测效果非常好。这些指标用以下公式计算:
本发明的有益效果主要表现在:本发明利用深度置信网络与多样化高光谱图像的波长特征选择方法结合进行建模,找到最高效的预测模型,以便于能够对多种白芷饮片中欧前胡素含量进行快速量化,有助于辅助产品分级和生产决策。
附图说明
图1是本发明的深度置信网络欧前胡素预测;
图2是本发明基于全波长测试集欧前胡素含量预测直线拟合图;
图3是本发明基于全波长测试集欧前胡素含量预测直线拟合图;
图4是本发明基于MIV-BP特征波长选择的DBN模型欧前胡素含量预测结果对比图;
图5是本发明基于MIV-BP特征波长选择的DBN模型欧前胡素含量预测直线拟合图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1~图2,一种基于高光谱成像深度分析的白芷饮片质量预测方法,所述方法包括以下步骤:
步骤1、获取白芷粉末样品
首先获得白芷饮片样本,然后用高速多功能粉碎机粉碎白芷饮片样品1分钟,粉末过三号筛。收集白芷细粉末用于高光谱信息的采集。为了获取较大欧前胡素含量浓度范围的白芷粉末样品,建立普适性更好的模型,部分白芷粉末样品进行了潮解处理。
步骤2、获取白芷粉末样品的数据信息
收集白芷细粉末用于高效液相色谱法的欧前胡素含量测定和HIS的高光谱信息的采集,从而获取多个白芷样本的不同红外波长下光谱反射率值。
步骤2.1:高效液相色谱法检测
A、对照品溶液的制备:精密称定欧前胡素对照品10.93g,加入1mL甲醇制成欧前胡素对照品溶液;B、供试品溶液的制备:精密称定白芷样品粉末0.4000g,放置于50mL的容量瓶中,加入45mL甲醇,超声处理l小时。将容量瓶取出,待室温下放冷,加入甲醇至容量瓶刻度,摇匀,置于0.25m的微孔滤膜过滤,取续滤液;C、液相色谱仪色谱条件:色谱柱为CAPCELLPAK C18(4.6mm×250mm,5m),流动相为甲醇-水(55:45,v:v),检测波长为300nm。分别精密吸取对照品溶液与供试品溶液各20L,注人高效液相色谱仪,测定。
步骤2.2:高光谱成像获取白芷样品高光谱信息
黑白图像校正后,将白芷粉末样品同一水平放置于电控位移平台上。电控移动平台移动速度为16mm/s,工作距离为20.5cm,曝光时间为4ms,按照上述参数条件采集在874-1734nm范围内的高光谱数据信息。
步骤3、高光谱数据预处理
在测量样本光谱数据的过程中,容易受到仪器或环境的影响产生一些噪声。由于散射或荧光等影响,也会造成基线漂移。在建立定性或定量模型分析时,采用能够消除光谱数据的一些噪声以及基线漂移的预处理方法十分重要。
步骤3.1:数据去噪
平滑算法能够在不减少变量数目的前提下减少数据中的噪声。采用移动平均平滑算法对光谱数据进行去噪。
步骤3.2:基线校正和标准化算法
基线校正算法用于通过将数据调整到数据中的最小点或根据两个用户定义的变量进行线性校正来调整光谱偏移。标准化算法是一组按采样方式进行计算的变换处理方法。变量标准化通过对每个单独的光谱进行缩放来消除散射效应。变量标准化一般用于消除被测样品表面散射等因素所带来的误差。
步骤4、特征波段选择与异常样本剔除,准备建模数据集
首先,对高光谱数据进行特征波段选择以去除冗余信息并提取有效特征;之后,光谱数据预处理并剔除掉其中的异常样本,将剩余的样本用于后续研究;最终,取每个样本的反射率值作为预测模型的输入变量,欧前胡素含量作为输出变量,形成方法建模用的数据集。
步骤4.1:特征波段的提取
分别采用随机蛙跳(RF)、竞争性自适应重加权抽样(CARS)、迭代地保留信息变量(IRIV)、基于反向传播神经网络的平均影响值(MIV-BP)算法提取特征波段,后续根据不同的特征波段建模以选择最优的建模特征组合。不同算法下的波长组合如表1所示。
表1
步骤4.2:异常样本剔除方法
采用蒙特卡罗方法对异常样本进行检测,并从数据集中删除,将剩余的样本组合成数据集。在全部的212个样本去除异常样本后,将剩余的200个样本用于后续研究。
步骤5、划分数据集并建立预测模型
将全部的高光谱数据划分为训练集和测试集。DBN预测模型包括底层深度特征提取的DBN架构与监督学习的反向传播神经网络(BPNN)的顶层架构用于实现回归预测。为了寻找高效的预测模型,选择全波段和不同特征选择方法挑选的特征波长进行建模。
步骤5.1:数据集归一化
为了加快模型的训练速度,对光谱数据进行最大最小归一化处理,具体公式如下所示:
式中表示x′归一化后得到的样本数据;x表示通过测量数据,xmin表示测量数据中的最小值,xmax表示测量数据中的最大值。
步骤5.2:采用Kennard-Stone(KS)方法划分数据集
KS划分步骤为:假设有一个矩阵,行为样本,作为样本的参数列出,KS算法将从中选择预定数量的样本。(a)首先计算两个样本之间的距离,然后选择距离最大的两个样本;(b)然后分别计算剩余样本与两个选定样本之间的距离;(c)对于每个剩余的样本,选择距所选择的样本最短的距离,然后选择与这些最短距离中的最长距离相对应的样本作为第三样本;(d)重复步骤(c),直到选择的样本数量等于预先确定的数量。
由于模型预测时,超参数为固定值,故未分离部分数据作为验证集,使得训练集的数据更加充分。
步骤5.3:建立基于BPNN的DBN预测模型DBN-BP
DBN是一个概率生成模型,主要由用于接收输入的显性神经元和用于提取特征的隐性神经元构成,生成模型是建立一个观察数据和标签之间的联合分布。通过训练其神经元间的权重,能够让整个神经网络按照最大概率来生成训练数据。在DBN的最后一层设置BPNN,接收受限玻尔兹曼机的输出特征向量作为它的输入特征向量,有监督地训练实体关系分类器。而且每一层玻尔兹曼机网络只能确保自身层内的权值对该层特征向量映射达到最优,并不是对整个DBN的特征向量映射达到最优,所以BPNN接收受限玻尔兹曼机的输出特征向量作为其输入特征向量将错误信息自顶向下传播至每一层玻尔兹曼机,微调整个DBN网络,直到达到全局最优。
构建好DBN-BP网络模型,在根据RF、CARS、MC-UVE、MIV-BP算法选择的特征波长以及全波长数据集上分别测试,选择最佳性能的预测模型。
步骤6、模型表现评估
采用预测集相关系数(Rpre)、剩余预测偏差(RPD)、和预测集均方根误差(RMSEP)、R平方(R2)回归分析模型评价指标在测试集上对网络模型的预测性能进行评估。RPre和RPD的值越大,RMSEP、R2值越小且两者之间的差距越小,模型预测效果越好,模型的预测能力越高,模型的准确度和稳健性越好。一般来说RPD<1,说明模型的预测效果很差,无法使用;RPD>2.5说明模型预测效果非常好。这些指标用以下公式计算:
表2比较了各种波长选择方法下的DBN-BP结果,从对比结果中清楚地看到,相对与其他特征提取方法而言,DBN-BP模型与MIV-BP特征波长提取方法结合具有更好的测试性能,利用少量特征波长即能够白芷饮片中欧前胡素含量预测,大大减少了模型的输入变量,加快了模型的运算效率。这表明MIV-DBN-BP是一种用于白芷饮片中欧前胡素含量的可行且出色的方法。
表2
本发明方法利用深度置信网络与基于反向传播神经网络变量选择结合形成的DBN-BP模型提取高相关度高光谱图像的特征波长,能够在多种白芷饮片中欧前胡素含量实现快速、准确的检测,有助于辅助产品分级和生产决策。
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。
Claims (6)
1.一种基于高光谱成像深度分析的白芷饮片质量预测方法,其特征在于,包括以下步骤:
步骤1)获取白芷粉末样品:
首先获得白芷饮片样本,然后用粉碎机粉碎白芷饮片样品,粉末过筛,收集白芷细粉末用于高光谱信息的采集。
步骤2)获取白芷粉末样品的数据信息:
收集白芷细粉末用于高效液相色谱法的欧前胡素含量测定和高光谱信息的采集,从而获取多个白芷样本的不同红外波长下光谱反射率值;
步骤3)高光谱数据预处理:
在测量样本光谱数据的过程中,容易受到仪器或环境的影响产生噪声;在建立定性或定量模型分析时,采用能够消除光谱数据的噪声以及基线漂移的预处理方法;
步骤4)特征波段选择与异常样本剔除,准备建模数据集:
首先,对高光谱数据进行特征波段选择以去除冗余信息并提取有效特征;之后,光谱数据预处理并剔除掉其中的异常样本,将剩余的样本用于后续研究;最终,取每个样本的反射率值作为预测模型的输入变量,欧前胡素含量作为输出变量,构造方法建模用的数据集;
步骤5)划分数据集并建立预测模型
将全部的高光谱数据划分为训练集和测试集,预测模型包括底层深度特征提取的深度置信网络DBN架构与监督学习的反向传播神经网络BPNN的顶层架构用于实现回归预测;为了寻找高效的预测模型,选择全波段和不同特征选择方法挑选的特征波长进行建模;
步骤6)模型表现评估:
采用预测集相关系数Rpre、剩余预测偏差RPD、预测集均方根误差RMSEP及R2回归分析模型评价指标在测试集上对网络模型的预测性能进行评估。
2.根据权利要求1所述的一种基于高光谱成像深度分析的白芷饮片质量预测方法,其特征在于,所述步骤2)的过程为:
步骤2.1)高效液相色谱法检测:
2.1.1)对照品溶液的制备:称定欧前胡素对照品10.93g,加入1mL甲醇制成欧前胡素对照品溶液;2.1.2)供试品溶液的制备:称定白芷样品粉末0.4000g,放置于50mL的容量瓶中,加入45mL甲醇,超声处理l小时,将容量瓶取出,待室温下放冷,加入甲醇至容量瓶刻度,摇匀,置于0.25m的微孔滤膜过滤,取续滤液;2.1.3)液相色谱仪色谱条件:色谱柱为CAPCELLPAK C18,流动相为甲醇-水,检测波长为300nm;分别吸取对照品溶液与供试品溶液各20L,注人高效液相色谱仪,测定;
步骤2.2)高光谱成像获取白芷样品高光谱信息:
黑白图像校正后,将白芷粉末样品同一水平放置于电控位移平台上,电控移动平台移动速度为16mm/s,工作距离为20.5cm,曝光时间为4ms,按照上述参数条件采集在874-1734nm范围内的高光谱数据信息。
3.根据权利要求1所述的一种基于高光谱成像深度分析的白芷饮片质量预测方法,其特征在于,所述步骤3)的过程为:
步骤3.1)数据去噪:
平滑算法能够在不减少变量数目的前提下减少数据中的噪声,采用移动平均平滑算法对光谱数据进行去噪;
步骤3.2)基线校正和标准化算法:
基线校正算法用于通过将数据调整到数据中的最小点或根据两个用户定义的变量进行线性校正来调整光谱偏移,标准化算法是一组按采样方式进行计算的变换处理方法,变量标准化通过对每个单独的光谱进行缩放来消除散射效应。
4.根据权利要求1所述的一种基于高光谱成像深度分析的白芷饮片质量预测方法,其特征在于,所述步骤4)的过程为:
步骤4.1)特征波段的提取:
分别采用随机蛙跳RF、竞争性自适应重加权抽样CARS、蒙特卡罗无信息变量消元法MC-UVE、基于反向传播神经网络的平均影响值MIV-BP算法提取特征波段,后续根据不同的特征波段建模以选择最优的建模特征组合;
步骤4.2)异常样本剔除方法:
采用蒙特卡罗方法对异常样本进行检测,并从数据集中删除,将剩余的样本组合成数据集。
5.根据权利要求1所述的一种基于高光谱成像深度分析的白芷饮片质量预测方法,其特征在于,所述步骤5)的过程为:
步骤5.1)数据集归一化:
为了加快模型的训练速度,对光谱数据进行最大最小归一化处理,具体公式如下所示:
式中表示x′归一化后得到的样本数据;x表示通过测量数据,xmin表示测量数据中的最小值,xmax表示测量数据中的最大值;
步骤5.2)采用Kennard-Stone方法划分数据集:
Kennard-Stone划分步骤为:假设有一个矩阵,行为样本,作为样本的参数列出,Kennard-Stone算法将从中选择预定数量的样本;由于模型预测时,超参数为固定值,故未分离部分数据作为验证集,使得训练集的数据更加充分:
步骤5.3)建立基于BPNN的DBN预测模型DBN-BP:
DBN是一个概率生成模型,主要由用于接收输入的显性神经元和用于提取特征的隐性神经元构成,生成模型是建立一个观察数据和标签之间的联合分布;在DBN的最后一层设置BPNN,接收受限玻尔兹曼机的输出特征向量作为它的输入特征向量,有监督地训练实体关系分类器,构建好DBN-BP网络模型;在根据RF、CARS、MC-UVE、MIV-BP算法选择的特征波长以及全波长数据集上分别测试,选择最佳性能的预测模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110175267.4A CN113008805B (zh) | 2021-02-07 | 2021-02-07 | 基于高光谱成像深度分析的白芷饮片质量预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110175267.4A CN113008805B (zh) | 2021-02-07 | 2021-02-07 | 基于高光谱成像深度分析的白芷饮片质量预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113008805A true CN113008805A (zh) | 2021-06-22 |
CN113008805B CN113008805B (zh) | 2024-03-26 |
Family
ID=76384027
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110175267.4A Active CN113008805B (zh) | 2021-02-07 | 2021-02-07 | 基于高光谱成像深度分析的白芷饮片质量预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113008805B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113607656A (zh) * | 2021-08-03 | 2021-11-05 | 安徽省农业科学院土壤肥料研究所 | 一种基于高光谱成像的叶片叶绿素含量监测方法与系统 |
CN113642251A (zh) * | 2021-08-31 | 2021-11-12 | 佛山众陶联供应链服务有限公司 | 一种建筑陶瓷喷雾制粉质量的数据分析预测方法及系统 |
CN113917003A (zh) * | 2021-08-30 | 2022-01-11 | 浙江工业大学 | 一种白芷饮片中欧前胡素含量的检测方法 |
CN114112992A (zh) * | 2022-01-20 | 2022-03-01 | 武汉工程大学 | 一种奶油亮蓝色素的检测方法、装置及存储介质 |
CN114720436A (zh) * | 2022-01-24 | 2022-07-08 | 四川农业大学 | 基于荧光高光谱成像的农产品品质参数检测方法及设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101299022A (zh) * | 2008-06-20 | 2008-11-05 | 河南中医学院 | 利用近红外光谱技术评价中药药材综合质量的方法 |
CN104598886A (zh) * | 2015-01-23 | 2015-05-06 | 中国矿业大学(北京) | 一种用近红外高光谱图像识别霉变花生的方法 |
CN108519348A (zh) * | 2018-04-17 | 2018-09-11 | 宁夏医科大学 | 甘草药材近红外定量分析模型及检测方法和标准 |
CN110849828A (zh) * | 2019-12-13 | 2020-02-28 | 嘉兴职业技术学院 | 一种基于高光谱图像技术的藏红花分类方法 |
CN111398211A (zh) * | 2020-03-09 | 2020-07-10 | 浙江工业大学 | 一种苍术颗粒剂的信息区分处理方法 |
-
2021
- 2021-02-07 CN CN202110175267.4A patent/CN113008805B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101299022A (zh) * | 2008-06-20 | 2008-11-05 | 河南中医学院 | 利用近红外光谱技术评价中药药材综合质量的方法 |
CN104598886A (zh) * | 2015-01-23 | 2015-05-06 | 中国矿业大学(北京) | 一种用近红外高光谱图像识别霉变花生的方法 |
CN108519348A (zh) * | 2018-04-17 | 2018-09-11 | 宁夏医科大学 | 甘草药材近红外定量分析模型及检测方法和标准 |
CN110849828A (zh) * | 2019-12-13 | 2020-02-28 | 嘉兴职业技术学院 | 一种基于高光谱图像技术的藏红花分类方法 |
CN111398211A (zh) * | 2020-03-09 | 2020-07-10 | 浙江工业大学 | 一种苍术颗粒剂的信息区分处理方法 |
Non-Patent Citations (1)
Title |
---|
刘光炜等: "基于光谱图像分析的白芷酒炖前后4种香豆素类成分含量测定", 科技通报, pages 62 - 65 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113607656A (zh) * | 2021-08-03 | 2021-11-05 | 安徽省农业科学院土壤肥料研究所 | 一种基于高光谱成像的叶片叶绿素含量监测方法与系统 |
CN113917003A (zh) * | 2021-08-30 | 2022-01-11 | 浙江工业大学 | 一种白芷饮片中欧前胡素含量的检测方法 |
CN113642251A (zh) * | 2021-08-31 | 2021-11-12 | 佛山众陶联供应链服务有限公司 | 一种建筑陶瓷喷雾制粉质量的数据分析预测方法及系统 |
CN113642251B (zh) * | 2021-08-31 | 2024-05-28 | 佛山众陶联供应链服务有限公司 | 一种建筑陶瓷喷雾制粉质量的数据分析预测方法及系统 |
CN114112992A (zh) * | 2022-01-20 | 2022-03-01 | 武汉工程大学 | 一种奶油亮蓝色素的检测方法、装置及存储介质 |
CN114112992B (zh) * | 2022-01-20 | 2022-04-12 | 武汉工程大学 | 一种奶油亮蓝色素的检测方法、装置及存储介质 |
CN114720436A (zh) * | 2022-01-24 | 2022-07-08 | 四川农业大学 | 基于荧光高光谱成像的农产品品质参数检测方法及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113008805B (zh) | 2024-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113008805A (zh) | 基于高光谱成像深度分析的白芷饮片质量预测方法 | |
CN101915744B (zh) | 物质成分含量的近红外光谱无损检测方法及装置 | |
Jiang et al. | Comparison of algorithms for wavelength variables selection from near-infrared (NIR) spectra for quantitative monitoring of yeast (Saccharomyces cerevisiae) cultivations | |
CN108802000A (zh) | 一种基于拉曼全谱分析的无损快速胆维丁含量定量方法 | |
Song et al. | Chlorophyll content estimation based on cascade spectral optimizations of interval and wavelength characteristics | |
CN101231274B (zh) | 近红外光谱快速测定山药中尿囊素含量的方法 | |
CN104062258B (zh) | 一种采用近红外光谱快速测定复方阿胶浆中可溶性固形物的方法 | |
CN107247033B (zh) | 基于快速衰减式淘汰算法和plsda鉴别黄花梨成熟度的方法 | |
CN111488926B (zh) | 一种基于优化模型的土壤有机质测定方法 | |
CN103472031A (zh) | 一种基于高光谱成像技术的脐橙糖度检测方法 | |
CN102072767A (zh) | 基于波长相似性共识回归红外光谱定量分析方法和装置 | |
CN109409350A (zh) | 一种基于pca建模反馈式载荷加权的波长选择方法 | |
Chen et al. | A rapid and effective method for species identification of edible boletes: FT-NIR spectroscopy combined with ResNet | |
CN105223140A (zh) | 同源物质的快速识别方法 | |
CN102135496A (zh) | 基于多尺度回归的红外光谱定量分析方法和装置 | |
WO2023123329A1 (zh) | 近红外光谱的净信号提取方法及其系统 | |
CN109030452A (zh) | 一种基于五点三次平滑算法的拉曼光谱数据降噪方法 | |
CN114324215A (zh) | 一种柠檬叶片叶绿素含量及其二维分布检测方法 | |
CN105651727B (zh) | 基于jade和elm的近红外光谱分析鉴别苹果货架期的方法 | |
Zhang et al. | Analysis of moisture and total sugar content of Huizao based on surface images | |
CN108169204A (zh) | 一种基于数据库的拉曼光谱预处理方法 | |
CN113917003A (zh) | 一种白芷饮片中欧前胡素含量的检测方法 | |
CN112964690A (zh) | 一种基于拉曼光谱实时监测中药配方颗粒提取过程的方法 | |
Zhao et al. | Reducing Moisture Effects on Soil Organic Carbon Content Estimation in Vis-NIR Spectra With a Deep Learning Algorithm | |
CN108956527B (zh) | 快速检测红枣中环磷酸腺苷cAMP含量的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |