CN114112983B - 一种基于Python数据融合的藏药全缘叶绿绒蒿产地判别方法 - Google Patents
一种基于Python数据融合的藏药全缘叶绿绒蒿产地判别方法 Download PDFInfo
- Publication number
- CN114112983B CN114112983B CN202111211136.3A CN202111211136A CN114112983B CN 114112983 B CN114112983 B CN 114112983B CN 202111211136 A CN202111211136 A CN 202111211136A CN 114112983 B CN114112983 B CN 114112983B
- Authority
- CN
- China
- Prior art keywords
- data
- fusion
- leaf green
- edge leaf
- python
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 84
- QDOXWKRWXJOMAK-UHFFFAOYSA-N dichromium trioxide Chemical compound O=[Cr]O[Cr]=O QDOXWKRWXJOMAK-UHFFFAOYSA-N 0.000 title claims abstract description 62
- 239000003814 drug Substances 0.000 title claims abstract description 25
- 235000003826 Artemisia Nutrition 0.000 title claims abstract description 23
- 235000003261 Artemisia vulgaris Nutrition 0.000 title claims abstract description 23
- 244000030166 artemisia Species 0.000 title claims abstract description 23
- 235000009052 artemisia Nutrition 0.000 title claims abstract description 23
- 238000012850 discrimination method Methods 0.000 title claims abstract description 7
- 238000000034 method Methods 0.000 claims abstract description 67
- 238000001228 spectrum Methods 0.000 claims abstract description 63
- 210000004252 chorionic villi Anatomy 0.000 claims abstract description 37
- 230000000694 effects Effects 0.000 claims abstract description 27
- 239000000523 sample Substances 0.000 claims description 37
- 238000004458 analytical method Methods 0.000 claims description 13
- 230000003595 spectral effect Effects 0.000 claims description 13
- 238000012706 support-vector machine Methods 0.000 claims description 10
- 238000007477 logistic regression Methods 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 238000007637 random forest analysis Methods 0.000 claims description 7
- 238000004497 NIR spectroscopy Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000002203 pretreatment Methods 0.000 claims description 3
- 238000003892 spreading Methods 0.000 claims description 3
- 230000007480 spreading Effects 0.000 claims description 3
- 239000000463 material Substances 0.000 abstract description 17
- 238000002329 infrared spectrum Methods 0.000 abstract description 15
- 235000015784 Artemisia rupestris Nutrition 0.000 abstract description 5
- 241001670235 Artemisia rupestris Species 0.000 abstract description 5
- 238000005516 engineering process Methods 0.000 abstract description 5
- 238000001514 detection method Methods 0.000 abstract description 3
- 238000007500 overflow downdraw method Methods 0.000 abstract description 2
- 238000004519 manufacturing process Methods 0.000 description 11
- 239000000126 substance Substances 0.000 description 6
- 239000013598 vector Substances 0.000 description 6
- 238000005457 optimization Methods 0.000 description 5
- 238000009499 grossing Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000013145 classification model Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000013441 quality evaluation Methods 0.000 description 3
- 241001247197 Cephalocarida Species 0.000 description 2
- 241000196324 Embryophyta Species 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000001276 controlling effect Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000002195 synergetic effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- FFRBMBIXVSCUFS-UHFFFAOYSA-N 2,4-dinitro-1-naphthol Chemical compound C1=CC=C2C(O)=C([N+]([O-])=O)C=C([N+]([O-])=O)C2=C1 FFRBMBIXVSCUFS-UHFFFAOYSA-N 0.000 description 1
- 235000017519 Artemisia princeps Nutrition 0.000 description 1
- 244000065027 Artemisia princeps Species 0.000 description 1
- 238000005033 Fourier transform infrared spectroscopy Methods 0.000 description 1
- 206010019233 Headaches Diseases 0.000 description 1
- 206010061218 Inflammation Diseases 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 206010030113 Oedema Diseases 0.000 description 1
- 208000002193 Pain Diseases 0.000 description 1
- 241000218180 Papaveraceae Species 0.000 description 1
- 206010035664 Pneumonia Diseases 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000005102 attenuated total reflection Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000003467 diminishing effect Effects 0.000 description 1
- 238000001035 drying Methods 0.000 description 1
- 231100000869 headache Toxicity 0.000 description 1
- 208000006454 hepatitis Diseases 0.000 description 1
- 231100000283 hepatitis Toxicity 0.000 description 1
- 230000004054 inflammatory process Effects 0.000 description 1
- JEIPFZHSYJVQDO-UHFFFAOYSA-N iron(III) oxide Inorganic materials O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000012067 mathematical method Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 229940126680 traditional chinese medicines Drugs 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000017260 vegetative to reproductive phase transition of meristem Effects 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/17—Systems in which incident light is modified in accordance with the properties of the material investigated
- G01N21/25—Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
- G01N21/31—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
- G01N21/35—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
- G01N21/359—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light using near infrared light
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/17—Systems in which incident light is modified in accordance with the properties of the material investigated
- G01N21/25—Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/17—Systems in which incident light is modified in accordance with the properties of the material investigated
- G01N21/25—Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
- G01N21/31—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
- G01N21/35—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
- G01N21/3563—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light for analysing solids; Preparation of samples therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24147—Distances to closest patterns, e.g. nearest neighbour classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Chemical & Material Sciences (AREA)
- Health & Medical Sciences (AREA)
- Analytical Chemistry (AREA)
- Biochemistry (AREA)
- General Health & Medical Sciences (AREA)
- Immunology (AREA)
- Pathology (AREA)
- Investigating Or Analysing Materials By Optical Means (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于Python数据融合的藏药全缘叶绿绒蒿产地判别方法,属于药材检测领域,方法对不同产地的全缘叶绿绒蒿样品进行NIR光谱采集和ATR光谱采集,将采集到的NIR光谱数据和ATR光谱数据进行初级融合;利用多种分类方法分别对初级融合得到的数据进行建模,并比较不同模型的分类效果;利用Python软件进行特征值融合,得到中级融合数据;根据中级融合数据结合分类效果最好的分类方法建立中级判别模型,根据初级融合分类效果较好的多种方法决策形成高级判别模型,并利用判别模型对全缘叶绿绒蒿进行产地判别。本发明首次利用红外光谱技术结合Python数据融合方法分析全缘叶绿绒蒿,实现了全缘叶绿绒蒿产地的快速准确的溯源,有效提升产地判别准确率。
Description
技术领域
本发明涉及药材检测领域,尤其涉及一种基于Python数据融合的藏药全缘叶绿绒蒿产地判别方法。
背景技术
全缘叶绿绒蒿(Meconopsisintegrifolia(Maxim.)Franch.)为罂粟科绿绒蒿属为多年生草本植物,高30-60cm,全体被锈色和金黄色平展或反曲、具多短分枝的长柔毛,主要产于西藏、青海、四川、云南西北部和甘肃,生于海拔3000-4800m的高山草甸和灌丛中。作为经典藏药,全缘叶绿绒蒿以干燥全草入药,具有清热解毒、消炎止痛等功效,用于治疗肺炎、肝炎、头痛、水肿等病症。
药材质量与其所在生态环境密切相关,适宜的产地是生产优质药材的重要基础,因此,有必要对全缘叶绿绒蒿的产地进行准确鉴别,但目前还未有文献对全缘叶绿绒蒿的产地进行鉴别,现有的对于药材产地的鉴别方法多采用传统的鉴别方法,费时费力,具有一定的局限性。
红外光谱技术具有快速、准确、无污染、同步分析等优点,在中药领域得到了广泛的应用。但现有的红外光谱分析方法多为单一光谱分析方法,不能全面反应藏药材的复杂化学成分,对产地溯源和质量评价具有一定的局限性。
发明内容
本发明的目的在于攻克对全缘叶绿绒蒿的产地鉴别的难题,提供了一种基于Python数据融合的藏药全缘叶绿绒蒿产地判别方法。
本发明的目的是通过以下技术方案来实现的:
主要提供一种基于Python数据融合的藏药全缘叶绿绒蒿产地判别方法,所述方法包括:
采集得到不同产地的全缘叶绿绒蒿样品;
对所述不同产地的全缘叶绿绒蒿样品进行NIR光谱采集,得到NIR光谱数据,对所述不同产地的全缘叶绿绒蒿样品进行ATR光谱采集,得到ATR光谱数据;
将所述NIR光谱数据和ATR光谱数据进行融合,得到初级融合数据;利用多种分类方法分别对初级融合数据进行建模,并比较不同模型的分类效果,得出分类效果最好的分类方法;
利用Python软件提取初级融合数据中每个光谱数据的特征值,计算每个特征值的贡献度,并抽取贡献度大的特征值进行融合,得到中级融合数据;
根据所述中级融合数据结合所述分类效果最好的分类方法建立判别模型,并利用所述判别模型对全缘叶绿绒蒿进行产地判别。
作为一选项,所述方法还包括:
选取分类效果靠前的几种分类方法分别对所述中级融合数据进行建模,将多种模型的输出结果进行高级融合,所述高级融合包括:
对多种模型的输出结果分别赋予权重,构建出一种新的决策方式,并根据所述决策方式对样品分子的理化性质进行分析。
作为一选项,所述采集不同产地的全缘叶绿绒蒿样品,包括:
采集青海省内14个不同产地的、共631份全缘叶绿绒蒿全草样品。
作为一选项,所述对所述不同产地的全缘叶绿绒蒿样品进行NIR光谱采集,包括:
将所述全缘叶绿绒蒿样品置于样品杯内,进行摊平和压实的预处理;
对预处理后的样品进行NIR光谱扫描:扫描范围为10000-4000cm-1,分辨率为8cm-1,扫描64次;
取所述NIR光谱扫描后的平均谱图做分析,得到样品的一维近红外谱图。
作为一选项,所述对所述不同产地的全缘叶绿绒蒿样品进行ATR光谱采集,包括:
将所述全缘叶绿绒蒿样品置于ATR红外探头上,采集ATR一维红外谱图,其中,扫描范围为4000-400cm-1,分辨率为4cm-1,扫描32次。
作为一选项,所述将所述NIR光谱数据和ATR光谱数据进行融合,包括:
利用Python软件将所述NIR光谱数据和ATR光谱数据进行串联。
作为一选项,利用逻辑斯谛回归计算每个特征值的贡献度。
作为一选项,所述抽取贡献度大的特征值进行融合,得到中级融合数据,包括:
将每个光谱数据中贡献度大的特征值提取出来,形成一个新的CSV数据集,所述CSV数据集用TQ Analyst软件打开。
作为一选项,所述根据所述中级融合数据结合所述分类效果最好的分类方法建立判别模型,包括:
利用Python软件采用支持向量机的分类方法建立定性判别模型。
作为一选项,采用支持向量机、Adaboost、随机森林、极限树和K近邻算法进行高级融合。
需要进一步说明的是,上述方法各选项对应的技术特征可以相互组合或替换构成新的技术方案。
与现有技术相比,本发明有益效果是:
(1)首次利用红外光谱技术结合Python数据融合策略分析全缘叶绿绒蒿,实现快速准确的溯源全缘叶绿绒蒿产地,有利于从药材源头控制原药材品质,并为其他药材产地判别提供新方法。
(2)利用Python软件采用数据融合策略提升产地判别准确率,较之单一光谱建模分析可有效提升产地判别准确率,更加准确有效的区分不同产地全缘叶绿绒蒿,也为其他药材分类模型性能的提升提供理论依据与技术指导。
(3)采用支持向量机、Adaboost、随机森林、极限树和K近邻算法进行高级融合,模型的识别效果得到进一步提升。
附图说明
图1为本发明一种基于Python数据融合的藏药全缘叶绿绒蒿产地判别方法的流程图;
图2为本发明NIR一维光谱图;
图3为本发明ATR一维光谱图;
图4为本发明全缘叶绿绒蒿NIR模型图;
图5为本发明全缘叶绿绒蒿ATR模型图;
图6为本发明未经处理的原谱图;
图7为本发明截掉前面20个值和后面50个值得到的谱图;
图8为本发明多元散射校正得到的谱图;
图9为本发明Norris平滑得到的谱图;
图10为本发明一阶导数处理得到的谱图;
图11为本发明NIR光谱数据和ATR光谱数据串联后的谱图;
图12为本发明中级融合数据得到的图谱;
图13为本发明SVM模型参数寻优结果图。
具体实施方式
下面结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
本发明主要利用红外光谱技术结合Python数据融合策略分析全缘叶绿绒蒿,实现快速准确的溯源全缘叶绿绒蒿产地,同时利用数据融合策略提升产地判别准确率,为从药材源头控制原药材品质提供科学依据,并为其他药材产地判别提供新方法。
实施例1
在一示例性实施例中,提供一种基于Python数据融合的藏药全缘叶绿绒蒿产地判别方法,如图1所示,所述方法包括:
采集得到不同产地的全缘叶绿绒蒿样品;
对所述不同产地的全缘叶绿绒蒿样品进行NIR光谱采集,得到NIR光谱数据,对所述不同产地的全缘叶绿绒蒿样品进行ATR光谱采集,得到ATR光谱数据;
将所述NIR光谱数据和ATR光谱数据进行融合,得到初级融合数据;利用多种分类方法分别对初级融合数据进行建模,并比较不同模型的分类效果,得出分类效果最好的分类方法;
利用Python软件提取初级融合数据中每个光谱数据的特征值,计算每个特征值的贡献度,并抽取贡献度大的特征值进行融合,得到中级融合数据;
根据所述中级融合数据结合所述分类效果最好的分类方法建立判别模型,并利用所述判别模型对全缘叶绿绒蒿进行产地判别。
具体地,由于单一光谱获得的化学信息忽略了多种成分与机制的协同作用,反应的信息较为片面,难以反应中藏药材的复杂化学成分,对产地溯源和质量评价具有一定的局限性,因此,分别对不同产地的全缘叶绿绒蒿样品进行NIR光谱采集和ATR光谱采集,将所述NIR光谱数据和ATR光谱数据分别进行单光谱建模分析,将所述NIR外光谱数据和ATR光谱数据进行融合,使用数学方法剔除无用信息而保留有效信息,增加样品被检测化学信息,弥补单一析方法上的不足,增强模型的稳健性。其中,NIR为近红外光谱,ATR为衰减全反射光谱。
进一步地,对融合后的NIR光谱数据和ATR光谱数据,利用Python软件提取其中每个光谱数据的特征值,计算每个特征值的贡献度,并抽取贡献度大的特征值进行融合,得到中级融合数据,对中级融合数据进行分析可以获得更准确的信息。
本发明首次利用红外光谱技术结合Python数据融合策略分析全缘叶绿绒蒿,实现快速准确的溯源藏药全缘叶绿绒蒿产地,有利于从药材源头控制原药材品质,并为其他药材产地判别提供新方法。
实施例2
基于实施例1,提供一种基于Python数据融合的藏药全缘叶绿绒蒿产地判别方法,所述方法还包括:
选取分类效果靠前的几种分类方法分别对所述中级融合数据进行建模,将多种模型的输出结果进行高级融合,所述高级融合包括:
对多种模型的输出结果分别赋予权重,构建出一种新的决策方式,并根据所述决策方式对样品分子的理化性质进行分析。其中,将多种模型的输出结果进行投票,每一种模型得到一个投票预测结果,再融合投票结果,综合成一个模型,完成高级融合,这个模型可称之为高级判别模型,利用该高级判别模型对全缘叶绿绒蒿进行产地判别,能够在实施例1的基础上进一步提高识别率。
具体地,实施例1中的初级融合数据是原始数据层的融合得来的,仅需要对来源不同的数据简单串联即可,中级融合数据的得来是特征层数据融合,相较于初级融合数据而言它需要对来自于不同的数据先进行特征信息提取,再根据相应的融合方法对获得的特征变量进行融合,对融合后的数据进行分析可以获得更准确的信息。该实施提出在前两次融合后进行再次融合即高级融合,高级融合是决策层数据融合,是通过对不同来源的数据分析建立模型,对这些模型的预测结果进行分析,并通过投票的方法对其分别赋予其权重,从而构建出一种新的决策方式,进而根据这种决策对样品分子的理化性质进行分析,能够进一步提升识别效果。
实施例3
基于实施例1,提供一种基于Python数据融合的藏药全缘叶绿绒蒿产地判别方法,所述采集不同产地的全缘叶绿绒蒿样品,包括:
采集青海省内14个不同产地的、共631份全缘叶绿绒蒿全草样品。具体地,于全缘叶绿绒蒿花期期间,在青海省范围内,自南向北采自14个不同产地,共采集到631份全草样品,样品先鉴定为全缘叶绿绒蒿,将样品带回实验室洗涤、干燥、粉碎,过100目筛后放入干燥器中待分析用。
实验器材包括:iS50傅里叶变换红外光谱分析仪(美国,Thermo Fisher公司),配有近红外和ATR附件,样品杯直径1.20cm,干燥器(中国,上海一恒技术有限公司,DHG9245A)。
进一步地,所述对所述不同产地的全缘叶绿绒蒿样品进行NIR光谱采集,包括:
将所述全缘叶绿绒蒿样品置于样品杯内,进行摊平和压实的预处理;
对预处理后的样品进行NIR光谱扫描:扫描范围为10000-4000cm-1,分辨率为8cm-1,扫描64次;
取所述NIR光谱扫描后的平均谱图做分析,得到样品的一维近红外谱图。
具体地,取全缘叶绿绒蒿样品适量置于样品杯内、摊平、压实,采集过程中实时扣除CO2和水的背景干扰,以空气为参比,在10000-4000cm-1范围内扫描近红外光谱(n=3),以平均谱图做分析用,扫描分辨率8cm-1,扫描64次,光谱采集前预热仪器至少30min。如图2所示为样品的一维近红外谱图。
进一步地,所述对所述不同产地的全缘叶绿绒蒿样品进行ATR光谱采集,包括:
将所述全缘叶绿绒蒿样品置于ATR红外探头上,采集ATR一维红外谱图,具体地,采集过程中实时扣除CO2和水的背景干扰,以空气为参比,在4000-400cm-1内采集ATR光谱(n=3),以平均谱图做分析用,扫描分辨率4cm-1,扫描32次,光谱采集前预热仪器至少30min。如图3所示为样品的一维ATR红外谱图。
将所述NIR和ATR光谱数据分别进行单光谱建模,以下是使用单一光谱对全缘叶绿绒蒿产地判别的分析:
全缘叶绿绒蒿NIR光谱数据产地判别分析:将14个产地的全缘叶绿绒蒿共631份NIR一维光谱导入TQ Analyst软件,利用单因素试验优化建模条件,优化的建模条件为:DA+SNV+D1+Norris平滑,建模波段为8918-4095cm-1,此建模条件下建立的模型识别率80.52%,预测率80.75%,总正确率80.59%,模型3D图如图4所示。
全缘叶绿绒蒿ATR光谱数据产地判别分析:将14个产地的全缘叶绿绒蒿共631份ATR一维光谱导入TQ Analyst软件,利用单因素试验优化建模条件,优化的建模条件为:DM+Constant+D1+Norris平滑,建模波段为3928-472cm-1。此建模条件下建立的模型识别率97.18%,预测率49.53%,总正确率81.32%,模型3D图如图5所示。
单一光谱获得的化学信息忽略了多种成分与机制的协同作用,反应的信息较为片面,难以反应中藏药材的复杂化学成分,对产地溯源和质量评价具有一定的局限性,由上述可知,单一光谱方法下,模型的预测率均不高。
进一步地,所述将所述NIR近红外光谱数据和ATR红外光谱数据进行融合,包括:
将所述NIR近红外光谱数据和ATR红外光谱数据进行串联,从串联之前需要对谱图进行预处理,如图6-10所示,依次为未经处理的原谱图、截掉前面20个值和后面50个值得到的谱图、多元散射校正得到的谱图、Norris平滑得到的谱图,由于经过处理的谱图建模效果不如原谱图的建模效果,因此选用原谱图进行后续操作,串联后的谱图如图11所示。
进一步地,利用逻辑斯谛回归计算每个特征值的贡献度。
进一步地,所述抽取贡献度大的特征值进行融合,得到中级融合数据,包括:
将每个光谱数据中贡献度大的特征值提取出来,形成一个新的CSV数据集,所述CSV数据集用TQ Analyst软件打开。如图12所示为中级融合数据图谱,此时横坐标已不是波数,而是自己重新编排的共4086个特征值,故横坐标范围为0-4086)。
具体地,逻辑斯蒂回归虽然被称为回归,但其实上是分类模型,是一种连续型的概率分布,其本质是假设数据服从这个分布,然后使用极大似然估计做参数的估计。设定逻辑斯蒂回归模型中预测目标物种的存在概率为P,以P为因变量,建立线性回归方程为:
其中,k为评价因子序号,n为评价因子总数,bk为第k个因子逻辑回归系数,xk为第k个因子的数值。
进一步地,所述根据所述中级融合数据结合所述分类效果最好的分类方法建立判别模型,包括:
利用Python软件采用支持向量机的分类方法建立定性判别模型。
具体地,常用分类方法共有8种:支持向量机(Support Vector Machine,SVM)、自适应提升算法(Adaboost)、决策树(Decision Tree)、朴素贝叶斯(Naive Bays)、随机森林(Random Forest)、逻辑斯蒂回归(Logistic Regression)、极限树(Extra Trees)、K近邻算法(K Neighbors),利用Python软件结合8种分类方法对初级融合后的光谱进行建模,模型结果如下表所示:
表1
由表1可知,SVM方法下的模型效果最好,识别率100.0%,预测率89.0%。
SVM是利用核函数将训练数据集从输入空间非线性的映射到一个高维特征空间,使原先在低维空间线性不可分的样本在高维空间得到线性分开的效果。其机理是寻找一个满足分类要求的最优分类超平面,使得该超平面在保证分类精度的同时,能够使超平面两侧的空白区域最大化。在解决小样本、非线性和高维模式识别问题中表现出许多特有的优势,被广泛应用于分类识别。理论上,SVM能够实现对线性可分数据的最优分类。
以两类数据分类为例,给定训练样本集(xi,yi),i=1,2,3…l,x∈Rn,y∈{±1},超平面记作(w·x)+b=0,为使分类面对所有样本正确分类并且具备分类间隔,就要求它满足如下约束:
yi[(w·xi)+b]≥1i=1,2,3…l
为了解决该个约束最优化问题,引入Lagrange函数:
式中,ai>0为Lagrange乘数。约束最优化问题的解由Lagrange函数的鞍点决定,并且最优化问题的解在鞍点处满足对w和b的偏导为0,将该QP问题转化为相应的对偶问题即:
解得最优解a*=(a1 *,a2 *,…,ai *)T。
计算最优权值向量w*和最优偏置b*,分别为:
式中,下标j∈{j|aj *}>0。因此得到最优分类超平面(w*·x)+b*=0,而最优分类函数为:
对于线性不可分情况,SVM的主要思想是将输入向量映射到一个高维的特征向量空间,并在该特征空间中构造最优分类面。将x做从输入空间Rn到特征空间H的变换Φ,得:x→Φ(x)=(Φ1(x),Φ2(x),…Φl(x))T。
以特征向量Φ(x)代替输入向量x,则可以得到最优分类函数为:
在上面的对偶问题中,无论是目标函数还是决策函数都只涉及到训练样本之间的内积运算,在高维空间避免了复杂的高维运算而只需要进行内积运算。
进一步地,利用多种分类方法对中级融合后的数据进行建模,得到的结果如下表:
表2
进一步地,如图13所示,给出了本发明SVM模型参数寻优结果图,利用Python软件采用SVM建立定性模型,模型识别率99.8%,预测率93.0%。调节SVM的C和γ参数,其中C为惩罚系数,即对误差的宽容度,C值越大越不容忍出现误差,容易过拟合;C值越小容易欠拟合。γ则决定了数据映射到新的特征空间后的分布,γ越大支持向量越少,γ越小支持向量越多,支持向量个数影响训练与预测的速度。初级融合和中级融合结合SVM建立的分类模型识别效果好,检测结果准确度最高达100%。
实施例4
基于以上实施例,提供一种基于Python数据融合的藏药全缘叶绿绒蒿产地判别方法,采用支持向量机、Adaboost、随机森林、极限树和K近邻算法进行高级融合。
从实施例3中可以看出,支持向量机、Adaboost、随机森林、极限树和K近邻算法的分类效果较好,将这五种方法进行决策层融合,模型的识别率100.0%,预测率94.0%,效果较中级融合略有提升。
下表给出了红外光谱结合逐级数据融合对全缘叶绿绒蒿产地判别的效果比较:
表3
可见结合多次融合后,预测的准确率逐级提高。
以上具体实施方式是对本发明的详细说明,不能认定本发明的具体实施方式只局限于这些说明,对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演和替代,都应当视为属于本发明的保护范围。
Claims (9)
1.一种基于Python数据融合的藏药全缘叶绿绒蒿产地判别方法,其特征在于,所述方法包括:
采集得到不同产地的全缘叶绿绒蒿样品;
对所述不同产地的全缘叶绿绒蒿样品进行NIR光谱采集,得到NIR光谱数据,对所述不同产地的全缘叶绿绒蒿样品进行ATR光谱采集,得到ATR光谱数据;
将所述NIR光谱数据和ATR光谱数据进行融合,得到初级融合数据;利用多种分类方法分别对初级融合数据进行建模,并比较不同模型的分类效果,得出分类效果最好的分类方法;其中,所述将所述NIR光谱数据和ATR光谱数据进行融合,包括:
利用Python软件将所述NIR光谱数据和ATR光谱数据进行串联;
利用Python软件提取初级融合数据中每个光谱数据的特征值,计算每个特征值的贡献度,并抽取贡献度大的特征值进行融合,得到中级融合数据;
根据所述中级融合数据结合所述分类效果最好的分类方法建立判别模型,并利用所述判别模型对全缘叶绿绒蒿进行产地判别。
2.根据权利要求1所述一种基于Python数据融合的藏药全缘叶绿绒蒿产地判别方法,其特征在于,所述方法还包括:
选取分类效果靠前的几种分类方法分别对所述中级融合数据进行建模,将多种模型的输出结果进行高级融合,所述高级融合包括:
对多种模型的输出结果分别赋予权重,构建出一种新的决策方式,并根据所述决策方式对样品分子的理化性质进行分析。
3.根据权利要求1所述一种基于Python数据融合的藏药全缘叶绿绒蒿产地判别方法,其特征在于,所述采集不同产地的全缘叶绿绒蒿样品,包括:
采集青海省内14个不同产地的、共631份全缘叶绿绒蒿全草样品。
4.根据权利要求1所述一种基于Python数据融合的藏药全缘叶绿绒蒿产地判别方法,其特征在于,所述对所述不同产地的全缘叶绿绒蒿样品进行NIR光谱采集,包括:
将所述全缘叶绿绒蒿样品置于样品杯内,进行摊平和压实的预处理;
对预处理后的样品进行NIR光谱扫描:扫描范围为10000-4000cm-1,分辨率为8 cm-1,扫描64次;
取所述NIR光谱扫描后的平均谱图做分析,得到样品的一维近红外谱图。
5.根据权利要求1所述一种基于Python数据融合的藏药全缘叶绿绒蒿产地判别方法,其特征在于,所述对所述不同产地的全缘叶绿绒蒿样品进行ATR光谱采集,包括:
将所述全缘叶绿绒蒿样品置于ATR红外探头上,采集ATR一维红外谱图,其中,扫描范围为4000-400 cm-1,分辨率为4 cm-1,扫描32次。
6.根据权利要求1所述一种基于Python数据融合的藏药全缘叶绿绒蒿产地判别方法,其特征在于,利用逻辑斯谛回归计算每个特征值的贡献度。
7.根据权利要求1所述一种基于Python数据融合的藏药全缘叶绿绒蒿产地判别方法,其特征在于,所述抽取贡献度大的特征值进行融合,得到中级融合数据,包括:
将每个光谱数据中贡献度大的特征值提取出来,形成一个新的CSV数据集,所述CSV数据集用TQ Analyst软件打开。
8.根据权利要求1所述一种基于Python数据融合的藏药全缘叶绿绒蒿产地判别方法,其特征在于,所述根据所述中级融合数据结合所述分类效果最好的分类方法建立判别模型,包括:
利用Python软件采用支持向量机的分类方法建立定性判别模型。
9.根据权利要求2所述一种基于Python数据融合的藏药全缘叶绿绒蒿产地判别方法,其特征在于,采用支持向量机、Adaboost、随机森林、极限树和K近邻算法进行高级融合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111211136.3A CN114112983B (zh) | 2021-10-18 | 2021-10-18 | 一种基于Python数据融合的藏药全缘叶绿绒蒿产地判别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111211136.3A CN114112983B (zh) | 2021-10-18 | 2021-10-18 | 一种基于Python数据融合的藏药全缘叶绿绒蒿产地判别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114112983A CN114112983A (zh) | 2022-03-01 |
CN114112983B true CN114112983B (zh) | 2023-06-23 |
Family
ID=80376277
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111211136.3A Active CN114112983B (zh) | 2021-10-18 | 2021-10-18 | 一种基于Python数据融合的藏药全缘叶绿绒蒿产地判别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114112983B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115186776B (zh) * | 2022-09-13 | 2022-12-13 | 国检中心深圳珠宝检验实验室有限公司 | 一种红宝石产地分类的方法、装置及存储介质 |
CN116359169B (zh) * | 2023-06-02 | 2023-09-05 | 谱宁医学科技(天津)有限责任公司 | 疾病筛查模型的构建装置、疾病筛查装置、设备及介质 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3315546B2 (ja) * | 1994-12-16 | 2002-08-19 | 社団法人長野県農村工業研究所 | 残留農薬分析方法 |
WO2017019988A1 (en) * | 2015-07-30 | 2017-02-02 | The Research Foundation For The State University Of New York | Gender and race identification from body fluid traces using spectroscopic analysis |
CN110823828A (zh) * | 2018-08-09 | 2020-02-21 | 中国科学院西北高原生物研究所 | 一种鉴别不同产地五脉绿绒蒿的方法 |
CN110376153B (zh) * | 2019-06-06 | 2022-06-17 | 湖州市中心医院 | 一种atr-ftir结合rbf神经网络对市售西红花产地溯源的方法 |
CN110298396B (zh) * | 2019-06-25 | 2022-02-08 | 北京工业大学 | 基于深度学习多特征融合的高光谱图像分类方法 |
CN111272931A (zh) * | 2020-02-17 | 2020-06-12 | 江苏一片叶高新科技有限公司 | 一种茶叶的原产地溯源方法 |
CN111595802A (zh) * | 2020-04-30 | 2020-08-28 | 珠海大横琴科技发展有限公司 | 一种基于nir光谱的忧遁草种源地分类模型的构建方法及应用 |
-
2021
- 2021-10-18 CN CN202111211136.3A patent/CN114112983B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN114112983A (zh) | 2022-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Pang et al. | Rapid vitality estimation and prediction of corn seeds based on spectra and images using deep learning and hyperspectral imaging techniques | |
Wu et al. | Variety identification of oat seeds using hyperspectral imaging: Investigating the representation ability of deep convolutional neural network | |
CN114112983B (zh) | 一种基于Python数据融合的藏药全缘叶绿绒蒿产地判别方法 | |
Zhang et al. | Classification modeling method for near‐infrared spectroscopy of tobacco based on multimodal convolution neural networks | |
CN107478599B (zh) | 一种饲料原料中非法添加物三聚氰胺甲醛树脂的检测方法 | |
CN104374738A (zh) | 一种基于近红外提高鉴别结果的定性分析方法 | |
CN106951914B (zh) | 一种优化模糊鉴别向量提取的电子鼻鉴别食醋品种方法 | |
CN108844917A (zh) | 一种基于显著性假设检验和偏最小二乘法的近红外光谱数据分析方法 | |
CN109685098B (zh) | 一种模糊簇间分离聚类的茶叶品种分类方法 | |
CN104374739A (zh) | 一种基于近红外定性分析的种子品种真实性鉴别方法 | |
CN107192686B (zh) | 一种模糊协方差矩阵的可能模糊聚类茶叶品种鉴别方法 | |
Yang et al. | Classification of sugar beets based on hyperspectral and extreme learning machine methods | |
CN106338488A (zh) | 一种转基因豆奶粉的快速无损鉴别方法 | |
CN108872128B (zh) | 一种模糊非相关c均值聚类的茶叶红外光谱分类方法 | |
CN114331474A (zh) | 一种模糊线性判别分析的牛奶产地溯源方法 | |
CN108491894B (zh) | 一种可能模糊鉴别c-均值聚类的茶叶分类方法 | |
CN104374737A (zh) | 一种近红外定性鉴别方法 | |
CN110108661B (zh) | 一种模糊极大熵聚类的茶叶近红外光谱分类方法 | |
Zhang et al. | Three different SVM classification models in Tea Oil FTIR Application Research in Adulteration Detection | |
Wu et al. | Identification of lambda-cyhalothrin residues on Chinese cabbage using fuzzy uncorrelated discriminant vector analysis and MIR spectroscopy. | |
CN112945899B (zh) | 一种聚谷氨酸复合肥鉴别方法 | |
CN114494779B (zh) | 一种改进鉴别转换的茶叶近红外光谱分类方法 | |
CN114295578B (zh) | 基于近红外光谱的烟叶常规化学成分通用模型建模方法 | |
CN115901665A (zh) | 一种鉴别艾绒等级的方法 | |
Wang et al. | Vis–NIR Hyperspectral Dimensionality Reduction for Nondestructive Identification of China Northeast Rice |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |