CN116541750A - 一种薏苡仁产地的鉴别方法、终端设备及存储介质 - Google Patents
一种薏苡仁产地的鉴别方法、终端设备及存储介质 Download PDFInfo
- Publication number
- CN116541750A CN116541750A CN202310530048.2A CN202310530048A CN116541750A CN 116541750 A CN116541750 A CN 116541750A CN 202310530048 A CN202310530048 A CN 202310530048A CN 116541750 A CN116541750 A CN 116541750A
- Authority
- CN
- China
- Prior art keywords
- dimensional data
- data array
- fluorescence spectrum
- sample
- coix seed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 244000077995 Coix lacryma jobi Species 0.000 title claims abstract description 85
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000002189 fluorescence spectrum Methods 0.000 claims abstract description 51
- 238000012360 testing method Methods 0.000 claims abstract description 38
- 238000007637 random forest analysis Methods 0.000 claims abstract description 32
- 238000012549 training Methods 0.000 claims abstract description 29
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 20
- 238000004519 manufacturing process Methods 0.000 claims abstract description 18
- 230000005284 excitation Effects 0.000 claims abstract description 12
- 239000011159 matrix material Substances 0.000 claims abstract description 8
- 238000004590 computer program Methods 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 13
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 claims description 12
- 230000035945 sensitivity Effects 0.000 claims description 12
- 230000009467 reduction Effects 0.000 claims description 8
- 239000000843 powder Substances 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 5
- 239000006228 supernatant Substances 0.000 claims description 5
- 238000000926 separation method Methods 0.000 claims description 4
- 238000002137 ultrasound extraction Methods 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 abstract description 12
- 238000003066 decision tree Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 238000001228 spectrum Methods 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 4
- 239000000463 material Substances 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000001737 promoting effect Effects 0.000 description 3
- GVJHHUAWPYXKBD-UHFFFAOYSA-N (±)-α-Tocopherol Chemical compound OC1=C(C)C(C)=C2OC(CCCC(C)CCCC(C)CCCC(C)C)(C)CCC2=C1C GVJHHUAWPYXKBD-UHFFFAOYSA-N 0.000 description 2
- 238000004566 IR spectroscopy Methods 0.000 description 2
- 239000008280 blood Substances 0.000 description 2
- 210000004369 blood Anatomy 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 239000003153 chemical reaction reagent Substances 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000001506 fluorescence spectroscopy Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000002290 gas chromatography-mass spectrometry Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013441 quality evaluation Methods 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 206010061218 Inflammation Diseases 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 208000004880 Polyuria Diseases 0.000 description 1
- 229930003427 Vitamin E Natural products 0.000 description 1
- 150000001413 amino acids Chemical class 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000017531 blood circulation Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012569 chemometric method Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000003467 diminishing effect Effects 0.000 description 1
- 238000012850 discrimination method Methods 0.000 description 1
- 230000035619 diuresis Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- WIGCFUFOHFEKBI-UHFFFAOYSA-N gamma-tocopherol Natural products CC(C)CCCC(C)CCCC(C)CCCC1CCC2C(C)C(O)C(C)C(C)C2O1 WIGCFUFOHFEKBI-UHFFFAOYSA-N 0.000 description 1
- 150000004676 glycans Chemical class 0.000 description 1
- 238000004128 high performance liquid chromatography Methods 0.000 description 1
- 230000036039 immunity Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004054 inflammatory process Effects 0.000 description 1
- 239000002366 mineral element Substances 0.000 description 1
- 229920001282 polysaccharide Polymers 0.000 description 1
- 239000005017 polysaccharide Substances 0.000 description 1
- 210000000582 semen Anatomy 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 235000021122 unsaturated fatty acids Nutrition 0.000 description 1
- 150000004670 unsaturated fatty acids Chemical class 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
- 229940046009 vitamin E Drugs 0.000 description 1
- 235000019165 vitamin E Nutrition 0.000 description 1
- 239000011709 vitamin E Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/20—Identification of molecular entities, parts thereof or of chemical compositions
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/62—Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light
- G01N21/63—Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light optically excited
- G01N21/64—Fluorescence; Phosphorescence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/62—Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light
- G01N21/63—Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light optically excited
- G01N21/64—Fluorescence; Phosphorescence
- G01N2021/6417—Spectrofluorimetric devices
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Health & Medical Sciences (AREA)
- Chemical & Material Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Crystallography & Structural Chemistry (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Analytical Chemistry (AREA)
- Biochemistry (AREA)
- Immunology (AREA)
- Pathology (AREA)
- Investigating, Analyzing Materials By Fluorescence Or Luminescence (AREA)
Abstract
本发明公开了一种薏苡仁产地的鉴别方法、终端设备及存储介质,所述薏苡仁产地的鉴别方法包括以下步骤:S1:采集待鉴别产地的若干薏苡仁样品,获得薏苡仁的激发发射矩阵(EEM)荧光光谱的三维数据阵列;S2:将EEM荧光光谱的三维数据阵列转化为样品集二维数据阵列;S3:利用样品集的二维数据阵列获得训练集和测试集;S4:利用所述训练集训练改进随机森林算法构建的模型,得到产地鉴别模型;S5:利用测试集和预测集评估模型的性能;本发明基于荧光光谱技术鉴别不同产地薏苡仁的方法,通过基于改进的随机森林算法结合荧光光谱构建的模型很好地实现不同产地薏苡仁的分类。
Description
技术领域
本发明涉及利用机器学习进行产地鉴别的技术,特别是一种薏苡仁产地的鉴别方法、终端设备及存储介质。
背景技术
薏苡仁为一年生草本植物薏苡的干燥成熟种仁,含有人体所必需的8种氨基酸,多种矿质元素,且富含多种不饱和脂肪酸和多糖类物质。薏苡仁有较高的药用价值,具有抗肿瘤、消炎镇痛、清热利湿、活血化瘀、改善血糖、提高免疫力等功效。另外,薏苡仁含有丰富的维生素E等物质,具有美容功效。薏苡仁产地范围广,不同产地薏苡仁的质量有明显区别,因此需发展可快速判别薏苡仁产地的技术。
现有的薏苡仁产地鉴别技术,众多学者利用多种检测技术,如气相色谱质谱联用法(GC-MS)、高效液相色谱法(HPLC)、红外光谱法(IR)等,再结合化学计量学方法对薏苡仁的产地进行鉴别。这些方法虽然可以准确地将广薏苡仁与其他产地的薏苡仁进行辨别,但是均存在样品测试时间长,需要大型且昂贵的分析仪器,消耗更多的有害有机试剂等不足。因此,建立更快速、准确、经济的广薏苡仁质量评价方法对完善薏苡仁质量评价体系,保护消费者权益,促进薏苡仁产业健康快速发展等都具有至关重要的意义。
CN115436517A提供了一种云产野坝子的产地溯源的线性判别方法,该方法采用GC-MS方法,实验较为复杂,并且使用的线性判别模型有一定的局限性,存在样品测试时间长,需要大型且昂贵的分析仪器,消耗更多的有害有机试剂等不足。
发明内容
本发明的目的在于提出一种薏苡仁产地的鉴别方法、终端设备及存储介质,以解决上述技术问题。
本发明采用以下具体的技术方案:
一种薏苡仁产地的鉴别方法,包括以下步骤:
S1:采集待鉴别产地的若干薏苡仁样品,获得薏苡仁的激发发射矩阵(EEM)荧光光谱的三维数据阵列;
S2:对EEM荧光光谱的三维数据阵列进行预处理,并将预处理的EEM荧光光谱的三维数据阵列转化为样品集二维数据阵列;
S3:利用样品集的二维数据阵列获得训练集和测试集;
S4:利用训练集训练改进的随机森林算法结合荧光光谱构建的模型,得到产地鉴别模型;
S5:利用测试集和预测集评估模型的性能。
本发明获取薏苡仁提取液的激发发射矩阵(EEM)荧光光谱构建数据集,后将EEM荧光光谱的三维数据阵列转化为样品集二维数据阵列,基于该数据集获得训练集,进而训练获得产地鉴别模型,结合了EEM荧光光谱法和机器学习方法,避免了复杂的样本预处理过程,提高了薏苡仁产地鉴别的效率和准确性。
进一步地,本发明中,为了得到合适的荧光强度,以及在短时间内获得比较完整的光谱,所述步骤S1中样品的处理如下:
将采集的样品溶于70%乙醇溶液中,再进行超声提取、离心分离,收集静置后的上清液,将上清液与70%乙醇溶液的混合,制成薏苡仁粉末提取液用于检测其EEM荧光光谱,检测其EEM荧光光谱时,所述检测样品EEM荧光光谱时,设置荧光光谱仪激发波长范围为200~450nm,发射波长范围为250~750nm,波长间隔均为5nm,狭缝宽度为5nm,将薏苡仁粉末提取液置于荧光光谱仪的荧光皿中进行扫描,获得EEM荧光光谱三维数据阵列。
进一步地,所述将采集的样品进行超声提取和离心分离时,超声的时间为30min,并于5000rpm条件下离心10min。
进一步地,本发明中,为了进一步提高薏苡仁产地鉴别的效率和准确性,对所述EEM荧光光谱三维数据阵列进行预处理,所述步骤S2中对EEM荧光光谱三维数据阵列进行预处理的内容包括:选择设定的激发波长和发射波长范围,剔除背景数据,得到EEM荧光光谱三维数据集。
进一步地,所述步骤S2中将预处理的EEM荧光光谱的三维数据阵列转化为样品集二维数据阵列时,对于每个样品逐行读取其三维数据阵列,将其按行首尾相接展开,得到每个样品对应的一行多列数据,对于样品集得到一个二维数据阵列。
进一步地,所述步骤S3利用样品集的二维数据阵列获得训练集和测试集之前,先将样品集二维数据阵列进行标准差标准化处理,得到预处理后的样品集二维数据阵列。
进一步地,所述步骤S4模型包括PCA降维、特征提取、随机森林构建、模型调优,步骤S4中具体模型搭建的步骤为:对预处理后的样品集二维数据阵列拆分为训练集和测试集,对测试集进行PCA降维处理,实现特征提取,得到保留PCR主成分数,然后使用提取的特征构建随机森林(基尼系数),最后通过测试集对保留的PCR主成分数和随机森林的参数(决策树数量、决策树最大深度、叶节点最小样本数)进行调整以获得最优模型。
进一步地,所述步骤S5中利用测试集和预测集评估模型的性能的具体步骤为:将所述训练集和新建的测试集载入改进的随机森林算法结合荧光光谱构建的模型,计算薏苡仁样本分类的准确率、特异性和灵敏度。
作为一个发明构思,本发明还提供了一种终端设备,包括存储器、处理器及存储在存储器上的计算机程序;所述处理器执行所述计算机程序,以实现本发明上述方法的步骤。
作为一个发明构思,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序/指令;所述计算机程序/指令被处理器执行时实现本发明上述方法的步骤。
与现有技术相比,本发明所具有的有益效果为:本发明基于EEM荧光光谱技术鉴别薏苡仁产地的方法,通过基于改进随机森林算法构建的模型很好地实现了不同产地薏苡仁的鉴别,其中训练集和测试集以及预测集的分类准确度均达到100%,此外产地的灵敏度和特异性也达到100%,充分证明本发明提出的基于改进的随机森林算法结合荧光光谱构建的模型可以快速且可靠地鉴别薏苡仁产地,为中药材产地溯源提供了新的思路,为准确、快速、可靠地检测薏苡仁的药用价值和品质提供依据,促进薏苡仁产业健康快速发展。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为EEM荧光光谱技术结合机器学习鉴别薏苡仁产地的流程图;
图2为九个产地(安徽、福建、河北、黑龙江、吉林、辽宁、内蒙古、山东、陕西)薏苡仁EEM荧光光谱剔除背景后的光谱图;
图3为薏苡仁产地鉴别模型的结构图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书实施例对本发明的具体实施方式做详细的说明。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
实施例1
本发明实施例1基于EEM荧光光谱技术结合改进的随机森林算法构建的模型对不同产地薏苡仁进行鉴别,本发明的基于EEM荧光光谱技术鉴别薏苡仁产地的鉴别方法,包括采集薏苡仁的EEM荧光光谱,利用训练集构建基于改进的随机森林算法构建的薏苡仁产地鉴别模型,并通过训练集和测试集和预测集评估模型分类的性能,进而鉴定薏苡仁样本的产地。
以下将更详细地描述本发明的示例性实施方法,提供这些实施方式目的是能够更透彻地理解本发明,并且可以将本发明的范围完整地传达给本领域的技术人员。
如图1所示,本实施例提供的基于EEM荧光光谱技术鉴别薏苡仁产地的方法,通过EEM荧光光谱技术结合改进的随机森林算法鉴别不同产地的薏苡仁,过程包括:
S1:采集待鉴别产地的若干薏苡仁样品,获得薏苡仁的激发发射矩阵(EEM)荧光光谱的三维数据阵列;
S2:对EEM荧光光谱的三维数据阵列进行预处理,并将预处理的EEM荧光光谱的三维数据阵列转化为样品集二维数据阵列;
对EEM荧光光谱进行预处理后,对于每个样品逐行读取其三维数据阵列,将其按行首尾相接展开,得到每个样品对应的一行多列数据,对于样品集得到一个二维数据阵列,然后对二维数据阵列进行标准差标准化处理。
S3:利用样品集的二维数据阵列获得训练集和测试集,其具体操作为将处理后的样本集二维数据阵列沿着样本的维度进行采集,得到训练集和测试集;
S4:利用训练集训练改进随机森林算法构建的模型,得到产地鉴别模型;
S5:利用测试集和预测集评估模型的性能。
本实施例基于改进随机森林算法设计了一种用于薏苡仁产地鉴别的模型,实现对不同产地的薏苡仁样本进行判别,具体为:
薏苡仁产地鉴别模型是一种基于改进随机森林算法构建的模型,包括PCA降维、特征提取、随机森林构建、模型调优;最终获得薏苡仁产地鉴别模型。步骤S4中具体模型搭建的步骤为:对预处理后的样品集二维数据阵列拆分为训练集和测试集,对测试集进行PCA降维处理,实现特征提取,得到保留PCR主成分数,然后使用提取的特征构建随机森林(基尼系数),最后通过测试集对保留的PCR主成分数和随机森林的参数(决策树数量、决策树最大深度、叶节点最小样本数)进行调整以获得最优模型。
经多次模型优化确定保留的PCR主成分数为16,决策树数量为100棵,决策树最大深度为3,叶节点最小样本数为1时,其测试集以及预测集的准确度结果均达到100%,且其灵敏度和特异性均达到100%,可以充分证明本发明提出的基于EEM荧光光谱技术结合改进的随机森林算法构建的模型可以快速且可靠地鉴别薏苡仁样本的产地。
以下是通过具体实施例详细说明本发明实施例1的基于EEM荧光光谱技术结合改进的随机森林算法构建的模型可以快速且可靠地鉴别薏苡仁样本产地的过程。
1、实验仪器与材料
仪器:F-7000荧光光谱仪;数据分析及所用程序在python3.10.2环境下运行的。
材料:实验所用薏苡仁样品粉末来自安徽、福建、河北、黑龙江、吉林、辽宁、内蒙古、山东、陕西9个产地,首先从每个产地各采集24份样品,共216份样品用于模型的构建,然后从每个产地各采集6份新的样品,共54份样品用于构建预测集,具体信息见表1,表1为不同产地薏苡仁样品表。
表1
2、实验方法
2.1样品处理及光谱检测
每个样品粉末称取15mg,溶于1mL70%乙醇溶液中,超声30min,然后在5000rpm条件下离心10min,静置1h后,取150μL上清液与1350μL70%乙醇溶液混合后检测其EEM荧光光谱。
设置荧光光谱仪激发波长范围为200~450nm,发射波长范围为250~750nm,波长间隔均为5nm,狭缝宽度为5nm,电压为700V,扫描速度为30000nm·min-1,将装有薏苡仁粉末提取液的荧光皿置于荧光光谱仪的支架中进行扫描,获得EEM荧光光谱。
2.2数据处理
1)获取EEM荧光光谱数据集
每个薏苡仁样品经过荧光扫描后均得到一个大小为101×51(发射波长数×激发波长数)的矩阵,构建模型的样品集所构成的EEM荧光光谱阵列为一个101×51×216(发射波长数×激发波长数×样本数)的三维数据阵列,剔除设定光谱范围内的背景数据,然后对其进行标准差标准化处理,最后将其按行首尾相接展开成长度为5151的行矢量。则216个薏苡仁样品的样品集数据变为一个216×5151的二维阵列,其中九个产地(安徽、福建、河北、黑龙江、吉林、辽宁、内蒙古、山东、陕西)薏苡仁EEM荧光光谱剔除背景后的光谱图如图2所示。
2)训练集和测试集的获取
对样品集数据阵列沿着样本的维度进行分层采集,得到训练集和测试集,其比例为3:1,如下表2所示,表2为薏苡仁不同产地数据集。
表2
2.3薏苡仁产地鉴别模型的建立
在机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定,其预测结果的准确度要高于多数单个算法预测结果的准确度。但是EEM荧光光谱数据的维数较高(通常有成百上千个数据),直接使用随机森林算法在原始EEM荧光光谱数据基础上构建判别模型的计算成本太高,所以将数据降维方法与随机森林相结合以减少不重要特征的数量,从而提高随机森林判别模型的训练速度,并且能在一定程度上避免过拟合情况的发生。本发明实施例1搭建改进的随机森林算法构建的模型,包括维度转换、标准化处理、PCA降维、特征提取、随机森林构建、模型调优。根据训练集的分类准确度结果优化模型参数,设置保留的PCR主成分数为16,决策树数量为100棵,决策树最大深度为3,叶节点最小样本数为1,具体的结构如图3所示。
2.4模型评估
准确度、灵敏度和特异性常用于评价模型分类性能。其中,准确度是分类正确的样本数量占总样本数量的比例,用以评估模型的整体性能;灵敏度是指对某类样本,模型能将其正确识别为该类的能力,特异性是指对于某类样本,模型其拒绝他类样本的能力。准确度、灵敏度和特异性越接近于100%,说明模型的分类性能越好,准确度、灵敏度和特异性的计算公式如下:
其中,ngg代表属于g类并被正确判别到g类的样本数;G代表类别数;N代表总样本数;TP代表真阳性;TN代表真阴性;FN代表假阴性;FP代表假阳性。
3、实验结果
虽然不同产地的薏苡仁的EEM荧光光谱具有一定的差异,但这些差异较小不足以肉眼的形式进行区分,仍需要更加客观的数理统计进行分析。本发明实施例1提出的薏苡仁产地鉴别模型即可实现准确且快速地鉴定薏苡仁产地,利用训练集建立模型,然后再利用测试集和预测集对模型的分类性能进行验证,实现对不同产地薏苡仁样本的鉴定。相应数据集的准确分类率以及各样本的灵敏度和特异性如表3所示,表3为薏苡仁产地鉴别模型的分类结果。由表3可以看出,测试集以及预测集准确度均达到100%,且表现出优异的灵敏度和特异性,尤其测试集和预测集的灵敏度和特异性均为100%。此外,测试集以及预测集的混淆矩阵见表4,表4为薏苡仁产地鉴别模型获得的测试集和预测集的混淆矩阵,从该表可以看出所有的薏苡仁样本通过薏苡仁产地鉴别模型被正确地判定为相应的产地。
表3
表4
综上所述,本发明实施例1提出了一种基于EEM荧光光谱技术鉴别薏苡仁产地的方法,通过基于改进随机森林算法构建的模型很好地实现了不同产地薏苡仁的鉴别,其中测试集以及预测集的分类准确度均达到100%,此外各产地的灵敏度和特异性也均达到100%,可以充分证明本发明提出的基于EEM荧光光谱技术结合改进随机森林算法构建的模型可以快速且可靠地鉴别薏苡仁的产地,为中药材产地鉴别提供新的思路。
实施例2
本发明实施例2提供一种对应上述实施例1的终端设备,终端设备可以是用于客户端的处理设备,例如手机、笔记本电脑、平板电脑、台式机电脑等,以执行上述实施例的方法。
本实施例的终端设备包括存储器、处理器及存储在存储器上的计算机程序;处理器执行存储器上的计算机程序,以实现上述实施例1的方法步骤。
进一步地,存储器可以是高速随机存取存储器(RAM),也可能还包括非不稳定的存储器,例如至少一个磁盘存储器。
进一步地,处理器可以为中央处理器(CPU)、数字信号处理器(DSP)等各种类型通用处理器,在此不做限定。
实施例3
本发明实施例3提供了一种对应上述实施例1的计算机可读存储介质,其上存储有计算机程序/指令。计算机程序/指令被处理器执行时,实现上述实施例1的方法步骤。
计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意组合。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请实施例中的方案可以采用各种计算机语言实现,例如,面向对象的程序设计语言Java和直译式脚本语言JavaScript等。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
上述计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (10)
1.一种薏苡仁产地的鉴别方法,其特征在于,包括以下步骤:
S1:采集待鉴别产地的若干薏苡仁样品,获得薏苡仁的激发发射矩阵(EEM)荧光光谱的三维数据阵列;
S2:对EEM荧光光谱的三维数据阵列进行预处理,并将预处理的EEM荧光光谱的三维数据阵列转化为样品集二维数据阵列;
S3:利用样品集的二维数据阵列获得训练集和测试集;
S4:利用训练集训练改进的随机森林算法结合荧光光谱构建的模型,得到产地鉴别模型;
S5:利用测试集和预测集评估模型的性能,其中预测集由在薏苡仁产地进行二次采集所获得的新样品构成。
2.根据权利要求1所述的薏苡仁产地的鉴别方法,其特征在于,所述步骤S1中样品的处理如下:
将采集的样品溶于70%乙醇溶液中,再进行超声提取、离心分离,收集静置后的上清液,将上清液与70%乙醇溶液的混合,制成薏苡仁粉末提取液用于检测其EEM荧光光谱,检测其EEM荧光光谱时,设置荧光光谱仪激发波长范围为200~450nm,发射波长范围为250~750nm,波长间隔均为5nm,狭缝宽度为5nm,将薏苡仁粉末提取液置于荧光光谱仪的荧光皿中进行扫描,获得EEM荧光光谱三维数据阵列。
3.根据权利要求2所述的薏苡仁产地的鉴别方法,其特征在于,所述将采集的样品进行超声提取和离心分离时,超声的时间为30min,并于5000rpm条件下离心10min。
4.根据权利要求1所述的薏苡仁产地的鉴别方法,其特征在于,所述步骤S2中对EEM荧光光谱三维数据阵列进行预处理的内容包括:选择设定的激发波长和发射波长范围,剔除背景数据,得到EEM荧光光谱三维数据集。
5.根据权利要求1所述的薏苡仁产地的鉴别方法,其特征在于,所述步骤S2中将预处理的EEM荧光光谱的三维数据阵列转化为样品集二维数据阵列时,对于每个样品逐行读取其三维数据阵列,将其按行首尾相接展开,得到每个样品对应的一行多列数据,对于样品集得到一个二维数据阵列。
6.根据权利要求1所述的薏苡仁产地的鉴别方法,其特征在于,所述步骤S3利用样品集的二维数据阵列获得训练集和测试集之前,先将样品集二维数据阵列进行标准差标准化处理,得到预处理后的样品集二维数据阵列。
7.根据权利要求1所述的薏苡仁产地的鉴别方法,其特征在于,所述步骤S4模型包括PCA降维、特征提取、随机森林构建、模型调优,模型具体搭建的步骤为:对预处理后的样品集二维数据阵列拆分为训练集和测试集,对测试集进行PCA降维处理;实施特征提取,得到保留PCR主成分数;使用提取的特征构建随机森林;通过测试集对保留的PCR主成分数和随机森林的参数进行调整以获得最优模型。
8.根据权利要求1所述的薏苡仁产地的鉴别方法,其特征在于,所述步骤S5中利用测试集和预测集评估模型的性能的具体步骤为:将所述训练集和新建的测试集载入改进的随机森林算法结合荧光光谱构建的模型,计算薏苡仁样本分类的准确率、特异性和灵敏度。
9.一种终端设备,包括存储器、处理器及存储在存储器上的计算机程序;其特征在于,所述处理器执行所述计算机程序,以实现任一权利要求1~8所述方法。
10.一种存储介质,其特征在于,所述存储介质上存储有计算机程序/指令,所述计算机程序/指令被处理器执行任一权利要求1-8所述薏苡仁产地的鉴别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310530048.2A CN116541750A (zh) | 2023-05-11 | 2023-05-11 | 一种薏苡仁产地的鉴别方法、终端设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310530048.2A CN116541750A (zh) | 2023-05-11 | 2023-05-11 | 一种薏苡仁产地的鉴别方法、终端设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116541750A true CN116541750A (zh) | 2023-08-04 |
Family
ID=87448545
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310530048.2A Pending CN116541750A (zh) | 2023-05-11 | 2023-05-11 | 一种薏苡仁产地的鉴别方法、终端设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116541750A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116933043A (zh) * | 2023-09-15 | 2023-10-24 | 天津现代创新中药科技有限公司 | 菊花产地的鉴别方法、模型的构建方法及电子设备 |
-
2023
- 2023-05-11 CN CN202310530048.2A patent/CN116541750A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116933043A (zh) * | 2023-09-15 | 2023-10-24 | 天津现代创新中药科技有限公司 | 菊花产地的鉴别方法、模型的构建方法及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107677647B (zh) | 基于主成分分析和bp神经网络的中药材产地鉴别方法 | |
US11710541B2 (en) | Chemical pattern recognition method for evaluating quality of traditional Chinese medicine based on medicine effect information | |
CN110850020B (zh) | 一种基于人工智能的中药识别方法 | |
CN116541750A (zh) | 一种薏苡仁产地的鉴别方法、终端设备及存储介质 | |
CN105738340B (zh) | 基于傅利叶拉曼光谱的薰衣草精油品种的快速检测方法 | |
CN105548233A (zh) | 一种基于氢核磁共振鉴别洋槐蜜和油菜蜜的方法 | |
CN111007032B (zh) | 一种快速无损鉴别甘草及其伪品刺果甘草的近红外光谱法 | |
CN104345045A (zh) | 一种基于化学模式识别和近红外光谱的相似药材鉴别方法 | |
CN111428585B (zh) | 一种基于深度学习的超材料太赫兹谱学识别方法 | |
CN107727640A (zh) | 一种利用表面增强拉曼光谱法鉴别烟用香精香料的方法 | |
CN107607485A (zh) | 一种鉴别三叶青产地的方法 | |
CN117949429A (zh) | 基于拉曼光谱和多模态混合式模型的杏仁产地鉴别方法 | |
CN116858822A (zh) | 一种基于机器学习和拉曼光谱的水体中磺胺嘧啶定量分析方法 | |
CN116973344A (zh) | 一种基于图神经网络模型的古陶瓷检测方法及装置 | |
CN110414549A (zh) | 一种模糊正交线性鉴别分析的茶叶近红外光谱分类方法 | |
CN115078327A (zh) | 一种基于神经网络架构搜索的危险化学品快速检测方法 | |
CN113433270A (zh) | 一种电子鼻结合LightGBM的姜黄属中药快速鉴定方法 | |
CN115131293A (zh) | 一种基于libs光谱和图像融合的中药材产地识别方法 | |
CN113899826A (zh) | 一种黄芪种子的分类方法及系统 | |
CN113138192A (zh) | 一种金银花和山银花的鉴别方法及系统 | |
CN115728278B (zh) | 枸杞子储存年份鉴别方法、终端设备及存储介质 | |
Zhang et al. | Development of machine learning models using multi-source data for geographical traceability and content prediction of Eucommia ulmoides leaves | |
CN103389295A (zh) | 拉曼光谱数据检测方法 | |
Shao et al. | The feasibility analysis of two-dimensional near-infrared spectroscopy applied to the donkey meat identification | |
CN115420708B (zh) | 一种干辣椒中辣椒素类物质近红外无损检测的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |