CN110929804B - 一种栽培品产地识别方法、装置、设备及介质 - Google Patents
一种栽培品产地识别方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN110929804B CN110929804B CN201911222973.9A CN201911222973A CN110929804B CN 110929804 B CN110929804 B CN 110929804B CN 201911222973 A CN201911222973 A CN 201911222973A CN 110929804 B CN110929804 B CN 110929804B
- Authority
- CN
- China
- Prior art keywords
- data
- key
- feature
- dimension
- place
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004519 manufacturing process Methods 0.000 title claims abstract description 108
- 238000000034 method Methods 0.000 title claims abstract description 42
- 150000001875 compounds Chemical class 0.000 claims abstract description 131
- -1 small molecule compound Chemical class 0.000 claims abstract description 62
- 238000013507 mapping Methods 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 12
- 238000004458 analytical method Methods 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 7
- 238000012216 screening Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 8
- 239000000047 product Substances 0.000 description 57
- 241000894007 species Species 0.000 description 19
- 240000008397 Ganoderma lucidum Species 0.000 description 14
- 235000001637 Ganoderma lucidum Nutrition 0.000 description 14
- WEVYAHXRMPXWCK-UHFFFAOYSA-N Acetonitrile Chemical compound CC#N WEVYAHXRMPXWCK-UHFFFAOYSA-N 0.000 description 6
- 239000000243 solution Substances 0.000 description 6
- 241000196324 Embryophyta Species 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 description 2
- 239000002253 acid Substances 0.000 description 2
- 238000002347 injection Methods 0.000 description 2
- 239000007924 injection Substances 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 239000006228 supernatant Substances 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- JMGZEFIQIZZSBH-UHFFFAOYSA-N Bioquercetin Natural products CC1OC(OCC(O)C2OC(OC3=C(Oc4cc(O)cc(O)c4C3=O)c5ccc(O)c(O)c5)C(O)C2O)C(O)C(O)C1O JMGZEFIQIZZSBH-UHFFFAOYSA-N 0.000 description 1
- 235000008708 Morus alba Nutrition 0.000 description 1
- 240000000249 Morus alba Species 0.000 description 1
- 238000004887 air purification Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000005119 centrifugation Methods 0.000 description 1
- 238000004587 chromatography analysis Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- IVTMALDHFAHOGL-UHFFFAOYSA-N eriodictyol 7-O-rutinoside Natural products OC1C(O)C(O)C(C)OC1OCC1C(O)C(O)C(O)C(OC=2C=C3C(C(C(O)=C(O3)C=3C=C(O)C(O)=CC=3)=O)=C(O)C=2)O1 IVTMALDHFAHOGL-UHFFFAOYSA-N 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 238000004811 liquid chromatography Methods 0.000 description 1
- 239000007791 liquid phase Substances 0.000 description 1
- 238000004949 mass spectrometry Methods 0.000 description 1
- 238000001819 mass spectrum Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000012071 phase Substances 0.000 description 1
- 239000000843 powder Substances 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- FDRQPMVGJOQVTL-UHFFFAOYSA-N quercetin rutinoside Natural products OC1C(O)C(O)C(CO)OC1OCC1C(O)C(O)C(O)C(OC=2C(C3=C(O)C=C(O)C=C3OC=2C=2C=C(O)C(O)=CC=2)=O)O1 FDRQPMVGJOQVTL-UHFFFAOYSA-N 0.000 description 1
- IKGXIBQEEMLURG-BKUODXTLSA-N rutin Chemical compound O[C@H]1[C@H](O)[C@@H](O)[C@H](C)O[C@@H]1OC[C@H]1[C@H](O)[C@@H](O)[C@H](O)[C@@H](OC=2C(C3=C(O)C=C(O)C=C3OC=2C=2C=C(O)C(O)=CC=2)=O)O1 IKGXIBQEEMLURG-BKUODXTLSA-N 0.000 description 1
- ALABRVAAKCSLSC-UHFFFAOYSA-N rutin Natural products CC1OC(OCC2OC(O)C(O)C(O)C2O)C(O)C(O)C1OC3=C(Oc4cc(O)cc(O)c4C3=O)c5ccc(O)c(O)c5 ALABRVAAKCSLSC-UHFFFAOYSA-N 0.000 description 1
- 235000005493 rutin Nutrition 0.000 description 1
- 229960004555 rutoside Drugs 0.000 description 1
- 238000004579 scanning voltage microscopy Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 229940126680 traditional chinese medicines Drugs 0.000 description 1
- 238000004704 ultra performance liquid chromatography Methods 0.000 description 1
- 238000002137 ultrasound extraction Methods 0.000 description 1
- 239000003643 water by type Substances 0.000 description 1
- 239000002023 wood Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/0098—Plants or trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/907—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/908—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/907—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/909—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/30—Prediction of properties of chemical compounds, compositions or mixtures
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/90—Programming languages; Computing architectures; Database systems; Data warehousing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Chemical & Material Sciences (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Library & Information Science (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Crystallography & Structural Chemistry (AREA)
- Food Science & Technology (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Medicinal Chemistry (AREA)
- Wood Science & Technology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Botany (AREA)
- Analytical Chemistry (AREA)
- Biochemistry (AREA)
- General Health & Medical Sciences (AREA)
- Immunology (AREA)
- Pathology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本申请公开了一种栽培品产地识别方法、装置、设备及介质,包括:获取与不同产地的栽培品相关的数据集;其中,所述数据集中的每一数据样本均包括栽培品的类型编号、与栽培品的产地对应的组别信息、栽培品的小分子化合物数据;对所述数据集进行分析,以从栽培品的所有小分子化合物中确定出影响产地识别的关键小分子化合物;获取待识别栽培品的所述关键小分子化合物的数据,得到关键化合物数据;利用所述关键化合物数据,对所述待识别栽培品的产地进行识别。本申请一方面能够大幅减少数据采集量以及数据处理量,另一方面能够有效降低背景冗余数据对识别精度的干扰,提升了产地识别的准确率。
Description
技术领域
本申请涉及信息识别技术领域,特别涉及一种栽培品产地识别方法、装置、设备及介质。
背景技术
目前,通过人工培育方式来栽培中药或其他可利用植物的做法越加普遍,所采用的种植方法和种植资源基本上是相同的,由此导致了人工栽培品之间的高度相似。例如,在栽培灵芝时,通常是采用人工大棚、空气净化、温湿度调节等标准化方案,只在木材和水源等有些许差别,导致栽培品的高相似度。如何实现对栽培品产地的识别是目前有待解决的问题。
发明内容
有鉴于此,本申请的目的在于提供一种栽培品产地识别方法、装置、设备及介质,能够有效实现对栽培品产地的识别。其具体方案如下:
第一方面,本申请公开了一种栽培品产地识别方法,包括:
获取与不同产地的栽培品相关的数据集;其中,所述数据集中的每一数据样本均包括栽培品的类型编号、与栽培品的产地对应的组别信息、栽培品的小分子化合物数据;
对所述数据集进行分析,以从栽培品的所有小分子化合物中确定出影响产地识别的关键小分子化合物;
获取待识别栽培品的所述关键小分子化合物的数据,得到关键化合物数据;
利用所述关键化合物数据,对所述待识别栽培品的产地进行识别。
可选的,所述对所述数据集进行分析,以从栽培品的所有小分子化合物中确定出影响产地识别的关键小分子化合物,包括:
确定基于L2参数的双线性SVM模型;其中,所述双线性SVM模型中的待学习参数W=[w0 w1 w2 ... wD-1]T,D表示特征维度的数量,并且,不同的特征维度对应于不同的小分子化合物数据;
利用所述双线性SVM模型,对所述数据集中的数据样本进行分组学习,以确定所述待学习参数W中每个元素wj的数值;其中,j=0,1,2,...,D-1;
以每个元素wj的数值大小作为相应特征维度的重要性依据,从所有特征维度中选取出预设比例的特征维度,得到第一重要特征维度集合;
分别针对每个特征维度,确定所述数据集中相应维度的各个数据特征与相应数据标签之间的相关性,得到每个特征维度对应的相关性;
以每个特征维度对应的相关性作为相应特征维度的重要性依据,从所有特征维度中选取出所述预设比例的特征维度,得到第二重要特征维度集合;
对所述第一重要特征维度集合和所述第二重要特征维度集合进行取交集操作,得到关键特征维度集合;
根据所述关键特征维度集合,确定出相应的关键小分子化合物。
可选的,所述对所述数据集进行分析,以从栽培品的所有小分子化合物中确定出影响产地识别的关键小分子化合物,包括:
确定基于L2参数的双线性SVM模型;其中,所述双线性SVM模型中的待学习参数W=[w0 w1 w2 ... wD-1]T,D表示特征维度的数量,并且,不同的特征维度对应于不同的小分子化合物数据;
利用所述双线性SVM模型,对所述数据集中的数据样本进行分组学习,以确定所述待学习参数W中每个元素wj的数值;其中,j=0,1,2,...,D-1;
以每个元素wj的数值大小作为相应特征维度的重要性依据,从所有特征维度中选取出预设比例的特征维度,得到关键特征维度集合;
根据所述关键特征维度集合,确定出相应的关键小分子化合物。
可选的,所述对所述数据集进行分析,以从栽培品的所有小分子化合物中确定出影响产地识别的关键小分子化合物,包括:
分别针对每个特征维度,确定所述数据集中相应维度的各个数据特征与相应数据标签之间的相关性,得到每个特征维度对应的相关性;
以每个特征维度对应的相关性作为相应特征维度的重要性依据,从所有特征维度中选取出所述预设比例的特征维度,得到关键特征维度集合;
根据所述关键特征维度集合,确定出相应的关键小分子化合物。
可选的,所述对所述数据集进行分析,以从栽培品的所有小分子化合物中确定出影响产地识别的关键小分子化合物之后,还包括:
从所述数据集的数据样本中筛选出与所述关键小分子化合物对应的小分子化合物数据,以形成优化后数据样本;
利用所述优化后数据样本,训练新的SVM模型,得到训练后模型。
可选的,所述利用所述关键化合物数据,对所述待识别栽培品的产地进行识别,包括:
将所述关键化合物数据输入到所述训练后模型,以得到所述待识别栽培品的产地。
可选的,所述利用所述关键化合物数据,对所述待识别栽培品的产地进行识别,包括:
利用预设映射关系,直接确定与所述关键化合物数据所处的数值区间范围对应的栽培品的产地;
其中,所述预设映射关系为预先设定的所述关键小分子化合物的数值区间范围与栽培品的产地之间的映射关系。
可选的,所述双线性SVM模型为:
其中,W表示待学习参数,λ表示待学习超参数,N表示数据样本的数量,i表示数据样本的序号,xi表示输入的与第i个数据样本对应的数据特征,yi表示与第i个数据样本对应的数据标签,并且,若进行分组学习后得到的xi的分组信息与相应数据样本中的组别信息相一致,则yi为1,否则为0。
可选的,所述分别针对每个特征维度,确定所述数据集中相应维度的各个数据特征与相应数据标签之间的相关性,包括:
利用预设相关系数计算公式,分别针对每个特征维度,确定所述数据集中相应维度的各个数据特征与相应数据标签之间的相关系数;
其中,所述预设相关系数计算公式为:
其中,Corr(Xj,Yj)表示与第j个特征维度对应的相关系数,j=0,1,2,...,D-1,xij表示第i个数据样本的第j个特征维度对应的数据特征,μxj表示所述数据集中与第j个特征维度对应的所有数据特征的平均值,yi表示与第i个数据样本对应的数据标签,μc表示所述数据集中第c类别的数据标签的平均值。
第二方面,本申请公开了一种栽培品产地识别装置,包括:
数据集获取模块,用于获取与不同产地的栽培品相关的数据集;其中,所述数据集中的每一数据样本均包括栽培品的类型编号、与栽培品的产地对应的组别信息、栽培品的小分子化合物数据;
数据集分析模块,用于对所述数据集进行分析,以从栽培品的所有小分子化合物中确定出影响产地识别的关键小分子化合物;
关键数据获取模块,用于获取待识别栽培品的所述关键小分子化合物的数据,得到关键化合物数据;
产地识别模块,用于利用所述关键化合物数据,对所述待识别栽培品的产地进行识别。
第三方面,本申请公开了一种栽培品产地识别设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序,以实现前述公开的栽培品产地识别方法。
第四方面,本申请公开了一种计算机可读存储介质,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现前述公开的栽培品产地识别方法。
可见,本申请在获取到与不同产地的栽培品相关的数据集之后,并不会直接利用数据样本中的所有小分子化合物数据来确定待识别栽培品的产地,而是先对数据集进行分析,以从栽培品的所有小分子化合物中确定出影响产地识别的关键小分子化合物,在确定出需要识别产地的待识别栽培品之后,便可只需获取待识别栽培品的上述关键小分子化合物的数据,以得到关键化合物数据,一方面,由于在对待识别栽培品的产地进行识别时,无需获取待识别栽培品的所有小分子化合物数据,只需获取关键小分子化合物的数据,从而能够大幅减少数据采集量以及数据处理量,另一方面,由于相对于上述关键小分子化合物的数据,栽培品的所有小分子化合物数据中存在较多的对产地识别无影响或影响较低的冗余数据,通过去除这些冗余数据,只利用关键小分子化合物的数据来进行产地识别,可以有效降低背景冗余数据对识别精度的干扰,提升产地识别的准确率。综上可见,本申请能够有效实现对栽培品产地的识别。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请公开的一种栽培品产地识别方法流程图;
图2为本申请公开的一种具体的栽培品产地识别方法流程图;
图3为本申请公开的一种具体的栽培品产地识别方法流程图;
图4为本申请公开的一种具体的栽培品产地识别方法流程图;
图5为本申请公开的一种具体的栽培品产地识别方法流程图;
图6为本申请公开的一种栽培品产地识别装置结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例公开了一种栽培品产地识别方法,参见图1所示,该方法包括:
步骤S11:获取与不同产地的栽培品相关的数据集;其中,所述数据集中的每一数据样本均包括栽培品的类型编号、与栽培品的产地对应的组别信息、栽培品的小分子化合物数据。
可以理解的是,上述数据集中,每一数据样本对应于一个栽培品,不同类型的栽培品具有不同的类型编号;属于同一个产地的栽培品的数量可以是一个,也可以是多个,同一产地上的栽培品具有相同的组别信息,不同产地的栽培品对应于不同的组别信息;栽培品的小分子化合物数据可以是利用现有的液相色谱法、质谱法等方法来采集,例如,可以利用UPLC-ESI/TOF-MS方法来采集栽培品的小分子化合物数据。
步骤S12:对所述数据集进行分析,以从栽培品的所有小分子化合物中确定出影响产地识别的关键小分子化合物。
本实施例中,在获取到上述数据集之后,便对上述数据集进行分析,以确定出对产地识别发挥关键作用的小分子化合物。也即,通过该步骤,能够将栽培品的所有小分子化合物中的对产地识别无影响或者影响较低的小分子化合物剔除掉,仅保留影响产地识别的关键小分子化合物,这样一方面能够减少数据采集量和数据处理量,另一方面也有利于提升后续产地识别的准确率。
步骤S13:获取待识别栽培品的所述关键小分子化合物的数据,得到关键化合物数据。
在确定出还未识别产地的栽培品之后,便可以只获取待识别栽培品的关键小分子化合物的数据,而无需获取待识别栽培品的全部小分子化合物数据,从而减少了数据的采集量和处理量,提升了数据采集速度和处理速度。
步骤S14:利用所述关键化合物数据,对所述待识别栽培品的产地进行识别。
本实施例中,由于相对于上述关键化合物数据,栽培品的所有小分子化合物数据中存在较多的对产地识别无影响或影响较低的冗余数据,通过去除这些冗余数据,只利用关键化合物数据来进行产地识别,可以有效降低背景冗余数据对识别精度的干扰,提升产地识别的准确率。
可见,本申请实施例在获取到与不同产地的栽培品相关的数据集之后,并不会直接利用数据样本中的所有小分子化合物数据来确定待识别栽培品的产地,而是先对数据集进行分析,以从栽培品的所有小分子化合物中确定出影响产地识别的关键小分子化合物,在确定出需要识别产地的待识别栽培品之后,便可只需获取待识别栽培品的上述关键小分子化合物的数据,以得到关键化合物数据,一方面,由于在对待识别栽培品的产地进行识别时,无需获取待识别栽培品的所有小分子化合物数据,只需获取关键小分子化合物的数据,从而能够大幅减少数据采集量以及数据处理量,另一方面,由于相对于上述关键小分子化合物的数据,栽培品的所有小分子化合物数据中存在较多的对产地识别无影响或影响较低的冗余数据,通过去除这些冗余数据,只利用关键小分子化合物的数据来进行产地识别,可以有效降低背景冗余数据对识别精度的干扰,提升产地识别的准确率。综上可见,本申请实施例能够有效实现对栽培品产地的识别。
参见图2所示,本申请实施例公开了一种具体的栽培品产地识别方法,包括:
步骤S21:获取与不同产地的栽培品相关的数据集;其中,所述数据集中的每一数据样本均包括栽培品的类型编号、与栽培品的产地对应的组别信息、栽培品的小分子化合物数据。
步骤S22:确定基于L2参数的双线性SVM模型(SVM,即Support Vector Machine,支持向量机);其中,所述双线性SVM模型中的待学习参数W=[w0 w1 w2 ... wD-1]T,D表示特征维度的数量,并且,不同的特征维度对应于不同的小分子化合物数据。
步骤S23:利用所述双线性SVM模型,对所述数据集中的数据样本进行分组学习,以确定所述待学习参数W中每个元素wj的数值;其中,j=0,1,2,...,D-1。
具体的,所述双线性SVM模型为:
其中,W表示待学习参数,λ表示待学习超参数,N表示数据样本的数量,i表示数据样本的序号,xi表示输入的与第i个数据样本对应的数据特征,yi表示与第i个数据样本对应的数据标签,并且,若进行分组学习后得到的xi的分组信息与相应数据样本中的组别信息相一致,则yi为1,否则为0。
步骤S24:以每个元素wj的数值大小作为相应特征维度的重要性依据,从所有特征维度中选取出预设比例的特征维度,得到第一重要特征维度集合。
可以理解的是,本实施例中,在利用双线性SVM模型对上述数据集中的数据样本进行分组学习之后,所确定出来的待学习参数W中每个元素wj的数值大小反映了相应特征维度的重要性,其中,元素wj的数值越大,相应特征维度的重要性越大。
本实施例中,可以根据实际情况来确定所述预设比例,例如可以设为25%,也即,从所有特征维度中选取出与数值大小位于前25%的元素wj所对应的特征维度,得到第一重要特征维度集合。
本实施例中,在从所有特征维度中选取出预设比例的特征维度之前,可以先按照元素wj从大到小的顺序,对所有特征维度进行相应的排序,这样,后续便可直接从排序完的所有特征维度中选取出位于前25%的特征维度,以得到所述第一重要特征维度集合。
步骤S25:分别针对每个特征维度,确定所述数据集中相应维度的各个数据特征与相应数据标签之间的相关性,得到每个特征维度对应的相关性,以每个特征维度对应的相关性作为相应特征维度的重要性依据,从所有特征维度中选取出所述预设比例的特征维度,得到第二重要特征维度集合。
也即,上述步骤中,在确定所述数据集中相应维度的各个数据特征与相应数据标签之间的相关性之后,以每个特征维度对应的所述相关性作为相应特征维度的重要性依据,也即,相关性越大,相应特征维度的重要性也越大,由此得到所述第二重要特征维度集合。
具体的,本实施例可以先按照相关性从大到小的顺序,对所有特征维度进行相应的排序,然后直接从排序完的所有特征维度中选取出位于前面的预设比例的特征维度,以得到所述第二重要特征维度集合。
其中,所述分别针对每个特征维度,确定所述数据集中相应维度的各个数据特征与相应数据标签之间的相关性,具体可以包括:
利用预设相关系数计算公式,分别针对每个特征维度,确定所述数据集中相应维度的各个数据特征与相应数据标签之间的相关系数;
其中,所述预设相关系数计算公式为:
其中,Corr(Xj,Yj)表示与第j个特征维度对应的相关系数,j=0,1,2,...,D-1,xij表示第i个数据样本的第j个特征维度对应的数据特征,μxj表示所述数据集中与第j个特征维度对应的所有数据特征的平均值,yi表示与第i个数据样本对应的数据标签,μc表示所述数据集中第c类别的数据标签的平均值。
步骤S26:对所述第一重要特征维度集合和所述第二重要特征维度集合进行取交集操作,得到关键特征维度集合。
本实施例中,通过前述步骤得到所述第一重要特征维度集合和所述第二重要特征维度集合之后,为了进一步提升最终选取出来的重要特征维度与实际情况的相符程度,避免将一些非重要特征维度误认为重要特征维度,本实施例会对所述第一重要特征维度集合和所述第二重要特征维度集合进行取交集操作,也即将所述第一重要特征维度集合和所述第二重要特征维度集合之间的相同的特征维度选取出来,作为最终的关键特征维度集合。
步骤S27:根据所述关键特征维度集合,确定出相应的关键小分子化合物。
步骤S28:获取待识别栽培品的所述关键小分子化合物的数据,得到关键化合物数据。
步骤S29:利用所述关键化合物数据,对所述待识别栽培品的产地进行识别。
在一种具体实施方式中,可以在对所述数据集进行分析,以从栽培品的所有小分子化合物中确定出影响产地识别的关键小分子化合物的步骤之后,从所述数据集的数据样本中筛选出与所述关键小分子化合物对应的小分子化合物数据,以形成优化后数据样本;利用所述优化后数据样本,训练新的SVM模型,得到训练后模型。相应的,所述利用所述关键化合物数据,对所述待识别栽培品的产地进行识别,具体可以包括:将所述关键化合物数据输入到所述训练后模型,以得到所述待识别栽培品的产地。
在另一种具体实施方式中,所述利用所述关键化合物数据,对所述待识别栽培品的产地进行识别,具体可以包括:利用预设映射关系,直接确定与所述关键化合物数据所处的数值区间范围对应的栽培品的产地;其中,所述预设映射关系为预先设定的所述关键小分子化合物的数值区间范围与栽培品的产地之间的映射关系。
参见图3所示,本申请实施例公开了一种具体的栽培品产地识别方法,包括:
步骤S31:获取与不同产地的栽培品相关的数据集;其中,所述数据集中的每一数据样本均包括栽培品的类型编号、与栽培品的产地对应的组别信息、栽培品的小分子化合物数据。
步骤S32:确定基于L2参数的双线性SVM模型;其中,所述双线性SVM模型中的待学习参数W=[w0 w1 w2 ... wD-1]T,D表示特征维度的数量,并且,不同的特征维度对应于不同的小分子化合物数据。
具体的,所述双线性SVM模型为:
其中,W表示待学习参数,λ表示待学习超参数,N表示数据样本的数量,i表示数据样本的序号,xi表示输入的与第i个数据样本对应的数据特征,yi表示与第i个数据样本对应的数据标签,并且,若进行分组学习后得到的xi的分组信息与相应数据样本中的组别信息相一致,则yi为1,否则为0。
步骤S33:利用所述双线性SVM模型,对所述数据集中的数据样本进行分组学习,以确定所述待学习参数W中每个元素wj的数值;其中,j=0,1,2,...,D-1。
步骤S34:以每个元素wj的数值大小作为相应特征维度的重要性依据,从所有特征维度中选取出预设比例的特征维度,得到关键特征维度集合。
可以理解的是,本实施例中,在利用双线性SVM模型对上述数据集中的数据样本进行分组学习之后,所确定出来的待学习参数W中每个元素wj的数值大小反映了相应特征维度的重要性,其中,元素wj的数值越大,相应特征维度的重要性越大。
本实施例中,在从所有特征维度中选取出预设比例的特征维度之前,可以先按照元素wj从大到小的顺序,对所有特征维度进行相应的排序,这样,后续便可直接从排序完的所有特征维度中选取出位于前25%的特征维度,以得到所述关键特征维度集合。
步骤S35:根据所述关键特征维度集合,确定出相应的关键小分子化合物。
步骤S36:获取待识别栽培品的所述关键小分子化合物的数据,得到关键化合物数据。
步骤S37:利用所述关键化合物数据,对所述待识别栽培品的产地进行识别。
在一种具体实施方式中,可以在对所述数据集进行分析,以从栽培品的所有小分子化合物中确定出影响产地识别的关键小分子化合物的步骤之后,从所述数据集的数据样本中筛选出与所述关键小分子化合物对应的小分子化合物数据,以形成优化后数据样本;利用所述优化后数据样本,训练新的SVM模型,得到训练后模型。相应的,所述利用所述关键化合物数据,对所述待识别栽培品的产地进行识别,具体可以包括:将所述关键化合物数据输入到所述训练后模型,以得到所述待识别栽培品的产地。
在另一种具体实施方式中,所述利用所述关键化合物数据,对所述待识别栽培品的产地进行识别,具体可以包括:利用预设映射关系,直接确定与所述关键化合物数据所处的数值区间范围对应的栽培品的产地;其中,所述预设映射关系为预先设定的所述关键小分子化合物的数值区间范围与栽培品的产地之间的映射关系。
通过比对本实施例与前述实施例可知,本实施例无需确定第二重要特征维度集合,只需确定第一重要特征维度集合,然后直接将第一重要特征维度集合确定为最终的关键特征维度集合,虽然这两个实施例中最终确定的关键特征维度集合之间存在一定的差异,不过这种差异相对较小,所以使得本实施例中的技术方案依然具有较高的产地识别准确率,能够满足许多应用场景对产地识别准确率的实际需求,并且本实施例中的技术方案由于无需确定第二重要特征维度,所以在一定程度上简化了运算过程。
参见图4所示,本申请实施例公开了一种具体的栽培品产地识别方法,包括:
步骤S41:获取与不同产地的栽培品相关的数据集;其中,所述数据集中的每一数据样本均包括栽培品的类型编号、与栽培品的产地对应的组别信息、栽培品的小分子化合物数据。
步骤S42:分别针对每个特征维度,确定所述数据集中相应维度的各个数据特征与相应数据标签之间的相关性,得到每个特征维度对应的相关性。
其中,所述分别针对每个特征维度,确定所述数据集中相应维度的各个数据特征与相应数据标签之间的相关性,具体可以包括:
利用预设相关系数计算公式,分别针对每个特征维度,确定所述数据集中相应维度的各个数据特征与相应数据标签之间的相关系数;
其中,所述预设相关系数计算公式为:
其中,Corr(Xj,Yj)表示与第j个特征维度对应的相关系数,j=0,1,2,...,D-1,xij表示第i个数据样本的第j个特征维度对应的数据特征,μxj表示所述数据集中与第j个特征维度对应的所有数据特征的平均值,yi表示与第i个数据样本对应的数据标签,μc表示所述数据集中第c类别的数据标签的平均值。
步骤S43:以每个特征维度对应的相关性作为相应特征维度的重要性依据,从所有特征维度中选取出所述预设比例的特征维度,得到关键特征维度集合。
也即,上述步骤中,在确定所述数据集中相应维度的各个数据特征与相应数据标签之间的相关性之后,以每个特征维度对应的所述相关性作为相应特征维度的重要性依据,也即,相关性越大,相应特征维度的重要性也越大,由此得到所述关键特征维度集合。
具体的,本实施例可以先按照相关性从大到小的顺序,对所有特征维度进行相应的排序,然后直接从排序完的所有特征维度中选取出位于前面的预设比例的特征维度,以得到所述关键特征维度集合。
步骤S44:根据所述关键特征维度集合,确定出相应的关键小分子化合物。
步骤S45:获取待识别栽培品的所述关键小分子化合物的数据,得到关键化合物数据。
步骤S46:利用所述关键化合物数据,对所述待识别栽培品的产地进行识别。
在一种具体实施方式中,可以在对所述数据集进行分析,以从栽培品的所有小分子化合物中确定出影响产地识别的关键小分子化合物的步骤之后,从所述数据集的数据样本中筛选出与所述关键小分子化合物对应的小分子化合物数据,以形成优化后数据样本;利用所述优化后数据样本,训练新的SVM模型,得到训练后模型。相应的,所述利用所述关键化合物数据,对所述待识别栽培品的产地进行识别,具体可以包括:将所述关键化合物数据输入到所述训练后模型,以得到所述待识别栽培品的产地。
在另一种具体实施方式中,所述利用所述关键化合物数据,对所述待识别栽培品的产地进行识别,具体可以包括:利用预设映射关系,直接确定与所述关键化合物数据所处的数值区间范围对应的栽培品的产地;其中,所述预设映射关系为预先设定的所述关键小分子化合物的数值区间范围与栽培品的产地之间的映射关系。
通过比对本实施例与前述实施例可知,本实施例无需确定第一重要特征维度集合,只需确定第二重要特征维度集合,然后直接将第二重要特征维度集合确定为最终的关键特征维度集合,虽然这两个实施例中最终确定的关键特征维度集合之间存在一定的差异,不过这种差异相对较小,所以使得本实施例中的技术方案依然具有较高的产地识别准确率,能够满足许多应用场景对产地识别准确率的实际需求,并且本实施例中的技术方案由于无需确定第一重要特征维度,所以在一定程度上简化了运算过程。
参见图5所示,本申请实施例公开了一种具体的栽培品产地识别方法,包括:
步骤S51:获取与不同产地的赤灵芝相关的数据集;其中,所述数据集中的每一数据样本均包括赤灵芝的类型编号、与赤灵芝的产地对应的组别信息、赤灵芝的小分子化合物数据。
例如,本实施例中的表一示出了10个不同产地的赤灵芝的类型编号、组别信息以及产地信息:
表一
类型编号 | 组别 | 产地 |
S8 | 1 | 四川省江油市东安乡乌龙砚村 |
S4 | 2 | 陕西省汉中市西乡县桑园镇北沟村 |
S5 | 3 | 陕西省安康市汉滨区恒口镇白渔河村 |
S6 | 4 | 陕西省汉中市洋县石关镇麻柳村 |
S9 | 5 | 江西省景德镇市浮梁县黄坛乡黄坛村 |
S10 | 6 | 安徽省六安市金寨县梅山镇南水村 |
S11-2 | 7 | 浙江省龙泉市查田镇溪口镇 |
S7 | 8 | 四川省绵阳市三台县富顺镇金光村 |
S21 | 9 | 湖北省随州市万店 |
S3 | 10 | 陕西省汉中市西乡县沙河镇私渡村 |
本实施例中,为了获取赤灵芝的小分子化合物数据,需要具体采取以下步骤:
赤灵芝样品的提取:100mg灵芝粉末(过三号筛)置于2.0mL EP管内,加入1.80mL的70%的乙醇,在25℃和40KHz条件下超声(SCIENT超声仪,宁波,中国)提取30min。样品13000g离心十分钟后,吸取上清液,-20℃保存。分析时,待样品解冻后,取10μL内标芦丁溶液(1.00μg/mL)与100μL赤灵芝上清液混匀,进样分析。
设置液相条件:采用反向C18 UPLC色谱柱(2.1mm×100mm,1.8μm,ACQUITYT3,Waters,USA),流速为0.5mL/min,进样量10μL,检测波长为246nm。流动相为0.1%的酸水和0.1%的酸乙腈。色谱条件分别如表二所示:
表二
RT(min) | 0 | 2 | 2.5 | 7 | 8 | 20.5 | 23.5 | 25 | 28 | 30 |
乙腈比例(%) | 0 | 0.5 | 6 | 23.5 | 29.5 | 29.5 | 42.5 | 80 | 100 | 100 |
设置质谱参数:在负离子模式下,采集50-1500Da的数据,扫描时间为0.15s,二级采集范围为50-1500Da;低碰撞能量关闭,高碰撞能量为60-90V;毛细管电压为2.0kV;锥孔电压为40V;源内温度100℃;脱溶剂温度为450℃;锥孔气体流速为50L/h;脱溶剂气体流速900L/h。
采集数据:参见表三所示,将10组共127个赤灵芝样品的UPLC-ESI/TOF-MS数据通过软件导成Excel数据集,经数据预处理后,每个数据样本中有861个小分子化合物数据纳入后续计算。
表三
类型编号 | S8 | S4 | S5 | S6 | S9 | S10 | S11-2 | S7 | S21 | S3 |
组别 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
样品数量 | 14 | 6 | 16 | 14 | 11 | 18 | 24 | 12 | 5 | 7 |
另外,本实施例还可以利用3-倍交叉验证方法,将每组数据分为3个亚组,其中2亚组作为训练集,剩余1组作为测试集。
进一步的,本实施例还可以专门采集来源于不同产地的多个赤灵芝的相关数据,并将它们确定为参照数据,可以理解的是,上述参照数据不参与后续的计算,仅是起到参照作用。
步骤S52:确定基于L2参数的双线性SVM模型;其中,所述双线性SVM模型中的待学习参数W=[w0 w1 w2 ... wD-1]T,D表示特征维度的数量,并且,不同的特征维度对应于不同的小分子化合物数据。
步骤S53:利用所述双线性SVM模型,对所述数据集中的数据样本进行分组学习,以确定所述待学习参数W中每个元素wj的数值;其中,j=0,1,2,...,D-1。
具体的,所述双线性SVM模型为:
其中,W表示待学习参数,λ表示待学习超参数,N表示数据样本的数量,i表示数据样本的序号,xi表示输入的与第i个数据样本对应的数据特征,yi表示与第i个数据样本对应的数据标签,并且,若进行分组学习后得到的xi的分组信息与相应数据样本中的组别信息相一致,则yi为1,否则为0。
步骤S54:以每个元素wj的数值大小作为相应特征维度的重要性依据,从所有特征维度中选取出重要性位于前25%的特征维度,得到第一重要特征维度集合。
步骤S55:分别针对每个特征维度,确定所述数据集中相应维度的各个数据特征与相应数据标签之间的相关性,得到每个特征维度对应的相关性,以每个特征维度对应的相关性作为相应特征维度的重要性依据,从所有特征维度中选取出重要性位于前25%的特征维度,得到第二重要特征维度集合。
其中,所述分别针对每个特征维度,确定所述数据集中相应维度的各个数据特征与相应数据标签之间的相关性,具体可以包括:
利用预设相关系数计算公式,分别针对每个特征维度,确定所述数据集中相应维度的各个数据特征与相应数据标签之间的相关系数;
其中,所述预设相关系数计算公式为:
其中,Corr(Xj,Yj)表示与第j个特征维度对应的相关系数,j=0,1,2,...,D-1,xij表示第i个数据样本的第j个特征维度对应的数据特征,μxj表示所述数据集中与第j个特征维度对应的所有数据特征的平均值,yi表示与第i个数据样本对应的数据标签,μc表示所述数据集中第c类别的数据标签的平均值。
步骤S56:对所述第一重要特征维度集合和所述第二重要特征维度集合进行取交集操作,得到关键特征维度集合。
步骤S57:根据所述关键特征维度集合,确定出相应的关键小分子化合物,并从所述数据集的数据样本中筛选出与所述关键小分子化合物对应的小分子化合物数据,以形成优化后数据样本;利用所述优化后数据样本,训练新的SVM模型,得到训练后模型。
步骤S58:获取待识别赤灵芝的所述关键小分子化合物的数据,得到关键化合物数据。
步骤S59:将所述关键化合物数据输入到所述训练后模型,以得到所述待识别赤灵芝的产地。
可见,本申请实施例在获取到与不同产地的栽培品相关的数据集之后,并不会直接利用数据样本中的所有小分子化合物数据来确定待识别栽培品的产地,而是先对数据集进行分析,以从栽培品的所有小分子化合物中确定出影响产地识别的关键小分子化合物,在确定出需要识别产地的待识别栽培品之后,便可只需获取待识别栽培品的上述关键小分子化合物的数据,以得到关键化合物数据,一方面,由于在对待识别栽培品的产地进行识别时,无需获取待识别栽培品的所有小分子化合物数据,只需获取关键小分子化合物的数据,从而能够大幅减少数据采集量以及数据处理量,另一方面,由于相对于上述关键小分子化合物的数据,栽培品的所有小分子化合物数据中存在较多的对产地识别无影响或影响较低的冗余数据,通过去除这些冗余数据,只利用关键小分子化合物的数据来进行产地识别,可以有效降低背景冗余数据对识别精度的干扰,提升产地识别的准确率。综上可见,本申请实施例能够有效实现对栽培品产地的识别。
为了验证上述结论,本申请实施例可以采用准确率(Accuracy)、F1-得分(F1-Score)和线下面积(AUC)这三个评价参数,分别对利用所有小分子化合物数据来进行产地识别的技术方案以及利用关键小分子化合物的数据进行产地识别的技术方案进行评价,评价结果分别如表四和表五所示:
表四利用所有小分子化合物数据进行产地识别的方案评价结果
表五利用关键小分子化合物的数据进行产地识别的方案评价结果
通过表四和表五可知,相对于利用所有小分子化合物数据进行产地识别的方案,本实施例的利用关键小分子化合物的数据进行产地识别的方案具有更大的准确率、F1-得分和线下面积,由此可见,本实施例中通过关键化合物数据来识别产地的方案,能够有效提升产地识别的准确率,并具有较高的稳定性和可靠性。
参见图6所示,本申请实施例还公开了一种栽培品产地识别装置,包括:
数据集获取模块11,用于获取与不同产地的栽培品相关的数据集;其中,所述数据集中的每一数据样本均包括栽培品的类型编号、与栽培品的产地对应的组别信息、栽培品的小分子化合物数据;
数据集分析模块12,用于对所述数据集进行分析,以从栽培品的所有小分子化合物中确定出影响产地识别的关键小分子化合物;
关键数据获取模块13,用于获取待识别栽培品的所述关键小分子化合物的数据,得到关键化合物数据;
产地识别模块14,用于利用所述关键化合物数据,对所述待识别栽培品的产地进行识别。
其中,关于上述各个模块更加具体的工作过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
可见,本申请实施例在获取到与不同产地的栽培品相关的数据集之后,并不会直接利用数据样本中的所有小分子化合物数据来确定待识别栽培品的产地,而是先对数据集进行分析,以从栽培品的所有小分子化合物中确定出影响产地识别的关键小分子化合物,在确定出需要识别产地的待识别栽培品之后,便可只需获取待识别栽培品的上述关键小分子化合物的数据,以得到关键化合物数据,一方面,由于在对待识别栽培品的产地进行识别时,无需获取待识别栽培品的所有小分子化合物数据,只需获取关键小分子化合物的数据,从而能够大幅减少数据采集量以及数据处理量,另一方面,由于相对于上述关键小分子化合物的数据,栽培品的所有小分子化合物数据中存在较多的对产地识别无影响或影响较低的冗余数据,通过去除这些冗余数据,只利用关键小分子化合物的数据来进行产地识别,可以有效降低背景冗余数据对识别精度的干扰,提升产地识别的准确率。综上可见,本申请实施例能够有效实现对栽培品产地的识别。
进一步的,本申请还公开了一种栽培品产地识别设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序,以实现前述实施例公开的栽培品产地识别方法。
进一步的,本申请还公开了一种计算机可读存储介质,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现前述实施例公开的栽培品产地识别方法。
其中,关于上述栽培品产地识别方法的具体步骤可以参考前述实施例公开的相应内容,在此不再进行赘述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本申请所提供的一种栽培品产地识别方法、装置、设备及介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (8)
1.一种栽培品产地识别方法,其特征在于,包括:
获取与不同产地的栽培品相关的数据集;其中,所述数据集中的每一数据样本均包括栽培品的类型编号、与栽培品的产地对应的组别信息、栽培品的小分子化合物数据;
对所述数据集进行分析,以从栽培品的所有小分子化合物中确定出影响产地识别的关键小分子化合物;
获取待识别栽培品的所述关键小分子化合物的数据,得到关键化合物数据;
利用所述关键化合物数据,对所述待识别栽培品的产地进行识别;
所述对所述数据集进行分析,以从栽培品的所有小分子化合物中确定出影响产地识别的关键小分子化合物,包括:
分别针对每个特征维度,确定所述数据集中相应维度的各个数据特征与相应数据标签之间的相关性,得到每个特征维度对应的相关性;
以每个特征维度对应的相关性作为相应特征维度的重要性依据,从所有特征维度中选取出预设比例的特征维度,得到关键特征维度集合;
根据所述关键特征维度集合,确定出相应的关键小分子化合物;
所述分别针对每个特征维度,确定所述数据集中相应维度的各个数据特征与相应数据标签之间的相关性,包括:
利用预设相关系数计算公式,分别针对每个特征维度,确定所述数据集中相应维度的各个数据特征与相应数据标签之间的相关系数;
其中,所述预设相关系数计算公式为:
其中,Corr(Xj,Yj)表示与第j个特征维度对应的相关系数,j=0,1,2,...,D-1,xij表示第i个数据样本的第j个特征维度对应的数据特征,μxj表示所述数据集中与第j个特征维度对应的所有数据特征的平均值,yi表示与第i个数据样本对应的数据标签,μc表示所述数据集中第c类别的数据标签的平均值;
或者,所述对所述数据集进行分析,以从栽培品的所有小分子化合物中确定出影响产地识别的关键小分子化合物,包括:
确定基于L2参数的双线性SVM模型;其中,所述双线性SVM模型中的待学习参数W=[w0w1 w2...wD-1]T,D表示特征维度的数量,并且,不同的特征维度对应于不同的小分子化合物数据;
利用所述双线性SVM模型,对所述数据集中的数据样本进行分组学习,以确定所述待学习参数W中每个元素wj的数值;其中,j=0,1,2,...,D-1;
以每个元素wj的数值大小作为相应特征维度的重要性依据,从所有特征维度中选取出预设比例的特征维度,得到第一重要特征维度集合;
分别针对每个特征维度,确定所述数据集中相应维度的各个数据特征与相应数据标签之间的相关性,得到每个特征维度对应的相关性;
以每个特征维度对应的相关性作为相应特征维度的重要性依据,从所有特征维度中选取出所述预设比例的特征维度,得到第二重要特征维度集合;
对所述第一重要特征维度集合和所述第二重要特征维度集合进行取交集操作,得到关键特征维度集合;
根据所述关键特征维度集合,确定出相应的关键小分子化合物;
或者,所述对所述数据集进行分析,以从栽培品的所有小分子化合物中确定出影响产地识别的关键小分子化合物,包括:
确定基于L2参数的双线性SVM模型;其中,所述双线性SVM模型中的待学习参数W=[w0w1 w2...wD-1]T,D表示特征维度的数量,并且,不同的特征维度对应于不同的小分子化合物数据;
利用所述双线性SVM模型,对所述数据集中的数据样本进行分组学习,以确定所述待学习参数W中每个元素wj的数值;其中,j=0,1,2,...,D-1;
以每个元素wj的数值大小作为相应特征维度的重要性依据,从所有特征维度中选取出预设比例的特征维度,得到关键特征维度集合;
根据所述关键特征维度集合,确定出相应的关键小分子化合物。
2.根据权利要求1所述的栽培品产地识别方法,其特征在于,所述对所述数据集进行分析,以从栽培品的所有小分子化合物中确定出影响产地识别的关键小分子化合物之后,还包括:
从所述数据集的数据样本中筛选出与所述关键小分子化合物对应的小分子化合物数据,以形成优化后数据样本;
利用所述优化后数据样本,训练新的SVM模型,得到训练后模型。
3.根据权利要求2所述的栽培品产地识别方法,其特征在于,所述利用所述关键化合物数据,对所述待识别栽培品的产地进行识别,包括:
将所述关键化合物数据输入到所述训练后模型,以得到所述待识别栽培品的产地。
4.根据权利要求1所述的栽培品产地识别方法,其特征在于,所述利用所述关键化合物数据,对所述待识别栽培品的产地进行识别,包括:
利用预设映射关系,直接确定与所述关键化合物数据所处的数值区间范围对应的栽培品的产地;
其中,所述预设映射关系为预先设定的所述关键小分子化合物的数值区间范围与栽培品的产地之间的映射关系。
5.根据权利要求1所述的栽培品产地识别方法,其特征在于,所述双线性SVM模型为:
其中,W表示待学习参数,λ表示待学习超参数,N表示数据样本的数量,i表示数据样本的序号,xi表示输入的与第i个数据样本对应的数据特征,yi表示与第i个数据样本对应的数据标签,并且,若进行分组学习后得到的xi的分组信息与相应数据样本中的组别信息相一致,则yi为1,否则为0。
6.一种栽培品产地识别装置,其特征在于,包括:
数据集获取模块,用于获取与不同产地的栽培品相关的数据集;其中,所述数据集中的每一数据样本均包括栽培品的类型编号、与栽培品的产地对应的组别信息、栽培品的小分子化合物数据;
数据集分析模块,用于对所述数据集进行分析,以从栽培品的所有小分子化合物中确定出影响产地识别的关键小分子化合物;
关键数据获取模块,用于获取待识别栽培品的所述关键小分子化合物的数据,得到关键化合物数据;
产地识别模块,用于利用所述关键化合物数据,对所述待识别栽培品的产地进行识别;
所述对所述数据集进行分析,以从栽培品的所有小分子化合物中确定出影响产地识别的关键小分子化合物,包括:
分别针对每个特征维度,确定所述数据集中相应维度的各个数据特征与相应数据标签之间的相关性,得到每个特征维度对应的相关性;
以每个特征维度对应的相关性作为相应特征维度的重要性依据,从所有特征维度中选取出预设比例的特征维度,得到关键特征维度集合;
根据所述关键特征维度集合,确定出相应的关键小分子化合物;
所述分别针对每个特征维度,确定所述数据集中相应维度的各个数据特征与相应数据标签之间的相关性,包括:
利用预设相关系数计算公式,分别针对每个特征维度,确定所述数据集中相应维度的各个数据特征与相应数据标签之间的相关系数;
其中,所述预设相关系数计算公式为:
其中,Corr(Xj,Yj)表示与第j个特征维度对应的相关系数,j=0,1,2,...,D-1,xij表示第i个数据样本的第j个特征维度对应的数据特征,μxj表示所述数据集中与第j个特征维度对应的所有数据特征的平均值,yi表示与第i个数据样本对应的数据标签,μc表示所述数据集中第c类别的数据标签的平均值。
7.一种栽培品产地识别设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序,以实现如权利要求1至5任一项所述的栽培品产地识别方法。
8.一种计算机可读存储介质,其特征在于,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的栽培品产地识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911222973.9A CN110929804B (zh) | 2019-12-03 | 2019-12-03 | 一种栽培品产地识别方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911222973.9A CN110929804B (zh) | 2019-12-03 | 2019-12-03 | 一种栽培品产地识别方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110929804A CN110929804A (zh) | 2020-03-27 |
CN110929804B true CN110929804B (zh) | 2024-04-09 |
Family
ID=69848605
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911222973.9A Active CN110929804B (zh) | 2019-12-03 | 2019-12-03 | 一种栽培品产地识别方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110929804B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105868352A (zh) * | 2016-03-29 | 2016-08-17 | 天津大学 | 一种基于维度相关性分析的高维数据维度排序方法 |
CN107331384A (zh) * | 2017-06-12 | 2017-11-07 | 平安科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及存储介质 |
CN108717497A (zh) * | 2018-05-23 | 2018-10-30 | 大连海事大学 | 基于pca-svm的仿刺参产地鉴别方法 |
CN110135491A (zh) * | 2019-05-13 | 2019-08-16 | 四川中新华搜信息技术有限公司 | 一种基于svm的图像或视频识别的商品外观防伪方法 |
-
2019
- 2019-12-03 CN CN201911222973.9A patent/CN110929804B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105868352A (zh) * | 2016-03-29 | 2016-08-17 | 天津大学 | 一种基于维度相关性分析的高维数据维度排序方法 |
CN107331384A (zh) * | 2017-06-12 | 2017-11-07 | 平安科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及存储介质 |
CN108717497A (zh) * | 2018-05-23 | 2018-10-30 | 大连海事大学 | 基于pca-svm的仿刺参产地鉴别方法 |
CN110135491A (zh) * | 2019-05-13 | 2019-08-16 | 四川中新华搜信息技术有限公司 | 一种基于svm的图像或视频识别的商品外观防伪方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110929804A (zh) | 2020-03-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yuan et al. | Abiotic and biotic determinants of coarse woody productivity in temperate mixed forests | |
Sauquet et al. | The ancestral flower of angiosperms and its early diversification | |
CN105938116B (zh) | 基于模糊划分和模型集成的气体传感器阵列浓度检测方法 | |
CN107729721B (zh) | 一种代谢物鉴定及紊乱通路分析方法 | |
Herben et al. | Clonal growth and plant species abundance | |
CN108846338A (zh) | 基于面向对象随机森林的极化特征选择及分类方法 | |
CN103093119A (zh) | 一种利用网络结构信息识别显著生物通路的方法 | |
CN107132266A (zh) | 一种基于随机森林的水质分类方法及系统 | |
Ludwig et al. | ZODIAC: Database-independent molecular formula annotation using Gibbs sampling reveals unknown small molecules | |
Huseby et al. | Metabolic fingerprinting reveals differences between northern and southern strains of the cryptic diatom Chaetoceros socialis | |
CN111243676B (zh) | 一种基于高通量测序数据的枯萎病发病预测模型及应用 | |
CN109558893A (zh) | 基于重采样池的快速集成污水处理故障诊断方法 | |
Du et al. | Multi-Channel Pooling Graph Neural Networks. | |
CN110564884B (zh) | 旱柳耐盐枢纽基因的发掘方法 | |
CN110929888B (zh) | 一种基于随机紧凑高斯核函数的粮食作物病害预测方法 | |
CN114139639B (zh) | 一种基于自步邻域保持嵌入的故障分类方法 | |
CN110929804B (zh) | 一种栽培品产地识别方法、装置、设备及介质 | |
CN106498070A (zh) | 一种基于基因组LoF位点筛查间接关联猕猴桃种性的方法 | |
CN111429971B (zh) | 基于机器学习和代谢组学的岭南湿热证模式动物识别方法 | |
Roeder et al. | Phylogenetic clustering increases with succession for lianas in a Chinese tropical montane rain forest | |
CN112511104A (zh) | 一种单二极管结构光伏电池参数的辨识方法 | |
CN105184234B (zh) | 一种冬小麦秸秆焚烧污染物排放量的测算方法及装置 | |
Yu et al. | Inferring the accumulation of morphological disparity in epiphyllous liverworts | |
CN110059353A (zh) | 一种模态参数自动识别简化实用方法 | |
Gagliardi et al. | Leaf functional traits and pathogens: Linking coffee leaf rust with intraspecific trait variation in diversified agroecosystems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |