CN113496309B - 西洋参生长年限预测方法、模型的训练方法及装置 - Google Patents
西洋参生长年限预测方法、模型的训练方法及装置 Download PDFInfo
- Publication number
- CN113496309B CN113496309B CN202110663233.XA CN202110663233A CN113496309B CN 113496309 B CN113496309 B CN 113496309B CN 202110663233 A CN202110663233 A CN 202110663233A CN 113496309 B CN113496309 B CN 113496309B
- Authority
- CN
- China
- Prior art keywords
- training
- content
- data set
- american ginseng
- ginsenoside
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 177
- 235000003140 Panax quinquefolius Nutrition 0.000 title claims abstract description 131
- 240000005373 Panax quinquefolius Species 0.000 title claims abstract description 129
- 238000000034 method Methods 0.000 title claims abstract description 79
- 238000004422 calculation algorithm Methods 0.000 claims description 71
- 238000012360 testing method Methods 0.000 claims description 54
- 230000006870 function Effects 0.000 claims description 47
- 238000011156 evaluation Methods 0.000 claims description 20
- UFNDONGOJKNAES-UHFFFAOYSA-N Ginsenoside Rb1 Natural products CC(=CCCC(C)(OC1OC(COC2OC(CO)C(O)C(O)C2O)C(O)C(O)C1O)C3CCC4(C)C3C(O)CC5C6(C)CCC(OC7OC(CO)C(O)C(O)C7OC8OC(CO)C(O)C(O)C8O)C(C)(C)C6CC(O)C45C)C UFNDONGOJKNAES-UHFFFAOYSA-N 0.000 claims description 19
- GZYPWOGIYAIIPV-JBDTYSNRSA-N ginsenoside Rb1 Chemical compound C([C@H]1O[C@H]([C@@H]([C@@H](O)[C@@H]1O)O)O[C@@](C)(CCC=C(C)C)[C@@H]1[C@@H]2[C@@]([C@@]3(CC[C@H]4C(C)(C)[C@@H](O[C@H]5[C@@H]([C@@H](O)[C@H](O)[C@@H](CO)O5)O[C@H]5[C@@H]([C@@H](O)[C@H](O)[C@@H](CO)O5)O)CC[C@]4(C)[C@H]3C[C@H]2O)C)(C)CC1)O[C@@H]1O[C@H](CO)[C@@H](O)[C@H](O)[C@H]1O GZYPWOGIYAIIPV-JBDTYSNRSA-N 0.000 claims description 19
- TXEWRVNOAJOINC-UHFFFAOYSA-N ginsenoside Rb2 Natural products CC(=CCCC(OC1OC(COC2OCC(O)C(O)C2O)C(O)C(O)C1O)C3CCC4(C)C3C(O)CC5C6(C)CCC(OC7OC(CO)C(O)C(O)C7OC8OC(CO)C(O)C(O)C8O)C(C)(C)C6CCC45C)C TXEWRVNOAJOINC-UHFFFAOYSA-N 0.000 claims description 19
- 230000009466 transformation Effects 0.000 claims description 18
- 239000000126 substance Substances 0.000 claims description 16
- FBFMBWCLBGQEBU-RXMALORBSA-N (2s,3r,4s,5s,6r)-2-[(2r,3r,4s,5s,6r)-2-[[(3s,5r,6s,8r,9r,10r,12r,13r,14r,17s)-3,12-dihydroxy-4,4,8,10,14-pentamethyl-17-[(2s)-6-methyl-2-[(2s,3r,4s,5s,6r)-3,4,5-trihydroxy-6-(hydroxymethyl)oxan-2-yl]oxyhept-5-en-2-yl]-2,3,5,6,7,9,11,12,13,15,16,17-dodecah Chemical compound O([C@@](C)(CCC=C(C)C)[C@@H]1[C@@H]2[C@@]([C@@]3(C[C@@H]([C@H]4C(C)(C)[C@@H](O)CC[C@]4(C)[C@H]3C[C@H]2O)O[C@H]2[C@@H]([C@@H](O)[C@H](O)[C@@H](CO)O2)O[C@H]2[C@@H]([C@@H](O)[C@H](O)[C@@H](CO)O2)O)C)(C)CC1)[C@@H]1O[C@H](CO)[C@@H](O)[C@H](O)[C@H]1O FBFMBWCLBGQEBU-RXMALORBSA-N 0.000 claims description 12
- FBFMBWCLBGQEBU-GYMUUCMZSA-N 20-gluco-ginsenoside-Rf Natural products O([C@](CC/C=C(\C)/C)(C)[C@@H]1[C@H]2[C@H](O)C[C@H]3[C@](C)([C@]2(C)CC1)C[C@H](O[C@@H]1[C@H](O[C@H]2[C@H](O)[C@@H](O)[C@H](O)[C@@H](CO)O2)[C@@H](O)[C@H](O)[C@@H](CO)O1)[C@H]1C(C)(C)[C@@H](O)CC[C@]31C)[C@H]1[C@H](O)[C@@H](O)[C@H](O)[C@@H](CO)O1 FBFMBWCLBGQEBU-GYMUUCMZSA-N 0.000 claims description 12
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 claims description 12
- HYPFYJBWSTXDAS-UHFFFAOYSA-N Ginsenoside Rd Natural products CC(=CCCC(C)(OC1OC(CO)C(O)C(O)C1O)C2CCC3(C)C4CCC5C(C)(C)C(CCC5(C)C4CC(O)C23C)OC6OC(CO)C(O)C(O)C6OC7OC(CO)C(O)C(O)C7O)C HYPFYJBWSTXDAS-UHFFFAOYSA-N 0.000 claims description 12
- UOJAEODBOCLNBU-UHFFFAOYSA-N vinaginsenoside R4 Natural products C1CC(C2(CC(O)C3C(C)(C)C(OC4C(C(O)C(O)C(CO)O4)OC4C(C(O)C(O)C(CO)O4)O)CCC3(C)C2CC2O)C)(C)C2C1C(C)(CCC=C(C)C)OC1OC(CO)C(O)C(O)C1O UOJAEODBOCLNBU-UHFFFAOYSA-N 0.000 claims description 12
- YURJSTAIMNSZAE-UHFFFAOYSA-N UNPD89172 Natural products C1CC(C2(CC(C3C(C)(C)C(O)CCC3(C)C2CC2O)OC3C(C(O)C(O)C(CO)O3)O)C)(C)C2C1C(C)(CCC=C(C)C)OC1OC(CO)C(O)C(O)C1O YURJSTAIMNSZAE-UHFFFAOYSA-N 0.000 claims description 11
- PWAOOJDMFUQOKB-WCZZMFLVSA-N ginsenoside Re Chemical compound O[C@@H]1[C@H](O)[C@@H](O)[C@H](C)O[C@H]1O[C@H]1[C@H](O[C@@H]2[C@H]3C(C)(C)[C@@H](O)CC[C@]3(C)[C@@H]3[C@@]([C@@]4(CC[C@@H]([C@H]4[C@H](O)C3)[C@](C)(CCC=C(C)C)O[C@H]3[C@@H]([C@@H](O)[C@H](O)[C@@H](CO)O3)O)C)(C)C2)O[C@H](CO)[C@@H](O)[C@@H]1O PWAOOJDMFUQOKB-WCZZMFLVSA-N 0.000 claims description 11
- YURJSTAIMNSZAE-HHNZYBFYSA-N ginsenoside Rg1 Chemical compound O([C@@](C)(CCC=C(C)C)[C@@H]1[C@@H]2[C@@]([C@@]3(C[C@@H]([C@H]4C(C)(C)[C@@H](O)CC[C@]4(C)[C@H]3C[C@H]2O)O[C@H]2[C@@H]([C@@H](O)[C@H](O)[C@@H](CO)O2)O)C)(C)CC1)[C@@H]1O[C@H](CO)[C@@H](O)[C@H](O)[C@H]1O YURJSTAIMNSZAE-HHNZYBFYSA-N 0.000 claims description 11
- CBEHEBUBNAGGKC-UHFFFAOYSA-N ginsenoside Rg1 Natural products CC(=CCCC(C)(OC1OC(CO)C(O)C(O)C1O)C2CCC3(C)C2C(O)CC4C5(C)CCC(O)C(C)(C)C5CC(OC6OC(CO)C(O)C(O)C6O)C34C)C CBEHEBUBNAGGKC-UHFFFAOYSA-N 0.000 claims description 11
- AOGZLQUEBLOQCI-UHFFFAOYSA-N ginsenoside-Re Natural products CC1OC(OCC2OC(OC3CC4(C)C(CC(O)C5C(CCC45C)C(C)(CCC=C(C)C)OC6OC(CO)C(O)C(O)C6O)C7(C)CCC(O)C(C)(C)C37)C(O)C(O)C2O)C(O)C(O)C1O AOGZLQUEBLOQCI-UHFFFAOYSA-N 0.000 claims description 11
- 238000003860 storage Methods 0.000 claims description 11
- 238000013507 mapping Methods 0.000 claims description 10
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 8
- JBGYSAVRIDZNKA-NKECSCAMSA-N (2S,3R,4R,5R,6S)-2-[(2R,3R,4S,5S,6R)-2-[[(3S,5R,6S,8R,9R,10R,12R,13R,14R,17S)-3,12-dihydroxy-17-[(2S,5R)-5-(2-hydroxypropan-2-yl)-2-methyloxolan-2-yl]-4,4,8,10,14-pentamethyl-2,3,5,6,7,9,11,12,13,15,16,17-dodecahydro-1H-cyclopenta[a]phenanthren-6-yl]oxy]-4,5-dihydroxy-6-(hydroxymethyl)oxan-3-yl]oxy-6-methyloxane-3,4,5-triol Chemical compound O[C@@H]1[C@H](O)[C@@H](O)[C@H](C)O[C@H]1O[C@H]1[C@H](O[C@@H]2[C@H]3C(C)(C)[C@@H](O)CC[C@]3(C)[C@@H]3[C@@]([C@@]4(CC[C@@H]([C@H]4[C@H](O)C3)[C@@]3(C)O[C@H](CC3)C(C)(C)O)C)(C)C2)O[C@H](CO)[C@@H](O)[C@@H]1O JBGYSAVRIDZNKA-NKECSCAMSA-N 0.000 claims description 7
- JBGYSAVRIDZNKA-UHFFFAOYSA-N pseudo-ginsenoside-F11 Natural products OC1C(O)C(O)C(C)OC1OC1C(OC2C3C(C)(C)C(O)CCC3(C)C3C(C4(CCC(C4C(O)C3)C3(C)OC(CC3)C(C)(C)O)C)(C)C2)OC(CO)C(O)C1O JBGYSAVRIDZNKA-UHFFFAOYSA-N 0.000 claims description 7
- 238000012216 screening Methods 0.000 claims description 5
- 238000011068 loading method Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 2
- 238000013441 quality evaluation Methods 0.000 abstract description 2
- 239000000523 sample Substances 0.000 description 41
- 230000000875 corresponding effect Effects 0.000 description 27
- 239000000463 material Substances 0.000 description 9
- OKKJLVBELUTLKV-UHFFFAOYSA-N Methanol Chemical compound OC OKKJLVBELUTLKV-UHFFFAOYSA-N 0.000 description 6
- 239000000047 product Substances 0.000 description 6
- 239000000706 filtrate Substances 0.000 description 5
- 229930182494 ginsenoside Natural products 0.000 description 5
- 229940089161 ginsenoside Drugs 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 239000001397 quillaja saponaria molina bark Substances 0.000 description 4
- 229930182490 saponin Natural products 0.000 description 4
- 150000007949 saponins Chemical class 0.000 description 4
- WEVYAHXRMPXWCK-UHFFFAOYSA-N Acetonitrile Chemical compound CC#N WEVYAHXRMPXWCK-UHFFFAOYSA-N 0.000 description 3
- 241000208340 Araliaceae Species 0.000 description 3
- 239000007788 liquid Substances 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000005303 weighing Methods 0.000 description 3
- 238000005481 NMR spectroscopy Methods 0.000 description 2
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 2
- 239000003153 chemical reaction reagent Substances 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000001035 drying Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000001704 evaporation Methods 0.000 description 2
- 230000008020 evaporation Effects 0.000 description 2
- 235000008434 ginseng Nutrition 0.000 description 2
- 238000004128 high performance liquid chromatography Methods 0.000 description 2
- 230000000704 physical effect Effects 0.000 description 2
- 239000000843 powder Substances 0.000 description 2
- 238000001303 quality assessment method Methods 0.000 description 2
- 239000013558 reference substance Substances 0.000 description 2
- 239000000243 solution Substances 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 241000196324 Embryophyta Species 0.000 description 1
- 238000004566 IR spectroscopy Methods 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- HSFWRNGVRCDJHI-UHFFFAOYSA-N alpha-acetylene Natural products C#C HSFWRNGVRCDJHI-UHFFFAOYSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000009835 boiling Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000001816 cooling Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 235000014113 dietary fatty acids Nutrition 0.000 description 1
- 235000015872 dietary supplement Nutrition 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000000857 drug effect Effects 0.000 description 1
- 238000010828 elution Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000000105 evaporative light scattering detection Methods 0.000 description 1
- 229930195729 fatty acid Natural products 0.000 description 1
- 239000000194 fatty acid Substances 0.000 description 1
- 150000004665 fatty acids Chemical class 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 150000004676 glycans Chemical class 0.000 description 1
- 238000003306 harvesting Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000010438 heat treatment Methods 0.000 description 1
- 241000411851 herbal medicine Species 0.000 description 1
- 238000002329 infrared spectrum Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000002386 leaching Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000004811 liquid chromatography Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000000178 monomer Substances 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000003647 oxidation Effects 0.000 description 1
- 238000007254 oxidation reaction Methods 0.000 description 1
- 230000003285 pharmacodynamic effect Effects 0.000 description 1
- 229920001197 polyacetylene Polymers 0.000 description 1
- 229920001282 polysaccharide Polymers 0.000 description 1
- 239000005017 polysaccharide Substances 0.000 description 1
- 108090000765 processed proteins & peptides Proteins 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 239000013074 reference sample Substances 0.000 description 1
- 238000010992 reflux Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000007789 sealing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
- 239000012085 test solution Substances 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 238000002137 ultrasound extraction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/02—Agriculture; Fishing; Forestry; Mining
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Theoretical Computer Science (AREA)
- Marketing (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Animal Husbandry (AREA)
- Life Sciences & Earth Sciences (AREA)
- Agronomy & Crop Science (AREA)
- Mining & Mineral Resources (AREA)
- General Health & Medical Sciences (AREA)
- Marine Sciences & Fisheries (AREA)
- Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种西洋参生长年限的预测方法,包括收集待检测的西洋参样本,测定其理化性质,将表征样品理化性质的数据输入训练好的预测模型,从而获得所述西洋参的生长年限。本发明还公开了一种西洋参生长年限的预测模型的训练方法,用于执行所述训练方法的训练装置,以及用于执行所述预测方法的预测装置。通过本发明公开的预测方法,利用训练好的预测模型可以准确地预测西洋参的生长年限,从而有助于为西洋参的质量评估、市场分级定价做参考,也能对西洋参种植起到规范和引导作用。
Description
技术领域
本发明属于生物技术领域,具体地,涉及一种西洋参生长年限的预测方法、预测模型的训练方法、训练装置、系统以及非瞬时计算机可读存储介质。
背景技术
五加科西洋参(Panax quinquefolium L.)又叫花旗参,是一种原产于美国、加拿大等北美国家的多年生草本植物,其根可入药,具有抗氧化、抗肿瘤、增强认知、保护神经等功能,常作为膳食补充剂或保健品,是全世界广泛种植使用的草药之一。
影响西洋参药材质量和药效的因素很多,主要包括生长年限、产地、种植过程、采收时间、加工炮制等等,这些影响因素常可从内在成分上得以反应。研究表明,西洋参中含有皂苷、多糖,肽、聚乙炔醇和脂肪酸等物质,而这些化学成分的含量与生长年限呈一定的相关性,它们的含量均随生长年限的增加呈升高的趋势,这些化学成分是人参属药材的主要药效物质基础,因此生长年限是直接影响药材活性成分的含量高低、进而影响到药材最终质量和药效的重要因素之一。传统鉴别西洋参生长年限的方法主要靠外观性状判断,受主观影响较多,容易发生错判误判。因此,开发一套科学的西洋参年限预测鉴别的方法,有助于为西洋参的质量评估、市场分级定价做参考,也能对药材种植起到规范和引导作用。
发明内容
有鉴于此,本发明提供了一种西洋参生长年限的预测方法,基于该方法可以对西洋参的生长年限进行准确地预测。
根据本发明的第一方面,本发明提供了一种西洋参生长年限的预测方法,包括收集待检测的西洋参样本,测定其理化性质,将代表所述理化性质的数据输入训练好的预测模型,从而获得所述西洋参的生长年限。
在一个实施方案中,所述理化性质为主根长度、主根重量、人参皂苷Rd含量、人参皂苷Re含量、人参皂苷Rg1含量、人参皂苷Rb1含量、拟人参皂苷F11含量、醇溶性浸出物含量和水溶性浸出物含量。
在一个实施方案中,所述理化性质为主根重量、主根长度、人参皂苷Rb1含量、醇溶性浸出物含量和水溶性浸出物含量。
根据本发明的第二方面,本发明提供了一种用于对本发明的第一方面所述的预测方法中的预测模型进行训练的训练方法,所述训练方法包括以下步骤:
S201:收集生长年限已知的西洋参样本,测定其理化性质,并基于其理化性质构建总数据集,所述总数据集中的每条数据代表一个样本的理化性质;
S202:采用所述总数据集中的多条数据对西洋参生长年限预测模型进行训练,得到本发明的第一方面所述的训练好的预测模型,从而用于预测待检测的西洋参样本的生长年限。
根据本发明的第三方面,本发明提供了一种用于执行本发明的第二方面所述的训练方法的训练装置,其中,所述训练装置包括:
M301,数据读取模块,用于载入总数据集中的数据,其中所述总数据集是基于生长年限已知的西洋参样本的理化性质构建的;
M302,数据选取模块,从所述总数据集中选取两组数据,分别作为训练数据集和测试数据集,或者从所述总数据集选取一组数据,作为训练数据集,另外载入一组数据,作为测试数据集;
M303,预测模型训练模块,尝试所有可能的模型映射关系,调整参数,对所述训练数据集进行预测,构建损失函数,检测损失函数是否收敛,寻找每个模型映射关系的最佳参数;以及M304,预测模型评估模块,使用所述测试数据集,根据所述测试数据集对应的样本的实际生长年限和通过预测模型预测的生长年限构建评价函数,对所述预测模型的表现进行评估,
并选择最优模型。
根据本发明的第四方面,本发明提供了一种用于执行本发明的第一方面所述的预测方法的预测装置,其中,所述预测装置包括:
M401,数据处理模块,用于读取代表待检测西洋参样本的理化性质的数据,对所述理化性质特征使用特征工程模块进行特征工程变换,筛选得到与训练装置中的特征工程模块相同的特征;
M402,预测模块,将经过所述数据处理模块处理过的数据输入至训练好的预测模型,从而得到所述待检测西洋参的生长年限。
根据本发明的第五方面,本发明提供了一种系统,其中,所述系统包括:至少一个处理器;以及存储器,与所述至少一个处理器通信连接;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明的第一方面所述的预测方法或本发明的第二方面中任一项所述的训练方法。
根据本发明的第六方面,本发明提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行本发明的第一方面所述的预测方法或本发明的第二方面所述的训练方法。
本发明的有益效果在于:1)通过本发明提供的训练方法经过训练得到的预测模型可以极大地提高西洋参生长年限的预测的准确性。2)发明人经过大量的实验研究发现,仅仅通过主根重量、主根长度、人参皂苷Rb1含量、醇溶性浸出物含量、水溶性浸出物含量这几个理化性质进行训练所得到的模型就能实现对西洋参生长年限的准确预测,大大节省了训练的时间和成本。3)本发明还提供了训练装置和预测装置,仅需要输入代表所要预测的样本的理化性质的数据就能进行训练和预测,操作简便,便于推广和应用。4)通过本发明提供的预测方法,利用训练好的预测模型可以准确地预测西洋参的生长年限,从而有助于为西洋参的质量评估、市场分级定价做参考,也能对药材种植起到规范和引导作用。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施方案。
图1是根据本发明的一些实施方案的西洋参生长年限的预测方法的流程图。
图2是根据本发明的一些实施方案的用于对西洋参生长年限的预测模型进行训练的训练方法的流程图。
图3是根据本发明的一些实施方案的西洋参生长年限的预测模型的模型选择和参数优化的流程图。
图4是根据本发明的一些实施方案的西洋参生长年限预测模型的训练装置。
图5是根据本发明的一些实施方案的西洋参生长年限的预测装置。
具体实施方式
下面将结合本发明的实施方案和附图,对本发明进行清楚、完整的描述。显然,所描述的实施方案仅仅是本发明的一部分实施方案,而不是全部的实施方案。基于本发明中的实施方案,本领域普通技术人员可以获得的所有其他实施方案,都属于本发明保护的范围。
西洋参的生长年限是影响西洋参药材的最终质量和药效的一个很重要的因素,对西洋参的生长年限进行准确地预测具有至关重要的作用。
因此,根据本发明的第一方面,提供了一种西洋参生长年限的预测方法,其中,结合图1,所述预测方法包括以下步骤:
S101:收集待检测的西洋参样本,测定其理化性质。在本发明中,如无特别说明,西洋参样本为西洋参的干燥主根,其中,“干燥”是指在50-70℃下干燥10-14个小时。在一个实施方案中,理化性质即待检测的西洋参样本的物理性质和化学性质。物理性质可以是待检测的西洋参样本的主根长度、主根重量、主根直径、气味、红外光谱在特定波长下的强度、核磁共振在特定位移下的强度。优选地,物理性质为主根长度、主根重量。化学性质可以是单一化学成分的含量,如人参皂苷Rd含量、人参皂苷Re含量、人参皂苷Rg1含量、人参皂苷Rb1含量、醇溶性浸出物含量、水溶性浸出物含量,西洋参特有的成分拟人参皂苷F11等成分的含量。可以通过本领域技术人员已知的测量、称量、液相色谱法、核磁共振法、红外光谱法等方法对样本进行测定,从而得到代表上述待检测的西洋参样本的理化性质的数据。当然,也可以基于上述几种物理性质和化学性质的运算组合来预测生长年限,例如主根重量与主根长度比、多种皂苷含量总和、皂苷含量与主根重量的积、重量的平方,优选为主根重量与主根长度比、醇溶性浸出物含量与主根重量的积、人参皂苷Rd含量与主根重量的积。
S102:将代表所述理化性质的数据输入训练好的预测模型,获得所述西洋参的生长年限。
在一个实施方案中,将西洋参样本的长度、重量、直径、水溶性浸出物含量输入到训练好的预测模型,从而获得西洋参样本的生长年限。在本发明中,“训练好的预测模型”是指通过本发明提供的训练方法利用大量的生长年限已知的西洋参样本的理化性质对生长年限预测模型进行训练而得到的预测模型。
在一个实施方案中,所述预测方法还包括对步骤S101中的理化性质进行特征工程变换,在这种情况下,上述预测方法包括对特征进行特征工程变换,得到与“训练装置”相同的特征,然后输入到“训练好的预测模型”中进行预测。
因此,根据本发明的第二方面,提供了一种用于对本发明的第一方面所述的预测方法中的预测模型进行训练的训练方法,结合图2,所述训练方法包括以下步骤:
S201:收集生长年限已知的西洋参样本,测定其理化性质,并基于其理化性质构建总数据集,所述总数据集中的每一条数据代表一个样本的理化性质;在一个实施方案中,总数据集是用于训练的所有样本的理化性质的集合。总数据集中包括多条数据,一个样本对应于一条数据,每一条数据代表一个样本的理化性质。在一个实施方案中,本发明中的总数据集所包含的样本量可达数百个,相应的数据也可达数百条。总数据集所包含的样本越多,来源越广泛,数据量越大,代表性越高,因此基于此进行训练所得到的生长年限预测模型的准确性也越高。在一个实施方案中,步骤S201还包括对所述西洋参样本的理化性质特征进行特征工程变换,其中,特征工程变换包括例如对原始特征进行多项式变换、基于树模型选择重要的特征、删除方差接近于0的特征、删除与另一组特征高度相关的特征,从而生成或筛选得到潜在的更有用的特征,因此,“变换”的目的也就是基于现有特征,产生或筛选得到更多潜在的、与结果相关性更强的特征。
S202:采用所述总数据集中的多条数据对西洋参生长年限预测模型进行训练,得到本发明的第一方面所述的训练好的预测模型,从而用于预测待检测的西洋参样本的生长年限。在一个实施方案中,将总数据集作为训练数据集,用于对西洋参生长年限预测模型进行训练。在另一个实施方案中,将总数据集的一部分作为训练数据集,将另外一部分作为测试数据集,用于对经过初步训练的模型进行测试,从而进一步提升预测模型的训练效果。在另一个实施方案中,测试数据集可以是在收集西洋参样本时,另外独立采集的生长年限已知的西洋参样本。
具体地,结合图2,上述步骤S202包括以下步骤:
a.从所述总数据集选取包括多条数据的一组数据,作为训练数据集;
b.将所述训练数据集输入至所述西洋参生长年限预测模型,获取所述预测模型的预测结果并输出所述训练数据集对应的样本的预测的生长年限;
c.根据所述训练数据集对应的样本的实际生长年限和所述预测的生长年限,构建损失函数;
d.检测损失函数是否收敛;
e.若未收敛,调整所述西洋参生长年限预测模型的参数,使得所述损失函数趋于收敛;
f.若收敛,检测模型训练是否完成,即损失函数是否始终收敛,或者训练轮数是否到达预设阈值;
g.若没有训练完成,重新执行步骤b;以及
h.若训练完成,使用测试数据集评价模型准确度,并继续从算法空间中选择其他算法训练模型。
在一个实施方案中,所述算法空间可以包括:多元线性回归算法、最近邻算法、支持向量机算法、贝叶斯算法、决策树算法、随机森林算法、梯度提升算法、人工神经网络等机器学习算法。
在一个实施方案中,西洋参生长年限预测模型的选择包括指定算法空间(如SVM、DT、RF等),遍历算法空间中的算法,使用算法建立模型:使用训练集,优化模型参数;使用最佳参数,在测试数据集上做出预测;使用预测结果和真实结果,计算均方误差(MSE);选择MSE最低的模型及参数,作为最终模型。
在一个实施方案中,所述损失函数的构建包括:将训练数据集中各条训练数据对应的预测生长年限与对应的生长年限已知的均方误差之和、决定系数或绝对值误差之和,作为损失函数。
更具体地,结合图3,上述步骤h包括以下步骤:
h1.使用训练数据集和指定算法训练模型,并获取训练完成的预测模型;
h2.从所述总数据集中选取一组数据,作为测试数据集,或者另外收集生长年限已知的西洋参样本,构建测试数据集;
h3.将所述测试数据集输入到已训练完成的预测模型中,获取所述预测模型的预测结果并输出所述测试数据集对应的样本的预测的生长年限;
h4.根据所述测试数据集对应的样本的实际生长年限,以及预测的生长年限,构建评价函数,根据评价函数计算已训练完成模型的准确度;
h5.检测算法空间中是否有未经建模的算法;
h6.若算法空间中有未经建模的算法,选择该算法作为指定算法,按照S202中a-h步骤训练模型;
h7.若算法空间中的所有算法都已经使用并训练出模型,则比较所有模型的准确度,选取准确度最优的算法及参数,作为最终的生长年限预测模型及参数。
在一个实施方案中,对预测模型进行训练的上述方法包括以下步骤:
1)收集多个生长年限已知的西洋参样本,所述样本可以为西洋参的全株或主根,测定西洋参样本的理化性质特征,构建总数据集。
例如,西洋参生长年限总数据集D可以表示为:
D={(x1,y1,z1),(x2,y2,z2),...,(xn,yn,zn)}
其中,(xu,yu,zu)对应总数据集中的一条数据;zn为来源信息,表示西洋参的样本来源;xn为收集的西洋参的样本的理化性质特征信息,用于代表每一个植物样本,理化性质特征数据由实验测定得到;yn表示样本的生长年限,为已知信息。
2)从总数据集中,选取两组样本,分别作为训练数据集和测试数据集。
例如,可以从总数据集中,随机选取训练数据集和测试数据集。训练数据集和测试数据集的样本数量可以为一条或多条,本发明在此不作限定。
3)对理化性质特征进行特征工程变换。
例如,对训练数据集D的理化性质特征x进行特征工程变换,得到新的特征x’可以表示为:
其中,x表示西洋参的原始理化性质特征;γ为特征工程变换参数;表示特征工程变换函数。
使用新特征x’代替原有特征x:
x=x′
该实施方案中的特征工程变换函数可以包括,但不限于以下方式:删除方差接近于0的特征、删除与另一组特征高度相关的特征、基于树模型选择重要的特征、对特征进行多项式扩展以及不做变换等。
4)使用指定算法f作为对生长年限预测模型进行训练时采用的算法,并用该算法建模。将选取的训练数据集输入至指定模型中,获取指定模型的预测结果,并输出训练数据集中各训练样本对应的预测生长年限,其中指定算法f可以表示为:
其中x为算法的输入变量;y为算法的输出变量;F表示一种从输入变量x到输出变量y的模型映射关系;表示所有可能的映射关系的集合,是由一种映射关系F及其参数θ决定的函数族;f表示对生长年限预测模型进行训练时采用的指定算法,属于中的一种元素。
生长年限预测模型可以表示为:
y(xtrain)=f(xtrain;θ)
其中xtrain表示训练数据集中的样本的信息;θ表示生长年限预测模型的参数;f表示生长年限预测采用的指定算法;f(xtrain;θ)表示由算法f训练得到的生长年限预测模型;y(xtrain)表示生长年限预测模型预测的西洋参生长年限。
对于训练数据集中的各个训练样本,均可以按照上述方式,预测并输出该训练样本的预测生长年限。
5)根据训练数据集中各训练样本对应的预测生长年限、以及训练样本对应的实际生长年限,构建损失函数。
例如,在训练数据集中仅包括一条训练数据时,直接取该训练数据对应的预测生长年限和生长年限已知的均方误差。其中训练数据对应的预测生长年限,即表示将训练数据输入至生长年限预测模型中,由生长年限预测模型预测出的生长年限。
例如,在训练数据集中包括多条训练数据时,可以取训练数据集中各训练数据对应的预测生长年限和对应的生长年限已知的均方误差之和,作为损失函数。训练目的是要使得损失函数趋于收敛,达到最小值,例如,可以采用如下公式表示损失函数:
其中ytrain表示训练数据集中与xtrain样本对应的实际生长年限。
6)检验损失函数是否收敛,若未收敛,执行步骤S205;若收敛,执行步骤8)。
7)调整生长年限预测模型的参数θ,使得损失函数趋于收敛;返回步骤4),继续训练。
8)检测在连续预设轮数的训练中,损失函数是否始终收敛、或者训练轮数是否到达预设阈值;若是,确定指定模型的最佳参数,执行步骤9);否则返回步骤4),继续训练。
9)将选取的测试数据集输入至设置了最佳参数的指定模型中,获取模型的预测结果,并输出测试数据集中各训练样本对应的预测生长年限。
本实施方案中测试数据集的生长年限预测值可以表示为:
y(xtest)=f(xtest;θbest)
其中xtest表示测试数据集中的样本的特征;θbest表示生长年限预测模型的最佳参数;f(xtest;θbest)表示由算法f和参数θbest训练得到的生长年限预测模型;y(xtest)表示生长年限预测模型预测的西洋参生长年限。
对于测试数据集中的各个训练样本,均可以按照上述方式,预测并输出该训练样本的预测生长年限。
10)根据测试数据集中各个训练样本对应的预测生长年限、以及测试样本对应的实际生长年限,构建评价函数。
例如,在测试数据集中仅包括一条训练数据时,直接取该训练数据对应的预测生长年限和生长年限已知的均方误差。在测试数据集中包括多条训练样本时,可以取测试数据集中各训练数据对应的预测生长年限与对应的生长年限已知的均方误差之和,作为评价函数。例如,评价函数可以采用如下公式表示:
其中V(θbest,f)表示根据测试数据集数据的实际生长年限和预测生长年限计算出来的均方误差之和。
11)检测是否还有未经建模的算法f,若存在,执行步骤12);若不存在,执行步骤13)。
12)使用未经建模的算法f作为指定算法,执行步骤4)。
13)根据不同模型得到的评价函数结果,选取评价函数结果最小的模型及参数,即最佳模型f及最佳参数θbest,作为最终的生长年限预测模型。最佳模型f及最佳参数θbest可表示为:
其中fk表示所有可能的指定算法,即映射关系;θbest-k表示指定模型对应的最佳参数;表示所有模型及模型对应的最佳参数得到的评价函数结果的集合;表示在测试数据集上评价函数结果最小的模型f及其最佳参数θbest,即最终得到的用于西洋参生长年限预测的模型及参数。
在本发明中,需要一种训练装置来执行本发明的第二方面所述的训练方法。因此,根据本发明的第三方面,提供了一种用于西洋参生长年限预测模型的训练装置,其中,结合图4,所述训练装置包括:
M301,数据读取模块,用于载入总数据集中的数据,其中所述总数据集是基于生长年限已知的西洋参样本的理化性质构建的;
M302,数据选取模块,从所述总数据集选取两组数据,分别作为训练数据集和测试数据集,或者从所述总数据集选取一组数据,作为训练数据集,另外载入一组数据,作为测试数据集;
M303,预测模型训练模块,尝试所有可能的模型映射关系,调整参数,对所述训练数据集进行预测,构建损失函数,检测损失函数是否收敛,寻找每个模型映射关系的最佳参数;以及
M304,预测模型评估模块,使用所述测试数据集,根据所述测试数据集对应的样本的实际生长年限和通过模型预测的生长年限构建评价函数,对预测模型的表现进行评估,并选择最优模型。
在一个实施方案中,训练装置还包括特征工程模块,对理化性质特征进行变换,筛选有效特征。
在本发明中,训练装置可以是电子实体,也可以是采用软件集成的应用。在使用时,该训练装置可以基于预先构建的训练数据集,对生长年限预测模型进行训练。
根据本发明的第四方面,提供了一种用于执行本发明的第一方面所述的西洋参生长年限的预测方法的预测装置,结合图5,所述预测装置包括:
M401,数据处理模块,用于读取代表待检测西洋参样本的理化性质的数据,对该样本的理化性质特征进行特征工程变换,筛选得到与所述训练装置中特征工程模块相同的特征;
M402,预测模块,将经过所述数据处理模块处理过的数据输入至训练好的预测模型,从而得到所述待检测西洋参的生长年限。
在数据处理模块中,对该样本的理化性质特征进行特征工程变换的目的是获取潜在的、对模型预测贡献更大的特征。预测过程中的特征工程变换就是为了保证训练和预测时所用的特征一致。
根据本发明的第五方面,提供了一种系统,其中,所述系统包括:至少一个处理器;以及存储器,与所述至少一个处理器通信连接;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明的第一方面所述的预测方法或本发明的第二方面所述的训练方法。
如本领域技术人员所理解的,系统可以表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、服务器、刀片式服务器、大型计算机、和其它适合的计算机。系统还可以表示各种形式的移动装置,诸如,个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
本发明所述的系统包括计算单元,其可以根据存储在只读存储器(ROM)中的计算机程序或者从存储单元加载到随机访问存储器(RAM)中的计算机程序而执行各种适当的动作和处理。在RAM中,还可存储有系统操作所需的各种程序和数据。计算单元、ROM以及RAM通过总线彼此相连。输入/输出(I/O)接口也连接至总线。
系统中的多个部件连接至I/O接口,包括:输入单元,例如触摸屏、触摸板、键盘、鼠标、图像传感器、麦克风、加速度计、陀螺仪等;存储单元,例如磁盘、光盘等;以及通信单元,例如网卡、调制解调器、无线通信收发机等。通信单元可以允许系统与其他设备进行无线或有线通信以交换数据。本发明中,以上所述的系统仅用于示例的目的,可以替代地实施或具有更多或更少的单元。
在一个实施方案中,计算机程序的部分或者全部可以经由ROM和/或通信单元而被载入和/或安装到系统上。当计算机程序加载到RAM并由计算单元执行时,可以执行本发明的第一方面所述的西洋参生长年限的预测方法,或者执行本发明的第二方面所述的西洋参生长年限预测模型的训练方法中的一个或多个步骤。
可选地,在其他实施方案中,计算单元可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行本发明的第一方面所述的西洋参生长年限的预测方法,或者执行本发明的第二方面所述的西洋参生长年限预测模型的训练方法中的一个或多个步骤。
根据本发明的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行本发明的第一方面所述的预测方法或本发明的第二方面所述的训练方法。
如本领域技术人员所理解的,计算机可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。更具体地,计算机可读存储介质可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
在一个实施方案中,计算机可读存储介质存储有计算机指令,所述指令可以使所述计算机执行本发明的第一方面所述的西洋参生长年限的预测方法,或者执行本发明的第二方面所述的西洋参生长年限预测模型的训练方法中的一个或多个步骤。
本发明的有益效果在于:1)通过本发明提供的训练方法经过训练得到的预测模型可以极大地提高西洋参生长年限的预测的准确性。2)发明人经过大量的实验研究发现,仅仅通过主根重量、主根长度、人参皂苷Rb1含量、醇溶性浸出物含量、水溶性浸出物含量这几个理化性质进行训练所得到的模型就能实现对西洋参生长年限的准确预测,大大节省了训练的时间和成本。3)本发明还提供了训练装置和预测装置,仅需要输入代表所要预测的样本的理化性质的数据就能进行训练和预测,操作简便,便于推广和应用。4)通过本发明提供的预测方法,利用训练好的预测模型可以准确地预测西洋参的生长年限,从而有助于为西洋参的质量评估、市场分级定价做参考,也能对药材种植起到规范和引导作用。
下面结合实施例对本发明进行更为具体和详细的描述,实施例仅是本发明的优选实施方式,并不用于限制本发明。若无特殊说明,本发明的所有原料和试剂均为常规市场的原料、试剂。
实施例1:预测模型的训练与预测结果的判定
实施例1.1:预测模型的训练
训练数据的采集:发明人收集了生长年限已知的101个西洋参主根,进行干燥,并选择主根长度、主根重量、人参皂苷Rd含量、人参皂苷Re含量、人参皂苷Rg1含量、人参皂苷Rb1含量、拟人参皂苷F11含量、醇溶性浸出物含量、水溶性浸出物含量共9项理化性质数据来进行训练,各理化性质数据测试方法如下。
主根长度通过标尺测得。
主根重量通过使用电子天平称得。
测定水溶性浸出物含量:测定用的供试品需粉碎,使能通过二号筛,并混合均匀。
冷浸法取供试品约4g,精密称定(W0),置的锥形瓶中,精密加水100ml(V1),密塞,冷浸,前6小时内时时振摇,再静置18小时,用干燥滤器迅速滤过,精密量取续滤液20ml(V2),置已干燥至恒重的蒸发皿中(W1),在水浴上蒸干后,于105℃干燥3小时,置干燥器中冷却30分钟,迅速精密称定重量(W2)。除另有规定外,以干燥品计算供试品中水溶性浸出物的含量(%)。
醇溶性浸出物含量:取供试品约(W0),精密称定,置 的锥形瓶中,精密加70%乙醇(V1),密塞,称定重量,静置1小时后,连接回流冷凝管,加热至沸腾,并保持微沸1小时。放冷后,取下锥形瓶,密塞,再称定重量,用70%乙醇补足减失的重量,摇匀,用干燥滤器滤过,精密量取滤液25ml(V2),置已干燥至恒重的蒸发皿中(W1),在水浴上蒸干后,于l05℃干燥3小时,置干燥器中冷却30分钟,迅速精密称定重量(W2)。除另有规定外,以干燥品计算供试品中水溶性浸出物的含量(%)。
通过以下公式[V1*(w1-w2)/(w0*V2)]计算浸出物含量。
测定西洋参中的人参皂苷单体含量:采用液相-蒸发光散射-紫外检测器联用(HPLC-ELSD-UV)的方法测定,分别精密吸取人参皂苷Rg1、Re、Rb1、Rd、拟人参皂苷F11对照品,再分别稀释成一系列不同浓度的供试液。色谱条件:GraceC8色谱柱,4.6mm×250mm,5μm,流动相以乙腈为流动相A,水为流动相B,梯度洗脱程序:0~10min,20%A;10~11min,25%A;11~33min,33%A;33~38min,46%A;38~40min,80%A;40~45min,100%A;46min,20%A;流速为1.0mL·min-1,检测波长203nm,柱温为30℃。使用上述HPLC方法,精密吸取对照品供试液10μL注入液相色谱仪,分别进行分析,使用紫外检测器记录不同浓度的人参皂苷Rg1、Re、Rb1、Rd的峰面积,使用蒸发光散射检测器记录不同浓度的拟人参皂苷F11的峰面积。根据峰面积和对照品浓度制作标准曲线。精密称取主根样品粉末0.5g,加入25.0ml的80%甲醇溶液,摇匀后静置1h,超声提取30min,放置至室温,并用甲醇补足减失的重量,混匀后过滤,取续滤液10μL使用上述HPLC方法进行分析,并通过上述标准曲线计算主根中各皂苷含量。
所得到理化性质数据如下表1所示,基于表1中的理化性质构建总数据集。
表1西洋参的干燥主根的理化性质
预测模型的训练:
训练过程:遍历算法空间中的算法,使用所选择的指定算法训练模型。采用上述生长年限已知的101条西洋参样本的理化性质数据作为训练集,随机从训练集样本中选择80条作为训练数据集,将其余21条作为测试数据集。将80条训练数据集随机分为5份,依次选取其中的1份作为验证集,其余4份作为训练集,使用5折交叉验证训练模型。训练完成后,将21条测试数据集输入至训练完成的模型中,获取模型预测结果,根据预测结果和实际样本的生长年限,构建均方误差之和评价函数。继续选择其余未经建模的算法,重复上述步骤,获取所有模型对应的评价函数结果,选择评价函数结果最优的模型作为最终的生长年限预测模型。
实施例1.2利用训练好的预测模型预测西洋参生长年限
为了验证经过实施例1.1训练好的预测模型预测西洋参生长年限的准确性,增加本发明提供的训练方法的可靠性,发明人对上述训练好的预测模型进行了进一步的验证。
基于上述目的,发明人采集了20个生长年限已知的西洋参主根,干燥后,测定其理化性质,包括主根长度、主根重量、人参皂苷Rd含量、人参皂苷Re含量、人参皂苷Rg1含量、人参皂苷Rb1含量、拟人参皂苷F11含量、醇溶性浸出物含量、水溶性浸出物含量,然后将相应的数据输入至上述训练好的模型中,得到预测的西洋参生长年限,并与相应西洋参的实际生长年限进行比较,以验证上述训练好的预测模型的准确性,结果如下表2所示。
表2西洋参生长年限的预测结果
由表2可看出,选择主根长度、主根重量、人参皂苷Rd含量、人参皂苷Re含量、人参皂苷Rg1含量、人参皂苷Rb1含量、拟人参皂苷F11含量、醇溶性浸出物含量、水溶性浸出物含量这几个理化性质经过本发明的训练方法训练好的预测模型所得到的西洋参的预测生长年限与实际生长年限比较一致,模型在这些数据集上的均方误差MSE值为0.0226,决定系数R2为0.9443,说明该预测模型的准确性较高,可以应用于人参生长年限的预测中。
基于类似的方法,发明人经过大量的实验发现,选择主根重量、主根的长度、人参皂苷Rb1含量、醇溶性浸出物含量、水溶性浸出物含量这五个理化性质进行训练得到的预测模型所预测的西洋参的生长年限具有相同水平的准确性,在相同测试集上的MSE值为0.0227,决定系数R2为0.9442。具体结果如下表3所示。
表3使用5种特征对西洋参生长年限的预测结果
以上仅为本发明的较佳实施方案而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种西洋参生长年限的预测方法,其中,所述预测方法包括:
S101:收集待检测的西洋参样本,测定其理化性质,所述西洋参样本为西洋参的干燥主根,其中所述理化性质为主根长度、主根重量、人参皂苷Rd含量、人参皂苷Re含量、人参皂苷Rg1含量、人参皂苷Rb1含量、拟人参皂苷F11含量、醇溶性浸出物含量和水溶性浸出物含量,或主根重量、主根的长度、人参皂苷Rb1含量、醇溶性浸出物含量和水溶性浸出物含量;
S102:将代表所述理化性质的数据输入训练好的预测模型,获得所述西洋参的生长年限,其中所述预测模型是通过指定算法空间,遍历算法空间中的算法,使用算法构建的。
2.一种用于对权利要求1所述的预测方法中的预测模型进行训练的训练方法,其中,所述训练方法包括以下步骤:
S201:收集生长年限已知的西洋参样本,测定其理化性质,并基于其理化性质构建总数据集,所述总数据集中的每条数据代表一个样本的理化性质,其中所述理化性质为主根长度、主根重量、人参皂苷Rd含量、人参皂苷Re含量、人参皂苷Rg1含量、人参皂苷Rb1含量、拟人参皂苷F11含量、醇溶性浸出物含量和水溶性浸出物含量,或主根重量、主根的长度、人参皂苷Rb1含量、醇溶性浸出物含量和水溶性浸出物含量;以及
S202:采用所述总数据集中的多条数据对西洋参生长年限预测模型进行训练,得到权利要求1所述的训练好的预测模型,从而用于预测待检测的西洋参样本的生长年限,其中所述预测模型是通过指定算法空间,遍历算法空间中的算法,使用算法构建的。
3.根据权利要求2所述的训练方法,其中,步骤S202包括以下步骤:
a.从所述总数据集选取包括多条数据的一组数据,作为训练数据集;
b.将所述训练数据集输入至所述西洋参生长年限预测模型,获取所述预测模型的预测结果并输出所述训练数据集对应的样本的预测的生长年限;
c.根据所述训练数据集对应的样本的实际生长年限和所述预测的生长年限,构建损失函数;
d.检测损失函数是否收敛;
e.若未收敛,调整所述西洋参生长年限预测模型的参数,使得所述损失函数趋于收敛;
f.若收敛,检测模型训练是否完成,即损失函数是否始终收敛,或者训练轮数是否到达预设阈值;
g.若没有训练完成,重新执行步骤b;以及
h.若训练完成,使用测试数据集评价模型准确度,并继续从算法空间中选择其他算法训练模型。
4.根据权利要求3所述的训练方法,其中,所述步骤h包括以下步骤:
h1.使用训练数据集和指定算法训练模型,并获取训练完成的预测模型;
h2.从所述总数据集中选取一组数据,作为测试数据集,或者另外收集生长年限已知的西洋参样本,构建测试数据集;
h3.将所述测试数据集输入到已训练完成的预测模型中,获取所述预测模型的预测结果并输出所述测试数据集对应的样本的预测的生长年限;
h4.根据所述测试数据集对应的样本的实际生长年限,以及预测的生长年限,构建评价函数,根据评价函数计算已训练完成模型的准确度;
h5.检测算法空间中是否有未经建模的算法;
h6.若算法空间中有未经建模的算法,选择该算法作为指定算法,按照S202中a-h步骤训练模型;以及
h7.若算法空间中的所有算法都已经使用并训练出模型,则比较所有模型的准确度,选取准确度最优的算法及参数,作为最终的生长年限预测模型及参数。
5.根据权利要求3或4所述的训练方法,其中,所述损失函数的构建包括:
将训练数据集中各条训练数据对应的预测生长年限与对应的生长年限已知的均方误差之和、决定系数或绝对值误差之和,作为损失函数。
6.一种用于执行权利要求2-5中任一项所述的训练方法的训练装置,其中,所述训练装置包括:
M301,数据读取模块,用于载入总数据集中的数据,其中所述总数据集是基于生长年限已知的西洋参样本的理化性质构建的,其中所述理化性质为主根长度、主根重量、人参皂苷Rd含量、人参皂苷Re含量、人参皂苷Rg1含量、人参皂苷Rb1含量、拟人参皂苷F11含量、醇溶性浸出物含量和水溶性浸出物含量,或主根重量、主根的长度、人参皂苷Rb1含量、醇溶性浸出物含量和水溶性浸出物含量;
M302,数据选取模块,从所述总数据集中选取两组数据,分别作为训练数据集和测试数据集,或者从所述总数据集选取一组数据,作为训练数据集,另外载入一组数据,作为测试数据集;
M303,预测模型训练模块,尝试所有可能的模型映射关系,调整参数,对所述训练数据集进行预测,构建损失函数,检测损失函数是否收敛,寻找每个模型映射关系的最佳参数;以及
M304,预测模型评估模块,使用所述测试数据集,根据所述测试数据集对应的样本的实际生长年限和通过预测模型预测的生长年限构建评价函数,对所述预测模型的表现进行评估,并选择最优模型,其中所述预测模型是通过指定算法空间,遍历算法空间中的算法,使用算法构建的。
7.根据权利要求6所述的训练装置,其中,所述训练装置还包括:特征工程模块,对理化性质特征进行特征工程变换。
8.一种用于执行权利要求1所述的预测方法的预测装置,其中,所述预测装置包括:
M401,数据处理模块,用于读取代表待检测西洋参样本的理化性质的数据,对所述理化性质特征使用特征工程模块进行特征工程变换,筛选得到与训练装置中的特征工程模块相同的特征,其中所述理化性质为主根长度、主根重量、人参皂苷Rd含量、人参皂苷Re含量、人参皂苷Rg1含量、人参皂苷Rb1含量、拟人参皂苷F11含量、醇溶性浸出物含量和水溶性浸出物含量,或主根重量、主根的长度、人参皂苷Rb1含量、醇溶性浸出物含量和水溶性浸出物含量;
M402,预测模块,将经过所述数据处理模块处理过的数据输入至训练好的预测模型,从而得到所述待检测西洋参的生长年限,其中所述预测模型是通过指定算法空间,遍历算法空间中的算法,使用算法构建的。
9.一种系统,其中,所述系统包括:
至少一个处理器;以及
存储器,与所述至少一个处理器通信连接;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1所述的预测方法或权利要求2-5中任一项所述的训练方法。
10.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行权利要求1所述的预测方法或权利要求2-5中任一项所述的训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110663233.XA CN113496309B (zh) | 2021-06-15 | 2021-06-15 | 西洋参生长年限预测方法、模型的训练方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110663233.XA CN113496309B (zh) | 2021-06-15 | 2021-06-15 | 西洋参生长年限预测方法、模型的训练方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113496309A CN113496309A (zh) | 2021-10-12 |
CN113496309B true CN113496309B (zh) | 2024-04-19 |
Family
ID=77997621
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110663233.XA Active CN113496309B (zh) | 2021-06-15 | 2021-06-15 | 西洋参生长年限预测方法、模型的训练方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113496309B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113916825A (zh) * | 2021-11-23 | 2022-01-11 | 山东省科学院自动化研究所 | 基于太赫兹光谱技术的西洋参产地检测方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013040712A1 (en) * | 2011-09-20 | 2013-03-28 | Afexa Life Sciences Inc. | Composition comprising ku ding cha and ginseng for managing blood glucose levels |
CN103389323A (zh) * | 2013-07-15 | 2013-11-13 | 浙江大学 | 一种快速无损评定名贵药材年限的方法 |
CN110070202A (zh) * | 2019-02-19 | 2019-07-30 | 浙江华云信息科技有限公司 | 一种通过用电量数据预测经济产出的方法 |
CN110232432A (zh) * | 2018-03-05 | 2019-09-13 | 重庆邮电大学 | 一种基于人工生命模型的锂电池组soc预测方法 |
CN110413227A (zh) * | 2019-06-22 | 2019-11-05 | 华中科技大学 | 一种硬盘设备的剩余使用寿命在线预测方法和系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
SG190224A1 (en) * | 2010-11-11 | 2013-06-28 | Akron Molecules Gmbh | Compounds and methods for treating pain |
-
2021
- 2021-06-15 CN CN202110663233.XA patent/CN113496309B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013040712A1 (en) * | 2011-09-20 | 2013-03-28 | Afexa Life Sciences Inc. | Composition comprising ku ding cha and ginseng for managing blood glucose levels |
CN103389323A (zh) * | 2013-07-15 | 2013-11-13 | 浙江大学 | 一种快速无损评定名贵药材年限的方法 |
CN110232432A (zh) * | 2018-03-05 | 2019-09-13 | 重庆邮电大学 | 一种基于人工生命模型的锂电池组soc预测方法 |
CN110070202A (zh) * | 2019-02-19 | 2019-07-30 | 浙江华云信息科技有限公司 | 一种通过用电量数据预测经济产出的方法 |
CN110413227A (zh) * | 2019-06-22 | 2019-11-05 | 华中科技大学 | 一种硬盘设备的剩余使用寿命在线预测方法和系统 |
Non-Patent Citations (3)
Title |
---|
"Discrimination and prediction of cultivation age and parts of Panax ginseng by Fouriertransform infrared spectroscopy combined with multivariate statistical analysis";Byeong-Ju Lee et al;《POLS ONE》;第12卷(第10期);第3-4页Materials and methods以及第6-7页Development of a PLSR model for predicting the cultivation ages of ginseng * |
刘军.《基于scikit-learn的机器学习-算法与实践》.东南大学出版社,2017,第203-204页. * |
刘忠雨等.《深入浅出图神经网络GNN原理解析》.机械工业出版社,2020,第20页. * |
Also Published As
Publication number | Publication date |
---|---|
CN113496309A (zh) | 2021-10-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xie et al. | A deep-learning-based real-time detector for grape leaf diseases using improved convolutional neural networks | |
Fetter et al. | StomataCounter: a neural network for automatic stomata identification and counting | |
Zhu et al. | A rapid and highly efficient method for the identification of soybean seed varieties: hyperspectral images combined with transfer learning | |
Cammarano et al. | Assessing the robustness of vegetation indices to estimate wheat N in Mediterranean environments | |
WO2021012898A1 (zh) | 基于人工智能的农业保险查勘方法及相关设备 | |
Zhang et al. | Relationship between hyperspectral measurements and mangrove leaf nitrogen concentrations | |
CN110890137A (zh) | 一种化合物毒性预测模型建模方法、装置及其应用 | |
CN113030001B (zh) | 一种水果糖度检测方法及系统 | |
CN102288572A (zh) | 利用近红外光谱技术快速检测中药药材指标性成分含量的方法 | |
CN107174258A (zh) | 血糖浓度预测方法 | |
Feng et al. | Accurate digitization of the chlorophyll distribution of individual rice leaves using hyperspectral imaging and an integrated image analysis pipeline | |
Chen et al. | Estimation of LAI in winter wheat from multi-angular hyperspectral VNIR data: Effects of view angles and plant architecture | |
CN113496309B (zh) | 西洋参生长年限预测方法、模型的训练方法及装置 | |
Dhungel et al. | Estimating calibration variability in evapotranspiration derived from a satellite-based energy balance model | |
CN105138834A (zh) | 基于近红外光谱波数k均值聚类的烟草化学值定量方法 | |
Yang et al. | Maize canopy and leaf chlorophyll content assessment from leaf spectral reflectance: estimation and uncertainty analysis across growth stages and vertical distribution | |
Chen et al. | Application of multispectral camera in monitoring the quality parameters of fresh tea leaves | |
Sun et al. | Nondestructive detection of saponin content in Panax notoginseng powder based on hyperspectral imaging | |
Wang et al. | SVM classification method of waxy corn seeds with different vitality levels based on hyperspectral imaging | |
Wójcik et al. | Deep learning assisted distinguishing of honey seasonal changes using quadruple voltammetric electrodes | |
CN109145403B (zh) | 一种基于样本共识的近红外光谱建模方法 | |
Yang et al. | Evaluation of hyperspectral monitoring model for aboveground dry biomass of winter wheat by using multiple factors | |
EP2717048B1 (en) | Method for evaluating similarity of aggregated data, similarity evaluation program, and similarity evaluation device | |
CN113740294B (zh) | 基于近红外建模的汽油/柴油检测分析方法及装置 | |
CN114444543A (zh) | 一种光谱数据处理方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |