CN113496309A - 西洋参生长年限预测方法、模型的训练方法及装置 - Google Patents

西洋参生长年限预测方法、模型的训练方法及装置 Download PDF

Info

Publication number
CN113496309A
CN113496309A CN202110663233.XA CN202110663233A CN113496309A CN 113496309 A CN113496309 A CN 113496309A CN 202110663233 A CN202110663233 A CN 202110663233A CN 113496309 A CN113496309 A CN 113496309A
Authority
CN
China
Prior art keywords
training
data set
american ginseng
growth
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110663233.XA
Other languages
English (en)
Other versions
CN113496309B (zh
Inventor
胡笑文
严华
魏锋
马双成
程显隆
杨建波
荆文光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institutes for Food and Drug Control
Original Assignee
National Institutes for Food and Drug Control
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institutes for Food and Drug Control filed Critical National Institutes for Food and Drug Control
Priority to CN202110663233.XA priority Critical patent/CN113496309B/zh
Publication of CN113496309A publication Critical patent/CN113496309A/zh
Application granted granted Critical
Publication of CN113496309B publication Critical patent/CN113496309B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/02Agriculture; Fishing; Mining

Abstract

本发明公开了一种西洋参生长年限的预测方法,包括收集待检测的西洋参样本,测定其理化性质,将表征样品理化性质的数据输入训练好的预测模型,从而获得所述西洋参的生长年限。本发明还公开了一种西洋参生长年限的预测模型的训练方法,用于执行所述训练方法的训练装置,以及用于执行所述预测方法的预测装置。通过本发明公开的预测方法,利用训练好的预测模型可以准确地预测西洋参的生长年限,从而有助于为西洋参的质量评估、市场分级定价做参考,也能对西洋参种植起到规范和引导作用。

Description

西洋参生长年限预测方法、模型的训练方法及装置
技术领域
本发明属于生物技术领域,具体地,涉及一种西洋参生长年限的预测方法、预测模型的训练方法、训练装置、系统以及非瞬时计算机可读存储介质。
背景技术
五加科西洋参(Panax quinquefolium L.)又叫花旗参,是一种原产于美国、加拿大等北美国家的多年生草本植物,其根可入药,具有抗氧化、抗肿瘤、增强认知、保护神经等功能,常作为膳食补充剂或保健品,是全世界广泛种植使用的草药之一。
影响西洋参药材质量和药效的因素很多,主要包括生长年限、产地、种植过程、采收时间、加工炮制等等,这些影响因素常可从内在成分上得以反应。研究表明,西洋参中含有皂苷、多糖,肽、聚乙炔醇和脂肪酸等物质,而这些化学成分的含量与生长年限呈一定的相关性,它们的含量均随生长年限的增加呈升高的趋势,这些化学成分是人参属药材的主要药效物质基础,因此生长年限是直接影响药材活性成分的含量高低、进而影响到药材最终质量和药效的重要因素之一。传统鉴别西洋参生长年限的方法主要靠外观性状判断,受主观影响较多,容易发生错判误判。因此,开发一套科学的西洋参年限预测鉴别的方法,有助于为西洋参的质量评估、市场分级定价做参考,也能对药材种植起到规范和引导作用。
发明内容
有鉴于此,本发明提供了一种西洋参生长年限的预测方法,基于该方法可以对西洋参的生长年限进行准确地预测。
根据本发明的第一方面,本发明提供了一种西洋参生长年限的预测方法,包括收集待检测的西洋参样本,测定其理化性质,将代表所述理化性质的数据输入训练好的预测模型,从而获得所述西洋参的生长年限。
在一个实施方案中,所述理化性质为主根长度、主根重量、人参皂苷Rd含量、人参皂苷Re含量、人参皂苷Rg1含量、人参皂苷Rb1含量、拟人参皂苷F11含量、醇溶性浸出物含量和水溶性浸出物含量。
在一个实施方案中,所述理化性质为主根重量、主根长度、人参皂苷Rbl含量、醇溶性浸出物含量和水溶性浸出物含量。
根据本发明的第二方面,本发明提供了一种用于对本发明的第一方面所述的预测方法中的预测模型进行训练的训练方法,所述训练方法包括以下步骤:
S201:收集生长年限已知的西洋参样本,测定其理化性质,并基于其理化性质构建总数据集,所述总数据集中的每条数据代表一个样本的理化性质;
S202:采用所述总数据集中的多条数据对西洋参生长年限预测模型进行训练,得到权利要求1所述的训练好的预测模型,从而用于预测待检测的西洋参样本的生长年限。
根据本发明的第三方面,本发明提供了一种用于执行本发明的第二方面所述的训练方法的训练装置,其中,所述训练装置包括:
M301,数据读取模块,用于载入总数据集中的数据,其中所述总数据集是基于生长年限已知的西洋参样本的理化性质构建的;
M302,数据选取模块,从所述总数据集中选取两组数据,分别作为训练数据集和测试数据集,或者从所述总数据集选取一组数据,作为训练数据集,另外载入一组数据,作为测试数据集;
M303,预测模型训练模块,尝试所有可能的模型映射关系,调整参数,对所述训练数据集进行预测,构建损失函数,检测损失函数是否收敛,寻找每个模型映射关系的最佳参数;以及
M304,预测模型评估模块,使用所述测试数据集,根据所述测试数据集对应的样本的实际生长年限和通过预测模型预测的生长年限构建评价函数,对所述预测模型的表现进行评估,
并选择最优模型。
根据本发明的第四方面,本发明提供了一种用于执行本发明的第一方面所述的预测方法的预测装置,其中,所述预测装置包括:
M401,数据处理模块,用于读取代表待检测西洋参样本的理化性质的数据,对所述理化性质特征使用特征工程模块进行特征工程变换,筛选得到与训练装置中的特征工程模块相同的特征;
M402,预测模块,将经过所述数据处理模块处理过的数据输入至训练好的预测模型,从而得到所述待检测西洋参的生长年限。
根据本发明的第五方面,本发明提供了一种系统,其中,所述系统包括:至少一个处理器;以及存储器,与所述至少一个处理器通信连接;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明的第一方面所述的预测方法或本发明的第二方面中任一项所述的训练方法。
根据本发明的第六方面,本发明提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行本发明的第一方面所述的预测方法或本发明的第二方面所述的训练方法。
本发明的有益效果在于:1)通过本发明提供的训练方法经过训练得到的预测模型可以极大地提高西洋参生长年限的预测的准确性。2)发明人经过大量的实验研究发现,仅仅通过主根重量、主根长度、人参皂苷Rb1含量、醇溶性浸出物含量、水溶性浸出物含量这几个理化性质进行训练所得到的模型就能实现对西洋参生长年限的准确预测,大大节省了训练的时间和成本。3)本发明还提供了训练装置和预测装置,仅需要输入代表所要预测的样本的理化性质的数据就能进行训练和预测,操作简便,便于推广和应用。4)通过本发明提供的预测方法,利用训练好的预测模型可以准确地预测西洋参的生长年限,从而有助于为西洋参的质量评估、市场分级定价做参考,也能对药材种植起到规范和引导作用。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施方案。
图1是根据本发明的一些实施方案的西洋参生长年限的预测方法的流程图。
图2是根据本发明的一些实施方案的用于对西洋参生长年限的预测模型进行训练的训练方法的流程图。
图3是根据本发明的一些实施方案的西洋参生长年限的预测模型的模型选择和参数优化的流程图。
图4是根据本发明的一些实施方案的西洋参生长年限预测模型的训练装置。
图5是根据本发明的一些实施方案的西洋参生长年限的预测装置。
具体实施方式
下面将结合本发明的实施方案和附图,对本发明进行清楚、完整的描述。显然,所描述的实施方案仅仅是本发明的一部分实施方案,而不是全部的实施方案。基于本发明中的实施方案,本领域普通技术人员可以获得的所有其他实施方案,都属于本发明保护的范围。
西洋参的生长年限是影响西洋参药材的最终质量和药效的一个很重要的因素,对西洋参的生长年限进行准确地预测具有至关重要的作用。
因此,根据本发明的第一方面,提供了一种西洋参生长年限的预测方法,其中,结合图1,所述预测方法包括以下步骤:
S101:收集待检测的西洋参样本,测定其理化性质。在本发明中,如无特别说明,西洋参样本为西洋参的干燥主根,其中,“干燥”是指在50-70℃下干燥10-14个小时。在一个实施方案中,理化性质即待检测的西洋参样本的物理性质和化学性质。物理性质可以是待检测的西洋参样本的主根长度、主根重量、主根直径、气味、红外光谱在特定波长下的强度、核磁共振在特定位移下的强度。优选地,物理性质为主根长度、主根重量。化学性质可以是单一化学成分的含量,如人参皂苷Rd含量、人参皂苷Re含量、人参皂苷Rg1含量、人参皂苷Rb1含量、醇溶性浸出物含量、水溶性浸出物含量,西洋参特有的成分拟人参皂苷F11等成分的含量。可以通过本领域技术人员已知的测量、称量、液相色谱法、核磁共振法、红外光谱法等方法对样本进行测定,从而得到代表上述待检测的西洋参样本的理化性质的数据。当然,也可以基于上述几种物理性质和化学性质的运算组合来预测生长年限,例如主根重量与主根长度比、多种皂苷含量总和、皂苷含量与主根重量的积、重量的平方,优选为主根重量与主根长度比、醇溶性浸出物含量与主根重量的积、人参皂苷Rd含量与主根重量的积。
S102:将代表所述理化性质的数据输入训练好的预测模型,获得所述西洋参的生长年限。
在一个实施方案中,将西洋参样本的长度、重量、直径、水溶性浸出物含量输入到训练好的预测模型,从而获得西洋参样本的生长年限。在本发明中,“训练好的预测模型”是指通过本发明提供的训练方法利用大量的生长年限已知的西洋参样本的理化性质对生长年限预测模型进行训练而得到的预测模型。
在一个实施方案中,所述预测方法还包括对步骤S101中的理化性质进行特征工程变换,在这种情况下,上述预测方法包括对特征进行特征工程变换,得到与“训练装置”相同的特征,然后输入到“训练好的预测模型”中进行预测。
因此,根据本发明的第二方面,提供了一种用于对本发明的第一方面所述的预测方法中的预测模型进行训练的训练方法,结合图2,所述训练方法包括以下步骤:
S201:收集生长年限已知的西洋参样本,测定其理化性质,并基于其理化性质构建总数据集,所述总数据集中的每一条数据代表一个样本的理化性质;在一个实施方案中,总数据集是用于训练的所有样本的理化性质的集合。总数据集中包括多条数据,一个样本对应于一条数据,每一条数据代表一个样本的理化性质。在一个实施方案中,本发明中的总数据集所包含的样本量可达数百个,相应的数据也可达数百条。总数据集所包含的样本越多,来源越广泛,数据量越大,代表性越高,因此基于此进行训练所得到的生长年限预测模型的准确性也越高。在一个实施方案中,步骤S201还包括对所述西洋参样本的理化性质特征进行特征工程变换,其中,特征工程变换包括例如对原始特征进行多项式变换、基于树模型选择重要的特征、删除方差接近于0的特征、删除与另一组特征高度相关的特征,从而生成或筛选得到潜在的更有用的特征,因此,“变换”的目的也就是基于现有特征,产生或筛选得到更多潜在的、与结果相关性更强的特征。
S202:采用所述总数据集中的多条数据对西洋参生长年限预测模型进行训练,得到本发明的第一方面所述的训练好的预测模型,从而用于预测待检测的西洋参样本的生长年限。在一个实施方案中,将总数据集作为训练数据集,用于对西洋参生长年限预测模型进行训练。在另一个实施方案中,将总数据集的一部分作为训练数据集,将另外一部分作为测试数据集,用于对经过初步训练的模型进行测试,从而进一步提升预测模型的训练效果。在另一个实施方案中,测试数据集可以是在收集西洋参样本时,另外独立采集的生长年限已知的西洋参样本。
具体地,结合图2,上述步骤S202包括以下步骤:
a.从所述总数据集选取包括多条数据的一组数据,作为训练数据集;
b.将所述训练数据集输入至所述西洋参生长年限预测模型,获取所述预测模型的预测结果并输出所述训练数据集对应的样本的预测的生长年限;
c.根据所述训练数据集对应的样本的实际生长年限和所述预测的生长年限,构建损失函数;
d.检测损失函数是否收敛;
e.若未收敛,调整所述西洋参生长年限预测模型的参数,使得所述损失函数趋于收敛;
f.若收敛,检测模型训练是否完成,即损失函数是否始终收敛,或者训练轮数是否到达预设阈值;
g.若没有训练完成,重新执行步骤b;以及
h.若训练完成,使用测试数据集评价模型准确度,并继续从算法空间中选择其他算法训练模型。
在一个实施方案中,所述算法空间可以包括:多元线性回归算法、最近邻算法、支持向量机算法、贝叶斯算法、决策树算法、随机森林算法、梯度提升算法、人工神经网络等机器学习算法。
在一个实施方案中,西洋参生长年限预测模型的选择包括指定算法空间(如SVM、DT、RF等),遍历算法空间中的算法,使用算法建立模型:使用训练集,优化模型参数;使用最佳参数,在测试数据集上做出预测;使用预测结果和真实结果,计算均方误差(MSE);选择MSE最低的模型及参数,作为最终模型。
在一个实施方案中,所述损失函数的构建包括:将训练数据集中各条训练数据对应的预测生长年限与对应的生长年限已知的均方误差之和、决定系数或绝对值误差之和,作为损失函数。
更具体地,结合图3,上述步骤h包括以下步骤:
h1.使用训练数据集和指定算法训练模型,并获取训练完成的预测模型;
h2.从所述总数据集中选取一组数据,作为测试数据集,或者另外收集生长年限已知的西洋参样本,构建测试数据集;
h3.将所述测试数据集输入到已训练完成的预测模型中,获取所述预测模型的预测结果并输出所述测试数据集对应的样本的预测的生长年限;
h4.根据所述测试数据集对应的样本的实际生长年限,以及预测的生长年限,构建评价函数,根据评价函数计算已训练完成模型的准确度;
h5.检测算法空间中是否有未经建模的算法;
h6.若算法空间中有未经建模的算法,选择该算法作为指定算法,按照S202中a-h步骤训练模型;
h7.若算法空间中的所有算法都已经使用并训练出模型,则比较所有模型的准确度,选取准确度最优的算法及参数,作为最终的生长年限预测模型及参数。
在一个实施方案中,对预测模型进行训练的上述方法包括以下步骤:
1)收集多个生长年限已知的西洋参样本,所述样本可以为西洋参的全株或主根,测定西洋参样本的理化性质特征,构建总数据集。
例如,西洋参生长年限总数据集D可以表示为:
D={(x1,y1,z1),(x2,y2,z2),...,(xn,yn,zn)}
其中,(xn,yn,zn)对应总数据集中的一条数据;zn为来源信息,表示西洋参的样本来源;xn为收集的西洋参的样本的理化性质特征信息,用于代表每一个植物样本,理化性质特征数据由实验测定得到;yn表示样本的生长年限,为已知信息。
2)从总数据集中,选取两组样本,分别作为训练数据集和测试数据集。
例如,可以从总数据集中,随机选取训练数据集和测试数据集。训练数据集和测试数据集的样本数量可以为一条或多条,本发明在此不作限定。
3)对理化性质特征进行特征工程变换。
例如,对训练数据集D的理化性质特征x进行特征工程变换,得到新的特征x’可以表示为:
Figure BDA0003115985360000091
其中,x表示西洋参的原始理化性质特征;γ为特征工程变换参数;
Figure BDA0003115985360000092
表示特征工程变换函数。
使用新特征x’代替原有特征x:
x=x′
该实施方案中的特征工程变换函数可以包括,但不限于以下方式:删除方差接近于0的特征、删除与另一组特征高度相关的特征、基于树模型选择重要的特征、对特征进行多项式扩展以及不做变换等。
4)使用指定算法f作为对生长年限预测模型进行训练时采用的算法,并用该算法建模。将选取的训练数据集输入至指定模型中,获取指定模型的预测结果,并输出训练数据集中各训练样本对应的预测生长年限,其中指定算法f可以表示为:
Figure BDA0003115985360000093
其中x为算法的输入变量;y为算法的输出变量;F表示一种从输入变量x到输出变量y的模型映射关系;
Figure BDA0003115985360000095
表示所有可能的映射关系的集合,是由一种映射关系F及其参数θ决定的函数族;f表示对生长年限预测模型进行训练时采用的指定算法,属于
Figure BDA0003115985360000102
中的一种元素。
生长年限预测模型可以表示为:
y(xtrain)=f(xtrain;θ)
其中xtrain表示训练数据集中的样本的信息;θ表示生长年限预测模型的参数;f表示生长年限预测采用的指定算法;f(xtrain;θ)表示由算法f训练得到的生长年限预测模型;y(xtrain)表示生长年限预测模型预测的西洋参生长年限。
对于训练数据集中的各个训练样本,均可以按照上述方式,预测并输出该训练样本的预测生长年限。
5)根据训练数据集中各训练样本对应的预测生长年限、以及训练样本对应的实际生长年限,构建损失函数。
例如,在训练数据集中仅包括一条训练数据时,直接取该训练数据对应的预测生长年限和生长年限已知的均方误差。其中训练数据对应的预测生长年限,即表示将训练数据输入至生长年限预测模型中,由生长年限预测模型预测出的生长年限。
例如,在训练数据集中包括多条训练数据时,可以取训练数据集中各训练数据对应的预测生长年限和对应的生长年限已知的均方误差之和,作为损失函数。训练目的是要使得损失函数趋于收敛,达到最小值,例如,可以采用如下公式表示损失函数:
Figure BDA0003115985360000101
其中ytrain表示训练数据集中与xtrain样本对应的实际生长年限。
6)检验损失函数是否收敛,若未收敛,执行步骤S205;若收敛,执行步骤8)。
7)调整生长年限预测模型的参数θ,使得损失函数趋于收敛;返回步骤4),继续训练。
8)检测在连续预设轮数的训练中,损失函数是否始终收敛、或者训练轮数是否到达预设阈值;若是,确定指定模型的最佳参数,执行步骤9);否则返回步骤4),继续训练。
9)将选取的测试数据集输入至设置了最佳参数的指定模型中,获取模型的预测结果,并输出测试数据集中各训练样本对应的预测生长年限。
本实施方案中测试数据集的生长年限预测值可以表示为:
y(xtest)=f(xtest;θbest)
其中xtest表示测试数据集中的样本的特征;θbest表示生长年限预测模型的最佳参数;f(xtest;θbest)表示由算法f和参数θbest训练得到的生长年限预测模型;y(xtest)表示生长年限预测模型预测的西洋参生长年限。
对于测试数据集中的各个训练样本,均可以按照上述方式,预测并输出该训练样本的预测生长年限。
10)根据测试数据集中各个训练样本对应的预测生长年限、以及测试样本对应的实际生长年限,构建评价函数。
例如,在测试数据集中仅包括一条训练数据时,直接取该训练数据对应的预测生长年限和生长年限已知的均方误差。在测试数据集中包括多条训练样本时,可以取测试数据集中各训练数据对应的预测生长年限与对应的生长年限已知的均方误差之和,作为评价函数。例如,评价函数可以采用如下公式表示:
Figure BDA0003115985360000111
其中V(θbest,f)表示根据测试数据集数据的实际生长年限和预测生长年限计算出来的均方误差之和。
11)检测是否还有未经建模的算法f,若存在,执行步骤12);若不存在,执行步骤13)。
12)使用未经建模的算法f作为指定算法,执行步骤4)。
13)根据不同模型得到的评价函数结果,选取评价函数结果最小的模型及参数,即最佳模型f及最佳参数θbest,作为最终的生长年限预测模型。最佳模型f及最佳参数θbest可表示为:
Figure BDA0003115985360000121
其中fk表示所有可能的指定算法,即映射关系;θbest-k表示指定模型对应的最佳参数;
Figure BDA0003115985360000122
表示所有模型及模型对应的最佳参数得到的评价函数结果的集合;
Figure BDA0003115985360000123
表示在测试数据集上评价函数结果最小的模型f及其最佳参数θbest,即最终得到的用于西洋参生长年限预测的模型及参数。
在本发明中,需要一种训练装置来执行本发明的第二方面所述的训练方法。因此,根据本发明的第三方面,提供了一种用于西洋参生长年限预测模型的训练装置,其中,结合图4,所述训练装置包括:
M301,数据读取模块,用于载入总数据集中的数据,其中所述总数据集是基于生长年限已知的西洋参样本的理化性质构建的;
M302,数据选取模块,从所述总数据集选取两组数据,分别作为训练数据集和测试数据集,或者从所述总数据集选取一组数据,作为训练数据集,另外载入一组数据,作为测试数据集;
M303,预测模型训练模块,尝试所有可能的模型映射关系,调整参数,对所述训练数据集进行预测,构建损失函数,检测损失函数是否收敛,寻找每个模型映射关系的最佳参数;以及
M304,预测模型评估模块,使用所述测试数据集,根据所述测试数据集对应的样本的实际生长年限和通过模型预测的生长年限构建评价函数,对预测模型的表现进行评估,并选择最优模型。
在一个实施方案中,训练装置还包括特征工程模块,对理化性质特征进行变换,筛选有效特征。
在本发明中,训练装置可以是电子实体,也可以是采用软件集成的应用。在使用时,该训练装置可以基于预先构建的训练数据集,对生长年限预测模型进行训练。
根据本发明的第四方面,提供了一种用于执行本发明的第一方面所述的西洋参生长年限的预测方法的预测装置,结合图5,所述预测装置包括:
M401,数据处理模块,用于读取代表待检测西洋参样本的理化性质的数据,对该样本的理化性质特征进行特征工程变换,筛选得到与所述训练装置中特征工程模块相同的特征;
M402,预测模块,将经过所述数据处理模块处理过的数据输入至训练好的预测模型,从而得到所述待检测西洋参的生长年限。
在数据处理模块中,对该样本的理化性质特征进行特征工程变换的目的是获取潜在的、对模型预测贡献更大的特征。预测过程中的特征工程变换就是为了保证训练和预测时所用的特征一致。
根据本发明的第五方面,提供了一种系统,其中,所述系统包括:至少一个处理器;以及存储器,与所述至少一个处理器通信连接;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明的第一方面所述的预测方法或本发明的第二方面所述的训练方法。
如本领域技术人员所理解的,系统可以表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、服务器、刀片式服务器、大型计算机、和其它适合的计算机。系统还可以表示各种形式的移动装置,诸如,个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
本发明所述的系统包括计算单元,其可以根据存储在只读存储器(ROM)中的计算机程序或者从存储单元加载到随机访问存储器(RAM)中的计算机程序而执行各种适当的动作和处理。在RAM中,还可存储有系统操作所需的各种程序和数据。计算单元、ROM以及RAM通过总线彼此相连。输入/输出(I/O)接口也连接至总线。
系统中的多个部件连接至I/O接口,包括:输入单元,例如触摸屏、触摸板、键盘、鼠标、图像传感器、麦克风、加速度计、陀螺仪等;存储单元,例如磁盘、光盘等;以及通信单元,例如网卡、调制解调器、无线通信收发机等。通信单元可以允许系统与其他设备进行无线或有线通信以交换数据。本发明中,以上所述的系统仅用于示例的目的,可以替代地实施或具有更多或更少的单元。
在一个实施方案中,计算机程序的部分或者全部可以经由ROM和/或通信单元而被载入和/或安装到系统上。当计算机程序加载到RAM并由计算单元执行时,可以执行本发明的第一方面所述的西洋参生长年限的预测方法,或者执行本发明的第二方面所述的西洋参生长年限预测模型的训练方法中的一个或多个步骤。
可选地,在其他实施方案中,计算单元可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行本发明的第一方面所述的西洋参生长年限的预测方法,或者执行本发明的第二方面所述的西洋参生长年限预测模型的训练方法中的一个或多个步骤。
根据本发明的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行本发明的第一方面所述的预测方法或本发明的第二方面所述的训练方法。
如本领域技术人员所理解的,计算机可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。更具体地,计算机可读存储介质可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
在一个实施方案中,计算机可读存储介质存储有计算机指令,所述指令可以使所述计算机执行本发明的第一方面所述的西洋参生长年限的预测方法,或者执行本发明的第二方面所述的西洋参生长年限预测模型的训练方法中的一个或多个步骤。
本发明的有益效果在于:1)通过本发明提供的训练方法经过训练得到的预测模型可以极大地提高西洋参生长年限的预测的准确性。2)发明人经过大量的实验研究发现,仅仅通过主根重量、主根长度、人参皂苷Rb1含量、醇溶性浸出物含量、水溶性浸出物含量这几个理化性质进行训练所得到的模型就能实现对西洋参生长年限的准确预测,大大节省了训练的时间和成本。3)本发明还提供了训练装置和预测装置,仅需要输入代表所要预测的样本的理化性质的数据就能进行训练和预测,操作简便,便于推广和应用。4)通过本发明提供的预测方法,利用训练好的预测模型可以准确地预测西洋参的生长年限,从而有助于为西洋参的质量评估、市场分级定价做参考,也能对药材种植起到规范和引导作用。
下面结合实施例对本发明进行更为具体和详细的描述,实施例仅是本发明的优选实施方式,并不用于限制本发明。若无特殊说明,本发明的所有原料和试剂均为常规市场的原料、试剂。
实施例1:预测模型的训练与预测结果的判定
实施例1.1:预测模型的训练
训练数据的采集:发明人收集了生长年限已知的101个西洋参主根,进行干燥,并选择主根长度、主根重量、人参皂苷Rd含量、人参皂苷Re含量、人参皂苷Rg1含量、人参皂苷Rb1含量、拟人参皂苷F11含量、醇溶性浸出物含量、水溶性浸出物含量共9项理化性质数据来进行训练,各理化性质数据测试方法如下。
主根长度通过标尺测得。
主根重量通过使用电子天平称得。
测定水溶性浸出物含量:测定用的供试品需粉碎,使能通过二号筛,并混合均匀。
冷浸法取供试品约4g,精密称定(W0),置
Figure BDA0003115985360000161
的锥形瓶中,精密加水100ml(V1),密塞,冷浸,前6小时内时时振摇,再静置18小时,用干燥滤器迅速滤过,精密量取续滤液20ml(V2),置已干燥至恒重的蒸发皿中(W1),在水浴上蒸干后,于105℃干燥3小时,置干燥器中冷却30分钟,迅速精密称定重量(W2)。除另有规定外,以干燥品计算供试品中水溶性浸出物的含量(%)。
醇溶性浸出物含量:取供试品约2~4g(W0),精密称定,置100~250ml的锥形瓶中,精密加70%乙醇50~100ml(V1),密塞,称定重量,静置1小时后,连接回流冷凝管,加热至沸腾,并保持微沸1小时。放冷后,取下锥形瓶,密塞,再称定重量,用70%乙醇补足减失的重量,摇匀,用干燥滤器滤过,精密量取滤液25ml(V2),置已干燥至恒重的蒸发皿中(W1),在水浴上蒸干后,于105℃干燥3小时,置干燥器中冷却30分钟,迅速精密称定重量(W2)。除另有规定外,以干燥品计算供试品中水溶性浸出物的含量(%)。
通过以下公式[V1*(w1-w2)/(w0*V2)]计算浸出物含量。
测定西洋参中的人参皂苷单体含量:采用液相-蒸发光散射-紫外检测器联用(HPLC-ELSD-UV)的方法测定,分别精密吸取人参皂苷Rg1、Re、Rb1、Rd、拟人参皂苷F11对照品,再分别稀释成一系列不同浓度的供试液。色谱条件:GraceC8色谱柱,4.6mm×250mm,5μm,流动相以乙腈为流动相A,水为流动相B,梯度洗脱程序:0~10min,20%A;10~11min,25%A;11~33min,33%A;33~38min,46%A;38~40min,80%A;40~45min,100%A;46min,20%A;流速为1.0mL.min-1,检测波长203nm,柱温为30℃。使用上述HPLC方法,精密吸取对照品供试液10μL注入液相色谱仪,分别进行分析,使用紫外检测器记录不同浓度的人参皂苷Rg1、Re、Rb1、Rd的峰面积,使用蒸发光散射检测器记录不同浓度的拟人参皂苷F11的峰面积。根据峰面积和对照品浓度制作标准曲线。精密称取主根样品粉末0.5g,加入25.0ml的80%甲醇溶液,摇匀后静置1h,超声提取30min,放置至室温,并用甲醇补足减失的重量,混匀后过滤,取续滤液10μL使用上述HPLC方法进行分析,并通过上述标准曲线计算主根中各皂苷含量。
所得到理化性质数据如下表1所示,基于表1中的理化性质构建总数据集。
表1西洋参的干燥主根的理化性质
Figure BDA0003115985360000171
Figure BDA0003115985360000181
Figure BDA0003115985360000191
预测模型的训练:
训练过程:遍历算法空间中的算法,使用所选择的指定算法训练模型。采用上述生长年限已知的101条西洋参样本的理化性质数据作为训练集,随机从训练集样本中选择80条作为训练数据集,将其余21条作为测试数据集。将80条训练数据集随机分为5份,依次选取其中的1份作为验证集,其余4份作为训练集,使用5折交叉验证训练模型。训练完成后,将21条测试数据集输入至训练完成的模型中,获取模型预测结果,根据预测结果和实际样本的生长年限,构建均方误差之和评价函数。继续选择其余未经建模的算法,重复上述步骤,获取所有模型对应的评价函数结果,选择评价函数结果最优的模型作为最终的生长年限预测模型。
实施例1.2利用训练好的预测模型预测西洋参生长年限
为了验证经过实施例1.1训练好的预测模型预测西洋参生长年限的准确性,增加本发明提供的训练方法的可靠性,发明人对上述训练好的预测模型进行了进一步的验证。
基于上述目的,发明人采集了20个生长年限已知的西洋参主根,干燥后,测定其理化性质,包括主根长度、主根重量、人参皂苷Rd含量、人参皂苷Re含量、人参皂苷Rg1含量、人参皂苷Rb1含量、拟人参皂苷F11含量、醇溶性浸出物含量、水溶性浸出物含量,然后将相应的数据输入至上述训练好的模型中,得到预测的西洋参生长年限,并与相应西洋参的实际生长年限进行比较,以验证上述训练好的预测模型的准确性,结果如下表2所示。
表2西洋参生长年限的预测结果
Figure BDA0003115985360000201
由表2可看出,选择主根长度、主根重量、人参皂苷Rd含量、人参皂苷Re含量、人参皂苷Rg1含量、人参皂苷Rb1含量、拟人参皂苷F11含量、醇溶性浸出物含量、水溶性浸出物含量这几个理化性质经过本发明的训练方法训练好的预测模型所得到的西洋参的预测生长年限与实际生长年限比较一致,模型在这些数据集上的均方误差MSE值为0.0226,决定系数R2为0.9443,说明该预测模型的准确性较高,可以应用于人参生长年限的预测中。
基于类似的方法,发明人经过大量的实验发现,选择主根重量、主根的长度、人参皂苷Rb1含量、醇溶性浸出物含量、水溶性浸出物含量这五个理化性质进行训练得到的预测模型所预测的西洋参的生长年限具有相同水平的准确性,在相同测试集上的MSE值为0.0227,决定系数R2为0.9442。具体结果如下表3所示。
表3使用5种特征对西洋参生长年限的预测结果
Figure BDA0003115985360000211
以上仅为本发明的较佳实施方案而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种西洋参生长年限的预测方法,其中,所述预测方法包括:
S101:收集待检测的西洋参样本,测定其理化性质,所述西洋参样本为西洋参的干燥主根;
S102:将代表所述理化性质的数据输入训练好的预测模型,获得所述西洋参的生长年限。
2.一种用于对权利要求1所述的预测方法中的预测模型进行训练的训练方法,其中,所述训练方法包括以下步骤:
S201:收集生长年限已知的西洋参样本,测定其理化性质,并基于其理化性质构建总数据集,所述总数据集中的每条数据代表一个样本的理化性质;以及
S202:采用所述总数据集中的多条数据对西洋参生长年限预测模型进行训练,得到权利要求1所述的训练好的预测模型,从而用于预测待检测的西洋参样本的生长年限。
3.根据权利要求2所述的训练方法,其中,步骤S202包括以下步骤:
a.从所述总数据集选取包括多条数据的一组数据,作为训练数据集;
b.将所述训练数据集输入至所述西洋参生长年限预测模型,获取所述预测模型的预测结果并输出所述训练数据集对应的样本的预测的生长年限;
c.根据所述训练数据集对应的样本的实际生长年限和所述预测的生长年限,构建损失函数;
d.检测损失函数是否收敛;
e.若未收敛,调整所述西洋参生长年限预测模型的参数,使得所述损失函数趋于收敛;
f.若收敛,检测模型训练是否完成,即损失函数是否始终收敛,或者训练轮数是否到达预设阈值;
g.若没有训练完成,重新执行步骤b;以及
h.若训练完成,使用测试数据集评价模型准确度,并继续从算法空间中选择其他算法训练模型。
4.根据权利要求3所述的训练方法,其中,所述步骤h包括以下步骤:
h1.使用训练数据集和指定算法训练模型,并获取训练完成的预测模型;
h2.从所述总数据集中选取一组数据,作为测试数据集,或者另外收集生长年限已知的西洋参样本,构建测试数据集;
h3.将所述测试数据集输入到已训练完成的预测模型中,获取所述预测模型的预测结果并输出所述测试数据集对应的样本的预测的生长年限;
h4.根据所述测试数据集对应的样本的实际生长年限,以及预测的生长年限,构建评价函数,根据评价函数计算已训练完成模型的准确度;
h5.检测算法空间中是否有未经建模的算法;
h6.若算法空间中有未经建模的算法,选择该算法作为指定算法,按照S202中a-h步骤训练模型;以及
h7.若算法空间中的所有算法都已经使用并训练出模型,则比较所有模型的准确度,选取准确度最优的算法及参数,作为最终的生长年限预测模型及参数。
5.根据权利要求3或4所述的训练方法,其中,所述损失函数的构建包括:
将训练数据集中各条训练数据对应的预测生长年限与对应的生长年限已知的均方误差之和、决定系数或绝对值误差之和,作为损失函数。
6.一种用于执行权利要求2-5中任一项所述的训练方法的训练装置,其中,所述训练装置包括:
M301,数据读取模块,用于载入总数据集中的数据,其中所述总数据集是基于生长年限已知的西洋参样本的理化性质构建的;
M302,数据选取模块,从所述总数据集中选取两组数据,分别作为训练数据集和测试数据集,或者从所述总数据集选取一组数据,作为训练数据集,另外载入一组数据,作为测试数据集;
M303,预测模型训练模块,尝试所有可能的模型映射关系,调整参数,对所述训练数据集进行预测,构建损失函数,检测损失函数是否收敛,寻找每个模型映射关系的最佳参数;以及
M304,预测模型评估模块,使用所述测试数据集,根据所述测试数据集对应的样本的实际生长年限和通过预测模型预测的生长年限构建评价函数,对所述预测模型的表现进行评估,并选择最优模型。
7.根据权利要求6所述的训练装置,其中,所述训练装置还包括:特征工程模块,对理化性质特征进行特征工程变换。
8.一种用于执行权利要求1所述的预测方法的预测装置,其中,所述预测装置包括:
M401,数据处理模块,用于读取代表待检测西洋参样本的理化性质的数据,对所述理化性质特征使用特征工程模块进行特征工程变换,筛选得到与训练装置中的特征工程模块相同的特征;
M402,预测模块,将经过所述数据处理模块处理过的数据输入至训练好的预测模型,从而得到所述待检测西洋参的生长年限。
9.一种系统,其中,所述系统包括:
至少一个处理器;以及
存储器,与所述至少一个处理器通信连接;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1所述的预测方法或权利要求2-5中任一项所述的训练方法。
10.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行权利要求1所述的预测方法或权利要求2-5中任一项所述的训练方法。
CN202110663233.XA 2021-06-15 2021-06-15 西洋参生长年限预测方法、模型的训练方法及装置 Active CN113496309B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110663233.XA CN113496309B (zh) 2021-06-15 2021-06-15 西洋参生长年限预测方法、模型的训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110663233.XA CN113496309B (zh) 2021-06-15 2021-06-15 西洋参生长年限预测方法、模型的训练方法及装置

Publications (2)

Publication Number Publication Date
CN113496309A true CN113496309A (zh) 2021-10-12
CN113496309B CN113496309B (zh) 2024-04-19

Family

ID=77997621

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110663233.XA Active CN113496309B (zh) 2021-06-15 2021-06-15 西洋参生长年限预测方法、模型的训练方法及装置

Country Status (1)

Country Link
CN (1) CN113496309B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113916825A (zh) * 2021-11-23 2022-01-11 山东省科学院自动化研究所 基于太赫兹光谱技术的西洋参产地检测方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013040712A1 (en) * 2011-09-20 2013-03-28 Afexa Life Sciences Inc. Composition comprising ku ding cha and ginseng for managing blood glucose levels
US20130252924A1 (en) * 2010-11-11 2013-09-26 Akron Molecules Gmbh Compounds and Methods for Treating Pain
CN103389323A (zh) * 2013-07-15 2013-11-13 浙江大学 一种快速无损评定名贵药材年限的方法
CN110070202A (zh) * 2019-02-19 2019-07-30 浙江华云信息科技有限公司 一种通过用电量数据预测经济产出的方法
CN110232432A (zh) * 2018-03-05 2019-09-13 重庆邮电大学 一种基于人工生命模型的锂电池组soc预测方法
CN110413227A (zh) * 2019-06-22 2019-11-05 华中科技大学 一种硬盘设备的剩余使用寿命在线预测方法和系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130252924A1 (en) * 2010-11-11 2013-09-26 Akron Molecules Gmbh Compounds and Methods for Treating Pain
WO2013040712A1 (en) * 2011-09-20 2013-03-28 Afexa Life Sciences Inc. Composition comprising ku ding cha and ginseng for managing blood glucose levels
CN103389323A (zh) * 2013-07-15 2013-11-13 浙江大学 一种快速无损评定名贵药材年限的方法
CN110232432A (zh) * 2018-03-05 2019-09-13 重庆邮电大学 一种基于人工生命模型的锂电池组soc预测方法
CN110070202A (zh) * 2019-02-19 2019-07-30 浙江华云信息科技有限公司 一种通过用电量数据预测经济产出的方法
CN110413227A (zh) * 2019-06-22 2019-11-05 华中科技大学 一种硬盘设备的剩余使用寿命在线预测方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
BYEONG-JU LEE ET AL: ""Discrimination and prediction of cultivation age and parts of Panax ginseng by Fouriertransform infrared spectroscopy combined with multivariate statistical analysis"", 《POLS ONE》, vol. 12, no. 10, pages 203 - 204 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113916825A (zh) * 2021-11-23 2022-01-11 山东省科学院自动化研究所 基于太赫兹光谱技术的西洋参产地检测方法

Also Published As

Publication number Publication date
CN113496309B (zh) 2024-04-19

Similar Documents

Publication Publication Date Title
Türker-Kaya et al. A review of mid-infrared and near-infrared imaging: principles, concepts and applications in plant tissue analysis
Li et al. Novel method for the producing area identification of Zhongning Goji berries by electronic nose
Donarski et al. Application of cryoprobe 1H nuclear magnetic resonance spectroscopy and multivariate analysis for the verification of Corsican honey
CN102288572A (zh) 利用近红外光谱技术快速检测中药药材指标性成分含量的方法
Chen et al. Estimation of LAI in winter wheat from multi-angular hyperspectral VNIR data: Effects of view angles and plant architecture
CN113030001B (zh) 一种水果糖度检测方法及系统
Xu et al. Discrimination of trichosanthis fructus from different geographical origins using near infrared spectroscopy coupled with chemometric techniques
JP7207702B2 (ja) 成分抽出方法、蛍光指紋測定装置、及びコンピュータが実行可能なプログラム
Khorramifar et al. Application of MOS gas sensors coupled with chemometrics methods to predict the amount of sugar and carbohydrates in potatoes
Augustijn et al. HR-MAS NMR applications in plant metabolomics
Fan et al. Nitrogen balance index prediction of winter wheat by canopy hyperspectral transformation and machine learning
He et al. Simultaneous determination of five micro-components in Chrysanthemum morifolium (Hangbaiju) using near-infrared hyperspectral imaging coupled with deep learning with wavelength selection
CN113496309A (zh) 西洋参生长年限预测方法、模型的训练方法及装置
Zhou et al. Discrimination of the geographical origin of soybeans using NMR-based metabolomics
Chen et al. Application of multispectral camera in monitoring the quality parameters of fresh tea leaves
Masetti et al. NMR tracing of food geographical origin: The impact of seasonality, cultivar and production year on data analysis
Yang et al. Maize canopy and leaf chlorophyll content assessment from leaf spectral reflectance: estimation and uncertainty analysis across growth stages and vertical distribution
Shi et al. Nondestructive detection of Panax notoginseng saponins by using hyperspectral imaging
Yue et al. Evaluation of ecological suitability and quality suitability of panax notoginseng under multi-regionalization modeling theory
Liu et al. Network pharmacology and fingerprint for the integrated analysis of mechanism, identification and prediction in Panax notoginseng
CN107449849B (zh) 一种中药鉴别方法
Ma et al. Chemical fingerprinting and quantification of Chinese cinnamomi cortex by ultra high performance liquid chromatography coupled with chemometrics methods
Liu et al. Main components determination and rapid geographical origins identification in Gentiana rigescens Franch. based on HPLC, 2DCOS images combined to ResNet
Zhao et al. Hyperspectral identification of ginseng growth years and spectral importance analysis based on random forest
Li et al. Integrative quantitative and qualitative analysis for the quality evaluation and monitoring of Danshen medicines from different sources using HPLC-DAD and NIR combined with chemometrics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant