CN111667889B - 一种预测丹参中质量标志物含量的方法 - Google Patents

一种预测丹参中质量标志物含量的方法 Download PDF

Info

Publication number
CN111667889B
CN111667889B CN202010699837.5A CN202010699837A CN111667889B CN 111667889 B CN111667889 B CN 111667889B CN 202010699837 A CN202010699837 A CN 202010699837A CN 111667889 B CN111667889 B CN 111667889B
Authority
CN
China
Prior art keywords
salvia miltiorrhiza
data
content
mic
weekly
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010699837.5A
Other languages
English (en)
Other versions
CN111667889A (zh
Inventor
赵妍
张永清
刘谦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yantai University
Shandong University of Traditional Chinese Medicine
Original Assignee
Yantai University
Shandong University of Traditional Chinese Medicine
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yantai University, Shandong University of Traditional Chinese Medicine filed Critical Yantai University
Priority to CN202010699837.5A priority Critical patent/CN111667889B/zh
Publication of CN111667889A publication Critical patent/CN111667889A/zh
Application granted granted Critical
Publication of CN111667889B publication Critical patent/CN111667889B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Chemical & Material Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

本发明涉及一种预测丹参中质量标志物含量的方法,采用长短期记忆网络模型,利用气候因子和代谢产物谱分析(植物代谢组学)方法,对大田中丹参根膨大后期4种质量标志物的含量进行预测。由于存在干扰因素,采用最大信息系数(MIC)进行相关分析实现特征选择,过滤后得到关键因素。长短期记忆网络(LSTM)模型通过有效提取、充分反映与代谢历程相关的气候因子和产物变化的内在特征,保证了预测的准确性。基于MIC的LSTM算法已在山东三地丹参试验田得到验证,确保了模型的鲁棒性。本发明有助于制定丹参合理的收获策略或在极端天气条件下,采取补救措施以获得合格的药材。

Description

一种预测丹参中质量标志物含量的方法
技术领域
本发明涉及一种预测丹参中质量标志物含量的方法。
背景技术
几千年来,世界各地的药用植物一直是预防和治疗人类疾病的主要手段,也是众多处方和非处方药品的来源。药用植物是一种特殊的经济作物,其收获时间受作物产量和活性成分含量的双重影响。
丹参是唇形科药用植物,作为我国应用最广泛的药材之一,丹参具有良好的经济效益、社会效益和生态效益。丹参用于治疗心脑血管疾病已有2000多年的历史。丹参已应用于痛经、闭经、高血压、肝硬化、慢性肾功能衰竭等疾病的临床治疗。它还具有治疗神经退行性疾病的潜力,包括阿尔茨海默病和帕金森病。
先前的研究表明,超过100种化合物以亲水性丹酚酸类和亲脂性丹参酮类作为活性成分对丹参的化学组成有贡献。其中,《中国药典》将丹酚酸B、隐丹参酮、丹参酮I、丹参素IIA作为丹参的质量指标。对于植物个体的生长,丹酚酸类成分的生物合成过程还没有完全地表征,但许多研究表明以迷迭香酸为前体,通过参与迷迭香酸分支途径的几种酶的一系列修饰,形成紫草酸和丹酚酸B等其他酚酸类成分。而对于丹参酮类成分的积累,可以推断出的一条生物合成途径,中间产物弥罗松酚,脱氢形成隐丹参酮,然后通过还原酶还原形成丹参酮Ⅰ和丹参酮IIA。
然而,质量标志物的含量不仅受植物个体生长的影响,而且还受生长环境的影响。一般来说,气候变化是调节植物生长、生产力和品质的主要环境条件之一。极端温度和干旱是植物经常遇到的主要不利环境条件。暴露在不利温度下的作物被损害了生长和发育,被限制了生长或减产。在植物发育过程中,降水是影响生长的一个间接因素,因为降水决定了土壤的相对湿度。植物已经进化出感知气候变化的机制,然后为了生存和繁殖对其生长发育进行适当的调整,例如调节次生代谢产物的合成。因此,以质量标志物含量为基础的药材品质易受极端天气的影响,并有可能低于药典标准。
另一方面,植物地理变异引起的气候变化也影响药用植物次生代谢产物的积累和降低。因此,有必要采用包含各种气候因素的方法来估算质量标志物的含量,特别是在解释气候与植物之间的相互作用时。事实上,作为按时间顺序的变量,质量标志物的含量很难预测,因为它们受到先前气候积累和植物生长的影响。对于植物生长来说,质量标志物是次生代谢产物,在生物合成途径中起前体和/或衍生物的作用。因此,质量标志物的含量估算不仅需要气候因子的各种变化,还需要代谢产物谱的历史过程。
通常,气候因素的特征随季节和地点的变化而变化。然而,气候变化引起全球极端天气的规模和频率正在增加。考虑到高度复杂的动力学因素导致气象数据的大波动性,基于气象数据学习质量标志物的内在特征和预测质量标志物的含量是非常困难的。此外,丹参中的代谢产物互为前体或衍生物,而不是独立的。因此,为了在气候变化面前保持作物和代谢产物的双重产量,分析质量标志物在生长期的积累模式具有重要意义。
由于长短期记忆网络(LSTM)是分析时间序列数据和解释累积变化的强大而灵活的工具,因此它适用于处理复杂的植物和气候条件。相比传统的循环神经网络(RNN),LSTM解决了梯度消失或梯度爆炸的相关问题。LSTM同时接收现在的输入(input)和先前的输出(output)信息。信息保存在“单元”状态,因此可以通过训练模型来处理序列。因此,在某一特定时间点,受累积气候条件和其它代谢产物影响的质量标志物含量可以用LSTM来估计。然而,预测中的一个瓶颈是在所有收集到的变量中选择特征。因为在给定的一组特征中,并非所有的特征都是必要的,而有些特征是噪声或冗余的,甚至可能降低模型的预测能力。
发明内容
针对上述问题,本发明提出了一种预测丹参中质量标志物含量的方法,即基于MIC的LSTM方法,利用气候因子和代谢产物谱预计丹参中质量标志物的含量。本发明中,最大信息系数(MIC)不仅考虑了目标与观测参数之间的线性相关性,而且考虑了目标与观测参数之间的非线性相关性,是一种设置特征选择阈值的合适方法。通过选择重要特征和从原始特征集中去除不必要特征的过程,由MIC过滤出的关键因素,可用于LSTM模型。
本发明主要包括以下步骤:
(1)植物材料的制备
在实验室条件下,用土培法将品种CK的丹参种子播种在方形花盆中,萌发两周后,将统一的丹参幼苗移栽到3个试验点;移植后2-29周,每周采集10株相同生长状态的单株丹参,相邻株间距大于25m,将丹参的根及根茎在40℃的恒温箱中干燥以除去水分,直到它们达到恒定重量,作为后续分析之前的预处理步骤;
(2)代谢物图谱的获取
将在每个地点每周采集的10个样品粉末充分混合,作为分析的代表性样品。通过高效液相色谱-多反应监测/质谱联用法(三重四极杆质谱)对丹参的代谢产物进行了分析。每周测定丹参素钠(p1)、原儿茶醛(p2)、咖啡酸(p3)、丹酚酸D(p4)、迷迭香酸(p5)、紫草酸(p6)、丹酚酸B(p7)、丹酚酸C(p8)、二氢丹参酮I(p9)、隐丹参酮(p10)、丹参酮I(p11)和丹参酮IIA(p12)等12种成分的含量。其中,丹酚酸B(p7)、隐丹参酮(p10)、丹参酮I(p11)和丹参醇IIA(p12)为《中国药典》记载的质量标志物。高效液相色谱-多反应监测/质谱法采用现有技术。
(3)气象资料收集
气候因子数据从国家气象科学数据中心(国家气象信息中心)和WheatA软件(1.1.7版)获得。3个监测站的气象资料分别代表3个试验点。移植后2~29周,每天采集12个主要气候因子,将连续7天的日资料转换为周资料,包括10℃以上的活动积温(AAT)、累积降水(AP)、累积日照时数(ASD)、周平均气压(WABP)、0cm处的周平均地温(WAGT),周平均相对湿度(WARH)、周平均气温(WAT)、周平均风速(WAWS)、周露点温度(WDPT)、周蒸发量(WE)、周最高气温(WHT)、周最低气温(WLT)。
(4)利用MIC选择特征变量
采用最大信息系数(MIC)分析来确定质量标志物与气候因子及代谢产物之间可能的联系。给定一个有限的有序对集D,将D的x值划分为xbins,将D的y值划分为y bins、特征矩阵和D的MIC值为I*。由(1)给出样本大小为n且网格大小小于B(n)的双变量数据集D的MIC。
Figure BDA0002592626260000031
B(n)=n0.6,为默认值,因其在实践中效果良好。如果x和y在统计上独立,MIC的值为0,而如果它们强相关,MIC的值很大,接近1。设置了0.40、0.50、0.60、0.70、0.80和0.90六个相关阈值ζ,以确定特征间相关性的六个层次。所选特征的数目随相关阈值ζ的波动而变化。为了达到预测模型的良好性能,在含量估计前通过模型参数的比较确定了最佳相关阈值ζ。
(5)LSTM估算质量标志物的含量
本数据集包含各试验点代表性样品28周内的672份代谢产物记录及相应的气候因子。在实验阶段,将数据集分为训练数据和测试数据两个子集,其中前25周为训练数据,后3周为测试数据。所有实验都是使用Python及其库(版本3.7.2,Python软件基金会,美国威尔明顿)进行的。python执行环境是Windows 10操作系统上的Anaconda发行版上运行。Keras(第2版,Python深度学习库)用于构建运行在“Tensorflow”背景下的模型(Priyadarshini等,2020)。
LSTM被用来分析连续的周期性数据;在本发明中使用了一种通用的网络结构(图2)。筛选出的代谢产物和气候因子作为输入数据,输出数据为质量标志物的含量。LSTM的门分为三部分:输入门决定输入和输出选择,遗忘门决定应遗忘多少先前的信息,输出门将单元状态与输入数据融合。LSTM的参数之一——时间步长被设置为1。当计算步骤达到预定时间步骤时,多对一LSTM产生最终输出。为了训练LSTM不偏倚某些特征,在0-1范围内对数据进行了归一化处理。归一化有助于提高收敛速度,减少计算量。图3为本发明所述的基于MIC的LSTM结构。
LSTM具有像普通人工神经网络一样的隐藏层。经验上,输入和输出激活函数被设置为双曲正切函数(tanh),门激活函数被设置为sigmoid函数。优化神经元的数量和隐藏层的层数以找到最佳值。AdamOptimizer用于模型训练,并通过经验改变来解决回归问题。LSTM和AdamOptimizer的超参数设置为常用值,如表4所示。利用均方根误差(RMSE)、均方根误差(MSE)和均绝对误差(MAE)验证了模型的鲁棒性,并比较了三个测试点的LSTM模型的性能。通过比较质量标志物含量的直接测量值和预测值,评价了估计的准确性。
综上所述,本发明首先设计了一个基于MIC的LSTM模型,对气候因子和代谢产物进行筛选,进而预测了丹参中质量标志物的含量。对代表3个试验点的3个监测站的气象数据和丹参生长期的历史代谢产物数据,充分考虑并有效提取了特征。由此选择的特征提高了整体分类精度,使学习算法训练速度更快,降低了预测模型的整体计算成本。
作为上述观测值的预测方法,LSTM模型可用于原始数据的高层(high-level)提取,并在整个预测范围内显示出准确的预测性能。本发明3个试验点的预测误差在17.10%以内。
本发明有助于农业生产者利用气候因子和代谢产物信息,估测质量标志物的含量,合理安排种植、耕作和收获。因此,可以根据预测值采用更为合理的栽培措施,同时研究人员可以根据预测值做出农业活动安排的决策。
附图说明
图1为山东省3个试验点分布图;
图2为长短期记忆网络结构图,h和σ分别表示以双曲正切和反曲(sigmoid)为激活函数的隐含层;
图3为基于MIC的LSTM模型结构;
图4为丹参中因素和质量标志物含量的MIC值,(a)泰安地区,(b)临沂地区,(c)济南地区(AAT:活动积温,AP:累积降水量,ASD:累计日照时数,WABP:周平均气压,WAGT:周平均地温,WARH:周平均相对湿度,WAT:周平均温度,WAWS:周平均风速,WDPT:周露点温度,WE:周蒸发量,WHT:周最高温度,WLT:周最低温度,p1:丹参素钠,p2:原儿茶醛,p3:咖啡酸,p4:丹酚酸D,p5:迷迭香酸,p6:紫草酸,p7:丹酚酸B,p8:丹酚酸C,p9:二氢丹参酮I,p10:隐丹参酮,p11:丹参酮I,p12:丹参酚IIA);
图5为泰安地区丹参膨大后期(移植后26-28周)质量标志物含量的预测结果及相应实测值,(a):丹酚酸B,(b):隐丹参酮,(c):丹参酮I,(d):丹参酮IIA;
图6为临沂地区丹参膨大后期(移植后26-28周)质量标志物含量的预测结果及相应实测值,(a):丹酚酸B,(b):隐丹参酮,(c):丹参酮I,(d):丹参酮IIA;
图7为济南地区丹参膨大后期(移植后26-28周)质量标志物含量的预测结果及相应实测值,(a):丹酚酸B,(b):隐丹参酮,(c):丹参酮I,(d):丹参酮IIA。
具体实施方式
一种预测丹参中质量标志物含量的方法,包括以下步骤:
(1)植物材料的制备
在实验室条件下,用土培法将品种CK的丹参种子播种在实验室条件下的方形花盆。萌发两周后,将统一的丹参幼苗移栽到山东省3个城市的3个试验点(每个试验点约667平方米),如图1所示。每个地点,包括具有中等肥力土壤的未遮阴地块,并且没有额外的肥料或水投入,都是根据统一的标准进行管理的。移植后2~29周(2018年4~10月)每周采集10株相同生长状态的单株丹参,每株间距大于25m,所有样品标本保存于山东省济南市山东中医药大学药学院。将丹参的根及根茎在40℃的恒温箱中干燥以除去水分,直到它们达到恒定重量,作为后续分析之前的预处理步骤。
(2)代谢物图谱的获取
将在每个地点每周采集的10个样品粉末充分混合,作为分析的代表性样品。采用现有技术,通过高效液相色谱-多反应监测/质谱联用法(三重四极杆质谱)对丹参的代谢产物进行了分析。每周测定丹参素钠(p1)、原儿茶醛(p2)、咖啡酸(p3)、丹酚酸D(p4)、迷迭香酸(p5)、紫草酸(p6)、丹酚酸B(p7)、丹酚酸C(p8)、二氢丹参酮I(p9)、隐丹参酮(p10)、丹参酮Ⅰ(p11)和丹参酮IIA(p12)等12种成分的含量。其中,丹酚酸B(p7)、隐丹参酮(p10)、丹参酮I(p11)和丹参醇IIA(p12)为《中国药典》记载的质量标志物。
(3)气象资料收集
气候因子数据从国家气象科学数据中心(国家气象信息中心)和WheatA软件(1.1.7版)获得。3个监测站的气象资料分别代表3个试验点。2018年4-11月,每天采集12个主要气候因子,将连续7天的日资料转换为周资料,包括10℃以上的活动积温(AAT)、累积降水(AP)、累积日照时数(ASD)、周平均气压(WABP)、0cm处的周平均地温(WAGT),周平均相对湿度(WARH)、周平均气温(WAT)、周平均风速(WAWS)、周露点温度(WDPT)、周蒸发量(WE)、周最高气温(WHT)、周最低气温(WLT)。
(4)利用MIC选择特征变量
采用最大信息系数(MIC)分析来确定质量标志物与气候因子及代谢产物之间可能的联系。给定一个有限的有序对集D,将D的x值划分为xbins,将D的y值划分为y bins、特征矩阵和D的MIC值为I*。由(1)给出样本大小为n且网格大小小于B(n)的双变量数据集D的MIC。
Figure BDA0002592626260000061
B(n)=n0.6,为默认值,因其在实践中效果良好。如果x和y在统计上独立,MIC的值为0,而如果它们强相关,MIC的值很大,接近1。设置了0.40、0.50、0.60、0.70、0.80和0.90六个相关阈值ζ,以确定特征间相关性的六个层次。所选特征的数目随相关阈值ζ的波动而变化。为了达到预测模型的良好性能,在含量估计前通过模型参数的比较确定了最佳相关阈值ζ。
(5)LSTM估算质量标志物的含量
本数据集包含各试验点代表性样品28周内的672份代谢产物记录及相应的气候因子。在实验阶段,将数据集分为训练数据和测试数据两个子集,其中前25周为训练数据,后3周为测试数据。所有实验都是使用Python及其库(版本3.7.2,Python软件基金会,美国威尔明顿)进行的。python执行环境是Windows 10操作系统上的Anaconda发行版上运行。Keras(第2版,Python深度学习库)用于构建运行在“Tensorflow”背景下的模型。
LSTM被用来分析连续的周期性数据;在这项研究中使用了一种通用的网络结构(图2)。筛选出的代谢产物和气候因子作为输入数据,输出数据为质量标志物的含量。LSTM的门分为三部分:输入门决定输入和输出选择,遗忘门决定应遗忘多少先前的信息,输出门将单元状态与输入数据融合。LSTM的参数之一——时间步长被设置为1。当计算步骤达到预定时间步骤时,多对一LSTM产生最终输出。为了训练LSTM不偏倚某些特征,在0-1范围内对数据进行了归一化处理。归一化有助于提高收敛速度,减少计算量。图3为基于MIC的LSTM结构。
LSTM具有像普通人工神经网络一样的隐藏层。经验上,输入和输出激活函数被设置为双曲正切函数(tanh),门激活函数被设置为sigmoid函数。优化神经元的数量和隐藏层的层数以找到最佳值。AdamOptimizer用于模型训练,并通过经验改变来解决回归问题。LSTM和AdamOptimizer的超参数设置为常用值,如表4所示。利用均方根误差(RMSE)、均方根误差(MSE)和均绝对误差(MAE)验证了模型的鲁棒性,并比较了三个测试点的LSTM模型的性能。通过比较质量标志物含量的直接测量值和预测值,评价了估计的准确性。
本发明采用高效液相色谱-多反应监控/质谱联用技术对丹参的化学成分进行了综合分析,发现3个试验点的丹参代谢产物在整个生长过程中呈现出相似的动态变化趋势。丹酚酸B作为主要成分,其含量在不同时期波动或略有变化,但总产量增加较多。丹参酮类成分,即二氢丹参酮I、隐丹参酮、丹参酮I和丹参酮IIA,其含量已稳定地增加了几倍。丹参根表面颜色由浅红色变为砖红色,丹参酮是其根皮鲜红的主要贡献者。丹参素钠的含量呈逐渐下降的趋势,此后呈波动趋势,而植株中丹参素钠的总产量略有增加。原儿茶醛的含量迅速下降,在移植后10周达到最低值,随后在培养后期出现波动。在丹参整个生长过程中,咖啡酸、丹酚酸D、迷迭香酸、紫草酸和丹酚酸C的含量不断波动。与实验室或温室栽培相比,多种气候因子对大田条件下的丹参中代谢产物含量的影响较大。随着植物生长阶段的推进,气候因子随着季节和地理位置的变化而增加或减少。然而,观测结果并没有显示出因素(气候因子和代谢产物)和质量标志物含量之间的明显相关性,这促使特征选择成为预测过程中的一个必不可少的步骤。
本发明MIC分析能够分析多重相关性,捕捉到线性和非线性的广泛关联,并且能够区分代谢产物和气候因子之间的联系。热图分析表示因素(气候因子和代谢产物)和质量标志物的含量之间的MIC值,如图4(a)-(c)所示。大多数因素与丹参酮类成分的相关性较高(MIC>0.60)。尤其是在3个试验点,丹参酮类成分与活动积温(AT)、累积降水量(AP)和累积日照时数(ASD)的MIC值均为1或接近1,说明气候因子与丹参酮类成分之间存在较强的相关性。此外,隐丹参酮、丹参酮I和丹参醇IIA之间的MIC值均为1,说明丹参酮类成分可能如上文所述互为生物合成途径中的前体或衍生物。但丹酚酸B与各因素间的MIC值较低,且在3个试验点的MIC值规律不一致。结果表明,丹参酮类成分对环境的敏感性高于丹酚酸类成分,这与以往的研究结果一致。
用RSME、MSE和MAE检验了不同相关阈值引起的因素个数对预测模型精度的影响。表1显示了使用泰安地区模型的不同n个因子获得的性能(临沂和济南地区模型见表5和表6)。结果表明,当相关阈值ζ设为0.6时,该模型具有较好的性能,过高或过低的ζ值都会导致系统性能下降。究其原因,主要是当阈值较高时,关键特征的个数较少,当阈值较低时,一些不相关的指标被输入,造成干扰。这就是为什么相关阈值被设置为0.6,这是LSTM模型最合适的设置。其次,通过一系列对比实验,确定了合理的模型结构。当相关阈值为0.6时,泰安地区模型的特征总数为17个(临沂地区模型为18个,济南地区模型为19个)。因此,在本研究中,当MIC大于0.6时,相关性被认为是显著的。此外,当相关阈值一定时,丹参酮I的RMSE、MSE和MAE值均大于隐丹参酮和丹参醇IIA,因为丹参酮I的变化范围较大。
本发明利用2018年4月至2018年9月的数据进行训练后,用于预测2018年10月的丹参中质量标志物的含量,并对所提出的LSTM模型进行了性能评估。具体为,利用(采收前)最后3周的监测数据验证了模型的有效性。之所以将预测范围设为上述值,是因为丹参根膨大后期适合采收。LSTM模型中的代谢产物和气候因子及预测结果见表2。为了与《中国药典》中的记录方式相匹配,采用百分比代替总量来表示质量标准。图5(a)-(d)为泰安市模型中的丹参根膨大后期质量标志物含量的预测值和实测值,临沂、济南的结果见附图1和附图2。在图中,横坐标表示序列时间,纵坐标对应质量标志物的含量。根据这些数据,在估计丹参膨大后期质量标志物的含量时,预测值总是小于实测值,这意味着当预测值超过标准时,实测值也会大于标准。考虑到误差小于17.10%(表9),说明了我们方法的适用性。因此,LSTM模型能够通过每周对代谢产物和气候因子的检测,高精度地学习从而估计质量标志物的含量。如表3所示,在所有LSTM变量的测试数据中,选择RMSE作为性能度量参数,这些LSTM变量具有不同的隐藏层神经元数量,包括10、50和100个。对这些LSTM进行了无退出率和退出率(dropout)分别为0.2和0.4的测试。可以观察到,具有1个隐含层,由100个隐含层神经元和“Adam”优化器组成,退出率为0.2的LSTM模型优于其它模型。
表1相关阈值对泰安地区LSTM模型的影响
Figure BDA0002592626260000081
表2泰安地区预测研究中使用的代谢产物和气候因子
Figure BDA0002592626260000082
Figure BDA0002592626260000091
表3泰安地区模型中不同参数的类型及其性能
Figure BDA0002592626260000092
表4长短期记忆网络与AdamOptimizer的超参数
Figure BDA0002592626260000093
表5相关阈值对临沂地区LSTM模型的影响
Figure BDA0002592626260000094
Figure BDA0002592626260000101
表6相关阈值对济南地区LSTM模型的影响
Figure BDA0002592626260000102
表7临沂地区预测研究中使用的代谢产物和气候因子
Figure BDA0002592626260000103
Figure BDA0002592626260000111
表8济南地区预测研究中使用的代谢产物和气候因子
Figure BDA0002592626260000112
表9丹参膨大后期(移植后26-28周)质量标志物含量预测及真实结果及相应误差率(sal-B:丹酚酸B,cry-tan:隐丹参酮,tan-I:丹参酮I,tan-IIA:丹参酮IIA)
Figure BDA0002592626260000113
Figure BDA0002592626260000121
表10临沂地区不同参数模型的类型及其性能
Figure BDA0002592626260000122
表11济南地区不同参数模型的类型及其性能
Figure BDA0002592626260000123

Claims (7)

1.一种预测丹参中质量标志物含量的方法,其特征在于,基于MIC的LSTM方法,利用气候因子和代谢产物谱预测丹参中质量标志物的含量;
包括以下步骤:
(1)植物材料的制备
在实验室条件下,用土培法将品种CK的丹参种子播种在方形花盆中,萌发两周后,将统一的丹参幼苗移栽到3个试验点;移植后2-29周,每周采集10株相同生长状态的单株丹参,将丹参的根及根茎在40℃的恒温箱中干燥以除去水分,直到它们达到恒定重量,作为后续分析之前的预处理步骤;
(2)代谢产物谱的获取
将在每个试验点每周采集的10份样品粉末充分混合,作为分析的代表性样品,通过高效液相色谱-多反应监测/质谱联用法对丹参中的代谢产物进行分析;
(3)气象资料收集
气候因子数据从国家气象科学数据中心和WheatA软件获得;3个地区监测站的气象资料分别代表3个试验点的气候因子;移植后2-29周,每天采集12个主要气候因子,将连续7天的日资料转换为周资料;
(4)利用MIC选择特征变量
采用最大信息系数(MIC)分析来确定质量标志物与气候因子及代谢产物之间可能的联系;给定一个有限的有序对集D,将D的x值划分为xbins,将D的y值划分为y bins、特征矩阵和D的MIC值为I*;由(1)给出样本大小为n且网格大小小于B(n)的双变量数据集D的MIC;
Figure FDA0003487319530000011
B(n)=n0.6,为默认值;
(5)LSTM估算质量标志物的含量
本数据集包含各试验点代表性样品28周内的672份代谢产物记录及相应的气候因子;在实验阶段,将数据集分为训练数据和测试数据两个子集,其中前25周为训练数据,后3周为测试数据;LSTM被用来分析连续的周期性数据;使用通用的网络结构,筛选出的代谢产物和气候因子作为输入数据,输出数据为质量标志物的含量。
2.根据权利要求1所述的一种预测丹参中质量标志物含量的方法,其特征在于,步骤(1)中,相邻株间距大于25m。
3.根据权利要求1所述的一种预测丹参中质量标志物含量的方法,其特征在于,步骤(2)中,每周测定丹参素钠、原儿茶醛、咖啡酸、丹酚酸D、迷迭香酸、紫草酸、丹酚酸B、丹酚酸C、二氢丹参酮I、隐丹参酮、丹参酮I和丹参酮IIA的含量。
4.根据权利要求1所述的一种预测丹参中质量标志物含量的方法,其特征在于,步骤(3)中,所述气候因子包括10℃以上的活动积温、累积降水、累积日照时数、周平均气压、0cm处的周平均地温,周平均相对湿度、周平均气温、周平均风速、周露点温度、周蒸发量、周最高气温、周最低气温。
5.根据权利要求1所述的一种预测丹参中质量标志物含量的方法,其特征在于,步骤(4)中,如果x和y在统计上独立,MIC的值为0,而如果它们强相关,MIC的值接近1。
6.根据权利要求1所述的一种预测丹参中质量标志物含量的方法,其特征在于,步骤(4)中,设置0.40、0.50、0.60、0.70、0.80和0.90六个相关阈值ζ。
7.根据权利要求1所述的一种预测丹参中质量标志物含量的方法,其特征在于,步骤(5)中,LSTM的参数之一——时间步长被设置为1;对数据进行了归一化处理。
CN202010699837.5A 2020-07-20 2020-07-20 一种预测丹参中质量标志物含量的方法 Active CN111667889B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010699837.5A CN111667889B (zh) 2020-07-20 2020-07-20 一种预测丹参中质量标志物含量的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010699837.5A CN111667889B (zh) 2020-07-20 2020-07-20 一种预测丹参中质量标志物含量的方法

Publications (2)

Publication Number Publication Date
CN111667889A CN111667889A (zh) 2020-09-15
CN111667889B true CN111667889B (zh) 2022-03-01

Family

ID=72392355

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010699837.5A Active CN111667889B (zh) 2020-07-20 2020-07-20 一种预测丹参中质量标志物含量的方法

Country Status (1)

Country Link
CN (1) CN111667889B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113241129A (zh) * 2021-05-18 2021-08-10 北京和隆优化科技股份有限公司 一种基于lstm深度循环神经网络的pvc水分含量的预测方法
CN113205161B (zh) * 2021-07-05 2021-12-03 北京微芯区块链与边缘计算研究院 一种基于土壤参数的中药产地判别系统及方法
CN113723690A (zh) * 2021-09-02 2021-11-30 西南大学 柑橘品种适宜区域性预则方法
US11908670B2 (en) 2022-05-16 2024-02-20 Thermo Finnigan Llc Systems and methods of ion population regulation in mass spectrometry

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106074700A (zh) * 2016-06-20 2016-11-09 广东方制药有限公司 一种黄芩颗粒及其中药制剂
CN108732126A (zh) * 2017-04-25 2018-11-02 天士力医药集团股份有限公司 一种采用近红外光谱法测定丹参药材中多成分含量的方法
CN110687072A (zh) * 2019-10-17 2020-01-14 山东大学 一种基于光谱相似度的校正集和验证集选择及建模方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150274690A1 (en) * 2013-10-25 2015-10-01 Asilomar Bio, Inc. Strigolactone Compositions And Uses Thereof
US11663414B2 (en) * 2018-02-20 2023-05-30 Fluence Bioengineering, Inc. Controlled agricultural systems and methods of managing agricultural systems
US10990875B2 (en) * 2018-11-28 2021-04-27 International Business Machines Corporation Neural network forecasting for tiered hydroponic natural farming configurations

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106074700A (zh) * 2016-06-20 2016-11-09 广东方制药有限公司 一种黄芩颗粒及其中药制剂
CN108732126A (zh) * 2017-04-25 2018-11-02 天士力医药集团股份有限公司 一种采用近红外光谱法测定丹参药材中多成分含量的方法
CN110687072A (zh) * 2019-10-17 2020-01-14 山东大学 一种基于光谱相似度的校正集和验证集选择及建模方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Temporal convolution-network-based models for modeling maize evapotranspiration under mulched drip irrigation;ZhijunChen et al.;《Computers and Electronics in Agriculture》;20200229;全文 *
不同气候区丹参生物量、有效成分变化与气象因子的相关性研究;张辰露等;《中国中药杂志》;20150228;全文 *

Also Published As

Publication number Publication date
CN111667889A (zh) 2020-09-15

Similar Documents

Publication Publication Date Title
CN111667889B (zh) 一种预测丹参中质量标志物含量的方法
Li et al. Developing machine learning models with multi-source environmental data to predict wheat yield in China
Zapata et al. Estimation of the base temperature and growth phase duration in terms of thermal time for four grapevine cultivars
An-Vo et al. Value of seasonal forecasting for sugarcane farm irrigation planning
Rale et al. Prediction of crop cultivation
De Lombaerde et al. Tree regeneration responds more to shade casting by the overstorey and competition in the understorey than to abundance per se
CN109615148B (zh) 一种确定玉米气象产量的方法和系统
Santini et al. Phenotypic integration and life history strategies among populations of Pinus halepensis: an insight through structural equation modelling
Sarkkola et al. Stand structural dynamics on drained peatlands dominated by Scots pine
CN108427862B (zh) 基于图像分析的多品种全生育期棉花生物量无损测量方法
CN110516943B (zh) 一种基于地表温度的春灌期灌溉面积动态监测遥感方法
CN116451823A (zh) 一种基于气象主控因子的苹果产量预测方法
Noyer et al. Time shifts in height and diameter growth allocation in understory European beech (Fagus sylvatica L.) following canopy release
Han et al. Real-time methods for short and medium-term evapotranspiration forecasting using dynamic crop coefficient and historical threshold
Xu et al. Evaluating the cumulative and time-lag effects of vegetation response to drought in Central Asia under changing environments
Wu et al. Adaptation of cotton production to climate change by sowing date optimization and precision resource management
Anantha et al. Sustainable intensification opportunities for Alfisols and Vertisols landscape of the semi-arid tropics
Bianchi et al. Light availability predicts mortality probability of conifer saplings in Swiss mountain forests better than radial growth and tree size
CN109615150B (zh) 一种确定水稻气象产量的方法和系统
Zhao et al. Annual 30 m winter wheat yield mapping in the Huang-Huai-Hai plain using crop growth model and long-term satellite images
Ma et al. Time series global sensitivity analysis of genetic parameters of CERES-maize model under water stresses at different growth stages
CN109615149B (zh) 一种确定甜菜气象产量的方法和系统
Zhao et al. Estimating the Q-marker concentrations of Salvia miltiorrhiza via a long short-term memory algorithm using climatic factors and metabolic profiling
Lanta et al. A test of the explanatory power of plant functional traits on the individual and population levels
Rossi et al. Control over growth in cold climates

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant