CN111667889B

CN111667889B - 一种预测丹参中质量标志物含量的方法

Info

Publication number: CN111667889B
Application number: CN202010699837.5A
Authority: CN
Inventors: 赵妍; 张永清; 刘谦
Original assignee: Yantai University; Shandong University of Traditional Chinese Medicine
Current assignee: Yantai University; Shandong University of Traditional Chinese Medicine
Priority date: 2020-07-20
Filing date: 2020-07-20
Publication date: 2022-03-01
Anticipated expiration: 2040-07-20
Also published as: CN111667889A

Abstract

本发明涉及一种预测丹参中质量标志物含量的方法，采用长短期记忆网络模型，利用气候因子和代谢产物谱分析(植物代谢组学)方法，对大田中丹参根膨大后期4种质量标志物的含量进行预测。由于存在干扰因素，采用最大信息系数(MIC)进行相关分析实现特征选择，过滤后得到关键因素。长短期记忆网络(LSTM)模型通过有效提取、充分反映与代谢历程相关的气候因子和产物变化的内在特征，保证了预测的准确性。基于MIC的LSTM算法已在山东三地丹参试验田得到验证，确保了模型的鲁棒性。本发明有助于制定丹参合理的收获策略或在极端天气条件下，采取补救措施以获得合格的药材。

Description

一种预测丹参中质量标志物含量的方法

技术领域

本发明涉及一种预测丹参中质量标志物含量的方法。

背景技术

几千年来，世界各地的药用植物一直是预防和治疗人类疾病的主要手段，也是众多处方和非处方药品的来源。药用植物是一种特殊的经济作物，其收获时间受作物产量和活性成分含量的双重影响。

丹参是唇形科药用植物，作为我国应用最广泛的药材之一，丹参具有良好的经济效益、社会效益和生态效益。丹参用于治疗心脑血管疾病已有2000多年的历史。丹参已应用于痛经、闭经、高血压、肝硬化、慢性肾功能衰竭等疾病的临床治疗。它还具有治疗神经退行性疾病的潜力，包括阿尔茨海默病和帕金森病。

先前的研究表明，超过100种化合物以亲水性丹酚酸类和亲脂性丹参酮类作为活性成分对丹参的化学组成有贡献。其中，《中国药典》将丹酚酸B、隐丹参酮、丹参酮I、丹参素IIA作为丹参的质量指标。对于植物个体的生长，丹酚酸类成分的生物合成过程还没有完全地表征，但许多研究表明以迷迭香酸为前体，通过参与迷迭香酸分支途径的几种酶的一系列修饰，形成紫草酸和丹酚酸B等其他酚酸类成分。而对于丹参酮类成分的积累，可以推断出的一条生物合成途径，中间产物弥罗松酚，脱氢形成隐丹参酮，然后通过还原酶还原形成丹参酮Ⅰ和丹参酮IIA。

然而，质量标志物的含量不仅受植物个体生长的影响，而且还受生长环境的影响。一般来说，气候变化是调节植物生长、生产力和品质的主要环境条件之一。极端温度和干旱是植物经常遇到的主要不利环境条件。暴露在不利温度下的作物被损害了生长和发育，被限制了生长或减产。在植物发育过程中，降水是影响生长的一个间接因素，因为降水决定了土壤的相对湿度。植物已经进化出感知气候变化的机制，然后为了生存和繁殖对其生长发育进行适当的调整，例如调节次生代谢产物的合成。因此，以质量标志物含量为基础的药材品质易受极端天气的影响，并有可能低于药典标准。

另一方面，植物地理变异引起的气候变化也影响药用植物次生代谢产物的积累和降低。因此，有必要采用包含各种气候因素的方法来估算质量标志物的含量，特别是在解释气候与植物之间的相互作用时。事实上，作为按时间顺序的变量，质量标志物的含量很难预测，因为它们受到先前气候积累和植物生长的影响。对于植物生长来说，质量标志物是次生代谢产物，在生物合成途径中起前体和/或衍生物的作用。因此，质量标志物的含量估算不仅需要气候因子的各种变化，还需要代谢产物谱的历史过程。

通常，气候因素的特征随季节和地点的变化而变化。然而，气候变化引起全球极端天气的规模和频率正在增加。考虑到高度复杂的动力学因素导致气象数据的大波动性，基于气象数据学习质量标志物的内在特征和预测质量标志物的含量是非常困难的。此外，丹参中的代谢产物互为前体或衍生物，而不是独立的。因此，为了在气候变化面前保持作物和代谢产物的双重产量，分析质量标志物在生长期的积累模式具有重要意义。

由于长短期记忆网络(LSTM)是分析时间序列数据和解释累积变化的强大而灵活的工具，因此它适用于处理复杂的植物和气候条件。相比传统的循环神经网络(RNN)，LSTM解决了梯度消失或梯度爆炸的相关问题。LSTM同时接收现在的输入(input)和先前的输出(output)信息。信息保存在“单元”状态，因此可以通过训练模型来处理序列。因此，在某一特定时间点，受累积气候条件和其它代谢产物影响的质量标志物含量可以用LSTM来估计。然而，预测中的一个瓶颈是在所有收集到的变量中选择特征。因为在给定的一组特征中，并非所有的特征都是必要的，而有些特征是噪声或冗余的，甚至可能降低模型的预测能力。

发明内容

针对上述问题，本发明提出了一种预测丹参中质量标志物含量的方法，即基于MIC的LSTM方法，利用气候因子和代谢产物谱预计丹参中质量标志物的含量。本发明中，最大信息系数(MIC)不仅考虑了目标与观测参数之间的线性相关性，而且考虑了目标与观测参数之间的非线性相关性，是一种设置特征选择阈值的合适方法。通过选择重要特征和从原始特征集中去除不必要特征的过程，由MIC过滤出的关键因素，可用于LSTM模型。

本发明主要包括以下步骤：

(1)植物材料的制备

在实验室条件下，用土培法将品种CK的丹参种子播种在方形花盆中，萌发两周后，将统一的丹参幼苗移栽到3个试验点；移植后2-29周，每周采集10株相同生长状态的单株丹参，相邻株间距大于25m，将丹参的根及根茎在40℃的恒温箱中干燥以除去水分，直到它们达到恒定重量，作为后续分析之前的预处理步骤；

(2)代谢物图谱的获取

将在每个地点每周采集的10个样品粉末充分混合，作为分析的代表性样品。通过高效液相色谱-多反应监测/质谱联用法(三重四极杆质谱)对丹参的代谢产物进行了分析。每周测定丹参素钠(p1)、原儿茶醛(p2)、咖啡酸(p3)、丹酚酸D(p4)、迷迭香酸(p5)、紫草酸(p6)、丹酚酸B(p7)、丹酚酸C(p8)、二氢丹参酮I(p9)、隐丹参酮(p10)、丹参酮I(p11)和丹参酮IIA(p12)等12种成分的含量。其中，丹酚酸B(p7)、隐丹参酮(p10)、丹参酮I(p11)和丹参醇IIA(p12)为《中国药典》记载的质量标志物。高效液相色谱-多反应监测/质谱法采用现有技术。

(3)气象资料收集

气候因子数据从国家气象科学数据中心(国家气象信息中心)和WheatA软件(1.1.7版)获得。3个监测站的气象资料分别代表3个试验点。移植后2～29周，每天采集12个主要气候因子，将连续7天的日资料转换为周资料，包括10℃以上的活动积温(AAT)、累积降水(AP)、累积日照时数(ASD)、周平均气压(WABP)、0cm处的周平均地温(WAGT)，周平均相对湿度(WARH)、周平均气温(WAT)、周平均风速(WAWS)、周露点温度(WDPT)、周蒸发量(WE)、周最高气温(WHT)、周最低气温(WLT)。

(4)利用MIC选择特征变量

采用最大信息系数(MIC)分析来确定质量标志物与气候因子及代谢产物之间可能的联系。给定一个有限的有序对集D，将D的x值划分为xbins，将D的y值划分为y bins、特征矩阵和D的MIC值为I*。由(1)给出样本大小为n且网格大小小于B(n)的双变量数据集D的MIC。

B(n)＝n^0.6，为默认值，因其在实践中效果良好。如果x和y在统计上独立，MIC的值为0，而如果它们强相关，MIC的值很大，接近1。设置了0.40、0.50、0.60、0.70、0.80和0.90六个相关阈值ζ，以确定特征间相关性的六个层次。所选特征的数目随相关阈值ζ的波动而变化。为了达到预测模型的良好性能，在含量估计前通过模型参数的比较确定了最佳相关阈值ζ。

(5)LSTM估算质量标志物的含量

本数据集包含各试验点代表性样品28周内的672份代谢产物记录及相应的气候因子。在实验阶段，将数据集分为训练数据和测试数据两个子集，其中前25周为训练数据，后3周为测试数据。所有实验都是使用Python及其库(版本3.7.2，Python软件基金会，美国威尔明顿)进行的。python执行环境是Windows 10操作系统上的Anaconda发行版上运行。Keras(第2版，Python深度学习库)用于构建运行在“Tensorflow”背景下的模型(Priyadarshini等，2020)。

LSTM被用来分析连续的周期性数据；在本发明中使用了一种通用的网络结构(图2)。筛选出的代谢产物和气候因子作为输入数据，输出数据为质量标志物的含量。LSTM的门分为三部分：输入门决定输入和输出选择，遗忘门决定应遗忘多少先前的信息，输出门将单元状态与输入数据融合。LSTM的参数之一——时间步长被设置为1。当计算步骤达到预定时间步骤时，多对一LSTM产生最终输出。为了训练LSTM不偏倚某些特征，在0-1范围内对数据进行了归一化处理。归一化有助于提高收敛速度，减少计算量。图3为本发明所述的基于MIC的LSTM结构。

LSTM具有像普通人工神经网络一样的隐藏层。经验上，输入和输出激活函数被设置为双曲正切函数(tanh)，门激活函数被设置为sigmoid函数。优化神经元的数量和隐藏层的层数以找到最佳值。AdamOptimizer用于模型训练，并通过经验改变来解决回归问题。LSTM和AdamOptimizer的超参数设置为常用值，如表4所示。利用均方根误差(RMSE)、均方根误差(MSE)和均绝对误差(MAE)验证了模型的鲁棒性，并比较了三个测试点的LSTM模型的性能。通过比较质量标志物含量的直接测量值和预测值，评价了估计的准确性。

综上所述，本发明首先设计了一个基于MIC的LSTM模型，对气候因子和代谢产物进行筛选，进而预测了丹参中质量标志物的含量。对代表3个试验点的3个监测站的气象数据和丹参生长期的历史代谢产物数据，充分考虑并有效提取了特征。由此选择的特征提高了整体分类精度，使学习算法训练速度更快，降低了预测模型的整体计算成本。

作为上述观测值的预测方法，LSTM模型可用于原始数据的高层(high-level)提取，并在整个预测范围内显示出准确的预测性能。本发明3个试验点的预测误差在17.10％以内。

本发明有助于农业生产者利用气候因子和代谢产物信息，估测质量标志物的含量，合理安排种植、耕作和收获。因此，可以根据预测值采用更为合理的栽培措施，同时研究人员可以根据预测值做出农业活动安排的决策。

附图说明

图1为山东省3个试验点分布图；

图2为长短期记忆网络结构图，h和σ分别表示以双曲正切和反曲(sigmoid)为激活函数的隐含层；

图3为基于MIC的LSTM模型结构；

图4为丹参中因素和质量标志物含量的MIC值，(a)泰安地区，(b)临沂地区，(c)济南地区(AAT：活动积温，AP：累积降水量，ASD：累计日照时数，WABP：周平均气压，WAGT：周平均地温，WARH：周平均相对湿度，WAT：周平均温度，WAWS：周平均风速，WDPT：周露点温度，WE：周蒸发量，WHT:周最高温度，WLT：周最低温度，p1：丹参素钠，p2：原儿茶醛，p3：咖啡酸，p4：丹酚酸D，p5：迷迭香酸，p6：紫草酸，p7：丹酚酸B，p8：丹酚酸C，p9：二氢丹参酮I，p10：隐丹参酮，p11：丹参酮I，p12：丹参酚IIA)；

图5为泰安地区丹参膨大后期(移植后26-28周)质量标志物含量的预测结果及相应实测值，(a)：丹酚酸B，(b)：隐丹参酮，(c)：丹参酮I，(d)：丹参酮IIA；

图6为临沂地区丹参膨大后期(移植后26-28周)质量标志物含量的预测结果及相应实测值，(a)：丹酚酸B，(b)：隐丹参酮，(c)：丹参酮I，(d)：丹参酮IIA；

图7为济南地区丹参膨大后期(移植后26-28周)质量标志物含量的预测结果及相应实测值，(a)：丹酚酸B，(b)：隐丹参酮，(c)：丹参酮I，(d)：丹参酮IIA。

具体实施方式

一种预测丹参中质量标志物含量的方法，包括以下步骤：

(1)植物材料的制备

在实验室条件下，用土培法将品种CK的丹参种子播种在实验室条件下的方形花盆。萌发两周后，将统一的丹参幼苗移栽到山东省3个城市的3个试验点(每个试验点约667平方米)，如图1所示。每个地点，包括具有中等肥力土壤的未遮阴地块，并且没有额外的肥料或水投入，都是根据统一的标准进行管理的。移植后2～29周(2018年4～10月)每周采集10株相同生长状态的单株丹参，每株间距大于25m，所有样品标本保存于山东省济南市山东中医药大学药学院。将丹参的根及根茎在40℃的恒温箱中干燥以除去水分，直到它们达到恒定重量，作为后续分析之前的预处理步骤。

(2)代谢物图谱的获取

将在每个地点每周采集的10个样品粉末充分混合，作为分析的代表性样品。采用现有技术，通过高效液相色谱-多反应监测/质谱联用法(三重四极杆质谱)对丹参的代谢产物进行了分析。每周测定丹参素钠(p1)、原儿茶醛(p2)、咖啡酸(p3)、丹酚酸D(p4)、迷迭香酸(p5)、紫草酸(p6)、丹酚酸B(p7)、丹酚酸C(p8)、二氢丹参酮I(p9)、隐丹参酮(p10)、丹参酮Ⅰ(p11)和丹参酮IIA(p12)等12种成分的含量。其中，丹酚酸B(p7)、隐丹参酮(p10)、丹参酮I(p11)和丹参醇IIA(p12)为《中国药典》记载的质量标志物。

(3)气象资料收集

气候因子数据从国家气象科学数据中心(国家气象信息中心)和WheatA软件(1.1.7版)获得。3个监测站的气象资料分别代表3个试验点。2018年4-11月，每天采集12个主要气候因子，将连续7天的日资料转换为周资料，包括10℃以上的活动积温(AAT)、累积降水(AP)、累积日照时数(ASD)、周平均气压(WABP)、0cm处的周平均地温(WAGT)，周平均相对湿度(WARH)、周平均气温(WAT)、周平均风速(WAWS)、周露点温度(WDPT)、周蒸发量(WE)、周最高气温(WHT)、周最低气温(WLT)。

(4)利用MIC选择特征变量

(5)LSTM估算质量标志物的含量

本数据集包含各试验点代表性样品28周内的672份代谢产物记录及相应的气候因子。在实验阶段，将数据集分为训练数据和测试数据两个子集，其中前25周为训练数据，后3周为测试数据。所有实验都是使用Python及其库(版本3.7.2，Python软件基金会，美国威尔明顿)进行的。python执行环境是Windows 10操作系统上的Anaconda发行版上运行。Keras(第2版，Python深度学习库)用于构建运行在“Tensorflow”背景下的模型。

LSTM被用来分析连续的周期性数据；在这项研究中使用了一种通用的网络结构(图2)。筛选出的代谢产物和气候因子作为输入数据，输出数据为质量标志物的含量。LSTM的门分为三部分：输入门决定输入和输出选择，遗忘门决定应遗忘多少先前的信息，输出门将单元状态与输入数据融合。LSTM的参数之一——时间步长被设置为1。当计算步骤达到预定时间步骤时，多对一LSTM产生最终输出。为了训练LSTM不偏倚某些特征，在0-1范围内对数据进行了归一化处理。归一化有助于提高收敛速度，减少计算量。图3为基于MIC的LSTM结构。

本发明采用高效液相色谱-多反应监控/质谱联用技术对丹参的化学成分进行了综合分析，发现3个试验点的丹参代谢产物在整个生长过程中呈现出相似的动态变化趋势。丹酚酸B作为主要成分，其含量在不同时期波动或略有变化，但总产量增加较多。丹参酮类成分，即二氢丹参酮I、隐丹参酮、丹参酮I和丹参酮IIA，其含量已稳定地增加了几倍。丹参根表面颜色由浅红色变为砖红色，丹参酮是其根皮鲜红的主要贡献者。丹参素钠的含量呈逐渐下降的趋势，此后呈波动趋势，而植株中丹参素钠的总产量略有增加。原儿茶醛的含量迅速下降，在移植后10周达到最低值，随后在培养后期出现波动。在丹参整个生长过程中，咖啡酸、丹酚酸D、迷迭香酸、紫草酸和丹酚酸C的含量不断波动。与实验室或温室栽培相比，多种气候因子对大田条件下的丹参中代谢产物含量的影响较大。随着植物生长阶段的推进，气候因子随着季节和地理位置的变化而增加或减少。然而，观测结果并没有显示出因素(气候因子和代谢产物)和质量标志物含量之间的明显相关性，这促使特征选择成为预测过程中的一个必不可少的步骤。

本发明MIC分析能够分析多重相关性，捕捉到线性和非线性的广泛关联，并且能够区分代谢产物和气候因子之间的联系。热图分析表示因素(气候因子和代谢产物)和质量标志物的含量之间的MIC值，如图4(a)-(c)所示。大多数因素与丹参酮类成分的相关性较高(MIC>0.60)。尤其是在3个试验点，丹参酮类成分与活动积温(AT)、累积降水量(AP)和累积日照时数(ASD)的MIC值均为1或接近1，说明气候因子与丹参酮类成分之间存在较强的相关性。此外，隐丹参酮、丹参酮I和丹参醇IIA之间的MIC值均为1，说明丹参酮类成分可能如上文所述互为生物合成途径中的前体或衍生物。但丹酚酸B与各因素间的MIC值较低，且在3个试验点的MIC值规律不一致。结果表明，丹参酮类成分对环境的敏感性高于丹酚酸类成分，这与以往的研究结果一致。

用RSME、MSE和MAE检验了不同相关阈值引起的因素个数对预测模型精度的影响。表1显示了使用泰安地区模型的不同n个因子获得的性能(临沂和济南地区模型见表5和表6)。结果表明，当相关阈值ζ设为0.6时，该模型具有较好的性能，过高或过低的ζ值都会导致系统性能下降。究其原因，主要是当阈值较高时，关键特征的个数较少，当阈值较低时，一些不相关的指标被输入，造成干扰。这就是为什么相关阈值被设置为0.6，这是LSTM模型最合适的设置。其次，通过一系列对比实验，确定了合理的模型结构。当相关阈值为0.6时，泰安地区模型的特征总数为17个(临沂地区模型为18个，济南地区模型为19个)。因此，在本研究中，当MIC大于0.6时，相关性被认为是显著的。此外，当相关阈值一定时，丹参酮I的RMSE、MSE和MAE值均大于隐丹参酮和丹参醇IIA，因为丹参酮I的变化范围较大。

本发明利用2018年4月至2018年9月的数据进行训练后，用于预测2018年10月的丹参中质量标志物的含量，并对所提出的LSTM模型进行了性能评估。具体为，利用(采收前)最后3周的监测数据验证了模型的有效性。之所以将预测范围设为上述值，是因为丹参根膨大后期适合采收。LSTM模型中的代谢产物和气候因子及预测结果见表2。为了与《中国药典》中的记录方式相匹配，采用百分比代替总量来表示质量标准。图5(a)-(d)为泰安市模型中的丹参根膨大后期质量标志物含量的预测值和实测值，临沂、济南的结果见附图1和附图2。在图中，横坐标表示序列时间，纵坐标对应质量标志物的含量。根据这些数据，在估计丹参膨大后期质量标志物的含量时，预测值总是小于实测值，这意味着当预测值超过标准时，实测值也会大于标准。考虑到误差小于17.10％(表9)，说明了我们方法的适用性。因此，LSTM模型能够通过每周对代谢产物和气候因子的检测，高精度地学习从而估计质量标志物的含量。如表3所示，在所有LSTM变量的测试数据中，选择RMSE作为性能度量参数，这些LSTM变量具有不同的隐藏层神经元数量，包括10、50和100个。对这些LSTM进行了无退出率和退出率(dropout)分别为0.2和0.4的测试。可以观察到，具有1个隐含层，由100个隐含层神经元和“Adam”优化器组成，退出率为0.2的LSTM模型优于其它模型。

表1相关阈值对泰安地区LSTM模型的影响

表2泰安地区预测研究中使用的代谢产物和气候因子

表3泰安地区模型中不同参数的类型及其性能

表4长短期记忆网络与AdamOptimizer的超参数

表5相关阈值对临沂地区LSTM模型的影响

表6相关阈值对济南地区LSTM模型的影响

表7临沂地区预测研究中使用的代谢产物和气候因子

表8济南地区预测研究中使用的代谢产物和气候因子

表9丹参膨大后期(移植后26-28周)质量标志物含量预测及真实结果及相应误差率(sal-B:丹酚酸B，cry-tan:隐丹参酮，tan-I:丹参酮I，tan-IIA:丹参酮IIA)

表10临沂地区不同参数模型的类型及其性能

表11济南地区不同参数模型的类型及其性能

Claims

1.一种预测丹参中质量标志物含量的方法，其特征在于，基于MIC的LSTM方法，利用气候因子和代谢产物谱预测丹参中质量标志物的含量；

包括以下步骤：

(1)植物材料的制备

在实验室条件下，用土培法将品种CK的丹参种子播种在方形花盆中，萌发两周后，将统一的丹参幼苗移栽到3个试验点；移植后2-29周，每周采集10株相同生长状态的单株丹参，将丹参的根及根茎在40℃的恒温箱中干燥以除去水分，直到它们达到恒定重量，作为后续分析之前的预处理步骤；

(2)代谢产物谱的获取

将在每个试验点每周采集的10份样品粉末充分混合，作为分析的代表性样品，通过高效液相色谱-多反应监测/质谱联用法对丹参中的代谢产物进行分析；

(3)气象资料收集

气候因子数据从国家气象科学数据中心和WheatA软件获得；3个地区监测站的气象资料分别代表3个试验点的气候因子；移植后2-29周，每天采集12个主要气候因子，将连续7天的日资料转换为周资料；

(4)利用MIC选择特征变量

采用最大信息系数(MIC)分析来确定质量标志物与气候因子及代谢产物之间可能的联系；给定一个有限的有序对集D，将D的x值划分为xbins，将D的y值划分为y bins、特征矩阵和D的MIC值为I*；由(1)给出样本大小为n且网格大小小于B(n)的双变量数据集D的MIC；

B(n)＝n^0.6，为默认值；

(5)LSTM估算质量标志物的含量

本数据集包含各试验点代表性样品28周内的672份代谢产物记录及相应的气候因子；在实验阶段，将数据集分为训练数据和测试数据两个子集，其中前25周为训练数据，后3周为测试数据；LSTM被用来分析连续的周期性数据；使用通用的网络结构，筛选出的代谢产物和气候因子作为输入数据，输出数据为质量标志物的含量。

2.根据权利要求1所述的一种预测丹参中质量标志物含量的方法，其特征在于，步骤(1)中，相邻株间距大于25m。

3.根据权利要求1所述的一种预测丹参中质量标志物含量的方法，其特征在于，步骤(2)中，每周测定丹参素钠、原儿茶醛、咖啡酸、丹酚酸D、迷迭香酸、紫草酸、丹酚酸B、丹酚酸C、二氢丹参酮I、隐丹参酮、丹参酮I和丹参酮IIA的含量。

4.根据权利要求1所述的一种预测丹参中质量标志物含量的方法，其特征在于，步骤(3)中，所述气候因子包括10℃以上的活动积温、累积降水、累积日照时数、周平均气压、0cm处的周平均地温，周平均相对湿度、周平均气温、周平均风速、周露点温度、周蒸发量、周最高气温、周最低气温。

5.根据权利要求1所述的一种预测丹参中质量标志物含量的方法，其特征在于，步骤(4)中，如果x和y在统计上独立，MIC的值为0，而如果它们强相关，MIC的值接近1。

6.根据权利要求1所述的一种预测丹参中质量标志物含量的方法，其特征在于，步骤(4)中，设置0.40、0.50、0.60、0.70、0.80和0.90六个相关阈值ζ。

7.根据权利要求1所述的一种预测丹参中质量标志物含量的方法，其特征在于，步骤(5)中，LSTM的参数之一——时间步长被设置为1；对数据进行了归一化处理。