CN110929804B

CN110929804B - 一种栽培品产地识别方法、装置、设备及介质

Info

Publication number: CN110929804B
Application number: CN201911222973.9A
Authority: CN
Inventors: 余意; 胡明华; 尹西拳; 赖长江生; 肖俊勇
Original assignee: Infinitus China Co Ltd
Current assignee: Infinitus China Co Ltd
Priority date: 2019-12-03
Filing date: 2019-12-03
Publication date: 2024-04-09
Anticipated expiration: 2039-12-03
Also published as: CN110929804A

Abstract

本申请公开了一种栽培品产地识别方法、装置、设备及介质，包括：获取与不同产地的栽培品相关的数据集；其中，所述数据集中的每一数据样本均包括栽培品的类型编号、与栽培品的产地对应的组别信息、栽培品的小分子化合物数据；对所述数据集进行分析，以从栽培品的所有小分子化合物中确定出影响产地识别的关键小分子化合物；获取待识别栽培品的所述关键小分子化合物的数据，得到关键化合物数据；利用所述关键化合物数据，对所述待识别栽培品的产地进行识别。本申请一方面能够大幅减少数据采集量以及数据处理量，另一方面能够有效降低背景冗余数据对识别精度的干扰，提升了产地识别的准确率。

Description

一种栽培品产地识别方法、装置、设备及介质

技术领域

本申请涉及信息识别技术领域，特别涉及一种栽培品产地识别方法、装置、设备及介质。

背景技术

目前，通过人工培育方式来栽培中药或其他可利用植物的做法越加普遍，所采用的种植方法和种植资源基本上是相同的，由此导致了人工栽培品之间的高度相似。例如，在栽培灵芝时，通常是采用人工大棚、空气净化、温湿度调节等标准化方案，只在木材和水源等有些许差别，导致栽培品的高相似度。如何实现对栽培品产地的识别是目前有待解决的问题。

发明内容

有鉴于此，本申请的目的在于提供一种栽培品产地识别方法、装置、设备及介质，能够有效实现对栽培品产地的识别。其具体方案如下：

第一方面，本申请公开了一种栽培品产地识别方法，包括：

获取与不同产地的栽培品相关的数据集；其中，所述数据集中的每一数据样本均包括栽培品的类型编号、与栽培品的产地对应的组别信息、栽培品的小分子化合物数据；

对所述数据集进行分析，以从栽培品的所有小分子化合物中确定出影响产地识别的关键小分子化合物；

获取待识别栽培品的所述关键小分子化合物的数据，得到关键化合物数据；

利用所述关键化合物数据，对所述待识别栽培品的产地进行识别。

可选的，所述对所述数据集进行分析，以从栽培品的所有小分子化合物中确定出影响产地识别的关键小分子化合物，包括：

确定基于L2参数的双线性SVM模型；其中，所述双线性SVM模型中的待学习参数W＝[w₀ w₁ w₂ ... w_D-1]^T，D表示特征维度的数量，并且，不同的特征维度对应于不同的小分子化合物数据；

利用所述双线性SVM模型，对所述数据集中的数据样本进行分组学习，以确定所述待学习参数W中每个元素w_j的数值；其中，j＝0,1,2,...,D-1；

以每个元素w_j的数值大小作为相应特征维度的重要性依据，从所有特征维度中选取出预设比例的特征维度，得到第一重要特征维度集合；

分别针对每个特征维度，确定所述数据集中相应维度的各个数据特征与相应数据标签之间的相关性，得到每个特征维度对应的相关性；

以每个特征维度对应的相关性作为相应特征维度的重要性依据，从所有特征维度中选取出所述预设比例的特征维度，得到第二重要特征维度集合；

对所述第一重要特征维度集合和所述第二重要特征维度集合进行取交集操作，得到关键特征维度集合；

根据所述关键特征维度集合，确定出相应的关键小分子化合物。

以每个元素w_j的数值大小作为相应特征维度的重要性依据，从所有特征维度中选取出预设比例的特征维度，得到关键特征维度集合；

以每个特征维度对应的相关性作为相应特征维度的重要性依据，从所有特征维度中选取出所述预设比例的特征维度，得到关键特征维度集合；

可选的，所述对所述数据集进行分析，以从栽培品的所有小分子化合物中确定出影响产地识别的关键小分子化合物之后，还包括：

从所述数据集的数据样本中筛选出与所述关键小分子化合物对应的小分子化合物数据，以形成优化后数据样本；

利用所述优化后数据样本，训练新的SVM模型，得到训练后模型。

可选的，所述利用所述关键化合物数据，对所述待识别栽培品的产地进行识别，包括：

将所述关键化合物数据输入到所述训练后模型，以得到所述待识别栽培品的产地。

利用预设映射关系，直接确定与所述关键化合物数据所处的数值区间范围对应的栽培品的产地；

其中，所述预设映射关系为预先设定的所述关键小分子化合物的数值区间范围与栽培品的产地之间的映射关系。

可选的，所述双线性SVM模型为：

其中，W表示待学习参数，λ表示待学习超参数，N表示数据样本的数量，i表示数据样本的序号，x_i表示输入的与第i个数据样本对应的数据特征，y_i表示与第i个数据样本对应的数据标签，并且，若进行分组学习后得到的x_i的分组信息与相应数据样本中的组别信息相一致，则y_i为1，否则为0。

可选的，所述分别针对每个特征维度，确定所述数据集中相应维度的各个数据特征与相应数据标签之间的相关性，包括：

利用预设相关系数计算公式，分别针对每个特征维度，确定所述数据集中相应维度的各个数据特征与相应数据标签之间的相关系数；

其中，所述预设相关系数计算公式为：

其中，Corr(X_j,Y_j)表示与第j个特征维度对应的相关系数，j＝0,1,2,...,D-1，x_ij表示第i个数据样本的第j个特征维度对应的数据特征，μ_xj表示所述数据集中与第j个特征维度对应的所有数据特征的平均值，y_i表示与第i个数据样本对应的数据标签，μ_c表示所述数据集中第c类别的数据标签的平均值。

第二方面，本申请公开了一种栽培品产地识别装置，包括：

数据集获取模块，用于获取与不同产地的栽培品相关的数据集；其中，所述数据集中的每一数据样本均包括栽培品的类型编号、与栽培品的产地对应的组别信息、栽培品的小分子化合物数据；

数据集分析模块，用于对所述数据集进行分析，以从栽培品的所有小分子化合物中确定出影响产地识别的关键小分子化合物；

关键数据获取模块，用于获取待识别栽培品的所述关键小分子化合物的数据，得到关键化合物数据；

产地识别模块，用于利用所述关键化合物数据，对所述待识别栽培品的产地进行识别。

第三方面，本申请公开了一种栽培品产地识别设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序，以实现前述公开的栽培品产地识别方法。

第四方面，本申请公开了一种计算机可读存储介质，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现前述公开的栽培品产地识别方法。

可见，本申请在获取到与不同产地的栽培品相关的数据集之后，并不会直接利用数据样本中的所有小分子化合物数据来确定待识别栽培品的产地，而是先对数据集进行分析，以从栽培品的所有小分子化合物中确定出影响产地识别的关键小分子化合物，在确定出需要识别产地的待识别栽培品之后，便可只需获取待识别栽培品的上述关键小分子化合物的数据，以得到关键化合物数据，一方面，由于在对待识别栽培品的产地进行识别时，无需获取待识别栽培品的所有小分子化合物数据，只需获取关键小分子化合物的数据，从而能够大幅减少数据采集量以及数据处理量，另一方面，由于相对于上述关键小分子化合物的数据，栽培品的所有小分子化合物数据中存在较多的对产地识别无影响或影响较低的冗余数据，通过去除这些冗余数据，只利用关键小分子化合物的数据来进行产地识别，可以有效降低背景冗余数据对识别精度的干扰，提升产地识别的准确率。综上可见，本申请能够有效实现对栽培品产地的识别。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请公开的一种栽培品产地识别方法流程图；

图2为本申请公开的一种具体的栽培品产地识别方法流程图；

图3为本申请公开的一种具体的栽培品产地识别方法流程图；

图4为本申请公开的一种具体的栽培品产地识别方法流程图；

图5为本申请公开的一种具体的栽培品产地识别方法流程图；

图6为本申请公开的一种栽培品产地识别装置结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例公开了一种栽培品产地识别方法，参见图1所示，该方法包括：

步骤S11：获取与不同产地的栽培品相关的数据集；其中，所述数据集中的每一数据样本均包括栽培品的类型编号、与栽培品的产地对应的组别信息、栽培品的小分子化合物数据。

可以理解的是，上述数据集中，每一数据样本对应于一个栽培品，不同类型的栽培品具有不同的类型编号；属于同一个产地的栽培品的数量可以是一个，也可以是多个，同一产地上的栽培品具有相同的组别信息，不同产地的栽培品对应于不同的组别信息；栽培品的小分子化合物数据可以是利用现有的液相色谱法、质谱法等方法来采集，例如，可以利用UPLC-ESI/TOF-MS方法来采集栽培品的小分子化合物数据。

步骤S12：对所述数据集进行分析，以从栽培品的所有小分子化合物中确定出影响产地识别的关键小分子化合物。

本实施例中，在获取到上述数据集之后，便对上述数据集进行分析，以确定出对产地识别发挥关键作用的小分子化合物。也即，通过该步骤，能够将栽培品的所有小分子化合物中的对产地识别无影响或者影响较低的小分子化合物剔除掉，仅保留影响产地识别的关键小分子化合物，这样一方面能够减少数据采集量和数据处理量，另一方面也有利于提升后续产地识别的准确率。

步骤S13：获取待识别栽培品的所述关键小分子化合物的数据，得到关键化合物数据。

在确定出还未识别产地的栽培品之后，便可以只获取待识别栽培品的关键小分子化合物的数据，而无需获取待识别栽培品的全部小分子化合物数据，从而减少了数据的采集量和处理量，提升了数据采集速度和处理速度。

步骤S14：利用所述关键化合物数据，对所述待识别栽培品的产地进行识别。

本实施例中，由于相对于上述关键化合物数据，栽培品的所有小分子化合物数据中存在较多的对产地识别无影响或影响较低的冗余数据，通过去除这些冗余数据，只利用关键化合物数据来进行产地识别，可以有效降低背景冗余数据对识别精度的干扰，提升产地识别的准确率。

可见，本申请实施例在获取到与不同产地的栽培品相关的数据集之后，并不会直接利用数据样本中的所有小分子化合物数据来确定待识别栽培品的产地，而是先对数据集进行分析，以从栽培品的所有小分子化合物中确定出影响产地识别的关键小分子化合物，在确定出需要识别产地的待识别栽培品之后，便可只需获取待识别栽培品的上述关键小分子化合物的数据，以得到关键化合物数据，一方面，由于在对待识别栽培品的产地进行识别时，无需获取待识别栽培品的所有小分子化合物数据，只需获取关键小分子化合物的数据，从而能够大幅减少数据采集量以及数据处理量，另一方面，由于相对于上述关键小分子化合物的数据，栽培品的所有小分子化合物数据中存在较多的对产地识别无影响或影响较低的冗余数据，通过去除这些冗余数据，只利用关键小分子化合物的数据来进行产地识别，可以有效降低背景冗余数据对识别精度的干扰，提升产地识别的准确率。综上可见，本申请实施例能够有效实现对栽培品产地的识别。

参见图2所示，本申请实施例公开了一种具体的栽培品产地识别方法，包括：

步骤S21：获取与不同产地的栽培品相关的数据集；其中，所述数据集中的每一数据样本均包括栽培品的类型编号、与栽培品的产地对应的组别信息、栽培品的小分子化合物数据。

步骤S22：确定基于L2参数的双线性SVM模型(SVM，即Support Vector Machine，支持向量机)；其中，所述双线性SVM模型中的待学习参数W＝[w₀ w₁ w₂ ... w_D-1]^T，D表示特征维度的数量，并且，不同的特征维度对应于不同的小分子化合物数据。

步骤S23：利用所述双线性SVM模型，对所述数据集中的数据样本进行分组学习，以确定所述待学习参数W中每个元素w_j的数值；其中，j＝0,1,2,...,D-1。

具体的，所述双线性SVM模型为：

步骤S24：以每个元素w_j的数值大小作为相应特征维度的重要性依据，从所有特征维度中选取出预设比例的特征维度，得到第一重要特征维度集合。

可以理解的是，本实施例中，在利用双线性SVM模型对上述数据集中的数据样本进行分组学习之后，所确定出来的待学习参数W中每个元素w_j的数值大小反映了相应特征维度的重要性，其中，元素w_j的数值越大，相应特征维度的重要性越大。

本实施例中，可以根据实际情况来确定所述预设比例，例如可以设为25％，也即，从所有特征维度中选取出与数值大小位于前25％的元素w_j所对应的特征维度，得到第一重要特征维度集合。

本实施例中，在从所有特征维度中选取出预设比例的特征维度之前，可以先按照元素w_j从大到小的顺序，对所有特征维度进行相应的排序，这样，后续便可直接从排序完的所有特征维度中选取出位于前25％的特征维度，以得到所述第一重要特征维度集合。

步骤S25：分别针对每个特征维度，确定所述数据集中相应维度的各个数据特征与相应数据标签之间的相关性，得到每个特征维度对应的相关性，以每个特征维度对应的相关性作为相应特征维度的重要性依据，从所有特征维度中选取出所述预设比例的特征维度，得到第二重要特征维度集合。

也即，上述步骤中，在确定所述数据集中相应维度的各个数据特征与相应数据标签之间的相关性之后，以每个特征维度对应的所述相关性作为相应特征维度的重要性依据，也即，相关性越大，相应特征维度的重要性也越大，由此得到所述第二重要特征维度集合。

具体的，本实施例可以先按照相关性从大到小的顺序，对所有特征维度进行相应的排序，然后直接从排序完的所有特征维度中选取出位于前面的预设比例的特征维度，以得到所述第二重要特征维度集合。

其中，所述分别针对每个特征维度，确定所述数据集中相应维度的各个数据特征与相应数据标签之间的相关性，具体可以包括：

其中，所述预设相关系数计算公式为：

步骤S26：对所述第一重要特征维度集合和所述第二重要特征维度集合进行取交集操作，得到关键特征维度集合。

本实施例中，通过前述步骤得到所述第一重要特征维度集合和所述第二重要特征维度集合之后，为了进一步提升最终选取出来的重要特征维度与实际情况的相符程度，避免将一些非重要特征维度误认为重要特征维度，本实施例会对所述第一重要特征维度集合和所述第二重要特征维度集合进行取交集操作，也即将所述第一重要特征维度集合和所述第二重要特征维度集合之间的相同的特征维度选取出来，作为最终的关键特征维度集合。

步骤S27：根据所述关键特征维度集合，确定出相应的关键小分子化合物。

步骤S28：获取待识别栽培品的所述关键小分子化合物的数据，得到关键化合物数据。

步骤S29：利用所述关键化合物数据，对所述待识别栽培品的产地进行识别。

在一种具体实施方式中，可以在对所述数据集进行分析，以从栽培品的所有小分子化合物中确定出影响产地识别的关键小分子化合物的步骤之后，从所述数据集的数据样本中筛选出与所述关键小分子化合物对应的小分子化合物数据，以形成优化后数据样本；利用所述优化后数据样本，训练新的SVM模型，得到训练后模型。相应的，所述利用所述关键化合物数据，对所述待识别栽培品的产地进行识别，具体可以包括：将所述关键化合物数据输入到所述训练后模型，以得到所述待识别栽培品的产地。

在另一种具体实施方式中，所述利用所述关键化合物数据，对所述待识别栽培品的产地进行识别，具体可以包括：利用预设映射关系，直接确定与所述关键化合物数据所处的数值区间范围对应的栽培品的产地；其中，所述预设映射关系为预先设定的所述关键小分子化合物的数值区间范围与栽培品的产地之间的映射关系。

参见图3所示，本申请实施例公开了一种具体的栽培品产地识别方法，包括：

步骤S31：获取与不同产地的栽培品相关的数据集；其中，所述数据集中的每一数据样本均包括栽培品的类型编号、与栽培品的产地对应的组别信息、栽培品的小分子化合物数据。

步骤S32：确定基于L2参数的双线性SVM模型；其中，所述双线性SVM模型中的待学习参数W＝[w₀ w₁ w₂ ... w_D-1]^T，D表示特征维度的数量，并且，不同的特征维度对应于不同的小分子化合物数据。

具体的，所述双线性SVM模型为：

步骤S33：利用所述双线性SVM模型，对所述数据集中的数据样本进行分组学习，以确定所述待学习参数W中每个元素w_j的数值；其中，j＝0,1,2,...,D-1。

步骤S34：以每个元素w_j的数值大小作为相应特征维度的重要性依据，从所有特征维度中选取出预设比例的特征维度，得到关键特征维度集合。

本实施例中，在从所有特征维度中选取出预设比例的特征维度之前，可以先按照元素w_j从大到小的顺序，对所有特征维度进行相应的排序，这样，后续便可直接从排序完的所有特征维度中选取出位于前25％的特征维度，以得到所述关键特征维度集合。

步骤S35：根据所述关键特征维度集合，确定出相应的关键小分子化合物。

步骤S36：获取待识别栽培品的所述关键小分子化合物的数据，得到关键化合物数据。

步骤S37：利用所述关键化合物数据，对所述待识别栽培品的产地进行识别。

通过比对本实施例与前述实施例可知，本实施例无需确定第二重要特征维度集合，只需确定第一重要特征维度集合，然后直接将第一重要特征维度集合确定为最终的关键特征维度集合，虽然这两个实施例中最终确定的关键特征维度集合之间存在一定的差异，不过这种差异相对较小，所以使得本实施例中的技术方案依然具有较高的产地识别准确率，能够满足许多应用场景对产地识别准确率的实际需求，并且本实施例中的技术方案由于无需确定第二重要特征维度，所以在一定程度上简化了运算过程。

参见图4所示，本申请实施例公开了一种具体的栽培品产地识别方法，包括：

步骤S41：获取与不同产地的栽培品相关的数据集；其中，所述数据集中的每一数据样本均包括栽培品的类型编号、与栽培品的产地对应的组别信息、栽培品的小分子化合物数据。

步骤S42：分别针对每个特征维度，确定所述数据集中相应维度的各个数据特征与相应数据标签之间的相关性，得到每个特征维度对应的相关性。

其中，所述预设相关系数计算公式为：

步骤S43：以每个特征维度对应的相关性作为相应特征维度的重要性依据，从所有特征维度中选取出所述预设比例的特征维度，得到关键特征维度集合。

也即，上述步骤中，在确定所述数据集中相应维度的各个数据特征与相应数据标签之间的相关性之后，以每个特征维度对应的所述相关性作为相应特征维度的重要性依据，也即，相关性越大，相应特征维度的重要性也越大，由此得到所述关键特征维度集合。

具体的，本实施例可以先按照相关性从大到小的顺序，对所有特征维度进行相应的排序，然后直接从排序完的所有特征维度中选取出位于前面的预设比例的特征维度，以得到所述关键特征维度集合。

步骤S44：根据所述关键特征维度集合，确定出相应的关键小分子化合物。

步骤S45：获取待识别栽培品的所述关键小分子化合物的数据，得到关键化合物数据。

步骤S46：利用所述关键化合物数据，对所述待识别栽培品的产地进行识别。

通过比对本实施例与前述实施例可知，本实施例无需确定第一重要特征维度集合，只需确定第二重要特征维度集合，然后直接将第二重要特征维度集合确定为最终的关键特征维度集合，虽然这两个实施例中最终确定的关键特征维度集合之间存在一定的差异，不过这种差异相对较小，所以使得本实施例中的技术方案依然具有较高的产地识别准确率，能够满足许多应用场景对产地识别准确率的实际需求，并且本实施例中的技术方案由于无需确定第一重要特征维度，所以在一定程度上简化了运算过程。

参见图5所示，本申请实施例公开了一种具体的栽培品产地识别方法，包括：

步骤S51：获取与不同产地的赤灵芝相关的数据集；其中，所述数据集中的每一数据样本均包括赤灵芝的类型编号、与赤灵芝的产地对应的组别信息、赤灵芝的小分子化合物数据。

例如，本实施例中的表一示出了10个不同产地的赤灵芝的类型编号、组别信息以及产地信息：

表一

类型编号	组别	产地
			S8	1	四川省江油市东安乡乌龙砚村
S4	2	陕西省汉中市西乡县桑园镇北沟村
			S5	3	陕西省安康市汉滨区恒口镇白渔河村
S6	4	陕西省汉中市洋县石关镇麻柳村
			S9	5	江西省景德镇市浮梁县黄坛乡黄坛村
S10	6	安徽省六安市金寨县梅山镇南水村
			S11-2	7	浙江省龙泉市查田镇溪口镇
S7	8	四川省绵阳市三台县富顺镇金光村
			S21	9	湖北省随州市万店
S3	10	陕西省汉中市西乡县沙河镇私渡村

本实施例中，为了获取赤灵芝的小分子化合物数据，需要具体采取以下步骤：

赤灵芝样品的提取：100mg灵芝粉末(过三号筛)置于2.0mL EP管内，加入1.80mL的70％的乙醇，在25℃和40KHz条件下超声(SCIENT超声仪，宁波,中国)提取30min。样品13000g离心十分钟后，吸取上清液，-20℃保存。分析时，待样品解冻后，取10μL内标芦丁溶液(1.00μg/mL)与100μL赤灵芝上清液混匀，进样分析。

设置液相条件：采用反向C18 UPLC色谱柱(2.1mm×100mm,1.8μm,ACQUITYT3,Waters,USA)，流速为0.5mL/min，进样量10μL，检测波长为246nm。流动相为0.1％的酸水和0.1％的酸乙腈。色谱条件分别如表二所示：

表二

RT(min)	0	2	2.5	7	8	20.5	23.5	25	28	30
											乙腈比例(％)	0	0.5	6	23.5	29.5	29.5	42.5	80	100	100

设置质谱参数：在负离子模式下，采集50-1500Da的数据，扫描时间为0.15s，二级采集范围为50-1500Da；低碰撞能量关闭，高碰撞能量为60-90V；毛细管电压为2.0kV；锥孔电压为40V；源内温度100℃；脱溶剂温度为450℃；锥孔气体流速为50L/h；脱溶剂气体流速900L/h。

采集数据：参见表三所示，将10组共127个赤灵芝样品的UPLC-ESI/TOF-MS数据通过软件导成Excel数据集，经数据预处理后，每个数据样本中有861个小分子化合物数据纳入后续计算。

表三

类型编号	S8	S4	S5	S6	S9	S10	S11-2	S7	S21	S3
											组别	1	2	3	4	5	6	7	8	9	10
样品数量	14	6	16	14	11	18	24	12	5	7

另外，本实施例还可以利用3-倍交叉验证方法，将每组数据分为3个亚组，其中2亚组作为训练集，剩余1组作为测试集。

进一步的，本实施例还可以专门采集来源于不同产地的多个赤灵芝的相关数据，并将它们确定为参照数据，可以理解的是，上述参照数据不参与后续的计算，仅是起到参照作用。

步骤S52：确定基于L2参数的双线性SVM模型；其中，所述双线性SVM模型中的待学习参数W＝[w₀ w₁ w₂ ... w_D-1]^T，D表示特征维度的数量，并且，不同的特征维度对应于不同的小分子化合物数据。

步骤S53：利用所述双线性SVM模型，对所述数据集中的数据样本进行分组学习，以确定所述待学习参数W中每个元素w_j的数值；其中，j＝0,1,2,...,D-1。

具体的，所述双线性SVM模型为：

步骤S54：以每个元素w_j的数值大小作为相应特征维度的重要性依据，从所有特征维度中选取出重要性位于前25％的特征维度，得到第一重要特征维度集合。

步骤S55：分别针对每个特征维度，确定所述数据集中相应维度的各个数据特征与相应数据标签之间的相关性，得到每个特征维度对应的相关性，以每个特征维度对应的相关性作为相应特征维度的重要性依据，从所有特征维度中选取出重要性位于前25％的特征维度，得到第二重要特征维度集合。

其中，所述预设相关系数计算公式为：

步骤S56：对所述第一重要特征维度集合和所述第二重要特征维度集合进行取交集操作，得到关键特征维度集合。

步骤S57：根据所述关键特征维度集合，确定出相应的关键小分子化合物，并从所述数据集的数据样本中筛选出与所述关键小分子化合物对应的小分子化合物数据，以形成优化后数据样本；利用所述优化后数据样本，训练新的SVM模型，得到训练后模型。

步骤S58：获取待识别赤灵芝的所述关键小分子化合物的数据，得到关键化合物数据。

步骤S59：将所述关键化合物数据输入到所述训练后模型，以得到所述待识别赤灵芝的产地。

为了验证上述结论，本申请实施例可以采用准确率(Accuracy)、F1-得分(F1-Score)和线下面积(AUC)这三个评价参数，分别对利用所有小分子化合物数据来进行产地识别的技术方案以及利用关键小分子化合物的数据进行产地识别的技术方案进行评价，评价结果分别如表四和表五所示：

表四利用所有小分子化合物数据进行产地识别的方案评价结果

表五利用关键小分子化合物的数据进行产地识别的方案评价结果

通过表四和表五可知，相对于利用所有小分子化合物数据进行产地识别的方案，本实施例的利用关键小分子化合物的数据进行产地识别的方案具有更大的准确率、F1-得分和线下面积，由此可见，本实施例中通过关键化合物数据来识别产地的方案，能够有效提升产地识别的准确率，并具有较高的稳定性和可靠性。

参见图6所示，本申请实施例还公开了一种栽培品产地识别装置，包括：

数据集获取模块11，用于获取与不同产地的栽培品相关的数据集；其中，所述数据集中的每一数据样本均包括栽培品的类型编号、与栽培品的产地对应的组别信息、栽培品的小分子化合物数据；

数据集分析模块12，用于对所述数据集进行分析，以从栽培品的所有小分子化合物中确定出影响产地识别的关键小分子化合物；

关键数据获取模块13，用于获取待识别栽培品的所述关键小分子化合物的数据，得到关键化合物数据；

产地识别模块14，用于利用所述关键化合物数据，对所述待识别栽培品的产地进行识别。

其中，关于上述各个模块更加具体的工作过程可以参考前述实施例中公开的相应内容，在此不再进行赘述。

进一步的，本申请还公开了一种栽培品产地识别设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序，以实现前述实施例公开的栽培品产地识别方法。

进一步的，本申请还公开了一种计算机可读存储介质，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现前述实施例公开的栽培品产地识别方法。

其中，关于上述栽培品产地识别方法的具体步骤可以参考前述实施例公开的相应内容，在此不再进行赘述。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本申请所提供的一种栽培品产地识别方法、装置、设备及介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种栽培品产地识别方法，其特征在于，包括：

利用所述关键化合物数据，对所述待识别栽培品的产地进行识别；

所述对所述数据集进行分析，以从栽培品的所有小分子化合物中确定出影响产地识别的关键小分子化合物，包括：

以每个特征维度对应的相关性作为相应特征维度的重要性依据，从所有特征维度中选取出预设比例的特征维度，得到关键特征维度集合；

根据所述关键特征维度集合，确定出相应的关键小分子化合物；

所述分别针对每个特征维度，确定所述数据集中相应维度的各个数据特征与相应数据标签之间的相关性，包括：

其中，所述预设相关系数计算公式为：

其中，Corr(X_j,Y_j)表示与第j个特征维度对应的相关系数，j＝0,1,2,...,D-1，x_ij表示第i个数据样本的第j个特征维度对应的数据特征，μ_xj表示所述数据集中与第j个特征维度对应的所有数据特征的平均值，y_i表示与第i个数据样本对应的数据标签，μ_c表示所述数据集中第c类别的数据标签的平均值；

或者，所述对所述数据集进行分析，以从栽培品的所有小分子化合物中确定出影响产地识别的关键小分子化合物，包括：

确定基于L2参数的双线性SVM模型；其中，所述双线性SVM模型中的待学习参数W＝[w₀w₁ w₂...w_D-1]^T，D表示特征维度的数量，并且，不同的特征维度对应于不同的小分子化合物数据；

2.根据权利要求1所述的栽培品产地识别方法，其特征在于，所述对所述数据集进行分析，以从栽培品的所有小分子化合物中确定出影响产地识别的关键小分子化合物之后，还包括：

3.根据权利要求2所述的栽培品产地识别方法，其特征在于，所述利用所述关键化合物数据，对所述待识别栽培品的产地进行识别，包括：

4.根据权利要求1所述的栽培品产地识别方法，其特征在于，所述利用所述关键化合物数据，对所述待识别栽培品的产地进行识别，包括：

5.根据权利要求1所述的栽培品产地识别方法，其特征在于，所述双线性SVM模型为：

6.一种栽培品产地识别装置，其特征在于，包括：

产地识别模块，用于利用所述关键化合物数据，对所述待识别栽培品的产地进行识别；

其中，所述预设相关系数计算公式为：

7.一种栽培品产地识别设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序，以实现如权利要求1至5任一项所述的栽培品产地识别方法。

8.一种计算机可读存储介质，其特征在于，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的栽培品产地识别方法。