CN114357896B

CN114357896B - 一种基于骑手优化算法的LightGBM判断中药道地性的方法和系统

Info

Publication number: CN114357896B
Application number: CN202210275215.9A
Authority: CN
Inventors: 焦鹏; 陈冠宇; 肖林杰
Original assignee: Beijing Microchip Blockchain And Edge Computing Research Institute
Current assignee: Beijing Microchip Blockchain And Edge Computing Research Institute
Priority date: 2022-03-21
Filing date: 2022-03-21
Publication date: 2022-06-10
Anticipated expiration: 2042-03-21
Also published as: CN114357896A

Abstract

发明公开了一种基于骑手优化算法的LightGBM判断中药道地性的方法和系统，该方法包括：S1、获取各类中药的特征维度数据，包括中药自身的数据和中药所处环境数据；S2、根据获取的各特征维度数据的数值范围，对各特征维度数据进行甄选和处理，得到特征维度数据中的关键数据；S3、采用优化算法对关键数据中的参数进行优化；S4、根据得到的优化参数，对识别模型进行优化，通过优化后的识别模型对中药道地性进行分类识别；S5、输出识别结果并提示；S6、对所述识别模型进行更新迭代。本发明提供的基于骑手优化算法的LightGBM判断中药道地性的方法具有中药道地性判断成本低廉、准确性高以及判别速度快的特点。

Description

一种基于骑手优化算法的LightGBM判断中药道地性的方法和系统

技术领域

本发明涉及中药道地性研究技术领域，特别是涉及一种基于骑手优化算法的LightGBM判断中药道地性的方法和系统。

背景技术

目前，中药的道地性判断是一个相对困难的问题，单纯从外观和气味上很难对其进行有效科学的判断，且判断结果准确率偏低。即便依靠对中药品质和特性较为了解的专家，也很难保证对道地药材有很好的划分，同时引入了人力消耗。因此，如何根据环境成分快速准确地完成中药道地性判断是个值得研究的问题。

在拿到了中药产地的环境信息后，可以根据环境信息对中药进行划分。传统的机器学习方法可以采用SVM(支持向量机)、KNN、决策树和集成模型等。SVM只需要少量样本、可以节约部分内存，但是因为需要将低维无序数据通过构建核函数（sigmod、RBF等）划定具体平面进行分类，计算代价会上升；KNN没有引入其他参数，但是计算复杂度较高，引入的K值需要人为设定；决策树可以针对少量/缺失/多种数据进行分类，可解释性较强，但是训练时间较长；集成模型使用最多的是random forest（随机森林），样本随机抽取，多个模型的结果通过Vote得到，且各个模型间可以相互影响，或者采用gradient boost将弱分类器按照一定的计算方式组合成强分类器，最终是多个分类器相互综合影响的结果，虽然这种模型融合的方式会提升分类的准确度，但集成模型的弊端在于受到概率的影响，具有一定的不确定性。当然也可以采用神经网络如MLP、CNN、RNN等进行中药道地性的划分，但由于细分领域的中药环境数据维度一般是特征维度在100-200维以上，构建专门的神经网络进行训练测试没有必要。因此，基于现有技术存在的以上问题，亟需提出一种新的判断中药道地性的方法，以用来弥补现有技术的不足。

发明内容

本发明的目的是为了提供一种基于骑手优化算法的LightGBM判断中药道地性的方法和系统，能够解决现有的中药道地性判断存在的成本高、准确性低以及判别速度慢的问题。

为实现上述目的，本发明提供了如下方案：

第一方面，本发明提供一种基于骑手优化算法的LightGBM判断中药道地性的方法，包括：

S1、获取各类中药的特征维度数据，包括中药自身的数据和中药所处环境数据；

S2、根据获取的各特征维度数据的数值范围，对各特征维度数据进行甄选和处理，得到特征维度数据中的关键数据；

S3、采用优化算法对关键数据中的参数进行优化；

S4、根据得到的优化参数，对识别模型进行优化，通过优化后的识别模型对中药道地性进行分类识别；

S5、输出识别结果并提示；

S6、对所述识别模型进行更新迭代。

可选的，所述步骤S1中的中药自身的数据包括中药中含有的各元素及化合物成分数据，所述中药所处环境数据包括中药所处土壤的数据，所述中药所处土壤的数据包括土壤的元素含量数据、容重、含水量以及PH值。

可选的，所述步骤S2中的关键数据的获取方法包括SelectKBest、Lasso和主成分分析法。

可选的，所述步骤S3中的优化算法采用骑手优化算法，所述骑手优化算法对关键数据中的参数进行优化的过程为：

S301、关键数据中的参数初始化，将关键数据中的参数视为一个团队，整个团队包括四个部分，分别是绕行手B、跟随者F、超车手O和冲刺手A，整个团队的规模如下所示：

单独针对每个部分的规模为：

S302、设置成功率，成功率用当前骑手和最终目标之间的距离来表示，如下所示：

其中

代表当前骑手的位置，

代表目标所在的位置；

S303、依据成功率大小对骑手进行排序，将距离目标位置最近的骑手即成功率最高的骑手作为领骑者；

S304、根据每种骑手类型下的参数搜索更新方式对各骑手的位置进行更新，其中，

追随者具有跟随领骑者并且快速达到目标的倾向，表示为：

其中，

属于坐标选择器；

代表领骑者的位置；l代表当前时刻，下一个时刻为l+1；v代表第v个骑手，此处为第v个追随者；

代表领骑者的索引，

代表骑手的转向角，

代表距离；

超车手是要跟随领骑者的状态并试图超过，可以表示为：

其中

代表方向指示器，确定具体的超越方向；此处的v代表第v个超车手；

冲刺手则是通过跟随领骑者的位置更新状态来试图取代领骑者，表示为：

绕行手绕过公共路径，因此位置更新是随机的，可以表示为：

其中

和

都是0到1之间的随机数，而

和

是1到P之间的随机数；

S305、骑手位置更新后，计算每个骑手的成功率；

S306、更新骑手的参数，包括骑手自身的转向角、齿轮、加速器和制动器参数；

S307、返回步骤S303，执行更新骑手的位置和骑手参数，在t<T_off的情况下进行循坏迭代，直到到达停止时间T_off，最终领先的骑手为获胜者；

S308、根据最终的领先骑手输出最终的参数向量，该参数向量即为最优向量。

可选的，所述步骤S4中的识别模型为LightGBM单模型或者Xgboost、随机森林及GBDT与LightGBM的结合模型。

第二方面，本发明还提供一种基于骑手优化算法的LightGBM判断中药道地性的系统，包括：

数据获取模块、用于获取中药的特征维度数据，包括中药自身的数据和中药所处环境数据；

参数选择模块、用于根据获取的各特征维度数据的数值范围，对各特征维度数据进行甄选和处理，得到特征维度数据中的关键数据；

网络优化搜索模块、用于采用优化算法对关键数据中的参数进行优化；

识别算法模块、用于根据得到的优化参数，对识别模型进行优化，通过优化后的识别模型对中药道地性进行分类识别；

结果输出模块、用于输出识别结果并提示；

模型更新模块、用于对识别模型和识别算法进行更新迭代。

可选的，所述中药自身的数据包括中药中含有的各元素及化合物成分数据，所述中药所处环境数据包括中药所处土壤的数据，所述中药所处土壤的数据包括土壤的元素含量数据、容重、含水量以及PH值。

可选的，所述关键数据的获取方法包括SelectKBest、Lasso和主成分分析法。

可选的，所述网络优化搜索模块包括：

参数初始化模块、用于关键数据中的参数初始化，将关键数据中的参数视为一个团队，整个团队包括四个部分，分别是绕行手B、跟随者F、超车手O和冲刺手A，整个团队的规模如下所示：

单独针对每个部分的规模为：

成功率设置模块、用于设置每个骑手的成功率，成功率用当前骑手和最终目标之间的距离来表示，如下所示：

其中

代表当前骑手的位置，

代表目标所在的位置；

排序模块、用于依据成功率大小对骑手进行排序，将距离目标位置最近的骑手即成功率最高的骑手作为领骑者；

位置更新模块、用于根据每种骑手类型下的参数搜索更新方式对各骑手的位置进行更新，其中，

追随者具有跟随领骑者并且快速达到目标的倾向，可以表示为：

其中，

属于坐标选择器；

代表领骑者的索引，

代表骑手的转向角，

代表距离；

超车手是要跟随领骑者的状态并试图超过，可以表示为：

其中

冲刺手则是通过跟随领骑者的位置更新状态来试图取代领骑者，可以表示为：

其中

和

都是0到1之间的随机数，而

和

是1到P之间的随机数；

成功率计算模块、用于骑手位置更新后，计算每个骑手的成功率；

骑手参数更新模块、用于更新骑手的参数，包括骑手自身的转向角、齿轮、加速器和制动器参数；

循坏迭代模块、用于执行更新骑手的位置和骑手参数，在t<T_off的情况下进行循坏迭代，直到到达停止时间T_off，最终领先的骑手为获胜者；

输出模块、用于根据最终的领先骑手输出最终的参数向量，该参数向量即为最优向量。

可选的，所述识别算法模块中的识别模型为LightGBM单模型或者Xgboost、随机森林及GBDT与LightGBM的结合模型。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明提供的基于骑手优化算法的LightGBM判断中药道地性的方法及系统，该方法首先采集中药的茎或叶中的元素成分以及中药所处生长环境数据，从而获取中药特征维度数据，通过骑手优化算法对甄选后的特征维度数据参数进行优化，得到最优向量，用于对LightGBM识别算法模型进行进一步优化，可以使得模型更加完善，提高中药道地药材分类的准确率，并且该方法不需要其他仪器设备的参与，相较于其他方式可行性强，在准确率、成本和效率上都得到了保证。本发明提供的基于骑手优化算法的LightGBM判断中药道地性的方法具有中药道地性判断成本低廉、准确性高以及判别速度快的特点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于骑手优化算法的LightGBM判断中药道地性的方法的流程图；

图2为本发明基于骑手优化算法的LightGBM判断中药道地性的系统的整体架构图。

具体实施方式

下面面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的目的是为了提供一种基于骑手优化算法的LightGBM判断中药道地性的方法及系统，能够解决现有的中药道地性判断存在的成本高、准确性低以及判别速度慢的问题。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例1：

如图1所示，为本发明提供的一种基于骑手优化算法的LightGBM判断中药道地性的方法，包括：

S1、获取中药的特征维度数据，包括中药自身的数据和中药所处环境数据。

S2、根据获取的各特征维度数据的数值范围，对各特征维度数据进行甄选和处理，得到特征维度数据中的关键数据；其中显著影响中药道地性的数据被认为是关键数据。

S3、采用优化算法对关键数据中的参数进行优化。

对具体的算法进行合适的参数寻优，优化算法采用骑手优化算法，用来解决多个参数搜索优化的问题；首先在模型训练过程中，中药自身的数据作为特征即作为输入变量，而中药所处环境数据提供标签，即作为输出变量，但是由于模型本身也需要各种参数调整（如lightGBM当中的max_depth、num_leaves、learning_rate、n_estimators等）。而这里的骑手优化算法就是对模型本身的各种参数进行优化，从而保证模型达到最佳的识别效果。其中，骑手优化算法对关键数据中的参数进行优化的过程为：

单独针对每个部分的规模为：

其中

代表当前骑手的位置，

代表目标所在的位置；

其中，

属于坐标选择器；

代表领骑者的索引，

代表骑手的转向角，

代表距离；

超车手是要跟随领骑者的状态并试图超过，可以表示为：

其中

其中

和

都是0到1之间的随机数，而

和

是1到P之间的随机数；

S305、骑手位置更新后，计算每个骑手的成功率；

骑手自身的转向角和齿轮都需要更新，分别基于活动计数器和成功率，此外加速器和制动器依据具体情况进行参数更新；

通过设置一个停止时间T_off，当未达到停止时间时，骑手位置和参数一直在执行更新，直到追到领骑者，最终领先的骑手将被视为获胜者；

S4、根据得到的优化参数，对识别模型进行优化，通过优化后的识别模型对中药道地性进行分类识别；识别模型为LightGBM单模型或者Xgboost、随机森林及GBDT与LightGBM的结合模型。

而在S3步骤中得到参数向量的过程（骑手优化算法），即为获得优化参数，S4步骤根据优化参数即完成对识别模型优化的过程。由于利用骑手优化算法可以求得最优向量，这样可以保证识别模型的参数是最佳参数，识别效果最佳。

其中，通过优化后的识别模型对中药道地性进行分类识别是指：当识别模型确定后，输入中药的土壤信息后，进入识别模型进行判断（原理就是，由于之前数据集包括各产地的土壤环境信息和道地性信息，由此可以训练相应的机器学习模型，当模型确定之后，新的测试数据输入，模型网络会进行相应的分类，本质是求得各类别的概率值，哪个类别概率值高就属于哪个类别。网络模型根据采用方式不同会有差异，这里的lightGBM属于树结构，前向过程类似决策树），测试过程中会利用已经优化好的机器学习模型针对输入数据进行前向计算，最终获得各类别的分类概率，概率高的一类就是最终的识别结果。

S5、输出识别结果并提示；

根据识别结果进行定向输出，若输出不合理进行必要提示。该步骤是进行道地的分类输出，即输出道地或者非道地。但是由于目前训练集的有限，可能会导致分类不正确。如本来应该是道地，但是最终输出时道地概率0.45，非道地概率0.55，会被误判为非道地。针对道地概率和非道地概率相差不大的情况（差值在0.1以内），会进行提示（可能会有误判）。

S6、对识别模型和识别算法进行更新迭代。

实施例2：

如图2所示，本发明还提供一种基于骑手优化算法的LightGBM判断中药道地性的系统，该系统包括：

数据获取模块、用于获取中药的特征维度数据，包括中药自身的数据和中药所处环境数据。

数据获取模块是指按照一定方式采集相应的中药元素和环境元素（土壤等），并将处理得到的数值信息传递给参数选择模块。

各类中药需进行中药自身化学成分采集和环境成分采集测量计算，根据所获取的成分进行具体的算法分析和道地性分类。以某一种中药——广藿香为例，需要采集的自身数据包括中药（含茎、叶）各种元素/化合物成分等，中药所处环境数据包括中药所处土壤的数据，中药所处土壤的数据包括土壤的元素含量数据、容重、含水量以及PH值。以上需要采集的中药特征维度大概100-200维左右。需要采集的土壤数据不限于常见的重金属元素和非金属元素以及pH值，例如：pH、Li、Be、B、Na、Mg、Al、Si、P、S、K、Ca、Sc、Ti、V、Cr、Mn、Fe、Co、Ni、Cu、Zn、Ga、Ge、As、Se、Rb、Sr、Y、Nb、Mo、Cd、Sb、Cs、Ba、La、Ce、Pr、Nd、Sm、Eu、Gd、Tb、Dy、Ho、Er、Tm、Yb、Lu、Tl、Pb、Th等。

参数选择模块、用于根据获取的各特征维度数据的数值范围，对各特征维度数据进行甄选和处理，得到特征维度数据中的关键数据。

具体参数选择模块根据实际场景下各个元素/成分的数值范围进行甄选，同时将得到的整体元素/成分信息进行处理，可以采用的方法包括SelectKBest、Lasso和主成分分析法，得到必要的关键成分/信息。

网络优化搜索模块、用于采用优化算法对关键数据中的参数进行优化。

网络优化搜索模块的整体框架如下：

输入：骑手Xt的随机位置；

输出：领先骑手Xl。

步骤：

1、初始化人数；

2、初始化骑手参数，包括转向角，齿轮，加速器和制动器状态；

3、计算成功率；

4、条件约束：

在t<Toff情况下进行循坏迭代：

逐一更新各骑手的位置状态；

更新绕行手的位置；

更新追随者的位置；

更新超车手的位置；

更新冲刺手的位置；

依据成功率对骑手进行排序；

选择具有最大成功率的骑手作为领骑者；

更新转向角、齿轮、加速度和制动器状态；

返回领骑者的位置；

时间加1；

依次结束循环。

识别算法模块、用于根据得到的优化参数，对识别模型进行优化，通过优化后的识别模型对中药道地性进行分类识别。

结果输出模块、用于输出识别结果并提示。

具体根据识别结果进行定向输出，若输出不合理进行必要提示。

模型更新模块、用于对识别模型和识别算法进行更新迭代。

其中，网络优化搜索模块包括：

单独针对每个部分的规模为：

其中

代表当前骑手的位置，

代表目标所在的位置。

排序模块、用于依据成功率大小对骑手进行排序，将距离目标位置最近的骑手即成功率最高的骑手作为领骑者。

其中，

属于坐标选择器；

代表领骑者的索引，

代表骑手的转向角，

代表距离。

超车手是要跟随领骑者的状态并试图超过，可以表示为：

其中

代表方向指示器，确定具体的超越方向；此处的v代表第v个超车手。

其中

和

都是0到1之间的随机数，而

和

是1到P之间的随机数。

成功率计算模块、用于骑手位置更新后，计算每个骑手的成功率。

骑手参数更新模块、用于更新骑手的参数，包括骑手自身的转向角、齿轮、加速器和制动器参数。

循坏迭代模块、用于执行更新骑手的位置和骑手参数，在t<T_off的情况下进行循坏迭代，直到到达停止时间T_off，最终领先的骑手为获胜者。

整体来看，骑手优化算法相对复杂，主要涉及了四类个体的迭代行为，其中最重要的是其中的各类自适应参数。可以得出，冲刺手相对于其他骑手可以较快的靠近最领骑者，而且超车手能够对全局进行充分的探索以获得更快的收敛速度。本算法适合于在较多参数下如何依据最优个体位置进行求解。

最终的骑手优化算法的输出结果是获取一个最终的参数向量，该参数向量是针对最终的系统目标得到的相对最优向量，可根据输出的结果优化后续的算法过程。

经过骑手优化算法得到的参数进入到识别算法模块，可针对识别算法模型进行进一步优化。如以实际获取的中药广藿香为例，识别算法模块如果采用经过骑手优化算法的LightGBM，可以使得模型更加完善，获得更高的准确率，可以针对LightGBM中的learning_rate、n_estimators等进行优化。

实际处理过程中，为了获得更高的准确率，往往需要进行多模型融合，综合各个模型在数据集下的特性，此时由于涉及多个模型，因此不可避免地伴随了很多参数，此时利用骑手优化算法综合考虑，可以获得更接近最优结果的参数向量。

这里以中药广藿香数据作为样例，具体地点包括广东省阳江市、广东省茂名市、广东省肇庆市、广东省湛江市、广西贵港市、广西南宁市、广西河池市、广西百色市、海南万宁市等，相应的采集数据有中药本身茎和叶的数据（各项元素含量）和土壤环境相关的理化数据（如容重、含水量、PH、元素含量等）。

针对上述样本进行元素选择，选用方法可以采用主成分分析、Lasso或者Seleckbest等，关键影响因子可以包含10-30个。

如果采用单模型的LightGBM进行道地性分类，其中包含的参数涉及以下几个，如表1所示：

表1 LightGBM重要参数示意

当然也可以采用Xgboost、随机森林、GBDT等和LightGBM结合，进行多个模型综合决策，采用骑手优化算法针对各个模型系统中的重要参数进行参数选择并进行合理搜索优化。利用搜索优化之后的参数，往往可以提升多模型的判别效果。

采用骑手优化的方式搜索较优的分类算法基本参数（利用LightGBM判别），最终得到的具体参数数值如表2所示：

表2 针对LightGBM进行骑手优化搜索所得参数

完成优化设置之后，利用LightGBM进行道地药材分类，针对十次随机的数据集划分，测试准确度为94.5%，而相同的数据集划分之下，之前未做参数的优化准确度为93.4%，提升了1.1%，可以看出利用智能优化搜索算法下的LightGBM效果更佳，同时避免了如随机森林等更高维搜索带来的效率损失。

本发明提供的基于骑手优化算法的LightGBM判断中药道地性的方法及系统，该系统可以在现有的数据采集情况下，较为简便地完成中药道地性的实际判别；网络搜索优化算法和机器学习算法两部分均可以根据实际中药的判别情况和具体要求进行定期更新，如果后期针对完成时间和完成效果有更高的要求，也可以分别针对各个模块进行单独替换和优化。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。