CN114357896A - 一种基于骑手优化算法的LightGBM判断中药道地性的方法和系统 - Google Patents
一种基于骑手优化算法的LightGBM判断中药道地性的方法和系统 Download PDFInfo
- Publication number
- CN114357896A CN114357896A CN202210275215.9A CN202210275215A CN114357896A CN 114357896 A CN114357896 A CN 114357896A CN 202210275215 A CN202210275215 A CN 202210275215A CN 114357896 A CN114357896 A CN 114357896A
- Authority
- CN
- China
- Prior art keywords
- rider
- data
- chinese medicine
- parameters
- lightgbm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000003814 drug Substances 0.000 title claims abstract description 85
- 238000005457 optimization Methods 0.000 title claims abstract description 76
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 71
- 238000000034 method Methods 0.000 title claims abstract description 37
- 229940126680 traditional chinese medicines Drugs 0.000 claims abstract description 12
- 238000012545 processing Methods 0.000 claims abstract description 8
- 238000012216 screening Methods 0.000 claims abstract description 7
- 239000002689 soil Substances 0.000 claims description 20
- 230000007613 environmental effect Effects 0.000 claims description 11
- 238000007637 random forest analysis Methods 0.000 claims description 8
- 238000012163 sequencing technique Methods 0.000 claims description 7
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 6
- 150000001875 compounds Chemical class 0.000 claims description 5
- 238000000513 principal component analysis Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 239000000463 material Substances 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 241000222666 Boerhavia diffusa Species 0.000 description 2
- 235000011751 Pogostemon cablin Nutrition 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 229940126678 chinese medicines Drugs 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 238000012847 principal component analysis method Methods 0.000 description 2
- 229910052684 Cerium Inorganic materials 0.000 description 1
- 229910052692 Dysprosium Inorganic materials 0.000 description 1
- 229910052691 Erbium Inorganic materials 0.000 description 1
- 229910052693 Europium Inorganic materials 0.000 description 1
- 229910052688 Gadolinium Inorganic materials 0.000 description 1
- 229910052689 Holmium Inorganic materials 0.000 description 1
- 229910052779 Neodymium Inorganic materials 0.000 description 1
- 229910052777 Praseodymium Inorganic materials 0.000 description 1
- 229910052772 Samarium Inorganic materials 0.000 description 1
- 229910052771 Terbium Inorganic materials 0.000 description 1
- 229910052776 Thorium Inorganic materials 0.000 description 1
- 229910052775 Thulium Inorganic materials 0.000 description 1
- 229910052769 Ytterbium Inorganic materials 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000036531 allelopathy Effects 0.000 description 1
- 229910052782 aluminium Inorganic materials 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 229910052787 antimony Inorganic materials 0.000 description 1
- 229910052785 arsenic Inorganic materials 0.000 description 1
- 229910052788 barium Inorganic materials 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 229910052790 beryllium Inorganic materials 0.000 description 1
- 229910052796 boron Inorganic materials 0.000 description 1
- 229910052792 caesium Inorganic materials 0.000 description 1
- 229910052791 calcium Inorganic materials 0.000 description 1
- 229910052804 chromium Inorganic materials 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 229910052733 gallium Inorganic materials 0.000 description 1
- 229910052732 germanium Inorganic materials 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 229910052742 iron Inorganic materials 0.000 description 1
- 229910052746 lanthanum Inorganic materials 0.000 description 1
- 229910052745 lead Inorganic materials 0.000 description 1
- 229910052744 lithium Inorganic materials 0.000 description 1
- 229910052749 magnesium Inorganic materials 0.000 description 1
- 229910052748 manganese Inorganic materials 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 229910052751 metal Inorganic materials 0.000 description 1
- 229910052759 nickel Inorganic materials 0.000 description 1
- 229910052758 niobium Inorganic materials 0.000 description 1
- 229910052698 phosphorus Inorganic materials 0.000 description 1
- 229910052700 potassium Inorganic materials 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 229910052706 scandium Inorganic materials 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 229910052708 sodium Inorganic materials 0.000 description 1
- 229910052712 strontium Inorganic materials 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 229910052717 sulfur Inorganic materials 0.000 description 1
- 229910052719 titanium Inorganic materials 0.000 description 1
- 229910052720 vanadium Inorganic materials 0.000 description 1
- 229910052727 yttrium Inorganic materials 0.000 description 1
- 229910052725 zinc Inorganic materials 0.000 description 1
Images
Landscapes
- Traffic Control Systems (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
发明公开了一种基于骑手优化算法的LightGBM判断中药道地性的方法和系统,该方法包括:S1、获取各类中药的特征维度数据,包括中药自身的数据和中药所处环境数据;S2、根据获取的各特征维度数据的数值范围,对各特征维度数据进行甄选和处理,得到特征维度数据中的关键数据;S3、采用优化算法对关键数据中的参数进行优化;S4、根据得到的优化参数,对识别模型进行优化,通过优化后的识别模型对中药道地性进行分类识别;S5、输出识别结果并提示;S6、对所述识别模型进行更新迭代。本发明提供的基于骑手优化算法的LightGBM判断中药道地性的方法具有中药道地性判断成本低廉、准确性高以及判别速度快的特点。
Description
技术领域
本发明涉及中药道地性研究技术领域,特别是涉及一种基于骑手优化算法的LightGBM判断中药道地性的方法和系统。
背景技术
目前,中药的道地性判断是一个相对困难的问题,单纯从外观和气味上很难对其进行有效科学的判断,且判断结果准确率偏低。即便依靠对中药品质和特性较为了解的专家,也很难保证对道地药材有很好的划分,同时引入了人力消耗。因此,如何根据环境成分快速准确地完成中药道地性判断是个值得研究的问题。
在拿到了中药产地的环境信息后,可以根据环境信息对中药进行划分。传统的机器学习方法可以采用SVM(支持向量机)、KNN、决策树和集成模型等。SVM只需要少量样本、可以节约部分内存,但是因为需要将低维无序数据通过构建核函数(sigmod、RBF等)划定具体平面进行分类,计算代价会上升;KNN没有引入其他参数,但是计算复杂度较高,引入的K值需要人为设定;决策树可以针对少量/缺失/多种数据进行分类,可解释性较强,但是训练时间较长;集成模型使用最多的是random forest(随机森林),样本随机抽取,多个模型的结果通过Vote得到,且各个模型间可以相互影响,或者采用gradient boost将弱分类器按照一定的计算方式组合成强分类器,最终是多个分类器相互综合影响的结果,虽然这种模型融合的方式会提升分类的准确度,但集成模型的弊端在于受到概率的影响,具有一定的不确定性。当然也可以采用神经网络如MLP、CNN、RNN等进行中药道地性的划分,但由于细分领域的中药环境数据维度一般是特征维度在100-200维以上,构建专门的神经网络进行训练测试没有必要。因此,基于现有技术存在的以上问题,亟需提出一种新的判断中药道地性的方法,以用来弥补现有技术的不足。
发明内容
本发明的目的是为了提供一种基于骑手优化算法的LightGBM判断中药道地性的方法和系统,能够解决现有的中药道地性判断存在的成本高、准确性低以及判别速度慢的问题。
为实现上述目的,本发明提供了如下方案:
第一方面,本发明提供一种基于骑手优化算法的LightGBM判断中药道地性的方法,包括:
S1、获取各类中药的特征维度数据,包括中药自身的数据和中药所处环境数据;
S2、根据获取的各特征维度数据的数值范围,对各特征维度数据进行甄选和处理,得到特征维度数据中的关键数据;
S3、采用优化算法对关键数据中的参数进行优化;
S4、根据得到的优化参数,对识别模型进行优化,通过优化后的识别模型对中药道地性进行分类识别;
S5、输出识别结果并提示;
S6、对所述识别模型进行更新迭代。
可选的,所述步骤S1中的中药自身的数据包括中药中含有的各元素及化合物成分数据,所述中药所处环境数据包括中药所处土壤的数据,所述中药所处土壤的数据包括土壤的元素含量数据、容重、含水量以及PH值。
可选的,所述步骤S2中的关键数据的获取方法包括SelectKBest、Lasso和主成分分析法。
可选的,所述步骤S3中的优化算法采用骑手优化算法,所述骑手优化算法对关键数据中的参数进行优化的过程为:
S301、关键数据中的参数初始化,将关键数据中的参数视为一个团队,整个团队包括四个部分,分别是绕行手B、跟随者F、超车手O和冲刺手A,整个团队的规模如下所示:
单独针对每个部分的规模为:
S302、设置成功率,成功率用当前骑手和最终目标之间的距离来表示,如下所示:
S303、依据成功率大小对骑手进行排序,将距离目标位置最近的骑手即成功率最高的骑手作为领骑者;
S304、根据每种骑手类型下的参数搜索更新方式对各骑手的位置进行更新,其中,
追随者具有跟随领骑者并且快速达到目标的倾向,表示为:
超车手是要跟随领骑者的状态并试图超过,可以表示为:
冲刺手则是通过跟随领骑者的位置更新状态来试图取代领骑者,表示为:
绕行手绕过公共路径,因此位置更新是随机的,可以表示为:
S305、骑手位置更新后,计算每个骑手的成功率;
S306、更新骑手的参数,包括骑手自身的转向角、齿轮、加速器和制动器参数;
S307、返回步骤S303,执行更新骑手的位置和骑手参数,在t<Toff的情况下进行循坏迭代,直到到达停止时间Toff,最终领先的骑手为获胜者;
S308、根据最终的领先骑手输出最终的参数向量,该参数向量即为最优向量。
可选的,所述步骤S4中的识别模型为LightGBM单模型或者Xgboost、随机森林及GBDT与LightGBM的结合模型。
第二方面,本发明还提供一种基于骑手优化算法的LightGBM判断中药道地性的系统,包括:
数据获取模块、用于获取中药的特征维度数据,包括中药自身的数据和中药所处环境数据;
参数选择模块、用于根据获取的各特征维度数据的数值范围,对各特征维度数据进行甄选和处理,得到特征维度数据中的关键数据;
网络优化搜索模块、用于采用优化算法对关键数据中的参数进行优化;
识别算法模块、用于根据得到的优化参数,对识别模型进行优化,通过优化后的识别模型对中药道地性进行分类识别;
结果输出模块、用于输出识别结果并提示;
模型更新模块、用于对识别模型和识别算法进行更新迭代。
可选的,所述中药自身的数据包括中药中含有的各元素及化合物成分数据,所述中药所处环境数据包括中药所处土壤的数据,所述中药所处土壤的数据包括土壤的元素含量数据、容重、含水量以及PH值。
可选的,所述关键数据的获取方法包括SelectKBest、Lasso和主成分分析法。
可选的,所述网络优化搜索模块包括:
参数初始化模块、用于关键数据中的参数初始化,将关键数据中的参数视为一个团队,整个团队包括四个部分,分别是绕行手B、跟随者F、超车手O和冲刺手A,整个团队的规模如下所示:
单独针对每个部分的规模为:
成功率设置模块、用于设置每个骑手的成功率,成功率用当前骑手和最终目标之间的距离来表示,如下所示:
排序模块、用于依据成功率大小对骑手进行排序,将距离目标位置最近的骑手即成功率最高的骑手作为领骑者;
位置更新模块、用于根据每种骑手类型下的参数搜索更新方式对各骑手的位置进行更新,其中,
追随者具有跟随领骑者并且快速达到目标的倾向,可以表示为:
超车手是要跟随领骑者的状态并试图超过,可以表示为:
冲刺手则是通过跟随领骑者的位置更新状态来试图取代领骑者,可以表示为:
绕行手绕过公共路径,因此位置更新是随机的,可以表示为:
成功率计算模块、用于骑手位置更新后,计算每个骑手的成功率;
骑手参数更新模块、用于更新骑手的参数,包括骑手自身的转向角、齿轮、加速器和制动器参数;
循坏迭代模块、用于执行更新骑手的位置和骑手参数,在t<Toff的情况下进行循坏迭代,直到到达停止时间Toff,最终领先的骑手为获胜者;
输出模块、用于根据最终的领先骑手输出最终的参数向量,该参数向量即为最优向量。
可选的,所述识别算法模块中的识别模型为LightGBM单模型或者Xgboost、随机森林及GBDT与LightGBM的结合模型。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明提供的基于骑手优化算法的LightGBM判断中药道地性的方法及系统,该方法首先采集中药的茎或叶中的元素成分以及中药所处生长环境数据,从而获取中药特征维度数据,通过骑手优化算法对甄选后的特征维度数据参数进行优化,得到最优向量,用于对LightGBM识别算法模型进行进一步优化,可以使得模型更加完善,提高中药道地药材分类的准确率,并且该方法不需要其他仪器设备的参与,相较于其他方式可行性强,在准确率、成本和效率上都得到了保证。本发明提供的基于骑手优化算法的LightGBM判断中药道地性的方法具有中药道地性判断成本低廉、准确性高以及判别速度快的特点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明基于骑手优化算法的LightGBM判断中药道地性的方法的流程图;
图2为本发明基于骑手优化算法的LightGBM判断中药道地性的系统的整体架构图。
具体实施方式
下面面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是为了提供一种基于骑手优化算法的LightGBM判断中药道地性的方法及系统,能够解决现有的中药道地性判断存在的成本高、准确性低以及判别速度慢的问题。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例1:
如图1所示,为本发明提供的一种基于骑手优化算法的LightGBM判断中药道地性的方法,包括:
S1、获取中药的特征维度数据,包括中药自身的数据和中药所处环境数据。
S2、根据获取的各特征维度数据的数值范围,对各特征维度数据进行甄选和处理,得到特征维度数据中的关键数据;其中显著影响中药道地性的数据被认为是关键数据。
S3、采用优化算法对关键数据中的参数进行优化。
对具体的算法进行合适的参数寻优,优化算法采用骑手优化算法,用来解决多个参数搜索优化的问题;首先在模型训练过程中,中药自身的数据作为特征即作为输入变量,而中药所处环境数据提供标签,即作为输出变量,但是由于模型本身也需要各种参数调整(如lightGBM当中的max_depth、num_leaves、learning_rate、n_estimators等)。而这里的骑手优化算法就是对模型本身的各种参数进行优化,从而保证模型达到最佳的识别效果。其中,骑手优化算法对关键数据中的参数进行优化的过程为:
S301、关键数据中的参数初始化,将关键数据中的参数视为一个团队,整个团队包括四个部分,分别是绕行手B、跟随者F、超车手O和冲刺手A,整个团队的规模如下所示:
单独针对每个部分的规模为:
S302、设置成功率,成功率用当前骑手和最终目标之间的距离来表示,如下所示:
S303、依据成功率大小对骑手进行排序,将距离目标位置最近的骑手即成功率最高的骑手作为领骑者;
S304、根据每种骑手类型下的参数搜索更新方式对各骑手的位置进行更新,其中,
追随者具有跟随领骑者并且快速达到目标的倾向,可以表示为:
超车手是要跟随领骑者的状态并试图超过,可以表示为:
冲刺手则是通过跟随领骑者的位置更新状态来试图取代领骑者,可以表示为:
绕行手绕过公共路径,因此位置更新是随机的,可以表示为:
S305、骑手位置更新后,计算每个骑手的成功率;
S306、更新骑手的参数,包括骑手自身的转向角、齿轮、加速器和制动器参数;
骑手自身的转向角和齿轮都需要更新,分别基于活动计数器和成功率,此外加速器和制动器依据具体情况进行参数更新;
S307、返回步骤S303,执行更新骑手的位置和骑手参数,在t<Toff的情况下进行循坏迭代,直到到达停止时间Toff,最终领先的骑手为获胜者;
通过设置一个停止时间Toff,当未达到停止时间时,骑手位置和参数一直在执行更新,直到追到领骑者,最终领先的骑手将被视为获胜者;
S308、根据最终的领先骑手输出最终的参数向量,该参数向量即为最优向量。
S4、根据得到的优化参数,对识别模型进行优化,通过优化后的识别模型对中药道地性进行分类识别;识别模型为LightGBM单模型或者Xgboost、随机森林及GBDT与LightGBM的结合模型。
而在S3步骤中得到参数向量的过程(骑手优化算法),即为获得优化参数,S4步骤根据优化参数即完成对识别模型优化的过程。由于利用骑手优化算法可以求得最优向量,这样可以保证识别模型的参数是最佳参数,识别效果最佳。
其中,通过优化后的识别模型对中药道地性进行分类识别是指:当识别模型确定后,输入中药的土壤信息后,进入识别模型进行判断(原理就是,由于之前数据集包括各产地的土壤环境信息和道地性信息,由此可以训练相应的机器学习模型,当模型确定之后,新的测试数据输入,模型网络会进行相应的分类,本质是求得各类别的概率值,哪个类别概率值高就属于哪个类别。网络模型根据采用方式不同会有差异,这里的lightGBM属于树结构,前向过程类似决策树),测试过程中会利用已经优化好的机器学习模型针对输入数据进行前向计算,最终获得各类别的分类概率,概率高的一类就是最终的识别结果。
S5、输出识别结果并提示;
根据识别结果进行定向输出,若输出不合理进行必要提示。该步骤是进行道地的分类输出,即输出道地或者非道地。但是由于目前训练集的有限,可能会导致分类不正确。如本来应该是道地,但是最终输出时道地概率0.45,非道地概率0.55,会被误判为非道地。针对道地概率和非道地概率相差不大的情况(差值在0.1以内),会进行提示(可能会有误判)。
S6、对识别模型和识别算法进行更新迭代。
实施例2:
如图2所示,本发明还提供一种基于骑手优化算法的LightGBM判断中药道地性的系统,该系统包括:
数据获取模块、用于获取中药的特征维度数据,包括中药自身的数据和中药所处环境数据。
数据获取模块是指按照一定方式采集相应的中药元素和环境元素(土壤等),并将处理得到的数值信息传递给参数选择模块。
各类中药需进行中药自身化学成分采集和环境成分采集测量计算,根据所获取的成分进行具体的算法分析和道地性分类。以某一种中药——广藿香为例,需要采集的自身数据包括中药(含茎、叶)各种元素/化合物成分等,中药所处环境数据包括中药所处土壤的数据,中药所处土壤的数据包括土壤的元素含量数据、容重、含水量以及PH值。以上需要采集的中药特征维度大概100-200维左右。需要采集的土壤数据不限于常见的重金属元素和非金属元素以及pH值,例如:pH、Li、Be、B、Na、Mg、Al、Si、P、S、K、Ca、Sc、Ti、V、Cr、Mn、Fe、Co、Ni、Cu、Zn、Ga、Ge、As、Se、Rb、Sr、Y、Nb、Mo、Cd、Sb、Cs、Ba、La、Ce、Pr、Nd、Sm、Eu、Gd、Tb、Dy、Ho、Er、Tm、Yb、Lu、Tl、Pb、Th等。
参数选择模块、用于根据获取的各特征维度数据的数值范围,对各特征维度数据进行甄选和处理,得到特征维度数据中的关键数据。
具体参数选择模块根据实际场景下各个元素/成分的数值范围进行甄选,同时将得到的整体元素/成分信息进行处理,可以采用的方法包括SelectKBest、Lasso和主成分分析法,得到必要的关键成分/信息。
网络优化搜索模块、用于采用优化算法对关键数据中的参数进行优化。
网络优化搜索模块的整体框架如下:
输入:骑手Xt的随机位置;
输出:领先骑手Xl。
步骤:
1、 初始化人数;
2、 初始化骑手参数,包括转向角,齿轮,加速器和制动器状态;
3、计算成功率;
4、条件约束:
在t<Toff情况下进行循坏迭代:
逐一更新各骑手的位置状态;
更新绕行手的位置;
更新追随者的位置;
更新超车手的位置;
更新冲刺手的位置;
依据成功率对骑手进行排序;
选择具有最大成功率的骑手作为领骑者;
更新转向角、齿轮、加速度和制动器状态;
返回领骑者的位置;
时间加1;
依次结束循环。
识别算法模块、用于根据得到的优化参数,对识别模型进行优化,通过优化后的识别模型对中药道地性进行分类识别。
结果输出模块、用于输出识别结果并提示。
具体根据识别结果进行定向输出,若输出不合理进行必要提示。
模型更新模块、用于对识别模型和识别算法进行更新迭代。
其中,网络优化搜索模块包括:
参数初始化模块、用于关键数据中的参数初始化,将关键数据中的参数视为一个团队,整个团队包括四个部分,分别是绕行手B、跟随者F、超车手O和冲刺手A,整个团队的规模如下所示:
单独针对每个部分的规模为:
成功率设置模块、用于设置每个骑手的成功率,成功率用当前骑手和最终目标之间的距离来表示,如下所示:
排序模块、用于依据成功率大小对骑手进行排序,将距离目标位置最近的骑手即成功率最高的骑手作为领骑者。
位置更新模块、用于根据每种骑手类型下的参数搜索更新方式对各骑手的位置进行更新,其中,
追随者具有跟随领骑者并且快速达到目标的倾向,可以表示为:
超车手是要跟随领骑者的状态并试图超过,可以表示为:
冲刺手则是通过跟随领骑者的位置更新状态来试图取代领骑者,可以表示为:
绕行手绕过公共路径,因此位置更新是随机的,可以表示为:
成功率计算模块、用于骑手位置更新后,计算每个骑手的成功率。
骑手参数更新模块、用于更新骑手的参数,包括骑手自身的转向角、齿轮、加速器和制动器参数。
循坏迭代模块、用于执行更新骑手的位置和骑手参数,在t<Toff的情况下进行循坏迭代,直到到达停止时间Toff,最终领先的骑手为获胜者。
输出模块、用于根据最终的领先骑手输出最终的参数向量,该参数向量即为最优向量。
整体来看,骑手优化算法相对复杂,主要涉及了四类个体的迭代行为,其中最重要的是其中的各类自适应参数。可以得出,冲刺手相对于其他骑手可以较快的靠近最领骑者,而且超车手能够对全局进行充分的探索以获得更快的收敛速度。本算法适合于在较多参数下如何依据最优个体位置进行求解。
最终的骑手优化算法的输出结果是获取一个最终的参数向量,该参数向量是针对最终的系统目标得到的相对最优向量,可根据输出的结果优化后续的算法过程。
经过骑手优化算法得到的参数进入到识别算法模块,可针对识别算法模型进行进一步优化。如以实际获取的中药广藿香为例,识别算法模块如果采用经过骑手优化算法的LightGBM,可以使得模型更加完善,获得更高的准确率,可以针对LightGBM中的learning_rate、n_estimators等进行优化。
实际处理过程中,为了获得更高的准确率,往往需要进行多模型融合,综合各个模型在数据集下的特性,此时由于涉及多个模型,因此不可避免地伴随了很多参数,此时利用骑手优化算法综合考虑,可以获得更接近最优结果的参数向量。
这里以中药广藿香数据作为样例,具体地点包括广东省阳江市、广东省茂名市、广东省肇庆市、广东省湛江市、广西贵港市、广西南宁市、广西河池市、广西百色市、海南万宁市等,相应的采集数据有中药本身茎和叶的数据(各项元素含量)和土壤环境相关的理化数据(如容重、含水量、PH、元素含量等)。
针对上述样本进行元素选择,选用方法可以采用主成分分析、Lasso或者Seleckbest等,关键影响因子可以包含10-30个。
如果采用单模型的LightGBM进行道地性分类,其中包含的参数涉及以下几个,如表1所示:
表1 LightGBM重要参数示意
当然也可以采用Xgboost、随机森林、GBDT等和LightGBM结合,进行多个模型综合决策,采用骑手优化算法针对各个模型系统中的重要参数进行参数选择并进行合理搜索优化。利用搜索优化之后的参数,往往可以提升多模型的判别效果。
采用骑手优化的方式搜索较优的分类算法基本参数(利用LightGBM判别),最终得到的具体参数数值如表2所示:
表2 针对LightGBM进行骑手优化搜索所得参数
完成优化设置之后,利用LightGBM进行道地药材分类,针对十次随机的数据集划分,测试准确度为94.5%,而相同的数据集划分之下,之前未做参数的优化准确度为93.4%,提升了1.1%,可以看出利用智能优化搜索算法下的LightGBM效果更佳,同时避免了如随机森林等更高维搜索带来的效率损失。
本发明提供的基于骑手优化算法的LightGBM判断中药道地性的方法及系统,该系统可以在现有的数据采集情况下,较为简便地完成中药道地性的实际判别;网络搜索优化算法和机器学习算法两部分均可以根据实际中药的判别情况和具体要求进行定期更新,如果后期针对完成时间和完成效果有更高的要求,也可以分别针对各个模块进行单独替换和优化。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种基于骑手优化算法的LightGBM判断中药道地性的方法,其特征在于,包括:
S1、获取各类中药的特征维度数据,包括中药自身的数据和中药所处环境数据;
S2、根据获取的各特征维度数据的数值范围,对各特征维度数据进行甄选和处理,得到特征维度数据中的关键数据;
S3、采用优化算法对关键数据中的参数进行优化;
S4、根据得到的优化参数,对识别模型进行优化,通过优化后的识别模型对中药道地性进行分类识别;
S5、输出识别结果并提示;
S6、对所述识别模型进行更新迭代。
2.据权利要求1所述的基于骑手优化算法的LightGBM判断中药道地性的方法,其特征在于,所述步骤S1中的中药自身的数据包括中药中含有的各元素及化合物成分数据,所述中药所处环境数据包括中药所处土壤的数据,所述中药所处土壤的数据包括土壤的元素含量数据、容重、含水量以及PH值。
3.据权利要求1所述的基于骑手优化算法的LightGBM判断中药道地性的方法,其特征在于,所述步骤S2中的关键数据的获取方法包括SelectKBest、Lasso和主成分分析法。
4.根据权利要求1所述的基于骑手优化算法的LightGBM判断中药道地性的方法,其特征在于,所述步骤S3中的优化算法采用骑手优化算法,所述骑手优化算法对关键数据中的参数进行优化的过程为:
S301、关键数据中的参数初始化,将关键数据中的参数视为一个团队,整个团队包括四个部分,分别是绕行手B、跟随者F、超车手O和冲刺手A,整个团队的规模如下所示:
单独针对每个部分的规模为:
S302、设置成功率,成功率用当前骑手和最终目标之间的距离来表示,如下所示:
S303、依据成功率大小对骑手进行排序,将距离目标位置最近的骑手即成功率最高的骑手作为领骑者;
S304、根据每种骑手类型下的参数搜索更新方式对各骑手的位置进行更新,其中,
追随者具有跟随领骑者并且快速达到目标的倾向,表示为:
超车手是要跟随领骑者的状态并试图超过,表示为:
冲刺手则是通过跟随领骑者的位置更新状态来试图取代领骑者,可以表示为:
绕行手绕过公共路径,因此位置更新是随机的,可以表示为:
S305、骑手位置更新后,计算每个骑手的成功率;
S306、更新骑手的参数,包括骑手自身的转向角、齿轮、加速器和制动器参数;
S307、返回步骤S303,执行更新骑手的位置和骑手参数,在t<Toff的情况下进行循坏迭代,直到到达停止时间Toff,最终领先的骑手为获胜者;
S308、根据最终的领先骑手输出最终的参数向量,该参数向量即为最优向量。
5.根据权利要求1所述的基于骑手优化算法的LightGBM判断中药道地性的方法,其特征在于,所述步骤S4中的识别模型为LightGBM单模型或者Xgboost、随机森林及GBDT与LightGBM的结合模型。
6.一种基于骑手优化算法的LightGBM判断中药道地性的系统,其特征在于,包括:
数据获取模块、用于获取中药的特征维度数据,包括中药自身的数据和中药所处环境数据;
参数选择模块、用于根据获取的各特征维度数据的数值范围,对各特征维度数据进行甄选和处理,得到特征维度数据中的关键数据;
网络优化搜索模块、用于采用优化算法对关键数据中的参数进行优化;
识别算法模块、用于根据得到的优化参数,对识别模型进行优化,通过优化后的识别模型对中药道地性进行分类识别;
结果输出模块、用于输出识别结果并提示;
模型更新模块、用于对识别模型和识别算法进行更新迭代。
7.根据权利要求6所述的基于骑手优化算法的LightGBM判断中药道地性的系统,其特征在于,所述中药自身的数据包括中药中含有的各元素及化合物成分数据,所述中药所处环境数据包括中药所处土壤的数据,所述中药所处土壤的数据包括土壤的元素含量数据、容重、含水量以及PH值。
8.根据权利要求6所述的基于骑手优化算法的LightGBM判断中药道地性的系统,其特征在于,所述关键数据的获取方法包括SelectKBest、Lasso和主成分分析法。
9.根据权利要求6所述的基于骑手优化算法的LightGBM判断中药道地性的系统,其特征在于,所述网络优化搜索模块包括:
参数初始化模块、用于关键数据中的参数初始化,将关键数据中的参数视为一个团队,整个团队包括四个部分,分别是绕行手B、跟随者F、超车手O和冲刺手A,整个团队的规模如下所示:
单独针对每个部分的规模为:
成功率设置模块、用于设置每个骑手的成功率,成功率用当前骑手和最终目标之间的距离来表示,如下所示:
排序模块、用于依据成功率大小对骑手进行排序,将距离目标位置最近的骑手即成功率最高的骑手作为领骑者;
位置更新模块、用于根据每种骑手类型下的参数搜索更新方式对各骑手的位置进行更新,其中,
追随者具有跟随领骑者并且快速达到目标的倾向,可以表示为:
超车手是要跟随领骑者的状态并试图超过,可以表示为:
冲刺手则是通过跟随领骑者的位置更新状态来试图取代领骑者,可以表示为:
绕行手绕过公共路径,因此位置更新是随机的,可以表示为:
成功率计算模块、用于骑手位置更新后,计算每个骑手的成功率;
骑手参数更新模块、用于更新骑手的参数,包括骑手自身的转向角、齿轮、加速器和制动器参数;
循坏迭代模块、用于执行更新骑手的位置和骑手参数,在t<Toff的情况下进行循坏迭代,直到到达停止时间Toff,最终领先的骑手为获胜者;
输出模块、用于根据最终的领先骑手输出最终的参数向量,该参数向量即为最优向量。
10.根据权利要求6所述的基于骑手优化算法的LightGBM判断中药道地性的系统,其特征在于,所述识别算法模块中的识别模型为LightGBM单模型或者Xgboost、随机森林及GBDT与LightGBM的结合模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210275215.9A CN114357896B (zh) | 2022-03-21 | 2022-03-21 | 一种基于骑手优化算法的LightGBM判断中药道地性的方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210275215.9A CN114357896B (zh) | 2022-03-21 | 2022-03-21 | 一种基于骑手优化算法的LightGBM判断中药道地性的方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114357896A true CN114357896A (zh) | 2022-04-15 |
CN114357896B CN114357896B (zh) | 2022-06-10 |
Family
ID=81095000
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210275215.9A Active CN114357896B (zh) | 2022-03-21 | 2022-03-21 | 一种基于骑手优化算法的LightGBM判断中药道地性的方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114357896B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107677647A (zh) * | 2017-09-25 | 2018-02-09 | 重庆邮电大学 | 基于主成分分析和bp神经网络的中药材产地鉴别方法 |
CN109948676A (zh) * | 2019-03-06 | 2019-06-28 | 颐保医疗科技(上海)有限公司 | 一种基于人工智能的中药材种植产地的鉴别方法 |
CN112101300A (zh) * | 2020-11-02 | 2020-12-18 | 北京妙医佳健康科技集团有限公司 | 药材识别方法、装置及电子设备 |
CN112666119A (zh) * | 2020-12-03 | 2021-04-16 | 山东省科学院自动化研究所 | 基于太赫兹时域光谱技术的人参道地性检测方法及系统 |
-
2022
- 2022-03-21 CN CN202210275215.9A patent/CN114357896B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107677647A (zh) * | 2017-09-25 | 2018-02-09 | 重庆邮电大学 | 基于主成分分析和bp神经网络的中药材产地鉴别方法 |
CN109948676A (zh) * | 2019-03-06 | 2019-06-28 | 颐保医疗科技(上海)有限公司 | 一种基于人工智能的中药材种植产地的鉴别方法 |
CN112101300A (zh) * | 2020-11-02 | 2020-12-18 | 北京妙医佳健康科技集团有限公司 | 药材识别方法、装置及电子设备 |
CN112666119A (zh) * | 2020-12-03 | 2021-04-16 | 山东省科学院自动化研究所 | 基于太赫兹时域光谱技术的人参道地性检测方法及系统 |
Non-Patent Citations (1)
Title |
---|
D.BINU 等: "RideNN: A New Rider Optimization Algorithm-Based Neural Network for Fault Diagnosis in Analog Circuits", 《IEEE TRANSACTIONS ON INSTRUMENTATION AND MEASUREMENT》 * |
Also Published As
Publication number | Publication date |
---|---|
CN114357896B (zh) | 2022-06-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104217214B (zh) | 基于可配置卷积神经网络的rgb‑d人物行为识别方法 | |
CN110188725A (zh) | 高分辨率遥感图像的场景识别系统及模型生成方法 | |
CN103955702B (zh) | 基于深度rbf网络的sar图像地物分类方法 | |
CN110287962A (zh) | 基于超对象信息的遥感图像目标提取方法、装置及介质 | |
CN109685653A (zh) | 一种融合深度信念网络和孤立森林算法的信贷风险监测的方法 | |
CN106023065A (zh) | 一种基于深度卷积神经网络的张量型高光谱图像光谱-空间降维方法 | |
CN108984745A (zh) | 一种融合多知识图谱的神经网络文本分类方法 | |
CN107871136A (zh) | 基于稀疏性随机池化的卷积神经网络的图像识别方法 | |
CN109063778A (zh) | 一种图像美学质量确定方法及系统 | |
CN102208037B (zh) | 基于高斯过程分类器协同训练算法的高光谱图像分类方法 | |
CN111651980B (zh) | 混合神经网络融合Attention机制的小麦抗寒性识别方法 | |
CN108090447A (zh) | 双分支深层结构下的高光谱图像分类方法及装置 | |
CN110321862B (zh) | 一种基于紧致三元损失的行人再识别方法 | |
CN110348608A (zh) | 一种基于模糊聚类算法改进lstm的预测方法 | |
CN102324038A (zh) | 一种基于数字图像的植物种类识别方法 | |
CN112434662B (zh) | 一种基于多尺度卷积神经网络的茶叶病斑自动识别算法 | |
Zhang et al. | AgriPest-YOLO: A rapid light-trap agricultural pest detection method based on deep learning | |
CN106874963A (zh) | 一种基于大数据技术的配电网故障诊断方法及系统 | |
Yan et al. | Land-cover classification with time-series remote sensing images by complete extraction of multiscale timing dependence | |
CN109558803B (zh) | 基于卷积神经网络与np准则的sar目标鉴别方法 | |
CN115376008A (zh) | 病虫害识别方法、装置、电子设备和存储介质 | |
CN115099461A (zh) | 基于双分支特征提取的太阳辐射预测方法及系统 | |
Zhao et al. | A CNN Model for Herb Identification Based on Part Priority Attention Mechanism | |
CN111414863A (zh) | 一种增强型集成遥感影像分类方法 | |
CN114357896B (zh) | 一种基于骑手优化算法的LightGBM判断中药道地性的方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |