CN112883191B

CN112883191B - 一种农业实体自动识别的分类方法及装置

Info

Publication number: CN112883191B
Application number: CN202110159592.1A
Authority: CN
Inventors: 李倩倩; 王明涛; 陈晨; 张保国; 刘鹏; 朱忠亮; 张明凯
Original assignee: Shandong Mgdaas System Co ltd
Current assignee: Shandong Mgdaas System Co ltd
Priority date: 2021-02-05
Filing date: 2021-02-05
Publication date: 2023-03-24
Anticipated expiration: 2041-02-05
Also published as: CN112883191A

Abstract

本发明公开的一种农业实体自动识别的分类方法及装置。一方面农业实体自动识别的分类方法利用爬虫从农业相关网络爬取数据，对所述数据进行格式化为数据集；将所述数据集的名称、类型标签、基本信息关键词以及基本信息关键词属性值进行词向量化；将所述数据集分为训练集和执行集，并对所述训练集中的样本进行分类标注，通过所述训练集对AdaBoost.M1‑KNN模型进行训练；通过所述AdaBoost.M1‑KNN模型对执行集进行分类形成农业实体分类库；将包含农业实体的文本进行分词、词性标注，根据所述词性标注进行筛选获取实体，将筛选出的实体与所述农业实体分类库匹配以获取农业实体及其对应的分类。本申请能够对非结构文本的农业实体自动识别分类，更高效地帮用户处理数据。

Description

一种农业实体自动识别的分类方法及装置

技术领域

本发明涉及农业信息分析领域，尤其涉及一种农业实体自动识别的分类方法及装置。

背景技术

随着社会信息化和数据化的发展，数据规模化自动化智能化处理是随着数据量变大后各行各业的发展的趋势。

农业是国民经济的基础产业，农业信息很多是以非结构化的文本信息呈现的，为了使整体知识水平相对较差的农民能够使用到信息网络带来的大量的农业数据，对农民关心的农业信息中的农业实体进行识别分类，农民根据识别分类以理解专业化的农业信息是适合农民的知识获取方式，然而现有技术中，缺乏对实现农业实体自动识别和分类尤其是非结构化的文本信息中的农业实体的自动识别分类手段。

发明内容

为解决上述的问题本申请提供一方面，本发明提供了一种农业实体自动识别的分类方法，包括：

利用爬虫从农业相关网络爬取数据，对所述数据进行格式化为包含名称、域名、类型标签、基本信息关键词以及基本信息关键词属性值的数据集；

将所述数据集的名称、类型标签、基本信息关键词以及基本信息关键词属性值进行词向量化；

将所述数据集分为训练集和执行集，并对所述训练集中的样本进行分类标注，通过所述训练集对AdaBoost.M1-KNN模型进行训练；

通过所述AdaBoost.M1-KNN模型对执行集进行分类形成农业实体分类库；

将包含农业实体的文本进行分词、词性标注，根据所述词性标注进行筛选获取实体，将筛选出的实体与所述农业实体分类库匹配以获取农业实体及其对应的分类。

优选地，对所述训练集中的样本进行的分类标注的类型包括非法类型、人物类型、地点类型、机构类型、政治经济类型、动物类型、植物类型、化学类型、气候类型、动植物产品类型、动植物疾病类型、自然灾害类型、营养素类型、生物学名词类型、农机具类型、农业技术类型、农作物部位类型、症状类型、发病条件类型；对不同的分类标注用不同的数值标签区分。

优选地，通过所述训练集的词向量化特征对AdaBoost.M1-KNN模型进行训练包括：

为n个样本分配初始值为1/n的分布权重D；

调用所述AdaBoost.M1-KNN模型中的KNN分类器进行迭代，获取每次迭代的训练结果，根据训练结果更新所述分布权重D，进行下一次迭代；

迭代T次获取T种KNN分类函数K1，K2，K3，……KT；

通过分布权重D结合T种KNN分类函数K1，K2，K3，……KT而实现所述AdaBoost.M1-KNN模型。

优选地，迭代次数T的确定条件为：

设定阈值，比较

是否达到所述阈值；

如果ε_t达到所述阈值，则取当前迭代的次数t减去一为最终迭代次数T。

优选地，通过分布权重D结合T种KNN分类函数K1，K2，K3，……KT而实现所述AdaBoost.M1-KNN模型为：

其中，/>

优选地，根据训练结果更新所述分布权重D包括：

判断KNN分类函数对样本i的分类结果是否正确；

如果样本i的分类结果不正确则其下一次迭代的分布权重Dt+1(i)等于当前分布权重Dt(i)；

如果样本i的分类结果正确则其下一次迭代的分布权重Dt+1(i)等于当前分布权重Dt(i)乘以β_t；

对分布权重Dt+1进行标准化处理。

优选地，所述KNN分类器分析任一所述执行集与全部所述训练集的名称、类型标签、基本信息关键词以及基本信息关键词属性值的词向量特征的相似性；所述相似性包括名称相似度、类型标签相似度、基本信息关键词相似度以及基本信息关键词属性相似度。

优选地，所述名称相似度S1为两个所述名称的词向量之间的欧几里得距离；所述类型标签相似度S2为两组类型标签全部标签组合的欧几里得距离的平均值；所述基本关键词相似度S3为两组基本信息关键词中相同的基本信息关键词占总基本信息关键词的占比；所述基本信息关键词属性相似度S4为相同的基本信息关键词下属的全部基本信息关键词属性值中相同的个数。

优选地，对所述名称相似度S1、类型标签相似度S2、基本信息关键词相似度S3以及基本信息关键词属性相似度S4进行标准化，然后分别乘以相似度权值获取整体的相似性，所述相似度权值通过交叉验证以及网格搜索方法获取。

另一方面本申请还提供一种农业实体自动识别的分类装置，包括处理单元、存储单元、输入单元、显示单元以及总线单元，所述总线单元电性连接所述处理单元、存储单元、输入单元和显示单元，通过所述输入单元输入待识别分类的文本，所述处理单元从所述存储单元调取实现所述农业实体自动识别的分类方法的指令执行，通过所述显示单元显示执行结果。

本申请提出的一种农业实体自动识别的分类方法及装置具体有以下有益效果：

本发明提供的农业实体自动识别的分类方法通过AdaBoost(Adaptive boosting)算法与KNN算法结合形成的AdaBoost.M1-KNN模型进行农业实体分类，通过AdaBoost算法根据训练结果调整从训练集中取样的分布权重D。使得迭代的KNN分类器能够逐步加大对识别错误分类的训练，利用集成学习的思想提高KNN分类器在不均衡数据中的学习能力，提高预测准确性。通过对结构化的名称、类型标签、基本信息关键词和基本信息关检测属性值特征加权确定相似度，能够有效的消除噪声的影响。通过对文本中农业实体识别，分类并添加超链接反馈，用户在进行阅读时，遇到不理解的农业实体可以根据农业实体的分类有个基础性的理解，可以通过超链接查看详细的农业百科页面内容深入了解，从而帮助用户更好的理解文本中的内容。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1是本发明实施例中农业实体自动识别的分类方法的整体架构示意图；

图2是本发明实施例中农业实体自动识别的分类方法的流程图；

图3是本发明实施例中AdaBoost.M1-KNN模型的示意图；

图4是本发明实施例中数据集的示意图；

图5是本发明实施例中训练AdaBoost.M1-KNN模型的流程图；

图6是本发明实施例中农业实体自动识别的分类装置示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

下面结合附图对本发明进行说明，其中，图1是本发明实施例中农业实体自动识别的分类方法的整体架构示意图；图2是本发明实施例中农业实体自动识别的分类方法的流程图；图3是本发明实施例中AdaBoost.M1-KNN模型的示意图；图4是本发明实施例中数据集的示意图；图5是本发明实施例中训练AdaBoost.M1-KNN模型的流程图；图6是本发明实施例中农业实体自动识别的分类装置示意图。

结合参阅图1和图2所示，一方面本发明提供一种农业实体自动识别的分类方法，包括：

S100，利用爬虫从农业相关网络爬取数据，并对所述数据进行格式化为包含名称、域名、类型标签、基本信息关键词以及基本信息关键词属性值的数据集；具体实施过程中，通过爬虫爬取农业百科的网页信息，利用农业百科网页信息中的结构化的内容保存为所述数据集，参阅图4所示保存的结构化内容包括所述名称、域名、类型标签、基本信息关键词以及基本信息关键词属性值。

S200，将所述数据集的名称、类型标签、基本信息关键词以及基本信息关键词属性值进行词向量化；

S300，将所述数据集分为训练集和执行集，并对所述训练集中的实体样本进行分类标注，通过所述训练集对AdaBoost.M1-KNN模型进行训练。

具体实施过程中，配置一个分类标注与数值标签的映射表，其中，对所述训练集中的样本进行的分类标注的类型包括非法类型、人物类型、地点类型、机构类型、政治经济类型、动物类型、植物类型、化学类型、气候类型、动植物产品类型、动植物疾病类型、自然灾害类型、营养素类型、生物学名词类型、农机具类型、农业技术类型、农作物部位类型、症状类型、发病条件类型；根据所述映射表对分类标注的的类型通过唯一的数值标签编号。其中，所述非法类型包括非具体实体、脏数据、非农业相关实体。

将所述训练集中的样本分类标注完成之后对所述AdaBoost.M1-KNN模型进行训练，具体的，参阅图5所示，包括如下步骤：，

S301，为n个分类标注分配初始值为1/n的分布权重D；

S302，调用所述AdaBoost.M1-KNN模型中的KNN分类器利用选取的样本进行训练获取KNN分类函数Kt，获取所述KNN分类函数Kt的训练结果；

S303，判断是否继续进行迭代训练；具体的，设定阈值，一种可行的所述阈值取0.5，比较

是否达到所述阈值，

如果ε_t达到所述阈值，则取当前迭代的次数t减去一为最终迭代次数T，

如果ε_t未达到所述阈值，则进行下一次迭代训练；

S304，计算进行下一次迭代训练的分布权重D；下一次迭代训练的分布权重D根据所述KNN分类函数Kt的训练结果更新；具体的，根据训练结果更新所述分布权重D包括：

判断KNN分类函数对样本i的分类结果是否正确；

对分布权重Dt+1进行标准化处理；

其中，

通过所述分布权重D的更新提高识别不成功的样本的占比。

根据更新的分布权重D重复S302-S305迭代训练T次获取T种KNN分类函数K1，K2，K3，……KT；

S305，通过分布权重D结合T种KNN分类函数K1，K2，K3，……KT而实现所述AdaBoost.M1-KNN模型：

S400，通过训练好的所述AdaBoost.M1-KNN模型对所述执行集进行分类形成农业实体分类库；具体实施过程中，所述KNN分类器分析任一所述执行集与全部所述训练集的名称、类型标签、基本信息关键词以及基本信息关键词属性值的词向量特征的相似性；所述相似性包括名称相似度、类型标签相似度、基本信息关键词相似度以及基本信息关键词属性相似度。其中，所述名称相似度S1为两个所述名称的词向量之间的欧几里得距离。所述类型标签相似度S2为两组类型标签全部标签组合的欧几里得距离的平均值，比如两个实体的类型标签个数分别为n1、n2，两两比较最后得到(n1xn2)个组合，最后求这些组合欧几里得距离的均值，即

/>

其中，o1、o2表示两个实体的类型标签，s(o_1i，o_2j)表示两个类型标签之间的欧几里得距离。所述基本关键词相似度S3为两组基本信息关键词中相同的基本信息关键词占总基本信息关键词的占比。所述基本信息关键词属性相似度S4为相同的基本信息关键词下属的全部基本信息关键词属性值中相同的个数。

统计所述名称相似度S1、类型标签相似度S2、基本信息关键词相似度S3以及基本信息关键词属性相似度S4的IDF值、均值、方差和标准差，并对名称相似度S1、类型标签相似度S2、基本信息关键词相似度S3以及基本信息关键词属性相似度S4进行标准化，然后分别乘以相似度权值获取整体的相似性，所述相似度权值通过交叉验证以及网格搜索方法获取S＝W1S1+W2S2+W3S3+W4S4。

通过所述KNN分类器比较获取与执行集样本最为相似的前k个训练集样本，并取前k个训练集样本中出现最多的分类标注为该执行集样本的分类标注。

再通过不同的KNN分类器的分类结果加权统计获取执行集最终的分类标注。

所述农业实体分类库包含所述数据集以及所述分类标注。

S500，将包含农业实体的文本进行分词、词性标注；具体实施过程中，通过thulac工具对文本进行分词，对分好的词进行词性标注，如词性标注为名词、动词、介词、连词。

S600，根据所述词性标注进行筛选获取实体；具体实施过程中，将标注为名词的词筛选出来作为所述实体，筛选出来的实体中包括非法类型、人物类型、地点类型、机构类型、政治经济类型、动物类型、植物类型、化学类型、气候类型、动植物产品类型、动植物疾病类型、自然灾害类型、营养素类型、生物学名词类型、农机具类型、农业技术类型、农作物部位类型、症状类型、发病条件类型。

S700，将筛选出的所述实体与所述农业实体分类库匹配以获取农业实体及其对应的分类，具体实施过程中，当所述实体匹配为非法类型、人物类型、地点类型、机构类型时，则所述实体为非农业实体。当所述实体匹配为政治经济类型、动物类型、植物类型、化学类型、气候类型、动植物产品类型、动植物疾病类型、自然灾害类型、营养素类型、生物学名词类型、农机具类型、农业技术类型、农作物部位类型、症状类型、发病条件类型时，对文本中的实体添加超链接，通过超链接连接到所述农业实体分类库中相应的农业实体的域名。

另一方面，本申请提供一种农业实体自动识别的分类装置，包括处理单元、存储单元、输入单元、显示单元以及总线单元，所述总线单元电性连接所述处理单元、存储单元、输入单元和显示单元，通过所述输入单元输入待识别分类的文本，所述处理单元从所述存储单元调取实现所述农业实体自动识别的分类方法的指令执行，通过所述显示单元显示执行结果。

本申请还提供一种农业实体自动识别的分类介质，其存储至少一条指令，执行所述指令实现所述农业实体自动识别的分类方法。

应当注意的是，在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种农业实体自动识别的分类方法，其特征在于，包括：

将所述数据集分为训练集和执行集，并对所述训练集中的样本进行分类标注，通过所述训练集对AdaBoost.M1-KNN模型进行训练，实现所述AdaBoost.M1-KNN模型为：

，其中，

，

，T为KNN分类函数的迭代次数，

为第t次迭代的KNN分类函数的分类结果，

为第t次迭代的分布权重；

2.根据权利要求1所述的农业实体自动识别的分类方法，其特征在于，对所述训练集中的样本进行的分类标注的类型包括非法类型、人物类型、地点类型、机构类型、政治经济类型、动物类型、植物类型、化学类型、气候类型、动植物产品类型、动植物疾病类型、自然灾害类型、营养素类型、生物学名词类型、农机具类型、农业技术类型、农作物部位类型、症状类型、发病条件类型；对不同的分类标注用不同的数值标签区分。

3.根据权利要求1所述的农业实体自动识别的分类方法，其特征在于，通过所述训练集的词向量化特征对AdaBoost.M1-KNN模型进行训练包括：

为n个样本分配初始值为1/n的分布权重D；

调用所述AdaBoost.M1-KNN模型中的KNN分类器进行迭代，获取每次迭代的训练结果，根据训练结果更新所述分布权重D；

迭代T次获取T种KNN分类函数K1，K2，K3，……KT；

4.根据权利要求3所述的农业实体自动识别的分类方法，其特征在于，迭代次数T的确定条件为：比较

是否达到所述阈值；

如果

达到所述阈值，则取当前迭代的次数t减去一为最终迭代次数T。

5.根据权利要求3所述的农业实体自动识别的分类方法，其特征在于，根据训练结果更新所述分布权重D包括：

判断KNN分类函数对样本i的分类结果是否正确；

如果样本i的分类结果不正确则其下一次迭代的分布权重Dt+1（i）等于当前分布权重Dt（i）；

如果样本i的分类结果正确则其下一次迭代的分布权重Dt+1（i）等于当前分布权重Dt （i）乘以

；

对分布权重Dt+1进行标准化处理。

6.根据权利要求1所述的农业实体自动识别的分类方法，其特征在于，所述KNN分类器分析任一所述执行集与全部所述训练集的名称、类型标签、基本信息关键词以及基本信息关键词属性值的词向量特征的相似性；所述相似性包括名称相似度、类型标签相似度、基本信息关键词相似度以及基本信息关键词属性相似度。

7.根据权利要求6所述的农业实体自动识别的分类方法，其特征在于，所述名称相似度S1为两个所述名称的词向量之间的欧几里得距离；所述类型标签相似度S2为两组类型标签全部标签组合的欧几里得距离的平均值；所述基本关键词相似度S3为两组基本信息关键词中相同的基本信息关键词占总基本信息关键词的占比；所述基本信息关键词属性相似度S4为相同的基本信息关键词下属的全部基本信息关键词属性值中相同的个数。

8.根据权利要求7所述的农业实体自动识别的分类方法，其特征在于，对所述名称相似度S1、类型标签相似度S2、基本信息关键词相似度S3以及基本信息关键词属性相似度S4进行标准化，然后分别乘以相似度权值获取整体的相似性，所述相似度权值通过交叉验证以及网格搜索方法获取。

9.一种农业实体自动识别的分类装置，其特征在于，包括处理单元、存储单元、输入单元、显示单元以及总线单元，所述总线单元电性连接所述处理单元、存储单元、输入单元和显示单元，通过所述输入单元输入待识别分类的文本，所述处理单元从所述存储单元调取实现所述权利要求1-8任一所述农业实体自动识别的分类方法的指令执行，通过所述显示单元显示执行结果。