CN113220827A

CN113220827A - 一种农业语料库的构建方法及装置

Info

Publication number: CN113220827A
Application number: CN202110463202.XA
Authority: CN
Inventors: 姜京池; 王玲; 王勃然; 刘劼; 黄鹤翔; 宋锦文
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2021-04-23
Filing date: 2021-04-23
Publication date: 2021-08-06
Anticipated expiration: 2041-04-23
Also published as: CN113220827B

Abstract

本发明提供了一种农业语料库的构建方法及装置，该方法包括：基于农业语料库的标注体系确定标注工具；基于随机选择的农业样本数据进行第一标注培训，得到机器学习模型；基于主动学习选择的农业样本数据进行第二标注培训，得到训练更新的机器学习模型，并得到更新的标注工具；基于主动学习选择的农业样本数据进行正式标注，得到标注数据；基于农业样本数据及其标注数据构建农业语料库。本发明通过主动学习和标注一致性分析，提升了数据标注的成效，并获得大量规范有效的农业标注数据，解决了当前农业语料库数据混乱的问题。同时，以较少的样本集使机器学习模型训练达到较佳效果，减少了数据标注的消耗，并提升了农业语料库构建的成效。

Description

一种农业语料库的构建方法及装置

技术领域

本发明涉及数据处理技术领域，具体涉及一种农业语料库的构建方法及装置。

背景技术

传统的农业知识库大多由领域专家人工编撰，虽然质量较高，但存在规模小、覆盖率低、多冗余、更新迟滞等问题。随着大数据时代的到来，运用文本分析方法从海量的半结构化、非结构化网络数据中自动挖掘农业信息，成为了构建和维护农业领域知识服务平台的切实可行方案。然而，散落在网络数据中的农业知识类型、表现形态各异，需要从海量数据中筛选及分类，从而构建农业知识图谱。但目前还没有成熟的农业知识图谱构建方式。

发明内容

为解决现有技术的问题，本发明提出了一种农业语料库的构建方法及装置。

本发明第一方面提供了一种农业语料库的构建方法，其包括：

基于农业语料库的标注体系确定标注工具；

基于随机选择的农业样本数据进行第一标注培训，得到经过初始训练的机器学习模型；所述机器学习模型用于主动学习选择所述农业样本数据；

基于主动学习选择的所述农业样本数据进行第二标注培训，得到经过训练更新的所述机器学习模型，并得到更新的所述标注体系和所述标注工具用于正式标注；

基于主动学习选择的所述农业样本数据进行所述正式标注，得到所述农业样本数据的标注数据；

基于所述农业样本数据和所述农业样本数据的标注数据构建所述农业语料库。

进一步地，

所述第一标注培训和所述第二标注培训均包括：

选择农业样本数据；其中，所述第一标注培训采用随机方式选择；所述第二标注培训采用基于主动学习的所述机器学习模型选择；

采用所述标注工具对每个样本各标注两次以得到两组所述标注数据；

计算两组所述标注数据的标注一致性值F，并得到两组所述标注数据中标注一致的所述标注数据以及标注不一致的所述标注数据；

分析标注不一致的所述标注数据并确定标注不一致类型，然后，更新所述标注体系及所述标注工具；

将标注一致的所述标注数据及相应的所述样本数据加入训练集，训练所述机器学习模型；

所述第二标注培训还包括：在所述训练所述机器学习模型后，判断是否满足第一预设条件；若是，结束所述第二标注培训；若否，重复进行所述第二标注培训；所述第一预设条件包括计算的所述标注一致性值F连续M次达到设定阈值。

进一步地，所述标注体系用于对包括农业实体、农业实体对和农业非实体的所述农业样本数据进行标注，所述标注体系包括实体类型、实体属性、实体关系和修饰；其中，

所述实体类型包括农作物、农药、肥料、病害、虫害、自然环境和症状，用于标注所述农业实体；

所述实体属性包括所述农作物的别称、科、属，用于标注所述农业非实体；

所述实体关系包括危害、防治、促进、诱发、缓解、恶化、导致、抗性、抑制、表征和表现，还包括上下位关系，用于标注所述农业实体对；

所述修饰包括实体修饰和关系修饰，其中，所述实体修饰用于对所述实体类型进行限定，所述关系修饰用于对所述实体关系进行限定；

所述农业实体包括下位农业实体，所述下位农业实体包括农作物的部位、农作物生长周期、农作物类别以及农作物型号；

所述实体关系为所述农业实体对的关系，所述农业实体对由两个所述农业实体构成；所述上下位关系为所述农业实体与所述农业实体的所述下位农业实体构成的所述农业实体对的关系。

进一步地，所述计算两组所述标注数据的标注一致性值F包括：

统计两组所述标注数据中标注一致的所述标注数据；

以A组所述标注数据为基准，计算B组所述标注数据的标注精确率P、标注召回率R，然后计算所述标注一致性值F；

所述标注精确率P＝N0/N1；其中，N0为两组所述标注数据中标注一致的所述标注数据对应的所述样本的个数，N1为B组所述标注数据对应的所述样本的总数；

所述标注召回率R＝N0/N2；其中，N2为A组所述标注数据对应的所述样本的总数；

所述标注一致性值F＝2*P*R/(P+R)。

进一步地，

对于所述农业实体，在两组所述标注数据中，当所述实体类型标注一致且所述农业实体相关的所述实体属性和所述实体修饰都标注一致时，认为标注一致并将相应的所述样本的个数计入所述N0；

对于所述农业实体对，在两组所述标注数据中，当所述实体关系标注一致且所述实体关系的所述关系修饰都标注一致时，认为标注一致并将相应的所述样本的个数计入所述N0。

进一步地，

对于所述农业实体，两组所述标注数据中的所述标注不一致类型包括：

在A组所述标注数据中标注为所述农业实体，在B组所述标注数据中没有标注为所述农业实体；

在两组所述标注数据中标注的所述农业实体之间存在包含关系；

在两组所述标注数据中标注的所述实体类型不一致；

对于所述农业实体对，两组所述标注数据中的所述标注不一致类型包括：

在两组所述标注数据中对所述农业实体对中的所述农业实体标注不一致；

在A组所述标注数据中标注为所述农业实体对，在B组所述标注数据中没有标注为所述农业实体对；

在两组所述标注数据中标注的所述实体关系不一致；

所述更新所述标注体系及所述标注工具包括：根据所述实体类型不一致确定修改或补充所述实体类型。

进一步地，所述正式标注包括：

选择所述农业样本数据；所述农业样本数据采用基于主动学习的所述机器学习模型选择；

采用所述标注工具对每个所述样本进行标注以得到所述标注数据；

将所述农业样本数据及相应的所述标注数据加入所述训练集，训练更新所述机器学习模型；

判断是否满足第二预设条件；若是，结束所述正式标注；若否，重复进行所述正式标注；所述第二预设条件包括：所述正式标注重复进行了K次。

进一步地，

所述采用基于主动学习的所述机器学习模型选择包括：根据基于主动学习的所述机器学习模型对输入数据进行分类计算得到的熵值来选取的所述农业样本数据；

其中，所述输入数据包括从网络爬取的农业百科知识页面。

进一步地，所述基于所述农业样本数据和所述农业样本数据的标注数据构建所述农业语料库包括：将经过所述正式标注的所述农业样本数据和所述农业样本数据的标注数据从所述标注工具中导出，然后导入至预设图形数据库，并进行可视化转换得到所述农业语料库。

本发明第二方面提供了一种农业语料库的构建装置，该装置包括：处理器和用于存储能够在处理器上运行的计算机程序的存储器，其中，

所述处理器用于运行所述计算机程序时，执行包括本发明第一方面所述的构建方法的步骤；

所述存储器用于存储所述计算机程序，所述计算机程序被所述处理器执行时实现包括本发明第一方面所述的构建方法的所述步骤。

本发明通过一致性分析和主动学习相结合的培训方法，挑选有价值的农业样本数据进行标注并分析标注数据的一致性，从而得到较为完善的标注工具和标注数据，并在此过程中训练优化模型，进而提升了数据标注的成效，并获得大量规范有效的农业标注数据以用于农业语料库的构建，解决了当前农业语料库数据混乱的问题。本发明基于主动学习方法来选择待标注的农业样本数据，并通过交互式的模型训练方法将每一批新标注的样本数据加入到训练集中，可以较少的样本集使机器学习模型训练达到较佳效果，减少了数据标注的消耗，并提升了农业语料库构建的成效。

附图说明

图1为本发明实施例的一种农业语料库的构建方法的基本流程图；

图2为本发明实施例的第一标注培训的流程图；

图3为本发明实施例的第二标注培训的流程图；

图4为本发明实施例的标注体系的示意图；

图5为本发明实施例的标注工具界面的实体标注示意图；

图6为本发明实施例的标注工具界面的关系标注示意图；

图7为本发明实施例的正式标注的流程图；

图8为本发明实施例的基于主动学习的机器学习模型的处理流程图；

图9为本发明实施例的输入数据(玉米的百度百科页面数据)示意图；

图10为本发明实施例的玉米相关的实体标注示意图；

图11为本发明实施例的玉米相关的实体关系标注示意图；

图12为本发明实施例的农业语料库示意图。

具体实施方式

下面将参照附图详细描述根据本发明的实施例，描述涉及附图时，除非另有表示，不同附图中的相同附图标记表示相同或相似的要素。要说明的是，以下示例性实施例中所描述的实施方式并不代表本发明的所有实施方式。它们仅是与如权利要求书中所详述的、本发明公开的一些方面相一致的装置和方法的例子，本发明的范围并不局限于此。在不矛盾的前提下，本发明各个实施例中的特征可以相互组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

本发明第一方面提供了一种农业语料库的构建方法，图1所示为本发明实施例的一种农业语料库的构建方法的基本流程图。如图1所示，本发明实施例的一种农业语料库的构建方法包括：

步骤S101，基于农业语料库的标注体系确定标注工具。在本发明实施例中，农业语料库的标注体系是用于标注农业知识的标注规范，该标注体系规定了农业实体的实体类型、实体属性、实体关系、修饰等。以该标注体系为依据，从大量农业知识中选取样本数据进行标注并构建农业语料库。在本发明实施例中，基于该标注体系开发标注工具，提供给标注人员，使用该标注工具对选取的样本数据进行标注，并对标注工具中的标注数据进行分析更新，在标注完成后将数据导出以构建农业语料库。本发明不限于人工标注，也可基于该标注体系来开发自动化标注工具。

步骤S102，基于随机选择的农业样本数据进行第一标注培训，得到经过初始训练的机器学习模型；所述机器学习模型用于主动学习选择所述农业样本数据。在本发明实施例中，初始构建的标注体系需要在应用过程中不断更新完善，还需要提升标注人员对该标注体系的理解和运用。在本发明实施例中，在第一标注培训过程中，通过对标注数据的分析来更新标注体系、标注工具和培训标注人员，并确定初始训练集用于对机器学习模型进行初始训练。在本发明实施例中，待标注的初始样本数据通过随机选择方式确定。

步骤S103，基于主动学习选择的所述农业样本数据进行第二标注培训，得到经过训练更新的所述机器学习模型，并得到更新的所述标注体系和所述标注工具用于正式标注。在本发明实施例中，在通过第一标注培训得到经过初始训练的机器学习模型后，继续进行第二标注培训，以不断更新完善标注工具和优化机器学习模型。第二标注培训和第一标注培训的方法步骤大致相同，不同点是，第二标注培训的待标注的样本数据是通过基于主动学习的机器学习模型对输入数据进行分类计算来选取的；另外，第二标注培训会循环进行直到退出条件达到为止。

步骤S104，基于主动学习选择的所述农业样本数据进行所述正式标注，得到所述农业样本数据的标注数据。在本发明实施例中，在第二标注培训完成后，得到了完善的标注工具和优化的机器学习模型，于是开始进行正式标注，正式标注会循环进行直到退出条件达到为止。在正式标注过程中，不进行对标注数据的计算分析，不再更新标注体系及标注工具。

步骤S105，基于所述农业样本数据和所述农业样本数据的标注数据构建所述农业语料库。在本发明实施例中，将正式标注过程中得到的样本数据及其标注数据从标注工具中导出，然后，基于导出的数据采用neo4j数据库构建农业语料库。

本发明通过主动学习选取样本数据，在培训中得到较为完善的标注工具和标注数据，并在此过程中训练优化模型，进而提升了数据标注的成效，并获得大量规范有效的农业标注数据以用于农业语料库的构建，解决了当前农业语料库数据混乱的问题。同时，采用主动学习方法可以较少的样本集使机器学习模型训练达到较佳效果，减少了数据标注的消耗，并提升了农业语料库构建的成效。

可选地，

所述第一标注培训和所述第二标注培训均包括：

在本发明实施例中，第一标注培训过程参见图2，第二标注培训过程参见图3，第一标注培训过程和第二标注培训过程大致相同。首先选择农业样本数据(参见步骤S201和步骤S301)，该农业样本数据包括多个样本，由标注人员A和标注人员B对每一个样本各标注一次(参见步骤S202)；于是对同一个样本可以得到两个标注，当对多个样本标注完成时，可得到两组标注数据，包括A组标注数据和B组标注数据。然后，计算这两组标注数据之间的标注一致性值F(参见步骤S203)；并且，得到了标注一致的标注数据及对应的样本集，提供给机器学习模型更新训练集(参见步骤S205)。针对这两组标注数据中不一致的部分进行分析讨论，确定标注不一致类型，根据标注不一致类型确定是否修改或补充标注体系和标注工具，以及更新不一致的标注数据(参见步骤S204)，还可将这些标注不一致的实例推广给更多的标注人员去学习。然后，选择标注一致的农业样本数据及相应的标注数据加入到训练集中，对基于主动学习的机器学习模型进行训练更新(参见步骤S205)。在本发明实施例中，可选择农业实体或农业实体对的农业样本数据及相应的标注数据加入训练集，训练集中不包括非实体的农业样本数据，这样有利于提升机器学习模型的分类效果。在本发明实施例中，第一标注培训和第二标注培训在选择待标注农业样本数据时有所不同，第一标注培训随机选择待标注农业样本数据(参见图2步骤S201)，而第二标注培训是通过基于主动学习的机器学习模型对输入数据进行分类计算来选取待标注农业样本数据(参见图3步骤S301)；另外，第二标注培训会循环进行直到退出条件达到为止(参见图3步骤S306)，退出条件包括标注一致性值F连续M次达到设定阈值。

在本发明实施例中，通过第一标注培训和第二标注培训来更新完善标注体系和标注工具，并在此过程中训练更新机器学习模型，然后用于正式标注，从正式标注中获取大量规范的、有价值的标注数据以构建农业语料库，可解决当前农业知识库的数据混乱的问题，并减小了人工标注的代价。

可选地，进一步地，所述标注体系用于对包括农业实体、农业实体对和农业非实体的所述农业样本数据进行标注，所述标注体系包括实体类型、实体属性、实体关系和修饰；其中，

在本发明实施例中，农业语料库的标注体系是对农业实体、农业实体对和农业非实体进行标注的标注规范。该标注体系主要包括四个部分：实体类型、实体属性、实体关系、修饰。如图4所示，该标注体系包括7种实体类型，实体类型由图4中的圆圈表示；该标注体系包括11种实体关系，实体关系由图4中的圆圈之间的连线表示。另外，对于农业非实体，可标注为实体属性、修饰。基于该标注体系开发了标注工具，并采用标注工具对农业数据进行标注，得到大量标注数据以构建农业语料数据库。

在本发明实施例中，定义了下面七种实体类型。

1.农作物：农作物是一个宽泛的概念，农业上经大片田地栽培获得的粮食类、经济类植物统称为农作物。农作物的品类繁多，根据日常的使用情况对其筛选，将农作物分为大田作物、水果、蔬菜三个小类。

2.农药：指保障、促进植物和农作物的生长所施用的杀虫、杀菌等的一类药物。根据农药的作用可分为杀虫剂、杀螨剂、灭鼠剂、杀菌剂、除草剂、增效剂、植物生长调节剂七个小类。

3.肥料：指能供给农作物生长发育所需养分，改善土壤性状，提高农作物产量和品质的物质。可以将肥料分为有机肥和化肥两大类，化肥根据所含元素不同，分为氮肥、磷肥、钾肥、复合肥、微量元素肥五小类。

4.病害：由细菌、真菌、病毒等引起植物发育不良、枯萎或死亡的统称为病害。根据病害成因可分为真菌病害、细菌病害、病毒病害、线虫病害、其他病害五小类。

5.虫害：指对植物生长造成影响的害虫。根据病虫种类将虫害细分为昆虫纲虫害、蛛形纲虫害、其他虫害三小类。

6.症状：泛指由病害、虫害、营养不足、不良环境导致的植物生理、组织结构和形态上所发生的病变特征。

7.自然环境：在农田中，由水土、风、光、地域等自然事物所形成的环境。由于自然环境概念广泛，仅考虑在农业领域有实际意义的自然环境，具体而言，包括土壤温度、土壤湿度、土壤盐分、土壤酸碱度、土壤营养元素、土壤类型等土壤信息描述；空气温度、空气湿度、空气二氧化碳浓度、空气NH3浓度等空气信息描述；还包括风速描述、阳光描述、水的描述等等。

在本发明实施例中，为了丰富农业语料库的信息，定义了实体属性，如农作物的别称、分布范围、应用价值以及使用方法等，这些实体属性信息可更为详细的描述实体。例如，在图5中，对于“大麦”(图中下部表格第1行)实体而言，“Hordeum vulgare L”(图中下部表格第2行)是其拉丁文别称，是实体属性；“禾本科”和“大麦属”(图中下部表格第3行和第4行)也是实体属性；标注工具示意图中的表格将“禾本科”和“大麦属”等非实体也列在了“实体”栏目下，在后面的“是否为实体”栏以勾选方式明确为非实体，这是工具图的表达方式，对于此类样本及其标注，要明确该样本是农业非实体。在本发明实施例中，将实体属性分为动态属性和静态属性。对于静态属性，若实体名称不变，属性值就不会改变；对于动态属性，即使实体名称不变，属性值也可发生改变。

在本发明实施例中，根据农业实体之间的联系，定义了11种实体关系，分别为危害、防治、促进、诱发、缓解、恶化、导致、抗性、抑制、表征、表现，参见图4，不同的实体类型之间存在不同的实体关系。

在本发明实施例中，若只通过“实体-关系-实体”这种三元组的形式对农业实体之间的实体关系进行描述，在一些场景下并不准确，部分实体关系的成立需要一些约束条件。例如，农药浓度的不同对农作物产生的效果不同，此时可以将浓度作为“农药-防治-农作物”这一关系成立的约束条件(限定)。根据修饰成分的不同，可将这些约束条件(限定)分为实体修饰和关系修饰。例如，在句子“氮肥过量会抑制玉米生长”中，“过量”作为“氮肥”的实体修饰；在句子“病叶率达到5％时，使用粉锈宁可湿性粉剂可以防治赤霉病”中，“病叶率达到5％”作为“粉锈宁可湿性粉剂-防治-赤霉病”的关系修饰。

在本发明实施例中，除了上面提到的7种实体类型外，还有一种特殊的实体类型，即下位实体。下位实体包括农作物的部位、农作物生长周期、农作物类别以及农作物型号，增加了这些信息后，在农业语料库中不仅可以找到病虫害危害的农作物，还可以清楚的知道病虫害危害的具体部位以及具体的生长时期等信息。在本发明实施例中，除了上面提到的11种关系外，还定义了一种特殊的关系，即上下位关系。例如，农作物的根茎叶等部位和农作物之间具有上下位的关系。如果不构建这种关系，农作物部位单独存在就没有实际的意义，必须要依附于其所属的农业实体。在图6的下部表格的实体2栏目中，“秆”、“叶鞘”、“茎”等等与实体1栏目中的“大麦”都是上下位关系。

在本发明实施例中，基于标注体系开发了标注工具，提供给标注人员用于对样本数据进行标注。标注工具分为两个部分：实体标注部分(参见图5)和关系标注部分(参见图6)。在标注工具的实体标注部分可以进行农业实体样本的标注，选择对应的实体类型，对农业实体添加实体属性，为农业实体添加实体修饰，也就是对农业非实体标注为实体属性或实体修饰；在关系标注部分，导入实体标注部分的数据，为农业实体对之间添加实体关系和关系修饰。由于有些农业实体并不是连续字符，所以标注工具中设计了跨文本实体圈选功能，可以将不连续的字符标注为一个农业实体；为了方便标注人员，减少标注失误，对不同的实体类型和关系类型设计了不同颜色以及层级选择；有些实体关系在实体类型确认时就已经确认了，在标注人员选择完农业实体对后，可自动为其补上实体关系；对于有多个实体关系时，在选择关系类型中会给出可能的关系类型，供标注人员进行选择。标注工具作为构建农业语料库的核心要素之一，将农业样本数据录入并分类标注，得到了符合标注体系的已标注的农业样本数据及相应的标注数据，在培训过程中，可导出这些数据进行标注数据一致性分析和不一致性类型分析，进而更新标注工具及标注数据，并利用标注一致的数据训练机器学习模型；在正式标注中，可获得大量标注数据，将这些标注数据及相应的农业样本数据导出可构建规范完善的农业语料库。

可选地，所述计算两组所述标注数据的标注一致性值F包括：

统计两组所述标注数据中标注一致的所述标注数据；

所述标注一致性值F＝2*P*R/(P+R)。

可选地，

在本发明实施例中，在第一标注培训和第二标注培训过程中，每完成一批样本数据的标注就对标注数据进行统计计算，将一个标注人员的标注数据视为标准答案，计算另一个标注人员的标注数据的精确率P和召回率R，进而计算标注一致性值F。本发明不限于两个标注人员进行人工标注，也可多人参与标注，或者采用自动化标注工具进行标注；只需要对每个样本都标注两次，并且，两次标注不由同一人标注或者不由完全一致的标注程序做自动化标注。在本发明实施例中，标注一致性值F作为标注准确度的评判标准，一致性越高标注准确度越大，当标注一致性值F连续达到设定阈值若干次后，可结束第二标注培训，开始正式标注。在每一轮第二标注培训中，选出的标注一致的标注数据及相应的样本数据可加入到机器学习模型的训练集中，对机器学习模型进行训练更新。在判定标注数据是否一致时，可按单个样本来统计比较，不区分样本是农业实体还是农业非实体，只要样本名称一致且标注一致，那么该样本就计入N0。另一种更严格的标注一致的判定方式为，针对农业实体，需要样本名称、实体类型、相关的实体属性和实体修饰都一致时，才判定为标注一致，那么样本数据中的农业非实体样本需要与农业实体样本关联起来共同判定；如果关联到同一个农业实体的样本数据中有一个样本的标注不一致，那么认为所有关联的样本的标注都不一致，于是，同一个农业实体样本的关联的农业非实体样本(包括实体属性和实体修饰)都不计入N0，也不加入机器学习模型的训练集。这种严格的判定方式稍微复杂一些，培训过程相比会长一些，但获取的标注工具会完善一些并得到更优化的机器学习模型。在本发明实施例中，由一致性分析程序对标注工具中的农业样本数据和标注数据进行统计分析和计算。

可选地，

在两组所述标注数据中标注的所述实体类型不一致；

在两组所述标注数据中标注的所述实体关系不一致；

在本发明实施例中，标注不一致有多种情况，除了实体类型不一致、实体关系不一致等典型的不一致情况外，还可能出现两次标注的农业实体之间为包含关系的情况，例如，对于样本数据“敌百虫可湿性粉剂”，一个人把“敌百虫可湿性粉剂”标为农业实体，另一个人把“敌百虫”标为农业实体，就出现标注不一致了，这种情况为包含关系，也就是两个人对标注的农业实体的边界区分不同。在本发明实施例中，在第一标注培训和第二标注培训过程中，对标注数据中不一致的数据进行分析，对实体和实体对分别分析并确定其标注不一致类型，根据标注不一致类型进行标注体系和标注工具的更新，以及对不一致的标注数据进行更新，从而完善了标注工具并提升了标注人员对标注体系的理解。

可选地，所述正式标注包括：

在本发明实施例中，在第二标注培训结束后，认为标注工具已较为完善，进入正式标注阶段。如图7所示，首先选择一批农业样本数据，样本数据包括多个样本，该样本数据通过基于主动学习的机器学习模型对输入数据进行分类计算来选取(参见步骤S401)；对每一个样本进行标注(参见步骤S402)，得到一组标注数据。然后，将农业样本数据及相应的标注数据加入到训练集中，对基于主动学习的机器学习模型进行训练更新(参见步骤S403)。最后，判断是否满足第二预设条件(参见步骤S404)，以此决定是否结束正式标注；第二预设条件为是否完成K轮次正式标注，不限于此，第二预设条件也可根据实际需要另行设定。在本发明实施例中，正式标注与标注培训不同，无需对每个样本标注两次，无需进行标注一致性分析计算，也不更新标注工具。在正式标注中，通过主动学习选择农业样本数据以及交互式的机器学习模型训练，可高效地获取大量有价值的农业样本数据及其标注数据，用于农业语料库的构建，并减少了数据标注的人力消耗。

可选地，

其中，所述输入数据包括从网络爬取的农业百科知识页面。

在本发明实施例中，如图8所示，首先，随机选择一批农业本数据让标注人员进行标注，标注结束后，选择已标注的农业样本数据作为初始训练集用于训练机器学习模型(参见步骤S501)，可仅选择农业实体或农业实体对的样本数据及其标注数据作为训练集；然后，从输入数据中提取农业样本数据作为待标注样本数据(参见步骤S502)，可由算法提取分词作为样本，分词可包括农业实体、农业非实体；由机器学习模型对待标注的样本进行分类并输出概率分布(参见步骤S503)；根据对样本分类的概率分布计算样本的熵值并根据熵值挑选出模型最难区分的样本给标注人员(参见步骤S504)，或者，通过样本熵值计算一批样本数据的平均熵值用于一批样本数据的整体选择，例如，以句子为单位选择样本集，或者以文件为单位选择样本集；然后，标注人员对农业样本数据进行标注(参见步骤S505)；标注结束后，选择已标注的样本数据及其标注数据对机器学习模型参数进行更新(参见步骤S506)，可仅选择农业实体或农业实体对的样本数据加入训练集；然后，再次通过机器学习模型挑选农业样本数据进行标注，重复这个过程(S502-S503-S504-S505-S506)。通过这种交互式的主动学习方式，不断地训练机器学习模型并选择下一批待标注样本数据，直到任务结束。

在本发明实施例中，输入数据一般是一个句子S＝{s₁,s₂,…,s_n}，n是句子长度，机器学习模型从句子中提取分词并对每一个分词s_i进行分类，判断该分词是否是实体以及是什么实体类型，对于实体关系而言，是对给定的一个实体对(e_i,e_j)进行多分类，判断实体之间是否有实体关系以及是何种实体关系。分类后，计算每一个样本所属类别概率的熵值。使用“熵”来衡量数据的不确定性及模型区分数据的难易程度，熵越小模型越容易区分该数据。熵值计算公式如下：

x_H即为分词熵值最大的样本。

如果待标注的样本集以句子为单位选择，那么需要计算句子的熵值H(X)，公式如下：

如果待标注的样本集以文件为单位进行选择，选择平均熵值高的文件作为下一批待标注的输入数据，公式如下：

即为文件的熵值，n是文件的句子数，z_i为句子的熵值，为句子中分词的熵值的算术平均值。

在本发明实施例中，通过主动学习的方式，每次从输入数据中选择“携带信息量最大”或“最有价值”的农业样本数据进行标注，只需要较少的样本数据就可使机器学习模型效果达到最优，大大减少了人工标注数据的代价。

可选地，所述基于所述农业样本数据和所述农业样本数据的标注数据构建所述农业语料库包括：将经过所述正式标注的所述农业样本数据和所述农业样本数据的标注数据从所述标注工具中导出，然后导入至预设图形数据库，并进行可视化转换得到所述农业语料库。在本发明实施例中，将正式标注过程中得到的样本数据及其标注数据从标注工具中导出，然后，基于导出的数据采用neo4j数据库构建农业语料库。也可以选取部分在培训过程中经过分析更新的样本数据及其标注数据，用于构建农业语料库。还可对导出的数据进行去重处理，以及按需做进一步筛选，然后才用于构建农业语料库。neo4j数据库是一个高性能、可视化的面向网络的图形数据库，本实施例构建的图形数据库参见图12，包括农业实体以及实体关系标注，实体属性和实体修饰暂未呈现。在本发明实施例中，不限于neo4j数据库，也可采用其他数据库平台来构建农业语料库。

在本发明另一实施例中，下面结合场景实施例对本发明的第一标注培训和第二标注培训过程进行详细描述。

首先从百度百科爬取大量的农业数据，百科上每一种农作物有一个单独的描述，将每一种农作物的数据保存在一个txt文件中，图9是农作物玉米的数据形式，其他农作物数据与此相似。

首批数据选择：从全部的txt文件中随机选择x个文件，对于标注培训而言，x的值应该相对较小，一般在10个左右即可。

将选择的文件交给标注人员，每两个标注人员标注相同的数据。

标注人员通过标注工具进行标注，图10和图11是实体标注和关系标注的示例(只标注几个作为代表)。在图10中，玉米标为大田作物，苞谷、苞米棒子、玉蜀黍、珍珠米是玉米的别名，标为实体属性，秆是玉米的下位词，将其标为实体，实体类型和玉米的实体类型相同。蚜虫标为虫害，根据标注体系，可以进行更细的划分，标为昆虫纲虫害。敌百虫可湿性粉剂是一种农药，根据标注体系进一步标注为杀虫剂。在图11中将苞谷、苞米棒子、玉蜀黍、珍珠米标为玉米的别称属性，秆和玉米建立上下位的关系，是玉米的部位，敌百虫可湿性粉剂和蚜虫建立防治关系。

标注人员标注完成后，分析计算两位标注人员的标注一致性，对不一致的情况进行分析，并更新标注体系和标注工具。例如，在标注时发现线虫类病害，而标注体系中没有，将线虫类病害补充到标注体系和标注工具中。

然后，使用这些标注好的农业样本数据训练机器学习模型(可为卷积神经网络、循环神经网络等)，机器学习模型可进行农业实体、实体类型的识别以及实体对的实体关系的识别等。

模型训练结束后，将还未标注的数据文件输入机器学习模型，对于每个分词，模型会输出一个概率分布，根据分布计算熵值。对于百度百科的一个文件，计算句子的平均熵值作为文件的熵值，句子的熵值为句中的分词的平均熵值。从未标注的数据文件里选择x个熵值较大的数据文件作为下一批输入数据进行标注，每一次标注好的农业样本数据都会选择标注一致的数据加入到机器学习模型的训练集中，每一次选择的已标注的农业样本数据都会不同。

重复这个过程，直到标注一致性值F连续多次达到设定阈值时结束第二标注培训。

在本实施例中，输入数据是txt文件，机器学习模型从输入数据文件中提取分词样本数据进行分类计算，并计算文件的熵值，根据文件的熵值选取待标注文件给标注人员，由标注人员从待标注文件中提取样本数据进行标注。另一方面，机器学习模型也可以输出从待标注文件中提取的分词样本数据，提供统一的分词样本数据给标注人员进行标注。

本发明通过一致性分析和主动学习相结合的培训方法，挑出有价值的农业样本数据进行标注并分析标注数据的一致性，从而得到较为完善的标注工具和标注数据，并在此过程中训练优化模型，进而提升了数据标注的成效，并获得大量规范有效的农业标注数据以用于农业语料库的构建，解决了当前农业语料库数据混乱的问题。本发明基于主动学习方法来选择待标注的农业样本数据，并通过交互式的模型训练方法将每一批新标注的样本数据加入到训练集中，可以较少的样本集使机器学习模型训练达到较佳效果，减少了数据标注的消耗，并提升了农业语料库构建的成效。

虽然本公开披露如上，但本公开的保护范围并非仅限于此。本领域技术人员在不脱离本公开的精神和范围的前提下，可进行各种变更与修改，这些变更与修改均将落入本发明的保护范围。

Claims

1.一种农业语料库的构建方法，其特征在于，包括：

基于农业语料库的标注体系确定标注工具；

2.根据权利要求1所述的农业语料库的构建方法，其特征在于，

所述第一标注培训和所述第二标注培训均包括：

3.根据权利要求2所述的农业语料库的构建方法，其特征在于，所述标注体系用于对包括农业实体、农业实体对和农业非实体的所述农业样本数据进行标注，所述标注体系包括实体类型、实体属性、实体关系和修饰；其中，

4.根据权利要求3所述的农业语料库的构建方法，其特征在于，所述计算两组所述标注数据的标注一致性值F包括：

统计两组所述标注数据中标注一致的所述标注数据；

所述标注一致性值F＝2*P*R/(P+R)。

5.根据权利要求4所述的农业语料库的构建方法，其特征在于，

6.根据权利要求4所述的农业语料库的构建方法，其特征在于，

在两组所述标注数据中标注的所述实体类型不一致；

在两组所述标注数据中标注的所述实体关系不一致；

7.根据权利要求2所述的农业语料库的构建方法，其特征在于，所述正式标注包括：

8.根据权利要求7所述的农业语料库的构建方法，其特征在于，

其中，所述输入数据包括从网络爬取的农业百科知识页面。

9.根据权利要求8所述的农业语料库的构建方法，其特征在于，所述基于所述农业样本数据和所述农业样本数据的标注数据构建所述农业语料库包括：将经过所述正式标注的所述农业样本数据和所述农业样本数据的标注数据从所述标注工具中导出，然后导入至预设图形数据库，并进行可视化转换得到所述农业语料库。

10.一种农业语料库的构建装置，其特征在于，该装置包括：处理器和用于存储能够在处理器上运行的计算机程序的存储器，其中，

所述处理器用于运行所述计算机程序时，执行包括权利要求1-9中任一项所述的构建方法的步骤；

所述存储器用于存储所述计算机程序，所述计算机程序被所述处理器执行时实现包括权利要求1-9中任一项所述的构建方法的所述步骤。