CN113220827A - 一种农业语料库的构建方法及装置 - Google Patents
一种农业语料库的构建方法及装置 Download PDFInfo
- Publication number
- CN113220827A CN113220827A CN202110463202.XA CN202110463202A CN113220827A CN 113220827 A CN113220827 A CN 113220827A CN 202110463202 A CN202110463202 A CN 202110463202A CN 113220827 A CN113220827 A CN 113220827A
- Authority
- CN
- China
- Prior art keywords
- agricultural
- data
- labeling
- entity
- annotation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010276 construction Methods 0.000 title abstract description 13
- 238000002372 labelling Methods 0.000 claims abstract description 185
- 238000012549 training Methods 0.000 claims abstract description 107
- 238000010801 machine learning Methods 0.000 claims abstract description 69
- 238000000034 method Methods 0.000 claims abstract description 58
- 238000012986 modification Methods 0.000 claims description 40
- 230000004048 modification Effects 0.000 claims description 40
- 201000010099 disease Diseases 0.000 claims description 19
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 19
- 241000607479 Yersinia pestis Species 0.000 claims description 15
- 239000003337 fertilizer Substances 0.000 claims description 12
- 241000238631 Hexapoda Species 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 9
- 230000006698 induction Effects 0.000 claims description 8
- 239000000575 pesticide Substances 0.000 claims description 8
- 230000012010 growth Effects 0.000 claims description 7
- 238000012512 characterization method Methods 0.000 claims description 4
- 230000006866 deterioration Effects 0.000 claims description 4
- 230000005764 inhibitory process Effects 0.000 claims description 4
- 230000002265 prevention Effects 0.000 claims description 4
- 239000013589 supplement Substances 0.000 claims description 4
- 208000024891 symptom Diseases 0.000 claims description 4
- 230000000007 visual effect Effects 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 16
- 238000004458 analytical method Methods 0.000 abstract description 9
- 230000008569 process Effects 0.000 description 23
- 240000008042 Zea mays Species 0.000 description 16
- 235000002017 Zea mays subsp mays Nutrition 0.000 description 16
- 235000005824 Zea mays ssp. parviglumis Nutrition 0.000 description 14
- 235000005822 corn Nutrition 0.000 description 14
- 239000002689 soil Substances 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- NFACJZMKEDPNKN-UHFFFAOYSA-N trichlorfon Chemical compound COP(=O)(OC)C(O)C(Cl)(Cl)Cl NFACJZMKEDPNKN-UHFFFAOYSA-N 0.000 description 5
- 239000004563 wettable powder Substances 0.000 description 5
- 230000002452 interceptive effect Effects 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 239000000126 substance Substances 0.000 description 4
- 241001124076 Aphididae Species 0.000 description 3
- 240000005979 Hordeum vulgare Species 0.000 description 3
- 235000007340 Hordeum vulgare Nutrition 0.000 description 3
- 241000244206 Nematoda Species 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 239000002917 insecticide Substances 0.000 description 3
- 229960001952 metrifonate Drugs 0.000 description 3
- 239000000618 nitrogen fertilizer Substances 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- WURBVZBTWMNKQT-UHFFFAOYSA-N 1-(4-chlorophenoxy)-3,3-dimethyl-1-(1,2,4-triazol-1-yl)butan-2-one Chemical compound C1=NC=NN1C(C(=O)C(C)(C)C)OC1=CC=C(Cl)C=C1 WURBVZBTWMNKQT-UHFFFAOYSA-N 0.000 description 2
- CURLTUGMZLYLDI-UHFFFAOYSA-N Carbon dioxide Chemical compound O=C=O CURLTUGMZLYLDI-UHFFFAOYSA-N 0.000 description 2
- 241000196324 Embryophyta Species 0.000 description 2
- 241000209219 Hordeum Species 0.000 description 2
- 240000007594 Oryza sativa Species 0.000 description 2
- 235000007164 Oryza sativa Nutrition 0.000 description 2
- 241000209504 Poaceae Species 0.000 description 2
- 241000700605 Viruses Species 0.000 description 2
- 235000016383 Zea mays subsp huehuetenangensis Nutrition 0.000 description 2
- 230000000844 anti-bacterial effect Effects 0.000 description 2
- 239000003899 bactericide agent Substances 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 235000009973 maize Nutrition 0.000 description 2
- 235000015097 nutrients Nutrition 0.000 description 2
- 230000008635 plant growth Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 235000009566 rice Nutrition 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 241000239290 Araneae Species 0.000 description 1
- 241000894006 Bacteria Species 0.000 description 1
- 208000035143 Bacterial infection Diseases 0.000 description 1
- 241000233866 Fungi Species 0.000 description 1
- 208000031888 Mycoses Diseases 0.000 description 1
- KWYUFKZDYYNOTN-UHFFFAOYSA-M Potassium hydroxide Chemical compound [OH-].[K+] KWYUFKZDYYNOTN-UHFFFAOYSA-M 0.000 description 1
- 230000000895 acaricidal effect Effects 0.000 description 1
- 239000000642 acaricide Substances 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 239000001569 carbon dioxide Substances 0.000 description 1
- 229910002092 carbon dioxide Inorganic materials 0.000 description 1
- -1 ccording Species 0.000 description 1
- 235000013339 cereals Nutrition 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 244000037666 field crops Species 0.000 description 1
- 235000012055 fruits and vegetables Nutrition 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000002363 herbicidal effect Effects 0.000 description 1
- 239000004009 herbicide Substances 0.000 description 1
- 235000001705 insufficient nutrition Nutrition 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 239000003895 organic fertilizer Substances 0.000 description 1
- 231100000915 pathological change Toxicity 0.000 description 1
- 230000036285 pathological change Effects 0.000 description 1
- 239000002686 phosphate fertilizer Substances 0.000 description 1
- 239000005648 plant growth regulator Substances 0.000 description 1
- 230000037039 plant physiology Effects 0.000 description 1
- 229940072033 potash Drugs 0.000 description 1
- BWHMMNNQKKPAPP-UHFFFAOYSA-L potassium carbonate Substances [K+].[K+].[O-]C([O-])=O BWHMMNNQKKPAPP-UHFFFAOYSA-L 0.000 description 1
- 235000015320 potassium carbonate Nutrition 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 239000003128 rodenticide Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 239000011573 trace mineral Substances 0.000 description 1
- 235000013619 trace mineral Nutrition 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/02—Agriculture; Fishing; Forestry; Mining
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
- G06Q50/205—Education administration or guidance
- G06Q50/2057—Career enhancement or continuing education service
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Human Resources & Organizations (AREA)
- Databases & Information Systems (AREA)
- Educational Technology (AREA)
- Tourism & Hospitality (AREA)
- Strategic Management (AREA)
- Educational Administration (AREA)
- Economics (AREA)
- Software Systems (AREA)
- Primary Health Care (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Marketing (AREA)
- Probability & Statistics with Applications (AREA)
- General Business, Economics & Management (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Agronomy & Crop Science (AREA)
- Animal Husbandry (AREA)
- Marine Sciences & Fisheries (AREA)
- Mining & Mineral Resources (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种农业语料库的构建方法及装置,该方法包括:基于农业语料库的标注体系确定标注工具;基于随机选择的农业样本数据进行第一标注培训,得到机器学习模型;基于主动学习选择的农业样本数据进行第二标注培训,得到训练更新的机器学习模型,并得到更新的标注工具;基于主动学习选择的农业样本数据进行正式标注,得到标注数据;基于农业样本数据及其标注数据构建农业语料库。本发明通过主动学习和标注一致性分析,提升了数据标注的成效,并获得大量规范有效的农业标注数据,解决了当前农业语料库数据混乱的问题。同时,以较少的样本集使机器学习模型训练达到较佳效果,减少了数据标注的消耗,并提升了农业语料库构建的成效。
Description
技术领域
本发明涉及数据处理技术领域,具体涉及一种农业语料库的构建方法及装置。
背景技术
传统的农业知识库大多由领域专家人工编撰,虽然质量较高,但存在规模小、覆盖率低、多冗余、更新迟滞等问题。随着大数据时代的到来,运用文本分析方法从海量的半结构化、非结构化网络数据中自动挖掘农业信息,成为了构建和维护农业领域知识服务平台的切实可行方案。然而,散落在网络数据中的农业知识类型、表现形态各异,需要从海量数据中筛选及分类,从而构建农业知识图谱。但目前还没有成熟的农业知识图谱构建方式。
发明内容
为解决现有技术的问题,本发明提出了一种农业语料库的构建方法及装置。
本发明第一方面提供了一种农业语料库的构建方法,其包括:
基于农业语料库的标注体系确定标注工具;
基于随机选择的农业样本数据进行第一标注培训,得到经过初始训练的机器学习模型;所述机器学习模型用于主动学习选择所述农业样本数据;
基于主动学习选择的所述农业样本数据进行第二标注培训,得到经过训练更新的所述机器学习模型,并得到更新的所述标注体系和所述标注工具用于正式标注;
基于主动学习选择的所述农业样本数据进行所述正式标注,得到所述农业样本数据的标注数据;
基于所述农业样本数据和所述农业样本数据的标注数据构建所述农业语料库。
进一步地,
所述第一标注培训和所述第二标注培训均包括:
选择农业样本数据;其中,所述第一标注培训采用随机方式选择;所述第二标注培训采用基于主动学习的所述机器学习模型选择;
采用所述标注工具对每个样本各标注两次以得到两组所述标注数据;
计算两组所述标注数据的标注一致性值F,并得到两组所述标注数据中标注一致的所述标注数据以及标注不一致的所述标注数据;
分析标注不一致的所述标注数据并确定标注不一致类型,然后,更新所述标注体系及所述标注工具;
将标注一致的所述标注数据及相应的所述样本数据加入训练集,训练所述机器学习模型;
所述第二标注培训还包括:在所述训练所述机器学习模型后,判断是否满足第一预设条件;若是,结束所述第二标注培训;若否,重复进行所述第二标注培训;所述第一预设条件包括计算的所述标注一致性值F连续M次达到设定阈值。
进一步地,所述标注体系用于对包括农业实体、农业实体对和农业非实体的所述农业样本数据进行标注,所述标注体系包括实体类型、实体属性、实体关系和修饰;其中,
所述实体类型包括农作物、农药、肥料、病害、虫害、自然环境和症状,用于标注所述农业实体;
所述实体属性包括所述农作物的别称、科、属,用于标注所述农业非实体;
所述实体关系包括危害、防治、促进、诱发、缓解、恶化、导致、抗性、抑制、表征和表现,还包括上下位关系,用于标注所述农业实体对;
所述修饰包括实体修饰和关系修饰,其中,所述实体修饰用于对所述实体类型进行限定,所述关系修饰用于对所述实体关系进行限定;
所述农业实体包括下位农业实体,所述下位农业实体包括农作物的部位、农作物生长周期、农作物类别以及农作物型号;
所述实体关系为所述农业实体对的关系,所述农业实体对由两个所述农业实体构成;所述上下位关系为所述农业实体与所述农业实体的所述下位农业实体构成的所述农业实体对的关系。
进一步地,所述计算两组所述标注数据的标注一致性值F包括:
统计两组所述标注数据中标注一致的所述标注数据;
以A组所述标注数据为基准,计算B组所述标注数据的标注精确率P、标注召回率R,然后计算所述标注一致性值F;
所述标注精确率P=N0/N1;其中,N0为两组所述标注数据中标注一致的所述标注数据对应的所述样本的个数,N1为B组所述标注数据对应的所述样本的总数;
所述标注召回率R=N0/N2;其中,N2为A组所述标注数据对应的所述样本的总数;
所述标注一致性值F=2*P*R/(P+R)。
进一步地,
对于所述农业实体,在两组所述标注数据中,当所述实体类型标注一致且所述农业实体相关的所述实体属性和所述实体修饰都标注一致时,认为标注一致并将相应的所述样本的个数计入所述N0;
对于所述农业实体对,在两组所述标注数据中,当所述实体关系标注一致且所述实体关系的所述关系修饰都标注一致时,认为标注一致并将相应的所述样本的个数计入所述N0。
进一步地,
对于所述农业实体,两组所述标注数据中的所述标注不一致类型包括:
在A组所述标注数据中标注为所述农业实体,在B组所述标注数据中没有标注为所述农业实体;
在两组所述标注数据中标注的所述农业实体之间存在包含关系;
在两组所述标注数据中标注的所述实体类型不一致;
对于所述农业实体对,两组所述标注数据中的所述标注不一致类型包括:
在两组所述标注数据中对所述农业实体对中的所述农业实体标注不一致;
在A组所述标注数据中标注为所述农业实体对,在B组所述标注数据中没有标注为所述农业实体对;
在两组所述标注数据中标注的所述实体关系不一致;
所述更新所述标注体系及所述标注工具包括:根据所述实体类型不一致确定修改或补充所述实体类型。
进一步地,所述正式标注包括:
选择所述农业样本数据;所述农业样本数据采用基于主动学习的所述机器学习模型选择;
采用所述标注工具对每个所述样本进行标注以得到所述标注数据;
将所述农业样本数据及相应的所述标注数据加入所述训练集,训练更新所述机器学习模型;
判断是否满足第二预设条件;若是,结束所述正式标注;若否,重复进行所述正式标注;所述第二预设条件包括:所述正式标注重复进行了K次。
进一步地,
所述采用基于主动学习的所述机器学习模型选择包括:根据基于主动学习的所述机器学习模型对输入数据进行分类计算得到的熵值来选取的所述农业样本数据;
其中,所述输入数据包括从网络爬取的农业百科知识页面。
进一步地,所述基于所述农业样本数据和所述农业样本数据的标注数据构建所述农业语料库包括:将经过所述正式标注的所述农业样本数据和所述农业样本数据的标注数据从所述标注工具中导出,然后导入至预设图形数据库,并进行可视化转换得到所述农业语料库。
本发明第二方面提供了一种农业语料库的构建装置,该装置包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,其中,
所述处理器用于运行所述计算机程序时,执行包括本发明第一方面所述的构建方法的步骤;
所述存储器用于存储所述计算机程序,所述计算机程序被所述处理器执行时实现包括本发明第一方面所述的构建方法的所述步骤。
本发明通过一致性分析和主动学习相结合的培训方法,挑选有价值的农业样本数据进行标注并分析标注数据的一致性,从而得到较为完善的标注工具和标注数据,并在此过程中训练优化模型,进而提升了数据标注的成效,并获得大量规范有效的农业标注数据以用于农业语料库的构建,解决了当前农业语料库数据混乱的问题。本发明基于主动学习方法来选择待标注的农业样本数据,并通过交互式的模型训练方法将每一批新标注的样本数据加入到训练集中,可以较少的样本集使机器学习模型训练达到较佳效果,减少了数据标注的消耗,并提升了农业语料库构建的成效。
附图说明
图1为本发明实施例的一种农业语料库的构建方法的基本流程图;
图2为本发明实施例的第一标注培训的流程图;
图3为本发明实施例的第二标注培训的流程图;
图4为本发明实施例的标注体系的示意图;
图5为本发明实施例的标注工具界面的实体标注示意图;
图6为本发明实施例的标注工具界面的关系标注示意图;
图7为本发明实施例的正式标注的流程图;
图8为本发明实施例的基于主动学习的机器学习模型的处理流程图;
图9为本发明实施例的输入数据(玉米的百度百科页面数据)示意图;
图10为本发明实施例的玉米相关的实体标注示意图;
图11为本发明实施例的玉米相关的实体关系标注示意图;
图12为本发明实施例的农业语料库示意图。
具体实施方式
下面将参照附图详细描述根据本发明的实施例,描述涉及附图时,除非另有表示,不同附图中的相同附图标记表示相同或相似的要素。要说明的是,以下示例性实施例中所描述的实施方式并不代表本发明的所有实施方式。它们仅是与如权利要求书中所详述的、本发明公开的一些方面相一致的装置和方法的例子,本发明的范围并不局限于此。在不矛盾的前提下,本发明各个实施例中的特征可以相互组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
本发明第一方面提供了一种农业语料库的构建方法,图1所示为本发明实施例的一种农业语料库的构建方法的基本流程图。如图1所示,本发明实施例的一种农业语料库的构建方法包括:
步骤S101,基于农业语料库的标注体系确定标注工具。在本发明实施例中,农业语料库的标注体系是用于标注农业知识的标注规范,该标注体系规定了农业实体的实体类型、实体属性、实体关系、修饰等。以该标注体系为依据,从大量农业知识中选取样本数据进行标注并构建农业语料库。在本发明实施例中,基于该标注体系开发标注工具,提供给标注人员,使用该标注工具对选取的样本数据进行标注,并对标注工具中的标注数据进行分析更新,在标注完成后将数据导出以构建农业语料库。本发明不限于人工标注,也可基于该标注体系来开发自动化标注工具。
步骤S102,基于随机选择的农业样本数据进行第一标注培训,得到经过初始训练的机器学习模型;所述机器学习模型用于主动学习选择所述农业样本数据。在本发明实施例中,初始构建的标注体系需要在应用过程中不断更新完善,还需要提升标注人员对该标注体系的理解和运用。在本发明实施例中,在第一标注培训过程中,通过对标注数据的分析来更新标注体系、标注工具和培训标注人员,并确定初始训练集用于对机器学习模型进行初始训练。在本发明实施例中,待标注的初始样本数据通过随机选择方式确定。
步骤S103,基于主动学习选择的所述农业样本数据进行第二标注培训,得到经过训练更新的所述机器学习模型,并得到更新的所述标注体系和所述标注工具用于正式标注。在本发明实施例中,在通过第一标注培训得到经过初始训练的机器学习模型后,继续进行第二标注培训,以不断更新完善标注工具和优化机器学习模型。第二标注培训和第一标注培训的方法步骤大致相同,不同点是,第二标注培训的待标注的样本数据是通过基于主动学习的机器学习模型对输入数据进行分类计算来选取的;另外,第二标注培训会循环进行直到退出条件达到为止。
步骤S104,基于主动学习选择的所述农业样本数据进行所述正式标注,得到所述农业样本数据的标注数据。在本发明实施例中,在第二标注培训完成后,得到了完善的标注工具和优化的机器学习模型,于是开始进行正式标注,正式标注会循环进行直到退出条件达到为止。在正式标注过程中,不进行对标注数据的计算分析,不再更新标注体系及标注工具。
步骤S105,基于所述农业样本数据和所述农业样本数据的标注数据构建所述农业语料库。在本发明实施例中,将正式标注过程中得到的样本数据及其标注数据从标注工具中导出,然后,基于导出的数据采用neo4j数据库构建农业语料库。
本发明通过主动学习选取样本数据,在培训中得到较为完善的标注工具和标注数据,并在此过程中训练优化模型,进而提升了数据标注的成效,并获得大量规范有效的农业标注数据以用于农业语料库的构建,解决了当前农业语料库数据混乱的问题。同时,采用主动学习方法可以较少的样本集使机器学习模型训练达到较佳效果,减少了数据标注的消耗,并提升了农业语料库构建的成效。
可选地,
所述第一标注培训和所述第二标注培训均包括:
选择农业样本数据;其中,所述第一标注培训采用随机方式选择;所述第二标注培训采用基于主动学习的所述机器学习模型选择;
采用所述标注工具对每个样本各标注两次以得到两组所述标注数据;
计算两组所述标注数据的标注一致性值F,并得到两组所述标注数据中标注一致的所述标注数据以及标注不一致的所述标注数据;
分析标注不一致的所述标注数据并确定标注不一致类型,然后,更新所述标注体系及所述标注工具;
将标注一致的所述标注数据及相应的所述样本数据加入训练集,训练所述机器学习模型;
所述第二标注培训还包括:在所述训练所述机器学习模型后,判断是否满足第一预设条件;若是,结束所述第二标注培训;若否,重复进行所述第二标注培训;所述第一预设条件包括计算的所述标注一致性值F连续M次达到设定阈值。
在本发明实施例中,第一标注培训过程参见图2,第二标注培训过程参见图3,第一标注培训过程和第二标注培训过程大致相同。首先选择农业样本数据(参见步骤S201和步骤S301),该农业样本数据包括多个样本,由标注人员A和标注人员B对每一个样本各标注一次(参见步骤S202);于是对同一个样本可以得到两个标注,当对多个样本标注完成时,可得到两组标注数据,包括A组标注数据和B组标注数据。然后,计算这两组标注数据之间的标注一致性值F(参见步骤S203);并且,得到了标注一致的标注数据及对应的样本集,提供给机器学习模型更新训练集(参见步骤S205)。针对这两组标注数据中不一致的部分进行分析讨论,确定标注不一致类型,根据标注不一致类型确定是否修改或补充标注体系和标注工具,以及更新不一致的标注数据(参见步骤S204),还可将这些标注不一致的实例推广给更多的标注人员去学习。然后,选择标注一致的农业样本数据及相应的标注数据加入到训练集中,对基于主动学习的机器学习模型进行训练更新(参见步骤S205)。在本发明实施例中,可选择农业实体或农业实体对的农业样本数据及相应的标注数据加入训练集,训练集中不包括非实体的农业样本数据,这样有利于提升机器学习模型的分类效果。在本发明实施例中,第一标注培训和第二标注培训在选择待标注农业样本数据时有所不同,第一标注培训随机选择待标注农业样本数据(参见图2步骤S201),而第二标注培训是通过基于主动学习的机器学习模型对输入数据进行分类计算来选取待标注农业样本数据(参见图3步骤S301);另外,第二标注培训会循环进行直到退出条件达到为止(参见图3步骤S306),退出条件包括标注一致性值F连续M次达到设定阈值。
在本发明实施例中,通过第一标注培训和第二标注培训来更新完善标注体系和标注工具,并在此过程中训练更新机器学习模型,然后用于正式标注,从正式标注中获取大量规范的、有价值的标注数据以构建农业语料库,可解决当前农业知识库的数据混乱的问题,并减小了人工标注的代价。
可选地,进一步地,所述标注体系用于对包括农业实体、农业实体对和农业非实体的所述农业样本数据进行标注,所述标注体系包括实体类型、实体属性、实体关系和修饰;其中,
所述实体类型包括农作物、农药、肥料、病害、虫害、自然环境和症状,用于标注所述农业实体;
所述实体属性包括所述农作物的别称、科、属,用于标注所述农业非实体;
所述实体关系包括危害、防治、促进、诱发、缓解、恶化、导致、抗性、抑制、表征和表现,还包括上下位关系,用于标注所述农业实体对;
所述修饰包括实体修饰和关系修饰,其中,所述实体修饰用于对所述实体类型进行限定,所述关系修饰用于对所述实体关系进行限定;
所述农业实体包括下位农业实体,所述下位农业实体包括农作物的部位、农作物生长周期、农作物类别以及农作物型号;
所述实体关系为所述农业实体对的关系,所述农业实体对由两个所述农业实体构成;所述上下位关系为所述农业实体与所述农业实体的所述下位农业实体构成的所述农业实体对的关系。
在本发明实施例中,农业语料库的标注体系是对农业实体、农业实体对和农业非实体进行标注的标注规范。该标注体系主要包括四个部分:实体类型、实体属性、实体关系、修饰。如图4所示,该标注体系包括7种实体类型,实体类型由图4中的圆圈表示;该标注体系包括11种实体关系,实体关系由图4中的圆圈之间的连线表示。另外,对于农业非实体,可标注为实体属性、修饰。基于该标注体系开发了标注工具,并采用标注工具对农业数据进行标注,得到大量标注数据以构建农业语料数据库。
在本发明实施例中,定义了下面七种实体类型。
1.农作物:农作物是一个宽泛的概念,农业上经大片田地栽培获得的粮食类、经济类植物统称为农作物。农作物的品类繁多,根据日常的使用情况对其筛选,将农作物分为大田作物、水果、蔬菜三个小类。
2.农药:指保障、促进植物和农作物的生长所施用的杀虫、杀菌等的一类药物。根据农药的作用可分为杀虫剂、杀螨剂、灭鼠剂、杀菌剂、除草剂、增效剂、植物生长调节剂七个小类。
3.肥料:指能供给农作物生长发育所需养分,改善土壤性状,提高农作物产量和品质的物质。可以将肥料分为有机肥和化肥两大类,化肥根据所含元素不同,分为氮肥、磷肥、钾肥、复合肥、微量元素肥五小类。
4.病害:由细菌、真菌、病毒等引起植物发育不良、枯萎或死亡的统称为病害。根据病害成因可分为真菌病害、细菌病害、病毒病害、线虫病害、其他病害五小类。
5.虫害:指对植物生长造成影响的害虫。根据病虫种类将虫害细分为昆虫纲虫害、蛛形纲虫害、其他虫害三小类。
6.症状:泛指由病害、虫害、营养不足、不良环境导致的植物生理、组织结构和形态上所发生的病变特征。
7.自然环境:在农田中,由水土、风、光、地域等自然事物所形成的环境。由于自然环境概念广泛,仅考虑在农业领域有实际意义的自然环境,具体而言,包括土壤温度、土壤湿度、土壤盐分、土壤酸碱度、土壤营养元素、土壤类型等土壤信息描述;空气温度、空气湿度、空气二氧化碳浓度、空气NH3浓度等空气信息描述;还包括风速描述、阳光描述、水的描述等等。
在本发明实施例中,为了丰富农业语料库的信息,定义了实体属性,如农作物的别称、分布范围、应用价值以及使用方法等,这些实体属性信息可更为详细的描述实体。例如,在图5中,对于“大麦”(图中下部表格第1行)实体而言,“Hordeum vulgare L”(图中下部表格第2行)是其拉丁文别称,是实体属性;“禾本科”和“大麦属”(图中下部表格第3行和第4行)也是实体属性;标注工具示意图中的表格将“禾本科”和“大麦属”等非实体也列在了“实体”栏目下,在后面的“是否为实体”栏以勾选方式明确为非实体,这是工具图的表达方式,对于此类样本及其标注,要明确该样本是农业非实体。在本发明实施例中,将实体属性分为动态属性和静态属性。对于静态属性,若实体名称不变,属性值就不会改变;对于动态属性,即使实体名称不变,属性值也可发生改变。
在本发明实施例中,根据农业实体之间的联系,定义了11种实体关系,分别为危害、防治、促进、诱发、缓解、恶化、导致、抗性、抑制、表征、表现,参见图4,不同的实体类型之间存在不同的实体关系。
在本发明实施例中,若只通过“实体-关系-实体”这种三元组的形式对农业实体之间的实体关系进行描述,在一些场景下并不准确,部分实体关系的成立需要一些约束条件。例如,农药浓度的不同对农作物产生的效果不同,此时可以将浓度作为“农药-防治-农作物”这一关系成立的约束条件(限定)。根据修饰成分的不同,可将这些约束条件(限定)分为实体修饰和关系修饰。例如,在句子“氮肥过量会抑制玉米生长”中,“过量”作为“氮肥”的实体修饰;在句子“病叶率达到5%时,使用粉锈宁可湿性粉剂可以防治赤霉病”中,“病叶率达到5%”作为“粉锈宁可湿性粉剂-防治-赤霉病”的关系修饰。
在本发明实施例中,除了上面提到的7种实体类型外,还有一种特殊的实体类型,即下位实体。下位实体包括农作物的部位、农作物生长周期、农作物类别以及农作物型号,增加了这些信息后,在农业语料库中不仅可以找到病虫害危害的农作物,还可以清楚的知道病虫害危害的具体部位以及具体的生长时期等信息。在本发明实施例中,除了上面提到的11种关系外,还定义了一种特殊的关系,即上下位关系。例如,农作物的根茎叶等部位和农作物之间具有上下位的关系。如果不构建这种关系,农作物部位单独存在就没有实际的意义,必须要依附于其所属的农业实体。在图6的下部表格的实体2栏目中,“秆”、“叶鞘”、“茎”等等与实体1栏目中的“大麦”都是上下位关系。
在本发明实施例中,基于标注体系开发了标注工具,提供给标注人员用于对样本数据进行标注。标注工具分为两个部分:实体标注部分(参见图5)和关系标注部分(参见图6)。在标注工具的实体标注部分可以进行农业实体样本的标注,选择对应的实体类型,对农业实体添加实体属性,为农业实体添加实体修饰,也就是对农业非实体标注为实体属性或实体修饰;在关系标注部分,导入实体标注部分的数据,为农业实体对之间添加实体关系和关系修饰。由于有些农业实体并不是连续字符,所以标注工具中设计了跨文本实体圈选功能,可以将不连续的字符标注为一个农业实体;为了方便标注人员,减少标注失误,对不同的实体类型和关系类型设计了不同颜色以及层级选择;有些实体关系在实体类型确认时就已经确认了,在标注人员选择完农业实体对后,可自动为其补上实体关系;对于有多个实体关系时,在选择关系类型中会给出可能的关系类型,供标注人员进行选择。标注工具作为构建农业语料库的核心要素之一,将农业样本数据录入并分类标注,得到了符合标注体系的已标注的农业样本数据及相应的标注数据,在培训过程中,可导出这些数据进行标注数据一致性分析和不一致性类型分析,进而更新标注工具及标注数据,并利用标注一致的数据训练机器学习模型;在正式标注中,可获得大量标注数据,将这些标注数据及相应的农业样本数据导出可构建规范完善的农业语料库。
可选地,所述计算两组所述标注数据的标注一致性值F包括:
统计两组所述标注数据中标注一致的所述标注数据;
以A组所述标注数据为基准,计算B组所述标注数据的标注精确率P、标注召回率R,然后计算所述标注一致性值F;
所述标注精确率P=N0/N1;其中,N0为两组所述标注数据中标注一致的所述标注数据对应的所述样本的个数,N1为B组所述标注数据对应的所述样本的总数;
所述标注召回率R=N0/N2;其中,N2为A组所述标注数据对应的所述样本的总数;
所述标注一致性值F=2*P*R/(P+R)。
可选地,
对于所述农业实体,在两组所述标注数据中,当所述实体类型标注一致且所述农业实体相关的所述实体属性和所述实体修饰都标注一致时,认为标注一致并将相应的所述样本的个数计入所述N0;
对于所述农业实体对,在两组所述标注数据中,当所述实体关系标注一致且所述实体关系的所述关系修饰都标注一致时,认为标注一致并将相应的所述样本的个数计入所述N0。
在本发明实施例中,在第一标注培训和第二标注培训过程中,每完成一批样本数据的标注就对标注数据进行统计计算,将一个标注人员的标注数据视为标准答案,计算另一个标注人员的标注数据的精确率P和召回率R,进而计算标注一致性值F。本发明不限于两个标注人员进行人工标注,也可多人参与标注,或者采用自动化标注工具进行标注;只需要对每个样本都标注两次,并且,两次标注不由同一人标注或者不由完全一致的标注程序做自动化标注。在本发明实施例中,标注一致性值F作为标注准确度的评判标准,一致性越高标注准确度越大,当标注一致性值F连续达到设定阈值若干次后,可结束第二标注培训,开始正式标注。在每一轮第二标注培训中,选出的标注一致的标注数据及相应的样本数据可加入到机器学习模型的训练集中,对机器学习模型进行训练更新。在判定标注数据是否一致时,可按单个样本来统计比较,不区分样本是农业实体还是农业非实体,只要样本名称一致且标注一致,那么该样本就计入N0。另一种更严格的标注一致的判定方式为,针对农业实体,需要样本名称、实体类型、相关的实体属性和实体修饰都一致时,才判定为标注一致,那么样本数据中的农业非实体样本需要与农业实体样本关联起来共同判定;如果关联到同一个农业实体的样本数据中有一个样本的标注不一致,那么认为所有关联的样本的标注都不一致,于是,同一个农业实体样本的关联的农业非实体样本(包括实体属性和实体修饰)都不计入N0,也不加入机器学习模型的训练集。这种严格的判定方式稍微复杂一些,培训过程相比会长一些,但获取的标注工具会完善一些并得到更优化的机器学习模型。在本发明实施例中,由一致性分析程序对标注工具中的农业样本数据和标注数据进行统计分析和计算。
可选地,
对于所述农业实体,两组所述标注数据中的所述标注不一致类型包括:
在A组所述标注数据中标注为所述农业实体,在B组所述标注数据中没有标注为所述农业实体;
在两组所述标注数据中标注的所述农业实体之间存在包含关系;
在两组所述标注数据中标注的所述实体类型不一致;
对于所述农业实体对,两组所述标注数据中的所述标注不一致类型包括:
在两组所述标注数据中对所述农业实体对中的所述农业实体标注不一致;
在A组所述标注数据中标注为所述农业实体对,在B组所述标注数据中没有标注为所述农业实体对;
在两组所述标注数据中标注的所述实体关系不一致;
所述更新所述标注体系及所述标注工具包括:根据所述实体类型不一致确定修改或补充所述实体类型。
在本发明实施例中,标注不一致有多种情况,除了实体类型不一致、实体关系不一致等典型的不一致情况外,还可能出现两次标注的农业实体之间为包含关系的情况,例如,对于样本数据“敌百虫可湿性粉剂”,一个人把“敌百虫可湿性粉剂”标为农业实体,另一个人把“敌百虫”标为农业实体,就出现标注不一致了,这种情况为包含关系,也就是两个人对标注的农业实体的边界区分不同。在本发明实施例中,在第一标注培训和第二标注培训过程中,对标注数据中不一致的数据进行分析,对实体和实体对分别分析并确定其标注不一致类型,根据标注不一致类型进行标注体系和标注工具的更新,以及对不一致的标注数据进行更新,从而完善了标注工具并提升了标注人员对标注体系的理解。
可选地,所述正式标注包括:
选择所述农业样本数据;所述农业样本数据采用基于主动学习的所述机器学习模型选择;
采用所述标注工具对每个所述样本进行标注以得到所述标注数据;
将所述农业样本数据及相应的所述标注数据加入所述训练集,训练更新所述机器学习模型;
判断是否满足第二预设条件;若是,结束所述正式标注;若否,重复进行所述正式标注;所述第二预设条件包括:所述正式标注重复进行了K次。
在本发明实施例中,在第二标注培训结束后,认为标注工具已较为完善,进入正式标注阶段。如图7所示,首先选择一批农业样本数据,样本数据包括多个样本,该样本数据通过基于主动学习的机器学习模型对输入数据进行分类计算来选取(参见步骤S401);对每一个样本进行标注(参见步骤S402),得到一组标注数据。然后,将农业样本数据及相应的标注数据加入到训练集中,对基于主动学习的机器学习模型进行训练更新(参见步骤S403)。最后,判断是否满足第二预设条件(参见步骤S404),以此决定是否结束正式标注;第二预设条件为是否完成K轮次正式标注,不限于此,第二预设条件也可根据实际需要另行设定。在本发明实施例中,正式标注与标注培训不同,无需对每个样本标注两次,无需进行标注一致性分析计算,也不更新标注工具。在正式标注中,通过主动学习选择农业样本数据以及交互式的机器学习模型训练,可高效地获取大量有价值的农业样本数据及其标注数据,用于农业语料库的构建,并减少了数据标注的人力消耗。
可选地,
所述采用基于主动学习的所述机器学习模型选择包括:根据基于主动学习的所述机器学习模型对输入数据进行分类计算得到的熵值来选取的所述农业样本数据;
其中,所述输入数据包括从网络爬取的农业百科知识页面。
在本发明实施例中,如图8所示,首先,随机选择一批农业本数据让标注人员进行标注,标注结束后,选择已标注的农业样本数据作为初始训练集用于训练机器学习模型(参见步骤S501),可仅选择农业实体或农业实体对的样本数据及其标注数据作为训练集;然后,从输入数据中提取农业样本数据作为待标注样本数据(参见步骤S502),可由算法提取分词作为样本,分词可包括农业实体、农业非实体;由机器学习模型对待标注的样本进行分类并输出概率分布(参见步骤S503);根据对样本分类的概率分布计算样本的熵值并根据熵值挑选出模型最难区分的样本给标注人员(参见步骤S504),或者,通过样本熵值计算一批样本数据的平均熵值用于一批样本数据的整体选择,例如,以句子为单位选择样本集,或者以文件为单位选择样本集;然后,标注人员对农业样本数据进行标注(参见步骤S505);标注结束后,选择已标注的样本数据及其标注数据对机器学习模型参数进行更新(参见步骤S506),可仅选择农业实体或农业实体对的样本数据加入训练集;然后,再次通过机器学习模型挑选农业样本数据进行标注,重复这个过程(S502-S503-S504-S505-S506)。通过这种交互式的主动学习方式,不断地训练机器学习模型并选择下一批待标注样本数据,直到任务结束。
在本发明实施例中,输入数据一般是一个句子S={s1,s2,…,sn},n是句子长度,机器学习模型从句子中提取分词并对每一个分词si进行分类,判断该分词是否是实体以及是什么实体类型,对于实体关系而言,是对给定的一个实体对(ei,ej)进行多分类,判断实体之间是否有实体关系以及是何种实体关系。分类后,计算每一个样本所属类别概率的熵值。使用“熵”来衡量数据的不确定性及模型区分数据的难易程度,熵越小模型越容易区分该数据。熵值计算公式如下:
xH即为分词熵值最大的样本。
如果待标注的样本集以句子为单位选择,那么需要计算句子的熵值H(X),公式如下:
如果待标注的样本集以文件为单位进行选择,选择平均熵值高的文件作为下一批待标注的输入数据,公式如下:
在本发明实施例中,通过主动学习的方式,每次从输入数据中选择“携带信息量最大”或“最有价值”的农业样本数据进行标注,只需要较少的样本数据就可使机器学习模型效果达到最优,大大减少了人工标注数据的代价。
可选地,所述基于所述农业样本数据和所述农业样本数据的标注数据构建所述农业语料库包括:将经过所述正式标注的所述农业样本数据和所述农业样本数据的标注数据从所述标注工具中导出,然后导入至预设图形数据库,并进行可视化转换得到所述农业语料库。在本发明实施例中,将正式标注过程中得到的样本数据及其标注数据从标注工具中导出,然后,基于导出的数据采用neo4j数据库构建农业语料库。也可以选取部分在培训过程中经过分析更新的样本数据及其标注数据,用于构建农业语料库。还可对导出的数据进行去重处理,以及按需做进一步筛选,然后才用于构建农业语料库。neo4j数据库是一个高性能、可视化的面向网络的图形数据库,本实施例构建的图形数据库参见图12,包括农业实体以及实体关系标注,实体属性和实体修饰暂未呈现。在本发明实施例中,不限于neo4j数据库,也可采用其他数据库平台来构建农业语料库。
在本发明另一实施例中,下面结合场景实施例对本发明的第一标注培训和第二标注培训过程进行详细描述。
首先从百度百科爬取大量的农业数据,百科上每一种农作物有一个单独的描述,将每一种农作物的数据保存在一个txt文件中,图9是农作物玉米的数据形式,其他农作物数据与此相似。
首批数据选择:从全部的txt文件中随机选择x个文件,对于标注培训而言,x的值应该相对较小,一般在10个左右即可。
将选择的文件交给标注人员,每两个标注人员标注相同的数据。
标注人员通过标注工具进行标注,图10和图11是实体标注和关系标注的示例(只标注几个作为代表)。在图10中,玉米标为大田作物,苞谷、苞米棒子、玉蜀黍、珍珠米是玉米的别名,标为实体属性,秆是玉米的下位词,将其标为实体,实体类型和玉米的实体类型相同。蚜虫标为虫害,根据标注体系,可以进行更细的划分,标为昆虫纲虫害。敌百虫可湿性粉剂是一种农药,根据标注体系进一步标注为杀虫剂。在图11中将苞谷、苞米棒子、玉蜀黍、珍珠米标为玉米的别称属性,秆和玉米建立上下位的关系,是玉米的部位,敌百虫可湿性粉剂和蚜虫建立防治关系。
标注人员标注完成后,分析计算两位标注人员的标注一致性,对不一致的情况进行分析,并更新标注体系和标注工具。例如,在标注时发现线虫类病害,而标注体系中没有,将线虫类病害补充到标注体系和标注工具中。
然后,使用这些标注好的农业样本数据训练机器学习模型(可为卷积神经网络、循环神经网络等),机器学习模型可进行农业实体、实体类型的识别以及实体对的实体关系的识别等。
模型训练结束后,将还未标注的数据文件输入机器学习模型,对于每个分词,模型会输出一个概率分布,根据分布计算熵值。对于百度百科的一个文件,计算句子的平均熵值作为文件的熵值,句子的熵值为句中的分词的平均熵值。从未标注的数据文件里选择x个熵值较大的数据文件作为下一批输入数据进行标注,每一次标注好的农业样本数据都会选择标注一致的数据加入到机器学习模型的训练集中,每一次选择的已标注的农业样本数据都会不同。
重复这个过程,直到标注一致性值F连续多次达到设定阈值时结束第二标注培训。
在本实施例中,输入数据是txt文件,机器学习模型从输入数据文件中提取分词样本数据进行分类计算,并计算文件的熵值,根据文件的熵值选取待标注文件给标注人员,由标注人员从待标注文件中提取样本数据进行标注。另一方面,机器学习模型也可以输出从待标注文件中提取的分词样本数据,提供统一的分词样本数据给标注人员进行标注。
本发明第二方面提供了一种农业语料库的构建装置,该装置包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,其中,
所述处理器用于运行所述计算机程序时,执行包括本发明第一方面所述的构建方法的步骤;
所述存储器用于存储所述计算机程序,所述计算机程序被所述处理器执行时实现包括本发明第一方面所述的构建方法的所述步骤。
本发明通过一致性分析和主动学习相结合的培训方法,挑出有价值的农业样本数据进行标注并分析标注数据的一致性,从而得到较为完善的标注工具和标注数据,并在此过程中训练优化模型,进而提升了数据标注的成效,并获得大量规范有效的农业标注数据以用于农业语料库的构建,解决了当前农业语料库数据混乱的问题。本发明基于主动学习方法来选择待标注的农业样本数据,并通过交互式的模型训练方法将每一批新标注的样本数据加入到训练集中,可以较少的样本集使机器学习模型训练达到较佳效果,减少了数据标注的消耗,并提升了农业语料库构建的成效。
虽然本公开披露如上,但本公开的保护范围并非仅限于此。本领域技术人员在不脱离本公开的精神和范围的前提下,可进行各种变更与修改,这些变更与修改均将落入本发明的保护范围。
Claims (10)
1.一种农业语料库的构建方法,其特征在于,包括:
基于农业语料库的标注体系确定标注工具;
基于随机选择的农业样本数据进行第一标注培训,得到经过初始训练的机器学习模型;所述机器学习模型用于主动学习选择所述农业样本数据;
基于主动学习选择的所述农业样本数据进行第二标注培训,得到经过训练更新的所述机器学习模型,并得到更新的所述标注体系和所述标注工具用于正式标注;
基于主动学习选择的所述农业样本数据进行所述正式标注,得到所述农业样本数据的标注数据;
基于所述农业样本数据和所述农业样本数据的标注数据构建所述农业语料库。
2.根据权利要求1所述的农业语料库的构建方法,其特征在于,
所述第一标注培训和所述第二标注培训均包括:
选择农业样本数据;其中,所述第一标注培训采用随机方式选择;所述第二标注培训采用基于主动学习的所述机器学习模型选择;
采用所述标注工具对每个样本各标注两次以得到两组所述标注数据;
计算两组所述标注数据的标注一致性值F,并得到两组所述标注数据中标注一致的所述标注数据以及标注不一致的所述标注数据;
分析标注不一致的所述标注数据并确定标注不一致类型,然后,更新所述标注体系及所述标注工具;
将标注一致的所述标注数据及相应的所述样本数据加入训练集,训练所述机器学习模型;
所述第二标注培训还包括:在所述训练所述机器学习模型后,判断是否满足第一预设条件;若是,结束所述第二标注培训;若否,重复进行所述第二标注培训;所述第一预设条件包括计算的所述标注一致性值F连续M次达到设定阈值。
3.根据权利要求2所述的农业语料库的构建方法,其特征在于,所述标注体系用于对包括农业实体、农业实体对和农业非实体的所述农业样本数据进行标注,所述标注体系包括实体类型、实体属性、实体关系和修饰;其中,
所述实体类型包括农作物、农药、肥料、病害、虫害、自然环境和症状,用于标注所述农业实体;
所述实体属性包括所述农作物的别称、科、属,用于标注所述农业非实体;
所述实体关系包括危害、防治、促进、诱发、缓解、恶化、导致、抗性、抑制、表征和表现,还包括上下位关系,用于标注所述农业实体对;
所述修饰包括实体修饰和关系修饰,其中,所述实体修饰用于对所述实体类型进行限定,所述关系修饰用于对所述实体关系进行限定;
所述农业实体包括下位农业实体,所述下位农业实体包括农作物的部位、农作物生长周期、农作物类别以及农作物型号;
所述实体关系为所述农业实体对的关系,所述农业实体对由两个所述农业实体构成;所述上下位关系为所述农业实体与所述农业实体的所述下位农业实体构成的所述农业实体对的关系。
4.根据权利要求3所述的农业语料库的构建方法,其特征在于,所述计算两组所述标注数据的标注一致性值F包括:
统计两组所述标注数据中标注一致的所述标注数据;
以A组所述标注数据为基准,计算B组所述标注数据的标注精确率P、标注召回率R,然后计算所述标注一致性值F;
所述标注精确率P=N0/N1;其中,N0为两组所述标注数据中标注一致的所述标注数据对应的所述样本的个数,N1为B组所述标注数据对应的所述样本的总数;
所述标注召回率R=N0/N2;其中,N2为A组所述标注数据对应的所述样本的总数;
所述标注一致性值F=2*P*R/(P+R)。
5.根据权利要求4所述的农业语料库的构建方法,其特征在于,
对于所述农业实体,在两组所述标注数据中,当所述实体类型标注一致且所述农业实体相关的所述实体属性和所述实体修饰都标注一致时,认为标注一致并将相应的所述样本的个数计入所述N0;
对于所述农业实体对,在两组所述标注数据中,当所述实体关系标注一致且所述实体关系的所述关系修饰都标注一致时,认为标注一致并将相应的所述样本的个数计入所述N0。
6.根据权利要求4所述的农业语料库的构建方法,其特征在于,
对于所述农业实体,两组所述标注数据中的所述标注不一致类型包括:
在A组所述标注数据中标注为所述农业实体,在B组所述标注数据中没有标注为所述农业实体;
在两组所述标注数据中标注的所述农业实体之间存在包含关系;
在两组所述标注数据中标注的所述实体类型不一致;
对于所述农业实体对,两组所述标注数据中的所述标注不一致类型包括:
在两组所述标注数据中对所述农业实体对中的所述农业实体标注不一致;
在A组所述标注数据中标注为所述农业实体对,在B组所述标注数据中没有标注为所述农业实体对;
在两组所述标注数据中标注的所述实体关系不一致;
所述更新所述标注体系及所述标注工具包括:根据所述实体类型不一致确定修改或补充所述实体类型。
7.根据权利要求2所述的农业语料库的构建方法,其特征在于,所述正式标注包括:
选择所述农业样本数据;所述农业样本数据采用基于主动学习的所述机器学习模型选择;
采用所述标注工具对每个所述样本进行标注以得到所述标注数据;
将所述农业样本数据及相应的所述标注数据加入所述训练集,训练更新所述机器学习模型;
判断是否满足第二预设条件;若是,结束所述正式标注;若否,重复进行所述正式标注;所述第二预设条件包括:所述正式标注重复进行了K次。
8.根据权利要求7所述的农业语料库的构建方法,其特征在于,
所述采用基于主动学习的所述机器学习模型选择包括:根据基于主动学习的所述机器学习模型对输入数据进行分类计算得到的熵值来选取的所述农业样本数据;
其中,所述输入数据包括从网络爬取的农业百科知识页面。
9.根据权利要求8所述的农业语料库的构建方法,其特征在于,所述基于所述农业样本数据和所述农业样本数据的标注数据构建所述农业语料库包括:将经过所述正式标注的所述农业样本数据和所述农业样本数据的标注数据从所述标注工具中导出,然后导入至预设图形数据库,并进行可视化转换得到所述农业语料库。
10.一种农业语料库的构建装置,其特征在于,该装置包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,其中,
所述处理器用于运行所述计算机程序时,执行包括权利要求1-9中任一项所述的构建方法的步骤;
所述存储器用于存储所述计算机程序,所述计算机程序被所述处理器执行时实现包括权利要求1-9中任一项所述的构建方法的所述步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110463202.XA CN113220827B (zh) | 2021-04-23 | 2021-04-23 | 一种农业语料库的构建方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110463202.XA CN113220827B (zh) | 2021-04-23 | 2021-04-23 | 一种农业语料库的构建方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113220827A true CN113220827A (zh) | 2021-08-06 |
CN113220827B CN113220827B (zh) | 2023-03-28 |
Family
ID=77089339
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110463202.XA Active CN113220827B (zh) | 2021-04-23 | 2021-04-23 | 一种农业语料库的构建方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113220827B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113553840A (zh) * | 2021-08-12 | 2021-10-26 | 卫宁健康科技集团股份有限公司 | 一种文本信息处理方法、装置、设备及存储介质 |
CN115617989A (zh) * | 2022-09-26 | 2023-01-17 | 无锡睿文科技有限公司 | 一种中文专利关键信息语料库的构建方法、系统和计算机设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009038788A1 (en) * | 2007-09-21 | 2009-03-26 | Noblis, Inc. | Method and system for active learning screening process with dynamic information modeling |
WO2018000269A1 (zh) * | 2016-06-29 | 2018-01-04 | 深圳狗尾草智能科技有限公司 | 一种基于数据挖掘和众包的数据标注方法及系统 |
CN108519978A (zh) * | 2018-04-10 | 2018-09-11 | 成都信息工程大学 | 一种基于主动学习的中文正式文本分词方法 |
CN108920465A (zh) * | 2018-07-13 | 2018-11-30 | 福州大学 | 一种基于句法语义的农业领域关系抽取方法 |
CN110209839A (zh) * | 2019-06-18 | 2019-09-06 | 卓尔智联(武汉)研究院有限公司 | 农业知识图谱构建装置、方法及计算机可读存储介质 |
CN110990576A (zh) * | 2019-12-24 | 2020-04-10 | 用友网络科技股份有限公司 | 基于主动学习的意图分类方法、计算机设备和存储介质 |
CN111222340A (zh) * | 2020-01-15 | 2020-06-02 | 东华大学 | 基于多标准主动学习的乳腺电子病历实体识别系统 |
CN111312393A (zh) * | 2020-01-14 | 2020-06-19 | 之江实验室 | 一种结合主动学习的时序深度生存分析系统 |
CN111897970A (zh) * | 2020-07-27 | 2020-11-06 | 平安科技(深圳)有限公司 | 基于知识图谱的文本比对方法、装置、设备及存储介质 |
-
2021
- 2021-04-23 CN CN202110463202.XA patent/CN113220827B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009038788A1 (en) * | 2007-09-21 | 2009-03-26 | Noblis, Inc. | Method and system for active learning screening process with dynamic information modeling |
WO2018000269A1 (zh) * | 2016-06-29 | 2018-01-04 | 深圳狗尾草智能科技有限公司 | 一种基于数据挖掘和众包的数据标注方法及系统 |
CN108519978A (zh) * | 2018-04-10 | 2018-09-11 | 成都信息工程大学 | 一种基于主动学习的中文正式文本分词方法 |
CN108920465A (zh) * | 2018-07-13 | 2018-11-30 | 福州大学 | 一种基于句法语义的农业领域关系抽取方法 |
CN110209839A (zh) * | 2019-06-18 | 2019-09-06 | 卓尔智联(武汉)研究院有限公司 | 农业知识图谱构建装置、方法及计算机可读存储介质 |
CN110990576A (zh) * | 2019-12-24 | 2020-04-10 | 用友网络科技股份有限公司 | 基于主动学习的意图分类方法、计算机设备和存储介质 |
CN111312393A (zh) * | 2020-01-14 | 2020-06-19 | 之江实验室 | 一种结合主动学习的时序深度生存分析系统 |
CN111222340A (zh) * | 2020-01-15 | 2020-06-02 | 东华大学 | 基于多标准主动学习的乳腺电子病历实体识别系统 |
CN111897970A (zh) * | 2020-07-27 | 2020-11-06 | 平安科技(深圳)有限公司 | 基于知识图谱的文本比对方法、装置、设备及存储介质 |
Non-Patent Citations (6)
Title |
---|
HOYOUNG WOO等: "An Efficient Active Learning Method Based on Random Sampling and Backward Deletion", 《INTELLIGENT SCIENCE AND INTELLIGENT DATA ENGINEERING》 * |
周雷: "基于模糊集理论的主动学习方法及其应用研究", 《中国优秀硕士学位论文全文数据库工程科技Ⅰ辑》 * |
屠寒非: "基于主动学习的汉语框架语义角色标注", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
曾钰婷: "基于主动学习的中文医学实体识别研究", 《中国优秀硕士学位论文全文数据库医药卫生科技辑》 * |
杨晓辉等: "基于多任务的中文电子病历中命名实体识别研究", 《东北师大学报(自然科学版)》 * |
陈亚东: "面向数据稀疏问题的英文事件抽取研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113553840A (zh) * | 2021-08-12 | 2021-10-26 | 卫宁健康科技集团股份有限公司 | 一种文本信息处理方法、装置、设备及存储介质 |
CN115617989A (zh) * | 2022-09-26 | 2023-01-17 | 无锡睿文科技有限公司 | 一种中文专利关键信息语料库的构建方法、系统和计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113220827B (zh) | 2023-03-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Smale et al. | Dimensions of diversity in modern spring bread wheat in developing countries from 1965 | |
Gómez et al. | The functional consequences of mutualistic network architecture | |
CN113220827B (zh) | 一种农业语料库的构建方法及装置 | |
Cattani et al. | Has selection for grain yield altered intermediate wheatgrass? | |
Hasan et al. | Assessment of GGE, AMMI, regression, and its deviation model to identify stable rice hybrids in Bangladesh | |
CN115618021B (zh) | 农作物品种适宜种植区域推荐方法及装置 | |
Fageria et al. | Nitrogen use efficiency in dry bean genotypes | |
Souza et al. | Growth, phenology and harvesting time of cactus-millet intercropping system under biotic mulching | |
Sharma et al. | Phenotypic diversity analysis of Lens culinaris Medik. accessions for selection of superior genotypes | |
Siwale et al. | Phenotypic diversity and characterization of the Southern African Bambara groundnut Germplasm collection for grain yield and yield components | |
Maulana et al. | Heritability and selection using GGE biplots and the Sustainability Index (SI) of maize mutants under different cropping systems in upland | |
da Silva et al. | Nutrient balance in sugarcane in Brazil: Diagnosis, use and application in modern agriculture | |
CN113379188B (zh) | 基于物联网的烟草轮作种植方法和系统 | |
Rahemi et al. | Performance of different-use type industrial hemp cultivars under mid-atlantic region conditions | |
Schmidt et al. | Variability of root system size and distribution among Coffea canephora genotypes | |
Pour-Aboughadareh et al. | Selection of high-yielding and stable genotypes of barley for the cold climate in Iran | |
Yang et al. | Yield adaptability and stability in field pea genotypes using AMMI, GGE, and GYT biplot analyses | |
Morillo-Coronado et al. | Morphoagronomic evaluation of yellow pitahaya (Selenicereus megalanthus Haw.) in Miraflores, Colombia | |
Carvalho et al. | Biometric approach applied to soybean genotypes cultivated in Rio Grande do Sul, Brazil | |
Ahmad Latif et al. | Predicting heritability of oil palm breeding using phenotypic traits and machine learning | |
Nkosi et al. | Morpho-Agronomic evaluation of Lagenaria siceraria landraces and their F1 populations | |
Abd El-Aty et al. | Generation Mean Analysis, Heterosis, and Genetic Diversity in Five Egyptian Faba Beans and Their Hybrids | |
Zhang et al. | Suitability Evaluation of Crop Variety via Graph Neural Network | |
Shaibu et al. | Stability performance of extra early maturing maize (Zea mays L.) varieties under high and low nitrogen environments in Sudan Savanna | |
Yang et al. | Longwan 5: A Semi-Leafless Sugar Snap Pea Cultivar Resistant to Powdery Mildew |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |