CN113094464A - 可扩展的农作物病害分析库的建立以及辅助鉴定方法 - Google Patents
可扩展的农作物病害分析库的建立以及辅助鉴定方法 Download PDFInfo
- Publication number
- CN113094464A CN113094464A CN202110351566.9A CN202110351566A CN113094464A CN 113094464 A CN113094464 A CN 113094464A CN 202110351566 A CN202110351566 A CN 202110351566A CN 113094464 A CN113094464 A CN 113094464A
- Authority
- CN
- China
- Prior art keywords
- retrieval
- picture
- text
- user
- disease
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 201000010099 disease Diseases 0.000 title claims abstract description 124
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 title claims abstract description 124
- 238000000034 method Methods 0.000 title claims abstract description 90
- 238000004458 analytical method Methods 0.000 title claims abstract description 36
- 238000003745 diagnosis Methods 0.000 claims abstract description 21
- 238000007500 overflow downdraw method Methods 0.000 claims abstract description 4
- 208000024891 symptom Diseases 0.000 claims description 54
- 230000011218 segmentation Effects 0.000 claims description 28
- 230000008569 process Effects 0.000 claims description 19
- 238000001914 filtration Methods 0.000 claims description 12
- 230000012010 growth Effects 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 6
- 101100477520 Homo sapiens SHOX gene Proteins 0.000 claims description 3
- 102000048489 Short Stature Homeobox Human genes 0.000 claims description 3
- 108700025071 Short Stature Homeobox Proteins 0.000 claims description 3
- 230000033228 biological regulation Effects 0.000 claims description 3
- 241000607479 Yersinia pestis Species 0.000 abstract description 17
- 230000004069 differentiation Effects 0.000 abstract description 2
- 241000238631 Hexapoda Species 0.000 description 13
- 241000196324 Embryophyta Species 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 4
- 230000002265 prevention Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 235000013399 edible fruits Nutrition 0.000 description 3
- 239000000575 pesticide Substances 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000034994 death Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 244000052769 pathogen Species 0.000 description 2
- 239000002689 soil Substances 0.000 description 2
- 208000035473 Communicable disease Diseases 0.000 description 1
- 229920000742 Cotton Polymers 0.000 description 1
- 241000219146 Gossypium Species 0.000 description 1
- 241000244206 Nematoda Species 0.000 description 1
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 241000209140 Triticum Species 0.000 description 1
- 235000021307 Triticum Nutrition 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000001580 bacterial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000002538 fungal effect Effects 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000004060 metabolic process Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 239000000447 pesticide residue Substances 0.000 description 1
- 230000035790 physiological processes and functions Effects 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 239000007921 spray Substances 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000033772 system development Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 235000013311 vegetables Nutrition 0.000 description 1
- 230000003612 virological effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/319—Inverted lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/322—Trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/328—Management therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3341—Query execution using boolean model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/51—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F8/00—Arrangements for software engineering
- G06F8/30—Creation or generation of source code
- G06F8/31—Programming languages or programming paradigms
- G06F8/315—Object-oriented languages
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/02—Agriculture; Fishing; Forestry; Mining
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Library & Information Science (AREA)
- General Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Mining & Mineral Resources (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- General Health & Medical Sciences (AREA)
- Economics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Primary Health Care (AREA)
- Marine Sciences & Fisheries (AREA)
- Animal Husbandry (AREA)
- Agronomy & Crop Science (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
可扩展的农作物病害分析库的建立以及辅助鉴定方法。作物病虫害的识别是一个很大的挑战,因为在大小和颜色上有很多可变因素,从而无法直观地去区分病害种类。本发明采用基于文本检索和基于图像检索相结合,基础检索框架采用Lucene实现文本索引和检索、使用LIRE实现图像索引和检索,根据用户的反馈优化诊断方法和融合方法。本发明用于可扩展的农作物病害分析库的建立以及辅助鉴定。
Description
技术领域
本发明涉及一种可扩展的农作物病害分析库的建立以及辅助鉴定方法。
背景技术
中国是一个农业大国,农业收益一直深受病虫害影响。据全国农技推广中心统计,我国每年农作物病虫害发生面积80多亿亩次,每年因防治病虫害使用农药200多万吨。传统识别农作物病虫害的方式,通常需要植保技术人员下乡到田,观察作物病症对照鉴定识别,这种方法具有费时费力效率不高,识别率低的特点。大多数情况下,农户常常会根据经验判断对“症”下药,结果可能会因其操作的不科学性和不准确性导致病症没有好转甚至恶化,病害使农作物生长受到抑制,产品变质或减产,有时甚至造成大面积死亡。运用计算机技术对农作物病虫害的识别有非常重要的作用,而基于文本检索和图片检索的应用于农作物病害识别中,相对于传统人工诊断和识别方法具有无法比拟的优越性,提高了农作物病害监测和预警的能力。
农作物在种植过程中,受到有害生物的侵染或不良环境条件的影响,正常新陈代谢受到干扰,从生理机能到组织结构上发生一系列的变化和破坏,以至在外部形态上呈现反常的病变现象,如枯萎、腐烂、斑点、霉粉、花叶等,统称病害。病虫害田间诊断是农业综合技能的体现,也是病虫害防治的首要环节,只有正确诊断,才能进行有效防治,否则延误病情,造成损失。诊断人员包括科研人员、推广人员、作物种植者等,科研与其它两种诊断区别在于:前者可以取样返回实验室培养、分离、镜检都再下结论,准确率高,出具的防治方案针对性强,但时间缓慢,与生产要求的“急诊”不相适应。田间诊断则不一样,必须在第一时间内,通过对作物有无患病症状、症状的特征及田间环境状况的仔细观察和分析,初步判断症状的因由,并给出初步的救治方案,然后再根据实验室分析鉴定,修正防治方案。田间诊断是搞好作物病虫害防治的前提。只有准确的诊断,才能有的放矢,对症下药,从而收到预期的防治效果;
病害的类型多识别复杂,总体分为侵染性和非侵染性两大类:由病原生物引起的侵染性病害的分类方法有,按病原物分为真菌性、细菌性、病毒性和线虫病害等。按寄主植物分为农作物、蔬菜、果树病害和林木病害等,还可按作物种类分为小麦、水稻、棉花等不同作物病害。按症状可分为叶斑病、腐烂病、萎蔫病等。按发病部位可分为根病、茎病、叶病、果病等。按传播方式可分为空气传播、水传、土传、种苗传播、昆虫介体传播等。
同一作物在不同阶段,发育情况是不同的,有不同的颜色和大小的区别。同时,提取病虫害特征的方法,拍取图像的角度、清晰度,识别的方法都为病害的识别增加了难度。
作物病虫害的识别是一个很大的挑战,因为在大小和颜色上有很多可变因素,从而无法直观地去区分病害种类。实验上,国内有基于卷积神经网络对农作物叶片进行识别的研究,取得了一定的成果,对根、茎、花果等没有涉及;也有基于热红外图像处理的方法,但处于较早阶段。实践上国内对农作物病虫害的识别主要还是靠专家在现场进行诊断,这种方法效率低、时效差,远远不能满足我国农业发展的需求。我国农民的接收科技知识能力不高,不能掌握农作物病虫害的发生与发展,往往会错过最佳防治期,在病虫害发生较重时,才大剂量地喷洒农药,使农产品农药残留超标,且严重污染环境;
目前主要的具体识别方法有人工识别、基于内容的图片检索(CBIR,ContentBased Image Retrieve)、图像模式匹配、嵌入式设备监控[12]等,人工识别依赖于专业或者经验,专业人员人数不足,无法了解到每一个情况。而在田间耕作,第一时间发现病害的农民往往依赖于过往的经验,可能遇到同一种症状但不同类型的病因采用同一方法的措施,误喷农药,造成作物死亡污染土地环境,采用新的技术识别至关重要。
图像模式匹配、图像识别主要分为几个步骤[14]:图像的获取与预处理、图像分割、特征提取、分类并识别。在光线充足、背景单一、没有异物遮挡的情况下拍出尽可能清晰的图片是图像获取阶段最理想的情况,但是实际应用中使用者不总是能达到这个标准,那么就要对图片通过一些技术进行A)预处理处理,如对图片进行锐化、增加亮度、增加对比度、去除噪声等[14]。经过预处理后对B)图像进行分割:它是使用一定的规则将数字图像划分为多个子区域并提取感兴趣目标的过程,目的在于简化图像的表达形式利于理解和分析[15]。1)经典的分割法如阈值分割法是对处理田间复杂环境、阴影、其它植株、土壤等条件下的病虫害时,设置一个阈值进行分割,但是这个阈值很难选取且容易出现分割不足;区域分割法在处理含高噪声的图像时,容易出现分割错误;边缘检测法在处理复杂背景下的图像时,算法以算子为模板,无法检测出具有连续闭合的边界或轮廓;其它的方法如神经网络分割法、模糊集分割法、显著性检测分割法等都是针对简单背景下的图像问题,单一的方法无法解决问题,需将多种方法结合起来应用才能达到理想的效果[13]。2)基于聚类的分割法如模糊C-means聚类(FCM)算法在作物病害图像分割,是将像素的灰度值与其领域的灰均值作为特征输入到FCM中,通过变换FCM的隶属度函数使其包含图像的领域特性,并通过试验确定算法的最优聚类数目和模糊加权参数。C)特征提取:包含作物的颜色特征、纹理、形状等特征,当植株某个部位感染病虫害时,最显著的就是颜色的变化,此时使用CNN对图像进行局部特征信息的提取。D)构建分类器,对病害进行识别。主要是对输入的病害特征,对其进行判别和输出分类结果。主要的方法有神经网络、支持向量机等[13]。它们识别更系统,在分析很多样本之后有更精确的结果,但目前图像模式匹配主要还在实验室阶段,它们需要很强大的计算机设备,造价高昂。
基于内容的图片检索[15]是在对图片经过预处理建立索引后,对新的图片与索引的图片进行相似度匹配的技术,该研究主要考虑主要作物的叶部病害症状诊断,且需要高昂的数据加工成本,难以实用化。
发明内容
本发明的目的是提供一种可扩展的农作物病害分析库的建立以及辅助鉴定方法。
上述的目的通过以下的技术方案实现:
一种可扩展的农作物病害分析库的建立以及辅助鉴定方法,该方法采用基于文本检索和基于图像检索相结合,基础检索框架采用Lucene实现文本索引和检索、使用LIRE实现图像索引和检索,根据用户的反馈优化诊断方法和融合方法;
该方法包括如下步骤:
病害分析库的建立:
步骤一:病害文本描述的索引建立;
首先进行症状文本的分析,采用基于隐马尔可夫的中文分词模型对文本进行分词器,并进行训练、停用词过滤后构成构成病害专有词表,最终结构化索引的建立;
步骤二:症状图片索引建立;
对图片特征建立索引,并对每张图片均提取多种特征;
步骤三:索引的维护;
农作物病害辅助鉴定:
步骤一:基于症状文本检索的鉴定;
对用户输入的症状文本进行分析,然后构造布尔查询;
步骤二:基于症状图片检索的鉴定;
对用户上传的图片进行特征抽取,执行图片检索,然后检索相似度值修正并输出;
文本检索结果里的相似度用表示,该值体现了用户输入的文本与病害知识里的症状描述的相似度,图片检索结果的相似度用表示,该值体现了用户上传图片与病害知识里的症状图片的相似度,把两个相似度值进行修正然后进行比较;
公式(1)中,L表示用户输入文本的长度, f(L)函数的取值在[0,1);
当用户不输入症状文字描述的时候f(L)取值为0,诊断结果就只参考图片检索结果,是引入的一个调节超参数,更偏向于文本检索结果,因为文本匹配是一种更直接的匹配方式;
g函数定义如公式(3)所示:
基于公式(1),对P个文本检索结果和Q个图片检索结果的相似度值进行修正,根据修正后的相似度值对P+Q个检索结果倒排序,取前N个作为最终的诊断输出。
所述的可扩展的农作物病害分析库的建立以及辅助鉴定方法,所述的步骤一中症状文本的分析具体过程为:采用基于隐马尔可夫的中文分词模型对文本进行分词器,该模型在开放域中文语料上训练;
对分词后的文本进行停用词过滤,停用词表采用常规的停用词表;
整理常见的描述病害症状的词构成病害专有词表,根据专有词表对分词后的文本进行词的合并。
所述的可扩展的农作物病害分析库的建立以及辅助鉴定方法,所述的结构化索引的建立的具体过程为:使用lucene对分析处理后的症状文本建立结构化倒排索引,把每一个病害的文本描述及相关类型信息作为一个结构化文档,基于该结构化文档建立结构化索引,在后续检索阶段可支持结构化检索。
所述的可扩展的农作物病害分析库的建立以及辅助鉴定方法,所述的症状图片索引建立的具体过程为:对图片建立索引首先要提取图片的特征,然后对图片特征建立索引,使用16种图片特征提取方法,对每张图片均提取16种特征,为后续检索提供多种特征选择;
每个病害的描述有多张图片,把每张图片及其相关病害信息组成一个结构化文档,建立结构化索引。
所述的可扩展的农作物病害分析库的建立以及辅助鉴定方法,所述的构造布尔查询的具体过程为:布尔查询是组合多个检索条件的表达式,Lucene根据布尔查询执行检索。由于专家维护的“标准病历”中作物名、生长期、部位要与用户输入的这三类信息一致,用户输入的症状描述与专家维护的症状描述的匹配看作是某种模糊匹配,这种模糊匹配由Lucene执行相似度计算,在相似度计算的时候首先对文本进行分析处理,因而布尔表达式的形式如下:
作物名=用户输入作物名 AND 作物部位=用户输入的作物部位
AND 生长期=用户输入的生长期 AND 用户输入症状相似度计算
执行检索得到的每一个检索结果是一个结构化文档,包含病害名、应对措施和相似度值,检索结果按照相似度值倒排序;
执行检索后,取前P个检索结果。
所述的可扩展的农作物病害分析库的建立以及辅助鉴定方法,所述的对用户上传的图片进行特征抽取的具体过程为:在检索阶段,也需要抽取用户上传的C个图片的特征,然后基于特征进行检索,这16种特征抽取器分别是ColorLayout、CEDD、FCTH、JCD、ScalableColor、EdgeHistogram、AutoColorCorrelogram、Tamura、Gabor、SimpleColorHistogram、OpponentHistogram、JointHistogram、LuminanceLayout、PHOG、ACCID、COMO。
所述的可扩展的农作物病害分析库的建立以及辅助鉴定方法,所述的执行图片检索的具体过程为:图片检索分为四个步骤:检索、重排序、过滤、投票截取;
(1)使用一种特征抽取器抽取用户上传图片的特征,根据特征执行LIRE的图片检索,得到检索结果列表,每一个检索结果是一个结构化文档,检索结果是根据相似度值倒排序的;
(2)使用另一种特征抽取器抽取用户上传图片的特征,根据该特征对检索结果列表进行重排序;
(3)根据用户输入的作物名称、生长期、作物部位信息对检索结果列表进行过滤,取前K个结果;
(4)用户上传图片的个数是C,根据每个图片检索得到K个检索结果,一共获得C*K的检索结果,然后对C*K个结果进行投票,也就是根据病害名进行合并计数并倒排序,取前M个检索结果;
最终图片检索阶段输出Q个诊断。
有益效果:
1.本发明只需整理好每种病害的典型症状,系统即可有效的利用领域知识,可以极大地降低人力、物力、财力的投入,极小化地完成系统开发,甚至可以不需要专家的参与,利用爬虫技术对已有病害的典型症状进行爬取整理,系统通过建立文本索引库和图像索引库形成病害知识,即领域知识,在进行病害鉴定检索时,会极大地提高检索的效率。
2.本发明不需要对数据进行复杂的加工,检索系统对数据不需要过多的要求,对于文本数据,是经过整理的字符数据,不需要对文本进行删减、增加等操作,就可以输入给系统进行数据处理,然后建立文本索引库,对于图像数据,不需要对图像进行剪裁、旋转、格式更改等复杂操作,就可以输入到系统进行特征提取,从而形成图像索引库。让系统方便快捷地处理各种数据。
3.本发明不需要训练复杂的机器学习模型,本系统没有采用机器学习模型,由于机器学习需要大量的数据作为支撑,对于硬件设施要求高,若采用机器学习模型,会计算大量参数,导致检索时长极大地增加,不符合本系统高效快捷的要求,因此,本系统采用Lucene索引工具和LIRE图像检索工具对农作物病害数据进行处理并索引,形成文本索引库和图像索引库,即病害知识,从而可以高效地处理用户的查询,给出相应的病害诊断结果。
4.该方法构建的系统易于实施、易于复用,易于扩展至其他作物,本系统采用的技术是Lucene索引工具和LIRE图像检索工具,都是优秀的面向对象的系统架构,使得对于Lucene扩展的学习难度降低,方便扩充新功能,并且采用的编程语言是java,是一种面向对象的编程语言,可以极好地解决复杂的工程问题,且具有良好的简单性、移植性和安全性,使得构建本系统更加高效、易于扩展。
5.本发明引入了索引机制,对文本数据和图像数据进行处理后,并对其进行了索引,形成了文本索引库和图像索引库,索引的底层结构是B+树,B+树一棵平衡树,树的高度永远是最优的,而树的查询效率是log(n),n为树的高度。因此,当用户使用本系统进行诊断时,首先在文本索引库和图像索引库中对索引进行查找,使得查询时长极大地减少,从而让本系统的诊断效率更加的高效。
附图说明:
附图1是农作物病害鉴定方法体系结构图;
附图2是文本分析流程图;
附图3是症状图片特征提取图;
具体实施方式:
实施例1:
一种可扩展的农作物病害分析库的建立以及辅助鉴定方法,该方法采用基于文本检索和基于图像检索相结合,基础检索框架采用Lucene实现文本索引和检索、使用LIRE实现图像索引和检索,根据用户的反馈优化诊断方法和融合方法;
该方法包括如下步骤:
病害分析库的建立:
步骤一:病害文本描述的索引建立;
首先进行症状文本的分析,采用基于隐马尔可夫的中文分词模型对文本进行分词器,并进行训练、停用词过滤后构成构成病害专有词表,最终结构化索引的建立;
步骤二:症状图片索引建立;
对图片特征建立索引,并对每张图片均提取多种特征;
步骤三:索引的维护;
农作物病害辅助鉴定:
步骤一:基于症状文本检索的鉴定;
对用户输入的症状文本进行分析,然后构造布尔查询;
步骤二:基于症状图片检索的鉴定;
对用户上传的图片进行特征抽取,执行图片检索,然后检索相似度值修正并输出;
文本检索结果里的相似度用表示,该值体现了用户输入的文本与病害知识里的症状描述的相似度,图片检索结果的相似度用表示,该值体现了用户上传图片与病害知识里的症状图片的相似度,把两个相似度值进行修正然后进行比较;
公式(1)中,L表示用户输入文本的长度, f(L)函数的取值在[0,1);
当用户不输入症状文字描述的时候f(L)取值为0,诊断结果就只参考图片检索结果,是引入的一个调节超参数,更偏向于文本检索结果,因为文本匹配是一种更直接的匹配方式;
g函数定义如公式(3)所示:
基于公式(1),对P个文本检索结果和Q个图片检索结果的相似度值进行修正,根据修正后的相似度值对P+Q个检索结果倒排序,取前N个作为最终的诊断输出。
实施例2:
根据实施例1所述的可扩展的农作物病害分析库的建立以及辅助鉴定方法,所述的步骤一中症状文本的分析具体过程为:采用基于隐马尔可夫的中文分词模型对文本进行分词器,该模型在开放域中文语料上训练;
对分词后的文本进行停用词过滤,停用词表采用常规的停用词表;
整理常见的描述病害症状的词构成病害专有词表,根据专有词表对分词后的文本进行词的合并,比如,病斑、病荚、霉状物、凹陷斑、苗枯、叶腐等就是专有词。
实施例3:
根据实施例1或2所述的可扩展的农作物病害分析库的建立以及辅助鉴定方法,所述的结构化索引的建立的具体过程为:使用lucene对分析处理后的症状文本建立结构化倒排索引,把每一个病害的文本描述及相关类型信息作为一个结构化文档,基于该结构化文档建立结构化索引,如表1所示,在后续检索阶段可支持结构化检索,其中,病害症状的文本描述需要先进性文本的分析处理,建立词级别索引;
实施例4:
根据实施例1或2或3所述的可扩展的农作物病害分析库的建立以及辅助鉴定方法,所述的症状图片索引建立的具体过程为:对图片建立索引首先要提取图片的特征,然后对图片特征建立索引,使用16种图片特征提取方法,对每张图片均提取16种特征,为后续检索提供多种特征选择;
每个病害的描述有多张图片,把每张图片及其相关病害信息组成一个结构化文档,建立结构化索引,每个病害的描述有多张图片,把每张图片及其相关病害信息组成一个结构化文档,如表2所示,建立结构化索引,因而一个病害的多张图片就对应于多个结构化文档,这个多个结构化文档的病害名是相同的。
实施例5:
根据实施例1或2或3或4所述的可扩展的农作物病害分析库的建立以及辅助鉴定方法,所述的构造布尔查询的具体过程为:布尔查询是组合多个检索条件的表达式,Lucene根据布尔查询执行检索。由于专家维护的“标准病历”中作物名、生长期、部位要与用户输入的这三类信息一致,用户输入的症状描述与专家维护的症状描述的匹配看作是某种模糊匹配,这种模糊匹配由Lucene执行相似度计算,在相似度计算的时候首先对文本进行分析处理,因而布尔表达式的形式如下:
作物名=用户输入作物名 AND 作物部位=用户输入的作物部位
AND 生长期=用户输入的生长期 AND 用户输入症状相似度计算
执行检索得到的每一个检索结果是一个结构化文档,包含病害名、应对措施和相似度值,检索结果按照相似度值倒排序;
执行检索后,取前P个检索结果。
实施例6:
根据实施例1或2或3或4或5所述的可扩展的农作物病害分析库的建立以及辅助鉴定方法,所述的对用户上传的图片进行特征抽取的具体过程为:在检索阶段,也需要抽取用户上传的C个图片的特征,然后基于特征进行检索,这16种特征抽取器分别是ColorLayout、CEDD、FCTH、JCD、ScalableColor、EdgeHistogram、AutoColorCorrelogram、Tamura、Gabor、SimpleColorHistogram、OpponentHistogram、JointHistogram、LuminanceLayout、PHOG、ACCID、COMO。
实施例7:
根据实施例1或2或3或4或5或6所述的可扩展的农作物病害分析库的建立以及辅助鉴定方法,所述的执行图片检索的具体过程为:图片检索分为四个步骤:检索、重排序、过滤、投票截取;
(1)使用一种特征抽取器抽取用户上传图片的特征,根据特征执行LIRE的图片检索,得到检索结果列表,每一个检索结果是一个结构化文档,检索结果是根据相似度值倒排序的;
(2)使用另一种特征抽取器抽取用户上传图片的特征,根据该特征对检索结果列表进行重排序;
(3)根据用户输入的作物名称、生长期、作物部位信息对检索结果列表进行过滤,取前K个结果;
(4)用户上传图片的个数是C,根据每个图片检索得到K个检索结果,一共获得C*K的检索结果,然后对C*K个结果进行投票,也就是根据病害名进行合并计数并倒排序,取前M个检索结果;
最终图片检索阶段输出Q个诊断。
本系统中文本检索使用Lucene架构,Lucene是一个高性能、可伸缩的信息搜索库,它可以为你的应用程序添加索引和搜索能力。Lucene是用java实现的、成熟的项目,Lucene作为一个全文检索引擎,具有如下突出的优点:
(1)索引文件格式独立于应用平台。Lucene定义了一套以8位字节为基础的索引文件格式,使得兼容系统或者不同平台的应用能够共享建立的索引文件
(2)在传统全文检索引擎的倒排索引的基础上,实现了分块索引,能够针对新的文件建立小文件索引,提升索引速度。然后通过与原有索引合并,达到优化的目的。
(3)优秀的面向对象的系统架构,使得对于Lucene扩展的学习难度降低,方便扩充新功能。
(4)设计了独立于语言和文件格式的文本分析接口,索引器通过接受Token流完成索引文件的创立,用户扩展新的语言和文件格式,只需要实现文本分析的接口。
(5)已经默认实现了一套强大的查询引擎,用户无需自己编写代码即可使系统可获得强大的查询能力,Lucene的查询实现中默认实现了布尔操作、模糊查询、分组查询等等。
本系统的图片检索采用LIRE技术,基于内容的图像检索要求利用图像的一些基本特征,如颜色、纹理、形状以及sift等等搜索相似的图片,LIRE是一款基于Lucene的图像特征索引工具,能方便的对图像特征建立索引和搜索,并兼具Lucene的优点,因此能够准确的农作物病害进行病害诊断。
Claims (8)
1.一种可扩展的农作物病害分析库的建立以及辅助鉴定方法,其特征是:该方法采用基于文本检索和基于图像检索相结合,基础检索框架采用Lucene实现文本索引和检索、使用LIRE实现图像索引和检索,根据用户的反馈优化诊断方法和融合方法;
该方法包括如下步骤:
病害分析库的建立:
步骤一:病害文本描述的索引建立;
首先进行症状文本的分析,采用基于隐马尔可夫的中文分词模型对文本进行分词器,并进行训练、停用词过滤后构成构成病害专有词表,最终结构化索引的建立;
步骤二:症状图片索引建立;
对图片特征建立索引,并对每张图片均提取多种特征;
步骤三:索引的维护;
农作物病害辅助鉴定:
步骤一:基于症状文本检索的鉴定;
对用户输入的症状文本进行分析,然后构造布尔查询;
步骤二:基于症状图片检索的鉴定;
对用户上传的图片进行特征抽取,执行图片检索,然后检索相似度值修正并输出;
文本检索结果里的相似度用表示,该值体现了用户输入的文本与病害知识里的症状描述的相似度,图片检索结果的相似度用表示,该值体现了用户上传图片与病害知识里的症状图片的相似度,把两个相似度值进行修正然后进行比较;
公式(1)中,L表示用户输入文本的长度, f(L)函数的取值在[0,1);
当用户不输入症状文字描述的时候f(L)取值为0,诊断结果就只参考图片检索结果,是引入的一个调节超参数,更偏向于文本检索结果,因为文本匹配是一种更直接的匹配方式;
g函数定义如公式(3)所示:
基于公式(1),对P个文本检索结果和Q个图片检索结果的相似度值进行修正,根据修正后的相似度值对P+Q个检索结果倒排序,取前N个作为最终的诊断输出。
2.根据权利要求1所述的可扩展的农作物病害分析库的建立以及辅助鉴定方法,其特征是:所述的步骤一中症状文本的分析具体过程为:采用基于隐马尔可夫的中文分词模型对文本进行分词器,该模型在开放域中文语料上训练;
对分词后的文本进行停用词过滤,停用词表采用常规的停用词表;
整理常见的描述病害症状的词构成病害专有词表,根据专有词表对分词后的文本进行词的合并。
3.根据权利要求1所述的可扩展的农作物病害分析库的建立以及辅助鉴定方法,其特征是:所述的结构化索引的建立的具体过程为:使用lucene对分析处理后的症状文本建立结构化倒排索引,把每一个病害的文本描述及相关类型信息作为一个结构化文档,基于该结构化文档建立结构化索引,在后续检索阶段可支持结构化检索。
4.根据权利要求1所述的可扩展的农作物病害分析库的建立以及辅助鉴定方法,其特征是:所述的症状图片索引建立的具体过程为:对图片建立索引首先要提取图片的特征,然后对图片特征建立索引,使用16种图片特征提取方法,对每张图片均提取16种特征,为后续检索提供多种特征选择;
每个病害的描述有多张图片,把每张图片及其相关病害信息组成一个结构化文档,建立结构化索引。
5.根据权利要求1所述的可扩展的农作物病害分析库的建立以及辅助鉴定方法,其特征是:所述的构造布尔查询的具体过程为:布尔查询是组合多个检索条件的表达式,Lucene根据布尔查询执行检索。
6.由于专家维护的“标准病历”中作物名、生长期、部位要与用户输入的这三类信息一致,用户输入的症状描述与专家维护的症状描述的匹配看作是某种模糊匹配,这种模糊匹配由Lucene执行相似度计算,在相似度计算的时候首先对文本进行分析处理,因而布尔表达式的形式如下:
作物名=用户输入作物名 AND 作物部位=用户输入的作物部位
AND 生长期=用户输入的生长期 AND 用户输入症状相似度计算
执行检索得到的每一个检索结果是一个结构化文档,包含病害名、应对措施和相似度值,检索结果按照相似度值倒排序;
执行检索后,取前P个检索结果。
7.根据权利要求1所述的可扩展的农作物病害分析库的建立以及辅助鉴定方法,其特征是:所述的对用户上传的图片进行特征抽取的具体过程为:在检索阶段,也需要抽取用户上传的C个图片的特征,然后基于特征进行检索,这16种特征抽取器分别是ColorLayout、CEDD、FCTH、JCD、ScalableColor、EdgeHistogram、AutoColorCorrelogram、Tamura、Gabor、SimpleColorHistogram、OpponentHistogram、JointHistogram、LuminanceLayout、PHOG、ACCID、COMO。
8.根据权利要求1所述的可扩展的农作物病害分析库的建立以及辅助鉴定方法,其特征是:所述的执行图片检索的具体过程为:图片检索分为四个步骤:检索、重排序、过滤、投票截取;
(1)使用一种特征抽取器抽取用户上传图片的特征,根据特征执行LIRE的图片检索,得到检索结果列表,每一个检索结果是一个结构化文档,检索结果是根据相似度值倒排序的;
(2)使用另一种特征抽取器抽取用户上传图片的特征,根据该特征对检索结果列表进行重排序;
(3)根据用户输入的作物名称、生长期、作物部位信息对检索结果列表进行过滤,取前K个结果;
(4)用户上传图片的个数是C,根据每个图片检索得到K个检索结果,一共获得C*K的检索结果,然后对C*K个结果进行投票,也就是根据病害名进行合并计数并倒排序,取前M个检索结果;
最终图片检索阶段输出Q个诊断。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110351566.9A CN113094464B (zh) | 2021-03-31 | 2021-03-31 | 可扩展的农作物病害分析库的建立以及辅助鉴定方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110351566.9A CN113094464B (zh) | 2021-03-31 | 2021-03-31 | 可扩展的农作物病害分析库的建立以及辅助鉴定方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113094464A true CN113094464A (zh) | 2021-07-09 |
CN113094464B CN113094464B (zh) | 2024-05-28 |
Family
ID=76672626
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110351566.9A Active CN113094464B (zh) | 2021-03-31 | 2021-03-31 | 可扩展的农作物病害分析库的建立以及辅助鉴定方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113094464B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116246176A (zh) * | 2023-05-12 | 2023-06-09 | 山东建筑大学 | 一种农作物的病害检测方法、装置、电子设备及存储介质 |
CN116401417A (zh) * | 2023-06-07 | 2023-07-07 | 深圳市中农网有限公司 | 一种基于海量农产品数据的分级存储方法 |
CN116503027A (zh) * | 2023-06-27 | 2023-07-28 | 成都智达万应科技有限公司 | 一种公路资产智能化管理系统 |
CN116579751A (zh) * | 2023-07-14 | 2023-08-11 | 南京信息工程大学 | 农作物检测数据处理方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103473327A (zh) * | 2013-09-13 | 2013-12-25 | 广东图图搜网络科技有限公司 | 图像检索方法与系统 |
CN108319959A (zh) * | 2017-12-29 | 2018-07-24 | 中国科学院合肥物质科学研究院 | 一种基于图像特征压缩与检索的农作物病害图像识别方法 |
CN108804592A (zh) * | 2018-05-28 | 2018-11-13 | 山东浪潮商用系统有限公司 | 知识库检索实现方法 |
KR20190021833A (ko) * | 2017-08-24 | 2019-03-06 | 세종대학교산학협력단 | 병해충 검색을 위한 통합 시스템 |
CN110811548A (zh) * | 2019-10-09 | 2020-02-21 | 深圳大学 | 一种记忆状态评估方法、系统、装置及存储介质 |
-
2021
- 2021-03-31 CN CN202110351566.9A patent/CN113094464B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103473327A (zh) * | 2013-09-13 | 2013-12-25 | 广东图图搜网络科技有限公司 | 图像检索方法与系统 |
KR20190021833A (ko) * | 2017-08-24 | 2019-03-06 | 세종대학교산학협력단 | 병해충 검색을 위한 통합 시스템 |
CN108319959A (zh) * | 2017-12-29 | 2018-07-24 | 中国科学院合肥物质科学研究院 | 一种基于图像特征压缩与检索的农作物病害图像识别方法 |
CN108804592A (zh) * | 2018-05-28 | 2018-11-13 | 山东浪潮商用系统有限公司 | 知识库检索实现方法 |
CN110811548A (zh) * | 2019-10-09 | 2020-02-21 | 深圳大学 | 一种记忆状态评估方法、系统、装置及存储介质 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116246176A (zh) * | 2023-05-12 | 2023-06-09 | 山东建筑大学 | 一种农作物的病害检测方法、装置、电子设备及存储介质 |
CN116246176B (zh) * | 2023-05-12 | 2023-09-19 | 山东建筑大学 | 一种农作物的病害检测方法、装置、电子设备及存储介质 |
CN116401417A (zh) * | 2023-06-07 | 2023-07-07 | 深圳市中农网有限公司 | 一种基于海量农产品数据的分级存储方法 |
CN116401417B (zh) * | 2023-06-07 | 2023-09-05 | 深圳市中农网有限公司 | 一种基于海量农产品数据的分级存储方法 |
CN116503027A (zh) * | 2023-06-27 | 2023-07-28 | 成都智达万应科技有限公司 | 一种公路资产智能化管理系统 |
CN116503027B (zh) * | 2023-06-27 | 2024-01-19 | 成都智达万应科技有限公司 | 一种公路资产智能化管理系统 |
CN116579751A (zh) * | 2023-07-14 | 2023-08-11 | 南京信息工程大学 | 农作物检测数据处理方法及系统 |
CN116579751B (zh) * | 2023-07-14 | 2023-09-08 | 南京信息工程大学 | 农作物检测数据处理方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113094464B (zh) | 2024-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113094464B (zh) | 可扩展的农作物病害分析库的建立以及辅助鉴定方法 | |
Lin et al. | The pest and disease identification in the growth of sweet peppers using faster R-CNN and mask R-CNN | |
Tejaswini et al. | Rice leaf disease classification using CNN | |
CN112084977B (zh) | 一种融合图像和时间特征的苹果物候期自动识别方法 | |
Deshmukh et al. | Detection of paddy leaf diseases | |
Tumang | Pests and diseases identification in mango using MATLAB | |
Maria et al. | Cauliflower disease recognition using machine learning and transfer learning | |
Gining et al. | Harumanis mango leaf disease recognition system using image processing technique | |
Paulo et al. | Distinguishing volunteer corn from soybean at seedling stage using images and machine learning | |
Medhi et al. | PSFD-Musa: A dataset of banana plant, stem, fruit, leaf, and disease | |
Hu et al. | Rice Weed detection method on YOLOv4 convolutional neural network | |
Lin et al. | Pest and disease identification in the growth of sweet peppers using faster R-CNN | |
Jasim | High-Performance Deep learning to Detection and Tracking Tomato Plant Leaf Predict Disease and Expert Systems | |
Rao et al. | Identification of medicinal plants using deep learning | |
Al-bayati et al. | Artificial intelligence in smart agriculture: Modified evolutionary optimization approach for plant disease identification | |
Akshitha et al. | Paddy crop disease detection using deep learning techniques | |
Al-Shalout et al. | Detecting date palm diseases using convolutional neural networks | |
Luz et al. | Boron deficiency precisely identified on growth stage V4 of maize crop using texture image analysis | |
Singh et al. | A review on recognition of plant disease using intelligent image retrieval techniques | |
Miao et al. | Crop weed identification system based on convolutional neural network | |
Sarwar et al. | Detection and classification of cotton leaf diseases using faster R-CNN on field condition images | |
Sowmya et al. | Utility system for premature plant disease detection using machine learning | |
CN114937172A (zh) | 一种基于改进yolov3的葡萄病害识别方法及系统 | |
Benlachmi et al. | Fruits Disease Classification using Machine Learning Techniques | |
Zainorzuli et al. | Paddy Leaf Diseases Image Classification using Convolution Neural Network (CNN) Technique |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |