CN112231535B - 一种农业病虫害领域多模态数据集制作方法、处理装置和存储介质 - Google Patents
一种农业病虫害领域多模态数据集制作方法、处理装置和存储介质 Download PDFInfo
- Publication number
- CN112231535B CN112231535B CN202011147063.1A CN202011147063A CN112231535B CN 112231535 B CN112231535 B CN 112231535B CN 202011147063 A CN202011147063 A CN 202011147063A CN 112231535 B CN112231535 B CN 112231535B
- Authority
- CN
- China
- Prior art keywords
- agricultural
- picture
- pest
- categories
- data set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种农业病虫害领域多模态数据集制作方法、处理装置和存储介质,包括步骤如下:首先,收集农业病虫害的类别,并建立层级分类系统;其次,搜集农业病虫害类别对应的农业技方以及农业病虫害类别对应的图片;最后,转换为结构化数据,并依次进行内容过滤、分词,获取农业病虫害领域文本模态数据集;对搜集的农业病虫害类别对应的图片中的无用图片做初步过滤,进行数据增强处理,得到农业病虫害领域图像模态数据集。本发明通用而高效,解决了数据来源和制作的难题,改善了以往数据集制作方法中摄像设备单一、采集地点有限、效率低、成本高、鲁棒性低等缺点,为深度学习的发展起到了推动作用。
Description
技术领域
本发明属于多模态数据处理技术领域,尤其涉及一种农业病虫害领域多模态数据集制作方法、装置和存储介质。
背景技术
随着经济社会的发展,农业生产规模逐渐扩大,农业病虫害出现的频率也日益增加。早期处理农业病虫害的方式为农民邀请农业专家进行现场调研,农业专家查阅相关资料给出农业技方,这种方式十分费时费力,且存在农业病虫害数量、种类众多,但农业专家数量较少的矛盾。
然而,近些年来随着深度学习中多模态研究的不断深入,借助计算机视觉和自然语言处理的技术便能完成农业病虫害的自动诊断和农业技方推送。现有多模态数据集,例如Flickr30K数据集,MSCOCO数据集,ImageNet数据集均为人类活动的场景和人类行为的描述,利用这些数据集训练的农业病虫害识别模型效果往往不好。
在基于多模态技术的项目中,数据集制作的工作量占据总体任务的70%以上,数据集制作的质量直接决定了多模态模型的准确率,但是一些现有数据集自动构造方法所制作的数据集质量堪忧。
发明内容
针对农业病虫害图像识别和农业技方智能推送领域的空白,本发明提供了一种农业病虫害领域多模态数据集制作方法、装置和存储介质。
本发明的第一个方面提供了一种数据集制作方法。
本发明的第二个方面提供了一种数据集制作装置。
本发明的第三个方面提供了一种计算机可读存储介质。
术语解释:
1、JIEBA分词工具,是一款Python中文分词组件,准确说是一组Python程序的集合,其包含三种分词模式,即三种可输入参数的程序,分别为精确模式、全模式、搜索引擎模式。在本发明中,使用“精确模式”对文本进行分词,可将连续的文本切割为离散的字或词所构成的列表。
2、Python-selenium爬虫,Python-Selenium是一组Python程序的集合,其提供一组可调用的函数。利用其提供的程序,可实现自动化打开谷歌浏览器、点击按钮、定位元素、解析网页源码等功能。
3、Beautiful-Soup工具,是一组Python程序的集合,其提供一组可调用的函数,功能为解析网站的源码、从网页抓取数据。在本发明中,利用Beautiful-Soup提供的find函数,输入不同的标签名称,可获取网页源码中该标签名称对应元素的具体数值。
本发明的技术方案为:
鉴于上述,根据本发明的第一个方面,提供了一种农业病虫害领域多模态数据集制作方法,包括步骤如下:
首先,收集农业病虫害的类别,并建立层级分类系统;对农业病虫害的类别进行网络调研,原则是尽可能多的覆盖常见农业病虫害,考虑到同类疾病或昆虫作用在不同种类植物上会有不同的农业技方,病虫害种类粒度控制为植物种类与疾病或昆虫种类的组合。
其次,根据农业病虫害类别,搜集农业病虫害类别对应的农业技方,以及农业病虫害类别对应的图片;
最后,将搜集的农业病虫害类别对应的农业技方转换为结构化数据,并依次进行内容过滤、分词,获取农业病虫害领域文本模态数据集;
对搜集的农业病虫害类别对应的图片中的无用图片做初步过滤,并输入专门编写的可显示图片内容、图片标题、病害或虫害的名称的软件(农作物图像文本标注对齐软件),邀请农业专家人工进行进一步过滤,滤除非专业人士可辨认的无用图片,所述非专业人士可辨认的无用图片为图片标题和实际显示图片不符的图片;再进行数据增强处理,得到农业病虫害领域图像模态数据集;
最终,获取了农业病虫害领域多模态数据集,农业病虫害领域多模态数据集包括农业病虫害领域文本模态数据集、农业病虫害领域图像模态数据集。
根据本发明优选的,收集农业病虫害的类别,并建立层级分类系统;包括步骤如下:
从多个专业的农业网站进行调查,这些网站包括“百度百科”,“维基百科”,“中农在线”,“园林网站”,“中国农药网站”,“世纪农药网站”。经过调查,收集若干个候选的农业病虫害类别,并建立层级分类系统,所述层级分类系统包括四层分类级别,一级类别包括病害类、虫害类;二级类别包括蔬菜、果树、经济作物、粮食作物,分别在病害类和虫害类下设定二级类别;三级类别是指植物名称,分别在蔬菜、果树、经济作物、粮食作物下设定三级类别;四级类别是指具体侵害植物的疾病或者昆虫,分别植物名称下设定四级类别。
根据本发明优选的,根据农业病虫害类别,在互联网资源中搜集农业病虫害类别对应的农业技方;此处互联网资源包括但不局限于以下平台:百度百科网站、维基百科网站、中农在线网站、园林网站、中国农药网站、世纪农药网站。所述农业技方包括病害类农业技方和虫害类农业技方,病害类农业技方包括症状、病原、传播途径和发病条件、防治方法四个字段,每个字段包含一段对应的文字描述;虫害类农业技方包括为害特点、形态特征、发生规律、防治方法四个字段,每个字段包含一段对应的文字描述。
根据本发明优选的,将搜集的农业病虫害类别对应的农业技方转换为结构化数据,是指:农业病虫害类别对应的农业技方的原始文本为非结构化数据,即各个字段的文本描述均包含于同一文本中。采用正则表达式匹配农业病虫害类别对应的农业技方中各字段名称,再根据字段名称将整个文本进行切割,得到以上述四类字段为键名、切割后的文本为键值的结构化数据。
根据本发明优选的,内容过滤,是指:根据汉字停用词表、特殊字符停用词表对结构化数据中各个字段对应的切割后的文本进行内容过滤。
特殊字符停用词表的过滤内容为,除中文字母数字以外的全部字符,例如:“:”(冒号),“!”(感叹号)等。过滤方式为,将表中每一个特殊字符与文本中每一个字符进行匹配,如果二者相同则删掉这个符号。汉字停用词表的过滤内容为,中文中十分常见的词,例如:“的”,“得”,“啊”等助词。过滤方式为,将表中每一个词与文本中每一个词进行匹配,如果二者相同则删掉这个词。
根据本发明优选的,分词,是指:采用JIEBA分词工具的精确模式将内容过滤后各个字段对应的切割后的文本进行分词,得到农业病虫害领域文本模态数据集。
根据本发明优选的,根据农业病虫害类别,在互联网资源中采用Python-selenium爬虫模拟浏览器行为自动收集农业病虫害类别对应的图片,此处所述互联网资源包括但不局限于以下平台:百度图片网站、谷歌图片网站、必应图片网站。包括步骤如下:
(1)准备chromedriver.exe浏览器驱动程序;
(2)使用Python-selenium爬虫打开浏览器,访问image.google.com或者image.baidu.com或者image.bing.com;
(3)定位网页搜索框,键入所要查询的病害或虫害的中文名称;
(4)Python-selenium爬虫模拟点击每一张图片,弹出右侧详情页面;
(5)采用Python-selenium爬虫的Beautiful-Soup工具包解析右侧详情页面源代码,使用正则表达式匹配图片来源网站的图片链接、图片来源网站的网站链接、图片标题、图片尺寸信息;
(6)将匹配到的图片来源网站的图片链接、图片来源网站的网站链接、图片标题、图片尺寸信息结合病害或虫害的中文名称,以五元组形式存入list列表中;
(7)根据所述图片来源网站的图片链接将图片下载到以病害或虫害的中文名称命名的文件夹中;
(8)定位网页搜索框,键入所要查询的病害或虫害的英文名称,重复步骤(1)至(7),根据上述技术方案中的Python-selenium爬虫方案,最终,每个病害或者虫害类别收集不少于2000张未经过滤的原始图片素材。
根据本发明优选的,以所述收集的原始图片素材为基础,对病害或虫害的名称,与图片标题做文本相似度计算,以此对原始图片素材中的无用图片做初步过滤,是指:
步骤1:若图片标题中包括“农药”、“特效药”、“杀菌剂”、“抗霉素”等明显农药名称,则舍弃该图片,否则进入步骤2;
步骤2:若图片标题中包括病害或虫害的名称,则进入步骤3,否则,舍弃该图片;
步骤3:若病害或虫害的实际类别名称完全与图片标题一致,则保留图片,否则进入步骤4;
步骤4:若图片是一张二维码图片,则舍弃该图片,否则,进入步骤5;
步骤5:对病害或虫害的实际类别名称与图片标题做余弦相似度计算,若二者的余弦相似度大于0.8,则保留图片,否则舍弃图片;余弦相似度计算的计算公式如式(Ⅰ)所示:
式(Ⅰ)中,Csca为最终算得的类别名称与图片标题的余弦相似度,具体为一个数值;Vtag代表类别名称采用One-hot编码方式编码后的向量;Vtit代表图片标题采用One-hot编码方式编码后的向量。“·”符号代表向量相乘,得到一个具体的数值。
将初步过滤后的图片依次输入专门编写的可显示图片内容、图片标题、病害或虫害的类别名称的软件中,此处所述软件首先接收一个和图片信息相关联的元数据,元数据包括图片内容、图片标题、病害或虫害的类别名称,在软件左侧显示图片内容,在软件右上方显示图片标题,在软件右下方显示病害或虫害的类别名称,在软件底部设置两个按钮,分别取名:“保留”,“删除”。邀请多位农业专家进行人工过滤,此处所述人工过滤不仅包含上述由计算机自动完成的初步过滤的五个步骤,农业专家还会判断一张图片的内容是否和实际的病害或虫害的类别名称一致,若是,则点击“保留”按键,保存下这张图片,否则点击“删除”按键,删除这张图片。最终得到质量较高的农业病虫害领域图像模态数据集。
根据本发明优选的,对质量较高的农业病虫害领域图像模态数据集进行数据增强处理,包括:
(7)将图片重新设定大小为512*512px;
(8)将各个图片按照四种角度进行旋转,所述四种角度的确定方式为:在5度至10度中随机选取一个角度、15至20度中随机选取一个角度、25至30度中随机选取一个角度、35至40度中随机选取一个角度,图片经旋转后,图像中的像素发生位移,导致图片四角处出现大小相等的四个显示为黑色,即无像素呈三角形状的区域,对图片进行中心裁剪,直至无黑色三角状区域;
(9)将旋转后的图像重新设定大小为512*512px。在此基础上可得到一张全新的质量较高的图像,使用该方法可将图片数量扩充数倍以上,以达到深度学习需要大量训练数据的要求。
根据本发明的第二个方面,提供了一种数据集制作装置,包括层级分类系统建立模块、文本模块数据集单元、图像模态数据集单元,层级分类系统建立模块分别连接所述文本模块数据集单元、图像模态数据集单元;
所述文本模块数据集单元包括依次连接的农业技方搜集模块、结构化处理模块、内容过滤模块及分词模块;所述图像模态数据集单元包括依次连接的图片搜集模块、初步过滤模块及数据增强模块;
所述层级分类系统建立模块用于:收集农业病虫害的类别,并建立层级分类系统;所述农业技方搜集模块用于:根据农业病虫害类别,搜集农业病虫害类别对应的农业技方;所述结构化处理模块用于:将搜集的农业病虫害类别对应的农业技方转换为结构化数据;所述内容过滤模块用于:对结构化数据进行内容过滤;所述分词模块用于:对内容过滤后的农业技方进行分词,得到农业病虫害领域文本模态数据集;
所述图片搜集模块用于:根据农业病虫害类别,搜集农业病虫害类别对应的图片;所述初步过滤模块用于:对搜集的农业病虫害类别对应的图片中的无用图片做初步过滤;所述数据增强模块用于:对初步过滤后的图片进行数据增强,得到农业病虫害领域图像模态数据集。
一种计算机可读存储介质,其上存储有计算机程序,计算机程序被执行时实现如上述任一种技术方案的方法的步骤。
本发明的有益效果为:
1、本发明能够针对农业病虫害领域构建专业的适用于深度学习方法进行农业技方智能推送的多模态数据集,并且是利用易于获得的互联网资源,以自动的方式获取大量图片,并采用机器学习相关技术进行自动过滤,本发明通用而高效,解决了数据来源和制作的难题,改善了以往数据集制作方法中摄像设备单一、采集地点有限、效率低、成本高、鲁棒性低等缺点,为深度学习的发展起到了推动作用。
2、本发明为农业病虫害领域专用多模态数据集的制作提供了一种通用、快捷、低成本和高品质的多模态数据集制作方法。
附图说明
图1为本发明实施例中农业病虫害领域多模态数据集制作方法的示意流程图;
图2为本发明实施例中农业病虫害领域文本模态数据集处理方法的示意流程图;
图3为本发明实施例中采用Python-selenium爬虫模拟浏览器行为自动收集农业病虫害类别对应的图片的流程示意图;
图4为本发明实施例中对病害或虫害的名称与图片标题做文本相似度计算的流程示意图;
图5为本发明实施例中提供的数据集制作装置的示意框图。
具体实施方式
为了使本发明的目的,技术方案及优点更加清楚明白,以下结合具体实施例,对本发明进行进一步详细说明,应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
实施例1
一种农业病虫害领域多模态数据集制作方法,包括步骤如下:
首先,收集农业病虫害的类别,并建立层级分类系统;对农业病虫害的类别进行网络调研,原则是尽可能多的覆盖常见农业病虫害,考虑到同类疾病或昆虫作用在不同种类植物上会有不同的农业技方,病虫害种类粒度控制为植物种类与疾病或昆虫种类的组合。
其次,根据农业病虫害类别,搜集农业病虫害类别对应的农业技方,以及农业病虫害类别对应的图片;
最后,将搜集的农业病虫害类别对应的农业技方转换为结构化数据,并依次进行内容过滤、分词,获取农业病虫害领域文本模态数据集;
对搜集的农业病虫害类别对应的图片中的无用图片做初步过滤,并输入专门编写的可显示图片内容、图片标题、病害或虫害的名称的软件,邀请农业专家人工进行进一步过滤,滤除非专业人士可辨认的无用图片,所述非专业人士可辨认的无用图片为图片标题和实际显示图片不符的图片;再进行数据增强处理,得到农业病虫害领域图像模态数据集;
最终,获取了农业病虫害领域多模态数据集,农业病虫害领域多模态数据集包括农业病虫害领域文本模态数据集、农业病虫害领域图像模态数据集。
实施例2
根据实施例1所述的一种农业病虫害领域多模态数据集制作方法,其区别在于:
收集农业病虫害的类别,并建立层级分类系统;包括步骤如下:
从多个专业的农业网站进行调查,这些网站包括“百度百科”,“维基百科”,“中农在线”,“园林网站”,“中国农药网站”,“世纪农药网站”。经过调查,收集若干个候选的农业病虫害类别,并建立层级分类系统,所述层级分类系统包括四层分类级别,一级类别包括病害类、虫害类;二级类别包括蔬菜、果树、经济作物、粮食作物,分别在病害类和虫害类下设定二级类别;三级类别是指植物名称,分别在蔬菜、果树、经济作物、粮食作物下设定三级类别;四级类别是指具体侵害植物的疾病或者昆虫,分别植物名称下设定四级类别。
根据农业病虫害类别,在互联网资源中搜集农业病虫害类别对应的农业技方;此处互联网资源包括但不局限于以下平台:百度百科网站、维基百科网站、中农在线网站、园林网站、中国农药网站、世纪农药网站。农业技方包括病害类农业技方和虫害类农业技方,病害类农业技方包括症状、病原、传播途径和发病条件、防治方法四个字段,每个字段包含一段对应的文字描述;虫害类农业技方包括为害特点、形态特征、发生规律、防治方法四个字段,每个字段包含一段对应的文字描述。
将搜集的农业病虫害类别对应的农业技方转换为结构化数据,是指:农业病虫害类别对应的农业技方的原始文本为非结构化数据,即各个字段的文本描述均包含于同一文本中。采用正则表达式匹配农业病虫害类别对应的农业技方中各字段名称,再根据字段名称将整个文本进行切割,得到以上述四类字段为键名、切割后的文本为键值的结构化数据。
内容过滤,是指:根据汉字停用词表、特殊字符停用词表对结构化数据中各个字段对应的切割后的文本进行内容过滤。
特殊字符停用词表的过滤内容为,除中文字母数字以外的全部字符,例如:“:”(冒号),“!”(感叹号)等。过滤方式为,将表中每一个特殊字符与文本中每一个字符进行匹配,如果二者相同则删掉这个符号。汉字停用词表的过滤内容为,中文中十分常见的词,例如:“的”,“得”,“啊”等助词。过滤方式为,将表中每一个词与文本中每一个词进行匹配,如果二者相同则删掉这个词。
分词,是指:采用JIEBA分词工具的精确模式将内容过滤后各个字段对应的切割后的文本进行分词,得到农业病虫害领域文本模态数据集。
根据农业病虫害类别,在互联网资源中采用Python-selenium爬虫模拟浏览器行为自动收集农业病虫害类别对应的图片,此处所述互联网资源包括但不局限于以下平台:百度图片网站、谷歌图片网站、必应图片网站。包括步骤如下:
(1)准备chromedriver.exe浏览器驱动程序;
(2)使用Python-selenium爬虫打开浏览器,访问image.google.com或者image.baidu.com或者image.bing.com;
(3)定位网页搜索框,键入所要查询的病害或虫害的中文名称;
(4)Python-selenium爬虫模拟点击每一张图片,弹出右侧详情页面;
(5)采用Python-selenium爬虫的Beautiful-Soup工具包解析右侧详情页面源代码,使用正则表达式匹配图片来源网站的图片链接、图片来源网站的网站链接、图片标题、图片尺寸信息;
(6)将匹配到的图片来源网站的图片链接、图片来源网站的网站链接、图片标题、图片尺寸信息结合病害或虫害的中文名称,以五元组形式存入list列表中;
(7)根据所述图片来源网站的图片链接将图片下载到以病害或虫害的中文名称命名的文件夹中;
(8)定位网页搜索框,键入所要查询的病害或虫害的英文名称,重复步骤(1)至(7),根据上述技术方案中的Python-selenium爬虫方案,最终,每个病害或者虫害类别收集不少于2000张未经过滤的原始图片素材。
以所述收集的原始图片素材为基础,对病害或虫害的名称,与图片标题做文本相似度计算,以此对原始图片素材中的无用图片做初步过滤,是指:
步骤1:若图片标题中包括“农药”、“特效药”、“杀菌剂”、“抗霉素”等明显农药名称,则舍弃该图片,否则进入步骤2;
步骤2:若图片标题中包括病害或虫害的名称,则进入步骤3,否则,舍弃该图片;
步骤3:若病害或虫害的实际类别名称完全与图片标题一致,则保留图片,否则进入步骤4;
步骤4:若图片是一张二维码图片,则舍弃该图片,否则,进入步骤5;
步骤5:对病害或虫害的实际类别名称与图片标题做余弦相似度计算,若二者的余弦相似度大于0.8,则保留图片,否则舍弃图片;余弦相似度计算的计算公式如式(Ⅰ)所示:
式(Ⅰ)中,Csca为最终算得的类别名称与图片标题的余弦相似度,具体为一个数值;Vtag代表类别名称采用One-hot编码方式编码后的向量;Vtit代表图片标题采用One-hot编码方式编码后的向量。“·”符号代表向量相乘,得到一个具体的数值。
将初步过滤后的图片依次输入专门编写的可显示图片内容、图片标题、病害或虫害的类别名称的软件中,此处所述软件首先接收一个和图片信息相关联的元数据,元数据包括图片内容、图片标题、病害或虫害的类别名称,在软件左侧显示图片内容,在软件右上方显示图片标题,在软件右下方显示病害或虫害的类别名称,在软件底部设置两个按钮,分别取名:“保留”,“删除”。邀请多位农业专家进行人工过滤,此处所述人工过滤不仅包含上述由计算机自动完成的初步过滤的五个步骤,农业专家还会判断一张图片的内容是否和实际的病害或虫害的类别名称一致,若是,则点击“保留”按键,保存下这张图片,否则点击“删除”按键,删除这张图片。最终得到质量较高的农业病虫害领域图像模态数据集。
对质量较高的农业病虫害领域图像模态数据集进行数据增强处理,包括:
(7)将图片重新设定大小为512*512px;
(8)将各个图片按照四种角度进行旋转,所述四种角度的确定方式为:在5度至10度中随机选取一个角度、15至20度中随机选取一个角度、25至30度中随机选取一个角度、35至40度中随机选取一个角度,图片经旋转后,图像中的像素发生位移,导致图片四角处出现大小相等的四个显示为黑色,即无像素呈三角形状的区域,对图片进行中心裁剪,直至无黑色三角状区域;
(9)将旋转后的图像重新设定大小为512*512px。在此基础上可得到一张全新的质量较高的图像,使用该方法可将图片数量扩充数倍以上,以达到深度学习需要大量训练数据的要求。
实施例3
如图2所示,一种多模态数据集制作方法,具体包括:
S102,从多个专业的农业网站进行调查,可收集若干个候选的农业病虫害类别,并建立层级分类系统。
S104,根据候选的农业病虫害类别从多个专业的农业网站搜集农业病虫害防治技方;
S106,判断病虫害技防中是否满足字段数量的要求,判断结果为否,则执行S104,判断结果为真,则执行S108;
S108,采用正则表达式匹配的方法对病虫害技方进行分割,得到以字段名称为键名,切割后短文本为键值的结构化数据;
S110,根据候选的农业病虫害类别从多个图片网站搜集农业病虫害的图片以及图片对应的元信息;
S112,采用机器学习相关技术对收集的图片集进行过滤,筛选出不属于对应类别的图片以及图片对应的元信息并删除;
S114,将图片输入可显示图片以及图片对应的元信息的软件,邀请农业专家进行甄别;
S116,对每一张图片进行数据增强;
S118,将每一具体类别对应的文本数据和图像数据进行对齐。
在该实施例中,S102-S116阐述了包含文本数据集和图像数据集的完整制作流程。S102-S116阐述了包含文本数据集和图像数据集的完整制作流程。其中步骤S104、步骤S108可按照图2中的流程进行细化描述;S110可按照图3中的流程进行细化描述;步骤S112、步骤S114可按照图4中的流程进行细化描述。步骤S102处所述农业网站包含但不限于百度百科网站、维基百科网站、中农在线网站、园林网站、中国农药网站、世纪农药网站。
如图2所示,包括:
S202,采用正则表达式匹配的方法对病虫害技方进行分割,得到以字段名称为键名,切割后短文本为键值的结构化数据;
S204,将每一条短文本数据中的繁体字转换为简体字;
S206,根据汉字停用词表对每一条短文本内容进行过滤;
S208,根据特殊字符停用词表对每一条短文本内容进行过滤;
S210,采用JIEBA分词工具包中的精确模式将每一条短文本内容进行分词。
在该实施例中,病害的字段名称具体为“症状”,“病原”,“传播途径和发病条件”,“防治方法”,虫害的字段名称具体为“为害特点”,“形态特征”,“发生规律”,“防治方法”。此处所述特殊字符停用词表包含除\u4e00-\u9fa5、0-9,A-Z,a-z之外的全部字符。此处所述汉字停用词表包括“的”,“等”,“地”等普遍分布于各个文本中,无区分度的汉字。
如图3所示,包括:
S302,准备chromedriver.exe浏览器驱动程序;
S304,使用Python-selenium打开浏览器,访问image.google.com、iamge.baidu.com、image.bing.com;
S306,定位网页搜索框,键入索要查询的病害或者虫害的中文名称;
S308,Python程序模拟点击每一张图片,弹出右侧详情页面;
S310,采用Python的Beautiful-Soup工具包解析右侧详情页面源代码,使用正则表达式匹配图片来源网站的图片链接、图片来源网站的网站链接、图片标题、图片尺寸信息;
S312,将病害或虫害的中文名称以五元组形式存入list列表中;
S314,根据图片来源网站的图片链接将图片下载到以病害或虫害的中问名称命名的文件夹中;S316,是否所有类别都检索完毕。
在该实施例中,所准备chromedriver.exe驱动程序应与电脑中chrome浏览器版本一致。Python程序访问各个网站时应使用有头模式并且换用多个代理IP以保证访问的稳定性;在模拟点击每一张图片时,每一次点击应动作停止1秒,以保证点击的稳定性;在下载每一张图片时,应采用多线程方式进行下载,以保证下载的快速性;在图片链接无法下载时,应制定相应的超时规则,以保证程序的稳定性和图片下载的快速性。
如图4所示,包括:
S402,加载图片以及对应的标题至显示软件;
S404,判断标题中是否包含“农药”“特效药”等明显农药名称,判断结果为是则执行S412,判断结果为否则执行S406;
S406,判断病害或者虫害的名称是否完全包含在图片标题中,判断结果为是则执行S408,判断结果为否则执行S412;
S408,判断标题是否完全包含在病害或者虫害的名称中,判断结果为是则执行S410,判断结果为否则执行S412;
S410,判断标题和病害或虫害的名称的余弦相似度是否大于0.8,判断结果为是则结束流程,判断结果为否则执行S412;
S412,删除图片以及对应的五元组信息。
在该实施例中,图片标题应采用正则表达式“^[\u4e00-\u9fa5a-zA-Z-z0-9]+$”过滤掉无用信息,只保留汉字数字大小写字母;图片标题只截取前20个字符进行后续比对。
实施例4
一种数据集制作装置,如图5所示,包括层级分类系统建立模块、文本模块数据集单元、图像模态数据集单元,层级分类系统建立模块分别连接文本模块数据集单元、图像模态数据集单元;
文本模块数据集单元包括依次连接的农业技方搜集模块、结构化处理模块、内容过滤模块及分词模块;图像模态数据集单元包括依次连接的图片搜集模块、初步过滤模块及数据增强模块;
层级分类系统建立模块用于:收集农业病虫害的类别,并建立层级分类系统;农业技方搜集模块用于:根据农业病虫害类别,搜集农业病虫害类别对应的农业技方;结构化处理模块用于:将搜集的农业病虫害类别对应的农业技方转换为结构化数据;内容过滤模块用于:对结构化数据进行内容过滤;分词模块用于:对内容过滤后的农业技方进行分词,得到农业病虫害领域文本模态数据集;
图片搜集模块用于:根据农业病虫害类别,搜集农业病虫害类别对应的图片;初步过滤模块用于:对搜集的农业病虫害类别对应的图片中的无用图片做初步过滤;数据增强模块用于:对初步过滤后的图片进行数据增强,得到农业病虫害领域图像模态数据集。
实施例5
一种计算机可读存储介质,其上存储有计算机程序,计算机程序被执行时实现如实施例1或2任一种技术方案的方法的步骤。
Claims (9)
1.一种农业病虫害领域多模态数据集制作方法,其特征在于,包括步骤如下:
首先,收集农业病虫害的类别,并建立层级分类系统;
其次,根据农业病虫害类别,搜集农业病虫害类别对应的农业技方,以及农业病虫害类别对应的图片;
最后,将搜集的农业病虫害类别对应的农业技方转换为结构化数据,并依次进行内容过滤、分词,获取农业病虫害领域文本模态数据集;
对搜集的农业病虫害类别对应的图片中的无用图片做初步过滤,并输入专门编写的可显示图片内容、图片标题、病害或虫害的名称的软件,人工进行进一步过滤,滤除非专业人士可辨认的无用图片,所述非专业人士可辨认的无用图片为图片标题和实际显示图片不符的图片;再进行数据增强处理,得到农业病虫害领域图像模态数据集;最终,获取了农业病虫害领域多模态数据集,农业病虫害领域多模态数据集包括农业病虫害领域文本模态数据集、农业病虫害领域图像模态数据集;
根据农业病虫害类别,采用Python-selenium爬虫模拟浏览器行为自动收集农业病虫害类别对应的图片,包括步骤如下:
(1)准备chromedriver.exe浏览器驱动程序;
(2)使用Python-selenium爬虫打开浏览器,访问image.google.com或者image.baidu.com或者image.bing.com;
(3)定位网页搜索框,键入所要查询的病害或虫害的中文名称;
(4)Python-selenium爬虫模拟点击每一张图片,弹出右侧详情页面;
(5)采用Python-selenium爬虫的Beautiful-Soup工具包解析右侧详情页面源代码,使用正则表达式匹配图片来源网站的图片链接、图片来源网站的网站链接、图片标题、图片尺寸信息;
(6)将匹配到的图片来源网站的图片链接、图片来源网站的网站链接、图片标题、图片尺寸信息结合病害或虫害的中文名称,以五元组形式存入list列表中;
(7)根据所述图片来源网站的图片链接将图片下载到以病害或虫害的中文名称命名的文件夹中;
(8)定位网页搜索框,键入所要查询的病害或虫害的英文名称,重复步骤(1)至(7)最终,每个病害或者虫害类别收集不少于2000张未经过滤的原始图片素材。
2.根据权利要求1所述的一种农业病虫害领域多模态数据集制作方法,其特征在于,收集农业病虫害的类别,并建立层级分类系统;包括步骤如下:
收集若干个候选的农业病虫害类别,并建立层级分类系统,所述层级分类系统包括四层分类级别,一级类别包括病害类、虫害类;二级类别包括蔬菜、果树、经济作物、粮食作物,分别在病害类和虫害类下设定二级类别;三级类别是指植物名称,分别在蔬菜、果树、经济作物、粮食作物下设定三级类别;四级类别是指具体侵害植物的疾病或者昆虫,分别植物名称下设定四级类别。
3.根据权利要求1所述的一种农业病虫害领域多模态数据集制作方法,其特征在于,根据农业病虫害类别,搜集农业病虫害类别对应的农业技方;所述农业技方包括病害类农业技方和虫害类农业技方,病害类农业技方包括症状、病原、传播途径和发病条件、防治方法四个字段,每个字段包含一段对应的文字描述;虫害类农业技方包括为害特点、形态特征、发生规律、防治方法四个字段,每个字段包含一段对应的文字描述。
4.根据权利要求1所述的一种农业病虫害领域多模态数据集制作方法,其特征在于,将搜集的农业病虫害类别对应的农业技方转换为结构化数据,是指:采用正则表达式匹配农业病虫害类别对应的农业技方中各字段名称,再根据字段名称将整个文本进行切割,得到字段为键名、切割后的文本为键值的结构化数据。
5.根据权利要求1所述的一种农业病虫害领域多模态数据集制作方法,其特征在于,内容过滤,是指:根据汉字停用词表、特殊字符停用词表对结构化数据中各个字段对应的切割后的文本进行内容过滤;
分词,是指:采用JIEBA分词工具的精确模式将内容过滤后各个字段对应的切割后的文本进行分词,得到农业病虫害领域文本模态数据集。
6.根据权利要求1所述的一种农业病虫害领域多模态数据集制作方法,其特征在于,以收集的原始图片素材为基础,对病害或虫害的名称,与图片标题做文本相似度计算,以此对原始图片素材中的无用图片做初步过滤,是指:
步骤1:若图片标题中包括农药名称,则舍弃该图片,否则进入步骤2;
步骤2:若图片标题中包括病害或虫害的名称,则进入步骤3,否则,舍弃该图片;
步骤3:若病害或虫害的实际类别名称完全与图片标题一致,则保留图片,否则进入步骤4;
步骤4:若图片是一张二维码图片,则舍弃该图片,否则,进入步骤5;
步骤5:对病害或虫害的实际类别名称与图片标题做余弦相似度计算,若二者的余弦相似度大于0.8,则保留图片,否则舍弃图片;余弦相似度计算的计算公式如式(Ⅰ)所示:
式(Ⅰ)中,Csca为最终算得的类别名称与图片标题的余弦相似度,具体为一个数值;Vtag代表类别名称采用One-hot编码方式编码后的向量;Vtit代表图片标题采用One-hot编码方式编码后的向量。
7.根据权利要求1所述的一种农业病虫害领域多模态数据集制作方法,其特征在于,对质量较高的农业病虫害领域图像模态数据集进行数据增强处理,包括:
(7)将图片重新设定大小为512*512px;
(8)将各个图片按照四种角度进行旋转,所述四种角度的确定方式为:在5度至10度中随机选取一个角度、15至20度中随机选取一个角度、25至30度中随机选取一个角度、35至40度中随机选取一个角度,图片经旋转后,图像中的像素发生位移,导致图片四角处出现大小相等的四个显示为黑色,即无像素呈三角形状的区域,对图片进行中心裁剪,直至无黑色三角状区域;
(9)将旋转后的图像重新设定大小为512*512px。
8.一种数据集制作装置,其特征在于,包括层级分类系统建立模块、文本模块数据集单元、图像模态数据集单元,层级分类系统建立模块分别连接所述文本模块数据集单元、图像模态数据集单元;
所述文本模块数据集单元包括依次连接的农业技方搜集模块、结构化处理模块、内容过滤模块及分词模块;所述图像模态数据集单元包括依次连接的图片搜集模块、初步过滤模块及数据增强模块;
所述层级分类系统建立模块用于:收集农业病虫害的类别,并建立层级分类系统;所述农业技方搜集模块用于:根据农业病虫害类别,搜集农业病虫害类别对应的农业技方;所述结构化处理模块用于:将搜集的农业病虫害类别对应的农业技方转换为结构化数据;所述内容过滤模块用于:对结构化数据进行内容过滤;所述分词模块用于:对内容过滤后的农业技方进行分词,得到农业病虫害领域文本模态数据集;
所述图片搜集模块用于:根据农业病虫害类别,搜集农业病虫害类别对应的图片;所述初步过滤模块用于:对搜集的农业病虫害类别对应的图片中的无用图片做初步过滤;所述数据增强模块用于:对初步过滤后的图片进行数据增强,得到农业病虫害领域图像模态数据集。
9.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,计算机程序被执行时实现权利要求1-7任一所述农业病虫害领域多模态数据集制作方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011147063.1A CN112231535B (zh) | 2020-10-23 | 2020-10-23 | 一种农业病虫害领域多模态数据集制作方法、处理装置和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011147063.1A CN112231535B (zh) | 2020-10-23 | 2020-10-23 | 一种农业病虫害领域多模态数据集制作方法、处理装置和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112231535A CN112231535A (zh) | 2021-01-15 |
CN112231535B true CN112231535B (zh) | 2022-11-15 |
Family
ID=74110695
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011147063.1A Active CN112231535B (zh) | 2020-10-23 | 2020-10-23 | 一种农业病虫害领域多模态数据集制作方法、处理装置和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112231535B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113744225A (zh) * | 2021-08-27 | 2021-12-03 | 浙大宁波理工学院 | 一种农业害虫智能检测方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108256104A (zh) * | 2018-02-05 | 2018-07-06 | 恒安嘉新(北京)科技股份公司 | 基于多维特征的互联网网站综合分类方法 |
CN108334591A (zh) * | 2018-01-30 | 2018-07-27 | 天津中科智能识别产业技术研究院有限公司 | 基于聚焦爬虫技术的行业分析方法及系统 |
CN108647691A (zh) * | 2018-03-12 | 2018-10-12 | 杭州电子科技大学 | 一种基于点击特征预测的图像分类方法 |
CN110033015A (zh) * | 2019-02-20 | 2019-07-19 | 天津科技大学 | 一种基于残差网络的植物病害检测方法 |
CN110148043A (zh) * | 2019-03-01 | 2019-08-20 | 安徽省优质采科技发展有限责任公司 | 基于知识图谱的招标采购信息推荐系统及推荐方法 |
CN110321956A (zh) * | 2019-07-08 | 2019-10-11 | 府谷县鑫兴泰农贸有限公司 | 一种基于人工智能的牧草病虫害治理方法及装置 |
CN110414561A (zh) * | 2019-06-26 | 2019-11-05 | 武汉大学 | 一种适用于机器视觉的自然场景数据集的构建方法 |
CN110457982A (zh) * | 2018-12-28 | 2019-11-15 | 中国科学院合肥物质科学研究院 | 一种基于特征迁移学习的作物病害图像识别方法 |
CN110569379A (zh) * | 2019-08-05 | 2019-12-13 | 广州市巴图鲁信息科技有限公司 | 一种汽车配件图片数据集制作方法 |
CN111046668A (zh) * | 2019-12-04 | 2020-04-21 | 北京信息科技大学 | 多模态文物数据的命名实体识别方法与装置 |
CN111259141A (zh) * | 2020-01-13 | 2020-06-09 | 北京工业大学 | 一种基于多模型融合的社交媒体语料情感分析方法 |
-
2020
- 2020-10-23 CN CN202011147063.1A patent/CN112231535B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108334591A (zh) * | 2018-01-30 | 2018-07-27 | 天津中科智能识别产业技术研究院有限公司 | 基于聚焦爬虫技术的行业分析方法及系统 |
CN108256104A (zh) * | 2018-02-05 | 2018-07-06 | 恒安嘉新(北京)科技股份公司 | 基于多维特征的互联网网站综合分类方法 |
CN108647691A (zh) * | 2018-03-12 | 2018-10-12 | 杭州电子科技大学 | 一种基于点击特征预测的图像分类方法 |
CN110457982A (zh) * | 2018-12-28 | 2019-11-15 | 中国科学院合肥物质科学研究院 | 一种基于特征迁移学习的作物病害图像识别方法 |
CN110033015A (zh) * | 2019-02-20 | 2019-07-19 | 天津科技大学 | 一种基于残差网络的植物病害检测方法 |
CN110148043A (zh) * | 2019-03-01 | 2019-08-20 | 安徽省优质采科技发展有限责任公司 | 基于知识图谱的招标采购信息推荐系统及推荐方法 |
CN110414561A (zh) * | 2019-06-26 | 2019-11-05 | 武汉大学 | 一种适用于机器视觉的自然场景数据集的构建方法 |
CN110321956A (zh) * | 2019-07-08 | 2019-10-11 | 府谷县鑫兴泰农贸有限公司 | 一种基于人工智能的牧草病虫害治理方法及装置 |
CN110569379A (zh) * | 2019-08-05 | 2019-12-13 | 广州市巴图鲁信息科技有限公司 | 一种汽车配件图片数据集制作方法 |
CN111046668A (zh) * | 2019-12-04 | 2020-04-21 | 北京信息科技大学 | 多模态文物数据的命名实体识别方法与装置 |
CN111259141A (zh) * | 2020-01-13 | 2020-06-09 | 北京工业大学 | 一种基于多模型融合的社交媒体语料情感分析方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112231535A (zh) | 2021-01-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Diez et al. | Deep learning in forestry using uav-acquired rgb data: A practical review | |
Belhumeur et al. | Searching the world’s herbaria: A system for visual identification of plant species | |
CN103823824B (zh) | 一种借助互联网自动构建文本分类语料库的方法及系统 | |
JP2022541199A (ja) | データテーブルの画像表現に基づいて構造化されたデータベースにデータ挿入するためのシステムおよび方法。 | |
Russell et al. | LabelMe: a database and web-based tool for image annotation | |
CN110717534B (zh) | 一种基于网络监督的目标分类和定位方法 | |
Soltis et al. | Plants meet machines: Prospects in machine learning for plant biology | |
Moupojou et al. | FieldPlant: A dataset of field plant images for plant disease detection and classification with deep learning | |
Bertrand et al. | Bark and leaf fusion systems to improve automatic tree species recognition | |
Liu et al. | Application of color featuring and deep learning in maize plant detection | |
CN111522901A (zh) | 文本中地址信息的处理方法及装置 | |
CN111488953B (zh) | 基于html源码特征对网页主题进行快速分类的方法 | |
CN112633504A (zh) | 一种基于知识图谱的果树病虫害智慧云知识服务系统及方法 | |
Xu et al. | Combining random forest and support vector machines for object-based rural-land-cover classification using high spatial resolution imagery | |
Figueroa-Mata et al. | Using deep learning to identify Costa Rican native tree species from wood cut images | |
Liu et al. | Real-time detection of seedling maize weeds in sustainable agriculture | |
CN112231535B (zh) | 一种农业病虫害领域多模态数据集制作方法、处理装置和存储介质 | |
Markewich et al. | Segmentation for document layout analysis: not dead yet | |
Weaver et al. | From leaves to labels: Building modular machine learning networks for rapid herbarium specimen analysis with LeafMachine2 | |
Adama et al. | Dr. LADA: Diagnosing black pepper pest and diseases with decision tree | |
CN107943937A (zh) | 一种基于司法公开信息分析的债务人资产监控方法及系统 | |
Rehman et al. | Long short term memory deep net performance on fused Planet-Scope and Sentinel-2 imagery for detection of agricultural crop | |
Xiao et al. | Complementary relevance feedback-based content-based image retrieval | |
Budig | Extracting spatial information from historical maps: algorithms and interaction | |
CN116188872A (zh) | 一种林业病虫害自动识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |