CN117315552B - 一种大规模农作物巡检方法、装置及存储介质 - Google Patents
一种大规模农作物巡检方法、装置及存储介质 Download PDFInfo
- Publication number
- CN117315552B CN117315552B CN202311615597.6A CN202311615597A CN117315552B CN 117315552 B CN117315552 B CN 117315552B CN 202311615597 A CN202311615597 A CN 202311615597A CN 117315552 B CN117315552 B CN 117315552B
- Authority
- CN
- China
- Prior art keywords
- video
- attention
- features
- rgb
- infrared
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000007689 inspection Methods 0.000 title claims abstract description 30
- 238000003860 storage Methods 0.000 title claims abstract description 18
- 230000002159 abnormal effect Effects 0.000 claims abstract description 18
- 238000000605 extraction Methods 0.000 claims description 40
- 230000004927 fusion Effects 0.000 claims description 26
- 238000013528 artificial neural network Methods 0.000 claims description 17
- 230000002457 bidirectional effect Effects 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 16
- 230000006835 compression Effects 0.000 claims description 13
- 238000007906 compression Methods 0.000 claims description 13
- 125000004122 cyclic group Chemical group 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 10
- 238000013527 convolutional neural network Methods 0.000 claims description 7
- 230000002787 reinforcement Effects 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000012271 agricultural production Methods 0.000 abstract description 4
- 238000005192 partition Methods 0.000 abstract 1
- 239000011159 matrix material Substances 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 201000010099 disease Diseases 0.000 description 5
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 5
- 241000238631 Hexapoda Species 0.000 description 3
- 241000607479 Yersinia pestis Species 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000000638 solvent extraction Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000000452 restraining effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0499—Feedforward networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/02—Agriculture; Fishing; Forestry; Mining
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Agronomy & Crop Science (AREA)
- Marine Sciences & Fisheries (AREA)
- Mining & Mineral Resources (AREA)
- Animal Husbandry (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种大规模农作物巡检方法、装置及存储介质,涉及农业巡检领域。本发明采集大规模农作物生长情况的RGB视频和红外视频,记录视频帧对应的位置信息;通过预训练的切片模型根据RGB视频和红外视频的特征对视频进行切片,以实现按照农作物生长情况切分视频;基于预训练的用于识别农作物生长情况的CLIP模型和faiss检索库构建视频帧匹配数据库;从RGB视频不同的切片中按比例抽取设定数量的样品帧,提取特征进行匹配,以获知每个切片中农作物生长情况;结合各个视频帧对应的位置信息,将生长情况按区域分割。本申请支持根据各个分区异常生长情况确定相应的治理方式,支持对大规模农业生产进行精细化治理,有效地降低运营成本。
Description
技术领域
本发明涉及作物巡检领域,尤其涉及一种大规模农作物巡检方法、装置及存储介质。
背景技术
农作物在种植后需要不定期进行巡视,以保证种植的作物能够正常成长,对于现代化大规模机械化农业而言,一般采用高效的无人机巡检来采集农作物情况,以及时发现植物的病虫害。
随着人工智能在CV领域的发展,越来越多的应用在生产巡检过程中,如:CN202010113357.6基于轻量级卷积神经网络的病虫害检测无人机及检测方法,(1)无人机在农场上空进行巡航,并通过搭载的相机采集农作物图像;(2)利用领域增强算法、超像素分割方法对获取的农作物图像进行图像预处理;(3)对预处理后的图像进行剪裁,分割为小图像;(4)采用轻量级卷积神经网络YOLO Nano对图像进行分析,实时判断农作物是否患有某种病症或出现虫害现象;(5)如果判断农作物存在病虫害现象,则无人机停留此区域上空,自适应调节高度,计算目标区域面积,返回实时坐标至控制中心,进行下一步;若判断没有出现病虫害现象。对比文件基于YOLO进行异常识别,虽然通过调整无人机高度改变视野范围来对农田异常区域进行划分能有效地降低图片处理量,但对包含异常的图像要求高,无人机升高增大摄像区域的同时,异常区域在图像中逐渐模糊,影响YOLO模型对异常的判断,因此,在确定异常对应的区域时,高度一旦超出一定范围很容易识别失败;而且,在识别过程中,无人机需长时间滞空等待识别完成,需要耗费较长的飞行时间才能完成大规模区域的异常识别巡检。因此,需要一种更加有效的异常区域确定手段。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本发明提供一种大规模农作物巡检方法、装置及存储介质。
第一方面,本发明提供一种大规模农作物巡检方法,包括:采集大规模农田的农作物生长情况RGB视频和红外视频,在采集的过程中,记录视频帧对应的位置信息;
通过预训练的切片模型根据RGB视频和红外视频的特征对视频进行切片,以实现按照农作物生长情况切分视频;所述切片模型包括:基于CNN卷积网络的第一特征提取模块和第二特征提取模块;分别连接第一特征提取模块和第二特征提取模块的两组堆叠的多头自注意力模块和前馈网络,所述前馈网络由线性层、Relu激活函数和线性层组成;上述前馈网络连接多模注意力模块;多模注意力模块连接双向循环神经网络,双向循环神经网络连接预测视频帧所属切片的全连接层和sigmoid激活函数;其中,通过强化学习的方式,训练所述切片模型;
从RGB视频不同的切片中按比例抽取设定数量的样品帧,利用预训练的识别模型提取样品帧特征进行匹配,以获知每个切片中农作物生长情况;
结合各个视频帧对应的位置信息,将生长情况按区域分割,完成巡视。
更进一步地,所述多模注意力模块包括:两个注意力模块和基于卷积的特征融合,其中一个注意力模块利用基于RGB特征生成的Key和Value,基于红外特征生成的Query进行特征提取得到带有红外注意力的RGB特征;另一个注意力模块利用基于红外特征生成的Key和Value,基于RGB特征生成的Query进行特征提取得到基于RGB注意力的红外特征。
更进一步地,所述多模注意力模块包括:两个注意力模块、Query缩放模块和基于卷积的特征融合,Query缩放模块包括先压缩维度再扩张维度的线性层实现,两个Query缩放模块将基于RGB特征和基于红外特征生成的Query进行压缩扩张处理;其中一个注意力模块利用基于RGB特征生成的Key和Value,基于红外特征压缩扩张生成的Query进行特征提取得到带有红外注意力的RGB特征;另一个注意力模块利用基于红外特征生成的Key和Value,基于RGB特征压缩扩张生成的Query进行特征提取得到基于RGB注意力的红外特征。
更进一步地,所述多模注意力模块包括:两个压缩注意力模块,两个扩张注意力模块和基于卷积的两个特征融合;
其中一个压缩注意力模块利用基于RGB特征生成的Key和Value,预设的可学习的低维Query进行特征提取;另一个压缩注意力模块利用基于红外特征生成的Key和Value,预设的可学习的低维Query进行特征提取,两个压缩注意力模块输出分别经归一化层归一化处理后进行第一次融合;
其中一个扩张注意力模块利用基于第一次融合后的结果生成的Key和Value,基于RGB特征生成的Query进行特征提取;另一个扩张注意力模块利用基于第一次融合后的结果生成的Key和Value,基于红外特征生成的Query进行特征提取;
两个扩张注意力模块的输出分别与RGB特征和红外特征相加,并分别进行归一化后进行第二次特征融合。
更进一步地,所述识别模型应用预训练的用于识别农作物生长情况的CLIP模型和faiss检索库构建视频帧匹配数据库;利用CLIP模型提取样品帧特征后,利用视频帧匹配数据库匹配出样品帧中农作物生长情况。
更进一步地,同一类农作物生长情况在样品帧中占比超过设定阈值时,则作为提供样品帧的切片的农作物生长情况。
更进一步地,将同一个切片内的视频帧之间差异性均值取倒数,再与不同切片间视频帧特征均值差异性的平均值相加作为奖励,以奖励最大为目标,对所述切片模型进行强化训练。
更进一步地,对于RGB视频的每个切片,按照切片首帧和尾帧的位置信息对切片进行定位,确定切片所表示农田区域之间的位置关系,对于时间上不相邻而空间上相邻的任一两切片,检查两切片农作物生长情况中的异常描述是否存在一致,存在一致,则将两切片区域中作为一致异常描述发生的区域,迭代的对全部切片的全部异常描述进行分区。
第二方面,本发明提供一种大规模农作物巡检装置,包括:至少一处理单元,所述处理单元通过总线单元连接存储单元,所述存储单元存储计算机程序,所述计算机程序被所述处理单元执行时,实现所述的大规模农作物巡检方法。
第三方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质存储计算机程序,所述计算机程序被处理器执行时,实现所述的大规模农作物巡检方法。
本发明实施例提供的上述技术方案与现有技术相比具有如下优点:
本申请支持采用无人机巡航采集的RGB视频和红外视频进行异常区域划分,完成同等规模的巡检,所需无人机飞行时间少。本申请通过所述多头自注意力模块提取RGB视频特征和红外视频特征的特征点之间的关联关系,使得特征关注农作物和反应农作物生长情况。再经多模注意力模块约束关联两个模态的特征,使两个模态更好地参与特征融合,为后续双向循环神经网络基于农作物以及农作物生长情况切片提供更好的特征支持。获知RGB视频每个切片的农作物生长情况后,结合各个视频帧对应的位置信息,将生长情况按区域分割,根据各个分区所对应的异常生长情况描述确定相应的治理方式,支持对大规模农业生产进行精细化管理,有效地降低运营成本。且先根据农作物生长特征切片,再对切片抽样进行生长情况确认,能够有效的降低分区过程中,参与分类运算的图片的数量,提高处理效率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种大规模农作物巡检方法的流程图;
图2为本发明实施例提供的切片模型的示意图;
图3为本发明实施例提供的交换注意力的一种多模注意力模块的示意图;
图4为本发明实施例提供的交换注意力且滤噪的一种多模注意力模块的示意图;
图5为本发明实施例提供的一种多模注意力模块的示意图;
图6为本发明实施例提供的一种大规模农作物巡检装置的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者装置中还存在另外的相同要素。
实施例1
参阅图1所示,所述一种大规模农作物巡检方法包括:
通过配置RGB和红外双目相机,配置GPS的无人机按照预先规划的路径拍摄包含大规模农作物生长情况的RGB视频和红外视频,在采集的过程中,所述无人机记录双目相机采集的两组视频中视频帧对应的GPS位置信息。
通过预训练的切片模型根据RGB视频和红外视频中的农作物生长特征对视频进行切片,以实现按照农作物生长情况切分视频。
具体实施过程中,参阅图2所示,所述切片模型包括:基于CNN卷积网络的第一特征提取模块和第二特征提取模块;分别连接第一特征提取模块和第二特征提取模块的两组堆叠的多头自注意力模块和前馈网络,所述前馈网络由线性层、Relu激活函数和线性层组成;上述前馈网络连接多模注意力模块;多模注意力模块连接双向循环神经网络,双向循环神经网络连接预测视频帧所属切片的全连接层和sigmoid激活函数。
通过预训练的第一特征提取模块和第二特征提取模块分别从无人机采集的RGB视频和红外视频提取特征,将提取的特征分别经堆叠的多头自注意力模块和前馈网络处理,分别得到农作物情况的RGB特征和红外特征。将所述红外特征和所述RGB特征通过多模注意力模块进行特征融合。
参阅图3所示,所述多模注意力模块包括:两个注意力模块和基于卷积的特征融合,其中一个注意力模块利用基于RGB特征生成的Key和Value,基于红外特征生成的Query进行特征提取得到带有红外注意力的RGB特征;另一个注意力模块利用基于红外特征生成的Key和Value,基于RGB特征生成的Query进行特征提取得到基于RGB注意力的红外特征。在图3中,将RGB模态和红外模态的Query矩阵进行交换,输入到两个注意力模块,在一个注意力模块中,红外模态的Query与RGB模态的Key矩阵相乘求得注意力权重,将注意力权重加权RGB模态的Value得到带有红外注意力的RGB特征,在另一个注意力模块中,RGB模态的Query与红外模态的Key矩阵相乘求得注意力权重,将注意力权重加权红外模态的Value得到带有RGB注意力的红外特征。约束两个模态之间的联系,保证两个模态更合理的参与到特征融合。
参阅图4所示,所述多模注意力模块包括:两个注意力模块、Query缩放模块和基于卷积的特征融合,Query缩放模块包括先压缩维度再扩张维度的线性层实现,两个Query缩放模块将基于RGB特征和基于红外特征生成的Query进行压缩扩张处理;其中一个注意力模块利用基于RGB特征生成的Key和Value,基于红外特征压缩扩张生成的Query进行特征提取得到带有红外注意力的RGB特征;另一个注意力模块利用基于红外特征生成的Key和Value,基于RGB特征压缩扩张生成的Query进行特征提取得到基于RGB注意力的红外特征。在图4中,将RGB模态和红外模态的压缩扩张后的Query矩阵进行交换,输入到两个注意力模块,在一个注意力模块中,红外模态的压缩扩张后的Query与RGB模态的Key矩阵相乘求得注意力权重,将注意力权重加权RGB模态的Value得到带有红外注意力的RGB特征,在另一个注意力模块中,RGB模态的压缩扩张后的Query与红外模态的Key矩阵相乘求得注意力权重,将注意力权重加权红外模态的Value得到带有RGB注意力的红外特征。除了约束两个模态之间的联系,保证两个模态更合理的参与到特征融合外,还通过对Query的压缩扩张,有效的过滤掉部分噪声,使得输出特征注意力点更加关注于农作物和农作物生长情况。
参阅图5所示,所述多模注意力模块包括:两个压缩注意力模块,两个扩张注意力模块和基于卷积的两个特征融合;其中一个压缩注意力模块利用基于RGB特征生成的Key和Value,预设的可学习的低维Query进行特征提取;另一个压缩注意力模块利用基于红外特征生成的Key和Value,预设的可学习的低维Query进行特征提取,两个压缩注意力模块输出分别经归一化层归一化处理后进行第一次融合;其中一个扩张注意力模块利用基于第一次融合后的结果生成的Key和Value,基于RGB特征生成的Query进行特征提取;另一个扩张注意力模块利用基于第一次融合后的结果生成的Key和Value,基于红外特征生成的Query进行特征提取;两个扩张注意力模块的输出分别与RGB特征和红外特征相加,并分别进行归一化后进行第二次特征融合。
在图5的压缩注意力模块中,低维Query和两种Key进行矩阵相乘得到压缩的注意力权重,再将压缩的注意力权重加权Value输出压缩的特征;在图5的扩张注意力模块中利用RGB特征和红外特征生成的原尺度Query与第一次融合特征生成的Key矩阵相乘,得到维度变高的注意力权重,再与第一次融合特征生成的Value矩阵相乘得到与RGB特征和红外特征维度一致的特征输出。能够通过Query、Key和Value的缩放进行降噪,使得输出特征注意力点更加关注于农作物和农作物生长情况。
融合后的特征按照帧顺序输入双向循环神经网络,所述双向循环神经网络处理融合后的特征产生一个相应的隐藏状态,而当前隐藏状态ht连接前序隐藏状态ht-1和后续隐藏状态ht+1,即,正向计算时,当前隐藏状态ht和前序隐藏状态ht-1及当前融合特征相关,反向计算时,当前隐藏状态ht和后序隐藏状态ht+1以及当前融合特征相关,因此,所述双向循环神经网络封装当前帧、过去帧和未来帧信息。利用全连接层和sigmoid激活函数将双向循环神经网络输出的隐藏状态映射为一个概率,所述概率表示当前融合特征对应的RGB视频帧和红外视频帧是否前序视频帧形成一个切片,按照预测结果执行相应的切片动作。
本申请通过所述多头自注意力模块提取RGB视频特征和红外视频特征的特征点之间的关联关系,使得特征关注农作物和反应农作物生长情况。再经多模注意力模块约束关联两个模态的特征,使两个模态更好地参与特征融合,为后续双向循环神经网络基于农作物以及农作物生长情况切片提供更好的特征支持。
本申请中通过强化学习的方式,训练所述切片模型。具体的,根据切片结果计算用于评估切片结果质量的奖励,所述奖励综合考虑同一切片内视频帧之间差异性均值和不同切片内视频帧特征均值差异性的平均值。对于一个好的切分结果而言,同一个切片内的视频帧之间差异性应小,而不同切片内视频帧特征均值差异性应大;本申请中,将同一个切片内的视频帧之间差异性均值取倒数,再与不同切片间视频帧特征均值差异性的平均值相加作为奖励,以奖励最大为目标,对所述切片模型进行强化训练,即,朝奖励梯度为正的方向调整所述切片模型的参数。
从RGB视频不同的切片中按比例抽取设定数量的样品帧,利用预训练的识别模型提取样品帧特征进行匹配,以获知每个切片中农作物生长情况;具体实施过程中,基于预训练的用于识别农作物生长情况的CLIP模型和faiss检索库构建视频帧匹配数据库;从RGB视频不同的切片中按比例抽取设定数量的样品帧,提取特征进行匹配,以获知每个切片中农作物生长情况;CLIP(Contrastive Language-Image Pre-Training) 模型是用于匹配图像和文本的预训练神经网络模型,本申请以RGB视频中的样品帧为CLIP模型的匹配图像,以农作物生长情况的文本描述为匹配目标,以获知每个视频帧中农作物生长情况;具体实施过程中,同一类农作物生长情况在样品帧中占比超过设定阈值时,则作为提供样品帧的切片的农作物生长情况。每个切片可以有多种农作物生长情况。
获知RGB视频每个切片的农作物生长情况后,结合各个视频帧对应的位置信息,将生长情况按区域分割,完成巡视。
具体实施过程中,对于每个切片,按照切片首帧和尾帧的位置信息对切片进行定位,确定切片所表示农田区域之间的位置关系,对于时间上不相邻而空间上相邻的任一两切片,检查两切片农作物生长情况中的异常描述是否存在一致,存在一致,则将两切片区域中作为一致异常描述发生的区域,迭代的对全部切片的全部异常描述进行分区,根据各个分区所对应的异常描述确定相应的治理方式,对大规模农业生产进行精细化管理。
实施例2
参阅图5所示,本发明实施例提供一种大规模农作物巡检装置,包括:至少一处理单元,所述处理单元通过总线单元连接存储单元,所述存储单元作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的一种大规模农作物巡检方法对应的软件程序、计算机可执行程序以及模块。所述处理单元通过运行存储在存储单元中的软件程序、计算机可执行程序以及模块,从而实现上述一种大规模农作物巡检方法:
采集大规模农田的农作物生长情况RGB视频和红外视频,在采集的过程中,记录视频帧对应的位置信息;
通过预训练的切片模型根据RGB视频和红外视频的特征对视频进行切片,以实现按照农作物生长情况切分视频;所述切片模型包括:基于CNN卷积网络的第一特征提取模块和第二特征提取模块;分别连接第一特征提取模块和第二特征提取模块的两组堆叠的多头自注意力模块和前馈网络,所述前馈网络由线性层、Relu激活函数和线性层组成;上述前馈网络连接多模注意力模块;多模注意力模块连接双向循环神经网络,双向循环神经网络连接预测视频帧所属切片的全连接层和sigmoid激活函数;其中,通过强化学习的方式,训练所述切片模型;
从RGB视频不同的切片中按比例抽取设定数量的样品帧,利用预训练的识别模型提取样品帧特征进行匹配,以获知每个切片中农作物生长情况;
结合各个视频帧对应的位置信息,将生长情况按区域分割,完成巡视。
当然,本发明实施例所提供的一种大规模农作物巡检装置中存储单元,其存储的计算机程序不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的一种大规模农作物巡检方法中的相关操作。
实施例3
本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储计算机程序,所述计算机程序被执行时,实现所述的大规模农作物巡检方法,所述方法包括:
采集大规模农田的农作物生长情况RGB视频和红外视频,在采集的过程中,记录视频帧对应的位置信息;
通过预训练的切片模型根据RGB视频和红外视频的特征对视频进行切片,以实现按照农作物生长情况切分视频;所述切片模型包括:基于CNN卷积网络的第一特征提取模块和第二特征提取模块;分别连接第一特征提取模块和第二特征提取模块的两组堆叠的多头自注意力模块和前馈网络,所述前馈网络由线性层、Relu激活函数和线性层组成;上述前馈网络连接多模注意力模块;多模注意力模块连接双向循环神经网络,双向循环神经网络连接预测视频帧所属切片的全连接层和sigmoid激活函数;其中,通过强化学习的方式,训练所述切片模型;
从RGB视频不同的切片中按比例抽取设定数量的样品帧,利用预训练的识别模型提取样品帧特征进行匹配,以获知每个切片中农作物生长情况;
结合各个视频帧对应的位置信息,将生长情况按区域分割,完成巡视。
当然,本发明实施例所提供的一种计算机可读存储介质,其存储的计算机程序不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的一种大规模农作物巡检方法中的相关操作。
本申请通过所述多头自注意力模块提取RGB视频特征和红外视频特征的特征点之间的关联关系,使得特征关注农作物和反应农作物生长情况。再经多模注意力模块约束关联两个模态的特征,使两个模态更好地参与特征融合,为后续双向循环神经网络基于农作物以及农作物生长情况切片提供更好的特征支持。获知RGB视频每个切片的农作物生长情况后,结合各个视频帧对应的位置信息,将生长情况按区域分割,根据各个分区所对应的异常生长情况描述确定相应的治理方式,支持对大规模农业生产进行精细化管理,有效地降低运营成本。且先根据农作物生长特征切片,再对切片抽样进行生长情况确认,能够有效的降低分区过程中,参与分类运算的图片的数量,提高处理效率。
在本发明所提供的实施例中,应该理解到,所揭露的结构和方法,可以通过其它的方式实现。例如,以上所描述的结构实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,结构或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种大规模农作物巡检方法,其特征在于,包括:采集大规模农作物生长情况的RGB视频和红外视频,在采集的过程中,记录视频帧对应的位置信息;
通过预训练的切片模型根据RGB视频和红外视频的特征对视频进行切片,以实现按照农作物生长情况切分视频;所述切片模型包括:基于CNN卷积网络的第一特征提取模块和第二特征提取模块;分别连接第一特征提取模块和第二特征提取模块的两组堆叠的多头自注意力模块和前馈网络,所述前馈网络由线性层、Relu激活函数和线性层组成;上述前馈网络连接多模注意力模块;多模注意力模块连接双向循环神经网络,双向循环神经网络连接预测视频帧所属切片的全连接层和sigmoid激活函数;其中,通过强化学习的方式,训练所述切片模型;
从RGB视频不同的切片中按比例抽取设定数量的样品帧,利用预训练的识别模型提取样品帧特征进行匹配,以获知每个切片中农作物生长情况;
结合各个视频帧对应的位置信息,将生长情况按区域分割,完成巡视。
2.根据权利要求1所述的大规模农作物巡检方法,其特征在于,所述多模注意力模块包括:两个注意力模块和基于卷积的特征融合,其中一个注意力模块利用基于RGB特征生成的Key和Value,基于红外特征生成的Query进行特征提取得到带有红外注意力的RGB特征;另一个注意力模块利用基于红外特征生成的Key和Value,基于RGB特征生成的Query进行特征提取得到基于RGB注意力的红外特征。
3.根据权利要求1所述的大规模农作物巡检方法,其特征在于,所述多模注意力模块包括:两个注意力模块、Query缩放模块和基于卷积的特征融合,Query缩放模块包括先压缩维度再扩张维度的线性层实现,两个Query缩放模块将基于RGB特征和基于红外特征生成的Query进行压缩扩张处理;其中一个注意力模块利用基于RGB特征生成的Key和Value,基于红外特征压缩扩张生成的Query进行特征提取得到带有红外注意力的RGB特征;另一个注意力模块利用基于红外特征生成的Key和Value,基于RGB特征压缩扩张生成的Query进行特征提取得到基于RGB注意力的红外特征。
4.根据权利要求1所述的大规模农作物巡检方法,其特征在于,所述多模注意力模块包括:两个压缩注意力模块,两个扩张注意力模块和基于卷积的两个特征融合;
其中一个压缩注意力模块利用基于RGB特征生成的Key和Value,预设的可学习的低维Query进行特征提取;另一个压缩注意力模块利用基于红外特征生成的Key和Value,预设的可学习的低维Query进行特征提取,两个压缩注意力模块输出分别经归一化层归一化处理后进行第一次融合;
其中一个扩张注意力模块利用基于第一次融合后的结果生成的Key和Value,基于RGB特征生成的Query进行特征提取;另一个扩张注意力模块利用基于第一次融合后的结果生成的Key和Value,基于红外特征生成的Query进行特征提取;
两个扩张注意力模块的输出分别与RGB特征和红外特征相加,并分别进行归一化后进行第二次特征融合。
5.根据权利要求1所述的大规模农作物巡检方法,其特征在于,所述识别模型应用预训练的用于识别农作物生长情况的CLIP模型和faiss检索库构建视频帧匹配数据库;利用CLIP模型提取样品帧特征后,利用视频帧匹配数据库匹配出样品帧中农作物生长情况。
6.根据权利要求5所述的大规模农作物巡检方法,其特征在于,同一类农作物生长情况在样品帧中占比超过设定阈值时,则作为提供样品帧的切片的农作物生长情况。
7.根据权利要求1所述的大规模农作物巡检方法,其特征在于,将同一个切片内的视频帧之间差异性均值取倒数,再与不同切片间视频帧特征均值差异性的平均值相加作为奖励,以奖励最大为目标,对所述切片模型进行强化训练。
8.根据权利要求1所述的大规模农作物巡检方法,其特征在于,对于RGB视频的每个切片,按照切片首帧和尾帧的位置信息对切片进行定位,确定切片所表示农田区域之间的位置关系,对于时间上不相邻而空间上相邻的任一两切片,检查两切片农作物生长情况中的异常描述是否存在一致,存在一致,则将两切片区域中作为一致异常描述发生的区域,迭代的对全部切片的全部异常描述进行分区。
9.一种大规模农作物巡检装置,其特征在于,包括:至少一处理单元,所述处理单元通过总线单元连接存储单元,所述存储单元存储计算机程序,所述计算机程序被所述处理单元执行时,实现如权利要求1-8任一所述的大规模农作物巡检方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1-8任一项所述的大规模农作物巡检方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311615597.6A CN117315552B (zh) | 2023-11-30 | 2023-11-30 | 一种大规模农作物巡检方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311615597.6A CN117315552B (zh) | 2023-11-30 | 2023-11-30 | 一种大规模农作物巡检方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117315552A CN117315552A (zh) | 2023-12-29 |
CN117315552B true CN117315552B (zh) | 2024-01-26 |
Family
ID=89255756
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311615597.6A Active CN117315552B (zh) | 2023-11-30 | 2023-11-30 | 一种大规模农作物巡检方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117315552B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111950444A (zh) * | 2020-08-10 | 2020-11-17 | 北京师范大学珠海分校 | 一种基于时空特征融合深度学习网络的视频行为识别方法 |
CN113450436A (zh) * | 2021-06-28 | 2021-09-28 | 武汉理工大学 | 一种基于多模态相关性的人脸动画生成方法及系统 |
CN115331075A (zh) * | 2022-08-11 | 2022-11-11 | 杭州电子科技大学 | 一种多模态场景图知识增强的对抗式多模态预训练方法 |
WO2023216572A1 (zh) * | 2022-05-07 | 2023-11-16 | 深圳先进技术研究院 | 一种跨视频目标跟踪方法、系统、电子设备以及存储介质 |
-
2023
- 2023-11-30 CN CN202311615597.6A patent/CN117315552B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111950444A (zh) * | 2020-08-10 | 2020-11-17 | 北京师范大学珠海分校 | 一种基于时空特征融合深度学习网络的视频行为识别方法 |
CN113450436A (zh) * | 2021-06-28 | 2021-09-28 | 武汉理工大学 | 一种基于多模态相关性的人脸动画生成方法及系统 |
WO2023216572A1 (zh) * | 2022-05-07 | 2023-11-16 | 深圳先进技术研究院 | 一种跨视频目标跟踪方法、系统、电子设备以及存储介质 |
CN115331075A (zh) * | 2022-08-11 | 2022-11-11 | 杭州电子科技大学 | 一种多模态场景图知识增强的对抗式多模态预训练方法 |
Non-Patent Citations (2)
Title |
---|
一种整合语义对象特征的视觉注意力模型;李娜;赵歆波;;哈尔滨工业大学学报(第05期);全文 * |
面向上下文注意力联合学习网络的方面级情感分类模型;杨玉亭;冯林;代磊超;苏菡;;模式识别与人工智能(第08期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117315552A (zh) | 2023-12-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110148120B (zh) | 一种基于cnn与迁移学习的病害智能识别方法及系统 | |
CN115272828B (zh) | 一种基于注意力机制的密集目标检测模型训练方法 | |
CN110363218B (zh) | 一种胚胎无创评估方法及装置 | |
CN111640138B (zh) | 一种目标跟踪方法、装置、设备及存储介质 | |
Moyazzoma et al. | Transfer learning approach for plant leaf disease detection using CNN with pre-trained feature extraction method Mobilnetv2 | |
KR102526846B1 (ko) | 생성적 적대 신경망을 이용한 과수 병충해 분류 시스템 및 방법 | |
CN113392937B (zh) | 一种3d点云数据分类方法及其相关装置 | |
CN111914951A (zh) | 一种基于图像实时识别的农作物害虫智能诊断系统及方法 | |
CN115223191A (zh) | 一种群养生猪行为的识别和跟踪方法 | |
CN112380917A (zh) | 一种用于农作物病虫害检测的无人机 | |
CN115601585A (zh) | 基于图片分析的农业病虫害诊断方法及装置 | |
Sehree et al. | Olive trees cases classification based on deep convolutional neural network from unmanned aerial vehicle imagery | |
CN111027436A (zh) | 一种基于深度学习的东北黑木耳病虫害图像识别系统 | |
CN114529840A (zh) | 一种基于YOLOv4的羊舍内羊群个体身份识别方法及系统 | |
CN117315552B (zh) | 一种大规模农作物巡检方法、装置及存储介质 | |
CN116739739A (zh) | 一种贷款额度评估方法、装置、电子设备及存储介质 | |
CN116524283A (zh) | 一种农业虫害图像检测分类方法及系统 | |
CN116612386A (zh) | 基于分级检测双任务模型的辣椒病虫害识别方法及系统 | |
Mithra et al. | Cucurbitaceous family flower inferencing using deep transfer learning approaches: CuCuFlower UAV imagery data | |
Rocha IV et al. | Philippine carabao mango pest identification using convolutional neural network | |
Attada et al. | A methodology for automatic detection and classification of pests using optimized SVM in greenhouse crops | |
de Andrade Porto et al. | Automatic counting of cattle with Faster R-CNN on UAV images | |
CN114078228A (zh) | 基于轻量型网络的目标识别方法、识别系统及农业机械 | |
Thakre et al. | UAV Based System For Detection in Integrated Insect Management for Agriculture Using Deep Learning | |
Khidher et al. | Automatic trees density classification using deep learning of unmanned aerial vehicles images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |