CN116503418B - 一种复杂场景下的作物三维目标检测方法 - Google Patents
一种复杂场景下的作物三维目标检测方法 Download PDFInfo
- Publication number
- CN116503418B CN116503418B CN202310791383.8A CN202310791383A CN116503418B CN 116503418 B CN116503418 B CN 116503418B CN 202310791383 A CN202310791383 A CN 202310791383A CN 116503418 B CN116503418 B CN 116503418B
- Authority
- CN
- China
- Prior art keywords
- depth
- crop
- network model
- image
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 33
- 238000012549 training Methods 0.000 claims abstract description 17
- 238000012545 processing Methods 0.000 claims abstract description 6
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 238000000034 method Methods 0.000 claims description 42
- 239000013598 vector Substances 0.000 claims description 15
- 238000002372 labelling Methods 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 6
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 238000000137 annealing Methods 0.000 claims description 3
- 230000002238 attenuated effect Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 230000010354 integration Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000012271 agricultural production Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 8
- 238000004519 manufacturing process Methods 0.000 description 4
- 238000012935 Averaging Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 208000012260 Accidental injury Diseases 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000009395 breeding Methods 0.000 description 1
- 230000001488 breeding effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 238000003973 irrigation Methods 0.000 description 1
- 230000002262 irrigation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30181—Earth observation
- G06T2207/30188—Vegetation; Agriculture
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A40/00—Adaptation technologies in agriculture, forestry, livestock or agroalimentary production
- Y02A40/10—Adaptation technologies in agriculture, forestry, livestock or agroalimentary production in agriculture
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种复杂场景下的作物三维目标检测方法,属于图像处理技术领域,包括以下步骤:S1、数据预处理:使用传感器采集农作物的RGB图像和点云数据,然后对采集的RGB图像进行标注,并利用点云数据生成深度图,最后形成农作物数据集;S2、构建网络模型;S3、将农作物数据集输入到由步骤S2获得的网络模型中,训练网络模型;S4、利用由步骤S3训练完毕的网络模型识别RGB图像中的农作物,并输出识别结果。本发明采用上述复杂场景下的作物三维目标检测方法,使用农作物图像数据用于模型训练,在农业等领域更具针对性、实用性,从而可在实际农业生产生活中辅助农作物信息检测和采摘,降低劳动力成本。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及一种复杂场景下的作物三维目标检测方法。
背景技术
相比于传统的以人力为主的粗放型农业,现代智慧农业具有以下几个优势:1.生产效率高:智慧农业利用现代技术手段,如物联网、大数据、人工智能等,可以实现对种植、养殖、灌溉等环节的自动化和智能化控制,从而提高生产效率。2.生产成本低:智慧农业采用节能、环保、智能化的技术和设备,能够减少劳动力和资源的浪费,从而降低生产成本。3.促进可持续发展:智慧农业可以实现对土地、水资源的科学利用和保护,减少农业对环境的负面影响,有利于实现农业的可持续发展。
现代智慧农业中,智能采摘是一种利用现代技术手段实现农作物自动化、智能化采摘的方法。它可以实现自动化和智能化的精准采摘,避免了由于传统人工采摘导致的时间、劳动力浪费以及采摘时的误伤和损伤,从而提高了采摘质量和农业生产效率。
智慧采摘主要采用二维目标检测算法,二维目标检测在智慧采摘存在局限性,例如无法获取深度信息,对遮挡敏感,对光照、视角等因素敏感和无法处理复杂场景等。
发明内容
为解决上述问题,本发明提供一种复杂场景下的作物三维目标检测方法,引入三维目标检测方法,可获取更丰富的空间信息,解决物体遮挡以及对光照、视角等因素不敏感等问题,能够更好地适应不同的采摘场景,从而使得三维目标检测具有更好的适用性和优势。
为实现上述目的,本发明提供了一种复杂场景下的作物三维目标检测方法,包括以下步骤:
S1、数据预处理:使用传感器采集农作物的RGB图像和点云数据,然后对采集的RGB图像进行标注,并利用点云数据生成深度图,最后利用标注后的RGB图像和深度图形成农作物数据集;
S2、构建网络模型,网络模型由用于进行图像特征提取的主干网络、用于进行图像深度图预测的深度预测模块、用于获得所需深度位置编码信息的位置编码模块,用于进行图像特征和深度位置编码信息融合的深度transformer编码器模块和用于进行边界框预测的检测头模块构成;
S3、将农作物数据集输入到由步骤S2获得的网络模型中,训练网络模型;
S4、利用由步骤S3训练完毕的网络模型识别RGB图像中的农作物,并输出识别结果。
优选的,步骤S1具体包括以下步骤:
S11、数据采集:使用单目相机和激光雷达分别采集农作物的RGB图像和点云数据;
S12、标注:
图像数据标注:人工标注RGB图像中农作物的二维边界框和三维边界框;
文本数据标注:人工标注RGB图像中农作物的属性信息;
S13、获取深度图:利用采集的点云数据生成深度图。
优选的,步骤S2具体包括以下步骤:
S21、图像特征提取:
将RGB图像输入到网络模型中,通过一个主干网络模块进行图像特征提取;
S22、将由步骤S21输出的图像特征输入到深度预测模块,利用深度预测模块根据输入的图像特征进行深度特征预测和深度特征增强,分别得到深度预测特征和深度增强特征,并利用深度预测特征预测深度信息特征;
S23、将步骤S22输出的深度增强特征作为深度位置信息编码模块的输入,利用深度位置信息编码模块通过两次卷积和一次特征维度变换操作,将输入的深度增强特征信息转换为所需深度位置编码信息;
S24、通过一次卷积操作将由步骤S22输出的深度增强特征划分为N个大小相同的块,再通过全连接层将块投影为固定长度的向量;
S25、通过一次卷积操作将由步骤S21输出的图像特征划分为N个大小相同的块,再通过全连接层将块投影为固定长度的向量;
S26、分别将由步骤S24输出的特征信息和步骤S25输出的图像类别信息相连接,再与步骤S23输出的深度位置编码信息相加,得到上下文特征;
S27、将由步骤S26 输出的上下文特征和由步骤S22输出的深度信息特征作为深度transformer编码器模块的输入,将上下文特征和深度信息特征进行融合;
S28、将步骤S27输出的融合特征作为检测头模块的输入,预测边界框。
优选的,步骤S21中所述主干网络模块为ResNet101-DCN。
优选的,步骤S22所述的图像特征在深度预测模块依次进行以下操作:卷积、归一化处理、矩阵相乘和矩阵相加。
优选的,步骤S27所述的深度transformer编码器模块包括多头注意力、归一化、残差链接和前反馈网络,其中上下文特征作为多头注意力的键向量K和值向量V,深度信息特征作为多头注意力的查询向量Q;
其具体包括以下步骤:
将步骤S26 输出的上下文特征和深度信息特征作为深度transformer编码器模块的输入,执行顺序如下:多头注意力层、残差链接和归一化层、前反馈网络层、残差链接和归一化层,多次重复上述操作将上下文特征和深度信息特征进行融合。
优选的,在步骤S28中采用预定义的2D-3D锚点去回归预测边界框,每个预定义的锚点由2D边界框和3D边界框的参数组成,其中/>和/>表示2D边界框和3D边界框的中心,/>和/>表示2D边界框和3D边界框的物理尺寸,/>表示深度,/>表示观测角。
优选的,步骤S3具体包括以下步骤:
S31、将农作物数据集划分为训练集和测试集;
S32、将训练集载入到由步骤S2获得的网络模型中,使用优化器更新网络模型的参数,并使用动态调整学习率策略对学习率进行更新,得到训练后的网络模型;
S33、将测试集输入到经过由步骤S32训练完毕的网络模型中,计算平均准确率、平均刻度误差;
S34、循环迭代,得到识别效果最佳的网络模型。
优选的,步骤S32具体包括以下步骤:
使用Adam优化器训练网络模型,迭代次数为100,批处理大小为5,学习率从0.002开始,并以余弦退火Cosine Annealing进行学习率动态衰减;
损失函数表达式如下:
;
式中,为分类损失、/>为边界框回归损失和为/>深度损失;
其中表达式如下:
;
式中,为RGB图像上具有有效深度标签的像素区域,/>为由深度箱地面预测值,/>为由激光雷达生成的深度箱地面真实值。
优选的,步骤S33所述的平均准确率是对pr曲线上的Precision值求均值,对于pr曲线来说,使用积分来计算:
;
式中,p表示在pr曲线中,网络模型检测出来的目标中真正的目标物体的比例,r表示在pr曲线中,所有真实的目标有被模型检测出来的比例;
平均刻度误差=,其中/>是角度对齐后的三维交并比。
本发明具有以下有益效果:
1、能够更好地适应不同的采摘场景,从而使得三维目标检测具有更好的适用性和优势;
2、使用农作物图像数据用于模型训练,在农业等领域更具针对性、实用性,从而可在实际农业生产生活中辅助农作物信息检测和采摘,降低劳动力成本。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明所述的一种复杂场景下的作物三维目标检测方法的流程图;
图2为本发明所述的一种复杂场景下的作物三维目标检测方法的农作物三维目标检测模型总体结构图;
图3为本发明所述的一种复杂场景下的作物三维目标检测方法的深度预测模块结构图;
图4为本发明所述的一种复杂场景下的作物三维目标检测方法的位置编码模块结构图;
图5为本发明所述的一种复杂场景下的作物三维目标检测方法的深度Transformer编码器模块结构图;
图6为本发明的实施例的原始农作物RGB图像;
图7为通过本发明检测后的农作物RGB图像。
具体实施方式
为了使本发明实施例公开的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明实施例进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本发明实施例,并不用于限定本发明实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。
需要说明的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本发明的描述中,需要说明的是,术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“安装”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
图1为本发明所述的一种复杂场景下的作物三维目标检测方法的流程图,如图1所示,一种复杂场景下的作物三维目标检测方法,包括以下步骤:
S1、数据预处理:使用传感器采集农作物的RGB图像和点云数据,然后对采集的RGB图像进行标注,并利用点云数据生成深度图,最后利用标注后的RGB图像和深度图形成农作物数据集;
优选的,步骤S1具体包括以下步骤:
S11、数据采集:使用单目相机和激光雷达分别采集农作物的RGB图像和点云数据;
S12、标注:
图像数据标注:人工标注RGB图像中农作物的二维边界框和三维边界框;
文本数据标注:人工标注RGB图像中农作物的属性信息,本实施例中的属性信息包括RGB图像上显示的大小、类别等信息;
S13、获取深度图:利用采集的点云数据生成深度图。
图2为本发明所述的一种复杂场景下的作物三维目标检测方法的农作物三维目标检测模型总体结构图,如图2所示,S2、构建网络模型,网络模型由用于进行图像特征提取的主干网络、用于进行图像深度图预测的深度预测模块、用于获得所需深度位置编码信息的位置编码模块,用于进行图像特征和深度位置编码信息融合的深度transformer编码器模块和用于进行边界框预测的检测头模块构成;
优选的,步骤S2具体包括以下步骤:
S21、图像特征提取:
将RGB图像输入到网络模型中,通过一个主干网络模块进行图像特征提取;本实施例中的RGB图像为固定尺寸:256像素*256像素。
优选的,步骤S21中所述主干网络模块为ResNet101-DCN。
图3为本发明所述的一种复杂场景下的作物三维目标检测方法的深度预测模块结构图,如图3所示,S22、将由步骤S21输出的图像特征输入到深度预测模块,利用深度预测模块根据输入的图像特征进行深度特征预测和深度特征增强,分别得到深度预测特征和深度增强特征,并利用深度预测特征预测深度信息特征;
优选的,步骤S22所述的图像特征在深度预测模块依次进行以下操作:卷积、归一化处理、矩阵相乘和矩阵相加。
图4为本发明所述的一种复杂场景下的作物三维目标检测方法的位置编码模块结构图,如图4所示,S23、将步骤S22输出的深度增强特征作为深度位置信息编码模块的输入,利用深度位置信息编码模块通过两次卷积和一次特征维度变换操作,将输入的深度增强特征信息转换为所需深度位置编码信息;
S24、通过一次卷积操作将由步骤S22输出的深度增强特征划分为N个大小相同的块,再通过全连接层将块投影为固定长度的向量;
S25、通过一次卷积操作将由步骤S21输出的图像特征划分为N个大小相同的块,再通过全连接层将块投影为固定长度的向量;
S26、分别将由步骤S24输出的特征信息和步骤S25输出的图像类别信息相连接,再与步骤S23输出的深度位置编码信息相加,得到上下文特征;
图5为本发明所述的一种复杂场景下的作物三维目标检测方法的深度Transformer编码器模块结构图,如图5所示,S27、将由步骤S26 输出的上下文特征和由步骤S22输出的深度信息特征作为深度transformer编码器模块的输入,将上下文特征和深度信息特征进行融合;
优选的,步骤S27所述的深度transformer编码器模块包括多头注意力、归一化、残差链接和前反馈网络,其中上下文特征作为多头注意力的键向量K和值向量V,深度信息特征作为多头注意力的查询向量Q;
其具体包括以下步骤:
将步骤S26 输出的上下文特征和深度信息特征作为深度transformer编码器模块的输入,执行顺序如下:多头注意力层、残差链接和归一化层、前反馈网络层、残差链接和归一化层,多次重复上述操作将上下文特征和深度信息特征进行融合。
S28、将步骤S27输出的融合特征作为检测头模块的输入,预测边界框。
优选的,在步骤S28中采用预定义的2D-3D锚点去回归预测边界框,每个预定义的锚点由2D边界框和3D边界框的参数组成,其中/>和/>表示2D边界框和3D边界框的中心,/>和/>表示2D边界框和3D边界框的物理尺寸,/>表示深度,/>表示观测角。
S3、将农作物数据集输入到由步骤S2获得的网络模型中,训练网络模型;
优选的,步骤S3具体包括以下步骤:
S31、将农作物数据集划分为训练集和测试集;
S32、将训练集载入到由步骤S2获得的网络模型中,使用优化器更新网络模型的参数,并使用动态调整学习率策略对学习率进行更新,得到训练后的网络模型;
优选的,步骤S32具体包括以下步骤:
使用Adam优化器训练网络模型,迭代次数为100,批处理大小为5,学习率从0.002开始,并以余弦退火Cosine Annealing进行学习率动态衰减;
损失函数表达式如下:
;
式中,为分类损失、/>为边界框回归损失和为/>深度损失;
其中表达式如下:
;
式中,为RGB图像上具有有效深度标签的像素区域,/>为由深度箱地面预测值,/>为由激光雷达生成的深度箱地面真实值。
S33、将测试集输入到经过由步骤S32训练完毕的网络模型中,计算平均准确率(Average Precision,AP)、平均刻度误差(Average Scale Error,ASE);
优选的,步骤S33所述的平均准确率是对pr曲线上的Precision值求均值,对于pr曲线来说,使用积分来计算:
;
式中,p表示在pr曲线中,网络模型检测出来的目标中真正的目标物体的比例,r表示在pr曲线中,所有真实的目标有被模型检测出来的比例;
平均刻度误差=,其中/>是角度对齐后的三维交并比。
S34、循环迭代,得到识别效果最佳的网络模型。
S4、利用由步骤S3训练完毕的网络模型识别RGB图像中的农作物,并输出识别结果。
如图6和图7所示,本实施例中在网络模型训练的过程中,保存epoch为10的倍数的模型及其参数,再对保存的模型进行测试,选择各项指标相对较好的模型,将用于真实验证的图像输入到选择的模型中,从而检测图片中的农作物。
因此,本发明采用上述复杂场景下的作物三维目标检测方法,使用农作物图像数据用于模型训练,在农业等领域更具针对性、实用性,从而可在实际农业生产生活中辅助农作物信息检测和采摘,降低劳动力成本。
最后应说明的是:以上实施例仅用以说明本发明的技术方案而非对其进行限制,尽管参照较佳实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对本发明的技术方案进行修改或者等同替换,而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。
Claims (7)
1.一种复杂场景下的作物三维目标检测方法,其特征在于:包括以下步骤:
S1、数据预处理:使用传感器采集农作物的RGB图像和点云数据,然后对采集的RGB图像进行标注,并利用点云数据生成深度图,最后利用标注后的RGB图像和深度图形成农作物数据集;
步骤S1具体包括以下步骤:
S11、数据采集:使用单目相机和激光雷达分别采集农作物的RGB图像和点云数据;
S12、标注:
图像数据标注:人工标注RGB图像中农作物的二维边界框和三维边界框;
文本数据标注:人工标注RGB图像中农作物的属性信息;
S13、获取深度图:利用采集的点云数据生成深度图;
S2、构建网络模型,网络模型由用于进行图像特征提取的主干网络、用于进行图像深度图预测的深度预测模块、用于获得所需深度位置编码信息的位置编码模块,用于进行图像特征和深度位置编码信息融合的深度transformer编码器模块和用于进行边界框预测的检测头模块构成;
步骤S2具体包括以下步骤:
S21、图像特征提取:
将RGB图像输入到网络模型中,通过一个主干网络模块进行图像特征提取;
S22、将由步骤S21输出的图像特征输入到深度预测模块,利用深度预测模块根据输入的图像特征进行深度特征预测和深度特征增强,分别得到深度预测特征和深度增强特征,并利用深度预测特征预测深度信息特征;
S23、将步骤S22输出的深度增强特征作为深度位置信息编码模块的输入,利用深度位置信息编码模块通过两次卷积和一次特征维度变换操作,将输入的深度增强特征信息转换为所需深度位置编码信息;
S24、通过一次卷积操作将由步骤S22输出的深度增强特征划分为N个大小相同的块,再通过全连接层将块投影为固定长度的向量;
S25、通过一次卷积操作将由步骤S21输出的图像特征划分为N个大小相同的块,再通过全连接层将块投影为固定长度的向量;
S26、分别将由步骤S24输出的特征信息和步骤S25输出的图像类别信息相连接,再与步骤S23输出的深度位置编码信息相加,得到上下文特征;
S27、将由步骤S26 输出的上下文特征和由步骤S22输出的深度信息特征作为深度transformer编码器模块的输入,将上下文特征和深度信息特征进行融合;
S28、将步骤S27输出的融合特征作为检测头模块的输入,预测边界框;
S3、将农作物数据集输入到由步骤S2获得的网络模型中,训练网络模型;
步骤S3具体包括以下步骤:
S31、将农作物数据集划分为训练集和测试集;
S32、将训练集载入到由步骤S2获得的网络模型中,使用优化器更新网络模型的参数,并使用动态调整学习率策略对学习率进行更新,得到训练后的网络模型;
S33、将测试集输入到经过由步骤S32训练完毕的网络模型中,计算平均准确率、平均刻度误差;
S34、循环迭代,得到识别效果最佳的网络模型;
S4、利用由步骤S3训练完毕的网络模型识别RGB图像中的农作物,并输出识别结果。
2.根据权利要求1所述的一种复杂场景下的作物三维目标检测方法,其特征在于:步骤S21中所述主干网络模块为ResNet101-DCN。
3.根据权利要求1所述的一种复杂场景下的作物三维目标检测方法,其特征在于:步骤S22所述的图像特征在深度预测模块依次进行以下操作:卷积、归一化处理、矩阵相乘和矩阵相加。
4.根据权利要求1所述的一种复杂场景下的作物三维目标检测方法,其特征在于:步骤S27所述的深度transformer编码器模块包括多头注意力、归一化、残差链接和前反馈网络,其中上下文特征作为多头注意力的键向量K和值向量V,深度信息特征作为多头注意力的查询向量Q;
其具体包括以下步骤:
将步骤S26 输出的上下文特征和深度信息特征作为深度transformer编码器模块的输入,执行顺序如下:多头注意力层、残差链接和归一化层、前反馈网络层、残差链接和归一化层,多次重复上述操作将上下文特征和深度信息特征进行融合。
5.根据权利要求1所述的一种复杂场景下的作物三维目标检测方法,其特征在于:在步骤S28中采用预定义的2D-3D锚点去回归预测边界框,每个预定义的锚点由2D边界框和3D边界框/>的参数组成,其中/>和/>表示2D边界框和3D边界框的中心,/>和/>表示2D边界框和3D边界框的物理尺寸,/>表示深度,/>表示观测角。
6.根据权利要求1所述的一种复杂场景下的作物三维目标检测方法,其特征在于:步骤S32具体包括以下步骤:
使用Adam优化器训练网络模型,迭代次数为100,批处理大小为5,学习率从0.002开始,并以余弦退火Cosine Annealing进行学习率动态衰减;
损失函数表达式如下:
;
式中,为分类损失、/>为边界框回归损失和为/>深度损失;
其中表达式如下:
;
式中,为RGB图像上具有有效深度标签的像素区域,/>为由深度箱地面预测值,/>为由激光雷达生成的深度箱地面真实值。
7.根据权利要求1所述的一种复杂场景下的作物三维目标检测方法,其特征在于:步骤S33所述的平均准确率是对pr曲线上的Precision值求均值,对于pr曲线来说,使用积分来计算:
;
式中,p表示在pr曲线中,网络模型检测出来的目标中真正的目标物体的比例,r表示在pr曲线中,所有真实的目标有被模型检测出来的比例;
平均刻度误差=,其中/>是角度对齐后的三维交并比。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310791383.8A CN116503418B (zh) | 2023-06-30 | 2023-06-30 | 一种复杂场景下的作物三维目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310791383.8A CN116503418B (zh) | 2023-06-30 | 2023-06-30 | 一种复杂场景下的作物三维目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116503418A CN116503418A (zh) | 2023-07-28 |
CN116503418B true CN116503418B (zh) | 2023-09-01 |
Family
ID=87323547
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310791383.8A Active CN116503418B (zh) | 2023-06-30 | 2023-06-30 | 一种复杂场景下的作物三维目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116503418B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117315402A (zh) * | 2023-11-02 | 2023-12-29 | 北京百度网讯科技有限公司 | 三维对象检测模型的训练方法及三维对象检测方法 |
CN118310754A (zh) * | 2024-04-09 | 2024-07-09 | 大连理工大学 | 一种基于轻量化Transformer的性能预测系统及其硬件加速方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109523552A (zh) * | 2018-10-24 | 2019-03-26 | 青岛智能产业技术研究院 | 基于视锥点云的三维物体检测方法 |
CN110689008A (zh) * | 2019-09-17 | 2020-01-14 | 大连理工大学 | 一种面向单目图像的基于三维重建的三维物体检测方法 |
CN114663880A (zh) * | 2022-03-15 | 2022-06-24 | 北京交通大学 | 基于多层级跨模态自注意力机制的三维目标检测方法 |
CN114863228A (zh) * | 2022-03-24 | 2022-08-05 | 南京航空航天大学 | 一种基于机器视觉的机场特种车辆避障方法 |
CN115082674A (zh) * | 2022-07-12 | 2022-09-20 | 西安电子科技大学 | 基于注意力机制的多模态数据融合三维目标检测方法 |
CN115511759A (zh) * | 2022-09-23 | 2022-12-23 | 西北工业大学 | 一种基于级联特征交互的点云图像深度补全方法 |
WO2023050589A1 (zh) * | 2021-09-30 | 2023-04-06 | 北京工业大学 | 一种基于rgbd相机的货物箱智能装载方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10678256B2 (en) * | 2017-09-28 | 2020-06-09 | Nec Corporation | Generating occlusion-aware bird eye view representations of complex road scenes |
US11494937B2 (en) * | 2018-11-16 | 2022-11-08 | Uatc, Llc | Multi-task multi-sensor fusion for three-dimensional object detection |
-
2023
- 2023-06-30 CN CN202310791383.8A patent/CN116503418B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109523552A (zh) * | 2018-10-24 | 2019-03-26 | 青岛智能产业技术研究院 | 基于视锥点云的三维物体检测方法 |
CN110689008A (zh) * | 2019-09-17 | 2020-01-14 | 大连理工大学 | 一种面向单目图像的基于三维重建的三维物体检测方法 |
WO2023050589A1 (zh) * | 2021-09-30 | 2023-04-06 | 北京工业大学 | 一种基于rgbd相机的货物箱智能装载方法及系统 |
CN114663880A (zh) * | 2022-03-15 | 2022-06-24 | 北京交通大学 | 基于多层级跨模态自注意力机制的三维目标检测方法 |
CN114863228A (zh) * | 2022-03-24 | 2022-08-05 | 南京航空航天大学 | 一种基于机器视觉的机场特种车辆避障方法 |
CN115082674A (zh) * | 2022-07-12 | 2022-09-20 | 西安电子科技大学 | 基于注意力机制的多模态数据融合三维目标检测方法 |
CN115511759A (zh) * | 2022-09-23 | 2022-12-23 | 西北工业大学 | 一种基于级联特征交互的点云图像深度补全方法 |
Non-Patent Citations (1)
Title |
---|
MonoDTR: Monocular 3D Object Detection with Depth-Aware Transformer;Kuan-Chih Huang 等;《Computer Vision and Pattern Recognition》;1-10 * |
Also Published As
Publication number | Publication date |
---|---|
CN116503418A (zh) | 2023-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116503418B (zh) | 一种复杂场景下的作物三维目标检测方法 | |
CN109344813B (zh) | 一种基于rgbd的目标识别和场景建模方法 | |
Liu et al. | Pineapple (Ananas comosus) fruit detection and localization in natural environment based on binocular stereo vision and improved YOLOv3 model | |
CN103198477B (zh) | 一种采用苹果套袋机器人进行视觉定位的方法 | |
CN113408584B (zh) | Rgb-d多模态特征融合3d目标检测方法 | |
CN114973002A (zh) | 一种基于改进的YOLOv5的麦穗检测方法 | |
CN114612769B (zh) | 一种融入局部结构信息的集成感知红外成像舰船检测方法 | |
CN111998862B (zh) | 一种基于bnn的稠密双目slam方法 | |
CN112766155A (zh) | 一种基于深度学习的海水养殖区提取方法 | |
CN116052222A (zh) | 自然采集牛脸图像的牛脸识别方法 | |
CN114724031A (zh) | 结合上下文感知和多尺度混合注意力的玉米虫害区域检测方法 | |
CN116071424A (zh) | 基于单目视觉的果实空间坐标定位方法 | |
CN114239756A (zh) | 一种虫害检测方法及系统 | |
CN110751271B (zh) | 一种基于深度神经网络的图像溯源特征表征方法 | |
CN117274627A (zh) | 一种基于图像转换的多时相积雪遥感图像匹配方法及系统 | |
Li et al. | Learning scribbles for dense depth: Weakly-supervised single underwater image depth estimation boosted by multi-task learning | |
He et al. | Visual recognition and location algorithm based on optimized YOLOv3 detector and RGB depth camera | |
CN113936019A (zh) | 一种基于卷积神经网络技术的大田作物产量估算方法 | |
CN116912673A (zh) | 一种基于水下光学图像的目标检测方法 | |
CN111950476A (zh) | 基于深度学习的复杂环境下河道船舶自动识别方法 | |
CN116071653A (zh) | 基于自然图像的树木多级枝干结构自动提取方法 | |
CN115578645A (zh) | 一种半监督循环一致性生成对抗网络的sar影像浮筏养殖信息提取方法 | |
CN110515079B (zh) | 融合sar雷达与红外成像技术的可视化融合方法 | |
CN111814536A (zh) | 一种养殖监测方法和装置 | |
CN118570197B (zh) | 基于机器学习的农田杂草检测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |