CN114782360A - 基于DCT-YOLOv5模型的实时番茄姿态检测方法 - Google Patents
基于DCT-YOLOv5模型的实时番茄姿态检测方法 Download PDFInfo
- Publication number
- CN114782360A CN114782360A CN202210409195.XA CN202210409195A CN114782360A CN 114782360 A CN114782360 A CN 114782360A CN 202210409195 A CN202210409195 A CN 202210409195A CN 114782360 A CN114782360 A CN 114782360A
- Authority
- CN
- China
- Prior art keywords
- dct
- yolov5
- model
- real
- tomato
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/12—Computing arrangements based on biological models using genetic models
- G06N3/126—Evolutionary algorithms, e.g. genetic algorithms or genetic programming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
Abstract
本发明涉及基于DCT‑YOLOv5模型的实时番茄姿态检测方法。包括如下步骤:步骤一:设计DCT‑YOLOv5主干网络及损失函数;步骤二:通过人工拍摄的方式对不同角度,不同大小,不同生长条件的番茄进行图像数据采集;步骤三:制作番茄数据集并进行训练;步骤四:将DCT‑YOLOv5压缩模型部署到AGXXavier嵌入式系统上并使用TensorRT进行模型推理加速;步骤五:使用realsense摄像头在AGX Xavier上进行实时番茄检测。本发明用于部署在NVIDIA JetsonAGX Xavier嵌入式开发板上进行实时番茄检测,在保证检测精度的同时,确保了检测的实时性以及模型运算的高效率。
Description
技术领域
本发明属于一种基于深度学习的图像处理技术,具体涉及基于DCT-YOLOv5模型的实时番茄姿态检测方法。
背景技术
实时目标检测技术是近年来计算机视觉领域中的研究热门,这种技术包括对轻量级目标检测网络的设计、目标数据集的制作,模型部署载体的研究等。目前,基于图像序列的实时目标检测技术可实现计算机观察和检测图像序列中的目标,该技术在未来智能驾驶和机器人智能分拣中都有着代表性。其中,最潜在的应用之一在于实时,快速的智能分拣领域中,如果园中的智能机器人采摘系统。
近年来,将农业机器人应用于蔬果采摘的工作丰富且复杂。Irie等设计了一款收割机器人,首先用3D传感器检测芦笋是否可以收割,然后使用机械臂和末端执行器来进行芦笋的抓取和收割。Bachche等提出用伺服电机控制的抓取切割机器人来采摘园艺温室中的甜椒。Liu等训练了YOLOv3、ResNet50和ResNet152等深度网络来检测水果,从而证明了深度神经网络在水果识别方面的有效性。
在果园的智能机器人蔬果采摘系统中,检测的准确性是首先要考虑的因素。在早期基于卷积神经网络的目标检测任务中,Ross Girshick等人提出预先提取一系列候选区域,在候选区域上进行特征的提取的目标检测方法,该方法奠定了R-CNN系列方法的基础,并衍生出更加完美的Fast R-CNN,Faster R-CNN和Mask R-CNN目标检测模型。R-CNN系列包括最先进的Faster R-CNN模型在目标检测与识别上有着最高的图像识别精确度,但卷积网络模型都具有大量的层级和节点,所用到的参数达到几百万甚至几十亿,网络的这种计算密集性和存储密集性,会带来巨大的计算和内存消耗,不能满足快速、实时应用的需求;难以应用到计算量小、存储空间小的移动设备上。
智能机器人蔬果采摘系统的第二个重点就是实时性,之前的目标检测模型无法胜任实时性的要求。为了解决之前模型参数量过大,检测速度慢的缺点,Joseph Redmon等人提出了YOLO网络,并由此衍生出了YOLOv2,YOLOv3,YOLOv5等网络。此系列的网络将番茄检测任务直接当作回归问题来处理,将选择候选区和检测两个阶段合二为一。YOLO系列将识别与定位合二为一,结构简便,检测速度快。
虽然YOLO系列模型已经大大提高了检测速度,保证了一定的模型精度,但在检测被遮挡目标或微小目标时无法准确检测目标的姿态。同时,番茄的生长环境光照多变,也会影响检测精度。在原先的模型中加入动态卷积结构,注意力机制和transblock结构,能有效解决上述问题。
发明内容
本发明克服现有技术的缺点,提出一种易实现、适用性高的,DCT-YOLOv5番茄姿态检测模型,此网络在保证高精度的同时,可以实现快速的实时检测。
本发明以图像序列作为输入,首先利用DCT-YOLOv5模型对每帧图像进行目标检测与识别,该模型的基本单元由卷积层,Batch Normal层(BN层),LeakyRelu层,上采样层,transblock层,CA注意力机制层,动态卷积层组成,网络模型结构图见附图1。DCT-YOLOv5的网络结构可以分为输入端、Backbone、Neck、head四个部分。其中,输入端包括Mosaic数据增强、自适应锚框计算、自适应图片缩放等技术;Backbone包括Focus结构,CSP等结构;Neck包括CA注意力,FPN和PAN结构;head包括transblock结构,GIOU_Loss等技术。将DCT-YOLOv5模型部署在Jetson AGX Xavier开发板上,使用TensorRT加速推理。Jetson AGX Xavier开发板使用realsense深度摄像头采集番茄RGB图像数据,数据以图像序列的方式输入DCT-YOLOv5目标检测模型,模型对每帧图像进行目标检测与识别,输出图像中番茄的检测识别结果,包括番茄的中心位置和番茄中心距离摄像头的深度,方便机械手进行后续抓取。
本发明所采用的技术方案为:基于DCT-YOLOv5模型的实时番茄姿态检测方法其特征在于:包括如下步骤:
步骤1:设计DCT-YOLOv5主干网络及损失函数;
步骤2:通过人工拍摄的方式对各种生长形态的番茄进行图像数据采集;
步骤3:制作番茄数据集并进行训练;
步骤4:将DCT-YOLOv5模型部署到嵌入式系统上并使用TensorRT进行模型推理加速;
步骤5:使用realsense摄像头在Jetson AGX Xavier上进行实时番茄位置检测和深度检测。
所述步骤1具体步骤如下:
1.1):DCT-YOLOv5主干网络设计;
1.1.1):借鉴ResNet网络中的shortcut设计加深DCT-YOLOv5主体网络的深度,通过设定卷积层中的步长参数实现卷积层的下采样。除最后三层用于预测的卷积层之外,其余的卷积层后都添加Batch Normalization(BN)操作,并在BN层接LeakyRelu激活函数。使用动态卷积消除多变光照影响。网络中采用CSP模块先将基础层的特征映射划分为两部分,然后通过跨阶段层次结构将它们合并,在减少了计算量的同时保证准确率。借鉴FPN和PAN网络的模型结构,通过上采样操作对网络输出的三个特征图进行concat融合,达到多尺度预测的目的。使用CA注意力机制,融合纵向和横向注意力,辨别图像中的干扰枝干。加入tranblock模块,捕获图像全局注意力,准确识别番茄的生长姿态;
1.1.2):使用K-meas聚类方法和遗传算法,对数据集中的真实框进行聚类,得到九种锚框,每三种锚框对应一个尺度的特征图。此方法的目的是加速预测框的回归;
1.1.3):在网络前向推断中预测公式如下所示:
bx=σ(tx)+cx (1)
by=σ(ty)+cy (2)
bx,by是预测框在对应尺寸的特征图上的相对中心坐标值。bw,bh是预测框的宽和高。cx,cy是输出特征图grid cell的左上角坐标,pw,ph为锚框的宽和高。tx,ty为预测的坐标偏移值,tw,th为预测的尺度缩放倍数;
1.1.4):动态卷积实现公式如下所示:
βk(x)为网络计算出的k个卷积核的权重,权重大小在0与1之间,且总和为1。表示每个卷积核,表示每个卷积的偏置。表示最终的卷积核,表示最终的偏置。g表示BN层以及激活函数操作,y表示经过动态卷积后输出的特征图;
1.1.5):CA注意力机制实现公式如下所示:
xc(i,j)是特征图中(i,j)位置的特征值,H,W是特征图的长和宽,zc是计算出的特征图中每一个位置的信息嵌入。这一步使该模块能够捕捉两个方向上的具有精确位置信息的特征。T1,T2为两个线性连接层,可以学习到特征图中重要的通道,RELU为激活函数,σ为sigmoid激活函数。X为原特征图,为经过处理后的特征图。加权后的特征图对横向与纵向信息更加敏感。有利于模型对枝干与番茄生长姿态的识别。
1.1.6):transblock结构实现公式如下所示:
Q=WQ(W(x)),K=WK(W(x)),V=WV(W(x)) (11)
y=W(x)+MLP(Dropout(MultiHead(Q,K,V))+W(x)) (12)
W(x)为输入特征图经过一个卷积层,之后经过WQ,WK,WV三个不同的全连接层,得到查询向量Q,键向量K,值向量V。y为一个Transformer Encoder结构的输出,在transblock中可以堆叠任意个Transformer Encoder。将最终Transformer Encoder结构的输出与输入特征图进行concat连接即可得到最终的输出特征图。
1.2):设计DCT-YOLOv5损失函数;
1.2.1):设计目标置信度损失函数;
1.2.2):设计目标类别损失函数;
1.2.3):设计目标定位损失函数;
1.2.4):通过权重系数得到最终的损失函数;
所述步骤3具体步骤如下:
3.1):对采集到的番茄图像样本进行预处理,建立番茄检测目标数据库;
3.2):用labelImg软件对图像中的检测对象进行手动标注,生成xml文件,xml文件中包含labelImg手动标注的番茄真实框的对应坐标值信息,以及每个框对应的标签信息;
3.3):将标注好的图像数据输入模型进行训练;
所述步骤4具体步骤如下:
4.1):对DCT-YOLOv5的backbone网络结构进行垂直整合,将卷积层,BN层,Relu层融合为一层。
4.2):对DCT-YOLOv5的backbone网络结构进行水平整合,将输入相同维度的张量和执行相同操作的层融合在一起。
4.3):将backbone中concat层的输入直接送入后面的操作中,减少传输吞吐量。
4.4):对DCT-YOLOv5的模型参数进行量化,从float32的格式改为float16的格式,加快模型的推理速度。
综上所述,本发明的优点在于,原始DC-TYOLOv5模型已具有高精度的检测效果,在此基础之上进行TensorRT的推理加速,使其能顺利部署在配置不高的嵌入式开发板上;且在TensorRT加速的过程中,融合之后的层与融合之前之前的层具有相同的性能,不会对模型性能造成太大的影响;将此模型在Jetson AGXXavier上通过TensorRT进行推理加速,得到最终的检测模型。此模型实现了在低配置嵌入式开发板上进行实时检测的功能。
附图说明
图1是本发明中DCT-YOLOv5模型的结构图;
图2是本发明中使用TensorRT加速模型推理的流程图;
图3是本发明中relasense实时检测的流程图。
具体实施方式
下面结合附图进一步说明本发明。
本发明的基于DCT-YOLOv5模型的实时番茄姿态检测方法具体过程如下:
1.1):DCT-YOLOv5主干网络设计,如图一所示;
1.1.1):理论上来说越深的网络,其能得到的检测效果就越好,准确率越高,但实验结果表明,网络层数的过度增加会使网络陷入过拟合,使得网络收敛变慢,检测准确率降低,并因为模型的计算成本增加更难部署在嵌入式设备上。为解决这个问题,DCT-YOLOv5主干网络借鉴了深度残差网络跳层连接结构。为了减少池化层带来的对梯度计算的影响,网络中的下采样操作都通过卷积层实现,卷积层的步长都设为2。大量实验表明,神经网络会出现每层之间数据分布不一致的问题,这会导致网络难以收敛和训练,为了解决这个问题,DCT-YOLOv5网络在除了最后三层用于预测的卷积层之外,对其余卷积层的输出都做了Batch Normalization操作,作为解决梯度消失及梯度爆炸,加速网络收敛,以及避免过拟合的方法。在每个BN层后,网络又引入了LeakyRelu函数作为激活函数,这层的作用是在网络中引入非线性组成。卷积层,BN层,LeakyRelu层共同构成网络的最小组件。为了对大小不同的番茄做到精确检测,DCT-YOLOv5借鉴了特征金字塔网络FPN(feature pyramidnetwork)和PAN,通过上采样操作对特征进行融合,根据Jetson AGX Xavier上的realsense摄像头采集到的图像对检测目标进行三个尺度的预测,本发明中尺寸为20*15的输出特征图感受野最大,专门用来检测大目标,尺寸为80*60的输出特征图感受野最小,专门用来检测小目标;
1.1.2):用K-Means++算法和遗传算法在番茄数据集上根据步骤1-1所述的3个检测尺度进行锚框聚类,生成9种大小的锚框,每种检测尺度分配3种锚框,锚框的作用是为了更快速更准确的回归检测框;
1.1.3):在网络前向推理中通过公式:
bx=σ(tx)+cx (1)
by=σ(ty)+cy (2)
进行目标检测框的预测,最后得到预测框相对于当前特征图的相对中心坐标值bx,by,以及预测框的宽和高bw,bh,cx,cy是输出特征图grid cell的左上角坐标,pw,ph为锚框的宽和高。tx,ty为网络预测的坐标偏移值,tw,th为网络预测的尺度缩放倍数。
1.1.4):在动态卷积通过公式:
进行卷积核的自适应变换。βk(x)为网络计算出的k个卷积核的权重,权重大小在0与1之间,且总和为1。表示每个卷积核,表示每个卷积的偏置。表示最终的卷积核,表示最终的偏置。g表示BN层以及激活函数操作,y表示经过动态卷积后输出的特征图;
1.1.5):在CA注意力机制中通过公式:
实现网络横向和纵向注意力的提取。xc(i,j)是特征图中(i,j)位置的特征值,H,W是特征图的长和宽,zc是计算出的特征图中每一个位置的信息嵌入。这一步使该模块能够捕捉两个方向上的具有精确位置信息的特征。T1,T2为两个线性连接层,可以学习到特征图中重要的通道,RELU为激活函数,σ为sigmoid激活函数。X为原特征图,为经过处理后的特征图。加权后的特征图对横向与纵向信息更加敏感。有利于模型对枝干与番茄生长姿态的识别。
1.1.6):在transblock结构中通过公式:
Q=WQ(W(x)),K=WK(W(x)),V=WV(W(x)) (11)
y=W(x)+MLP(Dropout(MultiHead(Q,K,V))+W(x)) (12)
实现图像全局特征的捕获,提高番茄姿态识别的准确性。W(x)为输入特征图经过一个卷积层,之后经过WQ,WK,WV三个不同的全连接层,得到查询向量Q,键向量K,值向量V。y为一个Transformer Encoder结构的输出,在transblock中可以堆叠任意个TransformerEncoder。将最终Transformer Encoder结构的输出与输入特征图进行concat连接即可得到最终的输出特征图。
1.2):DCT-YOLOv5损失函数的设计;
1.2.1):目标置信度即目标检测框中存在目标的概率采用二值交叉熵损失函数,设计的目标置信度损失函数如下所示:
1.2.2):目标类别损失函数同样采用二值交叉熵,设计的目标类别损失函数如下所示:
1.2.3):目标定位损失函数采用MSE损失函数,如下所示:
其中表示预测框的坐标偏移量(DCT-YOLOv5预测的是坐标偏移值),表示真实框的坐标偏移量,(bx,by,bw,bh)为预测框的参数,(cx,cy,pw,ph)为锚框的参数,(gx,gy,gw,gh)为真实框的参数;
1.2.4):将上述所有损失函数通过权值相加得到总损失函数:
L(O,o,C,c,l,g)=λconfLconf(o,c)+λclaLcla(O,C)+λlocLloc(l,g) (16)
2):通过人工拍照的方式对番茄进行图像数据采集,采集时需要拍摄不同光照,不同大小,不同角度,不同距离的番茄。
2.1):对采集到的目标图像进行数据增强,通过图像翻转、拉伸、旋转、裁剪扩充数据集,建立番茄检测数据集。
2.2):用labelImg软件对图像中的番茄进行框标注,生成xml文件,xml文件包含使用labelImg手动标注的真实框的坐标信息,以及每个框对应的标签。
3):将标注好的数据集输入模型进行正常训练,初始学习率设为0.01,Batch_size值设为16。
4):将模型部署到Jetson AGX Xavier嵌入式开发板上,并通过TensorRT进行前向推理加速,如图2所示;
4.1):对DCT-YOLOv5模型的backbone网络结构进行垂直整合,将卷积层,BN层,Relu层融合为一层。
4.2):对DCT-YOLOv5的backbone网络结构进行水平整合,将输入相同维度的张量和执行相同操作的层融合在一起。
4.3):将backbone中concat层的输入直接送入后面的操作中,减少传输吞吐量。
4.4):对DCT-YOLOv5的模型参数进行量化,从float32的格式改为float16的格式,加快模型的推理速度。
5):AGX Xavier外接realsense摄像头模块,使用realsense摄像头进行RGB图像采集,使用opencv处理视频流,并用加速之后的模型进行实时番茄位置和深度检测,如图3所示。
本说明书实施例所述的内容仅仅是对发明构思实现形式的例举,本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。
Claims (4)
1.基于DCT-YOLOv5模型的实时番茄姿态检测方法,其特征在于:包括如下步骤:
步骤1:设计DCT-YOLOv5主干网络及损失函数;
步骤2:通过人工拍摄的方式对不同角度,不同大小,不同生长条件的番茄进行图像数据采集;
步骤3:制作番茄数据集并进行训练;
步骤4:将DCT-YOLOv5压缩模型部署到AGX Xavier嵌入式系统上并使用TensorRT进行模型推理加速;
步骤5:使用realsense摄像头在嵌入式开发板AGX Xavier上进行实时番茄检测。
2.根据权利要求1所述的基于DCT-YOLOv5模型的实时番茄姿态检测方法,其特征在于:所述步骤1具体步骤如下:
1.1):DCT-YOLOv5主干网络设计;
1.1.1)借鉴ResNet网络中的shortcut设计加深DCT-YOLOv5主体网络的深度,通过设定卷积层中的步长参数实现卷积层的下采样。除最后三层用于预测的卷积层之外,其余的卷积层后都添加Batch Normalization(BN)操作,并在BN层接LeakyRelu激活函数。使用动态卷积消除多变光照影响。网络中采用CSP模块先将基础层的特征映射划分为两部分,然后通过跨阶段层次结构将它们合并,在减少了计算量的同时保证准确率。借鉴FPN和PAN网络的模型结构,通过上采样操作对网络输出的三个特征图进行concat融合,达到多尺度预测的目的。使用CA注意力机制,融合纵向和横向注意力,辨别图像中的干扰枝干。加入tranblock模块,捕获图像全局注意力,准确识别番茄的生长姿态;
1.1.2):使用用K-meas聚类方法和遗传算法,对真实框进行聚类,得到九种锚框,每三种锚框对应一个尺度的特征图。此方法的目的是加速预测框的回归;
1.1.3):在网络前向推断中预测公式如下所示:
bx=σ(tx)+cx (1)
by=σ(ty)+cy (2)
bx,by是预测框在对应尺寸的特征图上的相对中心坐标值。bw,bh是预测框的宽和高。cx,cy是输出特征图grid cell的左上角坐标,pw,ph为锚框的宽和高。tx,ty为预测的坐标偏移值,tw,th为预测的尺度缩放倍数;
1.1.4):动态卷积实现公式如下所示:
βk(x)为网络计算出的k个卷积核的权重,权重大小在0与1之间,且总和为1。表示每个卷积核,表示每个卷积的偏置。表示最终的卷积核,表示最终的偏置。g表示BN层以及激活函数操作,y表示经过动态卷积后输出的特征图;
1.1.5):CA注意力机制实现公式如下所示:
xc(i,j)是特征图中(i,j)位置的特征值,H,W是特征图的长和宽,zc是计算出的特征图中每一个位置的信息嵌入。这一步使该模块能够捕捉两个方向上的具有精确位置信息的特征。T1,T2为两个线性连接层,可以学习到特征图中重要的通道,RELU为激活函数,σ为sigmoid激活函数。X为原特征图,为经过处理后的特征图。加权后的特征图对横向与纵向信息更加敏感。有利于模型对枝干与番茄生长姿态的识别。
1.1.6):transblock结构实现公式如下所示:
Q=WQ(W(x)),K=WK(W(x)),V=WV(W(x)) (11)
y=W(x)+MLP(Dropout(MultiHead(Q,K,V))+W(x)) (12)
W(x)为输入特征图经过一个卷积层,之后经过WQ,WK,WV三个不同的全连接层,得到查询向量Q,键向量K,值向量V。y为一个Transformer Encoder结构的输出,在transblock中可以堆叠任意个Transformer Encoder。将最终Transformer Encoder结构的输出与输入特征图进行concat连接即可得到最终的输出特征图。
1.2):设计DCT-YOLOv5损失函数;
1.2.1):设计目标置信度损失函数如下所示:
1.2.2):设计目标类别损失函数如下所示:
1.2.3):设计目标定位损失函数如下:
其中表示预测框的坐标偏移量(DCT-YOLOv5预测的是坐标偏移值),表示真实框的坐标偏移量,(bx,by,bw,bh)为预测框的参数,(cx,cy,pw,ph)为锚框的参数,(gx,gy,gw,gh)为真实框的参数;;
1.2.4):通过权重系数得到最终的损失函数:
L(O,o,C,c,l,g)=λconfLconf(o,c)+λclaLcla(O,C)+λlocLloc(l,g) (16)
3.根据权利要求1所述的基于DCT-YOLOv5模型的实时番茄姿态检测方法,其特征在于:所述步骤3具体步骤如下:
3.1):对采集到的番茄图像样本进行预处理,建立番茄检测目标数据库;
3.2):用labelImg软件对图像中的检测对象进行手动标注,生成xml文件,xml文件中包含labelImg手动标注的番茄真实框的对应坐标值信息,以及每个框对应的标签信息;
3.3):将标注好的图像数据输入模型进行训练。
4.根据权利要求1所述的基于DCT-YOLOv5模型的实时番茄姿态检测方法,其特征在于:所述步骤4具体步骤如下:
4.1):对DCT-YOLOv5的backbone网络结构进行垂直整合,将卷积层,BN层,Relu层融合为一层。
4.2):对DCT-YOLOv5的backbone网络结构进行水平整合,将输入相同维度的张量和执行相同操作的层融合在一起。
4.3):将backbone中concat层的输入直接送入后面的操作中,减少传输吞吐量。
4.4):对DCT-YOLOv5的模型参数进行量化,从float32的格式改为float16的格式,加快模型的推理速度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210409195.XA CN114782360A (zh) | 2022-04-19 | 2022-04-19 | 基于DCT-YOLOv5模型的实时番茄姿态检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210409195.XA CN114782360A (zh) | 2022-04-19 | 2022-04-19 | 基于DCT-YOLOv5模型的实时番茄姿态检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114782360A true CN114782360A (zh) | 2022-07-22 |
Family
ID=82432116
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210409195.XA Pending CN114782360A (zh) | 2022-04-19 | 2022-04-19 | 基于DCT-YOLOv5模型的实时番茄姿态检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114782360A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115937314A (zh) * | 2022-12-23 | 2023-04-07 | 南京林业大学 | 一种油茶果生长姿态检测方法 |
-
2022
- 2022-04-19 CN CN202210409195.XA patent/CN114782360A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115937314A (zh) * | 2022-12-23 | 2023-04-07 | 南京林业大学 | 一种油茶果生长姿态检测方法 |
CN115937314B (zh) * | 2022-12-23 | 2023-09-08 | 南京林业大学 | 一种油茶果生长姿态检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110321923B (zh) | 不同尺度感受野特征层融合的目标检测方法、系统及介质 | |
CN108564097B (zh) | 一种基于深度卷积神经网络的多尺度目标检测方法 | |
Budiharto et al. | Fast object detection for quadcopter drone using deep learning | |
CN111626128B (zh) | 一种基于改进YOLOv3的果园环境下行人检测方法 | |
CN110766041B (zh) | 一种基于深度学习的害虫检测方法 | |
CN112364931B (zh) | 一种基于元特征和权重调整的少样本目标检测方法及网络系统 | |
CN113807399B (zh) | 一种神经网络训练方法、检测方法以及装置 | |
Goh et al. | Mars terrain segmentation with less labels | |
CN113160062B (zh) | 一种红外图像目标检测方法、装置、设备及存储介质 | |
CN110610210B (zh) | 一种多目标检测方法 | |
CN112597920A (zh) | 基于YOLOv3剪枝网络的实时物体检测系统 | |
CN115019302A (zh) | 一种改进型yolox目标检测模型构建方法及其应用 | |
Hussain et al. | A simple and efficient deep learning-based framework for automatic fruit recognition | |
CN115861619A (zh) | 一种递归残差双注意力核点卷积网络的机载LiDAR城市点云语义分割方法与系统 | |
CN116385958A (zh) | 一种用于电网巡检和监控的边缘智能检测方法 | |
CN111738074B (zh) | 基于弱监督学习的行人属性识别方法、系统及装置 | |
CN114492634B (zh) | 一种细粒度装备图片分类识别方法及系统 | |
CN113752255B (zh) | 一种基于深度强化学习的机械臂六自由度实时抓取方法 | |
CN115376125A (zh) | 一种基于多模态数据融合的目标检测方法以及基于目标检测模型的在体果实采摘方法 | |
CN114782360A (zh) | 基于DCT-YOLOv5模型的实时番茄姿态检测方法 | |
CN112597919A (zh) | 基于YOLOv3剪枝网络和嵌入式开发板的实时药盒检测方法 | |
CN114882214A (zh) | 一种基于深度学习从图像预测物体抓取顺序的方法 | |
CN113920427A (zh) | 基于YOLOv5CA注意力模型的实时番茄检测系统 | |
CN117218606B (zh) | 一种逃生门检测方法、装置、存储介质及电子设备 | |
TWI709111B (zh) | 快速農作物定位方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |