CN114782360A - 基于DCT-YOLOv5模型的实时番茄姿态检测方法 - Google Patents

基于DCT-YOLOv5模型的实时番茄姿态检测方法 Download PDF

Info

Publication number
CN114782360A
CN114782360A CN202210409195.XA CN202210409195A CN114782360A CN 114782360 A CN114782360 A CN 114782360A CN 202210409195 A CN202210409195 A CN 202210409195A CN 114782360 A CN114782360 A CN 114782360A
Authority
CN
China
Prior art keywords
dct
yolov5
model
real
tomato
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210409195.XA
Other languages
English (en)
Inventor
禹鑫燚
曹铭洲
周晨
欧林林
魏岩
周利波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202210409195.XA priority Critical patent/CN114782360A/zh
Publication of CN114782360A publication Critical patent/CN114782360A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Abstract

本发明涉及基于DCT‑YOLOv5模型的实时番茄姿态检测方法。包括如下步骤:步骤一:设计DCT‑YOLOv5主干网络及损失函数;步骤二:通过人工拍摄的方式对不同角度,不同大小,不同生长条件的番茄进行图像数据采集;步骤三:制作番茄数据集并进行训练;步骤四:将DCT‑YOLOv5压缩模型部署到AGXXavier嵌入式系统上并使用TensorRT进行模型推理加速;步骤五:使用realsense摄像头在AGX Xavier上进行实时番茄检测。本发明用于部署在NVIDIA JetsonAGX Xavier嵌入式开发板上进行实时番茄检测,在保证检测精度的同时,确保了检测的实时性以及模型运算的高效率。

Description

基于DCT-YOLOv5模型的实时番茄姿态检测方法
技术领域
本发明属于一种基于深度学习的图像处理技术,具体涉及基于DCT-YOLOv5模型的实时番茄姿态检测方法。
背景技术
实时目标检测技术是近年来计算机视觉领域中的研究热门,这种技术包括对轻量级目标检测网络的设计、目标数据集的制作,模型部署载体的研究等。目前,基于图像序列的实时目标检测技术可实现计算机观察和检测图像序列中的目标,该技术在未来智能驾驶和机器人智能分拣中都有着代表性。其中,最潜在的应用之一在于实时,快速的智能分拣领域中,如果园中的智能机器人采摘系统。
近年来,将农业机器人应用于蔬果采摘的工作丰富且复杂。Irie等设计了一款收割机器人,首先用3D传感器检测芦笋是否可以收割,然后使用机械臂和末端执行器来进行芦笋的抓取和收割。Bachche等提出用伺服电机控制的抓取切割机器人来采摘园艺温室中的甜椒。Liu等训练了YOLOv3、ResNet50和ResNet152等深度网络来检测水果,从而证明了深度神经网络在水果识别方面的有效性。
在果园的智能机器人蔬果采摘系统中,检测的准确性是首先要考虑的因素。在早期基于卷积神经网络的目标检测任务中,Ross Girshick等人提出预先提取一系列候选区域,在候选区域上进行特征的提取的目标检测方法,该方法奠定了R-CNN系列方法的基础,并衍生出更加完美的Fast R-CNN,Faster R-CNN和Mask R-CNN目标检测模型。R-CNN系列包括最先进的Faster R-CNN模型在目标检测与识别上有着最高的图像识别精确度,但卷积网络模型都具有大量的层级和节点,所用到的参数达到几百万甚至几十亿,网络的这种计算密集性和存储密集性,会带来巨大的计算和内存消耗,不能满足快速、实时应用的需求;难以应用到计算量小、存储空间小的移动设备上。
智能机器人蔬果采摘系统的第二个重点就是实时性,之前的目标检测模型无法胜任实时性的要求。为了解决之前模型参数量过大,检测速度慢的缺点,Joseph Redmon等人提出了YOLO网络,并由此衍生出了YOLOv2,YOLOv3,YOLOv5等网络。此系列的网络将番茄检测任务直接当作回归问题来处理,将选择候选区和检测两个阶段合二为一。YOLO系列将识别与定位合二为一,结构简便,检测速度快。
虽然YOLO系列模型已经大大提高了检测速度,保证了一定的模型精度,但在检测被遮挡目标或微小目标时无法准确检测目标的姿态。同时,番茄的生长环境光照多变,也会影响检测精度。在原先的模型中加入动态卷积结构,注意力机制和transblock结构,能有效解决上述问题。
发明内容
本发明克服现有技术的缺点,提出一种易实现、适用性高的,DCT-YOLOv5番茄姿态检测模型,此网络在保证高精度的同时,可以实现快速的实时检测。
本发明以图像序列作为输入,首先利用DCT-YOLOv5模型对每帧图像进行目标检测与识别,该模型的基本单元由卷积层,Batch Normal层(BN层),LeakyRelu层,上采样层,transblock层,CA注意力机制层,动态卷积层组成,网络模型结构图见附图1。DCT-YOLOv5的网络结构可以分为输入端、Backbone、Neck、head四个部分。其中,输入端包括Mosaic数据增强、自适应锚框计算、自适应图片缩放等技术;Backbone包括Focus结构,CSP等结构;Neck包括CA注意力,FPN和PAN结构;head包括transblock结构,GIOU_Loss等技术。将DCT-YOLOv5模型部署在Jetson AGX Xavier开发板上,使用TensorRT加速推理。Jetson AGX Xavier开发板使用realsense深度摄像头采集番茄RGB图像数据,数据以图像序列的方式输入DCT-YOLOv5目标检测模型,模型对每帧图像进行目标检测与识别,输出图像中番茄的检测识别结果,包括番茄的中心位置和番茄中心距离摄像头的深度,方便机械手进行后续抓取。
本发明所采用的技术方案为:基于DCT-YOLOv5模型的实时番茄姿态检测方法其特征在于:包括如下步骤:
步骤1:设计DCT-YOLOv5主干网络及损失函数;
步骤2:通过人工拍摄的方式对各种生长形态的番茄进行图像数据采集;
步骤3:制作番茄数据集并进行训练;
步骤4:将DCT-YOLOv5模型部署到嵌入式系统上并使用TensorRT进行模型推理加速;
步骤5:使用realsense摄像头在Jetson AGX Xavier上进行实时番茄位置检测和深度检测。
所述步骤1具体步骤如下:
1.1):DCT-YOLOv5主干网络设计;
1.1.1):借鉴ResNet网络中的shortcut设计加深DCT-YOLOv5主体网络的深度,通过设定卷积层中的步长参数实现卷积层的下采样。除最后三层用于预测的卷积层之外,其余的卷积层后都添加Batch Normalization(BN)操作,并在BN层接LeakyRelu激活函数。使用动态卷积消除多变光照影响。网络中采用CSP模块先将基础层的特征映射划分为两部分,然后通过跨阶段层次结构将它们合并,在减少了计算量的同时保证准确率。借鉴FPN和PAN网络的模型结构,通过上采样操作对网络输出的三个特征图进行concat融合,达到多尺度预测的目的。使用CA注意力机制,融合纵向和横向注意力,辨别图像中的干扰枝干。加入tranblock模块,捕获图像全局注意力,准确识别番茄的生长姿态;
1.1.2):使用K-meas聚类方法和遗传算法,对数据集中的真实框进行聚类,得到九种锚框,每三种锚框对应一个尺度的特征图。此方法的目的是加速预测框的回归;
1.1.3):在网络前向推断中预测公式如下所示:
bx=σ(tx)+cx (1)
by=σ(ty)+cy (2)
Figure BDA0003603042270000041
Figure BDA0003603042270000042
bx,by是预测框在对应尺寸的特征图上的相对中心坐标值。bw,bh是预测框的宽和高。cx,cy是输出特征图grid cell的左上角坐标,pw,ph为锚框的宽和高。tx,ty为预测的坐标偏移值,tw,th为预测的尺度缩放倍数;
1.1.4):动态卷积实现公式如下所示:
Figure BDA0003603042270000043
Figure BDA0003603042270000044
Figure BDA0003603042270000045
βk(x)为网络计算出的k个卷积核的权重,权重大小在0与1之间,且总和为1。
Figure BDA0003603042270000046
表示每个卷积核,
Figure BDA0003603042270000047
表示每个卷积的偏置。
Figure BDA0003603042270000048
表示最终的卷积核,
Figure BDA0003603042270000049
表示最终的偏置。g表示BN层以及激活函数操作,y表示经过动态卷积后输出的特征图;
1.1.5):CA注意力机制实现公式如下所示:
Figure BDA00036030422700000410
Figure BDA00036030422700000411
Figure BDA0003603042270000051
xc(i,j)是特征图中(i,j)位置的特征值,H,W是特征图的长和宽,zc是计算出的特征图中每一个位置的信息嵌入。这一步使该模块能够捕捉两个方向上的具有精确位置信息的特征。T1,T2为两个线性连接层,可以学习到特征图中重要的通道,RELU为激活函数,σ为sigmoid激活函数。X为原特征图,
Figure BDA0003603042270000052
为经过处理后的特征图。加权后的特征图对横向与纵向信息更加敏感。有利于模型对枝干与番茄生长姿态的识别。
1.1.6):transblock结构实现公式如下所示:
Q=WQ(W(x)),K=WK(W(x)),V=WV(W(x)) (11)
y=W(x)+MLP(Dropout(MultiHead(Q,K,V))+W(x)) (12)
W(x)为输入特征图经过一个卷积层,之后经过WQ,WK,WV三个不同的全连接层,得到查询向量Q,键向量K,值向量V。y为一个Transformer Encoder结构的输出,在transblock中可以堆叠任意个Transformer Encoder。将最终Transformer Encoder结构的输出与输入特征图进行concat连接即可得到最终的输出特征图。
1.2):设计DCT-YOLOv5损失函数;
1.2.1):设计目标置信度损失函数;
1.2.2):设计目标类别损失函数;
1.2.3):设计目标定位损失函数;
1.2.4):通过权重系数得到最终的损失函数;
所述步骤3具体步骤如下:
3.1):对采集到的番茄图像样本进行预处理,建立番茄检测目标数据库;
3.2):用labelImg软件对图像中的检测对象进行手动标注,生成xml文件,xml文件中包含labelImg手动标注的番茄真实框的对应坐标值信息,以及每个框对应的标签信息;
3.3):将标注好的图像数据输入模型进行训练;
所述步骤4具体步骤如下:
4.1):对DCT-YOLOv5的backbone网络结构进行垂直整合,将卷积层,BN层,Relu层融合为一层。
4.2):对DCT-YOLOv5的backbone网络结构进行水平整合,将输入相同维度的张量和执行相同操作的层融合在一起。
4.3):将backbone中concat层的输入直接送入后面的操作中,减少传输吞吐量。
4.4):对DCT-YOLOv5的模型参数进行量化,从float32的格式改为float16的格式,加快模型的推理速度。
综上所述,本发明的优点在于,原始DC-TYOLOv5模型已具有高精度的检测效果,在此基础之上进行TensorRT的推理加速,使其能顺利部署在配置不高的嵌入式开发板上;且在TensorRT加速的过程中,融合之后的层与融合之前之前的层具有相同的性能,不会对模型性能造成太大的影响;将此模型在Jetson AGXXavier上通过TensorRT进行推理加速,得到最终的检测模型。此模型实现了在低配置嵌入式开发板上进行实时检测的功能。
附图说明
图1是本发明中DCT-YOLOv5模型的结构图;
图2是本发明中使用TensorRT加速模型推理的流程图;
图3是本发明中relasense实时检测的流程图。
具体实施方式
下面结合附图进一步说明本发明。
本发明的基于DCT-YOLOv5模型的实时番茄姿态检测方法具体过程如下:
1.1):DCT-YOLOv5主干网络设计,如图一所示;
1.1.1):理论上来说越深的网络,其能得到的检测效果就越好,准确率越高,但实验结果表明,网络层数的过度增加会使网络陷入过拟合,使得网络收敛变慢,检测准确率降低,并因为模型的计算成本增加更难部署在嵌入式设备上。为解决这个问题,DCT-YOLOv5主干网络借鉴了深度残差网络跳层连接结构。为了减少池化层带来的对梯度计算的影响,网络中的下采样操作都通过卷积层实现,卷积层的步长都设为2。大量实验表明,神经网络会出现每层之间数据分布不一致的问题,这会导致网络难以收敛和训练,为了解决这个问题,DCT-YOLOv5网络在除了最后三层用于预测的卷积层之外,对其余卷积层的输出都做了Batch Normalization操作,作为解决梯度消失及梯度爆炸,加速网络收敛,以及避免过拟合的方法。在每个BN层后,网络又引入了LeakyRelu函数作为激活函数,这层的作用是在网络中引入非线性组成。卷积层,BN层,LeakyRelu层共同构成网络的最小组件。为了对大小不同的番茄做到精确检测,DCT-YOLOv5借鉴了特征金字塔网络FPN(feature pyramidnetwork)和PAN,通过上采样操作对特征进行融合,根据Jetson AGX Xavier上的realsense摄像头采集到的图像对检测目标进行三个尺度的预测,本发明中尺寸为20*15的输出特征图感受野最大,专门用来检测大目标,尺寸为80*60的输出特征图感受野最小,专门用来检测小目标;
1.1.2):用K-Means++算法和遗传算法在番茄数据集上根据步骤1-1所述的3个检测尺度进行锚框聚类,生成9种大小的锚框,每种检测尺度分配3种锚框,锚框的作用是为了更快速更准确的回归检测框;
1.1.3):在网络前向推理中通过公式:
bx=σ(tx)+cx (1)
by=σ(ty)+cy (2)
Figure BDA0003603042270000081
Figure BDA0003603042270000082
进行目标检测框的预测,最后得到预测框相对于当前特征图的相对中心坐标值bx,by,以及预测框的宽和高bw,bh,cx,cy是输出特征图grid cell的左上角坐标,pw,ph为锚框的宽和高。tx,ty为网络预测的坐标偏移值,tw,th为网络预测的尺度缩放倍数。
1.1.4):在动态卷积通过公式:
Figure BDA0003603042270000083
Figure BDA0003603042270000084
Figure BDA0003603042270000085
进行卷积核的自适应变换。βk(x)为网络计算出的k个卷积核的权重,权重大小在0与1之间,且总和为1。
Figure BDA0003603042270000086
表示每个卷积核,
Figure BDA0003603042270000087
表示每个卷积的偏置。
Figure BDA0003603042270000088
表示最终的卷积核,
Figure BDA0003603042270000089
表示最终的偏置。g表示BN层以及激活函数操作,y表示经过动态卷积后输出的特征图;
1.1.5):在CA注意力机制中通过公式:
Figure BDA00036030422700000810
Figure BDA00036030422700000811
Figure BDA00036030422700000812
实现网络横向和纵向注意力的提取。xc(i,j)是特征图中(i,j)位置的特征值,H,W是特征图的长和宽,zc是计算出的特征图中每一个位置的信息嵌入。这一步使该模块能够捕捉两个方向上的具有精确位置信息的特征。T1,T2为两个线性连接层,可以学习到特征图中重要的通道,RELU为激活函数,σ为sigmoid激活函数。X为原特征图,
Figure BDA0003603042270000091
为经过处理后的特征图。加权后的特征图对横向与纵向信息更加敏感。有利于模型对枝干与番茄生长姿态的识别。
1.1.6):在transblock结构中通过公式:
Q=WQ(W(x)),K=WK(W(x)),V=WV(W(x)) (11)
y=W(x)+MLP(Dropout(MultiHead(Q,K,V))+W(x)) (12)
实现图像全局特征的捕获,提高番茄姿态识别的准确性。W(x)为输入特征图经过一个卷积层,之后经过WQ,WK,WV三个不同的全连接层,得到查询向量Q,键向量K,值向量V。y为一个Transformer Encoder结构的输出,在transblock中可以堆叠任意个TransformerEncoder。将最终Transformer Encoder结构的输出与输入特征图进行concat连接即可得到最终的输出特征图。
1.2):DCT-YOLOv5损失函数的设计;
1.2.1):目标置信度即目标检测框中存在目标的概率采用二值交叉熵损失函数,设计的目标置信度损失函数如下所示:
Figure BDA0003603042270000092
其中
Figure BDA0003603042270000093
网络输出ci通过Sigmoid函数得到
Figure BDA0003603042270000094
1.2.2):目标类别损失函数同样采用二值交叉熵,设计的目标类别损失函数如下所示:
Figure BDA0003603042270000095
其中,
Figure BDA0003603042270000101
网络输出ci通过Sigmoid函数得到
Figure BDA0003603042270000102
表示目标检测框i中存在第j类目标的Sigmoid概率:
1.2.3):目标定位损失函数采用MSE损失函数,如下所示:
Figure BDA0003603042270000103
其中:
Figure BDA0003603042270000104
Figure BDA0003603042270000105
Figure BDA0003603042270000106
Figure BDA0003603042270000107
其中
Figure BDA0003603042270000108
表示预测框的坐标偏移量(DCT-YOLOv5预测的是坐标偏移值),
Figure BDA0003603042270000109
表示真实框的坐标偏移量,(bx,by,bw,bh)为预测框的参数,(cx,cy,pw,ph)为锚框的参数,(gx,gy,gw,gh)为真实框的参数;
1.2.4):将上述所有损失函数通过权值相加得到总损失函数:
L(O,o,C,c,l,g)=λconfLconf(o,c)+λclaLcla(O,C)+λlocLloc(l,g) (16)
2):通过人工拍照的方式对番茄进行图像数据采集,采集时需要拍摄不同光照,不同大小,不同角度,不同距离的番茄。
2.1):对采集到的目标图像进行数据增强,通过图像翻转、拉伸、旋转、裁剪扩充数据集,建立番茄检测数据集。
2.2):用labelImg软件对图像中的番茄进行框标注,生成xml文件,xml文件包含使用labelImg手动标注的真实框的坐标信息,以及每个框对应的标签。
3):将标注好的数据集输入模型进行正常训练,初始学习率设为0.01,Batch_size值设为16。
4):将模型部署到Jetson AGX Xavier嵌入式开发板上,并通过TensorRT进行前向推理加速,如图2所示;
4.1):对DCT-YOLOv5模型的backbone网络结构进行垂直整合,将卷积层,BN层,Relu层融合为一层。
4.2):对DCT-YOLOv5的backbone网络结构进行水平整合,将输入相同维度的张量和执行相同操作的层融合在一起。
4.3):将backbone中concat层的输入直接送入后面的操作中,减少传输吞吐量。
4.4):对DCT-YOLOv5的模型参数进行量化,从float32的格式改为float16的格式,加快模型的推理速度。
5):AGX Xavier外接realsense摄像头模块,使用realsense摄像头进行RGB图像采集,使用opencv处理视频流,并用加速之后的模型进行实时番茄位置和深度检测,如图3所示。
本说明书实施例所述的内容仅仅是对发明构思实现形式的例举,本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims (4)

1.基于DCT-YOLOv5模型的实时番茄姿态检测方法,其特征在于:包括如下步骤:
步骤1:设计DCT-YOLOv5主干网络及损失函数;
步骤2:通过人工拍摄的方式对不同角度,不同大小,不同生长条件的番茄进行图像数据采集;
步骤3:制作番茄数据集并进行训练;
步骤4:将DCT-YOLOv5压缩模型部署到AGX Xavier嵌入式系统上并使用TensorRT进行模型推理加速;
步骤5:使用realsense摄像头在嵌入式开发板AGX Xavier上进行实时番茄检测。
2.根据权利要求1所述的基于DCT-YOLOv5模型的实时番茄姿态检测方法,其特征在于:所述步骤1具体步骤如下:
1.1):DCT-YOLOv5主干网络设计;
1.1.1)借鉴ResNet网络中的shortcut设计加深DCT-YOLOv5主体网络的深度,通过设定卷积层中的步长参数实现卷积层的下采样。除最后三层用于预测的卷积层之外,其余的卷积层后都添加Batch Normalization(BN)操作,并在BN层接LeakyRelu激活函数。使用动态卷积消除多变光照影响。网络中采用CSP模块先将基础层的特征映射划分为两部分,然后通过跨阶段层次结构将它们合并,在减少了计算量的同时保证准确率。借鉴FPN和PAN网络的模型结构,通过上采样操作对网络输出的三个特征图进行concat融合,达到多尺度预测的目的。使用CA注意力机制,融合纵向和横向注意力,辨别图像中的干扰枝干。加入tranblock模块,捕获图像全局注意力,准确识别番茄的生长姿态;
1.1.2):使用用K-meas聚类方法和遗传算法,对真实框进行聚类,得到九种锚框,每三种锚框对应一个尺度的特征图。此方法的目的是加速预测框的回归;
1.1.3):在网络前向推断中预测公式如下所示:
bx=σ(tx)+cx (1)
by=σ(ty)+cy (2)
Figure FDA0003603042260000021
Figure FDA0003603042260000022
bx,by是预测框在对应尺寸的特征图上的相对中心坐标值。bw,bh是预测框的宽和高。cx,cy是输出特征图grid cell的左上角坐标,pw,ph为锚框的宽和高。tx,ty为预测的坐标偏移值,tw,th为预测的尺度缩放倍数;
1.1.4):动态卷积实现公式如下所示:
Figure FDA0003603042260000023
Figure FDA0003603042260000024
Figure FDA0003603042260000025
βk(x)为网络计算出的k个卷积核的权重,权重大小在0与1之间,且总和为1。
Figure FDA0003603042260000026
表示每个卷积核,
Figure FDA0003603042260000027
表示每个卷积的偏置。
Figure FDA0003603042260000028
表示最终的卷积核,
Figure FDA0003603042260000029
表示最终的偏置。g表示BN层以及激活函数操作,y表示经过动态卷积后输出的特征图;
1.1.5):CA注意力机制实现公式如下所示:
Figure FDA00036030422600000210
Figure FDA00036030422600000211
Figure FDA00036030422600000212
xc(i,j)是特征图中(i,j)位置的特征值,H,W是特征图的长和宽,zc是计算出的特征图中每一个位置的信息嵌入。这一步使该模块能够捕捉两个方向上的具有精确位置信息的特征。T1,T2为两个线性连接层,可以学习到特征图中重要的通道,RELU为激活函数,σ为sigmoid激活函数。X为原特征图,
Figure FDA0003603042260000031
为经过处理后的特征图。加权后的特征图对横向与纵向信息更加敏感。有利于模型对枝干与番茄生长姿态的识别。
1.1.6):transblock结构实现公式如下所示:
Q=WQ(W(x)),K=WK(W(x)),V=WV(W(x)) (11)
y=W(x)+MLP(Dropout(MultiHead(Q,K,V))+W(x)) (12)
W(x)为输入特征图经过一个卷积层,之后经过WQ,WK,WV三个不同的全连接层,得到查询向量Q,键向量K,值向量V。y为一个Transformer Encoder结构的输出,在transblock中可以堆叠任意个Transformer Encoder。将最终Transformer Encoder结构的输出与输入特征图进行concat连接即可得到最终的输出特征图。
1.2):设计DCT-YOLOv5损失函数;
1.2.1):设计目标置信度损失函数如下所示:
Figure FDA0003603042260000032
其中
Figure FDA0003603042260000033
网络输出ci通过Sigmoid函数得到
Figure FDA0003603042260000034
1.2.2):设计目标类别损失函数如下所示:
Figure FDA0003603042260000035
其中,
Figure FDA0003603042260000036
网络输出ci通过Sigmoid函数得到
Figure FDA0003603042260000037
表示目标检测框i中存在第j类目标的Sigmoid概率;
1.2.3):设计目标定位损失函数如下:
Figure FDA0003603042260000041
其中:
Figure FDA0003603042260000042
Figure FDA0003603042260000043
Figure FDA0003603042260000044
Figure FDA0003603042260000045
其中
Figure FDA0003603042260000046
表示预测框的坐标偏移量(DCT-YOLOv5预测的是坐标偏移值),
Figure FDA0003603042260000047
表示真实框的坐标偏移量,(bx,by,bw,bh)为预测框的参数,(cx,cy,pw,ph)为锚框的参数,(gx,gy,gw,gh)为真实框的参数;;
1.2.4):通过权重系数得到最终的损失函数:
L(O,o,C,c,l,g)=λconfLconf(o,c)+λclaLcla(O,C)+λlocLloc(l,g) (16)
3.根据权利要求1所述的基于DCT-YOLOv5模型的实时番茄姿态检测方法,其特征在于:所述步骤3具体步骤如下:
3.1):对采集到的番茄图像样本进行预处理,建立番茄检测目标数据库;
3.2):用labelImg软件对图像中的检测对象进行手动标注,生成xml文件,xml文件中包含labelImg手动标注的番茄真实框的对应坐标值信息,以及每个框对应的标签信息;
3.3):将标注好的图像数据输入模型进行训练。
4.根据权利要求1所述的基于DCT-YOLOv5模型的实时番茄姿态检测方法,其特征在于:所述步骤4具体步骤如下:
4.1):对DCT-YOLOv5的backbone网络结构进行垂直整合,将卷积层,BN层,Relu层融合为一层。
4.2):对DCT-YOLOv5的backbone网络结构进行水平整合,将输入相同维度的张量和执行相同操作的层融合在一起。
4.3):将backbone中concat层的输入直接送入后面的操作中,减少传输吞吐量。
4.4):对DCT-YOLOv5的模型参数进行量化,从float32的格式改为float16的格式,加快模型的推理速度。
CN202210409195.XA 2022-04-19 2022-04-19 基于DCT-YOLOv5模型的实时番茄姿态检测方法 Pending CN114782360A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210409195.XA CN114782360A (zh) 2022-04-19 2022-04-19 基于DCT-YOLOv5模型的实时番茄姿态检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210409195.XA CN114782360A (zh) 2022-04-19 2022-04-19 基于DCT-YOLOv5模型的实时番茄姿态检测方法

Publications (1)

Publication Number Publication Date
CN114782360A true CN114782360A (zh) 2022-07-22

Family

ID=82432116

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210409195.XA Pending CN114782360A (zh) 2022-04-19 2022-04-19 基于DCT-YOLOv5模型的实时番茄姿态检测方法

Country Status (1)

Country Link
CN (1) CN114782360A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115937314A (zh) * 2022-12-23 2023-04-07 南京林业大学 一种油茶果生长姿态检测方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115937314A (zh) * 2022-12-23 2023-04-07 南京林业大学 一种油茶果生长姿态检测方法
CN115937314B (zh) * 2022-12-23 2023-09-08 南京林业大学 一种油茶果生长姿态检测方法

Similar Documents

Publication Publication Date Title
CN110321923B (zh) 不同尺度感受野特征层融合的目标检测方法、系统及介质
CN108564097B (zh) 一种基于深度卷积神经网络的多尺度目标检测方法
Budiharto et al. Fast object detection for quadcopter drone using deep learning
CN111626128B (zh) 一种基于改进YOLOv3的果园环境下行人检测方法
CN110766041B (zh) 一种基于深度学习的害虫检测方法
CN112364931B (zh) 一种基于元特征和权重调整的少样本目标检测方法及网络系统
CN113807399B (zh) 一种神经网络训练方法、检测方法以及装置
Goh et al. Mars terrain segmentation with less labels
CN113160062B (zh) 一种红外图像目标检测方法、装置、设备及存储介质
CN110610210B (zh) 一种多目标检测方法
CN112597920A (zh) 基于YOLOv3剪枝网络的实时物体检测系统
CN115019302A (zh) 一种改进型yolox目标检测模型构建方法及其应用
Hussain et al. A simple and efficient deep learning-based framework for automatic fruit recognition
CN115861619A (zh) 一种递归残差双注意力核点卷积网络的机载LiDAR城市点云语义分割方法与系统
CN116385958A (zh) 一种用于电网巡检和监控的边缘智能检测方法
CN111738074B (zh) 基于弱监督学习的行人属性识别方法、系统及装置
CN114492634B (zh) 一种细粒度装备图片分类识别方法及系统
CN113752255B (zh) 一种基于深度强化学习的机械臂六自由度实时抓取方法
CN115376125A (zh) 一种基于多模态数据融合的目标检测方法以及基于目标检测模型的在体果实采摘方法
CN114782360A (zh) 基于DCT-YOLOv5模型的实时番茄姿态检测方法
CN112597919A (zh) 基于YOLOv3剪枝网络和嵌入式开发板的实时药盒检测方法
CN114882214A (zh) 一种基于深度学习从图像预测物体抓取顺序的方法
CN113920427A (zh) 基于YOLOv5CA注意力模型的实时番茄检测系统
CN117218606B (zh) 一种逃生门检测方法、装置、存储介质及电子设备
TWI709111B (zh) 快速農作物定位方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination