CN118038451B - 开放世界果实检测模型构建方法、检测方法及电子设备 - Google Patents
开放世界果实检测模型构建方法、检测方法及电子设备 Download PDFInfo
- Publication number
- CN118038451B CN118038451B CN202410431523.5A CN202410431523A CN118038451B CN 118038451 B CN118038451 B CN 118038451B CN 202410431523 A CN202410431523 A CN 202410431523A CN 118038451 B CN118038451 B CN 118038451B
- Authority
- CN
- China
- Prior art keywords
- image
- feature vector
- vector
- text
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 175
- 235000013399 edible fruits Nutrition 0.000 title claims abstract description 171
- 238000010276 construction Methods 0.000 title claims description 11
- 239000013598 vector Substances 0.000 claims abstract description 308
- 238000000034 method Methods 0.000 claims abstract description 107
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 22
- 230000004927 fusion Effects 0.000 claims abstract description 19
- 230000008569 process Effects 0.000 claims description 91
- 238000013507 mapping Methods 0.000 claims description 45
- 238000012549 training Methods 0.000 claims description 44
- 238000012545 processing Methods 0.000 claims description 41
- 230000006870 function Effects 0.000 claims description 38
- 239000011159 matrix material Substances 0.000 claims description 29
- 238000004364 calculation method Methods 0.000 claims description 15
- 230000004913 activation Effects 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 8
- 238000012795 verification Methods 0.000 claims description 8
- 238000007689 inspection Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 238000004140 cleaning Methods 0.000 claims description 4
- 238000002372 labelling Methods 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000003213 activating effect Effects 0.000 claims 1
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 11
- 230000006872 improvement Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 6
- 241000220225 Malus Species 0.000 description 4
- 241000220324 Pyrus Species 0.000 description 4
- 235000007688 Lycopersicon esculentum Nutrition 0.000 description 3
- 240000003768 Solanum lycopersicum Species 0.000 description 3
- 235000021016 apples Nutrition 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 235000021017 pears Nutrition 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 241000234295 Musa Species 0.000 description 2
- 241000533293 Sesbania emerus Species 0.000 description 2
- 235000021015 bananas Nutrition 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 235000020971 citrus fruits Nutrition 0.000 description 2
- 238000009792 diffusion process Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 238000007500 overflow downdraw method Methods 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 238000011897 real-time detection Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 241000689227 Cora <basidiomycete fungus> Species 0.000 description 1
- 240000008790 Musa x paradisiaca Species 0.000 description 1
- 235000018290 Musa x paradisiaca Nutrition 0.000 description 1
- 235000014443 Pyrus communis Nutrition 0.000 description 1
- 238000000137 annealing Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000000701 chemical imaging Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 235000012055 fruits and vegetables Nutrition 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/68—Food, e.g. fruit or vegetables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种开放世界果实检测模型构建方法、检测方法及电子设备,属于计算机视觉和自然语言处理技术领域。本发明构建所得检测模型包括:文本编码模块,用于生成输入文本的文本特征向量;图像编码模块,用于生成输入图像的图像特征向量;图文特征融合模块,用于多层融合和交互文本特征和图像特征,生成融合后的图像特征向量和文本特征向量;深度估计模块,用于生成输入图像的深度估计特征;目标检测头,用于进一步融合和提取所得的融合后的图像特征向量、文本特征向量和深度估计特征,得到预测结果。本发明结合图像、深度估计算法和开放文本,实现了未见类别的果实检测和定位。
Description
技术领域
本发明属于计算机视觉和自然语言处理技术领域,更具体地说,涉及一种开放世界果实检测模型构建方法、检测方法及电子设备。
背景技术
果实目标识别与定位是计算机视觉的两个核心任务,旨在通过计算机算法和技术来自动识别和检测不同类型的果蔬。随着人工智能技术的快速发展,使用深度学习的方法来检测和分类果实已经成为可能。例如,Taiheng Zeng等、H. Gan等、Shih-Yu Chen等在《Computers and Electronics in Agriculture》上发表的轻量级番茄实时检测方法(ZENGT, LI S, SONG Q, et al. Lightweight tomato real-time detection method basedon improved YOLO and mobile deployment[J/OL]. Computers and Electronics inAgriculture, 2023, 205: 107625[2024-04-09]. DOI:10.1016/j.compag.2023.107625.)、未成熟的绿色柑橘果实检测方法(GAN H, LEE W S,ALCHANATIS V, et al. Immature green citrus fruit detection using color andthermal images[J/OL]. Computers and Electronics in Agriculture, 2018, 152:117-125[2024-04-09]. DOI:10.1016/j.compag.2018.07.011.)、生咖啡豆实时缺陷检测方法(CHEN S Y, CHIU M F, ZOU X W. Real-time defect inspection of green coffeebeans using NIR snapshot hyperspectral imaging[J/OL]. Computers andElectronics in Agriculture, 2022, 197: 106970[2024-04-09]. DOI:10.1016/j.compag.2022.106970.)。
当前的果实检测模型通常局限于一小组固定的语义类别。例如,在通用的果实检测任务中,使用番茄、苹果等数据集训练的果实检测模型无法检测梨子、香蕉等模型训练过程中未曾涉及的新目标;另一方面,在同一果实的检测任务中,使用现有数据集训练的果实检测模型难以检测未见新场景下的果实目标。构建覆盖所有环境、果实等复杂场景的数据集所需的采集和训练成本往往昂贵且不现实。
在通用计算机视觉领域,已有相关研究尝试解决这一问题。例如,AlirezaZareian等在CVPR 2021会议上发表的《Open-Vocabulary Object Detection UsingCaptions》(Proceedings of the IEEE/CVF Conference on Computer Vision andPattern Recognition (CVPR). Seattle Convention Center, Seattle WA, UnitedStates, 2021[2024-04-09]. DOI:10.48550/arXiv.2011.10678.),提出了使用图像-文本对的目标检测方法,能够检测和定位在训练期间没有提供过标注的物体;Xiaoshi Wu等在CVPR 2023会议上发表的《CORA: Adapting CLIP for Open-Vocabulary Detection withRegion Prompting and Anchor Pre-Matching》(Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition (CVPR). SeattleConvention Center, Seattle WA, United States, 2023[2024-04-09]. DOI:10.48550/arXiv.2303.13076.),通过类感知的匹配机制,进一步提高了模型学习可泛化的目标定位;Chi Xie等在NeurIPS 2023会议上发表的《Exposing the Troublemakers in DescribedObject Detection》(Thirty-seventh Conference on Neural Information ProcessingSystems. New Orleans, Louisiana, United States, 2023[2024-04-09]. https://arxiv.org/abs/2307.12813v1.),进一步克服了开放词汇目标检测的缺陷,提出了描述目标检测概念。然而,有关描述目标检测和开放词汇目标检测的研究仍处于起步阶段,且用于支撑研究的相关数据集也仅适用于通用计算机视觉领域的目标检测任务中,在特定的研究领域中不具有数据丰富性和专业性。
综上,现有技术中实现开放世界果实检测的难点包括:(1)如何构建具有丰富语义特征的开放世界果实检测数据集;(2)如何实现模型对未见类别果实的检测和识别能力;(3)如何高效提取和融合图像-文本对中的语义特征;(4)如何实现特定任务零样本应用或少样本微调的通用果实检测模型;(5)如何高效训练开放世界果实检测模型。
发明内容
1.要解决的技术问题
针对现有果实检测模型存在的泛化能力不佳、检测类别有限、农业领域专业词汇理解能力不佳的问题,本发明提供了一种开放世界果实检测模型构建方法、检测方法及电子设备。本发明结合图像和文本输入,利用深度估计算法匹配文本、深度和图像特征,实现了开放世界果实检测模块的描述检测和定位能力,并可通过零样本或小样本微调实现多样的下游任务。
2.技术方案
为了实现上述目的,本发明提供了一种开放世界果实检测模型构建方法,包括:
以多来源采集的果实图像数据构建开放世界果实检测数据集;
使用构建得到的开放世界果实检测数据集训练开放世界果实检测模型,得到训练好的果实检测模型;所述开放世界果实检测模型包括:
文本编码模块,用于生成输入文本的文本特征向量;
图像编码模块,用于生成输入图像的图像特征向量;
图文特征融合模块,用于多层融合和交互文本特征和图像特征,生成融合后的图像特征向量和文本特征向量;
深度估计模块,用于生成输入图像的深度估计特征;
目标检测头,用于利用深度估计特征向量为融合后的图像特征向量提供空间特征,利用融合后的文本特征指导具有空间特征的图像特征向量生成目标检测查询向量,利用文本特征和预测结果生成各个预测位置的类别标题。
作为本发明更进一步的改进,所述目标检测头用于:
将输入的深度估计特征向量和图像特征向量分别进行线性映射并相乘,得到深度-图像匹配矩阵;
将深度估计特征向量和图像特征向量分别进行线性映射并拼接,作为输入Transformer Encoder的K向量,将图像特征向量进行线性映射,作为输入TransformerEncoder的V向量,将深度-图像匹配矩阵作为输入Transformer Encoder的Q向量,计算得到融合深度信息的第一过程多模态特征向量M1;
将文本特征向量和第一过程多模态特征向量M1分别进行线性映射并相乘,得到文本-深度-图像匹配矩阵;
将文本-深度-图像匹配矩阵作为输入另一个Transformer Encoder的Q向量,将输入的图像特征向量分别进行两个独立的线性映射,作为输入另一个Transformer Encoder的K和V向量,计算得到第二过程多模态特征向量M2;
将文本-深度-图像匹配矩阵作为输入另一个Transformer Encoder的Q向量,将第二过程多模态特征向量M2分别进行两个独立的线性映射,作为输入另一个TransformerEncoder的K和V向量,计算得到第三过程多模态特征向量M3;
将第三过程多模态特征向量M3进行线性映射,并与该向量维度、大小相同,初值为1的可学习查询向量元素级相乘,作为输入Transformer Decoder的Q向量,将第二过程多模态特征向量M2进行线性映射,作为Transformer Decoder的K向量,将输入的图像特征向量进行线性映射,作为Transformer Decoder的V向量,计算得到第四过程多模态特征向量M4;
将第四过程多模态特征向量M4分别进行三个独立的线性映射,作为Q、K和V向量,输入另一个Transformer Decoder,重复N-1次,计算得到第五过程多模态特征向量M5;
将第五过程多模态特征向量M5输入Transformer FFN模块,计算得到开放世界果实检测模型的预测结果O;
将输入的文本特征向量和预测结果O分别进行线性映射并相乘,得到文本-预测匹配矩阵。
作为本发明更进一步的改进,所述图文特征融合模块采用如下融合公式:
其中,T in表示文本编码模块生成的文本特征向量,P in表示图像编码模块生成的图像特征向量,t表示文本特征处理函数,p表示图像特征处理函数,t n表示第n个文本特征处理函数,p n表示第n个图像特征处理函数,T n表示经t n处理后得到的文本特征向量,P n表示经p n处理后得到的图像特征向量,T n、P n为图文特征融合模块最终输出的文本特征向量和图像特征向量。
作为本发明更进一步的改进,所述文本编码模块用于:
将输入数据分别送入轻量化MobileCLIP和ALBert模型,分别得到基于输入文本的词嵌入向量E1、E2;
将词嵌入向量E1、E2按位相乘,得到过程词嵌入向量E3;
将词嵌入向量E1、E2、E3在同一维度拼接,随后分别从第零、第一位开始,间隔一位取样,并使用两个多层感知器进行映射,分别得到过程词嵌入向量E4、E5、E6和E7、E8、E9;
将过程词嵌入向量E1、E2、E3作为V,过程词嵌入向量E4、E5、E6作为K,过程词嵌入向量E7、E8、E9作为Q,送入Transformer进行计算,得到过程词嵌入向量E10;
使用平均池化对过程词嵌入向量E10进行降维作为Q,将词嵌入向量E1作为V,将词嵌入向量E2作为K,送入Transformer进行计算,得到最终输出的词嵌入向量。
作为本发明更进一步的改进,所述图像编码模块用于:
将输入图像编码模块的RGB图像拆分为R通道特征、G通道特征、B通道特征,分别通过L-L模块后,再各自与输入的R通道特征、G通道特征、B通道特征进行拼接,并分别使用GeLU激活函数处理,得到第一、第二、第三特征向量F1、F2、F3;
将第一、第二、第三特征向量F1、F2、F3进行两两组合,各自分别经过一个CBS模块,拼接后通过L-L模块处理,得到第四特征向量F4;
将第四特征向量F4依次通过四个LBS模块,得到第五、第六、第七、第八特征向量F5、F6、F7、F8;
将第五特征向量F5按照可训练参数α的比率缩放,调整向量大小和维度与第四特征向量F4相同,并与第四特征向量F4相加,得到第九特征向量F9;
重复上述步骤,计算获得特征向量F10、F11、F12,其中,F10由F9+β×F6经CBS模块处理后得到,F11由F10+γ×F7经CBS模块处理后得到,F12由F9+η×F8经CBS模块处理后得到,β、γ、η均为可训练参数;
拼接特征向量F8、F9、F10、F11、F12,通过一个CBS模块处理后即得到图像编码模块最终输出的图像特征向量;
其中,LBS模块为使用线性映射、层归一化以及Hardswish激活函数构建得到,CBS模块为使用二维卷积、批归一化以及SiLU激活函数构建得到,L-L模块为使用两个线性映射、一个矩阵点积操作构建得到。
作为本发明更进一步的改进,构建开放世界果实检测数据集时采集的果实图像数据包含但不限于真实世界果实图像数据、算法生成的果实图像数据及简单场景果实图像数据,并对获得的果实图像数据进行数据清洗操作,以清理去除重复、无效的果实图像数据,最终对数据集内的数据进行标注;将构建得到的开放世界果实检测数据集分为训练集数据和验证集数据,利用训练集数据对开放世界果实检测模型进行训练,并利用验证集数据进行验证。
作为本发明更进一步的改进,在模型训练过程中,数据解码器通过基于密度的聚类算法,合并位置相近的各个预测框,统计这些预测框的类别标题文本的特征向量,计算这些特征向量带有距离权重的均值,随后将简化的预测框和对应的类别标题的文本特征向量送入损失计算过程;
在实际检测过程中,数据解码器根据预先设定好的阈值,筛选高于阈值的所有预测结果,将预测框和对应的类别标题的文本特征向量送入推理结果展示过程;
训练所述开放世界果实检测模型的损失函数为:
其中,B表示训练过程中输入模型的图像数据的批大小,Loss cls表示类别相似度损失,t Pred表示模型预测的最高概率的类别标题的词嵌入向量,t GT表示数据集中正确的类别标题,cos表示计算词嵌入向量间的余弦相似度;Loss box表示现有的目标检测模型的边框损失,Loss sim表示使用MSELoss计算文本-深度-图像匹配矩阵和深度-图像匹配矩阵的相似度,Loss img表示使用CLIP模型的Loss函数计算深度估计特征向量和图像特征向量的匹配度损失,Loss txt表示使用CLIP模型的Loss函数计算文本特征向量和第一过程多模态特征向量M1的匹配度损失。
本发明还提供了一种开放世界果实检测方法,将待检测果实的文本和图像数据输入本发明构建得到的开放世界果实检测模型,即得到预测结果,并在数据解码器中对预测结果进行处理,最终得到目标果实的位置和类别信息。
本发明还提供了一种电子设备,包括存储器和处理器,存储器上存储有计算机程序,所述处理器调用上述计算机程序时能够实现本发明的果实检测方法。
本发明还提供了一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器调用时能够实现本发明的果实检测方法。
3.有益效果
相比于现有技术,本发明的优点在于:
(1)本发明通过结合文本和图像,利用深度估计算法匹配文本、深度、图像特征进行果实检测,能够使开放世界果实检测系统在训练数据中未见的各类真实复杂场景下实现描述检测和定位能力。
(2)本发明通过图文特征融合模块和目标检测头,能够实现图像和文本信息的高效融合,并使用深度估计模型的骨干结构将深度信息融入图像特征,具有良好的图像文本对的空间理解和表征能力。
(3)本发明的文本编码模块,结合MobileCLIP和ALBert模型,将所输出文本特征信息进一步融合,有效利用了信息互补的优势,缓解了轻量化自然语言模型的性能缺陷,在保持算法轻量化的同时提高了所提取文本特征的有效性。
(4)本发明通过图像编码模块,利用全连接网络具有的全局感受野特性,为基于卷积的图像编码模块的主体结构提供全局感知能力,能够轻量、高效地提取图像特征,以便进行后续的特征融合。
(5)本发明通过构建开放世界果实检测数据集,使用图像和文本概括和记录果实的细粒度特征,克服通用计算机视觉领域中现有数据集的专业性和丰富性不充足、所生成的描述检测定位文本不精确的问题,有益于提高开放世界果实检测系统的专业词汇理解能力;在构建开放世界果实检测数据集的过程中,通过对关键词的组合、处理、同义词替换等方式,克服了现有图像生成技术中相似提示语导致的生成图像大量相似问题。
(6)本发明所提及的开放世界果实检测模型的训练过程中,数据解码器通过基于密度的聚类算法,合并位置相近的各个预测框,将简化的预测框和对应的类别标题的文本特征向量送入损失计算过程,克服了现有描述目标检测技术中逐目标计算位置和类别损失造成的训练效率不足问题。
(7)基于病害识别、果实分割、采摘点检测等下游任务,本发明能够在零样本或仅需小样本微调的情况下实现任务迁移,有效减少了下游任务的数据需求。
附图说明
图1为本发明的开放世界果实检测系统结构图;
图2为本发明实施例采集的真实世界、简单场景和算法生成的代表性果实图像示意图;
图3为本发明实施例的数据构建模块的示意图;
图4为本发明实施例由开放世界果实检测数据集生成训练数据的示意图;
图5为本发明实施例的文本编码模块的结构示意图;
图6为本发明实施例的图像编码模块的结构示意图;
图7为本发明实施例的图文特征融合模块的结构示意图;
图8为本发明实施例的词嵌入向量处理函数t的结构;
图9为本发明实施例的图像特征处理函数p的结构;
图10为本发明实施例的目标检测头的结构示意图。
具体实施方式
针对现有果实检测技术中数据集类别有限、泛化能力较弱、农业领域专业词汇理解能力不佳等问题,本发明结合图像、深度估计算法和开放文本,实现了未见类别的果实检测和定位。具体地,通过构建开放世界果实检测数据集,使用图像和文本概括和记录果实的细粒度特征,支撑开放世界果实检测系统的专业词汇理解能力;通过构建开放世界果实检测模块,利用深度估计算法匹配文本、深度、图像特征,高效提取和融合来自图像和文本的特征信息,实现了开放世界果实检测模块的描述检测和定位能力。本发明具有农业领域专业词汇理解能力,并通过深度估计实现语言描述定位的果实检测;对于病害识别、果实分割、采摘点检测等下游任务,本发明仅需零样本或小样本微调即可实现高效的任务迁移。
下面结合说明书附图和具体的实施例,对本发明作详细描述。
本发明实施例提供了一种开放世界果实检测模型(检测系统),包括:
文本编码模块,用于生成输入文本的文本特征向量;
图像编码模块,用于生成输入图像的图像特征向量;
图文特征融合模块,用于多层融合和交互文本特征和图像特征,生成融合后的图像特征向量和文本特征向量;
深度估计模块,用于生成输入图像的深度估计特征;
目标检测头,用于利用深度估计特征向量为融合后的图像特征向量提供空间特征,利用融合后的文本特征指导具有空间特征的图像特征向量生成目标检测查询向量,利用文本特征和预测结果生成各个预测位置的类别标题。
本发明的开放世界果实检测模型由文本编码模块、图像编码模块、图文特征融合模块、深度估计模块和目标检测头组成,将待识别果实的文本数据输入文本编码模块,得到文本特征向量,即第一特征向量;将待识别果实的图像数据输入图像编码模块,得到图像特征向量,即第二特征向量;将第一、第二特征向量输入图文特征融合模块,得到第三、第四特征向量;将图像输入深度估计模块,得到第五特征向量;将第三、第四、第五特征向量输入目标检测头,得到预测结果。本发明利用深度估计算法匹配文本、深度、图像特征进行果实检测,能够使开放世界果实检测系统在训练数据中未见的各类真实复杂场景下实现描述检测和定位能力。
更进一步地,如图10所示,所述目标检测模型头的检测过程优选为包括:
将输入的深度估计特征向量和输入的图像特征向量分别进行线性映射并相乘,得到深度-图像匹配矩阵;
将输入的深度估计特征向量和输入的图像特征向量分别进行线性映射并拼接,作为输入Transformer Encoder的K(Key)向量,将图像特征向量进行线性映射,作为输入Transformer Encoder的V(Value)向量,将深度-图像匹配矩阵作为输入TransformerEncoder的Q(Query)向量,计算得到融合深度信息的第一过程多模态特征向量M1;
将输入的文本特征向量和第一过程多模态特征向量M1分别进行线性映射并相乘,得到文本-深度-图像匹配矩阵;
将文本-深度-图像匹配矩阵作为输入另一个Transformer Encoder的Q(Query)向量,将输入的图像特征向量分别进行两个独立的线性映射,作为输入另一个TransformerEncoder的K(Key)和V(Value)向量,计算得到第二过程多模态特征向量M2;
将文本-深度-图像匹配矩阵作为输入另一个Transformer Encoder的Q(Query)向量,将第二过程多模态特征向量M2分别进行两个独立的线性映射,作为输入另一个Transformer Encoder的K(Key)和V(Value)向量,计算得到第三过程多模态特征向量M3;
将第三过程多模态特征向量M3进行线性映射,并与该向量维度、大小相同,初值为1的可学习查询向量元素级相乘,作为输入Transformer Decoder的Q(Query)向量,将第二过程多模态特征向量M2进行线性映射,作为Transformer Decoder的K(Key)向量,将输入的图像特征向量进行线性映射,作为Transformer Decoder的V(Value)向量,计算得到第四过程多模态特征向量M4;
将第四过程多模态特征向量M4分别进行三个独立的线性映射,作为Q(Query)、K(Key)和V(Value)向量,输入另一个Transformer Decoder,重复N-1次,计算得到第五过程多模态特征向量M5;
将第五过程多模态特征向量M5输入Transformer FFN(Feed-Forward Network,FFN)模块,计算得到开放世界果实检测模型的预测结果O;
将输入的文本特征向量和预测结果O分别进行线性映射并相乘,即得到文本-预测匹配矩阵。本发明通过图文特征融合模块和目标检测头,能够实现图像和文本信息的高效融合,并使用深度估计模型的骨干结构将深度信息融入图像特征,具有良好的图像文本对的空间理解和表征能力。
更进一步的,如图5所示,所述文本编码模块用于:
将输入数据分别送入轻量化MobileCLIP和ALBert模型,分别得到基于输入文本的词嵌入向量E1、E2;
将词嵌入向量E1、E2按位相乘,得到过程词嵌入向量E3;
将词嵌入向量E1、E2、E3在同一维度拼接,随后分别从第零、第一位开始,间隔一位取样,并使用两个多层感知器进行映射,分别得到过程词嵌入向量E4、E5、E6和E7、E8、E9;
将过程词嵌入向量E1、E2、E3作为V、过程词嵌入向量E4、E5、E6作为K、过程词嵌入向量E7、E8、E9作为Q,送入Transformer进行计算,得到过程词嵌入向量E10;
使用平均池化对过程词嵌入向量E10进行降维作为Q,将词嵌入向量E1作为V,将词嵌入向量E2作为K,送入Transformer进行计算,得到最终输出的文本编码模块最终输出的词嵌入向量。
如图6所示,作为本发明实施例更进一步的改进,所述图像编码模块的工作过程包括:
将输入图像编码模块的RGB图像拆分为R通道特征、G通道特征、B通道特征,分别通过L-L模块后,再各自与输入的R通道特征、G通道特征、B通道特征进行拼接,并分别使用GeLU(Gaussian Error Linear Units,GeLU)激活函数处理,得到第一、第二、第三特征向量F1、F2、F3;
将第一、第二、第三特征向量F1、F2、F3进行两两组合,各自分别经过一个CBS模块,拼接后通过L-L模块处理,得到第四特征向量F4;
将第四特征向量F4依次通过四个LBS模块,得到第五、第六、第七、第八特征向量F5、F6、F7、F8;
将第五特征向量F5按照可训练参数α的比率缩放,调整向量大小和维度与第四特征向量F4相同,并与第四特征向量F4相加,得到第九特征向量F9;
重复上述步骤,计算获得特征向量F10、F11、F12,其中,F10由F9+β×F6经CBS模块处理后得到,F11由F10+γ×F7经CBS模块处理后得到,F12由F9+η×F8经CBS模块处理后得到,β、γ、η均为可训练参数;
拼接特征向量F8、F9、F10、F11、F12,通过一个CBS模块处理后即得到图像编码模块最终输出的图像特征向量;
其中,LBS模块为使用线性映射、层归一化以及Hardswish激活函数构建得到,CBS模块为使用二维卷积、批归一化以及SiLU(Sigmoid Linear Unit,SiLU)激活函数构建得到,L-L模块为使用两个线性映射、一个矩阵点积操作构建得到。本发明利用全连接网络具有的全局感受野特性,为基于卷积的图像编码模块的主体结构提供全局感知能力,能够轻量、高效地提取图像特征,以便进行后续的特征融合。
作为本发明实施例更进一步的优选方式,如图7所示,所述图文特征融合模块采用如下公式:
其中,T in表示输入的文本特征向量,P in表示输入的图像特征向量,t表示文本特征处理函数,p表示图像特征处理函数,t n表示第n个文本特征处理函数,p n表示第n个图像特征处理函数,T n表示t n处理后得到的文本特征向量,P n表示p n处理后得到的图像特征向量,T n、P n为图文特征融合模块最终输出的文本特征向量和图像特征向量。
如图8、图9所示,为提高特征融合效果和计算速度,上述词嵌入向量处理函数t和图像特征处理函数p的计算公式优选为:
其中,X txt表示输入的词嵌入向量,X img表示输入的图片特征向量,C 1表示一维卷积,C 2表示二维卷积,L表示线性映射,下标1、2、3、4代表不同参数的一维卷积、二维卷积或线性映射函数,N 1表示层归一化,N 2表示批归一化,⊙表示向量矩阵的点积操作,⊕表示向量矩阵的拼接操作。
作为本发明实施例的其中一种实现方式,所述深度估计模块采用DINOv2模型的主体结构,具体的,去除DINOv2模型尾部将深度估计特征向量生成为图片的结构,直接输出深度估计特征向量。需要说明的是,在实际应用中,深度估计模块还可以是其他的用于生成深度估计特征向量的模型,例如P3Depth、BTS等现有技术。
如图1所示,本发明实施例还提供了一种开放世界果实检测模型的构建方法,包括:
以多来源采集的果实图像数据构建开放世界果实检测数据集;
使用构建得到的开放世界果实检测数据集训练本发明上述实施例的任一开放世界果实检测模型,得到训练好的果实检测模型。
更进一步的,构建开放世界果实检测数据集时采集的果实图像数据优选为包含但不限于真实世界果实图像数据、算法生成的果实图像数据及简单场景果实图像数据。
对于真实世界果实图像数据,可以采用手机或相机拍摄,且应确保内容多样。具体的,其拍摄的环境包括但不限于不同时间、不同光照、不同天气;拍摄的场景包括但不限于枝叶遮挡、果实重叠、阴影遮挡;拍摄的角度包括但不限于平视、俯视、仰视;果实的品种包括但不限于苹果、香蕉、梨子;果实的位置应随机分布于画面各处,避免经常位于画面中心。
对于简单场景果实图像数据,使用固定关键词“真实”、“果实”和随机关键词,在图像搜索引擎中爬取图像。具体的,图像搜索引擎包括但不限于百度、360、搜狗;随机关键词包括但不限于“苹果”、“香蕉”、“梨子”等品种类关键词,“遮挡”、“重叠”、“阴影”等状态类关键词。
对于算法生成的果实图像数据,采用上述关键词,使用包括但不限于DALL·E、Stable Diffusion等图像生成算法生成包含不同时间、不同光照、不同天气、不同场景、不同角度、不同品种、不同位置等多样的虚拟图像。如图2所示为本实施例中采集的真实世界、简单场景和算法生成的代表性果实图像数据。需要说明的是,本实施例中,手机相机、爬虫程序、图像搜索引擎、DALL·E和Stable Diffusion等图像生成算法为现有技术,此外,采集的图像大小可以不一致。
作为本发明实施例的进一步的改进,对获得的果实图像数据进行数据清洗操作,通过人工清理重复、无效的果实图像数据,并确保来自真实世界、简单场景和算法生成的果实图像数据数量均衡。对剩余的图像重新标号,使用LabelMe工具,遍历果实图像,人工对每个图像中的果实逐个标注目标检测框数据,并为每个目标分配唯一的序号。标注过程中,再次清洗与真实世界相差较大的算法生成图像。再次遍历每个果实目标检测框标注数据,在各个特征类别中,为每个目标检测标注框匹配至少一个文本特征。最后,统计所有目标检测框的相对图像大小,以最小为20x20像素,最大为整个图像大小,使得目标检测框相对大小由小到大近似正态分布,否则再次采集数据;统计所有目标检测框相对画面位置,使得目标检测框均衡分布于所有相对位置,否则再次采集数据。需要说明的是,本发明实施例中,使用LabelMe工具遍历图像并标注果实目标检测框数据为现有技术。
值得注意的是,在各个特征类别中为每个目标检测标注框匹配数据的过程中,特征类别应足够丰富,包含名词或形容词,且能够概括农业领域果实检测的所有复杂场景。具体的,包括但不限于“红色”、“蓝色”等颜色特征;“苹果”、“梨子”等品种特征;“沙沙的”、“脆脆的”等质感特征;“遮挡的”、“重叠的”等状态特征;“距离近的”、“叶片后方的”等位置特征;“成熟的”、“患病的”等品质特征。由此,本发明实施例构建的开放世界果实检测数据集能够有效的通过文本和图像概括农业果实检测场景,提高数据集的泛化性。需要说明的是,本领域技术人员应当理解,在实际应用中,概括和记录特征的语言可以是中文、英语、日语、俄语等,文本语言的不同在此不作为对本发明的限定。
具体地,在模型的训练过程中,随机选取一张图片,统计该图中所有目标并随机选取每个目标对应的标签,使用ChatGPT、文心一言等生成式语言模型生成文本段落描述。所生成的文本描述和图片作为训练模型的输入数据,如图4所示。在模型的推理过程中,图像和文本描述均由用户输入。
更进一步地,使用构建得到的开放世界果实检测数据集对开放世界果实检测模型进行训练具体为:将构建得到的开放世界果实检测数据集分为训练集数据和验证集数据,利用训练集数据对开放世界果实检测模型进行训练,并利用验证集数据进行验证(图4为本发明实施例由开放世界果实检测数据集生成训练数据的示意图)。
作为其中一种优选实现方式,在模型训练过程中,本实施例的数据解码器通过DBSCAN (Density-Based Spatial Clustering of Applications with Noise,DBSCAN)聚类算法,合并位置相近的各个预测框,统计这些预测框的类别标题文本的特征向量,计算这些特征向量带有距离权重的均值,随后将简化的预测框和对应的类别标题的文本特征向量送入损失计算过程;在实际检测过程中,本实施例的数据解码器根据预先设定好的阈值,筛选高于阈值的所有预测结果,将预测框和对应的类别标题的文本特征向量送入推理结果展示过程。
本发明实施例中,优选为采用如下损失函数计算训练损失,计算公式为:
其中,B表示训练过程中输入模型的图像数据的批大小,Loss cls表示类别相似度损失,t Pred表示模型预测的最高概率的类别标题的词嵌入向量,t GT表示数据集中正确的类别标题,cos表示计算词嵌入向量间的余弦相似度。此外,Loss box表示现有的目标检测模型的边框损失,Loss sim表示使用MSELoss计算文本-深度-图像匹配矩阵和深度-图像匹配矩阵的相似度,Loss img表示使用CLIP模型的Loss函数计算深度估计特征向量和图像特征向量的匹配度损失,Loss txt表示使用CLIP模型的Loss函数计算文本特征向量和第一过程多模态特征向量M1的匹配度损失。
需要说明的是,在训练过程中,记录每一次迭代训练后验证集的损失值变化。若损失值持续低于设定的阈值α’,证明开放世界果实检测模型达到理想状态,若损失值降至较低值后开始回升,证明开放世界果实检测模型发生过拟合,微调参数后重新进行训练。本发明实施例中上述阈值α’优选为0.04。
作为本发明实施例的更进一步的改进,通过插值法计算平均准确率(AveragePrecision),得到平均准确率最高的开放世界果实检测模型。平均准确率是计算P-R曲线下的面积,用于衡量准确率(Precision)和召回率(Recall)之间的判断标准,本实施例中,平均准确率的计算公式为:
其中,AP表示平均准确率,p表示准确率,r表示召回率。本实施例中,采用平均准确率作为评估指标,输入开放世界果实检测数据集,评估开放世界果实检测模型的性能,设置一阈值β’,若开放世界果实检测模型的平均准确率小于该阈值,优化关键超参数,重新输入数据进行训练,待开放世界果实检测模型的平均准确率大于上述设定的阈值β’,得到最终的开放世界果实检测模型。
上述关键超参数包括优化器选择、学习率调整函数、模型训练迭代次数、初始学习率、数据增强比例、动量因子和输入图像大小。本实施例中进一步优选为,优化器为Adam优化器,学习率调整函数为余弦退火函数,模型训练迭代次数为200次,初始学习率为0.01,数据增强比例为0.9,动量因子为0.937,输入图像大小为640x640像素。
在测试过程中,记录在交并比IoU设置为0.5的条件下,开放世界果实检测模型在开放世界果实检测数据集上的平均准确率AP。阈值β’的取值由多次训练开放世界果实检测模型进行确定,初值为0.5,随后每次训练的取值为往次开放世界果实检测模块的平均准确率的最高值,直至连续10次训练开放世界果实检测模块的平均准确率均接近阈值β’但无法超越,则取往次开放世界果实检测模块中平均准确率达到最高值的模型作为最终训练好的开放世界果实检测模型。
本发明实施例还提供了上述开放世界果实检测模型的构建装置,包括:
数据构建模块,用于基于多来源采集的果实图像数据,构建开放世界果实检测数据集(如图3所示);
开放世界果实检测模型训练模块,用于基于构建的开放世界果实检测数据集对开放世界果实检测模型进行训练,该检测模型采用本发明上述实施例的任一检测模型。
本发明实施例还提供了一种开放世界果实的检测模块,包括上述实施例的任一开放世界果实检测模型和数据解码器,在模型训练过程中,数据解码器用于通过DBSCAN(Density-Based Spatial Clustering of Applications with Noise,DBSCAN)聚类算法,合并位置相近的各个预测框,统计这些预测框的类别标题文本的特征向量,计算这些特征向量带有距离权重的均值,随后将简化的预测框和对应的类别标题的文本特征向量送入损失计算过程;在实际检测过程中,数据解码器根据预先设定好的阈值,筛选高于阈值的所有预测结果,将预测框和对应的类别标题的文本特征向量送入推理结果展示过程。
本发明实施例还提供了一种开放世界果实的检测方法,将待检测果实的文本和图像数据输入上述任一开放世界果实检测模型,即得到预测结果,并在数据解码器中对预测结果进行处理,最终得到目标果实的位置和类别信息。
本发明实施例提供的开放世界果实检测模型和方法,提供了全面地、有逻辑性地使用图像和文本概括和记录果实的普遍特征的方式,克服了传统检测方法泛化能力不佳、检测类别有限的问题,实现高泛化性的果实检测和分类,并可通过零样本或小样本微调实现多样的下游任务,为农业领域的通用检测算法提供了可行方案。
此外,本实施例还提供了一种开放世界果实检测装置,该检测装置为一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,处理器执行上述程序时能够实现如本发明实施例所述的开放世界果实的检测方法。
需要说明的是,上述计算机设备可以是可以执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。本实施例的计算机设备至少包括但不限于:可通过系统总线相互通信连接的存储器、处理器。存储器(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。存储器可以是计算机设备的内部存储单元,例如该计算机设备的硬盘或内存,也可以是计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中,存储器通常用于存储安装于计算机设备的操作系统和各类应用软件等。此外,存储器还可以用于暂时地存储已经输出或者将要输出的各类数据。处理器在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片,该处理器通常用于控制计算机设备的总体操作,在本实施例中,处理器用于运行存储器中存储的程序代码或者处理数据。
本发明实施例还提供了一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现如本发明实施例所述的开放世界果实的检测方法。
Claims (8)
1.一种开放世界果实检测模型构建方法,其特征在于,包括:
以多来源采集的果实图像数据构建开放世界果实检测数据集;
使用构建得到的开放世界果实检测数据集训练开放世界果实检测模型,得到训练好的果实检测模型;所述开放世界果实检测模型包括:
文本编码模块,用于生成输入文本的文本特征向量;
图像编码模块,用于生成输入图像的图像特征向量;
图文特征融合模块,用于多层融合和交互文本特征和图像特征,生成融合后的图像特征向量和融合后的文本特征向量;
深度估计模块,用于生成输入图像的深度估计特征向量;
目标检测头,用于利用深度估计特征向量为融合后的图像特征向量提供空间特征,利用融合后的文本特征向量指导具有空间特征的图像特征向量生成目标检测查询向量,利用文本特征和预测结果生成各个预测位置的类别标签;具体的,所述目标检测头的处理过程如下:
将输入的深度估计特征向量和图像特征向量分别进行线性映射并相乘,得到深度-图像匹配矩阵;
将深度估计特征向量和图像特征向量分别进行线性映射并拼接,作为输入Transformer Encoder的K向量,将图像特征向量进行线性映射,作为输入TransformerEncoder的V向量,将深度-图像匹配矩阵作为输入Transformer Encoder的Q向量,计算得到融合深度信息的第一过程多模态特征向量M1;
将文本特征向量和第一过程多模态特征向量M1分别进行线性映射并相乘,得到文本-深度-图像匹配矩阵;
将文本-深度-图像匹配矩阵作为输入另一个Transformer Encoder的Q向量,将输入的图像特征向量分别进行两个独立的线性映射,作为输入另一个Transformer Encoder的K和V向量,计算得到第二过程多模态特征向量M2;
将文本-深度-图像匹配矩阵作为输入另一个Transformer Encoder的Q向量,将第二过程多模态特征向量M2分别进行两个独立的线性映射,作为输入另一个TransformerEncoder的K和V向量,计算得到第三过程多模态特征向量M3;
将第三过程多模态特征向量M3进行线性映射,并与该向量维度、大小相同,初值为1的可学习查询向量元素级相乘,作为输入Transformer Decoder的Q向量,将第二过程多模态特征向量M2进行线性映射,作为Transformer Decoder的K向量,将输入的图像特征向量进行线性映射,作为Transformer Decoder的V向量,计算得到第四过程多模态特征向量M4;
将第四过程多模态特征向量M4分别进行三个独立的线性映射,作为Q、K和V向量,输入另一个Transformer Decoder,重复N-1次,计算得到第五过程多模态特征向量M5;
将第五过程多模态特征向量M5输入Transformer FFN模块,计算得到开放世界果实检测模型的预测结果O;
将输入的文本特征向量和预测结果O分别进行线性映射并相乘,即得到文本-预测匹配矩阵。
2.根据权利要求1所述的开放世界果实检测模型构建方法,其特征在于,所述图文特征融合模块采用如下融合公式:
;其中,T in表示文本编码模块生成的文本特征向量,P in表示图像编码模块生成的图像特征向量,t表示文本特征处理函数,p表示图像特征处理函数,t n表示第n个文本特征处理函数,p n表示第n个图像特征处理函数,T n表示经t n处理后得到的文本特征向量,P n表示经p n处理后得到的图像特征向量。
3.根据权利要求1所述的开放世界果实检测模型构建方法,其特征在于,所述文本编码模块用于:
将输入数据分别送入轻量化MobileCLIP和ALBert模型,分别得到基于输入文本的词嵌入向量E1、E2;
将词嵌入向量E1、E2按位相乘,得到过程词嵌入向量E3;
将词嵌入向量E1、E2、E3在同一维度拼接,随后分别从第零、第一位开始,间隔一位取样,并使用两个多层感知器进行映射,分别得到过程词嵌入向量E4、E5、E6和E7、E8、E9;
将过程词嵌入向量E1、E2、E3作为V,过程词嵌入向量E4、E5、E6作为K,过程词嵌入向量E7、E8、E9作为Q,送入Transformer进行计算,得到过程词嵌入向量E10;
使用平均池化对过程词嵌入向量E10进行降维作为Q,将词嵌入向量E1作为V,将词嵌入向量E2作为K,送入Transformer进行计算,得到最终输出的词嵌入向量。
4.根据权利要求1所述的开放世界果实检测模型构建方法,其特征在于,所述图像编码模块用于:
将输入图像编码模块的RGB图像拆分为R通道特征、G通道特征和B通道特征,分别通过L-L模块后,再各自与输入的R通道特征、G通道特征、B通道特征进行拼接,并分别使用GeLU激活函数处理,得到第一、第二、第三特征向量F1、F2、F3;
将第一、第二、第三特征向量F1、F2、F3进行两两组合,各自分别经过一个CBS模块,拼接后通过L-L模块处理,得到第四特征向量F4;
将第四特征向量F4依次通过四个LBS模块,得到第五、第六、第七、第八特征向量F5、F6、F7、F8;
将第五特征向量F5按照可训练参数α的比率缩放,调整向量大小和维度与第四特征向量F4相同,并与第四特征向量F4相加,得到第九特征向量F9;
重复上述步骤,计算获得特征向量F10、F11、F12,其中,F10由F9+β×F6经CBS模块处理后得到,F11由F10+γ×F7经CBS模块处理后得到,F12由F9+η×F8经CBS模块处理后得到,β、γ、η均为可训练参数;
拼接特征向量F8、F9、F10、F11、F12,通过一个CBS模块处理后即得到图像编码模块最终输出的图像特征向量;
其中,LBS模块为使用线性映射、层归一化以及Hardswish激活函数构建得到,CBS模块为使用二维卷积、批归一化以及SiLU激活函数构建得到,L-L模块为使用两个线性映射、一个矩阵点积操作构建得到。
5.根据权利要求1所述的开放世界果实检测模型构建方法,其特征在于,构建开放世界果实检测数据集时采集的果实图像数据包含但不限于真实世界果实图像数据、算法生成的果实图像数据及简单场景果实图像数据,并对获得的果实图像数据进行数据清洗操作,以清理去除重复、无效的果实图像数据,最终对数据集内的数据进行标注;将构建得到的开放世界果实检测数据集分为训练集数据和验证集数据,利用训练集数据对开放世界果实检测模型进行训练,并利用验证集数据进行验证。
6.根据权利要求1所述的开放世界果实检测模型构建方法,其特征在于,在模型训练过程中,数据解码器通过基于密度的聚类算法,合并位置相近的各个预测框,统计这些预测框的类别标签文本的特征向量,计算这些特征向量带有距离权重的均值,随后将简化的预测框和对应的类别标签的文本特征向量送入损失计算过程;
在实际检测过程中,数据解码器根据预先设定好的阈值,筛选高于阈值的所有预测结果,将预测框和对应的类别标签的文本特征向量送入推理结果展示过程;
训练所述开放世界果实检测模型的损失函数为:
;其中,B表示训练过程中输入模型的图像数据的批大小,Loss cls表示类别相似度损失,t Pred表示模型预测的最高概率的类别标签的词嵌入向量,t GT表示数据集中正确的类别标签,cos表示计算词嵌入向量间的余弦相似度;Loss box表示现有的目标检测模型的边框损失,Loss sim表示使用MSELoss计算文本-深度-图像匹配矩阵和深度-图像匹配矩阵的相似度,Loss img表示使用CLIP模型的Loss函数计算深度估计特征向量和图像特征向量的匹配度损失,Loss txt表示使用CLIP模型的Loss函数计算文本特征向量和第一过程多模态特征向量M1的匹配度损失。
7.一种开放世界果实检测方法,其特征在于,将待检测果实的文本和图像数据输入采用权利要求1-6中任一项所述方法构建得到的开放世界果实检测模型,即得到预测结果,并在数据解码器中对预测结果进行处理,最终得到目标果实的位置和类别信息。
8.一种电子设备,包括存储器和处理器,存储器上存储有计算机程序,其特征在于,所述处理器调用上述计算机程序时能够实现权利要求7所述的果实检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410431523.5A CN118038451B (zh) | 2024-04-11 | 2024-04-11 | 开放世界果实检测模型构建方法、检测方法及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410431523.5A CN118038451B (zh) | 2024-04-11 | 2024-04-11 | 开放世界果实检测模型构建方法、检测方法及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN118038451A CN118038451A (zh) | 2024-05-14 |
CN118038451B true CN118038451B (zh) | 2024-06-21 |
Family
ID=90989667
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410431523.5A Active CN118038451B (zh) | 2024-04-11 | 2024-04-11 | 开放世界果实检测模型构建方法、检测方法及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118038451B (zh) |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114663814B (zh) * | 2022-03-28 | 2024-08-23 | 安徽农业大学 | 一种基于机器视觉的果实检测及产量估计方法及系统 |
US20230394306A1 (en) * | 2022-06-02 | 2023-12-07 | Google Llc | Multi-Modal Machine Learning Models with Improved Computational Efficiency Via Adaptive Tokenization and Fusion |
WO2024006340A1 (en) * | 2022-06-28 | 2024-01-04 | Google Llc | Open-vocabulary object detection based on frozen vision and language models |
CN115641577A (zh) * | 2022-10-31 | 2023-01-24 | 安徽农业大学 | 一种基于改进YOLOv5网络的果实识别方法 |
CN115797706B (zh) * | 2023-01-30 | 2023-07-14 | 粤港澳大湾区数字经济研究院(福田) | 目标检测方法、目标检测模型训练方法及相关装置 |
CN116805389A (zh) * | 2023-06-16 | 2023-09-26 | 北京邮电大学 | 一种基于解耦级联区域生成网络的开放世界目标检测方法 |
CN116682049A (zh) * | 2023-06-19 | 2023-09-01 | 合肥中聚源智能科技有限公司 | 一种基于注意力机制的多模态注视目标估计方法 |
CN117095153A (zh) * | 2023-08-15 | 2023-11-21 | 安徽农业大学 | 一种多模态果实感知系统、装置及存储介质 |
CN117131222A (zh) * | 2023-08-28 | 2023-11-28 | 中国南方电网有限责任公司超高压输电公司电力科研院 | 基于开放世界大模型的半自动化标注方法和装置 |
CN117437461A (zh) * | 2023-10-13 | 2024-01-23 | 桂林电子科技大学 | 一种面向开放世界的图像描述生成方法 |
-
2024
- 2024-04-11 CN CN202410431523.5A patent/CN118038451B/zh active Active
Non-Patent Citations (2)
Title |
---|
Multi-Class on-Tree Peach Detection Using Improved YOLOv5s and Multi-Modal Images;LUO Qing 等;Smart Agriculture;20221231;第4卷(第4期);第84-104页 * |
Open-Fusion:Real-time Open-Vocabulary 3D Mapping and Queryable Scene Representation;Kashu Yamazaki 等;arXiv;20231005;第1-7页 * |
Also Published As
Publication number | Publication date |
---|---|
CN118038451A (zh) | 2024-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110866140B (zh) | 图像特征提取模型训练方法、图像搜索方法及计算机设备 | |
CN109711463B (zh) | 基于注意力的重要对象检测方法 | |
US10635949B2 (en) | Latent embeddings for word images and their semantics | |
CN109598231A (zh) | 一种视频水印的识别方法、装置、设备及存储介质 | |
CN111738169B (zh) | 一种基于端对端网络模型的手写公式识别方法 | |
CN110533041B (zh) | 基于回归的多尺度场景文本检测方法 | |
CN110689021A (zh) | 一种基于深度学习的低可见度环境下实时目标检测方法 | |
CN114973222B (zh) | 基于显式监督注意力机制的场景文本识别方法 | |
CN115443490A (zh) | 影像审核方法及装置、设备、存储介质 | |
Wang et al. | Multiscale deep alternative neural network for large-scale video classification | |
CN113159023A (zh) | 基于显式监督注意力机制的场景文本识别方法 | |
CN111182364B (zh) | 一种短视频版权检测方法及系统 | |
US20170185870A1 (en) | Method of image processing | |
CN110942471A (zh) | 一种基于时空约束的长时目标跟踪方法 | |
Zhong et al. | Improved localization accuracy by locnet for faster r-cnn based text detection | |
Zhang et al. | Recognition of bird nests on power transmission lines in aerial images based on improved YOLOv4 | |
Biswas et al. | Domain adaptation with contrastive learning for object detection in satellite imagery | |
CN111709442A (zh) | 一种面向图像分类任务的多层字典学习方法 | |
Khan et al. | Drone-HAT: Hybrid Attention Transformer for Complex Action Recognition in Drone Surveillance Videos | |
CN111242114B (zh) | 文字识别方法及装置 | |
Liu et al. | YOLC: You Only Look Clusters for Tiny Object Detection in Aerial Images | |
CN118038451B (zh) | 开放世界果实检测模型构建方法、检测方法及电子设备 | |
Sharma et al. | Performance Analysis of Object Detection Algorithms on YouTube Video Object Dataset. | |
CN113313091B (zh) | 仓储物流下的基于多重注意力和拓扑约束的密度估计方法 | |
CN115063831A (zh) | 一种高性能行人检索与重识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |