CN118038451B

CN118038451B - 开放世界果实检测模型构建方法、检测方法及电子设备

Info

Publication number: CN118038451B
Application number: CN202410431523.5A
Authority: CN
Inventors: 陈文骏; 饶元; 王坦; 崔文礼; 侯文慧; 金�秀; 江丹; 江朝晖; 张武; 李绍稳; 张雨
Original assignee: Anhui Agricultural University AHAU
Current assignee: Anhui Agricultural University AHAU
Priority date: 2024-04-11
Filing date: 2024-04-11
Publication date: 2024-06-21
Anticipated expiration: 2044-04-11
Also published as: CN118038451A

Abstract

本发明公开了一种开放世界果实检测模型构建方法、检测方法及电子设备，属于计算机视觉和自然语言处理技术领域。本发明构建所得检测模型包括：文本编码模块，用于生成输入文本的文本特征向量；图像编码模块，用于生成输入图像的图像特征向量；图文特征融合模块，用于多层融合和交互文本特征和图像特征，生成融合后的图像特征向量和文本特征向量；深度估计模块，用于生成输入图像的深度估计特征；目标检测头，用于进一步融合和提取所得的融合后的图像特征向量、文本特征向量和深度估计特征，得到预测结果。本发明结合图像、深度估计算法和开放文本，实现了未见类别的果实检测和定位。

Description

开放世界果实检测模型构建方法、检测方法及电子设备

技术领域

本发明属于计算机视觉和自然语言处理技术领域，更具体地说，涉及一种开放世界果实检测模型构建方法、检测方法及电子设备。

背景技术

果实目标识别与定位是计算机视觉的两个核心任务，旨在通过计算机算法和技术来自动识别和检测不同类型的果蔬。随着人工智能技术的快速发展，使用深度学习的方法来检测和分类果实已经成为可能。例如，Taiheng Zeng等、H. Gan等、Shih-Yu Chen等在《Computers and Electronics in Agriculture》上发表的轻量级番茄实时检测方法（ZENGT, LI S, SONG Q, et al. Lightweight tomato real-time detection method basedon improved YOLO and mobile deployment[J/OL]. Computers and Electronics inAgriculture, 2023, 205: 107625[2024-04-09]. DOI:10.1016/j.compag.2023.107625.）、未成熟的绿色柑橘果实检测方法（GAN H, LEE W S,ALCHANATIS V, et al. Immature green citrus fruit detection using color andthermal images[J/OL]. Computers and Electronics in Agriculture, 2018, 152:117-125[2024-04-09]. DOI:10.1016/j.compag.2018.07.011.）、生咖啡豆实时缺陷检测方法（CHEN S Y, CHIU M F, ZOU X W. Real-time defect inspection of green coffeebeans using NIR snapshot hyperspectral imaging[J/OL]. Computers andElectronics in Agriculture, 2022, 197: 106970[2024-04-09]. DOI:10.1016/j.compag.2022.106970.）。

当前的果实检测模型通常局限于一小组固定的语义类别。例如，在通用的果实检测任务中，使用番茄、苹果等数据集训练的果实检测模型无法检测梨子、香蕉等模型训练过程中未曾涉及的新目标；另一方面，在同一果实的检测任务中，使用现有数据集训练的果实检测模型难以检测未见新场景下的果实目标。构建覆盖所有环境、果实等复杂场景的数据集所需的采集和训练成本往往昂贵且不现实。

在通用计算机视觉领域，已有相关研究尝试解决这一问题。例如，AlirezaZareian等在CVPR 2021会议上发表的《Open-Vocabulary Object Detection UsingCaptions》（Proceedings of the IEEE/CVF Conference on Computer Vision andPattern Recognition (CVPR). Seattle Convention Center, Seattle WA, UnitedStates, 2021[2024-04-09]. DOI:10.48550/arXiv.2011.10678.），提出了使用图像-文本对的目标检测方法，能够检测和定位在训练期间没有提供过标注的物体；Xiaoshi Wu等在CVPR 2023会议上发表的《CORA: Adapting CLIP for Open-Vocabulary Detection withRegion Prompting and Anchor Pre-Matching》（Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition (CVPR). SeattleConvention Center, Seattle WA, United States, 2023[2024-04-09]. DOI:10.48550/arXiv.2303.13076.），通过类感知的匹配机制，进一步提高了模型学习可泛化的目标定位；Chi Xie等在NeurIPS 2023会议上发表的《Exposing the Troublemakers in DescribedObject Detection》（Thirty-seventh Conference on Neural Information ProcessingSystems. New Orleans, Louisiana, United States, 2023[2024-04-09]. https://arxiv.org/abs/2307.12813v1.），进一步克服了开放词汇目标检测的缺陷，提出了描述目标检测概念。然而，有关描述目标检测和开放词汇目标检测的研究仍处于起步阶段，且用于支撑研究的相关数据集也仅适用于通用计算机视觉领域的目标检测任务中，在特定的研究领域中不具有数据丰富性和专业性。

综上，现有技术中实现开放世界果实检测的难点包括：（1）如何构建具有丰富语义特征的开放世界果实检测数据集；（2）如何实现模型对未见类别果实的检测和识别能力；（3）如何高效提取和融合图像-文本对中的语义特征；（4）如何实现特定任务零样本应用或少样本微调的通用果实检测模型；（5）如何高效训练开放世界果实检测模型。

发明内容

1.要解决的技术问题

针对现有果实检测模型存在的泛化能力不佳、检测类别有限、农业领域专业词汇理解能力不佳的问题，本发明提供了一种开放世界果实检测模型构建方法、检测方法及电子设备。本发明结合图像和文本输入，利用深度估计算法匹配文本、深度和图像特征，实现了开放世界果实检测模块的描述检测和定位能力，并可通过零样本或小样本微调实现多样的下游任务。

2.技术方案

为了实现上述目的，本发明提供了一种开放世界果实检测模型构建方法，包括：

以多来源采集的果实图像数据构建开放世界果实检测数据集；

使用构建得到的开放世界果实检测数据集训练开放世界果实检测模型，得到训练好的果实检测模型；所述开放世界果实检测模型包括：

文本编码模块，用于生成输入文本的文本特征向量；

图像编码模块，用于生成输入图像的图像特征向量；

图文特征融合模块，用于多层融合和交互文本特征和图像特征，生成融合后的图像特征向量和文本特征向量；

深度估计模块，用于生成输入图像的深度估计特征；

目标检测头，用于利用深度估计特征向量为融合后的图像特征向量提供空间特征，利用融合后的文本特征指导具有空间特征的图像特征向量生成目标检测查询向量，利用文本特征和预测结果生成各个预测位置的类别标题。

作为本发明更进一步的改进，所述目标检测头用于：

将输入的深度估计特征向量和图像特征向量分别进行线性映射并相乘，得到深度-图像匹配矩阵；

将深度估计特征向量和图像特征向量分别进行线性映射并拼接，作为输入Transformer Encoder的K向量，将图像特征向量进行线性映射，作为输入TransformerEncoder的V向量，将深度-图像匹配矩阵作为输入Transformer Encoder的Q向量，计算得到融合深度信息的第一过程多模态特征向量M₁；

将文本特征向量和第一过程多模态特征向量M₁分别进行线性映射并相乘，得到文本-深度-图像匹配矩阵；

将文本-深度-图像匹配矩阵作为输入另一个Transformer Encoder的Q向量，将输入的图像特征向量分别进行两个独立的线性映射，作为输入另一个Transformer Encoder的K和V向量，计算得到第二过程多模态特征向量M₂；

将文本-深度-图像匹配矩阵作为输入另一个Transformer Encoder的Q向量，将第二过程多模态特征向量M₂分别进行两个独立的线性映射，作为输入另一个TransformerEncoder的K和V向量，计算得到第三过程多模态特征向量M₃；

将第三过程多模态特征向量M₃进行线性映射，并与该向量维度、大小相同，初值为1的可学习查询向量元素级相乘，作为输入Transformer Decoder的Q向量，将第二过程多模态特征向量M₂进行线性映射，作为Transformer Decoder的K向量，将输入的图像特征向量进行线性映射，作为Transformer Decoder的V向量，计算得到第四过程多模态特征向量M₄；

将第四过程多模态特征向量M₄分别进行三个独立的线性映射，作为Q、K和V向量，输入另一个Transformer Decoder，重复N-1次，计算得到第五过程多模态特征向量M₅；

将第五过程多模态特征向量M₅输入Transformer FFN模块，计算得到开放世界果实检测模型的预测结果O；

将输入的文本特征向量和预测结果O分别进行线性映射并相乘，得到文本-预测匹配矩阵。

作为本发明更进一步的改进，所述图文特征融合模块采用如下融合公式：

其中，T _in表示文本编码模块生成的文本特征向量，P _in表示图像编码模块生成的图像特征向量，t表示文本特征处理函数，p表示图像特征处理函数，t _n表示第n个文本特征处理函数，p _n表示第n个图像特征处理函数，T _n表示经t _n处理后得到的文本特征向量，P _n表示经p _n处理后得到的图像特征向量，T _n、P _n为图文特征融合模块最终输出的文本特征向量和图像特征向量。

作为本发明更进一步的改进，所述文本编码模块用于：

将输入数据分别送入轻量化MobileCLIP和ALBert模型，分别得到基于输入文本的词嵌入向量E₁、E₂；

将词嵌入向量E₁、E₂按位相乘，得到过程词嵌入向量E₃；

将词嵌入向量E₁、E₂、E₃在同一维度拼接，随后分别从第零、第一位开始，间隔一位取样，并使用两个多层感知器进行映射，分别得到过程词嵌入向量E₄、E₅、E₆和E₇、E₈、E₉；

将过程词嵌入向量E₁、E₂、E₃作为V，过程词嵌入向量E₄、E₅、E₆作为K，过程词嵌入向量E₇、E₈、E₉作为Q，送入Transformer进行计算，得到过程词嵌入向量E₁₀；

使用平均池化对过程词嵌入向量E₁₀进行降维作为Q，将词嵌入向量E₁作为V，将词嵌入向量E₂作为K，送入Transformer进行计算，得到最终输出的词嵌入向量。

作为本发明更进一步的改进，所述图像编码模块用于：

将输入图像编码模块的RGB图像拆分为R通道特征、G通道特征、B通道特征，分别通过L-L模块后，再各自与输入的R通道特征、G通道特征、B通道特征进行拼接，并分别使用GeLU激活函数处理，得到第一、第二、第三特征向量F₁、F₂、F₃；

将第一、第二、第三特征向量F₁、F₂、F₃进行两两组合，各自分别经过一个CBS模块，拼接后通过L-L模块处理，得到第四特征向量F₄；

将第四特征向量F₄依次通过四个LBS模块，得到第五、第六、第七、第八特征向量F₅、F₆、F₇、F₈；

将第五特征向量F₅按照可训练参数α的比率缩放，调整向量大小和维度与第四特征向量F₄相同，并与第四特征向量F₄相加，得到第九特征向量F₉；

重复上述步骤，计算获得特征向量F₁₀、F₁₁、F₁₂，其中，F₁₀由F₉+β×F₆经CBS模块处理后得到，F₁₁由F₁₀+γ×F₇经CBS模块处理后得到，F₁₂由F₉+η×F₈经CBS模块处理后得到，β、γ、η均为可训练参数；

拼接特征向量F₈、F₉、F₁₀、F₁₁、F₁₂，通过一个CBS模块处理后即得到图像编码模块最终输出的图像特征向量；

其中，LBS模块为使用线性映射、层归一化以及Hardswish激活函数构建得到，CBS模块为使用二维卷积、批归一化以及SiLU激活函数构建得到，L-L模块为使用两个线性映射、一个矩阵点积操作构建得到。

作为本发明更进一步的改进，构建开放世界果实检测数据集时采集的果实图像数据包含但不限于真实世界果实图像数据、算法生成的果实图像数据及简单场景果实图像数据，并对获得的果实图像数据进行数据清洗操作，以清理去除重复、无效的果实图像数据，最终对数据集内的数据进行标注；将构建得到的开放世界果实检测数据集分为训练集数据和验证集数据，利用训练集数据对开放世界果实检测模型进行训练，并利用验证集数据进行验证。

作为本发明更进一步的改进，在模型训练过程中，数据解码器通过基于密度的聚类算法，合并位置相近的各个预测框，统计这些预测框的类别标题文本的特征向量，计算这些特征向量带有距离权重的均值，随后将简化的预测框和对应的类别标题的文本特征向量送入损失计算过程；

在实际检测过程中，数据解码器根据预先设定好的阈值，筛选高于阈值的所有预测结果，将预测框和对应的类别标题的文本特征向量送入推理结果展示过程；

训练所述开放世界果实检测模型的损失函数为：

其中，B表示训练过程中输入模型的图像数据的批大小，Loss _cls表示类别相似度损失，t _Pred表示模型预测的最高概率的类别标题的词嵌入向量，t _GT表示数据集中正确的类别标题，cos表示计算词嵌入向量间的余弦相似度；Loss _box表示现有的目标检测模型的边框损失，Loss _sim表示使用MSELoss计算文本-深度-图像匹配矩阵和深度-图像匹配矩阵的相似度，Loss _img表示使用CLIP模型的Loss函数计算深度估计特征向量和图像特征向量的匹配度损失，Loss _txt表示使用CLIP模型的Loss函数计算文本特征向量和第一过程多模态特征向量M₁的匹配度损失。

本发明还提供了一种开放世界果实检测方法，将待检测果实的文本和图像数据输入本发明构建得到的开放世界果实检测模型，即得到预测结果，并在数据解码器中对预测结果进行处理，最终得到目标果实的位置和类别信息。

本发明还提供了一种电子设备，包括存储器和处理器，存储器上存储有计算机程序，所述处理器调用上述计算机程序时能够实现本发明的果实检测方法。

本发明还提供了一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器调用时能够实现本发明的果实检测方法。

3.有益效果

相比于现有技术，本发明的优点在于：

（1）本发明通过结合文本和图像，利用深度估计算法匹配文本、深度、图像特征进行果实检测，能够使开放世界果实检测系统在训练数据中未见的各类真实复杂场景下实现描述检测和定位能力。

（2）本发明通过图文特征融合模块和目标检测头，能够实现图像和文本信息的高效融合，并使用深度估计模型的骨干结构将深度信息融入图像特征，具有良好的图像文本对的空间理解和表征能力。

（3）本发明的文本编码模块，结合MobileCLIP和ALBert模型，将所输出文本特征信息进一步融合，有效利用了信息互补的优势，缓解了轻量化自然语言模型的性能缺陷，在保持算法轻量化的同时提高了所提取文本特征的有效性。

（4）本发明通过图像编码模块，利用全连接网络具有的全局感受野特性，为基于卷积的图像编码模块的主体结构提供全局感知能力，能够轻量、高效地提取图像特征，以便进行后续的特征融合。

（5）本发明通过构建开放世界果实检测数据集，使用图像和文本概括和记录果实的细粒度特征，克服通用计算机视觉领域中现有数据集的专业性和丰富性不充足、所生成的描述检测定位文本不精确的问题，有益于提高开放世界果实检测系统的专业词汇理解能力；在构建开放世界果实检测数据集的过程中，通过对关键词的组合、处理、同义词替换等方式，克服了现有图像生成技术中相似提示语导致的生成图像大量相似问题。

（6）本发明所提及的开放世界果实检测模型的训练过程中，数据解码器通过基于密度的聚类算法，合并位置相近的各个预测框，将简化的预测框和对应的类别标题的文本特征向量送入损失计算过程，克服了现有描述目标检测技术中逐目标计算位置和类别损失造成的训练效率不足问题。

（7）基于病害识别、果实分割、采摘点检测等下游任务，本发明能够在零样本或仅需小样本微调的情况下实现任务迁移，有效减少了下游任务的数据需求。

附图说明

图1为本发明的开放世界果实检测系统结构图；

图2为本发明实施例采集的真实世界、简单场景和算法生成的代表性果实图像示意图；

图3为本发明实施例的数据构建模块的示意图；

图4为本发明实施例由开放世界果实检测数据集生成训练数据的示意图；

图5为本发明实施例的文本编码模块的结构示意图；

图6为本发明实施例的图像编码模块的结构示意图；

图7为本发明实施例的图文特征融合模块的结构示意图；

图8为本发明实施例的词嵌入向量处理函数t的结构；

图9为本发明实施例的图像特征处理函数p的结构；

图10为本发明实施例的目标检测头的结构示意图。

具体实施方式

针对现有果实检测技术中数据集类别有限、泛化能力较弱、农业领域专业词汇理解能力不佳等问题，本发明结合图像、深度估计算法和开放文本，实现了未见类别的果实检测和定位。具体地，通过构建开放世界果实检测数据集，使用图像和文本概括和记录果实的细粒度特征，支撑开放世界果实检测系统的专业词汇理解能力；通过构建开放世界果实检测模块，利用深度估计算法匹配文本、深度、图像特征，高效提取和融合来自图像和文本的特征信息，实现了开放世界果实检测模块的描述检测和定位能力。本发明具有农业领域专业词汇理解能力，并通过深度估计实现语言描述定位的果实检测；对于病害识别、果实分割、采摘点检测等下游任务，本发明仅需零样本或小样本微调即可实现高效的任务迁移。

下面结合说明书附图和具体的实施例，对本发明作详细描述。

本发明实施例提供了一种开放世界果实检测模型（检测系统），包括：

文本编码模块，用于生成输入文本的文本特征向量；

图像编码模块，用于生成输入图像的图像特征向量；

深度估计模块，用于生成输入图像的深度估计特征；

本发明的开放世界果实检测模型由文本编码模块、图像编码模块、图文特征融合模块、深度估计模块和目标检测头组成，将待识别果实的文本数据输入文本编码模块，得到文本特征向量，即第一特征向量；将待识别果实的图像数据输入图像编码模块，得到图像特征向量，即第二特征向量；将第一、第二特征向量输入图文特征融合模块，得到第三、第四特征向量；将图像输入深度估计模块，得到第五特征向量；将第三、第四、第五特征向量输入目标检测头，得到预测结果。本发明利用深度估计算法匹配文本、深度、图像特征进行果实检测，能够使开放世界果实检测系统在训练数据中未见的各类真实复杂场景下实现描述检测和定位能力。

更进一步地，如图10所示，所述目标检测模型头的检测过程优选为包括：

将输入的深度估计特征向量和输入的图像特征向量分别进行线性映射并相乘，得到深度-图像匹配矩阵；

将输入的深度估计特征向量和输入的图像特征向量分别进行线性映射并拼接，作为输入Transformer Encoder的K（Key）向量，将图像特征向量进行线性映射，作为输入Transformer Encoder的V（Value）向量，将深度-图像匹配矩阵作为输入TransformerEncoder的Q（Query）向量，计算得到融合深度信息的第一过程多模态特征向量M₁；

将输入的文本特征向量和第一过程多模态特征向量M₁分别进行线性映射并相乘，得到文本-深度-图像匹配矩阵；

将文本-深度-图像匹配矩阵作为输入另一个Transformer Encoder的Q（Query）向量，将输入的图像特征向量分别进行两个独立的线性映射，作为输入另一个TransformerEncoder的K（Key）和V（Value）向量，计算得到第二过程多模态特征向量M₂；

将文本-深度-图像匹配矩阵作为输入另一个Transformer Encoder的Q（Query）向量，将第二过程多模态特征向量M₂分别进行两个独立的线性映射，作为输入另一个Transformer Encoder的K（Key）和V（Value）向量，计算得到第三过程多模态特征向量M₃；

将第三过程多模态特征向量M₃进行线性映射，并与该向量维度、大小相同，初值为1的可学习查询向量元素级相乘，作为输入Transformer Decoder的Q（Query）向量，将第二过程多模态特征向量M₂进行线性映射，作为Transformer Decoder的K（Key）向量，将输入的图像特征向量进行线性映射，作为Transformer Decoder的V（Value）向量，计算得到第四过程多模态特征向量M₄；

将第四过程多模态特征向量M₄分别进行三个独立的线性映射，作为Q（Query）、K（Key）和V（Value）向量，输入另一个Transformer Decoder，重复N-1次，计算得到第五过程多模态特征向量M₅；

将第五过程多模态特征向量M₅输入Transformer FFN（Feed-Forward Network，FFN）模块，计算得到开放世界果实检测模型的预测结果O；

将输入的文本特征向量和预测结果O分别进行线性映射并相乘，即得到文本-预测匹配矩阵。本发明通过图文特征融合模块和目标检测头，能够实现图像和文本信息的高效融合，并使用深度估计模型的骨干结构将深度信息融入图像特征，具有良好的图像文本对的空间理解和表征能力。

更进一步的，如图5所示，所述文本编码模块用于：

将词嵌入向量E₁、E₂按位相乘，得到过程词嵌入向量E₃；

将过程词嵌入向量E₁、E₂、E₃作为V、过程词嵌入向量E₄、E₅、E₆作为K、过程词嵌入向量E₇、E₈、E₉作为Q，送入Transformer进行计算，得到过程词嵌入向量E₁₀；

使用平均池化对过程词嵌入向量E₁₀进行降维作为Q，将词嵌入向量E₁作为V，将词嵌入向量E₂作为K，送入Transformer进行计算，得到最终输出的文本编码模块最终输出的词嵌入向量。

如图6所示，作为本发明实施例更进一步的改进，所述图像编码模块的工作过程包括：

将输入图像编码模块的RGB图像拆分为R通道特征、G通道特征、B通道特征，分别通过L-L模块后，再各自与输入的R通道特征、G通道特征、B通道特征进行拼接，并分别使用GeLU（Gaussian Error Linear Units，GeLU）激活函数处理，得到第一、第二、第三特征向量F₁、F₂、F₃；

其中，LBS模块为使用线性映射、层归一化以及Hardswish激活函数构建得到，CBS模块为使用二维卷积、批归一化以及SiLU（Sigmoid Linear Unit，SiLU）激活函数构建得到，L-L模块为使用两个线性映射、一个矩阵点积操作构建得到。本发明利用全连接网络具有的全局感受野特性，为基于卷积的图像编码模块的主体结构提供全局感知能力，能够轻量、高效地提取图像特征，以便进行后续的特征融合。

作为本发明实施例更进一步的优选方式，如图7所示，所述图文特征融合模块采用如下公式：

其中，T _in表示输入的文本特征向量，P _in表示输入的图像特征向量，t表示文本特征处理函数，p表示图像特征处理函数，t _n表示第n个文本特征处理函数，p _n表示第n个图像特征处理函数，T _n表示t _n处理后得到的文本特征向量，P _n表示p _n处理后得到的图像特征向量，T _n、P _n为图文特征融合模块最终输出的文本特征向量和图像特征向量。

如图8、图9所示，为提高特征融合效果和计算速度，上述词嵌入向量处理函数t和图像特征处理函数p的计算公式优选为：

其中，X ^txt表示输入的词嵌入向量，X ^img表示输入的图片特征向量，C ¹表示一维卷积，C ²表示二维卷积，L表示线性映射，下标1、2、3、4代表不同参数的一维卷积、二维卷积或线性映射函数，N ₁表示层归一化，N ₂表示批归一化，⊙表示向量矩阵的点积操作，⊕表示向量矩阵的拼接操作。

作为本发明实施例的其中一种实现方式，所述深度估计模块采用DINOv2模型的主体结构，具体的，去除DINOv2模型尾部将深度估计特征向量生成为图片的结构，直接输出深度估计特征向量。需要说明的是，在实际应用中，深度估计模块还可以是其他的用于生成深度估计特征向量的模型，例如P3Depth、BTS等现有技术。

如图1所示，本发明实施例还提供了一种开放世界果实检测模型的构建方法，包括：

使用构建得到的开放世界果实检测数据集训练本发明上述实施例的任一开放世界果实检测模型，得到训练好的果实检测模型。

更进一步的，构建开放世界果实检测数据集时采集的果实图像数据优选为包含但不限于真实世界果实图像数据、算法生成的果实图像数据及简单场景果实图像数据。

对于真实世界果实图像数据，可以采用手机或相机拍摄，且应确保内容多样。具体的，其拍摄的环境包括但不限于不同时间、不同光照、不同天气；拍摄的场景包括但不限于枝叶遮挡、果实重叠、阴影遮挡；拍摄的角度包括但不限于平视、俯视、仰视；果实的品种包括但不限于苹果、香蕉、梨子；果实的位置应随机分布于画面各处，避免经常位于画面中心。

对于简单场景果实图像数据，使用固定关键词“真实”、“果实”和随机关键词，在图像搜索引擎中爬取图像。具体的，图像搜索引擎包括但不限于百度、360、搜狗；随机关键词包括但不限于“苹果”、“香蕉”、“梨子”等品种类关键词，“遮挡”、“重叠”、“阴影”等状态类关键词。

对于算法生成的果实图像数据，采用上述关键词，使用包括但不限于DALL·E、Stable Diffusion等图像生成算法生成包含不同时间、不同光照、不同天气、不同场景、不同角度、不同品种、不同位置等多样的虚拟图像。如图2所示为本实施例中采集的真实世界、简单场景和算法生成的代表性果实图像数据。需要说明的是，本实施例中，手机相机、爬虫程序、图像搜索引擎、DALL·E和Stable Diffusion等图像生成算法为现有技术，此外，采集的图像大小可以不一致。

作为本发明实施例的进一步的改进，对获得的果实图像数据进行数据清洗操作，通过人工清理重复、无效的果实图像数据，并确保来自真实世界、简单场景和算法生成的果实图像数据数量均衡。对剩余的图像重新标号，使用LabelMe工具，遍历果实图像，人工对每个图像中的果实逐个标注目标检测框数据，并为每个目标分配唯一的序号。标注过程中，再次清洗与真实世界相差较大的算法生成图像。再次遍历每个果实目标检测框标注数据，在各个特征类别中，为每个目标检测标注框匹配至少一个文本特征。最后，统计所有目标检测框的相对图像大小，以最小为20x20像素，最大为整个图像大小，使得目标检测框相对大小由小到大近似正态分布，否则再次采集数据；统计所有目标检测框相对画面位置，使得目标检测框均衡分布于所有相对位置，否则再次采集数据。需要说明的是，本发明实施例中，使用LabelMe工具遍历图像并标注果实目标检测框数据为现有技术。

值得注意的是，在各个特征类别中为每个目标检测标注框匹配数据的过程中，特征类别应足够丰富，包含名词或形容词，且能够概括农业领域果实检测的所有复杂场景。具体的，包括但不限于“红色”、“蓝色”等颜色特征；“苹果”、“梨子”等品种特征；“沙沙的”、“脆脆的”等质感特征；“遮挡的”、“重叠的”等状态特征；“距离近的”、“叶片后方的”等位置特征；“成熟的”、“患病的”等品质特征。由此，本发明实施例构建的开放世界果实检测数据集能够有效的通过文本和图像概括农业果实检测场景，提高数据集的泛化性。需要说明的是，本领域技术人员应当理解，在实际应用中，概括和记录特征的语言可以是中文、英语、日语、俄语等，文本语言的不同在此不作为对本发明的限定。

具体地，在模型的训练过程中，随机选取一张图片，统计该图中所有目标并随机选取每个目标对应的标签，使用ChatGPT、文心一言等生成式语言模型生成文本段落描述。所生成的文本描述和图片作为训练模型的输入数据，如图4所示。在模型的推理过程中，图像和文本描述均由用户输入。

更进一步地，使用构建得到的开放世界果实检测数据集对开放世界果实检测模型进行训练具体为：将构建得到的开放世界果实检测数据集分为训练集数据和验证集数据，利用训练集数据对开放世界果实检测模型进行训练，并利用验证集数据进行验证（图4为本发明实施例由开放世界果实检测数据集生成训练数据的示意图）。

作为其中一种优选实现方式，在模型训练过程中，本实施例的数据解码器通过DBSCAN (Density-Based Spatial Clustering of Applications with Noise，DBSCAN)聚类算法，合并位置相近的各个预测框，统计这些预测框的类别标题文本的特征向量，计算这些特征向量带有距离权重的均值，随后将简化的预测框和对应的类别标题的文本特征向量送入损失计算过程；在实际检测过程中，本实施例的数据解码器根据预先设定好的阈值，筛选高于阈值的所有预测结果，将预测框和对应的类别标题的文本特征向量送入推理结果展示过程。

本发明实施例中，优选为采用如下损失函数计算训练损失，计算公式为：

其中，B表示训练过程中输入模型的图像数据的批大小，Loss _cls表示类别相似度损失，t _Pred表示模型预测的最高概率的类别标题的词嵌入向量，t _GT表示数据集中正确的类别标题，cos表示计算词嵌入向量间的余弦相似度。此外，Loss _box表示现有的目标检测模型的边框损失，Loss _sim表示使用MSELoss计算文本-深度-图像匹配矩阵和深度-图像匹配矩阵的相似度，Loss _img表示使用CLIP模型的Loss函数计算深度估计特征向量和图像特征向量的匹配度损失，Loss _txt表示使用CLIP模型的Loss函数计算文本特征向量和第一过程多模态特征向量M₁的匹配度损失。

需要说明的是，在训练过程中，记录每一次迭代训练后验证集的损失值变化。若损失值持续低于设定的阈值α’，证明开放世界果实检测模型达到理想状态，若损失值降至较低值后开始回升，证明开放世界果实检测模型发生过拟合，微调参数后重新进行训练。本发明实施例中上述阈值α’优选为0.04。

作为本发明实施例的更进一步的改进，通过插值法计算平均准确率（AveragePrecision），得到平均准确率最高的开放世界果实检测模型。平均准确率是计算P-R曲线下的面积，用于衡量准确率（Precision）和召回率（Recall）之间的判断标准，本实施例中，平均准确率的计算公式为：

其中，AP表示平均准确率，p表示准确率，r表示召回率。本实施例中，采用平均准确率作为评估指标，输入开放世界果实检测数据集，评估开放世界果实检测模型的性能，设置一阈值β’，若开放世界果实检测模型的平均准确率小于该阈值，优化关键超参数，重新输入数据进行训练，待开放世界果实检测模型的平均准确率大于上述设定的阈值β’，得到最终的开放世界果实检测模型。

上述关键超参数包括优化器选择、学习率调整函数、模型训练迭代次数、初始学习率、数据增强比例、动量因子和输入图像大小。本实施例中进一步优选为，优化器为Adam优化器，学习率调整函数为余弦退火函数，模型训练迭代次数为200次，初始学习率为0.01，数据增强比例为0.9，动量因子为0.937，输入图像大小为640x640像素。

在测试过程中，记录在交并比IoU设置为0.5的条件下，开放世界果实检测模型在开放世界果实检测数据集上的平均准确率AP。阈值β’的取值由多次训练开放世界果实检测模型进行确定，初值为0.5，随后每次训练的取值为往次开放世界果实检测模块的平均准确率的最高值，直至连续10次训练开放世界果实检测模块的平均准确率均接近阈值β’但无法超越，则取往次开放世界果实检测模块中平均准确率达到最高值的模型作为最终训练好的开放世界果实检测模型。

本发明实施例还提供了上述开放世界果实检测模型的构建装置，包括：

数据构建模块，用于基于多来源采集的果实图像数据，构建开放世界果实检测数据集（如图3所示）；

开放世界果实检测模型训练模块，用于基于构建的开放世界果实检测数据集对开放世界果实检测模型进行训练，该检测模型采用本发明上述实施例的任一检测模型。

本发明实施例还提供了一种开放世界果实的检测模块，包括上述实施例的任一开放世界果实检测模型和数据解码器，在模型训练过程中，数据解码器用于通过DBSCAN(Density-Based Spatial Clustering of Applications with Noise，DBSCAN)聚类算法，合并位置相近的各个预测框，统计这些预测框的类别标题文本的特征向量，计算这些特征向量带有距离权重的均值，随后将简化的预测框和对应的类别标题的文本特征向量送入损失计算过程；在实际检测过程中，数据解码器根据预先设定好的阈值，筛选高于阈值的所有预测结果，将预测框和对应的类别标题的文本特征向量送入推理结果展示过程。

本发明实施例还提供了一种开放世界果实的检测方法，将待检测果实的文本和图像数据输入上述任一开放世界果实检测模型，即得到预测结果，并在数据解码器中对预测结果进行处理，最终得到目标果实的位置和类别信息。

本发明实施例提供的开放世界果实检测模型和方法，提供了全面地、有逻辑性地使用图像和文本概括和记录果实的普遍特征的方式，克服了传统检测方法泛化能力不佳、检测类别有限的问题，实现高泛化性的果实检测和分类，并可通过零样本或小样本微调实现多样的下游任务，为农业领域的通用检测算法提供了可行方案。

此外，本实施例还提供了一种开放世界果实检测装置，该检测装置为一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，处理器执行上述程序时能够实现如本发明实施例所述的开放世界果实的检测方法。

需要说明的是，上述计算机设备可以是可以执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器（包括独立的服务器，或者多个服务器所组成的服务器集群）等。本实施例的计算机设备至少包括但不限于：可通过系统总线相互通信连接的存储器、处理器。存储器（即可读存储介质）包括闪存、硬盘、多媒体卡、卡型存储器（例如，SD或DX存储器等）、随机访问存储器（RAM）、静态随机访问存储器（SRAM）、只读存储器（ROM）、电可擦除可编程只读存储器（EEPROM）、可编程只读存储器（PROM）、磁性存储器、磁盘、光盘等。存储器可以是计算机设备的内部存储单元，例如该计算机设备的硬盘或内存，也可以是计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡（Smart Media Card，SMC），安全数字（Secure Digital，SD）卡，闪存卡（Flash Card）等。当然，存储器还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中，存储器通常用于存储安装于计算机设备的操作系统和各类应用软件等。此外，存储器还可以用于暂时地存储已经输出或者将要输出的各类数据。处理器在一些实施例中可以是中央处理器（Central Processing Unit，CPU）、控制器、微控制器、微处理器、或其他数据处理芯片，该处理器通常用于控制计算机设备的总体操作，在本实施例中，处理器用于运行存储器中存储的程序代码或者处理数据。

本发明实施例还提供了一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现如本发明实施例所述的开放世界果实的检测方法。

Claims

1.一种开放世界果实检测模型构建方法，其特征在于，包括：

文本编码模块，用于生成输入文本的文本特征向量；

图像编码模块，用于生成输入图像的图像特征向量；

图文特征融合模块，用于多层融合和交互文本特征和图像特征，生成融合后的图像特征向量和融合后的文本特征向量；

深度估计模块，用于生成输入图像的深度估计特征向量；

目标检测头，用于利用深度估计特征向量为融合后的图像特征向量提供空间特征，利用融合后的文本特征向量指导具有空间特征的图像特征向量生成目标检测查询向量，利用文本特征和预测结果生成各个预测位置的类别标签；具体的，所述目标检测头的处理过程如下：

将输入的文本特征向量和预测结果O分别进行线性映射并相乘，即得到文本-预测匹配矩阵。

2.根据权利要求1所述的开放世界果实检测模型构建方法，其特征在于，所述图文特征融合模块采用如下融合公式：

；其中，T _in表示文本编码模块生成的文本特征向量，P _in表示图像编码模块生成的图像特征向量，t表示文本特征处理函数，p表示图像特征处理函数，t _n表示第n个文本特征处理函数，p _n表示第n个图像特征处理函数，T _n表示经t _n处理后得到的文本特征向量，P _n表示经p _n处理后得到的图像特征向量。

3.根据权利要求1所述的开放世界果实检测模型构建方法，其特征在于，所述文本编码模块用于：

将词嵌入向量E₁、E₂按位相乘，得到过程词嵌入向量E₃；

4.根据权利要求1所述的开放世界果实检测模型构建方法，其特征在于，所述图像编码模块用于：

将输入图像编码模块的RGB图像拆分为R通道特征、G通道特征和B通道特征，分别通过L-L模块后，再各自与输入的R通道特征、G通道特征、B通道特征进行拼接，并分别使用GeLU激活函数处理，得到第一、第二、第三特征向量F₁、F₂、F₃；

5.根据权利要求1所述的开放世界果实检测模型构建方法，其特征在于，构建开放世界果实检测数据集时采集的果实图像数据包含但不限于真实世界果实图像数据、算法生成的果实图像数据及简单场景果实图像数据，并对获得的果实图像数据进行数据清洗操作，以清理去除重复、无效的果实图像数据，最终对数据集内的数据进行标注；将构建得到的开放世界果实检测数据集分为训练集数据和验证集数据，利用训练集数据对开放世界果实检测模型进行训练，并利用验证集数据进行验证。

6.根据权利要求1所述的开放世界果实检测模型构建方法，其特征在于，在模型训练过程中，数据解码器通过基于密度的聚类算法，合并位置相近的各个预测框，统计这些预测框的类别标签文本的特征向量，计算这些特征向量带有距离权重的均值，随后将简化的预测框和对应的类别标签的文本特征向量送入损失计算过程；

在实际检测过程中，数据解码器根据预先设定好的阈值，筛选高于阈值的所有预测结果，将预测框和对应的类别标签的文本特征向量送入推理结果展示过程；

训练所述开放世界果实检测模型的损失函数为：

；其中，B表示训练过程中输入模型的图像数据的批大小，Loss _cls表示类别相似度损失，t _Pred表示模型预测的最高概率的类别标签的词嵌入向量，t _GT表示数据集中正确的类别标签，cos表示计算词嵌入向量间的余弦相似度；Loss _box表示现有的目标检测模型的边框损失，Loss _sim表示使用MSELoss计算文本-深度-图像匹配矩阵和深度-图像匹配矩阵的相似度，Loss _img表示使用CLIP模型的Loss函数计算深度估计特征向量和图像特征向量的匹配度损失，Loss _txt表示使用CLIP模型的Loss函数计算文本特征向量和第一过程多模态特征向量M₁的匹配度损失。

7.一种开放世界果实检测方法，其特征在于，将待检测果实的文本和图像数据输入采用权利要求1-6中任一项所述方法构建得到的开放世界果实检测模型，即得到预测结果，并在数据解码器中对预测结果进行处理，最终得到目标果实的位置和类别信息。

8.一种电子设备，包括存储器和处理器，存储器上存储有计算机程序，其特征在于，所述处理器调用上述计算机程序时能够实现权利要求7所述的果实检测方法。