CN117808802B

CN117808802B - 一种基于多提示引导的通用细粒度视觉计数方法及系统

Info

Publication number: CN117808802B
Application number: CN202410224019.8A
Authority: CN
Inventors: 韩智峰; 王伟; 张磊; 郭小光
Original assignee: Jiangxi Yunyan Shijie Technology Co ltd
Current assignee: Jiangxi Yunyan Shijie Technology Co ltd
Priority date: 2024-02-29
Filing date: 2024-02-29
Publication date: 2024-05-07
Anticipated expiration: 2044-02-29
Also published as: CN117808802A

Abstract

本发明提供了一种基于多提示引导的通用细粒度视觉计数方法及系统，所述方法包括获取图像数据集，将所述图像数据集中的图像输入视觉编码器中进行维度展平与重组，以得到图像嵌入；获取用户下发的输入提示，基于所述输入提示的类型将所述输入提示输入提示编码器中进行学习嵌入叠加，以得到提示嵌入；获取训练图像集，将所述训练图像集输入计数解码器中并通过损失函数对所述计数解码器进行训练，以得到训练后的计数解码器；将所述图像嵌入与所述提示嵌入输入训练后的计数解码器中，以输出对应的预测前景框与相应的类别概率分布，本发明可提高在复杂场景中的计数准确性，能够处理开集环境下的计数任务，避免了对目标类别的预定义。

Description

一种基于多提示引导的通用细粒度视觉计数方法及系统

技术领域

本发明属于视觉计数的技术领域，具体地涉及一种基于多提示引导的通用细粒度视觉计数方法及系统。

背景技术

视觉计数在计算机视觉领域扮演着至关重要的角色，其目标是从图像中准确计算感兴趣目标物体的数量。无论在农业、工业、交通等多个行业中，视觉计数都发挥着关键作用，广泛应用于智能监控、人群管理、环境监测等领域，准确的视觉计数方法对于这些应用提供了不可或缺的关键信息，然而，当前的视觉计数算法在面对多样化和复杂场景时面临着严峻的挑战，传统的计数方式，如人工计数，不仅费时费力，而且容易出现误差，限制了计数任务的可靠性。

随着深度学习技术的崛起，视觉计数问题被表示为密度图的回归任务，尽管取得了显著进展，但密度图回归任务的直观可视化仍然存在挑战，使得用户在评估计数结果准确性时感到困扰，另一方面，封闭集检测任务如使用YOLO目标检测器的局限性在于其对固定类别的依赖，当面对新类别时往往需要重新收集和训练新的数据集，这一过程不仅耗时而且性能也达不到最优。

发明内容

为了解决上述技术问题，本发明提供了一种基于多提示引导的通用细粒度视觉计数方法及系统，用于解决现有技术中的技术问题。

第一方面，本发明提供以下技术方案，一种基于多提示引导的通用细粒度视觉计数方法，包括：

构建视觉计数模型，所述视觉计数模型包括视觉编码器、提示编码器与计数解码器，获取图像数据集，将所述图像数据集中的图像输入视觉编码器中进行维度展平与重组，以得到图像嵌入；

获取用户下发的输入提示，基于所述输入提示的类型将所述输入提示输入提示编码器中进行学习嵌入叠加，以得到提示嵌入；

获取训练图像集，将所述训练图像集输入计数解码器中并通过损失函数对所述计数解码器进行训练，以得到训练后的计数解码器，训练后的计数解码器内嵌入有自注意力模块、交叉注意力模块；

将所述图像嵌入与所述提示嵌入输入训练后的计数解码器中，以输出对应的预测前景框与相应的类别概率分布；

所述基于所述输入提示的类型将所述输入提示输入提示编码器中进行学习嵌入叠加，以得到提示嵌入的步骤包括：

初始化一个与所述图像嵌入相同维度的初始嵌入层，所述初始嵌入层的初始值为全零；

识别所述输入提示的类型，并基于所述输入提示的类型生成稀疏特征或映射特征；

将所述稀疏特征或所述映射特征叠加至所述初始嵌入层中，以得到提示嵌入；

所述识别所述输入提示的类型，并基于所述输入提示的类型生成稀疏特征或映射特征的步骤包括：

识别所述输入提示的类型；

若所述输入提示为点提示或框提示，则将点提示或框提示与所述初始嵌入层进行拼接处理，以得到稀疏特征，所述稀疏特征的维度为，其中，/>为批量处理图像的数量，/>为输入点的数量；

若所述输入提示为草图提示，则将草图提示映射到一个维度为的密集嵌入，以得到映射特征。

相比现有技术，本发明的有益效果为：本发明首先获取图像数据集，将所述图像数据集中的图像输入视觉编码器中进行维度展平与重组，以得到图像嵌入；之后获取用户下发的输入提示，基于所述输入提示的类型将所述输入提示输入提示编码器中进行学习嵌入叠加，以得到提示嵌入；而后获取训练图像集，将所述训练图像集输入计数解码器中并通过损失函数对所述计数解码器进行训练，以得到训练后的计数解码器；最后将所述图像嵌入与所述提示嵌入输入训练后的计数解码器中，以输出对应的预测前景框与相应的类别概率分布，本发明不仅致力于提高在复杂场景中的计数准确性，避免了对目标类别的预定义，此外，通过引入多提示机制，我们使得用户能够更直观、更灵活地指导计数过程，提高了算法的可解释性和用户交互性，通过对视觉和语义信息的联合建模，实现了更全面、准确的视觉计数，为实际应用场景提供了更强大、灵活的计数解决方案。

较佳的，所述将所述图像数据集中的图像输入视觉编码器中进行维度展平与重组，以得到图像嵌入的步骤包括：

将所述图像数据集中的图像输入视觉编码器中的预设编码网络中进行编码，以得到四个分层特征；

将四个分层特征映射到统一的空间分辨率并进行拼接，以得到融合特征，基于所述融合特征/>的维度将每个位置的特征向量表示为/>，其中，，/>分别为融合特征的通道数、高度、宽度；

计算每个通道在整个融合特征上的平均值，并基于平均值/>确定新特征图/>：

；

定义权重矩阵与偏置向量/>，基于所述权重矩阵/>、所述偏置向量/>与所述新特征图/>确定256维的图像嵌入/>：

；

式中，为转换函数，其用于将新特征图/>转换为长度为/>的一维向量。

较佳的，在所述将所述图像数据集中的图像输入视觉编码器中的预设编码网络中进行编码，以得到四个分层特征的步骤中，预设编码网络为ConvNeXT-Large网络。

较佳的，所述将所述训练图像集输入计数解码器中并通过损失函数对所述计数解码器进行训练，以得到训练后的计数解码器的步骤包括：

将所述训练图像集输入计数解码器中，通过所述计数解码器为所述训练图像集中每张训练图像输出若干预测框；

计算训练图像中预测框与标注框之间的第一损失：

；

式中，为真实标签，/>为预测标签，/>为预测框的数量，/>表示预测的第/>个预测框属于类别/>的概率，/>为指示函数，具体表示当/>不为空时为1否则为0，表示预测框/>与标注框/>之间的位置损失；

计算训练图像中预测框与标注框之间的得分/>：

；

；/>；

式中，、/>分别为预测框与标注框之间的交集与并集，/>、/>、/>、分别为标注框的四个顶点，/>、/>、/>、/>分别为预测框的四个顶点，/>、/>分别为标注框的宽度与高度，/>、/>分别为预测框的宽度与高度，/>、/>为标注框的中心坐标，/>、为预测框的中心坐标，/>为尺度缩放因子；

基于所述第一损失与所述/>得分/>对所述计数解码器进行参数更新训练，以得到训练后的计数解码器。

较佳的，所述将所述图像嵌入与所述提示嵌入输入训练后的计数解码器中，以输出对应的预测前景框与相应的类别概率分布的步骤包括：

将所述提示嵌入输入自注意力模块中以捕捉序列内的长程依赖关系，以得到处理提示嵌入；

将所述处理提示嵌入与所述图像嵌入输入交叉注意力模块以实现提示与图像的上下文信息的互相关联，以得到输出序列；

引入对象查询，将所述对象查询作为查询矩阵，将所述输出序列作为键矩阵/>与值矩阵/>，将所述查询矩阵/>、所述键矩阵/>与所述值矩阵/>输入训练后的计数解码器中，输出若干对应序列；

将若干对应序列通过对应的多层感知机将其映射为预测前景框与相应的类别概率分布。

第二方面，本发明提供以下技术方案，一种基于多提示引导的通用细粒度视觉计数系统，所述系统包括：

展平模块，用于构建视觉计数模型，所述视觉计数模型包括视觉编码器、提示编码器与计数解码器，获取图像数据集，将所述图像数据集中的图像输入视觉编码器中进行维度展平与重组，以得到图像嵌入；

叠加模块，用于获取用户下发的输入提示，基于所述输入提示的类型将所述输入提示输入提示编码器中进行学习嵌入叠加，以得到提示嵌入；

训练模块，用于获取训练图像集，将所述训练图像集输入计数解码器中并通过损失函数对所述计数解码器进行训练，以得到训练后的计数解码器，训练后的计数解码器内嵌入有自注意力模块、交叉注意力模块；

解码模块，用于将所述图像嵌入与所述提示嵌入输入训练后的计数解码器中，以输出对应的预测前景框与相应的类别概率分布；

所述叠加模块包括：

初始化子模块，用于初始化一个与所述图像嵌入相同维度的初始嵌入层，所述初始嵌入层的初始值为全零；

识别子模块，用于识别所述输入提示的类型，并基于所述输入提示的类型生成稀疏特征或映射特征；

叠加子模块，用于将所述稀疏特征或所述映射特征叠加至所述初始嵌入层中，以得到提示嵌入；

所述识别子模块包括：

识别单元，用于识别所述输入提示的类型；

第一处理单元，用于若所述输入提示为点提示或框提示，则将点提示或框提示与所述初始嵌入层进行拼接处理，以得到稀疏特征，所述稀疏特征的维度为，其中，/>为批量处理图像的数量，/>为输入点的数量；

第二处理单元，用于若所述输入提示为草图提示，则将草图提示映射到一个维度为的密集嵌入，以得到映射特征。

第三方面，本发明提供以下技术方案，一种计算机，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述的基于多提示引导的通用细粒度视觉计数方法。

第四方面，本发明提供以下技术方案，一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述的基于多提示引导的通用细粒度视觉计数方法。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一提供的基于多提示引导的通用细粒度视觉计数方法的流程图；

图2为本发明实施例一提供的计数解码器的结构框图；

图3为本发明实施例二提供的基于多提示引导的通用细粒度视觉计数系统的结构框图；

图4为本发明另一实施例提供的计算机的硬件结构示意图。

以下将结合附图对本发明实施例作进一步说明。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明的实施例，而不能理解为对本发明的限制。

在本发明实施例的描述中，需要理解的是，术语“长度”、“宽度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明实施例和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明实施例的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本发明实施例中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明实施例中的具体含义。

实施例一

在本发明的实施例一中，如图1所示，一种基于多提示引导的通用细粒度视觉计数方法，包括：

S1、构建视觉计数模型，所述视觉计数模型包括视觉编码器、提示编码器与计数解码器，获取图像数据集，将所述图像数据集中的图像输入视觉编码器中进行维度展平与重组，以得到图像嵌入；

具体的，在本发明中，采用基于ConvNeXt-Large预训练的CNN-Based CLIP模型作为视觉编码器。

其中，所述步骤S1包括：

S11、将所述图像数据集中的图像输入视觉编码器中的预设编码网络中进行编码，以得到四个分层特征；

其中，预设编码网络为ConvNeXT-Large网络。

S12、将四个分层特征映射到统一的空间分辨率并进行拼接，以得到融合特征/>，基于所述融合特征/>的维度将每个位置的特征向量表示为/>，其中，，/>分别为融合特征的通道数、高度、宽度。

S13、计算每个通道在整个融合特征上的平均值，并基于平均值/>确定新特征图/>：

；

。

S14、定义权重矩阵与偏置向量/>，基于所述权重矩阵/>、所述偏置向量/>与所述新特征图/>确定256维的图像嵌入/>：

；

式中，为转换函数，其用于将新特征图/>转换为长度为/>的一维向量；

具体的，在经过上述步骤S11-S14之后，可得到一个长度为256维的图像嵌入，且上述步骤为映射拼接的过程，同时对融合特征进行空间维度展平与维度重组，以将融合特征映射到一个中间维度为256维的向量，以此得到图像嵌入，图像嵌入其用于表示原始特征图的紧凑表示，其具体通过上述步骤后得到的对输入的图像数据集的高维表示，其中包含了视觉编码器提取的丰富特征信息，用于后续的提示编码和计数解码，这个图像嵌入将作为模型对图像的理解和表达，用于生成计数预测结果，且转换函数具体用于将大小为的新特征图/>转换为长度为/>的一维向量。

S2、获取用户下发的输入提示，基于所述输入提示的类型将所述输入提示输入提示编码器中进行学习嵌入叠加，以得到提示嵌入；

其中，提示编码器主要用于编码用户的提示信息，比如用户指示图像中的某一个区域，提示编码器将用户的这个动作编码成模型能理解的形式，并与每种提示类型的学习嵌入相加，以获得提示嵌入。

其中，所述步骤S2包括：

S21、初始化一个与所述图像嵌入相同维度的初始嵌入层，所述初始嵌入层的初始值为全零；

其中，初始化的初始嵌入层将作为提示的初始表示。

S22、识别所述输入提示的类型，并基于所述输入提示的类型生成稀疏特征或映射特征；

具体的，根据用户给定的不同输入提示，提示编码器将执行不同的操作，提示可分为点提示、框提示与草图提示。

其中，所述步骤S22包括：

S221、识别所述输入提示的类型。

S222、若所述输入提示为点提示或框提示，则将点提示或框提示与所述初始嵌入层进行拼接处理，以得到稀疏特征，所述稀疏特征的维度为，其中，/>为批量处理图像的数量，/>为输入点的数量。

S223、若所述输入提示为草图提示，则将草图提示映射到一个维度为的密集嵌入，以得到映射特征；

其中，密集嵌入通过将草图提示进行特定的映射操作得到的，确保了对草图提示的充分编码。

S23、将所述稀疏特征或所述映射特征叠加至所述初始嵌入层中，以得到提示嵌入；

其中，提示嵌入包含来自用户提供的提示信息，用户后续的计数编码，通过上述步骤，提示编码器将用户的不同提示形式转化为模型理解的特征表示，确保了模型能够有效地利用用户的引导信息进行计数任务。

S3、获取训练图像集，将所述训练图像集输入计数解码器中并通过损失函数对所述计数解码器进行训练，以得到训练后的计数解码器，训练后的计数解码器内嵌入有自注意力模块、交叉注意力模块；

具体的，对于本发明而言，视觉编码器、提示编码器与计数解码器组成了本申请中的视觉计数模型，而在该步骤中对计数解码器进行训练的过程即为对整个视觉计数模型进行训练的过程，优化更新模型的参数，以得到训练后的模型，同时计数解码器中集成有自注意力模块、交叉注意力模块，以用于提取图像嵌入与提示嵌入之间的关联信息以及提取提示嵌入序列内的依赖关系。

其中，所述步骤S3包括：

S31、将所述训练图像集输入计数解码器中，通过所述计数解码器为所述训练图像集中每张训练图像输出若干预测框；

其中，模型训练的关键取决于损失计算，考虑到计算场景的复杂性和特殊性，我们为每张训练图像集中的图像输出 K=1000 个预测框，假设当前图片的标注框为 M，基于二分图的匹配方式，我们首先利用匈牙利算法将预测框与标注框进行最优匹配，随后再计算着 K 个候选框与 M 个真实框之间第一损失，且训练图像集包括FSCD-LVIS数据集与FSC147数据集，这两个公开的计数数据集为每张图像样本提供了三个对应的矩形框视觉提示。

S32、计算训练图像中预测框与标注框之间的第一损失：

；

整体而言，匈牙利损失计算的目的是通过匹配预测框和标注框，并计算相应的分类损失和位置损失，从而优化模型参数，使其能够更准确地预测目标的类别和位置；

考虑到现有的损失在实际应用中对不同检测任务的自适应性较差，泛化能力不足，我们引入了Inner-IoU损失计算边界框，其可以在回归过程中，通过区分不同回归样本和使用不同尺度的辅助边框计算损失，可以有效加速边框回归，通过计算/>得分辅助进行模型训练并对模型的预测输出进行准确度判断。

S33、计算训练图像中预测框与标注框之间的得分/>：

；

；/>；

式中，、/>分别为预测框与标注框之间的交集与并集，/>、/>、/>、分别为标注框的四个顶点，/>、/>、/>、/>分别为预测框的四个顶点，/>、/>分别为标注框的宽度与高度，/>、/>分别为预测框的宽度与高度，/>、/>为标注框的中心坐标，/>、为预测框的中心坐标，/>为尺度缩放因子。

S34、基于所述第一损失与所述/>得分/>对所述计数解码器进行参数更新训练，以得到训练后的计数解码器。

S4、将所述图像嵌入与所述提示嵌入输入训练后的计数解码器中，以输出对应的预测前景框与相应的类别概率分布；

其中，所述步骤S4包括：

S41、将所述提示嵌入输入自注意力模块中以捕捉序列内的长程依赖关系，以得到处理提示嵌入；

具体的，对于提示嵌入而言，首先将其输入一个自注意力模块，自注意力机制允许模型在同一序列中不同位置之间建立关系，捕捉序列内部的长程依赖关系，具体而言，自注意力模块通过计算每个位置与其他位置的注意力权重，使得每个位置都能够考虑到序列中其他位置的信息，这有助于模型更好地理解提示嵌入中不同部分之间的关系，以得到处理提示嵌入。

S42、将所述处理提示嵌入与所述图像嵌入输入交叉注意力模块以实现提示与图像的上下文信息的互相关联，以得到输出序列；

具体的，在自注意力模块的基础上，通过相应的交叉注意力机制，实现图像序列和提示序列之间的上下文信息的互相关联，从而实现语义对齐，交叉注意力机制允许模型在两个不同序列之间建立关系，将图像嵌入和提示嵌入之间的语义关联考虑在内，这样，模型能够更好地理解图像和提示之间的语义关系，提高计数任务的准确性，至此，我们便获得了相应的输出序列。

S43、引入对象查询，将所述对象查询作为查询矩阵，将所述输出序列作为键矩阵与值矩阵/>，将所述查询矩阵/>、所述键矩阵/>与所述值矩阵/>输入训练后的计数解码器中，输出若干对应序列；

具体的，除了接收来自前述交叉注意力模块输出的输出序列，在此处引入了一个对象查询（object queries ），类似于可学习的掩码，此处重新定义了一个带有梯度的特征向量，在这个过程中，将object queries视为查询矩阵Q，而输出嵌入则作为Key矩阵和Value矩阵。最终，经过M个解码器Transformer后最终输出K个相应的序列，即键矩阵与值矩阵/>，并通过相应的多层感知机将其映射为最终的相应的bboxes和logits 分布；

其中，引入对象查询的目的是在计数解码器中引入一种可学习的掩码，以帮助模型更好地聚焦在图像中与计数任务相关的对象，具体来说，对象查询充当了一种特征向量，类似于可学习的掩码，通过重新定义带有梯度的特征向量，模型能够自适应地关注与计数任务相关的对象；

同时，在这个过程中，将对象查询视为查询矩阵Q，而输出嵌入则作为键（Key）矩阵和值（Value）矩阵，模型可以在解码器中学习如何聚焦于图像中特定的对象，从而更好地理解对象与计数任务之间的关系，至于 bboxes和 logits分布，它们是计数解码器的最终输出， bboxes 表示预测的前景框，logits分布表示相应的类别概率分布，经过多个解码器Transformer 后的输出得到，并通过相应的多层感知机将其映射为最终的前景框和类别概率分布。

S44、将若干对应序列通过对应的多层感知机将其映射为预测前景框与相应的类别概率分布；

值得说明的是，本发明中的计数解码器的结构如图2所示，首先将图像嵌入输入到自注意力模型中，生成处理提示嵌入，之后将图像嵌入与处理提示嵌入输入交叉注意力机制中，其中交叉注意力机制包括序列到图像交叉注意力模块与图像到序列交叉注意力模块，同时图像嵌入分别输入到序列到图像交叉注意力模块与图像到序列交叉注意力模块，处理提示嵌入输入序列到图像交叉注意力模块中，之后经过多层感知机进行映射处理，之后输入图像到序列交叉注意力模块，在经过上述处理之后，生成输出序列，之后将输出序列输入计数解码器中的Transformer解码器中进行解码处理，得到对应的序列，之后经由多层感知机进行映射处理，以得到预测前景框与相应的类别概率分布。

同时，本发明可支持多种不同的用户输入提示。其中，对于点提示，我们定义了两种模式，一种是正样本点，还有一种是正负样本点联合的模式。对于前者，用户仅需点击图像中感兴趣目标对象，所提方法能够高效地识别出图像中具备高度相似语义的其它对象，实现快速而准确的视觉计数。此外，对于没有识别完整的情况，支持用户通过多次附加提示来迭代的优化最终的识别结果。对于后者，主要适用于区分相同类别的不同外观特征计数，例如给定一张由不同颜色对象所组成的图片，假设用户仅需统计红色对象的数量，那么可以在红色对象区域处点击一个正样本点提示，同时在其它颜色对象区域处点击负样本点提示，以实现更细粒度的计数结果。另外，对于框提示和草图提示，仅提供正向提示的作用，用户可以随意的框选或者涂鸦感兴趣的目标区域对象。

需要注意的是，在进行模型推断的过程，视觉编码器仅需初始化一次，后续的交互示仅需运行轻量级的提示编码器和计数解码器，最大化优化运行效率。另外，对于最终输出的若干预测框，会通过给定的阈值进行过滤，以输出最终的统计结果。

本发明实施例一提供的基于多提示引导的通用细粒度视觉计数方法，首先获取图像数据集，将所述图像数据集中的图像输入视觉编码器中进行维度展平与重组，以得到图像嵌入；之后获取用户下发的输入提示，基于所述输入提示的类型将所述输入提示输入提示编码器中进行学习嵌入叠加，以得到提示嵌入；而后获取训练图像集，将所述训练图像集输入计数解码器中并通过损失函数对所述计数解码器进行训练，以得到训练后的计数解码器；最后将所述图像嵌入与所述提示嵌入输入训练后的计数解码器中，以输出对应的预测前景框与相应的类别概率分布，本发明不仅致力于提高在复杂场景中的计数准确性，避免了对目标类别的预定义，此外，通过引入多提示机制，我们使得用户能够更直观、更灵活地指导计数过程，提高了算法的可解释性和用户交互性，通过对视觉和语义信息的联合建模，实现了更全面、准确的视觉计数，为实际应用场景提供了更强大、灵活的计数解决方案。

实施例二

如图3所示，在本发明的实施例二提供了一种基于多提示引导的通用细粒度视觉计数系统，所述系统包括：

展平模块1，用于构建视觉计数模型，所述视觉计数模型包括视觉编码器、提示编码器与计数解码器，获取图像数据集，将所述图像数据集中的图像输入视觉编码器中进行维度展平与重组，以得到图像嵌入；

叠加模块2，用于获取用户下发的输入提示，基于所述输入提示的类型将所述输入提示输入提示编码器中进行学习嵌入叠加，以得到提示嵌入；

训练模块3，用于获取训练图像集，将所述训练图像集输入计数解码器中并通过损失函数对所述计数解码器进行训练，以得到训练后的计数解码器，训练后的计数解码器内嵌入有自注意力模块、交叉注意力模块；

解码模块4，用于将所述图像嵌入与所述提示嵌入输入训练后的计数解码器中，以输出对应的预测前景框与相应的类别概率分布。

所述展平模块1包括：

编码子模块，用于将所述图像数据集中的图像输入视觉编码器中的预设编码网络中进行编码，以得到四个分层特征；

融合子模块，用于将四个分层特征映射到统一的空间分辨率并进行拼接，以得到融合特征/>，基于所述融合特征/>的维度将每个位置的特征向量表示为/>，其中，/>，/>分别为融合特征的通道数、高度、宽度；

特征图确定模块，用于计算每个通道在整个融合特征上的平均值，并基于平均值/>确定新特征图/>：

；

图像嵌入确定子模块，用于定义权重矩阵与偏置向量/>，基于所述权重矩阵/>、所述偏置向量/>与所述新特征图/>确定256维的图像嵌入/>：

；

所述叠加模块2包括：

叠加子模块，用于将所述稀疏特征或所述映射特征叠加至所述初始嵌入层中，以得到提示嵌入。

所述识别子模块包括：

识别单元，用于识别所述输入提示的类型；

所述训练模块3包括：

输出子模块，用于将所述训练图像集输入计数解码器中，通过所述计数解码器为所述训练图像集中每张训练图像输出若干预测框；

第一损失计算子模块，用于计算训练图像中预测框与标注框之间的第一损失：

；

得分计算子模块，用于计算训练图像中预测框与标注框之间的/>得分：

；

；/>；

训练子模块，用于基于所述第一损失与所述/>得分对所述计数解码器进行参数更新训练，以得到训练后的计数解码器。

所述解码模块4包括：

提示嵌入处理子模块，用于将所述提示嵌入输入自注意力模块中以捕捉序列内的长程依赖关系，以得到处理提示嵌入；

关联子模块，用于将所述处理提示嵌入与所述图像嵌入输入交叉注意力模块以实现提示与图像的上下文信息的互相关联，以得到输出序列；

序列输出子模块，用于引入对象查询，将所述对象查询作为查询矩阵，将所述输出序列作为键矩阵/>与值矩阵/>，将所述查询矩阵/>、所述键矩阵/>与所述值矩阵/>输入训练后的计数解码器中，输出若干对应序列；

结果输出子模块，用于将若干对应序列通过对应的多层感知机将其映射为预测前景框与相应的类别概率分布。

在本发明的另一些实施例中，本发明实施例提供以下技术方案，一种计算机，包括存储器102、处理器101以及存储在所述存储器102上并可在所述处理器101上运行的计算机程序，所述处理器101执行所述计算机程序时实现如上所述的基于多提示引导的通用细粒度视觉计数方法。

具体的，上述处理器101可以包括中央处理器（CPU），或者特定集成电路（Application Specific Integrated Circuit，简称为ASIC），或者可以被配置成实施本发明实施例的一个或多个集成电路。

其中，存储器102可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器102可包括硬盘驱动器（Hard Disk Drive，简称为HDD）、软盘驱动器、固态驱动器（Solid State Drive，简称为SSD）、闪存、光盘、磁光盘、磁带或通用串行总线（UniversalSerial Bus，简称为USB）驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器102可包括可移除或不可移除（或固定）的介质。在合适的情况下，存储器102可在数据处理装置的内部或外部。在特定实施例中，存储器102是非易失性（Non-Volatile）存储器。在特定实施例中，存储器102包括只读存储器（Read-Only Memory，简称为ROM）和随机存取存储器（Random Access Memory，简称为RAM）。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM（Programmable Read-Only Memory，简称为PROM）、可擦除PROM（ErasableProgrammable Read-Only Memory，简称为EPROM）、电可擦除PROM（Electrically ErasableProgrammable Read-Only Memory，简称为EEPROM）、电可改写ROM（ElectricallyAlterable Read-Only Memory，简称为EAROM）或闪存（FLASH）或者两个或更多个以上这些的组合。在合适的情况下，该RAM可以是静态随机存取存储器（Static Random-AccessMemory，简称为SRAM）或动态随机存取存储器（Dynamic Random Access Memory，简称为DRAM），其中，DRAM可以是快速页模式动态随机存取存储器（Fast Page Mode DynamicRandom Access Memory，简称为FPMDRAM）、扩展数据输出动态随机存取存储器（ExtendedDate Out Dynamic Random Access Memory，简称为EDODRAM）、同步动态随机存取内存（Synchronous Dynamic Random-Access Memory，简称SDRAM）等。

存储器102可以用来存储或者缓存需要处理和/或通信使用的各种数据文件，以及处理器101所执行的可能的计算机程序指令。

处理器101通过读取并执行存储器102中存储的计算机程序指令，以实现上述基于多提示引导的通用细粒度视觉计数方法。

在其中一些实施例中，计算机还可包括通信接口103和总线100。其中，如图4所示，处理器101、存储器102、通信接口103通过总线100连接并完成相互间的通信。

通信接口103用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。通信接口103还可以实现与其他部件例如：外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。

总线100包括硬件、软件或两者，将计算机设备的部件彼此耦接在一起。总线100包括但不限于以下至少之一：数据总线（Data Bus）、地址总线（Address Bus）、控制总线（Control Bus）、扩展总线（Expansion Bus）、局部总线（Local Bus）。举例来说而非限制，总线100可包括图形加速接口（Accelerated Graphics Port，简称为AGP）或其他图形总线、增强工业标准架构（Extended Industry Standard Architecture，简称为EISA）总线、前端总线（Front Side Bus，简称为FSB）、超传输（Hyper Transport，简称为HT）互连、工业标准架构（Industry Standard Architecture，简称为ISA）总线、无线带宽（InfiniBand）互连、低引脚数（Low Pin Count，简称为LPC）总线、存储器总线、微信道架构（Micro ChannelArchitecture，简称为MCA）总线、外围组件互连（Peripheral Component Interconnect，简称为PCI）总线、PCI-Express（PCI-X）总线、串行高级技术附件（Serial AdvancedTechnology Attachment，简称为SATA）总线、视频电子标准协会局部（Video ElectronicsStandards Association Local Bus，简称为VLB）总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线100可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线，但本发明考虑任何合适的总线或互连。

该计算机可以基于获取到基于多提示引导的通用细粒度视觉计数系统，执行本发明的基于多提示引导的通用细粒度视觉计数方法，从而实现通用细粒度视觉计数。

在本发明的再一些实施例中，结合上述的基于多提示引导的通用细粒度视觉计数方法，本发明实施例提供以下技术方案，一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述的基于多提示引导的通用细粒度视觉计数方法。

本领域技术人员可以理解，在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备（如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统）使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

可读介质的更具体的示例（非穷尽性列表）包括以下：具有一个或多个布线的电连接部（电子装置），便携式计算机盘盒（磁装置），随机存取存储器（RAM），只读存储器（ROM），可擦除可编辑只读存储器（EPROM或闪速存储器），光纤装置，以及便携式光盘只读存储器（CDROM）。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或它们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于多提示引导的通用细粒度视觉计数方法，其特征在于，包括：

识别所述输入提示的类型；

2.根据权利要求1所述的基于多提示引导的通用细粒度视觉计数方法，其特征在于，所述将所述图像数据集中的图像输入视觉编码器中进行维度展平与重组，以得到图像嵌入的步骤包括：

将四个分层特征映射到统一的空间分辨率并进行拼接，以得到融合特征/>，基于所述融合特征/>的维度将每个位置的特征向量表示为/>，其中，，/>分别为融合特征的通道数、高度、宽度；

；

定义权重矩阵与偏置向量/>，基于所述权重矩阵/>、所述偏置向量与所述新特征图/>确定256维的图像嵌入/>：

；

3.根据权利要求2所述的基于多提示引导的通用细粒度视觉计数方法，其特征在于，在所述将所述图像数据集中的图像输入视觉编码器中的预设编码网络中进行编码，以得到四个分层特征的步骤中，预设编码网络为ConvNeXT-Large网络。

4.根据权利要求1所述的基于多提示引导的通用细粒度视觉计数方法，其特征在于，所述将所述训练图像集输入计数解码器中并通过损失函数对所述计数解码器进行训练，以得到训练后的计数解码器的步骤包括：

计算训练图像中预测框与标注框之间的第一损失：

；

计算训练图像中预测框与标注框之间的得分/>：

；

；/>；

式中，、/>分别为预测框与标注框之间的交集与并集，/>、/>、/>、/>分别为标注框的四个顶点，/>、/>、/>、/>分别为预测框的四个顶点，/>、/>分别为标注框的宽度与高度，/>、/>分别为预测框的宽度与高度，/>、/>为标注框的中心坐标，/>、/>为预测框的中心坐标，/>为尺度缩放因子；

5.根据权利要求1所述的基于多提示引导的通用细粒度视觉计数方法，其特征在于，所述将所述图像嵌入与所述提示嵌入输入训练后的计数解码器中，以输出对应的预测前景框与相应的类别概率分布的步骤包括：

6.一种基于多提示引导的通用细粒度视觉计数系统，其特征在于，所述系统包括：

所述叠加模块包括：

所述识别子模块包括：

识别单元，用于识别所述输入提示的类型；

7.一种计算机，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述的基于多提示引导的通用细粒度视觉计数方法。

8.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的基于多提示引导的通用细粒度视觉计数方法。