CN116912663A

CN116912663A - 基于多粒度解码器的文本-图像检测方法

Info

Publication number: CN116912663A
Application number: CN202310898188.5A
Authority: CN
Inventors: 梁爽; 谢驰; 王建宇; 庄子鲲; 赵生捷
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2023-07-20
Filing date: 2023-07-20
Publication date: 2023-10-20

Abstract

本案涉及基于多粒度解码器的文本‑图像检测方法，属于图像目标检测领域，用于解决目前检测相关的文本‑图像任务模型无法灵活使用语言描述图像中物体或须假设被描述物体有且仅有一个的问题。本案根据任务类型配置不同粒度的解码器构成多粒度解码器，对以文字描述和/或包围盒形式对图像中目标对象进行描述的文本图像任务，获取任务中图像和文本的融合特征序列；当把融合特征序列作为多粒度解码器的输入时，多粒度解码器输出文本‑图像任务检测结果。本案将各种与检测定位相关的文本‑图像任务统一为基于文本描述物体检测任务，有效统一了各种任务形式；多粒度解码器具有可扩展性，训练好的多粒度解码器能够实现对不同文本图像任务的推理。

Description

基于多粒度解码器的文本-图像检测方法

技术领域

本发明涉及计算机视觉、通用目标检测领域，涉及一种基于多粒度-解码器的文本-图像检测方法。

背景技术

通用目标检测在数十年里一直是计算机视觉领域的一个重要研究分支，其研究范围涵盖图像、视频、三维数据等诸多方面，相关技术也在信息检索、安全监控、娱乐等领域广泛应用，其中，针对图像的检测，如物体检测(Object Detection)和人-物交互检测(Human-Object Interaction detection，HOI)，受到了相对广泛的关注。近年来，随着人工智能应用场景的不断扩展，目标检测任务逐渐向开放词汇检测(Open-Vocabulary Detection，OVD)的方向演变。该任务虽然同样是从图像中检测目标物体，但检测对象不再是固定词汇所限定的类别的物体，而是更大范围、不受词汇限制的任意给定类别名称的物体。同样涉及基于语言(1anguage)的目标定位的还有指向图像理解(Referring Image Comprehension)任务，该任务基于对一张图的语言描述，从该图像中定位被描述的对象。

开放词汇检测任务与指向图像理解任务存在一定的相似性，即都是基于语言对图像中的对象进行定位，然而也有明显的区别：前者是一个检测任务，对任意类别，物体可能存在零个或多个，需要进行判断，而后者只是从必然存在目标的图像中定位到目标；前者的目标由类别名称来指定，而后者则是更长、更灵活也更有信息量的语言描述。

目前两个任务的相关工作也因此表现出明显的局限性，即开放词汇检测方法，如OWL-ViT、CORA等，无法灵活地使用语言描述来指定待检测物体，而指向图像理解方法，如OFA、PolyFormer等，依赖于被描述物体在图像中有且仅有一个的不实际假设。目前也有一些方法尝试将两个任务以多任务的方法一同解决，如Grounding-DINO、UNINEXT等，但这些方法中两个任务依然保留着各自的训练和推理方式，因此这些问题仍然存在。

发明内容

为了弥补上述的现有相关方法不适用于基于语言描述的物体检测所导致的性能不足，本发明的目的为提供一种基于多粒度解码器的文本-图像检测方法，将各种与检测定位相关的文本-图像任务统一为基于文本描述物体检测(object detection)任务，有效统一了各种任务形式。

为实现上述目的，本案的技术方案如下。

第一方面，本案提出一种基于多粒度解码器的文本-图像检测方法，包括：

所述方法采用一种与现有的单一编码器-解码器结构不同的多粒度解码器，所述多粒度解码器根据任务类型配置不同粒度的解码器；对以文字描述和/或包围盒形式对图像中目标对象进行描述的文本-图像任务，获取任务中图像和文本的融合特征序列；

当把融合特征序列作为多粒度解码器的输入时，多粒度解码器输出文本-图像任务检测结果。

在上述技术方案中，所述多粒度解码器的一种实施方式中，其包括局部粒度解码器、全局粒度解码器，以解决文本-图像任务重局部目标定位于全局关系理解之间的粒度冲突。所述局部粒度编码器，被配置用于基于融合特征序列定位文本描述的零个到多个对象；所述全局粒度编码器，被配置基于融合特征序列用于判定文本描述与定位到的对象是否匹配。

在上述技术方案中，所述融合特征序列的一种获取方式，是通过编码器将图像特征和文本特征进行编码获得，将不同的文本-对象任务中的文本、图像数据进行统一形式编码，从而将不同的文本-对象任务都统一为基于文本描述物体检测问题来解决。

在上述技术方案中，文本特征的一种实施方式，是通过使用分词器将prompt和文本序列进行映射获得。

在上述技术方案中，所述多粒度解码器的一种训练实施方式，步骤包括：

在一轮训练中，将不同任务类型对应的样本混合，在训练结束时分别计算各个粒度解码器的损失函数值，并将它们的和作为整体损失。

在上述技术方案中，所述任务包括文本描述物体检测任务；文本描述物体检测任务的训练样本中的负样本通过对正样本处理获得，处理方法包括：将正样本中关于图像目标对象的文字描述修改为不正确、将正样本中关于图像目标对象的包围盒进行平移。

在上述技术方案中，多粒度解码器应用于对于文本描述物体检测任务时，步骤包括：

对任意图像，获取关于该图像中目标对象的文字描述，进而获取该图像和文字描述的第一融合特征序列；

多粒度解码器基于第一融合特征序列，输出目标对象的包围盒；

将包围盒和目标对象的文字描述进行拼接，基于拼接后的文本与所述图像获得第二融合特征序列；

多粒度解码器基于第二融合特征序列，判定之前输出的目标对象包围盒与目标对象的文字描述是否匹配。

在上述技术方案中，一种实施方式中，多粒度解码器配置的不同粒度的解码器具有相同结构。

第二方面，本案提出一种计算机可读存储介质，存储有能够被处理器加载并执行上述任一种方法的计算机程序。

第三方面，本案提出一种多粒度解码器的文本-图像检测系统，所述系统包括获取单元和多粒度解码器；其中：

获取单元，被配置用于对以文字描述和/或包围盒形式对图像中目标对象进行描述的文本-图像任务，获取任务中图像和文本的融合特征序列；

多粒度解码器根据任务类型配置不同粒度的解码器；当把融合特征序列作为多粒度解码器的输入时，多粒度解码器输出文本图像任务检测结果。

本案的有益技术效果：

(1)通过对图像特征和文本特征编码为统一的融合特征序列，作为多粒度解码器的统一输入，使各种与检测定位相关的文本-图像任务统一为基于文本描述物体检测(object detection)任务，从而提出了一种通用处理模型，从而有效统一了各种任务的形式。对于同时检测定位的任务，将其分步实施。

(2)多粒度解码器根据任务类型配置有不同粒度的解码器，具有可扩展性，可适用于不同文本图像任务的物体检测。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1、一种具体实施方式中的工作流程示意图；

图2、一种具体实施方式中的语音描述物体检测结果示意图。

具体实施方式

针对现在不同文本-图像任务需要不同任务模型，每个任务模型均各自训练和实现各自的任务推理。有的具有相似性的文本-图像任务，比如开放词汇检测任务与指向图像理解任务，前者是一个检测任务，对任意类别，物体可能存在零个或多个，需要进行判断，而后者只是从必然存在目标的图像中定位到目标；前者的目标由类别名称来指定，而后者则是更长、更灵活也更有信息量的语言描述，致使两个任务的相关工作具有明显的局限性，即：开放词汇检测方法，如OWL-ViT、CORA等，无法灵活地使用书面语言描述来指定待检测物体，而指向图像理解方法，如OFA、PolyFormer等，依赖于被描述物体在图像中有且仅有一个的不实际假设。

本案提出一种基于多粒度解码器的文本描述物体检测方法，检测原理图如图1所示。在本案方法中，采用了一种具有可扩展性的多粒度解码器，所述多粒度解码器可根据任务类型配置不同粒度的解码器；对图像中目标对象，以文字描述和/或包围盒形式进行描述。在进行文本描述物体检测时，获取任务中图像和文本的融合特征序列，将融合特征序列作为多粒度解码器的输入，多粒度解码器根据任务类型输出相应的文本-图像任务检测结果。

下面将结合附图，对本案技术方案如何实施进行清楚、完整地描述，显然，所描述的实施方式仅仅是本案的一部分实施方式，而不是全部的实施方式。基于本案中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，都属于本申请保护的范围。

(一)技术方案

在一种具体实施方式中，所述方法使用包括多粒度解码器的通用文本-图像模型，将不同文本-图像任务统一为基于文本描述物体检测任务，从而有效统一了各种任务的形式。其中，多粒度解码器根据任务类型配置有不同粒度的解码器，从而使得通用文本-图像模型具有可扩展性，以适用于不同文本图像任务的物体检测定位。本案中的物体为图像上的所有可描述对象。模型还包括基于残差卷积网络的图像基干网络、分词器、编码器。下面对模型各部分进行介绍。

(1)图像基干网络

图像基干网络用于提取文本-图像中的图像特征，其以RGB图像作为输入，将图像特征作为输出。图像基干网络可以是基于ImageNet数据集预训练的ResNet-50或ResNet-101网络、基于ImageNet数据集预训练的ViT-B网络/ViT-L网络、CLIP预训练模型中的ResNet-50网络、CLIP预训练模型中的ViT-B网络/ViT-L网络等。

(2)分词器

如图2中示意，分词器以文本作为输入，使用分词器将prompt和文本序列进行映射获得文本特征，将文本特征作为输出。文本-图像中的文本用于描述图像中的目标对象，可以是文字、也可以是图像中目标对象的包围盒。

(3)编码器

编码器用于将文本输入特征和图像输入特征两个序列拼接起来形成融合特征序列，从而将不同文本图像任务的数据以统一的形式，作为多粒度解码器的输入，使不同文本-图像任务都能够统一为基于文本描述物体检测任务。

(4)多粒度解码器

本案中的多粒度解码器可根据任务类型配置有不同粒度的解码器，具有可扩展性。通过多粒度解码器将不同任务类型统一作为基于文本描述物体检测问题。

在一轮训练中，将不同任务类型对应的样本混合，在训练结束时分别计算各个粒度解码器的损失函数值，并将它们的和作为整体损失。损失函数采用交叉熵(crossentropy)函数。

在一种实施方式中，文本-图像任务的任务目的由检测定位子任务和判别子任务构成。检测定位子任务包括但不限于标准的目标检测、指向图像理解等。判别子任务包括图像描述(image captioning)、视觉问答(visual question answering)、掩码语言学习(mask language modeling)等。根据定位子任务和判别子任务为多粒度编码器配置局部粒度解码器和全局粒度解码器，实现一种统一的多任务模型。其中：局部粒度解码器，用于基于融合特征序列定位文本描述的零个到多个对象，输出零个到多个目标对象的包围框。全局粒度解码器，用于基于融合特征序列用于判定文本描述与定位到的对象是否匹配。

针对既有定位子任务和判别子任务，比如对于开放词汇检测和指向图像理解，在将它们统一为文本描述物体检测任务后，训练好的多粒度编码器在应用时可分为两步实施，步骤包括：

第一次推理，对任意图像，获取关于该图像中目标对象的文字描述，进而获取该图像和文字描述的第一融合特征序列；

多粒度解码器基于第一融合特征序列，利用局部粒度编码器输出目标对象的包围盒；

第二次推理，将包围盒和目标对象的文字描述进行拼接，基于拼接后的文本与所述图像获得第二融合特征序列；

多粒度解码器基于第二融合特征序列，利用全局粒度编码器判定之前输出的目标对象包围盒与目标对象的文字描述是否匹配。示例性地，采用视觉问答的任务形式，输出设定性结果。比如若判断结果为“是”，则该文字描述与目标对象包围盒相匹配，将该目标对象包围盒作为文本描述物体检测的最终输出，若判断结果为“否”，则该文字描述与目标对象包围盒不匹配，该文本描述物体检测任务在该图像上不输出任何检测结果。或者直接通过输出单词“是”或者“否”，用于表示该文本描述与物体包围盒是否匹配。

在一种实施方式中，局部粒度解码器和全局粒度解码器具有相同结构，示例性地，它们均采用一个transformer解码器结构。

对于由局部粒度解码器和全局粒度解码器构成的多粒度解码器，在一轮训练中，将局部粒度解码器对应的样本和全局粒度解码器对应的样本混合。在训练时，根据每个样本的所属任务类型，仅对全局粒度解码器和局部粒度解码器其中一者的输出进行监督，对另一者的输出不进行监督。在训练结束时，分别计算局部粒度解码器和全局粒度解码器的损失函数值，并将两者之和作为整体损失。与现有的单一编码器-解码器结构相比，多粒度解码器更好地解决了开放词汇检测和指向图像理解等任务中局部目标定位与全局关系理解之间的粒度冲突。

对于文本描述物体检测任务的训练样本，全局粒度解码器的样本数据集中，正样本由样本图像、该样本的文字描述和对应目标包围盒组成，该样本的文字描述和目标包围盒是匹配的。负样本有两个来源，一者是由数据集每个样本中的图像、该样本的文字描述对应的包围盒、其他样本的文本描述组成，即文字描述不正确的负样本，另一者是由数据集中每个样本的图像、该样本的文字描述和对应目标包围盒平移后的包围盒组成，即目标包围盒不正确的负样本。

上述实施方式中术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。

(二)实验比较

为验证本案在基于文本描述物体检测任务上的实际表现，在三个著名的指向图像理解公开数据集RefCOCO、RefCOCO+、RefCOCOg和一个书面语言描述物体检测数据集D³上进行了实验。RefCOCO、RefCOCO+和RefCOCOg三个数据集都使用了来自COCO数据集的图片和物体标注框，使用准确率作为评测指标。其中，RefCOCO中有142，209个标注的书面语言表达，涉及19，994张图像中的50，000个物体。RefCOCO+包含141，564个书面语言表达，涉及19，992张图像中的49，856个物体。与RefCOCO相比，RefCOCO+中的书面语言表达中缺少位置词，这使得任务更具挑战性。RefCOCOg包含85，474个指向物体的语言表达，涉及26，711张图像中的54，822个物体。这些书面语言表达是在Amazon Mechanical Turk上收集的，因此描述更长、更复杂。RefCOCOg的书面语言表达的平均长度为8.4个词，而RefCOCO和RefCOCO+为3.5个词。RefCOCO和RefCOCO+的测试数据都分为val、testA和testB三个部分，而RefCOCOg分为val和test两个部分。D³数据集是一个新提出的书面语言描述物体检测数据集，与之前的指向图像理解数据集相比，所有的书面语言描述都在整个数据集而不是单张图片上标注了正样本和负样本，因此该数据集可以适用于书面语言描述检测任务，而传统的指向图像理解数据集不可以。其图片来自flickr等网站，由人工标注而成，只提供了测试集，有10，578张图片和18，514个物体框。由于其完备标注的特性，该数据集共有16，480个正样本实例和5，833，944个负样本实例，数量非常大。该数据集的评测同样使用准确率作为指标，并具有FULL、PRES和ABS三个评测设定。

表1给出了在指向图像理解数据集RefCOCO的测试集上，本发明与现有方法的效果比较。本发明在RefCOCO数据集上超过了现有技术最佳的水平。

表1

表2给出了在指向图像理解RefCOCO+数据集上，本发明与其他在该数据上具有较好的表现的方法，在准确率指标上的比较。同样的，本发明在RefCOCO+数据集上超过了现有技术最佳的水平。

表2

与表1和表2相似，表3给出了在RefCOCOg数据集上本发明与其他先进方法在准确率指标上的比较。从表1、2和3的综合结果可以看出，所提出的方法虽然是为文本描述物体检测任务设计的，但是在指向图像理解任务上同样达到了领先的水平。

表3

表4给出了本发明所提出的方法与之前的方法在语言描述物体检测数据集D³上的对比。用于对比的方法来自传统的指向图像理解(OFA)或是开放词汇检测任务(CORA、OWL-ViT)，或是将两个任务共同解决的(Grounding DINO、UNINEXT)。从表4可以看出，本发明所提出的方法在语言描述物体检测任务上相对之前的方法有明显的优势。

表4

从表1至表4可以看出，在两个任务、四个数据集、总共11个指标上，本方法达到了整体领先的效果，在绝大部分指标上都达到最有水平。

图2显示，本发明的结果相对之前的指向图像理解方法(OFA)、开放词汇检测方法(OWL-ViT)和两者兼备的方法(Grounding-DINO)，能够同时做到(1)避免重复、过多的检测结果，(2)在没有目标实例的图像上不做出预测，预测结果与真实标注更为接近，体现了本发明的方法在语言描述物体检测上的出色效果。

总的来说，本案提出的方法在广义的基于语言描述的物体检测任务上具备更好的性能，不仅在传统的指向图像理解任务上相对之前的方法更强，而且更适用于最新的文本描述物体检测任务，在各种数据上结果精度有显著提高，具备一定的实用价值。

在另一实施方式中，根据上述方法实现一种多粒度解码器的文本描述物体检测系统，所述系统包括获取单元和多粒度解码器；其中：

多粒度解码器根据任务类型配置不同粒度的解码器；当把融合特征序列作为多粒度解码器的输入时，多粒度解码器输出文本-图像任务检测结果。

上述方法或系统如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是在本说明书中所谈到的“一个实施例”、“另一个实施例”、“实施例”等，指的是结合该实施例描述的具体特征、结构或者特点包括在本申请概括性描述的至少一个实施例中。在说明书中多个地方出现同种表述不是一定指的是同一个实施例。进一步来说，结合任一实施例描述一个具体特征、结构或者特点时，所要主张的是结合其他实施例来实现这种特征、结构或者特点也落在本发明的范围内。

Claims

1.一种基于多粒度解码器的文本-图像检测方法，其特征在于：

所述方法根据任务类型配置不同粒度的解码器构成多粒度解码器；

对以文字描述和/或包围盒形式对图像中目标对象进行描述的文本图像任务，获取任务中图像和文本的融合特征序列；

2.根据权利要求1所述的方法，其特征在于：

所述多粒度解码器包括局部粒度解码器、全局粒度解码器；

所述局部粒度编码器，被配置用于基于融合特征序列定位文本描述的零个到多个对象；

所述全局粒度编码器，被配置基于融合特征序列用于判定文本描述与定位到的对象是否匹配。

3.根据权利要求1所述的方法，其特征在于，所述融合特征序列通过编码器将图像特征和文本特征进行编码获得。

4.根据权利要求3所述的方法，其特征在于，文本特征通过使用分词器将prompt和文本序列进行映射获得。

5.根据权利要求1所述的方法，其特征在于，所述多粒度解码器的训练步骤包括：

在一轮训练中，将不同任务类型对应的样本混合，在训练结束时分别计算各粒度解码器的损失函数值，并将它们的和作为整体损失。

6.根据权利要求1所述的方法，其特征在于：

所述任务包括文本描述物体检测任务；

文本描述物体检测任务的训练样本中的负样本通过对正样本处理获得，处理方法包括：对一个正样本，将其关于图像中目标对象的文字描述修改为不正确或将关于图像中目标对象的包围盒进行平移。

7.根据权利要求6所述的方法，其特征在于，对于文本描述物体检测任务，多粒度解码器的应用步骤包括：

8.根据权利要求1所述的方法，其特征在于，不同粒度的解码器结构相同。

9.一种计算机可读存储介质，其特征在于：存储有能够被处理器加载并执行如权利要求1至8中任一种方法的计算机程序。

10.一种多粒度解码器的文本图像检测系统，其特征在于，所述系统包括获取单元和多粒度解码器；其中：