CN114863407B

CN114863407B - 一种基于视觉语言深度融合的多任务冷启动目标检测方法

Info

Publication number: CN114863407B
Application number: CN202210783592.3A
Authority: CN
Inventors: 赵天成; 陆骁鹏; 刘鹏
Original assignee: Honglong Technology Hangzhou Co ltd
Current assignee: Honglong Technology Hangzhou Co ltd
Priority date: 2022-07-06
Filing date: 2022-07-06
Publication date: 2022-10-04
Anticipated expiration: 2042-07-06
Also published as: CN114863407A

Abstract

本发明公开了一种基于视觉语言深度融合的多任务冷启动目标检测方法，其包括以下步骤：S1、将初始图像输入图像编码器，在每个输出层生成低分辨率的视觉特征图，然后利用FPN对低分辨率的视觉特征图从上到下聚合信息，输出一组多尺度视觉特征图；S2、将任务集输入到任务编码器，输出任务上下文词嵌入，将任务集输入到标签编码器，输出标签上下文词嵌入；S3、随机初始化得到可学习建议特征和可学习的建议框；S4、将多尺度视觉特征图、任务上下文词嵌入、标签上下文词嵌入、可学习建议特征和可学习的建议框输入到多模态检测网络中，得到预测结果。本方案具有较高的识别范围和较大的扩展能力，适用于计算机目标检测识别领域。

Description

一种基于视觉语言深度融合的多任务冷启动目标检测方法

技术领域

本发明涉及计算机目标检测技术领域，尤其是涉及一种基于视觉语言深度融合的多任务冷启动目标检测方法。

背景技术

目标检测是计算机视觉的核心基础任务之一，也就是从输入图片中识别画面中的物体类型和他们的坐标位置。现有目标检测网络需要在特定领域数据训练后才能使用，并且训练完成后，目标检检测模型只能识别训练数据中出现的物体类型，并且输出物体类型是固定的。假如需要扩展更多的物体类型，或者修改物体类型列表，必须要采集新的人工标注数据，重新训练才能进行扩展。因此现有模型识别范围有限，并且持续迭代成本高。本发明提出了一种新颖的目标检测模型结构，可以同时从无限个数据集进行学习（即使每个数据集的物体类型完全不同），并且可以在训练完成后，通过自然语言输入任意物体类型（即使在训练中没有出现过的物体类型），对于输入的物体类型进行识别。大大提高了目标检测模型的识别范围和扩展能力。

发明内容

本发明主要是解决现有技术所存在的识别范围有限、持续迭代成本高等的技术问题，提供一种具有极高识别范围、较大扩展能力的基于视觉语言深度融合的多任务冷启动目标检测方法。

本发明针对上述技术问题主要是通过下述技术方案得以解决的：一种基于视觉语言深度融合的多任务冷启动目标检测方法，包括以下步骤：

S1、将初始图像输入图像编码器，在每个输出层生成低分辨率的视觉特征图，低分辨率即分辨率不超过原始图像的1/16，一般建议为1/32，然后利用特征金字塔网络（FPN）对低分辨率的视觉特征图从上到下聚合信息，输出一组多尺度视觉特征图{P₂,P₃,P₄,P₅}；

S2、将任务集输入到任务编码器，输出任务上下文词嵌入{T₀}，将任务集输入到标签编码器，输出标签上下文词嵌入{L₀}；

S3、随机初始化得到可学习建议特征{Q₀}和可学习的建议框{B₀}；

S4、将多尺度视觉特征图{P₂,P₃,P₄,P₅}、任务上下文词嵌入{T₀}、标签上下文词嵌入{L₀}、可学习建议特征{Q₀}和可学习的建议框{B₀}输入到多模态检测网络中，得到预测结果；预测结果通过下文中的｛Q｝、｛B｝、｛C｝等来体现；

多模态检测网络包括N个级联的单元，第i个单元的处理过程如下：

先计算v_i-1，v_i-1=RoiPooler({P₂,P₃,P₄,P₅},{B_i-1})，RoiPooler为区域池化，具体操作如下：

原始图像中的候选框大小为A×A，映射到视觉特征图后大小为(A/D)×(A/D)，D为原始图像和视觉特征图的分辨率之比，池化后的特征图大小为E×E，每个小区域的大小为A/(D×E)，采样点数为F，即对于每个[A/(D×E)]×[A/(D×E)]的区域，平分为F份，每一份取其中心点位置，而中线位置的像素采用双线性插值法计算，就得到F个点的像素值，最后，取F个点像素值中最大值作为这个小区域的像素值，得到池化结果；

然后对{Q_2i-1}、{Q_2i}和{T_i}进行更新，[{Q_2i-1},{T_i}]=MHSA([{Q_2i-2},{T_i-1}])，MHSA为多头自注意力机制，MHSA要求三个输入q、k和v，其中q=k=v=[{Q_2i-2},{T_i-1}]，运算过程为：先把q、k和v进行线性升维，然后对输出的每个头部并行做自注意力处理，最后将结果拼接；

{Q_2i}=DynamicConv({Q_2i-1},v_i-1)，DynamicConv为动态卷积，具体操作为：对{Q_2i-1}进行卷积，使用的滤波器是v_i-1；

最后计算得到{B_i}和{C_i}，{B_i}=RegHead({Q_2i})，RegHead为多层前置神经网络型的目标定位头，具体是将{Q_2i}输入到4层的多层感知器得到输出；

{C_i}=γcosine(ClsHead({Q_2i}),{L₀})，ClsHead为多层前置神经网络型的物体分类头，具体是指将{Q_2i}输入到2层的多层感知器得到输出，cosine为余弦相似度，γ为常数；

其中，N≥i≥1；{B_i}是{Q_2i}的坐标位置；{C_i}是物体的类型。

｛T_i｝在动态卷积层之前与建议特征｛Q｝融合，并且｛T｝也在单元的每次运行时迭代更新。这使网络能够学习联合调整任务嵌入和提议嵌入，并根据给定任务调整对象定位和对象分类头。

作为优选，多模态检测网络的模型训练目标函数如下：

L=λ_cls·L_cls+λ_L1·L_L1+λ_giou·L_giou

式中，L_cls是预测分类和人工标注的数据类别标签的focal loss（焦点损失函数），L_L1是归一化中心坐标预测框和人工标注的数据框的高度和宽度之间的L₁损失，L_giou是归一化中心坐标预测框和人工标注的数据框的高度和宽度之间的IoU损失；λ_cls、λ_L1和λ_giou是各分量的系数。训练损失与匹配成本相同，只是仅在匹配对上执行。最终损失是由训练批次内的对象数量归一化的所有对的总和。

作为优选，多模态检测网络在训练时，采用以下采样方式：

A1、给定任务的最大尺寸为K，对来自训练用数据集中的图像x，首先按k∈[1,K]进行均匀分布的采样；

A2、x中非重复对象类型的数量为m，如果m>k，则仅保留k个对象类型的随机子集，并删除此被保留的随机子集的额外注释；如果m<k，则从整个词汇表V中随机选择k-m个额外的否定对象类型补充到采样任务中；

A3、使用上述采样任务和人工标注的数据集对模型进行训练，当迭代次数达到阈值时训练结束；此处阈值一般为700-1300。

此采样策略可以在训练时模拟极端的多任务设置，并强制模型将其输出限制在给定任务上。使用上述方法，每个mini-batch（训练时的一个小批次）中的每个图像都会有一组不同的任务可供学习。当我们从一个大词汇量的目标检测数据集学习时，例如 LVIS，它包含1200个独特的目标类型，任务大小k的独特组合是C选择K。如果k=20，那么它会产生1.34E43种可能性。本训练策略很好地达到了目的，并产生了执行任务条件对象检测的模型。

当我们由多个不同数据集可以用来训练时，我们只需要将这些数据进行混合，然后在进行上述采样时，根据图片的数据集来源，选择正确的副样本单词词表，就可以把不同的数据集进行合并，完成模型的学习。

作为优选，所述任务集由自然语言定义，目标定位头在理解任务编码之后，只会聚焦从视觉特征中定位属于任务集的目标；物体分类头在理解任务编码和标签编码之后，只会聚焦判定潜在物体是否属于任务集中的问题。

利用自然语言作为任务和标签的编码方式，使得增加任务类型不会影响编码的大小，可以使用固定编码维度。

作为优选，图像编码器采用CNN网络模型或Vision Transformer模型。

作为优选，任务编码器为预训练完成的文字编码器，标签编码器与任务编码器相同。

作为优选，所述λ_cls为6，λ_L1为2，λ_giou为2，γ为14。

在训练完成之后，只需要通过自然语言输入，最多K个自然语言单词短语，比如（飞机，车辆，人），然后模型就会去识别画面中的飞机车辆和人。假如输入另一组不同的任务，比如（猫、狗、鸡），模型就会识别画面中是否由猫、狗和鸡。支持用户通过自然语言来定义任意新的目标类型，训练完成的模型可以直接支持，实现零标签识别。

本发明带来的实质性效果是，可以同时从无限个数据集进行学习（即使每个数据集的物体类型完全不同），并且可以在训练完成后，通过自然语言输入任意物体类型（即使在训练中没有出现过的物体类型），对于输入的物体类型进行识别。大大提高了目标检测模型的识别范围和扩展能力。

附图说明

图1是本发明的一种任务条件检测网络结构示意图；

图2是本发明的一种多模态检测网络中的第i级的结构示意图；

图3是本发明的一种一种基于视觉语言深度融合的多任务冷启动目标检测方法流程图。

具体实施方式

下面通过实施例，并结合附图，对本发明的技术方案作进一步具体的说明。

实施例：

1.模型网络结构

本方案专为极端的多任务设置而设计。设V是可能检测到的超大词汇表（比如2万单词）。任务T={w1,w2,...wk}是模型应在此正向路径中检测到的k个对象类型的集合，其中w∈V。T的大小可以是从1到K的动态范围，其中K是单个推理运行中支持的最大对象类型数。然后给定一个输入图像x和一个任务T，该模型期望从x中检测出现在T中的所有对象。由于T不是固定的，理想模型可以根据任务动态调整其检测目标。

为了解决这一挑战，本方案提供了OmDet，这是一个任务条件检测网络，可以从无限的任务组合中学习。它由视觉骨干网、任务编码器、标签编码器和多模态检测网络组成。整体结构如图1所示。下面将详细描述每个组件。

Vision Encoder（图像编码器）：从初始图像ximg∈R^3×H0×W0（具有3个颜色通道，H0和W0分别指高度和宽度）开始，让图像编码器fv成为传统的CNN主干（例如ResNet50）或Vision Transformer主干（例如Swin Transformer）生成较低分辨率（一般为原图像的1/32）的视觉特征图f∈R^C×H×W（C是特征的维数（比如256），H和W是特征空间的高度和宽度，比如7x7）在每个输出层。然后利用特征金字塔网络（FPN）从上到下聚合信息，输出一组多尺度视觉特征图{P2,P3,P4,P5}。

Task Encoder（任务编码器）和Label Encoder（标签编码器）：任务集W={w1,w2,...wk}∈R^k×V是一组自然语言单词。然后一个任务编码器ft或一个标签编码器是一个转换器模型（模型相同但是相互独立），它在没有顺序信息的情况下对任务集T进行编码，并输出一组上下文词嵌入，即{t1,t2,...tk}=ft(w1,w2,...wk)∈R^k×d和{l1,l2,...lk}=fl(w1,w2,...wk)∈R^k×d，其中d是上下文词嵌入维度大小。OmDet采用已经完成预训练的文字Encoder，比如BERT，Roberta，CLIP_text，这对于OmDet的性能非常重要。

多模态检测网络(MDN)：MDN是OmDet的核心组件。本方案采取早期融合以尽早结合来自图像和当前任务的信息，以实现强大的性能。本方案采用了一种基于迭代查询的融合机制。图2是MDN的第i级的结构图。

令Q∈R^N×d是一组固定的可学习建议特征。它是一组高维（例如，d=256）潜在特征，通过结合来自视觉骨干的信息和来自任务编码器的上下文任务嵌入，捕获潜在实例的丰富信息。此外，让B∈R^N×4是一组可学习的建议框，它们一对一地分配给每个建议特征。然后给定FPN输出和任务/标签编码器输出，初始MDN操作如下：

v_i-1=RoiPooler({P₂,P₃,P₄,P₅},{B_i-1})

[{Q_2i-1},{T_i}]=MHSA([{Q_2i-2},{T_i-1}])

{Q_2i}=DynamicConv({Q_2i-1},v_i-1)

{B_i}=RegHead({Q_2i})

{C_i}=γcosine(ClsHead({Q_2i}),{L₀})。

（1）. ROIPooler：

指的是计算机视觉中常见的池化操作，优选ROIAlign，具体步骤如下：

i.假如原图800x800，视觉特征图为25x25xH，H为特征大小

ii.假设输入候选框bbox大小为665x665，那么在特征图的大小为665/32=20.78；

iii.假设 pooled_w = 7, pooled_h = 7, 即pooler输出7x7的池化后特征图，所以将特征图20.78x20.78分割为49个同等大小的区域，每个区域大小为20.78/7=2.97

iv.假设采样点为4，即每个2.97x2.97的区域里平分4份，每一份取中心点位置，采用双线性插值法计算，会得到4个像素点，最后取4个像素值最大值作为这个小区域的像素值，如此类推，得到49个像素值，成为7x7的特征图。

具体可以参见He, Kaiming, et al. "Mask r-cnn." Proceedings of the IEEEinternational conference on computer vision. 2017. APA。

（2）. MHSA（注意下面的q是MHSA内部的变量）

a)MHSA是机器学习中成熟的模块，要求三个输入q，k，v。q，k，v分别为是浮点矩阵q\in R^{TxH}, k \in R^{M x H} v \in R ^ {M x H}；

b) 运算过程为：

i.q’ = MHSA(q, k, v), 通过q计算和每一个k的距离，得到权重之后的v之和v’，q和v’再通过前置神经网络得到q’；

具体可以参见Vaswani, Ashish, et al. "Attention is all you need."Advances in neural information processing systems 30 (2017). APA

在本发明中MHSA的输入是串联：[Q0 ,T0]，具体展开的话就是：

q=[Q0 ,T0]；k=[Q0 ,T0]；v=[Q0 ,T0]。

（3）. DynamicConv

具体操作如下：

假设RoI Features的shape是(300,7,7,256)，300是proposals个数，7x7是统一后的池化特征大小，256是表示每个特征空间位置的表征向量维度；Proposal Features的shape是(300,256)；然后由Proposal Features生成卷积参数由Proposal Features生成卷积参数：使用全连接层将最后一维由256变为2x64x256，接着切分成shape为(300,256,64)，接着进行交互：将shape为(300,7x7,256)的RoI 特征图按序和以上两部分进行矩阵乘法，输出的shape是(300,7x7,256)，这个结果就隐含了各目标对应的7x7个位置中哪些位置才是应该关心的7x7个位置中哪些位置才是应该关心的，对前景更有贡献的位置将有更高的输出值。

（4）. RegHead：

a)输入：N x d；

b) 计算：多层感知器（Multi-Layer Perception ，MLP），优选4层；

c)输出：4。

（5）. ClsHead

d) 输入：N x d；

e)计算：多层感知器（Multi-Layer Perception ，MLP），优选2层；

f)输出：N x k。

请注意，MDN可以堆叠，在下一次迭代中，输入由B₀，T₀，Q₀变成了B₁，T₁，Q₂，然后第二层MDN会输出下一轮的B₂，T₂，和Q₄，以此类推。随着层数的增加，预测的准确度会不断提高。此外，T在动态卷积层之前与提议特征Q融合（对应MHSA函数），并且T也在MDN块的每次运行时迭代更新。这使网络能够学习联合调整任务嵌入和提议嵌入，并根据给定任务调整对象定位和对象分类头。

2. 模型训练目标函数

给定上述网络，OmDet还在固定大小的分类和框坐标预测集上使用集合预测损失。基于集合的损失使用匈牙利算法在预测和地面实况对象之间产生最佳二分匹配。匹配成本定义如下：

L=λ_cls·L_cls+λ_L1·L_L1+λ_giou·L_giou

式中，L_cls是预测分类和人工标注的数据类别标签的focal loss，L_L1是归一化中心坐标预测框和人工标注的数据框的高度和宽度之间的L₁损失，L_giou是归一化中心坐标预测框和人工标注的数据框的高度和宽度之间的IoU损失；λ_cls、λ_L1和λ_giou是各分量的系数。λ_cls为6，λ_L1为2，λ_giou为2。训练损失与匹配成本相同，只是仅在匹配对上执行。最终损失是由训练批次内的对象数量归一化的所有对的总和。训练停止条件是迭代数量达到目标，比如设置迭代20000次，完成就结束。

3. 训练采样策略和多任务学习

为了在训练时模拟极端的多任务设置，并强制模型将其输出限制在给定任务上，在训练期间使用了一种新的任务采样策略。

1.假设给定任务的最大尺寸为K，对于来自mini-batch数据集中的图像x，首先对k∈[1,K]进行均匀分布的采样；

2.设x中唯一对象类型的数量为m，如果m>k，则仅保留k个对象类型的随机子集，并删除此小批量的额外注释。如果m<k，则从整个词汇表V中随机选择额外的否定对象类型；

3.使用上述采样任务和ground truth annotations训练模型。

使用上述方法，每个mini-batch中的每个图像都会有一组不同的任务可供学习。当从一个大词汇量的目标检测数据集学习时，例如LVIS，它包含1200个独特的目标类型，任务大小k的独特组合是C选择K。如果k=20，那么它会产生1.34E43种可能性。实验表明，所提出的训练策略很好地达到了目的，并产生了执行任务条件对象检测的模型。

当由多个不同数据集可以用来训练时，只需要将这些数据进行混合，然后在进行上述采样时，根据图片的数据集来源，选择正确的副样本单词词表，就可以把不同的数据集进行合并，完成模型的学习。

4. 训练完成的模型使用

OmDet的使用非常方便，在训练完成之后，只需要通过自然语言输入，最多K个自然语言单词短语，比如（飞机，车辆，人），然后模型就会去识别画面中的飞机车辆和人。假如输入另一组不同的任务，比如（猫、狗、鸡），模型就会识别画面中是否由猫、狗和鸡。具体过程如下：

一种基于视觉语言深度融合的多任务冷启动目标检测方法，如图3所示，包括以下步骤：

S1、将初始图像输入图像编码器，在每个输出层生成低分辨率的视觉特征图,分辨率不超过原始图像的1/16，然后利用特征金字塔网络对低分辨率的视觉特征图从上到下聚合信息，输出一组多尺度视觉特征图{P₂,P₃,P₄,P₅}；

S4、将视觉特征图{P₂,P₃,P₄,P₅}、任务上下文词嵌入{T₀}、标签上下文词嵌入{L₀}、可学习建议特征{Q₀}和可学习的建议框{B₀}输入到多模态检测网络中，得到预测结果；

其中，N≥i≥1；{B_i}是{Q_2i}的坐标位置；{C_i}是物体的类型。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

尽管本文较多地使用了图像编码器、任务编码器、视觉特征图等术语，但并不排除使用其它术语的可能性。使用这些术语仅仅是为了更方便地描述和解释本发明的本质；把它们解释成任何一种附加的限制都是与本发明精神相违背的。

Claims

1.一种基于视觉语言深度融合的多任务冷启动目标检测方法，其特征在于，包括以下步骤：

S1、将初始图像输入图像编码器，在每个输出层生成低分辨率的视觉特征图，分辨率不超过原始图像的1/16，然后利用特征金字塔网络对低分辨率的视觉特征图从上到下聚合信息，输出一组多尺度视觉特征图{P₂,P₃,P₄,P₅}；

S4、将多尺度视觉特征图{P₂,P₃,P₄,P₅}、任务上下文词嵌入{T₀}、标签上下文词嵌入{L₀}、可学习建议特征{Q₀}和可学习的建议框{B₀}输入到多模态检测网络中，得到预测结果；

其中，N≥i≥1；{B_i}是{Q_2i}的坐标位置；{C_i}是物体的类型。

2.根据权利要求1所述的一种基于视觉语言深度融合的多任务冷启动目标检测方法，其特征在于，多模态检测网络的模型训练目标函数如下：

L=λ_cls·L_cls+λ_L1·L_L1+λ_giou·L_giou

式中，L_cls是预测分类和人工标注的数据类别标签的focal loss，L_L1是归一化中心坐标预测框和人工标注的数据框的高度和宽度之间的L₁损失，L_giou是归一化中心坐标预测框和人工标注的数据框的高度和宽度之间的IoU损失；λ_cls、λ_L1和λ_giou是各分量的系数。

3.根据权利要求2所述的一种基于视觉语言深度融合的多任务冷启动目标检测方法，其特征在于，多模态检测网络在训练时，采用以下采样方式：

A3、使用上述采样任务和人工标注的数据集对模型进行训练，当迭代次数达到阈值时训练结束。

4.根据权利要求1所述的一种基于视觉语言深度融合的多任务冷启动目标检测方法，其特征在于，所述任务集由自然语言定义，目标定位头在理解任务编码之后，只会聚焦从视觉特征中定位属于任务集的目标；物体分类头在理解任务编码和标签编码之后，只会聚焦判定潜在物体是否属于任务集中的问题。

5.根据权利要求1或2所述的一种基于视觉语言深度融合的多任务冷启动目标检测方法，其特征在于，图像编码器采用CNN网络模型或Vision Transformer模型。

6.根据权利要求5所述的一种基于视觉语言深度融合的多任务冷启动目标检测方法，其特征在于，任务编码器为预训练完成的文字编码器，标签编码器与任务编码器相同。

7.根据权利要求2所述的一种基于视觉语言深度融合的多任务冷启动目标检测方法，其特征在于，所述λ_cls为6，λ_L1为2，λ_giou为2，γ为14。