CN117788785A

CN117788785A - 一种基于文本和图像的多模态目标检测的MultiFNet架构方法

Info

Publication number: CN117788785A
Application number: CN202311448952.5A
Authority: CN
Inventors: 郑中华; 胡淦; 王文仲
Original assignee: ANHUI BORYOU INFORMATION TECHNOLOGY CO LTD
Current assignee: ANHUI BORYOU INFORMATION TECHNOLOGY CO LTD
Priority date: 2023-11-02
Filing date: 2023-11-02
Publication date: 2024-03-29

Abstract

本发明提出了一种基于文本和图像的多模态目标检测的MultiFNet架构方法，属于计算机视觉与自然语言处理交叉领域。该方法采用先进的目标检测和语义提取技术，以ResNet50‑FPN、BERT‑BiGRU、协同双注意力模块及Transformer为基础实现，旨在提高目标检测的精度。具体包括如下步骤；首先，利用ResNet50‑FPN算法从输入的图像中提取候选目标的特征，同时利用BERT‑BiGRU算法提取文本的特征。接着，通过协同双注意力模块将图像嵌入和语言嵌入拼接，生成一个完整样本的图像和文本特征序列，随后送入Transformer模块进行进一步处理。在广泛采用的大型目标检测数据集MSCOCO上的实验结果显示，本方法在目标检测精度上优于其他多模态目标检测算法，为本发明的有效性提供了有力的验证。

Description

一种基于文本和图像的多模态目标检测的MultiFNet架构方法

技术领域

本发明属于计算机视觉与自然语言处理交叉领域中新兴的研究方向，具体涉及一种基于文本和图像的多模态图像目标检测方法。

背景技术

目标检测作为计算机视觉与模式识别领域的核心技术之一，在智能化和信息化进程中扮演着重要的角色。它在诸如遥感目标识别、自动驾驶以及工业自动化等领域发挥着关键作用。因此，对图像进行目标检测的研究具有极其重要的意义。

传统的目标检测方法往往依赖于单一数据源，例如仅依赖于图像或文本，以实现对目标的准确识别。然而，单模态目标检测存在一些显著的局限性。首先，这类方法仅能利用单一数据源的信息，难以全面获取目标的多维特征。其次，在处理复杂场景或密集目标的情况下，单模态目标检测容易受到环境干扰，进而导致检测性能的下降。最后，这些方法往往忽略了目标的语义信息，无法深入理解目标的具体特征和属性。为了克服这一系列挑战，本研究旨在提出一种基于文本和图像的多模态目标检测方法。该方法通过融合多种信息源，包括图像和文本，以显著提升目标检测的准确性和鲁棒性。这一创新性的方法将使得我们能够更全面、全面地理解和识别目标，尤其在复杂场景下，其性能将有望得到显著的提升。

基于文本和图像的多模态目标检测方法是一种在计算机视觉与自然语言处理交叉领域中新兴的研究方向。该方法通过同时利用图像和文本信息，旨在实现对复杂场景中目标的准确识别与定位。相对于传统的单模态目标检测方法，它在信息处理层面引入了多模态数据，以更全面地理解目标特征。具体而言，这种方法首先通过图像处理技术，对输入的图像进行特征提取和分析，以获取视觉信息，例如颜色、纹理等。同时，它还利用自然语言处理技术对与图像相关联的文本信息进行语义理解和特征提取，获得了与目标相关的语义信息，如目标类别、属性等。接着，基于融合后的多模态信息，通常采用深度学习等先进技术，利用神经网络结构进行综合处理，从而实现对目标的高效识别和定位。这样的综合处理使得系统能够在面对复杂情景时具备更强的鲁棒性和准确性，例如在目标遮挡、光照变化等复杂条件下也能取得良好的检测效果。

发明内容

本发明针对图像目标检测准确率不高、损失率较大的问题，提出了一种基于文本和图像的多模态目标检测的MultiFNet架构方法，该方法的核心在于提出一种新的目标检测框架：MultiFNet。本方法旨在改进目标检测性能。为了实现这一目标，我们采用了以下技术方案：：

首先，利用ResNet50-FPN算法从输入的图像中提取候选目标的特征，同时利用BERT-BiGRU算法提取文本的特征。接着，通过协同双注意力模块将图像嵌入和语言嵌入拼接，生成一个完整样本的图像和文本特征序列，随后送入Transformer模块进行预测框的坐标和类别标签，具体包括如下步骤：

步骤1、从输入的图像中利用ResNet50-FPN算法提取候选目标的特征；

步骤2、利用BERT-BiGRU算法提取文本的特征；

步骤3、通过协同双注意力模块将图像embedding和语言embedding拼接，生成一个完整样本的图像和文本特征序列；

步骤4、经过提取图像和文本特征序列的步骤后，将其输入至Transformer模块以进行预测框的坐标和类别标签，输出目标检测后的图像。

进一步地，步骤1的具体过程如下：

步骤1.1、首先，从输入的图像开始，通常图像的尺寸为H x W x C，其中，H＝1024，表示图像的高度，W＝1024，表示图像的宽度，C＝3，表示通道数；

步骤1.2、将输入图像通过ResNet50网络进行前向传播。ResNet50网络包含多个残差块，其中每个块内部包括卷积层、批量归一化和激活函数，以及跳跃连接。这允许网络学习更深层次的特征表示，残差块的计算可以用以下公式1表示；

其中,输入的特征为X，残差块的输出为F(X)，是残差块内部的卷积操作。

步骤1.3、FPN被引入以处理多尺度的特征图。它会从ResNet50中选择一些特定层的特征图作为基础，然后通过上采样和降采样操作将它们融合在一起，形成具有金字塔状结构的特征层次，例如P2、P3、P4、P5等。这样可以在不同尺度上检测目标，上采样操作使用双线性插值来放大特征图，降采样操作通常使用卷积层或池化层；

步骤1.4、RPN是一个专门用于生成候选区域的网络。它会在FPN的特征图上滑动一个小窗口，同时在每个位置处预测一组固定数量的边界框，并为每个边界框分配一个前景/背景的分数。这些边界框将作为候选区域传递到后续的处理步骤，实现了对输入图像中目标的检测和定位。

进一步地，步骤2的具体过程如下：

步骤2.1、首先，将输入的文本进行预处理，包括分词、移除停用词、词干提取等操作，以便将其转化为适合模型处理的格式；

步骤2.2、使用预训练的词嵌入模型Word2Vec将每个词映射为高维向量。这些向量将作为模型的输入；

步骤2.3、将Word Embedding作为输入传入BiGRU网络。BiGRU是一个门控循环单元(GRU)的扩展，它能够有效地捕获文本中的上下文信息。BiGRU的输出将是一个序列，其中每个时间步的输出都包含了该时刻的前后文信息，BiGRU的前向传播公式如公式2、3、4、5所示：

r_t＝σ(W_irx_t+b_ir+W_hrh_t-1+b_hr) (2)

z_t＝σ(W_izx_t+b_iz+W_hzh_t-1+b_hz) (3)

其中，X＝(x₁,x₂,....,x_T)，r_t是重置门，z_t是更新门，h_t是当前时间步的隐藏状态。

步骤2.4、将BiGRU的输出作为BERT模型的输入。BERT是一个基于Transformer的模型，能够进一步捕获上下文信息和语义特征。将BiGRU和BERT的输出融合，可以通过简单的拼接、加权平均等方式，得到最终的文本特征表示。

进一步地，步骤3的具体过程如下：

步骤3.1、图像embedding：通过ResNet50-FPN算法从输入的图像中提取的候选目标特征，语言embedding：通过BERT-BiGRU算法提取的文本特征；

步骤3.2、对于图像特征和文本特征，通过引入注意力机制Scaled Dot-ProductAttention分别计算它们的注意力权重；

步骤3.3、注意力机制用于给不同位置的特征分配不同的权重，以便模型能够聚焦在最重要的信息上。对于图像特征，可能会使用一维卷积层或全连接层来计算注意力权重。对于文本特征，使用自注意力机制(BERT中的Multi-HeadAttention)来计算权重；

步骤3.4、使用计算得到的注意力权重对图像和文本特征通过加权拼接方式进行加权融合。最终得到一个完整样本的特征序列，其中包含了图像和文本信息的综合表示。将融合后的特征序列作为模型的输入，送入Transformer模块进行进一步处理。

进一步地，步骤4的具体过程如下：

步骤4.1、通过加权拼接方式融合图像和文本特征后，将所得特征序列送入Transformer的编码器。解码器的输入包括N个可训练的嵌入，也被称为对象查询。这些查询可被视为模型需填充的检测目标插槽；

步骤4.2、在送入解码器后，通过采用交叉注意力机制，将这些对象查询与编码后的图像特征进行信息交互，从而预测每个查询的输出嵌入向量

步骤4.3、最终，通过一个参数共享的前馈神经网络(FFN)，对每个查询的输出嵌入进行处理，以预测边界框的坐标和类别标签。

本发明所带来的有益技术效果：

1、针对单模态目标检测的准确率比较低，提出了采用基于文本和图像的多模态目标检测的MultiFNet架构，该架构通过融合图像和文本，以显著提升目标检测的准确性和鲁棒性。

2、针对图像特征提取模块存在准确率较低的问题，提出了将原有的特征提取模块ResNet50进行了改良，形成了ResNet50-FPN特征提取网络。该网络在多尺度特征提取方面展现出了显著的性能优势，有效地提升了目标检测的准确度。与传统的ResNet50模型相比，本发明的研究结果表明，引入ResNet50-FPN后，目标检测准确率可显著提升，提高幅度在5％至10％左右。

3、针对文本特征提取模块准确率偏低的问题，提出了基于改进的Bi-GRU模型：BERT-BiGRU，提高了文本特征提取模块的准确率。

4、针对文本特征和图像特征融合方面，提出了协同双注意力模块，该模块通过引入多层次的关注机制，可以使模型更全面地理解输入数据的特征，提高了模型在复杂任务上的性能表现。

附图说明

图1为本发明基于文本和图像的多模态目标检测的MultiFNet架构。

图2为使用MultiFNet架构对文本和图像进行多模态目标检测的处理流程图。

具体实施方式

下面结合附图以及具体实施方式对本发明作进一步详细说明：

如图1所示，本发明提出了一种基于文本和图像的多模态目标检测的MultiFNet架构方法，具体来说，首先，利用ResNet50-FPN算法从输入的图像中提取候选目标的特征，同时利用BERT-BiGRU算法提取文本的特征。接着，通过协同双注意力模块将图像嵌入和语言嵌入拼接，生成一个完整样本的图像和文本特征序列，随后送入Transformer模块进行预测框的坐标和类别标签。具体包括如下步骤：

步骤1、从输入的图像中利用ResNet50-FPN算法提取候选目标的特征。具体过程如下：

步骤2、利用BERT-BiGRU算法提取文本的特征。具体过程如下：

步骤2.3、将WordEmbedding作为输入传入BiGRU网络。BiGRU是一个门控循环单元(GRU)的扩展，它能够有效地捕获文本中的上下文信息。BiGRU的输出将是一个序列，其中每个时间步的输出都包含了该时刻的前后文信息，BiGRU的前向传播公式如公式2、3、4、5所示：

r_t＝σ(W_irx_t+b_ir+W_hrh_t-1+b_hr) (2)

z_t＝σ(W_izx_t+b_iz+W_hzh_t-1+b_hz) (3)

步骤3、通过协同双注意力模块将图像embedding和语言embedding拼接，生成一个完整样本的图像和文本特征序列。具体过程如下：

步骤4、经过提取图像和文本特征序列的步骤后，将其输入至Transformer模块以进行预测框的坐标和类别标签，输出目标检测后的图像。具体过程如下：

本发明为了证明本发明方法的可行性和优越性，进行了验证实验与对比实验。本发明在MSCOCO数据集上进行了相关实验。MSCOCO数据集是一个被用来研究多种计算机视觉任务(目标检测、语义分割、视觉问答等)的大型数据集。它有超过30K张图像，每张图像都包含对应的5句文本描述，这些目标的类别和坐标都进行了详细的标注。本发明的实验阶段，我们以MSCOCO2017数据集为基础进行了实验验证。MSCOCO2017数据集的具体组成如下：训练集总计包括了118287张图像，而验证集则涵盖了3000张图像，测试集2000张图像。此数据集的选用使得我们的发明在大规模实际场景中得以充分测试和验证。

本发明采用平均精度AP和平均精度取平均值mAP两项指标来评估目标检测的准确率，其中，AP⁵⁰是IoU＝0.5时的平均精度，AP⁷⁵是IoU＝0.75时的平均精度，AP_x对小尺寸目标的平均精度，AP_m对中尺寸目标的平均精度，AP_l对大尺寸目标的平均精度。以下为验证实验的具体步骤：

实验环境配置：windows10操作系统、AMD Ryzen 3600X CPU@4.4GHz、16GB RAM、python3.8、PyTorch1.1.1

输入：图像X。

输出：图像X目标检测后的结果，X’为目标检测后的结果。

步骤1：在发明的方法中，针对MSCOCO2017数据集的特定需求，首先将该数据集进行分割，划分为训练集、验证集和测试集，以支持模型训练、调优和评估的进行。该数据集的分割方案基于对图像内容、场景多样性等特征的全面考量，以确保训练过程具有良好的代表性和泛化能力。

步骤2：随后，使用训练集数据对模型进行训练。在该过程中，采用了Adam优化器算法进行优化，设置学习速率计划程序每3个epoch将学习速率降低10倍，以提升模型在目标检测任务上的性能。

步骤3：综合特征提取与目标检测模块利用了预训练的ResNet50-FPN对图像进行特征提取，生成多层次特征图。同时，通过BERT-BiGRU对文本进行特征提取，进一步丰富了模型对图像与文本的综合理解。随后，采用协同双注意力模块，将图像和文本特征进行融合，形成一个完整样本的综合特征序列。最终，利用Transformer模块对综合特征序列进行处理，以预测框的坐标和类别标签，实现高效准确的目标检测，生成目标检测后的图像。

输出：目标检测后的图像X’；

为了全面评估本发明的性能，我们将其与仅采用图像输入的Mask R-CNN算法、多模态的Mask R-CNN方法以及Yuan等人提出的多模态目标检测方法进行了对比，具体结果见表1。

表1不同方法的比较结果

通过表2的数据对比可以明显看出，本研究提出的基于文本和图像的多模态目标检测方法，即MultiFNet架构，在相同的数据集下，在图像目标检测的准确度方面比仅使用图像输入的Mask R-CNN方法提升了3％-4％。相较于单一模态的Mask R-CNN方法，提升了3％；相较于Yuan等人提出的多模态目标检测方法，提升了约2％。因此，本研究所提出的方法在目标检测的准确性方面表现出色。

当然，上述说明并非是对本发明的限制，本发明也并不限于上述举例，本技术领域的技术人员在本发明的实质范围内所作出的变化、改型、添加或替换，也应属于本发明的保护范围。

Claims

1.一种基于文本和图像的多模态目标检测的MultiFNet架构方法，其特征在于，首先，利用ResNet50-FPN算法从输入的图像中提取候选目标的特征，同时利用BERT-BiGRU算法提取文本的特征。接着，通过协同双注意力模块将图像嵌入和语言嵌入拼接，生成一个完整样本的图像和文本特征序列，随后送入Transformer模块进行预测框的坐标和类别标签。具体包括如下步骤：

步骤2、利用BERT-BiGRU算法提取文本的特征；

2.根据权利要求1所述的基于文本和图像的多模态目标检测方法，其特征在于，所述步骤1的具体过程如下：

步骤1.1、首先，从输入的图像开始，通常图像的尺寸为HxWxC，其中，H＝1024，表示图像的高度，W＝1024，表示图像的宽度，C＝3，表示通道数；

3.根据权利要求1所述基于文本和图像的多模态目标检测的MultiFNet架构方法，其特征在于，所述步骤2的具体过程如下：

r_t＝σ(W_irx_t+b_ir+W_hrh_t-1+b_hr) (2)

z_t＝σ(W_izx_t+b_iz+W_hzh_t-1+b_hz) (3)

4.根据权利要求1所述的基于文本和图像的多模态目标检测的MultiFNet架构方法，其特征在于，所述步骤3的具体过程如下：

步骤3.2、对于图像特征和文本特征，通过引入注意力机制ScaledDot-ProductAttention分别计算它们的注意力权重；

步骤3.3、注意力机制用于给不同位置的特征分配不同的权重，以便模型能够聚焦在最重要的信息上。对于图像特征，可能会使用一维卷积层或全连接层来计算注意力权重。对于文本特征，使用自注意力机制(BERT中的Multi-Head Attention)来计算权重；

5.根据权利要求1所述的基于文本和图像的多模态目标检测的MultiFNet架构方法，其特征在于，所述步骤4的具体过程如下：