CN116612365A

CN116612365A - 基于目标检测和自然语言处理的图像字幕生成方法

Info

Publication number: CN116612365A
Application number: CN202310680078.1A
Authority: CN
Inventors: 孙俊; 高增
Original assignee: Uni Entropy Intelligent Technology Wuxi Co ltd
Current assignee: Uni Entropy Intelligent Technology Wuxi Co ltd
Priority date: 2023-06-09
Filing date: 2023-06-09
Publication date: 2023-08-18
Anticipated expiration: 2043-06-09
Also published as: CN116612365B

Abstract

本发明涉及图像字幕技术领域，具体公开了一种基于目标检测和自然语言处理的图像字幕生成方法，包括：获取待生成字幕图像，并对待生成字幕图像进行向量处理以及目标检测后获得两组相同的向量图像特征；将一组向量图像特征输入至编码器以进行特征提取处理，获得图像处理特征；将另一组向量图像特征输入至解码器，以与图像描述文本进行第一次信息交互，获得第一次交互结果；将图像处理特征输入至解码器以与第一次交互结果进行第二次信息交互，获得第二次交互结果；对第二交互结果进行转换处理获得图像字幕，并输出所述图像字幕。本发明提供的基于目标检测和自然语言处理的图像字幕生成方法解决了图像字幕与图像实际内容表达之间的偏差的问题。

Description

基于目标检测和自然语言处理的图像字幕生成方法

技术领域

本发明涉及图像字幕技术领域，尤其涉及一种基于目标检测和自然语言处理的图像字幕生成方法。

背景技术

图像字幕的背景源于对于图像理解和自然语言处理的需求。图像是人类获取信息的主要途径之一，但是对于计算机来说，图像是无法直接理解的。因此如何让计算机理解图像成为了一个重要的研究方向。另一方面，自然语言是人类交流的主要方式之一，但是计算机无法像人类一样能够轻松理解和生成自然语言。因此，如何让计算机能够处理自然语言也成为了一个重要的研究方向。

图像字幕的研究可以追溯到20世纪80年代。最初的研究方法是手动提取图像的特征，并使用这些特征来生成文本描述。这种方法的缺点是需要大量的人工工作，并且不能处理复杂的场景。随着计算机视觉和自然语言处理的不断发展，基于深度学习的图像字幕方法逐渐成为主流。这些方法利用深度学习网络对图像进行特征提取，并使用循环神经网络等模型生成文字描述。但是现有技术中的这种方式建模后的模型在图像内容提取与文字生成过程中容易有噪声干扰而导致生成的字幕与实际的图像内容表达存在比较大的偏差。另外，现有技术的语言模型也不太适用于字幕生成进而导致偏差更加明显。

因此，如何能够降低图像字幕与图像实际内容表达之间的偏差成为本领域技术人员亟待解决的技术问题。

发明内容

本发明提供了一种基于目标检测和自然语言处理的图像字幕生成方法，解决相关技术中存在的图像字幕与图像实际内容表达之间的偏差的问题。

作为本发明的一个方面，提供一种基于目标检测和自然语言处理的图像字幕生成方法，其中，包括：

获取待生成字幕图像，并对所述待生成字幕图像进行向量处理以及目标检测后获得两组相同的向量图像特征；

将一组向量图像特征输入至编码器以进行特征提取处理，获得图像处理特征；

将另一组向量图像特征输入至解码器，以与图像描述文本进行第一次信息交互，获得第一次交互结果；

将所述图像处理特征输入至所述解码器以与所述第一次交互结果进行第二次信息交互，获得第二次交互结果；

对所述第二交互结果进行转换处理获得图像字幕，并输出所述图像字幕。

进一步地，将一组向量图像特征输入至编码器以进行特征提取，获得图像处理特征，包括：

将一组向量图像特征输入至编码器进行特征提取，获得图像提取特征；

将所述图像提取特征输入至定向注意力机制后进行归一化处理，获得图像处理特征。

进一步地，将一组向量图像特征输入至编码器进行特征提取，获得图像提取特征，包括：

将一组向量图像特征输入至前馈神经网络进行特征提取，获得图像提取特征，其中所述前馈神经网络的计算公式为：

，

其中，，/>表示所述目标检测结果，n表示图像的批次数量，表示权重矩阵，/>表示偏置向量，f表示激活函数。

进一步地，将所述图像提取特征送入至定向注意力机制后进行归一化处理，获得图像处理特征，包括：

将所述图像提取特征进行随机失活处理，获得随机失活处理后的特征；

将所述随机失活处理后的特征输入至定向注意力机制进行处理，获得处理后的信息；

对处理后的信息进行归一化处理，获得归一化处理的特征；

将归一化处理的特征根据激活函数进行处理，并与所述随机失活处理后的特征进行关联，获得图像处理特征。

进一步地，将另一组向量图像特征输入至解码器，以与图像描述文本进行第一次信息交互，获得第一次交互结果，包括：

获取图像描述文本，并对所述图像描述文本进行向量化处理，获得图像描述文本向量；

将所述图像描述文本向量输入至解码器进行文本信息处理，获得文本信息处理结果；

将另一组向量图像特征输入至解码器，与所述文本信息处理结果进行第一次信息交互，获得第一次交互结果。

进一步地，将所述图像描述文本向量输入至解码器进行文本信息处理，获得文本信息处理结果，包括：

将所述图像描述文本向量输入至解码器进行位置编码处理，以弥补文本缺失信息；

将位置编码处理后的图像描述文本向量进行多头注意力机制处理以捕捉文本信息之间的相关性，获得文本信息处理结果。

进一步地，将另一组向量图像特征输入至解码器，与所述文本信息处理结果进行第一次信息交互，获得第一次交互结果，包括：

将另一组向量特征输入至解码器，与所述文本信息处理结果通过第一层长短时记忆网络进行第一次信息交互，获得第一次交互结果。

进一步地，将所述图像处理特征输入至所述解码器以与所述第一次交互结果进行第二次信息交互，获得第二次交互结果，包括：

将所述图像处理特征输入至所述解码器，并与所述第一次交互结果通过第二层长短时记忆网络进行第二次信息交互，获得第二次交互结果。

进一步地，对所述待生成字幕图像进行向量处理以及目标检测后获得两组相同的向量图像特征，包括：

对所述待生成字幕图像进行向量处理和初步特征提取，获得初步图像特征；

对所述初步图像特征进行目标检测处理，获得两组相同的向量图像特征。

进一步地，对所述第二交互结果进行转换处理获得图像字幕，包括：

根据贪婪搜索算法对所述第二交互结果进行转换处理获得图像字幕。

本发明提供的基于目标检测和自然语言处理的图像字幕生成方法，通过将待生成字幕图像处理后获得两组相同的向量图像特征，然后分别输入至编码器和解码器进行处理，其中进入编码器的向量图像特征通过对目标检测后的图像进行特征提取，进入解码器的向量图像特征能够与图像描述文本进行信息交互后再次与编码器输出的提取后的图像处理特征进行交互，最终经过损失函数的计算，获得图像字幕。这种基于目标检测和自然语言处理的图像字幕生成方法由于进行目标检测后再进行了特征提取能够有效去除图像噪声提升特征提取的准确度，进而提升最终图像字幕生成的精准度，另外由于图像特征与图像描述文本进行的多次有效融合能够有效降低生成的图像字幕与图像实际内容表达之间的偏差，提升图像字幕表达的准确性。

附图说明

附图是用来提供对本发明的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明，但并不构成对本发明的限制。

图1为本发明提供的基于目标检测和自然语言处理的图像字幕生成方法的流程图。

图2为本发明提供的图像处理特征获得的流程图。

图3为本发明提供的编码器和解码器的结构模型示意图。

图4为本发明提供的进行定向注意力机制处理的流程图。

图5为本发明提供的第一次信息交互的流程图。

图6为本发明提供的文本信息处理的流程图。

图7为本发明提供的解码器模型处理流程图。

图8为本发明提供的效果展示对比图。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互结合。下面将参考附图并结合实施例来详细说明本发明。

为了使本领域技术人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包括，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本实施例中提供了一种基于目标检测和自然语言处理的图像字幕生成方法，图1是根据本发明实施例提供的基于目标检测和自然语言处理的图像字幕生成方法的流程图，如图1所示，包括：

S100、获取待生成字幕图像，并对所述待生成字幕图像进行向量处理以及目标检测后获得两组相同的向量图像特征；

在本发明实施例中，针对待生成字幕图像对其进行向量化处理和目标检测处理，以获得两组相同维度的向量图像特征。

S200、将一组向量图像特征输入至编码器以进行特征提取处理，获得图像处理特征；

前文中获得的两组相同的向量图像特征中的一组向量图像特征用于输入至编码器进行特征提取。

具体地，该组向量图像特征能够在输入至编码器后进行特征提取，这样在目标检测的基础上再进行特征提取能够获得充分有效的目标检测提取特征。相比于直接在图像中进行特征提取，目标检测在图像字幕中能发挥更好的作用，是因为直接在图像中进行特征提取会有大量的噪声干扰到文本提取的准确性，而在目标检测后进行特征提取，剔除了场景干扰因素造成的影响。

S300、将另一组向量图像特征输入至解码器，以与图像描述文本进行第一次信息交互，获得第一次交互结果；

将前文获得的另一组向量图像特征输入至解码器，以能够与处理后的图像描述文本进行信息交互，即相比单模态，多模态能发挥更好的作用，是因为不同模态之间存在关联性，通过捕捉该关联性从而提升最终图像字幕的精准性。

S400、将所述图像处理特征输入至所述解码器以与所述第一次交互结果进行第二次信息交互，获得第二次交互结果；

将编码器中输出的图像处理特征输入至解码器与第一次交互结果再次进行信息交互，获得第二次交互结果，该方式同样是为了增强图像特征与文本描述之间的关联性，进而提升图像字幕生成的精准性。

S500、对所述第二交互结果进行损失函数计算，获得图像字幕。

对解码器输出的第二次交互结果进行损失函数计算，以减小图像字幕与真实意思表达之间的差距，进一步提升所生成的图像字幕的精准性。

本发明实施例提供的基于目标检测和自然语言处理的图像字幕生成方法，通过将待生成字幕图像处理后获得两组相同的向量图像特征，然后分别输入至编码器和解码器进行处理，其中进入编码器的向量图像特征通过对目标检测后的图像进行特征提取，进入解码器的向量图像特征能够与图像描述文本进行信息交互后再次与编码器输出的提取后的图像处理特征进行交互，最终经过损失函数的计算，获得图像字幕。这种基于目标检测和自然语言处理的图像字幕生成方法由于进行目标检测后再进行了特征提取能够有效去除图像噪声提升特征提取的准确度，进而提升最终图像字幕生成的精准度，另外由于图像特征与图像描述文本进行的多次有效融合能够有效降低生成的图像字幕与图像实际内容表达之间的偏差，提升图像字幕表达的准确性。

在本发明实施例中，对所述待生成字幕图像进行处理获得两组相同的向量图像特征，具体可以包括：

例如，对待生成字幕图像进行向量处理和初步特征提取后，获得初步图像特征，进而通过Faster R-CNN网络处理后提取了两组相同的2048维的向量图像特征，获得两组特征区域，其中/>，此处/>即为向量图像特征。

应当理解的是，本发明实施例为了能够剔除干扰因素，提升文本提取的准确性，在进行向量处理提取初步图像特征后，进行目标检测，目标检测后的向量图像特征进入编码器进行再次图像特征提取，从而能够获得比较精准的图像特征。

如图2所示，将一组向量图像特征输入至编码器以进行特征提取，获得图像处理特征，包括：

S210、将一组向量图像特征输入至编码器进行特征提取，获得图像提取特征；

如图3所示，将其中一组向量图像特征X输入至编码器进行特征提取，具体可以包括：

，

S220、将所述图像提取特征输入至定向注意力机制后进行归一化处理，获得图像处理特征。

进一步具体地，如图4所示，将所述图像提取特征送入至定向注意力机制后进行归一化处理，获得图像处理特征，包括：

S221、将所述图像提取特征进行随机失活处理，获得随机失活处理后的特征；

应当理解的是，通过对图像提取特征进行随机失活处理，能够有效避免数据处理时出现过拟合的情况，提升数据处理的准确性。

S222、将所述随机失活处理后的特征输入至定向注意力机制进行处理，获得处理后的信息；

具体地，将经过随机失活处理后的特征进行线性变化处理，经过线性变化处理后的特征输入至定向注意力机制进行处理，具体计算过程：

，

其中，表示定向注意力机制处理后的信息，/>和/>均表示可学习的权重矩阵，表示经过前馈神经网络进行特征提取后的图像提取特征，/>表示经过解码器由文本序列输入长短时记忆网络生成的文本特征信息。

另外，需要说明的是，此处随机失活处理时调用该随机失活处理的函数库即可实现，通过线性处理后能够获得更好的处理特征数据。

应当理解的是，通过使用定向注意力机制进行特征信息加权处理，能够对后续图像字幕生成起到积极影响作用，即能够有效提升图像字幕生成的准确性。

S223、对处理后的信息进行归一化处理，获得归一化处理的特征；

在本发明实施例中，对经过定向注意力机制处理后的信息进行归一化处理，也就是对做标准化/>（LN）操作，这种归一化的方式是对一个批次中的所有通道里的每个参数的均值和方差进行归一化操作。LN的计算公式如下所示：

，

其中，表示归一化处理的特征，/>表示定向注意力机制处理后的信息/>在每一个维度上的均值，/>表示定向注意力机制处理后的信息/>的方差，/>表示一个很小的数据以防止分母为零，/>均表示初始化的参数张量。

S224、将归一化处理的特征根据激活函数进行处理，并与所述随机失活处理后的特征进行关联，获得图像处理特征。

将上述归一化处理后的特征在激活函数处理之后，与在前面随机失活后的特征信息进行关联，具体计算操作如下所示：

，

其中，表示图像处理特征。

需要说明的是，所述激活函数能够使得数据缩放在0~1之间，便于后续数据的处理操作。

具体地，如图5所示，将另一组向量图像特征输入至解码器，以与图像描述文本进行第一次信息交互，获得第一次交互结果，包括：

S310、获取图像描述文本，并对所述图像描述文本进行向量化处理，获得图像描述文本向量；

应当理解的是，在本发明实施例中，给定图像描述文本，并对该图像描述文本进行向量化处理。对上述图像描述文本进行向量化处理后，获得图像描述文本向量Y。如图3所示，图像描述文本向量Y进入到解码器。

S320、将所述图像描述文本向量输入至解码器进行文本信息处理，获得文本信息处理结果；

具体地，如图6所示，可以包括：

S321、将所述图像描述文本向量输入至解码器进行位置编码处理，以弥补文本缺失信息；

应当理解的是，使用文本嵌入和位置编码对文本信息进行处理，用来捕捉位置之间关系，弥补信息缺失。

给定的图像描述文本向量为，其中m表示句子的长度，将图像描述文本向量进行文本嵌入，进行向量化处理，形成稠密矩阵/>,可以更好的构建语义之间的关系，同时，对输入的句子进行位置编码处理形成/>，用以弥补位置信息的缺失，计算方式如下所示：

，

。

其中，表示每个单词的位置信息，/>指单词的字符序号，/>表示单词向量的维度，将单词向量与最终的位置进行融合，比如第/>个单词记作/>，把文本嵌入和位置编码进行融合形成/>,将其输入到多头注意力机制中进行编码。

S322、将位置编码处理后的图像描述文本向量进行多头注意力机制处理以捕捉文本信息之间的相关性，获得文本信息处理结果。

应当理解的是，使用多头注意力机制，来捕捉文本信息之间的相关性信息，能够让文本拥有更多元的表达。

将获取的进行线性变换后分成/>进行位置计算，线性变换后不改变原有张量的尺寸进行矩阵计算，计算公式如下所示，这里设置头的数量/>为8，最后进行掩码操作得到/>，此处/>表示的即为文本信息处理结果。

。

此处需要说明的是，把文本序列分为三组相同向量做多头注意力机制处理，即分为查询向量，键向量/>，值向量/>。根据查询向量和键向量直接进行相似性分布得到这两个向量之间的加权和，通过缩放点积的处理，获得最终输入向量序列。

S330、将另一组向量图像特征输入至解码器，与所述文本信息处理结果进行第一次信息交互，获得第一次交互结果。

在本发明实施例中，如图7所示，具体可以包括：

将得到的文本信息处理结果与自定义的可学习张量信息/>送入第一层长短时记忆网络中获得第一次交互结果/>后，再与前文所述的编码层处理的图像处理特征进行信息融合，其中第一层长短时记忆网络生成/>的计算公式如下所示：

。

需要说明的是，此处的自定义的可学习张量信息在本发明实施例中具体为前文所述的另一组向量图像特征X。

具体地，将所述图像处理特征输入至所述解码器以与所述第一次交互结果进行第二次信息交互，获得第二次交互结果，包括：

将所述目标检测提取特征输入至所述解码器，并与所述第一次交互结果通过第二层长短时记忆网络进行第二次信息交互，获得第二次交互结果。

应当理解的是，通过在编码层得到的图像处理特征与第一层长短时记忆网络生成的/>送入第二层长短时记忆网络中，最后的输出/>进行/>激活函数处理后获得第二次交互结果/>，具体计算公式如下所示：

。

最后，对所述第二交互结果进行转换处理获得图像字幕，包括：

需要说明的是，本发明实施例的基于目标检测和自然语言处理的图像字幕生成方法是基于编码器和解码器实现的，其中编码器和解码器的模型结构均是预先训练好的，而在预先训练编码器和解码器模型结构时，还需要对解码器输出的结果进行损失函数计算，以便于降低预测值与真实值之间的差距，从而获得精准的参数模型，进而能够获得精准的图像字幕。

在进行损失函数计算时，主要包括以下内容：

1）交叉熵损失函数计算以及多标签边界损失函数计算。

通过给定某一时刻的真实值为，形成目标文本的真实序列为/>和带有参数的字幕模型，从而最小化优化交叉熵损失。计算公式下所示：

。

2）将上面两个函数进行相加计算。

多标签边界损失函数是应用于多个样本的真实类别情况，计算公式如下所示：

。

3）损失函数最终定义为：

。

综上，本发明提供的基于目标检测和自然语言处理的图像字幕生成方法，编码层采用了一种定向机制，以加权图像特征信息，可以更好地处理图像区域特征；在处理解码器语义关系时，采用了长短时记忆网络来生成单词，并且加入了自我关注技术（即前文所述）来增强语义构建关系的能力，并在解码器中采用了两层长短时记忆网络来处理文本信息和区域特征信息，有效解决了图像字幕中多领域交互存在偏差的问题，提升了图像字幕的准确性。

本发明还提供一种基于目标检测和自然语言处理的图像字幕生成方法的具体实施例，该方法可由计算机设备实现。该方法的具体处理流程如下：

首先，获取相关图像字幕的不同形式的数据，主要是文本和图像。

其次，将上述获取到的数据输入到构建并且训练好的图像字幕模型中。其中包括图像特征编码层模块，文本特征解码层模块，损失函数设计模块，将获取到的数据进行预处理和特征编码。预处理操作中，图像进行目标检测手段Faster R-CNN预训练在池化层设置统一维度大小并保存检测框中图像特征信息并设置其特征为2048维度。后在文本处理中进行统计词频、提出词频率不超过5的单词，统一小写，去除标点符号，填充统一长度为40。

最后，模型输出关于数据的图像字幕生成结果。结果输出为整幅图像内容的描述性语句包括相关指标BLEU4得分以及相关评价指标得分。

本发明使用python 3.6.11编写，使用的深度学习框架是pytorch 1.9.0。采用RTX3090显卡进行模型的训练。实验的训练策略为：先在训练集进行训练后用验证集进行评估，保存在验证集上效果最好的模型，当连续5次迭代没有被超越后，将该模型在测试集上进行测试，作为实验结果。

实例：在MSCOCO数据集上训练测试

（1）数据集介绍：MSCOCO数据集包含3个任务的标注。一是目标检测和分割：标注物体的大小、类别和分割边界等信息。对于每张图片，标注了多个物体，包括超过80种不同的类别，如人、车、动物、家居等等。二是图像描述：针对每张图片，提供了5个不同的内容和情景。这些描述由多个人工标注者独立生成，以保证描述的准确性和多样性。三是视觉问答：针对每张图片，提供了多个问题和对应的答案，用于测试计算机对于图像内容的理解和推理能力。

（2）实验参数设置：批次大小设置为100，学习率设置为0.8，模型中将每一层的维度设置为1024，多头线性变换的数量设置为8，存储向量设置为40，在使用注意力机制和前馈层时辍学率保持在0.9，学习率固定设置为5×10^-6，批量大小为50，光束大小设置为5，训练过程中使用Adam优化器训练模型。

（3）实验结果：在MSCOCO数据集上的BLEU-1评价指标为79.3，BLEU-4评价指标为36.8，METOER为27.6，ROUGE为56.9，CIDER为113.9。充分说明定向注意力机制和文本图像特征交互的模型在图像字幕任务上的先进性。

（4）对比实验：通过把本发明实施例的方法的模型效果与近几年比较经典的图像字幕方法进行对比。其中模型包括使用了Soft-Attention和Hard-Attention注意力机制，这是将软性和硬性注意力机制首次应用于图像字幕任务；Adaptive-Attention是以一种“哨兵机制”的注意力方式进行注意图像特征，SCA-CNN主要对图像的空间位置和通道特征上的注意力，而Up-Down本章基线模型则是在区域上的注意，可以看出注意力机制在解决图像字幕问题上起着决定性作用，最后是基于基线模型上做了改进的一个模型和上面提到的进行对比，在本发明实施例中采用MSCOCO数据集进行评估改进后的方法。

（5）消融实验。

首先基于定向注意的处理区域特征的表示方法进行了实验结果与分析。为了验证这种方法的有效性，实验结果如下表所示，Top-Down表示未做任何更改基线模型。DTA（Directional attention）表示定向注意机制方式，提取区域特征信息。其次是添加语义自我注意的方法，方法命名为MHA（Multi-Head Attention），最后融合这两方面的改进做了一个研究，称为DTA+MHA。本发明实施例依旧在上面提到三种数据集上进行实验。

从表格中可以清晰地看出，本发明实施例所提出的编码层和解码层的改进对于图像特征提取和语义信息融合的效果十分显著。在MSCOCO数据集上，这种改进能够带来显著的性能提升。当数据量越大时，模型才能更好地覆盖每个特征点，避免欠拟合问题的出现。BLEU-1的评价指标在MSCOCO中最高，提升了2.1%，在BLEU-4评价指标中MSCOCO数据集提升了0.6%，提升最明显。数据集在其他指标中并未有其他展示，通过表中可以看出，这种方法效果在一定程度上做了提升。

本发明实施例从消融对比的实验表中可以看出，通过添加定向注意力机制处理图像特征信息，可以更加标准化图像，容易获取图像中的特征信息，并以一定方向扫描有效信息。再结合文本进行融合，可以更好地获取两者之间的联系。在处理文本序列时，多头注意力机制可以使得语义之间的关系更紧密，使得每个单词更容易并行化，并均衡每个特征部分可能产生的偏差。加入图像特征可以使得语义表达更加丰富，从而提高模型效果。特别是在数据量较大时，可以更好地覆盖每个特征点，避免欠拟合的情况。

表1 在MSCOCO数据集消融实验结果

（6）效果展示，可视化效果对比中，字幕描述图像内容都是非常准确的，可视化后效果展示可以明显看出，本发明实施例能够很好的对图像中的内容进行描述，在大量的对比算法实验中，偏差描述性图像也有明显的降少，不同场景下的文本描述场景效果明显提升，没有以偏概全的描述，图8中的描述文字在算法模型中对文本特征加以注意力机制的影响下，效果显著提升。

可以理解的是，以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式，然而本发明并不局限于此。对于本领域内的普通技术人员而言，在不脱离本发明的精神和实质的情况下，可以做出各种变型和改进，这些变型和改进也视为本发明的保护范围。

Claims

1.一种基于目标检测和自然语言处理的图像字幕生成方法，其特征在于，包括：

2.根据权利要求1所述的基于目标检测和自然语言处理的图像字幕生成方法，其特征在于，将一组向量图像特征输入至编码器以进行特征提取，获得图像处理特征，包括：

3.根据权利要求2所述的基于目标检测和自然语言处理的图像字幕生成方法，其特征在于，将一组向量图像特征输入至编码器进行特征提取，获得图像提取特征，包括：

，

其中，，/>表示所述目标检测结果，n表示图像的批次数量，/>表示权重矩阵，/>表示偏置向量，f表示激活函数。

4.根据权利要求2所述的基于目标检测和自然语言处理的图像字幕生成方法，其特征在于，将所述图像提取特征送入至定向注意力机制后进行归一化处理，获得图像处理特征，包括：

对处理后的信息进行归一化处理，获得归一化处理的特征；

5.根据权利要求1所述的基于目标检测和自然语言处理的图像字幕生成方法，其特征在于，将另一组向量图像特征输入至解码器，以与图像描述文本进行第一次信息交互，获得第一次交互结果，包括：

6.根据权利要求5所述的基于目标检测和自然语言处理的图像字幕生成方法，其特征在于，将所述图像描述文本向量输入至解码器进行文本信息处理，获得文本信息处理结果，包括：

7.根据权利要求5所述的基于目标检测和自然语言处理的图像字幕生成方法，其特征在于，将另一组向量图像特征输入至解码器，与所述文本信息处理结果进行第一次信息交互，获得第一次交互结果，包括：

8.根据权利要求1所述的基于目标检测和自然语言处理的图像字幕生成方法，其特征在于，将所述图像处理特征输入至所述解码器以与所述第一次交互结果进行第二次信息交互，获得第二次交互结果，包括：

9.根据权利要求1所述的基于目标检测和自然语言处理的图像字幕生成方法，其特征在于，对所述待生成字幕图像进行向量处理以及目标检测后获得两组相同的向量图像特征，包括：

10.根据权利要求1所述的基于目标检测和自然语言处理的图像字幕生成方法，其特征在于，对所述第二交互结果进行转换处理获得图像字幕，包括：