CN113095405B

CN113095405B - 基于预训练及双层注意力的图像描述生成系统的构建方法

Info

Publication number: CN113095405B
Application number: CN202110394217.5A
Authority: CN
Inventors: 杜权
Original assignee: Shenyang Yayi Network Technology Co ltd
Current assignee: Shenyang Yayi Network Technology Co ltd
Priority date: 2021-04-13
Filing date: 2021-04-13
Publication date: 2024-04-30
Anticipated expiration: 2041-04-13
Also published as: CN113095405A

Abstract

本发明公开一种基于预训练及双层注意力的图像描述生成系统的构建方法，步骤为：训练开源的图像多标签分类模型；对MS COCO图像描述数据集进行处理获得训练数据；使用图像多标签分类模型提取图像特征，得到整张图像的对象信息；将整张图像的对象信息与图像特征合并成编码器的结果；使用双层注意力机制处理编码器和解码器传来的信息；整个解码器最终输出图像的描述性语句；将所有模型封装，并部署在服务器端，完成整个系统的搭建。本发明将预训练的图像多标签分类模型纳入编码器中，并创新性地使用双层注意力机制处理编码器和前层解码器传递来的信息，提升了图像描述生成模型识别对象的准确率，相较于普通的图像描述生成模型获得了更好的性能。

Description

基于预训练及双层注意力的图像描述生成系统的构建方法

技术领域

本发明涉及一种图像描述生成技术，具体为基于预训练及双层注意力的图像描述生成系统的构建方法。

背景技术

作为计算机视觉领域的终极任务之一，图像描述生成任务难度极大，其目标是跟据给定图像，生成一段文字来描述这幅图像。既要求描述语言的语法、语义准确，也需要其语言风格贴近实际生活。这是一个计算机视觉与自然语言处理相结合的任务。正因为图像描述具有像人一样能够将冗杂的图像信息压缩成精炼文字的能力，它在生活中也有着较为广泛的应用——帮助盲人“看见”世界、实现图像和视频到文字语音的转换等。

让机器分析图像，并用自然语言概述图像也是一件极为困难的事情。因为机器需要做的不仅仅是识别出图像中存在的物体，还需要识别出行为、方位等信息，并且需要将上述分析到的信息用符合语法规则和正常逻辑的语言表达出来。除此之外，优秀的描述还需要机器具有归类的能力，即把一些相似的物体划为一个整体。以往的图像描述生成系统往往只基于编码器-解码器构架，卷积神经网络作为编码器提取图像特征，循环神经网络作为解码器生成文字描述。但单靠图像描述生成模型识别不准确，因为如此简单的结构无法充分反映图像的表层信息如对象、方位等信息和隐层信息如动作、情绪等信息。

发明内容

针对现有技术中图像描述生成系统的识别准确率低等不足，本发明要解决的技术问题是提供一种可提升图像描述生成模型识别对象的准确率的基于预训练及双层注意力的图像描述生成系统的构建方法。

为解决上述技术问题，本发明采用的技术方案是：

本发明提供一种基于预训练及双层注意力的图像描述生成系统的构建方法，包括以下步骤：

1)训练开源的图像多标签分类模型；

2)使用MS COCO图像描述数据集并对数据进行处理；

3)使用图像多标签分类模型提取图像特征，得到整张图像的对象信息；

4)将整张图像的对象信息与图像特征合并成编码器的结果；

5)使用双层注意力机制处理编码器和解码器传来的信息；

6)整个解码器最终输出图像的描述性语句；

7)将所有模型封装，并部署在服务器端，完成整个系统的搭建。

步骤1)中，选取目前性能优异而且开源的图像多标签模型，使用MS COCO数据集对其进行训练。

步骤2)中，对获取到的MS COCO数据集进行清洗，包括去除数据集中分辨率较低的图像，去除图像描述中包含乱码的数据对，使用清洗后的数据训练图像描述生成模型。

步骤3)中，首先使用图像多标签分类模型提取整张图像的对象，然后将对象编码成词嵌入获取其连续性表示，具体步骤为：

301)使用图像多标签分类模型提取出图像中包含的对象；

302)如果图像多标签分类模型输出的对象的数量少于M个，则使用专用符号填充，使对象数量达到M个；303)如果图像多标签分类模型输出的对象的数量等于M个，则直接输出这M个对象；

304)如果图像多标签分类模型输出的对象的数量超过M个，则选取其中概率最大的5个对象，即模型认为在图像中最可能存在的M个对象；

305)得到图像多标签分类模型输出的对象后，将这些对象转换成图像描述生成模型的词嵌入；

306)根据得到的有效的对象数量计算掩码矩阵Mask来屏蔽掉无用的信息；M的取值范围为5～10；

步骤5)中，采用了双层注意力机制，第一层注意力让解码器根据前一时刻生成的单词，来关注当前时刻应该关注的图像区域；第二层注意力用于对编码器传来的信息和前层解码器传来的信息进行建模。

在第一层注意力机制中，将前一时刻解码器最高层的输出当作Query，将图像特征当作Key和Value，满足以下条件：

Attention1(Q,K,V)＝Softmax(FNN(Q,K))V

在第二层注意力机制中，将前层解码器传来的信息视为第二层注意力机制的Query，编码器传来的信息视为Key和Value，满足以下条件：

将编码器传来的结果分离出图像特征和对象信息，将图像特征部分经过第一层注意力机制的计算得到结果t，再将t与对象信息合并成m；

将m经过第二层注意力机制计算，最终得到双层注意力机制的结果。

步骤6)中，解码器的总体结构与Transformer相同，是一个单一的结构复制成多份，然后将这多个层堆叠起来最终形成的解码器，具体为：

601)解码器每层输入包含两部分，分别是编码器传来的信息和前层解码器的输出；最底层解码器接受上一时刻生成的单词，最顶层解码器输出当前时刻生成的单词；

602)编码器传来的信息包含两部分，一是卷积神经网络提取出来的图像特征与图像多标签分类模型提取出来对象的词嵌入的联合矩阵；二是对应掩码矩阵；

603)解码器每层内部结构与Transformer相同，辅以原创的双层注意力机制处理来自编码器与前层解码器的信息。

本发明具有以下有益效果及优点：

1.本发明在原本仅使用卷积神经网络作为编码器的前提下，将预训练的图像多标签分类模型纳入编码器中，并创新性地使用双层注意力机制处理编码器和前层解码器传递来的信息，提升了图像描述生成模型识别对象的准确率，相较于普通的图像描述生成模型获得了更好的性能。

2.本发明能够通过引入预训练图像多标签分类模型来帮助图像描述生成模型识别图像中的目标，设计了双层注意力机制处理编码器传来的信息，使解码器生成的语句更加流畅且准确。

3.与此同时，本发明开发了前端网页和服务器后端程序，将模型部署到服务器上，允许用户通过线上的方式访问图像描述生成系统，使用方便快捷。

附图说明

图1为本发明中解码器两个结构的输出图示；

图2A为本发明中第一层注意力机制图示；

图2B为本发明中第二层注意力机制图示；

图3为本发明中解码器整体结构图示。

具体实施方式

针对现有技术在识别准确率方面的不足，本发明先是使用了识别图像性能较强的预训练图像多标签分类模型来提取图像中包含的对象，然后将对象与卷积神经网络提取出来的图像特征合并到一起作为编码器的输出传给解码器。编码器传来的信息先经过双层注意力机制的处理才被解码器利用。通过这种方式提高图像描述生成模型结果的准确率与流畅程度。

图像多标签分类模型由于其本身任务设定较为简单，因此此领域的模型往往具有较高的准确率。本发明使用具有准确识别能力的图像多标签分类模型来提升生成的图像描述的质量。

本发明采用的技术方案是：

1)选取并训练开源的图像多标签分类模型；

2)获取图像描述数据集并对数据进行处理；

3)使用图像多标签分类模型提取得到整张图像的对象信息；

4)将对象信息与图像特征合并成编码器的结果；

5)使用双层注意力，处理编码器和前层解码器传来的信息；

6)解码器最终输出图像的描述性语句。

7)将模型封装，并部署在服务器端，让用户能够通过网页体验图像描述生成系统，完成整个系统的搭建。

步骤2)中，对获取到的MS COCO数据集进行清洗，包括去除数据集中分辨率较低的图像，还要去除图像描述中包含乱码的数据对，使用清洗后的数据训练图像描述生成模型。

步骤3)中，先使用图像多标签分类模型提取整张图像的对象，例如“computer”、“man”。假设一张图片最多可以提取5(M＝5～10，本实施例中M＝5)个对象，因此如果遇到图像多标签分类模型输出对象的数量没到5个的话，使用“<pad>”来代替剩余对象，如果输出对象的数量超过5的话，就选取概率最大的前5个对象。最后将对象编码成词嵌入获取其连续性表示。具体步骤如下所示：

301)使用图像多标签分类模型提取出图像中包含的对象，例如“computer”、“man”。

302)如果图像多标签分类模型输出的对象的数量少于5个的话，就使用“<pad>”填充，使对象数量达到5个。例如“computer”、“man”、“<pad>”、“<pad>”、“<pad>”。

303)如果图像多标签分类模型输出的对象的数量等于5个的话，就直接输出这5个对象即可。

304)如果图像多标签分类模型输出的对象的数量超过5个的话，就选取其中概率最大的5个对象，即模型认为在图像中最可能存在的5个对象。

305)得到图像多标签分类模型输出的对象之后，将这些单词转换成图像描述生成模型的词嵌入(因为图像多标签分类模型的词嵌入和图像描述生成模型的词嵌入是不同的)。

306)根据前面得到有效的对象数量计算掩码矩阵Mask。这里的Mask的作用就是屏蔽掉无用的信息，例如将前面用于填充的“<pad>”这个单词屏蔽掉。具体而言就是将需要屏蔽的单词在掩码矩阵上对应的位置设成一个非常小的数即可，如-99999。

步骤4)中，将卷积神经网络提取出的图像特征和图像多标签分类模型提取出的对象信息合并成一个矩阵传递给解码器端的双层注意力机制。如图1所示。

步骤5)中，采用了双层注意力机制，第一层注意力让解码器根据前一时刻生成的单词，来关注当前时刻应该关注的图像区域，例如前一时刻生成了“computer”那么在后面的时刻模型可能会联想到“mouse”而去关注图像中椭圆形的区域。第二层注意力用于对编码器传来的信息和前层解码器传来的信息进行建模。这里采取了源自Google团队发明的Transformer模型中的自注意力机制，也称为缩放的点乘注意力。通过这种方式进行注意力计算并行度高，同时对存储空间的要求也较低。

具体来看，在这两种注意力机制的计算过程中，可以归纳为三个重要的参数，分别是Query，Key和Value。在下面的描述中，分别用Q，K，V对它们进行表示，如图2A和图2B所示。

在第一层注意力机制中，由于要对图像和文字之间的信息建模，因此，将前一时刻解码器最高层的输出当作Q，将图像特征当作K和V。有了Q，K和V就可以完成注意力机制的计算，这个过程可以被形式化为：

Attention1(Q,K,V)＝Softmax(FNN(Q,K))V

其中FNN是前馈神经网络，用于计算图像特征每个区域的权重；Softmax用于对相关性矩阵在行的维度上进行归一化操作，使得每一行的权重加和为1。经过Softmax函数的结果就是图像特征的权重，将其与图像特征作点乘就得到经过注意力引导后的图像特征，如图2A所示。

在第二层注意力机制(也称为自注意力)中，由于要对编码器传来的信息和前层解码器传来的信息进行建模，因此，将前层解码器传来的信息视为第二层注意力机制的Q，编码器传来的信息视为K和V。在得到Q，K和V后，便可以进行注意力机制的运算，这个过程可以被形式化为：

其中Mask掩码矩阵就是步骤3)中提及的用于屏蔽无关信息的工具；d_k的作用是缩放系数，将Q和K的转置进行矩阵乘法的结果用系数进行放缩操作，可以减少相关性矩阵的方差，此举能够让运算过程中实数矩阵中的数值不会过大，有利于模型训练，如图2B所示。

双层注意力的具体步骤如下所示：

501)将编码器传来的结果分离出图像特征和对象信息，将图像特征部分经过第一层注意力机制的计算得到结果t，再将t与对象信息合并成m。

502)将m经过第二层注意力机制计算，最终得到双层注意力机制的结果。

步骤6)中，解码器的总体结构是跟Transformer一样，是一个单一的结构复制成多份，然后将这多个层堆叠起来最终形成的解码器，如图3所示，其具体步骤如下：

601)解码器每层输入包含两部分，分别是编码器传来的信息和前层解码器的输出。最底层解码器接受上一时刻生成的单词，最顶层解码器输出当前时刻生成的单词。

602)编码器传来的信息包含两部分，一是卷积神经网络提取出来的图像特征与图像多标签分类模型提取出来对象的词嵌入的联合矩阵；二是对应掩码矩阵。

步骤7)中，将整个图像描述生成模型进行打包封装，并将其部署到服务器端，开发对应的网页允许用户通过线上的方式访问图像描述生成系统。

下面以一个具体图像为例进行说明。

本发明先是从前端网页获取用户想要识别的图像，将图像保存在服务器上，然后使用了识别图像性能较强的预训练图像多标签分类模型来提取图像中包含的对象，将对象与卷积神经网络提取出来的图像特征合并到一起作为编码器的输出传给解码器。编码器传来的信息先经过双层注意力机制的处理才被解码器利用。最终在解码器端生成一段关于图像的描述，系统再将描述在前端显示出来，反馈给用户。

本发明提出一种基于预训练及双层注意力的图像描述生成系统的构建方法，能够利用识别物体性能较强的图像多标签分类模型帮助图像描述生成模型提升描述准确率；同时创新性地使用了双层注意力机制，既能够在每次生成单词时引导模型关注图像中的某一块区域，还能够有效地利用图像多标签分类模型传来的识别对象的结果，从而提高整个模型的流畅程度和抽象信息概括能力。

Claims

1.一种基于预训练及双层注意力的图像描述生成系统的构建方法，其特征在于包括以下步骤：

1)训练开源的图像多标签分类模型；

2)使用MS COCO图像描述数据集并对数据进行处理；

4)将整张图像的对象信息与图像特征合并成编码器的输出；

5)使用双层注意力机制处理编码器的输出和解码器传来的信息；

6)解码器最终输出图像的描述性语句；

7)将整个模型封装，并部署在服务器端，完成整个系统的搭建；

步骤5)中，采用了双层注意力机制，第一层注意力让解码器根据前一时刻生成的单词，来关注当前时刻应该关注的图像区域；第二层注意力用于对编码器的输出和前层解码器的输出进行建模；

Attention1(Q,K,V)＝Softmax(FNN(Q,K))V

在第二层注意力机制中，将前一层解码器的输出视为第二层注意力机制的Query，编码器的输出视为Key和Value，满足以下条件：

其中Mask掩码矩阵是用于屏蔽无关信息的工具；d_k是缩放系数，将编码器的结果分离出图像特征和对象信息，将图像特征部分经过第一层注意力机制的计算得到结果t，再将t与对象信息合并，并经过第二层注意力机制计算，最终得到双层注意力机制的结果。

2.按权利要求1所述的基于预训练及双层注意力的图像描述生成系统的构建方法，其特征在于：步骤1)中，选取目前性能优异而且开源的图像多标签模型，使用MS COCO数据集对其进行训练。

3.按权利要求1所述的基于预训练及双层注意力的图像描述生成系统的构建方法，其特征在于：步骤2)中，对获取到的MS COCO数据集进行清洗，包括去除数据集中分辨率较低的图像，去除图像描述中包含乱码的数据对，使用清洗后的数据训练图像描述生成模型。

4.按权利要求1所述的基于预训练及双层注意力的图像描述生成系统的构建方法，其特征在于：步骤3)中，首先使用图像多标签分类模型提取整张图像的对象，然后将对象编码成词嵌入获取其连续性表示，具体步骤为：

301)使用图像多标签分类模型提取出图像中包含的对象；

302)如果图像多标签分类模型输出的对象的数量少于M个，则使用专用符号填充，使对象数量达到M个；

303)如果图像多标签分类模型输出的对象的数量等于M个，则直接输出M个对象；

304)如果图像多标签分类模型输出的对象的数量超过M个，则选取其中概率最大的M个对象，即模型认为在图像中最可能存在的M个对象；

306)根据得到的有效的对象数量计算掩码矩阵Mask来屏蔽掉无用的信息。

5.按权利要求4所述的基于预训练及双层注意力的图像描述生成系统的构建方法，其特征在于：M的取值范围为5～10。

6.按权利要求1所述的基于预训练及双层注意力的图像描述生成系统的构建方法，其特征在于：步骤6)中，解码器的总体结构与Transformer相同，是一个单一的结构复制成多份，然后将这多个层堆叠起来最终形成的解码器，具体为：