CN114693790B

CN114693790B - 基于混合注意力机制的自动图像描述方法与系统

Info

Publication number: CN114693790B
Application number: CN202210352863.XA
Authority: CN
Inventors: 姜文晖; 李钦; 方玉明; 沈飞; 刘扬
Original assignee: Jiangxi University of Finance and Economics
Current assignee: Jiangxi University of Finance and Economics
Priority date: 2022-04-02
Filing date: 2022-04-02
Publication date: 2022-11-18
Anticipated expiration: 2042-04-02
Also published as: CN114693790A

Abstract

本发明提出一种基于混合注意力机制的自动图像描述方法与系统，该方法包括：获取待描述图像中目标边界框的区域图像特征以及位置信息；将区域图像特征输入至机器注意力模块中得到机器注意力特征；获取人类进行图像描述任务时的认知数据，根据认知数据构建人类进行图像描述任务时的视觉认知模型；根据视觉认知模型得到注意力特征，根据注意力特征进行融合以得到最终图像描述。本发明将人类认知机制指导的注意力与传统机器注意力相结合，为描述生成过程中的注意力权重提供更好的参考，从而生成更精确的描述，提升了自动图像描述方法的性能，取得了更为优异的结果。

Description

基于混合注意力机制的自动图像描述方法与系统

技术领域

本发明涉及计算机图像技术领域，特别涉及一种基于混合注意力机制的自动图像描述方法与系统。

背景技术

在计算机领域中，图像描述生成是一个融合计算机视觉和自然语言处理的综合问题。虽然图像描述任务对于人类而言非常容易，但是对机器而言，由于受限于不同模态数据的异构特性，要求机器理解图片的内容并用自然语言进行描述则十分困难。不仅要求机器生成通顺且人类可理解的句子，还要求句子能表现出完整的图像内容。

受注意力机制在机器翻译中应用的启发，一些研究人员在传统的“编码-解码”框架引入了注意力机制，显著提高了自动图像描述任务的性能。注意力机制专注于图像中关键的视觉内容，在图像上下文向量输入到“编码-解码”框架的过程中能提供更具辨别力的视觉信息来指导句子的生成过程。

然而，尽管注意力机制能有效提升自动图像描述方法的性能，但是目前的方法仍然存在注意力不够准确等问题，导致在进行图像描述时出现图像中未出现的物体描述。

发明内容

鉴于上述状况，本发明的主要目的是为了提出一种基于混合注意力机制的自动图像描述方法与系统，通过构建人类进行图像描述任务的视觉认知模型，并与注意力机制融合，以解决上述技术问题。

本发明实施例提供了一种基于混合注意力机制的自动图像描述方法，其中，所述方法包括如下步骤：

步骤一、获取待描述图像，确定所述待描述图像中的目标边界框，获取所述目标边界框内的区域图像特征，以及所述目标边界框的位置信息；

步骤二、将所述区域图像特征输入至机器注意力模块以得到机器注意力特征；

步骤三、获取人类进行图像描述任务时的认知数据，根据所述认知数据构建人类进行图像描述任务时的视觉认知模型；

步骤四、将所述待描述图像输入至视觉认知模型中以得到认知图，将所述认知图以及所述区域图像特征输入至人类注意力模块中以得到人类认知机制指导的注意力特征；

步骤五、将所述人类认知机制指导的注意力特征以及所述机器注意力特征输入至特征融合模块进行融合以得到融合图像特征；

步骤六、将所述融合图像特征输入至解码器中以得到最终图像描述。

本发明提出一种基于混合注意力机制的自动图像描述方法，首先获取待描述图像中目标边界框的区域图像特征以及目标边界框的位置信息；然后将区域图像特征输入至机器注意力模块中以得到机器注意力特征；同时构建人类进行图像描述任务的视觉认知模型；将上述的待描述图像也输入至图像描述任务的视觉认知模型中以得到认知图，将认知图以及区域图像特征输入至人类注意力模块中以得到人类认知机制指导的注意力特征；最后将人类认知机制指导的注意力特征以及机器注意力特征输入至特征融合模块中进行融合以得到融合图像特征，将融合图像特征输入至解码器中得到最终图像描述。本发明提出一种基于混合注意力机制的自动图像描述方法，将人类注意力与传统机器注意力相结合，为描述生成过程中的注意力权重提供更好的参考，从而生成更精确的描述，以提升自动图像描述方法的性能，取得了更为优异的结果。本发明提出的方法，对于应用于辅助视障人士的场景具有实际意义。

所述基于混合注意力机制的自动图像描述方法，其中，在所述步骤一中，利用视觉基因数据集所预先训练的目标检测算法，提取所述待描述图像中所述目标边界框内的区域图像特征，以及所述目标边界框在所述待描述图像中的位置信息；

所述区域图像特征为k个2048维的向量，其中k为区域图像特征的数量值。

所述基于混合注意力机制的自动图像描述方法，其中，在所述步骤二中，所述将所述区域图像特征输入至机器注意力模块以得到机器注意力特征的方法包括如下步骤：

将当前时刻输入的词向量x_t、第二长短期记忆人工神经网络的前一时刻输出

以及图像全局特征

输入至机器注意力模块中，经第一长短期记忆人工神经网络得到第一长短期记忆人工神经网络的当前时刻输出

其中所述当前时刻输入的词向量x_t表示对所述待描述图像进行描述时输出的句子中的单词；

根据所述第一长短期记忆人工神经网络的当前时刻输出

以及所述区域图像特征V计算得到特征权重α_t，通过所述特征权重α_t对所述区域图像特征V进行特征加权以得到第一机器注意力特征

所述基于混合注意力机制的自动图像描述方法，其中，所述第一长短期记忆人工神经网络的当前时刻输出

表示为：

第一机器注意力特征

表示为：

其中，W_a、W_h以及W_v均为可学习参数，LSTM₁表示第一长短期记忆人工神经网络，T表示转置操作，soft max(·)表示归一化操作，

表示元素级的加法运算。

所述基于混合注意力机制的自动图像描述方法，其中，在所述步骤三中，根据所述认知数据构建人类进行图像描述任务时的视觉认知模型的方法包括如下步骤：

获取图像描述生成任务下的人类注视数据集；

将收集到的人类注视数据集经过高斯模糊处理后，用于构建人类进行图像描述任务时的视觉认知模型；

其中，在所述人类注视数据集上通过有监督学习的方式训练人类进行图像描述任务的视觉认知模型。

所述基于混合注意力机制的自动图像描述方法，其中，在所述步骤四中，将所述待描述图像输入至视觉认知模型中以得到认知图的方法包括如下步骤：

将待描述图像I输入至视觉认知模型中以得到认知图I_s，其中I_s∈R^IW×IH，IW为输入图像的宽，IH为输入图像的高；

根据所述目标边界框的位置信息，在认知图I_s提取出各目标边界框对应的区域认知图，并将第i个图像区域的认知图记为IR_i；

对第i个图像区域的认知图IR_i中的像素按值从大到小进行排序，统计前J％的像素点对应的集合并记为T_i，计算T_i的均值作为区域重要性评分：

其中，S_i表示第i个图像的区域重要性评分，T_i，j表示T_i集合中的第j个元素，|T_i|表示T_i中元素的总数。

所述基于混合注意力机制的自动图像描述方法，其中，所述区域重要性评分S表示为S＝[s₁，s₂，...，s_k]，所述区域图像特征V表示为V＝[v₁，v₂，...，v_i，…，v_k]；

对所述区域图像特征进行加权计算的公式表示为：

c＝softmax(w_s*S)

第二人类认知机制指导的注意力特征

表示为：

其中，v_i表示任一区域图像特征，w_s为常量，c为归一化后的人类注意力机制的权重向量，[s₁，s₂，...，s_k]表示对每个区域图像特征进行评估对应得到的多个区域重要性评分的集合，[v₁，v₂，...，v_i，...，v_k]表示多个区域图像特征的集合，k为区域图像特征的数量值。

所述基于混合注意力机制的自动图像描述方法，其中，在所述步骤五中，将所述人类认知机制指导的注意力特征以及所述机器注意力特征输入至特征融合模块进行融合以得到融合图像特征的方法包括如下步骤：

根据第一人类认知机制指导的注意力特征

第二机器注意力特征

以及所述当前时刻输入的词向量x_t计算得到融合向量g_t；

根据所述融合向量g_t对第二人类认知机制指导的注意力特征

与第一机器注意力特征

进行计算以得到融合图像特征

其中，所述融合图像特征

表达式为：

其中，⊙表示向量的点乘。

所述基于混合注意力机制的自动图像描述方法，其中，所述融合向量gt表示为：

其中，σ表示sigmoid函数，

以及W_x表示可学习矩阵参数，b表示可学习的偏置。

所述基于混合注意力机制的自动图像描述方法，其中，在所述步骤六中，将所述融合图像特征输入至解码器中以得到最终图像描述的方法包括如下步骤：

将所述融合图像特征输入至第二长短期记忆人工神经网络中以得到第二长短期记忆人工神经网络的当前时刻输出；

根据所述第二长短期记忆人工神经网络的当前时刻输出预测得到当前时刻输出单词，以组成所述最终图像描述；

其中，所述第二长短期记忆人工神经网络的当前时刻输出

表示为：

所述当前时刻输出单词w_t表示为：

其中，W_p为可学习参数，LSTM₂表示第二长短期记忆人工神经网络，p(y_t|y_1：t-1)表示在输入1：t-1位置的单词y时，输出t位置上单词的概率向量。

本发明提出一种基于混合注意力机制的自动图像描述系统，其中，所述系统包括：

信息获取模块，用于获取待描述图像，确定所述待描述图像中的目标边界框，获取所述目标边界框内的区域图像特征，以及所述目标边界框的位置信息；

第一计算模块，用于将所述区域图像特征输入至机器注意力模块以得到机器注意力特征；

第二计算模块，用于获取人类进行图像描述任务时的认知数据，根据所述认知数据构建人类进行图像描述任务时的视觉认知模型；

第三计算模块，用于将所述待描述图像输入至视觉认知模型中以得到认知图，将所述认知图以及所述区域图像特征输入至人类注意力模块中以得到人类认知机制指导的注意力特征；

特征融合模块，用于将所述人类认知机制指导的注意力特征以及所述机器注意力特征输入至特征融合模块进行融合以得到融合图像特征；

结果输出模块，用于将所述融合图像特征输入至解码器中以得到最终图像描述。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实施例了解到。

附图说明

图1为本发明提出的基于混合注意力机制的自动图像描述方法的流程图；

图2为本发明提出的基于混合注意力机制的自动图像描述系统的结构图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

参照下面的描述和附图，将清楚本发明的实施例的这些和其他方面。在这些描述和附图中，具体公开了本发明的实施例中的一些特定实施方式，来表示实施本发明的实施例的原理的一些方式，但是应当理解，本发明的实施例的范围不受此限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

请参阅图1，本发明提出一种基于混合注意力机制的自动图像描述方法，其中，所述方法包括如下步骤：

S101、获取待描述图像，确定所述待描述图像中的目标边界框，获取所述目标边界框内的区域图像特征，以及所述目标边界框的位置信息。

在步骤S101中，利用视觉基因数据集所预先训练的目标检测算法(Faster R-CNN)，提取待描述图像中目标边界框内的区域图像特征，以及目标边界框在所述待描述图像中的位置信息。

其中，上述的区域图像特征为k个2048维的向量，其中k为区域图像特征的数量值。

S102、将所述区域图像特征输入至机器注意力模块以得到机器注意力特征。

具体的，将区域图像特征输入至机器注意力模块以得到机器注意力特征的方法包括如下步骤：

S1021、将当前时刻输入的词向量x_t、第二长短期记忆人工神经网络的前一时刻输出

以及图像全局特征

其中所述当前时刻输入的词向量x_t表示对所述待描述图像进行描述时输出的句子中的单词。

其中，第一长短期记忆人工神经网络的当前时刻输出

表示为：

S1022、根据所述第一长短期记忆人工神经网络的当前时刻输出

其中，第一机器注意力特征

表示为：

表示元素级的加法运算。

S103、获取人类进行图像描述任务时的认知数据，根据所述认知数据构建人类进行图像描述任务时的视觉认知模型。

步骤S103具体包括：

S1031、获取图像描述生成任务下的人类注视数据集。

首先，选取3000张图片，并找来5名测试人员，向测试人员展示这些图片的同时要求其用简短的语句描述图片中的内容，同时利用眼动仪记录测试人员在描述图片时的注视数据。

为了降低主观因素的影响，同一张图片会被三个不同的测试人员所描述，并将它们的注视数据整合到一起，形成人类注视数据集E。

对空白的认知图I_b进行初始化，将人类注视数据集E中每个注视点投影至空白的认知图I_b上。其中，I_b∈R^IW×IH，IW为输入图像的宽，IH为输入图像的高。

S1032、将投影至空白的认知图I_b上的人类注释数据集E经高斯模糊处理后，构建人类进行图像描述任务时的视觉认知模型。

值得注意的是，传统的视觉认知任务数据集记录的是人在自由观看条件下的注视数据，而本发明的方法中用于训练的数据集记录的是人在描述图像内容时的注视数据。统计结果表明：人在描述图像内容时的注视数据更广泛地覆盖在文字描述的内容所对应的图像区域。

在本实施例中，在人类注释数据集上通过有监督学习的方式训练人类进行图像描述任务的视觉认知模型SAL。作为一种实施方式，该视觉认知模型整体架构上遵循编码器-解码器的全卷积网络。其中，编码器部分基于ResNet-50网络提取多尺度的图像特征，解码器部分根据所述的多尺度图像特征预测视觉认知图。

S104、将所述待描述图像输入至视觉认知模型中以得到认知图，将所述认知图以及所述区域图像特征输入至人类注意力模块中以得到人类认知机制指导的注意力特征。

具体的，包括如下步骤：

S1041、将待描述图像I输入至视觉认知模型中以得到认知图I_s，其中I_s∈R^IW×IH，IW为输入图像的宽，IH为输入图像的高；

S1042、根据所述目标边界框的位置信息，在认知图I_s提取出各目标边界框对应的区域认知图，并将第i个图像区域的认知图记为IR_i；

S1043、对第i个图像区域的认知图IR_i中的像素按值从大到小进行排序，统计前J％的像素点对应的集合并记为T_i，计算T_i的均值作为区域重要性评分：

对于j的取值，有如下考虑：

当j的取值过大时，处于显著性区域的小目标的重要性得分会显著高于大目标，这是由于小的目标框总是能被显著性较强的区域全部覆盖，而大的目标只会被覆盖一部分，其余未覆盖的部分的像素值参与计算会降低目标整体的得分，应当避免目标大小对重要性得分产生过大的影响；

当j的取值过小时，只有像素值排序靠前的像素点参与计算重要性得分，因此被显著性较强区域所覆盖到的目标的重要性得分会集中在一个比较高的范围内，导致得分无法反映真实的目标重要性差异。

在经过了大量的实验分析，本发明取j为40较为合理，并且模型的性能达到最好。

S1044、根据区域重要性评分对所述区域图像特征进行加权计算以得到人类认知机制指导的注意力特征。

其中，区域重要性评分S表示为S＝[s₁，s₂，...，s_k]，区域图像特征V表示为V＝[v₁，v₂，...，v_i，...，v_k]。

对区域图像特征进行加权计算的公式表示为：

c＝softmax(w_s*S)

第二人类认知机制指导的注意力特征

表示为：

S105、将所述人类认知机制指导的注意力特征以及所述机器注意力特征输入至特征融合模块进行融合以得到融合图像特征。

在本步骤四中，将人类认知机制指导的注意力特征以及机器注意力特征输入至特征融合模块进行融合以得到融合图像特征的方法包括如下步骤：

S1051、根据第一人类认知机制指导的注意力特征

第二机器注意力特征

以及所述当前时刻输入的词向量x_t计算得到融合向量g_t。

S1052、根据所述融合向量g_t对第二人类认知机制指导的注意力特征

与第一机器注意力特征

进行计算以得到融合图像特征

其中，上述的融合图像特征

表达式为：

其中，⊙表示向量的点乘。

上述的融合向量g_t表示为：

其中，σ表示sigmoid函数，

以及W_x表示可学习矩阵参数，b表示可学习的偏置。

S106、将所述融合图像特征输入至解码器中以得到最终图像描述。

在步骤五中，将融合图像特征输入至解码器中以得到最终图像描述的方法包括如下步骤：

S1061、将融合图像特征输入至第二长短期记忆人工神经网络中以得到第二长短期记忆人工神经网络的当前时刻输出。

其中，所述第二长短期记忆人工神经网络的当前时刻输出

表示为：

S1061、根据第二长短期记忆人工神经网络的当前时刻输出预测得到当前时刻输出单词，以组成所述最终图像描述。

所述当前时刻输出单词w_t表示为：

作为补充说明的是，本发明提出的图像描述模型，除了包括上述的机器注意力模块以及人类注意力模块之外，还包括两层长短期记忆人工神经网络，也即上述的第一长短期记忆人工神经网络LSTM₁以及第二长短期记忆人工神经网络LSTM₂。

本发明提出一种基于混合注意力机制的自动图像描述方法，首先获取待描述图像中目标边界框的区域图像特征以及目标边界框的位置信息；然后将区域图像特征输入至机器注意力模块中以得到机器注意力特征；同时将上述的待描述图像也输入至视觉认知模型中以得到认知图，将认知图以及区域图像特征输入至人类注意力模块中以得到人类认知机制指导的注意力特征；最后将人类认知机制指导的注意力特征以及机器注意力特征输入至特征融合模块中进行融合以得到融合图像特征，将融合图像特征输入至解码器中得到最终图像描述。本发明提出一种基于混合注意力机制的自动图像描述方法，将人类注意力与传统机器注意力相结合，为描述生成过程中的注意力权重提供更好的参考，从而生成更精确的描述，以提升自动图像描述方法的性能，取得了更为优异的结果。本发明提出的方法，对于应用于辅助视障人士的场景具有实际意义。

请参阅图2，本发明提出一种基于混合注意力机制的自动图像描述系统，其中，所述系统包括：

应当理解的，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。