CN114359741A

CN114359741A - 基于区域特征的图像描述模型注意力机制评价方法与系统

Info

Publication number: CN114359741A
Application number: CN202210273007.5A
Authority: CN
Inventors: 姜文晖; 朱旻炜; 方玉明; 赵小伟; 刘扬
Original assignee: Jiangxi University of Finance and Economics
Current assignee: Jiangxi University of Finance and Economics
Priority date: 2022-03-19
Filing date: 2022-03-19
Publication date: 2022-04-15
Anticipated expiration: 2042-03-19
Also published as: CN114359741B

Abstract

本发明提出一种基于区域特征的图像描述模型注意力机制评价方法与系统，该方法包括：通过深度神经网络，利用感兴趣区域池化在潜在目标区域中提取得到对应的区域空间特征；将区域空间特征输入至图像描述模型中以生成单词序列，将语义特征与单词序列输入至注意力模块得到生成句子；将生成句子与真值句子进行匹配，以确定得到匹配名词；再将生成匹配名词时潜在目标区域对应的语义特征的权重加载到图像中对应的每个像素点上，然后计算人工标注的边界框内的像素点权重累加和，得到局部注意力评价结果，进而得到全局注意力评价结果。本发明不仅能够针对基于区域特征的图像描述模型进行评价，并且与图像描述的性能指标具有更高一致性。

Description

基于区域特征的图像描述模型注意力机制评价方法与系统

技术领域

本发明涉及计算机信息技术领域，特别涉及一种基于区域特征的图像描述模型注意力机制评价方法与系统。

背景技术

在计算机图像处理领域中，图像描述生成是一个融合计算机视觉与自然语言处理的综合问题。具体的，其要求对于任意的输入图像，能输出通顺且人类可理解的句子以完整描述图像内容。

当前主流的图像描述模型依赖于基于区域特征的注意力机制。具体的，区域特征以图像中关键区域的候选框为表示，描述该区域的语义特征。注意力机制专注于图像中关键的视觉内容，从区域特征中提取更具辨别力的视觉信息来指导句子生成。注意力机制极大程度地提高了图像描述模型的准确性。

然而，通过可视化分析发现注意力机制普遍存在“不聚焦”的问题。具体地，在生成描述的单词时，注意力机制有时会关注在物体不重要的区域，例如人的身体，从而错误预测人的性别；有时则关注于物体的背景，导致“幻想”出与目标相关但未实际出现的物体；有时则忽略了图像中的重要目标，导致描述中缺少重要信息。

如上所述，基于区域特征的注意力机制仍缺少可靠的量化分析方法，导致对图像描述模型性能的诊断变得十分困难。基于此，有必要提出一种基于区域特征的图像描述模型注意力机制评价方法与系统，以解决上述技术问题。

发明内容

鉴于上述状况，本发明的主要目的是为了提出一种基于区域特征的图像描述模型注意力机制评价方法与系统，以解决上述技术问题。

本发明实施例提供了一种基于区域特征的图像描述模型注意力机制评价方法，其中，所述方法包括如下步骤：

步骤一、获取自然场景下的图像，通过目标检测网络确定所述图像中的潜在目标区域，并通过深度神经网络，利用感兴趣区域池化在所述潜在目标区域中提取得到对应的区域空间特征，其中所述区域空间特征包括多个语义特征；

步骤二、将提取出的所述区域空间特征输入至图像描述模型以生成单词序列，将所述多个语义特征以及所述单词序列输入至注意力模块，通过所述注意力模块以得到生成句子，其中所述生成句子中包含各所述语义特征的权重，所述语义特征的权重为在时间步骤处对应生成的边界框的注意力权重；

步骤三、将所述生成句子中每一时间步骤的名词与真值句子中有位置标注的名词进行匹配，以查找出所述生成句子中对应的匹配名词，并同时记录所述匹配名词在所述生成句子中对应的时间步骤；

步骤四、将生成各所述匹配名词时潜在目标区域对应的所述语义特征的权重加载到所述图像中对应的每个像素点上，然后计算人工标注的边界框内的像素点权重累加和，以得到局部注意力评价结果，其中所述局部注意力评价结果包括被认定为正确匹配名词的数量；

步骤五、根据所述图像的所述局部注意力评价结果，综合计算得到全局注意力评价结果。

本发明提出一种基于区域特征的图像描述模型注意力机制评价方法，通过深度神经网络，利用感兴趣区域池化在潜在目标区域中提取得到对应的区域空间特征；然后将区域空间特征输入至图像描述模型中以生成单词序列，再将语义特征与单词序列输入至注意力模块，通过注意力模块得到生成句子；进而将生成句子中每一时间步骤的名词与真值句子中有位置标注的名词进行匹配，以确定得到匹配名词；再将生成匹配名词时潜在目标区域对应的语义特征的权重加载到图像中对应的每个像素点上，然后计算人工标注的边界框内的像素点权重累加和，进而得到局部注意力评价结果，最后根据局部注意力评价结果计算得到全局注意力评价结果。本发明提出一种基于区域特征的图像描述模型注意力机制评价方法，不仅能够针对基于区域特征的图像描述模型进行评价，并且与图像描述的性能指标具有更高一致性。

所述基于区域特征的图像描述模型注意力机制评价方法，其中，在所述步骤一中，所述区域空间特征表示为：

其中，

表示所述区域空间特征，

表示单个特定区域的特征向量，

表示特征的总数，

表示特征的序号。

所述基于区域特征的图像描述模型注意力机制评价方法，其中，在所述步骤二中，在时间步骤

处对应生成的边界框的注意力权重

的计算公式表示为：

其中，

表示用于将区域特征映射到统一映射空间的第一参数矩阵，

表示用于将区域特征映射到统一映射空间的第二参数矩阵，

表示映射空间的维度，

表示未归一化的权重，

表示矩阵转置操作，

表示归一化操作。

所述基于区域特征的图像描述模型注意力机制评价方法，其中，在所述步骤四中，所述局部注意力评价结果的计算方法为：

通过判断匹配名词的局部注意准确率是否大于预设阈值；

当判断到所述匹配名词的局部注意准确率大于预设阈值，则判定图像描述模型在生成所述匹配名词时的注意力是正确的，以确定得到所述局部注意力评价结果。

所述基于区域特征的图像描述模型注意力机制评价方法，其中，所述局部注意力准确率的计算方法包括如下步骤：

获取时间步骤

中边界框的注意力权重

，以及边界框

的位置；

初始化空白图像

，将边界框的注意力权重

映射到空白图像

内边界框

内的对应位置，并通过累积以更新所述空白图像

以得到映射图，其中所述映射图对应有多个映射图像素权重；

将映射图上人工标注的边界框

中所包含的所有映射图像素权重进行累加以得到匹配名词的局部注意力准确率。

所述基于区域特征的图像描述模型注意力机制评价方法，其中，所述映射图像素权重表示为：

其中，

表示所述映射图像素权重，

表示归一化项，

表示未归一化的像素权重值，

表示示性函数，

表示时间步骤

中第

个区域的权重值，

表示区域的序号，

表示像素坐标，

表示区域的总数；

其中，

表示第

个区域在图像中的位置。

所述基于区域特征的图像描述模型注意力机制评价方法，其中，匹配名词

的局部注意力准确率表示为：

其中，

表示匹配名词

的局部注意力准确率。

所述基于区域特征的图像描述模型注意力机制评价方法，其中，根据所述图像的所述局部注意力评价结果，综合计算得到全局注意力评价结果的方法包括如下步骤：

当忽略生成句子的语言误差时：

根据所述被认定为正确匹配名词的数量，生成句子与真值句子匹配的名词数量、真值句子与生成句子匹配的名词数量计算得到第一准确率以及第一召回率；

根据所述第一准确率以及所述第一召回率计算得到第一全局注意力准确率；

当考虑生成句子的语言误差时：

根据所述被认定为正确匹配名词的数量，生成句子中的名词数量、真值句子中的名词数量计算得到第二准确率以及第二召回率；

根据所述第二准确率以及所述第二召回率计算得到第二全局注意力准确率；

其中，所述第一全局注意力准确率以及所述第二全局注意力准确率即为所述全局注意力评价结果。

所述基于区域特征的图像描述模型注意力机制评价方法，其中，所述第一全局注意力准确率

表示为：

所述第二全局注意力准确率

表示为：

其中，

，

，

，

，

表示所述被认定为正确匹配名词的数量，

表示生成句子中的名词数量，

表示真值句子中的名词数量，

表示生成句子与真值句子匹配的名词数量，

表示真值句子与生成句子匹配的名词数量。

本发明还提出一种基于区域特征的图像描述模型注意力机制评价系统，其中，所述系统包括：

特征提取模块，用于获取自然场景下的图像，通过目标检测网络确定所述图像中的潜在目标区域，并通过深度神经网络，利用感兴趣区域池化在所述潜在目标区域中提取得到对应的区域空间特征，其中所述区域空间特征包括多个语义特征；

句子生成模块，用于将提取出的所述区域空间特征输入至图像描述模型以生成单词序列，将所述多个语义特征以及所述单词序列输入至注意力模块，通过所述注意力模块以得到生成句子，其中所述生成句子中包含各所述语义特征的权重，所述语义特征的权重为在时间步骤处对应生成的边界框的注意力权重；

查找确定模块，用于将所述生成句子中每一时间步骤的名词与真值句子中有位置标注的名词进行匹配，以查找出所述生成句子中对应的匹配名词，并同时记录所述匹配名词在所述生成句子中对应的时间步骤；

局部评价模块，用于将生成各所述匹配名词时潜在目标区域对应的所述语义特征的权重加载到所述图像中对应的每个像素点上，然后计算人工标注的边界框内的像素点权重累加和，以得到局部注意力评价结果，其中所述局部注意力评价结果包括被认定为正确匹配名词的数量；

全局评价模块，用于根据所述图像的所述局部注意力评价结果，综合计算得到全局注意力评价结果。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实施例了解到。

附图说明

图1为本发明提出的基于区域特征的图像描述模型注意力机制评价方法的流程图；

图2为本发明提出的基于区域特征的图像描述模型注意力机制评价系统的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

参照下面的描述和附图，将清楚本发明的实施例的这些和其他方面。在这些描述和附图中，具体公开了本发明的实施例中的一些特定实施方式，来表示实施本发明的实施例的原理的一些方式，但是应当理解，本发明的实施例的范围不受此限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

现有技术中，基于区域特征的注意力机制仍缺少可靠的量化分析方法，导致对图像描述模型性能的诊断变得十分困难。基于此，有必要提出一种基于区域特征的图像描述模型注意力机制评价方法与系统，以解决上述技术问题。

请参阅图1，本发明提出一种基于区域特征的图像描述模型注意力机制评价方法，其中，所述方法包括如下步骤：

S101、获取自然场景下的图像，通过目标检测网络确定所述图像中的潜在目标区域，并通过深度神经网络，利用感兴趣区域池化在所述潜在目标区域中提取得到对应的区域空间特征，其中所述区域空间特征包括多个语义特征。

在步骤S101中，区域空间特征表示为：

其中，

表示所述区域空间特征，

表示单个特定区域的特征向量，

表示特征的总数，

表示特征的序号。

作为补充说明的是，上述的目标检测网络是经过Visual Genome所预先训练得到的，所提取得到的区域空间特征富含语义信息。

S102、将提取出的所述区域空间特征输入至图像描述模型以生成单词序列，将所述多个语义特征以及所述单词序列输入至注意力模块，通过所述注意力模块以得到生成句子，其中所述生成句子中包含各所述语义特征的权重，所述语义特征的权重为在时间步骤处对应生成的边界框的注意力权重。

在步骤S102中，在时间步骤

处对应生成的边界框的注意力权重

的计算公式表示为：

其中，

表示用于将区域特征映射到统一映射空间的第一参数矩阵，

表示用于将区域特征映射到统一映射空间的第二参数矩阵，

表示映射空间的维度，

表示未归一化的权重，

表示矩阵转置操作，

表示归一化操作。

S103、将所述生成句子中每一时间步骤的名词与真值句子中有位置标注的名词进行匹配，以查找出所述生成句子中对应的匹配名词，并同时记录所述匹配名词在所述生成句子中对应的时间步骤。

S104、将生成各所述匹配名词时潜在目标区域对应的所述语义特征的权重加载到所述图像中对应的每个像素点上，然后计算人工标注的边界框内的像素点权重累加和，以得到局部注意力评价结果，其中所述局部注意力评价结果包括被认定为正确匹配名词的数量。

在步骤S104中，局部注意力评价结果的计算方法包括如下步骤：

S1041，通过判断匹配名词的局部注意准确率是否大于预设阈值。

其中，局部注意力准确率的计算方法包括如下步骤：

S1041a，获取时间步骤

中边界框的注意力权重

，以及边界框

的位置。

S1041b，初始化空白图像

，将边界框的注意力权重

映射到空白图像

内边界框

内的对应位置，并通过累积以更新所述空白图像

以得到映射图，其中所述映射图对应有多个映射图像素权重。

所述映射图像素权重表示为：

其中，

表示所述映射图像素权重，

表示归一化项，

表示未归一化的像素权重值，

表示示性函数，

表示时间步骤

中第

个区域的权重值，

表示区域的序号，

表示像素坐标，

表示区域的总数；

其中，

表示第

个区域在图像中的位置。

S1041c，将映射图上人工标注的边界框

匹配名词

的局部注意力准确率表示为：

其中，

表示匹配名词

的局部注意力准确率。

S1042，当判断到所述匹配名词的局部注意准确率大于预设阈值，则判定图像描述模型在生成所述匹配名词时的注意力是正确的，以确定得到所述局部注意力评价结果。

在本步骤中，当匹配名词的局部注意力准确性大于预设阈值时，则判定图像描述模型在生成该匹配名词时的注意力是正确的。反之，当匹配名词的局部注意力准确性小于预设阈值时，则判定图像描述模型在生成该匹配名词时的注意力不正确。

进一步的，如上所述，当判定图像描述模型在生成该匹配名词时的注意力是正确时，则对应进行计数，以得到被认定为正确匹配名词的数量，用于后续计算得到全局注意力评价结果。

S105、根据所述图像的所述局部注意力评价结果，综合计算得到全局注意力评价结果。

在本步骤中，根据图像的所述局部注意力评价结果，综合计算得到全局注意力评价结果的方法包括如下步骤：

当忽略生成句子的语言误差时，包括如下步骤：

S1051a、根据所述被认定为正确匹配名词的数量，生成句子与真值句子匹配的名词数量、真值句子与生成句子匹配的名词数量计算得到第一准确率以及第一召回率；

S1051b、根据所述第一准确率以及所述第一召回率计算得到第一全局注意力准确率。

其中，第一全局注意力准确率

表示为：

当考虑生成句子的语言误差时，包括如下步骤：

S1052a、根据所述被认定为正确匹配名词的数量，生成句子中的名词数量、真值句子中的名词数量计算得到第二准确率以及第二召回率；

S1052b、根据所述第二准确率以及所述第二召回率计算得到第二全局注意力准确率。

其中，第二全局注意力准确率

表示为：

其中，

，

，

，

，

表示所述被认定为正确匹配名词的数量，

表示生成句子中的名词数量，

表示真值句子中的名词数量，

表示生成句子与真值句子匹配的名词数量，

表示真值句子与生成句子匹配的名词数量。

需要说明的是，上述的第一全局注意力准确率以及第二全局注意力准确率即为所得到的全局注意力评价结果。

请参阅图2，本发明还提出一种基于区域特征的图像描述模型注意力机制评价系统，其中，所述系统包括：

应当理解的，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。