CN116310690A

CN116310690A - 基于多模态互注意力的图像美学描述和定位方法及系统

Info

Publication number: CN116310690A
Application number: CN202310302012.9A
Authority: CN
Inventors: 宫永顺; 黄瑾; 张欣欣; 史洋; 尹义龙
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2023-03-22
Filing date: 2023-03-22
Publication date: 2023-06-23

Abstract

本公开提供了一种基于多模态互注意力的图像美学描述和定位方法及系统，涉及美学质量评价技术领域，方法包括获取图像、图像评论数据、图像描述数据以及描述位置信息的各种图像数据，并对图像进行预处理；获取图像数据中的文本信息和图像信息输入神经网络模型中，对于文本信息，提取文本的高层语义向量特征；对于图像信息，通过卷积神经网络，提取图像的深度语义特征；引入注意力融合模块，将所述高层语义向量特征与深度语义特征进行融合，生成图像描述和图像区域定位。充分考虑了文本特征与图像特征的结合，可以有效地体现细微的审美变化。

Description

基于多模态互注意力的图像美学描述和定位方法及系统

技术领域

本公开涉及美学质量评价技术领域，具体涉及基于多模态互注意力的图像美学描述和定位方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

美学质量评价涉及计算机视觉、计算美学、心理学和神经科学领域，并为某些场景(如摄影和后期剪辑)的图像质量评估提供了重要参考。传统的美学质量评价大多数专注于为图像提供好坏的质量评级，无法将任务扩展到生成与照片美学和/或摄影技巧相关的说明文字。

对于人类艺术家来说，当他看到一张照片或者一幅画时，他/她不会仅仅给出一个数字分数，而是总是说一段话来描述图像的构图、光线、颜色、焦点等许多美学属性。现有的图像美学描述方法大都只输出一句话评价，并不能对审美属性进行全面的回顾。

发明人发现，以往的方法仅能针对图像给出图像的描述，但不能将描述与图像内信息的对应关系表现出来。

发明内容

本公开为了解决上述问题，提出了基于多模态互注意力的图像美学描述和定位方法及系统，利用基于互注意力的多模态特征，结合神经网络构建图像特征与文字特征之间的关系，提出一个深度网络，只需输入图像就能得到图像的描述以及所描述区域的位置信息，该方法可以更好的描述图像信息。

根据一些实施例，本公开采用如下技术方案：

基于多模态互注意力的图像美学描述和定位方法，包括：

获取图像、图像评论数据、图像描述数据以及描述位置信息的各种图像数据，并对图像进行预处理；

获取图像数据中的文本信息和图像信息输入神经网络模型中，对于文本信息，提取文本的高层语义向量特征；对于图像信息，通过卷积神经网络，提取图像的深度语义特征；引入注意力融合模块，将所述高层语义向量特征与深度语义特征进行融合，生成图像描述和图像区域定位。

根据一些实施例，本公开采用如下技术方案：

基于多模态互注意力的图像美学描述和定位系统，包括：

图像数据获取模块，用于获取图像、图像评论数据、图像描述数据以及描述位置信息的各种图像数据，并对图像进行预处理；

文本学习模块，获取图像数据中的文本信息和图像信息输入神经网络模型中，对于文本信息，提取文本的高层语义向量特征；

图像学习模块，对于图像信息，通过卷积神经网络，提取图像的深度语义特征；

注意力融合输出模块，引入注意力融合模块，将所述高层语义向量特征与深度语义特征进行融合，生成图像描述和图像区域定位。

根据一些实施例，本公开采用如下技术方案：

一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质用于存储计算机指令，所述计算机指令被处理器执行时，实现所述的基于多模态互注意力的图像美学描述和定位方法。

根据一些实施例，本公开采用如下技术方案：

一种电子设备，包括：处理器、存储器以及计算机程序；其中，处理器与存储器连接，计算机程序被存储在存储器中，当电子设备运行时，所述处理器执行所述存储器存储的计算机程序，以使电子设备执行实现所述的基于多模态互注意力的图像美学描述和定位方法。

与现有技术相比，本公开的有益效果为：

本公开提出了一种基于多模态互注意力的美学描述和定位方法，充分考虑了文本特征与图像特征的结合，可以有效地体现细微的审美变化。为了增强多模态相关性，提出了一个注意力融合模块，包括互注意力模型和自注意力模型来构建文本特征和图像特征之间的相互关系，得到了更全面的图像表示。最后，提出了一个图像描述和定位网络，进一步丰富了图像的内容表达能力。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1是本公开所提供的基于多模态互注意力的美学描述和定位方法的流程图。

图2是本公开所提供的基于多模态互注意力的美学描述和定位方法的模型框架图。

具体实施方式：

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

术语解释：

Co-Attn：互注意力模块

Self-Attn：自注意力模块

Emd：嵌入操作

LN：针对层维度进行标准化

Ep：位置编码

Trm：transformer编码器

Tp：高层语义向量特征

I：深度语义特征

Multi-Head Attention：多头注意力层

Add&Norm：残差计算和标准化层

Feed Forward：全连接层

实施例1

本公开的一种实施例中提供了一种基于多模态互注意力的图像美学描述和定位方法，包括：

步骤一：获取图像、图像评论数据、图像描述数据以及描述位置信息的各种图像数据，并对图像进行预处理；

步骤二：获取图像数据中的文本信息和图像信息输入神经网络模型中，对于文本信息，提取文本的高层语义向量特征；对于图像信息，通过卷积神经网络，提取图像的深度语义特征；

步骤三：引入注意力融合模块，将所述高层语义向量特征与深度语义特征进行融合，生成图像描述和图像区域定位。

作为一种实施例，获取图像、图像评论数据、图像描述数据以及描述位置信息的各种图像数据具体包括：照片图像、照片图像的语言评论和照片图像的描述标签以及描述位置坐标范围。具体包括如下数据：

其中，D表示数据集，x_i表示第i张图像，

表示第i张图像的图像评论数据，/>

表示第i张图像的图像描述标签，/>

表示第i张图像描述标签所对应的位置坐标范围。

然后对图像进行预处理，包括图像标准化处理，使用的图像标准化，公式如下：

其中，x_s表示图像标准化的结果，x表示原始图像(理解为数据集种的某一张图像)，μ表示图像的均值，ξ表示图像的标准差。

作为一种实施例，利用本公开中所使用的神经网络模型进行图像描述和定位，首先需要训练神经网络模型，构建训练数据和模型的具体方法如下：

神经网络模型中包括文本学习模块、图像学习模块以及注意力融合模块，文本学习模块针对于文本信息进行处理，提取文本信息的高层语义向量特征，参考Transformer结构设计了网络结构如图2，输入的是文本数据t^p，经过嵌入操作Emb加上位置向量LN得到位置编码E_p。在经过多层transformer编码器Trm，得到文本的高层语义向量特征T_p。其中transformer编码器Trm的结构如图2右下侧所示，包含多头自注意力层Multi-HeadAttention，残差计算和标准化层Add&Norm，全连接层Feed Forward。

图像学习模块，针对于图像信息，通过卷积神经网络，需要提取图像的深度语义特征，为此使用VGG-16为骨干网络设计卷积神经网络如图2。输入的是图像标准化后的图像数据x_s，经过多个卷积层conv和最大值池化层max pool，输出图像的深度语义特征I。上述采用标准的VGG-16网络设计结构，共有13层3×3的卷积操作和4个最大池化层。图2中，照片输入到网络中得到特征I的部分为VGG-16的具体实现细节。

注意力融合模块，包括互注意力模型和自注意力模型，需要将文本学习模块输出的高层语义向量特征与图像学习模块输出的深度语义特征融合，生成图像描述和图像区域定位如图2。如图2右中，自注意力模块(Self-Attn)首先将单一输入信息处理为查询(Query,Q)，键(Key,K)和值(Value,V)三种特征。对每个的Query和所有的Key计算相似度，将这个相似度值通过Softmax层得到一组权重，根据这组权重与对应Value的乘积得到自注意力下的Value值。多头注意力操作将多个查询经过这样处理，来平行地计算从输入信息中选取多个信息。最终将通过Value值与原始输入相加，并经过标准化处理，获得模块输出。

首先，该模块中输入是文本的高层语义向量特征T_p和图像的深度语义特征I，首先经过设计的互注意力模型如图2右上角。如图2右上，互注意力模块(Co-Attn)首先将输入的文本信息处理为键(Key,K)和值(Value,V)特征，将输入的图像信息处理为查询(Query,Q)特征。对每个的Query和所有的Key计算相似度，将这个相似度值通过Softmax层得到一组权重，根据这组权重与对应Value的乘积求和得到自注意力下的Value值，通过与原始图像输入相加，并经过标准化处理，获得模块输出。具体来说，将文本高层语义向量特征作为注意力机制中的值(V,value)和键(K,key)，将图像的深度语义特征作为注意力机制中的查询(Q,query),经过多头自注意力层Multi-Head Attention和残差计算和标准化层Add&Norm得到互注意力模型的输出。互注意力模型的输出再经过自注意力模型如图2右中间，具体来说互注意力模型的输出作为注意力机制中的值(V,value)，键(K,key)和查询(Q,query)，经过多头自注意力层Multi-Head Attention和残差计算和标准化层Add&Norm得到自注意力模型的输出。最终注意力融合模块的输出包括图像描述和描述位置定位。

作为一种实施例，神经网络模型的训练方法如下：

最终图像描述和定位的神经网络模型包含文本学习模块、图像学习模块和注意力融合模块，将构建的模型中的文本学习模块中的网络、图像学习模块中的卷积神经网络的参数迁移至最终的图像描述和定位神经网络模型中，然后对整体的模型进行训练。

其中，损失函数选取设计的误差损失函数，如下：

L＝L_T+L_L

其中，L为总损失，L_T为文本相似度损失，采用余弦相似度，L_L为定位损失，采用IOU交并比损失。

优化器选择随机梯度下降优化器，并且在最终的测试阶段，对模型的输出进行反归一化处理得到最终的图像描述和定位结果。

作为一种实施例，如图2所示，网络的输入为照片的语言评论文本和图像两种数据。首先，照片语言评论会逐词拆分，获得的单词和单词在句中的位置会被分别进行嵌入操作(见图2中Emd)，得到的特征相加整合，并经过层维度的标准化(见图2中LN)，得到每个词的最终表示EP。将EP送入双向Transformer编码器(见图2中Trm)，通过在上下文中共有的条件计算来训练来文本的深度双向表示，并得到输出TP。同时将图像信息送入VGG-16网络中，得到图像的特征I。将双向文本特征TP和图像特征I送入多层互注意力模块(Co-Attn)和自注意力模块(Self-Attn)组合的架构中，学习跨模态特征间的联系。最后得到输出特征，即图像描述和描述在图像中的对应位置信息。

其中，双向Transformer编码器(见图2中Trm)的前半部分操作与自注意力模块(Self-Attn)一致，后半部分添加了全连接层、残差计算和标准化层。由于每个编码器的输入是所有词的特征，可以有效整合句子的上下文信息。

实施例2

本公开的一种实施例中提供了一种基于多模态互注意力的图像美学描述和定位系统，包括：

实施例3

本公开的一种实施例中提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质用于存储计算机指令，所述计算机指令被处理器执行时，实现所述的基于多模态互注意力的图像美学描述和定位方法。

实施例4

本公开的一种实施例中提供了一种电子设备，包括：处理器、存储器以及计算机程序；其中，处理器与存储器连接，计算机程序被存储在存储器中，当电子设备运行时，所述处理器执行所述存储器存储的计算机程序，以使电子设备执行所述的基于多模态互注意力的图像美学描述和定位。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本公开的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims

1.基于多模态互注意力的图像美学描述和定位方法，其特征在于，包括：

2.如权利要求1所述的基于多模态互注意力的图像美学描述和定位方法，其特征在于，所述获取图像、图像评论数据、图像描述数据以及描述位置信息的各种图像数据具体包括：照片图像、照片图像的语言评论和照片图像的描述标签以及描述位置坐标范围。

3.如权利要求1所述的基于多模态互注意力的图像美学描述和定位方法，其特征在于，所述预处理包括对图像进行标准化处理。

4.如权利要求1所述的基于多模态互注意力的图像美学描述和定位方法，其特征在于，获取图像数据中的文本信息输入至神经网络模型中，针对文本信息，输入至神经网络模型的Transformer结构中，经过嵌入操作加上位置向量得到位置编码，在经过多层transformer编码，得到文本的高层语义向量特征。

5.如权利要求1所述的基于多模态互注意力的图像美学描述和定位方法，其特征在于，获取图像数据中的图像信息输入至神经网络模型中，针对所述图像信息，通过卷积神经网络结构的多个卷积层和最大值池化层，输出图像的深度语义特征。

6.如权利要求1所述的基于多模态互注意力的图像美学描述和定位方法，其特征在于，所述注意力融合模块包括互注意力模型和自注意力模型，当文本的高层语义向量特征和图像的深度语义特征输入后，首先经过互注意力模型将文本高层语义向量特征作为注意力机制中的值和键，将图像的深度语义特征作为注意力机制中的查询，经过多头自注意力层、残差计算和标准化层得到互注意力模型的输出，互注意力模型的输出作为自注意力机制中的值、键和查询，经过多头自注意力层和残差计算和标准化层得到自注意力模型的输出，最终输出图像描述和描述位置定位。

7.如权利要求1所述的基于多模态互注意力的图像美学描述和定位方法，其特征在于，对所述神经网络模型进行训练时，损失函数选取误差损失函数，优化器选择随机梯度下降优化器，并且在训练测试阶段，对神经网络模型的输出进行反归一化处理。

8.基于多模态互注意力的图像美学描述和定位系统，其特征在于，包括：

9.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质用于存储计算机指令，所述计算机指令被处理器执行时，实现如权利要求1-7任一项所述的基于多模态互注意力的图像美学描述和定位方法。

10.一种电子设备，其特征在于，包括：处理器、存储器以及计算机程序；其中，处理器与存储器连接，计算机程序被存储在存储器中，当电子设备运行时，所述处理器执行所述存储器存储的计算机程序，以使电子设备执行实现如权利要求1-7任一项所述的基于多模态互注意力的图像美学描述和定位方法。