CN111461174A

CN111461174A - 多层次注意力机制的多模态标签推荐模型构建方法及装置

Info

Publication number: CN111461174A
Application number: CN202010152922.XA
Authority: CN
Inventors: 李展; 徐宝胜; 王凯凯; 田晓杰; 赵国英; 章勇勤; 王珺; 李斌; 杨溪; 彭进业
Original assignee: Northwestern University
Current assignee: Northwestern University
Priority date: 2020-03-06
Filing date: 2020-03-06
Publication date: 2020-07-28
Anticipated expiration: 2040-03-06
Also published as: CN111461174B

Abstract

本发明公开了一种多层次注意力机制的多模态标签推荐模型构建方法及装置，提取图像的特征对图像特征使用外积，进行双线性融合后再通过一个注意力网络层，获取图像中每个区域的注意力因子，将注意力因子与原始特征进行逐元素乘积，得到最后的图像特征表达；对文本进行词嵌入并使用Bi‑LSTM网络对文本特征提取，然后通过一个注意力网络层与原始特征进行乘积，得到最后的文本信息表达。然后通过一个双线性融合层，将图像和文本特征进行融合，然后将融合后的特征输入到高层次注意力层，得到最后的联合特征表达，最后送入到分类层中，进行标签分类和推荐。在多模态信息处理的条件下，本发明联合层次注意力机制的方法提高了推荐的准确性。

Description

多层次注意力机制的多模态标签推荐模型构建方法及装置

技术领域

本发明涉及推荐方法及装置，具体涉及一种多层次注意力机制的多模态标签推荐模型构建方法及装置。

背景技术

多模态标签推荐，是近年来人工智能、推荐系统等领域一个非常热门的研究方向。其目的是利用多模态的信息，提高标签推荐的准确性，多模态的标签推荐无论在工业界还是学术界都有着广泛的研究需求与应用场景。如果能够借助于人工智能和深度学习的技术，实现低成本高性能的多模态标签推荐，那么无论对于学术界，还是工业界而言，都有着非常重要的意义。

传统的推荐算法，仅仅考虑单模态(图像或文本)的信息。近年来，随着深度学习的发展，深度神经网络算法以及注意力机制的广泛应用，为多模态标签推荐带来了新的研究方向。大量针对多模态特征的算法被提出，促进了该领域的快速发展。一般的特征融合方式，主要是拼接融合，加权融合等，但这些方式仅仅对特征进行了简单的拼接，没有考虑图像特征本身空间相关性和文本特征本身的时序相关性，导致特征挖掘不充分，推荐性能无法有效提升。

发明内容

本发明的目的在于提供一种多层次注意力机制的多模态标签推荐模型构建方法及装置，用以解决现有技术中的推荐方法及装置存在的没有考虑图像特征本身空间相关性和文本特征本身的时序相关性，导致特征挖掘不充分，从而造成推荐效果不好的问题。

为了实现上述任务，本发明采用以下技术方案：

一种多层次注意力机制的多模态标签推荐模型构建方法，所述的方法按照以下步骤执行：

步骤1、获取多组数据以及每组数据对应的标签，获得数据集以及标签集；

所述的每组数据包括图像数据以及文本数据；

步骤2、对所述的数据集进行预处理，获得预处理后的数据集；

其中所述的预处理包括统一图像数据的大小；

步骤3、将所述的预处理后的数据集作为输入，将所述的标签集作为参考输出，训练神经网络；

所述的神经网络包括依次串联的设置的特征提取模块、特征融合层、第一注意力层以及分类层；

所述的特征提取模块包括并行设置的文本特征提取子模块以及图像特征提取子模块；

所述的文本特征提取子模块包括依次串联的文本嵌入层、Bi-LSTM单元以及第二注意力层；

所述的图像特征提取子模块包括依次串联的特征提取网络、融合层以及第三注意力层；

获得多模态标签推荐模型。

进一步地，所述的特征融合层以及融合层中的融合方式均为双线性融合。

进一步地，所述的图像特征提取子模块中特征提取网络为VGG16网络。

一种多层次注意力机制的多模态标签推荐方法，所述的推荐方法按照以下步骤执行：

步骤A、获取一组待推荐的数据，所述的数据包括图像数据以及文本数据；

步骤B、将所述的待推荐的数据输入至所述的多层次注意力机制的多模态标签推荐模型构建方法获得的多模态标签推荐模型中，获得推荐结果。

一种多层次注意力机制的多模态标签推荐模型构建装置，所述的装置包括数据采集模块、数据预处理模块以及网络构建模块；

所述的数据采集模块用于获取多组数据以及每组数据对应的标签，获得数据集以及标签集；

所述的每组数据包括图像数据以及文本数据；

所述的数据预处理模块用于对所述的数据集进行预处理，获得预处理后的数据集；

其中所述的预处理包括统一图像数据的大小；

所述的网络构建模块用于将所述的预处理后的数据集作为输入，将所述的标签集作为参考输出，训练神经网络；

获得多模态标签推荐模型。

一种多层次注意力机制的多模态标签推荐装置，所述的装置包括数据获取模块以及所述的多层次注意力机制的多模态标签推荐模型构建装置：

所述的数据获取模块用于获取一组待推荐的数据，所述的数据包括图像数据以及文本数据；

所述的多层次注意力机制的多模态标签推荐模型构建装置用于利用构建出的多模态标签推荐模型对所述的一组待推荐的数据进行分类，获得推荐结果。

本发明与现有技术相比具有以下技术效果：

1、本发明提供的多层次注意力机制的多模态标签推荐模型构建方法及装置提供的推荐模型包括两个不同层次的注意力层来计算注意力因子，低层次的注意力层(第二注意力层以及第三注意力层)分别用来计算图像和文本单模态的特征，而高层次的注意力层(第一注意力层)是用来计算融合以后的多模态特征，两个层次的注意力层能够更好的提取到相关特征，过滤掉噪声，提升模型的性能；

2、本发明提供的多层次注意力机制的多模态标签推荐模型构建方法及装置中采用双线性融合方式可以学习到图像局部区域位置信息，对于多模态的特征来说，图像和文本进行双线性融合以后，每一个点的特征，都是一个图文匹配对(里面既包含图像特征也包含文本信息)，这种融合方式能够更好的体现出图像和文本之间的关联性；

3、本发明提供的多层次注意力机制的多模态标签推荐模型构建方法及装置中采用VGG16网络作为图像的特征提取网络，结构简单，整个网络都使用了同样大小的卷积核尺寸(3x3)和最大池化尺寸(2x2)，可以通过叠加层数提升性能。而且预训练的场景也比较丰富，满足真实生产环境。

附图说明

图1为本发明的一个实施例中提供的基于多层次注意力模型的网络结构图；

图2为本发明的一个实施例中提供的一组数据的示例图；

图3为本发明的一个实施例中提供的不同方法的精确率对比示意图；

图4为本发明的一个实施例中提供的不同方法的召回率对比示意图；

图5为本发明的一个实施例中提供的不同方法的F1分数对比示意图；

图6为本发明的一个实施例中提供的在不同尺寸数据集下，不同方法的精确率对比示意图；

图7为本发明的一个实施例中提供的在不同尺寸数据集下，不同方法的召回率对比示意图；

图8为本发明的一个实施例中提供的在不同尺寸数据集下，不同方法的F1分数对比示意图；

图9为本发明的一个实施例中提供的三种不同方法在相同数据集下的Accuracy@5实验结果。

具体实施方式

下面结合附图和实施例对本发明进行详细说明。以便本领域的技术人员更好的理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

以下对本发明涉及的定义或概念内涵做以说明：

注意力层：注意力机制，是聚焦于局部信息的机制，比如，图像中的某一个图像区域，随着任务的变化，注意力区域往往会发生变化。注意力层就是将网络的注意力集中放在重要的特征上，而忽略其他不重要的因素。

VGG16网络：VGG16网络是一种只需要专注于构建卷积层的简单网络。首先用3×3，步幅为1的过滤器构建卷积层，padding参数为same卷积中的参数。然后用一个2×2，步幅为2的过滤器构建最大池化层。整个网络共16层由13个卷积层+3个全连接层叠加而成。

Bi-LSTM网络：Bi-LSTM是Bidirectional Long Short-Term Memory的缩写，是由前向LSTM与后向LSTM组合而成。在更细粒度的分类时，通过Bi-LSTM可以更好的捕捉双向的语义依赖。

双线性融合：双线性融合是计算不同空间位置的外积，并对不同空间位置计算平均汇合以得到双线性特征。外积捕获了特征通道之间成对的相关关系，并且这是平移不变的。双线性融合提供了比线性模型更强的特征表示，并可以端到端地进行优化，取得了和使用部位(parts)信息相当或甚至更高的性能。

实施例一

在本实施例中提供了一种多层次注意力机制的多模态标签推荐模型构建方法，利用本发明提供的模型构建方法构建出的多层次注意力模型，引入了多模态双线性融合和层次注意力机制，既可以充分融合多模态的特征，也可以挖掘特征中更有效的信息，得到推荐性能提升的效果。

在本发明提供的推荐模型中包括两个不同层次的注意力层来计算注意力因子，低层次的注意力层(第二注意力层以及第三注意力层)分别用来计算图像和文本单模态的特征，而高层次的注意力层(第一注意力层)是用来计算融合以后的多模态特征，两个层次的注意力层能够更好的提取到相关特征，过滤掉噪声，提升模型的性能；

方法按照以下步骤执行：

每组数据包括图像数据以及文本数据；

如图2所示，是一组数据，即一个多模态Tweet的示例，既包含图像也包含文本，‘#’符号后面的单词是该条Tweet对应的多个标签。

在本实施例中，采用的公开的基于真实世界的Twitter数据集，数据集中包含文本，标签，和对应的图片的URL地址，使用时需要自行将所需图片进行下载。

步骤2、对数据集进行预处理，获得预处理后的数据集；

其中预处理包括统一图像数据的大小；

在本发明中由于数据集中图像数据的大小、形状不一致，因此将数据集中的图像，统一缩放为(224x224)大小。

在本实施例中还对文本数据进行统计；将所有出现过一次的标签进行统计，一共有3292个类别。

步骤3、将预处理后的数据集作为输入，将标签集作为参考输出，训练神经网络；

神经网络包括依次串联的设置的特征提取模块、特征融合层、第一注意力层以及分类层；

特征提取模块包括并行设置的文本特征提取子模块以及图像特征提取子模块；

文本特征提取子模块包括依次串联的文本嵌入层、Bi-LSTM单元以及第二注意力层；

图像特征提取子模块包括依次串联的特征提取网络、融合层以及第三注意力层；

获得多模态标签推荐模型。

在本实施例中，在网络中设置特征提取模块的作用是提取图像特征以及文本特征，特征融合模块将图像特征和文本特征进行融合，获得一个特征，第一注意力层进一步地发掘特征中的细节特征，获得新的特征；再将新的特征输入至分类器中进行分类。

在本发明中文本特征提取子模块如图1所示，包括依次设置的文本嵌入层、Bi-LSTM单元以及第二注意力层，其中文本嵌入层用来将文本中的每个单词嵌入至多维，Bi-LSTM单元用来提取特征，第二注意力层用来进一步地提取细节特征；

在本实施例中，对于每一条文本数据X＝(x₁,x₂,....,x_N),其中N是这条文本数据的最大长度。每个单词x_i(i∈1,2,..N)通过WordEmbedding方法嵌入到m维。

在本实施例中，Bi-LSTM单元表达式如下：

i_t＝σ(W_i·[x_t,h_t-1]+b_i)

f_t＝σ(W_f·[x_t,h_t-1]+b_f)

o_t＝σ(W_o·[x_t,h_t-1]+b_o)

c_t＝f_tc_t-1+i_ttanh(W_c[x_t,h_t-1]+b_c)

h_t＝o_ttanh(c_t)

其中，σ是一个sigmoid函数。{W_i,W_f,W_o,W_c}是权重矩阵，{b_i,b_f,b_o,b_c}是偏置。

在本实施例中Bi-LSTM单元可以捕捉文本前向和后向的上下文信息，对于每一条文本数据X＝(x₁,x₂,...,x_N)，前向的LSTM网络feed序列的顺序是(1,2,...,N),后向输入序列的顺序是(N,...,2,1)。最后得到的

表示concatenation操作，

表示前向的隐藏层状态，

表示后向的隐藏状态。文本的特征矩阵V_T是所有时间序列上h_t的结合。

其中，D是Bi-LSTM的维度。

在一条文本数据中标签仅仅和其中的某些单词有关联，因此在本实施例中，引入Attention机制来过滤掉影响比较小的单词，表达式如下：

其中，

是文本的特征，N是文本的最大长度，α_T是文本的关注因子，

是权重，

是偏差。

是新的文本特征表达。

在本实施例中第二注意力层将注意力因子与原始特征进行逐元素乘积，得到最后的文本特征表达。

在本实施例中，文本特征提取子模块使用的是由前向LSTM与后向LSTM组合而成的Bi-LSTM网络。在更细粒度的分类时，通过Bi-LSTM可以更好的捕捉双向的语义依赖，可以获得更好的文本特征表达。

在本发明中图像特征提取子模块如图1所示，包括依次设置的特征提取网络、融合层以及第三注意力层；其中特征提取网络用来初步提取图像的特征，融合层对提取到的图像特征进行融合，然后将特征输入至第三注意力层，得到新的图像特征向量；

可选地，图像特征提取子模块中特征提取网络为VGG16网络。

由于VGG16网络作为图像特征提取网络的优点是网络结构简单，整个网络都使用了同样大小的卷积核尺寸(3x3)和最大池化尺寸(2x2)，可以通过叠加层数提升性能。而且预训练的场景也比较丰富，满足真实生产环境。

在本实施例中第三注意力层将注意力因子与原始特征进行逐元素乘积，得到最后的图像特征表达。

可选地，融合层中的融合方式均为双线性融合。

在本实施例中，对VGG-16网络层输出的特征图自身进行双线性融合操作，得到双线性特征。

在本实施例中，使用的是VGG-16网络最后一个池化层提取的特征，每一个图像的特征提取为(7,7,512)。为了方便做双线性融合，将每一张图像的特征转换成(49,512)，用V_I表示，V_I(

i＝1,2,...,N)，N是数据集中图像的数量，m是每个图像均分为49个区域，d是每一个区域特征的维度，d＝512。

在本实施例中使用双线性融合，对图像局部的对级特征交互进行建模，使得每个位置的特征都能与其他位置的特征进行交互，丰富了特征的表达。双线性融合模型如下：

其中,

表示图像特征V_I的转置，f_Bilinear表示融合以后的特征，

·表示矩阵的外积。

图像特征

每一幅图像被均分为m个区域，模拟人的视觉，在本发明中使用注意力层，计算出最受关注的某些区域。

图像特征经过非线性激活函数处理，然后通过一个SoftMax函数，获取每个区域的关注因子，表达式如下：

其中，

是双线性融合以后的图像特征，α_I是图像关注因子，

是经过Attention以后新的图像特征。

是权重，

是偏差。为了便于计算，在本实施例中通过一个全连接层将V_I'映射到和文本一样的维度。

可选地，特征融合层中的融合方式均为双线性融合。

在本实施例中，对特征提取模块输出的两种模态的特征向量，进行双线性融合，得到联合特征表示：

使用多模态双线性融合，对两种模态不同位置的特征进行交互，获得两种模态特征的联合表示，每个点代表两种模态特征的一个匹配对。多模态双线性融合的表达如下：

其中

表示双线性融合以后的多模态特征，

是低层次Attention层获取的图像特征，

是低层次注意力层获得的文本特征，·表示矩阵的外积。

对于多模态的特征来说，图像和文本进行双线性融合以后，每一个点的特征，都是一个图文匹配对(里面既包含图像特征也包含文本信息)，这种融合方式能够更好的体现出图像和文本之间的关联性。

在本实施例中，采用第一注意力层获得最终的特征表达，该注意力层的输入是经过多模态融合以后的特征，能够进一步的获取图像和文本的联合注意力因子，表达式如下：

其中，

是最后输入到分类器的特征,代表了图像和文本的最佳匹配。

在本实施例中，分类层包括串联的全连接层和softmax层。

在本实施例中，利用数据集对网络模型训练和测试、验证；其中代价函数为：

其中，S表示全部的训练集，t代表推特s对应的标签。使用的优化策略是Nadam来更新参数，最小化目标函数。

在该模型中，VGG16网络能够很好地提取到图像特征，Bi-LSTM能够有效的捕捉Tweets双向的语义信息。图像本身的双线性融合可以学习到图像局部区域位置信息，引入了多模态双线性融合方法，使得多模态特征之间有了更好的交互性。加入注意力层，能够有效的抑制特征中的噪声，让神经网络更关注有用信息。该模型从输入到输出的过程，就是一个不断的将特征进行筛选和学习的过程，最终到达分类器的是与标签最相关的特征。

实施例二

一种多层次注意力机制的多模态标签推荐方法，推荐方法按照以下步骤执行：

步骤A、获取一组待推荐的数据，数据包括图像数据以及文本数据；

步骤B、将待推荐的数据输入至实施例一中的多层次注意力机制的多模态标签推荐模型构建方法获得的多模态标签推荐模型中，获得推荐结果。

在本实施例中对提供的标签推荐方法进行实验，实验采用Linux 7.2.1511操作系统，CPU的型号为Intel(R)Xeon(R)E5-2643，内存大小为251GB，显卡为两块GeForce GTX1080Ti显卡，单块显存大小为11GB，深度学习的框架为Keras 2.0版本。使用的数据集是基于真实用户的Tweet数据集，数据集中包含334989张图片和与之对应的推文。一共有3292个使用频率最多的标签类别，平均每条推文包含1.26个标签。划分80％的数据集用来做训练集，剩下的用来做测试集。为了评估提出的方法，使用Precision(P),Recall(R),和F1-score(F1)作为评价标准，定义分别如下公式：

其中，TP表示正类被判定为正类的标签数目；FN表示正类判定为负类的标签数目；FP表示负类判定为正类的标签数目。

1.Tweets数据集实验结果

方法设置的参数为：划分80％的数据集用来做训练集，剩下的用来做测试集。

本发明对比了朴素贝叶斯(NB)，支持向量机(SVM)，Bi-VL等其他模型(图3)，其中Bi-VL方法是在本发明提出的方法(LHAN)的基础上移除Attention-Layer以后的变体，实验结果如(图3)所示，从实验结果可以看出，本发明提出的方法(LHAN)相较于原始模型性能方面有很大的提升，能达到29.44％的精确率，相较于原始Co-Attention模型28.38％的精确率，精确率提升了1.06％。并且与其他方法的实验对比结果见表1，有很大的识别精度提升，验证了本发明所提出方法的有效性和可行性。

表1实验结果对比

2.Top-K推荐的实验结果

本发明将多模态标签推荐看做是一个多分类问题，因此，Top-K推荐是一个常用的性能指标，对比其他方法，分别进行1～5个标签的推荐，图3，图4，图5，分别是三种方法，在推荐不同标签数目情况下的精确率(Precision)，召回率(Recall)和F1分数(F1-Score)，从实验结果看，本发明提出的方法(LHAN)在三种指标下的性能，均优于其他两种方法，验证了本发明提出的方法(LHAN)的有效性和可行性。

3.不同规模数据集上的实验结果

由于真实的生产环境，可能存在不同大小的数据量，所以在设计实验室，将原始数据集，随机划分出3万，6万，12万三种不同尺寸的数据集，分别在三种方法下进行实验验证，图6，图7，图8分别是三种方法的精确率(Precision)，召回率(Recall)和F1分数(F1-Score)，从实验结果可以看出，本发明提出的方法(LHAN)的性能，在不同数据量大小的情况下，性能都是优于其他方法，说明了该方法的合理性，能够适用于真实的生产环境。

4.不同方法下，推荐的准确率结果

本实验使用的指标为Accuracy@5，每种方法下，推荐5个标签，Accuracy@5的定义为模型输出的前5个标签中至少一个匹配正确的比例，实验结果如图9，本发明提出的方法(LHAN)相比Co-Attention方法Accuracy@5提高了2.57％，相比Bi-VL方法提高了17.42％，说明了本发明提出的方法(LHAN)的有效性。

实施例三

在本实施例中一种多层次注意力机制的多模态标签推荐模型构建装置，装置包括数据采集模块、数据预处理模块以及网络构建模块；

数据采集模块用于获取多组数据以及每组数据对应的标签，获得数据集以及标签集；

每组数据包括图像数据以及文本数据；

数据预处理模块用于对数据集进行预处理，获得预处理后的数据集；

其中预处理包括统一图像数据的大小；

网络构建模块用于将预处理后的数据集作为输入，将标签集作为参考输出，训练神经网络；

获得多模态标签推荐模型。

可选地，特征融合层以及融合层中的融合方式均为双线性融合。

可选地，图像特征提取子模块中特征提取网络为VGG16网络。

实施例四

在本实施例中提供了一种多层次注意力机制的多模态标签推荐装置，装置包括数据获取模块以及实施例三中多层次注意力机制的多模态标签推荐模型构建装置：

数据获取模块用于获取一组待推荐的数据，数据包括图像数据以及文本数据；

多层次注意力机制的多模态标签推荐模型构建装置用于利用构建出的多模态标签推荐模型对一组待推荐的数据进行分类，获得推荐结果。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在可读取的存储介质中，如计算机的软盘，硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法。

Claims

1.一种多层次注意力机制的多模态标签推荐模型构建方法，其特征在于，所述的方法按照以下步骤执行：

所述的每组数据包括图像数据以及文本数据；

其中所述的预处理包括统一图像数据的大小；

获得多模态标签推荐模型。

2.如权利要求1所述的多层次注意力机制的多模态标签推荐模型构建方法，其特征在于，所述的特征融合层以及融合层中的融合方式均为双线性融合。

3.如权利要求2所述的多层次注意力机制的多模态标签推荐模型构建方法，其特征在于，所述的图像特征提取子模块中特征提取网络为VGG16网络。

4.一种多层次注意力机制的多模态标签推荐方法，其特征在于，所述的推荐方法按照以下步骤执行：

步骤B、将所述的待推荐的数据输入至权利要求1-3任一项权利要求所述的多层次注意力机制的多模态标签推荐模型构建方法获得的多模态标签推荐模型中，获得推荐结果。

5.一种多层次注意力机制的多模态标签推荐模型构建装置，其特征在于，所述的装置包括数据采集模块、数据预处理模块以及网络构建模块；

所述的每组数据包括图像数据以及文本数据；

其中所述的预处理包括统一图像数据的大小；

获得多模态标签推荐模型。

6.如权利要求5所述的多层次注意力机制的多模态标签推荐模型构建装置，其特征在于，所述的特征融合层以及融合层中的融合方式均为双线性融合。

7.如权利要求6所述的多层次注意力机制的多模态标签推荐模型构建装置，其特征在于，所述的图像特征提取子模块中特征提取网络为VGG16网络。

8.一种多层次注意力机制的多模态标签推荐装置，其特征在于，所述的装置包括数据获取模块以及如权利要求5-7任一项权利要求所述的多层次注意力机制的多模态标签推荐模型构建装置：