CN113094534B

CN113094534B - 一种基于深度学习的多模态图文推荐方法及设备

Info

Publication number: CN113094534B
Application number: CN202110385246.5A
Authority: CN
Inventors: 黄昭; 胡浩武
Original assignee: Shaanxi Normal University
Current assignee: Shaanxi Normal University
Priority date: 2021-04-09
Filing date: 2021-04-09
Publication date: 2022-09-02
Anticipated expiration: 2041-04-09
Also published as: CN113094534A

Abstract

本发明公开一种基于深度学习的多模态图文推荐方法及设备，方法包括用一种跨模态图文检索模型MMDNN，其次，将MMDNN用于推荐系统之中，利用正负反馈聚类中心计算模块PNFCCCM和用户的正负反馈历史记录，计算用户的正负反馈聚类中心，结合数据的相似度得分和正负反馈得分，从数据库中找出与用户历史记录中综合得分最高的几条数据，使用MMDNN模型从数据库中找出与这几条数据对应的另一种模态的数据，最后，把成对图‑文资源推荐给用户，并且根据用户的反馈更新用户的历史记录和用户的正负反馈聚类中心，实现多模态图文推荐。

Description

一种基于深度学习的多模态图文推荐方法及设备

技术领域

本发明属于计算机科学与技术应用领域，具体涉及一种基于深度学习的多模态图文推荐方法及设备。

背景技术

目前，大多数推荐系统都侧重于提供单一模式的内容，如利用图片推荐图片，利用文本推荐文本。事实上，图片和文本不同的形式的资源，在描述相同的语义时存在着不平衡和互补的关系，图像通常可以包含更多文本无法显示的细节，文本具有表达高层次意义的优势。所以，用户更需要多模态结合的信息资源，跨模态检索技术更令人关注。跨模态检索是根据用户输入一种模式的信息，它可以返回多种模式结合信息的一种技术。目前，许多跨模态检索方法还仅仅只应用在检索领域，还未见将其应用到推荐系统领域。并且这些跨模态检索方法存在检索精度不足，耗费时间较长等缺点。大部分的推荐系统仅仅考虑了用户正反馈的情况，其中用户的负反馈记录中同样存在着许多可以利用的信息，因此，有必要提升跨模态检索方法的质量和效率。

发明内容

为了解决现有技术中存在的问题，本发明提供一种基于深度学习的多模态图文推荐方法及设备，通过设计一种高效的跨模态图文检索方法，并将其应用到推荐系统之中，实现根据用户的个人偏好，向用户推荐其所需要的图文结合的信息资源的目的。

为了实现上述目的，本发明采用的技术方案是，一种基于深度学习的多模态图文推荐方法，包括以下步骤：

基于用户的历史记录采用跨模态检索模型计算用户的正反馈和负反馈的聚类中心点，所述历史记录包括图像和文本；

从用户历史记录中挑选出用户评分较高的前N条历史记录；

提取所述N条历史记录的特征，根据所述特征得到N条历史记录的所属类别；

用跨模态检索模型从与所述N条历史记录模态相同的数据库中提取同类型的数据；

计算所提取同类型的数据和所述N个历史记录的相似度得分，将所述相似度得分按照倒序排列，选取前M项相似度得分对应的历史记录；

使用所述正反馈和负反馈的聚类中心点分别计算所述M项中每一项历史记录的正反馈分数和负反馈分数；

根据M项相似度得分中每一项的相似度得分及所述正反馈分数和负反馈分数，计算所述M项历史记录中每一项数据的总得分，并按照所述总得分倒序排列，选取前K个数据；

针对所述K个数据中的每一项数据，用跨模态检索模型从文本数据库或图像数据库中找到与之对应的K个数据；

将所述前K个数据和文本数据库或图像数据库中的K个数据对应结合，形成K项图像-文本对，即得到推荐结果。

跨模态检索模型用于数据特征的提取，跨模态检索模型训练的过程分为两个阶段：

在第一个阶段，对于图像，提取图像模态内的表示和带有文本信息的图像模态间的表示；对于文本，提取文本模态内的表示和带有图像信息的文本模态间的表示；

在第二个阶段，把图像模态内的表示和图像模态间的表示结合起来，形成图像综合表示；同时，把文本模态内的表示和文本模态间的表示结合起来，形成文本综合表示，然后利用栈式对应自编码器和约束函数在图像和文本的综合表示之间建立联系，同时学习到图像和文本的最终表示。

跨模态检索模型通过以下过程进行训练得到：

采用去除了最后一层分类层的MobileNetV3-large模型来初步提取图像特征，在初步提取图像特征的基础上，一方面用AE来提取图像模态内的表示，既具有模态内信息的图像模态内表示；一方面使用RBM提取得到图像进一步的表示，该图像进一步的表示将被用来形成具有文本信息的图像模态间表示；

使用TF-IDF算法来初步提取文本特征；在初步提取文本特征的基础上一方面使用DAE提取文本模态内的表示，即具有模态内信息的文本模态内表示；一方面使用RSRBM提取得到文本进一步的表示，该文本进一步的表示将被用来形成具有图像信息的文本模态间表示；

基于所述图像进一步的表示和文本进一步的表示，本发明用Multimodal DBN来提取图像和文本的模态间表示；在Multimodal DBN的顶层，在图像和文本表示之间进行交替的吉布斯采样，即获得带有文本特征的图像模态间表示和带有图像特征的文本模态间表示；

利用两个joint-RBM模型融合每种模态的模态内表示和模态间表示，

一个joint-RBM模型将图像模态内表示和图像模态间表示进行融合，得到图像的综合表示；另一个joint-RBM模型，将具有文本模态内表示和文本模态间表示进行融合，得到文本的综合表示；

分别用两个DAE对所述图像的综合表示和所述文本的综合表示分别做分类训练，以提取图像和文本特征的最佳隐藏层数；

固定所提取的图像和文本的最佳隐藏层数，并使图像和文本的最佳隐藏层数一一对齐，组成栈式对应自编码器；

在栈式对应自编码器中，使用关联约束函数，重新利用第二阶段图像的综合表示和第二阶段文本的综合表示训练所述栈式对应自编码器，使得所述栈式对应自编码器在得到图像和文本最终表示的同时，能够在图像和文本的表示之间建立联系。

用Multimodal DBN来提取图像和文本模态间的表示时：先将文本的初步表示输入RSRBM模型，RSRBM能量函数为：

其中，v_i为输入层第i个节点的值，h_j为隐藏层第j个节点的值，w_ij为输入层和隐藏层之间的权重，b_i为第i输入层第i个节点的偏置，a_j是隐藏层第j个节点的偏置，m是可见层离散值的总和；

将RSRBM模型的输出作为Multimodal DBN的文本输入，将所述文本输入通过两个隐藏层处理，所述两个隐藏层的节点数分别为2048和1024，激活函数设置为sigmoid激活函数；然后，在Multimodal DBN的联合层，使用下公式进行交替的吉布斯采样，获得具有模态间信息的特征表示，

σ(x)＝1/(1+e^-x)

和

用于生成每种模态数据上的分布，

为图像输入的第1层隐藏层，σ()为sigmoid激活函数，

为图像第2层上的权重，a_t为文本最后一层的偏置，

为文本输入的第2层隐藏层，

为文本第2层隐藏层上的权重，a_i为图像最后一层的偏置，x为激活函数的输入，e为自然数。

所述关联约束函数为：

其中，

和

图像和文本的输入，

和

代表了图像和文本的参数，

和

为图像和文本隐藏层的表示，栈式对应自编码器中损失函数为：

其中：

和

代表图像和文本自编码器的重构误差，

代表了图像和文本的关联约束误差，

是栈式自编码器中图像第j层隐藏层中的表示，

是栈式自编码器中图像第j层重构层中的表示，

是栈式自编码器中文本第j层隐藏层中的表示，

是栈式自编码器中文本第j层重构层中的表示；θ代表了栈式自编码器中第j层的全部参数；

整体调整栈式对应自编码器的目标函数为：

x₀和y₀图像和文本的输入特征向量，x_2h和y_2h为它们对应的重构特征表示，δ(q)是栈式对应自编码器中所有参数的L₂正则化表示。

用K-means方法来分别计算用户历史记录中正反馈和负反馈聚类的中心点，其具体过程如下：

获取用户的历史记录，所述历史记录包括正反馈和负反馈记录；

利用MMDNN模型来提取所述正反馈和负反馈数据的特征表示；

利用欧氏距离分别计算所述正反馈和负反馈数据的特征表示之间的距离；

利用K-means方法分别计算，得到用户记录中正反馈和负反馈聚类的中心点。

使用所述正反馈和负反馈的聚类中心点分别计算所述M项中每一项历史记录的正反馈分数和负反馈分数时，计算出备选图片或文本数据特征与该用户正反馈中心和负反馈中心的距离，使用图像或者文本数据特征到正负反馈聚类中心点距离的倒数的和，作为该数据的正负反馈分数。

计算所述M项历史记录中每一项数据的总得分时，将所述相似度得分和正反馈分数和负反馈分数用加权的方式合并，作为图像和文本数据的总得分，具体的加权公式如下：

S_i为图像或者文本的总得分，

为图像或者文本的相似度得分，

为图像或者文本的正负反馈分数，α为前者的权重，i表示第i张备选图片。

一种计算机设备，包括处理器以及存储器，存储器用于存储计算机可执行程序，处理器从存储器中读取部分或者全部所述计算机可执行程序并执行，处理器执行部分或全部计算可执行程序时能实现本发明所述的多模态图文推荐方法。

一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时，能实现本发明所述的多模态图文推荐方法。

与现有技术相比，本发明至少具有以下有益效果：

根据用户对于多模态结合的信息的需求，本发明提出了一个跨模态推荐方法，可以根据用户的兴趣偏好向用户推荐用户可能感兴趣的图像和文本结合的信息资源，本发明是首次向用户推荐多模态结合的信息的推荐方法，为了实现推荐多模态结合的信息这一功能，本发明采用一个跨模态检索模型，与传统的跨模态检索模型相比，同时具有模型训练速度更快和检索精度更高的优势，本发明还考虑到了用户对于系统推荐资源的正反馈和负反馈信息，将用户的正反馈和负反馈信息同以上提出的跨模态检索模型相结合，根据用户的兴趣偏好向用户推荐多模态结合的信息资源，实现了图片和文本不同形式的资源多模态推荐。同时，本发明还能够根据用户实时的正反馈和负反馈信息，及时更新本发明内部正反馈和负反馈的聚类中心，实现了推荐内容根据用户兴趣爱好变化而变化的功能。本发明提升了跨模态检索方法的质量和效率，实现了跨模态检索在推荐系统领域的应用，不用依赖过多的历史数据，有效提高推荐的效率和准确度。

进一步的，MobileNetV3-large模型在提取图像特征方面具有精度高和速度快等特点用于对图像特征的提取；TF-IDF算法用在文本分类任务中，能考虑到不同的词在文本中的权重；对于文本模态内的表示DAE能够有效提取数据之间的线性以及非线性关系。

附图说明

图1图文本发明一种可实施的推荐方法示意图。

图2新型跨模态检索方法示意图。

具体实施方式

下面结合附图和实例对本发明的技术方案作进一步说明。

用一种跨模态图文检索模型MMDNN(Multimodal Deep Neural Network)，将MMDNN用于推荐系统，利用正负反馈聚类中心计算模块PNFCCCM(Positive and NegativeFeedback Cluster Center Calculation Module)和用户的正负反馈历史记录，计算用户的正负反馈聚类中心；结合数据的相似度得分和正负反馈得分，从数据库中找出与用户历史记录中综合得分最高的几条数据。再使用MMDNN模型从数据库中找出与这几条数据对应的另一种模态的数据。最后，把成对图-文资源推荐给用户，并且根据用户的反馈更新用户的历史记录和用户的正负反馈聚类中心，实现多模态图文推荐。

参考图1，一种基于深度学习的多模态图文推荐方法，包括以下步骤：

参考图2，步骤1，使用Wikipedia数据集训练跨模态检索模型MMDNN。

步骤1.1，使用MobileNetV3提取图片的特征，对于图像特征提取，本发明先对图像进行预处理，将其中黑白图片转换成三通道的彩色图片，并将左右图片统一成224*224的大小，得到图像集合。

把所述图像集合分为训练集和测试集，送入MobileNetV3-large模型中执行分类任务，在测试集准确率达到最高时停止训练。

用去除了最后一层分类层的MobileNetV3-large提取图片特征，最终得到1280维的初步图像特征表示I_m。在Multimodal DBN模块中，顶层的维度为1024维，所以本发明将所述1280维的初步图像特征I_m通过一层AE(AutoEncoder)降维，使其输出维度为1024维，所用函数如下：

h＝f(x)＝l_f(w_fx+b_h)

r＝g(h)＝l_g(w_gx+b_r)

L(x,r)＝||r-x||²

其中，h表示隐藏层，r表示重构层，f(x)和g(h)为激活函数，本发明使用sigmoid激活函数；w_f和w_g为权重；b_h和b_r为偏置；L(x,r)为重构误差函数。本发明中的AE通过最小化误差函数来训练，其最终输出1024维图像特征表示为I_a。

步骤1.2，使用TF-IDF算法来得到文本初步表示，具体如下：

首先用NLTK工具去除文本中的停用词，然后用TF-IDF算法计算出每一篇文本中每一个词的TF-IDF值，接着将每一篇文档中的词按照所述TF-IDF值倒序排列，选取前3000个词的TF-IDF的值作为所述的文本初步表示；统计所有文档中的词汇，并按照统一的词汇顺序给每一篇文档编码；每一篇文档中的3000个词汇在与总词汇表对应的位置上用所述词汇的TF-IDF值表示，其余位置用0填充。

TF-IDF提取的文本初步表示最终维度过于庞大，所以用PCA算法将其维度降为3000维，降维后的文本表示为T_p。

步骤1.3，用DAE来提取文本模态内的表示，具体的：

DAE的输入是经过PCA降维后的初步表示T_p，其隐藏层设置为2层，维度分别为2048和1024。

作为示例，本发明通过最小化目标函数来训练DAE，目标函数如下：

其中，L_r(x,x_2h)为其重构误差，w_e和w_d为编码器和解码器的权重，p为第p层隐藏层，h为隐藏层的层数，

为L₂正则化，其最终输出为文本模态内表示T_d。

步骤1.4，用Multimodal DBN(Deep Belief Network)来提取图像和文本模态间的表示。Multimodal DBN模型有两个输入，分别是图像表示和文本表示，其中，图像表示的输入为步骤1.1所述1280维的初步图像特征I_m，使其通过一层RBM，将维度降为1024，降维时用的激活函数为sigmoid激活函数。

文本表示的输入为所述降维后的文本表示T_p，然后将降维后的文本表示T_p输入RSRBM模型；RSRBM常常被用来处理数值为离散型的数据，其能量函数表示为：

其中，v_i为输入层第i个节点的值，h_j为隐藏层第j个节点的值，w_ij为输入层和隐藏层之间的权重，b_i为第i输入层第i个节点的偏置，a_j是隐藏层第j个节点的偏置，m是可见层离散值的总和。

将RSRBM模型的输出作为Multimodal DBN的文本输入，将所述文本输入通过两个隐藏层处理，所述两个隐藏层的节点数分别为2048和1024，激活函数设置为sigmoid激活函数。然后，在Multimodal DBN的联合层，使用下公式进行交替的吉布斯采样。

σ(x)＝1/(1+e^-x)

和

用于生成每种模态数据上的分布，

为图像输入的第1层隐藏层，σ()为sigmoid激活函数，

为图像第2层上的权重，a_t为文本最后一层的偏置，

为文本输入的第2层隐藏层，

为文本第2层隐藏层上的权重，a_i为图像最后一层的偏置，x为激活函数的输入，e为自然数；Multimodal DBN最终的输出有两个：具有文本信息的图像模态间表示和具有图像信息的文本模态间表示，即一个是带有文本特征的图像模态间表示Y_i，一个是带有图像特征的文本模态间表示Y_t。

步骤1.5，利用两个joint-RBM来融合每种模态的模态内表示和模态间表示。

图像joint-RBM的输入是I_a和Y_i，输出为I₀；文本joint-RBM的输入是T_d和Y_t，输出为T₀；图像joint-RBM模型将图像模态内表示和图像模态间表示进行融合，得到第二阶段图像的综合表示I₀；文本joint-RBM模型，将文本模态内表示和文本模态间进行融合，得到第一阶段文本的综合表示T₀

步骤1.6，分别用两个DAE对I₀和T₀做分类训练，并以I₀和T₀分类训练的结果来寻找提取图像和文本的最佳隐藏层数，作为实施例，本发明将最佳隐藏层数确定为3，每一层隐藏层的节点数量分别设置为512，256和64。

步骤1.7，将图像的隐藏层和文本的隐藏层一一对应，形成新的自编码器——栈式对应自编码器。

步骤1.8，在栈式对应自编码器中应用关联约束函数，先通过最小化目标函数来自下而上逐层训练所述栈式对应自编码器，然后在整体上对所有自编码器调整，使得栈式对应自编码器在得到图像和文本最终表示的同时，能够在图像和文本的表示之间建立联系。

以第j层的关联约束函数作为示例：

其中，

和

图像和文本的输入，

和

代表了图像和文本的参数，

和

为图像和文本隐藏层的表示，最后，SCAE的第j层的损失函数可以表示为：

上式中相关公式如下：

和

代表图像和文本自编码器的重构误差，

代表了图像和文本的关联约束误差。

在整体调整阶段的目标函数为：

本发明基于用户的历史记录，利用已经训练好的跨模态检索模型MMDNN计算用户的正负反馈聚类的中心点。

步骤2.1，首先获得用户的历史记录，其中历史记录包括用户姓名、用户的浏览记录及打分，满分为5分，3分及以上的被视为正反馈，3分以下的被视为负反馈。不同阶段的用户对于图像或者文本资源的侧重点不一样，如果用户更加侧重于图片，则根据用户的图片记录向用户推荐图文资源；如果用户更加侧重于文本资源，将根据用户浏览的文本记录向用户推荐图文资源。

作为示例，以下是根据用户的图片记录向用户推荐图文资源的过程，根据用户的文本记录向用户推荐图文资源的过程与此类似。

步骤2.2，用户的兴趣爱好会随着时间而改变，根据用户最近50条图片的历史记录来计算用户的正负反馈聚类中心点。不够50张的全部取上。

本发明利用MMDNN来获得者50张图片的64维的最终表示，任意两张图片的距离用欧氏距离来计算，公式如下：

其中，I_f1和I_f2分别为这两张图片的最终表示。

然后，使用K-means算法分别计算出用户记录的正负反馈中心点，这里的K值取为1。

步骤3，作为示例本发明从用户的正反馈记录中选取前20个记录，不够20张的全部取上。并且根据此来向用户进行推荐。

步骤4，通过MMDNN模型提取20张图片的最终表示，所述20张图片的最终表示(I_f1,I_f2,I_f3……I_f18,I_f19,I_f20)，并且找出所述20条最终表示的所属类别。在此为了描述方便，假定20条最终表示的所属的类别为“风景”。

步骤5，将图像数据库中的“风景”子数据库中的所有图片(但是不包括用户已经浏览过的图片)通过MMDNN处理，得到所有图片的最终表示(I_r1,I_r2,I_r3,I_r4,I_r5……)。

步骤6，计算步骤5中得到的每一张图片的最终表示和用户的20个记录的相似度得分。作为一种可实施的示例，本发明使用余弦相似度，其相似度得分用来表示，计算公式如下：

其中，

代表图片I_ri的相似度得分，

为图片I_ri和I_fj的相似度分数，其计算公式如下：

其中，A和B为两个n维向量，A_i和B_i分别代表向量A和向量B的第i个特征，A为图片I_ri，B为图片I_fj，计算出所述相似度得分以后，将相似度得分按照倒序排列，取前M项图片作为备选项。作为示例，本发明中M设置为10。

步骤7，计算出这10张备选图片中每一张与该用户正负反馈聚类中心的距离，并用每张图片到正反馈中心和负反馈中心的距离倒数之和作为该图片的正负反馈得分，相关公式如下：

其中，I_ri为第i张备选图片的表示，X为正反馈聚类中心点，Y为负反馈聚类中心点。

为第i张备选图片的正负反馈得分。

步骤8，将结合每一张备选图片的相似度得分和正负反馈得分，算出每一张备选图片的总得分，并将所述总得分按照倒序排列，取前K项作为最后的备选推荐图片；作为示例，本发明中，将K设置为5，所述相似度得分和正反馈分数和负反馈分数用加权的方式合并，具体公式如下：

其中，S_i是第i张图片的最终得分，α是图片相似度得分的权重，i表示第i张备选图片。

步骤9，对于所得备选推荐图片中的每一张图片，用MMDNN模型从文本数据库中找到与之对应的文本资源；

步骤10，将所得备选推荐图片及其对应的文本结合起来，形成5对图-文资源，即形成向用户推荐的结果。

本发明还根据用户的反馈更新用户的历史记录和正负反馈中心点。

作为一个可选实施例，本发明还提供一种计算机设备，包括处理器以及存储器，存储器用于存储计算机可执行程序处理器从存储器中读取部分或全部所述计算机可执行程序并执行，处理器执行部分或者全部计算可执行程序时能实现本发明所述多模态图文推荐方法的部分步骤或者所有步骤，存储器还用于存储用户的历史记录。

所述计算机设备可以采用笔记本电脑，平板电脑，桌面型计算机，手机或工作站。

本发明还提供用于输出预测结果的输出装置，所述输出装置链接处理器的输出端，输出装置为显示器或者打印机。

本发明所述处理器可以是中央处理器(CPU)，数字信号处理器(DSP)，专用集成电路(ASIC)或现成可编程门列阵(FPGA)。

对于本发明所述存储器，可以是笔记本电脑、平板电脑、桌面型计算机、手机或工作站的内部存储单元，如内存、硬盘：也可以采用外部存储单元，如移动硬盘、闪存卡。

计算机可读存储介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、固态硬盘(SSD.Solid State Drives)或光盘等。其中，随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance Random Access Memory)和动态随机取存储器(DRAM.DynamicRandom Access Memory)。