CN113094534B - 一种基于深度学习的多模态图文推荐方法及设备 - Google Patents

一种基于深度学习的多模态图文推荐方法及设备 Download PDF

Info

Publication number
CN113094534B
CN113094534B CN202110385246.5A CN202110385246A CN113094534B CN 113094534 B CN113094534 B CN 113094534B CN 202110385246 A CN202110385246 A CN 202110385246A CN 113094534 B CN113094534 B CN 113094534B
Authority
CN
China
Prior art keywords
text
image
representation
layer
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110385246.5A
Other languages
English (en)
Other versions
CN113094534A (zh
Inventor
黄昭
胡浩武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shaanxi Normal University
Original Assignee
Shaanxi Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shaanxi Normal University filed Critical Shaanxi Normal University
Priority to CN202110385246.5A priority Critical patent/CN113094534B/zh
Publication of CN113094534A publication Critical patent/CN113094534A/zh
Application granted granted Critical
Publication of CN113094534B publication Critical patent/CN113094534B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/535Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于深度学习的多模态图文推荐方法及设备,方法包括用一种跨模态图文检索模型MMDNN,其次,将MMDNN用于推荐系统之中,利用正负反馈聚类中心计算模块PNFCCCM和用户的正负反馈历史记录,计算用户的正负反馈聚类中心,结合数据的相似度得分和正负反馈得分,从数据库中找出与用户历史记录中综合得分最高的几条数据,使用MMDNN模型从数据库中找出与这几条数据对应的另一种模态的数据,最后,把成对图‑文资源推荐给用户,并且根据用户的反馈更新用户的历史记录和用户的正负反馈聚类中心,实现多模态图文推荐。

Description

一种基于深度学习的多模态图文推荐方法及设备
技术领域
本发明属于计算机科学与技术应用领域,具体涉及一种基于深度学习的多模态图文推荐方法及设备。
背景技术
目前,大多数推荐系统都侧重于提供单一模式的内容,如利用图片推荐图片,利用文本推荐文本。事实上,图片和文本不同的形式的资源,在描述相同的语义时存在着不平衡和互补的关系,图像通常可以包含更多文本无法显示的细节,文本具有表达高层次意义的优势。所以,用户更需要多模态结合的信息资源,跨模态检索技术更令人关注。跨模态检索是根据用户输入一种模式的信息,它可以返回多种模式结合信息的一种技术。目前,许多跨模态检索方法还仅仅只应用在检索领域,还未见将其应用到推荐系统领域。并且这些跨模态检索方法存在检索精度不足,耗费时间较长等缺点。大部分的推荐系统仅仅考虑了用户正反馈的情况,其中用户的负反馈记录中同样存在着许多可以利用的信息,因此,有必要提升跨模态检索方法的质量和效率。
发明内容
为了解决现有技术中存在的问题,本发明提供一种基于深度学习的多模态图文推荐方法及设备,通过设计一种高效的跨模态图文检索方法,并将其应用到推荐系统之中,实现根据用户的个人偏好,向用户推荐其所需要的图文结合的信息资源的目的。
为了实现上述目的,本发明采用的技术方案是,一种基于深度学习的多模态图文推荐方法,包括以下步骤:
基于用户的历史记录采用跨模态检索模型计算用户的正反馈和负反馈的聚类中心点,所述历史记录包括图像和文本;
从用户历史记录中挑选出用户评分较高的前N条历史记录;
提取所述N条历史记录的特征,根据所述特征得到N条历史记录的所属类别;
用跨模态检索模型从与所述N条历史记录模态相同的数据库中提取同类型的数据;
计算所提取同类型的数据和所述N个历史记录的相似度得分,将所述相似度得分按照倒序排列,选取前M项相似度得分对应的历史记录;
使用所述正反馈和负反馈的聚类中心点分别计算所述M项中每一项历史记录的正反馈分数和负反馈分数;
根据M项相似度得分中每一项的相似度得分及所述正反馈分数和负反馈分数,计算所述M项历史记录中每一项数据的总得分,并按照所述总得分倒序排列,选取前K个数据;
针对所述K个数据中的每一项数据,用跨模态检索模型从文本数据库或图像数据库中找到与之对应的K个数据;
将所述前K个数据和文本数据库或图像数据库中的K个数据对应结合,形成K项图像-文本对,即得到推荐结果。
跨模态检索模型用于数据特征的提取,跨模态检索模型训练的过程分为两个阶段:
在第一个阶段,对于图像,提取图像模态内的表示和带有文本信息的图像模态间的表示;对于文本,提取文本模态内的表示和带有图像信息的文本模态间的表示;
在第二个阶段,把图像模态内的表示和图像模态间的表示结合起来,形成图像综合表示;同时,把文本模态内的表示和文本模态间的表示结合起来,形成文本综合表示,然后利用栈式对应自编码器和约束函数在图像和文本的综合表示之间建立联系,同时学习到图像和文本的最终表示。
跨模态检索模型通过以下过程进行训练得到:
采用去除了最后一层分类层的MobileNetV3-large模型来初步提取图像特征,在初步提取图像特征的基础上,一方面用AE来提取图像模态内的表示,既具有模态内信息的图像模态内表示;一方面使用RBM提取得到图像进一步的表示,该图像进一步的表示将被用来形成具有文本信息的图像模态间表示;
使用TF-IDF算法来初步提取文本特征;在初步提取文本特征的基础上一方面使用DAE提取文本模态内的表示,即具有模态内信息的文本模态内表示;一方面使用RSRBM提取得到文本进一步的表示,该文本进一步的表示将被用来形成具有图像信息的文本模态间表示;
基于所述图像进一步的表示和文本进一步的表示,本发明用Multimodal DBN来提取图像和文本的模态间表示;在Multimodal DBN的顶层,在图像和文本表示之间进行交替的吉布斯采样,即获得带有文本特征的图像模态间表示和带有图像特征的文本模态间表示;
利用两个joint-RBM模型融合每种模态的模态内表示和模态间表示,
一个joint-RBM模型将图像模态内表示和图像模态间表示进行融合,得到图像的综合表示;另一个joint-RBM模型,将具有文本模态内表示和文本模态间表示进行融合,得到文本的综合表示;
分别用两个DAE对所述图像的综合表示和所述文本的综合表示分别做分类训练,以提取图像和文本特征的最佳隐藏层数;
固定所提取的图像和文本的最佳隐藏层数,并使图像和文本的最佳隐藏层数一一对齐,组成栈式对应自编码器;
在栈式对应自编码器中,使用关联约束函数,重新利用第二阶段图像的综合表示和第二阶段文本的综合表示训练所述栈式对应自编码器,使得所述栈式对应自编码器在得到图像和文本最终表示的同时,能够在图像和文本的表示之间建立联系。
用Multimodal DBN来提取图像和文本模态间的表示时:先将文本的初步表示输入RSRBM模型,RSRBM能量函数为:
Figure BDA0003014484020000041
其中,vi为输入层第i个节点的值,hj为隐藏层第j个节点的值,wij为输入层和隐藏层之间的权重,bi为第i输入层第i个节点的偏置,aj是隐藏层第j个节点的偏置,m是可见层离散值的总和;
将RSRBM模型的输出作为Multimodal DBN的文本输入,将所述文本输入通过两个隐藏层处理,所述两个隐藏层的节点数分别为2048和1024,激活函数设置为sigmoid激活函数;然后,在Multimodal DBN的联合层,使用下公式进行交替的吉布斯采样,获得具有模态间信息的特征表示,
Figure BDA0003014484020000042
Figure BDA0003014484020000043
σ(x)=1/(1+e-x)
Figure BDA0003014484020000044
Figure BDA0003014484020000045
用于生成每种模态数据上的分布,
Figure BDA0003014484020000046
为图像输入的第1层隐藏层,σ()为sigmoid激活函数,
Figure BDA0003014484020000047
为图像第2层上的权重,at为文本最后一层的偏置,
Figure BDA0003014484020000048
为文本输入的第2层隐藏层,
Figure BDA0003014484020000049
为文本第2层隐藏层上的权重,ai为图像最后一层的偏置,x为激活函数的输入,e为自然数。
所述关联约束函数为:
Figure BDA00030144840200000410
其中,
Figure BDA00030144840200000411
Figure BDA00030144840200000412
图像和文本的输入,
Figure BDA00030144840200000413
Figure BDA00030144840200000414
代表了图像和文本的参数,
Figure BDA00030144840200000415
Figure BDA00030144840200000416
为图像和文本隐藏层的表示,栈式对应自编码器中损失函数为:
Figure BDA00030144840200000417
其中:
Figure BDA0003014484020000051
Figure BDA0003014484020000052
Figure BDA0003014484020000053
Figure BDA0003014484020000054
Figure BDA0003014484020000055
代表图像和文本自编码器的重构误差,
Figure BDA0003014484020000056
代表了图像和文本的关联约束误差,
Figure BDA0003014484020000057
是栈式自编码器中图像第j层隐藏层中的表示,
Figure BDA0003014484020000058
是栈式自编码器中图像第j层重构层中的表示,
Figure BDA0003014484020000059
是栈式自编码器中文本第j层隐藏层中的表示,
Figure BDA00030144840200000510
是栈式自编码器中文本第j层重构层中的表示;θ代表了栈式自编码器中第j层的全部参数;
整体调整栈式对应自编码器的目标函数为:
Figure BDA00030144840200000511
x0和y0图像和文本的输入特征向量,x2h和y2h为它们对应的重构特征表示,δ(q)是栈式对应自编码器中所有参数的L2正则化表示。
用K-means方法来分别计算用户历史记录中正反馈和负反馈聚类的中心点,其具体过程如下:
获取用户的历史记录,所述历史记录包括正反馈和负反馈记录;
利用MMDNN模型来提取所述正反馈和负反馈数据的特征表示;
利用欧氏距离分别计算所述正反馈和负反馈数据的特征表示之间的距离;
利用K-means方法分别计算,得到用户记录中正反馈和负反馈聚类的中心点。
使用所述正反馈和负反馈的聚类中心点分别计算所述M项中每一项历史记录的正反馈分数和负反馈分数时,计算出备选图片或文本数据特征与该用户正反馈中心和负反馈中心的距离,使用图像或者文本数据特征到正负反馈聚类中心点距离的倒数的和,作为该数据的正负反馈分数。
计算所述M项历史记录中每一项数据的总得分时,将所述相似度得分和正反馈分数和负反馈分数用加权的方式合并,作为图像和文本数据的总得分,具体的加权公式如下:
Figure BDA0003014484020000061
Si为图像或者文本的总得分,
Figure BDA0003014484020000062
为图像或者文本的相似度得分,
Figure BDA0003014484020000063
为图像或者文本的正负反馈分数,α为前者的权重,i表示第i张备选图片。
一种计算机设备,包括处理器以及存储器,存储器用于存储计算机可执行程序,处理器从存储器中读取部分或者全部所述计算机可执行程序并执行,处理器执行部分或全部计算可执行程序时能实现本发明所述的多模态图文推荐方法。
一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时,能实现本发明所述的多模态图文推荐方法。
与现有技术相比,本发明至少具有以下有益效果:
根据用户对于多模态结合的信息的需求,本发明提出了一个跨模态推荐方法,可以根据用户的兴趣偏好向用户推荐用户可能感兴趣的图像和文本结合的信息资源,本发明是首次向用户推荐多模态结合的信息的推荐方法,为了实现推荐多模态结合的信息这一功能,本发明采用一个跨模态检索模型,与传统的跨模态检索模型相比,同时具有模型训练速度更快和检索精度更高的优势,本发明还考虑到了用户对于系统推荐资源的正反馈和负反馈信息,将用户的正反馈和负反馈信息同以上提出的跨模态检索模型相结合,根据用户的兴趣偏好向用户推荐多模态结合的信息资源,实现了图片和文本不同形式的资源多模态推荐。同时,本发明还能够根据用户实时的正反馈和负反馈信息,及时更新本发明内部正反馈和负反馈的聚类中心,实现了推荐内容根据用户兴趣爱好变化而变化的功能。本发明提升了跨模态检索方法的质量和效率,实现了跨模态检索在推荐系统领域的应用,不用依赖过多的历史数据,有效提高推荐的效率和准确度。
进一步的,MobileNetV3-large模型在提取图像特征方面具有精度高和速度快等特点用于对图像特征的提取;TF-IDF算法用在文本分类任务中,能考虑到不同的词在文本中的权重;对于文本模态内的表示DAE能够有效提取数据之间的线性以及非线性关系。
附图说明
图1图文本发明一种可实施的推荐方法示意图。
图2新型跨模态检索方法示意图。
具体实施方式
下面结合附图和实例对本发明的技术方案作进一步说明。
用一种跨模态图文检索模型MMDNN(Multimodal Deep Neural Network),将MMDNN用于推荐系统,利用正负反馈聚类中心计算模块PNFCCCM(Positive and NegativeFeedback Cluster Center Calculation Module)和用户的正负反馈历史记录,计算用户的正负反馈聚类中心;结合数据的相似度得分和正负反馈得分,从数据库中找出与用户历史记录中综合得分最高的几条数据。再使用MMDNN模型从数据库中找出与这几条数据对应的另一种模态的数据。最后,把成对图-文资源推荐给用户,并且根据用户的反馈更新用户的历史记录和用户的正负反馈聚类中心,实现多模态图文推荐。
参考图1,一种基于深度学习的多模态图文推荐方法,包括以下步骤:
参考图2,步骤1,使用Wikipedia数据集训练跨模态检索模型MMDNN。
步骤1.1,使用MobileNetV3提取图片的特征,对于图像特征提取,本发明先对图像进行预处理,将其中黑白图片转换成三通道的彩色图片,并将左右图片统一成224*224的大小,得到图像集合。
把所述图像集合分为训练集和测试集,送入MobileNetV3-large模型中执行分类任务,在测试集准确率达到最高时停止训练。
用去除了最后一层分类层的MobileNetV3-large提取图片特征,最终得到1280维的初步图像特征表示Im。在Multimodal DBN模块中,顶层的维度为1024维,所以本发明将所述1280维的初步图像特征Im通过一层AE(AutoEncoder)降维,使其输出维度为1024维,所用函数如下:
h=f(x)=lf(wfx+bh)
r=g(h)=lg(wgx+br)
L(x,r)=||r-x||2
其中,h表示隐藏层,r表示重构层,f(x)和g(h)为激活函数,本发明使用sigmoid激活函数;wf和wg为权重;bh和br为偏置;L(x,r)为重构误差函数。本发明中的AE通过最小化误差函数来训练,其最终输出1024维图像特征表示为Ia
步骤1.2,使用TF-IDF算法来得到文本初步表示,具体如下:
首先用NLTK工具去除文本中的停用词,然后用TF-IDF算法计算出每一篇文本中每一个词的TF-IDF值,接着将每一篇文档中的词按照所述TF-IDF值倒序排列,选取前3000个词的TF-IDF的值作为所述的文本初步表示;统计所有文档中的词汇,并按照统一的词汇顺序给每一篇文档编码;每一篇文档中的3000个词汇在与总词汇表对应的位置上用所述词汇的TF-IDF值表示,其余位置用0填充。
TF-IDF提取的文本初步表示最终维度过于庞大,所以用PCA算法将其维度降为3000维,降维后的文本表示为Tp
步骤1.3,用DAE来提取文本模态内的表示,具体的:
DAE的输入是经过PCA降维后的初步表示Tp,其隐藏层设置为2层,维度分别为2048和1024。
作为示例,本发明通过最小化目标函数来训练DAE,目标函数如下:
Figure BDA0003014484020000091
其中,Lr(x,x2h)为其重构误差,we和wd为编码器和解码器的权重,p为第p层隐藏层,h为隐藏层的层数,
Figure BDA0003014484020000092
为L2正则化,其最终输出为文本模态内表示Td
步骤1.4,用Multimodal DBN(Deep Belief Network)来提取图像和文本模态间的表示。Multimodal DBN模型有两个输入,分别是图像表示和文本表示,其中,图像表示的输入为步骤1.1所述1280维的初步图像特征Im,使其通过一层RBM,将维度降为1024,降维时用的激活函数为sigmoid激活函数。
文本表示的输入为所述降维后的文本表示Tp,然后将降维后的文本表示Tp输入RSRBM模型;RSRBM常常被用来处理数值为离散型的数据,其能量函数表示为:
Figure BDA0003014484020000093
其中,vi为输入层第i个节点的值,hj为隐藏层第j个节点的值,wij为输入层和隐藏层之间的权重,bi为第i输入层第i个节点的偏置,aj是隐藏层第j个节点的偏置,m是可见层离散值的总和。
将RSRBM模型的输出作为Multimodal DBN的文本输入,将所述文本输入通过两个隐藏层处理,所述两个隐藏层的节点数分别为2048和1024,激活函数设置为sigmoid激活函数。然后,在Multimodal DBN的联合层,使用下公式进行交替的吉布斯采样。
Figure BDA0003014484020000094
Figure BDA0003014484020000095
σ(x)=1/(1+e-x)
Figure BDA0003014484020000096
Figure BDA0003014484020000097
用于生成每种模态数据上的分布,
Figure BDA0003014484020000098
为图像输入的第1层隐藏层,σ()为sigmoid激活函数,
Figure BDA0003014484020000099
为图像第2层上的权重,at为文本最后一层的偏置,
Figure BDA00030144840200000910
为文本输入的第2层隐藏层,
Figure BDA0003014484020000101
为文本第2层隐藏层上的权重,ai为图像最后一层的偏置,x为激活函数的输入,e为自然数;Multimodal DBN最终的输出有两个:具有文本信息的图像模态间表示和具有图像信息的文本模态间表示,即一个是带有文本特征的图像模态间表示Yi,一个是带有图像特征的文本模态间表示Yt
步骤1.5,利用两个joint-RBM来融合每种模态的模态内表示和模态间表示。
图像joint-RBM的输入是Ia和Yi,输出为I0;文本joint-RBM的输入是Td和Yt,输出为T0;图像joint-RBM模型将图像模态内表示和图像模态间表示进行融合,得到第二阶段图像的综合表示I0;文本joint-RBM模型,将文本模态内表示和文本模态间进行融合,得到第一阶段文本的综合表示T0
步骤1.6,分别用两个DAE对I0和T0做分类训练,并以I0和T0分类训练的结果来寻找提取图像和文本的最佳隐藏层数,作为实施例,本发明将最佳隐藏层数确定为3,每一层隐藏层的节点数量分别设置为512,256和64。
步骤1.7,将图像的隐藏层和文本的隐藏层一一对应,形成新的自编码器——栈式对应自编码器。
步骤1.8,在栈式对应自编码器中应用关联约束函数,先通过最小化目标函数来自下而上逐层训练所述栈式对应自编码器,然后在整体上对所有自编码器调整,使得栈式对应自编码器在得到图像和文本最终表示的同时,能够在图像和文本的表示之间建立联系。
以第j层的关联约束函数作为示例:
Figure BDA0003014484020000102
其中,
Figure BDA0003014484020000103
Figure BDA0003014484020000104
图像和文本的输入,
Figure BDA0003014484020000105
Figure BDA0003014484020000106
代表了图像和文本的参数,
Figure BDA0003014484020000107
Figure BDA0003014484020000108
为图像和文本隐藏层的表示,最后,SCAE的第j层的损失函数可以表示为:
Figure BDA0003014484020000109
上式中相关公式如下:
Figure BDA0003014484020000111
Figure BDA0003014484020000112
Figure BDA0003014484020000113
代表图像和文本自编码器的重构误差,
Figure BDA0003014484020000114
代表了图像和文本的关联约束误差。
在整体调整阶段的目标函数为:
Figure BDA0003014484020000115
x0和y0图像和文本的输入特征向量,x2h和y2h为它们对应的重构特征表示,δ(q)是栈式对应自编码器中所有参数的L2正则化表示。
本发明基于用户的历史记录,利用已经训练好的跨模态检索模型MMDNN计算用户的正负反馈聚类的中心点。
步骤2.1,首先获得用户的历史记录,其中历史记录包括用户姓名、用户的浏览记录及打分,满分为5分,3分及以上的被视为正反馈,3分以下的被视为负反馈。不同阶段的用户对于图像或者文本资源的侧重点不一样,如果用户更加侧重于图片,则根据用户的图片记录向用户推荐图文资源;如果用户更加侧重于文本资源,将根据用户浏览的文本记录向用户推荐图文资源。
作为示例,以下是根据用户的图片记录向用户推荐图文资源的过程,根据用户的文本记录向用户推荐图文资源的过程与此类似。
步骤2.2,用户的兴趣爱好会随着时间而改变,根据用户最近50条图片的历史记录来计算用户的正负反馈聚类中心点。不够50张的全部取上。
本发明利用MMDNN来获得者50张图片的64维的最终表示,任意两张图片的距离用欧氏距离来计算,公式如下:
Figure BDA0003014484020000116
其中,If1和If2分别为这两张图片的最终表示。
然后,使用K-means算法分别计算出用户记录的正负反馈中心点,这里的K值取为1。
步骤3,作为示例本发明从用户的正反馈记录中选取前20个记录,不够20张的全部取上。并且根据此来向用户进行推荐。
步骤4,通过MMDNN模型提取20张图片的最终表示,所述20张图片的最终表示(If1,If2,If3……If18,If19,If20),并且找出所述20条最终表示的所属类别。在此为了描述方便,假定20条最终表示的所属的类别为“风景”。
步骤5,将图像数据库中的“风景”子数据库中的所有图片(但是不包括用户已经浏览过的图片)通过MMDNN处理,得到所有图片的最终表示(Ir1,Ir2,Ir3,Ir4,Ir5……)。
步骤6,计算步骤5中得到的每一张图片的最终表示和用户的20个记录的相似度得分。作为一种可实施的示例,本发明使用余弦相似度,其相似度得分用来表示,计算公式如下:
Figure BDA0003014484020000121
其中,
Figure BDA0003014484020000122
代表图片Iri的相似度得分,
Figure BDA0003014484020000123
为图片Iri和Ifj的相似度分数,其计算公式如下:
Figure BDA0003014484020000124
其中,A和B为两个n维向量,Ai和Bi分别代表向量A和向量B的第i个特征,A为图片Iri,B为图片Ifj,计算出所述相似度得分以后,将相似度得分按照倒序排列,取前M项图片作为备选项。作为示例,本发明中M设置为10。
步骤7,计算出这10张备选图片中每一张与该用户正负反馈聚类中心的距离,并用每张图片到正反馈中心和负反馈中心的距离倒数之和作为该图片的正负反馈得分,相关公式如下:
Figure BDA0003014484020000125
其中,Iri为第i张备选图片的表示,X为正反馈聚类中心点,Y为负反馈聚类中心点。
Figure BDA0003014484020000126
为第i张备选图片的正负反馈得分。
步骤8,将结合每一张备选图片的相似度得分和正负反馈得分,算出每一张备选图片的总得分,并将所述总得分按照倒序排列,取前K项作为最后的备选推荐图片;作为示例,本发明中,将K设置为5,所述相似度得分和正反馈分数和负反馈分数用加权的方式合并,具体公式如下:
Figure BDA0003014484020000131
其中,Si是第i张图片的最终得分,α是图片相似度得分的权重,i表示第i张备选图片。
步骤9,对于所得备选推荐图片中的每一张图片,用MMDNN模型从文本数据库中找到与之对应的文本资源;
步骤10,将所得备选推荐图片及其对应的文本结合起来,形成5对图-文资源,即形成向用户推荐的结果。
本发明还根据用户的反馈更新用户的历史记录和正负反馈中心点。
作为一个可选实施例,本发明还提供一种计算机设备,包括处理器以及存储器,存储器用于存储计算机可执行程序处理器从存储器中读取部分或全部所述计算机可执行程序并执行,处理器执行部分或者全部计算可执行程序时能实现本发明所述多模态图文推荐方法的部分步骤或者所有步骤,存储器还用于存储用户的历史记录。
一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时,能实现本发明所述的多模态图文推荐方法。
所述计算机设备可以采用笔记本电脑,平板电脑,桌面型计算机,手机或工作站。
本发明还提供用于输出预测结果的输出装置,所述输出装置链接处理器的输出端,输出装置为显示器或者打印机。
本发明所述处理器可以是中央处理器(CPU),数字信号处理器(DSP),专用集成电路(ASIC)或现成可编程门列阵(FPGA)。
对于本发明所述存储器,可以是笔记本电脑、平板电脑、桌面型计算机、手机或工作站的内部存储单元,如内存、硬盘:也可以采用外部存储单元,如移动硬盘、闪存卡。
计算机可读存储介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、固态硬盘(SSD.Solid State Drives)或光盘等。其中,随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance Random Access Memory)和动态随机取存储器(DRAM.DynamicRandom Access Memory)。

Claims (8)

1.一种基于深度学习的多模态图文推荐方法,其特征在于,包括以下步骤:
基于用户的历史记录采用跨模态检索模型计算用户的正反馈和负反馈的聚类中心点,所述历史记录包括图像和文本;
从用户历史记录中挑选出用户评分较高的前N条历史记录;
提取所述N条历史记录的特征,根据所述特征得到N条历史记录的所属类别;
用跨模态检索模型从与所述N条历史记录模态相同的数据库中提取同类型的数据;
计算所提取同类型的数据和所述N个历史记录的相似度得分,将所述相似度得分按照倒序排列,选取前M项相似度得分对应的历史记录;
使用所述正反馈和负反馈的聚类中心点分别计算所述M项中每一项历史记录的正反馈分数和负反馈分数;
根据M项相似度得分中每一项的相似度得分及所述正反馈分数和负反馈分数,计算所述M项历史记录中每一项数据的总得分,并按照所述总得分倒序排列,选取前K个数据;
针对所述K个数据中的每一项数据,用跨模态检索模型从文本数据库或图像数据库中找到与之对应的K个数据;
将所述前K个数据和文本数据库或图像数据库中的K个数据对应结合,形成K项图像-文本对,即得到推荐结果;跨模态检索模型通过以下过程进行训练得到:
采用去除了最后一层分类层的MobileNetV3-large模型来初步提取图像特征,在初步提取图像特征的基础上,一方面用AE来提取图像模态内的表示,即具有模态内信息的图像模态内表示;一方面使用RBM提取得到图像进一步的表示,该图像进一步的表示将被用来形成具有文本信息的图像模态间表示;
使用TF-IDF算法来初步提取文本特征;在初步提取文本特征的基础上一方面使用DAE提取文本模态内的表示,即具有模态内信息的文本模态内表示;一方面使用RSRBM提取得到文本进一步的表示,该文本进一步的表示将被用来形成具有图像信息的文本模态间表示;
基于所述图像进一步的表示和文本进一步的表示,本发明用Multimodal DBN来提取图像和文本的模态间表示;在Multimodal DBN的顶层,在图像和文本表示之间进行交替的吉布斯采样,即获得带有文本特征的图像模态间表示和带有图像特征的文本模态间表示;
利用两个joint-RBM模型融合每种模态的模态内表示和模态间表示,
一个joint-RBM模型将图像模态内表示和图像模态间表示进行融合,得到图像的综合表示;另一个joint-RBM模型,将具有文本模态内表示和文本模态间表示进行融合,得到文本的综合表示;
分别用两个DAE对所述图像的综合表示和所述文本的综合表示分别做分类训练,以提取图像和文本特征的最佳隐藏层数;
固定所提取的图像和文本的最佳隐藏层数,并使图像和文本的最佳隐藏层数一一对齐,组成栈式对应自编码器;
在栈式对应自编码器中,使用关联约束函数,重新利用第二阶段图像的综合表示和第二阶段文本的综合表示训练所述栈式对应自编码器,使得所述栈式对应自编码器在得到图像和文本最终表示的同时,能够在图像和文本的表示之间建立联系;
使用所述正反馈和负反馈的聚类中心点分别计算所述M项中每一项历史记录的正反馈分数和负反馈分数时:计算出备选图片或文本数据特征与该用户正反馈中心和负反馈中心的距离,使用图像或者文本数据特征到正负反馈聚类中心点距离的倒数的和,作为该数据的正负反馈分数。
2.根据权利要求1所述的基于深度学习的多模态图文推荐方法,其特征在于,跨模态检索模型用于数据特征的提取,跨模态检索模型训练的过程分为两个阶段:
在第一个阶段,对于图像,提取图像模态内的表示和带有文本信息的图像模态间的表示;对于文本,提取文本模态内的表示和带有图像信息的文本模态间的表示;
在第二个阶段,把图像模态内的表示和图像模态间的表示结合起来,形成图像综合表示;同时,把文本模态内的表示和文本模态间的表示结合起来,形成文本综合表示,然后利用栈式对应自编码器和约束函数在图像和文本的综合表示之间建立联系,同时学习到图像和文本的最终表示。
3.根据权利要求1所述的基于深度学习的多模态图文推荐方法,其特征在于,用Multimodal DBN来提取图像和文本模态间的表示时:先将文本的初步表示输入RSRBM模型,RSRBM能量函数为:
Figure FDA0003763833910000031
其中,vi为输入层第i个节点的值,hj为隐藏层第j个节点的值,wij为输入层和隐藏层之间的权重,bi为第i输入层第i个节点的偏置,aj是隐藏层第j个节点的偏置,m是可见层离散值的总和;
将RSRBM模型的输出作为Multimodal DBN的文本输入,将所述文本输入通过两个隐藏层处理,所述两个隐藏层的节点数分别为2048和1024,激活函数设置为sigmoid激活函数;然后,在Multimodal DBN的联合层,使用下公式进行交替的吉布斯采样,获得具有模态间信息的特征表示,
Figure FDA0003763833910000032
Figure FDA0003763833910000033
σ(x)=1/(1+e-x)
Figure FDA0003763833910000034
Figure FDA0003763833910000035
用于生成每种模态数据上的分布,
Figure FDA0003763833910000036
为图像输入的第1层隐藏层,σ()为sigmoid激活函数,
Figure FDA0003763833910000037
为图像第2层上的权重,at为文本最后一层的偏置,
Figure FDA0003763833910000038
为文本输入的第2层隐藏层,
Figure FDA0003763833910000039
为文本第2层隐藏层上的权重,ai为图像最后一层的偏置,x为激活函数的输入,e为自然数。
4.根据权利要求1所述的基于深度学习的多模态图文推荐方法,其特征在于,所述关联约束函数为:
Figure FDA0003763833910000041
其中,
Figure FDA0003763833910000042
Figure FDA0003763833910000043
图像和文本的输入,
Figure FDA0003763833910000044
Figure FDA0003763833910000045
代表了图像和文本的参数,
Figure FDA0003763833910000046
Figure FDA0003763833910000047
为图像和文本隐藏层的表示,栈式对应自编码器中损失函数为:
Figure FDA0003763833910000048
其中:
Figure FDA0003763833910000049
Figure FDA00037638339100000410
Figure FDA00037638339100000411
Figure FDA00037638339100000412
Figure FDA00037638339100000413
代表图像和文本自编码器的重构误差,
Figure FDA00037638339100000414
代表了图像和文本的关联约束误差,
Figure FDA00037638339100000415
是栈式自编码器中图像第j层隐藏层中的表示,
Figure FDA00037638339100000416
是栈式自编码器中图像第j层重构层中的表示,
Figure FDA00037638339100000417
是栈式自编码器中文本第j层隐藏层中的表示,
Figure FDA00037638339100000418
是栈式自编码器中文本第j层重构层中的表示;θ代表了栈式自编码器中第j层的全部参数;
整体调整栈式对应自编码器的目标函数为:
Figure FDA00037638339100000419
x0和y0图像和文本的输入特征向量,x2h和y2h为它们对应的重构特征表示,δ(q)是栈式对应自编码器中所有参数的L2正则化表示。
5.根据权利要求1所述的基于深度学习的多模态图文推荐方法,其特征在于,用户历史记录中正反馈和负反馈聚类的中心点采用K-means方法来分别计算,具体过程如下:
获取用户的历史记录,所述历史记录包括正反馈和负反馈记录;
利用跨模态图文检索模型来提取所述正反馈和负反馈数据的特征表示;
利用欧氏距离分别计算所述正反馈和负反馈数据的特征表示之间的距离;
利用K-means方法分别计算,得到用户记录中正反馈和负反馈聚类的中心点。
6.根据权利要求1所述的基于深度学习的多模态图文推荐方法,其特征在于,计算所述M项历史记录中每一项数据的总得分时,将所述相似度得分和正反馈分数和负反馈分数用加权的方式合并,作为图像和文本数据的总得分,具体的加权公式如下:
Figure FDA0003763833910000051
Si为图像或者文本的总得分,
Figure FDA0003763833910000052
为图像或者文本的相似度得分,
Figure FDA0003763833910000053
为图像或者文本的正负反馈分数,α为前者的权重,i表示第i张备选图片。
7.一种计算机设备,其特征在于,包括处理器以及存储器,存储器用于存储计算机可执行程序,处理器从存储器中读取部分或者全部所述计算机可执行程序并执行,处理器执行部分或全部计算可执行程序时能实现权利要求1-6任一项所述的多模态图文推荐方法。
8.一种计算机可读存储介质,其特征在于,计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时,能实现权利要求1-6任一项所述的多模态图文推荐方法。
CN202110385246.5A 2021-04-09 2021-04-09 一种基于深度学习的多模态图文推荐方法及设备 Active CN113094534B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110385246.5A CN113094534B (zh) 2021-04-09 2021-04-09 一种基于深度学习的多模态图文推荐方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110385246.5A CN113094534B (zh) 2021-04-09 2021-04-09 一种基于深度学习的多模态图文推荐方法及设备

Publications (2)

Publication Number Publication Date
CN113094534A CN113094534A (zh) 2021-07-09
CN113094534B true CN113094534B (zh) 2022-09-02

Family

ID=76676034

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110385246.5A Active CN113094534B (zh) 2021-04-09 2021-04-09 一种基于深度学习的多模态图文推荐方法及设备

Country Status (1)

Country Link
CN (1) CN113094534B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114462554B (zh) * 2022-04-13 2022-07-05 华南理工大学 一种基于多模态宽度学习的潜在抑郁评估系统
CN114612749B (zh) * 2022-04-20 2023-04-07 北京百度网讯科技有限公司 神经网络模型训练方法及装置、电子设备和介质
CN115964560B (zh) * 2022-12-07 2023-10-27 南京擎盾信息科技有限公司 基于多模态预训练模型的资讯推荐方法及设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462485A (zh) * 2014-12-18 2015-03-25 北京邮电大学 一种基于对应的深层信念网络的跨模态检索方法
CN108595636A (zh) * 2018-04-25 2018-09-28 复旦大学 基于深度跨模态相关性学习的手绘草图的图像检索方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10459995B2 (en) * 2016-12-22 2019-10-29 Shutterstock, Inc. Search engine for processing image search queries in multiple languages
KR102387305B1 (ko) * 2017-11-17 2022-04-29 삼성전자주식회사 멀티모달 데이터 학습 방법 및 장치
CN108647350A (zh) * 2018-05-16 2018-10-12 中国人民解放军陆军工程大学 一种基于双通道网络的图文关联检索方法
CN108876643A (zh) * 2018-05-24 2018-11-23 北京工业大学 一种社交策展网络上采集(Pin)的多模态表示方法
US11074253B2 (en) * 2018-11-02 2021-07-27 International Business Machines Corporation Method and system for supporting inductive reasoning queries over multi-modal data from relational databases
US20200311798A1 (en) * 2019-03-25 2020-10-01 Board Of Trustees Of The University Of Illinois Search engine use of neural network regressor for multi-modal item recommendations based on visual semantic embeddings
US11244205B2 (en) * 2019-03-29 2022-02-08 Microsoft Technology Licensing, Llc Generating multi modal image representation for an image
CN110457516A (zh) * 2019-08-12 2019-11-15 桂林电子科技大学 一种跨模态图文检索方法
CN112287166B (zh) * 2020-09-23 2023-03-07 山东师范大学 一种基于改进深度信念网络的电影推荐方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462485A (zh) * 2014-12-18 2015-03-25 北京邮电大学 一种基于对应的深层信念网络的跨模态检索方法
CN108595636A (zh) * 2018-04-25 2018-09-28 复旦大学 基于深度跨模态相关性学习的手绘草图的图像检索方法

Also Published As

Publication number Publication date
CN113094534A (zh) 2021-07-09

Similar Documents

Publication Publication Date Title
CN111753060B (zh) 信息检索方法、装置、设备及计算机可读存储介质
Kaur et al. Comparative analysis on cross-modal information retrieval: A review
CN113094534B (zh) 一种基于深度学习的多模态图文推荐方法及设备
Zhou et al. Predicting movie box-office revenues using deep neural networks
WO2023065617A1 (zh) 基于预训练模型和召回排序的跨模态检索系统及方法
Dering et al. A convolutional neural network model for predicting a product's function, given its form
AU2016256764A1 (en) Semantic natural language vector space for image captioning
CN112241468A (zh) 一种基于多头目自注意力机制的跨模态视频检索方法、系统及存储介质
CN111324765A (zh) 基于深度级联跨模态相关性的细粒度草图图像检索方法
GB2546360A (en) Image captioning with weak supervision
CN112015868A (zh) 基于知识图谱补全的问答方法
Li et al. MRMR-based ensemble pruning for facial expression recognition
US11755668B1 (en) Apparatus and method of performance matching
Abdul-Rashid et al. Shrec’18 track: 2d image-based 3d scene retrieval
CN116204706A (zh) 一种文本内容结合图像分析的多模态内容检索方法与系统
CN112084338B (zh) 一种文档自动归类方法、系统、计算机设备及存储介质
Peng et al. UMass at ImageCLEF Medical Visual Question Answering (Med-VQA) 2018 Task.
CN113297410A (zh) 一种图像检索方法、装置、计算机设备及存储介质
CN118114188B (zh) 基于多视角和分层融合的虚假新闻检测方法
CN111461175A (zh) 自注意与协同注意机制的标签推荐模型构建方法及装置
US20230368003A1 (en) Adaptive sparse attention pattern
CN116737877A (zh) 基于注意力网络对抗哈希的跨模态检索方法及设备
CN112950414B (zh) 一种基于解耦法律要素的法律文本表示方法
CN117540039A (zh) 一种基于无监督跨模态哈希算法的数据检索方法
Perdana et al. Instance-based deep transfer learning on cross-domain image captioning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant