CN115964560A

CN115964560A - 基于多模态预训练模型的资讯推荐方法及设备

Info

Publication number: CN115964560A
Application number: CN202211563461.0A
Authority: CN
Inventors: 侯旭; 郑茂盛; 杜向阳
Original assignee: Nanjing Aegis Information Technology Co ltd
Current assignee: Nanjing Aegis Information Technology Co ltd
Priority date: 2022-12-07
Filing date: 2022-12-07
Publication date: 2023-04-14
Anticipated expiration: 2042-12-07
Also published as: CN115964560B

Abstract

本发明公开了一种基于多模态预训练模型的资讯推荐方法，其特征在于它包括以下步骤：S1、对待推荐资讯、历史点击资讯集合中的内容分别进行多模态编码；S2、输入跨模态注意力网络，获得用户向量表示；S3、将待推荐资讯的文本表示向量、待推荐资讯的图像表示向量与用户向量表示结合，获得待推荐资讯的相关性得分；S4、根据相关性得分对待排序资讯排序，得分高的资讯表示与用户兴趣更匹配，优先推荐高得分资讯，实现资讯推荐。本发明所使用的推荐方法，融合了多模态数据信息，并建立了跨模态注意力网络对多模态数据信息进行融合。以综合考虑多因素影响，实现用户感兴趣咨询的精准推送。

Description

基于多模态预训练模型的资讯推荐方法及设备

技术领域

本发明属于大数据领域，具体是一种基于多模态预训练模型的资讯推荐方法及设备。

背景技术

随着互联网技术和应用的不断发展，互联网资讯内容呈现爆炸式的增长。为了在海量信息中为用户准确推荐感兴趣的内容，个性化推荐服务已经广泛应用于电商、社交、资讯等各互联网平台。此外，同一个互联网平台会包含文本、图片、视频等多种形式的资讯内容。

传统的资讯推荐方法主要基于文本内容进行推荐。专利CN201510509331.2提出一种新闻推荐方法，将文本相似度较高的新闻分为一个类簇，并将每个类簇存储于数据库中，当需要推荐新闻时，将该新闻对应的类簇中的其他新闻推荐给用户。然而，除了标题、内容等文本信息之外，资讯的封面图片等图像信息，也是用户是否点击的一个影响因素。

现有的多模态推荐方法主要通过分别对文本、图像、音频等模态数据进行特征编码，然后再通过拼接等方式对多种模态的特征表示进行融合，通过融合的多模态特征进行内容推荐。专利CN201910606172.6基于图像模态、音频模态和文本模态分别构建用户-内容图结构，通过相应图卷积神经网络的聚合层分别计算表达各个模态的用户及内容，利用相应图卷积神经网络的融合层合并用户及内容的各个模态的表达，得到用户和内容的最终表达。现有方法不能很好地学习到跨模态特征的统一表示，并且需要大量的标注数据进行训练。

发明内容

本发明基于背景技术中存在的问题，提出了一种基于多模态预训练模型的资讯推荐方法及设备。

技术方案：

本发明首先公开了一种基于多模态预训练模型的资讯推荐方法，它包括以下步骤：

S1、对待推荐资讯、历史点击资讯集合中的内容分别进行多模态编码，获取待推荐资讯的文本表示向量、待推荐资讯的图像表示向量、历史点击资讯的文本表示向量、历史点击资讯的图像表示向量；

S2、将待推荐资讯的文本表示向量、待推荐资讯的图像表示向量、历史点击资讯的文本表示向量、历史点击资讯的图像表示向量输入跨模态注意力网络，获得用户向量表示；

S3、将待推荐资讯的文本表示向量、待推荐资讯的图像表示向量与用户向量表示结合，获得待推荐资讯的相关性得分；

S4、根据相关性得分对待排序资讯排序，得分高的资讯表示与用户兴趣更匹配，优先推荐高得分资讯，实现资讯推荐。

优选的，S1的具体步骤包括：

S1-1、输入数据准备，输入数据包资讯的文本模态数据和图像模态数据，其中：

抽取文本内容的关键词，将标题、标签、关键词拼接获得文本模态数据；

提取视频关键帧获得图像数据，资讯的封面图片、视频中提取的关键帧作为图像模态数据；

资讯包括待推荐资讯和历史点击资讯；

S1-2、特征提取，分别获得文本的词序列、图像特征序列；

S1-3、使用视觉语言预训练模型对文本特征序列和图像特征序列进行跨模态关系表示建模，获取词表示序列H^t和ROI表示序列H^p；

S1-4、词表示序列通过文本注意力网络学习，获得文本表示向量；ROI表示序列通过视觉注意力网络学习，获得图像表示向量。

优选的，S1-2中，文本特征序列的获取方法为：使用jieba分词，得到一个词序列[w₁，w₂，...，w_M]，其中M为词序列中词的个数。

优选的，S1-2中，图像特征序列的获取方法为：

首先，利用预训练的MaskR-CNN模型获取图像的感兴趣区域；

然后，利用ResNet-50模型提取ROI特征，得到图像特征序列[e₁，e₂，...，e_N]，其中N为ROI序列中的ROI个数。

具体的，S1-3中，视觉语言预训练模型为ViLBERT，将S1-2获得的文本的词序列、图像特征序列作为视觉语言预训练模型的输入，获得视觉语言预训练模型的输出为词表示序列H^t和ROI表示序列H^p。

S1-4中，具体的：

文本表示向量：r^t2H^t×a^t，式中，a^t为文本注意力权重；

图像表示向量：r^p＝H^p×a^p，式中，a^p为视觉注意力权重。

具体的：

a^t＝softmax[(W^tH^t)^Tq^t]

a^p＝softmax[(W^pH^p)^Tq^p]

式中，W^t和W^p为参数矩阵(网络参数，初始值随机确定，训练过程中不断更新)，q^t和q^p为注意力query向量(表示序列H中的每个特征为一个query向量)。

优选的，S2中，具体步骤为：

S2-1、使用跨模态注意力网络，计算待推荐资讯与历史点击资讯的跨模态相关性：

文本-文本注意力权重

文本-图像注意力权重

图像-文本注意力权重

图像-图像注意力权重

式中，权重值表示相关性的大小；R^t表示历史点击资讯的文本表示向量，

表示待推荐资讯的文本表示向量，R^p表示历史点击资讯的图像表示向量，

表示待推荐资讯的图像表示向量；

其中z＝(z₁，...，z_K)∈R^K；

S2-2、用户向量表示u＝R^t×(a^t，p+a^p，p)+R^p×(a^p，t+a^t，t)。

具体的，S3中，待推荐资讯得分

为：

式中，

表示待推荐资讯的文本表示向量，

表示待推荐资讯的图像表示向量，u为用户向量表示。

本发明还公开了一种基于多模态预训练模型的资讯推荐设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行本发明所述方法的步骤。

本发明的有益效果

本发明所使用的推荐方法，融合了多模态数据信息，并建立了跨模态注意力网络对多模态数据信息进行融合。以综合考虑多因素影响，实现用户感兴趣咨询的精准推送。

附图说明

图1为本发明的多模态编码的流程图

图2为本发明的资讯推荐流程图

具体实施方式

下面结合实施例对本发明作进一步说明，但本发明的保护范围不限于此：

结合图1，实施例给出了具体的多模态编码方法：

(1)准备输入数据

互联网平台展示的资讯，不仅包括文本，往往还包括图片或视频甚至混合了多种形式。用户对资讯感兴趣可能会对某条资讯感兴趣不单单因为标题或者文本内容，还可能是由于吸引人的封面图片或者视频内容。因此，推荐系统充分利用这些不同模态的信息可以使得推荐的效果更好。

文本模态数据包括资讯的标题、标签，并抽取资讯详细内容的关键词作为补充。

本发明采用KeyBERT模型抽取文本内容的关键词。KeyBERT是基于BERT预训练模型的关键词抽取方法，只需要预训练模型，不需要额外训练模型。

将标题、标签以及提取得到的内容关键词拼接作为文本模态的输入数据。

图像模态数据包括资讯的封面图片，对于视频内容，通过提取视频关键帧得到其图像数据。本发明利用FFmpeg工具按照固定时间间隔提取视频的关键帧。

(2)特征提取，分别得到文本的词序列和图像的特征表示向量序列

文本：分词，得到词序列。本发明使用jieba分词，得到一个词序列[w₁，w₂，...，w_M]，其中M为词序列中词的个数。

图像：对于一张图像来说，不同的区域所信息量也不尽相同，例如背景部分的信息量会比较少，所以，本发明首先利用预训练的MaskR-CNN模型抽取出资讯图像的感兴趣区域(ROI)，然后利用ResNet-50模型对得到的ROI进行特征提取，得到特征序列[e₁，e₂，...，e_N]，其中N为ROI序列中的ROI个数。

(3)应用视觉语言预训练模型(如ViLBERT)获取文本和图像的内在关系

以往的方法在得到图像和文本特征之后会分别进行建模，但是这种方法忽视了文本和图像之间的关系，这种对应关系会帮助模型更好地理解内容并预测用户的兴趣。视觉语言模型可以有效地对文本与图像的跨模态关系表示建模。

将上一步得到的词序列[w₁，w₂，...，w_M]和图像特征序列[e₁，e₂，...，e_N]作为视觉语言预训练模型的输入，得到词表示序列

和ROI表示序列

(4)分别利用文本注意力网络和视觉注意力网络学习文本和图像的统一表示，得到文本和视觉的表示向量。

文本注意力权重的计算公式：

a^t＝softmax(W^tH^t)^Tq^t

其中，W^t为参数矩阵，q^t为注意力query向量。最终的文本表示向量为注意力权重与词表示序列的加权和，即r^t＝H^t×a^t。

类似的，视觉注意力权重的计算公式：

a^p＝softmax(W^pH^p)^Tq^p

其中，W^p为参数矩阵，q^p为注意力query向量。最终的图像表示向量为注意力权重与ROI表示序列的加权和，即r^p＝H^p×a^p。

结合图2，实施例给出了多模态资讯推荐方法。

(1)利用上述多模态资讯编码方法学习得到用户的历史浏览资讯的文本表示和图像表示，分别表示为

和

其中L为用户的历史点击资讯条数。

(2)首先，在用户的历史浏览资讯集中，可能只有一小部分与待推荐资讯相关，而与待推荐资讯不相关的历史浏览资讯不会提升推荐的效果，所以为了更加精准地对用户兴趣进行建模，需要根据与待推荐资讯的相关性来选择历史浏览资讯。此外，待推荐资讯与历史浏览资讯可能也会存在跨模态的关系。

基于上述考虑，为了更好地根据浏览历史对用户兴趣进行建模，本发明利用跨模态注意力网络，计算历史浏览资讯与待推荐资讯的跨模态相关性：计算文本-文本注意力权重

表示历史浏览咨询与待推荐资讯的文本与文本之间的相关性，类似的，历史浏览资讯的文本-图像注意力、图像-文本注意力和图像-图像注意力权重分别为

(3)根据以上权重计算得到统一用户向量表示，即用户兴趣建模

u＝R^t×(a^t，p+a^p，p)+R^p×(a^p，t+a^t，t)

(4)计算待推荐资讯得分

通过softmax函数将得分标准化，将资讯点击预测转化为一个多分类任务。

本文中所描述的具体实施例仅仅是对本发明精神做举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。