CN117786234B - 一种基于两阶段对比学习的多模态资源推荐方法 - Google Patents

一种基于两阶段对比学习的多模态资源推荐方法 Download PDF

Info

Publication number
CN117786234B
CN117786234B CN202410217209.7A CN202410217209A CN117786234B CN 117786234 B CN117786234 B CN 117786234B CN 202410217209 A CN202410217209 A CN 202410217209A CN 117786234 B CN117786234 B CN 117786234B
Authority
CN
China
Prior art keywords
resource
recommendation
characterization
user
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410217209.7A
Other languages
English (en)
Other versions
CN117786234A (zh
Inventor
甘健侯
李子杰
陈书雨
王俊
周菊香
王士进
刘三女牙
张桂戌
杨志军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yunnan Normal University
Original Assignee
Yunnan Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yunnan Normal University filed Critical Yunnan Normal University
Priority to CN202410217209.7A priority Critical patent/CN117786234B/zh
Publication of CN117786234A publication Critical patent/CN117786234A/zh
Application granted granted Critical
Publication of CN117786234B publication Critical patent/CN117786234B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种基于两阶段对比学习的多模态资源推荐方法,涉及电子数据处理领域,该方法包括:基于用户对资源的交互记录确定目标特征;基于所述交互记录对应的二部图,确定所述交互记录对应的用户表征以及资源表征;基于所述用户表征、所述资源表征以及所述目标特征对应的多模态表征,计算点击率序列;基于预设筛选方案从所述点击率序列中选取目标点击率对应的目标推荐结果,所以,有效解决了相关技术中不能有效地融合多种多模态信息,进而导致根据这些信息进行推荐时准确性低的技术问题,实现了提升推荐算法的准确性的技术效果。

Description

一种基于两阶段对比学习的多模态资源推荐方法
技术领域
本申请涉及电子数据处理领域,尤其涉及一种基于两阶段对比学习的多模态资源推荐方法、设备和可读存储介质。
背景技术
随着数字化时代的演进,用于为用户提供个性化的内容和资源推荐的个性化推荐系统,已经成为互联网服务的核心组成部分,而推荐系统的核心也由单一模态向多模态信息进行转变。
传统的推荐系统主要基于用户和资源的向量表示,然后利用这些向量进行推荐。然而,这种方法忽略了多模态信息的丰富性,其对于文本、图像等多种模态数据的利用率低。因此,进一步引入在多模态信息处理中表现出色的深度学习技术,来提高多模态数据的利用率。
但是上述技术不能有效地融合多种多模态信息,进而导致根据这些信息进行推荐时准确性低。
发明内容
本申请实施例通过提供一种基于两阶段对比学习的多模态资源推荐方法、设备和可读存储介质,解决了相关技术中不能有效地融合多种多模态信息,进而导致根据这些信息进行推荐时准确性低的技术问题,实现了提升推荐算法的准确性的技术效果。
本申请实施例提供了一种基于两阶段对比学习的多模态资源推荐方法,所述基于两阶段对比学习的多模态资源推荐方法包括:
基于用户对资源的交互记录确定目标特征;
基于所述交互记录对应的二部图,确定所述交互记录对应的用户表征以及资源表征;
基于所述用户表征、所述资源表征以及所述目标特征对应的多模态表征,计算点击率序列;
基于预设筛选方案从所述点击率序列中选取目标点击率对应的目标推荐结果。
可选地,所述基于用户对资源的交互记录确定目标特征的步骤包括:
基于所述交互记录对应的用户标识以及资源标识进行嵌入操作,确定用户嵌入以及资源嵌入;
基于预设语言模型提取所述交互记录对应的资源文本,确定文本特征;
基于预设训练模型提取所述交互记录对应的资源图像,确定图像特征。
可选地,所述基于所述交互记录对应的二部图,确定所述交互记录对应的用户表征以及资源表征的步骤包括:
基于所述目标特征中的用户嵌入以及资源嵌入构建所述二部图;
学习所述二部图,确定预设层数的节点表征;
基于各层所述节点表征的平均池化,确定所述用户表征以及所述资源表征。
可选地,所述基于所述用户表征、所述资源表征以及所述目标特征对应的多模态表征,计算点击率序列的步骤之前,包括:
以所述目标特征中的文本特征以及图像特征作为多层神经网络的输入参数;
根据所述多层神经网络的输出结果更新所述文本特征以及所述图像特征,以统一所述文本特征以及所述图像特征的维度;
以更新后的所述文本特征以及所述图像特征作为所述多层神经网络的输入参数,确定所述多模态表征。
可选地,所述基于所述用户表征、所述资源表征以及所述目标特征对应的多模态表征,计算点击率序列的步骤包括:
确定所述用户表征、所述资源表征以及所述多模态表征对应的拼接向量;
根据所述拼接向量、多层神经网络以及预设函数,确定每个推荐结果对应的点击率;
基于所述推荐结果以及对应的所述点击率,生成所述点击率系列。
可选地,所述基于预设筛选方案从所述点击率序列中选取目标点击率对应的目标推荐结果的步骤之后,包括:
基于所述目标特征确定所述交互记录对应的图文对比损失;
基于所述多模态表征以及所述资源表征确定资源对比损失;
基于所述目标推荐结果确定推荐任务损失;
根据所述图文对比损失、所述资源对比损失以及所述推荐任务损失优化推荐模型。
可选地,所述基于所述目标推荐结果确定推荐任务损失的步骤包括:
获取样本真实值以及样本总量;
基于损失函数、所述目标推荐结果、所述样本真实值以及所述样本总量,确定所述推荐任务损失。
可选地,所述根据所述图文对比损失、所述资源对比损失以及所述推荐任务损失优化推荐模型的步骤包括:
基于所述图文对比损失、所述资源对比损失以及所述推荐任务损失的和,确定总损失;
基于所述总损失以及预设优化器确定优化参数;
根据所述优化参数优化所述推荐模型。
此外,本申请还提出一种基于两阶段对比学习的多模态资源推荐设备,所述基于两阶段对比学习的多模态资源推荐设备包括存储器、处理器及存储在存储器上并可在处理器上运行的多模态资源推荐程序,所述处理器执行所述多模态资源推荐程序时实现如上所述的基于两阶段对比学习的多模态资源推荐方法的步骤。
此外,本申请还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有多模态资源推荐程序,所述多模态资源推荐程序被处理器执行时实现如上所述的基于两阶段对比学习的多模态资源推荐方法的步骤。
本申请提供的一个或多个技术方案,至少具有如下技术效果或优点:
由于采用了基于用户对资源的交互记录确定目标特征;基于所述交互记录对应的二部图,确定所述交互记录对应的用户表征以及资源表征;基于所述用户表征、所述资源表征以及所述目标特征对应的多模态表征,计算点击率序列;基于预设筛选方案从所述点击率序列中选取目标点击率对应的目标推荐结果,所以,有效解决了相关技术中不能有效地融合多种多模态信息,进而导致根据这些信息进行推荐时准确性低的技术问题,实现了提升推荐算法的准确性的技术效果。
附图说明
图1为本申请基于两阶段对比学习的多模态资源推荐方法实施例一的流程示意图;
图2为本申请基于两阶段对比学习的多模态资源推荐方法实施例一中可选实施方式的流程示意图;
图3为本申请基于两阶段对比学习的多模态资源推荐设备实施例涉及的硬件结构示意图。
具体实施方式
在相关技术中,个性化推荐系统已经成为互联网服务的核心组成部分,用于为用户提供个性化的内容和资源推荐。随着多模态信息(包括文本、图像、音频等)的广泛应用,传统的单一模态推荐系统已经不能满足用户的需求,因此多模态资源推荐成为研究的热点之一。传统的推荐系统主要基于用户和资源的向量表示,然后利用这些向量进行推荐,然而,这种方法忽略了多模态信息的丰富性,未能充分利用文本、图像等多种模态数据。近年来,深度学习技术在多模态信息处理中取得了显著的进展,许多模型在文本和图像特征提取方面表现出色,然而,如何有效地融合多模态信息,以及如何将这些信息与推荐任务结合起来,仍然是一个具有挑战性的问题。
对比学习作为一种有效的无监督学习方法,已被广泛应用于多模态信息的特征提取和融合,通过对比不同模态之间的差异,可以更好地捕捉到各模态之间的关联性,从而提高推荐的准确性。但是,如何设计有效地对比学习算法,以及如何将其与推荐任务结合,仍然是研究的热点和难点。本申请实施例采用的主要技术方案是:基于用户对资源的交互记录确定目标特征;基于所述交互记录对应的二部图,确定所述交互记录对应的用户表征以及资源表征;基于所述用户表征、所述资源表征以及所述目标特征对应的多模态表征,计算点击率序列;基于预设筛选方案从所述点击率序列中选取目标点击率对应的目标推荐结果,从而实现了融合多种模态数据与推荐任务,提升推荐算法的准确性的技术效果。
为了更好地理解上述技术方案,下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例,然而应当理解,能够以各种形式实现本申请而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本申请,并且能够将本申请的范围完整地传达给本领域的技术人员。
实施例一
本申请实施例一公开了一种基于两阶段对比学习的多模态资源推荐方法,参照图1,所述基于两阶段对比学习的多模态资源推荐方法包括:
步骤S110,基于用户对资源的交互记录确定目标特征。
在本实施例中,以所有用户对资源的全部访问记录为数据总样本,设该样本集中有N个样本,每个样本包含了单个用户对某个资源的单次访问行为的发生。以交互记录包括的用户标识、资源标识,多模态信息中的资源文本和资源图像作为输入,每次从样本集中选取一批交互记录作为输入,依靠模型预测结果与真实标签之间计算出的损失作为模型优化的依据。其中的交互记录即用户对资源的交互记录。目标特征包括但不限于用户嵌入、资源嵌入、文本特征以及图像特征。
作为一种可选实施方式,以所有用户对资源的全部访问记录为数据总样本,设该样本集中有N个样本,每个样本包含了单个用户对某个资源的单次访问行为的发生。从样本集中选取预设数量的用户对资源的交互记录,根据交互记录中包含的用户标识、资源标识、资源文本以及资源图像,确定目标特征。
步骤S120,基于所述交互记录对应的二部图,确定所述交互记录对应的用户表征以及资源表征。
在本实施例中,获取交互记录生成的二部图,分别学习二部图中用户和资源的节点特征,获取预设层数的输出,根据各层对应的输出,确定用户表征以及资源表征。
二部图(Bipartite Graph),又称作二分图,是一种特殊类型的无向图。它的顶点可以被分为两个独立的顶点集,使得每条边的一个端点属于其中一个顶点集,另一个端点属于另一个顶点集。换句话说,二部图中不存在同一顶点集中的顶点之间直接相连的边。一个二部图可以用一个二元组 (U, V, E) 来表示,其中 U 和 V 是两个顶点集合,E 是边的集合。对于二部图中每条边 (u, v),其中 u 属于顶点集合 U,v 属于顶点集合 V,表示 u和 v 之间有一条边存在。
步骤S130,基于所述用户表征、所述资源表征以及所述目标特征对应的多模态表征,计算点击率序列。
在本实施例中,基于推荐模型中的推荐算法,以用户表征、所述资源表征和多模态表征作为推荐算法的输入,输出各个推荐结果对应的点击率,生成点击率序列。其中,多模态表征为根据文本特征以及图像特征进行融合后的特征。
步骤S140,基于预设筛选方案从所述点击率序列中选取目标点击率对应的目标推荐结果。
在本实施例中,以点击率序列中,点击率最高的推荐结果,作为目标推荐结果。目标点击率可以取排名第一,即点击率最高。推荐结果即资源。
作为一种可选实施方式,基于用户对资源的交互记录确定目标特征,统计用户在交互过程中的点击、购买、收藏等行为,将这些行为作为目标特征的一部分。分析用户对不同资源的历史评分或偏好,将这些评分作为目标特征的一部分。基于交互记录对应的二部图,确定用户表征和资源表征,根据交互记录中的用户标识和资源标识,构建一个二部图。用户标识为一个顶点集合,资源标识为另一个顶点集合,交互记录中的边表示用户和资源之间的交互。使用图嵌入技术(如Node2Vec、DeepWalk等)将用户表征和资源表征映射到低维向量空间中。基于用户表征、资源表征和目标特征的多模态表征,计算点击率序列,将用户表征、资源表征和目标特征的多模态表征进行融合,可以使用深度学习模型(如多模态神经网络、注意力机制等)来实现。根据融合后的多模态表征,计算出每个用户对每个资源的点击率。基于预设筛选方案从点击率序列中选取目标点击率对应的推荐结果,设定一个阈值或排序指标,根据点击率序列筛选出目标点击率较高的资源。可以使用基于机器学习的排序算法(如排序神经网络、协同排序等)对候选资源进行排序,得到最终的推荐结果。
作为一种可选实施方式,参照图2,首先,进行用户、资源(即所述的多模态资源)的向量化过程。即基于用户对资源的交互记录,对用户、资源编码,即用户标识和资源标识进行ID嵌入,确定用户嵌入以及资源嵌入;利用BERT(Bidirectional EncoderRepresentations from Transformers,基于转换器的双向编码器)和ViT(VisionTransformer,视觉转换器)提取交互记录中的资源的文本以及资源的图像,即资源文本和资源图像,进而确定文本特征和图像特征。其次,对多模态信息进行融合,针对确定的文本特征和图像特征,使用多层感知机进行多模态特征融合,并计算图像-文本对比损失,即图文对比损失,优化多模态信息表征质量。然后,基于交互记录构建用户-项目二部图,即用户-资源二部图,再利用Light-GCN得到用户表征和资源表征,再计算资源嵌入与多模态信息的对比损失,从而将图-文模态信息引入资源嵌入中,优化资源表征效果。最终,将用户表征和资源表征、多模态表征拼接后输入神经网络中,计算预测点击率,选取点击率最大的资源作为预测结果。再利用点击率与真实标签计算推荐任务损失,将推荐任务损失与两个阶段的对比损失相加,得到总损失,以此优化模型。BERT(Bidirectional EncoderRepresentations from Transformers)是一种基于Transformer模型的预训练语言模型。VIT(Vision Transformer)是一种基于Transformer(转换器)模型的视觉领域的模型,用于处理图像数据。
由于采用了基于用户对资源的交互记录确定目标特征;基于所述交互记录对应的二部图,确定所述交互记录对应的用户表征以及资源表征;基于所述用户表征、所述资源表征以及所述目标特征对应的多模态表征,计算点击率序列;基于预设筛选方案从所述点击率序列中选取目标点击率对应的目标推荐结果,所以,有效解决了相关技术中不能有效地融合多种多模态信息,进而导致根据这些信息进行推荐时准确性低的技术问题,实现了提升推荐算法的准确性的技术效果。
基于实施例一,本申请实施例二提出一种基于两阶段对比学习的多模态资源推荐方法,步骤S110包括:
步骤S210,基于所述交互记录对应的用户标识以及资源标识进行嵌入操作,确定用户嵌入以及资源嵌入。
在本实施例中,用户标识唯一标识对应的用户,资源标识唯一标识对应的资源。用户嵌入可以是用户嵌入矩阵,资源嵌入可以是资源嵌入矩阵。
基于交互记录对应的用户标识和资源标识进行嵌入操作,使用嵌入算法(如Word2Vec、GloVe等)将用户和资源标识映射到低维向量空间中,得到用户嵌入和资源嵌入。
步骤S220,基于预设语言模型提取所述交互记录对应的资源文本,确定文本特征。
使用预设的语言模型(如BERT、GPT等)对交互记录中的资源文本进行处理,提取文本特征,得到文本的向量表示。
步骤S230,基于预设训练模型提取所述交互记录对应的资源图像,确定图像特征。
使用预设的训练模型(如图像分类模型、图像生成模型等)对交互记录中的资源图像进行处理,提取图像特征,得到图像的向量表示。
作为一种可选实施方式,基于用户对资源的交互记录确定目标特征,使用嵌入算法将用户标识和资源标识映射到低维向量空间中,得到用户嵌入和资源嵌入。使用预训练的语言模型(如BERT)对交互记录中的商品文本进行处理,提取文本特征,得到文本的向量表示。使用预训练的图像分类模型对交互记录中的商品图像进行处理,提取图像特征,得到图像的向量表示。接下来,可以将用户嵌入、资源嵌入、文本向量和图像向量进行融合,得到多模态的表征可以采用拼接、加权求和等方式将用户嵌入、资源嵌入、文本向量和图像向量融合为一个向量。可以使用多模态神经网络(如MMoE、MuFu等)进行深度融合,将不同模态的表征进行有效地融合。最后,可以使用融合后的多模态表征计算点击率、排序或进行其他推荐任务。
示例性的,对用户标识进行嵌入操作,即:
其中,表示用户总数,为嵌入维度,为用户嵌入矩阵。后续以表示每次推 荐时的用户嵌入。
对资源标识进行嵌入操作,即:
其中,表示资源总数,为嵌入维度,为资源嵌入矩阵。后续以表示每次推荐时 的资源嵌入。
使用XLNet语言模型提取资源文本特征,即:
若资源的文本描述长度为,则文本表示为,其中表示文本 的第一个词,将输入XLNet语言模型中,其输出为:
其中表示文本最长长度,表示XLNet预训练语 言模型设定的嵌入维度,是XLNet中自动添加的token。
作为资源的文本特征,即:
使用ViT-Tiny预训练模型提取资源图像特征,即:
若资源的图片为x分辨率的彩色RGB三通道,其中为高度方向的像素数量,为宽度方向的像素数量则将文本,输入ViT-Tiny预训练模型 中,其输出为:
其中表示图像切割后的Patch总数。表 示ViT-Tiny模型设定的嵌入维度。取作为资源的图像特征,即:
经上述步骤后,得到用户嵌入、资源嵌入、文本特征、图像特征
基于实施例一,本申请实施例三提出一种基于两阶段对比学习的多模态资源推荐方法,步骤S120包括:
步骤S310,基于所述目标特征中的用户嵌入以及资源嵌入构建所述二部图。
在本实施例中,基于目标特征中的用户嵌入以及资源嵌入包含的用户和资源作为节点,以用户对资源的发生过的交互作为边连接对应的用户节点以及资源节点,基于用户嵌入、资源嵌入以及边集合,构成二部图。
步骤S320,学习所述二部图,确定预设层数的节点表征。
在本实施例中,分别对用户节点以及资源节点进行学习,获取预设层数的输出作为节点表征。即用户节点有对应的各层节点表征,资源节点也有各层对应的节点表征。
步骤S330,基于各层所述节点表征的平均池化,确定所述用户表征以及所述资源表征。
在本实施例中,基于用户节点对应的各层节点表征的平均池化作为用户表征,基于资源节点对应的各层节点表征的平均池化作为资源表征。
作为一种可选实施方式,使用用户和资源的嵌入向量构建一个二部图,其中用户标识对应一个节点集合,资源标识对应另一个节点集合,用户和资源之间的交互记录对应图中的边。可以选择使用图神经网络(Graph Neural Network,GNN)来学习二部图的节点表征。学习二部图确定预设层数的节点表征,使用GNN模型对二部图进行多层迭代,每一层都会更新节点的表征。GNN中的每一层可以使用邻居节点的信息来更新当前节点的表征,可以使用节点的嵌入、边的特征等。基于各层节点表征的平均池化确定用户表征和资源表征,对于用户节点,可以将用户节点在各层的表征进行平均池化,得到用户的综合表征。对于资源节点,同样可以将资源节点在各层的表征进行平均池化,得到资源的综合表征。
示例性的,记某个用户被表示为,某个资源被表示为。边集合 C 连接用 户和资源,表示用户和资源发生过交互,如果有一条边连接用户和资源,可以表示为 。则用户资源的二部图可以表示为:
利用Light-GCN学习节点表征:
其中,表示Light-GCN的第k层输出,即第k层节点表征,最终取各层输出对应的 平均池化作为用户表征。同理得到资源表征
基于实施例一,本申请实施例四提出一种基于两阶段对比学习的多模态资源推荐方法,步骤S130之前,包括:
步骤S410,以所述目标特征中的文本特征以及图像特征作为多层神经网络的输入参数。
步骤S420,根据所述多层神经网络的输出结果更新所述文本特征以及所述图像特征,以统一所述文本特征以及所述图像特征的维度。
在本实施例中,将图像特征作为多层神经网络的输入参数,根据输出结果作为统一维度后的图像特征。将文本特征作为多层神经网络的输入参数,根据输出结果作为统一维度后的文本特征。
步骤S430,以更新后的所述文本特征以及所述图像特征作为所述多层神经网络的输入参数,确定所述多模态表征。
在本实施例中,确定统一维度后的文本特征以及图像特征对应的第一拼接向量,以第一拼接向量作为多层神经网络的输入参数,确定多模态表征。
进一步地,可以使用多层神经网络的输出结果作为文本和图像的新表征。可以将文本和图像的新表征与原始表征进行融合,如求和、拼接。可以使用全连接层将文本特征和图像特征映射到相同的维度。使用更新后的文本特征和图像特征作为多层神经网络的输入参数确定多模态表征,将更新后的文本特征和图像特征作为多层神经网络的输入参数进行特征融合。在多层神经网络中,可以使用不同的融合策略,如拼接、融合、注意力机制等。
示例性的,使用多层感知机统一图像信息和文字信息的维度,即:
其中,表示多层神经网络,表示统一后的维度,可按需设定。表示统一维 度后的文本特征,表示统一维度后的图像特征。
Step2.2、使用多层感知机融合图像信息和文字信息,即:
其中,表示向量拼接,表示融合后的多模态特征。
步骤S130包括:
步骤S440,确定所述用户表征、所述资源表征以及所述多模态表征对应的拼接向量。
在本实施例中,将用户表征、资源表征以及多模态表征按照预设的顺序进行拼接,确定拼接向量。
步骤S450,根据所述拼接向量、多层神经网络以及预设函数,确定每个推荐结果对应的点击率。
在本实施例中,预设函数即推荐模型对应的推荐函数。推荐结果即资源,点击率可以是交互记录中用户对该资源进行交互的数量,占总用户数的比值。也可以是根据推荐函数确定的推荐概率。
基于拼接向量作为多层神经网络的输入,根据多层神经网络的输出作为推荐函数的输入,以推荐函数的输出作为各个资源的点击率。
步骤S460,基于所述推荐结果以及对应的所述点击率,生成所述点击率系列。
在本实施例中,确定各个资源,即推荐结果,根据各个推荐结果对应的点击率,生成点击率序列,即每个点击率对应有资源,排列成序列。
作为一种可选实施方式,确定用户表征、资源表征以及多模态表征对应的拼接向量,用户表征可以使用用户的历史行为数据、个人信息等来表示用户。资源表征可以使用资源的属性、内容信息、标签等来表示资源。可以使用文本和图像的特征融合后的多模态表征。根据拼接向量、多层神经网络以及预设函数,确定每个推荐结果对应的点击率,将拼接向量作为多层神经网络的输入参数。在多层神经网络中,可以使用全连接层、激活函数、Dropout等进行特征提取和预测点击率。预设函数可以是一个回归模型或分类模型,用于预测推荐结果的点击率。基于推荐结果以及对应的点击率,生成点击率系列,对于每个推荐结果,根据预测的点击率排序。可以将点击率形成一个点击率系列,用于指导推荐系统生成个性化的推荐结果。
示例性的,确定用户表征、资源表征以及多模态表征对应的拼接向量,用户表征:使用用户的历史点击记录、个人信息等,将其表示为一个向量。资源表征:使用新闻的标题、关键词、文本内容等,将其表示为一个向量。多模态表征:将文本和图像的特征融合后,得到一个多模态表征向量。根据拼接向量、多层神经网络以及预设函数,确定每个推荐结果对应的点击率,将用户表征、资源表征以及多模态表征的拼接向量作为多层神经网络的输入参数。在多层神经网络中,使用全连接层、激活函数、Dropout等进行特征提取和预测点击率。预设函数可以是一个二分类问题,使用sigmoid函数作为激活函数,输出点击率的概率值。基于推荐结果以及对应的点击率生成点击率序列,对于每个推荐结果,根据预测的点击率排序,得到一个点击率序列。根据点击率序列,推荐系统可以将点击率较高的新闻放在用户前面,提高用户点击率的概率。其中,用户表征、资源表征以及多模态表征可以是统一维度后的用户表征、资源表征以及多模态表征。
示例性的,利用用户表征、资源表征、多模态表征,经过多层感知机和 sigmoid计算点击率,即:
其中,表示向量拼接。
由以上步骤可得用户对资源的点击率,对该点击率进行排序,取点击率最高的资源作为推荐结果,由此完成推荐过程。
基于实施例一,本申请实施例五提出一种基于两阶段对比学习的多模态资源推荐方法,步骤S140之后,包括:
步骤S510,基于所述目标特征确定所述交互记录对应的图文对比损失。
在本实施例中,使用目标特征,即文本特征和图像特征,来衡量用户对推荐结果的兴趣程度。计算用户与每个推荐结果之间的相似性或距离,可以使用余弦相似度、欧几里得距离等指标来衡量。将相似性或距离转化为图文对比损失,例如使用交叉熵损失函数计算用户对推荐结果的预测值与真实值之间的差距。
示例性的,对每次输入的交互记录对应的资源文本构建对比损失,目的是在空间 中拉近统一资源对应图文间的表征(即下式分子项),同时为了使得表征分布更加均匀,同 时将本批次中其他图文对视为负样本,加大空间无关的图文对间的距离(即下式分母项)。 以文本特征为例,该损失的构建将缩小间的距离,进而达到统一图文表征的目的, 而对该输入批次的其他样本的图像信息,则加大的距离。
其中,表示余弦相似度计算,为温度函数,控制该项的数值大小,为批次 大小,即该批交互记录的数量。
步骤S520,基于所述多模态表征以及所述资源表征确定资源对比损失。
在本实施例中,使用多模态表征和资源表征来比较相似的资源之间的差距。可以通过计算多模态表征和资源表征之间的相似性或距离,来衡量资源间的差异。将相似性或距离转化为资源对比损失,例如使用均方差损失函数计算多模态表征和资源表征之间的差异。
示例性的,对每次输入的交互记录对应的多模态表征与二部图资源表征之间构建 对比损失,目的是在空间中拉近统一资源对应多模态表征和二部图表征间的表征(即下式 分子项),同时为了使得表征分布更加均匀,同时将本批次中其他多模态表征和二部图表征 对视为负样本,加大空间无关的多模态表征和二部图表征对间的距离(即下式分母项)。以 多模态表征为例,该损失的构建将缩小间的距离,进而达到统一图文表征的目 的,而对该输入批次的其他样本的图信息,则加大的距离。
其中,表示余弦相似度计算,为温度函数,控制该项的数值大小,为批次 大小。
步骤S530,基于所述目标推荐结果确定推荐任务损失。
在本实施例中,使用目标推荐结果和实际推荐结果之间的差距来定义推荐任务损失。可以衡量推荐结果的准确性,如使用交叉熵损失函数计算预测的推荐结果与真实结果之间的差异。
可选地,步骤S530包括:
步骤S531,获取样本真实值以及样本总量;
步骤S532,基于损失函数、所述目标推荐结果、所述样本真实值以及所述样本总量,确定所述推荐任务损失。
在本实施例中,确定该批次交互记录对应的样本真实值,即真实数据中点击率最高的资源。确定样本总量,可以是该批次交互记录的数量,也可以是所有用户对资源的全部访问记录为数据总样本中的样本数量。获取损失函数,以目标推荐结果、所述样本真实值以及所述样本总量作为损失函数的输入参数,确定推荐任务损失值。
示例性的,计算推荐任务损失,采用二分类交叉熵损失函数:
式中,为样本总量,为样本真实值,为预测值,即目标推荐结果。
步骤S540,根据所述图文对比损失、所述资源对比损失以及所述推荐任务损失优化推荐模型。
在本实施例中,将图文对比损失、资源对比损失和推荐任务损失加权求和,并加入到推荐模型的总损失函数中。使用梯度下降等优化算法来更新模型参数,减小总损失函数。通过反向传播算法来计算模型参数的梯度,并根据损失函数的梯度更新模型参数。
可选地,步骤S540包括:
步骤S541,基于所述图文对比损失、所述资源对比损失以及所述推荐任务损失的和,确定总损失。
在本实施例中,基于所述图文对比损失、所述资源对比损失以及所述推荐任务损失的和作为总损失。
步骤S542,基于所述总损失以及预设优化器确定优化参数;
步骤S543,根据所述优化参数优化所述推荐模型。
示例性的,计算推荐任务损失,采用二分类交叉熵损失函数:
式中,为样本总量,为样本真实值,为预测值,即目标推荐结果,为推荐 任务损失。
计算总损失,总损失为推荐任务损失与两个阶段的对比损失之和,即:
其中,总损失为为图文对比损失,为资源对比损失。
依据总损失使用Adam优化器进行参数优化。Adam(Adaptive Moment Estimation)优化器是一种自适应学习率优化算法,结合了动量法和RMSProp算法的优点。
进一步地,为了验证本实施例的效果,发明选取了多模态推荐领域常用的Baby、Sports 、Electronics三个数据集进行验证,三个数据集来自亚马逊平台电商数据,包括了不同规模的多模态数据。使用R@10、R@20、N@10和N@20作为指标对模型进行性能评估。实验基于单张Nvidia A100显卡进行实验,采用python3.7版本,PyTorch版本使用v1.8.0。Learning Rate取值1E-3,Batch Size取128。训练轮数设为上限100,当AUC稳定后使用早停策略并记录最高值,实验结果如表1所示。
表1 本实施例所述方法与其他推荐算法在Baby、Sports 、Electronics数据集中的对比。
本申请还提出一种基于两阶段对比学习的多模态资源推荐设备,参照图3,图3为本申请实施例方案涉及的硬件运行环境的基于两阶段对比学习的多模态资源推荐设备结构示意图。
如图3所示,该基于两阶段对比学习的多模态资源推荐设备可以包括:处理器1001,例如中央处理器(Central Processing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity,WI-FI)接口)。存储器1005可以是高速的随机存取存储器(Random Access Memory,RAM)存储器,也可以是稳定的非易失性存储器(Non-Volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图3中示出的结构并不构成对基于两阶段对比学习的多模态资源推荐设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
可选地,存储器1005与处理器1001电性连接,处理器1001可用于控制存储器1005的运行,还可以读取存储器1005中的数据以实现基于两阶段对比学习的多模态资源推荐。
可选地,如图3所示,作为一种存储介质的存储器1005中可以包括操作系统、数据存储模块、网络通信模块、用户接口模块以及多模态资源推荐程序。
可选地,在图3所示的基于两阶段对比学习的多模态资源推荐设备中,网络接口1004主要用于与其他设备进行数据通信;用户接口1003主要用于与用户进行数据交互;本申请基于两阶段对比学习的多模态资源推荐设备中的处理器1001、存储器1005可以设置在基于两阶段对比学习的多模态资源推荐设备中。
如图3所示,所述基于两阶段对比学习的多模态资源推荐设备通过处理器1001调用存储器1005中存储的多模态资源推荐程序,并执行本申请实施例提供的基于两阶段对比学习的多模态资源推荐方法的相关步骤操作:
基于用户对资源的交互记录确定目标特征;
基于所述交互记录对应的二部图,确定所述交互记录对应的用户表征以及资源表征;
基于所述用户表征、所述资源表征以及所述目标特征对应的多模态表征,计算点击率序列;
基于预设筛选方案从所述点击率序列中选取目标点击率对应的目标推荐结果。
可选地,处理器1001可以调用存储器1005中存储的多模态资源推荐程序,还执行以下操作:
基于所述交互记录对应的用户标识以及资源标识进行嵌入操作,确定用户嵌入以及资源嵌入;
基于预设语言模型提取所述交互记录对应的资源文本,确定文本特征;
基于预设训练模型提取所述交互记录对应的资源图像,确定图像特征。
可选地,处理器1001可以调用存储器1005中存储的多模态资源推荐程序,还执行以下操作:
基于所述目标特征中的用户嵌入以及资源嵌入构建所述二部图;
学习所述二部图,确定预设层数的节点表征;
基于各层所述节点表征的平均池化,确定所述用户表征以及所述资源表征。
可选地,处理器1001可以调用存储器1005中存储的多模态资源推荐程序,还执行以下操作:
以所述目标特征中的文本特征以及图像特征作为多层神经网络的输入参数;
根据所述多层神经网络的输出结果更新所述文本特征以及所述图像特征,以统一所述文本特征以及所述图像特征的维度;
以更新后的所述文本特征以及所述图像特征作为所述多层神经网络的输入参数,确定所述多模态表征。
可选地,处理器1001可以调用存储器1005中存储的多模态资源推荐程序,还执行以下操作:
确定所述用户表征、所述资源表征以及所述多模态表征对应的拼接向量;
根据所述拼接向量、多层神经网络以及预设函数,确定每个推荐结果对应的点击率;
基于所述推荐结果以及对应的所述点击率,生成所述点击率系列。
可选地,处理器1001可以调用存储器1005中存储的多模态资源推荐程序,还执行以下操作:
基于所述目标特征确定所述交互记录对应的图文对比损失;
基于所述多模态表征以及所述资源表征确定资源对比损失;
基于所述目标推荐结果确定推荐任务损失;
根据所述图文对比损失、所述资源对比损失以及所述推荐任务损失优化推荐模型。
可选地,处理器1001可以调用存储器1005中存储的多模态资源推荐程序,还执行以下操作:
获取样本真实值以及样本总量;
基于损失函数、所述目标推荐结果、所述样本真实值以及所述样本总量,确定所述推荐任务损失。
可选地,处理器1001可以调用存储器1005中存储的多模态资源推荐程序,还执行以下操作:
基于所述图文对比损失、所述资源对比损失以及所述推荐任务损失的和,确定总损失;
基于所述总损失以及预设优化器确定优化参数;
根据所述优化参数优化所述推荐模型。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例,或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框,以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
应当注意的是,在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本申请可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二,以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (6)

1.一种基于两阶段对比学习的多模态资源推荐方法,其特征在于,所述基于两阶段对比学习的多模态资源推荐方法包括:
基于用户对资源的交互记录确定目标特征;
基于所述交互记录对应的二部图,确定所述交互记录对应的用户表征以及资源表征;
基于所述用户表征、所述资源表征以及所述目标特征对应的多模态表征,计算点击率序列;
基于预设筛选方案从所述点击率序列中选取目标点击率对应的目标推荐结果;
所述基于用户对资源的交互记录确定目标特征的步骤包括:
基于所述交互记录对应的用户标识以及资源标识进行嵌入操作,确定用户嵌入以及资源嵌入;
基于预设语言模型提取所述交互记录对应的资源文本,确定文本特征;
基于预设训练模型提取所述交互记录对应的资源图像,确定图像特征;
所述基于所述交互记录对应的二部图,确定所述交互记录对应的用户表征以及资源表征的步骤包括:
基于所述目标特征中的用户嵌入以及资源嵌入构建所述二部图;
学习所述二部图,确定预设层数的节点表征;
基于各层所述节点表征的平均池化,确定所述用户表征以及所述资源表征;
所述基于所述用户表征、所述资源表征以及所述目标特征对应的多模态表征,计算点击率序列的步骤之前,包括:
以所述目标特征中的文本特征以及图像特征作为多层神经网络的输入参数;
根据所述多层神经网络的输出结果更新所述文本特征以及所述图像特征,以统一所述文本特征以及所述图像特征的维度;
以更新后的所述文本特征以及所述图像特征作为所述多层神经网络的输入参数,确定所述多模态表征;
所述基于所述用户表征、所述资源表征以及所述目标特征对应的多模态表征,计算点击率序列的步骤包括:
确定所述用户表征、所述资源表征以及所述多模态表征对应的拼接向量;
根据所述拼接向量、多层神经网络以及预设函数,确定每个推荐结果对应的点击率;
基于所述推荐结果以及对应的所述点击率,生成所述点击率序列。
2.如权利要求1所述的基于两阶段对比学习的多模态资源推荐方法,其特征在于,所述基于预设筛选方案从所述点击率序列中选取目标点击率对应的目标推荐结果的步骤之后,包括:
基于所述目标特征确定所述交互记录对应的图文对比损失;
基于所述多模态表征以及所述资源表征确定资源对比损失;
基于所述目标推荐结果确定推荐任务损失;
根据所述图文对比损失、所述资源对比损失以及所述推荐任务损失优化推荐模型。
3.如权利要求2所述的基于两阶段对比学习的多模态资源推荐方法,其特征在于,所述基于所述目标推荐结果确定推荐任务损失的步骤包括:
获取样本真实值以及样本总量;
基于损失函数、所述目标推荐结果、所述样本真实值以及所述样本总量,确定所述推荐任务损失。
4.如权利要求2所述的基于两阶段对比学习的多模态资源推荐方法,其特征在于,所述根据所述图文对比损失、所述资源对比损失以及所述推荐任务损失优化推荐模型的步骤包括:
基于所述图文对比损失、所述资源对比损失以及所述推荐任务损失的和,确定总损失;
基于所述总损失以及预设优化器确定优化参数;
根据所述优化参数优化所述推荐模型。
5.一种基于两阶段对比学习的多模态资源推荐设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的多模态资源推荐程序,所述处理器执行所述多模态资源推荐程序时实现如权利要求1至4任一项所述的基于两阶段对比学习的多模态资源推荐方法的步骤。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有多模态资源推荐程序,所述多模态资源推荐程序被处理器执行时实现如权利要求1至4任一项所述的基于两阶段对比学习的多模态资源推荐方法的步骤。
CN202410217209.7A 2024-02-28 2024-02-28 一种基于两阶段对比学习的多模态资源推荐方法 Active CN117786234B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410217209.7A CN117786234B (zh) 2024-02-28 2024-02-28 一种基于两阶段对比学习的多模态资源推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410217209.7A CN117786234B (zh) 2024-02-28 2024-02-28 一种基于两阶段对比学习的多模态资源推荐方法

Publications (2)

Publication Number Publication Date
CN117786234A CN117786234A (zh) 2024-03-29
CN117786234B true CN117786234B (zh) 2024-04-26

Family

ID=90385370

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410217209.7A Active CN117786234B (zh) 2024-02-28 2024-02-28 一种基于两阶段对比学习的多模态资源推荐方法

Country Status (1)

Country Link
CN (1) CN117786234B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111259133A (zh) * 2020-01-17 2020-06-09 成都信息工程大学 一种融合多信息的个性化推荐方法
CN113159892A (zh) * 2021-04-24 2021-07-23 桂林电子科技大学 一种基于多模态商品特征融合的商品推荐方法
CN115952307A (zh) * 2022-12-30 2023-04-11 合肥工业大学 基于多模态图对比学习的推荐方法、电子设备及存储介质
CN116152608A (zh) * 2023-03-24 2023-05-23 平安科技(深圳)有限公司 基于点云多模态的对比学习预训练方法、装置及介质
CN116340648A (zh) * 2023-03-27 2023-06-27 广东工业大学 一种基于图协同过滤的知识图注意力网络推荐方法
CN116503654A (zh) * 2023-04-28 2023-07-28 南京邮电大学 基于二分图结构进行人物交互检测的多模态特征融合方法
CN117312680A (zh) * 2023-11-28 2023-12-29 云南师范大学 一种基于用户-实体子图对比学习的资源推荐方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210279279A1 (en) * 2020-03-05 2021-09-09 International Business Machines Corporation Automated graph embedding recommendations based on extracted graph features

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111259133A (zh) * 2020-01-17 2020-06-09 成都信息工程大学 一种融合多信息的个性化推荐方法
CN113159892A (zh) * 2021-04-24 2021-07-23 桂林电子科技大学 一种基于多模态商品特征融合的商品推荐方法
CN115952307A (zh) * 2022-12-30 2023-04-11 合肥工业大学 基于多模态图对比学习的推荐方法、电子设备及存储介质
CN116152608A (zh) * 2023-03-24 2023-05-23 平安科技(深圳)有限公司 基于点云多模态的对比学习预训练方法、装置及介质
CN116340648A (zh) * 2023-03-27 2023-06-27 广东工业大学 一种基于图协同过滤的知识图注意力网络推荐方法
CN116503654A (zh) * 2023-04-28 2023-07-28 南京邮电大学 基于二分图结构进行人物交互检测的多模态特征融合方法
CN117312680A (zh) * 2023-11-28 2023-12-29 云南师范大学 一种基于用户-实体子图对比学习的资源推荐方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MGAT:multimodal graph attention network for recommendation;ZhuLin Tao 等;《information processing and management》;20200930;第57卷(第5期);第11页 *
融合多模态自监督图学习的视频推荐模型;余文婷 等;《计算机应用研究》;20230119;第40卷(第6期);第1679-1685页 *

Also Published As

Publication number Publication date
CN117786234A (zh) 2024-03-29

Similar Documents

Publication Publication Date Title
WO2021203819A1 (zh) 一种内容推荐方法、装置、电子设备和存储介质
CN110309427B (zh) 一种对象推荐方法、装置及存储介质
CN111538912B (zh) 内容推荐方法、装置、设备及可读存储介质
US10489688B2 (en) Personalized digital image aesthetics in a digital medium environment
CN111797321B (zh) 一种面向不同场景的个性化知识推荐方法及系统
CN111460130B (zh) 信息推荐方法、装置、设备和可读存储介质
CN110516160A (zh) 基于知识图谱的用户建模方法、序列推荐方法
EP4181026A1 (en) Recommendation model training method and apparatus, recommendation method and apparatus, and computer-readable medium
CN111241394B (zh) 数据处理方法、装置、计算机可读存储介质及电子设备
CN112364204B (zh) 视频搜索方法、装置、计算机设备及存储介质
CN111966914A (zh) 基于人工智能的内容推荐方法、装置和计算机设备
CN110909182A (zh) 多媒体资源搜索方法、装置、计算机设备及存储介质
CN113761359B (zh) 数据包推荐方法、装置、电子设备和存储介质
CN116601626A (zh) 个人知识图谱构建方法、装置及相关设备
CN113569129A (zh) 点击率预测模型处理方法、内容推荐方法、装置及设备
CN115618101A (zh) 基于负反馈的流媒体内容推荐方法、装置及电子设备
CN112989182B (zh) 信息处理方法、装置、信息处理设备及存储介质
WO2024021685A1 (zh) 回复内容处理方法以及媒体内容互动内容的交互方法
JP2012194691A (ja) 識別器の再学習方法、再学習のためのプログラム、及び画像認識装置
CN117786234B (zh) 一种基于两阶段对比学习的多模态资源推荐方法
CN115730217A (zh) 模型的训练方法、物料的召回方法及装置
CN114429384A (zh) 基于电商平台的产品智能推荐方法及系统
CN114417944B (zh) 识别模型训练方法及装置、用户异常行为识别方法及装置
CN117892834A (zh) 媒体内容推荐模型训练方法和装置
CN116501949A (zh) 内容推荐方法、装置和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant