CN114936901A

CN114936901A - 基于跨模态语义推理与融合的视觉感知推荐方法及系统

Info

Publication number: CN114936901A
Application number: CN202210558907.4A
Authority: CN
Inventors: 孟雷; 马浩凯; 齐壮; 李象贤; 郑裕泽; 孟祥旭
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2022-05-21
Filing date: 2022-05-21
Publication date: 2022-08-23
Anticipated expiration: 2042-05-21
Also published as: CN114936901B

Abstract

本发明属于推荐技术领域，提供了一种基于跨模态语义推理与融合的视觉感知推荐方法及系统，包括基于用户和商品的交互信息学习用户协同表征和商品协同表征；提取商品图像的统一嵌入表征，基于双向门控机制的异构表征对齐算法学习视觉偏好表征；提取商品图像的统一嵌入表征，基于双向门控机制的异构表征对齐算法和商品文本描述学习图像语义表征；基于图像语义表征通过图卷积生成语义偏好表征；将用户协同表征、商品协同表征、视觉偏好表征以及语义偏好表征进行融合，计算用户对商品的偏好得分，基于用户对商品的偏好得分为用户推荐商品；本发明实现多模态异构表征之间冗余信息与互补信息的权衡。

Description

基于跨模态语义推理与融合的视觉感知推荐方法及系统

技术领域

本发明属于推荐技术领域，具体涉及一种基于跨模态语义推理与融合的视觉感知推荐方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

推荐算法作为人工智能中的经典算法，能够为平台企业提供精准的用户分析，满足用户高效率的服务需求。例如，用户使用饮食推荐系统来快速筛选自己喜爱的食品；使用视频推荐系统寻找特定类型的影片。传统的推荐系统普遍利用用户与商品之间的交互信息来学习用户的偏好，并为用户推荐类似的商品。近年来，随着多媒体数据的广泛可用，推荐算法开始使用图像数据进行商品的内容表征，并形成了融合视觉感知的推荐算法。然而，由于互联网图像内容多样、质量不一，现有算法的性能普遍受限于视觉特征的学习，因此，亟需鲁棒的视觉表征方法进行用户的视觉偏好建模。

现有的视觉感知推荐方法主要分为两类。一类是基于预提取特征的方法，通常使用从预训练的物品分类模型(如VGG19，ResNet18)中提取的视觉特征来完成推荐任务，而这些特征主要是对物品类别或其包含的视觉内容进行编码，很难将其与用户的个人偏好联系起来。这也导致了在向不同偏好的用户推荐物品时视觉推荐算法准确性的下降。另一类则是端到端的方法，实时提取图像特征，并根据模型的推荐效果来更新模型，这样通常比基于预提取特征的方法获得更好的模型性能。然而，近期研究发现视觉特征的学习模型需要面对语义与协同信息抽取的权衡，即体现商品间视觉内容上的相似性或单个用户交互商品间视觉元素上的共性。因此，亟需新的方法进行语义层面的商品内容表征，运用特征融合策略实现语义与协同信息层面的多角度特征互补，从而提升推荐模型的性能。

发明内容

为了解决上述问题，本发明提出了一种基于跨模态语义推理与融合的视觉感知推荐方法及系统，本发明通过引入图像的文本描述作为先验知识，使用双向门控机制(DGM)实现图像信息从视觉空间向语义空间的映射，提出图卷积语义过滤算法(GSF)进行用户感知的语义表征学习，通过协同、视觉、语义等多模态特征的融合构成商品的统一表征，进而提升传统视觉感知推荐算法的性能。

根据一些实施例，本发明的第一方案提供了一种基于跨模态语义推理与融合的视觉感知推荐方法，采用如下技术方案：

基于跨模态语义推理与融合的视觉感知推荐方法，包括：

基于用户和商品的交互信息学习用户协同表征和商品协同表征；

提取商品图像的统一嵌入表征，基于双向门控机制的异构表征对齐算法学习视觉偏好表征；

提取商品图像的统一嵌入表征，基于双向门控机制的异构表征对齐算法和商品文本描述学习图像语义表征；基于图像语义表征通过图卷积生成语义偏好表征；

将用户协同表征、商品协同表征、视觉偏好表征以及语义偏好表征进行融合，计算用户对商品的偏好得分，基于用户对商品的偏好得分为用户推荐商品。

进一步地，基于用户和商品的交互信息学习用户协同表征和商品协同表征，包括：

根据随机采样出的用户索引u和商品索引i从用户嵌入矩阵emb_u(.)和商品交互矩阵emb_i(.)分别学习用户协同表征p_u和商品协同表征c_i，表示为：

p_u＝emb_u(u)

c_i＝emb_i(i)。

进一步地，提取商品图像的统一嵌入表征，基于双向门控机制的异构表征对齐算法学习视觉偏好表征，包括：

通过视觉编码器抽取商品图像的统一嵌入表征；

基于商品图像的统一嵌入表征，通过任务感知门控将其映射为视觉偏好表征；

通过梯度正则门控约束其优化过程，得到最终的视觉偏好表征。

进一步地，所述基于商品图像的统一嵌入表征，通过任务感知门控将其映射为视觉偏好表征，包括：

任务感知门控在商品图像的统一嵌入表征v_i的基础上引入了可自学习的门控嵌入向量g_r和用户表征p_u；

映射到图像视觉偏好的特征空间，得到视觉偏好特征，具体如下：

q_i＝θ(||v_i⊙δ(concat(p_u,v_i,g_r))||₂)

其中，concat(·)表示拼接操作，⊙表示点乘操作，||.||₂表示

正则化方法，θ(.)表示两层全连接网络，每层后接一个LeakyReLU激活函数，q_i表示视觉表示学习模块学习到的视觉偏好表征。

进一步地，所述提取商品图像的统一嵌入表征，基于双向门控机制的异构表征对齐算法和商品文本描述学习图像语义表征，包括：

通过视觉编码器抽取商品图像的统一嵌入表征；

基于商品图像的统一嵌入表征，通过语义任务门控将其映射为图像语义表征；

将商品文本描述的语义知识融入图像语义表征中，得到最终的图像语义表征。

进一步地，所述基于商品图像的统一嵌入表征，通过语义任务门控将其映射为图像语义表征，包括：

通过语义任务门控

将统一嵌入表征v_i映射为图像语义表征

并通过梯度正则门控进行统一优化，其定义如下：

I_i＝||v_i⊙δ(concat(v_i,g_p))||₂

其中，g_p表示可学习的门控嵌入向量，concat(.)表示特征向量的拼接操作，⊙表示向量的点乘操作，||.||₂表示

正则化方法，I_i表示图像语义表征。

进一步地，所述将商品文本描述的语义知识融入图像语义表征中，得到最终的图像语义表征，包括：

通过将商品文本描述融合到图像语义表征中来增强模型对于图像语义的表征能力，其定义为：

其中，g_pkf表示一个可学习的嵌入向量，⊙表示向量间的点乘操作，ReLU(.)表示ReLU激活函数。

根据一些实施例，本发明的第二方案提供了一种基于跨模态语义推理与融合的视觉感知推荐系统，采用如下技术方案：

基于跨模态语义推理与融合的视觉感知推荐系统，包括：

协同交互表征学习模块，被配置为基于用户和商品的交互信息学习用户协同表征和商品协同表征；

视觉表征学习模块，被配置为提取商品图像的统一嵌入表征，基于双向门控机制的异构表征对齐算法学习视觉偏好表征；

语义表征学习模块，被配置为提取商品图像的统一嵌入表征，基于双向门控机制的异构表征对齐算法和商品文本描述学习图像语义表征；基于图像语义表征通过图卷积生成语义偏好表征；

多模态表征融合与推荐模块，被配置为将用户协同表征、商品协同表征、视觉偏好表征以及语义偏好表征进行融合，计算用户对商品的偏好得分，基于用户对商品的偏好得分为用户推荐商品。

根据一些实施例，本发明的第三方案提供了一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一个方面所述的基于跨模态语义推理与融合的视觉感知推荐方法中的步骤。

根据一些实施例，本发明的第四方案提供了一种计算机设备。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述第一个方面所述的基于跨模态语义推理与融合的视觉感知推荐方法中的步骤。

与现有技术相比，本发明的有益效果为：

本发明引入图像标注与用户交互信息作为先验知识，指导商品内容特征从视觉空间向语义空间的映射，运用特征融合策略实现协同、视觉及语义等多角度特征的互补，从而提升推荐模型的性能。面向异构模态特征映射问题，采用基于双向门控机制(DGM)的异构表征对齐算法，增强跨模态表征的判别力及模型训练的稳定性；针对语义信息推理的错误预测问题，提出多源知识融合的图卷积语义过滤算法(GSF)，使用用户交互信息及商品语义元素相关性等先验知识进行语义加权，学习稳定的商品高阶语义表征。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明实施例所述的基于跨模态语义推理与融合的视觉感知推荐方法的流程图；

图2是本发明实施例所述的基于跨模态语义推理与融合的视觉感知推荐方法的基本结构图；

图3是本发明实施例所述的多源知识融合的图卷积语义过滤算法流程图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

如图1所示，本实施例提供了一种基于跨模态语义推理与融合的视觉感知推荐方法，本实施例以该方法应用于服务器进行举例说明，可以理解的是，该方法也可以应用于终端，还可以应用于包括终端和服务器和系统，并通过终端和服务器的交互实现。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务器、云通信、中间件服务、域名服务、安全服务CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。本实施例中，该方法包括以下步骤：

步骤S1：基于用户和商品的交互信息学习用户协同表征和商品协同表征；

步骤S2：提取商品图像的统一嵌入表征，基于双向门控机制的异构表征对齐算法学习视觉偏好表征；

步骤S3：提取商品图像的统一嵌入表征，基于双向门控机制的异构表征对齐算法和商品文本描述学习图像语义表征；基于图像语义表征通过图卷积生成语义偏好表征；

步骤S4：将用户协同表征、商品协同表征、视觉偏好表征以及语义偏好表征进行融合，计算用户对商品的偏好得分，基于用户对商品的偏好得分为用户推荐商品。

如图2所示，基于跨模态语义推理与融合的视觉感知推荐方法(CSR-Net)，包括三个模块，具体包括：

1、协同交互表征学习模块，基于用户和商品的交互信息学习用户协同表征p_u和商品协同表征c_i；

2、跨模态内容表征学习模块，先使用视觉编码器

提取商品图像的统一嵌入表征v_i，随后基于DGM和商品文本描述学习视觉偏好表征q_i和图像语义表征I_i，最后通过图卷积生成语义偏好表征s_i；

也就是说，跨模态内容表征学习模块包括视觉表征学习模块和语义表征学习模块；

3、多模态表征融合模块，融合前述表征，通过商品内容表征的增强使得推荐任务从多角度聚焦于用户的偏好信息，从而实现对于传统视觉感知推荐的补足。

步骤S1：基于用户和商品的交互信息学习用户协同表征和商品协同表征，具体包括：

协同交互表征学习模块

如图2所示，CSR-Net的协同交互表征学习模块与传统协同过滤推荐算法相似，根据随机采样出的用户索引u和商品索引i从用户嵌入矩阵emb_u(.)和商品交互矩阵emb_i(.)分别学习用户协同表征p_u和商品协同表征c_i，可表示为：

p_u＝emb_u(u) (1)

c_i＝emb_i(i) (2)

视觉表征学习模块

如图2所示，CSR-Net在视觉表征学习模块中生成视觉偏好表征q_i，来对协同表征进行补足。如图2所示，CSR-Net通过视觉编码器ε(·)抽取商品图像f的统一嵌入表征

通过任务感知门控

将其映射为视觉偏好表征

并通过梯度正则门控

约束其优化过程，其总体计算公式可以表示为：

下面描述视觉表征学习算法的整体技术流程。

任务感知门控

图像视觉表征和图像语义表征所聚焦的图像特征之间存在显著异构性，很难从统一嵌入表征v_i直接映射得到，因此CSR-Net提出了任务感知门控的策略，通过任务门控控制视觉信息的传递。

CSR-Net通过视觉感知门控

在统一嵌入表征v_i的基础上引入了可自学习的门控嵌入向量g_r和用户表征p_u，将其映射到图像视觉偏好的特征空间，其定义如下：

q_i＝θ(||v_i⊙δ(concat(p_u,v_i,g_r))||₂ )(4)

其中concat(·)表示拼接操作，⊙表示点乘操作，||.||₂表示

梯度正则门控

跨模态内容表示学习需要学习用户的多模态偏好信息，视觉编码器在对图像进行统一嵌入编码时存在视觉信息和语义信息的权衡，仅对于两个损失进行简单融合来优化可能会导致异构表征提取的崩溃。为了解决该问题，CSR-Net提出了梯度感知门控对损失进行正则约束。

在反向传播过程中，CSR-Net通过一个梯度门来融合两个异构表征传递回来的梯度，使得视觉编码器权衡统一嵌入特征中视觉偏好表征和图像语义表征。梯度门基于深度Q网络(DQN)的方式实现[33]，DQN在商品推荐模型训练的每个批次下选择s^(t)作为

的权重，然后通过推荐模型反馈得到的

进行对DQN的选择惩罚，其损失函数定义为：

其中

是取到s^(t)的概率，σ(.)是Sigmoid函数。

步骤S3：提取商品图像的统一嵌入表征，基于双向门控机制的异构表征对齐算法和商品文本描述学习图像语义表征；基于图像语义表征通过图卷积生成语义偏好表征，具体包括：

语义表征学习模块

如图2所示，除了视觉偏好表征q_i之外，CSR-Net基于双向门机制进行语义推理，从统一嵌入表征中学习图像语义表征；随后面向先验知识进行语义融合，将商品文本描述的语义知识融入图像语义表征中；最后基于图卷积算子进行语义信息过滤，从图像语义表征中学习语义偏好表征，进而补足用户的多模态偏好表征。

基于DGM的语义推理

CSR-Net通过语义任务门控

将统一嵌入表征v_i映射为图像语义表征

并通过梯度正则门控进行统一优化。其定义如下：

I_i＝||v_i⊙δ(concat(v_i,g_p))||₂(6)

正则化方法，I_i表示图像语义表征。

面向先验知识的语义融合

为实现图像语义表征的增强，CSR-Net还通过先验语义表征的融合来增强模型对于图像语义的表征能力，其定义为：

其中g_pkf表示一个可学习的嵌入向量，⊙表示向量间的点乘操作，ReLU(.)表示ReLU激活函数。

基于多源知识融合的语义信息过滤

通过初步试验，我们发现语义信息的加入能显著提升传统协同过滤推荐算法或面向视觉感知的推荐算法的推荐性能，现有多模态推荐研究普遍依靠数据集的模态丰富性，在语义信息噪音过多或不可用时表现效果不佳。

如图3所示，多源知识融合的图卷积语义过滤算法(GSF)算法，面向用户感知信息过滤语义噪音信息并生成相关邻接矩阵，通过图卷积算子

计算语义映射表征m_i并融合生成语义偏好表征s_i；

为了在解决上述问题的同时保留更有信息量的语义表征，CSR-Net通过语义加权模块的多种方式实现语义标签预测结果

到语义偏好表征s_i的映射，包括平均权重的图卷积、面向语义预测的图卷积、面向知识图谱的图卷积和面向用户感知的图卷积。其中面向用户感知的图卷积是指基于用户与各个语义元素之间的交互关系来设置各语义元素对应的融合权重，该加权方法引申于“用户更偏向于曾与其交互更多的语义元素”这一假设，定义如下：

其中e_i,表示预测的语义表征，

表示用户u与语义标签n之间的交互关系，σ(.)表示跨域特征映射层，w_n表示用户感知下语义标签n的自学习权重变量，β_u和β_n分别表示对用户u和语义标签n的偏置项，s_i表示面向用户感知的语义偏好表征。

除了面向用户感知的图卷积外，面向平均权重的图卷积是一种最基础的图像语义表征融合方法，即各类语义共享同一权重；面向预测权重的图卷积是指基于预测的概率设置各类语义的融合权重；面向知识图谱的图卷积则是通过语义标签之间的交叉关系设置各类语义的融合权重。

步骤S4：将用户协同表征、商品协同表征、视觉偏好表征以及语义偏好表征进行融合，计算用户对商品的偏好得分，基于用户对商品的偏好得分为用户推荐商品，具体包括：

多模态表征融合与推荐模块

CSR-Net是一个通用的异构跨模态特征融合学习框架，可以纳入任何协同过滤推荐算法。为了便于计算和评估，我们选择了贝叶斯个性化排名-矩阵分解算法(BPR-MF)和视觉贝叶斯个性化排名算法(VBPR)作为本研究的主干，它们以嵌入向量的形式表述每个用户和商品，核心思想在于将用户对商品的偏好分数估计为他们嵌入向量的内积[31]。除了传统协同过滤算法所需的用户表征p_u和协同表征c_i之外，多模态表征融合模块还接收了视觉偏好表征q_i和语义偏好表征s_i进行商品推荐。其中多模态表征的融合操作可表示为：

其中concat(.)表示特征向量的拼接操作，θ(.)表示一层全连接网络，

表示LeakyReLU激活函数，f_i表示商品i的多模态融合表征。BPR-MF和VBPR算法计算偏好得分的过程定义如下：

其中α表示全局偏移量，β_u、β_i和β_c表示对用户u、商品i和内容表征c的偏置项，a_u表示用户u的隐式表征，

和

分别表示BPR-MF算法和VBPR算法计算得到的偏好得分。

训练策略

针对异构多任务学习困难这一问题，CSR-Net通过预测损失

和推荐损失

对模型进行迭代更新训练，其中

用于约束语义表征学习过程，

用于约束多模态表征推荐过程。

语义表征学习遵循传统多标签分类任务的训练过程，给定每个商品的图像语义表征I_i、语义预测标签

和真实语义标签d_i，通过二元交叉熵损失(BCE Loss)进行优化[32]，其定义如下：

其中d_i,m和

分别表示d_i和

的第m个元素。

为了补足异构语义特征中缺失的信息，CSR-Net还在

的基础上添加了一个损失项

来约束任务感知映射过程，定义如下：

其中l_i表示学习到的图像语义表征，

表示预提取的先验语义信息，||.||₂表示

正则化方法。

多模态表征推荐基于贝叶斯个性化排序算法(BPR)进行优化，它假定观察到的互动应该比未观察到的互动排名更高，将隐式反馈中用户对观察到的与未观察到的商品之间偏好分数的差值最大化，其目标函数为：

其中σ(.)是sigmoid函数，Θ表示模型参数，λ_Θ表示模型的正则化参数，

表示配对训练实例集合

其中

表示与u交互过的商品集合，I表示整个商品集合。

实验

实验设计

表1数据集的统计信息

数据集	用户个数	商品个数	交互个数	语义元素类别	稀疏度
						Allrecipes	68,768	45,630	1,093,845	2,736	99.97％
Amazon_CDs	67,282	40,314	752,724	467	99.97％

数据集

我们在两个真实世界中的数据集上进行了全部实验，其中Allrecipes是由Gao等人构建的；其次，我们从Amazon原始数据集中提取了Amazon_CDs以满足任务的需要。在表1中展示了这两个数据集的统计数据，这两个数据集都遵循Allrecipes中使用的数据划分方法，其中训练集包括最早的60％交互数据，测试集包括每个用户最新30％的交互数据，其余10％作为验证集。

评估标准

本实施例采用了五种评价指标来评估推荐的性能，其中包括准确率(P)、召回率(R)、平衡F分数(F)、归一化折损累计增益(NDCG)和接受者操作特性曲线下面积(AUC)。测试过程从数据集中随机选择500个负样本(与用户不存在交互的样本)和所有正样本(与用户存在交互的样本)组成每个用户的排名列表。P@k、R@k、F@k和NDCG@k计算所有抽样项目中正样本在Top-k排名项目中的表现，而AUC衡量的是推荐器推荐的正样本排名高于随机选择的负样本的概率。为了降低随机负采样的随机性，我们采用了五折交叉验证的方法来评估模型的推荐效果，即重复五次测试过程并将其平均值作为最终的推荐效果。

实施细节

基于ResNet18在商品推荐和语义预测中的高效率和高性能表现，CSR-Net将其作为视觉编码器进行统一嵌入表征的抽取，其维度为512。多模态融合推荐模型由Adagrad优化器优化，其学习率从0.0001至0.5挑选，DQN模型和语义预测模型由Adam优化器进行优化，其学习率设置为0.00001至0.005，

和

的比例从1:1到1:0.001取得。多模态表征的维度和批大小均从{32,64,128,256}中择优选择，每完成两个时期的训练，两个优化器的学习率都乘以0.1。

性能比较

在本节中，本实施例采用BPR-MF，BPR-MF(Image/Semantics)，VBPR，HAFR-non-i，AMR，VECF，PiNet作为性能比较的基线算法，为了公平比较，所有算法都使用相同的视觉编码器来提取视觉特征。对于每个算法，我们对它们的超参数进行了微调，以获得它们在实验中的最佳性能。

表2 CSR-Net与现有算法在Amazon_CDs和Allrecipes数据集上的性能比较

从表2可以观察到以下几点：

视觉信息和语义信息都可以提升BPR-MF算法的性能，与BPR-MF(Image)相比，BPR-MF(Semantics)在Amazon_CDs数据集上获得了8.4％的效果提升，这证明了语义信息在协同过滤推荐中的重要性。

VECF和HAFR-non-i算法的表现通常优于AMR和VBPR算法，这主要是因为它们使用了注意力模块来学习用户感知的视觉特征。

除我们的方法外，PiNet在两个数据集的各个性能指标上都优于其他算法，原因是PiNet基于商品的语义元素信息约束了视觉编码器的训练过程，从而学习更有效的内容表征。

CSR-Net在所有性能指标上都优于现有算法。这验证了CSR-Net能够通过融合用户表征、协同表征和用户多模态偏好信息来提升现有协同过滤推荐模型的推荐性能。

CSR-Net在Amazon_CDs数据集上获得了更高的效果提升，这是由于该数据集语义元素类别较少，语义信息更具表征性，同时证明了语义信息在多模态推荐领域中的重要作用。

消融实验

语义过滤算法的评估

表3在Amazon_CDs和Allrecipes数据集中CSR-Net的语义过滤算法不同语义加权模块的P@10表现。Base：面向视觉感知的PiNet推荐模型；AW：面向平均权重的图卷积；PW：面向语义预测的图卷积；KW：面向知识图谱的图卷积；

UW：面向用户感知的图卷积。

本节评估了CSR-Net中语义过滤算法的多种加权方法对于推荐准确度的影响。如表3所示，与较为随机的“AW”、“PW”不同的是，“KW”基于知识图谱帮助模型精准过滤噪音，更重要的是，CSR-Net加入了用户感知信息“UW”，通过先验的用户历史偏好信息优化噪音信息的过滤过程，使得PiNet获得了最大程度的推荐性能提升。

多模态表征融合算法的评估

本节对多模态表征融合方法的工作机制进行了分析。表4分别显示了多个模态的表征之间互相融合的性能，我们发现无论“S”是替换“C”还是“V”，都能提升模型的推荐效果，这证明了语义偏好表征在多模态推荐领域的重要作用。

而

表4多模态表征融合方法在Amazon_CDs和Allrecipes数据集中的P@10表现。C：协同交互表征；V：视觉偏好表征；S：语义偏好表征。

在Allrecipes数据集中CSR-Net(MF)在“V+S”条件下取得了比“C+S”条件下的性能下降，可能是由于其基线算法所用的视觉嵌入难以完全表示其视觉聚焦内容，针对该问题，本文将协同交互表征、视觉偏好表征和语义偏好表征共同融合，引导CSR-Net从多角度聚焦于用户的偏好信息，从而提升现有推荐算法的推荐性能。

以上实施例的有益效果为：

本实施例提出了一种跨模态表征推理算法CSR-Net，基于图像的文本描述信息的先验知识将商品的图像信息从视觉空间跨模态映射至语义空间，并通过面向用户感知的图卷积算子过滤语义信息中的噪音，最终结合多模态表征融合方法实现多模态异构表征之间冗余信息与互补信息的权衡。实验结果表明，语义偏好信息的跨模态推理引入能够从多角度增强对用户偏好的表征能力，使得CSR-Net在视觉感知推荐方面优于现有方法。

实施例二

本实施例提供了一种基于跨模态语义推理与融合的视觉感知推荐系统，包括：

上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

上述实施例中对各个实施例的描述各有侧重，某个实施例中没有详述的部分可以参见其他实施例的相关描述。

所提出的系统，可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的，例如上述模块的划分，仅仅为一种逻辑功能划分，实际实现时，可以有另外的划分方式，例如多个模块可以结合或者可以集成到另外一个系统，或一些特征可以忽略，或不执行。

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例一所述的基于跨模态语义推理与融合的视觉感知推荐方法中的步骤。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述实施例一所述的基于跨模态语义推理与融合的视觉感知推荐方法中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.基于跨模态语义推理与融合的视觉感知推荐方法，其特征在于，包括：

2.如权利要求1所述的基于跨模态语义推理与融合的视觉感知推荐方法，其特征在于，基于用户和商品的交互信息学习用户协同表征和商品协同表征，包括：

p_u＝emb_u(u)

c_i＝emb_i(i)。

3.如权利要求1所述的基于跨模态语义推理与融合的视觉感知推荐方法，其特征在于，提取商品图像的统一嵌入表征，基于双向门控机制的异构表征对齐算法学习视觉偏好表征，包括：

通过视觉编码器抽取商品图像的统一嵌入表征；

4.如权利要求3所述的基于跨模态语义推理与融合的视觉感知推荐方法，其特征在于，所述基于商品图像的统一嵌入表征，通过任务感知门控将其映射为视觉偏好表征，包括：

q_i＝θ(||v_i⊙δ(concat(p_u,v_i,g_r))||₂)

其中，concat(·)表示拼接操作，⊙表示点乘操作，||.||₂表示l₂正则化方法，θ(.)表示两层全连接网络，每层后接一个LeakyReLU激活函数，q_i表示视觉表示学习模块学习到的视觉偏好表征。

5.如权利要求1所述的基于跨模态语义推理与融合的视觉感知推荐方法，其特征在于，所述提取商品图像的统一嵌入表征，基于双向门控机制的异构表征对齐算法和商品文本描述学习图像语义表征，包括：

通过视觉编码器抽取商品图像的统一嵌入表征；

6.如权利要求5所述的基于跨模态语义推理与融合的视觉感知推荐方法，其特征在于，所述基于商品图像的统一嵌入表征，通过语义任务门控将其映射为图像语义表征，包括：

通过语义任务门控

将统一嵌入表征v_i映射为图像语义表征

并通过梯度正则门控进行统一优化，其定义如下：

I_i＝||v_i⊙δ(concat(v_i,g_p))||₂

其中，g_p表示可学习的门控嵌入向量，concat(.)表示特征向量的拼接操作，⊙表示向量的点乘操作，||.||₂表示l₂正则化方法，I_i表示图像语义表征。

7.如权利要求5所述的基于跨模态语义推理与融合的视觉感知推荐方法，其特征在于，所述将商品文本描述的语义知识融入图像语义表征中，得到最终的图像语义表征，包括：

8.基于跨模态语义推理与融合的视觉感知推荐系统，其特征在于，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一项所述的基于跨模态语义推理与融合的视觉感知推荐方法中的步骤。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一项所述的基于跨模态语义推理与融合的视觉感知推荐方法中的步骤。