CN117112902A

CN117112902A - 一种基于多模态对比学习的离线强化学习商品推荐系统

Info

Publication number: CN117112902A
Application number: CN202311106875.5A
Authority: CN
Inventors: 詹德川; 叶翰嘉; 韩路; 陶博文; 周志华
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2023-08-30
Filing date: 2023-08-30
Publication date: 2023-11-24

Abstract

本发明公开一种基于多模态对比学习算法的离线强化学习商品推荐系统，首先获取商品的相关图像、描述商品的文字以及其他商品的相关特征，通过对比学习算法融合多个模态的信息，得到商品的特征表示；将商品推荐过程建模为强化学习问题，通过用户曾经产生行为的商品特征和用户的基本信息得到用户的状态，系统推荐的商品作为动作，用户对于推荐的商品的反馈作为奖赏。利用离线强化学习算法在现有用户行为日志数据上进行训练，得到推荐系统的策略。本发明利用对比学习算法综合多个模态的信息构造物品的特征，在将推荐系统建模为强化学习问题的前提下，通过离线强化学习算法得到了推荐策略，使得商品推荐系统能够更好地完成推荐任务。

Description

一种基于多模态对比学习的离线强化学习商品推荐系统

技术领域

本发明涉及一种基于多模态对比学习的离线强化学习商品推荐系统，涉及多模态信息获取和处理，并结合机器学习，提高商品推荐系统的性能。

背景技术

在目前的商品推荐系统中，强化学习所需要的用户行为数据必须从实际使用场景中获取，而在线强化学习周期较长且在学习过程中难以为用户提供稳定的推荐服务，代价较大。此外，如何在强化学习所需要的用户数据中嵌入更为丰富的信息也是一大问题，现有的强化学习数据往往关心用户对于商品的行为，而商品本身所具有的属性难以结合到强化学习的数据中。强化学习所需数据本身信息量的不足在很大程度上影响了强化学习的商品推荐效果。综上所述，强化学习在商品推荐系统中的应用存在着不稳定、效果差等问题，使得其在实际应用中存在诸多困难。

发明内容

发明目的：针对现有技术中存在的问题与不足，本发明提供一种基于多模态对比学习的离线强化学习商品推荐系统，通过多模态对比学习将商品属性嵌入到强化学习的数据中，并采用了离线强化学习的方法，缓解了强化学习在商品推荐系统中的不稳定、效果差等问题，能够为用户提供稳定的商品推荐服务。利用对比学习综合多个模态信息的特征，并利用这些特征组成用户状态，通过离线强化学习算法生成商品的推荐策略，最终为用户提供更加精准稳定的商品推荐服务，提高商品推荐系统的性能。

技术方案：一种基于多模态对比学习的离线强化学习商品推荐系统，包括多模态信息获取模块、模型构建模块和商品信息推荐模块；

所述多模态信息获取模块利用对比学习综合商品多模态信息获取特征表示；

收集商品的图像、描述商品的文本和商品基本特征的多模态信息；利用对比学习算法对于多模态信息进行整合，形成商品的特征表示，记作E；

所述模型构建模块将商品推荐系统建模为强化学习问题；

用户产生行为的商品的特征表示和用户基本信息(例如年龄、性别、地区等)组成用户的当前时刻状态，记作S_t；推荐系统针对用户状态推荐的商品作为动作记作a；用户对于给出的推荐商品的反馈作为奖赏，记作r；将用户在给出推荐系统产生行为的商品、用户之前产生行为的商品和用户的基本信息组成下一时刻状态，记作S_t+1；

所述商品信息推荐模块，利用离线强化学习算法生成商品信息推荐策略；

首先对用户行为日志根据时间进行排序；接着，利用日志中用户产生行为的商品获得商品特征，结合商品特征和用户基本信息作为S_t；选择用户在日志中下一个产生行为的商品和随机挑选的商品作为推荐系统给出的推荐商品作为a；用户对于推荐商品的反馈作为奖赏r，用户在推荐商品后的行为加入到日志中，产生行为的新商品特征和S_t组成用户下一时刻状态S_t+1；St，a，r，S_t+1共同组成转移元组，多个转移元组组成离线数据集，通过离线强化学习算法在离线数据集上来训练生成商品推荐系统的推荐策略。

在在线环境下，利用训练得到的策略为用户实时进行商品信息推荐。

所述多模态信息获取模块，利用对比学习综合商品多模态信息获取特征表示的实现过程具体为：

步骤100，收集商品图像、描述商品的文字和商品基本特征的多模态信息；

步骤101，对描述商品的文字信息通过翻译工具翻译成另一种语言，再把所述另一种语言翻译回原来的语言，得到一段意思相近但表达方式不同的文本信息，这段文本信息与原有的商品图像和商品基本特征构成正样本；

步骤102，对描述商品的文字信息进行文本特征提取，得到TF-IDF特征表示，根据TF-IDF特征表示在商品文本库中搜索得到相似的描述商品文本字信，所述相似的描述商品文本字信与原有的商品图像和商品基本特征构成负样本；

步骤103，对商品基本特征按照非零值个数进行排序，从最稀疏的特征开始，依次与后面的特征计算同时为非零值的比例，如果互斥程度低于阈值，将两个特征同时加入一个互斥特征集合中，重复上述过程，直到所有特征都加入互斥特征集合；对于在同一个互斥特征集合中的特征，可以将商品原有基本特征中的某一个特征改变为与该特征在同一互斥特征集合中的特征，改变后的商品基本特征和原有的商品图像和描述商品的文字构成负样本；

步骤104，根据步骤101构造的正样本，与原始商品样本组成正样本对，根据步骤102和步骤103构造的负样本对与原始商品样本组成负样本对，应用对比学习损失使得同一商品样本的不同模态特征之间的相似度最大化，不同商品样本特征之间的相似度最小化，获得商品的特征表示。

所述模型构建模块将商品推荐系统建模为强化学习问题的实现流程具体为：

步骤200，收集用户日志，包括用户的基本信息和用户对商品的行为记录信息；

步骤201，从用户日志中提取用户基本信息和用户产生行为的商品，并获取商品的特征表示，通过在某一时刻t之前用户的基本信息和商品特征表示可以得到用户在当前时刻的状态S_t；

步骤202，在用户日志中查找用户在下一时刻产生行为的商品，并在全部商品中随机挑选商品，共同构成推荐系统为该用户生成的商品推荐列表，可以认为是商品推荐系统执行的动作a；

步骤203，根据用户日志在当前时刻之后的产生行为的商品和推荐列表中商品的交集，可以得到用户对该推荐列表的满意程度，交集元素的数量与推荐列表中商品数量的比值视为奖赏r；

步骤204，用户在与商品推荐列表产生交互后，根据日志在下一时刻之前用户产生行为的商品和用户的基本信息，构成用户在下一时刻的状态S_t+1。

所述商品信息推荐模块，利用离线强化学习算法生成商品推荐策略的流程具体为：

步骤300，利用步骤201、步骤202、步骤203和步骤204得到的<S_t,a,r,S_t+1>构成转移元组，重复步骤201、步骤202、步骤203和步骤204，构建多个转移元组组成离线数据集；

步骤301，使用离线强化学习算法在离线数据集上训练推荐系统，优化期望回报，得到商品推荐策略。

所述离线强化学习算法可以是离线强化学习领域的任意算法，利用该类算法，我们可以通过离线数据集而不需要和用户进行交互就能够生成良好的商品推荐策略。

一种计算机设备，该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行上述计算机程序时实现如上所述的基于多模态对比学习的离线强化学习商品推荐系统。

一种计算机可读存储介质，该计算机可读存储介质存储有执行如上所述的基于多模态对比学习的离线强化学习商品推荐系统的计算机程序。

有益效果：与现有技术相比，本发明所提供的基于多模态对比学习的离线强化学习商品推荐系统能够综合商品的多模态信息生成特征，同时在离线环境下生成合适的商品推荐策略，能够为用户提供稳定且良好的商品推荐信息。

附图说明

图1为本发明中利用对比学习综合多模态信息获取特征表示的训练流程图；

图2为本发明中利用离线强化学习算法生成商品推荐策略的流程图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

基于多模态对比学习的离线强化学习商品推荐系统，包括多模态信息获取模块、模型构建模块和商品信息推荐模块；

多模态信息获取模块利用对比学习综合商品多模态信息获取特征表示；

模型构建模块将商品推荐系统建模为强化学习问题；

商品信息推荐模块，利用离线强化学习算法生成商品信息推荐策略。

多模态信息获取模块综合多模态信息通过对比学习获取商品特征的过程如图1所示。首先从商城中获取关于商品的多模态数据，例如文字、图像和基本特征(步骤10)；然后，对文本进行多次翻译，例如将其翻译成另一种语言后再翻译回原语言，得到关于文本的正样本(步骤11)；计算文本样本的TF-IDF特征，根据特征相似度得到相似的文本，但语义不同，作为负样本(步骤12)；对商品基本特征构建互斥特征集合，对商品基本特征按照非零值个数进行排序，从最稀疏的特征开始，依次与后面的特征计算同时为非零值的比例，如果互斥程度低于阈值，将两个特征同时加入一个互斥特征集合中，重复构建互斥特征集合过程，直到所有特征都加入互斥特征集合；用商品原有特征所属互斥特征集合中的特征取代商品原有特征属性，得到关于商品基本特征的负样本(步骤13)；原有商品多模态信息与上述得到的正样本组成正样本对，与负样本组成负样本对，计算对比损失学习进行梯度下降，学习商品的特征表示；重复步骤10、步骤11、步骤12和步骤13直至训练收敛或结束。

利用离线强化学习算法生成商品推荐策略的过程如图2所示。首先，通过如图1所示的训练过程获取到商品的特征表示，模型构建模块通过将商品推荐系统建模为强化学习问题，得到用户当前时刻状态、推荐系统动作、奖赏和用户下一时刻状态的表示，并构成离线数据集。

模型构建模块将商品推荐系统建模为强化学习问题的实现流程具体为：

商品推荐系统从离线数据集中获取用户的转移元组(步骤30)；商品推荐系统通过离线强化学习算法训练商品推荐策略(步骤31)；判断训练是否收敛，是，则结束训练，得到的商品推荐策略可用于商品推荐系统；否，从离线数据集中获取转移元组继续训练。

显然，本领域的技术人员应该明白，上述的本发明实施例的基于多模态对比学习的离线强化学习商品推荐系统各模块可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明实施例不限制于任何特定的硬件和软件结合。

Claims

1.一种基于多模态对比学习的离线强化学习商品推荐系统，其特征在于，包括多模态信息获取模块、模型构建模块和商品信息推荐模块；

所述模型构建模块将商品推荐系统建模为强化学习问题；

所述商品信息推荐模块，利用离线强化学习算法生成商品信息推荐策略。

2.根据权利要求1所述的基于多模态对比学习的离线强化学习商品推荐系统，其特征在于，所述多模态信息获取模块，收集商品的图像、描述商品的文本和商品基本特征的多模态信息；利用对比学习算法对于多模态信息进行整合，形成商品的特征表示，记作E。

3.根据权利要求1所述的基于多模态对比学习的离线强化学习商品推荐系统，其特征在于，所述模型构建模块，将用户产生行为的商品的特征表示和用户基本信息组成用户的当前时刻状态，记作S_t；推荐系统针对用户状态推荐的商品作为动作记作a；用户对于给出的推荐商品的反馈作为奖赏，记作r；将用户在给出推荐系统产生行为的商品、用户之前产生行为的商品和用户的基本信息组成下一时刻状态，记作S_t+1。

4.根据权利要求1所述的基于多模态对比学习的离线强化学习商品推荐系统，其特征在于，所述商品信息推荐模块，利用离线强化学习算法生成商品信息推荐策略；

5.根据权利要求1所述的基于多模态对比学习的离线强化学习商品推荐系统，其特征在于，所述多模态信息获取模块，利用对比学习综合商品多模态信息获取特征表示的实现过程具体为：

步骤103，对商品基本特征按照非零值个数进行排序，从最稀疏的特征开始，依次与后面的特征计算同时为非零值的比例，如果互斥程度低于阈值，将两个特征同时加入一个互斥特征集合中，重复本步骤，直到所有特征都加入互斥特征集合；对于在同一个互斥特征集合中的特征，可以将商品原有基本特征中的某一个特征改变为与该特征在同一互斥特征集合中的特征，改变后的商品基本特征和原有的商品图像和描述商品的文字构成负样本；

6.根据权利要求1所述的基于多模态对比学习的离线强化学习商品推荐系统，其特征在于，所述模型构建模块将商品推荐系统建模为强化学习问题的实现流程具体为：

步骤201，从用户日志中提取用户基本信息和用户产生行为的商品，并获取商品的特征表示，通过在某一时刻t之前用户的基本信息和商品特征表示得到用户在当前时刻的状态S_t；

步骤202，在用户日志中查找用户在下一时刻产生行为的商品，并在全部商品中随机挑选商品，共同构成推荐系统为该用户生成的商品推荐列表，认为是商品推荐系统执行的动作a；

7.根据权利要求6所述的基于多模态对比学习的离线强化学习商品推荐系统，其特征在于，所述商品信息推荐模块，利用离线强化学习算法生成商品推荐策略的流程具体为：

步骤300，利用步骤201、步骤202、步骤203和步骤204得到的<S_t,a,r,S_t+1>构成转移元组，重复步骤201、步骤202、步骤203和步骤204过程，构建多个转移元组组成离线数据集；

8.一种计算机设备，其特征在于：该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行上述计算机程序时实现如权利要求1-7中任一项所述的基于多模态对比学习的离线强化学习商品推荐系统。

9.一种计算机可读存储介质，其特征在于：该计算机可读存储介质存储有执行如权利要求1-7中任一项所述的基于多模态对比学习的离线强化学习商品推荐系统的计算机程序。