CN117436480A

CN117436480A - 一种Mindspore框架下的大模型及推荐方法

Info

Publication number: CN117436480A
Application number: CN202311424697.0A
Authority: CN
Inventors: 郭贵冰; 李宇宸
Original assignee: 东北大学
Priority date: 2023-10-31
Filing date: 2023-10-31
Publication date: 2024-01-23

Abstract

本发明设计一种Mindspore框架下的大模型及推荐方法；构建了Mindspore框架下的大模型，包括：通用物品编码器、通用用户编码器和推荐模块；采用两阶段预训练+微调的模式，以兼顾不同数据集之间的通用性和跨域表现，以及推荐结果精度；具体而言，在第一阶段中大模型的通用物品编码器模块会对图像和文本信息进行处理以及融合从而获得通用的物品表示；在第二阶段中，用户编码器根据交互序列的对应关系，依赖于已经生成的物品表示以及属性信息生成通用的用户表示，再经由推荐模块的相似度计算，执行序列推荐以及评分预测两种任务；在需要将预训练好的模型迁移至其他数据集的场景下，只需对于每个模块分别进行微调，并在推荐部分引入ID即可用较小开销实现较好效果。

Description

一种Mindspore框架下的大模型及推荐方法

技术领域

本发明属于计算机信息检索技术领域，具体涉及一种Mindspore框架下的大模型及推荐方法。

背景技术

随着互联网的高速发展，人们每天可以获取到的信息数量呈指数级增长。想要人为从互联网提供的巨量信息中筛选自己感兴趣的内容非常困难，推荐系统应运而生。其可以根据每个用户的过往历史行为对于其兴趣和偏好建模，从而在海量候选物品中预测可能感兴趣的物品，并推送给用户。早期的推荐系统只关注静态的交互信息，近年来序列推荐收获了更大的热度，因为其考虑完整的用户交互序列，引入时序信息，以将用户的兴趣变化考虑在内。但目前由于数据、模型能力等多方面的影响，推荐的准确度还有进一步提高的空间。

当前大模型的研究普遍为基于Transformer结构的大语言模型，以鹏程·盘古为例，其基于TransformerDecoder结构，最后一层使用position编码作为attention中的query向量，使用处理后的文本数据进行训练，得到生成式大语言模型，可以处理诸多NLP领域内下游任务。但该模型的能力受限于训练数据使用的单一文本模态，无法有效对于多模态数据进行处理；且注重于生成的自回归式模型结构导致其在匹配类任务上的表现相对较弱，在编码文本信息得到通用表示的能力上也弱于自编码结构的模型，故使用场景存在一定局限。

同样也存在多模态大模型，如华为昇腾计算联合武汉人工智能研究院、中国科学院自动化所发布的紫东太初模型，通过三个单独的模态编码器分别处理输入的文本、图像、音频信息，然后再通过一个跨模态的编码器进行模态融合、对齐，最终结合文本和图像的解码器执行不同的多模态下游任务。在预训练方面，其设计了Token级、模态级以及样本级三个级别的建模。其虽然涵盖了更多模态的输入，属于当前大模型中支持输入模态以及多模态预训练任务较多者，但依然无法应对推荐领域内用户、物品模态的输入，即无法填补在推荐领域里大模型的空白。

近年来在学术界已经开始有研究尝试使用较大的模型执行推荐任务，ICDM2018的SASRec首次提出了使用自注意力机制亦即Transformer结构执行序列推荐任务。同时，就推荐领域中的迁移问题，KDD2022提出的UnisRec模型提出使用物品的模态信息取代ID信息充当交互序列进行预训练，在跨域推荐时结合ID进行微调，在预训练数据集之外的领域上也有较好表现。在多模态推荐方面，WWW2022的PAMD模型通过对比学习对物品的文本和图像模态信息进行解纠缠，以全面关注到用户的模态专有兴趣和模态共有兴趣，以在多模态数据集上实现更好的推荐效果。

现有多数大模型的研究也主要聚焦于生成式大语言模型，对多模态信息的处理方式通常为：将其他模态信息转换至文本的语义空间内，并借助大语言模型对文本信息的处理能力理解其他模态，然而图像本身包含更复杂的语义，应该应用更为复杂的处理方式以全面理解图像信息。另一方面，现有多数大模型均在Pytorch框架下，然而随着国际市场竞争日趋激烈，技术框架和配套支持的硬件随时可能面临被限制的风险，因此拥有全套国产可控的大模型就显得尤为重要。但Mindspore框架下的大模型开发工作仍存在大量空白，尤其在推荐领域尚未有专用于匹配任务的大模型，而借助生成式模型执行匹配任务的精度存在局限。

从推荐这一角度看，现有研究并未兼顾多模态信息的利用以及可迁移性，即部分研究仅仅关注模态融合而忽视了序列信息中用户ID导致的和数据集强关联问题；而其他的研究虽然提出利用物品模态进行表征，却并没给出合适的关注多模态信息的方法。信息的不充分利用将影响推荐大模型的表现以及通用性。

发明内容

针对现有技术的不足，本发明提出了一种Mindspore框架下的大模型及推荐方法，旨在通过两阶段训练的模式构建一个可以接收多模态输入并集成多种下游任务的统一推荐框架，在国产软硬件框架下有效弥补大模型相关研究与开发工作的空白。

一种Mindspore框架下的大模型具体包括：通用物品编码器、通用用户编码器和推荐模块；

所述通用物品编码器包括：文本/图片的单模态编码器以及集成两个模态信息的跨模态编码器；文本/图片单模态编码器输入获取的包含文本、图片信息的原始数据，输出单模态表示；跨模态编码器接收单模态表示，输出融合后的物品表示；

所述用户编码器的主干部分是一个Transformer模型，其输入分为两部分，其一是用户的历史交互物品，该部分输入从物品编码器的输出结果中获得；其二是用户属性特征，该部分输入需要从原始数据中经过用户编码器中embedding层处理后得到；输出用户表示；

所述推荐模块接收用户编码器和物品编码器生成的用户和物品表示，其中物品表示经过其中一个Adapter模块进行后续处理，处理后的物品表示和用户表示进行相似度计算，即得到用户对所有物品的兴趣得分，从高到低排序即得到推荐列表；

一种Mindspore框架下大模型的推荐方法，基于上述一种Mindspore框架下的大模型实现，具体包括以下步骤：

步骤1：对Mindspore框架下大模型中物品编码器进行预训练；

首先获取公开的包含文本、图片信息的原始数据，单模态编码器分别接受原始文本、图片信息T、I，并对其进行编码，得到同一语义空间内的向量表示：

e_T＝BERT(T)

e_I＝ViT(I)

其中，e表示embedding；

生成的单模态表示进入跨模态编码器，进行模态对齐，其本质是在自然语言处理的Masked Language Modeling，MLM任务基础上引入图像信息辅助文本信息复原遮蔽词，从而使模型的最终输出信息兼顾两模态信息：

e_i＝E_I(e_T,e_I)

其中，E_I表示物品编码器的跨模态部分；

步骤2：对通用用户编码器及推荐模块进行预训练；

步骤2.1：利用推荐领域开源数据对学习到通用信息的物品编码器进行微调，令其能更好理解这一领域信息的特征；

利用推荐数据集中物品的图像和文本描述信息对已经预训练好的通用物品编码器进行微调，使之能适应所用的推荐数据集，在该微调步骤中在通用物品编码器中加入低秩矩阵LoRA模块，其原理为：

W＝BA

其中W是神经网络中原有的权重矩阵，BA是低秩矩阵，通过减少微调过程中的可训练参数量减小开销；

微调后生成所有物品对应的embedding_table以供通用用户编码器和推荐模块使用；

步骤2.2：基于步骤2.1训练用户编码器；

通用用户编码器根据用户u对应的历史交互行为序列，从已生成的embedding_table中查询对应的物品表示拼接成用户编码器的输入序列：

E_U表示用户编码器的跨模态部分；

其中，为确保输入序列长度一致，对于长度不足的序列填补<pad>标记，填补采用左补齐的方式；

如数据集包含用户属性，则利用用户编码器内属性信息映射为向量，拼接在交互物品序列前共同组成用户编码器的输入：

其中表示用户的属性信息编码后的属性信息；

用户编码器利用输入信息，对交互序列中的物品随机进行Mask处理，即将交互序列中的物品i随机替换成[MASK]这一特殊标记，在预训练任务中通过和所有候选物品比对复原遮蔽位置的物品，并利用交叉熵损失进行训练，训练结束后保存模型权重文件；

步骤2.3：基于上述步骤对推荐模块进行训练；

推荐模块加载用户编码器权重，采用leave-one-out原则，对数据集进行处理，即将交互序列中的最后一个样本作为测试集，倒数第二个样本作为验证集，之前的所有样本作为训练集；

按照步骤2.2的处理方式将用户对应的交互序列输入用户编码器，生成用户表示；

利用预先生成的embedding_table查找训练集中候选物品表示[e₀...,e_i,....e_n]，n为embedding_table的大小，并将其输入推荐模块中的Adapter模块中以从文本信息中抽取更适合推荐语义的物品表示其中：

Adapter:Linear(e_i)

对e_u和进行相似度计算后，利用交叉熵损失对于用户编码器进行续训并训练推荐模块，直至推荐模块训练结束，同样保存模型权重；

步骤3：对训练完成的模型进行微调并应用；

对于新的数据集首先执行步骤2，得到适合该数据集的微调后的物品编码器并生成该数据对应的物品表示embedding_table；

如果决定在推荐模块中使用用户和物品的ID信息，则通过embedding层将ID转换为向量表示，并且分别与e_u和结合后，送入推荐模块，加载模型权重进行续训：

e_u′＝(e_uid,e_u)

其中，e_uid用户ID的embedding，

其中用户ID因在交互行为中并非为和用户直接相关的信息，直接添加容易被视作噪声，故采取concat方式与用户表示拼接，物品ID在交互行为中和物品同属一个整体，故处理方式为直接添加到物品表示上；

完成训练后，在推理阶段，对于一个用户，将其历史交互序列输入用户编码器，得到用户表示，再根据和所有已生成物品表示的相似度计算结果，得到生成的分数列表：

S＝RecModel(u,I)

其中u为在线计算生成的用户表示，I为提前经过物品编码器处理后的所有候选物品表示，S为模型计算后得到的所有候选物品分数列表，按分数排序后映射回ID查找物品即为给该用户的推荐序列。

本发明有益技术效果：

本发明可以充分利用物品的描述信息以及用户的信息，从而对用户和物品进行更为全面的建模，并深度挖掘其兴趣点，以便为用户提供更准确的推荐。提出的预训练+微调模式确保了模型具有可迁移能力，即在新的使用场景下可以低成本部署并应用模型。填补了Mindspore框架下推荐大模型的空白，使得在此框架下执行多种推荐任务成为可能。

附图说明

图1本发明实施例一种Mindspore框架下的大模型结构示意图；

图2本发明实施例一种Mindspore框架下的大模型两阶段预训练流程图；

图3本发明实施例一种Mindspore框架下的大模型微调(下游应用)流程图。

具体实施方式

下面结合附图和实施例。对本发明做进一步说明；

一种Mindspore框架下的大模型，如附图1所示，具体包括：通用物品编码器、通用用户编码器和推荐模块；本发明所述的多模态推荐大模型采用两阶段预训练+微调的模式，以兼顾不同数据集之间的通用性和跨域表现，以及推荐结果精度。

具体而言，在第一阶段中大模型的通用物品编码器模块会对图像和文本信息进行处理以及融合从而获得通用的物品表示；在第二阶段中，用户编码器根据交互序列的对应关系，依赖于已经生成的物品表示以及属性信息生成通用的用户表示，再经由推荐模块的相似度计算，执行序列推荐以及评分预测两种任务。在需要将预训练好的模型迁移至其他数据集的场景下，只需对于每个模块分别进行微调，并在推荐部分引入ID即可用较小开销实现较好效果。

两阶段预训练分别为通用物品编码器的预训练，以及通用用户编码器和推荐预训练，整体流程如图2所示，通用物品编码器的预训练主要在一般的多模态数据集上进行，目的是保证物品编码器获得对图文信息的理解能力；而通用用户编码器则通过不引入ID、只使用已生成的物品表示的方式根据用户属性、交互行为理解一般的用户行为以及偏好。而微调则适用于下游场景的具体应用中。

所述推荐模块接收用户编码器和物品编码器生成的用户和物品表示，其中物品表示经过其中一个Adapter模块进行后续处理(其本质是两个线性层)，处理后的物品表示和用户表示进行相似度计算，即得到用户对所有物品的兴趣得分，从高到低排序即得到推荐列表；

步骤1：对Mindspore框架下大模型中物品编码器进行预训练；

e_T＝BERT(T)

e_I＝ViT(I)

其中，e表示embedding；

e_i＝E_I(e_T,e_I)

其中，E_I表示物品编码器的跨模态部分；

步骤2：对通用用户编码器及推荐模块进行预训练；

W＝BA

步骤2.2：基于步骤2.1训练用户编码器；

E_U表示用户编码器的跨模态部分；

其中，为确保输入序列长度一致，对于长度不足的序列填补<pad>标记，填补采用左补齐的方式，因为交互序列处理过程中会添加位置编码，而右补齐会导致位置编码代表的最近交互物品均为空；

其中表示用户的属性信息编码后的属性信息；

步骤2.3：基于上述步骤对推荐模块进行训练；

推荐模块加载用户编码器权重，采用leave-one-out原则，对数据集进行处理，即将交互序列中的最后一个样本作为测试集，倒数第二个样本作为验证集，之前的所有样本作为训练集；按照步骤2.2的处理方式将用户对应的交互序列输入用户编码器，生成用户表示；

Adapter:Linear(e_i)

步骤3：对训练完成的模型进行微调并应用；如附图3所示；

e_u′＝(e_uid,e_u)

其中，e_uid用户ID的embedding，

S＝RecModel(u,I)

本发明在两个公开的真实场景的数据集上与其他方法进行对比，这两个数据集分别为：Amazon Beauty(序列推荐)以及Movielens-1M(评分预测)。数据集统计信息如表1所示

表1数据集统计；

因为业界不存在推荐大模型，因此在序列推荐任务上，本方法选择与两种常见的序列推荐模型进行对比：

SASRec：该方法应用注意力机制对用户历史行为建模，将抽取的用户表示和候选物品embedding做內积得到相关性大小，以执行序列推荐任务；

UniSRec：该方法提出利用物品表示和参数白化增强学习通用序列表示，以保证模型在不同数据集上的可迁移性。

为评估序列推荐的性能表现，我们使用常用的两个指标：NDCG(归一化折损累计增益)和Recall(召回率)。

表2关于序列推荐的实验结果；

表2展示了本发明在Amazon Beauty数据集上关于序列推荐的所有指标结果，可以看到本方法相较于同样使用Transformer结构执行序列推荐的模型在不同指标上均有提升。

在评分预测任务上，本方法同样与两种常见方法比较：

GraphRec：该方法是一种利用交互图信息的矩阵分解；

IGMC：该方法利用图级别的GNN处理交互图信息，并建立其与评分之间的联系。

为了评估评分预测的质量，使用RMSE(均方根误差)。

表3关于评分预测的实验结果；

表3展示了本发明在Movielens-1M数据集上关于评分预测的所有指标，可以看到本发明提出的模型在当前版本主要关注序列信息，而对比的模型主要借助图信息，所以表现略逊，但在后续版本引入图信息辅助推荐时在评分预测任务是上表现还可提高，而其余模型由于结构限制只能执行单一任务，模型能力广度相对较差。

本发明需要在Mindspore框架下提出一个能接收多模态输入的推荐大模型，故首先需要对Mindspore下有限的模型资源进行整合，并且将Pytorch框架下的Transformer等模型迁移、调试、优化，使之在昇腾+昇思框架下具有良好表现。

本发明提出的模型包括三个部分：通用物品编码器需要使模型具备通用性和跨域能力，以有效处理不同推荐场景中的物品模态，包含文本和图片描述信息，因此本发明选择对描述信息而非ID编码；通用用户编码器同样需要克服模型受特定训练数据的影响，来处理推荐场景中的用户模态，而如果按照传统推荐模型应用ID之间的关联性来学习用户交互，必然不具备可迁移性，故本发明通过使用交互物品来对用户进行表征，并将用户属性作为辅助信息引入，从而学习了更为一般的用户行为偏好，得到了更通用的用户表示；推荐模块需要有效整合用户物品模块输出的表征信息，一方面要保证精度，另一方面则需要支持序列推荐和评分预测任务，为此本发明提出了通用的任务框架，同时支持引入ID信息进行微调，以进一步提高模型在具体下游场景下的表现。

Claims

1.一种Mindspore框架下的大模型，其特征在于，具体包括：通用物品编码器、通用用户编码器和推荐模块；

所述推荐模块接收用户编码器和物品编码器生成的用户和物品表示，其中物品表示经过其中一个Adapter模块进行后续处理，处理后的物品表示和用户表示进行相似度计算，即得到用户对所有物品的兴趣得分，从高到低排序即得到推荐列表。

2.一种Mindspore框架下大模型的推荐方法，基于上述权利要求1一种Mindspore框架下的大模型实现，其特征在于，具体包括以下步骤：

步骤1：对Mindspore框架下大模型中物品编码器进行预训练；

步骤2：对通用用户编码器及推荐模块进行预训练；

步骤3：对训练完成的模型进行微调并应用。

3.根据权利要求2所述的一种Mindspore框架下大模型的推荐方法，其特征在于，步骤1具体为：

e_T＝BERT(T)

e₁＝ViT(I)

其中，e表示embedding；

e_i＝E_I(e_T,e_I)

其中，E_I表示物品编码器的跨模态部分。

4.根据权利要求2所述的一种Mindspore框架下大模型的推荐方法，其特征在于，步骤2具体为：

步骤2.2：基于步骤2.1训练用户编码器；

步骤2.3：基于上述步骤对推荐模块进行训练。

5.根据权利要求4所述的一种Mindspore框架下大模型的推荐方法，其特征在于，步骤2.1具体为：

W＝BA

微调后生成所有物品对应的embedding_table以供通用用户编码器和推荐模块使用。

6.根据权利要求4所述的一种Mindspore框架下大模型的推荐方法，其特征在于，步骤2.2具体为：

E_U表示用户编码器的跨模态部分；

其中表示用户的属性信息编码后的属性信息；

用户编码器利用输入信息，对交互序列中的物品随机进行Mask处理，即将交互序列中的物品i随机替换成[MASK]这一特殊标记，在预训练任务中通过和所有候选物品比对复原遮蔽位置的物品，并利用交叉熵损失进行训练，训练结束后保存模型权重文件。

7.根据权利要求4所述的一种Mindspore框架下大模型的推荐方法，其特征在于，步骤2.3具体为：

Adapter:Linear(e_i)

对e_u和进行相似度计算后，利用交叉熵损失对于用户编码器进行续训并训练推荐模块，直至推荐模块训练结束，同样保存模型权重。

8.根据权利要求2所述的一种Mindspore框架下大模型的推荐方法，其特征在于，步骤3具体为：

e_u′＝(e_uid,e_u)

其中，e_uid用户ID的embedding，

S＝RecModel(u,I)