CN116911955B

CN116911955B - 目标推荐模型的训练方法及装置

Info

Publication number: CN116911955B
Application number: CN202311168595.7A
Authority: CN
Inventors: 齐盛; 董辉
Original assignee: Shenzhen Xumi Yuntu Space Technology Co Ltd
Current assignee: Shenzhen Xumi Yuntu Space Technology Co Ltd
Priority date: 2023-09-12
Filing date: 2023-09-12
Publication date: 2024-01-05
Anticipated expiration: 2043-09-12
Also published as: CN116911955A

Abstract

本公开涉及计算机技术领域，提供了一种目标推荐模型的训练方法及装置。该方法包括：获取精细行为的离散特征，精细行为包括用户查看商品详情页面产生的点击浏览数据；将离散特征映射到稠密向量中，得到离散向量；将离散向量与精细行为的连续特征的向量拼接，得到精细行为向量；将精细行为向量与时空向量结合，并将结合结果添加到在目标推荐模型的编码层输入的训练数据中，以对目标推荐模型进行训练。本公开的技术方案可以提高目标推荐模型的准确性。

Description

目标推荐模型的训练方法及装置

技术领域

本公开涉及计算机技术领域，尤其涉及一种目标推荐模型的训练方法及装置。

背景技术

在电商场景中存在很多推荐场景，例如，首页推荐、商品详情页推荐以及购物车推荐等。推荐算法和推荐系统可以使用各种技术手段不断地提升推荐的效果、促进用户的体验和平台的收益，使得双方的利益最大化，并实现用户、商品、平台三方的高效连接。

推荐系统在当今生活中扮演着不可或缺的作用，无论是网络购物，新闻阅读，还是视频观看，都有其身影。CTR（Click Through Rate，用户点击预测）是推荐系统中的关键任务，它可以估计用户点击一个item（项目）的概率。CTR作为推荐系统排序环节关键的一环，通过对用户特征和商品特征的建模与表达，将用户最有可能点击的物品优先推送给用户，以提升用户的满意度和整个推荐系统的效率。

在用户点击预测中，可以将用户和商品的离散特征通过one-hot（独热）编码将数值类特征归一化，或者通过分桶技术将数值类特征进行离散化，然后输入推荐系统的目标推荐模型，即可以对目标推荐模型进行训练。但是上述方法都没有考虑到用户序列中噪声的问题，这样建模出来的用户序列会影响整个目标推荐模型的训练，从而导致目标推荐模型的准确性不高。

发明内容

有鉴于此，本公开实施例提供了一种目标推荐模型的训练方法、装置、电子设备及计算机可读存储介质，以解决现有技术中目标推荐模型的准确性不高的技术问题。

本公开实施例的第一方面，提供了一种目标推荐模型的训练方法，该方法包括：获取精细行为的离散特征，精细行为包括用户查看商品详情页面产生的点击浏览数据；将离散特征映射到稠密向量中，得到离散向量；将离散向量与精细行为的连续特征的向量拼接，得到精细行为向量；将精细行为向量与时空向量结合，并将结合结果添加到在目标推荐模型的编码层输入的训练数据中，以对目标推荐模型进行训练。

本公开实施例的第二方面，提供了一种目标推荐模型的训练装置，该装置包括：获取模块，用于获取精细行为的离散特征，精细行为包括用户查看商品详情页面产生的点击浏览数据；映射模块，用于将离散特征映射到稠密向量中，得到离散向量；拼接模块，用于将离散向量与精细行为的连续特征的向量拼接，得到精细行为向量；添加模块，用于将精细行为向量与时空向量结合，并将结合结果添加到在目标推荐模型的编码层输入的训练数据中，以对目标推荐模型进行训练。

本公开实施例的第三方面，提供了一种电子设备，包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序，该处理器执行计算机程序时实现上述方法的步骤。

本公开实施例的第四方面，提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述方法的步骤。

本公开实施例与现有技术相比存在的有益效果是：本公开实施例的技术方案通过对精细行为的离散特征和连续特征进行处理后拼接，得到精细行为向量，并将精细行为向量和时空向量结合后增加到训练数据中，对目标推荐模型进行训练，替代人工对于序列中噪声行为的判断，从而可以有效区分噪音和真实兴趣，提高目标推荐模型的准确性。

进一步地，在本公开实施例的技术方案中，提出了一种基于精细行为建模提升用户序列表征鲁棒性的方法，采集对用户在商品详情页的精细行为，通过精细行为来建模用户点击后的真正意图和兴趣强弱，有效区分噪音和真实兴趣，该模型架构适应性广，能够适用不同类型的推荐任务，该提升用户序列表征鲁棒性的方法可以完全替代人工对于序列中噪声行为的判断，提高了效率和推荐的准确率。

附图说明

为了更清楚地说明本公开实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本公开实施例提供的一种目标推荐模型的训练方法的流程示意图；

图2是本公开实施例提供的另一种目标推荐模型的训练过程的示意图；

图3是本公开实施例提供的一种目标推荐模型的训练装置的结构示意图；

图4是本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本公开实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本公开。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本公开的描述。

在用户点击预测中，将用户和商品的离散特征通过one-hot（独热）编码将数值类特征归一化，或者通过分桶技术将数值类特征进行离散化时可以使用LR（LogisticRegression，逻辑回归）模型、FM（Factorization Machine，因子分解机）模型、DeepFM（DeepFactorization Machine，深度因子分解机）模型和DIN（Deep Interest Network）模型等进行建模生成用户序列。

其中，LR模型为一种浅层模型，易于训练。FM模型可以将低维的离散特征通过embedding（嵌入）实现特征的交叉。DeepFM模型通过双塔将FM模型和深度网络进行结合做特征交叉，生成高维特征，以对特征进行建模。DIN模型可以对用户序列进行建模，表达出用户的长短期兴趣。

用户的行为中往往包含较多的噪声，包括一些误点击操作，需要从充满噪声的序列中识别用户的真实意图，但是这些模型都没有考虑到用户序列中噪声的问题，这样建模出来的用户序列会影响整个目标推荐模型的训练，从而导致目标推荐模型的准确性不高。

为解决以上问题，本公开实施例提供一种目标推荐模型的训练方案，提出一种基于精细行为建模提升用户序列表征鲁棒性的方法，通过对用户在每个商品上精细行为的捕捉，有效去除误点等非主动意愿的点击，提高用户表征的鲁棒性，提高目标推荐模型的准确性。

下面将结合附图详细说明根据本公开实施例的目标推荐模型的训练方法和装置。

图1是本公开实施例提供的一种目标推荐模型的训练方法的流程示意图。本公开实施例提供的方法可以由任意具备计算机处理能力的电子设备执行，例如终端或服务器。如图1所示，该目标推荐模型的训练方法包括：

步骤S101，获取精细行为的离散特征，精细行为包括用户查看商品详情页面产生的点击浏览数据。

具体地，精细行为是用户点击后在商品详情页的统计量和子行为信息，包括停留时长、操作次数、查看主图、浏览评论等，精细行为包括具有离散特性的离散特征和具有连续特性的连续特征。其中，离散特征可以为是否评论，是否分享，是否查看主图等特征，连续特征可以为停留时间，点击次数，操作次数等特征。

步骤S102，将离散特征映射到稠密向量中，得到离散向量。

使用数组的数据结构对向量建模后得到的结构通常存储普通的向量。该普通的向量即稠密向量，在步骤S102中，一般将离散特征映射到低维稠密向量中，即几十到几百维的稠密向量。

步骤S103，将离散向量与精细行为的连续特征的向量拼接，得到精细行为向量。

步骤S104，将精细行为向量与时空向量结合，并将结合结果添加到在目标推荐模型的编码层输入的训练数据中，以对目标推荐模型进行训练。

具体地，时空向量包括用户浏览网页的位置特征和浏览时间特征。在目标推荐模型的编码层输入的训练数据即向目标推荐模型的编码层输入的训练数据。该训练数据包括用户浏览商品产生的数据和作为训练标签的候选商品数据。

本公开实施例的技术方案可以解决序列推荐中用户特征表征不完善的问题，通过精细行为建模，有效去除序列中的噪声，更好地建模用户的向量表达，从而提高有精细行为向量参与训练的目标推荐模型的精确性。

在步骤S103之前，可以对连续特征进行归一化操作，得到连续特征的向量。

具体地，归一化操作即对数据进行归一化处理，将数据变为（0，1）之间的小数，对停留时间，点击次数，操作次数等特征进行归一化操作，可以将连续特征映射小于1的向量中，从而便于进行后续的数据处理。

在步骤S104之前，还可以将精细行为向量输入预设的神经网络，得到设定长度的第一向量，并将第一向量通过按位相加的方式与时空向量结合，得到结合结果。

其中，神经网络可以为以下任一种：多层感知机、卷积神经网络和循环神经网络。

多层感知机（MultilayerPerceptron，简称MLP）也可以称为人工神经网络(Artificial Neural Network，简称ANN)，是一种前馈神经网络，它由输入层、隐藏层和输出层组成。输入层接收输入数据，隐藏层负责处理数据，输出层输出处理后的结果。卷积神经网络（Convolutional NeuralNetworks，简称CNN）是一类包含卷积计算且具有深度结构的前馈神经网络，是深度学习的代表算法之一。卷积神经网络具有表征学习能力，能够按其阶层结构对输入信息进行平移不变分类。循环神经网络（Recurrent Neural Network，简称RNN）是一类以序列数据为输入，在序列的演进方向进行递归且所有节点即循环单元按链式连接的递归神经网络。

在本公开实施例中，目标推荐模型可以为单任务的特征处理模型，也可以同时包括多任务模型和单任务的特征处理模型。

在目标推荐模型为单任务的特征处理模型时，特征处理模型可以为变换器（Transformer）模型，且并不局限于此。变换器（Transformer）模型包括一个编码层和一个解码层。编码层可以将输入数据进行特征提取，变为中间表达式形式，解码层可以将中间表达式进行解码输出，即通过分类过程得到分类结果。

在目标推荐模型为多任务模式，即同时包括多任务模型和单任务的特征处理模型时，多任务模型可以为MMOE（Multi-gateMixture-of-Experts，多门控制的混合专家网络）模型或者PLE（Progressive Layered Extraction，渐进式分层提取）模型，且不局限于此。

在本公开实施例中，将添加了结合结果的训练数据输入到目标推荐模型的编码层中，编码层对该训练数据进行特征提取，并将特征提取结果输出到该编码层对应的解码层中，解码层对上述提取结果进行分类，得到分类数据，该分类数据可以为称为用户嵌入。

进一步地，多任务模型的输入数据可以为用户嵌入、密集特征和项目嵌入，也可以为用户嵌入和密集特征，还可以为用户嵌入和项目嵌入，且并不局限于此。

如图3所示的是本公开实施例的一种目标推荐模型的训练过程示意图。如图3所示，对评论、分享以及查看主图等用户精细行为的离散特征，输入嵌入层和池化层，该池化层即总和池（sum pooling），得到操作行为的总特征这一离散向量，将该离散向量与停留时间、点击次数和操作次数等连续向量拼接，并输入到多层感知机中，将精细行为映射到一个定长的向量上，即可以得到精细行为特征。其中，连续向量是对原始的连续特征进行归一化操作后得到。

将精细行为特征与位置特征和浏览时间特征等时空向量结合后，即可以将结合数据添加到原有的训练数据中，输入目标推荐模型的位置编码部分的编码层。其中，精细行为特征与位置特征和浏览时间特征等时空向量结合的方式是通过按位相加的方式进行结合。

采用如图3所示的以上的对精细行为的离散特征和连续特征进行处理并使用的技术方案，可以使得在整个目标推荐模型的训练过程中，序列的表征更加鲁棒。

进一步的，如图3所示，训练数据包括用户浏览商品产生的数据和候选商品数据。将用户浏览商品产生的数据和候选商品数据输入到嵌入层进行处理后，得到用户商品交互数据特征。该用户商品交互数据特征作为训练数据在添加入结合结果后输入到编码层中。

如图3所示的特征处理模型包括编码层和解码层，该特征处理模型输出的用户嵌入和项目嵌入以及密集向量一起，输入到多任务模型，即多门控制的混合专家网络模型中，并进一步将多门控制的混合专家网络模型输出的数据输入到评定模型中，得到评定数据。

Logit模型（Logit model），即评定模型或者分类评定模型，又可以称为Logisticregression（逻辑回归），是离散选择法模型之一，Logit模型是最早的离散选择模型，也是应用最广的模型。

在本公开实施例中，可以采用损失函数对初始的目标推荐模型进行训练，得到最终的目标推荐模型，即模型训练结果。根据上述评定数据与训练数据计算损失函数值，即可以根据该损失函数值对目标推荐模型进行训练。

在采用损失函数对初始的目标推荐模型进行训练时，目标推荐模型收敛的收敛条件可以为损失函数的函数值不再提升或者迭代次数达到一定数量。

具体地，在目标推荐模型的损失函数值不再提升时，可以停止训练，记录此时的损失函数值，并根据损失函数值调整目标推荐模型的网络参数，完成目标推荐模型的一次调参过程。在实际训练的过程中，会根据训练数据进行多次迭代调参训练，直至目标推荐模型收敛，得到最终的目标推荐模型。

在本公开实施例的技术方案中，提出了一种基于精细行为建模提升用户序列表征鲁棒性的方法，采集对用户在商品详情页的精细行为，通过精细行为来建模用户点击后的真正意图和兴趣强弱，有效区分噪音和真实兴趣，该模型架构适应性广，能够适用不同类型的推荐任务，该提升用户序列表征鲁棒性的方法可以完全替代人工对于序列中噪声行为的判断，提高了效率和推荐的准确率。

根据本公开实施例的目标推荐模型的训练方法，通过对精细行为的离散特征和连续特征进行处理后拼接，得到精细行为向量，并将精细行为向量和时空向量结合后增加到训练数据中，对目标推荐模型进行训练，替代人工对于序列中噪声行为的判断，从而可以有效区分噪音和真实兴趣，提高目标推荐模型的准确性。

下述为本公开装置实施例，可以用于执行本公开方法实施例。下文描述的目标推荐模型的训练装置与上文描述的目标推荐模型的训练方法可相互对应参照。对于本公开装置实施例中未披露的细节，请参照本公开方法实施例。

图3是本公开实施例提供的一种目标推荐模型的训练装置的示意图。目标推荐模型包括有模型路径和无模型路径，如图3所示，该目标推荐模型的训练装置包括：

获取模块301，用于获取精细行为的离散特征，精细行为包括用户查看商品详情页面产生的点击浏览数据。

映射模块302，用于将离散特征映射到稠密向量中，得到离散向量。

使用数组的数据结构对向量建模后得到的结构通常存储普通的向量。该普通的向量即稠密向量，映射模块302一般将离散特征映射到低维稠密向量中，即几十到几百维的稠密向量。

拼接模块303，用于将离散向量与精细行为的连续特征的向量拼接，得到精细行为向量。

添加模块304，用于将精细行为向量与时空向量结合，并将结合结果添加到在目标推荐模型的编码层输入的训练数据中，以对目标推荐模型进行训练。

在本公开实施例中，该目标推荐模型的训练装置还可以包括归一化模块，用于对连续特征进行归一化操作，得到连续特征的向量。

在本公开实施例中，该目标推荐模型的训练装置还可以包括结合模块，用于将精细行为向量输入预设的神经网络，得到设定长度的第一向量，并将第一向量通过按位相加的方式与时空向量结合，得到结合结果。

在目标推荐模型为单任务的特征处理模型时，特征处理模型可以为变换器模型，且并不局限于此。

在目标推荐模型为多任务模式，即同时包括多任务模型和单任务的特征处理模型时，多任务模型可以为MMOE模型或者PLE模型。

由于本公开的示例实施例的目标推荐模型的训练装置的各个功能模块与上述目标推荐模型的训练方法的示例实施例的步骤对应，因此对于本公开装置实施例中未披露的细节，请参照本公开上述的目标推荐模型的训练方法的实施例。

根据本公开实施例的目标推荐模型的训练装置，通过对精细行为的离散特征和连续特征进行处理后拼接，得到精细行为向量，并将精细行为向量和时空向量结合后增加到训练数据中，对目标推荐模型进行训练，替代人工对于序列中噪声行为的判断，从而可以有效区分噪音和真实兴趣，提高目标推荐模型的准确性。

图4是本公开实施例提供的电子设备4的示意图。如图4所示，该实施例的电子设备4包括：处理器401、存储器402以及存储在该存储器402中并且可在处理器401上运行的计算机程序403。处理器401执行计算机程序403时实现上述各个方法实施例中的步骤。或者，处理器401执行计算机程序403时实现上述各装置实施例中各模块的功能。

电子设备4可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。电子设备4可以包括但不仅限于处理器401和存储器402。本领域技术人员可以理解，图4仅仅是电子设备4的示例，并不构成对电子设备4的限定，可以包括比图示更多或更少的部件，或者不同的部件。

处理器401可以是中央处理单元（Central Processing Unit，CPU），也可以是其它通用处理器、数字信号处理器（Digital Signal Processor，DSP）、专用集成电路（Application SpecificIntegrated Circuit，ASIC）、现场可编程门阵列（Field-Programmable Gate Array，FPGA）或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

存储器402可以是电子设备4的内部存储单元，例如，电子设备4的硬盘或内存。存储器402也可以是电子设备4的外部存储设备，例如，电子设备4上配备的插接式硬盘，智能存储卡（Smart Media Card，SMC），安全数字（Secure Digital，SD）卡，闪存卡（Flash Card）等。存储器402还可以既包括电子设备4的内部存储单元也包括外部存储设备。存储器402用于存储计算机程序以及电子设备所需的其它程序和数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本公开实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可以存储在计算机可读存储介质中，该计算机程序在被处理器执行时，可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如，在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上实施例仅用以说明本公开的技术方案，而非对其限制；尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本公开各实施例技术方案的精神和范围，均应包含在本公开的保护范围之内。

Claims

1.一种目标推荐模型的训练方法，其特征在于，所述方法包括：

获取精细行为的离散特征，所述精细行为包括用户查看商品详情页面产生的点击浏览数据；

将所述离散特征映射到稠密向量中，得到离散向量；

将所述离散向量与所述精细行为的连续特征的向量拼接，得到精细行为向量；

将所述精细行为向量与时空向量结合，并将结合结果添加到在所述目标推荐模型的编码层输入的训练数据中，以对所述目标推荐模型进行训练；

将所述精细行为向量与时空向量结合，并将结合结果添加到在所述目标推荐模型的编码层输入的训练数据中，以对所述目标推荐模型进行训练，包括：

将所述精细行为向量输入到预设的神经网络，得到设定长度的第一向量；将所述第一向量通过按位相加的方式与所述时空向量结合，得到所述结合结果；将所述结合结果添加到所述训练数据中，输入到所述目标推荐模型中的特征处理模型的编码层，所述编码层对应的解码层输出的分类数据为用户嵌入；将所述用户嵌入和以下任一种或者两种数据：密集特征和项目嵌入，作为输入数据输入到目标推荐模型中的多任务模型，以对所述目标推荐模型进行训练。

2.根据权利要求1所述的方法，其特征在于，所述神经网络包括以下任一种：多层感知机、卷积神经网络和循环神经网络。

3.根据权利要求1所述的方法，其特征在于，所述多任务模型包括多门控制的混合专家网络模型或者渐进式分层提取模型。

4.根据权利要求1所述的方法，其特征在于，所述特征处理模型包括变换器模型。

5.根据权利要求1所述的方法，其特征在于，将所述离散向量与所述精细行为的连续特征的向量拼接之前，所述方法还包括：

对所述连续特征进行归一化操作，得到所述连续特征的向量。

6.一种目标推荐模型的训练装置，其特征在于，所述装置包括：

获取模块，用于获取精细行为的离散特征，所述精细行为包括用户查看商品详情页面产生的点击浏览数据；

映射模块，用于将所述离散特征映射到稠密向量中，得到离散向量；

拼接模块，用于将所述离散向量与所述精细行为的连续特征的向量拼接，得到精细行为向量；

添加模块，用于将所述精细行为向量与时空向量结合，并将结合结果添加到在所述目标推荐模型的编码层输入的训练数据中，以对所述目标推荐模型进行训练；

所述添加模块还用于，将所述精细行为向量输入到预设的神经网络，得到设定长度的第一向量；将所述第一向量通过按位相加的方式与所述时空向量结合，得到所述结合结果；将所述结合结果添加到所述训练数据中，输入到所述目标推荐模型中的特征处理模型的编码层，所述编码层对应的解码层输出的分类数据为用户嵌入；将所述用户嵌入和以下任一种或者两种数据：密集特征和项目嵌入，作为输入数据输入到目标推荐模型中的多任务模型，以对所述目标推荐模型进行训练。

7.一种电子设备，包括存储器、处理器以及存储在所述存储器中并且可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述方法的步骤。

8.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述方法的步骤。