CN116151353B

CN116151353B - 一种序列推荐模型的训练方法和对象推荐方法

Info

Publication number: CN116151353B
Application number: CN202310396941.0A
Authority: CN
Inventors: 王翔; 杨正一; 何向南
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2023-04-14
Filing date: 2023-04-14
Publication date: 2023-07-18
Anticipated expiration: 2043-04-14
Also published as: CN116151353A

Abstract

本发明提供了一种序列推荐模型的训练方法和对象推荐方法，其中，序列推荐模型包括经验学习模块和鲁棒学习模块，该训练方法包括：获取训练样本数据集；将训练样本数据集中的历史样本操作序列输入经验学习模块，输出第一预测结果，并根据第一预测结果和样本标签确定第一损失值；将历史样本操作序列输入鲁棒学习模块，输出第二预测结果，并根据第二预测结果、样本标签、预设的鲁棒半径和与历史样本操作序列对应的经验分布确定第二损失值；根据第一损失值和第二损失值确定总损失值；根据总损失值调整经验学习模块的网络参数以及鲁棒学习模块的网络参数，直至总损失值满足迭代条件；将总损失值满足迭代条件时得到的模型作为序列推荐模型。

Description

一种序列推荐模型的训练方法和对象推荐方法

技术领域

本发明涉及序列推荐技术领域，尤其涉及一种序列推荐模型的训练方法和对象推荐方法。

背景技术

序列推荐是根据用户在某一时间段内的浏览或者购买记录来对用户进行对象推荐的方法。序列推荐在推荐系统中占有重要的地位，它通过对用户的购买或浏览行为记录来建模，以此学习出用户的兴趣表示和变化，从而能够对用户的下一次操作进行预测和推荐。

相关技术中，一般采用历史数据对序列推荐系统进行训练，然后应用到实际推荐场景中进行预测和推荐。但是，实际推荐过程中的数据分布存在动态变化，导致采用历史数据训练得到的序列推荐系统在实际应用时存在推荐结果不准确的问题。

发明内容

针对上述技术问题，本发明提供了一种序列推荐模型的训练方法和对象推荐方法。

根据本发明的第一个方面，提供了一种序列推荐模型的训练方法，其中，上述序列推荐模型包括经验学习模块和鲁棒学习模块，上述训练方法包括：

获取训练样本数据集，其中，上述训练样本数据集包括至少一个训练样本，上述训练样本包括在第一时间段内生成的针对样本用户的历史样本操作序列和样本标签，上述样本标签表征上述样本用户在上述历史样本操作序列之后的下一个实际操作；

将上述历史样本操作序列输入上述经验学习模块，输出第一预测结果，并根据上述第一预测结果和上述样本标签确定第一损失值；

将上述历史样本操作序列输入上述鲁棒学习模块，输出第二预测结果，并根据上述第二预测结果、上述样本标签、预设的鲁棒半径和与上述历史样本操作序列对应的经验分布确定第二损失值，其中，上述经验分布表征上述历史样本操作序列中每个历史操作出现的频率；

根据上述第一损失值和上述第二损失值确定总损失值；

根据上述总损失值调整上述经验学习模块的网络参数以及上述鲁棒学习模块的网络参数，直至上述总损失值满足迭代条件；

将上述总损失值满足上述迭代条件时得到的模型作为序列推荐模型。

根据本发明的实施例，上述根据上述第一预测结果和上述样本标签确定第一损失值包括：

将上述第一预测结果和上述样本标签输入预设的经验风险最小化损失函数，得到上述第一损失值。

根据本发明的实施例，上述训练样本数据集中包括M个训练样本，其中，M≥2；

上述根据上述样本第二预测结果、上述样本标签、预设的鲁棒半径和与上述历史样本操作序列对应的经验分布确定第二损失值包括：

针对第i个训练样本，根据与第i个历史样本操作序列对应的第i个第二预测结果和第i个样本标签确定第i个风险值，最终得到M个风险值，i为正整数；

根据上述经验分布结合上述鲁棒半径，泛化得到测试分布，其中，上述测试分布包括测试样本数据，上述测试样本数据包括在上述鲁棒半径范围内的所有训练样本；

根据上述测试样本数据确定期望值；

在上述经验分布和上述测试分布之间的差异性满足预设距离度量的情况下，根据上述M个风险值和上述期望值确定上述第二损失值。

根据本发明的实施例，上述根据与第i历史样本操作序列对应的第i个第二预测结果和第i个样本标签确定第i个风险值包括：

利用均方误差确定上述第i个第二预测结果与上述第i个样本标签之间的误差，得到上述第i个风险值。

根据本发明的实施例，上述根据上述M个风险值和上述期望值确定上述第二损失值包括：

将上述期望值分别与上述M个风险值相乘，得到损失值候选集；

确定上述损失值候选集中满足预设条件的损失值为上述第二损失值。

根据本发明的实施例，上述预设条件包括：上述损失值候选集中数值最大的损失值。

根据本发明的实施例，上述预设距离度量采用相对熵表示。

根据本发明的实施例，上述经验风险最小化损失函数包括以下至少之一：平方损失函数、二分类交叉熵损失函数、BPR损失函数。

根据本发明的实施例，上述根据上述第一损失值和上述第二损失值确定总损失值包括：

将上述第二损失值与预设权重值相乘后，与上述第一损失值相加，得到上述总损失值。

根据本发明的第二方面，提供了一种对象推荐方法，包括：

获取目标用户在预设时间段内生成的历史目标操作序列，其中，上述历史目标操作序列包括针对待推荐对象进行的操作信息；以及

将上述历史目标操作序列输入至由上述的训练方法训练得到的序列推荐模型中，输出与上述目标用户对应的推荐对象。

根据本发明的第三方面，提供了一种序列推荐模型的训练装置，其中，上述序列推荐模型包括经验学习模块和鲁棒学习模块，上述训练装置包括：

第一获取模块，用于获取训练样本数据集，其中，上述训练样本数据集包括至少一个训练样本，上述训练样本包括在第一时间段内生成的针对样本用户的历史样本操作序列和样本标签，上述样本标签表征上述样本用户在上述历史样本操作序列之后的下一个实际操作；

第一确定模块，用于将上述历史样本操作序列输入上述经验学习模块，输出第一预测结果，并根据上述第一预测结果和上述样本标签确定第一损失值；

第二确定模块，用于将上述历史样本操作序列输入上述鲁棒学习模块，输出第二预测结果，并根据上述第二预测结果、上述样本标签、预设的鲁棒半径和与上述历史样本操作序列对应的经验分布确定第二损失值，其中，上述经验分布表征上述历史样本操作序列中每个历史操作出现的频率；

第三确定模块，用于根据上述第一损失值和上述第二损失值确定总损失值；

调整模块，用于根据上述总损失值调整上述经验学习模块的网络参数以及上述鲁棒学习模块的网络参数，直至上述总损失值满足迭代条件；

第四确定模块，用于将上述总损失值满足上述迭代条件时得到的模型作为序列推荐模型。

根据本发明的第四方面，提供了一种对象推荐装置，包括：

第二获取模块，用于获取目标用户在预设时间段内生成的历史目标操作序列，其中，上述历史目标操作序列包括针对待推荐对象进行的操作信息；以及

输入输出模块，用于将上述历史目标操作序列输入至由上述的训练方法训练得到的序列推荐模型中，输出与上述目标用户对应的推荐对象。

根据本发明的实施例，序列推荐模型包括经验学习模块和鲁棒学习模块，在进行序列推荐模型训练时，通过获取训练样本数据集，其中，训练样本数据集包括至少一个训练样本，训练样本包括在第一时间段内生成的针对样本用户的历史样本操作序列和样本标签，样本标签表征样本用户在历史样本操作序列之后的下一个实际操作；然后将历史样本操作序列输入经验学习模块，输出第一预测结果，并根据第一预测结果和样本标签确定第一损失值；之后将历史样本操作序列输入鲁棒学习模块，输出第二预测结果，并根据第二预测结果、样本标签、预设的鲁棒半径和与历史样本操作序列对应的经验分布确定第二损失值，并根据第一损失值和第二损失值确定总损失值；之后根据总损失值调整经验学习模块的网络参数以及鲁棒学习模块的网络参数，直至总损失值满足迭代条件，并将总损失值满足迭代条件时得到的模型作为序列推荐模型。由于在使用训练样本数据集训练序列推荐模型的同时，在序列推荐模型中增加了鲁棒学习模块，从而增强序列推荐模型对于数据动态变化的适应能力，在实际应用时有助于提高推荐结果的准确性。

附图说明

通过以下参照附图对本发明实施例的描述，本发明的上述内容以及其他目的、特征和优点将更为清楚。

图1示出了根据本发明实施例的序列推荐模型的训练方法的流程图。

图2示出了根据本发明另一实施例的序列推荐模型的训练方法的流程图。

图3示出了根据本发明实施例的对象推荐方法的流程图。

图4示出了根据本发明实施例的序列推荐模型的训练装置的结构框图。

图5示出了根据本发明实施例的对象推荐装置的结构框图。

图6示出了根据本发明实施例的适于实现序列推荐模型的训练方法的电子设备的方框图。

具体实施方式

以下，将参照附图来描述本发明的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本发明的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本发明实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本发明。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语（包括技术和科学术语）具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释（例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等）。

在本发明的技术方案中，在获取或采集用户个人信息之前，均获取了用户的授权或同意。

在本发明的技术方案中，对数据的获取、收集、存储、使用、加工、传输、提供、公开和应用等处理，均符合相关法律法规的规定，采取了必要保密措施，且不违背公序良俗。

近年来，互联网技术飞速发展逐渐成为人们获取信息的重要途经，然而随着互联网上信息的爆炸型增长，用户在海量信息中获取有用信息的成本提高。为了帮助用户准确快速获取感兴趣信息，推荐系统在各种互联网平台上扮演着越来越重要的角色，序列推荐也逐渐成为推荐系统的关键技术。

随着深度学习技术不断发展，大量工作采用深度学习模型作为序列特征编码器，比如循环神经网络，卷积神经网络，自注意力机制等。但是，在真实推荐场景下，用于训练模型的数据往往来自于用户的历史行为数据，而实际场景下用户兴趣不断变化，物品流行度等特征不断改变，使得推荐系统在上线服务时的数据分布与训练数据的分布存在差异，导致采用历史数据训练得到的序列推荐系统在实际应用时存在推荐结果不准确的问题。

针对上述问题，相关技术中，一般采用数据增强的自监督学习方法，或者域自适应的方法。虽然这些方法可以一定程度上缓解真实推荐场景下数据分布变化带来的问题，但其往往对于线上服务时的数据特征需要比较强的先验知识，在先验知识缺失时难以保证推荐系统的推荐性能。

有鉴于此，本发明针对以上技术问题，提供了一种序列推荐模型的训练方法，其中，序列推荐模型包括经验学习模块和鲁棒学习模块，训练方法包括：获取训练样本数据集，其中，训练样本数据集包括至少一个训练样本，训练样本包括在第一时间段内生成的针对样本用户的历史样本操作序列和样本标签，样本标签表征样本用户在历史样本操作序列之后的下一个实际操作；将历史样本操作序列输入经验学习模块，输出第一预测结果，并根据第一预测结果和样本标签确定第一损失值；将历史样本操作序列输入鲁棒学习模块，输出第二预测结果，并根据第二预测结果、样本标签、预设的鲁棒半径和与历史样本操作序列对应的经验分布确定第二损失值，其中，经验分布表征历史样本操作序列中每个历史操作出现的频率；根据第一损失值和第二损失值确定总损失值；根据总损失值调整经验学习模块的网络参数以及鲁棒学习模块的网络参数，直至总损失值满足迭代条件；将总损失值满足迭代条件时得到的模型作为序列推荐模型。由于在使用训练样本数据集训练序列推荐模型的同时，在序列推荐模型中增加了鲁棒学习模块，从而增强序列推荐模型对于数据动态变化的适应能力，在实际应用时有助于提高推荐结果的准确性。

该实施例的序列推荐模型包括经验学习模块和鲁棒学习模块。

如图1所示，该实施例的训练方法包括操作S110~操作S160。

在操作S110，获取训练样本数据集，其中，训练样本数据集包括至少一个训练样本，训练样本包括在第一时间段内生成的针对样本用户的历史样本操作序列和样本标签，样本标签表征样本用户在历史样本操作序列之后的下一个实际操作。

在其中一个实施例中，训练样本数据集可以包括训练样本A、训练样本B和训练样本C。训练样本A可以包括在时间段T内生成的针对用户A的历史操作序列A和样本标签A，其中，样本标签A可以是用户A在历史样本操作序列A之后的下一个实际操作。训练样本B可以包括在时间段T内生成的针对用户B的历史操作序列B和样本标签B，其中，样本标签B可以是用户B在历史样本操作序列B之后的下一个实际操作。训练样本C可以包括在时间段T内生成的针对用户C的历史操作序列C和样本标签C，其中，样本标签C可以是用户C在历史样本操作序列C之后的下一个实际操作。

根据本发明的实施例，历史样本操作序列可以是样本用户在应用平台上产生的用户行为序列。其中，用户行为序列可以是用户在应用平台上的点击、分享、评论、浏览、购买等各类行为按照时间顺序排序的有序数据。具体地，例如，历史样本操作序列可以包括用户购买物品的序列、用户浏览物品的序列、用户浏览视频的序列等等。

根据本发明的实施例，例如，在时间段T内针对样本用户A生成的历史样本操作序列包括操作1、操作2、操作3和操作4，而样本用户A在操作4之后进行的操作例如操作5，即为历史样本操作序列之后的下一个实际操作。

在操作S120，将历史样本操作序列输入经验学习模块，输出第一预测结果，并根据第一预测结果和样本标签确定第一损失值。

根据本发明的实施例，经验学习模块可以基于经验风险最小化进行模型训练。经验风险最小化是基于最小化平均训练误差的训练过程。

根据本发明的实施例，上述根据上述第一预测结果和上述样本标签确定第一损失值包括：将上述第一预测结果和上述样本标签输入预设的经验风险最小化损失函数，得到上述第一损失值。

根据本发明的实施例，平方损失函数可以采用如下公式（1）计算。

（1）。

其中，L _MSE表示平方损失函数；表示训练样本（s,v）属于正样本集O ⁺；表示训练样本（s,w）属于负样本集O ^-；y _s,v表示与训练样本（s,v）对应的第一预测结果；y _s,w表示与训练样本（s,w）对应的第一预测结果。

根据本发明的实施例，二分类交叉熵损失函数可以采用如下公式（2）计算。

（2）。

其中，L _BCE表示二分类交叉熵损失函数；表示训练样本（s,v）属于正样本集O ⁺；/>表示训练样本（s,w）属于负样本集O ^-；y _s,v表示与训练样本（s,v）对应的第一预测结果；y _s,w表示与训练样本（s,w）对应的第一预测结果；/>表示sigmoid激活函数。

根据本发明的实施例，BPR（Bayesian Personalized Ranking）损失函数可以采用如下公式（3）计算。

（3）。

其中，L _BPR表示BPR损失函数；表示训练样本（s,v）属于正样本集O ⁺；表示训练样本（s,w）属于负样本集O ^-；y _s,v表示与训练样本（s,v）对应的第一预测结果；y _s,w表示与训练样本（s,w）对应的第一预测结果；/>表示sigmoid激活函数。

在操作S130，将历史样本操作序列输入鲁棒学习模块，输出第二预测结果，并根据第二预测结果、样本标签、预设的鲁棒半径和与历史样本操作序列对应的经验分布确定第二损失值，其中，经验分布表征历史样本操作序列中每个历史操作出现的频率。

根据本发明的实施例，鲁棒学习模块可以包括用于衡量训练样本学习情况的风险函数和用于估计序列推荐模型在实际应用时数据情况的经验分布。

根据本发明的实施例，上述训练样本数据集中包括M个训练样本，其中，M≥2；上述根据上述样本第二预测结果、上述样本标签、预设的鲁棒半径和与上述历史样本操作序列对应的经验分布确定第二损失值包括：针对第i个训练样本，根据与第i个历史样本操作序列对应的第i个第二预测结果和第i个样本标签确定第i个风险值，最终得到M个风险值，i为正整数；根据上述经验分布结合上述鲁棒半径，泛化得到测试分布，其中，上述测试分布包括测试样本数据，上述测试样本数据包括在上述鲁棒半径范围内的所有训练样本；根据上述测试样本数据确定期望值；在上述经验分布和上述测试分布之间的差异性满足预设距离度量的情况下，根据上述M个风险值和上述期望值确定上述第二损失值。

根据本发明的实施例，上述根据与第i历史样本操作序列对应的第i个第二预测结果和第i个样本标签确定第i个风险值包括：利用均方误差确定上述第i个第二预测结果与上述第i个样本标签之间的误差，得到上述第i个风险值。

根据本发明的实施例，可以采用均方误差来衡量第二预测结果与样本标签的误差，从而确定风险值，例如可以采用L2范数作为风险函数的指标，采用如下公式（4）计算风险值。

（4）。

其中，

(s,v)表示历史样本操作序列；

l(s,v)表示历史样本操作序列(s,v)对应的风险值；

y _s,v表示与历史样本操作序列(s,v)对应的第二预测结果；

I(s,v)表示样本标签，其中，(s,v)为正样本时，I(s,v)为1；(s,v)为负样本时，I(s,v)为0。

根据本发明的实施例，根据训练样本数据集可以得到经验分布μ ₀。根据统计学习中的鲁棒优化理论，根据经验分布μ ₀在一定的鲁棒半径ρ内，可以包含动态场景下线上服务时的测试分布μ，要求经验分布与测试分布的不一致性较小。

需要说明的是，在序列推荐的场景下，经验分布应为给定历史序列s时，关于需要推荐的下一个物品v的分布。考虑到真实场景下在序列推荐模型学习阶段无法获得线上服务时的测试分布，因此，本发明采用公式（5）可以从历史训练数据即训练样本数据集中估计经验分布μ ₀。

（5）。

其中，μ(v|s)表示给定历史序列s时，关于需要推荐的下一个物品v的经验分布；p(v)表示历史训练数据中物品v出现的频率。

根据本发明的实施例，上述根据上述M个风险值和上述期望值确定上述第二损失值包括：将上述期望值分别与上述M个风险值相乘，得到损失值候选集；确定上述损失值候选集中满足预设条件的损失值为上述第二损失值。

根据本发明的实施例，第二损失值可以采用如下公式（6）计算。

（6）。

其中，L _r表示第二损失值；

D表示经验分布μ ₀和测试分布μ之间差异性的距离度量；

ρ表示鲁棒半径；

E _(s,v)~μ表示测试分布μ中的测试样本数据的期望值；

y _s,v表示与历史样本操作序列(s,v)对应的第二预测结果；

I(s,v)表示样本标签。

需要说明的是，鲁棒半径ρ可以是预先设置的数值。

根据本发明的实施例，上述预设距离度量采用相对熵表示。

根据本发明的实施例，利用相对熵（KL散度）确定预设距离度量可以采用如下公式（7）计算。

（7）。

其中，表示经验分布μ ₀和测试分布μ之间差异性的距离度量；

μ(x)表示测试分布中的测试样本数据x；

μ ₀(x)表示经验分布中的训练样本x。

根据本发明的实施例，经过理论推导，可以将公式（6）简化为如下公式（8）。

（8）。

其中，β表示拉格朗日系数，β和鲁棒半径之间存在负相关关系；

表示经验分布μ ₀中的训练样本的期望值；

l(s,v)表示历史样本(s,v)对应的风险值。

在操作S140，根据第一损失值和第二损失值确定总损失值。

根据本发明的实施例，上述根据上述第一损失值和上述第二损失值确定总损失值包括：将上述第二损失值与预设权重值相乘后，与上述第一损失值相加，得到上述总损失值。

根据本发明的实施例，可以采用如下公式（9）确定总损失值L。

（9）。

其中，L _ERM代表经验风险最小化损失函数如上述的L _MSE，L _BCE，L _BPR，α为预设权重。

在操作S150，根据总损失值调整经验学习模块的网络参数以及鲁棒学习模块的网络参数，直至总损失值满足迭代条件。

根据本发明的实施例，迭代条件可以包括总损失值达到最小或收敛。

在操作S160，将总损失值满足迭代条件时得到的模型作为序列推荐模型。

根据本发明的实施例，该实施例的序列模型包括经验学习模块和鲁棒学习模块。

如图2所示，该实施例的训练方法包括操作S201~操作S211。

在操作S201，获取训练样本数据集；其中，训练样本数据集包括至少一个训练样本，训练样本包括在第一时间段内生成的针对样本用户的历史样本操作序列和样本标签，样本标签表征样本用户在历史样本操作序列之后的下一个实际操作。

在操作S202，将历史样本操作序列输入经验学习模块，输出第一预测结果。

在操作S203，将第一预测结果和样本标签输入预设的经验风险最小化损失函数，得到第一损失值。

在操作S204，将历史样本操作序列输入鲁棒学习模块，输出第二预测结果。

在操作S205，针对训练样本数据集中的每个训练样本，利用均方误差确定第二预测结果与样本标签之间的误差，得到与该训练样本对应的风险值，最终得到至少一个风险值。

在操作S206，根据经验分布结合鲁棒半径，泛化得到测试分布，其中，测试分布包括测试样本数据，测试样本数据包括在鲁棒半径范围内的所有训练样本。

在操作S207，根据测试样本数据确定期望值，将期望值分别与至少一个风险值相乘，得到损失值候选集。

在操作S208，确定损失值候选集中数值最大的损失值，得到第二损失值。

在操作S209，将第二损失值与预设权重值相乘后，与第一损失值相加，得到总损失值。

在操作S210，根据总损失值调整经验学习模块的网络参数以及鲁棒学习模块的网络参数，直至总损失值收敛。

在操作S211，将总损失值收敛时得到的模型作为序列推荐模型。

根据本发明的实施例，通过在使用训练样本数据集训练序列推荐模型的同时，在序列推荐模型中增加了鲁棒学习模块，通过优化鲁棒半径内风险最大的数据，从而增强序列推荐模型对于数据动态变化的适应能力，使序列推荐模型不盲目拟合历史数据，在上线服务时取得更好的性能，提高序列推荐模型的推荐结果的准确性。

根据本发明的实施例，采用多任务学习的思路，综合考虑经验风险最小化和鲁棒学习模块，可以保证在不损失原有推荐准确性的前提下，通过鲁棒学习增强模型对于未来动态数据分布的适应能力，以便于推荐系统能够精准推荐。

根据本发明的实施例，以序列推荐模型GRU4Rec和SASRec为基础模型，以MSE（MeanSquared Error），BCE（Binary Cross Entropy），BPR（Bayesian Personalized Ranking）为基础经验误差学习框架，利用两个不同类型的数据集YooChoose，KuaiRec分别对MSE，BCE，BPR和RO4SRec（本发明提供的序列推荐模型）进行模型训练。需要说明的是，在数据预处理上，按照时间顺序将数据集按照8：1：1的比例划分为训练集，验证集和测试集。利用训练集训练模型，利用验证集挑选模型参数，利用测试集验证效果，并以HitRatio及NDCG（Normalized Discounted cumulative gain）作为度量指标，结果如表1所示。

表1

从表1中，可以发现：在两种不同类型的数据集Yoochoose和KuaiRec上，本发明提供的RO4SRec在指标HitRatio和NDCG上都超越基础推荐模型和传统基于经验误差的学习框架，由此可以说明本发明提供的序列推荐模型的训练方法可以增强模型对于数据分布变化的适应能力，进而可以在真实动态变化的推荐场景下取得更好的推荐效果。

图3示出了根据本发明实施例的对象推荐方法的流程图。

如图3所示，该实施例的对象推荐方法包括操作S310~操作S320。

在操作S310，获取目标用户在预设时间段内生成的历史目标操作序列，其中，历史目标操作序列包括针对待推荐对象进行的操作信息。

根据本发明的实施例，待推荐对象可以是短视频、物品、商品等。

在操作S320，将历史目标操作序列输入至由上述训练方法训练得到的序列推荐模型中，输出与目标用户对应的推荐对象。

根据本发明的实施例，通过在历史数据分布的基础上，优化一定鲁棒半径内风险最大的数据，从而增强推荐模型对于数据动态变化的适应能力，在真实线上推荐时能够泛化到当下的热点与用户兴趣分布，取得更优的推荐结果。从而避免了由于实时热点的更新和用户兴趣的变化，导致的序列推荐模型过拟合到历史数据，难以泛化到实时推荐场景的情况。

基于上述序列推荐模型的训练方法，本发明还提供了一种序列推荐模型的训练装置。以下将结合图4对该装置进行详细描述。

如图4所示，该实施例的序列推荐模型的训练装置400包括第一获取模块410、第一确定模块420、第二确定模块430、第三确定模块440、调整模块450和第四确定模块460。

第一获取模块410，用于获取训练样本数据集，其中，上述训练样本数据集包括至少一个训练样本，上述训练样本包括在第一时间段内生成的针对样本用户的历史样本操作序列和样本标签，上述样本标签表征上述样本用户在上述历史样本操作序列之后的下一个实际操作。在一实施例中，第一获取模块410可以用于执行前文描述的操作S110，在此不再赘述。

第一确定模块420，用于将上述历史样本操作序列输入上述经验学习模块，输出第一预测结果，并根据上述第一预测结果和上述样本标签确定第一损失值。在一实施例中，第一确定模块420可以用于执行前文描述的操作S120，在此不再赘述。

第二确定模块430，用于将上述历史样本操作序列输入上述鲁棒学习模块，输出第二预测结果，并根据上述第二预测结果、上述样本标签、预设的鲁棒半径和与上述历史样本操作序列对应的经验分布确定第二损失值，其中，上述经验分布表征上述历史样本操作序列中每个历史操作出现的频率。在一实施例中，第二确定模块430可以用于执行前文描述的操作S130，在此不再赘述。

第三确定模块440，用于根据上述第一损失值和上述第二损失值确定总损失值。在一实施例中，第三确定模块440可以用于执行前文描述的操作S140，在此不再赘述。

调整模块450，用于根据上述总损失值调整上述经验学习模块的网络参数以及上述鲁棒学习模块的网络参数，直至上述总损失值满足迭代条件。在一实施例中，调整模块450可以用于执行前文描述的操作S150，在此不再赘述。

第四确定模块460，用于将上述总损失值满足上述迭代条件时得到的模型作为序列推荐模型。在一实施例中，第四确定模块460可以用于执行前文描述的操作S160，在此不再赘述。

根据本发明的实施例的模块中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本发明实施例的模块中的任意一个或多个可以被拆分成多个模块来实现。根据本发明实施例的模块中的任意一个或多个可以至少被部分地实现为硬件电路，例如现场可编程门阵列（FPGA）、可编程逻辑阵列（PLA）、片上系统、基板上的系统、封装上的系统、专用集成电路（ASIC），或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，根据本发明实施例的模块中的一个或多个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

根据本发明的实施例，第一获取模块410、第一确定模块420、第二确定模块430、第三确定模块440、调整模块450和第四确定模块460中的任意多个模块可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。根据本发明的实施例，第一获取模块410、第一确定模块420、第二确定模块430、第三确定模块440、调整模块450和第四确定模块460中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列（FPGA）、可编程逻辑阵列（PLA）、片上系统、基板上的系统、封装上的系统、专用集成电路（ASIC），或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，第一获取模块410、第一确定模块420、第二确定模块430、第三确定模块440、调整模块450和第四确定模块460中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

需要说明的是，本发明的实施例中序列推荐模型的训练装置部分与本发明的实施例中序列推荐模型的训练方法部分是相对应的，序列推荐模型的训练装置部分的描述具体参考序列推荐模型的训练方法部分，在此不再赘述。

基于上述对象推荐方法，本发明还提供了一种对象推荐装置。以下将结合图5对该装置进行详细描述。

图5示出了根据本发明实施例的对象推荐装置的结构框图。

如图5所示，该实施例的对象推荐装置500包括第二获取模块510和输入输出模块520。

第二获取模块510，用于获取目标用户在预设时间段内生成的历史目标操作序列，其中，上述历史目标操作序列包括针对待推荐对象进行的操作信息。在一实施例中，第二获取模块510，可以用于执行前文描述的操作S310，在此不再赘述。

输入输出模块520，用于将上述历史目标操作序列输入至由上述的训练方法训练得到的序列推荐模型中，输出与上述目标用户对应的推荐对象。输入输出模块520，可以用于执行前文描述的操作S320，在此不再赘述。

根据本发明的实施例，第二获取模块510和输入输出模块520中的任意多个模块可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。根据本发明的实施例，第二获取模块510和输入输出模块520中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列（FPGA）、可编程逻辑阵列（PLA）、片上系统、基板上的系统、封装上的系统、专用集成电路（ASIC），或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，第二获取模块510和输入输出模块520中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

需要说明的是，本发明的实施例中对象推荐装置部分与本发明的实施例中对象推荐方法部分是相对应的，对象推荐装置部分的描述具体参考对象推荐方法部分，在此不再赘述。

如图6所示，根据本发明实施例的电子设备600包括处理器601，其可以根据存储在只读存储器（ROM）602中的程序或者从存储部分608加载到随机访问存储器（RAM）603中的程序而执行各种适当的动作和处理。处理器601例如可以包括通用微处理器（例如CPU）、指令集处理器和/或相关芯片组和/或专用微处理器（例如，专用集成电路（ASIC））等等。处理器601还可以包括用于缓存用途的板载存储器。处理器601可以包括用于执行根据本发明实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在RAM 603中，存储有电子设备600操作所需的各种程序和数据。处理器 601、ROM602以及RAM 603通过总线604彼此相连。处理器601通过执行ROM 602和/或RAM 603中的程序来执行根据本发明实施例的方法流程的各种操作。需要注意，所述程序也可以存储在除ROM 602和RAM 603以外的一个或多个存储器中。处理器601也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本发明实施例的方法流程的各种操作。

根据本发明的实施例，电子设备600还可以包括输入/输出（I/O）接口605，输入/输出（I/O）接口605也连接至总线604。电子设备600还可以包括连接至输入/输出（I/O）接口605的以下部件中的一项或多项：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管（CRT）、液晶显示器（LCD）等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至输入/输出（I/O）接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

本发明还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本发明实施例的方法。

根据本发明的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、便携式紧凑磁盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如，根据本发明的实施例，计算机可读存储介质可以包括上文描述的ROM 602和/或RAM 603和/或ROM 602和RAM 603以外的一个或多个存储器。

本发明的实施例还包括一种计算机程序产品，其包括计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。当计算机程序产品在计算机系统中运行时，该程序代码用于使计算机系统实现本发明实施例的方法。

在该计算机程序被处理器601执行时执行本发明实施例的系统/装置中限定的上述功能。根据本发明的实施例，上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。

在一种实施例中，该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中，该计算机程序也可以在网络介质上以信号的形式进行传输、分发，并通过通信部分609被下载和安装，和/或从可拆卸介质611被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。在该计算机程序被处理器601执行时，执行本发明实施例的系统中限定的上述功能。根据本发明的实施例，上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。

根据本发明的实施例，可以以一种或多种程序设计语言的任意组合来编写用于执行本发明实施例提供的计算机程序的程序代码，具体地，可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如Java，C++，python，“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网（LAN）或广域网（WAN），连接到用户计算设备，或者，可以连接到外部计算设备（例如利用因特网服务提供商来通过因特网连接）。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解，本发明的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合，即使这样的组合或结合没有明确记载于本发明中。特别地，在不脱离本发明精神和教导的情况下，本发明的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本发明的范围。

Claims

1.一种序列推荐模型的训练方法，其特征在于，所述序列推荐模型用于基于用户的购买或浏览行为序列，对用户的下一次操作进行预测和推荐，所述序列推荐模型包括经验学习模块和鲁棒学习模块，所述经验学习模块基于经验风险最小化训练得到，用于衡量经验风险情况；鲁棒学习模块用于衡量训练样本学习情况的风险函数和用于估计序列推荐模型在实际应用时数据情况的经验分布，所述训练方法包括：

获取训练样本数据集，其中，所述训练样本数据集包括至少一个训练样本，所述训练样本包括在第一时间段内生成的针对样本用户的历史样本操作序列和样本标签，所述样本标签表征所述样本用户在所述历史样本操作序列之后的下一个实际操作；

将所述历史样本操作序列输入所述经验学习模块，输出第一预测结果，并根据所述第一预测结果和所述样本标签确定第一损失值；

将所述历史样本操作序列输入所述鲁棒学习模块，输出第二预测结果，并根据所述第二预测结果、所述样本标签、预设的鲁棒半径和与所述历史样本操作序列对应的经验分布确定第二损失值，其中，所述经验分布表征所述历史样本操作序列中每个历史操作出现的频率；

根据所述第一损失值和所述第二损失值确定总损失值；

根据所述总损失值调整所述经验学习模块的网络参数以及所述鲁棒学习模块的网络参数，直至所述总损失值满足迭代条件；

将所述总损失值满足所述迭代条件时得到的模型作为序列推荐模型；

所述根据所述第一预测结果和所述样本标签确定第一损失值包括：

将所述第一预测结果和所述样本标签输入预设的经验风险最小化损失函数，得到所述第一损失值；

所述训练样本数据集中包括M个训练样本，其中，M≥2；

所述根据所述样本第二预测结果、所述样本标签、预设的鲁棒半径和与所述历史样本操作序列对应的经验分布确定第二损失值包括：

根据所述经验分布结合所述鲁棒半径，泛化得到测试分布，其中，所述测试分布包括测试样本数据，所述测试样本数据包括在所述鲁棒半径范围内的所有训练样本；

根据所述测试样本数据确定期望值；

在所述经验分布和所述测试分布之间的差异性满足预设距离度量的情况下，根据所述M个风险值和所述期望值确定所述第二损失值。

2.根据权利要求1所述的训练方法，其特征在于，所述根据与第i历史样本操作序列对应的第i个第二预测结果和第i个样本标签确定第i个风险值包括：

利用均方误差确定所述第i个第二预测结果与所述第i个样本标签之间的误差，得到所述第i个风险值。

3.根据权利要求1所述的训练方法，其特征在于，所述根据所述M个风险值和所述期望值确定所述第二损失值包括：

将所述期望值分别与所述M个风险值相乘，得到损失值候选集；

确定所述损失值候选集中满足预设条件的损失值为所述第二损失值。

4.根据权利要求3所述的训练方法，其特征在于，所述预设条件包括：所述损失值候选集中数值最大的损失值。

5.根据权利要求1~4任一项所述的训练方法，其特征在于，所述预设距离度量采用相对熵表示。

6.根据权利要求1所述的训练方法，其特征在于，所述经验风险最小化损失函数包括以下至少之一：平方损失函数、二分类交叉熵损失函数、BPR损失函数。

7.根据权利要求1所述的训练方法，其特征在于，所述根据所述第一损失值和所述第二损失值确定总损失值包括：

将所述第二损失值与预设权重值相乘后，与所述第一损失值相加，得到所述总损失值。

8.一种对象推荐方法，其特征在于，包括：

获取目标用户在预设时间段内生成的历史目标操作序列，其中，所述历史目标操作序列包括针对待推荐对象进行的操作信息；以及

将所述历史目标操作序列输入至由权利要求1~7中任一项所述的训练方法训练得到的序列推荐模型中，输出与所述目标用户对应的推荐对象。