CN116362823A

CN116362823A - 用于行为稀疏场景的推荐模型训练方法、推荐方法及装置

Info

Publication number: CN116362823A
Application number: CN202310139918.3A
Authority: CN
Inventors: 王芳; 姜佳
Original assignee: Beijing Longzhi Digital Technology Service Co Ltd
Current assignee: Beijing Longzhi Digital Technology Service Co Ltd
Priority date: 2023-02-08
Filing date: 2023-02-08
Publication date: 2023-06-30

Abstract

本公开涉及计算机技术领域，提供了用于行为稀疏场景的推荐模型训练方法、推荐方法及装置。该训练方法包括：确定目标推荐商品；采集用户使用线上推荐应用时产生的与目标推荐商品关联的用户行为数据集；按照预设的数据集划分策略，将用户行为数据集划分为训练数据集、验证数据集和测试数据集；对训练数据集中的训练样本数据进行样本筛选和特征工程处理，得到目标训练数据集；使用目标训练数据集对初始推荐模型进行训练，直至达到预设的迭代停止条件，获得目标推荐模型。本公开可有效解决模型在训练阶段容易发生过拟合及模型衰减速度快的问题，同时获得的目标推荐模型的在用户线上行为稀疏的场景下推荐效果较好，且对算力要求较低，模型简单。

Description

用于行为稀疏场景的推荐模型训练方法、推荐方法及装置

技术领域

本公开涉及计算机技术领域，尤其涉及用于行为稀疏场景的推荐模型训练方法、推荐方法及装置。

背景技术

在当前线上购房、租房的渗透率逐渐升高的背景下，关于购房/租房的推广应用(Application，简称“APP”)也越来越多。对于一款新上线的推广APP而言，新用户的占比较高，需要制定有效的冷启动策略；其次，在一些用户线上行为稀疏的场景下，由于用户线上行为稀疏，样本量不足，推荐效果往往难以达到预期。

为解决上述技术问题，现有的技术方案中的推荐算法模型大多都依赖于用户画像和商品属性，这对于存在大量离散特征的数据集有较好的表现。但是，由于人们对于隐私的保护意识越来越强，用户画像的获取越来越困难，这使得目前的推荐算法模型的推荐效果难以达到预期。此外，在用户线上行为稀疏的场景下，商品属性随时间的变化较大，而现有的推荐算法模型大多对计算能力的要求较高，模型复杂，这就导致了模型的训练阶段容易发生过拟合，且若训练集与线上数据集的时间差别大，模型的准确率衰减速度快。

可见，针对用户线上行为稀疏的场景，现有的推荐算法模型的推荐效果难达预期，且对算力要求较高，模型复杂，模型容易在训练阶段发生过拟合，同时模型的准确率衰减速度快。

发明内容

有鉴于此，本公开实施例提供了用于线上行为稀疏场景下的推荐模型训练方法和推荐方法，以解决针对用户线上行为稀疏的场景，现有的推荐算法模型的推荐效果难达预期，且对算力要求较高，模型复杂，模型容易在训练阶段发生过拟合，同时模型的准确率衰减速度快的问题。

本公开实施例的第一方面，提供了一种用于行为稀疏场景的推荐模型训练方法，包括：

确定目标推荐商品；

通过线上推荐应用向用户推荐目标推荐商品，并采集用户使用线上推荐应用时产生的与目标推荐商品关联的用户行为数据集；

按照预设的数据集划分策略，将用户行为数据集划分为训练数据集、验证数据集和测试数据集；

对训练数据集中的训练样本数据进行样本筛选和特征工程处理，得到目标训练数据集；

使用目标训练数据集对初始推荐模型进行训练，直至达到预设的迭代停止条件，获得目标推荐模型。

本公开实施例的第二方面，提供了一种用于行为稀疏场景的推荐方法，包括：

获取用户历史行为数据；

将用户历史行为数据输入目标推荐模型中，输出商品推荐结果，商品推荐结果包括推荐商品及其对应的用户意愿强度评分，目标推荐模型是由第一方面的推荐模型训练方法训练得到的。

本公开实施例的第三方面，提供了一种用于行为稀疏场景的推荐模型训练装置，包括：

确定模块，被配置为确定目标推荐商品；

采集模块，被配置为通过线上推荐应用向用户推荐目标推荐商品，并采集用户使用线上推荐应用时产生的与目标推荐商品关联的用户行为数据集；

划分模块，被配置为按照预设的数据集划分策略，将用户行为数据集划分为训练数据集、验证数据集和测试数据集；

处理模块，被配置为对训练数据集中的训练样本数据进行样本筛选和特征工程处理，得到目标训练数据集；

训练模块，被配置为使用目标训练数据集对初始推荐模型进行训练，直至达到预设的迭代停止条件，获得目标推荐模型。

本公开实施例的第四方面，提供了一种用于行为稀疏场景的推荐装置，包括：

获取模块，被配置为获取用户历史行为数据；

推荐模块，被配置为将用户历史行为数据输入目标推荐模型中，输出商品推荐结果，商品推荐结果包括推荐商品及其对应的用户意愿强度评分，目标推荐模型是由第一方面的推荐模型训练方法训练得到的。

本公开实施例的第五方面，提供了一种电子设备，包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序，该处理器执行计算机程序时实现上述第一方面的方法的步骤，或者实现上述第二方面的方法的步骤。

本公开实施例的第六方面，提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述第一方面的方法的步骤，或者实现上述第二方面的方法的步骤。

本公开实施例与现有技术相比，其有益效果至少包括：通过确定目标推荐商品；通过线上推荐应用向用户推荐目标推荐商品，并采集用户使用线上推荐应用时产生的与目标推荐商品关联的用户行为数据集；按照预设的数据集划分策略，将用户行为数据集划分为训练数据集、验证数据集和测试数据集；对训练数据集中的训练样本数据进行样本筛选和特征工程处理，得到目标训练数据集；使用目标训练数据集对初始推荐模型进行训练，直至达到预设的迭代停止条件，获得目标推荐模型。通过上述方式可有效解决模型在训练阶段容易发生过拟合及模型衰减速度快的问题，同时获得的目标推荐模型的在用户线上行为稀疏的场景下推荐效果较好，且对算力要求较低，模型简单。

附图说明

为了更清楚地说明本公开实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本公开实施例提供的一种用于行为稀疏场景的推荐模型训练方法的流程示意图；

图2(a)是本公开实施例提供的用于行为稀疏场景的推荐模型训练方法中的有效商品序列的示意图；

图2(b)是基于图2(a)的有效商品序列构建的有向商品图网络的示意图；

图2(c)是基于图2(b)的有向商品图网络生成的部分随机游走序列的示意图；

图2(d)是本公开实施例提供的用于行为稀疏场景的推荐模型训练方法中的一种Skip-Gram模型的示意图；

图3是本公开实施例提供的用于行为稀疏场景的推荐模型训练方法中的采集时间段划分方式的示意图；

图4是本公开实施例提供的一种用于行为稀疏场景的推荐方法的流程示意图；

图5是本公开实施例提供的一种用于行为稀疏场景的推荐模型训练装置的结构示意图；

图6是本公开实施例提供的一种用于行为稀疏场景的推荐装置的结构示意图；

图7是本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本公开实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本公开。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本公开的描述。

对于一款新的推荐APP，通常新用户的占比较高，需要制定有效的冷启动策略，且针对用户线上行为稀疏的场景，由于用户线上行为稀疏，样本量不足，推荐效果往往难达预期，再者，由于该业务场景的特殊性，用户在不同场景的行为特征如何交叉使用，使用户行为数据收益最大化，也是需要去解决的关键问题。

针对上述业务场景的业务要求，相关现有技术，首先是对用户特征进行清理和转换，之后采用主流的CTR模型(Click-Through-Rate，点击率预估)，例如Wide&Deep、FNN、DIN算法建立推荐算法模型。这些推荐算法模型大多都依赖于用户画像和商品属性。针对用户线上行为稀疏的场景，现有的推荐算法模型的推荐效果难达预期，且对算力要求较高，模型复杂，模型容易在训练阶段发生过拟合，同时模型的准确率衰减速度快。

为了解决上述技术问题，本公开提供了的用于线上行为稀疏场景下的推荐模型训练方法，通过先确定目标推荐商品，然后再采集与该目标推荐商品关联的用户行为数据集，之后，再按照预设的数据集划分策略对该用户行为数据集进行划分；并对训练数据集中的训练样本数据进行样本筛选和特征工程处理，可以将训练数据集中随时间分布变化大、不适用于线上情形的特征数据过滤掉，从而可有效地降低模型的衰减速度。本公开的目标推荐模型的整体算力要求小，且模型较简单，不容易在训练阶段发生过拟合，可应用于用户线上行为稀疏的工业界推荐场景，推荐效果较好。

图1是本公开实施例提供的一种用于行为稀疏场景的推荐模型训练方法的流程示意图。如图1所示，该用于行为稀疏场景的推荐模型训练方法包括：

步骤S101，确定目标推荐商品。

针对产品还在推广阶段，一款新的推广APP在新场景下有很多新用户，需要有效的冷启动策略。例如，在购房/租房推荐场景下，为了提升线上APP的用户体验，提升用户浏览时长和用户留存，希望推荐算法模型可以提供更优质的推荐服务，帮助用户快速定位意向房源，了解当前APP内的房源生态，为用户提供良好的房源浏览体验，这就需要有效的冷启动策略。在该购房/租房推荐场景下，可以获取到较为丰富的房源信息(包括房源基础信息(如房源位置、户型、二手房/租房等)和价格信息等)和房源维度的统计信息(包括诸如房源数量、租/售情况等统计信息)。本公开在训练推荐模型之前，基于这些房源信息来训练召回模型，并通过该召回模型来确定目标推荐商品，然后将这些目标推荐商品推荐给新用户，在该场景下可获得较好的推荐效果。在此示例中，目标推荐商品是指最有可能发生转化行为(如点击)的房源。

其中，召回模型整体可包括基于随机游走的图模型i2i召回算法和基于GBDT(Gradient Boosting Decision Tree，梯度提升决策树)的排序算法。

在一些实施例中，目标推荐商品的确定具体包括如下步骤：

获取多条有效商品序列，每一条有效商品序列包括曝光未转化商品和曝光已转化商品；

根据多条有效商品序列，构建有向商品图网络；

在有向商品图网络上进行随机游走，生成多个随机游走序列；

基于多个随机游走序列，生成多个商品向量；

从多个商品向量中选定一个目标商品向量，计算目标商品向量与其他商品向量之间的相似度，其他商品向量为多个商品向量中除了目标商品向量之外的商品向量；

根据目标商品向量，以及与目标商品向量的相似度达到预设相似阈值的其他商品向量，确定目标推荐商品。

结合图2，首先，可由线上推荐APP给用户的一次商品推荐中，获取给用户曝光过和用户点击过的商品形成的商品序列。针对用户线上行为稀疏的场景，本公开采用基于用户发生转化(如点击)的商品为断点，将在用户发生转化之前曝光未转化商品(曝光未点击商品)和曝光已转化商品(给用户曝光过且用点击过的商品)构成一条有效商品序列。

示例性的，如图2(a)所示，对于用户U1，线上推荐APP在给用户U1的一次商品推荐中，给用户U1曝光了D→A→B三个商品，而用户U1在使用该线上推荐APP的过程中点击了B商品，未点击D商品和A商品，那么由用户U1的线上行为可以获得一条有效商品序列D→A→B。对于用户U2，线上推荐APP在给用户U2的一次商品推荐中，用户U2发生了两次点击行为，一次是点击E商品(未点击曝光在E商品之前的B商品)，一次是点击F商品(未点击曝光在F商品之前的D和E商品)，那么以用户U2点击的商品E、F为断点，可以得到B→E、D→E→F共两条有效商品序列。类似的，可以根据用户U3的线上行为获得E→C→B、B→A两条有效商品序列。

接着，根据获取到的多条有效商品序列构建如2(b)所示的有向商品图网络。之后，在如2(b)所示的有向商品图网络上进行随机游走，生成如图2(c)所示的多个随机游走序列：A→B→E→F、B→E→C→B→A、C→B→A→B→E、D→A→B→E→C、E→C→B→A、A→B→E→C→B......。然后，再将生成的多个随机游走序列输入Skip-Gram神经网络模型(如图2(d)所示)中，生成多个商品向量。假设生成的随机游走序列有250个，那么可以按照序列生成的顺序依次编号1～250，编号1对应的随机游走序列为A→B→E→F，编号2对应的随机游走序列为B→E→C→B→A，依次类推。通过将图2(c)生成的随机游走序列输入Skip-Gram神经网络模型中，可以将编号1～250的随机游走序列分别转换为相应的商品向量。经过Skip-Gram神经网络模型处理后，可将A→B→E→F转换为商品向量01，将随机游走序列B→E→C→B→A转换为商品向量02，......依次类推，可将编号为250的随机游走序列转换为商品向量250。然后，从上述250个商品向量中选定一个作为目标商品向量，假设选定的目标商品向量是商品向量01，那么计算该商品向量01与这商品向量02～249之间的相似度。相似度的计算可以采用cosine距离、欧式距离、切比雪夫距离等距离公式来计算。最后，按照相似度从大到小进行排序，获得与商品向量01的相似度的排序结果。预设相似阈值可以是根据所需要的与商品向量01最为相似的商品向量的数量来确定。例如，需要获取到与商品向量01最为相似的前200个商品向量，而与商品向量01最为相似的第200个商品向量，它们之间的相似度为x％，那么可以将预设相似阈值设置为x％。预设相似阈值可以根据实际需求来灵活设定，在本公开不做具体限定。

在实际应用中，可将经上述方式获取到的目标商品向量01及与目标商品向量01的相似度达到预设相似阈值的其他商品向量的相似度排序结果存储到实时数据库中，以备线上使用。

在使用线上推荐APP向新用户推荐商品的阶段，可以从实时数据库中调取出目标商品向量以及与目标商品向量的相似度达到预设相似阈值的其他商品向量对应的商品作为目标推荐商品，并推荐给新用户。

例如，在每次推荐中，可以从目标商品向量以及与目标商品向量的相似度达到第一预设阈值的其他商品向量对应的商品中选取出其中的一组推荐给新用户。例如，可将目标商品向量01对应的商品A、B、E、F作为目标推荐商品推荐给新用户，也可以将目标商品向量06对应的商品A、B、E、C、B作为目标推荐商品推荐给新用户。

在用户线上行为稀疏的场景下，采用上述方式确定目标推荐商品，可以提高后续目标推荐模型的训练效果，从而获得较好的推荐效果。

步骤S102，通过线上推荐应用向用户推荐目标推荐商品，并采集用户使用线上推荐应用时产生的与目标推荐商品关联的用户行为数据集。

在一示例实施例中，若目标推荐商品是A、B、E、F四个房源，则可以通过线上推荐应用(APP)向用户推荐A、B、E、F这四个房源及其相关的信息。之后，通过线上采集用户使用线上推荐应用时所产生的与A、B、E、F这四个房源关联的用户行为数据集。

通常对于房源这类商品，用户的意向考虑时间周期较长，所以可以采集最近90天使用过(活跃过)该线上推荐应用的用户行为数据，并对这90天内的用户行为数据进行聚合，得到用户行为数据集。

作为一示例，用户行为数据集可汇总成如下表1所示的样式。

表1

用户行为数据集包括多条用户行为数据，每一条用户行为数据主要包括商品特征数据、用户特征数据、用户商品特征数据和转化特征数据。其中，商品特征数据主要包括商品基础信息(如房源基础信息，包括房源位置等)、商品价格信息、商品维度统计信息(如房源数量、房源租/售情况等统计信息)。用户特征数据主要包括用户使用线上推荐应用时的访问统计数据和访问时长统计数据。用户商品特征数据主要包括用户针对具体的商品(如房源等)的页面统计数据、行为统计数据(包括诸如页面点击操作等)和时长统计数据(包括诸如页面访问时长、页面浏览时长等)。转化特征数据是指用户是否点击商品的行为，如用户点击了商品的行为可记录为1，未点击商品的行为可记录为0。

其中，表1中的项目特征是指商品特征数据，用户特征是指用户特征数据，用户项目特征是指用户商品特征数据。

步骤S103，按照预设的数据集划分策略，将用户行为数据集划分为训练数据集、验证数据集和测试数据集。

在用户线上行为稀疏的场景下，一般用户行为数据集会随时间变化发生较大的数据分布变化，因此，常规的随机划分数据集的方式不适用于该类场景。本公开提出了一种新的数据集划分策略，以将用户行为数据集划分为训练数据集、验证数据集和测试数据集。

在一些实施例中，上述步骤S103，具体可包括：

获取用户行为数据集的采集时间段；

将采集时间段划分为第一采集时间区间、第二采集时间区间和第三采集时间区间，其中，第一采集时间区间的第一时间跨度是从采集时间段的最早采集时间点到第一中间采集时间点，第二采集时间区间的第二时间跨度是从所示第一中间采集时间点到第二中间采集时间点，第三采集时间区间的第三时间跨度是从第二中间采集时间点待采集时间段的最晚采集时间点，第一时间跨度大于第二时间跨度和第三时间跨度；

将第一采集时间区间对应的用户行为数据划分为训练数据集，将第二采集时间区间对应的用户行为数据划分为验证数据集，将第三采集时间区间对应的用户行为数据划分为测试数据集。

首先，可获取用户行为数据集的采集时间段，那么可以按照预设的时间划分策略，将采集时间段划分为第一采集时间区间、第二采集时间区间和第三采集时间区间。

其中，预设的时间划分策略可以是根据的采集时间段的时间跨度，先划分为多个采集时间点，然后，按照从最后采集时间点→最先采集时间点的时间顺序，按照预设的时间间隔，将采集时间段划分为三份。

结合图3，在时间轴t上，T_F、T_M1、T_M2、T_L分别代表最早采集时间点、第一中间采集时间点、第二中间采集时间点、最晚采集时间点。第一采集时间区间的第一时间跨度为[T_F,T_M1]，第二采集时间区间的第二时间跨度为(T_M1,T_M2]，第三采集时间区间的第三时间跨度为(T_M2,T_L]。将在[T_F,T_M1]时间区间内采集到的用户行为数据划分为训练数据集，将在(T_M1,T_M2]时间区间内采集到的用户行为数据划分为验证数据集，将在(T_M2,T_L]时间区间内采集到的用户行为数据划分为测试数据集。

假设获取到的用户行为数据集的采集时间段为202X-03-01至202X-03-30，那么可以天为单位，将上述采集时间段202X-03-01至202X-03-30划分为30个采集时间点，并分别记为T1～T30，一个采集时间点对应为一天。若是预设的时间划分策略为第一采集时间区间的第一时间跨度为26天，第二采集时间区间的第二时间跨度为3天，第三采集时间区间的第三时间跨度为3天，则可将[T1,T25]时间区间内采集到的用户行为数据划分为训练数据集，将(T25-T27]时间区间内采集到的用户行为数据划分为验证数据集，将(T27-T30]时间区间内采集到的用户行为数据划分为测试数据集。

步骤S104，对训练数据集中的训练样本数据进行样本筛选和特征工程处理，得到目标训练数据集。

具体的，可先过滤训练数据集中的无效负样本数据，保留其中的有效负样本和正样本，得到过滤训练数据集；然后，对过滤训练数据集中的样本数据进行特征工程处理，得到目标训练数据集。其中，过滤训练数据集包括多条样本数据，每一条样本数据包括商品特征数据、用户特征数据、用户商品特征数据和转化特征数据，用户商品特征数据包括多个特征项。

作为一示例，假设某款线上推荐APP默认用户进入场景后就会有Q个曝光样本(即曝光商品，该商品可以是房源等)，若是用户没有查看推荐商品的意向，即未点击任何一个曝光样本，则这Q个曝光样本均为无效负样本数据。若是用户点击了这Q个曝光样本中的W个，那么被点击的W个曝光样本为正样本，剩下的Q-W个曝光样本均为有效负样本，其中，Q、W均为正整数，且Q＞W。示例性的，假设用户进入场景后有3个曝光房源，分别记为甲、乙、丙，若是某用户在进入场景后没有点击甲、乙、丙任何一个房源，则甲、乙、丙这三个房源均为无效负样本数据(为噪声负样本)；若某用户在进入场景后点击了甲，未点击乙、丙，那么甲为正样本，乙、丙均为有效负样本。按照上述方式，可先将训练数据集中的无效负样本数据过滤掉，仅保留其中的有效负样本和正样本，从而减少后续做特征工程的处理数据量，有利于提升数据处理的效率，同时有利于提升后续训练得到的目标推荐模型的质量。

在一应用示例中，按照上述方式，经负采样后，整个训练数据集的正负样本比例约为1:102。

由于有些页面的访问量和行为的触发量很少，所以过滤训练数据集的样本数据中会存在大量包含信息量非常小的特征数据，且这类特征数据会引入不必要的复杂性，容易影响模型训练的效果和质量。

为了解决上述问题，本公开进一步通过进对过滤训练数据集中的样本数据进行特征工程处理。具体的，可先统计过滤训练数据集中的所有样本数据的用户商品特征数据中的各个特征项的特征值；然后，剔除述用户商品特征数据中特征值为零的占比大于预设比例阈值的特征项，得到中间训练数据集；之后，再针对中间训练数据集中的商品特征数据增加第一比例特征数据，针对用户特征数据增加第二比例特征数据，得到目标训练数据集。

用户商品特征数据，包括多个特征项，这些特征项主要包括页面统计数据(包括页面访问次数、页面流向分布等)、行为统计数据(包括点击、购买、加购、收藏等行为)、时长统计数据(包括页面浏览时长、访问时长等)。为便于统计分析，可以将多个特征项记录为特征项1...K。

针对每个特征项，可以统计该特征项找那个特征值为零的样本数量，再计算该特征项中特征值为零的样本数量占总样本数量的比例(占比)，然后比对该占比与预设比例阈值(也可称为重复率，duplicate_rate)的大小。若该占比大于预设比例阈值，那么将过滤训练数据集中的样本数据中的该特征项整列删除。

作为一示例，预设比例阈值的取值范围可为[99％,99.9％]，假设预设比例阈值为99％，若过滤训练数据集中的用户商品特征数据中的特征项K(如用户是否点击房源甲的行为)中特征值为零(即用户未点击房源甲)的样本数量占总样本数量(过滤训练数据集的总样本条数)的比例为78％(小于99％)，那么可将过滤训练数据集中的样本数据中的特征项K整列删除。

为了进一步提升模型训练的效率和模型的精度，本公开还针对中间训练数据集中的商品特征数据和用户特征数据来做特征工程。具体的，针对中间训练数据集中的商品特征数据增加第一比例特征数据，针对用户特征数据增加第二比例特征数据，得到目标训练数据集。

作为一示例，针对商品特征数据，可以增加关于用户访问某页面的次数占其访问所有页面的总次数的页面访问比例；增加关于用户访问某项目(如某房源)时长占其所有访问时长的访问时长比例。在此示例中，增加的第一比例特征数据为页面访问比例和/或访问时长比例。针对用户特征数据，可以增加项目库存商品(如房源)数占总商品(如房源)数的库存商品比例。在此示例中，增加的第二比例特征数据为库存商品比例。

通过上述数据集划分策略，先将用户行为数据集划分为训练数据集、验证数据集和测试数据集，并通过上述方式对训练数据集进行样本筛选和特征工程处理，可以有效地解决在用户线上行为稀疏的场景下，因用户行为数据随时间的变化其数据分布有波动且部分特征数据波动较大，或者存在商品特征数据缺失或滞后的情况，或者用户画像数据无法获取的情况到而导致后续的目标推荐模型的准确率衰减速度快的问题。

步骤S105，使用目标训练数据集对初始推荐模型进行训练，直至达到预设的迭代停止条件，获得目标推荐模型。

具体的，可先使用目标训练数据集对初始推荐模型进行迭代训练，得到迭代推荐模型；接着，利用验证数据集对迭代推荐模型进行验证训练，得到验证模型指标值；若判断验证模型指标值相较于迭代推荐模型的迭代模型指标值不再提升，则停止迭代训练，并将在验证训练之前得到的迭代模型指标值最好的迭代推荐模型确定为目标推荐模型。

可以使用LightGBM、XGBoost、DeepFM等分类模型建立初始推荐模型。

在一实施例中，首先，给定LightGBM超参数，通过LightGBM在目标训练数据集(dataset_train)上建立初始推荐模型，并使用dataset_train训练该初始推荐模型，得到迭代推荐模型。具体的，在每完成一轮次的迭代训练后，利用验证数据集(dataset_val)对该轮次获得的迭代推荐模型进行验证训练，获得验证模型指标值(如模型精度等)；然后，判断验证模型指标值与该轮次之前的所有迭代训练模型的迭代模型指标值(如模型精度等)，若验证模型指标值相较于迭代模型指标值不再提升(即呈现下降趋势)，则停止迭代训练，并将在验证训练之前得到的迭代模型指标值最好的迭代推荐模型确定为目标推荐模型。

示例性的，第一轮训练，使用dataset_train训练该初始推荐模型，得到迭代推荐模型M1，迭代模型指标指记录为m1，接着，利用dataset_val对迭代推荐模型M1进行验证训练，得到验证模型指标值h1，比较h1与m1的大小，若h1大于m1，则继续第二轮训练，使用dataset_train训练迭代推荐模型M1，迭代模型指标指记录为m2，接着，利用dataset_val对迭代推荐模型M2进行验证训练，得到验证模型指标值h2，比较h2与m2的大小，若h2大于m2，则继续第三轮训练.....，第j轮训练，利用dataset_val对迭代推荐模型Mj进行验证训练，得到验证模型指标值hj，若hj小于mj，则表示验证模型指标值相较于迭代推荐模型的迭代模型指标值不再提升，此时可停止迭代训练，并选择在1～j轮训练中迭代模型指标值最好的一个迭代推荐模型作为目标推荐模型。例如，j＝50，若第48轮次的迭代推荐模型M48的迭代模型指标值最好，则将迭代推荐模型M48确定为目标推荐模型，并将迭代推荐模型M48的迭代模型指标值记录为模型的最终指标值。

通过使用验证数据集做迭代训练的早停，可以在保证模型精度的前提下提高模型训练的效率，还可节省模型训练的成本。

在一些实施例中，上述方法还包括：

将对训练数据集中的训练样本数据进行样本筛选和特征工程处理过程中所涉及到的操作参数和目标推荐模型的超参数一起进行参数搜索，获得参数搜索结果；

根据测试数据集的指标评估函数从参数搜索结果中选出目标参数；

基于目标参数，确定目标推荐模型上线使用后的跟进用户。

示例性的，可以采用随机搜索、网格搜索、贝叶斯搜索等方式对训练数据集中的训练样本数据进行样本筛选和特征工程处理过程中所涉及到的操作参数和目标推荐模型的超参数进行参数搜索，以获得模型效果最好的参数组合。其中，操作参数包括采样比例的相关参数、在剔除述用户商品特征数据中特征值为零的占比大于预设比例阈值的特征项的步骤中使用到的duplicate_rate(重复率)、针对中间训练数据集中的商品特征数据增加第一比例特征数据，针对用户特征数据增加第二比例特征数据的步骤中使用到的val_alpha参数等。这些操作参数很难通过人的直观感受进行确定，同时训练数据集的处理策略对结果影响很大，在此，将训练数据集和特征工程也作为超参搜索的一部分，可以精准的找到特征处理时应选取的阈值，从而有利于提升模型的准确率。

目前主流的CTR模型中常用的评估指标(如logloss)都是一个具体的数字，里面的数学计算逻辑这对于业务侧来说并不直观，不便于业务侧的理解和使用。

本公开采用的指标评估函数为工业界常用的AUC(area under the curve)模型评估指标函数。

在一实施例中，根据测试数据集的指标评估函数从参数搜索结果中选出目标参数，之后再通过目标参数获取目标推荐模型和目标推荐模型在测试集上的分桶准确率，最后根据该分桶准确率确定目标推荐模型上线使用后的跟进用户。

此外，在用户线上行为稀疏的场景下，经研究相关的用户行为数据发现，在此场景下，用户平均浏览深度约为4.5，说明大部分用户更为关注推荐头部的商品(如房源)情况，如果不及用户预期，那么用户不会再有探索下滑的趋势。所以本公开采用的指标评估函数除了AUC模型评估指标函数外，还增加了采用基尼系数来衡量推荐头部的商品排序效果。

本公开实施例提供的技术方案，通过上述方式获得的目标推荐模型的针对用户线上行为稀疏的场景具有较好的推荐效果，且该目标推荐模型对算力的要求相对较低，模型较简单，模型不容易在训练阶段发生过拟合，同时可有效地降低模型的准确率衰减速度。

图4是本公开实施例提供的一种用于行为稀疏场景的推荐方法的流程示意图。如图4所示，该用于行为稀疏场景的推荐方法包括：

步骤S401，获取用户历史行为数据。

用户历史行为数据，主要是指用户使用线上推荐APP时所产生的一些历史行为数据，主要包括用户特征数据(包括用户ID、线上访问统计数据、时长统计数据等)、商品特征数据(包括商品基础信息、商品价格、商品维度统计信息等)、用户商品特征数据(如用户在某具体商品上的页面统计数据、行为统计数据、时长统计数据等)。

步骤S402，将用户历史行为数据输入目标推荐模型中，输出商品推荐结果，商品推荐结果包括推荐商品及其对应的用户意愿强度评分，目标推荐模型是由如权利要求1～7中任一项的推荐模型训练方法训练得到的。

用户意愿强度评分，是指用户对某推荐商品发生转化行为的评分值。例如，对于推荐商品A，用户可能会点击A商品的评分为90分。一般来说，评分越高代表用户的意愿强度越高，越有可能发生转化行为。

应用本公开实施例提供的技术方案，使用的指标评估函数的中间结果可以转化为业务侧更容易理解的用户意愿强度评分，方便业务使用。

在一些实施例中，结合考虑业务推荐场景情况，扩展了线下评估指标，基于基尼系数衡量商品推荐结果中的头部推荐商品的排序效果；根据排序效果对头部推荐商品的曝光顺序进行调整。

作为一实例，假设目前的商品推荐结果中包括A、B、C、D、E、F六个商品及其用户意愿强度评分，这六个商品的排序顺序是A→F→D→C→E→B，设用户平均浏览深度为4，那么头部推荐商品则为前面4个商品，即A→F→D→C。采用基尼系数来衡量A→F→D→C的排序效果。若是基于基尼系数计算出C→D→F→A这一排序顺序的排序效果最好，那么将头部推荐商品的排序顺序A→F→D→C替换为C→D→F→A。

在用户线上行为稀疏的场景(如用户粘性不高的推荐场景)下，通过采用基尼系数来衡量商品推荐结果中的头部推荐商品的排序效果，可以更好地调整头部推荐商品的排序顺序，以提高用户发生转化行为的可能性，从而提高线上成交率。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

下述为本公开装置实施例，可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节，请参照本公开方法实施例。

图5是本公开实施例提供的一种用于行为稀疏场景的推荐模型训练装置的示意图。如图5所示，该用于行为稀疏场景的推荐模型训练装置包括：

确定模块501，被配置为确定目标推荐商品；

采集模块502，被配置为通过线上推荐应用向用户推荐目标推荐商品，并采集用户使用线上推荐应用时产生的与目标推荐商品关联的用户行为数据集；

划分模块503，被配置为按照预设的数据集划分策略，将用户行为数据集划分为训练数据集、验证数据集和测试数据集；

处理模块504，被配置为对训练数据集中的训练样本数据进行样本筛选和特征工程处理，得到目标训练数据集；

训练模块505，被配置为使用目标训练数据集对初始推荐模型进行训练，直至达到预设的迭代停止条件，获得目标推荐模型。

在一些实施例中，上述确定模块501，包括：

序列获取单元，被配置为获取多条有效商品序列，每一条有效商品序列包括曝光未转化商品和曝光已转化商品；

网络构建单元，被配置为根据多条有效商品序列，构建有向商品图网络；

序列生成单元，被配置为在有向商品图网络上进行随机游走，生成多个随机游走序列；

向量生成单元，被配置为基于多个随机游走序列，生成多个商品向量；

计算单元，被配置为从多个商品向量中选定一个目标商品向量，计算目标商品向量与其他商品向量之间的相似度，其他商品向量为多个商品向量中除了目标商品向量之外的商品向量；

确定单元，被配置为根据目标商品向量以及与目标商品向量的相似度达到预设相似阈值的其他商品向量，确定目标推荐商品。

在一些实施例中，上述划分模块503，包括：

获取单元，被配置为获取用户行为数据集的采集时间段；

第一划分单元，被配置为将采集时间段划分为第一采集时间区间、第二采集时间区间和第三采集时间区间，其中，第一采集时间区间的第一时间跨度是从采集时间段的最早采集时间点到第一中间采集时间点，第二采集时间区间的第二时间跨度是从所示第一中间采集时间点到第二中间采集时间点，第三采集时间区间的第三时间跨度是从第二中间采集时间点待采集时间段的最晚采集时间点，第一时间跨度大于第二时间跨度和第三时间跨度；

第二划分单元，被配置为将第一采集时间区间对应的用户行为数据划分为训练数据集，将第二采集时间区间对应的用户行为数据划分为验证数据集，将第三采集时间区间对应的用户行为数据划分为测试数据集。

在一些实施例中，上述处理模块504，包括：

过滤单元，被配置为过滤训练数据集中的无效负样本数据，保留其中的有效负样本和正样本，得到过滤训练数据集；

处理单元，被配置为对过滤训练数据集中的样本数据进行特征工程处理，得到目标训练数据集。

在一些实施例中，过滤训练数据集包括多条样本数据，每一条样本数据包括商品特征数据、用户特征数据、用户商品特征数据和转化特征数据，用户商品特征数据包括多个特征项。

上述处理单元，具体可被配置为：

统计过滤训练数据集中的所有样本数据的用户商品特征数据中的各个特征项的特征值；

剔除述用户商品特征数据中特征值为零的占比大于预设比例阈值的特征项，得到中间训练数据集；

针对中间训练数据集中的商品特征数据增加第一比例特征数据，针对用户特征数据增加第二比例特征数据，得到目标训练数据集。

在一些实施例中，上述训练模块505，包括：

迭代训练单元，被配置为使用目标训练数据集对初始推荐模型进行迭代训练，得到迭代推荐模型；

验证训练单元，被配置为利用验证数据集对迭代推荐模型进行验证训练，得到验证模型指标值；

模型确定单元，被配置为若判断验证模型指标值相较于迭代推荐模型的迭代模型指标值不再提升，则停止迭代训练，并将在验证训练之前得到的迭代模型指标值最好的迭代推荐模型确定为目标推荐模型。

在一些实施例中，上述装置还包括：

搜索模块，被配置为将对训练数据集中的训练样本数据进行样本筛选和特征工程处理过程中所涉及到的操作参数和目标推荐模型的超参数一起进行参数搜索，获得参数搜索结果；

筛选模块，被配置为根据测试数据集的指标评估函数从参数搜索结果中选出目标参数；

用户确定模块，被配置为基于目标参数，确定目标推荐模型上线使用后的跟进用户。

图6是本公开实施例提供的一种用于行为稀疏场景的推荐装置的示意图。

如图6所示，该用于行为稀疏场景的推荐装置包括：

获取模块601，被配置为获取用户历史行为数据；

推荐模块602，被配置为将用户历史行为数据输入目标推荐模型中，输出商品推荐结果，商品推荐结果包括推荐商品及其对应的用户意愿强度评分，目标推荐模型是由上述的推荐模型训练方法训练得到的。

在一些实施例中，该推荐装置，还可包括：

衡量模块，被配置为基于基尼系数衡量商品推荐结果中的头部推荐商品的排序效果；

调整模块，被配置为根据排序效果对头部推荐商品的曝光顺序进行调整。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本公开实施例的实施过程构成任何限定。

图7是本公开实施例提供的电子设备7的示意图。如图7所示，该实施例的电子设备7包括：处理器701、存储器702以及存储在该存储器702中并且可在处理器701上运行的计算机程序703。处理器701执行计算机程序703时实现上述各个方法实施例中的步骤。或者，处理器701执行计算机程序703时实现上述各装置实施例中各模块/单元的功能。

电子设备7可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。电子设备7可以包括但不仅限于处理器701和存储器702。本领域技术人员可以理解，图7仅仅是电子设备7的示例，并不构成对电子设备7的限定，可以包括比图示更多或更少的部件，或者不同的部件。

处理器701可以是中央处理单元(Central Processing Unit，CPU)，也可以是其它通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

存储器702可以是电子设备7的内部存储单元，例如，电子设备7的硬盘或内存。存储器702也可以是电子设备7的外部存储设备，例如，电子设备7上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。存储器702还可以既包括电子设备7的内部存储单元也包括外部存储设备。存储器702用于存储计算机程序以及电子设备所需的其它程序和数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本公开实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可以存储在计算机可读存储介质中，该计算机程序在被处理器执行时，可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如，在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上实施例仅用以说明本公开的技术方案，而非对其限制；尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本公开各实施例技术方案的精神和范围，均应包含在本公开的保护范围之内。

Claims

1.一种用于行为稀疏场景的推荐模型训练方法，其特征在于，包括：

确定目标推荐商品；

通过线上推荐应用向用户推荐所述目标推荐商品，并采集用户使用所述线上推荐应用时产生的与所述目标推荐商品关联的用户行为数据集；

按照预设的数据集划分策略，将所述用户行为数据集划分为训练数据集、验证数据集和测试数据集；

对所述训练数据集中的训练样本数据进行样本筛选和特征工程处理，得到目标训练数据集；

使用所述目标训练数据集对初始推荐模型进行训练，直至达到预设的迭代停止条件，获得目标推荐模型。

2.根据权利要求1所述的方法，其特征在于，确定目标推荐商品，包括：

获取多条有效商品序列，每一条所述有效商品序列包括曝光未转化商品和曝光已转化商品；

根据多条所述有效商品序列，构建有向商品图网络；

在所述有向商品图网络上进行随机游走，生成多个随机游走序列；

基于所述多个随机游走序列，生成多个商品向量；

从所述多个商品向量中选定一个目标商品向量，计算所述目标商品向量与其他商品向量之间的相似度，所述其他商品向量为所述多个商品向量中除了所述目标商品向量之外的商品向量；

根据所述目标商品向量以及与所述目标商品向量的相似度达到预设相似阈值的其他商品向量，确定目标推荐商品。

3.根据权利要求1所述的方法，其特征在于，按照预设的数据集划分策略，将所述用户行为数据集划分为训练数据集、验证数据集和测试数据集，包括：

获取所述用户行为数据集的采集时间段；

将所述采集时间段划分为第一采集时间区间、第二采集时间区间和第三采集时间区间，其中，所述第一采集时间区间的第一时间跨度是从所述采集时间段的最早采集时间点到第一中间采集时间点，所述第二采集时间区间的第二时间跨度是从所示第一中间采集时间点到第二中间采集时间点，所述第三采集时间区间的第三时间跨度是从所述第二中间采集时间点待所述采集时间段的最晚采集时间点，所述第一时间跨度大于所述第二时间跨度和第三时间跨度；

将所述第一采集时间区间对应的用户行为数据划分为训练数据集，将所述第二采集时间区间对应的用户行为数据划分为验证数据集，将所述第三采集时间区间对应的用户行为数据划分为测试数据集。

4.根据权利要求1所述的方法，其特征在于，对所述训练数据集中的训练样本数据进行样本筛选和特征工程处理，得到目标训练数据集，包括：

过滤所述训练数据集中的无效负样本数据，保留其中的有效负样本和正样本，得到过滤训练数据集；

对所述过滤训练数据集中的样本数据进行特征工程处理，得到目标训练数据集。

5.根据权利要求4所述的方法，其特征在于，所述过滤训练数据集包括多条样本数据，每一条样本数据包括商品特征数据、用户特征数据、用户商品特征数据和转化特征数据，所述用户商品特征数据包括多个特征项；

对所述过滤训练数据集中的样本数据进行特征工程处理，得到目标训练数据集，包括：

统计所述过滤训练数据集中的所有样本数据的用户商品特征数据中的各个特征项的特征值；

剔除所述述用户商品特征数据中特征值为零的占比大于预设比例阈值的特征项，得到中间训练数据集；

针对所述中间训练数据集中的商品特征数据增加第一比例特征数据，针对所述用户特征数据增加第二比例特征数据，得到目标训练数据集。

6.根据权利要求1所述的方法，其特征在于，使用所述目标训练数据集对初始推荐模型进行训练，直至达到预设的迭代停止条件，获得目标推荐模型，包括：

使用所述目标训练数据集对初始推荐模型进行迭代训练，得到迭代推荐模型；

利用所述验证数据集对所述迭代推荐模型进行验证训练，得到验证模型指标值；

若判断所述验证模型指标值相较于所述迭代推荐模型的迭代模型指标值不再提升，则停止迭代训练，并将在验证训练之前得到的迭代模型指标值最好的迭代推荐模型确定为目标推荐模型。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将对所述训练数据集中的训练样本数据进行样本筛选和特征工程处理过程中所涉及到的操作参数和所述目标推荐模型的超参数一起进行参数搜索，获得参数搜索结果；

根据所述测试数据集的指标评估函数从所述参数搜索结果中选出目标参数；

基于所述目标参数，确定所述目标推荐模型上线使用后的跟进用户。

8.一种用于行为稀疏场景的推荐方法，其特征在于，包括：

获取用户历史行为数据；

将所述用户历史行为数据输入目标推荐模型中，输出商品推荐结果，所述商品推荐结果包括推荐商品及其对应的用户意愿强度评分，所述目标推荐模型是由如权利要求1～7中任一项所述的推荐模型训练方法训练得到的。

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：

基于基尼系数衡量所述商品推荐结果中的头部推荐商品的排序效果；

根据所述排序效果对所述头部推荐商品的曝光顺序进行调整。

10.一种用于行为稀疏场景的推荐模型训练装置，其特征在于，包括：

确定模块，被配置为确定目标推荐商品；

采集模块，被配置为通过线上推荐应用向用户推荐所述目标推荐商品，并采集用户使用所述线上推荐应用时产生的与所述目标推荐商品关联的用户行为数据集；

划分模块，被配置为按照预设的数据集划分策略，将所述用户行为数据集划分为训练数据集、验证数据集和测试数据集；

处理模块，被配置为对所述训练数据集中的训练样本数据进行样本筛选和特征工程处理，得到目标训练数据集；

训练模块，被配置为使用所述目标训练数据集对初始推荐模型进行训练，直至达到预设的迭代停止条件，获得目标推荐模型。

11.一种用于行为稀疏场景的推荐装置，其特征在于，包括：

获取模块，被配置为获取用户历史行为数据；

推荐模块，被配置为将所述用户历史行为数据输入目标推荐模型中，输出商品推荐结果，所述商品推荐结果包括推荐商品及其对应的用户意愿强度评分，所述目标推荐模型是由如权利要求1～7中任一项所述的推荐模型训练方法训练得到的。

12.一种电子设备，包括存储器、处理器以及存储在所述存储器中并且可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述方法的步骤，或者实现如权利要求8至9中任一项所述方法的步骤。

13.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述方法的步骤，或者实现如权利要求8至9中任一项所述方法的步骤。