CN105260471B

CN105260471B - 商品个性化排序模型训练方法及系统

Info

Publication number: CN105260471B
Application number: CN201510679812.8A
Authority: CN
Inventors: 王晓丹
Original assignee: Guangzhou Pinwei Software Co Ltd
Current assignee: Vipshop Guangzhou Software Co Ltd
Priority date: 2015-10-19
Filing date: 2015-10-19
Publication date: 2019-03-26
Anticipated expiration: 2035-10-19
Also published as: CN105260471A

Abstract

本发明涉及一种商品个性化排序模型训练方法及系统，根据历史商品数据中长期兴趣特征对商品个性化排序模型进行离线训练，获得每个长期兴趣特征对应的参数，即获得一个精度较高的商品个性化排序模型，且排除了历史商品数据中短期兴趣特征，减少耗时。再间隔单位时间获取实时商品数据，对离线训练后的商品个性化排序模型进行扩展，根据实时商品数据中长期兴趣特征以及短期兴趣特征，对扩展后的商品个性化排序模型进行在线训练，获得更新的每个长期兴趣特征对应的参数以及每个短期兴趣特征对应的参数，从而实现每隔单位时间对扩展后的商品个性化排序模型进行更新一次，获得时效性更强的模型，实现模型的精度和时效性平衡，以获得更好的预测结果。

Description

商品个性化排序模型训练方法及系统

技术领域

本发明涉及数据处理技术领域，特别涉及一种商品个性化排序模型训练方法及系统。

背景技术

目前，给用户在线推荐商品是提高商品销售量的常用手段，主要通过对商品个性化排序模型进行训练，然后利用训练后的商品个性化排序模型进行输出预测，根据预测结果进行商品推荐。其中，商品个性化排序模型即是商品个性化推荐模型，商品个性化推荐模型包括模型输入、模型参数以及预测输出，根据模型输入以及模型参数进行模拟可获得预测输出，模型训练过程即是根据预测输出与实际输出的误差对模型参数进行不断调整的过程，使模型参数达到最优，从而使商品个性化推荐模型达到最优，再根据训练完成后的商品个性化推荐模型对待推荐商品进行模拟，获得待推荐商品的预测输出。

现有的商品个性化排序模型包括batch(批量)模式的LR(逻辑回归)模型和online(在线)模式下的LR模型，batch模式的LR模型是一种离线学习模型，原数据集是事先存储好的，是一种需要在原数据集上反复迭代以获得一个最优的模型参数，能确保模型推荐的精度，但是会导致batch模式下的LR模型无法在大数据集下多次迭代训练获得一个最新的模型，且采用的原数据集是历史数据，而当前售卖的商品和用户兴趣是随时变化的，从而利用该模型进行商品排序推荐时，会导致实时性较差。online模式下的LR模型是一种在线学习模型，实现了实时数据的增量训练，能追踪到用户的当前兴趣，即能确保模型的实时性，但是无法兼顾到较长周期的历史数据，且利用该模型进行训练时，对实时数据只迭代一次，从而利用该模型进行商品排序推荐时，会导致精度较低。

发明内容

基于此，有必要针对现有模型无法同时兼顾实时性和精度的问题，提供一种能同时提高时效性以及精度的商品个性化排序模型训练方法及系统。

一种商品个性化排序模型训练方法，包括如下步骤：

获取预设时间内的历史商品数据；

根据所述历史商品数据中的长期兴趣特征以及商品的预设输出目标，对所述商品个性化排序模型进行离线训练，获得每个所述长期兴趣特征对应的参数，其中，长期兴趣特征包括商品品牌以及商品类型；

间隔单位时间实时获取商品数据，并获取所述实时获取的商品数据中的所述商品的预设输出目标、所述长期兴趣特征以及短期兴趣特征，其中，所述短期兴趣特征包括商品ID以及档期ID；

根据所述短期兴趣特征，对离线训练后的所述商品个性化排序模型进行扩展，获得扩展后的商品个性化排序模型，其中，扩展后的所述商品个性化排序模型包括获得的每个所述长期兴趣特征对应的参数以及初始化的每个所述短期兴趣特征对应的参数；

根据所述实时获取的商品数据中的所述商品的预设输出目标、所述实时获取的商品数据中的所述长期兴趣特征以及所述短期兴趣特征，对扩展后的所述商品个性化排序模型进行在线训练，修正每个所述长期兴趣特征对应的参数以及每个所述短期兴趣特征对应的参数。

一种商品个性化排序模型训练系统，包括：

第一获取模块，用于获取预设时间内的历史商品数据；

第一训练模块，用于根据所述历史商品数据中的长期兴趣特征以及商品的预设输出目标，对所述商品个性化排序模型进行离线训练，获得每个所述长期兴趣特征对应的参数，其中，长期兴趣特征包括商品品牌以及商品类型；

第二获取模块，用于间隔单位时间实时获取商品数据，并获取所述实时获取的商品数据中的所述商品的预设输出目标、所述长期兴趣特征以及短期兴趣特征，其中，所述短期兴趣特征包括商品ID以及档期ID；

扩展模块，用于根据所述短期兴趣特征，对离线训练后的所述商品个性化排序模型进行扩展，获得扩展后的商品个性化排序模型，其中，扩展后的所述商品个性化排序模型包括获得的每个所述长期兴趣特征对应的参数以及初始化的每个所述短期兴趣特征对应的参数；

第二训练模块，用于根据所述实时获取的商品数据中的所述商品的预设输出目标、所述实时获取的商品数据中的所述长期兴趣特征以及所述短期兴趣特征，对扩展后的所述商品个性化排序模型进行在线训练，修正每个所述长期兴趣特征对应的参数以及每个所述短期兴趣特征对应的参数。

上述商品个性化排序模型训练方法及系统，首先，获取预设时间内的历史商品数据，根据历史商品数据中的长期兴趣特征，对商品个性化排序模型进行离线训练，获得每个长期兴趣特征对应的参数，即在预设时间的历史数据上对模型进行训练获得一个精度较高的商品个性化排序模型。然后，对离线训练后的商品个性化排序模型进行扩展，扩展后的商品个性化排序模型包括获得的每个长期兴趣特征对应的参数以及预设的每个短期兴趣特征对应的参数。间隔单位时间实时获取商品数据，根据实时获取的商品数据中的商品的预设输出目标、长期兴趣特征以及短期兴趣特征，对扩展后的商品个性化排序模型进行在线训练。训练完成后，获得更新的每个长期兴趣特征对应的参数以及每个短期兴趣特征对应的参数，从而实现每隔单位时间对扩展后的商品个性化排序模型进行更新一次，利用实时获取的商品数据对扩展后的商品个性化排序模型进行在线训练，获得一个时效性更强的模型，从而得到一个既可以反映用户长期偏好又能够追踪用户当前兴趣的模型，实现模型的精度和时效性平衡，以获得一个更好的预测结果。

附图说明

图1为一实施方式的商品个性化排序模型训练方法的流程图；

图2为另一实施方式的商品个性化排序模型训练方法的流程图；

图3为一实施方式的商品个性化排序模型训练系统的模块图；

图4为另一实施方式的商品个性化排序模型训练系统的模块图；

图5为另一实施方式的商品个性化排序模型训练系统的模块图。

具体实施方式

请参阅图1，提供一种实施方式的商品个性化排序模型训练方法，包括如下步骤：

S100：获取预设时间内的历史商品数据。

用户在页面对商品进行点击、购买或收藏时，会产生商品数据，将这些商品数据进行存储，形成历史商品数据，通过对预设时间内的历史商品数据进行获取，为后续对商品个性化排序模型进行离线训练提供训练样本。例如，每隔一天对前2个月内的历史商品数据进行获取，即每天凌晨对之前2个月内的历史商品数据进行获取，得到训练样本，然后根据训练样本对商品个性化排序模型进行离线训练。

S200：根据历史商品数据中的长期兴趣特征以及商品的预设输出目标，对商品个性化排序模型进行离线训练，获得每个长期兴趣特征对应的参数。

其中，长期兴趣特征包括商品品牌以及商品类型，商品个性化排序模型的输入为长期兴趣特征，输出为预设输出目标。商品个性化排序模型包括长期兴趣特征、每个长期兴趣特征对应的参数以及预设输出目标，对商品个性化排序模型的训练即是通过将长期兴趣特征输入至商品个性化排序模型，根据预测输出与实际输出的差距对每个长期兴趣特征对应的参数进行不断调整的过程，最终获得每个长期兴趣特征对应的参数。

S300：间隔单位时间实时获取商品数据，并获取实时获取的商品数据中的商品的预设输出目标、长期兴趣特征以及短期兴趣特征。

其中，短期兴趣特征包括商品ID以及档期ID。在对用户进行商品推荐时，不但需要考虑历史商品数据，而且需要考虑实时获取的商品数据，这样可实时了解用户实时的兴趣，确保商品推荐的时效性。每隔单位时间产生一份实时的训练数据，利用该实时的训练数据对扩展后的商品个性化排序模型进行在线训练。在本实施例中，每小时产生一份实时的训练数据，即每个一小时对扩展后的商品个性化排序模型进行训练，直到当天结束，当天结束后，将当天的数据当作历史数据，作为下一天对商品个性化排序模型进行离线训练的训练样本。

由于商品品牌以及商品类型一般是不会随时间的变化而变化，所以将其作为商品的长期兴趣特征。档期ID是指在一段时间内上线的专场ID，例如，在今天，在网页上需要上线一个专场，是专门对某一类商品进行促销，即上线一个档期，对应有档期ID，明天就下线，那么针对该档期ID是短期兴趣特征，对于该档期中的商品也具有商品ID，同样也是短期兴趣特征。用户在点击浏览某一档期中某种商品时，会纪录用户点击浏览的该档期ID以及该商品ID，将商品ID以及档期ID作为用户的短期兴趣特征，以表征用户当前兴趣。

S400：根据短期兴趣特征，对离线训练后的商品个性化排序模型进行扩展，获得扩展后的商品个性化排序模型。

其中，扩展后的商品个性化排序模型的输入为长期兴趣特征和短期兴趣特征，扩展后的商品个性化排序模型包括获得的每个长期兴趣特征对应的参数以及初始化的每个短期兴趣特征对应的参数。

在对商品个性化排序模型进行离线训练后，得到了每个长期兴趣特征对应的参数，对离线训练后的商品个性化排序模型进行加载并扩展，增加输入维数以及初始化每个短期兴趣特征对应的参数，其中，增加的输入维数即是短期兴趣特征的个数。

上述短期兴趣特征对应的参数以及长期兴趣特征对应的参数即为商品个性化排序模型的参数，对商品个性化排序模型进行训练过程即是对这些参数的不断修正过程，对离线训练后的商品个性化排序模型进行扩展即是增加短期兴趣特征对应的参数，并初始化短期兴趣特征对应的参数，长期兴趣特征对应的参数通过离线训练后获得，通过将短期兴趣特征以及长期兴趣特征输入商品个性化排序模型，通过这些参数的作用，可以获得相应的商品的预设输出目标的具体值，这些参数确定结果的好坏影响商品个性化排序模型的好坏，从而影响商品个性化排序模型预测结果的准确性。从而需要对扩展后的商品个性化排序模型进行训练，对短期兴趣特征对应的参数以及长期兴趣特征对应的参数进行不断调整，使这些参数的值达到较优，从而使扩展后的商品个性化排序模型的预测输出更加接近实际值，训练完成后，这些参数均确定。

S500：根据实时获取的商品数据中的商品的预设输出目标、实时获取的商品数据中的长期兴趣特征以及短期兴趣特征，对扩展后的商品个性化排序模型进行在线训练，修正每个长期兴趣特征对应的参数以及每个短期兴趣特征对应的参数。

将实时获取的商品数据中长期兴趣特征以及短期兴趣特征输入扩展后的商品个性化排序模型进行预测输出，根据预测输出与实际输出的差距对扩展后的商品个性化排序模型中每个长期兴趣特征对应的参数以及每个短期兴趣特征对应的参数进行不断的调整，即是根据商品个性化排序模型预测输出的商品的预设输出目标与实际的商品的预设输出目标之间的差距对参数进行不断调整。训练完成后，获得更新的每个长期兴趣特征对应的参数以及每个短期兴趣特征对应的参数。

上述商品个性化排序模型训练方法，首先，获取预设时间内的历史商品数据，根据历史商品数据中的商品的预设输出目标、长期兴趣特征，对商品个性化排序模型进行离线训练，获得每个长期兴趣特征对应的参数，即在预设时间的历史数据上对模型进行训练获得一个精度较高的商品个性化排序模型，且排除了历史商品数据中短期兴趣特征，减少耗时。然后，对离线训练后的商品个性化排序模型进行扩展，扩展后的商品个性化排序模型包括获得的每个长期兴趣特征对应的参数以及初始化的每个短期兴趣特征对应的参数。间隔单位时间实时获取商品数据，根据实时获取的商品数据中的商品的预设输出目标、长期兴趣特征以及短期兴趣特征，对扩展后的商品个性化排序模型进行在线训练。训练完成后，获得更新的每个长期兴趣特征对应的参数以及每个短期兴趣特征对应的参数，从而实现每隔单位时间对扩展后的商品个性化排序模型进行更新一次，利用实时获取的数据获对扩展后的商品个性化排序模型进行在线训练，获得一个时效性更强的模型，从而得到一个既可以反映用户长期偏好又能够追踪用户当前兴趣的模型，实现模型的精度和时效性平衡，以获得一个更好的预测结果。

请参阅图2，在其中一个实施例中，根据实时获取的商品数据中的商品的预设输出目标、实时获取的商品数据中的长期兴趣特征以及短期兴趣特征，对扩展后的商品个性化排序模型进行在线训练，修正每个长期兴趣特征对应的参数以及每个短期兴趣特征对应的参数的步骤S500之后还包括：

S600：获取待排序商品数据。

S700：根据待排序商品数据中的长期兴趣特征和短期兴趣特征以及在线训练后的商品个性化排序模型，对待排序商品的预设输出目标进行预测。

对扩展后的商品个性化排序模型在线训练完成后，每个长期兴趣特征对应的参数以及每个短期兴趣特征对应的参数也确定，后续将待排序商品数据中的长期兴趣特征以及短期兴趣特征输入至该商品个性化排序模型，即可获得待排序商品的预测输出。

S800：根据预测的待排序商品的预设输出目标的结果，对待排序商品进行排序。

在本实施例中，预测输出结果越大，待排序商品排序越靠前，表示越有可能推荐给用户。

S900：根据待排序商品的排序结果，向用户推荐待排序商品。

获得待排序商品的排序结果后，需要根据排序结果，给用户推荐商品，排序越靠前，越可能推荐给用户。例如，将排序结果中排名前100的商品推荐给用户。

在其中一个实施例中，商品的预设输出目标包括商品的点击率、商品的购买量及/或商品的收藏量。

在本实施例中，预设的个性化排序模型采用逻辑回归模型，对逻辑回归模型进行离线训练时采用基于L1正则的OWL-QN(Orthant-Wise Limited-memoryQuasi-Newton)算法进行优化，对离线训练后的个性化排序模型进行在线训练时采用FTRL(Follow-the-regularized-Leader)算法进行优化。

在对商品个性化排序模型进行训练时，是根据预测输出与实际输出之间的误差来对参数进行调整。对最小误差进行最优化求解，从而可求出最优的模型参数，即可求出每个长期兴趣特征对应的参数。对最小误差进行求解过程中，优化算法包括基于L1正则的OWL-QN算法。对离线训练后的个性化排序模型进行在线训练时，对最小误差进行最优化求解，从而可求出最优化模型的参数，即可求出每个短期兴趣特征对应的参数，最优化求解过程中，优化算法包括FTRL算法。

在机器学习模型中，主要是如何求解这个模型的最优解，即求出这个模型中的最优模型参数，可转化为如何求解损失函数的最小值，损失函数是用来衡量当训练出现误差时的损失。上述基于L1正则的OWL-QN算法是求解在原来可导的损失函数上加上一个L1正则项的最优解，L1正则项是对模型空间进行限制，L1正则项是指商品个性化排序模型中模型参数向量中各个元素绝对值之和，该模型参数向量中包括了每个长期兴趣特征对应的参数。最小化损失函数是为了让我们的模型更好地拟合训练数据，而规则化参数是防止我们的模型过分拟合训练数据。FTRL算法是一种可以实现L1正则和L2正则的LR优化方法，在损失函数的基础上加上L1正则项和L2正则项，然后在求解最优解，该模型参数向量包括了每个长期兴趣特征对应的参数以及每个短期兴趣特征对应的参数，该L1正则项是指扩展后的商品个性化排序模型中模型参数向量中各个元素绝对值之和，L2正则项是指扩展后的商品个性化排序模型中模型参数向量减去已经迭代过的模型参数解向量后各个元素平方和，以限制模型参数的变化不能离已迭代过的解太远，即L2正则项的引入对最优化求解过程中增加了一个约束，使求解的结果更加平滑。

在其中一个实施例中，根据历史商品数据中的长期兴趣特征以及商品个性化排序模型预设的输出目标，对商品个性化排序模型进行离线训练，获得每个长期兴趣特征对应的参数步骤S200之前还包括步骤：

初始化商品个性化排序模型。

对商品个性化排序模型进行初始化，为后续的训练提供依据，其输入为商品数据中长期兴趣特征，即商品个性化排序模型的输入维数即为商品数据中长期兴趣特征个数，在对商品个性化排序模型初始化时，需初始化每个长期兴趣特征对应的参数，训练过程即根据预测输出与实际输出的差距对这些参数不断调整的过程。

请参阅图3，提供一种实施方式的商品个性化排序模型训练系统，包括：

第一获取模块100，用于获取预设时间内的历史商品数据。

第一训练模块200，用于根据历史商品数据中的长期兴趣特征以及商品的预设输出目标，对商品个性化排序模型进行离线训练，获得每个长期兴趣特征对应的参数。

第二获取模块300，用于间隔单位时间实时获取商品数据，并获取实时获取的商品数据中的商品的预设输出目标、长期兴趣特征以及短期兴趣特征。

扩展模块400，用于根据短期兴趣特征，对离线训练后的商品个性化排序模型进行扩展，获得扩展后的商品个性化排序模型。

第二训练模块500，用于根据实时获取的商品数据中的商品的预设输出目标、实时获取的商品数据中的长期兴趣特征以及短期兴趣特征，对扩展后的商品个性化排序模型进行在线训练，修正每个长期兴趣特征对应的参数以及每个短期兴趣特征对应的参数。

上述商品个性化排序模型训练系统，首先，获取预设时间内的历史商品数据，根据历史商品数据中的商品的预设输出目标、长期兴趣特征，对商品个性化排序模型进行离线训练，获得每个长期兴趣特征对应的参数，即在预设时间的历史数据上对模型进行训练获得一个精度较高的商品个性化排序模型，且排除了历史商品数据中短期兴趣特征，减少耗时。然后，对离线训练后的商品个性化排序模型进行扩展，扩展后的商品个性化排序模型包括获得的每个长期兴趣特征对应的参数以及初始化的每个短期兴趣特征对应的参数。间隔单位时间实时获取商品数据，根据实时获取的商品数据中的商品的预设输出目标、长期兴趣特征以及短期兴趣特征，对扩展后的商品个性化排序模型进行在线训练。训练完成后，获得更新的每个长期兴趣特征对应的参数以及每个短期兴趣特征对应的参数，从而实现每隔单位时间对扩展后的商品个性化排序模型进行更新一次，利用实时获取的数据获对扩展后的商品个性化排序模型进行在线训练，获得一个时效性更强的模型，从而得到一个既可以反映用户长期偏好又能够追踪用户当前兴趣的模型，实现模型的精度和时效性平衡，以获得一个更好的预测结果。

请参阅图4，在其中一个实施例中，上述商品个性化排序模型训练系统还包括：

第三获取模块600，用于获取待排序商品数据。

预测模块700，用于根据待排序商品数据中的长期兴趣特征和短期兴趣特征以及在线训练后的商品个性化排序模型，对待排序商品的预设输出目标进行预测。

排序模块800，用于根据预测的待排序商品的预设输出目标的结果，对待排序商品进行排序。

推荐模块900，用于根据待排序商品的排序结果，向用户推荐待排序商品。

请参阅图5，在其中一个实施例中，上述商品个性化排序模型训练系统还包括：

初始化模块210，用于初始化商品个性化排序模型。

对商品个性化排序模型进行初始化，为后续的训练提供依据，其输入为商品数据中长期兴趣特征，即商品个性化排序模型的输入维数即为商品数据中长期兴趣特征个数，在对商品个性化排序模型初始化时，还需初始化每个长期兴趣特征对应的参数，训练过程即根据预测输出与实际输出的差距对这些参数不断调整的过程。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种商品个性化排序模型训练方法，其特征在于，包括如下步骤：

获取预设时间内的历史商品数据；

2.根据权利要求1所述的商品个性化排序模型训练方法，其特征在于，所述根据所述实时获取的商品数据中的所述商品的预设输出目标、所述实时获取的商品数据中的所述长期兴趣特征以及所述短期兴趣特征，对扩展后的所述商品个性化排序模型进行在线训练，修正每个所述长期兴趣特征对应的参数以及每个所述短期兴趣特征对应的参数的步骤之后还包括：

获取待排序商品数据；

根据所述待排序商品数据中的所述长期兴趣特征和所述短期兴趣特征以及在线训练后的所述商品个性化排序模型，对待排序商品的预设输出目标进行预测；

根据预测的所述待排序商品的预设输出目标的结果，对所述待排序商品进行排序；

根据所述待排序商品的排序结果，向用户推荐所述待排序商品。

3.根据权利要求1所述的商品个性化排序模型训练方法，其特征在于，所述商品的预设输出目标包括商品的点击率、商品的购买量及/或商品的收藏量。

4.根据权利要求1-3中任意一项所述的商品个性化排序模型训练方法，其特征在于，所述商品个性化排序模型采用逻辑回归模型，对所述逻辑回归模型进行离线训练时采用基于L1正则的OWL-QN算法进行优化，对离线训练后的所述个性化排序模型进行在线训练时采用FTRL算法进行优化。

5.根据权利要求1所述的商品个性化排序模型训练方法，其特征在于，所述根据所述历史商品数据中的长期兴趣特征以及商品的预设输出目标，对所述商品个性化排序模型进行离线训练，获得每个所述长期兴趣特征对应的参数之前还包括步骤：

初始化所述商品个性化排序模型。

6.一种商品个性化排序模型训练系统，其特征在于，包括：

第一获取模块，用于获取预设时间内的历史商品数据；

7.根据权利要求6所述的商品个性化排序模型训练系统，其特征在于，还包括：

第三获取模块，用于获取待排序商品数据；

预测模块，用于根据所述待排序商品数据中的所述长期兴趣特征和所述短期兴趣特征以及在线训练后的所述商品个性化排序模型，对待排序商品的预设输出目标进行预测；

排序模块，用于根据预测的所述待排序商品的预设输出目标的结果，对所述待排序商品进行排序；

推荐模块，用于根据所述待排序商品的排序结果，向用户推荐所述待排序商品。

8.根据权利要求6所述的商品个性化排序模型训练系统，其特征在于，所述商品的预设输出目标包括商品的点击率、商品的购买量及/或商品的收藏量。

9.根据权利要求6-8中任意一项所述的商品个性化排序模型训练系统，其特征在于，所述商品个性化排序模型采用逻辑回归模型，对所述逻辑回归模型进行离线训练时采用基于L1正则的OWL-QN算法进行优化，对离线训练后的所述个性化排序模型进行在线训练时采用FTRL算法进行优化。

10.根据权利要求6所述的商品个性化排序模型训练系统，其特征在于，还包括：

初始化模块，用于初始化所述商品个性化排序模型。