CN111159542A

CN111159542A - 一种基于自适应微调策略的跨领域序列推荐方法

Info

Publication number: CN111159542A
Application number: CN201911272877.5A
Authority: CN
Inventors: 陈磊; 杨敏; 原发杰; 吕子钰; 李成明
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2019-12-12
Filing date: 2019-12-12
Publication date: 2020-05-15
Anticipated expiration: 2039-12-12
Also published as: CN111159542B

Abstract

本发明提供一种基于自适应微调策略的跨领域序列推荐方法。该方法包括：构建序列推荐模型，根据用户在源领域的行为训练该序列推荐模型，获得用于反映用户在源领域行为习惯的预训练序列推荐模型；结合用户在目标领域的行为习惯对所述预训练序列推荐模型的部分已训练参数进行调整，获得调整的序列推荐模型；在目标领域，根据给定的用户行为序列，利用所述调整的序列推荐模型向用户进行推荐。本发明能够实现跨领域的序列推荐，提高了跨领域序列推荐的鲁棒性和精准性。

Description

一种基于自适应微调策略的跨领域序列推荐方法

技术领域

本发明涉及序列推荐技术领域，尤其涉及一种基于自适应微调策略的跨领域序列推荐方法。

背景技术

随着电子商务、网上服务平台及网上交易等互联网业务的普及，网上用户行为分析和推荐已成为研究的热点问题。例如，会话是服务器端用来标识用户的一种机制，如用户点击了一系列商品或者浏览了一系列网页，服务器端为该用户创建特定的会话，跟踪其点击浏览行为，可以理解为会话就是具有时序关系的用户浏览记录序列。序列推荐系统(或称会话推荐系统)是推荐系统中的一个重要分支，其目的是通过分析用户的历史会话序列，对用户进行精准推荐。在现实生活中用户往往在某个领域有丰富的浏览记录，在其他领域浏览记录却非常少，在这样的领域内为用户进行精准推荐就变得十分困难，形成一种冷启动场景，因此如何利用用户在有丰富浏览记录的源领域的信息，用于在形成冷启动场景的目标领域为用户进行精准推荐，是一项非常有意义的研究，这就是跨领域序列推荐系统，其用于解决冷启动场景下的精准推荐问题。

在现有的技术中，能够较好地实现单个领域内的序列推荐功能，但在跨领域序列推荐中却无法发挥作用。例如，目前的序列推荐模型有腾讯公司的GfNextItNet，其结合了遮蔽语言模型和空洞卷积神经网络，能够对用户历史会话序列进行建模，在序列推荐系统中发挥出优异的效果。然而，在现有的跨领域序列推荐解决方案中，都是通过在用户源领域数据上先预训练一个简单的序列推荐模型，再在目标领域数据上对预训练模型微调所有参数，来进行跨领域序列推荐。

现有技术主要存在以下问题：1)、在预训练序列推荐模型过程中无法做到在拥有用户丰富浏览记录的源领域上预训练出一个性能良好的序列推荐系统，不能很好地建模用户在源领域上的浏览习惯；2)、在微调预训练模型过程中选择微调所有参数是非常耗时以及耗费存储空间的工作，模型参数量巨大，训练十分耗时，也十分耗费存储空间，无法满足现实要求；3)、微调过程中微调所有参数的模型在训练过程中很容易过拟合，训练很不稳定，容易丢失掉预训练模型中的重要信息，鲁棒性较差。

发明内容

本发明的目的在于克服上述现有技术的缺陷，提供一种基于自适应微调策略的跨领域序列推荐方法，能够解决在目标领域向用户进行精准推荐的技术问题。

本发明提供一种基于自适应微调策略的跨领域序列推荐方法。该方法包括以下步骤：

构建序列推荐模型，根据用户在源领域的行为训练该序列推荐模型，获得用于反映用户在源领域行为习惯的预训练序列推荐模型；

结合用户在目标领域的行为习惯对所述预训练序列推荐模型的部分已训练参数进行调整，获得调整的序列推荐模型；

在目标领域，根据给定的用户行为序列，利用所述调整的序列推荐模型向用户进行推荐。

在一个实施例中，根据以下子步骤获得所述预训练序列推荐模型：

构建所述序列推荐模型，该序列推荐模型包括多个空洞卷积神经网络残差块、与该多个空洞卷积神经网络残差块连接的空洞卷积输出层、与空洞卷积输出层连接的Softmax层；

基于所构建的序列推荐模型，输入用户在源领域的行为序列，随机遮蔽其中多个项目，利用遮蔽语言模型和所述多个空洞卷积神经网络残差块，预测所遮蔽项目的位置，经训练获得所述预训练序列推荐模型。

在一个实施例中，所选择的遮蔽项目数量是用户行为序列总项目数量的30％-40％，所选遮蔽项目中80％被直接遮蔽，10％保持不变，10％被替换。

在一个实施例中，根据以下子步骤获得所述调整的序列推荐模型：

构建自适应微调模型，该自适应微调模型包括一个策略网络和一个微调网络，其中，所述策略网络用于根据用户在源领域的行为序列获得调整的策略动作序列，所述微调网络用于根据用户在源领域的行为序列以及所述调整的策略动作序列决定需进行调整的已训练参数，以进行目标领域的推荐。

在一个实施例中，所述策略网络包括一个空洞卷积神经网络残差块，用户源领域行为序列在经过该空洞卷积神经网络残差块后，利用Gumbel-softmax采样策略进行采样得到策略动作序列。

在一个实施例中，所述微调网络包括多个空洞卷积神经网络残差块，其中空洞卷积神经网络残差块的数量和所述预训练序列推荐模型中空洞卷积神经网络残差块的数量相等，将所有的空洞卷积神经网络残差块复制一份，其中一份作为复用层，另一份作为微调层，该复用层的参数数值与所述预训练序列推荐模型中对应的参数数值相同，而该微调层的参数数值在训练过程变化。

在一个实施例中，策略动作的数量与所述微调网络中空洞卷积神经网络残差块的数量相等，用于指导所述微调网络在每一个空洞卷积神经网络残差块选择进入复用层或者微调层。

在一个实施例中，通过最大化正例选择概率、最小化负例选择概率联合优化所述微调网络和所述策略网络。

与现有技术相比，本发明的优点在于：在跨领域序列推荐系统中创新地提出一种自适应微调策略，针对每一个用户的行为序列，采取一种自适应微调策略替代微调所有参数，根据用户自身行为习惯对预训练序列推荐模型进行选择性微调，最终学习到的模型可以在跨领域序列推荐系统中展现出良好的效果，解决了冷启动场景中的精准推荐问题。

附图说明

以下附图仅对本发明作示意性的说明和解释，并不用于限定本发明的范围，其中：

图1是根据本发明一个实施例的基于自适应微调策略的跨领域序列推荐方法的流程图；

图2是根据本发明一个实施例的序列推荐模型的示意图；

图3是根据本发明一个实施例的自适应微调模型的示意图。

具体实施方式

为了使本发明的目的、技术方案、设计方法及优点更加清楚明了，以下结合附图通过具体实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用于解释本发明，并不用于限定本发明。

在本文示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

本发明提供一种基于自适应微调策略的跨领域序列推荐方法，能够在目标领域向用户进行精准推荐。为了清楚起见，尽管本文有时以会话为例进行介绍，但应理解的是，所介绍的方法和原理除了适用会话序列外，也适用于其他的用户行为序列。

简言之，本发明实施例的跨领域序列推荐方法包括：根据用户源领域的会话序列，训练一个能够良好建模用户浏览习惯的预训练序列推荐模型，框架整体基于GfNextItNet，结合遮蔽语言模型和由多个残差块堆叠而成的空洞卷积神经网络，达到良好的预训练效果；结合用户目标领域的浏览数据，对预训练序列推荐模型进行微调，采取一种自适应微调策略替代微调所有参数，训练一个策略网络，让每一条训练数据在训练过程中都能自适应地选择复用或者微调预训练模型中的参数，使得模型能更好地针对不同用户定制相应的微调策略，以达到更好的推荐性能；利用已经训练好的模型，为用户提供精准的跨领域序列推荐服务，解决冷启动场景下的精准推荐问题。

具体地，参见图1所示，本发明实施例的基于自适应微调策略的跨领域序列推荐方法包括以下步骤：

步骤S110，构建序列推荐模型，根据用户在源领域的行为训练该序列推荐模型，获得用于反映用户在源领域行为习惯的预训练序列推荐模型。

参见图2所示，序列推荐模型整体基于GfNextItNet，结合遮蔽语言模型和由多个残差块堆叠而成的空洞卷积神经网络，不同于现有的GfNextItNet只用了2个空洞卷积神经网络残差块，本发明实施例采用8个空洞卷积神经网络残差块，以进一步提升序列推荐性能。

给定用户源领域的会话序列，随机遮蔽其中某些项目，利用遮蔽语言模型和空洞卷积神经网络残差块，预测遮蔽位置的项目，通过训练这一模型，可以很好地建模用户浏览习惯，得到一个良好效果的预训练序列推荐模型，为跨领域序列推荐提供极大的帮助。

具体地，假定用户源领域的会话序列为X＝{x₁,x₂,...,x_n}，随机遮蔽其中k个项目

例如，遮蔽项目数量大致为会话序列总项目数量的30％-40％，遮蔽项目中80％被直接遮蔽，10％保持不变，10％被替换为别的项目，则遮蔽会话序列为

目标为预测遮蔽位置的项目

遮蔽位置项目的联合概率分布表示为：

在得到遮蔽会话序列

后，将遮蔽会话序列送入空洞卷积神经网络残差块中，其中空洞卷积神经网络残差块由多个相同的残差块堆叠而成，每一个空洞卷积神经网络残差块中例如都包含两个空洞卷积层和两个层归一化层，用以学习遮蔽会话序列的特征表示，在经过所有空洞卷积神经网络残差块后，模型已经充分学习到遮蔽会话序列的高维特征表示，最后，将学习到的特征表示输入进一个Softmax层，预测出遮蔽位置的项目。

整个序列推荐模型通过最大化对数似然来进行优化，如下式(2)所示，训练直至模型收敛，整个预训练过程完成。经过预训练这样一个序列推荐模型后，能够充分建模用户的浏览习惯，为跨领域序列推荐提供极大的帮助。

例如，参见图2，用户源领域的会话序列是(1，2，3，4，5，6，7，8，9，10)，选择的遮蔽项是(3，5，6，9)，其中，3和9被直接遮蔽掉，5保持不变，6被替换为100。

综上，本发明利用用户在源领域的丰富浏览记录信息预训练一个序列推荐模型，结合遮蔽语言模型和由多个残差块堆叠而成的空洞卷积神经网络，充分建模用户的浏览习惯，实现在源领域上良好的序列推荐性能，为跨领域序列推荐提供帮助。

步骤S120，结合用户在目标领域的行为习惯对预训练序列推荐模型的部分已训练参数进行调整，获得调整的序列推荐模型。

结合用户目标领域的浏览行为，对预训练序列推荐模型进行微调，采取一种自适应微调策略替代微调所有参数。例如，训练一个策略网络，让每一条训练数据在训练过程中都能自适应地选择复用或者微调预训练序列推荐模型中的参数，使得模型能更好地针对不同用户定制相应的微调策略，以达到更好的推荐性能。

具体地，参见图3所示，整个自适应微调模型可以分为两个部分，一个策略网络和一个微调网络，首先将用户源领域会话序列输入进策略网络，产生用于指导微调网络进行微调的策略动作序列，然后再将用户源领域会话序列输入进微调网络，根据策略动作序列选择在每一个残差块进入复用层或者微调层，最后通过最大化目标领域项目概率选择最可能的目标领域项目。

例如，仍参见图3，策略网络是一个轻量级的空洞卷积神经网络，由一个空洞卷积神经网络残差块构成，用户源领域会话序列在经过空洞卷积神经网络残差块后，再利用Gumbel-softmax采样策略进行采样得到一个策略动作序列，其中策略动作的数量跟微调网络中空洞卷积神经网络残差块的数量相等，用于指导微调网络在每一个空洞卷积神经网络残差块选择进入复用层或者微调层，每个策略动作有两种取值可能，0代表进入复用层，1代表进入微调层。

例如，仍参见图3所示，微调网络是一个复杂的空洞卷积神经网络，由多个空洞卷积神经网络残差块构成，残差块的数量和预训练序列推荐模型中空洞卷积神经网络残差块的数量相等，首先将所有的空洞卷积神经网络残差块复制一份，假定一份为复用层，一份为微调层，这两份完全一样的空洞卷积神经网络残差块都是利用预训练序列推荐模型中对应的参数数值进行初始化，不同点是复用层的参数数值在训练过程中是保持不变的，始终和预训练序列推荐模型中对应的参数数值相同，而微调层的参数数值只有在初始化时是和预训练序列推荐模型中对应的参数数值相同，在训练过程中微调层的参数数值随着梯度更新而变化，当用户源领域会话序列输入进微调网络时，在进入每一个空洞卷积神经网络残差块前都会做一次选择，是进入复用层还是进入微调层，而这个选择就是来自策略网络产生的策略动作序列，经过最后一个空洞卷积神经网络残差块后，产生用户源领域会话序列的最终特征表示，用这个特征表示和目标领域项目表示进行相似度度量，选择出最可能的目标领域项目。

假定用户源领域会话序列为X＝{x₁,x₂,...,x_n}，通过只由一个空洞卷积神经网络残差块构成的策略网络后，再经过Gumbel-softmax采样产生一个策略动作序列{a₁,a₂,...,a_N}，其中N为微调网络中空洞卷积神经网络残差块的数量，每一个策略动作用于指导微调网络在每一个空洞卷积神经网络残差块选择进入复用层或者微调层，每个策略动作有两种取值可能，0代表进入复用层，1代表进入微调层，在经过最后一个空洞卷积神经网络残差块后，产生用户源领域会话序列的最终特征表示，用这个特征表示和目标领域项目表示进行相似度度量，选择最可能的目标领域项目。如下式(3)和(4)所示，Pos_score为用户源领域特征表示H(X)与目标领域正例表示e(targetpos)的相似度分数，目标领域正例为正确的目标领域内的项目，Neg_score为用户源领域特征表示H(X)与目标领域负例表示e(targetneg)的相似度分数，目标领域负例为采样得到的不正确的目标领域内的项目。

通过最大化正例选择概率、最小化负例选择概率联合优化微调网络以及策略网络，如下式(5)所示，其中d为训练样本，D为整个训练数据集，σ(·)为sigmoid函数，对两种相似度分数进行归一化处理，训练直至模型收敛，整个训练过程完成。

在本发明实施例中，通过采用自适应微调策略替代微调所有参数的微调方式，模型能够根据每个用户的浏览习惯选择性地微调某些参数，不仅能够极大减少微调的参数量，降低内存要求，加速训练过程，还能提升序列推荐性能，并且模型在训练过程中更加稳定，不容易过拟合，还保留了预训练序列推荐模型中的重要信息，提升了整个跨领域序列推荐系统的鲁棒性。

步骤S130，在目标领域，根据给定的用户行为序列，利用调整的序列推荐模型向用户进行推荐。

在现实应用中，进行跨领域序列推荐相当于模型的一次测试过程。给定一个确定的用户后，根据用户在源领域上的浏览会话序列，通过已经训练好的模型，找出最可能的目标领域项目，向用户进行推荐，用于解决冷启动场景下的精准推荐问题。

进一步地，为了验证本发明所提出方法的有效性和先进性，在腾讯公司经过脱敏的推荐数据集上进行了广泛的实验，这个推荐数据集包含用户在两个领域的浏览记录，其中源领域上有用户丰富的浏览记录，而目标领域是冷启动场景，用户的浏览记录非常少，整个推荐数据集适用于跨领域序列推荐系统研究，与本发明的出发点一致。经过大量实验后，实验结果表明，本发明所提出的方法在推荐性能、微调参数量以及模型鲁棒性上都达到了目前最好效果，非常适合应用于各种跨领域序列推荐系统中，用于解决冷启动场景下的精准推荐问题，具有十分重要的现实意义和广阔的应用前景。

综上所述，本发明提出的跨领域序列推荐方法，根据用户在源领域的浏览记录，在目标领域向用户推荐其可能感兴趣的项目，这是第一次在跨领域序列推荐系统中研究微调问题，能够在目标领域向用户进行精准推荐，解决了冷启动场景中的精准推荐问题，具有十分重要的现实意义和广阔的应用前景。

需要说明的是，虽然上文按照特定顺序描述了各个步骤，但是并不意味着必须按照上述特定顺序来执行各个步骤，实际上，这些步骤中的一些可以并发执行，甚至改变顺序，只要能够实现所需要的功能即可。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以包括但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种基于自适应微调策略的跨领域序列推荐方法，包括以下步骤：

2.根据权利要求1所述的基于自适应微调策略的跨领域序列推荐方法，其特征在于，根据以下子步骤获得所述预训练序列推荐模型：

3.根据权利要求2所述的基于自适应微调策略的跨领域序列推荐方法，其特征在于，所选择的遮蔽项目数量是用户行为序列总项目数量的30％-40％，所选遮蔽项目中80％被直接遮蔽，10％保持不变，10％被替换。

4.根据权利要求1所述的基于自适应微调策略的跨领域序列推荐方法，其特征在于，根据以下子步骤获得所述调整的序列推荐模型：

5.根据权利要求4所述的基于自适应微调策略的跨领域序列推荐方法，其特征在于，所述策略网络包括一个空洞卷积神经网络残差块，用户源领域行为序列在经过该空洞卷积神经网络残差块后，利用Gumbel-softmax采样策略进行采样得到策略动作序列。

6.根据权利要求5所述的基于自适应微调策略的跨领域序列推荐方法，其特征在于，所述微调网络包括多个空洞卷积神经网络残差块，其中空洞卷积神经网络残差块的数量和所述预训练序列推荐模型中空洞卷积神经网络残差块的数量相等，将所有的空洞卷积神经网络残差块复制一份，其中一份作为复用层，另一份作为微调层，该复用层的参数数值与所述预训练序列推荐模型中对应的参数数值相同，而该微调层的参数数值在训练过程变化。

7.根据权利要求6所述的基于自适应微调策略的跨领域序列推荐方法，其特征在于，策略动作的数量与所述微调网络中空洞卷积神经网络残差块的数量相等，用于指导所述微调网络在每一个空洞卷积神经网络残差块选择进入复用层或者微调层。

8.根据权利要求6所述的基于自适应微调策略的跨领域序列推荐方法，其特征在于，通过最大化正例选择概率、最小化负例选择概率联合优化所述微调网络和所述策略网络。

9.一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现根据权利要求1至8中任一项所述方法的步骤。

10.一种计算机设备，包括存储器和处理器，在所述存储器上存储有能够在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至8中任一项所述的方法的步骤。