CN112905648B

CN112905648B - 一种基于多任务学习的多目标推荐方法及系统

Info

Publication number: CN112905648B
Application number: CN202110157059.1A
Authority: CN
Inventors: 王玉龙; 陈维玮; 刘同存; 王纯; 张磊; 王晶
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2021-02-04
Filing date: 2021-02-04
Publication date: 2022-09-20
Anticipated expiration: 2041-02-04
Also published as: CN112905648A

Abstract

一种基于多任务学习的多目标推荐系统，包括用户多种行为序列获取模块、权重生成模块、GRU网络共享模块、SNR子网络路由模块、特征提取模块和多目标预测模块；一种基于多任务学习的多目标推荐方法，包括如下操作步骤：(1)根据用户与交互对象的交互行为，构建构造用户行为序列样本集合；(2)使用用户行为序列样本集合对系统进行训练；(3)保存训练好的系统最优模型，并通过系统最优模型计算并保存相关数据的最优值；(4)模型预测；(5)将得分最高的待推荐对象推荐至用户。

Description

一种基于多任务学习的多目标推荐方法及系统

技术领域

本发明涉及一种基于多任务学习的多目标推荐方法及系统，属于信息技术领域，特别是属于个性化推荐技术领域。

背景技术

推荐系统旨在帮助用户在众多信息中快速发现最感兴趣的信息，如：音乐、新闻资讯等。目前大部分推荐技术只进行单目标训练，例如使用LR(逻辑回归)、GBDT(梯度提升决策树)、深度学习等算法的点击率(CTR)预估技术。但是，对多个目标进行建模是推荐系统的常见需求，例如，因为用户的反馈是多种类型的，包括点击、完整播放等，只对单一反馈进行单目标优化的推荐算法推荐出的信息很可能有偏差，单独优化点击率的模型容易推荐出来标题党，单独优化完整播放率的模型可能短音乐短视频就容易被推荐出来，所以多目标推荐的需求应运而生，有必要同时优化点击率、完整播放率。

多目标推荐问题与单目标推荐问题不同，单目标推荐问题只优化单一目标，例如提高平台的点击率，但是平台的完整播放率等其他指标可能会变差，多目标推荐问题有多个目标函数，其目的是找到一种推荐方法使得多个目标达到整体最优，例如同时提高平台的点击率、完整播放率等。以音乐推荐系统为例，为了分析用户对推荐结果的满意性，推荐系统的业务指标不只是用户播放率，还有分享率、下载率、播放时长等指标，用户播放了某首歌曲不代表会完整播放也不代表会分享或下载，播放率与播放时长、分享率、下载率的关系并非是同步提升，有时候甚至呈现出此消彼长的趋势，因此，需要对多目标联合训练，通过多目标推荐模型尽可能地去求解多目标的共同最优解，希望同时提高系统中音乐的播放率、完整播放率、分享率、下载率等，更好地满足用户需求才能提高用户的留存率和活跃度。

多目标推荐的难点是同一套参数难以表达点击行为、完整播放行为等多种混合样本的分布。目前人们也提出了一些多目标推荐方法，但这些方法普遍存在一个共性问题即；当多个目标之间存在一定程度的冲突时，这些方法无法解决由于目标之间的冲突所导致多目标推荐模型推荐误差大的问题。

如何解决多目标推荐方法所存在的上述问题，成为多目标推荐技术领域一个亟待解决的技术难题。

发明内容

有鉴于此，本发明的目的就是发明一种多目标推荐方法和系统，当多个目标之间存在一定程度的冲突时，仍然能够保证多个目标行为预测值的精度。

为了达到上述目的，本发明提出了一种基于多任务学习的多目标推荐系统，所述系统包括用户多种行为序列获取模块、权重生成模块、GRU网络共享模块、SNR子网络路由模块、特征提取模块和多目标预测模块；各模块的功能如下：

用户多种行为序列获取模块的功能是：

(1)构造用户行为序列集合S，具体是：选取N位用户，根据用户行为类型将行为分为P种行为，分别记作B₁,...,B_P，其中P＝3，表示用户行为类型分为3种：收藏、下载和分享，即B₁＝“收藏”，B₂＝“下载”，B₃＝“分享”；为每位用户分别选取其发生了行为B₁,...,B_P的交互对象ID，并按行为发生时间的先后顺序排列，来构成用户行为序列；将每位用户的历史行为的发生时间划分为T个时间槽；用户行为元组

表示第i位用户在第t个时间槽对交互对象o所发生的多种交互行为，

表示是否发生了行为B₁,...,B_P；所有用户的行为元组组成用户行为序列集合S，集合S包括N*T个(M+P)维向量，其中M为待推荐对象的总数，所有待推荐对象组成的集合等于所有交互对象组成的集合；用户i在第t个时间槽的行为S_it是(M+P)维向量，前M项S_it[0:M-1]是用户i在第t个时间槽的交互对象ID的one-hot向量，后P项S_it[M:M+P-1]是用户i在第t个时间槽与交互对象发生的行为类型的multi-hot向量；

(2)构造用于系统训练的用户行为序列正样本集合S⁺和负样本集合S^-，具体是：遍历用户行为序列集合S，每次读入一个用户行为元组，则向正样本集合S⁺和负样本集合S^-中分别加入一个三元组，具体为：读入用户i第t个时间槽的用户行为元组

向正样本集合S⁺中加入一个三元组{x_i,j,Y_ij}，其中x_i为用户i前t-1个时间槽的交互对象序列，即x_i＝{S_i1[0:M-1],...,S_it-1[0:M-1]}，由于x_i序列长度小于T，所以在序列x_i首位补充一个或多个0使得序列x_i长度为T，j为用户i第t个时间槽的交互对象ID的one-hot向量，即j＝S_it[0:M-1]，Y_ij是正样本的B₁,...,B_P行为的真实标签，Y_ij包括P个值分别记作

即Y_ij＝S_it[M:M+P-1]；向负样本集合S^-中加入一个三元组{x_i,j,Y_ij}，其中x_i与上述正样本相同，j为用户i第t个时间槽任意一个未交互的对象ID的one-hot向量，Y_ij是负样本的B₁,...,B_P行为的真实标签，Y_ij包括P个值分别记作

因为是负样本所以Y_ij全为0值。负样本集合S^-中的每个负样本与正样本集合S⁺中的每个正样本一一对应，训练时S⁺、S^-中的数据交替按批量读取；

GRU网络共享模块的功能是：

GRU网络共享模块包含k个并列的GRU网络，k值等于用户行为类型总数P，将k个GRU网络分别记作GRU¹,...,GRU^k；每个GRU网络的隐藏层单元数设定为K，利用其结构中的复位门和更新门，自动筛选出用户历史行为序列中的有用信息和用户当前行为中的重要信息，综合考虑用户的历史兴趣和即时兴趣，将用户i截止到第T个时间槽的序列信息提取为一个K维向量并输出；将k个GRU网络的输出分别记作

所述GRU网络的每一个都包含多个相同的网络单元，单元数量等于行为序列长度，每个单元对应一个时间槽；所述GRU网络以权重生成模块所输出的用户加权交互对象序列作为输入，输出最后一个单元的输出向量h_iT；第t个网络单元中，复位门和更新门是并行的两个单层全连接神经网络，以输入序列中的第t个元素向量和上一个网络单元的输出向量h_it-1的(M+K)维拼接向量为输入，以sigmoid为激活函数，输出结果即历史信息相关权重r_it和即时信息相关权重u_it，得到r_it和u_it后，通过一个单层全连接神经网络生成候选激活向量

该网络以输入序列中的第t个元素向量和加权后的上一个网络单元的输出向量r_it*h_it-1的(M+K)维拼接向量为输入，以tanh为激活函数，输出结果即K维候选激活向量

将u_it作为

的权重、(1-u_it)作为h_it-1的权重，对

和h_it-1进行加权求和得到第t个网络单元的输出向量h_it，即

SNR子网络路由模块的功能是：以所述GRU网络共享模块的输出结果

作为输入，对

进行加权求和后输出用户兴趣表示向量

其中

是用户i第T+1个时间槽时在行为B₁的预测目标中的用户兴趣表示向量，

是用户i第T+1个时间槽时在行为B_P的预测目标中的用户兴趣表示向量，维度为K；所有用户第T+1个时间槽时在每种行为的预测目标中的用户兴趣表示向量分别构成集合

所有用户第T+1个时间槽时在所有行为的预测目标中的用户兴趣表示向量构成集合U；所述预测目标为根据用户i前T个时间槽的交互行为预测用户i第T+1个时间槽对待推荐对象j发生B₁,...,B_P行为的概率，每个行为的预测作为一个预测目标，每个预测目标对应一个用户兴趣表示向量；同一用户在不同预测目标中的偏好并不相同，因此SNR子网络路由模块为每个预测目标分别输出一个用户兴趣表示向量；

SNR子网络路由模块作为所述的GRU网络共享模块和多目标预测模块之间的连接模块，将上下级网络之间的两两连接情况抽象为编码变量z；学习所述的编码变量z相当于学习所述的GRU网络共享模块的每个输出结果在多目标预测模块的输入信息中所占的权重，权重接近0则相当于对应连接断开，实现自动学习网络共享结构的功能；

根据所述的编码变量z，用户i第T+1个时间槽的用户兴趣表示向量的计算公式为：

其中z＝[z₁₁,…,z_1k,…,z_P1,…,z_Pk]是P*k维向量；

根据以下公式来生成z：

z＝g(s)＝min(1,max(0,s(δ-γ)+γ))，其中u是符合均匀分布的P*k维随机向量，log(a)为需要学习的参数，将其初始化为按照正态分布生成的P*k维随机向量，随着训练进行端到端学习，其他参数为超参数，使得编码变量z可以基于梯度进行优化；

所述SNR子网络路由模块中编码变量z的生成公式中的超参数β、δ、γ，通过网格搜索方式寻找最佳值；

权重生成模块的功能是：根据与每个预测目标的相关度对输入序列中的元素进行加权，缓解频率低的行为被淹没的问题；将所述的SNR子网络路由模块输出的用户i第T+1个时间槽的用户兴趣表示向量

和第1,2,...,T个时间槽的用户交互对象S_i1[0:M-1],S_i2[0:M-1],...,S_iT[0:M-1]作为所述权重生成模块的输入，即分别拼接

与S_i1[0:M-1],S_i2[0:M-1],...,S_iT[0:M-1]组成所述权重生成模块的输入矩阵

其中concat()表示两个向量的拼接操作，所述权重生成模块首先计算出分别作为每个预测目标下第1,2,...,T个时间槽的交互对象对于用户i的P*T个权重值，记作

所述权重生成模块需要判断所述系统是否尚未存在用户i的用户兴趣表示向量

若是，则不执行上述权重生成模块的所有计算，直接使用系统新用户默认权重值，即上述P*T个权重值全部直接赋值为1；

然后根据上述权重值，计算用户i第1,2,...,T个时间槽的用户加权交互对象

计算公式为：

k与P是相等的，一共有k*T个；

所述用户i第1,2,...,T个时间槽的用户加权交互对象

将分别作为用户i第T+1个时间槽的所述GRU网络共享模块的第1、2、…、k个GRU网络的输入序列的第1,2,...,T个元素，即

作为用户i第T+1个时间槽的所述GRU网络共享模块的第1个GRU网络的输入序列，

作为用户i第T+1个时间槽的所述GRU网络共享模块的第k个GRU网络的输入序列；

所述权重生成模块的网络结构为一个MLP网络，包括一个输入层、两个隐藏层和一个输出层，均采用sigmoid激活函数；输入层节点数等于M+K，输出层节点数等于1，第一层隐藏层节点数等于

第二层隐藏层节点数等于

特征提取模块的功能是：构造所有待推荐对象的特征表示向量集合Q，具体为：根据待推荐对象j的属性的不同进行不同的预处理：对对象j的离散属性进行one-hot处理，对对象j的连续属性进行归一化处理，将所有预处理后的属性拼接为一个向量作为所述特征提取模块的输入；所述特征提取模块的输出为待推荐对象j的特征表示向量Q_j，维度为K。所有待推荐对象的特征表示向量组成包含M个K维向量的集合Q；通过所述特征提取模块，减少人工特征提取的不准确性，更好地编码深层次复杂特征作为待推荐对象的特征表示；

所述特征提取模块的网络结构为一个MLP网络，包括一个输入层、两个隐藏层和一个输出层，均采用ReLU激活函数；输入层节点数等于所有属性预处理后拼接成的向量维度记作F，输出层节点数等于K，第一层隐藏层节点数等于

第二层隐藏层节点数等于

多目标预测模块的功能是：每个预测目标分别对应一个独立的MLP网络，记作

分别以所述的SNR子网络路由模块输出的用户i第T+1个时间槽的用户兴趣表示向量

和待推荐对象特征表示向量集合Q作为输入，则最终第i位用户第T+1个时间槽输出的对待推荐对象j的多目标预测概率为

其中

是用户i第T+1个时间槽对待推荐对象j的发生行为B₁的预测概率，

是用户i第T+1个时间槽对待推荐对象j的发生行为B_P的预测概率；

是所述多目标预测模块中每个预测目标对应的MLP网络，concat()表示两个向量的拼接操作；对于

每个网络的结构均为：一个输入层、一个隐藏层和一个输出层，输入层节点数为K*2，隐藏层节点数为K/2，隐藏层使用ReLU激活函数，输出层节点数为2，输出层使用softmax损失函数，两个输出节点值分别代表发生对应交互行为的概率和不发生对应交互行为的概率，只保存第一个节点的值即发生此行为的概率记作

从而构造用户-待推荐对象多目标预测概率集合Prob。

本发明还提出了一种基于多任务学习的多目标推荐方法，所述方法包括如下操作步骤：

(1)根据用户与交互对象的交互行为，用户多种行为序列获取模块构建构造用户行为序列集合S；构造用于系统训练的用户行为序列正样本集合S⁺和负样本集合S^-；

用户行为序列数据用于模型训练时，划分方式为：分别给定用户前1,2,...,T-1个时间槽的用户行为序列，预测该用户第2,3,...,T个时间槽时与待推荐对象j发生行为B₁,...,B_P的概率，其中P＝3，表示用户行为类型分为3种：收藏、下载和分享，即B₁＝“收藏”，B₂＝“下载”，B₃＝“分享”，对于每个正的样本，随机抽取一个负的样本；负样本集合S^-中的每个负样本与正样本集合S⁺中的每个正样本一一对应，训练时S⁺、S^-中的数据交替按批量读取；

用户行为序列数据用于模型预测时，划分方式为：给定用户前T个时间槽的用户行为序列，预测该用户第T+1个时间槽时与待推荐对象j发生行为B₁,...,B_P的概率，每个行为的预测作为一个任务；

(2)使用所述的用户行为序列正样本集合S⁺和负样本集合S^-，对系统进行训练，即：采用梯度下降法，对用户兴趣表示向量集合U、待推荐对象特征表示向量集合Q、用户-待推荐对象多目标预测概率集合Prob构成中涉及的所有权重参数以及SNR子网络路由模块中的分布参数进行优化；具体内容如下：

先执行前向传播，计算用户兴趣表示向量集合U、待推荐对象特征表示向量集合Q、用户-待推荐对象多目标预测概率集合Prob，再执行反向传播对系统各个模块中所有神经网络层的权值参数、SNR子网络路由模块的分布参数进行反向调整；重复上述过程直至收敛；

对于系统模块中涉及到的超参数，即：GRU网络共享模块中GRU网络的隐藏层单元数K、SNR子网络路由模块中编码变量z的生成公式中的β、δ、γ，通过网格搜索方式寻找最佳值；

(3)保存训练好的系统最优模型saved_model，并通过系统最优模型saved_model计算并保存相关数据的最优值，具体为：计算并保存所有待推荐对象的特征表示向量集合Q的最优值Q'；计算并保存所有用户的第T+1个时间槽的最优中间结果，对用户i，计算并保存用户i第T+1个时间槽的GRU网络共享模块中GRU¹,...,GRU^k的输出结果记作

计算并保存所有用户第T+1个时间槽的GRU网络共享模块中GRU¹,...,GRU^k的输出结果所构成的k个集合H¹，...,H^k，H¹，...,H^k均为N个K维向量的集合；计算并保存用户i第T+1个时间槽的兴趣表示向量

的最优值

计算并保存所有用户第T+1个时间槽的用户兴趣表示向量

的最优值

均为N个K维向量的集合；

(4)模型预测，即基于所述的最优系统模型saved_model、根据用户兴趣表示向量最优值

待推荐对象特征表示向量最优值Q'，并根据用户行为序列集合S，预测每个用户的未来行为，即预测用户i在第T+1个时间槽下对所有待推荐对象的B₁,...,B_P行为的发生概率，具体为：对待推荐对象j，预测用户i在第T+1个时间槽下的B₁,...,B_P行为的发生概率是

其中

是多目标预测模块中每个预测目标对应的MLP网络，concat()表示两个向量的拼接操作，

是用户i在每个预测目标中的用户兴趣表示向量最优值，Q'_j是待推荐对象j的特征表示向量最优值；待推荐对象特征表示向量与当前预测目标中的用户兴趣表示向量越相近的待推荐对象获得的预测概率越高；

(5)根据设置的每个预测目标的权重参数

对所述的用户i在第T+1个时间槽下对所有待推荐对象发生B₁,...,B_P行为的预测概率进行加权求和得到用户i对所有待推荐对象的综合得分，具体为：对待推荐对象j，对所述的用户i在第T+1个时间槽下发生B₁,...,B_P行为的预测概率

进行加权求和得到用户i对待推荐对象j的综合得分

对所有待推荐对象的综合得分进行排序；按照排序结果，将所述得分最高的待推荐对象推荐至用户i。

步骤2中所述采用梯度下降法对系统进行训练的具体内容是：基于用户-待推荐对象多目标预测概率集合Prob，利用随机梯度下降法优化系统模型，希望正负样本的各个行为的发生概率预测值都尽可能接近其真实标签，此外为目标函数增加一个附加项以鼓励标签相似的待推荐对象在系统模型中提取到的特征表示向量也相似；统计两两待推荐对象的标签交集中的标签个数集合Count并进行最大值归一化后保存为M*M个标量的集合W；将待推荐对象a的标签集合记作A、待推荐对象b的标签集合记作B，则a和b的标签交集中的标签个数为

进行最大值归一化后得到标签共现度

系统的优化目标函数定义如下：

其中S⁺表示正样本集合，S^-表示负样本集合，|S⁺|表示正样本个数，|S^-|表示负样本个数，

表示正负样本中用户i对交互对象j的B₁,...,B_P行为的真实标签，0表示没有发生，1表示发生，

表示系统模型预测得到的用户i在第T+1个时间槽下对待推荐对象j发生B₁,...,B_P行为的概率，|Q|表示待推荐对象特征表示向量集合中元素的个数，即待推荐对象个数，W_ab表示待推荐对象a和b的标签共现度，即代表标签相似程度，|Q_a-Q_b|表示待推荐对象a和b的特征表示向量之间的欧式距离，

是每个预测目标的对数损失函数，B₁,...,B_P每个行为的发生概率的预测作为一个预测目标，W_ab|Q_a-Q_b|是附加项，以鼓励标签相似的待推荐对象a和b在系统模型中提取到的特征表示向量Q_a、Q_b也相似。

参数更新方法选用自适应矩估计ADAM优化器。

对于步骤2和步骤3，要按照设定的周期，对系统进行离线训练，保存训练好的系统最优模型saved_model，并通过系统最优模型saved_model计算并保存相关数据的最优值。

步骤3中所述的用户兴趣表示向量最优值

要根据用户的实时行为进行实时增量更新，具体为：当用户i产生新行为时，将交互对象ID的one-hot向量记作S'_i；

通过以下公式更新

其中，attention()表示权重生成模块的输出值，即

表示S'_i在B₁行为预测目标中的权重；GRU^1',...,GRU^k'代表GRU网络共享模块中GRU¹,...,GRU^k的最后一个单元；直接将

作为倒数第二个单元输入给最后一个单元的记忆信息，而不需要再重复计算一遍除最后一个单元外的其他单元；将attention()与

拼接后的向量作为输入给最后一个单元的向量；SNR()表示经过SNR子网络路由模块的所有计算步骤产生的输出结果；括号内代表其需要的所有输入。

本发明的有益效果在于：本发明的方法和系统基于多任务学习，利用了注意力机制，扩展了循环神经网络GRU同时提取多种行为序列信息的能力，当多个目标之间存在一定程度的冲突时，仍然能够保证多个目标行为预测值的精度。

附图说明

图1是本发明提出的一种基于多任务学习的多目标推荐系统的组成模块示意图。

图2是本发明实施例中GRU网络共享模块中的GRU网络的结构示意图。

图3是本发明实施例中SNR子网络路由模块的结构示意图。

图4是本发明实施例中权重生成模块的结构示意图。

图5是本发明实施例中特征提取模块的结构示意图。

图6是本发明实施例中多目标预测模块的结构示意图。

图7是本发明提出的一种基于多任务学习的多目标推荐方法的流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明作进一步的详细描述。

参见图1，介绍本发明提出的本发明提出了一种基于多任务学习的多目标推荐系统，所述系统包括用户多种行为序列获取模块、权重生成模块、GRU网络共享模块、SNR子网络路由模块、特征提取模块和多目标预测模块；各模块的功能如下：

用户多种行为序列获取模块的功能是：

表示是否发生了行为B₁,...,B_P；所有用户的行为元组组成用户行为序列集合S，集合S包括N*T个(M+P)维向量，其中M为待推荐对象的总数，所有待推荐对象组成的集合等于所有交互对象组成的集合；用户i在第t个时间槽的行为S_it是(M+P)维向量，前M项S_it[0:M-1]是用户i在第t个时间槽的交互对象ID的one-hot(独热编码)向量，后P项S_it[M:M+P-1]是用户i在第t个时间槽与交互对象发生的行为类型的multi-hot(多热编码)向量；

参见图2，对GRU(Gated Recurrent Unit门控循环单元)网络共享模块进行介绍。图2中，我们只画出了GRU网络共享模块中的第一个GRU网络。GRU网络共享模块的功能是：

将u_it作为

的权重、(1-u_it)作为h_it-1的权重，对

和h_it-1进行加权求和得到第t个网络单元的输出向量h_it，即

参见图3，对SNR子网络路由模块进行介绍(有关SNR子网络路由的概念可参见文献Ma J,Zhao Z,Chen J,et al.SNR:Sub-Network Routing for Flexible ParameterSharing in Multi-task Learning[J].Proceedings of the AAAI Conference onArtificial Intelligence,2019.)，在图3中，以用户行为类型总数P＝3为例。SNR子网络路由模块的功能是：以所述GRU网络共享模块的输出结果

作为输入，对

进行加权求和后输出用户兴趣表示向量

其中

其中z＝[z₁₁,…,z_1k,…,z_P1,…,z_Pk]是P*k维向量；

根据以下公式来生成z：

所述SNR子网络路由模块中编码变量z的生成公式中的超参数β、δ、γ，通过网格搜索方式寻找最佳值。在实施例中我们建议β＝0.667,δ＝1.1,γ＝-0.1；

参见图4，对权重生成模块进行介绍，在图4中，以用户行为类型总数P＝3为例。权重生成模块的功能是：根据与每个预测目标的相关度对输入序列中的元素进行加权，缓解频率低的行为被淹没的问题；将所述的SNR子网络路由模块输出的用户i第T+1个时间槽的用户兴趣表示向量

计算公式为：

k与P是相等的，一共有k*T个；

所述用户i第1,2,...,T个时间槽的用户加权交互对象

第二层隐藏层节点数等于

符号

表示上取整运算；

参见图5，特征提取模块的功能是：构造所有待推荐对象的特征表示向量集合Q，具体为：根据待推荐对象j的属性的不同进行不同的预处理：对对象j的离散属性进行one-hot处理，对对象j的连续属性进行归一化处理，将所有预处理后的属性拼接为一个向量作为所述特征提取模块的输入；所述特征提取模块的输出为待推荐对象j的特征表示向量Q_j，维度为K。所有待推荐对象的特征表示向量组成包含M个K维向量的集合Q；通过所述特征提取模块，减少人工特征提取的不准确性，更好地编码深层次复杂特征作为待推荐对象的特征表示；

第二层隐藏层节点数等于

符号[]表示取整运算；

参见图6，对多目标预测模块进行介绍，在图6中，以用户行为类型总数P＝3为例。多目标预测模块的功能是：每个预测目标分别对应一个独立的MLP(MultilayerPerceptron多层感知机)网络，记作

其中

从而构造用户-待推荐对象多目标预测概率集合Prob。

参见图7，本发明还提出了一种基于多任务学习的多目标推荐方法，所述方法包括如下操作步骤：

下面以一个音乐推荐系统进行示例说明：

假设该音乐推荐系统中用户数为2，歌曲数为7，行为类型为3种：收藏、下载、分享，用户行为序列长度设定为4。即N＝2，M＝7，P＝3，B₁＝“收藏”，B₂＝“下载”，B₃＝“分享”，T＝4。则收藏、下载、分享为3个目标行为，预测用户下一行为会收藏推荐歌曲的概率、下载推荐歌曲的概率、分享推荐歌曲的概率是该音乐推荐系统要同时完成的3个预测目标。

获取到的输入数据为用户行为序列集合S如下：

用于训练的正样本集合S⁺如下：

负样本集合S^-如下：

需要注意的是，若是训练阶段，则多目标预测目标为：根据用户user_1(或user_2)第2(或3或4)个时间槽之前的歌曲ID的one-hot向量组成的序列预测其在第2(或3或4)个时间槽对第2(或3或4)个时间槽的正样本歌曲和负样本歌曲进行收藏、下载、分享的概率，预测收藏概率、下载概率、分享概率是该音乐推荐系统的3个预测目标；若是上线服务阶段，则多目标预测目标为：根据用户user_1(或user_2)第5个时间槽之前的歌曲ID的one-hot向量组成的序列预测其在第5个时间槽对歌曲库中的每首歌曲进行收藏、下载、分享的概率，预测收藏概率、下载概率、分享概率是该音乐推荐系统的3个预测目标。

下面以前面所述的音乐推荐系统进行示例说明：

设定用户兴趣表示向量维度和待推荐对象特征表示向量维度均为8，即K＝8。GRU网络个数等于行为类型总数，即k＝3。

将步骤一中得到的正样本集合S⁺、负样本集合S^-作为系统的输入，先执行前向传播。以第二条正样本为例，其取自用户user_1的用户行为序列数据，下文中为方便表述将其称作“该样本”，系统各模块前向传播计算流程如下：

(a)GRU网络共享模块：GRU网络共享模块包含3个并列的GRU网络，以权重生成模块所输出的用户加权交互对象序列作为输入，将长度为4的用户加权交互对象序列的信息提取为一个8维向量并输出；每个GRU网络隐藏层单元数均设定为8；每个GRU网络包含4个相同的网络单元，每个单元对应一个序列元素；每个GRU网络的最后一个单元的输出向量作为其输出，分别记作

是3个8维向量。

(b)SNR子网络路由模块：根据经验设定参数β＝0.667,δ＝1.1,γ＝-0.1，u为由均匀分布产生的随机向量，维度为k*P，即维度为9，初始化需要学习的参数log(a)为由均值为0、标准差为0的正态分布产生的随机向量，维度为k*P，即维度为9。通过以下公式

z＝g(s)＝min(1,max(0,1.2s-0.1))计算得到编码向量z，即[z₁₁,z₁₂,z₁₃,z₂₁,z₂₂,z₂₃,z₃₁,z₃₂,z₃₃]。SNR子网络路由模块的输入为所述GRU网络共享模块的输出

根据

计算得到输出结果

是3个8维向量。同一用户收藏歌曲的偏好、下载歌曲的偏好、分享歌曲的偏好并不相同，因此预测收藏概率、预测下载概率、预测分享概率这三个预测目标所对应的用户兴趣表示向量也不同，SNR子网络路由模块为三个预测目标分别输出一个用户兴趣表示向量。

(c)权重生成模块：网络结构为一个MLP网络，包括一个输入层、两个隐藏层和一个输出层，均采用sigmoid激活函数；输入层节点数等于15，隐藏层节点数分别等于4和2，输出层节点数等于1。将所述SNR子网络路由模块输出的用户user_1的用户兴趣表示向量

和该样本第1,2,3,4个时间槽的用户交互对象[0000000,0000000,1000000,0100000]作为所述权重生成模块的输入，即分别拼接

与[0000000,0000000,1000000,0100000]组成所述权重生成模块的输入矩阵

其中concat()表示两个向量的拼接操作，权重生成模块首先依次将所述输入矩阵中的每一个拼接向量作为MLP网络的输入，计算出分别作为收藏、下载、分享行为预测目标下该样本第1,2,3,4个时间槽的交互对象对于用户user_1的P*T个权重值，记作

所述权重生成模块需要判断所述系统是否尚未存在用户user_1的用户兴趣表示向量

若是，则不执行上述权重生成模块的所有计算，直接使用系统新用户默认权重值，即上述P*T个权重值全部直接赋值为1。

然后根据上述权重值，计算该样本第1,2,3,4个时间槽的用户加权交互对象

计算公式为：

该样本第1,2,3,4个时间槽的用户加权交互对象

将分别作为该样本的所述GRU网络共享模块的第1、2、3、4个GRU网络的输入序列的第1,2,3,4个元素，即

作为该样本的所述GRU网络共享模块的第1个GRU网络的输入序列，

作为该样本的所述GRU网络共享模块的第2个GRU网络的输入序列，

作为该样本的所述GRU网络共享模块的第3个GRU网络的输入序列。

(d)特征提取模块：网络结构是1个MLP网络，包括一个输入层、两个隐藏层和一个输出层，均采用ReLU激活函数；输入层节点数为16，隐藏层共2层其节点数分别为12和3，输出层节点数为8，即输出维度为8的向量。特征提取模块的输入是正样本歌曲4的时长、歌手、语言、风格，对时长进行归一化处理，对歌手、语言、风格分别进行one-hot处理，将处理后的所有特征拼接为一个向量作为MLP网络的输入，假设歌手共7位，语言共4种，风格共4种，则输入向量的维度为1+7+4+4＝16，通过MLP网络提取深层次复杂特征作为输出向量，记作Q₄。

(e)多目标预测模块：收藏、下载、分享行为预测目标分别对应一个独立的MLP网络，记作tower^收藏,tower^下载,tower^分享。对于tower^收藏,tower^下载,tower^分享，每个网络的结构均为：输入层节点数为K*2，即输入层节点数为16，隐藏层共1层其节点数为4，隐藏层使用ReLU激活函数，输出层节点数为2，输出层使用softmax损失函数，两个输出节点值分别代表发生对应交互行为的概率和不发生对应交互行为的概率，只保存第一个节点的值即发生此行为的概率记作Prob^收藏,Prob^下载,Prob^分享。

tower^收藏以SNR子网络路由模块输出结果中的

和特征提取模块输出结果中的正样本歌曲4对应的向量Q₄拼接后的向量为输入，输出该样本中用户user_1在第5个时间槽收藏歌曲4的概率预测值

tower^下载以SNR子网络路由模块输出结果中的

和Q₄拼接后的向量为输入，输出该样本中用户user_1在第5个时间槽下载歌曲4的概率预测值

tower^分享以SNR子网络路由模块输出结果中的

和Q₄拼接后的向量为输入，输出该样本中用户user_1在第5个时间槽分享歌曲4的概率预测值

至此该样本的前向传播已完成，完成一批样本的前向传播后，选用ADAM优化器根据所述系统的目标函数执行反向传播，对系统各个模块中所有神经网络层的权值参数、SNR子网络路由模块的分布参数进行反向调整。前向传播和反向传播交叉进行，重复进行前向传播和反向传播直到收敛。

的最优值

计算并保存所有用户第T+1个时间槽的用户兴趣表示向量

的最优值

均为N个K维向量的集合；

下面以前面所述的音乐推荐系统进行示例说明：

保存训练好的系统最优模型saved_model，并将输入给系统最优模型saved_model，计算并保存相关数据的最优值，具体为：计算并保存所有待推荐歌曲即歌曲1到7的特征表示向量集合Q的最优值Q'；将用户行为序列集合S中每位用户的4首交互歌曲ID的one-hot向量组成的序列作为系统最优模型saved_model的输入，计算并保存所有用户的第5个时间槽的最优中间结果，对用户user_1，计算并保存用户user_1第5个时间槽的GRU网络共享模块中GRU¹,GRU²,GRU³的输出结果记作

对用户user_2，计算并保存用户user_2第5个时间槽的GRU网络共享模块中GRU¹,GRU²,GRU³的输出结果记作

所有用户即用户user_1和user_2第5个时间槽的GRU网络共享模块中GRU¹,GRU²,GRU³的输出结果构成3个集合H¹,H²,H³，H¹,H²,H³均为2个8维向量的集合；计算并保存用户user_1的第5个时间槽的兴趣表示向量

的最优值

计算并保存用户user_2的第5个时间槽的兴趣表示向量

的最优值

所有用户即用户user_1和user_2第5个时间槽的用户兴趣表示向量U^收藏,U^下载,U^分享的最优值构成3个集合U'^收藏,U'^下载,U'^分享，U'^收藏,U'^下载,U'^分享均为2个8维向量的集合；

以24小时为周期定期离线进行模型训练并更新上述保存结果。

其中

下面以前面所述的音乐推荐系统进行示例说明：

基于所述的最优系统模型saved_model，根据用户兴趣表示向量最优值U'^收藏,U'^下载,U'^分享、待推荐对象特征表示向量最优值Q'，预测所有用户在第5个时间槽下对所有待推荐歌曲发生收藏、下载、分享行为的概率。以用户user_1为例，分别拼接

和Q'₁,...,Q'₇作为tower¹网络的输入，tower^收藏网络输出用户user_1在第5个时间槽收藏歌曲1到7的概率预测值

tower^下载网络输出用户user_1在第5个时间槽收藏歌曲1到7的概率预测值

tower^分享网络输出用户user_1在第5个时间槽收藏歌曲1到7的概率预测值

(5)根据设置的每个预测目标的权重参数

进行加权求和得到用户i对待推荐对象j的综合得分

下面以前面所述的音乐推荐系统进行示例说明：

以用户user_1为例，除去短期内听过的歌曲，对歌曲库的其他歌曲：歌曲3、5、6依次进行综合分计算。根据步骤4得到的结果，对歌曲3的收藏概率、下载概率、分享概率预测值为

对歌曲5的收藏概率、下载概率、分享概率预测值为

对歌曲6的收藏概率、下载概率、分享概率预测值为

设置的收藏、下载率预测目标、分享率预测目标的权重参数为60％，10％，30％。则针对歌曲3的综合分为0.9*60％+0.6*10％+0.4*30％＝0.72，则针对歌曲5的综合分为0.3*60％+0.4*10％+0.1*30％＝0.25，则针对歌曲6的总期望值为0.6*60％+0.9*10％+0.4*30％＝0.57。因此，按综合分从大到小排序是：歌曲3，歌曲6，歌曲5。假设所述音乐推荐系统需要每次为用户推荐一首歌曲，则为用户user_1推荐歌曲3。

进行最大值归一化后得到标签共现度

下面以前面所述的音乐推荐系统进行示例说明：

歌曲库共7首歌曲，即7个待推荐歌曲，歌曲的标签数据如下。

歌曲	标签
		歌曲1	伤感
歌曲2	手机彩铃
		歌曲3	动听、伤感
歌曲4	伤感、离别、手机彩铃
		歌曲5	欢快
歌曲6	欢快、手机彩铃
		歌曲7	离别、伤感

则两两歌曲之间的标签交集中的标签个数集合Count为

Count	歌曲1	歌曲2	歌曲3	歌曲4	歌曲5	歌曲6	歌曲7
								歌曲1	0	0	1	1	0	0	1
歌曲2	0	0	0	1	0	1	0
								歌曲3	1	0	0	1	0	0	1
歌曲4	1	1	1	0	0	1	2
								歌曲5	0	0	0	0	0	1	0
歌曲6	0	1	0	1	1	0	0
								歌曲7	1	0	1	2	0	0	0

则max(Count)＝2，以歌曲1和歌曲3为例，歌曲1和歌曲3的标签关联度等于

系统的优化目标函数定义如下：

参数更新方法选用自适应矩估计ADAM优化器。

步骤3中所述的用户兴趣表示向量最优值

通过以下公式更新

其中，attention()表示权重生成模块的输出值，即

下面以前面所述的音乐推荐系统进行示例说明：

假设用户user_1产生了新行为：收藏了歌曲6，则通过公式

实时更新U'^收藏,U'^下载,U'^分享。此公式代表的计算过程为：将保存好的用户user_1在收藏歌曲方面的8维用户兴趣表示向量

和歌曲6的one-hot向量S'₁＝[0,0,0,0,0,1,0]进行拼接，输入给权重生成模块的网络得到权重值

则

同理，得到

和

将

分别与

拼接后输入给GRU^1',GRU^2',GRU^3'，GRU^1',GRU^2',GRU^3'分别代表GRU¹,GRU²,GRU³的最后一个单元。将GRU^1',GRU^2',GRU^3'输出的3个结果向量输入到SNR子网络路由模块，SNR子网络路由模块的输出结果即更新后的

用

替换U'^收藏,U'^下载,U'^分享集合中原有的

发明人对所提系统和方法进行了大量实验，并与现有的一些具有代表性的多目标推荐模型进行了对比实验，这些多目标推荐模型包括MOSE(Mixture of SequentialExperts)、MMOE(Multi-gate Mixture-of-Experts)以及单目标推荐模型GRU模型。对比实验结果如下：

对比模型	收藏率预测目标auc	下载率预测目标auc	分享率预测目标auc
				本发明所述方法	0.7863	0.7658	0.7644
GRU模型	0.7838	0.7616	0.7599
				MOSE模型	0.7854	0.7610	0.7596
MMOE模型	0.7688	0.7479	0.7523

实验结果表明本发明提出的方法在三个预测目标的效果评估值中都是最高的。auc指标是推荐系统中排序算法最常用的评估指标，auc评估值越高代表推荐效果越好。

实验结果表明本发明的方法和系统是有效的。

Claims

1.一种基于多任务学习的多目标推荐系统，其特征在于：所述系统包括用户多种行为序列获取模块、权重生成模块、GRU网络共享模块、SNR子网络路由模块、特征提取模块和多目标预测模块；各模块的功能如下：

用户多种行为序列获取模块的功能是：

(1)构造用户行为序列集合S，具体是：选取N位用户，根据用户行为类型将行为分为P种行为，分别记作B₁,...,B_P，其中P＝3，表示用户行为类型分为3种：收藏、下载和分享，即B₁＝“收藏”，B₂＝“下载”，B₃＝“分享”；为每位用户分别选取其发生了行为B₁,...,B_P的交互对象ID，并按行为发生时间的先后顺序排列，来构成用户行为序列，所述交互对象是指音乐；将每位用户的历史行为的发生时间划分为T个时间槽；用户行为元组

因为是负样本所以Y_ij全为0值；负样本集合S^-中的每个负样本与正样本集合S⁺中的每个正样本一一对应，训练时S⁺、S^-中的数据交替按批量读取；

GRU网络共享模块的功能是：

将u_it作为

的权重、(1-u_it)作为h_it-1的权重，对

和h_it-1进行加权求和得到第t个网络单元的输出向量h_it，即

作为输入，对

进行加权求和后输出用户兴趣表示向量

其中

所有用户第T+1个时间槽时在所有行为的预测目标中的用户兴趣表示向量构成集合U；所述预测目标为根据用户i前T个时间槽的交互行为预测用户i第T+1个时间槽对待推荐对象j发生B₁,...,B_P行为的概率，每个行为的预测作为一个预测目标，每个预测目标对应一个用户兴趣表示向量；同一用户在不同预测目标中的偏好并不相同，因此SNR子网路由模块为每个预测目标分别输出一个用户兴趣表示向量；

其中z＝[z₁₁,…,z_1k,…,z_P1,…,z_Pk]是P*k维向量；

根据以下公式来生成z：

计算公式为：

k与P是相等的，一共有k*T个；

所述用户i第1,2,...,T个时间槽的用户加权交互对象

第二层隐藏层节点数等于

符号

表示上取整运算；

特征提取模块的功能是：构造所有待推荐对象的特征表示向量集合Q，具体为：根据待推荐对象j的属性的不同进行不同的预处理：对对象j的离散属性进行one-hot处理，对对象j的连续属性进行归一化处理，将所有预处理后的属性拼接为一个向量作为所述特征提取模块的输入；所述特征提取模块的输出为待推荐对象j的特征表示向量Q_j，维度为K；所有待推荐对象的特征表示向量组成包含M个K维向量的集合Q；通过所述特征提取模块，减少人工特征提取的不准确性，更好地编码深层次复杂特征作为待推荐对象的特征表示；

第二层隐藏层节点数等于

符号[]表示取整运算；

其中

从而构造用户-待推荐对象多目标预测概率集合Prob。

2.一种基于多任务学习的多目标推荐方法，其特征在于：所述方法包括如下操作步骤：

(1)根据用户与交互对象的交互行为，用户多种行为序列获取模块构建构造用户行为序列集合S，所述交互对象是指音乐；构造用于系统训练的用户行为序列正样本集合S⁺和负样本集合S^-；

并保存所有用户第T+1个时间槽的GRU网络共享模块中GRU¹,...,GRU^k的输出结果所构成的k个集合H¹，...,H^k，H¹，...,H^k均为N个K维向量的集合；计算并保存用户i第T+1个时间槽的兴趣表示向量

的最优值

计算并保存所有用户第T+1个时间槽的用户兴趣表示向量

的最优值

均为N个K维向量的集合；

其中

(5)根据设置的每个预测目标的权重参数

进行加权求和得到用户i对待推荐对象j的综合得分

3.根据权利要求2所述的一种基于多任务学习的多目标推荐方法，其特征在于：步骤2中所述采用梯度下降法对系统进行训练的具体内容是：基于用户-待推荐对象多目标预测概率集合Prob，利用随机梯度下降法优化系统模型，希望正负样本的各个行为的发生概率预测值都尽可能接近其真实标签，此外为目标函数增加一个附加项以鼓励标签相似的待推荐对象在系统模型中提取到的特征表示向量也相似；统计两两待推荐对象的标签交集中的标签个数集合Count并进行最大值归一化后保存为M*M个标量的集合W；将待推荐对象a的标签集合记作A、待推荐对象b的标签集合记作B，则a和b的标签交集中的标签个数为