CN112256918B

CN112256918B - 一种基于多模态动态路由的短视频点击率预测方法

Info

Publication number: CN112256918B
Application number: CN202011283162.2A
Authority: CN
Inventors: 顾盼
Original assignee: China Jiliang University
Current assignee: China Jiliang University
Priority date: 2020-11-17
Filing date: 2020-11-17
Publication date: 2021-07-06
Anticipated expiration: 2040-11-17
Also published as: CN112256918A

Abstract

本发明公开了一种基于多模态动态路由的短视频点击率预测方法。该方法分别从短视频的不同模态信息抽取用户的兴趣，然后再融合用户在多模态空间下抽取出的多兴趣，预测用户对目标短视频的点击率。本方法主要由四个部分组成：第一部分构建短视频图网络，并把短视频多模态特征分别输入图网络，更新短视频多模态特征表征；第二部分根据短视频多模态特征，采用胶囊网络生成用户在不同模态下的兴趣表征；第三部分融合不同模态下的兴趣表征，生成用户兴趣表征；第四部分根据用户的多兴趣向量表征，预测用户对目标短视频的点击率。

Description

一种基于多模态动态路由的短视频点击率预测方法

技术领域

本发明属于互联网服务技术领域，具体涉及一种基于多模态动态路由的短视频点击率预测方法

背景技术

短视频是一种新型的且时间较短的视频。短视频的拍摄不需要使用专业设备，也不需要专业技巧。用户直接通过手机就可以很方便地进行拍摄和上传到短视频平台，因此短视频平台的短视频数量增长得非常快。这使得对有效短视频推荐系统的需求非常迫切，有效的短视频推荐系统可以提升用户体验和用户黏性，从而给平台带来巨大的商业价值。

近些年，很多研究者提出了基于视频的个性化推荐方法。这些方法可以分为三类：协同过滤、基于内容的推荐和混合推荐方法。但是相比于视频，短视频有着不同的特点：时长较短且用户在一段时间内的交互序列较长。因此，短视频推荐是一个更具有挑战性的任务，并且有研究者提出了一些方法。例如，Li等人将图网络和LSTM结构融合一起，进而更好地模拟用户的偏好；Chen等人利用分层的注意力机制去计算物品和类目这两种级别的重要性，得到更准确的预测结果。

尽管这些方法取得不错的结果，但是忽视了对短视频单一模态特征的准确性表达。用户在上传短视频的视频内容时，会同时配上概括性的标题描述，用户对短视频的不同模态可能会产生不同情感，例如，用户可能喜欢某个短视频的主图，但是不喜欢该短视频的文本内容。把短视频的不同模态信息融合一块来表示短视频，无法细粒度地捕捉用户的兴趣。因此本方法分别从短视频的不同模态信息抽取用户的兴趣，然后再融合用户在多模态空间下抽取出的多兴趣，预测用户对目标短视频的点击率。

发明内容

基于上述，本发明提供了一种基于多模态动态路由的短视频点击率预测方法。它根据用户的对短视频的点击序列信息，挖掘出用户的兴趣特征，预测用户对目标短视频的点击率。

一种基于多模态动态路由的短视频点击率预测方法，包括如下步骤：

根据所有用户历史交互序列，构建短视频图网络。为了捕捉短视频和短视频之间的转移关系，我们从所有用户序列中构建物品图网络T。给定一个用户交互序列X＝[x₁，…，x_n]，任一短视频x_j为图网络T的节点，(x_j-1，x_j)为图网络T的边，(x_j-1，x_j)表示一个用户点击短视频x_j-1后点击短视频x_j。图的边数值属性为边(x_j-1，x_j)出现的次数。为了降低在线计算复杂度，本发明采用离线文件存储每个节点在图网络T中的邻居节点。

把短视频多模态特征分别输入图网络T，更新多模态特征表征。对于一个用户的点击行为序列X＝[x₁，…，x_n]，其中短视频x_j由

和

两种模态构成，

是短视频的封面图特征向量，

是短视频的文本特征向量，d是模态特征向量

的长度。把短视频封面图特征

和文本特征

分别输入图网络，生成多模态特征表征

其中p∈{a，b}。

和

更新方法相同，为了描述方便，以下公式略去p∈{a，b}，令：

其中，k代表在图网络T中的搜索深度，k的最大深度由搜索深度参数L控制。

代表节点x_j在k层的向量表征，模态a和模态b的

分别被初始化为

和

短视频的多模态特征表征

即是不同模态特征

在短视频图网络中更新深度L之后的

B(j)为短视频图网络T中短视频x_j的邻居集合，按照图T边由大到小排序采样(sampling)获得。非线性函数f表示将节点x_j的邻居节点信息融合到节点x_j中，函数f具体为：

其中，B(j)为短视频图网络T中短视频x_j的邻居集合，W^k是图参数，σ为sigmoid函数，CONCAT表示向量连接操作。AGGREGATE函数采用的最大池化(max-pooling)方法：

其中，B(j)为短视频图网络T中短视频x_j的邻居集合，W_pool是网络参数，b是偏置，σ为sigmoid函数。max代表元素级别的max操作，可以有效捕捉邻居的各个方面属性

根据短视频多模态特征

生成用户在不同模态下的兴趣表征

和

更新方法相同且参数不共享，令：

其中，p∈{a，b}，

是用户序列的第j个短视频胶囊到兴趣胶囊i的转换矩阵，兴趣胶囊i的个数是M。

是连接系数，代表

的权重，

参数采用动态路由算法更新。g是胶囊网络中常用的向量激活函数(squash)，公式如下：

其中，||·||代表向量的长度。原先应用在图像领域的胶囊网络中的动态路由算法用于分类，本方法用于聚类，即将表示相同兴趣的短视频特征聚合到一起。为了更适合推荐应用场景，进一步改进

的更新方式，原先的动态路由计算方式为：

改进之后的动态路由计算方式为：

其中，

是输入胶囊j到输出胶囊i的连接系数且初始化为0。相比于原来的动态路由更新算法，本方法更改了动态路由算法的归一化(normalization)方式，使之更适合兴趣的聚类。

融合不同模态下的兴趣表征

生成用户兴趣表征v_i。

其中，

为从短视频封面图像特征抽取出的第i个兴趣表征，

是短视频文本特征抽取出的第i个兴趣表征。参数

和参数

控制每个兴趣表征的权重，d代表兴趣表征的维度，参数

是偏置向量。σ是sigmoid激活函数。

根据用户兴趣表征，预测用户对目标短视频的点击率。根据用户兴趣表征v_i，预测目标短视频x_new的点击率。给定用户兴趣胶囊v_i，计算用户点击目标短视频x_new的概率为：

α_i＝q^T·σ(W₁·v_i+W₂·x_new+c)

其中，v_i为用户的第i个兴趣表征，x_new为目标短视频。参数

和参数

控制每个兴趣表征的权重，d代表兴趣表征的维度，参数c是偏置参数。

和

是转移矩阵，

是偏置向量，b₂是偏置标量。σ是sigmoid激活函数。

根据模型特性，设计损失函数。通过用户对目标短视频的点击率预测倍

计算预测值

和真实值y之间的误差，进而使用误差来更新模型参数。我们采用交叉熵损失函数来指导模型参数的更新过程：

其中，y∈{0，1}是真实值，代表用户是否点击了目标短视频。σ是sigmoid函数。我们采用Adam优化器更新模型参数。

为了验证本发明在短视频点击率预测中的技术效果，我们采用公开的短视频数据做实验，从指标AUC、P@50、R@50和F@50上来看，效果较最新的点击率预测方法有了显著的提升。本发明的有益技术效果如下：

(1)本发明通过所有用户历史交互序列，构建关于短视频的图网络，对短视频的单一模态信息进行了更准确的表征。

(2)本发明提出了一种基于多模态动态路由的短视频点击率预测方法，该方法改进动态路由算法，从用户的序列信息中抽象出用户的兴趣点，进而得到更准确的预测。

(3)本发明分别从短视频的不同模态信息抽取用户的兴趣，然后再融合用户在多模态空间下抽取出的多兴趣，预测用户对目标短视频的点击率。

附图说明

图1为本发明方法的流程示意图；

图2为本发明方法的模型框架图。

具体实施方式

为了更为具体地描述本发明，下面结合附图及具体实施方案对本发明的技术方案进行详细说明。

短视频点击率预测任务是建立一个模型去预测用户点击短视频的概率。用户历史序列表示为

其中x_j代表第j个短视频，l是序列的长度。因此，短视频点击率预测问题可以表示成：输入用户点击序列

以及目标短视频x_new，来预测用户对目标短视频x_new的点击率。

为此，本发明提出了一种基于多模态路由选择的短视频点击率预测方法。它分别从短视频的不同模态信息抽取用户的兴趣，然后再融合用户在多模态空间下抽取出的多兴趣，预测用户对目标短视频的点击率。本方法主要由四个部分组成，如图2所示。第一部分构建短视频图网络，并把短视频多模态特征分别输入图网络，更新短视频多模态特征表征；第二部分根据短视频多模态特征，采用胶囊网络生成用户在不同模态下的兴趣表征；第三部分融合不同模态下的兴趣表征，生成用户兴趣表征；第四部分根据用户的多兴趣向量表征，预测用户对目标短视频的点击率。

如图1所示，按照本发明的一个实施例，本方法包括如下步骤：

S100，根据所有用户历史交互序列，构建短视频图网络。为了捕捉短视频和短视频之间的转移关系，我们从所有用户序列中构建物品图网络T。给定一个用户交互序列X＝[x₁，…，x_n]，任一短视频x_j为图网络T的节点，(x_j-1，x_j)为图网络T的边，(x_j-1，x_j)表示一个用户点击短视频x_j-1后点击短视频x_j。图的边数值属性为边(x_j-1，x_j)出现的次数。为了降低在线计算复杂度，本发明采用离线文件存储每个节点在图网络T中的邻居节点。

S200，把短视频多模态特征分别输入图网络T，更新多模态特征表征。对于一个用户的点击行为序列X＝[x₁，…，x_n]，其中短视频x_j由

和

两种模态构成，

是短视频的封面图特征向量，

是短视频的文本特征向量，d是模态特征向量

的长度。把短视频封面图特征

阳文本特征

分别输入图网络，生成多模态特征表征

其中p∈{a，b}。

和

代表节点x_j在k层的向量表征，模态a和模态b的

分别被初始化为

和

短视频的多模态特征表征

即是不同模态特征

在短视频图网络中更新深度L之后的

其中，B(j)为物品图网络T中短视频x_j的邻居集合，W^k是图参数，σ为sigmoid函数，CONCAT表示向量连接操作。AGGREGATE函数采用的最大池化(max-pooling)方法：

其中，B(j)为物品图网络T中短视频x_j的邻居集合，W_pool是网络参数，b是偏置，σ为sigmoid函数。max代表元素级别的max操作，可以有效捕捉邻居的各个方面属性

S300，根据短视频多模态特征

生成用户在不同模态下的兴趣表征

和

更新方法相同且参数不共享，令：

其中，p∈{a，b}，

是用户序列的第j个短视频胶囊到兴趣胶囊i的转换矩阵，兴趣胶囊i的个数是M，本方法中通过实验验证设置为3。

是连接系数，代表

的权重，

的更新方式，原先的动态路由计算方式为：

改进之后的动态路由计算方式为：

其中，

S400，融合不同模态下的兴趣表征

生成用户兴趣表征v_i。

其中，

为从短视频封面图像特征抽取出的第i个兴趣表征，

是短视频文本特征抽取出的第i个兴趣表征。参数

和参数

控制每个兴趣表征的权重，d代表兴趣表征的维度，参数b₁、

是偏置向量。σ是sigmoid激活函数。

S500，根据用户兴趣表征，预测用户对目标短视频的点击率。根据用户兴趣表征v_i，预测目标短视频x_new的点击率。给定用户兴趣胶囊v_i，计算用户点击目标短视频x_new的概率为：

α_i＝q^T·σ(W₁·v_i+W₂·x_new+c)

其中，v_i为用户的第i个兴趣表征，x_new为目标短视频。参数

阳参数

和

是转移矩阵，

是偏置向量，b₂是偏置标量。σ是sigmoid激活函数。

S600，根据模型特性，设计损失函数。通过用户对目标短视频的点击率预测值

计算预测值

阳真实值y之间的误差，进而使用误差来更新模型参数。我们采用交叉熵损失函数来指导模型参数的更新过程：

上述对实施例的描述是为方便于本技术领域的普通技术人员能理解和应用本发明。熟悉本领域技术的人员显然可以容易地对上述实施例做出各种修改，并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此，本发明不限于上述实施例，本领域技术人员根据本发明的揭示，对于本发明做出的改进和修改都应该在本发明的保护范围之内。

Claims

1.一种基于多模态动态路由的短视频点击率预测方法，其特征在于：

根据所有用户的历史点击行为序列，构建短视频图网络T；

把短视频多模态特征分别输入短视频图网络T，更新多模态特征表征；对于当前用户的点击行为序列X＝[x₁，…，x_n]，其中短视频x_j由

和

两种模态构成，

是短视频的封面图特征向量，

是短视频的文本特征向量，模态特征向量

的长度是d；把短视频封面图特征

和文本特征

分别输入图网络，生成多模态特征表征

其中p∈{a，b}；

和

其中，k代表在图网络T中的搜索深度，k的最大深度由搜索深度参数L控制；

代表节点x_j在k层的向量表征，模态a和模态b的

分别被初始化为

和

短视频的多模态特征表征

即是不同模态特征

p∈{a，b}在短视频图网络中更新深度L之后的

B(j)为短视频图网络T中短视频x_j的邻居集合，按照图T边由大到小排序采样sampling获得；非线性函数f表示将节点x_j的邻居节点信息融合到节点x_j中；

根据短视频多模态特征

生成用户在不同模态下的兴趣表征

p∈{a，b}；

和

更新方法相同且参数不共享，令：

其中，p∈{a，b}，

是当前用户点击行为序列X＝[x₁，…，x_n]的第j个短视频胶囊到兴趣胶囊i的转换矩阵，兴趣胶囊i的个数是M；用户兴趣表征

的向量长度为d；g是胶囊网络中常用的squash向量激活函数；

是连接系数，代表

的权重，

参数采用如下动态路由算法更新

其中，

是输入胶囊j到输出胶囊i的连接系数且初始化为0；

融合不同模态下的兴趣表征

p∈{a，b}，生成用户兴趣表征v_i；

其中，

为从短视频封面图像特征抽取出的第i个兴趣表征，

是短视频文本特征抽取出的第i个兴趣表征；参数

和参数W₁，W₂，W′₁，

是偏置向量；σ是sigmoid激活函数；

根据用户兴趣表征v_i，预测用户对目标短视频的点击率：

其中，v_i为用户的第i个兴趣表征，x_new为目标短视频向量表征；参数

和参数W₁，

控制每个兴趣表征的权重，d既是短视频模态特征向量的长度又是用户兴趣表征的长度，参数c是偏置参数；

和

是转移矩阵，

是偏置向量，b₂是偏置标量；σ是sigmoid激活函数；

根据模型特性，设计损失函数；通过用户对目标短视频的点击率预测值

计算预测值

和真实值y之间的误差，进而使用误差来更新模型参数；采用交叉熵损失函数来指导模型参数的更新过程：

其中，y∈{0，1}是真实值，代表用户是否点击了目标短视频；σ是sigmoid函数；最后采用Adam优化器更新模型参数。

2.根据权利要求1所述的一种基于多模态动态路由的短视频点击率预测方法，其特征在于：所述短视频图网络T构造方法为：

为了捕捉短视频和短视频之间的转移关系，我们从所有用户的历史点击行为序列中构建短视频图网络T；给定一个用户u^τ历史点击行为序列x^τ＝[x₁，…，x_l]，l是用户u^τ的行为序列x^τ的长度，任一短视频x_j为图T的节点，(x_j-1，x_j)为图网络T的边，(x_j-1，x_j)表示一个用户点击短视频x_j-1后点击短视频x_j；图的边数值属性为边(x_j-1，x_j)出现的次数；为了降低在线计算复杂度，采用离线文件存储每个节点在图网络T中的邻居节点。

3.根据权利要求1所述的一种基于多模态动态路由的短视频点击率预测方法，其特征在于：所述非线性函数f为：

其中，B(j)为短视频图网络T中短视频x_j的邻居集合，W^k是图参数，σ为sigmoid函数，CONCAT表示向量连接操作；AGGREGATE函数采用的最大池化max-pooling方法：

其中，B(j)为短视频图网络T中短视频x_j的邻居集合，W_pool是网络参数，b是偏置向量bias vector，σ为sigmoid函数；max代表元素级别的max操作，可以有效捕捉邻居的各个方面属性。