CN113095883A

CN113095883A - 基于深度交叉注意力网络的视频付费用户预测方法及系统

Info

Publication number: CN113095883A
Application number: CN202110430090.8A
Authority: CN
Inventors: 彭朝晖; 许晓康; 王雪; 郝振云; 王健
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2021-04-21
Filing date: 2021-04-21
Publication date: 2021-07-09
Anticipated expiration: 2041-04-21
Also published as: CN113095883B

Abstract

本发明属于深度学习领域，提供了一种基于深度交叉注意力网络的视频付费用户预测方法及系统。其中，该方法包括基于深度交叉注意力自动编码器从用户免费视频序列与付费视频序列中分别提取增强的免费视频偏好向量和付费视频偏好向量；将用户画像信息映射成用户向量，再与增强的免费视频偏好向量和付费视频偏好向量进行拼接；将拼接后的向量输入至多层感知机，按照用户预测付费的概率大小排序，得到超过阈值概率的用户列表，即为潜在视频付费用户。其提高了预测潜在视频付费用户的准确性。

Description

基于深度交叉注意力网络的视频付费用户预测方法及系统

技术领域

本发明属于深度学习领域，尤其涉及一种基于深度交叉注意力网络的视频付费用户预测方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

付费会员模式被广泛应用于爱奇艺、优酷等各大视频网站及海信聚好看等智能电视平台当中，用户购买会员服务后，可以享受更多更优质的视频资源以及更好的观看体验。当视频会员服务所提供的视频资源对于用户具有较高的吸引力时会促使用户产生强烈的付费意愿，从而成为潜在的会员用户。平台可以针对该类潜在会员用户及时进行营销促使其付费转化，以此提高平台的收益，增强了用户粘度。因此对于视频平台而言促进用户从非会员到会员的转化至关重要，而其中最重要的就是识别具有高付费概率的潜在会员。

当前对于视频网站付费会员预测的方法比较匮乏。与之相近的问题是点击率预测问题，指系统通过用户行为历史预测某个广告或商品被点击的概率，根据该广告或项目被点击的概率进行排序后进行展示。这两者的区别在于视频用户预测问题需要依据用户对于套餐内付费视频的兴趣来预测用户为会员服务付费的概率，而不是对某一特定视频感兴趣的概率。研究视频付费用户预测问题，要通过分析用户观看视频的行为数据刻画用户付费视频偏好，并依此预测用户购买视频会员的概率。而在实际情况中，由于非会员用户对于付费视频仅具有试看权限，导致其付费视频的观看历史非常稀疏。发明人发现，使用传统的预测方法根据用户画像和用户行为序列进行建模预测，势必会面临数据稀疏性问题，从而降低视频付费用户预测结果的准确性。

发明内容

为了解决上述背景技术中存在的技术问题，本发明提供一种基于深度交叉注意力网络的视频付费用户预测方法及系统，其通过基于迁移学习的交叉注意力自动编码器进行辅助域(即用户的免费视频偏好)和目标域(即用户的付费视频偏好)进行信息共享和知识迁移，最后通过多层感知机，能够对潜在付费会员进行高效、准确地预测。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供一种基于深度交叉注意力网络的视频付费用户预测方法。

一种基于深度交叉注意力网络的视频付费用户预测方法，其包括：

基于深度交叉注意力自动编码器从用户免费视频序列与付费视频序列中分别提取增强的免费视频偏好向量和付费视频偏好向量；

将用户画像信息映射成用户向量，再与增强的免费视频偏好向量和付费视频偏好向量进行拼接；

将拼接后的向量输入至多层感知机，按照用户预测付费的概率大小排序，得到超过阈值概率的用户列表，即为潜在视频付费用户。

进一步地，所述深度交叉注意力自动编码器由免费视频自动编码器和付费视频自动编码器通过交叉注意力单元连接而成，以实现同一用户免费视频和付费视频这两种偏好间的知识共享与迁移学习，增强偏好表示。

进一步地，所述深度交叉注意力自动编码器每层都有一个交叉注意力单元。

进一步地，所述深度交叉注意力自动编码器的训练数据采用加入噪声的免费视频序列向量和付费视频序列向量。

进一步地，所述免费视频序列向量由免费视频播放序列根据视频向量矩阵得到对应的向量表示进行拼接得到；付费视频序列向量由付费视频播放序列根据视频向量矩阵得到对应的向量表示进行拼接得到。

进一步地，视频向量矩阵的计算过程为：

从视频信息中提取类别特征、数值特征、共现特征和文本特征；

融合上述四类特征向量并通过主成分分析进行降维，获取视频特征的低维表示，得到所有视频的向量表示并获得视频向量矩阵。

进一步地，所述的基于深度交叉注意力网络的视频付费用户预测方法，还包括：

对潜在视频付费用户推送视频会员服务信息。

本发明的第二个方面提供一种基于深度交叉注意力网络的视频付费用户预测系统。

一种基于深度交叉注意力网络的视频付费用户预测系统，其包括：

偏好向量提取模块，其用于基于深度交叉注意力自动编码器从用户免费视频序列与付费视频序列中分别提取增强的免费视频偏好向量和付费视频偏好向量；

向量拼接模块，其用于将用户画像信息映射成用户向量，再与增强的免费视频偏好向量和付费视频偏好向量进行拼接；

视频付费用户预测模块，其用于将拼接后的向量输入至多层感知机，按照用户预测付费的概率大小排序，得到超过阈值概率的用户列表，并将这些用户作为潜在视频付费用户。

本发明的第三个方面提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的基于深度交叉注意力网络的视频付费用户预测方法中的步骤。

本发明的第四个方面提供一种计算机设备。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的基于深度交叉注意力网络的视频付费用户预测方法中的步骤。

与现有技术相比，本发明的有益效果是：

本发明提供了一种基于深度交叉注意力网络的视频付费用户预测方法，其结合自然语言处理方法、迁移学习方法和神经网络模型，对用户的基本信息、视频属性和历史播放记录进行处理，然后通过基于迁移学习的交叉注意力自动编码器进行辅助域(即用户的免费视频偏好)和目标域(即用户的付费视频偏好)进行信息共享和知识迁移，最后通过多层感知机，按照用户对视频会员进行付费的概率大小排序，得到超过阈值概率的用户列表，即为潜在视频付费用户，解决了传统上使用用户画像和用户历史播放行为的预测模型在应用到视频付费用户预测时所面临的非会员用户付费视频观看行为稀疏性问题，提高了潜在视频付费用户预测的准确性。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例的基于深度交叉注意力网络的视频付费用户预测方法的模型框架图；

图2为本发明实施例的基于深度交叉注意力网络的视频付费用户预测方法流程图；

图3为本发明实施例的视频共现特征处理图；

图4为本发明实施例的深度交叉注意力自动编码器结构图；

图5为本发明实施例的深度交叉单元结构图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

本发明为了完善付费视频平台会员预测方法，并解决传统预测方法所面临的用户付费类视频观看历史的数据稀疏性问题，提出了一种基于迁移学习的深度交叉注意力网络的视频用户付费预测方法，根据用户丰富的免费视频播放历史学习其缺乏的付费视频偏好，在付费视频偏好和免费视频偏好之间进行有效的知识迁移，弥补付费视频偏好的不足，进而提升了预测效果。

下面结合具体实施方式来说明本发明的具体方案：

实施例一

参照图1和图2，本实施例的一种基于深度交叉注意力网络的视频付费用户预测方法，其具体包括如下步骤：

步骤S101：基于深度交叉注意力自动编码器从用户免费视频序列与付费视频序列中分别提取增强的免费视频偏好向量和付费视频偏好向量。

步骤S101为偏好间迁移学习，用户的播放序列分为免费视频播放序列和付费视频序列，用户的免费视频序列被作为辅助域，付费视频序列被作为目标域。为了从两个域中分别提取用户偏好并实现两个域之间的知识迁移，图1为深度交叉注意力自动编码器(DeepCross-Attention Autoencoder，DCAA)，其结构如图4所示。在提出的编码器中，设计了图5所示的交叉注意力单元(Cross-Attention Unit，CAunit)来连接两个自动编码器，并且实现信息共享，具体流程如下：

(1)将用户播放序列划分为免费视频的播放序列和付费视频的播放序列。

(2)根据视频表示向量矩阵X^v，将用户的免费视频序列S^f和付费视频序列S^p进行向量表示，向量拼接后分别得到免费视频序列向量x^f和付费视频序列向量x^p。

(3)为免费视频序列向量x^f和付费视频序列向量x^p分别增加噪声后得到两个自动编码器的输入

和

(4)输入加入噪声的免费视频序列向量

和付费视频序列向量

到自动编码器，以此训练深度交叉自注意力编码器。我们取编码器最后一层的输出作为偏好向量，分别记作免费视频偏好向量

和付费视频偏好向量

对于自动编码器的每一层隐藏层，对应的计算公式如下：

其中

是辅助域中免费视频序列自动编码器的第1层，g是ReLu激活函数。

是参数矩阵，控制从前一层网络传递到当前层的信息；

表示从目标域的付费视频偏好迁移到辅助域的免费视频偏好的知识，

控制迁移信息加入当前层的信息量；

是偏置项。同样地，

是目标域中付费视频序列自动编码器的第l层，

是控制从前一层传递信息到当前层的参数矩阵；

表示从辅助域的免费视频偏好迁移到目标域中的付费视频偏好的知识，

控制迁移信息加入到当前层的信息量；

是网络当前层的偏置项。经过多层的编码器和多层解码器后，两个自动编码器的输出分别为

和

分别表示重构后的免费视频序列向量和付费视频序列向量，其中L是自动编码器总层数。

深度交叉注意力自动编码器的目标函数是优化两个自动编码器的联合损失函数，是两个域的输入与各自输出的均方差之和，联合损失函数计算公式如下：

如图4所示，提出的深度交叉注意力自动编码器是由两个自动编码器通过交叉注意力单元连接而成，在网络每层都有一个交叉注意力单元。交叉注意力单元采用注意力机制(Attention Mechanism)，目的是在众多信息中找到用户更加关注更重要的信息，增强这部分信息的权重而忽略其他不重要的信息，其结构如图5所示。以自注意力机制(Self-Attention Mechanism)为例，其中注意力计算公式如下：

通过修改Attention计算公式中的Q、K、V值来计算两个域间共享的信息，计算从辅助域到目标域迁移的信息时以辅助域中的免费视频偏好为Key和Value，目标域中的付费视频偏好为Query，计算从目标域到辅助域迁移的信息时以目标域中的付费视频偏好为Key和Value，辅助域中的免费视频偏好为Query。将自动编码器每层的输出

和

转置成为矩阵

和

其中n_input是免费视频序列和付费视频序列中视频数量，k_dim是每个视频向量的维度。

修改上述公式来计算两个自动编码器之间迁移共享的知识，通过交叉注意力单元计算公式如下：

其中

表示从目标域中的付费视频偏好迁移学习到辅助域中的免费视频偏好的知识，其中

表示从辅助域中的免费视频偏好迁移学习到目标域中的付费视频偏好的知识，其中

k_l是第l层自动编码器对应的转置后的每个视频向量的维度。

由于上述计算是通过矩阵计算只能捕获两种偏好矩阵之间的线性关系，因此将其输入前馈神经网络(Feedforward Neural Network，FNN)来捕获他们之间的非线性关系，计算公式如下：

其中FFN是前馈神经网络，经过FNN之后的两个域间迁移的知识

和

与参数相乘后和自动编码器前一层输出相加后经过激活函数生成下一层。

在本实施例中，所述免费视频序列向量由免费视频播放序列根据视频向量矩阵得到对应的向量表示进行拼接得到；付费视频序列向量由付费视频播放序列根据视频向量矩阵得到对应的向量表示进行拼接得到。

具体地，视频向量矩阵的计算过程为：

视频特征表示是指学习视频的向量表示，如图1视频特征表示部分所示，具体分为以下步骤：

(1)对于视频类别特征利用映射矩阵将其映射成低维稠密向量。

对于视频的类别型特征，直接使用TensorFlow的Embedding层进行映射，学习不同类别特征的映射矩阵。将多个类别特征向量进行拼接后得到视频的类别特征向量v^c。

(2)对于视频数值特征进行规范化。

视频数值特征包括视频时长、评分等数值型特征。对数值型特征进行标准化，将数据缩放到特定区间，去除掉数据的单位限制，使得模型不受数据自身量级的影响并且可以提升模型的收敛速度和精度。数据标准化公式如下:

其中μ是当前特征数据的均值，σ是数据方差，经过处理后的数据符合标准正态分布。将各个数值特征数据进行标准化后拼接得到视频的数值特征向量vⁿ。

(3)利用观看的视频序列借助的Word2Vec学习视频的共现特征。

采用Word2Vec的跳字模型(Skip-Gram)来学习视频的共现特征。首先给定用户观看的视频序列，如图3所示：视频v_i与它所在序列中的上下文的视频都是相关的，这种相关性是由用户的观看顺序决定的。通过优化下面的目标函数来学习视频的共现向量：

其中m是视频上下文的窗口大小，K是中心视频在视频序列中的位置。而p(v_i+j/v_i)是视频v_i+j在视频v_i之后的概率，概率值p通过以下公式定义：

其中

是视频v_i+j的背景词向量，

是视频v_i的中心词向量，N是视频数量。由于视频总量过大导致目标函数优化的时间复杂性过高，使用负采样技术来优化目标函数。与每个训练样本更新所有权重，负采样使得在训练过程中每个样本只更新一小部分权重，从而降低梯度下降过程中的计算量。经过负采样后目标函数优化为：

其中Nⁿ是对一个正样本所采样负样本的数量，σ是sigmoid函数。每个负样本视频被选中的概率通过计算得到，概率计算公式与其在视频序列中出现的频次相关，负采样概率计算公式如下：

其中pⁿ(v_i)是视频v_i被负采样的概率，f(v_i)是视频v_i的出现频次，N为词典大小。经过跳字模型(Skip-Gram)模型训练学习，得到视频的共现特征向量v^co。

(4)利用BERT模型处理视频的文本特征。

视频文本特征包括视频标题和视频简介，利用自然语言模型BERT将文本表示成向量。首先对视频的标题和简介进行预处理，去掉标点符号和停用词等，将标题和简介拼接成一条文本，并在文本开头添加’CLS’标记，经过BERT模型提供的字典转换成tokens。然后将处理好的tokens输入到BERT模型中，最后取模型输出的第0个分量作为该条文本的向量表示v^t。

(5)融合四类特征向量并通过主成分分析进行降维，获取视频特征的低维表示，得到所有视频的向量表示并获得视频向量矩阵。

经过以上处理分别得到类别特征向量v^c、数值特征向量vⁿ、共现特征向量v^co和文本特征向量v^t。将四个特征向量进行拼接并利用PCA(Principle Component Analysis)主成分分析技术进行降维，得到视频特征向量x^v：

x^v＝PCA([v^c，vⁿ，v^co，v^t])

将所有视频向量化后的四类特征进行融合得到视频的向量矩阵X^v。

步骤S102：将用户画像信息映射成用户向量，再与增强的免费视频偏好向量和付费视频偏好向量进行拼接。

具体地，在编码器最后一层获取到从用户免费视频序列与付费视频序列中分别提取的增强后的免费视频偏好向量

和付费视频偏好向量

对用户画像信息进行Embedding映射成用户向量u^p。将用户画像向量与免费视频偏好向量

和付费视频偏好向量

进行拼接之后得到多层感知机的输入

步骤S103：将拼接后的向量输入至多层感知机，按照用户预测付费的概率大小排序，得到超过阈值概率的用户列表，即为潜在视频付费用户。

将x作为多层感知机的输入，用户购买会员的真实标签作为输出，训练预测模型。模型计算用户为会员服务付费的概率如下公式：

p(x)＝σ(Wx+b)

其中输出层的激活函数采用sigmoid函数，W是权重矩阵，b是偏差向量。

模型在微调阶段优化二元交叉熵如下：

其中y_i∈{0，1}是用户的真实标签，1表示当前用户购买了会员服务，0表示该用户未购买，N是训练样本数量，p(x_i)是我们模型输出的用户购买视频会员的概率值。

在其他实施例中，所述的基于深度交叉注意力网络的视频付费用户预测方法，还包括：对潜在视频付费用户推送视频会员服务信息。

实施例二

本实施例提供了一种基于深度交叉注意力网络的视频付费用户预测系统，其具体包括如下模块：

视频付费用户预测模块，其用于将拼接后的向量输入至多层感知机，按照用户预测付费的概率大小排序，得到超过阈值概率的用户列表，即为潜在视频付费用户。

此处需要说明的是，本实施例的基于深度交叉注意力网络的视频付费用户预测系统的各个模块，与实施例一中的基于深度交叉注意力网络的视频付费用户预测方法中的各个步骤一一对应，其具体实施过程相同，此处不再累述。

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的基于深度交叉注意力网络的视频付费用户预测方法中的步骤。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的基于深度交叉注意力网络的视频付费用户预测方法中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度交叉注意力网络的视频付费用户预测方法，其特征在于，包括：

2.如权利要求1所述的基于深度交叉注意力网络的视频付费用户预测方法，其特征在于，所述深度交叉注意力自动编码器由免费视频自动编码器和付费视频自动编码器通过交叉注意力单元连接而成，以实现同一用户免费视频和付费视频这两种偏好间的知识共享与迁移学习，增强偏好表示。

3.如权利要求2所述的基于深度交叉注意力网络的视频付费用户预测方法，其特征在于，所述深度交叉注意力自动编码器每层都有一个交叉注意力单元。

4.如权利要求2所述的基于深度交叉注意力网络的视频付费用户预测方法，其特征在于，所述深度交叉注意力自动编码器的训练数据采用加入噪声的免费视频序列向量和付费视频序列向量。

5.如权利要求4所述的基于深度交叉注意力网络的视频付费用户预测方法，其特征在于，所述免费视频序列向量由免费视频播放序列根据视频向量矩阵得到对应的向量表示进行拼接得到；付费视频序列向量由付费视频播放序列根据视频向量矩阵得到对应的向量表示进行拼接得到。

6.如权利要求5所述的基于深度交叉注意力网络的视频付费用户预测方法，其特征在于，视频向量矩阵的计算过程为：

7.如权利要求1所述的基于深度交叉注意力网络的视频付费用户预测方法，其特征在于，其特征在于，还包括：

对潜在视频付费用户推送视频会员服务信息。

8.一种基于深度交叉注意力网络的视频付费用户预测系统，其特征在于，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一项所述的基于深度交叉注意力网络的视频付费用户预测方法中的步骤。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一项所述的基于深度交叉注意力网络的视频付费用户预测方法中的步骤。