CN114358364A

CN114358364A - 一种基于注意力机制的短视频点击率大数据预估方法

Info

Publication number: CN114358364A
Application number: CN202111381076.XA
Authority: CN
Inventors: 王进; 宋为; 林兴; 孙开伟; 刘彬; 朴昌浩
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2021-11-20
Filing date: 2021-11-20
Publication date: 2022-04-15

Abstract

本发明涉及大数据分析技术领域，公开了一种基于注意力机制的短视频点击率大数据预估方法，步骤包括构建数据集，并采用层次差异注意力算法获得领域特定用户好友嵌入；采用负责控制信息流入的双门控网络将用户个人嵌入分别与不同领域的用户好友信息嵌入融合；根据不同领域短视频嵌入为每个类型上下文嵌入分配权重，并通过加权融合得到对应领域的上下文嵌入；将各领域用户个人嵌入、上下文嵌入以及短视频嵌入输入到一个共享特征交叉式双MMoE网络，基于动态学习集成策略，得到各领域点击率预测值。本发明能够解决目前短视频跨域推荐算法忽视不同领域之间的差异，在进行信息迁移的过程中存在负迁移现象的问题。

Description

一种基于注意力机制的短视频点击率大数据预估方法

技术领域

本发明涉及大数据分析技术领域，尤其涉及一种基于注意力机制的短视频点击率大数据预估方法。

背景技术

随着移动互联网技术的深入发展，集文本、视频、音乐于一体的短视频受到越来越多人的青睐，各种短视频APP平台上的视频数量日益增加，许多短视频平台用户与好友之间可以相互关注并分享自己喜欢的短视频；在这种环境下，利用好友关系(社交网络信息或者粉丝关注列表)为用户推荐感兴趣的视频成为各种视频发布平台所面临共同难题。

由于很少有用户为短视频提供反馈(如点击、评论等)，这又降低了推荐算法的准确性，为了解决数据稀疏性问题，跨领域推荐系统利用了相对丰富的信息，从而缓解了单领域推荐数据的稀疏性问题；然而许多跨领域推荐算法都侧重于从源域到目标域的单向迁移学习，并获得了很好的推荐性能，关于如何实现两个领域信息双向迁移并提高两个领域的推荐准确性的问题在许多推荐模型中没有得有效解决；此外，对于不同领域的短视频，用户及用户好友的喜好可能存在一些差异性，而许多跨域推荐算法忽视了不同领域之间的差异，这在进行信息迁移的过程中可能存在负迁移现象。

发明内容

有鉴于此，本发明的目的是提供一种基于注意力机制的短视频点击率大数据预估方法，能够解决目前短视频跨域推荐算法忽视不同领域之间的差异，在进行信息迁移的过程中存在负迁移现象的问题。

本发明通过以下技术手段解决上述技术问题：

一种基于注意力机制的短视频点击率大数据预估方法，包括以下步骤：

S1、构建包括用户个人嵌入、用户好友信息、多种领域短视频嵌入、不同领域短视频共享上下文嵌入和已标记点击行为的数据集，并采用层次差异注意力算法获得领域特定用户好友嵌入；

S2、采用负责控制信息流入的双门控网络将用户个人嵌入分别与不同领域的用户好友信息嵌入融合；

S3、根据不同领域短视频嵌入为每个类型上下文嵌入分配权重，并通过加权融合得到对应领域的上下文嵌入；

S4、将各领域用户个人嵌入、上下文嵌入以及短视频嵌入输入到一个共享特征交叉式双MMoE网络，基于动态学习集成策略，得到各领域点击率预测值。

进一步，所述步骤S1中的差异注意力算法包括底层注意力计算和顶层注意力计算，

所述底层注意力计算获得用户好友对不同上下文类型的影响力，所述影响力的计算采用以上下文作为引导的差异注意力算法，所述以上下文作为引导的差异注意力算法具体为：先以某种类型的上下文为引导计算好友之间比较向量，再经过第一层MLP得到比较向量的隐藏层表示；以随机初始化上下文向量作为可学习参数Query来计算每个好友基于不同类型上下文的比较向量权重，每个用户获得一个权重集合，将基于不同类型上下文的比较向量加权求和，得到每个好友唯一一个比较向量，将底层的比较向量作为附加信息与好友嵌入相加作为顶层注意力计算的输入；

所述顶层注意力计算获得用户好友对不同领域短视频的影响力，所述影响力的计算采用以短视频作为引导的差异注意力算法，所述以短视频作为引导的差异注意力算法具体为：先计算好友基于短视频嵌入的比较向量，再经过第二层的MLP得到比较向量的隐藏层表示；随机初始化一个新的上下文向量作为第二层的可学习参数Query计算每个好友基于不同领域短视频的比较向量权重，然后根据权重聚合好友嵌入，最终得到不同领域用户好友嵌入，用于表示用户的所有好友对不同领域短视频的偏好。

进一步，所述步骤S1中的底层注意力计算和顶层注意力计算具体包括以下步骤：

A1、在底层将目标领域短视频v_i的n种类型上下文C_i＝{c₁，c₂，...，c_n}嵌入作为引导，采用公式1计算用户u_i每个好友F_i＝{f₁，f₂，...，f_m}的比较向量

式中f_j表示用户好友列表中当前好友的嵌入，f_i表示除当前好友以外其他好友嵌入；

采用公式2，经过一层MLP得到z_is作为比较向量的隐藏层表示，

式中W_w和b_w分别表示第一层MLP权重矩阵、偏差项；

利用随机化上下文向量q_w作为可学习参数Query来计算m个好友基于不同类型上下文的比较向量权重α_i＝{α_i1，α_i2，...，α_in}(i＝{1，2，...，m})，经过公式3中softmax函数规范化后；按照公式4对每个好友基于不同类型的比较向量进行加权得到e_i(i＝{1，2，...，m})，

A2、利用公式5在顶层将底层每个好友比较向量e_i作为附加信息与好友嵌入f_i进行求和得到g_i(i＝{1，2，...，m})；

g_i＝ei+f_i (5)，

利用公式6以目标领域短视频嵌入v_i作为引导计算m个好友的比较向量

(k＝{1，2，...，m})，

式中下标j表示当前好友，k表示除当前好友以外其他好友；

随机化上下文向量r_s作为第二层可学习参数Query，采用公式7，W_s和b_s表示第二层MLP的权重矩阵和偏差项，计算t_ik作为第二层比较向量的隐藏层表示，

按照公式8计算m个好友比较向量的权重β_i(i＝{1，2，...，m})，并按照公式9加权聚合好友嵌入f_i，最终得到特定领域用户好友嵌入h_i，

进一步，所述步骤S2中为每个领域设定一个专门的门控网络用来融合用户嵌入特定领域好友嵌入，所述门控网络采用元素级注意力机制，具体为：首先通过非线性全连接层以及残差连接得到用户嵌入和用户好友嵌入的特征向量，然后经过特定领域权重矩阵乘积和sigmoid函数隐射得到每一个特征向量元素的权重，并根据权重融合用户和用户好友特征向量。

因为不同领域用户的偏好和用户好友偏好对点击率的影响不同，所以采用了一种领域相关的门控网络融合用户嵌入和用户好友嵌入，门控网络采用了元素级注意力机制。

进一步，所述步骤S2为每个领域设定一个专门的门控网络用来融合用户嵌入特定领域好友嵌入的计算方法采用公式10、公式11、公式12和公式13，

φ_i＝relu(W_ff_i+b_f)+f_i (11)

其中，u_i表示用户嵌入，h_i表示特定领域好友嵌入，φ_i和

分别由用户嵌入和用户好友嵌入经过非线性全连接层以及残差连接得到，λ_i由φ_i和

拼接(用[...]表示)后经过特定领域权重矩阵W_a乘积和sigmoid函数(用σ表示)隐射得到，λ_i的维度等于φ_i和

的维度。

进一步，所述步骤S3中，在每个领域引入特征级注意力机制，为每个类型的共享上下文特征分配权重，通过加权融合得到对应领域的上下文嵌入。

因为不同类型的上下文特征对不同领域的影响程度不同，在每个领域引入特征级注意力机制，为每个类型的共享上下文特征分配权重，通过加权融合得到对应领域的上下文嵌入。

进一步，所述步骤S3中的具体方法为，对于两个领域A和B，共享上下文特征C_i＝{c₁，c₂，...，c_n}，给定领域A的短视频嵌入

采用公式15对领域A的上下文嵌入c^A计算：

其中，

表示第i个共享上下文嵌入对于领域A中的短视频

的融合权重，通过领域A的注意力网络学习得到，并根据领域B的短视频嵌入

和共享上下文嵌入C_i可融合得到领域B的上下文嵌入c^B。

进一步，所述步骤S4中采用多任务学习模型MMoE进行跨领域推荐，所述多任务学习模型采用两进两出的双MMoE网络架构，在每个领域设置一个专门的MMoE网络，各领域网络共享特征交叉层；每个MMoE网络通过两个特定领域Tower网络实现跨域推荐，其中一个负责目标领域的推荐学习，另一个负责领域共享信息的迁移，并经过各领域融合层得到各领域最终预测结果；根据不同MMoE网络在不同领域的表现设置权重，通过优化损失函数进行权重的调整。

上述的架构可以同时优化两个领域短视频推荐准确性，不同MMoE网络可以同时对两个领域短视频点击率进行预测，各领域输出结果通过加权平均的方法进行跨域融合得到不同领域点击率最终预测结果。

进一步，所述步骤S4中的特征交叉层采用了多种特征交叉方式，包括Concat、Inner-product、Outer-product，所述Inner-product操作为向量的内积运算，所述Outer-product操作是对输入特征向量的各个维度进行两两交叉，生成特征交叉矩阵；所述Tower网络采用普通全连接层，根据门控网络所传递的特定领域表征进行预测。

两个特定领域的Multi-gate Mixture-of-Experts模块作为跨域推荐的核心构件，每个模块由混合专家网络(Mixture-of-Experts)以及门控网络(Multi-gate)构成，混合专家网络由多个专家网络组成，多个专家网络用于学习某个领域中一些相关独特的表达，再由每个领域对应的门控网络学习不同专家网络的组合模式，即通过不同权重对不同专家网络的输出进行加权。

针对每个Multi-gate Mixture-of-Experts模块构建出一个线性模型用于对模型泛化规则进行修正，采用的方法是将线性特征输入到专家网络和门控网络，同时也输入到线性模型中，将线性模型输出与每个Tower网络输出进行求和，再通过sigmoid函数得到概率分布。Tower网络可以同时对两个领域短视频点击率进行预测，其中一个Tower网络是由目标领域主导的目标预测网络，另一个是由跨域共享信息主导的目标预测网络，输出结果通过加权平均的方法融合不同Tower网络的预测值，进行聚合得到不同领域点击率最终预测结果，根据不同领域MMoE网络在不同领域的表现设置权重，通过优化损失函数进行权重的调整。

进一步，所述步骤S4中的损失函数采用二分类交叉熵计算方法，为各领域MMoE网络损失函数、集成MMoE网络损失函数L_ensemble(W)和正则化项R(θ)的总和，具体采用公式16，

其中，k用来标志不同领域MMoE网络的输入和输出，M为领域数量，N为样本数量，W为MMoE网络在各领域上的权重；集成MMoE网络损失函数L_ensemble(W)的计算方法与MMoE网络损失计算方法相同，区别在于输出是由不同领域MMoE网络输出经过权重W加权融合后得到。

本发明的有益效果：

1、本发明自底层向顶层次差异注意力算法能够有效获取用户好友在不同领域短视频的影响力，底层差异注意力主要针对用户好友对不同类型上下文偏好的差异性，用于找到在不同类型上下文中对该用户影响最大的好友，顶层差异注意力主要针对用户好友对不同领域短视频偏好的差异性，用于找到在不同领域下对该用户影响最大的好友；这样的设置，对于不同领域的短视频，用户好友的影响力不同，基于用户好友的影响力可以得到不同领域用户好友的表示。

2、本发明通过门控网络控制用户个人偏好和用户好友偏好在用户最终表示过程中信息的流入，同时每个领域设定了专门的门控网络保证了各领域能够得到最有用的信息，此外，在利用共享上下文作为跨领域知识迁移桥梁的同时，能够在不同的领域为不同类型的上下文分配不同的权重，通过对无用的上下文信息分配较低的权重有助于避免负迁移问题。

3、本发明利用多任务学习的思想提高跨域双目标预估的准确性，通过一种基于多层感知机，具有多种特征交叉方式且共享参数的双Multi-gate Mixture-of-Experts网络，不同专家网络共享底层输入，所有领域共享专家网络，通过训练门控网络来优化每个领域的预测任务，多种特征交叉方式为基础的专家网络能够从不同角度优化各个目标领域，同时Multi-gate Mixture-of-Experts网络能够有效平衡多个领域之间的关系，既能保证特定领域的差异性，又能保证多个领域学习的平衡性，并且设计了利用特定领域信息和共享信息的跨领域融合机制，能够有效提高双目标预估的准确性。

4、本发明的MMoE网络的个数可以根据领域数量的增加而进行扩充，通过共享具有相同结构网络的参数减少额外的参数数量，并且只需要单个模型的前向传播进行预测。

5、本发明的基于注意力机制的短视频点击率大数据预估方法具备较好的扩展性，适用于跨领域推荐系统中其他应用场景。

附图说明

图1是本发明一种基于注意力机制的短视频点击率大数据预估方法流程图；

图2为差异注意力算法中的底层差异注意力算法示意图；

图3为差异注意力算法中的顶层差异注意力算法示意图；

图4为基于MMoE的跨域点击率预估框架图。

具体实施方式

以下将结合附图对本发明进行详细说明：

如图1-4所示，本发明的一种基于注意力机制的短视频点击率大数据预估方法的具体步骤如下：

步骤1、构建具有用户个人嵌入、用户好友信息、两种领域短视频嵌入、不同领域短视频共享上下文嵌入以及已标记点击行为的数据集，其中共享上下文包括各领域短视频共有的类别属性：作者ID、背景音乐ID、背景音乐作者ID、时间以及短视频的描述信息。时间上下文表示短视频的发布时间，为了将一个连续的时间戳映射到一个离散的时间段，本实施例采用一个“工作日、小时”模式，例如“2(一周中的一天)、16:00-17:00(一天中的一小时)”，使得时间上下文可以得到7×24个离散时隙，根据每个短视频的时隙，将时间映射到一个7×24维的独热向量。假定数据集中用户数量为o，每个用户好友数量为m，用户数量根据实际数据集或者系统来确定，同时每个用户的好友规模可能不一致，为了方便描述实施细节，暂且设置为固定值。

步骤2、对类别特征、时间、文本特征编码进行向量化并构建词表，将高维稀疏的特征映射为低维稠密的向量。文本特征是短视频的描述信息，包括视频配文、视频分类标签、关键词，属于序列特征。对视频配文、标注分类标签以及关键词设定最大长度并进行填充或截断，其中视频配文最大长度为512；分类标签和关键词最大长度为32，将文本序列中不同的词进行编码后经过Embedding处理映射为实数向量，经过Sum池化后得到用于表示整个序列的实数向量。数据集中每条样本参与计算的特征以及对应嵌入的维度等信息如表1所示。

表1

步骤3、底层差异注意力计算，算法如图2所示，在底层将目标领域短视频v_i的不同类型上下文C_i＝{c₁，c₂，...，c_n}嵌入作为引导，其中上下文数量n＝8，C_i包含短视频工D、作者工D、背景音乐工D、背景音乐歌手ID、发布时间的向量表示以及经过池化层后的序列类型上下文。采用差异注意力算法获得用户u_i每个好友F_i＝{f₁，f₂，...，f_m}的比较向量

经过一层MLP(W_w和b_w分别表示第一层MLP权重矩阵、偏差项)得到z_is作为比较向量的隐藏层表示，并利用随机化上下文向量q_w作为Query来计算m个好友基于不同类型上下文的比较向量权重α_i＝{α_i1，α_i2，...，α_in}(i＝{1，2，...，m})，经过softmax函数规范化后对每个好友基于不同类型的比较向量进行加权得到e_i(i＝{1，2，...，m})，所述的差异注意力算法的表示如下：

步骤4、顶层差异注意力计算，算法如图3所示，在顶层将底层每个好友比较向量e_i作为附加信息与好友嵌入f_i进行求和得到G_i＝{g₁，g₂，...，g_m}，以目标领域短视频嵌入v_i作为引导计算m个好友的比较向量

随机化上下文向量r_s作为新的Query，W_s和b_s表示第二层MLP的权重矩阵和偏差项，t_ik作为第二层比较向量的隐藏层表示，然后计算m个好友比较向量的权重β_i(i＝{1，2，...，m})并加权聚合好友嵌入f_i，最终得到特定领域用户好友嵌入h_i，计算公式如下：

g_i＝e_i+f_i

步骤5、采用双门控网络将用户嵌入分别和步骤4得到的不同领域用户好友嵌入融合。每个领域设定一个专门的门控网络用来融合用户嵌入u_i特定领域好友嵌入h_i，融合方法采用元素级注意力，计算方法如下：

φ_i＝relu(W_ff_i+b_f)+f_i

其中φ_i和

分别由用户嵌入和用户好友嵌入经过非线性全连接层以及残差连接得到，φ_i和

维度均为128，λ_i由φ_i和

拼接后经过特定领域权重矩阵W_a乘积和sigmoid函数隐射得到，其中

λ_i的维度等于φ_i和

的维度。上述融合方法在两个领域是一样的，区别在于参与计算的参数为特定领域专门分配的参数。

步骤6、本实施例考虑到不同类型的上下文特征对不同领域的影响程度不同，在每个领域引入特征级注意力机制，为每个类型的共享上下文特征分配权重，通过加权融合得到对应领域的上下文嵌入。具体地，对于两个领域A和B，共享上下文特征C_i＝{c₁，c₂，...，c_n}(n＝4)，给定领域A的短视频嵌入

领域A的上下文嵌入c^A计算如下：

其中，

表示第i个共享上下文嵌入对于领域A中的短视频

的融合权重，通过领域A的注意力网络学习得到。类似地，根据领域B的短视频嵌入

和共享上下文嵌入C_i可融合得到领域B的上下文嵌入c^B。

步骤7、将经过上述步骤6得到的用户及用户好友融合嵌入、两个领域的上下文嵌入以及两个领域的短视频嵌入进行拼接，用于输入到用户跨域点击率预测的MMoE模型中，模型整体框架如图4所示。将一组数据的嵌入和连续型数值进行拼接输入到一个输入层维度等于特征维度和，隐藏层为512×256的神经网络中，其中Relu作为激活函数，多层神经网络用于提取隐式的交互特征，再将另一组数据的嵌入输入到一个乘积层进行内积和外积操作，用于获得显式交叉特征，内积为经典向量内积计算，外积计算公式如下所示：

其中f_iv_j为输入特征向量，N为输入特征向量的维度，计算结果p为两两特征向量外积互操作的结果的叠加。将经过特征交互的数据输入到另一个多层神经网络提取隐式的交叉特征，神经网络结构的区别在于输入层的维度因乘积层的特征交叉而增加。

步骤8、经过步骤7得到的没有经过乘积层和经过乘积层特征交互的多层神经网络输出，将步骤7的两组输出分别输入到不同领域的Multi-gate Mixture-of-Experts模块中，根据实际需要预测目标领域的任务，Multi-gate Mixture-of-Experts网络中的专家(Expert)网络数量设置为4，专家网络输出维度为4×16，领域数量和门控网络(Gate)数量为2，对于不同的领域，门控网络输出不同专家网络的权重，对多个专家网络进行加权求和，计算方法如下所示：

其中g(x)表示专家网络f_i的权重，k为门控网络的标记符号。门控网络采用简单的线性变换加上softmax层。特定领域的门控网络最终输出维度为16，将其输出分别输入到采用全连接层的Tower网络，权重参数为W_A和W_B，Tower网络预测出用户对应特定领域下点击行为发生概率。针对每个Multi-gate Mixture-of-Experts网络构建出一个线性模型nFC用于对模型泛化规则进行修正，如图4中的Linear模块所示，采用的方法是将线性特征x输入到专家网络和门控网络，同时也输入到线性模型中，将线性模型输出与每个Tower网络输出进行求和，再通过sigmoid函数得到概率分布

和

最终各领域预测值计算公式如下：

步骤9、将步骤8中两个模块的输出经过可学习的权重进行加权平均得到融合后的概率。根据不同MMoE网络在不同领域的表现设置权重，通过优化损失函数进行权重的调整。损失函数计算公式如下所示：

其中k用来标志不同领域MMoE的输入和输出，M为领域数量，N为样本数量，W为MMoE网络在各个领域上的权重。L_ensemble(W)计算方法与MMoE损失计算方法相同，区别在于输出是由不同领域MMoE网络输出经过权重W加权融合后得到。模型损失函数采用二分类交叉熵计算方法，训练模型时不仅考虑对各个领域MMoE网络的损失进行优化，同时也考虑对加权融合后的损失进行优化，因此训练时的损失函数是各个领域MMoE网络损失函数、集成MMoE网络损失函数以及正则化项的总和。设置优化目标以后以上步骤中所涉及的参数均是可学习的，实际在线业务可以使用已经训练好的模型，输入用户和短视频特征直接通过特定领域MMoE网络的输出进行加权融合，即可输出不同领域点击率预测值。

以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。本发明未详细描述的技术、形状、构造部分均为公知技术。

Claims

1.一种基于注意力机制的短视频点击率大数据预估方法，其特征在于：包括以下步骤，

2.根据权利要求1所述的一种基于注意力机制的短视频点击率大数据预估方法，其特征在于：所述步骤S1中的差异注意力算法包括底层注意力计算和顶层注意力计算，

3.根据权利要求2所述的一种基于注意力机制的短视频点击率大数据预估方法，其特征在于：所述步骤S1中的底层注意力计算和顶层注意力计算具体包括以下步骤：

式中W_w和b_w分别表示第一层MLP权重矩阵、偏差项；

利用随机化上下文向量q_w作为可学习参数Query来计算m个好友基于不同类型上下文的比较向量权重α_i＝{α_i1，α_i2，...，α_in}(i＝{1，2，...，m})，经过公式3中soft max函数规范化后；按照公式4对每个好友基于不同类型的比较向量进行加权得到e_i(i＝{1，2，...，m})，

g_i＝e_i+f_i (5)，

利用公式6以目标领域短视频嵌入v_i作为引导计算m个好友的比较向量p_i ^k(k＝{1，2，...，m})，

式中j表示当前好友，k表示除当前好友以外其他好友；

4.根据权利要求1所述的一种基于注意力机制的短视频点击率大数据预估方法，其特征在于：所述步骤S2中为每个领域设定一个专门的门控网络用来融合用户嵌入特定领域好友嵌入，所述门控网络采用元素级注意力机制，具体为：首先通过非线性全连接层以及残差连接得到用户嵌入和用户好友嵌入的特征向量，然后经过特定领域权重矩阵乘积和sigmoid函数隐射得到每一个特征向量元素的权重，并根据权重融合用户和用户好友特征向量。

5.根据权利要求4所述的一种基于注意力机制的短视频点击率大数据预估方法，其特征在于：所述步骤S2为每个领域设定一个专门的门控网络用来融合用户嵌入特定领域好友嵌入的计算方法采用公式10、公式11、公式12和公式13，

φ_i＝relu(W_ff_i+b_f)+f_i (11)

其中，u_i表示用户嵌入，h_i表示特定领域好友嵌入，φ_i和

的维度。

6.根据权利要求1所述的一种基于注意力机制的短视频点击率大数据预估方法，其特征在于：所述步骤S3中，在每个领域引入特征级注意力机制，为每个类型的共享上下文特征分配权重，通过加权融合得到对应领域的上下文嵌入。

7.根据权利要求6所述的一种基于注意力机制的短视频点击率大数据预估方法，其特征在于：所述步骤S3中的具体方法为，对于两个领域A和B，共享上下文特征C_i＝{c₁，c₂，...，c_n}，给定领域A的短视频嵌入

采用公式15对领域A的上下文嵌入c^A计算：

其中，

表示第i个共享上下文嵌入对于领域A中的短视频

的融合权重，通过领域A的注意力网络学习得到；并根据领域B的短视频嵌入

和共享上下文嵌入C_i可融合得到领域B的上下文嵌入c^B。

8.根据权利要求1所述的一种基于注意力机制的短视频点击率大数据预估方法，其特征在于：所述步骤S4中采用多任务学习模型MMoE进行跨领域推荐，所述多任务学习模型采用两进两出的双MMoE网络架构，在每个领域设置一个专门的MMoE网络，各领域网络共享特征交叉层；每个MMoE网络通过两个特定领域Tower网络实现跨域推荐，其中一个负责目标领域的推荐学习，另一个负责领域共享信息的迁移，并经过各领域融合层得到各领域最终预测结果；根据不同MMoE网络在不同领域的表现设置权重，通过优化损失函数进行权重的调整。

9.据权利要求8所述的一种基于注意力机制的短视频点击率大数据预估方法，其特征在于：所述步骤S4中的特征交叉层采用了多种特征交叉方式，包括Concat、Inner-product、Outer-product，所述Inner-product操作为向量的内积运算，所述Outer-product操作是对输入特征向量的各个维度进行两两交叉，生成特征交叉矩阵；所述Tower网络采用普通全连接层，根据门控网络所传递的特定领域表征进行预测。

10.据权利要求9所述的一种基于注意力机制的短视频点击率大数据预估方法，其特征在于：所述步骤S4中的损失函数采用二分类交叉熵计算方法，为各领域MMoE网络损失函数、集成MMoE网络损失函数L_ensemble(W)和正则化项R(θ)的总和，具体采用公式16,