CN112256918B - 一种基于多模态动态路由的短视频点击率预测方法 - Google Patents
一种基于多模态动态路由的短视频点击率预测方法 Download PDFInfo
- Publication number
- CN112256918B CN112256918B CN202011283162.2A CN202011283162A CN112256918B CN 112256918 B CN112256918 B CN 112256918B CN 202011283162 A CN202011283162 A CN 202011283162A CN 112256918 B CN112256918 B CN 112256918B
- Authority
- CN
- China
- Prior art keywords
- short video
- user
- interest
- modal
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/735—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Library & Information Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于多模态动态路由的短视频点击率预测方法。该方法分别从短视频的不同模态信息抽取用户的兴趣,然后再融合用户在多模态空间下抽取出的多兴趣,预测用户对目标短视频的点击率。本方法主要由四个部分组成:第一部分构建短视频图网络,并把短视频多模态特征分别输入图网络,更新短视频多模态特征表征;第二部分根据短视频多模态特征,采用胶囊网络生成用户在不同模态下的兴趣表征;第三部分融合不同模态下的兴趣表征,生成用户兴趣表征;第四部分根据用户的多兴趣向量表征,预测用户对目标短视频的点击率。
Description
技术领域
本发明属于互联网服务技术领域,具体涉及一种基于多模态动态路由的短视频点击率预测方法
背景技术
短视频是一种新型的且时间较短的视频。短视频的拍摄不需要使用专业设备,也不需要专业技巧。用户直接通过手机就可以很方便地进行拍摄和上传到短视频平台,因此短视频平台的短视频数量增长得非常快。这使得对有效短视频推荐系统的需求非常迫切,有效的短视频推荐系统可以提升用户体验和用户黏性,从而给平台带来巨大的商业价值。
近些年,很多研究者提出了基于视频的个性化推荐方法。这些方法可以分为三类:协同过滤、基于内容的推荐和混合推荐方法。但是相比于视频,短视频有着不同的特点:时长较短且用户在一段时间内的交互序列较长。因此,短视频推荐是一个更具有挑战性的任务,并且有研究者提出了一些方法。例如,Li等人将图网络和LSTM结构融合一起,进而更好地模拟用户的偏好;Chen等人利用分层的注意力机制去计算物品和类目这两种级别的重要性,得到更准确的预测结果。
尽管这些方法取得不错的结果,但是忽视了对短视频单一模态特征的准确性表达。用户在上传短视频的视频内容时,会同时配上概括性的标题描述,用户对短视频的不同模态可能会产生不同情感,例如,用户可能喜欢某个短视频的主图,但是不喜欢该短视频的文本内容。把短视频的不同模态信息融合一块来表示短视频,无法细粒度地捕捉用户的兴趣。因此本方法分别从短视频的不同模态信息抽取用户的兴趣,然后再融合用户在多模态空间下抽取出的多兴趣,预测用户对目标短视频的点击率。
发明内容
基于上述,本发明提供了一种基于多模态动态路由的短视频点击率预测方法。它根据用户的对短视频的点击序列信息,挖掘出用户的兴趣特征,预测用户对目标短视频的点击率。
一种基于多模态动态路由的短视频点击率预测方法,包括如下步骤:
根据所有用户历史交互序列,构建短视频图网络。为了捕捉短视频和短视频之间的转移关系,我们从所有用户序列中构建物品图网络T。给定一个用户交互序列X=[x1,…,xn],任一短视频xj为图网络T的节点,(xj-1,xj)为图网络T的边,(xj-1,xj)表示一个用户点击短视频xj-1后点击短视频xj。图的边数值属性为边(xj-1,xj)出现的次数。为了降低在线计算复杂度,本发明采用离线文件存储每个节点在图网络T中的邻居节点。
把短视频多模态特征分别输入图网络T,更新多模态特征表征。对于一个用户的点击行为序列X=[x1,…,xn],其中短视频xj由和两种模态构成,是短视频的封面图特征向量,是短视频的文本特征向量,d是模态特征向量的长度。把短视频封面图特征和文本特征分别输入图网络,生成多模态特征表征其中p∈{a,b}。和更新方法相同,为了描述方便,以下公式略去p∈{a,b},令:
其中,k代表在图网络T中的搜索深度,k的最大深度由搜索深度参数L控制。代表节点xj在k层的向量表征,模态a和模态b的分别被初始化为和短视频的多模态特征表征即是不同模态特征在短视频图网络中更新深度L之后的B(j)为短视频图网络T中短视频xj的邻居集合,按照图T边由大到小排序采样(sampling)获得。非线性函数f表示将节点xj的邻居节点信息融合到节点xj中,函数f具体为:
其中,B(j)为短视频图网络T中短视频xj的邻居集合,Wk是图参数,σ为sigmoid函数,CONCAT表示向量连接操作。AGGREGATE函数采用的最大池化(max-pooling)方法:
其中,B(j)为短视频图网络T中短视频xj的邻居集合,Wpool是网络参数,b是偏置,σ为sigmoid函数。max代表元素级别的max操作,可以有效捕捉邻居的各个方面属性
其中,p∈{a,b},是用户序列的第j个短视频胶囊到兴趣胶囊i的转换矩阵,兴趣胶囊i的个数是M。是连接系数,代表的权重,参数采用动态路由算法更新。g是胶囊网络中常用的向量激活函数(squash),公式如下:
其中,||·||代表向量的长度。原先应用在图像领域的胶囊网络中的动态路由算法用于分类,本方法用于聚类,即将表示相同兴趣的短视频特征聚合到一起。为了更适合推荐应用场景,进一步改进的更新方式,原先的动态路由计算方式为:
改进之后的动态路由计算方式为:
根据用户兴趣表征,预测用户对目标短视频的点击率。根据用户兴趣表征vi,预测目标短视频xnew的点击率。给定用户兴趣胶囊vi,计算用户点击目标短视频xnew的概率为:
αi=qT·σ(W1·vi+W2·xnew+c)
其中,vi为用户的第i个兴趣表征,xnew为目标短视频。参数和参数控制每个兴趣表征的权重,d代表兴趣表征的维度,参数c是偏置参数。和是转移矩阵,是偏置向量,b2是偏置标量。σ是sigmoid激活函数。
其中,y∈{0,1}是真实值,代表用户是否点击了目标短视频。σ是sigmoid函数。我们采用Adam优化器更新模型参数。
为了验证本发明在短视频点击率预测中的技术效果,我们采用公开的短视频数据做实验,从指标AUC、P@50、R@50和F@50上来看,效果较最新的点击率预测方法有了显著的提升。本发明的有益技术效果如下:
(1)本发明通过所有用户历史交互序列,构建关于短视频的图网络,对短视频的单一模态信息进行了更准确的表征。
(2)本发明提出了一种基于多模态动态路由的短视频点击率预测方法,该方法改进动态路由算法,从用户的序列信息中抽象出用户的兴趣点,进而得到更准确的预测。
(3)本发明分别从短视频的不同模态信息抽取用户的兴趣,然后再融合用户在多模态空间下抽取出的多兴趣,预测用户对目标短视频的点击率。
附图说明
图1为本发明方法的流程示意图;
图2为本发明方法的模型框架图。
具体实施方式
为了更为具体地描述本发明,下面结合附图及具体实施方案对本发明的技术方案进行详细说明。
短视频点击率预测任务是建立一个模型去预测用户点击短视频的概率。用户历史序列表示为 其中xj代表第j个短视频,l是序列的长度。因此,短视频点击率预测问题可以表示成:输入用户点击序列以及目标短视频xnew,来预测用户对目标短视频xnew的点击率。
为此,本发明提出了一种基于多模态路由选择的短视频点击率预测方法。它分别从短视频的不同模态信息抽取用户的兴趣,然后再融合用户在多模态空间下抽取出的多兴趣,预测用户对目标短视频的点击率。本方法主要由四个部分组成,如图2所示。第一部分构建短视频图网络,并把短视频多模态特征分别输入图网络,更新短视频多模态特征表征;第二部分根据短视频多模态特征,采用胶囊网络生成用户在不同模态下的兴趣表征;第三部分融合不同模态下的兴趣表征,生成用户兴趣表征;第四部分根据用户的多兴趣向量表征,预测用户对目标短视频的点击率。
如图1所示,按照本发明的一个实施例,本方法包括如下步骤:
S100,根据所有用户历史交互序列,构建短视频图网络。为了捕捉短视频和短视频之间的转移关系,我们从所有用户序列中构建物品图网络T。给定一个用户交互序列X=[x1,…,xn],任一短视频xj为图网络T的节点,(xj-1,xj)为图网络T的边,(xj-1,xj)表示一个用户点击短视频xj-1后点击短视频xj。图的边数值属性为边(xj-1,xj)出现的次数。为了降低在线计算复杂度,本发明采用离线文件存储每个节点在图网络T中的邻居节点。
S200,把短视频多模态特征分别输入图网络T,更新多模态特征表征。对于一个用户的点击行为序列X=[x1,…,xn],其中短视频xj由和两种模态构成,是短视频的封面图特征向量,是短视频的文本特征向量,d是模态特征向量的长度。把短视频封面图特征阳文本特征分别输入图网络,生成多模态特征表征其中p∈{a,b}。和更新方法相同,为了描述方便,以下公式略去p∈{a,b},令:
其中,k代表在图网络T中的搜索深度,k的最大深度由搜索深度参数L控制。代表节点xj在k层的向量表征,模态a和模态b的分别被初始化为和短视频的多模态特征表征即是不同模态特征在短视频图网络中更新深度L之后的B(j)为短视频图网络T中短视频xj的邻居集合,按照图T边由大到小排序采样(sampling)获得。非线性函数f表示将节点xj的邻居节点信息融合到节点xj中,函数f具体为:
其中,B(j)为物品图网络T中短视频xj的邻居集合,Wk是图参数,σ为sigmoid函数,CONCAT表示向量连接操作。AGGREGATE函数采用的最大池化(max-pooling)方法:
其中,B(j)为物品图网络T中短视频xj的邻居集合,Wpool是网络参数,b是偏置,σ为sigmoid函数。max代表元素级别的max操作,可以有效捕捉邻居的各个方面属性
其中,p∈{a,b},是用户序列的第j个短视频胶囊到兴趣胶囊i的转换矩阵,兴趣胶囊i的个数是M,本方法中通过实验验证设置为3。是连接系数,代表的权重,参数采用动态路由算法更新。g是胶囊网络中常用的向量激活函数(squash),公式如下:
其中,||·||代表向量的长度。原先应用在图像领域的胶囊网络中的动态路由算法用于分类,本方法用于聚类,即将表示相同兴趣的短视频特征聚合到一起。为了更适合推荐应用场景,进一步改进的更新方式,原先的动态路由计算方式为:
改进之后的动态路由计算方式为:
S500,根据用户兴趣表征,预测用户对目标短视频的点击率。根据用户兴趣表征vi,预测目标短视频xnew的点击率。给定用户兴趣胶囊vi,计算用户点击目标短视频xnew的概率为:
αi=qT·σ(W1·vi+W2·xnew+c)
其中,vi为用户的第i个兴趣表征,xnew为目标短视频。参数阳参数控制每个兴趣表征的权重,d代表兴趣表征的维度,参数c是偏置参数。和是转移矩阵,是偏置向量,b2是偏置标量。σ是sigmoid激活函数。
其中,y∈{0,1}是真实值,代表用户是否点击了目标短视频。σ是sigmoid函数。我们采用Adam优化器更新模型参数。
上述对实施例的描述是为方便于本技术领域的普通技术人员能理解和应用本发明。熟悉本领域技术的人员显然可以容易地对上述实施例做出各种修改,并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此,本发明不限于上述实施例,本领域技术人员根据本发明的揭示,对于本发明做出的改进和修改都应该在本发明的保护范围之内。
Claims (3)
1.一种基于多模态动态路由的短视频点击率预测方法,其特征在于:
根据所有用户的历史点击行为序列,构建短视频图网络T;
把短视频多模态特征分别输入短视频图网络T,更新多模态特征表征;对于当前用户的点击行为序列X=[x1,…,xn],其中短视频xj由和两种模态构成,是短视频的封面图特征向量,是短视频的文本特征向量,模态特征向量的长度是d;把短视频封面图特征和文本特征分别输入图网络,生成多模态特征表征其中p∈{a,b};和更新方法相同,为了描述方便,以下公式略去p∈{a,b},令:
其中,k代表在图网络T中的搜索深度,k的最大深度由搜索深度参数L控制;代表节点xj在k层的向量表征,模态a和模态b的分别被初始化为和短视频的多模态特征表征即是不同模态特征p∈{a,b}在短视频图网络中更新深度L之后的B(j)为短视频图网络T中短视频xj的邻居集合,按照图T边由大到小排序采样sampling获得;非线性函数f表示将节点xj的邻居节点信息融合到节点xj中;
其中,p∈{a,b},是当前用户点击行为序列X=[x1,…,xn]的第j个短视频胶囊到兴趣胶囊i的转换矩阵,兴趣胶囊i的个数是M;用户兴趣表征的向量长度为d;g是胶囊网络中常用的squash向量激活函数;是连接系数,代表的权重,参数采用如下动态路由算法更新
其中,为从短视频封面图像特征抽取出的第i个兴趣表征,是短视频文本特征抽取出的第i个兴趣表征;参数和参数W1,W2,W′1,控制每个兴趣表征的权重,d代表兴趣表征的维度,参数b1、是偏置向量;σ是sigmoid激活函数;
根据用户兴趣表征vi,预测用户对目标短视频的点击率:
其中,vi为用户的第i个兴趣表征,xnew为目标短视频向量表征;参数和参数W1,控制每个兴趣表征的权重,d既是短视频模态特征向量的长度又是用户兴趣表征的长度,参数c是偏置参数; 和是转移矩阵,是偏置向量,b2是偏置标量;σ是sigmoid激活函数;
其中,y∈{0,1}是真实值,代表用户是否点击了目标短视频;σ是sigmoid函数;最后采用Adam优化器更新模型参数。
2.根据权利要求1所述的一种基于多模态动态路由的短视频点击率预测方法,其特征在于:所述短视频图网络T构造方法为:
为了捕捉短视频和短视频之间的转移关系,我们从所有用户的历史点击行为序列中构建短视频图网络T;给定一个用户uτ历史点击行为序列xτ=[x1,…,xl],l是用户uτ的行为序列xτ的长度,任一短视频xj为图T的节点,(xj-1,xj)为图网络T的边,(xj-1,xj)表示一个用户点击短视频xj-1后点击短视频xj;图的边数值属性为边(xj-1,xj)出现的次数;为了降低在线计算复杂度,采用离线文件存储每个节点在图网络T中的邻居节点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011283162.2A CN112256918B (zh) | 2020-11-17 | 2020-11-17 | 一种基于多模态动态路由的短视频点击率预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011283162.2A CN112256918B (zh) | 2020-11-17 | 2020-11-17 | 一种基于多模态动态路由的短视频点击率预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112256918A CN112256918A (zh) | 2021-01-22 |
CN112256918B true CN112256918B (zh) | 2021-07-06 |
Family
ID=74266921
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011283162.2A Active CN112256918B (zh) | 2020-11-17 | 2020-11-17 | 一种基于多模态动态路由的短视频点击率预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112256918B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112905887B (zh) * | 2021-02-22 | 2021-12-14 | 中国计量大学 | 一种基于多兴趣短期优先模型的会话推荐方法 |
CN114118200B (zh) * | 2021-09-24 | 2023-05-12 | 杭州电子科技大学 | 一种基于注意力引导双向胶囊网络的多模态情感分类方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108280155A (zh) * | 2018-01-11 | 2018-07-13 | 百度在线网络技术(北京)有限公司 | 基于短视频的问题检索反馈方法、装置及其设备 |
CN108307207A (zh) * | 2017-12-28 | 2018-07-20 | 北京达佳互联信息技术有限公司 | 一种视频推送方法及装置 |
CN108520442A (zh) * | 2018-04-10 | 2018-09-11 | 电子科技大学 | 一种基于融合结构的展示广告点击率预测方法 |
CN109408724A (zh) * | 2018-11-06 | 2019-03-01 | 北京达佳互联信息技术有限公司 | 多媒体资源预估点击率的确定方法、装置及服务器 |
CN111125537A (zh) * | 2019-12-31 | 2020-05-08 | 中国计量大学 | 一种基于图表征的会话推荐方法 |
CN111339355A (zh) * | 2020-05-21 | 2020-06-26 | 北京搜狐新媒体信息技术有限公司 | 一种视频推荐方法及系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9468845B2 (en) * | 2014-04-22 | 2016-10-18 | Zynga Inc. | Methods for using touch-screens to simulate balancing and manipulation of curved object during gameplay |
US9978287B2 (en) * | 2014-09-12 | 2018-05-22 | Peter Fadde | Systems and methods for improving tennis stroke recognition |
CN109241283B (zh) * | 2018-08-08 | 2022-02-11 | 广东工业大学 | 一种基于多角度胶囊网络的文本分类方法 |
CN109862432A (zh) * | 2019-01-31 | 2019-06-07 | 厦门美图之家科技有限公司 | 点击率预测方法和装置 |
-
2020
- 2020-11-17 CN CN202011283162.2A patent/CN112256918B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108307207A (zh) * | 2017-12-28 | 2018-07-20 | 北京达佳互联信息技术有限公司 | 一种视频推送方法及装置 |
CN108280155A (zh) * | 2018-01-11 | 2018-07-13 | 百度在线网络技术(北京)有限公司 | 基于短视频的问题检索反馈方法、装置及其设备 |
CN108520442A (zh) * | 2018-04-10 | 2018-09-11 | 电子科技大学 | 一种基于融合结构的展示广告点击率预测方法 |
CN109408724A (zh) * | 2018-11-06 | 2019-03-01 | 北京达佳互联信息技术有限公司 | 多媒体资源预估点击率的确定方法、装置及服务器 |
CN111125537A (zh) * | 2019-12-31 | 2020-05-08 | 中国计量大学 | 一种基于图表征的会话推荐方法 |
CN111339355A (zh) * | 2020-05-21 | 2020-06-26 | 北京搜狐新媒体信息技术有限公司 | 一种视频推荐方法及系统 |
Non-Patent Citations (2)
Title |
---|
一种基于胶囊网络的图像检索方法;黄静 等;《电脑与电信》;20200610(第6期);14-18,56 * |
基于深度学习的分类预测算法研究及实现;高旭旭;《中国优秀硕士学位论文全文数据库 信息科技辑》;20190915(第09期);I140-155 * |
Also Published As
Publication number | Publication date |
---|---|
CN112256918A (zh) | 2021-01-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhao et al. | Deep reinforcement learning for list-wise recommendations | |
CN112256916B (zh) | 一种基于图胶囊网络的短视频点击率预测方法 | |
CN111222054B (zh) | 一种基于上下文邻居关系建模的会话社交推荐方法 | |
CN111125537B (zh) | 一种基于图表征的会话推荐方法 | |
CN111460331B (zh) | 一种基于时空图的会话推荐方法 | |
CN109190030B (zh) | 融合node2vec和深度神经网络的隐式反馈推荐方法 | |
CN112256918B (zh) | 一种基于多模态动态路由的短视频点击率预测方法 | |
CN112492396B (zh) | 一种基于细粒度的多方面分析的短视频点击率预测方法 | |
CN112395504B (zh) | 一种基于序列胶囊网络的短视频点击率预测方法 | |
CN112685657B (zh) | 一种基于多模态交叉融合图网络的会话社交推荐方法 | |
CN112765461A (zh) | 一种基于多兴趣胶囊网络的会话推荐方法 | |
CN113326384A (zh) | 一种基于知识图谱的可解释推荐模型的构建方法 | |
CN112307258B (zh) | 一种基于双层胶囊网络的短视频点击率预测方法 | |
CN112395505B (zh) | 一种基于协同注意力机制的短视频点击率预测方法 | |
CN114282077A (zh) | 一种基于会话数据的会话推荐方法及系统 | |
CN112199550B (zh) | 一种基于情感胶囊网络的短视频点击率预测方法 | |
CN112559904B (zh) | 一种基于门机制和多模态图网络的会话社交推荐方法 | |
CN112307257B (zh) | 一种基于多信息节点图网络的短视频点击率预测方法 | |
CN113051468B (zh) | 一种基于知识图谱和强化学习的电影推荐方法及系统 | |
CN116452293A (zh) | 一种融合物品受众特征的深度学习推荐方法及系统 | |
CN115599990A (zh) | 一种知识感知结合深度强化学习的跨域推荐方法及系统 | |
CN115481325A (zh) | 基于用户全局兴趣迁移感知的个性化新闻推荐方法及系统 | |
CN112616072B (zh) | 一种基于用户正负反馈信息的短视频点击率预测方法 | |
Wang et al. | MOOC resources recommendation based on heterogeneous information network | |
Zhang et al. | Hybrid recommendation system with graph neural collaborative filtering and local self-attention mechanism |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |