CN110222231B - 一种视频片段的热度预测方法 - Google Patents
一种视频片段的热度预测方法 Download PDFInfo
- Publication number
- CN110222231B CN110222231B CN201910502112.XA CN201910502112A CN110222231B CN 110222231 B CN110222231 B CN 110222231B CN 201910502112 A CN201910502112 A CN 201910502112A CN 110222231 B CN110222231 B CN 110222231B
- Authority
- CN
- China
- Prior art keywords
- video
- segment
- fea
- layer
- feature vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0242—Determining effectiveness of advertisements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
- H04N21/23418—Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
- H04N21/44008—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
Abstract
本发明公开了一种视频片段的热度预测方法,用视频编码模块(Video Encoder)进行视频片段的视频编码特征向量提取的方法,从而获取视频的视觉信息,用视频‑语义映射模型LT(Language Transfer)进行视频语义映射特征向量提取的方法,并进行多模态信息融合,从而可以获取更多关于视频内容的信息。这样实现了结合弹幕的语义信息,对视频片段热度的预测,从而将精彩片段推荐给观众,增加观众观看意愿。
Description
技术领域
本发明属于视频信息挖掘技术领域,更为具体地讲,涉及一种视频片段的热度预测方法。
背景技术
在视频热度预测方面,现有技术中,大多数方法会根据历史视频的各个属性:包括视频发布者、视频长度、视频类型、视频发布时间等具体数据,来判断哪些类别的视频可能收到观众的欢迎,没有通过视频的视觉内容直接去预测一个视频是否会受到观众欢迎,因此,预测往往不准确。并且只能预测某个视频在将来是否会受到观众的欢迎,并不能预测一段视频中哪些片段更受观众欢迎。
在弹幕信息挖掘方面,目前大量的工作主要针对弹幕的密集程度,来判断视频中哪个片段正在发生重要的、吸引人的事情,只用到了弹幕的数量信息,没有用到弹幕的语义信息,并用弹幕的语义信息来判断观众的情绪和喜好。
现有的视频热度预测主要集中在预测一个视频在未来是否会受到观众的欢迎。然而对一段视频来讲,可能并不会整段视频都很吸引人,但它可能会存在一些比较精彩的片段。如果能够挖掘出视频中哪些片段在未来更能够吸引观众,并将精彩片段推荐给观众,那么观众可能会更愿意去观看这些视频,增加点击量,进而产生巨大的商业价值。
发明内容
本发明的目的在于克服现有技术的不足,提供一种视频片段的热度预测方法,结合弹幕的语义信息,对视频片段的热度进行预测,从而将精彩片段推荐给观众,增加观众观看意愿。
为实现上述发明目的,本发明视频片段的热度预测方法,其特征在于,包括以下步骤:
(1)、构建训练用数据集
收集视频及对应的弹幕数据,并根据场景的变化将视频划分为连续的若干片段,将弹幕与每一视频片段对应,以视频片段的弹幕多少进行热度划分,并作为该视频片段的标签,即判断视频片段是否受到观众欢迎的依据,弹幕多的视频片段,为受观众欢迎的视频片段;
对于每一视频的关键帧,提取其帧特征FEA;
(2)、构建并训练一视频编码模块VE(Video Encoder)
视频编码模型(VE)有两层,分别是段内编码层和段间连接层,两个层均为双向的LSTM(Long Short-Term Memory,长短期记忆网络)结构;
对输入视频,提取关键帧的帧特征FEA送入段内编码层,在段内编码层,每一帧用LSTM单元依次前向、后向连接(编码),这样可以获得时间维度的细微变化信息;
在前向连接中,在每一视频片段的最后一个帧特征编码后,得到的前向信息传递送入段间连接层,在后向连接中,在每一视频片段的最前一个帧特征编码后,得到的反向信息传递送入段间连接层;
在段间连接层中,每一视频片段对应有一个前向LSTM单元和一个后向LSTM单元,前向LSTM单元将该视频片段前向信息传递与前一视频片段在段间连接层中对应的前向LSTM单元输出的前向特征向量(FEA_FVE)进行连接(编码),输出前向特征向量(FEA_FVE);后向LSTM单元将该视频片段后向信息传递与后一视频片段段间连接层中对应的后向LSTM单元输出的后向特征向量(FEA_BVE)进行连接(编码),输出后向特征向量(FEA_BVE),以获得视频相邻片段场景变化的信息;
对于每个视频片段,将前向特征向量(FEA_FVE)与后向特征向量(FEA_BVE)进行连接,合成一个视频编码特征向量FEA_VE;
将视频片段特征向量FEA_VE送入全连接层FC1中进行全连接操作,全连接后输出到Softmax层S1,将视频片段特征向量FEA_VE连接到5类热度,即非常热门、比较热门、一般热门、比较冷门、非常冷门,并用训练用数据集中的视频进行训练:输入视频以及该视频的各个视频片段标签,使用梯度下降法优化视频编码模块;
(3)、构建并训练一视频-语义映射模型LT(Language Transfer)
视频-语义映射模型包含两个层:编码层和比较层;
在LT的训练过程中,对于编码层,对于一条弹幕(相关弹幕),将其训练标签设置为1,并在训练用数据集中选择其配对的视频片段,然后随机选择一个与这一视频片段的无相关弹幕,将其训练标签设置为-1;对于选择的视频片段,将关键帧的帧特征FEA用LSTM单元依次连接,并获取最后一个LSTM单元的前向信息传递,送入全连接层FC2中进行全连接,得到视频语义映射特征向量FEA_LT;对于相关弹幕和不相关弹幕,使用Doc2Vec(文本向量转换工具)提取弹幕的文本特征,并送入全连接层FC3中进行全连接,得到相关弹幕和不相关弹幕的文本向量,其中,视频语义映射特征向量与文本向量维度相同。
在视频-语义映射模型LT的训练过程中,对于比较层,将视频片段的视频语义映射特征向量分别与该视频片段的相关弹幕文本向量、不相关弹幕文本向量进行相似度计算,再分别以标签1、-1,对视频-语义映射模型进行训练;
(4)、构建并训练一基于弹幕的视频片段热度预测模型
基于弹幕的视频片段热度预测模型包括优化后的视频编码模块(VE模块)、训练后的视频-语义映射模型以及一个特征融合层;
在特征融合层中,将优化后的视频编码模块获取的视频片段特征向量FEA_VE与训练后的视频-语义映射模型获取的视频语义映射特征向量FEA_LT进行多模态信息融合,得到视频片段融合特征向量VL,将视频片段融合特征向量VL送入全连接层FC4中进行全连接,全连接后输出到Softmax层S2,得到5类预测热度,即非常热门、比较热门、一般热门、比较冷门、非常冷门;
将训练用数据集中的视频分别输入到优化后的视频编码模块(VE模块)以及训练后的视频-语义映射模型,以该视频的各个视频片段标签作为训练目标,使用梯度下降法对基于弹幕的视频片段热度预测模型进行训练,得到训练后的基于弹幕的视频片段热度预测模型;
(5)、对新视频各个视频片段进行热度预测
将一新视频根据场景的变化将视频划分为连续的若干片段,并同时输入到训练后的基于弹幕的视频片段热度预测模型中,得到各个视频片段的预测热度。
本发明的目的是这样实现的。
通过分析视频画面的内容,能获取视频每个片段发生的事情,从而分析视频中哪些内容会受到欢迎。针对视频片段的内容分析,本发明创造性地提出了用视频编码模块(Video Encoder)进行视频片段的视频编码特征向量提取的方法,从而获取视频的视觉信息。此外,通过分析弹幕的语义信息,可以更加了解观众的喜好。针对现有研究中,对弹幕语义分析技术缺乏的问题,本发明创造性的提出了视频-语义映射模型LT(LanguageTransfer)进行视频语义映射特征向量提取的方法,并进行多模态信息融合,从而可以获取更多关于视频内容的信息。这样实现了结合弹幕的语义信息,对视频片段热度的预测,从而将精彩片段推荐给观众,增加观众观看意愿。
附图说明
图1是本发明视频片段的热度预测方法一种具体实施方式流程图;
图2是视频编码模块一具体实施方式的结构示意图;
图3是视频-语义映射模型一具体实施方式的结构示意图;;
图4是基于弹幕的视频片段热度预测模型的结构示意图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
图1是本发明视频片段的热度预测方法一种具体实施方式流程图。
在本实施例中,如图1所示,本发明视频片段的热度预测方法包括以下步骤:
步骤S1:构建训练用数据集
针对现有视频热度预测方法中,预测模型普遍存在的数据稀疏性问题,本实施例通过收集主流视频网站上的视频以及对应弹幕来解决。
爬取(收集)Bilibili网站中的视频及对应的弹幕,并根据场景的变化将视频划分为连续的若干片段。在本实施例中,爬取(收集)情况表1所示。
表1
在本实施例中,对收集的视频进行抽帧,每隔10帧取1帧(并作为关键帧)。之后使用提取每帧的颜色直方图,让相邻两帧颜色直方图相差比较大的,作为视频片段的分隔区域,即将视频进行分段,这样一个视频可以被分为长短不同的几段。
将弹幕与每一视频片段对应,以视频片段的弹幕多少进行热度划分,并作为该视频片段的标签,即判断视频片段是否受到观众欢迎的依据,弹幕多的视频片段,为受观众欢迎的视频片段。
对于每一视频的关键帧,输入到Resnet网络(Residual Neural Network,即残差神经网络)提取其帧特征FEA。
步骤S2:构建并训练一视频编码模块VE(Video Encoder)
在本实施例中,构建的视频编码模块如图2所示。视频编码模型(VE)有两层,分别是段内编码层和段间连接层,两个层均为双向的LSTM(Long Short-Term Memory,长短期记忆网络)结构。
对输入视频,提取关键帧的帧特征FEA送入段内编码层,在段内编码层,每一帧用LSTM单元依次前向(箭头向右)、后向(箭头向左)连接即编码,这样可以获得时间维度的细微变化信息。在本实施例中,给出了第一个视频片段即视频片段1(含有K帧关键帧)以及第二个视频片段即视频片段2(含有M-K+1帧关键帧)的连接情形,其他的视频片段的连接方式相同。
在前向连接中,在每一视频片段的最后一个帧特征编码后,得到的前向信息传递送入段间连接层,在后向连接中,在每一视频片段的最前一个帧特征编码后,得到的反向信息传递送入段间连接层。在本实施例中,如图2所示,视频片段1的最后一个帧特征FEA(K-1)编码后、视频片段2的最后一个帧特征FEA(M)编码后,得到的前向信息传递送入段间连接层,视频片段1的最前一个帧特征FEA0编码后、视频片段2的最前一个帧特征FEA(K)编码后,得到的后向信息传递送入段间连接层。
在段间连接层中,每一视频片段对应有一个前向LSTM单元和一个后向LSTM单元,前向LSTM单元将该视频片段前向信息传递与前一视频片段在段间连接层中对应的前向LSTM单元输出的前向特征向量FEA_FVE进行连接(编码),输出前向特征向量FEA_FVE;后向LSTM单元将该视频片段后向信息传递与后一视频片段段间连接层中对应的后向LSTM单元输出的后向特征向量FEA_BVE进行连接(编码),输出后向特征向量FEA_BVE,以获得视频相邻片段场景变化的信息。在本实施例中,如图2所示,对于视频片段1,其没有前一视频片段,因此,视频片段1对应的前向LSTM单元输出的前向特征向量为视频片段1的前向信息。
对于每个视频片段,将前向特征向量FEA_FVE与后向特征向量FEA_BVE进行连接,合成一个视频编码特征向量FEA_VE。
将视频片段特征向量FEA_VE送入全连接层FC1中进行全连接操作,全连接后输出到Softmax层S1,将视频片段特征向量FEA_VE连接到5热度分类,即非常热门、比较热门、一般热门、比较冷门、非常冷门,并用训练用数据集中的视频进行训练:输入视频以及该视频的各个视频片段标签,使用梯度下降法优化视频编码模块。
训练过后,视频编码模块VE最终可以对输入视频的每个视频片段进行特征提取,并输出视频片段特征向量FEA_VE。
步骤S3:构建并训练一视频-语义映射模型LT(Language Transfer)
在本实施例中,如图3所示,视频-语义映射模型包含两个层:编码层和比较层。视频-语义映射模型(LT)可以有效地将视频特征映射到语义空间,并带有语义信息。
在视频-语义映射模型LT的训练过程中,对于编码层,对于一条弹幕(相关弹幕),将其训练标签设置为1,并在训练用数据集中选择其配对的视频片段,然后随机选择一个与这一视频片段的无相关弹幕,将其训练标签设置为-1;对于选择的视频片段,将关键帧的帧特征FEA用LSTM单元依次连接,并获取最后一个LSTM单元的前向信息传递,送入全连接层FC2中进行全连接,得到视频语义映射特征向量FEA_LT。对于相关弹幕和不相关弹幕,使用Doc2Vec(文本向量转换工具)提取弹幕的文本特征,并送入全连接层FC3中进行全连接,得到相关弹幕和不相关弹幕的文本向量,其中,视频语义映射特征向量与文本向量维度相同。
在LT的训练过程中,对于比较层,将视频片段的视频语义映射特征向量分别与该视频片段的相关弹幕文本向量、不相关弹幕文本向量进行相似度计算,再分别以标签1、-1,对视频-语义映射模型进行训练。
在比较层中,让相关弹幕文本向量、视频语义映射特征向量的相似度提高;让不相关弹幕文本向量、视频语义映射特征向量的相似度降低。
在本实施例中,训练时计算损失函数,分别使用欧式距离、协方差、皮尔逊相关、Kendall和Rank方法,来度量相似性。
在本实施例中,对视频-语义映射模型进行训练,采用余弦距离来度量相似性,1表示相似,-1表示不相似。具体而言为:将视频片段的帧特征FEA逐一输入到LT网络中,每个视频片段可以提出特征FEA_LT。同时选一个与视频片段相关的弹幕D1,选一个与视频片段不相关的弹幕D2,使用Doc2Vec模型提出弹幕D1的特征FEA_D1,提出弹幕D2的特征FEA_D2。让FEA_LT与FEA_D1的余弦距离接近1,让FEA_LT与FEA_D2的余弦距离接近-1。使用梯度下降法优化视频-语义映射模型。
步骤S4:构建并训练一基于弹幕的视频片段热度预测模型
在本实施例中,如图4所示,在优化后的视频编码模块获取了视频的视频片段特征向量FEA_VE、训练后的视频-语义映射模型获取的视频语义映射特征向量FEA_LT之后,通过将输出向量相连接的方式,将两个模型进行融合,构建基于弹幕的视频片段热度预测模型模型,用于视频片段热度预测,具体而言,如图4所示,基于弹幕的视频片段热度预测模型包括优化后的视频编码模块(VE模块)、训练后的视频-语义映射模型以及一个特征融合层。
在特征融合层中,将优化后的视频编码模块获取的视频片段特征向量FEA_VE与训练后的视频-语义映射模型获取的视频语义映射特征向量FEA_LT进行多模态信息融合,得到视频片段融合特征向量VL,将视频片段融合特征向量VL送入全连接层FC4中进行全连接,全连接后输出到Softmax层S2,得到5类预测热度,即非常热门、比较热门、一般热门、比较冷门、非常冷门。
将训练用数据集中的视频分别输入到优化后的视频编码模块(VE模块)以及训练后的视频-语义映射模型,以该视频的各个视频片段标签作为训练目标,使用梯度下降法对基于弹幕的视频片段热度预测模型进行训练,得到训练后的基于弹幕的视频片段热度预测模型。
步骤S5:对新视频各个视频片段进行热度预测
将一新视频根据场景的变化将视频划分为连续的若干片段,并同时输入到训练后的基于弹幕的视频片段热度预测模型中,得到各个视频片段的预测热度。
实验结果
实验结果见表2,其中,“单层LSTM”是我们的基线模型,其仅应用一层LSTM来编码视频帧并直接使用每个片段的最后一个向量来预测视频片段的热度,“视频编码(VE)”表示,仅用本发明中构建并训练一视频编码模块得到的视频编码特征向量FEA_VE进行预测视频片段的热度。
模型 | 精确度 | 召回率 |
单层LSTM | 0.355 | 0.267 |
视频编码(VE) | 0.412 | 0.298 |
本发明(相似度度量:协方差) | 0.441 | 0.312 |
本发明(相似度度量:皮尔森相关) | 0.437 | 0.321 |
本发明(相似度度量:Kendall) | 0.429 | 0.313 |
本发明(相似度度量:Rank) | 0.421 | 0.304 |
表2
从表2我们可以看出,相对于基线方法,本发明中,依据视频编码从视频中提取了更准确的信息,并且它可以更好地模拟每个视频片段之间的相关性,因此,视频片段热度预测更为精确。结合视频语义映射特征向后,本发明提出的基于弹幕的视频片段热度预测模型的效果得到进一步提升。原因在于视频-语义映射模型LT学习有效的视频-弹幕映射,并减少视频和弹幕评论之间的语义鸿沟。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
Claims (1)
1.一种视频片段的热度预测方法,其特征在于,包括以下步骤:
(1)、构建训练用数据集
收集视频及对应的弹幕数据,并根据场景的变化将视频划分为连续的若干片段,将弹幕与每一视频片段对应,以视频片段的弹幕多少进行热度划分,并作为该视频片段的标签,即判断视频片段是否受到观众欢迎的依据,弹幕多的视频片段,为受观众欢迎的视频片段;
对于每一视频的关键帧,提取其帧特征FEA;
(2)、构建并训练一视频编码模块
视频编码模型有两层,分别是段内编码层和段间连接层,两个层均为双向的LSTM(LongShort-Term Memory,长短期记忆网络)结构;
对输入视频,提取关键帧的帧特征FEA送入段内编码层,在段内编码层,每一帧用LSTM单元依次前向、后向连接,这样可以获得时间维度的细微变化信息;
在前向连接中,在每一视频片段的最后一个帧特征编码后,得到的前向信息传递送入段间连接层,在后向连接中,在每一视频片段的最前一个帧特征编码后,得到的反向信息传递送入段间连接层;
在段间连接层中,每一视频片段对应有一个前向LSTM单元和一个后向LSTM单元,前向LSTM单元将该视频片段前向信息传递与前一视频片段在段间连接层中对应的前向LSTM单元输出的前向特征向量FEA_FVE进行连接,输出前向特征向量FEA_FVE;后向LSTM单元将该视频片段后向信息传递与后一视频片段段间连接层中对应的后向LSTM单元输出的后向特征向量FEA_BVE进行连接,输出后向特征向量FEA_BVE,以获得视频相邻片段场景变化的信息;
对于每个视频片段,将前向特征向量FEA_FVE与后向特征向量FEA_BVE进行连接,合成一个视频编码特征向量FEA_VE;
将视频片段特征向量FEA_VE送入全连接层FC1中进行全连接操作,全连接后输出到Softmax层S1,将视频片段特征向量FEA_VE连接到5类热度,即非常热门、比较热门、一般热门、比较冷门、非常冷门,并用训练用数据集中的视频进行训练:输入视频以及该视频的各个视频片段标签,使用梯度下降法优化视频编码模块;
(3)、构建并训练一视频-语义映射模型LT(Language Transfer)
视频-语义映射模型包含两个层:编码层和比较层;
在视频-语义映射模型LT的训练过程中,对于编码层,对于一条相关弹幕,将其训练标签设置为1,并在训练用数据集中选择其配对的视频片段,然后随机选择一个与这一视频片段的无相关弹幕,将其训练标签设置为-1;对于选择的视频片段,将关键帧的帧特征FEA用LSTM单元依次连接,并获取最后一个LSTM单元的前向信息传递,送入全连接层FC2中进行全连接,得到视频语义映射特征向量FEA_LT;对于相关弹幕和不相关弹幕,使用文本向量转换工具提取弹幕的文本特征,并送入全连接层FC3中进行全连接,得到相关弹幕和不相关弹幕的文本向量,其中,视频语义映射特征向量与文本向量维度相同;
在视频-语义映射模型LT的训练过程中,对于比较层,将视频片段的视频语义映射特征向量分别与该视频片段的相关弹幕文本向量、不相关弹幕文本向量进行相似度计算,再分别以标签1、-1,对视频-语义映射模型进行训练;
(4)、构建并训练一基于弹幕的视频片段热度预测模型
基于弹幕的视频片段热度预测模型包括优化后的视频编码模块、训练后的视频-语义映射模型以及一个特征融合层;
在特征融合层中,将优化后的视频编码模块获取的视频片段特征向量FEA_VE与训练后的视频-语义映射模型获取的视频语义映射特征向量FEA_LT进行多模态信息融合,得到视频片段融合特征向量VL,将视频片段融合特征向量VL送入全连接层FC4中进行全连接,全连接后输出到Softmax层S2,得到5类预测热度,即非常热门、比较热门、一般热门、比较冷门、非常冷门;
将训练用数据集中的视频分别输入到优化后的视频编码模块以及训练后的视频-语义映射模型,以该视频的各个视频片段标签作为训练目标,使用梯度下降法对基于弹幕的视频片段热度预测模型进行训练,得到训练后的基于弹幕的视频片段热度预测模型;
(5)、对新视频各个视频片段进行热度预测
将一新视频根据场景的变化将视频划分为连续的若干片段,并同时输入到训练后的基于弹幕的视频片段热度预测模型中,得到各个视频片段的预测热度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910502112.XA CN110222231B (zh) | 2019-06-11 | 2019-06-11 | 一种视频片段的热度预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910502112.XA CN110222231B (zh) | 2019-06-11 | 2019-06-11 | 一种视频片段的热度预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110222231A CN110222231A (zh) | 2019-09-10 |
CN110222231B true CN110222231B (zh) | 2022-10-18 |
Family
ID=67816423
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910502112.XA Active CN110222231B (zh) | 2019-06-11 | 2019-06-11 | 一种视频片段的热度预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110222231B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111031330A (zh) * | 2019-10-29 | 2020-04-17 | 中国科学院大学 | 一种基于多模态融合的网络直播内容分析方法 |
CN110933492B (zh) * | 2019-12-10 | 2022-03-04 | 北京爱奇艺科技有限公司 | 一种播放时长预测方法及装置 |
CN111368201A (zh) * | 2020-03-06 | 2020-07-03 | 杭州威佩网络科技有限公司 | 一种热点事件检测方法、装置、电子设备及存储介质 |
US20220084187A1 (en) * | 2020-09-14 | 2022-03-17 | City University Of Hong Kong | Method, device and computer readable medium for intrinsic popularity evaluation and content compression based thereon |
CN116503791B (zh) * | 2023-06-30 | 2023-09-15 | 腾讯科技(深圳)有限公司 | 模型的训练方法、装置、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107105318A (zh) * | 2017-03-21 | 2017-08-29 | 华为技术有限公司 | 一种视频热点片段提取方法、用户设备和服务器 |
CN108509465A (zh) * | 2017-02-28 | 2018-09-07 | 阿里巴巴集团控股有限公司 | 一种视频数据的推荐方法、装置和服务器 |
CN108537139A (zh) * | 2018-03-20 | 2018-09-14 | 校宝在线(杭州)科技股份有限公司 | 一种基于弹幕信息的在线视频精彩片段分析方法 |
US10283163B1 (en) * | 2018-02-16 | 2019-05-07 | Wipro Limited | Method and system for generating video content based on user data |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102487456B (zh) * | 2009-11-30 | 2015-06-17 | 国际商业机器公司 | 用于提供网络视频访问热度的方法和装置 |
-
2019
- 2019-06-11 CN CN201910502112.XA patent/CN110222231B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108509465A (zh) * | 2017-02-28 | 2018-09-07 | 阿里巴巴集团控股有限公司 | 一种视频数据的推荐方法、装置和服务器 |
CN107105318A (zh) * | 2017-03-21 | 2017-08-29 | 华为技术有限公司 | 一种视频热点片段提取方法、用户设备和服务器 |
US10283163B1 (en) * | 2018-02-16 | 2019-05-07 | Wipro Limited | Method and system for generating video content based on user data |
CN108537139A (zh) * | 2018-03-20 | 2018-09-14 | 校宝在线(杭州)科技股份有限公司 | 一种基于弹幕信息的在线视频精彩片段分析方法 |
Non-Patent Citations (1)
Title |
---|
Discovering attractive segments in the user-generated video streams;Zheng Wang等;《Information Processing and Management》;20190925;1-14 * |
Also Published As
Publication number | Publication date |
---|---|
CN110222231A (zh) | 2019-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110222231B (zh) | 一种视频片段的热度预测方法 | |
CN111581510B (zh) | 分享内容处理方法、装置、计算机设备和存储介质 | |
US20180336266A1 (en) | Interaction method and apparatus based on artificial intelligence | |
CN104754413B (zh) | 基于图像搜索识别电视信号并推荐信息的方法和设备 | |
US11776267B2 (en) | Intelligent cataloging method for all-media news based on multi-modal information fusion understanding | |
CN101821734B (zh) | 时基媒体之间的匹配的检测和分类 | |
CN111930999B (zh) | 逐帧跨模态相似度关联实施文本查询定位视频片段方法 | |
Saba et al. | Analysis of vision based systems to detect real time goal events in soccer videos | |
CN104504109A (zh) | 图片搜索方法和装置 | |
CN102461066A (zh) | 组合的水印法和指纹法 | |
EP3438883B1 (en) | Method and apparatus for detecting a common section in moving pictures | |
CN109783691B (zh) | 一种深度学习和哈希编码的视频检索方法 | |
WO2023004206A1 (en) | Unsupervised hashing method for cross-modal video-text retrieval with clip | |
CN115731498B (zh) | 一种联合强化学习和对比学习的视频摘要生成方法 | |
CN110162664B (zh) | 视频推荐方法、装置、计算机设备及存储介质 | |
CN109214418A (zh) | 用户意图的挖掘方法及装置、计算机设备及可读介质 | |
Zhao et al. | Modeling motion with multi-modal features for text-based video segmentation | |
KR100896336B1 (ko) | 영상 정보 기반의 동영상 연관 검색 시스템 및 방법 | |
CN111026910B (zh) | 视频推荐方法、装置、电子设备及计算机可读存储介质 | |
CN115640449A (zh) | 媒体对象推荐方法、装置、计算机设备和存储介质 | |
Fei et al. | Learning user interest with improved triplet deep ranking and web-image priors for topic-related video summarization | |
KR102559950B1 (ko) | 인공지능에 기반한 최적 광고 추천 시스템 | |
Luu et al. | Bi-Directional Long Short-Term Memory Variational Autoencoder for Real-Time Bit-Wear Estimation | |
CN116956128A (zh) | 一种基于超图的多模态多标签分类方法及系统 | |
CN117036736A (zh) | 基于pvt交互网络的显著性目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |