CN116189062A - 一种视频流行度预测方法和系统 - Google Patents
一种视频流行度预测方法和系统 Download PDFInfo
- Publication number
- CN116189062A CN116189062A CN202310433385.XA CN202310433385A CN116189062A CN 116189062 A CN116189062 A CN 116189062A CN 202310433385 A CN202310433385 A CN 202310433385A CN 116189062 A CN116189062 A CN 116189062A
- Authority
- CN
- China
- Prior art keywords
- video
- mode
- popularity
- metadata
- visual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 91
- 230000000007 visual effect Effects 0.000 claims abstract description 59
- 238000000926 separation method Methods 0.000 claims abstract description 13
- 238000012545 processing Methods 0.000 claims abstract description 12
- 230000008901 benefit Effects 0.000 claims abstract description 9
- 230000015654 memory Effects 0.000 claims description 27
- 238000009826 distribution Methods 0.000 claims description 19
- 238000000605 extraction Methods 0.000 claims description 16
- 238000012549 training Methods 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 10
- 238000003860 storage Methods 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 8
- 238000005520 cutting process Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 3
- 230000006403 short-term memory Effects 0.000 claims description 3
- 238000007418 data mining Methods 0.000 abstract description 2
- 239000000523 sample Substances 0.000 description 11
- 238000010586 diagram Methods 0.000 description 9
- 238000007781 pre-processing Methods 0.000 description 7
- 239000000284 extract Substances 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000001373 regressive effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本申请实施例公开了一种视频流行度预测方法和系统,涉及数据挖掘技术领域,所述方法包括:对视频数据集进行模态分离,得到元数据、视觉模态、音频模态和文本模态;基于所述元数据获取先验知识,以选择目标视觉模态集;对所述目标视觉模态集进行帧解码处理,得到视频帧序列;将所述视频帧序列输入骨干网络提取语义信息,结合所述视觉模态、音频模态和文本模态得到视频语义特征;将所述视频语义特征解码为视频流行度。可以消除多模态中的冗余和噪声问题,根据元数据的特征自适应的选择具有成本效益的模态,并在此基础上提取视频的语义特征,最终通过解码器解码出视频的流行度,与现有的系统和方法相比可以更加高效准确地完成视频流行度预测。
Description
技术领域
本申请实施例涉及数据挖掘技术领域,具体涉及一种视频流行度预测方法和系统。
背景技术
近年来,在各大在线视频平台上进行视频流行度预测是一项至关重要的任务。通过流行度预测,推荐和检索系统可以基于实时数据做出更明智的决策,帮助内容创作者和平台更好地了解其观众。随着上传到这些平台的内容数量增加,开发高效准确的视频流行度预测方法变得越来越重要。目前的视频流行度预测研究者发现融合视频的多种模态信息对于提高模型性能非常重要。
然而,现有的方法并没有考虑不同模态的表现能力和计算成本,这可能会影响模型的准确性和效率。例如通过计算两个视频的词向量相似度来找到相关视频,综合考虑相关视频的属性特征得到该视频的流行度类别。例如提取视频的元数据的特征,并融合内容特征信息、时序特征信息得到最终的目标视频特征信息,通过流行度预测模型得到视频的流行度。例如使用BERT、VGGish、ResNet-152预训练模型分别提取视频的文本、音频、视觉的模态信息,然后融合这些信息用于视频的流行度预测。例如使用变分自编码器学习视频的潜在内容表示来预测视频的流行度序列。例如使用KL散度拉近用于特征与视频特征之间的距离,从而提高模型的鲁棒性和准确性。
因此,简单地对所有视频使用一套固定的模态并不是一个最佳策略,可能会引入冗余和噪音,损害准确性和效率。
发明内容
为此,本申请实施例提供一种视频流行度预测方法和系统,可以消除多模态中的冗余和噪声问题,根据元数据的特征自适应的选择具有成本效益的模态,并在此基础上提取视频的语义特征,最终通过解码器解码出视频的流行度,与现有的系统和方法相比可以更加高效准确地完成视频流行度预测。
为了实现上述目的,本申请实施例提供如下技术方案:
根据本申请实施例的第一方面,提供了一种视频流行度预测方法,所述方法包括:
对视频数据集进行模态分离,得到元数据、视觉模态、音频模态和文本模态;
基于所述元数据获取先验知识,以选择目标视觉模态集;
对所述目标视觉模态集进行帧解码处理,得到视频帧序列;
将所述视频帧序列输入骨干网络提取语义信息,结合所述视觉模态、音频模态和文本模态得到视频语义特征;
将所述视频语义特征解码为视频流行度。
可选地,所述在基于所述元数据获取先验知识,以选择目标视觉模态集,包括:
根据所述元数据获取先验知识,以确定所述视觉模态、音频模态和文本模态的表达参数和效益参数;
基于所述先验知识为所述视觉模态、音频模态和文本模态估计策略分布;
基于策略分布通过Gumbel-Softmax训练决策网络确定目标视觉模态集。
可选地,所述Gumbel-Softmax训练决策网络按照如下公式表示:
可选地,所述将所述视频语义特征解码为视频流行度,包括:
基于长短期记忆网络LSTM的解码器处理所述视频语义特征,得到视频流行度。
可选地,按照如下公式将基于长短期记忆网络LSTM的解码器处理所述视频语义特征,得到视频流行度:
可选地,所述将所述视频语义特征解码为视频流行度,包括:
将所述视频语义特征通过回归任务流行度解码器映射为视频人气序列,作为视频流行度。
可选地,所述对视觉模态进行帧解码处理,得到视频帧序列之后,所述方法包括:
对视觉模态中每张视频帧进行采样和剪裁的操作,得到尺寸标准化的视频帧序列。
根据本申请实施例的第二方面,提供了一种视频流行度预测系统,所述系统包括:
模态分离模块,用于对视频数据集进行模态分离,得到元数据、视觉模态、音频模态和文本模态;
第一策略网络模块,用于基于所述元数据获取先验知识,以选择目标视觉模态集;还用于对所述目标视觉模态集进行帧解码处理,得到视频帧序列;
特征提取模块,用于将所述视频帧序列输入骨干网络提取语义信息,结合所述视觉模态、音频模态和文本模态得到视频语义特征;
流行度解码模块,用于将所述视频语义特征解码为视频流行度。
根据本申请实施例的第三方面,提供了一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时执行以实现上述第一方面所述的方法。
根据本申请实施例的第四方面,提供了一种计算机可读存储介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现上述第一方面所述的方法。
综上所述,本申请实施例提供了一种视频流行度预测方法和系统,通过对视频数据集进行模态分离,得到元数据、视觉模态、音频模态和文本模态;基于所述元数据获取先验知识,以选择目标视觉模态集;对所述目标视觉模态集进行帧解码处理,得到视频帧序列;将所述视频帧序列输入骨干网络提取语义信息,结合所述视觉模态、音频模态和文本模态得到视频语义特征;将所述视频语义特征解码为视频流行度。可以消除多模态中的冗余和噪声问题,根据元数据的特征自适应的选择具有成本效益的模态,并在此基础上提取视频的语义特征,最终通过解码器解码出视频的流行度,与现有的系统和方法相比可以更加高效准确地完成视频流行度预测。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容能涵盖的范围内。
图1为本申请实施例提供的视频流行度预测方法的实现动机图;
图2为本申请实施例提供的视频流行度预测方法流程示意图;
图3为本申请实施例提供的视频流行度预测系统的框架图;
图4为本申请实施例提供的视频流行度预测系统逻辑流程图;
图5为本申请实施例提供的视频流行度预测系统框图;
图6示出了本申请实施例提供的一种电子设备的结构示意图;
图7示出了本申请实施例提供的一种计算机可读存储介质的示意图。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
视频具有多种模态的信息,例如视觉、音频、文本和元数据,提供了各种特征,可以增强预测的准确性。如图1所示,某些信息,例如作者的关注者、注册时间、视频发布时间和持续时间,可以视为视频元数据,而视频的描述(包括标题和标签)、图像和音频分别可以视为文本、视觉和音频模态。这些不同模态的信息可以结合在一起,进一步提高视频流行度预测的准确性和鲁棒性。但是使用全部模态的信息,可能会引入冗余和噪声,损害准确性和效率。因此,如何确定一组具有成本效益的模态,消耗较少的计算量并提供显著的表示能力,对于提高模型的准确性和效率非常重要。
在观看视频时希望找到一套成本效益高的模态集来获得有价值的信息。在观看之前,本申请实施例会检查视频的元数据,如作者和发布时间,以决定应该关注视频的哪些模态,如视觉或音频。元数据作为视频的背景和摘要,可以帮助在不看完整视频的情况下预览视频的整体内容和质量。例如,标题可以勾勒出视频的主题,因此本申请实施例对音乐类视频更关注音频模态,而对一个体育视频更关注视觉模态。
总的来说,元数据包含了一些关于视频内容的先验信息,通过观察元数据,本申请实施例可以对视频的主题、风格和质量有一个大致的了解。利用这些信息,可以确定目标关注哪些模态,忽略哪些模态,最终确定一套最佳的成本效益模态集合。本申请实施例的基于自适应模态选择的视频流行度预测系统及方法能够自适应的选择一套具有成本效益的模态集合并在此基础上提取视频的语义特征,实现对视频流行度的高效预测。
图2示出了本申请实施例提供的一种视频流行度预测方法流程示意图,所述方法包括:
步骤201:对视频数据集进行模态分离,得到元数据、视觉模态、音频模态和文本模态;
步骤202:基于所述元数据获取先验知识,以选择目标视觉模态集;
步骤203:对所述目标视觉模态集进行帧解码处理,得到视频帧序列;
步骤204:将所述视频帧序列输入骨干网络提取语义信息,结合所述视觉模态、音频模态和文本模态得到视频语义特征;
步骤205:将所述视频语义特征解码为视频流行度。
在一种可能的实施方式中,在步骤201对视觉模态进行帧解码处理,得到视频帧序列之后,所述方法包括:
对视觉模态中每张视频帧进行采样和剪裁的操作,得到尺寸标准化的视频帧序列。
在一种可能的实施方式中,在步骤202中,所述在基于所述元数据获取先验知识,以选择目标视觉模态集,包括:
根据所述元数据获取先验知识,以确定所述视觉模态、音频模态和文本模态的表达参数和效益参数;基于所述先验知识为所述视觉模态、音频模态和文本模态估计策略分布;基于策略分布通过Gumbel-Softmax训练决策网络确定目标视觉模态集。
在一种可能的实施方式中,所述Gumbel-Softmax训练决策网络按照如下公式表示:
在一种可能的实施方式中,在步骤205中,所述将所述视频语义特征解码为视频流行度,包括:
基于长短期记忆网络LSTM的解码器处理所述视频语义特征,得到视频流行度。
在一种可能的实施方式中,在步骤205中,按照如下公式将基于长短期记忆网络LSTM的解码器处理所述视频语义特征,得到视频流行度:
在一种可能的实施方式中,在步骤205中,所述将所述视频语义特征解码为视频流行度,包括:
将所述视频语义特征通过回归任务流行度解码器映射为视频人气序列,作为视频流行度。
下面结合附图对本申请实施例提供的一种视频流行度预测方法进行详细说明。图3为本申请实施例提供的视频流行度预测系统及方法的框架图。示出了视频流行度预测系统的视频预处理模块、策略网络模块、特征提取模块以及流行度解码模块的实现。
视频预处理模块:用于将视频的各个模态进行分离,并对视频帧进行采样、裁剪等数据预处理操作,最终输出尺寸标准化的视频帧序列。视频预处理模块负责对视频预处理,以便可以将视频数据放入模型中。通过模态分离将原始视频分成元数据、视觉模态、音频模态、文本模态四种信息,然后将视觉模态解码为多个视频帧,并输出尺寸标准化的视频帧序列。
策略网络模块:用于提取视频元数据的特征获取视频的先验知识,基于先验知识对视频的内容数据进行决策。策略网络模块负责根据元数据特征去估计最佳视频模态集。模块分为两部分,即元估计器和策略探针。首先元估计器提取元数据的特征获取视频的先验知识,以分析内容数据的表达能力和成本效益。基于先验知识和分析结果,策略探针为每个模态估计一个策略分布,并通过Gumbel-Softmax操作采样二进制决策,其中k表示第k个模态。
采用策略网络学习视频的先验知识选择一套具有成本效益的模态集合,并使用Gumbel-Softmax被用来解决决策不可微分的问题。通过这种方式,策略网络能够自适应地选择模态集合,以减少流行度预测的计算量,同时避免了使用多模态带来了冗余和噪声问题。
特征提取模块:用于提取内容数据的语义信息,激活策略网络所选择模态对应的骨干网络,进行特征提取。最终进行多模态信息,融合输出视频的语义信息。特征提取模块负责对内容数据进行编码并输出融合后的语义信息。它主要由各模态的骨干网络组成。在策略网络的指导下,所选模态的骨干网络被激活,以提取相应模态的语义信息。相反,对于被抛弃的模态,特征提取被跳过,直接输出特定大小的零填充矩阵。最终,多个模态的特征被融合为语义信息z。
流行度解码模块:用于将视频的语义信息解码为视频的流行度。流行度解码模块负责根据视频的语义信息解码出视频的流行度。有两种方法来预测一个视频的受欢迎程度,回归和时间序列回归。在回归任务中预测视频的人气分数;在时间序列回归中预测视频的未来人气序列。这两个任务都可以通过流行度解码模块来完成。对于回归任务流行度解码模块采用多层感知机将视频的语义信息映射为视频的人气分数;而对于时间序列回归,采用长短期记忆网络将将视频的语义信息解码为视频的未来人气序列。
为了提高视频流行度的预测精度和效率,本申请实施例提出了一个新颖的框架,采用策略网络提取视频的先验信息,基于先验信息对内容数据各个模态做决策。在策略网络的指导下,特征提取模块提取具有成本效益的模态,并融合得到视频的语义信息,这与现有的流行度预测方法使用固定的模态集形成了鲜明对比,可以实现对视频流行度的高效预测。
图4示出了本申请实施例提供的视频流行度预测系统的逻辑图,具体解释如下:
第一方面,利用策略网络模块确定一组具有成本效益的模态集。确定成本效益的关键是如何自适应的确定模态是否具备成本效益,这对于减少多模态冗余信息和提高模型的运行效率是至关重要的。
(1)策略网络:用于根据元数据特征去估计最佳视频模态集。从功能上,它可以分为两部分,即元估计器和策略探针。具体而言,策略网络通过估计元数据获取视频的先验知识,以分析内容数据(本文模态、视觉模态,音频模态)的表达能力和成本效益。基于先验知识,策略探针为每个模态估计一个策略分布,并通过Gumbel-Softmax操作采样二进制决策,其中k表示第k个模态的选择,具体操作方式见下文。
(2)用Gumbel-Softmax训练策略网络:策略网络通过学习元数据来决定保留或放弃每种模态。然而,决策是离散的导致网络不可微分,因此无法通过标准的反向传播进行优化策略网络。为了解决网络不可微分的问题,本申请实施例采用Gumbel-Softmax抽样。
Gumbel-Softmax技巧被用来从Gumbel-Softmax分布中生成一个可微分的样本,用来替换离散分布中的原始不可微分的样本。具体来说,元数据的特征被用来通过全连接层FCk生成第k种模态的逻辑值bk。
第二方面,特征提取模块在确定最佳模态集合的基础上,提取整部视频语义特征。
特征提取模块负责对内容数据进行编码并输出融合后的语义信息。它主要由各模态的骨干网络组成。在策略网络的指导下,所选模态的骨干网络被激活,以提取相应模态的语义信息。相反,对于被抛弃的模态,特征提取被跳过,直接输出特定大小的零填充矩阵。此外,多个模态的特征被融合为语义信息z,具体如下:
其中,Ψ是时间聚合函数,可以用静态方法(串联合并、均值池化、最大池化)或者用自注意力机制来实现。为了简单起见,本申请实施例使用串联合并的方法去融合特征。zm,zv,za,zt分别表示从元数据、视觉、音频、文本模态中提取的深层语义信息。
第三方面,视流行度解码模块根据视频语义特征解码出视频的流行度。
有两种方法来预测一个视频的受欢迎程度,回归和时间序列回归。在回归任务中预测视频的人气分数;在时间序列回归中预测视频的未来人气序列。这两个任务都可以通过解码器网络来完成。
(1)回归任务解码器
衡量一个视频受欢迎程度的最常见的方法是将受欢迎程度定义为一个单一的指标。这个指标是通过考虑视频喜欢、收藏和其他因素的组合来计算的。回归的解码器被实现为一个深度神经网络,它将语义信息映射到预测的人气分数,如下所示:
(2)时间序列回归任务解码器
为了研究视频的流行趋势,一种更好的方式是将目标视为流行分数的序列。为了有效地得到流行分数地序列,使用基于长短期记忆网络(LSTM)的解码器处理序列数据。视频的语义信息可以通过两个不同的多层神经网络进行转换,分别获得其初始隐藏状态和上下文变量/>,这是LSTM的两个重要输入,如下所示:
在模型的训练过程中,损失函数包括准确性损失和效率损失,以实现这两个因素的平衡。模型损失函数可以表述为:
(a)效率损失
效率损失用来激励策略网络选择具有成本效益的模式,从而减少流行预测的计算工作量。该损失使用反向传播法进行优化。效率损失可以表述如下:
其中,用于权衡模型的效率和准确性,根据该模型,模型具有更强的泛化能力。当被设置为较小的值,可以在不影响效率的情况下,实现更高的精度。然而,当被设置为较大的值,优先考虑效率而不是准确率。/>表示提取第k个模态所包含的成本,该成本由特征提取所需要的计算量决定。uk表示保留还是删除第k个模态。
表示在准确率损失中样本的中位数,只有当准确率损失低于中位数时才计算样本的效率损失。对于一个预测不准确的样本,效率损失为零,以尽快使其预测准确。而对于预测准确的样本,则要加上效率损失,以减少它所花费的计算量。
(b)回归任务中的准确率损失
在本任务中,准确率损失是样本真实分数和预测得分之间的均方误差(MSE)。精确度损失可表述如下:
其中,n表示一批样本的总数。
(c)时间序列回归任务中的准确率损失
与回归任务类似,在时间序列回归任务中,假设RNN在每个时间步骤输出受欢迎程度的分数。准确率损失是每个时间步的MSE的总和。在准确率损失可以用以下形式表示:
本申请实施例对上面的策略网络模块、特征提取模块以及流行度解码模块进行整体训练,具体的训练过程分为两个阶段,分别为模型预热阶段和微调阶段。在模型预热阶段中,固定策略网络模块中的策略探针,使用全部模态的特征预热特征提取模块和流行度解码模块。当误差稳定之后,进行模型微调。具体做法是解冻策略网络的全部参数,并逐步降低学习率以防止模型训练不稳定。当误差逐渐收敛到某个值之后,说明模型训练完毕。
相对应的,本申请实施例的基于自适应模态选择的视频流行度预测的一个实现步骤如下:
(1)利用视频预处理模块将待原始视频分类出元数据、视觉模态、音频模态、文本模态。并将视觉模态解码成帧序列,对每张视频帧进行尺寸规范化等预处理操作;
(2)利用策略网络模块通过视频的先验知识,自适应的选择具有成本效益的模态,然后确定一组具有成本效益的模态集合;
(3)在最佳模态集合基础上,特征提取模块遍历集合中的模态,并提取其特征,通过统合多个模态的特征,推理出整部视频的语义特征。
(4)流行度解码模块实现视频语义信息到流行度信息到转换。针对不同的任务类型,采用不同的流行度解码器。
具体策略网络模块、特征提取模块和流行度解码模块的实现和训练已在上面说明,此处不再赘述。
将本申请实施例的视频流行度预测方法,与现有技术在两个视频流行度预测基准数据集上进行广泛的实验。表1和表2示出了分别为在不同数据集上的实验结果对比结果。其中,CeMS代表本申请实施例系统/方法,其余均为现有技术。表中的nMSE表示预测结果和真实结果的误差,其中误差越小越好; PLCC、SRCC分别表示预测结果的准确率,准确率越高越好;而GFLOPs表示模型所消耗的计算量,GFLOPs越低说明模型计算量越低并越高效。
表1为本申请实施例的视频流行度预测方法与现有方法在TikTok数据集的效果对比表:
表1
方法 | nMSE | PLCC | SRCC | GFLOPs |
SVR | 0.967 | 0.189 | 0.173 | 43.99 |
LR | 0.748 | 0.507 | 0.506 | 43.99 |
RFR | 0.737 | 0.534 | 0.529 | 43.99 |
MMVED | 0.706 | 0.562 | 0.549 | 43.99 |
HMMVED | 0.697 | 0.553 | 0.556 | 43.99 |
CeMS | 0.662 | 0.582 | 0.580 | 16.14 |
表2为本申请实施例的视频流行度预测方法与现有方法在Xigua数据集的效果对比表:
表2
方法 | nMSE | PLCC | GFLOPs |
TSVR | 1.018 | 0.247 | 49.98 |
RFR | 1.204 | 0.127 | 49.98 |
CLSMT | 0.987 | 0.634 | 49.98 |
MMVED | 0.975 | 0.742 | 49.98 |
HMMVED | 0.966 | 0.775 | 49.98 |
CeMS | 0.962 | 0.781 | 15.11 |
从表1和表2可以看出,本申请实施例系统/方法在准确性和效率方面都优于现有技术,本方法在保持最高准确率的情况下,计算量减小了63%-69%。将本申请实施例提供的视频流行度预测方法与现有技术在两个视频数据集上广泛实验,实验结果证实了本申请实施例提供的视频流行度预测方法比现有最先进的方法更有优势,能更高效准确地完成对视频流行度的预测,解决了视频流行度计算量大的问题,消除了现有技术使用固定模态集带来的一系列问题。
综上所述,本申请实施例提供了一种视频流行度预测方法,通过对视频数据集进行模态分离,得到元数据、视觉模态、音频模态和文本模态;基于所述元数据获取先验知识,以选择目标视觉模态集;对所述目标视觉模态集进行帧解码处理,得到视频帧序列;将所述视频帧序列输入骨干网络提取语义信息,结合所述视觉模态、音频模态和文本模态得到视频语义特征;将所述视频语义特征解码为视频流行度。可以消除多模态中的冗余和噪声问题,根据元数据的特征自适应的选择具有成本效益的模态,并在此基础上提取视频的语义特征,最终通过解码器解码出视频的流行度,与现有的系统和方法相比可以更加高效准确地完成视频流行度预测。
基于相同的技术构思,本申请实施例还提供了一种视频流行度预测系统,如图5所示,所述系统包括:
模态分离模块501,用于对视频数据集进行模态分离,得到元数据、视觉模态、音频模态和文本模态;
第一策略网络模块502,用于基于所述元数据获取先验知识,以选择目标视觉模态集;还用于对所述目标视觉模态集进行帧解码处理,得到视频帧序列;
特征提取模块503,用于将所述视频帧序列输入骨干网络提取语义信息,结合所述视觉模态、音频模态和文本模态得到视频语义特征;
流行度解码模块504,用于将所述视频语义特征解码为视频流行度。
本申请实施方式还提供一种与前述实施方式所提供的方法对应的电子设备。请参考图6,其示出了本申请的一些实施方式所提供的一种电子设备的示意图。所述电子设备20可以包括:处理器200,存储器201,总线202和通信接口203,所述处理器200、通信接口203和存储器201通过总线202连接;所述存储器201中存储有可在所述处理器200上运行的计算机程序,所述处理器200运行所述计算机程序时执行本申请前述任一实施方式所提供的方法。
其中,存储器201可能包含高速随机存取存储器(RAM:Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个物理端口203(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网、广域网、本地网、城域网等。
总线202可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。其中,存储器201用于存储程序,所述处理器200在接收到执行指令后,执行所述程序,前述本申请实施例任一实施方式揭示的所述方法可以应用于处理器200中,或者由处理器200实现。
处理器200可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器200中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器200可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器201,处理器200读取存储器201中的信息,结合其硬件完成上述方法的步骤。
本申请实施例提供的电子设备与本申请实施例提供的方法出于相同的发明构思,具有与其采用、运行或实现的方法相同的有益效果。
本申请实施方式还提供一种与前述实施方式所提供的方法对应的计算机可读存储介质,请参考图7,其示出的计算机可读存储介质为光盘30,其上存储有计算机程序(即程序产品),所述计算机程序在被处理器运行时,会执行前述任意实施方式所提供的方法。
需要说明的是,所述计算机可读存储介质的例子还可以包括,但不限于相变内存(PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他光学、磁性存储介质,在此不再一一赘述。
本申请的上述实施例提供的计算机可读存储介质与本申请实施例提供的方法出于相同的发明构思,具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。
需要说明的是:
在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备有固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本申请也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本申请的内容,并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本申请并帮助理解各个发明方面中的一个或多个,在上面对本申请的示例性实施例的描述中,本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本申请的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本申请的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器( DSP )来实现根据本申请实施例的虚拟机的创建装置中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本申请进行说明而不是对本申请进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种视频流行度预测方法,其特征在于,所述方法包括:
对视频数据集进行模态分离,得到元数据、视觉模态、音频模态和文本模态;
基于所述元数据获取先验知识,以选择目标视觉模态集;
对所述目标视觉模态集进行帧解码处理,得到视频帧序列;
将所述视频帧序列输入骨干网络提取语义信息,结合所述视觉模态、音频模态和文本模态得到视频语义特征;
将所述视频语义特征解码为视频流行度。
2.如权利要求1所述的方法,其特征在于,所述在基于所述元数据获取先验知识,以选择目标视觉模态集,包括:
根据所述元数据获取先验知识,以确定所述视觉模态、音频模态和文本模态的表达参数和效益参数;
基于所述先验知识为所述视觉模态、音频模态和文本模态估计策略分布;
基于策略分布通过Gumbel-Softmax训练决策网络确定目标视觉模态集。
4.如权利要求1所述的方法,其特征在于,所述将所述视频语义特征解码为视频流行度,包括:
基于长短期记忆网络LSTM的解码器处理所述视频语义特征,得到视频流行度。
6.如权利要求1所述的方法,其特征在于,所述将所述视频语义特征解码为视频流行度,包括:
将所述视频语义特征通过回归任务流行度解码器映射为视频人气序列,作为视频流行度。
7.如权利要求1所述的方法,其特征在于,所述对视觉模态进行帧解码处理,得到视频帧序列之后,所述方法包括:
对视觉模态中每张视频帧进行采样和剪裁的操作,得到尺寸标准化的视频帧序列。
8.一种视频流行度预测系统,其特征在于,所述系统包括:
模态分离模块,用于对视频数据集进行模态分离,得到元数据、视觉模态、音频模态和文本模态;
第一策略网络模块,用于基于所述元数据获取先验知识,以选择目标视觉模态集;还用于对所述目标视觉模态集进行帧解码处理,得到视频帧序列;
特征提取模块,用于将所述视频帧序列输入骨干网络提取语义信息,结合所述视觉模态、音频模态和文本模态得到视频语义特征;
流行度解码模块,用于将所述视频语义特征解码为视频流行度。
9.一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器运行所述计算机程序时执行以实现如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现如权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310433385.XA CN116189062A (zh) | 2023-04-21 | 2023-04-21 | 一种视频流行度预测方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310433385.XA CN116189062A (zh) | 2023-04-21 | 2023-04-21 | 一种视频流行度预测方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116189062A true CN116189062A (zh) | 2023-05-30 |
Family
ID=86449201
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310433385.XA Pending CN116189062A (zh) | 2023-04-21 | 2023-04-21 | 一种视频流行度预测方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116189062A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117610717A (zh) * | 2023-11-13 | 2024-02-27 | 重庆大学 | 一种基于双变分级联自编码器的信息流行度预测方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110019939A (zh) * | 2017-12-28 | 2019-07-16 | Tcl集团股份有限公司 | 视频热度预测方法、装置、终端设备及介质 |
US20220215198A1 (en) * | 2020-12-26 | 2022-07-07 | International Business Machines Corporation | Dynamic multi-resolution processing for video classification |
CN114819091A (zh) * | 2022-05-07 | 2022-07-29 | 杭州电子科技大学 | 基于自适应任务权重的多任务网络模型训练方法及系统 |
US20220292285A1 (en) * | 2021-03-11 | 2022-09-15 | International Business Machines Corporation | Adaptive selection of data modalities for efficient video recognition |
CN115457436A (zh) * | 2022-08-31 | 2022-12-09 | 北京邮电大学 | 视频热度预测方法及装置 |
-
2023
- 2023-04-21 CN CN202310433385.XA patent/CN116189062A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110019939A (zh) * | 2017-12-28 | 2019-07-16 | Tcl集团股份有限公司 | 视频热度预测方法、装置、终端设备及介质 |
US20220215198A1 (en) * | 2020-12-26 | 2022-07-07 | International Business Machines Corporation | Dynamic multi-resolution processing for video classification |
US20220292285A1 (en) * | 2021-03-11 | 2022-09-15 | International Business Machines Corporation | Adaptive selection of data modalities for efficient video recognition |
CN114819091A (zh) * | 2022-05-07 | 2022-07-29 | 杭州电子科技大学 | 基于自适应任务权重的多任务网络模型训练方法及系统 |
CN115457436A (zh) * | 2022-08-31 | 2022-12-09 | 北京邮电大学 | 视频热度预测方法及装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117610717A (zh) * | 2023-11-13 | 2024-02-27 | 重庆大学 | 一种基于双变分级联自编码器的信息流行度预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107958030B (zh) | 视频封面推荐模型优化方法及装置 | |
CN112685539B (zh) | 基于多任务融合的文本分类模型训练方法和装置 | |
CN112948708B (zh) | 一种短视频推荐方法 | |
CN113920370A (zh) | 模型训练方法、目标检测方法、装置、设备及存储介质 | |
KR101804170B1 (ko) | 비관심 아이템을 활용한 아이템 추천 방법 및 장치 | |
CN111259192A (zh) | 音频推荐方法和装置 | |
CN111046185B (zh) | 一种文本信息的知识图谱关系抽取方法、装置及终端 | |
CN116189062A (zh) | 一种视频流行度预测方法和系统 | |
CN111738807B (zh) | 用于推荐目标对象的方法、计算设备和计算机存储介质 | |
CN116975615A (zh) | 基于视频多模态信息的任务预测方法和装置 | |
CN114003758B (zh) | 图像检索模型的训练方法和装置以及检索方法和装置 | |
CN117011737A (zh) | 一种视频分类方法、装置、电子设备和存储介质 | |
CN116630630B (zh) | 语义分割方法、装置、计算机设备及计算机可读存储介质 | |
CN113076972A (zh) | 一种基于深度学习的两阶段Logo图像检测方法及系统 | |
CN116611497A (zh) | 一种点击率预估模型训练方法和装置 | |
CN116738060A (zh) | 内容生成方法、装置及电子设备 | |
CN115878891A (zh) | 直播内容生成方法、装置、设备以及计算机存储介质 | |
CN115935082A (zh) | 一种用户冷启动内容推荐方法、计算设备及存储介质 | |
CN112905885B (zh) | 向用户推荐资源的方法、装置、设备、介质和程序产品 | |
CN115438658A (zh) | 一种实体识别方法、识别模型的训练方法和相关装置 | |
Liu et al. | Cost-effective Modality Selection for Video Popularity Prediction | |
CN115080856A (zh) | 推荐方法及装置、推荐模型的训练方法及装置 | |
CN115186085A (zh) | 回复内容处理方法以及媒体内容互动内容的交互方法 | |
CN117786234B (zh) | 一种基于两阶段对比学习的多模态资源推荐方法 | |
CN115470397B (zh) | 内容推荐方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20230530 |
|
RJ01 | Rejection of invention patent application after publication |