CN110505520B

CN110505520B - 信息推荐方法及系统、介质及电子设备

Info

Publication number: CN110505520B
Application number: CN201910834902.8A
Authority: CN
Inventors: 陈新鹏; 陈静远; 马林; 刘威
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-03-12
Filing date: 2018-03-12
Publication date: 2021-07-13
Anticipated expiration: 2038-03-12
Also published as: CN110267102B; CN110267102A; CN110505520A

Abstract

本公开提出信息推荐方法、系统、介质及电子设备。该方法包括：获取视频在每个播放时间的视频观看量；根据所述视频在每个播放时间的视频观看量确定所述视频中的目标视频片段；将待推荐的信息投放至所述目标视频片段上，以便于在终端播放已投放所述待推荐的信息的所述视频。本公开的方法克服基于视频标签对视频观看量进行预测无法表征空间特性之外的特性的缺陷，基于时域特性预测视频观看量并使预测结果达到精确至视频播放时间的时域细粒度要求，从而可以根据视频在时域上的视频观看量的预测结果确定目标视频片段进行信息推荐，提升视频的信息推荐效果。

Description

信息推荐方法及系统、介质及电子设备

本公开是申请日为2018年3月12日、申请号为201810198640.6、发明名称为《视频数据的处理方法及装置、介质及电子设备》的专利申请的分案申请。

技术领域

本公开涉及数据处理，特别涉及信息推荐方法、计算机存储介质以及实现该信息推荐方法的电子设备。

背景技术

随着互联网视频的发展，获取用户对视频的关注度数据的需求越来越高。视频关注度可以通过视频观看量表征，视频提供者可以基于视频观看量有针对性地在最受关注的视频或视频片段上投放广告。

当前的解决方案主要对整个视频或某一类剧集视频做流行度(popularity)或者有趣度(interestingness)进行视频观看量的预测估计。使用流行度或有趣度的视频整体观看量预测，针对基于视频关键帧生成的由视频标签表征的视频或视频片段，获取用户对不同视频的观看量和收藏量，统计或使用模型分析用户对视频的关注程度，从而向用户进行视频推荐或视频搜索，并在热点视频或热点视频片段中投放相关的广告。视频标签与视频关键帧中的图像内容或特征相关，通过对视频标签进行扩展可以包括更多的视频片段或视频关键帧的特征。另外还可以在视频标签中增加时间权重以体现流行度或有趣度随时间的变化趋势。但是，上述视频观看量的预测方法均基于视频关键帧中的内容或图像特征的视频标签，体现的是视频的空间特性。因此对视频观看量进行细粒度预测时无法表征空间特性之外的视频特性。

用户对于同一个视频，观看量在不同的时刻差异很大。对于有些较无趣的视频片段，用户会选择快进，而对于有些时刻的视频片段则会有大量用户观赏。上述基于视频标签的观看量预测方案只能对整个视频或视频片段作出基于视频空间特性的流行度或者有趣度的预测估计，不能基于视频的时域特性考虑同一个视频观看量内部在不同时段的差异性。进一步，基于视频标签的观看量预测方案无法获得在时域上的细粒度预测结果，从而无法改善在热点时间投放广告的效果。

因此，存在对用于预测视频观看量的视频数据的处理方法进行改进的需求。

发明内容

本公开的目的在于，克服基于视频标签对视频观看量进行预测的方法无法表征视频空间特性之外的特性的缺陷，采用视频的时域特性对视频观看量进行预测，将视频观看量的预测精确到视频的预定播放时间以达到时域细粒度要求，以便提高在视频的热点时间进行信息推荐的效果。

根据本公开的一方面，提出一种视频数据的处理方法，包括：提取视频在预定播放时间的图像特征；提取所述视频在所述预定播放时间的音频特征；融合所述图像特征和所述音频特征以获取所述视频在所述预定播放时间的融合特征；基于所述视频在所述预定播放时间之前的播放时间的视频观看量和所述融合特征预测所述视频在所述预定播放时间的视频观看量。

根据本公开的实施例，融合所述图像特征和所述音频特征以获取所述视频在所述预定播放时间的融合特征包括：对所述图像特征和所述音频特征进行多模态特征融合以获取所述视频在所述预定播放时间的融合特征。

根据本公开的实施例，在对所述图像特征和所述音频特征进行多模态特征融合以获取所述视频在所述预定播放时间的融合特征之前还包括：对所述图像特征和所述音频特征进行内容过滤。

根据本公开的实施例，对所述图像特征和所述音频特征进行多模态特征融合以获取所述视频在所述预定播放时间的融合特征包括：对所述图像特征和所述音频特征进行拼接以获取所述视频在所述预定播放时间的融合特征。

根据本公开的实施例，对所述图像特征和所述音频特征进行多模态特征融合以获取所述视频在所述预定播放时间的融合特征包括：对所述图像特征和所述音频特征进行拼接以获取所述视频在所述预定播放时间的融合特征；获取所述图像特征的高阶图像特征；获取所述音频特征的高阶音频特征；对所述融合特征、所述高阶图像特征和所述高阶音频特征再次进行拼接以获取所述视频在所述预定播放时间的新的融合特征。

根据本公开的实施例，对所述图像特征和所述音频特征进行多模态特征融合以获取所述视频在所述预定播放时间的融合特征包括：基于所述视频在所述预定播放时间之前的播放时间的图像特征获取在所述预定播放时间的图像特征的高阶图像特征；基于所述视频在所述预定播放时间之前的播放时间的音频特征获取在所述预定播放时间的音频特征的高阶音频特征；对所述高阶图像特征和所述高阶音频特征进行拼接以获取所述视频在所述预定播放时间的融合特征。

根据本公开的实施例，基于所述视频在所述预定播放时间之前的视频观看量和所述融合特征预测所述视频在所述预定播放时间的视频观看量包括：基于所述视频在所述预定播放时间之前的视频观看量和所述融合特征的平均值预测所述视频在所述预定播放时间的视频观看量。

根据本公开的实施例，通过循环神经网络融合所述图像特征和所述音频特征以及预测所述视频在所述预定播放时间的视频观看量，所述循环神经网络的每层包括：内容门网络层，设置为对所述图像特征和所述音频特征进行内容过滤；多模态特征融合层，设置为对所述图像特征和所述音频特征进行拼接以获取所述视频在所述预定播放时间的融合特征；以及观看量预测层，设置为基于所述视频在所述预定播放时间之前的播放时间的视频观看量和所述融合特征预测所述视频在所述预定播放时间的视频观看量。

根据本公开的实施例，通过循环神经网络融合所述图像特征和所述音频特征以及预测所述视频在所述预定播放时间的视频观看量，所述循环神经网络的每层包括：内容门网络层，设置为对所述图像特征和所述音频特征进行内容过滤；多模态特征融合层，设置为对所述图像特征和所述音频特征进行拼接以获取所述视频在所述预定播放时间的融合特征；获取所述图像特征的高阶图像特征；获取所述音频特征的高阶音频特征；以及对所述融合特征、所述高阶图像特征和所述高阶音频特征再次进行拼接以获取所述视频在所述预定播放时间的新的融合特征；以及观看量预测层，设置为基于所述视频在所述预定播放时间之前的播放时间的视频观看量和所述新的融合特征预测所述视频在所述预定播放时间的视频观看量。

根据本公开的实施例，通过循环神经网络融合所述图像特征和所述音频特征以及预测所述视频在所述预定播放时间的视频观看量，所述循环神经网络的每层包括：内容门网络层，设置为对所述图像特征和所述音频特征进行内容过滤；多模态特征融合层，设置为基于所述视频在所述预定播放时间之前的播放时间的图像特征获取在所述预定播放时间的图像特征的高阶图像特征；基于所述视频在所述预定播放时间之前的播放时间的音频特征获取在所述预定播放时间的音频特征的高阶音频特征；对所述高阶图像特征和所述高阶音频特征进行拼接以获取所述视频在所述预定播放时间的融合特征；以及观看量预测层，设置为基于所述视频在所述预定播放时间之前的播放时间的视频观看量和所述融合特征预测所述视频在所述预定播放时间的视频观看量。

根据本公开的另一方面，提出一种信息推荐方法，基于根据如上所述的处理方法中预测的所述视频在所述预定播放时间的视频观看量进行信息推荐。

根据本公开的实施例，所述预定播放时间为预定时间段或预定时间点。

根据本公开的又一方面，提出一种视频数据的处理装置，包括：图像特征提取单元，设置为提取视频在预定播放时间的图像特征；音频特征提取单元，设置为提取所述视频在所述预定播放时间的音频特征；特征融合单元，设置为融合所述图像特征和所述音频特征以获取所述视频在所述预定播放时间的融合特征；预测单元，设置为基于所述视频在所述预定播放时间之前的播放时间的视频观看量和所述融合特征预测所述视频在所述预定播放时间的视频观看量。

根据本公开的再一方面，提出一种计算机可读存储介质，其上存储有计算机程序，该计算机程序包括可执行指令，当该可执行指令被处理器执行时，实施如上所述的处理方法。

根据本公开的再一方面，提出一种电子设备，包括：处理器；以及

存储器，用于存储所述处理器的可执行指令；其中，所述处理器设置为执行所述可执行指令以实施如上所述的处理方法。

基于本公开的视频数据的处理方法、处理装置、信息推荐方法、计算机存储介质以及实现该处理方法的电子设备，结合视频的预定播放时间的视觉特征和音频特征信息以及预定播放时间之前的播放时间的视频观看量，使用诸如深度学习的神经网络，通过不同层次的特征融合方式预测同一个视频中不同播放时间的视频观看量。该处理方法可以考虑到同一个视频的视频观看量在其播放期间的内部差异性，使视频观看量的预测结果达到精确至视频播放时间的时域细粒度要求，“因时制宜”地精准进行信息推荐。

附图说明

通过参照附图详细描述其示例性实施例，本公开的上述和其它特征及优点将变得更加明显。

图1为根据本公开实施例的基于不同播放时间的视频观看量预测结果在视频中向用户进行信息推荐的系统示意图；

图2为根据本公开实施例的视频数据的处理方法的示例性流程图；

图3为根据本公开实施例的提取视频在预定播放时间的图像特征的过程的示意图；

图4为根据本公开实施例的提取视频在预定播放时间的音频特征的过程的示意图；

图5为根据本公开实施例的融合图像特征和音频特征以获取视频在预定时间的融合特征的过程的示例性流程图；

图6为根据本公开实施例的LSTM网络中与播放时间对应的网络层的示例性结构；

图7为根据本公开实施例的LSTM网络层各个控制门的示例性结构；

图8A至8C分别为根据本公开不同实施例的三种不同层次的多模态特征融合方式的示意性框图；

图9A至9C分别为根据本公开不同实施例的三种不同层次的多模态特征融合方式的示意性框图；

图10为根据本公开实施例的使用三种层次的多模态特征融合方式预测视频观看量的示意性框图；

图11为根据本公开实施例的使用融合特征的平均值预测视频观看量的示意性流程图；

图12为根据本公开实施例的视频数据的处理装置的示例性结构框图；

图13A至图13C为根据本公开实施例的视频数据处理装置的特征融合单元的不同示例性结构框图；

图14A至图14C为根据本公开另一实施例的视频数据处理装置的特征融合单元的不同示例性结构框图；以及

图15为根据本公开实施例的一种电子设备的示意框图。

具体实施方式

现在将参考附图更全面地描述示例性实施例。然而，示例性实施例能够以多种形式实施，且不应被理解为限于在此阐述的实施方式；相反，提供这些实施方式使得本公开将全面和完整，并将示例性实施例的构思全面地传达给本领域的技术人员。在图中，为了清晰，可能会夸大部分元件的尺寸或加以变形。在图中相同的附图标记表示相同或类似的结构，因而将省略它们的详细描述。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而没有所述特定细节中的一个或更多，或者可以采用其它的方法、元件等。在其它情况下，不详细示出或描述公知结构、方法或者操作以避免模糊本公开的各方面。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及人工智能的机器学习等技术，具体通过如下实施例进行说明：

图1示出基于不同播放时间的视频观看量预测结果在视频中向用户进行信息推荐的系统。

视频服务器102提供视频点播和播放服务，诸如电影和影视剧的视频105存储于视频服务器102中。用于预测视频观看量的预测服务器103从视频服务器102中获取视频105并基于时域对其进行分析后，提取视频105在预定播放时间的图像特征和音频特征，通过神经网络对图像特征和音频特征进行融合获取视频105在该预定播放时间的融合特征，以及使用该融合特征和视频105在该预定播放时间之前的播放时间的视频观看量预测在该预定播放时间的视频观看量。预测结果也可以是如体现视频观看量与播放时间之间的关系曲线106的形式。对于细粒度预测需求，曲线106可以由视频的播放时间段精确到视频的播放时间点或播放时刻(例如秒或毫秒)。基于不同播放时间的视频观看量的预测结果，可以获得该视频105在不同播放时间的观看量变化，以便确定可进行信息推荐的热点播放时间。例如，在视频105中的观看量较高的两个播放时间所对应的视频帧或视频片段107和108上进行信息推荐，可以获得更优的效果，因此预测服务器103可以将该视频观看量信息发送到信息推荐服务器104使信息推荐服务器104将待推荐的信息109投放到视频帧或视频片段107和108上。用户101通过移动终端1011或固定终端1012访问视频服务器102时，观看到的是在视频帧或视频片段107和108上投放了信息109的视频。

根据本公开的实施例，视频服务器102和预测服务器103也可以整合为一个服务器，同时提供视频点播、搜索、播放、预测的功能。另外，信息推荐服务器104也可以向预测服务器103提供信息109，由预测服务器103完成在视频105中具有较高观看量的播放时间对应的视频帧或视频片段107和108上进行信息推荐的功能。

对于推荐的信息109，例如但不限于广告、说明、帮助信息、通知、警示信息等。通过进行信息推荐，可以对用户的视频观看过程提供辅助或提示，提升用户体验，扩展用户获取信息的方式，或者提高潜在的经济效益。例如，进行信息推荐的典型应用是在视频中投放广告。

对于基于视频标签对视频观看量进行细粒度预测的方法，主要在视频和图像识别中在空间上提取视频对象中更微小或更多维度的局部特征并进行分类和标记。而在本公开中，采用基于视频的时域特性预测一个视频中的每个播放时间的视频观看量，因此本公开中的细粒度主要指在时域上细分到每一个播放时间进行视频观看量的统计和预测，以便获取视频播放中可获得更高信息推荐效果的热点播放时间。

需要说明的是，在本公开中，播放时间用于定位视频在时域上的位置。例如，播放时间可以是视频从开始播放时起的累计时间，也可以是视频中用于定位视频片段或视频帧的时间标记。根据用于预测视频观看量的细粒度要求，播放时间可以是播放时间段，也可以是播放时间点或播放时刻。当考虑某一预定播放时间的视频观看量时，将该预定播放时间视为当前播放时间，该预定播放时间之前的播放时间则称为前一播放时间，同理该预定播放时间之后的播放时间则称为后一播放时间。

在本公开中，视频的观看量可以是视频观看量的绝对数值，也可以是不同播放时间所对应的视频观看量之间的相对数值，表示用户对视频的关注度的趋势。现有的基于空间特性的视频流行度和有趣度的预测虽然也通过视频观看量表征，但是仅针对空间上的视频片段或者视频片段在时域上的视频观看量变化，并且通过视频的空间(内容)特征确定对应的视频流行度或有趣度。而本公开实施例的基于时域的预测视频观看量的视频数据处理方法，基于前一播放时间的视频观看量并考虑当前播放时间的视频特征(图像和音频特征)对视频观看量的变化趋势的影响，预测当前播放时间的视频观看量。因此基于空间特性的预测方法无法达到本公开中基于时域特征的视频观看量预测中针对视频播放的每个播放时间的视频观看量的预测精细度，也无法达到更高的细粒度要求。

图2示出根据本公开实施例的视频观看量的示例性预测方法，包括如下步骤：

S100：提取视频在预定播放时间的图像特征；

S200：提取视频在预定播放时间的音频特征；

S300：融合图像特征和音频特征以获取视频在预定播放时间的融合特征；

S400：基于视频在预定播放时间之前的播放时间的视频观看量和融合特征预测视频在预定播放时间的视频观看量。

图3示出进行步骤S100所示的提出视频在预定播放时间的图像特征过程的示意图。首先对给定视频301进行解码。解码方式例如可以选择开源的FFMPEG解码方式。视频的解码方式不是本公开的讨论重点，因此不在本文中进行详述。本领域技术人员将了解，任何可以用于对视频进行解码的方式都可以在本图像特征提取过程中采用。

对于已解码的视频301，每间隔一秒抽取一帧图像，使用卷积神经网络(Convolution neural network，CNN)302对每帧图像进行图像特征提取。在本示例中，采用精确到以秒为单位的视频播放时间的细粒度，也可以采用诸如毫秒为单位的播放时间的细粒度。卷积神经网络302一般采用Google的Inception神经网络。Inception网络在控制参数量的同时仍然能够获得非常好的分类性能，例如第四版V4的Inception网络的top-5错误率为3.08％。Inception网络去除了卷积神经网络中的最后全连接层并使用全局平均池化层来取代全连接层。Inception网络的每个Inception模块也是一个小的神经网络，分别具有四个分支的基本结构。各个分支分别包含3种不同尺寸的卷积层和1个最大池化层，每个分支下具有1-5层不等的层数，最后各个分支通过聚合操作合并，相当于将各个分支对特征提取的融合。这种结构增加了神经网络的宽度并且增加了每层对特征的收集等能力。

经卷积神经网络302进行特征提取后，获得视频301的以秒为单位的每一播放时间的图像的1536维图像特征303。对于总播放长度为T秒的视频301，整个视频301的图像特征表示为{I₁,I₂,…,I_T}。图像特征303的维数与进行图像特征提取所采用的卷积神经网络的类型和结构有关。

卷积神经网络302也可以采用诸如VGG网络和ResNet-X网络的卷积神经网络。例如，Inception网络具有22层深，而VGG网络具有19层深。

图4则示出进行步骤S200所示的提取视频在预定播放时间的音频特征过程的示意图。

对于已解码视频，同样使用FFMPEG进行音频解码，获得视频的音频文件401。然后进行音频特征提取过程402，获取以秒为单位的每一播放时间的音频特征403。

在音频特征提取过程402时，可以使用诸如MFCC(Mel-FrequencyCepstralCoefficients，梅尔频率倒谱系数)的人工设计的特征提取方法或者使用音频合成神经网络。音频合成神经网络例如但不限于采用Google提出的Nsynth网络。

对于每一播放时间，所提取到的音频特征403的维数也取决于音频提取过程中所采用的方法或神经网络的类型和结构。对于通道数为1的视频，其音频特征维度为13。一般视频的音频通道数为2，则提取出的每个播放时间的音频特征为26维。对于总播放长度为T秒的视频，整个视频的音频特征表示为{A₁,A₂,…,A_T}。

在下文中，将以具有1536维度的图像特征和26维度的音频特征为例详述本公开实施例的用于预测视频观看量的视频数据处理方法。本领域技术人员将理解，本公开的方法还可以适用于具有其它维度数值组合的图像特征和音频特征的提取和融合以进行视频观看量预测的方式。

在使用神经网络将图像特征和音频特征融合以获取视频在预定播放时间的融合特征，并基于视频在该预定播放时间之前的播放时间的视频观看量预测在该预定播放时间的视频观看量的过程中，主要使用循环神经网络(Recurrent neural network，RNN)完成。RNN网络由多个串联的隐含网络层构成，特别适用于通过深度学习处理基于时域的数据集。RNN网络的隐含层神经元的计算公式为：

s_t＝f(x_tU+s_t-1W) (1)

其中U、W为RNN网络模型的参数，f表示激活函数。对于时间t的隐含层神经元激活值s_t，使用时间t的该隐含层神经元的输入x_t和上一隐含层神经元(对应于上一时间t-1)的激活值s_t-1进行计算获得。

在传统RNN中，训练算法为BPTT(Back-propagation Through Time，通过时间反向传播)。但是，当时间段比较长时，BPTT导致RNN网络需要回传的残差会呈指数级下降，导致网络权重更新缓慢，无法体现出RNN的长期记忆的效果，因此需要一个存储单元来存储记忆。因此，提出长短期记忆模型(Long-short Term Memory，简称LSTM)这种特殊的RNN网络模型以解决RNN模型梯度弥散的问题。RNN与LSTM最大的区别在于LSTM网络将RNN网络中的每个隐含网络层替换成具有记忆功能的单元(cell)，其它结构则保持与RNN网络相同。

因此，在本文中以LSTM网络这种RNN网络为例介绍对基于图像特征和音频特征的多层次融合和前一播放时间的视频观看量预测当前播放时间的视频观看量的过程。本领域技术人员将理解，还可以采用其它类型的RNN网络完成预测。

在步骤S200之后得到视频的预定播放时间的图像特征以及音频特征，步骤S300采用LSTM网络对该预定播放时间的图像与音频特征进行建模，并将他们进行不同层次的融合以获取视频在该预定播放时间的融合特征。

根据本公开的实施例，融合图像特征和音频特征以获取与视频在预定播放时间的融合特征的步骤S300包括如下步骤：

S320：对图像特征和音频特征进行多模态特征融合以获取视频在预定时间的融合特征。

其中，在步骤S320进行多模态特征融合之前，还包括对图像特征和音频特征进行内容过滤的步骤S310，如图5所示。

在步骤S310中，为了提高LSTM网络模型的性能，将在播放时间t的图像特征I_t和音频特征A_t输入LSTM网络时，采用“内容门网络层(Context Gating Layer)”的网络层对图像特征和音频特征进行内容过滤。该内容过滤可由如下公式表示：

对于图像特征I_t，

对于音频特征A_t，

其中t为视频的预定播放时间，

和

分别为在播放时间t的经过内容过滤后的图像特征和音频特征，W^V和W^A分别为内容门网络层针对图像特征和音频特征所要学习的网络权重参数，b^V和b^A分别为内容门网络层对图像特征和音频特征所要学习的线性变换参数，σ是sigmoid激活函数(函数值在0-1之间)，⊙为对多维度变量进行逐元素相乘(点乘)的运算符。点乘运算⊙决定多少信息可以传送过去，当输入为0时，表示不传送，当输入为1时，表示全部传送，而当输入在0和1之间时，表示部分传送。

内容门网络层作为全连接网络层，其主要作用是让神经网络对视频的图像特征I_t和音频特征A_t进行内容过滤，自动学习决定输入的哪些特征的内容是有用的从而需要保留，哪些特征的内容是不需要的。网络权重参数W^V和W^A和线性变换参数b^V和b^A用于确定对图像特征和音频特征的各个维度的内容过滤级别。在LSTM网络的训练中，通过自动学习网络权重参数和线性变换参数，内容过滤对图像特征I_t和音频特征A_t的线性变换可以达到提高1％预测精度的效果。

通过内容门网络层的内容过滤，图像特征I_t和音频特征A_t分别被映射到中间图像特征

和中间音频特征

在下一步的LSTM网络计算中，它们代替图像特征I_t和音频特征A_t作为LSTM网络中每个LSTM网络层(单元，cell)的输入，计算每个LSTM网络层的隐藏状态h_t，参见如下公式：

对于图像特征I_t，

对于音频特征A_t，

其中，

和

分别为在播放时间t的中间图像特征

和中间音频特征

作为输入时的LSTM网络层中的隐藏状态，

和

则分别为在前一播放时间t-1(上一LSTM网络层)的中间图像特征

和中间音频特征

作为输入时的LSTM网络层中的隐藏状态。

图6则示出LSTM网络中与播放时间t对应的网络层的示例性结构。

视频在播放时间t的LSTM网络层602具有三个输入和两个输出。三个输入分别为上一播放时间t-1的LSTM网络层601的记忆状态C_t-1和隐藏状态h_t-1，以及当前播放时间t的输入变量X_t。LSTM网络层602的两个输出分别为在当前播放时间t的LSTM网络层的隐藏状态h_t和记忆状态C_t。隐藏状态h表征了在当前播放时间t的LSTM网络层的特征，输入X表征在当前播放时间的图像特征、音频特征或者由二者融合得到的融合特征对LSTM网络层的影响，记忆状态C表征在LSTM网络中的长时记忆状态。⊕为对多维度变量进行逐元素相加的运算符，×与⊙相同，为对多维度变量进行逐元素相乘(点乘)的运算符，σ为sigmoid激活函数，tanh为双曲正切函数。

LSTM网络层的整体函数表达如下：

h_t＝o_t⊙tanh(C_t) (8)

其中，公式(6)中的i_t，f_t，o_t，h_t分别为LSTM网络层的输入门，遗忘门，输出门和隐藏状态，其中用于记忆当前播放时间t的输入信息X_t的输入门i_t、用于选择忘记当前播放时间t之前的信息的遗忘门f_t和用于将隐藏状态h_t输出到下一播放时间t+1的输出门o_t构成LSTM网络层的三个控制门。T为变换映射矩阵，在图6所示的LSTM网络中，T采用单位阵的特定形式以便于描述。公式(7)则表示记忆状态的传送，

为当前播放时间t的中间记忆状态，则该记忆状态的传送为前一播放时间t的记忆状态与遗忘门f_t的点乘与当前中间记忆状态

与输入门i_t的点乘的和，代表部分忘记当前播放时间t之前的记忆状态再根据当前播放时间t的输入对记忆的影响获得更新后的记忆状态。公式(8)则表示根据当前播放时间t的记忆状态C_t和输出门o_t的点乘获得当前播放时间t的隐藏状态h_t。

图7则详细示出图6中的LSTM网络层602的具体结构和各个控制门的信息处理过程，其中变换映射矩阵T仍然以单位阵举例。

模块701中的虚线框示出遗忘门的信息处理过程，其函数式如下：

f_t＝σ(W_fxX_t+W_fhh_t-1+b_f) (9)

其中W_fx、W_fh、b_f分别为遗忘门对当前播放时间t的输入X_t和前一播放时间t-1的隐藏状态h_t-1的网络权重参数和线性变换参数。

模块702中的虚线框则示出输入门和中间记忆状态的信息处理过程，其函数式如下：

i_t＝σ(W_ixX_t+W_ihh_t-1+b_i) (10)

其中W_ix、W_ih、b_i分别为输入门对当前播放时间t的输入X_t和前一播放时间t-1的隐藏状态h_t-1的网络权重参数和线性变换参数，W_Cx、W_Ch、b_C分别为中间记忆状态对当前播放时间t的输入X_t和前一播放时间t-1的隐藏状态h_t-1的网络权重参数和线性变换参数。

模块703中的虚线框则示出记忆状态传送的过程，其函数式参见公式(7)。

模块704中的虚线框示出输出门和隐藏状态的信息处理过程，其函数式如下：

o_t＝σ(W_oxX_t+W_ohh_t-1+b_o) (12)

其中W_ox、W_oh、b_o分别为输出门对当前播放时间t的输入X_t和前一播放时间t-1的隐藏状态h_t-1的网络权重参数和线性变换参数。

对于当前播放时间t的隐藏状态，其函数式参见公式(8)。

当直接将经内容过滤的图像特征

作为LSTM网络层的输入时，上述公式(6)至(8)可表示为：

其中

和

分别为前一播放时间t-1和当前播放时间t的图像特征的隐藏状态。

当直接将经内容过滤的音频特征

作为LSTM网络层的输入时，上述公式(6)至(8)可表示为：

其中

和

分别为前一播放时间t-1和当前播放时间t的音频特征的隐藏状态。

当将经内容过滤的图像特征

和音频特征

进行融合获得融合特征X_t时，将该融合特征X_t作为LSTM网络层的输入，公式参见(6)至(8)。

图像特征和音频特征对于视频的理解非常重要，因此如何将它们融合将对于视频观看量的预测结果非常关键。

图8A至8C分别示出根据本公开不同实施例的三种不同层次的多模态特征融合方式。

图8A为多模态低层次特征融合方式。对于预定播放时间t，改进的LSTM网络层包括三层结构，分别为内容门网络层801、多模态特征融合层802和观看量预测层803。其中内容门网络层801包括分别对图像特征I_t和音频特征A_t进行内容过滤的过滤模块806和807；多模态特征融合层802包括对经内容过滤的图像特征

和音频特征

进行融合的融合层(Fusion Layer)808；观看量预测层803包括标准LSTM网络层809。

关于内容门网络层801的内容过滤过程，已经在上文中描述。图像特征I_t和音频特征A_t分别通过过滤模块806和807处理后得到具有1536维度的图像特征

和26维度的音频特征

根据本公开的实施例，也可以不对图像特征I_t和音频特征A_t进行内容过滤，直接将图像特征I_t和音频特征A_t输入到多模态特征融合层802的融合层808进行融合，此时804和805直连到融合层808。在输入到多模态特征融合层802之前，对图像特征

和音频特征

进行线性变换映射为具有512维度的图像特征和音频特征再进行融合。融合层808可以通过多种融合方式，例如直接将图像特征

和音频特征

拼接得到在播放时间t的具有1024维度的融合特征

融合特征

再经过线性变换映射到512维度的融合特征，输入观看量预测层803。LSTM网络层809基于公式(6)至(8)计算获得在播放时间t的隐藏状态

来预测在该播放时间t的视频观看量。隐藏状态

表征视频的图像特征和音频特征对视频观看量的影响，通过与不同播放时间组成的播放时间序列[1,2,…,t-1,t,t+1,…,T]所对应的隐藏状态序列

表示的隐藏状态在时域上的变化趋势，可以通过预定播放时间之前的视频观看量预测在该预定播放时间的视频观看量。

因此，根据本公开的实施例，在多模态低层次特征融合方式中，步骤S320包括如图9A所示的步骤：

S3211：对图像特征和音频特征进行拼接以获取视频在预定播放时间的融合特征。

图8B为多模态中层次特征融合方式。对于预定播放时间t，改进的LSTM网络层也包括三层结构，分别为内容门网络层801、多模态特征融合层802和观看量预测层803。其中内容门网络层801包括分别对图像特征I_t和音频特征A_t进行内容过滤的过滤模块806和807；多模态特征融合层802相比多模态低层次特征融合，则包括对经内容过滤的图像特征

和音频特征

进行融合的融合层808、对图像特征

学习获取高阶图像特征

的视觉嵌入层(Visual Embedding Layer)810和对音频特征

学习获取高阶音频特征

的音频嵌入层(Audio Embedding Layer)811；观看量预测层803包括标准LSTM网络层809。

多模态中层次特征融合方式的内容门网络层801的内容过滤过程与多模态低层次特征融合方式类似，在此不再详述。根据本公开的实施例，也可以不对图像特征I_t和音频特征A_t进行内容过滤，直接将图像特征I_t和音频特征A_t输入到多模态特征融合层802的融合层808、视觉嵌入层810和音频嵌入层811进行处理，此时804和805直连到融合层808、视觉嵌入层810和音频嵌入层811。

考虑到视频的图像特征以及音频特征都有其独有的特征性质，但也有共有的特征性质。因此在多模态特征融合层802中引入视觉嵌入层和音频嵌入层的概念。视觉嵌入层810和音频嵌入层811均为全连接层，用于分别对输入的图像特征和音频特征进行线性矩阵变换，学习获取图像特征和音频特征的高阶特征。

在输入到多模态特征融合层802之前，对图像特征

和音频特征

和音频特征

拼接得到在播放时间t的具有1024维度的融合特征

视觉嵌入层810通过学习获取图像特征

在播放时间t的具有1536维度的高阶图像特征

音频嵌入层811则通过学习获取音频特征

在播放时间t的具有26维度的高阶音频特征

在层808、810和811完成处理后，将三者的结果再次进行融合。在进行融合之前，将融合特征

高阶图像特征

和高阶音频特征

进行线性变换映射到512维度的融合特征、图像特征和音频特征再进行新的融合。例如，直接将512维度的融合特征、图像特征和音频特征拼接得到在播放时间t的具有1536维度的新的融合特征

新的融合特征

来预测在该播放时间t的视频观看量。隐藏状态

因此，根据本公开的实施例，在多模态中层次特征融合方式中，步骤S320包括如图9B所示的步骤：

S3221：对图像特征和音频特征进行拼接以获取视频在预定播放时间的融合特征；

S3222：获取图像特征的高阶图像特征；

S3223：获取音频特征的高阶音频特征；

S3224：对融合特征、高阶图像特征和高阶音频特征再次进行拼接以获取视频在预定播放时间的新的融合特征。

图8C则示出多模态中层次特征融合方式。对于预定播放时间t，改进的LSTM网络层仍然包括三层结构，分别为内容门网络层801、多模态特征融合层802和观看量预测层803。其中内容门网络层801包括分别对图像特征I_t和音频特征A_t进行内容过滤的过滤模块806和807；多模态特征融合层802相比多模态低层次特征融合和中层次特征融合，包括对经内容过滤的图像特征

学习获取高阶图像特征

的一层LSTM网络层812、对经内容过滤的音频特征

学习获取高阶音频特征

的一层LSTM网络层813、以及对高阶图像特征

和高阶音频特征

进行融合的融合层808；观看量预测层803包括标准LSTM网络层809。

多模态高层次特征融合方式的内容门网络层801的内容过滤过程与多模态低层次特征融合和中层次特征融合方式类似，在此不再详述。根据本公开的实施例，也可以不对图像特征I_t和音频特征A_t进行内容过滤，直接将图像特征I_t和音频特征A_t输入到多模态特征融合层802的LSTM网络层812和813进行处理，此时804和805直连到LSTM网络层812和813。

视频在播放时间t的图像特征和音频特征与该播放时间t之前的播放时间的图像特征和音频特征之间具有时序性。因此，相比中层次特征融合方式中使用视觉嵌入层和音频嵌入层分别学习图像特征和音频特征的高阶特征，在高层次特征融合方式中使用一层LSTM网络层学习图像特征和音频特征分别在播放时间t的高阶图像特征和高阶音频特征。

在多模态特征融合层802中，对经内容过滤的图像特征

使用一层LSTM网络层812进行学习获取在播放时间t的高阶图像特征

该LSTM网络层812基于公式(13)至(15)计算。类似地，对经内容过滤的音频特征

使用一层LSTM网络层813进行学习获取在播放时间t的高阶音频特征

该LSTM网络层813基于公式(16)至(18)计算。在使用LSTM网络层812和813进行学习计算前，可以将图像特征

和音频特征

分别进行线性变换映射为具有512维度的图像特征和音频特征，或者分别将具有1536维度的图像特征

和具有26维度的音频特征

输入LSTM网络层学习计算，再将获得高阶图像特征

和高阶音频特征

分别进行线性变换映射为具有512维度的高阶图像特征和高阶音频特征。

融合层808可以通过多种融合方式，例如直接将高阶图像特征

和高阶音频特征

拼接得到在播放时间t的具有1024维度的融合特征

融合特征

来预测在该播放时间t的视频观看量。隐藏状态

因此，根据本公开的实施例，在多模态高层次特征融合方式中，步骤S320包括如图9C所示的步骤：

S3231：基于视频在预定播放时间之前的播放时间的图像特征获取在预定播放时间的图像特征的高阶图像特征；

S3232：基于视频在预定播放时间之前的播放时间的音频特征获取在预定播放时间的音频特征的高阶音频特征；

S3233：对高阶图像特征和高阶音频特征进行拼接以获取视频在预定播放时间的融合特征。

对于视频的播放时间t，通过三种不同层次的多模态特征融合方式，可以得到三种融合特征(

和

)分别输入到观看量预测层803以获得三种隐藏状态(

和

)预测视频观看量。根据本公开的实施例，可以使用其中任何一种融合方式所获得的融合特征X_t进行视频观看量的预测，也可以使用三者中的多种融合方式所获得的融合特征X_t进行视频观看量的预测。实验证明，使用三种融合特征共同预测视频观看量的效果最好。

图10示例性示出使用低、中和高三种层次的多模态特征融合获得融合特征X_t进行视频观看量的预测过程。图中(A)、(B)和(C)分别对应低层次的多模态特征融合、中层次的多模态特征融合和高层次的多模态特征融合。经过线性变换均映射到512维度的融合特征

融合特征

和融合特征

进行逐维均值运算得到融合特征均值

均值运算包括但不限于算数平均、几何平均、加权平均和指数平均等的平均值计算方法。融合特征均值

输入到观看量预测层803，LSTM网络层根据公式(6)至(8)计算获得在播放时间t的隐藏状态h_t来预测在该播放时间t的视频观看量。本领域技术人员基于上述描述，还可以采用其它的多模态特征融合方式的组合进行预测。

因此，如图11所示，根据本公开的实施例，步骤S400包括如下步骤：

S410：基于视频在预定播放时间之前的视频观看量和融合特征的平均值预测视频在预定播放时间的视频观看量。

对于总播放长度为T秒的视频，可以设置对应的具有T层如上所述的改进的LSTM网络层的RNN网络进行在预定播放时间t的视频观看量的预测。

另外，在使用隐藏状态h_t进行预测时，还可以将具有512维度的隐藏状态h_t线性变换映射到标量数值以便于计算。

基于LSTM网络的记忆传送特性，当对视频预测在预定播放时间t的视频观看量时，从前一播放时间t-1输出的记忆状态C_t-1和隐藏状态h_t-1不仅包含该播放时间t-1的特征信息，还包含在之前若干播放时间的特征信息。因此，上文中的上一播放时间t-1还可以扩展为当前播放时间t之前的任一播放时间或之前的所有播放时间，则基于视频在播放时间t之前的播放时间的视频观看量和融合特征预测视频在该播放时间t的视频观看量，可以理解为基于在播放时间t之前的一段或累积视频观看量信息预测当前播放时间t的视频观看量。

本领域技术人员将理解，本公开的视频数据的处理方法仅为以高细粒度预测视频在不同播放时间的视频观看量的神经网络模型。在实际应用中，RNN网络将不限于上文作为举例的LSTM网络。可以使用同样是RNN网络的GRU(Gated Recurrent Unit，控制门循环单元)网络基于视频在预定播放时间之前的播放时间的视频观看量和融合特征预测视频在预定播放时间的视频观看量。GRU网络仅有两个控制门(更新门和重置门)，其需要学习调整的模型参数更少，训练计算速度更快。

另外，根据本公开实施例的方法还可以在不同层次的多模态特征融合过程中的特征嵌入层(例如图像嵌入层和音频嵌入层)之后加入各种非线性激活函数，以便获得更好的预测效果。

针对不同的细粒度要求，通过设置视频播放时间t的长度，可以控制进行视频观看量的预测精度。例如，播放时间t可以为时间段，也可以为时间点(播放时刻)。随着时间段的不断缩短，直至播放时间为播放时刻，视频观看量在时域上的预测精度不断提高，该视频数据的处理方法的预测细粒度精度也不断提高。

本公开通过提出多层次多模态特征融合的神经网络模型以有效预测视频观看量的视频数据处理方法，结合视频的预定播放时间的视觉特征和音频特征信息以及预定播放时间之前的播放时间的视频观看量，使用诸如深度学习的神经网络，通过不同层次的特征融合方式预测同一个视频中不同播放时间的视频观看量。该处理方法可以考虑到同一个视频的视频观看量在其播放期间的内部差异性，使视频观看量的预测结果达到精确至视频播放时间的时域细粒度要求在视频数据量和相关业务需求不断增长的情况下，能够以高精细度预测视频观看量和视频观看量在时域上的变化趋势，提升视频用户的推荐体验。

因此，本公开实施例还提出一种信息推荐方法。该方法基于上文所描述的视频数据处理方法中预测的视频在预定播放时间t的视频观看量进行信息推荐。其中，当需要在视频中进行信息推荐时，可以根据上文中的视频在时域上的视频观看量的预测结果，选择视频观看量最高的播放时刻t所对应的视频片段进行信息推荐，使得更多的用户能够看到该信息，有效提升视频的信息推荐效果，“因时制宜”地精准推荐信息，具有更高的潜在经济效益。

进一步，通过控制预定播放时间t的长度，例如选择不同的播放时间段或时间点(播放时刻)，满足不同的细粒度预测需求。

本公开还提出用于预测视频观看量的视频数据的处理装置。下文将结合附图介绍该处理装置，其中与上文的方法中所描述的具体细节将不再赘述。

如图12所示，该处理装置1200包括：

图像特征提取单元1201，设置为提取视频在预定播放时间t的图像特征；

音频特征提取单元1202，设置为提取视频在预定播放时间t的音频特征；

特征融合单元1203，设置为融合图像特征和音频特征以获取视频在预定播放时间t的融合特征；

预测单元1204，设置为基于视频在预定播放时间t之前的播放时间的视频观看量和融合特征预测视频在预定播放时间t的视频观看量。

图像特征提取单元1201可包括卷积神经网络完成在预定播放时间t提取视频的图像特征的功能。在进行图像特征提取之前，还可使用视频解码单元对视频进行视频解码以获取图像信息。音频特征提取单元1202可使用人工设计的特征提取方法或音频合成神经网络提取在预定播放时间t的视频的音频特征。类似地，在进行音频特征提取之前，还可以使用音频解码单元对视频进行音频解码以获取音频信息。

根据本公开一实施例，特征融合单元1203可进一步设置为通过对图像特征和音频特征进行多模态特征融合以获取视频在预定播放时间的融合特征。

根据如图13A至图13C所示的本公开的实施例，特征融合单元1203可以具有三种不同层次类型的结构。图13A示出低层次类型的特征融合单元1203，其包括融合子单元1206，该融合子单元1206通过例如直接将图像特征和音频特征拼接得到融合特征的多种方式对图像特征和音频特征进行融合。图13B示出中层次类型的特征融合单元1203，其进一步包括融合子单元1206、视觉嵌入单元1207和音频嵌入单元1208。融合子单元1206用于将图像特征和音频特征进行融合以获得融合特征；视觉嵌入单元1207用于通过学习获取预定播放时间t的高阶图像特征；音频嵌入单元1208用于通过学习获取该预定播放时间t的高阶音频特征；三个单元输出的融合特征、高阶图像特征和高阶音频特征将再次融合以获取新的融合特征。图13C示出高层次类型的特征融合单元1203，其进一步包括第一预测子单元1209、第二预测子单元1210和融合子单元1206。第一预测子单元1209通过RNN网络层以结合该预定播放时间t前的图像特征信息获取图像特征在该预定播放时间t的高阶图像特征。类似地，第二预测子单元1210通过RNN网络层以结合该预定播放时间t前的音频特征信息获取音频特征在该预定播放时间t的高阶音频特征。高层次类型的特征融合单元1203中的融合子单元1206与中层次类型的融合子单元1206类似，但是用于将第一预测子单元1209和第二预测子单元1210输出的高阶图像特征和高阶音频特征融合为融合特征。

根据图14A至14C所示的本公开的实施例，特征融合单元1203在对图像特征和音频特征进行融合和/或获取高阶图像特征和音频特征之前还包括内容过滤单元1205。内容过滤单元1205用于对图像特征和音频特征进行内容过滤以提高预测精度。经内容过滤单元1205输出的经过滤图像特征和音频特征分别输出到下一单元进行处理。图14A至14C分别对应在图13A至13C中的三种层次类型的特征融合单元1203中加入内容过滤单元1205的结构。

预测单元1204采用诸如LSTM网络层的RNN网络层，基于从预定播放时间t之前的播放时间t-1对应的视频观看量和特征融合单元1203输出的融合特征，预测在预定播放时间t的视频观看量。播放时间t之前的视频观看量信息可以使用LSTM网络层的隐藏状态和记忆状态表征。

在使用LSTM网络层构建本公开的预测模型时，可以使用改进的LSTM网络层完成处理装置1200中的特征融合单元1203和预测单元1204的功能。参见在上文的方法中描述的内容，LSTM网络层的内容门网络层对应于处理装置1200的内容过滤子单元1205，多模态特征融合层对应于处理装置1200的如图13A至图13C所示的特征融合单元1203，而观看量预测层则对应于处理装置1200的预测单元1204。

本公开提出的使用多层次多模态特征融合的神经网络模型以有效预测视频观看量的视频数据处理装置，结合视频的预定播放时间的视觉特征和音频特征信息以及预定播放时间之前的播放时间的视频观看量，使用诸如深度学习的神经网络，通过不同层次的特征融合方式预测同一个视频中不同播放时间的视频观看量。该处理装置可以考虑到同一个视频的视频观看量在其播放期间的内部差异性，使视频观看量的预测结果达到精确至视频播放时间的时域细粒度要求在视频数据量和相关业务需求不断增长的情况下，能够以高精细度预测视频观看量和视频观看量在时域上的变化趋势，提升视频用户的推荐体验。

同时，基于上文所描述的视频数据处理装置在需要在视频中进行信息推荐时，可以根据上文中的视频在时域上的视频观看量的预测结果，选择视频观看量最高的播放时刻t所对应的视频片段进行信息推荐，使得更多的用户能够看到该信息，有效提升视频的信息推荐效果，“因时制宜”地精准进行信息推荐，具有更高的潜在经济效益。

应当注意，尽管在上文详细描述中提及了视频数据的处理装置的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。作为模块或单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

在本公开的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序包括可执行指令，该可执行指令被例如处理器执行时可以实现上述任意一个实施例中所述视频数据的处理方法的步骤。在一些可能的实施方式中，本公开的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书的视频数据的处理方法中描述的根据本公开各种示例性实施例的步骤。

根据本公开的实施例的用于实现上述方法的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本公开的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

在本公开的示例性实施例中，还提供一种电子设备，该电子设备可以包括处理器，以及用于存储所述处理器的可执行指令的存储器。其中，所述处理器配置为经由执行所述可执行指令来执行上述任意一个实施例中的视频数据的处理方法的步骤。

所属技术领域的技术人员能够理解，本公开的各个方面可以实现为系统、方法或程序产品。因此，本公开的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

下面参照图15来描述根据本公开的这种实施方式的电子设备1500。图15显示的电子设备1500仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图15所示，电子设备1500以通用计算设备的形式表现。电子设备1500的组件可以包括但不限于：至少一个处理单元1510、至少一个存储单元1520、连接不同系统组件(包括存储单元1520和处理单元1510)的总线1530、显示单元1540等。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元1510执行，使得所述处理单元1510执行本说明书的视频数据的处理方法中描述的根据本公开各种示例性实施方式的步骤。例如，所述处理单元1510可以执行如图2、图5、图9A至图9C、图11中所示的步骤。

所述存储单元1520可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)15201和/或高速缓存存储单元15202，还可以进一步包括只读存储单元(ROM)15203。

所述存储单元1520还可以包括具有一组(至少一个)程序模块15205的程序/实用工具15204，这样的程序模块15205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线1530可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备1500也可以与一个或多个外部设备1600(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备1500交互的设备通信，和/或与使得该电子设备1500能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且，电子设备1500还可以通过网络适配器1560与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器1560可以通过总线1530与电子设备1500的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备1500使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本公开实施方式的视频数据的处理方法。

本公开已由上述相关实施例加以描述，然而上述实施例仅为实施本公开的范例。必需指出的是，已揭露的实施例并未限制本公开的范围。相反，在不脱离本公开的精神和范围内所作的变动与润饰，均属本公开的专利保护范围。

Claims

1.一种信息推荐方法，其特征在于，包括：

获取视频在每个播放时间的视频观看量；

根据所述视频在每个播放时间的视频观看量确定所述视频中的目标视频片段；

将待推荐的信息投放至所述目标视频片段上，以便于在终端播放已投放所述待推荐的信息的所述视频；

所述播放时间中包括预定播放时间；其中，获取视频在每个播放时间的视频观看量，包括：

提取所述视频在所述预定播放时间的图像特征；

提取所述视频在所述预定播放时间的音频特征；

融合所述图像特征和所述音频特征以获取所述视频在所述预定播放时间的融合特征；

基于所述视频在所述预定播放时间之前的播放时间的视频观看量和所述融合特征预测所述视频在所述预定播放时间的视频观看量。

2.如权利要求1所述的信息推荐方法，其特征在于，所述播放时间用于定位所述视频在时域上的位置，所述播放时间是所述视频从开始播放时起的累计时间，或者是所述视频中用于定位视频片段或视频帧的时间标记。

3.如权利要求1所述的信息推荐方法，其特征在于，每个播放时间的视频观看量是每个播放时间的视频观看量的绝对数值，或者是不同播放时间所对应的视频观看量之间的相对数值。

4.如权利要求1所述的信息推荐方法，其特征在于，根据所述视频在每个播放时间的视频观看量确定所述视频中的目标视频片段，包括：

根据所述视频在每个播放时间的视频观看量，选择视频观看量最高的视频片段作为所述目标视频片段。

5.如权利要求1所述的信息推荐方法，其特征在于，所述待推荐的信息，包括以下中的至少一项：广告、说明、帮助信息、通知和警示信息。

6.根据权利要求1所述的信息推荐方法，其特征在于，融合所述图像特征和所述音频特征以获取所述视频在所述预定播放时间的融合特征包括：

对所述图像特征和所述音频特征进行内容过滤；

对所述图像特征和所述音频特征进行多模态特征融合以获取所述视频在所述预定播放时间的融合特征。

7.根据权利要求6所述的信息推荐方法，其特征在于，对所述图像特征和所述音频特征进行多模态特征融合以获取所述视频在所述预定播放时间的融合特征包括：

对所述图像特征和所述音频特征进行拼接以获取所述视频在所述预定播放时间的融合特征。

8.根据权利要求6所述的信息推荐方法，其特征在于，对所述图像特征和所述音频特征进行多模态特征融合以获取所述视频在所述预定播放时间的融合特征包括：

对所述图像特征和所述音频特征进行拼接以获取所述视频在所述预定播放时间的融合特征；

获取所述图像特征的高阶图像特征；

获取所述音频特征的高阶音频特征；

对所述融合特征、所述高阶图像特征和所述高阶音频特征再次进行拼接以获取所述视频在所述预定播放时间的新的融合特征。

9.根据权利要求6所述的信息推荐方法，其特征在于，对所述图像特征和所述音频特征进行多模态特征融合以获取所述视频在所述预定播放时间的融合特征包括：

基于所述视频在所述预定播放时间之前的播放时间的图像特征获取在所述预定播放时间的图像特征的高阶图像特征；

基于所述视频在所述预定播放时间之前的播放时间的音频特征获取在所述预定播放时间的音频特征的高阶音频特征；

对所述高阶图像特征和所述高阶音频特征进行拼接以获取所述视频在所述预定播放时间的融合特征。

10.如权利要求1所述的信息推荐方法，其特征在于，所述预定播放时间为预定时间段或预定时间点。

11.如权利要求1所述的信息推荐方法，其特征在于，所述预定播放时间之前的播放时间是上一播放时间，或者是所述预定播放时间之前的任一播放时间或者之前的所有播放时间。

12.一种信息推荐系统，其特征在于，包括：

视频服务器，用于存储视频；

预测服务器，用于从所述视频服务器中获取所述视频并对其进行分析，获取所述视频在每个播放时间的视频观看量，以便于确定所述视频中的目标视频片段；所述播放时间中包括预定播放时间；其中，获取视频在每个播放时间的视频观看量，包括：提取所述视频在所述预定播放时间的图像特征；提取所述视频在所述预定播放时间的音频特征；融合所述图像特征和所述音频特征以获取所述视频在所述预定播放时间的融合特征；基于所述视频在所述预定播放时间之前的播放时间的视频观看量和所述融合特征预测所述视频在所述预定播放时间的视频观看量；

信息推荐服务器，用于确定待推荐的信息，以便于将所述待推荐的信息投放至所述目标视频片段，以实现在终端播放已投放所述待推荐的信息的所述视频。

13.如权利要求12所述的信息推荐系统，其特征在于，所述播放时间用于定位所述视频在时域上的位置，所述播放时间是所述视频从开始播放时起的累计时间，或者是所述视频中用于定位视频片段或视频帧的时间标记。

14.如权利要求12所述的信息推荐系统，其特征在于，每个播放时间的视频观看量是每个播放时间的视频观看量的绝对数值，或者是不同播放时间所对应的视频观看量之间的相对数值。

15.如权利要求12所述的信息推荐系统，其特征在于，根据所述视频在每个播放时间的视频观看量确定所述视频中的目标视频片段，包括：

16.如权利要求12所述的信息推荐系统，其特征在于，所述待推荐的信息，包括以下中的至少一项：广告、说明、帮助信息、通知和警示信息。

17.根据权利要求12所述的信息推荐系统，其特征在于，融合所述图像特征和所述音频特征以获取所述视频在所述预定播放时间的融合特征包括：

对所述图像特征和所述音频特征进行内容过滤；

18.根据权利要求17所述的信息推荐系统，其特征在于，对所述图像特征和所述音频特征进行多模态特征融合以获取所述视频在所述预定播放时间的融合特征包括：

19.根据权利要求17所述的信息推荐系统，其特征在于，对所述图像特征和所述音频特征进行多模态特征融合以获取所述视频在所述预定播放时间的融合特征包括：

获取所述图像特征的高阶图像特征；

获取所述音频特征的高阶音频特征；

20.根据权利要求17所述的信息推荐系统，其特征在于，对所述图像特征和所述音频特征进行多模态特征融合以获取所述视频在所述预定播放时间的融合特征包括：

21.如权利要求12所述的信息推荐系统，其特征在于，所述预定播放时间为预定时间段或预定时间点。

22.如权利要求12所述的信息推荐系统，其特征在于，所述预定播放时间之前的播放时间是上一播放时间，或者是所述预定播放时间之前的任一播放时间或者之前的所有播放时间。

23.一种计算机可读存储介质，其上存储有计算机程序，该计算机程序包括可执行指令，当该可执行指令被处理器执行时，实施如权利要求1至11中任一项所述的信息推荐方法。

24.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器设置为执行所述可执行指令以实施如权利要求1至11中任一项所述的信息推荐方法。