CN113762052A

CN113762052A - 视频封面提取方法、装置、设备及计算机可读存储介质

Info

Publication number: CN113762052A
Application number: CN202110523765.3A
Authority: CN
Inventors: 梁涛
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-05-13
Filing date: 2021-05-13
Publication date: 2021-12-07

Abstract

本申请提供了一种视频封面提取方法、装置、设备及计算机可读存储介质；涉及人工智能领域，方法包括：对待处理视频的视频帧序列进行图像特征提取，得到视频帧序列对应的视觉特征向量；对待处理视频的视频文本信息进行词向量特征提取，得到视频文本信息对应的文本特征向量；将视觉特征向量与文本特征向量进行特征融合，得到待处理视频对应的多模态融合特征；基于多模态融合特征，从视频帧序列中选取出待处理视频的视频封面帧。通过本申请，能够提高视频封面提取的准确性。

Description

视频封面提取方法、装置、设备及计算机可读存储介质

技术领域

本申请涉及人工智能技术，尤其涉及一种视频封面提取方法、装置、设备及计算机可读存储介质。

背景技术

目前，对视频封面选取的技术大多数是通过对视频帧的图像进行图像模态信息，如视觉特征信息的提取，再基于所提取的视觉特征信息进行从视频帧图像中选取出视频封面。这种通过图像模态信息进行视频封面选取的方法利用的信息维度较为单一，选取的视频封面不能很好地代表视频内容中的信息，准确度较低。

发明内容

本申请实施例提供一种视频封面提取方法、装置及计算机可读存储介质，能够提高视频封面提取的准确性。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种视频封面提取方法，包括：

对待处理视频的视频帧序列进行图像特征提取，得到所述视频帧序列对应的视觉特征向量；

对所述待处理视频的视频文本信息进行词向量特征提取，得到所述视频文本信息对应的文本特征向量；

将所述视觉特征向量与所述文本特征向量进行特征融合，得到所述待处理视频对应的多模态融合特征；

基于所述多模态融合特征，从所述视频帧序列中选取出所述待处理视频的视频封面帧。

本申请实施例提供一种视频封面提取装置，包括：

视觉模态特征提取模块，用于对待处理视频的视频帧序列进行图像特征提取，得到所述视频帧序列对应的视觉特征向量；

文本模态特征提取模块，用于对所述待处理视频的视频文本信息进行词向量特征提取，得到所述视频文本信息对应的文本特征向量；

多模态特征融合模块，用于将所述视觉特征向量与所述文本特征向量进行特征融合，得到所述待处理视频对应的多模态融合特征；

封面选取模块，用于基于所述多模态融合特征，从所述视频帧序列中选取出所述待处理视频的视频封面帧。

上述装置中，所述视觉模态特征提取模块，还用于对所述视频帧序列中的每个视频帧进行图像特征提取，得到所述每个视频帧对应的图像特征；对所述每个视频帧对应的图像特征进行特征融合，得到所述视频帧序列对应的初始视觉特征；将所述初始视觉特征映射至预设特征维度，得到所述视觉特征向量。

上述装置中，所述文本模态特征提取模块，还用于对所述视频文本信息进行分词与文本向量转化，得到所述视频文本信息对应的词向量序列；对所述词向量序列中的每个词向量进行文本特征提取，得到所述每个词向量对应的文本特征；对所述每个词向量对应的文本特征进行特征融合，得到所述视频文本信息对应的初始文本特征；将所述初始文本特征映射至预设特征维度，得到所述文本特征向量。

上述装置中，所述封面选取模块，还用于利用全连接层对所述多模态融合特征进行评分预测，得到所述视频帧序列中每个视频帧对应的预测分数；对所述每个视频帧对应的预测分数进行归一化，得到所述每个视频帧为所述视频封面帧的预测概率；所述预测概率表征所述每个视频帧对应的预测分数与所述视频帧序列对应的总预测分数的比值；根据所述预测概率，从所述视频帧序列中选取出所述视频封面帧。

上述装置中，所述封面选取模块，还用于通过所述全连接层的预设激活函数，利用所述预设激活函数中的预设权重矩阵与预设偏置常量，对所述多模态融合特征进行非线性变换，得到所述每个视频帧对应的预测分数；所述预设权重矩阵与所述预设偏置常量通过所述全连接层的多模态训练过程确定。

上述装置中，所述视频封面提取装置还包括训练模块，所述训练模块，用于所述通过所述全连接层的预设激活函数，利用所述预设激活函数中的预设权重矩阵与预设偏置常量，对所述多模态融合特征进行非线性变换，得到所述每个视频帧对应的预测分数之前，获取视频样本集与初始全连接层；所述初始全连接层的网络参数包含初始权重矩阵与初始偏置常量；所述视频样本集中包括多个样本视频；所述多个样本视频的每个样本视频中包含有标注视频封面帧、样本视频文本信息与样本视频序列；在每次训练过程中，通过所述初始全连接层，基于所述样本视频文本信息与所述样本视频序列对每个样本视频进行多模态视频封面预测，得到每次训练的预测视频封面帧；根据所述预测视频封面帧与所述标注视频封面帧，得到所述每次训练的训练损失；并根据所述训练损失对所述初始权重矩阵与所述初始偏置常量进行迭代更新，当所述训练损失达到预设收敛条件时，结束训练，得到包含所述预设权重矩阵与所述预设偏置常量的所述全连接层。

上述装置中，所述文本模态特征提取模块，还用于对所述视频文本信息进行分词处理，得到分词序列；利用预训练词向量模型对所述分词序列进行文本向量转化，得到所述词向量序列；所述预训练词向量模型用于将文本信息转化为向量表示。

上述装置中，所述视频封面提取装置还包括采集模块，所述采集模块，用于所述对待处理视频的视频帧序列进行图像特征提取，得到所述视频帧序列对应的视觉特征向量之前，获取所述待处理视频对应的原始视频帧序列，作为所述视频帧序列；或者，根据预设采样率对原始视频帧序列进行采样，得到所述视频帧序列；或者，通过预设统计模型对原始视频帧序列进行关键帧预测，根据预测结果从所述原始视频帧序列中选取出多个关键帧，得到所述视频帧序列；所述统计模型用于基于原始视频帧包含的场景画面，预测所述原始视频帧是否为关键帧。

上述装置中，所述封面选取模块，还用于将所述预测概率排序在前N位的视频帧作为所述视频封面帧；其中，N为大于或等于1的正整数。

上述装置中，所述视频封面提取装置还包括展示模块，所述展示模块，用于所述基于所述多模态融合特征，从所述视频帧序列中选取出所述待处理视频的视频封面帧之后，在预设视频平台上，将所述视频封面帧显示在所述待处理视频对应的预设显示位置上，对所述待处理视频进行展示与推荐。

上述装置中，所述展示模块，还用于当所述视频封面帧的数量大于1时，在所述预设显示位置上，以轮播方式对所述待处理视频进行展示与推荐。

上述装置中，所述视频文本信息包括以下至少之一：视频标题、视频简介和视频标签。

本申请实施例提供一种电子设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本申请实施例提供的视频封面提取方法。

本申请实施例提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行时，实现本申请实施例提供的视频封面提取方法。

本申请实施例具有以下有益效果：

本申请将多模态融合的思想引入视频封面选取任务中，同时提取视频帧模态的视觉特征向量和视频文本信息模态的文本特征向量，并融合两种模态的特征向量得到多模态融合特征。多模态融合特征同时包含视频的图像信息和文本信息，涵盖了更丰富的视频内容信息量，更有利于进行视频封面的选取，从而提高了视频封面提取的准确性。

附图说明

图1是本申请实施例提供的网络视频平台架构的一个可选的结构示意图；

图2是本申请实施例提供的视频封面提取装置的一个可选的结构示意图；

图3是本申请实施例提供的视频封面提取方法的一个可选的流程示意图；

图4是本申请实施例提供的待处理视频的数据形式的一种示意图；

图5是本申请实施例提供的视频封面提取方法的一个可选的流程示意图；

图6是本申请实施例提供的视频封面提取方法的一个可选的流程示意图；

图7是本申请实施例提供的视频封面提取方法的一个可选的流程示意图；

图8是本申请实施例提供的全连接层网络结构的一个可选的流程示意图；

图9是本申请实施例提供的在实际应用场景中利用视频封面提取模型提取视频封面帧的一个可选的流程示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

2)机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

3)模态(Modality):每一种信息的来源或者形式，都可以称为一种模态。例如，人有触觉，听觉，视觉，嗅觉；信息的媒介，有语音、视频、文字等；多种多样的传感器，如雷达、红外、加速度计等。以上的每一种都可以称为一种模态。同时，模态也可以有非常广泛的定义，比如可以把两种不同的语言当做是两种模态，甚至在两种不同情况下采集到的数据集，亦可认为是两种模态。

4)多模态融合(Multimodal Fusion)负责联合多个模态的信息，进行目标预测(分类或者回归)。

5)多模态机器学习(MultiModal Machine Learning，MMML)，旨在通过机器学习的方法实现处理和理解多源模态信息的能力。

6)VF：VideoFrames的缩写，即视频帧。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及人工智能的视频处理技术，具体通过如下实施例进行说明：本申请实施例提供一种视频封面提取方法、装置、设备和计算机可读存储介质，能够提高视频封面提取的准确性，下面说明本申请实施例提供的电子设备的示例性应用，本申请实施例提供的电子设备可以实施为笔记本电脑，平板电脑，台式计算机，机顶盒，移动设备(例如，移动电话，便携式音乐播放器，个人数字助理，专用消息设备，便携式游戏设备)等各种类型的用户终端，也可以实施为服务器。下面，将说明电子设备实施为服务器时示例性应用。

参见图1，图1是本申请实施例提供的网络视频平台100的一个可选的架构示意图，终端400(示例性示出了终端400-1和终端400-2)通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合。

终端400-1归属于网络视频的发布者，用于向网络视频平台的后台服务器，即服务器200上传包含视频文本信息的待处理视频，以通过服务器200将待处理视频发布给网络300上的其他终端，如终端400-2。

服务器200为网络视频平台的后台服务器，归属于网络视频平台的管理者，用于接收终端400-1上传的待处理视频，存储在数据库500中。并对待处理视频的视频帧序列进行图像特征提取处理，得到视频帧序列对应的视觉特征向量；对待处理视频的视频文本信息进行词向量特征提取处理，得到视频文本信息对应的文本特征向量；将视觉特征向量与文本特征向量进行特征融合，得到待处理视频对应的多模态融合特征；基于多模态融合特征，从视频帧序列中选取出待处理视频的视频封面帧。进而，服务器200可以在网络视频平台上利用视频封面帧对待处理视频进行展示和推荐。

终端400-2归属于网络视频平台的用户，用于通过网络视频平台的客户端应用410访问网络视频平台，在客户端应用410上显示待处理视频的视频封面帧，并通过客户端应用410对视频封面帧进行如点击，收藏等操作，相应地在客户端应用410上播放或收藏待处理视频。

在一些实施例中，服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端400可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本发明实施例中不做限制。

参见图2，图2是本申请实施例提供的服务器200的结构示意图，图2所示的服务器200包括：至少一个处理器210、存储器250、至少一个网络接口220和用户接口230。服务器200中的各个组件通过总线系统240耦合在一起。可理解，总线系统240用于实现这些组件之间的连接通信。总线系统240除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统240。

处理器210可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口230包括使得能够呈现媒体内容的一个或多个输出装置231，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口230还包括一个或多个输入装置232，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器250可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器250可选地包括在物理位置上远离处理器210的一个或多个存储设备。

存储器250包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本申请实施例描述的存储器250旨在包括任意适合类型的存储器。

在一些实施例中，存储器250能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统251，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块252，用于经由一个或多个(有线或无线)网络接口220到达其他计算设备，示例性的网络接口220包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

呈现模块253，用于经由一个或多个与用户接口230相关联的输出装置231(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作外围设备和显示内容和信息的用户接口)；

输入处理模块254，用于对一个或多个来自一个或多个输入装置232之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本申请实施例提供的装置可以采用软件方式实现，图2示出了存储在存储器250中的视频封面提取装置255，其可以是程序和插件等形式的软件，包括以下软件模块：视觉模态特征提取模块2551、文本模态特征提取模块2552、多模态特征融合模块2553和封面选取模块2554，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。

将在下文中说明各个模块的功能。

在另一些实施例中，本申请实施例提供的装置可以采用硬件方式实现，作为示例，本申请实施例提供的装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的视频封面提取方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable GateArray)或其他电子元件。

将结合本申请实施例提供的服务器的示例性应用和实施，说明本申请实施例提供的视频封面提取方法。

参见图3，图3是本申请实施例提供的视频封面提取方法的一个可选的流程示意图，将结合图3示出的步骤进行说明。

S101、对待处理视频的视频帧序列进行图像特征提取，得到视频帧序列对应的视觉特征向量。

本申请实施例中，对于需要提取视频封面的待处理视频，视频封面提取装置获取待处理视频的视频帧序列，对视频帧序列中的每一张视频帧进行图像特征提取，得到视频帧序列对应的视觉特征向量。其中，视频帧序列包含多个视频帧。

本申请实施例中，视频封面提取装置可以获取待处理视频对应的原始视频帧序列作为视频帧序列；也可以根据预设采样率对原始视频帧序列进行采样，将采样选取出的多个原始视频帧作为视频帧序列；也可以利用预设统计模型，如目标检测统计模型，对原始视频帧序列进行关键帧预测，根据预测结果从原始视频帧序列中选取出多个关键帧得到视频帧序列；这里，预设统计模型用于基于原始视频帧包含的场景画面进行网络推断，预测原始视频帧是否为关键帧。或者，视频帧序列还可以由人工选取得到。具体的根据实际情况进行选择，本申请实施例不作限定。

本申请实施例中，视频封面提取装置对每一张视频帧进行视觉模态的图像特征提取，得到视频帧序列对应的视觉特征向量。这里，视觉特征向量可以表征视频帧序列中包含的纹理、颜色、结构、形状、灰度、亮度、以及每张视频帧之间的图像相关性等等信息。

S102、对待处理视频的视频文本信息进行词向量特征提取，得到视频文本信息对应的文本特征向量。

本申请实施例中，视频封面提取装置可以对待处理视频的视频文本信息进行词向量特征提取，得到视频文本信息对应的文本特征向量。

本申请实施例中，视频文本信息可以包含以下至少一种：视频标题、视频简介、视频标签。示例性地，视频发布者在将待处理视频上传至视频平台时，可以在上传页面上填写待处理视频的标题、简介、以及关键词标签等等，然后操作上传。这些文本信息在待处理视频上传时被关联为待处理视频的视频标题、视频简介与视频标签等等，也即待处理视频的视频文本信息。

本申请实施例中，视频文本信息中包含了与视频内容相关的描述信息，视频封面提取装置对待处理视频的视频文本信息进行文本模态的词向量特征提取，得到视频文本信息对应的文本特征向量。

在一些实施例中，视频文本信息为视频标题，包含视频帧序列与视频标题的待处理视频的数据形式可以如图4所示。图4示出了在多个待处理视频中，每个待处理视频对应的视频标题以及视频帧序列的数据形式。可以看到，视频标题为对视频内容相关的文本信息，视频帧序列中包含了图像形式的多个视频帧。

需要说明的是，本申请实施例中不限定S101和S102的执行顺序，可以是对待处理视频的同时进行图像特征提取与词向量特征提取，也可以根据需要分别执行图像特征提取与词向量特征提取的过程，且在分别执行时不对执行的先后顺序进行限定。

S103、将视觉特征向量与文本特征向量进行特征融合，得到待处理视频对应的多模态融合特征。

本申请实施例中，视频封面提取装置将视觉模态的视觉特征向量与文本模态的文本特征向量进行特征融合，得到待处理视频对应的多模态融合特征。

本申请实施例中，特征融合的方式可以采用特征拼接，相似度融合，或者线性融合等等技术，具体的根据实际情况进行选择，本申请实施例不作限定。

这里，多模态融合特征同时包含了待处理视频的图像模态的特征信息与文本模态的特征信息，能够更全面地体现待处理视频的内容。

S104、基于多模态融合特征，从视频帧序列中选取出待处理视频的视频封面帧。

本申请实施例中，视频封面提取装置可以基于上述得到的多模态融合特征，综合图像模态的特征信息与文本模态的特征信息，从视频帧序列的多个视频帧中选取出最适合作为待处理视频的封面图片，对待处理视频进行展示与推荐的视频封面帧。

本申请实施例中，视频封面提取装置可以利用训练得到的神经网络模型，基于多模态融合特征，对于视频帧序列中的多个视频帧，对每个视频帧进行图像模态与文本模态的特征分析与网络推断，得到每个视频帧可以作为视频封面帧的概率，进而从中选取出视频封面帧。

在一些实施例中，上述神经网络模型可以是包含全连接(Full-connected layer，FC)层的分类神经网络，也可以是其他类型的网络模型，具体的根据实际情况进行选择，本申请实施例不作限定。

可以理解的是，本申请将多模态融合的思想引入视频封面选取任务中，同时提取视频帧模态的视觉特征向量和视频文本信息模态的文本特征向量，并融合两种模态的特征向量得到多模态融合特征。多模态融合特征同时包含视频的图像信息和文本信息，涵盖了更丰富的视频内容信息量，更有利于进行视频封面的选取，从而提高了视频封面提取的准确性。

在一些实施例中，参见图5，图5是本申请实施例提供的视频封面提取方法的一个可选的流程示意图，图3示出的S101可以通过S1011至S1013实现，将结合各步骤进行说明。

S1011、对视频帧序列中的每个视频帧进行图像特征提取，得到每个视频帧对应的图像特征。

本申请实施例中，视频封面提取装置可以通过卷积神经网络(ConvolutionalNeural Networks，CNN)，对视频帧序列中的每个视频帧进行图像特征提取，得到每个视频帧对应的图像特征。

S1012、对每个视频帧对应的图像特征进行特征融合，得到视频帧序列对应的初始视觉特征。

本申请实施例中，视频封面提取装置对每个视频帧对应的图像特征进行特征融合，示例性地，通过特征拼接方式进行特征融合，得到视频帧序列对应的初始视觉特征。

S1013、将初始视觉特征映射至预设特征维度，得到视觉特征向量。

本申请实施例中，由于视觉模态的特征与文本模态的特征在维度上存在区别，为了后续能够与文本模态的特征进行融合，视频封面提取装置可以先将两者映射至同一维度的特征空间再进行融合。视频封面提取装置将初始视觉特征映射至预设特征维度对应特征空间，得到视觉特征向量。

在一些实施例中，视频封面提取装置可以通过神经网络模型中的一个全连接层，对初始视觉特征进行非线性维度变换，将其映射至预设特征维度。

可以理解的是，通过提取待处理视频的图像模态的特征并进行融合与预设特征维度的映射，视频封面提取装置可以得到能够给与文本模态的特征进行融合的视觉特征向量，以通过多模态融合提高视频封面提取的准确性。

在一些实施例中，参见图6，图6是本申请实施例提供的视频封面提取方法的一个可选的流程示意图，图3示出的S102可以通过S1021至S1024实现，将结合各步骤进行说明。

S1021、对视频文本信息进行分词与文本向量转化，得到视频文本信息对应的词向量序列。

本申请实施例中，视频封面提取装置可以对视频文本信息的文本内容进行分词，得到分词序列；这里分词序列包含视频文本信息至少一个词组。视频封面提取装置可以利用预训练词向量模型，示例性地，谷歌的word2vec模型，对分词序列进行文本向量转化，得到词向量序列。这里，预训练词向量模型用于将文本信息转化为向量表示。

在一些实施例中，视频封面提取装置也可以通过自定义编码等其他数据转换方式，对分词序列进行文本向量转化，得到词向量序列。具体的根据实际情况进行选择，本申请实施例不作限定。

在一些实施例中，视频封面提取装置对视频文本信息的文本内容进行分词可以采用一元分词，也即将视频文本信息中的每个字作为一个分词，也可以选择二元分词或多元分词等分词方式，具体的根据实际情况进行选择，本申请实施例不作限定。

S1022、对词向量序列中的每个词向量进行文本特征提取，得到每个词向量对应的文本特征。

本申请实施例中，词向量序列中包含了视频文本信息中每个分词的数字化的向量表示，也即每个词向量。视频封面提取装置可以对每个词向量进行文本特征提取，得到每个词向量对应的文本特征。

在一些实施例中，视频封面提取装置可以利用如双向门控循环单元(Bi-GatedRecurrent Unit，Bi-GRU)对每个词向量进行文本特征提取，得到每个词向量对应的文本特征；也可以利用长短期记忆(Long Short-Term Memory，LSTM)网络，以及循环神经网络(Recurrent Neural Networks，RNN)等进行文本特征的提取，具体的根据实际情况进行选择，本申请实施例不作限定。

S1023、对每个词向量对应的文本特征进行特征融合，得到视频文本信息对应的初始文本特征。

本申请实施例中，视频封面提取装置对每个词向量对应的文本特征进行特征融合，得到视频文本信息整体对应的初始文本特征。

S1024、将初始文本特征映射至预设特征维度，得到文本特征向量。

本申请实施例中，视频封面提取装置将初始文本特征映射至与视觉特征向量相同的预设特征维度，得到文本特征向量。

在一些实施例中，视频封面提取装置可以通过神经网络模型中的一个全连接层，对初始文本特征进行非线性维度变换，将其映射至预设特征维度。

可以理解的是，视频文本信息如视频标题中包含了对待处理视频的文本模态的描述，从中提取出的文本特征向量中包含了待处理视频的重要信息，结合文本特征向量与视觉特征向量能够能全面地表达待处理视频的内容，从而提高视频封面提取的准确性。

在一些实施例中，参见图7，图7是本申请实施例提供的视频封面提取方法的一个可选的流程示意图，图3、图5或图6示出的S104可以通过S1041至S1043实现，将结合各步骤进行说明。

S1041、利用全连接层对多模态融合特征进行评分预测，得到视频帧序列中每个视频帧对应的预测分数。

本申请实施例中，视频封面提取装置可以利用全连接层的分类能力，对多模态特征进行评分预测，得到每个视频帧为视频封面帧的预测分数。

这里，全连接层对多模态融合特征进行评分预测时，可以利用多模态特征中的视觉模态的特征，基于视频帧中包含画面或场景的清晰度，信息丰富程度，以及画面主体特征表现力等等视觉方面的评价指标进行打分，同时可以利用多模态特征中的文本模态的特征，对文本描述与画面内容之间的相关性进行打分，进而可以综合多个模态下的评分得到综合评分，作为每个视频帧对应的预测分数。

在一些实施例中，全连接层的网络结构可以如图8所示。全连接层将多模态融合特征在各个维度上的特征分量{D1,D2,…Dm}作为输入特征向量，其中，m可以是视觉特征向量与文本特征向量的维度的总和。视频封面提取装置可以通过全连接层的预设激活函数f，利用预设激活函数中的预设权重矩阵与预设偏置常量，对多模态融合特征进行非线性变换，计算得到每个视频帧为视频封面帧的预测分数{S1,S2,…Sn}；其中，n为视频帧的个数。其过程如公式(1)所示，如下。

Y＝f(Wx+b) (1)

公式(1)中，x为各个维度上的特征分量，W为预设权重矩阵，b为预设偏置常量，Y为计算得到的视频帧为视频封面帧的预测分数。W与b可以通过全连接层的多模态训练过程来确定。

从图8中可以看出，每个视频帧的预测分数都是根据多模态融合特征在全部维度上的特征分量计算得到的，也就是说，每个视频帧的预测分数中都是基于整体的多模态融合特征预测得到的，从而使得预测分数的准确性得到了保证。

S1042、对每个视频帧对应的预测分数进行归一化，得到每个视频帧为视频封面帧的预测概率；预测概率表征每个视频帧对应的预测分数与视频帧序列对应的总预测分数的比值。

本申请实施例中，S1041中得到的预测分数通常为一个实数形式的数值，视频封面提取装置可以对每个视频帧对应的预测分数进行归一化，得到百分比形式的数值，作为每个视频帧为视频封面帧的预测概率。如公式(2)所示，如下。

公式(2)中，z_j为一个视频帧j对应的预测分数，

为视频帧序列中全部视频帧对应的预测分数的总和。σ(z_j)为视频帧j对应的预测概率，即视频帧j对应的预测分数z_j与视频帧序列对应的总预测分数

的比值。n为视频帧序列中包含的视频帧的个数。

S1043、根据预测概率，从视频帧序列中选取出视频封面帧。

本申请实施例中，视频封面提取装置可以根据得到的每个视频帧为视频封面帧的预测概率，从视频帧序列的多个视频帧中选取出视频封面帧。

在一些实施例中，视频封面提取装置可以将预测概率排序在前N位的视频帧作为视频封面帧；其中，N为大于或等于1的正整数。这里，预测概率排序在前N位的视频帧在全连接层的预测过程中得分高于其他视频帧，能够更好地体现待处理视频的视频内容。

在一些实施例中，视频封面提取装置也可以根据实际选取策略的需要，基于预测概率进行其他策略的视频封面帧选取，具体的根据实际情况进行选择，本申请实施例不作限定。

可以理解的是，本申请实施例中，视频封面提取装置在对每个视频帧能否成为视频封面帧进行预测时，是基于同时包含视觉模态和文本模态的多模态融合特征来进行预测处理的，在预测过程中利用了更为丰富的特征信息，因此能够提高预测的准确性，进而提高视频封面帧提取的准确性。

在本申请的一些实施例中，基于S1041中利用全连接层对多模态融合特征进行预测的过程，在通过全连接层的预设激活函数，基于预设权重矩阵与预设偏置常量，对多模态融合特征进行非线性变换，计算得到每个视频帧为视频封面帧的预测分数之前，还可以执行S001-S003，如下：

S001、获取视频样本集与初始全连接层；初始全连接层的网络参数包含初始权重矩阵与初始偏置常量；视频样本集中包括多个样本视频；多个样本视频的每个样本视频中包含有标注视频封面帧、样本视频文本信息与样本视频序列。

本申请实施例中，在利用全连接层对多模态融合特征进行预测之前，可以先对全连接层的权重矩阵与偏置常量进行训练，以提高全连接层预测的准确性。这里，视频封面提取装置获取网络参数中包含有初始权重矩阵与初始偏置常量的初始全连接层，以及获取用于对初始全连接层进行训练的视频样本集；其中，视频样本集中包括多个样本视频；多个样本视频的每个样本视频中包含有标注视频封面帧、样本视频文本信息与样本视频序列。标注视频封面帧为每个样本视频的样本视频序列中预先标注出来的视频封面帧。

S002、在每次训练过程中，通过初始全连接层，基于样本视频文本信息与样本视频序列对每个样本视频进行多模态视频封面预测，得到每次训练的预测视频封面帧。

S003、根据预测视频封面帧与标注视频封面帧，得到每次训练的训练损失；并根据训练损失对初始权重矩阵与初始偏置常量进行迭代更新，当训练损失达到预设收敛条件时，结束训练，得到包含预设权重矩阵与预设偏置常量的全连接层。

本申请实施例中，在进行每次训练时，可以基于样本视频文本信息与样本视频序列，使用初始全连接层对每个样本视频进行多模态视频封面预测，得到初始全连接层在每次训练中预测出的预测视频封面帧。进而，即可根据预测视频封面帧与标注视频封面帧之间的误差，得到每次训练的训练损失，根据训练损失对初始权重矩阵与初始偏置常量进行迭代更新，当训练损失达到预设收敛条件时，说明网络预测精度达到预期，结束训练，得到全连接层。此时，全连接层中的网络参数即预设权重矩阵与预设偏置常量已经在机器学习过程中调整为能够满足预设预测精度的值，可以利用训练得到全连接层对多模态融合特征进行预测。

可以理解的是，通过使用视频样本集对全连接层进行训练与迭代的参数调整，能够提高全连接层的预测精度，从而进一步提高利用全连接层进行视频封面帧提取的准确性。

在本申请的一些实施例中，基于图3、图5、图6、图7以及图9，S104之后，还可以执行S105，如下：

S105、在预设视频平台上，将视频封面帧显示在待处理视频对应的预设显示位置上，对待处理视频进行展示与推荐。

本申请实施例中，视频封面提取装置从待处理视频中提取出视频封面帧之后，可以将视频封面帧显示在预设视频平台上对应的预设显示位置上，以对待处理视频进行展示与推荐。

在一些实施例中，当视频封面帧的数量大于1时，视频处理装置可以在预设显示位置上，以轮播方式对待处理视频进行展示与推荐。

可以理解的是，本申请实施例中，根据多模态融合特征提取出的视频封面帧能够更准确地代表待处理视频的视频内容，因此在通过多模态融合特征提取出的视频封面帧对待处理视频进行展示时，可以达到更好的展示与推荐效果。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。

本申请提供一种通过视频封面提取模型从待处理视频中提取出视频封面帧的方法，如图9所示。视频封面提取模型由视频帧特征提取层91、标题文本特征提取层92、多模态融合层93与视频封面预测层94组成。其中，视频帧特征提取层91用于提取视觉模态的特征信息，使用CNN网络910分别对待处理视频对应的视频帧序列vf＝{VF_1,VF_2,...,VF_n}进行特征提取，得到视觉特征序列vf_v＝{vf_v_1,vf_v_2,...,vf_v_n}，其中，VF_i表示视频帧序列中的视频帧，vf_v_i表示视频帧序列中的第i个视频帧经过CNN网络910后所提取出的视觉特征。接着将得到的视觉特征序列vf_v进行特征拼接，得到视觉特征信息vf_vec。这里，视觉特征信息相当于初始视觉特征。并且，为了方便与后续提取的文本特征向量进行融合，视频封面提取模型将视觉特征信息vf_vec传入全连接层912中，将其映射为一个维度为K的视觉特征向量vf，该视觉特征向量vf包含了视频帧中与视觉相关的特征信息。这里，K为预设特征维度。

标题文本特征提取层92用于提取文本模态的特征信息，标题文本特征提取层92按字对待处理视频的视频标题进行分词，得到分词序列vt＝{w_1,w_2,...,w_n}，标题文本特征提取层92使用预训练词向量模型Word2Vec网络920对分词序列进行向量化，得到视频标题对应的词向量序列vt_w＝{vt_w_1,vt_w_2,...,vt_w_n}，接着将词向量序列输入Bi-GRU网络921中，以提取视频标题的视频标题特征序列vt_wv＝{vt_wv_1,vt_wv_2,...,vt_wv_n}，即词向量序列。最后与处理视觉特征向量类似，将所提取的视频标题特征序列进行拼接获得视频标题特征vt_vec，即初始文本特征，并传入全连接层922中，将其映射为一个维度为K的视频标题特征向量vt，该视频标题特征向量vt包含了视频中视频标题的文本特征信息。

多模态融合层93将视频帧特征向量vf和视频标题特征向量vt进行拼接，获得待处理视频对应的多模态融合特征v_vec，随后将多模态融合特征v_vec传入视频封面预测层94中进行视频封面选取。

这里，对维度为K的视频帧特征向量vf和视频标题特征向量vt进行拼接，所得到的多模态融合特征v_vec的特征维度为2K。视频封面预测层94通过全连接层940中如公式(1)所示的预设激活函数，基于多模态融合特征v_vec中的每个特征维度进行非线性变换，输出每个视频帧为视频封面帧的分值即预测分数。激活层941根据公式(2)，将全连接层940的输出的分值转化为每个视频帧为视频封面帧的概率；这样，就可以根据每个视频帧为视频封面帧的概率确定出待处理视频的视频封面帧。

可以理解的是，本申请实施例中，多模态方式可以将视频帧和视频标题两种模态信息引入视频封面提取模型中，从而使得模型可以提取出更符合该视频类型的封面，提高了视频封面提取的准确性。

下面继续说明本申请实施例提供的视频封面提取装置255的实施为软件模块的示例性结构，在一些实施例中，如图2所示，存储在存储器250的视频封面提取装置255中的软件模块可以包括：

视觉模态特征提取模块2551，用于对待处理视频的视频帧序列进行图像特征提取，得到所述视频帧序列对应的视觉特征向量；

文本模态特征提取模块2552，用于对所述待处理视频的视频文本信息进行词向量特征提取，得到所述视频文本信息对应的文本特征向量；

多模态特征融合模块2553，用于将所述视觉特征向量与所述文本特征向量进行特征融合，得到所述待处理视频对应的多模态融合特征；

封面选取模块2554，用于基于所述多模态融合特征，从所述视频帧序列中选取出所述待处理视频的视频封面帧。

在一些实施例中，所述视觉模态特征提取模块2551，还用于对所述视频帧序列中的每个视频帧进行图像特征提取，得到所述每个视频帧对应的图像特征；对所述每个视频帧对应的图像特征进行特征融合，得到所述视频帧序列对应的初始视觉特征；将所述初始视觉特征映射至预设特征维度，得到所述视觉特征向量。

在一些实施例中，所述文本模态特征提取模块2552，还用于对所述视频文本信息进行分词与文本向量转化，得到所述视频文本信息对应的词向量序列；对所述词向量序列中的每个词向量进行文本特征提取，得到所述每个词向量对应的文本特征；对所述每个词向量对应的文本特征进行特征融合，得到所述视频文本信息对应的初始文本特征；将所述初始文本特征映射至预设特征维度，得到所述文本特征向量。

在一些实施例中，所述封面选取模块2554，还用于利用全连接层对所述多模态融合特征进行评分预测，得到所述视频帧序列中每个视频帧对应的预测分数；对所述每个视频帧对应的预测分数进行归一化，得到所述每个视频帧为所述视频封面帧的预测概率；所述预测概率表征所述每个视频帧对应的预测分数与所述视频帧序列对应的总预测分数的比值；根据所述预测概率，从所述视频帧序列中选取出所述视频封面帧。

在一些实施例中，所述封面选取模块2554，还用于通过所述全连接层的预设激活函数，利用所述预设激活函数中的预设权重矩阵与预设偏置常量，对所述多模态融合特征进行非线性变换，得到所述每个视频帧对应的预测分数；所述预设权重矩阵与所述预设偏置常量通过所述全连接层的多模态训练过程确定。

在一些实施例中，所述视频封面提取装置还包括训练模块，所述训练模块，用于所述通过所述全连接层的预设激活函数，利用所述预设激活函数中的预设权重矩阵与预设偏置常量，对所述多模态融合特征进行非线性变换，得到所述每个视频帧对应的预测分数之前，获取视频样本集与初始全连接层；所述初始全连接层的网络参数包含初始权重矩阵与初始偏置常量；所述视频样本集中包括多个样本视频；所述多个样本视频的每个样本视频中包含有标注视频封面帧、样本视频文本信息与样本视频序列；在每次训练过程中，通过所述初始全连接层，基于所述样本视频文本信息与所述样本视频序列对每个样本视频进行多模态视频封面预测，得到每次训练的预测视频封面帧；根据所述预测视频封面帧与所述标注视频封面帧，得到所述每次训练的训练损失；并根据所述训练损失对所述初始权重矩阵与所述初始偏置常量进行迭代更新，当所述训练损失达到预设收敛条件时，结束训练，得到包含所述预设权重矩阵与所述预设偏置常量的所述全连接层。

在一些实施例中，所述文本模态特征提取模块2552，还用于对所述视频文本信息进行分词处理，得到分词序列；利用预训练词向量模型对所述分词序列进行文本向量转化，得到所述词向量序列；所述预训练词向量模型用于将文本信息转化为向量表示。

在一些实施例中，所述视频封面提取装置还包括采集模块，所述采集模块，用于所述对待处理视频的视频帧序列进行图像特征提取，得到所述视频帧序列对应的视觉特征向量之前，获取所述待处理视频对应的原始视频帧序列，作为所述视频帧序列；或者，根据预设采样率对原始视频帧序列进行采样，得到所述视频帧序列；或者，通过预设统计模型对原始视频帧序列进行关键帧预测，根据预测结果从所述原始视频帧序列中选取出多个关键帧，得到所述视频帧序列；所述统计模型用于基于原始视频帧包含的场景画面，预测所述原始视频帧是否为关键帧。

在一些实施例中，所述封面选取模块2554，还用于将所述预测概率排序在前N位的视频帧作为所述视频封面帧；其中，N为大于或等于1的正整数。

在一些实施例中，所述视频封面提取装置还包括展示模块，所述展示模块，用于所述基于所述多模态融合特征，从所述视频帧序列中选取出所述待处理视频的视频封面帧之后，在预设视频平台上，将所述视频封面帧显示在所述待处理视频对应的预设显示位置上，对所述待处理视频进行展示与推荐。

在一些实施例中，所述展示模块，还用于当所述视频封面帧的数量大于1时，在所述预设显示位置上，以轮播方式对所述待处理视频进行展示与推荐。

在一些实施例中，所述视频文本信息包括以下至少之一：视频标题、视频简介和视频标签。

需要说明的是，以上装置实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本发明装置实施例中未披露的技术细节，请参照本发明方法实施例的描述而理解。

本申请实施例提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的视频封面提取方法，例如，如图3、5、6、7中示出的方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

综上所述，通过本申请实施例，可以将多模态融合的思想引入视频封面选取任务中，同时提取视频帧模态的视觉特征向量和视频文本信息模态的文本特征向量，并融合两种模态的特征向量得到多模态融合特征。多模态融合特征同时包含视频的图像信息和文本信息，涵盖了更丰富的视频内容信息量，更有利于进行视频封面的选取，从而提高了视频封面提取的准确性。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种视频封面提取方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对待处理视频的视频帧序列进行图像特征提取，得到所述视频帧序列对应的视觉特征向量，包括：

对所述视频帧序列中的每个视频帧进行图像特征提取，得到所述每个视频帧对应的图像特征；

对所述每个视频帧对应的图像特征进行特征融合，得到所述视频帧序列对应的初始视觉特征；

将所述初始视觉特征映射至预设特征维度，得到所述视觉特征向量。

3.根据权利要求1所述的方法，其特征在于，所述对所述待处理视频的视频文本信息进行词向量特征提取，得到所述视频文本信息对应的文本特征向量，包括：

对所述视频文本信息进行分词与文本向量转化，得到所述视频文本信息对应的词向量序列；

对所述词向量序列中的每个词向量进行文本特征提取，得到所述每个词向量对应的文本特征；

对所述每个词向量对应的文本特征进行特征融合，得到所述视频文本信息对应的初始文本特征；

将所述初始文本特征映射至预设特征维度，得到所述文本特征向量。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述基于所述多模态融合特征，从所述视频帧序列中选取出所述待处理视频的视频封面帧，包括：

利用全连接层对所述多模态融合特征进行评分预测，得到所述视频帧序列中每个视频帧对应的预测分数；

对所述每个视频帧对应的预测分数进行归一化，得到所述每个视频帧为所述视频封面帧的预测概率；所述预测概率表征所述每个视频帧对应的预测分数与所述视频帧序列对应的总预测分数的比值；

根据所述预测概率，从所述视频帧序列中选取出所述视频封面帧。

5.根据权利要求4所述的方法，其特征在于，所述利用全连接层对所述多模态融合特征进行评分预测，得到所述视频帧序列中每个视频帧对应的预测分数，包括：

通过所述全连接层的预设激活函数，利用所述预设激活函数中的预设权重矩阵与预设偏置常量，对所述多模态融合特征进行非线性变换，得到所述每个视频帧对应的预测分数；所述预设权重矩阵与所述预设偏置常量通过所述全连接层的多模态训练过程确定。

6.根据权利要求5所述的方法，其特征在于，所述通过所述全连接层的预设激活函数，利用所述预设激活函数中的预设权重矩阵与预设偏置常量，对所述多模态融合特征进行非线性变换，得到所述每个视频帧对应的预测分数之前，所述方法还包括：

获取视频样本集与初始全连接层；所述初始全连接层的网络参数包含初始权重矩阵与初始偏置常量；所述视频样本集中包括多个样本视频；所述多个样本视频的每个样本视频中包含有标注视频封面帧、样本视频文本信息与样本视频序列；

在每次训练过程中，通过所述初始全连接层，基于所述样本视频文本信息与所述样本视频序列对每个样本视频进行多模态视频封面预测，得到每次训练的预测视频封面帧；

根据所述预测视频封面帧与所述标注视频封面帧，得到所述每次训练的训练损失；并根据所述训练损失对所述初始权重矩阵与所述初始偏置常量进行迭代更新，当所述训练损失达到预设收敛条件时，结束训练，得到包含所述预设权重矩阵与所述预设偏置常量的所述全连接层。

7.根据权利要求3所述的方法，其特征在于，所述对所述视频文本信息进行分词与文本向量转化，得到所述视频文本信息对应的词向量序列，包括：

对所述视频文本信息进行分词处理，得到分词序列；

利用预训练词向量模型对所述分词序列进行文本向量转化，得到所述词向量序列；所述预训练词向量模型用于将文本信息转化为向量表示。

8.根据权利要求1-3任一项所述的方法，其特征在于，所述对待处理视频的视频帧序列进行图像特征提取，得到所述视频帧序列对应的视觉特征向量之前，所述方法还包括：

获取原始视频帧序列；

将所述原始视频帧序列作为所述视频帧序列；

或者，

根据预设采样率对所述原始视频帧序列进行采样，得到所述视频帧序列；

或者，

通过预设统计模型对所述原始视频帧序列进行关键帧预测，根据预测结果从所述原始视频帧序列中选取出多个关键帧，得到所述视频帧序列；所述统计模型用于基于原始视频帧包含的场景画面，预测所述原始视频帧是否为关键帧。

9.根据权利要求4所述的方法，其特征在于，所述根据所述预测概率，从所述视频帧序列中选取出所述视频封面帧，包括：

将所述预测概率排序在前N位的视频帧作为所述视频封面帧；其中，N为大于或等于1的正整数。

10.根据权利要求1或9所述的方法，所述基于所述多模态融合特征，从所述视频帧序列中选取出所述待处理视频的视频封面帧之后，所述方法还包括：

在预设视频平台上，将所述视频封面帧显示在所述待处理视频对应的预设显示位置上，对所述待处理视频进行展示与推荐。

11.根据权利要求10所述的方法，其特征在于，所述在预设视频平台上，将所述视频封面帧显示在所述待处理视频对应的预设显示位置上，对所述待处理视频进行展示与推荐，包括：

当所述视频封面帧的数量大于1时，在所述预设显示位置上，以轮播方式对所述待处理视频进行展示与推荐。

12.根据权利要求1-3任一项所述的方法，其特征在于，所述视频文本信息包括以下至少之一：视频标题、视频简介和视频标签。

13.一种视频封面提取装置，其特征在于，包括：

14.一种电子设备，其特征在于，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至12任一项所述的方法。

15.一种计算机可读存储介质，其特征在于，存储有可执行指令，用于被处理器执行时，实现权利要求1至12任一项所述的方法。