CN110446063A

CN110446063A - 视频封面的生成方法、装置及电子设备

Info

Publication number: CN110446063A
Application number: CN201910684487.2A
Authority: CN
Inventors: 周智昊; 李时坦; 彭江军
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-07-26
Filing date: 2019-07-26
Publication date: 2019-11-12
Anticipated expiration: 2039-07-26
Also published as: CN110446063B

Abstract

本发明提供了一种视频封面的生成方法、装置、电子设备及存储介质；视频封面的生成方法包括：提取视频中的关键帧；对所述关键帧进行图像描述处理，得到所述视频对应的关键帧标签；获取搜索内容，并确定与所述搜索内容匹配的目标视频；确定所述搜索内容与所述目标视频对应的关键帧标签之间的相似度；将相似度满足相似度条件的关键帧标签所对应的关键帧，确定为所述目标视频的封面。通过本发明，能够基于计算机视觉技术，针对各种搜索场景准确高效地生成封面。

Description

视频封面的生成方法、装置及电子设备

技术领域

本发明涉及人工智能技术，尤其涉及一种视频封面的生成方法、装置、电子设备及存储介质。

背景技术

人工智能(AI，Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。计算机视觉技术(CV，Computer Vision)是人工智能的一个应用，主要研究如何使机器“看”的科学，更进一步的说，就是指用计算机代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使计算机处理成为更适合人眼观察或传送给仪器检测的图像。

作为计算机视觉技术的重要分支，通过计算机视觉技术实现的生成视频封面的方式，现已应用至各大视频网站及门户网站中。在相关技术提供的方案中，通常是在人为对视频中的画面进行标注的基础上，再通过计算机视觉技术对多个画面进行处理，选出其中最适合的画面作为封面，并在后续展示时统一展示该封面。上述方案需要付出大量的人工标注成本，并且确定的封面单一，对不同搜索场景的适应性低。

发明内容

本发明实施例提供一种视频封面的生成方法、装置、电子设备及存储介质，能够根据视频准确高效地生成对应的封面。

本发明实施例的技术方案是这样实现的：

本发明实施例提供一种视频封面的生成方法，包括：

提取视频中的关键帧；

对所述关键帧进行图像描述处理，得到所述视频对应的关键帧标签；

获取搜索内容，并确定与所述搜索内容匹配的目标视频；

确定所述搜索内容与所述目标视频对应的关键帧标签之间的相似度；

将相似度满足相似度条件的关键帧标签所对应的关键帧，确定为所述目标视频的封面。

本发明实施例提供一种视频封面的生成装置，包括：

提取模块，用于提取视频中的关键帧；

描述模块，用于对所述关键帧进行图像描述处理，得到所述视频对应的关键帧标签；

视频确定模块，用于获取搜索内容，并确定与所述搜索内容匹配的目标视频；

相似度确定模块，用于确定所述搜索内容与所述目标视频对应的关键帧标签之间的相似度；

封面确定模块，用于将相似度满足相似度条件的关键帧标签所对应的关键帧，确定为所述目标视频的封面。

本发明实施例提供一种电子设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本发明实施例提供的视频封面的生成方法。

本发明实施例提供一种存储介质，存储有可执行指令，用于引起处理器执行时，实现本发明实施例提供的视频封面的生成方法。

本发明实施例具有以下有益效果：

本发明实施例对视频中的关键帧进行图像描述处理得到关键帧标签，根据用户的搜索内容确定目标视频，在目标视频对应的关键帧标签中，将与搜索内容的相似度满足相似度条件的关键帧标签所对应的关键帧，确定为目标视频的封面，本发明实施例通过确定关键帧以及相似度的方式，能够准确高效地生成视频封面，并且对于不同的搜索内容，可生成与其最适合的封面，提升了对于不同搜索场景的适应性。

附图说明

图1是本发明实施例提供的视频封面的生成系统100的一个可选的架构示意图；

图2是本发明实施例提供的视频封面的生成装置的一个可选的架构示意图；

图3是本发明实施例提供的视频封面的生成方法的一个可选的流程示意图；

图4是本发明实施例提供的视频封面的生成方法的另一个可选的流程示意图；

图5是本发明实施例提供的视频封面的生成方法的另一个可选的流程示意图；

图6是本发明实施例提供的图像描述处理过程示意图；

图7是本发明实施例提供的通过相关技术的方案实现的搜索场景示意图；

图8是本发明实施例提供的通过本发明实施例的视频封面的生成方法实现的搜索场景示意图；

图9是本发明实施例提供的视频封面的生成方法的另一个可选的流程示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本发明实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的，不是旨在限制本发明。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

1)关键帧：指视频中的关键画面。

2)图像描述处理：指检测图像中的物体，并且根据图像中物体之间的相互关系，生成描述性文本。

3)标签：指对图像进行图像描述后生成的描述性文本。

4)搜索场景：指根据搜索内容检索出的视频结果集，如视频搜索结果列表。

5)卷积神经网络(Convolutional Neural Networks，CNN)：指一类包含卷积计算且具有深度结构的前馈神经网络，具有权值共享的网络结构，可用于提取图像特征。

6)循环神经网络(Recurrent Neural Network，RNN)：指一类节点定向连接成环的人工神经网络，这种网络的本质特征是在处理单元之间既有内部的反馈连接又有前馈连接，能够在计算过程中体现过程动态特性，相较于前馈神经网络，具有更强的动态行为和计算能力。

发明人在实施本发明的过程中发现，在用户搜索后展示视频时，通常会提供一个视频封面，以便用户了解视频的大概内容，而在相关技术提供的方案中，通常是由后台人员人为对视频中的画面进行标注，再通过机器学习的手段选出其中最适合的画面作为封面，并在后续展示视频时统一展示该封面，上述方案需要后台人员进行大量标注，并且对于一个视频来说，通常只会确定出一个封面，导致对不同搜索场景的适应性低。

本发明实施例提供一种视频封面的生成方法、装置、电子设备及存储介质，能够准确高效地生成视频封面，并且提升对不同搜索场景的适应性。下面说明本发明实施例提供的电子设备的示例性应用。

参见图1，图1是本发明实施例提供的视频封面的生成系统100的一个可选的架构示意图，为实现支撑一个视频封面的生成应用，终端400(示例性示出了终端400-1和终端400-2)通过网络300连接服务器200，服务器200与数据库500连接，其中，网络300可以是广域网或者局域网，又或者是二者的组合。

服务器200用于提取数据库500内的视频的关键帧；对所述关键帧进行图像描述处理，得到所述视频对应的关键帧标签；终端400用于通过图形界面410(示例性示出了图形界面410-1和图形界面410-2)向服务器200发送搜索内容；服务器200用于获取所述搜索内容，并确定与所述搜索内容匹配的目标视频；确定所述搜索内容与所述目标视频对应的关键帧标签之间的相似度；将相似度满足相似度条件的关键帧标签所对应的关键帧，确定为所述目标视频的封面；将目标视频及对应的封面发送至终端400；终端400用于在图形界面410显示所述目标视频的封面，为了便于理解，图1中还在图像界面410中示出了目标视频的视频介绍。

下面说明本发明实施例提供的电子设备的示例性应用。电子设备可以实施为笔记本电脑，平板电脑，台式计算机，机顶盒，移动设备(例如，移动电话，便携式音乐播放器，个人数字助理，专用消息设备，便携式游戏设备)等各种类型的终端设备，也可以实施为服务器。下面，以电子设备为服务器为例进行说明。

参见图2，图2是本发明实施例提供的服务器200(例如，可以是图1所示的服务器200)的架构示意图，图2所示的服务器200包括：至少一个处理器210、存储器250、至少一个网络接口220和用户接口230。服务器200中的各个组件通过总线系统240耦合在一起。可理解，总线系统240用于实现这些组件之间的连接通信。总线系统240除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统240。

处理器210可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口230包括使得能够呈现媒体内容的一个或多个输出装置231，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口230还包括一个或多个输入装置232，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器250可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器250可选地包括在物理位置上远离处理器210的一个或多个存储设备。

存储器250包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Me mory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memor y)。本发明实施例描述的存储器250旨在包括任意适合类型的存储器。

在一些实施例中，存储器250能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统251，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块252，用于经由一个或多个(有线或无线)网络接口220到达其他计算设备，示例性的网络接口220包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

呈现模块253，用于经由一个或多个与用户接口230相关联的输出装置231(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作外围设备和显示内容和信息的用户接口)；

输入处理模块254，用于对一个或多个来自一个或多个输入装置232之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本发明实施例提供的视频封面的生成装置可以采用软件方式实现，图2示出了存储在存储器250中的视频封面的生成装置255，其可以是程序和插件等形式的软件，包括以下软件模块：提取模块2551、描述模块2552、视频确定模块2553、相似度确定模块2554及封面确定模块2555，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。

将在下文中说明各个模块的功能。

在另一些实施例中，本发明实施例提供的视频封面的生成装置可以采用硬件方式实现，作为示例，本发明实施例提供的视频封面的生成装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本发明实施例提供的视频封面的生成方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application SpecificIntegrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Pro grammable Gate Array)或其他电子元件。

本发明实施例提供的视频封面的生成方法可以由各种电子设备执行，例如由上述的服务器执行，也可以由终端设备(例如，可以是图1所示的终端400-1和终端400-2)执行，或者由服务器和终端设备共同执行。

下面将结合上文记载的电子设备的示例性应用和结构，说明电子设备中通过嵌入的视频封面的生成装置而实现视频封面的生成方法的过程。

参见图3，图3是本发明实施例提供的视频封面的生成方法的一个可选的流程示意图，将结合图3示出的步骤进行说明。

在步骤301中，提取视频中的关键帧。

这里，提取视频中的关键画面，即关键帧，此处的视频可以是数据库中的每个视频，也可以是数据库中被选定的视频。

在一些实施例中，可以通过这样的方式实现上述的提取视频中的关键帧：提取所述视频包括的至少两个帧，并遍历所述至少两个帧；确定遍历的当前帧与前一帧之间的亮度差绝对值；当所述亮度差绝对值超过亮度差阈值时，将所述当前帧确定为关键帧。

视频是由连续的帧组成的，对于未确定关键帧的原始视频，首先提取视频包括的至少两个帧，这里，可提取视频包括的所有帧，或者以设定的抽帧频率来提取视频中的帧，抽帧频率如1秒提取5帧。当视频中出现异常物体运动时，帧与帧之间会出现较为明显的差别，故遍历提取的至少两个帧，并确定遍历的当前帧与前一帧之间的亮度差绝对值，其中，对于提取的第一个帧可不纳入遍历范围。

在确定亮度差绝对值时，可先确定当前帧与前一帧在每个像素的亮度差绝对值，并对所有像素的亮度差绝对值进行均值处理，得到当前帧与前一帧之间的亮度差绝对值。当亮度差绝对值超过设定的亮度差阈值时，将当前帧确定为关键帧，其中，亮度差阈值可根据实际应用场景进行设定。例如，帧B的前一帧是帧A，则当帧B与帧A之间的亮度差绝对值未超过亮度差阈值时，继续判断帧B的后一帧与帧B之间的亮度差绝对值是否超过亮度差阈值；当帧B与帧A之间的亮度差绝对值超过亮度差阈值时，将帧B确定为关键帧。通过上述方式，提升了确定出的关键帧的准确性。

在步骤302中，对所述关键帧进行图像描述处理，得到所述视频对应的关键帧标签。

对关键帧进行图像描述处理，具体识别出关键帧中的物体，并根据关键帧中物体之间的相互关系，确定视频对应的关键帧标签。

在步骤303中，获取搜索内容，并确定与所述搜索内容匹配的目标视频。

例如，获取用户输入的搜索内容，并根据搜索内容在数据库中确定匹配的目标视频。本发明实施例对确定目标视频的方式不做限定，比如，可以将数据库内视频的名称与搜索内容进行相似度匹配，将相似度排在前K名的视频确定为目标视频，其中，K为大于0的整数。

在步骤304中，确定所述搜索内容与所述目标视频对应的关键帧标签之间的相似度。

在一些实施例中，根据目标视频对应的关键帧标签，确定搜索内容与关键帧标签之间在文本上的相似度。例如，可以通过这样的方式实现上述的确定所述搜索内容与所述目标视频对应的关键帧标签之间的相似度：确定所述搜索内容的第一句向量，并确定所述目标视频对应的关键帧标签的第二句向量；确定所述第一句向量与所述第二句向量之间的相似度。

例如，可调用Word2vec模型，将搜索内容转化为第一句向量，将目标视频对应的关键帧标签转换为第二句向量，其中，对于每个关键帧标签，均存在一个对应的第二句向量，上述的Word2vec模型是用于产生词向量的语言模型。具体地，通过Word2vec模型对搜索内容进行处理，得到搜索内容对应的至少一个词向量，通过Word2vec模型对关键帧标签进行处理，得到关键帧标签对应的至少一个词向量，然后，将至少一个词向量转化为句向量。本发明实施例对将至少一个词向量转化为句向量的方式不做限定，例如，可对搜索内容对应的所有词向量求平均，得到第一句向量，对关键帧标签对应的所有词向量求平均，得到第二句向量。除上述的调用Word2vec模型之外，还可调用基于Transformer模型的双向编码器表征(Bidirectional Encoder Representations from Transform ers，BERT)模型，确定搜索内容的第一句向量，以及目标视频对应的关键帧标签的第二句向量，本发明实施例对此不做限定。

就对第一句向量与第二句向量进行相似度度量而言，相似度可为第一句向量与第二句向量之间的欧式距离、余弦距离或曼哈顿距离等。将确定出的第一句向量与第二句向量之间的相似度，作为搜索内容与关键帧标签之间的相似度。通过上述的转化为句向量的方式，量化了搜索内容与关键帧标签之间的相似程度，提升了确定出的相似度的准确性。

在步骤305中，将相似度满足相似度条件的关键帧标签所对应的关键帧，确定为所述目标视频的封面。

对于一个目标视频来说，通常对应至少两个关键帧标签，在确定出相似度满足相似度条件的关键帧标签后，将该关键帧标签所对应的关键帧，确定为目标视频的封面，封面用于向用户展示。其中，相似度条件可为数值最高的相似度。

通过发明实施例对于图3的上述示例性实施可知，本发明实施例通过图像描述处理的方式生成视频对应的关键帧标签，在确定与搜索内容匹配的目标视频后，根据搜索内容与目标视频对应的关键帧标签之间的相似度，选取关键帧作为目标视频的封面，能够准确高效地生成视频封面，并且提升了对于不同搜索场景的适应性。

在一些实施例中，参见图4，图4是本发明实施例提供的视频封面的生成方法的另一个可选的流程示意图。在图4中，步骤302之后，还可以在步骤401中，确定所述关键帧标签中与人物相关的子标签。

在图像描述处理后，得到的对关键帧中人物的描述可能与视频中的人物的实际描述并不相符，比如在图像描述中，得到的关键帧中的人物的描述为“男人”、“女人”或“老人”等，但是实际上，这些人物在视频中通常拥有特定的称谓。故在本发明实施例中，对于经图像描述处理得到的关键帧标签，还可进行进一步优化，具体确定关键帧标签中与人物相关的子标签，其中，子标签的内容可预先设定，如设定子标签包括“男人”、“女人”及“老人”等。值得说明的是，本文中的人物并不限定于人类，凡在视频中拥有特定称谓的对象，均在人物所指范畴之内。

在步骤402中，获取所述视频对应的身份信息。

在一些实施例中，获取关键帧所对应的视频的身份信息，如视频来源于某一部电视剧，则可通过检索该电视剧的角色表，得到该电视剧涉及的多个人物的身份信息。本发明实施例中的身份信息至少包括人物的身份图片，以及与身份图片对应的身份标签，身份标签即称谓。

在步骤403中，将所述身份信息与所述关键帧进行身份匹配，确定所述关键帧包括的人物的身份标签。

将身份信息与关键帧进行身份匹配，对身份匹配成功的人物，设置对应的身份标签。

在一些实施例中，可以通过这样的方式实现上述的将所述身份信息与所述关键帧进行身份匹配，确定所述关键帧包括的人物的身份标签：对所述关键帧进行人物识别以确定包括人物的区域，根据识别出的区域从所述关键帧中分割出人物区域图片；确定所述人物区域图片与身份图片之间的人物相似度，其中，所述身份信息包括所述身份图片及身份标签；当所述人物相似度超过人物相似度阈值时，将所述身份图片对应的身份标签，确定为所述人物区域图片对应人物的身份标签。

例如，在进行身份匹配时，可通过训练好的ResNet50模型对关键帧进行人物识别，从关键帧中分割出人物区域图片。除此之外，也可直接将子标签在关键帧中所对应的图像区域截取为人物区域图片。将人物区域图片与获取到的各个身份信息中的身份图片进行相似度匹配，得到人物相似度，并当人物相似度超过人物相似度阈值时，将身份图片对应的身份标签，确定为人物区域图片对应人物的身份标签，其中，人物相似度阈值可根据实际应用场景进行设置。举例来说，识别出的关键帧包括的某个人物区域图片为Picture_A，获取到视频对应的3个身份信息，对应的身份图片依次为Picture_B、Picture_C及Picture_D，最终确定出Picture_A与Picture_D之间的人物相似度超过人物相似度阈值，则将Picture_D对应的身份标签确定为Picture_A对应人物的身份标签。通过上述的人物识别及确定人物相似度的方式，提升了确定身份标签的准确性。

在步骤404中，当所述身份标签与所述子标签在所述关键帧中对应的人物一致时，将所述关键帧标签中的所述子标签更新为所述身份标签。

在一些实施例中，当身份标签与子标签在关键帧中对应同一个人物时，将关键帧标签中的该子标签更新为该身份标签，从而使得关键帧标签更贴近于视频本身。举例来说，某个关键帧的关键帧标签为“男人坐在草地上”，其中的子标签为“男人”，根据身份信息对该关键帧进行身份匹配后，确定关键帧包括的人物的身份标签为“人物A”，当子标签与身份标签对应同一个人物时，对关键帧标签进行更新，得到“人物A坐在草地上”。

值得说明的是，在判断身份标签与子标签在关键帧中对应的人物是否一致时，可首先确定身份标签在关键帧中对应的图像区域，以及子标签在关键帧中对应的图像区域，并确定两个图像区域的重合度，当重合度超过重合度阈值，如80％时，即可确定两个标签对应的人物一致。

在图4中，步骤404之后，还可以在步骤405中，将关键帧标签一致的至少两个关键帧划分为一类。

对于一个视频来说，通常可提取出至少两个关键帧，在对关键帧进行了图像描述处理得到视频对应的关键帧标签后，可能存在至少两个关键帧，其对应的关键帧标签一致的情况。对于该情况，将关键帧标签一致的至少两个关键帧划分为一类。

在步骤406中，对各类关键帧中的关键帧进行图像质量评分。

本发明实施例对图像质量评分的方式不做限定，例如，可根据关键帧的清晰度、纯色占比、人脸占比以及变形幅度进行图像质量评分。

在步骤407中，保留各类关键帧中评分最高的关键帧。

得到各类关键帧中的每个关键帧的评分后，仅保留各类关键帧中评分最高的关键帧，至于各类关键帧中评分不是最高的其他关键帧，可做删除处理。

值得说明的是，图4示出的执行顺序仅为示例，实际上，步骤405～步骤407可在步骤404之后执行，也可在步骤401之前执行，本发明实施例对此不做限定。

通过发明实施例对于图4的上述示例性实施可知，本发明实施例将关键帧标签中的子标签，更新为与同一人物对应的身份标签，使得关键帧描述更加贴合视频的内容，也提升了关键帧描述与可能出现的搜索内容之间的关联性，并且，对于视频对应的每一种关键帧描述，仅保留与关键帧描述对应的且最优质的一个关键帧，提升了后续的展示效果。

在一些实施例中，参见图5，图5是本发明实施例提供的视频封面的生成方法的另一个可选的流程示意图。在图5中，步骤302包括：在步骤501中，通过卷积神经网络模型对所述关键帧进行特征提取处理，得到所述关键帧的图像特征。

在本发明实施例中，可通过CNN模型+RNN模型的方式，对关键帧进行图像描述，生成关键帧的关键帧标签。具体地，由于CNN模型适用于图片的建模，而RNN模型适用于自然语言处理，故先通过CNN模型对关键帧的信息进行卷积，从而实现特征提取，得到图像特征。

在步骤502中，通过循环神经网络模型对所述图像特征进行文本转换处理，得到所述图像特征对应的关键帧标签。

将CNN模型的输出结果，即图像特征输入至训练好的RNN模型，通过RNN模型对图像特征进行文本转换处理，得到图像特征对应的关键帧标签。

在一些实施例中，还包括：获取样本帧及对应的样本帧标签；通过卷积神经网络模型对所述样本帧进行特征提取处理，得到所述样本帧的图像特征；通过循环神经网络模型对所述图像特征进行文本转换处理，得到所述图像特征对应的预测标签；确定所述预测标签与所述样本帧标签之间的误差，并将所述误差在所述循环神经网络模型及所述卷积神经网络模型中进行反向传播，以及在反向传播的过程中，调整所述循环神经网络模型及所述卷积神经网络模型的权重参数。

在本发明实施例中，还可对CNN模型+RNN模型进行训练，使得训练后的CNN模型+RNN模型更适用于本发明实施例中的图像描述处理过程。具体地，获取样本帧及对应的样本帧标签，此处的样本帧标签是指人为标注的指示样本帧内容的标签。然后，开始进行前向传播，具体通过CNN模型对样本帧进行特征提取处理，得到样本帧的图像特征，并通过RNN模型对图像特征进行文本转换处理，得到图像特征对应的预测标签。样本帧标签与预测标签之间通常存在误差，将该误差在RNN模型及CNN模型中进行反向传播，在反向传播的过程中，调整RNN模型的每个层及CNN模型的每个层的权重参数，以使调整后的CNN模型及RNN模型对样本帧进行处理的误差减小。

通过发明实施例对于图5的上述示例性实施可知，本发明实施例通过CNN模型+RNN模型的方式，提升了生成的关键帧标签的准确性。

为了便于理解本发明实施例的内容，本发明实施例提供了如图6所示的图像描述处理示意图。在图6中，首先将关键帧输入至CNN模型，通过CNN模型对关键帧进行特征提取处理，得到图像特征。然后，RNN模型开始进行文本转换处理，具体读取CNN模型输出的图像特征，并根据图像特征逐个生成文本格式的子标签1及子标签2，最终将子标签1和子标签2组合为关键帧标签，结束图像描述处理的流程。RNN模型的网络结构包括输入层、隐藏层及输出层，图6中的W_hi、W_hh、W_hx及W_oh均为权重参数，W_hh为隐藏层与隐藏层之间的权重参数，W_hx为输入层与隐藏层之间的权重参数，W_oh为隐藏层与输出层之间的权重参数，W_hi则是与CNN模型相关的权重参数。可通过样本帧及样本帧标签对CNN模型及RNN模型中的权重参数进行更新，以提升CNN模型及RNN模型的适用性。

为了便于理解本发明实施例的内容，本发明实施例提供了如图7所示的通过相关技术的方案实现的搜索场景示意图。在图7的前端界面中，用户输入的搜索内容71为“三国曹操给赵云评价”，通过该搜索内容71，得到目标视频1、目标视频2及目标视频3，分别由视频源1、视频源2及视频源3提供，各个目标视频均展示有封面，其中，封面仅作示例，不具有实际含义。在相关技术中，目标视频的封面是预先设置好的一张画面，举例来说，无论用户输入何种搜索内容，只要确定出目标视频为目标视频1，那么目标视频1的封面只会是设置好的一张画面，封面的确定过程与搜索内容无关，导致确定的封面对不同搜索场景的适应性较差。

基于图7，本发明实施例还提供了如图8所示的通过本发明实施例的视频封面的生成方法实现的搜索场景示意图。在图8中的左图中，根据同样的搜索内容71进行搜索，得到目标视频1、目标视频2及目标视频3，目标视频1、目标视频2及目标视频3的封面均是目标视频中最贴近搜索内容的关键帧，即该关键帧的关键帧标签与搜索内容之间的相似度满足相似度条件。相比于图7，目标视频1的封面进行了更新，从而更贴近于搜索内容，提升了用户体验。在图8的右图中，根据搜索内容81“三国赵云”，得到目标视频1、目标视频4及目标视频5，分别由视频源1、视频源4及视频源5提供。虽然根据搜索内容71和搜索内容81均得到了目标视频1，但是由于搜索内容的不同，确定的目标视频1的封面也不同。

下面，将说明本发明实施例在一个实际的应用场景中的示例性应用。

本发明实施例提供了如图9所示的视频封面的生成方法的另一个可选的流程示意图，为了便于理解，以编号的形式对图9进行说明：

在①中，使用帧间差分法提取视频中的关键帧，具体提取视频包括的至少两个帧，并遍历提取的至少两个帧，在遍历过程中，确定遍历的当前帧与前一帧之间的亮度差绝对值，并当亮度差绝对值超过亮度差阈值时，将当前帧确定为关键帧。

在②中，使用模型对每个关键帧进行图像描述处理，生成关键帧标签，此处的模型可以是CNN模型+RNN模型。其中，在已有CNN模型+RNN模型的基础上，可根据样本帧及对应的样本帧标签对CNN模型+RNN模型进行训练，调整模型中的权重参数，从而提升模型的适用性。

在③中，将生成的关键帧标签进行分类。由于不同关键帧所对应的关键帧标签可能一致，故将对应相同关键帧标签的至少两个关键帧分为一类，从而便于匹配。在此基础上，还可对一类关键帧中的每个关键帧进行图像质量评分，并仅保留评分该类关键帧中评分最高的关键帧。

在④中，用户输入文本，即搜索内容。

在⑤中，根据搜索内容确定目标视频，并将搜索内容与目标视频对应的关键帧标签做相似度匹配，得到相似度。其中，视频通常对应至少两个关键帧标签，故得到的相似度通常也为至少两个。

在⑥中，将相似度最高的关键帧作为目标视频的封面，展示给用户。

通过发明实施例对于图9的上述示例性实施可知，本发明实施例通过图像描述处理的方式生成关键帧的关键帧标签，在根据搜索内容确定目标视频后，根据搜索内容与目标视频对应的关键帧标签之间的相似度，选取关键帧作为目标视频的封面，准确高效地生成了视频封面，并且提升了对于不同搜索场景的适应性。

下面继续说明本发明实施例提供的视频封面的生成装置255的实施为软件模块的示例性结构，在一些实施例中，如图2所示，存储在存储器250的视频封面的生成装置255中的软件模块可以包括：提取模块2551，用于提取视频中的关键帧；描述模块2552，用于对所述关键帧进行图像描述处理，得到所述视频对应的关键帧标签；视频确定模块2553，用于获取搜索内容，并确定与所述搜索内容匹配的目标视频；相似度确定模块2554，用于确定所述搜索内容与所述目标视频对应的关键帧标签之间的相似度；封面确定模块2555，用于将相似度满足相似度条件的关键帧标签所对应的关键帧，确定为所述目标视频的封面。

在一些实施例中，视频封面的生成装置255，还包括：子标签确定模块，用于确定所述关键帧标签中与人物相关的子标签；身份获取模块，用于获取所述视频对应的身份信息；身份匹配模块，用于将所述身份信息与所述关键帧进行身份匹配，确定所述关键帧包括的人物的身份标签；更新模块，用于当所述身份标签与所述子标签在所述关键帧中对应的人物一致时，将所述关键帧标签中的所述子标签更新为所述身份标签。

在一些实施例中，身份匹配模块，还用于：对所述关键帧进行人物识别以确定包括人物的区域，根据识别出的区域从所述关键帧中分割出人物区域图片；确定所述人物区域图片与身份图片之间的人物相似度，其中，所述身份信息包括所述身份图片及身份标签；当所述人物相似度超过人物相似度阈值时，将所述身份图片对应的身份标签，确定为所述人物区域图片对应人物的身份标签。

在一些实施例中，描述模块2552，还用于：通过卷积神经网络模型对所述关键帧进行特征提取处理，得到所述关键帧的图像特征；通过循环神经网络模型对所述图像特征进行文本转换处理，得到所述图像特征对应的关键帧标签。

在一些实施例中，视频封面的生成装置255，还包括：样本获取模块，用于获取样本帧及对应的样本帧标签；帧处理模块，用于通过卷积神经网络模型对所述样本帧进行特征提取处理，得到所述样本帧的图像特征；特征处理模块，用于通过循环神经网络模型对所述图像特征进行文本转换处理，得到所述图像特征对应的预测标签；反向传播模块，用于确定所述预测标签与所述样本帧标签之间的误差，并将所述误差在所述循环神经网络模型及所述卷积神经网络模型中进行反向传播，以及在反向传播的过程中，调整所述循环神经网络模型及所述卷积神经网络模型的权重参数。

在一些实施例中，视频封面的生成装置255，还包括：分类模块，用于将关键帧标签一致的至少两个关键帧划分为一类；评分模块，用于对各类关键帧中的关键帧进行图像质量评分；保留模块，用于保留各类关键帧中评分最高的关键帧。

在一些实施例中，相似度确定模块2554，还用于：确定所述搜索内容的第一句向量，并确定所述目标视频对应的关键帧标签的第二句向量；确定所述第一句向量与所述第二句向量之间的相似度。

在一些实施例中，提取模块2551，还用于：提取所述视频包括的至少两个帧，并遍历所述至少两个帧；确定遍历的当前帧与前一帧之间的亮度差绝对值；当所述亮度差绝对值超过亮度差阈值，将所述当前帧确定为关键帧。

本发明实施例提供一种存储有可执行指令的存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本发明实施例提供的方法，例如，如图3、图4、图5或图9示出的视频封面的生成方法。

在一些实施例中，存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

综上所述，通过本发明实施例，能够准确高效地生成合适的视频封面，并且对于不同的搜索内容，可生成与其最匹配的封面，提升了对于不同搜索场景的适应性。

以上所述，仅为本发明的实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本发明的保护范围之内。

Claims

1.一种视频封面的生成方法，其特征在于，包括：

提取视频中的关键帧；

获取搜索内容，并确定与所述搜索内容匹配的目标视频；

2.根据权利要求1所述的视频封面的生成方法，其特征在于，所述对所述关键帧进行图像描述处理，得到所述视频对应的关键帧标签之后，还包括：

确定所述关键帧标签中与人物相关的子标签；

获取所述视频对应的身份信息；

将所述身份信息与所述关键帧进行身份匹配，确定所述关键帧包括的人物的身份标签；

当所述身份标签与所述子标签在所述关键帧中对应的人物一致时，将所述关键帧标签中的所述子标签更新为所述身份标签。

3.根据权利要求2所述的视频封面的生成方法，其特征在于，所述将所述身份信息与所述关键帧进行身份匹配，确定所述关键帧包括的人物的身份标签，包括：

对所述关键帧进行人物识别以确定包括人物的区域，根据识别出的区域从所述关键帧中分割出人物区域图片；

确定所述人物区域图片与身份图片之间的人物相似度，其中，所述身份信息包括所述身份图片及身份标签；

当所述人物相似度超过人物相似度阈值时，将所述身份图片对应的身份标签，确定为所述人物区域图片对应人物的身份标签。

4.根据权利要求1所述的视频封面的生成方法，其特征在于，所述对所述关键帧进行图像描述处理，得到所述视频对应的关键帧标签，包括：

通过卷积神经网络模型对所述关键帧进行特征提取处理，得到所述关键帧的图像特征；

通过循环神经网络模型对所述图像特征进行文本转换处理，得到所述图像特征对应的关键帧标签。

5.根据权利要求4所述的视频封面的生成方法，其特征在于，还包括：

获取样本帧及对应的样本帧标签；

通过卷积神经网络模型对所述样本帧进行特征提取处理，得到所述样本帧的图像特征；

通过循环神经网络模型对所述图像特征进行文本转换处理，得到所述图像特征对应的预测标签；

确定所述预测标签与所述样本帧标签之间的误差，并将所述误差在所述循环神经网络模型及所述卷积神经网络模型中进行反向传播，以及

在反向传播的过程中，调整所述循环神经网络模型及所述卷积神经网络模型的权重参数。

6.根据权利要求1所述的视频封面的生成方法，其特征在于，所述对所述关键帧进行图像描述处理，得到所述视频对应的关键帧标签之后，还包括：

将关键帧标签一致的至少两个关键帧划分为一类；

对各类关键帧中的关键帧进行图像质量评分；

保留各类关键帧中评分最高的关键帧。

7.根据权利要求1所述的视频封面的生成方法，其特征在于，所述确定所述搜索内容与所述目标视频对应的关键帧标签之间的相似度，包括：

确定所述搜索内容的第一句向量，并确定所述目标视频对应的关键帧标签的第二句向量；

确定所述第一句向量与所述第二句向量之间的相似度。

8.根据权利要求1至7任一项所述的视频封面的生成方法，其特征在于，所述提取视频中的关键帧，包括：

提取所述视频包括的至少两个帧，并遍历所述至少两个帧；

确定遍历的当前帧与前一帧之间的亮度差绝对值；

当所述亮度差绝对值超过亮度差阈值时，将所述当前帧确定为关键帧。

9.一种视频封面的生成装置，其特征在于，包括：

提取模块，用于提取视频中的关键帧；

10.一种电子设备，其特征在于，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至8任一项所述的视频封面的生成方法。