CN112752121B

CN112752121B - 一种视频封面生成方法及装置

Info

Publication number: CN112752121B
Application number: CN202010455718.5A
Authority: CN
Inventors: 邵和明
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-05-26
Filing date: 2020-05-26
Publication date: 2023-06-09
Anticipated expiration: 2040-05-26
Also published as: CN112752121A

Abstract

本申请涉及人工智能技术领域，提供一种视频封面生成方法及装置，用于提升视频封面的展示效果。该方法包括：响应于针对视频进行的封面生成操作，显示封面生成界面；其中，所述封面生成界面包括封面背景，以及与所述视频关联的至少一个关键词；响应于针对所述封面生成界面中关键词的编辑操作，显示封面预览图；其中，所述封面预览图包括所述封面背景，以及展示在所述封面背景区域内的关键词；响应于针对所述封面预览图的确认操作，生成视频封面。

Description

一种视频封面生成方法及装置

技术领域

本申请涉及计算机技术领域，尤其涉及人工智能技术领域，提供一种视频封面生成方法及装置。

背景技术

为了吸引用户点击视频，各种类型的视频都可以设置视频封面，视频比如短视频或直播视频等，用户可以点击视频封面，观看视频。

目前，生成视频封面的方式一般是抽取视频中的关键帧，将关键帧作为视频封面，但是这种方式生成的视频封面仅片面地提取了视频中的某一帧，生成的视频封面仅能片面地反应视频的部分内容，无法让用户直观地了解视频内容的核心看点，即视频封面的展示效果不佳。

发明内容

本申请实施例提供一种视频封面生成方法及装置，用于提升生成的视频封面的展示效果。

一方面，提供了一种视频封面生成方法，包括：

响应于针对视频进行的封面生成操作，显示封面生成界面；其中，所述封面生成界面包括封面背景，以及与所述视频关联的至少一个关键词；

响应于针对所述封面生成界面中关键词的编辑操作，显示封面预览图；其中，所述封面预览图包括所述封面背景，以及展示在所述封面背景区域内的目标词，所述目标词是从所述至少一个关键词中选择的；

响应于针对所述封面预览图的确认操作，生成视频封面。

另一方面，提供一种视频封面生成方法，包括：

根据客户端发送的针对视频进行的封面生成请求，获得所述视频的至少一个关键词；

将所述至少一个关键词发送给所述客户端，以使所述客户端根据一方面中任一所述的方法生成视频封面。

又一方面，提供一种视频封面生成装置，包括：

第一显示模块，用于响应于针对视频进行的封面生成操作，显示封面生成界面；其中，所述封面生成界面包括封面背景，以及与所述视频关联的至少一个关键词；

第二显示模块，用于响应于针对所述封面生成界面中关键词的编辑操作，显示封面预览图；其中，所述封面预览图包括所述封面背景，以及展示在所述封面背景区域内的目标词，所述目标词是从所述至少一个关键词中选择的；

生成模块，用于响应于针对所述封面预览图的确认操作，生成视频封面。

在一种可能的实施例中，所述封面生成界面包括封面预览区域和关键词展示区域，所述第一显示模块具体用于：

响应于针对视频进行的封面生成操作，在所述封面预览区域中显示所述封面背景；

在所述关键词展示区域，展示所述至少一个关键词；或者在所述封面背景上将所述至少一个关键词中的部分关键词作为目标词展示，并在所述关键词展示区域展示另一部分关键词，其中，所述部分关键词与所述视频的关联度高于所述另一部分关键词与所述视频的关联度。

在一种可能的实施例中，所述第二显示模块具体用于：

响应于针对所述至少一个关键词中目标词的选择操作，更新所述封面背景上显示的目标词，并显示目标词编辑界面；

响应于通过所述目标词编辑界面输入的目标词编辑操作，在所述封面背景上显示编辑后的目标词。

在一种可能的实施例中，所述响应于针对所述至少一个关键词中的目标词的选择操作，更新所述封面背景上显示的目标词，具体包括如下之一或者任意组合：

响应于将所述关键词展示区域显示的关键词的选中操作，将选中的关键词作为目标词显示到所述封面背景上；

响应于针对所述封面背景上显示的目标词的删除操作，在所述封面背景上删除对应的目标词。

在一种可能的实施例中，所述目标词编辑界面包括如下一种或几种的组合：

用于修改目标词的内容编辑区域、用于修改目标词显示样式的样式编辑区域、用于修改目标词显示属性的属性编辑区域，或用于修改目标词在所述封面背景中显示位置的位置编辑区域。

在一种可能的实施例中，所述第一显示模块还用于：

响应于针对视频进行的封面生成操作，在封面生成界面上显示至少一个与所述视频关联的背景图像；

响应于从至少一个背景图像中选择封面背景的选择操作，将所述封面背景显示为所选择的背景图像。

在一种可能的实施例中，所述第一显示模块还用于：

响应于重新选择背景图像的更改操作，将所述封面背景更新显示为重新选择的背景图像，以及根据所述至少一个关键词与更新后的背景图像的关联度，更新显示在封面背景上的目标词。

在一种可能的实施例中，所述封面背景通过如下任一方式获得：

确定与所述视频关联的多个背景图像；

将与预测的目标浏览者的用户特征信息相匹配的背景图像确定为封面背景，所述用户特征信息包括用户画像和情绪信息中的一个或者两个。

在一种可能的实施例中，所述目标词通过如下任一方式获得：

从与所述视频关联的关键词中，确定出与预测的目标浏览者的用户特征信息相匹配的关键词；其中，所述用户特征信息包括用户画像和情绪信息中的一个或者两个；

将与用户特征信息相匹配的关键词确定为目标词。

在一种可能的实施例中，所述第二显示模块还用于：

发布所述视频，以及所述视频封面；

获得各实际浏览者针对所述视频进行的互动操作信息；并

根据获得的互动操作信息，获得与互动操作信息相匹配的封面背景和目标词；

更新所述视频封面的封面背景和目标词。

在一种可能的实施例中，所述至少一个关键词包括如下的一种或几种的组合：

从所述视频的标题中识别的关键词；或，

从所述视频关联的字幕中识别的关键词；或，

将所述视频关联的音频转换为文字，并从转换后的文字中识别出的关键词；或，

对视频中对各视频帧中的目标对象进行识别，并根据识别出的目标对象获得的用于描述目标对象的关键词。

在一种可能的实施例中，所述第一显示模块具体用于：

响应于针对视频进行的封面生成操作，从服务器获取所述视频的至少一个关键词；

在所述封面生成界面显示视频封面背景，以及所述至少一个关键词。

又一方面，提供一种视频封面生成装置，包括：

获得模块，用于根据客户端发送的针对视频进行的封面生成请求，获得所述视频的至少一个关键词；

收发模块，用于将所述至少一个关键词发送给所述客户端，以使所述客户端根据一方面中任一所述的方法生成视频封面。

从所述视频的标题中识别的关键词；或，

从所述视频关联的字幕中识别的关键词；或，

另一方面，提供一种计算机设备，包括：

至少一个处理器，以及

与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述至少一个处理器通过执行所述存储器存储的指令实现前文中任一项所述的视频封面生成方法。

另一方面，提供一种存储介质，所述存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行前文中任一项所述的视频封面生成方法。

由于本申请实施例采用上述技术方案，至少具有如下技术效果：

本申请实施例中，利用视频关联的关键词以及封面背景生成视频封面，这样生成的视频封面会包括该视频关联的关键词，使得用户可以根据视频封面上的关键词直观地了解视频的内容，提升视频封面的展示效果。且，在生成视频封面的过程中，会实时地展示显示视频封面预览图，使得用户可以实时地查看视频封面编辑效果，提升用户使用体验。且，在生成视频封面过程中，无需用户去创建视频关联的关键词等，相较于用户创建关键词的方式，能够简化用户的操作。

附图说明

图1为相关技术的一种生成视频封面的示例图；

图2为本申请实施例提供的生成视频封面设备的结构示意图；

图3为本申请实施例提供的一种生成视频封面方法的应用场景示意图；

图4为本申请实施例提供的一种客户端和服务器之间的交互示意图一；

图5为本申请实施例提供的一种上传视频的界面示例图；

图6为本申请实施例提供的一种封面生成界面的示例图一；

图7为本申请实施例提供的一种封面生成界面的示例图二；

图8为本申请实施例提供的一种封面生成界面的示例图三；

图9为本申请实施例提供的一种目标词编辑界面的示例图一；

图10为本申请实施例提供的一种目标词编辑界面的示例图二；

图11为本申请实施例提供的一种客户端和服务器之间的交互示意图二；

图12为本申请实施例提供的一种生成视频封面装置的结构示意图一；

图13为本申请实施例提供的一种生成视频封面装置的结构示意图二；

图14为本申请实施例提供的一种计算机设备的结构示意图一；

图15为本申请实施例提供的一种计算机设备的结构示意图二。

具体实施方式

为了更好的理解本申请实施例提供的技术方案，下面将结合说明书附图以及具体的实施方式进行详细的说明。

为了便于本领域技术人员更好地理解本申请实施例中的技术方案，下面对本申请实施例涉及的专业术语进行介绍。

视频：泛指由多个视频帧组成的视频，比如短视频或直播视频等，本申请不限制视频的具体类型等。

视频封面：是指用于展示视频概要的图像，视频封面可以是静态的图像，静态的视频封面又可以称为静态视频封面。视频封面也可以是动态的视频片段，动态的视频封面又可以称为动态视频封面。例如视频平台在视频列表封面展示的图像，展示的视频封面利于用户大致了解直播内容。

关键词和目标词：本申请中，关键词又可以称为视频的标签，是指从视频相关的内容中提取出的用于体现视频关键内容的词，比如提取视频标题中的关键词，比如可以识别视频帧的目标对象，识别视频的字幕，比如视频的相关音频，音频比如视频关联的插曲，视频关联的配音等，配音包括旁白以及对白等，识别视频的弹幕等中一种或多种方式获得的。关键词泛指各类语言的词，包括但不限于中文、英文、韩文等。本申请中，目标词是指在生成视频封面时，从关键词中选择的并显示到视频封面上的关键词。

封面背景：是指视频封面的背景，该封面背景可以是透明背景、或纯色背景、或视频中的视频帧等，具体不限制封面背景的类型。封面背景可以是静态的图像，也可以是动态的视频片段。

封面预览图：是指视频封面的预览图，封面预览图与视频封面在图像内容相同，但是图像尺寸可能相同，也可能不同。可选的，封面预览图是处于编辑状态的图像，比如用户对封面预览图中的封面背景，或者是关键词进行修改等。

样式：是指关键词显示的样式，比如关键词的字体显示样式、关键词的特效显示样式等。

属性：是指关键词的属性，属性比如字体的颜色、字体的大小等。

位置：是指关键词显示的位置，可以是关键词显示的区域，或者可以是关键词在某个区域显示的具体位置，比如关键词显示在封面预览区域、或关键词显示在封面预览区域中的居中位置等。比如，关键词指示信息还包括用于指示关联度大于或等于阈值的关键词显示在封面预览区域的位置显示信息，还包括用于指示关联度小于阈值的关键词显示在在关键词展示区域的位置显示信息。

目标对象：是指视频帧中可识别的图像内容，包括视频帧中的人物、动物、物体、事件等一种或多种。描述目标对象的关键词与识别出的内容相关，例如当目标对象为人时，关键词可以是该人在视频中的角色名称，该人对应的配音演员，或者该人的演员名称等中的一种或多种。当目标对象为事物时，根据识别结果获得的关键词包括该事物对应的事物分类等。当目标对象为动物时，根据识别结果获得的关键词包括该动物对应的动物名称。事件泛指从图像中识别出的事件，比如识别出视频帧中的战斗事件等。

封面生成界面：本申请中是指用于生成视频封面的界面。该封面生成界面中包括关键词展示区域和封面预览区域。关键词展示区域是指在封面生成界面中展示关键词的区域。关键词展示区域可以展示视频关联的至少一个关键词中全部或部分的关键词。封面预览区域是指封面生成界面中展示封面预览图的区域，封面预览区域可以展示视频关联的至少一个关键词中全部或部分的关键词。作为一种实施例，封面预览区域的尺寸可以是固定的，或者可以是根据视频的尺寸确定的，或者封面预览区域的尺寸比例可以是与视频的尺寸比例相同。可选的，关键词展示区域的尺寸可以是固定的或者不固定的。作为一种实施例，用户执行不同的操作，在封面预览区域和关键词展示区域中显示的关键词会发生变化。比如用户将关键词展示区域中的关键词移动到封面预览区域，该关键词将不在关键词展示区域将显示，该关键词会在在封面预览区域显示。

终端：可以是移动终端、固定终端或便携式终端，例如移动手机、站点、单元、设备、多媒体计算机、多媒体平板、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、个人通信系统(PCS)设备、个人导航设备、个人数字助理(PDA)、音频/视频播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或者其任意组合，包括这些设备的配件和外设或者其任意组合。

服务器：可以是实体服务器，也可以是云服务器，服务器可以是一个服务器，或者服务器集群。

应当说明的是，本申请实施例涉及的“至少一个”表示一个或多个，“多个”表示两个或两个以上。

下面对本申请实施例的设计思想进行介绍。

在相关技术中，例如，请参照图1，在用户上传视频之后，设备可以提取视频中的各关键帧100，用户可以选择将一关键帧100作为视频的视频封面，这样生成的视频封面仅能够反映视频的局部内容，并不能直观地反映视频的核心内容。

为此，本申请实施例提供一种视频封面生成方法，该方法在生成视频封面时，先获得视频关联的关键词，基于视频关联的关键词生成视频封面，即生成的视频封面是包括视频关联的关键词，因此，用户查看视频封面时，可以通过视频封面中的关键词直观地了解视频的主要内容，提升视频封面的展示效果。且，在生成视频封面的过程中，用户可以对关键词进行编辑，使得生成的视频封面更满足用户的个性化需求，使得生成视频封面的过程更具个性化，以及提升了生成视频封面的趣味性。且，在编辑视频封面的过程中，可以实时地展示封面预览图，即用户实时查看编辑效果，提升用户体验。

进一步地，封面生成界面包括封面预览区域和关键词展示区域，封面背景展示在封面预览区域。在对目标词进行编辑的过程中，可以基于编辑操作实时地更新封面背景上的目标词，以便于用户更直观地查看封面编辑效果。且，用户不仅可以对选择视频封面上要展示的关键词，还能对要展示的关键词的样式、属性、位置等进行编辑，便于生成丰富的视频封面，且能生成更加个性化的视频封面。

进一步地，视频关联的关键词包括从视频的视频标题中提取的关键词，从视频关联的字幕中提取的关键词，从视频关联的音频中提取的关键词，以及对视频帧中的目标对象进行识别获得的关键词等中的一种或多种，即能够基于视频的各方面的视频的相关信息，生成关键词，使得生成的关键词更加全面，更能全面地反应视频的核心内容。

基于上述设计思想，下面对本申请实施例涉及的视频封面生成方法的应用场景进行示例介绍。

本申请实施例涉及的视频封面生成方法可以应用于处理视频过程中，或者应用于视频发布过程中等。该方法可以由视频封面生成设备执行，视频封面生成设备可以通过终端实现，终端可以参照前文论述的内容，此处不再赘述。可以预见的是，视频封面生成设备可以是能够支持任意类型的针对用户的接口(例如可穿戴设备)等。视频封面生成设备还可通过终端中客户端实现，客户端比如预装在终端中的客户端，网页版的客户端，或者嵌入在第三方应用中的客户端等，客户端比如视频处理客户端，或视频发布客户端等。

请参照图2，表示执行视频封面生成设备的结构示意图，该视频封面生成设备200包括一个或多个输入设备201、一个或多个处理器202、一个或多个存储器203和一个或多个输出设备204。

输入设备201用于提供输入接口，以获取外界设备/用户输入的视频等。在获得视频之后，输入设备201将该视频发送给处理器202，处理器202利用存储器203中存储的程序指令，生成该视频的视频封面，通过输出设备204输出视频封面。

其中，输入设备201可以包括但不限于物理键盘、功能键、轨迹球、鼠标、触摸屏、操作杆等中的一种或多种。处理器202可以是一个中央处理单元(central processing unit，CPU)，或者为数字处理单元等。存储器203可以是易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储器203也可以是非易失性存储器(non-volatile memory)，例如只读存储器，快闪存储器(flash memory)，硬盘(hard diskdrive，HDD)或固态硬盘(solid-state drive，SSD)、或者存储器203是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器203可以是上述存储器的组合。输出设备204例如显示器、扬声器和打印机等。

结合上述内容，下面以视频封面生成设备200为终端为例，对视频封面生成方法的场景进行具体示例。

第一种可能的应用场景：

请参照图3，该应用场景中包括终端310、服务器320和数据库330，终端310中安装有客户端311。客户端311和服务器320之间可以相互通信，通信方式可以有多种，本申请不做具体限制。服务器320可以访问数据库330。

在用户准备生成视频封面时，用户可以上传或拍摄视频，客户端311将视频发送给服务器320，服务器320分析视频关联的关键词，或者服务器320从数据库330中获取视频关联的关键词，并将关键词发送给客户端311，客户端311根据用户对关键词的操作，生成视频封面。

第二种可能的应用场景：

终端310在获得视频之后，确定视频中的关键词，并在视频封面生成界面上显示关键词和封面背景。终端310根据对关键词的编辑操作，生成视频封面。该场景中，可以由终端310分析视频中的关键词，以及基于这些关键词生成视频封面，简化终端310与服务器320之间的交互过程。

无论哪种情况下，客户端311在生成视频封面之后，均可以将视频封面发送给服务器320，由服务器320下发给其它终端310，使得其它终端310上能够展示视频封面，以便于各用户基于该视频封面了解视频的内容。在该场景中，是由服务器320获取视频中关键词，相对可以减少客户端311的处理量。

下面基于上述第一种可能的应用场景，对本申请实施例中视频封面生成方法进行介绍。

请参照图4，该方法包括：

S401，客户端311获取视频的相关信息。

其中，相关信息泛指与视频相关的信息，包括视频中的各视频帧、视频标题、视频关联的音频、字幕、或弹幕中的一种或多种组合。

在用户准备制作某个视频的视频封面时，可以上传视频的相关信息，也可以是用户上传视频，客户端311根据上传的视频，从服务器320中获取视频的其它信息，这里的其它信息是指视频的相关信息中除了视频中各视频帧之外的信息。或者用户可以是通过该客户端311录制视频，客户端311直接获得该视频的相关信息。

作为一种实施例，本申请实施例中的视频可以是提前录制好的视频，也可以是直播过程中产生的直播视频片段等。

例如，请参照图5，表示一种客户端311显示的上传视频的界面示意图，用户可以点击图5所示的上传视频按键501，上传视频，这样，客户端311就获得了该视频。用户还可以在图5所示的标题输入框502中输入视频标题“星斗森林获取万年魂环”，这样，客户端311获得了该视频标题。

S402，客户端311响应于针对视频进行的封面生成操作，生成封面生成请求。

在客户端311获取视频之后，用户可以进行封面生成操作，比如点击生成封面按键，或者比如用户在上传视频之前，先点击客户端311中的视频封面生成功能按键，相当于进行了封面生成操作。客户端311根据用户进行的封面生成操作，基于当前需要生成视频封面的视频，进而生成封面生成请求。封面生成请求包括但不限于视频，还可以包括视频的其它信息等。封面生成请求或者可以包括视频的视频标识。

例如，请继续参照图5，用户可以点击图5所示的智能生成封面按键503，在用户点击该智能生成封面按键503之后，客户端311根据该操作，生成封面生成请求。

S403，客户端311将封面生成请求发送给服务器320。

S404，服务器320根据封面生成请求，获得视频关联的关键词。

如果封面生成请求中包括视频的相关信息，那么服务器320在获得封面生成请求之后，也就能获得该视频的相关信息。如果封面生成请求中包括视频的视频标识，那么服务器320可以基于该视频标识，从数据库330中获取视频的相关信息。

作为一种实施例，数据库330中预存有各个视频的关键词，服务器320在接收封面生成请求之后，服务器320从数据库330中获取该视频关联的关键词。该方式无需服务器320实时去识别关键词，相对可以减少服务器320的处理量，该方式适用于视频为已拍摄完成的视频。

或者，服务器320对视频的相关信息进行处理，提取视频关联的关键词。服务器320提取关键词时，可以提取视频各方面的相关信息中的关键词，以获得视频关联的关键词，具体包括如下的至少一种：

示例一：

服务器320识别视频标题中的关键词。

如前文论述的内容，服务器320可以获得视频的相关信息，当相关信息包括视频标题时，服务器320可以对视频标题进行处理，提取得到视频标题中的关键词。

作为一种实施例，可以通过主题模型提取视频标题中的关键词。主题模型比如已训练的隐含狄利克雷分布模型(latent dirichlet allocation，LDA)。

在训练LDA模型时，可以对多个视频标题样本进行分词，预测各个分词在各主题下的分布概率，根据该分词在该主题下实际分布概率，调整模型参数，当满足训练条件时，获得已训练的LDA模型。

在使用LDA模型时：服务器320可以对视频标题进行分词，获得多个分词，通过LDA模型确定各个分词在主题下出现的概率，将出现概率大于或等于概率阈值的分词确定为该视频标题的关键词。

例如，请继续参照图5，用户输入的视频标题为“星斗森林获取万年魂环”，服务器320利用LDA模型识别该视频标题中的关键词为“星斗森林”和“万年魂环”。

示例二：

服务器320识别字幕中的关键词。

如果视频关联有单独的字幕文件，那么服务器320将该字幕文件作为字幕文本。如果视频本身没有关联单独的字幕文件，在这种情况下，字幕可能已经合并在视频中，那么服务器320可以将视频帧中的字幕区域的内容转换为文字，获得字幕文本。无论哪一种方式，服务器320在获得字幕文本之后，均可以提取字幕文件中的关键词，获得字幕中的关键词。

作为一种实施例，服务器320可以基于词频-逆向文件频率(Term Frequency-Inverse Document Frequency，IF-IDF)算法提取字幕文本中的关键词。具体是确定各个字幕文本中词的词频，以及该词的逆向文件频率，将词频*逆向文件频率，就能得到该词的权重，权重越高，表示该词的重要程度越高，在获得字幕文本中各词的权重之后，将权重大于或等于权重阈值的词确定为字幕中的关键词。

例如，字幕文件包括“龙蛇夫妇现身获取万年魂环，我们战斗力告急”，服务器320可以利用IF-IDF算法识别该字幕文件中的关键词为“龙蛇夫妇现身”和“战斗力告急”。

示例三：

服务器320识别音频中的关键词。

音频包括但不限于配音和插曲等。服务器320可以将视频关联的音频文件转换为音频对应的文本，再提取音频对应的文本中的关键词。

作为一种实施例，服务器320也可采用IF-IDF算法提取该音频对应的文本中的关键词。

例如，音频对应的文本包括“我们处于生死一线，需要团结”，服务器320利用可以利用IF-IDF算法识别该音频对应的文本中的关键词为“生死一线”。

示例四：

识别视频中各个视频帧的目标对象，将识别结果确定为视频的关键词。

服务器320可以将视频拆分为多个视频帧，将多个视频帧作为识别对象；或者选取视频中的关键帧，将关键帧作为识别对象；或者对视频进行周期性截图，将截图获得的多个视频帧作为识别对象。服务器320在获得识别对象之后，可以识别这些识别对象中的目标对象，目标对象可以参照前文论述的内容，此处不再赘述，识别方式比如图像检测，图像识别等，服务器320进而将目标对象的识别结果作为关键词，或者是将出现频次大于或等于阈值的目标对象的识别结果作为关键词。

例如，服务器320可以利用图像处理识别视频帧中包括“龙蛇夫妇”，进而将“龙蛇夫妇”确定为关键词。

示例五：

识别视频弹幕中的关键词。

如果视频关联有单独的弹幕文件，那么服务器320将该弹幕文件作为字幕文本。如果视频本身没有关联单独的弹幕文件，在这种情况下，弹幕可能已经合并在视频中，那么服务器320可以将视频帧中的弹幕区域的内容转换为文字，获得弹幕文本。无论服务器320通过哪一种方式获得弹幕文本，在获得弹幕文本之后，均可以提取弹幕文件中的关键词，获得弹幕中的关键词。提取弹幕文件中关键词的方式可以参照前文论述的提取字幕文本中关键词的方式的内容，此处不再赘述。或者，服务器320可以确定弹幕中点赞数满足数量阈值的弹幕评论，提取这些弹幕评论幕中的关键词，将这些弹幕评论中的关键词作为弹幕的关键词。由于弹幕等内容会随着时间变化而发生变化，本申请实施例中利用服务器320实时识别视频关联的关键词，有利于获得该视频更为准确且符合最新的关键词。

例如，弹幕文本中包括“大反转了。。。震惊了！”、“简直惊心动魄呀”，服务器320对该弹幕文本进行关键词提取，确定“大反转”、“震惊”和“惊心动魄”为关键词。

应当说明的是，在实际处理过程中，服务器320可以基于上述示例一至示例五中任意一种或多种方式获取视频关联的关键词。

作为一种实施例，在获得视频关联的关键词时，服务器320可以存储关键词的来源，对于关键词来源可能会发生变化的部分，可以实时地对该部分进行关键词提取，进而组合该部分的关键词以及该视频关联的其它部分的关键词，获得该视频关联的关键词。比如关键词来源于弹幕，视频的弹幕会发生变化，因此服务器320可以提取当前时间段内容的弹幕的关键词，将该当前时间段内的弹幕对应的关键词更新为该视频的弹幕对应的关键词。服务器320可以实时地提取弹幕中的关键词。比如关键词来源于视频，服务器320可以从视频中提取一次关键词即可。

作为一种实施例，服务器320提取视频关联的关键词，并将获得的关键词存储数据库330中。

作为一种实施例，服务器320按照预设规则对这些关键词进行排序。预设规则比如可以是将与视频关联度大的关键词排序在前，将与视频关联度小的关键词排在后。其中，关联度用于表示关键词与视频的相关程度。

一，关联度可以以前文中各模型输出的各个关键词对应的权重表示。

如前文论述的内容，各个关键词是基于模型识别出来的，这些模型输出的各个词的权重作为各个关键词与视频的关联度。

例如，LDA模型输出关键词“星斗森林”的概率为0.8，关键词“万年魂环”的概率为0.9，因此服务器320将“万年魂环”排在“星斗森林”之前。

二，关联度可以用各个关键词在视频播放过程中的出现频次表示。

确定各个词在视频播放中出现的次数，以各个词的出现频次来表示各个关键词与视频的关联度。

例如，主题词模型输出关键词“星斗森林”的出现频次为3次，关键词“万年魂环”的出现频次为4次，因此服务器320将“万年魂环”排在“星斗森林”之前。

三，关联度可以用各个关键词在视频播放过程中出现时长来表示。

时长是指在视频播放过程中。该关键词出现的时长可以理解为该关键词在视频播放过程中出现的时长，具体比如显示关键词的显示时长，或者播放该关键词对应的音频段的时长。

例如，“星斗森林”在视频播放过程中出现的时长为5S，关键词“万年魂环”的出现时长为4S，因此服务器320将“星斗森林”排在“万年魂环”之前。

四，关联度也可以是出现频次和出现时长加权求和来表示。出现频次对应的权重和出现时长的权重可以是相同的，也可以是不同。

例如，出现频次的权重为0.6，出现时长的权重为0.4。“星斗森林”在视频播放过程中出现时长为5S，出现次数为3次，“万年魂环”在视频播放过程中的出现时长为4S，出现次数为4次，进而可以确定出“星斗森林”与该视频的关联度为：0.6*3+0.4*5＝3.8，“万年魂环”与该视频的关联度为：0.6*4+0.4*4＝4，因此，服务器320确定“万年魂环”与该视频的关联度大于“星斗森林”与该视频的关联度，因此，确定“万年魂环”排在“星斗森林”的前面。

例如，服务器320对图5对应的视频进行处理，获得该视频关联的关键词包括：“星斗森林”、“万年魂环”、“激战”、“震惊”、“惊心动魄”、“农蛇夫妇现身”、“大反转”、“战斗力告急”、“生死一线”等。

S405，服务器320将关键词发送给客户端311。

S406，服务器320获得关键词的关键词指示信息。

其中，关键词指示信息用于指示关键词的样式、属性或位置中的一种或多种。关键词指示信息也可以是关键词的样式、属性以及位置等。或者，关键词指示信息可以是关键词的样式标识、属性标识或位置标识等。

(1)：服务器320基于预存的样式、属性或位置，确定出与关键词匹配的样式、属性或位置。

具体地，服务器320可以预存有各关键词的样式、属性或位置等，在服务器320识别出关键词之后，确定出关键词对应的样式、属性或位置，生成关键词指示信息。

比如，服务器320中存储有关键词“大反转”的样式为箭头，服务器320确定出的关键词有“大反转”，因此，服务器320可以将“大反转”的样式确定为箭头。

(2)：服务器320确定关键词所属的主题类型下的关键词的样式、属性以及位置。

具体的，服务器320中存储有各主题类型下的关键词的样式、属性以及位置，服务器320在获得各关键词之后，可以确定出关键词的主题类型，从选择该主题类型下的关键词的样式，生成关键词指示信息。

(3)：服务器320将与关键词的相似度最大的标签所关联的样式或属性确定为该关键词的样式或属性。

服务器320中存储有各类关键词的样式、属性和位置对应的标签，在服务器320获得关键词，可以确定各关键词与各标签之间的相似度，相似度比如余弦相似度等。在获得相似度之后，可以为各关键词匹配相似度满足预设相似度条件的关键词，生成关键词指示信息。

S407，服务器320将关键词指示信息发送给客户端311。

服务器320生成关键词指示信息，将关键词指示信息发送给客户端311。

作为一种实施例，当S405和S407同时执行时，服务器320将关键词与关键词指示信息对应关联，一并发送给客户端311。

作为一种实施例，当S405和S407不是同时执行时，服务器320可以按照发送关键指示信息时，可以按照各个关键词的发送顺序发送各关键词对应的关键词指示信息。或者，服务器320可以在发送关键词时，携带各个关键词的关键词标识，并在发送关键词指示信息时，携带对应的关键词标识，以便于客户端311根据关键词标识，确定各个关键词的样式、属性和位置等。

作为一种实施例，S406～S407为可选的步骤，在不执行S406～S407的情况下，客户端311在接收关键词之后，显示默认的样式、属性以及位置等。或者，客户端311确定各关键词的样式、属性以及位置等，按照确定出的样式、属性以及位置等显示各个关键词。

应当说明的是，S404和S406的执行顺序可以是任意的，S405和S407的执行顺序可以是任意的。

S408，服务器320获得至少一个背景图像。

服务器320可以根据视频确定至少一个背景图像，背景图像可以理解为视频封面的候选封面背景。

①：服务器320可以对视频进行周期性截图，获得至少一个背景图像。

②：服务器320可以抽取视频中的关键帧，获得至少一个背景图像。

③：服务器320可以筛选视频中满足预设条件的视频帧作为背景图像，预设条件比如图像质量大于或等于阈值，比如图像包含预设事件，预设事件比如图像存在击杀行为，或者图像的战斗激烈程度大于或等于激烈程度阈值等。

④：服务器320可以将前述三种方式中任一方式获得的背景图像进行拼接，将拼接后的图像作为背景图像。

S409，服务器320将至少一个背景图像发送给客户端311。

作为一种实施例，S408～409为可选的步骤。

S410，客户端311根据关键词，显示封面生成界面。

客户端311在接收关键词指示信息的情况下，客户端311可以根据关键词指示信息在封面生成界面上显示各关键词。如果关键词指示信息中包括位置显示信息。则客户端311根据关键词指示信息中的位置显示信息，在封面生成界面上显示各关键词。如果关键词指示信息不包括位置显示信息，那么客户端311可以按照默认规则，分别显示各关键词。比如客户端311可以根据各关键词与视频的关联度，分别显示各关键词，具体比如客户端311可以将与视频的关联度靠前的部分关键词显示在封面生成界面中的封面预览区域，将关联度靠后的另一部分关键词显示在关键词展示区域。

客户端311在没有接收关键词指示信息的情况下，客户端311可以根据默认的样式、属性以及位置在封面生成界面上显示关键词。

无论客户端311在哪一种情况下显示关键词，客户端311在封面生成界面中显示关键词的方式都可能有多种，下面进行示例说明。

A1：客户端311将所有关键词全部显示在关键词展示区域。

A2：客户端311将所有关键词显示在封面预览区域。

A3：客户端311将部分关键词显示在关键词展示区域，以及将另一部分关键词显示在封面预览区域。

作为一种实施例，A3中，在封面预览区域显示的关键词所占的显示面积与封面预览区域的面积之比小于或等于比例阈值。该实施例中，将关键词占用的面积比值维持在一定范围，避免显示过多的关键词，影响用户查看体验。

作为一种实施例，A3中，服务器320可以将关联度靠前的关键词显示在封面预览区域，将关联度靠后的关键词显示在关键词展示区域。

作为一种实施例，A3中，客户端311可以将与封面背景相关的关键词显示在封面预览区域，可以将封面背景不相关的关键词显示在关键词展示区域。相关可以理解为与封面背景的关联度大于或等于阈值的关键词显示在封面预览区域，不相关可以理解为与封面背景关联度小于阈值的关键词。

作为一种实施例，A2和A3中，可以将关键词显示在封面背景中除了目标对象之外的区域中。

由于A2和A3中，封面预览区域中还包括有封面背景，而封面背景中可能包括目标对象，比如人脸等，如果过多的关键词遮挡住人脸，不利于用户查看，因此，可以将关键词显示在目标对象之外的区域，这样可以降低关键词对视觉的影响。

在A3所示的实施例中，进一步的，在获得的多个关键词中，客户端311可以将与预测的目标浏览者的用户特征信息匹配的关键词作为目标词显示在封面预览区域，将多个关键词中除了与目标浏览者的用户特征信息匹配的关键词之外的关键词展示在关键词展示区域。其中，用户特征信息包括用户画像，或情绪信息中的一种或多种。情绪信息用于表示用户在当前时间段内的情绪，在不同的时间段，用户的情绪可能是不同的。

具体的，可以是服务器320确定出与预测的目标浏览者的用户特征信息匹配的关键词的目标词，再将目标词以及其它关键词发送给客户端311，或者可以是客户端311从多个关键词中确定出与用户特征信息匹配的关键词。服务器320确定目标词的方式可以参照下文论述的客户端311确定目标词的方式，本申请不再赘述。

比如，客户端311可以从服务器320获取目标浏览者，或者客户端311预测目标浏览者。比如客户端311或服务器320可以将订阅或关注当前用户的用户确定为目标浏览者，或者客户端311或服务器320可以根据该视频的类型确定后期可能会浏览该视频的用户，将这些用户确定为目标浏览者。在预测出目标浏览者之后，可以根据不同目标浏览者的用户特征信息，为目标浏览者匹配出目标词，为不同的目标浏览者生成个性化的视频封面，以提升视频封面针对不同目标浏览者的吸引力。或者，可以对不同的目标浏览者进行分类，为不同类的目标浏览者分别匹配出不同的目标词，分别生成不同类的目标浏览者的视频封面。本申请实施例中是以生成一个目标浏览者的视频封面为例，生成其他目标浏览者的视频封面的过程类似，不再赘述。

客户端311可以从服务器320中获取目标浏览者的用户特征信息，比如用户画像或情绪信息，具体服务器320可以提前基于目标浏览者的行为数据构建用户画像，服务器320可以根据目标浏览者当前时间段内的社交信息等，分析出目标浏览者在当前时间段内的情绪信息，进而将用户画像以及情绪信息反馈给客户端311，客户端311从而获得用户特征信息，客户端311基于用户特征信息，从至少一个关键词中确定出与该用户特征信息匹配的目标词，以便于为目标浏览者生成更符合其偏好的视频封面。

其中涉及到客户端311如何确定与用户特征信息匹配的目标词，例如客户端311可以获得用户特征信息包含的关键词，将视频关联的关键词中，与用户特征信息包含的关键词的相似度大于或等于阈值的关键词确定为目标词。具体客户端311可以分别对视频关联的关键词、及用户特征信息的关键词等进行编码，计算编码结果之间的相似度。或者客户端311可以确定视频关联的关键词与用户特征信息语义相关的关键词确定为目标词。

例如，请继续参照图5所示的例子，该视频中的关键词包括“星斗森林”、“万年魂环”、“激战”、“震惊”、“惊心动魄”、“农蛇夫妇现身”、“大反转”、“战斗力告急”、“生死一线”，客户端311确定目标浏览者当前的心情为激动，客户端311确定“激战”和“惊心动魄”与目标浏览者相匹配，因此可以将激战”、“惊心动魄”确定为目标词。

或者例如，预测该视频的目标浏览者可能男性较多，男性可能对女主角相关的视频封面比较感兴趣，那么可以根据男性的偏好，生成以女主角为主的封面背景。比如预测该视频的目标浏览者可能是女性较多，女性可能对男主角更感兴趣，那么可以根据女性的偏好，生成以男主角为主的封面背景。

另外，在客户端311接收至少一个背景图像的情况下，还可以在封面生成界面上显示至少一个背景图像。

在客户端311没有接收至少一个背景图像的情况下，客户端311可以对视频进行处理，获得至少一个背景图像，进而在在封面生成界面上显示至少一个背景图像，客户端311获得至少一个背景图像的方式可以参照前文论述的内容，此处不再赘述。或者客户端311在封面预览界面上显示默认的封面背景，比如默认的封面背景比如可以是视频的第一帧、视频的最后一帧作为封面背景、或者纯色背景等。或者客户端311可以将用户上传的图像作为封面背景。

在至少一个背景图像仅包括一个背景图像的情况下，那么客户端311将该背景图像确定为封面背景。如果至少一个背景图像包括多个背景图像，那么客户端311可以显示多个背景图像。在至少一个背景图像包括多个背景图像的情况下，用户可以进行从至少一个背景图像中选择封面背景的选择操作，比如用户可以点击多个背景图像中的一个背景图像，将封面背景显示为所选择的背景图像。

作为一种实施例，在用户选定封面背景之后，可以在封面预览区域中显示封面背景。

作为一种实施例，服务器320可以将多个背景图像中与预测的目标浏览者的用户特征信息匹配的背景图像确定为封面背景，将封面背景发送给客户端311。或者，客户端311从多个背景图像中确定与目标浏览者的用户特征信息匹配的封面背景。

比如，服务器320可以获得该视频中的多个背景图像，将多个背景图像发送给客户端311，或者客户端311可以根据视频获得多个背景图像。获得多个背景图像的方式可以参照前文论述的内容，此处不再赘述。客户端311在获得多个背景图像之后，可以获得目标浏览者的用户特征信息，目标浏览者以及目标浏览者的用户特征信息可以参照前文论述的内容，此处不再赘述。客户端311可以对多个背景图像进行识别，获得每个背景图像的关键描述信息，将各背景图像的关键描述信息与用户特征信息进行匹配，从而匹配出封面背景。

进一步的，如果客户端311是针对一类目标浏览者，或者一个目标浏览者生成的个性化的视频封面，可以在封面生成界面上显示该目标浏览者的用户标识，以便于当前用户查看对应的编辑对象。在生成视频封面之后，可以将目标浏览者的用户标识与视频封面进行关联，后续发布视频时，将对应的视频封面展示给对应的目标浏览者。

应当说明的是，客户端311可以是默认为目标浏览者生成个性化的视频封面的生成过程，或者可以是客户端311在预测出各个目标浏览者之后，当前用户可以选择某个目标浏览者，客户端311为该目标浏览者生成个性化的视频封面。或者是针对目标浏览者生成视频封面属于视频封面的一种功能模式，当前用户可以在生成视频封面之前，选择该功能模式，客户端311根据该当前用户的选择，进入该功能模式，客户端311执行上述确定目标浏览者的视频封面的过程。另外，在为目标浏览者生成个性化的视频封面过程中，可能只生成个性化的封面背景，或者个性化的目标词，或者生成个性化的封面背景以及目标词，不做具体限制。

作为一种实施例，在封面预览区域显示有部分或全部关键词时，客户端311可以响应于用户的确认操作，生成视频封面。

具体的，在封面预览区域显示有封面背景，以及至少部分关键词时，这种情况可以理解为封面预览区域中显示有封面预览图，这时，用户可以直接进行确认操作，比如点击确认按键，客户端311响应于该确认操作，将封面预览图作为视频封面进行显示。

例如，请参照图6，表示一种封面生成界面的示例图，在该封面生成界面中，包括封面预览区域601和关键词展示区域602，在封面预览区域601显示有关键词“星斗森林”、“万年魂环”和“激战”，在关键词展示区域602显示有关键词“震惊”、“惊心动魄”、“农蛇夫妇现身”、“大反转”、“战斗力告急”、“生死一线”，且图6中每个关键词的样式、属性和位置也有所不同。

封面生成界面除了包括关键词之外，还包括封面背景603，以及视频标题604等。该封面生成界面还包括取消按键605和确定按键606。用户可以点击取消按键605，取消本次视频封面生成过程。或者用户可以点击确定按键606，确定直接以当前的封面预览图作为视频封面。

S410，客户端311响应于针对封面生成界面中关键词的编辑操作，显示封面预览图。

如前文论述的内容。封面生成界面包括至少一个关键词，以及封面背景。因此。用户可以对封面生成界面上的关键词进行编辑，客户端311根据用户的编辑操作，显示封面预览图。其中，封面预览图包括封面背景和显示在封面背景上的关键词。下面对显示封面预览图的过程进行示例说明。

S1.1，客户端311响应于从至少一个关键词中选择目标词的选择操作，在封面背景上显示目标词，并显示目标词编辑界面；

S1.2，客户端311响应于通过目标词编辑界面输入的目标词编辑操作，在封面背景上显示编辑后的目标词。

在客户端311将所有关键词均显示在关键词展示区域的情况下(也就是前文论述的A1)，用户可以对关键词展示区域中关键词进行选择操作，比如用户可以将关键词展示区域中的关键词移动到封面预览区域上，或者比如用户可以点击关键词展示区域中的关键词，相当于选择该关键词，在用户进行选择之后，客户端311可以根据该用户的选择操作，在封面背景上显示目标词，这里的目标词也就是用户选择的关键词，用户可以选择一个或多个关键词。

作为一种实施例，用户可以将关键词展示区域的关键词进行增加操作，比如用户将关键词展示区域的关键词移动到封面预览区域上，客户端311可以响应于该增加操作，在关键词展示区域隐藏显示该目标词，这样避免重复显示关键词。

比如，请参照图7，表示一种封面生成界面的示例图，用户将图6中关键词展示区域中的“生死一线”移动到封面预览区域中，客户端311显示如图7所示的界面，具体在封面预览区域601中显示该关键词“生死一线”，而在关键词展示区域602中不再显示该“生死一线”。

作为一种实施例，用户可以对封面预览区域的关键词进行删除操作，删除操作比如用户点击该关键词上的删除按键，客户端311可以响应于该删除操作，在关键词展示区域显示该关键词，这样一来，即使用户删除封面预览区域上的关键词，该关键词依旧会在视频封面生成界面中，便于后续用户对关键词进行再编辑。

比如，请参照图8，表示一种封面生成界面的示例图，用户将图7中封面预览区域601中的“星斗森林”移动到关键词展示区域602中，客户端311显示如图8所示的界面，具体在关键词展示区域602中显示该关键词“星斗森林”，而在封面预览区域601中不再显示该“星斗森林”。

在用户选择关键词的同时，或者在用户再次点击封面背景上的关键词之后，客户端311还可以显示目标词编辑界面，该目标词编辑界面便于用户对关键词进行修改。目标词编辑界面可以是与封面生成界面两个相互独立的界面，或者目标词编辑界面为封面生成界面中的一部分。

其中，该目标词编辑界面包括内容编辑区域、样式编辑区域、属性编辑区域和位置编辑区域中的一种或多种组合，内容编辑区域中用户可以编辑目标词的内容，样式编辑区域中用户可以编辑目标词的样式，属性编辑区域中用户可以编辑目标词的属性，以及位置编辑区域中用户可以编辑目标词的属性。

具体的，用户可以在内容编辑区域进行内容编辑操作，内容也可以称为文案，比如在内容编辑区域中显示有目标词的内容，用户可以依据该目标词的内容，在该目标词的内容基础上，进一步调整目标词的内容。在样式编辑区域进行样式编辑操作，比如在样式编辑区域中显示有目标词各种预览样式，用户可以选择任意一种样式。在属性编辑区域进行属性编辑操作，比如显示有各种颜色，用户可以编辑目标词的颜色等。在位置编辑区域中进行位置编辑区域，实现对目标词的编辑，比如用户可以选择将目标词上移、下移或者右移等，调整目标词的位置。

例如，请参照图9，表示一种目标词编辑界面的示例图，该目标词编辑界面包括封面预览区域，在封面预览区域显示有封面背景，以及显示在封面背景上的关键词。在用户在图8所示的封面生成界面上点击封面背景上的关键词“万年魂环！！！”之后，显示如图9中所示的目标词编辑界面，该目标词编辑界面中包括内容编辑区域901、样式编辑区域902、属性编辑区域903和位置编辑区域904。比如用户可以在内容编辑区域901中将万年魂环！！！”修改为“极品魂环#”，比如用户在属性编辑区域903中可以将“万年魂环！！！”从红色修改为绿色等。

进一步地，用户可以点击属性编辑区域903中的取消按键905，取消当前添加的字体颜色，或者点击属性编辑区域903中的保存按键906，保存当前添加的字体颜色，或者点击属性编辑区域903中的删除按键907，删除之前添加的字体颜色等。

或者，目标词编辑界面包括依次关联的多个编辑区域，比如依次关联的内容编辑区域、样式编辑区域、属性编辑区域，或位置编辑区域，各个区域关联的先后顺序，本申请不做具体限定。当用户对其中一个编辑区域进行操作后，跳转到下一个编辑区域，对目标词的其它内容进行编辑。

或者例如，请参照图10中(1)，表示一种封面生成界面的示例图三，该封面生成界面包括封面预览区域，在封面预览区域显示有封面背景，以及显示在封面背景上的关键词。在用户点击封面背景上的关键词“万年魂环”之后，显示如图10中所示的内容编辑区域1001，用户可以点击取消按键1003，客户端311取消对关键词的编辑，或者用户点击下一步按键1002，客户端311响应于该操作，显示如图10中(2)所示的样式编辑区域1004，依次类推，用户可以在各个子界面上对目标关键词进行编辑。

S411，客户端311响应于针对封面背景的更改操作，更新显示封面生成界面中的封面背景，以及显示在封面背景上的关键词。

如前文论述的内容，在用户设定封面背景之后，或者客户端311设定默认的封面背景之后，用户可以对封面背景进行更改操作，比如用户点击重新设置封面背景，重新选择一背景图像作为封面背景，客户端311根据该更改操作，更新显示封面生成界面中封面背景。

进一步地，如前文论述的内容，在某些情况下，封面背景上显示的是与该封面背景相关的关键词，在更改封面背景的同时，客户端311可以根据至少一个关键词与更新后的封面背景的关联度，更新显示更新后的封面背景上的关键词。比如将与更新后的封面背景关联度大于或等于关联度阈值的关键词更新显示在封面背景上。该实施例中，关键词可以随着封面背景改变而改变，提高生成视频封面的效率。

作为一种实施例，S411为可选的步骤。

S412，客户端311响应于针对封面预览图的确认操作，生成视频封面。

用户针对视频关联的关键词等进行一次或多次编辑操作，在编辑操作的过程中，客户端311会实时地显示封面预览图，用户可以对封面预览图进行确认操作，比如用户点击确认按键，或语音输入确认等，客户端311根据该确认操作，生成视频封面，生成的视频封面的内容与封面预览图相同，但是视频封面的尺寸和封面预览图可能不相同。

例如，请继续参照8，当用户在图8所示的封面生成界面上，点击确定按键606，客户端311根据该操作，生成视频封面，视频封面的内容与图8中所示的封面预览图601的内容相同。

S413，客户端311将生成的视频封面发送给服务器320。

客户端311在生成视频封面之后，可以将视频封面发送给服务器320，服务器320可以将视频封面发送给其它客户端311，以便于其它客户端311可以查看该视频封面。

应当说明的是，S413为可选的步骤，如果客户端311为视频处理客户端，不负责视频的发布，那么用户通过客户端311生成视频封面之后，可以将视频封面保存在本地，当用户需要发布视频时，可以从本地去获取该视频封面。

作为一种实施例，当封面背景为多个视频帧组成的动态视频时，关键词可以显示在封面背景中的每个视频帧上，也就是每个视频帧上显示相同的关键词。或者，关键词可以显示在封面背景中的第一个视频帧上。或者，关键词可以分布显示在封面背景中的各视频帧上。

应当说明的是，如果前文中的视频为直播视频，那么客户端311可以周期性地按照上述过程生成直播视频的视频封面，服务器320周期性地根据生成的视频封面更新直播视频的视频封面，避免直播视频的视频封面过于单一。

作为一种实施例，在客户端311生成视频封面，发布视频以及视频封面之后，其他用户可以浏览该视频封面，针对浏览过该视频封面的用户称为实际浏览者，某些实际浏览者可能只是查看了该视频封面，有些实际浏览者可能会受视频封面的吸引，进一步会观看视频、点赞视频、分享视频或者评论视频等，在本申请实施例中，服务器320可以实时记录这些实际浏览者对视频进行的互动操作信息，互动操作信息具体如与前文论述与视频互动相关的浏览视频封面操作信息、观看视频操作信息、点赞视频操作信息、分享视频操作信息或者评论视频操作信息等，评论视频操作信息具体可以包括视频的弹幕信息。服务器320可以实时或周期性地将这些互动操作信息发送给客户端311，客户端311根据这些互动操作信息匹配出新的封面背景以及目标词，从而更新视频封面的封面背景和目标词。或者服务器320可以基于互动操作信息，对视频的视频封面中的封面背景以及目标词进行更新。服务器320更新封面背景的方式可以参照客户端311更新的方式，此处不再赘述。该实施例的过程可以周期性重复执行，或者不定时执行。

下面对客户端311更新视频封面的方式进行示例说明。

比如客户端311可以将视频中涉及的互动操作信息最多的视频帧确定新的封面背景，将互动操作信息涉及最多的关键词确定为新的目标词。或者比如互动操作信息包括各互动操作的次数，客户端311可以对每帧视频涉及的各类互动操作的次数进行加权求和，将加权求和最大的视频帧确定为新的封面背景，其中，在对各类互动操作的次数进行加权求和时，不同的互动操作对应的权重可以是不同的，比如浏览视频封面操作、观看视频操作、点赞视频操作、分享视频操作、评论视频操作的权重依次增加。

如果前文中的封面背景是根据不同的目标浏览者生成的，那么客户端311在根据互动操作信息更新视频封面时，也可以根据不同类型的实际浏览者的互动操作信息，更新视频封面，以吸引与实际浏览者同类的目标浏览者点击视频。

当客户端311或服务器320获得新的封面背景，或者是新的目标词之后，可以根据新的封面背景以及目标词生成新的视频封面，并发布新的视频封面。

在上述第二种可能的应用场景下，在生成视频封面的过程中，终端310无需与服务器320之间进行交互，也就是说，终端310可以获取视频的关键词，进而根据关键词以及封面背景生成视频封面。终端310获取关键词以及生成视频封面的方式可以参照前文论述的内容，此处不再赘述。在生成视频封面之后，客户端311将视频封面发送给服务器320，服务器320转发给各个客户端。

为了更清楚地说明上述视频封面生成方法，下面对视频封面生成方法进行举例说明。

请参照图11，表示一种客户端311和服务器320之间的交互示意图，该交互过程具体包括：

S1101，客户端311获取视频。

获取视频的方式可以参照前文论述的内容。

S102，服务器320获取视频的相关信息。

客户端311将视频的相关信息发送给服务器320。视频的相关信息可以参照前文论述的内容，此处不再赘述。

S1103，服务器320识别视频标题中的关键词。

S1104，服务器320识别字幕和音频中的关键词。

S1105，服务器320识别视频帧的目标对象内容，将识别结果作为关键词。

其中，S1103～S1105的步骤顺序可以是任意的，本申请不做限制。

S1106，服务器320存储所有的关键词，并将所有关键词按照与视频的关联度从高到低的顺序排列。

S1107，服务器320获取各关键词的样式。

S1108，服务器320将关键词与对应样式进行关联。

S1109，服务器320将关键词以及关联的样式发送给客户端311。

S1110，客户端311在封面预览区域显示排序靠前的N个关键词，在关键词展示区域显示排序靠后的关键词。其中，N为正整数。

S1111，客户端311根据针对关键词的编辑操作，显示封面预览图。

S1112，客户端311响应于用户的确认操作，根据封面预览图生成视频封面。

S1113，客户端311将视频封面发送给服务器320。

基于同一发明构思，提供一种视频封面生成装置，该视频封面生成装置相当于设置在前文论述的终端310中，请参照图12，该视频封面生成装置1200包括：

第一显示模块1201，用于响应于针对视频进行的封面生成操作，显示封面生成界面；其中，封面生成界面包括封面背景，以及与视频关联的至少一个关键词；

第二显示模块1202，用于响应于针对封面生成界面中关键词的编辑操作，显示封面预览图；其中，封面预览图包括封面背景，以及展示在封面背景区域内的目标词，目标词是从至少一个关键词中选择的；

生成模块1203，用于响应于针对封面预览图的确认操作，生成视频封面。

在一种可能的实施例中，封面生成界面包括封面预览区域和关键词展示区域，第一显示模块1201具体用于：

响应于针对视频进行的封面生成操作，在封面预览区域中显示封面背景；

在关键词展示区域，展示至少一个关键词；或者在封面背景上将至少一个关键词中的部分关键词作为目标词展示，并在关键词展示区域展示另一部分关键词，其中，部分关键词与视频的关联度高于另一部分关键词与视频的关联度。

在一种可能的实施例中，第二显示模块1202具体用于：

响应于针对至少一个关键词中目标词的选择操作，更新封面背景上显示的目标词，并显示目标词编辑界面；

响应于通过目标词编辑界面输入的目标词编辑操作，在封面背景上显示编辑后的目标词。

在一种可能的实施例中，响应于针对至少一个关键词中的目标词的选择操作，更新封面背景上显示的目标词，具体包括如下之一或者任意组合：

响应于将关键词展示区域显示的关键词的选中操作，将选中的关键词作为目标词显示到封面背景上；

响应于针对封面背景上显示的目标词的删除操作，在封面背景上删除对应的目标词。

在一种可能的实施例中，目标词编辑界面包括如下一种或几种的组合：

用于修改目标词的内容编辑区域、用于修改目标词显示样式的样式编辑区域、用于修改目标词显示属性的属性编辑区域，或用于修改目标词在封面背景中显示位置的位置编辑区域。

在一种可能的实施例中，第一显示模块1201还用于：

响应于针对视频进行的封面生成操作，在封面生成界面上显示至少一个与视频关联的背景图像；

响应于从至少一个背景图像中选择封面背景的选择操作，将封面背景显示为所选择的背景图像。

在一种可能的实施例中，第一显示模块1201还用于：

响应于重新选择背景图像的更改操作，将封面背景更新显示为重新选择的背景图像，以及根据至少一个关键词与更新后的背景图像的关联度，更新显示在封面背景上的目标词。

在一种可能的实施例中，封面背景通过如下任一方式获得：

确定与视频关联的多个背景图像；

将与预测的目标浏览者的用户特征信息相匹配的背景图像确定为封面背景，用户特征信息包括用户画像和情绪信息中的一个或者两个。

在一种可能的实施例中，目标词通过如下任一方式获得：

从与视频关联的关键词中，确定出与预测的目标浏览者的用户特征信息相匹配的关键词；其中，用户特征信息包括用户画像和情绪信息中的一个或者两个；

将与用户特征信息相匹配的关键词确定为目标词。

在一种可能的实施例中，第二显示模块1202还用于：

发布视频，以及视频封面；

获得各实际浏览者针对视频进行的互动操作信息；并

更新视频封面的封面背景和目标词。

在一种可能的实施例中，至少一个关键词包括如下的一种或几种的组合：

从视频的标题中识别的关键词；或，

从视频关联的字幕中识别的关键词；或，

将视频关联的音频转换为文字，并从转换后的文字中识别出的关键词；或，

在一种可能的实施例中，第一显示模块1201具体用于：

响应于针对视频进行的封面生成操作，从服务器获取视频的至少一个关键词；

在封面生成界面显示视频封面背景，以及至少一个关键词。

应当说明的，该视频封面生成装置1200可以执行前文论述的任一的视频封面生成方法，此处不再赘述。

基于同一发明构思，本申请实施例提供一种视频封面生成装置，该视频封面生成装置相当于设置在前文论述的服务器320中，请参照图13，该视频封面生成装置1300包括：

获得模块1301，用于根据客户端发送的针对视频进行的封面生成请求，获得视频的至少一个关键词；

收发模块1302，用于将至少一个关键词发送给客户端，以使客户端根据一方面中任一的方法生成视频封面。

在一种可能的实施例中，获得模块1301还用于：

发布视频，以及视频封面；

获得各实际浏览者针对视频进行的互动操作信息；并

更新视频封面的封面背景和目标词。

从视频的标题中识别的关键词；或，

从视频关联的字幕中识别的关键词；或，

应当说明的，该视频封面生成装置1300可以执行前文论述的任一的视频封面生成方法，此处不再赘述。

基于同一发明构思，本申请实施例提供了一种计算机设备1400，该计算机设备1400相当于前文中的终端310。该计算机设备1400可以为智能手机、平板电脑，手提电脑或PC机等电子设备。

请参照图14，该计算机设备1400包括处理器1480以及存储器1420。

处理器1480用于读取计算机程序，然后执行计算机程序定义的方法，例如处理器1480读取应用程序，从而在该终端310上运行应用，在显示单元1440上显示应用的界面。处理器1480可以包括一个或多个通用处理器，还可包括一个或多个数字信号处理器(DigitalSignal Processor，DSP)，用于执行相关操作，以实现本申请实施例所提供的技术方案。

存储器1420一般包括内存和外存，内存可以为随机存储器(RAM)，只读存储器(ROM)，以及高速缓存(CACHE)等。外存可以为硬盘、光盘、USB盘、软盘或磁带机等。存储器1420用于存储计算机程序和其他数据，该计算机程序包括客户端311对应的应用程序等，其他数据可包括操作系统或应用程序被运行后产生的数据，该数据包括系统数据(例如操作系统的配置参数)和用户数据。本申请实施例中程序指令存储在存储器1420中，处理器1480执行存储器1420中的程序指令，实现前文论述的视频封面生成方法。

此外，该计算机设备1400还可以包括显示单元1440，用于接收输入的数字信息、字符信息或接触式触摸操作/非接触式手势，以及产生与终端310的用户设置以及功能控制有关的信号输入等。其中，显示单元1440包括显示面板1441，用于显示由用户输入的信息或提供给用户的信息以及该计算机设备1400的各种操作界面等，在本申请实施例中主要用于显示终端310中已安装的客户端311的界面、快捷窗口等。可选的，可以采用液晶显示器(Liquid Crystal Display，LCD)或有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板1441。

具体地，本申请实施例中，该显示单元1440可以包括显示面板1441。显示面板1441例如触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在显示面板1441上或在显示面板1441的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，显示面板1441可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1480，并能接收处理器1480发来的命令并加以执行。在本申请实施例中，若用户进行封面生成操作的操作，则在显示面板1441中的触摸检测装置检测到触摸操作，则将检测到的触摸操作对应的信号发送的触摸控制器，触摸控制器将信号转换成触点坐标发送给处理器1480，处理器1480根据接收到的触点坐标确定用户进行封面生成操作，从而确定执行进行视频封面生成过程。

其中，显示面板1441可以采用电阻式、电容式、红外线以及表面声波等多种类型实现。除了显示单元1440，终端310还可以包括输入单元1430，输入单元1430可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。输入单元1430例如图像输入设备1431和其他输入设备1432。

除以上之外，该计算机设备1400还可以包括用于给其他模块供电的电源1490、音频电路1460、近场通信模块1470和RF电路1414。终端310还可以包括一个或多个传感器1450，例如加速度传感器、光传感器、压力传感器等。音频电路1460具体包括扬声器1461和麦克风1462等，例如用户不使用乐器的情况下，终端310可以通过麦克风1462采集用户的声音，将用户的声音作为用户针对视频输入的操作数据。用户在视频生成过程中听到的音乐数据均可以通过扬声器1461进行播放。

基于同一发明构思，本申请实施例还提供了一种计算机设备，该计算机设备相当于前文中的服务器320。

请参照图15，表示该计算机设备的结构示意图，该计算机设备1500以通用计算机设备的形式表现。计算机设备1500的组件可以包括但不限于：至少一个处理器1510、至少一个存储器1520、连接不同系统组件(包括处理器1510和存储器1520)的总线1530。

总线1530表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。

存储器1520可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)1521和/或高速缓存存储器1522，还可以进一步包括只读存储器(ROM)1523。

存储器1520还可以包括具有一组(至少一个)程序模块1525的程序/实用工具1526，这样的程序模块1525包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。处理器1510用于执行存储器1520存储的程序指令等实现前文论述的视频封面生成方法，还可以实现前文服务器320的功能，还可以实现图13论述的装置的功能。

计算机设备1500也可以与一个或多个外部设备1540(例如键盘、指向设备等)通信，还可与一个或者多个使得终端310能与服务器320交互的设备通信，和/或与使得该服务器320能与一个或多个其它设备进行通信的任何设备(例如路由器、调制解调器等)通信。这种通信可以通过输入/输出(I/O)接口1550进行。并且，服务器320还可以通过网络适配器1560与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器1560通过总线1530与用于服务器320的其它模块通信。应当理解，尽管图中未示出，可以结合服务器320使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

基于同一发明构思，本申请实施例提供一种存储介质，存储介质存储有计算机指令，当计算机指令在计算机上运行时，使得计算机执行前文论述的视频封面生成方法。该存储介质泛指计算机可读存储介质。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种视频封面生成方法，其特征在于，包括：

响应于针对视频进行的封面生成操作，显示封面生成界面；其中，所述封面生成界面包括封面背景，以及与所述视频关联的至少一个关键词，所述封面生成界面包括封面预览区域和关键词展示区域；

响应于针对所述封面生成界面中关键词的编辑操作，显示封面预览图；其中，所述封面预览图包括所述封面背景，以及展示在所述封面背景区域内的目标词，所述目标词是从所述至少一个关键词中选择的，其中，响应于针对视频进行的封面生成操作，显示封面生成界面，包括：响应于针对视频进行的封面生成操作，在所述封面预览区域中显示所述封面背景，以及在所述关键词展示区域，展示所述至少一个关键词；或者在所述封面背景上将所述至少一个关键词中的部分关键词作为目标词展示，并在所述关键词展示区域展示另一部分关键词，其中，所述部分关键词与所述视频的关联度高于所述另一部分关键词与所述视频的关联度；

响应于针对所述封面预览图的确认操作，生成视频封面。

2.如权利要求1所述的方法，其特征在于，所述响应于针对所述封面生成界面中关键词的编辑操作，显示封面预览图，具体包括：

3.如权利要求2所述的方法，其特征在于，所述响应于针对所述至少一个关键词中的目标词的选择操作，更新所述封面背景上显示的目标词，具体包括如下之一或者任意组合：

4.如权利要求3所述的方法，其特征在于，所述目标词编辑界面包括如下一种或几种的组合：

5.如权利要求1所述的方法，其特征在于，所述响应于针对视频进行的封面生成操作，显示封面生成界面，还包括：

6.如权利要求5所述的方法，其特征在于，所述方法还包括：

7.如权利要求1～4任一项所述的方法，其特征在于，所述封面背景通过如下任一方式获得：

确定与所述视频关联的多个背景图像；

8.如权利要求1～4任一项所述的方法，其特征在于，所述目标词通过如下任一方式获得：

将与用户特征信息相匹配的关键词确定为目标词。

9.如权利要求1～5任一项所述的方法，其特征在于，所述方法还包括：

发布所述视频，以及所述视频封面；

获得各实际浏览者针对所述视频进行的互动操作信息；并

更新所述视频封面的封面背景和目标词。

10.如权利要求1～6任一项所述的方法，其特征在于，所述至少一个关键词包括如下的一种或几种的组合：

从所述视频的标题中识别的关键词；或，

从所述视频关联的字幕中识别的关键词；或，

11.如权利要求1～6任一项所述的方法，其特征在于，所述响应于针对视频进行的封面生成操作，显示封面生成界面，具体包括：

12.一种视频封面生成方法，其特征在于，包括：

将所述至少一个关键词发送给所述客户端，以使所述客户端根据权利要求1～11中任一所述的方法生成视频封面。

13.一种视频封面生成装置，其特征在于，包括：

第一显示模块，用于响应于针对视频进行的封面生成操作，显示封面生成界面；其中，所述封面生成界面包括封面背景，以及与所述视频关联的至少一个关键词，所述封面生成界面包括封面预览区域和关键词展示区域；

第二显示模块，用于响应于针对所述封面生成界面中关键词的编辑操作，显示封面预览图；其中，所述封面预览图包括所述封面背景，以及展示在所述封面背景区域内的目标词，所述目标词是从所述至少一个关键词中选择的，其中，响应于针对视频进行的封面生成操作，显示封面生成界面，包括：响应于针对视频进行的封面生成操作，在所述封面预览区域中显示所述封面背景，以及在所述关键词展示区域，展示所述至少一个关键词；或者在所述封面背景上将所述至少一个关键词中的部分关键词作为目标词展示，并在所述关键词展示区域展示另一部分关键词，其中，所述部分关键词与所述视频的关联度高于所述另一部分关键词与所述视频的关联度；

14.根据权利要求13所述的装置，其特征在于，所述第一显示模块具体用于：

15.一种视频封面生成装置，其特征在于，包括：

收发模块，用于将所述至少一个关键词发送给所述客户端，以使所述客户端根据权利要求1～11中任一所述的方法生成视频封面。