CN115334367B

CN115334367B - 视频的摘要信息生成方法、装置、服务器以及存储介质

Info

Publication number: CN115334367B
Application number: CN202210812837.0A
Authority: CN
Inventors: 向君
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2022-07-11
Filing date: 2022-07-11
Publication date: 2023-10-17
Anticipated expiration: 2042-07-11
Also published as: CN115334367A

Abstract

本公开关于一种视频的摘要信息生成方法、装置、服务器以及存储介质，属于视频技术领域。本公开通过获取视频的多个文本描述信息，从多个文本描述信息的关键词词组中，确定符合摘要条件的目标关键词组，进而基于目标关键词组所属的文本描述信息，生成视频的摘要信息，从而无须用户撰写摘要信息，降低了用户的时间成本，增加用户在视频发布平台上发布视频或观看视频的吸引力，从而提高了视频发布平台的用户黏度。

Description

视频的摘要信息生成方法、装置、服务器以及存储介质

技术领域

本公开涉及视频技术领域，特别涉及一种视频的摘要信息生成方法、装置、服务器以及存储介质。

背景技术

随着视频发布平台的兴起，越来越多的视频制作者在视频发布平台上发布自己制作的视频，以便观众观看视频。视频发布平台中存在很多不同时长的视频，对于时长较长的视频，视频的内容一般会比较多，为了吸引更多的观众观看这种视频，则需要通过视频的摘要信息，对视频的内容进行介绍。

目前，主要依靠用户撰写视频的摘要信息，例如，视频制作者在制作视频的过程中，在视频的结尾增加视频制作者撰写的摘要信息，以便观众在观看完该视频后，能够观看到其撰写的摘要信息。再例如，观众观看完视频后，将自己撰写的摘要信息上传至视频的评论区，以便其他观众参考。

但是，这种依靠用户撰写视频的摘要信息的方式，增加了用户的时间成本，从而降低了视频发布平台对用户的吸引力，导致视频发布平台的用户黏度降低。

发明内容

本公开提供一种视频的摘要信息生成方法、装置、服务器以及存储介质，以提高视频发布平台的用户黏度。本公开的技术方案如下：

根据本公开实施例的一方面，提供一种视频的摘要信息生成方法，包括：

获取视频的多个文本描述信息，所述文本描述信息用于描述所述视频的视频帧；

分别对所述多个文本描述信息进行关键词提取，得到多个关键词组；

确定所述多个关键词组中的目标关键词组，所述目标关键词组符合摘要条件；

基于所述目标关键词组所属的文本描述信息，生成所述视频的摘要信息。

在一种可能的实现方式中，所述确定所述多个关键词组中的目标关键词组包括：

获取所述多个关键词组的摘要参考值，所述摘要参考值指示所述关键词组作为摘要信息的可能性；

基于所述多个关键词组的摘要参考值，从所述多个关键词组中，确定符合所述摘要条件的目标关键词组。

在一种可能的实现方式中，所述获取所述多个关键词组的摘要参考值包括：

将所述多个关键词组输入摘要参考值模型，所述摘要参考值模型基于输入的所述多个关键词组，输出所述多个关键词组的摘要参考值。

在一种可能的实现方式中，所述文本描述信息包括所述视频帧的字幕、第一文本信息以及第二文本信息中的至少一种，所述第一文本信息基于所述视频中所述视频帧对应的音频片段得到，所述第二文本信息基于所述视频帧以及图像描述模型得到。

在一种可能的实现方式中，所述获取视频的多个文本描述信息包括：

对于所述视频的多个视频帧中的每个视频帧，对所述视频帧的字幕进行提取；

若未提取到字幕，对所述视频中所述视频帧对应的音频片段进行提取，若提取到所述音频片段，对提取到的所述音频片段进行文本转换，得到所述第一文本信息；

若未提取到所述音频片段，将所述视频帧输入图像描述模型，由所述图像描述模型基于输入的所述视频帧，输出所述第二文本信息。

对于所述视频的多个视频帧中的每个视频帧，获取所述视频帧的字幕以及所述第一文本信息；

获取所述字幕与所述第一文本信息之间的相似度，所述相似度指示所述字幕与所述第一文本信息之间的相似程度；

若所述相似度大于或等于目标相似度，将所述字幕或所述第一文本信息作为所述视频帧的文本描述信息。

在一种可能的实现方式中，所述方法还包括：

若所述相似度小于所述目标相似度，对于所述字幕以及所述第一文本信息中的任一文本信息，获取所述任一文本信息的摘要参考值，所述摘要参考值指示所述任一文本信息作为摘要信息的可能性；

将所述字幕和所述第一文本信息中摘要参考值最高的文本信息，作为所述视频帧的文本描述信息。

在一种可能的实现方式中，所述视频帧包括第一区域以及第二区域中的至少一种区域，所述第一区域为视频帧中文本信息的显示频次大于或等于目标频次的区域，所述第二区域为所述视频帧中显示目标对象的区域；

所述字幕包括所述第一区域以及所述第二区域中至少一种区域内的文本信息。

在一种可能的实现方式中，所述对所述视频帧的字幕进行提取包括：

对所述视频帧中的所述第一区域进行文字识别；

若从所述第一区域未识别到文本信息，确定所述视频帧中的所述第二区域；

对所述第二区域进行文字识别。

在一种可能的实现方式中，所述获取视频的多个文本描述信息之前，所述方法还包括：

接收终端的摘要获取请求，所述摘要获取请求指示获取所述视频的摘要信息；

所述基于所述目标关键词组所属的文本描述信息，生成所述视频的摘要信之后，所述方法还包括：

向所述终端发送所述视频的摘要信息。

根据本公开实施例的另一方面，提供一种频的摘要信息显示方法，包括：

显示视频的播放画面，所述播放画面包括摘要选项，所述摘要选项用于提供所述视频的摘要信息；

响应于对所述摘要选项的选择操作，获取所述视频的摘要信息；

显示获取到的所述摘要信息。

在一种可能的实现方式中，所述响应于对所述摘要选项的选择操作，获取所述视频的摘要信息包括：

响应于对所述摘要选项的选择操作，向服务器发送摘要获取请求，所述摘要获取请求指示获取所述视频的摘要信息；

接收所述服务器基于所述摘要获取请求返回的所述视频的摘要信息。

在一种可能的实现方式中，所述显示获取到的所述摘要信息之前，所述方法包括：

响应于对所述摘要选项的选择操作，显示提示信息，所述提示信息用于提示正在获取所述摘要信息。

根据本公开实施例的另一方面，提供一种视频的摘要信息生成装置，包括：

获取单元，被配置为执行获取视频的多个文本描述信息，所述文本描述信息用于描述所述视频的视频帧；

提取单元，被配置为执行分别对所述多个文本描述信息进行关键词提取，得到多个关键词组；

确定单元，被配置为执行确定所述多个关键词组中的目标关键词组，所述目标关键词组符合摘要条件；

生成单元，被配置为执行基于所述目标关键词组所属的文本描述信息，生成所述视频的摘要信息。

在一种可能的实现方式中，所述确定单元：

获取子单元，被配置为执行获取所述多个关键词组的摘要参考值，所述摘要参考值指示所述关键词组作为摘要信息的可能性；

确定子单元，被配置为执行基于所述多个关键词组的摘要参考值，从所述多个关键词组中，确定符合所述摘要条件的目标关键词组。

在一种可能的实现方式中，所述获取子单元被配置为执行：

在一种可能的实现方式中，所述获取单元包括：

第一提取子单元，被配置为执行对于所述视频的多个视频帧中的每个视频帧，对所述视频帧的字幕进行提取；

第二提取子单元，被配置为执行若未提取到字幕，对所述视频中所述视频帧对应的音频片段进行提取，若提取到所述音频片段，对提取到的所述音频片段进行文本转换，得到所述第一文本信息；

输入子单元，被配置为执行若未提取到所述音频片段，将所述视频帧输入图像描述模型，由所述图像描述模型基于输入的所述视频帧，输出所述第二文本信息。

在一种可能的实现方式中，所述获取单元被配置为执行：

在一种可能的实现方式中，所述获取单元还被配置为执行：

在一种可能的实现方式中，所述第一提取子单元被配置为执行：

对所述视频帧中的所述第一区域进行文字识别；

对所述第二区域进行文字识别。

在一种可能的实现方式中，所述装置还包括：

接收单元，被配置为执行接收终端的摘要获取请求，所述摘要获取请求指示获取所述视频的摘要信息；

发送单元，被配置为执行向所述终端发送所述视频的摘要信息。

根据本公开实施例的另一方面，提供一种视频的摘要信息显示装置，包括：

显示单元，被配置为执行显示视频的播放画面，所述播放画面包括摘要选项，所述摘要选项用于提供所述视频的摘要信息；

获取单元，被配置为执行响应于对所述摘要选项的选择操作，获取所述视频的摘要信息；

所述显示单元，还被配置为执行显示获取到的所述摘要信息。

在一种可能的实现方式中，所述获取单元被配置为执行：

在一种可能的实现方式中，所述显示单元还被配置为执行：

根据本公开实施例的另一方面，提供一种服务器，包括：

一个或多个处理器；

用于存储所述一个或多个处理器可执行指令的一个或多个存储器；

其中，所述一个或多个处理器被配置为执行上述一方面的任一种可能实施方式中的视频的摘要信息生成方法。

根据本公开实施例的另一方面，提供一种终端，包括：

一个或多个处理器；

其中，所述一个或多个处理器被配置为执行上述另一方面的任一种可能实施方式中视频的摘要信息显示方法。

根据本公开实施例的另一方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的至少一条指令由服务器的一个或多个处理器执行时，使得所述服务器能够执行上述一方面的任一种可能实施方式中的视频的摘要信息生成方法。

根据本公开实施例的另一方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的至少一条指令由终端的一个或多个处理器执行时，使得所述终端能够执行上述另一方面的任一种可能实施方式中的视频的摘要信息显示方法。

根据本公开实施例的另一方面，提供一种计算机程序产品，包括一条或多条指令，所述一条或多条指令可以由服务器的一个或多个处理器执行，使得所述服务器能够执行上述一方面的任一种可能实施方式中的视频的摘要信息生成方法。

根据本公开实施例的另一方面，提供一种计算机程序产品，包括一条或多条指令，所述一条或多条指令可以由终端的一个或多个处理器执行，使得所述终端能够执行上述另一方面的任一种可能实施方式中的视频的摘要信息显示方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

通过获取视频的多个文本描述信息，从多个文本描述信息的关键词词组中，确定符合摘要条件的目标关键词组，进而基于目标关键词组所属的文本描述信息，生成视频的摘要信息，从而无须用户撰写摘要信息，降低了用户的时间成本，增加用户在视频发布平台上发布视频或观看视频的吸引力，从而提高了视频发布平台的用户黏度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种视频的摘要信息生成方法的实施环境示意图；

图2是根据一示例性实施例示出的一种视频的摘要信息生成方法的流程图；

图3是根据一示例性实施例示出的一种视频的摘要信息生成方法的流程图；

图4是根据一示例性实施例示出的一种视频的摘要信息生成方法的交互流程图；

图5是根据一示例性实施例示出的一种视频推荐界面的示意图；

图6是根据一示例性实施例示出的另一种视频推荐界面的示意图；

图7是根据一示例性实施例示出的一种视频帧的示意图；

图8是根据一示例性实施例示出的一种视频的摘要信息生成流程图；

图9是根据一示例性实施例示出的一种视频的摘要信息生成装置的逻辑结构框图；

图10是根据一示例性实施例示出的一种视频的摘要信息显示装置的逻辑结构框图；

图11是根据一示例性实施例示出的一种终端的结构框图；

图12是根据一示例性实施例示出的一种服务器的结构框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开所涉及的用户信息可以为经用户授权或者经过各方充分授权的信息。

在一种可能的实现方式中，A和/或B的含义包括：A和B，A，B这三种情况。

图1是根据一示例性实施例示出的一种视频的摘要信息生成方法的实施环境示意图，参见图1，在该实施环境中可以包括至少一个终端101和服务器102，下面进行详述：

每个终端101与服务器102通过有线或无线通信方式进行直接或间接地通信连接。该实施环境中的终端101包括智能手机、平板电脑、智能音箱、智能手表、笔记本电脑、智能掌机、便携式游戏设备或者台式计算机中的至少一种，但该实施环境中的终端101的类型不局限于此。

服务器102包括一台服务器、多台服务器、云计算平台或者虚拟化中心中的至少一种。在一种可能的实现方式中，服务器102是独立的物理服务器，或者是多个物理服务器构成的服务器集群或者分布式系统，或者是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)以及大数据和人工智能平台等基础云计算服务的云服务器。服务器102用于为各个终端101提供与视频相关的后台服务。

在一种可能的实现方式中，终端101中运行有视频应用，该视频应用为具有视频播放功能的应用程序。可选地，该视频应用为视频发布平台，用户能够在该视频应用发布视频，以便其他用户观看。其中，用户在视频应用上发布的视频包括该用户制作的视频或经过视频制作者授权后的视频。为了便于描述，将在视频应用上发布视频的用户称为发布者，将在该视频应用上浏览视频或者观看视频的用户称为观众。

视频应用中提供不同类型的视频，观众打开终端101中视频应用，浏览该视频应用提供的视频，以便观众选择视频观看。在一种可能的实现方式中，服务器102还能够为视频应用所提供的视频，生成摘要信息，向终端101发送该视频的摘要信息，由终端显示服务器发送的该视频的摘要信息，以便观众通过浏览该视频的摘要信息，能够获悉该视频的主要内容，以吸引用户选择播放该视频。

下面将结合方法实施例，对视频的摘要信息的生成过程以及显示过程作如下介绍：

图2是根据一示例性实施例示出的一种视频的摘要信息生成方法的流程图，该方法应用于服务器，该实施例包括以下步骤。

在步骤201中，服务器获取视频的多个文本描述信息，该文本描述信息用于描述该视频的视频帧。

在步骤202中，服务器分别对该多个文本描述信息进行关键词提取，得到多个关键词组。

在步骤203中，服务器确定该多个关键词组中的目标关键词组，该目标关键词组符合摘要条件。

在步骤204中，服务器基于该目标关键词组所属的文本描述信息，生成该视频的摘要信息。

本公开实施例提供的方法，通过获取视频的多个文本描述信息，从多个文本描述信息的关键词词组中，确定符合摘要条件的目标关键词组，进而基于目标关键词组所属的文本描述信息，生成视频的摘要信息，从而无须用户撰写摘要信息，降低了用户的时间成本，增加用户在视频发布平台上发布视频或观看视频的吸引力，从而提高了视频发布平台的用户黏度。

在一种可能的实现方式中，所述方法还包括：

对所述视频帧中的所述第一区域进行文字识别；

对所述第二区域进行文字识别。

向所述终端发送所述视频的摘要信息。

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

图3是根据一示例性实施例示出的一种视频的摘要信息显示方法的流程图，该方法应用于终端，该实施例包括以下步骤。

在步骤301中，终端显示视频的播放画面，该播放画面包括摘要选项，该摘要选项用于提供该视频的摘要信息。

在步骤302中，终端响应于对该摘要选项的选择操作，获取该视频的摘要信息。

在步骤303中，终端显示获取到的该摘要信息。

本公开实施例提供的方法，通过在视频的播放画面上显示摘要选项，使得终端响应于对该摘要选项的选择操作，能够获取该视频的摘要信息，显示获取到的该摘要信息，从而无须用户撰写摘要信息，降低了用户的时间成本，增加用户在视频发布平台上发布视频或观看视频的吸引力，从而提高了视频发布平台的用户黏度。

为了进一步说明服务器生成视频的摘要信息以及终端从服务器获取视频的摘要信息的过程，参见图4根据一示例性实施例示出的一种视频的摘要信息生成方法的交互流程图，如图4所示，该方法通过终端与服务器的交互来实现，该实施例包括以下步骤。

在步骤401中，终端显示视频的播放画面，该播放画面包括摘要选项，该摘要选项用于提供该视频的摘要信息。

其中，该视频为视频应用提供的视频，该视频的摘要信息用于描述该视频的主要内容。该视频的播放画面包括该视频的视频帧或该视频的视频封面。

在一种可能的实现方式中，终端在在该视频应用的视频推荐界面中，显示该视频的播放画面，其中，该视频推荐界面用于推荐至少一个视频，该视频为该视频推荐界面推荐的任一视频。

终端在通过该视频推荐界面推荐该至少一个视频时，为推荐的每个视频分别提供一个摘要选项。例如，图5根据一示例性实施例示出的一种视频推荐界面的示意图，终端在视频推荐界面500中，播放推荐的该视频。在播放该视频的过程中，终端在视频推荐界面500中，显示该视频的播放画面51，在播放画面51的上层显示摘要选项511。此时，该视频的播放画面51为该视频的视频帧。在播放该视频的过程中，摘要选项511一直显示在该视频的播放画面511的上层，或者，在该视频开始播放的第一时长内显示摘要选项511，当视频的播放时长大于或等于第一时长时，该终端不显示摘要选项511。第一时长可根据具体实施场景进行设置，在此，本公开实施例对第一时长不做限定。

再例如，图6根据一示例性实施例示出的另一种视频推荐界面的示意图，终端基于待推荐的至少一个视频的封面信息，在视频推荐界面600中，显示该至少一个视频的视频封面61，在每个视频的视频封面61上分别显示一个摘要选项611，此时每个视频封面61为一个视频的播放画面。

在另一种可能的实现方式中，终端可能不为推荐的视频提供摘要选项。

例如，视频应用提供的各个视频具有一个标签信息，视频的标签信息包括视频的时长或者视频的视频类型，视频类型包括讲解类视频、对话类视频、歌曲类视频或动物视频等，其中，讲解类视频例如演讲视频、教程视频或新闻视频。对话类视频例如综艺视频、访谈视频、相声视频、影视视频等。

若该标签信息包括该视频的时长，且该视频的时长大于或等于第二时长，则该终端为该视频提供摘要选项(例如在该视频的播放画面的上层显示摘要选项，或者在该视频的视频封面上显示摘要选项)，以便后续当观众触发摘要选项时，向服务器请求该视频的摘要信息。若该视频的时长小于第二时长，则该终端不为该视频提供摘要选项，以避免后续向服务器请求该视频的摘要信息，降低了服务器的工作量。

若该标签信息包括该视频的视频类型，且该视频类型为讲解类视频或对话类视频，则该终端为该视频提供摘要选项。若该视频类型不是讲解类视频或不是对话类视频，则该终端不为该视频提供摘要选项，以避免后续向服务器请求该视频的摘要信息，降低了服务器的工作量。

在步骤402中，终端响应于对该摘要选项的选择操作，向服务器发送摘要获取请求，该摘要获取请求指示获取该视频的摘要信息。

其中，该摘要获取请求包括该视频的标识。对该摘要选项的选择操作包括点击该摘要选项或以语音指令的方式选择该摘要选项，在此，本公开实施例对该选择操作不做限定。

在一种可能的实现方式中，观众对该播放画面上的摘要选项进行选择操作，终端响应于对该摘要选项的选择操作，基于该播放画面所属的视频的标识，生成摘要获取请求，向该服务器发送该摘要获取请求。

在步骤403中，服务器接收终端的该摘要获取请求。

在步骤404中，服务器获取视频的多个文本描述信息，该文本描述信息用于描述该视频的视频帧。

其中，该视频包括多个视频帧，该多个文本描述信息分别对应该多个视频帧中的一个视频帧，相应地，每个文本描述信息描述的是对应的视频帧。为了便于描述，将每个视频帧对应的文本描述信息称为每个视频帧的文本描述信息，其中，一个视频帧的文本描述信息包括该视频帧的字幕、第一文本信息以及第二文本信息中的至少一种，该第一文本信息基于该视频中该视频帧对应的音频片段得到，该第二文本信息基于该视频帧以及图像描述模型得到。其中，该图像描述模型用于基于视频帧输出该视频帧的文本描述信息，在一种可能的实现方式中，该图像描述模型为S2VT(Sequence to Sequence-Video to Text，序列到序列-视频到文本)模型或者其他类型的用于生成视频帧的文本描述信息的模型，在此，本公开实施例对图像描述模型不做限定。

在一种可能的实现方式中，本步骤404包括下述步骤4041-步骤4042。

在步骤4041中，该服务器获取该视频中的多个视频帧。

其中，该多个视频帧为该视频中的多个关键帧，在一种可能的实现方式中，该多个视频帧的内容互不重复。

以多个视频帧为该视频帧中的关键帧为例，该服务器在获取到该视频后，以目标帧数为采样频率，对该视频帧中的视频帧进行采样，得到多个关键帧。目标帧数可根据具体的实施场景进行设置，在此，本公开实施例对目标帧数不做限定。

或者，该服务器将该视频的各个视频帧输入关键帧识别模型，由该关键帧识别模型基于输入的视频帧，对该视频的关键帧进行识别，输出多个关键帧。其中，该关键帧识别模型为神经网络模型、机器学习模型或深度学习模型。只要关键帧识别模型能够识别出视频中的关键帧即可，在此，本公开实施例对关键帧识别模型不做限定。

由于视频帧中的多个关键帧为该视频中的部分视频帧，因此，服务器在基于该视频的关键帧，生成该视频的摘要信息的过程中，无须对该视频的所有视频帧进行处理，能够提高摘要信息的生成效率。

在另一种可能的实现方式中，在获取到该多个关键帧后，对于该多个关键帧中的第一关键帧和第二关键帧，该服务器获取第一关键帧和第二关键帧之间的相似度，若该相似度高于第一阈值，说明该第一关键帧和第二关键的内容相似，则服务器删除第一关键帧或第二关键帧中的任一关键帧，以减少关键帧的数量。相应地，服务器在基于该视频的关键帧，生成该视频的摘要信息的过程中，无须处理内容重复的关键帧，因此，能够进一步地提高摘要信息的生成效率。

其中，第一关键帧为该多个关键帧中的任一关键帧，第二关键帧为该多个关键帧中除第一关键帧以外的任一关键帧。第一关键帧和第二关键帧之间的相似度用于指示第一关键帧与第二关键帧之间的相似程度。在一种可能的实现方式中，第一关键帧和第二关键帧之间的相似度为第一关键帧与第二关键帧之间的欧式距离，或者，第一关键帧与第二关键帧在相同位置处的像素点之间的平均差值。第一阈值可根据具体实施场景进行设置，在此，本公开实施例对第一阈值不做限定。

在另一种可能的实现方式中，该服务器获取该视频所有的视频帧，以便获取到该视频更为全面的信息，使得后续基于该视频所有的视频帧，生成的该视频的摘要信息更加准确。

在步骤4042中，服务器基于该多个视频帧，获取该多个文本描述信息。

在一种可能的实现方式中，本步骤4042通过下述方式A或方式B中任一方式来实现，其中，方式A包括下述步骤A1-步骤A3，下面对方式A做如下介绍：

在步骤A1中，对于该视频的多个视频帧中的每个视频帧，该服务器对该视频帧的字幕进行提取。

其中，字幕为该视频帧中显示的文本信息。字幕可能显示在视频帧中的多个区域，以图7所示的根据一示例性实施例示出的一种视频帧的示意图为例，视频帧700包括第一区域701以及第二区域702中的至少一种区域，该视频帧的字幕包括该第一区域701以及第二区域702中至少一种区域内的文本信息。其中，第一区域701为视频帧中文本信息的显示频次大于或等于目标频次的区域，该视频帧700中的第一区域701有至少一个，可以理解的是，第一区域701为视频帧700中的固定区域，且第一区域701为视频帧700中用于显示字幕的高频区域。例如，第一区域701位于视频帧700中的底部位置、顶部位置、中间位置、左侧位置和左侧位置中的至少一个位置。

第二区域702为视频帧700中显示目标对象的区域，其中，目标对象包括人像或物体，目标对象可根据具体实施场景进行设置，在此，本公开实施例对目标对象不做限定。

在一种可能的实现方式中，该第二区域702内可能显示有文本信息，也可能不显示文本信息，因此，相对于第一区域701，第二区域702为视频帧700中用于显示字幕的低频区域。另外，在不同视频帧中目标对象的显示位置不同，不同视频帧中的第二区域的位置不同，因此，第二区域并不是视频帧中的固定区域。

在一种可能的实现方式中，服务器通过文字识别的方式，对该视频帧的字幕进行提取。例如下述步骤A11-步骤A13所示的过程。

在步骤A11中，服务器对该视频帧中的该第一区域进行文字识别。

例如，该服务器基于OCR(Optical Character Recognition，光学字符识别)方式或其他文字识别的方式，对该视频帧中的第一区域进行文字识别，在此，本公开实施例对文字识别的方式不做限定。

由于第一区域为该视频帧中用于显示字幕的高频区域，在该视频帧不包括目标对象的情况下，该视频帧中不存在第二区域，且在该视频帧存在第二区域的情况下，第二区域中的字幕也可能和第一区域中的字幕重复，则第一区域中的显示的字幕为该视频帧的主要字幕。相应地，在一种可能的实现方式中，若从第一区域识别到文本信息，且识别到的文本信息不为空，则识别到的文本信息也即是第一区域内的字幕，服务器不再对该视频帧的第二区域进行文字识别，将从第一区域中识别到的文本信息作为该视频帧的文本描写信息，从而提高了文本描述信息的获取效率。

在步骤A12中，若从该第一区域未识别到文本信息，服务器确定该视频帧中的第二区域。

在一种可能的实现方式中，服务器通过识别该视频帧中的目标对象，确定该视频帧中的第二区域：

该服务器对该视频帧中的目标对象进行识别，以确定该视频帧中目标对象所在的区域。例如，该服务器将该视频帧输入对象识别视频模型，该对象识别模型对输入的视频帧中的目标对象进行识别，输出该视频帧中目标对象的位置，该视频帧中目标对象的位置所指示的区域也即是视频帧中该目标对象所在的区域。其中，该对象识别模型为R-CNN(region-CNN，区域卷积神经网络)模型或者其他的能够识别出目标对象的模型。在此，本公开实施例对该对象识别模型不做限定。

若从该视频帧中识别到该目标对象，服务器对视频帧中该目标对象所在的区域(记为第三区域)进行膨胀，膨胀后的第三区域也即是第二区域。仍以图7为例，若服务器识别出目标对象位于视频帧700中的第三区域703，服务器将第三区域703的中心O与该第三区域703中距离该中心距离最远的点P进行连接，得到目标射线704，向该中心O相反的方向将该目标射线704延伸目标距离，服务器将视频帧700中以该中心O为圆心，以延伸后的目标射线704为半径的圆作为第二区域702。或者，服务器将第三区域703的边由原来的位置向外膨胀目标距离，得到第二区域702。在此，本公开实施例对第三区域的膨胀方式不做限定。

在另一种可能的实现方式中，数据库中存储多个视频的各个视频帧中第二区域的位置，该服务器从该数据库中获取该视频的该视频帧中第二区域的位置，从而避免服务器对该视频帧中的目标对象进行识别。

需要说明的是，若该服务器从该视频帧中未识别到目标对象，或未从数据库中获取到该视频帧中第二区域的位置，说明该视频帧中不存在第二区域，则服务器不再执行步骤A13。

在步骤A13中，服务器对该第二区域进行文字识别。

其中，本步骤A13与上述步骤A11同理，在此，本公开实施例对本步骤A13不再赘述。

若从第二区域识别到文本信息，则该文本信息也即是第二区域中的字幕。另外，由于不同视频帧中第二区域的位置可能不同，通过对视频帧中的第二区域进行文字识别，能够实现定点跟踪目标物体的字幕。

在另一种可能的实现方式中，在对第一区域进行文字识别后，若从第一区域中识别到文本信息，则该服务器还继续对第二区域进行文字识别，或者是，服务器对该视频帧中的第一区域和第二区域进行文字识别，从第一区域和第二区域中识别到的文本信息均为提取到的该视频帧的字幕，使得提到的该视频帧的字幕更为全面。当全面的字幕作为文本描述信息，能够更加准确的描述该视频帧。

在步骤A2中，若未提取到字幕，服务器对该视频中该视频帧对应的音频片段进行提取，若提取到该音频片段，对提取到的该音频片段进行文本转换，得到该视频帧的第一文本信息。

其中，若从该视频帧中的第一区域和第二区域均未识别出文本信息，则说明未提取到字幕，也即是该视频帧不包括字幕，进一步地，该服务器对该视频的音频数据进行提取。例如，服务器通过FFmpeg(Fast Forward Moving Picture Experts Group，快进动态图像专家组)，对该视频的音频数据进行提取，当然，服务器也可能通过除FFmpeg以外的其他方式，对该视频的音频数据进行提取，在此，本公开实施例对视频的音频数据的提取方式不做限定。

若提取到该视频的音频数据，说明该视频为有声视频，该服务器对该音频数据中该视频帧对应的音频片段进行提取。例如，该服务器基于该视频帧在该视频中的位置(如该视频帧的帧号)，确定该视频帧的播放时间，该服务器基于该视频帧的播放时间，从该音频数据中截取目标时间段内的音频片段，截取的音频片段也即是该视频帧对应的音频片段。

其中，该目标时间段包括该视频帧的播放时间，例如，目标时间段为以该播放时间为中心的第三时长的时间段。该第三时长可能为播放目标帧数的视频帧所占用的时长，当然，该第三时长也可能有其他的取值，在此，本公开实施例对第三时长不做限定。

在从音频数据中提取到该视频帧对应的音频片段的情况下，服务器对该音频片段进行文本转换。例如，服务器将该音频片段输入文本转换模型，由该文本转换模型基于输入的音频片段，输出第一文本信息，其中，该文本转换模型例如ASR(Automatic SpeechRecognition，自动语音识别)模型或其他的文本转换模型，在此，本公开实施例对文本转换模型不做限定。

需要说明的是，若转换出的第一文本信息为空，则说明该音频片段不是人声片段，转换出第一文本信息无效，若第一文本信息不为空，则说明该音频片段人声片段，转换出第一文本信息有效，则使用该第一文本信息作为该视频帧的文本描述信息。在一种可能的实现方式中，若第一文本信息为空，则该服务器执行下述步骤A3。

在步骤A3中，若未提取到音频片段，服务器将该视频帧输入图像描述模型，由该图像描述模型基于输入的该视频帧，输出该视频帧的第二文本信息。

上述步骤A1-A3是以获取多个视频帧中的一个视频帧的文本描述信息为例进行说明的，在另一种可能的实现方式中，该服务器先对该多个视频帧的字幕进行提取，若从至少一个视频帧均能提取到字幕，说明该视频为有字幕视频，则将至少一个视频帧的字幕作为每个视频帧的文本描述信息。对于未提取到字幕的视频帧的文本描写信息，可通过音频片段转换得到或通过图像描述模型得到。

若从多个视频帧均未提取到字幕，说明该视频为无字幕视频，则该服务器对该视频的音频数据进行提取，若未提取到音频数据，说明该视频为无声视频，进一步地，该服务器将该多个视频帧输入该图像描述模型，由该图像描述模型基于输入的多个视频帧，输出该多个视频帧的第二文本信息，以将每个视频帧的第二文本信息作为每个视频帧的文本描述信息。

若提取到音频数据，则说明该视频为有声视频，进一步地，服务器从该音频数据中，截取该多个视频帧对应的音频片段，将多个视频帧对应的音频片段转换为多个第一文本信息，若至少一个第一文本信息为非空，说明该视频为包含人声的视频，将该至少一个文本信息作为对应视频帧的文本描述信息，对于为空的第一文本信息对应的视频帧，可通过图像描述模型得到该视频帧的文本描述信息。

若该多个第一文本信息均为非空，说明该视频为非人声视频，进一步地，服务器通过图像描述模型得到多个视频帧的文本描述信息。

通过上述步骤A1-A3，对于有字幕视频、无字幕且包含人声的视频、无字幕以及非人声的视频，该服务器均能够获取到该视频帧的多个文本描述信息，从而使得本方法能够适用不同情况的视频。

方式B包括下述步骤B1-步骤B5，下面对方式B作如下介绍：

在步骤B1中，对于该视频的多个视频帧中的每个视频帧，服务器获取视频帧的字幕以及第一文本信息。

其中，该视频帧的字幕的获取方式参见上述步骤A1，该视频帧的第一文本信息的获取方式参见上述步骤A2，在此，本公开实施例对本步骤B1不再赘述。

在步骤B2中，服务器获取该字幕与该第一文本信息之间的相似度，该相似度指示该字幕与该第一文本信息之间的相似程度。

在一种可能的实现方式中，对于该字幕以及该第一文本信息中的任一文本信息，服务器对文本信息进行关键字提取，得到该文本信息对应的关键词组，其中，该关键词组包括从该文本信息中提取到的关键词。

例如，服务器对于该文本信息，进行分词和词性标注处理，删除该文本信息中的停止词，将该文本信息中指定词性的单词，组成该关键词组。其中，指定词性的单词包括名词、动词以及形容词。再例如，服务器将该文本信息输入关键词识别模型，该关键词识别模型对输入的文本信息中的关键词进行识别，输出一个关键词组，该关键词组包括关键词识别模型识别出的关键词。

其中，该关键词识别模型例如文本排序TextRank算法中的关键词提取模型或者其他类型的关键词识别模型，在此，本公开实施例对该关键词识别模型不做限定。另外，只要服务器能够提取出文本信息中的关键词即可，本公开实施例对关键词提取的方式不做限定。

为了便于描述，将从字幕中提取出的关键词组称为第一关键词组，将从第一文本信息中提取出的关键词组称为第二关键词组。该服务器基于该第一关键词组和第二关键词组，获取该字幕与第一文本信息之间的相似度。

例如，服务器统计该第一关键词组和第二关键词组中相同关键词的个数，统计该第一关键词组和第二关键词组中关键词的总个数，将相同关键词的个数与该总个数之间的比值作为该相似度。

在步骤B3中，若该字幕与该第一文本信息之间的相似度大于或等于目标相似度，服务器将该字幕或该第一文本信息作为该视频帧的文本描述信息。

其中，目标相似度的取值可根据具体实施场景进行设置，在此，本公开实施例对目标相似度不做限定。

若该相似度大于或等于目标相似度，则说明字幕和第一文本信息中重复的关键词比较多，字幕和第一文本信息比较相似，该服务器将该字幕或该第一文本信息作为该视频帧的文本描述信息，以减少文本描写信息中的重复内容。

在步骤B4中，若该字幕与该第一文本信息之间的相似度小于该目标相似度，对于该第一文本信息以及该第二文本信息中的任一文本信息，该服务器获取该文本信息的摘要参考值，该摘要参考值指示该文本信息作为摘要信息的可能性。

其中，摘要参考值为该文本信息的关键词组的摘要参考值，此时，该摘要参考值指示该关键词组作为摘要信息的可能性。在一种可能的实现方式中，摘要参考值模型的取值范围为0-1，摘要参考值越大，该文本信息或关键词组作为摘要信息的可能性越大。

在一种可能的实现方式中，对于该第一文本信息以及该第二文本信息中的任一文本信息，服务器将该文本信息的关键词组输入摘要参考值模型，该摘要参考值模型基于输入的关键词组，输出该关键词组的摘要参考值。

其中，摘要参考值模型包括神经网络模型、机器学习模型或深度学习模型。以摘要参考值模型为神经网络模型为例，该摘要参考值模型包括RNN(Recurrent NeuralNetwork，递归神经网络)模型，在此，本公开实施例对摘要参考值模型的类型不做限定。

在一种可能的实现方式中，若该摘要参考值模型不能识别文字，则服务器先将该文本信息的关键词组进行向量化处理，得到该关键词组的向量数据，将该向量数据输入摘要参考值模型，由摘要参考值模型基于该向量数据，输出该关键词组的摘要参考值。

服务器在通过要参考值模型获取文本信息的摘要参考值之前，获取摘要参考值模型，下面对该服务器获取摘要参考值模型的过程，作如下介绍：

在一种可能的实现方式中，服务器根据训练集，对该初始模型进行模型训练，得到该摘要参考值模型。其中，该训练集包括多个关键词组以及多个关键词组的标签，每个关键词组的标签包括对应关键词组的摘要参考值。

例如，该服务器将多个关键词组以及该多个关键词组的标签输入该初始模型，以多个关键词组的标签作为期望输出值，对该初始模型进行迭代训练，直至迭代训练后的初始模型输出该多个关键词组的摘要参考值正确率高于第二阈值为止。

其中，迭代训练后的初始模型也即是摘要参考值模型，该多个关键词组的摘要参考值正确率是指：迭代训练后的初始模型输出的摘要参考值与标签相同的关键组的个数在多个关键词组中的占比。当然，若初始模型不能识别文字，服务器将该多个关键词组的向量数据以及该多个关键词组的标签输入该初始模型，以多个关键词组的标签作为期望输出值，对该初始模型进行迭代训练。

在另一种可能的实现方式中，该服务器无须自己训练摘要参考值初始模型，而是从其他设备获取摘要参考值初始模型。

在步骤B5中，该服务器将该字幕和该第一文本信息中摘要参考值最高的文本信息，作为该视频帧的文本描述信息。

由于文本信息的摘要参考值越高，该文本信息最有可能成为摘要信息，因此，该服务器将该字幕和该第一文本信息中摘要参考值最高的文本信息，作为该视频帧的文本描述信息。

需要说明的是，上述步骤B2-步骤B5均为可选步骤，例如，若获取到视频帧的字幕以及第一文本信息，服务器将该字幕以及该第一文本信息中的至少一种作为该视频帧的文本描述信息，则此时无须执行步骤B2-步骤B5。再例如，若该字幕与该第一文本信息之间的相似度小于目标相似度，服务器将该字幕或该第一文本信息作为该视频帧的文本描述信息，则此时无须执行步骤B4和B5。

在步骤405中，服务器分别对该多个文本描述信息进行关键词提取，得到多个关键词组。

其中，每个关键词组包括从一个文本描述信息中提取到的关键词，每个关键词组中的关键词有至少一个。

服务器对每个文本描述信息进行关键词提取的过程可参考上述对字幕或第一文本信息进行关键词提取的过程，在此，本公开实施例对本步骤405不再赘述。

在步骤406中，服务器确定该多个关键词组中的目标关键词组，该目标关键词组符合摘要条件。

其中，摘要条件包括：多个关键词组中摘要参考值最高的目标个数的关键词组，或者摘要参考值大于第三阈值的关键词组。

在一种可能的实现方式中，本步骤406包括下述步骤4061-步骤4062。

在步骤4061中，服务器获取该多个关键词组的摘要参考值，该摘要参考值指示该关键词组作为摘要信息的可能性。

例如，服务器将该多个关键词组输入摘要参考值模型，该摘要参考值模型基于输入的该多个关键词组，输出该多个关键词组的摘要参考值。其中，该摘要参考值模型在上述步骤B4中有相关介绍，在此，本公开实施例对该摘要参考值模型不再赘述。

在步骤4062中，服务器基于该多个关键词组的摘要参考值，从该多个关键词组中，确定符合该摘要条件的目标关键词组。

其中，该多个关键词组中的目标关键词组有至少一个。

在一种可能的实现方式中，服务器将该多个关键词组中分数最高的目标个数的关键词组，作为符合该摘要条件的目标关键词组。其中，目标个数可根据具体实施场景进行设置，在此本公开实施例对该目标个数不做限定。

例如，该服务器按照从小到大的顺序，对多个关键词组的摘要参考值进行排序，得到第一摘要参考值序列，将该第一摘要参考值序列中后目标个数的摘要参考值对应的关键词组作为目标关键词组。

或者，该服务器按照从大到小的顺序，对多个关键词组的摘要参考值进行排序，得到第二摘要参考值序列，将该第二摘要参考值序列中前目标个数的摘要参考值对应的关键词组作为目标关键词组。

在另一种可能的实现方式中，服务器将该多个关键词组中摘要参考值大于或等于第三阈值的关键词组，确定为符合该摘要条件的目标关键词组。其中，第三阈值可根据具体实施场景进行设置，在此，本公开实施例对第三阈值不做限定。

在步骤407中，服务器基于该目标关键词组所属的文本描述信息，生成该视频的摘要信息。

在一种可能的实现方式中，该服务器将该多个关键词组中的至少一个目标关键词组所属的文本描述信息，作为成该视频的摘要信息。

在另一种可能的实现方式中，该视频的摘要信息小于或等于目标字符数。其中，目标字符数可根据具体实施场景进行设置，在此，本公开实施例对目标字符数不做限定。

为了便于描述，将目标关键词组所属的文本描述信息称为目标文本描述信息。若目标文本描述信息有多个，且多个目标文本描述信息的总字符数大于该目标字符数，则该服务器从多个目标文本描述信息中，随机删除至少一个目标文本描述信息，或者，优先删除该多个目标文本描述信息中摘要参考值最小的目标文本描述信息，或优先删除具有多余字符数的目标文本描述信息，使得剩余的目标文本描述信息的总字符数小于或等于目标字符数。该多余字符数为该多个目标文本描述信息的总字符数与目标字符数之间的差值。

在一种可能的实现方式中，该服务器优先删除该多个目标文本描述信息中摘要参考值最小的目标文本描述信息的过程，例如，服务器先删除该多个目标文本描述信息中摘要参考值最小的目标关键词组所属的目标文本描述信息，若剩余的目标文本描述信息总字符数小于或等于目标字符数，则结束删除。若剩余的目标文本描述信息总字符数大于目标字符数，则服务器再删除该多个目标文本描述信息中摘要参考值次小的目标关键词组所属的目标文本描述信息，依次类推，直至剩余的目标文本描述信息总字符数小于或等于目标字符数为止。

在一种可能的实现方式中，该服务器优先删除具有多余字符数的目标文本描述信息的过程，例如，该服务器将该多余字符数分别与多个目标文本描述信息的字符数进行对比，删除该多个目标文本描述信息中字符数大于多余字符数且与多余字符数之间差值最小的目标文本描述信息。

若目标文本描述信息有一个，且该目标文本描述信息的字符数大于目标字符数，该服务器将该目标文本描述信息的目标关键词组作为该视频的摘要信息。

在另一种可能的实现方式中，该服务器在获取到该视频的摘要信息后，还能够将该视频的摘要信息存储在数据库中，当该服务器再次接收到用于请求获取该视频的摘要信息的摘要获取请求时，该服务器基于该视频的标识，从数据库查询该视频的摘要信息，向终端返回查询到的该视频的摘要信息，对于这种情况该服务器无须执行上述步骤403-步骤407所示的过程。

在步骤408中，服务器向该终端发送该视频的摘要信息。

在步骤409中，终端接收该摘要信息。

其中，终端接收的是该服务器基于该摘要获取请求返回的该视频的摘要信息。

需要说明的是，步骤402以及步骤409为终端响应于对该摘要选项的选择操作，获取该视频的摘要信息的过程.

在步骤410中，终端显示接收到的该摘要信息。

例如，该终端在该视频的视频播放画面的上层显示该摘要信息，或者，该视频播放画面之外的区域显示该摘要信息，以便观众通过浏览该摘要信息，就能够获悉该视频的主要内容。

在另一种可能的实现方式中，终端响应于对该摘要选项的选择操作，显示提示信息，该提示信息用于提示正在获取该摘要信息，以达到提示的目的。

当终端接收到该摘要信息后，该终端不显示该提示信息，显示接收到摘要信息。

为了进一步说明服务器基于方式A，生成视频的摘要信息的过程，参见图8根据一示例性实施例示出的一种视频的摘要信息生成流程图，服务器对视频进行采样，得到N个视频帧，N为大于0的整数，对于每个视频帧，服务器对视频帧的字幕进行识别，若识别到字幕，将识别到的字幕作为视频帧的文本描述信息。若未识别到字幕，服务器对视频的音频数据进行提取，若提取到音频数据，对音频数据中视频帧对应的音频片段进行文本转换，若文本转换成功(如转换出的第一文本信息不为空)，将转换得到的第一文本信息作为该视频帧的文本描述信息。若未提取到音频数据或文本转换失败(如转换得到的第一文本信息为空)，则将视频帧输入图像描述模型，将图像描述模型输出的第二文本信息作为文本描述信息。若多个视频帧的文本描述信息都为空，则结束生成视频的摘要信息的过程。若存在至少一个视频帧的文本描述信息不为空，则根据至少一个视频帧的文本描述信息，生成该视频的摘要信息。

图9是根据一示例性实施例示出的一视频的摘要信息生成装置的逻辑结构框图。参照图9，该装置900。

获取单元901，被配置为执行获取视频的多个文本描述信息，所述文本描述信息用于描述所述视频的视频帧；

提取单元902，被配置为执行分别对所述多个文本描述信息进行关键词提取，得到多个关键词组；

确定单元903，被配置为执行确定所述多个关键词组中的目标关键词组，所述目标关键词组符合摘要条件；

生成单元904，被配置为执行基于所述目标关键词组所属的文本描述信息，生成所述视频的摘要信息。

在一种可能的实现方式中，所述确定单元903：

在一种可能的实现方式中，所述获取子单元被配置为执行：

在一种可能的实现方式中，所述获取单元901包括：

在一种可能的实现方式中，所述获取单元901被配置为执行：

在一种可能的实现方式中，所述获取单元901还被配置为执行：

对所述视频帧中的所述第一区域进行文字识别；

对所述第二区域进行文字识别。

在一种可能的实现方式中，所述装置900还包括：

装置900通过获取视频的多个文本描述信息，从多个文本描述信息的关键词词组中，确定符合摘要条件的目标关键词组，进而基于目标关键词组所属的文本描述信息，生成视频的摘要信息，从而无须用户撰写摘要信息，降低了用户的时间成本，增加用户在视频发布平台上发布视频或观看视频的吸引力，从而提高了视频发布平台的用户黏度。

关于上述实施例中的装置900，其中各个单元执行操作的具体方式已经在有关视频的摘要信息生成方法的实施例中进行了详细描述，此处将不做详细阐述说明，装置900仅以上述各功能单元的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元完成，即将装置900的内部结构划分成不同的功能单元，以完成以上描述的全部或者部分功能。

图10是根据一示例性实施例示出的一种视频的摘要信息显示装置的逻辑结构框图。参照图10，装置1000包括：

显示单元1001，被配置为执行显示视频的播放画面，所述播放画面包括摘要选项，所述摘要选项用于提供所述视频的摘要信息；

获取单元1002，被配置为执行响应于对所述摘要选项的选择操作，获取所述视频的摘要信息；

所述显示单元1001，还被配置为执行显示获取到的所述摘要信息。

在一种可能的实现方式中，所述获取单元1002被配置为执行：

在一种可能的实现方式中，所述显示单元1001还被配置为执行：

装置1000通过在视频的播放画面上显示摘要选项，使得终端响应于对该摘要选项的选择操作，能够获取该视频的摘要信息，显示获取到的该摘要信息，从而无须用户撰写摘要信息，降低了用户的时间成本，增加用户在视频发布平台上发布视频或观看视频的吸引力，从而提高了视频发布平台的用户黏度。

关于上述实施例中的装置1000，其中各个单元执行操作的具体方式已经在有关视频的摘要信息显示方法的实施例中进行了详细描述，此处将不做详细阐述说明，装置1000仅以上述各功能单元的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元完成，即将装置1000的内部结构划分成不同的功能单元，以完成以上描述的全部或者部分功能。

图11根据一示例性实施例示出的一种终端的结构框图。该终端1100可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端1100还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端1100包括有：处理器1101和存储器1102。

处理器1101可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1101可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1101也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一种可能的实现方式中，处理器1101可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1101还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1102可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1102还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一种可能的实现方式中，存储器1102中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1101所执行以实现本公开中各个实施例提供的视频的摘要信息显示方法。

在一种可能的实现方式中，终端1100还可选包括有：外围设备接口1103和至少一个外围设备。处理器1101、存储器1102和外围设备接口1103之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1103相连。具体地，外围设备包括：射频电路1104、触摸显示屏1105、摄像头组件1106、音频电路1107和电源1108中的至少一种。

外围设备接口1103可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器1101和存储器1102。在一种可能的实现方式中，处理器1101、存储器1102和外围设备接口1103被集成在同一芯片或电路板上；在一些其他实施例中，处理器1101、存储器1102和外围设备接口1103中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1104用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1104通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1104将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1104包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1104可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一种可能的实现方式中，射频电路1104还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本公开对此不加以限定。

显示屏1105用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1105是触摸显示屏时，显示屏1105还具有采集在显示屏1105的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1101进行处理。此时，显示屏1105还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一种可能的实现方式中，显示屏1105可以为一个，设置终端1100的前面板；在另一种可能的实现方式中，显示屏1105可以为至少两个，分别设置在终端1100的不同表面或呈折叠设计；在再一些实施例中，显示屏1105可以是柔性显示屏，设置在终端1100的弯曲表面上或折叠面上。甚至，显示屏1105还可以设置成非矩形的不规则图形，也即异形屏。显示屏1105可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(OrganicLight-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件1106用于采集图像或视频。可选地，摄像头组件1106包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一种可能的实现方式中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一种可能的实现方式中，摄像头组件1106还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1107可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1101进行处理，或者输入至射频电路1104以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端1100的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1101或射频电路1104的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一种可能的实现方式中，音频电路1107还可以包括耳机插孔。

电源1108用于为终端1100中的各个组件进行供电。电源1108可以是交流电、直流电、一次性电池或可充电电池。当电源1108包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一种可能的实现方式中，终端1100还包括有一个或多个传感器1110。该一个或多个传感器1110包括但不限于：加速度传感器1111、陀螺仪传感器1112、压力传感器1113、光学传感器1114以及接近传感器1115。

加速度传感器1111可以检测以终端1100建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1111可以用于检测重力加速度在三个坐标轴上的分量。处理器1101可以根据加速度传感器1111采集的重力加速度信号，控制触摸显示屏1105以横向视图或纵向视图进行用户界面的显示。加速度传感器1111还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1112可以检测终端1100的机体方向及转动角度，陀螺仪传感器1112可以与加速度传感器1111协同采集用户对终端1100的3D动作。处理器1101根据陀螺仪传感器1112采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1113可以设置在终端1100的侧边框和/或触摸显示屏1105的下层。当压力传感器1113设置在终端1100的侧边框时，可以检测用户对终端1100的握持信号，由处理器1101根据压力传感器1113采集的握持信号进行左右手识别或快捷操作。当压力传感器1113设置在触摸显示屏1105的下层时，由处理器1101根据用户对触摸显示屏1105的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

光学传感器1114用于采集环境光强度。在一个实施例中，处理器1101可以根据光学传感器1114采集的环境光强度，控制触摸显示屏1105的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏1105的显示亮度；当环境光强度较低时，调低触摸显示屏1105的显示亮度。在另一个实施例中，处理器1101还可以根据光学传感器1114采集的环境光强度，动态调整摄像头组件1106的拍摄参数。

接近传感器1115，也称距离传感器，通常设置在终端1100的前面板。接近传感器1115用于采集用户与终端1100的正面之间的距离。在一个实施例中，当接近传感器1115检测到用户与终端1100的正面之间的距离逐渐变小时，由处理器1101控制触摸显示屏1105从亮屏状态切换为息屏状态；当接近传感器1115检测到用户与终端1100的正面之间的距离逐渐变大时，由处理器1101控制触摸显示屏1105从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图11中示出的结构并不构成对终端1100的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图12是根据一示例性实施例示出的一种服务器的结构示意图，该服务器1200可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(CentralProcessing Units，CPU)1201和一个或一个以上的存储器1202，其中，该存储器1202中存储有至少一条程序代码，该至少一条程序代码由该处理器1201加载并执行以实现上述实施例提供的视频的摘要信息生成方法。当然，该计算机设备1200还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该计算机设备1200还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种包括至少一条指令的计算机可读存储介质，例如包括至少一条指令的存储器，上述至少一条指令可由服务器中的处理器执行以完成上述实施例中的视频的摘要信息生成方法。

在示例性实施例中，还提供了一种包括至少一条指令的计算机可读存储介质，例如包括至少一条指令的存储器，上述至少一条指令可由终端中的处理器执行以完成上述实施例中的视频的摘要信息显示方法。

可选地，上述计算机可读存储介质可以是非临时性计算机可读存储介质，例如，该非临时性计算机可读存储介质可以包括ROM(Read-Only Memory，只读存储器)、RAM(Random-Access Memory，随机存取存储器)、CD-ROM(Compact Disc Read-Only Memory，只读光盘)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品，包括一条或多条指令，该一条或多条指令可以由服务器的处理器执行，以完成上述各个实施例提供的视频的摘要信息生成方法。

在示例性实施例中，还提供了一种计算机程序产品，包括一条或多条指令，该一条或多条指令可以由终端的处理器执行，以完成上述各个实施例提供的视频的摘要信息显示方法。

需要说明的是，本公开所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如，本公开中涉及到的视频、视频的摘要信息都是在充分授权的情况下获取的。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种视频的摘要信息生成方法，其特征在于，包括：

对于视频的多个视频帧中的每个视频帧，获取所述视频帧的字幕以及第一文本信息，所述第一文本信息基于所述视频中所述视频帧对应的音频片段得到；

若所述相似度大于或等于目标相似度，将所述字幕或所述第一文本信息作为所述视频帧的文本描述信息，所述文本描述信息用于描述所述视频的视频帧；

2.根据权利要求1所述的视频的摘要信息生成方法，其特征在于，所述确定所述多个关键词组中的目标关键词组包括：

3.根据权利要求2所述的视频的摘要信息生成方法，其特征在于，所述获取所述多个关键词组的摘要参考值包括：

4.根据权利要求1所述的视频的摘要信息生成方法，其特征在于，所述文本描述信息包括所述字幕、所述第一文本信息以及第二文本信息中的至少一种，所述第二文本信息基于所述视频帧以及图像描述模型得到。

5.根据权利要求4所述的视频的摘要信息生成方法，其特征在于，所述方法还包括：

6.根据权利要求1所述的视频的摘要信息生成方法，其特征在于，所述方法还包括：

7.根据权利要求5-6中任一项所述的视频的摘要信息生成方法，其特征在于，所述视频帧包括第一区域以及第二区域中的至少一种区域，所述第一区域为视频帧中文本信息的显示频次大于或等于目标频次的区域，所述第二区域为所述视频帧中显示目标对象的区域；

8.根据权利要求7所述的视频的摘要信息生成方法，其特征在于，所述对所述视频帧的字幕进行提取包括：

对所述视频帧中的所述第一区域进行文字识别；

对所述第二区域进行文字识别。

9.根据权利要求1-6中任一项所述的视频的摘要信息生成方法，其特征在于，所述获取所述视频帧的字幕以及第一文本信息之前，所述方法还包括：

向所述终端发送所述视频的摘要信息。

10.一种视频的摘要信息显示方法，其特征在于，包括：

显示视频的播放画面，所述播放画面包括摘要选项，所述摘要选项用于提供所述视频的摘要信息，所述摘要信息基于所述视频的多个视频帧的文本描述信息得到，所述视频帧的所述文本描述信息用于描述所述视频帧，所述文本描述信息为所述视频帧的字幕或第一文本信息，所述字幕与所述第一文本信息之间的相似度大于目标相似度，所述第一文本信息基于所述视频中所述视频帧对应的音频片段得到，所述相似度指示所述字幕与所述第一文本信息之间的相似程度；

显示获取到的所述摘要信息。

11.根据权利要求10所述的视频的摘要信息显示方法，其特征在于，所述响应于对所述摘要选项的选择操作，获取所述视频的摘要信息包括：

12.根据权利要求11所述的视频的摘要信息显示方法，其特征在于，所述显示获取到的所述摘要信息之前，所述方法包括：

13.一种视频的摘要信息生成装置，其特征在于，包括：

获取单元，被配置为执行对于视频的多个视频帧中的每个视频帧，获取所述视频帧的字幕以及第一文本信息，所述第一文本信息基于所述视频中所述视频帧对应的音频片段得到；获取所述字幕与所述第一文本信息之间的相似度，所述相似度指示所述字幕与所述第一文本信息之间的相似程度；若所述相似度大于或等于目标相似度，将所述字幕或所述第一文本信息作为所述视频帧的文本描述信息，所述文本描述信息用于描述所述视频的视频帧；

14.一种视频的摘要信息显示装置，其特征在于，包括：

显示单元，被配置为执行显示视频的播放画面，所述播放画面包括摘要选项，所述摘要选项用于提供所述视频的摘要信息，所述摘要信息基于所述视频的多个视频帧的文本描述信息得到，所述视频帧的所述文本描述信息用于描述所述视频帧，所述文本描述信息为所述视频帧的字幕或第一文本信息，所述字幕与所述第一文本信息之间的相似度大于目标相似度，所述第一文本信息基于所述视频中所述视频帧对应的音频片段得到，所述相似度指示所述字幕与所述第一文本信息之间的相似程度；

15.一种服务器，其特征在于，包括：

一个或多个处理器；

其中，所述一个或多个处理器被配置为执行所述指令，以实现如权利要求1至权利要求9中任一项所述的视频的摘要信息生成方法。

16.一种终端，其特征在于，包括：

一个或多个处理器；

其中，所述一个或多个处理器被配置为执行所述指令，以实现如权利要求10至权利要求12中任一项所述的视频的摘要信息显示方法。

17.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的至少一条指令由服务器的一个或多个处理器执行时，使得所述服务器能够执行如权利要求1至权利要求9中任一项所述的视频的摘要信息生成方法。

18.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的至少一条指令由终端的一个或多个处理器执行时，使得所述终端能够执行如权利要求10至权利要求12中任一项所述的视频的摘要信息显示方法。