CN114078221A

CN114078221A - 视频摘要生成方法及装置

Info

Publication number: CN114078221A
Application number: CN202010808917.XA
Authority: CN
Inventors: 李鹏宇
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-08-12
Filing date: 2020-08-12
Publication date: 2022-02-22

Abstract

本申请公开了一种视频摘要生成方法及装置。其中，该方法包括：获取视频文件；从上述视频文件中提取文字识别结果和图像识别结果；基于上述文字识别结果和上述图像识别结果生成视频摘要。本申请解决了现有的基于新闻文字生成视频内容摘要的方式没有兼顾图像、语音、文字等综合信息，难以生成高质量的视频摘要的技术问题。

Description

视频摘要生成方法及装置

技术领域

本申请涉及视频处理技术领域，具体而言，涉及一种视频摘要生成方法及装置。

背景技术

在当今社会，视频新闻依然是人们获取新闻信息的重要形式之一，但随着工作生活的节奏加快，人们能用来观看完整新闻的时间也越来越少，更多的人会倾向于直接去去查看一些关键信息，而非看完完整新闻或是在整个视频新闻中自行总结关键信息，这就对高质量视频新闻内容的摘要生成提出了需求。

但是现有的视频内容摘要生成的方式都存在一些缺陷，如下所介绍：现有方式一：人工方式生成新闻的图文摘要。优点：质量有可靠保证；缺点：人力成本高，时效性相对较低；现有方式二：基于人工智能的通用视频、影视视频或监控视频内容分析生成的图文摘要。优点：效率高，成本低；缺点：通用视频、影视视频或监控视频内容分析没有将新闻视频的重要特征以及目标结果要求纳入考量，所以生成视频不符合新闻图文摘要的要求。现有方式三：基于新闻文字生成图文摘要。优点：将新闻特性纳入考量，从而生成的文字摘要质量较高；缺点：现有方法主要都是基于新闻的文字进行生成，没有考虑视频，音频等信息，从而难以生成高质量的图文摘要。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种视频摘要生成方法及装置，以至少解决现有的基于新闻文字生成视频内容摘要的方式没有兼顾图像、语音、文字等综合信息，难以生成高质量的视频摘要的技术问题。

根据本申请实施例的一个方面，提供了一种视频摘要生成方法，包括：获取视频文件；从上述视频文件中提取文字识别结果和图像识别结果；基于上述文字识别结果和上述图像识别结果生成视频摘要。

根据本申请实施例的另一方面，提供了一种视频摘要生成方法，包括：接收服务端下发的视频文件；从上述视频文件中提取文字识别结果和图像识别结果；基于上述文字识别结果和上述图像识别结果，在客户端上生成并展示视频摘要。

根据本申请实施例的另一方面，提供了一种视频摘要生成方法，包括：获取视频文件；从上述视频文件中提取文字识别结果和图像识别结果；基于上述文字识别结果和上述图像识别结果生成视频摘要，并将上述视频摘要下发至客户端，以触发上述客户端展示上述视频摘要。

根据本申请实施例的另一方面，还提供了一种视频摘要生成装置，包括：获取模块，用于获取视频文件；提取模块，用于从上述视频文件中提取文字识别结果和图像识别结果；生成模块，用于基于上述文字识别结果和上述图像识别结果生成视频摘要。

根据本申请实施例的另一方面，还提供了一种存储介质，上述存储介质包括存储的程序，其中，在上述程序运行时控制上述存储介质所在设备执行任意一项上述的视频摘要生成方法。

根据本申请实施例的另一方面，还提供了一种视频摘要生成设备，包括：处理器；以及存储器，与上述处理器连接，用于为上述处理器提供处理以下处理步骤的指令：获取视频文件；从上述视频文件中提取文字识别结果和图像识别结果；基于上述文字识别结果和上述图像识别结果生成视频摘要。

在本申请实施例中，通过获取视频文件；从上述视频文件中提取文字识别结果和图像识别结果；基于上述文字识别结果和上述图像识别结果生成视频摘要。容易注意到的是，本申请实施例基于人工智能的方式，通过对获取到的视频文件提取文字识别结果和图像识别结果，兼顾考虑视频文件的图像、语音、文字等综合信息，基于文字识别结果和图像识别结果可以生成高质量的视频摘要。

由此，本申请实施例达到了兼顾考虑视频文件的图像、语音、文字等综合信息生成视频摘要的目的，从而实现了提高基于视频文件生成的视频摘要的质量的技术效果，进而解决了现有的基于新闻文字生成视频内容摘要的方式没有兼顾图像、语音、文字等综合信息，难以生成高质量的视频摘要的技术问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种用于实现视频摘要生成方法的计算机终端(或移动设备)的硬件结构框图；

图2是根据本申请实施例的一种视频摘要生成方法的流程图；

图3是根据本申请实施例的一种可选的视频摘要生成方法的流程图；

图4是根据本申请实施例的另一种视频摘要生成方法的流程图；

图5是根据本申请实施例的又一种视频摘要生成方法的流程图；

图6是根据本申请实施例的一种视频摘要生成装置的结构示意图；

图7是根据本申请实施例的一种视频摘要生成设备的结构示意图；

图8是根据本申请实施例的另一种计算机终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

视频新闻：是指一种以视频为载体的新闻，例如，新闻联播、早间新闻等。

光学文字提取(OCR)：是指一项提取图片中文字的计算机视觉技术。

语音识别(S2T)：是指一种提取语音信号中的文字内容的技术。

人脸识别：是指一种基于人脸识别目标任务的计算机视觉技术。

人体识别：是指一种基于人体识别目标任务的计算机视觉技术。

场景地点(landmark)识别：是指一种识别视频中关键地点(例如，某著名景点、游乐园、医院等)和场景(例如，室外、室内)的计算机视觉技术。

事件行为识别：是指一种识别视频中发生的事件和行为的技术。

实施例1

根据本申请实施例，提供了一种视频摘要生成方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例1所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现视频摘要生成方法的计算机终端(或移动设备)的硬件结构框图,如图1所示，计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b，……，102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为BUS总线的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器104可用于存储应用软件的软件程序以及模块，如本申请实施例中的视频摘要生成方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的视频摘要生成方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。

在上述运行环境下，本申请提供了如图2所示的一种视频摘要生成方法，图2是根据本申请实施例的一种视频摘要生成方法的流程图，如图2所示，上述视频摘要生成方法包括以下方法步骤：

步骤S202,获取视频文件；

步骤S204,从上述视频文件中提取文字识别结果和图像识别结果；

步骤S206,基于上述文字识别结果和上述图像识别结果生成视频摘要。

在一种可选的实施例中，上述视频文件包括以下之一：时事新闻类视频文件；科学探索类视频文件；历史纪录类视频文件；文艺娱乐类视频文件；体育赛事类视频文件。

需要说明的是，本申请实施例所提供的视频摘要生成方法可以但不限于应用于以下应用场景中：时事新闻类视频领域；科学探索类视频领域；历史纪录类视频领域；文艺娱乐类视频领域；体育赛事类视频领域。

本申请实施例所提供的视频摘要生成方法可以但不限于应用于基于人工智能的图文摘要生成系统，该图文摘要生成系统针对视频文件，利用视频文件的独特特性，通过实施本申请实施例所提供的视频摘要生成方法，将视频文件的图像、语音、文字进行综合考虑，生成高质量的视频摘要。

在一种可选的实施例中，从上述视频文件中提取上述文字识别结果包括：

步骤S302,采用光学文字提取方式从上述视频文件的字幕数据中提取第一识别结果；

步骤S304,采用语音识别提取方式从上述视频文件的语音数据中提取第二识别结果；

步骤S306,对上述第一识别结果和上述第二识别结果进行自然语言处理，得到上述文字识别结果。

本申请实施例中的视频文件相对于其他普通视频(例如，Vlog类型的短视频等)存在明显区别和特点，例如，以上述视频文件为新闻视频文件为例，该新闻视频文件相对于其他普通视频至少具备以下特点：1)主题清晰，新闻视频文件中的每一部分均具备清晰主题(例如，防洪抗洪形势严峻，某领导人访问某地区等)；2)同一段新闻视频文件中的不同主题之间存在较明显的区分，这种区分包括文字内容、语音内容、图像内容等，甚至主持人/播报人的出镜情况均可以作为区分同一段新闻视频文件中的不同主题的特征之一；3)自然语言内容(例如，文字字幕，音频等)对整段视频图像内容有着清晰的关联和指导意义；4)自然语言内容的表达较为正式，例如，主谓宾结构清晰，采用书面语言，例如，某人发表了某言论，某地发生某事等。

基于本申请实施例中的视频文件相对于其他普通视频具备的特点，本申请采用光学文字提取方式(OCR)、语音识别提取方式(S2T)和自然语言处理技术，识别得到视频文件中的文字识别结果。

图3是根据本申请实施例的一种可选的视频摘要生成方法的流程图，如图3所示，在本申请实施例中，可以采用光学文字提取方式从上述视频文件的字幕数据中提取第一识别结果，例如，视频文件中的字幕；采用语音识别提取方式从上述视频文件的语音数据中提取第二识别结果，例如，视频文件中的文字；并对上述第一识别结果和上述第二识别结果进行自然语言处理，例如图3所示，采用文字摘要提取方法对上述第一识别结果和上述第二识别结果进行文字摘要提取处理，得到上述文字识别结果。

在一种可选的实施例中，上述方法还包括：

步骤S402,记录与上述文字识别结果对应的时间信息。

在一种可选的实施例中，从上述视频文件中提取上述图像识别结果包括：

步骤S502,基于上述文字识别结果和上述时间信息，从上述视频文件中提取上述图像识别结果。

由于本申请实施例中的视频文件存在主题清晰，新闻视频文件中的每一部分均具备清晰主题，同一段新闻视频文件中的不同主题之间存在较明显的区分，自然语言内容(例如，文字字幕，音频等)对整段视频图像内容有着清晰的关联和指导意义等特点。因而在从视频文件中提取图像识别结果时，可以利用识别到的文字识别结果以及该文字识别结果对应的时间信息，对提取图像识别结果进行引导，即基于上述文字识别结果和上述时间信息，从上述视频文件中提取上述图像识别结果，进而可以提高生成视频摘要的质量。

在一种可选的实施例中，基于上述文字识别结果和上述时间信息，从上述视频文件中提取上述图像识别结果包括：

步骤S602a,基于上述文字识别结果获取待适配文字信息；

步骤S604a,基于上述时间信息确定与上述待适配文字信息对应的时间点；

步骤S606a,根据上述时间点，采用计算机视觉方式从上述视频文件中提取与上述待适配文字信息关联的图像内容，得到上述图像识别结果。

在上述可选的实施例中，上述文字识别结果包括视频文件的文字和字幕，从识别到的文字识别结果中获取适配文字信息，并根据时间信息确定与待适配文字信息对应的时间点，可选的，上述待适配文字信息对应的时间点，即可以理解为按照视频文件的时间进度，依次将每个文字对应视频文件中的一个时间点；例如，一段视频文件中的一句文字“防洪抗洪形势严峻……”中的文字“防洪”对应一个时间点，进而根据上述时间点，采用计算机视觉方式从上述视频文件中提取与上述待适配文字信息关联的图像内容，得到上述图像识别结果。

步骤S602b,基于上述文字识别结果获取待适配文字信息；

步骤S604b,基于上述时间信息确定与上述待适配文字信息对应的时间段；

步骤S606b,根据上述时间段，从上述视频文件中提取与上述待适配文字信息关联的图像内容，得到上述图像识别结果。

在上述可选的实施例中，上述文字识别结果包括视频文件的文字和字幕，从识别到的文字识别结果中获取适配文字信息，并根据时间信息确定与待适配文字信息对应的时间段，可选的，上述待适配文字信息对应的时间段，即可以理解为在给出一段文字的起始时刻与结束时刻时，根据该起始时刻和结束时刻确定一个时间段，例如，一段视频文件中的一句文字“防洪抗洪形势严峻……”则对应一个时间段，按照视频文件的时间进度，采用计算机视觉方式从上述视频文件中提取与将该时间段内的文字一一对应的图像内容，得到上述图像识别结果。

本申请实施例基于新闻视频文件的特点，提出一种兼顾考虑图像、语音、文字的视频摘要生成方案，能够有效的弥补现有实现方案的不足，例如，本申请实施例与现有方式一相比可以大幅节省人力，提高实效性；与现有方案二相比，利用视频新闻的特点，在对图像信息进行处理时利用文字识别结果和与文字识别结果对应的时间信息进行引导，可以得到更加准确的图像识别结果；与现有方案三相比，由于增加了音频和视频等新闻信息，可以得到更高质量的视频摘要。

可选的，上述计算机视觉方式包括以下至少之一：人脸识别提取方式、人体识别提取方式、场景地点识别提取方式和事件行为识别提取方式。

在一种可选的实施例中，从上述视频文件中提取与上述待适配文字信息关联的上述图像内容包括以下至少之一：

步骤S702,采用人脸识别提取方式从上述视频文件中提取与上述待适配文字信息关联的人脸识别内容；

步骤S704,采用人体识别提取方式从上述视频文件中提取与上述待适配文字信息关联的人体识别内容；

步骤S706,采用场景地点识别提取方式从上述视频文件中提取与上述待适配文字信息关联的场景地点识别内容；

步骤S708,采用事件行为识别提取方式从上述视频文件中提取与上述待适配文字信息关联的事件行为识别内容。

在上述可选的实施例中，仍如图3所示，可以采用计算机视觉模块提供的计算机视觉方式，从上述视频文件中提取与上述待适配文字信息关联的上述图像内容，得到上述图像识别结果。

作为一种可选的实施例，采用计算机视觉模块提供的人脸识别，人体识别，场景地点识别，事件行为识别，纯视频摘提取等计算机视觉方式，例如，采用人脸识别提取方式从上述视频文件中提取与上述待适配文字信息关联的人脸识别内容；采用人体识别提取方式从上述视频文件中提取与上述待适配文字信息关联的人体识别内容；采用场景地点识别提取方式从上述视频文件中提取与上述待适配文字信息关联的场景地点识别内容；采用事件行为识别提取方式从上述视频文件中提取与上述待适配文字信息关联的事件行为识别内容。

在一种可选的实施例中，仍如图3所示，在采用上述计算机视觉方式从上述视频文件中提取与上述待适配文字信息关联的上述图像内容，得到上述图像识别结果之后，可以将图像识别结果和文字识别结果融合生成图文视频摘要。

在上述运行环境下，本申请还提供了如图4所示的另一种视频摘要生成方法，图4是根据本申请实施例的另一种视频摘要生成方法的流程图，如图4所示，上述视频摘要生成方法包括以下方法步骤：

步骤S802，接收服务端下发的视频文件；

步骤S804，从上述视频文件中提取文字识别结果和图像识别结果；

步骤S806，基于上述文字识别结果和上述图像识别结果，在客户端上生成并展示视频摘要。

需要说明的是，本申请实施例步骤S802至S806所提供的视频摘要生成方法，可以但不限于应用于客户端侧，客户端从服务端接收视频文件，基于人工智能的方式，利用视频文件的独特特性，从上述视频文件中提取文字识别结果和图像识别结果，兼顾考虑视频文件的图像、语音、文字等综合信息，基于文字识别结果和图像识别结果直接在客户端上生成高质量的视频摘要。

仍需要说明的是，本申请实施例所提供的视频摘要生成方法可以但不限于应用于以下应用场景中：时事新闻类视频领域；科学探索类视频领域；历史纪录类视频领域；文艺娱乐类视频领域；体育赛事类视频领域。

基于本申请实施例中的视频文件相对于其他普通视频具备的特点，本申请通过光学文字提取方式(OCR)、语音识别提取方式(S2T)和自然语言处理技术，识别得到视频文件中的文字识别结果。

在本申请实施例中，客户端可以采用光学文字提取方式从上述视频文件的字幕数据中提取第一识别结果，例如，视频文件中的字幕；以及采用语音识别提取方式从上述视频文件的语音数据中提取第二识别结果，例如，视频文件中的文字；并对上述第一识别结果和上述第二识别结果进行自然语言处理，例如，客户端可以但不限于采用文字摘要提取方法对上述第一识别结果和上述第二识别结果进行文字摘要提取处理，得到上述文字识别结果。

在上述可选的实施例中，上述文字识别结果包括视频文件的文字和字幕，客户端可以从识别到的文字识别结果中获取适配文字信息，并根据时间信息确定与待适配文字信息对应的时间点，进而根据上述时间点，采用计算机视觉方式从上述视频文件中提取与上述待适配文字信息关联的图像内容，得到上述图像识别结果。

由于本申请实施例中的视频文件存在主题清晰，新闻视频文件中的每一部分均具备清晰主题，同一段新闻视频文件中的不同主题之间存在较明显的区分，自然语言内容(例如，文字字幕，音频等)对整段视频图像内容有着清晰的关联和指导意义等特点。因而在从视频文件中提取图像识别结果时，客户端可以利用识别到的文字识别结果以及该文字识别结果对应的时间信息，对提取图像识别结果进行引导，即基于上述文字识别结果和上述时间信息，从上述视频文件中提取上述图像识别结果，进而可以提高生成视频摘要的质量。

在上述运行环境下，本申请还提供了如图5所示的又一种视频摘要生成方法，图5是根据本申请实施例的又一种视频摘要生成方法的流程图，如图5所示，上述视频摘要生成方法包括以下方法步骤：

步骤S902，获取视频文件；

步骤S904，从上述视频文件中提取文字识别结果和图像识别结果；

步骤S906，基于上述文字识别结果和上述图像识别结果生成视频摘要，并将上述视频摘要下发至客户端，以触发上述客户端展示上述视频摘要。

需要说明的是，本申请实施例步骤S902至S906所提供的视频摘要生成方法，可以但不限于应用于服务端侧，服务端在获取到视频文件之后，基于人工智能的方式，利用视频文件的独特特性，从上述视频文件中提取文字识别结果和图像识别结果，兼顾考虑视频文件的图像、语音、文字等综合信息，基于文字识别结果和图像识别结果生成高质量的视频摘要，然后再将上述视频摘要下发至客户端，以触发上述客户端展示上述视频摘要。

在本申请实施例中，服务端可以采用光学文字提取方式从上述视频文件的字幕数据中提取第一识别结果，例如，视频文件中的字幕；以及采用语音识别提取方式从上述视频文件的语音数据中提取第二识别结果，例如，视频文件中的文字；并对上述第一识别结果和上述第二识别结果进行自然语言处理，例如，服务端可以但不限于采用文字摘要提取方法对上述第一识别结果和上述第二识别结果进行文字摘要提取处理，得到上述文字识别结果。

在上述可选的实施例中，上述文字识别结果包括视频文件的文字和字幕，服务端可以从识别到的文字识别结果中获取适配文字信息，并根据时间信息确定与待适配文字信息对应的时间点，进而根据上述时间点，采用计算机视觉方式从上述视频文件中提取与上述待适配文字信息关联的图像内容，得到上述图像识别结果。

由于本申请实施例中的视频文件存在主题清晰，新闻视频文件中的每一部分均具备清晰主题，同一段新闻视频文件中的不同主题之间存在较明显的区分，自然语言内容(例如，文字字幕，音频等)对整段视频图像内容有着清晰的关联和指导意义等特点。因而在从视频文件中提取图像识别结果时，服务端可以利用识别到的文字识别结果以及该文字识别结果对应的时间信息，对提取图像识别结果进行引导，即基于上述文字识别结果和上述时间信息，从上述视频文件中提取上述图像识别结果，进而可以提高生成视频摘要的质量。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例上述的方法。

实施例2

根据本申请实施例，还提供了一种用于实施上述视频摘要生成方法的装置实施例，图6是根据本申请实施例的一种视频摘要生成装置的结构示意图，如图6所示，该装置包括：获取模块40、提取模块42和生成模块44，其中：

获取模块40，用于获取视频文件；提取模块42，用于从上述视频文件中提取文字识别结果和图像识别结果；生成模块44，用于基于上述文字识别结果和上述图像识别结果生成视频摘要。

此处需要说明的是，上述获取模块40、提取模块42和生成模块44对应于实施例1中的步骤S202至步骤S206，三个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。

本申请实施例基于人工智能的方式，通过对获取到的视频文件提取文字识别结果和图像识别结果，兼顾考虑视频文件的图像、语音、文字等综合信息，基于文字识别结果和图像识别结果可以生成高质量的视频摘要。

还需要说明的是，本实施例的优选实施方式可以参见实施例1中的相关描述，此处不再赘述。

实施例3

根据本申请实施例，还提供了一种视频摘要生成设备的实施例，该视频摘要生成设备可以是计算设备群中的任意一个计算设备。图7是根据本申请实施例的一种视频摘要生成设备的结构示意图，如图7所示，该视频摘要生成设备包括：处理器500和存储器502，其中：

处理器500；以及存储器502，与上述处理器500连接，用于为上述处理器提供处理以下处理步骤的指令：获取视频文件；从上述视频文件中提取文字识别结果和图像识别结果；基于上述文字识别结果和上述图像识别结果生成视频摘要。

在本申请实施例中，通过获取视频文件；从上述视频文件中提取文字识别结果和图像识别结果；基于上述文字识别结果和上述图像识别结果生成视频摘要。

容易注意到的是，本申请实施例基于人工智能的方式，通过对获取到的视频文件提取文字识别结果和图像识别结果，兼顾考虑视频文件的图像、语音、文字等综合信息，基于文字识别结果和图像识别结果可以生成高质量的视频摘要。

实施例4

根据本申请的实施例，还提供了一种计算机终端的实施例，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。

可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。

在本实施例中，上述计算机终端可以执行视频摘要生成方法中以下步骤的程序代码：获取视频文件；从上述视频文件中提取文字识别结果和图像识别结果；基于上述文字识别结果和上述图像识别结果生成视频摘要。

可选地，图8是根据本申请实施例的另一种计算机终端的结构框图，如图8所示，该计算机终端可以包括：一个或多个(图中仅示出一个)处理器602、存储器604、以及外设接口606。

其中，存储器可用于存储软件程序以及模块，如本申请实施例中的视频摘要生成方法和装置对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的视频摘要生成方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取视频文件；从上述视频文件中提取文字识别结果和图像识别结果；基于上述文字识别结果和上述图像识别结果生成视频摘要。

可选的，上述处理器还可以执行如下步骤的程序代码：采用光学文字提取方式从上述视频文件的字幕数据中提取第一识别结果；采用语音识别提取方式从上述视频文件的语音数据中提取第二识别结果；对上述第一识别结果和上述第二识别结果进行自然语言处理，得到上述文字识别结果。

可选的，上述处理器还可以执行如下步骤的程序代码：记录与上述文字识别结果对应的时间信息。

可选的，上述处理器还可以执行如下步骤的程序代码：基于上述文字识别结果和上述时间信息，从上述视频文件中提取上述图像识别结果。

可选的，上述处理器还可以执行如下步骤的程序代码：基于上述文字识别结果获取待适配文字信息；基于上述时间信息确定与上述待适配文字信息对应的时间点；根据上述时间点，采用计算机视觉方式从上述视频文件中提取与上述待适配文字信息关联的图像内容，得到上述图像识别结果。

可选的，上述处理器还可以执行如下步骤的程序代码：基于上述文字识别结果获取待适配文字信息；基于上述时间信息确定与上述待适配文字信息对应的时间段；根据上述时间段，采用计算机视觉方式从上述视频文件中提取与上述待适配文字信息关联的图像内容，得到上述图像识别结果。

可选的，上述处理器还可以执行如下步骤的程序代码：采用人脸识别提取方式从上述视频文件中提取与上述待适配文字信息关联的人脸识别内容；采用人体识别提取方式从上述视频文件中提取与上述待适配文字信息关联的人体识别内容；采用场景地点识别提取方式从上述视频文件中提取与上述待适配文字信息关联的场景地点识别内容；采用事件行为识别提取方式从上述视频文件中提取与上述待适配文字信息关联的事件行为识别内容。

采用本申请实施例，提供了一种视频摘要生成的方案。通过获取视频文件；从上述视频文件中提取文字识别结果和图像识别结果；基于上述文字识别结果和上述图像识别结果生成视频摘要，本申请实施例基于人工智能的方式，通过对获取到的视频文件提取文字识别结果和图像识别结果，兼顾考虑视频文件的图像、语音、文字等综合信息，基于文字识别结果和图像识别结果可以生成高质量的视频摘要。

上述处理器还可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：接收服务端下发的视频文件；从上述视频文件中提取文字识别结果和图像识别结果；基于上述文字识别结果和上述图像识别结果，在客户端上生成并展示视频摘要。

上述处理器还可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取视频文件；从上述视频文件中提取文字识别结果和图像识别结果；基于上述文字识别结果和上述图像识别结果生成视频摘要，并将上述视频摘要下发至客户端，以触发上述客户端展示上述视频摘要。

本领域普通技术人员可以理解，图8所示的结构仅为示意，计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices，MID)、PAD等终端设备。图8其并不对上述电子装置的结构造成限定。例如，计算机终端还可包括比图8中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图8所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

实施例5

根据本申请的实施例，还提供了一种存储介质的实施例。可选地，在本实施例中，上述存储介质可以用于保存上述实施例1所提供的视频摘要生成方法所执行的程序代码。

可选地，在本实施例中，上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取视频文件；从上述视频文件中提取文字识别结果和图像识别结果；基于上述文字识别结果和上述图像识别结果生成视频摘要。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：采用光学文字提取方式从上述视频文件的字幕数据中提取第一识别结果；采用语音识别提取方式从上述视频文件的语音数据中提取第二识别结果；对上述第一识别结果和上述第二识别结果进行自然语言处理，得到上述文字识别结果。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：记录与上述文字识别结果对应的时间信息。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：基于上述文字识别结果和上述时间信息，从上述视频文件中提取上述图像识别结果。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：基于上述文字识别结果获取待适配文字信息；基于上述时间信息确定与上述待适配文字信息对应的时间点；根据上述时间点，采用计算机视觉方式从上述视频文件中提取与上述待适配文字信息关联的图像内容，得到上述图像识别结果。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：基于上述文字识别结果获取待适配文字信息；基于上述时间信息确定与上述待适配文字信息对应的时间段；根据上述时间段，采用计算机视觉方式从上述视频文件中提取与上述待适配文字信息关联的图像内容，得到上述图像识别结果。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：采用人脸识别提取方式从上述视频文件中提取与上述待适配文字信息关联的人脸识别内容；采用人体识别提取方式从上述视频文件中提取与上述待适配文字信息关联的人体识别内容；采用场景地点识别提取方式从上述视频文件中提取与上述待适配文字信息关联的场景地点识别内容；采用事件行为识别提取方式从上述视频文件中提取与上述待适配文字信息关联的事件行为识别内容。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：接收服务端下发的视频文件；从上述视频文件中提取文字识别结果和图像识别结果；基于上述文字识别结果和上述图像识别结果，在客户端上生成并展示视频摘要。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取视频文件；从上述视频文件中提取文字识别结果和图像识别结果；基于上述文字识别结果和上述图像识别结果生成视频摘要，并将上述视频摘要下发至客户端，以触发上述客户端展示上述视频摘要。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种视频摘要生成方法，其特征在于，包括：

获取视频文件；

从所述视频文件中提取文字识别结果和图像识别结果；

基于所述文字识别结果和所述图像识别结果生成视频摘要。

2.根据权利要求1所述的方法，其特征在于，从所述视频文件中提取所述文字识别结果包括：

采用光学文字提取方式从所述视频文件的字幕数据中提取第一识别结果；

采用语音识别提取方式从所述视频文件的语音数据中提取第二识别结果；

对所述第一识别结果和所述第二识别结果进行自然语言处理，得到所述文字识别结果。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

记录与所述文字识别结果对应的时间信息。

4.根据权利要求3所述的方法，其特征在于，从所述视频文件中提取所述图像识别结果包括：

基于所述文字识别结果和所述时间信息，从所述视频文件中提取所述图像识别结果。

5.根据权利要求4所述的方法，其特征在于，基于所述文字识别结果和所述时间信息，从所述视频文件中提取所述图像识别结果包括：

基于所述文字识别结果获取待适配文字信息；

基于所述时间信息确定与所述待适配文字信息对应的时间点；

根据所述时间点，从所述视频文件中提取与所述待适配文字信息关联的图像内容，得到所述图像识别结果。

6.根据权利要求4所述的方法，其特征在于，基于所述文字识别结果和所述时间信息，从所述视频文件中提取所述图像识别结果包括：

基于所述文字识别结果获取待适配文字信息；

基于所述时间信息确定与所述待适配文字信息对应的时间段；

根据所述时间段，从所述视频文件中提取与所述待适配文字信息关联的图像内容，得到所述图像识别结果。

7.根据权利要求5或6所述的方法，其特征在于，从所述视频文件中提取与所述待适配文字信息关联的所述图像内容包括以下至少之一：

采用人脸识别提取方式从所述视频文件中提取与所述待适配文字信息关联的人脸识别内容；

采用人体识别提取方式从所述视频文件中提取与所述待适配文字信息关联的人体识别内容；

采用场景地点识别提取方式从所述视频文件中提取与所述待适配文字信息关联的场景地点识别内容；

采用事件行为识别提取方式从所述视频文件中提取与所述待适配文字信息关联的事件行为识别内容。

8.根据权利要求1所述的方法，其特征在于，所述视频文件包括以下之一：

时事新闻类视频文件；

科学探索类视频文件；

历史纪录类视频文件；

文艺娱乐类视频文件；

体育赛事类视频文件。

9.一种视频摘要生成方法，其特征在于，包括：

接收服务端下发的视频文件；

从所述视频文件中提取文字识别结果和图像识别结果；

基于所述文字识别结果和所述图像识别结果，在客户端上生成并展示视频摘要。

10.一种视频摘要生成方法，其特征在于，包括：

获取视频文件；

从所述视频文件中提取文字识别结果和图像识别结果；

基于所述文字识别结果和所述图像识别结果生成视频摘要，并将所述视频摘要下发至客户端，以触发所述客户端展示所述视频摘要。

11.一种视频摘要生成装置，其特征在于，包括：

获取模块，用于获取视频文件；

提取模块，用于从所述视频文件中提取文字识别结果和图像识别结果；

生成模块，用于基于所述文字识别结果和所述图像识别结果生成视频摘要。

12.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至10中任意一项所述的视频摘要生成方法。

13.一种视频摘要生成设备，其特征在于，包括：

处理器；以及

存储器，与所述处理器连接，用于为所述处理器提供处理以下处理步骤的指令：

获取视频文件；

从所述视频文件中提取文字识别结果和图像识别结果；

基于所述文字识别结果和所述图像识别结果生成视频摘要。