CN114494951B

CN114494951B - 视频处理方法、装置、电子设备和存储介质

Info

Publication number: CN114494951B
Application number: CN202210032604.9A
Authority: CN
Inventors: 刘俊启
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-01-12
Filing date: 2022-01-12
Publication date: 2023-04-25
Anticipated expiration: 2042-01-12
Also published as: CN114494951A

Abstract

本公开提出了一种视频处理方法、装置、电子设备和存储介质，涉及人工智能领域，尤其涉及语音识别、智能搜索等领域。具体实现方案为：对获取的目标视频进行内容识别，以确定演示文档中至少一张幻灯片对应的视频片段；根据各幻灯片对应的视频片段，生成各幻灯片对应的图片和/或描述文本，以根据各幻灯片对应的图片和/或描述文本，生成演示文档的图文信息。由此，将包含演示文档的视频处理为包含少量图片和/或文本的图文信息，可以实现在满足用户获取视频中的知识需求的基础上，降低网络流量开销，改善用户的使用体验。并且，将视频中的演示文档转化为对应的图文信息，可以实现以多种形式展示演示文档，可以满足不同用户的个性化需求。

Description

视频处理方法、装置、电子设备和存储介质

技术领域

本公开涉及人工智能领域，具体涉及语音识别、智能搜索等技术领域，尤其涉及一种视频处理方法、装置、电子设备和存储介质。

背景技术

伴随着移动互联网技术的不断发展，越来越多的信息以视频的形式呈现给大众。用户可以根据自身需求，随时随地观看所需的视频。一般情况下，视频的内容是连续的，但是也存在一些内容并不连续的视频，比如，课件分享类视频(或称为PPT(PowerPoint)讲解视频)。

然而，用户基于移动终端浏览视频时需要消耗较大的网络流量，因此，如何实现在保证用户查看视频内容的基础上，降低网络流量的消耗是很有必要的。

发明内容

本公开提供了一种视频处理方法、装置、电子设备以及存储介质。

根据本公开的一方面，提供了一种视频处理方法，包括：

获取目标视频；

对所述目标视频进行内容识别，以确定演示文档中至少一张幻灯片对应的视频片段；

根据各所述幻灯片对应的视频片段，生成各所述幻灯片对应的图片和/或描述文本；

根据各所述幻灯片对应的图片和/或描述文本，生成所述演示文档的图文信息。

根据本公开的另一方面，提供了一种视频处理装置，包括：

获取模块，用于获取目标视频；

处理模块，用于对所述目标视频进行内容识别，以确定演示文档中至少一张幻灯片对应的视频片段；

第一生成模块，用于根据各所述幻灯片对应的视频片段，生成各所述幻灯片对应的图片和/或描述文本；

第二生成模块，用于根据各所述幻灯片对应的图片和/或描述文本，生成所述演示文档的图文信息。

根据本公开的又一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开上述一方面提出的视频处理方法。

根据本公开的再一方面，提供了一种计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行本公开上述一方面提出的视频处理方法。

根据本公开的还一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现本公开上述一方面提出的视频处理方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是本公开实施例一所提供的视频处理方法的流程示意图；

图2是本公开实施例二所提供的视频处理方法的流程示意图；

图3是本公开实施例三所提供的视频处理方法的流程示意图；

图4是本公开实施例四所提供的视频处理方法的流程示意图；

图5是本公开实施例五所提供的视频处理方法的流程示意图；

图6是本公开实施例六所提供的视频处理方法的流程示意图；

图7是本公开所提出的视频初始状态示意图；

图8是本公开实施例七所提供的视频处理装置的结构示意图；

图9示出了可以用来实施本公开的实施例的示例电子设备的示意性框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

随着移动互联网的普及，人们使用移动终端上网已经成为了常态。随着移动网络的建设，高速且稳定的移动网络，使得用户在移动网络下查看高质量的内容变为可能。目前，视频、图片类的内容流量在运营商网络中的流量占比已经超过60％，成为最主要的业务形态。

对于用户来说，随时随地地浏览视频、图片、网页等多媒体内容已成为常态，多媒体内容观看的全流程体验也成为用户评估应用、产品或平台的主要因素。应用、产品或平台为保障用户体验进行的基础设施投资，也需要考虑用户浏览及使用的体验，同时，基础设施投资也受到以下几个因素的影响：

一、多媒体内容的内容源因素：内容源主要分为以下两方面：

(1)版权问题；

(2)多媒体内容的发布及提供。一般来说，以多媒体内容为视频内容进行示例，对于企业非自有产品线中的内容播放，提供的内容仅为视频内容，比如：弹幕功能得企业自已建设。

二、多媒体内容交互因素：

(1)比如视频这类场景，主要是播放、观看；用户在观看视频的过程中，互动的场景较少，视频为用户提供的主要功能为播放、暂停、快进、快退、分享、退出等操作。

(2)比如图片查看这类场景，主要是查看大图、图片切换、分享等操作。

(3)网页中的图片和视频也可以按照上述两类场景的思路进行增强。

三、扩展功能因素：

(1)分享功能：通过建立多媒体内容的传播能力，使得多媒体内容被更多的用户浏览及实现多媒体内容导流的目的。

(2)评论功能：通过建立多媒体内容的互动能力，实现多个用户对同一多媒体内容进行评论及互动。

(3)其它功能等。

总结来说，扩展功能因素对于多媒体内容的浏览而言，不是核心影响因素，但是是整个多媒体内容浏览的全流程的延深，是多媒体内容浏览的功能的长尾，也会影响到多媒体内容的浏览次数、热度和用户互动相关的全流程体验。

四、多媒体内容产生因素：

各大企业自建多媒体内容生产渠道及工具，丰富自有应用、产品或平台中的多媒体内容，为用户提供持续的、新颖的、个性化的多媒体内容。

五、多媒体内容及交互因素：

对于多媒体内容中的视频而言，比如电影、电视连续剧等，在这些视频的观看过程中，视频内容是连续的，且场景与对话是一一关联的。但是，也存在一些内容并不连续，且场景与对话不是一一关联的视频，比如课件分享类视频或PPT讲解教程视频。在课件分享类视频或PPT讲解教程视频中，一般是一张幻灯片中的内容，伴随着主讲人的多句对话(或讲话)来对该张幻灯片进行解释。在主讲人讲解的过程中，讲解的内容可能是一张幻灯片中的某一块内容，即一张幻灯片内容的一部分。用户在观看上述课件分享类视频或PPT讲解教程视频的过程中，需要暂停视频，查看具体的幻灯片内容，再继续播放，重复多次才能完成幻灯片内容的查看，直到视频播放完成，由此，将耗费大量的网络流量，用户体验不佳。

综合上述因素，多媒体内容(比如视频内容)的产生、交互和内容的丰富度是关键、是根本，特别是多媒体内容的产生是用户搜索的根本，是丰富内容生态的关键。

在多媒体内容为视频内容时，对于视频内容存在差异的视频而言，用户在视频播放过程中对于播放状态的控制有所不同，用户对于不同视频内容的浏览偏好也会有所不同。

同时，需要考虑用户生产视频的场景，提供为视频生成图文的方式，实现同一次内容的生产，输出多种形态的承载，以适应于更多的用户浏览偏好，而且，用户对于上述内容的检索，也提升了视频的曝光度，是一件有价值，多方共赢的机制及能力。

针对上述存在的至少一个问题，本公开提出一种视频处理方法、装置、电子设备和介质。

下面参考附图描述本公开实施例的视频处理方法、装置、电子设备和存储介质。

图1为本公开实施例一所提供的视频处理方法的流程示意图。

本公开实施例以该视频处理方法被配置于视频处理装置中来举例说明，该视频处理装置可以应用于任一电子设备中，以使该电子设备可以执行视频处理功能。

其中，电子设备可以为任一具有计算能力的设备，例如可以为个人电脑、移动终端、服务器等，移动终端例如可以为手机、平板电脑、个人数字助理、穿戴式设备等具有各种操作系统、触摸屏和/或显示屏的硬件设备。

如图1所示，该视频处理方法可以包括以下步骤：

步骤101，获取目标视频。

在本公开实施例中，目标视频是指待处理的视频，该目标视频可以为展示有演示文档的视频，例如目标视频可以为教育或教学视频，也可以为主题会议视频，也可以为产品发布视频等，本公开对此不做限制。

在本公开实施例中，对目标视频的获取方式不作限制，例如，目标视频可以在线获取，比如可以通过网络爬虫技术在线获取目标视频，或者，目标视频也可以线下获取，比如目标视频可以为用户录制的，等等，本公开对此不做限制。

步骤102，对目标视频进行内容识别，以确定演示文档中至少一张幻灯片对应的视频片段。

在本公开实施例中，演示文档，或称为演示文稿，是指将静态文件制作成动态文件浏览的幻灯片。与上述例子相对应的，演示文档可以为教育教学文档，也可以为主题会议内容文档，也可以为产品介绍文档等，本公开对此不做限制。其中，演示文档可以包括但不限于为一张幻灯片，每一张幻灯片在目标视频中具有对应的视频片段。

在本公开实施例中，可以对目标视频中的各帧视频帧进行内容识别，其中，视频帧中的内容可以包括演示文档的各幻灯片，也可以包括其他对象。其中，其他对象可以为人，比如主讲人，或者，也可以为其他事物，比如动物、风景画等。从而本公开中，可以根据各帧视频帧的内容识别结果，确定演示文档中至少一张幻灯片对应的视频片段。

步骤103，根据各幻灯片对应的视频片段，生成各幻灯片对应的图片和/或描述文本。

在本公开实施例中，幻灯片对应的图片展示有该幻灯片对应的显示内容。针对每张幻灯片对应的视频片段，可以从该幻灯片对应的视频片段中确定包含上述幻灯片的视频帧，对该视频帧进行幻灯片提取，以生成该幻灯片对应的图片。

举例说明，以目标视频中包括演示文档，且演示文档中包括两张幻灯片，分别为幻灯片1和幻灯片2进行示例，其中，幻灯片1对应于目标视频中的视频片段1，幻灯片2对应于目标视频中的视频片段2。通过从视频片段1中确定包含幻灯片1的某一视频帧，并从该视频帧中提取幻灯片1所在的区域(本公开中记为幻灯片区域)，将提取的幻灯片1所在的区域，作为幻灯片1对应的图片。同理，可以从视频片段2中确定包含幻灯片2的某一视频帧，并从该视频帧中提取幻灯片2所在的区域，将提取的幻灯片2所在的区域，作为幻灯片2对应的图片。

在本公开实施例中，幻灯片对应的描述文本可以与该幻灯片对应的视频片段的音频信息(或者也可以称为音频数据、语音信息)和/或字幕相匹配。即本公开中，每张幻灯片对应的描述文本可以是根据该幻灯片对应的视频片段的音频信息和/或字幕生成的。

作为一种示例，在目标视频只展示有幻灯片，没有音频信息或字幕的情况下，可以根据各幻灯片对应的视频片段，生成各幻灯片对应的图片。

作为再一种示例，在目标视频具有音频信息或字幕的情况下，可以根据各幻灯片对应的视频片段，同时生成各幻灯片对应的图片和描述文本。

步骤104，根据各幻灯片对应的图片和/或描述文本，生成演示文档的图文信息。

在本公开实施例中，图文信息可以包括演示文档中每一张幻灯片对应的图片，也可以包括演示文档中每一张幻灯片对应的描述文本，也就是说，本公开中，可以通过对演示文档中的各幻灯片对应的图片和/或描述文本进行组合或排版，从而生成演示文档的图文信息。

作为一种示例，可以按照各幻灯片在目标视频中的展示顺序，将各幻灯片对应的图片进行组合或排版，从而生成只包含图片信息的演示文档的图文信息。

作为另一种示例，可以按照各幻灯片在目标视频中的展示顺序，将各幻灯片对应的描述文本进行组合或排版，从而生成只包含文本信息的演示文档的图文信息。

作为再一种示例，可以按照各幻灯片在目标视频中的展示顺序，将各幻灯片对应的图片和描述文本进行组合或排版，从而生成演示文档的图文信息。

需要说明的是，在对目标视频进行内容识别后，除了得到各幻灯片对应的视频片段外，还可能会得到只显示其他对象，而未展示幻灯片的目标视频片段。比如，以目标视频为PPT讲解视频进行示例，在播放演示文档之前，目标视频中可能会存在主讲人的个人介绍等信息。因此，作为本公开的一种可能的实现方式，为了提升图文信息生成的完整性和可靠性，可以根据该目标视频片段，生成目标描述信息，比如，可以对目标视频片段进行语音和/或字幕的识别，以得到目标描述信息，根据各幻灯片对应的图片和/或描述文本，以及目标描述信息，生成演示文档的图文信息。

本公开实施例的视频处理方法，通过对获取的目标视频进行内容识别，以确定演示文档中至少一张幻灯片对应的视频片段；根据各幻灯片对应的视频片段，生成各幻灯片对应的图片和/或描述文本，以根据各幻灯片对应的图片和/或描述文本，生成演示文档的图文信息。由此，将包含演示文档的视频处理为包含少量图片和/或文本的图文信息，可以实现在满足用户获取视频中的知识需求的基础上，降低网络流量开销，改善用户的使用体验。并且，将视频中的演示文档转化为对应的图文信息，可以实现以多种形式展示演示文档，可以满足不同用户的个性化需求，此外，还可以避免用户为了阅读或者保存视频中的演示文档中的幻灯片内容，而需要反复暂停视频的操作，进一步改善用户的使用体验。

需要说明的是，本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均在征得用户同意的前提下进行，并且均符合相关法律法规的规定，且不违背公序良俗。

为了清楚说明本公开上述实施例中是如何实现对目标视频进行内容识别，从而确定演示文档中至少一张幻灯片对应的视频片段的，本公开还提出一种视频处理方法。

图2为本公开实施例二所提供的视频处理方法的流程示意图。

如图2所示，该视频处理方法可以包括以下步骤：

步骤201，获取目标视频。

步骤201的执行过程可以参见本公开任一实施例的执行过程，在此不再赘述。

步骤202，对目标视频中的多帧进行内容识别，以确定至少一个集合，其中，属于相同集合的各帧展示有演示文档中的相同幻灯片。

在本公开实施例中，每个集合中包括目标视频的至少一帧视频帧，且，每个集合中的各帧视频帧展示有演示文档中的相同幻灯片。

在本公开实施例中，可以对目标视频中的多帧视频帧进行内容识别，以根据每帧视频帧中展示的内容，确定至少一个集合，其中，属于相同集合的各帧展示有演示文档中的相同幻灯片。

作为一种示例，可以采用图像识别技术，识别展示有相同幻灯片的各帧视频帧。或者，也可以基于各帧视频帧显示内容的相似度，确定展示有相同幻灯片的集合，其中，同一集合中各帧视频帧显示内容之间的相似度较高。

举例说明，目标视频中共有60帧视频帧，采用图像识别技术，分别识别60帧视频帧所展示的内容，其中，第1～30帧视频帧展示有幻灯片1，第31～60帧视频帧展示有幻灯片2。则可以将目标视频中的第1～30帧视频帧，作为集合1，将目标视频中的第31～60帧视频帧，作为集合2。

步骤203，对至少一个集合中任意的目标集合，根据目标集合中各帧在目标视频的展示时刻，确定目标集合所展示的幻灯片对应的视频片段。

在本公开实施例中，目标集合可以是对目标视频的多帧视频帧进行内容识别而获得的集合中的任意一个集合，目标集合中展示有演示文档中相同幻灯片。

在本公开实施例中，可以根据目标集合中的各帧视频帧在目标视频的展示时刻，确定目标集合所展示的幻灯片对应的视频片段。

需要说明的是，目标视频中展示的幻灯片可能存在以下几种场景：

第一种，视频一直在展示幻灯片。

第二种，其他对象与幻灯片同屏展示，即在视频的播放过程中，幻灯片和其他对象同时出现。

第三种，画中画，其中，幻灯片主屏展示，其他对象小屏展示。

第四种，幻灯片在播放过程中，存在幻灯片和其他对象的变换。

举例说明，在对目标视频进行录制的过程中，当教师B在对演示文档中的某一幻灯片，比如幻灯片D进行讲解时，在展示幻灯片D的过程中，有一段时间出现教师B占据视频主屏的情况，即上述第四种场景。此段时间内，视频主屏中并未展示幻灯片D，但是教师B还在持续对幻灯片D进行讲解。

假设对录制到的目标视频中的各帧视频帧进行内容识别，确定了集合E，其中，集合E中各帧视频帧展示有演示文档中幻灯片D，但集合E中不存在显示有教师B的各帧视频帧。此时，选取集合E作为目标集合时，该目标集合中的各帧视频帧在目标视频A中的展示时刻出现断层，不连续，从而使得根据目标集合E中各帧视频帧在目标视频的展示时刻，确定的展示有幻灯片D的视频片段也不连续。

比如，目标视频中的第20～30帧、35～45帧均展示有幻灯片D，而第31～34帧显示的是教师B。则对目标视频中各帧视频帧进行内容识别，确定的集合E包括目标视频中的第20～30帧，以及第35～45帧。如果选取E作为目标集合，则该目标集合中的各帧视频帧在目标视频中的展示时刻不连续，从而得到的目标集合中各帧视频帧展示的幻灯片D对应的视频片段也不连续。

因此，在本公开实施例的一种可能的实现方式中，为了提升每张幻灯片对应的视频片段确定结果的准确性和可靠性，可以通过根据目标集合所属展示时刻的起止时刻，确定目标集合所展示的幻灯片的视频片段。

具体地，可以根据目标集合中各帧视频帧的展示时刻，确定目标集合所属展示时段的起止时刻；根据展示时段的起止时刻，确定目标集合所展示的幻灯片对应的视频片段。

其中，起止时刻包括开始时刻和结束时刻。

作为一种示例，可以根据目标集合中各帧视频帧的展示时刻，确定该目标集合中展示时刻最早的视频帧，将展示时刻最早的视频帧所对应的展示时刻作为目标集合所属展示时段的开始时刻；对应的，可以根据目标集合中各帧视频帧的展示时刻，确定该目标集合中展示时刻最晚的视频帧，将该展示时刻最晚的视频帧所对应的展示时刻作为目标集合所属展示时段的结束时刻，由此，可以确定目标集合所属展示时刻的起止时刻。从而可以根据目标集合所属展示时段的起止时刻，确定目标集合所展示的幻灯片对应的视频片段。

仍以上述例子进行示例，假设目标集合为集合E，则可以确定目标视频中的第20帧视频帧是该目标集合中展示时刻最早的视频帧，目标视频中的第45帧视频帧是该目标集合中展示时刻最晚的视频帧，假设目标视频中的第20帧视频帧的展示时刻为第12s，目标视频中的第45帧视频帧的展示时刻为第36s，则根据20帧和45帧的展示时刻，可以确定目标集合E所属展示时段的起止时刻中的开始时刻为目标视频的第12s，结束时刻为目标视频的第36s。则根据集合E所属展示时段的起止时刻，可以确定幻灯片D对应的视频片段为目标视频中的第12s至第36s所对应的片段。

步骤204，根据各幻灯片对应的视频片段，生成各幻灯片对应的图片和/或描述文本。

步骤205，根据各幻灯片对应的图片和/或描述文本，生成演示文档的图文信息。

步骤204至步骤205的执行过程可以参见本公开任一实施例的执行过程，在此不再赘述。

本公开实施例的视频处理方法，通过对目标视频中的多帧进行内容识别，以确定至少一个集合，其中，属于相同集合的各帧展示有演示文档中的相同幻灯片；对至少一个集合中任意的目标集合，根据目标集合中各帧在目标视频的展示时刻，确定目标集合所展示的幻灯片对应的视频片段。由此，通过对目标视频中各帧视频帧进行内容识别的方式，可以精准确定展示有相同幻灯片的各帧视频帧，从而根据展示有相同幻灯片的各帧视频帧在目标视频的展示时刻，可以从目标视频中准确定位该相同幻灯片所对应的视频片段。

为了清楚说明本公开上述任一实施例中是如何根据各幻灯片对应的视频片段，生成各幻灯片对应的图片和/或描述文本的，本公开还提出一种视频处理方法。

图3为本公开实施例三所提供的视频处理方法的流程示意图。

如图3所示，该视频处理方法可以包括以下步骤：

步骤301，获取目标视频。

步骤302，对目标视频进行内容识别，以确定演示文档中至少一张幻灯片对应的视频片段。

步骤301至步骤302的执行过程可以参见本公开任一实施例的执行过程，在此不再赘述。

步骤303，从各幻灯片对应的视频片段中，截取展示有对应幻灯片的目标视频帧的全部或部分，以得到各幻灯片的图片。

在本公开实施例中，针对演示文档中的每张幻灯片，可以从目标视频中确定该幻灯片对应的视频片段，从该幻灯片对应的视频片段中，确定展示有该幻灯片的目标视频帧，并截取目标视频帧的全部或部分，将从目标视频帧中截取的全部或部分，作为该幻灯片对应的图片。

作为一种示例，在目标视频帧只展示幻灯片时，可以采用截屏技术，自动截取该目标视频帧的全部，并作为该幻灯片对应的图片。

作为另一种示例，在目标视频帧同时展示幻灯片和其他对象时，可以采用图像处理技术，对展示有该幻灯片的目标视频帧进行幻灯片区域提取，将提取到的幻灯片区域，作为该幻灯片对应的图片。

步骤304，对各幻灯片对应的视频片段，进行语音和/或字幕的识别，以得到对应幻灯片的描述文本。

在本公开实施例中，针对演示文档中的每张幻灯片，可以从目标视频中确定该幻灯片对应的视频片段，对该幻灯片对应的视频片段进行语音识别，和/或，对该幻灯片对应的视频片段进行字幕识别，从而可以根据语音识别结果和/或字幕识别结果，生成该幻灯片对应的描述文本。

作为一种示例，在目标视频中各帧视频帧没有字幕且目标视频没有字幕文件的情况下，可以基于语音识别技术，对该幻灯片对应的视频片段进行语音识别，得到语音识别结果。从而可以根据语音识别结果，确定该幻灯片对应的描述文本。

作为另一种示例，在目标视频中的各帧视频帧具有字幕，但是该目标视频没有字幕文件的情况下，可以基于语音识别技术，对该幻灯片对应的视频片段进行语音识别，得到语音识别结果，和/或，可以基于OCR(Optical Character Recognition，光学字符识别)技术，对该幻灯片对应的视频片段进行字幕识别，得到字幕识别结果，从而可以根据语音识别结果和/或字幕识别结果，生成该幻片对应的描述文本。

作为又一种示例，在目标视频具有字幕文件的情况下，为了降低处理负担，可以直接从字幕文件中，确定该幻灯片对应的视频片段对应的字幕内容，并作为字幕识别结果，从而可以根据语音识别结果和/或字幕识别结果，生成该幻片对应的描述文本。

步骤305，根据各幻灯片对应的图片和/或描述文本，生成演示文档的图文信息。

步骤305的执行过程可以参见本公开任一实施例的执行过程，在此不再赘述。

需要说明的是，本公开仅以步骤304在步骤303之后执行进行示例，但本公开并不限于此，即本公开对步骤303至步骤304的执行时序不作限制，步骤303可以与步骤304并列执行，或者，步骤303可以在步骤304之后执行，本公开对此不作限制。

本公开实施例的视频处理方法，通过从各幻灯片对应的视频片段中，截取展示有对应幻灯片的目标视频帧的全部或部分，以得到各幻灯片的图片；对各幻灯片对应的视频片段，进行语音和/或字幕的识别，以得到对应幻灯片的描述文本。由此，基于图像处理技术、语音识别技术、自然语言处理技术以及OCR技术，可以有效获取各幻灯片对应的图片和/或描述文本，从而可以根据各幻灯片对应的图片和/或描述文本，有效获得演示文档的图文信息，以满足不同用户的个性化展示需求。

需要说明的是，在实际应用中，如果视频片段中的各帧视频帧中，除了展示同一幻灯片，还显示了主讲人(讲师或教师)的形象，则此时可能存在以下两种情况：

第一，幻灯片和主讲人同屏展示；比如，幻灯片位于视频帧的左侧，主讲人位于视频帧的右侧，或者，幻灯片位于视频帧的右侧，而主讲人位于视频帧的左侧。

第二，画中画，主屏展示幻灯片，小屏显示主讲人，且主屏包含小屏。

特别的，在该视频片段是第一种情况下，截取到的该视频片段对应的图片，可能会出现幻灯片显示不清晰，或者，截取到的图片包括除幻灯片之外的用户不感兴趣的内容，此时，可能导致用户观感不佳的情况发生。

因此，在本公开实施例的一种可能的实现方式中，为了精准获取幻灯片所展示的信息，方便用户阅读幻灯片所展示的信息，改善用户的使用体验，可以预先对各幻灯片对应的目标视频帧进行判断，确定是截取展示有对应幻灯片的目标视频帧的全部还是部分。

下面结合图4，对各视频片段中，存在其他对象与幻灯片同框的情况下，如何截取展示有对应幻灯片的目标视频帧的全部或部分进行详细说明。

图4为本公开实施例四所提供的视频处理方法的流程示意图。

如图4所示，该视频处理方法可以包括以下步骤：

步骤401，获取目标视频。

步骤402，对目标视频进行内容识别，以确定演示文档中至少一张幻灯片对应的视频片段。

步骤401至步骤402的执行过程可以参见本公开任一实施例的执行过程，在此不再赘述。

步骤403，将各视频片段中，连续多帧显示内容相似度大于设定第一阈值的视频帧作为目标视频帧。

在本公开实施例中，第一阈值为预先设置的。比如，第一阈值可以为70％、75％等等。

在本公开实施例中，针对每个视频片段，可以根据该视频片段中各帧视频帧的显示内容(也可以称为图像信息)，确定各帧视频帧之间的相似度。比如，可以采用直方图匹配算法统计各帧视频帧之间的相似度，当然也可以采用其他相似度计算算法，计算各帧视频帧之间的相似度，本公开对此并不做限制。当连续多帧视频帧的显示内容的相似度大于第一阈值时，可以将该连续多帧视频帧作为目标视频帧。

举例说明，假设演示文档中第一张幻灯片对应的视频片段1为目标视频中的第1～50帧，针对该视频片段1，可以先选定第1帧视频帧作为对比帧，并将第1帧视频帧加入视频帧集合中，并将第1帧视频帧和第2帧视频帧进行比较，以确定第1帧视频帧和第2帧视频帧之间的的相似度a。

当相似度a大于第一阈值时，继续选定第2帧视频帧作为对比帧，并将第2帧视频帧也加入视频帧集合中，类似地，可以将第2帧视频帧和第3帧视频帧进行比较，以确定第2帧视频帧和第3帧视频帧之间的相似度b。当相似度b大于第一阈值时，继续选定第3帧视频帧作为对比帧，并将第3帧视频帧加入视频帧集合中，依次类推，可以确定是否存在连续多帧的显示内容大于第一阈值的视频帧集合。

而当相似度a小于或等于第一阈值时，则选定第2帧作为对比帧，并将第1帧视频帧从视频帧集合中去除，且，将第2帧视频帧加入视频帧集合中，并将第2帧视频帧和第3帧视频帧进行比较，以确定第2帧视频帧和第3帧视频帧之间的相似度b，重回上述步骤，依次类推，直到确定存在连续多帧的显示内容大于第一阈值的视频帧集合。

从而本公开中，可以将同一视频片段中连续多帧显示内容相似度大于第一阈值的视频帧作为目标视频帧，即将最后得到的视频帧集合中的各帧视频帧作为目标视频帧。

步骤404，在多帧目标视频帧的显示内容相似度小于第二阈值的情况下，在目标视频帧中识别幻灯片的边框；其中，第二阈值大于第一阈值。

在本公开实施例中，第二阈值为预先设置的，且，第二阈值大于第一阈值，比如第二阈值可以为85％、90％、95％等等。

在本公开实施例中，在多帧目标视频帧的显示内容之间的相似度小于第二阈值，且大于第一阈值的情况下，可以确定各目标视频帧中不仅存在同一幻灯片，还可能存在其他对象，且其他对象在目标视频帧中的占比不低，因此本公开中，为了避免幻灯片对应的图片中包括除幻灯片之外的用户不感兴趣的内容，而导致用户观感不佳的情况发生，可以提取各目标视频帧中的任一帧视频帧，并识别该帧视频帧中幻灯片的边框。比如，可以采用图像边缘检测技术，识别目标视频帧中幻灯片的边框。或者，由于幻灯片所在的区域的亮度较高，基于上述亮度特征，可以从目标视频帧中识别幻灯片所在的区域(本公开中记为幻灯片区域)，从而可以提取该幻灯片区域的边框，作为幻灯片的边框。

需要说明的是，目标视频帧中各帧之间的显示内容相似度可以采用步骤403中的方法确定，在确定多帧目标视频帧的显示内容相似度时，执行过程可以参见步骤403，在此不再赘述。

还需要说明的是，当多帧目标视频的显示内容之间的相似度小于第二阈值的情况下，这种情况可能对应着上述例子的第一种情况，即视频帧中幻灯片与其他对象同屏。

与之相反的，当多帧目标视频帧的显示内容相似度大于或者等于第二阈值的情况下，这种情况可能对应着上述例子的第二种情况，或，视频片段中只显示幻灯片，而未显示其他对象。

应当理解的是，针对上述第二种情况，由于其他对象小屏展示，并不影响用户观看该幻灯片，因此，可以截取目标视频帧的全部作为对应幻灯片的图片。并且，由于幻灯片主屏展示，而主屏包含用于展示其他对象的小屏，如果从主屏中扣除该小屏，截取的图片中由于缺少一块区域，会显得图片比较突兀，从而导致用户观感不佳。因此，本公开中，针对上述第二种情况，可以截取目标视频帧的全部作为对应幻灯片的图片，以改善用户的使用体验。

此外，在视频片段中只显示幻灯片的情况下，由于目标视频帧中没有其他对象干扰用户观看幻灯片，也可以截取目标视频帧的全部作为对应幻灯片的图片。即在本公开实施例一种可能的实现方式中，在多帧目标视频帧的显示内容相似度大于或等于第二阈值的情况下，可以截取目标视频帧的全部作为对应幻灯片的图片。

在本公开实施例中，在多帧目标视频帧的显示内容相似度大于或者等于第二阈值的情况下，可以采用截屏技术，截取目标视频帧的全部，作为目标视频帧中幻灯片对应的图片。

步骤405，根据边框，确定幻灯片区域。

在本公开实施例中，在识别到目标视频帧中幻灯片的边框时，可以根据边框在目标视频帧中的位置信息，确定幻灯片区域，即可以将目标视频帧中边框内部所包围的区域，作为幻灯片区域。

步骤406，从目标视频帧中截取幻灯片区域作为对应幻灯片的图片。

在本公开实施例中，在确定幻灯片区域后，可以从目标视频帧中截取该幻灯片区域，并将截取到的幻灯片区域作为对应幻灯片的图片。

步骤407，对各幻灯片对应的视频片段，进行语音和/或字幕的识别，以得到对应幻灯片的描述文本。

步骤408，根据各幻灯片对应的图片和/或描述文本，生成演示文档的图文信息。

步骤407至步骤408的执行过程可以参见本公开任一实施例的执行过程，在此不再赘述。

本公开实施例的视频处理方法，通过将各视频片段中，连续多帧显示内容相似度大于设定第一阈值的视频帧作为目标视频帧；在多帧目标视频帧的显示内容相似度小于第二阈值的情况下，在目标视频帧中识别幻灯片的边框；其中，第二阈值大于第一阈值；根据边框，确定幻灯片区域；从目标视频帧中截取幻灯片区域作为对应幻灯片的图片。由此，在其他对象与幻灯片同框的情况下，仅截取幻灯片区域，作为幻灯片的图片，可以避免幻灯片对应的图片中包括除幻灯片之外的用户不感兴趣的内容，而导致用户观感不佳的情况发生，即避免图片中存在较大占比的其他对象，而造成干扰用户观看幻灯片的情况，可以改善用户的使用体验。

需要说明的是，当各幻灯片对应的视频片段中字幕与语音同步展示时，可以对视频片段进行语音识别，得到的该视频片段展示的幻灯片对应的描述文本1，和/或，可以对该视频片段中的字幕进行识别，得到的该视频片段展示的幻灯片对应的描述文本2。将描述文本1和描述文本2进行对比，可能存在同音不同字、音近字或形近字等情况。比如，对各视频片段进行语音识别所得到的描述文本，可能与对各视频片段进行字幕识别所得到描述文本，存在同音不同字等情况；再比如，对各视频片段进行字幕识别所得到的描述文本，可能与对各视频片段进行语音识别所得到的描述文本，存在形近字的错别字等情况。而这些情况可能使用户对幻灯片内容的理解出现偏差，降低用户的使用体验。因此，针对上述问题，为了保证描述文本生成结果的准确度和可靠性，本公开还提出一种视频处理方法。

图5为本公开实施例五所提供的视频处理方法的流程示意图。

如图5所示，该视频处理方法可以包括以下步骤：

步骤501，获取目标视频。

步骤502，对目标视频进行内容识别，以确定演示文档中至少一张幻灯片对应的视频片段。

步骤503，从各幻灯片对应的视频片段中，截取展示有对应幻灯片的目标视频帧的全部或部分，以得到各幻灯片的图片。

步骤501至步骤503的执行过程可以参见本公开任一实施例的执行过程，在此不再赘述。

步骤504，对各视频片段，进行语音识别，以得到第一文本。

本公开实施例中，第一文本可以是根据各视频片段的音频信息(或称为音频数据、语音信息)生成的，与各视频片段对应的幻灯片内容匹配。

在本公开实施例中，可以对各幻灯片对应的视频片段，采用语音识别技术，识别各视频片段中的音频信息，以得到第一文本。

步骤505，对各视频片段中与语音同步展示的字幕进行识别，以得到与第一文本对齐的第二文本。

在本公开实施例中，各视频片段中的字幕与语音同步展示。

在本公开实施例中，第二文本可以是根据各视频片段的字幕生成的，与各视频片段对应的幻灯片内容匹配。

在本公开实施例中，针对各幻灯片对应的视频片段，可以采用OCR识别技术，对各视频片段中与语音同步展示的字幕进行识别，以得到各视频片段中展示的幻灯片对应的第二文本。

步骤506，将第一文本中的子词与第二文本中对应的子词比较。

在本公开实施例中，可以将第一文本进行分词处理，得到第一文本中的各个子词，同样地，可以将第二文本进行分词处理，得到第二文本中的各个子词，从而可以将第一文本中的子词与第二文本中对应的子词作比较。

在本公开实施例中，在第一文本中的子词与第二文本中对应的子词发音相似，且字不同的情况下，可以执行步骤507；在第一文本中的子词与第二文本中对应的子词字形相似，且发音不同的情况下，可以执行步骤508。

步骤507，在第一文本中的子词与第二文本中对应的子词发音相似，且字不同的情况下，根据第二文本中的子词生成描述文本中对应的子词。

在本公开实施例中，在第一文本中的子词与第二文本中对应的子词发音相似，且字不同时，可以根据第二文本中的子词生成描述文本中对应的子词。

举例而言，第一文本中的子词“失忆”，与第二文本中对应的子词“诗意”发音相似，但是字不相同。此时，可以选取第二文本中的子词“诗意”作为描述文本中对应的子词。

步骤508，在第一文本中的子词与第二文本中对应的子词字形相似，且发音不同的情况下，根据第一文本中的子词生成描述文本中对应的子词。

在本公开实施例中，在第一文本中的子词与第二文本中对应的子词字形相似，且发音不同时，可以根据第一文本中的子词生成描述文本中对应的子词。

举例而言，第一文本中的子词“针砭”，与第二文本中对应的子词“针乏”字形相似，但是发音不同。此时，可以选取第一文本中的子词“针砭”作为描述文本中对应的子词。

步骤509，根据各幻灯片对应的图片和/或描述文本，生成演示文档的图文信息。

步骤509的执行过程可以参见本公开任一实施例的执行过程，在此不再赘述。

本公开实施例的视频处理方法，通过对各视频片段，进行语音识别，以得到第一文本；对各视频片段中与语音同步展示的字幕进行识别，以得到与第一文本对齐的第二文本；将第一文本中的子词与第二文本中对应的子词比较；在第一文本中的子词与第二文本中对应的子词发音相似，且字不同的情况下，根据第二文本中的子词生成描述文本中对应的子词；在第一文本中的子词与第二文本中对应的子词字形相似，且发音不同的情况下，根据第一文本中的子词生成描述文本中对应的子词。由此，针对发音相似且字不同、字形相似且发音不同的情况，采用不同方式，确定描述文本中的各个子词，可以提升生成描述文本生成结果的准确性和可靠性，从而可以便于用户准确理解各个幻灯片内容，改善用户的使用体验。

在目标视频展示的幻灯片为多张的情况下，为了清楚说明本公开上述任意一个实施例中，是如何根据各幻灯片对应的图片和/或描述文本，生成演示文档的图文信息的，本公开还提出一种视频处理方法。

图6为本公开实施例六所提供的视频处理方法的流程示意图。

如图6所示，该视频处理方法可以包括以下步骤：

步骤601，获取目标视频。

步骤602，对目标视频进行内容识别，以确定演示文档中至少一张幻灯片对应的视频片段。

步骤603，根据各幻灯片对应的视频片段，生成各幻灯片对应的图片和/或描述文本。

步骤604，在目标视频展示的幻灯片为多张的情况下，按照幻灯片的展示顺序，对各幻灯片的图片和描述文本排版，以得到演示文档的图文信息。

在本公开实施例中，在目标视频展示的幻灯片为多张的情况下，可以按照各幻灯片的展示顺序，对各幻灯片的图片和描述文本进行排版，以得到演示文档的图文信息。例如，可以采用形如“幻灯片|描述文本|幻灯片|描述文本…”的排版格式，对各幻灯片的图片和描述文本进行排版，从而得到演示文档的图文信息。

需要说明的是，上述仅以根据各幻灯片对应的视频片段，生成各幻灯片对应的图片和描述文本，并根据各幻灯片对应的图片和描述文本，生成演示文档的图文信息进行示例，实际应用时，当视频片段中未存在字幕，或者，视频片段中未包含音频信息时，根据各幻灯片对应的视频片段，生成的仅为各幻灯片对应的图片，从而生成的演示文档的图文信息中仅包括图片信息，而未包括文本信息。因此，作为一种可能的实现方式，当根据各幻灯片对应的视频片段，仅生成各幻灯片对应的图片时，可以按照各幻灯片的展示顺序，对各幻灯片对应的图片进行排版，以得到演示文档的图文信息，例如得到形如“图片|图片|图片…”排版格式的图文信息。

需要说明的是，上述仅以排版格式为“图片|描述文本|图片|描述文本…”进行示例，但本公开对各幻灯片的图片和描述文本的排版格式不做限制，比如，排版格式还可以为“描述文本|图片|描述文本|图片…”。

需要理解的是，当某一幻灯片对应的描述文本长度过长时，在用户观看该幻灯片对应的图文信息中的文本信息时，如果用户想要回看图文信息中的图片信息，则用户可能需要翻页才能看到该幻灯片对应的图片，给用户带来极大地不便。因此，针对这一问题，可以执行步骤605。

步骤605，在至少两帧幻灯片之间存在大于设定长度阈值的目标描述文本，则在目标描述文本之中，插入对应的幻灯片的图片。

在本公开实施例中，长度阈值是预先设置的。

在本公开实施例中，描述文本的长度是指描述文本包含的字符个数。本公开中，将各描述文本中至少两帧幻灯片之间存在大于设定长度阈值的描述文本，记为目标描述文本。

在本公开实施例中，当至少两帧幻灯片之间存在大于设定长度阈值的目标描述文本时，可以在目标描述文本之中，插入对应的幻灯片的图片。比如，可以插入与目标描述信息对应的幻灯片的图片。

本公开实施例的视频处理方法，通过在目标视频展示的幻灯片为多张的情况下，按照幻灯片的展示顺序，对各幻灯片的图片和描述文本排版，以得到演示文档的图文信息；在至少两帧幻灯片之间存在大于设定长度阈值的目标描述文本，则在目标描述文本之中，插入对应的幻灯片的图片。由此，通过对各幻灯片对应的图片和各幻灯片对应的描述文本进行排版，可以生成方便用户阅读的图文信息，进一步改善用户的使用体验。

在本公开的任意一个实施例之中，作为一种示例，可以将该方法应用于初始状态如图7所示的目标视频，其中，该目标视频中各幻灯片的展示顺序为幻灯片1、幻灯片2、幻灯片3、幻灯片4、幻灯片5，且该目标视频具有以下几种场景；

第一种，幻灯片一直在播放，如图7中幻灯片1、幻灯片5的展示过程；

第二种，在幻灯片播放的过程中，存在主讲人与幻灯片的变换，如图7中幻灯片2的展示过程；

第三种，画中画，即幻灯片主屏展示，主讲人(或称为讲师)小屏展示，如图7中幻灯片3的展示过程，且主屏包含小屏；

第四种，幻灯片与主讲人同屏展示，如图7中幻灯片4的展示过程。

针对该目标视频中不同的各幻灯片，主讲人对各幻灯片所讲的内容可以如表1中所示。

表1

视频片段	内容
		幻灯片1	幻灯片1开始。。。幻灯片1结束
幻灯片2	幻灯片2开始。。。
		讲师	幻灯片2中间内容。。。
幻灯片2	幻灯片2结束
		幻灯片3	幻灯片3开始。。。幻灯片3结束
幻灯片4	幻灯片4开始。。。幻灯片4结束
		幻灯片5	幻灯片5开始。。。幻灯片5结束

应用本公开的方法，对该目标视频进行处理的过程可以如下所示：

1，在播放幻灯片1之前，可能会有主讲人的个人介绍，可以采用语音和/或字幕识别，直接生成对应的描述文本。

2，幻灯片1对应的视频片段的处理过程：

基于目标视频中各帧视频帧的显示内容，识别幻灯片1对应的展示时段的开始时刻及结束时刻(即起止时刻)，从而根据上述展示时段的起止时刻，确定幻灯片1对应的视频片段。幻灯片1对应的视频片段为连续多帧不变，截屏上述多帧视频帧中的任一视频帧的全部，作为幻灯片1对应的图片，并将幻灯片1对应的视频片段中的描述文本，关联幻灯片1。

3，幻灯片2对应的视频片段的处理过程可以为：

a)当幻灯片1到幻灯片2，说明幻灯片1播放结束，提取展示有幻灯片2的视频帧，并根据提取的视频帧，确定幻灯片2对应的视频片段。可以截取展示有幻灯片2的视频帧的全部，并作为幻灯片2对应的图片；

b)将幻灯片2对应的视频片段中的描述文本与幻灯片2关联；

c)当视频转场到主讲人，没有幻灯片关联；但，可以对视频中的字幕和/或音频信息进行识别，得到文本内容；

d)当目标视频中再现幻灯片2时，之前识别的文本内容，与幻灯片2关联。

4，幻灯片3对应的视频片段的处理过程可以为：

其中，这个阶段场景为画中画，视频片段为连续多帧部分区域不变，部分区域一直在变，并且是包含的关系，可以截取视频帧的全部，并作为幻灯片3对应的图片。

a)当幻灯片2到幻灯片3，说明幻灯片2播放结束；

b)同样提取文字内容，与幻灯片3关联。

5，幻灯片4对应的视频片段的处理过程可以为：

此时，幻灯片4和主讲人同屏，视频片段为连续多帧部分区域不变，部分区域一直在变，部分区域没有关联，但幻灯片的边界为固定的形状，可以通过确定幻灯片4所在区域，截屏幻灯片所在区域，从而得到幻灯片4对应的图片。

a)当幻灯片3到幻灯片4，说明幻灯片4播放结束；

b)同样提取文字内容，与幻灯片4关联。

6，幻灯片5对应的视频片段的处理过程可以为：

此时，全屏展示幻灯片5，视频片段为连续多帧不变，可以截屏视频帧的全部，并作为幻灯片5对应的图片。

a)当幻灯片4到幻灯片5，说明幻灯片4播放结束；

b)同样提取文字内容，与幻灯片5关联，直到视频播放结束。

基于本公开实施例的方法，在处理上述视频时，至少可以基于以下几个核心技术，提高图文信息的质量：

1.基于图像识别技术，实现对目标视频中的各帧视频帧进行内容识别，其中，内容主要包括主讲人、幻灯片内容等；

2.基于语音识别技术，实现对目标视频中的音频信息进行语音识别，以提取描述文本；

3.基于OCR识别技术，实现对目标视频中的字幕进行识别。

基于本公开实施例的方法，在处理上述视频时，至少可以体现出以下优点：

支持对目标视频进行内容转换，生成图文信息，并支持对图文信息进行发布，可适应于不同用户对于不同内容的浏览偏好。并且，可以实现同一次内容的生产，输出多种形态的承载(比如视频、图文信息)，以适应于更多的用户浏览偏好，同时，可以支持用户对于不同内容的检索，提升各内容的曝光度。

与上述图1至图6实施例提供的视频处理方法相对应，本公开还提供一种视频处理装置，由于本公开实施例提供的视频处理装置与上述图1至图6实施例提供的视频处理方法相对应，因此在视频处理方法的实施方式也适用于本公开实施例提供的视频处理装置，在本公开实施例中不再详细描述。

图8为本公开实施例七所提供的视频处理装置的结构示意图。

如图8所示，该视频处理装置800，可以包括：获取模块801、处理模块802、第一生成模块803及第二生成模块804。

其中，获取模块801，用于获取目标视频。

处理模块802，用于对目标视频进行内容识别，以确定演示文档中至少一张幻灯片对应的视频片段。

第一生成模块803，用于根据各幻灯片对应的视频片段，生成各幻灯片对应的图片和/或描述文本。

第二生成模块804，用于根据各幻灯片对应的图片和/或描述文本，生成演示文档的图文信息。

在本公开实施例的一种可能的实现方式中，处理模块802，具体用于：对目标视频中的多帧进行内容识别，以确定至少一个集合，其中，属于相同集合的各帧展示有演示文档中的相同幻灯片；对至少一个集合中任意的目标集合，根据目标集合中各帧在目标视频的展示时刻，确定目标集合所展示的幻灯片对应的视频片段。

在本公开实施例的一种可能的实现方式中，处理模块802，还具体用于：

根据目标集合中各帧的展示时刻，确定目标集合所属展示时段的起止时刻；根据展示时段的起止时刻，确定目标集合所展示的幻灯片对应的视频片段。

在本公开实施例的一种可能的实现方式中，第一生成模块803，具体用于：从各幻灯片对应的视频片段中，截取展示有对应幻灯片的目标视频帧的全部或部分，以得到各幻灯片的图片；对各幻灯片对应的视频片段，进行语音和/或字幕的识别，以得到对应幻灯片的描述文本。

在本公开实施例的一种可能的实现方式中，第一生成模块803，还具体用于：将各视频片段中，连续多帧显示内容相似度大于设定第一阈值的视频帧作为目标视频帧；在多帧目标视频帧的显示内容相似度小于设定第二阈值的情况下，在目标视频帧中识别幻灯片的边框；其中，第二阈值大于所述第一阈值；根据边框，确定幻灯片区域；从目标视频帧中截取幻灯片区域作为对应幻灯片的图片。

在本公开实施例的一种可能的实现方式中，第一生成模块803，还具体用于：在多帧目标视频帧的显示内容相似度大于或等于第二阈值的情况下，截取目标视频帧的全部作为对应幻灯片的图片。

在本公开实施例的一种可能的实现方式中，第一生成模块803，具体用于：对各视频片段，进行语音识别，以得到第一文本；对各视频片段中与语音同步展示的字幕进行识别，以得到与第一文本对齐的第二文本；将第一文本中的子词与第二文本中对应的子词比较；在第一文本中的子词与第二文本中对应的子词发音相似，且字不同的情况下，根据第二文本中的子词生成描述文本中对应的子词；在第一文本中的子词与第二文本中对应的子词字形相似，且发音不同的情况下，根据第一文本中的子词生成描述文本中对应的子词。

在本公开实施例的一种可能的实现方式中，第二生成模块804，具体用于：在目标视频展示的幻灯片为多张的情况下，按照幻灯片的展示顺序，对各幻灯片的图片和描述文本排版，以得到演示文档的图文信息；在至少两帧幻灯片之间存在大于设定长度阈值的目标描述文本，则在目标描述文本之中，插入对应的幻灯片的图片。

本公开实施例的视频处理装置，通过对获取的目标视频进行内容识别，以确定演示文档中至少一张幻灯片对应的视频片段；根据各幻灯片对应的视频片段，生成各幻灯片对应的图片和/或描述文本，以根据各幻灯片对应的图片和/或描述文本，生成演示文档的图文信息。由此，将包含演示文档的视频处理为包含少量图片和/或文本的图文信息，可以实现在满足用户获取视频中的知识需求的基础上，降低网络流量开销，改善用户的使用体验。并且，将视频中的演示文档转化为对应的图文信息，可以实现以多种形式展示演示文档，可以满足不同用户的个性化需求，此外，还可以避免用户为了阅读或者保存视频中的演示文档中的幻灯片内容，而需要反复暂停视频的操作，进一步改善用户的使用体验。

为了实现上述实施例，本公开还提出了一种电子设备，该电子设备包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开上述任一实施例提出的视频处理方法。

为了实现上述实施例，本公开还提出了一种计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行本公开上述任一实施例提出的视频处理方法。

为了实现上述实施例，本公开还提出了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现本公开上述任一实施例提出的视频处理方法。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图9所示，设备900包括计算单元901，其可以根据存储在ROM(Read-OnlyMemory，只读存储器)902中的计算机程序或者从存储单元908加载到RAM(Random AccessMemory，随机访问/存取存储器)903中的计算机程序，来执行各种适当的动作和处理。在RAM903中，还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM903通过总线904彼此相连。I/O(Input/Output，输入/输出)接口905也连接至总线904。

设备900中的多个部件连接至I/O接口905，包括：输入单元906，例如键盘、鼠标等；输出单元907，例如各种类型的显示器、扬声器等；存储单元908，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于CPU(Central Processing Unit，中央处理单元)、GPU(Graphic Processing Units，图形处理单元)、各种专用的AI(Artificial Intelligence，人工智能)计算芯片、各种运行机器学习模型算法的计算单元、DSP(Digital SignalProcessor，数字信号处理器)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理，例如上述视频处理方法。例如，在一些实施例中，上述视频处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到电子设备900上。当计算机程序加载到RAM903并由计算单元901执行时，可以执行上文描述的模型训练方法或信息处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元901可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行上述视频处理方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、FPGA(Field Programmable Gate Array，现场可编程门阵列)、ASIC(Application-Specific Integrated Circuit，专用集成电路)、ASSP(Application Specific StandardProduct，专用标准产品)、SOC(System On Chip，芯片上系统的系统)、CPLD(ComplexProgrammable Logic Device，复杂可编程逻辑设备)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、RAM、ROM、EPROM(Electrically Programmable Read-Only-Memory，可擦除可编程只读存储器)或快闪存储器、光纤、CD-ROM(Compact Disc Read-Only Memory，便捷式紧凑盘只读存储器)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装(例如，CRT(Cathode-Ray Tube，阴极射线管)或者LCD(Liquid Crystal Display，液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：LAN(LocalArea Network，局域网)、WAN(Wide Area Network，广域网)、互联网和区块链网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual PrivateServer"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

其中，需要说明的是，人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种视频处理方法，包括：

获取目标视频，所述目标视频为展示有演示文档的视频；

对所述目标视频中的多帧进行内容识别，以确定至少一个集合，其中，属于相同集合的各帧展示有演示文档中的相同幻灯片；

对所述至少一个集合中任意的目标集合，根据所述目标集合中各帧在所述目标视频的展示时刻，确定所述目标集合所展示的幻灯片对应的视频片段；

根据各所述幻灯片对应的视频片段，生成各所述幻灯片对应的图片和/或描述文本，各所述幻灯片对应的描述文本与所述幻灯片对应的视频片段的音频信息和字幕相匹配；

根据各所述幻灯片对应的图片和/或描述文本，生成所述演示文档的图文信息；

其中，所述根据各所述幻灯片对应的视频片段，生成各所述幻灯片对应的图片和/或描述文本，包括：

从各所述幻灯片对应的视频片段中，截取展示有对应幻灯片的目标视频帧的全部或部分，以得到各幻灯片的图片；

对各所述视频片段，进行语音识别，以得到第一文本；

对各所述视频片段中与所述语音同步展示的字幕进行识别，以得到与所述第一文本对齐的第二文本；

将所述第一文本中的子词与所述第二文本中对应的子词比较；在所述第一文本中的子词与所述第二文本中对应的子词发音相似，且字不同的情况下，根据所述第二文本中的子词生成所述描述文本中对应的子词；

在所述第一文本中的子词与所述第二文本中对应的子词字形相似，且发音不同的情况下，根据所述第一文本中的子词生成所述描述文本中对应的子词。

2.根据权利要求1所述的方法，其中，所述对所述至少一个集合中任意的目标集合，根据所述目标集合中各帧在所述目标视频的展示时刻，确定对应的视频片段，包括：

根据所述目标集合中各帧的展示时刻，确定所述目标集合所属展示时段的起止时刻；

根据所述展示时段的起止时刻，确定所述目标集合所展示的幻灯片对应的视频片段。

3.根据权利要求1所述的方法，其中，所述从各所述幻灯片对应的视频片段中，截取展示有对应幻灯片的目标视频帧的全部或部分，以得到各幻灯片的图片，包括：

将各所述视频片段中，连续多帧显示内容相似度大于设定第一阈值的视频帧作为所述目标视频帧；

在多帧所述目标视频帧的显示内容相似度小于设定第二阈值的情况下，在所述目标视频帧中识别幻灯片的边框；其中，所述第二阈值大于所述第一阈值；

根据所述边框，确定幻灯片区域；

从所述目标视频帧中截取所述幻灯片区域作为对应幻灯片的图片。

4.根据权利要求3所述的方法，其中，所述方法还包括：

在多帧所述目标视频帧的显示内容相似度大于或等于所述第二阈值的情况下，截取所述目标视频帧的全部作为对应幻灯片的图片。

5.根据权利要求1-4任一项所述的方法，其中，所述根据各所述幻灯片对应的图片和/或描述文本，生成所述演示文档的图文信息，包括：

在所述目标视频展示的幻灯片为多张的情况下，按照幻灯片的展示顺序，对各所述幻灯片的图片和描述文本排版，以得到所述演示文档的图文信息；

在至少两帧幻灯片之间存在大于设定长度阈值的目标描述文本，则在所述目标描述文本之中，插入对应的幻灯片的图片。

6.一种视频处理装置，包括：

获取模块，用于获取目标视频，所述目标视频为展示有演示文档的视频；

处理模块，用于对所述目标视频中的多帧进行内容识别，以确定至少一个集合，其中，属于相同集合的各帧展示有演示文档中的相同幻灯片；对所述至少一个集合中任意的目标集合，根据所述目标集合中各帧在所述目标视频的展示时刻，确定所述目标集合所展示的幻灯片对应的视频片段；

第一生成模块，用于根据各所述幻灯片对应的视频片段，生成各所述幻灯片对应的图片和/或描述文本，各所述幻灯片对应的描述文本与所述幻灯片对应的视频片段的音频信息和字幕相匹配；

第二生成模块，用于根据各所述幻灯片对应的图片和/或描述文本，生成所述演示文档的图文信息；

其中，所述第一生成模块，具体用于：

对各所述视频片段，进行语音识别，以得到第一文本；

将所述第一文本中的子词与所述第二文本中对应的子词比较；

在所述第一文本中的子词与所述第二文本中对应的子词发音相似，且字不同的情况下，根据所述第二文本中的子词生成所述描述文本中对应的子词；

7.根据权利要求6所述的装置，其中，所述处理模块，具体用于：

8.根据权利要求6所述的装置，其中，所述第一生成模块，具体用于：

根据所述边框，确定幻灯片区域；

9.根据权利要求8所述的装置，其中，所述第一生成模块，还用于：

10.根据权利要求6-9任一项所述的装置，其中，所述第二生成模块，具体用于：

11.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。

12.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-5中任一项所述的方法。

13.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-5中任一项所述的方法的步骤。