CN112738554B

CN112738554B - 视频的处理方法、装置和电子设备

Info

Publication number: CN112738554B
Application number: CN202011527208.0A
Authority: CN
Inventors: 张倩
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-12-22
Filing date: 2020-12-22
Publication date: 2022-12-13
Anticipated expiration: 2040-12-22
Also published as: CN112738554A

Abstract

本申请公开了一种视频的处理方法、装置和电子设备，涉及计算机视觉、语音、及视频等人工智能技术领域。具体实现方案为：在获取视频中的主要内容时，先获取待处理视频，并根据用户对待处理视频的操作行为，在待处理视频中确定目标视频片段；再根据目标视频片段在待处理视频中的起始时间和终止时间，获取表示目标视频片段主要内容的文本信息；并在获取到主要内容的文本信息后，输出文本信息。这样通过向用户输出视频中主要内容的文本信息，使得用户可以直观地获取到视频中的主要内容，从而提高了用户体验。

Description

视频的处理方法、装置和电子设备

技术领域

本申请涉及计算机技术领域，尤其涉及一种视频的处理方法、装置和电子设备，具体可用于计算机视觉技术、语音技术、以及视频技术等人工智能技术领域。

背景技术

视频已经成为了大多数人日常消磨时间及丰富学习的工具。尤其是一些教学类视频或者美食类视频，例如做菜教学类视频。

现有技术中，用户在通过电子设备观看做菜教学类视频学做菜时，对于视频中的主要内容，例如加盐量、加油克数，蒸煮时间等相关内容，用户需要多次手动拖拽视频的进度条，将视频的进度条拖拽到主要内容，控制电子设备重复播放该主要内容，以满足用户反复观看主要内容的需求。

但是，采用现有的处理方法，用户获取视频中的主要内容比较困难，从而导致用户体验较差。

发明内容

本申请提供了一种视频的处理方法、装置和电子设备，通过输出视频中主要内容的文本信息，使得用户可以直观地获取到视频中的主要内容，从而提高了用户体验。

根据本申请的第一方面，提供了一种视频的处理方法，该视频的处理方法可以包括：

获取待处理视频。

根据用户对所述待处理视频的操作行为，在所述待处理视频中确定目标视频片段。

根据所述目标视频片段在所述待处理视频中的起始时间和终止时间，获取表示所述目标视频片段主要内容的文本信息。

输出所述文本信息。

根据本申请的第二方面，提供了一种视频的处理装置，该视频的处理装置可以包括：

获取单元，用于获取待处理视频。

第一处理单元，用于根据用户对所述待处理视频的操作行为，在所述待处理视频中确定目标视频片段。

第二处理单元，用于根据所述目标视频片段在所述待处理视频中的起始时间和终止时间，获取表示所述目标视频片段主要内容的文本信息。

第一输出单元，用于输出所述文本信息。

根据本申请的第三方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述第一方面所述的视频的处理方法。

根据本申请的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行上述第一方面所述的视频的处理方法。

根据本申请的第五方面，提供了一种计算机程序产品，所述程序产品包括：计算机程序，所述计算机程序存储在可读存储介质中，电子设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序，所述至少一个处理器执行所述计算机程序使得电子设备执行上述第一方面所述的视频的处理方法。

根据本申请的技术方案，在获取视频中的主要内容时，先获取待处理视频，并根据用户对待处理视频的操作行为，在待处理视频中确定目标视频片段；再根据目标视频片段在待处理视频中的起始时间和终止时间，获取表示目标视频片段主要内容的文本信息；并在获取到主要内容的文本信息后，输出文本信息。这样通过向用户输出视频中主要内容的文本信息，使得用户可以直观地获取到视频中的主要内容，从而提高了用户体验。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是本申请实施例提供的一种山药紫薯蛋糕视频的播放示意图；

图2是本申请实施例提供的一种反复观看主要内容的示意图；

图3是根据本申请第一实施例提供的视频的处理方法的流程示意图；

图4是本申请实施例提供的一种对视频的操作示意图；

图5是根据本申请第二实施例提供的视频的处理方法的流程示意图；

图6是本申请实施例提供的一种输出主要内容的示意图；

图7是本申请实施例提供的另一种输出主要内容的示意图；

图8是根据本申请第三实施例提供的视频的处理装置的示意性框图；

图9是本申请实施例提供的一种电子设备的示意性框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在本申请的实施例中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况，其中A，B可以是单数或者复数。在本申请的文字描述中，字符“/”一般表示前后关联对象是一种“或”的关系。

视频已经成为了大多数人日常消磨时间及丰富学习的工具。尤其是一些教学类视频或者美食类视频，例如做菜教学类视频。现有技术中，用户在通过电子设备观看做菜教学类视频学做菜时，对于视频中的主要内容，例如加盐量、加油克数，蒸煮时间等相关内容，用户需要多次手动拖拽视频的进度条，将视频的进度条拖拽到主要内容，控制电子设备重复播放该主要内容，以满足用户反复观看主要内容的需求。

以做山药紫薯蛋糕视频为例，用户可以观看该山药紫薯蛋糕视频学做山药紫薯蛋糕。视频中除了具有配图之外，会同步进行讲解。示例的，请参见图1所示，图1是本申请实施例提供的一种山药紫薯蛋糕视频的播放示意图，通常情况下，每一个视频一开始可能都会有一段简单的开场白，例如，“大家好，今天周末休息一下，来给家人做一份山药紫薯蛋糕，紫薯具有抗衰老，改善肤质的作用；同时还具有促进肠胃蠕动和增强抵抗力的作用。铁杆山药也具有很好的补钙，养颜的作用。下面，我们就开始啦”，开场白结束后，会正式进入具体操作阶段，例如“山药紫薯蛋糕的用料：鸡蛋5个、玉米油55克、细砂糖70克、紫薯2个、低粉90克、牛奶65克、铁杆山药1根、椰蓉12克。在准备好配料之后，接下来，我们要开始做啦。第一步：将5个鸡蛋的蛋清和蛋黄分开；第二步：将牛奶和玉米油倒入到料理盆中，充分搅拌成乳化的状态；……；第五步、烤盘中提前放好油纸，将蛋糊倒入到烤盘中，抹平表面；第六步、烤箱中层175度热风二十分钟左右；接下来就要耐心等待啦，在等待蛋糕片的时候，可以先做紫薯山药糊；第七步、提前蒸熟的紫薯山药去皮后混合在一起，用手持料理机搅拌成细腻的糊状；第八步、在烤好的每片蛋糕抹一层紫薯山药糊、将三片蛋糕叠起来，表层撒上椰蓉，山药紫薯蛋糕就做好了”具体操作完成后，视频中通常会有一段结束语，例如“今天的山药紫薯蛋糕终于完成了，真是色香味俱全，而且是一款健康的甜品，大家也可以在家尝试一下啊，谢谢大家的观看”。

通常情况下，用户观看一次山药紫薯蛋糕视频，并不能完全获取到山药紫薯蛋糕视频中的主要内容，即上述具体操作阶段的内容，因此，用户可能需要反复观看。当用户仅需要反复观看上述具体操作阶段的内容时，需要多次手动拖拽视频的进度条，示例的，请参见图2所示，图2是本申请实施例提供的一种反复观看主要内容的示意图，将视频的进度条拖拽到“山药紫薯蛋糕的用料：鸡蛋5个、玉米油55克、细砂糖70克、紫薯2个、低粉90克、牛奶65克、铁杆山药1根、椰蓉12克”，并再一次观看具体操作阶段的内容；当播放完具体操作阶段的内容“第八步、在烤好的每片蛋糕抹一层紫薯山药糊、将三片蛋糕叠起来，表层撒上椰蓉，山药紫薯蛋糕就做好了”播放完成后，若此时用户还需要再观看，则再次手动拖拽视频的进度条，并将视频的进度条拖拽到“山药紫薯蛋糕的用料：鸡蛋5个、玉米油55克、细砂糖70克、紫薯2个、低粉90克、牛奶65克、铁杆山药1根、椰蓉12克”，并再一次观看具体操作阶段的内容，直至用户获取到该山药紫薯蛋糕视频中的主要内容。但是，采用现有方法，用户获取山药紫薯蛋糕视频中具体操作阶段的内容比较困难，从而导致用户体验较差。

为了便于用户获取山药紫薯蛋糕视频中具体操作阶段的内容，用户可以截屏功能，从视频中一一截取具体操作阶段的相关图像，从而获取具体操作阶段的内容。但是，一一截取具体操作阶段的相关图像时，会因为操作不准导致截取到的图像比较模糊，不仅无法获取到视频中具体操作阶段的内容，而且会导致用户体验较差。因此，可以考虑直接向用户直接输出山药紫薯蛋糕视频中具体操作阶段的文本信息，使得用户可以直观地获取到视频中的主要内容，从而提高了用户体验。

基于上述技术构思，本申请实施例提供了一种视频的处理方法，可用于计算机视觉技术、语音技术、以及视频技术等人工智能技术领域。具体方案包括：获取待处理视频；根据用户对待处理视频的操作行为，在待处理视频中确定目标视频片段；根据目标视频片段在待处理视频中的起始时间和终止时间，获取表示目标视频片段主要内容的文本信息；并输出文本信息。

示例的，待处理视频可以为教学类视频或者美食类视频，也可以为其它视频，具体可以根据实际需要进行设置，在此，对于待处理视频的内容，本申请实施例不做具体限制。在后续的实施例中，将以待处理视频为山药紫薯蛋糕视频为例进行说明，但并不代表本申请实施例仅局限于此。

其中，目标视频片段对应的内容可以理解为视频中的主要内容。以视频为山药紫薯蛋糕视频为例，目标视频片段即为视频中具体操作阶段的视频片段。

可以看出，本申请实施例中，在获取视频中的主要内容时，先获取待处理视频，并根据用户对待处理视频的操作行为，在待处理视频中确定目标视频片段；再根据目标视频片段在待处理视频中的起始时间和终止时间，获取表示目标视频片段主要内容的文本信息；并在获取到主要内容的文本信息后，输出文本信息。这样通过向用户输出视频中主要内容的文本信息，使得用户可以直观地获取到视频中的主要内容，从而提高了用户体验。

下面，将通过具体的实施例对本申请提供的视频的处理方法进行详细地说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

实施例一

图3是根据本申请第一实施例提供的视频的处理方法的流程示意图，该视频的处理方法可以由软件和/或硬件装置执行，例如，该硬件装置可以为终端或者服务器。示例的，请参见图3所示，该视频的处理方法可以包括：

S301、获取待处理视频。

示例的，待处理视频可以为教学类视频或者美食类视频，也可以为其它视频，具体可以根据实际需要进行设置，在此，对于待处理视频的内容，本申请实施例不做具体限制。

示例的，在获取待处理视频时，可以在预先存储的视频库中查找获取待处理视频；也可以通过其它电子设备获取待处理视频，也可以通过其它方式获取待处理视频，具体可以根据实际需要进行设置，在此，对于获取待处理视频的方法，本申请实施例不做进一步地限制。

S302、根据用户对待处理视频的操作行为，在待处理视频中确定目标视频片段。

示例的，在本申请实施例中，在待处理视频中确定目标视频片段时，可以在待处理视频播放过程中，根据用户对待处理视频的操作行为，在待处理视频中确定目标视频片段；也可以在待处理视频播放完成后，根据用户对待处理视频的操作行为，在待处理视频中确定目标视频片段；具体可以根据实际需要进行设置。

示例的，在根据用户对待处理视频的操作行为，在待处理视频中确定目标视频片段时，可以包括下述至少两种可能的实现方式：

在一种可能的实现方式中，电子设备可以接收用户对待处理视频的操作指令，操作指令中包括起始时间和终止时间；并根据起始时间和终止时间，在待处理视频中确定目标视频片段。

示例的，用户对待处理视频的操作指令可以为用户对待处理视频的进度条的点选操作；也可以为用户对待处理视频的进度条的拖拽操作，也可以为用户在待处理视频的操作界面上的输入操作，具体可以根据实际需要进行设置，在此，本申请实施例只是以用户对待处理视频的操作指令可以为上述三种操作为例进行说明，但并不代表本申请实施例仅局限于此。

当用户对待处理视频的操作指令为用户对待处理视频的进度条的点选操作或者拖拽操作时，用户对待处理视频的进度条的点选操作或者拖拽操作的可以作为在待处理视频中确定目标视频片段的触发条件，电子设备在检测到用户对待处理视频的进度条的点选操作或者拖拽操作时，根据该点选操作或者拖拽操作，在整个待处理视频中圈定目标视频片段的起始点和终止点；电子设备可以根据圈定的目标视频片段的起始点和终止点，分别确定起始点对应的起始时间、及终止点对应的终止时间；这样就可以根据起始时间和终止时间，在待处理视频中筛选目标视频片段，从而确定目标视频片段。

需要说明的是，在该种方式中，也可以预先在待处理视频的播放界面设置生成主要内容的触发按钮，用户可以先触发该触发按钮，该触发按钮可以作为在待处理视频中确定目标视频片段的触发条件；电子设备在检测到用户触发了该触发按钮后，说明用户需要获取视频中的主要内容，则继续检测用户对待处理视频的进度条的点选操作或者拖拽操作，从而通过对待处理视频的进度条的点选操作拖拽操作，在待处理视频中确定目标视频片段。

当用户对待处理视频的操作指令为用户在待处理视频的操作界面上的输入操作时，该输入操作包括起始时间和终止时间，电子设备在检测到用户在待处理视频的操作界面上输入的起始时间和终止时间后，可以根据用户在待处理视频的操作界面上输入的起始时间和终止时间，在待处理视频中筛选目标视频片段，从而获取到该目标视频片段。示例的，在该种方式中，可以预先在待处理视频的播放界面设置生成主要内容的触发按钮，用户可以先触发该触发按钮，该触发按钮可以作为在待处理视频中确定目标视频片段的触发条件；电子设备在检测到用户触发了该触发按钮后，说明用户需要获取视频中的主要内容，向用户显示起始时间和终止时间的输入框，用户可以根据提示输入起始时间和终止时间，使得电子设备根据用户输入的输入起始时间和终止时间在待处理视频中确定目标视频片段。

在该种可能的实现方式中，在待处理视频中确定目标视频片段时，通过接收用户对待处理视频的操作指令，操作指令中包括起始时间和终止时间；并根据起始时间和终止时间，在待处理视频中确定目标视频片段。虽然该种可能的实现方式也需要用户操作，但是用户操作简单，无需像现有中那样需要反复拖拽进度条，并且根据用户对待处理视频的操作确定目标视频片段，这样确定出的目标视频片段更符合当前用户的观看需求。

在另一种可能的实现方式中，电子设备可以基于用户对待处理视频重复播放操作的次数，在待处理视频中确定目标视频片段。

示例的，用户对待处理视频重复播放操作的次数，可以为用户当前对待处理视频重复播放操作的次数；也可以为用户历史对待处理视频重复播放操作的次数，具体可以根据实际需要进行设置，在此，本申请实施例不做具体限制。

在该种可能的实现方式中，若用户对待处理视频重复播放操作的次数大于预设阈值，说明需要获取视频中的主要内容，例如，用户重复播放山药紫薯蛋糕视频中起始时间00:15至终止时间00:50之间的视频片段，且播放次数大于预设阈值，则可以将起始时间00:15至终止时间00:50之间的视频片段，确定为目标视频片段，从而获取到待处理视频中的目标视频片段。

在根据用户对待处理视频的操作行为，在待处理视频中确定目标视频片段时，只是以上述两种可能的实现方式为例进行说明，也可以通过其它可能的实现方式在待处理视频中确定目标视频片段，例如，根据其他用户对待处理视频重复播放操作的次数确定目标视频片段，在此，对于如何根据用户对待处理视频的操作行为，在待处理视频中确定目标视频片段，本申请实施例不做具体限制。

继续以待处理视频为山药紫薯蛋糕视频为例，假设在播放结束语“今天的山药紫薯蛋糕终于完成了，真是色香味俱全，而且是一款健康的甜品，大家也可以在家尝试一下啊，谢谢大家的观看”时，用户对山药紫薯蛋糕视频的进度条执行点选操作，可参见图4所示，图4是本申请实施例提供的一种对视频的操作示意图，用户可以对山药紫薯蛋糕视频的进度条执行点选操作，通常情况下，首次点选操作用于圈定目标视频片段的起始点，第二次点选操作用于圈定目标视频片段的终止点；或者，首次点选操作也可以用于圈定目标视频片段的终止点，第二次点选操作用于圈定目标视频片段的起始点。电子设备在检测到两次点选操作后，会分别确定起始点和终止点对应的起始时间和终端时间，假设起始点对应的起始时间为00:15，终止点对应的终止时间为00:50，这样就可以根据起始时间00:15和终止时间00:50，在待处理视频中筛选除起始时间00:15至终止时间00:50之间的视频片段，该视频片段即为目标视频片段，该目标视频片段为山药紫薯蛋糕视频中具体操作阶段的视频片段。

在根据用户对待处理视频的操作行为，在待处理视频中确定目标视频片段后，就可以根据目标视频片段在待处理视频中的起始时间和终止时间，获取表示目标视频片段主要内容的文本信息，即执行下述S303：

S303、根据目标视频片段在待处理视频中的起始时间和终止时间，获取表示目标视频片段主要内容的文本信息。

示例的，在根据目标视频片段在待处理视频中的起始时间和终止时间，获取表示目标视频片段主要内容的文本信息时，可以包括下述至少两种可能的实现方式：

在一种可能的实现方式中，若待处理视频中包括字幕，则电子设备可以根据起始时间和终止时间，直接提取目标视频片段对应的文本信息，从而获取到表示目标视频片段主要内容的文本信息。

在另一种可能的实现方式中，若待处理视频中不包括字幕，则电子设备可以根据起始时间和终止时间，获取目标视频片段对应的音频数据，并对音频数据进行转换，从而得到目标视频片段对应的文本信息。

在本申请实施例中，在获取表示目标视频片段主要内容的文本信息时，只是以上述两种可能的实现方式为例进行说明，但并不代表本申请实施例仅局限于此。

结合上述图4所示，继续以待处理视频为山药紫薯蛋糕视频为例，假设山药紫薯蛋糕视频中包括字幕，则可以根据起始时间00:15和终止时间00:50，筛选出起始时间00:15至终止时间00:50之间的字幕，并将起始时间00:15至终止时间00:50之间的字幕确定为表示目标视频片段主要内容的文本信息，从而获取到该主要内容的文本信息。结合图4所示，该主要内容的文本信息为“山药紫薯蛋糕的用料：鸡蛋5个、玉米油55克、细砂糖70克、紫薯2个、低粉90克、牛奶65克、铁杆山药1根、椰蓉12克。在准备好配料之后，接下来，我们要开始做啦。第一步：将5个鸡蛋的蛋清和蛋黄分开；第二步：将牛奶和玉米油倒入到料理盆中，充分搅拌成乳化的状态；……；第五步、烤盘中提前放好油纸，将蛋糊倒入到烤盘中，抹平表面；第六步、烤箱中层175度热风二十分钟左右；接下来就要耐心等待啦，在等待蛋糕片的时候，可以先做紫薯山药糊；第七步、提前蒸熟的紫薯山药去皮后混合在一起，用手持料理机搅拌成细腻的糊状；第八步、在烤好的每片蛋糕抹一层紫薯山药糊、将三片蛋糕叠起来，表层撒上椰蓉，山药紫薯蛋糕就做好了”。

S304、输出文本信息。

示例的，在输出表示目标视频片段主要内容的文本信息时，可以通过一帧图像输出该文本信息，也可以通过多帧图像输出该文本信息，具体可以根据实际需要进行设置，在此，本申请实施例不做具体限制。

可以看出，本申请实施例中，在获取视频中的主要内容时，先获取待处理视频，并根据用户对待处理视频的操作行为，在待处理视频中确定目标视频片段；再根据目标视频片段在待处理视频中的起始时间和终止时间，获取表示目标视频片段主要内容的文本信息；并在获取到主要内容的文本信息后，输出文本信息。这样通过向用户输出视频中主要内容的文本信息，使得用户可以直观地获取到视频中的主要内容，提高了主要内容的获取效率，从而提高了用户体验。

基于上述图3所示的实施例，在通过上述S304输出文本信息时，由于表示目标视频片段主要内容的文本信息中可能会包括一些无关具体操作的文本信息，结合上述图4所示，该山药紫薯蛋糕视频中主要内容的文本信息中包括了一些无关具体操作的文本信息，例如“在准备好配料之后，接下来，我们要开始做啦”，以及“接下来就要耐心等待啦，在等待蛋糕片的时候”等，因此，为了避免向用户输出这些无关具体操作的文本信息，电子设备可以在向用户输出表示目标视频片段主要内容的文本信息之前，先对表示目标视频片段主要内容的文本信息进行语义分析，从主要内容的文本信息中，筛选出表示目标视频片段主要内容的关键文本信息，再输出该关键文本信息，这样可以有效地避免向用户输出这些无关具体操作的文本信息，从而进一步提高了用户体验。

结合上述图4所示，山药紫薯蛋糕视频中主要内容的文本信息为“山药紫薯蛋糕的用料：鸡蛋5个、玉米油55克、细砂糖70克、紫薯2个、低粉90克、牛奶65克、铁杆山药1根、椰蓉12克。在准备好配料之后，接下来，我们要开始做啦。第一步：将5个鸡蛋的蛋清和蛋黄分开；第二步：将牛奶和玉米油倒入到料理盆中，充分搅拌成乳化的状态；……；第五步、烤盘中提前放好油纸，将蛋糊倒入到烤盘中，抹平表面；第六步、烤箱中层175度热风二十分钟左右；接下来就要耐心等待啦，在等待蛋糕片的时候，可以先做紫薯山药糊；第七步、提前蒸熟的紫薯山药去皮后混合在一起，用手持料理机搅拌成细腻的糊状；第八步、在烤好的每片蛋糕抹一层紫薯山药糊、将三片蛋糕叠起来，表层撒上椰蓉，山药紫薯蛋糕就做好了”，可以对山药紫薯蛋糕视频中主要内容的文本信息进行语义分析，从主要内容的文本信息中，筛选出表示目标视频片段主要内容的关键文本信息，该关键文本信息可以为“山药紫薯蛋糕的用料：鸡蛋5个、玉米油55克、细砂糖70克、紫薯2个、低粉90克、牛奶65克、铁杆山药1根、椰蓉12克。第一步：将5个鸡蛋的蛋清和蛋黄分开；第二步：将牛奶和玉米油倒入到料理盆中，充分搅拌成乳化的状态；……；第五步、烤盘中提前放好油纸，将蛋糊倒入到烤盘中，抹平表面；第六步、烤箱中层175度热风二十分钟左右；做紫薯山药糊；第七步、提前蒸熟的紫薯山药去皮后混合在一起，用手持料理机搅拌成细腻的糊状；第八步、在烤好的每片蛋糕抹一层紫薯山药糊、将三片蛋糕叠起来，表层撒上椰蓉，山药紫薯蛋糕就做好了”，并输出该关键文本信息，这样可以避免向用户输出无关具体操作的文本信息“在准备好配料之后，接下来，我们要开始做啦”，以及“接下来就要耐心等待啦，在等待蛋糕片的时候”，从而进一步提高了用户体验。

上述在对主要内容的文本信息进行语义分析之前，可以预先以一些教学性特有视频的关键词语作为训练标本，并结合具体语义分析，得到字幕内容解析识别的分析系统，并根据该分析系统对对主要内容的文本信息进行语义分析，从而筛选出表示目标视频片段主要内容的关键文本信息。

基于上述实施例，电子设备在向用户输出表示目标视频片段主要内容的关键文本信息时，为了使得输出的主要内容更加形象，可以在向用户输出表示目标视频片段主要内容的关键文本信息的基础上，一并输出关键文本信息对应的图像，并通过图像辅助关键文本信息输出主要内容，这样可以使得输出的主要内容更加形象，从而便于用户获取视频中的主要内容。下面，将通过下述图5所示的实施例二，对如何通过图像辅助关键文本信息输出主要内容进行详细的描述。

实施例二

图5是根据本申请第二实施例提供的视频的处理方法的流程示意图，该视频的处理方法同样可以由软件和/或硬件装置执行，例如，该硬件装置可以为终端或者服务器。示例的，请参见图5所示，该视频的处理方法还可以包括：

S501、确定目标视频片段对应的多帧图像。

示例的，在确定目标视频片段对应的多帧图像时，可以根据目标视频片段对应的起始时间和终止时间，从待处理视频中提取出该时间段内的所有图像，该时间段内的所有图像即为目标视频片段对应的图像。

在向用户输出主要内容时，由于图像只是用于辅助关键文本信息输出主要内容，但通过上述S501中获取到的图像为整个目标视频片段对应的所有图像，因此，无需将目标视频片段对应的所有图像一一输出，而是可以先对目标视频片段对应的图像进行筛选，即执行下述S502：

S502、根据关键文本信息对应的时间点，从多帧图像中确定至少一帧目标图像。

示例的，在根据关键文本信息对应的时间点，从多帧图像中确定至少一帧目标图像时，可以先根据该关键文本信息对应的时间点，从上述S501中获取到的多帧图像中，卡点确定与关键文本信息对应的多帧图像；再根据多帧图像中图像的画面重复度，在与关键文本信息对应的多帧图像中确定至少一帧目标图像。

示例的，在根据图像的画面重复度，在与关键文本信息对应的多帧图像中确定至少一帧目标图像时，可以先将与关键文本信息对应的多帧图像中，相邻的两张图像进行重复度对比；若相邻的两张图像的重复度大于或等于预设阈值，说明这两张图像的重复度较高，无需输出该两种图像，在该种情况下，将相邻的两张图像中，图像质量最高的图像确定为需要输出的目标图像；若相邻的两张图像的重复度小于预设阈值，说明这两张图像的重复度较低，可以保留该两种图像，用于辅助关键文本信息输出主要内容，在该种情况下，可以将相邻的两张图像均确定为需要输出的目标图像。

结合图4所示，假设目标视频片段为山药紫薯蛋糕视频中的起始时间00:15和终止时间00:50之间的视频片段，则通过上述S501获取到的目标视频片段对应的图像为起始时间00:15和终止时间00:50之间的所有图像，由于关键文本信息是对目标视频片段的文本信息进行筛选得到的文本信息，因此，在输出图像时，可以根据关键文本信息对应的时间点，卡点从起始时间00:15和终止时间00:50之间的所有图像中确定多帧图像；由于该多帧图像中可能会存在重复度比较高的图像，因此，可以将该多帧图像中相邻的两张图像进行重复度对比。若时间点00:20对应的图像与时间点00:21对应的图像的重复度大于或等于预设阈值，说明这两张图像的重复度较高，无需输出该两种图像，在该种情况下，将相邻的两张图像中，图像质量最高的图像确定为需要输出的目标图像。若时间点00:20对应的图像与时间点00:21对应的图像的重复度小于预设阈值，说明这两张图像的重复度较低，可以保留该两种图像，用于辅助关键文本信息输出主要内容，在该种情况下，可以将相邻的两张图像均确定为需要输出的目标图像。

这样在确定出需要输出的目标图像后，就可以将目标图像与关键文本信息匹配输出，即执行下述S503：

S503、将目标图像与关键文本信息匹配输出。

结合上述S502中的描述，在一种情况下，若时间点00:20对应的图像和时间点00:21对应的图像均为需要输出的目标图像，示例的，请参见图6所示，图6是本申请实施例提供的一种输出主要内容的示意图，则在将该时间点00:20对应的图像和时间点00:21对应的图像与关键文本信息匹配输出时，该时间点00:20对应的图像用于辅助时间点00:20对应的关键文本信息输出主要内容，时间点00:21对应的图像用于辅助时间点00:21对应的关键文本信息输出主要内容。

在另一种情况下，若时间点00:20对应的图像和时间点00:21对应的图像中只要图像质量最高的图像为需要输出的目标图像，且该图像质量最高的图像为时间点00:21对应的图像，示例的，示例的，请参见图7所示，图7是本申请实施例提供的另一种输出主要内容的示意图，则在将该时间点00:21对应的图像与关键文本信息匹配输出时，该时间点00:21对应的图像用于辅助时间点00:20对应的关键文本信息和时间点00:21对应的关键文本信息输出主要内容。

可以看出，本申请实施例中，在获取视频中的主要内容时，电子设备除了向用户输出表示目标视频片段主要内容的文本信息之外，还可以确定目标视频片段对应的多帧图像，并根据关键文本信息对应的时间点，从多帧图像中确定至少一帧目标图像，再将目标图像与关键文本信息匹配输出，这样通过向用户输出视频中主要内容的文本信息和用于辅助文本信息的目标图像，使得用户可以更加直观地获取到视频中的主要内容，从而进一步提高了用户体验。

实施例三

图8是根据本申请第三实施例提供的视频的处理装置800的示意性框图，示例的，请参见图8所示，该视频的处理装置800可以包括：

获取单元801，用于获取待处理视频。

第一处理单元802，用于根据用户对待处理视频的操作行为，在待处理视频中确定目标视频片段。

第二处理单元803，用于根据目标视频片段在待处理视频中的起始时间和终止时间，获取表示目标视频片段主要内容的文本信息。

第一输出单元804，用于输出文本信息。

可选的，该视频的处理装置800还包括接收单元，第一处理单元802包括第一处理模块。

接收单元，用于接收用户对待处理视频的操作指令，操作指令中包括起始时间和终止时间。

第一处理模块，用于根据起始时间和终止时间，在待处理视频中确定目标视频片段。

可选的，第一处理单元802包括第二处理模块。

第二处理模块，用于基于用户对待处理视频重复播放操作的次数，在待处理视频中确定目标视频片段。

可选的，第二处理单元803包括第三处理模块和第四处理模块。

第三处理模块，用于若待处理视频中包括字幕，则根据起始时间和终止时间，提取目标视频片段对应的文本信息。

第四处理模块，用于若待处理视频中不包括字幕，则根据起始时间和终止时间，获取目标视频片段对应的音频数据，并对音频数据进行转换，得到目标视频片段对应的文本信息。

可选的，该视频的处理装置800还包括第三处理单元。

第三处理单元，用于对表示目标视频片段主要内容的文本信息进行语义分析，从主要内容的文本信息中，筛选出表示目标视频片段主要内容的关键文本信息。

第一输出单元804，具体用于输出关键文本信息。

可选的，该视频的处理装置800还包括第四处理单元、第五处理单元和第二输出单元。

第四处理单元，用于确定目标视频片段对应的多帧图像。

第五处理单元，用于根据关键文本信息对应的时间点，从多帧图像中确定至少一帧目标图像。

第二输出单元，用于将目标图像与关键文本信息匹配输出。

可选的，第五处理单元包括第五处理模块和第六处理模块。

第五处理模块，用于根据关键文本信息对应的时间点，从多帧图像中确定与关键文本信息对应的多帧图像。

第六处理模块，用于根据图像的画面重复度，在与关键文本信息对应的多帧图像中确定至少一帧目标图像。

可选的，第六处理模块包括第一处理子模块和第二处理子模块。

第一处理子模块，用于将与关键文本信息对应的多帧图像中，相邻的两张图像进行重复度对比。

第二处理子模块，用于若相邻的两张图像的重复度大于或等于预设阈值，则将相邻的两张图像中，图像质量最高的图像确定为目标图像；若相邻的两张图像的重复度小于预设阈值，则将相邻的两张图像均确定为目标图像。

本申请实施例提供的视频的处理装置800，可以执行上述任一实施例所示的视频的处理方法的技术方案，其实现原理以及有益效果与视频的处理方法的实现原理及有益效果类似，可参见视频的处理方法的实现原理及有益效果，此处不再进行赘述。

根据本申请的实施例，本申请还提供了一种计算机程序产品，程序产品包括：计算机程序，计算机程序存储在可读存储介质中，电子设备的至少一个处理器可以从可读存储介质读取计算机程序，至少一个处理器执行计算机程序使得电子设备执行上述任一实施例提供的方案，其实现原理以及有益效果与视频的处理方法的实现原理及有益效果类似，可参见视频的处理方法的实现原理及有益效果，此处不再进行赘述。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

图9是本申请实施例提供的一种电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图9所示，电子设备900包括计算单元901，其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序，来执行各种适当的动作和处理。在RAM903中，还可存储设备900操作所需的各种程序和数据。计算单元901、ROM902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

设备900中的多个部件连接至I/O接口905，包括：输入单元906，例如键盘、鼠标等；输出单元907，例如各种类型的显示器、扬声器等；存储单元908，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理，例如视频的处理方法。例如，在一些实施例中，视频的处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时，可以执行上文描述的视频的处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元901可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行视频的处理方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本申请的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本申请的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种视频的处理方法，包括：

获取待处理视频；

根据用户对所述待处理视频的操作行为，在所述待处理视频中确定目标视频片段；

根据所述目标视频片段在所述待处理视频中的起始时间和终止时间，获取表示所述目标视频片段主要内容的文本信息；

输出所述文本信息；

所述方法还包括：

确定所述目标视频片段对应的多帧图像；

根据关键文本信息对应的时间点，从所述多帧图像中确定至少一帧目标图像，所述关键文本信息为从所述目标视频片段主要内容对应的文本信息中筛选出的；

将所述目标图像与所述关键文本信息匹配输出，其中，一帧所述目标图像对应两个时间点的关键文本信息。

2.根据权利要求1所述的方法，其中，所述根据用户对所述待处理视频的操作行为，在所述待处理视频中确定目标视频片段，包括：

接收所述用户对所述待处理视频的操作指令，所述操作指令中包括所述起始时间和所述终止时间；

根据所述起始时间和所述终止时间，在所述待处理视频中确定所述目标视频片段。

3.根据权利要求1所述的方法，其中，所述根据用户对所述待处理视频的操作行为，在所述待处理视频中确定目标视频片段，包括：

基于所述用户对所述待处理视频重复播放操作的次数，在所述待处理视频中确定所述目标视频片段。

4.根据权利要求1所述的方法，其中，所述根据所述目标视频片段在所述待处理视频中的起始时间和终止时间，获取表示所述目标视频片段主要内容的文本信息，包括：

若所述待处理视频中包括字幕，则根据所述起始时间和所述终止时间，提取所述目标视频片段对应的文本信息；

若所述待处理视频中不包括字幕，则根据所述起始时间和所述终止时间，获取所述目标视频片段对应的音频数据，并对所述音频数据进行转换，得到所述目标视频片段对应的文本信息。

5.根据权利要求1-4任一项所述的方法，所述方法还包括：对表示所述目标视频片段主要内容的文本信息进行语义分析，从所述主要内容的文本信息中，筛选出表示所述目标视频片段主要内容的关键文本信息；

所述输出所述文本信息包括：

输出所述关键文本信息。

6.根据权利要求1所述的方法，其中，所述根据所述关键文本信息对应的时间点，从所述多帧图像中确定至少一帧目标图像，包括：

根据所述关键文本信息对应的时间点，从所述多帧图像中确定与所述关键文本信息对应的多帧图像；

根据图像的画面重复度，在与所述关键文本信息对应的多帧图像中确定所述至少一帧目标图像。

7.根据权利要求6所述的方法，其中，所述根据图像的画面重复度，在与所述关键文本信息对应的多帧图像中确定所述至少一帧目标图像，包括：

将与所述关键文本信息对应的多帧图像中，相邻的两张图像进行重复度对比；

若所述相邻的两张图像的重复度大于或等于预设阈值，则将所述相邻的两张图像中，图像质量最高的图像确定为所述目标图像；

若所述相邻的两张图像的重复度小于预设阈值，则将所述相邻的两张图像均确定为所述目标图像。

8.一种视频的处理装置，包括：

获取单元，用于获取待处理视频；

第一处理单元，用于根据用户对所述待处理视频的操作行为，在所述待处理视频中确定目标视频片段；

第二处理单元，用于根据所述目标视频片段在所述待处理视频中的起始时间和终止时间，获取表示所述目标视频片段主要内容的文本信息；

第一输出单元，用于输出所述文本信息；

所述装置还包括第四处理单元、第五处理单元和第二输出单元；

所述第四处理单元，用于确定所述目标视频片段对应的多帧图像；

所述第五处理单元，用于根据关键文本信息对应的时间点，从所述多帧图像中确定至少一帧目标图像，所述关键文本信息为从所述目标视频片段主要内容对应的文本信息中筛选出的；

所述第二输出单元，用于将所述目标图像与所述关键文本信息匹配输出，其中，一帧所述目标图像对应两个时间点的关键文本信息。

9.根据权利要求8所述的装置，其中，所述装置还包括接收单元，所述第一处理单元包括第一处理模块；

所述接收单元，用于接收所述用户对所述待处理视频的操作指令，所述操作指令中包括所述起始时间和所述终止时间；

所述第一处理模块，用于根据所述起始时间和所述终止时间，在所述待处理视频中确定所述目标视频片段。

10.根据权利要求8所述的装置，其中，所述第一处理单元包括第二处理模块；

所述第二处理模块，用于基于所述用户对所述待处理视频重复播放操作的次数，在所述待处理视频中确定所述目标视频片段。

11.根据权利要求8所述的装置，其中，所述第二处理单元包括第三处理模块和第四处理模块；

所述第三处理模块，用于若所述待处理视频中包括字幕，则根据所述起始时间和所述终止时间，提取所述目标视频片段对应的文本信息；

所述第四处理模块，用于若所述待处理视频中不包括字幕，则根据所述起始时间和所述终止时间，获取所述目标视频片段对应的音频数据，并对所述音频数据进行转换，得到所述目标视频片段对应的文本信息。

12.根据权利要求8-11任一项所述的装置，所述装置还包括第三处理单元；

所述第三处理单元，用于对表示所述目标视频片段主要内容的文本信息进行语义分析，从所述主要内容的文本信息中，筛选出表示所述目标视频片段主要内容的关键文本信息；

所述第一输出单元，具体用于输出所述关键文本信息。

13.根据权利要求8所述的装置，其中，所述第五处理单元包括第五处理模块和第六处理模块；

所述第五处理模块，用于根据所述关键文本信息对应的时间点，从所述多帧图像中确定与所述关键文本信息对应的多帧图像；

所述第六处理模块，用于根据图像的画面重复度，在与所述关键文本信息对应的多帧图像中确定所述至少一帧目标图像。

14.根据权利要求13所述的装置，其中，所述第六处理模块包括第一处理子模块和第二处理子模块；

所述第一处理子模块，用于将与所述关键文本信息对应的多帧图像中，相邻的两张图像进行重复度对比；

所述第二处理子模块，用于若所述相邻的两张图像的重复度大于或等于预设阈值，则将所述相邻的两张图像中，图像质量最高的图像确定为所述目标图像；若所述相邻的两张图像的重复度小于预设阈值，则将所述相邻的两张图像均确定为所述目标图像。

15.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的视频的处理方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的视频的处理方法。