CN114095754A

CN114095754A - 视频处理方法、装置及电子设备

Info

Publication number: CN114095754A
Application number: CN202111367328.3A
Authority: CN
Inventors: 冯志杰
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2021-11-17
Filing date: 2021-11-17
Publication date: 2022-02-25
Anticipated expiration: 2041-11-17
Also published as: CN114095754B

Abstract

本申请公开了一种视频处理方法、装置及电子设备，属于数据处理领域。视频处理方法包括：显示待处理视频，所述待处理视频中的第一视频帧包括文字信息；接收对所述待处理视频中目标对象的第一输入；响应于所述第一输入，从所述待处理视频中抽取包括所述目标对象的视频帧，得到初始视频段；当所述初始视频段中任意两个相邻显示的第二视频帧的文字信息不连贯时，在所述两个相邻显示的第二视频帧之间进行补帧处理，得到目标视频段。

Description

视频处理方法、装置及电子设备

技术领域

本申请属于数据处理领域，具体涉及一种视频处理方法、装置及电子设备。

背景技术

随着智能终端的普及，人们开始利用碎片时间通过智能终端学习、娱乐。由此，短视频通过其自身时长短、耗费流量少的特征，因符合人们可利用碎片时间观看的需求而受到欢迎。短视频不仅可以通过录制得到，还可以通过对长视频进行裁剪得到。

目前，基于长视频得到的短视频通常是人为采用视频裁剪软件，通过对长视频的每一帧进行观察后，从长视频的各帧中选择所需的多个视频帧进行裁剪，得到所需的多个视频帧。对该多个视频帧进行拼接，得到短视频。然而，这种制作短视频的方式，由于需要人为选取多个视频帧，并手动将选取的多个视频帧进行裁剪和拼接，因此使得短视频的生成过程较为复杂，长视频中视频帧的精减效率较低。

发明内容

本申请实施例的目的是提供一种视频处理方法、装置及电子设备，能够解决视频段中视频帧的精减效率较低的问题。

为了解决上述技术问题，本申请是这样实现的：

第一方面，本申请实施例提供了一种视频处理方法，所述方法包括：

显示待处理视频，所述待处理视频中的第一视频帧包括文字信息；

接收对所述待处理视频中目标对象的第一输入；

响应于所述第一输入，从所述待处理视频中抽取包括所述目标对象的视频帧，得到初始视频段；

当所述初始视频段中任意两个相邻显示的第二视频帧的文字信息不连贯时，在所述两个相邻显示的第二视频帧之间进行补帧处理，得到目标视频段。

第二方面，本申请实施例提供了一种视频处理装置，所述装置包括：

显示模块，用于显示待处理视频，所述待处理视频中的第一视频帧包括文字信息；

接收模块，用于接收对所述待处理视频中目标对象的第一输入；

抽取模块，用于响应于所述第一输入，从所述待处理视频中抽取包括所述目标对象的视频帧，得到初始视频段；

补帧处理模块，用于当所述初始视频段中任意两个相邻显示的第二视频帧的文字信息不连贯时，在所述两个相邻显示的第二视频帧之间进行补帧处理，得到目标视频段。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。

第四方面，本申请实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。

第五方面，本申请实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面所述的方法。

在本申请实施例中，通过接收对显示的待处理视频中目标对象的第一输入，使得响应于第一输入，从待处理视频中抽取包括目标对象的视频帧，得到初始视频段。并在初始视频段中任意两个相邻显示的第二视频帧的文字信息不连贯时，在两个相邻显示的第二视频帧之间进行补帧处理，得到目标视频段。该技术方案中，用户可以通过对待处理视频中目标对象的第一输入，使得电子设备自动对待处理视频进行处理，以保留待处理视频中包括目标对象的视频帧，裁剪掉不包括目标对象的视频帧，从而生成以目标对象为核心，且相对于待处理视频包括较少视频帧的初始视频段。并且电子设备可以通过对初始视频段进行补帧处理，保障最终生成的目标视频段中各视频帧的连贯性。实现了待处理视频的有效精减。相较于相关技术中，需要人为选取待处理视频中需要保留的视频帧，并手动对需要保留的视频帧进行裁剪和拼接，以生成相对于待处理视频包括较少视频帧的视频段的方式，提高了对待处理视频中视频帧的精减效率。

附图说明

图1是本申请实施例提供的一种视频处理方法的流程图。

图2是本申请实施例提供的一种初始视频段生成方法的流程图。

图3是本申请实施例提供的待处理视频包括的各视频帧的示意图。

图4是本申请实施例提供的目标对象与目标视频帧中各对象的匹配处理过程示意图。

图5是本申请实施例提供的补充标识待抽取视频帧的处理过程示意图。

图6是本申请实施例提供的从待处理视频中抽取待抽取视频帧的处理过程示意图。

图7是本申请实施例提供的一种目标视频段生成方法的流程图。

图8是本申请实施例提供的一种视频帧包括多个区域的示意图。

图9是本申请实施例提供的一种视频处理装置的结构框图；

图10是本申请实施例提供的一种电子设备的结构框图；

图11是本申请实施例的一种电子设备的硬件结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的视频处理方法进行详细地说明。

请参考图1，其示出了本申请实施例提供的一种视频处理方法的流程图。视频处理方法可以应用于电子设备。可选的，电子设备可以为终端。示例的，电子设备可以为手机、平板电脑、个人电脑以及可穿戴设备等终端。如图1所示，所述视频处理方法包括：

步骤101、显示待处理视频，待处理视频中的第一视频帧包括文字信息。

本申请实施例中，待处理视频可以指的是长视频。长视频可以指的是视频播放时长大于预设时长阈值的视频。待处理视频中的第一视频帧包括的文字信息可以表述视频帧的内容，第一视频帧可以指示的待处理视频中全部视频帧或者，第一视频帧也可以指示待处理视频中部分视频帧。在一种应用场景下，电子设备通过对显示的待处理视频执行本申请实施例提供的视频处理方法，以生成目标视频段。目标视频段可以指的是短视频。短视频又称小视频，可以指的是视频播放时长小于预设时长阈值的视频。

步骤102、接收对待处理视频中目标对象的第一输入。

本申请实施例中，用户若想要将待处理视频裁剪为以目标对象为中心的目标视频段，则可以使得电子设备显示待处理视频。用户对显示的待处理视频中目标对象执行第一输入，以使得电子设备可以接收对目标对象的第一输入，进而使得电子设备后续可以响应于第一输入，从待处理视频中抽取包括目标对象的视频帧，得到初始视频段。其中，目标对象可以指的是待处理视频中包括的人物、动物、植物等。目标对象的数量可以为一个或者多个。

可选的，用户可以对待处理视频中目标视频帧内的目标对象执行第一输入，以使得电子设备接收对目标对象的第一输入。其中，目标视频帧可以指的是待处理视频中任一视频帧。示例的，目标视频帧可以为待处理视频中首个视频帧。第一输入可以是点击、长按、滑动、悬空手势或者语音输入等类型的输入。

步骤103、响应于第一输入，从待处理视频中抽取包括目标对象的视频帧，得到初始视频段。

本申请实施例中，电子设备在接收到对待处理视频中目标对象的第一输入后，可以响应于第一输入，将待处理视频拆解为多个视频帧，从多个视频帧中抽取包括目标对象的视频帧。生成包括该视频帧的初始视频段。其中，在目标对象的数量为一个的情况下，电子设备可以从待处理视频的各视频帧中抽取包括目标对象的视频帧得到初始视频段。在目标对象的数量为多个的情况下，电子设备可以从待处理视频的各视频帧中抽取包括所有目标对象的视频帧，得到初始视频段。或者，电子设备可以从待处理视频的各视频帧中抽取包括多个目标对象中任一目标对象的视频帧，得到初始视频段。

可选的，如图2所示，电子设备从待处理视频中抽取包括目标对象的视频帧，得到初始视频段的过程可以包括以下步骤1031至步骤1033。

步骤1031，针对待处理视频的各视频帧中任一目标视频帧，将目标对象与目标视频帧包括的各对象进行匹配处理，得到匹配结果。

本申请实施例中，电子设备遍历待处理视频中各视频帧，依次将每个视频帧作为目标视频帧，对目标视频帧包括的各对象执行与目标对象进行匹配处理的操作，得到匹配结果。匹配结果用于指示目标视频帧是否包括目标对象。

在一种可选的实现方式中，电子设备将目标对象与目标视频帧包括的各对象进行匹配处理，得到匹配结果的过程包括：电子设备将目标对象的特征信息与目标视频帧输入特征匹配模型，得到匹配结果。

其中，电子设备响应于第一输入，可以获取待处理视频中目标对象的特征信息。目标对象的特征信息可以用于反映目标对象。可选的，目标对象的特征信息可以为目标对象的图像信息或者目标对象的特征点信息等。示例的，在目标对象为人物时，目标对象的特征点信息可以为人脸关键点信息、骨骼关键点信息等。在目标对象为物体时，目标对象的特征点信息可以为轮廓点信息等。

特征匹配模型可以用于识别目标视频帧包括的各对象，并将各对象依次与目标对象进行特征匹配，得到匹配结果。本申请实施例不对特征匹配模型的具体模型结构进行限定，只要其能够满足将目标视频帧中每个对象与目标对象的进行特征匹配即可。本申请实施例也不对特征匹配模型的具体匹配逻辑进行限定，比如，特征匹配模型可以提取目标视频帧中任一对象的特征点信息，以及目标对象的特征点信息，并通过计算特征匹配率来判断两个对象的相似程度。基于此，计算得到的特征匹配率可以理解为匹配结果。在特征匹配率大于或者等于匹配数值阈值时，匹配结果指示目标视频帧包括目标对象。在特征匹配率小于匹配数值阈值时，匹配结果指示目标视频帧不包括目标对象。

在另一种可选的实现方式，电子设备将目标对象与目标视频帧包括的各对象进行匹配处理，得到匹配结果的过程包括：电子设备将目标对象的轮廓与目标视频帧包括的各对象的轮廓进行匹配，得到匹配结果。

可选的，电子设备可以获取目标视频帧包括的任一对象的轮廓，以及目标对象的轮廓。并按照预设线段划分规则，分别将该任一对象的轮廓以及目标对象的轮廓进行线段划分，得到该任一对象的第一轮廓线段集以及目标对象的第二轮廓线段集。将第一轮廓线段集包括的线段与第二轮廓线段集包括线段两两组合，得到多个线段对。对每个线段对中的两个线段进行匹配，得到线段对的匹配结果。在匹配成功的线段对的数量与匹配失败的线段对的数量之比大于或者等于数量阈值时，确定匹配结果指示目标视频帧包括目标对象。在匹配成功的线段对的数量与匹配失败的线段对的数量之比小于数量阈值时，确定匹配结果指示目标视频帧不包括目标对象。

步骤1032，当匹配结果指示目标视频帧包括目标对象时，将目标视频帧标记为待抽取视频帧。

可选的，电子设备可以按照待处理视频中各视频帧的显示顺序，依次对待处理视频包括的各视频帧匹配递增的序号。电子设备将目标视频帧标识为待抽取视频帧的过程可以包括：将包括目标对象的目标视频帧的序号存储至标记集合，以将目标视频帧标识为待抽取视频帧。或者，电子设备将包括目标对象的目标视频帧添加标识信息，以将目标视频帧标识待抽取视频帧。

步骤1033，生成包括待抽取视频帧的初始视频段。

本申请实施例中，电子设备从待处理视频中抽取待抽取视频帧，生成包括待抽取视频帧的初始视频段。

需要说明的是，在待抽取视频帧的数量为多个的情况下，从各视频帧中抽取包括目标对象的视频帧，得到初始视频段的过程中，即在步骤1033之前，还可以包括：电子设备补充标识待抽取视频帧。该补充标识待处理视频帧的过程可以包括以下步骤S1至步骤S2。

在步骤S1中，针对待处理视频中任意相邻的两个待抽取视频帧，获取两个待抽取视频帧之间存在的视频帧的第一数量。

本申请实施例中，电子设备在将待处理视频中包括目标对象的目标视频帧标记为待抽取视频之后，可以获取待处理视频中，每相邻的两个待抽取视频帧之间存在的视频帧的第一数量。针对待处理视频中任意相邻的两个待抽取视频帧，判断待处理视频中该两个待抽取视频帧之间存在的视频帧的第一数量是否小于数量阈值。当第一数量大于或者等于数量阈值时，表明待处理视频中该两个待抽取视频帧之间存在较多数量的视频帧。若抽取该两个待抽取视频帧之间的视频帧生成初始视频段，则对初始视频段的大小影响较大，进而影响目标视频段的大小，影响短视频的生成效果。因此，当第一数量大于或者等于数量阈值时，可以不将该两个待抽取视频帧之间存在的视频帧标记为待抽取视频帧。可选的，数量阈值的取值可以为3、5或者10。

示例的，电子设备按照待处理视频中各视频帧的显示顺序，依次对待处理视频包括的各视频帧匹配递增的序号。针对待处理视频中任意相邻的两个待抽取视频帧，电子设备可以计算该两个待抽取视频帧的序号之差的绝对值，该绝对值即为第一数量。比较绝对值与数量阈值的大小，以确定第一数量是否小于数量阈值。

在步骤S2中，当第一数量小于数量阈值时，将两个待抽取视频帧之间存在的视频帧标记为待抽取视频帧。

当第一数量小于数量阈值时，表明待处理视频中该两个待抽取视频帧之间存在较少数量的视频帧。若抽取该两个待抽取视频帧之间的视频帧生成初始视频段，则抽取的视频帧对初始视频段的大小影响较小，且保障了初始视频段中该两个待抽取视频帧之间的视频连贯性。因此，当第一数量小于数量阈值时，将两个待抽取视频帧之间存在的视频帧标记为待抽取视频帧，以便提高生成的包括待抽取视频帧的初始视频段的视频连贯性，进而提升目标视频段的播放效果。

示例的，图3为本申请实施例提供的待处理视频包括的各视频帧的示意图。图4为本申请实施例提供的目标对象与目标视频帧中各对象的匹配处理过程示意图。图5为本申请实施例提供的补充标识待抽取视频帧的处理过程示意图。图6为本申请实施例提供的从待处理视频中抽取待抽取视频帧的处理过程示意图。如图3所示，电子设备将待处理视频200拆解为多个视频帧201，该多个视频帧201的序号按照显示顺序依次为1、2、3......98、99......。假设第一输入为点击输入，用户可以点击待处理视频中某一视频帧包括的人X(人X即为目标对象)。如图4所示，电子设备在接收到对人X的点击输入后，响应于该点击输入。将待处理视频包括的各视频帧依次作为目标视频帧，并将目标视频帧中各对象与人X进行匹配处理，得到各视频帧对应的匹配结果。其中，序号为1、3、99的视频帧的匹配结果指示视频帧包括目标对象。将匹配结果指示视频帧包括目标对象的视频帧标记为待抽取视频帧。电子设备针对待处理视频中任意相邻的两个待抽取视频帧，计算该两个待抽取视频帧的序号之差的绝对值作为第一数量。如图5所示，假设数量阈值为3，电子设备针对序号为1和3的两个相邻的待抽取视频帧，计算得到该两个待抽取视频帧之间存在的视频帧的第一数量为1。1小于3，则电子设备将序号为2的视频帧标记为待抽取视频帧。电子设备针对序号为3和99的两个相邻的待抽取视频帧，计算得到该两个待抽取视频帧之间存在的视频帧的第一数量为96。96大于3，则电子设备不将序号为4至98的视频帧标记为待抽取视频帧。如图6所示，电子设备从待处理视频中抽取待抽取视频帧(序号为1、2、3和99的视频帧)，得到初始视频段。

本申请实施例中，电子设备可以在生成初始视频段之后，判断初始视频段中任意两个相邻显示的第二视频帧的文字信息是否连贯，以判断初始视频段是否存在断崖现象或者不连贯现象。当初始视频段中任意两个相邻显示的第二视频帧的文字信息连贯时，将初始视频段作为目标视频段。当初始视频段中任意两个相邻显示的第二视频帧的文字信息不连贯时，在该文字信息不连贯的两个相邻显示的第二视频帧之间进行补帧处理，得到目标视频段。

可选的，电子设备判断初始视频段中任意两个相邻显示的第二视频帧的文字信息是否连贯的过程可以包括：电子设备从初始视频段的首个视频帧开始，依次获取两个相邻显示的第二视频帧。并将获取的两个相邻显示的第二视频帧的文字信息输入句子连贯性模型，得到连贯性结果。连贯性结果用于指示两个相邻显示的第二视频帧的文字信息是否连贯。其中，句子连贯性模型可以是根据样本数据，以及样本数据对应的句子连贯性结果进行训练得到的。

步骤104、当初始视频段中任意两个相邻显示的第二视频帧的文字信息不连贯时，在两个相邻显示的第二视频帧之间进行补帧处理，得到目标视频段。

本申请实施例中，当初始视频段中任意两个相邻显示的第二视频帧的文字信息不连贯时，表明该两个相邻显示的第二视频帧之间缺少视频帧，该缺少的视频帧用于表述该两个相邻显示的第二视频帧的文字信息中不连贯的部分内容。电子设备可以在该两个相邻显示的第二视频帧之间进行补帧处理，得到目标视频段。

在一种可选的实现方式中，如图7所示，当初始视频段中任意两个相邻显示的第二视频帧的文字信息不连贯时，电子设备在两个相邻显示的第二视频帧之间进行补帧处理，得到目标视频段的过程可以包括以下步骤1041至步骤1045。

步骤1041、将待处理视频中包括第三视频帧至第四视频帧的视频段，作为待解析视频段。第三视频帧以及第四视频帧与两个相邻显示的第二视频帧分别对应。

本申请实施例中，初始视频段中文字信息不连贯的两个相邻显示的第二视频帧包括第三视频帧和第四视频帧。电子设备将待处理视频中包括第三视频帧至第四视频帧的视频段作为待解析视频段指的是，电子设备将待处理视频中包括第三视频帧、第四视频帧以及第三视频帧与第四视频帧之间的视频帧的视频段，作为待解析视频段。

可选的，待解析视频段包括：待处理视频中第三视频帧至第四视频帧。或者，待解析视频段包括：待处理视频中第六视频帧至第七视频帧。其中，第六视频帧位于第三视频帧之前，且第六视频帧与第三视频帧之间存在A个视频帧，A为正整数。第七视频帧位于第四视频帧之后，且第七视频帧与第四视频帧之间存在B个视频帧，B为正整数。

步骤1042，解析待解析视频段，得到待解析视频段的语义信息。

本申请实施例中，待解析视频段的语义信息可以包括表征视频内容的描述性信息。例如，待解析视频段的语义信息可以指的是待解析视频段的剧情事件。

在一种可选的实现方式中，电子设备解析待解析视频段，得到待解析视频段的语义信息的过程可以包括：电子设备将待解析视频段输入视频预测模型，得到待解析视频段的语义信息。视频预测模型可以为基于深度神经网络训练的用于获取视频帧的语义信息的模型。例如，视频预测模型可以采用多个视频帧样本数据对深度神经网络训练得到。视频帧样本数据包括：视频帧以及该视频帧对应的语义信息。

在另一种可选的实现方式中，电子设备解析待解析视频段，得到待解析视频段的语义信息的过程可以包括：电子设备从待解析视频段包括的各视频帧中提取多模态信息。根据提取的多模态信息从多个剧情事件中匹配目标剧情事件。根据目标剧情事件生成待解析视频段的语义信息。

其中，多模态信息指的是多种来源或者形式的信息。可选的，多模态信息包括但不限制于如下类型的信息中至少一种信息：视频帧的场景信息、时间信息、角色信息、角色的位置信息、角色的姿态信息等。剧情事件包括：用于表征人物移动的事件、用于表征人物对战的事件、用于表征物体上升的事件等。

示例的，若待解析视频段包括视频帧C和视频帧D。视频帧C和视频帧D均为人骑马的图像，则电子设备从视频帧C中提取到的多模态信息包括：场景信息：草原；角色信息：人和马；角色的位置信息：在视频帧中的像素位置；角色的姿态信息：两个马蹄落地，两个马蹄未落地。电子设备从视频帧D中提取到的多模态信息包括：场景信息：草原；角色信息：人和马；角色的位置信息：在视频帧中的像素位置；角色的姿态信息：四个马蹄均落地。电子设备根据视频帧C和视频帧D的多模态信息从多个剧情事件中匹配的目标剧情事件为用于表征人物移动的事件。根据目标剧情事件生成的待解析视频段的语义信息为：人骑在马上，在草原上奔跑。

步骤1043，根据语义信息，确定两个相邻显示的第二视频帧之间所需的待补充视频帧的第二数量。

可选的，电子设备根据语义信息，确定两个相邻显示的第二视频帧之间所需的待补充视频帧的第二数量的过程可以包括：将语义信息包括的语句数量作为第二数量；或者，根据语义信息的朗读音频的时长与初始视频段中各视频帧的显示时长，确定第二数量；或者，根据语义信息的字数与音频速度系数，确定第二数量，音频速度系数为初始视频段中各视频帧包括的文字信息的平均字数的倒数。

本申请实施例中，根据语义信息的朗读音频的时长与初始视频段中各视频帧的显示时长，确定第二数量的过程可以包括：根据语义信息的朗读音频的时长、初始视频段中各视频帧的显示时长以及第一目标公式，确定第二数量。第一目标公式为：

其中，mun为第二数量，T为语义信息的朗读音频的时长，t为初始视频段中各视频帧的显示时长，

为向上取整运算符。

根据语义信息的字数与音频速度系数，确定第二数量的过程可以包括：根据语义信息的字数、音频速度系数以及第二目标公式，确定第二数量。第二目标公式为：

其中，mun为第二数量，U为语义信息的字数，C为音频速度系统，

为向上取整运算符。

示例的，假设语义信息为电梯门打开了。从电梯里走出来一个人。电梯门关闭了。电子设备确定语义信息包括三个语句，进而确定待补充视频帧的第二数量为3。另一示例的，电子设备采用从文本到语音转换(TextToSpeech，TTS)组件将语义信息转换为朗读音频。并获取该朗读音频的时长10秒(s)以及初始视频段中各视频帧的显示时长1/60s。确定待补充视频帧的第二数量为

即600。再一示例的，假设语义信息的字数为10。初始视频段中各视频帧包括的文字信息的平均字数为2，即音频速度系数为1/2。电子设备确定待补充视频帧的第二数量为

即5。

需要说明的是，本申请实施例中还可以通过其他方式获取两个相邻显示的第二视频帧之间所需的待补充视频帧的第二数量，也即是，步骤1041至步骤1043还可以具有其他替换方式。本申请实施例以以下两种可选的替换实现方式为例进行说明。

第一种可选的替换实现方式，电子设备获取两个相邻显示的第二视频帧之间所需的待补充视频帧的第二数量的过程可以包括：电子设备根据两个相邻显示的第二视频帧在待处理视频中的序号以及第三目标公式，确定待补充视频帧的第二数量。待处理视频中各视频帧按照显示顺序，依次具有递增的序号。其中，第三目标公式为：mun＝Min(Round((m–n)/x,TOP)。Mun为第二数量，Min为取最小值符号，Round为取整符号，m为两个相邻显示的第二视频帧中靠前显示的视频帧的序号，n为两个相邻显示的第二视频帧中靠后显示的视频帧的序号。x为补帧系数。TOP为第二数量可取值的最大值。

第二种可选的替换实现方式，电子设备获取两个相邻显示的第二视频帧之间所需的待补充视频帧的第二数量的过程可以包括：根据两个相邻显示的第二视频帧中的文字信息，生成补充文字信息。补充文字信息与两个相邻显示的第二视频帧中的文字信息构成的文字连贯。根据补充文字信息，确定待补充视频帧的第二数量。本申请实施例中，根据补充文字信息确定待补充视频帧的第二数量的实现方式可以参考前述根据语义信息确定待补充视频帧的第二数量的实现方式，本申请在此不做赘述。

步骤1044、根据两个相邻显示的第二视频帧的内容以及第二数量，生成待补充视频帧。

本申请实施例中，电子设备可以生成第二数量个待补充视频帧。针对每个待补充视频帧，生成该待补充视频帧的实现方式可以有多种，本申请实施例以以下两种为例进行说明。

在第一种可选的实现方式中，电子设备根据两个相邻显示的第二视频帧的内容以及第二数量，生成待补充视频帧的过程可以包括以下步骤10441A至步骤10444A。

在步骤10441A中，获取第三视频帧与第四视频帧之间的图像差异特征。

本申请实施例中，图像差异特征可以指的是第三视频帧与第四视频帧中不同的内容特征。可选的，第三视频帧与第四视频帧之间的图像差异特征可以包括：第三视频帧的语义信息与第四视频帧的语义信息之间的差异信息，和/或，第三视频帧中各像素的像素值与第四视频帧中对应像素的像素值之间的差异信息。

在步骤10442A中，将包括待处理视频中第三视频帧至第四视频帧的待解析视频段的语义信息拆解为第二数量个语句。

本申请实施例中，将语义信息拆解得到的语句的单位可以为句子、词组或者字等。示例的，假设语义信息为：电梯门打开了，人从电梯里面走出来。若以句子为单位对语义信息进行拆解，则得到两个语句。一个是：电梯门打开了。另一个是人从电梯里面走出来。

在步骤10443A中，针对第二数量个语句中任一语句，根据语句的内容、待解析视频段的语义变化特征以及图像差异特征，生成语句对应的待补充视频帧的各区域的图像特征，图像特征用于指示待补充视频帧的各模块中像素的像素值。

本申请实施例中，待解析视频段的语义变化特征用于反映待解析视频段中各视频帧的语义信息之间的变化差异。在一种可选的实现方式中，电子设备可以根据语句的内容、待解析视频段的语义变化特征以及图像差异特征，直接生成语句对应的待补充视频帧的各区域的图像特征。

示例的，电子设备可以将语句的内容、待解析视频段的语义变化特征以及图像差异特征输入图像生成模型，得到语句对应的待补充视频帧的各区域的图像特征。其中，图像生成模型是基于多组样本数据以及对应的标签对机器学习模型进行训练得到，样本数据可以包括：一个语句的内容、一个视频段的语义变化特征、该视频段中首个视频帧和最后一个视频帧之间的图像差异特征。标签可以为与对应样本数据中语句的内容所对应的图像。

在另一种可选的实现方式中，如图8所示，待解析视频段的各视频帧800包括多个区域801。可选的，区域的数量可以为16。电子设备根据语句的内容、待解析视频段的语义变化特征以及图像差异特征，生成语句对应的待补充视频帧的各区域的图像特征的过程可以包括：

根据语句的内容、待解析视频段的语义变化特征以及图像差异特征，从待解析视频段的各视频帧所包括的各区域中，筛选确定语句对应的待补充视频帧的各区域，得到图像特征。

示例的，电子设备可以根据语句的内容、待解析视频段的语义变化特征，从待解析视频段的各视频帧中筛选出语义信息与语句内容相匹配的至少一个视频帧。根据图像差异特征以及语句在第二数量个语句中位置，确定语句与第三视频帧之间的差异程度。根据差异程度从至少一个视频帧的各视频帧的对应区域中确定语句对应的待补充视频帧中的对应区域，根据确定的对应区域中各像素的像素值，得到该区域的图像特征。

例如，待解析视频段包括视频帧1的语义信息为：人走进电梯。视频帧2的语义信息为：电梯门关闭。视频帧3的语义信息为：电梯显示的楼层数增加至3。视频帧4的语义信息为：电梯显示的楼层数增加至6。视频帧5的语义信息为：电梯门打开。视频帧6的语义信息为：人走出电梯。语句的内容为：电梯上行。并且假设第二数量为3，语句在第二数量个语句中位置为第二个。

电子设备可以根据语句的内容、待解析视频段的语义变化特征，从待解析视频段的各视频帧中筛选出语义信息与语句内容相匹配的视频帧3和视频帧4。根据图像差异特征以及语句在第二数量个语句中位置，确定语句与第三视频帧之间的差异程度。根据差异程度将视频帧4的对应区域确定为语句对应的待补充视频帧中的对应区域，得到各区域的图像特征。

在步骤10444A中，根据语句对应的待补充视频帧所包括的各区域的图像特征，生成语句对应的待补充视频帧。

本申请实施例中，电子设备按照各区域的图像特征指示的该区域中像素的像素值生成待补充视频帧。

可选的，电子设备还可以根据目标信息对待补充视频帧中各区域部分进行修正。或者，电子设备可以对待补充视频帧中各区域之间进行平滑处理，从而使得待补充视频帧各区域之间衔接更为自然，待补充视频帧较为完整。或者，子设备还可以根据目标信息对待补充视频帧中各区域部分进行修正，并对修正后的待补充视频帧中各区域之间进行平滑处理。其中，目标信息可以包括以下一种或多种信息：待补充视频帧对应的语句的内容、待补充视频帧的前一个待补充视频帧以及其对应的语句的内容、待补充视频帧的后一个待补充视频帧以及其对应的语句的内容。

在第二种可选的实现方式中，电子设备根据两个相邻显示的第二视频帧的内容以及第二数量，生成待补充视频帧的过程可以包括以下步骤10441B。

在步骤10441B中，根据两个相邻显示的第二视频帧中各视频帧的各像素的像素值，以及第二数量得到待补充视频帧中各像素的像素值。其中，待补充视频帧中各像素的像素值与第五视频帧中对应位置的像素的像素值呈正比，第五视频帧为两个相邻显示的第二视频帧中显示顺序靠前的视频帧。

可选的，电子设备可以根据两个相邻显示的第二视频帧中各视频帧的各像素的像素值、第二数量以及第四目标公式，得到待补充视频帧中各像素的像素值。第四目标公式满足：Y_p,(i,j)＝N_(i,j)+(M_(i,j)-N_(i,j))×p/(mun+1)。其中，Y_p,(i,j)为第p个待补充视频帧中第i行第j列像素的像素值。N_(i,j)为两个相邻显示的第二视频帧中靠前显示的第二视频帧中第i行第j列的像素的像素值。M_(i,j)为两个相邻显示的第二视频帧中靠后显示的第二视频帧中第i行第j列的像素的像素值。mun为第二数量，p≤mun，且p、i和j均为正整数。

步骤1045、将待补充视频帧插入初始视频段中两个相邻显示的第二视频帧之间，得到目标视频段。

需要说明的是，电子设备在两个相邻显示的第二视频帧之间进行补帧处理，得到目标视频段的过程中，在步骤1045之前，还可以包括：

针对第二数量个语句中任一语句，根据语句的内容以及待解析视频段的语义变化特征，为语句匹配音频特征。音频特征至少包括以下一种信息：语言、音色、语调。根据音频特征，合成与语句的内容对应的音频。

可选的，电子设备可以根据语句的内容、待解析视频段的语义变化特征，从待解析视频段的各视频帧中，筛选得到语义信息与语句的内容匹配的视频帧。获取该视频帧对应的音频的音频特征，作为与语句匹配的音频特征。按照该音频特征合成与语句的内容对应的音频。

相应的，将待补充视频帧插入初始视频段中两个相邻显示的第二视频帧之间，得到目标视频段的过程替换为：将待补充视频帧插入初始视频段中两个相邻显示的第二视频帧之间，并将待补充视频帧与对应的音频进行合成，得到目标视频段。

本申请实施例中，所述方法还包括：电子设备可以对目标视频段中各视频帧进行平滑处理，得到处理后的目标视频段。可选的，电子设备可以按照设定色泽修正规则对目标视频段中各视频帧进行像素值进行修正，得到处理后的目标视频段。其中，设定色泽修正规则可以包括：由亮到暗再到亮的色泽过渡规则。

综上所述，通过接收对显示的待处理视频中目标对象的第一输入，使得响应于第一输入，从待处理视频中抽取包括目标对象的视频帧，得到初始视频段。并在初始视频段中任意两个相邻显示的第二视频帧的文字信息不连贯时，在两个相邻显示的第二视频帧之间进行补帧处理，得到目标视频段。该技术方案中，用户可以通过对待处理视频中目标对象的第一输入，使得电子设备自动对待处理视频进行处理，以保留待处理视频中包括目标对象的视频帧，裁剪掉不包括目标对象的视频帧，从而生成以目标对象为核心，且相对于待处理视频包括较少视频帧的初始视频段。并且电子设备可以通过对初始视频段进行补帧处理，保障最终生成的目标视频段中各视频帧的连贯性。实现了待处理视频的有效精减。相较于相关技术中，需要人为选取待处理视频中需要保留的视频帧，并手动对需要保留的视频帧进行裁剪和拼接，以生成相对于待处理视频包括较少视频帧的视频段，提高了视频段中视频帧的精减生成效率。

需要说明的是，本申请实施例提供的视频处理方法，执行主体可以为视频处理装置，或者该视频处理装置中的用于执行视频处理的方法的控制模块。本申请实施例中以视频处理装置执行视频处理的方法为例，说明本申请实施例提供的视频处理的装置。

请参考图9，其示出了本申请实施例提供的一种视频处理装置的框图。如图9所示，所述视频处理装置900包括：

显示模块901，用于显示待处理视频，待处理视频中的第一视频帧包括文字信息；

接收模块902，用于接收对待处理视频中目标对象的第一输入；

抽取模块903，用于响应于第一输入，从待处理视频中抽取包括目标对象的视频帧，得到初始视频段；

补帧处理模块904，用于当初始视频段中任意两个相邻显示的第二视频帧的文字信息不连贯时，在两个相邻显示的第二视频帧之间进行补帧处理，得到目标视频段。

可选的，补帧处理模块904，还用于：

将待处理视频中包括第三视频帧至第四视频帧的视频段，作为待解析视频段，第三视频帧以及第四视频帧与两个相邻显示的第二视频帧分别对应；

解析待解析视频段，得到待解析视频段的语义信息；

根据语义信息，确定两个相邻显示的第二视频帧之间所需的待补充视频帧的第二数量；

根据两个相邻显示的第二视频帧的内容以及第二数量，生成待补充视频帧；

将待补充视频帧插入初始视频段中两个相邻显示的第二视频帧之间，得到目标视频段。

可选的，补帧处理模块904，还用于：

将语义信息包括的语句数量作为第二数量；或者，

根据语义信息的朗读音频的时长与初始视频段中各视频帧的显示时长，确定第二数量；或者，

根据语义信息的字数与音频速度系数，确定第二数量，音频速度系数为初始视频段中各视频帧包括的文字信息的平均字数的倒数。

可选的，补帧处理模块904，还用于：

获取第三视频帧与第四视频帧之间的图像差异特征；

将语义信息拆解为第二数量个语句；

针对第二数量个语句中任一语句，根据语句的内容、待解析视频段的语义变化特征以及图像差异特征，生成语句对应的待补充视频帧的各区域的图像特征，图像特征用于指示待补充视频帧的各区域中像素的像素值；

根据语句对应的待补充视频帧所包括的各区域的图像特征，生成语句对应的待补充视频帧。

可选的，补帧处理模块904，还用于：

根据第二视频帧中各视频帧的各像素的像素值，以及第二数量得到待补充视频帧中各像素的像素值，其中，待补充视频帧中各像素的像素值与第五视频帧中对应位置的像素的像素值呈正比，第五视频帧为第二视频帧中显示顺序靠前的视频帧。

可选的，补帧处理模块904，还用于：

针对第二数量个语句中任一语句，根据语句的内容以及待解析视频段的语义变化特征，为语句匹配音频特征，音频特征至少包括以下一种信息：语言、音色、语调；

根据音频特征，合成与语句的内容对应的音频；

将待补充视频帧插入初始视频段中两个相邻显示的第二视频帧之间，并将待补充视频帧与对应的音频进行合成，得到目标视频段。

本申请实施例中的视频处理装置可以是装置，也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备，也可以为非移动电子设备。示例性的，移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本或者个人数字助理(personaldigital assistant，PDA)等，非移动电子设备可以为服务器、网络附属存储器(NetworkAttached Storage，NAS)、个人计算机(personal computer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的视频处理装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统，可以为ios操作系统，还可以为其他可能的操作系统，本申请实施例不作具体限定。

本申请实施例提供的视频处理装置能够实现图1至图7的方法实施例实现的各个过程，为避免重复，这里不再赘述。

可选的，如图10所示，本申请实施例还提供一种电子设备1000，包括处理器1001，存储器1002，存储在存储器1002上并可在所述处理器1001上运行的程序或指令，该程序或指令被处理器1001执行时实现上述视频处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。

图11为实现本申请实施例的一种电子设备的硬件结构示意图。

该电子设备1100包括但不限于：射频单元1101、网络模块1102、音频输出单元1103、输入单元1104、传感器1105、显示单元1106、用户输入单元1107、接口单元1108、存储器1109、以及处理器1110等部件。

本领域技术人员可以理解，电子设备1100还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器1110逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图11中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

其中，显示单元1106，用于显示待处理视频，所述待处理视频中的第一视频帧包括文字信息；

输入单元1104，用于接收对所述待处理视频中目标对象的第一输入；

处理器1110，用于响应于所述第一输入，从所述待处理视频中抽取包括所述目标对象的视频帧，得到初始视频段；

处理器1110，还用于当所述初始视频段中任意两个相邻显示的第二视频帧的文字信息不连贯时，在所述两个相邻显示的第二视频帧之间进行补帧处理，得到目标视频段。

本申请实施例中，通过接收对显示的待处理视频中目标对象的第一输入，使得响应于第一输入，从待处理视频中抽取包括目标对象的视频帧，得到初始视频段。并在初始视频段中任意两个相邻显示的第二视频帧的文字信息不连贯时，在两个相邻显示的第二视频帧之间进行补帧处理，得到目标视频段。该技术方案中，用户可以通过对待处理视频中目标对象的第一输入，使得电子设备自动对待处理视频进行处理，以保留待处理视频中包括目标对象的视频帧，裁剪掉不包括目标对象的视频帧，从而生成以目标对象为核心，且相对于待处理视频包括较少视频帧的初始视频段。并且电子设备可以通过对初始视频段进行补帧处理，保障最终生成的目标视频段中各视频帧的连贯性。实现了待处理视频的有效精减。相较于相关技术中，需要人为选取待处理视频中需要保留的视频帧，并手动对需要保留的视频帧进行裁剪和拼接，以生成相对于待处理视频包括较少视频帧的视频段，提高了视频段中视频帧的精减生成效率。

可选的，处理器1110，还用于：

将所述待处理视频中包括第三视频帧至第四视频帧的视频段，作为待解析视频段，所述第三视频帧以及所述第四视频帧与所述两个相邻显示的第二视频帧分别对应；

解析所述待解析视频段，得到所述待解析视频段的语义信息；

根据所述语义信息，确定所述两个相邻显示的第二视频帧之间所需的待补充视频帧的第二数量；

根据所述两个相邻显示的第二视频帧的内容以及所述第二数量，生成所述待补充视频帧；

将所述待补充视频帧插入所述初始视频段中所述两个相邻显示的第二视频帧之间，得到所述目标视频段。

可选的，处理器1110，还用于：

将所述语义信息包括的语句数量作为所述第二数量；或者，

根据所述语义信息的朗读音频的时长与所述初始视频段中各视频帧的显示时长，确定所述第二数量；或者，

根据所述语义信息的字数与音频速度系数，确定所述第二数量，所述音频速度系数为所述初始视频段中各视频帧包括的文字信息的平均字数的倒数。

可选的，处理器1110，还用于：

获取所述第三视频帧与所述第四视频帧之间的图像差异特征；

将所述语义信息拆解为所述第二数量个语句；

针对所述第二数量个语句中任一语句，根据所述语句的内容、所述待解析视频段的语义变化特征以及所述图像差异特征，生成所述语句对应的待补充视频帧的各区域的图像特征，所述图像特征用于指示所述待补充视频帧的各区域中像素的像素值；

根据所述语句对应的待补充视频帧所包括的各区域的图像特征，生成所述语句对应的待补充视频帧。

可选的，处理器1110，还用于：

根据所述第二视频帧中各视频帧的各像素的像素值，以及所述第二数量得到所述待补充视频帧中各像素的像素值，其中，所述待补充视频帧中各像素的像素值与第五视频帧中对应位置的像素的像素值呈正比，所述第五视频帧为所述第二视频帧中显示顺序靠前的视频帧。

可选的，处理器1110，还用于：

针对所述第二数量个语句中任一语句，根据所述语句的内容以及所述待解析视频段的语义变化特征，为所述语句匹配音频特征，所述音频特征至少包括以下一种信息：语言、音色、语调；

根据所述音频特征，合成与所述语句的内容对应的音频；

将所述待补充视频帧插入所述初始视频段中所述两个相邻显示的第二视频帧之间，并将所述待补充视频帧与对应的音频进行合成，得到目标视频段。

应理解的是，本申请实施例中，输入单元1104可以包括图形处理器(GraphicsProcessing Unit，GPU)11041和麦克风11042，图形处理器11041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元1106可包括显示面板11061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板11061。用户输入单元1107包括触控面板11071以及其他输入设备11072。触控面板11071，也称为触摸屏。触控面板11071可包括触摸检测装置和触摸控制器两个部分。其他输入设备11072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。存储器1109可用于存储软件程序以及各种数据，包括但不限于应用程序和操作系统。处理器1110可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1110中。

本申请实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述视频处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

本申请实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述视频处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种视频处理方法，其特征在于，所述方法包括：

接收对所述待处理视频中目标对象的第一输入；

2.根据权利要求1所述的方法，其特征在于，所述在所述两个相邻显示的第二视频帧之间进行补帧处理，得到目标视频段，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述语义信息，确定所述两个相邻显示的第二视频帧之间所需的待补充视频帧的第二数量根据所述语义信息，确定所述待补充视频帧的第二数量，包括：

将所述语义信息包括的语句数量作为所述第二数量；或者，

4.根据权利要求2所述的方法，其特征在于，所述根据所述两个相邻显示的第二视频帧的内容以及所述第二数量，生成所述待补充视频帧，包括：

将所述语义信息拆解为所述第二数量个语句；

5.根据权利要求2所述的方法，其特征在于，所述根据所述两个相邻显示的第二视频帧的内容以及所述第二数量，生成所述待补充视频帧，包括：

根据所述第二视频帧中各视频帧的各像素的像素值，以及所述第二数量得到所述待补充视频帧中各像素的像素值，

其中，所述待补充视频帧中各像素的像素值与第五视频帧中对应位置的像素的像素值呈正比，所述第五视频帧为所述第二视频帧中显示顺序靠前的视频帧。

6.根据权利要求4所述的方法，其特征在于，所述在所述两个相邻显示的第二视频帧之间进行补帧处理，得到目标视频段，还包括：

根据所述音频特征，合成与所述语句的内容对应的音频；

所述将所述待补充视频帧插入所述初始视频段中所述两个相邻显示的第二视频帧之间，得到所述目标视频段，包括：

7.一种视频处理装置，其特征在于，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，所述补帧处理模块，还用于：

9.根据权利要求8所述的装置，其特征在于，所述补帧处理模块，还用于：

将所述语义信息包括的语句数量作为所述第二数量；或者，

10.根据权利要求8所述的装置，其特征在于，所述补帧处理模块，还用于：

将所述语义信息拆解为所述第二数量个语句；

11.根据权利要求8所述的装置，其特征在于，所述补帧处理模块，还用于：

12.根据权利要求10所述的装置，其特征在于，所述补帧处理模块，还用于：

根据所述音频特征，合成与所述语句的内容对应的音频；

13.一种电子设备，其特征在于，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1至6任一项所述的视频处理方法的步骤。

14.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1至6任一项所述的视频处理方法的步骤。