CN113329261A

CN113329261A - 视频处理方法及装置

Info

Publication number: CN113329261A
Application number: CN202110877893.8A
Authority: CN
Inventors: 李钊
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-08-02
Filing date: 2021-08-02
Publication date: 2021-08-31
Anticipated expiration: 2041-08-02
Also published as: CN113329261B

Abstract

本公开关于一种视频处理方法及装置。视频处理方法包括：获取待处理视频的图像帧；基于图像帧的基础特征的信息和图像帧中的识别特征的信息，确定待处理视频的图像帧中的目标图像帧，其中，识别特征包括图像帧中的对象和/或场景；将目标图像帧拼接为目标视频。通过本公开，解决了相关技术剪辑拼接得到的视频无法满足用户需要的问题。

Description

视频处理方法及装置

技术领域

本公开涉及视频处理领域，尤其涉及一种视频处理方法及装置。

背景技术

随着短视频平台兴起，越来越多的人通过视频来记录和分享生活。相对于静态图片，视频的拍摄、编辑均有一定门槛，对未受过专业训练的普通人来说有一些难度。对于降低门槛的智能化视频制作方向，已有一些探索和实践，例如，通过音视频算法分析视频的基础特征的信息，如清晰度，色彩饱和度、丰富度，画面运动程度等，筛选出优质视频内容，并对此进行剪辑拼接的到最终的视频。但是，仅依据视频的基础特征的信息例如清晰度高、色彩丰富制作的视频，可能是用户不需要的视频内容。

发明内容

本公开提供一种视频处理方法及装置，以至少解决相关技术剪辑拼接得到的视频无法满足用户需要的问题。

根据本公开实施例的第一方面，提供一种视频处理方法，包括：获取待处理视频的图像帧；基于图像帧的基础特征的信息和图像帧中的识别特征的信息，确定待处理视频的图像帧中的目标图像帧，其中，识别特征包括图像帧中的对象和/或场景；将目标图像帧拼接为目标视频。

可选地，基于图像帧的基础特征的信息和图像帧中的识别特征的信息，确定待处理视频的图像帧中的目标图像帧，包括：基于图像帧的基础特征的信息，从待处理视频的图像帧中确定候选图像帧；根据候选图像帧中的识别特征所包括的对象的信息和/或识别特征所包括的场景的信息，确定目标图像帧。

可选地，根据候选图像帧中的识别特征所包括的对象的信息，确定目标图像帧，包括：获取候选图像帧中的识别特征所包括的对象的画面占比和/或对象的画面位置；基于对象的画面占比和/或对象的画面位置，从候选图像帧中确定目标图像帧。

可选地，基于对象的画面占比和/或对象的画面位置，从候选图像帧中确定目标图像帧，包括：若候选图像帧存在至少一个对象的画面占比超过预定阈值，和/或至少一个对象的画面位置位于预定画面位置，则将候选图像帧确定为目标图像帧。

可选地，根据候选图像帧中的识别特征所包括的场景的信息，确定目标图像帧，包括：获取候选图像帧中的识别特征所包括的场景的主题信息；基于场景的主题信息，从候选图像帧中确定目标图像帧。

可选地，基于场景的主题信息，从候选图像帧中确定目标图像帧，包括：将场景的主题属于预定有效场景的候选图像帧，确定为目标图像帧；和/或将场景的主题与目标视频的主题相对应的候选图像帧，确定为目标图像帧，其中，所述目标视频的主题是预先设定的。

可选地，在将目标图像帧拼接为目标视频之后，还包括：确定所有目标图像帧中出现预定次数以上或出现次数最多的识别特征；基于所有目标图像帧中出现预定次数以上或出现次数最多的识别特征，为目标视频匹配对应的特效；将特效显示在目标视频上。

可选地，确定所有目标图像帧中出现预定次数以上或出现次数最多的识别特征，包括：对于所有目标图像帧中的每一个目标图像帧，获取目标图像帧中与所述识别特征相对应的模型，其中，所述相对应的模型是基于预先采集的对象特征或场景特征生成的深度学习模型；确定目标图像帧中的识别特征与相对应的模型的相似度，基于相似度确定目标图像帧对应的目标识别特征；基于所有目标图像帧对应的目标识别特征，确定目标识别特征中出现预定次数以上或出现次数最多的识别特征。

可选地，基于相似度确定目标图像帧对应的目标识别特征，包括：在所有识别特征的相似度小于第一预定值的情况下，确定目标图像帧无目标识别特征。

可选地，基于相似度确定目标图像帧对应的目标识别特征，包括：在至少两个识别特征的相似度大于第二预定值的情况下，按目标图像帧中识别特征的优先级确定目标图像帧对应的目标识别特征，其中，第二预定值大于第一预定值。

可选地，基于相似度确定目标图像帧对应的目标识别特征，包括：在排序靠前的两个识别特征的相似度之差小于第三预定值的情况下，按目标图像帧中识别特征的优先级确定目标图像帧对应的目标识别特征。

可选地，基于相似度确定目标图像帧对应的目标识别特征，包括：在排序靠前的两个识别特征的相似度之差大于等于第三预定值的情况下，将相似度最高的识别特征作为目标图像帧的目标识别特征。

可选地，上述特效包括滤镜、音乐、文字。

可选地，将所述目标图像帧拼接为目标视频，包括：在所有目标图像帧中识别特征的个数大于预定个数的情况下，将相同识别特征对应的目标图像帧和/或满足预设关系的识别特征对应的目标图像帧拼接为多屏图像帧；基于多屏图像帧进行拼接得到目标视频。

可选地，基于图像帧的基础特征的信息，从待处理视频的图像帧中确定候选图像帧，包括：对于待处理视频的图像帧中每个图像帧，获取图像帧的基础特征的信息，并基于每个基础特征的信息和每个基础特征的信息对应的权重，得到图像帧的得分；基于每个图像帧的得分，从待处理视频的图像帧中确定候选图像帧。

可选地，获取待处理视频的图像帧，包括：确定待处理视频包含的图像帧的总数；在图像帧的总数小于第一阈值的情况下，获取待处理视频中所有图像帧；在图像帧的总数大于等于第一阈值的情况下，获取待处理视频中部分图像帧。

根据本公开实施例的第二方面，提供一种视频处理装置，包括：获取单元，被配置为获取待处理视频的图像帧；第一确定单元，被配置为基于图像帧的基础特征的信息和图像帧中的识别特征的信息，确定待处理视频的图像帧中的目标图像帧，其中，识别特征包括图像帧中的对象和/或场景；拼接单元，被配置为将目标图像帧拼接为目标视频。

可选地，第一确定单元，还被配置为基于图像帧的基础特征的信息，从待处理视频的图像帧中确定候选图像帧；根据候选图像帧中的识别特征所包括的对象的信息和/或识别特征所包括的场景的信息，确定目标图像帧。

可选地，第一确定单元，还被配置为获取候选图像帧中的识别特征所包括的对象的画面占比和/或对象的画面位置；基于对象的画面占比和/或对象的画面位置，从所述候选图像帧中确定目标图像帧。

可选地，第一确定单元，还被配置为若所述候选图像帧存在至少一个对象的画面占比超过预定阈值，和/或至少一个对象的画面位置位于预定画面位置，则将所述候选图像帧确定为目标图像帧。

可选地，第一确定单元，还被配置为获取候选图像帧中的识别特征所包括的场景的主题信息；基于场景的主题信息，从候选图像帧中确定目标图像帧。

可选地，第一确定单元，还被配置为将场景的主题属于预定有效场景的候选图像帧，确定为所述目标图像帧；和/或将场景的主题与所述目标视频的主题相对应的候选图像帧，确定为所述目标图像帧，其中，所述目标视频的主题是预先设定的。

可选地，视频处理装置还包括：第二确定单元，被配置为确定所有目标图像帧中出现预定次数以上或出现次数最多的识别特征；匹配单元，被配置为基于所有目标图像帧中出现预定次数以上或出现次数最多的识别特征，为目标视频匹配对应的特效；显示单元，被配置为将特效显示在目标视频上。

可选地，第二确定单元，还被配置为对于所有目标图像帧中的每一个目标图像帧，获取目标图像帧中与所述识别特征相对应的模型，其中，所述相对应的模型是基于预先采集的对象特征或场景特征生成的深度学习模型；确定目标图像帧中的识别特征与相对应的模型的相似度，基于相似度确定目标图像帧对应的目标识别特征；基于所有目标图像帧对应的目标识别特征，确定目标识别特征中出现预定次数以上或出现次数最多的识别特征。

可选地，第二确定单元，还被配置为在所有识别特征相似度小于第一预定值的情况下，确定目标图像帧无目标识别特征。

可选地，第二确定单元，还被配置为在至少两个识别特征相似度大于第二预定值的情况下，按目标图像帧中识别特征的优先级确定目标图像帧对应的目标识别特征，其中，第二预定值大于第一预定值。

可选地，第二确定单元，还被配置为在排序靠前的两个识别特征相似度之差小于第三预定值的情况下，按目标图像帧中识别特征的优先级确定目标图像帧对应的目标识别特征。

可选地，第二确定单元，还被配置为在排序靠前的两个识别特征相似度之差大于等于第三预定值的情况下，将相似度最高的识别特征作为目标图像帧的目标识别特征。

可选地，上述特效包括滤镜、音乐、文字。

可选地，拼接单元，还被配置为在所有目标图像帧中识别特征的个数大于预定个数的情况下，将相同识别特征对应的目标图像帧和/或满足预设关系的识别特征对应的目标图像帧拼接为多屏图像帧；基于多屏图像帧进行拼接得到目标视频。

可选地，第一确定单元，还被配置为对于待处理视频的图像帧中每个图像帧，获取图像帧的基础特征的信息，并基于每个基础特征的信息和每个基础特征的信息对应的权重，得到图像帧的得分；基于每个图像帧的得分，从待处理视频的图像帧中确定候选图像帧。

可选地，获取单元，还被配置为确定待处理视频包含的图像帧的总数；在图像帧的总数小于第一阈值的情况下，获取待处理视频中所有图像帧；在图像帧的总数大于等于第一阈值的情况下，获取待处理视频中部分图像帧。

根据本公开实施例的第三方面，提供了一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，处理器被配置为执行指令，以实现根据本公开的视频处理方法。

根据本公开实施例的第四方面，提供了一种计算机可读存储介质，当计算机可读存储介质中的指令被至少一个处理器运行时，促使至少一个处理器执行如上根据本公开的视频处理方法。

根据本公开实施例的第五方面，提供了一种计算机程序产品，包括计算机指令，计算机指令被处理器执行时实现根据本公开的视频处理方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

根据本公开的视频处理方法及装置，对于待处理视频，可以基于待处理视频中的图像帧的基础特征的信息和图像帧中的识别特征的信息，确定目标图像帧，其中，识别特征包括图像帧中的对象和/或场景，进而将确定的目标图像帧拼接为目标视频。通过本公开，在确定目标图像帧的时候，不仅利用图像帧的基础特征的信息，还结合图像帧的对象和/或场景共同确定，使得基于目标图像帧拼接得到的目标视频，更有内容的意义和价值，更符合用户所认可的优质内容视频，同时降低了视频制作门槛。因此，本公开解决了相关技术剪辑拼接得到的视频无法满足用户所需的问题。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是示出根据本公开的示例性实施例的视频处理方法的实施场景示意图；

图2是根据一示例性实施例示出的一种视频处理方法的流程图；

图3是根据一示例性实施例示出的一种视频处理装置的框图；

图4是根据本公开实施例的一种电子设备400的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在此需要说明的是，在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况：（1）包括A；（2）包括B；（3）包括A和B。又例如“执行步骤一和步骤二之中的至少一个”，即表示如下三种并列的情况：（1）执行步骤一；（2）执行步骤二；（3）执行步骤一和步骤二。

本公开提供了一种视频处理方法，能够得到更符合用户所认可的优质视频。图1是示出根据本公开的示例性实施例的视频处理方法的实施场景示意图，如图1所述，该实施场景包括服务器100、用户终端110和用户终端120，其中，用户终端不限于2个，包括并不限于手机、个人计算机等设备，用户终端可以安装用于拍摄视频的摄像头，服务器可以是一个服务器，也可以是若干个服务器组成服务器集群，还可以是云计算平台或虚拟化中心。

用户终端110、120通过摄像头获取一段或者几段视频作为待处理视频，并将其发送给服务器100，服务器100接收到待处理视频后，可以提取待处理视频中的图像帧，并根据提取的图像帧的基础特征的信息（如清晰度，色彩饱和度、丰富度，画面运动程度等）以及图像帧中的识别特征的信息，确定用于拼接视频的目标图像帧，进而基于确定的目标图像帧，可以拼接得到目标视频，其中，上述识别特征可以为图像帧中的对象和/或场景。通过本实施例得到的目标视频，更有意义和价值，更符合用户所认可的优质视频。

下面将参照图2至图3详细描述根据本公开的示例性实施例的视频处理方法及装置。

图2是根据一示例性实施例示出的一种视频处理方法的流程图，如图2所示，视频处理方法包括以下步骤：

在步骤S201中，获取待处理视频的图像帧。上述待处理视频可以是通过摄像头等设备实时拍摄的视频，也可以是服务器中存储的视频，本公开对此并不进行限定。

根据本公开的示例性实施例，可以通如下方式获取待处理视频的图像帧：确定待处理视频包含的图像帧的总数；基于图像帧的总数，获取待处理视频中预定个数的图像帧。例如，在图像帧的总数小于第一阈值的情况下，获取待处理视频中所有图像帧，在图像帧的总数大于等于第一阈值的情况下，获取待处理视频中部分图像帧。上述第一阈值可以根据实际需要设置。通过本实施例，在待处理视频的图像帧的总数过大时，可以获取待处理视频的部分图像帧进行后续处理，避免待处理视频过大导致后续处理成本高的问题。

根据本公开的示例性实施例，获取所述待处理视频中部分图像帧可以是从所述待处理视频的所有图像帧中随机抽取部分图像帧，也可以是以预定个数的图像帧为间隔，从所述待处理视频的所有图像帧中抽取部分图像帧。

例如，对原素材内容（即上述待处理视频）进行解码得到图像帧，然后通过抽帧的方式获取原素材内容的图像帧。上述抽帧的方式可以根据原素材内容的图像帧总量多少进行选取，如果图像帧总量少于第一阈值，可抽取原素材内容的每一个图像帧，如果图像帧数据大于等于第一阈值，可以抽取原素材内容的一部分图像帧，具体的抽帧方式本公开并不限制。

返回图2，在步骤S202中，基于图像帧的基础特征的信息和图像帧中的识别特征的信息，确定待处理视频的图像帧中的目标图像帧，其中，识别特征包括图像帧中的对象和/或场景。上述基础特征的信息包括但并不限于：色彩饱和度、清晰度、丰富度、亮度、画面运动程度等。上述图像帧的对象和/或场景可以通过算法模型分析得出，其中，算法模型可采用相关技术中的图像识别算法，但本公开对算法模型并不限定，任何可以分析出图像帧的对象和/或场景的算法均可以应用于本公开。上述图像帧中的对象包含但不限于：人（成人男性、成人女性、儿童、婴儿）、动物、水果、蔬菜、饮料、电器、家具、建筑、车辆，图像帧中的场景包含但不限于：室内、交通、自然风景、人文风景、城市、村落、田野、医院、学校、婚礼。

根据本公开的示例性实施例，基于图像帧的基础特征的信息和图像帧中的识别特征的信息，确定待处理视频的图像帧中的目标图像帧，可以先基于图像帧的基础特征的信息，从待处理视频的图像帧中确定候选图像帧，再根据候选图像帧中的识别特征所包括的对象的信息和/或识别特征所包括的场景的信息，确定目标图像帧。通过本实施例，可以得到更符合用户所认可的优质图像帧。

根据本公开的示例性实施例，基于图像帧的基础特征的信息，从待处理视频的图像帧中确定候选图像帧，包括：对于待处理视频的图像帧中每个图像帧，获取图像帧的基础特征的信息，并基于每个基础特征的信息和每个基础特征的信息对应的权重，得到图像帧的得分；基于每个图像帧的得分，从待处理视频的图像帧中确定候选图像帧。

例如，可以通过画面帧的基础特征的信息得分，选取有具体对象、场景的内容，剔除无意义内容。如，可基于每项基础特征的信息以及每项基础特征的信息预先赋予的权重计算每个图像帧的基础特征的信息得分（即每个图像帧的得分），如果图像帧的基础特征的信息得分大于预先设置阈值，则认为图像帧包含有具体对象、场景的内容，并筛选出这部分图像帧（即上述筛选出的一部分图像帧），否则认为图像帧包含的是无意义内容，则剔除该部分图像帧。

根据本公开的示例性实施例，根据候选图像帧中的识别特征所包括的对象的信息，确定目标图像帧，可以通过如下方式实现：获取候选图像帧中的识别特征所包括的对象的画面占比和/或对象的画面位置，基于对象的画面占比和/或对象的画面位置，从候选图像帧中确定目标图像帧。根据候选图像帧中的识别特征所包括的场景的信息，确定目标图像帧，可以通过如下方式实现：候选图像帧中的识别特征所包括的场景的主题信息；基于场景的主题信息，从候选图像帧中确定目标图像帧。通过本实施例，可以方便、快速的得到符合用户所认可的优质图像帧。

例如，对于上述通过基础特征的信息得分筛选出来的包含有具有对象、场景的图像帧，可以再次进行筛选，筛选条件包括但不限于：优先截选对象、场景明确，如，重点对象画面画面占比高、画面位置突出的片段，又如，场景的有效、主题明确的场景的片段，后续拼接这些截选出的片段得到目标视频，其中，截选出的片段可以为全帧图像。

根据本公开的示例性实施例，基于对象的画面占比和/或对象的画面位置，从候选图像帧中确定目标图像帧，包括：若候选图像帧存在至少一个对象的画面占比超过预定阈值，和/或至少一个对象的画面位置位于预定画面位置，则将候选图像帧确定为目标图像帧。

根据本公开的示例性实施例，基于场景的主题信息，从候选图像帧中确定目标图像帧，包括：将场景的主题属于预定有效场景的候选图像帧，确定为目标图像帧；和/或将场景的主题与目标视频的主题相对应的候选图像帧，确定为目标图像帧，其中，所述目标视频的主题是预先设定的。需要说明的是，上述预定有效场景可以基于经验和实际情况预先设定，如将包含古代建筑的场景设定为预定有效场景。

返回图2，在步骤S203中，将目标图像帧拼接为目标视频。本公开对拼接的方式并不进行限定，任何可以将图像帧拼接为视频的方式均可采用。

根据本公开的示例性实施例，在将目标图像帧拼接为目标视频之后，还可以确定所有目标图像帧中出现预定次数以上或出现次数最多的识别特征；基于所有目标图像帧中出现预定次数以上或出现次数最多的识别特征，为目标视频匹配对应的特效；将特效显示在目标视频上。上述特效包括但不限于滤镜、音乐、文字。通过本实施例，按目标视频的主要识别特征匹配对应的特效，提高了匹配的准确性。

根据本公开的示例性实施例，将所述目标图像帧拼接为目标视频可以包括：在所有目标图像帧中识别特征的个数大于预定个数的情况下，将相同的识别特征对应的目标图像帧和/或满足预设关系的识别特征对应的目标图像帧拼接为多屏图像帧；基于多屏图像帧进行拼接得到目标视频。通过本实施例，可以获取更符合用户所需的视频。

例如，以基于出现次数最多的识别特征匹配特效为例，可以将图像帧中出现次数最多的对象、场景作为整体内容（即上述目标视频）的对象、场景，进而基于确定好的整体内容的对象、场景映射对应的特效，如装饰特效、音乐特效、文案特效等。具体地，可以根据确定好的整体内容的对象、场景推荐装饰特效、合适音乐以及匹配合适文案，并将各个特效添加在对应视频画面上。若原素材内容（即上述待处理视频）场景丰富（场景类别＞＝N），则选取相同场景或互补场景（组合在一起有意义的场景，如人和美食组合在一起，可能是人在吃饭，因此人和美食为互补场景，此外还有人和风景等），将其进行多屏拼接。又如主题为食物的内容，自动匹配适合食物的滤镜、美食主题的贴纸，并推荐应用美食类的音乐，并将食物的类型及制作步骤通过文字添加在画面上，若内容中有多个美食片段，还可以做同画面内的分屏拼接处理。

根据本公开的示例性实施例，确定所有目标图像帧中出现预定次数以上或出现次数最多的识别特征，可以包括：对于所有目标图像帧中的每一个目标图像帧，获取目标图像帧中与所述识别特征相对应的模型，其中，所述相对应的模型是基于预先采集的对象特征或场景特征生成的深度学习模型；确定目标图像帧中的识别特征与相对应的模型的相似度，基于相似度确定目标图像帧对应的目标识别特征；基于所有目标图像帧对应的目标识别特征，确定目标识别特征中出现预定次数以上或出现次数最多的识别特征。例如，相似度还可以预先采集各种对象、场景特征，形成各维度的特征向量作为标注识别特征，然后将标注识别特征与识别出的识别特征相比较，得到二者的相似度，作为识别出的识别特征打分，进而基于得分确定每个图像帧所对应的识别特征。通过本实施例，可以准确的确定每个图像帧的识别特征。

根据本公开的示例性实施例，基于相似度确定目标图像帧对应的目标识别特征，包括：在所有识别特征的相似度小于第一预定值的情况下，确定目标图像帧无目标识别特征；在至少两个识别特征的相似度大于第二预定值的情况下，按目标图像帧中识别特征的优先级确定目标图像帧对应的目标识别特征，其中，第二预定值大于第一预定值；在排序靠前的两个识别特征的相似度之差小于第三预定值的情况下，按目标图像帧中识别特征的优先级确定目标图像帧对应的目标识别特征；在排序靠前的两个识别特征的相似度之差大于等于第三预定值的情况下，将相似度最高的识别特征作为目标图像帧的目标识别特征。

例如，通过对上述截选出的片段的对象、场景进行识别，然后将识别结果进行加权加和，得到整体内容（上述目标视频）的主要对象、场景。在加权加和的过程中，为每个识别特征匹配一个标签并计算每个标签的得分，其中，每个标签的得分（即上述相似度）可以通过深度学习模型得到，而通过深度学习模型得到相似度的过程上面已经论述，此处不再展开论述。下面详细介绍加权加和的规则：

一、对于每个图像帧，通过如下逻辑确定其对应的标签：

1.若所有标签得分＜0.2，舍弃该图像帧的识别结果；

2.若＞＝2个标签得分＞0.8，按优先级判断图像帧所对应的标签，优先级可以为日常生活＞风景＞萌娃＞宠物＞美食＞成人-女性＞成人-男性。如，一个图像帧识别到识别特征为萌娃、宠物，且两个标签的得分均＞0.8，则此时可以选择优先级较高的萌娃作为该图像帧对应的标签。需要说明的，此处并不限定只选择一个标签，也可以选择两个或者更多个标签作为该图像帧的标签，具体根据实际需要确定。

3若标签得分排序后的前两名的得分之差＜0.1，按优先级判断图像帧所对应的标签，优先级可以为日常生活＞风景＞萌娃＞宠物＞美食＞成人-女性＞成人-男性。

4.若标签得分排序后的前两名的得分之差＞＝0.1，取得分最高的标签作为图像帧所对应的标签。

二、在确定了每个图像帧对应的标签后，将每个图像帧对应的标签进行汇总，选择标签中出现次数最多的标签作为整体内容（上述目标视频）的标签，也即将标签中出现次数最多的标签所对应的识别特征作为整体内容的主要对象或场景。当然，也可以选择标签中出现次数超过预定次数的标签作为整体内容（上述目标视频）的标签，也即将标签中出现次数超过预定次数的标签所对应的识别特征作为整体内容的主要对象和/场景。

通过本公开地上述实施例，在依据视频地基础特征的信息智能剪辑制作视频基础上，增加对象、场景的理解维度，使得剪辑制作视频更智能、更低门槛，视频制作效果也更符合用户所需，且降低了筛选素材、剪辑优质视频内容的门槛。具体来说，主要通过理解原素材内容（待处理视频）的基础特征的信息和其中的对象及所处场景，从原素材内容中选取有意义的内容，并根据选取的内容映射使用合适的特效，如推荐合适的装饰特效、匹配合适文案等，将其添加在对应视频画面上，提升视频编辑制作效果。

图3是根据一示例性实施例示出的一种视频处理装置的框图。参照图3该装置包括获取单元30，第一确定单元32和拼接单元34。

获取单元30，被配置为获取待处理视频的图像帧；第一确定单元32，被配置为基于图像帧的基础特征的信息和图像帧中的识别特征的信息，确定待处理视频的图像帧中的目标图像帧，其中，识别特征包括图像帧中的对象和/或场景；拼接单元34，被配置为将目标图像帧拼接为目标视频。

根据本公开的示例性实施例，第一确定单元32，还被配置为基于图像帧的基础特征的信息，从待处理视频的图像帧中确定候选图像帧；根据候选图像帧中的识别特征所包括的对象的信息和/或识别特征所包括的场景的信息，确定目标图像帧。

根据本公开的示例性实施例，第一确定单元32，还被配置为获取候选图像帧中的识别特征所包括的对象的画面占比和/或对象的画面位置；基于对象的画面占比和/或对象的画面位置，从所述候选图像帧中确定目标图像帧。

根据本公开的示例性实施例，第一确定单元32，还被配置为若所述候选图像帧存在至少一个对象的画面占比超过预定阈值，和/或至少一个对象的画面位置位于预定画面位置，则将所述候选图像帧确定为目标图像帧。

根据本公开的示例性实施例，第一确定单元32，还被配置为获取候选图像帧中的识别特征所包括的场景的主题信息；基于场景的主题信息，从候选图像帧中确定目标图像帧。

根据本公开的示例性实施例，第一确定单元32，还被配置为将场景的主题属于预定有效场景的候选图像帧，确定为所述目标图像帧；和/或，将场景的主题与所述目标视频的主题相对应的候选图像帧，确定为所述目标图像帧，其中，目标视频的主题是预先设定的。

根据本公开的示例性实施例，视频处理装置还包括：第二确定单元35，被配置为确定所有目标图像帧中出现预定次数以上或出现次数最多的识别特征；匹配单元36，被配置为基于所有目标图像帧中出现预定次数以上或出现次数最多的识别特征，为目标视频匹配对应的特效；显示单元38，被配置为将特效显示在目标视频上。

根据本公开的示例性实施例，第二确定单元35，还被配置为对于所有目标图像帧中的每一个目标图像帧，获取目标图像帧中与所述识别特征相对应的模型，其中，所述相对应的模型是基于预先采集的对象特征或场景特征生成的深度学习模型；确定目标图像帧中的识别特征与相对应的模型的相似度，基于相似度确定目标图像帧对应的目标识别特征；基于所有目标图像帧对应的目标识别特征，确定目标识别特征中出现预定次数以上或出现次数最多的识别特征。

根据本公开的示例性实施例，第二确定单元35，还被配置为在所有识别特征的相似度小于第一预定值的情况下，确定目标图像帧无目标识别特征；在至少两个识别特征的相似度大于第二预定值的情况下，按目标图像帧中识别特征的优先级确定目标图像帧对应的目标识别特征，其中，第二预定值大于第一预定值；在排序靠前的两个识别特征的相似度之差小于第三预定值的情况下，按目标图像帧中识别特征的优先级确定目标图像帧对应的目标识别特征；在排序靠前的两个识别特征的相似度之差大于等于第三预定值的情况下，将相似度最高的识别特征作为目标图像帧的目标识别特征。

根据本公开的示例性实施例，上述特效包括滤镜、音乐、文字。

根据本公开的示例性实施例，拼接单元34，还被配置为在所有目标图像帧中识别特征的个数大于预定个数的情况下，将相同识别特征对应的目标图像帧和/或满足预设关系的识别特征对应的目标图像帧拼接为多屏图像帧；将基于多屏图像帧进行拼接得到目标视频。

根据本公开的示例性实施例，第一确定单元32，还被配置为对于待处理视频的图像帧中每个图像帧，获取图像帧的基础特征的信息，并基于每个基础特征的信息和每个基础特征的信息对应的权重，得到图像帧的得分；基于每个图像帧的得分，从待处理视频的图像帧中确定候选图像帧。

根据本公开的示例性实施例，获取单元30，还被配置为确定待处理视频包含的图像帧的总数；在图像帧的总数小于第一阈值的情况下，获取待处理视频中所有图像帧；在图像帧的总数大于等于第一阈值的情况下，获取待处理视频中部分图像帧。

根据本公开的实施例，可提供一种电子设备。图4是根据本公开实施例的一种电子设备400的框图，该电子设备包括至少一个存储器401和至少一个处理器402，所述至少一个存储器中存储有计算机可执行指令集合，当计算机可执行指令集合被至少一个处理器执行时，执行根据本公开实施例的视频处理处理方法。

作为示例，电子设备400可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里，电子设备1000并非必须是单个的电子设备，还可以是任何能够单独或联合执行上述指令（或指令集）的装置或电路的集合体。电子设备400还可以是集成控制系统或系统管理器的一部分，或者可被配置为与本地或远程（例如，经由无线传输）以接口互联的便携式电子设备。

在电子设备400中，处理器402可包括中央处理器（CPU）、图形处理器（GPU）、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理器402还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

处理器402可运行存储在存储器中的指令或代码，其中，存储器401还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，网络接口装置可采用任何已知的传输协议。

存储器401可与处理器402集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储器402可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器401和处理器402可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得处理器402能够读取存储在存储器401中的文件。

此外，电子设备400还可包括视频显示器（诸如，液晶显示器）和用户交互接口（诸如，键盘、鼠标、触摸输入装置等）。电子设备的所有组件可经由总线和/或网络而彼此连接。

根据本公开的实施例，还可提供一种计算机可读存储介质，其中，当计算机可读存储介质中的指令被至少一个处理器运行时，促使至少一个处理器执行本公开实施例的视频处理处理方法。这里的计算机可读存储介质的示例包括：只读存储器（ROM）、随机存取可编程只读存储器（PROM）、电可擦除可编程只读存储器（EEPROM）、随机存取存储器（RAM）、动态随机存取存储器（DRAM）、静态随机存取存储器（SRAM）、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-RLTH、BD-RE、蓝光或光盘存储器、硬盘驱动器（HDD）、固态硬盘（SSD）、卡式存储器（诸如，多媒体卡、安全数字（SD）卡或极速数字（XD）卡）、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置，所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，此外，在一个示例中，计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上，使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。

根据本公开实施例，提供了一种计算机程序产品，包括计算机指令，计算机指令被处理器执行时实现本公开实施例的视频处理处理方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种视频处理方法，其特征在于，包括：

获取待处理视频的图像帧；

基于图像帧的基础特征的信息和图像帧中的识别特征的信息，确定所述待处理视频的图像帧中的目标图像帧，其中，所述识别特征包括图像帧中的对象和/或场景；

将所述目标图像帧拼接为目标视频。

2.如权利要求1所述的视频处理方法，其特征在于，所述基于图像帧的基础特征的信息和图像帧中的识别特征的信息，确定所述待处理视频的图像帧中的目标图像帧，包括：

基于图像帧的基础特征的信息，从所述待处理视频的图像帧中确定候选图像帧；

根据所述候选图像帧中的识别特征所包括的对象的信息或识别特征所包括的场景的信息，确定所述目标图像帧。

3.如权利要求2所述的视频处理方法，其特征在于，所述根据所述候选图像帧中的识别特征所包括的对象的信息，确定所述目标图像帧，包括：

获取所述候选图像帧中的识别特征所包括的对象的画面占比和/或对象的画面位置；

基于所述对象的画面占比和/或对象的画面位置，从所述候选的图像帧中确定所述目标图像帧。

4.如权利要求3所述的视频处理方法，其特征在于，所述基于所述对象的画面占比和/或对象的画面位置，从所述候选图像帧中确定所述目标图像帧，包括：

若所述候选图像帧存在至少一个对象的画面占比超过预定阈值，和/或至少一个对象的画面位置位于预定画面位置，则将所述候选图像帧确定为目标图像帧。

5.如权利要求2所述的视频处理方法，其特征在于，所述根据所述候选图像帧中的识别特征所包括的场景的信息，确定所述目标图像帧，包括：

获取所述候选图像帧中的识别特征所包括的场景的主题信息；

基于所述场景的主题信息，从所述候选图像帧中确定所述目标图像帧。

6.如权利要求5所述的视频处理方法，其特征在于，所述基于所述场景的主题信息，从所述候选图像帧中确定所述目标图像帧，包括：

将场景的主题属于预定有效场景的侯选图像帧，确定为所述目标图像帧；和/或

将场景的主题与所述目标视频的主题相对应的侯选图像帧，确定为所述目标图像帧，其中，所述目标视频的主题是预先设定的。

7.如权利要求1所述的视频处理方法，其特征在于，在将所述目标图像帧拼接为目标视频之后，还包括：

确定所有目标图像帧中出现预定次数以上或出现次数最多的识别特征；

基于所有目标图像帧中出现预定次数以上或出现次数最多的识别特征，为所述目标视频匹配对应的特效；

将所述特效显示在所述目标视频上。

8.如权利要求7所述的视频处理方法，其特征在于，确定所有目标图像帧中出现预定次数以上或出现次数最多的识别特征，包括：

对于所有目标图像帧中的每一个目标图像帧，获取与所述目标图形帧中的识别特征相对应的模型，其中，所述相对应的模型是基于预先采集的对象特征或场景特征生成的深度学习模型；

确定目标图像帧中的识别特征与相对应的模型的相似度，基于所述相似度确定所述目标图像帧对应的目标识别特征；

基于所有目标图像帧对应的目标识别特征，确定所述目标识别特征中出现预定次数以上或出现次数最多的识别特征。

9.如权利要求8所述的视频处理方法，其特征在于，所述基于所述相似度确定所述目标图像帧对应的目标识别特征，包括：

在所有识别特征的相似度小于第一预定值的情况下，确定所述目标图像帧无目标识别特征。

10.如权利要求8所述的视频处理方法，其特征在于，所述基于所述相似度确定所述目标图像帧对应的目标识别特征，包括：

在至少两个识别特征的相似度大于第二预定值的情况下，按所述目标图像帧中识别特征的优先级确定所述目标图像帧对应的目标识别特征，其中，第二预定值大于第一预定值。

11.如权利要求8所述的视频处理方法，其特征在于，所述基于所述相似度确定所述目标图像帧对应的目标识别特征，包括：

在排序靠前的两个识别特征的相似度之差小于第三预定值的情况下，按所述目标图像帧中识别特征的优先级确定所述目标图像帧对应的目标识别特征。

12.如权利要求8所述的视频处理方法，其特征在于，所述基于所述相似度确定所述目标图像帧对应的目标识别特征，包括：

在排序靠前的两个识别特征的相似度之差大于等于第三预定值的情况下，将相似度最高的识别特征作为所述目标图像帧的目标识别特征。

13.如权利要求7所述的视频处理方法，其特征在于，所述特效包括滤镜、音乐、文字。

14.如权利要求1所述的视频处理方法，其特征在于，将所述目标图像帧拼接为目标视频，包括：

在所有目标图像帧中识别特征的个数大于预定个数的情况下，将相同识别特征对应的目标图像帧和/或满足预设关系的识别特征对应的目标图像帧拼接为多屏图像帧；

基于所述多屏图像帧进行拼接得到目标视频。

15.如权利要求2所述的视频处理方法，其特征在于，基于图像帧的基础特征的信息，从所述待处理视频的图像帧中确定候选图像帧，包括：

对于所述待处理视频的图像帧中每个图像帧，获取图像帧的基础特征的信息，并基于每个基础特征的信息和每个基础特征的信息对应的权重，得到所述图像帧的得分；

基于每个图像帧的得分，从所述待处理视频的图像帧中确定候选图像帧。

16.如权利要求1所述的视频处理方法，其特征在于，获取所述待处理视频的图像帧，包括：

确定所述待处理视频包含的图像帧的总数；

在所述图像帧的总数小于第一阈值的情况下，获取所述待处理视频中所有图像帧；

在所述图像帧的总数大于等于所述第一阈值的情况下，获取所述待处理视频中部分图像帧。

17.一种视频处理装置，其特征在于，包括：

获取单元，被配置为获取待处理视频的图像帧；

第一确定单元，被配置为基于图像帧的基础特征的信息和图像帧中的识别特征的信息，确定所述待处理视频的图像帧中的目标图像帧，其中，所述识别特征包括图像帧中的对象和/或场景；

拼接单元，被配置为将所述目标图像帧拼接为目标视频。

18.如权利要求17所述的视频处理装置，其特征在于，所述第一确定单元，还被配置为基于图像帧的基础特征的信息，从所述待处理视频的图像帧中确定候选图像帧；根据所述候选图像帧中的识别特征所包括的对象的信息和/或识别特征所包括的场景的信息，确定所述目标图像帧。

19.如权利要求18所述的视频处理装置，其特征在于，所述第一确定单元，还被配置为获取所述候选图像帧中的识别特征所包括的象的画面占比和/或对象的画面位置；基于所述对象的画面占比和/或对象的画面位置，从所述候选图像帧中确定所述目标图像帧。

20.如权利要求19所述的视频处理装置，其特征在于，所述第一确定单元，还被配置为若所述候选图像帧存在至少一个对象的画面占比超过预定阈值，和/或至少一个对象的画面位置位于预定画面位置，则将所述候选图像帧确定为目标图像帧。

21.如权利要求18所述的视频处理装置，其特征在于，所述第一确定单元，还被配置为获取所述候选图像帧中的识别特征所包括的场景的主题信息；基于所述场景的主题信息，从所述候选图像帧中确定所述目标图像帧。

22.如权利要求21所述的视频处理装置，其特征在于，所述第一确定单元，还被配置为将场景的主题属于预定有效场景的候选图像帧，确定为所述目标图像帧；和/或，将场景的主题与所述目标视频的主题相对应的候选图像帧，确定为所述目标图像帧，其中，所述目标视频的主题是预先设定的。

23.如权利要求17所述的视频处理装置，其特征在于，还包括：

第二确定单元，被配置为确定所有目标图像帧中出现预定次数以上或出现次数最多的识别特征；

匹配单元，被配置为基于所有目标图像帧中出现预定次数以上或出现次数最多的识别特征，为所述目标视频匹配对应的特效；

显示单元，被配置为将所述特效显示在所述目标视频上。

24.如权利要求23所述的视频处理装置，其特征在于，所述第二确定单元，还被配置为对于所有目标图像帧中的每一个目标图像帧，获取目标图像帧中与所述识别特征相对应的模型，其中，所述相对应的模型是基于预先采集的对象特征或场景特征生成的深度学习模型；确定目标图像帧中的识别特征与相对应的模型的相似度，基于所述相似度确定所述目标图像帧对应的目标识别特征；基于所有目标图像帧对应的目标识别特征，确定所述目标识别特征中出现预定次数以上或出现次数最多的识别特征。

25.如权利要求24所述的视频处理装置，其特征在于，所述第二确定单元，还被配置为在识别特征的所有相似度小于第一预定值的情况下，确定所述目标图像帧无目标识别特征。

26.如权利要求24所述的视频处理装置，其特征在于，所述第二确定单元，还被配置为在至少两个识别特征的相似度大于第二预定值的情况下，按所述目标图像帧中识别特征的优先级确定所述目标图像帧对应的目标识别特征，其中，第二预定值大于第一预定值。

27.如权利要求24所述的视频处理装置，其特征在于，所述第二确定单元，还被配置为在排序靠前的两个识别特征的相似度之差小于第三预定值的情况下，按所述目标图像帧中识别特征的优先级确定所述目标图像帧对应的目标识别特征。

28.如权利要求24所述的视频处理装置，其特征在于，所述第二确定单元，还被配置为在排序靠前的两个识别特征的相似度之差大于等于第三预定值的情况下，将相似度最高的识别特征作为所述目标图像帧的目标识别特征。

29.如权利要求23所述的视频处理装置，其特征在于，所述特效包括滤镜、音乐、文字。

30.如权利要求17所述的视频处理装置，其特征在于，所述拼接单元，还被配置为在所有目标图像帧中识别特征的个数大于预定个数的情况下，将相同识别特征对应的目标图像帧和/或满足预设关系的识别特征对应的目标图像帧拼接为多屏图像帧；基于所述多屏图像帧进行拼接得到目标视频。

31.如权利要求18所述的视频处理装置，其特征在于，所述第一确定单元，还被配置为对于所述待处理视频的图像帧中每个图像帧，获取图像帧的基础特征的信息，并基于每个基础特征的信息和每个基础特征的信息对应的权重，得到所述图像帧的得分；基于每个图像帧的得分，从所述待处理视频的图像帧中确定候选图像帧。

32.如权利要求17所述的视频处理装置，其特征在于，所述获取单元，还被配置为确定所述待处理视频包含的图像帧的总数；在所述图像帧的总数小于第一阈值的情况下，获取所述待处理视频中所有图像帧；在所述图像帧的总数大于等于所述第一阈值的情况下，获取所述待处理视频中部分图像帧。

33.一种电子设备，其特征在于，包括:

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至16中任一项所述的视频处理方法。

34.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令被至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1至16中任一项所述的视频处理方法。