CN109618222B

CN109618222B - 一种拼接视频生成方法、装置、终端设备及存储介质

Info

Publication number: CN109618222B
Application number: CN201811612133.9A
Authority: CN
Inventors: 许冲; 黄日昇; 姜宇宁; 徐力
Original assignee: Beijing ByteDance Network Technology Co Ltd
Current assignee: Beijing ByteDance Network Technology Co Ltd
Priority date: 2018-12-27
Filing date: 2018-12-27
Publication date: 2019-11-22
Anticipated expiration: 2038-12-27
Also published as: CN109618222A

Abstract

本公开公开了一种拼接视频生成方法、装置、终端设备及存储介质。该方法包括：获取与拼接视频的视频主题匹配的目标图片集合，并分别获取所述目标图片集合中各目标图片的特征信息；从所述目标图片集合中筛选目标图片，生成图片序列，并根据所述图片序列中任意相邻两张目标图片的特征信息，确定与各所述相邻两张目标图片匹配的过渡特效；根据所述图片序列中各目标图片的位置顺序，以及所述图片序列中各目标图片匹配的图片特效和任意相邻两张目标图片匹配的过渡特效，将所述图片序列拼接生成所述拼接视频。本公开实施例可以提高拼接视频的生成效率，同时还可以提高生成拼接视频的灵活性和多样性。

Description

一种拼接视频生成方法、装置、终端设备及存储介质

技术领域

本公开实施例涉及数据技术，尤其涉及一种拼接视频生成方法、装置、终端设备及存储介质。

背景技术

随着通信技术和终端设备的发展，各种终端设备例如安卓手机、苹果手机和平板电脑等已经成为了人们工作和生活中不可或缺的一部分。为了满足人们对信息的获取需求，通常在终端设备中开发的应用程序上展示大量页面。

目前，在现有的页面视频展示方法中，一般是从多个视频中截取视频段进行拼接播放，该步骤是由人工完成的。同时，拼接视频的拼接顺序和特效设计一般是由人工单独设计，但由于人工思维的限制，拼接视频的表达形式不够灵活和多样，同时拼接视频的设计的时间较为漫长，无法满足信息更新的速度。

发明内容

本公开实施例提供一种拼接视频生成方法、装置、终端设备及存储介质，可以提高拼接视频的生成效率，同时还可以提高生成拼接视频的灵活性和多样性。

第一方面，本公开实施例提供了一种拼接视频生成方法，该方法包括：

获取与拼接视频的视频主题匹配的目标图片集合，并分别获取所述目标图片集合中各目标图片的特征信息；

从所述目标图片集合中筛选目标图片，生成图片序列，并根据所述图片序列中任意相邻两张目标图片的特征信息，确定与各所述相邻两张目标图片匹配的过渡特效；

根据所述图片序列中各目标图片的位置顺序，使用所述图片序列中各目标图片匹配的图片特效和任意相邻两张目标图片匹配的过渡特效，将所述图片序列拼接生成所述拼接视频。

进一步的，所述获取与拼接视频的视频主题匹配的目标图片集合，并分别获取所述目标图片集合中各目标图片的特征信息，包括：

从图片库中选取至少一张与所述视频主题匹配的图片，生成图片集合；

分别获取所述图片集合中各所述图片的特征信息；其中，所述特征信息包括下述至少一项：图像元素、属性信息和内容信息；

根据各所述图片的特征信息对各所述图片进行聚类分析，生成至少两个类图片集合；

从所述至少两个类图片集合中选取一个类图片集合作为目标图片集合。

进一步的，所述从所述目标图片集合中筛选目标图片，生成图片序列，包括：

根据所述目标图片集合中各目标图片的特征信息对各所述目标图片进行排序；

根据排序结果从所述目标图片集合中选取至少两张目标图片，并根据所述至少两张目标图片生成图片序列。

进一步的，在根据所述图片序列中各目标图片的位置顺序，使用所述图片序列中各目标图片匹配的图片特效和任意相邻两张目标图片匹配的过渡特效，将所述图片序列拼接生成所述拼接视频之前，还包括：

根据所述视频主题以及所述图片序列中各目标图片的特征信息，确定各所述目标图片匹配的图片特效。

进一步的，在获取与拼接视频的视频主题匹配的目标图片集合之后，在将所述图片序列拼接生成所述拼接视频之前，还包括：

将每个目标图片输入到预先训练的美学质量评估模型中，获取与所述目标图片匹配的美学质量评估结果；

根据所述美学质量评估结果，在所述目标图片中对所述目标图片匹配的至少一个图像元素进行修正。

进一步的，在将所述图片序列拼接生成所述拼接视频之后，还包括：

根据所述视频主题和所述图片序列中各目标图片的特征信息，确定所述拼接视频的风格信息；

根据音乐库中每个音乐的音乐特征，选取与所述风格信息匹配的音乐作为视频音乐，与所述拼接视频进行合成，生成目标拼接视频。

进一步的，在生成目标拼接视频之后，还包括：

将所述目标拼接视频输入到展示页面评估模型中，得到与所述目标拼接视频对应的展示预测评估结果；

判断所述展示预测评估结果是否满足阈值条件；

如果是，则对所述目标拼接视频进行展示；

否则，返回执行获取与拼接视频的视频主题匹配的目标图片集合的步骤，直至获取满足阈值条件的目标拼接视频进行展示。

第二方面，本公开实施例还提供了一种拼接视频生成装置，该装置包括：

目标图片集合获取模块，用于获取与拼接视频的视频主题匹配的目标图片集合，并分别获取所述目标图片集合中各目标图片的特征信息；

图片序列生成模块，用于从所述目标图片集合中筛选目标图片，生成图片序列，并根据所述图片序列中任意相邻两张目标图片的特征信息，确定与各所述相邻两张目标图片匹配的过渡特效；

拼接视频生成模块，用于根据所述图片序列中各目标图片的位置顺序，使用所述图片序列中各目标图片匹配的图片特效和任意相邻两张目标图片匹配的过渡特效，将所述图片序列拼接生成所述拼接视频。

进一步的，所述目标图片集合获取模块，包括：

图片集合生成模块，用于从图片库中选取至少一张与所述视频主题匹配的图片，生成图片集合；

特征信息获取模块，用于分别获取所述图片集合中各所述图片的特征信息；其中，所述特征信息包括下述至少一项：图像元素、属性信息和内容信息；

类图片集合生成模块，用于根据各所述图片的特征信息对各所述图片进行聚类分析，生成至少两个类图片集合；

目标图片集合确定模块，用于从所述至少两个类图片集合中选取一个类图片集合作为目标图片集合。

进一步的，所述图片序列生成模块，包括：

目标图片排序模块，用于根据所述目标图片集合中各目标图片的特征信息对各所述目标图片进行排序；

目标图片筛选模块，用于根据排序结果从所述目标图片集合中选取至少两张目标图片，并根据所述至少两张目标图片生成图片序列。

进一步的，所述拼接视频生成装置，还包括：

美学质量评估结果获取模块，用于将每个目标图片输入到预先训练的美学质量评估模型中，获取与所述目标图片匹配的美学质量评估结果；

图像元素修正模块，用于根据所述美学质量评估结果，在所述目标图片中对所述目标图片匹配的至少一个图像元素进行修正。

进一步的，所述拼接视频生成装置，还包括：

风格信息确定模块，用于根据所述视频主题和所述图片序列中各目标图片的特征信息，确定所述拼接视频的风格信息；

目标拼接视频生成模块，用于根据音乐库中每个音乐的音乐特征，选取与所述风格信息匹配的音乐作为视频音乐，与所述拼接视频进行合成，生成目标拼接视频。

进一步的，所述拼接视频生成装置，还包括：

展示预测评估结果获取模块，用于将所述目标拼接视频输入到展示页面评估模型中，得到与所述目标拼接视频对应的展示预测评估结果；

展示判断模块，用于判断所述展示预测评估结果是否满足阈值条件；如果是，则对所述目标拼接视频进行展示；否则，返回执行获取与拼接视频的视频主题匹配的目标图片集合的步骤，直至获取满足阈值条件的目标拼接视频进行展示。

第三方面，本公开实施例还提供了一种终端设备，该终端设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本公开实施例所述的拼接视频生成方法。

第四方面，本公开实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本公开实施例所述的拼接视频生成方法。

本公开实施例通过选取与视频主题匹配的目标图片集合，并生成图片序列，同时根据图片序列中任意相邻两张目标图片的特征信息确定各相邻两张目标图片匹配的过渡特效，并根据图片序列中各目标图片的位置顺序，使用图片序列中各目标图片匹配的图片特效和任意相邻两张目标图片匹配的过渡特效，生成拼接视频，解决了现有技术中人工拼接生成拼接视频效率低的问题，实现避免人工拼接视频的主观性，同时可以提高待展示视频的生成效率，以及提高生成待展示视频的灵活性和多样性。

附图说明

图1是本公开实施例一中的一种拼接视频生成方法的流程图；

图2a是本公开实施例二中的一种拼接视频生成方法的流程图；

图2b是本公开实施例二中的一种拼接视频生成系统的功能框图；

图3是本公开实施例三中的一种拼接视频生成装置的结构示意图；

图4是本公开实施例四中的一种终端设备的结构示意图。

具体实施方式

下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本公开，而非对本公开的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本公开相关的部分而非全部结构。

实施例一

图1为本公开实施例一提供的一种拼接视频生成方法的流程图，本实施例可适用于生成拼接视频的情况，该方法可以由拼接视频生成装置来执行，该装置可以采用软件和/或硬件的方式实现，该装置可以配置于终端设备中，例如典型的是计算机等。如图1所示，该方法具体包括如下步骤：

S110，获取与拼接视频的视频主题匹配的目标图片集合，并分别获取所述目标图片集合中各目标图片的特征信息。

具体的，拼接视频是指由多个图像拼接形成的视频，用于在页面中播放展示。视频主题可以是指展示给用户的内容，具体可以包括人物、背景、颜色和情境等内容信息中的至少一项。目标图片集合可以是指由多张与视频主题匹配的目标图片生成的图片集合，同时，在目标图片集合中，任意两张目标图片的相似度超过设定阈值。其中，目标图片为历史展示的图片。

特征信息可以是指目标图片中包括的图像元素、属性信息和内容信息中的至少一种。其中，图像元素可以是包括前景图像、背景图像和图像中的文字等，属性信息可以是指图片的结构、图像元素的颜色、尺寸、位置、形状和样式等信息中的至少一种，例如，图像元素在图片中的图层位置，例如图像中的文字在前景图像所在的图层中等，又如该图像对应的像素图中各个像素的颜色、图像的对比度和图像的亮度等。内容信息可以是指目标图片的描述内容，更具体的，是指图片中能识别出来的文字内容。

此外，特征信息还可以包括目标图片的美学质量和/或图像内容信息，其中，美学质量可以是指目标图片的美学评估结果；图像内容信息可以是指图像中生物的状态以及多个生物之间或者物体之间的关联关系等等，例如，用户骑车的动作或桌子上放置茶杯的关联关系等。对此，本公开实施例不作具体限制。

可选的，图片的特征信息获取方法可以是：对图片集合中的每个图片进行物体检测和图像分割，生成与图片匹配的至少一个图像元素，并分别获取各图像元素的属性信息；其中，图像元素包括图像文字、前景图像和背景图像，图像文字可以是指图像中包括的文字，例如图像标题、前景图像中的宣传语或应用程序显示界面中显示的文字等；前景图像可以是指直接展示给用户的目标图像，不会被覆盖的图像，例如，产品图像或展示效果图像等；背景图像可以是指可以在前景图像的后一层，同时被前景图像部分覆盖的图像，例如，场景图像或幕布图像等。在一个具体的例子中，一个目标图片的内容具体是：一个用户在街道上骑车。其中，前景图像可以是指正在骑车的用户以及自行车；背景图像可以是街道，甚至包括街道上的树木和店铺；图像文字是用户衣服上的文字以及自行车上的文字(例如商标中的文字)。

同时对图片集合中的每个图片包括的图像文字进行文字识别，获取图片的文字内容信息；对图片集合中的每个图片包括的前景图像和背景图像进行图像识别，获取图片的图像内容信息；对图片集合中的每个图片进行美学质量评估，得到每个图片的美学质量评估结果；将图片匹配的至少一个图像元素、各图像元素的属性信息、文字内容信息、图像内容信息和美学质量评估结果作为图片的特征信息。

其中，图片的文字识别、图片的物体检测和图像分割、图像内容信息和美学质量评估均可以通过预先训练的深度学习模型实现。

可选的，所述获取与拼接视频的视频主题匹配的目标图片集合，并分别获取所述目标图片集合中各目标图片的特征信息，可以包括：从图片库中选取至少一张与所述视频主题匹配的图片，生成图片集合；分别获取所述图片集合中各所述图片的特征信息；其中，所述特征信息包括下述至少一项：图像元素、属性信息和内容信息；根据各所述图片的特征信息对各所述图片进行聚类分析，生成至少两个类图片集合；从所述至少两个类图片集合中选取一个类图片集合作为目标图片集合。

一般来说，由拼接视频拆分形成的各图像帧所展示的主题相同，且各图像帧之间存在关联性，也就是说，各图像帧相似度较高，例如相似度超过设定阈值。从而需要从图片库在中选择与视频主题匹配，且彼此之间的相似度超过设定阈值的多张图片，生成拼接视频。

其中，图片库是历史展示图片的集合，历史展示图片可以是从网络上展示过的视频中拆分出来的图片，或者是从网络上直接获取的展示过的图片。

与视频主题匹配的图片的选取方式可以是根据搜索匹配图片的算法选取，例如基于内容的图片搜索算法，如视觉语义嵌入算法(visual semantic embedding)。其中，视觉语义嵌入算法将图像及语句表示成一个固定长度的向量，进而嵌入到同一个矢量空间中。由此通过该矢量空间中的近邻搜索可以实现图像和语句的匹配和检索。具体的，视觉语义嵌入算法可以通过深度学习模型实现。

在图片集合中对各图片进行聚类分析，根据各图片的特征信息，生成多个类图片集合，其中，每个类图片集合中的各图片彼此相关，例如相似度超过设定阈值。其中，聚类分析方法可以是k均值算法(k-means)、谱聚类算法等。

从生成的至少两个类图片集合中选取一个类图片集合作为目标图片集合，选取方式可以是任选，还可以是根据各类图片集合与视频主题的匹配度确定，例如，获取每个类图片集合中各图片与视频主题的匹配度，并计算每个类图片集合与视频主题的平均匹配度，将平均匹配度最高的类图片集合作为目标图片集合。其中，平均匹配度的计算可以是统计一个类图片集合中所有图片与视频主题的匹配度之和，将统计值除以该类图片集合中包括的图片的数量得到平均匹配度。

通过搜索与视频主题匹配的多张图片进行聚类分析，每一类生成一个类图片集合，并从中挑选一个类图片集合作为目标图片集合，实现从多张图片中挑选符合视频主题同时相似度高的图片，用于生成拼接视频，从而提高拼接视频的质量。

S120，从所述目标图片集合中筛选目标图片，生成图片序列，并根据所述图片序列中任意相邻两张目标图片的特征信息，确定与各所述相邻两张目标图片匹配的过渡特效。

其中，图片序列可以是指按照顺序排列的一列图片。过渡特效可以是指从一张图片进行展示切换到另一张图片进行展示时的视频效果。

可以从目标图片集合中选取至少两张目标图片，并将选取的目标图片按照设定顺序进行排列，生成图片序列。可选的，所述从所述目标图片集合中筛选目标图片，生成图片序列，可以包括：根据所述目标图片集合中各目标图片的特征信息对各所述目标图片进行排序；根据排序结果从所述目标图片集合中选取至少两张目标图片，并根据所述至少两张目标图片生成图片序列。

具体的，根据各目标图片的特征信息，评估目标图片是否符合当前流行的元素风格，或者是评估目标图片的质量，并根据评估结果对目标图片进行排序。示例性的，当前流行的元素风格可以是指当前流行的颜色搭配，例如黑灰白的颜色搭配。可以按照排序结果从高到低的顺序，从第一名开始选取设定数量的图片。设定数量可以根据拼接视频的总时长确定，或者可以由用户直接确定。具体的，可以通过预先训练的深度学习模型对各目标图片进行评估。

其中，生成图片序列的排序方法可以是随机排序，也可以按照设定条件进行排序，例如，根据目标图片的背景色的深浅，其中，深浅可以用亮度大小表示，将各目标图片由浅入深排序或者由深入浅排序。

通过根据特征信息对各目标图片进行排序，可以从目标图片集合中筛选优质目标图片生成图片序列，进而拼接形成拼接视频，从而提高拼接视频的质量。

其中，根据图片序列中任意相邻两张目标图片的特征信息，确定与各相邻两张目标图片匹配的过渡特效。

过渡特效是用于在相邻两张目标图片切换过程中展示的，需要根据该相邻两张目标图片的特征信息，分析该相邻两张目标图片匹配的切换信息，例如，该相邻两张目标图片的内容、风格、空间结构以及图像主题，从而在过渡特效数据库中选择匹配的过渡特效，在该相邻两张图片切换操作中添加过渡特效，使相邻目标图片过渡更加丰富。示例性的，该相邻两张目标图片的特征信息为从该相邻两张目标图片中提取的文字识别内容和图像元素以及图像元素的属性信息等。其中，过渡特效数据库为预先定义的实现目标图片在切换时的特殊效果的代码的数据库，示例性的，过渡特效数据库包括图像元素的大小调整、相邻两张目标图片中前一目标图片的的透明度渐变和相邻两张目标图片中后一目标图片的进入等代码中的至少一种。

S130，根据所述图片序列中各目标图片的位置顺序，使用所述图片序列中各目标图片匹配的图片特效和任意相邻两张目标图片匹配的过渡特效，将所述图片序列拼接生成所述拼接视频。

其中，图片特效是在目标图片中展示的视频特效。

可选的，在根据所述图片序列中各目标图片的位置顺序，使用所述图片序列中各目标图片匹配的图片特效和任意相邻两张目标图片匹配的过渡特效，将所述图片序列拼接生成所述拼接视频之前，还可以包括：根据所述视频主题以及所述图片序列中各目标图片的特征信息，确定各所述目标图片匹配的图片特效。

根据目标图片集合中的各目标图片的特征信息和视频主题，从图片特效数据库中选择匹配的图片特效，为各图片添加特效。其中，图片特效数据库是预先定义的用于实现突出图片内容以及视频主题的特殊效果的代码的数据库，例如，图片特效数据库包括人脸表情生成、人体骨架结构迁移和静图转动图等代码中的至少一种。示例性的，目标图片的特征信息为从该目标图片中提取的文字识别内容和图像元素以及图像元素的属性信息等。

利用从该目标图片中提取的文字识别内容和图像元素以及图像元素的属性信息等，从图片特效数据库中搜索合适的图片特效，同时，利用视频合成技术，对获取到的图片特效与目标图片中的图像元素进行融合，例如，覆盖或叠加等。

具体的，将图片序列中各目标图片作为拼接视频的图像帧，同时将图片序列中各目标图片的位置顺序作为拼接视频的图像帧的播放顺序。并在各目标图片中添加匹配的图片特效，在相邻两张图片切换时添加与该相邻两张图片匹配的过渡特效，由此形成完整的拼接视频。

通过在各目标图片中添加图片特效，使目标图片的内容和视频主题更加突出，同时使目标图片的内容更加丰富。

可选的，在获取与拼接视频的视频主题匹配的目标图片集合之后，在将所述图片序列拼接生成所述拼接视频之前，还可以包括：将每个目标图片输入到预先训练的美学质量评估模型中，获取与所述目标图片匹配的美学质量评估结果；根据所述美学质量评估结果，在所述目标图片中对所述目标图片匹配的至少一个图像元素进行修正。

具体的，可以对目标图片进行美学质量评估，若目标图片的美学质量评估结果低于设定阈值，则确定该目标图片的质量差，可以对目标图片中的各图像元素进行调整，例如，对各图像元素的尺寸、形状、旋转角度和位置等进行调整；以及对背景图的颜色、对比度或亮度等进行调整。最终实现对目标图片中的图像元素以及场景重新布局和搭配，设计出符合美学标准的目标图片。其中，可以通过预先训练的深度学习模型或者是基于先验知识通过人工调整，对目标图片匹配的至少一个图像元素进行调整修正，使得修正后的目标图片更符合美学设计的要求。

通过对目标图片进行美学质量评估，并相应进行调整修正，提高每个目标图片的质量，从而提高由目标图片拼接形成的拼接视频的质量。

在上述实施例的基础上，可选的，在将所述图片序列拼接生成所述拼接视频之后，还可以包括：根据所述视频主题和所述图片序列中各目标图片的特征信息，确定所述拼接视频的风格信息；根据音乐库中每个音乐的音乐特征，选取与所述风格信息匹配的音乐作为视频音乐，与所述拼接视频进行合成，生成目标拼接视频。

示例性的，风格信息可以是指拼接视频的整体色调如温馨、拼接视频的节奏感如目标图片的切换速度和拼接视频的主题元素如每张目标图片都包括的元素(如自行车)等中的至少一项。

音乐库为预先定义的包括至少一个音乐，以及每个音乐匹配的音乐特征的数据库，通过计算风格信息与各音乐特征的匹配度，将匹配度最高的音乐特征匹配的音乐作为视频音乐。通过为拼接视频添加视频音乐，可以进一步丰富拼接视频。

在上述实施例的基础上，可选的，在生成目标拼接视频之后，还可以包括：将所述目标拼接视频输入到展示页面评估模型中，得到与所述目标拼接视频对应的展示预测评估结果；判断所述展示预测评估结果是否满足阈值条件；如果是，则对所述目标拼接视频进行展示；否则，返回执行获取与拼接视频的视频主题匹配的目标图片集合的步骤，直至获取满足阈值条件的目标拼接视频进行展示。

其中，阈值条件可以是指设定与展示预测评估结果数量级或数量类型相同的阈值，用于判断目标拼接视频是否符合展示标准，也即是否符合质量标准。展示页面评估模型用于对形成的目标拼接视频在页面中展示的效果进行评估。将最终得到的目标拼接视频进行评估，并在满足阈值条件的情况下展示目标拼接视频，从而实现展示高质量的拼接视频，从而提高用户体验。

实施例二

图2a为本公开实施例二提供的一种拼接视频生成方法的流程图。本实施例以上述实施例中各个可选方案为基础进行具体化。

相应的，本实施例的方法可以包括：

S201，从图片库中选取至少一张与所述视频主题匹配的图片，生成图片集合，并分别获取所述图片集合中各所述图片的特征信息；其中，所述特征信息包括下述至少一项：图像元素、属性信息和内容信息。

需要说明的是，本实施例中的视频主题、图片、图片集合、特征信息、图像元素、属性信息、内容信息、目标图片集合、图片特效、过度特效、拼接视频和图片序列等均可以参考上述实施例的描述。

S202，根据各所述图片的特征信息对各所述图片进行聚类分析，生成至少两个类图片集合。

S203，从所述至少两个类图片集合中选取一个类图片集合作为目标图片集合，并分别获取所述目标图片集合中各目标图片的特征信息。

S204，根据所述目标图片集合中各目标图片的特征信息对各所述目标图片进行排序，同时根据排序结果从所述目标图片集合中选取至少两张目标图片，并根据所述至少两张目标图片生成图片序列。

S205，根据所述视频主题以及所述图片序列中各目标图片的特征信息，确定各所述目标图片匹配的图片特效。

S206，根据所述图片序列中任意相邻两张目标图片的特征信息，确定与各所述相邻两张目标图片匹配的过渡特效。

S207，将每个目标图片输入到预先训练的美学质量评估模型中，获取与所述目标图片匹配的美学质量评估结果，并根据所述美学质量评估结果，在所述目标图片中对所述目标图片匹配的至少一个图像元素进行修正。

S208，根据所述图片序列中各目标图片的位置顺序，使用所述图片序列中各目标图片匹配的图片特效和任意相邻两张目标图片匹配的过渡特效，将所述图片序列拼接生成所述拼接视频。

S209，根据所述视频主题和所述图片序列中各目标图片的特征信息，确定所述拼接视频的风格信息，并根据音乐库中每个音乐的音乐特征，选取与所述风格信息匹配的音乐作为视频音乐，与所述拼接视频进行合成，生成目标拼接视频。

S210，将所述目标拼接视频输入到展示页面评估模型中，得到与所述目标拼接视频对应的展示预测评估结果。

具体的，展示页面评估模型可以包括特征提取层和全连接层。通过特征提取层中的图像嵌入层获取拼接视频中各图像帧的图像特征；通过特征提取层中的字嵌入层或者通过光字符识别技术获取拼接视频中各图像帧的文字特征；根据图像特征和文字特征，生成拼接视频中各图像帧的特征向量，具体是将图像帧的图像特征和文字特征进行拼接生成图像帧的特征向量；根据各特征向量，通过全连接层，获取拼接视频的展示预测评估结果，以数值形式输出。

S211，判断所述展示预测评估结果是否满足阈值条件，如果是，执行S212；否则执行S203，直至获取满足阈值条件的目标拼接视频进行展示。

S212，对所述目标拼接视频进行展示。

在一个具体的例子中，如图2b所示，可以构建拼接视频生成系统220实现本实施例中提供的拼接视频生成方法：向拼接视频生成系统220中直接输入视频主题，最终可以得到拼接视频。其中，拼接视频生成系统220包括图片搜索匹配模块221、图片聚类模块222、图片挑选模块223、图片内容分析处理模块224、图片特效匹配模块225、转场过渡特效匹配模块226、图像美学增强模块227、视频拼接模块228、音频匹配与合成模块229和视频评估模块230。

具体的，图片搜索匹配模块221用于从图片库中选取至少一张与视频主题匹配的图片，生成图片集合；

图片聚类模块222用于根据各图片的特征信息对各图片进行聚类分析，生成至少两个类图片集合；

图片挑选模块223用于从至少两个类图片集合中选取一个类图片集合作为目标图片集合；

图片内容分析处理模块224用于对目标图片集合中各目标图片进行分析处理，获取各目标图片的特征信息，以及根据目标图片集合中各目标图片的特征信息对各目标图片进行排序，同时根据排序结果从目标图片集合中选取至少两张目标图片，并根据至少两张目标图片生成图片序列；

图片特效匹配模块225用于根据视频主题以及图片序列中各目标图片的特征信息，确定各目标图片匹配的图片特效；

转场过渡特效匹配模块226用于根据图片序列中任意相邻两张目标图片的特征信息，确定与各相邻两张目标图片匹配的过渡特效；

图像美学增强模块227用于将每个目标图片输入到预先训练的美学质量评估模型中，获取与目标图片匹配的美学质量评估结果，并根据美学质量评估结果，在目标图片中对目标图片匹配的至少一个图像元素进行修正；

其中，图片特效匹配模块225、转场过渡特效匹配模块226和图像美学增强模块227可以同时进行。

视频拼接模块228用于根据图片序列中各目标图片的位置顺序，使用图片序列中各目标图片匹配的图片特效和任意相邻两张目标图片匹配的过渡特效，将图片序列拼接生成拼接视频；

音频匹配与合成模块229用于根据视频主题和图片序列中任意相邻两张目标图片的特征信息，确定拼接视频的风格信息，并根据音乐库中每个音乐的音乐特征，选取与风格信息匹配的音乐作为视频音乐，与拼接视频进行合成，生成目标拼接视频；

视频评估模块230用于将目标拼接视频输入到展示页面评估模型中，得到与目标拼接视频对应的展示预测评估结果；并判断展示预测评估结果是否满足阈值条件，如果是，则对目标拼接视频进行展示；否则返回执行获取目标图片集合的步骤，直至获取满足阈值条件的拼接视频进行展示。

实施例三

图3为本公开实施例提供的一种拼接视频生成装置的结构示意图，本实施例可适用于生成拼接视频的情况。该装置可以采用软件和/或硬件的方式实现，该装置可以配置于终端设备中。如图3所示，该装置可以包括：目标图片集合获取模块310、图片序列生成模块320和拼接视频生成模块330。

目标图片集合获取模块310，用于获取与拼接视频的视频主题匹配的目标图片集合，并分别获取所述目标图片集合中各目标图片的特征信息；

图片序列生成模块320，用于从所述目标图片集合中筛选目标图片，生成图片序列，并根据所述图片序列中任意相邻两张目标图片的特征信息，确定与各所述相邻两张目标图片匹配的过渡特效；

拼接视频生成模块330，用于根据所述图片序列中各目标图片的位置顺序，使用所述图片序列中各目标图片匹配的图片特效和任意相邻两张目标图片匹配的过渡特效，将所述图片序列拼接生成所述拼接视频。

进一步的，所述目标图片集合获取模块310，包括：图片集合生成模块，用于从图片库中选取至少一张与所述视频主题匹配的图片，生成图片集合；特征信息获取模块，用于分别获取所述图片集合中各所述图片的特征信息；其中，所述特征信息包括下述至少一项：图像元素、属性信息和内容信息；类图片集合生成模块，用于根据各所述图片的特征信息对各所述图片进行聚类分析，生成至少两个类图片集合；目标图片集合确定模块，用于从所述至少两个类图片集合中选取一个类图片集合作为目标图片集合。

进一步的，所述图片序列生成模块320，包括：目标图片排序模块，用于根据所述目标图片集合中各目标图片的特征信息对各所述目标图片进行排序；目标图片筛选模块，用于根据排序结果从所述目标图片集合中选取至少两张目标图片，并根据所述至少两张目标图片生成图片序列。

进一步的，所述拼接视频生成装置，还包括：根据所述视频主题以及所述图片序列中各目标图片的特征信息，确定各所述目标图片匹配的图片特效。

进一步的，所述拼接视频生成装置，还包括：美学质量评估结果获取模块，用于将每个目标图片输入到预先训练的美学质量评估模型中，获取与所述目标图片匹配的美学质量评估结果；图像元素修正模块，用于根据所述美学质量评估结果，在所述目标图片中对所述目标图片匹配的至少一个图像元素进行修正。

进一步的，所述拼接视频生成装置，还包括：风格信息确定模块，用于根据所述视频主题和所述图片序列中各目标图片的特征信息，确定所述拼接视频的风格信息；目标拼接视频生成模块，用于根据音乐库中每个音乐的音乐特征，选取与所述风格信息匹配的音乐作为视频音乐，与所述拼接视频进行合成，生成目标拼接视频。

进一步的，所述拼接视频生成装置，还包括：展示预测评估结果获取模块，用于将所述目标拼接视频输入到展示页面评估模型中，得到与所述目标拼接视频对应的展示预测评估结果；展示判断模块，用于判断所述展示预测评估结果是否满足阈值条件；如果是，则对所述目标拼接视频进行展示；否则，返回执行获取与拼接视频的视频主题匹配的目标图片集合的步骤，直至获取满足阈值条件的目标拼接视频进行展示。

本公开实施例提供的拼接视频生成装置，与实施例一提供的拼接视频生成方法属于同一发明构思，未在本公开实施例中详尽描述的技术细节可参见实施例一，并且本公开实施例与实施例一具有相同的有益效果。

实施例四

本公开实施例提供了一种终端设备，下面参考图4，其示出了适于用来实现本公开实施例的终端设备(例如客户端或服务器端)400的结构示意图。本公开实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、个人数字助理(PDA)、平板电脑(PAD)、便携式多媒体播放器(PMP)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图4示出的终端设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图4所示，终端设备400可以包括处理装置(例如中央处理器、图形处理器等)401，其可以根据存储在只读存储器(ROM)402中的程序或者从存储装置408加载到随机访问存储器(RAM)403中的程序而执行各种适当的动作和处理。在RAM 403中，还存储有终端设备400操作所需的各种程序和数据。处理装置401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。

通常，以下装置可以连接至I/O接口405：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置406；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置407；包括例如磁带、硬盘等的存储装置408；以及通信装置409。通信装置409可以允许终端设备400与其他设备进行无线或有线通信以交换数据。虽然图4示出了具有各种装置的终端设备400，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置409从网络上被下载和安装，或者从存储装置408被安装，或者从ROM 402被安装。在该计算机程序被处理装置401执行时，执行本公开实施例的方法中限定的上述功能。

实施例五

本公开实施例还提供了一种计算机可读存储介质，计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、射频(RF)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述终端设备中所包含的；也可以是单独存在，而未装配入该终端设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该终端设备执行时，使得该终端设备：获取与拼接视频的视频主题匹配的目标图片集合，并分别获取所述目标图片集合中各目标图片的特征信息；从所述目标图片集合中筛选目标图片，生成图片序列，并根据所述图片序列中任意相邻两张目标图片的特征信息，确定与各所述相邻两张目标图片匹配的过渡特效；根据所述图片序列中各目标图片的位置顺序，以及所述图片序列中各目标图片匹配的图片特效和任意相邻两张目标图片匹配的过渡特效，将所述图片序列拼接生成所述拼接视频。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，模块的名称在某种情况下并不构成对该模块本身的限定，例如，目标图片集合获取模块还可以被描述为“获取与拼接视频的视频主题匹配的目标图片集合，并分别获取所述目标图片集合中各目标图片的特征信息的模块”。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种拼接视频生成方法，其特征在于，应用在页面视频展示的场景中，应用于服务器端，包括：

根据所述图片序列中各目标图片的位置顺序，使用所述图片序列中各目标图片匹配的图片特效和任意相邻两张目标图片匹配的过渡特效，将所述图片序列拼接生成所述拼接视频；

将所述拼接视频输入到展示页面评估模型中，得到与所述拼接视频对应的展示预测评估结果；

判断所述展示预测评估结果是否满足阈值条件；

如果是，则对所述拼接视频进行展示；

否则，返回执行获取与拼接视频的视频主题匹配的目标图片集合的步骤，直至获取满足阈值条件的拼接视频进行展示。

2.根据权利要求1所述的方法，其特征在于，所述获取与拼接视频的视频主题匹配的目标图片集合，并分别获取所述目标图片集合中各目标图片的特征信息，包括：

3.根据权利要求1所述的方法，其特征在于，所述从所述目标图片集合中筛选目标图片，生成图片序列，包括：

4.根据权利要求1所述的方法，其特征在于，在根据所述图片序列中各目标图片的位置顺序，使用所述图片序列中各目标图片匹配的图片特效和任意相邻两张目标图片匹配的过渡特效，将所述图片序列拼接生成所述拼接视频之前，还包括：

5.根据权利要求1所述的方法，其特征在于，在获取与拼接视频的视频主题匹配的目标图片集合之后，在将所述图片序列拼接生成所述拼接视频之前，还包括：

6.根据权利要求1-5任一项所述的方法，其特征在于，在将所述图片序列拼接生成所述拼接视频之后，还包括：

7.一种拼接视频生成装置，其特征在于，应用在页面视频展示的场景中，配置于服务器端，包括：

拼接视频生成模块，用于根据所述图片序列中各目标图片的位置顺序，使用所述图片序列中各目标图片匹配的图片特效和任意相邻两张目标图片匹配的过渡特效，将所述图片序列拼接生成所述拼接视频；

展示预测评估结果获取模块，用于将所述拼接视频输入到展示页面评估模型中，得到与所述拼接视频对应的展示预测评估结果；

展示判断模块，用于判断所述展示预测评估结果是否满足阈值条件；如果是，则对所述拼接视频进行展示；否则，返回执行获取与拼接视频的视频主题匹配的目标图片集合的步骤，直至获取满足阈值条件的拼接视频进行展示。

8.根据权利要求7所述的装置，其特征在于，所述目标图片集合获取模块，包括：

9.根据权利要求7所述的装置，其特征在于，所述图片序列生成模块，包括：

10.根据权利要求7所述的装置，其特征在于，还包括：

11.根据权利要求7所述的装置，其特征在于，还包括：

12.根据权利要求7-11任一项所述的装置，其特征在于，还包括：

13.一种终端设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-6任一所述的拼接视频生成方法。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6任一所述的拼接视频生成方法。