CN115766973A

CN115766973A - 一种视频拼接方法、装置、设备及介质

Info

Publication number: CN115766973A
Application number: CN202111028324.2A
Authority: CN
Inventors: 周财进; 张雷; 张子贺; 张耀; 吴国宏; 李文越
Original assignee: Beijing Zitiao Network Technology Co Ltd
Current assignee: Beijing Zitiao Network Technology Co Ltd
Priority date: 2021-09-02
Filing date: 2021-09-02
Publication date: 2023-03-07
Also published as: WO2023030491A1

Abstract

本公开实施例涉及一种视频拼接方法、装置、设备及介质，其中该方法包括：获取待拼接的第一视频片段以及第二视频片段；对第一视频片段和第二视频片段进行图像处理，以使图像处理后的第一视频片段和图像处理后的第二视频片段具有相同的画面展示效果；画面展示效果包括图像质量和/或画面风格；对第一视频片段和第二视频片段进行音频处理，以使音频处理后的第一视频片段和音频处理后的第二视频片段具有相同的背景音；将经图像处理和音频处理后的第一视频片段以及经图像处理和音频处理后的第二视频片段进行拼接。本公开实施例可以使两个视频片段的拼接过渡更为自然，拼接后的视频更为连贯，有效提升了拼接视频给用户的整体感观效果。

Description

一种视频拼接方法、装置、设备及介质

技术领域

本公开涉及视频处理技术领域，尤其涉及一种视频拼接方法、装置、设备及介质。

背景技术

在很多应用场景中都需要将两个视频的指定片段进行拼接，构成新的视频。现有技术中通常是将两个视频片段直接拼接在一起，但是发明人经研究发现，由于两个视频的拍摄条件或后期处理手法等大多并不相同，将两个视频片段直接拼接在一起的方式会使得拼接后的视频具有较为明显的割裂感，给用户的整体感观效果不佳。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种视频拼接方法、装置、设备及介质。

本公开实施例提供了一种视频拼接方法，所述方法包括：获取待拼接的第一视频片段以及第二视频片段；对所述第一视频片段和所述第二视频片段进行图像处理，以使图像处理后的所述第一视频片段和图像处理后的所述第二视频片段具有相同的画面展示效果；所述画面展示效果包括图像质量和/或画面风格；对所述第一视频片段和所述第二视频片段进行音频处理，以使音频处理后的所述第一视频片段和音频处理后的所述第二视频片段具有相同的背景音；将经图像处理和音频处理后的所述第一视频片段以及经图像处理和音频处理后的所述第二视频片段进行拼接。

可选的，所述对所述第一视频片段和所述第二视频片段进行图像处理的步骤，包括：确定目标画面展示效果；将所述第一视频片段的原始画面展示效果以及所述第二视频片段的原始画面展示效果均转换为所述目标画面展示效果。

可选的，所述确定目标画面展示效果的步骤，包括:将预先设置的画面展示效果作为目标画面展示效果；或者，根据所述第一视频片段的原始画面展示效果以及所述第二视频片段的原始画面展示效果，确定目标画面展示效果。

可选的，所述画面展示效果包括图像质量和画面风格；所述根据所述第一视频片段的原始画面展示效果以及所述第二视频片段的原始画面展示效果，确定目标画面展示效果的步骤，包括：从所述第一视频片段的原始图像质量以及所述第二视频片段的原始图像质量中选择其中之一作为目标图像质量；从所述第一视频片段的原始画面风格以及所述第二视频片段的原始画面风格中选择其中之一作为目标画面风格；基于所述目标图像质量和所述目标画面风格确定目标画面展示效果。

可选的，所述从所述第一视频片段的原始图像质量以及所述第二视频片段的原始图像质量中选择其中之一作为目标图像质量的步骤，包括：按照预设的质量选择策略，从所述第一视频片段的原始图像质量以及所述第二视频片段的原始图像质量中选择其中之一作为目标图像质量；其中，所述质量选择策略包括：基于用户指令进行质量选择、或者基于所述第一视频片段和所述第二视频片段之间的图像质量比较结果进行质量选择。

可选的，所述从所述第一视频片段的原始画面风格以及所述第二视频片段的原始画面风格中选择其中之一作为目标画面风格的步骤，包括：按照预设的风格选择策略，从所述第一视频片段的原始画面风格以及所述第二视频片段的原始画面风格中选择其中之一作为目标画面风格；其中，所述风格选择策略包括：基于用户指令进行风格选择、基于视频来源进行风格选择、或者基于片段排序位置进行风格选择。

可选的，所述将所述第一视频片段的原始画面展示效果以及所述第二视频片段的原始画面展示效果均转换为所述目标画面展示效果的步骤，包括：基于所述第一视频片段的原始画面展示效果以及所述第二视频片段的原始画面展示效果，确定与所述目标画面展示效果不一致的原始画面展示效果，并将所述不一致的原始画面展示效果作为待转换画面展示效果；采用预设的图像质量转换算法将所述待转换画面展示效果中的原始图像质量转换为所述目标画面展示效果中的目标图像质量；其中，所述图像质量转换算法包括LDR和HDR之间的转换算法；采用预设的风格迁移算法将所述目标画面展示效果中的目标画面风格迁移至所述待转换画面展示效果中，以将所述待转换画面展示效果的原始画面风格调整为与所述目标画面风格匹配。

可选的，所述对所述第一视频片段和所述第二视频片段进行音频处理的步骤，包括：获取所述第一视频片段的原始背景音以及所述第二视频片段的原始背景音；确定目标背景音；将所述第一视频片段的原始背景音以及所述第二视频片段的原始背景音均转换为所述目标背景音。

可选的，所述获取所述第一视频片段的原始背景音以及所述第二视频片段的原始背景音的步骤，包括：提取所述第一视频片段中所包含的第一指定类型的声音，将除所述第一指定类型的声音之外的其它声音均作为所述第一视频片段的原始背景音；提取所述第二视频片段中所包含的第二指定类型的声音，将除所述第二指定类型的声音之外的其它声音均作为所述第二视频片段的原始背景音。

可选的，所述确定目标背景音的步骤，包括：将预先设置的背景音作为目标背景音；或者，根据所述第一视频片段的原始背景音以及所述第二视频片段的原始背景音，确定目标背景音。

可选的，所述根据所述第一视频片段的原始背景音以及所述第二视频片段的原始背景音，确定目标背景音的步骤，包括：从所述第一视频片段的原始背景音以及所述第二视频片段的原始背景音中选择其中之一作为目标背景音；或者，将所述第一视频片段的原始背景音以及所述第二视频片段的原始背景音进行融合，得到目标背景音。

可选的，所述将所述第一视频片段的原始背景音以及所述第二视频片段的原始背景音均转换为所述目标背景音的步骤，包括：删除所述第一视频片段的原始背景音以及所述第二视频片段的原始背景音；为所述第一视频片段以及所述第二视频片段统一添加所述目标背景音。

本公开实施例还提供了一种视频拼接装置，包括：片段获取模块，用于获取待拼接的第一视频片段以及第二视频片段；图像处理模块，用于对所述第一视频片段和所述第二视频片段进行图像处理，以使图像处理后的所述第一视频片段和图像处理后的所述第二视频片段具有相同的画面展示效果；所述画面展示效果包括图像质量和/或画面风格；音频处理模块，用于对所述第一视频片段和所述第二视频片段进行音频处理，以使音频处理后的所述第一视频片段和音频处理后的所述第二视频片段具有相同的背景音；片段拼接模块，用于将经图像处理和音频处理后的所述第一视频片段以及经图像处理和音频处理后的所述第二视频片段进行拼接。

本公开实施例还提供了一种电子设备，所述电子设备包括：处理器；用于存储所述处理器可执行指令的存储器；所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现如本公开实施例提供的视频拼接方法。

本公开实施例还提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行如本公开实施例提供的视频拼接方法。

本公开实施例提供的上述技术方案，首先获取待拼接的第一视频片段以及第二视频片段，然后可以对第一视频片段和第二视频片段分别进行图像处理和音频处理，以使图像处理后的第一视频片段和图像处理后的第二视频片段具有相同的画面展示效果(图像质量和/或画面风格)；音频处理后的第一视频片段和音频处理后的第二视频片段具有相同的背景音；最后将经图像处理和音频处理后的第一视频片段以及经图像处理和音频处理后的第二视频片段进行拼接。通过上述方式，可以使待拼接的两个视频片段的画面展示效果和背景音均得以统一，使两个视频片段的拼接过渡更为自然，拼接后的视频更为连贯，有效改善了现有技术中拼接视频存在的明显割裂感现象，提升了拼接视频给用户的整体感观效果。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例提供的一种视频拼接方法的流程示意图；

图2为本公开实施例提供的一种HDR网络模型的结构示意图；

图3为本公开实施例提供的一种风格迁移模型的结构示意图；

图4为本公开实施例提供的一种视频拼接示意图；

图5为本公开实施例提供的一种视频拼接方法的流程示意图；

图6为本公开实施例提供的一种视频拼接装置的结构示意图；

图7为本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点，下面将对本公开的方案进行进一步描述。需要说明的是，在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本公开，但本公开还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本公开的一部分实施例，而不是全部的实施例。

发明人经研究发现，两个视频的拍摄条件(诸如拍摄器材的精密度、拍摄环境、拍摄人员的专业性等)或后期处理手法(诸如图像编辑、滤镜处理等)大多并不相同，诸如，影视剧的片段与个人拍摄视频的片段相比，无论是画面表现还是音频表现的差异性均较大，倘若直接拼接，则会存在明显的割裂感。同理，其它任何拍摄条件/后期处理手法不同的视频在拼接时也大多存在不同程度的割裂感问题，给用户的整体感观效果不佳。为改善此问题，本公开实施例提供了一种视频拼接方法、装置、设备及介质，以下进行详细说明。

图1为本公开实施例提供的一种视频拼接方法的流程示意图，该方法可以由视频拼接装置执行，其中该装置可以采用软件和/或硬件实现，一般可集成在电子设备中。如图1所示，该方法主要包括如下步骤S102～步骤S108：

步骤S102，获取待拼接的第一视频片段以及第二视频片段。

在实际应用中，第一视频片段和第二视频片段可以来源于不同的视频，诸如一个来源于影视作品，另一个来源于个人拍摄视频，本公开实施例对第一视频片段和第二视频片段的来源、拍摄条件等都不进行限制，任何需要进行拼接的两个视频片段均可。通过对不同的视频片段进行拼接，可以达到更好的戏剧化效果，诸如，通过将影视作品裁剪为多个影视片段，以及用户根据片段内容拍摄与之匹配的视频片段，最后将所有片段按照时间顺序(或事件发展顺序)拼接在一起，即可创造出具有反差和生命力的剧情。可以理解的是，任何两个待拼接的视频片段，均可作为上述第一视频片段和第二视频片段。

步骤S104，对第一视频片段和第二视频片段进行图像处理，以使图像处理后的第一视频片段和图像处理后的第二视频片段具有相同的画面展示效果；画面展示效果包括图像质量和/或画面风格。

考虑到画面展示效果的两个主要影响因素包括图像质量和画面风格，因此在一些实施方式中可认为画面展示效果包括图像质量和/或画面风格。图像质量(也可简称画质)可以直接采用诸如HDR(High Dynamic Range，高动态范围)或者LDR(Low Dynamic Range，低动态范围)表征，也可以采用诸如分辨率等一些直接影响图像质量的数据表征。画面风格(也可简称画风)是通过色彩色调、亮度、颜色对比度、清晰度等因素中的一种或多种综合表现出的整体效果，预先可设置不同效果对应的风格名称，诸如包括港台风、清新风、复古风、日常生活风等。在实际应用中，不同视频的拍摄条件以及图像处理方式(诸如滤镜处理等)大多不同，因此最终呈现的画面风格也有所差异。诸如，以滤镜为例，采用不同滤镜处理得到的视频对应的画面风格不同。在本公开实施例中可通过图像质量和画面风格表征画面展示效果。

在一些实施方式中，上述图像处理包括图像质量统一处理和/或画面风格统一处理，示例性地，可以首先确定目标画面展示效果；然后将第一视频片段的原始画面展示效果以及第二视频片段的原始画面展示效果均转换为目标画面展示效果，从而达到两个视频片段的画面展示效果统一的展示效果。

步骤S106，对第一视频片段和第二视频片段进行音频处理，以使音频处理后的第一视频片段和音频处理后的第二视频片段具有相同的背景音。

考虑到两个视频片段在拼接时之所以给人带来感官方面的割裂感，除了诸如画质、画风等画面展示效果不统一之外，两个视频片段的背景音之间的差异也是造成合成视频较为割裂、过渡不自然的主要原因。在一些实施方式中，背景音可以理解为指定类型声音(诸如人声等)之外的其它声音(诸如环境噪声)，示例性地，一个视频片段的背景音较为嘈杂，而另一个视频片段的背景音较为简单，两个视频片段直接拼接在一起通常会给人带来不适感。充分考虑到上述情况，本公开实施例对第一视频片段和第二视频片段进行音频处理，在一些实施方式中，该音频处理包括背景音统一处理。示例性地，可以首先获取第一视频片段的原始背景音以及第二视频片段的原始背景音；以及确定目标背景音；然后将第一视频片段的原始背景音以及第二视频片段的原始背景音均转换为目标背景音，从而达到第一视频片段和第二视频片段的背景音统一的效果。

步骤S108，将经图像处理和音频处理后的第一视频片段以及经图像处理和音频处理后的第二视频片段进行拼接。

在一些实施方式中，可以将第一视频片段和第二视频片段的画面展示效果均统一为目标画面展示效果，将第一视频片段和第二视频片段的背景音均统一为目标背景音，使得处理后的第一视频片段和第二视频片段的画面展示效果和背景音均一致。

通过上述方式，可以使待拼接的两个视频片段的画面展示效果和背景音均得以统一，使两个视频片段的拼接过渡更为自然，拼接后的视频更为连贯，有效改善了现有技术中拼接视频存在的明显割裂感现象，提升了拼接视频给用户的整体感观效果。

在实际应用中，在上述步骤S104和步骤S106之前，可以将第一视频片段和第二视频片段的图像画面以及音频进行拆分，以便于单独针对第一视频片段和第二视频片段的画面进行统一，以及单独针对第一视频片段和第二视频片段的音频进行统一，在统一化处理之后，可再将统一化处理的图像画面以及音频进行合成，得到最终的合并视频。

在一些实施方式中，本公开实施例给出来以下两种确定目标画面展示效果的实现方式：

(1)将预先设置的画面展示效果作为目标画面展示效果。也即，可以根据需求或喜好而预先设置目标画面展示效果，诸如预先设置目标图像质量和目标画面风格，最后将两个视频片段均统一为预先设置的目标画面展示效果。这种方式的优势在于实现较为简便，无论第一视频片段和第二视频片段都是何种画面展示效果，实际应用中只需预先设置目标画面展示效果即可使待拼接的两个视频片段都按照目标画面展示效果进行统一。

(2)根据第一视频片段的原始画面展示效果以及第二视频片段的原始画面展示效果，确定目标画面展示效果。这种方式的优势在于更为灵活，可以结合第一视频片段和第二视频片段的实际情况来确定相应的目标画面展示效果，也即，所确定的目标画面展示效果与第一视频片段的原始画面展示效果以及第二视频片段的原始画面展示效果相关，易被用户接受，用户体验度更高。

在一些实施例中，以画面展示效果包括图像质量和画面风格为例，原始画面展示效果包括原始图像质量和原始画面风格；目标画面展示效果包括目标图像质量和目标画面风格。在上述步骤中，可以根据第一视频片段的原始图像质量和原始画面风格、第二视频片段的原始图像质量和原始画面风格，确定目标图像质量和目标画面风格。目标图像质量可以选用两个视频片段的原始图像质量之一，也可以与两个视频片段的原始图像质量均不相同，同理，目标画面风格可以选用两个视频片段的原始画面风格之一，也可以与两个视频片段的原始画面风格均不相同，具体可根据实际情况进行确定，在此不进行限制。

在一些具体的实施示例中，根据第一视频片段的原始画面展示效果以及第二视频片段的原始画面展示效果确定目标画面展示效果的步骤可以参照如下步骤a至步骤c执行：

步骤a，从第一视频片段的原始图像质量以及第二视频片段的原始图像质量中选择其中之一作为目标图像质量。

在一些实施方式中，可以按照预设的质量选择策略，从第一视频片段的原始图像质量以及第二视频片段的原始图像质量中选择其中之一作为目标图像质量；其中，质量选择策略包括：基于用户指令进行质量选择、或者基于第一视频片段和第二视频片段之间的图像质量比较结果进行质量选择。为便于理解，以下展开说明：

当质量选择策略为基于用户指令进行质量选择时，可以向用户发起提示，由用户从第一视频片段和第二视频片段中选择所需的图像质量，并基于用户的选择结果确定目标图像质量。

当质量选择策略为基于第一视频片段和第二视频片段之间的图像质量比较结果进行质量选择时，可以预先设置从第一视频片段和第二视频片段中选取图像质量更佳的图像质量作为目标图像质量，以便给用户提供更好的观看效果；诸如，第一视频片段的图像质量为HDR，第二视频片段的图像质量为LDR，HDR优于LDR，则可以选取HDR作为目标图像质量。当然，也可以基于流量/处理速度等考虑因素选取图像质量较差的图像质量作为目标图像质量，具体可根据实际情况进行设置，在此不进行限制。

步骤b，从第一视频片段的原始画面风格以及第二视频片段的原始画面风格中选择其中之一作为目标画面风格。

在一些实施方式中，可以按照预设的风格选择策略，从第一视频片段的原始画面风格以及第二视频片段的原始画面风格中选择其中之一作为目标画面风格；其中，风格选择策略包括：基于用户指令进行风格选择、基于视频来源进行风格选择、或者基于片段排序位置进行风格选择。为便于理解，以下展开说明：

当质量选择策略为基于用户指令进行风格选择时，可以向用户发起提示，由用户从第一视频片段和第二视频片段中选择所需的画面风格，并基于用户的选择结果确定目标画面风格。

当质量选择策略为基于视频来源进行风格选择时，可以预先设置优选选取的视频来源，将来自该优先选取的视频来源的视频片段所对应的画面风格作为目标画面风格；诸如，视频来源包括影视剧和用户个人作品，假设第一视频片段的来源为影视剧，第二视频片段的来源为用户个人作品，且预先设置优先选取影视剧来源，则将第一视频片段的画面风格作为目标画面风格。

当质量选择策略为基于片段排序位置进行风格选择时，可以预先设置排序位置的选择基准，诸如优先选取排位在前的视频片段对应的画面风格作为目标画面风格，示例性地，假设第一视频片段位于第二视频片段的前面(也即，先播放第一视频片段，后播放第二视频片段)，则优先选取第一视频片段对应的画面风格作为目标画面风格。当然，也可以优先选取排位在后的视频片段对应的画面风格作为目标画面风格，具体可根据实际需求而灵活设置，在此不进行限制。

步骤c，基于目标图像质量和目标画面风格确定目标画面展示效果。在一些实施方式中，目标画面展示效果包括目标图像质量和目标画面风格。

通过上述步骤a～步骤c，可以较为合理地确定目标画面展示效果，该目标画面展示效果中的目标图像质量以及目标画面风格都与第一视频片段以及第二视频片段的原始图像质量以及原始画面风格相关，便于对第一视频片段以及第二视频片段的后续统一处理更为顺畅，且易被用户接受。

在确定目标画面展示效果之后，可以将第一视频片段的原始画面展示效果以及第二视频片段的原始画面展示效果均转换为目标画面展示效果。也即，处理后的第一视频片段和第二视频片段的展示效果均为目标画面展示效果。

在一些实施方式中，可参照如下步骤1～步骤3实现：

步骤1，基于第一视频片段的原始画面展示效果以及第二视频片段的原始画面展示效果，确定与目标画面展示效果不一致的原始画面展示效果，并将不一致的原始画面展示效果作为待转换画面展示效果。可以理解的是，目标画面展示效果可能是第一视频片段的原始画面展示效果以及第二视频片段的原始画面展示效果中的其中之一，因此只需选择与其不一致的原始画面展示效果作为待处理对象即可。

步骤2，采用预设的图像质量转换算法将待转换画面展示效果中的原始图像质量转换为目标画面展示效果中的目标图像质量；其中，图像质量转换算法包括LDR和HDR之间的转换算法。在该实施方式中，主要采用LDR和HDR作为图像质量的表征方式。该LDR和HDR之间的转换算法包含将LDR转换为HDR的转换算法，以及将HDR转换为LDR的转换算法。

在一些实施方式中，为了给用户呈现较好的展示效果，假设目标图像质量为HDR，如果原始图像质量中存在LDR，则需要采用上述LDR转换为HDR。为便于理解，本公开实施例提供了一种将LDR转换为HDR的转换算法，具体可采用HDR算法网络模型实现。

如图2所示的一种HDR网络模型的结构示意图，主要包括并行的局部分支网络、扩展分支网络和全局分支网络，以及分别与局部分支网络、扩展分支网络和全局分支网络连接的拼接融合网络。LDR图像分别输入至局部分支网络、扩展分支网络和全局分支网络，通过局部分支网络对LDR图像进行特征提取，得到第一局部特征；通过扩展分支网络对LDR图像进行特征提取，得到第二局部特征；其中，第二局部特征比第一局部特征更为具体，通过全局分支网络对LDR图像进行特征提取，得到全局特征。之后可将第一局部特征、第二局部特征以及全局特征均输入至拼接融合网络，通过将三种特征进行拼接融合，最终得到HDR图像。具体实现时，局部分支网络、扩展分支网络以及全局分支网络均可采用全卷积模块构成，示例性地，全局分支网络的输入为256*256的图片，通过多个卷积模块的运算后提取成1*1*64的特征，该特征蕴含了输入图片的全局特征，全局分支网络在提取全局特征时需要进行下采样，而局部分支网络和扩展分支网络在提取特征时不进行下采样，从而较好地保持图片的局部特征，最终生成的局部特征的尺寸与输入图片保持一致。拼接融合网络可包括拼接融合层和卷积层，拼接融合层可用于将三个网络分支输出的特征进行拼接融合，卷积层可用于将拼接融合后的特征通过卷积运算恢复为HDR图像。

另外，本公开实施例还提供了一种HDR网络模型的训练方法，具体可采用有监督学习的方式实现，诸如可以先获取一批HDR图像训练样本，示例性地，可以先收集了一批原始HDR图像，在训练的过程中随机抽取原始HDR图像并进行随机裁剪，从而实现样本量扩增的效果，得到多个HDR图像样本，之后可采用单帧曝光算子将最终得到的HDR图像样本转换成LDR图像，从而建立HDR和LDR图像样本对。采用待训练的HDR网络模型对LDR图像样本进行转换得到HDR图像，基于预设的损失函数计算HDR网络模型输出的HDR图像以及HDR图像样本(真实的HDR图像)之间的损失值，该损失值表征出了HDR网络模型输出的HDR图像以及HDR图像样本之间的差异程度，基于损失值，利用梯度下降对HDR网络模型的参数进行优化，直至损失值符合预设条件时结束训练，此时HDR网络模型可以较好地将LDR图像转换为符合预期的HDR图像。

应当注意的是，以上HDR网络模型仅是一种示例性说明，不应当被视为限制，实际应用中，任何可将LDR图像转换为HDR图像的算法或模型均可。

可以理解的是，在将诸如影视剧作品的片段与个人拍摄视频的片段进行拼接时，由于影视剧作品的画质通常为HDR，而个人拍摄视频的画质通常为LDR，因此可通过上述方式将个人拍摄视频的片段转换为HDR，从而抹平二者之间的画质差异。

步骤3，采用预设的风格迁移算法将目标画面展示效果中的目标画面风格迁移至待转换画面展示效果中，以将待转换画面展示效果的原始画面风格调整为与目标画面风格匹配，调整后的原始画面风格与目标画面风格匹配可理解为：相似度达到预设程度。

在一些实施方式中，风格迁移算法包括颜色迁移算法或者基于神经网络模型实现的风格特征迁移算法。为便于理解，以下分别给出示例性说明：

可以理解的是，颜色是影响画面风格的一个主要因素，因此可通过颜色迁移的方式实现风格迁移，颜色迁移算法是指将目标画面展示效果中的颜色迁移到待转换画面展示效果中，示例性地，为简要概述，假设将参考图片上的颜色迁移至目标图片，具体实施时，可以首先将参考图片和目标图片转换到LAB空间(也可称为Lab颜色空间)下，然后获取参考图片和目标图片在LAB空间下各自的像素点均值和标准差，对于目标图片上的每个像素值，可减去目标图片均值，之后再将差值乘以预先计算得到的比值(也即，参考图片与目标图片的标准差之间的比值)，最后再加上参考图片的均值，通过这种方式可以对目标图片的原始颜色进行调整，目标图片经调整后的颜色表现整体与参考图片的颜色表现相似。

上述颜色迁移方式的运算量较小，便于实现，能够使两个视频片段在色彩上大致对齐，可较好应用于诸如手机移动端等数据处理能力有限的设备，为了能够达到更好的风格迁移效果，可以采用基于神经网络模型实现的风格特征迁移算法实现，也即采用深度学习算法实现。示例性地，本公开实施例还提供了一种风格迁移模型的实现方式。

参见图3所示的一种风格迁移模型的结构示意图，主要包括VGG编码器、Transformation网络和解码器。进一步，在图3中还示意出了Transformation网络的内部结构。以下结合图3对风格迁移模型的原理进行阐述：

将第一图像Ic以及第二图像Is输入至VGG编码器中，旨在将第二图像Is的风格迁移至第一图像Ic上，示例性地，第一图像Ic可以为用户拍摄视频的视频帧图像，第二图像Is可以为影视剧中截选的图像。VGG编码器对第一图像Ic以及第二图像Is分别进行特征提取，得到特征Fc和特征Fs，之后再利用Transformation网络将特征Fc和特征Fs融合得到新的特征Fd，特征Fd既包含第一图像Ic的内容特征，也包含第二图像Is的风格特征，最后特征Fd通过解码器恢复为RGB图像(也即图3中的输出图像)。此外，图3中还示意出了Transformation网络内部的具体原理，其中，Fc经过卷积模块(包含多个卷积层)进行特征提取，得到Fc’，Fc’与自身进行矩阵乘，得到cov(Fc^′)，cov(Fc^′)经FC层(全连接层)，得到第一提取特征，同理，Fs经过卷积模块进行特征提取，得到Fs’，Fs’与自身进行矩阵乘，得到cov(Fs^′)，cov(Fs^′)经FC层(全连接层)，得到第二提取特征，第一提取特征与第二提取特征经过矩阵乘，可得到矩阵转置T。此外，图5中的c表示压缩(compress)操作，u表示解压(uncompress)操作。

风格迁移模型的输出图像被预期为应该在内容上与第一图像Ic保持一致(相似度达到指定程度)，在风格上与第二图像Is保持一致(相似度达到指定程度)，为达到该目的，用于训练风格迁移模型所需的损失函数包含两个组成部分(参见图3中的VGG损失单元)，包括内容损失和风格损失。具体实现时，可以将输出图像再输入至VGG编码器中分别提取内容特征和风格特征，通过比对输出图像的内容特征与第一图像Ic的内容特征之间的损失，以及比对输出图像的风格特征与第二图像Is的风格特征之间的损失，对风格迁移模型的网络参数进行训练，训练结束后所得的风格迁移模型，最终输出图像的内容特征可以与第一图像Ic的内容特征一致，风格特征可以与第二图像Is的风格特征一致。

应当注意的是，以上风格迁移模型仅是一种示例性说明，不应当被视为限制，实际应用中，任何可实现风格迁移的算法或模型均可。

通过上述步骤1～步骤3，可以将第一视频片段的原始画面展示效果以及第二视频片段的原始画面展示效果均转换为目标画面展示效果，达到画面展示效果统一的目的，从而使得两个视频片段在拼接之后的画面过渡更为自然，整体感更强。

在一些实施方式中，本公开实施例给出对第一视频片段和第二视频片段进行音频处理的具体实现方式，可以参照如下步骤A～步骤C实现：

步骤A，获取第一视频片段的原始背景音以及第二视频片段的原始背景音。

在一些实施方式中，可以提取第一视频片段中所包含的第一指定类型的声音，将除第一指定类型的声音之外的其它声音均作为第一视频片段的原始背景音；以及，提取第二视频片段中所包含的第二指定类型的声音，将除第二指定类型的声音之外的其它声音均作为第二视频片段的原始背景音。在实际应用中，第一指定类型的声音和第二指定类型的声音可以相同，也可以不同。诸如，第一指定类型的声音和第二指定类型的声音可以均为人声，或者均为乐器声，也可以一个为人声，另一个为乐器声。以上仅为示例性说明，不应当被视为限制，另外，第一指定类型的声音可以包含一种或多种类型的声音，第二指定类型的声音也可以包含一种或多种类型都声音，然后将除指定类型之外的其余声音类型的声音(诸如环境嘈杂声、噪声等)均作为原始背景音。

在实际应用中，以第一视频片段的音频为例，可以基于第一指定类型的声音将该音频进行声轨分离，分离出第一指定类型的声音，其余的声音则均视为第一视频片段的原始背景音。示例性地，以第一指定类型的声音是人声为例，则从第一视频片段的音频中分离出人声，其余的环境噪声等则均视为原始背景音。

步骤B，确定目标背景音。在一些实施方式中，本公开实施例进一步给出以下两种确定目标背景音的实现方式：

(1)将预先设置的背景音作为目标背景音。也即，可以根据需求或喜好而预先设置目标背景音，该目标背景音可以为背景音乐，也可以为统一的环境噪声，还可以设置为空白(静音)，本申请对目标背景音的具体形式不进行限定。最后将两个视频片段的背景音均统一为预先设置的目标背景音。这种方式的优势在于实现较为简便，无论第一视频片段和第二视频片段是何种背景音，实际应用中只需预先设置目标背景音，即可使待拼接的两个视频片段的音频效果都按照目标背景音进行统一。

以目标背景音是背景音乐为例，在实际应用中，可以自动添加默认的背景音乐，也可以添加用户选择的背景音乐，在此不进行限制，通过添加背景音乐，在使两个视频片段的背景音统一的基础上，还可以使拼接得到的视频更具有感染力和戏剧性。此外，以目标背景音是空白为例，则两个视频片段中仅保留所需声音类型(诸如仅保留人声)，通过去除各自片段中的环境干扰噪声，使得音频播放更为纯净。此外，以目标背景音是预设环境噪声为例，使音频播放效果更为自然逼真。具体可根据实际需求设置所需的目标背景音，以上仅为示例，不应当被视为限制。

(2)根据第一视频片段的原始背景音以及第二视频片段的原始背景音，确定目标背景音。这种方式的优势在于更为灵活，可以结合第一视频片段和第二视频片段的实际情况来确定相应的目标背景音，也即，所确定的目标背景音与第一视频片段的原始背景音以及第二视频片段的原始背景音相关，易被用户接受，用户体验度更高。

在一些具体的实施示例中，根据第一视频片段的原始背景音以及第二视频片段的原始背景音确定目标背景音可以采用如下两种方式:

方式一：从第一视频片段的原始背景音以及第二视频片段的原始背景音中选择其中之一作为目标背景音。具体的，可以按照预设的背景音选择策略，从第一视频片段的原始背景音以及第二视频片段的原始背景音中选择其中之一作为目标背景音，该背景音选择策略包括:基于用户质量进行背景音选择、基于视频来源进行背景音选择、基于片段排序位置进行背景音选择、或者基于第一视频片段和第二视频片段之间的背景音比较结果进行背景音选择，诸如，优先选择两个视频片段中背景音嘈杂度较低的背景音作为目标背景音。其余的背景音选择策略的实现方式可以参照前述风格选择策略，在此不再赘述。

方式二：将第一视频片段的原始背景音以及第二视频片段的原始背景音进行融合，得到目标背景音。在该方式中，可以直接将两个视频片段的背景音融合成目标背景音，使得目标背景音中包含有两个视频片段的所有背景音元素。任何声音融合算法均可，在此不进行限定。

应当理解的是，以上仅为示例性说明，在实际应用中，任何可确定目标背景音的方式均可。

步骤C，将第一视频片段的原始背景音以及第二视频片段的原始背景音均转换为目标背景音。

示例性地，本公开实施例提供了一种较为简单的实现方式：删除第一视频片段的原始背景音以及第二视频片段的原始背景音；为第一视频片段以及第二视频片段统一添加目标背景音。通过上述方式，即可实现背景音的快速转换，达到两个视频片段的背景音统一、过渡自然的效果。

综上，通过对第一视频片段和第二视频片段进行画面及音频的效果统一化处理及拼接，可以使拼接后的视频均统一按照目标画面展示效果以及目标背景音展示给用户，拼接后的视频在画面效果以及音频效果两方面均连贯自然，有效改善了现有技术中拼接视频存在的明显割裂感现象，提升了拼接视频给用户的整体感观效果。

本公开实施例提供的上述视频拼接方法，可以灵活应用于任何需要拼接的两个视频片段，诸如，可以将两个独立的视频直接按照上述视频拼接方法进行拼接，也可以将两个独立的视频分别切分为多个视频片段，然后按照上述视频拼接方法交替拼接，此外，也可以采用多个来源不同的视频片段按照一定顺序先后拼接，无论是何种方式，均可采用本公开实施例提供的上述视频拼接方法对待拼接的两个视频片段进行拼接，最终得到拼接后的合并视频(也可称为融合视频)。

为便于理解，本公开实施例给出了一种上述视频拼接方法的应用场景，参见图4所示的一种视频拼接示意图，示意出视频A和视频B，其中，视频A划分为视频片段A1、A2和A3，视频B划分为视频片段B1、B2和B3，视频A和视频B交替拼接，拼接后的视频即为A1B1A2B2A3B3；可以理解的是，任何两个相邻视频片段拼接，都可采用上述视频拼接方法实现，最终得到的合并视频具有较好的整体连贯性和一致性，可以使视频拼接过渡更为自然，有效缓解现有技术中拼接导致的割裂感。

本公开实施例对待拼接的两个视频片段的来源不进行限制，在一些实施方式中，视频A为影视剧的部分片段，视频B为个人创作作品，目标画面风格为视频A的画面风格，目标音轨类别为人声音轨，之后将视频A切分的多个视频片段以及视频B切分的多个视频片段采用A1B1A2B2A3B3的方式拼接，可达到影视剧人物与现实人物之间对话的效果，从而实现较好的戏剧效果。视频片段的切分方式(切分节点、片段长度等)可根据实际需求进行确定，本公开实施例不进行限制。

进一步，本公开实施例还提供了上述视频拼接方法的一种实施方式，可参见图5所示的一种视频拼接方法的流程示意图，示意出了视频{Ai}进行音视频拆分，得到视频V-Ai和音频A-Ai，视频{Bi}进行音视频拆分，得到视频V-Bi和音频A-Bi，将视频V-Ai以及视频V-Bi组成待拼接的视频画面，将音频A-Ai和音频A-Bi组成待拼接的音频；通过对视频V-Ai以及视频V-Bi进行视频归一化(也即，统一画面展示效果)，可以得到处理后的视频V’-Ai以及视频V’-Bi，处理后的视频V’-Ai以及视频V’-Bi进行视频转场(可理解为一种视频拼接方式)，即可按照指定转场形式连贯拼接至一起。通过对音频A-Ai以及音频A-Bi进行音频归一化(也即，统一背景音)，可以得到处理后的音频A’-Ai以及音频A’-Bi，处理后的音频A’-Ai以及音频A’-Bi进行音频转场(可理解为一种音频拼接方式)，即可按照指定转场形式连贯拼接至一起。之后，可将转场拼接后所得到的视频与音频进行音视频合成，最终输出视频。另外，在图5中简单示意了视频归一化和音频归一化各自的具体实现方式，在视频归一化处理中，可以针对影响画面展示效果的几种因素中的一种或多种进行归一化处理，诸如针对分辨率、HDR(也即，对应前述图像质量)、风格(对应前述画面风格)、色彩等影响因素的一种或多种进行归一化处理。可以理解的是，通常而言，风格包含色彩，但是图5中单独将色彩列出，表示在实际应用中也可以仅基于色彩进行归一化。在音频归一化处理中，可以针对影响音频播放效果的几种因素中的一种或多种进行归一化处理，诸如针对增益、人声、噪声等影响因素的一种或多种进行归一化处理，具体而言，诸如可以为增益调节、人声提取、降噪等处理。其中，人声即对应前述指定类型的声音，而噪声可视为除人声之外的背景音，因此需要降噪/去噪处理。可以理解的是，不同视频的拍摄场景不同，环境噪声会有较大差异，如果直接进行拼接则会产生较大的违和感和割裂感，因此可将待拼接视频的音频进行音轨分离，诸如分离出人声音轨和环境噪声音轨，在一些具体实施方式中，仅保留两段视频的人声，通过去除环境噪声，可使拼接后所得的视频过渡更为真实自然。

此外，图5仅是在音视频的归一化处理中简单示例出几种影响因素，并未全部列出，不应当被视为限制。

进一步，为了烘托氛围，图5中还进一步添加了背景音乐，通过将各个视频中的环境噪声去除，并统一添加背景音乐，不仅达到两个视频片段的背景音统一的效果，还可以进一步营造更良好的艺术效果。

综上所述，本公开实施例提供的视频拼接方法，可以使两个视频片段的拼接过渡更为自然，拼接后的视频更为连贯，有效提升了拼接视频给用户的整体感观效果。

对应于前述视频拼接方法，本公开实施例提供了一种视频拼接装置，图6为本公开实施例提供的一种视频拼接装置的结构示意图，该装置可由软件和/或硬件实现，一般可集成在电子设备中。如图6所示，该装置包括：

片段获取模块602，用于获取待拼接的第一视频片段以及第二视频片段；

图像处理模块604，用于对所述第一视频片段和所述第二视频片段进行图像处理，以使图像处理后的所述第一视频片段和图像处理后的所述第二视频片段具有相同的画面展示效果；所述画面展示效果包括图像质量和/或画面风格；

音频处理模块606，用于对所述第一视频片段和所述第二视频片段进行音频处理，以使音频处理后的所述第一视频片段和音频处理后的所述第二视频片段具有相同的背景音；

片段拼接模块608，用于将经图像处理和音频处理后的所述第一视频片段以及经图像处理和音频处理后的所述第二视频片段进行拼接。

通过上述装置，可以使待拼接的两个视频片段的画面展示效果和背景音均得以统一，使两个视频片段的拼接过渡更为自然，拼接后的视频更为连贯，有效改善了现有技术中拼接视频存在的明显割裂感现象，提升了拼接视频给用户的整体感观效果。

在一些实施方式中，图像处理模块604具体用于：确定目标画面展示效果；将所述第一视频片段的原始画面展示效果以及所述第二视频片段的原始画面展示效果均转换为所述目标画面展示效果。

在一些实施方式中，图像处理模块604具体用于：将预先设置的画面展示效果作为目标画面展示效果；或者，根据所述第一视频片段的原始画面展示效果以及所述第二视频片段的原始画面展示效果，确定目标画面展示效果。

在一些实施方式中，画面展示效果包括图像质量和画面风格；

图像处理模块604具体用于：从第一视频片段的原始图像质量以及第二视频片段的原始图像质量中选择其中之一作为目标图像质量；从第一视频片段的原始画面风格以及第二视频片段的原始画面风格中选择其中之一作为目标画面风格；基于目标图像质量和目标画面风格确定目标画面展示效果。

在一些实施方式中，画面效果确定模块604具体用于：按照预设的质量选择策略，从第一视频片段的原始图像质量以及第二视频片段的原始图像质量中选择其中之一作为目标图像质量；其中，质量选择策略包括：基于用户指令进行质量选择、或者基于第一视频片段和第二视频片段之间的图像质量比较结果进行质量选择。

在一些实施方式中，图像处理模块604具体用于：按照预设的风格选择策略，从第一视频片段的原始画面风格以及第二视频片段的原始画面风格中选择其中之一作为目标画面风格；其中，风格选择策略包括：基于用户指令进行风格选择、基于视频来源进行风格选择、或者基于片段排序位置进行风格选择。

在一些实施方式中，图像处理模块604具体用于：基于第一视频片段的原始画面展示效果以及第二视频片段的原始画面展示效果，确定与目标画面展示效果不一致的原始画面展示效果，并将不一致的原始画面展示效果作为待转换画面展示效果；采用预设的图像质量转换算法将待转换画面展示效果中的原始图像质量转换为目标画面展示效果中的目标图像质量；其中，图像质量转换算法包括LDR和HDR之间的转换算法；采用预设的风格迁移算法将目标画面展示效果中的目标画面风格迁移至待转换画面展示效果中，以将待转换画面展示效果的原始画面风格调整为与目标画面风格匹配。

在一些实施方式中，音频处理模块606具体用于：获取所述第一视频片段的原始背景音以及所述第二视频片段的原始背景音；确定目标背景音；将所述第一视频片段的原始背景音以及所述第二视频片段的原始背景音均转换为所述目标背景音。

在一些实施方式中，音频处理模块606具体用于：提取所述第一视频片段中所包含的第一指定类型的声音，将除所述第一指定类型的声音之外的其它声音均作为所述第一视频片段的原始背景音；提取所述第二视频片段中所包含的第二指定类型的声音，将除所述第二指定类型的声音之外的其它声音均作为所述第二视频片段的原始背景音。

在一些实施方式中，音频处理模块606具体用于：将预先设置的背景音作为目标背景音；或者，根据所述第一视频片段的原始背景音以及所述第二视频片段的原始背景音，确定目标背景音。

在一些实施方式中，音频处理模块606具体用于：从所述第一视频片段的原始背景音以及所述第二视频片段的原始背景音中选择其中之一作为目标背景音；或者，将所述第一视频片段的原始背景音以及所述第二视频片段的原始背景音进行融合，得到目标背景音。

在一些实施方式中，音频处理模块606具体用于：删除所述第一视频片段的原始背景音以及所述第二视频片段的原始背景音；为所述第一视频片段以及所述第二视频片段统一添加所述目标背景音。

本公开实施例所提供的视频拼接装置可执行本公开任意实施例所提供的视频拼接方法，具备执行方法相应的功能模块和有益效果。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置实施例的具体工作过程，可以参考方法实施例中的对应过程，在此不再赘述。

本公开实施例提供了一种电子设备，电子设备包括：处理器；用于存储处理器可执行指令的存储器；处理器，用于从存储器中读取可执行指令，并执行指令以实现上述任一项视频拼接方法。图7为本公开实施例提供的一种电子设备的结构示意图。如图7所示，电子设备700包括一个或多个处理器701和存储器702。

处理器701可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备700中的其他组件以执行期望的功能。

存储器702可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器701可以运行所述程序指令，以实现上文所述的本公开的实施例的视频拼接方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备700还可以包括：输入装置703和输出装置704，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

此外，该输入装置703还可以包括例如键盘、鼠标等等。

该输出装置704可以向外部输出各种信息，包括确定出的距离信息、方向信息等。该输出装置704可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图7中仅示出了该电子设备700中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备700还可以包括任何其他适当的组件。

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本公开实施例所提供的视频拼接方法。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本公开实施例所提供的视频拼接方法。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本公开实施例还提供了一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现本公开实施例中的视频拼接方法。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种视频拼接方法，其特征在于，包括：

获取待拼接的第一视频片段以及第二视频片段；

对所述第一视频片段和所述第二视频片段进行图像处理，以使图像处理后的所述第一视频片段和图像处理后的所述第二视频片段具有相同的画面展示效果；所述画面展示效果包括图像质量和/或画面风格；

对所述第一视频片段和所述第二视频片段进行音频处理，以使音频处理后的所述第一视频片段和音频处理后的所述第二视频片段具有相同的背景音；

将经图像处理和音频处理后的所述第一视频片段以及经图像处理和音频处理后的所述第二视频片段进行拼接。

2.根据权利要求1所述的方法，其特征在于，所述对所述第一视频片段和所述第二视频片段进行图像处理的步骤，包括：

确定目标画面展示效果；

将所述第一视频片段的原始画面展示效果以及所述第二视频片段的原始画面展示效果均转换为所述目标画面展示效果。

3.根据权利要求2所述的方法，其特征在于，所述确定目标画面展示效果的步骤，包括:

将预先设置的画面展示效果作为目标画面展示效果；

或者，

根据所述第一视频片段的原始画面展示效果以及所述第二视频片段的原始画面展示效果，确定目标画面展示效果。

4.根据权利要求3所述的方法，其特征在于，所述画面展示效果包括图像质量和画面风格；

所述根据所述第一视频片段的原始画面展示效果以及所述第二视频片段的原始画面展示效果，确定目标画面展示效果的步骤，包括：

从所述第一视频片段的原始图像质量以及所述第二视频片段的原始图像质量中选择其中之一作为目标图像质量；

从所述第一视频片段的原始画面风格以及所述第二视频片段的原始画面风格中选择其中之一作为目标画面风格；

基于所述目标图像质量和所述目标画面风格确定目标画面展示效果。

5.根据权利要求4所述的方法，其特征在于，所述从所述第一视频片段的原始图像质量以及所述第二视频片段的原始图像质量中选择其中之一作为目标图像质量的步骤，包括：

按照预设的质量选择策略，从所述第一视频片段的原始图像质量以及所述第二视频片段的原始图像质量中选择其中之一作为目标图像质量；其中，所述质量选择策略包括：基于用户指令进行质量选择、或者基于所述第一视频片段和所述第二视频片段之间的图像质量比较结果进行质量选择。

6.根据权利要求4所述的方法，其特征在于，所述从所述第一视频片段的原始画面风格以及所述第二视频片段的原始画面风格中选择其中之一作为目标画面风格的步骤，包括：

按照预设的风格选择策略，从所述第一视频片段的原始画面风格以及所述第二视频片段的原始画面风格中选择其中之一作为目标画面风格；其中，所述风格选择策略包括：基于用户指令进行风格选择、基于视频来源进行风格选择、或者基于片段排序位置进行风格选择。

7.根据权利要求2所述的方法，其特征在于，所述将所述第一视频片段的原始画面展示效果以及所述第二视频片段的原始画面展示效果均转换为所述目标画面展示效果的步骤，包括：

基于所述第一视频片段的原始画面展示效果以及所述第二视频片段的原始画面展示效果，确定与所述目标画面展示效果不一致的原始画面展示效果，并将所述不一致的原始画面展示效果作为待转换画面展示效果；

采用预设的图像质量转换算法将所述待转换画面展示效果中的原始图像质量转换为所述目标画面展示效果中的目标图像质量；其中，所述图像质量转换算法包括LDR和HDR之间的转换算法；

采用预设的风格迁移算法将所述目标画面展示效果中的目标画面风格迁移至所述待转换画面展示效果中，以将所述待转换画面展示效果的原始画面风格调整为与所述目标画面风格匹配。

8.根据权利要求1至7任一项所述的方法，其特征在于，所述对所述第一视频片段和所述第二视频片段进行音频处理的步骤，包括：

获取所述第一视频片段的原始背景音以及所述第二视频片段的原始背景音；

确定目标背景音；

将所述第一视频片段的原始背景音以及所述第二视频片段的原始背景音均转换为所述目标背景音。

9.根据权利要求8所述的方法，其特征在于，所述获取所述第一视频片段的原始背景音以及所述第二视频片段的原始背景音的步骤，包括：

提取所述第一视频片段中所包含的第一指定类型的声音，将除所述第一指定类型的声音之外的其它声音均作为所述第一视频片段的原始背景音；

提取所述第二视频片段中所包含的第二指定类型的声音，将除所述第二指定类型的声音之外的其它声音均作为所述第二视频片段的原始背景音。

10.根据权利要求8所述的方法，其特征在于，所述确定目标背景音的步骤，包括：

将预先设置的背景音作为目标背景音；

或者，

根据所述第一视频片段的原始背景音以及所述第二视频片段的原始背景音，确定目标背景音。

11.根据权利要求10所述的方法，其特征在于，所述根据所述第一视频片段的原始背景音以及所述第二视频片段的原始背景音，确定目标背景音的步骤，包括：

从所述第一视频片段的原始背景音以及所述第二视频片段的原始背景音中选择其中之一作为目标背景音；

或者，

将所述第一视频片段的原始背景音以及所述第二视频片段的原始背景音进行融合，得到目标背景音。

12.根据权利要求8所述的方法，其特征在于，所述将所述第一视频片段的原始背景音以及所述第二视频片段的原始背景音均转换为所述目标背景音的步骤，包括：

删除所述第一视频片段的原始背景音以及所述第二视频片段的原始背景音；

为所述第一视频片段以及所述第二视频片段统一添加所述目标背景音。

13.一种视频拼接装置，其特征在于，包括：

片段获取模块，用于获取待拼接的第一视频片段以及第二视频片段；

图像处理模块，用于对所述第一视频片段和所述第二视频片段进行图像处理，以使图像处理后的所述第一视频片段和图像处理后的所述第二视频片段具有相同的画面展示效果；所述画面展示效果包括图像质量和/或画面风格；

音频处理模块，用于对所述第一视频片段和所述第二视频片段进行音频处理，以使音频处理后的所述第一视频片段和音频处理后的所述第二视频片段具有相同的背景音；

片段拼接模块，用于将经图像处理和音频处理后的所述第一视频片段以及经图像处理和音频处理后的所述第二视频片段进行拼接。

14.一种电子设备，其特征在于，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-12中任一所述的视频拼接方法。

15.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-12中任一所述的视频拼接方法。