CN117689782A

CN117689782A - 一种生成海报图像的方法、装置、设备及存储介质

Info

Publication number: CN117689782A
Application number: CN202410146345.1A
Authority: CN
Inventors: 沈招益; 刘艺
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2024-02-02
Filing date: 2024-02-02
Publication date: 2024-03-12
Anticipated expiration: 2044-02-02
Also published as: CN117689782B

Abstract

本申请提供一种生成海报图像的方法、装置、设备及存储介质，可以应用于车载场景等，用于解决为视频生成海报图像的准确性较低的问题。该方法至少包括：基于目标视频包含的多个视频片段，获取视频帧集；视频帧集中的每个前景视频帧包含至少一个视频人物，每个背景视频帧不包含任一视频人物；从多个前景视频帧中，汇集各视频人物各自对应的候选人像区域集，以及从至少一个背景视频帧中，提取背景区域；基于海报模板包含的各模板人物各自的人物位姿，从获得的各候选人像区域集中，选取多个目标人像区域与背景区域进行图像合成，生成目标视频的海报图像。将目标视频中的各关键视觉信息，在海报图像中和谐的呈现，提高了生成海报图像的准确性。

Description

一种生成海报图像的方法、装置、设备及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种生成海报图像的方法、装置、设备及存储介质。

背景技术

随着科技的不断发展，越来越多的设备可以智能化地为视频生成海报图像，通过海报图像来呈现视频中关键的视觉信息。

相关技术中，为视频生成海报图像的方法有多种，例如，从视频中抽取多个关键帧之后，对多个关键帧进行聚类处理，选取获得的多个聚类簇中，包含的关键帧最多的聚类簇的聚类中心，作为海报图像；

又例如，基于视频的标题，确定出视频中的关键人物，从视频中抽取多个关键帧之后，确定多个关键帧中包含该关键人物的关键帧，作为海报图像；

又例如，从视频中抽取多个关键帧之后，选取画面内容丰富度最高的关键帧，作为海报图像。

然而，由于视频中关键的视觉信息通常较多，采用单一的视频帧只能够呈现出单一的视觉信息，因此，采用视频中的某个视频帧作为视频的海报图像，无法准确地传达视频中丰富的视觉信息，从而出现生成的海报图像的准确性较低的情况；

进一步的，由于视频类型多样，并非所有视频均明确的与某个关键人物相关，因此，采用视频中包含关键人物的视频帧作为视频的海报图像，无法准确地适配各种视频类型，从而出现生成的海报图像的准确性较低的情况；

进一步的，由于视频帧的内容可能包括背景元素，还可能包括人物元素等，因此，内容丰富度最高的视频帧可能仅包含背景元素，那么通过内容丰富度选取出的视频帧作为视频的海报图像，无法准确地传达视频中关键的视觉信息，从而出现生成的海报图像的准确性较低的情况。

可见，相关技术中为视频生成海报图像的准确性较低。

发明内容

本申请实施例提供了一种生成海报图像的方法、装置、设备及存储介质，用于解决为视频生成海报图像的准确性较低的问题。

第一方面，提供一种生成海报图像的方法，包括：

基于目标视频包含的多个视频片段，获取视频帧集；其中，在所述目标视频中，每两个相邻的所述视频片段之间采用剪辑策略连接；所述视频帧集包括：多个前景视频帧和至少一个背景视频帧，每个前景视频帧包含至少一个视频人物，每个背景视频帧不包含任一所述视频人物；

从所述多个前景视频帧中，汇集各视频人物各自对应的候选人像区域集，以及从所述至少一个背景视频帧中，提取背景区域；其中，所述候选人像区域为：在关联的前景视频帧中，相应的视频人物所在的图像区域；所述背景区域为：在关联的背景视频帧中，纹理复杂度满足背景筛选条件的图像区域；

基于预存的海报模板包含的各模板人物各自的人物位姿，从获得的各候选人像区域集中，选取多个目标人像区域与所述背景区域进行图像合成，生成所述目标视频的海报图像。

第二方面，提供一种生成海报图像的装置，包括：

获取模块：用于基于目标视频包含的多个视频片段，获取视频帧集；其中，在所述目标视频中，每两个相邻的所述视频片段之间采用剪辑策略连接；所述视频帧集包括：多个前景视频帧和至少一个背景视频帧，每个前景视频帧包含至少一个视频人物，每个背景视频帧不包含任一所述视频人物；

处理模块：用于从所述多个前景视频帧中，汇集各视频人物各自对应的候选人像区域集，以及从所述至少一个背景视频帧中，提取背景区域；其中，所述候选人像区域为：在关联的前景视频帧中，相应的视频人物所在的图像区域；所述背景区域为：在关联的背景视频帧中，纹理复杂度满足背景筛选条件的图像区域；

所述处理模块还用于：基于预存的海报模板包含的各模板人物各自的人物位姿，从获得的各候选人像区域集中，选取多个目标人像区域与所述背景区域进行图像合成，生成所述目标视频的海报图像。

可选的，所述获取模块具体用于：

获取目标视频包含的多个视频片段；

基于预设的抽帧策略，分别从所述多个视频片段中，抽取多个初始视频帧；

基于预设的帧质量评估策略，分别对获得的各初始视频帧进行质量检测，获得所述各初始视频帧各自的质量评估值；

基于所述各初始视频帧中，质量评估值大于评估阈值的候选视频帧，生成视频帧集。

可选的，所述获取模块具体用于：

基于预设的人物检测策略，对所述各初始视频帧中，质量评估值大于评估阈值的候选视频帧进行人物检测，获得各候选视频帧各自的人物检测结果；其中，所述人物检测结果表征：相应的候选视频帧中，是否包含至少一个视频人物；

基于获得的各人物检测结果，将所述各候选视频帧中，包含至少一个视频人物的候选视频帧，作为前景视频帧，以及将所述各候选视频帧中，不包含任一所述视频人物的候选视频帧，作为背景视频帧，获得视频帧集。

可选的，所述处理模块具体用于：

基于预设的人物分割策略，分别对所述多个前景视频帧各自包含的至少一个视频人物进行人物分割，获得各视频人物各自的人像轮廓；

基于获得的各人像轮廓各自在关联的前景视频帧中的外接矩形区域，获得各候选人像区域；

基于预设的人物聚类策略，对获得的各候选人像区域进行聚类处理，获得所述各视频人物各自对应的候选人像区域集。

可选的，所述处理模块具体用于：

分别将获得的各人像轮廓各自在关联的前景视频帧中的外接矩形区域，作为初始人像区域；

基于预设的多维特征提取策略，分别对获得的各初始人像区域进行多维特征提取，获得所述各初始人像区域各自对应的多维人像特征；其中，所述多维人像特征表征：在相应的初始人像区域中呈现出的视频人物的多种属性；

从所述各初始人像区域中，筛选多维人像特征满足特征筛选条件的候选人像区域，获得各候选人像区域。

可选的，所述多维人像特征包括以下特征中的多种组合：相应视频人物的人物名称、人物表情、人脸朝向、人脸遮挡度、人像完整度，以及人脸区域在相应的初始人像区域中的人脸占比。

可选的，所述处理模块具体用于：

基于指定尺寸的预设矩形框和预设滑动长度，分别沿水平方向和垂直方向，对所述至少一个背景视频帧进行滑窗裁剪，获得所述至少一个背景视频帧各自对应的多个视频帧子图；

基于预设的复杂度衡量策略，分别确定获得的各视频帧子图各自的纹理复杂度；

从所述各视频帧子图中，选取纹理复杂度满足背景筛选条件的视频帧子图，作为背景区域。

可选的，所述处理模块具体用于：

基于获得的各候选人像区域集各自包含的候选人像区域的区域数量，确定所述各候选人像区域集中，所述海报模板包含的各模板人物各自关联的目标人像区域集；

分别确定获得的各目标人像区域集中，存在对应的视频人物的人物姿态，与关联的模板人物的人物姿态匹配的目标人像区域时，获得所述各模板人物各自关联的目标人像区域；

基于所述各模板人物各自在所述海报中的人物位置，对获得的各目标人像区域与所述背景区域进行图像合成，生成所述目标视频的海报图像。

可选的，所述海报模板包含的各模板人物各自关联设置有人物等级；所述人物等级表征：相应的模板人物在所述海报中的重要程度，所述重要程度与所述人物等级呈正相关；

则所述处理模块具体用于：

统计获得的各候选人像区域集各自包含的候选人像区域的区域数量；

基于预存的海报模板包含的各模板人物的人物数量，按照区域数量从大到小的顺序，从所述各候选人像区域集中选取多个目标人像区域集；

基于所述多个目标人像区域集各自对应的区域数量，以及所述各模板人物的各自的人物等级，分别为所述各模板人物关联相应的目标人像区域集；其中，区域数量与人物等级呈正相关。

可选的，所述处理模块具体用于：

按照所述各模板人物各自的人物尺寸，分别对所述多个目标人像区域进行缩放处理，获得各调整人像区域；

将所述各模板人物各自的人物位置，分别作为所述各调整人像区域各自的初始合成位置；

基于预存的位置调整策略，对获得的各初始合成位置进行至少一轮迭代调整，获得各目标合成位置；其中，所述位置调整策略用于：调整与其他调整人像区域存在人脸遮挡的调整人像区域的初始合成位置；

基于所述各目标合成位置，对所述各调整人像区域与所述背景区域进行图像合成，生成所述目标视频的海报图像。

可选的，每轮迭代调整所述处理模块具体用于：

获取所述各调整人像区域各自的当前合成位置；其中，在第一轮迭代调整时，所述当前合成位置为相应调整人像区域的初始合成位置；在所述第一轮迭代调整以外的其他轮迭代调整时，所述当前合成位置为上一轮迭代调整后获得的相应的调整人像区域的中间合成位置；

基于获得的各当前合成位置，依次排列所述各调整人像区域，直到所述各调整人像区域均已排列，获得所述各调整人像区域各自的目标合成位置；其中，每排列一个所述调整人像区域时，执行以下操作：

对当前排列的调整人像区域的当前合成位置进行位置调整，获得相应的中间合成位置。

可选的，所述处理模块具体用于：

将当前排列的调整人像区域作为当前人像区域，并分别将本轮迭代调整过程中已排列的各调整人像区域作为相应的已排列人像区域，确定所述当前人像区域中的人像所在位置，与各已排列人像区域中的人像所在位置存在重叠区域时，基于预存的偏移策略，确定所述当前人像区域的偏移向量；

按照所述偏移向量，调整所述当前人像区域的当前合成位置，获得所述当前人像区域的中间合成位置。

可选的，所述处理模块具体用于：

基于所述各已排列人像区域各自的中间合成位置和所述当前人像区域的当前合成位置，分别确定所述各已排列人像区域和所述当前人像区域各自的质心位置；

分别以所述各已排列人像区域各自的质心位置为向量起点，以所述当前人像区域的质心位置为向量终点，获得所述各已排列人像区域各自相对于所述当前人像区域的位置向量；

将获得的各位置向量的加权和，作为所述当前人像区域的偏移向量。

第三方面，提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现如第一方面所述的方法。

第四方面，提供一种计算机设备，包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序指令执行如第一方面所述的方法。

第五方面，提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如第一方面所述的方法。

本申请实施例中，基于剪辑策略，将目标视频划分为多个视频片段，那么，基于该多个视频片段，提取出的视频帧集，不会错过任何一个拍摄镜头呈现的内容，从而，后续基于覆盖内容非常全面的多个视频片段，抽取出的前景视频帧中，包含的视频人物也更加全面，那么在生成海报图像时，可以基于较为全面的内容进行内容选取，以合成海报图像，避免遗漏与目标视频的关键视觉信息相关的内容，提高了获取的视频帧集的准确性，从而，提高了基于视频帧集生成目标视频的海报图像的准确性。

进一步的，获得的视频帧集中，包含至少一个背景视频帧，通过从目标视频中抽取的背景视频帧中，选取纹理复杂度满足背景筛选条件的背景区域，作为合成目标视频的海报图像时的合成背景，可以避免使用指定合成背景造成的为不同视频生成的海报图像千篇一律的情况，生成的海报图像的内容更加符合目标视频的呈现内容，同时，也可以避免生成的海报图像的背景过于复杂或过于简单，而影响前景内容的呈现的情况，可以有针对性的为目标视频生成主次明确的海报图像，达到有效地海报呈现效果，提高了生成目标视频的海报图像的准确性。

进一步的，获得的视频帧集中，还包括多个前景视频帧，通过多个前景视频帧选取出的多个目标人像区域进行图像合成，可以将目标视频包含的多个关键视觉信息，均呈现在生成的海报图像中，通过生成的海报图像，可以更加完整的呈现出目标视频包含的内容，更加适配包含多个视频人物的视频，提高了生成目标视频的海报图像的准确性。

进一步的，通过各模板人物各自的人物位姿选取出多个目标人像区域，可以使得合成出的海报图像中的各视频人物的位姿更加和谐，各视频人物之间产生关联性，不孤立存在，避免基于随意选取出的人像区域进行图像合成后，获得的海报图像中的各视频人物的位姿过于凌乱，割裂感强，而降低海报图像的呈现效果的情况，提高了生成目标视频的海报图像的准确性。

附图说明

图1A为相关技术中生成海报图像的方法的一种应用领域示意图一；

图1B为相关技术中生成海报图像的方法的一种应用领域示意图二；

图1C为本申请实施例提供的生成海报图像的方法的一种应用场景；

图2为本申请实施例提供的生成海报图像的方法的一种流程示意图一；

图3A为本申请实施例提供的生成海报图像的方法的一种原理示意图一；

图3B为本申请实施例提供的生成海报图像的方法的一种原理示意图二；

图4A为本申请实施例提供的生成海报图像的方法的一种原理示意图三；

图4B为本申请实施例提供的生成海报图像的方法的一种原理示意图四；

图5A为本申请实施例提供的生成海报图像的方法的一种原理示意图五；

图5B为本申请实施例提供的生成海报图像的方法的一种原理示意图六；

图5C为本申请实施例提供的生成海报图像的方法的一种原理示意图七；

图5D为本申请实施例提供的生成海报图像的方法的一种原理示意图八；

图5E为本申请实施例提供的生成海报图像的方法的一种原理示意图九；

图5F为本申请实施例提供的生成海报图像的方法的一种原理示意图十；

图5G为本申请实施例提供的生成海报图像的方法的一种原理示意图十一；

图5H为本申请实施例提供的生成海报图像的方法的一种原理示意图十二；

图5I为本申请实施例提供的生成海报图像的方法的一种原理示意图十三；

图6A为本申请实施例提供的生成海报图像的方法的一种原理示意图十四；

图6B为本申请实施例提供的生成海报图像的方法的一种原理示意图十五；

图7A为本申请实施例提供的生成海报图像的方法的一种原理示意图十六；

图7B为本申请实施例提供的生成海报图像的方法的一种原理示意图十七；

图7C为本申请实施例提供的生成海报图像的方法的一种原理示意图十八；

图7D为本申请实施例提供的生成海报图像的方法的一种原理示意图十九；

图7E为本申请实施例提供的生成海报图像的方法的一种原理示意图二十；

图7F为本申请实施例提供的生成海报图像的方法的一种原理示意图二十一；

图8为本申请实施例提供的生成海报图像的装置的一种结构示意图一；

图9为本申请实施例提供的生成海报图像的装置的一种结构示意图二。

具体实施方式

为了使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

下面对本申请实施例中的部分用语进行解释说明，以便于本领域技术人员理解。

（1）视频分割器（pyscenedetect）：

pyscenedetect是一个命令行工具和编程语言（python）库，用于分析视频，查找场景更改或剪辑。pyscenedetect集成了外部工具，可在使用视频分割（split-video）命令时，自动将视频分割为单个片段；还可以为视频生成逐帧分析，称为统计文件，以帮助确定使用阈值检测方法、内容检测方法或其他分析方法。

pyscenedetect主要使用的两种检测方法包括：阈值检测（detect-threshold）方法，将每个帧与设置的黑电平进行比较，检测从黑色到黑色的淡入或淡出；以及，内容检测（detect-content）方法，比较每个帧，依次查找内容的变化，用于检测视频场景之间的快速切换。

（2）阿尔法通道（α Channel或Alpha Channel）：

阿尔法通道是指一张图片的透明度和半透明度。例如，一个使用16位存储的图片，可以采用5位表示红色，5位表示绿色，5位表示蓝色，1位是阿尔法通道，该1位阿尔法通道表示图片是否是透明的。又例如，一个使用32位存储的图片，分别采用8位表示红绿蓝和阿尔法通道，该8位阿尔法通道可以表示256级的半透明度。

（3）质心位置：

图像的质心位置是，将图像中的每个像素点的像素值，视为图像在该像素点所在位置上的质量，那么，沿着图像在参考坐标系中横坐标的方向上，位于质心位置左右两侧的像素点的像素值之和相等，沿着图像在参考坐标系中纵坐标的方向上，位于质心位置上下两侧的像素点的像素值之和相等。

本申请实施例涉及人工智能（Artificial Intelligence，AI）技术和云计算（cloud computing），人工智能技术和云计算可以应用于多个领域，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、智慧交通、智能地图、辅助驾驶、车载终端、飞行器、数字孪生、虚拟人、机器人、人工智能生成内容（AIGC）、对话式交互、智能医疗、智能客服、游戏AI等，相信随着技术的发展，人工智能技术和云计算将在更多的领域得到应用，并发挥越来越重要的价值。

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

云计算是一种计算模式，它将计算任务分布在大量计算机构成的资源池上，使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的，并且可以随时获取，按需使用，随时扩展，按使用付费。

应当说明的是，本申请实施例中，涉及到获取目标视频中的视频帧等数据的操作，当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本申请实施例中，术语“模块”或“单元”是指有预定功能的计算机程序或计算机程序的一部分，并与其他相关部分一起工作以实现预定目标，并且可以通过使用软件、硬件（如处理电路或存储器）或其组合来全部或部分实现。同样的，一个处理器（或多个处理器或存储器）可以用来实现一个或多个模块或单元。此外，每个模块或单元都可以是包含该模块或单元功能的整体模块或单元的一部分。

下面对本申请实施例提供的生成海报图像的方法的应用领域进行简单介绍。

随着科技的不断发展，越来越多的设备可以智能化地为视频生成海报图像，通过海报图像来呈现视频中关键的视觉信息，请参考如下几个应用领域，应用领域不做具体限制：

例如，博主账号向设备上传制作好的视频之后，可以通过设备自动化的生成视频的海报图像，从而设备可以以该海报图像表征该视频，观众账号可以通过设备呈现的该海报图像进入观看该视频。

又例如，随着电视剧集的更新，设备上每更新一集电视剧集时，可以为该集剧情生成相应的海报图像，设备可以以该海报图像表征该集电视剧集，从而直观的为观众账号展示出电视剧集已更新，并吸引观众账号进入观看该集电视剧集。

又例如，在推广动画视频时，设备可以为动画视频生成相应的海报图像，从而设备可以在推广位呈现出该海报图像，以吸引观众账号快速地了解到该动画视频中的关键内容，以吸引观众账号进入观看该动画视频，达到提高推广有效性的目的。

相关技术中，除了人工制作海报图像这种效率低且质量非常依赖于相关人员的审美和设计风格的方法以外，智能化的为视频生成海报图像的方法有多种，请参考如下几种方法：

例如，从视频中抽取多个关键帧之后，对多个关键帧进行聚类处理，选取获得的多个聚类簇中，包含的关键帧最多的聚类簇的聚类中心，作为海报图像；

然而，由于视频中关键的视觉信息通常较多，采用单一的视频帧只能够呈现出单一的视觉信息，请参考图1A中的（1），而实际上,海报图像可以参考图1A中的（2），因此，采用视频中的某个视频帧作为视频的海报图像，无法准确地传达视频中丰富的视觉信息，无法适用于内容丰富的视频，为内容丰富的视频生成的海报图像的准确性较低；

进一步的，由于视频类型多样，并非所有视频均明确的与某个关键人物相关，因此，采用视频中包含关键人物的视频帧作为视频的海报图像，无法准确地适配各种视频类型，为未明确指出关键人物的视频生成海报图像的准确性较低；

进一步的，由于视频帧的内容可能包括背景元素，还可能包括人物元素等，因此，内容丰富度最高的视频帧可能仅包含背景元素，请参考图1B，那么通过内容丰富度选取出的视频帧作为视频的海报图像，无法准确地传达视频中关键的视觉信息，为包含的关键视觉信息与内容丰富度无关的视频生成海报图像的准确性较低。

可见，相关技术中为视频生成海报图像的准确性较低。

为了解决为视频生成海报图像的准确性较低的问题，本申请提出一种生成海报图像的方法。该方法中，基于目标视频包含的多个视频片段，获取视频帧集。在目标视频中，每两个相邻的视频片段之间采用剪辑策略连接；视频帧集包括：多个前景视频帧和至少一个背景视频帧，每个前景视频帧包含至少一个视频人物，每个背景视频帧不包含任一视频人物。

从多个前景视频帧中，汇集各视频人物各自对应的候选人像区域集，以及从至少一个背景视频帧中，提取背景区域。基于预存的海报模板包含的各模板人物各自的人物位姿，从获得的各候选人像区域集中，选取多个目标人像区域与背景区域进行图像合成，生成目标视频的海报图像。候选人像区域为：在关联的前景视频帧中，相应的视频人物所在的图像区域；背景区域为：在关联的背景视频帧中，纹理复杂度满足背景筛选条件的图像区域。

下面对本申请提供的生成海报图像的方法的应用场景进行说明。

请参考图1C，为本申请提供的生成海报图像的方法的一种应用场景示意图。该应用场景中包括客户端101和服务端102。客户端101和服务端102之间可以通信。通信方式可以是采用有线通信技术进行通信，例如，通过连接网线或串口线进行通信；也可以是采用无线通信技术进行通信，例如，通过蓝牙或无线保真（wireless fidelity，WIFI）等技术进行通信，具体不做限制。

客户端101泛指例如可以呈现视频和海报图像等的设备，例如，终端设备、终端设备可以访问的第三方应用程序或终端设备可以访问的网页等。终端设备包括但不限于手机、电脑、智能医疗设备、智能家电、车载终端或飞行器等。服务端102泛指可以为视频生成海报图像等的设备，例如，终端设备或服务器等。服务器包括但不限于云服务器、本地服务器或关联的第三方服务器等。客户端101和服务端102均可以采用云计算，以减少本地计算资源的占用；同样也可以采用云存储，以减少本地存储资源的占用。

作为一种实施例，客户端101和服务端102可以是同一个设备，也可以分别为不同的设备，具体不做限制。

下面基于图1C，对本申请实施例提供的生成海报图像的方法进行具体介绍。请参考图2，为本申请实施例提供的生成海报图像的方法的一种流程示意图。

S201，基于目标视频包含的多个视频片段，获取视频帧集。

在目标视频中，每两个相邻的视频片段之间采用剪辑策略连接。可以在获得目标视频后，将目标视频分割为多个视频片段；也可以直接获取已经分割好的多个视频片段等，具体不做限制。

将目标视频分割为多个视频片段的过程可以是，采用预存的视频分割策略，对目标视频进行视频分割，获得多个视频片段。视频分割策略可以用于识别目标视频中包含的剪辑策略，从而可以识别出目标视频中的镜头切换点，以镜头切换点为分割点，将目标视频划分为多个视频片段。视频分割策略例如是视频分割器（pyscenedetect）等，具体不做限制。

在获得多个视频片段之后，可以基于获得的多个视频片段，获取视频帧集。视频帧集包括：多个前景视频帧和至少一个背景视频帧。每个前景视频帧包含至少一个视频人物，请参考图3A，为前景视频帧的多种示意图，即包含视频人物的即为前景视频帧。每个背景视频帧不包含任一视频人物，请参考图3B，为背景视频帧的一种示意图，即不包含视频人物的即为背景视频帧。

作为一种实施例，为了保证生成的海报图像具有较高的图像质量，因此，在基于多个视频片段，获取视频帧集时，可以进行一次视频帧的质量筛选，以保证获得的视频帧中包含的各前景视频帧和背景视频帧，均是图像质量满足初始图像要求的，避免对图像质量较低的视频帧进行后续分析、合成的过程，避免了不必要的计算资源的消耗。

在获取目标视频包含的多个视频片段之后，基于预设的抽帧策略，分别从多个视频片段中，抽取多个初始视频帧。基于预设的帧质量评估策略，分别对获得的各初始视频帧进行质量检测，获得各初始视频帧各自的质量评估值。基于各初始视频帧中，质量评估值大于评估阈值的候选视频帧，生成视频帧集。

预设的抽帧策略可以有多种，下面以其中的两种为例进行介绍，实际使用时的抽帧策略不做限制。

抽帧策略一：

基于多个视频片段各自的片段时长，分别确定多个视频片段各自的抽帧时间间隔，片段时长与抽帧时间间隔呈正相关。基于多个视频片段各自的抽帧时间间隔，分别从多个视频片段中抽取视频帧，获得多个视频片段各自对应的至少一个初始视频帧。

例如，一个视频片段的片段时长为1分钟，1分钟对应的抽帧时间间隔为25秒，那么该视频片段的抽帧时间间隔为25秒。以该视频片段的起始时刻开始，经过25秒后抽取一个初始视频帧，再经过25秒后，即起始时刻开始后的50秒，再抽取一个初始视频帧，直到该视频片段的结束时刻到达时为止，获得该视频片段对应的两个初始视频帧。

抽帧策略二：

基于多个视频片段各自的片段时长，分别确定多个视频片段各自的抽帧数量，片段时长与抽帧数量呈正相关。基于多个视频片段各自的抽帧数量，分别从多个视频片段中抽取视频帧，获得多个视频片段各自对应的至少一个初始视频帧。

例如，一个视频片段的片段时长为1分钟，1分钟对应的抽帧数量为3个，那么该视频片段的抽帧数量为3个。在该视频片段的起始时刻，到该视频片段的结束时刻之间，可以随机抽取3个视频帧，分别作为初始视频帧；也可以随机抽取3个关键帧，分别作为初始视频帧；也可以基于各视频帧的内容丰富度，抽取丰富度最大的3个视频帧，分别作为初始视频帧；也可以在确定该视频片段的抽帧数量3，大于预设前景抽帧阈值，如2时，抽取包含视频人物的3个视频帧，分别作为初始视频帧；在确定该视频片段的抽帧数量3，不大于预设背景抽帧阈值，如3时，抽取不包含任何视频人物的3个视频帧，分别作为初始视频帧等，具体不做限制。

预设的帧质量评估策略可以有多种，下面以其中的两种为例进行介绍，实际使用时的帧质量评估策略不做限制。

帧质量评估策略一：

采用已训练的帧质量评估模型，对输入的各初始视频帧进行质量检测，获得帧质量评估模型分别输出的各初始视频帧各自的质量评估值。

帧质量评估模型的模型结构可以采用深度卷积神经网络的网络结构实现，深度卷积神经网络例如可以是残差网络（resnet），帧质量评估模型的输出层可以设置10个分类，分别对应10个质量评估值，如1、2、……和10，数值越大，表示图像质量越好。

帧质量评估模型的模型参数可以采用已标注样本评估值的训练集，对待训练的帧质量评估模型进行多轮迭代训练得到。

例如，从网络资源中下载已标注样本评估值的训练集；或随机采集一定数量的图像或视频帧作为样本图像，由人工标注各样本图像各自的样本评估值。基于获得的各样本图像及其样本评估值，获得训练集。

基于获得的训练集，采用如交叉熵损失函数等损失函数，将训练集分为多个批次（batch），每个批次包含的各样本图像分别输入到帧质量评估模型进行前向推理预测，根据帧质量评估模型分别输出的训练评估值，各自与相应的样本评估值之间的误差，计算训练损失（loss），基于训练损失调整帧质量评估模型的模型参数，并将帧质量评估模型的梯度回传进入下一轮迭代训练，直到获得的帧质量评估模型的训练损失收敛为止，获得帧质量评估模型的模型参数，输出已训练的帧质量评估模型。

帧质量评估策略二：

基于图像清晰度、颜色对比度、色彩饱和度、曝光度、色彩搭配和谐度、物体尺寸比例等多种角度，对各初始视频帧进行质量检测，基于多种角度获得的各检测值的加权和，确定各初始视频帧各自的质量评估值。

图像清晰度越大，说明图像越清晰，那么相应的检测值则越大；颜色对比度在指定对比范围内时，说明图像明暗越和谐，那么相应的检测值则越大；色彩饱和度在指定饱和范围内时，说明图像鲜艳程度符合实际场景，那么相应的检测值则越大；曝光情况中曝光度在指定曝光范围内时，说明图像光线感知好，那么相应的检测值则越大；色彩搭配和谐度越大，说明图像越符合当代美学标准，那么相应的检测值则越大；物体尺寸比例在指定尺寸范围内时，说明图像中的物体大小相对于图像大小适中，那么相应的检测值则越大等。

作为一种实施例，为了使得获得的海报图像更加贴合目标视频表达的内容，因此海报图像中的前景人物和背景环境，均可以从目标视频中获得。那么，在获得各初始视频帧各自的质量评估值之后，可以基于预设的人物检测策略，对各初始视频帧中，质量评估值大于评估阈值的候选视频帧进行人物检测，获得各候选视频帧各自的人物检测结果。人物检测结果表征：相应的候选视频帧中，是否包含至少一个视频人物。基于获得的各人物检测结果，将各候选视频帧中，包含至少一个视频人物的候选视频帧，作为前景视频帧，以及将各候选视频帧中，不包含任一视频人物的候选视频帧，作为背景视频帧，获得视频帧集。

人物检测策略可以是已训练的人物检测模型，采用已训练的人物检测模型，对输入的各候选视频帧进行人物检测，获得人物检测模型分别输出的各候选视频帧各自的人物检测结果。人物检测模型确定候选视频帧中包含至少一个人脸或人体时，则输出的该候选视频帧的人物检测结果表征，该候选视频帧中，包含至少一个视频人物；确定候选视频帧中不包含任何人脸和人体时，则输出的该候选视频帧的人物检测结果表征，该候选视频帧中，不包含至少一个视频人物。

人物检测模型的模型结构可以采用目标检测网络（retinanet）的网络结构实现等，具体不做限制。

S202，从多个前景视频帧中，汇集各视频人物各自对应的候选人像区域集，以及从至少一个背景视频帧中，提取背景区域。

在获得视频帧集之后，可以从视频帧集包含的多个前景视频帧中，汇集各视频人物各自对应的候选人像区域集；以及，从视频帧集包含的至少一个背景视频帧中，提取背景区域。

候选人像区域为：在关联的前景视频帧中，相应的视频人物所在的图像区域，即候选人像区域是从关联的前景视频帧中裁剪得到的。候选人像区域集包含的各候选人像区域各自包含的视频人物，具有相同的人物名称，即候选人像区域集包含的各候选人像区域是属于同一个人物的图像区域；不同候选人像区域集之间的候选人像区域包含不同的视频人物，即不同候选人像区域集之间的候选人像区域是属于不同人物的图像区域。

背景区域为：在关联的背景视频帧中，纹理复杂度满足背景筛选条件的图像区域，即背景区域是从关联的背景视频帧中裁剪得到的。

作为一种实施例，下面对获得各视频人物各自对应的候选人像区域集的过程进行具体介绍，该过程还可以采用其他方法实现，例如采用边缘检测策略获得各候选人像区域，以及采用已训练的人像识别模型确定各候选人像区域各自包含的视频人物，从而得到各视频人物各自对应的候选人像区域集等，具体不做限制。

基于预设的人物分割策略，分别对多个前景视频帧各自包含的至少一个视频人物进行人物分割，获得各视频人物各自的人像轮廓。基于获得的各人像轮廓各自在关联的前景视频帧中的外接矩形区域，获得各候选人像区域。基于预设的人物聚类策略，对获得的各候选人像区域进行聚类处理，获得各视频人物各自对应的候选人像区域集。

预设的人物分割策略可以包括已训练的人体分割模型，人体分割模型的模型结构可以采用人像抠图网络（modnet）的网络结构实现。将多个前景视频帧分别输入已训练的人体分割模型，人体分割模型分别输出每个前景视频帧包含的各像素点各自是组成视频人物的像素点的概率，获得多个前景视频帧各自对应的人体分割蒙版（可称为mask）。人体分割蒙版为单通道图像，人体分割蒙版的尺寸与相应的前景视频帧的尺寸相同，人体分割蒙版中每个像素点的取值为：相应的前景视频帧中相应位置的像素点是组成视频人物的像素点的概率。从而，基于获得的各人体分割蒙版，确定出各视频人物各自的人像轮廓。

人物分割策略还可以包括：基于预设的二值化处理策略，分别对获得的各人体分割蒙版进行二值化处理，例如，将概率大于0的像素点标记为255，概率不大于0的像素点标记为0，从而，获得多个前景视频帧各自对应的二值化蒙版，请参考图4A，为一种二值化蒙版示意图，其中斜纹背景的区域包含的像素点为标记为0的像素点，白色背景的区域包含的像素点为标记为255的像素点。基于获得的各二值化蒙版，可以更加直接的确定出各视频人物各自的人像轮廓。

人物分割策略还可以包括轮廓提取策略，采用轮廓提取策略，分别将获得的各二值化蒙版，转换为轮廓描述方式，获得各人像轮廓，人像轮廓用于描述相应视频人物在关联的前景视频帧中的外轮廓，请参考图4B，为一种人像轮廓示意图，采用黑色曲线表示该人像轮廓。

在获得各人像轮廓之后，还可以分别将获得的各人体分割蒙版作为阿尔法通道，与红绿蓝（RGB）三通道的相应的前景视频帧合并，获得相应的四通道的前景视频帧，该四通道的前景视频帧表征带透明度的前景视频帧。

再按照获得的各人像轮廓，分别在关联的四通道的前景视频帧中裁剪出相应的人像轮廓的外接矩形区域，获得各候选人像区域。从而，获得的各候选人像区域不仅能够表示相应的视频人物所在的矩形区域，还能够通过阿尔法通道，表示人像轮廓所包围的区域，后续在基于候选人像区域进行图像处理时，可以直接获得到这两种信息，提高了后续过程中的数据处理效率。

在获得各候选人像区域之后，可以基于预设的人物聚类策略，对获得的各候选人像区域进行聚类处理，例如，针对各候选人像区域各自包含的视频人物的人脸特征，对各候选人像区域进行聚类处理，将相同视频人物的候选人像区域汇聚到相同的候选人像区域集中，将不同视频人物的候选人像区域划分到不同的候选人像区域集中，从而可以获得各视频人物各自对应的候选人像区域集。

人脸特征可以是预先计算出来的，在进行聚类处理时可以直接获取到的；也可以是在聚类处理时，实时计算出来的等，具体不做限制。

人物聚类策略可以采用基于密度的聚类算法（dbscan）等实现，具体不做限制。

在候选人像区域可以表征人像轮廓所包围的区域时，可以针对候选人像区域中人像轮廓所包围的区域，确定出人脸所在区域，并针对人脸所在区域进行特征提取，获得相应的人脸特征。从而，通过人像轮廓所包围的区域，可以更加精准地定位出人脸所在区域，避免包含不必要的背景区域对特征提取过程造成干扰，从而影响提取出的人脸特征的准确性的问题。

在进行特征提取时，可以采用已训练的人脸特征提取模型实现，人脸特征提取模型的模型结构可以使用残差网络（resnet）的网络结构，人脸特征提取模型的模型参数可以基于网络资源中获取的训练集，对待训练的人脸特征提取模型进行多轮迭代训练得到，在训练人脸特征提取模型时的训练损失可以采用加性角度间隔损失函数（Additive AngularMargin Loss，ArcFace loss）计算，在训练损失达到训练目标时，获得人脸特征提取模型的模型参数，输出已训练的人脸特征提取模型。

作为一种实施例，为了使得各候选人像区域集中视频人物所在区域中，视频人物是相对完整、表情正常、人脸遮挡范围小和头部未过度旋转等，因此，在获得各候选人像区域时，可以先进行至少一次图像过滤。

分别将获得的各人像轮廓各自在关联的前景视频帧中的外接矩形区域，作为初始人像区域。从各初始人像区域中过滤掉不满足要求的初始人像区域，筛选出满足要求的各候选人像区域。

图像过滤的方法可以有多种，例如，可以采用已训练的图像筛选模型，分别将各初始人像区域输入已训练的图像筛选模型，获得图像筛选模型分别输出的各初始人像区域的人像评估值，从而可以筛选出人像评估值大于预设阈值的初始人像区域，作为候选人像区域。图像筛选模型可以是采用包含完整人脸或人体、表情正常、人脸遮挡范围小和头部未过度旋转等正样本数据，以及包含不完整人脸或人体、表情异常、人脸遮挡范围大或头部过度旋转等负样本数据，对待训练的图像筛选模型进行多轮迭代训练得到的。

又例如，基于预设的多维特征提取策略，分别对获得的各初始人像区域进行多维特征提取，获得各初始人像区域各自对应的多维人像特征。多维人像特征表征：在相应的初始人像区域中呈现出的视频人物的多种属性。从各初始人像区域中，筛选多维人像特征满足特征筛选条件的候选人像区域，获得各候选人像区域。

作为一种实施例，初始人像区域中呈现出的视频人物的多种属性可以是视频人物从多种角度上衡量出的属性，例如，多维人像特征包括以下特征中的多种组合：相应视频人物的人物名称、人物表情、人脸朝向、人脸遮挡度、人像完整度，以及人脸区域在相应的初始人像区域中的人脸占比。多维人像特征还可以包括与视频人物相关的其他特征，在此不做限制。

视频人物的人物名称：

视频人物的人物名称可以是基于前文介绍的人脸特征进行人物识别获得的，例如，在获得各初始人像区域各自的人脸特征之后，可以分别与预存的人脸特征库进行匹配，人脸特征库中包含各个参考人物的人物特征及其对应的人物名称。那么，在人脸特征库确定存在与初始人像区域的人脸特征相匹配的参考人物的人物特征时，可以将该参考人物的人物名称，作为初始人像区域的人脸特征对应的人物名称；在人脸特征库不存在与初始人像区域的人脸特征相匹配的参考人物的人物特征时，则可以将该初始人像区域的人脸特征确定为未知人物。从而，可以获得各初始人像区域各自包含的视频人物的人物名称。

视频人物的人物表情：

视频人物的人物表情可以是，先采用已训练的五官检测模型，分别对各初始人像区域进行五官检测，获得五官检测模型分别输出的各初始人像区域各自包含的视频人物的五官位置；再采用已训练的五官状态识别模型，分别对各初始人像区域各自对应的五官位置上的五官进行状态识别，获得五官状态识别模型分别输出的各初始人像区域各自包含的视频人物的五官状态。基于各初始人像区域各自对应的五官状态，可以确定出各初始人像区域各自包含的视频人物的人物表情。基于五官状态确定响应的人物表情时，可以将五官状态直接作为相应的人物表情，也可以基于五官状态，确定人物表情是否正常，将正常表情或异常表情的确定结果，作为相应的人像表情等，具体不做限制。

五官状态包括是否闭眼、眼部睁开范围是否达到睁眼要求，嘴部张开范围是否在合理张嘴范围之外、嘴部是否露出舌头，是否合嘴、是否龇牙咧嘴，眉毛与眼睛之间的角度是否在合理眉眼范围之外，以及耳朵是否被拉扯等，具体不做限制。

请参考图5A，为五官状态的一种示意图。该视频人物眼部睁开范围未达到睁眼要求，合嘴，嘴部未露出舌头，未龇牙咧嘴，眉毛与眼睛之间的角度未在合理眉眼范围之外，耳朵未被拉扯等。

五官检测模型的模型结构可以采用卷积神经网络（如VGG网络）的网络结构实现，五官检测模型的模型参数可以采用网络资源中获取的已标注五官位置的训练数据，对待训练的五官检测模型进行多轮迭代训练得到的，在训练损失满足训练目标时，获得五官检测模型的模型参数，输出已训练的五官检测模型。

五官状态识别模型的模型结构可以采用卷积神经网络（如VGG网络）的网络结构实现，五官状态识别模型的模型参数可以采用网络资源中获取的已标注五官状态的训练数据，对待训练的五官状态识别模型进行多轮迭代训练得到的，在训练损失满足训练目标时，获得五官状态识别模型的模型参数，输出已训练的五官状态识别模型。

视频人物的人脸朝向：

视频人物的人脸朝向可以是，采用已训练的头部姿态评估模型，分别对各初始人像区域进行头部姿态评估，确定相应的视频人物的头部相对于参考坐标系的偏转状态，即为相应视频人物的人脸朝向，可以包括在参考坐标系中各坐标轴方向上的偏转角度，获得头部姿态评估模型分别输出的各初始人像区域各自对应的人脸朝向。

头部姿态评估模型的模型结构可以是采用物体姿态识别网络（hopenet）的网络结构实现，头部姿态评估模型的模型参数可以是基于网络资源中获取的已标注头部姿态的各训练数据，对待训练的头部姿态评估模型进行多轮迭代训练获得的，在训练损失满足训练目标时获得头部姿态评估模型的模型参数，输出已训练的头部姿态评估模型。

请参考图5B，为确定视频人物的人脸朝向的一种示意图。该视频人物相对于参考坐标系中的x轴的偏转角度为29.9°，表示将视频人物的人头沿x轴正方向旋转29.9°的角度；相对于参考坐标系中的y轴的偏转角度为1.3°，表示将视频人物的人头沿y轴正方向旋转1.3°的角度；相对于参考坐标系中的z轴的偏转角度为-7.8°，表示将视频人物的人头沿z轴正方向旋转-7.8°的角度；那么该视频人物的人脸朝向可以表示为（29.9，1.3，-7.8）。

视频人物的人脸遮挡度：

视频人物的人脸遮挡度可以是，先采用已训练的第一人脸分割模型，分别对各初始人像区域进行人脸分割，确定相应初始人像区域包含的各像素点各自对应的第一类别，第一人脸分割模型输出第一类别矩阵，第一类别矩阵的尺寸与相应的初始人像区域的尺寸相同，例如，初始人像区域为W*H，那么相应的第一类别矩阵的尺寸为W*H。第一类别矩阵中的各元素，分别表示在相应初始人像区域中相应位置上的像素点的对应的第一类别。从而，基于第一类别矩阵，可以获得各初始人像区域各自对应的第一人脸区域和第一其他区域；

以及采用已训练的第二人脸分割模型，分别对各初始人像区域进行人脸分割，确定相应初始人像区域包含的各像素点各自对应的第二类别，第二人脸分割模型输出第二类别矩阵，第二类别矩阵的尺寸与相应的初始人像区域的尺寸相同，例如，初始人像区域为W*H，那么相应的第二类别矩阵的尺寸为W*H。第二类别矩阵中的各元素，分别表示在相应初始人像区域中相应位置上的像素点的对应的第二类别。从而，基于第二类别矩阵，可以获得的各初始人像区域各自对应的第二人脸区域和第二其他区域。

第一类别可以包括脸部、眼镜、眼睛、鼻子、嘴巴、耳朵、脖子、头发、帽子、衣服和其他等类别；第二类别可以包括脸部皮肤和其他等类别。

那么，第一人脸区域包括视频人物所在区域中的脸部区域，例如包括属于第一类别中的脸部的像素点；第一其他区域包括脸部区域以外的区域，例如包括属于眼镜、眼睛、鼻子、嘴巴、耳朵、脖子、头发、帽子、衣服和其他等第一类别的像素点。请参考图5C中的（1），采用已训练的第一人脸分割模型，对一个初始人像区域进行人脸分割的示意图，可以先确定出脸部位置、五官位置、头发位置、衣服位置和脖子位置。请参考图5C中的（2），再对各位置上的像素点进行识别，确定该初始人像区域包含的各像素点各自对应的第一类别。第一人脸分割模型输出第一类别矩阵，图5C中的（2）以横向虚线背景覆盖的区域示出属于第一类别中的脸部的像素点所在区域，其他第一类别分别以不同背景覆盖的区域示出，在此不做赘述。可以看出，采用第一人脸分割模型，可以预测出被遮挡的脸部区域。

第二人脸区域包括视频人物所在区域中的脸部皮肤所在范围，例如包括属于第二类别中的脸部皮肤的像素点；第二其他区域包括除了脸部皮肤以外的区域，例如包括属于第二类别中的其他的像素点。请参考图5D中的（1），采用已训练的第二人脸分割模型，对一个初始人像区域进行人脸分割的示意图，可以确定出脸部皮肤所在区域，图5D中的（1）以黑色曲线分割脸部皮肤和头发，以连续的点分割脸部皮肤和脖子皮肤，以及分割脸部皮肤和五官。从而可以获得该初始人像区域包含的各像素点各自对应的第二类别，第二人脸分割模型输出第二类别矩阵，请参考图5D中的（2），以横向虚线背景覆盖的区域示出属于第二类别中的脸部皮肤的像素点所在区域，其他第二类别以白色背景覆盖区域示出。可以看出，采用第二人脸分割模型，无法将被遮挡的脸部区域识别出来。

已训练的第一人脸分割模型的模型结构可以采用图像分割网络（Unet）的网络结构实现，第一人脸分割模型的模型参数可以是采用已标注第一类别的各训练数据，对待训练的第一人脸分割模型进行多轮迭代训练获得的，在训练损失满足训练目标时，获得第一人脸分割模型的模型参数，输出已训练的第一人脸分割模型。

已训练的第二人脸分割模型的模型结构页可以采用图像分割网络（Unet）的网络结构实现，第二人脸分割模型的模型参数可以是采用已标注第二类别的各训练数据，对待训练的第二人脸分割模型进行多轮迭代训练获得的，在训练损失满足训练目标时，获得第二人脸分割模型的模型参数，输出已训练的第二人脸分割模型。

训练第一人脸分割模型和第二人脸分割模型时的训练损失可以相同，也可以不同；训练目标可以相同，也可以不同；模型结构可以相同，也可以不同等，具体不做限制。已标注第一类别的各训练数据，以及已标注第二类别的各训练数据可以是人工标注的，也可以是从网络资源中下载的等，具体不做限制。

进一步的，为了降低计算复杂度，第一人脸区域和第二脸部区域可以是基于像素点的类别，对像素点进行二值化处理后获得的。例如，将属于第一类别中的脸部的像素点标记为1，将其他像素点标记为0后，获得第一人脸区域和第一其他区域；以及将属于第二类别中的脸部皮肤的像素点标记为1，将其他像素点标记为0后，获得第二人脸区域和第二其他区域。

基于第一人脸区域与第二人脸区域之间的差异区域，可以确定为人脸被遮挡区域，请查看图5E中的（1），为采用第一人脸分割模型获得的第一人脸区域（以横向虚线背景示出）示意图；图5E中的（2），为采用第二人脸分割模型获得的第二人脸区域（以横向虚线背景示出）示意图；图5E中的（3），为第一人脸区域与第二人脸区域之间的差异区域（以双斜线背景示出）的示意图。可以通过确定被遮挡区域的区域面积，与第一人脸区域或第二人脸区域的区域面积之间的比值，确定相应视频人物的人脸遮挡度；也可以通过确定被遮挡区域的区域面积，与相应的初始人像区域的区域面积之间的比值，确定相应视频人物的人脸遮挡度等，具体不做限制。

视频人物的人像完整度：

视频人物的人像完整度可以是，采用已训练的完整人像评估模型，分别对各初始人像区域进行完整人像评估，确定相应的视频人物在关联的初始人像区域中是否完整呈现，获得各初始人像区域各自对应的人像完整度。

已训练的完整人像评估模型的模型结构可以是采用残差网络（resnet）的网络结构实现，完整人像评估模型的模型参数可以是采用已标注是否完整呈现的各训练数据，对待训练的完整人像评估模型进行多轮迭代训练获得的。在每轮迭代训练过程中，可以采用交叉熵损失函数来计算训练损失，在训练损失满足训练目标时，获得完整人像评估模型的模型参数，输出已训练的完整人像评估模型。

不完整呈现可以是以下任意一种情况或多种情况组合：人像局部缺失，例如手部缺失或上半身缺失，请参考图5F中的（1）；背景残留，例如背景中的桌面被识别为前景，划分在初始人像区域内，请参考图5F中的（2）；多人重叠，例如多个视频人物重叠，使其被划分在一个视频人物对应的初始人像区域内，请参考图5F中的（3）；边界裁剪，例如视频人物位于相应的前景视频帧的边缘出，使得获得的初始人像区域中的视频人物被裁剪为局部缺失的情况，请参考图5F中的（4）。不完整呈现还可以包括其他情况，在此不作限制。

那么，完整呈现则是不包含上述任意一种情况，请参考图5G，视频人物不存在人像局部缺失的情况，且不存在背景残留的情况，且不存在多人重叠的情况，以及不存在边界裁剪的情况等。

人脸区域在相应的初始人像区域中的人脸占比：

在确定出各初始人像区域各自包含的人脸区域之后，可以确定人脸区域的区域高度，占相应的初始人像区域的区域高度的比值，作为人脸区域在相应的初始人像区域中的人脸占比；也可以确定人脸区域的区域面积，占相应的初始人像区域的区域面积的比值，作为人脸区域在相应的初始人像区域中的人脸占比等，具体不做限制。

本申请实施例中，以按照区域高度确定人脸占比的方法为例进行介绍，那么进一步的，为了便于计算，可以在确定出比值之后，基于预设的多个人脸占比区间，确定包含该比值的人脸占比区间，作为相应的人脸占比。人脸占比区间也是基于区域高度进行划分得到的，请参考图5H，包含7个人脸占比区间，第一人脸占比区间表征：初始人像区域中仅包含相应视频人物的部分或全部人脸区域，不包含该视频人物的其他人像区域，请参考图5H中的（1），即该初始人像区域为相应视频人物的五官局部特写；

第二人脸占比区间表征：初始人像区域中除了包含相应视频人物的人脸区域以外，还包含该视频人物的其他头部区域，请参考图5H中的（2），即该初始人像区域为相应视频人物的头部特写；

第三人脸占比区间表征：初始人像区域中除了包含相应视频人物的头部区域以外，还包含该视频人物的部分上半身区域，请参考图5H中的（3），即该初始人像区域为相应视频人物的胸口以上上半身特写；

第四人脸占比区间表征：初始人像区域中除了包含相应视频人物的头部区域以外，还包含该视频人物的完整上半身区域，请参考图5H中的（4），即该初始人像区域为相应视频人物的腰部以上上半身特写；

第五人脸占比区间表征：初始人像区域中除了包含相应视频人物的上半身区域以外，还包含该视频人物的部分下半身区域，请参考图5H中的（5），即该初始人像区域为相应视频人物的膝盖以上全身特写；

第六人脸占比区间表征：初始人像区域中除了包含相应视频人物的上半身区域以外，还包含该视频人物的完整下半身区域，请参考图5H中的（6），即该初始人像区域为相应视频人物的全身特写；

第七人脸占比区间表征：初始人像区域中除了包含相应视频人物的全身区域以外，还包含该视频人物以外的背景区域，请参考图5H中的（7），即该初始人像区域为相应视频人物的全身及全身以外全景。

作为一种实施例，针对获得的至少一个背景视频帧，可以直接从各背景视频帧中，选取一个纹理复杂度满足背景筛选条件的背景视频帧，作为合成海报图像时的图像背景；考虑到一个背景视频帧中可能包含丰富的内容，而海报图像中，如果背景内容过于丰富，将无法突出前景中的各视频人物，使得前景呈现效果较差。因此，在获得至少一个背景视频帧之后，可以进一步的对背景视频帧进行裁剪，选取其中纹理复杂度满足背景筛选条件的视频帧子图，作为背景区域，用于合成海报图像，降低合成海报图像时的图像背景的内容丰富度，突出前景中的各视频人物，以提高前景呈现效果。

那么，可以基于指定尺寸的预设矩形框和预设滑动长度，分别沿水平方向和垂直方向，对至少一个背景视频帧进行滑窗裁剪，获得至少一个背景视频帧各自对应的多个视频帧子图。基于预设的复杂度衡量策略，分别确定获得的各视频帧子图各自的纹理复杂度。从各视频帧子图中，选取纹理复杂度满足背景筛选条件的视频帧子图，作为背景区域。

例如，请参考图5I，为一个背景视频帧示意图。背景视频帧的尺寸例如是19×9，预设矩形框的尺寸例如是4×3，预设滑动长度例如是5，那么，预设矩形框的启示位置例如是位于背景视频帧的左上角，分别沿水平方向和垂直方向，对该背景视频帧进行滑窗裁剪，可以获得12个视频帧子图。从各视频帧子图中，选取纹理复杂度满足背景筛选条件的视频帧子图，例如左上角第一张视频帧子图，作为背景区域。

作为一种实施例，预设的复杂度衡量策略可以有多种，具体不做限制，例如可以采用已训练的复杂度衡量模型，分别对各视频帧子图进行复杂度衡量，获得复杂度衡量模型输出的各视频帧子图各自的纹理复杂度。

下面对不使用人工智能模型的一种复杂度衡量策略进行具体介绍。

针对每个背景视频帧，先对彩色的视频帧子图进行灰度转换，获得灰度图像。再基于预设的多个灰度区间，统计灰度图像中，属于每个灰度区间的像素点的像素点数量，获得该灰度图像对应的灰度直方图。基于获得的灰度直方图中的每个像素点数量，与该灰度图像包含的像素点的总像素数量的比值，获得归一化后的灰度直方图。灰度图像包含的像素点的总像素数量可以采用该灰度图像的图像宽度乘以图像高度来计算。那么，归一化后的灰度直方图中，每个灰度区间对应的归一化值，则表示相应的灰度区间在该灰度图像中出现的概率。最后基于归一化后的灰度直方图，确定相应的视频帧子图的纹理复杂度，请参考公式（1），

（1）

其中，表示第i个灰度区间在归一化后的灰度直方图中对应的归一化值，即第i个灰度区间在该灰度图像中出现的概率。

在进行灰度转换时，可以是分别针对彩色的视频帧子图中各像素点，将像素点在RGB三个通道的像素值的加权和，作为该像素点的灰度值，从而获得彩色的视频帧子图对应的灰度图像。例如，一个灰度值可以是0.299*R+0.587*G+0.114*B。

作为一种实施例，以上述计算纹理复杂度的方法为例，纹理复杂度满足背景筛选条件的视频帧子图，可以是基于至少一个背景视频帧获得的各视频帧子图各自对应的纹理复杂度之后，按照纹理复杂度从小到大或从大到小，对各视频帧子图进行排序，选取排序位于中位数的视频帧子图，作为背景区域。通过选取排序位于中位数的视频帧子图作为背景区域，可以避免合成海报图像时的背景纹理过于复杂，导致前景内容在视觉上不够显著的情况，同时，也避免了背景纹理过于简单，例如纯色，导致海报图像的整体画面过于单调的情况。

作为一种实施例，为了进一步增强合成的海报图像的画质，在汇集出各候选人像区域集时，可以先采用超分辨率网络模型（GFPGAN），分别对各候选人像区域进行画质增强处理，获得画质增强后的各候选人像区域，再对各候选人像区域进行前述的聚类处理，获得各候选人像区域集。

S203，基于预存的海报模板包含的各模板人物各自的人物位姿，从获得的各候选人像区域集中，选取多个目标人像区域与背景区域进行图像合成，生成目标视频的海报图像。

在获得各候选人像区域集之后，可以从获得的各候选人像区域集中，分别选取与预存的海报模板包含的各模板人物各自的人物位姿相匹配的候选人像区域，作为目标人像区域，获得多个目标人像区域；

或者，可以从获得的各候选人像区域集中选取多个候选人像区域，将该多个候选人像区域调整为与预存的海报模板包含的各模板人物各自的人物位姿相匹配，获得多个目标人像区域。

从而，将多个目标人像区域与背景区域进行图像合成，可以生成目标视频的海报图像。

作为一种实施例，在选取匹配的多个目标人像区域时，可以先从各候选人像区域集中，选取出匹配的多个视频人物各自对应的目标人像区域集，再从每个目标人像区域集中选取出匹配的一个目标人像区域，以获得多个目标人像区域。从而，不需要确定所有候选人像区域集中的每个候选人像区域是否与海报模板匹配，提高了数据处理效率。

那么，在获得各候选人像区域集之后，可以基于各候选人像区域集各自包含的候选人像区域的区域数量，确定各候选人像区域集中，选取出能够表征目标视频包含的关键视觉信息的多个视频人物各自对应的候选人像区域集，分别作为海报模板包含的各模板人物各自关联的目标人像区域集。

进一步的，为了使得合成出的海报图像可以向海报模板一样画面和谐，且包含的各视频人物之间存在关联关系，避免割裂感，因此，可以按照模板人物的人物姿态，从各目标人像区域集中选取人物姿态匹配的目标人像区域，从而使得合成的海报图像能够达到与海报模板相同或相似的呈现效果。

那么，在获得各目标人像区域集之后，可以分别确定各目标人像区域集中，存在对应的视频人物的人物姿态，与关联的模板人物的人物姿态匹配的目标人像区域时，获得各模板人物各自关联的目标人像区域。

人物姿态用于描述相应视频人物的面部、头部或身体的姿势、状态等，例如，人物姿态可以包括人脸区域在相应的目标人像区域中的人脸占比，该人脸占比可以参考前文介绍的人脸区域在相应的初始人像区域中的人脸占比，在此不再赘述；又例如，人物姿态还可以包括视频人物的肢体动作；又例如，人物姿态还可以包括视频人物的人脸朝向，具体可以参考前文介绍的视频人物的人脸朝向，在此不再赘述。人物姿态可以包括多种，具体内容在此不作限制。

请参考图6A，以海报模板中最左侧的模板人物为例，模板人物的人脸占比表征模板人物的腰部以上上半身特写，那么，可以在视频人物关联的目标人像区域集中，选取腰部以上上半身特写的候选人像区域作为目标人像区域。

进一步的，海报模板中的模板人物的人脸朝向为朝向左侧，那么可以在视频人物关联的目标人像区域集中，选取腰部以上上半身特写的、且人脸朝向左侧的候选人像区域作为目标人像区域。进一步的，可以在视频人物关联的目标人像区域集中，将每个候选人像区域与海报模板中的模板人物的人像区域，在参考坐标系重叠放置，将重叠区域范围最大的候选人像区域，视为视频人物的肢体动作与海报模板中的模板人物的肢体动作匹配的候选人像区域，从而可以选取腰部以上上半身特写的、且人脸朝向左侧的、且视频人物的肢体动作与海报模板中的模板人物的肢体动作匹配的候选人像区域作为目标人像区域。

从而，可以基于各模板人物各自在海报中的人物位置，对获得的各目标人像区域与背景区域进行图像合成，生成目标视频的海报图像，使得海报图像能够达到与海报模板相同或相似的呈现效果。

作为一种实施例，在目标视频包含的视频人物的人物数量，多于海报模板包含的模板人物的人物数量时，为了更加准确的通过合成出的海报图像，传达目标视频的关键视觉信息，因此可以先在众多视频人物各自对应的候选人像区域集，选取出几个关键视频人物各自对应的目标人像区域集，再基于各目标人像区域集来选取多个目标人像区域，避免将在目标视频中关键度较低的视频人物放在海报图像中的情况，提高为目标视频生成海报图像的准确性。

由于目标视频中较为关键的视频人物会频繁出现，同时，人物在海报中不同的摆放位置或呈现姿态等，可以针对人物达到不同的呈现效果，因此，海报模板包含的各模板人物各自关联设置有人物等级。人物等级表征：相应的模板人物在海报中的重要程度，重要程度与人物等级呈正相关。

因此，在为海报模板包含的各模板人物，分别关联相应的目标人像区域集时，可以按照各候选人像区域集各自包含的候选人像区域的区域数量，先选取出多个目标人像区域集，再基于各模板人物各自关联设置有人物等级，将每个目标人像区域集关联到相应的模板人物。

那么，在统计获得的各候选人像区域集各自包含的候选人像区域的区域数量之后，可以基于预存的海报模板包含的各模板人物的人物数量，按照区域数量从大到小的顺序，从各候选人像区域集中选取多个目标人像区域集。例如，海报模板包含的各模板人物的人物数量为3，各候选人像区域集的总数量为5，那么，按照各候选人像区域集各自包含的候选人像区域的区域数量从大到小的顺序，选取区域数量最大的3个候选人像区域集，分别作为目标人像区域集。

再进一步的基于多个目标人像区域集各自对应的区域数量，以及各模板人物的各自的人物等级，分别为各模板人物关联相应的目标人像区域集，区域数量与人物等级呈正相关。例如，获得了3个目标人像区域集之后，将区域数量最大的目标人像区域集关联至人物等级最高的模板人物；将区域数量次大的目标人像区域集关联至人物等级次高的模板人物；区域数量最小的目标人像区域集关联至人物等级最低的模板人物。

从而，模板人物在海报中的重要程度越高，则其关联的目标人像区域集中包含的候选人像区域的区域数量越大；模板人物在海报中的重要程度越低，则其关联的目标人像区域集中包含的候选人像区域的区域数量越小。将视频人物在目标视频中的关键程度，与模板人物在海报中的重要程度关联起来，从而可以使得合成出的海报图像能够达到与海报模板相同或相似的呈现效果，进而更加准确地传达出目标视频的关键视觉信息。

作为一种实施例，在预存的海报模板的数量为一个时，可以直接基于该海报模板合成海报图像；在预存的海报模板的数量为多个时，可以先在多个海报模板中，选取出与目标视频匹配的至少一个目标模板，再分别针对各目标模板，合成相应的海报图像。在合成出的海报图像为多个时，可以通过客户端101呈现出来，以供客户账号选择一个作为目标视频最终的海报图像；也可以按照预设的海报选取策略，从多个海报图像中选取一个作为目标视频最终的海报图像。

在多个海报模板中，选取与目标视频匹配的至少一个目标模板时，为了使得海报模板包含的不同的模板人物的位置上，可以分别放置不同的视频人物，因此可以按照海报模板包含的模板人物的人物数量选取，选取人物数量不大于多个前景视频帧包含的各视频人物的人物数量的海报模板作为目标模板；

为了使得合成出的海报图像中的各视频人物和谐等，因此还可以按照海报模板包含的各模板人物的各自的人物姿态选取，选取包含的各模板人物各自关联的目标人像区域集中，存在视频人物的人物姿态与关联的模板人物的人物姿态匹配的目标人像区域的海报模板等，具体不做限制。

作为一种实施例，在选取出各模板人物各自关联的目标人像区域之后，可以进一步调整目标人像区域的区域尺寸，同时保证各目标人像区域在合成后，各视频人物的呈现效果可以与海报模板中各模板人物的呈现效果相同或相似，使得合成的海报图像达到海报模板一样的海报呈现效果。

那么，按照各模板人物各自的人物尺寸，分别对多个目标人像区域进行缩放处理，使得目标人像区域中的视频人物的人脸区域，与关联的模板人物的人脸区域的尺寸相同或相近，从而可以获得各调整人像区域。

将各模板人物各自的人物位置，分别作为各调整人像区域各自的初始合成位置。模板人物的人物位置可以采用模板人物的人像轮廓的外接矩形框的中心点表征，那么可以将该中心点，作为关联的调整人像区域的初始合成位置，在基于初始合成位置合成调整人像区域时，可以将该调整人像区域的中心点，与该初始合成位置重合，达到将该调整人像区域排列在初始合成位置的目的。

为了保证各目标人像区域在合成后，达到海报模板一样的海报呈现效果，在相应的初始合成位置排列相应的调整人像区域之后，可以进一步调整目标人像区域的合成位置，以保证各目标人像区域之间不会重叠，而造成人像遮挡的情况。

那么，基于预存的位置调整策略，对获得的各初始合成位置进行至少一轮迭代调整，获得各目标合成位置。位置调整策略用于：调整与其他调整人像区域存在人脸遮挡的调整人像区域的初始合成位置。基于各目标合成位置，对各调整人像区域与背景区域进行图像合成，生成目标视频的海报图像。

下面对多轮迭代调整进行具体介绍，以一轮迭代调整过程为例，其他轮迭代调整过程类似，在此不再赘述：

获取各调整人像区域各自的当前合成位置。如果当前为第一轮迭代调整过程，那么当前合成位置为相应调整人像区域的初始合成位置；如果当前为第一轮迭代调整以外的其他轮迭代调整过程，那么当前合成位置为上一轮迭代调整后获得的、相应的调整人像区域的中间合成位置。

基于获得的各当前合成位置，依次排列各调整人像区域，在每排列一个调整人像区域时，执行以下操作：对当前排列的调整人像区域的当前合成位置进行位置调整，获得相应的中间合成位置。

如果对当前排列的调整人像区域的当前合成位置进行位置调整后，调整后的当前合成位置不满足调整结束条件，那么继续执行对当前排列的调整人像区域的当前合成位置进行位置调整；

如果对当前排列的调整人像区域的当前合成位置进行位置调整后，调整后的当前合成位置满足调整结束条件，那么将调整后的当前合成位置作为相应的中间合成位置，并进入下一轮迭代调整，以对其他调整人像区域的当前合成位置进行调整，直到各调整人像区域均已排列，将获得的各中间合成位置分别作为相应的目标合成位置，获得各调整人像区域各自的目标合成位置。

调整结束条件可以有多种，下面以其中的两种为例进行介绍，调整结束条件还可以是其他条件，具体不做限制。

调整结束条件可以是针对一个调整人像区域的多次调整过程中，调整前后的当前合成位置之间的位置差距均小于预设差距阈值，说明针对该调整人像区域的当前合成位置每次只移动一个较小的范围，那么再继续调整该调整人像区域的当前合成位置也不会发生他打变化，那么可以确定本次调整后的当前合成位置满足调整结束条件，那么将调整后的当前合成位置作为相应的中间合成位置。

调整结束条件还可以是将当前排列的调整人像区域排列在当前合成位置上时，当前排列的调整人像区域与已经排列的各调整人像区域之间不存在重叠区域，说明本次调整后的当前合成位置满足调整结束条件，那么将调整后的当前合成位置作为相应的中间合成位置。

作为一种实施例，在对当前排列的调整人像区域的当前合成位置进行位置调整，获得相应的中间合成位置时，可以先确定当前排列的调整人像区域，与已经排列的调整人像区域之间是否存在人像重叠，如果存在人像重叠，那么对当前排列的调整人像区域的当前合成位置进行位置调整，获得相应的中间合成位置；如果不存在人像重叠，那么将当前排列的调整人像区域的当前合成位置，作为相应的中间合成位置。

具体的，将当前排列的调整人像区域作为当前人像区域，并分别将本轮迭代调整过程中已排列的各调整人像区域作为相应的已排列人像区域，确定当前人像区域中的人像所在位置，与各已排列人像区域中的人像所在位置存在重叠区域时，基于预存的偏移策略，确定当前人像区域的偏移向量。按照偏移向量，调整当前人像区域的当前合成位置，获得当前人像区域的中间合成位置。

人像所在位置可以参考前文介绍的人像轮廓，人像轮廓围成的区域即为相应的人像所在位置；人像所在位置还可以是前文介绍的人脸区域等，具体不做限制。

可以在确定当前人像区域中的人像所在位置，与已排列人像区域中的人像所在位置之间重叠的区域的区域面积大于预设面积阈值时，确定当前人像区域中的人像所在位置，与已排列人像区域中的人像所在位置存在重叠区域；也可以在确定当前人像区域中的人脸区域，与已排列人像区域中的人脸区域之间存在重叠区域时，确定当前人像区域中的人像所在位置，与已排列人像区域中的人像所在位置存在重叠区域等，具体不做限制。

请参考图6B，包括三个已排列人像区域（以细线条的曲线描绘的人像轮廓示出），还包括一个当前人像区域（以粗线条的曲线描绘的人像轮廓示出）。

请参考图6B中的（1），为本轮迭代调整过程中，当前人像区域中的人像所在位置，以及各已排列人像区域中的人像所在位置。其中，虚线矩形框为当前人像区域中视频人物的人头所在位置，可以在确定当前人像区域中视频人物的人头所在位置，与各已排列人像区域中的人像所在位置存在重叠区域时，确定当前人像区域中的人像所在位置，与已排列人像区域中的人像所在位置存在重叠区域。可以看出，虚线矩形框围成的范围，与各已排列人像区域存在重叠区域。

那么，可以基于预存的偏移策略，确定当前人像区域的偏移向量，例如，请参考图6B中的（2）所示的箭头，为当前人像区域的偏移向量。按照偏移向量，调整当前人像区域的当前合成位置，请参考图6B中的（2）粗线条的曲线描绘的人像轮廓所示的当前人像区域，获得当前人像区域的中间合成位置。

确定当前人像区域在中间合成位置时，当前人像区域中的人像所在位置，与已排列人像区域中的人像所在位置存在重叠区域，那么针对该当前人像区域，进入下一轮迭代调整。

继续基于预存的偏移策略，确定当前人像区域的偏移向量，例如，请参考图6B中的（3）所示的箭头，为当前人像区域的偏移向量。按照偏移向量，调整当前人像区域的当前合成位置，请参考图6B中的（3）粗线条的曲线描绘的人像轮廓所示的当前人像区域，更新当前人像区域的中间合成位置。

确定当前人像区域在中间合成位置时，当前人像区域中的人像所在位置，与已排列人像区域中的人像所在位置不存在重叠区域，那么将该中间合成位置作为当前人像区域的目标合成位置，并将当前人像区域更新为已排列人像区域，进入针对除了各已排列人像区域以外的调整人像区域的迭代调整。

作为一种实施例，预存的偏移策略可以有多种，可以采用已训练的序列模型，基于各调整人像区域各自的初始合成位置，来预测各调整人像区域各自的目标合成位置等；也可以不使用人工智能模型。

下面以不使用人工智能模型的两种偏移策略为例进行介绍，具体不做限制。

偏移策略一：

基于各已排列人像区域各自的中间合成位置和当前人像区域的当前合成位置，分别确定各已排列人像区域和当前人像区域各自的质心位置。分别以各已排列人像区域各自的质心位置为向量起点，以当前人像区域的质心位置为向量终点，获得各已排列人像区域各自相对于当前人像区域的位置向量。将获得的各位置向量的加权和，作为当前人像区域的偏移向量。

例如，当前人像区域的质心位置为，各已排列人像区域各自的质心位置包括，那么，分别以/>为向量起点，以/>为向量终点，可以获得n个位置向量。将这n个位置向量相加，可以获得当前人像区域的偏移向量。

偏移策略二：

以当前人像区域的横向中线和纵向中线为坐标系，当前人像区域的中心点为该坐标系的原点，确定重叠区域在该坐标系中的位置象限，以从该位置象限指向与该位置象限呈对角关系的目标象限的方向为向量方向，以预设位移为向量长度，确定当前人像区域的偏移向量。

例如，重叠区域位于坐标系中的第一象限，与第一象限呈对角关系的目标象限是第三象限，说明需要将当前人像区域向第三象限的方向移动，那么将第一象限作为位置象限，第三象限作为目标象限，可以以第一象限指向第三象限的方向为向量方向，以预设位移，如2为向量长度，确定当前人像区域的偏移向量。

作为一种实施例，考虑到目标视频中的各视频帧以是在不同拍摄场景下拍摄得到的，因此获得的各目标人像区域各自拍摄场景中的光照条件等可能存在较大差异，直接合并各目标人像区域可能导致不同视频人物等在亮度、色彩上存在差异，使得合成的海报图像不自然、不真实等。

那么，在对多个目标人像区域与背景区域进行图像合成时，可以先分别对各目标人像区域进行调谐处理，使得调谐后的各目标人像区域在亮度、色彩上统一。

例如，预先存储亮度、色彩上满足美学标准，即正常光照条件下的参考图像，确定参考图像中包含的参考人物的皮肤区域，以及分别确定出各目标人像区域各自包含的视频人物的皮肤区域，基于预设的直方图匹配策略，按照参考图像对应的皮肤区域，调整各目标人像区域各自对应的皮肤区域包含的像素值，获得各目标人像区域各自对应的叠加图层。再基于预设的泊松融合策略，将各叠加图层分别叠加在相应的目标人像区域上，获得调谐后的各目标人像区域。

又例如，基于颜色查找表（LookupTable，LUT），分别对各目标人像区域进行调谐处理，获得调谐后的各目标人像区域。

又例如，采用已训练的调谐模型，对输入的各目标人像区域进行调谐处理，获得调谐模型分别输出的调谐后的各目标人像区域。

在获得调谐后的各目标人像区域之后，可以将调谐后的各目标人像区域与背景区域进行图像合成，生成目标视频的海报图像。

作为一种实施例，由于背景区域的区域尺寸和海报模板的模板尺寸可能不同，那么在进行图像合成时，可以先按照海报模板的模板尺寸，对背景区域进行拉伸处理或平铺处理等，使得处理后的背景区域具有与海报模板的模板尺寸相同的区域尺寸，再基于处理后的背景区域进行图像合成，使得生成的目标视频的海报图像的图像尺寸，是与海报模板的模板尺寸相同的，从而进一步达到与海报模板相同的呈现效果。

作为一种实施例，图像合成可以是将各目标人像区域依次渲染在背景区域上，从而可以获得目标视频的海报图像。

下面对本申请实施例提供的生成海报图像的方法的过程进行示例介绍。

请参考图7A，在生成海报图像之前，可以先预存至少一个海报模板，例如，目标账号向模板管理服务上传至少一个海报模板，模板管理服务接收并存储目标账号上传的至少一个海报模板。目标账号可以从网络资源中收集海报模板，也可以在相关设备中制作海报模板等，具体不做限制。目标账号上传的至少一个海报模板，是目标账号认可的优质海报，请参考图7B中的（1），为一种海报模板的示意图，包括3个模板人物。请参考图7B中的（2），每个模板人物关联有人物轮廓、人物轮廓的外接矩形框（以矩形框示出）、人脸区域（以矩形框示出）、人脸朝向（以矩形框表示，角度信息未示出）等信息。人物轮廓的外接矩形框可以采用x、y、w、h这4个数值组成的矩形各顶点坐标来描述，在参考坐标系以图像左上角为原点，从原点出发，横向向右为横坐标轴正方向，纵向向下为纵坐标轴正方向中，x表示人物轮廓的外接矩形框各顶点的横坐标，y表示人物轮廓的外接矩形框各顶点的纵坐标，w表示人物轮廓的外接矩形框的宽度，h表示人物轮廓的外接矩形框的高度。

在向模板管理服务上传海报模板之后，目标账号还可以向模板管理服务发送微调指令，模板管理服务接收到微调指令之后，基于微调指令，可以对模板管理服务保存的某个或某些海报模板进行微调处理。例如，调整某些海报模板的图像尺寸；又例如，调整某个海报模板包含的模板人物的数量；又例如，调整某个海报模板包含的各模板人物的位置关系等，具体不做限制，那么，只需添加或微调海报模板即可快速地适配新增业务场景的海报布局风格，使得生成海报模板的过程具备灵活性和可扩展性。

从而，在需要为目标视频生成海报图像时，目标账号可以向海报合成服务发送合成请求，海报合成服务接收合成请求之后，基于合成请求，从模板管理服务获取至少一个海报模板，基于至少一个海报模板，为目标视频生成至少一个海报图像。

海报合成服务在获得至少一个海报图像之后，将至少一个海报图像发送至目标账号，目标账号接收海报合成服务发送的至少一个海报图像，从而可以获得目标视频的海报图像。

请参考图7C，为目标视频生成海报图像的一种原理示意图。

在获得目标视频之后，采用视频分割器（pyscenedetect）检测目标视频中的镜头切换点，对目标视频进行分割，获得多个视频片段。在每个视频片段内，按均匀时间间隔进行抽帧处理，获得多个初始视频帧。

基于预设的帧质量评估策略，分别对获得的各初始视频帧进行质量检测，获得各初始视频帧各自的质量评估值。将质量评估值不大于评估阈值的初始视频帧过滤掉，保留质量评估值大于评估阈值的初始视频帧作为候选视频帧。

基于预设的人物检测策略，对获得的候选视频帧进行人物检测，获得各候选视频帧各自的人物检测结果。基于获得的各人物检测结果，将各候选视频帧中，包含至少一个视频人物的候选视频帧，作为前景视频帧，以及将各候选视频帧中，不包含任一视频人物的候选视频帧，作为背景视频帧。

请参考图7D，为目标视频生成海报图像的一种原理示意图。

采用已训练的人体分割模型，确定每个前景视频帧包含的各像素点各自是组成视频人物的像素点的概率，获得多个前景视频帧各自对应的人体分割蒙版。基于预设的二值化处理策略，分别对获得的各人体分割蒙版进行二值化处理，获得多个前景视频帧各自对应的二值化蒙版。采用轮廓提取策略，分别将获得的各二值化蒙版，转换为轮廓描述方式，获得各人像轮廓。

将获得的各二值化蒙版作为阿尔法通道，与相应的前景视频帧合并，获得相应的四通道的前景视频帧。按照获得的各人像轮廓，分别在关联的四通道的前景视频帧中裁剪出相应的人像轮廓的外接矩形区域，获得各初始人像区域。具体可以参考前文介绍，在此不再赘述。

基于预设的人物聚类策略，对获得的各候选人像区域进行聚类处理，获得各视频人物各自对应的候选人像区域集。

基于指定尺寸的预设矩形框和预设滑动长度，分别沿水平方向和垂直方向，对至少一个背景视频帧进行滑窗裁剪，获得至少一个背景视频帧各自对应的多个视频帧子图。基于预设的复杂度衡量策略，分别确定获得的各视频帧子图各自的纹理复杂度。从各视频帧子图中，选取纹理复杂度满足背景筛选条件的视频帧子图，作为背景区域。

请参考图7E，为目标视频生成海报图像的一种原理示意图。

基于预设的多维特征提取策略，分别对获得的各初始人像区域进行多维特征提取，获得各初始人像区域各自对应的多维人像特征。从各初始人像区域中，筛选多维人像特征满足特征筛选条件的候选人像区域，获得各候选人像区域。

统计获得的各候选人像区域集各自包含的候选人像区域的区域数量。基于预存的海报模板包含的各模板人物的人物数量，按照区域数量从大到小的顺序，从各候选人像区域集中选取各模板人物各自关联的候选人像区域集。采用超分辨率网络模型（GFPGAN），分别对选取的多个候选人像区域集进行画质增强处理，获得各目标人像区域集。

分别确定获得的各目标人像区域集中，存在对应的视频人物的人物姿态，与关联的模板人物的人物姿态匹配的目标人像区域时，获得各模板人物各自关联的目标人像区域。

创建一个空白的画布，将各模板人物各自的人物位置，分别作为各调整人像区域各自的初始合成位置。基于预存的位置调整策略，对获得的各初始合成位置进行至少一轮迭代调整，获得各目标合成位置。基于各目标合成位置，对各调整人像区域与背景区域进行图像合成，生成目标视频的海报图像。

在预存的海报模板为多个时，可以选取其中能够确定出各模板人物各自关联的目标人像区域的海报模板，作为最终合成海报图像的参考。如果作为最终合成海报图像的参考的海报模板有多个，请参考图7F，包括第一海报模板和第二海报模板。基于第一海报模板可以确定出3个目标人像区域；基于第二海报模板可以确定出5各目标人像区域。那么，最终生成的海报图像也包括2个，第一海报图像包括3个视频人物，第二海报图像包含5个视频人物。可以将第一海报图像和第二海报图像呈现在客户端101中，响应于针对客户端101呈现的第一海报图像或第二海报图像触发的选择操作，获得目标视频的海报图像。其中，海报图像为选择操作选中的第一海报图像或第二海报图像。

基于同一发明构思，本申请实施例提供一种生成海报图像的装置，能够实现前述的生成海报图像的方法对应的功能。请参考图8，该装置包括获取模块801和处理模块802，其中：

获取模块801：用于基于目标视频包含的多个视频片段，获取视频帧集；其中，在目标视频中，每两个相邻的视频片段之间采用剪辑策略连接；视频帧集包括：多个前景视频帧和至少一个背景视频帧，每个前景视频帧包含至少一个视频人物，每个背景视频帧不包含任一视频人物；

处理模块802：用于从多个前景视频帧中，汇集各视频人物各自对应的候选人像区域集，以及从至少一个背景视频帧中，提取背景区域；其中，候选人像区域为：在关联的前景视频帧中，相应的视频人物所在的图像区域；背景区域为：在关联的背景视频帧中，纹理复杂度满足背景筛选条件的图像区域；

处理模块802还用于：基于预存的海报模板包含的各模板人物各自的人物位姿，从获得的各候选人像区域集中，选取多个目标人像区域与背景区域进行图像合成，生成目标视频的海报图像。

在一种可能的实施例中，获取模块801具体用于：

获取目标视频包含的多个视频片段；

基于预设的抽帧策略，分别从多个视频片段中，抽取多个初始视频帧；

基于预设的帧质量评估策略，分别对获得的各初始视频帧进行质量检测，获得各初始视频帧各自的质量评估值；

基于各初始视频帧中，质量评估值大于评估阈值的候选视频帧，生成视频帧集。

在一种可能的实施例中，获取模块801具体用于：

基于预设的人物检测策略，对各初始视频帧中，质量评估值大于评估阈值的候选视频帧进行人物检测，获得各候选视频帧各自的人物检测结果；其中，人物检测结果表征：相应的候选视频帧中，是否包含至少一个视频人物；

基于获得的各人物检测结果，将各候选视频帧中，包含至少一个视频人物的候选视频帧，作为前景视频帧，以及将各候选视频帧中，不包含任一视频人物的候选视频帧，作为背景视频帧，获得视频帧集。

在一种可能的实施例中，处理模块802具体用于：

基于预设的人物分割策略，分别对多个前景视频帧各自包含的至少一个视频人物进行人物分割，获得各视频人物各自的人像轮廓；

在一种可能的实施例中，处理模块802具体用于：

基于预设的多维特征提取策略，分别对获得的各初始人像区域进行多维特征提取，获得各初始人像区域各自对应的多维人像特征；其中，多维人像特征表征：在相应的初始人像区域中呈现出的视频人物的多种属性；

从各初始人像区域中，筛选多维人像特征满足特征筛选条件的候选人像区域，获得各候选人像区域。

在一种可能的实施例中，多维人像特征包括以下特征中的多种组合：相应视频人物的人物名称、人物表情、人脸朝向、人脸遮挡度、人像完整度，以及人脸区域在相应的初始人像区域中的人脸占比。

在一种可能的实施例中，处理模块802具体用于：

基于指定尺寸的预设矩形框和预设滑动长度，分别沿水平方向和垂直方向，对至少一个背景视频帧进行滑窗裁剪，获得至少一个背景视频帧各自对应的多个视频帧子图；

从各视频帧子图中，选取纹理复杂度满足背景筛选条件的视频帧子图，作为背景区域。

在一种可能的实施例中，处理模块802具体用于：

基于获得的各候选人像区域集各自包含的候选人像区域的区域数量，确定各候选人像区域集中，海报模板包含的各模板人物各自关联的目标人像区域集；

分别确定获得的各目标人像区域集中，存在对应的视频人物的人物姿态，与关联的模板人物的人物姿态匹配的目标人像区域时，获得各模板人物各自关联的目标人像区域；

基于各模板人物各自在海报中的人物位置，对获得的各目标人像区域与背景区域进行图像合成，生成目标视频的海报图像。

在一种可能的实施例中，海报模板包含的各模板人物各自关联设置有人物等级；人物等级表征：相应的模板人物在海报中的重要程度，重要程度与人物等级呈正相关；

则处理模块802具体用于：

基于预存的海报模板包含的各模板人物的人物数量，按照区域数量从大到小的顺序，从各候选人像区域集中选取多个目标人像区域集；

基于多个目标人像区域集各自对应的区域数量，以及各模板人物的各自的人物等级，分别为各模板人物关联相应的目标人像区域集；其中，区域数量与人物等级呈正相关。

在一种可能的实施例中，处理模块802具体用于：

按照各模板人物各自的人物尺寸，分别对多个目标人像区域进行缩放处理，获得各调整人像区域；

将各模板人物各自的人物位置，分别作为各调整人像区域各自的初始合成位置；

基于预存的位置调整策略，对获得的各初始合成位置进行至少一轮迭代调整，获得各目标合成位置；其中，位置调整策略用于：调整与其他调整人像区域存在人脸遮挡的调整人像区域的初始合成位置；

基于各目标合成位置，对各调整人像区域与背景区域进行图像合成，生成目标视频的海报图像。

在一种可能的实施例中，每轮迭代调整处理模块802具体用于：

获取各调整人像区域各自的当前合成位置；其中，在第一轮迭代调整时，当前合成位置为相应调整人像区域的初始合成位置；在第一轮迭代调整以外的其他轮迭代调整时，当前合成位置为上一轮迭代调整后获得的相应的调整人像区域的中间合成位置；

基于获得的各当前合成位置，依次排列各调整人像区域，直到各调整人像区域均已排列，获得各调整人像区域各自的目标合成位置；其中，每排列一个调整人像区域时，执行以下操作：

在一种可能的实施例中，处理模块802具体用于：

将当前排列的调整人像区域作为当前人像区域，并分别将本轮迭代调整过程中已排列的各调整人像区域作为相应的已排列人像区域，确定当前人像区域中的人像所在位置，与各已排列人像区域中的人像所在位置存在重叠区域时，基于预存的偏移策略，确定当前人像区域的偏移向量；

按照偏移向量，调整当前人像区域的当前合成位置，获得当前人像区域的中间合成位置。

在一种可能的实施例中，处理模块802具体用于：

基于各已排列人像区域各自的中间合成位置和当前人像区域的当前合成位置，分别确定各已排列人像区域和当前人像区域各自的质心位置；

分别以各已排列人像区域各自的质心位置为向量起点，以当前人像区域的质心位置为向量终点，获得各已排列人像区域各自相对于当前人像区域的位置向量；

将获得的各位置向量的加权和，作为当前人像区域的偏移向量。

请参照图9，是本申请实施例提供的一种计算机设备900，该计算机设备900例如可以为图1C中的客户端101或服务端102。数据存储程序的当前版本和历史版本以及数据存储程序对应的应用软件可以安装在计算机设备900上，该计算机设备900包括处理器980以及存储器920。在一些实施例中，该计算机设备900可以包括显示单元940，显示单元940包括显示面板941，用于显示由用户交互操作界面等。

在一种可能的实施例中，可以采用液晶显示器（Liquid Crystal Display，LCD）或有机发光二极管OLED（Organic Light-Emitting Diode）等形式来配置显示面板941。

处理器980用于读取计算机程序，然后执行计算机程序定义的方法，例如处理器980读取数据存储程序或文件等，从而在该计算机设备900上运行数据存储程序，在显示单元940上显示对应的界面。处理器980可以包括一个或多个通用处理器，还可包括一个或多个DSP（Digital Signal Processor，数字信号处理器），用于执行相关操作，以实现本申请实施例所提供的技术方案。

存储器920一般包括内存和外存，内存可以为随机存储器（RAM），只读存储器（ROM），以及高速缓存（CACHE）等。外存可以为硬盘、光盘、USB盘、软盘或磁带机等。存储器920用于存储计算机程序和其他数据，该计算机程序包括各客户端对应的应用程序等，其他数据可包括操作系统或应用程序被运行后产生的数据，该数据包括系统数据（例如操作系统的配置参数）和用户数据。本申请实施例中计算机程序存储在存储器920中，处理器980执行存储器920中的计算机程序，实现前文图论述的任意的一种方法。

上述显示单元940用于接收输入的数字信息、字符信息或接触式触摸操作/非接触式手势，以及产生与计算机设备900的用户设置以及功能控制有关的信号输入等。具体地，本申请实施例中，该显示单元940可以包括显示面板941。显示面板941例如触摸屏，可收集用户在其上或附近的触摸操作（比如用户使用手指、触笔等任何适合的物体或附件在显示面板941上或在显示面板941的操作），并根据预先设定的程式驱动相应的连接装置。

在一种可能的实施例中，显示面板941可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测玩家的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器980，并能接收处理器980发来的命令并加以执行。

其中，显示面板941可以采用电阻式、电容式、红外线以及表面声波等多种类型实现。除了显示单元940，在一些实施例中，计算机设备900还可以包括输入单元930，输入单元930可以包括图像输入设备931和其他输入设备932，其中其他输入设备可以但不限于包括物理键盘、功能键（比如音量控制按键、开关按键等）、轨迹球、鼠标、操作杆等中的一种或多种。

除以上之外，计算机设备900还可以包括用于给其他模块供电的电源990、音频电路960、近场通信模块970和RF电路910。计算机设备900还可以包括一个或多个传感器950，例如加速度传感器、光传感器、压力传感器等。音频电路960具体包括扬声器961和麦克风962等，例如计算机设备900可以通过麦克风962采集用户的声音，进行相应的操作等。

作为一种实施例，处理器980的数量可以是一个或多个，处理器980和存储器920可以是耦合设置，也可以是相对独立设置。

作为一种实施例，图9中的处理器980可以用于实现如图8中的获取模块801和处理模块802的功能。

作为一种实施例，图9中的处理器980可以用于实现前文论述的服务器或终端设备对应的功能。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过计算机程序来完成，前述的计算机程序可以存储于一计算机可读取存储介质中，该计算机程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，例如，通过计算机程序产品体现，该计算机程序产品存储在一个存储介质中，包括计算机程序用以使得一台计算机设备执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种生成海报图像的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于目标视频包含的多个视频片段，获取视频帧集，包括：

获取目标视频包含的多个视频片段；

3.根据权利要求2所述的方法，其特征在于，所述基于所述各初始视频帧中，质量评估值大于评估阈值的候选视频帧，生成视频帧集，包括：

4.根据权利要求1所述的方法，其特征在于，所述从所述多个前景视频帧中，汇集各视频人物各自对应的候选人像区域集，包括：

5.根据权利要求4所述的方法，其特征在于，所述基于获得的各人像轮廓各自在关联的前景视频帧中的外接矩形区域，获得各候选人像区域，包括：

6.根据权利要求5所述的方法，其特征在于，所述多维人像特征包括以下特征中的多种组合：相应视频人物的人物名称、人物表情、人脸朝向、人脸遮挡度、人像完整度，以及人脸区域在相应的初始人像区域中的人脸占比。

7.根据权利要求1所述的方法，其特征在于，所述从所述至少一个背景视频帧中，提取背景区域，包括：

8.根据权利要求1~7任一项所述的方法，其特征在于，所述基于预存的海报模板包含的各模板人物各自的人物位姿，从获得的各候选人像区域集中，选取多个目标人像区域与所述背景区域进行图像合成，生成所述目标视频的海报图像，包括：

9.根据权利要求8所述的方法，其特征在于，所述海报模板包含的各模板人物各自关联设置有人物等级；所述人物等级表征：相应的模板人物在所述海报中的重要程度，所述重要程度与所述人物等级呈正相关；

则所述基于获得的各候选人像区域集各自包含的候选人像区域的区域数量，确定所述各候选人像区域集中，所述海报模板包含的各模板人物各自关联的目标人像区域集，包括：

10.根据权利要求8所述的方法，其特征在于，所述基于所述各模板人物各自在所述海报中的人物位置，对获得的各目标人像区域与所述背景区域进行图像合成，生成所述目标视频的海报图像，包括：

11.根据权利要求10所述的方法，其特征在于，每轮迭代调整包括：

12.根据权利要求10所述的方法，其特征在于，所述对当前排列的调整人像区域的当前合成位置进行位置调整，获得相应的中间合成位置，包括：

13.根据权利要求12所述的方法，其特征在于，所述基于预存的偏移策略，确定所述当前人像区域的偏移向量，包括：

14.一种生成海报图像的装置，其特征在于，包括：

15.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1~13中任一项所述的方法。

16.一种计算机设备，其特征在于，包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序指令执行如权利要求1~13中任一项所述的方法。

17.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如权利要求1~13中任一项所述的方法。