CN115700770A

CN115700770A - 图像生成方法、装置及系统、计算机可读存储介质

Info

Publication number: CN115700770A
Application number: CN202110932007.7A
Authority: CN
Inventors: 王敏波; 陈显义
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2021-07-29
Filing date: 2021-08-13
Publication date: 2023-02-07

Abstract

本申请公开了一种图像生成方法、装置及系统、计算机可读存储介质，属于图像处理技术领域。终端或中控平台首先获取人体成像以及人体成像的人体描述信息，并且获取目标背景模板以及目标背景模板的目标模板信息。人体描述信息包括人体姿态信息，目标背景模板包括与人体成像匹配的预置位，目标模板信息包括预置位关联的人体姿态信息。然后终端或中控平台根据人体描述信息以及目标模板信息，将人体成像置于目标背景模板中与人体成像匹配的预置位上，以得到合成图像。由于背景模板中配置有与人体姿态信息关联的预置位，因此可以根据人体成像的人体姿态信息，将人体成像置于与该人体成像匹配的预置位上，使得人体成像与背景模板匹配。

Description

图像生成方法、装置及系统、计算机可读存储介质

技术领域

本申请涉及图像处理技术领域，特别涉及一种图像生成方法、装置及系统、计算机可读存储介质。

背景技术

在现代会议系统中，随着跨地域的协作越来越多以及成本的要求，对视频会议的需求日益增加。出于对用户所处环境隐私的保护，通常需要将视频会议图像中的真实背景替换为虚拟背景。

在一些研究中，通过对视频会议图像进行实例分割得到人体成像，然后将人体成像融合至虚拟背景中，以得到合成图像。

但是，合成图像中可能会出现人体成像与虚拟背景不匹配的问题，导致合成图像的成像效果较差。

发明内容

本申请提供了一种图像生成方法、装置及系统、计算机可读存储介质，可以解决目前由于人体成像与虚拟背景不匹配导致的合成图像的成像效果较差的问题。

第一方面，提供了一种图像生成方法，应用于终端或中控平台。其中，中控平台指的是能够控制和管理多个终端的控制平台。该方法包括：获取至少一个图像中的一个或多个人体成像以及人体成像的人体描述信息，人体描述信息包括人体姿态信息。获取目标背景模板以及目标背景模板的目标模板信息，目标背景模板包括与人体成像匹配的预置位，目标模板信息包括预置位关联的人体姿态信息。根据人体描述信息以及目标模板信息，将人体成像置于目标背景模板中与人体成像匹配的预置位上，以得到合成图像。

本申请中，通过在背景模板中预先配置与人体姿态信息关联的预置位，在对图像进行背景更换时，根据图像中人体成像的人体姿态信息，将该人体成像置于背景模板中与该人体成像匹配的预置位上，使得人体成像与背景模板匹配，进而使得合成图像的成像效果较好。

可选地，人体姿态信息包括人体偏转角度和/或人体姿态。可选地，人体姿态为站、坐、躺或卧等。本申请中，人体姿态用于描述一个人处于站、坐、躺或卧等状态。

可选地，人体描述信息还包括对人体成像中的人体关键点的第一位置指示，目标模板信息还包括对预置位上的人体关键区域的第二位置指示。根据人体描述信息以及目标模板信息，将人体成像置于目标背景模板中与人体成像匹配的预置位上的实现过程，包括：根据第一位置指示以及第二位置指示，将人体成像中的人体关键点设置在目标背景模板中与人体成像匹配的预置位上对应的人体关键区域内。

本申请中，人体关键区域指人体关键点所在区域。将人体成像中的人体关键点设置在目标背景模板中与该人体成像匹配的预置位上对应的人体关键点区域内，能够提高人体成像与目标背景模板的融合效果，进而提高合成图像的成像效果。

可选地，一个或多个人体成像包括人体姿态信息相同的第一人体成像和第二人体成像，第一人体成像的原始尺寸大于第二人体成像的原始尺寸。第一人体成像所在的预置位到目标相机的距离小于第二人体成像所在的预置位到目标相机的距离，合成图像中的第一人体成像的目标尺寸大于第二人体成像的目标尺寸。目标相机为目标背景模板对应的相机。

其中，目标相机为目标背景模板对应的相机，可以理解为：目标背景模板由目标相机拍摄得到，即目标相机是真实相机，目标背景模板是真实场景成像；或者，目标背景模板是模拟目标相机拍摄得到的，即目标相机是虚拟相机，目标背景模板是构建出来的虚拟场景成像。无论目标相机是真实相机还是虚拟相机，目标相机的相机参数总是指拍摄目标背景模板采用的相机参数。

本申请中，在背景模板的预置位中设置人体成像时，可以遵循“近大远小”的原则，使合成图像中距离目标相机越近的人体成像的尺寸越大，距离目标相机越远的人体成像的尺寸越小，进而使得合成图像的成像效果更贴近真实相机拍摄到的真实图像。另外，将获取的人体姿态信息相同的多个人体成像中，尺寸越大的人体成像设置在越靠近目标相机的预置位上，尺寸越小的人体成像设置在越远离目标相机的预置位上，这样在调整人体成像的尺寸，尤其是放大人体成像的尺寸时，可以使多个人体成像的失真程度较为统一，避免将尺寸较小的人体成像设置在比较靠近目标相机的预置位上时，该人体成像的放大倍数过大而导致该人体成像的失真程度较为严重，从而使得合成图像的成像效果较好。

在第一种实现方式中，目标模板信息还包括预置位对应的成像物体沿目标相机的主光轴方向到目标相机的光心的距离以及目标相机的相机参数，目标相机为目标背景模板对应的相机。将人体成像置于目标背景模板中与人体成像匹配的预置位上的实现过程，包括：根据预置位对应的成像物体沿目标相机的主光轴方向到目标相机的光心的距离，对人体成像进行缩放处理；将经过缩放处理的人体成像置于目标背景模板中与人体成像匹配的预置位上。

在一些场景中，人体成像为二维图像。设人体成像中某个像素点P的像素坐标为(x，y)，采用缩放因子s对像素点P的像素坐标进行缩放处理，使像素点P在经过缩放处理的人体成像中对应的像素点P’的像素坐标为(sx，sy)。其中，s＝w/h，w＝m*f/(d1*p)。h为人体成像的原始像素高度，单位为像素数量。m为预设的人体身高，单位为米。f为目标相机的焦距，p为目标相机的像元尺寸。d1为与该人体成像匹配的预置位对应的成像物体在沿目标相机的主光轴方向到目标相机的光心的距离。

在另一些场景中，人体成像为三维图像。当人体成像为三维图像时，可以采用点云表示该人体成像。设点云中某个三维点Q的坐标为(X，Y，Z)，采用缩放因子s对三维点Q的坐标进行缩放处理，使三维点Q在经过缩放处理的人体成像中对应的三维点Q’的坐标为(X，Y，Z_s)。其中，Z_s＝Z+(d2-s)，s为点云中深度信息的平均值或中值。d2为与该人体成像匹配的预置位对应的成像物体在沿目标相机的主光轴方向到目标相机的光心的距离。

当人体成像为二维图像，在对人体成像进行缩放处理后，直接将经过缩放处理的人体成像置于目标背景模板中与人体成像匹配的预置位上。当人体成像为三维图像，在对人体成像进行缩放处理后，采用目标相机的相机参数对经过缩放处理的人体成像进行投影变换，得到二维图像，再将二维图像置于目标背景模板中与人体成像匹配的预置位上。

在第二种实现方式中，目标背景模板的目标模板信息包括目标背景模板中的预置位的尺寸信息。将人体成像置于目标背景模板中与人体成像匹配的预置位上的实现过程，包括：根据人体成像的原始尺寸以及该人体成像所匹配的预置位的尺寸，对该人体成像进行缩放处理，使经过缩放处理的人体成像的目标尺寸与该人体成像所匹配的预置位的尺寸相匹配，再将经过缩放处理的人体成像置于目标背景模板中与该人体成像匹配的预置位上。

可选地，获取至少一个图像中的一个或多个人体成像以及人体成像的人体描述信息的实现过程，包括：对图像进行实例分割，得到图像中的人体成像；对人体成像进行姿态估计，得到人体成像的人体描述信息。

本申请中的实例分割特指人体实例分割，用于分割出图像中完整的人体成像或者分割出图像中人体成像的上半身。

可选地，获取的图像为三维图像，则对图像进行实例分割得到的人体成像也为三维图像，对人体成像进行姿态估计的实现过程，包括：对人体成像进行三维姿态估计。

可选地，获取目标背景模板以及目标背景模板的目标模板信息的实现过程，包括：根据一个或多个人体成像以及人体成像的人体姿态信息，获取目标背景模板以及目标模板信息。

可选地，根据一个或多个人体成像以及人体成像的人体姿态信息，获取目标背景模板以及目标模板信息的实现过程，包括：

根据一个或多个人体成像以及人体成像的人体姿态信息，获取多个待选背景模板以及待选背景模板的模板信息，待选背景模板包括与人体成像匹配的预置位，模板信息包括预置位关联的人体姿态信息。显示多个待选背景模板。响应于对多个待选背景模板中的第一待选背景模板的选择指令，将第一待选背景模板确定为目标背景模板，并将第一待选背景模板的模板信息确定为目标模板信息。

本申请中，当终端或中控平台根据人体成像以及人体成像的人体姿态信息获取到多个待选背景模板时，可以在显示界面上显示该多个待选背景模板以供用户选择，提高用户体验。

可选地，在得到合成图像之后，终端显示合成图像以及背景调节控件，该背景调节控件用于调节合成图像的背景。可选地，背景调节控件包括亮度调节控件、对比度调节控件、缩放控件或旋转方向调节控件中的一个或多个。

可选地，响应于对背景调节控件的操控指令，根据操控指令调节合成图像的背景。

本申请中，通过显示合成图像以及对合成图像的背景调节控件，可以实现通过操作背景调节控件对合成图像的背景进行微调，从而提升视觉效果，提高了用户体验。

可选地，如果上述方法应用于终端，终端获取人体成像以及人体成像的人体描述信息的实现过程包括：接收其它终端发送的人体成像以及人体成像的描述信息。

可选地，如果上述方法应用于中控平台，中控平台获取人体成像以及人体成像的人体描述信息的实现过程包括：接收终端发送的人体成像以及人体成像的描述信息。

可选地，如果上述方法应用于终端，终端获取目标背景模板以及目标背景模板的目标模板信息的实现过程包括：接收中控平台发送的目标背景模板以及目标背景模板的目标模板信息。或者，接收中控平台发送的多个待选背景模板以及待选背景模板的模板信息，待选背景模板包括与人体成像匹配的预置位，模板信息包括预置位关联的人体姿态信息。显示多个待选背景模板。响应于对多个待选背景模板中的第一待选背景模板的选择指令，将第一待选背景模板确定为目标背景模板，并将第一待选背景模板的模板信息确定为目标模板信息。

第二方面，提供了一种图像生成装置。所述装置包括多个功能模块，所述多个功能模块相互作用，实现上述第一方面及其各实施方式中的方法。所述多个功能模块可以基于软件、硬件或软件和硬件的结合实现，且所述多个功能模块可以基于具体实现进行任意组合或分割。

第三方面，提供了一种图像生成装置，包括：处理器和存储器；

所述存储器，用于存储计算机程序，所述计算机程序包括程序指令；

所述处理器，用于调用所述计算机程序，实现上述第一方面及其各实施方式中的方法。

第四方面，提供了一种图像生成系统，包括：第一终端和第二终端；

所述第一终端用于对第一图像进行实例分割，得到所述第一图像中的人体成像，并对所述人体成像进行姿态估计，得到所述人体成像的人体描述信息，所述人体描述信息包括人体姿态信息，所述第一图像由所述第一终端采集得到，或者，所述第一图像由与所述第一终端连接的图像采集设备采集得到；

所述第一终端还用于向所述第二终端发送所述第一图像中的人体成像以及所述人体成像的人体描述信息；

所述第二终端用于根据一个或多个人体成像以及所述人体成像的人体姿态信息，获取目标背景模板以及所述目标背景模板的目标模板信息，所述一个或多个人体成像包括所述第一图像中的人体成像，所述目标背景模板包括与所述人体成像匹配的预置位，所述目标模板信息包括所述预置位关联的人体姿态信息；

所述第二终端还用于根据所述人体描述信息以及所述目标模板信息，将所述人体成像置于所述目标背景模板中与所述人体成像匹配的预置位上，以得到合成图像；

所述第二终端还用于显示所述合成图像。

可选地，所述一个或多个人体成像还包括第二图像中的人体成像，所述第二图像由所述第二终端采集得到，或者，所述第二图像由与所述第二终端连接的图像采集设备采集得到。所述第二终端还用于对所述第二图像进行实例分割，得到所述第二图像中的人体成像，并对所述人体成像进行姿态估计，得到所述人体成像的人体描述信息。

第五方面，提供了另一种图像生成系统，包括：第一终端和第二终端；

所述第一终端还用于根据所述人体成像以及所述人体成像的人体姿态信息，获取目标背景模板以及所述目标背景模板的目标模板信息，所述目标背景模板包括与所述人体成像匹配的预置位，所述目标模板信息包括所述预置位关联的人体姿态信息；

所述第一终端还用于根据所述人体描述信息以及所述目标模板信息，将所述人体成像置于所述目标背景模板中与所述人体成像匹配的预置位上，以得到合成图像；

所述第一终端还用于向所述第二终端发送所述合成图像；

所述第二终端用于显示所述合成图像。

第六方面，提供了又一种图像生成系统，包括：中控平台和多个终端；

所述终端用于对图像进行实例分割，得到所述图像中的人体成像，并对所述人体成像进行姿态估计，得到所述人体成像的人体描述信息，所述人体描述信息包括人体姿态信息，所述图像由所述终端采集得到，或者，所述图像由与所述终端连接的图像采集设备采集得到；

所述终端还用于向所述中控平台发送所述人体成像以及所述人体成像的人体描述信息；

所述中控平台用于根据来自所述多个终端的人体成像以及所述人体成像的人体姿态信息，获取目标背景模板以及所述目标背景模板的目标模板信息，所述目标背景模板包括与所述人体成像匹配的预置位，所述目标模板信息包括所述预置位关联的人体姿态信息；

所述中控平台还用于根据所述人体描述信息以及所述目标模板信息，将所述人体成像置于所述目标背景模板中与所述人体成像匹配的预置位上，以得到合成图像；

所述中控平台还用于分别向所述多个终端发送所述合成图像；

所述终端还用于显示所述合成图像。

第七方面，提供了再一种图像生成系统，包括：中控平台和多个终端；

所述终端用于向所述中控平台发送图像，所述图像由所述终端采集得到，或者，所述图像由与所述终端连接的图像采集设备采集得到；

所述中控平台用于对来自所述多个终端的多个图像分别进行实例分割，得到所述多个图像中的人体成像，并对所述人体成像进行姿态估计，得到所述人体成像的人体描述信息，所述人体描述信息包括人体姿态信息；

所述中控平台还用于根据所述人体成像以及所述人体成像的人体姿态信息，获取目标背景模板以及所述目标背景模板的目标模板信息，所述目标背景模板包括与所述人体成像匹配的预置位，所述目标模板信息包括所述预置位关联的人体姿态信息；

所述终端还用于显示所述合成图像。

第八方面，提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，当所述指令被处理器执行时，实现上述第一方面及其各实施方式中的方法。

第九方面，提供了一种芯片，芯片包括可编程逻辑电路和/或程序指令，当芯片运行时，实现上述第一方面及其各实施方式中的方法。

附图说明

图1是本申请实施例提供的一种图像生成方法涉及的应用场景示意图；

图2是本申请实施例提供的另一种图像生成方法涉及的应用场景示意图；

图3是本申请实施例提供的一种图像生成方法的流程示意图；

图4是本申请实施例提供的一种空间坐标系的示意图；

图5是本申请实施例提供的一种图像示意图；

图6是本申请实施例提供的一种基于图5所示的图像获取的人体成像的示意图；

图7是本申请实施例提供的另一种基于图5所示的图像获取的人体成像的示意图；

图8是本申请实施例提供的一种人体关键点的示意图；

图9是本申请实施例提供的另一种人体关键点的示意图；

图10是本申请实施例提供的又一种人体关键点的示意图；

图11是本申请实施例提供的再一种人体关键点的示意图；

图12是本申请实施例提供的一种背景模板的示意图；

图13是本申请实施例提供的另一种背景模板的示意图；

图14是本申请实施例提供的又一种背景模板的示意图；

图15是本申请实施例提供的一种合成图像的示意图；

图16是本申请实施例提供的另一种合成图像的示意图；

图17是本申请实施例提供的又一种合成图像的示意图；

图18是本申请实施例提供的一种目标相机的模型示意图；

图19是本申请实施例提供的另一种图像生成方法的流程示意图；

图20是本申请实施例提供的一种终端的显示界面示意图；

图21是本申请实施例提供的另一种终端的显示界面示意图；

图22是本申请实施例提供的又一种图像生成方法的流程示意图；

图23是本申请实施例提供的再一种图像生成方法的流程示意图；

图24是本申请实施例提供的还一种图像生成方法的流程示意图；

图25是本申请实施例提供的一种基于多个图像得到合成图像的转换示意图；

图26是本申请实施例提供的一种图像生成装置的结构示意图；

图27是本申请实施例提供的另一种图像生成装置的结构示意图；

图28是本申请实施例提供的又一种图像生成装置的结构示意图；

图29是本申请实施例提供的一种图像生成装置的框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

在现代会议系统中，随着跨地域的协作越来越多以及成本的要求，对视频会议的需求日益增加。出于对用户所处环境隐私的保护，通常需要将视频会议图像中的真实背景替换为虚拟背景。进一步地，通过将不同会议室的人放到同一个虚拟背景中，可以让多个参会方感觉像是在一起工作，从而能够改善多人协作氛围。

在视频会议场景中，由于相机视角、参会人员的姿态复杂，例如，参会人员可能是站着的，可能是坐着的，坐着的参会人员可能是正对相机的，可能是侧对相机的，也可能是背对相机的，因此对相机采集到的视频会议图像进行实例分割得到人体成像后，直接将人体成像融合至虚拟背景中，可能会出现人体成像与虚拟背景不匹配的问题，引发很明显的违和感。尤其是将不同会议室的人放到同一个虚拟背景中时，人体成像与虚拟背景不匹配引发的违和感会更加明显。

有鉴于此，本申请实施例提供了一种图像生成方法，通过在背景模板中预先配置与人体姿态信息关联的预置位，在对图像进行背景更换时，根据图像中人体成像的人体姿态信息，将该人体成像置于背景模板中与该人体成像匹配的预置位上，使得人体成像与背景模板匹配，进而使得合成图像的成像效果较好。

下面从应用场景、方法流程、软件装置、硬件装置等多个角度，对本申请提供的技术方案进行详细介绍。

下面对本申请实施例的应用场景举例说明。

例如，图1是本申请实施例提供的一种图像生成方法涉及的应用场景示意图。如图1所示，该应用场景包括多个终端。多个终端两两之间通信连接。图1示出的应用场景以包括三个终端(终端1-3)为例，实际场景还可以包括两个终端、四个或更多的终端，本申请实施例对应用场景包括的终端的数量不做限制。

可选地，终端中集成有图像采集设备，或者，终端与图像采集设备连接。

终端用于显示图像或播放视频流。可选地，终端为大屏、电子白板、手机、平板电脑或智能可穿戴设备等具有显示功能和图像处理功能的电子设备。

图像采集设备用于采集视频流。可选地，图像采集设备包括彩色相机，则图像采集设备采集的视频流中的图像(视频帧)为RGB图像(彩色图像)。或者，图像采集设备包括深度相机和彩色相机，其中，深度相机用于采集深度图像，彩色相机用于采集RGB图像，则图像采集设备采集的视频流中的图像为具有深度信息的RGB图像(简称：RGB-D图像)。又或者，图像采集设备为双目相机，双目相机包含两个普通相机(即双目相机具有两个摄像头)，则图像采集设备采集的视频流中的图像为三维图像。如果双目相机包括一个彩色相机和一个黑白相机，或者双目相机包括两个彩色相机，那么该双目相机采集的图像为RGB-D图像。其中，RGB图像为二维图像，RGB-D图像为三维图像。

又例如，图2是本申请实施例提供的另一种图像生成方法涉及的应用场景示意图。与图1所示的应用场景不同的是，图2所示的应用场景还包括中控平台。如图2所示，该应用场景包括中控平台和多个终端。每个终端分别与中控平台通信连接。其中，中控平台指的是能够控制和管理多个终端的控制平台。

图2中的终端与图1中的终端类似，请参照上述对图1中的终端的描述，在这里不再重复。中控平台可以是一台服务器，或者是由若干台服务器组成的服务器集群，或者是一个云计算中心。

本申请实施例提供的图像生成方法能够应用于视频会议、视频聊天等视频通讯场景，还能够应用于具有图像背景更换需求的其它场景，本申请实施例对应用场景的类型不做限定。

下面对本申请实施例的方法流程举例说明。

图3是本申请实施例提供的一种图像生成方法300的流程示意图。如图3所示，方法300包括以下步骤301至步骤303。

可选地，方法300所基于的应用场景如图1所示，方法300应用于图1中的任一终端。或者，方法300所基于的应用场景如图2所示，方法300应用于图2中的任一终端或中控平台。

可选地，方法300所基于的应用场景如图1或图2所示，方法300中的至少一个图像来自至少一个终端，例如，方法300应用于终端1，方法300中的至少一个图像来自终端1、终端2和/或终端3。如果方法300中的至少一个图像包括多个图像，则该多个图像分别来自多个终端。可选地，多个图像的采集时刻相同。

步骤301、获取至少一个图像中的一个或多个人体成像以及人体成像的人体描述信息。

人体描述信息包括人体姿态信息。可选地，人体姿态信息包括人体偏转角度(yaw)和/或人体姿态，也即是，人体姿态信息可以包括人体偏转角度，或者，人体姿态信息包括人体姿态，又或者，人体姿态信息包括人体偏转角度和人体姿态。

其中，人体偏转角度是人体沿垂直于水平面的方向旋转的角度，例如，图4是本申请实施例提供的一种空间坐标系的示意图，如图4所示，x轴与z轴位于水平面，y轴垂直于水平面，人体偏转角度指人体沿y轴旋转的角度。本申请实施例中，人体偏转角度为0°，表示人体正对采集该人体对应的人体图像的图像采集设备；人体偏转角度为180°，表示人体背对采集该人体对应的人体图像的图像采集设备；人体偏转角度为正值(0°至180°)，表示人体面向采集该人体对应的人体图像的图像采集设备右转；人体偏转角度为负值(0°至-180°)，表示人体面向采集该人体对应的人体图像的图像采集设备左转。可选地，人体姿态为站、坐、躺或卧等。本申请实施例中，人体姿态用于描述一个人处于站、坐、躺或卧等状态。

本申请实施例中，从图像中获取的人体成像可以是该图像中完整的人体成像，这种情况下，获取的人体成像的人体姿态可以是站或坐等。或者，从图像中获取的人体成像也可以仅包括该图像中人体成像的上半身，这种情况下，可以将图像中人体姿态为站的人体成像的上半身视为人体姿态为坐的人体成像。

例如，图5是本申请实施例提供的一种图像示意图。如图5所示，该图像中包括8个人体成像。其中，人体成像1-3的人体姿态为坐，人体偏转角度为45°；人体成像4-5的人体姿态为坐，人体偏转角度为-45°；人体成像6-8的人体姿态为站，人体偏转角度为0°。

在第一种实现方式中，获取图5所示的图像中完整的人体成像，则获取的人体成像1-8可以如图6所示，人体成像1-8的人体描述信息分别包括：人体成像1-3的人体姿态为坐，人体偏转角度为45°；人体成像4-5的人体姿态为坐，人体偏转角度为-45°；人体成像6-8的人体姿态为站，人体偏转角度为0°。

在第二种实现方式中，获取图5所示的图像中人体成像的上半身，则获取的人体成像1-8可以如图7所示，人体成像1-8的人体描述信息分别包括：人体成像1-3的人体姿态为坐，人体偏转角度为45°；人体成像4-5的人体姿态为坐，人体偏转角度为-45°；人体成像6-8的人体姿态为坐，人体偏转角度为0°。

可选地，人体描述信息还包括对人体成像中的人体关键点的第一位置指示。对人体成像中的人体关键点的第一位置指示，例如可以是人体成像中人体关键点的像素坐标。人体关键点可以是人体骨骼点，包括头部、肩膀、手腕、手肘、髋部、膝盖或脚踝中的一个或多个。

可选地，获取图像中的人体成像以及人体成像的人体描述信息的实现过程，包括以下步骤3011至步骤3012：

在步骤3011中，对图像进行实例分割，得到图像中的人体成像。

可选地，通过对图像进行实例分割得到人体掩膜，再基于人体掩膜以及该图像，获取该图像中的人体成像。例如，对如图5所示的图像进行实例分割，可以得到图6或图7示出的人体成像。本申请实施例中的实例分割特指人体实例分割。

在步骤3012中，对人体成像进行姿态估计，得到人体成像的人体描述信息。

可选地，通过对人体成像进行姿态估计得到该人体成像中多个人体关键点的位置，再基于多个人体关键点之间的位置关系，确定该人体成像的人体姿态和/或人体偏转角度，以得到人体姿态信息。

例如，对人体姿态为坐、人体偏转角度为45°的人体成像进行姿态估计，可以得到如图8所示的人体关键点；对人体姿态为坐、人体偏转角度为-45°的人体成像进行姿态估计，可以得到如图9所示的人体关键点；对人体姿态为站、人体偏转角度为0°的人体成像进行姿态估计，可以得到如图10所示的人体关键点；对人体姿态为坐、人体偏转角度为0°的人体成像进行姿态估计，可以得到如图11所示的人体关键点。

可选地，上述图像为二维图像，则对该图像进行实例分割得到的人体成像也为二维图像，步骤3012的实现过程包括：对人体成像进行二维姿态估计，得到人体成像的人体描述信息。或者，上述图像为三维图像，则对该图像进行实例分割得到的人体成像也为三维图像，步骤3012的实现过程，包括：对人体成像进行三维姿态估计，得到人体成像的人体描述信息。

本申请实施例中，通过终端或者与终端连接的图像采集设备采集三维图像，再由终端或中控平台对三维图像进行实例分割得到人体成像，并对人体成像进行三维姿态估计得到该人体成像的人体姿态信息。相对于二维图像，对三维图像进行实例分割以及姿态估计的精度更高。

步骤302、获取目标背景模板以及目标背景模板的目标模板信息。

目标背景模板包括与获取的一个或多个人体成像匹配的预置位。目标模板信息包括目标背景模板中的预置位关联的人体姿态信息。如果背景模板中的预置位关联的人体姿态信息与一个人体成像的人体姿态信息匹配，则判定该预置位与该人体成像匹配。本申请实施例中，背景模板中的一个预置位用于放置一个人体成像，目标背景模板中每种预置位的数量不少于获取的与这种预置位匹配的人体成像的数量。例如，获取的人体成像中包括3个人体姿态为坐、人体偏转角度为45°的人体成像，则目标背景模板应满足：包括3个或3个以上被配置为放置人体姿态为坐、人体偏转角度为45°的人体成像的预置位，也即是，包括3个或3个以上的预置位与人体姿态信息“人体姿态为坐、人体偏转角度为45°”关联。

例如，图12是本申请实施例提供的一种背景模板的示意图。如图12所示，该背景模板包括15个预置位。其中，3个预置位被配置为放置人体姿态为坐、人体偏转角度为45°的人体成像；3个预置位被配置为放置人体姿态为坐、人体偏转角度为-45°的人体成像；9个预置位被配置为放置人体姿态为站的人体成像。

本申请实施例提供的背景模板中，对于被配置为放置人体姿态为站的人体成像的预置位，可以不限定该预置位关联的人体偏转角度，使得该预置位可以放置人体姿态为站的任意人体偏转角度的人体成像，以扩大背景模板的适用范围。当然，本申请实施例也不排除预置位关联有人体偏转角度的方案。

又例如，图13是本申请实施例提供的另一种背景模板的示意图。如图13所示，该背景模板包括11个预置位，这11个预置位都被配置为放置人体姿态为坐的人体成像。其中，3个预置位被配置为放置人体偏转角度为45°的人体成像；3个预置位被配置为放置人体偏转角度为-45°的人体成像；3个预置位被配置为放置人体偏转角度为0°的人体成像；2个预置位被配置为放置人体偏转角度为180°的人体成像。

又例如，图14是本申请实施例提供的又一种背景模板的示意图。如图14所示，该背景模板包括10个预置位，这10个预置位都被配置为放置人体姿态为坐、人体偏转角度为0°的人体成像。

本申请实施例中，对于包含的预置位全都被配置为放置人体姿态为坐的人体成像的背景模板，例如图13或图14示出的背景模板，该背景模板的模板信息可以包括对该背景模板关联“人体姿态为坐”的指示，而该背景模板的模板信息中，预置位关联的人体姿态信息可以只包括人体偏转角度。

如果步骤302中获取的人体成像如图6所示，则步骤303中获取的目标背景模板可以是如图12所示的背景模板；如果步骤302中获取的人体成像如图7所示，则步骤303中获取的目标背景模板可以是如图13所示的背景模板。

可选地，目标背景模板为广角图片，也即是，目标背景模板的水平视角大于目标相机的水平拍摄视角，和/或，目标背景模板的垂直视角大于目标相机的垂直拍摄视角。

本申请实施例中，目标相机为目标背景模板对应的相机。可以理解为：目标背景模板由目标相机拍摄得到，即目标相机是真实相机，目标背景模板是真实场景成像；或者，目标背景模板是模拟目标相机拍摄得到的，即目标相机是虚拟相机，目标背景模板是构建出来的虚拟场景成像。无论目标相机是真实相机还是虚拟相机，目标相机的相机参数总是指拍摄目标背景模板采用的相机参数。

可选地，目标模板信息还包括对目标背景模板中的预置位上的人体关键区域的第二位置指示。人体关键区域指人体关键点所在区域。对预置位上的人体关键区域的第二位置指示，例如可以包括人体关键区域的中心的像素坐标以及人体关键区域的尺寸，或者可以包括人体关键区域的像素范围。本申请实施例中，预置位上的人体关键区域可以包括人体躯干上的人体关键点所在区域，例如包括髋部区域，用来匹配人体的髋部。

步骤303、根据人体描述信息以及目标模板信息，将人体成像置于目标背景模板中与该人体成像匹配的预置位上，以得到合成图像。

例如，将如图6所示的各个人体成像置于如图12所示的背景模板中各自匹配的预置位上，得到如图15所示的合成图像。又例如，将如图7所示的各个人体成像置于如图13所示的背景模板中各自匹配的预置位上，得到如图16所示的合成图像。

可选地，当人体描述信息包括对人体成像中的人体关键点的第一位置指示，目标模板信息包括对目标背景模板中的预置位上的人体关键区域的第二位置指示，步骤303的实现过程可以包括：根据第一位置指示以及第二位置指示，将人体成像中的人体关键点设置在目标背景模板中与该人体成像匹配的预置位上对应的人体关键区域内。

如果人体成像的尺寸与预置位的尺寸匹配，则将人体成像中的一部分人体关键点设置在预置位上对应的人体关键区域内后，人体成像整体就能较好地匹配预置位。例如，人体姿态为坐的人体成像中的人体关键点包括髋部，预置位上的人体关键区域包括髋部区域，通过将人体成像中的左髋和右髋均设置在预置位上的髋部区域内，人体成像就能够较准确地贴合在预置位上。

其中，人体成像的尺寸指的是人体成像的成像面积或成像高度，对应地，预置位的尺寸指的是预置位的面积或预置位的高度。

本申请实施例中，将人体成像中的人体关键点设置在目标背景模板中与该人体成像匹配的预置位上对应的人体关键点区域内，能够提高人体成像与目标背景模板的融合效果，进而提高合成图像的成像效果。

可选地，步骤301中获取的一个或多个人体成像包括人体姿态信息相同的第一人体成像和第二人体成像，第一人体成像的原始尺寸大于第二人体成像的原始尺寸。第一人体成像所在的预置位到目标相机的距离小于第二人体成像所在的预置位到目标相机的距离，合成图像中的第一人体成像的目标尺寸大于第二人体成像的目标尺寸。其中，人体成像的原始尺寸指人体成像在原相机(用来采集该人体成像所在图像的相机)的成像平面下的尺寸，人体成像的目标尺寸指人体成像在目标相机的成像平面下的尺寸。第一人体成像和第二人体成像的形态相同，例如第一人体成像和第二人体成像都是上半身像或者都是全身像。

本申请实施例中，在背景模板的预置位中设置人体成像时，可以遵循“近大远小”的原则，使合成图像中距离目标相机越近的人体成像的尺寸越大，距离目标相机越远的人体成像的尺寸越小，进而使得合成图像的成像效果更贴近真实相机拍摄到的真实图像。另外，将获取的人体姿态信息相同的多个人体成像中，尺寸越大的人体成像设置在越靠近目标相机的预置位上，尺寸越小的人体成像设置在越远离目标相机的预置位上，这样在调整人体成像的尺寸，尤其是放大人体成像的尺寸时，可以使多个人体成像的失真程度较为统一，避免将尺寸较小的人体成像设置在比较靠近目标相机的预置位上时，该人体成像的放大倍数过大而导致该人体成像的失真程度较为严重，从而使得合成图像的成像效果较好。

例如，假设图7中人体成像1、人体成像2、人体成像3的尺寸依次增大，人体成像5的尺寸大于人体成像4的尺寸；又假设图13中人体偏转角度为45°的3个预置位由上至下逐渐靠近预置位，且人体偏转角度为-45°的3个预置位由上至下逐渐靠近预置位；则将如图7所示的各个人体成像置于如图13所示的背景模板中各自匹配的预置位上，可以得到如图17所示的合成图像。

可选地，在确定人体成像在目标背景模板中所匹配的预置位之后，本申请实施例提供了以下两种实现方式，来实现人体成像在合成图像中的目标尺寸与目标背景模板相匹配。

在第一种实现方式中，目标背景模板的目标模板信息包括目标背景模板中的预置位对应的成像物体沿目标相机的主光轴方向到目标相机的光心的距离以及目标相机的相机参数。其中，预置位对应的成像物体沿目标相机的主光轴方向到目标相机的光心的距离可以是预置位对应的成像物体的中心沿目标相机的主光轴方向到目标相机的光心的距离。这种实现方式下，将人体成像置于目标背景模板中与人体成像匹配的预置位上的实现过程，包括以下步骤3031至步骤3032：

在步骤3031中，根据预置位对应的成像物体沿目标相机的主光轴方向到目标相机的光心的距离，对人体成像进行缩放处理。

例如，图18是本申请实施例提供的一种目标相机的模型示意图。目标背景模板在目标相机的成像平面上。如图18所示，预置位c’对应的成像物体c的中心沿目标相机的主光轴方向到目标相机的光心O的距离为d，目标相机的焦距为f。

步骤3031中对人体成像进行缩放处理，也即是对人体成像中各个像素点的像素坐标进行缩放处理。

在一些场景中，人体成像为二维图像。设人体成像中某个像素点P的像素坐标为(x，y)，采用缩放因子s对像素点P的像素坐标进行缩放处理，使像素点P在经过缩放处理的人体成像中对应的像素点P’的像素坐标为(sx，sy)。其中，s＝w/h，w＝m*f/(d1*p)。h为人体成像的原始像素高度，即人体成像在原相机(用来采集该人体成像所在图像的相机)的成像平面上的像素高度，单位为像素数量(pixels)。m为预设的人体身高，单位为米，例如m可以取值为1.7米。f为目标相机的焦距，p为目标相机的像元尺寸。d1为与该人体成像匹配的预置位对应的成像物体在沿目标相机的主光轴方向到目标相机的光心的距离。w实际上为人体成像的目标像素高度，即人体成像在目标相机的成像平面上的像素高度，单位为像素数量。

在步骤3032中，将经过缩放处理的人体成像置于目标背景模板中与人体成像匹配的预置位上。

当人体成像为二维图像，在对人体成像进行缩放处理后，直接将经过缩放处理的人体成像置于目标背景模板中与人体成像匹配的预置位上。当人体成像为三维图像，在对人体成像进行缩放处理后，采用目标相机的相机参数对经过缩放处理的人体成像(三维图像)进行投影变换，得到二维图像，再将二维图像置于目标背景模板中与人体成像匹配的预置位上。

可选地，目标相机的相机参数包括相机内参和相机外参。

目标相机的相机内参可表示为内参矩阵K：

其中，f_x和f_y表示目标相机的相机焦距，与像素的大小有关。c_x表示目标相机的主光轴在目标背景模板对应的图像坐标系的横坐标上的偏移量，即c_x为目标相机的光心在目标背景模板对应的图像坐标系中的横坐标，通常为目标背景模板的宽的一半。c_y表示目标相机的主光轴在目标背景模板对应的图像坐标系的纵坐标上的偏移量，即c_y为目标相机的光心在目标背景模板对应的图像坐标系中的纵坐标，通常为目标背景模板的高的一半。

目标相机的相机外参可表示为外参矩阵T：

T＝[R t] 公式(2)

其中，R是一个3行3列的旋转矩阵，t是一个3行1列的平移矩阵。本申请实施例中，可以将旋转矩阵R初始化为单位矩阵，将平移矩阵t初始化为全0矩阵。

目标相机的内参矩阵K和外参矩阵T一起组成相机矩阵W：

W＝K×T；公式(3)

采用目标相机的相机参数对三维图像进行投影变换，也即是采用目标相机的相机参数将三维图像中的三维点转换为目标相机的成像平面上的像素点。假设三维图像中的三维点的齐次坐标为P_w＝(X_w Y_w Z_w 1)，则通过公式(4)可以得到该三维点在二维图像中对应的像素点(u,v)。

本实现方式中，在确定人体成像在目标背景模板中所匹配的预置位之后，利用目标相机的相机参数以及该人体成像所匹配的预置位对应的成像物体沿目标相机的主光轴方向到目标相机的光心的距离，对该人体成像进行缩放处理，使得经过缩放处理的人体成像的尺寸与目标背景模板相匹配。当获取的人体成像为三维图像时，还可以采用目标相机的相机参数对经过缩放处理的三维的人体成像进行投影变换得到二维的人体成像，通过调整目标相机的外参矩阵中的旋转矩阵，还可以调整人体成像的上下旋转角度(即人体俯仰角度)和/或左右旋转角度(即人体偏转角度)，通过调整目标相机的外参矩阵中的平移矩阵，还可以调整人体成像在目标背景模板中的上下位置和/或左右位置，使得人体成像与目标背景模板的融合方式更加灵活，从而使人体成像与目标背景模板的匹配效果更好。

在第二种实现方式中，目标背景模板的目标模板信息包括目标背景模板中的预置位的尺寸信息。在确定人体成像在目标背景模板中所匹配的预置位之后，根据该人体成像的原始尺寸以及该人体成像所匹配的预置位的尺寸，对该人体成像进行缩放处理，使经过缩放处理的人体成像的目标尺寸与该人体成像所匹配的预置位的尺寸相匹配，再将经过缩放处理的人体成像置于目标背景模板中与该人体成像匹配的预置位上。

例如，预置位的尺寸信息包括预置位的像素高度，则可以对人体成像的宽、高进行等比例缩放，使经过缩放后的人体成像的像素高度与该人体成像所匹配的预置位的像素高度相同或相近。

在本申请实施例提供的图像生成方法中，通过在背景模板中预先配置与人体姿态信息关联的预置位，在对图像进行背景更换时，根据图像中人体成像的人体姿态信息，将该人体成像置于背景模板中与该人体成像匹配的预置位上，使得人体成像与背景模板匹配，进而使得合成图像的成像效果较好。另外，通过将人体成像中的人体关键点设置在目标背景模板中与该人体成像匹配的预置位上对应的人体关键区域内，能够提高人体成像与目标背景模板的融合效果，进一步提高合成图像的成像效果。

值得说明的是，本申请实施例提供的图像生成方法可以用于单个图像的背景更换，以保护用户隐私；还可以用于多个图像中人体成像的汇集，实现将多个图像中的人体成像汇集呈现在一个背景模板上。视频会议场景中，将来自多个会议终端的多个视频会议图像中的人体成像汇集呈现在一个背景模板上，能够改善多个参会方的协作氛围。

可选地，本申请实施例提供的图像生成方法有多种实施场景，本申请以下实施例分别对不同实施场景下本申请方案的实现过程进行说明。

在第一种实施场景中，提供了一种图像生成方法1900。请参考图19，图19是本申请实施例提供的一种图像生成方法1900的流程示意图。方法1900包括以下步骤1901至步骤1907。可选地，方法1900所基于的应用场景如图1所示，方法1900中的终端A和终端B为图1中的不同终端。

步骤1901、终端A对第一图像进行实例分割，得到第一图像中的人体成像。

第一图像由终端A采集得到，或者，第一图像由与终端A连接的图像采集设备采集得到。其中，对人体成像的解释和定义可参考上述步骤301中的相关描述，此步骤1901的实现过程具体可参考上述步骤3011中的相关描述，本申请实施例在此不再赘述。

步骤1902、终端A对第一图像中的人体成像进行姿态估计，得到人体成像的人体描述信息。

人体描述信息包括人体姿态信息。其中，对人体描述信息的解释和定义可参考上述步骤301中的相关描述，此步骤1902的实现过程具体可参考上述步骤3012中的相关描述，本申请实施例在此不再赘述。

步骤1903、终端A向终端B发送第一图像中的人体成像以及人体成像的人体描述信息。

步骤1904、终端B根据一个或多个人体成像以及人体成像的人体姿态信息，获取目标背景模板以及目标背景模板的目标模板信息。

其中，一个或多个人体成像包括终端B接收到的来自终端A的人体成像。可选地，一个或多个人体成像还包括第二图像中的人体成像，第二图像由终端B采集得到，或者，第二图像由与终端B连接的图像采集设备采集得到，第二图像的采集时刻与第一图像的采集时刻相同。终端B获取第二图像中的人体成像以及人体成像的人体描述信息的方式，可参考上述步骤1901至步骤1902中终端A获取第一图像中的人体成像以及人体成像的人体描述信息的过程，本申请实施例在此不再赘述。如果终端B获取目标背景模板时所根据的人体成像包括第二图像中的人体成像，则终端B最终得到的合成图像包括来自终端A的人体成像以及来自终端B的人体成像，即终端B将来自多个终端的人体成像汇集呈现在了一个背景模板上。

可选地，终端B中预先存储有多个背景模板。对背景模板的解释和定义可参考上述步骤302中的相关描述，本申请实施例在此不再赘述。可选地，上述步骤1904的实现过程包括以下步骤19041至步骤19043。

在步骤19041中，终端B根据一个或多个人体成像以及人体成像的人体姿态信息，获取多个待选背景模板以及待选背景模板的模板信息。

待选背景模板包括与终端B获取的一个或多个人体成像匹配的预置位。待选背景模板的模板信息包括该待选背景模板中的预置位关联的人体姿态信息。对待选背景模板以及待选背景模板的模板信息的解释和定义可参考上述步骤302中对目标背景模板以及目标模板信息的相关描述，本申请实施例在此不再赘述。

在步骤19042中，终端B显示多个待选背景模板。

例如，终端B获取的人体成像如图7所示。图20是本申请实施例提供的一种终端的显示界面示意图。如图20所示，终端B上显示有待选背景模板A和待选背景模板B，待选背景模板A和待选背景模板B都能够用来设置如图7所示的多个人体成像。

在步骤19043中，响应于对多个待选背景模板中的第一待选背景模板的选择指令，终端B将第一待选背景模板确定为目标背景模板，并将第一待选背景模板的模板信息确定为目标模板信息。

可选地，当终端B检测到对第一待选背景模板的触发操作时，终端B确定接收到对第一待选背景模板的选择指令。该触发操作可以是单击操作、双击操作或长按操作等。

本申请实施例中，当终端根据人体成像以及人体成像的人体姿态信息获取到多个待选背景模板时，可以在显示界面上显示该多个待选背景模板以供用户选择，提高用户体验。

步骤1905、终端B根据一个或多个人体成像的人体描述信息以及目标模板信息，将人体成像置于目标背景模板中与该人体成像匹配的预置位上，以得到合成图像。

此步骤1905的实现过程具体可参考上述步骤303中的相关描述，本申请实施例在此不再赘述。

可选地，终端B在得到合成图像之后，还可以执行以下步骤1906和步骤1907。

步骤1906、终端B显示合成图像以及背景调节控件。

背景调节控件用于调节合成背景的背景。可选地，背景调节控件包括亮度调节控件、对比度调节控件、缩放控件或旋转方向调节控件中的一个或多个。其中，亮度调节控件用于调节背景亮度。对比度调节控件用于调节背景对比度。缩放控件用于调节背景的尺寸。旋转方向调节控件包括左右旋转调节控件和/或上下旋转调节控件，左右旋转调节控件用于调节背景的左右视角，上下旋转调节控件用于调节背景的上下视角。当选用的目标背景模板为广角图片时，可以在合成图像上显示旋转方向调节控件。

例如，图21是本申请实施例提供的另一种终端的显示界面示意图。如图21所示，终端B上显示有如图17所示的合成图像以及背景编辑界面，该背景编辑界面包括亮度调节控件、对比度调节控件、缩放控件、左右旋转调节控件以及上下旋转调节控件。

步骤1907、响应于对背景调节控件的操控指令，终端B根据操控指令调节合成图像的背景。

例如，响应于对缩放控件的操控指令，终端B根据该操控指令调整目标相机的焦距，从而实现对背景尺寸的调节。又例如，响应于对旋转调节控件的操控指令，终端B根据该操控指令调整目标相机的外参中的旋转矩阵，从而实现对背景视角的调节。

可选地，终端B在调节合成图像的背景之后，可以更新所存储的目标相机的相机参数，以便终端B后续可以直接使用经过调节的目标背景模板，降低用户调节背景的概率，从而提高用户体验。

本申请实施例中，终端显示合成图像以及对合成图像的背景调节控件，用户可以通过操作背景调节控件，对合成图像的背景进行微调来提升视觉效果，提高了用户体验。

在第二种实施场景中，提供了一种图像生成方法2200。请参考图22，图22是本申请实施例提供的一种图像生成方法2200的流程示意图。方法2200包括以下步骤2201至步骤2206。可选地，方法2200所基于的应用场景如图1所示，方法2200中的终端C和终端D为图1中的不同终端。

步骤2201、终端C对第三图像进行实例分割，得到第三图像中的人体成像。

第三图像由终端C采集得到，或者，第三图像由与终端C连接的图像采集设备采集得到。其中，对人体成像的解释和定义可参考上述步骤301中的相关描述，此步骤2201的实现过程具体可参考上述步骤3011中的相关描述，本申请实施例在此不再赘述。

步骤2202、终端C对第三图像中的人体成像进行姿态估计，得到人体成像的人体描述信息。

人体描述信息包括人体姿态信息。其中，对人体描述信息的解释和定义可参考上述步骤301中的相关描述，此步骤2202的实现过程具体可参考上述步骤3012中的相关描述，本申请实施例在此不再赘述。

步骤2203、终端C根据第三图像中的人体成像以及人体成像的人体姿态信息，获取目标背景模板以及目标背景模板的目标模板信息。

此步骤2203的实现过程具体可参考上述步骤1904中的相关描述，本申请实施例在此不再赘述。

步骤2204、终端C根据第三图像中的人体成像的人体描述信息以及目标模板信息，将人体成像置于目标背景模板中与该人体成像匹配的预置位上，以得到合成图像。

此步骤2204的实现过程具体可参考上述步骤303中的相关描述，本申请实施例在此不再赘述。

步骤2205、终端C向终端D发送合成图像。

步骤2206、终端D显示合成图像。

可选地，终端D还可以显示背景调节控件，进一步还可以根据对背景调节控件的操控指令调节合成图像的背景，该实现过程具体可参考上述步骤1906和步骤1907中的相关描述，本申请实施例在此不再赘述。

在上述第一种实施场景和第二种实施场景中，仅描述了一个终端上实现合成图像显示的过程，在视频会议或视频聊天场景中，各个参与方的终端都可以显示各自对应的合成图像，各个终端上实现合成图像显示的过程类似，因此本申请实施例不再一一赘述。

在第三种实施场景中，提供了一种图像生成方法2300。请参考图23，图23是本申请实施例提供的一种图像生成方法2300的流程示意图。方法2300包括以下步骤2301至步骤2312。可选地，方法2300所基于的应用场景如图2所示，方法2300中的终端E和终端F为图2中的不同终端。

步骤2301、终端E对第四图像进行实例分割，得到第四图像中的人体成像。

第四图像由终端E采集得到，或者，第四图像由与终端E连接的图像采集设备采集得到。其中，对人体成像的解释和定义可参考上述步骤301中的相关描述，此步骤2301的实现过程具体可参考上述步骤3011中的相关描述，本申请实施例在此不再赘述。

步骤2302、终端E对第四图像中的人体成像进行姿态估计，得到人体成像的人体描述信息。

人体描述信息包括人体姿态信息。其中，对人体描述信息的解释和定义可参考上述步骤301中的相关描述，此步骤2302的实现过程具体可参考上述步骤3012中的相关描述，本申请实施例在此不再赘述。

步骤2303、终端E向中控平台发送第四图像中的人体成像以及人体成像的人体描述信息。

步骤2304、终端F对第五图像进行实例分割，得到第五图像中的人体成像。

第五图像由终端F采集得到，或者，第五图像由与终端F连接的图像采集设备采集得到。其中，对人体成像的解释和定义可参考上述步骤301中的相关描述，此步骤2304的实现过程具体可参考上述步骤3011中的相关描述，本申请实施例在此不再赘述。

步骤2305、终端F对第五图像中的人体成像进行姿态估计，得到人体成像的人体描述信息。

步骤2306、终端F向中控平台发送第五图像中的人体成像以及人体成像的人体描述信息。

步骤2307、中控平台根据第四图像和第五图像中的人体成像以及人体成像的人体描述信息，获取目标背景模板以及目标背景模板的目标模板信息。

此步骤2307的实现过程具体可参考上述步骤1904中的相关描述，本申请实施例在此不再赘述。

步骤2308、中控平台根据第四图像和第五图像中的人体成像的人体描述信息以及目标模板信息，将人体成像置于目标背景模板中与该人体成像匹配的预置位上，以得到合成图像。

此步骤2308的实现过程具体可参考上述步骤303中的相关描述，本申请实施例在此不再赘述。

步骤2309、中控平台向终端E发送合成图像。

步骤2310、终端E显示合成图像。

此步骤2310的实现过程具体可参考上述步骤2206中的相关描述，本申请实施例在此不再赘述。

步骤2311、中控平台向终端F发送合成图像。

步骤2312、终端F显示合成图像。

此步骤2312的实现过程具体可参考上述步骤2206中的相关描述，本申请实施例在此不再赘述。

在第四种实施场景中，提供了一种图像生成方法2400。请参考图24，图24是本申请实施例提供的一种图像生成方法2400的流程示意图。方法2400包括以下步骤2401至步骤2410。可选地，方法2400所基于的应用场景如图2所示，方法2400中的终端G和终端H为图2中的不同终端。

步骤2401、终端G向中控平台发送第六图像。

第六图像由终端G采集得到，或者，第六图像由与终端G连接的图像采集设备采集得到。

步骤2402、终端H向中控平台发送第七图像。

第七图像由终端H采集得到，或者，第七图像由与终端H连接的图像采集设备采集得到。

步骤2403、中控平台对第六图像和第七图像分别进行实例分割，得到多个人体成像。

其中，对人体成像的解释和定义可参考上述步骤301中的相关描述，此步骤2403的实现过程具体可参考上述步骤3011中的相关描述，本申请实施例在此不再赘述。

步骤2404、中控平台对多个人体成像分别进行姿态估计，得到各个人体成像的人体描述信息。

人体描述信息包括人体姿态信息。其中，对人体描述信息的解释和定义可参考上述步骤301中的相关描述，此步骤2404的实现过程具体可参考上述步骤3012中的相关描述，本申请实施例在此不再赘述。

步骤2405、中控平台根据多个人体成像以及人体成像的人体描述信息，获取目标背景模板以及目标背景模板的目标模板信息。

此步骤2405的实现过程具体可参考上述步骤1904中的相关描述，本申请实施例在此不再赘述。

步骤2406、中控平台根据多个人体成像的人体描述信息以及目标模板信息，将各个人体成像置于目标背景模板中各自匹配的预置位上，以得到合成图像。

此步骤2406的实现过程具体可参考上述步骤303中的相关描述，本申请实施例在此不再赘述。

例如，图25是本申请实施例提供的一种基于多个图像得到合成图像的转换示意图。如图25所示，将第六图像中的人体成像以及第七图像中的人体成像分别置于如图13所示的背景模板中，得到合成图像。

步骤2407、中控平台向终端G发送合成图像。

步骤2408、终端G显示合成图像。

此步骤2408的实现过程具体可参考上述步骤2206中的相关描述，本申请实施例在此不再赘述。

步骤2409、中控平台向终端H发送合成图像。

步骤2410、终端H显示合成图像。

此步骤2410的实现过程具体可参考上述步骤2206中的相关描述，本申请实施例在此不再赘述。

下面对本申请实施例的软件装置举例说明。

图26是本申请实施例提供的一种图像生成装置的结构示意图。该图像生成装置为终端或中控平台。如图26所示，装置2600包括：

第一获取模块2601，用于获取至少一个图像中的一个或多个人体成像以及人体成像的人体描述信息，人体描述信息包括人体姿态信息。

第二获取模块2602，用于获取目标背景模板以及目标背景模板的目标模板信息，目标背景模板包括与人体成像匹配的预置位，目标模板信息包括预置位关联的人体姿态信息。

图像合成模块2603，用于根据人体描述信息以及目标模板信息，将人体成像置于目标背景模板中与人体成像匹配的预置位上，以得到合成图像。

可选地，人体姿态信息包括人体偏转角度和/或人体姿态。

可选地，人体描述信息还包括对人体成像中的人体关键点的第一位置指示，目标模板信息还包括对预置位上的人体关键区域的第二位置指示，图像合成模块2603，用于：根据第一位置指示以及第二位置指示，将人体成像中的人体关键点设置在目标背景模板中与人体成像匹配的预置位上对应的人体关键区域内。

可选地，一个或多个人体成像包括人体姿态信息相同的第一人体成像和第二人体成像，第一人体成像的原始尺寸大于第二人体成像的原始尺寸。第一人体成像所在的预置位到目标相机的距离小于第二人体成像所在的预置位到目标相机的距离，合成图像中的第一人体成像的目标尺寸大于第二人体成像的目标尺寸，目标相机为目标背景模板对应的相机。

可选地，目标模板信息还包括预置位对应的成像物体沿目标相机的主光轴方向到目标相机的光心的距离以及目标相机的相机参数，目标相机为目标背景模板对应的相机；图像合成模块2603，用于：根据预置位对应的成像物体沿目标相机的主光轴方向到目标相机的光心的距离，对人体成像进行缩放处理；将经过缩放处理的人体成像置于目标背景模板中与人体成像匹配的预置位上。

可选地，第一获取模块2601，用于：对图像进行实例分割，得到图像中的人体成像；对人体成像进行姿态估计，得到人体成像的人体描述信息。

可选地，图像为三维图像，第一获取模块2601，用于：对人体成像进行三维姿态估计。

可选地，第二获取模块2602，用于：根据一个或多个人体成像以及人体成像的人体姿态信息，获取目标背景模板以及目标模板信息。

可选地，第二获取模块2602，用于：根据一个或多个人体成像以及人体成像的人体姿态信息，获取多个待选背景模板以及待选背景模板的模板信息，待选背景模板包括与人体成像匹配的预置位，模板信息包括预置位关联的人体姿态信息；显示多个待选背景模板；响应于对多个待选背景模板中的第一待选背景模板的选择指令，将第一待选背景模板确定为目标背景模板，并将第一待选背景模板的模板信息确定为目标模板信息。

可选地，如图27所示，装置2600还包括：显示模块2604，用于显示合成图像以及背景调节控件，背景调节控件用于调节合成图像的背景。

可选地，如图28所示，装置2600还包括：背景调节模块2605，用于响应于对背景调节控件的操控指令，根据操控指令调节合成图像的背景。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

下面对本申请实施例的硬件装置举例说明。

图29是本申请实施例提供的一种图像生成装置的框图。该图像生成装置可以是终端或中控平台，终端可以是大屏、电子白板、手机、平板电脑或智能可穿戴设备等具有显示功能和图像处理功能的电子设备，中控平台可以是一台服务器，或者是由若干台服务器组成的服务器集群，或者是一个云计算中心。如图29所示，该图像生成装置2900包括：处理器2901和存储器2902。

存储器2902，用于存储计算机程序，所述计算机程序包括程序指令；

处理器2901，用于调用所述计算机程序，实现如图3所示的方法，或者实现如图19所示的方法1900中终端B执行的步骤，或者实现如图22所示的方法2200中终端C执行的步骤，或者实现如图23所示的方法2300中中控平台执行的步骤，或者实现如图24所示的方法2400中中控平台执行的步骤。

可选地，该图像生成装置2900还包括通信总线2903和通信接口2904。

其中，处理器2901包括一个或者一个以上处理核心，处理器2901通过运行计算机程序，执行各种功能应用以及数据处理。

存储器2902可用于存储计算机程序。可选地，存储器可存储操作系统和至少一个功能所需的应用程序单元。操作系统可以是实时操作系统(Real Time eXecutive，RTX)、LINUX、UNIX、WINDOWS或OS X之类的操作系统。

通信接口2904可以为多个，通信接口2904用于与其它存储设备或网络设备进行通信。例如在本申请实施例中，终端的通信接口可以用于收发人体成像以及人体成像的描述信息等。网络设备可以是交换机或路由器等。

存储器2902与通信接口2904分别通过通信总线2903与处理器2901连接。

下面对本申请实施例的系统举例说明。

本申请实施例提供了一种图像生成系统，包括：第一终端和第二终端。

第一终端用于对第一图像进行实例分割，得到第一图像中的人体成像，并对人体成像进行姿态估计，得到人体成像的人体描述信息，人体描述信息包括人体姿态信息，第一图像由第一终端采集得到，或者，第一图像由与第一终端连接的图像采集设备采集得到。

第一终端还用于向第二终端发送第一图像中的人体成像以及人体成像的人体描述信息。

第二终端用于根据一个或多个人体成像以及人体成像的人体姿态信息，获取目标背景模板以及目标背景模板的目标模板信息，一个或多个人体成像包括第一图像中的人体成像，目标背景模板包括与人体成像匹配的预置位，目标模板信息包括预置位关联的人体姿态信息。

第二终端还用于根据人体描述信息以及目标模板信息，将人体成像置于目标背景模板中与人体成像匹配的预置位上，以得到合成图像。

第二终端还用于显示合成图像。

可选地，上述一个或多个人体成像还包括第二图像中的人体成像，第二图像由第二终端采集得到，或者，第二图像由与第二终端连接的图像采集设备采集得到。第二终端还用于对第二图像进行实例分割，得到第二图像中的人体成像，并对人体成像进行姿态估计，得到人体成像的人体描述信息。

本申请实施例提供了另一种图像生成系统，包括：第一终端和第二终端。

第一终端还用于根据人体成像以及人体成像的人体姿态信息，获取目标背景模板以及目标背景模板的目标模板信息，目标背景模板包括与人体成像匹配的预置位，目标模板信息包括预置位关联的人体姿态信息。

第一终端还用于根据人体描述信息以及目标模板信息，将人体成像置于目标背景模板中与人体成像匹配的预置位上，以得到合成图像。

第一终端还用于向第二终端发送合成图像。

第二终端用于显示合成图像。

本申请实施例提供了又一种图像生成系统，包括：中控平台和多个终端。

终端用于对图像进行实例分割，得到图像中的人体成像，并对人体成像进行姿态估计，得到人体成像的人体描述信息，人体描述信息包括人体姿态信息，图像由终端采集得到，或者，图像由与终端连接的图像采集设备采集得到。

终端还用于向中控平台发送人体成像以及人体成像的人体描述信息。

中控平台用于根据来自多个终端的人体成像以及人体成像的人体姿态信息，获取目标背景模板以及目标背景模板的目标模板信息，目标背景模板包括与人体成像匹配的预置位，目标模板信息包括预置位关联的人体姿态信息。

中控平台还用于根据人体描述信息以及目标模板信息，将人体成像置于目标背景模板中与人体成像匹配的预置位上，以得到合成图像。

中控平台还用于分别向多个终端发送合成图像。

终端还用于显示合成图像。

本申请实施例提供了再一种图像生成系统，包括：中控平台和多个终端。

终端用于向中控平台发送图像，图像由终端采集得到，或者，图像由与终端连接的图像采集设备采集得到。

中控平台用于对来自多个终端的多个图像分别进行实例分割，得到多个图像中的人体成像，并对人体成像进行姿态估计，得到人体成像的人体描述信息，人体描述信息包括人体姿态信息。

中控平台还用于根据人体成像以及人体成像的人体姿态信息，获取目标背景模板以及目标背景模板的目标模板信息，目标背景模板包括与人体成像匹配的预置位，目标模板信息包括预置位关联的人体姿态信息。

中控平台还用于分别向多个终端发送合成图像。

终端还用于显示合成图像。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，当所述指令被处理器执行时，实现如图3所示的方法，或者实现如图19所示的方法1900中终端B执行的步骤，或者实现如图22所示的方法2200中终端C执行的步骤，或者实现如图23所示的方法2300中中控平台执行的步骤，或者实现如图24所示的方法2400中中控平台执行的步骤。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本申请实施例中，术语“第一”、“第二”和“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

本申请中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的构思和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种图像生成方法，其特征在于，所述方法包括：

获取至少一个图像中的一个或多个人体成像以及所述人体成像的人体描述信息，所述人体描述信息包括人体姿态信息；

获取目标背景模板以及所述目标背景模板的目标模板信息，所述目标背景模板包括与所述人体成像匹配的预置位，所述目标模板信息包括所述预置位关联的人体姿态信息；

根据所述人体描述信息以及所述目标模板信息，将所述人体成像置于所述目标背景模板中与所述人体成像匹配的预置位上，以得到合成图像。

2.根据权利要求1所述的方法，其特征在于，所述人体姿态信息包括人体偏转角度和/或人体姿态。

3.根据权利要求1或2所述的方法，其特征在于，所述人体描述信息还包括对所述人体成像中的人体关键点的第一位置指示，所述目标模板信息还包括对所述预置位上的人体关键区域的第二位置指示，所述根据所述人体描述信息以及所述目标模板信息，将所述人体成像置于所述目标背景模板中与所述人体成像匹配的预置位上，包括：

根据所述第一位置指示以及所述第二位置指示，将所述人体成像中的人体关键点设置在所述目标背景模板中与所述人体成像匹配的预置位上对应的人体关键区域内。

4.根据权利要求1至3任一所述的方法，其特征在于，所述一个或多个人体成像包括人体姿态信息相同的第一人体成像和第二人体成像，所述第一人体成像的原始尺寸大于所述第二人体成像的原始尺寸；

所述第一人体成像所在的预置位到目标相机的距离小于所述第二人体成像所在的预置位到所述目标相机的距离，所述合成图像中的所述第一人体成像的目标尺寸大于所述第二人体成像的目标尺寸，所述目标相机为所述目标背景模板对应的相机。

5.根据权利要求1至4任一所述的方法，其特征在于，所述目标模板信息还包括所述预置位对应的成像物体沿目标相机的主光轴方向到所述目标相机的光心的距离以及所述目标相机的相机参数，所述目标相机为所述目标背景模板对应的相机；所述将所述人体成像置于所述目标背景模板中与所述人体成像匹配的预置位上，包括：

根据所述预置位对应的成像物体沿所述目标相机的主光轴方向到所述目标相机的光心的距离，对所述人体成像进行缩放处理；

将经过缩放处理的人体成像置于所述目标背景模板中与所述人体成像匹配的预置位上。

6.根据权利要求1至5任一所述的方法，其特征在于，所述获取至少一个图像中的一个或多个人体成像以及所述人体成像的人体描述信息，包括：

对所述图像进行实例分割，得到所述图像中的人体成像；

对所述人体成像进行姿态估计，得到所述人体成像的人体描述信息。

7.根据权利要求6所述的方法，其特征在于，所述图像为三维图像，所述对所述人体成像进行姿态估计，包括：

对所述人体成像进行三维姿态估计。

8.根据权利要求1至7任一所述的方法，其特征在于，所述获取目标背景模板以及所述目标背景模板的目标模板信息，包括：

根据所述一个或多个人体成像以及所述人体成像的人体姿态信息，获取所述目标背景模板以及所述目标模板信息。

9.根据权利要求8所述的方法，其特征在于，所述根据所述一个或多个人体成像以及所述人体成像的人体姿态信息，获取所述目标背景模板以及所述目标模板信息，包括：

根据所述一个或多个人体成像以及所述人体成像的人体姿态信息，获取多个待选背景模板以及所述待选背景模板的模板信息，所述待选背景模板包括与所述人体成像匹配的预置位，所述模板信息包括所述预置位关联的人体姿态信息；

显示所述多个待选背景模板；

响应于对所述多个待选背景模板中的第一待选背景模板的选择指令，将所述第一待选背景模板确定为所述目标背景模板，并将所述第一待选背景模板的模板信息确定为所述目标模板信息。

10.根据权利要求1至9任一所述的方法，其特征在于，在所述得到合成图像之后，所述方法还包括：

显示所述合成图像以及背景调节控件，所述背景调节控件用于调节所述合成图像的背景；

响应于对所述背景调节控件的操控指令，根据所述操控指令调节所述合成图像的背景。

11.一种图像生成装置，其特征在于，所述装置包括：

第一获取模块，用于获取至少一个图像中的一个或多个人体成像以及所述人体成像的人体描述信息，所述人体描述信息包括人体姿态信息；

第二获取模块，用于获取目标背景模板以及所述目标背景模板的目标模板信息，所述目标背景模板包括与所述人体成像匹配的预置位，所述目标模板信息包括所述预置位关联的人体姿态信息；

图像合成模块，用于根据所述人体描述信息以及所述目标模板信息，将所述人体成像置于所述目标背景模板中与所述人体成像匹配的预置位上，以得到合成图像。

12.根据权利要求11所述的装置，其特征在于，所述人体姿态信息包括人体偏转角度和/或人体姿态。

13.根据权利要求11或12所述的装置，其特征在于，所述人体描述信息还包括对所述人体成像中的人体关键点的第一位置指示，所述目标模板信息还包括对所述预置位上的人体关键区域的第二位置指示，所述图像合成模块，用于：

14.根据权利要求11至13任一所述的装置，其特征在于，所述一个或多个人体成像包括人体姿态信息相同的第一人体成像和第二人体成像，所述第一人体成像的原始尺寸大于所述第二人体成像的原始尺寸；

15.根据权利要求11至14任一所述的装置，其特征在于，所述目标模板信息还包括所述预置位对应的成像物体沿目标相机的主光轴方向到所述目标相机的光心的距离以及所述目标相机的相机参数，所述目标相机为所述目标背景模板对应的相机；所述图像合成模块，用于：

16.根据权利要求11至15任一所述的装置，其特征在于，所述第一获取模块，用于：

对所述图像进行实例分割，得到所述图像中的人体成像；

17.根据权利要求16所述的装置，其特征在于，所述图像为三维图像，所述第一获取模块，用于：

对所述人体成像进行三维姿态估计。

18.根据权利要求11至17任一所述的装置，其特征在于，所述第二获取模块，用于：

19.根据权利要求18所述的装置，其特征在于，所述第二获取模块，用于：

显示所述多个待选背景模板；

20.根据权利要求11至19任一所述的装置，其特征在于，所述装置还包括：

显示模块，用于显示所述合成图像以及背景调节控件，所述背景调节控件用于调节所述合成图像的背景；

背景调节模块，用于响应于对所述背景调节控件的操控指令，根据所述操控指令调节所述合成图像的背景。

21.一种图像生成装置，其特征在于，包括：处理器和存储器；

所述处理器，用于调用所述计算机程序，实现如权利要求1至10任一所述的方法。

22.一种图像生成系统，其特征在于，包括：第一终端和第二终端；

所述第二终端还用于显示所述合成图像。

23.根据权利要求22所述的系统，其特征在于，所述一个或多个人体成像还包括第二图像中的人体成像，所述第二图像由所述第二终端采集得到，或者，所述第二图像由与所述第二终端连接的图像采集设备采集得到；

所述第二终端还用于对所述第二图像进行实例分割，得到所述第二图像中的人体成像，并对所述人体成像进行姿态估计，得到所述人体成像的人体描述信息。

24.一种图像生成系统，其特征在于，包括：第一终端和第二终端；

所述第一终端还用于向所述第二终端发送所述合成图像；

所述第二终端用于显示所述合成图像。

25.一种图像生成系统，其特征在于，包括：中控平台和多个终端；

所述终端还用于显示所述合成图像。

26.一种图像生成系统，其特征在于，包括：中控平台和多个终端；

所述终端还用于显示所述合成图像。

27.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有指令，当所述指令被处理器执行时，实现如权利要求1至10任一所述的方法。