CN110852942A

CN110852942A - 一种模型训练的方法、媒体信息合成的方法及装置

Info

Publication number: CN110852942A
Application number: CN201911140015.7A
Authority: CN
Inventors: 黄浩智; 李佳维; 沈力; 凌永根; 刘威; 俞栋
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-11-19
Filing date: 2019-11-19
Publication date: 2020-02-28
Anticipated expiration: 2039-11-19
Also published as: CN110852942B; WO2021098338A1

Abstract

本申请公开了一种模型训练的方法、媒体信息合成的方法及装置，能够利用内容遮罩生成待训练图像，而内容遮罩的覆盖范围大于待训练对象的范围，可以使得图像内容和背景之间的部分由信息合成模型生成的，提升了合成视频的真实性。本申请方法包括：获取图像样本集合以及概略提示信息，根据图像样本集合以及概略提示信息，生成内容遮罩集合，根据内容遮罩集合生成待训练图像集合，基于图像样本集合以及待训练图像集合，通过待训练信息合成模型获取预测图像集合，采用目标损失函数对待训练信息合成模型进行训练，得到信息合成模型。

Description

一种模型训练的方法、媒体信息合成的方法及装置

技术领域

本申请涉及人工智能领域，尤其涉及一种模型训练的方法、媒体信息合成的方法及装置。

背景技术

随着媒体形式的多样性发展，越来越的用户开始使用移动终端拍摄视频、图片或者录制音频，来记录工作和生活的点点滴滴。对于视频合成的场景而言，用户可以将目标人物的人脸或者人体融合到一个指定的背景中，在播放视频时，即可看到该指定背景下出现该目标人物。

目前，可以利用目标人物的人脸的概略提示信息，或者利用人体局部的概略提示信息，直接生成具有概略提示的区域。该概略提示通常来源于人脸或人体的渲染结果、纹理图或者关键点坐标等。最后将具有概略提示的区域与背景进行拼接，由此得到具有目标人物的合成视频。

然而，由于利用概略提示生成的区域会与真实的背景之间有差异，因此，在进行拼接的时候会导致图像内容会不平滑，使得合成的视频产生比较明显的拼接瑕疵，降低了合成视频的真实性。

发明内容

本申请实施例提供了一种模型训练的方法、媒体信息合成的方法及装置，能够利用内容遮罩生成待训练图像，而内容遮罩的覆盖范围大于待训练对象的范围，由此对边界适当地进行扩张，可以使得图像内容和背景之间的部分由信息合成模型生成的，避免了由于拼接而产生的瑕疵，从而提升了合成视频的真实性。

有鉴于此，本申请第一方面提供一种模型训练的方法，包括：

获取图像样本集合以及概略提示信息，其中，图像样本集合包括至少一个图像样本，概略提示信息用于表示待训练对象在图像样本中的关键点信息；

根据图像样本集合以及概略提示信息，生成内容遮罩集合，其中，内容遮罩集合包括至少一个内容遮罩，内容遮罩与图像样本具有对应关系；

根据内容遮罩集合生成待训练图像集合，其中，待训练图像集合包括至少一个待训练图像，待训练图像与图像样本具有对应关系；

基于图像样本集合以及待训练图像集合，通过待训练信息合成模型获取预测图像集合，其中，预测图像集合包括至少一个预测图像，预测图像与图像样本具有对应关系；

基于预测图像集合以及图像样本集合，采用目标损失函数对待训练信息合成模型进行训练，得到信息合成模型。

本申请第二方面提供一种媒体信息合成的方法，包括：

获取待合成图像，其中，待合成图像包括目标对象；

获取概略提示信息，其中，概略提示信息用于表示目标对象在待合成图像中的关键点信息；

基于待合成图像以及概略提示信息，通过信息合成模型获取目标图像，其中，信息合成模型为采用上述第一方面所述的方法训练得到的；

将目标图像与背景图像进行融合处理，得到合成图像。

本申请第三方面提供一种媒体信息合成的方法，包括：

获取待合成视频，其中，待合成视频包括多个待合成图像，待合成图像包括目标对象；

基于待合成视频以及概略提示信息，通过信息合成模型获取目标视频，其中，信息合成模型为采用上述第一方面所述的方法训练得到的；

将目标视频与背景图像进行融合处理，得到合成视频。

本申请第四方面提供一种模型训练装置，包括：

获取模块，用于获取图像样本集合以及概略提示信息，其中，图像样本集合包括至少一个图像样本，概略提示信息用于表示待训练对象在图像样本中的关键点信息；

处理模块，用于根据获取模块获取的图像样本集合以及概略提示信息，生成内容遮罩集合，其中，内容遮罩集合包括至少一个内容遮罩，内容遮罩与图像样本具有对应关系；

处理模块，还用于根据处理模块生成的内容遮罩集合生成待训练图像集合，其中，待训练图像集合包括至少一个待训练图像，待训练图像与图像样本具有对应关系；

处理模块，还用于基于获取模块获取的图像样本集合以及处理模块生成的待训练图像集合，通过待训练信息合成模型获取预测图像集合，其中，预测图像集合包括至少一个预测图像，预测图像与图像样本具有对应关系；

处理模块，还用于基于处理模块合成的预测图像集合以及获取模块获取的图像样本集合，采用目标损失函数对待训练信息合成模型进行训练，得到信息合成模型。

在一种可能的设计中，在本申请实施例的第四方面的第一种实现方式中，

获取模块，具体用于：

获取图像样本集合；

采用人体姿态估计方法，获取图像样本集合中图像样本所对应的概略提示信息；

处理模块，具体用于：

基于图像样本集合中的图像样本，根据待训练对象所对应的概略提示信息生成人体关键点图；

基于图像样本集合中图像样本所对应的人体关键点图，采用部分亲和字段PAF算法生成人体骨架连接图；

基于图像样本集合中图像样本所对应的人体骨架连接图，采用凸包算法生成人体内容遮罩，其中，人体内容遮罩属于内容遮罩。

在一种可能的设计中，在本申请实施例的第四方面的第二种实现方式中，

处理模块，具体用于基于内容遮罩集合中的人体内容遮罩，将人体内容遮罩覆盖于图像样本上，得到待训练图像集合中的待训练图像。

在一种可能的设计中，在本申请实施例的第四方面的第三种实现方式中，

处理模块，具体用于：

基于图像样本集合中的图像样本，根据待训练对象的所对应的概略提示信息生成K个目标人脸关键点，其中，目标人脸关键点与人脸关键点具有对应关系，K为大于1的整数；

基于图像样本集合中图像样本的K个目标人脸关键点，采用凸包算法生成原始人脸内容遮罩，其中，原始人脸内容遮罩属于内容遮罩；

基于图像样本集合中图像样本的原始人脸内容遮罩，根据遮罩扩张比例生成扩张人脸内容遮罩，其中，扩张人脸内容遮罩属于内容遮罩；

基于图像样本集合中图像样本的原始人脸内容遮罩，根据遮罩收缩比例生成收缩人脸内容遮罩，其中，收缩人脸内容遮罩属于内容遮罩。

在一种可能的设计中，在本申请实施例的第四方面的第四种实现方式中，

处理模块，具体用于：

根据图像样本集合中图像样本所对应的扩张人脸内容遮罩，将扩张人脸内容遮罩覆盖于图像样本上，得到第一遮罩图像；

根据图像样本集合中图像样本所对应的扩张人脸内容遮罩，将收缩人脸内容遮罩覆盖于图像样本上，得到第二遮罩图像；

根据第一遮罩图像以及第二遮罩图像，生成图像样本所对应的待训练图像。

在一种可能的设计中，在本申请实施例的第四方面的第五种实现方式中，

处理模块，具体用于：

根据图像样本集合中的图像样本、图像样本所对应的预测图像以及图像样本所对应的待训练图像，确定第一损失函数；

根据图像样本集合中的图像样本以及图像样本所对应的预测图像，确定第二损失函数；

根据第一损失函数以及第二损失函数，确定目标损失函数；

根据目标损失函数更新待训练信息合成模型的模型参数；

当满足迭代结束条件时，根据待训练信息合成模型的模型参数，生成信息合成模型。

在一种可能的设计中，在本申请实施例的第四方面的第六种实现方式中，

处理模块，具体用于采用如下方式计算目标损失函数：

L(G,D)＝E_f,r[L_r(G)+λ_sL_s(G,D)]；

L_s(G,D)＝log(D(r,f))+log(1-D(r,G(r)))；

其中，L(G,D)表示目标损失函数，E表示期望值计算，L_r(G)表示第一损失函数，L_s(G,D)表示第二损失函数，G()表示待训练信息合成模型中的生成器，D()表示待训练信息合成模型中的判别器，λ_s表示第一预设系数，f表示图像样本，r表示待训练图像，G(r)表示预测图像，m表示待训练图像中的内容遮罩，

表示逐像素的乘法。

在一种可能的设计中，在本申请实施例的第四方面的第七种实现方式中，图像样本集合包括多个连续的图像样本，且多个连续的图像样本用于组成视频样本；

处理模块，具体用于：

根据预测图像集合中的N帧预测图像、待训练图像集合中的N帧待训练图像以及图像样本集合中的N帧图像样本，确定第一损失函数，其中，N为大于1的整数；

根据预测图像集合中的N帧预测图像以及图像样本集合中的N帧图像样本，确定第二损失函数；

根据第一损失函数以及第二损失函数，确定目标损失函数；

根据目标损失函数更新待训练信息合成模型的模型参数；

在一种可能的设计中，在本申请实施例的第四方面的第八种实现方式中，

处理模块，具体用于采用如下方式计算目标损失函数：

L(G,D)＝E_f,r[L_r(G)+λ_sL_s(G,D)]；

L_s(G,D)＝log(D(r,f))+log(1-D(r,G(o⊕r)))；

其中，L(G,D)表示目标损失函数，E表示期望值计算，L_r(G)表示第一损失函数，L_s(G,D)表示第二损失函数，G()表示待训练信息合成模型中的生成器，D()表示待训练信息合成模型中的判别器，λ_s表示第一预设系数，o表示(N-1)帧待训练图像，f表示第N帧图像样本，r表示第N帧待训练图像，m表示第N帧待训练图像的内容遮罩，

表示逐像素的乘法，表示图像帧的叠加。

在一种可能的设计中，在本申请实施例的第四方面的第九种实现方式中，图像样本集合包括多个连续的图像样本，且多个连续的图像样本用于组成视频样本；

处理模块，具体用于：

根据预测图像集合中的M帧预测图像以及图像样本集合中的M帧图像样本，确定第三损失函数，其中，M为大于等于1，且小于或等于N的整数；

根据第一损失函数、第二损失函数以及第三损失函数，确定目标损失函数；

根据目标损失函数更新待训练信息合成模型的模型参数；

在一种可能的设计中，在本申请实施例的第四方面的第十种实现方式中，

处理模块，具体用于采用如下方式计算目标损失函数：

L(G,D_s,D_t)＝E_f,r[L_r(G)+λ_sL_s(G,D_s)+λ_tL_t(G,D_t)]；

其中，L(G,D_s,D_t)表示目标损失函数，L_r(G)表示第一损失函数，L_s(G,D_s)表示第二损失函数，L_t(G,D_t)表示第三损失函数，G()表示待训练信息合成模型中的生成器，G(r)表示预测图像，D_s()表示待训练信息合成模型中的第一判别器，D_t()表示待训练信息合成模型中的第二判别器，λ_s表示第一预设系数，λ_t表示第二预设系数，o表示(N-1)帧待训练图像，f表示第N帧图像样本，r表示第N帧待训练图像，m表示第N帧待训练图像中的内容遮罩，Δ_i表示向前平移i帧生成的M帧图像，

表示逐像素的乘法，

表示图像帧的叠加。

本申请第五方面提供一种媒体信息合成装置，包括：

获取模块，用于获取待合成图像，其中，待合成图像包括目标对象；

获取模块，还用于获取概略提示信息，其中，概略提示信息用于表示目标对象在待合成图像中的关键点信息；

处理模块，用于基于待合成图像以及概略提示信息，通过信息合成模型获取目标图像，其中，信息合成模型为采用上述第一方面所述的方法训练得到的；

处理模块，还用于将处理模块合成的目标图像与背景图像进行融合处理，得到合成图像。

本申请第六方面提供一种媒体信息合成装置，包括：

获取模块，用于获取待合成视频，其中，待合成视频包括多个待合成图像，待合成图像包括目标对象；

处理模块，用于基于待合成视频以及概略提示信息，通过信息合成模型获取目标视频，其中，信息合成模型为采用上述第一方面所述的方法训练得到的；

处理模块，还用于将处理模块合成的目标视频与背景图像进行融合处理，得到合成视频。

本申请的第七方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

获取图像样本集合以及概略提示信息，其中，概略提示信息用于表示待训练对象在图像样本中的关键点信息，根据图像样本集合以及概略提示信息，生成内容遮罩集合，内容遮罩与图像样本具有对应关系，并根据内容遮罩集合生成待训练图像集合，其中，待训练图像集合包括至少一个待训练图像，待训练图像与图像样本具有对应关系，基于图像样本集合以及待训练图像集合，通过待训练信息合成模型获取预测图像集合，预测图像与图像样本具有对应关系，基于预测图像集合以及图像样本集合，采用目标损失函数对待训练信息合成模型进行训练，得到信息合成模型。通过上述方式，能够利用内容遮罩生成待训练图像，而内容遮罩的覆盖范围大于待训练对象的范围，由此对边界适当地进行扩张，可以使得图像内容和背景之间的部分由信息合成模型生成的，避免了由于拼接而产生的瑕疵，从而提升了合成视频的真实性。

附图说明

图1为本申请实施例中模型训练系统的一个架构示意图；

图2为本申请实施例中模型训练的方法一个实施例示意图；

图3为本申请实施例中模型训练的方法中生成人体内容遮罩的一种实施例示意图；

图4a为本申请实施例中模型训练的方法中图像样本的一种示意图；

图4b为本申请实施例中模型训练的方法中待训练图像的一种示意图；

图5为本申请实施例中模型训练的方法中形状发生变化的嘴部边缘的一种示意图；

图6为本申请实施例中模型训练的方法中人脸内容遮罩的一种示意图；

图7a为本申请实施例中模型训练的方法中第一遮罩图像的一种示意图；

图7b为本申请实施例中模型训练的方法中第二遮罩图像的一种示意图；

图7c为本申请实施例中模型训练的方法中待训练图像的一种示意图；

图8为本申请实施例中媒体信息合成的方法一个实施例示意图；

图9为本申请实施例中媒体信息合成的方法另一个实施例示意图；

图10为本申请实施例中模型训练装置一个实施例示意图；

图11为本申请实施例中媒体信息合成装置一个实施例示意图；

图12为本申请实施例中媒体信息合成装置另一个实施例示意图；

图13为本申请实施例中服务器的一个实施例示意图；

图14为为本申请实施例中终端设备的一个实施例示意图。

具体实施方式

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应理解，本申请实施例应用于各种需要进行图像拼接或视频拼接的场景中，具体的，作为示例，例如在部分新闻广播或天气广播中，是将主持人放置于一个虚拟的场景中，也即需要将主持人与虚拟背景拼接，由于主持人与虚拟背景之间会存在差异，从而导致合成后的视频比较虚假；作为另一示例，例如在部分电影或电视剧中，有些画面是基于虚拟场景拍摄的，则在后期需要将演员与虚拟场景拼接，由于演员与虚拟场景之间会存在较为明显的边界差异，导致合成后的视频比较虚假；作为再一示例，例如有些图像类应用会提供抠图并将抠图内容与另一张图像合成的功能，则技术层面需要将一张图像中抠图部分，与另一张图像的背景合成，但抠图部分与背景部分一般都会存在拼接瑕疵，因此，在前述种种场景中，均存在获得一种拼接瑕疵更小的方案，此处不对本申请的应用场景进行穷举。

为了在上述各种场景中，得到真实性更高的视频或图像，本申请提出了一种模型训练的方法，用于基于原始待合成图像或视频生成目标图像或视频，目标图像或视频与背景部分的差异性更小，从而合成的视频或图像真实性更高。该方法应用于图1所示的模型训练系统，请参阅图1，图1为本申请实施例中模型训练系统的一个架构示意图，如图所示，模型训练系统中包括服务器和终端设备。

具体的，服务器中可以获取图像样本集合和概率提示信息，概略提示信息用于表示待训练对象在图像样本中的关键点信息，进而根据图像样本集合以及概略提示信息，生成内容遮罩集合，内容遮罩集合中的内容遮罩与图像样本具有对应关系，服务器根据内容遮罩以及图像样本，生成待训练图像，待训练图像包括于待训练图像集合中，待训练图像中可以包括待训练对象和背景图像，内容遮罩的覆盖范围大于待训练对象的范围，从而待训练对象与背景图像之间存在遮罩空白，进而基于图像样本集合以及待训练图像集合，通过待训练信息合成模型生成遮罩空白部分的内容，进而输出预测图像集合，并基于预测图像集合以及图像样本集合，采用目标损失函数对待训练信息合成模型进行训练，当满足训练结束条件时，得到信息合成模型。之后服务器可以将信息合成模型配置于终端设备中，在一种情况中，信息合成模型是包括于客户端中的，结合上述应用场景进行举例，例如具有图片合成功能的图片类客户端中需要配置信息合成模型，则服务器可以将信息合成模型配置于前述图片类客户端中，当用户通过终端设备下载前述图片类客户端时，服务器通过无线网络将配置有信息合成模型的客户端发送给终端设备，应当理解，前述游戏类客户端仅为一种示例，其他类型的客户端中也可以配置有本申请实施例中的信息合成模型。在另一种情况中，也可以在前述终端设备出厂之前，由服务器通过有线网络或移动存储装置等方式将执行过训练操作的信息合成模型配置于终端设备中，服务器还可以通过其他方式将执行过训练操作的信息合成模型配置于终端设备中，此次不做限定。

其中，图1中的服务器为用于对信息合成模型进行训练的服务器，可以是一台服务器或多台服务器组成的服务器集群或云计算中心等，具体此处均不限定。终端设备可以为图1中示出的平板电脑、笔记本电脑、掌上电脑、手机、个人电脑(personal computer，PC)及语音交互设备；也可以为监控设备、人脸识别设备等，此处不做限定。其中，语音交互设备包含但不仅限于智能音响以及智能家电。在部分实现方式中，信息合成模型可以集成于客户端中，配置有信息合成模型的客户端均可以表现为网页客户端，也可以表现为应用程序类客户端，部署于前述终端设备上。

终端设备和服务器之间可以通过无线网络、有线网络或可移动存储介质进行通信。其中，上述的无线网络使用标准通信技术和/或协议。无线网络通常为因特网、但也可以是任何网络，包括但不限于蓝牙、局域网(Local Area Network，LAN)、城域网(Metropolitan Area Network，MAN)、广域网(Wide Area Network，WAN)、移动、专用网络或者虚拟专用网络的任何组合)。在一些实施例中，可以使用定制或专用数据通信技术取代或者补充上述数据通信技术。可移动存储介质可以为通用串行总线(Universal Serial Bus，USB)闪存盘、移动硬盘或其他可移动存储介质等。

虽然图1中仅示出了五个终端设备和一个服务器，但应当理解，图1中的示例仅用于理解本方案，具体终端设备和服务器的数量均应当结合实际情况灵活确定。

由于本申请实施例是应用于人工智能领域的，在对本申请实施例提供的模型训练的方法开始介绍之前，先对人工智能领域的一些基础概念进行介绍。人工智能(ArtificialIntelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。

随着人工智能技术研究和进步，人工智能技术在多种方向展开研究，计算机视觉技术(Computer Vision,CV)就是人工智能技术的多种研究方向中研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

本申请实施例提供的方案涉及人工智能的图像处理技术，结合上述介绍，下面将对本申请中模型训练的方法进行介绍，请参阅图2，本申请实施例中模型训练的方法一个实施例包括：

101、获取图像样本集合以及概略提示信息，其中，图像样本集合包括至少一个图像样本，概略提示信息用于表示待训练对象在图像样本中的关键点信息；

本实施例中，模型训练装置中可以存储有图像样本集合，图像样本集合中包括一个或多个图像样本，在图像样本集合中包括多个图像样本的情况下，图像样本集合中包括的可以为互相之间完全独立的图像样本，也可以为图像样本集合中包括的多个图像样本来自于同一个视频；其中，图像样本集合中均为真实的图像，也即不是经过合成处理的图像。图像样本可以为二维图像，也可以为三维图像；图像样本中包括的对象可以为人、动物、家电或其他类型的对象等，进一步地，图像样本中包括的可以为对象整体，也可以对象的部分，作为示例，例如图像样本中只包括人脸部分。

可以理解的是，模型训练装置可以部署于服务器，也可以部署于终端设备，为了便于介绍，下面将以模型训练装置部署于服务器为例进行说明，但是这不应理解为对本申请的限定。

具体的，服务器可以从网络图库中获取到图像样本集合，还可以为通过图像采集设备直接获取到图像样本集合，服务器可以通过前述多种方式中任一种或多种方式的组合来得到图像样本集合，其中，图像采集设备可以为相机。

服务器还会获取与每个图像样本对应的概略提示信息，其中，概略提示信息用于供服务器从图像样本中获取与待训练对象对应的一个或多个关键点，概略提示信息中可以包括与待训练对象在图像样本中的关键点对应的二维坐标或者三维坐标，也可以包括与待训练对象在图像样本中的关键点对应的二维像素坐标或者三维像素坐标，还可以包括图像样本中包括的对象的二维或三维渲染图等，此处不对概率提示信息具体包括的内容进行限定。

具体的，在一种情况下，概率提示信息可以为服务器对图像样本进行直接处理之后，得到的与待训练对象对应的一个或多个关键点，也即由服务器确定图像样本中的待训练对象，进而确定一个或多个关键点。更具体的，在图像样本中包括的为人体对象的情况下，可以将整个人体作为待训练对象，从而服务器可以采用人体姿态估计(human poseestimator)方法，获取图像样本中与待训练对象对应的多个关键点。在另一种情况下，概率提示信息也可以为通过其他模型获取到的，作为示例，例如通过蒙皮模型获取到的人体的二维或三维渲染图。

102、根据图像样本集合以及概略提示信息，生成内容遮罩集合，其中，内容遮罩集合包括至少一个内容遮罩，内容遮罩与图像样本具有对应关系；

本实施例中，服务器在获取到图像样本集合，以及与图像样本集合中每个图像样本对应的概率提示信息之后，由于即使图像样本集合中包括的为视频，服务器也是利用视频中的每一帧图像进行处理，因此，针对每一个图像样本，无论是二维图像还是三维图像，服务器可以根据图像样本以及概略提示信息，生成与图像样本对应的至少一个内容遮罩。具体的，服务器基于概略提示信息从图像样本中确定K个关键点的位置，K为大于1的整数，进而可以将K个关键点连接从而形成一个关键点区域，图像样本中关键点区域内的对象即为待训练对象，在根据K各关键点确定了关键点区域之后，可以按照预设比例将关键点区域向外扩张，从而生成内容遮罩，内容遮罩的区域大小可以为关键点区域大小的百分之一百零五、百分之一百零六或者百分之一百零七等，具体此处不做限定。服务器针对每一个图像样本，都可以获取到与之对应的至少一个内容遮罩，从而在针对图像样本集合中的每个图像样本均执行前述操作之后，会生成内容遮罩集合。

103、根据内容遮罩集合生成待训练图像集合，其中，待训练图像集合包括至少一个待训练图像，待训练图像与图像样本具有对应关系；

本实施例中，针对每一个图像样本，服务器在生成与图像样本对应的至少一个内容遮罩之后，可以将前述至少一个内容遮罩覆盖于图像样本之上，从而图像样本中内容遮罩对应的区域被置为空白，具体可以表现为内容遮罩对应的区域全部为黑色，或者全部为白色，或者全部为其它与背景区域不同颜色的花色，以将图像样本分割为内容遮罩对应的区域和背景区域，其中，背景区域指的是图像样本中内容遮罩之外的区域。

进而服务器可以基于待训练对象以及覆盖了内容遮罩的图像样本，生成待训练图像，具体的，服务器可以直接将待训练对象与覆盖了内容遮罩的图像样本进行叠加，待训练对象在待训练图像中的位置与待训练对象在图像样本中的位置一致，由于内容遮罩的区域大于待训练对象的区域，因此将待训练对象与覆盖了内容遮罩的图像样本进行叠加之后，待训练对象与背景区域之间仍然留有空白，从而待训练图像包括三部分，分别为背景区域，待训练对象以及背景区域和待训练对象之间的空白。

104、基于图像样本集合以及待训练图像集合，通过待训练信息合成模型获取预测图像集合，其中，预测图像集合包括至少一个预测图像，预测图像与图像样本具有对应关系；

本实施例中，针对待训练图像集合中的每个待训练图像，服务器在得到待训练图像之后，可以将待训练图像输入到待训练信息合成模型中，由待训练信息合成模型生成待训练图像中的空白部分的图像内容，从而得到目标对象，目标对象与待训练对象的区别在于，目标对象比待训练对象多路空白部分的内容，进而服务器需要将目标对象与图像样本中的背景区域融合，得到预测图像。服务器针对待训练图像中的每个待训练对象都执行上述操作之后，会得到预测图像集合。

105、基于预测图像集合以及图像样本集合，采用目标损失函数对待训练信息合成模型进行训练，得到信息合成模型。

本实施例中，针对待训练图像集合中的每个待训练图像，由于训练信息合成模型的目标是生成的预测图像逼近于图像样本，从而服务器在生成预测图像之后，可以从图像样本集合中获取与预测图像对应的图像样本，从而以图像样本为目标对待训练信息合成模型进行迭代训练，在满足训练条件的情况下，得到执行过训练操作的待训练信息合成模型。其中，可以为在迭代训练的次数达到预设次数时，视为满足迭代训练条件，预设次数的取值可以为30万、50万或其他数值；也可以为待训练信息合成模型的损失函数满足收敛条件时，视为满足迭代训练条件，此处不对满足迭代训练条件的具体实现方式进行限定。

本申请实施例中，获取图像样本集合以及概略提示信息，其中，概略提示信息用于表示待训练对象在图像样本中的关键点信息，根据图像样本集合以及概略提示信息，生成内容遮罩集合，内容遮罩与图像样本具有对应关系，并根据内容遮罩集合生成待训练图像集合，其中，待训练图像集合包括至少一个待训练图像，待训练图像与图像样本具有对应关系，基于图像样本集合以及待训练图像集合，通过待训练信息合成模型获取预测图像集合，预测图像与图像样本具有对应关系，基于预测图像集合以及图像样本集合，采用目标损失函数对待训练信息合成模型进行训练，得到信息合成模型。通过上述方式，能够利用内容遮罩生成待训练图像，而内容遮罩的覆盖范围大于待训练对象的范围，由此对边界适当地进行扩张，可以使得图像内容和背景之间的部分由信息合成模型生成的，避免了由于拼接而产生的瑕疵，从而提升了合成视频的真实性。

可选地，在上述图2对应的实施例的基础上，本申请实施例提供的模型训练的方法一个可选实施例中，获取图像样本集合以及概略提示信息，可以包括：

获取图像样本集合；

根据图像样本集合以及概略提示信息，生成内容遮罩集合，包括：

本实施例中，服务器获取图像样本集合，图像样本集合中的每个图像样本中包括的对象为人体对象，每个图像样本中可以包括一个人体对象，也可以包括多个人体对象，此处不做限定。针对每一个图像样本，服务器采用人体姿态估计(human pose estimator)方法，获取图像样本中与待训练对象对应的概略提示信息，其中，人体姿态估计方法指的是用图形格式来表示人体的动作，用于描述人体的姿态，其中可以包括自顶而下的人体姿态估计方法和自底而上的人体姿态估计方法。作为示例，例如Openpose是一种自底而上的人体姿态估计方法；作为另一示例，例如深切(deepcut)是一种自底向上的人体姿态估计方法；作为一个示例，例如区域多人姿态估计(regional multi-person pose estimation，RMPE)是一种自顶向下的姿态估计方法，前述三种示例均可以通过深度神经网络实现，应当理解，此处举例仅为证明本方案的可实现性，还可以采用其他的人体姿态估计方法，此处不进行穷举。待训练对象指的是图像样本中的人体对象，概略提示信息可以包括用于指示人体姿态的K个关键点的二维坐标或三维坐标，或者，可以包括用于指示人体姿态的K个关键点的二维像素坐标或三维像素坐标等，具体此处不做限定。进一步地，K的取值可以为18、24、58或其他数值等等。

服务器在获取到基于人体姿态估计方法，得到与图像样本对应的概略提示信息之后，可以根据待训练对象所对应的概略提示信息生成人体关键点图，其中，人体关键点图中以图像的形式展示上述K个关键点，人体关键点图的大小和形状可以与图像样本的大小和形状一致。由于一个图像样本中可能包括一个或多个人体，所以服务器可以基于图像样本中至少一个人体所对应的人体关键点图，采用部分亲和字段(part affinity field，PAF)算法生成每个人体的人体骨架连接图，其中，PAF算法是基于每个关键点的置信度(confidence)将属于一个整体的关键点连接起来，也即若一个图像样本中包括多个人体，则可以基于PAF算法分别将属于多个人体的关键点连接起来，从而得到包括多个人体骨架的人体骨架连接图。在服务器得到包括一个或多个人体骨架的人体骨架连接图之后，会基于前述包括一个或多个人体骨架的人体骨架连接图，采用凸包(convex hull)算法生成人体内容遮罩。其中，凸包的定义为在给定二维平面上的点集，凸包就是将最外层的点连接起来构成的凸多边形，它能包含点集中所有的点；凸包算法可以为将人体骨架连接图中最外层的点连接起来，构成一个凸的人体内容遮罩。人体内容遮罩属于内容遮罩；人体内容遮罩包括的区域能够包围人际骨架连接图中的所有关键点，也即在人体骨架连接图中所有最外层的点连接起来之后，再利用凸包算法向外扩张预设比例后，可以得到人体内容遮罩。

为进一步理解本方案，请参阅图3，图3为本申请实施例中模型训练的方法中生成人体内容遮罩的一种实施例示意图，图3中以图像样本中的待训练对象为一个人体对象为例进行说明，图3中从左到右包括三个子示意图，其中，左边的子示意图示出的为与图像样本中的一个人体对象对应的人体关键点图，中间的子示意图示出的为与前述一个人体对象对应的人体骨架连接图，右边的子示意图中包括了与前述一个人体对象对应的人体内容遮罩(也即右边的子示意图中的白色区域)，通过中间的子示意图和右边的子示意图的对比，很明显可以看出，右边的子示意图中的白色区域(也即人体内容遮罩)相较于中间的子示意图作了向外扩张，且人体内容遮罩对应的区域完全包括了人体骨架连接所对应的区域，应当理解，图3中的示例仅为方便理解本方案，不用于限定本方案。

本申请实施例中，服务器获取图像样本集合，并采用人体姿态估计方法，获取图像样本集合中图像样本所对应的概略提示信息，进而基于图像样本集合中的图像样本，根据待训练对象所对应的概略提示信息生成人体关键点图，并基于人体关键点图，采用PAF算法生成人体骨架连接图，从而基于人体骨架连接图，采用凸包算法生成人体内容遮罩。通过上述方式，提供了当图像样本中的对象为人体时的生成内容遮罩的具体实现方式；采用人体姿态估计方法的方式获取概略提示信息，采用凸包算法生成人体内容遮罩，前述方式均方便简洁，易于操作，提高了本方案的可执行性。

可选地，在上述图2对应的实施例的基础上，本申请实施例提供的模型训练的方法一个可选实施例中，根据内容遮罩集合生成待训练图像集合，包括：

基于内容遮罩集合中的人体内容遮罩，将人体内容遮罩覆盖于图像样本上，得到待训练图像集合中的待训练图像。

本实施例中，针对图像样本集合中的每一个图像样本，在图像样本中的待训练对象为人体对象的情况下，服务器会得到与图像样本对应的人体内容遮罩，进而服务器可以将人体内容遮罩覆盖于图像样本上，从而图像样本中人体内容遮罩所对应的区域会变成空白，图像样本中除人体内容遮罩区域之外的称为背景区域，将图像样本中的人体对象填充于人体内容遮罩区域内，从而得到待训练图像。其中，人体对象(也即待训练对象)在待训练图像中的位置与人体对象在图像样本中的位置一致，由于人体内容遮罩的范围大于人体对象的范围，从而将人体对象填充于人体内容遮罩内之后，人体对象与背景区域之间仍然有空白区域，也即待训练图像可以包括三部分，分别为背景区域、人体对象和背景区域与人体对象之间的空白区域。

为进一步理解本方案，请参阅图4a和图4b，图4a为本申请实施例中模型训练的方法中图像样本的一种示意图，图4b为本申请实施例中模型训练的方法中待训练图像的一种示意图，图4a和图4b中均以图像样本中包括一个人体对象为例进行说明，图4b中示出的为图4a覆盖了人体内容遮罩之后的示意图，覆盖了人体内容遮罩之后的得到的待训练图像，由于人体内容遮罩的区域范围大于人体对象的区域范围，所以会在背景与人体对象之间留有空白，应当理解，图4a和图4b中的示例仅为方便理解本方案，不用于限定本方案。

本申请实施例中，服务器基于内容遮罩集合中的人体内容遮罩，将人体内容遮罩覆盖于图像样本上，得到待训练图像集合中的待训练图像。通过上述方式，提供了当待训练对象为人体对象时，服务器生成待训练图像的具体实现方式，增强了本方案的可实现性。

可选地，在上述图2对应的实施例的基础上，本申请实施例提供的模型训练的方法一个可选实施例中，根据图像样本集合以及概略提示信息，生成内容遮罩集合，包括：

本实施例中，在图像样本集合中的每个图像样本中包括的对象为人脸对象，待训练对象为部分人脸的情况下，服务器在获取到图像样本和概率提示信息之后，会基于图像样本集合中的图像样本，根据待训练对象的所对应的概略提示信息生成K个目标人脸关键点，其中，目标人脸关键点与人脸关键点具有对应关系，K为大于1的整数，作为示例，例如K的取值可以为18、22、36或其他数值等。

具体的，在一种情况下，由于概略提示信息中可以只包括与K个目标人脸关键点对应的人脸关键点的坐标信息，则服务器可以直接从概略提示信息中获取人脸关键点的坐标信息，并将概略提示信息中的人脸关键点的坐标信息对齐到图像样本中，以得到K个目标人脸关键点，作为示例，例如概略提示信息中包括的每一帧图像中的人脸关键点为H_k，图像样本中的K个目标人脸关键点为C_k，额服务器需要将H_k与C_k对齐，从而获得C_k的坐标信息。在另一种情况下，概略提示信息为由蒙皮模型输出的，其中包括由多个人脸的二维渲染图或多个三维渲染图组成的视频，前述视频播放过程中，部分脸部形状保持不变，部分脸部形状发生变化，从而服务器可以根据脸部形状发生变化的区域边缘确定每一帧图像中的人脸关键点，服务器获取到与前述视频对应的图像样本集合之后，将由多个人脸的二维渲染图或多个三维渲染图组成的视频中的每一帧图像与获取到的图像样本集合中的每一个图像进行对齐，以实现将根据脸部形状发生变化的区域边缘确定人脸关键点对齐到图像样本中，从而获取到图像样本中的K个目标人脸关键点。作为示例，例如包括由多个人脸的三维渲染图组成的视频展示的为一个人脸在讲“买了一斤菜”，在视频播放过程中，只有嘴部形状发生变化，脸部的眼镜。鼻子或其他除嘴部之外的区域均未发生变化，则根据形状发生变化的嘴部边缘确定视频中每一帧图像中的人脸关键点，也即从每一帧图像中获取构成变化的嘴部的形状的人脸关键点，进而将每一帧图像中构成变化的嘴部的形状的人脸关键点对齐到与之对应的每个图像样本中，以获取到每个图像样本中的K个目标人脸关键点。为进一步理解本方案，请参阅图5，图5为本申请实施例中模型训练的方法中形状发生变化的嘴部边缘的一种示意图，图5中以概略提示信息为三维渲染图为例，人脸中形状发生变化的嘴部边缘如图，图5中示出的为多个三维渲染图中的一帧渲染图，应当理解，图5中的示例仅为方便理解本方案，不用于限定本方案。

针对图像样本集合中的每个图像样本，服务器在得到图像样本中的K个目标人脸关键点之后，会采用凸包算法生成原始人脸内容遮罩，其中，凸包算法指的是将K个目标人脸关键点连接起来，构成一个凸的原始人脸内容遮罩，原始人脸内容遮罩属于内容遮罩。进而基于图像样本中的原始人脸内容遮罩，根据遮罩扩张比例生成扩张人脸内容遮罩，其中，遮罩扩张比例可以为扩张百分之五、百分之六、百分之七或其他数值等，扩张人脸内容遮罩属于内容遮罩；具体的，服务器在进行人脸内容遮罩扩张的过程中，可以通过扩张像素的方式实现，作为示例，例如图像样本为256x256的图像，则服务器可以通过扩张15个像素实现百分之六的扩张比例，具体的像素值会根据视频的分辨率的变化而变化，此处举例仅为方便理解本方案，不用于限定本方案。服务器还会基于图像样本的原始人脸内容遮罩，根据遮罩收缩比例生成收缩人脸内容遮罩，其中，遮罩收缩比例可以为收缩百分之五、百分之六、百分之七或其他数值等，收缩人脸内容遮罩属于内容遮罩；具体的，服务器在进行人脸内容遮罩收缩的过程中，可以通过收缩像素的方式实现，此处不再进行举例。进一步地，原始人脸内容遮罩、扩张人脸内容遮罩以及收缩人脸内容遮罩指的均为人脸内容遮罩在人脸中对应的区域。为进一步理解本方案，请参阅图6，图6为本申请实施例中模型训练的方法中人脸内容遮罩的一种示意图，结合上述图5进行举例，图6中以人脸内容遮罩对应的为人脸的嘴部区域为例，图6中分别示出了由三组封闭的线，分别对应三个区域，其中，最外层的线组成的封闭区域为扩张人脸内容遮罩，中间的线组成的封闭区域为原始人脸内容遮罩，最里层的线组成的封闭区域为收缩人脸内容遮罩，应当理解，图6中的示例仅为方便理解本方案，不用于限定本方案。服务器在针对图像样本集合中的每个图像样本均执行上述操作之后，会得到每个图像样本的原始人脸内容遮罩、扩张人脸内容遮罩以及收缩人脸内容遮罩。

本申请实施例中，服务器基于图像样本集合中的图像样本，根据待训练对象的所对应的概略提示信息生成K个目标人脸关键点，并基于图像样本的K个目标人脸关键点，采用凸包算法生成原始人脸内容遮罩，进而服务器基于图像样本的原始人脸内容遮罩，根据遮罩扩张比例生成扩张人脸内容遮罩，基于图像样本的原始人脸内容遮罩，根据遮罩收缩比例生成收缩人脸内容遮罩。通过上述方式，提供了当图像样本中的对象为人脸时的，内容遮罩的具体获取方式，扩展了本方案的应用场景，提高了本方案的实现灵活性。

根据图像样本集合中图像样本所对应的收缩人脸内容遮罩，将收缩人脸内容遮罩覆盖于图像样本上，得到第二遮罩图像；

本实施例中，针对图像样本集合中的每个图像样本，服务器在获取到扩张人脸内容遮罩和收缩人脸内容遮罩之后，服务器可以将扩张人脸内容遮罩覆盖于图像样本上，也即将图像样本中扩张人脸内容遮罩对应的区域设置为空白，得到第一遮罩图像；将收缩人脸内容遮罩覆盖于图像样本上，也即从图像样本中扣取收缩人脸内容遮罩中的图像内容，得到第二遮罩图像。服务器在得到第一遮罩图像和第二遮罩图像之后，可以将第一遮罩图像和第二遮罩图像重叠，也即将第二遮罩图像填充于第一遮罩图像中的空白区域内，从而生成图像样本所对应的待训练图像，其中，第一遮罩图像在待训练图像中的位置与第一遮罩图像在图像样本中的位置一致，由于扩张人脸内容遮罩对应的区域范围大于收缩人脸内容遮罩对应的区域位置，从而生成的待训练图像中第二遮罩图像和第一遮罩图像之间存在空白，也即待训练图像包括三部分，分别为第二遮罩图像(也即背景区域)、第一遮罩图像(也即待训练对象)以及第二遮罩图像和第一遮罩图像之间的空白。服务器在针对图像样本集合中的每个图像样本均执行上述操作之后，会得到与每个图像样本对应的待训练图像，从而得到待训练图像集合。

为进一步理解本方案，请参阅图7a至图7c，图7a为本申请实施例中模型训练的方法中第一遮罩图像的一种示意图，图7b为本申请实施例中模型训练的方法中第二遮罩图像的一种示意图，图7c为本申请实施例中模型训练的方法中待训练图像的一种示意图，图7a的口罩部分为扩张人脸内容遮罩区域，图7c中的空白区域，例如图7c中的鼻子(图中未示出)所处的区域为空白，应当理解，图7a至图7c中的示例仅为方便理解本方案，不用于限定本方案。

本申请实施例中，服务器根据图像样本所对应的扩张人脸内容遮罩，将扩张人脸内容遮罩覆盖于图像样本上，得到第一遮罩图像，并根据图像样本所对应的收缩人脸内容遮罩，将收缩人脸内容遮罩覆盖于图像样本上，得到第二遮罩图像，进而根据第一遮罩图像以及第二遮罩图像，生成图像样本所对应的待训练图像。通过上述方式，提供了当图像样本中的对象为人脸时的，待训练图像的具体获取方式，扩展了本方案的应用场景，提高了本方案的实现灵活性；且分别生成第一遮罩图像和第二遮罩图像，并根据第一遮罩图像和第二遮罩图像生成待训练图像，由于待训练对象为人脸的部分区域，操作更为精细化，有利于提高生成的待训练图像的质量。

可选地，在上述图2对应的实施例的基础上，本申请实施例提供的模型训练的方法一个可选实施例中，基于预测图像集合以及图像样本集合，采用目标损失函数对待训练信息合成模型进行训练，得到信息合成模型，可以包括：

根据第一损失函数以及第二损失函数，确定目标损失函数；

根据目标损失函数更新待训练信息合成模型的模型参数；

在满足迭代结束条件的情况下，根据待训练信息合成模型的模型参数，生成信息合成模型。

本实施例中，针对图像样本集合中的每一个图像样本，服务器根据图像样本、图像样本所对应的预测图像以及图像样本所对应的待训练图像，确定第一损失函数，并根据图像样本以及图像样本所对应的预测图像，确定第二损失函数，服务器根据第一损失函数以及第二损失函数，确定目标损失函数；进而判断目标损失函数是否满足收敛条件，若未达到收敛条件，则将目标损失函数的函数值带入前述梯度下降算法中，以梯度更新待训练信息合成模型的模型参数。在待训练信息合成模型每生成一张预测图像，服务器均可以执行一次前述操作，直至目标损失函数达到收敛条件，则根据最后一次对模型参数进行更新后获得的模型参数生成信息合成模型。

其中，第一损失函数可以为根据图像样本、图像样本所对应的预测图像以及图像样本所对应的待训练图像的像素值生成，用于反映图像样本与预测图像以及待训练图像之间的像素差距。第二损失函数可以为基于图像样本和预测图像以及生成对抗网络得到。

生成对抗网络包括生成器和判别器，生成器为本申请实施例中的待训练信息合成模型，判别器用于判别出输入的到判别器中的一个图像属于真实图像还是假图像。生成对抗网络训练是指由生成器生成一张图像去欺骗判别器，然后判别器去判断这张图像以及对应的真实图像是真是假，在这两个模型训练的过程中，使得两个模型的能力越来越强，最终达到稳态的过程。更进一步地，判别器会生成两种类型的概率值，两种类型的概率值分别为表示预测图像属于伪造图像的第一概率值和表示图像样本属于真实图像的第二概率值，判别器输出的第一概率值和第二概率值均为一个0-1之间的概率值，判别器训练的目的是使得第一概率值尽可能趋向于0，使得第二概率值尽可能趋向于1，从而获得准确的分类能力。但生成器训练的目的是使得判别器输出的第一概率值尽可能趋向于1。

目标损失函数的收敛条件可以为目标损失函数的值小于或等于第一预设阈值，作为示例，例如第一预设阈值的取值可以为0.005、0.01、0.02或其它趋近于0的数值；也可以为目标损失函数的相邻两次的值的差值小于或等于第二预设阈值，第二阈值的取值可以与第一阈值的取值相同或不同，作为示例，例如第二预设阈值的取值可以为0.005、0.01、0.02或其它趋近于0的数值等，服务器还可以采用其它收敛条件等，此处不做限定。

本申请实施例中，通过上述方式，服务器借助图像样本、图像样本所对应的预测图像以及图像样本所对应的待训练图像对待训练信息合成模型进行训练，从而有利于帮助信息合成模型输出的合成图像可以逼近真实的图像样本，有利于提高提升了合成图像的真实性；进一步地，利用图像样本、图像样本所对应的预测图像以及图像样本所对应的待训练图像的像素，以及判别器来生成目标函数值，简单便捷，提高了本方案的可操作性。

可选地，在上述图2对应的实施例的基础上，本申请实施例提供的模型训练的方法一个可选实施例中，服务器根据第一损失函数以及第二损失函数，确定目标损失函数，包括：

采用如下方式计算目标损失函数：

L(G,D)＝E_f,r[L_r(G)+λ_sL_s(G,D)]；

L_s(G,D)＝log(D(r,f))+log(1-D(r,G(r)))；

表示逐像素的乘法。

本申请实施例中，通过上述方式，提供了对于静态图像进行处理的过程中，第一损失函数、第二损失函数以及目标损失函数的具体公式，进一步提高了本方案的可实现性和可执行性。

可选地，在上述图2对应的实施例的基础上，本申请实施例提供的模型训练的方法一个可选实施例中，图像样本集合包括多个连续的图像样本，且多个连续的图像样本用于组成视频样本；

基于预测图像集合以及图像样本集合，采用目标损失函数对待训练信息合成模型进行训练，得到信息合成模型，可以包括：

根据第一损失函数以及第二损失函数，确定目标损失函数；

根据目标损失函数更新待训练信息合成模型的模型参数；

本实施例中，服务器在获取到预测图像集合以及图像样本集合之后，由于前述图像样本集合对应的为一个视频，则服务器根据预测图像集合中的N帧预测图像中的每帧预测图像、每帧待训练图像以及每帧图像样本，确定每帧图像对应的第一损失函数的值，重复前述操作N次，将N帧帧图像对应的第一损失函数的值相加，得到最终的第一损失函数值；并根据预测图像集合中的每帧预测图像以及图像样本集合中的每帧图像样本，确定每帧图像对应的第二损失函数，重复前述操作N次，将N帧帧图像对应的第二损失函数的值相加，得到最终的第二损失函数值，服务器获取每帧图像对应的第一损失函数的值以及获取每帧图像对应的第二损失函数的具体实现方式可以参阅上述实施例，此处不做赘述。进而根据第一损失函数以及第二损失函数，确定目标损失函数，根据目标损失函数更新待训练信息合成模型的模型参数，在满足迭代结束条件的情况下，根据待训练信息合成模型的模型参数，生成信息合成模型。

本申请实施例中，通过上述方式，服务器借助视频样本、视频样本所对应的预测视频以及视频样本所对应的待训练视频对待训练信息合成模型进行训练，从而有利于帮助信息合成模型输出的合成视频可以逼近真实的视频样本，有利于提高提升了合成视频的真实性。

可选地，在上述图2对应的实施例的基础上，本申请实施例提供的模型训练的方法一个可选实施例中，根据第一损失函数以及第二损失函数，确定目标损失函数，包括：

采用如下方式计算目标损失函数：

L(G,D)＝E_f,r[L_r(G)+λ_sL_s(G,D)]；

其中，L(G,D)表示目标损失函数，E表示期望值计算，L_r(G)表示第一损失函数，第一损失函数用于表征第N帧预测图像中内容遮罩内的损失，可选地，第一损失函数用于表征第N帧预测图像中扩张人脸内容遮罩内的损失，L_s(G,D)表示第二损失函数，第二损失函数表征的为每一帧图像在空间上的对抗损失，G()表示待训练信息合成模型中的生成器，D()表示待训练信息合成模型中的判别器，λ_s表示第一预设系数，o表示(N-1)帧待训练图像，f表示第N帧图像样本，r表示第N帧待训练图像，m表示第N帧待训练图像的内容遮罩，

表示逐像素的乘法，

表示图像帧的叠加。

本申请实施例中，通过上述方式，对于视频进行处理的过程中，提供了第一损失函数、第二损失函数以及目标损失函数的具体公式，进一步提高了本方案的可实现性和可执行性，也扩展了本方案的应用场景。

服务器基于预测图像集合以及图像样本集合，采用目标损失函数对待训练信息合成模型进行训练，得到信息合成模型，包括：

服务器根据预测图像集合中的N帧预测图像、待训练图像集合中的N帧待训练图像以及图像样本集合中的N帧图像样本，确定第一损失函数，其中，N为大于1的整数；

服务器根据预测图像集合中的N帧预测图像以及图像样本集合中的N帧图像样本，确定第二损失函数；

服务器根据预测图像集合中的M帧预测图像以及图像样本集合中的M帧图像样本，确定第三损失函数，其中，M为大于等于1，且小于或等于N的整数；

服务器根据第一损失函数、第二损失函数以及第三损失函数，确定目标损失函数；

服务器根据目标损失函数更新待训练信息合成模型的模型参数；

服务器在满足迭代结束条件的情况下，根据待训练信息合成模型的模型参数，生成信息合成模型。

本实施例中，服务器在根据预测图像集合中的N帧预测图像、待训练图像集合中的N帧待训练图像以及图像样本集合中的N帧图像样本，确定第一损失函数，根据预测图像集合中的N帧预测图像以及图像样本集合中的N帧图像样本，确定第二损失函数之外，还根据预测图像集合中的M帧预测图像以及图像样本集合中的M帧图像样本，确定第三损失函数，其中，第三损失函数用于表征在时序上的损失，进而可以为第一损失函数、第二损失函数以及第三损失函数分配相应的权重，从而得到目标损失函数，并根据目标损失函数更新待训练信息合成模型的模型参数，服务器在满足迭代结束条件的情况下，根据待训练信息合成模型的模型参数，生成信息合成模型。

本申请实施例中，根据第一损失函数、第二损失函数以及第三损失函数，确定目标损失函数，并根据目标损失函数迭代更新待训练信息合成模型的模型参数，由于第三损失函数是关于时序的损失项，从而有利于帮助信息合成模型生成的内容在时序上更加一致，有利于提高提升了合成视频的真实性。

可选地，在上述图2对应的实施例的基础上，本申请实施例提供的模型训练的方法一个可选实施例中，根据第一损失函数、第二损失函数以及第三损失函数，确定目标损失函数，包括：

采用如下方式计算目标损失函数：

L(G,D_s,D_t)＝E_f,r[L_r(G)+λ_sL_s(G,D_s)+λ_tL_t(G,D_t)]；

其中，L(G,D_s,D_t)表示目标损失函数，L_r(G)表示第一损失函数，L_s(G,D_s)表示第二损失函数，L_t(G,D_t)表示第三损失函数，第三损失函数用于表征在时序上的损失，G()表示待训练信息合成模型中的生成器，G(r)表示预测图像，D_s()表示待训练信息合成模型中的第一判别器，D_t()表示待训练信息合成模型中的第二判别器，λ_s表示第一预设系数，λ_t表示第二预设系数，o表示(N-1)帧待训练图像，f表示第N帧图像样本，r表示第N帧待训练图像，m表示第N帧待训练图像中的内容遮罩，Δ_i表示向前平移i帧生成的M帧图像，

表示逐像素的乘法，表示图像帧的叠加。

本申请实施例中，通过上述方式，对于视频进行处理的过程中，提供了第一损失函数、第二损失函数、第三损失函数以及目标损失函数的具体公式，进一步提高了本方案的可实现性和可执行性，也扩展了本方案的选择灵活性。

本申请实施例还提供一种媒体信息合成的方法，请参阅图8，本申请实施例中媒体信息合成的方法一个实施例包括：

201、终端设备获取待合成图像，其中，待合成图像包括目标对象；

本实施例中，终端设备获取待合成图像，待合成图像包括目标对象，具体的，待合成图像中的目标对象可以为人体、人脸、人脸中的部分脸部或其他对象等。

可以理解的是，媒体信息合成装置可以部署于服务器，也可以部署于终端设备，为了便于介绍，下面将以媒体信息合成装置部署于终端设备为例进行说明，但是这不应理解为对本申请的限定。

202、终端设备获取概略提示信息，其中，概略提示信息用于表示目标对象在待合成图像中的关键点信息；

本实施例中，终端设备获取与待合成图像对象对应的概略提示信息，概略提示信息用于表示目标对象在待合成图像中的关键点信息。具体的，在待合成图像中的目标对象为人体对象的情况下，终端设备可以基于人体姿态估计方法获取用于表示目标对象在待合成图像待合成图像中的关键点信息的概略提示信息；在待合成图像中的目标对象为人脸对象的情况下，终端设备可以基于目标对象的边缘，确定用于表示目标对象在待合成图像中的关键点信息等，此处不做限定。其中，关键点信息可以为关键点的坐标信息，例如二维坐标信息、三维坐标信息、二维像素坐标信息、三维像素坐标信息等等。

203、终端设备基于待合成图像以及概略提示信息，通过信息合成模型获取目标图像，其中，信息合成模型为采用上述图2对应的各个方法实施例中描述的方法训练得到的；

本实施例中，终端设备将待合成图像、概略提示信息以及背景图像输入到信息合成模型中，信息合成模型可以基于概略提示信息从待合成图像中获取到目标对象，进而生成与目标对象对应的目标图像，目标图像中包括目标对象以及目标对象与背景图像进行拼接的部分；其中，信息合成模型为采用上述图2对应的各个方法实施例中描述的方法训练得到的。

204、终端设备将目标图像与背景图像进行融合处理，得到合成图像。

本实施例中，终端设备在得到目标图像之后，将目标图像与背景图像进行融合处理，得到合成图像。

本申请实施例中，获取待合成图像，其中，待合成图像包括目标对象，并获取概略提示信息，其中，概略提示信息用于表示目标对象在待合成图像中的关键点信息，进而基于待合成图像以及概略提示信息，通过信息合成模型获取目标图像，其中，信息合成模型为采用上述第一方面所述的方法训练得到的，并将目标图像与背景图像进行融合处理，得到合成图像。通过上述方式，提供了对静态图像进行合成的具体实现方式，提高了可实现性；且由于信息合成模型为采用上述第一方面所述的方法训练得到的，而训练过程中利用内容遮罩生成待训练图像，而内容遮罩的覆盖范围大于待训练对象的范围，由此对边界适当地进行扩张，可以使得目标图像与背景图像之间的部分由信息合成模型生成的，避免了由于拼接而产生的瑕疵，从而提升了合成图像的真实性。

本申请实施例还提供一种媒体信息合成的方法，请参阅图9，本申请实施例中媒体信息合成的方法一个实施例包括：

301、终端设备获取待合成视频，其中，待合成视频包括多个待合成图像，待合成图像包括目标对象；

本实施例中，终端设备获取待合成视频，待合成视频包括多个待合成图像，待合成图像包括目标对象，具体的，待合成视频中的目标对象可以为人体、人脸、人脸中的部分脸部或其他对象等。

302、终端设备获取概略提示信息，其中，概略提示信息用于表示目标对象在待合成图像中的关键点信息；

本实施例中，针对待合成视频中的每一个待合成图像，终端设备获取与待合成图像对象对应的概略提示信息，概略提示信息用于表示目标对象在待合成图像的每一帧图像中的关键点信息。具体的，无论待合成视频中的对象是人体还是人脸，在一种情况中，概略提示信息可以为通过蒙皮模型获取的包括多个三维渲染图或二维渲染图的视频，多个三维渲染图或二维渲染图之间部分区域形状相同，部分区域形状发生变化，目标对象指的是前述形状发生变化的区域，从而终端设备可以将包括多个三维渲染图或二维渲染图的视频与待合成视频对齐，并根据包括多个三维渲染图或二维渲染图的视频中形状发生变化的区域的边缘，确定用于表示目标对象在待合成图像中的关键点信息。在另一种情况中，终端设备在获取到待合成视频之后，可以针对待合成视频中的每一帧图像，直接对关键点进行标记，从而获取到关键点信息。其中，关键点信息可以为关键点的坐标信息，例如二维坐标信息、三维坐标信息、二维像素坐标信息、三维像素坐标信息等等。

303、终端设备基于待合成视频以及概略提示信息，通过信息合成模型获取目标视频；

本实施例中，终端设备将待合成视频、概略提示信息以及背景图像输入到信息合成模型中，信息合成模型可以基于概略提示信息从待合成视频的每一帧图像中获取到目标对象，进而生成与每一帧图像中的目标对象对应的目标图像，从而在针对待合成视频的所有图像都执行前述操作之后，可以获取到目标视频，目标视频中包括目标对象以及目标对象与背景图像进行拼接的部分；其中，信息合成模型为采用上述图2对应的各个方法实施例中描述的方法训练得到的。

304、终端设备将目标视频与背景图像进行融合处理，得到合成视频。

本实施例中，终端设备在得到目标视频之后，将目标视频与背景图像进行融合处理，得到合成视频。

本申请实施例中，获取待合成视频，其中，待合成视频包括多个待合成图像，待合成图像包括目标对象，并获取概略提示信息，其中，概略提示信息用于表示目标对象在待合成图像中的关键点信息，基于待合成视频以及概略提示信息，通过信息合成模型获取目标视频，其中，信息合成模型为采用上述第一方面所述的方法训练得到的，并将目标视频与背景图像进行融合处理，得到合成视频。通过上述方式，提供了对视频进行合成的具体实现方式，提高了灵活性；且由于信息合成模型为采用上述第一方面所述的方法训练得到的，而训练过程中利用内容遮罩生成待训练视频，而内容遮罩的覆盖范围大于待训练对象的范围，由此对边界适当地进行扩张，可以使得目标视频与背景图像之间的部分由信息合成模型生成的，避免了由于拼接而产生的瑕疵，从而提升了合成视频的真实性。

下面对本申请中的模型训练装置进行详细描述，请参阅图10，图10为本申请实施例中模型训练装置一个实施例示意图，模型训练装置40包括：

获取模块401，用于获取图像样本集合以及概略提示信息，其中，图像样本集合包括至少一个图像样本，概略提示信息用于表示待训练对象在图像样本中的关键点信息；

处理模块402，用于根据获取模块401获取的图像样本集合以及概略提示信息，生成内容遮罩集合，其中，内容遮罩集合包括至少一个内容遮罩，内容遮罩与图像样本具有对应关系；

处理模块402，还用于根据处理模块402生成的内容遮罩集合生成待训练图像集合，其中，待训练图像集合包括至少一个待训练图像，待训练图像与图像样本具有对应关系；

处理模块402，还用于基于获取模块401获取的图像样本集合以及处理模块402生成的待训练图像集合，通过待训练信息合成模型获取预测图像集合，其中，预测图像集合包括至少一个预测图像，预测图像与图像样本具有对应关系；

处理模块402，还用于基于处理模块402合成的预测图像集合以及获取模块401获取的图像样本集合，采用目标损失函数对待训练信息合成模型进行训练，得到信息合成模型。

本实施例中，获取模块401获取图像样本集合以及概略提示信息，其中，图像样本集合包括至少一个图像样本，概略提示信息用于表示待训练对象在图像样本中的关键点信息，处理模块402根据获取模块401获取的图像样本集合以及概略提示信息，生成内容遮罩集合，其中，内容遮罩集合包括至少一个内容遮罩，内容遮罩与图像样本具有对应关系，处理模块402根据处理模块402生成的内容遮罩集合生成待训练图像集合，其中，待训练图像集合包括至少一个待训练图像，待训练图像与图像样本具有对应关系，处理模块402基于获取模块401获取的图像样本集合以及处理模块402生成的待训练图像集合，通过待训练信息合成模型获取预测图像集合，其中，预测图像集合包括至少一个预测图像，预测图像与图像样本具有对应关系；处理模块402基于处理模块402合成的预测图像集合以及获取模块401获取的图像样本集合，采用目标损失函数对待训练信息合成模型进行训练，得到信息合成模型。

可选地，在上述图10所对应的实施例的基础上，本申请实施例提供的模型训练装置40的另一实施例中，

获取模块401，具体用于：

获取图像样本集合；

处理模块402，具体用于：

可选地，在上述图10所对应的实施例的基础上，本申请实施例提供的模型训练装置40的另一实施例中，处理模块402，具体用于基于内容遮罩集合中的人体内容遮罩，将人体内容遮罩覆盖于图像样本上，得到待训练图像集合中的待训练图像。

可选地，在上述图10所对应的实施例的基础上，本申请实施例提供的模型训练装置40的另一实施例中，处理模块402，具体用于：

根据第一损失函数以及第二损失函数，确定目标损失函数；

根据目标损失函数更新待训练信息合成模型的模型参数；

可选地，在上述图10所对应的实施例的基础上，本申请实施例提供的模型训练装置40的另一实施例中，处理模块402，具体用于采用如下方式计算目标损失函数：

L(G,D)＝E_f,r[L_r(G)+λ_sL_s(G,D)]；

L_s(G,D)＝log(D(r,f))+log(1-D(r,G(r)))；

表示逐像素的乘法。

可选地，在上述图10所对应的实施例的基础上，本申请实施例提供的模型训练装置40的另一实施例中，图像样本集合包括多个连续的图像样本，且多个连续的图像样本用于组成视频样本；

处理模块402，具体用于：

根据第一损失函数以及第二损失函数，确定目标损失函数；

根据目标损失函数更新待训练信息合成模型的模型参数；

L(G,D)＝E_f,r[L_r(G)+λ_sL_s(G,D)]；

其中，L(G,D)表示目标损失函数，E表示期望值计算，L_r(G)表示第一损失函数，L_s(G,D)表示第二损失函数，G()表示待训练信息合成模型中的生成器，D()表示待训练信息合成模型中的判别器，λ_s表示第一预设系数，o表示(N-1)帧待训练图像，f表示第N帧图像样本，r表示第N帧待训练图像，m表示第N帧待训练图像中的内容遮罩，

表示逐像素的乘法，

表示图像帧的叠加。

处理模块402，具体用于：

根据目标损失函数更新待训练信息合成模型的模型参数；

L(G,D_s,D_t)＝E_f,r[L_r(G)+λ_sL_s(G,D_s)+λ_tL_t(G,D_t)]；

表示逐像素的乘法，

表示图像帧的叠加。

本申请实施例还提供了一种媒体信息合成装置，请参阅图11，图11为本申请实施例中模型训练装置一个实施例示意图，媒体信息合成装置50包括：

获取模块501，用于获取待合成图像，其中，待合成图像包括目标对象；

获取模块501，还用于获取概略提示信息，其中，概略提示信息用于表示目标对象在待合成图像中的关键点信息；

处理模块502，用于基于待合成图像以及概略提示信息，通过信息合成模型获取目标图像，其中，信息合成模型为采用上述第一方面所述的方法训练得到的；

处理模块502，还用于将处理模块502合成的目标图像与背景图像进行融合处理，得到合成图像。

本实施例中，获取模块501获取待合成图像，其中，待合成图像包括目标对象，获取模块501获取概略提示信息，其中，概略提示信息用于表示目标对象在待合成图像中的关键点信息，处理模块502基于待合成图像以及概略提示信息，通过信息合成模型获取目标图像，其中，信息合成模型为采用上述第一方面所述的方法训练得到的，处理模块502将处理模块502合成的目标图像与背景图像进行融合处理，得到合成图像。

本申请实施例还提供了一种媒体信息合成装置，请参阅图12，图12为本申请实施例中模型训练装置一个实施例示意图，媒体信息合成装置60包括：

获取模块601，用于获取待合成视频，其中，待合成视频包括多个待合成图像，待合成图像包括目标对象；

获取模块601，还用于获取概略提示信息，其中，概略提示信息用于表示目标对象在待合成图像中的关键点信息；

处理模块602，用于基于待合成视频以及概略提示信息，通过信息合成模型获取目标视频，其中，信息合成模型为采用上述第一方面所述的方法训练得到的；

处理模块602，还用于将处理模块602合成的目标视频与背景图像进行融合处理，得到合成视频。

本实施例中，获取模块601获取待合成视频，其中，待合成视频包括多个待合成图像，待合成图像包括目标对象,获取模块601获取概略提示信息，其中，概略提示信息用于表示目标对象在待合成图像中的关键点信息,处理模块602基于待合成视频以及概略提示信息，通过信息合成模型获取目标视频，其中，信息合成模型为采用上述第一方面所述的方法训练得到的,处理模块602将处理模块602合成的目标视频与背景图像进行融合处理，得到合成视频。

接下来，本申请实施例还提供了一种服务器，请参阅图13，图13为本申请实施例中提供的服务器的一个结构示意图。所述服务器700上可以部署有上述图10对应的实施例中提供的模型训练装置，用于执行图2至图7c对应的实施例中服务器执行的步骤。该服务器700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)722(例如，一个或一个以上处理器)和存储器732，一个或一个以上存储应用程序742或数据744的存储介质730(例如一个或一个以上海量存储设备)。其中，存储器732和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对区块链节点中的一系列指令操作。更进一步地，中央处理器722可以设置为与存储介质730通信，在服务器700上执行存储介质730中的一系列指令操作。

服务器700还可以包括一个或一个以上电源726，一个或一个以上有线或无线网络接口750，一个或一个以上输入输出接口755，和/或，一个或一个以上操作系统741，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于该图13所示的服务器。在本申请实施例中，当服务器上部署有图10对应的实施例中提供的模型训练装置时，CPU722还用于执行图2至图7c对应的实施例中服务器执行的步骤。对于CPU722执行图2至图7c对应的实施例中服务器执行的步骤的具体实现方式，可以参阅图2至图7c对应的方法实施例中的描述，此处不做赘述。

接下来，本申请实施例还提供了一种终端设备，所述终端设备800上可以部署有上述图11对应的实施例中提供的媒体信息合成装置，用于执行图8对应的实施例中终端设备执行的步骤，或者，部署有上述图12对应的实施例中提供的媒体信息合成装置，用于执行图9对应的实施例中终端设备执行的步骤。如图14所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端设备可以为包括手机、平板电脑、个人数字助理(Personal Digital Assistant，PDA)、销售终端(Point of Sales，POS)、车载电脑等任意终端设备，以属性信息展示装置为手机为例：

图14示出的是与本申请实施例提供的属性信息展示装置相关的手机的部分结构的框图。参考图14，手机包括：射频(Radio Frequency，RF)电路810、存储器820、输入单元830、显示单元840、传感器830、音频电路860、无线保真(wireless fidelity，WiFi)模块870、处理器880、以及电源890等部件。本领域技术人员可以理解，图14中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图14对手机的各个构成部件进行具体的介绍：

RF电路810可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器880处理；另外，将设计上行的数据发送给基站。通常，RF电路810包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，LNA)、双工器等。此外，RF电路810还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GlobalSystem of Mobile communication，GSM)、通用分组无线服务(General Packet RadioService，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution，LTE)、电子邮件、短消息服务(Short Messaging Service，SMS)等。

存储器820可用于存储软件程序以及模块，处理器880通过运行存储在存储器820的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器820可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器820可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元830可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元830可包括触控面板831以及其他输入设备832。触控面板831，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板831上或在触控面板831附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板831可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器880，并能接收处理器880发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板831。除了触控面板831，输入单元830还可以包括其他输入设备832。具体地，其他输入设备832可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元840可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元840可包括显示面板841，可选的，可以采用液晶显示器(Liquid CrystalDisplay，LCD)、有机发光二极管(Organic Light-Emitting Diode，OLED)等形式来配置显示面板841。进一步的，触控面板831可覆盖显示面板841，当触控面板831检测到在其上或附近的触摸操作后，传送给处理器880以确定触摸事件的类型，随后处理器880根据触摸事件的类型在显示面板841上提供相应的视觉输出。虽然在图14中，触控面板831与显示面板841是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板831与显示面板841集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器830，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板841的亮度，接近传感器可在手机移动到耳边时，关闭显示面板841和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路860、扬声器861，传声器862可提供用户与手机之间的音频接口。音频电路860可将接收到的音频数据转换后的电信号，传输到扬声器861，由扬声器861转换为声音信号输出；另一方面，传声器862将收集的声音信号转换为电信号，由音频电路860接收后转换为音频数据，再将音频数据输出处理器880处理后，经RF电路810以发送给比如另一手机，或者将音频数据输出至存储器820以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块870可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图14示出了WiFi模块870，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器880是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器820内的软件程序和/或模块，以及调用存储在存储器820内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器880可包括一个或多个处理单元；可选的，处理器880可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器880中。

手机还包括给各个部件供电的电源890(比如电池)，可选的，电源可以通过电源管理系统与处理器880逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像模块、蓝牙模块等，在此不再赘述。

在本申请实施例中，当服务器上部署有图11对应的实施例中提供的模型训练装置时，处理器880还用于执行图8对应的实施例中服务器执行的步骤。对于处理器880执行图8对应的实施例中终端设备执行的步骤的具体实现方式，可以参阅图8对应的方法实施例中的描述，此处不做赘述。

当服务器上部署有图12对应的实施例中提供的模型训练装置时，处理器880还用于执行图9对应的实施例中服务器执行的步骤。对于处理器880执行图9对应的实施例中终端设备执行的步骤的具体实现方式，可以参阅图9对应的方法实施例中的描述，此处不做赘述。

本申请实施例中还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行如前述图2至图7c所示实施例描述的方法中服务器所执行的步骤，或者，使得计算机执行如前述图8所示实施例描述的方法中终端设备所执行的步骤，或者，使得计算机执行如前述图9所示实施例描述的方法中终端设备所执行的步骤。

本申请实施例中还提供一种包括程序的计算机程序产品，当其在计算机上运行时，使得计算机执行如前述图2至图7c所示实施例描述的方法中服务器所执行的步骤，或者，使得计算机执行如前述图8所示实施例描述的方法中终端设备所执行的步骤，或者，使得计算机执行如前述图9所示实施例描述的方法中终端设备所执行的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种模型训练的方法，其特征在于，包括：

获取图像样本集合以及概略提示信息，其中，所述图像样本集合包括至少一个图像样本，所述概略提示信息用于表示所述待训练对象在所述图像样本中的关键点信息；

根据所述图像样本集合以及所述概略提示信息，生成内容遮罩集合，其中，所述内容遮罩集合包括至少一个内容遮罩，所述内容遮罩与所述图像样本具有对应关系；

根据所述内容遮罩集合生成待训练图像集合，其中，所述待训练图像集合包括至少一个待训练图像，所述待训练图像与所述图像样本具有对应关系；

基于所述图像样本集合以及所述待训练图像集合，通过待训练信息合成模型获取预测图像集合，其中，所述预测图像集合包括至少一个预测图像，所述预测图像与所述图像样本具有对应关系；

基于所述预测图像集合以及所述图像样本集合，采用目标损失函数对所述待训练信息合成模型进行训练，得到信息合成模型。

2.根据权利要求1所述的方法，其特征在于，所述获取图像样本集合以及概略提示信息，包括：

获取所述图像样本集合；

采用人体姿态估计方法，获取所述图像样本集合中所述图像样本所对应的概略提示信息；

所述根据所述图像样本集合以及所述概略提示信息，生成内容遮罩集合，包括：

基于所述图像样本集合中的所述图像样本，根据所述待训练对象所对应的概略提示信息生成人体关键点图；

基于所述图像样本集合中所述图像样本所对应的所述人体关键点图，采用部分亲和字段PAF算法生成人体骨架连接图；

基于所述图像样本集合中所述图像样本所对应的所述人体骨架连接图，采用凸包算法生成人体内容遮罩，其中，所述人体内容遮罩属于所述内容遮罩。

3.根据权利要求2所述的方法，其特征在于，所述根据所述内容遮罩集合生成待训练图像集合，包括：

基于所述内容遮罩集合中的所述人体内容遮罩，将所述人体内容遮罩覆盖于所述图像样本上，得到所述待训练图像集合中的所述待训练图像。

4.根据权利要求1所述的方法，其特征在于，所述根据所述图像样本集合以及所述概略提示信息，生成内容遮罩集合，包括：

基于所述图像样本集合中的所述图像样本，根据所述待训练对象的所对应的概略提示信息生成K个目标人脸关键点，其中，所述目标人脸关键点与所述人脸关键点具有对应关系，所述K为大于1的整数；

基于所述图像样本集合中所述图像样本的所述K个目标人脸关键点，采用凸包算法生成原始人脸内容遮罩，其中，所述原始人脸内容遮罩属于所述内容遮罩；

基于所述图像样本集合中所述图像样本的所述原始人脸内容遮罩，根据遮罩扩张比例生成扩张人脸内容遮罩，其中，所述扩张人脸内容遮罩属于所述内容遮罩；

基于所述图像样本集合中所述图像样本的所述原始人脸内容遮罩，根据遮罩收缩比例生成收缩人脸内容遮罩，其中，所述收缩人脸内容遮罩属于所述内容遮罩。

5.根据权利要求4所述的方法，其特征在于，所述根据所述内容遮罩集合生成待训练图像集合，包括：

根据所述图像样本集合中所述图像样本所对应的所述扩张人脸内容遮罩，将所述扩张人脸内容遮罩覆盖于所述图像样本上，得到第一遮罩图像；

根据所述图像样本集合中所述图像样本所对应的所述扩张人脸内容遮罩，将所述收缩人脸内容遮罩覆盖于所述图像样本上，得到第二遮罩图像；

根据所述第一遮罩图像以及所述第二遮罩图像，生成所述图像样本所对应的待训练图像。

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述基于所述预测图像集合以及所述图像样本集合，采用目标损失函数对所述待训练信息合成模型进行训练，得到信息合成模型，包括：

根据所述图像样本集合中的所述图像样本、所述图像样本所对应的所述预测图像以及所述图像样本所对应的所述待训练图像，确定第一损失函数；

根据所述图像样本集合中的所述图像样本以及所述图像样本所对应的所述预测图像，确定第二损失函数；

根据所述第一损失函数以及所述第二损失函数，确定所述目标损失函数；

根据所述目标损失函数更新所述待训练信息合成模型的模型参数；

当满足迭代结束条件时，根据所述待训练信息合成模型的模型参数，生成所述信息合成模型。

7.根据权利要求6所述的方法，其特征在于，所述根据所述第一损失函数以及所述第二损失函数，确定所述目标损失函数，包括：

采用如下方式计算所述目标损失函数：

L(G,D)＝E_f,r[L_r(G)+λ_sL_s(G,D)]；

L_s(G,D)＝log(D(r,f))+log(1-D(r,G(r)))；

其中，所述L(G,D)表示所述目标损失函数，所述E表示期望值计算，所述L_r(G)表示所述第一损失函数，所述L_s(G,D)表示所述第二损失函数，所述G()表示所述待训练信息合成模型中的生成器，所述D()表示所述待训练信息合成模型中的判别器，所述λ_s表示第一预设系数，所述f表示所述图像样本，所述r表示所述待训练图像，所述G(r)表示所述预测图像，所述m表示所述待训练图像中的内容遮罩，所述表示逐像素的乘法。

8.根据权利要求1至5中任一项所述的方法，其特征在于，所述图像样本集合包括多个连续的图像样本，且所述多个连续的图像样本用于组成视频样本；

所述基于所述预测图像集合以及所述图像样本集合，采用目标损失函数对所述待训练信息合成模型进行训练，得到信息合成模型，包括：

根据所述预测图像集合中的N帧预测图像、所述待训练图像集合中的N帧待训练图像以及所述图像样本集合中的N帧图像样本，确定第一损失函数，其中，所述N为大于1的整数；

根据所述预测图像集合中的N帧预测图像以及所述图像样本集合中的N帧图像样本，确定第二损失函数；

9.根据权利要求8所述的方法，其特征在于，所述根据所述第一损失函数以及所述第二损失函数，确定所述目标损失函数，包括：

采用如下方式计算所述目标损失函数：

L(G,D)＝E_f,r[L_r(G)+λ_sL_s(G,D)]；

其中，所述L(G,D)表示所述目标损失函数，所述E表示期望值计算，所述L_r(G)表示所述第一损失函数，所述L_s(G,D)表示所述第二损失函数，所述G()表示所述待训练信息合成模型中的生成器，所述D()表示所述待训练信息合成模型中的判别器，所述λ_s表示第一预设系数，所述o表示(N-1)帧待训练图像，所述f表示第N帧图像样本，所述r表示第N帧待训练图像，所述m表示所述第N帧待训练图像的内容遮罩，所述表示逐像素的乘法，所述

表示图像帧的叠加。

10.根据权利要求1至5中任一项所述的方法，其特征在于，所述图像样本集合包括多个连续的图像样本，且所述多个连续的图像样本用于组成视频样本；

根据所述预测图像集合中的M帧预测图像以及所述图像样本集合中的M帧图像样本，确定第三损失函数，其中，所述M为大于等于1，且小于或等于所述N的整数；

根据所述第一损失函数、所述第二损失函数以及所述第三损失函数，确定所述目标损失函数；

11.根据权利要求8所述的方法，其特征在于，所述根据所述第一损失函数、所述第二损失函数以及所述第三损失函数，确定所述目标损失函数，包括：

采用如下方式计算所述目标损失函数：

L(G,D_s,D_t)＝E_f,r[L_r(G)+λ_sL_s(G,D_s)+λ_tL_t(G,D_t)]；

其中，所述L(G,D_s,D_t)表示所述目标损失函数，所述L_r(G)表示所述第一损失函数，所述L_s(G,D_s)表示所述第二损失函数，所述L_t(G,D_t)表示所述第三损失函数，所述G()表示所述待训练信息合成模型中的生成器，所述G(r)表示所述预测图像，所述D_s()表示所述待训练信息合成模型中的第一判别器，所述D_t()表示所述待训练信息合成模型中的第二判别器，所述λ_s表示第一预设系数，所述λ_t表示第二预设系数，所述o表示(N-1)帧待训练图像，所述f表示第N帧图像样本，所述r表示第N帧待训练图像，所述m表示所述第N帧待训练图像中的内容遮罩，所述Δ_i表示向前平移i帧生成的M帧图像，所述

表示逐像素的乘法，所述表示图像帧的叠加。

12.一种媒体信息合成的方法，其特征在于，包括：

获取待合成图像，其中，所述待合成图像包括目标对象；

获取概略提示信息，其中，所述概略提示信息用于表示所述目标对象在所述待合成图像中的关键点信息；

基于所述待合成图像以及所述概略提示信息，通过信息合成模型获取目标图像，其中，所述信息合成模型为采用上述权利要求1至11中任一项所述的方法训练得到的；

将所述目标图像与背景图像进行融合处理，得到合成图像。

13.一种媒体信息合成的方法，其特征在于，包括：

获取待合成视频，其中，所述待合成视频包括多个待合成图像，所述待合成图像包括目标对象；

基于所述待合成视频以及所述概略提示信息，通过信息合成模型获取目标视频，其中，所述信息合成模型为采用上述权利要求1至11中任一项所述的方法训练得到的；

将所述目标视频与背景图像进行融合处理，得到合成视频。

14.一种模型训练装置，其特征在于，包括：

获取模块，用于获取图像样本集合以及概略提示信息，其中，所述图像样本集合包括至少一个图像样本，所述概略提示信息用于表示所述待训练对象在所述图像样本中的关键点信息；

处理模块，用于根据所述获取模块获取的图像样本集合以及所述概略提示信息，生成内容遮罩集合，其中，所述内容遮罩集合包括至少一个内容遮罩，所述内容遮罩与所述图像样本具有对应关系；

所述处理模块，还用于根据所述处理模块生成的内容遮罩集合生成待训练图像集合，其中，所述待训练图像集合包括至少一个待训练图像，所述待训练图像与所述图像样本具有对应关系；

所述处理模块，还用于基于所述获取模块获取的图像样本集合以及所述处理模块生成的待训练图像集合，通过待训练信息合成模型获取预测图像集合，其中，所述预测图像集合包括至少一个预测图像，所述预测图像与所述图像样本具有对应关系；

所述处理模块，还用于基于所述处理模块合成的预测图像集合以及所述获取模块获取的图像样本集合，采用目标损失函数对所述待训练信息合成模型进行训练，得到信息合成模型。

15.一种服务器，其特征在于，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

基于所述预测图像集合以及所述图像样本集合，采用目标损失函数对所述待训练信息合成模型进行训练，得到信息合成模型；

所述总线系统用于连接所述存储器以及所述处理器，以使所述存储器以及所述处理器进行通信。

16.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1至11中任一项所述的方法，或者，使得计算机执行如权利要求12所述的方法，或者，使得计算机执行如权利要求13所述的方法。