CN114144790B

CN114144790B - 具有三维骨架正则化和表示性身体姿势的个性化语音到视频

Info

Publication number: CN114144790B
Application number: CN202080005083.7A
Authority: CN
Inventors: 廖淼; 张思博; 王鹏; 杨睿刚
Original assignee: Baidu com Times Technology Beijing Co Ltd; Baidu USA LLC
Current assignee: Baidu com Times Technology Beijing Co Ltd; Baidu USA LLC
Priority date: 2020-06-12
Filing date: 2020-06-12
Publication date: 2024-07-02
Anticipated expiration: 2040-06-12
Also published as: US11514634B2; WO2021248473A1; CN114144790A; US20210390748A1

Abstract

本文提出了是用于将给定的语音音频或文本转换为具有同步的、真实的、具有表现性的身体动力学的人逼真说话的视频的新颖的实施例。在一个或多个实施例中，使用递归神经网络从音频序列生成3D骨架运动，并且经由有条件的生成对抗网络合成输出视频。为了使运动逼真和具有表现性，可以在学习和测试管道中的生成过程中嵌入对关节式3D人体骨架和个人语音标志性姿势的学习字典的知识。前者防止产生不合理的身体变形，后者帮助模型利用较少的视频来快速学习有意义的身体运动。为了产生具有运动细节的逼真的高分辨率视频，在有条件的GAN中插入部分注意机制，其中每个具体部分被自动放大以具有它们自己的鉴别器。

Description

具有三维骨架正则化和表示性身体姿势的个性化语音到视频

技术领域

本公开总体上涉及用于计算机学习的系统和方法，其可以提供改进的计算机性能、特征和使用。更具体地，本公开涉及将给定的语音输入(无论是音频还是文本)转换为说话者的逼真的视频。

背景技术

神经网络已经在许多领域，例如计算机视觉、自然语言处理、推荐系统等中取得了巨大的成功。一种应用是试图将诸如音频输入或文本输入的语音输入转换为合成视频。具体地，语音到视频是从语音输入合成人体全身运动(包括头部、嘴部、手臂等)的视频的任务。语音到视频可在多种方式和多种领域中有用。例如，合成的视频内容可以用于娱乐目的(例如视频内容、电影和视频游戏)，用于教育目的(例如教程、讲座和其它教育内容)，以及用于其它目的(例如网站宣传或指导视频、模拟、人机界面以及用于其它目的)。优选地，合成的视频内容应该是视觉上自然的并且与给定的语音一致。

尝试进行语音到视频的传统方式涉及使用专用设备和专业操作员来进行性能捕获。大多数语音和呈现任务是由动画制作者团队执行的，这对于定制使用来说通常是昂贵的。最近，已经提出了用于低成本语音视频合成的使用深度神经网络和数据驱动的方法。例如，SythesisObama和MouthEditing关注于通过使用循环神经网络利用语音驱动嘴部运动来合成说话的嘴部。其他人提出了使用音频来驱动高保真图形模型，其中不仅将嘴部动画化，而且将面部上的其他部分也动画化，以获得更丰富的语音表达。然而，在这些嘴部占优势的运动方法中，嘴部运动合成主要是确定性的。也就是说，在给定发音的情况下，嘴部的运动或形状在不同的人和不同的环境中是相似的。相比之下，在相同情况下的全身姿势运动复杂得多，这部分地是由于很大程度的变化。与嘴部运动(一组更复杂的动作)不同，姿势高度依赖于当前的环境和正在说话的人。

因此，所需要的是用于将给定的语音输入(无论是音频输入还是文本输入)转换为说话人的逼真视频的方法，其中输出的视频具有同步的、真实的和有表现力的身体动作。

发明内容

本公开的实施例提供了一种用于训练系统以在给定输入文本或输入音频的情况下生成人的视频的计算机实施的方法、系统和计算机可读介质，一种用于在给定输入语音数据的情况下合成人的视频的计算机实施的方法、系统和计算机可读介质。

根据第一方面，本公开的一些实施例提供了一种用于训练系统以在给定输入文本或输入音频的情况下生成人的视频的计算机实施的方法，包括：给定包括人说话和作姿势的输入视频，使用所述输入视频以及人体、面部和手部的关节三维3D模型来生成与所述输入视频中的所述人说话和作姿势相对应的一组3D姿势；使用神经网络模型和与所述输入视频中的所述人说话相关的语音信息来生成表示一组3D姿势的一组隐藏状态；将来自所述神经网络模型的所述一组隐藏状态与来自所述人体、面部和手部的所述关节3D模型的一组3D姿势进行比较，以训练所述神经网络模型，其中将来自所述人体、面部和手部的所述关节3D模型的一组3D姿势视为真实数据；使用所述输入视频、来自所述人体、面部和手部的所述关节3D模型的所述一组3D姿势和视频生成对抗网络GAN来训练所述视频GAN的生成网络以生成视频；以及输出经训练的神经网络和经训练的生成网络。

根据第二方面，本公开的一些实施例提供了用于在给定输入语音数据的情况下合成人的视频的计算机实施的方法，所述方法包括：生成与所述输入语音数据对应的一组语音表示；将所述一组语音表示输入到经训练的神经网络中以生成与所述一组语音表示对应的三维3D姿势的初始集合；使用所述输入语音数据识别所述输入语音数据中与关键姿势字典中的一组词条对应的一组词，所述关键姿势字典包括针对所述关键姿势字典中的每个词条的一个或多个姿势；响应于从所述输入语音数据中的所述一组词中识别出存在于所述关键姿势字典中被设置为用于替换的词，通过用从所述关键姿势字典获得的与所述词对应的一个或多个3D姿势的替换集来替换来自所述3D姿势的初始集合的与所述3D姿势的初始集合中的所述词的出现相关联的一个或多个3D姿势的集合，形成3D姿势的最终集合；以及使用所述3D姿势的最终集合作为到经训练的生成网络的输入，生成与所述输入语音数据相对应地做姿势的人的视频。

根据第三方面，本公开的一些实施例提供了一种非暂时性计算机可读介质，所述介质包括一个或多个指令序列，当所述指令序列由一个或多个处理器执行时，使得根据第一方面的方法被实现。

根据第四方面，本公开的一些实施例提供了一种用于训练系统以在给定输入文本或输入音频的情况下生成人的视频的系统，所述系统包括至少一个处理器，以及存储指令的存储器，所述指令在由所述至少一个处理器执行时使所述至少一个处理器执行根据第一方面的方法。

根据第五方面，本公开的一些实施例提供了一种非暂时性计算机可读介质，所述介质包括一个或多个指令序列，当所述指令序列由一个或多个处理器执行时，使得根据第二方面的方法被实现。

根据第六方面，本公开的一些实施例提供了一种用于训练系统以在给定输入文本或输入音频的情况下生成人的视频的系统，所述系统包括至少一个处理器，以及存储指令的存储器，所述指令在由所述至少一个处理器执行时使所述至少一个处理器执行根据第二方面的方法。

根据第七方面，本公开的一些实施例提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据以上各个方面所述的方法。

附图说明

将参考本公开的实施例，其示例可以在附图中示出。这些附图是说明性的，而不是限制性的。尽管在这些实施例的上下文中一般性地描述了本公开，但是应当理解，其并不旨在将本公开的范围限制于这些特定实施例。图中的项目可能不是按比例绘制的。

图1示出了根据本公开的实施例的一种用于生成人在说话和做姿势的视频的系统

图2示出了根据本公开的实施例的使用经训练的系统来生成视频的方法。

图3示出了根据本公开的实施例的用于训练系统以在给定输入消息的情况下生成视频的训练过程的概要图。

图4示出了根据本公开的实施例的用于训练用于生成人在说话和做姿势的视频的系统的方法。

图5A示出了根据本公开的实施例的具有语音模特的拍摄室。

图5B示出了根据本公开的实施例的与某些关键词相关的一些示例姿势。

图6示出了所生成的图像的手部中的失真的示例。

图7图示了根据本公开的实施例的具有示例单词条目和相应的关键姿势的单词条目-姿势查找字典的一部分。

图8示出了根据本公开的实施例的用于用来自单词条目-姿势字典的关键姿势来替换姿势的方法。

图9图示了根据本公开的实施例将关键姿势平滑地插入到现有的一组姿势中以生成最终的姿势序列。

图10示出了根据本公开的实施例的可以用于训练生成网络的具有重点的样本图像对。

图11示出了当人在暂停说话时由文本到语音音频产生的一个帧，这可能导致嘴形失真。

图12示出了根据本公开的实施例的来自所生成的视频的一些帧。

图13示出了根据本公开的实施例的计算装置/信息处理系统的简化框图。

具体实施方式

在以下描述中，出于解释目的，阐明具体细节以便提供对本公开的理解。然而，将对本领域的技术人员显而易见的是，可在没有这些细节的情况下实践本公开。此外，本领域的技术人员将认识到，下文描述的本公开的实施方式可以以各种方式(例如过程、装置、系统、设备或方法)在有形的计算机可读介质上实施。

附图中示出的组件或模块是本公开实施方式的示例性说明，并且意图避免使本公开不清楚。还应理解，在本论述的全文中，组件可描述为单独的功能单元(可包括子单元)，但是本领域的技术人员将认识到，各种组件或其部分可划分成单独组件，或者可整合在一起(包括例如位于单个的系统或组件内)。应注意，本文论述的功能或操作可实施为组件。组件可以以软件、硬件、或它们的组合实施。

此外，附图内的组件或系统之间的连接并不旨在限于直接连接。相反，在这些组件之间的数据可由中间组件修改、重格式化、或以其它方式改变。另外，可使用另外或更少的连接。还应注意，术语“联接”、“连接”、“通信地联接”、“接合”、“接口”或其派生词中的任一个，应理解为包括直接连接、通过一个或多个中间设备来进行的间接连接、和无线连接。还应注意，任何通信(诸如信号、响应、答复、确认、消息、查询等)可包括一个或多个信息交换。

在本说明书中对“一个或多个实施方式”、“优选实施方式”、“实施方式”、“多个实施方式”等的提及表示结合实施方式所描述的具体特征、结构、特性或功能包括在本公开的至少一个实施方式中，以及可包括在多于一个的实施方式中。另外，在本说明书的各个地方出现以上所提到的短语并不一定全都是指相同的实施方式或多个相同实施方式。

在本说明书的各个地方使用某些术语目的在于说明，并且不应被理解为限制。服务、功能或资源并不限于单个服务、单个功能或单个资源；这些术语的使用可指代相关服务、功能或资源的可分布或聚合的分组。术语“包括”、“包括有”、“包含”和“包含有”应理解为开放性的术语，并且其后任何列出内容都是实例，而不旨在限于所列项目。“层”可包括一个或多个操作。词“最佳”、“优化”、“最优化”等是指对结果或过程的改进，并非要求指定的结果或过程已达到“最佳”或峰值状态。存储器、数据库、信息库、数据存储、表、硬件、高速缓存等在本文中的使用，可用来指代可输入信息或以其它方式记录信息的一个或多个系统组件。

在一个或多个实施方式中，停止条件可包括：(1)已执行了设定次数的迭代；(2)已达到一定量的处理时间；(3)收敛(例如，连续迭代之间的差小于第一阈值)；(4)发散(例如，性能劣化)；(5)已达到可接受的结果。

本领域技术人员应当认识到：(1)一些步骤可以可选地执行，(2)步骤不限于本文指出的顺序；(3)一些步骤可以以不同的顺序执行；以及(4)一些步骤可以同时执行。

本文所使用的任何标题仅是为了组织目的，并且不应被用于限制说明书或权利要求的范围。本专利文献中提到的每个参考文献/文件以其整体通过引用并入本文。

应注意，本文提供的任何实验和结果均以说明性的方式提供，并且是在特定条件下使用特定实施方式进行的；因此，这些实验及其结果均不得用于限制当前专利文件的公开范围。

A.一般介绍

本文提供了通过合成人体全身运动(包括头部、嘴部、手臂等)的视频将文本或音频形式的语音转换为视频的实施例，其中所产生的视频在视觉上是自然的并且与给定的语音输入一致。如上所述，语音到视频(Speech2Video)转换的传统方式涉及利用专用设备和专业操作员的性能捕获，并且大多数语音和呈现任务由动画制作者团队来执行，这对于定制使用来说通常是昂贵的。

如上所述，已经提出了用于低成本语音视频合成的数据驱动方法。然而，这些方法主要集中在合成嘴部运动或嘴部及面部上的一些其它部分的运动。但是，如上所述，嘴部运动合成大部分是确定性的，即，给定发音的情况下，嘴部的运动或形状在不同的人和环境中是类似的。这种约束不存在于身体姿势中。

本文中的语音到视频的实施例的一个目的是解决全身合成——在相同情况下，全身姿势运动更具有生成性并且具有更多的变化。例如，姿势高度依赖于当前的上下文和正在说话的个人。当传递重要消息时，在某个时刻会出现个性化的发言姿势。因此，在视频中很少存在有用信息，这使得简单的端到端学习算法难以从有限的记录视频中捕获这种多样性。

LumiereNet(Kim,H.,Garrido,P.,Tewari,A.,Xu,W.,Thies,J.,Nieβner,M.,Pérez,P.,Richardt,C.,M.,Theobalt,C.在ACM Transactions on Graphics(TOG)37(4),1–14(2018)中的“Deep Video Portraits”一文)尝试通过构建用于整个上半身合成的端到端网络来执行类似任务。然而，在他们的实验中，身体运动的表现力较差，其中主要动作仍然位于说话的头部处。建立了用于身体合成的类似的方法流程，并用采集的语音视频进行训练。这种方法具有至少三个主要问题。首先，如所讨论的，所产生的身体运动仅具有重复的模式，而真实视频则包含在某些时刻的强调姿势。其次，在诸如手部和肘部的具体部位处产生的身体外观可能会不自然地变形，这在几何上是不可行的。最后，所产生的身体和手部的外观会由于运动而模糊。

因此，在本专利文件中，提出了一种同时解决这些问题的新颖的可训练语音到视频流程的实施例。为了处理多样性问题，在一个或多个实施例中，根据每个人的呈现视频，用文本为每个人构建姿势字典。为了保证所生成的姿势是物理上可能的，在一个或多个实施例中，三维(3D)骨架被强制作为中间表示，即，所生成的关节应当遵循人体测量学的规律性。最后，为了确保高质量的合成外观，在一个或多个实施例中，开发了一种部位感知鉴别器，并用于提供对所生成的具体部位(例如脸部和手部)的附加注意。

最后，为了更好地评估测试实施例，使用具有高分辨率和高帧速率(FPS)的相机，创建具有几个目标在读一些选定文章时的记录的语音视频来创建数据集。实验表明，被测试的实施例生成了比其它现有流程具有更多姿势变化的在感知上明显更好的人体动力学。

以下概述了一些贡献：

-产生具有包括脸部、手部、嘴部和身体的全身运动的音频驱动(其应被解释为包括音频输入或文本输入)的虚拟扬声器的新颖的两级流程的实施例。3D驱动方法的实施例克服了可能缺少人的外观细节的直接的音频到视频方法的问题。并且，实施例还使得可以在人体运动序列中插入关键姿势。在结果部分中示出了为什么该任务优选地被分解成两级生成，而不是直接的音频到视频生成。

-建立了个人关键姿势的字典，其向所生成的人体姿势添加了更多维度。此外，提出了用于将关键姿势插入到现有序列中的实施例。

-在一个或多个实施例中，嵌入3D骨架约束以产生身体动力学，这确保了姿势在物理上是合理的。

-提出了经修改的GAN的实施例，其强调面部和手部，以在最终输出视频中展现更多细节。

B.相关工作

人体姿势估计及拟合(Ge,L.,Ren,Z.,Li,Y.,Xue,Z.,Wang,Y.,Cai,J.,Yuan,J.,在Proceedings of the IEEE Conference on Computer Vision and PatternRecognition,pp.10833–10842(2019)中的“3D Hand Shape And Pose Estimation From ASingle RGB Image”一文中)提出了针对手部的3D形状和姿势估计。其他人尝试了从视频或单个图像预测3D人体运动，但是它们被限制为仅用肢体而不是手部或脸部来拟合人体模型。而OpenPose(Cao,Z.,Hidalgo,G.,Simon,T.,Wei,S.E.,Sheikh,Y.,在“OpenPose:Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields”中，参见arxiv preprint,arXiv:1812.08008(2018))已经成功地将详细的人体模型拟合到具有所有所需部位(包括面部和手指)的2D图像；它们的输出是图像空间中的2D界标。基于OpenPose,SMPL-X(Pavlakos,G.,Choutas,V.,Ghorbani,N.,Bolkart,T.,Osman,A.A.A.,Tzionas,D.,Black,M.J.,在Proceedings IEEE Conf.on Computer Vision and PatternRecognition(CVPR)(2019)的“Expressive Body Capture:3D Hands,Face,and Body Froma Single Image”中)通过优化将3D骨架拟合到输出的2D界标。它还将人体运动参数化为关节角度，使得更容易将关节约束在合理的人体关节运动下。

音频到运动。一些人通过端到端学习使用音频来驱动高保真3D面部模型，其中对姿势和情绪两者都进行学习。其他人集中于从音乐输入而不是语音来合成手部运动。目标是用钢琴或小提琴音乐来将手和手臂的图形模型动画化。还有其他人使用卷积序列生成网络(CSGN)来生成基于骨架的动作。与此不同，有些人是使用递归神经网络来预测人体运动。有些人使用自适应递归网络用于扩展的复杂人体运动合成。他们试图模拟更复杂的运动，包括舞蹈或武术。本文的一个或多个实施例使用RNN来学习从音频到运动的映射。然而，在一个或多个实施例中，对输出的运动可使用更松的要求。在一个或多个实施例中，焦点在于得到的运动与音频相关，只要它看起来自然和平滑即可，而不必具有与真实相匹配的输出。

从骨架生成视频。pix2pix(Isola,P.,Zhu,J.Y.,Zhou,T.,Efros,A.A.,“Image-To-Image Translation with Conditional Adversarial Networks”，2017IEEEConference on Computer Vision and Pattern Recognition(CVPR),(2017))是生成对抗网络(GAN)发展中的里程碑。它根据输入的语义标签图像输出详细的现实图像。在一个或多个实施例中，语义标签映射是人体骨架的图像帧。然而，直接将pix2pix应用于没有时间约束的输入视频可导致不连贯的输出视频。因此，提出了vid2vid(Wang,T.C.,Liu,M.Y.,Zhu,J.Y.,Liu,G.,Tao,A.,Kautz,J.,Catanzaro,B.,“Video-to-Video Synthesis,”Advancesin Neural Information Processing Systems(NeurIPS)(2018))来增强相邻帧之间的时间相干性。其他人提出了在不构建3D模型的情况下从骨架模型再现真实的视频，其中强调了视频生成的第二阶段。然而，它没有关心面部表情和嘴部运动，并且没有解决如何产生骨架身体模型的真实运动的问题。还有其他人提出了一种类似的流程，其首先生成骨架姿势，然后生成最终的视频。然而，它的输入是随机噪声，而不是音频，并且它的骨架模型是仅具有身体肢体的非常简单的模型。这意味着它最终输出的视频缺少关于面部和手指的细节。与此不同，本文的骨架模型实施例包括肢体、面部和手指。在一个或多个实施例中，vid2vid实现用来从骨架创建最终视频并获得优异的结果；然而，为了获得关于面部和手部的细节，对vid2vid GAN实现进行了显著的修改，以在鉴别器损失中对这些部位施加更多的权重。

人物合成。一些研究者关注于通过使用RNN用语音驱动嘴部运动来合成正在说话的头部。当通过文本映射产生嘴部序列时，在光亮和文本融合之后将嘴部序列粘贴到现有的视频上。一些人已经尝试产生虚拟讲师的上半身的视频，但是唯一的移动部分仍然是嘴部。Face2Face(Thies,J.,Zollhofer,M.,Stamminger,M.,Theobalt,C.,Nieβner,M.,“Face2Face:Real-Time Face Capture and Reenactment of RGB Videos”，Proceedingsof the IEEE Conference on Computer Vision and Pattern Recognition(CVPR),pp.2387–2395(2016))使用单目RGB相机将表达从人转移到目标对象。给定舞者的视频，一些人将舞蹈动作传递给另一个人，即使第二个人并不知道如何舞蹈。第二个人只需要记录几种姿势的视频。在获得良好结果的同时，在手臂上仍然存在可见的变形和模糊，并且没有提及手部的细节。液体翘曲GAN(Liu,W.,Zhixin Piao,Min Jie,W.L.L.M.,Gao,S.,“LiquidWarping GAN:A unified framework for human motion imitation,appearancetransfer and novel view synthesis”，IEEE International Conference on ComputerVision(ICCV)(2019))是近来合成具有新颖姿势、视点甚至衣服的人体视频的工作。在它们的输入仅仅是单个图像的情况下，它们已经获得了较好的结果。它们的工作主要集中于图像/视频生成，而本文的实施例的一个贡献是模拟人类运动。还有其他人提出了一种流程，其首先生成骨架造型，然后生成最终的视频。然而，它的输入是随机噪声，而不是音频，并且它的骨架模型是非常简单的，只具有身体肢体。这意味着它的最终输出视频缺少关于面部和手指的细节。与此不同，在一个或多个实施例中使用的骨架模型包括肢体、面部和手指。

C.语音到视频实施例

1、用于生成视频的经训练的实施例

图1示出了根据本公开的实施例的用于生成正在说话和作出姿势的人的视频的系统100。如图1所示，系统100的输入是音频110或文本115。在一个或多个实施例中，输入可以取决于用于训练神经网络模型125的内容，神经网络模型125可以是长短期记忆(LSTM)网络。可替换地或附加地，在一个或多个实施例中，考虑到文本到语音(TTS)120和语音到文本(STT)122技术都是成熟的并且是可商用的，音频和文本可以互换。即使存在来自TTS引擎120或STT引擎122的一些错误识别的单词/字符，系统100也可以非常成功地容忍这些错误，因为神经网络125的一个目的是将文本/音频映射到身体形状。因此，错误的STT或TTS输出通常是具有与真实语音相似的发音的单词，这意味着它们也很可能具有相似的拼写。因此，它们最终将映射到类似的身体形状。

神经网络125的输出是人体姿势130的序列。在一个或多个实施例中，可以通过身体模型(例如上文参考的SMPL-X)对姿势进行参数化，但是也可以使用其他身体模型。SMPL-X是人体、面部和手部共有的关节3D模型。该动态的关节3D模型被可视化为2D彩色骨架图像序列。这些2D图像被进一步输入到生成网络145中。在一个或多个实施例中，可使用上文参考的vid2vid生成网络的实现来生成最终的真实人图像150，尽管也可以使用其他生成网络。

研究发现，在语音和运动同步成功的同时，一些神经网络在大部分时间内可能只学习了重复的人体运动，这导致了看起来无趣的视频。为了使人体运动更具表现性和多样性，在一个或多个实施例中，当说出一些关键词时，例如，巨大的、微小的、高的、低的等等，可以将某些姿势插入到经训练的神经网络125的输出运动中。在一个或多个实施例中，创建了将这些关键词条目映射到其相应姿势的姿势字典135。下文将更详细地讨论关于构建姿势字典的细节。

图2示出了根据本公开的实施例的使用经训练的系统来产生视频的方法。在一个或多个实施例中，输入(无论是音频还是文本)被用于生成(210)输入消息的一组表示。可具体根据在训练神经模型125时用于神经模型125的输入来使用不同的表示。对于音频输入，可以采用多种方法中的任何一种来生成输入消息的音频特征，例如频谱图、mel频谱、mel频率倒谱系数(MFCC)等。下文的训练部分提供了更详细的示例。对于文本输入，可以将单词转换为数字表示。例如，单词可以被转换为ASCII(美国信息交换标准码)值，并且这些值可以直接用作神经网络的输入。下文的训练部分提供了更详细的示例。此外，如上所述，在一个或多个实施例中，系统(例如，系统100)可以包括语音到文本模块或文本到语音模块，以将输入转换为用于生成表示集的适当形式。在另一个实施例中，系统100可以包括两个经训练的神经网络，一个被训练来接收基于音频的表示集，另一个被训练来接收基于文本的表示集，并且这些表示被路由到适当的经训练的神经网络。

在任何情况下，在一个或一个以上实施例中，将所述一组表示输入(210)到经训练的神经网络模型125(例如，经训练的LSTM模型)中，以生成表示用于所述输入消息的一组3D骨架姿势130的一组隐藏状态值。

在一个或多个实施例中，检查输入消息以确定它是否包含(215)对应于单词条目-姿势字典中的条目的任何单词。如上所述(并且如将在下面更详细地解释的)，具有某些关键词可能是有益的，例如具有相应姿势的强调词、重要词等。对于每个单词条目(其可以包括一个或多个单词)，单词条目-姿势字典具有一个或多个3D骨架姿势的相应集合。使用这些对应的3D骨架姿势，可以通过在隐藏状态值的集合中替换与对应于单词的单词的出现相对应的单词到姿势字典中的一个或多个3D骨架姿势的集合来生成3D骨架姿势的最终集合(220)。在一个或多个实施例中，关键姿势插入模块140可以使用一个或多个平滑/混合方法来插入来自字典的关键姿势，使得移动具有平滑的外观。

在一个或多个实施例中，使用(225)3D骨架姿势的最终集合和经训练的生成神经网络(例如，经训练的生成网络145)来生成与输入消息对应地作出姿势和说话的人的视频(例如，视频150)。在一个或多个实施例中，可以将3D骨架姿势的最终集合投影到3D骨架姿势的2D投影集合，并且可以将2D投影集合输入到经训练的生成神经网络中以生成视频。

2.训练实施例

附图说明根据本公开的实施例，3和4描绘了用于训练系统以生成给定输入消息的视频的训练过程的概观。在一个或多个实施例中，训练神经网络325和生成网络345使用读取脚本315的目标动画主题的视频305。如图3所示，给定说话人的视频305，人体模型(312)可以适合(405)每个帧。在一个或多个实施例中，姿势集合330连同所提取的音频308的表示或文本315的表示被馈送到神经网络模型325中，以训练从音频/文本输入到人类姿势的映射，人类姿势可以被称为神经网络325的隐藏值集合。在一个或多个实施例中，将来自神经网络模型的隐藏状态组与3D姿势组330进行比较，以训练(420)神经网络模型，其中3D姿势组330被作为地面真实数据来处理。在一个或多个实施例中，人体模型的2D骨架图像(其可以是姿势330的3D到2D投影)及其对应的真实人图像305被用于训练(425)生成网络(或生成器)360。在一个或多个实施例中，响应于到达停止条件，输出训练的神经网络模式和训练的生成网络(430)。此外，在一个或多个实施例中，选择一些关键姿势来构建将关键词映射到关键姿势的字典335。

3.假语音数据集

在一个或多个实施例中，只要存在可用于训练的语音视频，实施例就能够对任何人进行合成。然而，实际上，可能存在有限的具有适当质量的训练视频。例如，考虑在线视频。大多数这些视频是在自动曝光模式下拍摄的，这意味着对于30帧每秒(fps)的视频，曝光时间可以长达33毫秒。当手部移动时，在如此长的曝光时间内很难捕获清晰的手部图像。实际上，这些帧中的大多数帧具有某种程度上的运动模糊，这在人们试图将手指模型拟合到图像时会引起问题。此外，说话者优选地存在于恒定的视点中，但是许多语音视频的视点是不断改变的。

本文中的实施例集中于视频合成部分，并且使用现有技术的方法来对人体模型进行拟合。因此，决定要捕获数据。邀请了两个模特出席，并建立了具有DSLR相机的录音室。图5A示出了根据本公开的实施例的具有语音模特505的拍摄室500。DLSR相机510以60帧每秒捕获1280×720视频。曝光时间被设置为5毫秒，从而在帧中几乎不存在或不存在运动模糊。语音模特505位于相机510和屏幕的前面，并且在他/她朗读屏幕上的脚本时捕获一些视频。

模特505也被要求为某些关键词，例如巨型、小型、上、下、我、你等，作出姿势。图5B示出了根据本公开的实施例的与某些关键词相关的一些示例姿势525。

4.身体模型拟合实施例

在一个或多个实施例中，将人体模型(例如，图3中的2D模型312)拟合到图像等同于检测人体关键点。上面引用的OpenPose已经在这方面做了极好的工作。OpenPose提供了用来检测图像中的多个人的2D姿势(包括身体，脚，手和面部关键点)的实时方法。应当注意，也可以使用其它2D姿势检测模型。

在一个或多个实施例中，那些2D关键点被视为人体模型的表示，并且训练神经网络(例如，LSTM网络)，其从语音输入生成这些关键点的2D位置。在一些实施例中，由于输出的臂和手的失真，结果不是非常令人满意。图6示出了在所生成的图像的手中的失真610/615的示例。如图6所示，模型605中的失真615导致所生成的图像600中具有看起来奇怪的失真610。这个结果是因为在这个简单的2D关键点人体模型中，在两个连接的关键点之间没有关系。它们实际上可以独立地移动到任何地方，而不受其它关键点的限制，从而导致细长的或较短的臂和指状物。此外，在一个或多个实施例中，在将关键姿势插入到现有身体运动中的阶段，其涉及在两个姿势之间进行内插。在2D关键点上的直接内插可能导致违反人类关节结构的无效中间姿势。

在这些观察下，在一个或多个实施例中，采用真实的关节式3D人体模型，例如SMPL-X来使用，尽管也可以使用其它3D人体模型。SMPL-X利用运动骨架模型对人体动力学进行建模。它具有54个关节，包括颈部、手指、手臂、腿和脚。它由函数M(θ,β,ψ)参数化，其中θ∈R^3(K+1)是姿势参数，K是身体关节加上另外的整体方向的数目。β∈R^|β|是控制每个骨架的长度的形状参数。最后，面部表情参数由ψ∈R^|ψ|表示。在SMPL-X模型中总共有119个参数，其中75个来自全局朝向以及24个关节，不包括手，每个由3自由度(DoF)轴角旋转表示。在一个或多个实施例中，手上的关节由低维主成分分析(PCA)空间中的24个参数单独编码。在一个或多个实施例中，可以使用在Romero,J.,Tzionas,D.,Black,M.J.的“Eembodied Hands:Modeling and Capacing Hands and Bodies Together”，ACM Transactions on Graphics(ToG)36(6),245(2017)中描述的方法。形状和面部表情分别具有10个参数。

在一个或多个实施例中，为了将SMPL-X人体模型(例如，图3中的3D模型314)拟合到图像，通常，试图找到最小化E(θ,β,ψ)的最佳参数，这些3D关节的2D投影和OpenPose库对相应关节的2D检测之间的加权距离。可以通过检测置信度得分来确定权重，从而噪声检测将对梯度方向具有较小的影响。在一个或多个实施例中，修改拟合代码以在优化期间固定身体形状参数β和全局朝向。因为本文的实施例处理视频内的同一个人并且该人在整个视频期间静止站立，所以在一个或多个实施例中，为第一帧计算人体参数β和人体全局朝向，并且将这些值用于剩余的帧。在一个或多个实施例中，最终目标函数变为E(θ,ψ)，其中焦点是找到最佳姿势和面部表情参数。在一个或多个实施例中，该方法将参数的总数减少到106。

因此，在一个或多个实施例中，可以使用3D姿势信息和语音输入来训练神经网络(例如，图3中的网络325)。

5.字典构建和关键姿势插入实施例

在一个或多个实施例中，从所记录的视频中手动选择一组关键姿势，并且建立词条-姿势查找字典。图7根据本公开的实施例以图形方式描绘了具有示例词条705和对应的关键姿势710的词条-姿势查找字典700的一部分。在一个或多个实施例中，关键姿势可以是静止的单帧姿势或多帧运动；类似地，词条可以是单词的一部分(例如音节)、单个词或多个词。在一个或多个实施例中，姿势被表示为106个SMPL-X参数。无论是单帧姿势还是一组姿势/多帧运动，在一个或多个实施例中，可以通过相同或类似的方法将一个或多个帧插入到现有的人体骨架视频中。

图8描绘了根据本公开的实施例用来自词条到姿势字典的关键姿势替换姿势的方法。在一个或多个实施例中，为了插入关键姿势，当其对应的关键词被说出时，必须被识别(805)。对于文本到语音(TTS)生成的音频，TTS输出将包括生成的音频中每个词的时间戳。在一个或多个实施例中，对于来自人的音频，音频可以被输入到语音到文本(STT)引擎中，STT引擎生成语音的文本脚本以及每个单独的词的时间戳。在任一情况下，在一个或一个以上实施例中，检查语音脚本中的词以查找词条到姿势字典中的对应条目。在一个或多个实施例中，对于在字典中找到的语音脚本中的每个词，可以确定(815)将其通过某种可能性/概率插入到骨架视频中。例如，如果词的概率值超过阈值，则它被替换，否则，它不被替换。由于诸如“我(I)”、“我们(we)”和“我(me)”之类的一些词在语音中可能说出多次，而真实的人通常不太可能在每次说出这些词时都以相同的方式来表示。因此，在一个或一个以上实施例中，可不替换(825)所识别的词的隐藏值集合/姿势集合中的一个或多个姿势帧。

在一个或多个实施例中，替换的可能性可以在不同词之间变化，并且可以在构建字典时设置，或者可以由用户设置为用于生成视频的一个或多个参数。在一个或多个实施例中，可以为字典中的词条设置替换分布的概率，并且在每次出现时可以从分布中采样用于插入/替换的概率值，尽管本领域的技术人员应当认识到也可以使用其它方法。替代地或者另外地，在一个或一个以上实施例中，替换的概率可与语音中词的出现频率和/或语音内出现的接近度有关。例如，如果词或短语出现少于三次，则它总是可以被替换；或者，例如，如果同一词的出现非常接近，则即使该词不是频繁出现，替换一个或多个非常接近的出现的概率也可以改变为不太可能。

在一个或多个实施例中，当将姿势插入(820)到视频中时，可以在106-参数空间中使用平滑内插。图9图示了根据本公开的实施例将关键姿势910平滑地插入到现有的一组姿势905中以生成最终的姿势序列915。如图9所示，将关键姿势910插入到视频905中，并在插入时间点之前和之后具有斜坡长度N帧。在一个或多个实施例中，斜坡长度取决于视频帧速率和斜坡持续时间。在本文的实验中，斜坡持续时间被设置为0.6秒，并且关键姿势被直接复制到其在序列内的时间点，并且覆盖原始帧。在一个或多个实施例中，为了保持到这种姿势的平滑过渡，在两侧上从斜坡起始点到关键姿势帧的帧也被替换，如图9所示。在一个或多个实施例中，新帧被线性内插在斜坡开始/结束帧和关键姿势帧之间，并由它们与这两个帧的距离来加权。

图9描绘了仅为三个帧的斜坡长度，但实际斜坡长度可比此长得多。垂直箭头旁边的数字是关键姿势的插值权重。斜坡开始/结束姿势和关键姿势910的加权和替换其间的原始帧905，以获得帧的最终集合915。

如果关键姿势是单个帧静止姿势，则它可以如上所述被精确地插入；然而，在一个或多个实施例中，姿势可以被保持多个帧。人们通常在一定的时间段内做出姿势和保持姿势。因此，代替在一个帧中显示关键姿势，实施例可以保持关键姿势一段时间。在本文的实验中，通过将关键姿势帧复制到适当位置多次来将姿势保持0.3秒。如果关键姿势是运动(即，帧序列)，那么在一个或多个实施例中，其被复制到目标视频以用与上文所述相同的方式完成平滑性斜变来覆写相同长度的序列。

应当注意，也可以使用其它内插方案和加权。

6.训练神经网络实施例

在一个或多个实施例中，当对将音频序列映射到姿势序列的神经网络(其可以是LSTM神经网络)进行训练时，可以在损失中对人体的不同部分给予权重，这是因为它们具有不同的尺度。例如，在本文的实验中，将身体、手、嘴和脸的相对权重分别设定为1、4、100和100，尽管也可以应用不同的值。实施例还可以通过添加两个连续姿势之间的差异损失来对输出姿势序列实施平滑性约束，以便确保输出运动是平滑和自然的。

a)音频到姿势实施例

在一个或多个实施例中，使用标准MFCC系数来提取音频特征。因为输入音频可以具有各种音量级，所以实施例可以首先通过基于RMS的归一化来归一化输入音频的音量。在一个或多个实施例中，对于每个音频剪辑部分(例如，经归一化的输入音频的每25ms长度的剪辑)，应用离散傅立叶变换以获得其在频域中的表示。音频剪辑可以以10ms的间隔被采样。在一个或多个实施例中，一组滤波器(例如，40个三角梅尔标度滤波器)被应用于傅立叶变换的输出，之后是对数运算符。可以减小输出维度(例如，通过应用离散余弦变换将其减小到13个维度)。在一个或多个实施例中，最终特征是28维矢量，其中前14维包括离散余弦变换的13维输出加上体积的对数平均值，并且后14维表示前14维值的时间一阶导数(又称为与先前特征向量的差)。

b)文本到姿势实施例

人和人之间的声音可以非常不同，即使在他们说同一个词时也是如此。这种自然变化可能导致神经网络(例如，LSTM)学习具有差的性能。可选地，在一个或多个实施例中，可以使用文本代替音频来训练神经网络。因此，如果输入是音频，则将音频转换为文本。考虑到自然语言处理(NLP)的相对成熟，已有相当多的现有工作在转换上具有良好表现，其中任何一个都可以使用。

对于基于英语和拉丁语的音频，实施例可以直接使用单词作为神经网络的输入序列，因为单词拼写本身结合了发音信息。例如，可以使用ASCII值来表示输入到LSTM神经网络中的词，尽管也可以采用其它嵌入方案。实施例可以用0填充剩余的暂停部分以形成整个输入序列。

对于基于非拉丁语的语言(例如，汉语)，其字词不携带发音信息。在这种情况下，当说出相同发音的两个字时，所产生的输出应该具有相同的嘴形和身体姿势。因此，实施例可以将字转换为具有音素信息的表示。对于中文，每个单独的字可以被转换成包括26个英文字母的拼音。如果两个字具有相同的发音，则保证它们具有相同的拼写。

D.训练视频生成网络的实施例

在一个或多个实施例中，(如上文提到的vid2vid所提出的)生成网络被用于将骨架图像转换为真人图像，尽管也可以使用其它生成网络。人体绘制结果可能不是同样重要；通常，最重要的部分是面部和手。

图10示出了根据本公开的实施例的可以用于训练生成网络的具有重点的样本图像对。在一个或多个实施例中，为了使生成网络更多地努力生成面部和双手的细节，对vid2vid网络和输入图像进行修改以实现这一点。具体地，在一个或多个实施例中，在输入骨架图像上的双手1005上绘制颜色形状(例如，圆形、矩形、椭圆形等)，并且在面部1010上绘制白色1015，其不同于身体的其它部分，如图10所示。在网络内，给定输入图像，从生成网络输出图像。在它被传递到鉴别器网络之前，面部和双手的区域通过它们在输入图像中的特定颜色来定位。然后，这三个子图像可以从所生成的图像中裁剪，并与整个输出图像一起被传递到鉴别器网络。在一个或多个实施例中，仔细地调整那些子图像的损失权重，以确保鉴别器对所生成的面部和手部图像的现实化更加严格。

E.实验结果

应注意的是，这些实验和结果是通过举例说明的方式提供的，并且是使用一个或多个具体实施方案在具体条件下进行的；因此，这些实验和它们的结果都不应用于限制本专利文件的公开范围。

数据集。为了生成数据，雇佣了两个模特来捕获训练数据，一个是说英语的女性，一个是说汉语的男性。当他们朗读包括政治、经济、体育等的各种脚本时，对每个模特捕获了总共3小时的视频。以固定的1/200秒曝光时间和每秒60帧捕获视频。视频分辨率为720×1280。为了减小数据大小，实施例从视频中每5个帧采样一次，并且使用该子集数据。

运行时间和硬件。最耗时和耗存储器的阶段是训练修改的vid2vid网络实施例。使用8个NVIDIA Tesla M4024G GPU的集群，其能够训练512×512的视频大小。该网络本身在训练之前自动地将输入的1280×720视频帧裁剪并重新调整为512×512。因此，所有结果均为512×512分辨率。算法侧没有图像分辨率限制。它受到GPU的存储器大小的限制。

在GPU群集上完成20个训练时期需要大约一周的时间。经验证明，20个时期的训练是输出图像质量与时间消耗之间的良好折衷。更多的时期将花费大量的时间，但是质量改善是边际的。测试阶段则快得多。在单个GPU上生成一个帧只需要大约0.5秒。在单个GPU上训练LSTM神经网络花费几个小时，并且测试只花费几秒来处理一分钟的音频。

1.评价与分析

起始分数比较。注意，这并不是与其他方法的直接比较，因为：1)没有基准数据集来评估语音到全身视频，以及2)人们的语音运动是相当主观和个性化的，这使得难以定义真实的事实。选择使用起始分数将结果与SoTA(现有技术)方法进行比较。起始分数是测量生成的GAN图像质量的一种流行的方法。分数同时测量以下两者：图像质量和图像多样性。通过计算由每种方法生成的所有视频帧的起始分数，我们与SynthesizeObama(Suwajanakorn,S.,Seitz,S.M.,Kemelmacher-Shlizerman,I.,“Synthesizing Obama:Learning Lip Sync from Audio,”ACM Transactions on Graphics(TOG)36(4),95(2017)(参见grail.cs.washington.edu/projects/AudioToObama/siggraph17_obama.pdf)和EverybodyDance(Chan,C.,Ginosar,S.,Zhou,T.,Efros,A.A.,“Everybody Dance Now,”inProceedings of the IEEE International Conference on Computer Vision,pp.5933–5942(2019)进行比较。

表1显示了所有三种方法的起始分数。IS是生成的视频的分数，GT IS是真实数据视频的分数。对于SynthesizeObama，真实数据是输入音频的源视频。对于EverybodyDance，真实数据是要从其传送运动的源视频。对于本公开的测试实施例，真实数据是训练视频。预期舞蹈视频(EverybodyDance)比语音视频(测试的实施例)具有更高的得分，并且语音视频(测试的实施例)比说话的头部(SynthesizeObama)具有更高的得分，因为舞蹈具有最大的运动变化。因此，绝对起始分数不能用于测量输出视频质量。取而代之的是，使用相对初始得分(生成的视频相对于真实数据视频的初始得分)来测量与真实数据的相似性。通过该标准，测试实施例优于其它两种方法，意味着测试实施例的所生成的视频的视觉质量更接近真实数据。

表1。不同方法生成的视频(IS)和真实数据视频(GT IS)的初始得分。相对初始得分(Rel.IS)是第一项与第二项的比率。

数值评估。由于人和人的姿势不是完全相同的，即使同一个人说同一个句子两次也是如此。因此，由于缺乏真实数据而难以判断所产生的身体运动是好还是不好。当说出相同的词时，唯一倾向于采用相同形状的部分是嘴部。因此，仅使用嘴部外观来评估运动重建精度。具体地说，当模特说出与训练数据集中的句子完全不同的句子时，记录模特的单独视频。音频和输入被提取到管道中。将嘴部的输出3D关节投影到图像空间上，并与OpenPose检测到的2D嘴部关键点进行比较。通过平均像素距离来测量误差。

表2。对测试实施例的嘴部运动重建的数值评估。这里的数字表示平均像素距离。

如表2所示，对嘴部运动重建进行了几次评估，发现了一些有趣的事实。首先使用不同的数据集大小训练LSTM神经网络，以了解它如何影响重构精度。使用了包括0.5小时、1小时和2小时的不同长度的数据集。使用了和训练数据相同的同一女性的声音(原始)进行评估。此外，降低原始语音的音调以模拟男性的语音，以便观察语音变化如何影响结果。通过连续降低原始音频的音调值来模拟年轻人(男性1)、中年人(男性2)和老人(男性3)的语音。最后，使用文本训练和测试LSTM神经网络，并将结果与音频的结果进行比较。

表2中有至少三个观察结果。第一，音频比文本具有更好的精确度。第二，较长的训练数据集不一定增加对音频的精确度，但其确实有助于文本。第三，当语音更多地偏离原始语音时，精确度变得更差。第三观察容易理解——如果测试语音与训练语音不同，会预期到具有更差的性能。对于第一和第二观察，解释是音频空间小于文本空间，因为一些词/字共享相同的发音，例如，pair和pear，see和sea。因此，音频训练数据比相同长度的文本训练数据在其自身空间中覆盖更大的部分。在本文的实验中，看来0.5小时长度的音频足以覆盖整个发音空间。添加更多的训练数据不会帮助提高准确性。另一方面，2小时长度的文本可能仍然不足以覆盖整个拼写空间，因此误差随着训练数据长度的增加而保持减小。

用户研究。为了评估最终的输出视频，用112个参与者在Amazon Mechanical Turk(AMT)上进行人类主观测试。总共五个视频被显示给参与者。其中4个是合成视频，4个中的2个是由真人音频产生的，另外2个是由TTS音频产生的。剩余的一个是真人的简短剪辑。这五个视频是随机排序的，并且参与者没有被告知存在真实的视频。参与者需要以Likert等级从1(强烈不同意)到5(强烈同意)来评定那些视频的质量。这些包括：1)人体的完好性(没有遗漏的身体部分或手指)；2)视频中的脸是清晰的；3)视频中的人体运动(手臂、手、身体姿势)看起来自然和流畅；4)身体运动和姿势与音频相关；以及5)视频的整体视觉质量和看起来像真实的。

如表3所示，测试实施例的合成视频(Synth.)得到3.42分，真实视频得到4.38分(满分5分)，这意味着合成视频的整体质量是真实视频的78.08％。特别地，与真实视频相比，测试实施例在身体完整性和面部清晰度方面具有相同的性能。另一个发现是，对于测试实施例，TTS生成的视频在所有方面都比真实音频生成的视频差。这种情况的原因可能有两方面。首先，在MFCC特征空间中，TTS音频通常更远离真实音频，导致更差的重构运动和姿势(从表2中得出结论)。其次，TTS音频本身发出人造/假声，这降低了整体视频质量。

表3。112名参与者对5个问题的平均分数：Q1：身体的完全性；Q2：面部清晰；Q3：人体运动看起来是自然的；Q4：身体运动与音频相关；Q5：总体质量。

2.消融研究

TTS噪声。当测试LSTM神经网络被训练时，从记录的视频中提取音频，意味着它们包含没有人说话时的背景噪声。然而，TTS生成的音频在人停止说话时具有绝对干净的背景。这种差异导致了输出骨架运动中的一些问题。如图11所示，嘴部形状被扭曲，这是由于测试实施例网络在训练中从未见过这种绝对干净的信号。在一个或多个实施例中，为了解决这个问题，在将TTS生成的音频馈送到LSTM神经网络之前，将一些白噪声添加到TTS生成的音频中。

手模型。如上所述，在一个或多个实施例中，在骨架模型中具有手以便在经训练的生成网络的最终输出中呈现手的细节可能是重要的。由于运动模糊，很难将正确的手模型拟合到视频帧。因此，在一个或多个实施例中，生成网络在训练时没有手骨架，直到多达40个时期。然而，仍然难以在最终输出中呈现清晰的手部图像。这也是为什么端到端方法可能不起作用的证据。非常详细的空间引导对于GAN网络产生高保真度渲染可能是重要的。音频输入可能不能提供这种空间引导。因此，在一个或多个实施例中，不使用端到端方法。

关键姿势插入。为了证明关键姿势插入实施例的有效性，进行了另一个用户研究。在本研究中，将具有和不具有插入的关键姿势的合成视频对呈现给参与者。参与者只需要选择哪一个更具表现性。对于所有参与者，具有关键姿势的视频收到80.6％的投票，而没有关键姿势的视频收到19.4％的投票。这些结果证明了插入关键姿势以丰富语音的表现性的益处。

视频结果。图12描绘根据本公开实施例的来自所生成的视频的一些帧。

F.一些结论

本文提供了使用3D驱动方法生成真实语音视频同时避免建立3D网格模型的新颖框架的实施例。在一个或多个实施例中，在框架内部建立个人关键姿势表以处理数据稀疏性和多样性的问题。此外，在一个或多个实施例中，3D骨架约束被用于生成身体动力学，这保证姿势在物理上是真实的。

应当注意，关键姿势可以包括更多的身体语言元素，例如面部表情、眼睛运动等。而且，由于实施例具有3D姿势模型，因此单视图语音视频可以被扩展到多视图。根据此专利文献中，实验表明，显式3D建模能够以较少的训练数据帮助生成更好的结果。

G.计算系统实施例

在一个或多个实施方式中，本专利文献的方面可涉及、可包括、或者可实施于一个或多个信息处理系统(计算系统)。信息处理系统/计算系统可包括可操作来计算、运算、确定、分类、处理、传输、接收、获取、发起、路由、交换、存储、显示、通信、显现、检测、记录、再现、处理或利用任何形式信息、情报或数据的任何手段或手段的组合。例如，计算系统可以是或可包括个人计算机(例如，膝上型计算机)、平板电脑、移动设备(例如，个人数字助理(PDA)、智能手机、平板手机、平板等)、智能手表、服务器(例如，刀片式服务器或机架式服务器)、网络存储设备、摄像机或任何其它合适设备，并且可在大小、形状、性能、功能和价格方面改变。计算系统可包括随机存取存储器(RAM)、一个或多个处理资源(诸如中央处理单元(CPU)或硬件或软件控制逻辑)、只读存储器(ROM)和/或其它类型的存储器。计算系统的附加组件可包括一个或多个盘驱动器、用于与外部设备通信的一个或多个网络端口、以及各种输入和输出(I/O)设备(例如键盘、鼠标、手写笔、触摸屏和/或视频显示器)。计算系统还可包括可操作为在各种硬件组件之间传输通信的一个或多个总线。

图13描绘了根据本公开的实施方式的信息处理系统(或计算系统)的简化框图。应理解，尽管计算系统可不同地配置并且包括不同组件(包括比图13中所示更少或更多的组件)，但应理解，针对系统1300所示出的功能可操作为支持计算系统的各种实施方式。

如图13所示，计算系统1300包括一个或多个中央处理单元(CPU)1301，CPU 1301提供计算资源并控制计算机。CPU 1301可用微处理器等实现，并且还可包括一个或多个图处理单元(GPU)1302和/或用于数学计算的浮点协处理器。在一个或多个实施方式中，一个或多个GPU 1302可并入显示控制器1309内，诸如一个或多个图形卡的一部分。系统1300还可包括系统存储器1319，系统存储器1319可包括随机存取存储器(RAM)、只读存储器(ROM)或两者。

如图13中所示，还可提供多个控制器和外围设备。输入控制器1303表示至各种输入设备1304的接口，例如键盘、鼠标、触摸屏和/或触控笔。计算系统1300还可包括存储控制器1307，该存储控制器1307用于与一个或多个存储设备1308对接，存储设备中的每个包括存储介质(诸如磁带或盘)或光学介质(其可用于记录用于操作系统、实用工具和应用程序的指令的程序，它们可包括实施本公开的各方面的程序的实施方式)。存储设备1308还可用于存储经处理的数据或是将要根据本公开处理的数据。系统1300还可包括显示控制器1309，该显示控制器1309用于为显示设备1311提供接口，显示设备1311可为阴极射线管(CRT)显示器、薄膜晶体管(TFT)显示器、有机发光二极管、电致发光面板、等离子面板或任何其它类型的显示器。计算系统1300还可包括用于一个或多个外围设备1306的一个或多个外围设备控制器或接口1305。外围设备的示例可包括一个或多个打印机、扫描仪、输入设备、输出设备、传感器等。通信控制器1314可与一个或多个通信设备1315对接，这使系统1300能够通过各种网络(包括互联网、云资源(例如以太云、经以太网的光纤通道(FCoE)/数据中心桥接(DCB)云等)、局域网(LAN)、广域网(WAN)、存储区域网络(SAN))中的任一网络，或通过任何合适电磁载波信号(包括红外信号)来连接至远程设备。

在示出的系统中，所有主要系统组件可连接至总线1316，总线1316可表示多于一个的物理总线。然而，各种系统组件可在物理上彼此接近或可不在物理上彼此接近。例如，输入数据和/或输出数据可远程地从一个物理位置传输到另一物理位置。另外，实现本公开的各方面的程序可经由网络从远程位置(例如，服务器)访问。此类数据和/或程序可通过各种机器可读介质中的任一机器可读介质来传送，机器可读介质包括例如：诸如硬盘、软盘和磁带的磁性介质；诸如CD ROM和全息设备的光学介质；磁光介质；以及专门配置成存储或存储并执行程序代码的硬件设备，诸如专用集成电路(ASIC)、可编程逻辑器件(PLD)、闪存设备、其它非易失性存储器(NVM)设备(诸如基于XPoint的3D设备)、以及ROM和RAM设备。

本公开的方面可利用用于一个或多个处理器或处理单元以使步骤执行的指令在一个或多个非暂态计算机可读介质上编码。应注意，一个或多个非暂态计算机可读介质应包括易失性存储器和/或非易失性存储器。应注意，替代实现方式是可能的，其包括硬件实现方式或软件/硬件实现方式。硬件实施的功能可使用ASIC、可编程的阵列、数字信号处理电路等来实现。因此，任何权利要求中的术语“装置”旨在涵盖软件实现方式和硬件实现方式两者。类似地，如本文使用的术语“计算机可读媒介或介质”包括具有实施在其上的指令程序的软件和/或硬件或它们的组合。利用所构想的这些替代实现方式，应理解，附图以及随附描述提供本领域的技术人员编写程序代码(即，软件)和/或制造电路(即，硬件)以执行所需处理所要求的功能信息。

应注意，本公开的实施方式还可涉及具有其上具有用于执行各种计算机实施的操作的计算机代码的非暂态有形计算机可读介质的计算机产品。介质和计算机代码可为出于本公开的目的而专门设计和构造的介质和计算机代码，或者它们可为相关领域中的技术人员已知或可用的。有形计算机可读介质的示例包括例如：诸如硬盘、软盘和磁带的磁性介质；诸如CD ROM和全息设备的光学介质；磁光介质；以及专门配置成存储或存储并执行程序代码的硬件设备，诸如专用集成电路(ASIC)、可编程逻辑装置(PLD)、闪存设备、其它非易失性存储器(NVM)设备(诸如基于XPoint的3D设备)、以及ROM和RAM设备。计算机代码的示例包括机器代码(例如，编译器产生的代码)以及包含可由计算机使用解释器来执行的更高级代码的文件。本公开的实施方式可整体地或部分地实施为可在由处理设备执行的程序模块中的机器可执行指令。程序模块的示例包括库、程序、例程、对象、组件和数据结构。在分布的计算环境中，程序模块可物理上定位在本地、远程或两者的设定中。

本领域的技术人员将认识到，计算系统或编程语言对本公开的实践来说均不重要。本领域的技术人员将还将认识到，多个上述元件可物理地和/或在功能上划分成模块和/或子模块或组合在一起。

本领域技术人员将理解，上文的示例和实施方式是示例性的，并且不限制本公开的范围。旨在说明的是，在本领域的技术人员阅读本说明书并研究附图后将对本领域的技术人员显而易见的本公开的所有、置换、增强、等同、组合或改进包括在本公开的真实精神和范围内。还应注意，任何权利要求书的元素可不同地布置，包括具有多个从属、配置和组合。

Claims

1.一种用于训练系统以在给定输入文本或输入音频的情况下生成人的视频的计算机实施的方法，包括：

给定包括人说话和作姿势的输入视频，使用所述输入视频以及人体、面部和手部的关节三维3D模型来生成与所述输入视频中的所述人说话和作姿势相对应的一组3D姿势；

使用神经网络模型和与所述输入视频中的所述人说话相关的语音信息来生成表示一组3D姿势的一组隐藏状态；

将来自所述神经网络模型的所述一组隐藏状态与来自所述人体、面部和手部的所述关节3D模型的一组3D姿势进行比较，以训练所述神经网络模型，其中将来自所述人体、面部和手部的所述关节3D模型的一组3D姿势视为真实数据；

使用所述输入视频、来自所述人体、面部和手部的所述关节3D模型的所述一组3D姿势和视频生成对抗网络GAN来训练所述视频GAN的生成网络以生成视频；以及

输出经训练的神经网络和经训练的生成网络。

2.如权利要求1所述的计算机实施的方法，其中，给定包括人说话和作姿势的输入视频，使用所述输入视频和人体、面部和手部的关节三维3D模型生成与所述输入视频中所述人说话和作姿势相对应的一组3D姿势的步骤包括：

将包括所述人说话和作姿势的所述输入视频输入至姿势模型中，所述姿势模型生成所述人的一组二维2D骨架姿势就像所述人在所述输入视频中说话和作姿势一样；以及

使用所述一组2D骨架姿势以及所述人体、面部和手部的所述关节3D模型来生成与所述一组2D骨架姿势相对应的所述一组3D姿势。

3.如权利要求1-2中任一项所述的计算机实施的方法，还包括：

从所述输入视频中选择一组关键姿势以形成关键姿势字典，其中，所述关键姿势字典中的条目将一个或多个词与一个或多个姿势相关联。

4.如权利要求3所述的计算机实施的方法，还包括：

对所述关键姿势字典中的至少一些条目分配替换概率。

5.如权利要求1所述的计算机实施的方法，其中，使用所述输入视频、来自所述人体、面部和手部的所述关节3D模型的所述一组3D姿势以及视频生成对抗网络GAN来训练所述视频GAN的生成网络以生成视频的步骤包括：

将来自所述人体、面部和手部的所述关节3D模型的所述一组3D姿势投影到一组投影的2D姿势；以及

使用所述输入视频和所述一组投影的2D姿势作为所述视频GAN的输入。

6.如权利要求1所述的计算机实施的方法，其中，与所述输入视频中所述人说话相关的所述语音信息包括来自所述输入视频的音频，并且其中使用神经网络模型和与所述输入视频中的所述人说话相关的所述语音信息来生成表示一组3D姿势的一组隐藏状态的步骤包括：

从所述输入视频生成所述音频的一组音频信号表示；以及

将所述一组音频信号表示作为输入输入到所述神经网络中以生成所述一组隐藏状态。

7.如权利要求1所述的计算机实施的方法，其中，与所述输入视频中的所述人说话有关的所述语音信息包括由所述输入视频中的所述人说出的词的文本，并且其中使用神经网络模型和与所述输入视频中的所述人说话相关的所述语音信息来生成表示一组3D姿势的一组隐藏状态的步骤包括：

生成由所述输入视频中的所述人说出的词的文本的一组数字表示；以及

将所述一组数字表示输入到所述神经网络中以生成所述一组隐藏状态。

8.如权利要求7所述的计算机实施的方法，其中，所述输入视频中的所述人说出的词的文本是通过执行以下步骤获得的：

将语音到文本转换器应用于来自所述输入图像的音频，以将所述音频转换为由所述输入图像中的所述人说出的词的文本。

9.一种用于在给定输入语音数据的情况下合成人的视频的计算机实施的方法，所述方法包括：

生成与所述输入语音数据对应的一组语音表示；

将所述一组语音表示输入到经训练的神经网络中以生成与所述一组语音表示对应的三维3D姿势的初始集合；

使用所述输入语音数据识别所述输入语音数据中与关键姿势字典中的一组词条对应的一组词，所述关键姿势字典包括针对所述关键姿势字典中的每个词条的一个或多个姿势；

响应于从所述输入语音数据中的所述一组词中识别出存在于所述关键姿势字典中被设置为用于替换的词，通过用从所述关键姿势字典获得的与所述词对应的一个或多个3D姿势的替换集来替换来自所述3D姿势的初始集合的与所述3D姿势的初始集合中的所述词的出现相关联的一个或多个3D姿势的集合，形成3D姿势的最终集合；以及

使用所述3D姿势的最终集合作为到经训练的生成网络的输入，生成与所述输入语音数据相对应地做姿势的人的视频。

10.如权利要求9所述的计算机实施的方法，其中，所述输入语音数据包括音频，并且生成与所述输入语音数据对应的一组语音表示的步骤包括：

生成所述音频的一组音频信号表示。

11.如权利要求10所述的计算机实施的方法，其中，使用所述输入语音数据识别所述输入语音数据中与关键姿势字典中的一组词条对应的一组词的步骤包括：

使用语音到文本转换器将所述音频转换为文本；以及

在所述文本中识别与所述关键姿势字典中的一组词条对应的一组词。

12.如权利要求9所述的计算机实施的方法，其中，所述输入语音数据包括文本，并且生成与所述输入语音数据对应的一组语音表示的步骤包括：

生成所述音频的一组音频信号表示。

13.如权利要求12所述的计算机实施的方法，其中，使用所述输入语音数据识别所述输入语音数据中与关键姿势字典中的一组词条对应的一组词的步骤包括：

14.如权利要求9所述的计算机实施的方法，其中，响应于从所述输入语音数据中的所述一组词中识别出存在于所述关键姿势字典中被设置为用于替换的词，通过用从所述关键姿势字典获得的与所述词对应的一个或多个3D姿势的替换集来替换来自所述3D姿势的初始集合的与所述3D姿势的初始集合中的所述词的出现相关联的一个或多个3D姿势的集合，形成3D姿势的最终集合的步骤包括：

响应于从所述输入语音数据中的所述一组词中识别出存在于所述关键姿势字典中的词，确定替换概率；以及

响应于所述词的所述替换概率超过阈值，通过用从所述关键姿势字典获得的与所述词对应的一个或多个3D姿势的替换集来替换来自所述3D姿势的初始集合的与所述3D姿势的初始集合中的所述词的出现相关联的一个或多个3D姿势的集合，形成3D姿势的所述最终集合。

15.根据权利要求9-14中任一项所述的计算机实施的方法，其中，通过用从所述关键姿势字典获得的与所述词对应的一个或多个3D姿势的替换集来替换来自所述3D姿势的初始集合的与所述3D姿势的初始集合中的所述词的出现相关联的一个或多个3D姿势的集合，形成3D姿势的最终集合的步骤包括：

使用平滑过渡来用从所述关键姿势字典获得的与所述词对应的所述一个或多个3D姿势的替换集来替换来自所述3D姿势的初始集合的所述词的出现相关联的所述一个或多个3D姿势的集合。

16.一种包括一个或多个指令序列的非暂时性计算机可读介质，所述一个或多个指令序列在由一个或多个处理器执行时使得用于在给定输入语音数据的情况下合成人的视频的步骤被实施，所述步骤包括：

生成与所述输入语音数据对应的一组语音表示；

17.如权利要求16所述的非暂时性计算机可读介质，其中，所述输入语音数据包括音频，并且生成与所述输入语音数据对应的一组语音表示的步骤包括：

生成所述音频的一组音频信号表示。

18.如权利要求17所述的非暂时性计算机可读介质，其中，使用所述输入语音数据识别所述输入语音数据中与关键姿势字典中的一组词条对应的一组词的步骤包括：

使用语音到文本转换器将所述音频转换为文本；以及

19.如权利要求16所述的非暂时性计算机可读介质，其中，所述输入语音数据包括文本，并且生成与所述输入语音数据对应的一组语音表示的步骤包括：

生成所述音频的一组音频信号表示。

20.如权利要求16所述的非暂时性计算机可读介质，其中，响应于从所述输入语音数据中的所述一组词中识别出存在于所述关键姿势字典中被设置为用于替换的词，通过用从所述关键姿势字典获得的与所述词对应的一个或多个3D姿势的替换集来替换来自所述3D姿势的初始集合的与所述3D姿势的初始集合中的所述词的出现相关联的一个或多个3D姿势的集合，形成3D姿势的最终集合的步骤包括：

21.如权利要求16-20中任一项所述的非暂时性计算机可读介质，其中，通过用从所述关键姿势字典获得的与所述词对应的一个或多个3D姿势的替换集来替换来自所述3D姿势的初始集合的与所述3D姿势的初始集合中的所述词的出现相关联的一个或多个3D姿势的集合，形成3D姿势的最终集合的步骤包括：

22.一种包括一个或多个指令序列的非暂时性计算机可读介质，所述一个或多个指令序列在由一个或多个处理器执行时使得根据权利要求1-8中任一项所述的方法被实施。

23.一种用于训练系统以在给定输入文本或输入音频的情况下生成人的视频的系统，包括：

至少一个处理器；以及

存储指令的存储器，所述指令在由所述至少一个处理器执行时使所述至少一个处理器执行根据权利要求1-8中任一项所述的方法。

24.一种用于训练系统以在给定输入文本或输入音频的情况下生成的人的视频的系统，包括：

至少一个处理器；以及

存储指令的存储器，所述指令在由所述至少一个处理器执行时使所述至少一个处理器执行根据权利要求9-15中任一项所述的方法。

25.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-15中任一项所述的方法。