CN114764930A

CN114764930A - 图像处理方法、装置、存储介质及计算机设备

Info

Publication number: CN114764930A
Application number: CN202011627273.0A
Authority: CN
Inventors: 王琪; 张邦; 潘攀; 徐盈辉
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2022-07-19

Abstract

本发明公开了一种图像处理方法、装置、存储介质及计算机设备。其中，该方法包括：获取人体图像；将人体图像输入人体姿态网络模型中，得到人体至少一个关节的三维3D旋转值，其中，人体姿态网络模型采用第一数据集通过机器学习训练得到，第一数据集中的数据包括：人体图像和与该人体图像对应的人体各关节的3D旋转值；根据人体至少一个关节的三维3D旋转值，生成虚拟人。本发明解决了相关技术中根据人体图像生成的虚拟人动作不准确的技术问题。

Description

图像处理方法、装置、存储介质及计算机设备

技术领域

本发明涉及图像处理领域，具体而言，涉及一种图像处理方法、装置、存储介质及计算机设备。

背景技术

通过对图像中的人体动作、表情、手势进行捕捉识别，可以实时驱动虚拟人进行与图像中的人体相同的动作、表情和手势。通过将上述技术运用在直播等场景中，可以实现真人与卡通虚拟人的互动，取得很好的交互效果。

相关技术中，在采用基于关键点的方案实现真人与虚拟人的交互的过程中，由于采集的带有真人的图像中容易出现关键点丢失的问题，因而经常导致对虚拟人动作的驱动不准确。此外，基于关键点的方案由于计算量大，导致生成的虚拟人每秒传输帧数(FramesPer Second，简称为fps)较低，难以满足根据真人动作实时呈现复刻的虚拟人的需求。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种图像处理方法、装置、存储介质及计算机设备，以至少解决相关技术中根据人体图像生成的虚拟人动作不准确的技术问题。

根据本发明实施例的一个方面，提供了一种图像处理方法，包括：获取人体图像；将所述人体图像输入人体姿态网络模型中，得到所述人体至少一个关节的三维3D旋转值，其中，所述人体姿态网络模型采用第一数据集通过机器学习训练得到，所述第一数据集中的数据包括：人体图像和与该人体图像对应的人体各关节的3D旋转值；根据所述人体至少一个关节的三维3D旋转值，生成所述虚拟人。

可选地，获取人体图像，包括：接收输入图像；采用检测网络模型，对所述输入图像进行检测，从所述输入图像中检测出所述人体图像，其中，所述检测网络模型采用第二数据集通过机器学习训练得到，所述第二数据集中的数据包括：输入图像和该输入图像中的人体图像。

可选地，所述方法还包括：采用所述检测网络模型，对所述输入图像进行检测，从所述输入图像中检测出人脸图像，其中，所述检测网络模型还采用第三数据集通过机器学习训练得到，所述第三数据集中的数据包括：输入图像和该输入图像中的人脸图像；采用人脸参数模型对所述人脸图像进行参数提取，得到所述人脸图像的人脸表情参数，其中，所述人脸参数模型采用第四数据集通过机器学习训练得到，所述第四数据集中的数据包括：人脸图像和该人脸图像的人脸表情参数；其中，根据所述人体至少一个关节的三维3D旋转值，生成所述虚拟人，包括：根据所述人体至少一个关节的三维3D旋转值和所述人脸表情参数，生成所述虚拟人。

可选地，所述方法还包括：采用所述检测网络模型，对所述输入图像进行检测，从所述输入图像中检测出手势图像，其中，所述检测网络模型还采用第五数据集通过机器学习训练得到，所述第五数据集中的数据包括：输入图像和该输入图像中的手势图像；采用手势分类模型对所述手势图像进行手势分类，得到所述手势图像中的手部的手势类别，其中，所述手势分类模型采用第六数据集通过机器学习训练得到，所述第六数据集中的数据包括：手势图像和该手势图像中的手部的手势类别；其中，根据所述人体至少一个关节的三维3D旋转值，生成所述虚拟人，包括：根据所述人体至少一个关节的三维3D旋转值，所述人脸表情参数和所述手势类别，生成所述虚拟人。

可选地，所述方法还包括：采用所述检测网络模型，对所述输入图像进行检测，从所述输入图像中检测出脚部图像，其中，所述检测网络模型还采用第七数据集通过机器学习训练得到，所述第七数据集中的数据包括：输入图像和该输入图像中的脚部图像；采用脚部识别模型对所述脚部图像进行动作识别，得到所述脚部图像中的脚部动作，其中，所述脚部识别模型采用第八数据集通过机器学习训练得到，所述第八数据集中的数据包括：脚部图像和该脚部图像中的脚部动作；其中，根据所述人体至少一个关节的三维3D旋转值，生成所述虚拟人，包括：根据所述人体至少一个关节的三维3D旋转值，所述人脸表情参数，所述手势类别和所述脚部动作，生成所述虚拟人。

可选地，在所述输入图像为多帧视频图像的情况下，根据所述人体至少一个关节的三维3D旋转值，所述人脸表情参数，所述手势类别和所述脚部动作，生成所述虚拟人，包括：将所述多帧视频图像中每帧视频图像对应的所述人体至少一个关节的三维3D旋转值，所述人脸表情参数，所述手势类别和所述脚部动作输入至预定的驱动引擎中；通过所述驱动引擎的驱动，形成所述虚拟人的动画。

可选地，所述多帧视频图像包括以下至少之一：录制视频中的多帧视频图像，直播视频中的多帧视频图像。

可选地，还包括：接收交互指令，其中，所述交互指令用于与所述虚拟人进行交互；基于所述交互指令，获取所述交互指令对应的输入图像；根据所述输入图像，对所述虚拟人进行调整，生成新的虚拟人。

根据本发明实施例的另一方面，还提供了一种图像处理方法，包括：在显示界面上展示虚拟人，其中，所述虚拟人根据人体至少一个关节的三维3D旋转值生成；接收交互指令，其中，所述交互指令用于与所述虚拟人进行交互；在所述显示界面上展示与所述交互指令对应的交互结果。

可选地，该方法还包括：在所述显示界面展示人体图像；在所述显示界面显示人体至少一个关节的三维3D旋转值，其中，所述人体至少一个关节的三维3D旋转值采用人体姿态网络模型对所述人体图像进行处理得到。

可选地，在所述显示界面上展示与所述交互指令对应的交互结果，包括：基于交互指令，接收输入图像；采用检测网络模型，对所述输入图像进行检测，从所述输入图像中检测出以下图像至少之一：人体图像，人脸图像，手势图像，脚部图像，其中，所述检测网络模型采用第二数据集通过机器学习训练得到，所述第二数据集中的数据包括：输入图像和该输入图像中的以下图像至少之一：人体图像，人脸图像，手势图像，脚部图像；执行以下操作至少之一：根据所述人体图像得到人体至少一个关节的三维3D旋转值，根据所述人脸图像得到人脸参数表情，根据所述手势图像得到手势分类，根据所述脚部图像得到脚部动作；根据以下至少之一，生成与所述输入图像对应的交互结果：所述人体至少一个关节的三维3D旋转值，所述人脸参数表情，所述手势分类，所述脚部动作；展示所述交互结果。

根据本发明实施例的又一方面，还提供了一种图像处理装置，包括：获取模块，用于获取人体图像；识别模块，用于将所述人体图像输入人体姿态网络模型中，得到所述人体至少一个关节的三维3D旋转值，其中，所述人体姿态网络模型采用第一数据集通过机器学习训练得到，所述第一数据集中的数据包括：人体图像和与该人体图像对应的人体各关节的3D旋转值；生成模块，用于根据所述人体至少一个关节的三维3D旋转值，生成所述虚拟人。

根据本发明实施例的再一方面，还提供了一种图像处理装置，包括：第一显示模块，用于在显示界面上展示虚拟人，其中，所述虚拟人根据人体至少一个关节的三维3D旋转值生成；接收模块，用于接收交互指令，其中，所述交互指令用于与所述虚拟人进行交互；第二显示模块，用于在所述显示界面上展示与所述交互指令对应的交互结果。

根据本发明实施例的再一方面，还提供了一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行上述任意一项所述的图像处理方法。

根据本发明实施例的再一方面，还提供了一种计算机设备，包括：存储器和处理器，所述存储器存储有计算机程序；所述处理器，用于执行所述存储器中存储的计算机程序，所述计算机程序运行时使得所述处理器执行上述任意一项所述的图像处理方法。

根据本发明实施例的再一方面，还提供了一种图像处理方法，包括：获取样本数据集，其中，所述样本数据集的数据包括：目标对象图像和与该目标对象图像对应的目标对象各关节的真实3D旋转值；将所述样本数据集中的目标对象图像输入目标对象网络模型，得到所述目标对象各关节的输出3D旋转值；比较所述输出3D旋转值与所述真实3D旋转值，得到差值；依据所述差值对所述目标对象网络模型的模型参数进行优化，得到目标对象网络模型的训练结果。

根据本发明实施例的再一方面，还提供了一种图像处理方法，包括：获取目标对象图像；将所述目标对象图像输入目标对象网络模型中，得到所述目标对象的至少一个关节的三维3D旋转值，其中，所述目标对象网络模型采用第九数据集通过机器学习训练得到，所述第九数据集中的数据包括目标对象图像与该目标对象图像对应的目标对象各关节的3D旋转值；根据所述目标对象至少一个关节的三维3D旋转值，生成所述目标对象的虚拟形象。

可选地，所述目标对象包括以下至少之一：动物，机器活动物体。

根据本发明实施例的再一方面，还提供了一种图像处理方法，包括：获取目标图像；从所述目标图像中识别出目标对象至少一个关节的三维旋转值；根据所述三维旋转值，生成并展示所述目标对象的虚拟对象。

在本发明实施例中，采用通过机器学习训练得到的人体姿态网络模型，通过获取人体图像，将人体图像输入人体姿态网络模型并得到人体至少一个关节的三维3D旋转值，根据人体至少一个关节的三维3D旋转值生成虚拟人，达到了根据人体图像获得人体中至少一个关节的3D旋转值并生成对应的虚拟人的目的，从而实现了准确、快速地根据人体图像计算得到对应虚拟人技术效果，进而解决了相关技术中根据人体图像生成的虚拟人动作不准确的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种用于实现图像处理方法的计算机终端的硬件结构框图；

图2是根据本发明实施例1的图像处理方法一的流程图；

图3是根据本发明实施例1的图像处理方法二的流程图；

图4是根据本发明实施例1的图像处理方法三的流程图；

图5是根据本发明实施例1的图像处理方法四的流程图；

图6是根据本发明实施例1的图像处理方法五的流程图；

图7是根据本发明可选实施方式的模拟人的生成方法示意图；

图8是根据本发明实施例2的图像处理装置一的结构框图；

图9是根据本发明实施例2的图像处理装置二的结构框图；

图10是根据本发明实施例2的图像处理装置三的结构框图；

图11是根据本发明实施例2的图像处理装置四的结构框图；

图12是根据本发明实施例2的图像处理装置五的结构框图；

图13是根据本发明实施例的一种计算机终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

根据本发明实施例，提供了一种图像处理方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例1所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现图像处理方法的计算机终端(或移动设备)的硬件结构框图。如图1所示，计算机终端10(或移动设备)可以包括一个或多个(图中采用102a、102b，……，102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为BUS总线的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器104可用于存储应用软件的软件程序以及模块，如本发明实施例中的图像处理方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的应用程序的漏洞检测方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。

在上述运行环境下，本申请提供了如图2所示的图像处理方法。图2是根据本发明实施例1提供的图像处理方法一的流程图，如图2所示，该方法包括如下步骤：

步骤S202，获取人体图像；

步骤S204，将人体图像输入人体姿态网络模型中，得到人体至少一个关节的三维3D旋转值，其中，人体姿态网络模型采用第一数据集通过机器学习训练得到，第一数据集中的数据包括：人体图像和与该人体图像对应的人体各关节的3D旋转值；

步骤S206，根据人体至少一个关节的三维3D旋转值，生成虚拟人。

通过上述步骤，达到了根据人体图像获得人体中至少一个关节的3D旋转值并生成对应虚拟人的目的，从而实现了准确、快速地根据人体图像生成对应虚拟人技术效果，进而解决了相关技术中根据人体图像生成的虚拟人动作不准确的技术问题。

根据上述实施例，人体姿态网络模型可以识别人体图像中的人体至少一个关节的3D旋转值，人体姿态网络模型可以为神经网络模型，通过使用包括人体图像和与该人体图像对应的人体各关节的3D旋转值的样本数据集进行机器学习而得到。通过将人体处理为通过多个关节连接构成的多个部分，根据至少一个关节的3D旋转值，可以准确的确定人体各个部分之间的位置关系。基于确定的人体各个部分之间的位置关系，可以快速的生成虚拟人。该方法规避了依据关键点生成虚拟人遗漏关键点导致生成虚拟人不准确的问题，提高了根据人体图像生成虚拟人的准确性和效率。

作为一种可选的实施例，上述所指的人体至少一个关节可以是人体的部分关节，也可以是人体的全部各个关节，可以根据需要灵活选择。

作为一种可选的实施例，可以通过如下方式获取人体图像：接收输入图像，然后采用检测网络模型，对输入图像进行检测，从输入图像中检测出人体图像。检测网络模型可以采用第二数据集通过机器学习训练得到，第二数据集中的数据包括：输入图像和该输入图像中的人体图像。人体图像是生成虚拟人的基础，为了方便快捷地得到人体图像，可以通过多种方式。例如，可以使用包括人体图像的输入图像，其中，输入图像中的人体图像已经进行了标记，通过对输入图像和其中的标记进行识别，得到该输入图像中的人体图像。还可以采用检测网络模型的方式，直接对输入图像进行检测，并从输入图像中直接检测出人体图像。上述检测网络模型可以是神经网络模型，该神经网络模型通过使用样本数据集进行深度学习训练得到。样本数据集中的样本可以为多个输入图像，输入图像中包括人体图像和人体图像的标记，用于对检测网络模型进行训练。采用检测网络模型的方式检测人体图像，由于检测网络模型采用大量的训练样本数据训练而言，因此，相对于其它检测方法而言，具有智能，准确，高效的好处。

需要说明的是，输入图像可以是来自于摄像设备拍摄得到的图像，也可以是来自于直播等场景的视频图像。上述图像均可以作为人体图像的来源，本实施例在此不做限定。

作为一种可选的实施例，还可以根据输入图像中的人脸图像为虚拟人生成人脸表情。生成虚拟人的人脸表情可以通过如下方法实现：采用检测网络模型，对输入图像进行检测，从输入图像中检测出人脸图像，其中，检测网络模型还采用第三数据集通过机器学习训练得到，第三数据集中的数据包括：输入图像和该输入图像中的人脸图像；采用人脸参数模型对人脸图像进行参数提取，得到人脸图像的人脸表情参数，其中，人脸参数模型采用第四数据集通过机器学习训练得到，第四数据集中的数据包括：人脸图像和该人脸图像的人脸表情参数；其中，根据人体至少一个关节的三维3D旋转值，生成虚拟人，包括：根据人体至少一个关节的三维3D旋转值和人脸表情参数，生成虚拟人。将检测人体图像和检测人脸图像的网络模型集成于同一个检测网络模型，能够有效减少模型的计算量，简化虚拟人生成系统的复杂度。

作为一种可选的实施方式，训练检测网络模型从输入图像中检测出人脸图像的方法可以与上述训练检测网络模型从输入图像中检测出人体图像的方法一样，即使用例如神经网络模型的检测网络模型，进行训练和检测，得到识别出来的人脸图像。

此外，还可以使用人脸参数模型对识别得到的人脸图像进行参数提取，将人脸图像的特征进行提取，并根据提取得到的人脸图像的特征在生成的虚拟人的面部区域生成与对应的人脸图像一致的虚拟表情。人脸参数模型可以为通过机器学习训练得到的深度学习模型。通过上述处理，在虚拟人上实现了对图像中的姿态和表情的复刻，并且将对输入图像的人体姿态的识别和表情的识别集成在同一个检测网络模型中，简化了对输入图像进行图像识别的步骤，加快了图像识别的速度。

作为一种可选的实施例，还可以根据输入图像中的手势图像为虚拟人生成手势图像。生成虚拟人的手势图像可以通过如下步骤实现：采用检测网络模型，对输入图像进行检测，从输入图像中检测出手势图像，其中，检测网络模型还采用第五数据集通过机器学习训练得到，第五数据集中的数据包括：输入图像和该输入图像中的手势图像；采用手势分类模型对手势图像进行手势分类，得到手势图像中的手部的手势类别，其中，手势分类模型采用第六数据集通过机器学习训练得到，第六数据集中的数据包括：手势图像和该手势图像中的手部的手势类别；其中，根据人体至少一个关节的三维3D旋转值，生成虚拟人，包括：根据人体至少一个关节的三维3D旋转值，人脸表情参数和手势类别，生成虚拟人。将检测人体图像，检测人脸图像和检测手势类别的网络模型集成于同一个检测网络模型，能够进一步地有效减少模型的计算量，简化虚拟人生成系统的复杂度。

作为一种可选的实施方式，训练检测网络模型从输入图像中检测出手势图像的方法可以与训练检测网络模型从输入图像中检测出人体图像和人脸图像的方法相同，通过使用包括手势图像和手势图像的标记的样本图像，对例如神经网络模型的检测网络模型进行训练，得到可以从输入图像中识别出手势图像的检测网络模型。

此外，还可以使用手势分类模型对检测网络模型识别得到的手势图像进行手势分类，并根据得到的手势分类结果，在虚拟人的手部生成与手势分类结果对应的虚拟手势图像。手势分类模型可以为通过机器学习训练得到的深度学习模型，或者其他成熟的分类器，在此不做限定。通过上述处理，在虚拟人上实现了对图像中的姿态、表情和手势的复刻，并且将对输入图像的人体姿态、表情和手势的识别集成在同一个检测网络模型中，简化了对输入图像进行图像识别的步骤，加快了图像识别的速度。

作为一种可选的实施例，还可以根据输入图像中的脚部图像为虚拟人生成脚部图像。生成虚拟人的脚部图像可以通过如下步骤实现：采用检测网络模型，对输入图像进行检测，从输入图像中检测出脚部图像，其中，检测网络模型还采用第七数据集通过机器学习训练得到，第七数据集中的数据包括：输入图像和该输入图像中的脚部图像；采用脚部识别模型对脚部图像进行动作识别，得到脚部图像中的脚部动作，其中，脚部识别模型采用第八数据集通过机器学习训练得到，第八数据集中的数据包括：脚部图像和该脚部图像中的脚部动作；其中，根据人体至少一个关节的三维3D旋转值，生成虚拟人，包括：根据人体至少一个关节的三维3D旋转值，人脸表情参数，手势类别和脚部动作，生成虚拟人。将检测人体图像，检测人脸图像，检测手势类别和脚部动作的网络模型集成于同一个检测网络模型，还能够进一步地有效减少模型的计算量，简化虚拟人生成系统的复杂度。

作为一种可选的实施方式，训练检测网络模型从输入图像中检测出脚部图像的方法可以与训练检测网络模型从输入图像中检测出人体图像、人脸图像和手势图像的方法相同，通过使用包括脚部图像和脚部图像的标记的样本图像，对例如神经网络模型的检测网络模型进行训练，得到可以从输入图像中识别出脚部图像的检测网络模型。

此外，还可以使用脚部识别模型对检测网络模型识别得到的脚部图像进行脚部动作识别，并根据得到的脚部动作识别结果，在虚拟人的脚部生成与脚部动作识别结果对应的虚拟脚部动作。脚部识别模型可以为通过机器学习训练得到的深度学习模型，或者其他成熟的分类器，在此不做限定。通过上述处理，在虚拟人上实现了对图像中的姿态、表情、手势和脚部动作的复刻，并且将对输入图像的人体姿态、表情、手势和脚部动作的识别集成在同一个检测网络模型中，简化了对输入图像进行图像识别的步骤，加快了图像识别的速度。

作为一种可选的实施例，在输入图像为多帧视频图像的情况下，可以生成虚拟人的动画。生成虚拟人的动画可以通过如下方式实现：在得到了人体至少一个关节的三维3D旋转值，人脸表情参数，手势类别和脚部动作的情况下，将多帧视频图像中每帧视频图像对应的人体至少一个关节的三维3D旋转值，人脸表情参数，手势类别和脚部动作输入至预定的驱动引擎中；通过驱动引擎的驱动，形成虚拟人的动画。

作为一种可选的实施方式，在得到了包括多帧视频图像的输入图像的情况下，可以处理上述输入图像，得到每一帧图像对应的人体至少一个关节的三维3D旋转值，人脸表情参数，手势类别和脚部动作，并输入预定的驱动引擎中。驱动引擎可以分别处理每一帧视频图像对应的人体至少一个关节的三维3D旋转值，人脸表情参数，手势类别和脚部动作，即可以确定与该帧视频图像对应的虚拟人。在分别得到多帧视频图像对应的多个虚拟人后，可以通过驱动引擎的驱动，形成虚拟人的动画。

作为一种可选的实施例，多帧视频图像可以包括以下视频类型中的至少之一：录制视频中的多帧视频图像，直播视频中的多帧视频图像。在使用的多帧视频图像为录制视频中的多帧视频图像的情况下，根据上述可选的实施例可以得到基于录制视频中的姿态、表情、手势和脚部动作进行活动的虚拟人的动画；在使用的多帧视频图像为直播视频中的多帧视频图像的情况下，根据上述可选的实施例可以得到基于直播视频中的姿态、表情、手势和脚部动作进行活动的虚拟人的动画。

作为一种可选的实施例，可以根据接收到的交互指令，调整虚拟人，生成新的虚拟人。例如，可以接收用于与虚拟人进行交互的交互指令，基于交互指令，获取交互指令对应的输入图像，并根据输入图像，对虚拟人进行调整，生成新的虚拟人。通过本可选的实施例，实现了根据交互指令调整生成虚拟人所依据的输入图像，调整虚拟人的姿态、表情、手势或者是脚部动作的目的。

图3是根据本发明实施例1提供的图像处理方法二的流程图，如图3所示，该方法包括如下步骤：

步骤S302，在显示界面上展示虚拟人，其中，虚拟人根据人体至少一个关节的三维3D旋转值生成；

步骤S304，接收交互指令，其中，交互指令用于与虚拟人进行交互；

步骤S306，在显示界面上展示与交互指令对应的交互结果。

通过上述步骤，达到了根据交互指令与显示界面展示的虚拟人进行交互并展示交互结果的目的，从而实现了准确、快速地根据交互指令在显示界面展示与虚拟人进行交互后得到的交互结果的技术效果，进而解决了相关技术中与显示界面上展示的虚拟人进行交互时响应速度慢且交互结果不准确的技术问题。

作为一种可选的实施例，在显示界面上展示虚拟人之前，还可以在显示界面展示人体图像；在显示界面显示人体至少一个关节的三维3D旋转值，其中，人体至少一个关节的三维3D旋转值采用人体姿态网络模型对人体图像进行处理得到。例如，在显示界面接收到用户上传的用于生成虚拟人的人体图像，该人体图像可以是采用相机拍摄的照片，也可以是从某一视频中截取的一帧图像；之后，将该人体图像输入到人体姿态网络模型中，由该人体姿态网络模型输出该人体图像中的人体至少一个关节的3D旋转值。其中，该人体姿态网络模型可以采用第一数据集通过机器学习训练得到，第一数据集中的数据包括：人体图像和与该人体图像对应的人体各关节的3D旋转值。

作为一种可选的实施例，在显示界面上展示与交互指令对应的交互结果，可以采用如下方式进行：基于交互指令，接收输入图像；采用检测网络模型，对输入图像进行检测，从输入图像中检测出以下图像至少之一：人体图像，人脸图像，手势图像，脚部图像，其中，检测网络模型采用第二数据集通过机器学习训练得到，第二数据集中的数据包括：输入图像和该输入图像中的以下图像至少之一：人体图像，人脸图像，手势图像，脚部图像；执行以下操作至少之一：根据人体图像得到人体至少一个关节的三维3D旋转值，根据人脸图像得到人脸参数表情，根据手势图像得到手势分类，根据脚部图像得到脚部动作；根据以下至少之一，生成与输入图像对应的交互结果：人体至少一个关节的三维3D旋转值，人脸参数表情，手势分类，脚部动作；展示交互结果。

图4是根据本发明实施例1提供的图像处理方法三的流程图，如图4所示，该方法包括如下步骤：

步骤S402，获取样本数据集，其中，样本数据集的数据包括：目标对象图像和与该目标对象图像对应的目标对象各关节的真实3D旋转值；

步骤S404，将样本数据集中的目标对象图像输入目标对象网络模型，得到目标对象各关节的输出3D旋转值；

步骤S406，比较输出3D旋转值与真实3D旋转值，得到差值；

步骤S408，依据差值对目标对象网络模型的模型参数进行优化，得到目标对象网络模型的训练结果。

通过上述步骤，根据样本数据集得到的目标对象各关节的输出3D旋转值与真实3D旋转值进行比较并得到差值，达到了依据差值对目标对象网络的模型参数进行优化得到目标对象网络模型的训练结果的目的，从而实现了训练得到目标对象网络模型，进而能够依据该训练得到的目标对象网络模型，快速，准确获得图像中的目标对象各关节的3D旋转值的技术效果，进而解决了相关技术中模型优化不完善的技术问题。

图5是根据本发明实施例1提供的图像处理方法四的流程图，如图5所示，该方法包括如下步骤：

步骤S502，获取目标对象图像；

步骤S504，将目标对象图像输入目标对象网络模型中，得到目标对象的至少一个关节的三维3D旋转值，其中，目标对象网络模型采用第九数据集通过机器学习训练得到，第九数据集中的数据包括目标对象图像与该目标对象图像对应的目标对象各关节的3D旋转值；

步骤S506，根据目标对象至少一个关节的三维3D旋转值，生成目标对象的虚拟形象。

通过上述步骤，达到了采用目标对象网络模型获得目标对像图像中目标对象至少一个关节的3D旋转值并生成对应虚拟形象的目的，从而实现了准确、快速地根据目标对象图像生成对应虚拟形象的技术效果，进而解决了相关技术中根据目标对象图像生成的虚拟形象动作不准确的技术问题。

作为一种可选的实施例，目标对象包括以下至少之一：动物，机器活动物体。例如：动物可以包括猫、狗等。机器活动物体可以包括可活动的机器人，可活动的仿真模型等。

图6是根据本发明实施例1提供的图像处理方法五的流程图，如图6所示，该方法包括如下步骤：

步骤S602，获取目标图像；

步骤S604，从目标图像中识别出目标对象至少一个关节的三维旋转值；

步骤S606，根据三维旋转值，生成并展示目标对象的虚拟对象。

通过上述步骤，达到了根据目标图像获得目标对象中至少一个关节的3D旋转值并生成对应虚拟对象的目的，从而实现了准确、快速地根据目标图像生成对应虚拟对象的技术效果，进而解决了相关技术中根据目标图像生成的虚拟对象动作不准确的技术问题。

图7是根据本发明可选实施方式的虚拟人的生成方法示意图。如图7所示，生成模拟人可以通过如下步骤实现：

S1，使用检测网络检测输入图像，具体的，可以通过检测网络检测图片中的人脸，人体，和双手；

S2，根据检测网络的检测结果，分割输入图像，得到人脸图像，人体图像，以及人手的图像；

S3,将人体图像输入到人体姿态估计网络得到人体至少一个关节点的3D旋转向量,即得到姿态(3D pose)；

S4，将人脸图像输入到人脸表情参数回归网络中，得到人脸表情参数；

S5,将人手的图像输入到手势分类模型中，得到手部的手势类别；

S6,将得到多帧图像的人脸表情参数，人体姿态以及手势类别，输入到驱动引擎中，驱动得到基于与多帧图像对应的虚拟人动画。

根据上述可选地实施方式，可以不需要估计人体图像中的2D或者3D关键点的位置，使用检测网络直接输出人体关节的3D旋转，避免了检测图像时发生关键点丢失导致姿态估计不准的问题。由于上述实施方式通过融合的检测网络模型，使检测网络模型可以检测姿态、表情、手势、脚部等，实现了减少冗余的算法计算量，提高了运算速度。相关技术中，通常只能做到5fps的刷新率，采用上述可选的实施方式，可以达到至少30fps的虚拟人动画刷新率，从而能够在设备端支持整体包括人脸，手势，以及人体动作的复刻。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的图像处理方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例的方法。

实施例2

根据本发明实施例，还提供了一种用于实施上述图像处理方法一的装置，图8是根据本发明实施例2的图像处理装置一的结构框图，如图8所示，该装置包括：第一获取模块82，第一识别模块84和第一生成模块86。下面对该装置进行详细说明。

第一获取模块82，用于获取人体图像；

第一识别模块84，连接于上述第一获取模块82，用于将人体图像输入人体姿态网络模型中，得到人体至少一个关节的三维3D旋转值，其中，人体姿态网络模型采用第一数据集通过机器学习训练得到，第一数据集中的数据包括：人体图像和与该人体图像对应的人体各关节的3D旋转值；

第一生成模块86，连接于上述第一识别模块84，用于根据人体至少一个关节的三维3D旋转值，生成虚拟人。

此处需要说明的是，上述第一获取模块82，第一识别模块84和第一生成模块86对应于实施例1中的步骤S202至步骤S206，三个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。

实施例3

根据本发明实施例，还提供了一种用于实施上述图像处理方法二的装置，图9是根据本发明实施例3的图像处理装置二的结构框图，如图9所示，该装置包括：第一显示模块92，接收模块94和第二显示模块96。下面对该装置进行详细说明。

第一显示模块92，用于在显示界面上展示虚拟人，其中，虚拟人根据人体至少一个关节的三维3D旋转值生成；接收模块94，连接于上述第一显示模块92，用于接收交互指令，其中，交互指令用于与虚拟人进行交互；第二显示模块96，连接于上述接收模块94，用于在显示界面上展示与交互指令对应的交互结果。

此处需要说明的是，上述第一显示模块92，接收模块94和第二显示模块96对应于实施例1中的步骤S302至步骤S306，三个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。

实施例4

根据本发明实施例，还提供了一种用于实施上述图像处理方法三的装置，图10是根据本发明实施例4的图像处理装置三的结构框图，如图10所示，该装置包括：第二获取模块1002，第二识别模块1004，比较模块1006和第二生成模块1008。下面对该装置进行详细说明。

第二获取模块1002，用于获取样本数据集，其中，样本数据集的数据包括：目标对象图像和与该目标对象图像对应的目标对象各关节的真实3D旋转值；

第二识别模块1004，连接于上述第二获取模块1002，用于将样本数据集中的目标对象图像输入目标对象网络模型，得到目标对象各关节的输出3D旋转值；

比较模块1006，连接于上述第二识别模块1004，用于比较输出3D旋转值与真实3D旋转值，得到差值；

第二生成模块1008，连接于上述比较模块1006，用于依据差值对目标对象网络模型的模型参数进行优化，得到目标对象网络模型的训练结果。

此处需要说明的是，上述第二获取模块1002，第二识别模块1004，比较模块1006和第二生成模块1008对应于实施例1中的步骤S402至步骤S408，四个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。

实施例5

根据本发明实施例，还提供了一种用于实施上述图像处理方法四的装置，图11是根据本发明实施例5的图像处理装置四的结构框图，如图11所示，该装置包括：第三获取模块1102，第三识别模块1104和第三生成模块1106。下面对该装置进行详细说明。

第三获取模块1102，用于获取目标对象图像；

第三识别模块1104，连接于上述第三获取模块1102，用于将目标对象图像输入目标对象网络模型中，得到目标对象的至少一个关节的三维3D旋转值，其中，目标对象网络模型采用第九数据集通过机器学习训练得到，第九数据集中的数据包括目标对象图像与该目标对象图像对应的目标对象各关节的3D旋转值；

第三生成模块1106，连接于上述第三识别模块1104，用于根据目标对象至少一个关节的三维3D旋转值，生成目标对象的虚拟形象。

此处需要说明的是，上述第三获取模块1102，第三识别模块1104和第三生成模块1106对应于实施例1中的步骤S502至步骤S506，三个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。

实施例6

根据本发明实施例，还提供了一种用于实施上述图像处理方法五的装置，图12是根据本发明实施例6的图像处理装置五的结构框图，如图12所示，该装置包括：第四获取模块1202，第四识别模块1204和第四生成模块1206。下面对该装置进行详细说明。

第四获取模块1202，用于获取目标图像；

第四识别模块1204，连接于上述第四获取模块1202，用于从目标图像中识别出目标对象至少一个关节的三维旋转值；

第四生成模块1206，连接于上述第四识别模块1204，用于根据三维旋转值，生成并展示目标对象的虚拟对象。

此处需要说明的是，上述第四获取模块1202，第四识别模块1204和第四生成模块1206对应于实施例1中的步骤S602至步骤S606，三个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。

实施例7

本发明的实施例可以提供一种计算机终端，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。

可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。

在本实施例中，上述计算机终端可以执行应用程序的图像处理方法中以下步骤的程序代码：获取人体图像；将人体图像输入人体姿态网络模型中，得到人体至少一个关节的三维3D旋转值，其中，人体姿态网络模型采用第一数据集通过机器学习训练得到，第一数据集中的数据包括：人体图像和与该人体图像对应的人体各关节的3D旋转值；根据人体至少一个关节的三维3D旋转值，生成虚拟人。

可选地，图13是根据本发明实施例的一种计算机终端的结构框图。如图13所示，该计算机终端可以包括：一个或多个(图中仅示出一个)处理器1302、存储器1304等。

其中，存储器可用于存储软件程序以及模块，如本发明实施例中的图像处理方法和装置对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的图像处理方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取人体图像；将人体图像输入人体姿态网络模型中，得到人体至少一个关节的三维3D旋转值，其中，人体姿态网络模型采用第一数据集通过机器学习训练得到，第一数据集中的数据包括：人体图像和与该人体图像对应的人体各关节的3D旋转值；根据人体至少一个关节的三维3D旋转值，生成虚拟人。

可选的，上述处理器还可以执行如下步骤的程序代码：获取人体图像，包括：接收输入图像；采用检测网络模型，对输入图像进行检测，从输入图像中检测出人体图像，其中，检测网络模型采用第二数据集通过机器学习训练得到，第二数据集中的数据包括：输入图像和该输入图像中的人体图像。

可选的，上述处理器还可以执行如下步骤的程序代码：采用检测网络模型，对输入图像进行检测，从输入图像中检测出人脸图像，其中，检测网络模型还采用第三数据集通过机器学习训练得到，第三数据集中的数据包括：输入图像和该输入图像中的人脸图像；采用人脸参数模型对人脸图像进行参数提取，得到人脸图像的人脸表情参数，其中，人脸参数模型采用第四数据集通过机器学习训练得到，第四数据集中的数据包括：人脸图像和该人脸图像的人脸表情参数；其中，根据人体至少一个关节的三维3D旋转值，生成虚拟人，包括：根据人体至少一个关节的三维3D旋转值和人脸表情参数，生成虚拟人。

可选的，上述处理器还可以执行如下步骤的程序代码：采用检测网络模型，对输入图像进行检测，从输入图像中检测出手势图像，其中，检测网络模型还采用第五数据集通过机器学习训练得到，第五数据集中的数据包括：输入图像和该输入图像中的手势图像；采用手势分类模型对手势图像进行手势分类，得到手势图像中的手部的手势类别，其中，手势分类模型采用第六数据集通过机器学习训练得到，第六数据集中的数据包括：手势图像和该手势图像中的手部的手势类别；其中，根据人体至少一个关节的三维3D旋转值，生成虚拟人，包括：根据人体至少一个关节的三维3D旋转值，人脸表情参数和手势类别，生成虚拟人。

可选的，上述处理器还可以执行如下步骤的程序代码：采用检测网络模型，对输入图像进行检测，从输入图像中检测出脚部图像，其中，检测网络模型还采用第七数据集通过机器学习训练得到，第七数据集中的数据包括：输入图像和该输入图像中的脚部图像；采用脚部识别模型对脚部图像进行动作识别，得到脚部图像中的脚部动作，其中，脚部识别模型采用第八数据集通过机器学习训练得到，第八数据集中的数据包括：脚部图像和该脚部图像中的脚部动作；其中，根据人体至少一个关节的三维3D旋转值，生成虚拟人，包括：根据人体至少一个关节的三维3D旋转值，人脸表情参数，手势类别和脚部动作，生成虚拟人。

可选的，上述处理器还可以执行如下步骤的程序代码：在输入图像为多帧视频图像的情况下，根据人体至少一个关节的三维3D旋转值，人脸表情参数，手势类别和脚部动作，生成虚拟人，包括：将多帧视频图像中每帧视频图像对应的人体至少一个关节的三维3D旋转值，人脸表情参数，手势类别和脚部动作输入至预定的驱动引擎中；通过驱动引擎的驱动，形成虚拟人的动画。

可选的，上述处理器还可以执行如下步骤的程序代码：多帧视频图像包括以下至少之一：录制视频中的多帧视频图像，直播视频中的多帧视频图像。

可选的，上述处理器还可以执行如下步骤的程序代码：接收交互指令，其中，交互指令用于与虚拟人进行交互；基于交互指令，获取交互指令对应的输入图像；根据输入图像，对虚拟人进行调整，生成新的虚拟人。

处理器还可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：在；接收交互指令，其中，交互指令用于与虚拟人进行交互；在显示界面上展示与交互指令对应的交互结果。

可选的，上述处理器还可以执行如下步骤的程序代码：在显示界面展示人体图像；在显示界面显示人体至少一个关节的三维3D旋转值，其中，人体至少一个关节的三维3D旋转值采用人体姿态网络模型对人体图像进行处理得到。

可选的，上述处理器还可以执行如下步骤的程序代码：在显示界面上展示与交互指令对应的交互结果，包括：基于交互指令，接收输入图像；采用检测网络模型，对输入图像进行检测，从输入图像中检测出以下图像至少之一：人体图像，人脸图像，手势图像，脚部图像，其中，检测网络模型采用第二数据集通过机器学习训练得到，第二数据集中的数据包括：输入图像和该输入图像中的以下图像至少之一：人体图像，人脸图像，手势图像，脚部图像；执行以下操作至少之一：根据人体图像得到人体至少一个关节的三维3D旋转值，根据人脸图像得到人脸参数表情，根据手势图像得到手势分类，根据脚部图像得到脚部动作；根据以下至少之一，生成与输入图像对应的交互结果：人体至少一个关节的三维3D旋转值，人脸参数表情，手势分类，脚部动作；展示交互结果。

处理器还可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取样本数据集，其中，样本数据集的数据包括：目标对象图像和与该目标对象图像对应的目标对象各关节的真实3D旋转值；将样本数据集中的目标对象图像输入目标对象网络模型，得到目标对象各关节的输出3D旋转值；比较输出3D旋转值与真实3D旋转值，得到差值；依据差值对目标对象网络模型的模型参数进行优化，得到目标对象网络模型的训练结果。

处理器还可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取目标对象图像；将目标对象图像输入目标对象网络模型中，得到目标对象的至少一个关节的三维3D旋转值，其中，目标对象网络模型采用第九数据集通过机器学习训练得到，第九数据集中的数据包括目标对象图像与该目标对象图像对应的目标对象各关节的3D旋转值；根据目标对象至少一个关节的三维3D旋转值，生成目标对象的虚拟形象。

可选的，上述处理器还可以执行如下步骤的程序代码：目标对象包括以下至少之一：动物，机器活动物体。

处理器还可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取目标图像；从目标图像中识别出目标对象至少一个关节的三维旋转值；根据三维旋转值，生成并展示目标对象的虚拟对象。

本领域普通技术人员可以理解，图13所示的结构仅为示意，计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices，MID)、PAD等终端设备。图13其并不对上述电子装置的结构造成限定。例如，计算机终端还可包括比图13中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图13所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

实施例8

本发明的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于保存上述实施例1所提供的图像处理方法所执行的程序代码。

可选地，在本实施例中，上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取人体图像；将人体图像输入人体姿态网络模型中，得到人体至少一个关节的三维3D旋转值，其中，人体姿态网络模型采用第一数据集通过机器学习训练得到，第一数据集中的数据包括：人体图像和与该人体图像对应的人体各关节的3D旋转值；根据人体至少一个关节的三维3D旋转值，生成虚拟人。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取人体图像，包括：接收输入图像；采用检测网络模型，对输入图像进行检测，从输入图像中检测出人体图像，其中，检测网络模型采用第二数据集通过机器学习训练得到，第二数据集中的数据包括：输入图像和该输入图像中的人体图像。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：方法还包括：采用检测网络模型，对输入图像进行检测，从输入图像中检测出人脸图像，其中，检测网络模型还采用第三数据集通过机器学习训练得到，第三数据集中的数据包括：输入图像和该输入图像中的人脸图像；采用人脸参数模型对人脸图像进行参数提取，得到人脸图像的人脸表情参数，其中，人脸参数模型采用第四数据集通过机器学习训练得到，第四数据集中的数据包括：人脸图像和该人脸图像的人脸表情参数；其中，根据人体至少一个关节的三维3D旋转值，生成虚拟人，包括：根据人体至少一个关节的三维3D旋转值和人脸表情参数，生成虚拟人。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：方法还包括：采用检测网络模型，对输入图像进行检测，从输入图像中检测出手势图像，其中，检测网络模型还采用第五数据集通过机器学习训练得到，第五数据集中的数据包括：输入图像和该输入图像中的手势图像；采用手势分类模型对手势图像进行手势分类，得到手势图像中的手部的手势类别，其中，手势分类模型采用第六数据集通过机器学习训练得到，第六数据集中的数据包括：手势图像和该手势图像中的手部的手势类别；其中，根据人体至少一个关节的三维3D旋转值，生成虚拟人，包括：根据人体至少一个关节的三维3D旋转值，人脸表情参数和手势类别，生成虚拟人。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：方法还包括：采用检测网络模型，对输入图像进行检测，从输入图像中检测出脚部图像，其中，检测网络模型还采用第七数据集通过机器学习训练得到，第七数据集中的数据包括：输入图像和该输入图像中的脚部图像；采用脚部识别模型对脚部图像进行动作识别，得到脚部图像中的脚部动作，其中，脚部识别模型采用第八数据集通过机器学习训练得到，第八数据集中的数据包括：脚部图像和该脚部图像中的脚部动作；其中，根据人体至少一个关节的三维3D旋转值，生成虚拟人，包括：根据人体至少一个关节的三维3D旋转值，人脸表情参数，手势类别和脚部动作，生成虚拟人。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：在输入图像为多帧视频图像的情况下，根据人体至少一个关节的三维3D旋转值，人脸表情参数，手势类别和脚部动作，生成虚拟人，包括：将多帧视频图像中每帧视频图像对应的人体至少一个关节的三维3D旋转值，人脸表情参数，手势类别和脚部动作输入至预定的驱动引擎中；通过驱动引擎的驱动，形成虚拟人的动画。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：多帧视频图像包括以下至少之一：录制视频中的多帧视频图像，直播视频中的多帧视频图像。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：接收交互指令，其中，交互指令用于与虚拟人进行交互；基于交互指令，获取交互指令对应的输入图像；根据输入图像，对虚拟人进行调整，生成新的虚拟人。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：在显示界面上展示虚拟人，其中，虚拟人根据人体至少一个关节的三维3D旋转值生成；接收交互指令，其中，交互指令用于与虚拟人进行交互；在显示界面上展示与交互指令对应的交互结果。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：在显示界面展示人体图像；在显示界面显示人体至少一个关节的三维3D旋转值，其中，人体至少一个关节的三维3D旋转值采用人体姿态网络模型对人体图像进行处理得到。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：在显示界面上展示与交互指令对应的交互结果，包括：基于交互指令，接收输入图像；采用检测网络模型，对输入图像进行检测，从输入图像中检测出以下图像至少之一：人体图像，人脸图像，手势图像，脚部图像，其中，检测网络模型采用第二数据集通过机器学习训练得到，第二数据集中的数据包括：输入图像和该输入图像中的以下图像至少之一：人体图像，人脸图像，手势图像，脚部图像；执行以下操作至少之一：根据人体图像得到人体至少一个关节的三维3D旋转值，根据人脸图像得到人脸参数表情，根据手势图像得到手势分类，根据脚部图像得到脚部动作；根据以下至少之一，生成与输入图像对应的交互结果：人体至少一个关节的三维3D旋转值，人脸参数表情，手势分类，脚部动作；展示交互结果。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取样本数据集，其中，样本数据集的数据包括：目标对象图像和与该目标对象图像对应的目标对象各关节的真实3D旋转值；将样本数据集中的目标对象图像输入目标对象网络模型，得到目标对象各关节的输出3D旋转值；比较输出3D旋转值与真实3D旋转值，得到差值；依据差值对目标对象网络模型的模型参数进行优化，得到目标对象网络模型的训练结果。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取目标对象图像；将目标对象图像输入目标对象网络模型中，得到目标对象的至少一个关节的三维3D旋转值，其中，目标对象网络模型采用第九数据集通过机器学习训练得到，第九数据集中的数据包括目标对象图像与该目标对象图像对应的目标对象各关节的3D旋转值；根据目标对象至少一个关节的三维3D旋转值，生成目标对象的虚拟形象。

可选地，在本实施例中，存储介质还被设置为存储用于执行以下步骤的程序代码：目标对象包括以下至少之一：动物，机器活动物体。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取目标图像；从目标图像中识别出目标对象至少一个关节的三维旋转值；根据三维旋转值，生成并展示目标对象的虚拟对象。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种图像处理方法，其特征在于，包括：

获取人体图像；

将所述人体图像输入人体姿态网络模型中，得到人体至少一个关节的三维3D旋转值，其中，所述人体姿态网络模型采用第一数据集通过机器学习训练得到，所述第一数据集中的数据包括：人体图像和与该人体图像对应的人体各关节的3D旋转值；

根据所述人体至少一个关节的三维3D旋转值，生成虚拟人。

2.根据权利要求1所述的方法，其特征在于，获取所述人体图像，包括：

接收输入图像；

采用检测网络模型，对所述输入图像进行检测，从所述输入图像中检测出所述人体图像，其中，所述检测网络模型采用第二数据集通过机器学习训练得到，所述第二数据集中的数据包括：输入图像和该输入图像中的人体图像。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

采用所述检测网络模型，对所述输入图像进行检测，从所述输入图像中检测出人脸图像，其中，所述检测网络模型还采用第三数据集通过机器学习训练得到，所述第三数据集中的数据包括：输入图像和该输入图像中的人脸图像；

采用人脸参数模型对所述人脸图像进行参数提取，得到所述人脸图像的人脸表情参数，其中，所述人脸参数模型采用第四数据集通过机器学习训练得到，所述第四数据集中的数据包括：人脸图像和该人脸图像的人脸表情参数；

其中，根据所述人体至少一个关节的三维3D旋转值，生成所述虚拟人，包括：根据所述人体至少一个关节的三维3D旋转值和所述人脸表情参数，生成所述虚拟人。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

采用所述检测网络模型，对所述输入图像进行检测，从所述输入图像中检测出手势图像，其中，所述检测网络模型还采用第五数据集通过机器学习训练得到，所述第五数据集中的数据包括：输入图像和该输入图像中的手势图像；

采用手势分类模型对所述手势图像进行手势分类，得到所述手势图像中的手部的手势类别，其中，所述手势分类模型采用第六数据集通过机器学习训练得到，所述第六数据集中的数据包括：手势图像和该手势图像中的手部的手势类别；

其中，根据所述人体至少一个关节的三维3D旋转值，生成所述虚拟人，包括：根据所述人体至少一个关节的三维3D旋转值，所述人脸表情参数和所述手势类别，生成所述虚拟人。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

采用所述检测网络模型，对所述输入图像进行检测，从所述输入图像中检测出脚部图像，其中，所述检测网络模型还采用第七数据集通过机器学习训练得到，所述第七数据集中的数据包括：输入图像和该输入图像中的脚部图像；

采用脚部识别模型对所述脚部图像进行动作识别，得到所述脚部图像中的脚部动作，其中，所述脚部识别模型采用第八数据集通过机器学习训练得到，所述第八数据集中的数据包括：脚部图像和该脚部图像中的脚部动作；

其中，根据所述人体至少一个关节的三维3D旋转值，生成所述虚拟人，包括：根据所述人体至少一个关节的三维3D旋转值，所述人脸表情参数，所述手势类别和所述脚部动作，生成所述虚拟人。

6.根据权利要求5所述的方法，其特征在于，在所述输入图像为多帧视频图像的情况下，根据所述人体至少一个关节的三维3D旋转值，所述人脸表情参数，所述手势类别和所述脚部动作，生成所述虚拟人，包括：

将所述多帧视频图像中每帧视频图像对应的所述人体至少一个关节的三维3D旋转值，所述人脸表情参数，所述手势类别和所述脚部动作输入至预定的驱动引擎中；

通过所述驱动引擎的驱动，形成所述虚拟人的动画。

7.根据权利要求6所述的方法，其特征在于，所述多帧视频图像包括以下至少之一：录制视频中的多帧视频图像，直播视频中的多帧视频图像。

8.根据权利要求1至7中任一项所述的方法，其特征在于，还包括：

接收交互指令，其中，所述交互指令用于与所述虚拟人进行交互；

基于所述交互指令，获取所述交互指令对应的输入图像；

根据所述输入图像，对所述虚拟人进行调整，生成新的虚拟人。

9.一种图像处理方法，其特征在于，包括：

在显示界面上展示虚拟人，其中，所述虚拟人根据人体至少一个关节的三维3D旋转值生成；

在所述显示界面上展示与所述交互指令对应的交互结果。

10.根据权利要求9所述的方法，其特征在于，还包括：

在所述显示界面展示人体图像；

在所述显示界面显示人体至少一个关节的三维3D旋转值，其中，所述人体至少一个关节的三维3D旋转值采用人体姿态网络模型对所述人体图像进行处理得到。

11.根据权利要求9所述的方法，其特征在于，在所述显示界面上展示与所述交互指令对应的交互结果，包括：

基于交互指令，接收输入图像；

采用检测网络模型，对所述输入图像进行检测，从所述输入图像中检测出以下图像至少之一：人体图像，人脸图像，手势图像，脚部图像，其中，所述检测网络模型采用第二数据集通过机器学习训练得到，所述第二数据集中的数据包括：输入图像和该输入图像中的以下图像至少之一：人体图像，人脸图像，手势图像，脚部图像；

执行以下操作至少之一：根据所述人体图像得到人体至少一个关节的三维3D旋转值，根据所述人脸图像得到人脸参数表情，根据所述手势图像得到手势分类，根据所述脚部图像得到脚部动作；

根据以下至少之一，生成与所述输入图像对应的交互结果：所述人体至少一个关节的三维3D旋转值，所述人脸参数表情，所述手势分类，所述脚部动作；

展示所述交互结果。

12.一种图像处理装置，其特征在于，包括：

获取模块，用于获取人体图像；

识别模块，用于将所述人体图像输入人体姿态网络模型中，得到所述人体至少一个关节的三维3D旋转值，其中，所述人体姿态网络模型采用第一数据集通过机器学习训练得到，所述第一数据集中的数据包括：人体图像和与该人体图像对应的人体各关节的3D旋转值；

生成模块，用于根据所述人体至少一个关节的三维3D旋转值，生成虚拟人。

13.一种图像处理装置，其特征在于，包括：

第一显示模块，用于在显示界面上展示虚拟人，其中，所述虚拟人根据人体至少一个关节的三维3D旋转值生成；

接收模块，用于接收交互指令，其中，所述交互指令用于与所述虚拟人进行交互；

第二显示模块，用于在所述显示界面上展示与所述交互指令对应的交互结果。

14.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至11中任意一项所述的图像处理方法。

15.一种计算机设备，其特征在于，包括：存储器和处理器，

所述存储器存储有计算机程序；

所述处理器，用于执行所述存储器中存储的计算机程序，所述计算机程序运行时使得所述处理器执行权利要求1至11中任意一项所述的图像处理方法。

16.一种图像处理方法，其特征在于，包括：

获取样本数据集，其中，所述样本数据集的数据包括：目标对象图像和与该目标对象图像对应的目标对象各关节的真实3D旋转值；

将所述样本数据集中的目标对象图像输入目标对象网络模型，得到所述目标对象各关节的输出3D旋转值；

比较所述输出3D旋转值与所述真实3D旋转值，得到差值；

依据所述差值对所述目标对象网络模型的模型参数进行优化，得到目标对象网络模型的训练结果。

17.一种图像处理方法，其特征在于，包括：

获取目标对象图像；

将所述目标对象图像输入目标对象网络模型中，得到所述目标对象的至少一个关节的三维3D旋转值，其中，所述目标对象网络模型采用第九数据集通过机器学习训练得到，所述第九数据集中的数据包括目标对象图像与该目标对象图像对应的目标对象各关节的3D旋转值；

根据所述目标对象至少一个关节的三维3D旋转值，生成所述目标对象的虚拟形象。

18.根据权利要求17所述的方法，其特征在于，所述目标对象包括以下至少之一：动物，机器活动物体。

19.一种图像处理方法，其特征在于，包括：

获取目标图像；

从所述目标图像中识别出目标对象至少一个关节的三维旋转值；

根据所述三维旋转值，生成并展示所述目标对象的虚拟对象。