CN116524106A

CN116524106A - 一种图像标注方法、装置、设备及存储介质、程序产品

Info

Publication number: CN116524106A
Application number: CN202210068264.5A
Authority: CN
Inventors: 康洋
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-01-20
Filing date: 2022-01-20
Publication date: 2023-08-01
Anticipated expiration: 2042-01-20
Also published as: CN116524106B

Abstract

本申请提供了一种图像标注方法、装置、设备及存储介质、程序产品；本申请实施例可以应用于云技术、人工智能、智慧交通、车载等各种场景，涉及人工智能技术；该方法包括：获取待标注图像和标注参考图像；其中，待标注图像是标注对象被遮挡的图像，标注参考图像是标注对象未被遮挡的图像；基于标注参考图像，对标注对象进行三维重建，得到标注对象的外观信息；通过待标注图像，预测出标注对象的姿态参数；基于姿态参数，将外观信息融合至待标注图像，得到信息融合图像；信息融合图像提供了标注对象被遮挡部分的外观；针对信息融合图像进行标注，得到待标注图像对应的标注信息。通过本申请，能够提高图像标注的质量。

Description

一种图像标注方法、装置、设备及存储介质、程序产品

技术领域

本申请涉及人工智能技术，尤其涉及一种图像标注方法、装置、设备及存储介质、程序产品。

背景技术

图像处理模型一般都是利用标注图像数据训练得到的，标注图像数据的质量和数量对图像处理模型的鲁棒性至关重要。普通的标注图像数据非常容易采集和标注，然而，图像数据中存在遮挡的频率特别高。相关技术中，针对有遮挡的图像进行标注时，会存在标注准确度低下的问题，从而导致图像标注的质量低下。

发明内容

本申请实施例提供一种图像标注方法、装置、设备及计算机可读存储介质、程序产品，能够提高图像标注的质量。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种图像标注方法，包括：

获取待标注图像和标注参考图像；其中，所述待标注图像是标注对象被遮挡的图像，所述标注参考图像是所述标注对象未被遮挡的图像；

基于所述标注参考图像，对所述标注对象进行三维重建，得到所述标注对象的外观信息；

通过所述待标注图像，预测出所述标注对象的姿态参数；

基于所述姿态参数，将所述外观信息融合至所述待标注图像，得到信息融合图像；所述信息融合图像提供了所述标注对象被遮挡部分的外观；

针对所述信息融合图像进行标注，得到所述待标注图像对应的标注信息。

本申请实施例提供一种图像标注装置，包括：

图像获取模块，用于获取待标注图像和标注参考图像；其中，所述待标注图像是标注对象被遮挡的图像，所述标注参考图像是所述标注对象未被遮挡的图像；

三维重建模块，用于基于所述标注参考图像，对所述标注对象进行三维重建，得到所述标注对象的外观信息；

姿态预测模块，用于通过所述待标注图像，预测出所述标注对象的姿态参数；

信息融合模块，用于基于所述姿态参数，将所述外观信息融合至所述待标注图像，得到信息融合图像；所述信息融合图像提供了所述标注对象被遮挡部分的外观；

图像标注模块，用于针对所述信息融合图像进行标注，得到所述待标注图像对应的标注信息。

在本申请的一些实施例中，所述信息融合模块，还用于利用所述姿态参数，对所述外观信息进行姿态调整，得到调整后的外观信息；将所述调整后的外观信息与所述待标注图像进行融合，得到所述信息融合图像。

在本申请的一些实施例中，所述三维重建模块，还用于对所述标注参考图像进行参数预测，得到三维建模参数、投影参数和纹理参数；基于所述三维建模参数、所述投影参数和所述纹理参数，构建出所述标注对象的所述外观信息。

在本申请的一些实施例中，所述三维重建模块，还用于基于所述三维建模参数，确定出所述标注对象的三维形状信息；基于所述纹理参数，针对所述标注对象生成纹理信息；依据所述投影参数，确定出用于将所述三维形状信息投影到图像空间的投影模型；对所述投影模型、所述三维形状信息和所述纹理信息进行可微分渲染，得到所述标注对象的所述外观信息。

在本申请的一些实施例中，所述三维建模参数包括：形状参数、动作参数和表情参数；所述三维重建模块，还用于依据所述形状参数、所述动作参数和所述表情参数，对形状基、动作基、和表情基进行加权融合，得到所述标注对象的关键点的第一三维坐标；基于所述第一三维坐标，构建出所述标注对象的所述三维形状信息。

在本申请的一些实施例中，所述三维建模参数包括：形状参数和表情参数；所述三维重建模块，还用于依据所述形状参数和所述表情参数，对形状基和表情基进行加权融合，得到融合信息；将所述融合信息和预设形状信息进行融合，得到所述标注对象的关键点的第二三维坐标；基于所述第二三维坐标，构建出所述标注对象的所述三维形状信息。

在本申请的一些实施例中，所述三维重建模块，还用于利用所述纹理参数预测出所述标注对象的纹理图像；针对所述纹理图像进行反射处理，得到所述标注对象的所述纹理信息。

在本申请的一些实施例中，所述投影参数包括：缩放参数和平移参数；所述三维重建模块，还用于利用所述缩放参数对预设投影模型进行缩放调整，得到调整后的模型；将所述调整后的模型与所述平移参数进行叠加，得到用于将所述三维形状信息投影到图像空间的所述投影模型。

在本申请的一些实施例中，所述三维重建模块，还用于对所述信息融合图像进行特征抽取，得到待识别特征；对所述待识别特征进行分类，得到所述待标注图像的所述标注信息。

在本申请的一些实施例中，所述三维重建模块，还用于基于图像重建模型和所述标注参考图像，对所述标注对象进行三维重建，得的所述标注对象的所述外观信息；

所述图像标注设备还包括：模型训练模块；所述模型训练模块，用于在基于图像重建模型和所述标注参考图像，对所述标注对象进行三维重建，得的所述标注对象的所述外观信息之前，获取第一训练图像和初始重建模型；其中，所述第一训练图像是训练标注对象未被遮挡的图像；利用所述初始重建模型，对所述训练标注对象进行三维重建，得到训练外观信息；基于所述训练外观信息和所述训练标注对象在所述第一训练图像中的真实外观之间的差异，对所述初始重建模型进行参数调整，直至达到训练结束条件时，得到所述图像重建模型。

在本申请的一些实施例中，所述姿态预测模块，还用于利用姿态预测模型，对所述待标注图像进行预测，得到所述标注对象的所述姿态参数；

所述模型训练模块，还用于在利用姿态预测模型，对所述待标注图像进行预测，得到所述标注对象的所述姿态参数之前，获取第二训练图像和初始预测模型；其中，所述第二训练图像是训练标注对象被遮挡的图像；利用所述初始预测模型，预测出所述训练标注对象的训练姿态参数；从所述第二训练图像中，定位出遮挡物所在的遮挡图像区域；利用所述第二训练图像中除所述遮挡图像区域之外的其他图像区域，确定出真实姿态参数；基于所述训练姿态参数和所述真实姿态参数之间的差异，对所述初始预测模型进行参数调整，直到达到训练结束条件时，得到所述姿态预测模型。

本申请实施例提供一种图像标注设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本申请实施例提供的图像标注方法。

本申请实施例提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行时，实现本申请实施例提供的图像标注方法。

本申请实施例提供一种计算机程序产品，包括计算机程序或指令，所述计算机程序或指令被处理器执行时实现本申请实施例提供的图像标注方法。

本申请实施例具有以下有益效果：图像标注设备能够基于标注参考图像重建出标注对象完整的外观信息，并基于从待标注图像中预测出的标注对象的姿态参数，将外观信息和待标注图像进行融合，以使得待标注图像中标注对象被遮挡的部分，也能够具有相应的外观，即实现利用未被遮挡的标注对象，猜测出标注对象被遮挡的部分的外观，从而使得待标注图像中的标注对象的外观被补充完整，并利用完整的外观来进行标注，能够提升对有遮挡图像的标注的准确度，也就提升了图像标注的质量。

附图说明

图1是本申请实施例提供的图像标注系统的架构示意图；

图2是本申请实施例提供的图1中的服务器的结构示意图；

图3是本申请实施例提供的图像标注方法的流程示意图一；

图4是本申请实施例提供的标注参考图像的示意图；

图5是本申请实施例提供的待标注图像的示意图；

图6是本申请实施例提供的图像标注方法的流程示意图二；

图7是本申请实施例提供的信息融合图像的示意图；

图8是本申请实施例提供的图像标注方法的流程示意图三；

图9是本申请实施例提供的基于可微分渲染预测人脸图片的过程示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二”仅仅是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类的智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

2)计算机视觉技术(Computer Vision，CV)是一门研究如何使机器“看”科学。更进一步的说，就是指用摄影机和电脑代替人眼对目标进行分辨和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

3)机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

4)图像标注，是指根据图像的内容生成相对应的描述内容的过程。图像标注可以分为人工标注和自动标注两部分，其中，自动标注同时涉及到图像理解和语义生成两个处理过程。标注好的图像一般用来训练深度学习模型，以解决各种不同的问题。

5)三维重建，是指利用某个对象的二维图像，生成该对象的三维模型的过程。常用的三维重建包括三维人脸重建，即利用人脸的图像，建模出人脸的三维模型。

随着人工智能技术的研究和进步，人工智能技术在多个领域展开应用和研究，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服、车联网、自动驾驶、智慧交通等。相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

人工智能技术在图像领域中的应用效果十分显著，目前，大部分的图像处理、图像识别等的应用，都是基于人工智能中的机器学习模型、深度学习模型等。图像处理模型一般都是利用标注图像数据训练得到的，标注图像数据的质量和数量对图像处理模型的鲁棒性至关重要。

普通的标注图像数据非常容易采集和标注，然而，图像数据中存在遮挡的频率特别高，这些遮挡可以是外物的遮挡，例如口罩对脸部的遮挡，也可以是自发遮挡，利用手遮住部分脸部，等等。遮挡的存在使得图像的标注难度较高。

相关技术中，针对带有遮挡的图像数据，通常是通过伪造遮挡物、人工标注或者模板匹配的方式进行标注的。其中，通过伪造遮挡物进行标注，是指利将遮挡物随机放置在未被遮挡的图像中，然后再进行标注；人工标注是指标注人员根据图像中未被遮挡的区域推测遮挡区域的情形，然后根据推测结果进行标注；模板匹配是指将有遮挡的图像，与已经标注过，或者已知类型的遮挡图像模板进行匹配，利用匹配结果进行标注。

然而，通过伪造遮挡物进行标注时，由于模型不是利用真实的有遮挡图像进行训练的，使得训练出的模型的性能有限，即容易出现过拟合现象，使得针对真实的有遮挡图像的标注的准确度降低，标注质量低下；通过人工标注时，需要依赖于标注人员的个人经验，不仅存在有遮挡图像的标注的准确度较低，标注质量低下的问题，且标注的效率也会较慢；通过模板匹配的方式进行标注时，存在各种姿态难以使用同一模板的问题，使得有遮挡图像的标注的准确度较低，从而使得标注质量低下。

综上所述，相关技术中，针对有遮挡的图像进行标注时，会存在标注准确度低下的问题，从而导致图像标注的质量低下。

本申请实施例提供一种图像标注方法、装置、设备和计算机可读存储介质、程序产品，能够提高图像标注的质量。下面说明本申请实施例提供的图像标注设备的示例性应用，本申请实施例提供的图像标注设备可以实施为笔记本电脑，平板电脑，台式计算机，机顶盒，移动设备(例如，移动电话，便携式音乐播放器，个人数字助理，专用消息设备，便携式游戏设备)、车载终端等各种类型的终端，也可以实施为服务器，还可以实施为由终端和服务器所组成的设备集群。下面，将说明图像标注设备实施为服务器时示例性应用。

参见图1，图1是本申请实施例提供的图像标注系统的架构示意图。为实现支撑一个图像标注应用，在图像标注系统100中，终端400(示例性示出了终端400-1和终端400-2)通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合。在图像标注系统100中，还可以设置有数据库500，数据库500用于为服务器200提供数据支持。数据库500可以独立于服务器200，也可以配置在服务器200中。图1示出的是服务器500独立于服务器200的情况。

终端400用于响应于用户在图形界面410(示例性示出了图形界面410-1和图形界面410-2)中的操作，生成各种类型的图像，并通过网络300将这些图像传输给服务器200，以供服务器200将这些图像写入到数据库500中。

服务器200用于从数据库500中获取待标注图像和标注参考图像，其中，待标注图像是标注对象被遮挡的图像，标注参考图像是标注对象未被遮挡的图像；基于标注参考图像，对标注对象进行三维重建，得到标注对象的外观信息；通过待标注图像，预测出标注对象的姿态参数；基于姿态参数，将外观信息融合至待标注图像，得到信息融合图像；针对信息融合图像进行标注，得到待标注图像对应的标注信息，实现图像标注。

在一些实施例中，服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端400可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能家电、车载终端等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本发明实施例中不做限制。

参见图2，图2是本申请实施例提供的图1中的服务器的结构示意图，图2所示的服务器200包括：至少一个处理器210、存储器250、至少一个网络接口220和用户接口230。服务器200中的各个组件通过总线系统240耦合在一起。可理解，总线系统240用于实现这些组件之间的连接通信。总线系统240除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统240。

处理器210可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口230包括使得能够呈现媒体内容的一个或多个输出装置231，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口230还包括一个或多个输入装置232，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器250可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器250可选地包括在物理位置上远离处理器210的一个或多个存储设备。

存储器250包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Me mory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memor y)。本申请实施例描述的存储器250旨在包括任意适合类型的存储器。

在一些实施例中，存储器250能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统251，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块252，用于经由一个或多个(有线或无线)网络接口220到达其他计算设备，示例性的网络接口220包括：蓝牙、无线相容性认证(Wi-Fi)、和通用串行总线(USB，Universal Serial Bus)等；

呈现模块253，用于经由一个或多个与用户接口230相关联的输出装置231(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作外围设备和显示内容和信息的用户接口)；

输入处理模块254，用于对一个或多个来自一个或多个输入装置232之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本申请实施例提供的图像标注装置可以采用软件方式实现，图2示出了存储在存储器250中的图像标注装置255，其可以是程序和插件等形式的软件，包括以下软件模块：图像获取模块2551、三维重建模块2552、姿态预测模块2553、信息融合模块2554、图像标注模块2555和模型训练模块2556，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

在另一些实施例中，本申请实施例提供的图像标注装置可以采用硬件方式实现，作为示例，本申请实施例提供的图像标注装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的图像标注方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific IntegratedCircuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

在一些实施例中，终端或服务器可以通过运行计算机程序来实现本申请实施例提供的图像标注方法。举例来说，计算机程序可以是操作系统中的原生程序或软件模块；可以是本地(Native)应用程序(APP，Application)，即需要在操作系统中安装才能运行的程序，如标注生成APP；也可以是小程序，即只需要下载到浏览器环境中就可以运行的程序；还可以是能够嵌入至任意APP中的小程序。总而言之，上述计算机程序可以是任意形式的应用程序、模块或插件。

本申请实施例可以应用于云技术、人工智能、智慧交通、车载等各种场景。下面，将结合本申请实施例提供的图像标注设备的示例性应用和实施，说明本申请实施例提供的图像标注方法。

参见图3，图3是本申请实施例提供的图像标注方法的流程示意图一，将结合图3示出的步骤进行说明。

S101、获取待标注图像和标注参考图像。

本申请实施例是在对带有遮挡的图像进行标注的场景下实现的，例如，对戴口罩的人脸进行标注，对被遮挡的景物进行标注等场景下实现的。图像标注设备可以定时自动开始图像标注流程，也可以在接收到标注人员的开启标注指令时，开始图像标注流程。在开始图像标注流程之后，图像标注设备可以对自身的存储空间，或者是数据库中的各种图像进行读取分类，以确定出图像中的标注对象是否具有遮挡物，将具有遮挡物的图像确定为待标注图像，将不具有遮挡物的图像确定为标注参考图像。也就是说，本申请实施例中，待标注图像是标注对象被遮挡的图像，标注参考图像是标注对象未被遮挡的图像。

可以理解的是，标注对象可以是人脸、人体、景物、动物、生活物品等对象，标注对象可由各种遮挡物遮挡的，例如，口罩、手部、拍照时的道具、其他的行人等，本申请在此不作限定。

需要说明的是，待标注图像中的标注对象，和标注参考图像中的标注对象可以在是否被遮挡上存在不同，也可以在姿态上存在不同，但总的来说，待标注图像中的标注对象和标注参考图像中的标识对象必须是同一个对象，例如，为同一个人脸，或者同一个物体等。

示例性的，图4是本申请实施例提供的标注参考图像的示意图，图5是本申请实施例提供的待标注图像的示意图。图4和图5中的标注对象为同一个人，但是图4中的标注对象未佩戴口罩，姿态为正面面对摄像头，图5中的标注对象佩戴了口罩，姿态为侧面面对摄像头。

S102、基于标注参考图像，对标注对象进行三维重建，得到标注对象的外观信息。

图像标注设备在得到标注对象未被遮挡的标注参考图像时，就可以基于标注参考图像，针对标注对象进行三维重建，以得到标注对象的三维立体模型，然后将标注对象的外观信息提取出来，以便于后续利用外观信息辅助生成标注信息。

在一些实施例中，图像标注设备可以借助于深度学习技术，从标注参考图像中预测出各类用于进行三维重建的重建参数，然后基于重建参数构建出三维立体模型，以抽取外观信息。

在另一些实施例中，图像标注设备可以依据标注参考图像，从数据库中查找出标注对象的其他角度的其他参考图像，然后基于标注参考图像和其他参考图，即基于标注对象的不同角度的外观，建模出标注对象的三维立体模型，以便于提取外观信息。

需要说明的是，本申请实施例中，外观信息可以包括标注对象的完整外观，例如完整的人脸、完整的物体形状，也可以包括标注对象经常被遮挡的区域的外观，例如口罩下的嘴巴区域的外观等等。如此，在后续可以利用外观信息来对待标注图像中标注对象被遮挡的部分外观进行预测。

S103、通过待标注图像，预测出标注对象的姿态参数。

图像标注设备对待标注图像中的标注对象进行姿态分析，以得到标注对象在待标注图像中的姿态参数。也就是说，本申请实施例中的姿态参数，是对标注对象在待标注图像中的姿态的描述。

在一些实施例中，图像标注设备可以借助于深度学习技术，对待标注图像中的标注对象进行关于姿态的特征抽取，然后利用抽取出的特征预测出标注对象的姿态参数。

在另一些实施例中，图像标注设备还可以对待标注图像中的标注对象进行动作分析，基于分析出的动作与多个不同的预设姿态参数所对应的标准动作进行匹配，将匹配上的标准动作所对应的预设姿态参数，确定为标注对象的姿态参数。

S104、基于姿态参数，将外观信息融合至待标注图像，得到信息融合图像。

图像标注设备利用姿态参数，对外观信息和待标注图像的融合进行控制，在融合完成之后，就会得到信息融合图像。在一些实施例中，图像标注设备可以基于姿态参数，对外观信息的融合时的姿态进行控制，得到信息融合图像；在另一些实施例中，图像标注设备可以基于姿态参数，对外观信息融合时的部位进行控制，以得到信息融合图像。

需要说明的是，由于外观信息是基于标注参考图像中未被遮挡的标注对象所构建的，从而，外观信息包含有标注对象完整的外观，或者是被遮挡的部位的外观，因此，将外观信息融合至待标注图像所得到的信息融合图像中，就会包含有标注对象的所有部位的外观，也即，信息融合图像提供了标注对象被遮挡部分的外观。

S105、针对信息融合图像进行标注，得到待标注图像对应的标注信息。

图像标注设备在得到信息融合图像之后，就会结合信息融合图形所提供的标注对象被遮挡部分的外观，以及其他未被遮挡的部分的外观，进行图像分析，并进行语义信息的生成，得到标注信息，该标注信息实质上就是待标注图像的标注信息。

可以理解的是，相比于相关技术中的通过伪造遮挡物进行标注、人工标注或者通过模板匹配的方式进行标注，本申请实施例中，图像标注设备能够基于标注参考图像重建出标注对象完整的外观信息，并基于从待标注图像中预测出的标注对象的姿态参数，将外观信息和待标注图像进行融合，以使得待标注图像中标注对象被遮挡的部分，也能够具有相应的外观，即实现利用未被遮挡的标注对象，猜测出标注对象被遮挡的部分的外观，从而使得待标注图像中的标注对象的外观被补充完整，并利用完整的外观来进行标注，能够提升对有遮挡图像的标注的准确度，也就提升了图像标注的质量。同时，图像标注设备是自动进行分析标注的，相比于人工标注，还能够提高图像标注的效率。

基于图3，参见图6，图6是本申请实施例提供的图像标注方法的流程示意图二。在本申请的一些实施例中，基于姿态参数，将外观信息融合至待标注图像，得到信息融合图像，即S104的具体实现过程，可以包括：

S1041、利用姿态参数，对外观信息进行姿态调整，得到调整后的外观信息。

图像标注设备利用姿态参数，对外观信息进行相应的姿态调整，以使得外观信息的姿态与待标注图像中的标注对象的姿态相符，得到调整后的外观信息。

例如，当姿态参数表明待标注图像中的标注对象为侧面面对摄像头，而外观信息是标注对象正面面对摄像头时，图像标注设备就会将外观信息进行相应的旋转，使得调整后的外观信息为标注对象侧面面对摄像头，即使得待标注图像中的标注对象的姿态相符。

S1042、将调整后的外观信息与待标注图像进行融合，得到信息融合图像。

图像标注设备可以通过叠加，或者拼接实现外观信息与待标注图像的融合，所得到的叠加结果或拼接结果，就是信息融合图像。

示例性的，图7是本申请实施例提供的信息融合图像的示意图。从图7可以看出，图像标注设备将外观信息的姿态，调整到与待标注图像中的相同姿态之后才进行融合的。

本申请实施例中，图像标注设备会先利用姿态参数，将外观信息的姿态调整到与待标注图像中的标注对象相同的姿态之后才进行融合，从而信息融合图像能够准确地提供被标注对象被遮挡部位的外观情况，以便于后续更准确地进行标注。

基于图3，参见图8，图8是本申请实施例提供的图像标注方法的流程示意图三。在本申请的一些实施例中，基于标注参考图像，对标注对象进行三维重建，得到标注对象的外观信息，即S102的具体实现过程，可以包括：S1021-S1022，如下：

S1021、对标注参考图像进行参数预测，得到三维建模参数、投影参数和纹理参数。

图像标注设备针对标注参考图像进行图像分析，以明确标注参考图像在三维重建时，用于计算各个网格贴片的顶点位置的三维建模参数、用于将三维立体模型转换到图像空间的投影参数，以及用于计算各个网格贴片的顶点的像素值的纹理参数。

可以理解的是，网格贴片是指在三维虚拟空间中拼接物体轮廓的最小单元，其可以是三角贴片，也可以是四边形贴片，本申请在此不作限定。

S1022、基于三维建模参数、投影参数和纹理参数，构建出标注对象的外观信息。

图像标注设备在得到三维建模参数、投影参数和纹理参数之后，就会基于这些参数建模出标注对象的三维立体模型，并将三维立体模型投影到图像空间，得到标注对象的外观信息。

本申请实施例中，图像标注设备会从标注参考图像中预测出三维建模参数、投影参数和纹理参数，并基于预测出的参数进行外观信息的构建，完成基于二维的标注参考图像预测出外观信息，以便于后续生成信息融合图像。

在本申请的一些实施例中，基于三维建模参数、投影参数和纹理参数，构建出标注对象的外观信息，即S1022的具体实现过程，可以包括：S1022a-S1022d，如下：

S1022a、基于三维建模参数，确定出标注对象的三维形状信息。

图像标注设备利用三维建模参数，针对标注对象进行三维形状的确定，从而得到标注对象的三维形状信息。可以理解的是，一些实施例中，三维建模参数可以包括形状参数、动作参数和表情参数，而在另一些实施例中，三维建模参数可以包括形状参数和表情参数。图像标注设备可以依据三维建模参数所包含的参数的类型，选择对应的运算基来进行运算，例如表情基、形状基等等，得到最终的三维形状信息。

S1022b、基于纹理参数，针对标注对象生成纹理信息。

图像标注设备利用纹理参数确定出标注对象所对应的纹理信息，其中，纹理信息是指三维形状信息所对应的外表，即需要在渲染时贴在三维形状信息(三维立体模型)表面的图像。纹理信息中包含了标注对象本身的外观，以及光源对于标注对象的影响，例如光源给标注对象造成的阴影区域、高亮区域等等。

S1022c、依据投影参数，确定出用于将三维形状信息投影到图像空间的投影模型。

图像标注设备利用预测出的投影参数，针对三维形状信息计算出对应的相机模型，该相机模型用于将三维形状信息投影到图像空间，从而，相机模型也就是投影模型。

可以理解的是，在一些实施例中，投影参数中可以包括缩放参数或平移参数，在另一些实施例中，投影参数中可以同时包括缩放参数和平移参数，从而，图像标注设备会根据投影参数中所包含的参数的种类，进行相对应的计算，得到最终的投影模型。

S1022d、对投影模型、三维形状信息和纹理信息进行可微分渲染，得到标注对象的外观信息。

最后，图像标注设备会对投影模型、三维形状信息和纹理信息同时输入进可微分渲染函数中，以进行可微分渲染，所得到的渲染结果就是标注对象的外观信息。

示例性的，当三维形状信息用M表示，纹理信息用I表示，投影模型用C表示时，图像标注设备会将这些参数输入到可微分渲染函数R(M,C,I)中进行运算，就能得到外观信息。

本申请实施例中，图像标注设备会分别基于三维建模参数、纹理参数和投影参数运算，以得到三维形状信息、纹理信息和投影模型，然后再基于三维形状信息、纹理信息和投影模型进行渲染，这样，就能够得到外观信息，以便于后续生成信息融合图像。

在本申请的一些实施例中，三维建模参数包括：形状参数、动作参数和表情参数，此时，基于三维建模参数，确定出标注对象的三维形状信息，即S1022a的具体实现过程，可以包括：S201-S202，如下：

S201、依据形状参数、动作参数和表情参数，对形状基、动作基、和表情基进行加权融合，得到标注对象的关键点的第一三维坐标。

图像标注设备将形状参数作为形状基的权重，将动作参数作为动作基的权重，将表情参数作为表情基的权重，进行加权求和，所得到的就是标注对象的关键点的第一三维坐标。

可以理解的是，形状基、动作基和表情基都是三维建模时的固有参数，在三维建模时，可以通过对形状基、动作基和表情基改变参数，来改变标注对象，例如人脸的年龄、肥胖的程度。

S202、基于第一三维坐标，构建出标注对象的三维形状信息。

图像标注设备得到第一三维坐标之后，就会将第一三维坐标进行连接，得到初始的形状信息，再针对初始的形状信息进行平滑处理，得到最终的三维形状信息。

本申请实施例中，图像标注设备能够基于形状参数、动作参数和表情参数确定出关键点的三维坐标，然后再基于三维坐标进行连接出三维形状信息，以便于后续基于三维形状信息进行外观信息的生成。

在本申请的一些实施例中，三维建模参数包括：形状参数和表情参数，基于三维建模参数，确定出标注对象的三维形状信息，即S1022a的具体实现过程，还可以包括：S203-S205，如下：

S203、依据形状参数和表情参数，对形状基和表情基进行加权融合，得到融合信息。

S204、将融合信息和预设形状信息进行融合，得到标注对象的关键点的第二三维坐标。

图像标注设备将形状参数作为形状基的权重，将表情参数作为表情基的权重，实现加权融合，得到融合信息，再将融合信息与预设形状信息进行叠加，就能够得到第二三维坐标。

示例性的，本申请实施例提供了第二三维坐标的计算公式，如式(1)所示：

其中，α是形状参数，B_id是形状基，可由主成分分析(Principal ComponentAnalysis，PCA)算法求得，β是表情参数，B_exp是表情基，可由PCA算法求得，是预设形状信息，S是第二三维坐标。

可以理解的是，预设形状信息可以表示不同对象的平均形状。例如不同的人脸的平均形状等等。预设形状信息可由对多个对象进行建模并取平均得到，这里的多个对象可以与标注对象不同。

S205、基于第二三维坐标，构建出标注对象的三维形状信息。

可以理解的是，该步骤的实现过程与S202的实现过程类似，在此不再赘述。

本申请实施例中，图像标注设备能够仅基于形状参数和表情参数确定出关键点的三维坐标，在对三维坐标连接出标注对象的三维形状信息，以便于后续生成融合图像信息。

在本申请的一些实施例中，基于纹理参数，针对标注对象生成纹理信息，即S1022b的具体实现过程，可以包括：S206-S207，如下：

S206、利用纹理参数预测出标注对象的纹理图像。

图像标注设备通过将纹理参数输入到纹理模型中进行运算，以利用纹理模型生成标注对象所对应的纹理图像。需要说明的是，此时的纹理图像，还没有进行光照的反射处理。

S207、针对纹理图像进行反射处理，得到标注对象的纹理信息。

接着，图像标注设备针对纹理图像进行针对光源的反射作用的叠加，从而得到带有光影变化的纹理信息。可以理解的是，光源可以是点光源模型，也可以是球谐光源模型，本申请在此不作限定。

示例性的，本申请实施例提供了计算纹理信息的公式，参见式(2)：

其中，A是指纹理模型，其参数形式为K(k)，k是纹理参数，N和l为球谐光照模型的固有参数，I为纹理信息。

本申请实施例中，图像标注设备会先从纹理参数中预测出不带光照影响的纹理图像，然后再针对纹理图像增加光照的反射影响，得到更加逼真的纹理信息。

在本申请的一些实施例中，投影参数包括：缩放参数和平移参数，此时，依据投影参数，确定出用于将三维形状信息投影到图像空间的投影模型，即1022c的具体实现过程，可以包括：S208-S209，如下：

S208、利用缩放参数对预设投影模型进行缩放调整，得到调整后的投影模型。

图像标注设备获取预设投影模型，例如缩放参数对预设投影模型进行缩小或放大处理，得到调整后的模型。

可以理解的是，预设投影模型可以是正交投影相机模型，也可以是透视投影相机模型，本申请在此不作限定。

S209、将调整后的投影模型与平移参数进行叠加，得到用于将三维形状信息投影到图像空间的投影模型。

接着，图像标注数据将调整后的模型和平移参数进行叠加，即将调整后的模型进行平移，就能够得到投影模型。

示例性的，本申请实施例提供了计算投影模型的公式，参见式(3)：

其中，s是缩放参数，是2×3的正交投影矩阵，即预设投影模型，t是平移参数，v_proj是投影模型，v是三维形状信息，即投影模型的输入。

本申请实施例中，图像标注设备能够利用缩放参数和平移参数对预设投影模型进行调整，以得到适用于标注对象的三维形状信息的投影模型。

继续参见图8，在本申请的一些实施例中，针对信息融合图像进行标注，得到待标注图像对应的标注信息，即S105的具体实现过程，可以包括：S1051-S1052，如下：

S1051、对信息融合图像进行特征抽取，得到待识别特征。

S1052、对待识别特征进行分类，得到待标注图像的标注信息。

图像标注设备从信息融合图像中抽取出待识别特征，然后再对待识别特征进行分类识别，得到类别信息，该类别信息即表明了标注对象的类型。最后，图像标注设备通过语义生成技术，将抽象的类别信息转换为标签文本，这样，就得到了待标注图像的标注信息。

本申请实施例中，图像标注设备能够基于对从信息融合图像中抽取出的特征进行分类，以识别出待识别图像所包含的标注对象的类型，再基于该类型生成标签文本，完成对待标注图像的标注过程。

在本申请的一些实施例中基于所述标注参考图像，对所述标注对象进行三维重建，得到所述标注对象的外观信息，即S102的具体实现过程，还可以包括：S102A，如下：

S102A、基于图像重建模型和标注参考图像，对标注对象进行三维重建，得的标注外观的所述外观信息。

即图像标注设备将标注参考图像输入进图像重建模型中，以利用图像重建模型预测出三维建模参数、投影参数和纹理参数等，在基于这些参数重建出标注对象的外观信息。

此时，在基于图像重建模型和所述标注参考图像，对所述标注对象进行三维重建，得的所述标注对象的所述外观信息之前，即在S102A之前，该方法还可以包括：S106-S108，如下：

S106、获取第一训练图像和初始重建模型。

需要说明的是，第一训练图像是训练标注对象未被遮挡的图像。

进一步的，初始重建模型可以是对参数初始化之后所得到的模型，也可以是进行无监督训练之后所得的模型，本申请实施例在此不作限定。

S107、利用初始重建模型，对训练标注对象进行三维重建，得到训练外观信息。

S108、基于训练外观信息与训练标注对象在第一训练图像中的真实外观之间的差异，对初始重建模型进行参数调整，直至达到训练结束条件时，得到图像重建模型，

图像标注设备利用初始重建模型，重建出训练标注对象的训练外观信息，然后再将训练标注对象在第一训练图像中的外观作为监督项，计算与训练外观信息之间的差异，并基于该差异对初始重建模型持续进行参数调整。如此循环往复，直到达到训练结束条件时，将所得到的模型确定为图像重建模型。

可以理解的是，训练结束条件可以是指训练时的迭代次数达到预设次数，例如达到10000次，或者是训练时的精度达到预设精度，例如达到99％等，本申请在此不作限定。

在本申请的一些实施例中，通过待标注图像，预测出标注对象的姿态参数，即S103的具体实现过程，可以包括：S103A，如下：

S103A、利用姿态预测模型，对待标注图像进行预测，得到标注对象的姿态参数。

即图像标注设备将待标注图像输入到姿态预测模型中，以利用姿态预测模型输出标注对象的姿态参数。

此时，在利用姿态预测模型，对待标注图像进行预测，得到标注对象的所述姿态参数之前，即在S103A之前，该方法还可以包括：S109-S113，如下：

S109、获取第二训练图像和初始预测模型。

需要说明的是，第二训练图像是训练标注对象被遮挡的图像。

S110、利用初始预测模型，预测出训练标注对象的训练姿态参数。

S111、从第二训练图像中，定位出遮挡物所在的遮挡图像区域。

图像标注设备可以通过图像识别模型，或者是模板匹配的方式，从第二训练图像中，定位出遮挡物所在的图像区域(例如口罩所在的区域)，并将该区域确定为遮挡图像区域。

S112、利用第二训练图像中除遮挡图像区域之外的其他区域，确定出真实姿态参数。

由于遮挡图像区域中姿态并不明确，即遮挡图像区域中并不存在真实的姿态参数，若是直接利用遮挡图像区域进行损失的计算时，难免会引入误差，使得在前向预测所生成的信息融合图像的颜色出现失真。因此，图像标注设备会利用除了遮挡图像区域之外的其他图像区域，分析出训练标注对象的真实姿态参数，以便于后续进行参数更新。

也就是说，本申请实施例中，遮挡图像区域不会参与对姿态预测模型的参数更新，这样，能够有效缓解遮颜色失真现象，从而得到更加精准的信息融合图像。

S113、基于训练姿态参数和真实姿态参数之间的差异，对初始预测模型进行参数调整，直到达到训练结束条件时，得到姿态预测模型。

本申请实施例中，图像标注设备会在训练姿态预测模型时，使得第二训练图像中的遮挡图像区域不参与损失计算，避免引入误差；同时将姿态预测模型单独进行训练，能够使得姿态预测模型的性能更好，从而预测出的姿态参数更加准确。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。

本申请实施例是在对被遮挡的人脸图像进行标注的场景下实现的，标注好的人脸数据能够广泛应用于视频图像处理、短视频编辑、视频通话等多种需要对人脸进行再编辑的场景中。

本申请实施例的思想是基于可微分渲染和人脸三维模型重建的相结合，预测出图像中(待标注图像)中被遮挡的人脸(标注对象)部分的情形，并依据预测出的情形进行标注的。

首先，可以基于深度神经网络，例如3DMM人脸模型重建出人脸模型。3DMM人脸模型由许多三维顶点和三角关系构成，其公式可如式(1)所示。进一步的，还可以利用FLAME模型来对人脸进行建模。FLAME模型是由5023个顶点构成，其顶点坐标(第一三维坐标)可由参数公式M(α,θ,β)计算得到。其中，α是形状参数，θ是pose参数(动作参数)，β是表情参数。

针对给定的一张人脸图片(标注参考图像)，FLAME模型会预测出该人脸的形状参数、pose参数和表情参数，再通过M函数就能够重建出该人脸的3D网格模型(三维形状信息)。

在可微分渲染时，监督数据就是人脸图片，损失函数时像素损失函数，可微分渲染函数表示为R(M,C,I)，其中，M是3D网格模型，C是相机模型(投影模型)，I是光照模型(纹理信息)。其中，相机模型采用的是正交投影相机，其会将3D网格模型投影到图像空间，公式可如(3)所示。I是光照模型，表示的是叠加了光照的纹理图片(纹理信息)，此时的反射可以为Lambertian反射，从而光照模型的公式可以如(2)。

光照模型决定了顶点的像素值，M函数则会决定顶点的位置，从而通过可微分渲染可以得到预测的人脸图片。

示例性的，图9是本申请实施例提供的基于可微分渲染预测人脸图片的过程示意图。首先，将未遮挡的人脸图片9-1(标注参考图像)输入到参数预测模型9-2中，分别预测出参数α、θ、β、k、S和t，然后将α、θ、β输入到FLAME模型9-3中，以建模出3D网格模型9-4(三维形状信息)，将k输入到纹理模型9-5中，以生成纹理图片9-6(纹理信息)，然后再结合参数S和t，对3D网格模型9-4和纹理图片9-6进行可微分渲染9-7，得到重建人脸(外观信息)9-8，最后基于重建人脸9-8和人脸图片9-1计算损失9-9，以对模型进行参数调整。

在按照图9对遮挡图片进行训练时，可以先利用人脸遮挡分割模型预测被遮挡区域(遮挡图像区域)，被遮挡区域不会计算像素损失，这样可以有效缓解颜色生成偏黑的问题；并且当训练数据中有超大数据的遮挡时，针对姿态进行L2损失，即仅训练姿态模型(姿态预测模型)的参数。这是由于本申请实施例专注的是遮挡时候的标注，并不需要非常精准的人脸形状重建，但是需要较准的姿态，并且结合平均形状也可以达到遮挡标注的目的。在训练完成之后，进入推理阶段时，针对正脸无遮挡图片进行三维人脸重建，获取其网格和纹理(外观信息)，再对遮挡的图片预测其姿态参数，将两者的姿态参数进行交换，得到拥有遮挡的图片人脸姿态的无遮挡人脸(信息融合图像)，再做一个alpha融合即可得到待标注的图。

可以理解的是，在本申请实施例中，涉及到用户信息、用户人脸等相关的数据，当本申请实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

下面继续说明本申请实施例提供的图像标注装置255的实施为软件模块的示例性结构，在一些实施例中，如图2所示，存储在存储器250的图像标注装置255中的软件模块可以包括：

图像获取模块2551，用于获取待标注图像和标注参考图像；其中，所述待标注图像是标注对象被遮挡的图像，所述标注参考图像是所述标注对象未被遮挡的图像；

三维重建模块2552，用于基于所述标注参考图像，对所述标注对象进行三维重建，得到所述标注对象的外观信息；

姿态预测模块2553，用于通过所述待标注图像，预测出所述标注对象的姿态参数；

信息融合模块2554，用于基于所述姿态参数，将所述外观信息融合至所述待标注图像，得到信息融合图像；所述信息融合图像提供了所述标注对象被遮挡部分的外观；

图像标注模块2555，用于针对所述信息融合图像进行标注，得到所述待标注图像对应的标注信息。

在本申请的一些实施例中，所述信息融合模块2554，还用于利用所述姿态参数，对所述外观信息进行姿态调整，得到调整后的外观信息；将所述调整后的外观信息与所述待标注图像进行融合，得到所述信息融合图像。

在本申请的一些实施例中，所述三维重建模块2552，还用于对所述标注参考图像进行参数预测，得到三维建模参数、投影参数和纹理参数；基于所述三维建模参数、所述投影参数和所述纹理参数，构建出所述标注对象的所述外观信息。

在本申请的一些实施例中，所述三维重建模块2552，还用于基于所述三维建模参数，确定出所述标注对象的三维形状信息；基于所述纹理参数，针对所述标注对象生成纹理信息；依据所述投影参数，确定出用于将所述三维形状信息投影到图像空间的投影模型；对所述投影模型、所述三维形状信息和所述纹理信息进行可微分渲染，得到所述标注对象的所述外观信息。

在本申请的一些实施例中，所述三维建模参数包括：形状参数、动作参数和表情参数；所述三维重建模块2552，还用于依据所述形状参数、所述动作参数和所述表情参数，对形状基、动作基、和表情基进行加权融合，得到所述标注对象的关键点的第一三维坐标；基于所述第一三维坐标，构建出所述标注对象的所述三维形状信息。

在本申请的一些实施例中，所述三维建模参数包括：形状参数和表情参数；所述三维重建模块2552，还用于依据所述形状参数和所述表情参数，对形状基和表情基进行加权融合，得到融合信息；将所述融合信息和预设形状信息进行融合，得到所述标注对象的关键点的第二三维坐标；基于所述第二三维坐标，构建出所述标注对象的所述三维形状信息。

在本申请的一些实施例中，所述三维重建模块2552，还用于利用所述纹理参数预测出所述标注对象的纹理图像；针对所述纹理图像进行反射处理，得到所述标注对象的所述纹理信息。

在本申请的一些实施例中，所述投影参数包括：缩放参数和平移参数；所述三维重建模块2552，还用于利用所述缩放参数对预设投影模型进行缩放调整，得到调整后的模型；将所述调整后的模型与所述平移参数进行叠加，得到用于将所述三维形状信息投影到图像空间的所述投影模型。

在本申请的一些实施例中，所述三维重建模块2552，还用于对所述信息融合图像进行特征抽取，得到待识别特征；对所述待识别特征进行分类，得到所述待标注图像的所述标注信息。

在本申请的一些实施例中，所述三维重建模块2552，还用于基于图像重建模型和所述标注参考图像，对所述标注对象进行三维重建，得的所述标注对象的所述外观信息；

所述图像标注设备255还包括：模型训练模块2556；所述模型训练模块2556，用于在基于图像重建模型和所述标注参考图像，对所述标注对象进行三维重建，得的所述标注对象的所述外观信息之前，获取第一训练图像和初始重建模型；其中，所述第一训练图像是训练标注对象未被遮挡的图像；利用所述初始重建模型，对所述训练标注对象进行三维重建，得到训练外观信息；基于所述训练外观信息和所述训练标注对象在所述第一训练图像中的真实外观之间的差异，对所述初始重建模型进行参数调整，直至达到训练结束条件时，得到所述图像重建模型。

在本申请的一些实施例中，所述姿态预测模块2554，还用于利用姿态预测模型，对所述待标注图像进行预测，得到所述标注对象的所述姿态参数；

所述模型训练模块2556，还用于在利用姿态预测模型，对所述待标注图像进行预测，得到所述标注对象的所述姿态参数之前，获取第二训练图像和初始预测模型；其中，所述第二训练图像是训练标注对象被遮挡的图像；利用所述初始预测模型，预测出所述训练标注对象的训练姿态参数；从所述第二训练图像中，定位出遮挡物所在的遮挡图像区域；利用所述第二训练图像中除所述遮挡图像区域之外的其他图像区域，确定出真实姿态参数；基于所述训练姿态参数和所述真实姿态参数之间的差异，对所述初始预测模型进行参数调整，直到达到训练结束条件时，得到所述姿态预测模型。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例上述的图像标注方法。

本申请实施例提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的图像标注方法，例如，如图3示出的图像标注方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备(图像标注设备)上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

综上所述，通过本申请实施例图像标注设备能够基于标注参考图像重建出标注对象完整的外观信息，并基于从待标注图像中预测出的标注对象的姿态参数，将外观信息和待标注图像进行融合，以使得待标注图像中标注对象被遮挡的部分，也能够具有相应的外观，即实现利用未被遮挡的标注对象，猜测出标注对象被遮挡的部分的外观，从而使得待标注图像中的标注对象的外观被补充完整，并利用完整的外观来进行标注，能够提升对有遮挡图像的标注的准确度，也就提升了图像标注的质量。同时，图像标注设备是自动进行分析标注的，相比于人工标注，还能够提高图像标注的效率。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种图像标注方法，其特征在于，所述图像标注方法包括：

通过所述待标注图像，预测出所述标注对象的姿态参数；

2.根据权利要求1所述的方法，其特征在于，所述基于所述姿态参数，将所述外观信息融合至所述待标注图像，得到信息融合图像，包括：

利用所述姿态参数，对所述外观信息进行姿态调整，得到调整后的外观信息；

将所述调整后的外观信息与所述待标注图像进行融合，得到所述信息融合图像。

3.根据权利要求1或2所述的方法，其特征在于，所述基于所述标注参考图像，对所述标注对象进行三维重建，得到所述标注对象的外观信息，包括：

对所述标注参考图像进行参数预测，得到三维建模参数、投影参数和纹理参数；

基于所述三维建模参数、所述投影参数和所述纹理参数，构建出所述标注对象的所述外观信息。

4.根据权利要求3所述的方法，其特征在于，所述基于所述三维建模参数、所述投影参数和所述纹理参数，构建出所述标注对象的所述外观信息，包括：

基于所述三维建模参数，确定出所述标注对象的三维形状信息；

基于所述纹理参数，针对所述标注对象生成纹理信息；

依据所述投影参数，确定出用于将所述三维形状信息投影到图像空间的投影模型；

对所述投影模型、所述三维形状信息和所述纹理信息进行可微分渲染，得到所述标注对象的所述外观信息。

5.根据权利要求4所述的方法，其特征在于，所述三维建模参数包括：形状参数、动作参数和表情参数；所述基于所述三维建模参数，确定出所述标注对象的三维形状信息，包括：

依据所述形状参数、所述动作参数和所述表情参数，对形状基、动作基、和表情基进行加权融合，得到所述标注对象的关键点的第一三维坐标；

基于所述第一三维坐标，构建出所述标注对象的所述三维形状信息。

6.根据权利要求4所述的方法，其特征在于，所述三维建模参数包括：形状参数和表情参数；所述基于所述三维建模参数，确定出所述标注对象的三维形状信息，包括：

依据所述形状参数和所述表情参数，对形状基和表情基进行加权融合，得到融合信息；

将所述融合信息和预设形状信息进行融合，得到所述标注对象的关键点的第二三维坐标；

基于所述第二三维坐标，构建出所述标注对象的所述三维形状信息。

7.根据权利要求4所述的方法，其特征在于，所述基于所述纹理参数，针对所述标注对象生成纹理信息，包括：

利用所述纹理参数预测出所述标注对象的纹理图像；

针对所述纹理图像进行反射处理，得到所述标注对象的所述纹理信息。

8.根据权利要求4所述的方法，其特征在于，所述投影参数包括：缩放参数和平移参数；所述依据所述投影参数，确定出用于将所述三维形状信息投影到图像空间的投影模型，包括：

利用所述缩放参数对预设投影模型进行缩放调整，得到调整后的模型；

将所述调整后的模型与所述平移参数进行叠加，得到用于将所述三维形状信息投影到图像空间的所述投影模型。

9.根据权利要求1或2所述的方法，其特征在于，所述针对所述信息融合图像进行标注，得到所述待标注图像对应的标注信息，包括：

对所述信息融合图像进行特征抽取，得到待识别特征；

对所述待识别特征进行分类，得到所述待标注图像的所述标注信息。

10.根据权利要求1或2所述的方法，其特征在于，所述基于所述标注参考图像，对所述标注对象进行三维重建，得到所述标注对象的外观信息，包括：

基于图像重建模型和所述标注参考图像，对所述标注对象进行三维重建，得的所述标注对象的所述外观信息；

所述基于图像重建模型和所述标注参考图像，对所述标注对象进行三维重建，得的所述标注对象的所述外观信息之前，所述方法还包括：

获取第一训练图像和初始重建模型；其中，所述第一训练图像是训练标注对象未被遮挡的图像；

利用所述初始重建模型，对所述训练标注对象进行三维重建，得到训练外观信息；

基于所述训练外观信息和所述训练标注对象在所述第一训练图像中的真实外观之间的差异，对所述初始重建模型进行参数调整，直至达到训练结束条件时，得到所述图像重建模型。

11.根据权利要求1或2所述的方法，其特征在于，所述通过所述待标注图像，预测出所述标注对象的姿态参数，包括：

利用姿态预测模型，对所述待标注图像进行预测，得到所述标注对象的所述姿态参数；

所述利用姿态预测模型，对所述待标注图像进行预测，得到所述标注对象的所述姿态参数之前，所述方法还包括：

获取第二训练图像和初始预测模型；其中，所述第二训练图像是训练标注对象被遮挡的图像；

利用所述初始预测模型，预测出所述训练标注对象的训练姿态参数；

从所述第二训练图像中，定位出遮挡物所在的遮挡图像区域；

利用所述第二训练图像中除所述遮挡图像区域之外的其他图像区域，确定出真实姿态参数；

基于所述训练姿态参数和所述真实姿态参数之间的差异，对所述初始预测模型进行参数调整，直到达到训练结束条件时，得到所述姿态预测模型。

12.一种图像标注装置，其特征在于，所述图像标注装置包括：

13.一种图像标注设备，其特征在于，所述图像标注设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至11任一项所述的图像标注方法。

14.一种计算机可读存储介质，存储有可执行指令，其特征在于，所述可执行指令被处理器执行时实现权利要求1至11任一项所述的图像标注方法。

15.一种计算机程序产品，包括计算机程序或指令，其特征在于，所述计算机程序或指令被处理器执行时实现权利要求1至11任一项所述的图像标注方法。