CN111368853A

CN111368853A - 一种标签的构建方法、系统、装置及存储介质

Info

Publication number: CN111368853A
Application number: CN202010079900.5A
Authority: CN
Inventors: 王伦基; 叶俊杰; 李�权; 黄桂芳; 任勇; 韩蓝青
Original assignee: CYAGEN BIOSCIENCES (GUANGZHOU) Inc; Research Institute Of Tsinghua Pearl River Delta
Current assignee: CYAGEN BIOSCIENCES (GUANGZHOU) Inc; Research Institute Of Tsinghua Pearl River Delta
Priority date: 2020-02-04
Filing date: 2020-02-04
Publication date: 2020-07-03

Abstract

本发明公开了一种用于训练模型的标签构建方法、系统、装置及存储介质，通过对人物图像进行标签提取，将复杂的人物图像，简化为关键点二维坐标或二维掩码，用于训练生成对抗神经网络模型(GAN模型)；通过简单地修改关键点的坐标位置，或者二维掩码形状，就可以生成不同的标签图像，输入训练好的生成对抗神经网络模型，即可生成与标签对应的人物图像，再进一步合成视频，极大地简化了人物视频合成的操作过程，提高工作效率；后续也可根据实际生成需求，添加新的标签为限制条件，并将标签及与标签对应的真实图像送入生成对抗网络模型中进行训练，最终能通过拓展条件生成对应的真实图像。本发明广泛应用于图像处理技术领域。

Description

一种标签的构建方法、系统、装置及存储介质

技术领域

本发明涉及图像处理技术领域，尤其是一种用于训练模型的标签的构建方法、系统、装置及存储介质。

背景技术

现有的虚拟人物视频合成方法往往是通过获取多帧图像，分别在多帧图像中识别人物以及人物的骨骼关键点等操作进行视频合成，该方法需要建立训练模型，并需要通过人工对用于输入模型的图像进行一一标注，以训练好模型，操作起来繁琐复杂，且需要工作人员有高水平的图像处理能力，工作量大，工作效率低。

发明内容

为解决上述至少一个问题，本发明的目的在于提供一种用于训练模型的标签的构建方法、系统、装置及存储介质。

本发明所采取的技术方案是：一方面，本发明实施例包括一种用于训练模型的标签构建方法，包括：

获取用于训练模型的人物图像样本；

对所述人物图像样本进行关键点检测，提取得到多组关键点坐标；

对所述人物图像样本进行图像分割，提取得到多组二维掩码；

将所述多组关键点坐标与多组二维掩码进行组合，构建成标签。

进一步地，对所述人物图像样本进行关键点检测，提取得到多组二维点坐标数据这一步骤，具体包括：

利用深度神经网络对所述图像进行区域检测，所述区域包括人脸区域、身体区域；

在检测到的人脸区域中，进一步检测各器官关键点，并得到各器官对应的关键点坐标；

在检测到的身体区域中，进一步检测身体各结构的关键点，并得到身体各结构对应的关键点坐标；

提取各器官对应的关键点坐标和身体各结构对应的关键点坐标，得到多组关键点坐标。

进一步地，对所述人物图像标本进行图像分割，提取得到多组二维掩码数据这一步骤，具体包括：

扫描所述人物图像样本以找出目标存在的区域；

采用区域建议网络生成相应的提议；

对所述提议进行感兴趣区域分类，并生成边界框和掩码，所述边界框用于标出所述目标，所述掩码用于标识所述目标的范围；

提取得到多组二维掩码。

进一步地，所述图像分割包括服饰分割和头部分割；

所述服饰分割用于对人物图像标本中的人物服饰进行分割，以获取衣服的二维掩码和/或领带的二维掩码；

所述头部分割用于对人物图像标本中的人物头部进行分割，以获取人物头部的二维掩码。

另一方面，本发明实施例还包括一种生成对抗网络模型的训练方法，包括以下步骤：

使用所述标签构建方法构建第一标签；

构建训练集，所述训练集由人物图像样本和第一标签组成，所述第一标签为根据所述人物图像样本构建得到；

获取所述训练集以对生成对抗网络模型进行训练；

对所述第一标签进行修改，得到多个互不相同的第二标签；

生成对抗网络模型获取所述第二标签；

检测生成对抗网络模型是否输出与第二标签对应的图像。

进一步地，对所述第一标签进行修改，得到多个互不相同的第二标签这一步骤，具体包括：

获取第一标签中包含的关键点坐标和二维掩码；

修改所述关键点坐标位置和/或修改所述二维掩码的形状；

将修改后的关键点坐标和/或二维掩码重新组合，得到多个互不相同的第二标签。

另一方面，本发明实施例还包括一种图像处理方法，包括以下步骤：

获取第一图像，所述第一图像为带有标签限制条件的图像，所述限制条件包括人脸轮廓、人体关键点骨架、人体轮廓、头部轮廓和背景；

利用经过所述训练方法训练好的生成对抗网络模型接收所述第一图像并进行处理，以输出第二图像，所述第二图像为与限制条件对应的真实图像。

另一方面，本发明实施例还包括一种用于训练模型的标签构建系统，包括：

获取模块，用于获取用于训练模型的人物图像样本；

关键点检测模块，用于对所述人物图像样本进行关键点检测，提取得到多组关键点坐标；

图像分割模块，用于对所述人物图像样本进行图像分割，提取得到多组二维掩码；

构建模块，用于将所述多组关键点坐标与多组二维掩码进行组合，构建成标签。

另一方面，本发明实施例还包括一种用于训练模型的标签构建装置，包括处理器和存储器，其中，

所述存储器用于存储程序指令；

所述处理器用于读取所述存储器中的程序指令，并根据所述存储器中的程序指令执行实施例所述用于训练模型的标签构建方法。

另一方面，本发明实施例还包括一种计算机可读存储介质，其中，

计算机可读存储介质上存储有计算机程序，在所述计算机程序被处理器执行时，执行实施例所述用于训练模型的标签构建方法。

本发明的有益效果是：本发明实施例通过对人物图像进行标签提取，将复杂的人物图像，简化为关键点二维坐标或二维掩码，用于训练生成对抗神经网络模型(GAN模型)；通过简单地修改关键点的坐标位置，或者二维掩码形状，就可以生成不同的标签图像，输入训练好的生成对抗神经网络模型，即可生成与标签对应的人物图像，再进一步合成视频，极大地简化了人物视频合成的操作过程，提高工作效率；后续也可根据实际生成需求，添加新的标签为限制条件，并将标签及与标签对应的真实图像送入生成对抗网络模型中进行训练，最终能通过拓展条件生成对应的真实图像。

附图说明

图1为本发明实施例中所述用于训练模型的标签构建方法的流程图；

图2为本发明实施例中所述人脸关键点检测到的68个关键点的示意图；

图3为本发明实施例中所述用于训练模型的标签构建系统的结构示意图；

图4为本发明实施例中的所述的用于训练模型的标签构建装置的结构示意图。

具体实施方式

实施例1

图1是本发明实施例中所述用于训练模型的标签构建方法的流程图，如图1所示，该方法包括以下步骤：

S1.获取用于训练模型的人物图像样本；

S2.对所述人物图像样本进行关键点检测，提取得到多组关键点坐标；

S3.对所述人物图像样本进行图像分割，提取得到多组二维掩码；

S4.将所述多组关键点坐标与多组二维掩码进行组合，构建成标签。

本实施例中，所述步骤S2，也就是对所述人物图像样本进行关键点检测，提取得到多组关键点坐标这一步骤，是由以下步骤组成的：

S201.利用深度神经网络对所述图像进行区域检测，所述区域包括人脸区域、身体区域；

S202.在检测到的人脸区域中，进一步检测各器官关键点，并得到各器官对应的关键点坐标；

S203.在检测到的身体区域中，进一步检测身体各结构的关键点，并得到身体各结构对应的关键点坐标；

S204.提取各器官对应的关键点坐标和身体各结构对应的关键点坐标，得到多组关键点坐标。

本实施例中，所述步骤S3，也就是对所述人物图像样本进行图像分割，提取得到多组二维掩码这一步骤，是由以下步骤组成的：

S301.扫描所述人物图像样本以找出目标存在的区域；

S302.采用区域建议网络生成相应的提议；

S303.对所述提议进行感兴趣区域分类，并生成边界框和掩码，所述边界框用于标出所述目标，所述掩码用于标识所述目标的范围；

S304.提取得到多组二维掩码。

本实施例中，关于人脸关键点的检测及处理具体为：(1)在图片中检测人脸的区域；(2)在检测到的人脸区域中，进一步检测各器官(眼睛、眉毛、鼻子、嘴巴、轮廓)，获得68个人脸关键点xy坐标，二维数组(68*2)；(3)将各个器官的点用直线连接起来。具体参照图2，人脸关键点检测到的68个关键点的示意图，其中，关键点1-17，18-22，23-27，28-31，32-36，37-42，37和42，43-48，43和48，49-60，49和60，61-68，61和68分别连接；最终得到包含人脸轮廓的标签；也就是说，如果要获取人脸轮廓为限制条件的标签，只需对人物图像中的人脸区域进行关键点检测便可得到。

同样地，关于人体上半身关键点的检测采用深度神经网络进行关键点检测，模型架构是自底向上的，先识别出关键点和关节域，然后通过算法组合成个体的姿势图；其具体步骤如下：

步骤一：检测出所有关键点，包括头部，肩膀，手肘，手腕等的关键点；

步骤二：检测出所有关联区域；

步骤三：根据关键点和关联区域进行矢量连接，其具体为依据关联区域将关键点连接以组成人体真正的骨骼结构；

步骤四：获得人体上半身所有关键点xy坐标，本实施例中检测到10个关键点坐标，其二维数组为(10*2)；

步骤五：将各个关键点用直线连接起来。

按照上述步骤，可得到人体上半身轮廓为限制条件的标签。

同样地，关于手部关键点检测，同样采用的是深度神经网络，本实施例中，单手检测得到21个关键点，双手共检测得到42个关键点；获得两只手的关键点坐标，一个三维数组(2*21*2)，分别进行连接，得到手部轮廓为限制条件的标签。

本实施例中，所述的图像分割是采用Mask RCNN深度神经网路进行图像分割，其具体操作如下：

步骤一：扫描图像并生成提议(proposals，即有可能包含一个目标的区域。采用ResNet101卷积神经网络作为特征提取器，并引入特征金字塔网络(FPN)对该主干网络进行扩展(即ResNet101+FPN)，从而可以在多个尺度上更好地表征目标；生成提议采用了区域建议网络(RPN)，一个轻量的神经网络，它用滑动窗口来扫描图像，并寻找存在目标的区域。

步骤二：分类提议并生成边界框和掩码。首先对区域建议网络提出的提议进行ROI分类(region of interest，感兴趣区域)，并进行边框精调，最后采用了一个卷积神经网络，取ROI分类器选择的正区域作为输入，并生成他们的掩码，实现图像分割。

本实施例中，所述所述图像分割包括服饰分割和头部分割；

所述头部分割用于对人物图像标本中的人物头部进行分割，以获取人物头部的二维掩码；

其中，服饰分割的操作为：对人物图像中的人物进行衣服和领带的识别，利用矩形框框出衣服，掩码标识出衣服的范围，从而获取衣服的二维掩码；利用矩形框框出领带，掩码标识出领带的范围，从而获取领带的二维掩码。本实施例中，当人物图像中的人物头部转到背面的时候，人脸关键点检测无法检测到关键点；当目标人头部转到侧面的时候，人脸关键点检测只能检测到部分的关键点；此时，采用头部分割的方法，将人体头部标识出来，获取人物头部的二维掩码。

本实施例中，针对不同场景，根据关键点检测和图像分割，采用不同的组合形式，定制了两套标签体系。标签体系为一个二维数组存储结果，维度为(1024，1024)，值为0,1,2,3...，不同值代表不同的标签。标签可以是人脸关键点坐标、人体关键点坐标和手部关键点坐标、不同服饰的掩码、头部掩码或是它们的组合。并且，标签体系可以根据实际场景，增删或定义标签。例如，一个主播形式的标签体系，此时人物图像为主播图像，从主播图像中检测出主播人脸关键点，并进行连线；采用服饰分割，获得衣服和领带的掩码，并用不同的值存放；同样地，如果是演讲形式的标签体系，从人物图像中检测出人脸、人体和手部关键点，并分别进行连线；采用头部分割，获得头部的掩码，并用不同的值存放；此时，需要注意的是，当检测不到人脸关键点时，即判断人物图像中的目标人头部转到背面，此时显示头部掩码，检测到的人体关键点为人体正背面的关键点，根据人体关键点检测的正背面标识，给人体和手部关键点连线，并用不同的值存放。

实施例2

本发明实施例还包括一种生成对抗网络模型的训练方法，包括以下步骤：

P1.使用实施例1所述标签构建方法构建第一标签；

P2.构建训练集，所述训练集由人物图像样本和第一标签组成，所述第一标签为根据所述人物图像样本构建得到；

P3.获取所述训练集以对生成对抗网络模型进行训练；

P4.对所述第一标签进行修改，得到多个互不相同的第二标签；

P5.生成对抗网络模型获取所述第二标签；

P6.检测生成对抗网络模型是否输出与第二标签对应的图像。

本实施例中，步骤P4，也就是对所述第一标签进行修改，得到多个互不相同的第二标签这一步骤，具体包括：

P401.获取第一标签中包含的关键点坐标和二维掩码；

P402.修改所述关键点坐标位置和/或修改所述二维掩码的形状；

P403.将修改后的关键点坐标和/或二维掩码重新组合，得到多个互不相同的第二标签。

实施例3

本发明实施例还包括一种图像处理方法，包括以下步骤：

D1.获取第一图像，所述第一图像为带有标签限制条件的图像，所述限制条件包括人脸轮廓、人体关键点骨架、人体轮廓、头部轮廓和背景；

D2.利用经过实施例2所述训练方法训练好的生成对抗网络模型接收所述第一图像并进行处理，以输出第二图像，所述第二图像为与限制条件对应的真实图像。

综上所述，本发明实施例中的用于训练模型的标签构建方法具有以下优点：

通过对人物图像进行标签提取，将复杂的人物图像，简化为关键点二维坐标或二维掩码，用于训练生成对抗神经网络模型(GAN模型)；通过简单地修改关键点的坐标位置，或者二维掩码形状，就可以生成不同的标签图像，输入训练好的生成对抗神经网络模型，即可生成与标签对应的人物图像，再进一步合成视频，极大地简化了人物视频合成的操作过程，提高工作效率；后续也可根据实际生成需求，添加新的标签为限制条件，并将标签及与标签对应的真实图像送入生成对抗网络模型中进行训练，最终能通过拓展条件生成对应的真实图像。

参照图3，本发明实施例还包括一种用于训练模型的标签构建系统，包括：

获取模块，用于获取用于训练模型的人物图像样本；

其中各个模块分别是指具有相同功能的硬件模块、软件模块或者硬件模块与软件模块的组合。不同的模块之间可能共用相同的硬件或软件单元。

所述用于训练模型的标签构建系统可以是服务器或者个人计算机等设备，通过将所述一种用于训练模型的标签构建方法编写成计算机程序并写入服务器或者个人计算机中，可以得到所述一种用于训练模型的标签构建的系统，通过运行该系统，可以实现与所述一种用于训练模型的标签构建的方法相同的技术效果。

图4为本发明实施例提供的一种用于训练模型的标签构建装置的结构示意图，请参见图3所示，该装置60可以包括处理器601和存储器602。其中，

存储器602用于存储程序指令；

处理器601用于读取存储器602中的程序指令，并根据存储器602中的程序指令执行实施例1所示的用于训练模型的标签构建方法。

所述存储器还可以单独生产出来，并用于存储与所述一种虚拟人物表情动作提取方法相应的计算机程序。当这个存储器与处理器连接时，其存储的计算机程序将被处理器读取出来并执行，从而实施所述虚拟人物表情动作提取方法，达到实施例中所述的技术效果。

本实施例还包括一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，在所述计算机程序被处理器执行时，执行实施例1所示的用于训练模型的标签构建方法。

需要说明的是，如无特殊说明，当某一特征被称为“固定”、“连接”在另一个特征，它可以直接固定、连接在另一个特征上，也可以间接地固定、连接在另一个特征上。此外，本公开中所使用的上、下、左、右等描述仅仅是相对于附图中本公开各组成部分的相互位置关系来说的。在本公开中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。此外，除非另有定义，本实施例所使用的所有的技术和科学术语与本技术领域的技术人员通常理解的含义相同。本实施例说明书中所使用的术语只是为了描述具体的实施例，而不是为了限制本发明。本实施例所使用的术语“和/或”包括一个或多个相关的所列项目的任意的组合。

应当理解，尽管在本公开可能采用术语第一、第二、第三等来描述各种元件，但这些元件不应限于这些术语。这些术语仅用来将同一类型的元件彼此区分开。例如，在不脱离本公开范围的情况下，第一元件也可以被称为第二元件，类似地，第二元件也可以被称为第一元件。本实施例所提供的任何以及所有实例或示例性语言(“例如”、“如”等)的使用仅意图更好地说明本发明的实施例，并且除非另外要求，否则不会对本发明的范围施加限制。

应当认识到，本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现，其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而，若需要，该程序可以以汇编或机器语言实现。在任何情况下，该语言可以是编译或解释的语言。此外，为此目的该程序能够在编程的专用集成电路上运行。

此外，可按任何合适的顺序来执行本实施例描述的过程的操作，除非本实施例另外指示或以其他方式明显地与上下文矛盾。本实施例描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行，并且可作为共同地在一个或多个处理器上执行的代码(例如，可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。

进一步，所述方法可以在可操作地连接至合适的任何类型的计算平台中实现，包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现，无论是可移动的还是集成至计算平台，如硬盘、光学读取和/或写入存储介质、RAM、ROM等，使得其可由可编程计算机读取，当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外，机器可读代码，或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时，本实施例所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时，本发明还包括计算机本身。

计算机程序能够应用于输入数据以执行本实施例所述的功能，从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中，转换的数据表示物理和有形的对象，包括显示器上产生的物理和有形对象的特定视觉描绘。

以上所述，只是本发明的较佳实施例而已，本发明并不局限于上述实施方式，只要其以相同的手段达到本发明的技术效果，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。在本发明的保护范围内其技术方案和/或实施方式可以有各种不同的修改和变化。

Claims

1.一种用于训练模型的标签构建方法，其特征在于，包括：

获取用于训练模型的人物图像样本；

2.根据权利要求1所述的一种用于训练模型的标签构建方法，其特征在于，对所述人物图像样本进行关键点检测，提取得到多组二维点坐标数据这一步骤，具体包括：

3.根据权利要求1所述的一种用于训练模型的标签构建方法，其特征在于，对所述人物图像标本进行图像分割，提取得到多组二维掩码数据这一步骤，具体包括：

扫描所述人物图像样本以找出目标存在的区域；

采用区域建议网络生成相应的提议；

提取得到多组二维掩码。

4.根据权利要求3所述的一种用于训练模型的标签构建方法，其特征在于，所述图像分割包括服饰分割和头部分割；

5.一种生成对抗网络模型的训练方法，其特征在于，包括以下步骤：

使用权利要求1-4任一项所述标签构建方法构建第一标签；

获取所述训练集以对生成对抗网络模型进行训练；

对所述第一标签进行修改，得到多个互不相同的第二标签；

生成对抗网络模型获取所述第二标签；

检测生成对抗网络模型是否输出与第二标签对应的图像。

6.根据权利要求5所述的一种生成对抗网络模型的训练方法，其特征在于，对所述第一标签进行修改，得到多个互不相同的第二标签这一步骤，具体包括：

获取第一标签中包含的关键点坐标和二维掩码；

修改所述关键点坐标位置和/或修改所述二维掩码的形状；

7.一种图像处理方法，其特征在于，包括以下步骤：

利用经过权利要求5或6所述训练方法训练好的生成对抗网络模型接收所述第一图像并进行处理，以输出第二图像，所述第二图像为与限制条件对应的真实图像。

8.一种用于训练模型的标签构建系统，其特征在于，包括：

获取模块，用于获取用于训练模型的人物图像样本；

9.一种用于训练模型的标签构建装置，其特征在于，包括处理器和存储器，其中，

所述存储器用于存储程序指令；

所述处理器用于读取所述存储器中的程序指令，并根据所述存储器中的程序指令执行权利要求1～4任一项所示的用于训练模型的标签构建方法。

10.一种计算机可读存储介质，其特征在于，

计算机可读存储介质上存储有计算机程序，在所述计算机程序被处理器执行时，执行权利要求1～4任一项所示的用于训练模型的标签构建方法。