CN115053263A

CN115053263A - 使用人工智能的虚拟脸部生成方法及装置

Info

Publication number: CN115053263A
Application number: CN202180012895.9A
Authority: CN
Inventors: 金汉彬
Original assignee: Sriniworth Co ltd
Current assignee: Sriniworth Co ltd
Priority date: 2020-11-18
Filing date: 2021-11-15
Publication date: 2022-09-13
Also published as: WO2022108275A1; KR102395083B1; JP2023552251A; US20230343006A1

Abstract

本发明涉及使用人工智能的虚拟脸部生成方法及装置，包括如下的步骤：从虚拟脸部生成装置接收多个脸部源数据和至少一个脸部背景数据并通过深度学习来执行对于推论脸部与实际脸部的比较及学习；以及接收一个脸部背景数据并通过经上述比较及学习的模型来生成由从多个上述脸部源数据推论的脸部与上述一个脸部背景数据的特征合成而成的虚拟脸部数据。

Description

使用人工智能的虚拟脸部生成方法及装置

技术领域

本发明的实施例涉及使用人工智能技术来始终生成世界上不存在的虚拟人物的使用人工智能的虚拟脸部生成方法及装置。

背景技术

使用人工智能的脸部生成技术在生成高分辨率的实际脸部方面表现出高度的发展。最近，在多种内容中所使用的脸部合成技术给予人们提供多种内容的机会，但频繁出现合成特定人物脸部的技术被合成到淫秽作品、假新闻等被恶用的事例。并且，即使没有恶用地以良好的目的对特定人物进行合成，也有可能导致对于上述特定人物的肖像权的问题。因此，合成实际存在的人物的技术具有风险较大的问题。

上述背景技术是本发明人为了导出本发明而保留的或者是在导出本发明的过程中学习的技术信息，在申请本发明之前，不一定是向公众公开的公知技术。

发明内容

发明要解决的技术问题

用于解决现有技术的问题的本发明一实施例提供使用人工智能技术来始终生成世界上不存在的虚拟人物的使用人工智能的虚拟脸部生成方法及装置。

本发明的另一实施例提供使用作为人工智能的一个领域的深度学习(deeplearning)的自动编码(autoencoder)技术来始终生成世界上不存在的虚拟人物的使用人工智能的虚拟脸部生成方法及装置。

解决问题的技术方案

本发明的一实施方式包括如下的步骤：从虚拟脸部生成装置接收多个脸部源数据和至少一个脸部背景数据并通过深度学习来执行对于推论脸部与实际脸部的比较及学习；以及接收一个脸部背景数据并通过经上述比较及学习的模型来生成由从多个上述脸部源数据推论的脸部与上述一个脸部背景数据的特征合成而成的虚拟脸部数据。

并且，执行上述比较及学习的步骤包括如下的步骤：上述虚拟脸部生成装置的编码器接收多个上述脸部源数据和至少一个脸部背景数据来编码成多个卷积层；在内网络部中，通过经编码的上述数据分别生成脸部源数据和脸部背景数据的分布区域；在解码器中，将从上述内网络部传递的数据解码复原成多个解卷积层；以及比较经复原的上述数据与原始数据来进行学习。

并且，生成上述虚拟脸部数据的步骤包括如下的步骤：上述虚拟脸部生成装置的编码器接收一个脸部背景数据来进行编码；在内网络部中，使经编码的上述数据通过经上述比较及学习的模型之后导出虚拟脸部的分布区域来将上述分布区域传递到解码器；以及在上述解码器中生成包含推论脸部和背景脸部的特征的虚拟脸部数据。

并且，上述脸部背景数据包含脸部内的表情、眼睛/鼻子/嘴型、眨眼中的至少一种。

并且，本发明的特征在于，上述脸部数据为脸部图像或脸部影像。

本发明的另一实施方式包括：学习部，接收多个脸部源数据和至少一个脸部背景数据并通过深度学习来执行对于推论脸部与实际脸部的比较及学习；以及推论部，接收一个脸部背景数据并通过经上述比较及学习的模型来生成由从多个上述脸部源数据推论的脸部与上述一个脸部背景数据的特征合成而成的虚拟脸部数据。

并且，上述学习部包括：编码器，接收多个上述脸部源数据和至少一个脸部背景数据来编码成多个卷积层；内网络部，通过经编码的上述数据分别生成脸部源数据和脸部背景数据的分布区域；以及解码器，将从上述内网络部传递的数据解码成多个解卷积层。

并且，上述推论部包括：编码器，接收一个脸部背景数据来进行编码；内网络部，使经编码的上述数据通过经上述比较及学习的模型之后导出虚拟脸部的分布区域来将上述分布区域传递到解码器；以及上述解码器，通过解码来生成包含推论脸部和背景脸部的特征在内的虚拟脸部数据。

除上述之外的实施方式、特征、优点将从以下的附图、发明要求保护范围及发明的详细说明变得更加明确。

发明效果

根据本发明一实施例的使用人工智能的虚拟脸部生成方法及装置，可通过虚拟脸部合成技术来在没有对于特定人物的肖像权问题、恶用事例等的风险的情况下作为多种内容来使用。

而且，能够以多人的数据为基础来使用案例的数量来组合之前未见过的新的虚拟人物来生成多种虚拟人物。

附图说明

图1为示出本发明一实施例的虚拟脸部生成装置的图。

图2为示出在本发明一实施例的虚拟脸部生成装置中的学习方式的图。

图3为示出在本发明一实施例的虚拟脸部生成装置中的推论方式的图。

图4为示出在本发明一实施例的虚拟脸部生成装置中的虚拟脸部生成方式的图。

图5为示出本发明一实施例的虚拟脸部生成方法的流程图。

100：虚拟脸部生成装置

110：编码器

120：内网络部

130：解码器

200：学习部

300：推论部

具体实施方式

本发明可具有多种变换并可具有多种实施例，在图中例示特定实施例并在详细说明中进行详细说明。将参照与附图一同详细后述的实施例，本发明的效果、特征及实现这些的方法变得更加明确。但是，本发明并不局限于以下揭示的实施例，而是可体现为多种形态。

以下，参照附图，详细说明本发明的实施例，当参照附图进行说明时，对相同或对应的结构要素赋予相同的附图标记并省略对其的重复说明。

在以下的实施例中，第一、第二等术语并非为限定性含义，而是用于区分两种结构要素。

在以下的实施例中，除非文脉上明确定义，否则单数的表现包括复数的表现。

在以下的实施例中，包括或具有等术语意味着在说明书上记载的特征或结构要素的存在，并未预先排除一个以上的其他特征或结构要素的附加可能性。

在以下的实施例中，当膜、区域、结构要素等部分位于其他部分之上或上方时，这包括直接位于其他部分之上的情况和在中间形成其他膜、区域、结构要素等的情况。

图中，为了说明的便利，结构要素的尺寸可以放大或缩小。例如，图中所示的各个结构的尺寸及厚度为了说明的便利而随意示出，本发明并不局限于此。

本发明为使用人工智能技术来始终生成世界上不存在的虚拟人物的技术。

图1为示出本发明一实施例的虚拟脸部生成装置的图。

参照图1，虚拟脸部生成装置100可包括学习部200及推论部300。

学习部200可接收多个脸部源(source)数据和至少一个脸部背景(destin ation)数据并通过深度学习来执行对于推论脸部与实际脸部的比较及学习。其中，对于多人的多个脸部源数据可用于虚拟脸部的生成，至少一个脸部背景数据可以为包含与脸部内的表情、眼睛/鼻子/嘴型、眨眼中的至少一种有关的信息的数据。即，脸部背景数据可以包含能够表示对于一人的多种脸部的眼睛、鼻子、嘴、睫毛等的形态和移动的信息，且可包含与多人有关的脸部内动态特征信息，而并非为一人。

推论部300在通过学习部200生成虚拟脸部生成模型之后，接收一个脸部背景数据并通过虚拟脸部生成模型来生成由从多个脸部源数据推论的脸部与一个脸部背景数据的特征合成而成的虚拟脸部数据。

这种学习部200及推论部300可以为在虚拟脸部生成装置100中的结构要素或各个步骤的处理，可以相互共享虚拟脸部生成装置100内的结构要素来使用。

而且，虚拟脸部生成装置100可利用作为人工智能的一个领域的深度学习的自动编码器技术来始终生成世界上不存在的虚拟人物。自动编码器逐级学习神经网络的各个层来使得最终输出再现最初输出，输入层和输出层的维度相同，但隐藏层被设计成维度低于输入层和输出层。对此，在自动编码器中可压缩输入数据来提取特征，基于所提取的特征来输出最大程度再现输入的数据。

而且，自动编码器无法通过具有低纬度的隐藏层将输入直接复制成输出，因此，为了使输出和输入相同而需要进行学习。通过这种学习，自动编码器可以学习输入数据中最重要的特征(feature)。

在图2及图3中具体说明虚拟脸部生成装置100的具体的学习及推论方式。

参照图2，虚拟脸部生成装置100的学习部200进行对于脸部数据的学习，可包括编码器110、内网络部120及解码器130。具体地，虚拟脸部生成装置100可包括具有共享加权值的编码器110、解码器130及包括两个独立的内模型的内网络部120。

编码器110由多个卷积层(multi-layer convolution)构成，通过接收源图像和背景图像并对其进行缩略的编码过程来向内网络部120传递。另一方面，虚拟脸部生成装置100可以在所输入的源图像中进行脸部检测、脸部对齐及脸部分割中的至少一个提取过程。而且，针对背景图像，为了与源图像匹配而基本上对整个脸部执行对齐。

在内网络部120中，可以通过内AB部122和内B部124的网络。内AB部122为学习一次源图像和背景图像的网络，内B部124为仅学习背景图像的网络。换句话说，内AB部122生成

从源图像数据和背景图像数据提取的特征(隐形编码(latent coding))，内B部124生成

仅从背景图像提取的特征。

对此，在内网络部120中，仅使缩略的图像通过内AB部122和内B部124的网络，可形成背景图像分布区域和源图像分布区域。而且，在内网络部120中，向由多个卷积层构成的解码器130传递的多个图像可通过解码过程复原到原始图像。之后，复原的多个图像通过与原始图像进行比较来计算损失值，所计算的损失值可根据深度学习的反向传播技术来执行学习，由此可以生成虚拟脸部生成模型。

另一方面，当进行学习时，也可以对脸部的各个部位赋予不同的加权值。例如，在脸部中，对眼睛区域赋予比脸颊区域更大的加权值，由此可以生成眼睛更加清晰的脸部。

参照图3，虚拟脸部生成装置100的推论部300可生成包含所输入的图像的特征的虚拟脸部，可包括编码器110、内网络部120及解码器130。

编码器110可执行接收对于特定人物的脸部有关的背景图像并对其进行缩略的编码过程来向内网络部120传递。在内网络部120中，仅可通过内AB部122的网络。内B部124仅在学习时通过，在推论时通过内AB部122的网络。由此，可获取脸部的表情、嘴型、眼型等信息，从包含这种特征信息

的多个图像找出通过多人的源图像形成的虚拟人物的分布区域。

而且，从内网络部120向解码器130传递的多个图像可通过多个卷积层的解码过程来生成由推论的源脸部和背景图像的特征合成而成的虚拟脸部图像。所生成的图像并非源图像中的相同的脸部，而是可以生成混合有源图像的形态的新的虚拟人物。而且，可将具有这种虚拟脸部的虚拟人物生成为可以为学习背景图像的表情、嘴型、眼型等的人，而非无表情之人。

参照图4，当用作虚拟脸部的多人的脸部图像410作为源图像输入到虚拟脸部生成装置100的学习部200时，包含表情、嘴型、眨眼等信息的至少一人的背景脸部图像420作为背景图像输入。对此，在虚拟脸部生成装置100中，与原始图像进行比较并通过学习来生成虚拟脸部生成用模型。

之后，当在虚拟脸部生成装置100的推论部300输入一人的背景脸部图像420时，在虚拟脸部生成装置100中输出由通过多人的脸部图像410推论的脸部与一人的背景脸部图像420的特征合成而成的虚拟脸部图像430。在本实施例中，使用了各个图像，但可以代替各个图像来使用视频数据。

图5为示出本发明一实施例的虚拟脸部生成方法的流程图。

参照图5，在步骤S500中，当作为具有多个脸部源图像和脸部的特征信息的背景图像输入到虚拟脸部生成装置100的编码器110时，对其进行编码来向内网络部120传递。

在步骤S510中，在内网络部120中生成源图像分布区域和背景图像分布区域。而且，在步骤S520中，通过解码来复原图像，比较复原后的图像与原始图像来进行学习。

之后，在步骤S530中，当背景图像输入到虚拟脸部生成装置100的编码器110时，对其进行编码，在步骤S540中，通过学习了一次内网络部120的源图像和背景图像的网络。

而且，在步骤S550中，生成由通过解码器130解码并推论的源图像和背景图像的特征合成而成的虚拟人物的脸部的图像。

即，在现有的虚拟脸部生成方式中，直接生成可识别的特定人物的脸部，而无法生成新的人物，即使生成新的人物，其产物也随机生成，因此，存在无法始终使用一个虚拟人物的问题。

如图4所示，在本发明一实施例的使用人工智能的虚拟脸部生成方法中，当向在一个时间点学习的虚拟脸部生成装置100输入一个背景脸部图像或影像时，可以生成相同的虚拟人物，由于生成现有人物和其他虚拟人物，使得所生成的脸部并不局限于特定人物，因此，可以均克服瞄准特定人物的恶用事例和特定人物的肖像权问题。并且，以多人的数据为基础来使用案例的数量来组合之前未见过的新的虚拟人物，由此可以生成多种虚拟人物。结果，可通过虚拟人物的生成来解决过去因通过脸部合成技术生成特定艺人而导致的问题，因此，具有如下优点，即，可以积极使用脸部合成技术的先例，并且之后可用于电视剧、电影、新闻等多种内容中。

另一方面，本发明可以在计算机可读记录介质通过计算机可读代码实现。计算机可读记录介质包括存储能够通过计算机系统读取的数据的所有种类的记录装置。作为计算机可读记录介质的一例，包括ROM、RAM、CD-ROM、磁带、软盘、光数据存储装置等。

并且，计算机可读记录介质可分散在通过网络连接的计算机系统，从而可以通过分散方式存储并执行计算机可读代码。而且，用于体现本发明的功能性(functional)程序、代码、代码段可以由本发明所属技术领域的程序员轻松推论。

当对构成本发明的方法的步骤明确地记载顺序或没有相反的记载时，上述步骤可以按适当的顺序执行。本发明并不局限于上述步骤的记载顺序。

在本发明中，所有例或例示性术语(例如，等)的使用仅用于详细说明本发明，除非通过发明要求保护范围限定，本发明的范围并不局限于上述例或例示性术语。并且，对应技术领域的普通技术人员可以知道可在附加多种修改、组合及变更的发明要求保护范围或其等同技术方案的范畴内根据设计条件及要素(factor)构成。

因此，本发明的思想并不局限于上述说明的实施例，后述的发明要求保护范围和与其等同或等价变更的所有范围均属于本发明的思想范畴内。

如上所述，参照图中所示的实施例说明了本发明，但这仅为例示，只要是本发明所属技术领域的普通技术人员就可以进行多种变形及实施例的变形。因此，本发明的真正的技术保护范围通过附加的发明要求保护范围的技术思想定义。

Claims

1.一种使用人工智能的虚拟脸部生成方法，其特征在于，

包括如下的步骤：

从虚拟脸部生成装置接收多个脸部源数据和至少一个脸部背景数据并通过深度学习来执行对于推论脸部与实际脸部的比较及学习；以及

接收一个脸部背景数据并通过经上述比较及学习的模型来生成由从多个上述脸部源数据推论的脸部与上述一个脸部背景数据的特征合成而成的世界上不存在的虚拟人物的脸部数据，

生成上述虚拟人物的脸部数据的步骤包括如下的步骤：

上述虚拟脸部生成装置的编码器接收一个脸部背景数据来进行编码；

在上述虚拟脸部生成装置的内网络部中，使经编码的上述数据通过经上述比较及学习的模型之后导出虚拟脸部的分布区域来将上述分布区域传递到上述虚拟脸部生成装置的解码器；以及

在上述虚拟脸部生成装置的解码器中生成包含从多个上述脸部源数据推论的世界上不存在的虚拟人物的脸部和背景脸部的特征在内的上述虚拟人物的脸部数据。

2.根据权利要求1所述的使用人工智能的虚拟脸部生成方法，其特征在于，执行上述比较及学习的步骤包括如下的步骤：

上述虚拟脸部生成装置的编码器接收多个上述脸部源数据和至少一个脸部背景数据来编码成多个卷积层；

在上述虚拟脸部生成装置的内网络部中，通过经编码的上述数据分别生成脸部源数据和脸部背景数据的分布区域；

在上述虚拟脸部生成装置的解码器中，将从上述内网络部传递的数据解码成多个解卷积层；以及

比较经解码的上述数据与原始数据来进行学习。

3.根据权利要求1所述的使用人工智能的虚拟脸部生成方法，其特征在于，上述脸部背景数据包含脸部内的表情、眼睛/鼻子/嘴型、眨眼中的至少一种。

4.根据权利要求1所述的使用人工智能的虚拟脸部生成方法，其特征在于，上述脸部数据为脸部图像或脸部影像。

5.一种使用人工智能的虚拟脸部生成装置，其特征在于，

包括：

学习部，接收多个脸部源数据和至少一个脸部背景数据并通过深度学习来执行对于推论脸部与实际脸部的比较及学习；以及

推论部，接收一个脸部背景数据并通过经上述比较及学习的模型来生成由从多个上述脸部源数据推论的脸部与上述一个脸部背景数据的特征合成而成的世界上不存在的虚拟人物的脸部数据，

上述推论部包括：

编码器，接收一个脸部背景数据来进行编码；

内网络部，使经编码的上述数据通过经上述比较及学习的模型之后导出虚拟脸部的分布区域来将上述分布区域传递到解码器；以及

上述解码器，通过解码来生成包含从多个上述脸部源数据推论的世界上不存在的虚拟人物的脸部和背景脸部的特征在内的上述虚拟人物的脸部数据。

6.根据权利要求5所述的使用人工智能的虚拟脸部生成装置，其特征在于，上述学习部包括：

编码器，接收多个上述脸部源数据和至少一个脸部背景数据来编码成多个卷积层；

内网络部，通过经编码的上述数据分别生成脸部源数据和脸部背景数据的分布区域；以及

解码器，将从上述内网络部传递的数据解码成多个解卷积层。

7.根据权利要求5所述的使用人工智能的虚拟脸部生成装置，其特征在于，上述脸部背景数据包含脸部内的表情、眼睛/鼻子/嘴型、眨眼中的至少一种。

8.根据权利要求5所述的使用人工智能的虚拟脸部生成装置，其特征在于，上述脸部数据为脸部图像或脸部影像。