CN109685087A

CN109685087A - 信息处理方法和装置以及信息检测方法和装置

Info

Publication number: CN109685087A
Application number: CN201710970935.6A
Authority: CN
Inventors: 沈伟; 刘汝杰
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2017-10-18
Filing date: 2017-10-18
Publication date: 2019-04-26
Anticipated expiration: 2037-10-18
Also published as: CN109685087B9; JP7119865B2; JP2019075108A; CN109685087B

Abstract

公开了一种信息处理方法和装置以及信息检测方法和装置，其中信息处理方法包括：从训练集中抽取对应于相同的语义特征的三幅图像，所述三幅图像包括在语义特征方面具有相同语义特征值的第一图像和第二图像以及其语义特征值不同于第一图像和第二图像的第三图像；通过变分自编码器获得三幅图像的与语义特征对应的隐变量的分布；以及对于所述三幅图像中的每幅图像，通过使损失函数最小化来更新变分自编码器的参数，其中损失函数与第一图像的隐变量的分布和第二图像的隐变量的分布之间的第一距离正相关，与第一图像的隐变量的分布和第三图像的隐变量的分布之间的第二距离负相关。根据本公开的实施例，可以提取具有区分度的面部语义特征。

Description

信息处理方法和装置以及信息检测方法和装置

技术领域

本公开涉及信息处理领域，具体涉及能够提取具有区分度的面部语义特征的信息处理方法和装置以及信息检测方法和装置。

背景技术

近年来在图像生成方面取得了显著进步。出现了诸如生成式对抗网络(GAN)和变分自编码器(VAE)的模型来生成图像。然而，GAN模型以随机噪声作为输入，并且不具有将图像编码到隐空间的能力。VAE可以将图像编码到隐空间，然而该隐空间缺乏语义含义。即，这些模型不能提取具有区分度的面部语义特征。

发明内容

在下文中给出了关于本公开的简要概述，以便提供关于本公开的某些方面的基本理解。但是，应当理解，这个概述并不是关于本公开的穷举性概述。它并不是意图用来确定本公开的关键性部分或重要部分，也不是意图用来限定本公开的范围。其目的仅仅是以简化的形式给出关于本公开的某些概念，以此作为稍后给出的更详细描述的前序。

鉴于以上问题，本公开的目的是提供能够提取具有区分度的面部语义特征的信息处理方法和装置以及信息检测方法和装置。

根据本公开的一方面，提供了一种信息处理方法，包括：可以从训练集中抽取对应于相同的语义特征的三幅图像，所述三幅图像包括在语义特征方面具有相同语义特征值的第一图像和第二图像以及其语义特征值不同于第一图像和第二图像的第三图像；可以通过变分自编码器获得三幅图像的与语义特征对应的隐变量的分布；以及可以对于所述三幅图像中的每幅图像，通过使损失函数最小化来更新变分自编码器的参数，其中损失函数与第一图像的隐变量的分布和第二图像的隐变量的分布之间的第一距离正相关，与第一图像的隐变量的分布和第三图像的隐变量的分布之间的第二距离负相关。

根据本公开的另一方面，提供了一种信息处理装置，包括：抽取图像的单元，可以被配置成从训练集中抽取对应于相同的语义特征的三幅图像，其中，所述三幅图像包括在语义特征方面具有相同语义特征值的第一图像和第二图像以及其语义特征值不同于第一图像和第二图像的第三图像；获得隐变量分布的单元，可以被配置成通过变分自编码器获得所述三幅图像的与语义特征对应的隐变量的分布；以及更新参数的单元，可以被配置成对于所述三幅图像中的每幅图像，通过使损失函数最小化来更新变分自编码器的参数，其中损失函数与第一图像的隐变量的分布和第二图像的隐变量的分布之间的第一距离正相关，与第一图像的隐变量的分布和第三图像的隐变量的分布之间的第二距离负相关。

根据本公开的又一方面，提供了一种信息检测方法，包括：可以将多幅图像分别输入到经训练的变分自编码器，以获得每幅图像的与语义特征对应的隐变量的分布，并且获得每幅图像的重建图像，其中，对于所述多幅图像中的具有相同的语义特征的三幅图像，所述三幅图像包括在语义特征方面具有相同语义特征值的第一图像和第二图像以及其语义特征值不同于第一图像和第二图像的第三图像，第一图像的隐变量的分布和第二图像的隐变量的分布之间的第一距离小于第一图像的隐变量的分布和第三图像的隐变量的分布之间的第二距离。

根据本公开的其它方面，还提供了用于实现上述根据本公开的方法的计算机程序代码和计算机程序产品以及其上记录有该用于实现上述根据本公开的方法的计算机程序代码的计算机可读存储介质。

在下面的说明书部分中给出本公开实施例的其它方面，其中，详细说明用于充分地公开本公开实施例的优选实施例，而不对其施加限定。

附图说明

本公开可以通过参考下文中结合附图所给出的详细描述而得到更好的理解，其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并形成说明书的一部分，用来进一步举例说明本公开的优选实施例和解释本公开的原理和优点。其中：

图1是示出根据本公开的实施例的信息处理方法的流程示例的流程图；

图2是示出根据本公开实施例的度量学习的示意图；

图3示出了用于实现信息处理方法的网络的框图；

图4是示出根据本公开实施例的编码网络和解码网络的结构的图；

图5是示出根据本公开实施例的隐变量的结构的示意图；

图6是示出根据本公开的实施例的信息处理装置的功能配置示例的框图；以及

图7是示出作为本公开的实施例中可采用的信息处理装置的个人计算机的示例结构的框图。

具体实施方式

在下文中将结合附图对本公开的示范性实施例进行描述。为了清楚和简明起见，在说明书中并未描述实际实施方式的所有特征。然而，应该了解，在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定，以便实现开发人员的具体目标，例如，符合与系统及业务相关的那些限制条件，并且这些限制条件可能会随着实施方式的不同而有所改变。此外，还应该了解，虽然开发工作有可能是非常复杂和费时的，但对得益于本公开内容的本领域技术人员来说，这种开发工作仅仅是例行的任务。

在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本公开，在附图中仅仅示出了与根据本公开的方案密切相关的设备结构和/或处理步骤，而省略了与本公开关系不大的其它细节。

VAE主要目的是重建输入图像，VAE的输入为原始图像，输出为重建图像。更具体地，在VAE中，对输入图像进行编码，得到隐变量的分布表示，这一分布表示是包括均值向量和标准差向量的高斯分布表示。这两个向量都是一维向量，利用均值向量和标准差向量采样得到新的向量，用新的向量进行重建，得到最终的重建图像。对VAE进行训练的目标函数(或者叫损失函数)由两部分组成，一部分为重建误差(输入图像与重建图像之间的误差)，另一部分为中间隐变量与高斯分布的KL距离。虽然VAE可以将图像编码到隐空间，但是该隐空间缺乏语义含义。

本申请提出一种能够提取具有区分度的面部语义特征(例如，身份，姿态、年龄、性别等等)的信息处理方法，该信息处理方法将VAE模型的生成图像的能力与度量学习相结合。

下面结合附图详细说明根据本公开的实施例。

首先，将参照图1描述根据本公开实施例的信息处理方法100的流程示例。图1是示出根据本公开的实施例的信息处理方法的流程示例的流程图。如图1所示，根据本公开的实施例的信息处理方法100包括抽取图像的步骤S102、获得隐变量分布的步骤S104以及更新参数的步骤S106。

在抽取图像的步骤S102中，可以从训练集中抽取对应于相同的语义特征的三幅图像，其中，所述三幅图像包括在语义特征方面具有相同语义特征值的第一图像和第二图像以及其语义特征值不同于第一图像和第二图像的第三图像。

在传统的变分自编码算法中，从隐变量中的每一维特征来看，不具有特定的语义特征。在根据本公开实施例的信息处理方法100中，我们将隐变量分为若干个部分，每个部分对应一个特定的语义特征，如人脸的姿态、年龄、性别等。

在抽取图像的步骤S102中，从训练集中抽取对应于相同的语义特征的三幅图像以及其中图像和具有相同的语义特征值，而图像的语义特征值不同于图像和以语义特征为身份为例，这三幅图像都具有语义特征“身份”，图像和具有相同的语义特征值表明这两幅图像属于同一个人，而图像的语义特征值不同于图像和表明图像属于另外一个人。

在获得隐变量分布的步骤S104中，可以通过变分自编码器获得三幅图像的与语义特征对应的隐变量的分布。在该步骤中，可以通过变分自编码器获得三幅图像以及的与语义特征对应的隐变量的分布。

在更新参数的步骤S106中，可以对于所述三幅图像中的每幅图像，通过使损失函数最小化来更新变分自编码器的参数，其中损失函数与第一图像的隐变量的分布和第二图像的隐变量的分布之间的第一距离正相关，与第一图像的隐变量的分布和第三图像的隐变量的分布之间的第二距离负相关。

度量学习通过构建一种距离度量来表示不同样本之间的距离。以语义特征为身份信息为例，对于同一个人的不同图像，度量学习希望它们的隐变量的分布之间的距离小，趋向于0；对于不同人的图像，希望它们的隐变量的分布之间的距离大。

图2是示出根据本公开实施例的度量学习的示意图。为了简化描述，在图2中，用a、p、以及n分别表示图像以及在图2的左侧和右侧分别示出了由a、p、以及n组成的三元组。并且，假设这三幅图像的语义特征为身份信息，a和p具有相同的身份值(即，a和p对应于同一个人)，而n的身份值不同于a和p的身份值(即，n对应于与a和p不同的人)。在图2的左侧的三元组中，a与p的隐变量的分布之间的距离大于a与n的隐变量的分布之间的距离。如上所述的度量学习让a与p的隐变量的分布之间的距离尽可能小，而a与n的隐变量的分布之间的距离尽可能大；即，对于同一个人的不同图像a和p，度量学习希望它们的隐变量的分布之间的距离小，趋向于0；对于不同人的图像，希望它们的隐变量的分布之间的距离大。如图2的右侧的三元组所示，经过如上所述的度量学习之后，a与n的隐变量的分布之间的距离大于a与p的隐变量的分布之间的距离。在图2中，为了描述清楚，将语义特征假设为身份信息，这仅是例示而非限制，图2中的语义特征还可以是诸如姿态、年龄等的其他语义特征。

对于一个由三幅图像以及构成的三元组来说，基于距离度量的损失函数L_met的计算公式可以表示为：

在公式(1)中，以及分别表示图像以及的隐变量的分布，是图像和的隐变量的分布之间的第一距离，是图像和的隐变量的分布之间的第二距离，+表示[]内的值大于零的时候，取该值为损失，小于零的时候，损失为零。t为一预设阈值，可以由本领域技术人员根据经验而设定，例如，t可以设定为0。由公式(1)可知，损失函数L_met与图像的隐变量的分布和图像的隐变量的分布之间的第一距离正相关，而与图像的隐变量的分布和图像的隐变量的分布之间的第二距离负相关。采用该度量学习，可以得到更具有区分度的面部语义特征。

优选地，在根据本公开实施例的信息处理方法100中，损失函数还可以包括使第二距离与第一距离之间的差值大于预定阈值的约束。如公式(1)所示的距离度量要让与之间的距离和与之间的距离之间有一个最小间隔。例如，公式(1)中的预设阈值t可以被设定为非0的值，诸如t可以设定为1。

在更新参数的步骤S106中，可以通过使损失函数L_met最小化来更新变分自编码器的参数。

以上为了描述方便，以训练集中的三幅图像为例介绍了根据本公开实施例的信息处理方法100的步骤，即，以训练集中的三幅图像为例介绍了对变分自编码器进行训练。可以对训练集中所有三元组遍历一遍，从而结束对变分自编码器的训练。或者，可以预先设定迭代次数，当达到该预先设定的迭代次数时，结束对变分自编码器的训练。

为了更清楚地描述根据本公开实施例的信息处理方法，图3示出了用于实现信息处理方法100的网络的框图。

图3中的网络包含编码网络和解码网络。编码网络和解码网络由隐含变量层和连接层连接。输入图像经由编码网络编码后被输入到隐变量层。隐变量层包含z₀、z₁、z₂、…z_n共n+1个隐变量，每个隐变量对应于一个特定的语义特征。通过度量学习对隐变量的分布施加限制(即，如上所述，通过使损失函数最小化，对隐变量的分布施加限制)，被施加了限制之后的隐变量被馈入到解码网络，经由解码网络得到输出图像(重建图像)。

图4是示出根据本公开实施例的编码网络和解码网络的结构的图。如图4所示，编码网络和解码网络分别由多个隐含层构成。

与传统的变分自编码器相比，在根据本公开实施例的信息处理方法100中，隐变量由多部分组成，每部分对应于一个特定的语义特征；并且，可以采用度量学习的方式得到更具有区分度的面部语义特征。

优选地，在根据本公开实施例的信息处理方法100中，损失函数还可以包括有关监督误差的约束，监督误差是基于语义特征的标签和图像的隐变量的分布而计算的。在训练变分自编码器的过程中加入监督信息。因此，根据本公开实施例的信息处理方法100中的损失函数还可以包括有关监督误差的约束，可以基于语义特征的标签和图像的隐变量的分布而计算监督误差。

优选地，计算监督误差可以包括：使用非线性函数将图像的隐变量的分布映射到类别空间从而得到映射输出；以及使用分类损失函数或回归损失函数，根据映射输出和语义特征的标签来计算监督误差。

作为示例，在计算监督误差时，首先可以使用非线性函数将图像的隐变量的分布映射到类别空间从而得到映射输出，该非线性函数可以采用多层神经网络实现。若用z表示图像的隐变量并且类别空间包括m个类别子空间(例如，身份子空间、姿态子空间和年龄子空间等，每个类别对应于一种语义特征)，则可以采用非线性函数fu()将z的分布分别映射到该m个类别子空间，从而得到在每个类别子空间的映射输出(即，在每个语义特征空间的输出)fu_i(z)，i＝0,1，2，…，m-1。作为示例，可以采用非线性函数fu()将z的分布映射到身份子空间，从而得到在身份子空间的映射输出，将z的分布映射到姿态子空间，从而得到在姿态子空间的映射输出等等，这样可以使隐变量在不同类别子空间的区分度更好。

根据语义特征的标签值是离散还是连续，可以采用分类损失函数或回归损失函数来计算监督误差。

当标签值为离散时，如图像中人脸的身份信息(甲、乙、丙、丁)，采用以下分类损失函数来计算监督误差：

在公式(2)中，是fu_i(z)被预测为第i个类别的语义特征的标签label_i的概率。

当标签类型为连续时，如图像中人脸姿态信息中的旋转角度(50、49、48度等)，采用以下回归损失函数来计算监督误差：

L_{s_i}＝(fu_i(z)-label_i)² (3)

在公式(3)中，label_i是第i个类别的语义特征的标签。

对于所有的m个类别，总的监督误差是所有m个类别的监督误差之和，即∑L_{s_i}，其中，i＝0，1，…,m-1。

优选地，图像的隐变量的先验分布包括任意分布。在根据本公开实施例的信息处理方法100中，隐变量的分布和隐变量的先验分布不局限于传统变分自编码器中的高斯分布，而可以是任意分布。

优选地，图像的隐变量的先验分布是通过以下方式获得的：根据隐变量的分布得到符合高斯分布的中间变量；以及对中间变量进行非线性变换，得到隐变量的先验分布。

图5是示出根据本公开实施例的隐变量的结构的示意图。在图5中，最底层为来自编码网络的输入向量，通过隐含层后，生成隐变量z的分布的均值向量z_m和方差向量z_v，对z_m和z_v进行采样，可以得到z并作为该结构的输出，即z为图5所示的隐变量的结构的输出，其被输入到图3中的连接层。另外，如果用u表示根据隐变量z的分布得到的符合高斯分布的上级变量(中间变量)，并且用z’表示z的先验分布，为了更清楚地示出u和z’与z之间的关系，在图5中还示出了u和z’，在图5中，u的分布的均值向量为u_m，方差向量为u_v。

如图5所示，根据隐变量z的分布得到符合高斯分布的中间变量u。z的先验分布z’是通过中间变量u来构建的，即将u通过非线性映射得到z的先验分布z’。尽管u的先验分布为标准高斯分布，但是，经过非线性变换后，z’的分布可以为任意分布(即，将多个高斯分布进行混合，可以得到任意分布)。另一方面，通过约束z和z’具有相似的分布，来实现z具有任意分布的性质。

优选地，在根据本公开实施例的信息处理方法100中，损失函数还可以包括有关隐变量的分布和隐变量的先验分布之间的KL散度以及有关中间变量u的分布和标准高斯分布之间的KL散度的约束。

KL散度(KL距离)用于衡量两个分布的相似程度。如果两个分布差异越小，则KL散度越小，如果两个分布差异越大，则KL散度就会越大。

用P(z)表示隐变量z的分布，并且为了与隐变量z的分布的表示P(z)对应，用Q(z’)表示隐变量z的先验分布。则隐变量的分布和隐变量的先验分布之间的KL散度KL(P||Q)可以表示为：

用S(u)表示中间变量u的分布，并且用G(0,1)表示标准高斯分布，则中间变量的分布和标准高斯分布之间的KL散度XL(S||G)可表示为：

如上所述，损失函数还可以包括根据公式(4)和(5)计算出的KL散度的约束。

优选地，在根据本公开实施例的信息处理方法100中，损失函数还可以包括有关重建误差的约束，重建误差用于衡量输入到变分自编码器的图像和与该图像对应的从变分自编码器输出的图像之间的差异。在利用变分自编码器重建图像时，输入到变分自编码器的图像和与该图像对应的从变分自编码器输出的图像(即，重建图像)之间存在差异(即，存在重建误差)。损失函数还可以包括有关该重建误差的约束。以图像的三元组(包括三幅图像以及)为例，以下为了方便描述，若将该三幅图像都表示为x_i，并且将其对应的输出图像表示为则每幅图像的重建误差L_rec可以表示为：

对于上述三幅图像而言，总的重建误差是每幅图像的重建误差之和。为了简化描述，在下面的描述中，将总的重建误差简单地表示为L_rec。

在根据本公开实施例的信息处理方法100中，在损失函数包括上述所有的约束的情况下，对于训练集的图像中的任意一个三元组，总的损失函数L可以表示为：

L＝L_rec+α∑L_{s_i}+β(L_met+KM(P||Q)+KL(S||G)) (7)

在公式(7)中，L_rec是总的重建误差，∑L_{s_i}是总的监督误差，L_met是基于距离度量的损失函数，KL(P||Q)是隐变量的分布和隐变量的先验分布之间的KL散度，KL(S||G)是中间变量的分布和标准高斯分布之间的KL散度，α和β为常数，在[0,1]范围内取值。可以通过使总误差函数最小化，更新变分自编码器的参数。

综上所述，与传统的变分自编码器相比，在根据本公开实施例的信息处理方法100中，隐变量由多部分组成，每部分对应于一个特定的语义特征；隐变量的分布假设不局限与高斯分布，而是任意分布；可以采用度量学习的方式得到更具有区分度的面部语义特征。

与上述信息处理方法实施例相对应地，本公开还提供了以下信息处理装置的实施例。

图6是示出根据本公开的实施例的信息处理装置600的功能配置示例的框图。

如图6所示，根据本公开的实施例的信息处理装置600可以包括抽取图像的单元602、获得隐变量分布的单元604以及更新参数的单元606。接下来将描述抽取图像的单元602、获得隐变量分布的单元604以及更新参数的单元606的功能配置示例。

在抽取图像的单元602中，可以从训练集中抽取对应于相同的语义特征的三幅图像，其中，所述三幅图像包括在语义特征方面具有相同语义特征值的第一图像和第二图像以及其语义特征值不同于第一图像和第二图像的第三图像。

在传统的变分自编码算法中，从隐变量中的每一维特征来看，不具有特定的语义特征。在根据本公开实施例的信息处理装置600中，我们将隐变量分为若干个部分，每个部分对应一个特定的语义特征，如人脸的姿态、年龄、性别等。

有关抽取对应于相同的语义特征的三幅图像的示例可以参见以上方法实施例中相应位置的描述，在此不再重复。

在获得隐变量分布的单元604中，可以通过变分自编码器获得三幅图像的与语义特征对应的隐变量的分布。在该单元中，可以通过变分自编码器获得所提取的三幅图像的与语义特征对应的隐变量的分布。

在更新参数的单元606中，可以对于所述三幅图像中的每幅图像，通过使损失函数最小化来更新变分自编码器的参数，其中损失函数与第一图像的隐变量的分布和第二图像的隐变量的分布之间的第一距离正相关，与第一图像的隐变量的分布和第三图像的隐变量的分布之间的第二距离负相关。

度量学习通过构建一种距离度量来表示不同样本之间的距离。以语义特征为身份信息为例，对于同一个人的不同图像，度量学习希望它们的隐变量的分布之间的距离小，趋向于0；对于不同人的图像，希望它们的隐变量的分布之间的距离大。有关度量学习、第一图像的隐变量的分布和第二图像的隐变量的分布之间的第一距离、第一图像的隐变量的分布和第三图像的隐变量的分布之间的第二距离的示例可以参见以上方法实施例中相应位置的描述，在此不再重复。

优选地，损失函数还可以包括使第二距离与第一距离之间的差值大于预定阈值的约束。该示例可以参见以上方法实施例中相应位置的描述，在此不再重复。

上面以训练集中的三幅图像为例介绍了对变分自编码器进行训练。可以对训练集中所有三元组遍历一遍，从而结束对变分自编码器的训练。或者，可以预先设定迭代次数，当达到该预先设定的迭代次数时，结束对变分自编码器的训练。

与传统的变分自编码器相比，在根据本公开实施例的信息处理装置600中，隐变量由多部分组成，每部分对应于一个特定的语义特征；并且，可以采用度量学习的方式得到更具有区分度的面部语义特征。

优选地，在根据本公开实施例的信息处理装置600中，损失函数还可以包括有关监督误差的约束，监督误差是基于语义特征的标签和图像的隐变量的分布而计算的。在训练变分自编码器的过程中加入监督信息。因此，根据本公开实施例的信息处理装置600中的损失函数还可以包括有关监督误差的约束，可以基于语义特征的标签和图像的隐变量的分布而计算监督误差。

优选地，计算监督误差可以包括：使用非线性函数将图像的隐变量的分布映射到类别空间从而得到映射输出；以及使用分类损失函数或回归损失函数，根据映射输出和语义特征的标签来计算监督误差。计算监督误差的示例可以参见以上方法实施例中相应位置的描述，在此不再重复。

优选地，图像的隐变量的先验分布包括任意分布。在根据本公开实施例的信息处理装置600中，隐变量的分布和隐变量的先验分布不局限于传统变分自编码器中的高斯分布，而可以是任意分布。

优选地，图像的隐变量的先验分布是通过以下方式获得的：根据隐变量的分布得到符合高斯分布的中间变量；以及对中间变量进行非线性变换，得到隐变量的先验分布。获得图像的隐变量的先验分布的示例可以参见以上方法实施例中相应位置的描述，在此不再重复。

优选地，在根据本公开实施例的信息处理装置600中，损失函数还可以包括有关隐变量的分布和隐变量的先验分布之间的KL散度以及有关中间变量的分布和标准高斯分布之间的KL散度的约束。计算隐变量的分布和隐变量的先验分布之间的KL散度以及中间变量的分布和标准高斯分布之间的KL散度的示例可以参见以上方法实施例中相应位置的描述，在此不再重复。

优选地，在根据本公开实施例的信息处理装置600中，损失函数还可以包括有关重建误差的约束，重建误差用于衡量输入到变分自编码器的图像和与该图像对应的从变分自编码器输出的图像之间的差异。计算重建误差的示例可以参见以上方法实施例中相应位置的描述，在此不再重复。

综上所述，与传统的变分自编码器相比，在根据本公开实施例的信息处理装置600中，隐变量由多部分组成，每部分对应于一个特定的语义特征；隐变量的分布假设不局限与高斯分布，而是任意分布；可以采用度量学习的方式得到更具有区分度的面部语义特征。

应指出，尽管以上描述了根据本公开的实施例的信息处理装置的功能配置，但是这仅是示例而非限制，并且本领域技术人员可根据本公开的原理对以上实施例进行修改，例如可对各个实施例中的功能模块进行添加、删除或者组合等，并且这样的修改均落入本公开的范围内。

此外，还应指出，这里的装置实施例是与上述方法实施例相对应的，因此在装置实施例中未详细描述的内容可参见方法实施例中相应位置的描述，在此不再重复描述。

应理解，根据本公开的实施例的存储介质和程序产品中的机器可执行的指令还可以被配置成执行上述信息处理方法，因此在此未详细描述的内容可参考先前相应位置的描述，在此不再重复进行描述。

相应地，用于承载上述包括机器可执行的指令的程序产品的存储介质也包括在本发明的公开中。该存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。

根据本公开的另一方面，提供了一种信息检测方法，根据本公开实施例的信息检测方法包括：将多幅图像分别输入到经训练的变分自编码器，以获得每幅图像的与语义特征对应的隐变量的分布，并且获得每幅图像的重建图像，其中，对于多幅图像中的具有相同的语义特征的三幅图像，三幅图像包括在语义特征方面具有相同语义特征值的第一图像和第二图像以及其语义特征值不同于第一图像和第二图像的第三图像，第一图像的隐变量的分布和第二图像的隐变量的分布之间的第一距离小于第一图像的隐变量的分布和第三图像的隐变量的分布之间的第二距离。

作为示例，在根据本公开实施例的信息检测方法中，利用经训练的变分自编码器得到每幅输入图像的与语义特征对应的隐变量的分布，并且获得每幅输入图像的重建图像。假设存在对应于相同的语义特征的三幅图像以及其中图像和具有相同的语义特征值，而图像的语义特征值不同于图像和如在本公开实施例的信息处理方法中结合公式(1)介绍的，在训练变分自编码器时，损失函数与第一图像的隐变量的分布和第二图像的隐变量的分布之间的第一距离正相关，与第一图像的隐变量的分布和第三图像的隐变量的分布之间的第二距离负相关，并且第二距离与第一距离之间的差值大于预定阈值。因此，在利用如上所述的经训练的变分自编码器重建图像时，对于三幅图像以及图像的隐变量的分布和图像的隐变量的分布之间的第一距离小于图像的隐变量的分布和图像的隐变量的分布之间的第二距离。

根据本公开实施例的信息检测方法能够提取具有区分度的面部语义特征。

与上述信息处理方法实施例相对应地，本公开还提供了以下信息检测装置的实施例。根据本公开的实施例的信息检测装置可以包括获得重建图像单元，该获得重建图像单元被配置成将多幅图像分别输入到经训练的变分自编码器，以获得每幅图像的与语义特征对应的隐变量的分布，并且获得每幅图像的重建图像，其中，对于多幅图像中的具有相同的语义特征的三幅图像，三幅图像包括在语义特征方面具有相同语义特征值的第一图像和第二图像以及其语义特征值不同于第一图像和第二图像的第三图像，第一图像的隐变量的分布和第二图像的隐变量的分布之间的第一距离小于第一图像的隐变量的分布和第三图像的隐变量的分布之间的第二距离。

根据本公开实施例的信息检测装置能够提取具有区分度的面部语义特征。

应指出，尽管以上描述了根据本公开的实施例的信息检测装置的功能配置，但是这仅是示例而非限制，并且本领域技术人员可根据本公开的原理对以上实施例进行修改，例如可对各个实施例中的功能模块进行添加、删除或者组合等，并且这样的修改均落入本公开的范围内。

应理解，根据本公开的实施例的存储介质和程序产品中的机器可执行的指令还可以被配置成执行上述信息检测方法，因此在此未详细描述的内容可参考先前相应位置的描述，在此不再重复进行描述。

根据本公开的另一方面，还提供了利用根据上述信息处理方法训练的变分自编码器对输入图像进行重建的方法和装置。

另外，还应该指出的是，上述系列处理和装置也可以通过软件和/或固件实现。在通过软件和/或固件实现的情况下，从存储介质或网络向具有专用硬件结构的计算机，例如图7所示的通用个人计算机700安装构成该软件的程序，该计算机在安装有各种程序时，能够执行各种功能等等。

在图7中，中央处理单元(CPU)701根据只读存储器(ROM)702中存储的程序或从存储部分708加载到随机存取存储器(RAM)703的程序执行各种处理。在RAM 703中，也根据需要存储当CPU 701执行各种处理等时所需的数据。

CPU 701、ROM 702和RAM 703经由总线704彼此连接。输入/输出接口705也连接到总线704。

下述部件连接到输入/输出接口705：输入部分706，包括键盘、鼠标等；输出部分707，包括显示器，比如阴极射线管(CRT)、液晶显示器(LCD)等，和扬声器等；存储部分708，包括硬盘等；和通信部分709，包括网络接口卡比如LAN卡、调制解调器等。通信部分709经由网络比如因特网执行通信处理。

根据需要，驱动器710也连接到输入/输出接口705。可拆卸介质711比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器710上，使得从中读出的计算机程序根据需要被安装到存储部分708中。

在通过软件实现上述系列处理的情况下，从网络比如因特网或存储介质比如可拆卸介质711安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图7所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质711。可拆卸介质711的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM 702、存储部分708中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

以上参照附图描述了本公开的优选实施例，但是本公开当然不限于以上示例。本领域技术人员可在所附权利要求的范围内得到各种变更和修改，并且应理解这些变更和修改自然将落入本公开的技术范围内。

例如，在以上实施例中包括在一个单元中的多个功能可以由分开的装置来实现。替选地，在以上实施例中由多个单元实现的多个功能可分别由分开的装置来实现。另外，以上功能之一可由多个单元来实现。无需说，这样的配置包括在本公开的技术范围内。

在该说明书中，流程图中所描述的步骤不仅包括以所述顺序按时间序列执行的处理，而且包括并行地或单独地而不是必须按时间序列执行的处理。此外，甚至在按时间序列处理的步骤中，无需说，也可以适当地改变该顺序。

另外，根据本公开的技术还可以如下进行配置。

附记1.一种信息处理方法，包括：

从训练集中抽取对应于相同的语义特征的三幅图像，其中，所述三幅图像包括在所述语义特征方面具有相同语义特征值的第一图像和第二图像以及其语义特征值不同于所述第一图像和所述第二图像的第三图像；

通过变分自编码器获得所述三幅图像的与所述语义特征对应的隐变量的分布；以及

对于所述三幅图像中的每幅图像，通过使损失函数最小化来更新所述变分自编码器的参数，其中所述损失函数与所述第一图像的隐变量的分布和所述第二图像的隐变量的分布之间的第一距离正相关，与所述第一图像的隐变量的分布和所述第三图像的隐变量的分布之间的第二距离负相关。

附记2.根据附记1所述的信息处理方法，其中，所述损失函数还包括使所述第二距离与所述第一距离之间的差值大于预定阈值的约束。

附记3.根据附记2所述的信息处理方法，其中，所述损失函数还包括有关监督误差的约束，所述监督误差是基于所述语义特征的标签和图像的所述隐变量的分布而计算的。

附记4.根据附记3所述的信息处理方法，其中，计算所述监督误差包括：

使用非线性函数将图像的所述隐变量的分布映射到类别空间从而得到映射输出；以及

使用分类损失函数或回归损失函数，根据所述映射输出和所述语义特征的标签来计算所述监督误差。

附记5.根据附记3所述的信息处理方法，其中，图像的所述隐变量的先验分布包括任意分布。

附记6.根据附记5所述的信息处理方法，其中，图像的所述隐变量的先验分布是通过以下方式获得的：

根据所述隐变量的分布得到符合高斯分布的中间变量；以及

对所述中间变量进行非线性变换，得到所述隐变量的先验分布。

附记7.根据附记6所述的信息处理方法，其中，所述损失函数还包括有关所述隐变量的分布和所述隐变量的先验分布之间的KL散度以及有关所述中间变量的分布和标准高斯分布之间的KL散度的约束。

附记8.根据附记7所述的信息处理方法，其中，所述损失函数还包括有关重建误差的约束，所述重建误差用于衡量输入到所述变分自编码器的图像和与该图像对应的从所述变分自编码器输出的图像之间的差异。

附记9.一种信息处理装置，包括：

抽取图像的单元，被配置成从训练集中抽取对应于相同的语义特征的三幅图像，其中，所述三幅图像包括在所述语义特征方面具有相同语义特征值的第一图像和第二图像以及其语义特征值不同于所述第一图像和所述第二图像的第三图像；

获得隐变量分布的单元，被配置成通过变分自编码器获得所述三幅图像的与所述语义特征对应的隐变量的分布；以及

更新参数的单元，被配置成对于所述三幅图像中的每幅图像，通过使损失函数最小化来更新所述变分自编码器的参数，其中所述损失函数与所述第一图像的隐变量的分布和所述第二图像的隐变量的分布之间的第一距离正相关，与所述第一图像的隐变量的分布和所述第三图像的隐变量的分布之间的第二距离负相关。

附记10.根据附记9所述的信息处理装置，其中，所述损失函数还包括使所述第二距离与所述第一距离之间的差值大于预定阈值的约束。

附记11.根据附记10所述的信息处理装置，其中，所述损失函数还包括有关监督误差的约束，所述监督误差是基于所述语义特征的标签和图像的所述隐变量的分布而计算的。

附记12.根据附记11所述的信息处理装置，其中，计算所述监督误差包括：

附记13.根据附记11所述的信息处理装置，其中，图像的所述隐变量的先验分布包括任意分布。

附记14.根据附记13所述的信息处理装置，其中，图像的所述隐变量的先验分布是通过以下方式获得的：

根据所述隐变量的分布得到符合高斯分布的中间变量；以及

附记15.根据附记14所述的信息处理装置，其中，所述损失函数还包括有关所述隐变量的分布和所述隐变量的先验分布之间的KL散度以及有关所述中间变量的分布和标准高斯分布之间的KL散度的约束。

附记16.根据附记15所述的信息处理装置，其中，所述损失函数还包括有关重建误差的约束，所述重建误差用于衡量输入到所述变分自编码器的图像和与该图像对应的从所述变分自编码器输出的图像之间的差异。

附记17.一种信息检测方法，包括：

将多幅图像分别输入到经训练的变分自编码器，以获得每幅图像的与语义特征对应的隐变量的分布，并且获得每幅图像的重建图像，

其中，对于所述多幅图像中的具有相同的语义特征的三幅图像，所述三幅图像包括在所述语义特征方面具有相同语义特征值的第一图像和第二图像以及其语义特征值不同于所述第一图像和所述第二图像的第三图像，所述第一图像的隐变量的分布和所述第二图像的隐变量的分布之间的第一距离小于所述第一图像的隐变量的分布和所述第三图像的隐变量的分布之间的第二距离。

Claims

1.一种信息处理方法，包括：

2.根据权利要求1所述的信息处理方法，其中，所述损失函数还包括使所述第二距离与所述第一距离之间的差值大于预定阈值的约束。

3.根据权利要求2所述的信息处理方法，其中，所述损失函数还包括有关监督误差的约束，所述监督误差是基于所述语义特征的标签和图像的所述隐变量的分布而计算的。

4.根据权利要求3所述的信息处理方法，其中，计算所述监督误差包括：

5.根据权利要求3所述的信息处理方法，其中，图像的所述隐变量的先验分布包括任意分布。

6.根据权利要求5所述的信息处理方法，其中，图像的所述隐变量的先验分布是通过以下方式获得的：

根据所述隐变量的分布得到符合高斯分布的中间变量；以及

7.根据权利要求6所述的信息处理方法，其中，所述损失函数还包括有关所述隐变量的分布和所述隐变量的先验分布之间的KL散度以及有关所述中间变量的分布和标准高斯分布之间的KL散度的约束。

8.根据权利要求7所述的信息处理方法，其中，所述损失函数还包括有关重建误差的约束，所述重建误差用于衡量输入到所述变分自编码器的图像和与该图像对应的从所述变分自编码器输出的图像之间的差异。

9.一种信息处理装置，包括：

10.一种信息检测方法，包括：