CN115428013A

CN115428013A - 信息处理装置和程序

Info

Publication number: CN115428013A
Application number: CN202180029853.6A
Authority: CN
Inventors: 入江淳; 克里斯托弗·怀特; 贝尔纳黛特·埃利欧特-鲍曼; 哈尔姆·克罗尼
Original assignee: Sony Group Corp
Current assignee: Sony Group Corp
Priority date: 2020-04-30
Filing date: 2021-03-18
Publication date: 2022-12-02
Also published as: EP4145386A1; US20230169754A1; WO2021220658A1; JPWO2021220658A1; EP4145386A4

Abstract

[问题]为了进一步提高使用学生网络进行估计的准确性。[解决方案]提供一种信息处理装置，包括：估计单元，通过使用基于教师网络生成的学生网络估计与输入图像中包含的对象有关的对象类别，其中，教师网络通过使用保存在大规模图像数据库中的图像作为学习数据进行机器学习而生成。学生网络通过使用合成图像作为学习数据进行机器学习而生成，合成图像使用教师网络和实际环境图像而获得，真实环境图像是在预期由估计单元执行估计的实际环境中通过多个不同模态获取的。

Description

信息处理装置和程序

技术领域

本公开涉及信息处理装置和程序。

背景技术

近年来，作为模拟脑神经系统的机制的数学模型的神经网络已经引起关注。此外，已经提出了用于提高神经网络的训练效率的许多技术。例如，非专利文献1公开了用于即使在不能使用用于训练教师网络的训练数据时也从教师网络生成学生网络的技术。

现有技术文献

非专利文献

非专利文献1：Kartikeya Bhardwaj和另两位,“Dream Distillation:A Data-Independent Model Compression Framework”,2019年5月17日,[Online],[2020年4月1日检索],Internet<https://arxiv.org/pdf/1905.07072.pdf>

发明内容

[技术问题]

如在非专利文献1中描述的技术中，当使用教师网络产生的图像被用于训练学生网络时，为了提高学生网络进行估计的准确性，提高图像的质量是重要的。

[问题的解决方案]

根据本公开的一个方面，提供一种信息处理装置，所述信息处理装置包括：估计单元，使用基于教师网络生成的学生网络估计包含在输入图像中的对象的对象类别，其中，教师网络通过使用存储在大规模图像数据库中的图像作为训练数据进行机器学习而生成，其中，学生网络是通过将使用合成图像作为训练数据进行机器学习而生成的，该合成图像使用教师网络和真实环境图像而获得，该真实环境图像是在预期由估计单元执行估计的真实环境中通过多个不同模态获取的。

根据本发明的另一方面，提供一种信息处理装置，该信息处理装置包括：训练单元，基于教师网络生成学生网络，该教师网络通过使用存储在大规模图像数据库中的图像作为训练数据进行机器学习而生成，其中训练单元通过使用合成图像作为训练数据进行机器学习而生成该学生网络，其中，合成图像使用教师网络和真实环境图像而获得，该真实环境图像是在预期使用学生网络执行估计的真实环境中通过多个不同模态获取的。

根据本发明的另一方面，提供一种程序，用于使计算机用作信息处理装置，该信息处理装置包括：估计单元，使用基于教师网络生成的学生网络估计包含在输入图像中的对象的对象类别，该教师网络通过使用存储在大规模图像数据库中的图像作为训练数据进行机器学习而生成，其中该学生网络是通过使用合成图像作为训练数据进行机器学习而生成的，该合成图像使用教师网络和真实环境图像而获得，该真实环境图像在预期估计单元执行估计的真实环境中通过多个不同模态获取的。

附图说明

图1是用于说明使用学生网络对对象类别估计的示图。

图2是用于说明根据本公开的实施方式的使用通过多个模态获取的真实环境图像生成合成图像的示图。

图3是用于说明根据该实施方式的四个阶段的概况的示图。

图4是示出了根据实施方式的第一训练装置10的示例性配置的框图。

图5是示出根据实施方式的图像生成装置20的示例性配置的框图。

图6是示出根据本实施方式的使用图像生成单元210生成合成图像的流程的流程图。

图7是示出了根据本实施方式的第二训练装置30的示例性配置的框图。

图8是用于说明根据实施方式的在不同模态之间具有高相似度的合成图像的示图。

图9是示出根据实施方式的基于模态之间的相似度的合成图像的接受/拒绝确定和训练的流程的流程图。

图10是用于说明根据实施方式的在相同模态内具有高相似度的合成图像的示图。

图11是示出了根据实施方式的基于模态内的相似度的合成图像的接受/拒绝确定和训练的流程的流程图。

图12是示出根据实施方式的融合图像的实例的示图。

图13是示出根据实施方式的相同模态内的融合图像的生成和训练的流程的流程图。

图14是用于说明根据实施例的关注于多个不同模态的融合图像的示图。

图15是示出根据实施方式的不同模态之间的融合图像的生成和训练的流程的流程图。

图16是示出根据实施方式的用于对与每个模态有关的特征量分布进行相似化的处理的实例的示图。

图17是示出根据实施方式的估计装置40的示例性配置的框图。

图18是示出通过根据实施方式的估计装置40的处理的流程的流程图。

图19是示出根据实施方式的信息处理装置90的示例性硬件配置的框图。

具体实施方式

下面将参考附图详细描述本公开的优选实施例。而且，在本说明书和附图中，具有基本相同的功能配置的部件将由相同的参考标号表示，并且因此将省去其重复描述。

此外，将按照以下顺序给出描述。

1.实施例

1.1.背景技术

1.2.教师网络的生成

1.3.合成图像的生成

1.4.学生网络的生成

1.5.使用学生网络的估计

2.硬件配置示例

3.总结

<1.实施例>

<<1.1.背景技术>>

首先，将描述本公开的实施方式的概述。如上所述，近年来，已经提出了用于提高神经网络的训练效率的许多技术。这些技术包括例如称为知识蒸馏(knowledgedistillation)的技术。

知识蒸馏是用于从特定高精度训练网络(教师网络)生成与所需规范对应的新网络(学生网络)的技术。

例如，当期望从已经使用由大规模图像数据库提供的图像训练的通用教师网络生成更适合于真实环境的学生网络时，使用知识蒸馏。

然而，为了执行知识蒸馏，通常需要用于训练教师网络的训练数据。为此，如果用于训练教师网络的训练数据不可用，或如果可使用的训练数据量不足，则难以生成学生网络，或生成的学生网络的准确性可能降低。

另一方面，非专利文献1公开了用于在不使用用于训练教师网络的训练数据的情况下生成学生网络的技术。

在非专利文献1中公开的技术是将在真实环境中获取的真实环境图像输入到教师网络以生成合成图像，使用合成图像作为训练数据执行机器学习，生成学生网络。

根据该技术，即使在不能使用用于生成教师网络的训练数据的情况下，也可以基于教师网络生成学生网络。稍后将描述合成图像的细节。

这里，在使用如上所述的合成图像生成学生网络时，为了进一步提高生成的学生网络的准确性，提高用作训练数据的合成图像的质量是重要的。

在这里，将考虑生成估计输入图像中包含的对象的对象类别的学生网络的情况。

图1是用于说明使用学生网络进行对象类别估计的示图。图1示出使用利用合成图像生成的学生网络执行估计的估计装置(未示出)被安装在诸如汽车的移动体V上的情况。

例如，安装在移动体V上的估计装置实时估计包含在输入的捕捉图像中的对象O的对象类别，并且输出估计结果。对象O可以是例如野生动物，诸如兔子。根据上述估计，能够检测到兔子已向移动体V的行进方向跳出，使移动体V采取躲避动作等。

然而，这里，使用学生网络的对象类别的估计精确度受到在训练时使用的数据的极大影响。例如，如果在用作训练数据的图像的捕捉环境(位置、照度、距离、噪声、对象类型等)与在实际执行估计的真实环境中获取的图像的捕捉环境之间存在较大差异，则学生网络可能误估计对象O的对象类别。

因此，在学生网络的生成中使用的训练数据被要求接近于在真实环境中实际捕捉的图像。这在上述合成图像被用作训练数据时也适用。

根据本公开的技术构思专注于上述问题而被构思，并且使得能够进一步提高使用学生网络的估计的准确性。

因此，在本公开的一个实施例中，合成图像可使用在真实环境中通过多个模态获取的真实环境图像来产生，学生网络可使用合成图像来产生。

图2是用于说明根据本公开的实施方式的使用通过多个模态获取的真实环境图像生成合成图像的示图。图2示出了与三个不同模态对应的教师网络T1至T3被用于生成与不同模态相关的合成图像S1至S3的实例。

这里，根据本公开实施例的模态指的是用于捕获图像的装置。该表述也被广泛地用于医学领域，例如，以表达相同的含义。根据本实施例的模态的实例包括RGB相机、ToF相机、LiDAR、偏振相机等。

例如，当图2中示出的模态1是RGB相机时，教师网络T1使用通过分析从在真实环境中由RGB相机捕捉的多个RGB图像获得的特征量分布而产生的伪特征量来更新并获取模拟(imitate，模仿)RGB图像的合成图像S1，使得当特定合成图像被输入到教师网络T1时获得的特征量接近伪特征量。

例如，当图2所示的模态2是ToF照相机时，教师网络T2使用通过分析从在真实环境中由ToF照相机捕获的多个ToF图像获得的特征量分布而生成的伪特征量来更新并获取模拟ToF图像的合成图像S2，使得当特定合成图像被输入到教师网络T2时获得的特征量接近伪特征量。

例如，当图2中示出的模态3是偏振照相机时，教师网络T3使用通过分析从在真实环境中由偏振照相机捕获的多个偏振图像获得的特征量分布生成的伪特征量来更新并获取模拟偏振图像的合成图像S3，使得当特定合成图像被输入到教师网络T3时获得的特征量接近伪特征量。

在图2中所示的合成图像S1至S3中，模态之间的差异根据纹理的类型或存在来表示。

如上所述，根据本公开的实施例的合成图像可使用通过多个不同模态获取的真实环境图像和教师网络来生成。

例如，如图2所示，根据本实施例的合成图像可以基于将通过相应模态获取的真实环境图像输入到与单个模态相应的多个教师网络T1至T3中的每一个来生成。

根据本公开的实施例的学生网络的特征之一在于，学生网络使用如上所述生成的合成图像作为训练数据来生成。

根据上述特征，学生网络可广泛和有效地学习通过每种模态获取的图像中可出现的对象O的特性(例如，关于形状、颜色、距离、偏差等的信息)，并且可提高学生网络的估计准确性。

根据本公开的实施例的使用学生网络实现估计大致被划分为四个阶段。图3是用于说明根据本公开的实施方式的四个阶段的概要的示图。

根据本公开的一个实施例的阶段F1是用于生成教师网络的阶段。

根据本公开的一个实施例的阶段F2是用于使用在阶段F1中生成的教师网络来生成合成图像的阶段。

根据本公开的一个实施例的阶段F3是用于使用在阶段F2中生成的合成图像来生成教师网络的阶段。

根据本公开的一个实施例的阶段F4是使用在阶段F3中生成的学生网络执行估计的阶段。

在下文中，将详细描述每个上述阶段中的处理。

<<1.2.教师网络的生成>>

首先，将描述在阶段F1中用于生成教师网络的方法。在根据本实施例的阶段F1，使用第一训练装置10生成教师网络。

图4是示出根据本实施方式的第一训练装置10的示例性配置的框图。如图4所示，根据本实施例的第一训练装置10至少包括第一训练单元110。例如，第一训练装置10可进一步包括接受用户的操作的操作单元、显示各种信息的显示单元等。

(第一训练单元110)

根据本实施例的第一训练单元110使用存储在大规模DB 50中的图像作为训练数据执行机器学习，并生成教师网络。

关于通过第一训练单元110生成教师网络，可采用通常广泛使用的方法，因此，将省略详细流程的描述。例如，用于生成教师网络的大规模DB 50包括可在因特网上获得并且在机器学习领域中的研究和开发中广泛使用的各种数据库。通过使用具有高估计精度的数据生成教师网络，可提高由稍后生成的学生网络进行估计的准确性。

第一训练装置10可以设置在与后述的图像生成装置20、第二训练装置30不同的环境中。

<<1.3.合成图像的生成>>

接下来，将描述用于在阶段F2中生成合成图像的方法。在根据本实施例的阶段F2中，使用图像生成装置20生成合成图像。

图5是示出根据本实施方式的图像生成装置20的示例性配置的框图。如图5所示，根据本实施方式的图像生成装置20至少包括图像生成单元210。例如，第一训练装置10可进一步包括接受用户的操作的操作单元、显示各种信息的显示单元等。

根据本实施例的图像生成装置20安装在主要开发现场。开发现场包括云环境。

(图像生成单元210)

根据本实施例的图像生成单元210使用在阶段F1生成的教师网络和在预期由在阶段3生成的学生网络执行估计的真实环境中通过多个不同模态获取的真实环境图像来生成合成图像。

根据本实施方式的图像生成单元210使用例如存储在真实环境DB 60中的真实环境图像生成合成图像，并且将生成的合成图像存储在生成图像DB 70中。

根据本实施例的合成图像可以基于对通过将真实环境图像输入到教师网络而获得的特征量添加噪声而生成。

在下文中，将详细描述通过根据本实施方式的图像生成单元210生成合成图像。图6是示出根据本实施方式的使用图像生成单元210的合成图像生成的流程的流程图。

在根据本实施例的阶段F2中，首先，指定与要生成的合成图像有关的模态和对象类别(S202)。该指定可以由用户(开发者等)做出。

接下来，图像生成单元210基于在步骤S202中指定的模态和对象类别，从真实环境DB 60获取对应的真实环境图像(S204)。

接下来，图像生成单元210将在步骤S204中获取的真实环境图像输入到教师网络并获取特征量(S206)。特征量可以是在教师网络中平均池化(average pooling)之后的特征量。

接下来，图像生成单元210使用t-SNE等将在步骤S206中获取的特征量投影到特定空间上(S208)。

图像生成单元210重复执行步骤S204至S208的处理，直到收集了足够数量的数据。

此处，当收集了足够数量的数据时，图像生成单元210获取指定数量的集群中心并且执行K均值(S210)。

接下来，图像生成单元210从在步骤S210中获得的群集数据中获得主成分(S212)。应注意，在步骤S208中不必执行使用上述t-SNE等在空间上的投影。

接下来，图像生成单元210通过在步骤S212中获得的主成分方向上添加噪声来生成新的特征量(S214)。

也就是说，可以说，根据本实施例的合成图像基于在通过将真实环境图像输入到教师网络而获得的特征量分布中的主成分方向上添加噪声而生成。

随后，图像生成单元210生成合成图像，使得在步骤S206中获取的特征量和在步骤S214中生成的特征量之间的差减小(S216)。

也就是说，可以说，根据本实施例的合成图像被生成为使得通过将真实环境图像输入到教师网络而获得的平均池化后的特征量与对特征量在主成分方向上添加了噪声的特征量之间的差减小。

该处理可以由下面的数学公式(1)表示。

[数学式.1]

在上述公式(1)中，X_i是所生成的合成图像，g(X_i)是当X被输入时在教师网络中平均池化之后的特征量，并且t_i是通过在主成分方向上添加噪声所生成的特征量。

根据本实施例的图像生成单元210重复执行步骤S214和S216的处理，直到生成预定数量的合成图像为止。

当生成与另一模态或对象类别有关的合成图像时，图像生成单元210可以返回至步骤S202并且重复地执行以下处理。

上面已经描述了根据本实施方式的合成图像生成的流程。关于更详细的方法，参考上述非专利文献1。

<<1.4.学生网络的生成>>

接下来，将描述在阶段F3中生成学生网络的方法。在根据本实施例的阶段F3中，使用第二训练装置30生成学生网络。根据本实施例的第二训练装置30是通过使用在阶段F2中生成的合成图像作为训练数据进行机器学习而生成学生网络的信息处理装置的实例。

图7是示出根据本实施方式的第二训练装置30的示例性配置的框图。如图7所示，本实施例的第二训练装置30至少包括第二训练单元310。例如，第一训练装置10可进一步包括接受用户的操作的操作单元、显示各种信息的显示单元等。

本实施例的第二训练装置30设置于主要的开发场所。开发站点包括云环境。

(第二训练单元310)

根据本实施例的第二训练单元310是基于教师网络生成学生网络的训练单元的实例，其中，教师网络通过使用存储在大规模DB 50中的图像作为训练数据进行机器学习而生成。根据本实施例的第二训练单元310的特征之一是通过使用合成图像作为训练数据进行机器学习而生成学生网络，合成图像使用教师网络和真实环境图像而获得，真实环境图像是在预期使用学生网络执行估计的真实环境中通过多个不同模态获取的。

例如，根据本实施例的第二训练单元310从生成图像DB 70获取阶段F2中生成的合成图像，并使用合成图像作为训练数据来生成学生网络。第二训练单元310可以使用存储在真实环境DB中的真实环境图像作为训练数据。

此时，根据本实施例的第二训练单元310可仅使用真实环境图像和将存储在生成图像DB 70中的合成图像之中的被预测为进一步提高学生网络的估计的准确性的合成图像作为训练数据。

如上所述的合成图像的选择使得可以更有效地提高由生成的学生网络进行的估计的准确性。

例如，根据本实施例的第二训练单元310可将所生成的合成图像中不同模态之间的相似度超过阈值的合成图像用作训练数据。

图8是用于说明根据本实施方式的在不同模式之间具有高度相似性的合成图像的图。图8示出了与对象类别“兔”相关的合成图像S11至S13、S21至S23、以及S31至S33。这里，假设合成图像S11至S13、S21至S21以及S31至S33与不同的模态相关。

在图8所示的实例的情况下，在合成图像S22和S32中，作为对象的兔的一只耳朵丢失，并且与合成图像S12的相似度低。由此，可以从训练数据中排除在不同模态之间具有低相似度的合成图像。

根据如上所述的基于不同模态之间的相似度的合成图像的接受/拒绝确定，预期将有效地提高所生成的学生网络的估计的准确性。

当能够获取在所有模态中具有几乎相同形状的数据时，预期上述接受/拒绝确定特别有效。

可以使用诸如模板匹配和特征点匹配的技术来计算相似度。在上述相似度计算中，可以使用用于确定相似图像的深度学习等。

图9是示出根据本实施方式的基于模态之间的相似度的合成图像的接受/拒绝确定和训练的流程的流程图。

首先，第二训练单元310计算生成的合成图像在不同模态之间的相似度(S302)。

接下来，第二训练单元310排除在步骤S302中计算处的相似度等于或小于阈值的合成图像(S304)。

接下来，第二训练单元310使用剩余的合成图像和真实环境图像作为训练数据执行训练，生成学生网络(S306)。

如上所述，根据本实施例的学生网络可以通过使用生成的合成图像中不同模态之间的相似度超过阈值的合成图像进行机器学习而生成。

另一方面，根据本实施例的第二训练单元310可将所生成的合成图像中在相同模态下的相似度超过阈值的合成图像用作训练数据。

图10是用于说明根据本实施方式的在相同模态内具有高相似度的合成图像的示图。图10示出了与对象类别“兔”相关的合成图像S11至S13、S21至S23、以及S31至S33。这里，假设合成图像S11至S13、S21至S21以及S31至S33与不同的模态相关。

在图10中所示的实例的情况下，合成图像S23缺少作为对象的兔的一只耳朵，并且与涉及相同模态的合成图像S21和S22具有低相似性度。类似地，合成图像S31缺少作为对象的兔的一只耳朵，并且与涉及相同模态的合成图像S32和合成图像S33具有低相似度。由此，可以从训练数据中排除在相同模态内具有低相似度的合成图像。

根据基于与如上所述的相同模态内的相似度对合成图像的接受/拒绝确定，预期将有效地提高由生成的学生网络进行的估计的准确性。

预期当模态中的形状变化小时，上述接受/拒绝确定特别有效。在这种情况下，基于相同模态中的相似度的接受/拒绝确定与基于不同模态之间的相似度的接受/拒绝确定不同，并且即使在各模态的特征量分布不相似的情况下也是有效的。

图11是示出根据本实施方式的基于模态的相似度进行合成图像的接受/拒绝确定和训练的流程的流程图。

首先，第二训练单元310计算所生成的合成图像在相同模态内的相似度(S312)。

接下来，第二训练单元310排除在步骤S312中计算出的相似度等于或小于阈值的合成图像(S314)。

接下来，第二训练单元310使用剩余的合成图像和真实环境图像作为训练数据执行训练，生成学生网络(S316)。

如上所述，可在产生的合成图像中，通过使用在相同模态下的相似度超过阈值的合成图像的机器学习来产生根据本实施例的学生网络。

在以上描述中，已经描述了从多个生成的合成图像中选择将被采用作为训练数据的合成图像的情况。相反，根据本实施例的第二训练单元310可通过融合所生成的多个合成图像来生成新的合成图像，并使用该新的合成图像作为训练数据。在下文中，新的合成图像将被称为融合图像。

也就是说，根据本实施例的学生网络可通过使用融合图像进行机器学习而生成，融合图像通过对生成的多个合成图像进行融合而获得。

图12是示出根据本实施方式的融合图像的实例的示图。图12示出了通过融合与相同模态有关的合成图像S11和S12生成的融合图像S13。类似地，图12示出了通过融合与相同模态有关的合成图像S21和S22而生成的融合图像S23。类似地，图12示出了通过融合与相同模态有关的合成图像S31和S32而生成的融合图像S33。

如图12所示，根据本实施例的融合图像可通过融合所生成的合成图像中与同一对象类别相关的多个合成图像来生成。

根据本实施例的融合图像可以通过融合所生成的合成图像之中在相同模态内的相似度超过阈值的多个合成图像来生成。

在上述情况下，为了增加相似度，可以执行诸如对准和旋转的处理。

如果相似度足够高，则融合图像可以通过融合与不同模态相关的合成图像来生成。

通过如上所述生成融合图像，可以生成不能在特征量空间中表达的数据，并且可以提高训练数据的多样性。

图13是示出根据本实施方式的在相同模态内的融合图像的生成和训练的流程的流程图。

首先，第二训练单元310计算所生成的合成图像在相同模态内的相似度(S322)。

接下来，第二训练单元310对在步骤S322中计算出的相似度超过阈值的合成图像进行融合以生成融合图像(S324)。

接下来，第二训练单元310使用包括在步骤S324中生成的融合图像的合成图像和真实环境图像作为训练数据执行训练，生成学生网络(S326)。在这种情况下，通过融合多个真实环境图像获得的图像可被用作训练数据。

接下来，将描述根据本实施例的关注于多个不同模态的融合图像。图14是用于说明根据本实施方式的关注于多个不同模态的融合图像的示图。

图14示出通过连接合成图像S11、S21和S31而生成的融合图像S41以及合成图像S11、S21和S31，合成图像S11、S21和S31是与不同模态相关的合成图像。

如上所述，根据本实施例的融合图像可通过连接与多个不同模态有关的合成图像而生成。

更具体地，根据本实施例的融合图像可以通过在信道方向上连接多个所生成的合成图像而生成，其中，多个所生成的合成图像的不同模态之间的相似度超过阈值。

当在所有模态下可以获得具有几乎相同形状的数据时，预期上述融合图像的生成特别有效。另外，根据如上所述的融合图像，由于可以利用所有模态的信息，所以预期将提高生成的学生网络的估计的准确性。

图15是示出根据本实施方式的不同模态之间的融合图像的生成和训练的流程的流程图。

首先，第二训练单元310计算所生成的合成图像在不同模态之间的相似度(S332)。

接下来，第二训练单元310在信道方向上连接在步骤S332中计算的相似度超过阈值的合成图像，以生成融合图像(S334)。

接下来，第二训练单元310使用包括在步骤S334中生成的融合图像的合成图像和真实环境图像作为训练数据执行训练，产生学生网络(S336)。在这种情况下，可以将其中在信道方向上连接与不同模态相关的多个真实环境图像的图像用作训练数据。

已经用具体实例描述了根据本实施方式的生成合成图像的实例。通过使用如上所述的合成图像作为训练数据，可有效地提高由生成的学生网络进行的估计的准确性。

当如上所述基于与不同模态有关的合成图像的相似度来执行处理时，预期每个模态的特征量分布是相似的。

然而，实际上，不能保证模态之间的特征量分布将匹配。因此，如果不执行处理，可能不能获得相似的图像，并且即使用于生成合成图像的噪声值相同，也可能意味着特征量空间中的不同距离和方向。

鉴于上述情况，根据本实施例的合成图像可以基于对通过将真实环境图像输入到教师网络而获得的与每个模态相关的特征量分布进行相似化的处理来生成。可以对与在相同时刻从相同方向获取的多个模态相关的真实环境图像执行处理。

根据上述处理，可以吸收模态间的特征量分布的差异，并且生成更有用的合成图像作为训练数据。

图16是示出根据本实施方式的用于使与各个模态有关的特征量分布相似的处理的实例的示图。在该处理中，首先，获取在相同时刻从相同方向获取的与多个模态有关的真实环境图像。

在图16中示出的实例的情况下，第一训练单元110生成图像E11，其中，在信道方向上连接如上所述获取的多个真实环境图像，并且通过使用图像E11作为训练数据进行机器学习来生成教师网络T4。

通过使用如上所述生成的教师网络T4，可以生成与用于生成图像E11的所有模态有关的合成图像S41。

此外，使与每个模态有关的特征量分布相似的处理可包括：减少通过将与特定模态有关的真实环境图像输入到教师网络而获得的特征量与通过将与不同于特定模态的另一模态有关的真实环境图像输入到教师网络而获得的特征量之间的特征量空间上的距离的处理。

该处理包括例如域适配。例如，当X_s是从由RGB相机获取的真实环境图像获得的特征量，并且X_t是从由ToF相机获取的真实环境图像获得的特征量时，第一训练单元110可执行训练，使得X_s的分布和X_t的分布彼此接近。

另外，使与每个模态有关的特征量分布相似的处理可包括将通过将与特定模态有关的真实环境图像输入到教师网络而获得的特征量转换为通过将与不同于特定模态的另一模态有关的真实环境图像输入到教师网络而获得的特征量的处理。

根据本实施方式的第一训练单元110可以使用机器学习方法等获得将与特定模态有关的特征量投影到与另一模态有关的特征量上的变换矩阵，并且使用变换矩阵变换特征量。

例如，当X_s是从由RGB相机获取的真实环境图像获得的特征量，并且X_t是从由ToF相机获取的真实环境图像获得的特征量时，第一训练单元110可通过获得满足X_t＝AX_s+B的这种A和B来实现特征量的变换。虽然在此示出了线性回归问题作为实例，但是可以通过非线性回归问题来获得变换矩阵。

如上所述，示出根据本实施例的用于使与各模态有关的特征量分布相似的处理的具体实例。这仅是示例，并且可以使用其他装置来改进与每个模态有关的特征量分布的相似度。

<<1.5.使用学生网络的估计>>

接下来，将描述阶段F4中使用学生网络的估计。在根据本实施例的阶段F4中，执行使用在阶段F3中生成的学生网络的估计。根据本实施例的估计装置40是使用学生网络估计对象类别的信息处理装置的实例。

图17是示出了根据本实施方式的估计装置40的示例性配置的框图。如图17所示，根据本实施方式的估计装置40至少包括获取单元410和估计单元420。例如，估计装置40可进一步包括接收用户的操作的操作单元、显示各种信息的显示单元等。估计装置40可安装在移动体(例如，汽车)上。

(获取单元410)

根据本实施例的获取单元410获取真实环境中的图像。更具体地，根据本实施例的获取单元410通过用于获取真实环境图像的多个模态中的至少一个模态来获取图像，其中，真实环境图像用于生成用于训练由估计单元420使用的学生网络的合成图像。

例如，当RGB相机和ToF相机用于获取用于生成合成图像的真实环境图像时，获取单元410使用RGB相机和ToF相机中的至少一个来获取图像。

(估计单元420)

根据本实施例的估计单元420使用基于教师网络生成的学生网络来估计与包含在输入图像中的对象有关的对象类别，其中，该教师网络通过使用存储在大规模图像数据库中的图像进行机器学习生成的。

例如，根据本实施例的估计单元420可以估计与包含在由获取单元410获取的图像中的对象相关的对象类别。如果存在通过用于获取用于生成合成图像的真实环境图像的模态中的至少一种模态获取的图像，则根据本实施例的估计单元420可将图像输入到学生网络并输出估计结果。

以下，说明本实施例的估计装置40的估计流程。图18是表示本实施方式的估计装置40的处理的流程的流程图。

如图18所示，首先，获取单元410获取与用于获取用于生成合成图像的真实环境图像的模态相同的模态的图像(S402)。

接下来，估计单元420将在步骤S402中获取的图像输入到学生网络，并估计包含在图像中的对象的对象类别(S406)。

随后，估计单元420输出估计结果(S406)。估计结果可以显示在例如包括在估计装置40或移动体中的显示单元上，或者可以用于控制包括在移动体中的每个装置(例如，刹车、转向等)。

<2.硬件配置示例>

接下来，将描述与根据本公开的实施方式的第一训练装置10、图像生成装置20、第二训练装置30以及估计装置40相同的示例性硬件配置。图19是示出根据本公开的实施方式的信息处理装置90的示例性硬件配置的框图。信息处理装置90可以是具有与每个上述装置相同的硬件配置的装置。如图19中所示，信息处理装置90包括例如处理器871、ROM 872、RAM873、主机总线874、桥接器875、外部总线876、接口877、输入装置878、输出装置879、存储器880、驱动器881、连接端口882以及通信装置883。这里所示的硬件配置是示例，并且可以省略一些组件。此外，还可以包括除本文所示的组件之外的组件。

(处理器871)

例如，处理器871用作运算处理装置或控制装置，并且基于记录在ROM 872、RAM873、存储器880、或者可移除记录介质901中的各种程序，控制组件的全部或者一些操作。

(ROM872、RAM873)

ROM 872是用于存储读取到处理器871中的程序、用于计算的数据等的装置。在RAM873中，临时或永久地存储读取到处理器871中的程序、当执行程序时适当改变的各种参数等。

(主机总线874、桥接器875、外部总线876、接口877)

处理器871、ROM 872和RAM 873经由例如能够进行高速数据传输的主机总线874彼此连接。另一方面，主机总线874经由例如桥接器875连接到具有相对低的数据传输速度的外部总线876。此外，外部总线876通过接口877连接到各种部件。

(输入装置878)

输入装置878例如使用鼠标、键盘、触摸面板、按钮、开关、控制杆等。此外，可以使用能够使用红外线或其他无线电波发射控制信号的遥控器作为输入装置878。输入装置878包括诸如麦克风的语音输入装置。

(输出装置879)

输出装置879例如是能够将所获取的信息在视觉上或听觉上通知用户的装置，诸如CRT(阴极射线管)、LCD或有机EL的显示装置、诸如扬声器或耳机的音频输出装置、打印机、移动电话、传真机等。根据本公开的输出装置879包括能够输出触觉刺激的各种振动装置。

(存储器880)

存储器880是用于存储各种类型的数据的装置。作为存储器880，例如，使用诸如硬盘驱动器(HDD)的磁存储装置、半导体存储装置、光存储装置、磁光存储装置等。

(驱动器881)

驱动器881是读取记录在诸如磁盘、光盘、磁光盘或半导体存储器的可移除记录介质901上的信息或者将信息写入可移除记录介质901的装置。

(可移除记录介质901)

例如，可移除记录介质901是DVD介质、蓝光(注册商标)介质、HDDVD介质、各种半导体存储介质等。自然地，可移除记录介质901可以是例如配备有非接触型IC芯片的IC卡、电子装置等。

(连接端口882)

连接端口882是用于连接外部连接装置902的端口，例如，USB(通用串行总线)端口、IEEE1394端口、SCSI(小型计算机系统接口)、RS-232C端口或光学音频终端。

(外部连接装置902)

例如，外部连接装置902是打印机、便携式音乐播放器、数码相机、数码摄像机、IC记录器等。

(通信装置883)

通信装置883是用于连接到网络的通信装置，并且例如是用于有线或无线LAN、蓝牙(注册商标)或WUSB(无线USB)的通信卡、用于光通信的路由器、用于ADSL(非对称数字用户线路)的路由器或用于各种通信的调制解调器。

<3.总结>

如上所述，根据本公开的实施例的估算装置40包括估算单元420，估算单元420使用基于教师网络生成的学生网络估计包含在输入图像中的对象的对象类别，其中，教师网络通过使用存储在大规模图像数据库中的图像作为训练数据进行机器学习而生成。

根据本公开的实施例的第二训练装置30包括第二训练单元310，第二训练单元310基于教师网络生成学生网络，其中，教师网络是通过使用存储在大规模图像数据库中的图像作为训练数据进行机器学习而生成的。根据本公开的一个实施例的第二训练单元310的特征之一是通过使用合成图像作为训练数据进行机器学习而生成学生网络，其中，合成图像使用教师网络和真实环境图像而获得，真实环境图像是在预期使用学生网络执行估计的真实环境中通过多个不同模态获取的。

根据上述配置，可进一步提高使用学生网络的估计的准确性。

虽然已经参考如上所述的附图详细描述了本公开的优选实施例，但是本公开的技术范围不限于这样的示例。显然，对于本公开的技术领域普通技术人员而言，能够想到在权利要求中阐述的技术构思的范围内的各种变形例或变形例，并且应当理解，这些变形例或变形例自然也落入本公开的技术范围内。

例如，本技术可以应用于使声源可视化的图像。近年来，已经开发了用于从声源生成图像的各种技术。例如，图像生成装置20可使用可视化声源的图像来生成合成图像，第二训练装置30可使用合成图像来生成学生网络。在这种情况下，估计装置40还可使用如上所述生成的学生网络估计与声源相关的类别。

此外，与本说明书中描述的处理相关的步骤不一定必须按照流程图或顺序图中描述的顺序按照时间顺序处理。例如，与每个装置的处理相关的步骤可以按照与所描述的顺序不同的顺序处理，或者可以并行地处理。

本说明书中描述的每个装置的一系列处理可以使用软件、硬件、或者软件和硬件的组合来实现。构成软件的程序被预先存储在例如设置在每个装置内部或外部的记录介质(非暂时性介质)中。然后，例如，每个程序在由计算机执行时被读取到RAM中并且由各种处理器执行。记录介质是例如磁盘、光盘、磁光盘或闪存。此外，上述计算机程序可以经由例如网络分布，而不使用记录介质。

此外，在本说明书中描述的效果仅仅是解释性或示例性的，并非旨在进行限制。即，除了上述效果之外或者代替上述效果，根据本公开的技术可表现出从本文的描述中对于本领域技术人员显而易见的其他效果。

此外，以下配置也落入本公开的技术范围内。

(1)一种信息处理装置，包括：估计单元，使用基于教师网络生成的学生网络估计包含在输入图像中的对象的对象类别，教师网络通过使用存储在大规模图像数据库中的图像作为训练数据进行机器学习而生成，其中学生网络是通过使用合成图像作为训练数据进行机器学习而生成的，该合成图像使用教师网络和真实环境图像而获得，真实环境图像是在预期由估计单元执行估计的真实环境中通过多个不同模态获取的。

(2)根据(1)所述的信息处理装置，其中，合成图像是基于对通过将真实环境图像输入到教师网络而获得的特征添加噪声而生成的。

(3)根据(2)所述的信息处理装置，其中，合成图像是基于在通过将真实环境图像输入到教师网络而获得的特征量分布中的主分量方向上添加噪声而生成的。

(4)根据(3)所述的信息处理装置，其中，生成合成图像，使得通过将真实环境图像输入教师网络而获得的平均池化后的特征量与对特征量在主分量方向上添加噪声得到的特征量之间的差减小。

(5)根据(1)至(4)中任一项所述的信息处理装置，其中，学生网络是通过使用所生成的合成图像之中的在不同模态之间的相似度超过阈值的合成图像进行机器学习而生成的。

(6)根据(1)至(5)中任一项所述的信息处理装置，其中，学生网络是通过使用所生成的合成图像之中的在相同模态下的相似度超过阈值的合成图像进行机器学习而生成的。

(7)根据(1)至(6)中任一项所述的信息处理装置，其中，学生网络是通过使用融合图像进行机器学习而生成的，其中，融合图像是通过融合多个所生成的合成图像而获得的。

(8)根据(7)所述的信息处理装置，其中，融合图像是通过融合所生成的合成图像中的相似度超过阈值的多个合成图像而生成的。

(9)根据(7)或(8)所述的信息处理装置，其中，融合图像是通过融合所生成的合成图像之中的与相同对象类别相关的多个合成图像而生成的。

(10)根据(7)至(9)中任一项所述的信息处理装置，其中，融合图像是通过连接与多个不同模态有关的合成图像而生成的。

(11)根据(10)所述的信息处理装置，其中，融合图像是通过在信道方向上将不同模态间的相似度超过阈值的多个所生成的合成图像连接起来而生成的。

(12)根据(1)至(11)中任一项所述的信息处理装置，其中，合成图像是基于将通过相应模态获取的真实环境图像输入到对应于单个模态的多个教师网络中的每一个而生成的。

(13)根据(1)至(11)中任一项所述的信息处理装置，其中，合成图像是基于使通过将真实环境图像输入到教师网络而获得的与每个模态有关的特征量分布相似的处理而生成的。

(14)根据(13)所述的信息处理装置，其中，合成图像使用教师网络而生成，教师网络通过使用在信道方向上通过连接与在相同时刻从相同方向获取的多个模态有关的真实环境图像而获得的图像作为训练数据进行机器学习而生成。

(15)根据(13)所述的信息处理装置，其中，合成图像是基于减小通过将与特定模态有关的真实环境图像输入到教师网络而获得的特征量与通过将与特定模态不同的另一模态有关的真实环境图像输入到教师网络而获得的特征量之间的特征量空间上的距离的处理而生成。

(16)根据(13)所述的信息处理装置，其中，合成图像是基于对通过将与特定模态有关的真实环境图像输入到教师网络而获得的特征量和通过将与特定模态不同的另一模态有关的真实环境图像输入到教师网络而获得的特征量进行变换的处理而生成。

(17)根据(1)至(16)中任一项所述的信息处理装置，进一步包括：获取单元，获取真实环境中的图像，其中，估计单元估计与获取单元获取的图像中包含的对象有关的对象类别。

(18)根据(17)所述的信息处理装置，其中，获取单元通过用于获取用于生成合成图像的真实环境图像的多个模态中的至少一个模态来获取图像。

(19)一种信息处理装置，包括：训练单元，基于教师网络生成学生网络，该教师网络通过使用存储在大规模图像数据库中的图像作为训练数据进行机器学习而生成，其中，该训练单元通过使用合成图像作为训练数据进行机器学习而生成学生网络，该合成图像使用教师网络和真实环境图像而获得，该真实环境图像是在预期使用学生网络执行估计的真实环境中通过多个不同模态获取的。

(20)一种程序，用于使计算机用作信息处理装置，该信息处理装置包括：估计单元，使用基于教师网络生成的学生网络估计包含在输入图像中的对象的对象类别，其中，教师网络通过使用存储在大规模图像数据库中的图像作为训练数据进行机器学习而生成，其中，学生网络是通过使用合成图像作为训练数据进行机器学习而生成的，合成图像使用教师网络和真实环境图像而获得，真实环境图像是在预期由估计单元执行估计的真实环境中通过多个不同模态获取的。

符号说明

10 第一训练装置

110 第一训练单元

20 图像生成装置

210 图像生成单元

30 第二训练装置

310 第三训练单元

40 估计单元

410 获取单元

420 估计单元

50 大规模DB

60 真实环境DB

70 生成图像DB。

Claims

1.一种信息处理装置，包括：

估计单元，使用基于教师网络生成的学生网络估计包含在输入图像中的对象的对象类别，其中，所述教师网络通过使用存储在大规模图像数据库中的图像作为训练数据进行机器学习而生成，其中

所述学生网络是通过使用合成图像作为训练数据进行机器学习而生成的，其中，所述合成图像是使用所述教师网络和真实环境图像而获得的，所述真实环境图像是在预期由所述估计单元执行估计的真实环境中通过多个不同模态获取的。

2.根据权利要求1所述的信息处理装置，其中，

所述合成图像是基于对通过将所述真实环境图像输入到所述教师网络而获得的特征量添加噪声而生成的。

3.根据权利要求2所述的信息处理装置，其中，

所述合成图像是基于在通过将所述真实环境图像输入到所述教师网络而获得的特征量分布中的主成分方向上添加噪声而生成的。

4.根据权利要求3所述的信息处理装置，其中，

生成所述合成图像，使得通过将所述真实环境图像输入所述教师网络而获得的平均池化后的特征量与对特征量在所述主成分方向上添加了噪声的特征量之间的差减小。

5.根据权利要求1所述的信息处理装置，其中，

所述学生网络是通过使用所生成的合成图像之中的在不同模态之间的相似度超过阈值的合成图像进行机器学习而生成的。

6.根据权利要求1所述的信息处理装置，其中，

所述学生网络是通过使用所生成的合成图像之中的在相同模态下的相似度超过阈值的合成图像进行机器学习而生成的。

7.根据权利要求1所述的信息处理装置，其中，

所述学生网络是通过使用融合图像进行机器学习而生成的，其中，所述融合图像是通过融合多个所生成的合成图像而获得的。

8.根据权利要求7所述的信息处理装置，其中，

所述融合图像是通过融合所生成的合成图像之中的相似度超过阈值的多个合成图像而生成的。

9.根据权利要求7所述的信息处理装置，其中，

所述融合图像是通过融合所生成的合成图像之中的与相同对象类别相关的多个合成图像而生成的。

10.根据权利要求7所述的信息处理装置，其中，

所述融合图像是通过连接与多个不同模态有关的合成图像而生成的。

11.根据权利要求10所述的信息处理装置，其中，

所述融合图像是通过在信道方向上将不同模态间的相似度超过阈值的多个所生成的合成图像连接起来而生成的。

12.根据权利要求1所述的信息处理装置，其中，

所述合成图像是基于将通过相应模态获取的真实环境图像输入到与单个模态相应的多个所述教师网络中的每一个而生成的。

13.根据权利要求1所述的信息处理装置，其中，

所述合成图像是基于使通过将所述真实环境图像输入到所述教师网络而获得的与每个模态有关的特征量分布相似的处理而生成的。

14.根据权利要求13所述的信息处理装置，其中，

所述合成图像使用所述教师网络而生成，所述教师网络通过使用在信道方向上通过连接与在相同时刻从相同方向获取的多个模态有关的真实环境图像而获得的图像作为训练数据进行机器学习而生成。

15.根据权利要求13所述的信息处理装置，其中，

所述合成图像是基于减小通过将与特定模态有关的真实环境图像输入到所述教师网络而获得的特征量与通过将与所述特定模态不同的另一模态有关的真实环境图像输入到所述教师网络而获得的特征量之间的特征量空间上的距离的处理而生成的。

16.根据权利要求13所述的信息处理装置，其中，

所述合成图像是基于对通过将与特定模态有关的真实环境图像输入到所述教师网络而获得的特征量和通过将与所述特定模态不同的另一模态有关的真实环境图像输入到所述教师网络而获得的特征量进行变换的处理而生成的。

17.根据权利要求1所述的信息处理装置，进一步包括获取单元，所述获取单元获取所述真实环境中的图像，其中，

所述估计单元估计与所述获取单元获取的图像中包含的对象有关的对象类别。

18.根据权利要求17所述的信息处理装置，其中，

所述获取单元通过用于获取用于生成所述合成图像的所述真实环境图像的多个模态中的至少一个模态来获取图像。

19.一种信息处理装置，包括：

训练单元，基于教师网络生成学生网络，所述教师网络通过使用存储在大规模图像数据库中的图像作为训练数据进行机器学习而生成，其中

所述训练单元通过使用合成图像作为训练数据进行机器学习而生成所述学生网络，所述合成图像使用所述教师网络和真实环境图像而获得，所述真实环境图像是在预期使用所述学生网络执行估计的真实环境中通过多个不同模态获取的。

20.一种程序，用于使计算机用作信息处理装置，所述信息处理装置包括：

估计单元，使用基于教师网络生成的学生网络估计包含在输入图像中的对象的对象类别，其中，所述教师网络通过使用存储在大规模图像数据库中的图像作为训练数据进行机器学习而生成，其中，

所述学生网络是通过使用合成图像作为训练数据进行机器学习而生成的，所述合成图像使用所述教师网络和真实环境图像而获得，所述真实环境图像是在预期由所述估计单元执行估计的真实环境中通过多个不同模态获取的。