CN110582783A

CN110582783A - 训练装置、图像识别装置、训练方法和程序

Info

Publication number: CN110582783A
Application number: CN201780089794.5A
Authority: CN
Inventors: 小野大地
Original assignee: Sony Interactive Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2017-04-26
Filing date: 2017-04-26
Publication date: 2019-12-17
Anticipated expiration: 2037-04-26
Also published as: JPWO2018198233A1; EP3617991A4; WO2018198233A1; US20210056464A1; EP3617991A1; US11403560B2; JP6722351B2; CN110582783B

Abstract

提供的是可以利用已经使用CG图像训练过的分类器来提高捕获图像的识别的准确度的学习设备、图像识别设备、学习方法和程序。中间特征量识别单元(44)识别中间特征量。偏移特征量识别单元(46)基于CG中间特征量和捕获图像中间特征量来识别偏移特征量。偏移后中间特征量识别单元(48)基于与CG图像相关联的中间特征量和偏移特征量来识别与CG图像相关联的偏移后中间特征量。当使用与CG图像相关联的偏移后中间特征量对捕获图像进行识别时，第二分类器训练单元(50)训练接收与捕获图像相关联的中间特征量的第二分类器(40b)。

Description

训练装置、图像识别装置、训练方法和程序

技术领域

本发明涉及训练装置、图像识别装置、训练方法和程序。

背景技术

近年来，在机器学习领域中，使用分类器对摄影图像进行图像识别的技术受到了关注。

语义分割是使用分类器对摄影图像进行图像识别的技术之一。通过语义分割，为包括在输入摄影图像中的每个像素识别像素的含义，诸如由像素表示的对象。

此外，存在使用分类器对摄影图像进行图像识别的技术的其它示例。这些技术的示例包括用于识别输入的摄影图像是什么的技术和用于识别输入的摄影图像中放置了什么的技术。

发明内容

[技术问题]

为了提高使用诸如语义分割的分类器对摄影图像进行图像识别的精度，需要使用大量摄影图像对分类器进行训练。然而，获取大量的摄影图像是困难的。针对这种情况，一种可能的方法是使用由计算机图形技术创建的计算机图形(CG)图像而不是使用摄影图像来训练分类器。

然而，即使CG图像与摄影图像相似，CG图像与摄影图像之间的特征也存在差异。此外，由于特征中的差异，使用利用CG图像训练过的分类器来提高对摄影图像进行图像识别的精度是有限的。

本发明是针对上述问题而做出的。本发明的目的之一是提供能够使用已经利用CG图像训练过的分类器来提高对摄影图像进行图像识别的精度的训练装置、图像识别装置、训练方法和程序。

[问题的解决方案]

为了解决上述问题，根据本发明的训练装置包括：中间特征识别部分，其被配置为在图像的输入数据被输入到第一分类器的情况下，将来自包括在第一分类器的中间层中的输出识别为与图像相关联的中间特征，第一分类器被配置为对CG图像和摄影图像进行分类；偏移特征识别部分，其被配置为基于以下来识别偏移特征：与一个CG图像相关联的中间特征、或每一个都与多个CG图像的对应一个相关联的多个中间特征；以及与一个摄影图像相关联的中间特征、或每一个都与多个摄影图像的对应一个相关联的多个中间特征；偏移后中间特征识别部分，其被配置为基于与CG图像相关联的中间特征和偏移特征识别与CG图像相关联的偏移后中间特征；以及训练部分，其被配置为使用每一个都与多个CG图像的对应一个相关联的多个偏移后中间特征来执行第二分类器的训练，第二分类器被配置为在对摄影图像执行图像识别的情况下接收与摄影图像相关联的中间特征。

在本发明的一个方面，偏移特征识别部分被配置为基于每一个都与多个CG图像的对应一个相关联的多个中间特征的代表值、以及每一个都与多个摄影图像的对应一个相关联的多个中间特征的代表值来识别偏移特征。

此外，在本发明的一个方面，第一分类器包括已经使用CG图像的训练数据和摄影图像的训练数据训练过的分类器。

此外，根据本发明的图像识别装置包括：中间特征识别部分，其被配置为在图像的输入数据被输入到第一分类器的情况下，将来自包括在第一分类器的中间层中的输出识别为与图像相关联的中间特征，第一分类器被配置为对CG图像和摄影图像进行分类；偏移后中间特征识别部分，其被配置为基于以下来识别与摄影图像相关联的偏移后图像：与经受图像识别的摄影图像相关联的中间特征；以及基于以下的偏移特征：与一个CG图像相关联的中间特征、或每一个都与多个CG图像的对应一个相关联的多个中间特征；并且与一个摄影图像相关联的中间特征、或每一个都与多个摄影图像的对应一个相关联的多个中间特征；以及图像识别执行部分，其被配置为在与经受图像识别的摄影图像相关联的偏移后中间特征已经作为输入数据输入到第二分类器的情况下，将来自第二分类器的输出识别为摄影图像的图像识别的结果，已经使用每一个都与多个CG图像的对应一个相关联的多个中间特征训练了第二分类器。

此外，根据本发明的训练方法包括：在图像的输入数据被输入到第一分类器的情况下，将来自包括在第一分类器的中间层中的输出识别为与图像相关联的中间特征的步骤，第一分类器被配置为对CG图像和摄影图像进行分类；基于以下来识别偏移特征的步骤：与一个CG图像相关联的中间特征、或每一个都与多个CG图像的对应一个相关联的多个中间特征；以及与一个摄影图像相关联的中间特征、或每一个都与多个摄影图像的对应一个相关联的多个中间特征；基于与CG图像相关联的中间特征和偏移特征识别与CG图像相关联的偏移后中间特征的步骤；以及使用每一个都与多个CG图像的对应一个相关联的多个偏移后中间特征来执行第二分类器的训练的步骤，第二分类器被配置为在对摄影图像执行图像识别的情况下接收与摄影图像相关联的中间特征。

此外，根据本发明的训练方法包括：在图像的输入数据被输入到第一分类器的情况下，将来自包括在第一分类器的中间层中的输出识别为与图像相关联的中间特征的步骤，第一分类器被配置为对CG图像和摄影图像进行分类；基于以下来识别与摄影图像相关联的偏移后图像的步骤：与经受图像识别的摄影图像相关联的中间特征；以及基于以下的偏移特征：与一个CG图像相关联的中间特征、或每一个都与多个CG图像的对应一个相关联的多个中间特征；并且与一个摄影图像相关联的中间特征、或每一个都与多个摄影图像的对应一个相关联的多个中间特征；以及在与经受图像识别的摄影图像相关联的偏移后中间特征已经作为输入数据输入到第二分类器的情况下，将来自第二分类器的输出识别为摄影图像的图像识别的结果的步骤，已经使用每一个都与多个CG图像的对应一个相关联的多个中间特征训练了第二分类器。

此外，根据本发明的程序使计算机执行：在图像的输入数据被输入到第一分类器的情况下，将来自包括在第一分类器的中间层中的输出识别为与图像相关联的中间特征的步骤，第一分类器被配置为对CG图像和摄影图像进行分类；基于以下来识别偏移特征的步骤：与一个CG图像相关联的中间特征、或每一个都与多个CG图像的对应一个相关联的多个中间特征；以及与一个摄影图像相关联的中间特征、或每一个都与多个摄影图像的对应一个相关联的多个中间特征；基于与CG图像相关联的中间特征和偏移特征识别与CG图像相关联的偏移后中间特征的步骤；以及使用每一个都与多个CG图像的对应一个相关联的多个偏移后中间特征来执行第二分类器的训练的步骤，第二分类器被配置为在对摄影图像执行图像识别的情况下接收与摄影图像相关联的中间特征。

此外，根据本发明的另一程序使计算机执行：在图像的输入数据被输入到第一分类器的情况下，将来自包括在第一分类器的中间层中的输出识别为与图像相关联的中间特征的步骤，第一分类器被配置为对CG图像和摄影图像进行分类；基于以下来识别与摄影图像相关联的偏移后图像的步骤：与经受图像识别的摄影图像相关联的中间特征；以及基于以下的偏移特征：与一个CG图像相关联的中间特征、或每一个都与多个CG图像的对应一个相关联的多个中间特征；并且与一个摄影图像相关联的中间特征、或每一个都与多个摄影图像的对应一个相关联的多个中间特征；以及在与经受图像识别的摄影图像相关联的偏移后中间特征已经作为输入数据输入到第二分类器的情况下，将来自第二分类器的输出识别为摄影图像的图像识别的结果的步骤，已经使用每一个都与多个CG图像的对应一个相关联的多个中间特征训练了第二分类器。

附图说明

图1是根据本发明的一个实施例的信息处理装置的配置的图。

图2是示出执行结果图像的示例的图。

图3是示出根据本发明的一个实施例的信息处理装置中实现的功能的示例的功能性框图。

图4是示意性地示出第一分类器的示例的图。

图5是示意性地示出第二分类器的示例的图。

图6是示出根据本发明的一个实施例的信息处理装置执行的处理的流程的示例的流程图。

图7是示出根据本发明的一个实施例的信息处理装置执行的处理的流程的示例的流程图。

图8是示出根据本发明的一个实施例的信息处理装置执行的处理的流程的示例的流程图。

图9是示出根据本发明的一个实施例的信息处理装置执行的处理的流程的示例的流程图。

具体实施方式

以下，将参照附图详细描述本发明的一个实施例。

图1是根据本发明的一个实施例的信息处理装置10的配置的图。根据本实施例的信息处理装置10例如是诸如游戏机或个人计算机的计算机。如图1所示，例如，根据本实施例的信息处理装置10包括处理器12、存储部分14、操作部分16和显示部分18。

例如，处理器12是诸如根据安装在信息处理装置10中的程序操作的中央处理单元(CPU)的程序控制设备。

存储部分14是诸如只读存储器(ROM)或随机存取存储器(RAM)、硬盘驱动器的存储设备。存储部分14存储由处理器12执行的程序等。

操作部分16是诸如键盘、鼠标或游戏控制台的控制器的用户界面。操作部分16接收来自用户的操作输入并输出指示将什么输入到处理器12中的信号。

显示部分18是诸如液晶显示器的显示设备，并且根据从处理器12接收到的指令显示各种图像。

应当注意的是，信息处理装置10可以包括诸如网络板的通信接口、用于读取光盘(诸如数字多功能光盘(DVD)-ROM或蓝光(注册商标)光盘)的光盘驱动器、通用串行总线(USB)端口等。

在根据本实施例的信息处理装置10中实现使用卷积神经网络的分类器。此外，根据本实施例的信息处理装置10执行图像识别处理，诸如摄影图像的语义分割。摄影图像是通过相机捕获真实空间而获得的图像。

图2是示出执行结果图像20的示例的图。执行结果图像20是由于执行摄影图像的语义分割而获得的图像。如图2所示，执行结果图像20以逐像素为基础被划分为与对象对应的类别相关联的多个区域。每个对象都是识别的结果。

在图2中的示例中，示出了墙壁区域22、桌子区域24、椅子区域26、地板区域28和窗帘区域30。墙壁区域22与墙壁相关联。桌子区域24与桌子相关联。椅子区域26与椅子相关联。地板区域28与地板相关联。窗帘区域30与窗帘相关联。这里，可以将彼此分离的多个区域(诸如墙壁区域22和椅子区域26)识别为同一类别的区域。

这里，可以根据与该区域相关联的类别用颜色来表示每个区域。使用该配置，例如，在显示部分18上显示执行结果图像20允许用户针对每个区域检查与该区域相对应的类别。

此外，例如，执行结果图像20可以用作各种控制的输入，诸如车辆的自动驾驶控制。

为了提高使用诸如语义分割的分类器对摄影图像进行图像识别的准确性，需要使用大量摄影图像对分类器进行训练。然而，获得大量的摄影图像是困难的。

鉴于这种情况，在本实施例中，如下所述，使用由计算机图形技术创建的CG图像而不是使用摄影图像来训练分类器。

在下文中，将进一步描述根据本实施例的信息处理装置10的功能、以及由信息处理装置10执行的处理。

图3是示出根据本实施例的信息处理装置10中实现的功能的示例的功能性框图。应当注意的是，根据本实施例的信息处理装置10不一定实现图3所示的所有功能，并且还可以实现图3所示功能以外的功能。

如图3所示，信息处理装置10功能性地包括例如第一分类器40a、第二分类器40b、第一分类器训练部分42、中间特征识别部分44、偏移特征识别部分46、偏移后中间特征识别部分48、第二分类器训练部分50和图像识别执行部分52。上述组件主要在处理器12和存储部14中实现。根据本实施例的信息处理装置10具有使用分类器来学习图像的训练装置和使用训练过的分类器执行图像识别的图像识别装置二者的作用。

可以通过使处理器12执行程序来实现上述功能，该程序包括与安装在作为计算机的信息处理装置10中的上述功能相对应的指令。例如，可以通过计算机可读信息存储介质(诸如光盘、磁盘、磁带、磁光盘、闪存)或通过因特网等将该程序提供给信息处理装置10。

在本实施例中，第一分类器40a例如是对CG图像和摄影图像进行分类的分类器，并且在图4中示意性地示出。第一分类器40a可以是二进制分类器。此外，第一分类器40a可以是例如使用包含卷积层、池化层、全连接层等的卷积神经网络的分类器。根据本实施例的第一分类器40a包括一个输入层60、一个输出层62和n个中间层64(64(1)、64(2)、…、64(n-2)、64(n-1)和64(n))。这里，n是1或更大的整数。应当注意的是，尽管在图4中示出了五个中间层64，但是中间层64的数目可以是四个或更少。此外，图4还示出了进入输入层60的输入66、以及来自输出层62的输出68。此外，图4还示出了来自中间层64(n)的输出70。稍后将描述输出70。

在本实施例中，第二分类器40b例如是执行图像识别(诸如摄影图像的语义分割)的分类器，并且在图5中示意性地示出。第二分类器40b可以是例如使用包含卷积层、池化层、完全连接层等的卷积神经网络的分类器。根据本实施例的第二分类器40b包括一个输入层72、一个输出层74和m个中间层76(76(1)、76(2)、…、76(m-2)、76(m-1)和76(m))。这里，m是1或更大的整数。此外，值m可以与上述值n相同或不同。应当注意的是，尽管在图5中示出了五个中间层76，但是中间层76的数目可以是四个或更少。此外，图5还示出了进入输入层72的输入78、以及来自输出层74的输出80。此外，图5中还示出了进入中间层76(m)的输入82。稍后将描述输入82。

在本实施例中，来自包括在第一分类器40a中的特定一个中间层64的输出(图4中的示例中来自中间层64(n)的输出70)被用作进入第二分类器40b的输入78。这里，输出70可以是来自卷积层或池化的作为输出的图像(图)。

在下文中，其输出被用作进入第二分类器40b的输入78的中间层64将被称为特定中间层64a。在图4中的示例中，中间层64(n)是特定中间层64a。这里，作为置于中间层64(n)之前的中间层64的中间层64(n-1)、中间层64(n-2)等(而不是中间层64(n))可以是特定中间层64a。在这种情况下，将来自中间层64(n-1)、中间层64(n-2)等的输出用作进入第二分类器40b的输入78。

第一分类器训练部分42使用多个图像作为训练数据来执行对第一分类器40a的训练。这里，例如，可以使用多个CG图像的训练数据和多个摄影图像的训练数据来执行训练。

这里，训练数据可以包括作为输入66输入到第一分类器40a的输入数据、以及在输入数据已经被输入的情况下与输出68比较的教学数据。以这种方式，可以执行使用包括教学数据的训练数据的监督学习。

这里，CG图像的输入数据是指通过对CG图像执行预定的预处理而生成的数据等。此外，摄影图像的输入数据是指通过对摄影图像执行预定的预处理而生成的数据等。应当注意的是，可以执行预处理，使得可以以相同的方式处理CG图像的输入数据和摄影图像的输入数据。例如，可以执行预处理，使得CG图像的输入数据和摄影图像的输入数据可以作为相同格式的数据来处理。

通过由第一分类器训练部分42执行的训练，将第一分类器40a的参数的值设置为适当的值。参数的值指示卷积层的滤波器的系数、全连接层的权重等。例如，在训练数据中包括的输入数据已被用作输入66的情况下，执行反向传播等，以基于包括在训练数据中的教学数据与输出68之间的比较来调整第一分类器40a的参数的值。

在本实施例中，例如，在图像的输入数据已被输入到第一分类器40a的情况下，中间特征识别部分44将来自上述特定中间层64a的输出70识别为与图像相关联的中间特征。这里，接收输入数据的第一分类器40a可以是由第一分类器训练部分42使用CG图像的训练数据和摄影图像的训练数据训练过的分类器(训练过的分类器)。在下文中，与CG图像相关联的中间特征将被称为CG中间特征。与摄影图像相关联的中间特征将被称为摄影中间特征。

偏移特征识别部分46基于以下识别偏移特征：与一个CG图像相关联的CG中间特征、或每一个都与多个CG图像的对应的一个相关联的CG中间特征；与一个摄影图像相关联的摄影中间特征、或每一个都与摄影图像的对应一个相关联的摄影中间特征。

这里，例如，中间特征识别部分44可以识别各个CG中间特征，在CG图像的输入数据已经输入到训练过的第一分类器40a的情况下，该各个CG中间特征是来自特定中间层64a的输出70。此外，中间特征识别部分44可以基于为多个CG图像识别的各个CG中间特征识别CG中间特征。例如，中间特征识别部分44可以将诸如为多个CG图像识别的各个CG中间特征的平均值的代表值识别为CG中间特征的值。应当注意的是，中间特征识别部分44可以将为一个CG图像识别的各个CG中间特征识别为CG中间特征的值。

此外，例如，中间特征识别部分44可以识别各个摄影中间特征，在摄影图像的输入数据已经输入到训练过的第一分类器40a的情况下，该各个摄影中间特征是来自特定中间层64a的输出70。此外，中间特征识别部分44可以基于为多个摄影图像识别的各个摄影中间特征识别摄影中间特征。例如，中间特征识别部分44可以将诸如为多个摄影图像识别的各个摄影中间特征的平均值的代表值识别为摄影中间特征的值。应当注意的是，中间特征识别部分44可以将为一个摄影图像识别的各个摄影中间特征识别为摄影中间特征的值。

此外，偏移特征识别部分46可以将已经如上识别的CG中间特征和摄影中间特征之间的差识别为偏移特征。

这里，例如，中间特征识别部分44可以为CG图像和摄影图像的组合识别与CG图像相关联的各个CG中间特征和与摄影图像相关联的各个摄影中间特征。这里，包括在组合中的CG图像和摄影图像可以是彼此相似的图像。例如，包括在组合中的CG图像和摄影图像可以是表示相同对象的图像。然后，偏移特征识别部分46可以将各个CG中间特征和各个摄影中间特征之间的差识别为各个偏移特征。此外，偏移特征识别部分46可以基于每一个都是为CG图像和摄影图像的多个组合中的对应的一个识别的各个偏移特征来识别偏移特征。例如，偏移特征识别部分46可以将诸如为CG图像和摄影图像的多个组合中的对应的一个识别的各个偏移特征的平均值的代表值识别为偏移特征。

在本实施例中，例如，偏移后中间特征识别部分48基于与CG图像相关联的中间特征和偏移特征来识别与CG图像相关联的偏移后中间特征。此外，在本实施例中，偏移后中间特征识别部分48例如基于与摄影图像相关联的中间特征和偏移特征来识别与摄影图像相关联的偏移后中间特征。

这里，例如，假设偏移特征的值是通过从摄影中间特征的值减去CG中间特征的值而获得的值。在这种情况下，通过将偏移特征的值与CG图像的中间特征的值相加而获得的值可以被计算为与CG图像相关联的偏移后中间特征的值。此外，通过从摄影图像的中间特征值减去偏移特征值而获得的值可以被计算为与摄影图像相关联的偏移后中间特征的值。

相反，例如，假定偏移特征的值是通过从CG中间特征的值减去摄影中间特征的值而获得的值。在这种情况下，通过从CG图像的中间特征值减去偏移特征值而获得的值可以被计算为与CG图像相关联的偏移后中间特征的值。此外，通过将偏移特征的值与摄影图像的中间特征的值相加而获得的值可以被计算为与摄影图像相关联的偏移后中间特征的值。

在下文中，与CG图像相关联的偏移后中间特征将被称为偏移后CG中间特征。与摄影图像相关联的偏移后中间特征将被称为偏移后摄影中间特征。

这里，在假定存在类似于CG图像的摄影图像的情况下，与CG图像相关联的偏移后CG中间特征对应于摄影图像的摄影中间特征。此外，在假定存在类似于摄影图像的CG图像的情况下，与摄影图像相关联的偏移后摄影中间特征对应于CG图像的CG中间特征。

在本实施例中，例如，第二分类器训练部分50执行第二分类器40b的训练。这里，第二分类器训练部分50可以将与CG图像相关联的CG中间特征用作包括在训练数据中的输入数据来执行对第二分类器40b的训练。在这种情况下，训练数据可以包括作为输入数据的与CG图像相关联的CG中间特征。训练数据还可以包括作为教学数据的与CG图像相关联并且其区域被分类划分的图像。该图像的示例是图2所示的执行结果图像20。此外，可以执行使用包括教学数据的训练数据的监督学习。

此外，第二分类器训练部分50可以将与CG图像相关联的偏移后CG中间特征用作包括在训练数据中的输入数据来执行对第二分类器40b的训练。在这种情况下，训练数据可以包括作为输入数据的与CG图像相关联的偏移后CG中间特征。训练数据还可以包括作为教学数据的与CG图像相关联并且其区域被分类划分的图像。该图像的示例是图2所示的执行结果图像20。此外，可以执行使用包括教学数据的训练数据的监督学习。

在本实施例中，例如，在第二分类器训练部分50执行第二分类器40b的训练的情况下，将用于插值空域信息的数据作为输入82输入到中间层76(m)。例如，在第二分类器训练部分50将CG图像的中间特征用作训练数据来执行第二分类器40b的训练的情况下，CG图像的输入数据可以作为输入82输入到中间层76(m)。此外，例如，在第二分类器训练部分50将CG图像的偏移后中间特征用作训练数据来执行第二分类器40b的训练的情况下，CG图像的输入数据可以作为输入82输入到中间层76(m)。

通过由第二分类器训练部分50执行的训练，将第二分类器40b的参数值设置为适当的值。参数的值指示卷积层的滤波器的系数、全连接层的权重等。例如，在与CG图像相关联的CG中间特征已被用作输入78的情况下，执行反向传播等，以基于例如输出80和与CG图像相关联的教学数据之间的比较来调整第二分类器40b的参数的值。或者，在与CG图像相关联的偏移后CG中间特征被用作输入78的情况下，基于例如输出80和与CG图像相关联的教学数据之间的比较来调整第二分类器40b的参数的值。

在本实施例中，例如，图像识别执行部分52执行诸如语义分割的图像识别处理。

在本实施例中，例如，在图像识别执行部分52执行摄影图像的图像识别的情况下，将用于插值空域信息的数据作为输入82输入到中间层76(m)。例如，在图像识别执行部分52执行摄影图像的图像识别的情况下，可以将摄影图像的输入数据作为输入82输入到中间层76(m)。

例如，假设第二分类器训练部分50将每一个都与多个CG图像的对应的一个相关联的偏移后CG中间特征用作包括在训练数据中的输入数据执行了对第二分类器40b的训练。

在这种情况下，第二分类器40b使用与CG图像相关联的偏移后CG中间特征执行了训练。即，在假设与CG图像相似的摄影图像存在的情况下，第二分类器40b使用与摄影图像的各个摄影中间特征相对应的偏移后CG中间特征执行了训练。因此，在这种情况下，期望输入78是对应于摄影图像的输入。因此，在这种情况下，在本实施例中，图像识别执行部分52将与经受图像识别的摄影图像相关联的摄影中间特征作为输入78输入到第二分类器40b中。

然后，在这种情况下，在与经受图像识别的摄影图像相关联的摄影中间特征已经被输入到第二分类其40b中的情况下，图像识别执行部分52将第二分类器40b的输出80识别为摄影图像的图像识别的结果。

此外，例如，假设第二分类器训练部分50将每一个都与多个CG图像的对应的一个相关联的CG中间特征用作包括在训练数据中的输入数据执行了第二分类器40b的训练。

在这种情况下，因为使用CG中间特征训练了第二分类器40b，所以期望输入78是对应于CG图像的输入。因此，在这种情况下，在本实施例中，图像识别执行部分52将与经受图像识别的图像相关联的偏移后摄影中间特征作为输入78输入到第二分类器40b中。如上所述，在假设与经受图像识别的摄影图像相似的CG图像存在的情况下，偏移后摄影中间特征对应于CG图像的CG中间特征。

然后，在这种情况下，在与经受图像识别的摄影图像相关联的偏移后摄影中间特征作为输入数据已经被输入到训练过的第二分类器40b的情况下，图像识别执行部分52将第二分类器40b的输出80识别为摄影图像的图像识别的结果。

应当注意的是，在第二分类器训练部分50执行第二分类器40b的训练的情况下，或者在图像识别执行部分52执行摄影图像的图像识别的情况下，不必将用于插值空域信息的数据作为输入82输入到中间层76(m)。可将用于插值空域信息的数据输入到中间层76而不是中间层76(m)。

这里，将参照图6所示的流程图来描述由根据本实施例的信息处理装置10执行的第二分类器40b的训练处理的流程的示例。图6示出了在使用偏移后CG中间特征执行第二分类器40b的训练的情况下第二分类器40b的训练处理的流程的示例。

首先，第一分类器训练部分42使用多个CG图像的训练数据和多个摄影图像的训练数据来执行第一分类器40a的训练(S101)。

然后，中间特征识别部分44为多个CG图像的输入数据中的每一个识别多个CG图像中的每一个的各个CG中间特征(S102)。

在S102所示的处理中，中间特征识别部分44可以再次将在S101所示的处理中使用的CG图像的训练数据中包括的输入数据作为输入66输入到由第一分类器训练部分42训练过的第一分类器40a中。然后，中间特征识别部分44可以基于与输入66相对应的输出70来识别这些CG图像的各个CG中间特征。

或者，中间特征识别部分44可以与在S101所示的处理中使用的CG图像的训练数据不同的新CG图像的输入数据作为输入66输入到由第一分类器训练部分42训练过的第一分类器40a中。然后，中间特征识别部分44可以基于与输入66相对应的输出70来识别这些CG图像的各个CG中间特征。

然后，中间特征识别部分44基于在S102所示的处理中为多个CG图像识别的各个CG中间特征来识别CG中间特征(S103)。

然后，中间特征识别部分44为多个摄影图像的输入数据中的每一个识别多个摄影图像中的每一个的各个摄影中间特征(S104)。

在S104所示的处理中，中间特征识别部分44可以再次将在S101所示的处理中使用的摄影图像的训练数据中包括的输入数据作为输入66输入到由第一分类器训练部分42训练过的第一分类器40a中。然后，中间特征识别部分44可以基于与输入66相对应的输出70来识别这些摄影图像的各个摄影中间特征。

或者，中间特征识别部分44可以与在S101所示的处理中使用的摄影图像的训练数据不同的新摄影图像的输入数据作为输入66输入到由第一分类器训练部分42训练过的第一分类器40a中。然后，中间特征识别部分44可以基于与输入66相对应的输出70来识别这些摄影图像的各个摄影中间特征。

然后，中间特征识别部分44基于在S104所示的处理中为多个摄影图像识别的各个摄影中间特征来识别摄影中间特征(S105)。

然后，偏移特征识别部分46基于在S103所示的处理中识别的CG中间特征和在S105所示的处理中识别的摄影中间特征来识别偏移特征(S106)。

然后，偏移后中间特征识别部分48识别每一个都与多个CG图像的对应的一个相关联的偏移后CG中间特征(S107)。

然后，第二分类器训练部分50使用在S107所示的处理中识别的偏移后CG中间特征来执行第二分类器40b的训练(S108)，并且该处理示例中所示的处理结束。在S108所示的处理中，在将与CG图像相关联的偏移后CG中间特征作为输入78输入到第二分类器40b的情况下，将这些CG图像的输入数据作为输入82输入到中间层76(m)。

在S107所示的处理中，与S101或S102所示的处理中使用的CG图像的训练数据不同的、包括在新CG图像的训练数据中的输入数据可以作为输入66输入到由第一分类器训练部分42训练过的第一分类器40a中。然后，可以基于对应于输入66的输出70来识别与这些CG图像相关联的偏移后CG中间特征。然后，在S108所示的处理中，可以使用这些偏移后CG中间特征和包括在训练数据中的教学数据来执行第二分类器40b的训练。

此外，例如，在S108所示的处理中用于训练的教学数据可以提前和与在S102所示的处理中识别的各个CG中间特征相关联的CG图像相关联。然后，在这种情况下，在S107所示的处理中，可以基于在S102所示的处理中识别的与这些CG图像相关联的各个CG中间特征和偏移特征来识别与CG图像相关联的偏移后CG中间特征。然后，在S108所示的处理中，可以使用这些偏移后CG中间特征和与这些CG图像相关联的教学数据来执行第二分类器40b的训练。

应当注意的是，图6所示的处理的执行顺序不限于上述顺序。例如，图6中S102到S105所示的处理可以按照S102、S104、S103和S105的顺序执行，或者可以按照S104、S105、S102和S103的顺序执行。

此外，例如，不必在S107中所示的多个处理目标数据的处理结束之后执行S108中所示的多个处理目标数据的处理。例如，可以针对每个处理目标数据执行S107和S108中所示的一系列处理，从而重复执行S107和S108中所示的一系列处理。

接下来，将参照图7所示的流程图来描述由根据本实施例的信息处理装置10执行的摄影图像的图像识别处理的流程的示例。图7示出了在已经通过图6所示的一系列处理执行了第二分类器40b的训练的情况下摄影图像的图像识别处理的流程的示例。

首先，图像识别执行部分52获取经受图像识别的摄影图像的输入数据(S201)。

然后，中间特征识别部分44将在S201所示的处理中获得的摄影图像的输入数据作为输入66输入到第一分类器40a(S202)。

然后，中间特征识别部44将与在S202所示的处理中输入的输入66相对应的输出70识别为摄影图像的摄影中间特征(S203)。

然后，图像识别执行部分52将在S203所示的处理中识别的摄影中间特征作为输入78、并将在S201所示的处理中获得的摄影图像的输入数据作为输入82输入到第二分类器40b中(S204)。

然后，图像识别执行部分52将与在S204所示的处理中输入的输入78和输入82相对应的输出80识别为经受图像识别的摄影图像的识别的结果(S205)，并且该处理示例中所示的处理结束。

接下来，将参照图8所示的流程图来描述由根据本实施例的信息处理装置10执行的训练第二分类器40b的处理的流程的另一示例。图8示出了在使用CG中间特征执行第二分类器40b的训练的情况下训练第二分类器40b的处理的流程的示例。

应当注意的是，图8中的S301到S306中示出的要执行的处理与图6中示出的S101到sS106中示出的处理相似。因此，将省略对S301到S306中所示的处理的描述。

当S306中所示的处理结束时，第二分类器训练部分50使用每一个都与多个CG图像的对应的一个相关联的CG中间特征来执行第二分类器40b的训练(S307)，并且该处理示例中所示的处理结束。

在S307所示的处理中，在将与CG图像相关联的CG中间特征作为输入78输入到第二分类器40b的情况下，将这些CG图像的输入数据作为输入82输入到中间层76(m)。

在S307所示的处理中，与在S301或S302所示的处理中使用的CG图像的训练数据不同的包括在新CG图像的训练数据中的输入数据可以作为输入66输入到由第一分类器训练部分42训练过的第一分类器40a中。然后，对应于输入66的输出70可以被识别为与这些CG图像相关联的CG中间特征。然后，可以使用识别的CG中间特征和包含在训练数据中的教学数据来执行第二分类器40b的训练。

此外，例如，在S307所示的处理中用于训练的教学数据可以提前和与在S302所示的处理中识别的各个CG中间特征相关联的CG图像相关联。然后，在这种情况下，在S307所示的处理中，可以使用与这些CG图像相关联并且在S302所示的处理中识别的各个CG中间特征、以及与这些CG图像相关联的教学数据来执行第二分类器40b的训练。

应当注意的是，图8所示的处理的执行顺序不限于上述顺序。例如，图8中的S302到S305所示的处理可以按照S302、S304、S303和S305的顺序执行，或者可以按照S304、S305、S302和S303的顺序执行。

接下来，将参照图9所示的流程图来描述由根据本实施例的信息处理装置10执行的训练第二分类器40b的处理流程的另一示例。图9示出了在通过图8所示的一系列处理执行了第二分类器40b的训练的情况下摄影图像的图像识别处理的流程的示例。

应当注意的是，图9中S401到S403中示出的要执行的处理与图7中示出的S201到S203中示出的处理相似。因此，将省略对S401到S403中所示的处理的描述。

当S403所示的处理结束时，偏移后中间特征识别部分48识别与经受图像识别的摄影图像相关联的偏移后摄影中间特征(S404)。例如，在S404所示的处理中，偏移后中间特征识别部分48基于在S403所示的处理中识别的摄影中间特征和在S306所示的处理中识别的偏移特征来识别偏移后摄影中间特征。

然后，图像识别执行部分52将在S404所示的处理中识别的偏移后摄影中间特征作为输入78、并将在S401所示的处理中获得的摄影图像的输入数据作为输入82输入到第二分类器40b中(S405)。

然后，图像识别执行部分52将与在S405所示的处理中输入的输入78和输入82相对应的输出80识别为经受图像识别的摄影图像的识别的结果(S406)，并且该处理示例中所示的处理结束。

根据本实施例，如上所述，对CG图像和摄影图像进行分类的第一分类器40a还具有从特定中间层64a的输出70中提取CG中间特征和摄影中间特征的特征提取器的作用。然后，通过基于CG中间特征和摄影中间特征识别的偏移特征来校正CG图像和与CG图像相似的摄影图像之间的差。以这种方式，本实施例利用已经使用CG图像训练过的分类器来提高摄影图像的图像识别的准确度。

应当注意的是，本发明不限于上述实施例。

例如，由图像识别执行部分52执行的图像识别不限于语义分割。例如，图像识别执行部分52可以执行识别输入的摄影图像是什么的处理和/或识别输入的摄影图像中放置了什么的处理。

此外，以示例的方式描述了上述特定字符串和数值、以及附图中的特定字符串和数值，并且字符串和数值不限于这些字符串和数值。

Claims

1.一种训练装置，包括：

中间特征识别部分，其被配置为在图像的输入数据已经被输入到第一分类器的情况下，将来自包括在所述第一分类器的中间层中的输出识别为与所述图像相关联的中间特征，所述第一分类器被配置为对计算机图形图像和摄影图像进行分类；

偏移特征识别部分，其被配置为基于以下来识别偏移特征：与一个计算机图形图像相关联的所述中间特征、或每一个都与多个计算机图形图像的对应一个相关联的多个所述中间特征；以及与一个摄影图像相关联的所述中间特征、或每一个都与多个摄影图像的对应一个相关联的多个所述中间特征；

偏移后中间特征识别部分，其被配置为基于与所述计算机图形图像相关联的所述中间特征和所述偏移特征，识别与计算机图形图像相关联的偏移后中间特征；以及

训练部分，其被配置为使用每一个都与多个计算机图形图像的对应一个相关联的多个所述偏移后中间特征来执行第二分类器的训练，所述第二分类器被配置为在对摄影图像执行图像识别的情况下接收与所述摄影图像相关联的所述中间特征。

2.根据权利要求1所述的训练装置，其中，所述偏移特征识别部分被配置为：基于每一个都与所述多个计算机图形图像的所述对应一个相关联的所述多个所述中间特征的代表值、以及每一个都与所述多个摄影图像的所述对应一个相关联的所述多个所述中间特征的代表值，识别所述偏移特征。

3.根据权利要求1或2所述的训练装置，其中，所述第一分类器包括已经使用计算机图形图像的训练数据和摄影图像的训练数据训练过的分类器。

4.一种图像识别装置，包括：

偏移后中间特征识别部分，其被配置为基于以下来识别与摄影图像相关联的偏移后图像：与经受图像识别的所述摄影图像相关联的所述中间特征；以及基于以下的偏移特征：

与一个计算机图形图像相关联的所述中间特征、或每一个都与多个计算机图形图像的对应一个相关联的多个所述中间特征；以及

与一个摄影图像相关联的所述中间特征、或每一个都与多个摄影图像的对应一个相关联的多个所述中间特征；以及

图像识别执行部分，其被配置为在与经受所述图像识别的所述摄影图像相关联的所述偏移后中间特征已经作为输入数据输入到第二分类器的情况下，将来自所述第二分类器的输出识别为所述摄影图像的所述图像识别的结果，已经使用每一个都与所述多个计算机图形图像的所述对应一个相关联的所述多个所述中间特征训练了所述第二分类器。

5.一种训练方法，包括：

在图像的输入数据被输入到第一分类器的情况下，将来自包括在所述第一分类器的中间层中的输出识别为与所述图像相关联的中间特征的步骤，所述第一分类器被配置为对计算机图形图像和摄影图像进行分类；

基于以下来识别偏移特征的步骤：与一个计算机图形图像相关联的所述中间特征、或每一个都与多个计算机图形图像的对应一个相关联的多个所述中间特征；以及与一个摄影图像相关联的所述中间特征、或每一个都与多个摄影图像的对应一个相关联的多个所述中间特征；

基于与所述计算机图形图像相关联的所述中间特征和所述偏移特征，识别与计算机图形图像相关联的偏移后中间特征的步骤；以及

使用每一个都与多个计算机图形图像的对应一个相关联的多个所述偏移后中间特征来执行第二分类器的训练的步骤，所述第二分类器被配置为在对摄影图像执行图像识别的情况下接收与所述摄影图像相关联的所述中间特征。

6.一种程序，使计算机执行：