CN110945537B

CN110945537B - 训练装置、识别装置、训练方法、识别方法和程序

Info

Publication number: CN110945537B
Application number: CN201780093425.3A
Authority: CN
Inventors: 堀川勉; 小野大地
Original assignee: Sony Interactive Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2017-07-28
Filing date: 2017-07-28
Publication date: 2023-09-22
Anticipated expiration: 2037-07-28
Also published as: CN110945537A; US20200193632A1; JP6911123B2; WO2019021456A1; JPWO2019021456A1; US11681910B2

Abstract

提供了能够准确地识别与深度信息相关联的图像中表示的对象是什么的训练装置、识别装置、训练方法、识别方法和程序。对象数据获取部分(32)获取表示对象的三维数据。训练数据生成部分(34)基于三维数据生成多个训练数据，多个训练数据的每个表示对象的相互不同的部分。训练部分(36)将生成的训练数据用作对象的训练数据来训练机器学习模型(30)。

Description

训练装置、识别装置、训练方法、识别方法和程序

技术领域

本发明涉及训练装置、识别装置、训练方法、识别方法和程序。

背景技术

存在一种已知的技术，其通过使用训练模型(诸如三维卷积神经网络)在诸如体素数据的三维数据上执行识别处理，来识别三维数据中表示的对象是什么。

发明内容

[技术问题]

例如，可以想到当将基于与深度信息相关联的图像生成的三维数据输入到上述训练模型中时，基于输出识别图像中表示的对象是什么。

然而，与深度信息相关联的图像中未表示的部分不在基于图像生成的三维数据中表示。因此，以这种方式生成的三维数据不表示对象的完整三维形状。

因此，在将表示对象的完整三维形状的三维数据用作训练数据训练了用于识别的训练模型的情况下，准确地识别与深度信息相关联的图像中表示的对象是什么偶尔会导致失败。

本发明是针对上述问题做出的。本发明的目的之一是提供训练装置、识别装置、训练方法、识别方法和程序，其能够准确地识别与深度信息相关联的图像中表示的对象是什么。

[问题的解决方案]

为了解决上述问题，根据本发明的训练装置是一种用于训练机器学习模型的训练装置，机器学习模型用于识别与深度信息相关联的图像中表示的对象是什么的处理，并且训练装置包括：三维数据获取部分，其被配置为获取表示对象的三维数据；训练数据生成部分，其被配置为基于三维数据生成多个训练数据，多个训练数据的每个表示对象的相互不同的部分；以及训练部分，其被配置为将生成的训练数据用作对象的训练数据来训练机器学习模型。

在本发明的一个方面，训练数据生成部分被配置为为其中布置对象的虚拟空间中的多个相互不同的位置中的每一个，生成表示对象的部分的训练数据，所述部分从位置的对应一个处可见。

此外，在本发明的一个方面，训练装置被配置为训练机器学习模型，其中，将基于与深度信息相关联的图像生成的三维数据输入，作为识别目标数据；训练数据生成部分被配置为生成包括三维数据的训练数据；并且训练部分被配置为将生成的三维数据用作对象的训练数据来训练机器学习模型。

可选地，训练装置被配置为训练机器学习模型，其中，将与深度信息相关联的图像输入，作为识别目标数据；训练数据生成部分被配置为生成包括与深度信息相关联的图像的训练数据；并且训练部分被配置为将与深度信息相关联的生成图像用作对象的训练数据来训练机器学习模型。

此外，根据本发明的识别装置是一种识别装置，其用于执行识别与深度信息相关联的图像中表示的对象是什么的处理，并且识别装置包括：训练模型，其已经将基于表示对象的三维数据生成的训练数据学习为对象的训练数据，训练数据的每个表示对象的相互不同的部分；以及识别部分，其被配置为基于将与图像相对应的识别目标数据输入训练模型时的输出，来识别与深度信息相关联的图像中表示的对象是什么。

此外，根据本发明的训练方法是一种用于训练机器学习模型的训练方法，机器学习模型用于识别与深度信息相关联的图像中表示的对象是什么的处理，并且训练方法包括：获取表示对象的三维数据的步骤；基于三维数据生成多个训练数据的步骤，多个训练数据的每个表示对象的相互不同的部分；以及将生成的训练数据用作对象的训练数据来训练机器学习模型的步骤。

此外，根据本发明的识别方法是一种识别方法，其用于执行识别与深度信息相关联的图像中表示的对象是什么的处理，并且识别方法包括：将与图像相对应的识别目标数据输入到训练模型的步骤，训练模型已经将基于表示对象的三维数据生成的训练数据学习为对象的训练数据，训练数据的每个表示对象的相互不同的部分；以及基于将识别目标数据输入训练模型时的输出，来识别与深度信息相关联的图像中表示的对象是什么的步骤。

此外，根据本发明的程序是一种用于训练机器学习模型的程序，机器学习模型用于识别与深度信息相关联的图像中表示的对象是什么的处理，并且程序使计算机执行：获取表示对象的三维数据的步骤；基于三维数据生成多个训练数据的步骤，多个训练数据的每个表示对象的相互不同的部分；以及将生成的训练数据用作对象的训练数据来训练机器学习模型的步骤。

此外，根据本发明的另一程序是一种程序，其用于执行识别与深度信息相关联的图像中表示的对象是什么的处理，并且程序使计算机执行：将与图像相对应的识别目标数据输入到训练模型的步骤，训练模型已经将基于表示对象的三维数据生成的训练数据学习为对象的训练数据，训练数据的每个表示对象的相互不同的部分；以及基于将识别目标数据输入训练模型时的输出，来识别与深度信息相关联的图像中表示的对象是什么的步骤。

附图说明

图1是根据本发明一个实施例的信息处理装置的配置图。

图2是示出如何在虚拟空间中布置要由机器学习模型学习的对象的示例的图。

图3A是示出第一部分的示例的图。

图3B是示出第二部分的示例的图。

图3C是示出第三部分的示例的图。

图4A是示出第一二维图像的示例的图。

图4B是示出第二二维图像的示例的图。

图4C是示出第三二维图像的示例的图。

图5是示出根据本发明一个实施例的信息处理装置中实现的功能的示例的功能框图。

图6是示出根据本发明一个实施例的信息处理装置执行的训练处理的流程的示例的流程图。

图7是示出根据本发明一个实施例的信息处理装置执行的识别处理的流程的示例的流程图。

具体实施方式

以下，将基于附图详细说明本发明的一个实施例。

图1是根据本发明一个实施例的信息处理装置10的配置图。根据本实施例的信息处理装置10是诸如游戏机或个人计算机的计算机。如图1所示，例如，根据本实施例的信息处理装置10包括处理器12、存储部分14、操作部分16和显示部分18。

处理器12例如是根据安装在信息处理装置10中的程序操作的诸如中央处理单元(CPU)的程序控制设备。

存储部分14是存储元件，诸如只读存储器(ROM)或随机存取存储器(RAM)，或者是硬盘驱动器等。存储部分14存储将由处理器12执行的程序等。

操作部分16是诸如键盘、鼠标、游戏机的控制器的用户界面。操作部分16接收来自用户的操作输入并将指示操作输入什么的信号输出到处理器12。

显示部分18是诸如液晶显示器的显示设备，并且根据来自处理器12的指令显示各种类型的图像。

应当注意的是，信息处理装置10可以包括诸如网卡的通信接口、用于读取诸如数字多功能光盘(DVD-ROM)或蓝光(注册商标)盘的光盘的光盘驱动器、以及通用串行总线(USB)端口等。

根据本实施例的信息处理装置10执行识别在与深度信息相关联的图像中表示的对象是什么的处理。

这里，作为识别目标的上述图像可以是与深度图像相关联的捕获图像。捕获图像由立体相机、带有红外测距传感器的相机等捕获。

此外，例如，可以基于通过从多个方向捕获被摄体而获得的捕获图像生成与捕获所述捕获图像时相机的位置、定向和视角相对应的深度信息。

此外，在本实施例中，使用诸如二维卷积神经网络(二维CNN)或三维卷积神经网络(三维CNN)的机器学习模型来识别在上述图像中表示的对象是什么。

图2是示出如何在虚拟空间20中布置由上述机器学习模型学习的对象的示例的图。在图2中，将茶壶22示出为要由机器学习模型学习的对象的示例。茶壶22由其中位置和体素值相互对应的体素数据表示。这里，表示对象的三维数据的表示格式不限于体素数据。例如，对象可以由线框、多边形、表面、实体等表示。此外，例如，对象可以由点云(点组)表示。此外，表示对象的三维数据可以包括关于与三维空间中的位置相关联的颜色的信息，诸如各个位置处的灰度渐变值或RGB值。

此外，在本实施例中，生成训练数据。每个训练数据对应于当从图2所示的虚拟空间20中的多个相互不同的位置中的对应一个看到对象时可见的部分。例如，这里生成的训练数据分别对应于由图2所示的各个虚拟相机24捕获的对象的图像中的对应一个中表示的部分。

图2以示例的方式示出了三个虚拟相机24(24a、24b和24c)。这里，例如，虚拟相机24a可以生成表示从左侧观看的茶壶22的外观的图像。此外，例如，虚拟相机24b可以生成表示从前面观看的茶壶22的外观的图像。此外，例如，虚拟相机24c可以生成表示从后面观看的茶壶22的外观的图像。图3A示出了第一部分26a，该部分表示在由虚拟相机24a捕获的对象的图像中。图3B示出了第二部分26b，该部分表示在由虚拟相机24b捕获的对象的图像中。此外，图3C示出了第三部分26c，该部分表示在由虚拟相机24c捕获的对象的图像中。

此外，在本实施例中，将对应于第一部分26a、第二部分26b和第三部分26c中的每一个的训练数据用作对象的训练数据(例如，本文中的茶壶22)来训练机器学习模型。例如，可以将包括三维数据(诸如表示第一部分26a、第二部分26b和第三部分26c的体素数据)的训练数据用作输入数据、并且包括对象的名称(例如，“茶壶”)作为教学数据来训练机器学习模型。

这里，与表示对象的数据的表示格式一样，训练数据的表示格式不限于其中位置和体素值相互对应的体素数据。例如，训练数据可以由诸如线框、多边形、表面、实体等的三维数据来表示。此外，例如，训练数据可以由点组(点云)表示。此外，训练数据可以包括关于与三维空间中的位置相关联的颜色的信息，诸如各个位置处的灰度渐变值或RGB值。

此外，如下文所述，例如，可以将与深度信息相关联的二维图像28用作训练数据。每个二维图像28表示从虚拟相机24中的对应一个观看的对象的外观。这里，用作训练数据的每个二维图像28可以包括关于每个像素的颜色的信息，诸如灰度渐变值或RGB值。

图4A至4C分别示出了表示从虚拟相机24a观看的对象的外观的第一二维图像28a、表示从虚拟相机24b观看的对象的外观的第二二维图像28b，以及表示从虚拟相机24c观看的对象的外观的第三二维图像28c。

此外，例如，第一深度图像可以与第一二维图像28a一起生成。第一深度图像对应于第一二维图像28a中包括的每个像素，并且表示从虚拟相机24a到被摄体的距离的分布。此外，可以将与第一深度图像相关联的第一二维图像28a用作训练数据来训练机器学习模型。这里，例如，可以将包括第一二维图像28a和第一深度图像的训练数据用作输入数据、并且包括对象名称作为教学数据来训练机器学习模型。

此外，例如，第二深度图像可以与第二二维图像28b一起生成。第二深度图像对应于第二二维图像28b中包括的每个像素，并且表示从虚拟相机24b到被摄体的距离的分布。此外，可以将与第二深度图像相关联的第二二维图像28b用作训练数据来训练机器学习模型。这里，例如，可以将包括第二二维图像28b和第二深度图像的训练数据用作输入数据、并且包括对象名称作为教学数据来训练机器学习模型。

此外，例如，第三深度图像可以与第三二维图像28c一起生成。第三深度图像对应于第三二维图像28c中包括的每个像素，并且表示从虚拟相机24c到被摄体的距离的分布。此外，可以将与第三深度图像相关联的第三二维图像28c用作训练数据来训练机器学习模型。这里，例如，可以将包括第三二维图像28c和第三深度图像的训练数据用作输入数据、并且包括对象名称作为教学数据来训练机器学习模型。

此外，在本实施例中，例如，当已将识别目标数据输入以上述方式为多个对象训练的训练机器学习模型时，基于输出识别在与深度信息相关联的图像中表示的对象是什么。这里，图像可以包括关于每个像素的颜色的信息，诸如灰度渐变值或RGB值。

这里，例如，在将诸如体素数据的三维数据用作训练数据进行训练的情况下，可以将基于与深度信息相关联的图像生成的三维数据用作要输入到训练的机器学习模型中的识别目标数据。这里，用作识别目标数据的三维数据可以包括关于与三维空间中的位置相关联的颜色的信息，诸如各个位置处的灰度渐变值或RGB值。

此外，例如，在将与深度信息相关联的图像(诸如二维图像和深度图像)用作训练数据进行训练的情况下，可以将与深度信息本身相关联的图像用作要输入到训练的机器学习模型中的识别目标数据。

这里，在本实施例中，如上所述，为一个对象使用多个训练数据进行训练。这里，例如，在识别目标数据与对应于茶壶22的多个训练数据中的任何一个类似的情况下，在与深度信息相关联的图像中表示的对象可以被识别为茶壶22。

应当注意的是，尽管图3A至3C、以及图4A至4C示出了为一个对象生成三个训练数据的示例，其中可以为一个对象生成更多或更少的训练数据。此外，例如，可以生成对应于整个方向中的每一个的训练数据(例如，24个训练数据)，方向不仅包括从侧面、前面和后面观看的方向，还包括从顶面和底面、以及与从各个方向观看对象时可见的各个部分相对应的方向。

此外，例如，在对称的情况下，可以省略一些训练数据的生成。具体地，在双边对称对象的情况下，例如，可以生成仅对应于从左侧观看时可见的部分或从右侧观看时可见的部分的训练数据。此外，例如，在生成多个类似训练数据的情况下，可以仅使用这些训练数据中的一个来训练机器学习模型。

与深度信息相关联的图像对应的识别目标数据中表示的形状与对象的完整三维形状之间存在大的差异。因此，例如，使用将表示图2中所示对象的完整三维形状的三维数据用作训练数据训练的机器学习模型，偶尔导致无法准确地识别在与深度信息相关联的图像中表示的对象是什么。

鉴于上述情况，在本实施例中，如上所述，使用每个表示对象的相互不同部分的训练数据训练的机器学习模型被用于识别在与深度信息相关联的图像中表示的对象是什么。以这种方式，根据本实施例，能够准确地识别在与深度信息相关联的图像中表示的对象是什么。

在下文中，将进一步描述根据本实施例的信息处理装置10的功能和由信息处理装置10执行的处理。

图5是示出根据本实施例的信息处理装置10中实现的功能的示例的功能框图。应当注意的是，根据本实施例的信息处理装置10不需要包括图5所示的所有功能，并且可以包括图5所示功能以外的功能。

如图5所示，例如，信息处理装置10在功能上包括机器学习模型30、对象数据获取部分32、训练数据生成部分34、训练部分36、图像获取部分38、识别目标数据生成部分40和识别部分42。上述组件主要由处理器12和存储部分14实现。根据本实施例的信息处理装置10具有训练机器学习模型30的训练装置、和执行识别与深度信息相关联的图像中表示的对象是什么的处理的识别装置二者的作用。机器学习模型30、对象数据获取部分32、训练数据生成部分34和训练部分36对应于训练装置的功能。机器学习模型30、图像获取部分38、识别目标数据生成部分40和识别部分42对应于识别装置的功能。

上述功能可以通过使处理器12执行包括与上述功能相对应的指令、并且安装在作为计算机的信息处理装置10中的程序来实现。例如，该程序可通过计算机可读信息存储介质(诸如光盘、磁盘、磁带、磁光盘或闪存、因特网等)提供给信息处理装置10。

在本实施例中，机器学习模型30例如是诸如二维卷积神经网络(二维CNN)或三维卷积神经网络(三维CNN)的机器学习模型。

在本实施例中，对象数据获取部分32获取例如要用作训练数据的基础、并表示如图2所示的对象的三维数据。

在本实施例中，例如，训练数据生成部分34基于由对象数据获取部分32获取的三维数据，生成多个表示对象的相互不同部分的训练数据。这里，对于对象被布置在其中的虚拟空间20中的多个相互不同的位置中的每一个，训练数据生成部分34可以生成表示对象的部分的训练数据，所述部分例如从位置中的对应一个处可见。

在本实施例中，例如，训练部分36将由训练数据生成部分34生成的训练数据用作对象的训练数据，来训练机器学习模型30。

在本实施例中，例如，图像获取部分38获取与深度信息相关联的图像。该图像是用于识别其中所表示的对象是什么的目标。

在本实施例中，例如，识别目标数据生成部分40基于由图像获取部分38获取的与深度信息相关联的图像，生成要输入到训练的机器学习模型30中的识别目标数据。

在本实施例中，例如，当将由图像获取部分38获取的与深度信息相关联的图像对应的识别目标数据输入到训练模型中时，识别部分42基于输出来识别图像中表示的对象是什么。

这里，例如，在机器学习模型30是三维CNN的情况下，训练数据生成部分34可以生成包括三维数据(诸如体素数据、点云、线框、多边形、表面或实体)的训练数据。此外，在这种情况下，训练部分36可以将生成的三维数据用作训练数据来训练三维CNN。

此外，在这种情况下，识别目标数据生成部分40可以基于由图像获取部分38获取的与深度信息相关联的图像生成诸如体素数据、线框、多边形、表面或实体的三维数据。此外，当包括三维数据的识别目标数据被输入到训练的三维CNN中时，识别部分42可以基于输出来识别由图像获取部分38获取的与深度信息相关联的图像中表示的对象是什么。

此外，例如，在机器学习模型30是二维CNN的情况下，训练数据生成部分34可以生成包括与深度信息相关联的二维图像(例如，与深度图像相关联的二维图像)的训练数据。此外，在这种情况下，训练部分36可以将生成的图像用作训练数据来训练二维CNN。

此外，在这种情况下，当将由图像获取部分38获取的与深度信息相关联的图像输入到训练的二维CNN中时，识别部分42可以基于输出来识别在由图像获取部分38获取的与深度信息相关联的图像中表示的对象是什么。在这种情况下，识别目标数据不是由识别目标数据生成部分40生成的，并且由图像获取部分38获取的与深度信息本身相关联的图像被用作与该图像相对应的识别目标数据。也就是说，在这种情况下，将与深度信息本身相关联的图像输入到训练的机器学习模型30中，作为与图像相对应的识别目标数据。

这里，将参照图6所示的流程图来描述由根据本实施例的信息处理装置10执行的训练处理的流程的示例。

首先，对象数据获取部分32获取用作训练数据的基础的三维数据(S101)。

然后，训练数据生成部分34基于在S101所示的处理中获取的三维数据，生成对应于三维数据中表示的对象的多个训练数据(S102)。这里，如上所述，多个训练数据中的每一个表示在S101所示的处理中获取的三维数据中表示的对象的相互不同的部分。

然后，训练部分36将在S102所示的处理中生成的训练数据用作在S101所示的处理中获取的三维数据中表示的对象的训练数据，来训练机器学习模型30(S103)。

这里，可以使用表示这些对象的三维数据对大量对象执行S101到S103中所示的训练。

接下来，将参照图7所示的流程图来描述由根据本实施例的信息处理装置10执行的识别处理的流程的示例。

首先，图像获取部分38获取作为识别目标的与深度信息相关联的图像(S201)。

然后，识别目标数据生成部分40基于在S201所示的处理中获取的图像生成识别目标数据(S202)。

然后，当将在S202所示的处理中生成的识别目标数据输入到训练的机器学习模型30中时，识别部分42基于输出识别在S201所示的处理中获取的图像中表示的对象(S203)。

这里，如上所述，不必执行S202中所示的处理。此外，在这种情况下，在S203所示的过程中，当将在S201所示的处理中获得的与深度信息相关联的图像输入到训练的机器学习模型30中作为与图像相对应的识别目标数据时，可以基于输出来识别图像中表示的对象。

应当注意的是，本发明不限于上述实施例。

此外，以示例的方式示出了上述具体字符串和数值、以及附图中的具体字符串和数值，并且字符串和数值不限于这些字符串和数值。

Claims

1.一种用于训练机器学习模型的训练装置，所述机器学习模型用于识别与深度信息相关联的图像中表示的对象是什么的处理，所述训练装置包括：

三维数据获取部分，其被配置为获取表示对象的三维数据；

训练数据生成部分，其被配置为基于所述三维数据生成多个训练数据，所述多个训练数据的每个表示所述对象的相互不同的部分；以及

训练部分，其被配置为将生成的训练数据用作所述对象的所述训练数据来训练所述机器学习模型，

其中，所述训练数据生成部分被配置为：为其中布置所述对象的虚拟空间中的多个相互不同的位置中的每一个，生成表示所述对象的部分的训练数据，所述部分从所述位置的对应一个处可见。

2.根据权利要求1所述的训练装置，其中，

所述训练装置被配置为训练所述机器学习模型，其中，将基于与深度信息相关联的图像生成的三维数据输入，作为识别目标数据；

所述训练数据生成部分被配置为生成包括三维数据的所述训练数据；并且

所述训练部分被配置为将所述生成的三维数据用作所述对象的所述训练数据来训练所述机器学习模型。

3.根据权利要求1所述的训练装置，其中，

所述训练装置被配置为训练所述机器学习模型，其中，将与深度信息相关联的图像输入，作为识别目标数据；

所述训练数据生成部分被配置为生成包括与深度信息相关联的图像的所述训练数据；并且

所述训练部分被配置为将与所述深度信息相关联的所述生成图像用作所述对象的所述训练数据来训练所述机器学习模型。

4.一种识别装置，其用于执行识别与深度信息相关联的图像中表示的对象是什么的处理，所述识别装置包括：

训练模型，其已经将基于表示对象的三维数据生成的训练数据学习为所述对象的所述训练数据，所述训练数据的每个表示所述对象的相互不同的部分，其中，为其中布置所述对象的虚拟空间中的多个相互不同的位置中的每一个，生成表示所述对象的部分的训练数据，所述部分从所述位置的对应一个处可见；以及

识别部分，其被配置为基于将与所述图像相对应的识别目标数据输入所述训练模型时的输出，来识别与所述深度信息相关联的所述图像中表示的所述对象是什么。

5.一种用于训练机器学习模型的训练方法，所述机器学习模型用于识别与深度信息相关联的图像中表示的对象是什么的处理，所述训练方法包括：

获取表示对象的三维数据的步骤；

基于所述三维数据生成多个训练数据的步骤，所述多个训练数据的每个表示所述对象的相互不同的部分，其中，为其中布置所述对象的虚拟空间中的多个相互不同的位置中的每一个，生成表示所述对象的部分的训练数据，所述部分从所述位置的对应一个处可见；以及

将所述生成的训练数据用作所述对象的所述训练数据来训练所述机器学习模型的步骤。

6.一种识别方法，其用于执行识别与深度信息相关联的图像中表示的对象是什么的处理，所述识别方法包括：

将与所述图像相对应的识别目标数据输入到训练模型的步骤，所述训练模型已经将基于表示对象的三维数据生成的训练数据学习为所述对象的所述训练数据，所述训练数据的每个表示所述对象的相互不同的部分，其中，为其中布置所述对象的虚拟空间中的多个相互不同的位置中的每一个，生成表示所述对象的部分的训练数据，所述部分从所述位置的对应一个处可见；以及

基于将所述识别目标数据输入所述训练模型时的输出，来识别与所述深度信息相关联的所述图像中表示的所述对象是什么的步骤。

7.一种存储用于训练机器学习模型的程序的计算机可读信息存储介质，所述机器学习模型用于识别与深度信息相关联的图像中表示的对象是什么的处理，所述程序使计算机执行：

获取表示对象的三维数据的步骤；

8.一种存储程序的计算机可读信息存储介质，所述程序用于执行识别与深度信息相关联的图像中表示的对象是什么的处理，所述程序使计算机执行：