CN110832542A

CN110832542A - 识别处理设备、识别处理方法和程序

Info

Publication number: CN110832542A
Application number: CN201780092890.5A
Authority: CN
Inventors: 小野大地; 堀川勉
Original assignee: Sony Interactive Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2017-07-12
Filing date: 2017-07-12
Publication date: 2020-02-21
Anticipated expiration: 2037-07-12
Also published as: CN110832542B; JPWO2019012632A1; US20210056337A1; JP7005622B2; WO2019012632A1; US11170246B2

Abstract

提供了一种识别处理设备、识别处理方法和程序，其能够有效缩小将使用三维卷积神经网络进行识别处理的三维区域。第一识别处理执行部分(68)在通过捕获真实空间的图像而获取的、并且用于生成体素数据的捕获图像上执行第一识别处理。目标二维区域确定部分(70)基于第一识别处理的结果来确定捕获图像的二维区域占据部分。目标三维区域确定部分(72)基于二维区域和相机获取捕获图像时相机的位置来确定真实空间中的三维区域。第二识别处理执行部分(74)使用三维卷积神经网络在与三维区域中的位置相关联的体素数据上执行第二识别处理。

Description

识别处理设备、识别处理方法和程序

技术领域

本发明涉及识别处理设备、识别处理方法和程序。

背景技术

已知的一种技术通过使用三维卷积神经网络在将三维空间中的位置与体素值相关联的体素数据上执行识别处理来执行诸如三维空间中的对象识别的识别处理。在这种识别处理技术中使用的体素数据是通过例如使用通过捕获三维空间的图像而获取的捕获图像而生成的。

发明内容

[技术问题]

一般来说，使用三维卷积神经网络进行识别处理的计算成本高。因此，希望使用三维卷积神经网络进行识别处理的体素数量尽可能少。

这里，例如，为了降低使用三维卷积神经网络的识别处理的计算成本，可以设想在执行识别处理之前缩小要进行识别处理的三维区域。

然而，在这种情况下，单独准备用于缩小三维区域的数据是麻烦和低效的。

本发明是针对上述问题做出的，并且本发明的目的之一是提供一种识别处理设备、识别处理方法和程序，其能够有效缩小使用三维卷积神经网络进行识别处理的三维区域。

[解决问题]

为了解决上述问题，根据本发明的识别处理设备是使用三维卷积神经网络对体素数据执行识别处理、其中真实空间中的位置和体素值彼此关联的识别处理设备。该识别处理设备包括：第一识别处理执行部分，其在通过捕获真实空间的图像而获取的、并且用于生成体素数据的捕获图像上执行第一识别处理；二维区域确定部分，其基于第一识别处理的结果确定捕获图像的二维区域占据部分；三维区域确定部分，其基于二维区域和相机获取捕获图像时相机的位置来确定真实空间中的三维区域；以及第二识别处理执行部分，其使用三维卷积神经网络在与三维区域中的位置相关联的体素数据上执行第二识别处理。

根据本发明的一个方面，第一识别处理执行部分在通过从彼此不同的位置捕获真实空间的图像而获取的第一捕获图像和第二捕获图像中的每一个上执行第一识别处理。二维区域确定部分基于第一识别处理的结果，确定第一捕获图像的第一二维区域占据部分、以及第二捕获图像的第二二维区域占据部分。三维区域确定部分确定基于第一二维区域和相机获取第一捕获图像时的相机位置确定的第一三维区域、以及基于第二二维区域和相机获取第二捕获图像时的相机位置确定的第二三维区域。并且第二识别处理执行部根据第一三维区域和第二三维区域，使用三维卷积神经网络在与真实空间中的三维区域中的位置相关联的体素数据上执行第二识别处理。

在这方面，第二识别处理执行部分使用三维卷积神经网络在与三维区域中第一三维区域和第二三维区域相交的位置相关联的体素数据上执行第二识别处理。

在本发明的一个方面，第一识别处理执行部分在与深度信息相关联的捕获图像上执行第一识别处理，并且三维区域确定部分基于与二维区域中的位置相关联的深度信息确定真实空间中的三维区域。

在本发明的一个方面，第一识别处理执行部分使用二维卷积神经网络在捕获图像上执行第一识别处理。

根据本发明的识别处理方法是用于使用三维卷积神经网络对体素数据执行识别处理、其中真实空间中的位置和体素值彼此关联的识别处理方法。该识别处理方法包括：在通过捕获真实空间的图像而获取的、并且用于生成体素数据的捕获图像上执行第一识别处理的步骤；基于第一识别处理的结果确定捕获图像的二维区域占据部分的步骤；基于二维区域和相机获取捕获图像时相机的位置来确定真实空间中的三维区域的步骤；以及使用三维卷积神经网络在与三维区域中的位置相关联的体素数据上执行第二识别处理的步骤。

根据本发明的程序使使用三维卷积神经网络对真实空间中的位置和体素值彼此关联的体素数据执行识别处理的计算机执行：在通过捕获真实空间的图像而获取的、并且用于生成体素数据的捕获图像上执行第一识别处理的程序；基于第一识别处理的结果确定捕获图像的二维区域占据部分的程序；基于二维区域和相机获取捕获图像时相机的位置来确定真实空间中的三维区域的程序；以及使用三维卷积神经网络在与三维区域中的位置相关联的体素数据上执行第二识别处理的程序。第一识别处理执行部分对与深度信息相关联的捕获图像执行第一识别处理，三维区域确定部根据与二维区域中的位置相关联的深度信息来确定真实空间中的三维区域。

附图说明

图1是根据本发明实施例的识别处理设备的配置图。

图2是示出真实空间的示例的图。

图3是示出体素数据的示例的图。

图4A是示出捕获图像的示例的图。

图4B是示出捕获图像的示例的图。

图5A是示出识别结果图像的示例的图。

图5B是示出识别结果图像的示例的图。

图6是示出目标三维区域的示例的图。

图7是示出具有被场地占用的二维区域作为其底面的矩形平行六面体与目标三维区域之间的关系的示例的图。

图8是示出根据本发明实施例的识别处理设备中实现的功能的示例的功能框图。

图9是示出根据本发明实施例的识别处理设备执行的处理流程的示例的流程图。

具体实施方式

以下，将参照附图详细描述本发明的实施例。

图1是根据本发明实施例的识别处理设备10的配置图。根据本实施例的识别处理设备10是诸如游戏机或个人计算机的计算机。如图1所示，例如，根据本实施例的识别处理设备10包括处理器12、存储单元14、操作单元16和显示单元18。

处理器12是程序控制设备，诸如根据例如安装在识别处理设备10中的程序操作的中央处理单元(CPU)。

存储单元14是诸如只读存储器(ROM)或随机存取存储器(RAM)、硬盘驱动器等的存储元件。存储单元14存储由处理器12执行的程序等。

操作单元16是诸如键盘、鼠标或游戏控制台控制器的用户界面，并且接收用户的操作输入并向处理器12输出指示内容的信号。

显示单元18是诸如液晶显示器的显示设备，并且根据来自处理器12的指令显示各种图像。

注意，识别处理设备10可以包括诸如网卡的通信接口、从诸如数字多功能光盘DVD-ROM或蓝光(注册商标)光盘等光盘读取数据的光盘驱动器、以及通用串行总线(USB)端口。

根据本实施例的识别处理设备10在真实空间20上执行诸如对象识别的识别处理，真实空间20例如是图2所示的三维空间。在图2所示的真实空间20中，在篮球场22上持有球24的玩家26即将将球24投向球门28。这里，在本实施例中，假设执行用于估计玩家26的轮廓、以及与在作为三维空间的真实空间20中的玩家26相对应的体素组的语义分割处理。

在本实施例中，如图2所示，在真实空间20中布置了从彼此不同的位置捕获真实空间20的图像的多个相机30。在图2的示例中，示出了四个相机30(30a、30b、30c和30d)，但是四个或更多相机30可以布置在真实空间20中。此外，这些相机30可以是能够捕获包括深度信息的图像的相机，诸如立体相机或具有红外距离测量传感器的相机。在这种情况下，例如，可以一起生成指示从相机30到对象的距离的分布的、与捕获图像的每个像素相关联的深度图像。

在本实施例中，图3所示的体素数据例如是通过已知方法基于由多个相机30捕获的图像生成的。如图3所示，体素数据包括三维坐标值和体素值。这里，例如，可以基于指示相机30的位置、定向和视角的信息以及由相机30捕获的图像为多个相机30中的每一个生成体素数据。此外，可以基于捕获的图像和深度图像生成体素数据。此外，还可以使用图2中未示出的相机30捕获的图像来生成体素数据。

在本实施例中，在对生成的体素数据执行语义分割处理之前，对由相机30捕获的并用于生成体素数据的捕获图像32(参见图4A和4B)执行识别处理。

图4A是示出捕获图像32a的示例的图，捕获图像32a是由布置在玩家26后面的相机30a捕获的图像。图4B是示出捕获图像32b的示例的图，捕获图像32b是由布置在玩家26的右侧的相机30b捕获的图像。在本实施例中，例如，在对体素数据执行语义分割处理之前，先对捕获图像32执行语义分割。这里，例如，将捕获图像32输入到二维卷积神经网络(二维CNN)，其中以执行了用于执行语义分割的学习。响应于该输入，从二维CNN输出捕获图像32的语义分割的执行结果。图5A和5B各自示出了识别结果图像34，该图像34是捕获图像32的语义分割的执行结果的示例。例如，图5A示出了作为捕获图像32a的语义分割的执行结果的示例的识别结果图像34a。图5B示出了作为捕获图像32b的语义分割的执行结果的示例的识别结果图像34b的示例。

如图5A和5B所示，将识别结果图像34划分为多个区域(例如，玩家区域36、球区域38和球门区域40)，这些区域与作为基于像素到像素的识别结果的对象对应的类别相关联。识别结果图像34a指示与球员26相关联的球员区域36a、与球24相关联的球区域38a和与球门28相关联的球门区域40a。识别结果图像34b指示与球员26相关联的球员区域36b、与球24相关联的球区域38b和与球门28相关联的球门区域40b。

在本实施例中，识别结果图像34中与特定类别相关联的部分区域被确定为目标二维区域42。图5A指示目标二维区域42a，图5B指示目标二维区域42b。

这里，例如，可以预先设置上述特定类别。这里，例如，假定玩家区域36被设置为特定类别。在这种情况下，可将与识别结果图像34a中的玩家区域36a相关联的区域确定为目标二维区域42a。此外，可将与识别结果图像34b中的玩家区域36b相关联的区域确定为目标二维区域42b。

这里，例如，如图5A和5B所示，可以将包围玩家区域36的矩形区域确定为目标二维区域42。此外，通过向包围玩家区域36的矩形区域添加边距区域而获得的区域可以被确定为目标二维区域42。例如，可以将与包围玩家区域36的矩形区域的重心相同、并且比该矩形区域的垂直和水平长度长出预定长度的区域确定为目标二维区域42。此外，例如，可以将与包围玩家区域36的矩形区域的重心相同、并且比该矩形区域大预定放大倍数(大于1)的区域确定为目标二维区域42。此外，目标二维区域42不需要是矩形区域，并且例如，构成玩家区域36的像素的轮廓内的区域可以被确定为目标二维区域42。

在本实施例中，基于识别结果图像34中的目标二维区域42的位置和尺寸来确定捕获图像32中的目标二维区域44的位置和尺寸。注意，这里假设识别结果图像34和捕获图像32具有相同的形状和尺寸，并且识别结果图像34中的目标二维区域42的位置和尺寸与捕获图像32中的目标二维区域44的位置和尺寸相同。

在本实施例中，基于捕获图像32中的目标二维区域44来确定与目标二维区域44相关联且位于图6所示的实空间20中的目标三维区域46。这里，例如，在获取捕获图像32时投影到目标二维区域44上的真实空间20中的三维区域可以被确定为目标三维区域46。

图6示出了当相机30各自获取捕获图像32时对应于相机30的位置的相机位置48、以及垂直于各个相机30的光轴的虚拟成像平面50。这里，假定相机位置48a对应于相机30a的位置，并且相机位置48b对应于相机30b的位置。此外，假定成像平面50a是垂直于相机30a的光轴的平面，并且成像平面50b是垂直于相机30b的光轴的平面。

在成像平面50上，指示了与捕获图像32中的目标二维区域44相对应的目标二维区域52。图6示出了与捕获图像32a中的目标二维区域44a相对应的目标二维区域52a、以及与捕获图像32b中的目标二维区域44b相对应的目标二维区域52b。在本实施中，假设目标二维区域44相对于捕获图像32的相对位置和相对尺寸与目标二维区域52相对于成像平面50的相对位置和相对尺寸相同。

例如，在本实施例中，基于目标二维区域52a和目标二维区域52b来确定目标三维区域46。这里，例如，可以识别以相机位置48a作为顶点、并且以目标二维区域52a作为横截面的没有底面的棱锥(例如，四角棱锥54a)。此外，例如，可以识别以相机位置48b作为顶点、并且以目标二维区域52b作为横截面的没有底面的棱锥(例如，四角棱锥54b)。然后，例如，可以将四角棱锥54a和四角棱锥54b相交的三维区域确定为目标三维区域46。

在本实施例中，如上所述执行基于捕获图像32的目标三维区域46的确定。注意，不需要对由用于生成体素数据的所有相机30获取的捕获图像32执行上述处理。如上所述，可以对由用于生成体素数据的一些相机30(例如，相机30a和相机30b)获取的捕获图像32执行上述处理。

在本实施例中，例如，将与目标三维区域46中的位置相关联的体素数据输入到三维卷积神经网络(三维CNN)，其中已经执行了用于执行语义分割的学习。

响应于此输入，从三维CNN输出体素数据的语义分割执行结果。这里，例如，输出执行结果的数据，其中，与作为由三维坐标值表示的位置处的识别结果的对象相对应的类别与三维坐标值相关联。例如，基于执行结果的数据，估计玩家26的轮廓、以及与作为三维空间的真实空间20中的玩家26相对于的体素组。

例如，假设使用三维CNN对与矩形平行六面体56内的体素相关联的所有体素数据执行识别处理，其中矩形平行六面体56具有被场地22占据的二维区域作为底面，如图7所示。如果以这种方式进行处理，也对与作为识别对象的玩家26无关的区域执行识别处理，并且浪费计算成本。

基于上述点，在本实施例中，通过将空间缩小为玩家26可能存在的区域来确定作为由矩形平行六面体56占据的三维空间的一部分的目标三维区域46。然后，将使用三维CNN的识别处理设定为在通过缩小而获得的目标三维区域46上执行。以这种方式，根据本实施例，与对与矩形平行六面体56内的体素相关联的所有体素数据执行使用三维CNN的识别处理相比，可以以更低的计算成本执行玩家26的识别处理。

在本实施例中，由于目标三维区域46是基于用于生成体素数据的捕获图像32来确定的，所以不必麻烦分别准备用于缩小三维区域的数据。因此，根据本实施例，可以有效地执行缩小到目标三维区域46，其上执行使用三维CNN的识别处理。

在下文中，将进一步描述根据本实施例的识别处理设备10的功能、以及由识别处理设备10执行的处理。

图8是示出由根据本实施例的识别处理设备10实现的功能的示例的功能框图。注意，根据本实施例的识别处理设备10不必包括图8所示的所有功能，并且可以包括图8所示的功能以外的功能。

如图8所示，例如，识别处理设备10在功能上包括二维CNN 60、三维CNN 62、捕获图像获取部分64、体素数据生成部分66、第一识别处理执行部分68、目标二维区域确定部分70、目标三维区域确定部分72和第二识别处理执行部分74。上述元件主要在处理器12和存储单元14中实现。

上述功能可以通过使处理器12执行安装在作为计算机的识别处理设备10中的程序来实现，该程序包括与上述功能相对应的指令。该程序可经由诸如光盘、磁盘、磁带、磁光盘或闪存等计算机可读信息存储介质或经由因特网提供给识别处理设备10。

在本实施例中，二维CNN 60例如是已经执行了用于执行语义分割的学习的二维卷积神经网络。二维CNN 60可以例如是二维卷积神经网络，该二维卷积神经网络已经使用学习数据进行了监督学习，学习数据包括作为输入数据的二维图像、并且包括作为教学数据的根据类别划分区域的图像(诸如识别结果图像34)。

例如，三维CNN 62是三维卷积神经网络，其中在本实施例中已经执行了用于执行语义分割的学习。例如，三维CNN 62可以是三维卷积神经网络，其中已经使用学习数据进行了监督学习，学习数据包括作为输入数据的体素数据，并且包括作为教学数据的根据类别划分区域的体素数据。

例如，在本实施例中，捕获图像获取部分64获取由相机30获取的捕获图像32。

例如，在本实施例中，体素数据生成部分66基于由捕获图像获取部分64获取的捕获图像32生成体素数据。

例如，在本实施例中，第一识别处理执行部分68在通过捕获真实空间20的图像而获取的、用于生成体素数据的捕获图像32上执行第一识别处理。这里，例如，可以在捕获图像32上执行使用二维CNN 60的第一识别处理。注意，如上所述，不需要对用于生成体素数据的所有捕获图像32执行第一识别处理。例如，可仅在作为用于生成体素数据的一些捕获图像32的捕获图像32a和捕获图像32b上执行第一识别处理。

例如，第一识别处理执行部分68将当将捕获图像32a输入到二维CNN60时作为输出的识别结果图像34a、以及当将捕获图像32b输入到二维CNN 60时作为输出的识别结果图像34b识别为第一识别处理的结果。如上所述，第一识别处理执行部68可以使用二维CNN 60在捕获图像32上执行第一识别处理。另外，第一识别处理执行部68可以识别诸如由捕获图像32表示的玩家26的特定对象。

在本实施例中，例如，目标二维区域确定部分70基于第一识别处理的结果确定占据捕获图像32的部分的目标二维区域44。这里，例如，可以确定占据捕获图像32a的部分的目标二维区域44a和占据捕获图像32b的部分的目标二维区域44b。此外，例如，目标二维区域确定部分70可以确定由特定对象(例如，由第一识别处理执行部分68识别的玩家26)的图像占据的区域作为目标二维区域44。

例如，如上所述，可以基于识别结果图像34a中的玩家区域36a来确定识别结果图像34a中的目标二维区域42a。然后可以将与识别结果图像34a中的目标二维区域42a相对应的捕获图像32a中的区域确定为目标二维区域44a。此外，可以基于识别结果图像34b中的玩家区域36b来确定识别结果图像34b中的目标二维区域42b。然后，可以将与识别结果图像34b中的目标二维区域42b相对应的捕获图像32b中的区域确定为目标二维区域44b。

例如，在本实施例中，目标三维区域确定部分72基于目标二维区域44和相机30获取捕获图像32时的相机30的位置来确定目标三维区域46。这里，如上文所述，目标三维区域确定部分72可以识别例如每个以相机位置48为顶点、并且以目标二维区域52为横截面的没有底面的棱锥(四角棱锥54a和四角棱锥54b)。然后，例如，目标三维区域确定部分72可以将四角棱锥54a和四角棱锥54b相交的三维区域作为目标三维区域46。

在本实施例中，例如，第二识别处理执行部分74使用三维CNN 62对与目标三维区域46中的位置相关联的体素数据执行第二识别处理。这里，例如，可以根据对应于四角棱锥54a的第一三维区域和对应于四角棱锥54b的第二三维区域，在于真实空间20中的三维区域中的位置相关联的体素数据上执行使用三维CNN62的第二识别处理。此外，例如，可以在与四角棱锥54a和四角棱锥54b相交的目标三维区域46中的位置相关联的体素数据上执行使用三维CNN 62的第二识别处理。

例如，与目标三维区域46中的位置相关联的体素数据可以被输入到三维CNN 62。然后，可以识别响应于该输入从三维CNN 62输出的关于体素数据的语义分割的执行结果的数据。例如，基于执行结果的数据，可以估计玩家26的轮廓、以及与作为三维空间的真实空间20中的玩家26相对应的体素组。

这里，将参照图9所示的流程图来描述由根据本实施例的识别处理设备10执行的处理流程的示例。

首先，捕获图像获取部分64获取包括捕获图像32a和捕获图像32b的多个捕获图像32(S101)。

然后，体素数据生成部分66基于在S101中指示的处理中获取的多个捕获图像32生成体素数据(S102)。这里，例如，假设生成与图7所示的矩形平行六面体56内的体素相关联的体素数据。

然后，第一识别处理执行部分68对在S101所示的处理中获取的捕获图像32a执行第一识别处理，并且对在S101所示的处理中获取的捕获图像32b执行第一识别处理(S103)。这里，例如，执行使用二维CNN 60的语义分割。然后，例如，从二维CNN 60输出识别结果图像34a和识别结果图像34b作为第一识别处理的执行结果。

然后，目标二维区域确定部分70确定识别结果图像34中的目标二维区域42(S104)。这里，例如，基于在S103中指示的处理中输出的识别结果图像34a来确定识别结果图像34a中的目标二维区域42a。此外，基于在S103中指示的处理中输出的识别结果图像34b来确定识别结果图像34b中的目标二维区域42b。这里，与如上所述的预定特定类别相关联的区域可以被确定为目标二维区域42。例如，可以将包围玩家区域36的矩形区域、通过向包围玩家区域36的矩形区域添加边距区域而获取的区域、构成玩家区域36的像素的轮廓内的区域等确定为目标二维区域42。

然后，目标二维区域确定部分70确定捕获图像32中的目标二维区域44(S105)。这里，例如，基于在S104所示的处理中确定的识别结果图像34a中的目标二维区域42a来确定捕获图像32a中的目标二维区域44a。此外，基于在S104所示的处理中确定的识别结果图像34b中的目标二维区域42b来确定捕获图像32b中的目标二维区域44b。

然后，目标三维区域确定部分72基于在S105中指示的处理中确定的目标二维区域44来确定目标三维区域46(S106)。

然后，第二识别处理执行部分74对与在S106中指示的处理中确定的目标三维区域46中的体素相对应的体素数据执行第二识别处理，该体素数据是在S102中指示的处理中生成的体素数据的一部分(S107)。然后，完成本处理示例中指示的处理。例如，在S107所示的处理中，可以执行使用三维CNN62的语义分割。例如，第二识别处理执行部分74可以将与在S106中指示的处理中确定的目标三维区域46中的体素相对应的体素数据输入到三维CNN62。然后，第二识别处理执行部分74可以响应于该输入来识别关于从三维CNN 62输出的体素数据的语义分割的执行结果的数据。例如，基于执行结果的数据，可以估计玩家26的轮廓、以及与作为三维空间的真实空间20中的玩家26相对应的体素组。

在上述处理示例中，在S102所示的处理中生成与矩形平行六面体56内的体素相关联的体素数据，并且在S107所示的处理中选择体素数据的部分。这里，例如，在S101中指示的处理之后，可以在不执行S102中指示的处理的情况下执行S103中指示的处理。然后，在S106中指示的处理之后，体素数据生成部分66可以生成与由S106中指示的处理确定的目标三维区域46内的体素相关联的体素数据。在S107中指示的处理中，可以对以这种方式生成的体素数据执行第二识别处理。以这种方式，用于生成体素数据的计算成本低于生成与矩形平行六面体56内的所有体素相关联的体素数据时的计算成本。

此外，例如，识别处理设备10可以顺序地接收以预定采样率获取的捕获图像32。然后，识别处理设备10可以基于顺序接收的捕获图像32以采样率重复执行步骤S101到S107。

此外，目标三维区域46的确定方法不限于上述方法。

例如，可以基于由一个相机30生成的图像来确定目标三维区域46。此外，例如，可以基于与捕获图像32中的目标二维区域44中的位置相关联的深度信息来确定目标三维区域46。

例如，假设相机30a是能够捕获包括深度信息的图像的相机，其生成捕获图像32a和深度图像。在这种情况下，可以确定与捕获图像32a中的目标二维区域44a相关联的深度图像中的目标二维区域。

这里，假设与深度图像中的目标二维区域中的各个像素相关联的表示深度(从相机30到对象的距离)的值的最小值是z1，并且最大值是z2。在这种情况下，可以基于值z1和z2将四角棱锥54a的部分确定为目标三维区域46。

例如，与四角棱锥54a的部分相对应、并且其与相机位置48a的距离是从z1到z2的四角棱锥可以被确定为目标三维区域46。可选地，例如，与四角棱锥54a的部分相对应、并且其与相机位置48a的距离是从z1到k×z1的四角棱锥可以被确定为目标三维区域46(k是大于或等于1的预定系数，例如1.5或2)。此外，例如，与四角棱锥54a的部分相对应、并且其与相机位置48a的距离是从z1-d到k×z1+d的四角棱锥可以被确定为目标三维区域46(d是预定阈值)。

此外，可以将如上所述为多个相机30中的每个识别的四角棱锥部分相交的三维区域确定为目标三维区域46。

此外，例如，可以通过同时定位和映射(SLAM)，用空间重构中的特征点匹配方法生成体素数据。在这种情况下，可以映射与体素数据相关联的通过二维CNN的语义分割的识别结果。然后，例如，可以对映射到玩家26的体素数据执行通过三维CNN的语义分割。

此外，用于确定目标二维区域44的方法不限于上述方法。

例如，第一识别处理执行部分68可以使用视觉注意技术来执行识别要在捕获图像32中密切观察的区域的处理。然后，目标二维区域确定部分70可以将由第一识别处理执行部分68识别的区域确定为捕获图像32中的目标二维区域44。

注意，本发明不限于上述实施例。

上述特定字符串和数值、以及附图中的特定字符串和数值是示例，并且对于本发明，这些不限于上述字符串和数值。

Claims

1.一种识别处理设备，其使用三维卷积神经网络对体素数据执行识别处理，其中真实空间中的位置和体素值彼此关联，所述识别处理设备包括：

第一识别处理执行部分，其在通过捕获所述真实空间的图像而获取的、并且用于生成所述体素数据的捕获图像上执行第一识别处理；

二维区域确定部分，其基于所述第一识别处理的结果确定所述捕获图像的二维区域占据部分；

三维区域确定部分，其基于所述二维区域和相机获取所述捕获图像时所述相机的位置来确定所述真实空间中的三维区域；以及

第二识别处理执行部分，其使用三维卷积神经网络在与所述三维区域中的位置相关联的所述体素数据上执行第二识别处理。

2.根据权利要求1所述的识别处理设备，其中，

所述第一识别处理执行部分在通过从彼此不同的位置捕获所述真实空间的图像而获取的第一捕获图像和第二捕获图像中的每一个上执行所述第一识别处理，

所述二维区域确定部分基于所述第一识别处理的结果，确定所述第一捕获图像的第一二维区域占据部分、以及所述第二捕获图像的第二二维区域占据部分，

所述三维区域确定部分确定基于所述第一二维区域和所述相机获取所述第一捕获图像时的相机位置确定的第一三维区域、以及基于所述第二二维区域和所述相机获取所述第二捕获图像时的相机位置确定的第二三维区域，并且

所述第二识别处理执行部根据所述第一三维区域和所述第二三维区域，使用所述三维卷积神经网络在与所述真实空间中的所述三维区域中的位置相关联的所述体素数据上执行所述第二识别处理。

3.根据权利要求2所述的识别处理设备，其中，

所述第二识别处理执行部分使用所述三维卷积神经网络，在与所述三维区域中所述第一三维区域和所述第二三维区域相交的位置相关联的所述体素数据上执行所述第二识别处理。

4.根据权利要求1至3中任一项所述的识别处理设备，其中，

所述第一识别处理执行部分在与深度信息相关联的捕获图像上执行所述第一识别处理，并且

所述三维区域确定部分基于与所述二维区域中的位置相关联的所述深度信息确定所述真实空间中的所述三维区域。

5.根据权利要求1至4中任一项所述的识别处理设备，其中，

所述第一识别处理执行部分使用二维卷积神经网络在所述捕获图像上执行所述第一识别处理。

6.一种识别处理方法，用于使用三维卷积神经网络对体素数据执行识别处理，其中真实空间中的位置和体素值彼此关联，所述识别处理方法包括：

在通过捕获所述真实空间的图像而获取的、并且用于生成所述体素数据的捕获图像上执行第一识别处理的步骤；

基于所述第一识别处理的结果确定所述捕获图像的二维区域占据部分的步骤；

基于所述二维区域和相机获取所述捕获图像时所述相机的位置来确定所述真实空间中的三维区域的步骤；以及

使用三维卷积神经网络在与所述三维区域中的位置相关联的所述体素数据上执行第二识别处理的步骤。

7.一种程序，使得使用三维卷积神经网络对真实空间中的位置和体素值彼此关联的体素数据执行识别处理的计算机执行：

在通过捕获所述真实空间的图像而获取的、并且用于生成所述体素数据的捕获图像上执行第一识别处理的程序；

基于所述第一识别处理的结果确定所述捕获图像的二维区域占据部分的程序；

基于所述二维区域和相机获取所述捕获图像时所述相机的位置来确定所述真实空间中的三维区域的程序；以及

使用三维卷积神经网络在与所述三维区域中的位置相关联的所述体素数据上执行第二识别处理的程序。