CN117178293A

CN117178293A - 识别装置、识别方法以及程序

Info

Publication number: CN117178293A
Application number: CN202280028267.4A
Authority: CN
Inventors: 藤原达雄
Original assignee: Sony Group Corp
Current assignee: Sony Group Corp
Priority date: 2021-04-22
Filing date: 2022-01-06
Publication date: 2023-12-05
Also published as: WO2022224498A1; JP2022166872A

Abstract

本申请提供识别装置、识别方法以及程序，能够提高识别对象物的识别精度。本技术涉及的识别装置具备处理部。上述处理部将具备LiDAR传感器以及对识别对象物进行拍摄的图像传感器的设备的由上述LiDAR传感器获取的上述识别对象物的深度值参照使用上述LiDAR传感器的感测结果以及上述图像传感器的感测结果而生成的深度校正信息进行校正，该LiDAR传感器具有向上述识别对象物照射光的发光部以及接收从上述识别对象物反射的光的受光部。

Description

识别装置、识别方法以及程序

技术领域

本技术涉及识别对象物的识别所涉及的识别装置、识别方法以及程序。

背景技术

在专利文献1中记载了针对使虚拟对象与相机图像重叠的增强现实图像，向用户提供用户正将手伸向虚拟对象的图像。

现有技术文献

专利文献

专利文献1：日本特开2020-064592号公报

发明内容

发明所要解决的技术问题

例如，在针对使虚拟对象重叠后的增强现实图像生成用户正将手伸向虚拟对象的图像的情况下，若手的识别精度低，则有时会成为不自然的增强现实图像，如虚拟对象在手之上重叠而变得无法观察到手等情况。

鉴于上述情况，本技术的目的在于提供能够提高识别对象物的识别精度的识别装置、识别方法以及程序。

用于解决技术问题的技术方案

本技术涉及的识别装置具备处理部。

上述处理部将具备LiDAR(Light Detection and Ranging，光探测和测距)传感器以及对识别对象物进行拍摄的图像传感器的设备的由上述LiDAR传感器获取的上述识别对象物的深度值参照使用上述LiDAR传感器的感测结果以及上述图像传感器的感测结果而生成的深度校正信息进行校正，该LiDAR传感器具有向上述识别对象物照射光的发光部以及接收从上述识别对象物反射的光的受光部。

根据这样的构成，能够对源自LiDAR传感器的测量误差进行校正，能够使识别对象物的识别精度提高。

也可以是，上述深度校正信息包括基于上述LiDAR传感器的感测结果的上述识别对象物的深度值与上述识别对象物的实际的深度值的差分信息。

也可以是，上述设备具备多个上述图像传感器以及一个上述LiDAR传感器，

上述深度校正信息包括使用从多个上述图像传感器各自的感测结果检测的上述识别对象物的位置信息而通过三角测量计算的上述识别对象物的深度值与基于作为上述LiDAR传感器的感测结果的深度图像的上述识别对象物的深度值的差分信息。

也可以是，上述设备具备至少一个上述图像传感器以及一个上述LiDAR传感器，

上述深度校正信息包括使用从一个上述图像传感器的感测结果检测的上述识别对象物的位置信息和从作为上述LiDAR传感器的感测结果的可靠性图像检测的上述识别对象物的位置信息而通过三角测量计算的上述识别对象物的深度值与基于作为上述LiDAR传感器的感测结果的深度图像的上述识别对象物的深度值的差分信息。

也可以是，上述识别对象物为半透明体。

也可以是，上述识别对象物为人类的皮肤。

也可以是，上述识别对象物为人类的手。

也可以是，上述处理部对作为上述识别对象物的人类的手势动作进行识别。

也可以是，上述处理部使用上述LiDAR传感器的感测结果以及上述图像传感器的感测结果生成上述深度校正信息。

也可以是，上述设备具备显示部，

上述处理部使用校正后的上述识别对象物的深度值，生成在上述显示部上显示的图像。

本技术涉及的识别方法将具备LiDAR(Light Detection and Ranging，光探测和测距)传感器以及对识别对象物进行拍摄的图像传感器的设备的由上述LiDAR传感器获取的上述识别对象物的深度值参照使用上述LiDAR传感器的感测结果以及上述图像传感器的感测结果而生成的深度校正信息进行校正，该LiDAR传感器具有向上述识别对象物照射光的发光部以及接收从上述识别对象物反射的光的受光部。

本技术涉及的程序使识别装置执行如下步骤：

将具备LiDAR(Light Detection and Ranging，光探测和测距)传感器以及对识别对象物进行拍摄的图像传感器的设备的由上述LiDAR传感器获取的上述识别对象物的深度值参照使用上述LiDAR传感器的感测结果以及上述图像传感器的感测结果而生成的深度校正信息进行校正，所述LiDAR传感器具有向上述识别对象物照射光的发光部以及接收从上述识别对象物反射的光的受光部。

附图说明

图1是本技术的实施方式涉及的作为识别装置的便携终端的外观图。

图2是上述便携终端的概略构成图。

图3是包括上述便携终端的功能构成框的构成图。

图4是识别对象物的识别方法的流程图。

图5是用于对校正映射进行说明的图。

图6是对第一实施方式涉及的校正映射的生成方法进行说明的示意图。

图7是第一实施方式中的校正映射生成方法的流程图。

图8是对校正映射生成时显示部所显示的基本图像进行说明的图。

图9是对校正映射生成时的显示部所显示的更为详细的图像进行说明的图。

图10是校正映射生成时的显示部所显示的图像的显示方法涉及的流程图。

图11是对第二实施方式涉及的校正映射的生成方法进行说明的示意图。

图12是第二实施方式中的校正映射生成方法的流程图。

具体实施方式

以下，参照附图对本技术涉及的实施方式进行说明。在以下的说明中，存在对相同的构成赋予相同的附图标记并对已经出现的构成省略说明的情况。

＜第一实施方式＞

[识别装置的外观构成]

图1是作为识别装置的便携终端1的外观图。图1的(A)是从显示部34所处的正面1a侧观察到的便携终端1的平面图，图1的(B)是从背面1b侧观察到的便携终端1的平面图。

在本说明书中，如图所示的彼此正交的XYZ坐标方向与大致长方体的便携终端1的宽度、长度、高度相对应。将与正面1a以及背面1b平行的面设为XY平面，将相当于高度方向的便携终端1的厚度方向设为Z轴。在本说明书中，该Z轴方向与深度方向相对应。

在本实施方式中，便携终端1作为对识别对象物进行识别的识别装置发挥功能。另外，便携终端1是具有作为图像传感器的第一相机2A和第二相机2B、LiDAR传感器3以及显示部34的设备。便携终端1是具有多镜头相机的设备。

如图1的(A)和(B)所示，便携终端1具有壳体4、显示部34、第一相机2A、第二相机2B以及LiDAR传感器3。便携终端1构成为在壳体4上保持有构成显示部34的显示面板、第一相机2A、第二相机2B、LiDAR传感器3、其他的各种传感器以及驱动电路等。

便携终端1具有正面1a以及位于该正面1a的相反侧的位置的背面1b。

如图1的(A)所示，在正面1a侧配置有显示部34。显示部34例如通过液晶显示器、有机EL显示器(Organic Electro-Luminescence Display)等显示面板(图像显示单元)构成。显示部34构成为能够显示通过后述通信部41从外部设备收发的图像、由后述显示图像生成部54生成的图像、输入操作用的按钮、利用第一相机2A、第二相机2B拍摄的直通图像等。图像包括静态图像以及视频。

如图1的(B)所示，第一相机2A的拍摄镜头、第二相机2B的拍摄镜头、LiDAR传感器3的拍摄镜头位于背面1b侧。

第一相机2A、第二相机2B以及LiDAR传感器3分别被预先校准，以便在拍摄空间中所感测的同一识别对象物(被摄体)的坐标值相同。由此，通过将利用第一相机2A、第二相机2B以及LiDAR传感器3所感测的RGB信息(RGB图像数据)以及深度信息(深度图像数据)整合，能够构成点云(各点具有三维坐标那样的信息的集合)。

关于第一相机2A、第二相机2B以及LiDAR传感器3的构成将后述。

[识别装置的整体构成以及各部分的构成]

图2是便携终端1的概略构成图。图3是包括便携终端1的功能构成框的构成图。

如图2所示，便携终端1具有传感器部10、通信部41、CPU(Central ProcessingUnit，中央处理单元)42、显示部34、GNSS接收部44、主存储器45、闪速存储器46、音频设备部47以及电池48。

传感器部10包括第一相机2A、第二相机2B、LiDAR传感器3这样的拍摄设备、触摸传感器43等各种传感器。触摸传感器43典型地配置在构成显示部34的显示面板上。触摸传感器43受理由用户在显示部34上进行的设定等输入操作等。

通信部41构成为能够与外部设备进行通信。

CPU42通过执行操作系统而对便携终端1的整体进行控制。CPU42还执行从可移动存储介质读取出并加载到主存储器45的、或者经由通信部41下载的各种程序。

GNSS接收部44是全球定位卫星系统(Global Navigation Satellite System：GNSS)信号接收机。GNSS接收部44获取便携终端1的位置信息。

主存储器45通过RAM(Random Access Memory，随机存取存储器)构成，存储处理所需要的程序、数据。

闪速存储器46是辅助存储装置。

音频设备部47包括麦克风以及扬声器。

电池48是便携终端1的驱动电源。

如图3所示，便携终端1具有传感器部10、处理部50、存储部56以及显示部34。在图3的传感器部10中，仅图示了本技术主要涉及的主要的传感器。

传感器部10所包括的第一相机2A、第二相机2B、LiDAR传感器3中的感测结果向处理部50输出。

(相机)

第一相机2A与第二相机2B具有相同的构成。以下，在不需要将两者特别区分为第一相机2A、第二相机2B的情况下称为相机2。

相机2是能够对被摄体的彩色二维图像(也称为RGB图像)进行拍摄而作为图像数据的RGB相机。RGB图像是相机2的感测结果。

相机2是对识别对象物(被摄体)进行拍摄的图像传感器。图像传感器例如是CCD(Charge-Coupled Device，电荷耦合器件)传感器或CMOS(Complementary Metal OxideSemiconductor，互补金属氧化物半导体)传感器等。图像传感器具有作为受光部的光电二极管以及信号处理电路。在图像传感器中，通过信号处理电路对由受光部接收到的光进行信号处理，并获取与向受光部的入射光的光量相应的图像数据。

(LiDAR传感器)

LiDAR传感器3对识别对象物(被摄体)的深度图像(也称为距离图像)进行拍摄。深度图像是LiDAR传感器3的感测结果。深度图像是包括识别对象物的深度值的深度信息。

LiDAR传感器3是使用了利用激光的遥感技术(LiDAR：Light Detection andRanging，光探测和测距)的测距传感器。

在LiDAR传感器中，也可以是存在ToF(Time of flight，飞行时间)方式以及FMCW(Frequency Modulated Continuous Wave，调频连续波)方式，使用任一方式的LiDAR传感器，但是可以优选地使用ToF方式。在本实施方式中，举出使用ToF方式的LiDAR传感器(以下称为ToF传感器)的例子。

在ToF传感器中，也可以是存在“直接(Direct)方式”与“间接(InDirect)方式”，使用任一方式的ToF传感器。“直接方式”是将短时间发光的光脉冲照射于被摄体，实测该反射光到达ToF传感器为止的时间。“间接方式”是使用周期性闪烁的光，并将该光在其与被摄体之间往返时的延时作为相位差而检测。从高像素化的观点出发优选使用间接方式的ToF传感器。

LiDAR传感器3具有发光部、作为受光部的光电二极管以及信号处理电路。发光部发射激光，典型地发射近红外光(NIR光)。受光部接收由发光部发射的NIR光被识别对象物(被摄体)反射后时的返回光(反射光)。在LiDAR传感器3中，通过信号处理电路对所接收的返回光进行信号处理，并获取与被摄体对应的深度图像。发光部例如包括发光二极管(LED)等发光部材与用于使其发光的驱动器电路而构成。

这里，在使用LiDAR传感器来获得识别对象物(被摄体)的深度信息时，存在若识别对象物为半透明体，则由于识别对象物中的表面下散射、传感器设备的个体差异而产生测量值与实际的值(以下，称为实际值)的误差(测距误差)这一问题。换言之，存在识别对象物的三维测量精度因识别对象物的材质的反射特性、传感器设备的个体差异而变差这一问题。

在LiDAR传感器中，在人类的皮肤那样的半透明体为识别对象物的情况下，因表面下散射(也称为皮下散射)的影响，由发光部所发光的光被识别对象物反射而返回为止的时间消耗更多。因此，在LiDAR传感器中，作为比实际值稍深层的深度值而进行测量。例如，在识别对象物为人的皮肤的情况下，有时测量值与实际值的深度值的误差产生20mm左右。

作为半透明体的例子已知人类的皮肤、大理石、牛奶等。半透明体是在其内部产生光的透过与散射的物体。

与此相对，在本技术中，参照作为深度校正信息的校正映射对由LiDAR传感器3获取的深度值进行校正。由此，能够使识别对象物的三维测量精度为高精度，并使识别对象物的识别精度提高。

在本实施方式中，上述校正映射能够使用第一相机2A、第二相机2B以及LiDAR传感器3各自的感测结果而生成。对于校正映射的细节将后述。

以下，识别对象物是作为半透明体的皮肤露出后的状态的人类的手，并使用对手进行识别的例子进行说明。

(处理部)

处理部50使用校正映射对通过LiDAR传感器3获取的深度值进行校正。

处理部50也可以生成校正映射。

处理部50具有获取部51、识别部52、校正部53、显示图像生成部54以及校正映射生成部55。

((获取部))

获取部51获取第一相机2A、第二相机2B以及LiDAR传感器3各自中的感测结果，即获取RGB图像、深度图像。

((识别部))

识别部52从由获取部51获取到的深度图像、RGB图像检测手的区域。识别部52从将检测到的手区域切出后的图像区域检测手的特征点位置。作为用于对手的位置进行识别的手的特征点，有指尖、手指的关节、手腕等。指尖、手指的关节、手腕是构成手的部位。

更详细而言，识别部52从由第一相机2A以及第二相机2B分别获取到的RGB图像的手区域检测手的二维特征点位置。检测到的二维特征点位置被向校正映射生成部55输出。以下，有时将“二维特征点位置”称为“二维位置”。

另外，识别部52从由LiDAR传感器3获取到的深度图像的手区域推断并检测手的三维特征点位置。基于该LiDAR传感器3的深度图像检测到的识别对象物的三维特征点位置被向校正部53输出。以下，有时将“三维特征点位置”称为“三维位置”。三维位置包括深度值的信息。

上述手区域的检测、特征点位置的检测能够通过已知的手法进行。例如，能够通过深度神经网络(DNN：Deep Neural Network)、手部姿势检测(Hand Pose Detection)、手部姿势估计(Hand Pose Estimation)、手部分割(Hand segmentation)等人体的手识别技术、HOG(Histogram of Oriented Gradient，方向梯度直方图)、SIFT(Scale InvariantFeature Transform，尺度不变特征变换)等特征点提取方法、提升方法(Boosting)、SVM(Support Vector Machine，支持向量机)等基于图案识别的被摄体识别方法、基于图分割(Graph Cut)等的区域提取方法来识别图像中的手的位置。

((校正部))

当通过识别部52识别为识别对象物的区域是手等人类的皮肤时，校正部53参照校正映射对基于LiDAR传感器3的深度图像检测出的识别对象物(在本实施方式中是手)的三维特征点位置的深度值(Z轴方向的位置)进行校正。

由此，即便识别对象物是人的皮肤那样的半透明体，也对深度值进行校正，以便消除由表面下散射造成的LiDAR传感器3的测量值与实际值的偏差(误差)。

即，通过使用校正映射的校正，能够从LiDAR传感器3的感测结果获得实际的识别对象物的三维位置信息，并能够高精度地对识别对象物进行识别。

通过校正部53校正后的识别对象物的深度值被向显示图像生成部54输出。

((显示图像生成部))

显示图像生成部54生成向显示部34输出的图像信号。该图像信号被向显示部34输出，在显示部34中，基于图像信号而显示有图像。

显示图像生成部54也可以生成在通过相机2获取到的直通图像(相机图像)上重叠有虚拟对象的图像。该虚拟对象可以是后述校正映射生成时所使用的虚拟对象。另外，虚拟对象也可以是例如通过游戏应用程序构成增强现实图像的虚拟对象。

这里，列举出对于在相机图像上重叠有墙壁的虚拟对象的增强现实图像，将用户用手触碰作为虚拟对象的墙壁的图像显示于显示部34的例子。

显示图像生成部54在生成该显示图像时，能够使用校正后的作为识别对象物的手的深度值，生成手与作为虚拟对象的墙壁的位置关系恰当的增强现实图像。

由此，例如不会产生以下这样的情况：在应该显示用手触碰作为虚拟对象的墙壁的表面这一图像时，墙壁的虚拟对象与手的局部重叠而手的局部变得无法观察，成为在墙壁上插有手指的图像。

((校正映射生成部))

校正映射生成部55使用第一相机2A与第二相机2B各自的感测结果以及LiDAR传感器3的感测结果，生成作为深度校正信息的校正映射。

更为具体而言，校正映射生成部55使用通过识别部52从各相机2的RGB图像检测出的识别对象物(手)的二维特征点位置，通过三角测量计算识别对象物的三维特征点位置。设使用该三角测量计算出的识别对象物的三维特征点位置相当于实际的识别对象物的三维特征点位置，并设为包括实际的识别对象物的深度值。

校正映射生成部55使用通过三角测量计算出的识别对象物的深度值以及基于通过识别部52检测出的LiDAR传感器3的深度图像的识别对象物的深度值的差分信息来生成校正映射。

关于校正映射的生成方法将后述。

(存储部)

存储部56包括RAM等存储器设备与硬盘驱动器等非易失性的存储介质，存储用于使便携终端1执行识别对象物的识别处理、校正映射(深度校正信息)生成处理等的程序。

存储部56所存储的、识别对象物的识别处理的程序用于使识别装置(在本实施方式中是便携终端1)执行以下的步骤。

上述步骤是具备LiDAR传感器与图像传感器的设备(在本实施方式中是便携终端1)的、参照使用LiDAR传感器的感测结果以及图像传感器的感测结果而生成的深度校正信息(校正映射)对由LiDAR传感器获取的识别对象物的深度值进行校正的步骤。

存储部56所存储的、校正映射(深度校正信息)的生成处理的程序用于使识别装置(在本实施方式中是便携终端1)执行以下的步骤。

上述步骤是根据从多个相机各自的RGB图像检测出的识别对象物的二维位置通过三角测量计算识别对象物的三维位置的步骤、从LiDAR传感器的深度图像检测识别对象物的三维位置的步骤、以及使用通过三角测量计算出的识别对象物的三维位置与基于LiDAR传感器的深度图像的识别对象物的三维位置的差分信息来生成校正映射(深度校正信息)的步骤。

另外，存储部56也可以存储预先生成的校正映射。校正部53也可以参照该预先准备的校正映射，对通过LiDAR传感器3获取到的深度值进行校正。

[识别方法]

图4是识别对象物的识别方法的流程图。

如图4所示，在识别处理开始后，通过获取部51获取LiDAR传感器3的感测结果(深度图像)(ST1)。

接着，通过识别部52，使用由获取部51获取到的深度图像来检测手的区域(ST2)。

通过识别部52，从深度图像推断、检测作为识别对象物的手的三维特征点位置(ST3)。检测出的识别对象物的三维特征点位置信息被向校正部53输出。

接着，通过校正部53，使用校正映射来校正检测出的识别对象物的三维特征点位置的Z位置(ST4)。校正后的识别对象物的三维特征点位置相当于实际的识别对象物的三维特征点位置。

校正后的识别对象物的三维特征点位置信息被向显示图像生成部54输出(ST5)。

这样，在本实施方式的识别方法中，即便识别对象物是作为半透明体的人类的皮肤，也使用校正映射对LiDAR传感器3的感测结果进行校正，由此识别对象物的识别精度提高。

[校正映射]

校正映射是用于对由LiDAR传感器3检测的识别对象物的深度值(Z值)进行校正的深度校正信息。由于作为识别对象物的皮肤中的表面下散射、LiDAR传感器3的个体差异，会产生LiDAR传感器3中的测量值与实际值的误差。校正映射对该误差进行校正。

使用图5对校正映射进行说明。

如图5的(A)所示，针对可以由LiDAR传感器3获取的拍摄区域8的真实空间配置三维的网格9。三维的网格9通过以均等的间隔配置的多个与X轴平行的网格线、以均等的间隔配置的多个与Y轴平行的网格线、以均等的间隔配置的多个与Z轴平行的网格线分割而构成。

图5的(B)是从Y轴方向观察图5的(A)时的示意图。

在图5的(A)和(B)中，附图标记30表示LiDAR传感器3的中心。

校正映射是在三维的网格9的各格子点上保持有与深度相关的偏离值的映射。“与深度相关的偏离值”是指表示由LiDAR传感器3获取的深度值(测量值)相对于实际的深度值(实际值)以+或-在Z轴方向上偏离了怎样的程度的值。

对“与深度相关的偏离值”进行说明。

在图5的(B)所示的例子中，位于格子点A上的、中间为黑色的黑圈表示基于由LiDAR传感器3获取到的深度图像的识别对象物的三维位置13。中间为白色的白圈表示实际的识别对象物的三维位置12。识别对象物的三维位置中包括深度值的信息。换言之，附图标记13表示LiDAR传感器3的测量位置，附图标记12表示实际的位置。

基于LiDAR传感器3的深度图像的识别对象物的三维位置13的深度值与实际的识别对象物的三维位置12的深度值的差分a为格子点A中的“与深度相关的偏离值”。在图5的(B)所示的例子中，格子点A中的“与深度相关的偏离值”为+。

在校正映射中，按配置于拍摄区域8的三维的网格9的所有格子点设定“与深度相关的偏离值”。

通过参照这样的校正映射，对由LiDAR传感器3获取到的识别对象物的深度值进行校正，能够使识别对象物的三维测量精度为高精度，并能够使识别对象物的识别精度提高。

[使用了校正映射的校正方法]

对使用了上述的校正映射的深度值的校正方法进行说明。以下，将“与深度相关的偏离值”简称为“偏离值”。将由LiDAR传感器3获取到的识别对象物的三维位置称为“测量位置”。“测量位置”是校正前三维位置，包括校正前的深度值的信息。

如上所述，在校正映射中，按三维的网格9的格子点设定偏离值。在测量位置处在格子点上的情况下，使用设定于该格子点的偏离值校正测量位置的深度值。

另一方面，在测量位置不处在格子点上的情况下，例如能够使用Bilinear插值处理等计算测量位置上的偏离值，并使用该偏离值进行测量位置的深度值的校正。

在Bilinear插值处理中，例如如下所述来计算测量位置上的偏离值。

列举出测量位置处于在X轴方向上相邻并延伸的两个网格线与在Y轴方向上相邻并延伸的两个网格线成交叉的四个格子点所通过的XY平面内的情况为例来进行说明。

使用上述四个格子点各自中的偏离值、基于上述四个格子点中的在X轴方向上相邻的两个格子点与测量位置在X轴方向上的距离值之比的权重系数、以及基于上述四个格子点中的在Y轴方向上相邻的两个格子点与测量位置在Y轴方向上的距离值之比的权重系数来计算测量位置上的偏离值。即，基于上述四个格子点各自中的偏离值、以及上述四个格子点与测量位置的各XY轴方向上的距离值的加权平均来计算测量位置上的偏离值。

需要指出，这里，为了方便，列举出测量位置位于四个格子点所通过的平面内的情况为例进行了说明，但在测量位置不处在该平面内的情况下，能够如下所述来计算测量位置上的偏离值。

即，在三维的网格9中，在测量位置处在用网格线划分出的最小单位的三维空间内的情况下，能够基于构成该最小的三维空间的八个格子点各自中的偏离值、以及该八个格子点与测量位置在各XYZ轴方向上的距离值的加权平均来计算测量位置上的偏离值。

[校正映射的生成方法]

(校正映射的生成方法的概略)

校正映射能够使用第一相机2A与第二相机2B各自的感测结果、LiDAR传感器3的感测结果来生成。以下，使用图6以及图7对校正映射的生成方法的概略进行说明。

图6是对使用了具备两个相机与一个LiDAR传感器的便携终端1的校正映射的生成例进行说明的示意图。以作为识别对象物的用户U的手位于便携终端1的拍摄区域内的状态进行校正映射的生成。

在图6中，与用户U的手重叠表示的多个中间为白色的细小的白圈表示用户U的手的特征点位置6，并表示关节位置、指尖位置、手腕位置等。

这里，对识别食指的指尖位置的情况进行说明。

在图6中，标注有附图标记120的白圈表示使用从由第一相机2A与第二相机2B分别获取到的RGB图像检测出的二维特征点位置，通过三角测量计算出的食指的指尖的三维特征点位置。设使用该三角测量而计算出的指尖位置120相当于实际的指尖位置，并设为包括实际的识别对象物的深度值的信息。

在图6中，附图标记130表示基于由LiDAR传感器3获取到的深度图像的食指的指尖的三维特征点位置。由LiDAR传感器3获取的食指的指尖位置130由于LiDAR传感器3中的测量时的表面下散射，与实际的识别对象物的指尖位置120偏离深度值。

使用三角测量计算出的指尖位置120与基于LiDAR传感器3的深度图像的食指的指尖位置130的差分为误差成分。该误差成分为校正映射中的“与深度相关的偏离值”。

通过以拍摄区域整体来获取这样的误差成分的数据，能够生成用于对源自便携终端1中的识别对象为人的皮肤的情况下的LiDAR传感器3的测量误差进行校正的校正映射。

使用图7，对处理部50中的校正映射生成的处理的流程进行说明。

如图7所示，从LiDAR传感器3的深度图像检测识别对象物的三维特征点位置(ST11)。基于该深度图像的三维特征点位置与图6中的附图标记130对应。

另外，从第一相机2A以及第二相机2B各自的RGB图像检测二维特征点位置(ST12)。使用检测出的二维特征点位置，通过三角测量来计算识别对象物的三维特征点位置(ST13)。通过该三角测量计算的三维特征点位置是识别对象物的实际的三维特征点位置。通过三角测量计算的三维特征点位置与图6中的附图标记120相对应。

接着，计算在ST21中推断出的基于LiDAR传感器3的深度图像的三维特征点位置相对于在ST23中计算出的基于多个相机(第一相机2A以及第二相机2B)各自的RGB图像而计算出的三维特征点位置的差分作为误差成分(ST14)。

通过以拍摄区域整体来获取这样的误差成分的数据，生成校正映射。

这样，校正映射包括基于LiDAR传感器3的感测结果的识别对象物的深度值与实际的识别对象物的深度值的差分信息。

图8是对校正映射生成时显示部34所显示的基本的图像进行说明的图。

如图8的(A)和(B)所示，在校正映射生成时，便携终端1的显示部34显示有用于生成校正映射的作为虚拟对象的目标球7与通过第一相机2A或者第二相机2B获取到的直通图像重叠显示后的图像。需要指出，用于生成校正映射的虚拟对象不限定于球状，可以设为各种形状。

用户U例如呈用一只手把持便携终端1，使另一只手位于拍摄区域内而在显示部34映出另一只手的姿势。用户U通过观察显示部34所显示的图像并移动另一只手来进行校正映射的生成。

目标球7以能够在拍摄区域内变化其位置的方式显示。用户U根据显示部34所映出的目标球7的动作，移动另一只手以便追随目标球7。这样，通过根据目标球7的动作来移动手，能够获取拍摄区域整体中的误差成分的数据，并能够使用该数据来生成校正映射。

以下对更为具体的校正映射的生成方法进行说明。

(校正映射的具体的生成方法例)

使用图9以及图10对更为具体的校正映射的生成方法进行说明。

图9是对校正映射生成时的显示部34所显示的图像进行说明的图。

图10是在校正映射生成时显示部34所显示的图像的显示涉及的流程图。

如上所述，在校正映射的生成处理时，用户U呈用一只手把持便携终端1，使另一只手位于进入相机2的视野区域的位置的姿势。

用户U边观察显示部34边根据显示部34所显示的目标球的移动方向、大小来移动另一只手。基于该手的动作的信息来生成校正映射。

遵照图10的流程，参照图9对校正映射生成时所显示的图像进行说明。

在校正映射的生成处理开始后，如图9的(A)所示，在便携终端1的显示部34显示有通过第一相机2A或第二相机2B拍摄到的直通图像(ST21)。进而，如图9的(A)所示，与直通图像重叠，在目标场所显示有目标球7(ST22)，并显示有用户识别结果的球11作为追随该目标球7的用户U的手的识别结果(ST23)。以下，将“用户识别结果的球”称为“用户球”。

目标球7以及用户球11均为虚拟对象。以目标球7例如为黄色、用户球11例如为蓝色这样的方式而通过互不相同的颜色来显示，两者变得能够识别。

目标球7的大小不会变化，始终以一定的大小来显示。

用户球11在识别到的用户U的手的规定的位置上显示。例如，在图8所示的例子中，用户球11显示为用户球11的中心位于中指根部附近。用户球11表示基于LiDAR传感器3中的感测结果的识别结果。用户球11显示为在显示部34所显示的图像中，追逐用户U在XY平面内的手的动作而移动。进而，用户球11的大小根据用户U在Z轴方向上的手的动作而变化。换言之，用户球11的大小根据用户U的手在Z轴方向上的位置(深度值)而变化。

通过便携终端1，例如利用声音等而如图9的(B)所示对用户进行引导，以便将手移动为使用户球11与目标球7一致(ST24)。这里，目标球7与用户球11一致是指两者的位置以及两者的球的大小变得大致相同。使目标球7与用户球11一致的引导除了声音之外，也可以以文章在显示部34上显示。

接着，如图9的(C)所示，在认为目标球7与用户球11的一致后，目标球7如图9的(D)所示的方式移动。通过便携终端1，利用声音等对用户U进行引导，以便使用户U的手追逐目标球7的动作。目标球7在拍摄区域整体移动。

通过校正映射生成部55，获取以追逐在拍摄区域整体移动的目标球7的方式移动的用户U的手的动作信息。即，通过校正映射生成部55，获取拍摄区域整体的LiDAR传感器3的识别对象物(手)的三维位置信息(ST25)。

进而，在上述的ST11～ST15的校正映射生成处理中，通过校正映射生成部55，也与LiDAR传感器3的识别对象物的三维位置信息的获取并行地获取通过三角测量计算的三维位置信息。

即，通过校正映射生成部55获取两个相机2A以及2B的RGB图像，使用从各相机的RGB图像检测出的识别对象物的二维位置信息，通过三角测量来计算识别对象物的三维位置。通过该三角测量计算的三维位置信息也遍及拍摄区域整体来获取。

此外，如使用图7的流程图所说明的那样，计算基于LiDAR传感器3的深度图像(感测结果)的识别对象物的三维位置信息、以及基于两个相机2A以及2B各自的RGB图像(感测结果)的三维位置信息的误差。通过校正映射生成部55，使用拍摄区域整体中的误差成分的数据来生成校正映射。

这样，通过用户，能够按便携终端1生成对LiDAR传感器3的测量误差(测距误差)进行校正的校正映射，并能够进行与所搭载的LiDAR传感器3相适宜的调整。

需要指出，如上所述，校正映射可以按便携终端1由用户生成，也可以预先准备。在具备LiDAR传感器以及相机的设备(本实施方式中的便携终端)中，由于预先得知按设备的种类而搭载的传感器的种类，因此也可以按机种、传感器而预先生成并准备识别对象物为人的皮肤的情况下的校正映射。可以说在后述第二实施方式中也是相同的。

＜第二实施方式＞

在第一实施方式中，虽然列举出了使用两个相机与一个LiDAR传感器各自的感测结果来生成校正映射的例子，但并不限定于此。

在本实施方式中，列举出使用搭载于设备(在本实施方式中为便携终端)的一个相机与一个LiDAR传感器各自的感测结果来生成校正映射的例子。

作为本实施方式中的设备的便携终端的相机的数量不同，在这一点上与第一实施方式的便携终端不同，其他的基本构成是相同的，处理部50的构成是大致相同的。第一实施方式中的便携终端搭载复眼相机，与此相对，第二实施方式中的便携终端搭载单眼相机。以下，主要对不同的点进行说明。

在第二实施方式中，也作为识别装置发挥功能的便携终端1的存储部56所存储的校正映射(深度校正信息)的生成处理的程序用于使识别装置(在本实施方式中是便携终端1)执行以下的步骤。

上述步骤是从一个相机的RGB图像(感测结果)检测识别对象物的二维位置的步骤、从LiDAR传感器的可靠性图像(感测结果)检测识别对象物的二维位置的步骤、使用基于相机的RGB图像的识别对象物的二维位置与基于LiDAR传感器的可靠性图像的识别对象物的二维位置通过三角测量来计算识别对象物的三维位置的步骤、从LiDAR传感器的深度图像检测识别对象物的三维位置的步骤、以及使用通过三角测量计算出的识别对象物的三维位置与基于LiDAR传感器的深度图像的识别对象物的三维位置的差分来生成深度校正信息(校正映射)的步骤。

使用图11以及图12对本实施方式中的校正映射的生成方法进行说明。

图11是对使用了便携终端1的校正映射的生成例进行说明的示意图。

在图11中，与用户U的手重叠表示的多个中间为白色的细小的白圈表示用户U的手的特征点位置6。这里，对识别食指的指尖位置的情况进行说明。

图12是本实施方式中的校正映射生成方法的流程图。

需要指出，校正映射生成时的显示部所显示的图像与第一实施方式相同。

在图11中，附图标记121表示使用从相机2的RGB图像检测出的二维特征点位置与从LiDAR传感器3的可靠性图像检测出的二维特征点位置，通过三角测量计算出的食指的指尖位置。设使用三角测量计算出的指尖位置121相当于实际的指尖位置，并设为包括实际的识别对象物的深度值的信息。指尖位置121是识别对象物的三维特征点位置。

可靠性图像是按像素来表示由LiDAR传感器3获取的深度信息的可靠性的可靠性信息。该可靠性在由LiDAR传感器3获取深度信息时同时计算。可靠性被使用深度信息计算所使用过的图像的亮度信息、对比信息来计算。可靠性以实数值按每一个像素而决定，最终生成可靠性图像作为以可靠性为亮度值的灰度的图像。

在图11中，附图标记131表示基于由LiDAR传感器3获取到的深度图像的食指的指尖的三维特征点位置。由于LiDAR传感器3中的测量时的表面下散射，由LiDAR传感器3获取的食指的指尖位置131与实际的识别对象物的指尖位置121偏离深度值。

使用三角测量计算出的指尖位置121与基于LiDAR传感器3的深度图像的食指的指尖位置131的差分为误差成分。该误差成分为校正映射中的“与深度相关的偏离值”。

通过在拍摄区域整体内获取这样的误差成分的数据，能够生成用于对源自便携终端1中的识别对象为人的皮肤的情况下的LiDAR传感器3的测量误差进行校正的校正映射。

在本实施方式的校正映射生成处理中，通过校正映射生成部55，使用基于LiDAR传感器3的深度图像(感测结果)的识别对象物的三维位置信息、以及基于一个相机2的RGB图像(感测结果)与LiDAR传感器3的可靠性图像(感测结果)的识别对象物的三维位置信息，来生成校正映射。

以下，使用图12对处理部50中的校正映射生成的处理的流程进行说明。

如图12所示，从LiDAR传感器3的深度图像检测识别对象物的三维特征点位置(ST31)。基于该深度图像的三维特征点位置与图11中的附图标记131对应。

另外，从LiDAR传感器3的可靠性图像检测二维特征点(ST32)。

另外，从相机2的RGB图像检测二维特征点位置(ST33)。

接着，使用从可靠性图像检测出的二维特征点位置、以及从相机2的RGB图像检测出的二维特征点位置，通过三角测量计算识别对象物的三维特征点位置(ST34)。使用该三角测量而计算的三维特征点位置相当于识别对象物的实际的三维特征点位置。通过三角测量而计算的三维特征点位置与图11中的附图标记121对应。

接着，计算在ST31中推断出的基于LiDAR传感器3的深度图像的三维特征点位置相对于在ST34中使用三角测量计算出的识别对象物的三维特征点位置的差分作为误差成分(ST35)。

如以上的各实施方式所述，在本技术中，对具备LiDAR传感器与相机(图像传感器)的设备的、由LiDAR传感器获取的深度值参照LiDAR传感器的感测结果与使用相机的感测结果而生成出的校正映射(深度校正信息)进行校正。由此，能够校正与LiDAR传感器的个体差异相应的LiDAR传感器的感测结果的深度值中的误差，能够使识别对象物的识别精度提高。

本技术尤其优选应用于识别对象物如人类的皮肤那样是半透明体的情况。在本技术中，即便识别对象物为半透明体，通过使用校正映射对由LiDAR传感器获取的深度值进行校正，由识别对象物中的表面下散射、传感器设备的个体差异而导致的LiDAR传感器的测量值与实际值的偏差(误差)也被校正。由此，能够进行稳定的高精度的识别对象物的测量，能够使识别对象物的识别精度提高。

因此，如以上所说明的那样，本技术可以尤其优选地应用于露出皮肤的状态多的人类的手的识别。

另外，本技术也可以应用于对用户所执行的手势动作进行识别的手势识别。作为游戏、家电设备等控制器、遥控器的代替，能够使用用户所执行的利用手的手势动作的手势识别结果，进行游戏、家电设备的操作输入等。在本技术中，由于能够进行识别对象物的高精度的识别，因此能够进行稳定且正确的操作输入。

＜其他的构成例＞

本技术的实施方式并不限定于上述实施方式实施，能够在不脱离本技术的主旨的范围内进行各种变更。

例如，在上述第一以及第二实施方式中，列举出使用作为各自不同的设备的RGB相机与LiDAR传感器的例子，但是也可以使用作为能够同时拍摄RGB图像与深度图像(NIR图像)的一个设备的RGB-D相机。

在第一实施方式中，也可以使用一个相机以及一个RGB-D相机来代替两个相机与一个LiDAR传感器。

在第二实施方式中，也可以使用一个RGB-D相机来代替一个相机与一个LiDAR传感器。

另外，例如在上述实施方式中，列举出作为具备图像传感器以及LiDAR传感器的设备的便携终端对识别对象物进行识别的识别装置发挥功能的例子。与此相对，对识别对象物进行识别的识别装置也可以是与具备图像传感器以及LiDAR传感器的设备不同的外部设备。例如，也可以通过与具备图像传感器以及LiDAR传感器的设备不同的服务器等外部设备构成图3所示的处理部50的一部分或全部。

本技术也能够取得以下的构成。

(1)一种识别装置，具备处理部，其中，

所述处理部将具备LiDAR(Light Detection and Ranging，光探测和测距)传感器以及对识别对象物进行拍摄的图像传感器的设备的由所述LiDAR传感器获取的所述识别对象物的深度值参照使用所述LiDAR传感器的感测结果以及所述图像传感器的感测结果而生成的深度校正信息进行校正，所述LiDAR传感器具有向所述识别对象物照射光的发光部以及接收从所述识别对象物反射的光的受光部。

(2)根据上述(1)所述的识别装置，

所述深度校正信息包括基于所述LiDAR传感器的感测结果的所述识别对象物的深度值与所述识别对象物的实际的深度值的差分信息。

(3)根据上述(1)或(2)所述的识别装置，

所述设备具备多个所述图像传感器以及一个所述LiDAR传感器，

所述深度校正信息包括使用从多个所述图像传感器各自的感测结果检测的所述识别对象物的位置信息而通过三角测量计算的所述识别对象物的深度值与基于作为所述LiDAR传感器的感测结果的深度图像的所述识别对象物的深度值的差分信息。

(4)根据上述(1)或(2)所述的识别装置，

所述设备具备至少一个所述图像传感器以及一个所述LiDAR传感器，

所述深度校正信息包括使用从一个所述图像传感器的感测结果检测的所述识别对象物的位置信息和从作为所述LiDAR传感器的感测结果的可靠性图像检测的所述识别对象物的位置信息而通过三角测量计算的所述识别对象物的深度值与基于作为所述LiDAR传感器的感测结果的深度图像的所述识别对象物的深度值的差分信息。

(5)根据上述(1)～(4)中任一项所述的识别装置，

所述识别对象物为半透明体。

(6)根据上述(5)所述的识别装置，

所述识别对象物为人类的皮肤。

(7)根据上述(6)所述的识别装置，

所述识别对象物为人类的手。

(8)根据上述(1)～(7)中任一项所述的识别装置，

所述处理部对作为所述识别对象物的人类的手势动作进行识别。

(9)根据上述(1)～(8)中任一项所述的识别装置，

所述处理部使用所述LiDAR传感器的感测结果以及所述图像传感器的感测结果生成所述深度校正信息。

(10)根据上述(1)～(9)中任一项所述的识别装置，

所述设备具备显示部，

所述处理部使用校正后的所述识别对象物的深度值，生成在所述显示部上显示的图像。

(11)一种识别方法，其中，

将具备LiDAR(Light Detection and Ranging，光探测和测距)传感器以及对识别对象物进行拍摄的图像传感器的设备的由所述LiDAR传感器获取的所述识别对象物的深度值参照使用所述LiDAR传感器的感测结果以及所述图像传感器的感测结果而生成的深度校正信息进行校正，所述LiDAR传感器具有向所述识别对象物照射光的发光部以及接收从所述识别对象物反射的光的受光部。

(12)一种程序，所述程序使识别装置执行如下步骤：

附图标记说明

1…便携终端(识别装置、设备)

2…相机(图像传感器)

2A…第一相机(图像传感器)

2B…第二相机(图像传感器)

3…LiDAR传感器

12、120、121…实际的指尖位置、通过三角测量计算出的指尖位置(包括实际的深度值的识别对象物的三维位置)

13、130、131…基于LiDAR传感器的感测结果的指尖位置(包括基于LiDAR传感器的感测结果的深度值的识别对象物的三维位置)

34…显示部

50…处理部

Claims

1.一种识别装置，具备处理部，其中，

所述处理部将具备LiDAR传感器以及对识别对象物进行拍摄的图像传感器的设备的由所述LiDAR传感器获取的所述识别对象物的深度值参照使用所述LiDAR传感器的感测结果以及所述图像传感器的感测结果而生成的深度校正信息进行校正，所述LiDAR传感器具有向所述识别对象物照射光的发光部以及接收从所述识别对象物反射的光的受光部。

2.根据权利要求1所述的识别装置，其中，

3.根据权利要求2所述的识别装置，其中，

4.根据权利要求2所述的识别装置，其中，

5.根据权利要求1所述的识别装置，其中，

所述识别对象物为半透明体。

6.根据权利要求5所述的识别装置，其中，

所述识别对象物为人类的皮肤。

7.根据权利要求6所述的识别装置，其中，

所述识别对象物为人类的手。

8.根据权利要求1所述的识别装置，其中，

9.根据权利要求1所述的识别装置，其中，

10.根据权利要求1所述的识别装置，其中，

所述设备具备显示部，

所述处理部使用校正后的所述识别对象物的深度值生成在所述显示部上显示的图像。

11.一种识别方法，其中，

将具备LiDAR传感器以及对识别对象物进行拍摄的图像传感器的设备的由所述LiDAR传感器获取的所述识别对象物的深度值参照使用所述LiDAR传感器的感测结果以及所述图像传感器的感测结果而生成的深度校正信息进行校正，所述LiDAR传感器具有向所述识别对象物照射光的发光部以及接收从所述识别对象物反射的光的受光部。

12.一种程序，所述程序使识别装置执行如下步骤：