CN114641795A

CN114641795A - 物体检索装置及物体检索方法

Info

Publication number: CN114641795A
Application number: CN202080076434.3A
Authority: CN
Inventors: 田村雅人; 吉永智明; 广池敦; 中前冠; 梁岛勇太
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2019-12-24
Filing date: 2020-10-13
Publication date: 2022-06-17
Also published as: JP7196058B2; EP4083906A4; JP2021101274A; EP4083906A1; US20230005268A1; WO2021131248A1

Abstract

目的在于构成如下物体检索装置：在对有形状、凹凸特征的物体的检索中，能够仅通过图像将这些信息表达为特征量而进行准确的检索。构成为具备：图像特征提取部，由第一神经网络构成，输入图像来提取图像特征量；三维数据特征提取部，由第二神经网络构成，输入三维数据来提取三维数据特征量；学习部，从自同一个体得到的物体的图像和三维数据分别提取图像特征量和三维数据特征量，以减小所述图像特征量与所述三维数据特征量之差的方式更新图像特征提取用的参数；及检索部，该检索部由使用了更新后的所述图像特征提取用的参数的图像特征提取部提取物体的查询图像及图库图像的图像特征量，计算查询图像及图库图像的图像特征量的相似度来检索物体。

Description

物体检索装置及物体检索方法

技术领域

本发明涉及物体检索装置及物体检索方法。

背景技术

作为相似物体检索的用途，有监视系统。例如在将检索对象设为人物的情况下，使用人物检索，能够对监视者的可疑人员追踪提供辅助。另外，例如在将检索对象设为货物的情况下，使用货物检索，能够从映现在别处的照相机的图像内的货物中追踪到被遗弃的货物或可疑的货物，确定其所有者。在这样的用途中，优选的是同一人物、同一货物等同一个体出现在检索结果的靠前位置，要求高精度的检索。

作为本技术领域的背景技术，有日本特开2009-27393号公报(专利文献1)。在该公报中，记载了：一种影像监视系统，具有从一台以上的照相机等拍摄设备获取信号的影像获取部、和保持影像获取部所获取到的输入图像的图像数据部，其中，具有：条件指定部，根据输入图像指定人物特征、时间、照相机；图像检索部，通过图像识别从保持于图像数据部的输入图像群中检索出与条件指定部指定的条件一致的图像；及结果显示部，显示图像检索部的结果；具备通过用户指定或人物追踪的方法选择条件指定部指定的多个人物特征并将其加入到条件指定部的检索条件中的单元。

现有技术文献

专利文献

专利文献1：日本特开2009-27393号公报

专利文献2：日本特开2015-176484号公报

发明内容

发明所要解决的课题

作为进行监视系统所需的高精度检索的方法，有专利文献1、专利文献2所记载的方法。在专利文献1中，提出了使用图像的检索方法。近些年经常使用向卷积神经网络(Convolutional neural network、CNN)输入图像并提取特征量，计算特征量的相似度的方法。在该方法中，对于同一个体，准备照明环境、物体在图像内的位置、大小不同的各种图像，针对这些图像学习CNN以提取相似的特征量。通过该学习，CNN相对于图像的各种变化变得鲁棒，能够进行高精度检索。另外，在专利文献2中，提出了使用三维模型的检索方法。在使用三维模型的检索中，针对包含深度信息的图像或点群数据，使用局部二值模式(LBP)等经典的特征提取、神经网络(NN)进行特征量的提取，并与图像同样地计算特征量的相似度。通过使用三维模型，能够将难以从图像中提取的形状、凹凸特征提取出来，能够提高检索的精度。

专利文献1所记载的使用图像的检索以及专利文献2所记载的使用三维数据的检索虽然有用，但都留下了课题。在使用图像的检索中，由于图像中不包含物体的立体的形状、凹凸信息，因此包括这些信息在内都无法进行检索。因而，例如，在存在颜色与检索对象相似、但凹凸图案有所差异的多个货物的情况下，通过使用图像的检索就很可能得出错误的检索结果。在使用三维数据的检索中，为了进行精度高的检索，需要准确的三维信息。深度照相机在能够获取拍摄对象的准确的三维数据的距离上是有限制的，根据监视范围的不同，需要大量的深度照相机。由此，会产生深度照相机的设置成本的问题。另外，三维数据与图像相比所要处理的数据量增加，因此特征提取较为耗费时间。

针对这样的课题，本发明提出一种从图像推断可从三维数据得到的包括形状、凹凸信息在内的特征量来进行特征提取的方法。目的在于使用本发明构成这样一种物体检索装置：在对有形状、凹凸特征的物体的检索中，能够仅通过图像将这些信息表达为特征量而进行准确的检索。

用于解决课题的手段

在本发明的物体检索装置的优选的例子中，构成为具备：图像特征提取部，该图像特征提取部由第一神经网络构成，输入图像来提取图像特征量；三维数据特征提取部，该三维数据特征提取部由第二神经网络构成，输入三维数据来提取三维数据特征量；学习部，该学习部从自同一个体得到的物体的图像和三维数据中分别提取图像特征量和三维数据特征量，并以减小所述图像特征量与所述三维数据特征量之差的方式更新图像特征提取用的参数；以及检索部，该检索部由使用更新了的所述图像特征提取用的参数的图像特征提取部提取物体的查询图像及图库图像的图像特征量，并计算所述查询图像及图库图像的图像特征量的相似度来检索物体。

另外，作为本发明的另一特征，在所述物体检索装置中，还具备：追踪部，该追踪部由第三神经网络构成，输入在时间序列上连续的多个图像，根据各图像的检测结果将相同种类的物体中在空间上距离较近的彼此结合，生成同一个体的在时间序列上连续的多个图像来作为追踪数据；以及追踪数据存储部，该追踪数据存储部存储所述追踪部所生成的追踪数据，所述检索部使用从所述追踪部及所述追踪数据存储部得到的追踪数据及图像进行物体检索。

另外，在本发明的物体检索方法的优选的例子中，其特征在于：输入从同一个体得到的物体的图像和三维数据，利用第一神经网络对所述图像提取图像特征量，利用第二神经网络对所述三维数据提取三维数据特征量，并进行以减小所述图像特征量与所述三维数据特征量之差的方式更新图像特征提取用的参数的学习处理，由使用更新了的所述图像特征提取用的参数的图像特征提取部的所述第一神经网络提取物体的查询图像及图库图像的各图像特征量，并计算所述查询图像及图库图像的图像特征量的相似度来检索物体。

另外，作为本发明的另一特征，在所述物体检索方法中，所述图像特征提取用的参数是构成所述第一神经网络的各神经元的权重和偏置。

发明效果

根据本发明，能够提供一种仅从图像就将形状、凹凸等三维信息表达为特征量的高精度的物体检索装置。另外，在检索时不需要处理三维数据，有不产生深度照相机的设置成本的问题和特征提取的处理时间的问题的效果。对于除此以外的效果，将在各实施例中描述。

附图说明

图1是实施例1中的物体检索装置的构成图。

图2是物体检索装置的由学习控制部或检索控制部控制的各功能部的功能框图。

图3是实施例1中的学习处理的一个例子的流程图。

图4是实施例1中的检索处理的一个例子的流程图。

图5是表示本实施例中使用的学习处理所需的图像及三维数据的例子的图。

图6是表示实施例1中使用的学习处理所需的注释数据的图。

图7是实施例2中的物体检索装置的构成图。

图8是实施例2的物体检索装置的由学习控制部或检索控制部控制的各功能部的功能框图。

图9是实施例2中使用的追踪处理的一个例子的流程图。

图10是实施例2中使用的检索处理的一个例子的流程图。

图11是表示实施例2中使用的学习处理所需的注释数据的图。

具体实施方式

以下，使用附图来说明本发明的实施方式。

实施例1

在本实施方式中，作为物体检索装置的一个例子，将说明对旅行箱等货物进行检索的例子。此外，检索对象不必是货物，只要是能够被拍摄的物体即可。

图1是本实施例的物体检索装置的构成图。

物体检索装置100可在通用的计算机上构成，其硬件构成具备由CPU(CentralProcessing Unit)、RAM(Random Access Memory)等构成的运算部110、由ROM(Read OnlyMemory)、HDD(Hard Disk Drive)、使用快闪存储器等的SSD(Solid State Drive)等构成的存储部120、由键盘、鼠标等输入设备构成的输入部130、由LCD(Liquid Crystal Display)、有机EL显示器等显示装置构成的显示部140、由NIC(Network Interface Card)等构成的通信部150等。

通信部150经由网络160和与外部的监视系统共用的监视图像数据库_A171、监视图像数据库_Z172以及设置于各处的照相机181、182连接。

运算部110将存储部120中存储的物体检索程序121加载到RAM并使之由CPU执行，由此实现以下的各功能部。运算部110具有学习控制部111、检索控制部112、图像/三维数据获取部113、学习部114、检索部115、图像特征提取部116及三维数据特征提取部117。

学习控制部111在学习执行者(对学习进行控制的人或者计算机)的指示下启动，并为了执行学习执行者所请求的学习处理而控制以下的各功能部。

检索控制部112在检索执行者(进行检索的人或者计算机)的指示下启动，并为了执行检索执行者所请求的检索处理而控制以下的各功能部。

图2示出了由学习控制部111或检索控制部112控制的各功能部的功能框图。

图像/三维数据获取部113在执行学习处理或者检索处理之际对数据的输入输出进行处理。在执行学习处理时，从学习执行者受理在学习处理中使用的图像、三维数据及注释数据，或者从外部获取学习执行者所请求的图像、三维数据，并将这些数据发送到学习部114。在此，所谓注释数据，是用于进行学习的正确数据。

在执行检索处理时，从检索执行者受理查询图像和图库图像，或者从外部获取检索执行者所请求的查询图像和图库图像的全部或任一方的图像，并将这些图像发送到检索部115。在此，所谓查询图像，是映现了检索对象货物的图像，所谓图库图像，是为了以查询图像为基础将映现了与检索对象货物为同一个体的货物的图像搜索到而与之比较的图像。

学习部114通过学习来更新图像特征提取部116、三维数据特征提取部117在提取特征之际所使用的参数(构成神经网络的各神经元的权重和偏置)。在执行学习时，从图像/三维数据获取部113接收在学习中使用的图像、三维数据及注释数据。向图像特征提取部116发送接收到的图像，并接收图像特征提取部116所提取的特征量。向三维数据特征提取部117发送接收到的三维数据，并接收三维数据特征提取部117所提取的特征量。另外，从图像特征提取部116及三维数据特征提取部117接收特征提取用的参数，并将更新了的参数向图像特征提取部116及三维数据特征提取部117发送。

检索部115进行用于检索的输入输出处理、计算、显示管理。在执行检索时，从图像/三维数据获取部113接收在检索中使用的查询图像和图库图像，并将这些图像向图像特征提取部116发送。另外，从图像特征提取部116接收特征量，并将根据特征量计算出的检索结果向显示部140发送。

显示部140进行检索结果的显示。在执行检索时，从检索部115获取查询图像、图库图像及显示顺序，并按照显示顺序来显示图像。

图像特征提取部116从图像中提取相似度计算所需的特征量。在执行学习时，从学习部114接收图像，并将所提取的特征量向学习部114发送。另外，将特征提取用的参数向学习部114发送，并从学习部114接收更新了的参数。在执行检索时，从检索部115接收图像，并将提取到的特征量向检索部115发送。

三维数据特征提取部117从三维数据中提取相似度计算所需的特征量。在执行学习时，从学习部114接收三维数据，并将所提取的特征量向学习部114发送。另外，将特征提取用的参数向学习部114发送，并从学习部114接收更新了的特征量。

在存储部120的图像特征提取用参数122中，存储图像特征提取部116在提取图像的特征之际所使用的参数(构成神经网络的各神经元的权重和偏置)。

在存储部120的三维数据特征提取用参数123中，存储三维数据特征提取部117在提取三维数据的特征之际所使用的参数(构成神经网络的各神经元的权重和偏置)。

图3示出了本实施方式中使用的学习处理的一个例子的流程图。

在步骤S100中，学习控制部111在学习执行者的学习开始操作下启动，开始学习处理。

在步骤S101中，学习执行者将学习所需的图像、三维数据及注释数据输入到图像/三维数据获取部。在此，在图像包含颜色信息的情况下，三维数据也使用包含颜色信息的数据。

在步骤S102中，图像/三维数据获取部将在步骤S101中接收到的图像、三维数据及注释数据发送到学习部114。

在步骤S103中，学习部将在步骤S102中接收到的图像发送到图像特征提取部116。

在步骤S104中，图像特征提取部116对于在步骤S103中接收到的图像进行特征提取。在特征提取中，例如使用CNN。CNN受理图像来作为输入，将其转换成作为特征量的数值矢量并输出。该转换是通过使用CNN所保持的参数(使用图像特征提取用参数122)反复实施卷积运算来进行的。参数能够初始设定为任意的值，通过学习来更新参数的值。

在步骤S105中，图像特征提取部将在步骤S104中提取出的特征量和在特征提取中用到的参数(图像特征提取用参数122)发送到学习部114。

在步骤S106中，学习部114存储在步骤S105中接收到的图像特征量及图像特征提取用的参数。

在步骤S107中，学习部将在步骤S102中接收到的三维数据发送到三维数据特征提取部117。

在步骤S108中，三维数据特征提取部117对于在步骤S107中接收到的三维数据进行特征提取。在特征提取中，例如使用三维数据用的神经网络(Neural network、NN)。例如，PointNet等。三维数据用的NN受理三维数据来作为输入，将其转换成作为特征量的数值矢量并输出。该转换是通过反复实施使用三维数据用的NN所保持的参数(使用三维数据特征提取用参数123)对三维数据进行线性转换并将其输入到非线性函数中这一处理来进行的。参数能够初始设定为任意的值，通过学习来更新参数的值。

在步骤S109中，三维数据特征提取部117将在步骤S108中提取出的特征量和在特征提取中用到的参数(三维数据特征提取用参数123)发送到学习部。

在步骤S110中，学习部114存储在步骤S109中接收到的三维数据特征量及三维数据特征提取用的参数。

在步骤S111中，学习部114使用在步骤S106中存储的图像特征量及图像特征提取用参数和在步骤S110中存储的三维数据特征量及三维数据特征提取用参数来进行参数的更新作业。在参数的更新中，例如使用随机梯度下降法。

随机梯度下降法中需要目标函数，图像特征提取用的参数更新中使用的目标函数E_image例如使用同一个体的图像特征量f_image和三维数据特征量f_3d以算式(1)的方式计算。

[算式1]

Eimage＝||fimage-f3d||2 ……(1)

这是图像特征量f_image和三维数据特征量f_3d的平方误差。向目标函数E_image最小化的方向更新图像特征提取用的参数。在对多个个体计算目标函数的情况下，例如可以使用对多个个体计算E_image并取平均的均方误差。

三维数据特征量提取用的参数更新中使用的目标函数E_3d例如使用基于个体识别的Softmax cross-entropy。向目标函数E_3d最小化的方向更新三维数据特征量提取用的参数。在对多个个体计算目标函数的情况下，例如对多个个体计算E_3d并取平均。

在步骤S112中，学习部114将在步骤S111中计算出的参数的更新值发送到图像特征提取部116及三维数据特征提取部117。

在步骤S113中，图像特征提取部116及三维数据特征提取部117使用在步骤S112中接收到的参数更新值来更新各个特征提取用参数(图像特征提取用参数122、三维数据特征提取用参数123)。

在步骤S114中，学习控制部111根据最初的请求内容、处理实绩来判定学习执行者是要继续进行学习还是要结束学习，在判定为要继续进行的情况下进入S101，在判定为要结束的情况下进入S115。

在步骤S115中，结束学习处理。

如本实施方式所示，通过学习处理，三维数据特征提取部能够针对同一个体提取相似的特征量，图像特征提取部能够提取与三维数据特征提取部所输出的特征量相近的特征量，由此图像特征提取部能够从图像提取三维数据特征提取部所输出的特征量。由此，在检索时的图像的特征提取中，能够进行考虑了三维构造的相似特征量的提取。若使用该特征量，则能够在对有形状特征的物体的检索中提高精度。另外，在进行使用了三维数据的检索的情况下，一般需要在整个监视区域设置RGB照相机和深度照相机这两者、或者RGB-D照相机，设置成本大。但是，如果使用本方法，则仅在学习时准备三维数据即可，能够抑制照相机设置成本增加。

关于本流程中的图像特征量提取用的参数和三维数据特征量提取用的参数的学习时机，既可以同时学习各个参数，也可以先学习三维数据特征量提取用的参数，而后学习图像特征量提取用的参数。

在本实施方式中，对同一个体的检索的方法进行了说明，但本方法不仅能够在同一个体的检索中使用，还能够在物体识别、物体检测中使用，能够提高精度。

图4示出了本实施方式中使用的检索处理的一个例子的流程图。

在步骤S200中，检索控制部112在检索执行者的检索开始操作下启动，开始检索处理。

在步骤S201中，检索执行者将检索处理所需的查询图像及图库图像输入到图像/三维数据获取部113。或者，检索控制部112按照检索执行者的请求，使图像/三维数据获取部从设置于各处的照相机181、182或外部的监视图像数据库171、172等获取检索处理所需的查询图像及图库图像。

在步骤S202中，图像/三维数据获取部113将在步骤S201中接收到的图像发送到检索部115。

在步骤S203中，检索部115将在步骤S202中接收到的图像发送到图像特征提取部116。

在步骤S204中，图像特征提取部对于在步骤S203中接收到的图像进行特征提取。特征提取的方法使用与在学习处理流程中的步骤S104中使用的方法相同的方法。在学习处理中使用包含颜色信息的图像和包含颜色信息的三维数据进行学习的情况下，对于包含颜色信息的图像进行特征提取。

在步骤S205中，图像特征提取部116将在步骤S204中提取到的特征量发送到检索部115。

在步骤S206中，检索部115使用在步骤S205中接收到的特征量来决定检索结果的显示顺序。在使用特征量决定显示顺序的情况下，需要计算特征量的相似度。在相似度的计算中，例如有使用表示特征量的数值矢量的欧几里得距离的方法。若将查询图像的特征量设为f_q，将图库图像的特征量设为f_g，则相似度s能够以算式(2)的方式计算。

[算式2]

相似度取0.0至1.0的值，值越大，表示相似度越高。显示顺序例如以优先显示相似度高者的方式来决定。

在步骤S207中，检索部115将在步骤S202中接收到的图像和在步骤S206中决定的显示顺序发送到显示部140。

在步骤S208中，显示部使用在步骤S207中接收到的图像和显示顺序来显示检索结果。在显示中，例如按照显示顺序由高到低的顺序在画面的上部进行显示。

在步骤S209中，检索控制部112根据最初的请求内容、处理实绩来判定检索执行者是要继续进行检索还是要结束检索，在判定为要继续进行的情况下进入S201，在判定为要结束的情况下进入S210。

在步骤S210中，结束检索处理。

如本实施方式所示，通过在检索处理时仅使用图像的特征量，如前所述，在监视区域不再需要三维数据获取用的照相机，能够抑制照相机的设置成本增加。另外，三维数据由于与图像相比数据量较多，因此处理较为耗费时间。因此，在检索处理时使用三维数据进行特征提取的情况下，虽然一方面检索精度提高，但另一方面也有检索速度降低的缺点。但是，如果使用本方法，则通过仅对图像的处理就能再现从三维数据得到的特征量，因此能够不引起处理速度降低地提高检索精度。

图5是表示本实施方式中使用的学习处理所需的图像及三维数据的例子的图。以下，对图内的各项目进行说明。

500是拍摄对象货物。

501是对货物进行拍摄的照相机，其生成图像及三维数据。该照相机既可以使用像RGB-D照相机这样能够获取图像和三维数据这两者的一个照相机，也可以使用RGB照相机和深度照相机这两者。

502是在用照相机501拍摄货物500时所能获取的图像。

503是在用照相机501拍摄货物500时所能获取的三维数据。关于三维数据的表现方法，只要是能够表现出点群、体素(Voxel)等空间信息的方法即可，可以使用任何方法。

图6是表示本实施方式中使用的学习处理所需的注释数据的图。以下，对注释数据的形式进行说明。

600表示作为注释数据而保存的数据表。在数据表中，对应地保存有图像ID、三维数据ID及货物ID这些项目。图像ID是为了唯一地识别图像而赋予的ID，例如以每当获取到图像时使ID增加1的方式赋予。三维数据ID是为了唯一地识别三维数据而赋予的ID，例如以每当获取到三维数据时使ID增加1的方式赋予。图像和三维数据不需要必须在同一时刻获取，但希望的是在尽量相近的时刻获取到的图像与三维数据的组合。对于组合的决定方法，例如既可以针对在相近时刻获取的同一个体的图像和三维数据，在获取时由计算机对图像ID和三维数据ID分配同一个ID，由此决定组合，也可以是而后由人对图像和三维数据进行确认来决定组合。货物ID是用于唯一地识别同一个体的ID，通过注释作业而赋予给所获取的图像及三维数据。在数据表600中，表示了从上数前两行是同一个体的图像及三维数据。

通过使用本实施方式所示的注释数据进行学习，能够在学习时将从图像中提取的特征量和从三维数据中提取的特征量建立关联。通过使用该关联以图3所示的学习处理流程进行学习，能够实现本方法。

实施例2

在本实施方式中，作为物体检索装置的一个例子，以进行旅行箱等货物的检索为例进行说明。此外，检索对象不必是货物，只要是能够被拍摄的物体即可。相对于实施例1，本实施方式是如下例子：对于在学习处理及检索处理中使用的图像，通过照相机内的物体追踪(在一个照相机内在时间序列上连续的帧内捕捉同一物体)，预先就多个图像明了其为同一个体，对于在学习中使用的三维数据，预先通过三维重建等方法(用三维照相机围绕在对象物周围进行捕捉而得到对象物整体的数据并重建对象物的三维)使其成为一个数据。对于学习处理及检索处理时的各个体，除使用多个图像及经过三维重建的三维数据以外其他点与实施例1是相同的。

图7是实施例2中的物体检索装置200的构成图。构成为对图1所示的实施例1的物体检索装置追加了追踪部118、追踪数据存储部124及追踪图像特征提取用参数125。

图8示出了由学习控制部111或检索控制部112控制的实施例2的物体检索装置200的各功能部的功能框图。构成为对图2所示的实施例1的功能框图追加了追踪部118及追踪数据存储部124。

追踪部118对于被输入的在时间序列上连续的多个图像进行追踪处理(将被检测为捕捉了同一个对象物的图像汇总在一起并赋予同一个追踪ID)。在执行检索处理时，从图像/三维数据获取部113接收在时间序列上连续的多个图像，并将作为追踪结果的追踪数据和图像发送到检索部115。

追踪数据存储部124进行追踪数据的存储。在执行追踪时，从追踪部118接收追踪数据及图像。在执行检索处理时，向检索部115发送追踪数据及图像。

图9示出了本实施方式中使用的追踪处理的一个例子的流程图。

在步骤S300中，追踪部在追踪执行者的追踪开始指示下开始追踪处理。所谓追踪执行者，是对追踪进行控制的人或者计算机。在本实施例中，是在学习执行者或检索执行者的操作下启动的学习控制部111或检索控制部112。

在步骤S301中，追踪执行者将用于进行追踪的在时间序列上连续的多个图像输入到图像/三维数据获取部113。

在步骤S302中，图像/三维数据获取部将在步骤S301中接收到的在时间序列上连续的多个图像发送到追踪部118。

在步骤S303中，追踪部118对于在步骤S302中接收到的在时间序列上连续的多个图像实施追踪处理。在追踪处理中，例如执行如下的处理步骤。首先，使用CNN检测器进行各图像的货物(追踪对象物)的检测(CNN检测器事先实施学习处理。CNN检测器中用于检测的参数被存储于追踪图像特征提取用参数125。)。检测结果是货物的种类和其在图像内的位置及大小。接下来，对于在时间序列上相邻的图像的检测结果，将相同种类的货物的检测结果中在空间上距离较近者彼此结合。在距离的计算中，例如使用检测的位置的欧几里得距离。根据如此得到的追踪结果，生成唯一地决定同一个体的追踪ID和该追踪ID所表示的个体的在时间序列上连续的多个图像来作为追踪数据。

在步骤S304中，追踪部118将在步骤S303中生成的追踪数据保存于追踪数据存储部。

在步骤S305中，追踪执行者决定是要继续进行追踪还是要结束追踪。

在步骤S306中，结束追踪。

通过实施本实施方式所示的追踪处理，可预先针对同一个体得到多个图像，在检索处理时能够使用多个图像进行特征提取。

图10示出了本实施方式中使用的检索处理的一个例子的流程图。本流程除了进行追踪处理以外与实施例1的流程(图4)是相同的。以下，仅对追踪处理的流程进行说明。

在步骤S401中，检索执行者将映现了成为检索对象的物体的、在时间序列上连续的多个图像输入到图像/三维数据获取部113。

在步骤S402中，图像/三维数据获取部113将在步骤S401中接收到的图像发送到追踪部118。

在步骤S403中，追踪部118对于在步骤S402中接收到的图像进行追踪处理。

在步骤S404中，追踪部将在步骤S403中进行的追踪处理的结果所得到的追踪数据及图像发送到检索部115。

在步骤S405中，检索部将在步骤S404中接收到的追踪数据及图像发送到图像特征提取部116。

在步骤S406中，将追踪数据存储部124中保存的追踪数据及图像发送到图像特征提取部116。

在步骤S407中，图像特征提取部116使用在步骤S405及步骤S406中接收到的追踪数据及图像进行特征提取。为了从同一个体的多个图像中提取特征量，例如使用3DCNN。该情况下，对于学习流程中的图像特征提取部，也使用3DCNN。

在本流程中，预先对多个货物实施追踪处理，并在追踪数据存储部124中保存这些货物的追踪数据及图像。在执行检索处理时，将这些事先保存在追踪数据存储部124中的图像作为图库图像来进行检索。

如本实施方式所示，通过在执行检索处理时实施追踪处理，针对同一个体得到从各种方向拍摄到的多个图像。通过在特征提取之际使用该多个视点的图像，容易将从三维数据得到的特征量再现，能够提高精度。

图11是表示本实施方式中使用的学习处理所需的注释数据的图。以下，对注释数据的形式进行说明。

700表示作为注释数据而保存的数据表。在数据表中，对应地保存有图像ID、三维数据ID、追踪ID及货物ID。关于图像ID、三维数据ID、货物ID，它们与图6所示的数据表600是相同的。关于追踪ID，使用为了做到对物体进行追踪处理的结果是将其唯一地识别为同一个体而分配的ID。三维数据是例如使用三维重建制作出一个三维数据。因而，一个三维数据对应多个图像。

通过使用本实施例所示的注释数据进行学习处理，能够以将从各种方向观察物体的情况下的特征提取为一个特征量的方式进行学习处理，能够提高检索处理的精度。

此外，本发明并不限定于上述实施例，包含各种变形例。例如，上述实施例为了易懂地说明本发明而详细进行了说明，并不必限定于具备所说明的全部构成。另外，可以将某一实施例的构成的一部分替换为其它实施例的构成，另外，还可以在某一实施例的构成中增加其它实施例的构成。另外，对于各实施例的构成的一部分，可以进行其它构成的追加、删除、替换。

附图标记说明

100物体检索装置；110运算部；111学习控制部；112检索控制部；113图像/三维数据获取部；114学习部；115检索部；116图像特征提取部；117三维数据特征提取部；118追踪部；120存储部；121物体检索程序；122图像特征提取用参数；123三维数据特征提取用参数；124追踪数据存储部；125追踪图像特征提取用参数；130输入部；140显示部；150通信部；160网络；171、172监视图像数据库；181、182设置于各处的照相机；200实施例2的物体检索装置；500拍摄对象货物；501拍摄货物的照相机；502用照相机501拍摄货物500时所能获取的图像；503用照相机501拍摄货物500时所能获取的三维数据；600作为注释数据而保存的数据表；700实施例2的作为注释数据而保存的数据表。

Claims

1.一种物体检索装置，其特征在于，具备：

图像特征提取部，该图像特征提取部由第一神经网络构成，输入图像来提取图像特征量；

三维数据特征提取部，该三维数据特征提取部由第二神经网络构成，输入三维数据来提取三维数据特征量；

学习部，该学习部从自同一个体得到的物体的图像和三维数据分别提取图像特征量和三维数据特征量，以减小所述图像特征量与所述三维数据特征量之差的方式更新图像特征提取用的参数；以及

检索部，由使用了更新后的所述图像特征提取用的参数的图像特征提取部来提取物体的查询图像及图库图像的图像特征量，所述检索部计算所述查询图像及图库图像的图像特征量的相似度来检索物体。

2.根据权利要求1所述的物体检索装置，其特征在于，

所述学习部受理在学习中使用的物体的图像、三维数据及注释数据，根据注释数据来识别从同一个体得到的图像和三维数据的对应关系。

3.根据权利要求2所述的物体检索装置，其特征在于，

所述学习部从根据注释数据识别为是从同一个体得到的图像和三维数据分别提取图像特征量和三维数据特征量，根据所提取的图像特征量和三维数据特征量来更新图像特征提取用的参数及三维数据特征提取用的参数。

4.根据权利要求3所述的物体检索装置，其特征在于，

所述图像特征提取用的参数及所述三维数据特征提取用的参数分别是构成第一神经网络或第二神经网络的各神经元的权重和偏置。

5.根据权利要求1所述的物体检索装置，其特征在于，

所述检索部提取物体的查询图像及多个图库图像的图像特征量，根据各图像的图像特征量计算查询图像与各图库图像的相似度，使图库图像以相似度由高到低的顺序显示在显示部。

6.根据权利要求1所述的物体检索装置，其特征在于，

所述学习部使用包含颜色信息的图像和包含颜色信息的三维数据分别提取图像特征量和三维数据特征量来更新图像特征提取用的参数，

所述检索部提取包含颜色信息的物体的查询图像及图库图像的图像特征量，计算所述查询图像及图库图像的图像特征量的相似度来进行检索。

7.根据权利要求1所述的物体检索装置，其特征在于，还具备：

追踪部，该追踪部由第三神经网络构成，输入在时间序列上连续的多个图像，根据各图像的检测结果将相同种类的物体中在空间上距离较近者彼此结合，生成同一个体的在时间序列上连续的多个图像作为追踪数据；以及

追踪数据存储部，该追踪数据存储部存储所述追踪部所生成的追踪数据；

所述检索部使用从所述追踪部及所述追踪数据存储部得到的追踪数据及图像进行物体检索。

8.根据权利要求7所述的物体检索装置，其特征在于，

所述学习部使用注释数据进行学习处理，该注释数据是将从所述追踪部得到的包含同一个体的多张图像的追踪数据和通过三维重建而得的一个三维数据建立了对应关系的数据。

9.一种物体检索方法，其特征在于，

进行学习处理，该学习处理输入从同一个体得到的物体的图像和三维数据，通过第一神经网络对所述图像提取图像特征量，通过第二神经网络对所述三维数据提取三维数据特征量，以减小所述图像特征量与所述三维数据特征量之差的方式更新图像特征提取用的参数，

由使用了更新后的所述图像特征提取用的参数的所述第一神经网络提取物体的查询图像及图库图像的各图像特征量，计算所述查询图像及图库图像的图像特征量的相似度来检索物体。

10.根据权利要求9所述的物体检索方法，其特征在于，

所述图像特征提取用的参数是构成所述第一神经网络的各神经元的权重和偏置。

11.根据权利要求9所述的物体检索方法，其特征在于，

向第三神经网络输入在时间序列上连续的多个图像，根据各图像的检测结果将相同种类的物体中在空间上距离较近者彼此结合，生成同一个体的在时间序列上连续的多个图像作为追踪数据，

进行学习处理，该学习处理输入被汇总为所述追踪数据的同一个体的在时间序列上连续的多个图像、和将相应个体的多个三维数据通过三维重建而得的一个三维数据，通过第一神经网络对于被汇总为所述追踪数据的同一个体的在时间序列上连续的多个图像提取图像特征量，通过第二神经网络对于通过所述三维重建而得的一个三维数据提取三维数据特征量，以减小所述图像特征量与所述三维数据特征量之差的方式更新图像特征提取用的参数，

分别输入将同一个体的在时间序列上连续的多个图像汇总得到的追踪数据作为物体的查询图像及图库图像来检索物体。