CN111033564B

CN111033564B - 图像处理装置及图像处理方法

Info

Publication number: CN111033564B
Application number: CN201780093880.3A
Authority: CN
Inventors: 守屋芳美; 涉谷直大; 杉本和夫
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2017-08-22
Filing date: 2017-08-22
Publication date: 2023-11-07
Anticipated expiration: 2037-08-22
Also published as: JPWO2019038821A1; JP6407493B1; KR20200020009A; GB202002056D0; KR102150847B1; US11200683B2; TW201913568A; WO2019038821A1; GB2579736C; US20200242782A1; SG11202000383SA; GB2579736B; GB2579736A; CN111033564A

Abstract

具备：目标检测部(103a)，其检测出现在图像数据中的目标；目标追踪部(103b)，其沿着时间方向追踪检测到的目标；描述符生成部(104)，其基于目标的检测结果和追踪结果，生成目标的特征描述符；数据记录控制部(105)，其根据生成的特征描述符和与该特征描述符对应的目标的图像数据而构成数据库；图像检索部(108a)，其从数据库中检索与检索条件一致、且构成在拍摄不同区域而得到的图像数据中分别出现的目标的组的目标；特征提取部(108b)，其从检索到的目标的图像数据及特征描述符中提取用于对照的特征量；以及判定部(108c)，其进行提取出的特征量的对照，判定构成目标的组的目标是否相同。

Description

图像处理装置及图像处理方法

技术领域

本发明涉及进行由多个摄像头拍摄到的目标(object)是否为同一目标这一解析的图像处理技术。

背景技术

例如非专利文献1及非专利文献2公开了对跨越多个摄像头而拍摄到的目标是否为同一目标的现有方法。

在非专利文献1中，将包括人物图像的矩形区域分割成子窗口，按照分割出的每个子窗口而生成颜色的直方图和纹理的直方图作为特征量。并且，准备汇集了被赋予是否为同一人物的标签的学习用的人物图像的数据集，根据学习用的人物图像生成上述的特征量的向量，进行距离学习。在距离学习中，以相同的人物图像对的特征量的向量的距离变小的方式进行权重参数的学习，以不相同的人物图像对的特征量的向量的距离变大的方式进行权重参数的学习。

在非专利文献2中，使用神经网络从人物图像进行特征提取，使用由神经网络生成的特征量的向量，判定人物图像对是否为同一人物。

在上述的非专利文献1或非专利文献2所公开的现有方法中，通过对静态图像的人物图像对进行比较，判定是否为同一人物。另一方面，在实际的环境下，需要根据例如由监视摄像头拍摄到的动态图像来确定人物图像的序列，对确定出的人物图像的序列与由其他监视摄像头拍摄到的动态图像的人物图像的序列进行比较，进行是否为同一人物的判定。例如非专利文献3公开了根据动态图像来估计是否为同一目标的现有方法。

在非专利文献3中，生成序列内的人物图像的颜色和纹理的直方图作为特征量，在序列内将生成的特征量进行平均化，作为人物图像的序列的特征量。通过在序列内将特征量平均化，能够无视因背景或遮挡引起的特征量的变化，生成稳健(robust)的人物图像的特征量。

现有技术文献

专利文献

非专利文献1：S.Liao，Y.Hu，X.Zhu，S.Z.Li，“Person re-identification bylocal maximal occurrence representation and metric learning”，In ComputerVision and Pattern Recognition(CVPR)，2015.

非专利文献2：E.Ahmed，M.Jones，T.K.Marks，“An improved deep learningarchitecture for person re-identification，”In Computer Vision and PatternRecognition(CVPR)，2015.

非专利文献3：J.You，A.Wu，X.Li，and W.-S.Zheng，“Top-push video-basedperson re-identification，”in Computer Vision and Pattern Recognition(CVPR)，2016.

发明内容

发明要解决的问题

在跨越多个摄像头拍摄的情况下，当拍摄同一人物时，例如由于包的把持方式在中途变化或者由于摄像头的设置位置和人物的移动方向，存在摄像头拍摄到人物的持有物等的情况和未拍摄到人物的持有物等的情况。在该情况下，在上述非专利文献3所公开的技术中，存在如下问题：在序列内对从各人物图像取得的特征量进行了平均化的情况下，能够无视因背景或遮挡引起的特征量的变化，另一方面，为了判定是否为同一人物而有时会无视有效的特征量。

本发明是为了解决上述的问题而完成的，其目的在于，相对于因背景或遮挡引起的特征量的变化而稳健(robust)地判定在由多个摄像头拍摄到的图像之间是否为同一目标。

用于解决问题的手段

本发明的图像处理装置具备：目标检测部，其对图像数据进行解析而检测出现在该图像数据中的目标；目标追踪部，其沿着时间方向追踪目标检测部检测到的目标；描述符生成部，其基于目标检测部的检测结果和目标追踪部的追踪结果，生成目标的特征描述符；数据记录控制部，其根据描述符生成部生成的特征描述符和与该特征描述符对应的目标的图像数据而构成数据库；图像检索部，其从数据记录控制部构成的数据库中，检索与设定的检索条件一致、且构成在拍摄不同区域而得到的图像数据中分别出现的目标的组的目标；特征提取部，其从图像检索部检索到的目标的图像数据及特征描述符中提取用于对照的特征量；以及判定部，其进行特征提取部提取出的特征量的对照，判定构成目标的组的目标是否相同，特征提取部根据图像检索部检索到的目标的图像数据及特征描述符，在检索到的各目标的图像数据之间进行使用了特征量的聚类，从根据聚类的结果而定义的集群内的图像数据中，针对集群提取1个特征量。

发明的效果

根据本发明，相对于因背景或遮挡引起的特征量的变化，能够稳健地判定在由多个摄像头拍摄到的图像之间是否为同一目标。

附图说明

图1是示出实施方式1的图像处理装置的结构的框图。

图2是示出实施方式1的图像处理装置的图像识别结果的一例的图。

图3A、图3B是示出实施方式1的图像处理装置的硬件结构例的图。

图4是示出实施方式1的图像处理装置的图像识别处理的动作的流程图。

图5是示出实施方式1的图像处理装置的图像对照处理的动作的流程图。

图6A、图6B是示出在实施方式1的图像处理装置的对照处理中被追踪为目标的人物的图像数据例的图。

具体实施方式

以下，为了更加详细地说明本发明，按照附图对该具体实施方式进行说明。

实施方式1.

图1是示出具备实施方式1的图像处理装置100的图像处理系统的结构的框图。

如图1所示，图像处理系统包括：n台(n为1以上的整数)网络摄像头NC₁、NC₂、…、NC_n、以及经由通信网络NW而接收从这些网络摄像头NC₁、NC₂、…、NC_n分别发布的静态图像数据或动态图像流的图像处理装置100。图像处理装置100对从网络摄像头NC₁、NC₂、…、NC_n接收到的静态图像数据或者动态图像数据(以下统一记载为图像数据)进行图像解析。图像处理装置100将表示图像解析的结果的空间的、地理的或时间的描述符与图像关联起来而蓄积。

作为通信网络NW，例如举出有线LAN(Local Area Network)、无线LAN等区域内通信网、连结据点之间的专用线路网、或者因特网等广域通信网。

网络摄像头NC₁、NC₂、…、NC_n全部具有相同的结构。各网络摄像头NC包括：拍摄被摄体的摄像部(未图示)；以及朝向通信网络NW上的图像处理装置100发送摄像部的输出的发送部(未图示)。摄像部具有：形成被摄体的光学像的摄像光学系统；将形成的光学像转换成电信号的固体摄像元件；以及将转换后的电信号压缩编码为静态图像数据或动态图像数据的编码器电路。作为固体摄像元件，例如，使用CCD(Charge-Coupled Device)或CMOS(Complementary Metal-oxide Semiconductor)元件即可。

网络摄像头NC₁、NC₂、…、NC_n分别在将固体摄像元件的输出压缩编码为动态图像数据的情况下，例如按照MPEG-2TS(Moving Picture Experts Group 2Transport Stream)、RTP/RTSP(Real-time Transport Protocol/Real Time Streaming Protocol)、MMT(MPEGMedia Transport)或者DASH(Dynamic Adaptive Streaming over HTTP)的流媒体方式，生成压缩编码后的动态图像流。另外，在本实施方式中使用的流媒体方式不限于MPEG-2TS、RTP/RTSP、MMT或者DASH。但是，无论在哪种流媒体方式中，都在动态图像流内复用能够由图像处理装置100唯一地分离该动态图像流所包含的动态图像数据的标识符信息。

如图1所示，图像处理装置100具备接收部101、解码部102、图像识别部103、描述符生成部104、数据记录控制部105、存储器106、接口部107及图像对照部108。

接收部101从网络摄像头NC₁、NC₂、…、NC_n接收发布数据，从接收到的发布数据分离图像数据。这里，图像数据包括静态图像数据或动态图像流。接收部101将分离出的图像数据输出到解码部102。

解码部102按照在网络摄像头NC₁、NC₂、…、NC_n中使用的压缩编码方式，对从接收部101输入的压缩编码后的图像数据进行解码。解码部102将解码后的图像数据输出到图像识别部103。

图像识别部103对从解码部102输入的图像数据进行图像识别处理。图像识别部103具备目标检测部103a及目标追踪部103b。

目标检测部103a对从解码部102输入的在时间上连续的多个图像数据进行解析，检测在该图像数据中出现的目标。目标检测部103a取得检测到的目标数量、各目标的视觉特征量、各目标的位置信息及各目标的拍摄时刻等，作为目标的检测结果向目标追踪部103b及描述符生成部104输出。这里，目标的视觉特征量是指目标的颜色、目标的纹理、目标的形状、目标的移动及目标内的脸部等特征量。目标检测部103a同时还向目标追踪部103b输出图像数据。

图2是示出实施方式1的图像处理装置100的图像识别处理的图像识别结果的一例的图。在图2中，示出图像处理装置100从拍摄区域Xa及区域Xb这2个网络摄像头NC₁、NC₂接收到发布数据的情况。此外，图2示出在发布数据之间追踪了目标A所示的人物、目标B所示的人物及目标C所示的人物这3个人物的移动而得到的结果。

目标检测部103a根据解码后的网络摄像头NC₁的图像数据对目标A1a进行检测。目标检测部103a根据网络摄像头NC₁的下一个图像数据对目标A1b进行检测。接下来，目标检测部103a根据网络摄像头NC₁的下一个图像数据对目标A1c进行检测。目标检测部103a连续地进行上述的检测处理，对目标A1a至目标A1g进行检测。

同样，目标检测部103a根据解码后的网络摄像头NC₂的各图像数据，对目标A2a至目标A2c、目标Ba至目标Bg及目标Ca至目标Ce进行检测。目标检测部103a取得检测到的全部目标(A1a～A1g、A2a～A2c、Ba～Bg、Ca～Ce)的视觉特征量、位置信息及拍摄时刻等。

目标追踪部103b参照从目标检测部103a输入的目标的检测结果，沿时间方向对检测到的目标进行追踪。目标追踪部103b在进行目标的沿时间方向的追踪的情况下，在一个图像数据内以及在时间上连续的多个图像数据之间，对由目标检测部103a检测到的目标的检测结果进行比较而进行追踪。目标追踪部103b将目标的追踪结果即目标的运动信息(光流)输出到描述符生成部104。例如，在作为追踪对象的目标为人物的情况下，追踪由一台网络摄像头拍摄到的同一人物。

图2示出追踪对象的目标为人物的情况下的具体例。

在图2的情况下，目标追踪部103b在拍摄区域Xa而得到的图像数据之间，追踪具有相同的特征的目标A1(A1a～A1g)。同样，目标追踪部103b在拍摄区域Xb而得到的图像数据之间，追踪具有相同的特征的目标A2(A2a～A2c)、目标B(Ba～Bg)及目标C(Ca～Ce)。

目标追踪部103b例如将表示目标A1在拍摄区域Xa而得到的图像数据内出现的时间、目标A2、B、C在拍摄区域Xb而得到的图像数据内出现的时间、以及目标A1、A2、B、C的运动的信息，作为目标A1、A2、B、C的运动信息而输出到描述符生成部104。

描述符生成部104基于从目标检测部103a输入的目标的检测结果及从目标追踪部103b输入的目标的运动信息，生成空间的描述符、地理的描述符、时间的描述符或者表示它们的组合的描述符。

具体而言，描述符生成部104按照规定的格式，将目标的检测结果及目标的追踪结果转换成特征描述符。在特征描述符中包括由目标检测部103a检测到的目标的数量、各目标的视觉特征量、各目标的位置信息及各目标的拍摄时刻等。此外，在特征描述符中包括表示是沿时间方向追踪的同一目标的标识符。

数据记录控制部105根据从解码部102输入的解码后的图像数据和从描述符生成部104输入的特征描述符而构成数据库。数据记录控制部105进行将构成的数据库存放于存储器106的控制。数据记录控制部105期望将图像数据和特征描述符以能够双向且高速地访问的形式存放于存储器106。此外，数据记录控制部105也可以生成表示图像数据与特征描述符的对应关系的索引表而构成数据库。例如，数据记录控制部105附加索引信息，使得在被赋予构成图像数据的特定的图像帧的数据位置的情况下，能够高速地确定与该数据位置对应的描述符数据的存储器106上的存放位置。此外，数据记录控制部105也可以附加索引信息，使得能够高速地确定与存储器106上的存放位置对应的数据位置。

存储器106例如由HDD(Hard Disk Drive)或者闪存这样的大容量记录介质构成。存储器106包括蓄积图像数据的第1数据存储部106a、以及蓄积描述符数据的第2数据存储部106b。在图1中，示出在1个存储器106内设置第1数据存储部106a及第2数据存储部106b的结构，但不限于此。例如，也可以将第1数据存储部106a和第2数据存储部106b分别分散地设置于不同的存储器。

此外，在图1中示出图像处理装置100具备存储器106的结构，但不限于该结构。图像处理装置100也可以构成为，代替存储器106，使数据记录控制部105访问配置在通信网络NW上的单个或多个网络存储器装置(未图示)。由此，数据记录控制部105能够将图像数据和特征描述符蓄积到外部的网络存储器装置，能够在图像处理装置100的外部构筑数据库。

外部设备200经由接口部107而访问存储器106内的数据库。

图像对照部108在经由接口部107从外部设备200被设定检索条件后，开始处理。这里，检索条件是指，作为检索对象的区信息、作为检索对象的时刻信息、作为检索对象的目标的种类或作为检索对象的目标的判定时间等。作为检索条件的具体例，例如举出如下条件：指示对在某一网络摄像头NC内作为同一目标而被追踪的时间超过固定时间的目标进行检索的条件；或者指示对具有与在网络摄像头NC内预先设定的区(例如进入禁止区)相应的位置信息的目标进行检测的条件。

图像对照部108具备图像检索部108a、特征提取部108b及判定部108c。图像检索部108a访问存储器106，检索与外部设备200设定的检索条件一致的目标。图像检索部108a针对与检索条件一致的目标，进行要对照的目标的组(以下记载为目标对)的筛选。要对照的目标对是在拍摄不同的区域而得到的图像数据中分别存在的目标的组合。此外，考虑目标的出现时间、目标的移动轨迹及预先设定的通常的人的步行时间而进行目标对的筛选。图像检索部108a将通过检索及目标对的筛选而得到的目标的图像数据和特征描述符输出到特征提取部108b。

在图2的例子中，图像检索部108a例如检索目标A1、目标A2、目标B及目标C，作为与检索条件一致的目标。并且，图像检索部108a进行由不同的网络摄像头NC拍摄到的目标对的筛选，将移动方向与目标A1不同的目标B从目标中排除。图像检索部108a将检索到的目标A1、目标A2及目标C的图像数据和特征描述符输出到特征提取部108b。

特征提取部108b使用从图像检索部108a输入的目标的图像数据及描述符数据，在各目标的多个图像数据之间进行使用了特征量的聚类(clustering)。作为聚类的结果，特征提取部108b将集群(cluster)所包含的图像数量最大的集群定义为对目标赋予特征的集群。特征提取部108b从定义的集群所包含的图像数据中提取用于目标的对照的特征量。特征提取部108b例如通过与在上述的非专利文献1或非专利文献2中公开的方法相同的方法，提取用于目标的对照的特征量。通过在非专利文献1或非专利文献2中公开的方法而求出的特征量均成为N维的向量数据。特征提取部108b针对集群所包含的各图像数据计算出N维向量数据之后，将集群所包含的所有图像数据的N维向量数据平均化或者选择示出最大值的向量数据，针对集群提取1个特征量。特征提取部108b将提取出的特征量输出到判定部108c。

判定部108c对从特征提取部108b输入的特征量中的构成目标对的各目标的特征量进行比较，进行目标是否彼此相同的判定。判定部108c将判定结果作为描述符而记录于缓存(未图示)等，经由接口部107输出到外部设备200。

在图2的例子的情况下，判定部108c进行作为由不同的网络摄像头NC拍摄到的目标对的目标A1与目标A2的特征量的比较、以及作为由不同的网络摄像头NC拍摄到的目标对的目标A1与目标C的特征量的比较。判定部108c判定为目标A1与目标A2的特征量相同。此外，判定部108c判定为目标A1的特征量与目标C的特征量不相同。

接着，对图像处理装置100的硬件结构例进行说明。

图3A及图3B是示出图像处理装置100的硬件结构例的图。

图像处理装置100中的接收部101、解码部102、图像识别部103、描述符生成部104、数据记录控制部105、接口部107及图像对照部108的各功能通过处理电路而实现。即，图像处理装置100具备用于实现上述各功能的处理电路。该处理电路可以是如图3A所示的作为专用的硬件的处理电路100a，也可以是如图3B所示的执行存放在内存100c中的程序的处理器100b。

如图3A所示，在接收部101、解码部102、图像识别部103、描述符生成部104、数据记录控制部105、接口部107及图像对照部108是专用的硬件的情况下，处理电路100a例如相当于单一电路、复合电路、程序化的处理器、并行程序化的处理器、ASIC(ApplicationSpecific Integrated Circuit)、FPGA(Field-programmable Gate Array)或者将它们组合而得到的电路。可以通过处理电路分别实现接收部101、解码部102、图像识别部103、描述符生成部104、数据记录控制部105、接口部107及图像对照部108的各部的功能，也可以通过1个处理电路统一实现各部的功能。

如图3B所示，在接收部101、解码部102、图像识别部103、描述符生成部104、数据记录控制部105、接口部107及图像对照部108是处理器100b的情况下，各部的功能通过软件、固件、或者软件与固件的组合来实现。软件或固件被记述为程序，并存放在内存100c中。处理器100b通过读出并执行存储于内存100c的程序而实现接收部101、解码部102、图像识别部103、描述符生成部104、数据记录控制部105、接口部107及图像对照部108的各功能。即，接收部101、解码部102、图像识别部103、描述符生成部104、数据记录控制部105、接口部107及图像对照部108具备存放程序的内存100c，通过处理器100b而执行该程序时，结果是执行后述的图4及图5所示的各步骤。此外，这些程序也可以说是使计算机执行接收部101、解码部102、图像识别部103、描述符生成部104、数据记录控制部105、接口部107及图像对照部108的步骤或方法的程序。

这里，处理器100b例如是CPU(Central Processing Unit)、处理装置、运算装置、处理器、微处理器、微型计算机或者DSP(Digital Signal Processor)等。

内存100c例如可以是RAM(Random Access Memory)、ROM(Read Only Memory)、闪存、EPROM(Erasable Programmable ROM)、EEPROM(Electrically EPROM)等非易失性或易失性的半导体内存，也可以是硬盘、软盘等磁盘，还可以是迷你盘、CD(Compact Disc)、DVD(Digital Versatile Disc)等光盘。

另外，关于接收部101、解码部102、图像识别部103、描述符生成部104、数据记录控制部105、接口部107及图像对照部108的各功能，也可以通过专用的硬件来实现一部分，通过软件或固件来实现一部分。这样，图像处理装置100中的处理电路100a能够通过硬件、软件、固件或者它们的组合来实现上述的各功能。

接着，对图像处理装置100的动作进行说明。

首先，参照图4对图像处理装置100的图像识别处理进行说明。

图4是示出实施方式1的图像处理装置100的图像识别处理的动作的流程图。

接收部101从网络摄像头NC₁、NC₂、…、NC_n接收发布数据，将图像数据分离(步骤ST1)，输出到解码部102。解码部102对在步骤ST1中分离出的图像数据进行解码(步骤ST2)，输出到图像识别部103。

图像识别部103的目标检测部103a尝试检测在步骤ST2中解码后的图像数据中出现的目标的检测(步骤ST3)。这里，成为检测对象的目标是汽车、自行车及行人等作为追踪对象的移动的目标。目标检测部103a判定是否检测到目标(步骤ST4)。在未检测到目标的情况下(步骤ST4；否)，流程图返回步骤ST1的处理。

另一方面，在检测到目标的情况下(步骤ST4；是)，目标检测部103a取得检测到的目标的视觉特征量、位置信息及拍摄时刻等(步骤ST5)。目标检测部103a将检测到的目标的图像数据、取得的目标的视觉特征量、位置信息及拍摄时刻等作为检测结果向目标追踪部103b及描述符生成部104输出。

目标追踪部103b参照从目标检测部103a输入的目标的图像数据，针对在1个图像帧内检测到的各目标分别赋予不同的ID(步骤ST6)。目标追踪部103b从在1个帧内检测到的各目标的图像数据中提取各目标的运动信息(步骤ST7)。目标追踪部103b参照在步骤ST5中取得的目标的视觉特征量和在步骤ST7中提取的目标的运动信息，判定从目标检测部103a输入的目标与从在时间上和该目标连续的过去的图像帧中检测到的目标是否相同(步骤ST8)。在判定为目标不相同的情况下(步骤ST8；否)，进入步骤ST10的处理。

另一方面，在判定为目标相同的情况下(步骤ST8；是)，目标追踪部103b将在步骤ST6中赋予的ID改写为向相同的过去的目标赋予的ID(步骤ST9)。目标追踪部103b判定是否针对从目标检测部103a输入的所有目标进行了处理(步骤ST10)。在未针对所有目标进行处理的情况下(步骤ST10；否)，流程图返回步骤ST7的处理。另一方面，在针对所有目标进行了处理的情况下(步骤ST10；是)，目标追踪部103b将目标的ID及目标的运动信息输出到描述符生成部104(步骤ST11)。

描述符生成部104基于从目标检测部103a输入的目标的视觉特征量、位置信息及拍摄时刻、作为步骤ST11而从目标追踪部103b输入的目标的ID及目标的运动信息，生成描述符(步骤ST12)。描述符生成部104将生成的描述符输出到数据记录控制部105。数据记录控制部105进行将在步骤ST12中生成的描述符与在步骤ST2中解码后的图像数据关联起来存放于存储器106的控制(步骤ST13)，结束处理。

接着，参照图5对图像处理装置100的图像对照处理进行说明。

图5是示出实施方式1的图像处理装置100的图像对照处理的动作的流程图。另外，以下，进行假定了在2个网络摄像头拍摄到的2个图像数据之间检索目标对的情况下的处理的说明，但同样也能够应用于在3个以上的图像数据之间检索目标对的处理。

当经由接口部107从外部设备200设定了检索条件时(步骤ST21)，图像检索部108a进行存储器106内的检索，检索与设定的检索条件一致的目标，进行目标对的筛选(步骤ST22)。图像检索部108a判定是否检索到1组以上的分别由不同的网络摄像头NC拍摄到的目标对(步骤ST23)。在未检索到1组以上的目标对的情况下(步骤ST23；否)，图像检索部108a结束处理。

另一方面，在检索到1组以上的目标对的情况下(步骤ST23；是)，图像检索部108a从存储器106中读出检索到的1组以上的目标对的图像数据及描述符数据(步骤ST24)。图像检索部108a将读出的图像数据及描述符数据输出到特征提取部108b。特征提取部108b使用在步骤ST24中读出的图像数据及描述符数据，在各目标的各图像数据之间进行使用了特征量的聚类(步骤ST25)。特征提取部108b定义对各目标赋予特征的集群(步骤ST26)。特征提取部108b从在步骤ST26中定义的集群内的图像数据中提取特征量(步骤ST27)。特征提取部108b将提取的特征量输出到判定部108c。

判定部108c对在步骤ST27中提取的特征量进行比较，判定构成目标对的目标彼此是否相同(步骤ST28)。判定部108c将步骤ST28的判定结果存放于缓存等，经由接口部107输出到外部设备200(步骤ST29)，结束处理。

接着，参照图2所示的例子，对图5的流程图的各处理进行说明。

作为步骤ST21，从外部设备200例如设定“在网络摄像头NC₁及网络摄像头NC₂拍摄到的区中滞留了固定时间以上的人物”这一检索条件。

作为步骤ST22，图像检索部108a进行存储器106内的检索，检索与“在网络摄像头NC₁及网络摄像头NC₂拍摄到的区中滞留了固定时间以上的人物”这一检索条件一致的目标。

如上所述，在存储器106中，与目标的图像数据关联起来而存放有目标的ID、视觉特征量、位置信息、拍摄时刻、目标的ID及运动信息。在图2的例子中，针对由网络摄像头NC₁检测并追踪的人物即目标A1赋予了新的ID的时刻相当于与网络摄像头NC₁的摄像图像相应的人物即目标A1a出现的时刻。此外，被赋予与该新的ID相同的ID的人物即目标(A1b至A1g)是作为同一目标而被追踪的目标。因此，被赋予与新的ID相同的ID的时间相当于该目标滞留在网络摄像头摄像图像内的时间。此外，在图2中示出的箭头Ta1是根据作为同一目标而被追踪的目标(A1a至A1g)的位置信息而估计的、表示目标A1的移动轨迹的箭头。

作为步骤ST23，图像检索部108a检索与检索条件一致的4个目标(目标A1、目标A2、目标B及目标C)。此外，作为步骤ST23，图像检索部108a进行目标对的筛选，将目标B排除，检测出3个目标(目标A1、目标A2及目标C)(步骤ST23；是)。

作为步骤ST24，图像检索部108a从存储器106读出目标A1、目标A2、目标C的图像数据及描述符数据。作为步骤ST25，特征提取部108b进行使用了目标A1的特征量的聚类、使用了目标A2的特征量的聚类及使用了目标C的特征量的聚类。作为步骤ST26，特征提取部108b针对目标A1、目标A2及目标C分别定义集群。作为步骤ST27，特征提取部108b从定义的集群内的图像数据中提取特征量。

作为步骤ST28，判定部108c使用目标A1、目标A2及目标C的视觉特征量及图像数据的特征量，判定为构成目标对的目标A1与目标A2相同。此外，判定部108c判定为构成目标对的目标A1与目标C不相同。作为步骤ST29，判定部108c将目标A1与目标A2是同一目标这一判定结果、目标A1与目标B不是同一目标这一判定结果、目标A1与目标C不是同一目标这一判定结果记录于缓存等，并输出到外部设备200。

图6是示出在实施方式1的图像处理装置100的对照处理中被追踪为目标的人物的图像数据例的图。

图6A是示出图2所示的目标A的图像数据的图，图6B是示出图2所示的目标C的图像数据的图。

如图6A所示，即便是追踪了同一目标A的图像数据，例如也存在目标A的一部分被障碍物Y隐藏的情况。此外，即便是追踪了同一目标A的图像数据，例如在目标的姿势变化的情况下，拍摄到的内容也不同。因此，如果从图6A所示的目标A的4个图像数据中选择1个图像数据(例如，拍摄目标Ac而得到的图像数据)并与从图6B的目标C的3个图像数据中选择出的图像数据(例如，拍摄目标Cb而得到的图像数据)进行比较，则依赖于选择出的图像数据，图像对照部108的对照精度下降。

对此，图像对照部108使用图6A所示的例如4个图像数据定义集群，从定义的集群内的图像数据中提取特征量。同样，图像对照部108使用图6B所示的例如3个图像数据定义集群，从定义的集群内的图像数据中提取特征量。判定部108c对目标A的提取出的特征量与目标C的提取出的特征量进行比较，由此能够抑制判定结果依赖于图像数据。

如以上那样，根据实施方式1，构成为具备：目标检测部103a，其对图像数据进行解析而检测出现在该图像数据中的目标；目标追踪部103b，其沿着时间方向追踪检测到的目标；描述符生成部104，其基于目标的检测结果和追踪结果，生成目标的特征描述符；数据记录控制部105，其根据生成的特征描述符和与该特征描述符对应的目标的图像数据而构成数据库；图像检索部108a，其从数据库中检索与设定的检索条件一致、且构成在拍摄不同区域而得到的图像数据中分别出现的目标的组的目标；特征提取部108b，其从检索到的目标的图像数据及特征描述符中提取用于对照的特征量；以及判定部108c，其进行提取出的特征量的对照，判定构成目标的组的目标是否相同，因此，相对于因背景或遮挡引起的特征量的变化，能够稳健地判定在由多个摄像头拍摄到的图像之间是否为同一目标。

此外，根据实施方式1，特征提取部构成为，根据检索到的目标的图像数据及特征描述符，在检索到的各目标的图像数据之间进行使用了特征量的聚类，从根据聚类的结果而定义的集群内的图像数据中提取特征量，因此，能够抑制依赖于图像数据而导致对照精度下降的情况。

产业利用性

本发明的图像处理装置例如适合用于包括监视系统的物体识别系统或者图像检索系统。

标号说明

100图像处理装置，101接收部，102解码部，103图像识别部，103a目标检测部，103b目标追踪部，104描述符生成部，105数据记录控制部，106存储器，106a第1数据存储部，106b第2数据存储部，107接口部，108图像对照部，108a图像检索部，108b特征提取部，108c判定部。

Claims

1.一种图像处理装置，其特征在于，该图像处理装置具备：

目标检测部，其对图像数据进行解析而检测出现在该图像数据中的目标；

目标追踪部，其沿着时间方向追踪所述目标检测部检测到的所述目标；

描述符生成部，其基于所述目标检测部的检测结果和所述目标追踪部的追踪结果，生成所述目标的特征描述符；

数据记录控制部，其根据所述描述符生成部生成的所述特征描述符和与该特征描述符对应的目标的所述图像数据而构成数据库；

图像检索部，其从所述数据记录控制部构成的所述数据库中，检索与设定的检索条件一致、且构成在拍摄不同区域而得到的所述图像数据中分别出现的目标的组的目标；

特征提取部，其从所述图像检索部检索到的目标的所述图像数据及所述特征描述符中提取用于对照的特征量；以及

判定部，其进行所述特征提取部提取出的所述特征量的对照，判定构成所述目标的组的目标是否相同，

所述特征提取部根据所述图像检索部检索到的目标的所述图像数据及所述特征描述符，在检索到的各所述目标的所述图像数据之间进行使用了特征量的聚类，从根据所述聚类的结果而定义的集群内的所述图像数据中，针对所述集群提取1个所述特征量。

2.根据权利要求1所述的图像处理装置，其特征在于，

在所述特征描述符中包括所述目标的视觉特征量及所述目标的位置信息。

3.一种图像处理方法，该图像处理方法包括如下步骤：

目标检测部对图像数据进行解析而检测出现在该图像数据中的目标；

目标追踪部沿着时间方向追踪检测到的所述目标；

描述符生成部基于所述目标的检测结果和检测到的所述目标的追踪结果，生成检测到的所述目标的特征描述符；

数据记录控制部根据生成的所述特征描述符和与该特征描述符对应的目标的所述图像数据而构成数据库；

图像检索部从构成的所述数据库中，检索与设定的检索条件一致、且构成在拍摄不同区域而得到的所述图像数据中分别出现的目标的组的目标；

特征提取部从检索到的所述目标的所述图像数据及所述特征描述符中提取用于对照的特征量；以及

判定部进行提取出的所述特征量的对照，判定构成所述目标的组的目标是否相同，