CN107798285A

CN107798285A - 图像处理装置和图像处理方法

Info

Publication number: CN107798285A
Application number: CN201710261131.9A
Authority: CN
Inventors: 坪下幸宽; 尾崎良太; 重中亨介; 福井基文; 加藤典司
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2016-08-31
Filing date: 2017-04-20
Publication date: 2018-03-13
Also published as: US20180060647A1; JP2018036870A

Abstract

本发明公开了一种图像处理装置和图像处理方法。所述图像处理装置包括接收部、图像提取部、形成部以及比较部。接收部接收视频。图像提取部从构成由所述接收部接收的所述视频的多个帧中提取目标对象图像。形成部使在由所述图像提取部提取的所述目标对象图像中的多个目标对象图像形成为一个单位，所述多个目标对象图像在时间上彼此分离。比较部基于由所述形成部形成的所述单位进行比较。

Description

图像处理装置和图像处理方法

技术领域

本发明涉及一种图像处理装置和图像处理方法。

背景技术

R.Girshick、Fast R-CNN、arXiv:1504.08083,2015(以下称作NPL 1)公开了一种快速的基于区域的卷积网络(Fast R-CNN)方法，在该方法中，目标图像(例如人的图像)从输入图像上切下并且通过使用神经网络(卷积神经网络)针对切下的目标图像来识别人。

A.Krizhevsky、I.Sutskever、G.E.Hinton、ImageNet Classification with DeepConvolutional Neural Networks,NIPS 2012(以下称作NPL 2)描述了使用卷积神经网络的图像识别。在该文献中描述的卷积神经网络被称作AlexNet，其以其中一个作者来命名。

H.Liu、J.Feng、M.Qi、J.Jiang和S.Yan,End-to-End Comparative AttentionNetworks for Person Re-identification,IEEE Transactions on Image Processing,vol.14,No.8,June 2016(以下称作NPL 3)探讨了从人物图像(例如为通过使用多个照相机捕获的行人的图像)上再次识别同一人物的人物再识别问题，并且描述了如下技术，在该技术中导入了三元组损失(triplet loss)以利用距离来表示人的身份，此外，导入了自动学习应当注意图像的哪个位置的视觉注意模型从而改善识别精度。

L.Wu、C.Shen、A.van den Hengel、PersonNet:Person Re-identification withDeep Convolutional Neural Networks,http://arxiv.org/abs/1601.07255(以下称作NPL 4)探讨了与NPL 3类似的问题并且描述了如下技术，在该技术中使用了具有更小内核以及更多层次的深层神经网络从而改善识别同一个人的性能。

F.Schroff、D.Kalenichenko、J.Philbin、FaceNet:A Unified Embedding forFace Recognition and Clustering,CVPR 2012,pp.815-823(以下称作NPL 5)描述了OpenFace，其是用于计算分别出现在两个输入帧中的面部之间的距离的标准方法。

日本专利文献特开2004-192378号公开了一种面部图像处理装置，其包括：面部区域检测单元，其从通过使用多个图像捕获单元捕获的多个图像中检测人的面部特征点以检测面部区域；面部特征值提取单元，其从由面部区域检测单元检测的面部区域图像中提取面部特征值；人物识别单元，其从预先登记的特定人物的面部特征值以及通过面部特征值提取单元提取的面部特征值来计算相似度从而进行人物识别；以及输出装置，其输出通过人识别单元进行的识别结果。

日本专利文献特开平7-73298号公开了一种人物识别装置，其包括：从通过捕获主体的图像获得的图像数据区域中检测移动对象数据区域的单元；从检测的移动对象数据区域中提取其中面部应当存在的数据区域的单元；确定是否具有被识别的面部的图像数据包括在提取的面部数据区域中的单元；以及当确定了不包括其中被识别的面部的图像数据时使得输出发生的单元。

日本专利文献特开2006-236216号公开了用于识别包括在多个图像中的每一个中的人的人物识别系统，其包括：人物识别单元，其识别包括在多个图像中的每一个中的多个人物；亲密度计算单元，其基于由人物识别单元进行的识别的结果，计算包括在多个图像中的至少一些图像中的人物之间的亲密度；判断单元，其判断在一个人和由人物识别单元作为不同的人物识别的多个人物中的每一个人物之间的亲密度之差是否等于或小于预定基准值；以及校正单元，其在判断一个人和作为不同的人物识别的多个人物中的每一个人物之间的亲密度之差等于或小于预定基准值的情况下，判定该多个人物为同一个人并且校正人物识别单元的识别结果。

发明内容

本发明的目的在于提供一种图像处理装置和图像处理方法，与对构成视频的帧进行处理的情况相比本发明的装置和方法能够更为准确地对目标对象之间进行比较。

根据本发明的第一方面，提供一种图像处理装置，其包括接收部、图像提取部、形成部以及比较部。接收部接收视频。图像提取部从构成由所述接收部接收的所述视频的多个帧中提取目标对象图像。形成部使在由所述图像提取部提取的所述目标对象图像中的多个目标对象图像形成为一个单位，所述多个目标对象图像在时间上彼此分离。比较部基于由所述形成部形成的所述单位进行比较。

根据本发明的第二方面，在图像处理装置中，所述比较部与预先登记的目标对象图像进行比较。

根据本发明的第三方面，在图像处理装置中，所述比较部与构成另一个单位的目标对象图像进行比较。

根据本发明的第四方面，在图像处理装置中，在多个目标对象重叠的情况下，所述形成部从所述单位排除重叠的目标对象的目标对象图像。

根据本发明的第五方面，在图像处理装置中，所述形成部使多个目标对象重叠之前的目标对象图像形成为所述单位。

根据本发明的第六方面，在图像处理装置中，所述图像提取部提取人物作为目标对象。

根据本发明的第七方面，在图像处理装置中，所述图像提取部进行面部识别。

根据本发明的第八方面，提供一种图像处理方法，其包括以下步骤：接收视频；从构成所接收的视频的多个帧中提取目标对象图像；使在所提取的目标对象图像中的多个目标对象图像形成为一个单位，所述多个目标对象图像在时间上彼此分离；并且基于所形成的单位进行比较。

根据本发明的第一方面，能够提供一种图像处理装置，其与对构成视频的帧进行处理的情况相比能够更为准确地对目标对象之间进行比较。

根据本发明的第二方面，除了由本发明的第一方面实现的效果之外，还能够识别目标对象。

根据本发明的第三方面，除了由本发明的第一方面实现的效果之外，还能够确定目标对象之间的距离。

根据本发明的第四方面或第五方面，除了由本发明的第一方面至第三方面中的任一项实现的效果之外，还能够应对多个目标对象重叠的情况。

根据本发明的第六方面，除了由本发明的第一方面至第四方面中的任一项实现的效果之外，还能够对来自接收的视频上的人进行比较。

根据本发明的第七方面，除了由本发明的第五方面实现的效果之外，还能够包括面部作为比较目标。

根据本发明的第八方面，能够提供一种图像处理方法，其与对构成视频的帧进行处理的情况相比能够更为准确地对目标对象之间进行比较。

附图说明

将基于下列附图详细说明本发明的示例性实施例，其中：

图1是示出根据本发明的示例性实施例的图像处理装置的硬件结构的框图；

图2是示出由根据本发明的示例性实施例的图像处理装置实施的功能的功能框图；

图3是用于描述在根据本发明的示例性实施例的图像处理装置中提取时间线片段(timeline segment)的图；

图4是用于描述在根据本发明的示例性实施例的图像处理装置中的各帧中的人物区域之间的重叠的图；

图5是用于描述在根据本发明的示例性实施例的图像处理装置中发生多人重叠的图；

图6是示出本发明的第一示例性实施例的概要的图；

图7是示出在本发明的第一示例性实施例中的时间线片段比较单元的详细的框图；

图8是示出本发明的第一示例性实施例的总体控制流程的流程图；

图9是示出在本发明的第一示例性实施例中的片段人物识别处理的控制流程的流程图；

图10是示出本发明的第二示例性实施例的概要的图；

图11是示出在本发明的第二示例性实施例中的时间线片段比较单元的详细的框图；

图12是示出在本发明的第二示例性实施例中的人物间距离确定单元的详细的框图；

图13是示出本发明的第二示例性实施例的总体控制流程的流程图；以及

图14是示出在本发明的第二示例性实施例中的片段间距离计算处理的控制流程的流程图。

具体实施方式

下面参照附图与示例性实施例对本发明作进一步详细说明。

图1是示出根据本发明的示例性实施例的图像处理装置10的硬件结构的框图。图像处理装置10包括图形处理单元(GPU)14、存储器16、显示控制器18以及通信接口(通信IF)20，它们通过总线12彼此连接。GPU 14具有依据存储在存储器16中的程序操作的中央处理器(CPU)功能和并行数据处理功能。显示控制器18与显示装置22(诸如液晶显示器)连接，其显示用于操作图像处理装置10的菜单、以及图像处理装置10的操作状态等。经由互联网或局域网(LAN)向通信接口20输入来自摄像机24的视频。

图2是示出由根据本发明的示例性实施例的图像处理装置10实施的功能的功能框图。数据接收单元26通过如上所述通信接口20接收包括视频的数据。

在构成通过数据接收单元26接收的视频的帧(图像)中包括人物的情况下，人物区域提取单元28自动提取通常为矩形区域的人物区域。已经提出了各种用于人物区域检测的方法，并且可以使用任何标准方法。一种代表性的方法是例如在上述NPL1中描述的Fast R-CNN。

时间线片段形成单元30将由人物区域提取单元28提取的人物区域作为一个单位形成为时间线片段。即，如图3中所示，就帧之间的各自的“重叠”而言，将在时间T1从帧F1提取的人物区域A至人物区域D分别与在时间T2从帧F2提取的人物区域A至人物区域D进行比较。在帧之间的任何重叠较大的情况下，将相应的区域合并并形成为单一时间线片段。在帧之间的任何重叠较小的情况下，将相应的区域分别形成为不同的时间线片段。在对帧之间的重叠进行判定的情况下，可以通过例如下式(1)来定义重叠状态。

在此，S₁、S₂和S₃是如图4中定义的部分的面积。可以将该重叠等于或大于预定的阈值的情况定义为重叠存在的状态，并可以将该重叠小于预定的阈值的情况定义为重叠不存在的状态。

另外，如图3中所示，在视频中不连续的时间T3的帧F3被处理作为不同的时间线片段。

关于形成时间线片段存在的一个问题是如果人物重叠的程度非常大，则待形成为不同人物的不同时间线片段的时间线片段会形成为相同的时间线片段。即，如图5中所示，存在如下情况：存在其中人物E和人物F重叠的人物区域Hp。因此，在时间线片段形成单元30中设置有多人重叠判定单元32。

多人重叠判定单元32在多个人物处于重叠状态之前和之后，将多个人物分别分入不同的时间线片段。由此，能够抑制错误检测多个人物属于单一时间线片段。

多人重叠判定单元32被构成为二元分类器，其通过例如准备学习数据、提取特征以及进行模型学习来形成，在上述学习数据中，将其中多个人物处于重叠状态的任何人物区域假设为正实例，并将其中多个人物不处于重叠状态的任何人物区域假设为负实例。当提取特征时，可以提取任何图像特征，诸如HOG(方向梯度直方图)特征值或SIFT+BoF特征值(尺度不变特征转换和特征袋(bag of features))。在模型学习中，可以使用分类器，诸如SVM(支持向量机)分类器。备选地，可以通过使用卷积神经网络，诸如作为在NPL 2中描述的代表性网络的AlexNet，从RGB输入直接形成分类器。

时间线片段比较单元34对通过时间线片段形成单元30形成的时间线片段彼此进行比较。输出单元36例如经由如上所述的显示控制器18，使得显示装置22显示通过时间线片段比较单元34进行的比较的结果。

根据进行人物识别的第一示例性实施例或根据计算人物之间的距离的第二示例性实施例进行时间线片段比较。

首先，对第一示例性实施例进行描述。

图6示出包括通过使用个人物识别从通过捕获多个人物的视频获得的视频38提取特定人物的情景的例子。首先，当输入视频38时，通过使用人物检测技术提取人物区域作为矩形区域，并基于重叠的程度，提取多个时间线片段40a、40b和40c。然后，通过使用个人物识别技术针对每个时间线片段40a、40b和40c识别个人。在本实施例中，提取包括预先登记的人物A和人物B的情景。通过进行个人物识别，将时间线片段40a和40b分类为人物A，并且将时间线片段40c分类为人物B。

在第一示例性实施例中，如图2所示的时间线片段比较单元34如图7中所示用作片段人物识别单元42。

片段人物识别单元42使得人物识别单元44针对片段中的各个帧进行个人物识别。当针对片段进行判定时，整合对应于各个人物ID的得分以实现个人物识别。作为整合的方法，可以进行诸如相加对应于各个人物ID的得分的处理。

此外，上述个人物识别可以与广泛使用的面部识别技术结合。在结合的情况下，例如，可以对得分进行加权和相加。

具体来说，片段人物识别单元42包括人物识别单元44，其与面部检测单元46和面部识别单元48结合。

使人物识别单元44预先学习存在于视频中的多个人物并且当输入片段内的帧(图像)时推定人物的ID。在学习中，分别为所有待识别的人物分配ID，收集其中每个人存在的人物区域图像作为对应ID的正实例，并对人数收集学习数据。由此准备学习数据，提取特征，并且进行模型学习从而形成人物识别单元44。当提取特征时，可以提取诸如HOG特征值或SIFT+BoF特征值的任何图像特征。在模型学习中，可以使用诸如SVM分类器的分类器。备选地，可以通过使用卷积神经网络，诸如作为在NPL 2中描述的代表性网络的AlexNet，从RGB输入直接形成分类器。

面部检测单元46当输入片段中的帧时检测面部区域。

在通过面部检测单元46进行的面部检测成功的情况下，面部识别单元48为每个人物ID计算得分，该人物ID分配给预先登记的人物中的对应的人物。

图8是示出在第一示例性实施例中的控制流程的流程图。

首先，在步骤S10中，接收视频。接下来，在步骤S12中，将在步骤S10中接收的视频分割成帧(图像)。在步骤S14中，由作为步骤S12中的分割的结果获得的帧形成时间线片段。在步骤S16中，进行片段人物识别处理。在步骤S18中，判断针对所有片段的处理是否结束。如果判断针对所有片段的处理均结束(步骤S18中的“是”)，则流程结束。如果判断针对所有片段的处理尚未结束(步骤S18中的“否”)，则流程返回至步骤S16，并且重复处理直到针对所有片段的处理结束。

图9是示出在步骤S16中片段人物识别处理的详细控制流程的流程图。

首先，在步骤S161中，输入片段。接下来，在步骤S162中，针对作为上述在步骤S12中的分割的结果获得的帧(图像)进行个人物识别。在步骤S163中，判断针对所有帧的处理是否结束。如果针对所有帧的处理均结束(步骤S163中的“是”)，则流程前进至步骤S164，对针对各帧和各人计算的得分进行综合并且流程结束。另一方面，如果判断针对所有帧的处理尚未结束(步骤S163中的“否”)，则流程返回至步骤S162，并且重复处理直到针对所有帧的处理结束。

接下来，对第二示例性实施例进行描述。

如第一示例性实施例一样，图10示出包括通过使用个人物识别从通过捕获多个人物的视频获得的视频38提取特定人物的情景的例子。首先，当输入视频38时，通过使用人物检测技术提取人物区域作为矩形区域，并基于重叠的程度，提取多个时间线片段40a、40b和40c。然后，通过使用同一人物判定技术针对各个时间线片段40a、40b和40c进行聚类。

在第二示例性实施例中，图2中所示的时间线片段比较单元34如图11所示用作片段间距离确定单元42a。

片段间距离确定单元42a计算输入的两个片段之间的距离。作为计算方法，可以计算分别包括在两个片段中的各对帧之间的距离并且可以将平均距离定义为两个片段之间的距离。备选地，例如可以使用将两个片段之间的距离定义为集合间距离(诸如Hausdorff距离)的其他方法。

另外，上述距离计算可以与广泛使用的面部识别技术结合。在结合的情况下，例如，可以对得分进行加权和相加。

具体来说，片段间距离确定单元42a包括人物间距离确定单元44a，其与面部识别单元46a和面部间距离计算单元48a结合。

人物间距离确定单元44a判断分别存在于两个输入片段中的两个人物是否为同一人物。

图12示出人物间距离确定单元44a的例子。在图12中，使用深层学习网络50a和50b作为特征提取器，计算使用深层学习网络50a的学习结果和使用深层学习网络50b的学习结果之间的差并且假设为差向量，并且通过使用AdaBoost分类器52进行是否两个人物为同一人物的推定从而判定两个人物是否为同一人物。本示例性实施例示出了使用AdaBoost分类器52作为分类器的结构，当然这仅是一个例子。

在此，采用返回二进制结果即两个人物是否为同一人物的结构。在判定两个人物是同一人物的情况下，可以通过返回预定的小值来定义人物之间的距离，并且在判定两个人物是不同人物的情况下，可以通过返回预定的大值来定义人物之间的距离。

备选地，通过使用如在NPL 3或NPL 4中描述的深层学习，可以适用进行从特征提取到识别的端到端处理(end-to-end processing)的方法。

当输入在片段中的帧时，面部识别单元46a检测并识别面部区域。在面部检测成功的情况下，面部间距离计算单元48a计算分别存在于两个输入帧中的面部之间的距离。作为针对其的标准方法，有诸如在NPL 5中描述的OpenFace的方法。

另外，可以设置片段间距离校正单元54。片段间距离校正单元54基于在相同时间以及相同地点存在的片段总是对应于不同的人物的条件来校正距离。

由此确定片段之间的距离，并且进行聚类。基于通过片段间距离确定单元42a计算的片段之间的距离来进行聚类。作为聚类的方法，可以使用例如k-means方法或各种层次聚类方法。

图13是示出在第二示例性实施例中的控制流程的流程图。

首先，在步骤S20中，接收视频。接下来，在步骤S22中，将在步骤S20中接收的视频分割成帧(图像)。在步骤S24中，由作为步骤S22中的分割的结果获得的帧形成时间线片段。在步骤S26中，计算片段之间的距离。在步骤S28中，判断针对所有片段对的处理是否结束。如果判断针对所有片段对的处理均结束(步骤S28中的“是”)，则流程前进至步骤S30，进行聚类，并且流程结束。另一方面，如果判断针对所有片段对的处理尚未结束(步骤S28中的“否”)，则流程返回至步骤S26，并且重复处理直到针对所有片段对的处理结束。

图14是示出在步骤S26中的片段间距离计算处理的详细控制流程的流程图。

首先，在步骤S261中，输入片段。接下来，在步骤S262中，针对作为上述在步骤S22中的分割的结果获得的帧(图像)，计算帧之间的距离。在步骤S263中，判断针对所有帧对的处理是否结束。如果针对所有帧对的处理均结束(步骤S263中的“是”)，则流程前进至步骤S264，计算片段之间的距离，并且流程结束。另一方面，如果判断针对所有帧对的处理尚未结束(步骤S263中的“否”)，则流程返回至步骤S262，并且重复处理直到针对所有帧对的处理结束。

另外，在上述示例性实施例中假设人物作为目标对象；但是目标对象不限于人，可以将诸如动物或车辆的任何对象作为目标。

为了进行图示和说明，以上对本发明的示例性实施例进行了描述。其目的并不在于全面详尽地描述本发明或将本发明限定于所公开的具体形式。很显然，对本技术领域的技术人员而言，可以做出许多修改以及变形。本实施例的选择和描述，其目的在于以最佳方式解释本发明的原理及其实际应用，从而使得本技术领域的其他熟练技术人员能够理解本发明的各种实施例，并做出适合特定用途的各种变形。本发明的范围由与本说明书一起提交的权利要求书及其等同物限定。

Claims

1.一种图像处理装置，其特征在于，包括：

接收部，其接收视频；

图像提取部，其从构成由所述接收部接收的所述视频的多个帧中提取目标对象图像；

形成部，其使在由所述图像提取部提取的所述目标对象图像中的多个目标对象图像形成为一个单位，所述多个目标对象图像在时间上彼此分离；以及

比较部，其基于由所述形成部形成的所述单位进行比较。

2.根据权利要求1所述的图像处理装置，其中，

所述比较部与预先登记的目标对象图像进行比较。

3.根据权利要求1所述的图像处理装置，其中，

所述比较部与构成另一个单位的目标对象图像进行比较。

4.根据权利要求1至3中任一项所述的图像处理装置，其中，

在多个目标对象重叠的情况下，所述形成部从所述单位排除重叠的目标对象的目标对象图像。

5.根据权利要求1至3中任一项所述的图像处理装置，其中，

所述形成部使多个目标对象重叠之前的目标对象图像形成为所述单位。

6.根据权利要求1至4中任一项所述的图像处理装置，其中，

所述图像提取部提取人物作为目标对象。

7.根据权利要求5所述的图像处理装置，其中，

所述图像提取部进行面部识别。

8.一种图像处理方法，其特征在于，包括以下步骤：

接收视频；

从构成所接收的视频的多个帧中提取目标对象图像；

使在所提取的目标对象图像中的多个目标对象图像形成为一个单位，所述多个目标对象图像在时间上彼此分离；并且

基于所形成的单位进行比较。