CN108537112B

CN108537112B - 图像处理装置、图像处理系统、图像处理方法及存储介质

Info

Publication number: CN108537112B
Application number: CN201810171215.8A
Authority: CN
Inventors: 马场康夫
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2017-03-03
Filing date: 2018-03-01
Publication date: 2022-04-19
Anticipated expiration: 2038-03-01
Also published as: JP6942488B2; US10740652B2; JP2018148367A; US20180253629A1; CN108537112A

Abstract

本发明涉及图像处理装置、图像处理系统、图像处理方法及存储介质。该图像处理装置例如用于图像识别，诸如通过机器学习的物体计数。生成单元基于第一拍摄图像，生成指示第一训练图像和针对第一训练图像的图像识别结果的第一训练数据。训练单元通过使用第一训练数据进行训练，来基于第一训练数据和第二训练数据两者，生成图像识别用鉴别器，所述第二训练数据是预先准备的且指示第二训练图像和针对第二训练图像的图像识别结果。

Description

图像处理装置、图像处理系统、图像处理方法及存储介质

技术领域

本发明涉及图像处理装置、图像处理系统、图像处理方法以及非暂时性存储介质。

背景技术

近年来，提出了这样的系统，其中，通过利用摄像装置拍摄预定区域并且对拍摄的图像进行图像识别，来获得诸如图像中的人数或存在或不存在异常等的信息。这样的系统可以检测公共空间中的拥挤，并且可以用于掌握拥挤时的人流量，因此预期可应用于事件中的拥挤缓解和危机时的疏散指导。

作为这种图像识别的方法，提出了一种方法，其中，通过使用预先准备的监督数据而通过机器训练来生成识别模型，并且通过使用所获得的识别模型来进行图像识别。例如，作为使用机器训练估计人数的方法，存在如下方法，其中，通过使用人数已知的图像作为训练数据，基于诸如支持向量机或深度学习等的已知机器训练处理来训练识别模型。具体示例是Lempitsky(V.Lempitsky等人“Learning to Count Objects in Images”，Advancesin Neural Information Processing Systems(NIPS)，2010)，其中，进行密度映射(density map)估计器的机器训练，密度映射估计器估计对象物体的密度映射。然后，使用训练后的密度映射估计器生成识别对象图像的密度映射，并通过对密度映射进行积分来估计对象物体的数量。另外，在Ikeda(Hiroo Ikeda等人，“Accuracy Improvement of PeopleCounting Based on Crowd-Patch Learning Using Convolutional Neural Network”，FIT2014，第13届信息科学和技术论坛，2014)中，进行使用固定大小的小图像作为输入并输出小图像中的人数的回归器的机器训练。然后，在将识别对象图像分割成子区域之后，将各个子区域调整为固定大小以生成小图像，并且由训练后的回归器获得各个小图像中的人数，并且通过获得所获得的各个小图像的人数的总和，估计识别对象图像中的人数。

发明内容

根据本发明的一个实施例，图像处理装置包括：生成单元，其被构造为基于第一拍摄图像，生成指示第一训练图像和针对第一训练图像的图像识别结果的第一训练数据；以及训练单元，其被构造为通过使用第一训练数据进行训练，来基于第一训练数据和第二训练数据两者，生成图像识别用鉴别器，所述第二训练数据是预先准备的、指示第二训练图像和针对第二训练图像的图像识别结果。

根据本发明的另一实施例，图像处理装置包括：训练单元，其被构造为生成基于第一训练数据和第二训练数据两者的鉴别器，所述第一训练数据指示基于由第一摄像装置获得的第一拍摄图像的第一训练图像和第一训练图像的图像识别结果，所述第二训练数据指示基于由不同于第一摄像装置的第二摄像装置获得的第二拍摄图像的第二训练图像和第二训练图像的图像识别结果，其中，所述鉴别器是用于对由第一摄像装置拍摄的图像进行图像识别的鉴别器。

根据本发明的又一实施例，图像处理系统包括：生成单元，其被构造为基于第一拍摄图像生成指示第一训练图像和针对第一训练图像的图像识别结果的第一训练数据；以及训练单元，其被构造为通过使用第一训练数据进行训练，来基于第一训练数据和第二训练数据两者，生成图像识别用鉴别器，所述第二训练数据是预先准备的且指示第二训练图像和针对第二训练图像的图像识别结果。

根据本发明的又一实施例，图像处理方法包括：基于第一拍摄图像生成指示第一训练图像和针对第一训练图像的图像识别结果的第一训练数据；并且通过使用第一训练数据进行训练，来基于第一训练数据和第二训练数据两者，生成图像识别用鉴别器，所述第二训练数据是预先准备的且指示第二训练图像和针对第二训练图像的图像识别结果。

根据本发明的又一实施例，非暂时性存储介质存储程序，所述程序在由包括处理器和存储器的计算机执行时使所述计算机：基于第一拍摄图像生成指示第一训练图像和针对第一训练图像的图像识别结果的第一训练数据；并且通过使用第一训练数据进行训练，来基于第一训练数据和第二训练数据两者，生成图像识别用鉴别器，所述第二训练数据是预先准备的且指示第二训练图像和针对第二训练图像的图像识别结果。

从以下对示例性实施例的描述(参照附图)，本发明的其他特征将变得清楚。

附图说明

图1是例示根据实施例的图像处理装置的硬件构造的示例的图。

图2是例示根据实施例的图像处理装置的功能构造的示例的图。

图3是例示根据实施例的图像处理的示例的流程图。

图4是例示生成附加训练数据(additional training data)的方法的示例的流程图。

图5是例示生成附加训练数据的方法的示例的流程图。

图6是例示以增量训练模式(incremental training mode)显示的UI的示例的视图。

图7A至图7D是例示生成背景图像的方法的示例的图。

图8是例示用于根据背景图像生成附加训练数据的方法的示例的图。

图9是例示用于根据人体跟踪结果生成附加训练数据的方法的示例的图。

图10是例示显示方法的示例的图。

具体实施方式

当例如拍摄时间、摄像装置的方向、摄像装置的位置、摄像装置的视角、布置摄像装置的空间等改变时，摄像装置获得的图像的倾向(tendency)也改变。另外，在由摄像装置获得的图像的倾向与在识别模型的训练中使用的图像的倾向不同的情况下，所获得的图像识别结果的精度可能降低。

本发明的实施例通过使用机器训练提高在对由布置在预定环境中的摄像装置获得的拍摄图像进行图像识别处理时，图像识别处理的精度。

在下文中，基于附图描述本发明的实施例。然而，本发明的范围不限于下面的实施例。

以下描述的一些实施例使用通过使用预先准备的监督数据预先训练的图像识别用鉴别器(discriminator)，换言之，指示训练图像和训练图像的图像识别的正确结果的训练数据。此外，通过使用附加训练数据来进行鉴别器的这种增量训练，附加训练数据指示根据在特定场景中拍摄的拍摄图像生成的训练图像和训练图像的图像识别结果。例如，通过增量训练来进行鉴别器参数的更新。通过这样的训练，生成基于监督数据和附加训练数据二者的鉴别器。另外，通过进行这样的增量训练，当对在特定场景中拍摄的拍摄图像进行图像识别时，可以通过鉴别器使识别精度提高。

另外，当生成如下所述的附加训练数据时，可以使用自动获得的训练图像的图像识别结果。换言之，可以通过使用与使用进行训练的鉴别器的识别方法不同的方法自动获得的图像识别结果，来生成附加训练数据。根据这种构造，由于可以在用户没有输入正确的识别结果的情况下生成附加训练数据，所以可以减轻用户的负担。

在下文中，给出关于识别在拍摄图像内出现的计数对象的数量的应用的描述。换言之，用于估计图像内的计数对象的数量的鉴别器被用作鉴别器。此外，包括在监督数据中的训练图像的图像识别结果是训练图像内的计数对象的数量，并且包括在附加训练数据中的训练图像的图像识别结果也是训练图像内的计数对象的数量。在下文中，特别地，进行图像内的人体数的估计。然而，可以进行除人体以外的计数对象的数量的估计。

同时，本发明的应用不限于识别在图像内拍摄的计数对象的数量的情况。实际上，本发明也可以用于进行其他类型的图像识别的情况。例如，本发明可以被应用于从图像中检测到物体的轮廓的情况或者对图像进行字符识别的情况。

图1是例示根据第一实施例的图像处理装置100的硬件构造的示例的图。图像处理装置100包括CPU 10、存储器11、网络I/F 12、显示装置13和输入装置14作为硬件构造。CPU10总体上管理图像处理装置100的控制。存储器11存储CPU 10用于处理的数据、程序等。网络I/F 12是用于将图像处理装置100连接到网络的接口。显示装置13是用于显示图像并且例如可以在液晶显示装置等上显示CPU 10等的处理结果的装置。输入装置14是用于基于用户的操作来接收输入的装置，并且例如是鼠标、按钮等。通过CPU 10基于存储在存储器11中的程序执行处理，可以实现图2所示的图像处理装置100的功能构造以及图3所示的流程图的处理。

图2例示图像处理装置100的功能构造的示例。图像处理装置100包括图像获得单元201、数据生成单元206、训练单元207、识别单元208和显示单元209作为功能构造。另外，虽然图像处理装置100还包括背景生成单元202、检测单元203、跟踪单元204以及位置获得单元205，但如后所述，不是必须包括这些单元中的各个。注意，这些功能构造可以分布在多个装置中。换言之，图像处理系统包括的多个装置可以分别具有这些功能构造中的一个或更多个。甚至通过图像处理系统包括的这些装置在经由网络相互通信的同时操作，也可以实现图像处理装置100的功能。

图像获得单元201使用增量训练获得图像。通过使用该图像，数据生成单元206如后所述生成附加训练数据。另外，图像获得单元201获得以估计人数为对象的图像。识别单元208进行用于估计与该图像有关的人数的处理。

如上所述，增量训练中使用的图像是在与以估计人数为对象的图像相同的场景(或拍摄条件)下拍摄的图像。在相同场景下拍摄的图像是指使用相同的摄像装置拍摄的图像、在相同拍摄时间段拍摄的图像，相对于地面的距离和角度相同的状态下拍摄的图像、在相同位置拍摄的图像、以相同视角拍摄的图像或者在相同空间拍摄的图像。因此，与在其他场景中拍摄的图像相比，对于在相同场景中拍摄的图像，图像的倾向更加相似。因此，通过将在与以估计人数为对象的图像相同的场景中拍摄的图像用作在增量训练中要使用的图像，可以使该场景中的图像识别的精度增加。

在一个实施例中，由图像获得单元201获得的图像是由相同摄像装置获得的拍摄图像。换言之，增量训练中使用的图像和以估计人数为对象的图像是由相同摄像装置获得的拍摄图像。在这样的实施例中，通过使用基于由摄像装置获得的拍摄图像的训练图像和指示训练图像的图像识别结果的附加训练数据来进行鉴别器的训练。同时，预先准备的监督数据可以是用于生成可以在宽范围的场景中使用的通用鉴别器的训练数据。这样的监督数据指示基于在各种场景中拍摄的图像的训练图像和训练图像的图像识别结果。因此，在一个实施例中，监督数据包括基于由如下的摄像装置所获得的拍摄图像的训练图像以及训练图像的图像分析结果：该摄像装置与拍摄要用于生成附加训练数据的图像的摄像装置不同。如稍后所述，训练单元207可以基于附加训练数据和监督数据两者生成鉴别器。相对于由拍摄用于生成附加训练数据的图像的摄像装置拍摄的图像，通过这种处理获得的鉴别器将具有比仅通过使用监督数据进行训练的鉴别器更高的图像识别精度。以这种方式，通过这些处理，可以生成用于对由摄像装置获得的拍摄图像进行图像分析的鉴别器。这样的构造能够使在如下的情况下，图像识别处理的精度特别地提高：增量训练中使用的图像和以估计人数为对象的图像两者都由被维持以具有特定的位置和姿势的诸如监视照相机等的摄像装置拍摄。

图像处理装置100可以是摄像装置。在这样的情况下，图像获得单元201可以从图像处理装置100配备的诸如CMOS传感器或CCD传感器等的固态图像传感器获得图像，并且可以从诸如硬盘等的存储装置获得图像。同时，图像处理装置100也可以是与摄像装置分开的装置。在这样的情况下，图像获得单元201可以经由网络从摄像装置获得图像，并且可以获得存储在图像处理装置100配备的或存在于网络上的存储装置中的图像。

背景生成单元202生成图像获得单元201获得的、要用于增量训练的图像的背景图像。通过使用该背景图像，数据生成单元206可以生成附加训练数据。

检测单元203通过对图像获得单元201获得的、要用于增量训练的图像进行计数对象检测处理，来生成该图像内的计数对象的位置信息。在这种情况下，数据生成单元206从图像获得单元201获得的、用于增量训练的图像中提取训练图像，并通过使用用于增量训练的图像内的计数对象的位置信息来确定训练图像内的计数对象的数量。以这种方式，数据生成单元206生成指示训练图像和计数对象的数量的附加训练数据。

在本实施例中，检测单元203通过对图像进行人体检测来获得人体检测结果。检测单元203可以通过使用已知的图案识别技术、使用机器训练等的识别技术等来进行人体检测。这里，人体检测是指从图像内指定人体的至少一部分的位置的处理，例如，是指用于指定预先定义的人体的身体部位(诸如人的头部、脸部、手部等)的位置的处理。在本实施例中，检测单元203通过使用检测人的头部位置的人体检测器来检测人的头部的位置。人体检测结果被表示为图像上的任意形状(诸如，矩形或椭圆形)的图形。

跟踪单元204获得人体的跟踪结果。例如，跟踪单元204通过使用由对在时间上连续拍摄的各个图像进行处理的检测单元203获得的人体检测结果，来进行检测到的人体的图像之间的关联处理。关联处理可以根据常规技术来进行。例如，该处理可以被归结为用于从来自各个图像的人体检测结果当中，对与同一人体相对应的人体检测结果进行配对的匹配问题。具体地，可以首先基于诸如表示人体的形状的位置或大小、从与人体相对应的图像提取的图像特征量等的特征量来限定从不同图像检测到的人体之间的相似度。另外，通过对具有高度相似度的人体的组合进行配对，可以进行关联。作为具体的关联方法，可以使用从具有最高相似度的人体的组中按顺序创建配对的方法，或者使用创建配对使得总体相似度的总和为最高的总体优化方法。跟踪单元204将相同的ID应用于关联的人体检测结果。以此方式，得到由相同ID指示的一组人体检测结果作为人体跟踪结果。人体跟踪结果对应于由检测单元203检测到的人体的路径。在本实施例中，数据生成单元206通过使用根据跟踪单元204的跟踪结果来生成要被用于增量训练的图像内的计数对象的密度信息。然后，数据生成单元206根据密度信息从用于增量训练的图像中提取训练图像。

位置获得单元205获得图像内的计数对象的位置信息，所述图像是图像获得单元201获得的且用于增量训练。在本实施例中，位置获得单元205从外部装置取得人体的位置信息。外部装置是用于测量人体的位置信息的装置。存在使用被称为超宽带的频带的位置获得设备等作为外部装置的示例。通过携带这样的外部装置的人，可以高精度地获得人的三维位置信息。另外，位置获得单元205可以将从外部装置获得的人体的位置信息转换成图像获得单元201获得的图像中的位置信息。例如，位置获得单元205通过预先获得用于将在世界坐标系中表示的三维位置转换为在照相机坐标系中表示的位置的参数，可以将人体的三维位置转换为图像上的二维位置。

数据生成单元206基于图像获得单元201获得的、要在增量训练中使用的图像来生成指示训练图像和训练图像识别结果的附加训练数据。在本实施例中，数据生成单元206通过使用由背景生成单元202、检测单元203和位置获得单元205中的至少一个获得的结果来生成附加训练数据。另外，在生成附加训练数据时，数据生成单元206可以进一步考虑由跟踪单元204获得的结果。另外，数据生成单元206可以根据各种方法生成附加训练数据，并将它们组合以提供到训练单元207的输出。稍后参照图4和图5的流程图描述数据生成单元206的详细处理。

同时，生成附加训练数据的方法不限于使用背景生成单元202、检测单元203或位置获得单元205的方法。换言之，数据生成单元206可以通过生成附加训练数据的任一方法来获得训练图像的图像识别结果。在一个实施例中，数据生成单元206自动生成训练图像的图像识别结果而不需要获得用户的输入。此外，数据生成单元206可以从外部装置获得附加训练数据。例如，图像处理装置100可以获得连接的摄像装置所生成的附加训练数据，并且可以根据由摄像装置拍摄的图像来获得在外部装置上或在云上生成的附加训练数据。

训练单元207通过使用数据生成单元206生成的附加训练数据来进行识别单元208的更新。通过这样的增量训练，训练单元207可以更新识别单元208，从而生成通过使用附加训练数据和预先准备的监督数据二者来进行训练的鉴别器。根据识别单元208使用的鉴别器的识别模型，可以采用任何已知的方法作为具体的训练方法。

识别单元208通过使用通过训练单元207的增量训练获得的鉴别器来进行图像分析。在本实施例中，识别单元208估计图像获得单元201获得的、以估计人数为对象的图像中的人体的数量。

显示单元209使显示装置13显示由识别单元208估计的人体的数量。

图3是例示图像处理装置100的图像处理的示例的流程图。在步骤S301中，图像处理装置100开始增量训练模式。增量训练模式是如下的模式：生成附加训练数据，并且进行使用附加训练数据的识别单元208的增量训练。

在步骤S302中，图像获得单元201获得要用于增量训练的图像。

在步骤S303中，数据生成单元206生成用于识别单元208的增量训练的附加训练数据。下面描述详情。

在步骤S304中，训练单元207通过使用数据生成单元206生成的附加训练数据来更新识别单元208所保持的识别模型的参数。在本实施例中，识别单元208通过使用基于深度神经网络的识别模型来进行图像识别。在这种情况下，在步骤S304中，利用步骤S301开始之前的识别模型的参数作为初始值，通过使用附加训练数据来更新识别模型的参数。可以使用诸如误差逆传播方法的已知方法来更新参数。此时，可以采取构造来采用这样的构造，其中，仅更新来自深度神经网络的各层级层当中的预定层级层的参数。

在步骤S304中，可以仅使用在步骤S303中生成的附加训练数据来进行增量训练。然而，在步骤S304中，除了附加训练数据之外，还可以通过使用其他训练数据来进行增量训练。例如，可以通过使用混合训练数据来进行识别单元208的增量训练，在混合训练数据中，用于在增量训练之前训练识别单元208的监督数据和在步骤S303中生成的附加训练数据被混合。借助于这样的构造，可以减少识别单元208的过度训练的机会，并且可以提高估计人数的精度。

此时，可以混合监督数据和附加训练数据，使得训练数据中的标签分布不发生变化。例如，在将具有特定标签的预定数量的训练数据项与监督数据混合作为附加训练数据的情况下，可以从监督数据中排除具有相同标签的相同数量的训练数据项。在本实施例的情况下，标签是指训练图像内的人体数量。在本实施例中，因为根据密度信息选择训练图像，所以人体数量少的情况下的训练数据趋于被添加为附加训练数据。当通过将这样的附加训练数据与监督数据简单混合来进行训练时，可能偏向通过鉴别器进行的人体数量的识别结果变小的方向。然而，通过从监督数据中排除训练数据，可以减少识别结果的偏差，使得训练数据中的人体数量的分布不会劣化。

可以反复进行步骤S303和步骤S304的处理。换言之，数据生成单元可以反复进行附加训练数据的生成，并且训练单元207可以使用附加训练数据反复进行训练。在步骤S305中，训练单元207确定该训练的反复进行是否结束，具体而言，判断增量训练模式是否结束。

结束增量训练模式的条件没有特别限制。例如，训练单元207可以基于训练被反复进行的周期、训练反复进行次数和被进行训练的鉴别器的鉴别精度中的至少一个来结束增量训练模式。作为具体示例，训练单元207可以在满足以下(1)至(4)中的一个或更多个的情况下结束增量训练模式。

(1)从增量训练模式开始时起经过了预定时间。

(2)累积了预定量的附加训练数据。

(3)通过使用附加训练数据进行增量训练之后的识别单元208的误差小于或等于预定值。例如，可以通过将所生成的附加训练数据以预定比率分割成训练用数据和评估用数据，通过仅使用训练用数据来进行增量训练。然后，在使用评估用数据计算根据识别单元208的估计误差并且估计误差小于或等于预定的目标值的情况下，可以确定获得了足够的鉴别精度。

(4)用户执行明确地使增量训练模式结束的指令。例如，显示单元209可以通过使显示装置13显示例如图6所示的对话框来询问用户是否结束增量训练模式。在这种情况下，如图6所示，可以将从增量训练模式开始起经过的时间、附加训练数据项的数量以及例如根据识别单元208的估计误差的数字呈现给用户。另外，显示单元209可以向用户呈现与对象相关的训练进度。训练的进度可以通过(E1-e)/(E1-E2)来获得，其中，根据识别单元208的当前估计误差为e。这里，E1是在进行识别单元208的增量训练之前，根据识别单元208的估计误差，并且E2是估计误差的目标值。

在步骤S306中，图像处理装置100开始人数估计模式。人数估计模式是通过使用识别单元208估计由图像获得单元201获得的图像中的人数的模式。

在步骤S307中，图像获得单元201获得以估计人数为对象的图像。

在步骤S308中，识别单元208在进行增量训练之后，以图像获得单元201在步骤S307中获得的图像为对象，进行人数的估计。在估计人数时，可以使用基于要使用的识别模型的任何方法。例如，在使用密度映射估计器的情况下，可以通过获得图像的密度映射并且对密度映射进行积分来估计人数。另外，在使用回归器的情况下，可以将图像分割为子区域，然后通过将子区域调整为固定大小来生成小图像，然后通过回归器获得指示各个小图像中的人数的回归值。所获得的人数的总和是图像中的人数的估计值。

子区域的大小可以是固定的，或者根据图像上的位置可以有不同的大小。例如，可以使图像上的子区域的大小与人体的大小之间的比例基本上固定。图像上的人体的大小可以由用户使用诸如鼠标等的输入装置来明确地输入。例如，通过用户输入图像上的多个位置处的人体的平均大小，识别单元208能够通过插值来估计图像上的任何点处的人体的平均大小。另外，可以通过统计处理自动地估计图像上的人体的大小。当图像上的坐标(x，y)处的人体的大小是s时，可以假设s将由x、y和一个或更多个未知参数表示。例如，可以假设s＝ax+by+c。在这个示例中，未知参数是a、b和c。识别单元208例如可以通过使用检测单元203检测到的一组人体检测结果，通过诸如最小二乘法等的统计处理获得未知参数。

在步骤S309中，显示单元209使显示装置13显示由识别单元208获得的估计的人数结果。显示单元209可以使显示装置13显示在步骤S306中获得的、估计整个图像中出现的人数的结果。

另外，显示单元209可以进行更详细的显示，使得可以知道图像中的各个位置的估计人数。例如，显示装置13可以显示在步骤S306中获得的图像、指示图像中的子区域的位置的信息以及在子区域中出现的人体的数量。作为具体示例，显示装置13可以显示各个子区域的估计人数。图10例示了这样的示例。在图10的示例中，在步骤S308中获得的子区域1001中的估计人数是一人，并且该数字被以与子区域1001交叠的方式显示。另外，可以进行根据子区域上的估计人数而不同的图像处理。例如，显示装置13可以进行显示，使得区域的估计人数越高，该区域变得越红。另外，在步骤S308中通过生成密度映射来估计人数的情况下，可以将根据密度映射的像素值而不同的图像处理应用于图像。例如，显示装置13可以将密度映射中所指示的各密度越大的像素显示得越红。

在步骤S310中，识别单元208决定是否结束人数估计模式。例如，识别单元208可以在用户明确地输入使人数估计模式结束的指令时结束人数估计模式。在不结束人数估计模式的情况下，返回步骤S307，并且反复进行估计人数的处理。

在下文中，将详细描述步骤S303的处理。附加训练数据可以通过多种方法来生成。图4和图5是用于例示生成附加训练数据的方法的示例的流程图。

图4是用于例示通过使用背景图像生成附加训练数据的示例的流程图。在步骤S401中，背景生成单元202基于图像获得单元201获得的图像生成背景图像。背景生成单元202可以通过任何方法生成背景图像。例如，背景生成单元202可以生成图像获得单元201获得的多个图像的平均图像作为背景图像。例如，背景生成单元202可以生成图像获得单元201获得的多个图像的中值图像作为背景图像。此外，背景生成单元202可以通过使用帧之间的差分等方法来确定在连续拍摄的图像中是否存在运动，并且将被确定为不运动的图像用作背景图像。

参照图7A至图7D，将给出对生成背景图像的方法的进一步描述。图7A、图7B和图7C例示了由摄像装置在不同时间拍摄的图像。图7D是这三个图像的中值图像，并且该图像可以用作背景图像。

在步骤S402中，数据生成单元206根据由背景生成单元202生成的背景图像生成附加训练数据。在本实施例中，估计在背景图像中不出现人体。可以用这种方式生成附加训练数据。参照图8，现在将描述用于从背景图像生成用于训练回归器的附加训练数据的方法。图像801是由背景生成单元202生成的背景图像。图像801被分割为如图8中的粗线所示的多个子区域。可以与步骤S308类似地进行图像分割处理。此外，数据生成单元206可以通过将通过图像分割而获得的子区域802的大小调整为固定大小来获得小图像。可以使用小图像和指示小图像中的人数为0的信息作为附加训练数据。

图5是用于例示通过使用人体检测来生成附加训练数据的示例的流程图。在步骤S501中，检测单元203通过以由图像获得单元201获得的图像为对象，进行人体检测来获得人体检测结果。

在步骤S502中，跟踪单元204通过从检测单元203获得人体检测结果进行跟踪处理，来获得人体跟踪结果。

在步骤S503中，数据生成单元206可以从图像获得单元201获得的图像中提取子区域，并通过将子区域的大小调整为固定大小来获得小图像。此外，数据生成单元206可以参照步骤S501中的人体检测结果来获得这些小图像中的人数。可以使用小图像和指示小图像中的人数的信息作为附加训练数据。可以与步骤S402类似地进行子区域的提取。

尽管不是必需的，但是数据生成单元206也可以在步骤S503中确定在图像获得单元201获得的图像当中的、适合于生成附加训练数据的区域。然后，数据生成单元206根据确定的区域生成附加训练数据。任何方法都可以用作确定方法。例如，可以根据人体存在的密度来确定适合于生成附加训练数据的区域。换言之，由于在人体之间会发生很多交叠，所以当在人体以高密度存在的区域上进行人体检测处理时，准确检测人体数量的可能性较小。然而，当在人体以低密度存在的区域上进行人体检测处理时，准确检测人体数量的可能性更大。因此，训练单元207可以根据人体存在的密度是预定值或更小值的区域生成附加训练数据，以获得更准确的附加训练数据。

可以使用由跟踪单元204获得的人体跟踪结果来估计人体存在密度。例如，如果针对预定数量的最近帧，在特定人体与所有其他人体之间维持预定距离或更大距离，则可以认为在该人体附近没有其他人存在。因此，数据生成单元206可以确定在该人体附近的区域中的人体存在密度低。另外，数据生成单元206可以确定其他区域中的人体存在密度高。

在图9中，例示了用于确定适合于附加训练数据生成的区域的方法的示例。图像901上的帧表示人体跟踪结果902、903和904。在图9的示例中，人体跟踪结果902和903在预定数量的帧上彼此在预定距离内存在。因此，数据生成单元206确定人体跟踪结果902和903的周围区域中的人体存在密度高。另一方面，人体跟踪结果904在预定数量的帧上与其他人体跟踪结果分开预定距离或更多。因此，数据生成单元206确定人体跟踪结果904的周围区域中的人体存在密度低。例如，在回归器的增量训练的情况下，数据生成单元206从人体跟踪结果904附近提取子区域911和子区域912，并且通过使用在这些子区域中出现的人体的数量来生成附加训练数据。

在图5的流程图中，描述了通过使用人体跟踪结果生成附加训练数据的情况。然而，数据生成单元206可以采用这样的构造：通过使用由检测单元203获得的人体检测结果来生成附加训练数据而不进行人体跟踪。例如，如果所有其他检测到的人体与该人体分开预定距离或更多，则可以确定在由检测单元203检测到的人体附近的区域中的人体存在密度低。

另外，检测单元203可以获得图像中的各个位置处的人体存在的概率作为图像中的人体位置信息。例如，检测单元203可以生成用数字表示针对图像的各个像素的人体存在概率的置信度映射。在这种情况下，数据生成单元206可以确定，在存在概率是局部最大值的像素处的峰值的锐度在置信度映射中是预定值或更高的情况下，人体存在密度在该像素附近的区域中较低。例如，可以通过特定像素处的存在概率值与该像素的预定范围内的区域中的存在概率值之和的比，来定义该像素处的峰值的锐度。

另外，在步骤S501中，代替检测单元203获得人体检测结果，位置获得单元205可以获得图像获得单元201通过使用外部装置获得的图像中的人体的二维位置。通过使用这些二维位置作为人体检测结果，可以进行从步骤S502开始的处理。在这个示例中，假定只有携带外部装置的人出现在增量训练模式中使用的图像中。

通过前述实施例，可以通过基于在特定场景中获得的拍摄图像构建附加训练数据并进行增量训练，来提高用于估计与在特定场景中获得的拍摄图像相对应的人数的处理的精度。

在前述实施例中，训练单元207通过使用数据生成单元206基于图像获得单元201获得的图像而生成的训练数据，对通过使用预先准备的监督数据预先进行了训练的鉴别器进行增量训练。然而，训练单元207可以从开始进行鉴别器的训练。换言之，训练单元207可以使用尚未进行训练的鉴别器，通过使用预先准备的监督数据和数据生成单元206基于图像获得单元201获得的图像而生成的训练数据两者，来进行鉴别器的训练和生成。

其他实施例

另外，可以通过读出并执行记录在存储介质(也可更完整地称为“非临时性计算机可读存储介质”)上的计算机可执行指令(例如，一个或更多个程序)以执行上述实施例中的一个或更多个的功能、并且/或者包括用于执行上述实施例中的一个或更多个的功能的一个或更多个电路(例如，专用集成电路(ASIC))的系统或装置的计算机，来实现本发明的实施例，并且，可以利用通过由所述系统或装置的所述计算机例如读出并执行来自所述存储介质的所述计算机可执行指令以执行上述实施例中的一个或更多个的功能、并且/或者控制所述一个或更多个电路执行上述实施例中的一个或更多个的功能的方法，来实现本发明的实施例。所述计算机可以包括一个或更多个处理器(例如，中央处理单元(CPU)，微处理单元(MPU))，并且可以包括分开的计算机或分开的处理器的网络，以读出并执行所述计算机可执行指令。所述计算机可执行指令可以例如从网络或所述存储介质被提供给计算机。所述存储介质可以包括例如硬盘、随机存取存储器(RAM)、只读存储器(ROM)、分布式计算系统的存储器、光盘(诸如压缩光盘(CD)、数字通用光盘(DVD)或蓝光光盘(BD))、闪存设备以及存储卡等中的一个或更多个。

其它实施例

本发明的实施例还可以通过如下的方法来实现，即，通过网络或者各种存储介质将执行上述实施例的功能的软件(程序)提供给系统或装置，该系统或装置的计算机或是中央处理单元(CPU)、微处理单元(MPU)读出并执行程序的方法。

虽然参照示例性实施例对本发明进行了描述，但是应当理解，本发明并不限于所公开的示例性实施例。应当对所附权利要求的范围给予最宽的解释，以使其涵盖所有这些变型例以及等同的结构和功能。

Claims

1.一种图像处理装置，所述图像处理装置包括：

生成单元，其被构造为基于在第一摄像条件下拍摄的第一拍摄图像，生成指示第一训练图像和第一训练图像中的对象的数量的第一训练数据；以及

训练单元，其被构造为通过使用第一训练数据来训练由第二训练数据预先训练的鉴别器，使得鉴别器被训练以对在第一摄像条件下拍摄的图像中的对象进行计数，所述第二训练数据指示第二训练图像和第二训练图像中的对象的数量。

2.根据权利要求1所述的图像处理装置，其中，所述训练单元还被构造为通过使用所述第一训练数据和所述第二训练数据两者来进行所述鉴别器的训练。

3.根据权利要求1所述的图像处理装置，其中，所述训练单元通过使用所述第一训练数据对使用所述第二训练数据被训练了的鉴别器进行增量训练。

4.根据权利要求3所述的图像处理装置，其中，所述训练单元还使用具有所述第一训练数据和所述第二训练数据的混合的混合训练数据来进行鉴别器的增量训练。

5.根据权利要求4所述的图像处理装置，其中，

第一训练数据包括多个第一数据项，所述多个第一数据项中的各个指示训练图像及训练图像的标签；

第二训练数据包括多个第二数据项，所述多个第二数据项中的各个指示训练图像及训练图像的标签；

混合训练数据包括多个数据项，所述多个数据项包括至少一个第一数据项和至少一个第二数据项；并且

混合训练数据中具有特定标签的第一数据项的数量与混合训练数据中具有特定标签的第二数据项的数量之和，与第二训练数据中具有特定标签的第二数据项的数量相同。

6.根据权利要求1所述的图像处理装置，其中，所述生成单元还根据第一拍摄图像的背景图像生成第一训练图像。

7.根据权利要求1所述的图像处理装置，其中，所述生成单元还从第一拍摄图像中提取第一训练图像，并且通过使用第一拍摄图像中的对象的位置信息来确定第一训练图像中的对象的数量。

8.根据权利要求7所述的图像处理装置，其中，所述生成单元还通过对第一拍摄图像进行对象的检测处理来生成第一拍摄图像中的对象的位置信息。

9.根据权利要求7所述的图像处理装置，其中，所述生成单元还确定针对第一拍摄图像中的各个区域的对象的密度信息，并且根据针对各个区域的密度信息来从第一拍摄图像中提取第一训练图像。

10.根据权利要求1至5中的任一项所述的图像处理装置，其中，

所述生成单元还反复生成第一训练数据，并且所述训练单元还使用第一训练数据来反复地进行训练，并且

所述图像处理装置还包括控制单元，所述控制单元被构造为基于反复训练的周期、训练的反复计数或进行了训练的鉴别器的鉴别精度中的至少一者，来确定是否结束反复训练。

11.根据权利要求1至5中的任一项所述的图像处理装置，所述图像处理装置还包括识别单元，所述识别单元被构造为使用由训练单元训练的鉴别器来进行图像识别。

12.根据权利要求1至5中的任一项所述的图像处理装置，其中，

第二训练数据基于在不同于第一摄像条件的第二摄像条件下获得的第二拍摄图像。

13.根据权利要求12所述的图像处理装置，其中，第一摄像条件或第二摄像条件包括摄像装置、摄像时间段、摄像位置、摄像视角、相对于地面的摄像距离和相对于地面的摄像角度中的至少一者。

14.根据权利要求1至5中的任一项所述的图像处理装置，所述图像处理装置还包括状态显示单元，所述状态显示单元被构造为显示由训练单元进行训练的状态。

15.根据权利要求14所述的图像处理装置，其中，所述状态显示单元还显示从训练开始起经过的时间、所使用的训练数据项的数量、根据鉴别器的估计误差和训练进度中的至少一者作为训练的状态。

16.一种图像处理装置，所述图像处理装置包括：

训练单元，其被构造为生成基于第一训练数据和第二训练数据两者的鉴别器，所述第一训练数据指示基于由第一摄像装置在第一摄像条件下获得的第一拍摄图像的第一训练图像和第一训练图像中的对象的数量，所述第二训练数据指示基于由不同于第一摄像装置的第二摄像装置获得的第二拍摄图像的第二训练图像和第二训练图像中的对象的数量，其中，所述鉴别器用于对由第一摄像装置在第一摄像条件下拍摄的图像中的对象进行计数。

17.一种图像处理系统，所述图像处理系统包括：

18.一种图像处理方法，所述图像处理方法包括：

基于在第一摄像条件下拍摄的第一拍摄图像，生成指示第一训练图像和第一训练图像中的对象的数量的第一训练数据；以及

通过使用第一训练数据来训练由第二训练数据预先训练的鉴别器，使得鉴别器被训练以对在第一摄像条件下拍摄的图像中的对象进行计数，所述第二训练数据指示第二训练图像和第二训练图像中的对象的数量。

19.一种非暂时性存储介质，所述非暂时性存储介质存储程序，所述程序在由包括处理器和存储器的计算机执行时使所述计算机：