CN111488789A

CN111488789A - 用于基于图像分析的监视的行人检测方法及装置

Info

Publication number: CN111488789A
Application number: CN202010016997.5A
Authority: CN
Inventors: 金桂贤; 金镕重; 金寅洙; 金鹤京; 南云铉; 夫硕焄; 成明哲; 吕东勋; 柳宇宙; 张泰雄; 郑景中; 诸泓模; 赵浩辰
Original assignee: Stradvision Inc
Current assignee: Stradvision Inc
Priority date: 2019-01-28
Filing date: 2020-01-08
Publication date: 2020-08-04
Anticipated expiration: 2040-01-08
Also published as: EP3690712A1; KR20200093426A; US10692002B1; KR102382693B1; JP2020119558A; CN111488789B; JP6901802B2

Abstract

本发明涉及用于基于图像分析的监视的行人检测方法及装置，具体涉及基于图像分析而不受环境影响的监视中使用或军事目的的测试用行人检测器的学习方法，本发明作为对被标签的图像不足问题的解决对策而提供，并且用于减少注释费用，本发明可利用GAN来执行，特征在于，包括如下步骤：将训练图像上的各个区域修剪来生成图像补丁，使对抗式变换器将各个行人变换成难以进行检测的变形行人，从而生成变形图像补丁；及用变形图像补丁来代替各个区域而生成变形训练图像，并使上述行人检测器检测变形行人，以使损失最小化的方式学习行人检测器的参数，并通过生成包括基于自演化系统进行的本学习难以进行的例示的训练数据，从而不受对抗模式的影响。

Description

用于基于图像分析的监视的行人检测方法及装置

技术领域

本发明涉及与自动驾驶车辆一起使用的学习方法及学习装置、测试方法及测试装置，更具体地，基于利用GAN的图像分析而不受环境影响的监视(Robust Surveillance)中使用的行人检测器(Pedestrian Detector)的学习方法及学习装置、利用该学习方法及学习装置的测试方法及测试装置。

背景技术

机器学习(Machine Learning)中卷积神经网络(Convolutional NeuralNetwork；CNN或ConvNet)是成功地应用于视觉图像分析的深度前馈人工神经网络(Deep，Feed-Forward Artificial Neural Network)的一个类别(Class)。

这样的基于CNN的对象检测器(i)使至少一个卷积层对输入图像应用卷积运算来生成与输入图像对应的特征图，(ii)使RPN(Region Proposal Network：区域生成网络)利用特征图生成与输入图像内的对象对应的候选边框(Proposal)，然后(iii)使池化层(Pooling Layer)对与候选边框对应的特征图上的区域应用池化运算来生成至少一个池化特征图，(iv)使FC层(Fully Connected Layer：全连接层)对获得的池化特征图应用至少一次FC运算(Fully Connected Operation：全连接操作)来输出关于对象的类别信息(ClassInformation)和回归信息(Regression Information)，由此检测输入图像上的对象。

近年来，研发了利用这样的对象检测器的监视系统。以往的监视系统利用以在从监视照相机输入的图像中检测作为对象的行人的方式特化的行人检测器(PedestrianDetector)，参照发型、衣服的纹理图案及形态等而检测行人。

但是，以往的行人检测器存在如下的问题：在存在训练数据中未遇到过的独特造型及/或图案的行人、在暗黑的道路中身穿黑色衣服的行人这样的与周围背景类似的行人等的事例的情况下无法准确地检测行人。在行人知道这样的缺陷而故意要隐藏或掩盖自己的存在的情况下，在监视系统中发生严重的问题。

因此，在以往的行人检测器在行人检测中失败的情况下，追加关于监视人力失败的事例的训练数据，从而在提高训练数据的范围之后需要周期性地对行人检测器进行再教育。

但是，存在如下缺点：不可能通过将行人检测器周期性地再教育来预防检测失败的事例，每当发生在检测中失败的事例时，需要进行对此进行补充的再教育，还需要监视中使用是否未检测的额外的人力。

另外，也难以确保用于对检测失败事例进行再教育的适当的训练数据。

发明内容

发明要解决的课题

本发明的目的在于解决上述所有问题。

本发明的另一目的在于扩大训练数据的范围。

本发明的又一目的在于减少监视中使用未检测事例的额外的人力。

本发明的又一目的在于通过对未检测事例的适当的训练来改善监视系统的性能。

用于解决课题的手段

用于达到如上述的本发明的目的并实现后述的本发明的特征性效果的本发明的特征性结构如下。

根据本发明的一个实施例，一种基于图像分析而不受环境影响的监视(RobustSurveillance)中使用的行人检测器(Pedestrian Detector)的学习方法，该方法的特征在于，包括如下步骤：(a)当获得具备与在至少一个训练图像上生成的各个学习用行人对应的各个边界框的上述训练图像时，学习装置在上述训练图像上修剪(Crop)与各个上述边界框分别对应的各个区域而生成至少一个图像补丁(Image Patch)，并使对抗式变换器(Adversarial Style Transformer)将与各个上述图像补丁分别对应的各个上述学习用行人分别变换成通过上述行人检测器难以检测的各个变形行人，从而生成至少一个变形图像补丁(Transformed Image Patch)；及(b)上述学习装置在上述训练图像上用上述变形图像补丁来代替与各个上述边界框对应的各个上述区域而生成至少一个变形训练图像(Transformed Training Image)，使上述行人检测器检测位于上述变形训练图像内的上述变形行人而生成学习用行人检测信息，使第1损失层参照各个上述学习用行人检测信息和与此对应的GT来算出至少一个第1损失，以将上述第1损失最小化的方式学习上述行人检测器的至少一个参数的至少一部分。

在一个实施例中，其特征在于，在上述(b)步骤中，上述学习装置使判别器(Discriminator)生成各个学习用行人分值(Pedestrian Score)，并以将上述学习用行人分值及上述第1损失最大化的方式进一步学习上述对抗式变换器的至少一个参数的至少一部分，其中，该各个学习用行人分值(Pedestrian Score)表示各个上述变形图像补丁为各个上述学习用行人的各个概率。

在一个实施例中，其特征在于，上述判别器为(i)包括至少一个卷积层和至少一个FC层(Fully Connected Layer)或(ii)包括全卷积网络(Fully Convolutional Network)的图像分类器(Image Classifier)。

在一个实施例中，其特征在于，在上述(b)步骤中，

上述学习装置使第2损失层参照各个上述学习用行人分值和与此对应的GT来算出至少一个第2损失，以将上述第2损失最小化的方式学习上述判别器的至少一个参数的至少一部分。

在一个实施例中，其特征在于，上述对抗式变换器包括：编码器，其具备对上述图像补丁应用至少一次卷积运算的至少一个卷积层；及解码器，其具备对从上述编码器输出的至少一个特征图应用至少一次解卷积运算的至少一个解卷积层。

在一个实施例中，其特征在于，在上述(a)步骤中，上述学习装置对至少一个上述图像补丁改变尺寸(Resize)来使上述图像补丁具备相同的尺寸，然后使上述对抗式变换器输出相同的尺寸的上述变形图像补丁，在上述(b)步骤中，上述学习装置对上述相同的尺寸的上述变形图像补丁改变尺寸来使上述变形图像补丁分别成为变形之前的原来的尺寸，然后生成上述变形训练图像。

在一个实施例中，其特征在于，上述训练图像是从(i)检测位于从监视照相机获得的至少一个测试图像内的测试用行人来输出包括上述边界框的测试用行人检测信息的上述行人检测器及(ii)存储具备与上述边界框对应的真标签(True Label)的上述训练图像的数据库中的一个获得的。

根据本发明的另一方式，一种基于图像分析而不受环境影响的监视(RobustSurveillance)中使用的测试用行人检测器(Pedestrian Detector)的测试方法，该方法的特征在于，包括如下步骤：(a)(1)学习装置在具备与至少一个训练图像上生成的各个学习用行人分别对应的各个学习用边界框的上述训练图像上修剪(Crop)与各个学习用边界框分别对应的各个学习用区域而生成至少一个学习用图像补丁(Image Patch)，使对抗式变换器(Adversarial Style Transformer)将与各个上述学习用图像补丁分别对应的各个上述学习用行人分别变换成通过上述行人检测器难以进行学习用检测的各个学习用变形行人，从而生成至少一个学习用变形图像补丁(Transformed Image Patch)，(2)上述学习装置在上述训练图像上用上述学习用变形图像补丁来代替与各个上述学习用边界框分别对应的各个上述学习用区域而生成至少一个变形训练图像(Transformed Training Image)，并使上述行人检测器检测位于上述变形训练图像内的上述学习用变形行人来生成学习用行人检测信息，并使第1损失层参照各个上述学习用行人检测信息和与此对应的GT来算出至少一个第1损失，并以将上述第1损失最小化的方式学习上述行人检测器的至少一个参数的至少一部分的状态下，当获得了具备与在至少一个测试图像上生成的各个测试用行人分别对应的各个测试用边界框的上述测试图像时，测试装置在上述测试图像上修剪与各个上述测试用边界框分别对应的各个测试用区域来生成至少一个测试用图像补丁，并使上述对抗式变换器将与各个上述测试用图像补丁分别对应的各个上述测试用行人分别变换成通过上述行人检测器难以进行测试用检测的各个测试用变形行人，从而生成至少一个测试用变形图像补丁；及(b)上述测试装置在上述测试图像上用上述测试用变形图像补丁代替与各个上述测试用边界框分别对应的各个上述测试用区域而生成至少一个变形测试图像(Transformed Test Image)，使上述行人检测器检测位于上述变形测试图像内的上述测试用变形行人来生成测试用行人检测信息。

在一个实施例中，其特征在于，在上述(b)步骤中，上述测试装置使判别器(Discriminator)生成各个测试用行人分值(Pedestrian Score)，该各个测试用行人分值(Pedestrian Score)表示各个上述测试用变形图像补丁为各个上述测试用行人的各个概率。

在一个实施例中，其特征在于，上述判别器是(i)包括至少一个卷积层和至少一个FC层(Fully Connected Layer)或(ii)包括全卷积网络(Fully Convolutional Network)的图像分类器(Image Classifier)。

在一个实施例中，其特征在于，在上述(2)处理中，上述学习装置使第2损失层参照各个上述学习用行人分值和与此对应的GT来算出至少一个第2损失，并以将上述第2损失最小化的方式学习上述判别器的至少一个参数的至少一部分。

在一个实施例中，其特征在于，上述对抗式变换器包括：编码器，其具备对上述测试用图像补丁应用至少一次卷积运算的至少一个卷积层；及解码器，其具备对从上述编码器输出的至少一个测试用特征图应用至少一次解卷积运算的至少一个解卷积层。

在一个实施例中，其特征在于，在上述(a)步骤中，上述测试装置对至少一个上述测试用图像补丁改变尺寸(Resize)而使上述测试用图像补丁具备相同的尺寸，然后使上述对抗式变换器输出相同的尺寸的上述测试用变形图像补丁，在上述(b)步骤中，上述测试装置对上述相同的尺寸的上述测试用变形图像补丁改变尺寸来使上述测试用变形图像补丁分别成为变形之前的原来的尺寸，然后生成上述变形测试图像。

在一个实施例中，其特征在于，上述训练图像是从(i)检测位于从监视照相机获得的上述测试图像内的测试用行人来输出包括上述测试用边界框的测试用行人检测信息的上述行人检测器及(ii)存储具备与上述测试用边界框对应的真标签(True Label)的上述训练图像的数据库中的一个获得的。

根据本发明的又一方式，一种基于图像分析而不受环境影响的监视(RobustSurveillance)中使用的行人检测器(Pedestrian Detector)的学习装置，该装置的特征在于，其包括：至少一个存储器，其存储指令；及至少一个处理器，其执行用于执行如下处理的上述指令：(I)当获得具备与在至少一个训练图像上生成的各个学习用行人分别对应的各个边界框的上述训练图像时，在上述训练图像上修剪(Crop)与各个上述边界框分别对应的各个区域而生成至少一个图像补丁(Image Patch)，并使对抗式变换器(AdversarialStyle Transformer)将与各个上述图像补丁分别对应的各个上述学习用行人分别变换成通过上述行人检测器难以检测的各个变形行人，从而生成至少一个变形图像补丁(Transformed Image Patch)；及(II)在上述训练图像上用上述变形图像补丁来代替与各个上述边界框对应的各个上述区域而生成至少一个变形训练图像(Transformed TrainingImage)，使上述行人检测器检测位于上述变形训练图像内的上述变形行人而生成学习用行人检测信息，使第1损失层参照各个上述学习用行人检测信息和与此对应的GT来算出至少一个第1损失，以将上述第1损失最小化的方式学习上述行人检测器的至少一个参数的至少一部分。

在一个实施例中，其特征在于，在上述(II)处理中，上述处理器使判别器(Discriminator)生成各个学习用行人分值(Pedestrian Score)，并以将上述学习用行人分值及上述第1损失最大化的方式进一步学习上述对抗式变换器的至少一个参数的至少一部分，其中，该各个学习用行人分值(Pedestrian Score)表示各个上述变形图像补丁为各个上述学习用行人的各个概率。

在一个实施例中，其特征在于，在上述(II)处理中，上述处理器使第2损失层参照各个上述学习用行人分值和与此对应的GT来算出至少一个第2损失，以将上述第2损失最小化的方式学习上述判别器的至少一个参数的至少一部分。

在一个实施例中，其特征在于，在上述(I)处理中，上述处理器对至少一个上述图像补丁改变尺寸(Resize)来使上述图像补丁具备相同的尺寸，然后使上述对抗式变换器输出相同的尺寸的上述变形图像补丁，在上述(II)处理中，上述处理器对上述相同的尺寸的上述变形图像补丁改变尺寸来使上述变形图像补丁分别成为变形之前的原来的尺寸，然后生成上述变形训练图像。

根据本发明的又一方式，一种基于图像分析而不受环境影响的监视(RobustSurveillance)中使用的测试用行人检测器(Pedestrian Detector)的测试装置，该装置的特征在于，其包括：至少一个存储器，其存储指令；及至少一个处理器，其执行用于执行如下处理的上述指令：(1)学习装置在具备与至少一个训练图像上生成的各个学习用行人分别对应的各个学习用边界框的上述训练图像上修剪(Crop)与各个学习用边界框分别对应的各个学习用区域而生成至少一个学习用图像补丁(Image Patch)，使对抗式变换器(Adversarial Style Transformer)将与各个上述学习用图像补丁分别对应的各个上述学习用行人分别变换成通过上述行人检测器难以进行学习用检测的各个学习用变形行人，从而生成至少一个学习用变形图像补丁(Transformed Image Patch)，(2)上述学习装置在上述训练图像上用上述学习用变形图像补丁来代替与各个上述学习用边界框分别对应的各个上述学习用区域而生成至少一个变形训练图像(Transformed Training Image)，并使上述行人检测器检测位于上述变形训练图像内的上述学习用变形行人来生成学习用行人检测信息，并使第1损失层参照各个上述学习用行人检测信息和与此对应的GT来算出至少一个第1损失，并以将上述第1损失最小化的方式学习上述行人检测器的至少一个参数的至少一部分的状态下，(I)当获得了具备与在至少一个测试图像上生成的各个测试用行人分别对应的各个测试用边界框的上述测试图像时，在上述测试图像上修剪与各个上述测试用边界框分别对应的各个测试用区域来生成至少一个测试用图像补丁，并使上述对抗式变换器将与各个上述测试用图像补丁分别对应的各个上述测试用行人分别变换成通过上述行人检测器难以进行测试用检测的各个测试用变形行人，从而生成至少一个测试用变形图像补丁；及(II)在上述测试图像上用上述测试用变形图像补丁代替与各个上述测试用边界框分别对应的各个上述测试用区域而生成至少一个变形测试图像(Transformed Test Image)，使上述行人检测器检测位于上述变形测试图像内的上述测试用变形行人来生成测试用行人检测信息。

在一个实施例中，其特征在于，在上述(II)处理中，上述处理器使判别器(Discriminator)生成各个测试用行人分值(Pedestrian Score)，该各个测试用行人分值(Pedestrian Score)表示各个上述测试用变形图像补丁为各个上述测试用行人的各个概率。

在一个实施例中，其特征在于，在上述(I)处理中，上述处理器对至少一个上述测试用图像补丁改变尺寸(Resize)而使上述测试用图像补丁具备相同的尺寸，然后使上述对抗式变换器输出相同的尺寸的上述测试用变形图像补丁，在上述(II)处理中，上述处理器对上述相同的尺寸的上述测试用变形图像补丁改变尺寸来使上述测试用变形图像补丁分别成为变形之前的原来的尺寸，然后生成上述变形测试图像。

在一个实施例中，其特征在于，上述训练图像是从(i)检测位于从监视照相机获得的上述测试图像内的测试用行人来输出包括上述测试用边界框的测试用行人检测信息的上述行人检测器；及(ii)存储具备与上述测试用边界框对应的真标签(True Label)的上述训练图像的数据库中的一个获得的。

此外，还提供用于记录执行本发明的方法的计算机程序的计算机可读取的记录介质。

发明效果

本发明将容易进行行人检测的图像变换成难以进行行人检测的图像，由此执行对未检测事例的学习，从而在测试行人检测器时，在发生与未检测事例类似的事例的情况下，能够提高行人检测器的检测率。

另外，本发明能够生成与未检测事例对应的各种训练数据，因此能够确保关于难以检测的事例的充分的训练数据。

另外，本发明学习关于难以检测的事例的适当的训练数据，从而将发生未检测事例的概率最小化，从而无需监视中使用未检测事例的额外的人力，由此能够将监视系统的维修费用最小化。

附图说明

为了对本发明的实施例进行说明而所附的下面的附图仅为本发明的实施例中的一部分，具有本发明所属技术领域的普通知识的人(以下，称为“本领域技术人员”)在无需创作性劳动的情况下，可基于该附图而获得其他的图。

图1是概略性地示出根据本发明的一个实施例而学习基于图像分析而不受环境影响的监视(Robust Surveillance)中使用的行人检测器(Pedestrian Detector)的学习装置的图。

图2是概略性地示出根据本发明的一个实施例而基于图像分析而不受环境影响的监视中使用的行人检测器的学习方法的图。

图3是概略性地示出根据本发明的一个实施例而基于图像分析而不受环境影响的监视中使用的行人检测器的学习方法中获得至少一个训练图像的处理的图。

图4是概略性地示出根据本发明的一个实施例而基于图像分析而不受环境影响的监视中使用的行人检测器的图。

图5是概略性地示出根据本发明的一个实施例而基于图像分析而不受环境影响的监视中使用的行人检测器的学习方法中学习对抗式变换器(Adversarial StyleTransformer)的处理的图。

图6是概略性地示出根据本发明的一个实施例而基于图像分析而不受环境影响的监视中使用的行人检测器的学习方法中学习判别器(Discriminator)的处理的图。

图7是概略性地示出根据本发明的一个实施例而测试基于图像分析而不受环境影响的监视中使用的行人检测器的测试装置的图。

图8是概略性地示出根据本发明的一个实施例而利用基于图像分析而不受环境影响的监视中使用的行人检测器来检测至少一个行人的处理的图。

(符号说明)

100：学习装置、110：存储器、120：处理器、130：对抗式变换器、140：行人检测器、150：判别器、200：测试装置、210：存储器、220：处理器。

具体实施方式

在后述的对本发明的详细的说明中，为了清楚地说明本发明的目的、技术方法及优点，参照将可实施本发明的特定实施例作为示例来图示的附图。对这些实施例进行详细说明，以供本领域技术人员足以实施本发明。

另外，在本发明的详细的说明及权利要求中，“包括”这一用语及它们的变形并非表示排除其他技术特征、附加物、构成要素或步骤。对于本领域技术人员来讲，关于本发明的另一目的、优点及特性，可根据本说明书来理解其一部分，并通过实施本发明来理解另一部分。下面的例示及附图仅为示例，并非对本发明进行限定。

进而，本发明包括在本说明书中所示的实施例的所有可能的组合。虽然本发明的各种实施例彼此不同，但并非是排他性的。例如，在此记载的特定形状、结构及特性在一个实施例中在未脱离本发明的精神及范围的情况下可体现为另一个实施例。另外，关于各个公开的实施例内的个别构成要素的位置或配置，在不脱离本发明的精神及范围的情况下可进行变更。因此，后述的详细的说明并非具备限定性的意思，关于本发明的范围，确切地来讲应根据与其权利要求所主张的内容均等的所有范围及所附权利要求来限定。附图中的类似的符号在各个侧面上指相同或类似的功能。

下面，参照附图，对本发明的优选的实施例进行详细说明，以供本领域技术人员能够容易地实施本发明。

图1是概略性地示出根据本发明的一个实施例而学习基于图像分析而不受环境影响的监视(Robust Surveillance)中使用的行人检测器(Pedestrian Detector)的学习装置的图。参照图1，学习装置100包括存储用于学习行人检测器(Pedestrian Detector)的指令(Instruction)的存储器110和执行与存储于存储器110的指令对应的处理来学习行人检测器的处理器120。

具体地，典型的是，学习装置100利用至少一个计算装置(例如，包括计算机处理器、存储器、储存装置、输入装置及输出装置、其他以往的计算构成要素的装置；路由器、交换机等这样的电子通信装置；网络附属存储(NAS)及存储区域网络(SAN)这样的电子信息存储系统)和至少一个计算机软件(即，使计算装置以特定的方式执行功能的指令)的组合来达到所希望的系统性能。

计算装置的处理器包括MPU(Micro Processing Unit：微处理单元)或CPU(Central Processing Unit：中央处理单元)、高速缓存存储器(Cache Memory)、数据总线(Data Bus)等硬件结构。另外，计算装置还可包括操作系统以及执行特定目的的应用的软件结构。

计算装置的处理器并非排除包括用于实施本发明的处理器、中间装置或其他计算构成要素的任何组合的综合装置(Integrated Device)。

下面，参照图2，对利用这样构成的本发明的一个实施例的学习装置100来学习基于图像分析而不受环境影响的监视中使用的行人检测器的方法进行如下说明。

作为参考，在下面的说明中为了避免混淆，对上述说明的与学习处理相关的用语追加“学习用”，对与测试处理相关的用语追加“测试用”。

首先，当获得具备与每个学习用行人对应的各个边界框(R^-1(x))的至少一个训练图像I11时，学习装置100在训练图像I11上分别修剪(Crop)与各个边界框(R^-1(x))对应的各个区域而生成至少一个图像补丁x 12(S1)。上述I与利用于学习的至少一个训练图像对应，x与各个训练图像上的边界框(bounding box)中的任一个边界框对应。

此时，学习装置100对图像补丁x 12中的至少一个图像补丁改变尺寸(Resize)而使得图像补丁x 12具备相同的尺寸。另外，为了使图像补丁x具备相同的尺寸，学习装置100加大一部分图像补丁x的尺寸或缩小一部分图像补丁x的尺寸，对于一部分图像补丁x可以不调整尺寸。

另一方面，参照图3，学习装置100从(i)检测位于从监视照相机获得的至少一个测试图像10内的测试用行人来输出包括边界框的测试用行人检测信息的行人检测器140及(ii)存储具备与边界框对应的真标签(True Label)的训练图像的数据库(5)中的一个获得训练图像I11。

作为一例，参照图3，对从行人检测器140获得训练图像I11的方法进行说明。

当接收到从监视照相机获得的测试图像I10时，行人检测器140使至少一个卷积层141对测试图像I10应用至少一次卷积运算来输出至少一个测试用特征图。此时，卷积层141可以对测试图像I10依次应用卷积运算而输出测试用特征图。

并且，行人检测器140使至少一个RPN(Region Proposal Network)142生成被估计为在测试用特征图上包括至少一个行人的后补区域所对应的测试用候选框。

之后，行人检测器140使至少一个池化层143对在测试用特征图上与测试用候选框对应的区域应用至少一次池化运算(Pooling Operation)来生成至少一个测试用特征向量(Feature Vector)。

并且，行人检测器140使至少一个FC层(Fully Connected Layer)144对测试用特征向量应用至少一次FC运算(Fully Connected Operation)，然后使至少一个分类层(Classification Layer)145输出与各个测试用候选框对应的各个测试用行人类别信息，使至少一个回归层(Regression Layer)146生成从对各个测试用行人进行划界的各个测试用候选框取得的测试用边界框。

另一方面，行人检测器140可以是预先学习的状态。即，可以是通过利用了至少一个损失的反向传播而将FC层144及卷积层141的至少一个参数中的至少一部分调整的状态。另外，RPN 142也可以是预先学习的状态。

重新参照图2，学习装置100使对抗式变换器(Adversarial Style Transformer)G130将与图像补丁x 12分别对应的各个学习用行人变换成难以通过行人检测器140而检测的各个变形行人来分别生成至少一个变形图像补丁(Transformed Image Patch)G(x)13(S2)。

此时，对抗式变换器G130还包括：编码器，其具备对图像补丁x 12应用至少一次卷积运算的至少一个卷积层；及解码器，其具备对从编码器输出的至少一个特征图应用至少一次解卷积运算来生成变形图像补丁G(x)13的至少一个解卷积层。

另一方面，对抗式变换器G130将通过行人检测器140而检测或从训练数据库获得的训练图像I11中与容易检测的各个行人对应的各个图像补丁x 12变换成在行人检测器140中难以进行检测的、即在以往训练数据中未遇到过的具备独特的造型及/或图案的图像而生成变形图像补丁G(x)13或与周围背景对应地变换图像补丁x 12来生成变形图像补丁G(x)13。

接着，学习装置100在训练图像I11上用变形图像补丁G(x)来代替与各个边界框(R^-1(x))分别对应的各个区域而生成具备各个变形行人所在的各个区域(R^-1(G(x)))的至少一个变形训练图像14(S3)。

此时，学习装置100在上述中对至少一个图像补丁x 12改变尺寸的情况下，对与此对应的变形图像补丁G(x)改变尺寸来使各个变形图像补丁形成为未变形时的原来的尺寸，然后生成变形训练图像14。

并且，变形训练图像14可表示为如下。

接着，学习装置100使行人检测器140检测位于变形训练图像14内的变形行人(R^-1(G(x)))来生成学习用行人检测信息。

作为一例，重新参照图4，对由行人检测器140在变形训练图像14中检测变形行人的方法说明如下。

当接收到变形训练图像14时，行人检测器140使卷积层141对变形训练图像14应用卷积运算来生成至少一个学习用特征图。此时，卷积层141对变形训练图像14依次应用卷积运算来生成学习用特征图。

并且，行人检测器140使RPN 142在学习用特征图上生成与估计为包括变形行人(R^-1(G(x)))的后补区域对应的学习用候选框。

之后，行人检测器140使池化层143对在学习用特征图上与学习用候选框对应的区域应用池化运算来生成至少一个学习用特征向量。

并且，行人检测器140使FC层144对学习用特征向量应用FC运算，然后使分类层145生成与各个学习用候选框对应的各个学习用行人类别信息，使回归层146生成从对各个变形行人进行划界的各个学习用候选框取得的学习用边界框。

接着，学习装置100使第1损失层160参照学习用行人检测信息和与此对应的GT(Ground Truth)来算出至少一个第1损失，并以使第1损失最小化的方式对行人检测器140的至少一个参数的至少一部分进行学习(S4)。

此时，行人检测器(F)140的优化公式(Optimizing Formula)如以下式所示。

因此，关于行人检测器(F)140的各个加权值的更新公式(Updating Formula)如以下式所示。

另一方面，学习装置100使判别器150生成表示各个变形图像补丁G(x)13为各个学习用行人的各个概率的各个学习用行人分值(D(G(x)))，以将学习用行人分值(score)及第1损失最大化的方式进一步学习对抗式变换器130的至少一个参数的至少一部分(S5，S6)。

此时，以将第1损失最大化的方式学习对抗式变换器130的参数的至少一部分的目的如下：在对抗式变换器130将图像补丁x 12变换成变形图像补丁G(x)13的情况下，使行人检测器140逐渐难以检测变形图像补丁G(x)13。另外，以将学习用行人分值最大化的方式学习对抗式变换器130的参数的至少一部分的目的如下：即便对抗式变换器130将图像补丁x12变换成行人检测器140难以检测的变形图像补丁G(x)13，也使变形图像补丁G(x)保持与此对应的行人类别，以现实地看到变形图像补丁G(x)。

并且，参照图5，对学习对抗式变换器130的方法说明如下。

学习装置100通过用于将第1损失(L(F(I_G)))最大化的反向传播而对关于从行人检测器F140输出的变形训练图像14的微分值进行运算(S6-1)。此时，关于变形训练图像14的微分值如以下的数学式所示。

并且，学习装置100可对关于变形训练图像14内的各个变形行人(R^-1G((x)))的微分值进行运算(S6-2)。此时，关于各个变形行人(R^-1G((x)))的微分值如以下的数学式所示。

之后，学习装置100参照关于变形行人(R^-1G((x)))的微分值来运算关于变形图像补丁G(x)的微分值(S6-3)。此时，关于变形图像补丁G(x)的微分值如以下的数学式所示。

接着，学习装置100通过用于将学习用行人分值(D(G(x)))最大化的反向传播而运算关于从判别器D150输出的变形图像补丁G(x)的微分值(S5-1)。此时，关于变形图像补丁G(x)的微分值如以下的数学式所示。

并且，学习装置100通过反向传播而运算对抗式变换器G 130的至少一个梯度(Gradient)(S7)。并且，通过反向传播而将对抗式变换器G 130的梯度表示为

此时，将对抗式变换器G 130的优化公式表示为如下。

因此，为了将第1损失(L(F(I_G)))和学习用行人分值(D(G(x)))最大化，关于对抗式变换器G 130的各个加权值的更新公式，可参照用于将第1损失(L(F(I_G)))最大化的通过反向传播而得到的关于变形图像补丁G(x)的微分值即

和用于将学习用行人分值(D(G(x)))最大化的通过反向传播而得到的关于变形图像补丁G(x)的微分值即

而表示为如下公式。

重新参照图2，学习装置100使第2损失层参照学习用行人分值和与此对应的GT来算出至少一个第2损失，并以将第2损失最小化的方式进一步学习判别器150的至少一个参数的至少一部分。

此时，判别器150可以是用于判断位于变形图像补丁G(x)13内的对象是否为行人的图像分类器(Image Classifier)。并且，图像分类器可以(i)包括至少一个卷积层和FC层或(ii)包括全卷积网络(Fully Convolutional Network)，但本发明不限于此，可利用识别图像内的对象的基于深度学习的所有图像分类器。

并且，参照图6，对学习判别器150的方法说明如下。

学习装置100使判别器150生成表示各个变形图像补丁G(x)13是各个学习用行人的各个概率的学习用行人分值(D(G(x)))，并生成表示与此对应的各个图像补丁x 12表示学习用行人的概率的各个GT用行人分值(D(x))。

并且，学习装置100使第2损失层170算出第2损失。

此时，第2损失可表示为logD(x)+log(1-D(G(x)))，由此关于判别器D150的优化公式表示为如下。

因此，关于判别器D150的各个加权值的更新公式表示为如下。

即，关于本发明的学习方法简单说明如下，但不限于此。

首先，在训练图像上获得关于各个学习用行人的各个边界框(R^-1(x))。

之后，对各个R^-1(x)算出G(x)，D(x)，D(G(x))及R^-1(G(x))，生成关于变形训练图像14的I_G＝I+∑_x(R^-1(G(x))-R^-1(x))。

之后，在算出行人检测器的第1损失L(F(I_G))，然后通过整个反向传播而算出各个梯度。

并且，如下面的公式所示，更新行人检测器140、判别器150及对抗式变换器130。

(行人检测器)

(判别器)

(对抗式变换器)

图7是概略性地示出根据本发明的一个实施例而测试基于图像分析而不受环境影响的监视中使用的行人检测器的测试装置的图。参照图7，测试装置200包括存储利用学习的行人检测器而检测测试用行人的指令的存储器210和利用与存储于存储器210的指令对应的行人检测器来检测测试用行人的处理器220。

具体地，典型的是，测试装置200利用至少一个计算装置(例如，包括计算机处理器、存储器、储存装置、输入装置及输出装置、其他以往的计算装置的构成要素的装置；路由器、交换机等这样的电子通信装置；网络附属存储(NAS)及存储区域网络(SAN)这样的电子信息存储系统)和至少一个计算机软件(即，使计算装置以特定方式发挥功能的指令)的组合来达到所希望的系统性能。

另外，计算装置的处理器可包括MPU(Micro Processing Unit)或CPU(CentralProcessing Unit)、高速缓存存储器(Cache Memory)、数据总线(Data Bus)等硬件结构。另外，计算装置还可包括操作系统以及执行特定目的的应用的软件结构。

但是，计算装置的处理器并非排除包括用于实施本发明的处理器、中间装置或其他计算构成要素的任何组合的综合装置(Integrated Device)。

参照图8，对利用这样构成的本发明的一个实施例的测试装置200而检测测试用行人的方法进行说明。

如参照图2而所说明，当学习了行人检测器140的状态下从监视照相机获得至少一个测试图像10时，测试装置200使行人检测器140对测试图像10进行分析，从而对位于测试图像10内的测试用行人进行检测，并生成与测试用行人对应的测试用行人检测信息21。

此时，重新参照图4，对行人检测器140在测试图像10中检测测试用行人的方法说明如下。

当输入了从监视照相机获得的测试图像10时，行人检测器140使卷积层141对测试图像10应用卷积运算来生成测试用特征图。此时，卷积层141对测试图像10依次应用卷积运算来生成测试用特征图。

并且，行人检测器140使RPN 142在测试用特征图上生成估计为测试用行人所在的位置的后补区域所对应的测试用候选框。

之后，行人检测器140使池化层143对在测试用特征图上与测试用候选框对应的区域应用池化运算来生成至少一个测试用特征向量。

并且，行人检测器140使FC层144对测试用特征向量应用FC运算，然后使分类层145输出与各个测试用候选框对应的各个测试用行人类别信息，使回归层146生成从对各个测试用行人进行划界的各个测试用候选框生成的测试用边界框。

另一方面，学习装置可以是使行人检测器140完成如下处理的状态：(a)当获得具备与训练图像上生成的各个学习用行人对应的各个边界框的训练图像时，在训练图像上修剪(Crop)与各个边界框对应的各个区域而生成图像补丁(Image Patch)，使对抗式变换器(Adversarial Style Transformer)，将与各个图像补丁对应的各个学习用行人变换成难以通过行人检测器而检测的变形行人，从而生成变形图像补丁(Transformed ImagePatch)；及(b)在训练图像上利用变形图像补丁来代替与各个边界框对应的各个区域而生成变形训练图像(Transformed Training Image)，对位于变形训练图像内的变形行人进行检测而生成学习用行人检测信息，使第1损失层参照各个学习用行人检测信息和与此对应的GT来算出第1损失，并以将第1损失最小化的方式学习行人检测器的参数的至少一部分。

另外，学习装置可以是使判别器完成了以下处理的状态：生成表示各个变形图像补丁为各个学习用行人的各个概率的各个学习用行人分值；及以将学习用行人分值及第1损失最大化的方式进一步学习对抗式变换器的参数的至少一部分。

另外，学习装置100可以是使第2损失层完成了以下处理的状态：参照学习用行人分值和与此对应的GT来算出第2损失及以将第2损失最小化的方式学习判别器150的参数的至少一部分。

另外，生成包括通过自演化系统(Self-Evolving System)难以进行学习的例示的训练数据，从而不受对抗模式(Adversarial Pattern)的影响。

上述方法不仅用于不受环境影响的监视，而且还用于关于标签图像不足问题的解决对策、注释费用减少及军事性的目的。

另外，以上说明的本发明的实施例可体现为通过各种计算机构成要素来实现的程序命令的形态来记录到计算机可读取的记录介质。上述计算机可读取的记录介质可单独或以组合的方式包括程序命令、数据文件、数据结构等。记录到上述计算机可读取的记录介质的程序命令可以是为本发明特别设计并构成的命令或计算机软件领域的技术人员公知而使用的命令。作为计算机可读取的记录介质的例子，包括硬盘、软盘及磁带这样的磁性介质、CD-ROM、DVD这样的光记录介质、光碟(floptical disk)这样的磁光介质(magneto-optical edia)及ROM、RAM、闪存等这样的以存储程序命令且执行的方式特别构成的硬件装置。作为程序命令的例子，不仅包括由编译器制作的机器代码，而且还包括使用解释器等而通过计算机来执行的高级语言代码。上述硬件装置既可构成为一个以上的软件模块，以执行本发明的处理，也可以与其相反的方式构成。

以上，通过具体的构成要素等这样的特定事项和限定的实施例及附图而对本发明进行了说明，但这是为了整体地理解本发明而提供的，本发明不限于这样的上述实施例，本领域技术人员可从这样的记载进行各种修改及变形。

因此，本发明的思想不限于上述说明的实施例，不仅是后述的权利要求书，与该权利要求书均等或等价地变形的所有内容均包括在本发明的思想的范围中。

Claims

1.一种基于图像分析而不受环境影响的监视中使用的行人检测器的学习方法，

该方法的特征在于，包括如下步骤：

(a)当获得具备与在至少一个训练图像上生成的各个学习用行人对应的各个边界框的上述训练图像时，学习装置在上述训练图像上修剪与各个上述边界框分别对应的各个区域而生成至少一个图像补丁，并使对抗式变换器将与各个上述图像补丁分别对应的各个上述学习用行人分别变换成通过上述行人检测器难以检测的各个变形行人，从而生成至少一个变形图像补丁；及

(b)上述学习装置在上述训练图像上用上述变形图像补丁来代替与各个上述边界框对应的各个上述区域而生成至少一个变形训练图像，使上述行人检测器检测位于上述变形训练图像内的上述变形行人而生成学习用行人检测信息，使第1损失层参照各个上述学习用行人检测信息和与此对应的GT来算出至少一个第1损失，以将上述第1损失最小化的方式学习上述行人检测器的至少一个参数的至少一部分。

2.根据权利要求1所述的方法，其特征在于，

在上述(b)步骤中，

上述学习装置使判别器生成各个学习用行人分值，并以将上述学习用行人分值及上述第1损失最大化的方式进一步学习上述对抗式变换器的至少一个参数的至少一部分，其中，该各个学习用行人分值表示各个上述变形图像补丁为各个上述学习用行人的各个概率。

3.根据权利要求2所述的方法，其特征在于，

上述判别器为(i)包括至少一个卷积层和至少一个FC层或(ii)包括全卷积网络的图像分类器。

4.根据权利要求1所述的方法，其特征在于，

在上述(b)步骤中，

5.根据权利要求1所述的方法，其特征在于，

上述对抗式变换器包括：编码器，其具备对上述图像补丁应用至少一次卷积运算的至少一个卷积层；及解码器，其具备对从上述编码器输出的至少一个特征图应用至少一次解卷积运算的至少一个解卷积层。

6.根据权利要求1所述的方法，其特征在于，

在上述(a)步骤中，

上述学习装置对至少一个上述图像补丁改变尺寸来使上述图像补丁具备相同的尺寸，然后使上述对抗式变换器输出相同的尺寸的上述变形图像补丁，

在上述(b)步骤中，

上述学习装置对上述相同的尺寸的上述变形图像补丁改变尺寸来使上述变形图像补丁分别成为变形之前的原来的尺寸，然后生成上述变形训练图像。

7.根据权利要求1所述的方法，其特征在于，

上述训练图像是从(i)检测位于从监视照相机获得的至少一个测试图像内的测试用行人来输出包括上述边界框的测试用行人检测信息的上述行人检测器及(ii)存储具备与上述边界框对应的真标签的上述训练图像的数据库中的一个获得的。

8.一种基于图像分析而不受环境影响的监视中使用的测试用行人检测器的测试方法，

该方法的特征在于，包括如下步骤：

(a)(1)学习装置在具备与至少一个训练图像上生成的各个学习用行人分别对应的各个学习用边界框的上述训练图像上修剪与各个学习用边界框分别对应的各个学习用区域而生成至少一个学习用图像补丁，使对抗式变换器将与各个上述学习用图像补丁分别对应的各个上述学习用行人分别变换成通过上述行人检测器难以进行学习用检测的各个学习用变形行人，从而生成至少一个学习用变形图像补丁，(2)上述学习装置在上述训练图像上用上述学习用变形图像补丁来代替与各个上述学习用边界框分别对应的各个上述学习用区域而生成至少一个变形训练图像，并使上述行人检测器检测位于上述变形训练图像内的上述学习用变形行人来生成学习用行人检测信息，并使第1损失层参照各个上述学习用行人检测信息和与此对应的GT来算出至少一个第1损失，并以将上述第1损失最小化的方式学习上述行人检测器的至少一个参数的至少一部分的状态下，当获得了具备与在至少一个测试图像上生成的各个测试用行人分别对应的各个测试用边界框的上述测试图像时，测试装置在上述测试图像上修剪与各个上述测试用边界框分别对应的各个测试用区域来生成至少一个测试用图像补丁，并使上述对抗式变换器将与各个上述测试用图像补丁分别对应的各个上述测试用行人分别变换成通过上述行人检测器难以进行测试用检测的各个测试用变形行人，从而生成至少一个测试用变形图像补丁；及

(b)上述测试装置在上述测试图像上用上述测试用变形图像补丁代替与各个上述测试用边界框分别对应的各个上述测试用区域而生成至少一个变形测试图像，使上述行人检测器检测位于上述变形测试图像内的上述测试用变形行人来生成测试用行人检测信息。

9.根据权利要求8所述的方法，其特征在于，

在上述(b)步骤中，

上述测试装置使判别器生成各个测试用行人分值，该各个测试用行人分值表示各个上述测试用变形图像补丁为各个上述测试用行人的各个概率。

10.根据权利要求9所述的方法，其特征在于，

上述判别器是(i)包括至少一个卷积层和至少一个FC层或(ii)包括全卷积网络的图像分类器。

11.根据权利要求8所述的方法，其特征在于，

在上述(2)处理中，

上述学习装置使第2损失层参照各个上述学习用行人分值和与此对应的GT来算出至少一个第2损失，并以将上述第2损失最小化的方式学习上述判别器的至少一个参数的至少一部分。

12.根据权利要求8所述的方法，其特征在于，

上述对抗式变换器包括：编码器，其具备对上述测试用图像补丁应用至少一次卷积运算的至少一个卷积层；及解码器，其具备对从上述编码器输出的至少一个测试用特征图应用至少一次解卷积运算的至少一个解卷积层。

13.根据权利要求8所述的方法，其特征在于，

在上述(a)步骤中，

上述测试装置对至少一个上述测试用图像补丁改变尺寸而使上述测试用图像补丁具备相同的尺寸，然后使上述对抗式变换器输出相同的尺寸的上述测试用变形图像补丁，

在上述(b)步骤中，

上述测试装置对上述相同的尺寸的上述测试用变形图像补丁改变尺寸来使上述测试用变形图像补丁分别成为变形之前的原来的尺寸，然后生成上述变形测试图像。

14.根据权利要求8所述的方法，其特征在于，

上述训练图像是从(i)检测位于从监视照相机获得的上述测试图像内的测试用行人来输出包括上述测试用边界框的测试用行人检测信息的上述行人检测器及(ii)存储具备与上述测试用边界框对应的真标签的上述训练图像的数据库中的一个获得的。

15.一种基于图像分析而不受环境影响的监视中使用的行人检测器的学习装置，

该装置的特征在于，其包括：

至少一个存储器，其存储指令；及

至少一个处理器，其执行用于执行如下处理的上述指令：(I)当获得具备与在至少一个训练图像上生成的各个学习用行人分别对应的各个边界框的上述训练图像时，在上述训练图像上修剪与各个上述边界框分别对应的各个区域而生成至少一个图像补丁，并使对抗式变换器将与各个上述图像补丁分别对应的各个上述学习用行人分别变换成通过上述行人检测器难以检测的各个变形行人，从而生成至少一个变形图像补丁；及(II)在上述训练图像上用上述变形图像补丁来代替与各个上述边界框对应的各个上述区域而生成至少一个变形训练图像，使上述行人检测器检测位于上述变形训练图像内的上述变形行人而生成学习用行人检测信息，使第1损失层参照各个上述学习用行人检测信息和与此对应的GT来算出至少一个第1损失，以将上述第1损失最小化的方式学习上述行人检测器的至少一个参数的至少一部分。

16.根据权利要求15所述的装置，其特征在于，

在上述(II)处理中，

上述处理器使判别器生成各个学习用行人分值，并以将上述学习用行人分值及上述第1损失最大化的方式进一步学习上述对抗式变换器的至少一个参数的至少一部分，其中，该各个学习用行人分值表示各个上述变形图像补丁为各个上述学习用行人的各个概率。

17.根据权利要求16所述的装置，其特征在于，

18.根据权利要求15所述的装置，其特征在于，

在上述(II)处理中，

上述处理器使第2损失层参照各个上述学习用行人分值和与此对应的GT来算出至少一个第2损失，以将上述第2损失最小化的方式学习上述判别器的至少一个参数的至少一部分。

19.根据权利要求15所述的装置，其特征在于，

20.根据权利要求15所述的装置，其特征在于，

在上述(I)处理中，

上述处理器对至少一个上述图像补丁改变尺寸来使上述图像补丁具备相同的尺寸，然后使上述对抗式变换器输出相同的尺寸的上述变形图像补丁，

在上述(II)处理中，

上述处理器对上述相同的尺寸的上述变形图像补丁改变尺寸来使上述变形图像补丁分别成为变形之前的原来的尺寸，然后生成上述变形训练图像。

21.根据权利要求15所述的装置，其特征在于，

22.一种基于图像分析而不受环境影响的监视中使用的测试用行人检测器的测试装置，

该装置的特征在于，其包括：

至少一个存储器，其存储指令；及

至少一个处理器，其执行用于执行如下处理的上述指令：(1)学习装置在具备与至少一个训练图像上生成的各个学习用行人分别对应的各个学习用边界框的上述训练图像上修剪与各个学习用边界框分别对应的各个学习用区域而生成至少一个学习用图像补丁，使对抗式变换器将与各个上述学习用图像补丁分别对应的各个上述学习用行人分别变换成通过上述行人检测器难以进行学习用检测的各个学习用变形行人，从而生成至少一个学习用变形图像补丁，(2)上述学习装置在上述训练图像上用上述学习用变形图像补丁来代替与各个上述学习用边界框分别对应的各个上述学习用区域而生成至少一个变形训练图像，并使上述行人检测器检测位于上述变形训练图像内的上述学习用变形行人来生成学习用行人检测信息，并使第1损失层参照各个上述学习用行人检测信息和与此对应的GT来算出至少一个第1损失，并以将上述第1损失最小化的方式学习上述行人检测器的至少一个参数的至少一部分的状态下，(I)当获得了具备与在至少一个测试图像上生成的各个测试用行人分别对应的各个测试用边界框的上述测试图像时，在上述测试图像上修剪与各个上述测试用边界框分别对应的各个测试用区域来生成至少一个测试用图像补丁，并使上述对抗式变换器将与各个上述测试用图像补丁分别对应的各个上述测试用行人分别变换成通过上述行人检测器难以进行测试用检测的各个测试用变形行人，从而生成至少一个测试用变形图像补丁；及(II)在上述测试图像上用上述测试用变形图像补丁代替与各个上述测试用边界框分别对应的各个上述测试用区域而生成至少一个变形测试图像，使上述行人检测器检测位于上述变形测试图像内的上述测试用变形行人来生成测试用行人检测信息。

23.根据权利要求22所述的装置，其特征在于，

在上述(II)处理中，

上述处理器使判别器生成各个测试用行人分值，该各个测试用行人分值表示各个上述测试用变形图像补丁为各个上述测试用行人的各个概率。

24.根据权利要求23所述的装置，其特征在于，

25.根据权利要求22所述的装置，其特征在于，

在上述(2)处理中，

26.根据权利要求22所述的装置，其特征在于，

27.根据权利要求22所述的装置，其特征在于，

在上述(I)处理中，

上述处理器对至少一个上述测试用图像补丁改变尺寸而使上述测试用图像补丁具备相同的尺寸，然后使上述对抗式变换器输出相同的尺寸的上述测试用变形图像补丁，

在上述(II)处理中，

上述处理器对上述相同的尺寸的上述测试用变形图像补丁改变尺寸来使上述测试用变形图像补丁分别成为变形之前的原来的尺寸，然后生成上述变形测试图像。

28.根据权利要求22所述的装置，其特征在于，

上述训练图像是从(i)检测位于从监视照相机获得的上述测试图像内的测试用行人来输出包括上述测试用边界框的测试用行人检测信息的上述行人检测器；及(ii)存储具备与上述测试用边界框对应的真标签的上述训练图像的数据库中的一个获得的。