CN111488789A - 用于基于图像分析的监视的行人检测方法及装置 - Google Patents

用于基于图像分析的监视的行人检测方法及装置 Download PDF

Info

Publication number
CN111488789A
CN111488789A CN202010016997.5A CN202010016997A CN111488789A CN 111488789 A CN111488789 A CN 111488789A CN 202010016997 A CN202010016997 A CN 202010016997A CN 111488789 A CN111488789 A CN 111488789A
Authority
CN
China
Prior art keywords
test
pedestrian
image
learning
deformed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010016997.5A
Other languages
English (en)
Other versions
CN111488789B (zh
Inventor
金桂贤
金镕重
金寅洙
金鹤京
南云铉
夫硕焄
成明哲
吕东勋
柳宇宙
张泰雄
郑景中
诸泓模
赵浩辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Stradvision Inc
Original Assignee
Stradvision Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Stradvision Inc filed Critical Stradvision Inc
Publication of CN111488789A publication Critical patent/CN111488789A/zh
Application granted granted Critical
Publication of CN111488789B publication Critical patent/CN111488789B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • G06V40/25Recognition of walking or running movements, e.g. gait recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/12Bounding box

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及用于基于图像分析的监视的行人检测方法及装置,具体涉及基于图像分析而不受环境影响的监视中使用或军事目的的测试用行人检测器的学习方法,本发明作为对被标签的图像不足问题的解决对策而提供,并且用于减少注释费用,本发明可利用GAN来执行,特征在于,包括如下步骤:将训练图像上的各个区域修剪来生成图像补丁,使对抗式变换器将各个行人变换成难以进行检测的变形行人,从而生成变形图像补丁;及用变形图像补丁来代替各个区域而生成变形训练图像,并使上述行人检测器检测变形行人,以使损失最小化的方式学习行人检测器的参数,并通过生成包括基于自演化系统进行的本学习难以进行的例示的训练数据,从而不受对抗模式的影响。

Description

用于基于图像分析的监视的行人检测方法及装置
技术领域
本发明涉及与自动驾驶车辆一起使用的学习方法及学习装置、测试方法及测试装置,更具体地,基于利用GAN的图像分析而不受环境影响的监视(Robust Surveillance)中使用的行人检测器(Pedestrian Detector)的学习方法及学习装置、利用该学习方法及学习装置的测试方法及测试装置。
背景技术
机器学习(Machine Learning)中卷积神经网络(Convolutional NeuralNetwork;CNN或ConvNet)是成功地应用于视觉图像分析的深度前馈人工神经网络(Deep,Feed-Forward Artificial Neural Network)的一个类别(Class)。
这样的基于CNN的对象检测器(i)使至少一个卷积层对输入图像应用卷积运算来生成与输入图像对应的特征图,(ii)使RPN(Region Proposal Network:区域生成网络)利用特征图生成与输入图像内的对象对应的候选边框(Proposal),然后(iii)使池化层(Pooling Layer)对与候选边框对应的特征图上的区域应用池化运算来生成至少一个池化特征图,(iv)使FC层(Fully Connected Layer:全连接层)对获得的池化特征图应用至少一次FC运算(Fully Connected Operation:全连接操作)来输出关于对象的类别信息(ClassInformation)和回归信息(Regression Information),由此检测输入图像上的对象。
近年来,研发了利用这样的对象检测器的监视系统。以往的监视系统利用以在从监视照相机输入的图像中检测作为对象的行人的方式特化的行人检测器(PedestrianDetector),参照发型、衣服的纹理图案及形态等而检测行人。
但是,以往的行人检测器存在如下的问题:在存在训练数据中未遇到过的独特造型及/或图案的行人、在暗黑的道路中身穿黑色衣服的行人这样的与周围背景类似的行人等的事例的情况下无法准确地检测行人。在行人知道这样的缺陷而故意要隐藏或掩盖自己的存在的情况下,在监视系统中发生严重的问题。
因此,在以往的行人检测器在行人检测中失败的情况下,追加关于监视人力失败的事例的训练数据,从而在提高训练数据的范围之后需要周期性地对行人检测器进行再教育。
但是,存在如下缺点:不可能通过将行人检测器周期性地再教育来预防检测失败的事例,每当发生在检测中失败的事例时,需要进行对此进行补充的再教育,还需要监视中使用是否未检测的额外的人力。
另外,也难以确保用于对检测失败事例进行再教育的适当的训练数据。
发明内容
发明要解决的课题
本发明的目的在于解决上述所有问题。
本发明的另一目的在于扩大训练数据的范围。
本发明的又一目的在于减少监视中使用未检测事例的额外的人力。
本发明的又一目的在于通过对未检测事例的适当的训练来改善监视系统的性能。
用于解决课题的手段
用于达到如上述的本发明的目的并实现后述的本发明的特征性效果的本发明的特征性结构如下。
根据本发明的一个实施例,一种基于图像分析而不受环境影响的监视(RobustSurveillance)中使用的行人检测器(Pedestrian Detector)的学习方法,该方法的特征在于,包括如下步骤:(a)当获得具备与在至少一个训练图像上生成的各个学习用行人对应的各个边界框的上述训练图像时,学习装置在上述训练图像上修剪(Crop)与各个上述边界框分别对应的各个区域而生成至少一个图像补丁(Image Patch),并使对抗式变换器(Adversarial Style Transformer)将与各个上述图像补丁分别对应的各个上述学习用行人分别变换成通过上述行人检测器难以检测的各个变形行人,从而生成至少一个变形图像补丁(Transformed Image Patch);及(b)上述学习装置在上述训练图像上用上述变形图像补丁来代替与各个上述边界框对应的各个上述区域而生成至少一个变形训练图像(Transformed Training Image),使上述行人检测器检测位于上述变形训练图像内的上述变形行人而生成学习用行人检测信息,使第1损失层参照各个上述学习用行人检测信息和与此对应的GT来算出至少一个第1损失,以将上述第1损失最小化的方式学习上述行人检测器的至少一个参数的至少一部分。
在一个实施例中,其特征在于,在上述(b)步骤中,上述学习装置使判别器(Discriminator)生成各个学习用行人分值(Pedestrian Score),并以将上述学习用行人分值及上述第1损失最大化的方式进一步学习上述对抗式变换器的至少一个参数的至少一部分,其中,该各个学习用行人分值(Pedestrian Score)表示各个上述变形图像补丁为各个上述学习用行人的各个概率。
在一个实施例中,其特征在于,上述判别器为(i)包括至少一个卷积层和至少一个FC层(Fully Connected Layer)或(ii)包括全卷积网络(Fully Convolutional Network)的图像分类器(Image Classifier)。
在一个实施例中,其特征在于,在上述(b)步骤中,
上述学习装置使第2损失层参照各个上述学习用行人分值和与此对应的GT来算出至少一个第2损失,以将上述第2损失最小化的方式学习上述判别器的至少一个参数的至少一部分。
在一个实施例中,其特征在于,上述对抗式变换器包括:编码器,其具备对上述图像补丁应用至少一次卷积运算的至少一个卷积层;及解码器,其具备对从上述编码器输出的至少一个特征图应用至少一次解卷积运算的至少一个解卷积层。
在一个实施例中,其特征在于,在上述(a)步骤中,上述学习装置对至少一个上述图像补丁改变尺寸(Resize)来使上述图像补丁具备相同的尺寸,然后使上述对抗式变换器输出相同的尺寸的上述变形图像补丁,在上述(b)步骤中,上述学习装置对上述相同的尺寸的上述变形图像补丁改变尺寸来使上述变形图像补丁分别成为变形之前的原来的尺寸,然后生成上述变形训练图像。
在一个实施例中,其特征在于,上述训练图像是从(i)检测位于从监视照相机获得的至少一个测试图像内的测试用行人来输出包括上述边界框的测试用行人检测信息的上述行人检测器及(ii)存储具备与上述边界框对应的真标签(True Label)的上述训练图像的数据库中的一个获得的。
根据本发明的另一方式,一种基于图像分析而不受环境影响的监视(RobustSurveillance)中使用的测试用行人检测器(Pedestrian Detector)的测试方法,该方法的特征在于,包括如下步骤:(a)(1)学习装置在具备与至少一个训练图像上生成的各个学习用行人分别对应的各个学习用边界框的上述训练图像上修剪(Crop)与各个学习用边界框分别对应的各个学习用区域而生成至少一个学习用图像补丁(Image Patch),使对抗式变换器(Adversarial Style Transformer)将与各个上述学习用图像补丁分别对应的各个上述学习用行人分别变换成通过上述行人检测器难以进行学习用检测的各个学习用变形行人,从而生成至少一个学习用变形图像补丁(Transformed Image Patch),(2)上述学习装置在上述训练图像上用上述学习用变形图像补丁来代替与各个上述学习用边界框分别对应的各个上述学习用区域而生成至少一个变形训练图像(Transformed Training Image),并使上述行人检测器检测位于上述变形训练图像内的上述学习用变形行人来生成学习用行人检测信息,并使第1损失层参照各个上述学习用行人检测信息和与此对应的GT来算出至少一个第1损失,并以将上述第1损失最小化的方式学习上述行人检测器的至少一个参数的至少一部分的状态下,当获得了具备与在至少一个测试图像上生成的各个测试用行人分别对应的各个测试用边界框的上述测试图像时,测试装置在上述测试图像上修剪与各个上述测试用边界框分别对应的各个测试用区域来生成至少一个测试用图像补丁,并使上述对抗式变换器将与各个上述测试用图像补丁分别对应的各个上述测试用行人分别变换成通过上述行人检测器难以进行测试用检测的各个测试用变形行人,从而生成至少一个测试用变形图像补丁;及(b)上述测试装置在上述测试图像上用上述测试用变形图像补丁代替与各个上述测试用边界框分别对应的各个上述测试用区域而生成至少一个变形测试图像(Transformed Test Image),使上述行人检测器检测位于上述变形测试图像内的上述测试用变形行人来生成测试用行人检测信息。
在一个实施例中,其特征在于,在上述(b)步骤中,上述测试装置使判别器(Discriminator)生成各个测试用行人分值(Pedestrian Score),该各个测试用行人分值(Pedestrian Score)表示各个上述测试用变形图像补丁为各个上述测试用行人的各个概率。
在一个实施例中,其特征在于,上述判别器是(i)包括至少一个卷积层和至少一个FC层(Fully Connected Layer)或(ii)包括全卷积网络(Fully Convolutional Network)的图像分类器(Image Classifier)。
在一个实施例中,其特征在于,在上述(2)处理中,上述学习装置使第2损失层参照各个上述学习用行人分值和与此对应的GT来算出至少一个第2损失,并以将上述第2损失最小化的方式学习上述判别器的至少一个参数的至少一部分。
在一个实施例中,其特征在于,上述对抗式变换器包括:编码器,其具备对上述测试用图像补丁应用至少一次卷积运算的至少一个卷积层;及解码器,其具备对从上述编码器输出的至少一个测试用特征图应用至少一次解卷积运算的至少一个解卷积层。
在一个实施例中,其特征在于,在上述(a)步骤中,上述测试装置对至少一个上述测试用图像补丁改变尺寸(Resize)而使上述测试用图像补丁具备相同的尺寸,然后使上述对抗式变换器输出相同的尺寸的上述测试用变形图像补丁,在上述(b)步骤中,上述测试装置对上述相同的尺寸的上述测试用变形图像补丁改变尺寸来使上述测试用变形图像补丁分别成为变形之前的原来的尺寸,然后生成上述变形测试图像。
在一个实施例中,其特征在于,上述训练图像是从(i)检测位于从监视照相机获得的上述测试图像内的测试用行人来输出包括上述测试用边界框的测试用行人检测信息的上述行人检测器及(ii)存储具备与上述测试用边界框对应的真标签(True Label)的上述训练图像的数据库中的一个获得的。
根据本发明的又一方式,一种基于图像分析而不受环境影响的监视(RobustSurveillance)中使用的行人检测器(Pedestrian Detector)的学习装置,该装置的特征在于,其包括:至少一个存储器,其存储指令;及至少一个处理器,其执行用于执行如下处理的上述指令:(I)当获得具备与在至少一个训练图像上生成的各个学习用行人分别对应的各个边界框的上述训练图像时,在上述训练图像上修剪(Crop)与各个上述边界框分别对应的各个区域而生成至少一个图像补丁(Image Patch),并使对抗式变换器(AdversarialStyle Transformer)将与各个上述图像补丁分别对应的各个上述学习用行人分别变换成通过上述行人检测器难以检测的各个变形行人,从而生成至少一个变形图像补丁(Transformed Image Patch);及(II)在上述训练图像上用上述变形图像补丁来代替与各个上述边界框对应的各个上述区域而生成至少一个变形训练图像(Transformed TrainingImage),使上述行人检测器检测位于上述变形训练图像内的上述变形行人而生成学习用行人检测信息,使第1损失层参照各个上述学习用行人检测信息和与此对应的GT来算出至少一个第1损失,以将上述第1损失最小化的方式学习上述行人检测器的至少一个参数的至少一部分。
在一个实施例中,其特征在于,在上述(II)处理中,上述处理器使判别器(Discriminator)生成各个学习用行人分值(Pedestrian Score),并以将上述学习用行人分值及上述第1损失最大化的方式进一步学习上述对抗式变换器的至少一个参数的至少一部分,其中,该各个学习用行人分值(Pedestrian Score)表示各个上述变形图像补丁为各个上述学习用行人的各个概率。
在一个实施例中,其特征在于,上述判别器为(i)包括至少一个卷积层和至少一个FC层(Fully Connected Layer)或(ii)包括全卷积网络(Fully Convolutional Network)的图像分类器(Image Classifier)。
在一个实施例中,其特征在于,在上述(II)处理中,上述处理器使第2损失层参照各个上述学习用行人分值和与此对应的GT来算出至少一个第2损失,以将上述第2损失最小化的方式学习上述判别器的至少一个参数的至少一部分。
在一个实施例中,其特征在于,上述对抗式变换器包括:编码器,其具备对上述图像补丁应用至少一次卷积运算的至少一个卷积层;及解码器,其具备对从上述编码器输出的至少一个特征图应用至少一次解卷积运算的至少一个解卷积层。
在一个实施例中,其特征在于,在上述(I)处理中,上述处理器对至少一个上述图像补丁改变尺寸(Resize)来使上述图像补丁具备相同的尺寸,然后使上述对抗式变换器输出相同的尺寸的上述变形图像补丁,在上述(II)处理中,上述处理器对上述相同的尺寸的上述变形图像补丁改变尺寸来使上述变形图像补丁分别成为变形之前的原来的尺寸,然后生成上述变形训练图像。
在一个实施例中,其特征在于,上述训练图像是从(i)检测位于从监视照相机获得的至少一个测试图像内的测试用行人来输出包括上述边界框的测试用行人检测信息的上述行人检测器及(ii)存储具备与上述边界框对应的真标签(True Label)的上述训练图像的数据库中的一个获得的。
根据本发明的又一方式,一种基于图像分析而不受环境影响的监视(RobustSurveillance)中使用的测试用行人检测器(Pedestrian Detector)的测试装置,该装置的特征在于,其包括:至少一个存储器,其存储指令;及至少一个处理器,其执行用于执行如下处理的上述指令:(1)学习装置在具备与至少一个训练图像上生成的各个学习用行人分别对应的各个学习用边界框的上述训练图像上修剪(Crop)与各个学习用边界框分别对应的各个学习用区域而生成至少一个学习用图像补丁(Image Patch),使对抗式变换器(Adversarial Style Transformer)将与各个上述学习用图像补丁分别对应的各个上述学习用行人分别变换成通过上述行人检测器难以进行学习用检测的各个学习用变形行人,从而生成至少一个学习用变形图像补丁(Transformed Image Patch),(2)上述学习装置在上述训练图像上用上述学习用变形图像补丁来代替与各个上述学习用边界框分别对应的各个上述学习用区域而生成至少一个变形训练图像(Transformed Training Image),并使上述行人检测器检测位于上述变形训练图像内的上述学习用变形行人来生成学习用行人检测信息,并使第1损失层参照各个上述学习用行人检测信息和与此对应的GT来算出至少一个第1损失,并以将上述第1损失最小化的方式学习上述行人检测器的至少一个参数的至少一部分的状态下,(I)当获得了具备与在至少一个测试图像上生成的各个测试用行人分别对应的各个测试用边界框的上述测试图像时,在上述测试图像上修剪与各个上述测试用边界框分别对应的各个测试用区域来生成至少一个测试用图像补丁,并使上述对抗式变换器将与各个上述测试用图像补丁分别对应的各个上述测试用行人分别变换成通过上述行人检测器难以进行测试用检测的各个测试用变形行人,从而生成至少一个测试用变形图像补丁;及(II)在上述测试图像上用上述测试用变形图像补丁代替与各个上述测试用边界框分别对应的各个上述测试用区域而生成至少一个变形测试图像(Transformed Test Image),使上述行人检测器检测位于上述变形测试图像内的上述测试用变形行人来生成测试用行人检测信息。
在一个实施例中,其特征在于,在上述(II)处理中,上述处理器使判别器(Discriminator)生成各个测试用行人分值(Pedestrian Score),该各个测试用行人分值(Pedestrian Score)表示各个上述测试用变形图像补丁为各个上述测试用行人的各个概率。
在一个实施例中,其特征在于,上述判别器是(i)包括至少一个卷积层和至少一个FC层(Fully Connected Layer)或(ii)包括全卷积网络(Fully Convolutional Network)的图像分类器(Image Classifier)。
在一个实施例中,其特征在于,在上述(2)处理中,上述学习装置使第2损失层参照各个上述学习用行人分值和与此对应的GT来算出至少一个第2损失,并以将上述第2损失最小化的方式学习上述判别器的至少一个参数的至少一部分。
在一个实施例中,其特征在于,上述对抗式变换器包括:编码器,其具备对上述测试用图像补丁应用至少一次卷积运算的至少一个卷积层;及解码器,其具备对从上述编码器输出的至少一个测试用特征图应用至少一次解卷积运算的至少一个解卷积层。
在一个实施例中,其特征在于,在上述(I)处理中,上述处理器对至少一个上述测试用图像补丁改变尺寸(Resize)而使上述测试用图像补丁具备相同的尺寸,然后使上述对抗式变换器输出相同的尺寸的上述测试用变形图像补丁,在上述(II)处理中,上述处理器对上述相同的尺寸的上述测试用变形图像补丁改变尺寸来使上述测试用变形图像补丁分别成为变形之前的原来的尺寸,然后生成上述变形测试图像。
在一个实施例中,其特征在于,上述训练图像是从(i)检测位于从监视照相机获得的上述测试图像内的测试用行人来输出包括上述测试用边界框的测试用行人检测信息的上述行人检测器;及(ii)存储具备与上述测试用边界框对应的真标签(True Label)的上述训练图像的数据库中的一个获得的。
此外,还提供用于记录执行本发明的方法的计算机程序的计算机可读取的记录介质。
发明效果
本发明将容易进行行人检测的图像变换成难以进行行人检测的图像,由此执行对未检测事例的学习,从而在测试行人检测器时,在发生与未检测事例类似的事例的情况下,能够提高行人检测器的检测率。
另外,本发明能够生成与未检测事例对应的各种训练数据,因此能够确保关于难以检测的事例的充分的训练数据。
另外,本发明学习关于难以检测的事例的适当的训练数据,从而将发生未检测事例的概率最小化,从而无需监视中使用未检测事例的额外的人力,由此能够将监视系统的维修费用最小化。
附图说明
为了对本发明的实施例进行说明而所附的下面的附图仅为本发明的实施例中的一部分,具有本发明所属技术领域的普通知识的人(以下,称为“本领域技术人员”)在无需创作性劳动的情况下,可基于该附图而获得其他的图。
图1是概略性地示出根据本发明的一个实施例而学习基于图像分析而不受环境影响的监视(Robust Surveillance)中使用的行人检测器(Pedestrian Detector)的学习装置的图。
图2是概略性地示出根据本发明的一个实施例而基于图像分析而不受环境影响的监视中使用的行人检测器的学习方法的图。
图3是概略性地示出根据本发明的一个实施例而基于图像分析而不受环境影响的监视中使用的行人检测器的学习方法中获得至少一个训练图像的处理的图。
图4是概略性地示出根据本发明的一个实施例而基于图像分析而不受环境影响的监视中使用的行人检测器的图。
图5是概略性地示出根据本发明的一个实施例而基于图像分析而不受环境影响的监视中使用的行人检测器的学习方法中学习对抗式变换器(Adversarial StyleTransformer)的处理的图。
图6是概略性地示出根据本发明的一个实施例而基于图像分析而不受环境影响的监视中使用的行人检测器的学习方法中学习判别器(Discriminator)的处理的图。
图7是概略性地示出根据本发明的一个实施例而测试基于图像分析而不受环境影响的监视中使用的行人检测器的测试装置的图。
图8是概略性地示出根据本发明的一个实施例而利用基于图像分析而不受环境影响的监视中使用的行人检测器来检测至少一个行人的处理的图。
(符号说明)
100:学习装置、110:存储器、120:处理器、130:对抗式变换器、140:行人检测器、150:判别器、200:测试装置、210:存储器、220:处理器。
具体实施方式
在后述的对本发明的详细的说明中,为了清楚地说明本发明的目的、技术方法及优点,参照将可实施本发明的特定实施例作为示例来图示的附图。对这些实施例进行详细说明,以供本领域技术人员足以实施本发明。
另外,在本发明的详细的说明及权利要求中,“包括”这一用语及它们的变形并非表示排除其他技术特征、附加物、构成要素或步骤。对于本领域技术人员来讲,关于本发明的另一目的、优点及特性,可根据本说明书来理解其一部分,并通过实施本发明来理解另一部分。下面的例示及附图仅为示例,并非对本发明进行限定。
进而,本发明包括在本说明书中所示的实施例的所有可能的组合。虽然本发明的各种实施例彼此不同,但并非是排他性的。例如,在此记载的特定形状、结构及特性在一个实施例中在未脱离本发明的精神及范围的情况下可体现为另一个实施例。另外,关于各个公开的实施例内的个别构成要素的位置或配置,在不脱离本发明的精神及范围的情况下可进行变更。因此,后述的详细的说明并非具备限定性的意思,关于本发明的范围,确切地来讲应根据与其权利要求所主张的内容均等的所有范围及所附权利要求来限定。附图中的类似的符号在各个侧面上指相同或类似的功能。
下面,参照附图,对本发明的优选的实施例进行详细说明,以供本领域技术人员能够容易地实施本发明。
图1是概略性地示出根据本发明的一个实施例而学习基于图像分析而不受环境影响的监视(Robust Surveillance)中使用的行人检测器(Pedestrian Detector)的学习装置的图。参照图1,学习装置100包括存储用于学习行人检测器(Pedestrian Detector)的指令(Instruction)的存储器110和执行与存储于存储器110的指令对应的处理来学习行人检测器的处理器120。
具体地,典型的是,学习装置100利用至少一个计算装置(例如,包括计算机处理器、存储器、储存装置、输入装置及输出装置、其他以往的计算构成要素的装置;路由器、交换机等这样的电子通信装置;网络附属存储(NAS)及存储区域网络(SAN)这样的电子信息存储系统)和至少一个计算机软件(即,使计算装置以特定的方式执行功能的指令)的组合来达到所希望的系统性能。
计算装置的处理器包括MPU(Micro Processing Unit:微处理单元)或CPU(Central Processing Unit:中央处理单元)、高速缓存存储器(Cache Memory)、数据总线(Data Bus)等硬件结构。另外,计算装置还可包括操作系统以及执行特定目的的应用的软件结构。
计算装置的处理器并非排除包括用于实施本发明的处理器、中间装置或其他计算构成要素的任何组合的综合装置(Integrated Device)。
下面,参照图2,对利用这样构成的本发明的一个实施例的学习装置100来学习基于图像分析而不受环境影响的监视中使用的行人检测器的方法进行如下说明。
作为参考,在下面的说明中为了避免混淆,对上述说明的与学习处理相关的用语追加“学习用”,对与测试处理相关的用语追加“测试用”。
首先,当获得具备与每个学习用行人对应的各个边界框(R-1(x))的至少一个训练图像I11时,学习装置100在训练图像I11上分别修剪(Crop)与各个边界框(R-1(x))对应的各个区域而生成至少一个图像补丁x 12(S1)。上述I与利用于学习的至少一个训练图像对应,x与各个训练图像上的边界框(bounding box)中的任一个边界框对应。
此时,学习装置100对图像补丁x 12中的至少一个图像补丁改变尺寸(Resize)而使得图像补丁x 12具备相同的尺寸。另外,为了使图像补丁x具备相同的尺寸,学习装置100加大一部分图像补丁x的尺寸或缩小一部分图像补丁x的尺寸,对于一部分图像补丁x可以不调整尺寸。
另一方面,参照图3,学习装置100从(i)检测位于从监视照相机获得的至少一个测试图像10内的测试用行人来输出包括边界框的测试用行人检测信息的行人检测器140及(ii)存储具备与边界框对应的真标签(True Label)的训练图像的数据库(5)中的一个获得训练图像I11。
作为一例,参照图3,对从行人检测器140获得训练图像I11的方法进行说明。
当接收到从监视照相机获得的测试图像I10时,行人检测器140使至少一个卷积层141对测试图像I10应用至少一次卷积运算来输出至少一个测试用特征图。此时,卷积层141可以对测试图像I10依次应用卷积运算而输出测试用特征图。
并且,行人检测器140使至少一个RPN(Region Proposal Network)142生成被估计为在测试用特征图上包括至少一个行人的后补区域所对应的测试用候选框。
之后,行人检测器140使至少一个池化层143对在测试用特征图上与测试用候选框对应的区域应用至少一次池化运算(Pooling Operation)来生成至少一个测试用特征向量(Feature Vector)。
并且,行人检测器140使至少一个FC层(Fully Connected Layer)144对测试用特征向量应用至少一次FC运算(Fully Connected Operation),然后使至少一个分类层(Classification Layer)145输出与各个测试用候选框对应的各个测试用行人类别信息,使至少一个回归层(Regression Layer)146生成从对各个测试用行人进行划界的各个测试用候选框取得的测试用边界框。
另一方面,行人检测器140可以是预先学习的状态。即,可以是通过利用了至少一个损失的反向传播而将FC层144及卷积层141的至少一个参数中的至少一部分调整的状态。另外,RPN 142也可以是预先学习的状态。
重新参照图2,学习装置100使对抗式变换器(Adversarial Style Transformer)G130将与图像补丁x 12分别对应的各个学习用行人变换成难以通过行人检测器140而检测的各个变形行人来分别生成至少一个变形图像补丁(Transformed Image Patch)G(x)13(S2)。
此时,对抗式变换器G130还包括:编码器,其具备对图像补丁x 12应用至少一次卷积运算的至少一个卷积层;及解码器,其具备对从编码器输出的至少一个特征图应用至少一次解卷积运算来生成变形图像补丁G(x)13的至少一个解卷积层。
另一方面,对抗式变换器G130将通过行人检测器140而检测或从训练数据库获得的训练图像I11中与容易检测的各个行人对应的各个图像补丁x 12变换成在行人检测器140中难以进行检测的、即在以往训练数据中未遇到过的具备独特的造型及/或图案的图像而生成变形图像补丁G(x)13或与周围背景对应地变换图像补丁x 12来生成变形图像补丁G(x)13。
接着,学习装置100在训练图像I11上用变形图像补丁G(x)来代替与各个边界框(R-1(x))分别对应的各个区域而生成具备各个变形行人所在的各个区域(R-1(G(x)))的至少一个变形训练图像14(S3)。
此时,学习装置100在上述中对至少一个图像补丁x 12改变尺寸的情况下,对与此对应的变形图像补丁G(x)改变尺寸来使各个变形图像补丁形成为未变形时的原来的尺寸,然后生成变形训练图像14。
并且,变形训练图像14可表示为如下。
Figure BDA0002359267150000121
接着,学习装置100使行人检测器140检测位于变形训练图像14内的变形行人(R-1(G(x)))来生成学习用行人检测信息。
作为一例,重新参照图4,对由行人检测器140在变形训练图像14中检测变形行人的方法说明如下。
当接收到变形训练图像14时,行人检测器140使卷积层141对变形训练图像14应用卷积运算来生成至少一个学习用特征图。此时,卷积层141对变形训练图像14依次应用卷积运算来生成学习用特征图。
并且,行人检测器140使RPN 142在学习用特征图上生成与估计为包括变形行人(R-1(G(x)))的后补区域对应的学习用候选框。
之后,行人检测器140使池化层143对在学习用特征图上与学习用候选框对应的区域应用池化运算来生成至少一个学习用特征向量。
并且,行人检测器140使FC层144对学习用特征向量应用FC运算,然后使分类层145生成与各个学习用候选框对应的各个学习用行人类别信息,使回归层146生成从对各个变形行人进行划界的各个学习用候选框取得的学习用边界框。
接着,学习装置100使第1损失层160参照学习用行人检测信息和与此对应的GT(Ground Truth)来算出至少一个第1损失,并以使第1损失最小化的方式对行人检测器140的至少一个参数的至少一部分进行学习(S4)。
此时,行人检测器(F)140的优化公式(Optimizing Formula)如以下式所示。
Figure BDA0002359267150000131
因此,关于行人检测器(F)140的各个加权值的更新公式(Updating Formula)如以下式所示。
Figure BDA0002359267150000132
另一方面,学习装置100使判别器150生成表示各个变形图像补丁G(x)13为各个学习用行人的各个概率的各个学习用行人分值(D(G(x))),以将学习用行人分值(score)及第1损失最大化的方式进一步学习对抗式变换器130的至少一个参数的至少一部分(S5,S6)。
此时,以将第1损失最大化的方式学习对抗式变换器130的参数的至少一部分的目的如下:在对抗式变换器130将图像补丁x 12变换成变形图像补丁G(x)13的情况下,使行人检测器140逐渐难以检测变形图像补丁G(x)13。另外,以将学习用行人分值最大化的方式学习对抗式变换器130的参数的至少一部分的目的如下:即便对抗式变换器130将图像补丁x12变换成行人检测器140难以检测的变形图像补丁G(x)13,也使变形图像补丁G(x)保持与此对应的行人类别,以现实地看到变形图像补丁G(x)。
并且,参照图5,对学习对抗式变换器130的方法说明如下。
学习装置100通过用于将第1损失(L(F(IG)))最大化的反向传播而对关于从行人检测器F140输出的变形训练图像14的微分值进行运算(S6-1)。此时,关于变形训练图像14的微分值如以下的数学式所示。
Figure BDA0002359267150000133
并且,学习装置100可对关于变形训练图像14内的各个变形行人(R-1G((x)))的微分值进行运算(S6-2)。此时,关于各个变形行人(R-1G((x)))的微分值如以下的数学式所示。
Figure BDA0002359267150000141
之后,学习装置100参照关于变形行人(R-1G((x)))的微分值来运算关于变形图像补丁G(x)的微分值(S6-3)。此时,关于变形图像补丁G(x)的微分值如以下的数学式所示。
Figure BDA0002359267150000142
接着,学习装置100通过用于将学习用行人分值(D(G(x)))最大化的反向传播而运算关于从判别器D150输出的变形图像补丁G(x)的微分值(S5-1)。此时,关于变形图像补丁G(x)的微分值如以下的数学式所示。
Figure BDA0002359267150000143
并且,学习装置100通过反向传播而运算对抗式变换器G 130的至少一个梯度(Gradient)(S7)。并且,通过反向传播而将对抗式变换器G 130的梯度表示为
Figure BDA0002359267150000144
此时,将对抗式变换器G 130的优化公式表示为如下。
Figure BDA0002359267150000145
因此,为了将第1损失(L(F(IG)))和学习用行人分值(D(G(x)))最大化,关于对抗式变换器G 130的各个加权值的更新公式,可参照用于将第1损失(L(F(IG)))最大化的通过反向传播而得到的关于变形图像补丁G(x)的微分值即
Figure BDA0002359267150000146
和用于将学习用行人分值(D(G(x)))最大化的通过反向传播而得到的关于变形图像补丁G(x)的微分值即
Figure BDA0002359267150000147
而表示为如下公式。
Figure BDA0002359267150000148
重新参照图2,学习装置100使第2损失层参照学习用行人分值和与此对应的GT来算出至少一个第2损失,并以将第2损失最小化的方式进一步学习判别器150的至少一个参数的至少一部分。
此时,判别器150可以是用于判断位于变形图像补丁G(x)13内的对象是否为行人的图像分类器(Image Classifier)。并且,图像分类器可以(i)包括至少一个卷积层和FC层或(ii)包括全卷积网络(Fully Convolutional Network),但本发明不限于此,可利用识别图像内的对象的基于深度学习的所有图像分类器。
并且,参照图6,对学习判别器150的方法说明如下。
学习装置100使判别器150生成表示各个变形图像补丁G(x)13是各个学习用行人的各个概率的学习用行人分值(D(G(x))),并生成表示与此对应的各个图像补丁x 12表示学习用行人的概率的各个GT用行人分值(D(x))。
并且,学习装置100使第2损失层170算出第2损失。
此时,第2损失可表示为logD(x)+log(1-D(G(x))),由此关于判别器D150的优化公式表示为如下。
Figure BDA0002359267150000151
因此,关于判别器D150的各个加权值的更新公式表示为如下。
Figure BDA0002359267150000152
即,关于本发明的学习方法简单说明如下,但不限于此。
首先,在训练图像上获得关于各个学习用行人的各个边界框(R-1(x))。
之后,对各个R-1(x)算出G(x),D(x),D(G(x))及R-1(G(x)),生成关于变形训练图像14的IG=I+∑x(R-1(G(x))-R-1(x))。
之后,在算出行人检测器的第1损失L(F(IG)),然后通过整个反向传播而算出各个梯度。
并且,如下面的公式所示,更新行人检测器140、判别器150及对抗式变换器130。
Figure BDA0002359267150000153
(行人检测器)
Figure BDA0002359267150000154
(判别器)
Figure BDA0002359267150000155
(对抗式变换器)
图7是概略性地示出根据本发明的一个实施例而测试基于图像分析而不受环境影响的监视中使用的行人检测器的测试装置的图。参照图7,测试装置200包括存储利用学习的行人检测器而检测测试用行人的指令的存储器210和利用与存储于存储器210的指令对应的行人检测器来检测测试用行人的处理器220。
具体地,典型的是,测试装置200利用至少一个计算装置(例如,包括计算机处理器、存储器、储存装置、输入装置及输出装置、其他以往的计算装置的构成要素的装置;路由器、交换机等这样的电子通信装置;网络附属存储(NAS)及存储区域网络(SAN)这样的电子信息存储系统)和至少一个计算机软件(即,使计算装置以特定方式发挥功能的指令)的组合来达到所希望的系统性能。
另外,计算装置的处理器可包括MPU(Micro Processing Unit)或CPU(CentralProcessing Unit)、高速缓存存储器(Cache Memory)、数据总线(Data Bus)等硬件结构。另外,计算装置还可包括操作系统以及执行特定目的的应用的软件结构。
但是,计算装置的处理器并非排除包括用于实施本发明的处理器、中间装置或其他计算构成要素的任何组合的综合装置(Integrated Device)。
参照图8,对利用这样构成的本发明的一个实施例的测试装置200而检测测试用行人的方法进行说明。
如参照图2而所说明,当学习了行人检测器140的状态下从监视照相机获得至少一个测试图像10时,测试装置200使行人检测器140对测试图像10进行分析,从而对位于测试图像10内的测试用行人进行检测,并生成与测试用行人对应的测试用行人检测信息21。
此时,重新参照图4,对行人检测器140在测试图像10中检测测试用行人的方法说明如下。
当输入了从监视照相机获得的测试图像10时,行人检测器140使卷积层141对测试图像10应用卷积运算来生成测试用特征图。此时,卷积层141对测试图像10依次应用卷积运算来生成测试用特征图。
并且,行人检测器140使RPN 142在测试用特征图上生成估计为测试用行人所在的位置的后补区域所对应的测试用候选框。
之后,行人检测器140使池化层143对在测试用特征图上与测试用候选框对应的区域应用池化运算来生成至少一个测试用特征向量。
并且,行人检测器140使FC层144对测试用特征向量应用FC运算,然后使分类层145输出与各个测试用候选框对应的各个测试用行人类别信息,使回归层146生成从对各个测试用行人进行划界的各个测试用候选框生成的测试用边界框。
另一方面,学习装置可以是使行人检测器140完成如下处理的状态:(a)当获得具备与训练图像上生成的各个学习用行人对应的各个边界框的训练图像时,在训练图像上修剪(Crop)与各个边界框对应的各个区域而生成图像补丁(Image Patch),使对抗式变换器(Adversarial Style Transformer),将与各个图像补丁对应的各个学习用行人变换成难以通过行人检测器而检测的变形行人,从而生成变形图像补丁(Transformed ImagePatch);及(b)在训练图像上利用变形图像补丁来代替与各个边界框对应的各个区域而生成变形训练图像(Transformed Training Image),对位于变形训练图像内的变形行人进行检测而生成学习用行人检测信息,使第1损失层参照各个学习用行人检测信息和与此对应的GT来算出第1损失,并以将第1损失最小化的方式学习行人检测器的参数的至少一部分。
另外,学习装置可以是使判别器完成了以下处理的状态:生成表示各个变形图像补丁为各个学习用行人的各个概率的各个学习用行人分值;及以将学习用行人分值及第1损失最大化的方式进一步学习对抗式变换器的参数的至少一部分。
另外,学习装置100可以是使第2损失层完成了以下处理的状态:参照学习用行人分值和与此对应的GT来算出第2损失及以将第2损失最小化的方式学习判别器150的参数的至少一部分。
另外,生成包括通过自演化系统(Self-Evolving System)难以进行学习的例示的训练数据,从而不受对抗模式(Adversarial Pattern)的影响。
上述方法不仅用于不受环境影响的监视,而且还用于关于标签图像不足问题的解决对策、注释费用减少及军事性的目的。
另外,以上说明的本发明的实施例可体现为通过各种计算机构成要素来实现的程序命令的形态来记录到计算机可读取的记录介质。上述计算机可读取的记录介质可单独或以组合的方式包括程序命令、数据文件、数据结构等。记录到上述计算机可读取的记录介质的程序命令可以是为本发明特别设计并构成的命令或计算机软件领域的技术人员公知而使用的命令。作为计算机可读取的记录介质的例子,包括硬盘、软盘及磁带这样的磁性介质、CD-ROM、DVD这样的光记录介质、光碟(floptical disk)这样的磁光介质(magneto-optical edia)及ROM、RAM、闪存等这样的以存储程序命令且执行的方式特别构成的硬件装置。作为程序命令的例子,不仅包括由编译器制作的机器代码,而且还包括使用解释器等而通过计算机来执行的高级语言代码。上述硬件装置既可构成为一个以上的软件模块,以执行本发明的处理,也可以与其相反的方式构成。
以上,通过具体的构成要素等这样的特定事项和限定的实施例及附图而对本发明进行了说明,但这是为了整体地理解本发明而提供的,本发明不限于这样的上述实施例,本领域技术人员可从这样的记载进行各种修改及变形。
因此,本发明的思想不限于上述说明的实施例,不仅是后述的权利要求书,与该权利要求书均等或等价地变形的所有内容均包括在本发明的思想的范围中。

Claims (28)

1.一种基于图像分析而不受环境影响的监视中使用的行人检测器的学习方法,
该方法的特征在于,包括如下步骤:
(a)当获得具备与在至少一个训练图像上生成的各个学习用行人对应的各个边界框的上述训练图像时,学习装置在上述训练图像上修剪与各个上述边界框分别对应的各个区域而生成至少一个图像补丁,并使对抗式变换器将与各个上述图像补丁分别对应的各个上述学习用行人分别变换成通过上述行人检测器难以检测的各个变形行人,从而生成至少一个变形图像补丁;及
(b)上述学习装置在上述训练图像上用上述变形图像补丁来代替与各个上述边界框对应的各个上述区域而生成至少一个变形训练图像,使上述行人检测器检测位于上述变形训练图像内的上述变形行人而生成学习用行人检测信息,使第1损失层参照各个上述学习用行人检测信息和与此对应的GT来算出至少一个第1损失,以将上述第1损失最小化的方式学习上述行人检测器的至少一个参数的至少一部分。
2.根据权利要求1所述的方法,其特征在于,
在上述(b)步骤中,
上述学习装置使判别器生成各个学习用行人分值,并以将上述学习用行人分值及上述第1损失最大化的方式进一步学习上述对抗式变换器的至少一个参数的至少一部分,其中,该各个学习用行人分值表示各个上述变形图像补丁为各个上述学习用行人的各个概率。
3.根据权利要求2所述的方法,其特征在于,
上述判别器为(i)包括至少一个卷积层和至少一个FC层或(ii)包括全卷积网络的图像分类器。
4.根据权利要求1所述的方法,其特征在于,
在上述(b)步骤中,
上述学习装置使第2损失层参照各个上述学习用行人分值和与此对应的GT来算出至少一个第2损失,以将上述第2损失最小化的方式学习上述判别器的至少一个参数的至少一部分。
5.根据权利要求1所述的方法,其特征在于,
上述对抗式变换器包括:编码器,其具备对上述图像补丁应用至少一次卷积运算的至少一个卷积层;及解码器,其具备对从上述编码器输出的至少一个特征图应用至少一次解卷积运算的至少一个解卷积层。
6.根据权利要求1所述的方法,其特征在于,
在上述(a)步骤中,
上述学习装置对至少一个上述图像补丁改变尺寸来使上述图像补丁具备相同的尺寸,然后使上述对抗式变换器输出相同的尺寸的上述变形图像补丁,
在上述(b)步骤中,
上述学习装置对上述相同的尺寸的上述变形图像补丁改变尺寸来使上述变形图像补丁分别成为变形之前的原来的尺寸,然后生成上述变形训练图像。
7.根据权利要求1所述的方法,其特征在于,
上述训练图像是从(i)检测位于从监视照相机获得的至少一个测试图像内的测试用行人来输出包括上述边界框的测试用行人检测信息的上述行人检测器及(ii)存储具备与上述边界框对应的真标签的上述训练图像的数据库中的一个获得的。
8.一种基于图像分析而不受环境影响的监视中使用的测试用行人检测器的测试方法,
该方法的特征在于,包括如下步骤:
(a)(1)学习装置在具备与至少一个训练图像上生成的各个学习用行人分别对应的各个学习用边界框的上述训练图像上修剪与各个学习用边界框分别对应的各个学习用区域而生成至少一个学习用图像补丁,使对抗式变换器将与各个上述学习用图像补丁分别对应的各个上述学习用行人分别变换成通过上述行人检测器难以进行学习用检测的各个学习用变形行人,从而生成至少一个学习用变形图像补丁,(2)上述学习装置在上述训练图像上用上述学习用变形图像补丁来代替与各个上述学习用边界框分别对应的各个上述学习用区域而生成至少一个变形训练图像,并使上述行人检测器检测位于上述变形训练图像内的上述学习用变形行人来生成学习用行人检测信息,并使第1损失层参照各个上述学习用行人检测信息和与此对应的GT来算出至少一个第1损失,并以将上述第1损失最小化的方式学习上述行人检测器的至少一个参数的至少一部分的状态下,当获得了具备与在至少一个测试图像上生成的各个测试用行人分别对应的各个测试用边界框的上述测试图像时,测试装置在上述测试图像上修剪与各个上述测试用边界框分别对应的各个测试用区域来生成至少一个测试用图像补丁,并使上述对抗式变换器将与各个上述测试用图像补丁分别对应的各个上述测试用行人分别变换成通过上述行人检测器难以进行测试用检测的各个测试用变形行人,从而生成至少一个测试用变形图像补丁;及
(b)上述测试装置在上述测试图像上用上述测试用变形图像补丁代替与各个上述测试用边界框分别对应的各个上述测试用区域而生成至少一个变形测试图像,使上述行人检测器检测位于上述变形测试图像内的上述测试用变形行人来生成测试用行人检测信息。
9.根据权利要求8所述的方法,其特征在于,
在上述(b)步骤中,
上述测试装置使判别器生成各个测试用行人分值,该各个测试用行人分值表示各个上述测试用变形图像补丁为各个上述测试用行人的各个概率。
10.根据权利要求9所述的方法,其特征在于,
上述判别器是(i)包括至少一个卷积层和至少一个FC层或(ii)包括全卷积网络的图像分类器。
11.根据权利要求8所述的方法,其特征在于,
在上述(2)处理中,
上述学习装置使第2损失层参照各个上述学习用行人分值和与此对应的GT来算出至少一个第2损失,并以将上述第2损失最小化的方式学习上述判别器的至少一个参数的至少一部分。
12.根据权利要求8所述的方法,其特征在于,
上述对抗式变换器包括:编码器,其具备对上述测试用图像补丁应用至少一次卷积运算的至少一个卷积层;及解码器,其具备对从上述编码器输出的至少一个测试用特征图应用至少一次解卷积运算的至少一个解卷积层。
13.根据权利要求8所述的方法,其特征在于,
在上述(a)步骤中,
上述测试装置对至少一个上述测试用图像补丁改变尺寸而使上述测试用图像补丁具备相同的尺寸,然后使上述对抗式变换器输出相同的尺寸的上述测试用变形图像补丁,
在上述(b)步骤中,
上述测试装置对上述相同的尺寸的上述测试用变形图像补丁改变尺寸来使上述测试用变形图像补丁分别成为变形之前的原来的尺寸,然后生成上述变形测试图像。
14.根据权利要求8所述的方法,其特征在于,
上述训练图像是从(i)检测位于从监视照相机获得的上述测试图像内的测试用行人来输出包括上述测试用边界框的测试用行人检测信息的上述行人检测器及(ii)存储具备与上述测试用边界框对应的真标签的上述训练图像的数据库中的一个获得的。
15.一种基于图像分析而不受环境影响的监视中使用的行人检测器的学习装置,
该装置的特征在于,其包括:
至少一个存储器,其存储指令;及
至少一个处理器,其执行用于执行如下处理的上述指令:(I)当获得具备与在至少一个训练图像上生成的各个学习用行人分别对应的各个边界框的上述训练图像时,在上述训练图像上修剪与各个上述边界框分别对应的各个区域而生成至少一个图像补丁,并使对抗式变换器将与各个上述图像补丁分别对应的各个上述学习用行人分别变换成通过上述行人检测器难以检测的各个变形行人,从而生成至少一个变形图像补丁;及(II)在上述训练图像上用上述变形图像补丁来代替与各个上述边界框对应的各个上述区域而生成至少一个变形训练图像,使上述行人检测器检测位于上述变形训练图像内的上述变形行人而生成学习用行人检测信息,使第1损失层参照各个上述学习用行人检测信息和与此对应的GT来算出至少一个第1损失,以将上述第1损失最小化的方式学习上述行人检测器的至少一个参数的至少一部分。
16.根据权利要求15所述的装置,其特征在于,
在上述(II)处理中,
上述处理器使判别器生成各个学习用行人分值,并以将上述学习用行人分值及上述第1损失最大化的方式进一步学习上述对抗式变换器的至少一个参数的至少一部分,其中,该各个学习用行人分值表示各个上述变形图像补丁为各个上述学习用行人的各个概率。
17.根据权利要求16所述的装置,其特征在于,
上述判别器为(i)包括至少一个卷积层和至少一个FC层或(ii)包括全卷积网络的图像分类器。
18.根据权利要求15所述的装置,其特征在于,
在上述(II)处理中,
上述处理器使第2损失层参照各个上述学习用行人分值和与此对应的GT来算出至少一个第2损失,以将上述第2损失最小化的方式学习上述判别器的至少一个参数的至少一部分。
19.根据权利要求15所述的装置,其特征在于,
上述对抗式变换器包括:编码器,其具备对上述图像补丁应用至少一次卷积运算的至少一个卷积层;及解码器,其具备对从上述编码器输出的至少一个特征图应用至少一次解卷积运算的至少一个解卷积层。
20.根据权利要求15所述的装置,其特征在于,
在上述(I)处理中,
上述处理器对至少一个上述图像补丁改变尺寸来使上述图像补丁具备相同的尺寸,然后使上述对抗式变换器输出相同的尺寸的上述变形图像补丁,
在上述(II)处理中,
上述处理器对上述相同的尺寸的上述变形图像补丁改变尺寸来使上述变形图像补丁分别成为变形之前的原来的尺寸,然后生成上述变形训练图像。
21.根据权利要求15所述的装置,其特征在于,
上述训练图像是从(i)检测位于从监视照相机获得的至少一个测试图像内的测试用行人来输出包括上述边界框的测试用行人检测信息的上述行人检测器及(ii)存储具备与上述边界框对应的真标签的上述训练图像的数据库中的一个获得的。
22.一种基于图像分析而不受环境影响的监视中使用的测试用行人检测器的测试装置,
该装置的特征在于,其包括:
至少一个存储器,其存储指令;及
至少一个处理器,其执行用于执行如下处理的上述指令:(1)学习装置在具备与至少一个训练图像上生成的各个学习用行人分别对应的各个学习用边界框的上述训练图像上修剪与各个学习用边界框分别对应的各个学习用区域而生成至少一个学习用图像补丁,使对抗式变换器将与各个上述学习用图像补丁分别对应的各个上述学习用行人分别变换成通过上述行人检测器难以进行学习用检测的各个学习用变形行人,从而生成至少一个学习用变形图像补丁,(2)上述学习装置在上述训练图像上用上述学习用变形图像补丁来代替与各个上述学习用边界框分别对应的各个上述学习用区域而生成至少一个变形训练图像,并使上述行人检测器检测位于上述变形训练图像内的上述学习用变形行人来生成学习用行人检测信息,并使第1损失层参照各个上述学习用行人检测信息和与此对应的GT来算出至少一个第1损失,并以将上述第1损失最小化的方式学习上述行人检测器的至少一个参数的至少一部分的状态下,(I)当获得了具备与在至少一个测试图像上生成的各个测试用行人分别对应的各个测试用边界框的上述测试图像时,在上述测试图像上修剪与各个上述测试用边界框分别对应的各个测试用区域来生成至少一个测试用图像补丁,并使上述对抗式变换器将与各个上述测试用图像补丁分别对应的各个上述测试用行人分别变换成通过上述行人检测器难以进行测试用检测的各个测试用变形行人,从而生成至少一个测试用变形图像补丁;及(II)在上述测试图像上用上述测试用变形图像补丁代替与各个上述测试用边界框分别对应的各个上述测试用区域而生成至少一个变形测试图像,使上述行人检测器检测位于上述变形测试图像内的上述测试用变形行人来生成测试用行人检测信息。
23.根据权利要求22所述的装置,其特征在于,
在上述(II)处理中,
上述处理器使判别器生成各个测试用行人分值,该各个测试用行人分值表示各个上述测试用变形图像补丁为各个上述测试用行人的各个概率。
24.根据权利要求23所述的装置,其特征在于,
上述判别器是(i)包括至少一个卷积层和至少一个FC层或(ii)包括全卷积网络的图像分类器。
25.根据权利要求22所述的装置,其特征在于,
在上述(2)处理中,
上述学习装置使第2损失层参照各个上述学习用行人分值和与此对应的GT来算出至少一个第2损失,并以将上述第2损失最小化的方式学习上述判别器的至少一个参数的至少一部分。
26.根据权利要求22所述的装置,其特征在于,
上述对抗式变换器包括:编码器,其具备对上述测试用图像补丁应用至少一次卷积运算的至少一个卷积层;及解码器,其具备对从上述编码器输出的至少一个测试用特征图应用至少一次解卷积运算的至少一个解卷积层。
27.根据权利要求22所述的装置,其特征在于,
在上述(I)处理中,
上述处理器对至少一个上述测试用图像补丁改变尺寸而使上述测试用图像补丁具备相同的尺寸,然后使上述对抗式变换器输出相同的尺寸的上述测试用变形图像补丁,
在上述(II)处理中,
上述处理器对上述相同的尺寸的上述测试用变形图像补丁改变尺寸来使上述测试用变形图像补丁分别成为变形之前的原来的尺寸,然后生成上述变形测试图像。
28.根据权利要求22所述的装置,其特征在于,
上述训练图像是从(i)检测位于从监视照相机获得的上述测试图像内的测试用行人来输出包括上述测试用边界框的测试用行人检测信息的上述行人检测器;及(ii)存储具备与上述测试用边界框对应的真标签的上述训练图像的数据库中的一个获得的。
CN202010016997.5A 2019-01-28 2020-01-08 用于基于图像分析的监视的行人检测方法及装置 Active CN111488789B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/259,372 2019-01-28
US16/259,372 US10692002B1 (en) 2019-01-28 2019-01-28 Learning method and learning device of pedestrian detector for robust surveillance based on image analysis by using GAN and testing method and testing device using the same

Publications (2)

Publication Number Publication Date
CN111488789A true CN111488789A (zh) 2020-08-04
CN111488789B CN111488789B (zh) 2023-11-07

Family

ID=69172615

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010016997.5A Active CN111488789B (zh) 2019-01-28 2020-01-08 用于基于图像分析的监视的行人检测方法及装置

Country Status (5)

Country Link
US (1) US10692002B1 (zh)
EP (1) EP3690712A1 (zh)
JP (1) JP6901802B2 (zh)
KR (1) KR102382693B1 (zh)
CN (1) CN111488789B (zh)

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018176000A1 (en) 2017-03-23 2018-09-27 DeepScale, Inc. Data synthesis for autonomous control systems
US11409692B2 (en) 2017-07-24 2022-08-09 Tesla, Inc. Vector computational unit
US11157441B2 (en) 2017-07-24 2021-10-26 Tesla, Inc. Computational array microprocessor system using non-consecutive data formatting
US11893393B2 (en) 2017-07-24 2024-02-06 Tesla, Inc. Computational array microprocessor system with hardware arbiter managing memory requests
US10671349B2 (en) 2017-07-24 2020-06-02 Tesla, Inc. Accelerated mathematical engine
JP6841345B2 (ja) * 2017-12-06 2021-03-10 日本電気株式会社 画像認識モデル生成装置、画像認識モデル生成方法および画像認識モデル生成プログラム
US11561791B2 (en) 2018-02-01 2023-01-24 Tesla, Inc. Vector computational unit receiving data elements in parallel from a last row of a computational array
US11215999B2 (en) 2018-06-20 2022-01-04 Tesla, Inc. Data pipeline and deep learning system for autonomous driving
US11361457B2 (en) 2018-07-20 2022-06-14 Tesla, Inc. Annotation cross-labeling for autonomous control systems
US11636333B2 (en) 2018-07-26 2023-04-25 Tesla, Inc. Optimizing neural network structures for embedded systems
US11562231B2 (en) 2018-09-03 2023-01-24 Tesla, Inc. Neural networks for embedded devices
WO2020077117A1 (en) 2018-10-11 2020-04-16 Tesla, Inc. Systems and methods for training machine models with augmented data
US11196678B2 (en) 2018-10-25 2021-12-07 Tesla, Inc. QOS manager for system on a chip communications
US11816585B2 (en) 2018-12-03 2023-11-14 Tesla, Inc. Machine learning models operating at different frequencies for autonomous vehicles
US11537811B2 (en) 2018-12-04 2022-12-27 Tesla, Inc. Enhanced object detection for autonomous vehicles based on field view
US11610117B2 (en) 2018-12-27 2023-03-21 Tesla, Inc. System and method for adapting a neural network model on a hardware platform
US10997461B2 (en) 2019-02-01 2021-05-04 Tesla, Inc. Generating ground truth for machine learning from time series elements
US11150664B2 (en) 2019-02-01 2021-10-19 Tesla, Inc. Predicting three-dimensional features for autonomous driving
US11567514B2 (en) 2019-02-11 2023-01-31 Tesla, Inc. Autonomous and user controlled vehicle summon to a target
US10956755B2 (en) 2019-02-19 2021-03-23 Tesla, Inc. Estimating object properties using visual image data
US10997748B2 (en) * 2019-04-19 2021-05-04 The Boeing Company Machine learning model development with unsupervised image selection
DE102020207324A1 (de) * 2020-06-12 2021-12-16 Robert Bosch Gesellschaft mit beschränkter Haftung Plausibilisierung der Ausgabe eines Bildklassifikators mit einem Generator für abgewandelte Bilder
CN111753786A (zh) * 2020-06-30 2020-10-09 中国矿业大学 一种基于全尺度特征融合和轻量级生成式对抗网络的行人重识别方法
CN111931707A (zh) * 2020-09-16 2020-11-13 平安国际智慧城市科技股份有限公司 基于对抗补丁的人脸图像预测方法、装置、设备和介质
US11023777B1 (en) * 2020-09-25 2021-06-01 Deeping Source Inc. Methods for training and testing obfuscation network capable of performing distinct concealing processes for distinct regions of original image and learning and testing devices using the same
KR102576747B1 (ko) 2020-11-06 2023-09-11 한국전자통신연구원 심층신경망을 기반으로 하는 객체 검출기의 지역 최적화를 위한 시스템 및 이를 위한 로컬 데이터베이스 생성 방법
US12045992B2 (en) * 2020-11-10 2024-07-23 Nec Corporation Multi-domain semantic segmentation with label shifts
KR102256409B1 (ko) * 2020-11-23 2021-05-25 주식회사 에이모 학습 데이터 세트를 생성하는 방법 및 학습 데이터 세트를 생성하기 위한 컴퓨터 장치
CN112529114B (zh) * 2021-01-13 2021-06-29 北京云真信科技有限公司 基于gan的目标信息识别方法、电子设备和介质
CN113537136B (zh) * 2021-07-30 2024-09-27 合肥工业大学 一种面向边缘设备的遮挡行人闯红灯姿态识别方法
CN113792806B (zh) * 2021-09-17 2024-08-23 中南大学 一种对抗补丁生成方法
KR102470187B1 (ko) * 2021-11-19 2022-11-23 부산대학교 산학협력단 비적대적 패치 생성 방법 및 시스템
US11423643B1 (en) * 2021-11-29 2022-08-23 Deeping Source Inc. Method for generating obfuscated image to be used in training learning net work and labeling device using the same
CN114529946A (zh) * 2022-02-23 2022-05-24 厦门市美亚柏科信息股份有限公司 基于自监督学习的行人重识别方法、装置、设备及存储介质
CN114550217A (zh) * 2022-02-28 2022-05-27 清华大学 对抗图像生成方法及装置、以及目标覆盖物加工方法
CN118170936B (zh) * 2024-05-08 2024-07-26 齐鲁工业大学(山东省科学院) 一种基于多模态的数据与关系增强的遮挡行人检索方法
CN118277839B (zh) * 2024-06-03 2024-07-26 贵州大学 一种极端不平衡数据故障诊断的bctgan数据扩充方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101887524A (zh) * 2010-07-06 2010-11-17 湖南创合制造有限公司 基于视频监控的行人检测方法
CN107133570A (zh) * 2017-04-07 2017-09-05 武汉睿智视讯科技有限公司 一种车辆/行人检测方法及系统

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2580708A4 (en) * 2010-06-10 2016-11-16 Univ Brown PARAMETRIZED 2D HUMAN MODEL WITH RACES
US20190130215A1 (en) * 2016-04-21 2019-05-02 Osram Gmbh Training method and detection method for object recognition
US10346723B2 (en) * 2016-11-01 2019-07-09 Snap Inc. Neural network for object detection in images
US10303953B2 (en) * 2017-04-17 2019-05-28 Intel Corporation Person tracking and privacy and acceleration of data using autonomous machines
CN111263954B (zh) * 2017-05-02 2024-06-21 赫尔实验室有限公司 基于根据自运动的感官预测检测移动障碍物的系统和方法
US10395385B2 (en) * 2017-06-27 2019-08-27 Qualcomm Incorporated Using object re-identification in video surveillance
JP2019015692A (ja) * 2017-07-11 2019-01-31 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 付着物検出方法、付着物学習方法、付着物検出装置、付着物学習装置、付着物検出システム、および、プログラム
US20190147320A1 (en) * 2017-11-15 2019-05-16 Uber Technologies, Inc. "Matching Adversarial Networks"
US11080886B2 (en) * 2017-11-15 2021-08-03 Qualcomm Incorporated Learning disentangled invariant representations for one shot instance recognition

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101887524A (zh) * 2010-07-06 2010-11-17 湖南创合制造有限公司 基于视频监控的行人检测方法
CN107133570A (zh) * 2017-04-07 2017-09-05 武汉睿智视讯科技有限公司 一种车辆/行人检测方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XI AOLONG WANG等: "A-Fast-RCNN: Hard Positive Generation via Adversary for Object Detection" *
XI OUYANG等: "Pedestrian-Synthesis-GAN: Generating Pedestrian Data in Real Scene and Beyond" *

Also Published As

Publication number Publication date
EP3690712A1 (en) 2020-08-05
KR20200093426A (ko) 2020-08-05
US10692002B1 (en) 2020-06-23
KR102382693B1 (ko) 2022-04-06
JP2020119558A (ja) 2020-08-06
CN111488789B (zh) 2023-11-07
JP6901802B2 (ja) 2021-07-14

Similar Documents

Publication Publication Date Title
CN111488789B (zh) 用于基于图像分析的监视的行人检测方法及装置
JP6853560B2 (ja) 高精度イメージを分析するディープラーニングネットワークの学習に利用するためのトレーニングイメージをオートラベリングするための方法、及びこれを利用したオートラベリング装置{method for auto−labeling training images for use in deep learning network to analyze images with high precision, and auto−labeling device using the same}
CN107529650B (zh) 闭环检测方法、装置及计算机设备
KR102113911B1 (ko) 생체 인식 인증을 위한 특징 추출 및 정합과 템플릿 갱신
CN111507469B (zh) 对自动标注装置的超参数进行优化的方法和装置
KR20180109665A (ko) 객체 검출을 위한 영상 처리 방법 및 장치
US20150279021A1 (en) Video object tracking in traffic monitoring
CN110378837B (zh) 基于鱼眼摄像头的目标检测方法、装置和存储介质
JP6833620B2 (ja) 画像解析装置、ニューラルネットワーク装置、学習装置、画像解析方法およびプログラム
CN111027481B (zh) 基于人体关键点检测的行为分析方法及装置
EP3745309A1 (en) Training a generative adversarial network
JP7327077B2 (ja) 路上障害物検知装置、路上障害物検知方法、及び路上障害物検知プログラム
JP6860079B2 (ja) 異常検知装置、異常検知方法、及びプログラム
KR102225753B1 (ko) 딥러닝 기반 파노라마 영상의 품질 평가 방법 및 그 장치
KR101877683B1 (ko) 학습을 이용한 얼굴 인식 장치 및 방법
CN111046755A (zh) 字符识别方法、装置、计算机设备和计算机可读存储介质
CN117789109A (zh) 一种工业场景下无人值守的异常行为检测方法和系统
CN111428567B (zh) 一种基于仿射多任务回归的行人跟踪系统及方法
KR20220073444A (ko) 오브젝트 추적 방법, 장치 및 그 방법을 수행하는 단말기
KR20200106111A (ko) 가우시안 특징점맵과 회귀 기법을 이용한 얼굴 특징점 검출 장치 및 방법
US20240037757A1 (en) Method, device and storage medium for post-processing in multi-target tracking
US20240303966A1 (en) Detection device, detection method, and detection program
JP7365261B2 (ja) コンピュータシステムおよびプログラム
JPWO2019186833A1 (ja) 画像処理装置、画像処理方法、及びプログラム
CN115222940B (zh) 一种语义分割方法、系统、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant