CN111460877A - 利用图像级联及cnn的客体检测方法及装置 - Google Patents

利用图像级联及cnn的客体检测方法及装置 Download PDF

Info

Publication number
CN111460877A
CN111460877A CN201911295611.2A CN201911295611A CN111460877A CN 111460877 A CN111460877 A CN 111460877A CN 201911295611 A CN201911295611 A CN 201911295611A CN 111460877 A CN111460877 A CN 111460877A
Authority
CN
China
Prior art keywords
test
image
nth
learning
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911295611.2A
Other languages
English (en)
Other versions
CN111460877B (zh
Inventor
金桂贤
金镕重
金寅洙
金鹤京
南云铉
夫硕焄
成明哲
吕东勋
柳宇宙
张泰雄
郑景中
诸泓模
赵浩辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Stradvision Inc
Original Assignee
Stradvision Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Stradvision Inc filed Critical Stradvision Inc
Publication of CN111460877A publication Critical patent/CN111460877A/zh
Application granted granted Critical
Publication of CN111460877B publication Critical patent/CN111460877B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/40Image enhancement or restoration using histogram techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明是利用图像级联及CNN的客体检测方法及装置。本发明提供一种为了远距离检测或军事目的而学习利用图像级联且基于CNN的、能实现硬件优化的客体检测器的方法。就CNN而言,如果客体的大小随着由KPI决定的分辨率或焦距发生改变而改变,则所述CNN可以重新设计。所述方法包括:(a)步骤,将与第1至第n目标区域对应的第1至第n加工图像级联起来;(b)步骤,使RPN利用统合特征图,在所述第n加工图像内生成第1至第n客体推选,使池化层在所述统合特征图上,对与所述第1至所述第n客体推选对应的区域应用池化运算;(c)步骤,使FC损失层参照从FC层输出的客体检测信息,获得第1至第n FC损失。

Description

利用图像级联及CNN的客体检测方法及装置
技术领域
本发明涉及一种为了远距离检测或军事目的而学习利用图像级联(Imageconcatenation)且基于卷积神经网络(Convolutional Neural Network,CNN或ConvNet)的、能够实现硬件优化的客体检测器的学习方法和学习装置、以及利用其的测试方法及测试装置。
背景技术
在机器学习(machine learning)中,CNN是成功应用于视觉图像分析的深度前馈人工神经网络(Deep feedforward artificial neural network)。
基于CNN的客体检测器(i)使一个以上的卷积层,对输入图像应用卷积运算,从而输出与所述输入图像对应的特征图,(ii)使RPN(Region Proposal Network),利用所述特征图,确认与所述输入图像内的客体对应的推选,(iii)使池化层,在与所述确认的推选对应的所述特征图上的区域应用至少一个池化运算,获得池化后特征图,(iv)使FC(FullyConnected,全连接)层,将至少一个以上的FC运算应用于与所述获得的池化后特征图乃至与所述客体相关的输出类信息和回归信息,从而检测所述输入图像上的所述客体。
但是,基于所述CNN的客体检测器由于利用借助于所述卷积层而缩小了所述输入图像尺寸的所述特征图,因而虽然容易检测位于所述输入图像的大尺寸的客体,但难以检测位于所述输入图像的小尺寸的客体。
即,当所述输入图像上存在与作为要检测的对象的一个以上客体对应的多个目标区域时,由于尺寸而导致无法从一部分目标区域准确地提取希望的特征,因而导致无法检测特定客体。
为了解决这种问题,可以在从所述输入图像获得的图像金字塔中的各个图像内,裁剪各个所述目标区域,执行客体检测,但在这种情况下,需针对与所述目标区域对应地裁剪的各个图像,执行所述客体检测,因而运算量会增加。
另外,CNN运算为了快速运算,按既定单位,作为一个示例,按32、64、128等的倍数执行块运算,如果输入了具有不是所述单位的倍数的宽度或高度的输入图像,则为了成为所述单位的倍数,需追加一个以上的填充区域,但这对所述CNN运算造成负担。因此,如果具有并非所述单位倍数的宽度或高度的裁剪图像变多,则对所述CNN运算造成更大负担,导致所述CNN的运算速度降低。
因此,本发明的发明人旨在提供一种利用位于所述输入图像上的、与多样尺寸的客体对应的所述目标区域而能够缩短所述CNN运算时间并高效检测客体的学习方法、学习装置及利用其的测试方法和测试装置。
发明内容
本发明的目的在于全部解决上述问题。
本发明另一目的在于提供一种使得能够与尺寸无关地高效检测位于图像上的客体的基于CNN的客体检测器。
本发明又一目的在于提供一种基于所述CNN的所述客体检测器,不用增加运算量而能够检测所述图像上的所述客体。
本发明又一目的在于提供一种基于所述CNN的所述客体检测器,能够利用与所述输入图像上的多样尺寸的所述客体对应的目标区域,缩短所述CNN的运算时间并高效检测所述客体。
本发明的目的是通过以下技术方案实现的:
根据本发明的一个方面,提供一种学习利用图像级联且基于CNN的客体检测器的参数的方法,其特征在于,包括:(a)步骤,输入至少一个训练图像后,学习装置(i)使目标区域预测网络,在所述训练图像或与其对应的一个以上调整了尺寸的图像上,分别查找与预测为一个以上目标客体所在的区域对应的第1目标区域至第n目标区域,(ii)使图像加工网络,从所述训练图像或与其对应的调整了尺寸的图像,获得与所述第1目标区域至所述第n目标区域分别对应的第1加工图像至第n加工图像,(iii)输出将所述第1加工图像至所述第n加工图像级联的统合训练图像;(b)步骤,所述学习装置(i)使一个以上的卷积层,对所述统合训练图像应用一个以上的卷积运算,从而输出至少一个统合特征图,(ii)使区域推选网络RPN,利用所述统合特征图,分别输出与分别位于所述第1加工图像至所述第n加工图像内的一个以上客体对应的第1客体推选至第n客体推选,(iii)使池化层,在所述统合特征图上,对与所述第1客体推选至所述第n客体推选分别对应的各个区域,应用一个以上的池化运算,生成至少一个池化后统合特征图,(iv)使FC层,对所述池化后统合特征图应用至少一个全连接FC运算,输出与所述客体对应的第1客体检测信息至第n客体检测信息;及(c)步骤,所述学习装置使至少一个FC损失层,参照所述第1客体检测信息至所述第n客体检测信息和与其对应的地面真值GT,获得一个以上的第1FC损失至一个以上的第nFC损失,进而通过利用所述第1FC损失至所述第nFC损失的反向传播,学习所述FC层及所述卷积层的参数中至少一部分。
一个实施例,其特征在于,在所述(b)步骤之后,所述学习装置使至少一个RPN损失层,参照所述第1客体推选至所述第n客体推选和与其对应的GT,获得一个以上的第1RPN损失至一个以上的第nRPN损失,进而通过利用所述第1RPN损失至所述第nRPN损失的反向传播,学习所述RPN的参数中至少一部分。
一个实施例,其特征在于,在所述(a)步骤中,所述学习装置使所述图像加工网络,将所述第1加工图像至所述第n加工图像的宽度和高度中至少一者调整得相同后,沿着调整为相同大小的所述宽度或所述高度方向,将所述第1调整后加工图像至所述第n调整后加工图像级联起来。
一个实施例,其特征在于,所述学习装置使所述图像加工网络,在所述第1调整后加工图像至所述第n调整后加工图像中,在由级联的邻接的两个调整后加工图像构成的各个对之间,分别添加至少一个零填充区域。
一个实施例,其特征在于,借助于所述卷积层的多重卷积运算,所述统合训练图像缩小为1/S,在将所述各个卷积层的各个内核的最大尺寸设为K×K时,使得所述零填充区域的宽度为
Figure BDA0002320435230000031
一个实施例,其特征在于,在所述(a)步骤中,所述学习装置使所述目标区域预测网络,运算关于所述训练图像或与其对应的调整尺寸后图像各自的各个比例尺直方图,参照所述比例尺直方图,查找与预测为所述目标客体所在的比例尺推选对应的所述第1目标区域至所述第n目标区域。
一个实施例,其特征在于,在所述(a)步骤中,所述学习装置使所述图像加工网络,在所述训练图像或与其对应的调整尺寸后图像上,剪裁与所述第1目标区域至所述第n目标区域对应的一个以上区域,从而获得所述第1加工图像至所述第n加工图像,或者在所述训练图像或与其对应的调整尺寸后图像上,裁剪与所述第1目标区域至所述第n目标区域对应的一个以上区域后调整尺寸,从而获得所述第1加工图像至所述第n加工图像。
一个实施例,其特征在于,所述第1目标区域至所述第n目标区域,对应于位于所述训练图像内的所述目标客体中互不相同的多个目标客体,或对应于位于所述训练图像及与其对应的调整尺寸后图像内的至少一个相同目标客体。
根据本发明的另一个方面,提供一种测试利用图像级联且基于CNN的客体检测器的方法,其特征在于,包括:(a)步骤,学习装置(1)(i)使目标区域预测网络,在至少一个训练图像或与其对应的一个以上的调整尺寸后学习用图像上,分别查找与预测为一个以上学习用目标客体所在的区域对应的第1学习用目标区域至第n学习用目标区域,(ii)使图像加工网络,从所述训练图像或与其对应的调整尺寸后学习用图像,获得与所述第1学习用目标区域至所述第n学习用目标区域分别对应的第1学习用加工图像至第n学习用加工图像,(iii)输出将所述第1学习用加工图像至所述第n学习用加工图像级联起来的统合训练图像,(2)(i)使一个以上的卷积层,对所述统合训练图像应用一个以上的卷积运算,从而输出至少一个学习用统合特征图,(ii)使RPN,利用所述学习用统合特征图,分别输出与位于所述第1学习用加工图像至所述第n学习用加工图像各自内的一个以上学习用客体对应的第1学习用客体推选至第n学习用客体推选,(iii)使池化层,在所述学习用统合特征图上,对与所述第1学习用客体推选至所述第n学习用客体推选分别对应的各个区域,应用一个以上的池化运算,输出至少一个学习用池化后统合特征图,(iv)使FC层,对所述学习用池化后统合特征图应用至少一个FC运算,输出与所述学习用客体对应的第1学习用客体检测信息至第n学习用客体检测信息,(3)使至少一个FC损失层,参照所述第1学习用客体检测信息至所述第n学习用客体检测信息和与其对应的GT,获得一个以上的第1FC损失至一个以上的第nFC损失,进而通过利用所述第1FC损失至所述第nFC损失的反向传播,学习所述FC层及所述卷积层的参数中至少一部分;在这种状态下,测试装置获得至少一个测试图像后,则(i)使所述目标区域预测网络,在所述测试图像或与其对应的一个以上的调整尺寸后测试用图像上,分别查找与预测为一个以上的测试用目标客体所在的区域对应的第1测试用目标区域至第n测试用目标区域,(ii)使所述图像加工网络,从所述测试图像或与其对应的调整尺寸后测试用图像,获得与所述第1测试用目标区域至所述第n测试用目标区域分别对应的第1测试用加工图像至第n测试用加工图像,(iii)输出将所述第1测试用加工图像至所述第n测试用加工图像级联起来的统合测试图像;及(b)步骤,所述测试装置(i)使所述卷积层,将所述卷积运算应用于所述统合测试图像,从而输出至少一个测试用统合特征图,(ii)使所述RPN,利用所述测试用统合特征图,分别输出与分别位于所述第1测试用加工图像至所述第n测试用加工图像内的一个以上测试用客体对应的第1测试用客体推选至第n测试用客体推选,(iii)使所述池化层,在所述测试用统合特征图上,对与所述第1测试用客体推选至所述第n测试用客体推选分别对应的各个区域应用所述池化运算,输出至少一个测试用池化后统合特征图,(iv)使所述FC层,对所述测试用池化后统合特征图应用所述FC运算,输出与所述测试用客体对应的第1测试用客体检测信息至第n测试用客体检测信息。
一个实施例,其特征在于,在所述(a)步骤中,所述测试装置使所述图像加工网络,将所述第1测试用加工图像至所述第n测试用加工图像的宽度和高度中至少一者调整得相同后,沿着调整为相同大小的所述宽度或所述高度方向,将所述第1测试用调整后加工图像至所述第n测试用调整后加工图像级联起来。
一个实施例,其特征在于,所述测试装置使所述图像加工网络,在所述第1测试用调整后加工图像至所述第n测试用调整后加工图像中,在由级联的邻接的两个测试用调整后加工图像构成的各个对之间,分别添加至少一个零填充区域。
一个实施例,其特征在于,借助于所述卷积层的多重卷积运算,所述统合测试图像缩小为1/S,在将所述各个卷积层的各个内核的最大尺寸设为K×K时,使得所述零填充区域的宽度为
Figure BDA0002320435230000051
一个实施例,其特征在于,在所述(a)步骤中,所述测试装置使所述目标区域预测网络,运算关于所述测试图像或与其对应的调整尺寸后测试用图像各自的各个测试用比例尺直方图,参照所述测试用比例尺直方图,查找与预测为所述测试用目标客体所在的比例尺推选对应的所述第1测试用目标区域至所述第n测试用目标区域。
一个实施例,其特征在于,在所述(a)步骤中,所述测试装置使所述图像加工网络,在所述测试图像或与其对应的调整尺寸后测试用图像上,查找与所述第1测试用目标区域至所述第n测试用目标区域对应的一个以上区域,从而获得所述第1测试用加工图像至所述第n测试用加工图像,或者在所述测试图像或与其对应的调整尺寸后测试用图像上,裁剪与所述第1测试用目标区域至所述第n测试用目标区域对应的一个以上区域后调整尺寸,从而获得所述第1测试用加工图像至所述第n测试用加工图像。
一个实施例,其特征在于,所述第1测试用目标区域至所述第n测试用目标区域对应于位于所述测试图像内的所述测试用目标客体中互不相同的多个测试用目标客体,或对应于位于所述测试图像及与其对应的调整尺寸后测试用图像内的至少一个相同的测试用目标客体。
根据本发明的又另一方面,提供一种用于学习利用图像级联且基于CNN的客体检测器的参数的学习装置,其特征在于,包括:存储指令的至少一个存储器;及至少一个处理器,所述至少一个处理器构成为运行所述指令,所述指令用于执行:(I)流程,(i)使目标区域预测网络,在至少一个训练图像或与其对应的一个以上调整尺寸后图像上,分别查找与预测为一个以上目标客体所在的区域对应的第1目标区域至第n目标区域,(ii)使图像加工网络,从所述训练图像或与其对应的调整了尺寸的图像,获得与所述第1目标区域至所述第n目标区域分别对应的第1加工图像至第n加工图像,(iii)输出将所述第1加工图像至所述第n加工图像级联起来的统合训练图像;(II)流程,(i)使一个以上的卷积层,对所述统合训练图像应用一个以上的卷积运算,从而输出至少一个统合特征图,(ii)使RPN,利用所述统合特征图,分别输出与分别位于所述第1加工图像至所述第n加工图像内的一个以上客体对应的第1客体推选至第n客体推选,(iii)使池化层,在所述统合特征图上,对与所述第1客体推选至所述第n客体推选分别对应的各个区域,应用一个以上的池化运算,生成至少一个池化后统合特征图,(iv)使FC层,对所述池化后统合特征图应用至少一个FC运算,输出与所述客体对应的第1客体检测信息至第n客体检测信息;及(III)流程,使至少一个FC损失层,参照所述第1客体检测信息至所述第n客体检测信息和与其对应的GT,获得一个以上的第1FC损失至一个以上的第n FC损失,进而通过利用所述第1FC损失至所述第n FC损失的反向传播,学习所述FC层及所述卷积层的参数中至少一部分。
一个实施例,其特征在于,所述处理器在所述(II)流程之后,使至少一个RPN损失层,参照所述第1客体推选至所述第n客体推选和与其对应的GT,获得一个以上的第1RPN损失至一个以上的第nRPN损失,进而通过利用所述第1RPN损失至所述第nRPN损失的反向传播,学习所述RPN的参数中至少一部分。
一个实施例,其特征在于,在所述(I)流程中,所述处理器使所述图像加工网络,将所述第1加工图像至所述第n加工图像的宽度和高度中至少一者调整得相同后,沿着调整为相同大小的所述宽度或所述高度方向,将所述第1调整后加工图像至所述第n调整后加工图像级联起来。
一个实施例,其特征在于,所述处理器使所述图像加工网络,在所述第1调整后加工图像至所述第n调整后加工图像中,在由级联的邻接的两个调整后加工图像构成的各个对之间,分别添加至少一个零填充区域。
一个实施例,其特征在于,借助于所述卷积层的多重卷积运算,所述统合训练图像缩小为1/S,在将所述各个卷积层的各个内核的最大尺寸设为K×K时,使得所述零填充区域的宽度为
Figure BDA0002320435230000071
一个实施例,其特征在于,在所述(I)流程中,所述处理器使所述目标区域预测网络,运算关于所述训练图像或与其对应的调整尺寸后图像各自的各个比例尺直方图,参照所述比例尺直方图,查找与预测为所述目标客体所在的比例尺推选对应的所述第1目标区域至所述第n目标区域。
一个实施例,其特征在于,在所述(I)流程中,所述处理器使所述图像加工网络,在所述训练图像或与其对应的调整尺寸后图像上,剪裁与所述第1目标区域至所述第n目标区域对应的一个以上区域,从而获得所述第1加工图像至所述第n加工图像,或者在所述训练图像或与其对应的调整尺寸后图像上,裁剪与所述第1目标区域至所述第n目标区域对应的一个以上区域后调整尺寸,从而获得所述第1加工图像至所述第n加工图像。
一个实施例,其特征在于,所述第1目标区域至所述第n目标区域对应于位于所述训练图像内的所述目标客体中互不相同的多个目标客体,或对应于位于所述训练图像及与其对应的调整尺寸后图像内的至少一个相同目标客体。
根据本发明的又另一方面,提供一种用于测试利用图像级联且基于CNN的客体检测器的测试装置,其特征在于,包括:存储指令的至少一个存储器;及至少一个处理器,所述至少一个处理器构成为执行所述指令,所述指令用于在如下状态下,即,学习装置(1)(i)使目标区域预测网络,在至少一个训练图像或与其对应的一个以上的调整尺寸后学习用图像上,分别查找与预测为一个以上学习用目标客体所在的区域对应的第1学习用目标区域至第n学习用目标区域,(ii)使图像加工网络,从所述训练图像或与其对应的调整尺寸后学习用图像,获得与所述第1学习用目标区域至所述第n学习用目标区域分别对应的第1学习用加工图像至第n学习用加工图像,(iii)输出将所述第1学习用加工图像至所述第n学习用加工图像级联起来的统合训练图像,(2)(i)使一个以上的卷积层,对所述统合训练图像应用一个以上的卷积运算,从而输出至少一个学习用统合特征图,(ii)使RPN,利用所述学习用统合特征图,分别输出与位于所述第1学习用加工图像至所述第n学习用加工图像各自内的一个以上学习用客体对应的第1学习用客体推选至第n学习用客体推选,(iii)使池化层,在所述学习用统合特征图上,对与所述第1学习用客体推选至所述第n学习用客体推选分别对应的各个区域,应用一个以上的池化运算,输出至少一个学习用池化后统合特征图,(iv)使FC层,对所述学习用池化后统合特征图应用至少一个FC运算,输出与所述学习用客体对应的第1学习用客体检测信息至第n学习用客体检测信息,(3)使至少一个FC损失层,参照所述第1学习用客体检测信息至所述第n学习用客体检测信息和与其对应的GT,获得一个以上的第1FC损失至一个以上的第nFC损失,进而通过利用所述第1FC损失至所述第nFC损失的反向传播,学习所述FC层及所述卷积层的参数中至少一部分;在这种状态下,所述指令用于执行:(I)流程,(i)使所述目标区域预测网络,在至少一个测试图像或与其对应的一个以上的调整尺寸后测试用图像上,分别查找与预测为一个以上的测试用目标客体所在的区域对应的第1测试用目标区域至第n测试用目标区域,(ii)使所述图像加工网络,从所述测试图像或与其对应的调整尺寸后测试用图像获得与所述第1测试用目标区域至所述第n测试用目标区域分别对应的第1测试用加工图像至第n测试用加工图像,(iii)输出将所述第1测试用加工图像至所述第n测试用加工图像级联起来的统合测试图像;及(II)流程,(i)使所述卷积层,将所述卷积运算应用于所述统合测试图像,从而输出至少一个测试用统合特征图,(ii)使所述RPN,利用所述测试用统合特征图,分别输出与分别位于所述第1测试用加工图像至所述第n测试用加工图像内的一个以上测试用客体对应的第1测试用客体推选至第n测试用客体推选,(iii)使所述池化层,在所述测试用统合特征图上,对与所述第1测试用客体推选至所述第n测试用客体推选分别对应的各个区域应用所述池化运算,输出至少一个测试用池化后统合特征图,(iv)使所述FC层,对所述测试用池化后统合特征图应用所述FC运算,输出与所述测试用客体对应的第1测试用客体检测信息至第n测试用客体检测信息。
一个实施例,其特征在于,在所述(I)流程中,所述处理器使所述图像加工网络,将所述第1测试用加工图像至所述第n测试用加工图像的宽度和高度中至少一者调整得相同后,沿着调整为相同大小的所述宽度或所述高度方向,将所述第1测试用调整后加工图像至所述第n测试用调整后加工图像级联起来。
一个实施例,其特征在于,所述处理器使所述图像加工网络,在所述第1测试用调整后加工图像至所述第n测试用调整后加工图像中,在由级联的邻接的两个测试用调整后加工图像构成的各个对之间,分别添加至少一个零填充区域。
一个实施例,其特征在于,借助于所述卷积层的多重卷积运算,所述统合测试图像缩小为1/S,在将所述各个卷积层的各个内核的最大尺寸设为K×K时,使得所述零填充区域的宽度为
Figure BDA0002320435230000091
一个实施例,其特征在于,在所述(I)流程中,所述处理器使所述目标区域预测网络,运算关于所述测试图像或与其对应的调整尺寸后测试用图像各自的各个测试用比例尺直方图,参照所述测试用比例尺直方图,查找与预测为所述测试用目标客体所在的比例尺推选对应的所述第1测试用目标区域至所述第n测试用目标区域。
一个实施例,其特征在于,在所述(I)流程中,所述处理器使所述图像加工网络,在所述测试图像或与其对应的调整尺寸后测试用图像上,查找与所述第1测试用目标区域至所述第n测试用目标区域对应的一个以上区域,从而获得所述第1测试用加工图像至所述第n测试用加工图像,或者在所述测试图像或与其对应的调整尺寸后测试用图像上,裁剪与所述第1测试用目标区域至所述第n测试用目标区域对应的一个以上区域后调整尺寸,从而获得所述第1测试用加工图像至所述第n测试用加工图像。
一个实施例,其特征在于,所述第1测试用目标区域至所述第n测试用目标区域对应于位于所述测试图像内的所述测试用目标客体中互不相同的多个测试用目标客体,或对应于位于所述测试图像及与其对应的调整尺寸后测试用图像内的至少一个相同的测试用目标客体。
与现有技术相比,本发明的优点在于:
本发明具有可以与尺寸无关地有效检测位于图像上的客体的效果。
另外,本发明具有可以在不增加运算量的同时检测所述图像内的客体的效果。
另外,本发明具有可以利用与尺寸多样的客体对应的目标区域来减小CNN运算量并有效检测客体的效果。
附图说明
为了用于说明本发明实施例而附带的下面的图,只是本发明实施例中的一部分,本发明所属技术领域的普通技术人员(以下称为“普通技术人员”)可以不进行发明性作业,基于这些图获得其他图。
图1是概略地显示本发明一个实施例的学习利用图像级联且基于CNN的客体检测器的学习装置的图。
图2是概略地显示本发明一个实施例的学习利用所述图像级联且基于所述CNN的客体检测器的方法的图。
图3是概略地显示本发明一个实施例的学习利用所述图像级联且基于所述CNN的客体检测器时将使用的、在图像金字塔上预测各个目标区域的过程的图。
图4是概略地显示本发明一个实施例的学习利用所述图像级联且基于所述CNN的客体检测器时将使用的、对与各个目标区域对应的加工图像级联起来的状态的图。
图5是概略地显示本发明一个实施例的测试利用所述图像级联且基于所述CNN的客体检测器的测试装置的图。
图6是概略地显示本发明一个实施例的测试利用所述图像级联且基于所述CNN的客体检测器的方法的图。
具体实施方式
后述有关本发明的详细说明,为了使本发明的目的、技术方案及优点更分明,参照作为示例而图示本发明可实施的特定实施例的附图,对这些实施例进行了详细说明,以便普通技术人员足以能够实施本发明。
另外,在本发明通篇内容及权利要求中,“包括”字样的术语及其变形,并非要将其他技术特征、附加物、构成要素或步骤排除在外。对于普通技术人员而言,本发明的其他目的、优点及特性,一部分来自本说明书,而一部分来自本发明的实施。以下的示例及附图是作为实例而提供的,并非意图限定本发明。
进一步地,本发明涵盖本说明书中显示的实施例的所有可能组合。本发明的多样实施例虽然互不相同,但应理解为不需要相互排他。例如,在此记载的特定形状、结构及特性,可以与一个实施例相关联,在不超出本发明的精神及范围的前提下体现为其他实施例。另外,各个公开的实施例内的个别构成要素的位置及配置,应理解为在不超出本发明的精神及范围的前提下可以进行变更。因此,后述的详细说明并非出于限定之意,本发明的范围,如能适当说明,则仅由与其权利要求所主张的内容等同的所有范围和所附权利要求所限定。在附图中,类似的附图标记指称在多个方面相同或类似的功能。
本发明中提及的各种图像可以包括铺装或非铺装道路相关图像,是可以推断此时会在道路环境中出现的物体(例如汽车、人、动物、植物、物品、建筑物、诸如飞机或无人机的飞行体、其他障碍物)的图像,但并非必须限定于此,本发明中提及的各种图像也可以是与道路无关的图像(例如与非铺设道路、小胡同、空地、海、湖、河、山、树林、沙漠、天空、室内相关的图像),是可以推断此时会在非铺设道路、小胡同、空地、海、湖、河、山、树林、沙漠、天空、室内环境中出现的物体(例如汽车、人、动物、植物、物品、建筑物、诸如飞机或无人机的飞行体、其他障碍物)的图像,但并非必须限定于此。
下面为了让本发明所属技术领域的普通技术人员能够容易地实施本发明,参照附图,就本发明优选实施例进行详细说明。
图1概略地图示了本发明一个实施例的利用图像级联来学习基于CNN的客体检测器的学习装置,参照图1,所述学习装置100包括通信部110和处理器120。
首先,所述通信部110获得或支持使得其他装置获得至少一个训练图像。
此时,所述训练图像存储于数据库130,所述数据库130存储有针对与位于所述训练图像的一个以上客体分别对应的类信息及位置信息的至少一个GT(ground truth,地面真值)。另外,所述数据库130可以存储关于位置信息及类信息的至少一个GT,所述位置信息及类信息是关于将所述训练图像调整尺寸而生成的、调整了尺寸的图像内的所述各个客体的信息。
另外,所述学习装置还包括存储器115,所述存储器115能够存储执行后述的流程的计算机可读指令(computer readable instruction)。作为一个示例,所述处理器、所述存储器及介质(medium)等可以统合为一个处理器而发挥功能。
然后,所述处理器120(i)使目标区域预测网络,在所述训练图像或与其对应的一个以上调整了尺寸的图像上,分别查找与预测为一个以上目标客体所在的区域对应的第1目标区域至第n目标区域,(ii)使图像加工网络,从所述训练图像或与其对应的调整了尺寸的图像,获得与所述第1目标区域至所述第n目标区域分别对应的第1加工图像至第n加工图像,(iii)输出将所述第1加工图像至所述第n加工图像级联的统合训练图像。而且,所述处理器120(i)使一个以上的卷积层,对所述统合训练图像应用一个以上的卷积运算,从而输出至少一个统合特征图,(ii)使RPN,利用所述统合特征图,分别输出与分别位于所述第1加工图像至所述第n加工图像内的所述客体对应的第1客体推选至第n客体推选,(iii)使池化层,在所述统合特征图上,对与所述第1客体推选至所述第n客体推选分别对应的各个区域,应用一个以上的池化运算,生成至少一个池化后统合特征图,(iv)使FC层,对所述池化后统合特征图应用至少一个FC运算,输出与所述客体对应的第1客体检测信息至第n客体检测信息。然后,所述处理器120使至少一个FC损失层,参照所述第1客体检测信息至所述第n客体检测信息和与其对应的GT,获得一个以上的第1FC损失至一个以上的第n FC损失,进而通过利用所述第1FC损失至所述第n FC损失的反向传播,学习所述FC层及所述卷积层的参数中至少一部分。
另外,所述处理器120可以使至少一个RPN损失层,参照所述第1客体推选至所述第n客体推选和与其对应的GT,获得一个以上的第1RPN损失至一个以上的第n RPN损失,从而通过利用所述第1RPN损失至所述第n RPN损失的反向传播,学习所述RPN的参数中至少一部分。
此时,本发明一个实施例的所述学习装置100作为计算装置,只要是搭载处理器并具有运算能力的装置,则均可用作本发明的学习装置100。另外,在图1中,只显示了一个学习装置100,但不限定于此,所述学习装置也可以分成多个装置并执行功能。
下面参照图2,说明利用如上所述构成的本发明一个实施例的所述学习装置100,学习利用所述图像级联且基于CNN的客体检测器的参数的方法。
首先,输入所述训练图像后,所述学习装置100使目标区域预测网络121,在所述训练图像或与其对应的调整了尺寸的图像上,查找与预测为至少一个目标客体所在的至少一个区域对应的所述第1目标区域至所述第n目标区域。
此时,所述第1目标区域至所述第n目标区域可以对应于位于相同的图像内的所述目标客体中互不相同的多个目标客体,或对应于位于互不相同尺寸的多个图像内的相同的目标客体。另外,所述第1目标区域至所述第n目标区域可以对应于预测为位于使相同图像尺寸变得互不相同后的所述图像金字塔中的各个图像内的目标客体。
即,所述目标区域预测网络121可以在所述训练图像上,查找与预测为第1目标客体至第n目标客体所在的区域对应的所述第1目标区域至所述第n目标区域,或将所述训练图像调整尺寸,在获得的第1调整尺寸后图像至第n调整尺寸后图像上,分别查找与预测为至少一个特定目标客体所在的区域对应的各个所述第1目标区域至所述第n目标区域。
另外,所述目标区域预测网络121可以在所述训练图像上,查找与预测为单一目标客体所在的区域对应的特定目标区域,将所述训练图像调整尺寸,在获得的所述第1调整尺寸后图像至所述第n调整尺寸后图像上,分别查找与预测为所述单一目标客体所在的区域对应的所述第1目标区域至所述第n目标区域。而且,当在所述训练图像内有多个目标客体时,可以在所述各个调整尺寸后图像中,预测与所述目标客体对应的所述目标区域。
另一方面,所述目标区域预测网络121可以运算关于所述训练图像或与其对应的调整尺寸后图像各自的各个比例尺直方图,参照所述比例尺直方图,从而查找与预测为所述目标客体所在的比例尺推选对应的所述第1目标区域至所述第n目标区域。
另外,所述目标区域预测网络121可以针对所述训练图像或与其对应的调整尺寸后图像分别执行分割,以所述分割为基础,设置用于查找所述目标区域的种子(seed)后,参照由小目标区域反复统合的统合区域,设置所述目标区域。
另外,所述目标区域预测网络121可以通过前景分割(foregroundsegmentation),确认图像上的前景,参照所述确认的前景,预测为有至少一个目标客体存在,将尺寸为预测包括所述至少一个目标客体的至少一个区域,设置为至少一个目标区域。
而且,所述目标区域预测网络121可以利用显著性检测(saliency detection)方法,设置一个以上的目标区域。
但是,本申请发明不限于此,可以使用对预测为图像内目标客体所在的目标区域进行查找的所有方法。
然后,所述学习装置100使图像加工网络111,在与所述目标区域预测网络121设置的第1目标区域至第n目标区域分别对应的所述训练图像或分别与其对应的调整尺寸后图像上,获得与所述第1目标区域至所述第n目标区域对应的第1加工图像至第n加工图像。
此时,所述学习装置100可以使所述图像加工网络111,在所述训练图像或与其对应的调整尺寸后图像上,裁剪与所述第1目标区域至所述第n目标区域对应的一个以上的区域,获得所述第1加工图像至所述第n加工图像,或在所述训练图像或与其对应的调整尺寸后图像上,裁剪与所述第1目标区域至所述第n目标区域对应的一个以上的区域后调整尺寸,获得所述第1加工图像至所述第n加工图像。
作为一个示例,参照图3,可以将包括所述第1目标区域在内的所述第1调整尺寸后图像RI1获得为所述第1加工图像MI1,与所述第2目标区域对应的所述第2加工图像MI2可以从所述第2调整尺寸后图像RI2生成,与第3目标区域对应的所述第3加工图像MI3可以从第3调整尺寸后图像生成。
然后,所述学习装置100可以使所述图像加工网络111,获得将所述第1加工图像至所述第3加工图像级联的所述统合训练图像。
此时,所述学习装置100可以使所述图像加工网络111,将所述第1加工图像至所述第3加工图像的宽度和高度中至少一者调整得相同后,沿着调整得相同的所述宽度或所述高度方向,将所述第1调整后加工图像至所述第3调整后加工图像级联起来。
而且,所述学习装置100可以使所述图像加工网络111,在所述第1调整后加工图像至所述第3调整后加工图像中,在由级联的邻接的两个调整后加工图像构成的各个对之间,分别添加至少一个零填充(zero padding)区域。此时,借助于所述卷积层的多重卷积运算,所述统合训练图像缩小为1/S,在将所述各个卷积层的各个内核的最大尺寸设为K×K时,使得所述零填充区域的宽度为
Figure BDA0002320435230000151
由此,可以使所述CNN的开销(overhead)最小化。
作为一个示例,参照图4,通过图3的过程生成的所述第1加工图像MI1、所述第2加工图像MI2及所述第3加工图像MI3在调整得彼此高度相同后可以级联。此时,各个零填充区域PR可以添加于各个所述邻接的调整后加工图像之间。作为另一示例,将所述加工图像的宽度调整得相同后,可以利用所述调整后宽度,将所述各个加工图像级联,或将所述宽度与所述高度调整得相同后,将所述各个加工图像级联成大的正方形形状。
然后,所述学习装置100可以使卷积层122,对所述统合训练图像应用所述卷积运算,从而输出至少一个统合特征图。此时,所述卷积层122既可以为单一卷积层,也可以为多个卷积层。
然后,所述学习装置100可以使RPN123,利用所述统合特征图,输出与位于所述统合训练图像包括的所述第1加工图像至所述第n加工图像内的所述客体对应的一个以上第1客体推选至一个以上第n客体推选。
此时,所述第1客体推选至所述第n客体推选分别可以对应于位于所述第1加工图像至所述第n加工图像内的各个所述客体,所述各个客体推选可以包括关于所述各个客体的各推选框的信息,所述关于推选框的信息具有与标记区域对应的位置信息和关于所述各个标记区域是否为客体的信息。此时,关于是否为客体的信息可以包括所述各个客体推选被预测为客体的几率信息,所述关于推选框的信息可以包括所述推选框被预测为与所述客体位置一致的几率信息。
然后,所述学习装置100可以使池化层124,在所述统合特征图上,对与所述第1客体推选至所述第n客体推选分别对应的各个区域应用所述池化运算,生成至少一个池化后统合特征图,使FC层125,对所述池化后统合特征图应用所述FC运算,输出与所述客体对应的第1客体检测信息至第n客体检测信息。
此时,所述第1客体检测信息至所述第n客体检测信息可以包括关于与所述第1客体推选至所述第n客体推选对应的所述各个客体的类信息和关于边界框的信息(即,关于所述各个客体的位置信息)。另外,所述类信息可以包括所述各个客体被预测为相应类的几率信息,关于所述边界框的信息可以包括所述各个边界框被预测为与所述客体的位置一致的几率信息。
然后,所述学习装置100可以使至少一个FC损失层126,参照所述第1客体检测信息至所述第n客体检测信息和与其对应的GT,获得一个以上的第1FC损失至一个以上的第n FC损失,进而通过利用所述第1FC损失至所述第n FC损失的反向传播,学习所述FC层125及所述卷积层122的参数中至少一部分。
另外,所述学习装置100可以使至少一个RPN损失层127,参照所述第1客体推选至所述第n客体推选和与其对应的GT,获得一个以上的第1RPN损失至一个以上的第nRPN损失,进而通过所述第1RPN损失至所述第n RPN损失的反向传播,学习所述RPN123的参数中至少一部分。
根据如上所述的方法,能够高效检测位于所述训练图像内的尺寸多样的客体,特别是尺寸小、位于远处的所述客体,另外,由于只使用与所述预测的目标区域对应的区域,因而可以减小运算量,因此,能够缩短基于所述CNN的所述客体检测的运算时间。
另外,以上对于假定在所述训练图像上的目标客体为一个的情形进行了说明,但在所述训练图像内的目标客体为多个的情况下,也可以根据如上所述的方法,利用所述训练图像内的与所述各个目标客体对应的各个目标区域,实现所述各个目标客体的检测。
图5概略地图示了本发明一个实施例的测试利用所述图像级联且基于所述CNN的客体检测器的测试装置,参照图5,所述测试装置200包括通信部210和处理器220。
首先,所述通信部210可以获得或支持其他装置获得至少一个测试图像。
另外,所述测试装置还包括存储器215,所述存储器115能够存储执行后述的流程的计算机可读指令。作为一个示例,所述处理器、所述存储器及介质等可以统合为一个处理器而发挥功能。
此时,利用所述图像级联的、基于所述CNN的所述客体检测器,可以利用参照图1至图4说明的所述学习方法进行学习。
作为参考,在以下说明中为了防止混同,在与学习流程相关的术语中添加了“学习用”字样的语句,在与测试流程相关的术语中添加了“测试用”字样的语句。
即,可以是如下状态:获得至少一个训练图像后,所述学习装置(a)(i)使所述目标区域预测网络,在所述训练图像或与其对应的一个以上调整尺寸后学习用图像上,分别查找与预测为一个以上学习用目标客体所在的区域对应的第1学习用目标区域至第n学习用目标区域,(ii)使所述图像加工网络,从所述训练图像或与其对应的调整尺寸后学习用图像,获得与所述第1学习用目标区域至所述第n学习用目标区域分别对应的第1学习用加工图像至第n学习用加工图像,(iii)输出将所述第1学习用加工图像至所述第n学习用加工图像进行了级联的统合训练图像,(b)(i)使所述卷积层,将所述卷积运算应用于所述统合训练图像,进而输出至少一个学习用统合特征图,(ii)使所述RPN,利用所述学习用统合特征图,分别输出与位于所述第1学习用加工图像至所述第n学习用加工图像各自内的一个以上学习用客体对应的第1学习用客体推选至第n学习用客体推选,(iii)使所述池化层,在所述学习用统合特征图上,对与所述第1学习用客体推选至所述第n学习用客体推选分别对应的各个区域应用所述池化运算,输出至少一个学习用池化后统合特征图,(iv)使所述FC层,对所述学习用池化后统合特征图应用所述FC运算,输出与所述学习用客体对应的第1学习用客体检测信息至第n学习用客体检测信息,(c)使所述FC损失层,参照所述第1学习用客体检测信息至所述第n学习用客体检测信息和与其对应的GT,算出一个以上第1FC损失至一个以上第n FC损失,进而通过利用所述第1FC损失至所述第nFC损失的反向传播,学习所述FC层及所述卷积层的参数中至少一部分。
另外,可以是如下状态:所述学习装置使所述RPN损失层,参照第1学习用客体推选至第n学习用客体推选的信息和与其分别对应的GT,获得第1RPN损失至第n RPN损失,进而通过利用所述第1RPN损失至所述第nRPN损失的反向传播,学习所述RPN的参数。
然后,所述处理器220执行如下流程:(i)使所述目标区域预测网络,在至少一个测试图像或与其对应的一个以上调整尺寸后测试用图像上,分别查找与预测为一个以上的测试用目标客体所在的区域对应的第1测试用目标区域至第n测试用目标区域,(ii)使所述图像加工网络,从所述测试图像或与其对应的调整尺寸后测试用图像,获得与所述第1测试用目标区域至所述第n测试用目标区域分别对应的第1测试用加工图像至第n测试用加工图像,(iii)输出将所述第1测试用加工图像至所述第n测试用加工图像进行了级联的统合测试图像。而且,所述处理器220可以(i)使所述卷积层,将所述卷积运算应用于所述统合测试图像,从而输出至少一个测试用统合特征图,(ii)使所述RPN,利用所述测试用统合特征图,分别输出与分别位于所述第1测试用加工图像至所述第n测试用加工图像内的一个以上测试用客体对应的第1测试用客体推选至第n测试用客体推选,(iii)使所述池化层,在所述测试用统合特征图上,对与所述第1测试用客体推选至所述第n测试用客体推选分别对应的各个区域应用所述池化运算,输出至少一个测试用池化后统合特征图,(iv)使所述FC层,对所述测试用池化后统合特征图应用所述FC运算,输出与所述测试用客体对应的第1测试用客体检测信息至第n测试用客体检测信息。
此时,本发明一个实施例的测试装置200作为计算装置,只要是搭载处理器并具有运算能力的装置,则均可用作本发明的测试装置200。作为参考,在图6中,只显示了一个测试装置200,但不限定于此,测试装置也可以分成多个装置并执行功能。
下面参照图6,说明本发明一个实施例的利用所述测试装置200来测试利用所述图像级联的、基于所述CNN的所述客体检测器的方法。在以下说明中,对于通过参照图1至图4说明的所述学习方法而能够容易地理解的部分,省略详细说明。
首先,根据参照图1至图4说明的学习方法,在学习了FC层225、卷积层222及RPN223的参数中至少一部分的状态下,输入了所述测试图像后,所述测试装置200使目标区域预测网络221,在所述测试图像或与其对应的调整尺寸后图像上,查找与预测为所述测试用目标客体所在的至少一个区域对应的所述第1测试用目标区域至所述第n测试用目标区域。
此时,所述第1测试用目标区域至所述第n测试用目标区域,可以对应于位于相同的测试图像内的所述测试用目标客体中互不相同的多个测试用目标客体,或对应于位于互不相同尺寸的多个图像内的相同的测试用目标客体。另外,所述第1测试用目标区域至所述第n测试用目标区域可以对应于预测为位于使相同图像尺寸变得互不相同后的所述图像金字塔中的各个图像内的测试用目标客体。
即,所述目标区域预测网络221可以在所述测试图像上,查找与预测为第1测试用目标客体至第n测试用目标客体所在的区域对应的所述第1测试用目标区域至所述第n测试用目标区域,或将所述测试图像调整尺寸,在获得的第1测试用调整尺寸后图像至第n测试用调整尺寸后图像上,分别查找与预测为至少一个特定测试用目标客体所在的区域对应的所述第1测试用目标区域至所述第n测试用目标区域。另外,所述目标区域预测网络221可以在所述测试图像上,查找与预测为单一目标客体所在的区域对应的特定目标区域,然后对所述测试图像调整尺寸,在获得的第1测试用调整尺寸后图像至第n测试用调整尺寸后图像上,分别查找与预测为所述单一测试用目标客体所在的区域对应的所述第1测试用目标区域至所述第n测试用目标区域。而且,当在所述测试图像内有多个测试用目标客体时,可以在所述测试图像的调整尺寸后图像中,分别预测与所述测试用目标客体对应的所述测试用目标区域。
然后,所述测试装置200使所述图像加工网络211,在与所述目标区域预测网络221设置的第1测试用目标区域至第n测试用目标区域分别对应的所述测试图像或与其分别对应的调整尺寸后图像上,获得与所述第1测试用目标区域至所述第n测试用目标区域对应的第1测试用加工图像至第n测试用加工图像。
此时,所述测试装置200可以使所述图像加工网络211,在所述测试图像或与其对应的调整尺寸后图像上,裁剪与所述第1测试用目标区域至所述第n测试用目标区域对应的一个以上区域,获得所述第1测试用加工图像至所述第n测试用加工图像,或者在所述测试图像或与其对应的调整尺寸后图像上,裁剪与所述第1测试用目标区域至所述第n测试用目标区域对应的一个以上区域后调整尺寸,获得所述第1测试用加工图像至所述第n测试用加工图像。
然后,所述测试装置200使所述图像加工网络211,获得将所述第1测试用加工图像至所述第n测试用加工图像进行了级联的所述统合测试图像。
此时,所述测试装置200可以使所述图像加工网络211,将所述第1测试用加工图像至所述第n测试用加工图像的宽度和高度中至少一者调整得相同后,沿着调整得相同的所述宽度或所述高度方向,将所述第1测试用调整后加工图像至所述第n测试用调整后加工图像级联起来。
而且,所述测试装置200可以使所述图像加工网络211,在所述第1测试用调整后加工图像至所述第n测试用调整后加工图像中,在由级联的邻接的两个测试用调整后加工图像构成的各个对之间,分别添加至少一个零填充区域。此时,借助于所述卷积层的多重卷积运算,所述统合测试图像可以缩小为1/S,在将所述各个卷积层的各个内核的最大尺寸设为K×K时,使得所述零填充区域的宽度为
Figure BDA0002320435230000201
然后,所述测试装置200使所述卷积层222,对所述统合测试图像应用所述卷积运算,从而输出至少一个测试用统合特征图。此时,所述卷积层222既可以为单一卷积层,也可以为多个卷积层。
然后,所述测试装置200使所述RPN223,利用所述测试用统合特征图,输出与位于所述统合测试图像包括的所述第1测试用加工图像至所述第n测试用加工图像内的所述测试用客体对应的一个以上第1测试用客体推选至一个以上第n测试用客体推选。
此时,所述第1测试用客体推选至所述第n测试用客体推选分别可以包括关于所述各个测试用客体的各推选框的信息,所述关于推选框的信息具有与标记区域对应的位置信息和关于所述标记区域是否为客体的信息。
然后,所述测试装置200使池化层224,在所述测试用统合特征图上,对与所述第1测试用客体推选至所述第n测试用客体推选分别对应的各个区域应用所述池化运算,输出至少一个测试用池化后统合特征图,使所述FC层225,对所述测试用池化后统合特征图应用所述FC运算,输出与所述测试用客体对应的第1测试用客体检测信息至第n测试用客体检测信息。
此时,所述第1测试用客体检测信息至所述第n测试用客体检测信息,可以包括关于测试用边界框的信息(即,关于所述各个测试用客体的位置信息)及关于与所述第1测试用客体推选至所述第n测试用客体推选对应的所述各个测试用客体的类信息。
根据如上所述的方法,能够高效检测位于所述测试图像内的尺寸多样的客体,特别是尺寸小、位于远处的所述客体,另外,由于只使用与所述预测的目标区域对应的区域,因而能够减小运算量,从而能够缩短基于所述CNN的所述客体检测的运算时间。
另外,以上对于假定在所述测试图像上的目标客体为一个的情形进行了说明,但在所述测试图像内的目标客体为多个的情况下,也可以根据如上所述的方法,利用所述测试图像内的与所述各个目标客体对应的各个目标区域,实现所述各个目标客体的检测。
所述CNN可以应用于诸如关键绩效指标(Key Performance Index,KPI)等使用者要求事项。即,如果客体的大小随着由所述KPI决定的分辨率或焦距(focal length)发生改变而改变,则所述CNN可以重新设计。利用这种CNN,硬件能够提高处理速度并优化。
根据本发明,利用图像级联的、基于CNN的可实现硬件优化的所述客体检测器,能够应用于军事目的或在远处的客体检测。
以上说明的本发明的实施例可以体现为可通过多样计算机构成要素而执行的程序命令的形态,记录于计算机可读记录介质。所述计算机可读记录介质可以单独或组合包括程序命令、数据文件、数据结构等。所述计算机可读记录介质中记录的程序命令可以是为本发明而特别设计、构成的,或者也可以是计算机软件领域从业人员公知并可使用的。在计算机可读记录介质的示例中,包括诸如硬盘、软盘及磁带的磁介质,诸如CD-ROM(只读光盘驱动器)、DVD(数字化视频光盘)的光记录介质,诸如软式光盘(floptical disk)的磁-光介质(magneto-optical media),及诸如只读存储器(ROM)、随机存储器(RAM)、快闪存储器等的为了存储及执行程序命令而特殊构成的硬件装置。在程序命令的示例中,不仅有借助于编译程序而制成的机器语言代码,还包括使用解释器等而能够借助于计算机运行的高级语言代码。所述硬件装置为了执行本发明的处理,可以构成为一个以上的软件模块而运转,反之亦然。
以上根据诸如具体构成要素等的特定事项和限定的实施例及附图,对本发明进行了说明,但这只是为了帮助更全面理解本发明而提供的,并非本发明限定于所述实施例,只要是本发明所属技术领域的技术人员,便可以从这种记载导出多样的修订及变形。
因此,本发明的思想不局限于所述说明的实施例确定,后述权利要求书以及与该权利要求书等同地或等效地变形的所有内容均属于本发明的思想范畴。

Claims (30)

1.一种学习利用图像级联且基于卷积神经网络CNN的客体检测器的参数的方法,其特征在于,包括:
(a)步骤,输入至少一个训练图像后,学习装置(i)使目标区域预测网络,在所述训练图像或与其对应的一个以上调整了尺寸的图像上,分别查找与预测为一个以上目标客体所在的区域对应的第1目标区域至第n目标区域,(ii)使图像加工网络,从所述训练图像或与其对应的调整了尺寸的图像,获得与所述第1目标区域至所述第n目标区域分别对应的第1加工图像至第n加工图像,(iii)输出将所述第1加工图像至所述第n加工图像级联的统合训练图像;
(b)步骤,所述学习装置(i)使一个以上的卷积层,对所述统合训练图像应用一个以上的卷积运算,从而输出至少一个统合特征图,(ii)使区域推选网络RPN,利用所述统合特征图,分别输出与分别位于所述第1加工图像至所述第n加工图像内的一个以上客体对应的第1客体推选至第n客体推选,(iii)使池化层,在所述统合特征图上,对与所述第1客体推选至所述第n客体推选分别对应的各个区域,应用一个以上的池化运算,生成至少一个池化后统合特征图,(iv)使全连接FC层,对所述池化后统合特征图应用至少一个FC运算,输出与所述客体对应的第1客体检测信息至第n客体检测信息;及
(c)步骤,所述学习装置使至少一个FC损失层,参照所述第1客体检测信息至所述第n客体检测信息和与其对应的地面真值GT,获得一个以上的第1FC损失至一个以上的第nFC损失,进而通过利用所述第1FC损失至所述第nFC损失的反向传播,学习所述FC层及所述卷积层的参数中至少一部分。
2.根据权利要求1所述的方法,其特征在于,
在所述(b)步骤之后,
所述学习装置使至少一个RPN损失层,参照所述第1客体推选至所述第n客体推选和与其对应的GT,获得一个以上的第1RPN损失至一个以上的第nRPN损失,进而通过利用所述第1RPN损失至所述第nRPN损失的反向传播,学习所述RPN的参数中至少一部分。
3.根据权利要求1所述的方法,其特征在于,
在所述(a)步骤中,
所述学习装置使所述图像加工网络,将所述第1加工图像至所述第n加工图像的宽度和高度中至少一者调整得相同后,沿着调整为相同大小的所述宽度或所述高度方向,将所述第1调整后加工图像至所述第n调整后加工图像级联起来。
4.根据权利要求3所述的方法,其特征在于,
所述学习装置使所述图像加工网络,在所述第1调整后加工图像至所述第n调整后加工图像中,在由级联的邻接的两个调整后加工图像构成的各个对之间,分别添加至少一个零填充区域。
5.根据权利要求4所述的方法,其特征在于,
借助于所述卷积层的多重卷积运算,所述统合训练图像缩小为1/S,在将所述各个卷积层的各个内核的最大尺寸设为K×K时,使得所述零填充区域的宽度为
Figure FDA0002320435220000021
6.根据权利要求1所述的方法,其特征在于,
在所述(a)步骤中,
所述学习装置使所述目标区域预测网络,运算关于所述训练图像或与其对应的调整尺寸后图像各自的各个比例尺直方图,参照所述比例尺直方图,查找与预测为所述目标客体所在的比例尺推选对应的所述第1目标区域至所述第n目标区域。
7.根据权利要求1所述的方法,其特征在于,
在所述(a)步骤中,
所述学习装置使所述图像加工网络,在所述训练图像或与其对应的调整尺寸后图像上,剪裁与所述第1目标区域至所述第n目标区域对应的一个以上区域,从而获得所述第1加工图像至所述第n加工图像,或者在所述训练图像或与其对应的调整尺寸后图像上,裁剪与所述第1目标区域至所述第n目标区域对应的一个以上区域后调整尺寸,从而获得所述第1加工图像至所述第n加工图像。
8.根据权利要求1所述的方法,其特征在于,
所述第1目标区域至所述第n目标区域,对应于位于所述训练图像内的所述目标客体中互不相同的多个目标客体,或对应于位于所述训练图像及与其对应的调整尺寸后图像内的至少一个相同目标客体。
9.一种测试利用图像级联且基于CNN的客体检测器的方法,其特征在于,包括:
(a)步骤,学习装置(1)(i)使目标区域预测网络,在至少一个训练图像或与其对应的一个以上的调整尺寸后学习用图像上,分别查找与预测为一个以上学习用目标客体所在的区域对应的第1学习用目标区域至第n学习用目标区域,(ii)使图像加工网络,从所述训练图像或与其对应的调整尺寸后学习用图像,获得与所述第1学习用目标区域至所述第n学习用目标区域分别对应的第1学习用加工图像至第n学习用加工图像,(iii)输出将所述第1学习用加工图像至所述第n学习用加工图像级联起来的统合训练图像,(2)(i)使一个以上的卷积层,对所述统合训练图像应用一个以上的卷积运算,从而输出至少一个学习用统合特征图,(ii)使RPN,利用所述学习用统合特征图,分别输出与位于所述第1学习用加工图像至所述第n学习用加工图像各自内的一个以上学习用客体对应的第1学习用客体推选至第n学习用客体推选,(iii)使池化层,在所述学习用统合特征图上,对与所述第1学习用客体推选至所述第n学习用客体推选分别对应的各个区域,应用一个以上的池化运算,输出至少一个学习用池化后统合特征图,(iv)使FC层,对所述学习用池化后统合特征图应用至少一个FC运算,输出与所述学习用客体对应的第1学习用客体检测信息至第n学习用客体检测信息,(3)使至少一个FC损失层,参照所述第1学习用客体检测信息至所述第n学习用客体检测信息和与其对应的GT,获得一个以上的第1FC损失至一个以上的第nFC损失,进而通过利用所述第1FC损失至所述第nFC损失的反向传播,学习所述FC层及所述卷积层的参数中至少一部分;在这种状态下,测试装置获得至少一个测试图像后,则(i)使所述目标区域预测网络,在所述测试图像或与其对应的一个以上的调整尺寸后测试用图像上,分别查找与预测为一个以上的测试用目标客体所在的区域对应的第1测试用目标区域至第n测试用目标区域,(ii)使所述图像加工网络,从所述测试图像或与其对应的调整尺寸后测试用图像,获得与所述第1测试用目标区域至所述第n测试用目标区域分别对应的第1测试用加工图像至第n测试用加工图像,(iii)输出将所述第1测试用加工图像至所述第n测试用加工图像级联起来的统合测试图像;及
(b)步骤,所述测试装置(i)使所述卷积层,将所述卷积运算应用于所述统合测试图像,从而输出至少一个测试用统合特征图,(ii)使所述RPN,利用所述测试用统合特征图,分别输出与分别位于所述第1测试用加工图像至所述第n测试用加工图像内的一个以上测试用客体对应的第1测试用客体推选至第n测试用客体推选,(iii)使所述池化层,在所述测试用统合特征图上,对与所述第1测试用客体推选至所述第n测试用客体推选分别对应的各个区域应用所述池化运算,输出至少一个测试用池化后统合特征图,(iv)使所述FC层,对所述测试用池化后统合特征图应用所述FC运算,输出与所述测试用客体对应的第1测试用客体检测信息至第n测试用客体检测信息。
10.根据权利要求9所述的方法,其特征在于,
在所述(a)步骤中,
所述测试装置使所述图像加工网络,将所述第1测试用加工图像至所述第n测试用加工图像的宽度和高度中至少一者调整得相同后,沿着调整为相同大小的所述宽度或所述高度方向,将所述第1测试用调整后加工图像至所述第n测试用调整后加工图像级联起来。
11.根据权利要求10所述的方法,其特征在于,
所述测试装置使所述图像加工网络,在所述第1测试用调整后加工图像至所述第n测试用调整后加工图像中,在由级联的邻接的两个测试用调整后加工图像构成的各个对之间,分别添加至少一个零填充区域。
12.根据权利要求11所述的方法,其特征在于,
借助于所述卷积层的多重卷积运算,所述统合测试图像缩小为1/S,在将所述各个卷积层的各个内核的最大尺寸设为K×K时,使得所述零填充区域的宽度为
Figure FDA0002320435220000041
13.根据权利要求9所述的方法,其特征在于,
在所述(a)步骤中,
所述测试装置使所述目标区域预测网络,运算关于所述测试图像或与其对应的调整尺寸后测试用图像各自的各个测试用比例尺直方图,参照所述测试用比例尺直方图,查找与预测为所述测试用目标客体所在的比例尺推选对应的所述第1测试用目标区域至所述第n测试用目标区域。
14.根据权利要求9所述的方法,其特征在于,
在所述(a)步骤中,
所述测试装置使所述图像加工网络,在所述测试图像或与其对应的调整尺寸后测试用图像上,查找与所述第1测试用目标区域至所述第n测试用目标区域对应的一个以上区域,从而获得所述第1测试用加工图像至所述第n测试用加工图像,或者在所述测试图像或与其对应的调整尺寸后测试用图像上,裁剪与所述第1测试用目标区域至所述第n测试用目标区域对应的一个以上区域后调整尺寸,从而获得所述第1测试用加工图像至所述第n测试用加工图像。
15.根据权利要求9所述的方法,其特征在于,
所述第1测试用目标区域至所述第n测试用目标区域对应于位于所述测试图像内的所述测试用目标客体中互不相同的多个测试用目标客体,或对应于位于所述测试图像及与其对应的调整尺寸后测试用图像内的至少一个相同的测试用目标客体。
16.一种用于学习利用图像级联且基于CNN的客体检测器的参数的学习装置,其特征在于,包括:
存储指令的至少一个存储器;及
至少一个处理器,所述至少一个处理器构成为运行所述指令,所述指令用于执行:(I)流程,(i)使目标区域预测网络,在至少一个训练图像或与其对应的一个以上调整尺寸后图像上,分别查找与预测为一个以上目标客体所在的区域对应的第1目标区域至第n目标区域,(ii)使图像加工网络,从所述训练图像或与其对应的调整了尺寸的图像,获得与所述第1目标区域至所述第n目标区域分别对应的第1加工图像至第n加工图像,(iii)输出将所述第1加工图像至所述第n加工图像级联起来的统合训练图像;(II)流程,(i)使一个以上的卷积层,对所述统合训练图像应用一个以上的卷积运算,从而输出至少一个统合特征图,(ii)使RPN,利用所述统合特征图,分别输出与分别位于所述第1加工图像至所述第n加工图像内的一个以上客体对应的第1客体推选至第n客体推选,(iii)使池化层,在所述统合特征图上,对与所述第1客体推选至所述第n客体推选分别对应的各个区域,应用一个以上的池化运算,生成至少一个池化后统合特征图,(iv)使FC层,对所述池化后统合特征图应用至少一个FC运算,输出与所述客体对应的第1客体检测信息至第n客体检测信息;及(III)流程,使至少一个FC损失层,参照所述第1客体检测信息至所述第n客体检测信息和与其对应的GT,获得一个以上的第1FC损失至一个以上的第n FC损失,进而通过利用所述第1FC损失至所述第n FC损失的反向传播,学习所述FC层及所述卷积层的参数中至少一部分。
17.根据权利要求16所述的学习装置,其特征在于,
所述处理器在所述(II)流程之后,使至少一个RPN损失层,参照所述第1客体推选至所述第n客体推选和与其对应的GT,获得一个以上的第1RPN损失至一个以上的第nRPN损失,进而通过利用所述第1RPN损失至所述第nRPN损失的反向传播,学习所述RPN的参数中至少一部分。
18.根据权利要求16所述的学习装置,其特征在于,
在所述(I)流程中,
所述处理器使所述图像加工网络,将所述第1加工图像至所述第n加工图像的宽度和高度中至少一者调整得相同后,沿着调整为相同大小的所述宽度或所述高度方向,将所述第1调整后加工图像至所述第n调整后加工图像级联起来。
19.根据权利要求18所述的学习装置,其特征在于,
所述处理器使所述图像加工网络,在所述第1调整后加工图像至所述第n调整后加工图像中,在由级联的邻接的两个调整后加工图像构成的各个对之间,分别添加至少一个零填充区域。
20.根据权利要求19所述的学习装置,其特征在于,
借助于所述卷积层的多重卷积运算,所述统合训练图像缩小为1/S,在将所述各个卷积层的各个内核的最大尺寸设为K×K时,使得所述零填充区域的宽度为
Figure FDA0002320435220000061
21.根据权利要求16所述的学习装置,其特征在于,
在所述(I)流程中,
所述处理器使所述目标区域预测网络,运算关于所述训练图像或与其对应的调整尺寸后图像各自的各个比例尺直方图,参照所述比例尺直方图,查找与预测为所述目标客体所在的比例尺推选对应的所述第1目标区域至所述第n目标区域。
22.根据权利要求16所述的学习装置,其特征在于,
在所述(I)流程中,
所述处理器使所述图像加工网络,在所述训练图像或与其对应的调整尺寸后图像上,剪裁与所述第1目标区域至所述第n目标区域对应的一个以上区域,从而获得所述第1加工图像至所述第n加工图像,或者在所述训练图像或与其对应的调整尺寸后图像上,裁剪与所述第1目标区域至所述第n目标区域对应的一个以上区域后调整尺寸,从而获得所述第1加工图像至所述第n加工图像。
23.根据权利要求16所述的学习装置,其特征在于,
所述第1目标区域至所述第n目标区域对应于位于所述训练图像内的所述目标客体中互不相同的多个目标客体,或对应于位于所述训练图像及与其对应的调整尺寸后图像内的至少一个相同目标客体。
24.一种用于测试利用图像级联且基于CNN的客体检测器的测试装置,其特征在于,包括:
存储指令的至少一个存储器;及
至少一个处理器,所述至少一个处理器构成为执行所述指令,所述指令用于在如下状态下,即,学习装置(1)(i)使目标区域预测网络,在至少一个训练图像或与其对应的一个以上的调整尺寸后学习用图像上,分别查找与预测为一个以上学习用目标客体所在的区域对应的第1学习用目标区域至第n学习用目标区域,(ii)使图像加工网络,从所述训练图像或与其对应的调整尺寸后学习用图像,获得与所述第1学习用目标区域至所述第n学习用目标区域分别对应的第1学习用加工图像至第n学习用加工图像,(iii)输出将所述第1学习用加工图像至所述第n学习用加工图像级联起来的统合训练图像,(2)(i)使一个以上的卷积层,对所述统合训练图像应用一个以上的卷积运算,从而输出至少一个学习用统合特征图,(ii)使RPN,利用所述学习用统合特征图,分别输出与位于所述第1学习用加工图像至所述第n学习用加工图像各自内的一个以上学习用客体对应的第1学习用客体推选至第n学习用客体推选,(iii)使池化层,在所述学习用统合特征图上,对与所述第1学习用客体推选至所述第n学习用客体推选分别对应的各个区域,应用一个以上的池化运算,输出至少一个学习用池化后统合特征图,(iv)使FC层,对所述学习用池化后统合特征图应用至少一个FC运算,输出与所述学习用客体对应的第1学习用客体检测信息至第n学习用客体检测信息,(3)使至少一个FC损失层,参照所述第1学习用客体检测信息至所述第n学习用客体检测信息和与其对应的GT,获得一个以上的第1FC损失至一个以上的第nFC损失,进而通过利用所述第1FC损失至所述第nFC损失的反向传播,学习所述FC层及所述卷积层的参数中至少一部分;在这种状态下,所述指令用于执行:(I)流程,(i)使所述目标区域预测网络,在至少一个测试图像或与其对应的一个以上的调整尺寸后测试用图像上,分别查找与预测为一个以上的测试用目标客体所在的区域对应的第1测试用目标区域至第n测试用目标区域,(ii)使所述图像加工网络,从所述测试图像或与其对应的调整尺寸后测试用图像获得与所述第1测试用目标区域至所述第n测试用目标区域分别对应的第1测试用加工图像至第n测试用加工图像,(iii)输出将所述第1测试用加工图像至所述第n测试用加工图像级联起来的统合测试图像;及(II)流程,(i)使所述卷积层,将所述卷积运算应用于所述统合测试图像,从而输出至少一个测试用统合特征图,(ii)使所述RPN,利用所述测试用统合特征图,分别输出与分别位于所述第1测试用加工图像至所述第n测试用加工图像内的一个以上测试用客体对应的第1测试用客体推选至第n测试用客体推选,(iii)使所述池化层,在所述测试用统合特征图上,对与所述第1测试用客体推选至所述第n测试用客体推选分别对应的各个区域应用所述池化运算,输出至少一个测试用池化后统合特征图,(iv)使所述FC层,对所述测试用池化后统合特征图应用所述FC运算,输出与所述测试用客体对应的第1测试用客体检测信息至第n测试用客体检测信息。
25.根据权利要求24所述的测试装置,其特征在于,
在所述(I)流程中,
所述处理器使所述图像加工网络,将所述第1测试用加工图像至所述第n测试用加工图像的宽度和高度中至少一者调整得相同后,沿着调整为相同大小的所述宽度或所述高度方向,将所述第1测试用调整后加工图像至所述第n测试用调整后加工图像级联起来。
26.根据权利要求25所述的测试装置,其特征在于,
所述处理器使所述图像加工网络,在所述第1测试用调整后加工图像至所述第n测试用调整后加工图像中,在由级联的邻接的两个测试用调整后加工图像构成的各个对之间,分别添加至少一个零填充区域。
27.根据权利要求26所述的测试装置,其特征在于,
借助于所述卷积层的多重卷积运算,所述统合测试图像缩小为1/S,在将所述各个卷积层的各个内核的最大尺寸设为K×K时,使得所述零填充区域的宽度为
Figure FDA0002320435220000081
28.根据权利要求24所述的测试装置,其特征在于,
在所述(I)流程中,
所述处理器使所述目标区域预测网络,运算关于所述测试图像或与其对应的调整尺寸后测试用图像各自的各个测试用比例尺直方图,参照所述测试用比例尺直方图,查找与预测为所述测试用目标客体所在的比例尺推选对应的所述第1测试用目标区域至所述第n测试用目标区域。
29.根据权利要求24所述的测试装置,其特征在于,
在所述(I)流程中,
所述处理器使所述图像加工网络,在所述测试图像或与其对应的调整尺寸后测试用图像上,查找与所述第1测试用目标区域至所述第n测试用目标区域对应的一个以上区域,从而获得所述第1测试用加工图像至所述第n测试用加工图像,或者在所述测试图像或与其对应的调整尺寸后测试用图像上,裁剪与所述第1测试用目标区域至所述第n测试用目标区域对应的一个以上区域后调整尺寸,从而获得所述第1测试用加工图像至所述第n测试用加工图像。
30.根据权利要求24所述的测试装置,其特征在于,
所述第1测试用目标区域至所述第n测试用目标区域对应于位于所述测试图像内的所述测试用目标客体中互不相同的多个测试用目标客体,或对应于位于所述测试图像及与其对应的调整尺寸后测试用图像内的至少一个相同的测试用目标客体。
CN201911295611.2A 2019-01-22 2019-12-16 利用图像级联及cnn的客体检测方法及装置 Active CN111460877B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/254279 2019-01-22
US16/254,279 US10387752B1 (en) 2019-01-22 2019-01-22 Learning method and learning device for object detector with hardware optimization based on CNN for detection at distance or military purpose using image concatenation, and testing method and testing device using the same

Publications (2)

Publication Number Publication Date
CN111460877A true CN111460877A (zh) 2020-07-28
CN111460877B CN111460877B (zh) 2023-10-13

Family

ID=67620645

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911295611.2A Active CN111460877B (zh) 2019-01-22 2019-12-16 利用图像级联及cnn的客体检测方法及装置

Country Status (5)

Country Link
US (1) US10387752B1 (zh)
EP (1) EP3686781A1 (zh)
JP (1) JP6846069B2 (zh)
KR (1) KR102337367B1 (zh)
CN (1) CN111460877B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3593291B8 (en) * 2017-05-19 2024-08-14 DeepMind Technologies Limited Making object-level predictions of the future state of a physical system
US10572770B2 (en) * 2018-06-15 2020-02-25 Intel Corporation Tangent convolution for 3D data
US10915793B2 (en) * 2018-11-08 2021-02-09 Huawei Technologies Co., Ltd. Method and system for converting point cloud data for use with 2D convolutional neural networks
US20210056357A1 (en) * 2019-08-19 2021-02-25 Board Of Trustees Of Michigan State University Systems and methods for implementing flexible, input-adaptive deep learning neural networks
CN114693532A (zh) * 2020-12-28 2022-07-01 富泰华工业(深圳)有限公司 图像校正方法及相关设备
KR102637342B1 (ko) 2021-03-17 2024-02-16 삼성전자주식회사 대상 객체를 추적하는 방법과 장치 및 전자 장치
CN113034456B (zh) * 2021-03-18 2023-07-28 北京百度网讯科技有限公司 螺栓松动的检测方法、装置、设备以及存储介质
KR102618066B1 (ko) 2023-07-11 2023-12-27 같다커뮤니케이션 주식회사 군인 기반 커뮤니티 애플리케이션에서 자연어 처리 및 이미지 대조를 기반으로 하여 군사 보안을 강화하는 방법, 장치 및 시스템

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018005506A (ja) * 2016-06-30 2018-01-11 株式会社東芝 画像認識手法評価装置、画像認識手法評価方法、及びプログラム
US9984325B1 (en) * 2017-10-04 2018-05-29 StradVision, Inc. Learning method and learning device for improving performance of CNN by using feature upsampling networks, and testing method and testing device using the same
US10007865B1 (en) * 2017-10-16 2018-06-26 StradVision, Inc. Learning method and learning device for adjusting parameters of CNN by using multi-scale feature maps and testing method and testing device using the same
KR20180097035A (ko) * 2017-02-22 2018-08-30 연세대학교 산학협력단 컴퓨터 단층촬영 영상에서 플라크를 분석하기 위한 방법 및 장치
US10169679B1 (en) * 2017-10-13 2019-01-01 StradVision, Inc. Learning method and learning device for adjusting parameters of CNN by using loss augmentation and testing method and testing device using the same

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9536293B2 (en) * 2014-07-30 2017-01-03 Adobe Systems Incorporated Image assessment using deep convolutional neural networks
CN106156807B (zh) * 2015-04-02 2020-06-02 华中科技大学 卷积神经网络模型的训练方法及装置
WO2016165060A1 (en) * 2015-04-14 2016-10-20 Intel Corporation Skin detection based on online discriminative modeling
US9965719B2 (en) * 2015-11-04 2018-05-08 Nec Corporation Subcategory-aware convolutional neural networks for object detection
US9881234B2 (en) * 2015-11-25 2018-01-30 Baidu Usa Llc. Systems and methods for end-to-end object detection
US20180039853A1 (en) * 2016-08-02 2018-02-08 Mitsubishi Electric Research Laboratories, Inc. Object Detection System and Object Detection Method
US10354159B2 (en) * 2016-09-06 2019-07-16 Carnegie Mellon University Methods and software for detecting objects in an image using a contextual multiscale fast region-based convolutional neural network
US10354362B2 (en) * 2016-09-08 2019-07-16 Carnegie Mellon University Methods and software for detecting objects in images using a multiscale fast region-based convolutional neural network
US11308350B2 (en) * 2016-11-07 2022-04-19 Qualcomm Incorporated Deep cross-correlation learning for object tracking
US10846523B2 (en) * 2016-11-14 2020-11-24 Kodak Alaris Inc. System and method of character recognition using fully convolutional neural networks with attention
US10380741B2 (en) * 2016-12-07 2019-08-13 Samsung Electronics Co., Ltd System and method for a deep learning machine for object detection
US10262237B2 (en) * 2016-12-08 2019-04-16 Intel Corporation Technologies for improved object detection accuracy with multi-scale representation and training
CN108303748A (zh) * 2017-01-12 2018-07-20 同方威视技术股份有限公司 检查设备和检测行李物品中的枪支的方法
US10185878B2 (en) * 2017-02-28 2019-01-22 Microsoft Technology Licensing, Llc System and method for person counting in image data
US10635927B2 (en) * 2017-03-06 2020-04-28 Honda Motor Co., Ltd. Systems for performing semantic segmentation and methods thereof
JP6787196B2 (ja) * 2017-03-09 2020-11-18 コニカミノルタ株式会社 画像認識装置及び画像認識方法
US20180260414A1 (en) * 2017-03-10 2018-09-13 Xerox Corporation Query expansion learning with recurrent networks
US10678846B2 (en) * 2017-03-10 2020-06-09 Xerox Corporation Instance-level image retrieval with a region proposal network
US11010595B2 (en) * 2017-03-23 2021-05-18 Samsung Electronics Co., Ltd. Facial verification method and apparatus
US10325342B2 (en) * 2017-04-27 2019-06-18 Apple Inc. Convolution engine for merging interleaved channel data
US10460470B2 (en) * 2017-07-06 2019-10-29 Futurewei Technologies, Inc. Recognition and reconstruction of objects with partial appearance
US10503978B2 (en) * 2017-07-14 2019-12-10 Nec Corporation Spatio-temporal interaction network for learning object interactions
KR101880901B1 (ko) * 2017-08-09 2018-07-23 펜타시큐리티시스템 주식회사 기계 학습 방법 및 장치
JP6972757B2 (ja) * 2017-08-10 2021-11-24 富士通株式会社 制御プログラム、制御方法、及び情報処理装置
JP6972756B2 (ja) * 2017-08-10 2021-11-24 富士通株式会社 制御プログラム、制御方法、及び情報処理装置
US10679351B2 (en) * 2017-08-18 2020-06-09 Samsung Electronics Co., Ltd. System and method for semantic segmentation of images
CN107492099B (zh) * 2017-08-28 2021-08-20 京东方科技集团股份有限公司 医学图像分析方法、医学图像分析系统以及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018005506A (ja) * 2016-06-30 2018-01-11 株式会社東芝 画像認識手法評価装置、画像認識手法評価方法、及びプログラム
KR20180097035A (ko) * 2017-02-22 2018-08-30 연세대학교 산학협력단 컴퓨터 단층촬영 영상에서 플라크를 분석하기 위한 방법 및 장치
US9984325B1 (en) * 2017-10-04 2018-05-29 StradVision, Inc. Learning method and learning device for improving performance of CNN by using feature upsampling networks, and testing method and testing device using the same
US10169679B1 (en) * 2017-10-13 2019-01-01 StradVision, Inc. Learning method and learning device for adjusting parameters of CNN by using loss augmentation and testing method and testing device using the same
US10007865B1 (en) * 2017-10-16 2018-06-26 StradVision, Inc. Learning method and learning device for adjusting parameters of CNN by using multi-scale feature maps and testing method and testing device using the same

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
PENG TANG ET AL.: "Weakly Supervised Region Proposal Network and Object Detection", pages 370 *

Also Published As

Publication number Publication date
JP2020119540A (ja) 2020-08-06
EP3686781A1 (en) 2020-07-29
CN111460877B (zh) 2023-10-13
US10387752B1 (en) 2019-08-20
KR102337367B1 (ko) 2021-12-10
JP6846069B2 (ja) 2021-03-24
KR20200091324A (ko) 2020-07-30

Similar Documents

Publication Publication Date Title
CN111460877A (zh) 利用图像级联及cnn的客体检测方法及装置
US10509987B1 (en) Learning method and learning device for object detector based on reconfigurable network for optimizing customers' requirements such as key performance index using target object estimating network and target object merging network, and testing method and testing device using the same
KR102326256B1 (ko) 고정밀도 이미지를 분석하는 딥러닝 네트워크의 학습에 이용하기 위한 트레이닝 이미지를 오토 라벨링하기 위한 방법 및 이를 이용한 오토 라벨링 장치
US10430691B1 (en) Learning method and learning device for object detector based on CNN, adaptable to customers' requirements such as key performance index, using target object merging network and target region estimating network, and testing method and testing device using the same to be used for multi-camera or surround view monitoring
US10423860B1 (en) Learning method and learning device for object detector based on CNN to be used for multi-camera or surround view monitoring using image concatenation and target object merging network, and testing method and testing device using the same
US10402692B1 (en) Learning method and learning device for fluctuation-robust object detector based on CNN using target object estimating network adaptable to customers' requirements such as key performance index, and testing device using the same
KR102280414B1 (ko) 고 정밀도로 이미지를 분석하기 위한 딥 러닝 네트워크를 사용하기 위해 트레이닝 이미지를 오토 라벨링하는 오토 라벨링 장치의 하이퍼파라미터를 최적화하는 방법 및 이를 이용한 최적화 장치
EP3910532B1 (en) Learning method and learning device for training an object detection network by using attention maps and testing method and testing device using the same
KR20200039547A (ko) 트래킹 네트워크를 포함한 cnn을 사용하여 객체를 트래킹하는 방법 및 이를 이용한 장치
KR20200027889A (ko) CNN(Convolutional Neural Network)을 사용하여 차선을 검출하기 위한 학습 방법 및 학습 장치 그리고 이를 이용한 테스트 방법 및 테스트 장치
US10387754B1 (en) Learning method and learning device for object detector based on CNN using 1×H convolution to be used for hardware optimization, and testing method and testing device using the same
US10474543B1 (en) Method and device for economizing computing resources to be used during a process of verification of convolutional parameters using test pattern to enhance fault tolerance and fluctuation robustness in extreme situations
KR20240120064A (ko) 객체 탐지를 위한 지식 증류 적용 방법, 컴퓨팅 장치 및 프로그램

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant