CN111461106A - 基于可重配置网络的对象检测方法及装置 - Google Patents

基于可重配置网络的对象检测方法及装置 Download PDF

Info

Publication number
CN111461106A
CN111461106A CN201911330655.4A CN201911330655A CN111461106A CN 111461106 A CN111461106 A CN 111461106A CN 201911330655 A CN201911330655 A CN 201911330655A CN 111461106 A CN111461106 A CN 111461106A
Authority
CN
China
Prior art keywords
test
specific
learning
kth
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911330655.4A
Other languages
English (en)
Other versions
CN111461106B (zh
Inventor
金桂贤
金镕重
金寅洙
金鹤京
南云铉
夫硕焄
成明哲
吕东勋
柳宇宙
张泰雄
郑景中
诸泓模
赵浩辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Stradvision Inc
Original Assignee
Stradvision Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Stradvision Inc filed Critical Stradvision Inc
Publication of CN111461106A publication Critical patent/CN111461106A/zh
Application granted granted Critical
Publication of CN111461106B publication Critical patent/CN111461106B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • G06T7/62Analysis of geometric attributes of area, perimeter, diameter or volume
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/759Region-based matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/84Arrangements for image or video recognition or understanding using pattern recognition or machine learning using probabilistic graphical models from image or video features, e.g. Markov models or Bayesian networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种利用目标对象预测网络和目标对象集成网络,来学习适合诸如关键绩效指标(Key Performance Index)的用户要求的,基于CNN的对象检测器的参数的方法。所述CNN,根据所述关键绩效指标的分辨率或焦距发生变化而变化的对象的规模来进行重新设计。所述方法包括,学习装置使卷积层,对在图像上与第(k‑1)目标区域对应的第k处理图像进行卷积运算而输出第k特征图;以及使所述对象集成网络集成从FC层输出的第一至第n对象检测信息,并将参考所述集成对象检测信息和与其对应的GT来生成的损失反向传播。所述方法提高了2D边界框的准确度,从而可有效地执行于在多摄像机、环绕视图监控(Surround View Monitoring)等。

Description

基于可重配置网络的对象检测方法及装置
技术领域
本发明涉及一种利用目标对象预测网络和目标对象集成网络,学习基于可重配置卷积神经网络(CNN或者ConvNet)的对象检测器的参数的方法,以优化用户要求,例如关键绩效指标(KPI),更具体地涉及一种学习方法和学习装置,以及使用其的测试方法和测试装置,其利用目标对象预测网络与目标对象集成网络,学习基于CNN的对象检测器的参数,其包括:(a)当输入至少一个训练图像时,(i)使一个或多个卷积层,对所述训练图像对应的至少一个第一处理图像应用一个或多个卷积运算,输出至少一个第一特征图,(ii)使区域候选网络(Region Proposal Network,RPN),利用所述第一特征图,输出与位于所述第一处理图像中的一个或多个第一对象分别对应的一个或多个第一对象候选,(iii)使池化层,在所述第一特征图上,对与每个所述第一对象候选对应的各个区域应用一个或多个池化运算,输出至少一个第一池化特征图,(iv)使全连接(Fully Connected,FC)层,对所述第一池化特征图应用至少一个FC运算,输出与所述第一对象对应的第一对象检测信息;(b)将k从2增加到n的同时,(i)使所述目标对象预测网络,参考第(k-1)处理图像上的一个或多个第(k-1)对象候选,在所述第(k-1)处理图像上,找出与被预测是至少一个目标对象所在的区域对应的第(k-1)目标区域,(ii)当在所述训练图像或者与其对应的一个或多个调整尺寸的训练图像上获取与所述第(k-1)目标区域对应的第k处理图像时,使所述卷积层,对所述第k处理图像应用所述卷积运算,输出第k特征图,(iii)使所述RPN,参考所述第k特征图,输出与位于所述第k处理图像中的一个或多个第k对象分别对应的一个或多个第k对象候选,(iv)使所述池化层,在所述第k特征图上,对与每个所述第k对象候选对应的各个区域应用所述池化运算,输出至少一个第k池化特征图,(v)使所述FC层,对所述第k池化特征图应用所述FC运算,输出与所述第k对象对应的第k对象检测信息;以及(c)(i)使所述目标对象集成网络集成所述第一对象候选至所述第n对象候选,输出集成对象候选,集成所述第一对象检测信息至所述第n对象检测信息,输出集成对象检测信息,(ii)使FC损失层参考所述集成对象检测信息和与其对应的真实框(Ground Truth,GT)生成一个或多个FC损失,从而通过利用所述FC损失的反向传播(Back Propagation)来学习所述FC层以及所述卷积层的参数中至少一部分。
背景技术
机器学习(Machine Learning)中,卷积神经网络(CNN或者ConvNet)是成功应用于视觉图像分析中的深层前馈人工神经网络(Deepfeed Forward Artificial NeuralNetwork)。
基于CNN的对象检测器,(i)使卷积层,对输入图像应用卷积运算,输出所述输入图像对应的特征图,(ii)使RPN(Region Proposal Network),利用所述特征图,确认与所述输入图像中的对象对应的候选,(iii)使池化层,对与所述确认的候选对应的所述特征图上的区域应用至少一个池化运算,获取池化特征图,(iv)使FC(Fully Connected)层,将至少一个FC运算应用于所述获取的池化特征图以及关于所述对象的输出类别信息与回归信息,检测所述输入图像上的所述对象。
然而,由基于所述CNN的对象检测器所述卷积层,利用所述输入图像的尺寸被缩小的所述特征图,因此容易检测到尺寸大的位于输入图像的对象,但是却很难检测尺寸小的位于所述输入图像的对象。
作为另一例,可利用通过放大所述输入图像获取的调整尺寸的图像,来检测尺寸小的对象,但是在这种情况下,所述对象检测器的运算量增加,由此降低了所述对象检测器的性能。
因此,本发明的发明人提出了一种学习方法和学习装置以及使用其的测试方法和测试装置,从而能够以减少运算时间的方式有效检测位于输入图像上的各种尺寸的对象。
发明内容
本发明的目的在于解决以上所述的所有问题。
本发明的另一目的在于提供一种基于CNN的对象检测器,以使得有效检测图像上的对象,而不受尺寸的限制。
本发明的另一目的在于提供一种基于CNN的对象检测器,以使得在不额外地增加运算量的情况下,检测尺寸小的所述图像上的对象。
为达到如上所述的本发明的目的,并实现以下所描述的本发明的特定效果,本发明的特征定构如下所述。
根据本发明的一方面,提供一种利用目标对象预测网络与目标对象集成网络来学习基于CNN的对象检测器的参数的方法,包括:(a)当输入至少一个训练图像时,学习装置,(i)使一个或多个卷积层,对所述训练图像对应的至少一个第一处理图像应用一个或多个卷积运算,输出至少一个第一特征图,(ii)使RPN(Region Proposal Network),利用所述第一特征图,输出与位于所述第一处理图像中的一个或多个第一对象分别对应的一个或多个第一对象候选,(iii)使池化层,在所述第一特征图上,对与每个所述第一对象候选对应的各个区域应用一个或多个池化运算,输出至少一个第一池化特征图,(iv)使FC(FullyConnected)层,对所述第一池化特征图应用至少一个FC运算,输出与所述第一对象对应的第一对象检测信息;(b)将k从2增加到n的同时,所述学习装置,(i)使所述目标对象预测网络,参考第(k-1)处理图像上的一个或多个第(k-1)对象候选,在所述第(k-1)处理图像上,找出与被预测是至少一个目标对象所在的区域对应的第(k-1)目标区域,(ii)当在所述训练图像或者与其对应的一个或多个调整尺寸的训练图像上获取与所述第(k-1)目标区域对应的第k处理图像时,使所述卷积层,对所述第k处理图像应用所述卷积运算,输出第k特征图,(iii)使所述RPN,参考所述第k特征图,输出与位于所述第k处理图像中的一个或多个第k对象分别对应的一个或多个第k对象候选,(iv)使所述池化层,在所述第k特征图上,对与每个所述第k对象候选对应的各个区域应用所述池化运算,输出至少一个第k池化特征图,
(v)使所述FC层,对所述第k池化特征图应用所述FC运算,输出与所述第k对象对应的第k对象检测信息;以及(c)所述学习装置,(i)使所述目标对象集成网络集成所述第一对象候选至所述第n对象候选,输出集成对象候选,集成所述第一对象检测信息至所述第n对象检测信息,输出集成对象检测信息,(ii)使FC损失层参考所述集成对象检测信息和与其对应的GT生成一个或多个FC损失,从而通过利用所述FC损失的反向传播(BackPropagation)来学习所述FC层以及所述卷积层的参数中至少一部分。
一实施例中,在所述步骤(c),所述学习装置,使RPN损失层参考所述集成对象候选以及与其对应的GT计算出一个或多个RPN损失,从而通过利用所述RPN损失的反向传播来学习所述RPN的参数。
一实施例中,在所述步骤(c),在所述第(k-1)处理图像与所述第k处理图像上配置有至少一个特定相同对象,在所述第(k-1)处理图像上,将所述第(k-1)对象候选中与所述特定相同对象对应的至少一个对象候选作为第(k-1)特定对象候选,在所述第k处理图像上,将所述第k对象候选中与所述特定相同对象对应的至少一个对象候选作为第k特定对象候选时,所述学习装置,使所述目标对象集成网络判断所述第(k-1)特定对象候选与所述第k特定对象候选之间的交并比(Intersection Over Union,IOU)是否等于或大于第一阈值,若所述IOU被判断为小于所述第一阈值,计算出所述第(k-1)特定对象候选与所述第k特定对象候选之间的调整IOU,若所述调整IOU被判断为等于或大于第二阈值,则在所述第(k-1)特定对象候选与所述第k特定对象候选中,(i)选择概率值高的特定对象候选,或者(ii)选择在所述训练图像上运算的面积大的特定对象候选,从而将选择的特定对象候选作为与所述特定相同对象对应的特定集成对象候选来生成。
一实施例中,所述调整IOU,通过参考在所述第k处理图像上与所述第(k-1)特定对象候选对应的区域和在所述第(k-1)处理图像上与所述第k特定对象候选对应的区域来计算得到。
一实施例中,所述学习装置,使所述目标对象集成网络判断所述IOU是否等于或大于所述第一阈值,若所述IOU被判断为等于或大于所述第一阈值,则在所述第(k-1)特定对象候选与所述第k特定对象候选中,(i)选择概率值高的特定对象候选,或者(ii)选择每个所述处理图像上运算的面积大的特定对象候选,从而将选择的特定对象候选作为与所述特定相同对象对应的所述特定集成对象来生成。
一实施例中,在所述步骤(c),在所述第(k-1)处理图像上与在所述第k处理图像上配置有至少一个特定相同对象,在所述第(k-1)处理图像上,包括在所述第(k-1)对象检测信息的对象边界框(Bounding Box)中,将与所述特定相同对象对应的至少一个对象边界框作为第(k-1)特定对象边界框,在所述第k处理图像上,包括在所述第k对象检测信息的对象边界框中,将与所述特定相同对象对应的至少一个对象边界框作为第k特定对象边界框时,所述学习装置,使所述目标对象集成网络判断所述第(k-1)特定对象边界框与所述第k特定对象边界框之间的IOU是否等于或大于第一阈值,若所述IOU被判断为小于所述第一阈值,则计算出所述第(k-1)特定对象边界框与所述第k特定对象边界框之间的调整IOU,若所述调整IOU被判断为等于或大于第二阈值,则在所述第(k-1)特定对象边界框与所述第k特定对象边界框中,(i)选择概率值高的特定对象边界框,或者(ii)选择在所述训练图像上运算的面积大的特定对象边界框,从而将所述选择的特定对象边界框作为与所述特定相同对象对应的特定集成对象检测信息来生成。
一实施例中,所述调整IOU,通过参考在所述第k处理图像上与所述第(k-1)特定对象边界框对应的区域和在所述第(k-1)处理图像上与所述第k特定对象边界框对应的区域来计算得到。
一实施例中,所述学习装置,使所述目标对象集成网络判断所述IOU是否等于或大于所述第一阈值,若所述IOU被判断为等于或大于所述第一阈值,则在所述第(k-1)特定对象边界框与所述第k特定对象边界框中,(i)选择概率值高的特定对象边界框,或者(ii)选择每个所述处理图像上运算的面积大的特定对象边界框,从而将所述选择的特定对象边界框作为与所述特定相同对象对应的所述特定集成对象检测信息来生成。
根据本发明的再一方面,提供一种利用目标对象预测网络与目标对象集成网络,测试基于CNN的对象检测器的测试方法,包括:(a)学习装置,(1)(i)使一个或多个卷积层,对与至少一个训练图像对应的至少一个第一学习用处理图像应用一个或多个卷积运算,输出至少一个第一学习用特征图,(ii)使RPN,利用所述第一学习用特征图,输出与位于所述第一学习用处理图像中的一个或多个第一学习用对象分别对应的一个或多个第一学习用对象候选,(iii)使池化层,在所述第一学习用特征图上,与每个所述第一学习用对象候选对应的各个区域应用一个或多个池化运算,输出至少一个第一学习用池化特征图,(iv)使FC层,对所述第一学习用池化特征图应用至少一个FC运算,输出与所述第一学习用对象对应的第一学习用对象检测信息,(2)将k从2增加到n的同时,(i)使所述目标对象预测网络,参考第(k-1)学习用处理图像上的一个或多个第(k-1)学习用对象候选,在所述第(k-1)学习用处理图像上,找出与被预测是至少一个学习用目标对象所在的区域对应的第(k-1)学习用目标区域,(ii)当在所述训练图像或者与其对应的一个或多个调整尺寸的训练图像上获取与所述第(k-1)学习用目标区域对应的第k学习用处理图像时,使所述卷积层,对所述第k学习用处理图像应用所述卷积运算,输出第k学习用特征图,(iii)使所述RPN,参考所述第k学习用特征图,输出与位于所述第k学习用处理图像中的一个或多个第k学习用对象分别对应的一个或多个第k学习用对象候选,(iv)使所述池化层,在所述第k学习用特征图上,对与每个所述第k学习用对象候选对应的各个区域应用所述池化运算,输出至少一个第k学习用池化特征图,(v)使所述FC层,对所述第k学习用池化特征图应用所述FC运算,输出与所述第k学习用对象对应的第k学习用对象检测信息,(3)(i)使所述目标对象集成网络集成所述第一学习用对象候选至所述第n学习用对象候选,输出学习用集成对象候选,集成所述第一学习用对象检测信息至所述第n学习用对象检测信息,输出学习用集成对象检测信息,(ii)使FC损失层参考所述学习用集成对象检测信息和与其对应的GT产生一个或多个FC损失,从而通过利用所述FC损失的反向传播(Back Propagation)来学习所述FC层以及所述卷积层的参数中至少一部分的状态下,获取至少一个测试图像时,测试装置,(i)使所述卷积层,对与所述测试图像对应的至少一个第一测试用处理图像应用所述卷积运算,输出至少一个第一测试用特征图,(ii)使所述RPN,利用所述第一测试用特征图,输出与位于所述第一测试用处理图像中的一个或多个第一测试用对象分别对应的一个或多个第一测试用对象候选,(iii)使所述池化层,在所述第一测试用特征图上,与每个所述第一测试用对象候选对应的各个区域应用所述池化运算,输出至少一个第一测试用池化特征图,(iv)使所述FC层,对所述第一测试用池化特征图应用所述FC运算,输出与所述第一测试用对象对应的第一测试用对象检测信息;(b)将k从2增加到n的同时,所述测试装置,(i)使所述目标对象预测网络,参考在第(k-1)测试用处理图像上的一个或多个第(k-1)测试用对象候选,在所述第(k-1)测试用处理图像上,找出与被预测是至少一个测试用目标对象所在的区域对应的第(k-1)测试用目标区域,(ii)当在所述测试图像或者与其对应的一个或多个调整尺寸的测试图像上获取与所述第(k-1)测试用目标区域对应的第k测试用处理图像时,使所述卷积层,对所述第k测试用处理图像应用所述卷积运算,输出第k测试用特征图,(iii)使所述RPN,参考所述第k测试用特征图,输出与位于所述第k测试用处理图像中的一个或多个第k测试用对象分别对应的一个或多个第k测试用对象候选,(iv)使所述池化层,在所述第k测试用特征图上,与每个所述第k测试用对象候选对应的各个区域应用所述池化运算,输出至少一个第k测试用池化特征图,(v)使所述FC层,对所述第k测试用池化特征图应用所述FC运算,输出与所述第k测试用对象对应的第k测试用对象检测信息;以及(c)所述测试装置(i)使所述目标对象集成网络集成所述第一测试用对象候选至所述第n测试用对象候选,输出测试用集成对象候选,集成所述第一测试用对象检测信息至所述第n测试用对象检测信息,输出测试用集成对象检测信息。
一实施例中,在所述步骤(c),在所述第(k-1)测试用处理图像与所述第k测试用处理图像上配置有至少一个测试用特定相同对象,在所述第(k-1)测试用处理图像上,将与所述第(k-1)测试用对象候选中所述测试用特定相同对象对应的至少一个测试用对象候选作为第(k-1)测试用特定对象候选,在所述第k测试用处理图像上,将与所述第k测试用对象候选中所述测试用特定相同对象对应的至少一个测试用对象候选作为第k测试用特定对象候选时,所述测试装置,使所述目标对象集成网络判断所述第(k-1)测试用特定对象候选与所述第k测试用特定对象候选之间的测试用IOU(Intersection Over Union)是否等于或大于第一阈值,若所述测试用IOU被判断为小于所述第一阈值,则计算出所述第(k-1)测试用特定对象候选与所述第k测试用特定对象候选之间的测试用调整IOU,若所述测试用调整IOU被判断为等于或大于第二阈值,则在所述第(k-1)测试用特定对象候选与所述第k测试用特定对象候选中,(i)选择概率值高的测试用特定对象候选,或者(ii)选择所述测试图像上运算的面积大的测试用特定对象候选,从而将所述选择的测试用特定对象候选作为与所述测试用特定相同对象对应的测试用特定集成对象候选来生成。
一实施例中,所述测试用调整IOU,通过参考在所述第k测试用处理图像上与所述第(k-1)测试用特定对象候选对应的区域和在所述第(k-1)测试用处理图像上与所述第k测试用特定对象候选对应的区域来计算出。
一实施例中,所述测试装置,使所述目标对象集成网络判断所述测试用IOU是否等于或大于所述第一阈值,若所述测试用IOU被判断为等于或大于所述第一阈值,则在所述第(k-1)测试用特定对象候选与所述第k测试用特定对象候选中,(i)选择概率值高的测试用特定对象候选,或者(ii)选择在每个所述测试用处理图像上运算的面积大的测试用特定对象候选,从而将所述选择的测试用特定对象候选作为与所述测试用特定相同对象对应的所述测试用特定集成对象候选来生成。
一实施例中,在所述步骤(c),在所述第(k-1)测试用处理图像与所述第k测试用处理图像上配置有至少一个测试用特定相同对象,在所述第(k-1)测试用处理图像上,包括在所述第(k-1)测试用对象检测信息的测试用对象边界框(Bounding Box)中将与所述测试用特定相同对象对应的至少一个测试用对象边界框作为第(k-1)测试用特定对象边界框,在所述第k测试用处理图像上,包括在所述第k测试用对象检测信息的测试用对象边界框中将与所述测试用特定相同对象对应的至少一个测试用对象边界框作为第k测试用特定对象边界框时,所述测试装置,使所述目标对象集成网络判断所述第(k-1)测试用特定对象边界框与所述第k测试用特定对象边界框之间的测试用IOU是否等于或大于第一阈值,若所述测试用IOU被判断为小于所述第一阈值,则计算出所述第(k-1)测试用特定对象边界框与所述第k测试用特定对象边界框之间的测试用调整IOU,若所述测试用调整IOU被判断为等于或大于第二阈值,则在所述第(k-1)测试用特定对象边界框与所述第k测试用特定对象边界框中,(i)选择概率值高的测试用特定对象边界框,或者(ii)选择所述测试图像上运算的面积大的测试用特定对象边界框,从而将所述选择的测试用特定对象边界框作为与所述测试用特定相同对象对应的测试用特定集成对象检测信息来生成。
一实施例中,所述测试用调整IOU,通过参考在所述第k测试用处理图像上与所述第(k-1)测试用特定对象边界框对应的区域和在所述第(k-1)测试用处理图像上与所述第k测试用特定对象边界框对应的区域来计算得到。
一实施例中,所述测试装置,使所述目标对象集成网络判断所述测试用IOU是否等于或大于所述第一阈值,若所述测试用IOU被判断为等于或大于所述第一阈值,则在所述第(k-1)测试用特定对象边界框与所述第k测试用特定对象边界框中,(i)选择概率值高的测试用特定对象边界框,或者(ii)选择在每个所述测试用处理图像上运算的面积大的测试用特定对象边界框,从而将所述选择的测试用特定对象边界框作为与所述测试用特定相同对象对应的所述测试用特定集成对象检测信息来生成。
根据本发明的另一方面,一种利用目标对象预测网络与目标对象集成网络来学习基于CNN的对象检测器的参数的学习装置,至少一个存储器,用于存储指令;以及至少一个处理器,配置为执行所述指令用于完成,(I)(i)使一个或多个卷积层,对与至少一个训练图像对应的至少一个第一处理图像应用一个或多个卷积运算,输出至少一个第一特征图,(ii)使RPN(Region Proposal Network),利用所述第一特征图,输出与位于所述第一处理图像中的一个或多个第一对象分别对应的一个或多个第一对象候选,(iii)使池化层,在所述第一特征图上,对与每个所述第一对象候选对应的各个区域应用一个或多个池化运算,输出至少一个第一池化特征图,(iv)使FC(Fully Connected)层,对所述第一池化特征图应用至少一个FC运算,输出与所述第一对象对应的第一对象检测信息的过程,(II)将k从2增加到n的同时,(i)使所述目标对象预测网络,参考第(k-1)处理图像上的一个或多个第(k-1)对象候选,在所述第(k-1)处理图像上,找出与被预测是至少一个目标对象所在的区域对应的第(k-1)目标区域,(ii)当在所述训练图像或者与其对应的一个或多个调整尺寸的训练图像上获取与所述第(k-1)目标区域对应的第k处理图像时,使所述卷积层,对所述第k处理图像应用所述卷积运算,输出第k特征图,(iii)使所述RPN,参考所述第k特征图,输出与位于所述第k处理图像中的一个或多个第k对象分别对应的一个或多个第k对象候选,(iv)使所述池化层,在所述第k特征图上,对与每个所述第k对象候选对应的各个区域应用所述池化运算,输出至少一个第k池化特征图,(v)使所述FC层,对所述第k池化特征图应用所述FC运算,输出与所述第k对象对应的第k对象检测信息的过程,以及(III)(i)使所述目标对象集成网络集成所述第一对象候选至所述第n对象候选,输出集成对象候选,集成所述第一对象检测信息至所述第n对象检测信息,输出集成对象检测信息,(ii)使FC损失层参考所述集成对象检测信息和与其对应的GT生成一个或多个FC损失,从而配置通过利用所述FC损失的反向传播(Back Propagation)来学习所述FC层以及所述卷积层的参数中至少一部分。
一实施例中,在所述过程(III),所述处理器,使RPN损失层参考所述集成对象候选以及与其对应的GT计算出一个或多个RPN损失,从而通过利用所述RPN损失的反向传播来学习所述RPN的参数。
一实施例中,在所述过程(III),在所述第(k-1)处理图像上与在所述第k处理图像上配置有至少一个特定相同对象,在所述第(k-1)处理图像上,将所述第(k-1)对象候选中与所述特定相同对象对应的至少一个对象候选作为第(k-1)特定对象候选,在所述第k处理图像上,将所述第k对象候选中与所述特定相同对象对应的至少一个对象候选作为第k特定对象候选时,所述处理器,使所述目标对象集成网络判断所述第(k-1)特定对象候选与所述第k特定对象候选之间的IOU(Intersection Over Union)是否等于或大于第一阈值,若所述IOU被判断为小于所述第一阈值,则计算出所述第(k-1)特定对象候选与所述第k特定对象候选之间的调整IOU,若所述调整IOU被判断为等于或大于第二阈值,则在所述第(k-1)特定对象候选与所述第k特定对象候选中,(i)选择概率值高的特定对象候选,或者(ii)选择在所述训练图像上运算的面积大的特定对象候选,从而将所述选择的特定对象候选作为与所述特定相同对象对应的特定集成对象候选来生成。
一实施例中,所述调整IOU,通过参考在所述第k处理图像上与所述第(k-1)特定对象候选对应的区域和在所述第(k-1)处理图像上与所述第k特定对象候选对应的区域来计算得到。
一实施例中,所述处理器,使所述目标对象集成网络判断所述IOU是否等于或大于所述第一阈值,若所述IOU被判断为等于或大于所述第一阈值,则在所述第(k-1)特定对象候选与所述第k特定对象候选中,(i)选择概率值高的特定对象候选,或者(ii)选择每个所述处理图像上运算的面积大的特定对象候选,从而将所述选择的特定对象候选作为与所述特定相同对象对应的所述特定集成对象来生成。
一实施例中,在所述过程(III),在所述第(k-1)处理图像上与在所述第k处理图像上配置有至少一个特定相同对象,在所述第(k-1)处理图像上,包括在所述第(k-1)对象检测信息的对象边界框(Bounding Box)中,将与所述特定相同对象对应的至少一个对象边界框作为第(k-1)特定对象边界框,在所述第k处理图像上,包括在所述第k对象检测信息的对象边界框中,将与所述特定相同对象对应的至少一个对象边界框作为第k特定对象边界框时,所述处理器,使所述目标对象集成网络判断所述第(k-1)特定对象边界框与所述第k特定对象边界框之间的IOU是否等于或大于第一阈值,若所述IOU被判断为小于所述第一阈值,则计算出所述第(k-1)特定对象边界框与所述第k特定对象边界框之间的调整IOU,若所述调整IOU被判断为等于或大于第二阈值,则在所述第(k-1)特定对象边界框与所述第k特定对象边界框中,(i)选择概率值高的特定对象边界框,或者(ii)选择在所述训练图像上运算的面积大的特定对象边界框,从而将所述选择的特定对象边界框作为与所述特定相同对象对应的特定集成对象检测信息来生成。
一实施例中,所述调整IOU,通过参考在所述第k处理图像上与所述第(k-1)特定对象边界框对应的区域和在所述第(k-1)处理图像上与所述第k特定对象边界框对应的区域来计算得到。
一实施例中,所述处理器,使所述目标对象集成网络判断所述IOU是否等于或大于所述第一阈值,若所述IOU被判断为等于或大于所述第一阈值,则在所述第(k-1)特定对象边界框与所述第k特定对象边界框中,(i)选择概率值高的特定对象边界框,或者(ii)选择每个所述处理图像上运算的面积大的特定对象边界框,从而将所述选择的特定对象边界框作为与所述特定相同对象对应的所述特定集成对象检测信息来生成。
根据本发明的又一方面,一种利用目标对象预测网络与目标对象集成网络来测试基于CNN的对象检测器的测试装置,包括:至少一个存储器,用于存储指令;以及至少一个处理器,配置为执行所述指令用于完成,学习装置,(1)(i)使一个或多个卷积层,对与至少一个训练图像对应的至少一个第一学习用处理图像应用一个或多个卷积运算,输出至少一个第一学习用特征图,(ii)使RPN,利用所述第一学习用特征图,输出与位于所述第一学习用处理图像中的一个或多个第一学习用对象分别对应的一个或多个第一学习用对象候选,(iii)使池化层,在所述第一学习用特征图上,与每个所述第一学习用对象候选对应的各个区域应用一个或多个池化运算,输出至少一个第一学习用池化特征图,(iv)使FC层,对所述第一学习用池化特征图应用至少一个FC运算,输出与所述第一学习用对象对应的第一学习用对象检测信息,(2)将k从2增加到n的同时,(i)使所述目标对象预测网络,参考第(k-1)学习用处理图像上的一个或多个第(k-1)学习用对象候选,在所述第(k-1)学习用处理图像上,找出与被预测是至少一个学习用目标对象所在的区域对应的第(k-1)学习用目标区域,(ii)当在所述训练图像或者与其对应的一个或多个调整尺寸的训练图像上,获取与所述第(k-1)学习用目标区域对应的第k学习用处理图像时,使所述卷积层,对所述第k学习用处理图像应用所述卷积运算,输出第k学习用特征图,(iii)使所述RPN,参考所述第k学习用特征图,输出与位于所述第k学习用处理图像中的一个或多个第k学习用对象分别对应的一个或多个第k学习用对象候选,(iv)使所述池化层,在所述第k学习用特征图上,对与每个所述第k学习用对象候选对应的各个区域应用所述池化运算,输出至少一个第k学习用池化特征图,(v)使所述FC层,对所述第k学习用池化特征图应用所述FC运算,输出与所述第k学习用对象对应的第k学习用对象检测信息,(3)(i)使所述目标对象集成网络集成所述第一学习用对象候选至所述第n学习用对象候选,输出学习用集成对象候选,集成所述第一学习用对象检测信息至所述第n学习用对象检测信息,输出学习用集成对象检测信息,(ii)使FC损失层参考所述学习用集成对象检测信息和与其对应的GT产生一个或多个FC损失,从而通过利用所述FC损失的反向传播(Back Propagation)来学习所述FC层以及所述卷积层的参数中至少一部分的状态下,(I)(i)使所述卷积层,对与至少一个测试图像对应的至少一个第一测试用处理图像应用所述卷积运算,输出至少一个第一测试用特征图,(ii)使所述RPN,利用所述第一测试用特征图,输出与位于所述第一测试用处理图像中的一个或多个第一测试用对象分别对应的一个或多个第一测试用对象候选,(iii)使所述池化层,在所述第一测试用特征图上,与每个所述第一测试用对象候选对应的各个区域应用所述池化运算,输出至少一个第一测试用池化特征图,(iv)使所述FC层,对所述第一测试用池化特征图应用所述FC运算,输出与所述第一测试用对象对应的第一测试用对象检测信息的过程,(II)将k从2增加到n的同时,(i)使所述目标对象预测网络,参考在第(k-1)测试用处理图像上的一个或多个第(k-1)测试用对象候选,在所述第(k-1)测试用处理图像上,找出与被预测是至少一个测试用目标对象所在的区域对应的第(k-1)测试用目标区域,(ii)当在所述测试图像或者与其对应的一个或多个调整尺寸的测试图像上获取与所述第(k-1)测试用目标区域对应的第k测试用处理图像时,使所述卷积层,对所述第k测试用处理图像应用所述卷积运算,输出第k测试用特征图,(iii)使所述RPN,参考所述第k测试用特征图,输出与位于所述第k测试用处理图像中的一个或多个第k测试用对象分别对应的一个或多个第k测试用对象候选,(iv)使所述池化层,在所述第k测试用特征图上,与每个所述第k测试用对象候选对应的各个区域应用所述池化运算,输出至少一个第k测试用池化特征图,(v)使所述FC层,对所述第k测试用池化特征图应用所述FC运算,输出与所述第k测试用对象对应的第k测试用对象检测信息的过程,以及(III)(i)使所述目标对象集成网络集成所述第一测试用对象候选至所述第n测试用对象候选,输出测试用集成对象候选,集成所述第一测试用对象检测信息至所述第n测试用对象检测信息,输出测试用集成对象检测信息。
一实施例中,在所述过程(III),在所述第(k-1)测试用处理图像与所述第k测试用处理图像上配置有至少一个测试用特定相同对象,在所述第(k-1)测试用处理图像上,将与所述第(k-1)测试用对象候选中所述测试用特定相同对象对应的至少一个测试用对象候选作为第(k-1)测试用特定对象候选,在所述第k测试用处理图像上,将与所述第k测试用对象候选中所述测试用特定相同对象对应的至少一个测试用对象候选作为第k测试用特定对象候选时,所述处理器,使所述目标对象集成网络判断所述第(k-1)测试用特定对象候选与所述第k测试用特定对象候选之间的测试用IOU(Intersection Over Union)是否等于或大于第一阈值,若所述测试用IOU被判断为小于所述第一阈值,则计算出所述第(k-1)测试用特定对象候选与所述第k测试用特定对象候选之间的测试用调整IOU,若所述测试用调整IOU被判断为等于或大于第二阈值,则在所述第(k-1)测试用特定对象候选与所述第k测试用特定对象候选中,(i)选择概率值高的测试用特定对象候选,或者(ii)选择所述测试图像上运算的面积大的测试用特定对象候选,从而将所述选择的测试用特定对象候选作为与所述测试用特定相同对象对应的测试用特定集成对象候选来生成。
一实施例中,所述测试用调整IOU,通过参考在所述第k测试用处理图像上与所述第(k-1)测试用特定对象候选对应的区域和在所述第(k-1)测试用处理图像上与所述第k测试用特定对象候选对应的区域来计算出。
一实施例中,所述处理器,使所述目标对象集成网络判断所述测试用IOU是否等于或大于所述第一阈值,若所述测试用IOU被判断为等于或大于所述第一阈值,则在所述第(k-1)测试用特定对象候选与所述第k测试用特定对象候选中,(i)选择概率值高的测试用特定对象候选,或者(ii)选择在每个所述测试用处理图像上运算的面积大的测试用特定对象候选,从而将所述选择的测试用特定对象候选作为与所述测试用特定相同对象对应的所述测试用特定集成对象候选来生成。
一实施例中,在所述过程(III),在所述第(k-1)测试用处理图像与所述第k测试用处理图像上配置有至少一个测试用特定相同对象,在所述第(k-1)测试用处理图像上,包括在所述第(k-1)测试用对象检测信息的测试用对象边界框(Bounding Box)中将与所述测试用特定相同对象对应的至少一个测试用对象边界框作为第(k-1)测试用特定对象边界框,在所述第k测试用处理图像上,包括在所述第k测试用对象检测信息的测试用对象边界框中将与所述测试用特定相同对象对应的至少一个测试用对象边界框作为第k测试用特定对象边界框时,所述处理器,使所述目标对象集成网络判断所述第(k-1)测试用特定对象边界框与所述第k测试用特定对象边界框之间的测试用IOU是否等于或大于第一阈值,若所述测试用IOU被判断为小于所述第一阈值,则计算出所述第(k-1)测试用特定对象边界框与所述第k测试用特定对象边界框之间的测试用调整IOU,若所述测试用调整IOU被判断为等于或大于第二阈值,则在所述第(k-1)测试用特定对象边界框与所述第k测试用特定对象边界框中,(i)选择概率值高的测试用特定对象边界框,或者(ii)选择所述测试图像上运算的面积大的测试用特定对象边界框,从而将所述选择的测试用特定对象边界框作为与所述测试用特定相同对象对应的测试用特定集成对象检测信息来生成。
一实施例中,所述测试用调整IOU,通过参考在所述第k测试用处理图像上与所述第(k-1)测试用特定对象边界框对应的区域和在所述第(k-1)测试用处理图像上与所述第k测试用特定对象边界框对应的区域来计算得到。
一实施例中,所述处理器,使所述目标对象集成网络判断所述测试用IOU是否等于或大于所述第一阈值,若所述测试用IOU被判断为等于或大于所述第一阈值,则在所述第(k-1)测试用特定对象边界框与所述第k测试用特定对象边界框中,(i)选择概率值高的测试用特定对象边界框,或者(ii)选择在每个所述测试用处理图像上运算的面积大的测试用特定对象边界框,从而将所述选择的测试用特定对象边界框作为与所述测试用特定相同对象对应的所述测试用特定集成对象检测信息来生成。
根据本发明,具有如下效果,可以将输入图像处理成具有不同尺寸的图像之后,利用被预测是在每个处理的图像上目标对象所在的目标区域,轻易检测图像中小对象。
并且,根据本发明,具有如下效果,将所述输入图像处理成不同尺寸的图像之后,利用通过裁剪被预测是在每个所述处理的图像上目标对象所在的目标区域来处理的图像,检测图像中尺寸小的对象,从而最小化运算量和运算时间。
附图说明
为用于本发明实施例的说明,以下附图只是本发明实施例的一部分,对于本发明所属的技术领域的普通技术人员(以下称为“普通技术人员”),可以基于这些附图获得其他附图,而无需进行创造性劳动。
图1是示意性地示出根据本发明一实施例的利用目标对象预测网络与目标对象集成网络,学习基于CNN的对象检测器学习装置的图。
图2是示意性地示出根据本发明一实施例的利用所述目标对象预测网络与所述目标对象集成网络,学习基于所述CNN的对象检测器的学习方法的图;
图3是示意性地示出根据本发明一实施例的利用所述目标对象预测网络与所述目标对象集成网络的,基于所述CNN的对象检测器的学习方法中要考虑的,并从RPN输出的,对象候选的图。
图4是示意性地示出根据本发明一实施例的利用所述目标对象预测网络与所述目标对象集成网络,利用基于所述CNN的对象检测器的学习方法中要考虑的,从所述RPN输出的所述对象候选,来找出目标区域状态的图。
图5是示意性地示出根据本发明一实施例的利用所述目标对象预测网络与所述目标对象集成网络,利用基于所述CNN的对象检测器的学习方法中要考虑的处理图像,来检测至少一个目标对象的状态的图。
图6是示意性地示出根据本发明一实施例的利用所述目标对象预测网络与所述目标对象集成网络,集成基于所述CNN的对象检测器的学习方法中要考虑的,与包括在其他目标区域中至少一个对象对应的对象候选与对象检测信息的状态的图。
图7是示意性地示出根据本发明一实施例的用于测试利用所述目标对象预测网络与所述目标对象集成网络的,基于所述CNN的对象检测器的测试装置的图。
图8是示意性地示出根据本发明一实施例的用于测试利用所述目标对象预测网络与所述目标对象集成网络的,基于所述CNN的对象检测器的测试方法的图。
具体实施方式
对本发明的以下详细说明,为明确本发明的目的、技术方案及优点,参考可实施本发明的特定实施例作为示例来示出的附图。对这些实施例进行了详细的描述,以使本领域技术人员能够充分实施本发明。
并且,本发明的详细说明及权利要求中,词语“包括”及其变形并不意旨排除其他技术特征、附加物、部件或步骤。对普通技术人员来说,本发明的其他目的、优点及特征中一部分会从本说明书,还有一部分会从本发明的实施例体现出来。以下示例及附图作为实例提供,并不意旨限定本发明。
而且,本发明涵盖了本文中所示实施例的所有可能的组合。应当理解,本发明的各种实施例虽不相同,但相互之间不需要排斥。例如,此处所记载的特定形象,结构及特性,与一实施例有关,不超出本发明的精神及范围的同时,能够以其他实施例的形式实现。并且,应该理解,在不脱离本发明的精神和范围的情况下,可以改变每个公开的实施例中特定部件的位置或配置。因此,后述的详细描述不应被视为限制性的,本发明的范围,如经适当描述,仅由所附权利要求书以及权利要求书所赋予的等效物的全部范围来限定。附图中相似的附图标记是指在几个方面中相同或相似的功能。
在本发明所涉及的各种图像可包括铺装路面或非铺装路面相关图像,在这种情况下,可以假设在公路环境中可能出现的物体(例如,汽车、人、动物、植物、物品、建筑物、飞机或无人机之类的飞行器、其他障碍物),但并不限于此,本发明所涉及的各种图像也可以是与道路无关的图像(例如,与非铺装路面、小巷、空地、大海、湖泊、河流、山脉、森林、沙漠、天空、室内的相关图像),在这种情况下,可以假设在非铺装路面、小巷、空地、海洋、湖泊、河流、山脉、森林、沙漠、天空、室内环境中可能出现的物体(例如,汽车、人、动物、植物、物品、建筑物、飞机或无人机之类的飞行器、其他障碍物),但并不限于此。
以下,为便于本发明所属的技术领域的普通技术人员实施本发明,将参考附图详细描述本发明的优选实施例。
图1是示意性地示出根据本发明一实施例的利用目标对象预测网络与目标对象集成网络来学习基于CNN的对象检测器的装置的图。
参考图1,所述学习装置(100)可包括通信部(110)与处理器(120)。
首先,所述通信部(110)可以支持获取至少一个训练图像,或者使其他装置获取。
此时,所述训练图像可存储在数据库(130),所述数据库(130)可以存储对与位于所述训练图像的一个或多个对象分别对应的类别信息以及位置信息的至少一个GT(groundtruth)。
并且,所述学习装置还可以包括可存储用于完成将要描述的过程的计算机可读指令(Computer Readable Instruction)的存储器(115)。作为一例,所述处理器、所述存储器以及介质等可以集成为一个处理器而起作用。
之后,所述处理器(120)可支持执行或使其他装置执行以下步骤:(i)使一个或多个卷积层,对与所述训练图像对应的至少一个第一处理图像应用一个或多个卷积运算,输出至少一个第一特征图,(ii)使RPN(Region Proposal Network),利用所述第一特征图,输出与位于所述第一处理图像中的一个或多个第一对象分别对应的一个或多个第一对象候选,(iii)使池化层,在所述第一特征图上,对与每个所述第一对象候选对应的各个区域应用一个或多个池化运算,输出至少一个第一池化特征图,(iv)使FC(Fully Connected)层,对所述第一池化特征图应用至少一个FC运算,输出与所述第一对象对应的第一对象检测信息,或使其他装置完成。并且,所述处理器(120)可支持,将k从2增加到n的同时,(i)使所述目标对象预测网络,参考第(k-1)处理图像上的一个或多个第(k-1)对象候选,在所述第(k-1)处理图像上找出与至少一个目标对象被预测的所在区域对应的第(k-1)目标区域,(ii)所述训练图像或者调整尺寸的训练图像上获取与所述第(k-1)目标区域对应的第k处理图像,使所述卷积层,对所述第k处理图像应用所述卷积运算,输出第k特征图,(iii)使所述RPN,参考所述第k特征图,输出与位于所述第k处理图像中的一个或多个第k对象分别对应的一个或多个第k对象候选,(iv)使所述池化层,在所述第k特征图上对与每个所述第k对象候选对应的各个区域应用所述池化运算,输出至少一个第k池化特征图,(v)使所述FC层,对所述第k池化特征图应用所述FC运算,输出与所述第k对象对应的第k对象检测信息。
其后,所述处理器(120)执行以下步骤:(i)使所述目标对象集成网络集成所述第一对象候选至所述第n对象候选,输出集成对象候选,集成所述第一对象检测信息至所述第n对象检测信息并输出集成对象检测信息,以及(ii)使FC损失层参考所述集成对象检测信息和与其对应的GT生成一个或多个FC损失,从而通过利用所述FC损失的反向传播(BackPropagation)学习所述FC层以及所述卷积层的参数中至少一部分。
并且,所述处理器(120),使至少一个RPN损失层参考所述集成对象候选以及与其对应的GT计算出一个或多个RPN损失,从而通过利用所述RPN损失的反向传播,学习所述RPN的参数中至少一部分。
此时,根据本发明一实施例的所述学习装置(100)作为计算装置,只要是装载处理器的具有运算能力的装置,就可以作为根据本发明的学习装置(100)来被采用。并且,图1中仅示出了学习装置(100),但不限于此,并且该学习装置可以被划分为多个来完成其作用。
下面将参考图2描述,利用如此配置的根据本发明一实施例的所述学习装置(100),并利用所述目标对象预测网络以及所述目标对象集成网络来学习基于CNN的对象检测器的参数的方法。
首先,当输入所述训练图像,所述学习装置(100)可使卷积层(121),对与所述训练图像对应的所述第一处理图像应用所述卷积运算,输出所述第一特征图。这里,所述卷积层(121)可以为单一卷积层或多个卷积层。
此时,所述学习装置(100)可使图像处理网络(111),对所述训练图像进行处理并生成包括多个不同尺寸的图像的图像金字塔,将所述图像金字塔中的一个图像作为所述第一处理图像输入到所述卷积层(121)。
之后,所述学习装置(100),可使区域候选网络(Region Proposal Network,RPN)(122),利用所述第一特征图,来输出与位于所述第一处理图像中的所述第一对象对应的一个或多个第一对象候选。
作为一示例,参考图3,从所述RPN(122)输出的所述第一对象候选可与所述第一处理图像中所述第一对象分别对应,每个所述第一对象候选可包括,每个所述第一对象,即,可包括与标签区域对应的位置信息与具有关于每个所述标签区域是否是对象的信息的各候选的信息。此时,关于是否是对象的信息,可包括所述每个对象候选被预测为对象的概率信息,关于所述候选框的信息,可以包括被预测为所述候选框与所述对象位置一致的概率信息。
之后,所述学习装置(100),使池化层(123),在所述第一特征图上,对与所述第一对象候选对应的至少一个区域,应用所述池化运算并输出所述第一池化特征图,使全连接层(Fully Connected Layer,FC layer)(124),对所述第一池化特征图应用所述FC运算,输出与所述第一对象对应的第一对象检测信息。
此时,所述第一对象检测信息可包括关于边界框的信息(即,关于每个所述第一对象的位置信息)以及关于每个与所述第一对象候选对应的所述第一对象类别信息。并且,所述类别信息可包括每个所述第一对象预测为该类别的概率信息,关于所述边界框的信息可包括每个所述边界框被预测为与所述对象的位置一致的概率信息。
之后,所述学习装置(100),使目标对象预测网络(125),参考第一处理图像上的所述第一对象候选,来找出与被预测为所述第一处理图像上所述目标对象所在的区域对应的第一目标区域。
作为一示例,参考图4,所述目标对象预测网络(125),(i)将所述第一处理图像划分为MxN网格,(ii)所述第(k-1)对象候选中,所述网格的每个小区生成至少一个或多个直方图,该直方图表示与各小区对应的候选的数量,在所述网格的各小区中,存在每个与其对应的所述候选的所有区域或者划分区域,优选地,可使所述对应候选的尺寸,小于与从所述RPN(122)输出的所述对象候选中的所述目标对象的尺寸对应的预设尺寸,(iii)使用具有与所述第一目标区域的尺寸对应的P×Q尺寸的移动窗口的至少一个区域,来决定所述第一目标区域(TR),所述至少一个区域,可通过改变所述移动窗口的位置,具有要占的所有区域中所述直方图之和最大的值。
之后,所述学习装置(100),使所述图像处理网络(111),可支持获取所述训练图像或者对其调整尺寸的图像,即,获取与所述调整尺寸的训练图像上的所述第一目标区域(TR)对应的第二处理图像或者支持使其他装置获取。
此时,所述学习装置(100),使所述图像处理网络(111),将所述训练图像的尺寸放大到大于所述第一处理图像的尺寸,生成所述调整尺寸的训练图像之后,在所述调整尺寸的训练图像上,裁剪与所述第一目标区域(TR)对应的至少一个区域,生成所述第二处理图像,或者裁剪与所述训练图像上的所述第一目标区域(TR)对应的至少一个区域以及调整尺寸,生成所述第二处理图像。
作为一示例,所述图像处理网络(111),在与所述训练图像对应的所述图像金字塔中的大于第一处理图像的尺寸的图像上,裁剪与第一目标区域(TR)对应的至少一个区域,生成所述第二处理图像。并且,所述图像处理网络(111),可在所述训练图像中,裁剪与所述第一目标区域(TR)对应的至少一个区域,对所述裁剪的图像调整尺寸,从而生成所述第二处理图像。此时,可将所述第二处理图像进行调整尺寸,使得其尺寸大于所述第一目标区域的尺寸。为此,所述图像处理网络(111)可生成第二处理图像,以调整尺寸使得所述裁剪的图像对应于所述训练图像的所述图像金字塔中所述第一处理图像的下一个图像的尺寸。
之后,所述学习装置(100)利用所述生成的第二处理图像,并可重复如上所述的过程来有效检测所述训练图像上的尺寸小的对象,即,有效检测位于远距离的对象。
即,所述学习装置(100)可支持执行或使其他装置执行以下步骤:将k从2增加到n的同时,(i)使所述目标对象预测网络(125),参考第(k-1)处理图像上的一个或多个第(k-1)对象候选,在上述第(k-1)处理图像上找出与被预测为上述目标对象所在位置对应的第(k-1)目标领域,(ii)当在所述训练图像或者调整尺寸的训练图像上获取与所述第(k-1)目标区域对应的第k处理图像时,使所述卷积层,对所述第k处理图像应用所述卷积运算,输出第k特征图。并且,所述学习装置(100),可使所述RPN(122),利用所述第k特征图,来输出与位于所述第k处理图像中的第k对象对应的所述第k对象候选,使所述池化层(123),在所述第k特征图上对与每个所述第k对象候选对应的各个区域应用所述池化运算,输出所述至少一个第k池化特征图。此后,所述学习装置(100),使所述FC层(124),对所述第k池化特征图应用所述FC运算,输出与所述第k对象对应的第k对象检测信息。
作为一示例,参考图5,在与作为所述图像金字塔中最小尺寸的图像的第一图像(P1)对应的所述第一处理图像(MI1)上,执行对象检测而预测所述第一目标区域(TR1),在与作为所述图像金字塔中下一个最小尺寸的图像的第二图像(P2)中的所述第一目标区域(TR1)对应的所述第二处理图像(MI2)上,执行对象检测,确认第二目标区域(TR2),在与作为所述图像金字塔中第二图像(P2)下一个最小尺寸的图像的第三图像(P3)中的所述第二目标区域(TR2)对应的第三处理图像(MI3)上,执行对象检测,从而具有特定尺寸的第k对象,优选地,位于远距离的尺寸小的对象,用短的运算时间容易检测到。
此时,所述第一处理图像至第(n-1)处理图像中,使得第一目标区域至第(n-1)目标区域的尺寸相同,或者对应每个处理图像的尺寸,在纵横比(aspectratio)相同的状态下,使得其尺寸互不相同。并且,所述第一处理图像至所述第n处理图像可以具有相同的大小。
此后,所述学习装置(100)用于执行(i)使目标对象集成网络(126),集成所述第一对象候选至所述第n对象候选并输出集成对象候选,集成所述第一对象检测信息至所述第n对象检测信息并输出集成对象检测信息。
作为一例,参考图6,在所述第(k-1)处理图像(MI(k-1))与所述第k处理图像(MI(k))上配置有至少一个特定相同对象,在所述第(k-1)处理图像(MI(k-1))上,将所述第(k-1)对象候选中与所述特定相同对象对应的至少一个对象候选作为第(k-1)特定对象候选,在所述第k处理图像(MI(k))上,将所述第k对象候选中与所述特定相同对象对应的至少一个对象候选作为第k特定对象候选时,所述学习装置(100),使所述目标对象集成网络(126),判断所述第(k-1)特定对象候选(PB(k-1))与所述第k特定对象候选(PB(k))之间的IOU(Intersection Over Union)是否等于或大于第一阈值。
此后,若所述IOU被判断为小于所述第一阈值,则计算出所述第(k-1)特定对象候选(PB(k-1))与所述第k特定对象候选(PB(k))之间的调整IOU。此时,所述调整IOU,是在所述第k处理图像(MI(k))上,参考与所述第(k-1)特定对象候选(PB(k-1))对应的区域,即,交叉区域(PB(k-1),MI(k))以及所述第(k-1)处理图像(MI(k-1))上与所述第k特定对象候选(PB(k))对应的区域,即,交叉区域(PB(k),MI(k-1))计算出的IOU。
并且,若所述调整IOU被判断为等于或大于第二阈值,则所述学习装置(100)在所述第(k-1)特定对象候选(PB(k-1))与所述第k特定对象候选(PB(k))中,(i)选择概率值高的特定对象候选,或者(ii)选择在所述训练图像上运算的面积大的特定对象候选,从而将所述选择的特定对象候选作为与所述特定相同对象对应的特定集成对象候选来生成。
然而,若所述调整IOU被判断为小于所述第二阈值,则所述学习装置(100)会判断所述第(k-1)特定对象候选(PB(k-1))与所述第k特定对象候选(PB(k))分别对应其他对象。即,若判断为所述第(k-1)特定对象候选(PB(k-1))与所述第k特定对象候选(PB(k))之间的所述IOU小于所述第一阈值,并且他们之间的所述调整IOU小于所述第二阈值,则所述学习装置(100)会判断所述第(k-1)特定对象候选(PB(k-1))与所述第k特定对象候选(PB(k))分别对应于其他对象。
另一方面,若所述第(k-1)特定对象候选(PB(k-1))与所述第k特定对象候选(PB(k))之间的所述IOU被判断为等于或大于所述第一阈值,则所述学习装置在所述第(k-1)特定对象候选(PB(k-1))与所述第k特定对象候选(PB(k))中(i)选择概率值高的特定对象候选,或者(ii)选择在每个所述处理图像(MI(k-1)以及MI(k))上运算的面积大的特定对象候选,从而将所述选择的特定对象候选作为与所述特定相同对象对应的所述特定集成对象来生成。
并且,参考图6,所述第(k-1)处理图像(MI(k-1))与所述第k处理图像(MI(k))上,配置有至少一个特定相同对象,在所述第(k-1)处理图像(MI(k-1))上,包括在所述第(k-1)对象检测信息的对象边界框中与所述特定相同对象对应的至少一个对象边界框作为第(k-1)特定对象边界框(BB(k-1)),在所述第k处理图像(MI(k))上,包括在所述第k对象检测信息的对象边界框中与所述特定相同对象对应的至少一个对象边界框作为第k特定对象边界框(BB(k))时,所述学习装置(100),使所述目标对象集成网络(126),判断所述第(k-1)特定对象边界框(BB(k-1))与所述第k特定对象边界框(BB(k))之间的IOU是否等于或大于所述第一阈值。此时,利用于所述对象候选之间的IOU判断的所述第一阈值与利用于所述对象边界框之间的IOU判断的所述第一阈值可以相同或者不同。然后,利用于所述对象候选之间的IOU判断的所述第二阈值与利用于所述对象边界框之间的IOU判断的所述第二阈值可以相同或者不同。其后,若所述边界框之间的IOU被判断为小于所述第一阈值,则计算出所述第(k-1)特定对象边界框(BB(k-1))与所述第k特定对象边界框(BB(k))之间的调整IOU。
此时,所述调整IOU是,在所述第k处理图像(MI(k))上,参考与所述第(k-1)特定对象边界框(BB(k-1))对应的区域,即,交叉区域(BB(k-1),MI(k)),以及在所述第(k-1)处理图像(MI(k-1))上与所述第k特定对象边界框(BB(k))对应的区域,即,交叉区域(BB(k),MI(k-1))计算出的IOU。
然后,所述调整IOU被判断为等于或大于所述第二阈值,所述学习装置(100)在所述第(k-1)特定对象边界框(BB(k-1))与所述第k特定对象边界框(BB(k))中,(i)选择概率值高的特定对象边界框,或者(ii)选择在所述训练图上运算的面积大的特定对象边界框,从而将所述选择的特定对象边界框作为与所述特定相同对象对应的特定集成对象检测信息来生成。此时,利用于所述对象候选之间的IOU判断的所述第二阈值与利用于所述对象边界框之间的IOU判断的所述第二阈值可以相同或者不同。
然而,若所述调整IOU被判断为小于所述第二阈值,则所述学习装置(100)会判断所述第(k-1)特定对象边界框(BB(k-1))与所述第k特定对象边界框(BB(k))分别对应其他对象。即,若所述第(k-1)特定对象边界框(BB(k-1))与所述第k特定对象边界框(BB(k))之间的所述IOU被判断为小于所述第一阈值,并且他们之间的所述调整IOU被判断为小于所述第二阈值,则所述学习装置(100)会判断所述第(k-1)特定对象边界框(BB(k-1))与所述第k特定对象边界框(BB(k))分别对应其他对象。
另一方面,若所述第(k-1)特定对象边界框(BB(k-1))与所述第k特定对象边界框(BB(k))之间的所述IOU被判断为等于或大于所述第一阈值,则所述学习装置在所述第(k-1)特定对象边界框(BB(k-1))与所述第k特定对象边界框(BB(k))中,(i)选择概率值高的特定对象边界框,或者(ii)选择在每个所述处理图像(MI(k-1)以及MI(k))上运算的面积大的特定对象边界框,从而将所述选择的特定对象边界框作为与所述特定相同对象对应的所述特定集成对象检测信息来生成。
通过所述的方法,位于所述训练图像中的各种尺寸的对象,尤其,可以对尺寸小且位于远距离的所述第k对象有效地进行检测,并且,仅使用与所述预测的目标区域对应的区域,减少了运算量,由此可减少基于所述CNN的所述对象检测的运算时间。
并且,上文中仅对于假设所述训练图像上目标对象只有一个的情况进行了描述,但在所述训练图像中存在多个目标对象的情况下,上述方法也能够使用与所述训练图像中的各个目标对象相对应的各个目标区域来检测所述各个目标对象。
其后,所述学习装置(100)使所述全连接(FC)损失层(127),参考所述集成对象检测信息和与其对应的GT生成一个或多个FC损失,从而通过利用所述FC损失的反向传播,学习所述FC层(124)以及所述卷积层(121)的参数中至少一部分。
然后,所述学习装置(100),使所述区域生成网络(Region Proposal Network,RPN)损失层(128),参考所述集成对象候选以及与其对应的GT计算出一个或多个RPN损失,从而通过利用所述RPN损失的反向传播,学习所述RPN(122)的参数的至少一部分。
图7为检测利用根据本发明一实施例的所述目标对象预测网络与所述目标对象集成网络的,基于所述CNN的对象检测器的测试装置的示意图,参考图7,所述测试装置(200)可包括通信部(210)与处理器(220)。
首先,所述通信部(210)可支持获取至少一个测试图像或者使其他装置获取。
并且,所述测试装置还可以包括可存储用于完成将要描述的过程的计算机可读指令(Computer Readable Instruction)的存储器(215)。作为一例,所述处理器、所述存储器以及介质(medium)等可以由一个处理器集成起作用。
此时,利用所述目标对象预测网络与所述目标对象集成网络的,基于所述CNN的所述对象检测器,可通过参考图1至图6描述的所述学习方法学习。
作为参考,为了避免在以下描述中造成混淆,与学习过程有关的术语中添加了术语“学习用”,并且与测试过程有关的术语中添加了术语“测试用”。
即,当获取训练图像时,所述学习装置执行以下步骤:(a)(i)使所述卷积层,与所述训练图像对应的至少一个第一学习用处理图像应用所述卷积运算,输出至少一个第一学习用特征图,(ii)使所述RPN,利用所述第一学习用特征图,输出与位于所述第一学习用处理图像中的一个或多个第一学习用对象分别对应的一个或多个第一学习用对象候选,(iii)使所述池化层,在所述第一学习用特征图上,与每个所述第一学习用对象候选对应的各个区域应用所述池化运算,输出至少一个第一学习用池化特征图,(iv)使所述FC层,对所述第一学习用池化特征图应用所述FC运算,输出与所述第一学习用对象对应的第一学习用对象检测信息;(b)将k从2增加到n的同时,(i)使所述目标对象预测网络,参考第(k-1)学习用处理图像上的一个或多个第(k-1)学习用对象候选,在所述第(k-1)学习用处理图像上找出与至少一个学习用目标对象被预测的所在区域对应的第(k-1)学习用目标区域,(ii)在所述训练图像或者调整尺寸的训练图像上获取与所述第(k-1)学习用目标区域对应的第k学习用处理图像,使所述卷积层对所述第k学习用处理图像应用所述卷积运算,输出第k学习用特征图,(iii)使所述RPN,参考所述第k学习用特征图,输出与位于所述第k学习用处理图像中的一个或多个第k学习用对象分别对应的一个或多个第k学习用对象候选,(iv)使所述池化层,在所述第k学习用特征图上,对与每个所述第k学习用对象候选对应的各个区域应用所述池化运算,输出至少一个第k学习用池化特征图,(v)使所述FC层,对所述第k学习用池化特征图应用所述FC运算,输出与所述第k学习用对象对应的第k学习用对象检测信息;以及(c)(i)使所述目标对象集成网络集成所述第一学习用对象候选至所述第n学习用对象候选,输出学习用集成对象候选,集成所述第一学习用对象检测信息至所述第n学习用对象检测信息,输出学习用集成对象检测信息,(ii)生成使FC损失层参考所述学习用集成对象检测信息和与其对应的GT所述FC损失,从而通过利用所述FC损失的反向传播,学习所述FC层以及所述卷积层的参数中至少一部分。
然后,所述学习装置使所述RPN损失层参考所述学习用集成对象候选以及与其对应的GT,计算出一个或多个RPN损失,从而通过利用所述RPN损失的反向传播,学习所述RPN的参数中至少一部分。
之后,所述处理器(220)执行以下步骤:(i)使所述卷积层,对与所述测试图像对应的至少一个第一测试用处理图像应用所述卷积运算,输出至少一个第一测试用特征图,(ii)使所述RPN,利用所述第一测试用特征图,输出与位于所述第一测试用处理图像中的一个或多个第一测试用对象分别对应的一个或多个第一测试用对象候选,(iii)使所述池化层,在所述第一测试用特征图上,与每个所述第一测试用对象候选对应的各个区域应用所述池化运算,输出至少一个第一测试用池化特征图,(iv)使所述FC层,对所述第一测试用池化特征图应用所述FC运算,执行用于输出与所述第一测试用对象对应的第一测试用对象检测信息的过程或者使其他装置执行。此后,所述处理器(220),将k从2增加到n的同时,(i)使所述目标对象预测网络,参考在第(k-1)测试用处理图像上的一个或多个第(k-1)测试用对象候选,在所述第(k-1)测试用处理图像上找出与至少一个测试用目标对象被预测的所在区域对应的第(k-1)测试用目标区域,(ii)当在所述测试图像或者调整尺寸的测试图像上获取与所述第(k-1)测试用目标区域对应的第k测试用处理图像时,使所述卷积层,对所述第k测试用处理图像应用所述卷积运算并输出第k测试用特征图,(iii)使所述RPN,参考所述第k测试用特征图输出与位于所述第k测试用处理图像中的一个或多个第k测试用对象分别对应的一个或多个第k测试用对象候选,(iv)使所述池化层,在所述第k测试用特征图上,与每个所述第k测试用对象候选对应的各个区域应用所述池化运算,输出至少一个第k测试用池化特征图,(v)使所述FC层,执行对所述第k测试用池化特征图应用所述FC运算,执行输出与所述第k测试用对象对应的第k测试用对象检测信息的过程,或者使其他装置执行。其后,所述处理器(220),(i)使所述目标对象集成网络集成所述第一测试用对象候选至所述第n测试用对象候选并输出测试用集成对象候选,执行集成所述第一测试用对象检测信息至所述第n测试用对象检测信息,输出测试用集成对象检测信息的过程。
此时,根据本发明一实施例的测试装置(200)作为计算装置,只要是装载处理器的具有运算能力的装置,就可以作为根据本发明的测试装置(200)来被采用。并且,图7中仅示出了测试装置(200),但不限于此,并且测试装置可以被划分为多个来完成其作用。
参考图8描述利用根据本发明一实施例的所述测试装置(200),来测试并利用目标对象预测网络与目标对象集成网络的,基于所述CNN的所述对象检测器的方法如下。在以下描述中,将省略通过参考图1至图6描述的学习方法容易理解的部分的详细描述。
首先,若在已学习根据参考图1至图6描述的学习方法的全连接(FC)层(224)、卷积层(221)以及区域候选网络(RPN)(222)的参数中至少一部分的状态下,输入所述测试图像,所述测试装置(200)使所述卷积层(221),对与所述测试图像对应的所述第一处理图像应用所述卷积运算,输出所述第一测试用特征图。此时,所述卷积层(221)可以为单一卷积层,或者可以为多个卷积层。
此时,所述测试装置(200),可使图像处理网络(211),处理所述测试图像并生成包括尺寸不同的图像的图像金字塔,将所述图像金字塔中的一个图像作为所述第一测试用处理图像来输入于所述卷积层(221)。
之后,所述测试装置(200),使所述RPN(222),利用所述第一测试用特征图,来输出与位于所述第一测试用处理图像中的所述第一测试用对象分别对应的一个或多个第一测试用对象候选。
此时,每个所述第一测试用对象候选可以包括,与所述每个第一测试用对象,即,与标签区域对应的位置信息与具有关于所述每个标签区域是否是对象的信息的各候选的信息。
之后,所述测试装置(200),使池化层(223),在所述第一测试用特征图上,对与所述第一对象候选对应的至少一个区域,应用所述池化运算,输出至少一个第一测试用池化特征图,可使所述FC层(224),对所述第一测试用池化特征图应用所述FC运算,输出与所述第一测试用对象对应的第一测试用对象检测信息。
此时,所述第一测试用对象检测信息可包括,关于测试用边界框的信息(即,关于每个所述第一测试用对象的位置信息)以及关于每个与所述第一测试用对象候选对应的所述第一测试用对象的类别信息。
之后,所述测试装置(200),使目标对象预测网络(225),参考在第一测试用处理图像上的所述第一测试用对象候选,来找出所述第一测试用处理图像上与被预测为至少一个测试用目标对象所在区域对应的第一测试用目标区域。
之后,所述测试装置(200),可获取所述调整尺寸的测试图像或者与所述测试图像上的所述第一测试用目标区域对应的第二测试用处理图像,或者使其他装置获取。
此时,所述测试装置(200),可使所述图像处理网络(211),放大所述测试图像的尺寸等于或大于所述第一测试用处理图像的尺寸并生成所述调整尺寸的测试图像之后,在所述调整尺寸的测试图像上裁剪与所述第一测试用目标区域对应的至少一个区域并生成所述第二测试用处理图像,或者,裁剪与所述测试图像上的所述第一测试用目标区域对应的至少一个区域以及调整尺寸并生成所述第二测试用处理图。
作为一示例,所述图像处理网络(211),在与所述测试图像对应的所述图像金字塔中尺寸大于所述第一测试用处理图像的尺寸的图像上,裁剪与所述第一测试用目标区域对应的至少一个区域,生成所述第二测试用处理图像。并且,所述图像处理网络(211),可在所述测试图像中,裁剪与所述第一测试用目标区域对应的至少一个区域,对所述裁剪的图像调整尺寸,从而生成所述第二测试用处理图像。此时,调整尺寸,使得第二测试用处理图像的尺寸大于所述第一测试用目标区域的尺寸。为此,所述图像处理网络(211),对裁剪的图像的尺寸调整尺寸,使得将所述裁剪的图像对应所述测试图像的所述图像金字塔中的所述第一测试用处理图像的下一个图像尺寸,生成所述第二测试用处理图像。
之后,所述测试装置(200),利用所述生成的第二测试用处理图像,重复如上所述的过程,并有效检测所述测试图像上的尺寸小的对象,即,位于远距离的对象。
即,所述测试装置(200)支持执行或使其他装置执行以下步骤:将k从2增加到n的同时,(i)使所述目标对象预测网络(225),参考在第(k-1)测试用处理图像上的一个或多个第(k-1)测试用对象候选,在所述第(k-1)测试用处理图像上找出与被预测为至少一个测试用目标对象所在区域对应的第(k-1)测试用目标区域,(ii)当在所述测试图像或者调整尺寸的测试图像上获取与所述第(k-1)测试用目标区域对应的第k测试用处理图像时,使所述卷积层(221),对所述第k测试用处理图像应用所述卷积运算,执行用于输出第k测试用特征图过程或者使其他装置执行。然后,所述测试装置(200),使所述RPN(222),利用所述第k测试用特征图,输出分别对应位于所述第k测试用处理图像中的所述第k测试用对象的所述第k测试用对象候选,使所述池化层(223),在所述第k测试用特征图上,与每个所述第k测试用对象候选对应的各个区域应用所述池化运算,输出至少一个第k测试用池化特征图。此后,所述测试装置(200),可使所述FC层(224),对所述第k测试用池化特征图应用所述FC运算,输出与所述第k测试用对象对应的第k测试用对象检测信息。
此后,所述测试装置(200)(i)使所述目标对象集成网络(226),集成所述第一测试用对象候选至所述第n测试用对象候选,输出测试用集成对象候选,集成所述第一测试用对象检测信息至所述第n测试用对象检测信息,输出测试用集成对象检测信息。
作为一例,参考图6,在所述第(k-1)测试用处理图像(MI(k-1))与所述第k测试用处理图像(MI(k))上配置有至少一个测试用特定相同对象,所述第(k-1)测试用处理图像(MI(k-1))上的所述第(k-1)测试用对象候选中,将与所述测试用特定相同对象对应的至少一个测试用对象候选作为第(k-1)测试用特定对象候选,所述第k测试用处理图像(MI(k))上的所述第k测试用对象候选中,将与所述测试用特定相同对象对应的至少一个测试用对象候选作为第k测试用特定对象候选时,所述测试装置(200),使所述目标对象集成网络(226),判断所述第(k-1)测试用特定对象候选(PB(k-1))与所述第k测试用特定对象候选(PB(k))之间的测试用IOU是否等于或大于第一阈值。此后,若所述测试用IOU被判断为小于所述第一阈值,则计算出所述第(k-1)测试用特定对象候选(PB(k-1))与所述第k测试用特定对象候选(PB(k))之间的测试用调整IOU。
此时,所述测试用调整IOU是,在所述第k测试用处理图像(MI(k))上,参考与所述第(k-1)测试用特定对象候选(PB(k-1))对应的区域,即,交叉区域(PB(k-1),Mi(k))以及以及在所述第(k-1)测试用处理图像(MI(k-1))上与所述第k测试用特定对象候选(PB(k))对应的区域,即,交叉区域(PB(k),MI(k-1))并计算出的IOU。
然后,若所述测试用调整IOU被判断为等于或大于第二阈值,所述测试装置(200),在所述第(k-1)测试用特定对象候选(PB(k-1))与所述第k测试用特定对象候选(PB(k))中,(i)选择概率值高的测试用特定对象候选,或者(ii)选择所述测试图像上运算的面积大的测试用特定对象候选,从而将所述选择的测试用特定对象候选作为与所述测试用特定相同对象对应的测试用特定集成对象候选来生成。
然而,所述调整IOU被判断为小于所述第二阈值,所述测试装置(200)会判断所述第(k-1)测试用特定对象候选(PB(k-1))与所述第k测试用特定对象候选(PB(k))分别对应不同的测试用对象。即,若判断为所述第(k-1)测试用特定对象候选(PB(k-1))与所述第k测试用特定对象候选(PB(k))之间的所述测试用IOU小于所述第一阈值,并且他们之间的所述测试用调整IOU小于所述第二阈值,则所述测试装置(200)会判断所述第(k-1)测试用特定对象候选(PB(k-1))与所述第k测试用特定对象候选(PB(k))分别对应不同的测试用对象。
另一方面,若所述第(k-1)测试用特定对象候选(PB(k-1))与所述第k测试用特定对象候选(PB(k))之间的所述IOU被判断为等于或大于所述第一阈值,则所述测试装置在所述第(k-1)测试用特定对象候选(PB(k-1))与所述第k测试用特定对象候选(PB(k))中,(i)选择概率值高的测试用特定对象候选,或者(ii)选择在每个所述测试用处理图像(MI(k-1)以及MI(k))上运算的面积大的测试用特定对象候选,从而将所述选择的测试用特定对象候选作为与所述测试用特定相同对象对应的所述测试用特定集成对象候选来生成。
并且,参考图6,所述第(k-1)测试用处理图像(MI(k-1))与所述第k测试用处理图像(MI(k))上,配置有至少一个测试用特定相同对象,在所述第(k-1)测试用处理图像(MI(k-1))上,包括在所述第(k-1)测试用对象检测信息的测试用对象边界框中,将与所述测试用特定相同对象对应的至少一个测试用对象边界框作为第(k-1)测试用特定对象边界框(BB(k-1)),在所述第k测试用处理图像(MI(k))上,包括在所述第k测试用对象检测信息的测试用对象边界框中,将与所述测试用特定相同对象对应的至少一个测试用对象边界框作为第k测试用特定对象边界框(BB(k))时,所述测试装置(200),使所述目标对象集成网络(226),判断所述第(k-1)测试用特定对象边界框(BB(k-1))与所述第k测试用特定对象边界框(BB(k))之间的所述测试用IOU是否等于或大于所述第一阈值。此时,利用于所述测试用对象候选之间的测试用IOU判断的所述第一阈值以及利用于所述测试用对象边界框之间的测试用IOU判断的所述第一阈值可以相同或者不同。其后,若所述测试用边界框之间的测试用IOU被判断为小于所述第一阈值,则计算出所述第(k-1)测试用特定对象边界框(BB(k-1))与所述第k测试用特定对象边界框(BB(k))之间的测试用调整IOU。
此时,所述测试用调整IOU是,参考在所述第k测试用处理图像(MI(k))上,与所述第(k-1)测试用特定对象边界框(BB(k-1))对应的区域,即,交叉区域(BB(k-1),MI(k)),以及在所述第(k-1)测试用处理图像(MI(k-1))与上所述第k测试用特定对象边界框(BB(k))对应的区域,即,交叉区域(BB(k),MI(k-1)),计算出的IOU。
然后,若所述测试用调整IOU被判断为等于或大于所述第二阈值,所述测试装置(200),在所述第(k-1)测试用特定对象边界框(BB(k-1))与所述第k测试用特定对象边界框(BB(k))中,(i)选择概率值高的测试用特定对象边界框,或者(ii)选择所述测试图像上运算的面积大的测试用特定对象边界框,从而将所述选择的测试用特定对象边界框作为与所述测试用特定相同对象对应的测试用特定集成对象检测信息来生成。此时,利用于所述测试用对象候选之间的测试用IOU判断的所述第二阈值以及利用于所述测试用对象边界框之间的测试用IOU判断的所述第二阈值可以相同或者不同。
然而,若所述测试用调整IOU被判断为小于所述第二阈值,则所述测试装置(200)会判断所述第(k-1)测试用特定对象边界框(BB(k-1))与所述第k测试用特定对象边界框(BB(k))分别对应不同测试用对象。即,所述第(k-1)测试用特定对象边界框(BB(k-1))与所述第k测试用特定对象边界框(BB(k))之间的所述测试用IOU被判断为小于所述第一阈值,并且他们之间的所述测试用调整IOU被判断为小于所述第二阈值时,所述测试装置(200),会判断所述第(k-1)测试用特定对象边界框(BB(k-1))与所述第k测试用特定对象边界框(BB(k))分别对应不同的测试用对象。
另一方面,若所述第(k-1)测试用特定对象边界框(BB(k-1))与所述第k测试用特定对象边界框(BB(k))之间的所述测试用IOU被判断为等于或大于所述第一阈值,则在所述测试装置所述第(k-1)测试用特定对象边界框(BB(k-1))与所述第k测试用特定对象边界框(BB(k))中,(i)选择概率值高的测试用特定对象边界框,或者(ii)选择在每个所述测试用处理图像(MI(k-1)以及MI(k))上运算的面积大的测试用特定对象边界框,从而将所述选择的测试用特定对象边界框作为与所述测试用特定相同对象对应的所述测试用特定集成对象检测信息来生成。
通过所述的方法,位于所述测试图像中的各种尺寸的对象,尤其,可以对尺寸小且位于远距离的对象有效地进行检测,并且,仅使用与所述预测的目标区域对应的区域,减少了运算量,由此可减少基于所述CNN的所述对象检测的运算时间。
并且,上文中仅通过所述假设测试图像上目标对象只有一个的情况进行了描述,但在测试图像中存在多个目标对象的情况下,上述方法也能够使用与测试图像中的各个目标对象相对应的各个目标区域来检测所述各个目标对象。
所述CNN,利用目标对象预测网络和目标对象集成网络,可进行调整适应用户要求如关键绩效指标(Key Performance Index,KPI)。并且,所述CNN,根据所述关键绩效指标的分辨率或焦距发生变化而变化的对象的规模来进行重新设计。所述方法提高了2D边界框的准确度,从而能有效地执行于多摄像机、环视监视(Surround View Monitoring)等。
并且,以上描述的根据本发明的实施例可以通过各种计算机部件执行的程序指令的形式来实现并存储在计算机可读存储介质。所述计算机可读存储介质可以单独或组合包括程序指令、数据文件、数据结构等。存储在所述计算机可读存储介质的程序指令,可以是为本发明专门设计并组成的,或者可以是计算机软件领域的技术人员已知并可使用的。计算机可读存储介质的示例包括,如硬盘、软盘和磁带的磁性介质、如CD-ROM、DVD的光学记录介质、如软盘的磁光介质以及专门配置用于存储并执行如ROM、RAM、闪存等程序指令的硬件装置。程序指令的示例不仅包括如由编译器产生的机器代码,还包括可以由计算机使用解释器等执行的高级语言代码。所述硬件装置,可配置为一个或多个软件模块来操作,以执行根据本发明的过程,反之亦然。
以上,本发明根据具体的部件等特定实施候选和有限的实施例及附图进行了说明,但这只是为了帮助更全面地理解本发明而提供的,本发明并不限于上述实施例,在本发明所属的技术领域中,普通技术人员可以从这些记载中进行各种修改和变化。
因此,本发明的思想不能限于上述说明的实施例而定,不仅是后述的权利范围,与该权利范围均等或等价变形的一切,都属于本发明的思想范围。

Claims (30)

1.一种学习方法,其利用目标对象预测网络与目标对象集成网络,来学习基于卷积神经网络的对象检测器的参数,其特征在于,包括:
步骤(a),当输入至少一个训练图像时,学习装置,(i)使一个或多个卷积层,对与所述训练图像对应的至少一个第一处理图像应用一个或多个卷积运算,输出至少一个第一特征图,(ii)使区域候选网络,利用所述第一特征图,输出与位于所述第一处理图像中的一个或多个第一对象分别对应的一个或多个第一对象候选,(iii)使池化层,在所述第一特征图上,对与每个所述第一对象候选对应的各个区域应用一个或多个池化运算,输出至少一个第一池化特征图,(iv)使全连接层,对所述第一池化特征图应用至少一个全连接运算,输出与所述第一对象对应的第一对象检测信息;
步骤(b),将k从2增加到n的同时,所述学习装置,(i)使所述目标对象预测网络,参考第(k-1)处理图像上的一个或多个第(k-1)对象候选,在所述第(k-1)处理图像上,找出与预测至少一个目标对象所在区域对应的第(k-1)目标区域,(ii)当所述训练图像或者与其对应的一个或多个调整尺寸的训练图像上获取与所述第(k-1)目标区域对应的第k处理图像时,使所述卷积层,对所述第k处理图像应用所述卷积运算,输出第k特征图,(iii)使所述区域候选网络,参考所述第k特征图,输出与位于所述第k处理图像中的一个或多个第k对象分别对应的一个或多个第k对象候选,(iv)使所述池化层,在所述第k特征图上,对与每个所述第k对象候选对应的各个区域应用所述池化运算,输出至少一个第k池化特征图,(v)使所述全连接层,对所述第k池化特征图应用所述全连接运算,输出与所述第k对象对应的第k对象检测信息;以及
步骤(c),所述学习装置,(i)使所述目标对象集成网络集成所述第一对象候选至所述第n对象候选,输出集成对象候选,集成所述第一对象检测信息至所述第n对象检测信息,输出集成对象检测信息,(ii)使全连接损失层参考所述集成对象检测信息和与其对应的真实框,生成一个或多个全连接损失,从而通过利用所述全连接损失的反向传播,学习所述全连接层以及所述卷积层的参数中至少一部分。
2.根据权利要求1所述的学习方法,其特征在于,
在所述步骤(c),
所述学习装置,使区域候选网络损失层参考所述集成对象候选及与其对应的真实框,计算出一个或多个区域候选网络损失,从而通过利用所述区域候选网络损失的反向传播,学习所述区域候选网络的参数。
3.根据权利要求1所述的学习方法,其特征在于,
在所述步骤(c),
在所述第(k-1)处理图像与所述第k处理图像上,配置有至少一个特定相同对象,在所述第(k-1)处理图像上,将所述第(k-1)对象候选中与所述特定相同对象对应的至少一个对象候选作为第(k-1)特定对象候选,在所述第k处理图像上,将所述第k对象候选中与所述特定相同对象对应的至少一个对象候选作为第k特定对象候选时,
所述学习装置,使所述目标对象集成网络判断所述第(k-1)特定对象候选与所述第k特定对象候选之间的交并比是否等于或大于第一阈值,若所述交并比被判断为小于所述第一阈值,则计算出所述第(k-1)特定对象候选与所述第k特定对象候选之间的调整交并比,若所述调整交并比被判断为等于或大于第二阈值,则在所述第(k-1)特定对象候选与所述第k特定对象候选中,(i)选择概率值高的特定对象候选,或者(ii)选择在所述训练图像上运算的面积大的特定对象候选,从而将选择的特定对象候选作为与所述特定相同对象对应的特定集成对象候选来生成。
4.根据权利要求3所述的学习方法,其特征在于,
通过参考在所述第k处理图像上与所述第(k-1)特定对象候选对应的区域和在所述第(k-1)处理图像上与所述第k特定对象候选对应的区域计算得到所述调整交并比。
5.根据权利要求3所述的学习方法,其特征在于,
所述学习装置,使所述目标对象集成网络判断所述交并比是否等于或大于所述第一阈值,若所述交并比被判断为等于或大于所述第一阈值,则在所述第(k-1)特定对象候选与所述第k特定对象候选中,(i)选择概率值高的特定对象候选,或者(ii)选择在每个所述处理图像上运算的面积大的特定对象候选,从而将选择的特定对象候选作为与所述特定相同对象对应的所述特定集成对象来生成。
6.根据权利要求1所述的学习方法,其特征在于,
在所述步骤(c),
在所述第(k-1)处理图像与所述第k处理图像上配置有至少一个特定相同对象,在所述第(k-1)处理图像上,包括在所述第(k-1)对象检测信息的对象边界框中,将与所述特定相同对象对应的至少一个对象边界框作为第(k-1)特定对象边界框,在所述第k处理图像上,包括在所述第k对象检测信息的对象边界框中,将与所述特定相同对象对应的至少一个对象边界框作为第k特定对象边界框时,
所述学习装置,使所述目标对象集成网络判断所述第(k-1)特定对象边界框与所述第k特定对象边界框之间的交并比是否等于或大于第一阈值,若所述交并比被判断为小于所述第一阈值,则计算出所述第(k-1)特定对象边界框与所述第k特定对象边界框之间的调整交并比,若所述调整交并比被判断为等于或大于第二阈值,则在所述第(k-1)特定对象边界框与所述第k特定对象边界框中,(i)选择概率值高的特定对象边界框,或者(ii)选择在所述训练图像上运算的面积大的特定对象边界框,从而将所述选择的特定对象边界框作为与所述特定相同对象对应的特定集成对象检测信息来生成。
7.根据权利要求6所述的学习方法,其特征在于,
通过参考在所述第k处理图像上与所述第(k-1)特定对象边界框对应的区域和在所述第(k-1)处理图像上与所述第k特定对象边界框对应的区域来计算得到所述调整交并比。
8.根据权利要求6所述的学习方法,其特征在于,
所述学习装置,使所述目标对象集成网络判断所述交并比是否等于或大于所述第一阈值,若所述交并比被判断为等于或大于所述第一阈值,则在所述第(k-1)特定对象边界框与所述第k特定对象边界框中,(i)选择概率值高的特定对象边界框,或者(ii)选择在每个所述处理图像上运算的面积大的对象特定边界框,从而将所述选择的特定对象边界框作为与所述特定相同对象对应的所述特定集成对象检测信息来生成。
9.一种测试方法,其利用目标对象预测网络与目标对象集成网络,来测试基于卷积神经网络的对象检测器,其特征在于,包括:
步骤(a),学习装置,(1)(i)使一个或多个卷积层,对与至少一个训练图像对应的至少一个第一学习用处理图像应用一个或多个卷积运算,输出至少一个第一学习用特征图,(ii)使区域候选网络,利用所述第一学习用特征图,输出与位于所述第一学习用处理图像中的一个或多个第一学习用对象分别对应的一个或多个第一学习用对象候选,(iii)使池化层,在所述第一学习用特征图上,与每个所述第一学习用对象候选对应的各个区域应用一个或多个池化运算,输出至少一个第一学习用池化特征图,(iv)使全连接层,对所述第一学习用池化特征图应用至少一个全连接运算,输出与所述第一学习用对象对应的第一学习用对象检测信息,(2)将k从2增加到n的同时,(i)使所述目标对象预测网络,参考第(k-1)学习用处理图像上的一个或多个第(k-1)学习用对象候选,在所述第(k-1)学习用处理图像上,找出与被预测是至少一个学习用目标对象所在的区域对应的第(k-1)学习用目标区域,(ii)当在所述训练图像或者与其对应的一个或多个调整尺寸的训练图像上获取与所述第(k-1)学习用目标区域对应的第k学习用处理图像时,使所述卷积层,对所述第k学习用处理图像应用所述卷积运算,输出第k学习用特征图,(iii)使所述区域候选网络,参考所述第k学习用特征图,输出与位于所述第k学习用处理图像中的一个或多个第k学习用对象分别对应的一个或多个第k学习用对象候选,(iv)使所述池化层,在所述第k学习用特征图上,对与每个所述第k学习用对象候选对应的各个区域应用所述池化运算,输出至少一个第k学习用池化特征图,(v)使所述全连接层,对所述第k学习用池化特征图应用所述全连接运算,输出与所述第k学习用对象对应的第k学习用对象检测信息,(3)(i)使所述目标对象集成网络集成所述第一学习用对象候选至所述第n学习用对象候选,输出学习用集成对象候选,集成所述第一学习用对象检测信息至所述第n学习用对象检测信息,输出学习用集成对象检测信息,(ii)使全连接损失层参考所述学习用集成对象检测信息和与其对应的真实框产生一个或多个全连接损失,从而通过利用所述全连接损失的反向传播,学习所述全连接层以及所述卷积层的参数中至少一部分的状态下,
获取至少一个测试图像时,测试装置,(i)使所述卷积层,对与所述测试图像对应的至少一个第一测试用处理图像应用所述卷积运算,输出至少一个第一测试用特征图,(ii)使所述区域候选网络,利用所述第一测试用特征图,输出与位于所述第一测试用处理图像中的一个或多个第一测试用对象分别对应的一个或多个第一测试用对象候选,(iii)使所述池化层,在所述第一测试用特征图上,与每个所述第一测试用对象候选对应的各个区域应用所述池化运算,输出至少一个第一测试用池化特征图,(iv)使所述全连接层,对所述第一测试用池化特征图应用所述全连接运算,输出与所述第一测试用对象对应的第一测试用对象检测信息;
步骤(b),将k从2增加到n的同时,所述测试装置,(i)使所述目标对象预测网络,参考在第(k-1)测试用处理图像上的一个或多个第(k-1)测试用对象候选,在所述第(k-1)测试用处理图像上,找出与被预测是至少一个测试用目标对象所在的区域对应的第(k-1)测试用目标区域,(ii)当在所述测试图像或者与其对应的一个或多个调整尺寸的测试图像上获取与所述第(k-1)测试用目标区域对应的第k测试用处理图像时,使所述卷积层,对所述第k测试用处理图像应用所述卷积运算,输出第k测试用特征图,(iii)使所述区域候选网络,参考所述第k测试用特征图,输出与位于所述第k测试用处理图像中的一个或多个第k测试用对象分别对应的一个或多个第k测试用对象候选,(iv)使所述池化层,在所述第k测试用特征图上,与每个所述第k测试用对象候选对应的各个区域应用所述池化运算,输出至少一个第k测试用池化特征图,(v)使所述全连接层,对所述第k测试用池化特征图应用所述全连接运算,输出与所述第k测试用对象对应的第k测试用对象检测信息;以及
步骤(c),所述测试装置,(i)使所述目标对象集成网络集成所述第一测试用对象候选至所述第n测试用对象候选,输出测试用集成对象候选,集成所述第一测试用对象检测信息至所述第n测试用对象检测信息,输出测试用集成对象检测信息。
10.根据权利要求9所述的测试方法,其特征在于,
在所述步骤(c),
在所述第(k-1)测试用处理图像与所述第k测试用处理图像上配置有至少一个测试用特定相同对象,在所述第(k-1)测试用处理图像上,将与所述第(k-1)测试用对象候选中所述测试用特定相同对象对应的至少一个测试用对象候选作为第(k-1)测试用特定对象候选,在所述第k测试用处理图像上,将与所述第k测试用对象候选中所述测试用特定相同对象对应的至少一个测试用对象候选作为第k测试用特定对象候选时,
所述测试装置,使所述目标对象集成网络判断所述第(k-1)测试用特定对象候选与所述第k测试用特定对象候选之间的测试用交并比是否等于或大于第一阈值,若所述测试用交并比被判断为小于所述第一阈值,则计算出所述第(k-1)测试用特定对象候选与所述第k测试用特定对象候选之间的测试用调整交并比,若所述测试用调整交并比被判断为等于或大于第二阈值,则在所述第(k-1)测试用特定对象候选与所述第k测试用特定对象候选中,(i)选择概率值高的测试用特定对象候选,或者(ii)选择所述测试图像上运算的面积大的测试用特定对象候选,从而将所述选择的测试用特定对象候选作为与所述测试用特定相同对象对应的测试用特定集成对象候选来生成。
11.根据权利要求10所述的测试方法,其特征在于,
通过参考在所述第k测试用处理图像上与所述第(k-1)测试用特定对象候选对应的区域和在所述第(k-1)测试用处理图像上与所述第k测试用特定对象候选对应的区域来计算得到所述测试用调整交并比。
12.根据权利要求10所述的测试方法,其特征在于,
所述测试装置,使所述目标对象集成网络判断所述测试用交并比是否等于或大于所述第一阈值,若所述测试用交并比被判断为等于或大于所述第一阈值,则在所述第(k-1)测试用特定对象候选与所述第k测试用特定对象候选中,(i)选择概率值高的测试用特定对象候选,或者(ii)选择在每个所述测试用处理图像上运算的面积大的测试用特定对象候选,从而将所述选择的测试用对象候选作为与所述测试用特定相同对象对应的所述测试用特定集成对象候选来生成。
13.根据权利要求9所述的测试方法,其特征在于,
在所述步骤(c),
在所述第(k-1)测试用处理图像与所述第k测试用处理图像上配置有至少一个测试用特定相同对象,在所述第(k-1)测试用处理图像上,包括在所述第(k-1)测试用对象检测信息的测试用对象边界框中将与所述测试用特定相同对象对应的至少一个测试用对象边界框作为第(k-1)测试用特定对象边界框,在所述第k测试用处理图像上,包括在所述第k测试用对象检测信息的测试用对象边界框中将与所述测试用特定相同对象对应的至少一个测试用对象边界框作为第k测试用特定对象边界框时,
所述测试装置,使所述目标对象集成网络判断所述第(k-1)测试用特定对象边界框与所述第k测试用特定对象边界框之间的测试用交并比是否等于或大于第一阈值,若所述测试用交并比被判断为小于所述第一阈值,则计算出所述第(k-1)测试用特定对象边界框与所述第k测试用特定对象边界框之间的测试用调整交并比,若所述测试用调整交并比被判断为等于或大于第二阈值,则在所述第(k-1)测试用特定对象边界框与所述第k测试用特定对象边界框中,(i)选择概率值高的测试用特定对象边界框,或者(ii)选择所述测试图像上运算的面积大的测试用特定对象边界框,从而将所述选择的测试用特定对象边界框作为与所述测试用特定相同对象对应的测试用特定集成对象检测信息来生成。
14.根据权利要求13所述的测试方法,其特征在于,
通过参考在所述第k测试用处理图像上与所述第(k-1)测试用特定对象边界框对应的区域和在所述第(k-1)测试用处理图像上与所述第k测试用特定对象边界框对应的区域来计算得到所述测试用调整交并比。
15.根据权利要求13所述的测试方法,其特征在于,
所述测试装置,使所述目标对象集成网络判断所述测试用交并比是否等于或大于所述第一阈值,若所述测试用交并比被判断为等于或大于所述第一阈值,则在所述第(k-1)测试用特定对象边界框与所述第k测试用特定对象边界框中,(i)选择概率值高的测试用特定对象边界框,或者(ii)选择在每个所述测试用处理图像上运算的面积大的测试用特定对象边界框,从而将所述选择的测试用特定对象边界框作为与所述测试用特定相同对象对应的所述测试用特定集成对象检测信息来生成。
16.一种学习装置,其利用目标对象预测网络与目标对象集成网络,来学习基于卷积神经网络的对象检测器的参数,其特征在于,包括:
至少一个存储器,用于存储指令;以及
至少一个处理器,配置为执行所述指令用于完成以下过程,
过程(I),(i)使一个或多个卷积层,对与至少一个训练图像对应的至少一个第一处理图像应用一个或多个卷积运算,输出至少一个第一特征图,(ii)使区域候选网络,利用所述第一特征图,输出与位于所述第一处理图像中的一个或多个第一对象分别对应的一个或多个第一对象候选,(iii)使池化层,在所述第一特征图上,对与每个所述第一对象候选对应的各个区域应用一个或多个池化运算,输出至少一个第一池化特征图,(iv)使全连接层,对所述第一池化特征图,应用至少一个全连接运算,输出与所述第一对象对应的第一对象检测信息,
过程(II),将k从2增加到n的同时,(i)使所述目标对象预测网络,参考第(k-1)处理图像上的一个或多个第(k-1)对象候选,在所述第(k-1)处理图像上,找出与预测至少一个目标对象所在区域对应的第(k-1)目标区域,(ii)当在所述训练图像或者与其对应的一个或多个调整尺寸的训练图像上获取与所述第(k-1)目标区域对应的第k处理图像时,使所述卷积层,对所述第k处理图像应用所述卷积运算,输出第k特征图,(iii)使所述区域候选网络,参考所述第k特征图,输出与位于所述第k处理图像中的一个或多个第k对象分别对应的一个或多个第k对象候选,(iv)使所述池化层,在所述第k特征图上,对与每个所述第k对象候选对应的各个区域应用所述池化运算,输出至少一个第k池化特征图,(v)使所述全连接层,对所述第k池化特征图应用所述全连接运算,输出与所述第k对象对应的第k对象检测信息,以及
过程(III),(i)使所述目标对象集成网络集成所述第一对象候选至所述第n对象候选,输出集成对象候选,集成所述第一对象检测信息至所述第n对象检测信息,输出集成对象检测信息,(ii)使全连接损失层参考所述集成对象检测信息和与其对应的真实框生成一个或多个全连接损失,从而通过利用所述全连接损失的反向传播,学习所述全连接层以及所述卷积层的参数中至少一部分。
17.根据权利要求16所述的学习装置,其特征在于,
在所述过程(III),
所述处理器,使区域候选网络损失层参考所述集成对象候选以及与其对应的真实框计算出一个或多个区域候选网络损失,从而通过利用所述区域候选网络损失的反向传播,学习所述区域候选网络的参数。
18.根据权利要求16所述的学习装置,其特征在于,
在所述过程(III),
在所述第(k-1)处理图像与所述第k处理图像上配置有至少一个特定相同对象,在所述第(k-1)处理图像上,将所述第(k-1)对象候选中与所述特定相同对象对应的至少一个对象候选作为第(k-1)特定对象候选,在所述第k处理图像上,将所述第k对象候选中与所述特定相同对象对应的至少一个对象候选作为第k特定对象候选时,
所述处理器,使所述目标对象集成网络判断所述第(k-1)特定对象候选与所述第k特定对象候选之间的交并比是否等于或大于第一阈值,若所述交并比被判断为小于所述第一阈值,则计算出所述第(k-1)特定对象候选与所述第k特定对象候选之间的调整交并比,若所述调整交并比被判断为等于或大于第二阈值,则在所述第(k-1)特定对象候选与所述第k特定对象候选中,(i)选择概率值高的特定对象候选,或者(ii)选择在所述训练图像上运算的面积大的特定对象候选,从而将选择的特定对象候选作为与所述特定相同对象对应的特定集成对象候选来生成。
19.根据权利要求18所述的学习装置,其特征在于,
通过参考在所述第k处理图像上与所述第(k-1)特定对象候选对应的区域和在所述第(k-1)处理图像上与所述第k特定对象候选对应的区域来计算得到所述调整交并比。
20.根据权利要求18所述的学习装置,其特征在于,
所述处理器,使所述目标对象集成网络判断所述交并比是否等于或大于所述第一阈值,若所述交并比被判断为等于或大于所述第一阈值,则在所述第(k-1)特定对象候选与所述第k特定对象候选中,(i)选择概率值高的特定对象候选,或者(ii)选择每个所述处理图像上运算的面积大的特定对象候选,从而将选择的特定对象候选作为与所述特定相同对象对应的所述特定集成对象来生成。
21.根据权利要求16所述的学习装置,其特征在于,
在所述过程(III),
在所述第(k-1)处理图像与所述第k处理图像上配置有至少一个特定相同对象,在所述第(k-1)处理图像上,包括在所述第(k-1)对象检测信息的对象边界框中,将与所述特定相同对象对应的至少一个对象边界框作为第(k-1)特定对象边界框,在所述第k处理图像上,包括在所述第k对象检测信息的对象边界框中,将与所述特定相同对象对应的至少一个对象边界框作为第k特定对象边界框时,
所述处理器,使所述目标对象集成网络判断所述第(k-1)特定对象边界框与所述第k特定对象边界框之间的交并比是否等于或大于第一阈值,若所述交并比被判断为小于所述第一阈值,则计算出所述第(k-1)特定对象边界框与所述第k特定对象边界框之间的调整交并比,若所述调整交并比被判断为等于或大于第二阈值,则在所述第(k-1)特定对象边界框与所述第k特定对象边界框中,(i)选择概率值高的特定对象边界框,或者(ii)选择在所述训练图像上运算的面积大的特定对象边界框,从而将所述选择的特定对象边界框作为与所述特定相同对象对应的特定集成对象检测信息来生成。
22.根据权利要求21所述的学习装置,其特征在于,
通过参考在所述第k处理图像上与所述第(k-1)特定对象边界框对应的区域和在所述第(k-1)处理图像上与所述第k特定对象边界框对应的区域来计算得到所述调整交并比。
23.根据权利要求21所述的学习装置,其特征在于,
所述处理器,使所述目标对象集成网络判断所述交并比是否等于或大于所述第一阈值,若所述交并比被判断为等于或大于所述第一阈值,则在所述第(k-1)特定对象边界框与所述第k特定对象边界框中,(i)选择概率值高的特定对象边界框,或者(ii)选择每个所述处理图像上运算的面积大的特定对象边界框,从而将所述选择的特定对象边界框作为与所述特定相同对象对应的所述特定集成对象检测信息来生成。
24.一种测试装置,其利用目标对象预测网络与目标对象集成网络,来测试基于卷积神经网络的对象检测器,其特征在于,包括:
至少一个存储器,用于存储指令;以及
至少一个处理器,配置为执行所述指令用于完成以下过程,
学习装置,(1)(i)使一个或多个卷积层,对与至少一个训练图像对应的至少一个第一学习用处理图像应用一个或多个卷积运算,输出至少一个第一学习用特征图,(ii)使区域候选网络,利用所述第一学习用特征图,输出与位于所述第一学习用处理图像中的一个或多个第一学习用对象分别对应的一个或多个第一学习用对象候选,(iii)使池化层,在所述第一学习用特征图上,与每个所述第一学习用对象候选对应的各个区域应用一个或多个池化运算,输出至少一个第一学习用池化特征图,(iv)使全连接层,对所述第一学习用池化特征图应用至少一个全连接运算,输出与所述第一学习用对象对应的第一学习用对象检测信息,(2)将k从2增加到n的同时,(i)使所述目标对象预测网络,参考第(k-1)学习用处理图像上的一个或多个第(k-1)学习用对象候选,在所述第(k-1)学习用处理图像上,找出与被预测是至少一个学习用目标对象所在的区域对应的第(k-1)学习用目标区域,(ii)当在所述训练图像或者与其对应的一个或多个调整尺寸的训练图像上获取与所述第(k-1)学习用目标区域对应的第k学习用处理图像时,使所述卷积层,对所述第k学习用处理图像应用所述卷积运算,输出第k学习用特征图,(iii)使所述区域候选网络,参考所述第k学习用特征图,输出与位于所述第k学习用处理图像中的一个或多个第k学习用对象分别对应的一个或多个第k学习用对象候选,(iv)使所述池化层,在所述第k学习用特征图上,对与每个所述第k学习用对象候选对应的各个区域应用所述池化运算,输出至少一个第k学习用池化特征图,(v)使所述全连接层,对所述第k学习用池化特征图应用所述全连接运算,输出与所述第k学习用对象对应的第k学习用对象检测信息,(3)(i)使所述目标对象集成网络集成所述第一学习用对象候选至所述第n学习用对象候选,输出学习用集成对象候选,集成所述第一学习用对象检测信息至所述第n学习用对象检测信息,输出学习用集成对象检测信息,(ii)使全连接损失层参考所述学习用集成对象检测信息和与其对应的真实框产生一个或多个全连接损失,从而通过利用所述全连接损失的反向传播来学习所述全连接层以及所述卷积层的参数中至少一部分的状态下,
过程(I),(i)使所述卷积层,对与至少一个测试图像对应的至少一个第一测试用处理图像应用所述卷积运算,输出至少一个第一测试用特征图,(ii)使所述区域候选网络,利用所述第一测试用特征图,输出与位于所述第一测试用处理图像中的一个或多个第一测试用对象分别对应的一个或多个第一测试用对象候选,(iii)使所述池化层,在所述第一测试用特征图上,与每个所述第一测试用对象候选对应的各个区域应用所述池化运算,输出至少一个第一测试用池化特征图,(iv)使所述全连接层,对所述第一测试用池化特征图应用所述全连接运算,输出与所述第一测试用对象对应的第一测试用对象检测信息,
过程(II),将k从2增加到n的同时,(i)使所述目标对象预测网络,参考在第(k-1)测试用处理图像上的一个或多个第(k-1)测试用对象候选,在所述第(k-1)测试用处理图像上,找出与被预测是至少一个测试用目标对象所在的区域对应的第(k-1)测试用目标区域,(ii)当在所述测试图像或者与其对应的一个或多个调整尺寸的测试图像上获取与所述第(k-1)测试用目标区域对应的第k测试用处理图像时,使所述卷积层,对所述第k测试用处理图像应用所述卷积运算,输出第k测试用特征图,(iii)使所述区域候选网络,参考所述第k测试用特征图,输出与位于所述第k测试用处理图像中的一个或多个第k测试用对象分别对应的一个或多个第k测试用对象候选,(iv)使所述池化层,在所述第k测试用特征图上,与每个所述第k测试用对象候选对应的各个区域应用所述池化运算,输出至少一个第k测试用池化特征图,(v)使所述全连接层,对所述第k测试用池化特征图应用所述全连接运算,输出与所述第k测试用对象对应的第k测试用对象检测信息,以及
过程(III),(i)使所述目标对象集成网络集成所述第一测试用对象候选至所述第n测试用对象候选,输出测试用集成对象候选,集成所述第一测试用对象检测信息至所述第n测试用对象检测信息,输出测试用集成对象检测信息。
25.根据权利要求24所述的测试装置,其特征在于,
在所述过程(III),
在所述第(k-1)测试用处理图像与所述第k测试用处理图像上配置有至少一个测试用特定相同对象,在所述第(k-1)测试用处理图像上,将所述第(k-1)测试用对象候选中与所述测试用特定相同对象对应的至少一个测试用对象候选作为第(k-1)测试用特定对象候选,在所述第k测试用处理图像上,将所述第k测试用对象候选中与所述测试用特定相同对象对应的至少一个测试用对象候选作为第k测试用特定对象候选时,
所述处理器,使所述目标对象集成网络判断所述第(k-1)测试用特定对象候选与所述第k测试用特定对象候选之间的测试用交并比是否等于或大于第一阈值,若所述测试用交并比被判断为小于所述第一阈值,则计算出所述第(k-1)测试用特定对象候选与所述第k测试用特定对象候选之间的测试用调整交并比,若所述测试用调整交并比被判断为等于或大于第二阈值,则在所述第(k-1)测试用特定对象候选与所述第k测试用特定对象候选中,(i)选择概率值高的测试用特定对象候选,或者(ii)选择所述测试图像上运算的面积大的测试用特定对象候选,从而将所述选择的测试用特定对象候选作为与所述测试用特定相同对象对应的测试用特定集成对象候选来生成。
26.根据权利要求25所述的测试装置,其特征在于,
通过参考在所述第k测试用处理图像上与所述第(k-1)测试用特定对象候选对应的区域和在所述第(k-1)测试用处理图像上与所述第k测试用特定对象候选对应的区域来计算得到所述测试用调整交并比。
27.根据权利要求25所述的测试装置,其特征在于,
所述处理器,使所述目标对象集成网络判断所述测试用交并比是否等于或大于所述第一阈值,若所述测试用交并比被判断为等于或大于所述第一阈值,则在所述第(k-1)测试用特定对象候选与所述第k测试用特定对象候选中,(i)选择概率值高的测试用特定对象候选,或者(ii)选择在每个所述测试用处理图像上运算的面积大的特定测试用对象候选,从而将所述选择的测试用特定对象候选作为与所述测试用特定相同对象对应的所述测试用特定集成对象候选来生成。
28.根据权利要求24所述的测试装置,其特征在于,
在所述过程(III),
在所述第(k-1)测试用处理图像与所述第k测试用处理图像上配置有至少一个测试用特定相同对象,在所述第(k-1)测试用处理图像上,包括在所述第(k-1)测试用对象检测信息的测试用对象边界框中将与所述测试用特定相同对象对应的至少一个测试用对象边界框作为第(k-1)测试用特定对象边界框,在所述第k测试用处理图像上,包括在所述第k测试用对象检测信息的测试用对象边界框中将与所述测试用特定相同对象对应的至少一个测试用对象边界框作为第k测试用特定对象边界框时,
所述处理器,使所述目标对象集成网络判断所述第(k-1)测试用特定对象边界框与所述第k测试用特定对象边界框之间的测试用交并比是否等于或大于第一阈值,若所述测试用交并比被判断为小于所述第一阈值,则计算出所述第(k-1)测试用特定对象边界框与所述第k测试用特定对象边界框之间的测试用调整交并比,若所述测试用调整交并比被判断为等于或大于第二阈值,则在所述第(k-1)测试用特定对象边界框与所述第k测试用特定对象边界框中,(i)选择概率值高的测试用特定对象边界框,或者(ii)选择所述测试图像上运算的面积大的测试用特定对象边界框,从而将所述选择的测试用特定对象边界框作为与所述测试用特定相同对象对应的测试用特定集成对象检测信息来生成。
29.根据权利要求28所述的测试装置,其特征在于,
通过参考在所述第k测试用处理图像上与所述第(k-1)测试用特定对象边界框对应的区域和在所述第(k-1)测试用处理图像上与所述第k测试用特定对象边界框对应的区域来计算得到所述测试用调整交并比。
30.根据权利要求28所述的测试装置,其特征在于,
所述处理器,使所述目标对象集成网络判断所述测试用交并比是否等于或大于所述第一阈值,若所述测试用交并比被判断为等于或大于所述第一阈值,则在所述第(k-1)测试用特定对象边界框与所述第k测试用特定对象边界框中,(i)选择概率值高的测试用特定对象边界框,或者(ii)选择在每个所述测试用处理图像上运算的面积大的测试用特定对象边界框,从而将所述选择的测试用特定对象边界框作为与所述测试用特定相同对象对应的所述测试用特定集成对象检测信息来生成。
CN201911330655.4A 2019-01-22 2019-12-20 基于可重配置网络的对象检测方法及装置 Active CN111461106B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/254,466 US10509987B1 (en) 2019-01-22 2019-01-22 Learning method and learning device for object detector based on reconfigurable network for optimizing customers' requirements such as key performance index using target object estimating network and target object merging network, and testing method and testing device using the same
US16/254,466 2019-01-22

Publications (2)

Publication Number Publication Date
CN111461106A true CN111461106A (zh) 2020-07-28
CN111461106B CN111461106B (zh) 2023-10-27

Family

ID=68841489

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911330655.4A Active CN111461106B (zh) 2019-01-22 2019-12-20 基于可重配置网络的对象检测方法及装置

Country Status (5)

Country Link
US (2) US10509987B1 (zh)
EP (1) EP3686782A1 (zh)
JP (1) JP6857370B2 (zh)
KR (1) KR102338744B1 (zh)
CN (1) CN111461106B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018089210A1 (en) * 2016-11-09 2018-05-17 Konica Minolta Laboratory U.S.A., Inc. System and method of using multi-frame image features for object detection
CN110096933B (zh) * 2018-01-30 2023-07-18 华为技术有限公司 目标检测的方法、装置及系统
US11521010B2 (en) * 2019-01-23 2022-12-06 Motional Ad Llc Automatically choosing data samples for annotation
US10943353B1 (en) 2019-09-11 2021-03-09 International Business Machines Corporation Handling untrainable conditions in a network architecture search
US11023783B2 (en) * 2019-09-11 2021-06-01 International Business Machines Corporation Network architecture search with global optimization
CN111563494B (zh) * 2020-07-16 2020-10-27 平安国际智慧城市科技股份有限公司 基于目标检测的行为识别方法、装置和计算机设备
CN112733587A (zh) * 2020-08-10 2021-04-30 长春理工大学 一种沙漠化进程演变监测方法
CN112001912B (zh) * 2020-08-27 2024-04-05 北京百度网讯科技有限公司 目标检测方法和装置、计算机系统和可读存储介质
CN112257586B (zh) * 2020-10-22 2024-01-23 无锡禹空间智能科技有限公司 目标检测中的真值框选择方法、装置、存储介质及设备
CN112183463B (zh) * 2020-10-23 2021-10-15 珠海大横琴科技发展有限公司 基于雷达图像的船只识别模型的验证方法及装置
US11593597B2 (en) * 2020-11-16 2023-02-28 GM Global Technology Operations LLC Object detection in vehicles using cross-modality sensors
WO2024080393A1 (ko) * 2022-10-12 2024-04-18 가톨릭대학교 산학협력단 흉부 의료 영상 객체 검출 시스템 및 그 방법

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160259994A1 (en) * 2015-03-04 2016-09-08 Accenture Global Service Limited Digital image processing using convolutional neural networks
US9996890B1 (en) * 2017-07-14 2018-06-12 Synapse Technology Corporation Detection of items
US20180165551A1 (en) * 2016-12-08 2018-06-14 Intel Corporation Technologies for improved object detection accuracy with multi-scale representation and training
JP2018534694A (ja) * 2015-11-04 2018-11-22 エヌイーシー ラボラトリーズ アメリカ インクNEC Laboratories America, Inc. 物体検出のためのサブカテゴリ認識機能付き畳み込みニューラルネットワーク
US10169679B1 (en) * 2017-10-13 2019-01-01 StradVision, Inc. Learning method and learning device for adjusting parameters of CNN by using loss augmentation and testing method and testing device using the same

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160283864A1 (en) * 2015-03-27 2016-09-29 Qualcomm Incorporated Sequential image sampling and storage of fine-tuned features
US10002313B2 (en) * 2015-12-15 2018-06-19 Sighthound, Inc. Deeply learned convolutional neural networks (CNNS) for object localization and classification
US9858496B2 (en) * 2016-01-20 2018-01-02 Microsoft Technology Licensing, Llc Object detection and classification in images
US11244191B2 (en) * 2016-02-17 2022-02-08 Intel Corporation Region proposal for image regions that include objects of interest using feature maps from multiple layers of a convolutional neural network model
US20170262996A1 (en) * 2016-03-11 2017-09-14 Qualcomm Incorporated Action localization in sequential data with attention proposals from a recurrent network
US9830529B2 (en) * 2016-04-26 2017-11-28 Xerox Corporation End-to-end saliency mapping via probability distribution prediction
WO2018035805A1 (en) * 2016-08-25 2018-03-01 Intel Corporation Coupled multi-task fully convolutional networks using multi-scale contextual information and hierarchical hyper-features for semantic image segmentation
US10354159B2 (en) * 2016-09-06 2019-07-16 Carnegie Mellon University Methods and software for detecting objects in an image using a contextual multiscale fast region-based convolutional neural network
US10354362B2 (en) * 2016-09-08 2019-07-16 Carnegie Mellon University Methods and software for detecting objects in images using a multiscale fast region-based convolutional neural network
US10755082B2 (en) * 2016-10-25 2020-08-25 Deep North, Inc. Point to set similarity comparison and deep feature learning for visual recognition
US10198671B1 (en) * 2016-11-10 2019-02-05 Snap Inc. Dense captioning with joint interference and visual context
WO2018093796A1 (en) * 2016-11-15 2018-05-24 Magic Leap, Inc. Deep learning system for cuboid detection
US10140709B2 (en) * 2017-02-27 2018-11-27 International Business Machines Corporation Automatic detection and semantic description of lesions using a convolutional neural network
US10635927B2 (en) * 2017-03-06 2020-04-28 Honda Motor Co., Ltd. Systems for performing semantic segmentation and methods thereof
US20180268292A1 (en) * 2017-03-17 2018-09-20 Nec Laboratories America, Inc. Learning efficient object detection models with knowledge distillation
US10496895B2 (en) * 2017-03-28 2019-12-03 Facebook, Inc. Generating refined object proposals using deep-learning models
EP3622438A4 (en) * 2017-05-09 2021-03-10 Neurala, Inc. SYSTEMS AND METHODS FOR CONTINUOUS LEARNING LIMITED IN MEMORY IN CONTINUING APPLICATIONS OF ARTIFICIAL INTELLIGENCE AND DEEP LEARNING THROUGH NETWORKED COMPUTING EDGES
US10503978B2 (en) * 2017-07-14 2019-12-10 Nec Corporation Spatio-temporal interaction network for learning object interactions
KR102463175B1 (ko) * 2017-09-04 2022-11-04 삼성전자주식회사 객체 인식 방법 및 장치
US10607119B2 (en) * 2017-09-06 2020-03-31 Kla-Tencor Corp. Unified neural network for defect detection and classification
US9934440B1 (en) * 2017-10-04 2018-04-03 StradVision, Inc. Method for monitoring blind spot of monitoring vehicle and blind spot monitor using the same
US10095977B1 (en) * 2017-10-04 2018-10-09 StradVision, Inc. Learning method and learning device for improving image segmentation and testing method and testing device using the same
US10043113B1 (en) * 2017-10-04 2018-08-07 StradVision, Inc. Method and device for generating feature maps by using feature upsampling networks
US9947228B1 (en) * 2017-10-05 2018-04-17 StradVision, Inc. Method for monitoring blind spot of vehicle and blind spot monitor using the same
US10497122B2 (en) * 2017-10-11 2019-12-03 Adobe Inc. Image crop suggestion and evaluation using deep-learning
US9946960B1 (en) * 2017-10-13 2018-04-17 StradVision, Inc. Method for acquiring bounding box corresponding to an object in an image by using convolutional neural network including tracking network and computing device using the same
US10223610B1 (en) * 2017-10-15 2019-03-05 International Business Machines Corporation System and method for detection and classification of findings in images
US20190130191A1 (en) * 2017-10-30 2019-05-02 Qualcomm Incorporated Bounding box smoothing for object tracking in a video analytics system
US20190130583A1 (en) * 2017-10-30 2019-05-02 Qualcomm Incorporated Still and slow object tracking in a hybrid video analytics system
US10692243B2 (en) * 2017-12-03 2020-06-23 Facebook, Inc. Optimizations for dynamic object instance detection, segmentation, and structure mapping
KR102455633B1 (ko) * 2017-12-21 2022-10-17 삼성전자주식회사 라이브니스 검사 방법 및 장치
US10878294B2 (en) * 2018-01-05 2020-12-29 Irobot Corporation Mobile cleaning robot artificial intelligence for situational awareness
US10304009B1 (en) * 2018-10-08 2019-05-28 StradVision, Inc. Learning method and testing method for object detector based on R-CNN, and learning device and testing device using the same
US10311321B1 (en) * 2018-10-26 2019-06-04 StradVision, Inc. Learning method, learning device using regression loss and testing method, testing device using the same

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160259994A1 (en) * 2015-03-04 2016-09-08 Accenture Global Service Limited Digital image processing using convolutional neural networks
JP2018534694A (ja) * 2015-11-04 2018-11-22 エヌイーシー ラボラトリーズ アメリカ インクNEC Laboratories America, Inc. 物体検出のためのサブカテゴリ認識機能付き畳み込みニューラルネットワーク
US20180165551A1 (en) * 2016-12-08 2018-06-14 Intel Corporation Technologies for improved object detection accuracy with multi-scale representation and training
US9996890B1 (en) * 2017-07-14 2018-06-12 Synapse Technology Corporation Detection of items
US10169679B1 (en) * 2017-10-13 2019-01-01 StradVision, Inc. Learning method and learning device for adjusting parameters of CNN by using loss augmentation and testing method and testing device using the same

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GHODRATI AMIR ET AL.: "DeepProposals: Hunting Objects and Actions by Cascading Deep Convolutional Layers" *
ZHAO JIANHUI ET AL.: "Object Detection Based on Hierarchical Multi-view Proposal Network for Autonomous Driving" *

Also Published As

Publication number Publication date
US10621476B1 (en) 2020-04-14
EP3686782A1 (en) 2020-07-29
JP2020119545A (ja) 2020-08-06
CN111461106B (zh) 2023-10-27
JP6857370B2 (ja) 2021-04-14
KR20200091329A (ko) 2020-07-30
US10509987B1 (en) 2019-12-17
KR102338744B1 (ko) 2021-12-14

Similar Documents

Publication Publication Date Title
CN111461106A (zh) 基于可重配置网络的对象检测方法及装置
CN111461319B (zh) 可适应用户要求的基于cnn的对象检测方法及装置
JP6850046B2 (ja) 重要業績評価指標のようなユーザ要求事項に適したターゲット物体予測ネットワークを用いた、cnn基盤の変動に強い物体検出器を学習する方法及び学習装置、並びにこれを利用したテスティング方法及びテスティング装置
US10410120B1 (en) Learning method and testing method of object detector to be used for surveillance based on R-CNN capable of converting modes according to aspect ratios or scales of objects, and learning device and testing device using the same
CN111462193B (zh) 用于多摄像机或环绕视图监控的对象检测方法及装置
CN111126359B (zh) 基于自编码器与yolo算法的高清图像小目标检测方法
JP6846069B2 (ja) 遠距離検出または軍事目的のために、イメージコンカチネーションを利用したcnn基盤のハードウェア最適化が可能な物体検出器を学習する方法及び学習装置、それを利用したテスト方法及びテスト装置{learning method and learning device for object detector with hardware optimization based on cnn for detection at distance or military purpose using image concatenation, and testing method and testing device using the same}
US20230137337A1 (en) Enhanced machine learning model for joint detection and multi person pose estimation
CN111753682A (zh) 一种基于目标检测算法的吊装区域动态监控方法
CN111488786A (zh) 基于cnn的监视用客体检测器的方法及装置
CN114565842A (zh) 基于Nvidia Jetson嵌入式硬件的无人机实时目标检测方法及系统
CN112967399A (zh) 三维时序图像生成方法、装置、计算机设备和存储介质
KR102464358B1 (ko) 머신러닝에 기반하여 이미지에 대응되는 공간 정보를 추정하기 위한 방법 및 이를 이용한 공간 추정 장치
CN116476853A (zh) 泊车模型训练方法、泊车方法、计算机设备和存储介质
CN115270918A (zh) 目标检测方法、建立时间关联感知模型的方法及装置
CN115270919A (zh) 目标检测方法、建立空间关联感知模型的方法及装置
CN115565049A (zh) 一种图像的微小目标检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant