CN111476262A - 利用1xH卷积的基于CNN的对象检测方法及装置 - Google Patents

利用1xH卷积的基于CNN的对象检测方法及装置 Download PDF

Info

Publication number
CN111476262A
CN111476262A CN201911347404.7A CN201911347404A CN111476262A CN 111476262 A CN111476262 A CN 111476262A CN 201911347404 A CN201911347404 A CN 201911347404A CN 111476262 A CN111476262 A CN 111476262A
Authority
CN
China
Prior art keywords
test
feature map
layer
learning
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911347404.7A
Other languages
English (en)
Other versions
CN111476262B (zh
Inventor
金桂贤
金镕重
金寅洙
金鹤京
南云铉
夫硕焄
成明哲
吕东勋
柳宇宙
张泰雄
郑景中
诸泓模
赵浩辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Stradvision Inc
Original Assignee
Stradvision Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Stradvision Inc filed Critical Stradvision Inc
Publication of CN111476262A publication Critical patent/CN111476262A/zh
Application granted granted Critical
Publication of CN111476262B publication Critical patent/CN111476262B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/2163Partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)

Abstract

利用1xH卷积的基于CNN的对象检测方法及装置。本发明涉及学习满足KPI的使用于硬件最佳化的基于CNN的对象检测器的参数的学习方法,其特征在于,包括如下步骤:(a)使第1转置层或池化层将各个候选框的池化特征图上的像素按照各个候选框级联;(b)使1×H1及1×H2卷积层对将级联的池化特征图的所有通道中的各自对应的通道内的各个特征级联而生成的重塑特征图应用1×H1及1×H2卷积运算来生成调整特征图;及(c)使第2转置层或分类层按照各个像素将调整特征图分离并将参照对象检测信息及与此对应的GT来算出的对象检测损失反向传播来生成各个候选框的像素级特征图。

Description

利用1xH卷积的基于CNN的对象检测方法及装置
技术领域
本发明涉及使用于硬件最佳化的利用1xH卷积的基于CNN的对象检测器的参数的学习方法,更具体地,涉及包括如下步骤的基于上述CNN的上述对象检测器的上述参数的学习方法及学习装置、利用该学习方法及学习装置的测试方法及测试装置:(a)当获得至少一个训练图像时,学习装置,(i)使至少一个卷积层对上述训练图像应用至少一次卷积运算来生成至少一个初始特征图(Initial Feature Map),(ii)使RPN利用上述初始特征图而生成与位于上述训练图像内的至少一个对象分别对应的至少一个候选框(Proposal),(iii)(iii-1)使池化层对在上述初始特征图上与上述候选框分别对应的各个区域应用至少一次池化运算来生成各个上述候选框的池化特征图,并使第1转置层(Transposing Layer)将各个上述候选框的上述池化特征图上的对应的相同的各个位置的各个像素按照各个上述候选框级联(Concatenating)来生成综合特征图(Integrated Feature Map),或者(iii-2)使上述池化层对在上述初始特征图上与各个上述候选框对应的各个区域应用池化运算来生成各个上述候选框的上述池化特征图,并使上述池化层将各个上述候选框的上述池化特征图上的对应的相同的各个位置的各个上述像素按照各个上述候选框级联来生成上述综合特征图;(b)上述学习装置,(b1)(i)使第1重塑层(Reshaping Layer)将由上述综合中的各自对应的H1个通道构成的各个组内的各个特征级联来生成第1重塑特征图(Reshaped Feature Map),(ii)使1xH1卷积层对上述第1重塑特征图应用1xH1卷积运算来生成调整了卷(Volume)的第1调整特征图(Adjusted Feature Map),(b2)(i)使第2重塑层将由上述第1调整特征图的所有通道中的各自对应的H2个通道构成的各个组内的各个特征级联而生成第2重塑特征图,(ii)使1xH2卷积层对上述第2重塑特征图应用1xH2卷积运算来生成调整了卷的第2调整特征图;及(c)上述学习装置,(c1)(i)使第2转置层按照各个上述像素将上述第2调整特征图分离而生成各个上述候选框的像素级特征图(Pixel-Wise Feature Map),并使分类层利用各个上述候选框的上述像素级特征图来生成关于各个上述候选框的对象类信息,(ii)使上述分类层按照各个上述像素将上述第2调整特征图分离来生成各个上述候选框的上述像素级特征图,使上述分类层利用各个上述候选框的上述像素级特征图而生成关于各个上述候选框的上述对象类信息,然后,(c2)使检测层参照上述对象类信息和各个上述候选框的上述像素级特征图来生成与位于上述训练图像内的上述对象对应的对象检测信息,(c3)使检测损失层参照上述对象检测信息和与此对应的GT(Ground Truth:真值)来算出至少一个对象检测损失,从而将上述对象检测损失反向传播来学习上述1xH2卷积层、上述1xH1卷积层及上述卷积层中的至少一部分参数。
背景技术
深度卷积神经网络(Deep Convolutional Neural Network;Deep CNN)是在深度学习领域中发生的惊人的发展核心。CNN虽然在90年代已被用来解决文字识别问题,但它之所以能够像现在这样被广泛使用,还要归功于近年来的研究结果。这样的深度CNN在2012年的ImageNet图像分类比赛中击败其他竞争者而获得冠军。之后,卷积神经网络在机器学习(Machine Learning)领域中成为非常有用的工具。
并且,CNN包括在图像中提取特征的特征提取器(Feature Extractor)及检测图像内的对象或参照由特征提取器提取的特征而识别图像的特征分类器(Feature Classifier)。
并且,CNN的特征提取器由卷积层构成,特征分类器由对由特征提取器提取的特征能够应用FC运算(Fully Connected Operation:全连接操作)的FC层构成。
但是,这样的FC层存在需要对所输入的所有特征生成加权值的不便,并且需要对所输入的所有特征执行FC运算,因此存在计算运算量过多的缺点。
另外,在FC层中,输入到FC层的图像的尺寸要与FC层模型的规定尺寸一致。因此,在向包括这样的FC层的CNN输入与预设的尺寸不同的训练图像或测试图像的情况下,虽然卷积层能够对训练图像或测试图像应用相应运算,但在FC层由于输入到与上述规定尺寸不同的尺寸的输入图像,因此对训练图像或测试图像无法应用相应运算。
因此,本发明人要提供一种能够克服如上述的FC层的问题的基于CNN的对象检测器。
发明内容
发明要解决的课题
本发明的目的在于解决上述的全部问题。
本发明的另一目的在于提供一种能够与输入图像的尺寸无关地检测出位于输入图像内的至少一个对象的基于CNN的对象检测器。
本发明的又一目的在于提供一种能够将用于进行特征分类的加权值的数量最小化的基于CNN的对象检测器。
本发明又一目的在于提供一种能够减少用于进行特征分类的计算运算量的基于CNN的对象检测器。
用于解决课题的手段
用于达到如上述的本发明的目的并实现后述的本发明的特定效果的本发明的特征性结构如下。
根据本发明的一个方式,在一种学习基于CNN的对象检测器的参数的学习方法中,其特征在于,其包括如下步骤:(a)当获得至少一个训练图像时,学习装置,(i)使至少一个卷积层对上述训练图像应用至少一次卷积运算来生成至少一个初始特征图(InitialFeature Map),(ii)使RPN利用上述初始特征图而生成与位于上述训练图像内的至少一个对象分别对应的至少一个候选框,(iii)(iii-1)使池化层对在上述初始特征图上与上述候选框分别对应的各个区域应用至少一次池化运算来生成各个上述候选框的池化特征图,并使第1转置层(Transposing Layer)将各个上述候选框的上述池化特征图上的对应的相同的各个位置的各个像素按照各个上述候选框级联(Concatenating)来生成综合特征图(Integrated Feature Map),或者(iii-2)使上述池化层对在上述初始特征图上与各个上述候选框对应的各个区域应用池化运算来生成各个上述候选框的上述池化特征图,并使上述池化层将各个上述候选框的上述池化特征图上的对应的相同的各个位置的各个上述像素按照各个上述候选框级联来生成上述综合特征图;(b)上述学习装置,(b1)(i)使第1重塑层(Reshaping Layer)将由上述综合特征图的所有通道中的各自对应的H1个通道构成的各个组内的各个特征级联来生成第1重塑特征图(Reshaped Feature Map),(ii)使1xH1卷积层对上述第1重塑特征图应用1xH1卷积运算来生成调整了卷(Volume)的第1调整特征图(Adjusted Feature Map),(b2)(i)使第2重塑层将由上述第1调整特征图的所有通道中的各自对应的H2个通道构成的各个组内的各个特征级联而生成第2重塑特征图,(ii)使1xH2卷积层对上述第2重塑特征图应用1xH2卷积运算来生成调整了卷的第2调整特征图;及(c)上述学习装置,(c1)(i)使第2转置层按照各个上述像素将上述第2调整特征图分离而生成各个上述候选框的像素级特征图(Pixel-Wise Featur e Map),并使分类层利用各个上述候选框的上述像素级特征图来生成关于各个上述候选框的对象类信息,(ii)使上述分类层按照各个上述像素将上述第2调整特征图分离来生成各个上述候选框的上述像素级特征图,使上述分类层利用各个上述候选框的上述像素级特征图而生成关于各个上述候选框的上述对象类信息,然后,(c2)使检测层参照上述对象类信息和各个上述候选框的上述像素级特征图来生成与位于上述训练图像内的上述对象对应的对象检测信息,(c3)使检测损失层参照上述对象检测信息和与此对应的GT(Ground Truth:真值)来算出至少一个对象检测损失,从而将上述对象检测损失反向传播来学习上述1xH2卷积层、上述1xH1卷积层及上述卷积层中的至少一部分参数。
在一个实施例中,其特征在于,在上述(a)步骤之后,上述学习装置使RPN损失层参照上述候选框和与此对应的GT来算出至少一个RPN损失,从而将上述RPN损失反向传播来学习上述RPN的至少一部分参数。
在一个实施例中,其特征在于,在上述(b)步骤中,在上述综合特征图的通道数量不是上述H1的倍数的情况下,上述学习装置使上述第1重塑层对上述综合特征图追加至少一个第1虚拟通道(Dummy Channel),从而使包括至少一个上述第1虚拟通道的上述综合特征图的通道数量成为上述H1的倍数,然后将由上述综合特征图的上述所有通道中的各自对应的H1个上述通道构成的各个组内的各个上述特征级联,在上述(b)步骤中,在上述第1调整特征图的通道数量不是上述H2的倍数的情况下,上述学习装置使上述第2重塑层对上述第1调整特征图追加至少一个第2虚拟通道,从而使包括至少一个上述第2虚拟通道的上述第1调整特征图的通道数量成为上述H2的倍数,然后将由上述第1调整特征图的上述所有通道中的各自对应的H2个上述通道构成的各个组内的各个上述特征级联。
在一个实施例中,其特征在于,在将上述候选框的数量设为N,将各个上述候选框的上述池化特征图的宽度设为M1、高度设为M2,将各个上述候选框的上述池化特征图的通道数量设为J的情况下,在上述(a)步骤中,上述学习装置,(i)使上述第1转置层将各个上述候选框的上述池化特征图变换成宽度为N、高度为1、通道为M1xM2xJ的上述综合特征图,或者(ii)使上述池化层将各个上述候选框的上述池化特征图变换成宽度为N、高度为1、通道为M1xM2xJ的上述综合特征图。
在一个实施例中,其特征在于,在将上述1xH1卷积层的过滤器的数量设为K,将上述1xH2卷积层的过滤器的数量设为L的情况下,在上述(b)步骤中,上述学习装置使上述第1重塑层生成宽度为N、高度为H1、通道为CEIL
Figure BDA0002333770280000051
的上述第1重塑特征图,使上述1xH1卷积层生成宽度为N、高度为1、通道为K的具备Nx1xK的卷的上述第1调整特征图,上述学习装置使上述第2重塑层生成宽度为H2、高度为N、通道为CEIL
Figure BDA0002333770280000052
的上述第2重塑特征图,使上述1xH2卷积层生成宽度为N、高度为1、通道为L的具备Nx1xL的卷的上述第2调整特征图。
在一个实施例中,在上述(c)步骤中,上述学习装置,(i)使上述第2转置层将上述第2调整特征图变换成与N个上述候选框分别对应的宽度为1、高度为1、通道为L的具备1x1xL的卷的、各个上述候选框的上述像素级特征图,或者(ii)使上述分类层将上述第2调整特征图变换成与N个上述候选框分别对应的宽度为1、高度为1、通道为L的具备1x1xL的卷的、各个上述候选框的上述像素级特征图。
在一个实施例中,其特征在于,上述分类层使用至少一个柔性最大值(Softmax)算法。
在一个实施例中,其特征在于,上述检测层使用至少一个NMS(Non-MaximumSuppression:非极大值抑制)算法。
根据本发明的另一方式,在一种测试基于CNN的对象检测器的测试方法中,其特征在于,其包括如下步骤:(a)学习装置,(1)(i)使至少一个卷积层对至少一个训练图像应用至少一次卷积运算来生成至少一个学习用初始特征图(Initial Feature Map),(ii)使RPN利用上述学习用初始特征图而生成与位于上述训练图像内的至少一个学习用对象分别对应的至少一个学习用候选框,(iii)(iii-1)使池化层对在上述学习用初始特征图上与上述学习用候选框分别对应的各个区域应用至少一次池化运算来生成各个上述学习用候选框的学习用池化特征图,使第1转置层(Transposing Layer)将各个上述学习用候选框的上述学习用池化特征图上的对应的相同的各个位置的各个像素按照各个上述学习用候选框级联(Concatenating)来生成学习用综合特征图(Integrated Feature Map),或者(iii-2)使上述池化层对在上述学习用初始特征图上与各个上述学习用候选框对应的各个区域应用池化运算来生成各个上述学习用候选框的上述学习用池化特征图,使上述池化层将各个上述学习用候选框的上述学习用池化特征图上的对应的相同的各个位置的各个上述像素按照各个上述学习用候选框级联来生成上述学习用综合特征图,(2)(2-1)(i)使第1重塑层(Reshaping La yer)将由上述学习用综合特征图的所有通道中的各自对应的H1个通道构成的各个组内的各个特征级联来生成学习用第1重塑特征图(Reshaped Feature Map),(ii)使1xH1卷积层对上述学习用第1重塑特征图应用1xH1卷积运算来生成调整了卷(Volume)的学习用第1调整特征图(Adjusted Feature Map),(2-2)(i)使第2重塑层将由上述学习用第1调整特征图的所有通道中的各自对应的H2个通道构成的各个组内的各个特征级联来生成学习用第2重塑特征图,(ii)使1xH2卷积层对上述学习用第2重塑特征图应用1xH2卷积运算来生成调整了卷的学习用第2调整特征图,(3)(3-1)(i)使第2转置层按照各个上述像素将上述学习用第2调整特征图分离而生成各个上述学习用候选框的学习用像素级特征图(Pixel-Wise Feature Map),使分类层利用各个上述学习用候选框的上述学习用像素级特征图而生成关于各个上述学习用候选框的学习用对象类信息,或者(ii)使上述分类层按照各个上述像素将上述学习用第2调整特征图分离而生成各个上述学习用候选框的上述学习用像素级特征图,并利用各个上述学习用候选框的上述学习用像素级特征图来生成关于各个上述学习用候选框的上述学习用对象类信息,然后,(3-2)使检测层参照上述学习用对象类信息和各个上述学习用候选框的上述学习用像素级特征图来生成与位于上述训练图像内的上述学习用对象对应的学习用对象检测信息,(3-3)使检测损失层参照上述学习用对象检测信息和与此对应的GT(Ground Truth:真值)来算出至少一个对象检测损失,从而在将上述对象检测损失反向传播来学习上述1xH2卷积层、上述1xH1卷积层及上述卷积层中的至少一部分参数的状态下,当获得至少一个测试图像时,测试装置,(a1)使上述卷积层对上述测试图像应用至少一次卷积运算来生成至少一个测试用初始特征图(InitialFeature Map),(a2)使上述RPN利用上述测试用初始特征图而生成与位于上述测试图像内的至少一个测试用对象分别对应的至少一个测试用候选框,(a3)(a3-1)使上述池化层对在上述测试用初始特征图上与上述测试用候选框分别对应的各个区域应用至少一次池化运算,从而生成各个上述测试用候选框的测试用池化特征图,使上述第1转置层(TransposingLayer)将各个上述测试用候选框的上述测试用池化特征图上的对应的相同的各个位置的各个像素按照各个上述测试用候选框级联(Concatenating)来生成测试用综合特征图(Integrated Feature Map),或者(a3-2)使上述池化层对在上述测试用初始特征图上与上述测试用候选框分别对应的各个区域应用池化运算而生成各个上述测试用候选框的上述测试用池化特征图,并将各个上述测试用候选框的上述测试用池化特征图上的对应的相同的各个位置的各个上述像素按照各个上述测试用候选框级联来生成上述测试用综合特征图;(b)上述测试装置,(b1)(i)使上述第1重塑层(Reshaping Layer)将由上述测试用综合特征图的所有通道中的各自对应的H1个通道构成的各个组内的各个特征级联来生成测试用第1重塑特征图(Reshaped Feature Map),(ii)使上述1xH1卷积层对上述测试用第1重塑特征图应用1xH1卷积运算来生成调整了卷(Volume)的测试用第1调整特征图(AdjustedFeature Map),(b2)(i)使上述第2重塑层将由上述测试用第1调整特征图的所有通道中的各自对应的H2个通道构成的各个组内的各个特征级联来生成测试用第2重塑特征图,(ii)使上述1xH2卷积层对上述测试用第2重塑特征图应用1xH2卷积运算来生成调整了卷的测试用第2调整特征图;及(c)上述测试装置,(c1)(i)使上述第2转置层按照各个上述像素将上述测试用第2调整特征图分离而生成各个上述测试用候选框的测试用像素级特征图(Pixel-WiseFeatureMap),使上述分类层利用各个上述测试用候选框的上述测试用像素级特征图来生成关于各个上述测试用候选框的测试用对象类信息,或者(ii)使上述分类层按照各个上述像素将上述测试用第2调整特征图分离而生成各个上述测试用候选框的上述测试用像素级特征图,并利用各个上述测试用候选框的上述测试用像素级特征图来生成关于各个上述测试用候选框的测试用上述对象类信息,然后,(c2)使上述检测层参照上述测试用对象类信息和各个上述测试用候选框的上述测试用像素级特征图而生成与位于上述测试图像内的上述测试用对象对应的测试用对象检测信息。
在一个实施例中,其特征在于,在上述(b)步骤中,在上述测试用综合特征图的通道数量不是上述H1的倍数的情况下,上述测试装置使上述第1重塑层对上述测试用综合特征图追加至少一个第1虚拟通道(Dummy Channel)而使包括至少一个上述第1虚拟通道的上述测试用综合特征图的通道数量成为上述H1的倍数,然后将由上述测试用综合特征图的上述所有通道中的各自对应的H1个上述通道构成的各个组内的各个上述特征级联,在上述(b)步骤中,在上述测试用第1调整特征图的通道数量不是上述H2的倍数的情况下,上述测试装置使上述第2重塑层对上述测试用第1调整特征图追加至少一个第2虚拟通道来使包括至少一个上述第2虚拟通道的上述测试用第1调整特征图的通道数量成为上述H2的倍数,然后将由上述测试用第1调整特征图的上述所有通道中的各自对应的H2个上述通道构成的各个组内的各个上述特征级联。
在一个实施例中,其特征在于,在将上述测试用候选框的数量设为N,将各个上述测试用候选框的上述测试用池化特征图的宽度设为M1、高度设为M2,将各个上述测试用候选框的上述测试用池化特征图的通道数量设为J的情况下,在上述(a)步骤中,上述测试装置,(i)使上述第1转置层将各个上述测试用候选框的上述测试用池化特征图变换成宽度为N、高度为1、通道为M1xM2xJ的上述测试用综合特征图,或者(ii)使上述池化层将各个上述测试用候选框的上述测试用池化特征图变换成宽度为N、高度为1、通道为M1xM2xJ的上述测试用综合特征图。
在一个实施例中,其特征在于,在将上述1xH1卷积层的过滤器的数量设为K,将上述1xH2卷积层的过滤器的数量设为L的情况下,在上述(b)步骤中,上述测试装置使上述第1重塑层生成宽度为N、高度为H1、通道数量为CEIL
Figure BDA0002333770280000081
的上述测试用第1重塑特征图,并使上述1xH1卷积层生成宽度为N、高度为1、通道数量为K的具备Nx1xK的卷的上述测试用第1调整特征图,
上述测试装置使上述第2重塑层生成宽度为N,高度为H2,通道数量为CEIL
Figure BDA0002333770280000082
的上述测试用第2重塑特征图,并使上述1xH2卷积层生成宽度为N、高度为1、通道数量为L的具备Nx1xL的卷的上述测试用第2调整特征图。
在一个实施例中,其特征在于,在上述(c)步骤中,上述测试装置,(i)使上述第2转置层将上述测试用第2调整特征图变换成与N个上述测试用候选框分别对应的宽度为1、高度为1、通道为L的具备1x1xL的卷的、各个上述测试用候选框的上述测试用像素级特征图,或者(ii)使上述分类层将上述测试用第2调整特征图变换成与N个上述测试用候选框分别对应的宽度为1、高度为1、通道为L的具备1x1xL的卷的、各个上述测试用候选框的上述测试用像素级特征图。
在一个实施例中,其特征在于,上述分类层使用至少一个柔性最大值(Softmax)算法。
在一个实施例中,其特征在于,上述检测层使用至少一个NMS(Non-MaximumSuppression:非极大值抑制)算法。
根据本发明的又一个方式,在一种学习基于CNN的对象检测器的参数的学习装置中,其特征在于,其包括:至少一个存储器,其存储指令;及至少一个处理器,其执行用于执行如下处理的上述指令:(I)(i)使至少一个卷积层对至少一个训练图像应用至少一次卷积运算来生成至少一个初始特征图(Initial Feature Map),(ii)使RPN利用上述初始特征图而生成与位于上述训练图像内的至少一个对象分别对应的至少一个候选框,(iii)(iii-1)使池化层对在上述初始特征图上与上述候选框分别对应的各个区域应用至少一次池化运算来生成各个上述候选框的池化特征图,并使第1转置层(Transposing Layer)将各个上述候选框的上述池化特征图上的对应的相同的各个位置的各个像素按照各个上述候选框级联(Concatenating)来生成综合特征图(Integrated Feature Map),或者(iii-2)使上述池化层对在上述初始特征图上与各个上述候选框对应的各个区域应用池化运算来生成各个上述候选框的上述池化特征图,并使上述池化层将各个上述候选框的上述池化特征图上的对应的相同的各个位置的各个上述像素按照各个上述候选框级联来生成上述综合特征图;(II)(II-1)(i)使第1重塑层(Reshaping Layer)将由上述综合特征图的所有通道中的各自对应的H1个通道构成的各个组内的各个特征级联来生成第1重塑特征图(ReshapedFeature Map),(ii)使1xH1卷积层对上述第1重塑特征图应用1xH1卷积运算来生成调整了卷(Volume)的第1调整特征图(Adjusted Feature Map),(II-2)(i)使第2重塑层将由上述第1调整特征图的所有通道中的各自对应的H2个通道构成的各个组内的各个特征级联而生成第2重塑特征图,(ii)使1xH2卷积层对上述第2重塑特征图应用1xH2卷积运算来生成调整了卷的第2调整特征图;及(III)(III-1)(i)使第2转置层按照各个上述像素将上述第2调整特征图分离而生成各个上述候选框的像素级特征图(Pixel-Wise Feature Map),并使分类层利用各个上述候选框的上述像素级特征图来生成关于各个上述候选框的对象类信息,(ii)使上述分类层按照各个上述像素将上述第2调整特征图分离来生成各个上述候选框的上述像素级特征图,并使上述分类层利用各个上述候选框的上述像素级特征图而生成关于各个上述候选框的上述对象类信息,然后,(III-2)使检测层参照上述对象类信息和各个上述候选框的上述像素级特征图来生成与位于上述训练图像内的上述对象对应的对象检测信息,(III-3)使检测损失层参照上述对象检测信息和与此对应的GT(Ground Truth:真值)来算出至少一个对象检测损失,从而将上述对象检测损失反向传播来学习上述1xH2卷积层、上述1xH1卷积层及上述卷积层中的至少一部分参数。
在一个实施例中,其特征在于,在上述(I)处理之后,上述处理器使RPN损失层参照上述候选框和与此对应的GT而算出至少一个RPN损失,从而将上述RPN损失反向传播来学习上述RPN的至少一部分参数。
在一个实施例中,其特征在于,在上述(II)处理中,在上述综合特征图的通道数量不是上述H1的倍数的情况下,上述处理器使上述第1重塑层对上述综合特征图追加至少一个第1虚拟通道(Dummy Channel)而使包括至少一个上述第1虚拟通道的上述综合特征图的通道数量成为上述H1的倍数,然后将由上述综合特征图的上述所有通道中的各自对应的H1个上述通道构成的各个组内的各个上述特征级联,在上述(II)处理中,在上述第1调整特征图的通道数量不是上述H2的倍数的情况下,上述处理器使上述第2重塑层对上述第1调整特征图追加至少一个第2虚拟通道而使包括上述至少一个第2虚拟通道的上述第1调整特征图的通道数量成为上述H2的倍数,然后将由上述第1调整特征图的上述所有通道中的各自对应的H2个上述通道构成的各个组内的各个上述特征级联。
在一个实施例中,其特征在于,在将上述候选框的数量设为N,将各个上述候选框的上述池化特征图的宽度设为M1、高度设为M2,将各个上述候选框的上述池化特征图的通道数量设为J的情况下,在上述(I)处理中,上述处理器,(i)使上述第1转置层将各个上述候选框的上述池化特征图变换成宽度为N、高度为1、通道为M1xM2xJ的上述综合特征图,或者(ii)使上述池化层将各个上述候选框的上述池化特征图变换成宽度为N、高度为1、通道为M1xM2xJ的上述综合特征图。
在一个实施例中,其特征在于,在将上述1xH1卷积层的过滤器的数量设为K,将上述1xH2卷积层的过滤器的数量设为L的情况下,在上述(II)处理中,上述处理器使上述第1重塑层生成宽度为N、高度为H1、通道数量为CEIL
Figure BDA0002333770280000101
的上述第1重塑特征图,使上述1xH1卷积层生成宽度为N、高度为1、通道为K的具备Nx1xK的卷的上述第1调整特征图,上述处理器使上述第2重塑层输出宽度为H2、高度为N、通道为CEIL
Figure BDA0002333770280000102
的上述第2重塑特征图,使上述1xH2卷积层生成宽度为N、高度为1、通道为L的具备Nx1xL的卷的上述第2调整特征图。
在一个实施例中,其特征在于,在上述(III)处理中,上述处理器,(i)使上述第2转置层将上述第2调整特征图变换成与N个上述候选框分别对应的宽度为1、高度为1、通道为L的具备1x1xL的卷的、各个上述候选框的上述像素级特征图,或者(ii)使上述分类层将上述第2调整特征图变换成与N个上述候选框分别对应的宽度为1、高度为1、通道为L的具备1x1xL的卷的、各个上述候选框的上述像素级特征图。
在一个实施例中,其特征在于,上述分类层使用至少一个柔性最大值(Softmax)算法。
在一个实施例中,其特征在于,上述检测层使用至少一个NMS(Non-MaximumSuppression:非极大值抑制)算法。
根据本发明的又一个方式,在一种测试基于CNN的对象检测器的测试装置中,其特征在于,其包括:至少一个存储器,其存储指令;及至少一个处理器,其执行用于执行如下处理的上述指令:学习装置,(1)(i)使至少一个卷积层对至少一个训练图像应用至少一次卷积运算来生成至少一个学习用初始特征图(Initial Feature Ma p),(ii)使RPN利用上述学习用初始特征图而生成与位于上述训练图像内的至少一个学习用对象分别对应的至少一个学习用候选框,(iii)(iii-1)使池化层对在上述学习用初始特征图上与上述学习用候选框分别对应的各个区域应用至少一次池化运算来生成各个上述学习用候选框的学习用池化特征图,并使第1转置层(Transposing Layer)将各个上述学习用候选框的上述学习用池化特征图上的对应的相同的各个位置的各个像素按照各个上述学习用候选框级联(Concatenating)来生成学习用综合特征图(Integrated Feature Map),或者(iii-2)使上述池化层对在上述学习用初始特征图上与各个上述学习用候选框对应的各个区域应用池化运算来生成各个上述学习用候选框的上述学习用池化特征图,使上述池化层将各个上述学习用候选框的上述学习用池化特征图上的对应的相同的各个位置的各个上述像素按照各个上述学习用候选框级联来生成上述学习用综合特征图,(2)(2-1)(i)使第1重塑层(Reshaping La yer)将由上述学习用综合特征图的所有通道中的各自对应的H1个通道构成的各个组内的各个特征级联来生成学习用第1重塑特征图(Reshaped Feature Map),(ii)使1xH1卷积层对上述学习用第1重塑特征图应用1xH1卷积运算来生成调整了卷(Volume)的学习用第1调整特征图(Adjusted Feature Map),(2-2)(i)使第2重塑层将由上述学习用第1调整特征图的所有通道中的各自对应的H2个通道构成的各个组内的各个特征级联来生成学习用第2重塑特征图,(ii)使1xH2卷积层对上述学习用第2重塑特征图应用1xH2卷积运算来生成调整了卷的学习用第2调整特征图,(3)(3-1)(i)使第2转置层按照各个上述像素将上述学习用第2调整特征图分离而生成各个上述学习用候选框的学习用像素级特征图(Pixel-Wise Feature Map),使分类层利用各个上述学习用候选框的上述学习用像素级特征图而生成关于各个上述学习用候选框的学习用对象类信息,或者(ii)使上述分类层按照各个上述像素将上述学习用第2调整特征图分离而生成各个上述学习用候选框的上述学习用像素级特征图,并利用各个上述学习用候选框的上述学习用像素级特征图来生成关于各个上述学习用候选框的上述学习用对象类信息,然后,(3-2)使检测层参照上述学习用对象类信息和各个上述学习用候选框的上述学习用像素级特征图来生成与位于上述训练图像内的上述学习用对象对应的学习用对象检测信息,(3-3)使检测损失层参照上述学习用对象检测信息和与此对应的GT(Ground Truth:真值)来算出至少一个对象检测损失,从而在将上述对象检测损失反向传播来学习上述1xH2卷积层、上述1xH1卷积层及上述卷积层中的至少一部分参数的状态下,(I)(i)使上述卷积层对至少一个测试图像应用卷积运算来生成至少一个测试用初始特征图(Initial Feature Map),(ii)使上述RPN利用上述测试用初始特征图而生成与位于上述测试图像内的至少一个测试用对象分别对应的至少一个测试用候选框,(iii)(iii-1)使上述池化层对在上述测试用初始特征图上与上述测试用候选框分别对应的各个区域应用至少一次池化运算,从而生成各个上述测试用候选框的测试用池化特征图,使上述第1转置层(Transposing Layer)将各个上述测试用候选框的上述测试用池化特征图上的对应的相同的各个位置的各个像素按照各个上述测试用候选框级联(Concatenating)来生成测试用综合特征图(Integrated Feature Map),或者(iii-2)使上述池化层对在上述测试用初始特征图上与上述测试用候选框分别对应的各个区域应用池化运算而生成各个上述测试用候选框的上述测试用池化特征图,并将各个上述测试用候选框的上述测试用池化特征图上的对应的相同的各个位置的各个上述像素按照各个上述测试用候选框级联来生成上述测试用综合特征图;(II)(II-1)(i)使上述第1重塑层(Reshaping Layer)将由上述测试用综合特征图的所有通道中的各自对应的H1个通道构成的各个组内的各个特征级联来生成测试用第1重塑特征图(Reshaped Feature Map),(ii)使上述1x H1卷积层对上述测试用第1重塑特征图应用1xH1卷积运算来生成调整了卷(Volume)的测试用第1调整特征图(Adjusted Feature Map),(II-2)(i)使上述第2重塑层将由上述测试用第1调整特征图的所有通道中的各自对应的H2个通道构成的各个组内的各个特征级联来生成测试用第2重塑特征图,(ii)使上述1xH2卷积层对上述测试用第2重塑特征图应用1xH2卷积运算来生成调整了卷的测试用第2调整特征图;及(III)(III-1)(i)使上述第2转置层按照各个上述像素将上述测试用第2调整特征图分离而生成各个上述测试用候选框的测试用像素级特征图(Pixel-Wise Feature Ma p),使上述分类层利用各个上述测试用候选框的上述测试用像素级特征图来生成关于各个上述测试用候选框的测试用对象类信息,或者(ii)使上述分类层按照各个上述像素将上述测试用第2调整特征图分离而生成各个上述测试用候选框的上述测试用像素级特征图,并利用各个上述测试用候选框的上述测试用像素级特征图来生成关于各个上述测试用候选框的测试用上述对象类信息,然后,(III-2)使上述检测层参照上述测试用对象类信息和各个上述测试用候选框的上述测试用像素级特征图而生成与位于上述测试图像内的上述测试用对象对应的测试用对象检测信息。
在一个实施例中,其特征在于,在上述(II)处理中,在上述测试用综合特征图的通道数量不是上述H1的倍数的情况下,上述处理器使上述第1重塑层对上述测试用综合特征图追加至少一个第1虚拟通道(Dummy Channel)而使包括至少一个上述第1虚拟通道的上述测试用综合特征图的通道数量成为上述H1的倍数,然后将由上述测试用综合特征图的上述所有通道中的各自对应的H1个上述通道构成的各个组内的各个上述特征级联,在上述(II)处理中,在上述测试用第1调整特征图的通道数量不是上述H2的倍数的情况下,上述处理器使上述第2重塑层对上述测试用第1调整特征图追加至少一个第2虚拟通道来使包括至少一个上述第2虚拟通道的上述测试用第1调整特征图的通道数量成为上述H2的倍数,然后将由上述测试用第1调整特征图的上述所有通道中的各自对应的H2个上述通道构成的各个组内的各个上述特征级联。
在一个实施例中,其特征在于,在将上述测试用候选框的数量设为N,将各个上述测试用候选框的上述测试用池化特征图的宽度设为M1、高度设为M2,将各个上述测试用候选框的上述测试用池化特征图的通道数量设为J的情况下,在上述(I)处理中,上述处理器,(i)使上述第1转置层将各个上述测试用候选框的上述测试用池化特征图变换成宽度为N、高度为1、通道为M1xM2xJ的上述测试用综合特征图,或者(ii)使上述池化层将各个上述测试用候选框的上述测试用池化特征图变换成宽度为N、高度为1、通道为M1xM2xJ的上述测试用综合特征图。
在一个实施例中,其特征在于,在将上述1xH1卷积层的过滤器的数量设为K,将上述1xH2卷积层的过滤器的数量设为L的情况下,在上述(II)处理中,上述处理器使上述第1重塑层生成宽度为N、高度为H1、通道数量为CEIL
Figure BDA0002333770280000141
的上述测试用第1重塑特征图,使上述1xH1卷积层生成宽度为N、高度为1、通道数量为K的具备Nx1xK的卷的上述测试用第1调整特征图,上述处理器使上述第2重塑层生成宽度为N,高度为H2,通道数量为CEIL
Figure BDA0002333770280000142
的上述测试用第2重塑特征图,使上述1xH2卷积层生成宽度为N、高度为1、通道数量为L的具备Nx1xL的卷的上述测试用第2调整特征图。
在一个实施例中,其特征在于,在上述(III)处理中,上述处理器,(i)使上述第2转置层将上述测试用第2调整特征图变换成与N个上述测试用候选框分别对应的宽度为1、高度为1、通道为L的具备1x1xL的卷的、各个上述测试用候选框的上述测试用像素级特征图,或者(ii)使上述分类层将上述测试用第2调整特征图变换成与N个上述测试用候选框分别对应的宽度为1、高度为1、通道为L的具备1x1xL的卷的、各个上述测试用候选框的上述测试用像素级特征图。
在一个实施例中,其特征在于,上述分类层使用至少一个柔性最大值(Softmax)算法。
在一个实施例中,其特征在于,上述检测层使用至少一个NMS(Non-MaximumSuppression:非极大值抑制)算法。
此外,还提供用于记录执行本发明的方法的计算机程序的计算机可读取的记录介质。
发明效果
本发明仅由卷积层来体现基于CNN的对象检测器,从而能够与输入图像的尺寸无关地检测出位于输入图像内的对象。
另外,本发明仅由卷积层来体现基于CNN的对象检测器,从而与以往的利用FC层的情况相比,能够将用于进行特征分类的加权值的数量最小化。
另外,本发明仅由卷积层来体现基于CNN的对象检测器,从而与以往的利用FC层的情况相比,能够减少用于进行特征分类的计算运算量。
附图说明
为了对本发明的实施例进行说明而所附的下面的附图仅为本发明的实施例中的一部分,具有本发明所属技术领域的普通知识的人(以下,称为“本领域技术人员”)在无需创作性劳动的情况下,可基于该附图而获得其他的图。
图1是概略性地示出学习本发明的一个实施例的基于CNN的对象检测器的学习装置的图。
图2是概略性地示出学习本发明的一个实施例的基于CNN的对象检测器的方法的图。
图3是概略性地示出使用于学习本发明的一个实施例的基于CNN的对象检测器的方法,并通过池化层而生成的各个候选框的池化特征图(Pooled Feature Map)。
图4是概略性地示出使用于学习本发明的一个实施例的基于CNN的对象检测器的方法,并利用各个候选框的池化特征图来生成的综合特征图(Integrated Feature Map)的图。
图5a和图5b是分别概略性地示出修改本发明的一个实施例的(i)综合特征图而生成的第1重塑特征图(Reshaped Feature Map)和对(ii)第1重塑特征图应用1xH1卷积运算来生成的第1调整特征图(Adjusted Feature Map)的图。
图6a和图6b是分别概略性地示出修改本发明的一个实施例的(i)第1调整特征图而生成的第2重塑特征图和(ii)对第2重塑特征图应用1xH2卷积运算而生成的第2调整特征图的图。
图7是概略性地示出用于学习本发明的一个实施例的基于CNN的对象检测器,从第2调整特征图变换的各个候选框的像素级特征图(Pixel-Wise Feature Map)。
图8是概略性地示出测试本发明的一个实施例的基于CNN的对象检测器的测试装置的图。
图9是概略性地示出测试本发明的一个实施例的基于CNN的对象检测器的方法的图。
符号说明
100:学习装置,
200:测试装置,
110、210:通信部,
120、220:处理器,
300:数据库。
具体实施方式
在后述的对本发明的详细的说明中,为了清楚地说明本发明的目的、技术方法及优点,参照将可实施本发明的特定实施例作为示例来图示的附图。对这些实施例进行详细说明,以供本领域技术人员足以实施本发明。
另外,在本发明的详细的说明及权利要求中,“包括”这一用语及它们的变形并非表示排除其他技术特征、附加物、构成要件或步骤。对于本领域技术人员来讲,关于本发明的另一目的、优点及特性,可根据本说明书来理解其一部分,并通过实施本发明来理解另一部分。下面的例示及附图仅为实例,并非对本发明进行限定。
进而,本发明包括在本说明书中所示的实施例的所有可能的组合。虽然本发明的各种实施例彼此不同,但并非是排他性的。例如,在此记载的特定形状、结构及特性在一个实施例中在未脱离本发明的精神及范围的情况下可体现为另一个实施例。另外,关于各个公开的实施例内的个别构成要件的位置或配置,在不脱离本发明的精神及范围的情况下可进行变更。因此,后述的详细的说明并非具备限定性的意思,关于本发明的范围,确切地来讲应根据与其权利要求所主张的内容均等的所有范围及所附权利要求来限定。附图中的类似的符号在各个侧面上指相同或类似的功能。
本发明中提及的各种图像包括柏油路或非柏油路相关图像,在该情况下,可假设在道路环境中会出现的物体(如汽车、人、动物、植物、物体、建筑、飞机或无人机这样的飞行体、其他障碍物),但并非仅限于此,在本发明中提及的各种图像也可以是与道路无关的图像(如关于非柏油路、小胡同、空地、大海、湖、江、山、树丛、沙漠、天空、室内的图像),在该情况下,可假设在非柏油路、小胡同、空地、大海、湖、江、山、树丛、沙漠、天空、室内环境中出现的物体(如汽车、人、动物、植物、物体、建筑、飞机或无人机这样的飞行体、其他障碍物),但不仅限于此。
下面,参照附图,对本发明的优选的实施例进行详细说明,以供本领域技术人员能够容易地实施本发明。
图1是概略性地示出学习本发明的一个实施例的基于CNN的对象检测器的学习装置100的图,参照图1,学习装置100包括通信部110和处理器120。
首先,通信部110接收至少一个训练图像。
此时,训练图像存储到数据库300,数据库300中与训练图像对应地存储有关于至少一个对象的类信息的至少一个GT(Ground Truth:真值)及关于各个对象的位置信息的至少一个GT。
另外,学习装置还包括存储器115,该存储器115存储有用于执行下一个处理的计算机可读取的指令(Instruction)。根据一个实施例,将处理器、存储器、介质等综合为综合处理器(Integrated Processor)。
接着,处理器120可执行如下程序:(i)使至少一个卷积层对训练图像应用至少一次卷积运算而生成至少一个初始特征图(Initial Feature Map),(ii)使RPN利用初始特征图而生成与位于训练图像内的各个对象对应的至少一个候选框,(iii)(iii-1)使池化层对在初始特征图上与各个候选框对应的各个区域应用至少一次池化运算来生成各个候选框的池化特征图,使第1转置层(Transposing Layer)将各个候选框的池化特征图上的对应的相同的各个位置的各个像素按照各个候选框级联(Concatenating)而生成综合特征图(Integrated Feature Map),或者(iii-2)使池化层对在初始特征图上与各个候选框对应的各个区域应用池化运算而生成各个候选框的池化特征图,使池化层将各个候选框的池化特征图上的对应的相同的各个位置的各个像素按照各个候选框级联来生成综合特征图。并且,处理器120可执行如下处理:(i)使第1重塑层(Reshaping Layer)将由综合特征图的所有通道中的各自对应的H1个通道构成的各个组内的特征分别级联而生成第1重塑特征图(Reshaped Feature Map),(ii)使1xH1卷积层对第1重塑特征图应用1xH1卷积运算而生成调整了卷(Volume)的第1调整特征图(Adjusted Feature Map),(iii)使第2重塑层将由第1调整特征图的所有通道中的各自对应的H2个通道构成的各个组内的各个特征级联来生成第2重塑特征图,(vi)使1xH2卷积层对第2重塑特征图应用1xH2卷积运算而生成调整了卷的第2调整特征图。之后,处理器120执行如下处理:(i)使第2转置层按照各个像素而将第2调整特征图分离而生成各个候选框的像素级特征图(Pixel-Wise Feature Map),使分类层利用各个候选框的像素级特征图来生成关于各个候选框的对象类信息,或者(ii)使分类层按照各个像素而将第2调整特征图分离来生成各个候选框的像素级特征图,使分类层利用各个候选框的像素级特征图而生成关于各个候选框的对象类信息。并且,处理器120使检测层参照对象类信息和各个候选框的像素级特征图而生成与位于训练图像内的对象对应的对象检测信息,使检测损失层参照对象检测信息和与此对应的GT(Ground Truth:真值)而算出至少一个对象检测损失,从而将对象检测损失反向传播来学习1xH2卷积层、1xH1卷积层及卷积层中的至少一部分参数。
另外,处理器120使RPN损失层参照候选框和与此对应的GT来算出至少一个RPN损失,从而将RPN损失反向传播来学习RPN的至少一部分参数。
在此,对于由对象检测损失而进行的反向传播和由RPN损失而进行的反向传播的时间顺序不作限定。
此时,本发明的一个实施例的学习装置100作为计算装置,只要是搭载有处理器来具备运算能力的装置,则可选作本发明的学习装置100。另外,在图1中仅示出一个学习装置100,但不限于此,也可以将学习装置分成多个而执行作用。
下面,参照图2,对利用这样构成的本发明的一个实施例的学习装置100来学习基于CNN的对象检测器的参数的方法进行说明。
首先,当输入到训练图像时,学习装置100使卷积层121对训练图像应用卷积运算而生成初始特征图。此时,为了依次对训练图像进行卷积,卷积层121可以是单个卷积层或多个卷积层。
并且,学习装置100使RPN122利用初始特征图而生成与位于训练图像内的对象对应的至少一个候选框。此时,RPN122生成与估计到在训练图像内存在对象的后补区域对应的ROI后补,在ROI后补中将判断为存在对象的概率高的特定ROI后补作为候选框而输出。
接着,学习装置100使池化层123将在初始特征图上与各个候选框对应的区域池化而生成各个候选框的池化特征图。
作为一例,参照图3,将候选框的数量设为N,将各个候选框的池化特征图的宽度设为M1、高度设为M2,将各个候选框的池化特征图的通道数量设为J的情况下,各个候选框的池化特征图(P1,P2,…,PN)分别具备M1xM2xJ的卷。
接着,学习装置100使第1转置层124将从池化层123输出的各个候选框的池化特征图上的对应的相同的各个位置的各个像素按照各个候选框级联而生成综合特征图。
作为一例,参照图3和图4,将图3中的各个候选框的池化特征图(P1,P2,…,PN)上的的第一个像素分别设为P1F1、P2F1、…、PNF1的情况下,将各个候选框的各个池化特征图(P1,P2,…,PN)中的第一个像素即P1F1、P2F1、…、PNF1级联而如图4所示这样生成在所有通道中对应于第1通道的位于最前面的线这样的宽度为N,高度为1的综合特征图400的第1部分,并且也可以将该过程应用于各个候选框的各个池化特征图(P1,P2,…,PN)中的剩余像素。其结果,可生成与各个候选框的各个池化特征图(P1,P2,…,PN)中的像素数量相同地通道数量为M1xM2xJ的综合特征图400。
另一方面,在上述中,学习装置100使第1转置层124利用从池化层123输出的各个候选框的池化特征图而生成综合特征图。作为另一例,学习装置100也可以不使用第1转置层124而使池化层123生成综合特征图。即,作为另一例,学习装置100使池化层123对在初始特征图上与各个候选框对应的区域应用池化运算来生成各个候选框的池化特征图,并将各个候选框的池化特征图上的对应的相同的各个位置的各个像素按照各个候选框级联来生成综合特征图。
接着,学习装置100使第1重塑层125将由综合特征图400的所有通道中的各自对应的H1个通道构成的各个组内的各个特征级联而生成第1重塑特征图500A。
作为一例,参照图4和图5a,学习装置100使第1重塑层125将综合特征图400的第1通道内的各个特征(P1CH1,P2CH1,…,PNCH1))至上述综合特征图的第H1通道内的各个特征(P1CH(H1),P2CH(H1),…,PNCH(H1))级联,并将综合特征图400的第H1+1通道内的各个特征(P1CH(H1+1),P2CH(H1+1),…,PNCH(H1+1))至上述综合特征图的第2xH1通道内的各个特征(P1CH(2xH1),P2CH(2xH1),…,PNCH(2xH1))级联。即,学习装置100通过反复进行该过程而能够生成宽度为N、高度为H1、通道数量为CEIL
Figure BDA0002333770280000191
的第1重塑特征图500A。
此时,在综合特征图400的通道数量不是H1的倍数的情况下,学习装置100使第1重塑层125对综合特征图400追加至少一个第1虚拟通道而使包括至少一个第1虚拟通道的综合特征图400的通道数量成为H1的倍数,然后将由在综合特征图400的所有通道中的各自对应的H1个通道构成的各个组内的各个特征级联。即,综合特征图的通道数量不构成H1的倍数,从而将第CEIL
Figure BDA0002333770280000192
个通道级联而生成的综合特征图400的尺寸不是宽度N、高度H1的尺寸的情况下,可追加至少一个零填充区域,以使综合特征图400的宽度为N,高度为H1。
接着,学习装置100使1xH1卷积层126对第1重塑特征图500A应用1xH1卷积运算而生成调整了卷的第1调整特征图500B。
作为一例,参照图5a和图5b,在将1xH1卷积层126的过滤器的数量设为K的情况下,学习装置100使1xH1卷积层126对图5a的第1重塑特征图应用1xH1卷积运算,由此生成宽度为N、高度为1、通道数量为K的具备Nx1xK的卷的第1调整特征图500B。由此,能够将计算运算量减少到以往的技术的1/H1,由此能够提高计算运算速度及运算能力。
此时,第1调整特征图500B上的特征(P1’CH1,P2’CH1,…,PN’CH1)是对各个第1重塑特征图500A上的特征(P1CH1,P1CH2,…,P1CH(H1))进行本地连接(LocallyConnecting),对第1重塑特征图500A上的特征(P2CH1,P2CH2,…,P2CH(H1))进行本地连接,对第1重塑特征图500A上的特征(PNCH1,PNCH2,…,PNCH(H1))进行本地连接的结果。作为参考,上述本地连接(Locally Connecting)是指应用1×H1卷积运算。
接着,学习装置100使第2重塑层127将由在第1调整特征图500B的所有通道中的各自对应的H2个通道构成的各个组内的各个特征级联而生成第2重塑特征图600A。
作为一例,参照图5b和图6a,学习装置100使第2重塑层127将第1调整特征图500B的第1通道内的各个特征(P1’CH1,P2’CH1,…,PN’CH1))至第H2通道内的各个特征(P1’CH(H2),P2’CH(H2),…,PN’CH(H2))级联,将第1调整特征图500B的第H2+1通道内的各个特征(P1’CH(H2+1),P2’CH(H2+1),…,PN’CH(H2+1))至第2xH2通道内的各个特征(P1’CH(2xH2),P2’CH(2xH2),…,PN’CH(2xH2))级联。即,学习装置100通过反复进行该级联过程,从而能够生成宽度为N,高度为H2,通道数量为CEIL
Figure BDA0002333770280000201
的第2重塑特征图600A。
此时,在第1调整特征图500B的通道数量不是H2的倍数的情况下,学习装置100使第2重塑层127对第1调整特征图追加至少一个第2虚拟通道,由此使包括至少一个第2虚拟通道的第1调整特征图500B的通道数量成为H2的倍数,然后将由第1调整特征图500B的所有通道中的各自对应的H2个通道构成的各个组内的各个特征级联。即,第1调整特征图500B的通道数量不构成H2的倍数,从而将第CEIL
Figure BDA0002333770280000211
个通道级联而生成的第1调整特征图500B的尺寸不是宽度为N、高度为H2的尺寸的情况下,追加至少一个零填充区域,以使第1调整特征图500B的宽度形成为N,高度形成为H2。
接着,学习装置100使1xH2卷积层128对第2重塑特征图600A应用1xH2卷积运算而生成调整了卷的第2调整特征图600B。
作为一例,参照图6a和图6b,在将1xH2卷积层128的过滤器的数量设为L的情况下,学习装置100使1xH2卷积层128对图6a的第2重塑特征图600A应用1xH2卷积运算而生成宽度为N、高度为1、通道数量为L的具备Nx1xL的卷的第2调整特征图600B。由此,能够将计算运算量减少到以往的技术的1/H2,由此能够提高计算运算速度及运算能力。此时,第2调整特征图600B上的特征(P1”CH1,P2”CH1,…,PN”CH1)是分别对第2重塑特征图600A上的特征(P1’CH1,P1’CH2,…,P1’CH(H1))进行本地连接,对第2重塑特征图600A上的特征(P2’CH1,P2’CH2,…,P2’CH(H1))进行本地连接,对第2重塑特征图600A上的特征(PN’CH1,PN’CH2,…,PN’CH(H1)))进行本地连接的结果。作为参考,上述本地连接(Locally Connecting)是指应用1×H2卷积运算。
接着,学习装置100使第2转置层129按照各个像素将第2调整特征图600B分离而生成各个候选框的像素级特征图(PW1,PW2,…,PWN)。
作为一例,参照图7,学习装置100使第2转置层129按照各个像素而将图6b所示的具备宽度为N、高度为1、通道数量为L的卷的第2调整特征图600B分离而生成宽度为1,高度为1,通道数量为L的各个候选框的像素级特征图(PW1,PW2,…,PWN)。
接着,学习装置100使分类层130利用按照各个候选框的像素级特征图(PW1,PW2,…,PWN)而生成关于各个候选框的对象类信息。此时,分类层130可使用柔性最大值(Softmax)算法,并生成关于各个候选框是否对应于要检测的对象的概率信息。
另一方面,在上述中使第2转置层129利用第2调整特征图600B而生成了各个候选框的像素级特征图(PW1,PW2,…,PWN)。作为另一例,分类层130在不使用第2转置层129的情况下利用第2调整特征图600B而生成各个候选框的像素级特征图(PW1,PW2,…,PWN)。即,学习装置100使分类层130按照各个像素而将第2调整特征图600B分离来生成各个候选框的像素级特征图(PW1,PW2,…,PWN),使分类层130利用各个候选框的像素级特征图(PW1,PW2,…,PWN)而生成关于各个候选框的对象类信息。
接着,学习装置100使检测层131参照对象类信息和各个候选框的像素级特征图(PW1,PW2,…,PWN)而生成与位于训练图像内的对象对应的对象检测信息。此时,检测层129可使用NMS(Non-Maximum Suppression:非极大值抑制)算法,在对单个对象标记多个候选框的情况下,将其中的概率高的至少一个特定候选框选择为与该单个对象对应的对象检测信息。
接着,学习装置100使检测损失层132参照对象检测信息和与此对应的GT来算出至少一个对象检测损失,从而将对象检测损失反向传播而调整1xH2卷积层128、1xH1卷积层126及卷积层121中的至少一部分的参数。
另外,学习装置100使与RPN122对应的RPN损失层133参照候选框和与此对应的GT来算出至少一个RPN损失,从而将RPN损失反向传播而调整RPN122的至少一个参数。
如上述,本发明的一个实施例的基于CNN的对象检测器仅由卷积层构成,从而与以往的利用FC层的情况不同地,与输入图像的尺寸无关地检测出输入图像内的对象。另外,本发明的一个实施例的基于CNN的对象检测器应用1xH卷积层的本地连接运算(LocalConnected Operation),从而与以往的应用FC层的FC运算(Fully Connected Operation:全级联操作)的情况相比,能够减少计算运算量。
图8是概略性地示出测试本发明的一个实施例的基于CNN的对象检测器的测试装置200的图,参照图8,测试装置200包括通信部210和处理器220。
另外,测试装置200还包括存储器215,该存储器215存储有用于执行下一个处理的计算机可读取的指令(Instruction)。根据一个实施例,可将处理器、存储器、介质等综合为综合处理器(Integrated Processor)。
首先,通信部210获得至少一个测试图像或协助其他装置获得至少一个测试图像。
此时,本发明的一个实施例的基于CNN的对象检测器可以是通过参照图1至图7而说明的学习方法进行学习的状态。作为参考,为了在下面的说明中避免混淆,“学习用”这一用语是相对关于之前说明的学习处理的用语而追加的,“测试用”这一用语是相对关于测试处理的用语而追加的。
即,当输入到至少一个训练图像,学习装置是执行了如下处理的状态:(a)(i)使卷积层对训练图像应用卷积运算而生成至少一个学习用初始特征图(Initial FeatureMap),(ii)使RPN利用学习用初始特征图而生成与位于训练图像内的至少一个学习用对象分别对应的至少一个学习用候选框,(iii)(iii-1)使池化层对在学习用初始特征图上与学习用候选框分别对应的各个区域应用至少一次池化运算而生成各个学习用候选框的学习用池化特征图,使第1转置层(Transposing Layer)将各个学习用候选框的学习用池化特征图上的对应的相同的各个位置的各个像素按照各个学习用候选框而级联(Concatenating)来生成学习用综合特征图(Integrated Feature Map)或(iii-2)使池化层对在学习用初始特征图上与各个学习用候选框对应的各个区域应用池化运算来生成各个学习用候选框的学习用池化特征图,并使池化层将各个学习用候选框的学习用池化特征图上的对应的相同的各个位置的各个上述像素按照各个学习用候选框级联而生成学习用综合特征图,(b)(b1)(i)使第1重塑层(Reshaping Layer)将由学习用综合特征图的所有通道中的各自对应的H1个通道构成的各个组内的各个特征级联而生成学习用第1重塑特征图(ReshapedFeature Map),(ii)使1xH1卷积层对学习用第1重塑特征图应用1xH1卷积运算而生成调整了卷(Volume)的学习用第1调整特征图(Adjusted Feature Map),(b2)(i)使第2重塑层将由学习用第1调整特征图的所有通道中的各自对应的H2个通道构成的各个组内的各个特征级联而生成学习用第2重塑特征图,(ii)使1xH2卷积层对学习用第2重塑特征图而应用1xH2卷积运算来生成调整了卷的学习用第2调整特征图,(c)(c1)(i)使第2转置层按照各个像素而将学习用第2调整特征图分离来生成各个学习用候选框的学习用像素级特征图(Pixel-Wise Feature Map),使分类层利用各个学习用候选框的学习用像素级特征图而生成关于各个学习用候选框的学习用对象类信息,或者(ii)使分类层按照各个像素而将学习用第2调整特征图分离来生成各个学习用候选框的学习用像素级特征图,并利用各个学习用候选框的学习用像素级特征图来生成关于各个学习用候选框的学习用对象类信息,然后,(c2)使检测层参照学习用对象类信息和各个学习用候选框的学习用像素级特征图而生成与位于训练图像内的学习用对象对应的学习用对象检测信息,(c3)使检测损失层参照学习用对象检测信息和与此对应的GT(Ground Truth:真值)而算出至少一个对象检测损失,从而将对象检测损失反向传播来学习1xH2卷积层、1xH1卷积层及卷积层中的至少一部分参数。
另外,学习装置可以是使RPN损失层参照学习用候选框和与此对应的GT而算出至少一个RPN损失,从而将RPN损失反向传播来学习RPN的至少一部分参数的状态。
接着,处理器220可执行如下处理:(i)使卷积层对至少一个测试图像应用卷积运算来生成至少一个测试用初始特征图(Initial Feature Map),(ii)使RPN利用测试用初始特征图来生成与位于测试图像内的至少一个测试用对象分别对应的至少一个测试用候选框,(iii)(iii-1)使池化层对在测试用初始特征图上与各个测试用候选框对应的各个区域应用至少一次池化运算来生成各个测试用候选框的测试用池化特征图,并使第1转置层(Transposing Layer)将各个测试用候选框的测试用池化特征图上的对应的相同的各个位置的各个像素按照各个测试用候选框级联(Concatenating)来生成测试用综合特征图(Integrated Feature Map),或者(iii-2)使池化层对在测试用初始特征图上与各个测试用候选框对应的各个区域应用池化运算而生成各个测试用候选框的测试用池化特征图,将各个测试用候选框的测试用池化特征图上的对应的相同的各个位置的各个像素按照各个测试用候选框级联来生成测试用综合特征图。并且,处理器220可执行如下处理:(i)使第1重塑层(Reshaping Layer)将由测试用综合特征图的所有通道中的各自对应的H1个通道构成的各个组内的各个特征级联来生成测试用第1重塑特征图(Reshaped Feature Map),(ii)使1xH1卷积层对测试用第1重塑特征图应用1xH1卷积运算来生成调整了卷(Volume)的测试用第1调整特征图(Adjusted Feature Map),(iii)使第2重塑层将由上述测试用第1调整特征图的所有通道中的各自对应的H2个通道构成的各个组内的各个特征级联来生成测试用第2重塑特征图,(vi)使1xH2卷积层对测试用第2重塑特征图应用1xH2卷积运算来生成调整了卷的测试用第2调整特征图。之后,处理器220执行如下处理:(i)使第2转置层按照各个像素而将测试用第2调整特征图分离来生成各个测试用候选框的测试用像素级特征图(Pixel-Wise Feature Map),使分类层利用各个测试用候选框的测试用像素级特征图而生成关于各个测试用候选框的测试用对象类信息,或者(ii)使分类层按照各个像素将测试用第2调整特征图分离来生成各个测试用候选框的测试用像素级特征图,并利用各个测试用候选框的测试用像素级特征图来生成关于各个测试用候选框的测试用对象类信息。并且,处理器220使检测层参照测试用对象类信息和各个测试用候选框的测试用像素级特征图来生成与位于测试图像内的测试用对象对应的测试用对象检测信息。
此时,本发明的一个实施例的测试装置200作为计算装置,只要是搭载有处理器而具备运算能力的装置,则均可用作本发明的测试装置200。另外,图8中仅图示了一个测试装置200,但不限于此,测试装置可分成多个而执行作用。
下面,参照附图9,对利用这样构成的本发明的一个实施例的测试装置200来测试基于CNN的对象检测器的方法进行说明。在下面的说明中,对于从参照图1至图7而说明的学习方法中可容易理解的部分省略详细的说明。
首先,在通过参照图1至图7而说明的学习方法来学习了卷积层221、1xH1卷积层226及1xH2卷积层228中的至少一部分参数的状态下,当输入到测试图像时,测试装置200使卷积层221对测试图像应用卷积运算来生成测试用初始特征图。此时,卷积层221为了对测试图像依次应用卷积运算而形成为单个卷积层或多个卷积层。
并且,测试装置200使RPN222利用测试用初始特征图而生成与位于测试图像内的测试用对象对应的至少一个测试用候选框。此时,RPN222生成与估计为在测试图像内存在测试用对象的测试用后补区域对应的测试用ROI后补,并将在测试用ROI后补中被判断为存在测试用对象的概率高的特定测试用ROI后补输出为各个测试用候选框。
接着,测试装置200使池化层223将在测试用初始特征图上与各个测试用候选框对应的各个区域池化来生成各个测试用候选框的测试用池化特征图。
接着,测试装置200使第1转置层224将从池化层223输出的各个测试用候选框的测试用池化特征图上的对应的相同的各个位置的各个像素按照各个测试用候选框级联来生成测试用像素级特征图。
另一方面,在上述中,测试装置200使第1转置层224利用从池化层223输出的各个测试用候选框的测试用池化特征图而生成测试用综合特征图。作为另一例,测试装置200在不使用第1转置层224的情况下能够使池化层223生成测试用像素级特征图。即,测试装置200使池化层223对在测试用特征图上与各个测试用候选框对应的各个区域应用池化运算来生成各个测试用候选框的测试用池化特征图,将各个测试用候选框的测试用池化特征图上的对应的相同的各个位置的各个像素按照各个测试用候选框级联而生成测试用综合特征图。
接着,测试装置200使第1重塑层225将由测试用综合特征图的所有通道中的各自对应的H1个通道构成的各个组内的各个特征级联来生成测试用第1重塑特征图。
此时,在测试用综合特征图的通道数量不是H1的倍数的情况下,测试装置200使第1重塑层225对测试用综合特征图追加至少一个第1虚拟(dummy)通道来使包括至少一个第1虚拟通道的测试用综合特征图的通道数量成为H1的倍数,然后将由测试用综合特征图的所有通道中的各自对应的H1个通道构成的各个组内的各个特征级联。即,测试用综合特征图的通道数量不成为H1的倍数,从而将第CEIL
Figure BDA0002333770280000261
个通道级联而生成的测试用综合特征图的尺寸不是宽度N、高度H1的尺寸的情况下,可追加至少一个零填充区域,以使测试用综合特征图的宽度为N,高度为H1。
接着,测试装置200使1xH1卷积层226对测试用第1重塑特征图应用1xH1卷积运算来生成调整了卷的第1测试用调整特征图。
接着,测试装置200使第2重塑层227将由测试用第1调整特征图的所有通道中的各自对应的H2个通道构成的各个组内的各个特征级联来生成测试用第2重塑特征图。
此时,在测试用第1调整特征图的通道数量不是H2的倍数的情况下,测试装置200使第2重塑层227对测试用第1调整特征图追加至少一个第2虚拟通道,以使包括至少一个第2虚拟通道的测试用第1调整特征图的通道数量成为H2的倍数,然后将由测试用第1调整特征图的所有通道中的各自对应的H2个通道构成的各个组内的各个特征级联。即,测试用第1调整特征图的通道数量不成为H2的倍数,从而在将第CEIL
Figure BDA0002333770280000262
个通道级联而生成的测试用第1调整特征图的尺寸不是宽度N、高度H2的尺寸的情况下,追加至少一个零填充区域,以使测试用第1调整特征图的宽度为N,高度为H2。
接着,测试装置200使1xH2卷积层228对测试用第2重塑特征图应用1xH2卷积运算来生成调整了卷的测试用第2调整特征图。
接着,测试装置200使第2转置层229按照各个像素而将第2测试用调整特征图分离来生成各个测试用候选框的测试用像素级特征图。
接着,测试装置200使分类层230利用各个测试用候选框的测试用像素级特征图而生成关于测试用各个候选框的测试用对象类信息。此时,分类层230可使用柔性最大值算法,生成关于各个测试用候选框是否对应于要检测的测试用对象的概率信息。
另一方面,在上述中,第2转置层229可利用测试用第2调整特征图而生成各个测试用候选框的测试用像素级特征图。作为另一例,分类层230也可以不使用第2转置层229而利用测试用第2调整特征图来生成各个测试用候选框的测试用像素级特征图。即,测试装置200使分类层230按照各个像素而将测试用第2调整特征图分离来生成各个测试用候选框的测试用像素级特征图,并使分类层230利用各个测试用候选框的测试用像素级特征图来生成各个测试用候选框的测试用对象类信息。
接着,测试装置200使检测层231参照测试用对象类信息和各个测试用候选框的测试用像素级特征图来生成与位于测试图像内的测试用对象对应的测试用对象检测信息。此时,检测层231可使用NMS(Non-Maximum Suppression:非极大值抑制)算法,在对单个测试用对象标记了多个测试用候选框的情况下,将其中概率高的至少一个特定测试用候选框选择为与该单个的测试用对象对应的测试用对象检测信息。
在本方法中,由相同的处理器执行卷积运算及FC运算,因此可减少芯片(Chip)的尺寸而将硬件最佳化来满足KPI(Key Performance Index,核心成果指标)。
另外,以上说明的本发明的实施例可体现为通过各种计算机构成要件来实现的程序命令的形态来记录到计算机可读取的记录介质。上述计算机可读取的记录介质可单独或以组合的方式包括程序命令、数据文件、数据结构等。记录到上述计算机可读取的记录介质的程序命令可以是为本发明特别设计并构成的命令或计算机软件领域的技术人员公知而使用的命令。作为计算机可读取的记录介质的例子,包括硬盘、软盘及磁带这样的磁性介质、CD-ROM、DVD这样的光记录介质、光碟(floptical disk)这样的磁光介质(magneto-optical edia)及ROM、RAM、闪存等这样的以存储程序命令且执行的方式特别构成的硬件装置。作为程序命令的例子,不仅包括由编译器制作的机器代码,而且还包括使用解释器等而通过计算机来执行的高级语言代码。上述硬件装置既可构成为一个以上的软件模块,以执行本发明的处理,也可以与其相反的方式构成。
以上,通过具体的构成要件等这样的特定事项和限定的实施例及附图而对本发明进行了说明,但这是为了整体地理解本发明而提供的,本发明不限于这样的上述实施例,本领域技术人员可从这样的记载进行各种修改及变形。
因此,本发明的思想不限于上述说明的实施例,不仅是后述的权利要求书,与该权利要求书均等或等价地变形的所有内容均包括在本发明的思想的范围中。

Claims (30)

1.一种学习方法,学习基于CNN的对象检测器的参数,其特征在于,包括如下步骤:
(a)当获得至少一个训练图像时,学习装置,(i)使至少一个卷积层对上述训练图像应用至少一次卷积运算来生成至少一个初始特征图,(ii)使RPN利用上述初始特征图而生成与位于上述训练图像内的至少一个对象分别对应的至少一个候选框,(iii)(iii-1)使池化层对在上述初始特征图上与上述候选框分别对应的各个区域应用至少一次池化运算来生成各个上述候选框的池化特征图,并使第1转置层将各个上述候选框的上述池化特征图上的对应的相同的各个位置的各个像素按照各个上述候选框级联来生成综合特征图,或者(iii-2)使上述池化层对在上述初始特征图上与各个上述候选框对应的各个区域应用池化运算来生成各个上述候选框的上述池化特征图,并使上述池化层将各个上述候选框的上述池化特征图上的对应的相同的各个位置的各个上述像素按照各个上述候选框级联来生成上述综合特征图;
(b)上述学习装置,(b1)(i)使第1重塑层将由上述综合特征图的所有通道中的各自对应的H1个通道构成的各个组内的各个特征级联来生成第1重塑特征图,(ii)使1xH1卷积层对上述第1重塑特征图应用1xH1卷积运算来生成调整了卷的第1调整特征图,(b2)(i)使第2重塑层将由上述第1调整特征图的所有通道中的各自对应的H2个通道构成的各个组内的各个特征级联而生成第2重塑特征图,(ii)使1xH2卷积层对上述第2重塑特征图应用1xH2卷积运算来生成调整了卷的第2调整特征图;及
(c)上述学习装置,(c1)(i)使第2转置层按照各个上述像素将上述第2调整特征图分离而生成各个上述候选框的像素级特征图,并使分类层利用各个上述候选框的上述像素级特征图来生成关于各个上述候选框的对象类信息,(ii)使上述分类层按照各个上述像素将上述第2调整特征图分离来生成各个上述候选框的上述像素级特征图,使上述分类层利用各个上述候选框的上述像素级特征图而生成关于各个上述候选框的上述对象类信息,然后,(c2)使检测层参照上述对象类信息和各个上述候选框的上述像素级特征图来生成与位于上述训练图像内的上述对象对应的对象检测信息,(c3)使检测损失层参照上述对象检测信息和与此对应的GT来算出至少一个对象检测损失,从而将上述对象检测损失反向传播来学习上述1xH2卷积层、上述1xH1卷积层及上述卷积层中的至少一部分参数。
2.根据权利要求1所述的学习方法,其特征在于,
在上述(a)步骤之后,
上述学习装置使RPN损失层参照上述候选框和与此对应的GT来算出至少一个RPN损失,从而将上述RPN损失反向传播来学习上述RPN的至少一部分参数。
3.根据权利要求1所述的学习方法,其特征在于,
在上述(b)步骤中,
在上述综合特征图的通道数量不是上述H1的倍数的情况下,上述学习装置使上述第1重塑层对上述综合特征图追加至少一个第1虚拟通道,从而使包括至少一个上述第1虚拟通道的上述综合特征图的通道数量成为上述H1的倍数,然后将由上述综合特征图的上述所有通道中的各自对应的H1个上述通道构成的各个组内的各个上述特征级联,
在上述(b)步骤中,
在上述第1调整特征图的通道数量不是上述H2的倍数的情况下,上述学习装置使上述第2重塑层对上述第1调整特征图追加至少一个第2虚拟通道,从而使包括至少一个上述第2虚拟通道的上述第1调整特征图的通道数量成为上述H2的倍数,然后将由上述第1调整特征图的上述所有通道中的各自对应的H2个上述通道构成的各个组内的各个上述特征级联。
4.根据权利要求1所述的学习方法,其特征在于,
在将上述候选框的数量设为N,将各个上述候选框的上述池化特征图的宽度设为M1、高度设为M2,将各个上述候选框的上述池化特征图的通道数量设为J的情况下,
在上述(a)步骤中,
上述学习装置,(i)使上述第1转置层将各个上述候选框的上述池化特征图变换成宽度为N、高度为1、通道为M1xM2xJ的上述综合特征图,或者(ii)使上述池化层将各个上述候选框的上述池化特征图变换成宽度为N、高度为1、通道为M1xM2xJ的上述综合特征图。
5.根据权利要求4所述的学习方法,其特征在于,
在将上述1xH1卷积层的过滤器的数量设为K,将上述1xH2卷积层的过滤器的数量设为L的情况下,
在上述(b)步骤中,
上述学习装置使上述第1重塑层生成宽度为N、高度为H1、通道为
Figure FDA0002333770270000031
Figure FDA0002333770270000032
的上述第1重塑特征图,使上述1xH1卷积层生成宽度为N、高度为1、通道为K的具备Nx1xK的卷的上述第1调整特征图,
上述学习装置使上述第2重塑层生成宽度为H2、高度为N、通道为
Figure FDA0002333770270000033
的上述第2重塑特征图,使上述1xH2卷积层生成宽度为N、高度为1、通道为L的具备Nx1xL的卷的上述第2调整特征图。
6.根据权利要求5所述的学习方法,其特征在于,
在上述(c)步骤中,
上述学习装置,(i)使上述第2转置层将上述第2调整特征图变换成与N个上述候选框分别对应的宽度为1、高度为1、通道为L的具备1x1xL的卷的、各个上述候选框的上述像素级特征图,或者(ii)使上述分类层将上述第2调整特征图变换成与N个上述候选框分别对应的宽度为1、高度为1、通道为L的具备1x1xL的卷的、各个上述候选框的上述像素级特征图。
7.根据权利要求1所述的学习方法,其特征在于,
上述分类层使用至少一个柔性最大值算法。
8.根据权利要求1所述的学习方法,其特征在于,
上述检测层使用至少一个NMS算法。
9.一种测试方法,测试基于CNN的对象检测器,其特征在于,包括如下步骤:
(a)学习装置,(1)(i)使至少一个卷积层对至少一个训练图像应用至少一次卷积运算来生成至少一个学习用初始特征图,(ii)使RPN利用上述学习用初始特征图而生成与位于上述训练图像内的至少一个学习用对象分别对应的至少一个学习用候选框,(iii)(iii-1)使池化层对在上述学习用初始特征图上与上述学习用候选框分别对应的各个区域应用至少一次池化运算来生成各个上述学习用候选框的学习用池化特征图,使第1转置层将各个上述学习用候选框的上述学习用池化特征图上的对应的相同的各个位置的各个像素按照各个上述学习用候选框级联来生成学习用综合特征图,或者(iii-2)使上述池化层对在上述学习用初始特征图上与各个上述学习用候选框对应的各个区域应用池化运算来生成各个上述学习用候选框的上述学习用池化特征图,使上述池化层将各个上述学习用候选框的上述学习用池化特征图上的对应的相同的各个位置的各个上述像素按照各个上述学习用候选框级联来生成上述学习用综合特征图,(2)(2-1)(i)使第1重塑层将由上述学习用综合特征图的所有通道中的各自对应的H1个通道构成的各个组内的各个特征级联来生成学习用第1重塑特征图,(ii)使1xH1卷积层对上述学习用第1重塑特征图应用1xH1卷积运算来生成调整了卷的学习用第1调整特征图,(2-2)(i)使第2重塑层将由上述学习用第1调整特征图的所有通道中的各自对应的H2个通道构成的各个组内的各个特征级联来生成学习用第2重塑特征图,(ii)使1xH2卷积层对上述学习用第2重塑特征图应用1xH2卷积运算来生成调整了卷的学习用第2调整特征图,(3)(3-1)(i)使第2转置层按照各个上述像素将上述学习用第2调整特征图分离而生成各个上述学习用候选框的学习用像素级特征图,使分类层利用各个上述学习用候选框的上述学习用像素级特征图而生成关于各个上述学习用候选框的学习用对象类信息,或者(ii)使上述分类层按照各个上述像素将上述学习用第2调整特征图分离而生成各个上述学习用候选框的上述学习用像素级特征图,并利用各个上述学习用候选框的上述学习用像素级特征图来生成关于各个上述学习用候选框的上述学习用对象类信息,然后,(3-2)使检测层参照上述学习用对象类信息和各个上述学习用候选框的上述学习用像素级特征图来生成与位于上述训练图像内的上述学习用对象对应的学习用对象检测信息,(3-3)使检测损失层参照上述学习用对象检测信息和与此对应的GT来算出至少一个对象检测损失,从而在将上述对象检测损失反向传播来学习上述1xH2卷积层、上述1xH1卷积层及上述卷积层中的至少一部分参数的状态下,当获得至少一个测试图像时,测试装置,(a1)使上述卷积层对上述测试图像应用至少一次卷积运算来生成至少一个测试用初始特征图,(a2)使上述RPN利用上述测试用初始特征图而生成与位于上述测试图像内的至少一个测试用对象分别对应的至少一个测试用候选框,(a3)(a3-1)使上述池化层对在上述测试用初始特征图上与上述测试用候选框分别对应的各个区域应用至少一次池化运算,从而生成各个上述测试用候选框的测试用池化特征图,使上述第1转置层将各个上述测试用候选框的上述测试用池化特征图上的对应的相同的各个位置的各个像素按照各个上述测试用候选框级联来生成测试用综合特征图,或者(a3-2)使上述池化层对在上述测试用初始特征图上与上述测试用候选框分别对应的各个区域应用池化运算而生成各个上述测试用候选框的上述测试用池化特征图,并将各个上述测试用候选框的上述测试用池化特征图上的对应的相同的各个位置的各个上述像素按照各个上述测试用候选框级联来生成上述测试用综合特征图;
(b)上述测试装置,(b1)(i)使上述第1重塑层将由上述测试用综合特征图的所有通道中的各自对应的H1个通道构成的各个组内的各个特征级联来生成测试用第1重塑特征图,(ii)使上述1xH1卷积层对上述测试用第1重塑特征图应用1xH1卷积运算来生成调整了卷的测试用第1调整特征图,(b2)(i)使上述第2重塑层将由上述测试用第1调整特征图的所有通道中的各自对应的H2个通道构成的各个组内的各个特征级联来生成测试用第2重塑特征图,(ii)使上述1xH2卷积层对上述测试用第2重塑特征图应用1xH2卷积运算来生成调整了卷的测试用第2调整特征图;及
(c)上述测试装置,(c1)(i)使上述第2转置层按照各个上述像素将上述测试用第2调整特征图分离而生成各个上述测试用候选框的测试用像素级特征图,使上述分类层利用各个上述测试用候选框的上述测试用像素级特征图来生成关于各个上述测试用候选框的测试用对象类信息,或者(ii)使上述分类层按照各个上述像素将上述测试用第2调整特征图分离而生成各个上述测试用候选框的上述测试用像素级特征图,并利用各个上述测试用候选框的上述测试用像素级特征图来生成关于各个上述测试用候选框的测试用上述对象类信息,然后,(c2)使上述检测层参照上述测试用对象类信息和各个上述测试用候选框的上述测试用像素级特征图而生成与位于上述测试图像内的上述测试用对象对应的测试用对象检测信息。
10.根据权利要求9所述的测试方法,其特征在于,
在上述(b)步骤中,
在上述测试用综合特征图的通道数量不是上述H1的倍数的情况下,上述测试装置使上述第1重塑层对上述测试用综合特征图追加至少一个第1虚拟通道而使包括至少一个上述第1虚拟通道的上述测试用综合特征图的通道数量成为上述H1的倍数,然后将由上述测试用综合特征图的上述所有通道中的各自对应的H1个上述通道构成的各个组内的各个上述特征级联,
在上述(b)步骤中,
在上述测试用第1调整特征图的通道数量不是上述H2的倍数的情况下,上述测试装置使上述第2重塑层对上述测试用第1调整特征图追加至少一个第2虚拟通道来使包括至少一个上述第2虚拟通道的上述测试用第1调整特征图的通道数量成为上述H2的倍数,然后将由上述测试用第1调整特征图的上述所有通道中的各自对应的H2个上述通道构成的各个组内的各个上述特征级联。
11.根据权利要求9所述的测试方法,其特征在于,
在将上述测试用候选框的数量设为N,将各个上述测试用候选框的上述测试用池化特征图的宽度设为M1、高度设为M2,将各个上述测试用候选框的上述测试用池化特征图的通道数量设为J的情况下,
在上述(a)步骤中,
上述测试装置,(i)使上述第1转置层将各个上述测试用候选框的上述测试用池化特征图变换成宽度为N、高度为1、通道为M1xM2xJ的上述测试用综合特征图,或者(ii)使上述池化层将各个上述测试用候选框的上述测试用池化特征图变换成宽度为N、高度为1、通道为M1xM2xJ的上述测试用综合特征图。
12.根据权利要求11所述的测试方法,其特征在于,
在将上述1xH1卷积层的过滤器的数量设为K,将上述1xH2卷积层的过滤器的数量设为L的情况下,
在上述(b)步骤中,
上述测试装置使上述第1重塑层生成宽度为N、高度为H1、通道数量为
Figure FDA0002333770270000061
Figure FDA0002333770270000062
的上述测试用第1重塑特征图,并使上述1xH1卷积层生成宽度为N、高度为1、通道数量为K的具备Nx1xK的卷的上述测试用第1调整特征图,
上述测试装置使上述第2重塑层生成宽度为N,高度为H2,通道数量为
Figure FDA0002333770270000063
的上述测试用第2重塑特征图,并使上述1xH2卷积层生成宽度为N、高度为1、通道数量为L的具备Nx1xL的卷的上述测试用第2调整特征图。
13.根据权利要求12所述的测试方法,其特征在于,
在上述(c)步骤中,
上述测试装置,(i)使上述第2转置层将上述测试用第2调整特征图变换成与N个上述测试用候选框分别对应的宽度为1、高度为1、通道为L的具备1x1xL的卷的、各个上述测试用候选框的上述测试用像素级特征图,或者(ii)使上述分类层将上述测试用第2调整特征图变换成与N个上述测试用候选框分别对应的宽度为1、高度为1、通道为L的具备1x1xL的卷的、各个上述测试用候选框的上述测试用像素级特征图。
14.根据权利要求9所述的测试方法,其特征在于,
上述分类层使用至少一个柔性最大值算法。
15.根据权利要求9所述的测试方法,其特征在于,
上述检测层使用至少一个NMS算法。
16.一种学习装置,其学习基于CNN的对象检测器的参数,其特征在于,其包括:
至少一个存储器,其存储指令;及
至少一个处理器,其执行用于执行如下处理的上述指令:(I)(i)使至少一个卷积层对至少一个训练图像应用至少一次卷积运算来生成至少一个初始特征图,(ii)使RPN利用上述初始特征图而生成与位于上述训练图像内的至少一个对象分别对应的至少一个候选框,(iii)(iii-1)使池化层对在上述初始特征图上与上述候选框分别对应的各个区域应用至少一次池化运算来生成各个上述候选框的池化特征图,并使第1转置层将各个上述候选框的上述池化特征图上的对应的相同的各个位置的各个像素按照各个上述候选框级联来生成综合特征图,或者(iii-2)使上述池化层对在上述初始特征图上与各个上述候选框对应的各个区域应用池化运算来生成各个上述候选框的上述池化特征图,并使上述池化层将各个上述候选框的上述池化特征图上的对应的相同的各个位置的各个上述像素按照各个上述候选框级联来生成上述综合特征图;(II)(II-1)(i)使第1重塑层将由上述综合特征图的所有通道中的各自对应的H1个通道构成的各个组内的各个特征级联来生成第1重塑特征图,(ii)使1xH1卷积层对上述第1重塑特征图应用1xH1卷积运算来生成调整了卷的第1调整特征图,(II-2)(i)使第2重塑层将由上述第1调整特征图的所有通道中的各自对应的H2个通道构成的各个组内的各个特征级联而生成第2重塑特征图,(ii)使1xH2卷积层对上述第2重塑特征图应用1xH2卷积运算来生成调整了卷的第2调整特征图;及(III)(III-1)(i)使第2转置层按照各个上述像素将上述第2调整特征图分离而生成各个上述候选框的像素级特征图,并使分类层利用各个上述候选框的上述像素级特征图来生成关于各个上述候选框的对象类信息,(ii)使上述分类层按照各个上述像素将上述第2调整特征图分离来生成各个上述候选框的上述像素级特征图,并使上述分类层利用各个上述候选框的上述像素级特征图而生成关于各个上述候选框的上述对象类信息,然后,(III-2)使检测层参照上述对象类信息和各个上述候选框的上述像素级特征图来生成与位于上述训练图像内的上述对象对应的对象检测信息,(III-3)使检测损失层参照上述对象检测信息和与此对应的GT来算出至少一个对象检测损失,从而将上述对象检测损失反向传播来学习上述1xH2卷积层、上述1xH1卷积层及上述卷积层中的至少一部分参数。
17.根据权利要求16所述的学习装置,其特征在于,
在上述(I)处理之后,
上述处理器使RPN损失层参照上述候选框和与此对应的GT而算出至少一个RPN损失,从而将上述RPN损失反向传播来学习上述RPN的至少一部分参数。
18.根据权利要求16所述的学习装置,其特征在于,
在上述(II)处理中,
在上述综合特征图的通道数量不是上述H1的倍数的情况下,上述处理器使上述第1重塑层对上述综合特征图追加至少一个第1虚拟通道而使包括至少一个上述第1虚拟通道的上述综合特征图的通道数量成为上述H1的倍数,然后将由上述综合特征图的上述所有通道中的各自对应的H1个上述通道构成的各个组内的各个上述特征级联,
在上述(II)处理中,
在上述第1调整特征图的通道数量不是上述H2的倍数的情况下,上述处理器使上述第2重塑层对上述第1调整特征图追加至少一个第2虚拟通道而使包括上述至少一个第2虚拟通道的上述第1调整特征图的通道数量成为上述H2的倍数,然后将由上述第1调整特征图的上述所有通道中的各自对应的H2个上述通道构成的各个组内的各个上述特征级联。
19.根据权利要求16所述的学习装置,其特征在于,
在将上述候选框的数量设为N,将各个上述候选框的上述池化特征图的宽度设为M1、高度设为M2,将各个上述候选框的上述池化特征图的通道数量设为J的情况下,
在上述(I)处理中,
上述处理器,(i)使上述第1转置层将各个上述候选框的上述池化特征图变换成宽度为N、高度为1、通道为M1xM2xJ的上述综合特征图,或者(ii)使上述池化层将各个上述候选框的上述池化特征图变换成宽度为N、高度为1、通道为M1xM2xJ的上述综合特征图。
20.根据权利要求19所述的学习装置,其特征在于,
在将上述1xH1卷积层的过滤器的数量设为K,将上述1xH2卷积层的过滤器的数量设为L的情况下,
在上述(II)处理中,
上述处理器使上述第1重塑层生成宽度为N、高度为H1、通道数量为
Figure FDA0002333770270000091
Figure FDA0002333770270000092
的上述第1重塑特征图,使上述1xH1卷积层生成宽度为N、高度为1、通道为K的具备Nx1xK的卷的上述第1调整特征图,
上述处理器使上述第2重塑层输出宽度为H2、高度为N、通道为
Figure FDA0002333770270000093
的上述第2重塑特征图,使上述1xH2卷积层生成宽度为N、高度为1、通道为L的具备Nx1xL的卷的上述第2调整特征图。
21.根据权利要求20所述的学习装置,其特征在于,
在上述(III)处理中,
上述处理器,(i)使上述第2转置层将上述第2调整特征图变换成与N个上述候选框分别对应的宽度为1、高度为1、通道为L的具备1x1xL的卷的、各个上述候选框的上述像素级特征图,或者(ii)使上述分类层将上述第2调整特征图变换成与N个上述候选框分别对应的宽度为1、高度为1、通道为L的具备1x1xL的卷的、各个上述候选框的上述像素级特征图。
22.根据权利要求16所述的学习装置,其特征在于,
上述分类层使用至少一个柔性最大值算法。
23.根据权利要求16所述的学习装置,其特征在于,
上述检测层使用至少一个NMS算法。
24.一种测试装置,其测试基于CNN的对象检测器,其特征在于,其包括:
至少一个存储器,其存储指令;及
至少一个处理器,其执行用于执行如下处理的上述指令:学习装置,(1)(i)使至少一个卷积层对至少一个训练图像应用至少一次卷积运算来生成至少一个学习用初始特征图,(ii)使RPN利用上述学习用初始特征图而生成与位于上述训练图像内的至少一个学习用对象分别对应的至少一个学习用候选框,(iii)(iii-1)使池化层对在上述学习用初始特征图上与上述学习用候选框分别对应的各个区域应用至少一次池化运算来生成各个上述学习用候选框的学习用池化特征图,并使第1转置层将各个上述学习用候选框的上述学习用池化特征图上的对应的相同的各个位置的各个像素按照各个上述学习用候选框级联来生成学习用综合特征图,或者(iii-2)使上述池化层对在上述学习用初始特征图上与各个上述学习用候选框对应的各个区域应用池化运算来生成各个上述学习用候选框的上述学习用池化特征图,使上述池化层将各个上述学习用候选框的上述学习用池化特征图上的对应的相同的各个位置的各个上述像素按照各个上述学习用候选框级联来生成上述学习用综合特征图,(2)(2-1)(i)使第1重塑层将由上述学习用综合特征图的所有通道中的各自对应的H1个通道构成的各个组内的各个特征级联来生成学习用第1重塑特征图,(ii)使1xH1卷积层对上述学习用第1重塑特征图应用1xH1卷积运算来生成调整了卷的学习用第1调整特征图,(2-2)(i)使第2重塑层将由上述学习用第1调整特征图的所有通道中的各自对应的H2个通道构成的各个组内的各个特征级联来生成学习用第2重塑特征图,(ii)使1xH2卷积层对上述学习用第2重塑特征图应用1xH2卷积运算来生成调整了卷的学习用第2调整特征图,(3)(3-1)(i)使第2转置层按照各个上述像素将上述学习用第2调整特征图分离而生成各个上述学习用候选框的学习用像素级特征图,使分类层利用各个上述学习用候选框的上述学习用像素级特征图而生成关于各个上述学习用候选框的学习用对象类信息,或者(ii)使上述分类层按照各个上述像素将上述学习用第2调整特征图分离而生成各个上述学习用候选框的上述学习用像素级特征图,并利用各个上述学习用候选框的上述学习用像素级特征图来生成关于各个上述学习用候选框的上述学习用对象类信息,然后,(3-2)使检测层参照上述学习用对象类信息和各个上述学习用候选框的上述学习用像素级特征图来生成与位于上述训练图像内的上述学习用对象对应的学习用对象检测信息,(3-3)使检测损失层参照上述学习用对象检测信息和与此对应的GT来算出至少一个对象检测损失,从而在将上述对象检测损失反向传播来学习上述1xH2卷积层、上述1xH1卷积层及上述卷积层中的至少一部分参数的状态下,(I)(i)使上述卷积层对至少一个测试图像应用卷积运算来生成至少一个测试用初始特征图,(ii)使上述RPN利用上述测试用初始特征图而生成与位于上述测试图像内的至少一个测试用对象分别对应的至少一个测试用候选框,(iii)(iii-1)使上述池化层对在上述测试用初始特征图上与上述测试用候选框分别对应的各个区域应用至少一次池化运算,从而生成各个上述测试用候选框的测试用池化特征图,使上述第1转置层将各个上述测试用候选框的上述测试用池化特征图上的对应的相同的各个位置的各个像素按照各个上述测试用候选框级联来生成测试用综合特征图,或者(iii-2)使上述池化层对在上述测试用初始特征图上与上述测试用候选框分别对应的各个区域应用池化运算而生成各个上述测试用候选框的上述测试用池化特征图,并将各个上述测试用候选框的上述测试用池化特征图上的对应的相同的各个位置的各个上述像素按照各个上述测试用候选框级联来生成上述测试用综合特征图;(II)(II-1)(i)使上述第1重塑层将由上述测试用综合特征图的所有通道中的各自对应的H1个通道构成的各个组内的各个特征级联来生成测试用第1重塑特征图,(ii)使上述1xH1卷积层对上述测试用第1重塑特征图应用1xH1卷积运算来生成调整了卷的测试用第1调整特征图,(II-2)(i)使上述第2重塑层将由上述测试用第1调整特征图的所有通道中的各自对应的H2个通道构成的各个组内的各个特征级联来生成测试用第2重塑特征图,(ii)使上述1xH2卷积层对上述测试用第2重塑特征图应用1xH2卷积运算来生成调整了卷的测试用第2调整特征图;及(III)(III-1)(i)使上述第2转置层按照各个上述像素将上述测试用第2调整特征图分离而生成各个上述测试用候选框的测试用像素级特征图,使上述分类层利用各个上述测试用候选框的上述测试用像素级特征图来生成关于各个上述测试用候选框的测试用对象类信息,或者(ii)使上述分类层按照各个上述像素将上述测试用第2调整特征图分离而生成各个上述测试用候选框的上述测试用像素级特征图,并利用各个上述测试用候选框的上述测试用像素级特征图来生成关于各个上述测试用候选框的测试用上述对象类信息,然后,(III-2)使上述检测层参照上述测试用对象类信息和各个上述测试用候选框的上述测试用像素级特征图而生成与位于上述测试图像内的上述测试用对象对应的测试用对象检测信息。
25.根据权利要求24所述的测试装置,其特征在于,
在上述(II)处理中,
在上述测试用综合特征图的通道数量不是上述H1的倍数的情况下,上述处理器使上述第1重塑层对上述测试用综合特征图追加至少一个第1虚拟通道而使包括至少一个上述第1虚拟通道的上述测试用综合特征图的通道数量成为上述H1的倍数,然后将由上述测试用综合特征图的上述所有通道中的各自对应的H1个上述通道构成的各个组内的各个上述特征级联,
在上述(II)处理中,
在上述测试用第1调整特征图的通道数量不是上述H2的倍数的情况下,上述处理器使上述第2重塑层对上述测试用第1调整特征图追加至少一个第2虚拟通道来使包括至少一个上述第2虚拟通道的上述测试用第1调整特征图的通道数量成为上述H2的倍数,然后将由上述测试用第1调整特征图的上述所有通道中的各自对应的H2个上述通道构成的各个组内的各个上述特征级联。
26.根据权利要求24所述的测试装置,其特征在于,
在将上述测试用候选框的数量设为N,将各个上述测试用候选框的上述测试用池化特征图的宽度设为M1、高度设为M2,将各个上述测试用候选框的上述测试用池化特征图的通道数量设为J的情况下,
在上述(I)处理中,
上述处理器,(i)使上述第1转置层将各个上述测试用候选框的上述测试用池化特征图变换成宽度为N、高度为1、通道为M1xM2xJ的上述测试用综合特征图,或者(ii)使上述池化层将各个上述测试用候选框的上述测试用池化特征图变换成宽度为N、高度为1、通道为M1xM2xJ的上述测试用综合特征图。
27.根据权利要求26所述的测试装置,其特征在于,
在将上述1xH1卷积层的过滤器的数量设为K,将上述1xH2卷积层的过滤器的数量设为L的情况下,
在上述(II)处理中,
上述处理器使上述第1重塑层生成宽度为N、高度为H1、通道数量为
Figure FDA0002333770270000121
Figure FDA0002333770270000122
的上述测试用第1重塑特征图,使上述1xH1卷积层生成宽度为N、高度为1、通道数量为K的具备Nx1xK的卷的上述测试用第1调整特征图,
上述处理器使上述第2重塑层生成宽度为N,高度为H2,通道数量为
Figure FDA0002333770270000123
的上述测试用第2重塑特征图,使上述1xH2卷积层生成宽度为N、高度为1、通道数量为L的具备Nx1xL的卷的上述测试用第2调整特征图。
28.根据权利要求27所述的测试装置,其特征在于,
在上述(III)处理中,
上述处理器,(i)使上述第2转置层将上述测试用第2调整特征图变换成与N个上述测试用候选框分别对应的宽度为1、高度为1、通道为L的具备1x1xL的卷的、各个上述测试用候选框的上述测试用像素级特征图,或者(ii)使上述分类层将上述测试用第2调整特征图变换成与N个上述测试用候选框分别对应的宽度为1、高度为1、通道为L的具备1x1xL的卷的、各个上述测试用候选框的上述测试用像素级特征图。
29.根据权利要求24所述的测试装置,其特征在于,
上述分类层使用至少一个柔性最大值算法。
30.根据权利要求24所述的测试装置,其特征在于,
上述检测层使用至少一个NMS算法。
CN201911347404.7A 2019-01-23 2019-12-24 利用1xH卷积的基于CNN的对象检测方法及装置 Active CN111476262B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/254,976 US10387754B1 (en) 2019-01-23 2019-01-23 Learning method and learning device for object detector based on CNN using 1×H convolution to be used for hardware optimization, and testing method and testing device using the same
US16/254,976 2019-01-23

Publications (2)

Publication Number Publication Date
CN111476262A true CN111476262A (zh) 2020-07-31
CN111476262B CN111476262B (zh) 2023-08-15

Family

ID=67620910

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911347404.7A Active CN111476262B (zh) 2019-01-23 2019-12-24 利用1xH卷积的基于CNN的对象检测方法及装置

Country Status (5)

Country Link
US (1) US10387754B1 (zh)
EP (1) EP3686800B1 (zh)
JP (1) JP6858382B2 (zh)
KR (1) KR102338750B1 (zh)
CN (1) CN111476262B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018211144A1 (en) 2017-05-19 2018-11-22 Deepmind Technologies Limited Making object-level predictions of the future state of a physical system
CN110874671B (zh) * 2019-10-24 2021-03-16 腾讯科技(深圳)有限公司 一种配电网的电力负荷预测方法、装置及存储介质
CN113269014A (zh) * 2020-02-17 2021-08-17 阿里巴巴集团控股有限公司 图像处理方法、设备及存储介质
DE102020107108A1 (de) * 2020-03-16 2021-09-16 Kopernikus Automotive GmbH Verfahren und System zum autonomen Fahren eines Fahrzeugs
JP6830561B1 (ja) * 2020-09-17 2021-02-17 株式会社スペースリー 情報処理装置、情報処理方法、情報処理システム、情報処理プログラム
CN112035683A (zh) * 2020-09-30 2020-12-04 北京百度网讯科技有限公司 用户交互信息处理模型生成方法和用户交互信息处理方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160035078A1 (en) * 2014-07-30 2016-02-04 Adobe Systems Incorporated Image assessment using deep convolutional neural networks
US20170124409A1 (en) * 2015-11-04 2017-05-04 Nec Laboratories America, Inc. Cascaded neural network with scale dependent pooling for object detection
WO2018003212A1 (ja) * 2016-06-30 2018-01-04 クラリオン株式会社 物体検出装置及び物体検出方法
US20180096457A1 (en) * 2016-09-08 2018-04-05 Carnegie Mellon University Methods and Software For Detecting Objects in Images Using a Multiscale Fast Region-Based Convolutional Neural Network
US9984325B1 (en) * 2017-10-04 2018-05-29 StradVision, Inc. Learning method and learning device for improving performance of CNN by using feature upsampling networks, and testing method and testing device using the same
JP2018084982A (ja) * 2016-11-24 2018-05-31 キヤノン株式会社 画像処理装置、情報処理方法及びプログラム
US10007865B1 (en) * 2017-10-16 2018-06-26 StradVision, Inc. Learning method and learning device for adjusting parameters of CNN by using multi-scale feature maps and testing method and testing device using the same
CN108764292A (zh) * 2018-04-27 2018-11-06 北京大学 基于弱监督信息的深度学习图像目标映射及定位方法

Family Cites Families (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156807B (zh) * 2015-04-02 2020-06-02 华中科技大学 卷积神经网络模型的训练方法及装置
WO2016165060A1 (en) * 2015-04-14 2016-10-20 Intel Corporation Skin detection based on online discriminative modeling
US9965719B2 (en) * 2015-11-04 2018-05-08 Nec Corporation Subcategory-aware convolutional neural networks for object detection
US9881234B2 (en) * 2015-11-25 2018-01-30 Baidu Usa Llc. Systems and methods for end-to-end object detection
JP6873600B2 (ja) * 2016-03-04 2021-05-19 キヤノン株式会社 画像認識装置、画像認識方法及びプログラム
US20180039853A1 (en) * 2016-08-02 2018-02-08 Mitsubishi Electric Research Laboratories, Inc. Object Detection System and Object Detection Method
US10019655B2 (en) * 2016-08-31 2018-07-10 Adobe Systems Incorporated Deep-learning network architecture for object detection
US10354159B2 (en) * 2016-09-06 2019-07-16 Carnegie Mellon University Methods and software for detecting objects in an image using a contextual multiscale fast region-based convolutional neural network
US11308350B2 (en) * 2016-11-07 2022-04-19 Qualcomm Incorporated Deep cross-correlation learning for object tracking
US10846523B2 (en) * 2016-11-14 2020-11-24 Kodak Alaris Inc. System and method of character recognition using fully convolutional neural networks with attention
US10380741B2 (en) * 2016-12-07 2019-08-13 Samsung Electronics Co., Ltd System and method for a deep learning machine for object detection
US10262237B2 (en) * 2016-12-08 2019-04-16 Intel Corporation Technologies for improved object detection accuracy with multi-scale representation and training
CN108303748A (zh) * 2017-01-12 2018-07-20 同方威视技术股份有限公司 检查设备和检测行李物品中的枪支的方法
US10185878B2 (en) * 2017-02-28 2019-01-22 Microsoft Technology Licensing, Llc System and method for person counting in image data
US10635927B2 (en) * 2017-03-06 2020-04-28 Honda Motor Co., Ltd. Systems for performing semantic segmentation and methods thereof
US20180260414A1 (en) * 2017-03-10 2018-09-13 Xerox Corporation Query expansion learning with recurrent networks
US10678846B2 (en) * 2017-03-10 2020-06-09 Xerox Corporation Instance-level image retrieval with a region proposal network
US11010595B2 (en) * 2017-03-23 2021-05-18 Samsung Electronics Co., Ltd. Facial verification method and apparatus
US10325342B2 (en) * 2017-04-27 2019-06-18 Apple Inc. Convolution engine for merging interleaved channel data
US10460470B2 (en) * 2017-07-06 2019-10-29 Futurewei Technologies, Inc. Recognition and reconstruction of objects with partial appearance
US10503978B2 (en) * 2017-07-14 2019-12-10 Nec Corporation Spatio-temporal interaction network for learning object interactions
US10776903B2 (en) * 2017-07-17 2020-09-15 Open Text Corporation Systems and methods for image modification and image based content capture and extraction in neural networks
EP3432263B1 (en) * 2017-07-17 2020-09-16 Siemens Healthcare GmbH Semantic segmentation for cancer detection in digital breast tomosynthesis
KR101880901B1 (ko) * 2017-08-09 2018-07-23 펜타시큐리티시스템 주식회사 기계 학습 방법 및 장치
CN108022238B (zh) * 2017-08-09 2020-07-03 深圳科亚医疗科技有限公司 对3d图像中对象进行检测的方法、计算机存储介质和系统
US10753997B2 (en) * 2017-08-10 2020-08-25 Siemens Healthcare Gmbh Image standardization using generative adversarial networks
JP6972756B2 (ja) * 2017-08-10 2021-11-24 富士通株式会社 制御プログラム、制御方法、及び情報処理装置
JP6972757B2 (ja) * 2017-08-10 2021-11-24 富士通株式会社 制御プログラム、制御方法、及び情報処理装置
US10929987B2 (en) * 2017-08-16 2021-02-23 Nvidia Corporation Learning rigidity of dynamic scenes for three-dimensional scene flow estimation
US10679351B2 (en) * 2017-08-18 2020-06-09 Samsung Electronics Co., Ltd. System and method for semantic segmentation of images
US20190063932A1 (en) * 2017-08-28 2019-02-28 Nec Laboratories America, Inc. Autonomous Vehicle Utilizing Pose Estimation
CN107492099B (zh) * 2017-08-28 2021-08-20 京东方科技集团股份有限公司 医学图像分析方法、医学图像分析系统以及存储介质
US20190094858A1 (en) * 2017-09-25 2019-03-28 Uber Technologies, Inc. Parking Location Prediction
US10169679B1 (en) * 2017-10-13 2019-01-01 StradVision, Inc. Learning method and learning device for adjusting parameters of CNN by using loss augmentation and testing method and testing device using the same
US10223610B1 (en) * 2017-10-15 2019-03-05 International Business Machines Corporation System and method for detection and classification of findings in images
EP3622520A1 (en) * 2017-10-16 2020-03-18 Illumina, Inc. Deep learning-based techniques for training deep convolutional neural networks

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160035078A1 (en) * 2014-07-30 2016-02-04 Adobe Systems Incorporated Image assessment using deep convolutional neural networks
US20170124409A1 (en) * 2015-11-04 2017-05-04 Nec Laboratories America, Inc. Cascaded neural network with scale dependent pooling for object detection
WO2018003212A1 (ja) * 2016-06-30 2018-01-04 クラリオン株式会社 物体検出装置及び物体検出方法
US20180096457A1 (en) * 2016-09-08 2018-04-05 Carnegie Mellon University Methods and Software For Detecting Objects in Images Using a Multiscale Fast Region-Based Convolutional Neural Network
JP2018084982A (ja) * 2016-11-24 2018-05-31 キヤノン株式会社 画像処理装置、情報処理方法及びプログラム
US9984325B1 (en) * 2017-10-04 2018-05-29 StradVision, Inc. Learning method and learning device for improving performance of CNN by using feature upsampling networks, and testing method and testing device using the same
US10007865B1 (en) * 2017-10-16 2018-06-26 StradVision, Inc. Learning method and learning device for adjusting parameters of CNN by using multi-scale feature maps and testing method and testing device using the same
CN108764292A (zh) * 2018-04-27 2018-11-06 北京大学 基于弱监督信息的深度学习图像目标映射及定位方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SHAOQING REN ET AL: "Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks", pages 1137 *

Also Published As

Publication number Publication date
EP3686800B1 (en) 2024-06-19
US10387754B1 (en) 2019-08-20
EP3686800A1 (en) 2020-07-29
KR102338750B1 (ko) 2021-12-15
JP6858382B2 (ja) 2021-04-14
JP2020119539A (ja) 2020-08-06
EP3686800C0 (en) 2024-06-19
CN111476262B (zh) 2023-08-15
KR20200091793A (ko) 2020-07-31

Similar Documents

Publication Publication Date Title
CN111476262A (zh) 利用1xH卷积的基于CNN的对象检测方法及装置
CN111476342B (zh) 利用了1xH卷积的CNN方法及装置
CN107316066B (zh) 基于多通路卷积神经网络的图像分类方法及系统
CN111507335A (zh) 自动标注利用于深度学习网络的训练图像的方法和装置
CN111476248B (zh) 利用用于识别图像的1x1卷积的CNN方法及装置
CN111476247B (zh) 利用了1xK或Kx1卷积运算的CNN方法及装置
US10430691B1 (en) Learning method and learning device for object detector based on CNN, adaptable to customers' requirements such as key performance index, using target object merging network and target region estimating network, and testing method and testing device using the same to be used for multi-camera or surround view monitoring
EP3686795B1 (en) Learning method and learning device for improving segmentation performance to be used for detecting events including pedestrian event, vehicle event, falling event and fallen event using edge loss and test method and test device using the same
KR102326238B1 (ko) 핵심 성능 지수를 만족시킬 수 있는 하드웨어 최적화가 이루어지도록, cnn에서 복수의 블록 내의 입력 이미지로부터 특징을 추출하는 학습 방법 및 학습 장치, 이를 이용한 테스트 방법 및 테스트 장치
EP3686807A2 (en) Learning method and learning device for object detector to be used for surveillance based on convolutional neural network capable of converting modes according to scales of objects, and testing method and testing device using the same
CN111476075B (zh) 利用1x1卷积的基于CNN的客体检测方法及装置
CN114494893B (zh) 基于语义重用上下文特征金字塔的遥感图像特征提取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant