CN111488871B - 可转换模式的基于r-cnn的用于监视的方法和装置 - Google Patents

可转换模式的基于r-cnn的用于监视的方法和装置 Download PDF

Info

Publication number
CN111488871B
CN111488871B CN201911055354.5A CN201911055354A CN111488871B CN 111488871 B CN111488871 B CN 111488871B CN 201911055354 A CN201911055354 A CN 201911055354A CN 111488871 B CN111488871 B CN 111488871B
Authority
CN
China
Prior art keywords
region
learning
interest
test
pooling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911055354.5A
Other languages
English (en)
Other versions
CN111488871A (zh
Inventor
金桂贤
金镕重
金寅洙
金鹤京
南云铉
夫硕焄
成明哲
吕东勋
柳宇宙
张泰雄
郑景中
诸泓模
赵浩辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Stradvision Inc
Original Assignee
Stradvision Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Stradvision Inc filed Critical Stradvision Inc
Publication of CN111488871A publication Critical patent/CN111488871A/zh
Application granted granted Critical
Publication of CN111488871B publication Critical patent/CN111488871B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/15Correlation function computation including computation of convolution operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/40Scaling the whole image or part thereof
    • G06T3/4046Scaling the whole image or part thereof using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/759Region-based matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle

Abstract

本发明提供可转换模式的基于R‑CNN的用于监视的方法和装置。提供一种基于R‑CNN(Region‑based Convolutional Neural Network)的对象检测器(Object Detector)的学习方法,包括信号灯等的对象的纵横比和尺度可以根据例如距对象检测器的距离、对象的形状等特性来确定,学习方法的特征在于,包括如下步骤:学习装置使区域建议网络生成候选感兴趣区域的步骤;使池化层输出特征向量的步骤;以及通过反向传播学习FC层和卷积层的步骤,在本方法中,池化处理可以利用由雷达、激光雷达(Lidar)或其他传感器获得的距离信息和对象信息并按照对象的实际比例和实际尺寸来执行,学习方法和测试方法在特定位置的同一视图中具有相似的大小,因此可以用于监视。

Description

可转换模式的基于R-CNN的用于监视的方法和装置
技术领域
本发明涉及一种学习基于R-CNN(Region-based Convolutional NeuralNetwork;基于区域的卷积神经网络)的对象检测器(Object Detector)的方法和测试方法、以及利用其的学习装置和测试装置,更加具体来说,在学习基于R-CNN的对象检测器的方法中,包括以下步骤:(a)学习装置使至少一个卷积层对至少一个训练图像执行至少一次卷积运算,以输出至少一个特征映射,并且使区域建议网络(Region Proposal Network;RPN)(i)在所述特征映射上利用多个锚框生成与在所述训练图像中估计存在至少一个对象的候选区域对应的候选感兴趣区域(Region of Interest;ROI),所述多个锚框由规模和纵横比(Aspect Ratio)中的至少一部分来区分;(ii)将判断为所述对象存在的概率高的特定候选感兴趣区域作为感兴趣区域建议来输出;(b)所述学习装置(i)将所述感兴趣区域建议输入到与各池化尺寸相对应的各池化层,所述各池化尺寸与用于生成所述感兴趣区域建议的各特定锚框相对应地设定;(ii)使所述各池化层根据与其对应的池化尺寸在所述特征映射上池化与所述感兴趣区域建议对应的区域,输出与其对应的特征向量;(iii)使与所述各池化层对应的各全连接层利用所述各特征向量来输出与所述各感兴趣区域建议对应的各对象类别信息和各对象回归信息;以及(c)所述学习装置使与所述各全连接层对应的各对象损失层参考所述各对象类别信息和所述各对象回归信息以及与其对应的各对象地面实况来计算各对象类别损失和各对象回归损失,从而通过利用所述各对象类别损失和所述各对象回归损失的反向传播来学习所述各全连接层和所述卷积层。
背景技术
在机器学习中,CNN或ConvNet(Convolutional Neural Network;卷积神经网络)是一类已成功应用于视觉图像分析中的深度前馈人工神经网络(Deep、Feed-ForwardArtificial Neural Network)。
图1简要示出利用以往的利用R-CNN的对象检测器的测试方法。
首先,如图1所示的测试装置获取RGB图像101,并将其输入到卷积块所包含的至少一个卷积层102、即卷积滤波器中。随着通过卷积层,RGB图像的宽度和高度变小,但通道数量增加。
接下来,测试装置使特征映射103通过已学习的区域建议网络(Region ProposalNetwork)104,以生成感兴趣区域105,并且使池化层106对在特征映射上与感兴趣区域105对应的区域执行最大池化(Max Pooling)运算或平均池化(Average Pooling)运算之一,调整包含在所述区域中的像素数据的大小,并且参考所述调整大小后的特征映射来输出特征向量。
接下来,测试装置可以将特征向量输入到已学习的FC(Fully Connected;全连接)层108,通过分类(Classification)等操作来确定被输入的RGB图像上的对象的种类,并且利用全连接层在被输入的RGB图像上生成边界框。
根据利用这种以往的利用R-CNN检测对象的方法,利用锚框获得感兴趣区域建议。在这里,由于对象的大小和形状各不相同,因此为了更好地找到它们,锚框具有各种尺度(Scale)和纵横比(Aspect Ratio)。
但是,池化层在池化特征映射的过程中,没有考虑各种对象的大小和形状,而仅以单一尺度和单一纵横比来进行池化运算。因此,这种方法不能准确地检测对象。
发明内容
本发明所要解决的课题
本发明的目的在于,解决上述问题。
本发明的另一目的在于,提供一种与对象的大小和形状无关地能够准确地检测的基于R-CNN的对象检测器。
本发明的又一目的在于,提供一种与以往的技术相比能够在不增加运算量或不降低运算速度的情况下更准确地检测对象的基于R-CNN的对象检测器。
用于解决问题的手段
为了实现如上所述本发明的目的,并实现后述的本发明的特征效果,本发明的特征结构如下。
根据本发明的一个方式,一种学习方法,用于学习基于R-CNN的对象检测器,其特征在于,包括以下步骤:(a)学习装置使至少一个卷积层对至少一个训练图像执行至少一次卷积运算,以输出至少一个特征映射,并且使区域建议网络(i)在所述特征映射上利用多个锚框生成与在所述训练图像中估计存在至少一个对象的候选区域对应的候选感兴趣区域,所述多个锚框由尺度和纵横比中的至少一部分来区分;(ii)将判断为所述对象存在的概率高的特定候选感兴趣区域作为感兴趣区域建议输出;(b)所述学习装置(i)将所述感兴趣区域建议输入到与各池化尺寸相对应的各池化层,所述各池化尺寸与用于生成所述感兴趣区域建议的各特定锚框相对应地设定;(ii)使所述各池化层根据与其对应的池化尺寸在所述特征映射上池化与所述感兴趣区域建议对应的区域,并输出与其对应的特征向量;(iii)使与所述各池化层对应的各全连接层利用所述各特征向量来输出与所述各感兴趣区域建议对应的各对象类别信息和各对象回归信息;以及(c)所述学习装置使与所述各全连接层对应的各对象损失层参考所述各对象类别信息和所述各对象回归信息以及与其对应的各对象地面实况来计算各对象类别损失和各对象回归损失,从而通过利用所述各对象类别损失和所述各对象回归损失的反向传播来学习所述各全连接层和所述卷积层。
在一个实施例中,其特征在于,所述学习装置使区域建议网络损失层参考(i)所述候选感兴趣区域的感兴趣区域类别信息和感兴趣区域回归信息以及(ii)与其对应的各感兴趣区域地面实况,计算各感兴趣区域类别损失和各感兴趣区域回归损失,所述学习装置通过执行利用所述各感兴趣区域类别损失和所述各感兴趣区域回归损失的反向传播来学习所述区域建议网络。
在一个实施例中,其特征在于,所述学习装置分开执行(i)利用所述各对象类别损失和所述各对象回归损失的反向传播和(ii)利用所述各感兴趣区域类别损失和所述各感兴趣区域回归损失的反向传播。
在一个实施例中,其特征在于,在所述步骤(a)之前,所述学习装置处于下述处理的状态,所述处理已完成通过利用各感兴趣区域类别损失和各感兴趣区域回归损失的反向传播来学习所述区域建议网络的过程,所述各感兴趣区域类别损失和各感兴趣区域回归损失是分别参考(i)所述候选感兴趣区域的感兴趣区域类别信息和感兴趣区域回归信息、以及(ii)与其对应的感兴趣区域地面实况来计算出的。
在一个实施例中,其特征在于,所述各池化尺寸与所述特定锚框的所述纵横比对应。
在一个实施例中,其特征在于,所述各池化尺寸与所述特定锚框的所述尺度对应。
在一个实施例中,其特征在于,所述各池化尺寸与要检测的所述对象的形状对应。
在一个实施例中,其特征在于,所述各池化尺寸与所述特定锚框各自的尺寸对应。
根据本发明的另一个方式,提供一种测试方法,用于测试基于R-CNN的对象检测器,其特征在于,包括以下步骤:(a)在学习装置执行以下处理:(I)使至少一个卷积层对至少一个训练图像执行至少一次卷积运算,以输出至少一个学习用特征映射,并且使区域建议网络(i)在所述学习用特征映射上利用多个学习用锚框生成与在所述训练图像中估计存在至少一个学习用对象的候选区域对应的学习用候选感兴趣区域,所述多个学习用锚框由的尺度和纵横比中的至少一部分来区分;(ii)将判断为所述学习用对象存在的概率高的特定学习用候选感兴趣区域作为学习用感兴趣区域建议来输出;(II)(i)将所述学习用感兴趣区域建议输入到对应于与各特定学习用锚框对应地设定的各池化尺寸的各池化层,所述各特定学习用锚框用于生成所述学习用感兴趣区域建议;(ii)使所述各池化层根据与其对应的池化尺寸在所述学习用特征映射上池化与所述学习用感兴趣区域建议对应的区域,输出与其对应的学习用特征向量;(iii)使与所述各池化层对应的各全连接层利用所述各学习用特征向量来输出与所述各学习用感兴趣区域建议对应的各学习用对象类别信息和各学习用对象回归信息;以及(III)使与所述各全连接层对应的各对象损失层参考所述各学习用对象类别信息、所述各学习用对象回归信息和与其对应的各对象地面实况来计算各对象类别损失和各对象回归损失,并通过利用所述各对象类别损失和所述各对象回归损失的反向传播来学习所述各全连接层和所述卷积层的状态下,测试装置使所述卷积层对至少一个测试图像执行至少一次卷积运算,以输出至少一个测试用特征映射,并且使所述区域建议网络(i)在所述测试用特征映射上利用测试用锚框生成与在所述测试图像中估计存在至少一个测试用对象的候选区域对应的测试用候选感兴趣区域,所述测试用锚框由尺度和纵横比中的至少一部分来区分;(ii)将判断为所述测试用对象存在的概率高的特定测试用候选感兴趣区域作为测试用感兴趣区域建议来输出;(b)所述测试装置(i)将所述测试用感兴趣区域建议输入到对应于与各特定测试用锚框对应地设定的各池化尺寸的各池化层,所述各特定测试用锚框用于生成所述测试用感兴趣区域建议;(ii)使所述各池化层根据与其对应的池化尺寸在所述测试用特征映射上池化与所述测试用感兴趣区域建议对应的区域,输出与其对应的测试用特征向量;(iii)使与所述各池化层对应的所述各全连接层利用所述各测试用特征向量来输出与所述各测试用感兴趣区域建议对应的各测试用对象类别信息和各测试用对象回归信息。
在一个实施例中,其特征在于,所述处理(I)之前,所述学习装置处于已完成下述处理的状态,所述处理分别通过利用各感兴趣区域类别损失和感兴趣区域回归损失的反向传播来学习所述区域建议网络,所述各感兴趣区域类别损失和各感兴趣区域回归损失是参考(i)所述学习用候选感兴趣区域的学习用感兴趣区域类别信息和学习用感兴趣区域回归信息、以及(ii)与其对应的各感兴趣区域地面实况来计算出的。
在一个实施例中,其特征在于,所述各池化尺寸与所述特定测试用锚框的所述纵横比对应。
在一个实施例中,其特征在于,所述各池化尺寸与所述特定测试用锚框的所述尺度对应。
在一个实施例中,其特征在于,所述各池化尺寸与要检测的所述测试用对象的形状对应。
在一个实施例中,其特征在于,所述各池化尺寸与所述特定测试用锚框各自的尺寸对应。
根据本发明的又一个方式,提供一种学习装置,用于学习基于R-CNN的对象检测器,其特征在于,包括:至少一个存储器,用于存储指令;以及至少一个处理器,被构成为执行所述指令,所述指令用于执行以下处理:(I)使至少一个卷积层对至少一个训练图像执行至少一次卷积运算,以输出至少一个特征映射,并且使区域建议网络(i)在所述特征映射上利用多个锚框生成与在所述训练图像中估计存在至少一个对象的候选区域对应的候选感兴趣区域,所述多个锚框由尺度和纵横比中的至少一部分来区分;(ii)将判断为所述对象存在的概率高的特定候选感兴趣区域作为感兴趣区域建议输出;(II)(i)将所述感兴趣区域建议输入到与各池化尺寸相对应的各池化层,所述各池化尺寸与用于生成所述感兴趣区域建议的各特定锚框相对应地设定;(ii)使所述各池化层根据与其对应的池化尺寸在所述特征映射上池化与所述感兴趣区域建议对应的区域,输出与其对应的特征向量;(iii)使与所述各池化层对应的各全连接层利用所述各特征向量来输出与所述各感兴趣区域建议对应的各对象类别信息和各对象回归信息;以及(III)使与所述各全连接层对应的各对象损失层参考所述各对象类别信息和所述各对象回归信息以及与其对应的各对象地面实况来计算各对象类别损失和各对象回归损失,并通过利用所述各对象类别损失和所述各对象回归损失的反向传播来学习所述各全连接层和所述卷积层。
在一个实施例中,其特征在于,所述处理器使区域建议网络损失层参考(i)所述候选感兴趣区域的感兴趣区域类别信息和感兴趣区域回归信息以及(ii)与其对应的各感兴趣区域地面实况,计算各感兴趣区域类别损失和各感兴趣区域回归损失,所述处理器通过执行利用所述各感兴趣区域类别损失和所述各感兴趣区域回归损失的反向传播来学习所述区域建议网络。
在一个实施例中,其特征在于,所述处理器分开执行(i)利用所述各对象类别损失和所述各对象回归损失的反向传播和(ii)利用所述各感兴趣区域类别损失和所述各感兴趣区域回归损失的反向传播。
在一个实施例中,其特征在于,在所述处理(I)之前,所述处理器处于已完成下述处理的状态,所述处理通过利用各感兴趣区域类别损失和各感兴趣区域回归损失的反向传播来学习所述区域建议网络,所述各感兴趣区域类别损失和各感兴趣区域回归损失是分别参考(i)所述候选感兴趣区域的感兴趣区域类别信息和感兴趣区域回归信息、以及(ii)与其对应的感兴趣区域地面实况来计算出的。
在一个实施例中,其特征在于,所述各池化尺寸与所述特定测试用锚框的所述纵横比对应。
在一个实施例中,其特征在于,所述各池化尺寸与所述特定测试用锚框的所述尺度对应。
在一个实施例中,其特征在于,所述各池化尺寸与要检测的所述测试用对象的形状对应。
在一个实施例中,其特征在于,所述各池化尺寸与所述特定测试用锚框各自的尺寸对应。
根据本发明的又一个方式,提供一种测试装置,用于测试基于R-CNN的对象检测器,其特征在于,包括:至少一个存储器,用于存储指令;以及至少一个处理器,被设定为执行指令,所述指令用于在使学习装置执行下述处理(I)至(III)的状态下,所述测试装置执行处理(1)以及(2),其中,处理(I)至(III)如下:(I)使至少一个卷积层对至少一个训练图像执行至少一次卷积运算,以输出至少一个学习用特征映射,并且使区域建议网络(i)在所述学习用特征映射上利用多个学习用锚框生成与在所述训练图像中估计存在至少一个学习用对象的候选区域对应的学习用候选感兴趣区域,所述多个学习用锚框由尺度和纵横比中的至少一部分来区分;(ii)将判断为所述学习用对象存在的概率高的特定学习用候选感兴趣区域作为学习用感兴趣区域建议来输出;(II)(i)将所述学习用感兴趣区域建议输入到对应于与各特定学习用锚框相对应地设定的各池化尺寸的各池化层,所述各特定学习用锚框用于生成所述学习用感兴趣区域建议;(ii)使所述各池化层根据与其对应的池化尺寸在所述学习用特征映射上池化与所述学习用感兴趣区域建议对应的区域,输出与其对应的学习用特征向量;(iii)使与所述各池化层对应的各全连接层利用所述各学习用特征向量来输出与所述各学习用感兴趣区域建议对应的各学习用对象类别信息和各学习用对象回归信息;以及(III)使与所述各全连接层对应的各对象损失层参考所述各学习用对象类别信息和所述各学习用对象回归信息以及与其对应的各对象地面实况来计算各对象类别损失和各对象回归损失,从而通过利用所述各对象类别损失和所述各对象回归损失的反向传播来学习所述各全连接层和所述卷积层,处理(1)以及(2)如下:(1)使所述卷积层对至少一个测试图像执行至少一次卷积运算,以输出至少一个测试用特征映射,并且使所述区域建议网络(i)在所述测试用特征映射上利用测试用锚框生成与在所述测试图像中估计存在至少一个测试用对象的候选区域对应的测试用候选感兴趣区域,所述测试用锚框由尺度和纵横比中的至少一部分来区分;(ii)将判断为所述测试用对象存在的概率高的特定测试用候选感兴趣区域作为测试用感兴趣区域建议来输出;以及(2)(i)将所述测试用感兴趣区域建议输入到对应于与各特定测试用锚框对应地设定的各池化尺寸的各池化层,所述各特定测试用锚框用于生成所述测试用感兴趣区域建议;(ii)使所述各池化层根据与其对应的池化尺寸在所述测试用特征映射上池化与所述测试用感兴趣区域建议对应的区域,输出与其对应的测试用特征向量;(iii)使与所述各池化层对应的所述各全连接层利用所述各测试用特征向量来输出与所述各测试用感兴趣区域建议对应的各测试用对象类别信息和各测试用对象回归信息。
在一个实施例中,其特征在于,在所述处理(I)之前,所述学习装置已经完成下述处理,所述处理通过利用各感兴趣区域类别损失和各感兴趣区域回归损失的反向传播来学习所述区域建议网络,所述各感兴趣区域类别损失和各感兴趣区域回归损失是参考(i)所述学习用候选感兴趣区域的学习用感兴趣区域类别信息和学习用感兴趣区域回归信息、以及(ii)与其对应的各感兴趣区域地面实况来计算出的。
在一个实施例中,其特征在于,所述各池化尺寸与所述特定测试用锚框的所述纵横比对应。
在一个实施例中,其特征在于,所述各池化尺寸与所述特定测试用锚框的所述尺度对应。
在一个实施例中,其特征在于,所述各池化尺寸与要检测的所述测试用对象的形状对应。
在一个实施例中,其特征在于,所述各池化尺寸与所述特定测试用锚框各自的尺寸对应。
除此之外,还提供了用于记录用于执行本发明的方法的计算机程序的计算机可读记录介质。
发明效果
与以往的技术相比,本发明具有如下效果:通过在基于R-CNN的对象检测器中根据用于ROI建议的锚框的信息来池化特征映射上的区域,从而能够更准确地检测对象。
另外,与以往的技术相比,本发明具有如下另一效果:通过在基于R-CNN的对象检测器中根据用于ROI建议的锚框的信息来池化特征映射上的区域,从而与对象的形状和大小无关地更准确地检测对象。
另外,与以往的技术相比,本发明具有如下又一效果:通过基于R-CNN的对象检测器中利用与以往的技术相同数量的ROI建议,因此不需增加运算量或不降低运算速度的情况下能够更准确地检测对象。
附图说明
本发明的实施例的说明中所用的以下附图仅仅是本发明实施例中的一部分,本领域技术人员在不进行发明操作的情况下,也能够根据这些附图来得出其他附图。
图1简要示出根据以往的技术的基于R-CNN的对象检测器的测试装置;
图2简要示出根据本发明的一实施例的学习基于R-CNN的对象检测器的学习装置;
图3简要示出根据本发明的一实施例的学习基于R-CNN的对象检测器的方法;
图4简要示出根据本发明的一实施例的基于R-CNN的对象检测器中的RPN中的锚框;
图5简要示出根据本发明的一实施例的测试基于R-CNN的对象检测器的测试装置;
图6简要示出根据本发明的一实施例的测试基于R-CNN的对象检测器的方法。
具体实施方式
后述的针对本发明的详细描述参考附图,该附图是例示出为了明确本发明的目的、技术方案以及优点而能够实施本发明的特定实施例。这些实施例被详细说明以使本领域技术人员足以实施本发明。
另外,在本发明的整个说明书和权利要求书中,词语“包括”及其变形并不旨在排除其他技术特征、附加物、构成要素或步骤等。对于本领域技术人员来说,本发明的其他目的、优点和特征的一部分可以从本说明书中得出、其他一部分从本发明的实施中得出。以下示例和附图是以示例的方式提供的,并不旨在限制本发明。
本发明中提到的各种图像可以包括与铺砌或未铺砌道路相关的图像,并且在这种情况下,可以包括可能出现在道路环境中的对象(例如,如汽车、人、动物、植物、物体、建筑物、飞机或无人机那样的飞行物、其他障碍物),但并不限于此,并且本发明中提到的各种图像可以是与道路无关的图像(例如,与未铺砌道路、小巷、空地、海洋、湖泊、河流、山脉、森林、沙漠、天空、室内相关的图像),在这种情况下,可以象征可能出现在未铺砌道路、小巷、空地、海洋、湖泊、河流、山脉、森林、沙漠、天空、室内环境中的对象(例如,如汽车、人、动物、植物、物体、建筑物、飞机或无人机那样的飞行物、其他障碍物),但并不限于此。
以下,为了使本领域技术人员能够容易地实施本发明,参考附图详细描述本发明的优选实施例。
图2简要示出根据本发明的一实施例的学习基于R-CNN的对象检测器的学习装置100,参考图2,学习装置100可以包括通讯部110和处理器120。
另外,学习装置还可以包括存储器115,能够存储用于执行以下处理的计算机可读指令(Instruction)。根据一实施例,处理器、存储器、介质等可以被集成为集成处理器(Integrated Processor)。
首先,通讯部110可以接收至少一个训练图像。
此时,训练图像可以存储在数据库130中,并且在数据库130中可以存储GT(GroundTruth;地面实况),该GT与关于训练图像中所包含的各对象的类别信息和位置信息有关。
处理器120使至少一个卷积层对训练图像执行至少一次卷积运算,以输出至少一个特征映射,并且使区域建议网络(RPN)(i)在特征映射上利用多个锚框生成与在训练图像中估计存在至少一个对象的候选区域对应的候选ROI,该多个锚框由尺度和纵横比(AspectRatio)中的至少一部分来区分;(ii)将判断为对象存在的概率高的特定候选ROI作为ROI建议来输出。此时,上面提及的“概率高”可以表示各概率大于或等于已设定的阈值。然后,处理器120(i)将ROI建议输入到与各池化尺寸对应的各池化层,该各池化尺寸与用于生成ROI建议的各特定锚框相对应地设定;(ii)使各池化层在特征映射上将与ROI建议对应的区域池化为与特征映射对应的池化尺寸,输出与其对应的特征向量;(iii)使与各池化层对应的各FC层利用各特征向量来输出与各ROI建议对应的各对象类别信息和各对象回归信息。之后,处理器120可以使与各FC层对应的各对象损失层参考各对象类别信息和各对象回归信息以及与其对应的各对象GT,并通过利用各对象类别损失和各对象回归损失的反向传播来学习各FC层和卷积层。
另外,学习装置100使区域建议网络损失层参考(i)候选ROI的ROI类别信息和ROI回归信息以及(ii)与其对应的各ROIGT计算各ROI类别损失和各ROI回归损失。然后,学习装置可以执行利用各ROI类别损失和各ROI回归损失的反向传播来学习区域建议网络。
在这里,学习装置100可以分开执行(i)利用各对象类别损失和各对象回归损失的反向传播,以及(ii)利用各ROI类别损失和各ROI回归损失的反向传播。
根据本发明的一实施例的学习装置100是计算装置,只要搭载有处理器并具有运算能力的装置就可以用作本发明所涉及的学习装置100。另外,在图2中仅示出了一个学习装置100,但并不限于此,学习装置可以分为多个来发挥作用。
参考图3来说明利用如上所述构成的本发明的一实施例涉及的学习装置100来学习基于R-CNN的对象检测器的方法。
首先,如果输入训练图像,则学习装置100使至少一个卷积层121对训练图像执行至少一次卷积运算,以输出至少一个特征映射。此时,卷积层121可以包括多个卷积单元(Convolutional Unit),以便对训练图像依次执行卷积运算。
然后,学习装置100使区域建议网络(RPN)122(i)在特征映射上利用多个锚框生成与在训练图像中估计存在对象的候选区域对应的候选ROI,该多个锚框由尺度和纵横比中的至少一部分来区分;(ii)将判断为位于的概率高的特定候选ROI作为ROI建议输出。
作为一例,参考图4,锚框可以通过尺度(S1、S2、S3)和纵横比(AR1、AR2、AR3)定义为九个,但并不限于此,可以通过尺度和纵横比的组合来定义为各种数量。然后,学习装置100使已设定大小的滑动窗口在特征映射上移动,并且对与移动的滑动窗口的各位置对应的特征映射上的各区域执行至少一次卷积运算,生成已设定大小的特征映射。然后,将生成的特征映射输入到ROI分类层和ROI回归层。此时,图4中所示的特征映射包含各特征。然后,学习装置100使ROI分类输出通过参考移动的滑动窗口的各中心来确定的关于各锚框的ROI类别信息,并且使ROI回归层输出通过参考移动的滑动窗口的各中心来确定的关于各锚框的ROI回归信息。之后,学习装置100参考ROI类别信息和ROI回归信息,将各特定锚框选择为候选ROI,该特定锚框具有IOU(Intersection Over Union,交并比)大于或等于已设定的第一值,并且在移动的各滑动窗口区域中具有最高的IOU。此时,IOU可以利用正GT(PositiveGT)来计算。另一方面,学习装置100可以将IOU小于已设定的第二值的其他锚框视为非正(Non-Positive)锚点。
接下来,学习装置100确定对应于各池化尺寸的各池化层(123-1、123-2、…、123-n),该各池化尺寸与用于生成ROI建议的各特定锚框对应地设定。
此时,各池化尺寸可以与特定锚框的纵横比或特定锚框的尺度对应。另外,各池化尺寸可以与要检测的对象的形状对应。除此之外,各池化尺寸可以与特定锚框各自的大小对应。此时,特定锚框各自的大小可以通过纵横比和尺度的组合来决定。
作为一例,参考图4,当使各池化尺寸对应于特定锚框的纵横比时,池化尺寸可以设定为(i)(纵横比:AR1、尺度:S1)锚框尺寸、(纵横比:AR2、尺度:S1)锚框尺寸以及(纵横比:AR3、尺度:S1)锚框尺寸;或者(ii)(纵横比:AR1、尺度:S2)锚框尺寸、(纵横比:AR2、尺度:S2)锚框尺寸以及(纵横比:AR3、尺度:S2)锚框尺寸;或者(iii)(纵横比:AR1、尺度:S3)锚框尺寸、(纵横比:AR2、尺度:S3)锚框尺寸以及(纵横比:AR3、尺度:S3)锚框尺寸。如果将(i)(纵横比:AR1、尺度:S1)锚框尺寸、(纵横比:AR2、尺度:S1)锚框尺寸以及(纵横比:AR3、尺度:S1)锚框尺寸作为各池化尺寸时,其他尺度(S2、S3)的各锚框可以与尺度无关地设定为对应于与该纵横比对应的各池化尺寸。即,(AR1、S2)锚框和(AR1、S3)锚框各自的池化尺寸可以设定为(AR1、S1)锚框的池化尺寸,(AR2、S2)锚框和(AR2、S3)锚框各自的池化尺寸可以设定为(AR2、S1)锚框的池化尺寸,(AR3、S2)锚框和(AR3、S3)锚框各自的池化尺寸可以设定为(AR3、S1)锚框的池化尺寸。
然后,当将各池化尺寸设定为与特定锚框的尺度对应时,池化尺寸可以设定为(i)(AR1、S1)锚框尺寸、(AR1、S2)锚框尺寸以及(AR1、S3)锚框尺寸;或者(ii)(AR2、S1)锚框尺寸、(AR2、S2)锚框尺寸以及(AR2、S2)锚框尺寸;或者(iii)(AR3、S1)锚框尺寸、(AR3、S2)锚框尺寸以及(AR3、S3)锚框尺寸。
另外,当使各池化尺寸与特定锚框的纵横比和尺度均对应时,池化尺寸也可以设定为(AR1、S1)锚框尺寸、(AR2、S2)锚框尺寸以及(AR3、S3)锚框尺寸。
除此之外,可以使各池化尺寸与锚框各自的大小对应。即,例如纵横比分别为1、1/2、2且尺度分别为1、2、3时,各锚框尺寸可以为1x1、2x1、1x2、2x2、4x2、2x4、3x3、6x3、3x6,可以将各池化尺寸设定为与各锚框尺寸相同。
但是,与锚框对应的所述池化尺寸的设定仅是例示性的,本发明不限于此,可以通过各种要素的各种组合来设定池化尺寸。
然后,学习装置100将ROI建议输入到与各池化尺寸对应的池化层(123-1、123-2、…、123-n)中,使各池化层(123-1、123-2、…、123-n)将在特征映射上与ROI建议对应的区域池化为与特征映射对应的池化尺寸,以输出与其对应的特征向量。
接下来,学习装置100使与各池化层(123-1、123-2、…、123-n)对应的各FC层(124-1、124-2、…、124-n)利用各特征向量来输出与各ROI建议对应的各对象类别信息(125-1、125-2、…、125-n)和各对象回归信息(126-1、126-2、…、126-n)。
接下来,学习装置100使与各FC层(124-1、124-2、…、124-n)对应的各对象损失层(127-1、127-2、…、127-n)参考各对象类别信息(125-1、125-2、…、125-n)、各对象回归信息(126-1、126-2、…、126-n)以及与其对应的各对象GT来计算各对象类别损失和各对象回归损失,从而通过利用了各对象类别损失和各对象回归损失的反向传播来学习各FC层(124-1、124-2、…、124-n)和卷积层121。
作为一例,学习装置100通过利用与第一对象损失层(127-1)对应的第一对象类别损失和第一对象回归损失的反向传播来学习第一FC层(124-1)和卷积层121,并且通过利用与第二对象损失层(127-2)对应的第二对象类别损失和第二对象回归损失的反向传播来学习第二FC层(124-2)和卷积层121。通过相同的方法,学习装置100通过利用与第n损失层(127-n)对应的第n对象类别损失和第n对象回归损失的反向传播来学习第n FC层(124-n)和卷积层121。
另外,学习装置100使与区域建议网络(RPN)122对应的RPN损失层128参考(i)各候选ROI的ROI回归信息和ROI类别信息以及(ii)与其对应的各ROI GT来计算各ROI类别损失和各ROI回归损失,学习装置100可以通过执行利用了各ROI类别损失和各ROI回归损失的反向传播来学习区域建议网络122。在这里,学习装置100分开执行(i)利用各对象类别损失和各对象回归损失的反向传播、以及(ii)利用各ROI类别损失和各ROI回归损失的反向传播。另外,学习装置100可以是通过利用各ROI类别损失和各ROI回归损失的反向传播来已预先学习了区域建议网络122的状态。
图5简要示出根据本发明的一实施例的用于测试基于R-CNN的对象检测器的测试装置200,参考图5,测试装置200可以包括通讯部210和处理器220。
另外,测试装置还可以包括存储器115,能够存储用于执行以下处理的计算机可读指令(Instruction)。根据一实施例,处理器、存储器、介质等可以被集成为集成处理器(Integrated Processor)。
首先,通讯部210可以获取至少一个测试图像。
此时,根据本发明的一实施例的基于R-CNN的对象检测器可以是通过参考图2至图4说明的学习方法已预先学习的状态。
作为参考,在图5中的测试装置的附图标记221、222、223、224、225和226表示与图3中的学习装置的附图标记121、122、123、124、125和126所表示的部分相同的部分。此外,为了避免在以下描述中的混淆,对于与上述说明的学习过程有关的术语添加术语“学习用”,并且对于与测试过程有关的术语添加术语“测试用”。
也就是说,(I)学习装置100可以是如下状态:使至少一个卷积层221对训练图像执行至少一次卷积运算,以输出至少一个学习用特征映射,并且使区域建议网络(RPN)222(i)在学习用特征映射上利用多个学习用锚框生成与在训练图像中估计存在至少一个学习用对象的候选区域对应的学习用候选ROI区域,该多个学习用锚框由尺度和纵横比中的至少一部分来区分;(ii)将判断为学习用对象存在的概率高的特定学习用候选ROI作为学习用ROI建议来输出;(II)学习装置100(i)将学习用ROI建议输入到对应于各池化尺寸的各池化层(223-1、223-2、…、223-n),该各池化尺寸与用于生成学习用ROI建议的各特定学习用锚框对应地设定;(ii)使各池化层(223-1、223-2、…、223-n)将在学习用特征映射上与学习用ROI建议对应的区域池化为与学习用特征映射对应的池化尺寸,输出与其对应的学习用特征向量;(iii)使与各池化层(223-1、223-2、…、223-n)对应的各FC层(224-1、224-2、…、224-n)利用各学习用特征向量来输出与各学习用ROI建议对应的各学习用对象类别信息(225-1、225-2、…、225-n)和各学习用对象回归信息(226-1、226-2、…、226-n);以及(III)学习装置100使与各FC层(224-1、224-2、…、224-n)对应的各对象损失层(127-1、127-2、…、127-n)参考各学习用对象类别信息(225-1、225-2、…、225-n)、学习用对象回归信息(226-1、226-2、…、226-n)以及与其对应的各对象GT,计算各对象类别损失和各对象回归损失,从而通过利用了各对象类别损失和各对象回归损失的反向传播来学习各FC层(224-1、224-2、…、224-n)和卷积层221。
处理器220可以执行以下处理:(I)第一处理,使卷积层221对至少一个测试图像执行至少一次卷积运算,以输出至少一个测试用特征映射,并且使区域建议网络222(i)在测试用特征映射上利用多个测试用锚框生成与在测试图像中估计存在至少一个测试用对象的候选区域对应的测试用候选ROI,该多个测试用锚框由尺度和纵横比中的至少一部分来区分;(ii)将判断为测试用对象存在的概率高的特定测试用候选ROI作为测试用ROI建议来输出;以及(II)第二处理,(i)将测试用ROI建议输入到对应于各池化尺寸的各池化层(223-1、223-2、…、223-n),该各池化尺寸与用于生成测试用ROI建议的各特定测试用锚框对应地设定;(ii)使各池化层(223-1、223-2、…、223-n)在测试用特征映射上将与测试用ROI建议对应的区域池化为与测试用特征映射对应地池化尺寸,以输出各测试用特征向量;(iii)使与各池化层(223-1、223-2、…、223-n)对应的各FC层(224-1、224-2、…、224-n)利用各测试用特征向量来输出与各测试用ROI建议对应的各测试用对象类别信息(225-1、225-2、…、225-n)和各测试用对象回归信息(226-1、226-2、…、226-n)。
此时,根据本发明的一实施例的测试装置200是计算装置,只要搭载有处理器并具有运算能力的装置就可以用作本发明涉及的测试装置200。另外,在图5中仅示出了一个测试装置200,但并不限于此,测试装置可以分为多个来发挥作用。
参考图6来说明利用本发明的一实施例涉及的测试装置200测试基于R-CNN的对象检测器的方法。在下面的说明中,将省略从学习方法容易理解的部分的详细说明。
首先,在卷积层221、区域建议网络222和各FC层(224-1、224-2、…、224-n)通过参考图2至图4说明的学习方法已学习建议的状态下,如果输入至少一个测试图像,则测试装置200使卷积层221对测试图像执行至少一次卷积运算,以输出至少一个测试用特征映射。此时,卷积层221可以包括多个卷积单元,以便对测试图像依次执行卷积运算。
然后,测试装置200使区域建议网络(RPN)222(i)在测试用特征映射上利用多个测试用锚框生成与在测试图像中估计存在至少一个测试用对象的候选区域对应的测试用候选ROI,该多个测试用锚框由尺度和纵横比中的至少一部分来区分;(ii)将判断为测试用对象存在的概率高的特定测试用ROI作为测试用ROI建议来输出。
接下来,测试装置200确定对应于各池化尺寸的各池化层(223-1、223-2、…、223-n),该各池化尺寸与用于生成测试用ROI建议的各特定测试用锚框对应地设定。
此时,各池化尺寸可以与特定锚框的纵横比或特定锚框的尺度对应。此外,各池化尺寸可以与要检测的对象的形状对应,或者可以与特定锚框各自的大小对应。
然后,测试装置200将测试用ROI建议输入到与各池化尺寸对应的各池化层(223-1、223-2、…、223-n),使各池化层(223-1、223-2、…、223-n)在测试用特征映射上将与测试用感兴趣区域建议对应的区域池化为与测试用特征映射对应的池化尺寸,以输出各测试用特征向量。
接下来,测试装置200使与各池化层(223-1、223-2、…、223-n)对应的各FC层(224-1、224-2、…、224-n)利用各测试用特征向量来输出与各测试用感兴趣区域建议对应的各测试用对象类别信息(225-1、225-2、…、225-n)和各测试用对象回归信息(226-1、226-2、…、226-n),从而检测位于测试图像中的测试用对象。
R-CNN可以根据对象的纵横比或尺度转换模式。包括信号灯的对象的纵横比和尺度可以根据诸如距对象检测器的距离、对象的形状等特性来决定。根据本发明的池化处理可以利用由雷达、激光雷达(Lidar)或其他传感器获得的距离信息和对象信息,按照对象的实际比例和实际尺寸来执行。另外,在特定位置的同一视图中具有相似的大小,因此学习方法和测试方法可以用于监视。
如本领域技术人员可以理解的那样,上述的图像、例如训练图像、测试图像等的图像数据的发送和接收可以由学习装置和测试装置的通信部来执行,用于执行特征映射和运算的数据可以被保存/保持在学习装置和测试装置的处理器(和/或存储器)中,并且卷积操作、反卷积运算和损失值运算过程主要由学习装置和测试装置的处理器执行,但是本发明不限于此。
另外,所述的根据本发明的实施例可以以程序指令的形式实现,该程序指令可以由各种计算机部件执行,并且可以记录在计算机可读记录介质中。计算机可读记录介质可以单独或组合地包括程序指令、数据文件、数据结构等。记录在计算机可读记录介质上的程序指令可以是为本发明专门设计和配置的程序指令,或者可以是计算机软件领域的技术人员已知并可用的。计算机可读记录介质的示例包括诸如硬盘、软盘和磁带的磁介质、诸如CD-ROM和DVD的光学记录介质,诸如光磁软盘(floptical disk)的磁光介质(magneto-optical media)、以及ROM、RAM、闪存等的特别构成为存储并执行程序指令的硬件装置。程序指令的示例不仅包括由编译器生成的机器代码,还包括可以由计算机利用解释器等执行的高级语言代码。硬件装置可以配置为作为一个或多个软件模块操作来执行根据本发明的处理,反之亦然。
尽管已经通过诸如具体构成要素等的特定部件和有限的实施例和附图来描述了本发明,但这些仅仅是为了更全面地理解本发明而提供的,本发明不限于所述实施例。对于本领域技术人员来说,可以从这些描述中进行各种修改和变更。
因此,本发明的宗旨不应限于上述实施例,并且不仅是后附权利要求,与这些权利要求等同或等价的变形也包括在本发明的宗旨的范围内。
符号说明
100:学习装置
200:测试装置
110、210:通讯部
120、220:处理器
130:数据库

Claims (28)

1.一种学习方法,用于学习基于R-CNN的对象检测器,其特征在于,包括以下步骤:
(a)学习装置使至少一个卷积层对至少一个训练图像执行至少一次卷积运算,以输出至少一个特征映射,并且使区域建议网络(i)在所述特征映射上利用多个锚框生成与在所述训练图像中推定存在至少一个对象的候选区域对应的候选感兴趣区域,所述多个锚框由尺度和纵横比中的至少一部分来区分;(ii)将判断为所述对象存在的概率高的特定候选感兴趣区域作为感兴趣区域建议来输出;
(b)所述学习装置(i)将所述感兴趣区域建议输入到与各池化尺寸相对应的各池化层,所述各池化尺寸与用于生成所述感兴趣区域建议的各特定锚框相对应地设定;(ii)使所述各池化层根据与其对应的池化尺寸在所述特征映射上池化与所述感兴趣区域建议对应的区域,并输出与其对应的特征向量;(iii)使与所述各池化层对应的各全连接层利用各所述特征向量来输出与各所述感兴趣区域建议对应的各对象类别信息和各对象回归信息;以及
(c)所述学习装置使与所述各全连接层对应的各对象损失层参考所述各对象类别信息和所述各对象回归信息以及与其对应的各对象地面实况来计算各对象类别损失和各对象回归损失,并通过利用所述各对象类别损失和所述各对象回归损失的反向传播来学习所述各全连接层和所述卷积层。
2.根据权利要求1所述的学习方法,其特征在于,
所述学习装置使区域建议网络损失层参考(i)所述候选感兴趣区域的感兴趣区域类别信息和感兴趣区域回归信息以及(ii)与其对应的各感兴趣区域地面实况,计算各感兴趣区域类别损失和各感兴趣区域回归损失,
所述学习装置通过执行利用所述各感兴趣区域类别损失和所述各感兴趣区域回归损失的反向传播来学习所述区域建议网络。
3.根据权利要求2所述的学习方法,其特征在于,
所述学习装置分开执行(i)利用所述各对象类别损失和所述各对象回归损失的反向传播和(ii)利用所述各感兴趣区域类别损失和所述各感兴趣区域回归损失的反向传播。
4.根据权利要求1所述的学习方法,其特征在于,
在所述步骤(a)之前,
所述学习装置处于已完成下述处理的状态,所述处理通过利用各感兴趣区域类别损失和各感兴趣区域回归损失的反向传播来学习所述区域建议网络,所述各感兴趣区域类别损失和各感兴趣区域回归损失是分别参考(i)所述候选感兴趣区域的感兴趣区域类别信息和感兴趣区域回归信息、以及(ii)与其对应的感兴趣区域地面实况来计算出的。
5.根据权利要求1所述的学习方法,其特征在于,
所述各池化尺寸与所述特定锚框的所述纵横比对应。
6.根据权利要求1所述的学习方法,其特征在于,
所述各池化尺寸与所述特定锚框的所述尺度对应。
7.根据权利要求1所述的学习方法,其特征在于,
所述各池化尺寸与要检测的所述对象的形状对应。
8.根据权利要求1所述的学习方法,其特征在于,
所述各池化尺寸与所述特定锚框各自的尺寸对应。
9.一种测试方法,用于测试基于R-CNN的对象检测器,其特征在于,包括以下步骤:
(a)在学习装置执行以下处理:(I)使至少一个卷积层对至少一个训练图像执行至少一次卷积运算,以输出至少一个学习用特征映射,并且使区域建议网络(i)在所述学习用特征映射上利用多个学习用锚框生成与在所述训练图像中推定存在至少一个学习用对象的候选区域对应的学习用候选感兴趣区域,所述多个学习用锚框由尺度和纵横比中的至少一部分来区分;(ii)将判断为所述学习用对象存在的概率高的特定学习用候选感兴趣区域作为学习用感兴趣区域建议来输出;(II)(i)将所述学习用感兴趣区域建议输入到对应于与各特定学习用锚框对应地设定的各池化尺寸的各池化层,所述各特定学习用锚框用于生成所述学习用感兴趣区域建议;(ii)使所述各池化层根据与其对应的池化尺寸在所述学习用特征映射上池化与所述学习用感兴趣区域建议对应的区域,输出与其对应的学习用特征向量;(iii)使与所述各池化层对应的各全连接层利用各所述学习用特征向量来输出与各所述学习用感兴趣区域建议对应的各学习用对象类别信息和各学习用对象回归信息;以及(III)使与所述各全连接层对应的各对象损失层参考所述各学习用对象类别信息、所述各学习用对象回归信息和与其对应的各对象地面实况来计算各对象类别损失和各对象回归损失,并通过利用所述各对象类别损失和所述各对象回归损失的反向传播来学习所述各全连接层和所述卷积层的状态下,
测试装置使所述卷积层对至少一个测试图像执行至少一次卷积运算,以输出至少一个测试用特征映射,并且使所述区域建议网络(i)在所述测试用特征映射上利用测试用锚框生成与在所述测试图像中推定存在至少一个测试用对象的候选区域对应的测试用候选感兴趣区域,所述测试用锚框由尺度和纵横比中的至少一部分来区分;(ii)将判断为所述测试用对象存在的概率高的特定测试用候选感兴趣区域作为测试用感兴趣区域建议来输出;
(b)所述测试装置(i)将所述测试用感兴趣区域建议输入到对应于与各特定测试用锚框对应地设定的各池化尺寸的各池化层,所述各特定测试用锚框用于生成所述测试用感兴趣区域建议;(ii)使所述各池化层根据与其对应的池化尺寸在所述测试用特征映射上池化与所述测试用感兴趣区域建议对应的区域,并输出与其对应的测试用特征向量;(iii)使与所述各池化层对应的所述各全连接层利用各所述测试用特征向量来输出与各所述测试用感兴趣区域建议对应的各测试用对象类别信息和各测试用对象回归信息。
10.根据权利要求9所述的测试方法,其特征在于,
所述处理(I)之前,
所述学习装置处于已完成下述处理的状态,所述处理分别通过利用各感兴趣区域类别损失和感兴趣区域回归损失的反向传播来学习所述区域建议网络,所述各感兴趣区域类别损失和各感兴趣区域回归损失是参考(i)所述学习用候选感兴趣区域的学习用感兴趣区域类别信息和学习用感兴趣区域回归信息、以及(ii)与其对应的各感兴趣区域地面实况来计算出的。
11.根据权利要求9所述的测试方法,其特征在于,
所述各池化尺寸与所述特定测试用锚框的所述纵横比对应。
12.根据权利要求9所述的测试方法,其特征在于,
所述各池化尺寸与所述特定测试用锚框的所述尺度对应。
13.根据权利要求9所述的测试方法,其特征在于,
所述各池化尺寸与要检测的所述测试用对象的形状对应。
14.根据权利要求9所述的测试方法,其特征在于,
所述各池化尺寸与所述特定测试用锚框各自的尺寸对应。
15.一种学习装置,用于学习基于R-CNN的对象检测器,其特征在于,包括:
至少一个存储器,用于存储指令;以及
至少一个处理器,被构成为执行所述指令,所述指令用于执行以下处理:
(I)使至少一个卷积层对至少一个训练图像执行至少一次卷积运算,以输出至少一个特征映射,并且使区域建议网络(i)在所述特征映射上利用多个锚框生成与在所述训练图像中推定存在至少一个对象的候选区域对应的候选感兴趣区域,所述多个锚框由尺度和纵横比中的至少一部分来区分;(ii)将判断为所述对象存在的概率高的特定候选感兴趣区域作为感兴趣区域建议来输出;
(II)(i)将所述感兴趣区域建议输入到与各池化尺寸相对应的各池化层,所述各池化尺寸与用于生成所述感兴趣区域建议的各特定锚框相对应地设定;(ii)使所述各池化层根据与其对应的池化尺寸在所述特征映射上池化与所述感兴趣区域建议对应的区域,并输出与其对应的特征向量;(iii)使与所述各池化层对应的各全连接层利用各所述特征向量来输出与各所述感兴趣区域建议对应的各对象类别信息和各对象回归信息;以及
(III)使与所述各全连接层对应的各对象损失层参考所述各对象类别信息和所述各对象回归信息以及与其对应的各对象地面实况来计算各对象类别损失和各对象回归损失,并通过利用所述各对象类别损失和所述各对象回归损失的反向传播来学习所述各全连接层和所述卷积层。
16.根据权利要求15所述的学习装置,其特征在于,
所述处理器使区域建议网络损失层参考(i)所述候选感兴趣区域的感兴趣区域类别信息和感兴趣区域回归信息以及(ii)与其对应的各感兴趣区域地面实况,计算各感兴趣区域类别损失和各感兴趣区域回归损失,
所述处理器通过执行利用所述各感兴趣区域类别损失和所述各感兴趣区域回归损失的反向传播来学习所述区域建议网络。
17.根据权利要求16所述的学习装置,其特征在于,
所述处理器分开执行(i)利用所述各对象类别损失和所述各对象回归损失的反向传播和(ii)利用所述各感兴趣区域类别损失和所述各感兴趣区域回归损失的反向传播。
18.根据权利要求15所述的学习装置,其特征在于,
在所述处理(I)之前,
所述处理器处于已完成下述处理的状态,所述处理通过利用各感兴趣区域类别损失和各感兴趣区域回归损失的反向传播来学习所述区域建议网络,所述各感兴趣区域类别损失和各感兴趣区域回归损失是分别参考(i)所述候选感兴趣区域的感兴趣区域类别信息和感兴趣区域回归信息、以及(ii)与其对应的感兴趣区域地面实况来计算出的。
19.根据权利要求15所述的学习装置,其特征在于,
所述各池化尺寸与所述特定锚框的所述纵横比对应。
20.根据权利要求15所述的学习装置,其特征在于,
所述各池化尺寸与所述特定锚框的所述尺度对应。
21.根据权利要求15所述的学习装置,其特征在于,
所述各池化尺寸与要检测的所述对象的形状对应。
22.根据权利要求15所述的学习装置,其特征在于,
所述各池化尺寸与所述特定锚框各自的尺寸对应。
23.一种测试装置,用于测试基于R-CNN的对象检测器,其特征在于,包括:
至少一个存储器,用于存储指令;以及
至少一个处理器,被设定为执行指令,所述指令用于在使学习装置执行下述处理(I)至(III)的状态下,所述测试装置执行处理(1)以及(2),其中,
处理(I)至(III)如下:
(I)使至少一个卷积层对至少一个训练图像执行至少一次卷积运算,以输出至少一个学习用特征映射,并且使区域建议网络(i)在所述学习用特征映射上利用多个学习用锚框生成与在所述训练图像中推定存在至少一个学习用对象的候选区域对应的学习用候选感兴趣区域,
所述多个学习用锚框由尺度和纵横比中的至少一部分来区分;(ii)将判断为所述学习用对象存在的概率高的特定学习用候选感兴趣区域作为学习用感兴趣区域建议来输出;
(II)(i)将所述学习用感兴趣区域建议输入到对应于与各特定学习用锚框相对应地设定的各池化尺寸的各池化层,所述各特定学习用锚框用于生成所述学习用感兴趣区域建议;(ii)使所述各池化层根据与其对应的池化尺寸在所述学习用特征映射上池化与所述学习用感兴趣区域建议对应的区域,输出与其对应的学习用特征向量;(iii)
使与所述各池化层对应的各全连接层利用各所述学习用特征向量来输出与各所述学习用感兴趣区域建议对应的各学习用对象类别信息和各学习用对象回归信息;以及
(III)使与所述各全连接层对应的各对象损失层参考所述各学习用对象类别信息和所述各学习用对象回归信息以及与其对应的各对象地面实况来计算各对象类别损失和各对象回归损失,从而通过利用所述各对象类别损失和所述各对象回归损失的反向传播来学习所述各全连接层和所述卷积层,
处理(1)以及(2)如下:
(1)使所述卷积层对至少一个测试图像执行至少一次卷积运算,
以输出至少一个测试用特征映射,并且使所述区域建议网络(i)在所述测试用特征映射上利用测试用锚框生成与在所述测试图像中推定存在至少一个测试用对象的候选区域对应的测试用候选感兴趣区域,所述测试用锚框由尺度和纵横比中的至少一部分来区分;(ii)将判断为所述测试用对象存在的概率高的特定测试用候选感兴趣区域作为测试用感兴趣区域建议来输出;以及
(2)(i)将所述测试用感兴趣区域建议输入到对应于与各特定测试用锚框对应地设定的各池化尺寸的各池化层,所述各特定测试用锚框用于生成所述测试用感兴趣区域建议;(ii)使所述各池化层根据与其对应的池化尺寸在所述测试用特征映射上池化与所述测试用感兴趣区域建议对应的区域,输出与其对应的测试用特征向量;(iii)使与所述各池化层对应的所述各全连接层利用各所述测试用特征向量来输出与各所述测试用感兴趣区域建议对应的各测试用对象类别信息和各测试用对象回归信息。
24.根据权利要求23所述的测试装置,其特征在于,
在所述处理(I)之前,
所述学习装置已经完成下述处理,所述处理通过利用各感兴趣区域类别损失和各感兴趣区域回归损失的反向传播来学习所述区域建议网络,所述各感兴趣区域类别损失和各感兴趣区域回归损失是参考(i)所述学习用候选感兴趣区域的学习用感兴趣区域类别信息和学习用感兴趣区域回归信息、以及(ii)与其对应的各感兴趣区域地面实况来计算出的。
25.根据权利要求23所述的测试装置,其特征在于,
所述各池化尺寸与所述特定测试用锚框的所述纵横比对应。
26.根据权利要求23所述的测试装置,其特征在于,
所述各池化尺寸与所述特定测试用锚框的所述尺度对应。
27.根据权利要求23所述的测试装置,其特征在于,
所述各池化尺寸与要检测的所述测试用对象的形状对应。
28.根据权利要求23所述的测试装置,其特征在于,
所述各池化尺寸与所述特定测试用锚框各自的尺寸对应。
CN201911055354.5A 2019-01-25 2019-10-31 可转换模式的基于r-cnn的用于监视的方法和装置 Active CN111488871B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/258,079 2019-01-25
US16/258,079 US10410120B1 (en) 2019-01-25 2019-01-25 Learning method and testing method of object detector to be used for surveillance based on R-CNN capable of converting modes according to aspect ratios or scales of objects, and learning device and testing device using the same

Publications (2)

Publication Number Publication Date
CN111488871A CN111488871A (zh) 2020-08-04
CN111488871B true CN111488871B (zh) 2023-08-04

Family

ID=67845113

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911055354.5A Active CN111488871B (zh) 2019-01-25 2019-10-31 可转换模式的基于r-cnn的用于监视的方法和装置

Country Status (5)

Country Link
US (1) US10410120B1 (zh)
EP (1) EP3686777A1 (zh)
JP (1) JP7109091B2 (zh)
KR (1) KR102319541B1 (zh)
CN (1) CN111488871B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111291587A (zh) * 2018-12-06 2020-06-16 深圳光启空间技术有限公司 一种基于密集人群的行人检测方法、存储介质及处理器
US10713815B1 (en) * 2019-01-31 2020-07-14 StradVision, Inc. Method and device for supporting administrators to processes of object detectors to provide logical driving
KR20220148245A (ko) 2020-03-04 2022-11-04 구글 엘엘씨 스트리밍 시퀀스 모델에 대한 일관성 예측
US10970598B1 (en) * 2020-05-13 2021-04-06 StradVision, Inc. Learning method and learning device for training an object detection network by using attention maps and testing method and testing device using the same
CN111753137B (zh) * 2020-06-29 2022-05-03 四川长虹电器股份有限公司 一种基于语音特征的视频搜索方法
KR102497640B1 (ko) * 2020-08-25 2023-02-08 한국과학기술원 이미지의 객체 감지 및 분류 방법 및 시스템
CN112150462B (zh) * 2020-10-22 2023-12-22 北京百度网讯科技有限公司 确定目标锚点的方法、装置、设备以及存储介质
GB2602631A (en) * 2021-01-05 2022-07-13 Nissan Motor Mfg Uk Limited Traffic light detection and classification
CN112346056B (zh) * 2021-01-11 2021-03-26 长沙理工大学 多脉冲雷达信号的分辨性特征融合提取方法及识别方法
CN113762109B (zh) 2021-08-23 2023-11-07 北京百度网讯科技有限公司 一种文字定位模型的训练方法及文字定位方法
WO2023058999A1 (ko) * 2021-10-08 2023-04-13 고려대학교 산학협력단 관심객체 검출장치, 방법 및 이를 위한 컴퓨터 판독가능 프로그램
CN114104980B (zh) * 2021-10-15 2023-06-02 福建电子口岸股份有限公司 一种基于ai与视觉结合的岸桥安全作业控制方法和系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599939A (zh) * 2016-12-30 2017-04-26 深圳市唯特视科技有限公司 一种基于区域卷积神经网络的实时目标检测方法
CN107451602A (zh) * 2017-07-06 2017-12-08 浙江工业大学 一种基于深度学习的果蔬检测方法
CN108052881A (zh) * 2017-11-30 2018-05-18 华中科技大学 一种实时检测施工现场图像中多类实体对象的方法及设备
CN108109160A (zh) * 2017-11-16 2018-06-01 浙江工业大学 一种基于深度学习的免交互式GrabCut舌体分割方法
US10049323B1 (en) * 2017-10-13 2018-08-14 StradVision, Inc. Method and device for performing activation and convolution operation at the same time and learning method and learning device for the same
CN108875577A (zh) * 2018-05-11 2018-11-23 深圳市易成自动驾驶技术有限公司 目标检测方法、装置及计算机可读存储介质

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3204888A4 (en) * 2014-10-09 2017-10-04 Microsoft Technology Licensing, LLC Spatial pyramid pooling networks for image processing
US9524450B2 (en) * 2015-03-04 2016-12-20 Accenture Global Services Limited Digital image processing using convolutional neural networks
US9965719B2 (en) * 2015-11-04 2018-05-08 Nec Corporation Subcategory-aware convolutional neural networks for object detection
US20170124409A1 (en) * 2015-11-04 2017-05-04 Nec Laboratories America, Inc. Cascaded neural network with scale dependent pooling for object detection
WO2017106645A1 (en) * 2015-12-18 2017-06-22 The Regents Of The University Of California Interpretation and quantification of emergency features on head computed tomography
US9858496B2 (en) * 2016-01-20 2018-01-02 Microsoft Technology Licensing, Llc Object detection and classification in images
US10032067B2 (en) * 2016-05-28 2018-07-24 Samsung Electronics Co., Ltd. System and method for a unified architecture multi-task deep learning machine for object recognition
US10354362B2 (en) * 2016-09-08 2019-07-16 Carnegie Mellon University Methods and software for detecting objects in images using a multiscale fast region-based convolutional neural network
US10621747B2 (en) * 2016-11-15 2020-04-14 Magic Leap, Inc. Deep learning system for cuboid detection
KR102585216B1 (ko) * 2017-12-14 2023-10-05 삼성전자주식회사 영상 인식 방법 및 그 장치
US10547823B2 (en) * 2018-09-25 2020-01-28 Intel Corporation View interpolation of multi-camera array images with flow estimation and image super resolution using deep learning

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599939A (zh) * 2016-12-30 2017-04-26 深圳市唯特视科技有限公司 一种基于区域卷积神经网络的实时目标检测方法
CN107451602A (zh) * 2017-07-06 2017-12-08 浙江工业大学 一种基于深度学习的果蔬检测方法
US10049323B1 (en) * 2017-10-13 2018-08-14 StradVision, Inc. Method and device for performing activation and convolution operation at the same time and learning method and learning device for the same
CN108109160A (zh) * 2017-11-16 2018-06-01 浙江工业大学 一种基于深度学习的免交互式GrabCut舌体分割方法
CN108052881A (zh) * 2017-11-30 2018-05-18 华中科技大学 一种实时检测施工现场图像中多类实体对象的方法及设备
CN108875577A (zh) * 2018-05-11 2018-11-23 深圳市易成自动驾驶技术有限公司 目标检测方法、装置及计算机可读存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
DAI JIFENG ET AL..Deformable Convolutional Networks.《2017 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION》.2017,第764-773页. *
Fan Yang et al..Exploit All the Layers: Fast and Accurate CNN Object Detector with Scale Dependent Pooling and Cascaded Rejection Classifiers.《2016 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》.2016,第2129-2137页. *
GIRSHICK ROSS et al..Fast R-CNN.《2015 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION》.2015,第1440-1448页. *

Also Published As

Publication number Publication date
KR20200092844A (ko) 2020-08-04
KR102319541B1 (ko) 2021-11-01
CN111488871A (zh) 2020-08-04
US10410120B1 (en) 2019-09-10
EP3686777A1 (en) 2020-07-29
JP2020119522A (ja) 2020-08-06
JP7109091B2 (ja) 2022-07-29

Similar Documents

Publication Publication Date Title
CN111488871B (zh) 可转换模式的基于r-cnn的用于监视的方法和装置
CN111008626B (zh) 基于r-cnn检测客体的方法和装置
US10509987B1 (en) Learning method and learning device for object detector based on reconfigurable network for optimizing customers' requirements such as key performance index using target object estimating network and target object merging network, and testing method and testing device using the same
Levinson et al. Traffic light mapping, localization, and state detection for autonomous vehicles
KR102661954B1 (ko) 이미지 처리 방법 및 이를 수행하는 장치들
KR102309708B1 (ko) 인스턴스 세그멘테이션을 이용한 객체의 자세에 따라 모드를 전환할 수 있는 cnn 기반의 수도-3d 바운딩 박스를 검출하는 방법 및 이를 이용한 장치
US10402692B1 (en) Learning method and learning device for fluctuation-robust object detector based on CNN using target object estimating network adaptable to customers' requirements such as key performance index, and testing device using the same
CN111476343B (zh) 利用掩蔽参数的方法和装置
KR20200095336A (ko) 고 정밀도로 이미지를 분석하기 위한 딥 러닝 네트워크를 사용하기 위해 트레이닝 이미지를 오토 라벨링하는 오토 라벨링 장치의 하이퍼파라미터를 최적화하는 방법 및 이를 이용한 최적화 장치
EP3690725A1 (en) Method and device for seamless parameter switch by using location-specific algorithm selection to achieve optimized autonomous driving in each of regions
US10402686B1 (en) Learning method and learning device for object detector to be used for surveillance based on convolutional neural network capable of converting modes according to scales of objects, and testing method and testing device using the same
JP2020038669A (ja) 複数のビデオフレームを利用してcnnのパラメータを最適化するための学習方法及び学習装置、そしてこれを利用したテスト方法及びテスト装置
CN111507161B (zh) 利用合并网络进行异质传感器融合的方法和装置
CN111488783B (zh) 基于cnn检测伪3d边界框的方法及其装置
CN110909588B (zh) 基于cnn的用于车道线检测的方法和装置
CN111476075B (zh) 利用1x1卷积的基于CNN的客体检测方法及装置
CN111507151B (zh) 使得能够评价自动行驶客体检测过程的支援方法及装置
Zhao et al. Building outline delineation: From very high resolution remote sensing imagery to polygons with an improved end-to-end learning framework
CN111553474A (zh) 船只检测模型训练方法及基于无人机视频的船只跟踪方法
CN116310688A (zh) 基于级联融合的目标检测模型及其构建方法、装置及应用
CN111507154B (zh) 使用横向滤波器掩膜来检测车道线元素的方法和装置
CN116342567A (zh) 遥感目标检测方法、装置、计算设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant