CN111488783B - 基于cnn检测伪3d边界框的方法及其装置 - Google Patents

基于cnn检测伪3d边界框的方法及其装置 Download PDF

Info

Publication number
CN111488783B
CN111488783B CN201911016989.4A CN201911016989A CN111488783B CN 111488783 B CN111488783 B CN 111488783B CN 201911016989 A CN201911016989 A CN 201911016989A CN 111488783 B CN111488783 B CN 111488783B
Authority
CN
China
Prior art keywords
test
layer
bounding box
learning
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911016989.4A
Other languages
English (en)
Other versions
CN111488783A (zh
Inventor
金桂贤
金镕重
金寅洙
金鹤京
南云铉
夫硕焄
成明哲
呂东勋
柳宇宙
张泰雄
郑景中
诸泓模
赵浩辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Stradvision Inc
Original Assignee
Stradvision Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Stradvision Inc filed Critical Stradvision Inc
Publication of CN111488783A publication Critical patent/CN111488783A/zh
Application granted granted Critical
Publication of CN111488783B publication Critical patent/CN111488783B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/046Forward inferencing; Production systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/08Detecting or categorising vehicles

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种能够基于根据图像内的对象状态转换模式的CNN检测至少一个伪3D边界框的学习方法,该方法包括如下步骤:步骤a),使池化层生成与2D边界框对应的池化特征图,并使类型–分类层判断池化特征图上的对象是否被截断;步骤b),使FC层生成与伪3D边界框对应的框型信息;步骤c),使分类层生成有关对象的方向类信息,并使回归层生成有关伪3D边界框的坐标的回归信息;以及步骤d),使由FC损耗层生成的类损耗值及回归损耗值反向传播,通过所述方法,能够补偿在虚拟驾驶中被截断的对象,且能够用于智能设备以及军事目的。

Description

基于CNN检测伪3D边界框的方法及其装置
技术领域
本发明涉及一种基于根据对象条件转换模式的CNN(Convolutional NeuralNetwork;卷积神经网络)检测伪(Pseudo)3D(3Dimension)边界框的用于军事目的、智能设备或虚拟驾驶的方法及利用该方法的装置(METHOD FOR DETECTING PSEUDO-3D BOUNDINGBOX TO BE USED FOR MILITARY PURPOSE,SMART PHONE OR VIRTUAL DRIVING BASED-ONCNN CAPABLE OF CONVERTING MODES ACCORDING TO CONDITIONS OF OBJECTS AND DEVICEUSING THE SAME),更详细地说,涉及一种基于上述CNN检测至少一个上述伪3D边界框的学习方法及装置、以及利用其的测试方法及装置,该学习方法包括如下步骤:步骤a),在获取到对于至少一个训练图像(training image)应用至少一次卷积(convolution)运算而生成的至少一个特征图和上述训练图像中包括至少一个对象的至少一个2D(2Dimension)边界框时,学习装置使池化层(Pooling Layer)对于上述特征图中与上述2D边界框对应的至少一个区域应用至少一次池化运算,从而生成至少一个池化特征图,并使类型分类层(Type-Classifying Layer)参照上述池化特征图来判断上述池化特征图中的上述对象的图像是否被截断(Truncate);步骤b),如果在上述对象的图像被截断的状态时,将上述对象称为第一类型(First Type),而在上述对象的图像没有被截断的状态时,将上述对象称为第二类型(Second Type),则上述学习装置参照上述池化特征图中的上述对象的图像是否被截断相关的信息,使分别与上述第一类型和第二类型对应的各个FC(fully connected,全连接)层中的一个对于上述池化特征图应用至少一次神经网络运算,而生成与上述伪3D边界框对应的框型(Box Pattern)信息;步骤c),上述学习装置i)使分别与上述FC层对应的各个分类层参照上述框型信息,输出上述对象的方向相关的方向类信息,ii)使分别与上述FC层对应的各个回归层(regression layer)参照上述框型信息,生成与上述2D边界框的坐标对应的上述伪3D边界框的坐标相关的回归信息;以及步骤d),上述学习装置使至少一个FC损耗层参照上述方向类信息、上述回归信息、以及与此对应的至少一个GT,生成至少一个类损耗值及至少一个回归损耗值,从而通过使上述类损耗值及上述回归损耗值反向传播(Backpropagation),来学习上述FC层的参数。
背景技术
自动驾驶汽车是在没有人为输入的内容的情况下检测周边环境而行驶的车辆。自动驾驶汽车为了检测围绕着的环境而使用雷达、激光光线、GPS,行驶测量仪、计算机视觉(Computer Vision)的各种技术。
使用计算机视觉从二维单目影像(2D Monocular Image)推定三维信息对于如自动驾驶及个人机器人这样的应用领域中是非常重要的作业。通常,针对图像中的对象生成用于形成边界(Bounding)的2D框之后,从2D框生成3D模型。
为了形成对象边界而查找2D框的现有技术通常使用基于模板的方法。用于生成2D框的现有技术中的一个是滑动窗口法(Sliding Windows Method)。这种方法是针对具有各种尺度的整个图像反复地滑动如窗口的框,从而检测出与窗口一样的框内的各个对象的方法。即,由于图像内的对象有可能具体相互不同的大小或尺度,所以多次缩小图像并将如窗口的框在图像上面再次滑动而查找大小不同的对象。
另一个现有技术中的一个方法是锚框(anchor box)方法。这种方法是将各种锚框在规定位置上对准中心,并将各种锚框中概率最高的锚框(例如,与GT对象重叠的区域最多的锚框)确定为回归分析。
此外,3D边界框(3D Bounding Box)由之前确定的锚框构成,但不限定于此。首先,3D边界框可以具有6个表面,6个表面中3个是需要彻底检索。第二,在将单一模板用于确定3D边界框的表面中的3个表面的情况下,如果对象的3D方向改变,则回归的分界线条件变化,因此导致准确率下降。第三,获取3D边界框的现有方法需要较多的计算资源。例如,为了查找3D边界框,使直六面体模板或三维像素(Voxel)匹配,运算时间较长。
发明内容
因此,本发明提供一种消除这种不必要的运算并提高检测准确率的新的方法。
发明要解决的技术问题
本发明的目的在于,解决上述所有问题。
本发明的另一个目的在于,使利用伪3D框(Pseudo-3D Box)设定与3D对象外接的框用的伪3D边界框(3D Bounding Box)简单化。
本发明的又一个目的在于,利用伪3D框的顶点的2D坐标来减少运算时间和计算资源。
用于解决问题的方法
为了达成如上述的本发明的目的,并为了实现后述的本发明的特征性效果,本发明的特征性构成如下所述。
根据本发明的一实施方式,一种基于CNN检测至少一个伪(Pseudo)3D边界框的学习方法的特征在于,包括如下步骤:步骤a),在获取到对于至少一个训练图像应用至少一次卷积运算而生成的至少一个特征图和上述训练图像中包括至少一个对象的至少一个2D边界框时,学习装置使池化层(Pooling Layer)对于上述特征图上与上述2D边界框对应的至少一个区域应用至少一次池化运算,而生成至少一个池化特征图,并使类型–分类层(Type-Classifying Layer)参照上述池化特征图,来判断上述池化特征图内的上述对象的图像是否被截断(Truncate);步骤b),如果在上述对象的图像是被截断的状态时,将上述对象称为第一类型(First Type),而在上述对象的图像是没有被截断的状态时,将上述对象称为第二类型(Second Type),则上述学习装置参照上述池化特征图内的上述对象的图像是否被截断相关的信息,使分别与上述第一类型和上述第二类型对应的各个FC层中的一个对于上述池化特征图应用至少一次神经网络运算,而生成与上述伪3D边界框对应的框型(BoxPattern)信息;步骤c),上述学习装置i)使分别与上述FC层对应的各个分类层参照上述框型信息,输出上述对象的方向相关的方向类信息,ii)并使分别与上述FC层对应的各个回归层参照上述框型信息,生成与上述2D边界框的坐标对应的上述伪3D边界框的坐标相关的回归信息;以及步骤d),上述学习装置使至少一个FC损耗层参照上述方向类信息和上述回归信息、以及与此对应的至少一个GT,生成至少一个类损耗值及至少一个回归损耗值,从而通过使上述类损耗值及上述回归损耗值反向传播,来学习上述FC层的参数。
在一实施例中,其特征在于,在上述步骤a)之后,上述学习装置使类型损耗层(Type Loss Layer)参照上述对象的图像是否被截断相关的信息及与上述对象的图像对应的对象–类型(Object-Type)GT,而生成至少一个类型损耗值,从而通过使上述类型损耗值反向传播,来调整上述类型–分类层的参数的至少一部分。
在一实施例中,在上述步骤a)中,上述学习装置使上述类型–分类层在仅包括上述池化特征图上出现的上述对象的一部分的区域与包括上述对象整体的区域的比率为规定的临界值以下时,判断为上述对象的图像被截断,在上述比率超过上述规定的临界值时,判断为上述对象的图像没有被截断。
在一实施例中,其特征在于,在上述步骤c)中,上述学习装置使各个上述回归层利用i)从上述2D边界框的顶点到上述对象的前面和后面分别所对应的各个实例边界框的顶点为止的各个位移(Displacement);以及ii)从上述2D边界框的中心到上述各个实例边界框的各个中心为止的各个位移、及上述2D边界框的宽度/高度比率与上述实例边界框的各个宽度/高度比率之间的各个差值中的至少一个,生成上述回归信息。
在一实施例中,其特征在于,在上述步骤b)中,上述学习装置在上述对象为上述第一类型时,使与上述第一类型对应的第一FC层对于上述池化特征图应用神经网络运算,而生成与上述伪3D边界框对应的第一框型信息,并在上述对象为上述第二类型时,使与上述第二类型对应的第二FC层对于上述池化特征图应用神经网络运算,而生成与上述伪3D边界框对应的第二框型信息;在上述步骤c)中,上述学习装置i)使与上述第一FC层对应的第一分类层参照上述第一框型信息,生成与具有上述第一类型的上述对象的方向对应的第一方向类信息,并使与上述第一FC层对应的第一回归层参照上述第一框型信息,生成与上述2D边界框的上述坐标对应的上述伪3D边界框的上述坐标相关的第一回归信息,ii)使与上述第二FC层对应的第二分类层参照上述第二框型信息,生成与具有上述第二类型的上述对象的方向对应的第二方向类信息,并使与上述第二FC层对应的第二回归层参照上述第二框型信息,生成与上述2D边界框的上述坐标对应的上述伪3D边界框的上述坐标相关的第二回归信息。
在一实施例中,其特征在于,在上述步骤d)中,上述学习装置i)使与上述第一FC层对应的第一FC损耗层参照上述第一方向类信息、上述第一回归信息、及与此对应的至少一个第一GT,生成至少一个第一方向类损耗值及至少一个第一框回归损耗值,从而通过使上述第一方向类损耗值及上述第一框回归损耗值反向传播,来学习上述第一FC层的参数;ii)使与上述第二FC层对应的第二FC损耗层参照上述第二方向类信息、上述第二回归信息、及与此对应的至少一个第二GT,生成至少一个第二方向类损耗值及至少一个第二框回归损耗值,从而通过使上述第二方向类损耗值及上述第二框回归损耗值反向传播,来学习上述第二FC层的参数。
在一实施例中,其特征在于,上述学习装置从基于前CNN(Preceding CNN)的对象检测器获取上述特征图和上述2D边界框。
在一实施例中,其特征在于,上述学习装置将上述训练图像输入到上述对象检测器,上述对象检测器i)使前卷积层(Preceding Convolutional Layer)对于上述训练图像执行卷积运算而生成上述特征图,ii)并使RPN(Region Proposal Networks,区域推荐网络)从上述特征图生成与上述训练图像内的上述对象对应的至少一个建议框,iii)使前池化层(Preceding Pooling Layer)对于上述特征图上与上述建议框对应的至少一个区域应用池化运算,而生成前池化特征图,iv)使前FC层(Preceding FC Layer)生成与上述对象对应的对象架构信息,v)使前分类层(Preceding Classification Layer)参照上述对象架构信息生成与上述对象的类对应的对象类信息,vi)使前回归层(Preceding RegressionLayer)参照上述对象架构信息,生成与上述对象对应的上述2D边界框相关的前回归信息,由此生成上述特征图和上述2D边界框。
在一实施例中,其特征在于,在通过检测器学习装置学习上述对象检测器的状态下,上述检测器学习装置使上述对象检测器内的类型损耗层参照上述对象的图像是否被截断相关的信息和与上述图像对应的对象–类型GT而生成至少一个类型损耗值,从而通过使上述类型损耗值反向传播,来调整上述对象检测器内的类型–分类层的参数的至少一部分。
根据本发明的另一实施方式,一种基于CNN检测至少一个伪(Pseudo)3D边界框的测试方法的特征在于,包括如下步骤:步骤a),学习装置在获取到对于至少一个训练图像应用至少一次卷积运算而生成的至少一个学习用特征图、和上述训练图像中包括至少一个学习用对象的至少一个学习用2D边界框时,执行如下处理:处理i),使池化层(PoolingLayer)对于上述学习用特征图上与上述学习用2D边界框对应的至少一个区域应用至少一次池化运算而生成至少一个学习用池化特征图,并使类型–分类层(Type-ClassifyingLayer)参照上述学习用池化特征图来判断上述学习用池化特征图内的上述学习用对象的图像是否被截断;处理ii),如果在上述学习用对象的图像是被截断的状态时,将上述学习用对象称为第一类型(First Type),而在上述学习用对象的图像没有被截断的状态时,将上述学习用对象称为第二类型(Second Type),则参照上述学习用池化特征图内的上述学习用对象的图像是否被截断相关的信息,使分别与上述第一类型和上述第二类型对应的各个FC层中的一个对于上述学习用池化特征图应用至少一次神经网络运算,而生成与上述学习用伪3D边界框对应的学习用框型(Box Pattern)信息;处理iii),使分别与上述FC层对应的各个至少一个分类层参照上述学习用框型信息,输出上述学习用对象的方向相关的学习用方向类信息,并使分别与上述FC层对应的各个至少一个回归层参照上述学习用框型信息,生成与上述学习用2D边界框的坐标对应的上述学习用伪3D边界框的坐标相关的学习用回归信息;以及处理iv)使至少一个FC损耗层参照上述学习用方向类信息、上述学习用回归信息、及与此对应的至少一个GT,生成至少一个类损耗值及至少一个回归损耗值,从而通过使上述类损耗值及上述回归损耗值反向传播,来学习上述FC层的参数,在执行以上处理的状态下,测试装置在获取到对于至少一个测试图像应用至少一次卷积运算而生成的至少一个测试用特征图和上述测试图像中包括至少一个测试用对象的至少一个测试用2D边界框时,使上述池化层(Pooling Layer)对于上述测试用特征图上与上述测试用2D边界框对应的至少一个区域应用至少一次池化运算而生成至少一个测试用池化特征图,并使上述类型–分类层(Type-Classifying Layer)参照上述测试用池化特征图来判断上述测试用池化特征图内的上述测试用对象的图像是否被截断(Truncate);步骤b),如果在上述测试用对象的图像是被截断的状态时,将上述测试用对象称为第一类型(First Type),而在上述测试用对象的图像没有被截断的状态时,将上述测试用对象称为第二类型(Second Type),则上述测试装置参照上述测试用池化特征图内的上述测试用对象的图像是否被截断相关的信息,使分别与上述第一类型和上述第二类型对应的各个上述FC层中的一个对于上述测试用池化特征图应用至少一次神经网络运算,而生成与上述测试用伪3D边界框对应的测试用框型(Box Pattern)信息;以及步骤c),上述测试装置i)使分别与上述FC层对应的各个分类层参照上述测试用框型信息,输出上述测试用对象的方向相关的测试用方向类信息,ii)并使分别与上述FC层对应的各个回归层参照上述测试用框型信息,而生成与上述测试用2D边界框的上述坐标对应的上述测试用伪3D边界框的上述坐标相关的测试用回归信息。
在一实施例中,其特征在于,上述学习装置使类型损耗层(Type Loss Layer)参照上述学习用对象的图像是否被截断相关的信息及与上述学习用对象的图像对应的对象–类型(Object-Type)GT而生成至少一个类型损耗值,从而通过利用上述类型损耗值的反射传播,来调整上述类型–分类层的参数的至少一部分。
在一实施例中,其特征在于,在上述步骤a)中,上述测试装置使上述类型–分类层在仅包括上述测试用池化特征图上出现的上述测试用对象的一部分的区域与包括上述测试用对象整体的区域的比率为规定的临界值以下时,判断为上述测试用对象的图像被截断,在上述比率超过上述规定的临界值时,判断为上述测试用对象的图像没有被截断。
在一实施例中,其特征在于,在上述步骤c)中,上述测试装置使各个上述回归层利用i)从上述测试用2D边界框的顶点到上述测试用对象的前面和后面分别所对应的各个测试用实例边界框的顶点为止的各个位移(Displacement)、以及ii)从上述测试用2D边界框的中心到上述各个测试用实例边界框的各个中心为止的各个位移、及上述测试用2D边界框的宽度/高度比率与上述测试用实例边界框的各个宽度/高度比率之间的各个差值中的至少一个,生成上述测试用回归信息。
在一实施例中,其特征在于,在上述步骤b)中,上述测试装置在上述测试用对象为上述第一类型时,使与上述第一类型对应的第一FC层对于上述测试用池化特征图应用神经网络运算,而生成与上述测试用伪3D边界框对应的测试用第一框型信息,并在上述测试用对象为上述第二类型时,使与上述第二类型对应的第二FC层对于上述测试用池化特征图应用神经网络运算,而生成与上述测试用伪3D边界框对应的测试用第二框型信息;在上述步骤c)中,上述测试装置i)使与上述第一FC层对应的第一分类层参照上述测试用第一框型信息,生成与具有上述第一类型的上述测试用对象的方向对应的测试用第一方向类信息,并使与上述第一FC层对应的第一回归层参照上述测试用第一框型信息,生成与上述测试用2D边界框的上述坐标对应的上述测试用伪3D边界框的坐标相关的第一回归信息,ii)使与上述第二FC层对应的第二分类层参照上述测试用第二框型信息,生成与具有上述第二类型的上述测试用对象的方向对应的测试用第二方向类信息,并使与上述第二FC层对应的第二回归层参照上述测试用第二框型信息,生成与上述测试用2D边界框的上述坐标对应的上述测试用伪3D边界框的坐标相关的测试用第二回归信息。
在一实施例中,其特征在于,上述测试装置将上述测试图像输入到基于前CNN的对象检测器中,上述对象检测器i)使前卷积层(Preceding Convolutional Layer)对于上述测试图像执行卷积运算而生成上述测试用特征图,ii)并使RPN12从上述测试用特征图生成与上述测试图像内的上述测试用对象对应的至少一个测试用建议框,iii)并使前池化层(Preceding Pooling Layer)对于上述测试用特征图上与上述测试用建议框对应的至少一个区域应用池化运算,而生成测试用前池化特征图,iv)并使前FC层(Preceding FC Layer)生成与上述测试用对象对应的测试用对象架构信息,v)并使前分类层(PrecedingClassification Layer)参照上述测试用对象架构信息生成与上述测试用对象的类对应的测试用对象类信息,vi)并使前回归层(Preceding Regression Layer)参照上述测试用对象架构信息生成与上述测试用对象对应的上述测试用2D边界框相关的测试用前回归信息,由此,生成上述测试用特征图和上述测试用2D边界框。
根据本发明的另一实施方式,一种基于CNN检测至少一个伪(Pseudo)3D边界框的学习装置的特征在于,包括:至少一个存储器,其存储指令;以及至少一个处理器,其构成为能够实施上述指令,该指令用于执行如下处理:处理I),在对于至少一个训练图像应用至少一次卷积运算而生成特征图且2D边界框在上述训练图像中包括至少一个对象时,使池化层(Pooling Layer)对于上述特征图上与上述2D边界框对应的至少一个区域应用至少一次池化运算,而生成至少一个池化特征图,并使类型–分类层(Type-Classifying Layer)参照上述池化特征图,来判断上述池化特征图内的上述对象的图像是否被截断(Truncate);处理II),如果在上述对象的图像是被截断的状态时,将上述对象称为第一类型(First Type),而在上述对象的图像是没有被截断的状态时,将上述对象称为第二类型(Second Type),则参照上述池化特征图内的上述对象的图像是否被截断相关的信息,使分别与上述第一类型和上述第二类型对应的各个FC层中的一个对于上述池化特征图应用至少一次神经网络运算,而生成与上述伪3D边界框对应的框型(Box Pattern)信息;处理III),i)使分别与上述FC层对应的各个分类层参照上述框型信息,输出上述对象的方向相关的方向类信息,ii)并使分别与上述FC层对应的各个回归层参照上述框型信息,生成与上述2D边界框的坐标对应的上述伪3D边界框的坐标相关的回归信息;以及处理IV),使至少一个FC损耗层参照上述方向类信息、上述回归信息、及与此对应的至少一个GT,生成至少一个类损耗值及至少一个回归损耗值,从而通过使上述类损耗值及上述回归损耗值反向传播,来学习上述FC层的参数。
在一实施例中,其特征在于,在上述处理I)之后,上述处理器使类型损耗层参照上述对象的图像是否被截断相关的信息及与上述对象的图像对应的对象–类型GT,而生成至少一个类型损耗值,从而通过使上述类型损耗值反向传播,来调整上述类型–分类层的参数的至少一部分。
在一实施例中,其特征在于,在上述处理I)中,上述处理器使上述类型–分类层在仅包括上述池化特征图上出现的上述对象的一部分的区域与包括上述对象整体的区域的比率为规定的临界值以下时,判断为上述对象的图像被截断,在上述比率超过上述规定的临界值时,判断为上述对象的图像没有被截断。
在一实施例中,其特征在于,在上述处理III)中,上述处理器使各个上述回归层利用i)从上述2D边界框的顶点到上述对象的前面和后面分别所对应的各个实例边界框的顶点为止的各个位移(Displacement);以及ii)从上述2D边界框的中心到上述各个实例边界框的各个中心为止的各个位移、及上述2D边界框的宽度/高度比率与上述实例边界框的各个宽度/高度比率之间的各个差值中的至少一个,生成上述回归信息。
在一实施例中,其特征在于,在上述处理II)中,上述处理器在上述对象为上述第一类型时,使与上述第一类型对应的第一FC层对于上述池化特征图应用神经网络运算,而生成与上述伪3D边界框对应的第一框型信息,并在上述对象为上述第二类型时,使与上述第二类型对应的第二FC层对于上述池化特征图应用神经网络运算,而生成与上述伪3D边界框对应的第二框型信息;在上述处理III)中,上述处理器i)使与上述第一FC层对应的第一分类层参照上述第一框型信息,生成与具有上述第一类型的上述对象的方向对应的第一方向类信息,并使与上述第一FC层对应的第一回归层参照上述第一框型信息,生成与上述2D边界框的上述坐标对应的上述伪3D边界框的上述坐标相关的第一回归信息,ii)使与上述第二FC层对应的第二分类层参照上述第二框型信息,生成与具有上述第二类型的上述对象的方向对应的第二方向类信息,并使与上述第二FC层对应的第二回归层参照上述第二框型信息,生成与上述2D边界框的上述坐标对应的上述伪3D边界框的上述坐标相关的第二回归信息。
在一实施例中,其特征在于,在上述处理IV)中,上述处理器i)使与上述第一FC层对应的第一FC损耗层参照上述第一方向类信息、上述第一回归信息、及与此对应的至少一个第一GT,生成至少一个第一方向类损耗值及至少一个第一框回归损耗值,从而通过使上述第一方向类损耗值及上述第一框回归损耗值反向传播,来学习上述第一FC层的参数,ii)使与上述第二FC层对应的第二FC损耗层参照上述第二方向类信息、上述第二回归信息、及与此对应的至少一个第二GT,生成至少一个第二方向类损耗值及至少一个第二框回归损耗值,从而通过使上述第二方向类损耗值及上述第二框回归损耗值反向传播,来学习上述第二FC层的参数。
在一实施例中,其特征在于,从基于前CNN(Preceding CNN)的对象检测器获取上述特征图和上述2D边界框。
在一实施例中,其特征在于,将上述训练图像输入到上述对象检测器,上述对象检测器i)使前卷积层(Preceding Convolutional Layer)对于上述训练图像执行卷积运算而生成上述特征图,ii)并使RPN从上述特征图生成与上述训练图像内的上述对象对应的至少一个建议框,iii)使前池化层(Preceding Pooling Layer)对于上述特征图上与上述建议框对应的至少一个区域应用池化运算,而生成前池化特征图,iv)使前FC层(Preceding FCLayer)生成与上述对象对应的对象架构信息,v)使前分类层(Preceding ClassificationLayer)参照上述对象架构信息生成与上述对象的类对应的对象类信息,vi)使前回归层(Preceding Regression Layer)参照上述对象架构信息,生成与上述对象对应的上述2D边界框相关的前回归信息,由此生成上述特征图和上述2D边界框。
在一实施例中,其特征在于,在通过检测器学习装置学习上述对象检测器的状态下,上述检测器学习装置使上述对象检测器内的类型损耗层参照上述对象的图像是否被截断相关的信息及与上述图像对应的对象–类型GT,生成至少一个类型损耗值,从而通过使上述类型损耗值反向传播,来调整上述对象检测器内的类型–分类层的参数的至少一部分。
根据本发明的又一实施方式,一种基于CNN检测至少一个伪(Pseudo)3D边界框的测试装置的特征在于,包括:至少一个存储器,其存储指令;以及至少一个处理器,其构成为能够实施上述指令,该指令用于执行如下处理,即:学习装置在获取到对于至少一个训练图像应用至少一次卷积运算而生成的学习用特征图和上述训练图像中包括至少一个学习用对象的至少一个学习用2D边界框时,执行如下处理:处理i)使池化层(Pooling Layer)对于上述学习用特征图上与上述学习用2D边界框对应的至少一个区域应用至少一次池化运算,而生成至少一个学习用池化特征图,并使类型–分类层(Type-Classifying Layer)参照上述学习用池化特征图,来判断上述学习用池化特征图内的上述学习用对象的图像是否被截断(Truncate);处理ii),如果在上述学习用对象的图像是被截断的状态时,将上述学习用对象称为第一类型(First Type),而在上述学习用对象的图像是没有被截断的状态时,将上述学习用对象称为第二类型(Second Type),则参照上述学习用池化特征图内的上述学习用对象的图像是否被截断相关的信息,使分别与上述第一类型和上述第二类型对应的各个FC层中的一个对于上述学习用池化特征图应用至少一次神经网络运算,而生成与上述学习用伪3D边界框对应的学习用框型(Box Pattern)信息;处理iii),使分别与上述FC层对应的各个至少一个分类层参照上述学习用框型信息,输出上述学习用对象的方向相关的方向类信息,并使分别与上述FC层对应的各个至少一个回归层参照上述学习用框型信息,生成与上述学习用2D边界框的坐标对应的上述学习用伪3D边界框的坐标相关的学习用回归信息;以及处理iv),使至少一个FC损耗层参照上述学习用方向类信息、上述学习用回归信息、及与此对应的至少一个GT,生成至少一个类损耗值及至少一个回归损耗值,从而通过使上述类损耗值及上述回归损耗值反向传播,来学习上述FC层的参数,在执行以上所述的处理的状态下,执行如下处理:处理I),在对于至少一个测试图像应用至少一次卷积运算而生成测试用特征图且测试用2D边界框在上述测试图像中包括至少一个测试用对象时,使上述池化层(Pooling Layer)对于至少一个上述测试用特征图上与至少一个上述测试用2D边界框对应的至少一个区域应用至少一次池化运算,而生成至少一个测试用池化特征图,并使上述类型–分类层(Type-Classifying Layer)参照上述测试用池化特征图,来判断上述测试用池化特征图内的上述测试用对象的图像是否被截断(Truncate);处理II),如果在上述测试用对象的图像是被截断的状态时,将上述测试用对象称为上述第一类型(First Type),而在上述测试用对象的图像是没有被截断的状态时,将上述测试用对象称为上述第二类型(Second Type),则参照上述测试用池化特征图内的上述测试用对象的图像是否被截断相关的信息,使分别与上述第一类型和上述第二类型对应的各个上述FC层中的一个对于上述测试用池化特征图应用至少一次神经网络运算,而生成与上述测试用伪3D边界框对应的测试用框型(Box Pattern)信息;处理III),i)使分别与上述FC层对应的各个上述分类层参照上述测试用框型信息,生成上述测试用对象的方向相关的测试用方向类信息,ii)并使分别与上述FC层对应的各个上述回归层参照上述测试用框型信息,生成与上述测试用2D边界框的上述坐标对应的上述测试用伪3D边界框的上述坐标相关的测试用回归信息。
在一实施例中,其特征在于,上述学习装置使类型损耗层(Type Loss Layer)参照上述学习用对象的图像是否被截断相关的信息及与上述学习用对象的图像对应的对象–类型(Object-Type)GT,而生成至少一个类型损耗值,从而通过利用上述类型损耗值的反向传播,来调整上述类型–分类层的参数的至少一部分。
在一实施例中,其特征在于,在上述处理I)中,上述处理器使上述类型–分类层在仅包括上述测试用池化特征图上出现的上述测试用对象的一部分的区域与包括上述测试用对象整体的区域的比率为规定的临界值以下时,判断为上述测试用对象的图像被截断,在上述比率超过上述规定的临界值时,判断为上述测试用对象的图像没有被截断。
在一实施例中,其特征在于,在上述处理III)中,上述处理器使各个上述回归层利用i)从上述测试用2D边界框的顶点到上述测试用对象的前面和后面分别所对应的各个测试用实例边界框的顶点为止的各个位移(Displacement);以及ii)从上述测试用2D边界框的中心到上述各个测试用实例边界框的各个中心为止的各个位移、及上述测试用2D边界框的宽度/高度比率与上述测试用实例边界框的各个宽度/高度比率之间的各个差值中的至少一个,生成上述测试用回归信息。
在一实施例中,其特征在于,在上述处理II)中,上述处理器在上述测试用对象为上述第一类型时,使与上述第一类型对应的第一FC层对于上述测试用池化特征图应用神经网络运算,而生成与上述测试用伪3D边界框对应的测试用第一框型信息,并在上述测试用对象为上述第二类型时,使与上述第二类型对应的第二FC层对于上述测试用池化特征图应用神经网络运算,而生成与上述测试用伪3D边界框对应的测试用第二框型信息;在上述处理III)中,上述处理器i)使与上述第一FC层对应的第一分类层参照上述测试用第一框型信息,生成与具有上述第一类型的上述测试用对象的方向对应的测试用第一方向类信息,并使与上述第一FC层对应的第一回归层参照上述测试用第一框型信息,生成与上述测试用2D边界框的上述坐标对应的上述测试用伪3D边界框的上述坐标相关的测试用第一回归信息,ii)使与上述第二FC层对应的第二分类层参照上述测试用第二框型信息,生成与具有上述第二类型的上述测试用对象的方向对应的测试用第二方向类信息,并使与上述第二FC层对应的第一回归层参照上述测试用第二框型信息,生成与上述测试用2D边界框的上述坐标对应的上述测试用伪3D边界框的上述坐标相关的测试用第二回归信息。
在一实施例中,其特征在于,将上述测试图像输入到基于前CNN的对象检测器,上述对象检测器i)使前卷积层(Preceding Convolutional Layer)对于上述测试图像执行卷积运算而生成上述测试用特征图,ii)并使RPN从上述测试用特征图生成与上述测试图像内的上述测试用对象对应的至少一个测试用建议框,iii)使前池化层(Preceding PoolingLayer)对于上述测试用特征图上与上述测试用建议框对应的至少一个区域应用池化运算,而生成测试用前池化特征图,iv)使前FC层(Preceding FC Layer)生成与上述测试用对象对应的测试用对象架构信息,v)使前分类层(Preceding Classification Layer)参照上述测试用对象架构信息生成与上述测试用对象的类对应的测试用对象类信息,vi)使前回归层(Preceding Regression Layer)参照上述测试用对象架构信息,生成与上述测试用对象对应的上述测试用2D边界框相关的测试用前回归信息,由此生成上述测试用特征图和上述测试用2D边界框。
除此之外,还提供一种用于记录实施本发明的方法用的计算机程序的记录介质。
发明的效果
本发明无需用于生成3D坐标的不必要的计算,就能够生成对象的3D边界框,具有能够提高检测对象的准确率的效果。
此外,本发明通过利用伪3D边界框(Pseudo-3D Box),还具有使与3D对象外接的3D边界框(Bounding Box)简单化的另一个效果。
此外,本发明通过利用伪3D边界框的位置信息相关的2D坐标,还具有能够减少计算资源和运算时间的又一个效果。
附图说明
用于本发明实施例的说明中的以下附图是,仅仅是本发明实施例中的一部分,对于本领域技术人员而言,在不需要付出创造性劳动的情况下,能够基于以下附图获得其他附图。
图1是概略地示出根据本发明一实施例的基于CNN检测伪3D边界框的学习装置的图;
图2是概略地示出根据本发明一实施例的基于CNN检测伪3D边界框的学习方法的图;
图3是概略地示出根据本发明一实施例的基于CNN检测伪3D边界框的学习方法中需要考虑的对象的被截断(Truncate)的图像和未被截断的图像的例子的图;
图4是概略地示出根据本发明一实施例的基于CNN检测伪3D边界框的学习方法中需要考虑的对象方向的类型的图;
图5是概略地示出根据本发明一实施例的基于CNN检测伪3D边界框的学习方法中生成伪3D边界框中的位置信息的处理的图;
图6是概略地示出根据本发明一实施例的基于CNN检测伪3D边界框的学习方法中生成伪3D边界框中的位置信息的另一个处理的图;
图7是概略地示出根据本发明一实施例的基于CNN检测伪3D边界框的测试装置的图;
图8是概略地示出根据本发明一实施例的基于CNN检测伪3D边界框的测试方法的图。
附图标记说明如下:
100学习装置 110通信部 120处理器
130数据库 200测试装置 210通信部 220处理器
具体实施方式
后述的关于本发明的详细说明是,为了明确本发明的目的、技术上的理解及优点,作为能够实施本发明的特定实施例而举出的例子,可以参照附图。对这些实施例进行详细说明,以便能够使本领域技术人员实施本发明。
此外,本发明的实施方式及权利要求书中,“包括”的用语及它们的变形不能解释为排除其他技术特征、附加特征、构成要素或步骤。对于本领域技术人员来讲,本发明的其他目的、优点及特征的一部分能够从本说明书中得知,而另一部分能够从本发明的实施过程中得知。以下的例示及附图仅作为实施例提供,而不能解释为限定本发明。
本发明中所提及的各种图像可以包括铺装或非铺装道路相关的图像,该情况下,可以设想在道路环境下能够出现的物体(例如,车辆、人、动物、植物、物件、建筑物、如飞机或无人机的飞行物体、其他障碍物),但是不限定于此,本发明中所提及的各种图像可以是与道路无关的图像(例如,与非铺装道路、小路、空地、海洋、湖水、江河、大山、树林、沙漠、天空、室内相关的图像),该情况下,可以设想在非铺装道路、胡同、空地、海洋、湖水、江河、大山、树林、沙漠、天空、室内环境下能够出现的物体(例如,车辆、人、动物、植物、物件、建筑物、如飞机或无人机的飞行物体、其他障碍物),但是不限定于此。
以下,为了能够使本领域技术人员容易实施本发明,参照附图详细说明本发明的优选实施例。
图1是概略地示出根据本发明一实施例的基于CNN检测至少一个伪3D边界框的学习装置的图,参照图1,学习装置100包括通信部110和处理器120。而且,学习装置还包括能够存储用于执行后述处理的计算机能够读取的指令(Instruction)的存储器115。根据一实施例,处理器、存储器、记录介质等能够合并成集成处理器(Integrated Processor)。
首先,通信部110获取至少一个输入特征图和至少一个2D边界框或支援其他装置获取。在此,输入特征图是对于至少一个训练图像应用至少一次卷积运算而生成的,2D边界框对于训练图像设定至少一个与对象外接的框。
此时,通信部100将存储在数据库130中的训练图像输入到对象检测器,从而从数据库130或基于CNN的对象检测器获取输入特征图上的信息和2D边界框,或支援其他装置获取。利用对象检测器生成输入特征图和2D边界框的处理将在后面进行详细说明。另外,数据库130存储与2D边界框对应的对象的方向相关的类信息及伪3D边界框的位置信息相关的至少一个GT(Ground Truth)。进而,数据库130还可以存储训练图像内的对象的2D边界框相关的位置信息所对应的至少一个GT及与对象类对应的至少一个GT。
接着,处理器120使池化层(Pooling Layer)对于输入特征图上的与2D边界框对应的至少一个区域应用至少一次池化运算而生成至少一个池化特征图,并使类型–分类层(Type-Classifying Layer)参照池化特征图来判断池化特征图上的对象图像是否被截断。如果在对象的图像是被截断的状态时,将对象称为第一类型(First Type),而在对象的图像是没有被截断的状态时,将对象称为第二类型(Second Type),则处理器120参照池化特征图内的对象是否被截断相关的信息,使分别与第一类型和第二类型对应的各个FC层的一个对于池化特征图应用至少一次神经网络运算,而生成与伪3D边界框对应的框型(BoxPattern)信息。此外,处理器120(i)使至少一个分类层参照框型信息,生成与对象的方向(Orientation)对应的方向类信息,(ii)使分别与FC层对应的各个回归层参照框型信息,生成与2D边界框的坐标对应的伪3D边界框的坐标相关的回归信息。之后,处理器120使至少一个FC损耗层参照方向类信息、回归信息、及与此对应的GT,生成至少一个类损耗值及至少一个回归损耗值,从而通过利用类损耗值及回归损耗值的反向传播(Backpropagation)来学习FC层的参数。
接着,处理器120使类型损耗层参照对象的图像是否被截断相关的信息及与此对应的对象–类型GT,生成至少一个类型损耗值,从而通过使类型损耗值反向传播,来调整类型–分类层的参数的至少一部分。
作为其他例子,(与图2不同)对象检测器10通过检测器–学习装置(未图示)学习后的状态下,检测器–学习装置使对象检测器10内的类型损耗层参照对象的图像是否被截断相关的信息及与此对应的对象–类型GT生成类型损耗值,从而通过使类型损耗值反向传播,来调整检测器10内的类型–分类层的参数的至少一部分。即,在被称为前CNN(PrecedingCNN)的基于CNN的对象检测器10完成学习时,类型–分类层也一起完成学习。在此,“前(Preceding)”这一用语是为了避免学习装置100上的混乱,可用于对象检测器10内的层、输入及输出,详细内容将在后面说明。
此时,根据本发明一实施例的学习装置100为计算装置,只要是搭载处理器而具备运算能力的装置,就能够用作根据本发明的学习装置100。而且,图1中仅示出了一个学习装置100,但不限定于此,学习装置100能够分成多个来发挥作用。
参照图2,说明利用如上构成的根据本发明一实施例的学习装置100来基于CNN检测伪3D边界框的学习方法如下。
首先,学习装置100获取对于训练图像执行卷积运算而生成的特征图和包括训练图像内的对象的2D边界框。
此时,学习装置100进行支援,以使训练图像被输入到基于前CNN的对象检测器10中,由此学习装置100从对象检测器10或从数据库(未图示)获取特征图和2D边界框,或支援其他装置获取。
此外,简要说明从对象检测器10获取输入特征图和2D边界框的处理如下。在此,“前(Preceding)”这一用语是为了避免学习装置100上的混乱,而用于本发明中最重要的装置即学习装置100的输入端之前配置的对象检测器10内的层、输入及输出。以下,对象检测器10内的针对各个层的运算由对象检测器10来控制,但根据情况的不同,也可以由学习装置100来控制。
在对象检测器10从数据库获取训练图像之后,使已学习对象检测器10的至少一个卷积层11对于训练图像应用卷积运算而输出至少一个前特征图。此外,使已学习对象检测器10的前RPN12从前特征图生成与位于训练图像内的对象对应的前建议框(proposalbox),并使至少一个前池化层13对于与各个前建议框对应的前特征图上的各个区域应用池化运算而生成至少一个前池化特征图。之后,对象检测器10使已学习的至少一个前FC层14对于前池化特征图应用神经网络运算而生成与对象对应的前对象架构信息。此时,与特征对应的前对象架构信息包括要检测的对象类中可预测到的对象类相关的信息、以及边界框相关的预计位置信息。此外,对象检测器10使至少一个前分类层15参照前对象架构信息生成对象相关的前类信息(例如,要检测的各个类的概率信息),并使至少一个前回归层16参照前对象架构信息生成与对象对应的前回归信息。此时,2D边界框参照前建议框和前回归信息来生成。由此,学习装置100利用由基于CNN的对象检测器10的前卷积层11生成的前特征图和由前回归层16生成的前回归信息,能够获取特征图和训练图像内的对象相关的2D边界框。
接着,在获取到特征图和2D边界框时,学习装置100使池化层121对于特征图上与2D边界框对应的区域应用池化运算,而生成池化特征图。
此外,学习装置100使类型–分类层122参照池化特征图,判断池化特征图内的对象的图像是否被截断。
作为一例,参照图3,使类型–分类层122在仅包括池化特征图上所示的对象的一部分的区域与包括对象整体的区域的比率a为,如所示那样,在规定的临界值以下的情况下,判断为对象的图像被截断,在比率超过规定的临界值的情况下,判断为对象的图像没有被截断。
此时,类型–分类层122包括对于池化特征图应用神经网络运算的FC层,或包括FCN(Fully Convolution Network)。
接着,如果在对象的图像被截断的状态时,将对象称为第一类型(First Type),而在对象的图像没有被截断的状态时,将对象称为第二类型(Second Type),则学习装置100参照池化特征图内的对象的图像是否被截断相关的信息,使分别与第一类型和第二类型对应的各个FC层123-1、123-2中的一个对于池化特征图应用神经网络运算,而生成与伪3D边界框对应的框型(Box Pattern)信息。此时,与特征对应的框型信息可以是与要检测的对象的方向类中可预测到的方向类相关的信息、和可预测到的伪3D边界框的位置相关的信息。
作为一例,参照类型–分类层122的判断结果,在对象为第一类型时,学习装置100使FC层中与第一类型对应的第一FC层123-1对于池化特征图应用神经网络运算,而生成与伪3D边界框对应的第一框型信息。并且,参照类型–分类层122的判断结果,在对象为第二类型时,学习装置100使FC层中的第二FC层123-2对于池化特征图应用神经网络运算,而生成与伪3D边界框对应的第二框型信息。
接着,学习装置100:i)使分别与伪3D边界框生成用FC层123-1、123-2对应的各个分类层124-11、124-21参照框型信息,生成与对象的方向对应的方向类信息,ii)使分别与FC层123-1、123-2对应的各个回归层124-12、124-22参照框型信息,生成与2D边界框的坐标对应的伪3D边界框的坐标相关的回归信息。
作为一例,使与第一FC层123-1对应的分类层124-11参照第一框型信息,生成与具有第一类型的对象的方向对应的第一方向类信息。例如,学习装置100参照第一框型信息,生成与各个方向类有关的概率信息,将概率最高的特定方向类判断为该对象的方向类。学习装置100使与第一FC层123-1对应的第一回归层124-12参照第一框型信息,生成与2D边界框的坐标对应的伪3D边界框的坐标相关的第一回归信息。学习装置100使与第二FC层对应的第二分类层124-21参照第二框型信息,生成与具有第二类型的对象的方向对应的第二方向类信息。例如,学习装置100参照第二框型信息生成与各个方向类有关的概率信息,并将概率最高的特定方向类判断为该对象的方向类。学习装置100使与第二FC层对应的第二回归层124-22参照第二框型信息,生成与2D边界框的坐标对应的伪3D边界框的坐标相关的第二回归信息。
此时,参照图4,方向类是用于判断对象的方向的,以汽车为例,方向类分别表示如下:(a)的情况表示对象的后面,(b)的情况表示对象的右侧后面,(c)的情况表示对象的右侧面,(d)的情况表示对象的右侧前面,(e)的情况表示对象的前面,(f)的情况表示对象的左侧前面,(g)的情况表示对象的左侧面,(h)的情况表示对象的左侧后面。
此外,学习装置100使回归层124-12、124-22利用i)从2D边界框的顶点到对象的前面和后面分别所对应的各个实例边界框的顶点为止的各个位移(Displacement);以及ii)从2D边界框的中心到各个实例边界框的各个中心为止的各个位移、及2D边界框的宽度/高度比率与实例边界框的各个宽度/高度比率之间的各个差值中的至少一个,生成回归信息。此时,各个实例边界框的至少一个顶点各个分别对应于构成对角线的2D边界框的各个顶点。
作为一例,参照图5,将i)对象的前面和后面中任一面所对应的实例边界框P1、P2、P3、P4与ii)2D边界框B1、B2、B3、B4的顶点之间的位移、以及i)对象的前面和后面中另一面所对应的实例边界框P5、P6、P7、P8与ii)2D边界框B1、B2、B3、B4的顶点之间位移,作为回归信息生成。此时,一个实例边界框的顶点P1与2D边界框的顶点B1相匹配,另一个实例边界框的顶点P8与2D边界框的顶点B4相匹配。而且,关于对象的前面和后面的判断是能够通过来自分类层123的类信息来确认。
此外,回归信息分别包括一个实例边界框内的左侧上端的顶点P1与P5之间的位移、以及另一个实例边界框内的右侧下端的顶点P4与P8之间的位移,该情况下,一个实例边界框的左侧上端的顶点P1与2D边界框的左侧上端的顶点B1相匹配,另一个实例边界框的右侧下端的顶点P8与2D边界框的右侧下端的顶点即B4相匹配,因此,回归信息包括顶点B4与顶点P4之间的位移、以及顶点B1与顶点P5之间的位移。另外,与此不同,回归信息也可以包括从一个实例边界框的顶点P1、P2、P3、P4到另一个实例边界框的顶点P5、P6、P7、P8为止的各个位移。
作为另一例,参照图6,回归信息包括i)对象的前面和后面中任一面所对应的一个实例边界框的顶点P1、P2、P3、P4的中心C1与2D边界框的顶点B1、B2、B3、B4的中心C0之间的位移、ii)对象的前面和后面中另一面所对应的另一个实例边界框的顶点P5、P6、P7、P8的中心C2与中心C0之间的位移、以及iii)从一个实例边界框的顶点P1、P2、P3、P4的宽度W1与高度H1到2D边界框的宽度W0和高度H0为止的各个位移、及从另一个实例边界框的宽度W2与高度H2到2D边界框的宽度W0和高度H0为止的各个位移,由此,参照回归信息,能够确认一个实例边界框及另一个实例边界框的各个顶点相关的坐标。
另一方面,将构成对角线的2D边界框的各个顶点(例如,B1和B4)作为第一顶点第二顶点,将至少一个顶点与第一顶点相匹配的实例边界框作为第一实例边界框,并将至少一个顶点与第二顶点相匹配的实例边界框作为第二实例边界框,该情况下,学习装置100:i)以上述顶点位于构成2D边界框的第一对(First Pair)两条相邻的线上的方式,连接第一及第二实例边界框的顶点;并以上述顶点位于2D边界框的另一对即第二对(Second Pair)两条相邻的线上的方式,连接第一及第二实例边界框的顶点,在各个第一及第二对线上的两条相邻的线与构成对角线的各个顶点的任一个均不相交;ii)将在2D边界框的任一线上均不存在的第二实例边界框的顶点与第一顶点连接之后,将在2D边界框的任一线上均不存在的第一实例边界框的顶点与第二顶点连接,并参照类信息生成伪3D边界框。
即,如图5及图6所示,在从顶点B1起经过顶点B2到顶点B4为止的线上的、一个实例边界框的顶点P2与另一个实例边界框的顶点P6被连接,在从顶点B1起经过顶点B3到顶点B4为止的线上的、一个实例边界框的顶点P3与另一个实例边界框的顶点P7被连接。此外,一个实例边界框的顶点P1与另一个实例边界框的顶点P5被连接,顶点P4与顶点P8被连接。由此,学习装置100以六面体的形态生成伪3D边界框,伪3D边界框包括:由顶点P1、P2、P4、P3形成的一个面;由顶点P5、P6、P8、P7形成的一个面;由顶点P1、P5、P7、P3形成的一个面;由顶点P2、P6、P8、P4形成的一个面;由顶点P1、P2、P6、P5形成的一个面;以及由顶点P3、P4、P8、P7形成的一个面。
接着,学习装置100使至少一个FC损耗层125-11、125-12、125-21、125-22参照方向类信息、回归信息、及与此对应的至少一个GT,生成至少一个类损耗值及至少一个回归损耗值,从而通过利用类损耗值及回归损耗值的反向传播来学习FC层123-1、123-2的参数。
作为一例,学习装置100:i)使与第一FC层123-1对应的第一FC损耗层125-11、125-12参照第一方向类信息、第一回归信息、及与此对应的至少一个GT,生成至少一个第一方向类损耗值及至少一个第一框回归损耗值,从而通过利用第一方向类损耗值及第一框回归损耗值的反向传播来学习第一FC层123-1的参数;ii)使与第二FC层123-2对应的至少一个第二FC损耗层125-21、125-22参照第二方向类信息、第二回归信息、及与此对应的至少一个GT,生成至少一个第二方向类损耗值及至少一个第二框回归损耗值,从而通过利用第二方向类损耗值及第二框回归损耗值的反向传播来学习第二FC层123-2的参数。
另外,学习装置100使类型损耗层126参照对象的图像是否被截断相关的信息及与此对应的对象类型GT,来生成至少一个类型损耗值,从而能够通过利用类型损耗值的反向传播来调整类型–分类层122的至少一个参数。
另外,(与图6不同)在对象检测器10通过检测器–学习装置(未图示)学习的状态下,检测器–学习装置使对象检测器10内的类型损耗层(未图示)参照对象的图像是否被截断相关的信息及与此对应的对象类型GT,来生成类型损耗值,从而能够通过利用类型损耗值的反向传播来调整类型–分类层122的参数中的至少一部分。即,在学习基于前CNN的对象检测器10时,能够一起学习类型–分类层122。
图7是概略地示出根据本发明一实施例的基于CNN检测伪3D边界框的测试装置的图,参照图7,测试装置200包括通信部210和处理器220。而且,测试装置还包括存储用于执行后述处理的计算机可读取的指令(Instruction)的存储器115。根据一实施例,处理器、存储器、记录介质等能够合并为集成处理器(Integrated Processor)。
作为参考,以下说明中为了避免混淆,“学习用”这一词附加于之前说明的学习处理相关联的用语,“测试用”这一词附加于测试处理相关联的用语。
首先,参照图1及图2说明的学习装置执行如下处理:处理a),在获取到对于至少一个训练图像应用至少一次卷积运算而生成的至少一个学习用特征图、和训练图像中包括至少一个学习用对象的至少一个学习用2D边界框时,使池化层(Pooling Layer)对于学习用特征图上与学习用2D边界框对应的至少一个区域应用至少一次池化运算而生成至少一个学习用池化特征图,并使类型–分类层(Type-Classifying Layer)参照学习用池化特征图来判断学习用池化特征图内的学习用对象的图像是否被截断(Truncate);处理b),如果在学习用对象的图像是被截断的状态时,将学习用对象称为第一类型(First Type),而在学习用对象的图像没有被截断的状态时,将学习用对象称为第二类型(Second Type),则参照学习用池化特征图中的学习用对象的图像是否被截断相关的信息,使分别与第一类型和第二类型对应的各个FC层中的一个对于学习用池化特征图应用神经网络运算,而生成与学习用伪3D边界框对应的学习用框型(Box Pattern)信息;处理c),i)使分别与FC层对应的各个至少一个分类层参照学习用框型信息,生成学习用对象的方向相关的学习用方向类信息,ii)使分别与FC层对应的各个回归层参照学习用框型信息,生成与学习用2D边界框的坐标对应的学习用伪3D边界框的坐标相关的学习用回归信息;以及处理d),使FC损耗层参照学习用方向类信息、学习用回归信息、及与此对应的至少一个GT,生成类损耗值及至少一个回归损耗值,从而通过使类损耗值及回归损耗值反向传播,来学习FC层的参数,在执行以上处理的状态下,通信部210获取至少一个测试用特征图和至少一个测试用2D边界框,或支援其他装置获取。此时,测试用特征图是对于测试图像执行卷积运算而生成的,测试用2D边界框包括从对象检测器测出的测试用图像上的至少一个测试用对象。
接着,处理器220执行如下处理或支援其他装置执行:处理a),使池化层对于测试用特征图上与测试用2D边界框对应的至少一个区域应用池化运算,而生成至少一个测试用池化特征图,并使类型–分类层参照测试用池化特征图,来判断测试用池化特征图上的测试用对象的图像是否被截断(Truncate);处理b),如果在测试用对象的图像被截断的状态时,将测试用对象称为第一类型(First Type),而在测试用对象的图像没有被截断的状态时,将测试用对象称为第二类型(Second Type),则参照测试用池化特征图中的测试用对象的图像是否被截断相关的信息,使分别与第一类型和第二类型对应的各个FC层中的一个对于测试用池化特征图应用神经网络运算,而生成与测试用伪3D边界框对应的测试用框型(BoxPattern)信息;以及处理c),i)使分别与FC层对应的各个分类层参照测试用框型信息,生成测试用对象的方向相关的测试用方向类信息,ii)使分别与FC层对应的各个回归层参照测试用框型信息,生成与测试用2D边界框的坐标对应的测试用伪3D边界框相关的坐标的测试用回归信息。
此时,根据本发明一实施例的测试装置200是一种计算装置,只要是搭载有处理器并具备运算能力的装置,就能够用作根据本发明的测试装置200。并且,图7中仅示出一个测试装置200,但不限定于此,测试装置能够分成多个来发挥作用。
参照图8,说明利用如上构成的根据本发明一实施例的测试装置200来基于CNN检测伪3D边界框的测试方法。以下说明中,对于能够通过参照图2至图6来说明的学习方法容易理解的部分,省略详细说明。
首先,在通过参照图2至图6来说明的学习方法,学习FC层223-1、223-2的参数的至少一部分及类型–分类层222的状态下,测试图像被输入到基于CNN的对象检测器10中时,测试装置200从对象检测器获取测试用特征图及测试用2D边界框,或支援其他装置获取。
即,在对象检测器10获取到测试图像时,使已学习对象检测器10的前卷积层11对于测试图像应用卷积运算而输出至少一个测试用前特征图。此外,对象检测器10使前RPN12从测试用特征图生成位于测试图像内的测试用对象所对应的测试用前建议框,并使前池化层13对于测试用前特征图上与测试用前建议框对应的各个区域应用池化运算,而生成至少一个测试用前池化特征图。之后,对象检测器10使前FC层14对于测试用前池化特征图应用神经网络运算而生成与测试用对象对应的测试用前对象架构信息。并且,对象检测器10使前分类层15参照测试用前对象架构信息生成测试用对象相关的测试用前类信息,并使前回归层16参照前测试用前对象架构信息生成与测试用对象对应的测试用前回归信息。由此,测试装置200利用由基于CNN的对象检测器10的前卷积层11生成的测试用前特征图和由前回归层16生成的测试用前回归信息,作为测试用特征图和测试图像内的测试用对象相关的测试用2D边界框,获取测试用前特征图,或者支援其他装置获取。
接着,在获取到对于测试图像应用卷积运算而生成测试用特征图和包括测试图像内的测试用对象的测试用2D边界框时,测试装置200使池化层221对于测试用特征图上与测试用2D边界框对应的至少一个区域应用池化运算,而生成测试用池化特征图。
此外,测试装置200使类型–分类层222参照测试用池化特征图,来判断测试用池化特征图上的测试用对象的图像是否被截断。此时,类型–分类层222可以包括对于测试用池化特征图应用神经网络运算的FC层或FCN(Fully Convolution Network)。
接着,测试装置200使分别与第一对象类型及第二对象类型对应的FC层223-1、223-2中的一个参照测试用池化特征图内的测试用对象的图像是否被截断相关的信息,对于测试用池化特征图应用神经网络运算,而生成与伪3D边界框对应的测试用框型信息。
作为一例,参照类型–分类层222的判断结果,在测试用对象为第一对象类型时,测试装置200使FC层中与第一类型对应的第一FC层223-1对于测试用池化特征图应用神经网络运算,而生成与伪3D边界框对应的测试用第一框型信息。并且,参照类型–分类层222的判断结果,在测试用对象为第二类型时,使FC层中与第二类型对应的第二FC层223-2对于测试用池化特征图应用神经网络运算,而生成与伪3D边界框对应的测试用第二框型信息。
接着,测试装置200:i)使分别与FC层223-1、223-2对应的各个分类层224-11、224-21参照测试用框型信息,生成测试用对象的方向相关的测试用方向类信息,ii)并使分别与FC层223-1、223-2对应的各个回归层224-12、224-22参照测试用框型信息,生成与测试用2D边界框的坐标对应的伪3D边界框的坐标相关的测试用回归信息。
作为一例,测试装置200使与第一FC层223-1对应的第一分类层224-11参照测试用第一框型信息生成与具有第一类型的测试用对象的方向对应的测试用第一方向类信息。
例如,测试装置200参照测试用第一框型信息生成各个方向类相关的概率信息,并将概率最高的特定方向类判断为该测试用对象的方向类。测试装置200使与第一FC层223-1对应的第一回归层224-12参照测试用第一框型信息,生成与2D边界框的坐标对应的伪3D边界框的坐标相关的测试用第一回归信息。测试装置200使与第二FC层223-2对应的第二分类层224-21参照测试用第二框型信息,生成与具有第二类型的测试用对象的方向对应的测试用第二方向类信息。例如,测试装置200参照测试用第二框型信息生成各个方向类相关的概率信息,并将概率最高的特定方向类判断为该测试用对象的方向类。测试装置200使与第二FC层223-2对应的第二回归层224-22参照测试用第二框型信息,生成与2D边界框的坐标对应的伪3D边界框的坐标相关的测试用第二回归信息。
通过学习方法和测试方法,CNN能够根据图像内的对象的条件来转换模式,并根据情况的不同,能够补偿(Rendering)在虚拟驾驶中被截断的对象。
此外,根据本发明一实施例,由于属于敌军的对象的一部分被截断的情况较多,所以也能够用于智能设备及军事目的。
以上说明的根据本发明的实施例能够通过各种计算机构成要素可执行的程序指令的方式得以实现,并可以记录于计算机可读取的存储介质。上述计算机可读取的存储介质可以包括程序指令、数据文件、数据构成等单个或其组合。在上述计算机可读取的存储介质中所记录的程序指令是为本发明而特别设计而构成的,但也可以是计算机软件领域的技术人员所公知并使用的。计算机可读取的存储介质包括如硬盘、盒式磁盘及磁带的磁体媒介、如CD-ROM、DVD这样的光刻录介质、如软盘(floptical disk)这样的磁光介质(magneto-optical media)、以及如ROM、RAN、闪存器这样的用于存储并执行程序指令而特别构成的硬件装置。程序指令语言不仅包括编译而成的机器语言代码,还包括使用解释器的计算机可执行的高级语言代码。为了执行根据本发明的处理,上述硬件装置以一个以上的软件模块运行的方式组成,其相反的情况也同样适用。
以上,通过如具体构成要素等这样的特定事项和限定的实施例及附图来说明了本发明,但这仅仅是为了有助于全面理解本发明而提供的,但本发明并不限定于上述实施例,只要是本领域技术人员均可通过如上所述的内容进行各种修改及变形。
因此,本发明的思想并不限定于如上所述的实施例,不仅包括后述的权利要求书,而且与该权利要求书相同或等同概念导出的所有变形均应属于本发明的思想范围内。

Claims (30)

1.一种基于卷积神经网络CNN检测至少一个伪3D边界框的学习方法,其特征在于,包括如下步骤:
步骤a),在获取到对于至少一个训练图像应用至少一次卷积运算而生成的至少一个特征图和所述训练图像中包括至少一个对象的至少一个2D边界框时,学习装置使池化层对于所述特征图上与所述2D边界框对应的至少一个区域应用至少一次池化运算,而生成至少一个池化特征图,并使类型–分类层参照所述池化特征图,来判断所述池化特征图内的所述对象的图像是否被截断;
步骤b),如果在所述对象的图像是被截断的状态时,将所述对象称为第一类型,而在所述对象的图像是没有被截断的状态时,将所述对象称为第二类型,则所述学习装置参照所述池化特征图内的所述对象的图像是否被截断相关的信息,使分别与所述第一类型和所述第二类型对应的各个全连接FC层中的一个对于所述池化特征图应用至少一次神经网络运算,而生成与所述伪3D边界框对应的框型信息;
步骤c),所述学习装置i)使分别与所述FC层对应的各个分类层参照所述框型信息,输出所述对象的方向相关的方向类信息,ii)并使分别与所述FC层对应的各个回归层参照所述框型信息,生成与所述2D边界框的坐标对应的所述伪3D边界框的坐标相关的回归信息;以及
步骤d),所述学习装置使至少一个FC损耗层参照所述方向类信息和所述回归信息、以及与此对应的至少一个真实值GT,生成至少一个类损耗值及至少一个回归损耗值,从而通过使所述类损耗值及所述回归损耗值反向传播,来学习所述FC层的参数。
2.根据权利要求1所述的基于卷积神经网络CNN检测至少一个伪3D边界框的学习方法,其特征在于,
在所述步骤a)之后,
所述学习装置使类型损耗层参照所述对象的图像是否被截断相关的信息及与所述对象的图像对应的对象–类型GT,而生成至少一个类型损耗值,
从而通过使所述类型损耗值反向传播,来调整所述类型–分类层的参数的至少一部分。
3.根据权利要求1所述的基于卷积神经网络CNN检测至少一个伪3D边界框的学习方法,其特征在于,
在所述步骤a)中,
所述学习装置使所述类型–分类层在仅包括所述池化特征图上出现的所述对象的一部分的区域与包括所述对象整体的区域的比率为规定的临界值以下时,判断为所述对象的图像被截断,在所述比率超过所述规定的临界值时,判断为所述对象的图像没有被截断。
4.根据权利要求1所述的基于卷积神经网络CNN检测至少一个伪3D边界框的学习方法,其特征在于,
在所述步骤c)中,
所述学习装置使各个所述回归层利用i)从所述2D边界框的顶点到所述对象的前面和后面分别所对应的各个实例边界框的顶点为止的各个位移;以及ii)从所述2D边界框的中心到所述各个实例边界框的各个中心为止的各个位移、及所述2D边界框的宽度/高度比率与所述实例边界框的各个宽度/高度比率之间的各个差值中的至少一个,生成所述回归信息。
5.根据权利要求1所述的基于卷积神经网络CNN检测至少一个伪3D边界框的学习方法,其特征在于,
在所述步骤b)中,
所述学习装置在所述对象为所述第一类型时,使与所述第一类型对应的第一FC层对于所述池化特征图应用神经网络运算,而生成与所述伪3D边界框对应的第一框型信息,并在所述对象为所述第二类型时,使与所述第二类型对应的第二FC层对于所述池化特征图应用神经网络运算,而生成与所述伪3D边界框对应的第二框型信息,
在所述步骤c)中,
所述学习装置i)使与所述第一FC层对应的第一分类层参照所述第一框型信息,生成与具有所述第一类型的所述对象的方向对应的第一方向类信息,并使与所述第一FC层对应的第一回归层参照所述第一框型信息,生成与所述2D边界框的所述坐标对应的所述伪3D边界框的所述坐标相关的第一回归信息,ii)使与所述第二FC层对应的第二分类层参照所述第二框型信息,生成与具有所述第二类型的所述对象的方向对应的第二方向类信息,并使与所述第二FC层对应的第二回归层参照所述第二框型信息,生成与所述2D边界框的所述坐标对应的所述伪3D边界框的所述坐标相关的第二回归信息。
6.根据权利要求5所述的基于卷积神经网络CNN检测至少一个伪3D边界框的学习方法,其特征在于,
在所述步骤d)中,
所述学习装置i)使与所述第一FC层对应的第一FC损耗层参照所述第一方向类信息、所述第一回归信息、及与此对应的至少一个第一GT,生成至少一个第一方向类损耗值及至少一个第一框回归损耗值,从而通过使所述第一方向类损耗值及所述第一框回归损耗值反向传播,来学习所述第一FC层的参数;ii)使与所述第二FC层对应的第二FC损耗层参照所述第二方向类信息、所述第二回归信息、及与此对应的至少一个第二GT,生成至少一个第二方向类损耗值及至少一个第二框回归损耗值,从而通过使所述第二方向类损耗值及所述第二框回归损耗值反向传播,来学习所述第二FC层的参数。
7.根据权利要求1所述的基于卷积神经网络CNN检测至少一个伪3D边界框的学习方法,其特征在于,
所述学习装置从基于前CNN的对象检测器获取所述特征图和所述2D边界框。
8.根据权利要求7所述的基于卷积神经网络CNN检测至少一个伪3D边界框的学习方法,其特征在于,
所述学习装置将所述训练图像输入到所述对象检测器,所述对象检测器i)使前卷积层对于所述训练图像执行卷积运算而生成所述特征图,ii)并使区域推荐网络RPN从所述特征图生成与所述训练图像内的所述对象对应的至少一个建议框,iii)使前池化层对于所述特征图上与所述建议框对应的至少一个区域应用池化运算,而生成前池化特征图,iv)使前FC层生成与所述对象对应的对象架构信息,v)使前分类层参照所述对象架构信息生成与所述对象的类对应的对象类信息,vi)使前回归层参照所述对象架构信息,生成与所述对象对应的所述2D边界框相关的前回归信息,由此生成所述特征图和所述2D边界框。
9.根据权利要求7所述的基于卷积神经网络CNN检测至少一个伪3D边界框的学习方法,其特征在于,
在通过检测器学习装置学习所述对象检测器的状态下,所述检测器学习装置使所述对象检测器内的类型损耗层参照所述对象的图像是否被截断相关的信息和与所述图像对应的对象–类型GT而生成至少一个类型损耗值,从而通过使所述类型损耗值反向传播,来调整所述对象检测器内的类型–分类层的参数的至少一部分。
10.一种基于卷积神经网络CNN检测至少一个伪3D边界框的测试方法,其特征在于,包括如下步骤:
步骤a),学习装置在获取到对于至少一个训练图像应用至少一次卷积运算而生成的至少一个学习用特征图、和所述训练图像中包括至少一个学习用对象的至少一个学习用2D边界框时,执行如下处理:处理i),使池化层对于所述学习用特征图上与所述学习用2D边界框对应的至少一个区域应用至少一次池化运算而生成至少一个学习用池化特征图,并使类型–分类层参照所述学习用池化特征图来判断所述学习用池化特征图内的所述学习用对象的图像是否被截断;处理ii),如果在所述学习用对象的图像是被截断的状态时,将所述学习用对象称为第一类型,而在所述学习用对象的图像没有被截断的状态时,将所述学习用对象称为第二类型,则参照所述学习用池化特征图内的所述学习用对象的图像是否被截断相关的信息,使分别与所述第一类型和所述第二类型对应的各个全连接FC层中的一个对于所述学习用池化特征图应用至少一次神经网络运算,而生成与所述学习用伪3D边界框对应的学习用框型信息;处理iii),使分别与所述FC层对应的各个至少一个分类层参照所述学习用框型信息,输出所述学习用对象的方向相关的学习用方向类信息,并使分别与所述FC层对应的各个至少一个回归层参照所述学习用框型信息,生成与所述学习用2D边界框的坐标对应的所述学习用伪3D边界框的坐标相关的学习用回归信息;以及处理iv)使至少一个FC损耗层参照所述学习用方向类信息、所述学习用回归信息、及与此对应的至少一个真实值GT,生成至少一个类损耗值及至少一个回归损耗值,从而通过使所述类损耗值及所述回归损耗值反向传播,来学习所述FC层的参数,在执行以上处理的状态下,测试装置在获取到对于至少一个测试图像应用至少一次卷积运算而生成的至少一个测试用特征图和所述测试图像中包括至少一个测试用对象的至少一个测试用2D边界框时,使所述池化层对于所述测试用特征图上与所述测试用2D边界框对应的至少一个区域应用至少一次池化运算而生成至少一个测试用池化特征图,并使所述类型–分类层参照所述测试用池化特征图来判断所述测试用池化特征图内的所述测试用对象的图像是否被截断;
步骤b),如果在所述测试用对象的图像是被截断的状态时,将所述测试用对象称为第一类型,而在所述测试用对象的图像没有被截断的状态时,将所述测试用对象称为第二类型,则所述测试装置参照所述测试用池化特征图内的所述测试用对象的图像是否被截断相关的信息,使分别与所述第一类型和所述第二类型对应的各个所述FC层中的一个对于所述测试用池化特征图应用至少一次神经网络运算,而生成与所述测试用伪3D边界框对应的测试用框型信息;以及
步骤c),所述测试装置i)使分别与所述FC层对应的各个分类层参照所述测试用框型信息,输出所述测试用对象的方向相关的测试用方向类信息,ii)并使分别与所述FC层对应的各个回归层参照所述测试用框型信息,而生成与所述测试用2D边界框的所述坐标对应的所述测试用伪3D边界框的所述坐标相关的测试用回归信息。
11.根据权利要求10所述的基于卷积神经网络CNN检测至少一个伪3D边界框的测试方法,其特征在于,
所述学习装置使类型损耗层参照所述学习用对象的图像是否被截断相关的信息及与所述学习用对象的图像对应的对象–类型GT而生成至少一个类型损耗值,从而通过利用所述类型损耗值的反射传播,来调整所述类型–分类层的参数的至少一部分。
12.根据权利要求10所述的基于卷积神经网络CNN检测至少一个伪3D边界框的测试方法,其特征在于,
在所述步骤a)中,
所述测试装置使所述类型–分类层在仅包括所述测试用池化特征图上出现的所述测试用对象的一部分的区域与包括所述测试用对象整体的区域的比率为规定的临界值以下时,判断为所述测试用对象的图像被截断,在所述比率超过所述规定的临界值时,判断为所述测试用对象的图像没有被截断。
13.根据权利要求10所述的基于卷积神经网络CNN检测至少一个伪3D边界框的测试方法,其特征在于,
在所述步骤c)中,
所述测试装置使各个所述回归层利用i)从所述测试用2D边界框的顶点到所述测试用对象的前面和后面分别所对应的各个测试用实例边界框的顶点为止的各个位移、以及ii)从所述测试用2D边界框的中心到所述各个测试用实例边界框的各个中心为止的各个位移、及所述测试用2D边界框的宽度/高度比率与所述测试用实例边界框的各个宽度/高度比率之间的各个差值中的至少一个,生成所述测试用回归信息。
14.根据权利要求10所述的基于卷积神经网络CNN检测至少一个伪3D边界框的测试方法,其特征在于,
在所述步骤b)中,
所述测试装置在所述测试用对象为所述第一类型时,使与所述第一类型对应的第一FC层对于所述测试用池化特征图应用神经网络运算,而生成与所述测试用伪3D边界框对应的测试用第一框型信息,并在所述测试用对象为所述第二类型时,使与所述第二类型对应的第二FC层对于所述测试用池化特征图应用神经网络运算,而生成与所述测试用伪3D边界框对应的测试用第二框型信息,
在所述步骤c)中,
所述测试装置i)使与所述第一FC层对应的第一分类层参照所述测试用第一框型信息,生成与具有所述第一类型的所述测试用对象的方向对应的测试用第一方向类信息,并使与所述第一FC层对应的第一回归层参照所述测试用第一框型信息,生成与所述测试用2D边界框的所述坐标对应的所述测试用伪3D边界框的坐标相关的第一回归信息,ii)使与所述第二FC层对应的第二分类层参照所述测试用第二框型信息,生成与具有所述第二类型的所述测试用对象的方向对应的测试用第二方向类信息,并使与所述第二FC层对应的第二回归层参照所述测试用第二框型信息,生成与所述测试用2D边界框的所述坐标对应的所述测试用伪3D边界框的坐标相关的测试用第二回归信息。
15.根据权利要求10所述的基于卷积神经网络CNN检测至少一个伪3D边界框的测试方法,其特征在于,
所述测试装置将所述测试图像输入到基于前CNN的对象检测器中,所述对象检测器i)使前卷积层对于所述测试图像执行卷积运算而生成所述测试用特征图,ii)并使区域推荐网络RPN12从所述测试用特征图生成与所述测试图像内的所述测试用对象对应的至少一个测试用建议框,iii)并使前池化层对于所述测试用特征图上与所述测试用建议框对应的至少一个区域应用池化运算,而生成测试用前池化特征图,iv)并使前FC层生成与所述测试用对象对应的测试用对象架构信息,v)并使前分类层参照所述测试用对象架构信息生成与所述测试用对象的类对应的测试用对象类信息,vi)并使前回归层参照所述测试用对象架构信息生成与所述测试用对象对应的所述测试用2D边界框相关的测试用前回归信息,由此,生成所述测试用特征图和所述测试用2D边界框。
16.一种基于卷积神经网络CNN检测至少一个伪3D边界框的学习装置,其特征在于,包括:
至少一个存储器,其存储指令;以及
至少一个处理器,其构成为能够实施所述指令,该指令用于执行如下处理:处理I),在对于至少一个训练图像应用至少一次卷积运算而生成特征图且2D边界框在所述训练图像中包括至少一个对象时,使池化层对于所述特征图上与所述2D边界框对应的至少一个区域应用至少一次池化运算,而生成至少一个池化特征图,并使类型–分类层参照所述池化特征图,来判断所述池化特征图内的所述对象的图像是否被截断;处理II),如果在所述对象的图像是被截断的状态时,将所述对象称为第一类型,而在所述对象的图像是没有被截断的状态时,将所述对象称为第二类型,则参照所述池化特征图内的所述对象的图像是否被截断相关的信息,使分别与所述第一类型和所述第二类型对应的各个全连接FC层中的一个对于所述池化特征图应用至少一次神经网络运算,而生成与所述伪3D边界框对应的框型信息;处理III),i)使分别与所述FC层对应的各个分类层参照所述框型信息,输出所述对象的方向相关的方向类信息,ii)并使分别与所述FC层对应的各个回归层参照所述框型信息,生成与所述2D边界框的坐标对应的所述伪3D边界框的坐标相关的回归信息;以及处理IV),使至少一个FC损耗层参照所述方向类信息、所述回归信息、及与此对应的至少一个真实值GT,生成至少一个类损耗值及至少一个回归损耗值,从而通过使所述类损耗值及所述回归损耗值反向传播,来学习所述FC层的参数。
17.根据权利要求16所述的基于卷积神经网络CNN检测至少一个伪3D边界框的学习装置,其特征在于,
在所述处理I)之后,
所述处理器使类型损耗层参照所述对象的图像是否被截断相关的信息及与所述对象的图像对应的对象–类型GT,而生成至少一个类型损耗值,从而通过使所述类型损耗值反向传播,来调整所述类型–分类层的参数的至少一部分。
18.根据权利要求16所述的基于卷积神经网络CNN检测至少一个伪3D边界框的学习装置,其特征在于,
在所述处理I)中,
所述处理器使所述类型–分类层在仅包括所述池化特征图上出现的所述对象的一部分的区域与包括所述对象整体的区域的比率为规定的临界值以下时,判断为所述对象的图像被截断,在所述比率超过所述规定的临界值时,判断为所述对象的图像没有被截断。
19.根据权利要求16所述的基于卷积神经网络CNN检测至少一个伪3D边界框的学习装置,其特征在于,
在所述处理III)中,
所述处理器使各个所述回归层利用i)从所述2D边界框的顶点到所述对象的前面和后面分别所对应的各个实例边界框的顶点为止的各个位移;以及ii)从所述2D边界框的中心到所述各个实例边界框的各个中心为止的各个位移、及所述2D边界框的宽度/高度比率与所述实例边界框的各个宽度/高度比率之间的各个差值中的至少一个,生成所述回归信息。
20.根据权利要求16所述的基于卷积神经网络CNN检测至少一个伪3D边界框的学习装置,其特征在于,
在所述处理II)中,
所述处理器在所述对象为所述第一类型时,使与所述第一类型对应的第一FC层对于所述池化特征图应用神经网络运算,而生成与所述伪3D边界框对应的第一框型信息,并在所述对象为所述第二类型时,使与所述第二类型对应的第二FC层对于所述池化特征图应用神经网络运算,而生成与所述伪3D边界框对应的第二框型信息,
在所述处理III)中,
所述处理器i)使与所述第一FC层对应的第一分类层参照所述第一框型信息,生成与具有所述第一类型的所述对象的方向对应的第一方向类信息,并使与所述第一FC层对应的第一回归层参照所述第一框型信息,生成与所述2D边界框的所述坐标对应的所述伪3D边界框的所述坐标相关的第一回归信息,ii)使与所述第二FC层对应的第二分类层参照所述第二框型信息,生成与具有所述第二类型的所述对象的方向对应的第二方向类信息,并使与所述第二FC层对应的第二回归层参照所述第二框型信息,生成与所述2D边界框的所述坐标对应的所述伪3D边界框的所述坐标相关的第二回归信息。
21.根据权利要求20所述的基于卷积神经网络CNN检测至少一个伪3D边界框的学习装置,其特征在于,
在所述处理IV)中,
所述处理器i)使与所述第一FC层对应的第一FC损耗层参照所述第一方向类信息、所述第一回归信息、及与此对应的至少一个第一GT,生成至少一个第一方向类损耗值及至少一个第一框回归损耗值,从而通过使所述第一方向类损耗值及所述第一框回归损耗值反向传播,来学习所述第一FC层的参数,ii)使与所述第二FC层对应的第二FC损耗层参照所述第二方向类信息、所述第二回归信息、及与此对应的至少一个第二GT,生成至少一个第二方向类损耗值及至少一个第二框回归损耗值,从而通过使所述第二方向类损耗值及所述第二框回归损耗值反向传播,来学习所述第二FC层的参数。
22.根据权利要求16所述的基于卷积神经网络CNN检测至少一个伪3D边界框的学习装置,其特征在于,
从基于前CNN的对象检测器获取所述特征图和所述2D边界框。
23.根据权利要求22所述的基于卷积神经网络CNN检测至少一个伪3D边界框的学习装置,其特征在于,
将所述训练图像输入到所述对象检测器,所述对象检测器i)使前卷积层对于所述训练图像执行卷积运算而生成所述特征图,ii)并使区域推荐网络RPN从所述特征图生成与所述训练图像内的所述对象对应的至少一个建议框,iii)使前池化层对于所述特征图上与所述建议框对应的至少一个区域应用池化运算,而生成前池化特征图,iv)使前FC层生成与所述对象对应的对象架构信息,v)使前分类层参照所述对象架构信息生成与所述对象的类对应的对象类信息,vi)使前回归层参照所述对象架构信息,生成与所述对象对应的所述2D边界框相关的前回归信息,由此生成所述特征图和所述2D边界框。
24.根据权利要求22所述的基于卷积神经网络CNN检测至少一个伪3D边界框的学习装置,其特征在于,
在通过检测器学习装置学习所述对象检测器的状态下,所述检测器学习装置使所述对象检测器内的类型损耗层参照所述对象的图像是否被截断相关的信息及与所述图像对应的对象–类型GT,生成至少一个类型损耗值,从而通过使所述类型损耗值反向传播,来调整所述对象检测器内的类型–分类层的参数的至少一部分。
25.一种基于卷积神经网络CNN检测至少一个伪3D边界框的测试装置,其特征在于,包括:
至少一个存储器,其存储指令;以及
至少一个处理器,其构成为能够实施所述指令,该指令用于执行如下处理,即:学习装置在获取到对于至少一个训练图像应用至少一次卷积运算而生成的学习用特征图和所述训练图像中包括至少一个学习用对象的至少一个学习用2D边界框时,执行如下处理:处理i)使池化层对于所述学习用特征图上与所述学习用2D边界框对应的至少一个区域应用至少一次池化运算,而生成至少一个学习用池化特征图,并使类型–分类层参照所述学习用池化特征图,来判断所述学习用池化特征图内的所述学习用对象的图像是否被截断;处理ii),如果在所述学习用对象的图像是被截断的状态时,将所述学习用对象称为第一类型,而在所述学习用对象的图像是没有被截断的状态时,将所述学习用对象称为第二类型,则参照所述学习用池化特征图内的所述学习用对象的图像是否被截断相关的信息,使分别与所述第一类型和所述第二类型对应的各个全连接FC层中的一个对于所述学习用池化特征图应用至少一次神经网络运算,而生成与所述学习用伪3D边界框对应的学习用框型信息;处理iii),使分别与所述FC层对应的各个至少一个分类层参照所述学习用框型信息,输出所述学习用对象的方向相关的方向类信息,并使分别与所述FC层对应的各个至少一个回归层参照所述学习用框型信息,生成与所述学习用2D边界框的坐标对应的所述学习用伪3D边界框的坐标相关的学习用回归信息;以及处理iv),使至少一个FC损耗层参照所述学习用方向类信息、所述学习用回归信息、及与此对应的至少一个真实值GT,生成至少一个类损耗值及至少一个回归损耗值,从而通过使所述类损耗值及所述回归损耗值反向传播,来学习所述FC层的参数,在执行以上所述的处理的状态下,执行如下处理:处理I),在对于至少一个测试图像应用至少一次卷积运算而生成测试用特征图且测试用2D边界框在所述测试图像中包括至少一个测试用对象时,使所述池化层对于至少一个所述测试用特征图上与至少一个所述测试用2D边界框对应的至少一个区域应用至少一次池化运算,而生成至少一个测试用池化特征图,并使所述类型–分类层参照所述测试用池化特征图,来判断所述测试用池化特征图内的所述测试用对象的图像是否被截断;处理II),如果在所述测试用对象的图像是被截断的状态时,将所述测试用对象称为所述第一类型,而在所述测试用对象的图像是没有被截断的状态时,将所述测试用对象称为所述第二类型,则参照所述测试用池化特征图内的所述测试用对象的图像是否被截断相关的信息,使分别与所述第一类型和所述第二类型对应的各个所述FC层中的一个对于所述测试用池化特征图应用至少一次神经网络运算,而生成与所述测试用伪3D边界框对应的测试用框型信息;处理III),i)使分别与所述FC层对应的各个所述分类层参照所述测试用框型信息,生成所述测试用对象的方向相关的测试用方向类信息,ii)并使分别与所述FC层对应的各个所述回归层参照所述测试用框型信息,生成与所述测试用2D边界框的所述坐标对应的所述测试用伪3D边界框的所述坐标相关的测试用回归信息。
26.根据权利要求25所述的基于卷积神经网络CNN检测至少一个伪3D边界框的测试装置,其特征在于,
所述学习装置使类型损耗层参照所述学习用对象的图像是否被截断相关的信息及与所述学习用对象的图像对应的对象–类型GT,而生成至少一个类型损耗值,从而通过利用所述类型损耗值的反向传播,来调整所述类型–分类层的参数的至少一部分。
27.根据权利要求25所述的基于卷积神经网络CNN检测至少一个伪3D边界框的测试装置,其特征在于,
在所述处理I)中,
所述处理器使所述类型–分类层在仅包括所述测试用池化特征图上出现的所述测试用对象的一部分的区域与包括所述测试用对象整体的区域的比率为规定的临界值以下时,判断为所述测试用对象的图像被截断,在所述比率超过所述规定的临界值时,判断为所述测试用对象的图像没有被截断。
28.根据权利要求27所述的基于卷积神经网络CNN检测至少一个伪3D边界框的测试装置,其特征在于,
在所述处理III)中,
所述处理器使各个所述回归层利用i)从所述测试用2D边界框的顶点到所述测试用对象的前面和后面分别所对应的各个测试用实例边界框的顶点为止的各个位移;以及ii)从所述测试用2D边界框的中心到所述各个测试用实例边界框的各个中心为止的各个位移、及所述测试用2D边界框的宽度/高度比率与所述测试用实例边界框的各个宽度/高度比率之间的各个差值中的至少一个,生成所述测试用回归信息。
29.根据权利要求25所述的基于卷积神经网络CNN检测至少一个伪3D边界框的测试装置,其特征在于,
在所述处理II)中,
所述处理器在所述测试用对象为所述第一类型时,使与所述第一类型对应的第一FC层对于所述测试用池化特征图应用神经网络运算,而生成与所述测试用伪3D边界框对应的测试用第一框型信息,并在所述测试用对象为所述第二类型时,使与所述第二类型对应的第二FC层对于所述测试用池化特征图应用神经网络运算,而生成与所述测试用伪3D边界框对应的测试用第二框型信息,
在所述处理III)中,
所述处理器i)使与所述第一FC层对应的第一分类层参照所述测试用第一框型信息,生成与具有所述第一类型的所述测试用对象的方向对应的测试用第一方向类信息,并使与所述第一FC层对应的第一回归层参照所述测试用第一框型信息,生成与所述测试用2D边界框的所述坐标对应的所述测试用伪3D边界框的所述坐标相关的测试用第一回归信息,ii)使与所述第二FC层对应的第二分类层参照所述测试用第二框型信息,生成与具有所述第二类型的所述测试用对象的方向对应的测试用第二方向类信息,并使与所述第二FC层对应的第一回归层参照所述测试用第二框型信息,生成与所述测试用2D边界框的所述坐标对应的所述测试用伪3D边界框的所述坐标相关的测试用第二回归信息。
30.根据权利要求25所述的基于卷积神经网络CNN检测至少一个伪3D边界框的测试装置,其特征在于,
将所述测试图像输入到基于前CNN的对象检测器,所述对象检测器i)使前卷积层对于所述测试图像执行卷积运算而生成所述测试用特征图,ii)并使区域推荐网络RPN从所述测试用特征图生成与所述测试图像内的所述测试用对象对应的至少一个测试用建议框,iii)使前池化层对于所述测试用特征图上与所述测试用建议框对应的至少一个区域应用池化运算,而生成测试用前池化特征图,iv)使前FC层生成与所述测试用对象对应的测试用对象架构信息,v)使前分类层参照所述测试用对象架构信息生成与所述测试用对象的类对应的测试用对象类信息,vi)使前回归层参照所述测试用对象架构信息,生成与所述测试用对象对应的所述测试用2D边界框相关的测试用前回归信息,由此生成所述测试用特征图和所述测试用2D边界框。
CN201911016989.4A 2019-01-25 2019-10-24 基于cnn检测伪3d边界框的方法及其装置 Active CN111488783B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/258,186 2019-01-25
US16/258,186 US10445611B1 (en) 2019-01-25 2019-01-25 Method for detecting pseudo-3D bounding box to be used for military purpose, smart phone or virtual driving based-on CNN capable of converting modes according to conditions of objects and device using the same

Publications (2)

Publication Number Publication Date
CN111488783A CN111488783A (zh) 2020-08-04
CN111488783B true CN111488783B (zh) 2023-09-12

Family

ID=68165046

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911016989.4A Active CN111488783B (zh) 2019-01-25 2019-10-24 基于cnn检测伪3d边界框的方法及其装置

Country Status (5)

Country Link
US (1) US10445611B1 (zh)
EP (1) EP3686776B1 (zh)
JP (1) JP6810432B2 (zh)
KR (1) KR102309712B1 (zh)
CN (1) CN111488783B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10671878B1 (en) 2019-01-11 2020-06-02 Capital One Services, Llc Systems and methods for text localization and recognition in an image of a document
US20220261593A1 (en) * 2021-02-16 2022-08-18 Nvidia Corporation Using neural networks to perform object detection, instance segmentation, and semantic correspondence from bounding box supervision
DE102021118065A1 (de) 2021-07-13 2023-01-19 Connaught Electronics Ltd. Verfahren zum Erzeugen einer dreidimensionalen Information einer dreidimensionalen Umgebung, Computerprogrammprodukt, computerlesbares Speichermedium sowie Assistenzsystem

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9946960B1 (en) * 2017-10-13 2018-04-17 StradVision, Inc. Method for acquiring bounding box corresponding to an object in an image by using convolutional neural network including tracking network and computing device using the same
US10007865B1 (en) * 2017-10-16 2018-06-26 StradVision, Inc. Learning method and learning device for adjusting parameters of CNN by using multi-scale feature maps and testing method and testing device using the same
WO2018187632A1 (en) * 2017-04-05 2018-10-11 Carnegie Mellon University Deep learning methods for estimating density and/or flow of objects, and related methods and software
US10169679B1 (en) * 2017-10-13 2019-01-01 StradVision, Inc. Learning method and learning device for adjusting parameters of CNN by using loss augmentation and testing method and testing device using the same

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106462940A (zh) * 2014-10-09 2017-02-22 微软技术许可有限责任公司 图像中通用对象检测
US10410096B2 (en) * 2015-07-09 2019-09-10 Qualcomm Incorporated Context-based priors for object detection in images
WO2017015649A1 (en) * 2015-07-23 2017-01-26 Mireplica Technology, Llc Performance enhancement for two-dimensional array processor
US9965719B2 (en) * 2015-11-04 2018-05-08 Nec Corporation Subcategory-aware convolutional neural networks for object detection
US9881234B2 (en) * 2015-11-25 2018-01-30 Baidu Usa Llc. Systems and methods for end-to-end object detection
US9858496B2 (en) * 2016-01-20 2018-01-02 Microsoft Technology Licensing, Llc Object detection and classification in images
US10331974B2 (en) * 2016-11-08 2019-06-25 Nec Corporation Action recognition system with landmark localization on objects in images using convolutional neural networks
US10235771B2 (en) * 2016-11-11 2019-03-19 Qualcomm Incorporated Methods and systems of performing object pose estimation
AU2017361061B2 (en) * 2016-11-15 2022-02-03 Magic Leap, Inc. Deep learning system for cuboid detection
US10373369B2 (en) * 2017-03-16 2019-08-06 Qualcomm Technologies, Inc. Three-dimensional pose estimation of symmetrical objects
US10546237B2 (en) * 2017-03-30 2020-01-28 Atomwise Inc. Systems and methods for correcting error in a first classifier by evaluating classifier output in parallel
KR102475826B1 (ko) * 2017-04-21 2022-12-09 삼성메디슨 주식회사 영상 분할 방법 및 그 전자 장치
US10572963B1 (en) * 2017-07-14 2020-02-25 Synapse Technology Corporation Detection of items
US9953437B1 (en) * 2017-10-18 2018-04-24 StradVision, Inc. Method and device for constructing a table including information on a pooling type and testing method and testing device using the same

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018187632A1 (en) * 2017-04-05 2018-10-11 Carnegie Mellon University Deep learning methods for estimating density and/or flow of objects, and related methods and software
US9946960B1 (en) * 2017-10-13 2018-04-17 StradVision, Inc. Method for acquiring bounding box corresponding to an object in an image by using convolutional neural network including tracking network and computing device using the same
US10169679B1 (en) * 2017-10-13 2019-01-01 StradVision, Inc. Learning method and learning device for adjusting parameters of CNN by using loss augmentation and testing method and testing device using the same
US10007865B1 (en) * 2017-10-16 2018-06-26 StradVision, Inc. Learning method and learning device for adjusting parameters of CNN by using multi-scale feature maps and testing method and testing device using the same

Also Published As

Publication number Publication date
JP2020119519A (ja) 2020-08-06
KR102309712B1 (ko) 2021-10-08
EP3686776C0 (en) 2024-03-27
EP3686776A1 (en) 2020-07-29
KR20200092846A (ko) 2020-08-04
JP6810432B2 (ja) 2021-01-06
US10445611B1 (en) 2019-10-15
EP3686776B1 (en) 2024-03-27
CN111488783A (zh) 2020-08-04

Similar Documents

Publication Publication Date Title
US11276230B2 (en) Inferring locations of 3D objects in a spatial environment
US10915793B2 (en) Method and system for converting point cloud data for use with 2D convolutional neural networks
US10402978B1 (en) Method for detecting pseudo-3D bounding box based on CNN capable of converting modes according to poses of objects using instance segmentation and device using the same
EP3571664B1 (en) Determining the location of a mobile device
CN111488783B (zh) 基于cnn检测伪3d边界框的方法及其装置
US10509987B1 (en) Learning method and learning device for object detector based on reconfigurable network for optimizing customers' requirements such as key performance index using target object estimating network and target object merging network, and testing method and testing device using the same
CN111507369B (zh) 自动行驶车辆空间学习方法及装置、测试方法及装置
US11966234B2 (en) System and method for monocular depth estimation from semantic information
EP3690725A1 (en) Method and device for seamless parameter switch by using location-specific algorithm selection to achieve optimized autonomous driving in each of regions
EP3640846B1 (en) Method and apparatus to train image recognition model, and image recognition method and apparatus
JP6892157B2 (ja) V2x情報融合技術によって取得された、各物体に対する深さ予測情報及び各物体に対するクラス情報を利用して3d空間を再構築することによりhdマップをアップデートする学習方法及び学習装置、そしてこれを利用したテスティング方法及びテスティング装置
EP3690811A1 (en) Learning method and learning device for removing jittering on video acquired through shaking camera by using a plurality of neural networks for fault tolerance and fluctuation robustness in extreme situations, and testing method and testing device using the same
US20230121534A1 (en) Method and electronic device for 3d object detection using neural networks
EP3690723A1 (en) Learning method and learning device for heterogeneous sensor fusion by using merging network which learns non-maximum suppression
CN114943757A (zh) 基于单目景深预测和深度增强学习的无人机森林探索系统
Bhaggiaraj et al. Deep Learning Based Self Driving Cars Using Computer Vision
Doss et al. Predicting Desired Temporal Waypoints from Camera and Route Planner Images using End-To-Mid Imitation Learning
CN117565880A (zh) 基于鸟瞰图的无人车强化学习未知环境感知方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant