CN111462193A - 用于多摄像机或环绕视图监控的对象检测方法及装置 - Google Patents

用于多摄像机或环绕视图监控的对象检测方法及装置 Download PDF

Info

Publication number
CN111462193A
CN111462193A CN201911330694.4A CN201911330694A CN111462193A CN 111462193 A CN111462193 A CN 111462193A CN 201911330694 A CN201911330694 A CN 201911330694A CN 111462193 A CN111462193 A CN 111462193A
Authority
CN
China
Prior art keywords
test
specific
image
learning
nth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911330694.4A
Other languages
English (en)
Other versions
CN111462193B (zh
Inventor
金桂贤
金镕重
金寅洙
金鹤京
南云铉
夫硕焄
成明哲
吕东勋
柳宇宙
张泰雄
郑景中
诸泓模
赵浩辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Stradvision Inc
Original Assignee
Stradvision Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Stradvision Inc filed Critical Stradvision Inc
Publication of CN111462193A publication Critical patent/CN111462193A/zh
Application granted granted Critical
Publication of CN111462193B publication Critical patent/CN111462193B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/292Multi-camera tracking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • H04N7/188Capturing isolated or intermittent images triggered by the occurrence of a predetermined event, e.g. an object reaching a predetermined position
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • H04N7/181Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast for receiving images from a plurality of remote sources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence

Abstract

本发明提供一种利用图像串联以及目标对象集成网络,来学习适合诸如关键绩效指标(Key Performance Index)的客户要求的,基于CNN的对象检测器的参数的方法。所述CNN,可以根据所述关键绩效指标的分辨率或焦距的变化而变化的对象的规模进行重新设计。所述方法包括:学习装置使图像处理网络,生成n个处理图像;使RPN,在所述处理图像中分别生成第1至第n对象候选,使FC层,生成第1至第n对象检测信息;以及使所述目标对象集成网络,集成所述对象候选,以及集成所述对象检测信息。在此方法中,所述对象候选可利用激光雷达(Lidar)生成。通过所述方法,提高了2D边界框的准确度,可在多摄像机、环绕视图监控(Surround View Monitoring)等有效执行。

Description

用于多摄像机或环绕视图监控的对象检测方法及装置
技术领域
本发明涉及利用图像串联(Image Concatenation)与目标对象集成网络,学习要用于多摄像机或环绕视图监控(Surround View Monitoring)的基于卷积神经网络(CNN或者ConvNet)的对象检测器的参数的方法;更具体地,一种利用图像串联与目标对象集成网络,来学习基于CNN的对象检测器的参数的方法,包括:(a)当输入至少一个训练图像时,(i)使目标区域预测网络,在所述训练图像或者与其对应的一个或多个调整尺寸的图像上,找出与被预测是一个或多个目标对象所在的区域分别对应的第1目标区域至第n目标区域,(ii)使图像处理网络,从所述训练图像或者与其对应的调整尺寸的图像,获取与所述第1目标区域至所述第n目标区域分别对应的第1处理图像至第n处理图像,(iii)输出将所述第1处理图像至所述第n处理图像串联的集成训练图像;(b)(i)使一个或多个卷积层,将一个或多个卷积运算适用于所述集成训练图像,输出至少一个集成特征图,(ii)使区域候选网络(Region Proposal Network,RPN),利用所述集成特征图,输出与位于所述第1处理图像至所述第n处理图像中的一个或多个对象分别对应的第1对象候选至第n对象候选,(iii)使池化层,在所述集成特征图上,对与所述第1对象候选至所述第n对象候选分别对应的各个区域适用一个或多个池化运算,输出至少一个池化集成特征图,(iv)使全连接(FullyConnected,FC)层,对所述池化集成特征图适用至少一个FC(Fully Connected)运算,输出与所述对象对应的第1对象检测信息至第n对象检测信息;以及(c)(i)使所述目标对象集成网络,集成所述第1对象候选至所述第n对象候选,生成集成对象候选,集成所述第1对象检测信息至所述第n对象检测信息,生成集成对象检测信息,(ii)使至少一个FC损失层,参考所述集成对象检测信息以及与其对应的真实框(Ground Truth,GT),生成一个或多个FC损失,从而通过利用所述FC损失的反向传播(Back Propagation),学习所述FC层与所述卷积层的参数中至少一部分。
背景技术
机器学习(Machine Learning)中,卷积神经网络(CNN或者ConvNet)是成功适用于视觉图像分析的深度前馈人工神经网络(Deep Feedforward Artificial NeuralNetwork)。
基于CNN的对象检测器,(i)使一个或多个卷积层,通过对输入图像适用卷积运算,输出与所述输入图像对应的特征图,(ii)使RPN(Region Proposal Network),利用所述特征图,确认所述输入图像中的对象对应的候选,(iii)使池化层,对在所述确认的候选对应的所述特征图上的区域至少适用一个或多个池化运算,获取池化的特征图,(iv)使FC(Fully Connected)层,将至少一个FC运算适用于关于所述获取的池化的特征图以及所述对象的输出类别信息与回归信息,从而检测在所述输入图像上的所述对象。
然而,基于所述CNN的对象检测器通过所述卷积层,利用所述输入图像的尺寸被缩小的所述特征图,因此容易检测到位于所述输入图像的尺寸大的对象,但是却很难检测尺寸小的位于所述对输入图像的对象。
即,在所述输入图像上,当存在与作为预检测对象的一个或多个对象对应的多个目标区域时,由于尺寸,无法从一些目标区域中准确提取所需的特征,因此无法检测到特定对象。
为要解决此问题,可以剪裁每个从所述输入图像得到的图像金字塔中各个图像中所述目标区域,来执行对象检测,但在这种情况下,由于需要对对应所述目标区域剪裁的各个图像执行所述对象检测,因此会增加运算量。
并且,CNN运算按照规定单位,例如,32、64、128等的倍数执行模块运算以实现快速运算,若获取具有不是所述单位的倍数的宽度或高度的输入图像,则需要添加一个或多个填充区域以实现所述单位的倍数,但这给所述CNN运算带来负担。因此,当具有不是所述单位的倍数的宽度或高度的剪裁的图像增加时,给所述CNN运算带来更大的负担,减少所述CNN的运算速率。
因此,本发明的发明人提出一种学习方法、学习装置以及利用其的测试方法与测试装置,其利用位于所述输入图像上的,与各种尺寸的对象对应的所述目标区域,减少所述CNN的运算时间,并有效地检测对象。
发明内容
本发明的目的在于解决以上所述的所有问题。
本发明的另一目的在于提供一种基于CNN的对象检测器,其能够有效地检测位于图像上的对象而不受尺寸的限制。
本发明的另一目的在于提供一种基于CNN的对象检测器,其能够在不增加运算量的情况下检测所述图像上的所述对象。
本发明的又一目的在于提供一种基于CNN的对象检测器,其能够利用所述输入图像上各种尺寸的与所述对象对应的目标区域,在减少所述CNN的运算时间的情况下有效检测所述对象。
为达到如上所述的本发明的目的,并实现以下所所描述的本发明的特定效果,本发明的特定结构如下所述。
根据本发明的一方面,提供一种利用图像串联(Image Concatenation)与目标对象集成网络,学习基于CNN的对象检测器的参数的方法,包括:(a)当输入至少一个训练图像时,学习装置,(i)使目标区域预测网络,在所述训练图像或者与其对应的一个或多个调整尺寸的图像上,找出与被预测是一个或多个目标对象所在的区域分别对应的第1目标区域至第n目标区域,(ii)使图像处理网络,从所述训练图像或者与其对应的调整尺寸的图像,获取与所述第1目标区域至所述第n目标区域分别对应的第1处理图像至第n处理图像,(iii)输出将所述第1处理图像至所述第n处理图像串联的集成训练图像;(b)所述学习装置,(i)使一个或多个卷积层,将一个或多个卷积运算适用于所述集成训练图像,输出至少一个集成特征图,(ii)使RPN(Region Proposal Network),利用所述集成特征图,输出与位于所述第1处理图像至所述第n处理图像中的一个或多个对象分别对应的第1对象候选至第n对象候选,(iii)使池化层,在所述集成特征图上,对与所述第1对象候选至所述第n对象候选分别对应的各个区域适用一个或多个池化运算,输出至少一个池化集成特征图,(iv)使FC层,对所述池化集成特征图适用至少一个FC(Fully Connected)运算,输出与所述对象对应的第1对象检测信息至第n对象检测信息;以及(c)所述学习装置,(i)使所述目标对象集成网络,集成所述第1对象候选至所述第n对象候选,生成集成对象候选,集成所述第1对象检测信息至所述第n对象检测信息,生成集成对象检测信息,(ii)使至少一个FC损失层,参考所述集成对象检测信息以及与其对应的GT,生成一个或多个FC损失,从而通过利用所述FC损失的反向传播(Back Propagation),学习所述FC层与所述卷积层的参数中至少一部分。
一实施例中,在所述步骤(c),所述学习装置,使至少一个RPN损失层,参考所述集成对象候选和与其对应的GT,计算出一个或多个RPN损失,从而通过利用所述RPN损失的反向传播,学习所述RPN的参数。
一实施例中,在所述步骤(a),所述学习装置,使所述图像处理网络,将所述第1处理图像至所述第n处理图像的宽度与高度中的至少一个调整为相同后,在调整为相同尺寸的所述宽度或者所述高度的方向上,串联(Concatenating)所述第1已调整处理图像至所述第n已调整处理图像。
一实施例中,所述学习装置,使所述图像处理网络,在所述第1已调整处理图像至所述第n已调整处理图像中,由分别串联并相邻的两个已调整处理图像配置而成的每对之间,分别添加至少一个零填充(Zero Padding)区域。
一实施例中,当通过所述卷积层的多重卷积运算,所述集成训练图像缩小为1/S,所述卷积层的每个卷积核的各个最大尺寸为时,所述零填充区域的宽度为。
一实施例中,在所述步骤(c),至少一个特定相同对象分别位于第1特定处理图像与第2特定处理图像上,将在所述第1特定处理图像上与所述特定相同对象对应的至少一个对象候选作为第1特定对象候选,将所述第2特定处理图像上与所述特定相同对象对应的至少一个对象候选作为第2特定对象候选时,所述学习装置,使所述目标对象集成网络,判断所述第1特定对象候选与所述第2特定对象候选之间的交并比(Intersection Over Union,IOU)是否等于或大于第1阈值,(I)若所述IOU被判断为小于所述第1阈值,则计算出在所述第2特定处理图像上与所述第1特定对象候选对应的区域和在所述第1特定处理图像上与所述第2特定对象候选对应的区域之间的调整IOU,(II)若所述调整IOU被判断为等于或大于第2阈值,则在所述第1特定对象候选与所述第2特定对象中,(i)选择概率值高的特定对象候选,或者(ii)选择在所述训练图像上运算的面积大的特定对象候选,从而将选择的特定对象候选作为与所述特定相同对象对应的特定集成对象候选来生成。
一实施例中,在所述步骤(c),至少一个特定相同对象分别位于第1特定处理图像与第2特定处理图像上,将在所述第1特定处理图像上与所述特定相同对象对应的至少一个对象边界框作为第1特定对象边界框,将所述第2特定处理图像上与所述特定相同对象对应的至少一个对象边界框作为第2特定对象边界框时,所述学习装置,使所述目标对象集成网络,判断所述第1特定对象边界框与所述第2特定对象边界框之间的IOU是否等于或大于第1阈值,(I)若所述IOU被判断为小于所述第1阈值,计算出在所述第2特定处理图像上与所述第1特定对象边界框对应的区域和在所述第1特定处理图像上与所述第2特定对象边界框对应的区域之间的调整IOU,(II)若所述调整IOU被判断为等于或大于第2阈值,则在所述第1特定对象边界框与所述第2特定对象边界框中,(i)选择概率值高的特定对象边界框,或者(ii)选择在所述训练图像上运算的面积大的特定对象边界框,从而将所述选择的特定对象边界框作为与所述特定相同对象对应的特定集成对象检测信息来生成。
根据本发明的另一方面,提供一种利用图像串联(Image Concatenation)与目标对象集成网络,测试基于CNN的对象检测器的方法,(a)学习装置,(1)(i)使目标区域预测网络,在至少一个训练图像或者与其对应的一个或多个调整尺寸的训练图像上,找出与被预测为一个或多个学习用目标对象所在的区域分别对应的第1学习用目标区域至第n学习用目标区域,(ii)使图像处理网络,从所述训练图像或者与其对应的调整尺寸的训练图像,获取与所述第1学习用目标区域至所述第n学习用目标区域分别对应的第1学习用处理图像至第n学习用处理图像,(iii)输出将所述第1学习用处理图像至所述第n学习用处理图像串联的集成训练图像,(2)(i)使一个或多个卷积层,将一个或多个卷积运算适用于所述集成训练图像,输出至少一个学习用集成特征图,(ii)使RPN,利用所述学习用集成特征图,输出与位于所述第1学习用处理图像至所述第n学习用处理图像的学习用对象分别对应的第1学习用对象候选至第n学习用对象候选,(iii)使池化层,所述学习用集成特征图上,对与所述第1学习用对象候选至所述第n学习用对象候选分别对应的各个区域适用一个或多个池化运算,输出至少一个学习用池化集成特征图,(iv)使FC层,对所述学习用池化集成特征图适用至少一个FC(Fully Connected)运算,输出与所述学习用对象对应的第1学习用对象检测信息至第n学习用对象检测信息,(3)(i)使所述目标对象集成网络,集成所述第1学习用对象候选至所述第n学习用对象候选,生成学习用集成对象候选,集成所述第1学习用对象检测信息至所述第n学习用对象检测信息,生成学习用集成对象检测信息,(ii)使至少一个FC损失层,参考所述学习用集成对象检测信息以及与其对应的GT生成一个或多个FC损失,从而通过利用所述FC损失的反向传播(Back Propagation),学习所述FC层与所述卷积层的参数中的至少一部分的状态下,当测试装置获取至少一个测试图像时,(i)使目标区域预测网络,在所述测试图像或者与其对应的一个或多个调整尺寸的测试图像上,找出与被预测为一个或多个测试用目标对象所在的区域分别对应的第1测试用目标区域至第n测试用目标区域,(ii)使所述图像处理网络,从所述测试图像或者与其对应的调整尺寸的测试图像,获取与所述第1测试用目标区域至所述第n测试用目标区域分别对应的第1测试用处理图像至第n测试用处理图像,(iii)输出将所述第1测试用处理图像至所述第n测试用处理图像串联的集成测试图像;(b)所述测试装置,(i)使所述卷积层,通过将所述卷积运算适用于所述集成测试图像,输出至少一个测试用集成特征图,(ii)使所述RPN,利用所述测试用集成特征图,输出与位于所述第1测试用处理图像至所述第n测试用处理图像中的测试用对象分别对应的第1测试用对象候选至第n测试用对象候选,(iii)使所述池化层,在所述测试用集成特征图上,对与所述第1测试用对象候选至所述第n测试用对象候选分别对应的各个区域适用所述池化运算,输出至少一个测试用池化集成特征图,(iv)使所述FC层,对所述测试用池化集成特征图适用所述FC运算,输出与所述测试用对象对应的第1测试用对象检测信息至第n测试用对象检测信息;以及(c)所述测试装置,(i)使所述目标对象集成网络,集成所述第1测试用对象候选至所述第n测试用对象候选,生成测试用集成对象候选,集成所述第1测试用对象检测信息至所述第n测试用对象检测信息,生成测试用集成对象检测信息。
一实施例中,在所述步骤(3),所述学习装置,使至少一个RPN损失层,参考所述学习用集成对象候选和与其对应的GT,计算出一个或多个RPN损失,从而通过利用所述RPN损失的反向传播,学习所述RPN的参数。
一实施例中,在所述过程(a),所述测试装置,使所述图像处理网络,将所述第1测试用处理图像至所述第n测试用处理图像的宽度与高度中至少一个调整为相同后,在调整为相同尺寸的所述宽度或者所述高度的方向上,串联所述第1测试用已调整处理图像至所述第n测试用已调整处理图像。
一实施例中,所述测试装置,使所述图像处理网络,在所述第1测试用已调整处理图像至所述第n测试用已调整处理图像中,由分别串联并相邻的两个测试用已调整处理图像配置而成的每对之间,分别添加至少一个零填充区域。
一实施例中,当通过所述卷积层的多重卷积运算,所述集成测试图像缩小为1/S,所述卷积层的每个卷积核的各个最大尺寸为K×K时,所述零填充区域的宽度为
Figure BDA0002329470680000071
一实施例中,在所述步骤(c),至少一个测试用特定相同对象分别位于第1测试用特定处理图像与第2测试用特定处理图像上,将在所述第1测试用特定处理图像上与所述测试用特定相同对象对应的至少一个测试用对象候选作为第1测试用特定对象候选,当在所述第2测试用特定处理图像上,将与所述测试用特定相同对象对应的至少一个测试用对象候选作为第2测试用特定对象候选时,所述测试装置,使所述目标对象集成网络,判断所述第1测试用特定对象候选与所述第2测试用特定对象候选之间的测试用IOU(IntersectionOver Union)是否等于或大于第1阈值,(I)若所述测试用IOU被判断为小于所述第1阈值,计算出在所述第2测试用特定处理图像上与所述第1测试用特定对象候选对应的区域和在所述第1测试用特定处理图像上与所述第2测试用特定对象候选对应的区域之间的测试用调整IOU,(II)若所述测试用调整IOU被判断为等于或大于第2阈值,则在所述第1测试用特定对象候选与所述第2测试用特定对象中,(i)选择概率值高的测试用特定对象候选,或者(ii)通过选择所述测试图像上运算的面积大的测试用特定对象候选,从而将所述选择的测试用特定对象候选作为与所述测试用特定相同对象对应的测试用特定集成对象候选来生成。
一实施例中,在所述步骤(c),至少一个测试用特定相同对象分别位于第1测试用特定处理图像与第2测试用特定处理图像上,将在所述第1测试用特定处理图像上与所述测试用特定相同对象对应的至少一个测试用对象边界框作为第1测试用特定对象边界框,将在所述第2测试用特定处理图像上与所述测试用特定相同对象对应的至少一个测试用对象边界框作为第2测试用特定对象边界框时,所述测试装置,使所述目标对象集成网络,判断所述第1测试用特定对象边界框与所述第2测试用特定对象边界框之间的测试用IOU是否等于或大于第1阈值,(I)若所述测试用IOU被判断为小于所述第1阈值,计算出在所述第2测试用特定处理图像上与所述第1测试用特定对象边界框对应的区域和在所述第1测试用特定处理图像上与所述第2测试用特定对象边界框对应的区域之间的测试用调整IOU,(II)若所述测试用调整IOU被判断为等于或大于第2阈值,则在所述第1测试用特定对象边界框与所述第2测试用特定对象边界框中,(i)选择概率值高的测试用特定对象边界框,或者(ii)通过选择所述测试图像上运算的面积大的测试用特定对象边界框,从而将所述选择的测试用特定对象边界框作为与所述测试用特定相同对象对应的测试用特定集成对象检测信息来生成。
根据本发明的再一方面,提供一种用于学习利用图像串联(ImageConcatenation)与目标对象集成网络的学习基于CNN的对象检测器的参数的学习装置,包括:至少一个存储器,用于存储指令;以及至少一个处理器,配置执行所述指令用于完成,(I)(i)使目标区域预测网络,在至少一个训练图像或者与其对应的一个或多个调整尺寸的图像上,找出与被预测是一个或多个目标对象所在的区域分别对应的第1目标区域至第n目标区域,(ii)使图像处理网络,从所述训练图像或者与其对应的调整尺寸的图像,获取与所述第1目标区域至所述第n目标区域分别对应的第1处理图像至第n处理图像,(iii)输出将所述第1处理图像至所述第n处理图像串联的集成训练图像,(II)(i)使一个或多个卷积层,将一个或多个卷积运算适用于所述集成训练图像,输出至少一个集成特征图,(ii)使RPN(Region Proposal Network),利用所述集成特征图,输出与位于所述第1处理图像至所述第n处理图像中的一个或多个对象分别对应的第1对象候选至第n对象候选,(iii)使池化层,在所述集成特征图上,对与所述第1对象候选至所述第n对象候选分别对应的各个区域适用一个或多个池化运算,输出至少一个池化集成特征图,(iv)使FC层,对所述池化集成特征图适用至少一个FC(Fully Connected)运算,输出与所述对象对应的第1对象检测信息至第n对象检测信息,以及(III)(i)使所述目标对象集成网络,集成所述第1对象候选至所述第n对象候选,生成集成对象候选,集成所述第1对象检测信息至所述第n对象检测信息,生成集成对象检测信息,(ii)使至少一个FC损失层,参考所述集成对象检测信息以及与其对应的GT,生成一个或多个FC损失,从而通过利用所述FC损失的反向传播(BackPropagation),学习所述FC层与所述卷积层的参数中至少一部分。
一实施例中,在所述过程(III),所述处理器,使至少一个RPN损失层,参考所述集成对象候选和与其对应的GT,计算出一个或多个RPN损失,从而通过利用所述RPN损失的反向传播,学习所述RPN的参数。
一实施例中,在所述过程(I),所述处理器,使所述图像处理网络,将所述第1处理图像至所述第n处理图像的宽度与高度中的至少一个调整为相同后,在调整为相同尺寸的所述宽度或者所述高度的方向上,串联(Concatenating)所述第1已调整处理图像至所述第n已调整处理图像。
一实施例中,所述处理器,使所述图像处理网络,在所述第1已调整处理图像至所述第n已调整处理图像中,由分别串联并相邻的两个已调整处理图像配置而成的每对之间,分别添加至少一个零填充(Zero Padding)区域。
一实施例中,当通过所述卷积层的多重卷积运算,所述集成训练图像缩小为1/S,所述卷积层的每个卷积核的各个最大尺寸为时,所述零填充区域的宽度为。
一实施例中,在所述过程(III),至少一个特定相同对象分别位于第1特定处理图像与第2特定处理图像上,将在所述第1特定处理图像上与所述特定相同对象对应的至少一个对象候选作为第1特定对象候选,将所述第2特定处理图像上与所述特定相同对象对应的至少一个对象候选作为第2特定对象候选时,所述处理器,使所述目标对象集成网络,判断所述第1特定对象候选与所述第2特定对象候选之间的IOU(Intersection Over Union)是否等于或大于第1阈值,(i)若所述IOU被判断为小于所述第1阈值,则计算出在所述第2特定处理图像上与所述第1特定对象候选对应的区域和在所述第1特定处理图像上与所述第2特定对象候选对应的区域之间的调整IOU,(ii)若所述调整IOU被判断为等于或大于第2阈值,则在所述第1特定对象候选与所述第2特定对象中,选择概率值高的特定对象候选,或者选择在所述训练图像上运算的面积大的特定对象候选,从而将选择的特定对象候选作为与所述特定相同对象对应的特定集成对象候选来生成。
一实施例中,在所述过程(III),至少一个特定相同对象分别位于第1特定处理图像与第2特定处理图像上,将在所述第1特定处理图像上与所述特定相同对象对应的至少一个对象边界框作为第1特定对象边界框,将所述第2特定处理图像上与所述特定相同对象对应的至少一个对象边界框作为第2特定对象边界框时,所述过程,使所述目标对象集成网络,判断所述第1特定对象边界框与所述第2特定对象边界框之间的IOU是否等于或大于第1阈值,(i)若所述IOU被判断为小于所述第1阈值,计算出在所述第2特定处理图像上与所述第1特定对象边界框对应的区域和在所述第1特定处理图像上与所述第2特定对象边界框对应的区域之间的调整IOU,(ii)若所述调整IOU被判断为等于或大于第2阈值,则在所述第1特定对象边界框与所述第2特定对象边界框中,选择概率值高的特定对象边界框,或者选择在所述训练图像上运算的面积大的特定对象边界框,从而将所述选择的特定对象边界框作为与所述特定相同对象对应的特定集成对象检测信息来生成。
根据本发明的又一方面,提供一种用于测试利用图像串联(ImageConcatenation)与目标对象集成网络的基于CNN的对象检测器的测试装置,至少一个存储器,用于存储指令;以及至少一个处理器,配置执行所述指令用于完成,(1)(i)使目标区域预测网络,在至少一个训练图像或者与其对应的一个或多个调整尺寸的训练图像上,找出与被预测为一个或多个学习用目标对象所在的区域分别对应的第1学习用目标区域至第n学习用目标区域,(ii)使图像处理网络,从所述训练图像或者与其对应的调整尺寸的训练图像,获取与所述第1学习用目标区域至所述第n学习用目标区域分别对应的第1学习用处理图像至第n学习用处理图像,(iii)输出将所述第1学习用处理图像至所述第n学习用处理图像串联的集成训练图像,(2)(i)使一个或多个卷积层,将一个或多个卷积运算适用于所述集成训练图像,输出至少一个学习用集成特征图,(ii)使RPN,利用所述学习用集成特征图,输出与位于所述第1学习用处理图像至所述第n学习用处理图像的学习用对象分别对应的第1学习用对象候选至第n学习用对象候选,(iii)使池化层,所述学习用集成特征图上,对与所述第1学习用对象候选至所述第n学习用对象候选分别对应的各个区域适用一个或多个池化运算,输出至少一个学习用池化集成特征图,(iv)使FC层,对所述学习用池化集成特征图适用至少一个FC(Fully Connected)运算,输出与所述学习用对象对应的第1学习用对象检测信息至第n学习用对象检测信息,(3)(i)使所述目标对象集成网络,集成所述第1学习用对象候选至所述第n学习用对象候选,生成学习用集成对象候选,集成所述第1学习用对象检测信息至所述第n学习用对象检测信息,生成学习用集成对象检测信息,(ii)使至少一个FC损失层,参考所述学习用集成对象检测信息以及与其对应的GT生成一个或多个FC损失,从而通过利用所述FC损失的反向传播,学习所述FC层与所述卷积层的参数中的至少一部分的状态下,(I)(i)使目标区域预测网络,在至少一个测试图像或者与其对应的一个或多个调整尺寸的测试图像上,找出与被预测为一个或多个测试用目标对象所在的区域分别对应的第1测试用目标区域至第n测试用目标区域,(ii)使所述图像处理网络,从所述测试图像或者与其对应的调整尺寸的测试图像,获取与所述第1测试用目标区域至所述第n测试用目标区域分别对应的第1测试用处理图像至第n测试用处理图像,(iii)输出将所述第1测试用处理图像至所述第n测试用处理图像串联的集成测试图像,(II)(i)使所述卷积层,通过将所述卷积运算适用于所述集成测试图像,输出至少一个测试用集成特征图,(ii)使所述RPN,利用所述测试用集成特征图,输出与位于所述第1测试用处理图像至所述第n测试用处理图像中的测试用对象分别对应的第1测试用对象候选至第n测试用对象候选,(iii)使所述池化层,在所述测试用集成特征图上,对与所述第1测试用对象候选至所述第n测试用对象候选分别对应的各个区域适用所述池化运算,输出至少一个测试用池化集成特征图,(iv)使所述FC层,对所述测试用池化集成特征图适用所述FC运算,输出与所述测试用对象对应的第1测试用对象检测信息至第n测试用对象检测信息,以及(III)(i)使所述目标对象集成网络,集成所述第1测试用对象候选至所述第n测试用对象候选,生成测试用集成对象候选,集成所述第1测试用对象检测信息至所述第n测试用对象检测信息,生成测试用集成对象检测信息。
一实施例中,在所述过程(III),所述学习装置,使至少一个RPN损失层,参考所述学习用集成对象候选和与其对应的GT,计算出一个或多个RPN损失,从而通过利用所述RPN损失的反向传播,学习所述RPN的参数。
一实施例中,在所述过程(I),所述处理器,使所述图像处理网络,将所述第1测试用处理图像至所述第n测试用处理图像的宽度与高度中至少一个调整为相同后,在调整为相同尺寸的所述宽度或者所述高度的方向上,串联所述第1测试用已调整处理图像至所述第n测试用已调整处理图像。
一实施例中,所述处理器,使所述图像处理网络,在所述第1测试用已调整处理图像至所述第n测试用已调整处理图像中,由分别串联并相邻的两个测试用已调整处理图像配置而成的每对之间,分别添加至少一个零填充区域。
一实施例中,当通过所述卷积层的多重卷积运算,所述集成测试图像缩小为1/S,所述卷积层的每个卷积核的各个最大尺寸为K×K时,所述零填充区域的宽度为
Figure BDA0002329470680000131
一实施例中,在所述过程(III),至少一个测试用特定相同对象分别位于第1测试用特定处理图像与第2测试用特定处理图像上,将在所述第1测试用特定处理图像上与所述测试用特定相同对象对应的至少一个测试用对象候选作为第1测试用特定对象候选,当在所述第2测试用特定处理图像上,将与所述测试用特定相同对象对应的至少一个测试用对象候选作为第2测试用特定对象候选时,所述处理器,使所述目标对象集成网络,判断所述第1测试用特定对象候选与所述第2测试用特定对象候选之间的测试用IOU(IntersectionOver Union)是否等于或大于第1阈值,(i)若所述测试用IOU被判断为小于所述第1阈值,计算出在所述第2测试用特定处理图像上与所述第1测试用特定对象候选对应的区域和在所述第1测试用特定处理图像上与所述第2测试用特定对象候选对应的区域之间的测试用调整IOU,(ii)若所述测试用调整IOU被判断为等于或大于第2阈值,则在所述第1测试用特定对象候选与所述第2测试用特定对象中,选择概率值高的测试用特定对象候选,或者选择所述测试图像上运算的面积大的测试用特定对象候选,从而将所述选择的测试用特定对象候选作为与所述测试用特定相同对象对应的测试用特定集成对象候选来生成。
一实施例中,在所述过程(III),至少一个测试用特定相同对象分别位于第1测试用特定处理图像与第2测试用特定处理图像上,将在所述第1测试用特定处理图像上与所述测试用特定相同对象对应的至少一个测试用对象边界框作为第1测试用特定对象边界框,将在所述第2测试用特定处理图像上与所述测试用特定相同对象对应的至少一个测试用对象边界框作为第2测试用特定对象边界框时,所述处理器,使所述目标对象集成网络,判断所述第1测试用特定对象边界框与所述第2测试用特定对象边界框之间的测试用IOU是否等于或大于第1阈值,(i)若所述测试用IOU被判断为小于所述第1阈值,计算出在所述第2测试用特定处理图像上与所述第1测试用特定对象边界框对应的区域和在所述第1测试用特定处理图像上与所述第2测试用特定对象边界框对应的区域之间的测试用调整IOU,(ii)若所述测试用调整IOU被判断为等于或大于第2阈值,则在所述第1测试用特定对象边界框与所述第2测试用特定对象边界框中,选择概率值高的测试用特定对象边界框,或者选择所述测试图像上运算的面积大的测试用特定对象边界框,从而将所述选择的测试用特定对象边界框作为与所述测试用特定相同对象对应的测试用特定集成对象检测信息来生成。
本发明具有可以有效地检测位于图像上的对象而不受尺寸的限制的效果。
并且,本发明具有能够在不增加运算量的情况下检测所述图像上的所述对象的效果。
并且,本发明具有能够利用所述输入图像上各种尺寸的与所述对象对应的目标区域,在减少所述CNN的运算时间的情况下有效检测所述对象的效果。
附图说明
为用于本发明实施例的说明,以下附图只是本发明实施例的一部分,对于本发明所属的技术领域的普通技术人员(以下称为“普通技术人员”),可以基于这些附图获得其他附图,而无需进行创造性劳动。
图1是示意性地示出根据本发明一实施例的利用图像串联(ImageConcatenation)与目标对象集成网络,学习基于CNN的对象检测器的学习装置的图。
图2是示意性地示出根据本发明一实施例的利用所述图像串联与所述目标对象集成网络,学习基于所述CNN的对象检测器的方法的图。
图3是示意性地示出根据本发明一实施例的利用所述图像串联与所述目标对象集成网络,预测要用于基于所述CNN的对象检测器学习的,包括在图像金字塔中的图像上的各个目标区域的过程的图。
图4是示意性地示出根据本发明一实施例的利用所述图像串联与所述目标对象集成网络,串联要用于基于所述CNN的对象检测器学习的与各个目标区域对应的处理的图像的过程的图。
图5是示意性地示出根据本发明一实施例的利用所述图像串联与所述目标对象集成网络,集成要用于基于所述CNN的对象检测器学习的一个或多个目标对象的过程的图。
图6是示意性地示出根据本发明一实施例的利用所述图像串联与所述目标对象集成网络,测试基于所述CNN的对象检测器的测试装置的图。
图7是示意性地示出根据本发明一实施例的利用所述图像串联与所述目标对象集成网络,测试基于所述CNN的对象检测器的测试方法的图。
具体实施方式
对本发明的以下详细说明,为明确本发明的目的、技术方案及优点,参考可实施本发明的特定实施例作为示例来示出的附图。对这些实施例进行了详细的描述,以使本领域技术人员能够充分实施本发明。
并且,本发明的详细说明及权利要求中,词语“包括”及其变形并不意旨排除其他技术特征、附加物、部件或步骤。对普通技术人员来说,本发明的其他目的、优点及特征中一部分从本说明书,然后一部分从本发明的实施例体现出来。以下示例及附图作为实例提供,并不意旨限定本发明。
而且,本发明涵盖了本文中所示实施例的所有可能的组合。应当理解,本发明的各种实施例各不相同,但相互之间不需要排斥。例如,此处所记载的特定形象,结构及特性,与一实施例有关,不超出本发明的精神及范围的同时,可以其他实施例的形式体现。并且,应该理解,在不脱离本发明的精神和范围的情况下,可以改变每个公开的实施例中特定部件的位置或配置。因此,后述的详细描述不应被视为限制性的,本发明的范围,如经适当描述,仅由所附权利要求书以及权利要求书所赋予的等效物的全部范围来限定。附图中相似的附图标记是指在几个方面中相同或相似的功能。
在本发明所涉及的各种图像可包括铺装路面或非铺装路面相关图像,在这种情况下,可以假设在公路环境中可能出现的物体(例如,汽车、人、动物、植物、物品、建筑物、飞机或无人机之类的飞行器、其他障碍物),但并不限于此,本发明所涉及的各种图像可以是与道路无关的图像(例如,与非铺装路面、小巷、空地、大海、湖泊、河流、山脉、森林、沙漠、天空、室内相关的图像),在这种情况下,非铺装路面、小巷、空地、海洋、湖泊、河流、山脉、森林、沙漠、天空、室内环境中可能出现的物体(例如,汽车、人、动物、植物、物品、建筑物、飞机或无人机之类的飞行器、其他障碍物),但并不限于此。
以下,为便于本发明所属的技术领域的普通技术人员实施本发明,将参考附图详细描述本发明的优选实施例。
图1示意性地示出了根据本发明一实施例的利用图像串联(ImageConcatenation)与目标对象集成网络,来学习基于CNN的对象检测器的学习装置,参考图1,所述学习装置(100)可包括通信部(110)与处理器(120)。
首先,所述通信部(110)可以支持获取至少一个训练图像,或者使其他装置获取。
此时,所述训练图像可存储在数据库(130)中,所述数据库(130)可以存储对与位于所述训练图像的一个或多个对象分别对应的类别信息和位置信息的至少一个GT(GroundTruth)。并且,所述数据库(130)可存储通过调整尺寸生成的,位于每个调整尺寸的图像中的所述对象的至少一个GT。
并且,所述学习装置还可以包括可存储用于完成将要描述的过程的计算机可读指令(Computer Readable Instruction)的存储器(115)。作为一例,所述处理器、所述存储器以及介质等可以由一个处理器集成起作用。
之后,所述处理器(120)(i)使目标区域预测网络,在所述训练图像或者与其对应的一个或多个调整尺寸的图像上,找出与被预测是一个或多个目标对象所在的区域分别对应的第1目标区域至第n目标区域,(ii)使图像处理网络,从所述训练图像或者与其对应的调整尺寸的图像,获取与所述第1目标区域至所述第n目标区域分别对应的第1处理图像至第n处理图像,(iii)输出所述第1处理图像至所述第n处理图像串联(Concatenating)的集成训练图像。
然后,所述处理器(120),(i)使一个或多个卷积层,将一个或多个卷积运算适用于所述集成训练图像,输出至少一个集成特征图,(ii)使RPN,利用所述集成特征图,输出位于所述第1处理图像至所述第n处理图像中的与所述对象分别对应的第1对象候选至第n对象候选,(iii)使池化层,在所述集成特征图上,对与所述第1对象候选至所述第n对象候选分别对应的各个区域适用一个或多个池化运算,输出至少一个池化集成特征图,(iv)使FC层,对所述池化集成特征图适用至少一个FC(Fully Connected)运算,输出与所述对象对应的第1对象检测信息至第n对象检测信息。
其后,所述处理器(120),(i)使所述目标对象集成网络,集成所述第1对象候选至所述第n对象候选,生成集成对象候选,集成所述第1对象检测信息至所述第n对象检测信息,生成集成对象检测信息,(ii)使至少一个FC损失层,参考所述集成对象检测信息以及与其对应的GT,生成一个或多个FC损失,从而通过利用所述FC损失的反向传播(BackPropagation),学习所述FC层与所述卷积层的参数中至少一部分。
并且,所述处理器(120)使至少一个RPN损失层,参考所述集成对象候选和与其对应的GT,计算出一个或多个RPN损失,从而通过利用所述RPN损失的反向传播,学习所述RPN的参数中至少一部分。
此时,根据本发明的一实施例的所述学习装置(100)作为计算装置,只要是装载处理器的具有运算能力的装置,就可以作为根据本发明的学习装置(100)来被采用。并且,图1中仅示出了学习装置(100),但不限于此,另外该学习装置也可以被划分为多个来完成其作用。
下面将参考图2描述,利用如此配置的根据本发明一实施例的所述学习装置(100),学习利用所述图像串联以及所述目标对象集成网络,基于CNN的对象检测器的参数的方法。
首先,当输入所述训练图像时,所述学习装置(100),使目标区域预测网络(121),找出在所述训练图像或者与其对应的调整尺寸的图像上,与被预测是至少一个目标对象所在的至少一个区域对应的所述第1目标区域至所述第n目标区域。
此时,所述第1目标区域至所述第n目标区域,与位于相同图像中的所述目标对象中互不相同的多个目标对象对应,或者与位于尺寸互不相同的多个图像中的相同的目标对象对应。
并且,所述第1目标区域至所述第n目标区域,可对应于被预测是位于尺寸互不相同的相同图像的所述图像金字塔中的各个图像中的目标对象。
即,可以在所述目标区域预测网络(121),在所述训练图像中,找出与被预测是第1目标对象至第n目标对象所在的区域对应的,所述第1目标区域至所述第n目标区域,或者找出在每个将所述训练图像通过调整尺寸得到的第1调整尺寸的图像至第n调整尺寸的图像中,与被预测是至少一个特定目标对象所在的区域对应的每个所述第1目标区域至所述第n目标区域。
并且,可以在所述目标区域预测网络(121),在所述训练图像上,找出与被预测是单一目标对象所在的区域对应的特定目标区域,在通过将所述训练图像调整尺寸得到的每个所述第1调整尺寸的图像至所述第n调整尺寸的图像中,找出与被预测是所述单一目标对象所在的区域对应的,每个所述第1目标区域至所述第n目标区域。
另外,当在所述训练图像中配置有多个目标对象时,可在每个所述调整尺寸的图像中,找出所述目标对象对应的所述目标区域。
另一方面,所述目标区域预测网络(121)运算对每个所述训练图像或者与其对应的调整尺寸的图像的各个尺度直方图,参考所述比例直方图,从而可以找出与被预测是所述目标对象所在的尺度候选对应的所述第1目标区域至所述第n目标区域。
并且,所述目标区域预测网络(121)对于每个所述训练图像或者与其对应的调整尺寸的图像执行分割,基于所述分割,设置用于找出所述目标区域的起源(seed)之后,可参考较小目标区域重复集成的集成区域,设置所述目标区域。
并且,所述目标区域预测网络(121)通过前景分割(Foreground Segmentation)确认图像上的前景,并参考所述确认的前景,将被预测是至少一个目标对象所在的,被预测是包括所述至少一个目标对象的尺寸的至少一个区域,设置为至少一个目标区域。并且,所述目标区域预测网络(121)可利用显著区域检测(Saliency Detection)方法,设置一个或多个目标区域。
然而,本发明不限于此,可使用找出被预测是在图像中目标对象所在的目标区域的所有方法。
此后,所述学习装置(100),使图像处理网络(111),在所述目标区域预测网络(121)中设置的与第1目标区域至第n目标区域分别对应的所述训练图像或者各个与其对应的调整尺寸的图像上,获取与所述第1目标区域至所述第n目标区域对应的第1处理图像至第n处理图像。
此时,所述学习装置(100),使所述图像处理网络(111),可以在所述训练图像或者与其对应的调整尺寸的图像上,剪裁与所述第1目标区域至所述第n目标区域对应的一个或多个区域,获取所述第1处理图像至所述第n处理图像,或者在所述训练图像或者与其对应的调整尺寸的图像上,对所述第1目标区域至所述第n目标区域对应的一个或多个区域裁剪后调整尺寸,获取所述第1处理图像至所述第n处理图像。
作为一例,参考图3,可获取包括所述第1目标区域的所述第1调整尺寸的图像(RI1)作为所述第1处理图像(MI1),可从所述第2调整尺寸的图像(RI2)生成与所述第2目标区域对应的所述第2处理图像(MI2),可从第3调整尺寸的图像生成与第3目标区域对应的所述第3处理图像(MI3)。
此后,所述学习装置(100),可以使所述图像处理网络(111),获取将所述第1处理图像至所述第3处理图像串联的所述集成训练图像。
此时,所述学习装置(100),使所述图像处理网络(111),将所述第1处理图像至所述第3处理图像的宽度与高度中至少一个调整为相同后,可以在相同调整后的所述宽度或者所述高度的方向上,将所述第1已调整处理图像至所述第3已调整处理图像串联。
此后,所述学习装置(100),使所述图像处理网络(111),在所述第1已调整处理图像至所述第3已调整处理图像中,由分别串联并相邻的两个已调整处理图像配置而成的每对之间,分别添加至少一个零填充(Zero Padding)区域。
此时,当通过所述卷积层的多重卷积运算,所述集成训练图像缩小为1/S,所述卷积层的每个卷积核的各个最大尺寸为K×K时,所述零填充区域的宽度为
Figure BDA0002329470680000201
由此,可以使所述CNN的开销(Over Head)最小化。
作为一示例,参考图4,通过图3的过程生成的所述第1处理图像(MI1)、所述第2处理图像(MI2)以及所述第3处理图像(MI3)可以以使高度相同的方式调整后进行串联。
此时,可以在各个所述相邻的已调整处理图像之间添加各个零填充区域(PR)。
作为另一示例,将所述处理图像的宽度调整为相同后,利用所述调整后的宽度,串联所述各个处理图像,或者将所述宽度与所述高度调整为相同后,所述各个处理图像被串联成大正方形形状。
此后,所述学习装置(100),可以使卷积层(122),通过对所述集成训练图像适用所述卷积运算,输出至少一个集成特征图。
此时,所述卷积层(122)可以为单一卷积层,也可以为多个卷积层。
此后,所述学习装置(100),可以使区域候选网络(Region Proposal Network,RPN)(123),利用所述集成特征图,输出包括在所述集成训练图像的,位于所述第1处理图像至所述第n处理图像中的与所述对象对应的一个或多个第1对象候选至一个或多个第n对象候选。
此时,每个所述第1对象候选至所述第n对象候选可以对应于位于所述第1处理图像至所述第n处理图像中的所述对象,每个所述对象候选可包括每个所述对象,即,关于具有与标记区域对应的位置信息与关于每个所述标记区域是否是对象的信息的每个候选框的信息。
此时,关于是否是对象的信息可包括所述各个对象候选被预测是对象的概率信息,关于所述候选框的信息可包括所述候选框被预测是与所述对象的位置一致的概率信息。
此后,所述学习装置(100)使池化层(124),在在所述集成特征图上,对与所述第1对象候选至所述第n对象候选分别对应的各个区域适用所述池化运算,输出至少一个池化集成特征图,可使全连接(Fully Connected,FC)层(125),对所述池化集成特征图适用所述FC(Fully Connected)运算,输出与所述对象对应的第1对象检测信息至第n对象检测信息。
此时,所述第1对象检测信息至所述第n对象检测信息可包括关于所述第1对象候选至所述第n对象候选分别对应的所述对象的类别信息与关于边界框的信息(即,关于每个所述对象的位置信息)。
并且,所述类别信息可包括每个所述对象被预测是对应类别的概率信息,关于所述边界框的信息可包括每个所述边界框被预测是与所述对象的位置一致的概率信息。
此后,所述学习装置(100),(i)使所述目标对象集成网络(126),集成所述第1对象候选至所述第n对象候选,输出集成对象候选,集成所述第1对象检测信息至所述第n对象检测信息,输出集成对象检测信息。
这里,关于所述第1对象候选至所述第n对象候选的信息可以转换为对应于所述训练图像。
作为一例,参考图5,至少一个特定相同对象位于所述第1处理图像(MI1)与所述第2处理图像(MI2)上,在所述第1处理图像(MI1)上的所述第1对象候选中,将与所述特定相同对象对应的至少一个对象候选作为第1特定对象候选(PB1),在所述第2处理图像(MI2)上的所述第2对象候选中,将与所述特定相同对象对应的至少一个对象候选作为第2特定对象候选(PB2)时,所述学习装置(100)使所述目标对象集成网络(126),判断所述第1特定对象候选(PB1)与所述第2特定对象候选(PB2)之间的IOU(Intersection Over Union)是否等于或大于第1阈值。
此后,若所述IOU被判断为小于所述第1阈值,计算出所述第1特定对象候选(PB1)与所述第2特定对象候选(PB2)之间的调整IOU。
此时,所述调整IOU是,在所述第2处理图像(MI2)上,参考与所述第1特定对象候选(PB1)对应的区域,即,交叉区域(PB1,MI2)以及在所述第1处理图像(MI1)上,与所述第2特定对象候选(PB2)对应的区域,即,交叉区域(PB2,MI1),计算得到的IOU。
然后,若所述调整IOU被判断为等于或大于第2阈值,所述学习装置(100),在所述第1特定对象候选(PB1)与所述第2特定对象候选(PB2)中,(i)选择概率值高的特定对象候选,或者(ii)选择在所述训练图像上运算的面积大的特定对象候选,从而将选择的特定对象候选作为与所述特定相同对象对应的特定集成对象候选来生成。
然而,若所述调整IOU被判断为小于所述第2阈值,则所述学习装置(100)会判断所述第1特定对象候选(PB1)与所述第2特定对象候选(PB2)分别对应不同的对象。
即,若所述第1特定对象候选(PB1)与所述第2特定对象候选(PB2)之间的所述IOU被判断为小于所述第1阈值,并且他们之间的所述调整IOU被判断为小于所述第2阈值,则所述学习装置(100)会判断所述第1特定对象候选(PB1)与所述第2特定对象候选(PB2)分别对应不同的对象。
另一方面,所述第1特定对象候选(PB1)与所述第2特定对象候选(PB2)之间的所述IOU被判断为等于或大于所述第1阈值,则所述学习装置,在所述第1特定对象候选(PB1)与所述第2特定对象候选(PB2)中,(i)选择概率值高的特定对象候选,或者(ii)选择在各个所述处理图像(MI1以及MI2)上运算的面积大的特定对象候选,从而将选择的特定对象候选作为与所述特定相同对象对应的所述特定集成对象候选来生成。
并且,参考图5,至少一个特定相同对象位于所述第1处理图像(MI1)与所述第2处理图像(MI2)上,在所述第1处理图像(MI1)上,包括在所述第1对象检测信息的对象边界框中,将与所述特定相同对象对应的至少一个对象边界框作为第1特定对象边界框(BB1),在所述第2处理图像(MI2)上,包括在所述第2对象检测信息的对象边界框中,将与所述特定相同对象对应的至少一个对象边界框作为第2特定对象边界框(BB2)时,所述学习装置(100),使所述目标对象集成网络(126),判断所述第1特定对象边界框(BB1)与所述第2特定对象边界框(BB2)之间的IOU是否等于或大于所述第1阈值。
此时,利用于判断所述对象候选之间的所述IOU的所述第1阈值与利用于判断所述对象边界框之间的所述IOU的所述第1阈值可以相同或不同。此后,若所述边界框之间的IOU被判断为小于所述第1阈值,则计算出所述第1特定对象边界框(BB1)与所述第2特定对象边界框(BB2)之间的调整IOU。
此时,所述调整IOU是,参考在所述第2处理图像(MI2)上,与所述第1特定对象边界框(BB1)对应的区域,即,交叉区域(BB1,MI2)以及在所述第1处理图像(MI1)上,与所述第2特定对象边界框(BB2)对应的区域,即,交叉区域(BB2,MI1),计算得到的IOU。
然后,若所述调整IOU被判断为等于或大于所述第2阈值,则所述学习装置(100)在所述第1特定对象边界框(BB1)与所述第2特定对象边界框(BB2)中,(i)选择概率值高的特定对象边界框,或者(ii)选择在所述训练图像上运算的面积大的特定对象边界框,从而将所述选择的特定对象边界框作为与所述特定相同对象对应的特定集成对象检测信息来生成。
此时,利用于判断所述对象候选之间的IOU的所述第2阈值与利用于所述对象边界框之间的IOU的所述第2阈值可以相同或不同。
然而,若所述调整IOU被判断为小于所述第2阈值,所述学习装置(100)会判断所述第1特定对象边界框(BB1)与所述第2特定对象边界框(BB2)分别对应不同的对象。
即,所述第1特定对象边界框(BB1)与所述第2特定对象边界框(BB2)之间的所述IOU被判断为小于所述第1阈值,并且他们之间的所述调整IOU被判断为小于所述第2阈值,所述学习装置(100)会判断所述第1特定对象边界框(BB1)与所述第2特定对象边界框(BB2)分别对应不同的对象。
另一方面,所述第1特定对象边界框(BB1)与所述第2特定对象边界框(BB2)之间的所述IOU被判断为等于或大于所述第1阈值,所述学习装置,在所述第1特定对象边界框(BB1)与所述第2特定对象边界框(BB2)中,
(i)选择概率值高的特定对象边界框,或者
(ii)选择在各个所述处理图像(MI1以及MI2)上运算的面积大的特定对象边界框,从而将选择的特定对象边界框作为与所述特定相同对象对应的所述特定集成对象检测信息来生成。
此后,所述学习装置(100)使所述全连接(Fully Connected,FC)损失层(127),参考所述集成对象检测信息和与其对应的GT,生成一个或多个FC损失,从而通过利用所述FC损失的反向传播,学习所述FC层(125)与所述卷积层(122)的参数中的至少一部分。
然后,所述学习装置(100),使所述区域候选网络(Region Proposal Network,RPN)损失层(128),参考所述集成对象候选以及与其对应的GT,计算出一个或多个RPN损失,从而通过利用所述RPN损失的反向传播,学习所述RPN(123)的参数中的至少一部分。
通过所述的方法,位于所述训练图像中的各种尺寸的对象,尤其,可以有效地对尺寸小且位于远距离的所述第k对象进行检测,并且,仅使用与所述预测的目标区域对应的区域,减少了运算量,由此可减少基于所述CNN的所述对象检测的运算时间。
并且,上文中仅通过假设所述训练图像上目标对象只有一个的情况进行了描述,但在训练图像中存在多个目标对象的情况下,上述方法也能够使用与训练图像中的各个目标对象相对应的各个目标区域来检测所述各个目标对象。
图6示意性地示出测试根据本发明一实施例的利用所述图像串联与所述目标对象集成网络,基于所述CNN的对象检测器的测试装置图,参考图6,所述测试装置(200)可包括通信部(210)与处理器(220)。
首先,所述通信部(210)可支持获取至少一个测试图像,或者使其他装置获取。
并且,所述测试装置还可以包括可存储用于完成将要描述的过程的计算机可读指令(Computer Readable Instruction)的存储器(215)。作为一例,所述处理器、所述存储器以及介质(medium)等可以由一个处理器集成起作用。
此时,利用所述图像串联与所述目标对象集成网络的,基于所述CNN的所述对象检测器,可通过参考图1至图6描述的所述学习方法学习。
作为参考,为了避免在以下描述中造成混淆,与学习过程有关的术语中添加了术语“学习用”,并且与测试过程有关的术语中添加了术语“测试用”。
即,当获取至少一个训练图像时,所述学习装置执行以下步骤:(a)(i)使目标区域预测网络,在所述训练图像或者与其对应的一个或多个调整尺寸的学习用图像上,找出与被预测为一个或多个学习用目标对象所在的区域分别对应的第1学习用目标区域至第n学习用目标区域,(ii)使所述图像处理网络,从所述训练图像或者与其对应的调整尺寸的学习用图像中获取与所述第1学习用目标区域至所述第n学习用目标区域分别对应的第1学习用处理图像至第n学习用处理图像,(iii)输出将所述第1学习用处理图像至所述第n学习用处理图像串联的集成训练图像,(b)(i)使所述卷积层,将所述卷积运算适用于所述集成训练图像,输出至少一个学习用集成特征图,(ii)使所述RPN,利用所述学习用集成特征图,输出与位于所述第1学习用处理图像至所述第n学习用处理图像的一个或多个学习用对象分别对应的第1学习用对象候选至第n学习用对象候选,(iii)使所述池化层,在所述学习用集成特征图上,对与所述第1学习用对象候选至所述第n学习用对象候选分别对应的各个区域适用所述池化运算,输出至少一个学习用池化集成特征图,(iv)使所述FC层,对所述学习用池化集成特征图适用所述FC(Fully Connected)运算,输出与所述学习用对象对应的第1学习用对象检测信息至第n学习用对象检测信息,(c)(i)使所述目标对象集成网络,集成所述第1学习用对象候选至所述第n学习用对象候选,输出学习用集成对象候选,集成所述第1学习用对象检测信息至所述第n学习用对象检测信息,输出学习用集成对象检测信息,(ii)使所述FC损失层,参考所述学习用集成对象检测信息和与其对应的GT,生成所述FC损失,从而通过利用所述FC损失的反向传播,在所述FC层以及所述卷积层的参数中,学习至少一部分。
然后,所述学习装置使所述RPN损失层,参考所述学习用集成对象候选以及与其对应的GT计算出一个或多个RPN损失,从而通过利用所述RPN损失的反向传播,在所述RPN的参数中,学习至少一部分。
此后,所述处理器(220)可以,(i)使使目标区域预测网络,在至少一个测试图像或者与其对应的一个或多个调整尺寸的测试图像上,找出与被预测为一个或多个测试用目标对象所在的区域分别对应的第1测试用目标区域至第n测试用目标区域,(ii)使所述图像处理网络,从所述测试图像或者与其对应的调整尺寸的测试图像,获取与所述第1测试用目标区域至所述第n测试用目标区域分别对应的第1测试用处理图像至第n测试用处理图像,(iii)输出将所述第1测试用处理图像至所述第n测试用处理图像串联的集成测试图像。
此后,所述处理器(220)执行,(i)使所述卷积层,通过将所述卷积运算适用于所述集成测试图像,输出至少一个测试用集成特征图,(ii)使所述RPN,利用所述测试用集成特征图,输出与位于所述第1测试用处理图像至所述第n测试用处理图像中的测试用对象分别对应的第1测试用对象候选至第n测试用对象候选,(iii)使所述池化层,在所述测试用集成特征图上,对与所述第1测试用对象候选至所述第n测试用对象候选分别对应的各个区域适用所述池化运算,输出至少一个测试用池化集成特征图,(iv)使所述FC层,对所述测试用池化集成特征图适用所述FC运算,输出与所述测试用对象对应的第1测试用对象检测信息至第n测试用对象检测信息。
此后,所述处理器(220)执行,(i)使所述目标对象集成网络,集成所述第1测试用对象候选至所述第n测试用对象候选,输出测试用集成对象候选,集成所述第1测试用对象检测信息至所述第n测试用对象检测信息,输出测试用集成对象检测信息。
此时,根据本发明一实施例的测试装置(200)作为计算装置,只要是装载处理器的具有运算能力的装置,就可以作为根据本发明的测试装置(200)来被采用。
并且,图6中仅示出了测试装置(200),但不限于此,另外测试装置也可以被划分为多个来完成其作用。
参考图7描述利用根据本发明一实施例的所述测试装置(200),测试利用图像串联与目标对象集成网络的,基于所述CNN的所述对象检测器的方法如下。在以下描述中,将省略关于参考图1至图5描述的学习方法中容易理解的部分的详细描述。
首先,根据参考图1至图5描述的学习方法,在学习了全连接(Fully Connected,FC)层(225)、卷积层(222)以及区域候选网络(Region Proposal Network,RPN)(223)的参数中至少一部分的状态下,输入所述测试图像时,所述测试装置(200)使目标区域预测网络(221),可以在所述测试图像或者与其对应的调整尺寸的图像中,找出与被预测是所述测试用目标对象所在的至少一个区域对应的所述第1测试用目标区域至所述第n测试用目标区域。
此时,所述第1测试用目标区域至所述第n测试用目标区域,位于相同测试图像中的所述测试用目标对象中,可以与互不相同的多个测试用目标对象对应,或者可以与位于尺寸互不相同的多个图像中的相同测试用目标对象对应。
并且,所述第1测试用目标区域至所述第n测试用目标区域,可对应于被预测是位于尺寸互不相同的相同图像的所述图像金字塔中的各个图像中的测试用目标对象。
即,所述目标区域预测网络(221),在所述测试图像中,找出与被预测是第1测试用目标对象至第n测试用目标对象所在的区域对应的,所述第1测试用目标区域至所述第n测试用目标区域,或者在每个将所述测试图像通过调整尺寸得到的第1测试用调整尺寸的图像至第n测试用调整尺寸的图像中,找出与被预测是至少一个特定测试用目标对象所在的区域对应的,每个所述第1测试用目标区域至所述第n测试用目标区域。
并且,所述目标区域预测网络(221),在所述测试图像上,找出与被预测是单一目标对象所在的区域对应的特定目标区域,在通过所述测试图像调整尺寸得到的每个第1测试用调整尺寸的图像至第n测试用调整尺寸的图像中,找出与被预测是所述单一测试用目标对象所在的区域对应的,每个所述第1测试用目标区域至所述第n测试用目标区域。
另外,当在所述测试图像中配置有多个测试用目标对象时,可在每个所述测试图像的调整尺寸的图像中,预测与所述测试用目标对象对应的所述测试用目标区域。
此后,所述测试装置(200),使所述图像处理网络(211),在所述目标区域预测网络(221)中设置的,与第1测试用目标区域至第n测试用目标区域分别对应的所述测试图像或者各个与其对应的调整尺寸的图像上,获取与所述第1测试用目标区域至所述第n测试用目标区域对应的第1测试用处理图像至第n测试用处理图像。
此时,所述测试装置(200),可以使所述图像处理网络(211),在所述测试图像或者与其对应的调整尺寸的图像上,剪裁与所述第1测试用目标区域至所述第n测试用目标区域对应的一个或多个区域,获取所述第1测试用处理图像至所述第n测试用处理图像,或者在所述测试图像或与其对应的调整尺寸的图像上,对与所述第1测试用目标区域至所述第n测试用目标区域对应的一个或多个区域剪裁后调整尺寸,获取所述第1测试用处理图像至所述第n测试用处理图像。
此后,所述测试装置(200),可以使所述图像处理网络(211),获取将所述第1测试用处理图像至所述第n测试用处理图像串联的所述集成测试图像。
此时,所述测试装置(200),使所述图像处理网络(211),将所述第1测试用处理图像至所述第n测试用处理图像的宽度与高度中至少一个调整为相同后,可以在相同调整后的所述宽度或者所述高度的方向上,将所述第1测试用已调整处理图像至所述第n测试用已调整处理图像串联。
然后,所述测试装置(200),使所述图像处理网络(211),在所述第1测试用已调整处理图像至所述第n测试用已调整处理图像中,由分别串联并相邻的两个测试用已调整处理图像配置而成的每对之间,分别添加至少一个零填充(Zero Padding)区域。
此时,当通过所述卷积层的多重卷积运算,所述集成测试图像缩小为1/S,所述卷积层的每个卷积核的各个最大尺寸为K×K时,所述零填充区域的宽度为
Figure BDA0002329470680000291
此后,所述测试装置(200),可以使所述卷积层(222),通过对所述集成测试图像适用所述卷积运算,输出至少一个测试用集成特征图。此时,所述卷积层(222)可以为单一卷积层,也可以为卷积层。
此后,所述测试装置(200),可以使所述RPN(223),利用所述测试用集成特征图,输出位于包括在所述集成测试图像的所述第1测试用处理图像至所述第n测试用处理图像中的,与所述测试用对象对应的一个或多个第1测试用对象候选至一个或多个第n测试用对象候选。
此时,每个所述第1测试用对象候选至所述第n测试用对象候选,可包括每个所述测试用对象,即,与标记区域对应的位置信息和具有关于所述标记区域是否是对象的信息的候选框的信息。
此后,所述测试装置(200)使池化层(224),在所述测试用集成特征图上,对与所述第1测试用对象候选至所述第n测试用对象候选分别对应的各个区域适用所述池化运算,输出至少一个测试用池化集成特征图,
使所述FC层(225),对所述测试用池化集成特征图适用所述FC运算,输出与所述测试用对象对应的第1测试用对象检测信息至第n测试用对象检测信息。
此时,可包括关于所述第1测试用对象检测信息至所述第n测试用对象检测信息测试用边界框的信息(即,关于每个所述测试用对象的位置信息)以及关于与所述第1测试用对象候选至所述第n测试用对象候选分别对应的所述测试用对象的类别信息。
此后,所述测试装置(200)可以,(i)使所述目标对象集成网络(226),集成所述第1测试用对象候选至所述第n测试用对象候选,输出测试用集成对象候选,集成所述第1测试用对象检测信息至所述第n测试用对象检测信息,输出测试用集成对象检测信息。
其中,关于所述第1测试用对象候选至所述第n测试用对象候选的信息可转换为对应于所述测试图像。
作为一例,参考图6,至少一个测试用特定相同对象位于所述第1测试用处理图像(MI1)与所述第2测试用处理图像(MI2)上,在所述第1测试用处理图像(MI1)上的所述第1测试用对象候选中,将与所述测试用特定相同对象对应的至少一个测试用对象候选作为第1测试用特定对象候选,在所述第2测试用处理图像(MI2)上的所述第2测试用对象候选中,将与所述测试用特定相同对象对应的至少一个测试用对象候选作为第2测试用特定对象候选时,所述测试装置(200),使所述目标对象集成网络(226),判断所述第1测试用特定对象候选(PB1)与所述第2测试用特定对象候选(PB2)之间的测试用IOU是否等于或大于第1阈值。
此后,若所述测试用IOU被判断为小于所述第1阈值,则计算出所述第1测试用特定对象候选(PB1)与所述第2测试用特定对象候选(PB2)之间的测试用调整IOU。
此时,所述测试用调整IOU是,在所述第2测试用处理图像(MI2)上,参考与所述第1测试用特定对象候选(PB1)对应的区域,即,交叉区域(PB1,MI2)以及在所述第1测试用处理图像(MI1)上,与所述第2测试用特定对象候选(PB2)对应的区域,即,交叉区域(PB2,MI1),计算得到的IOU。
然后,若所述测试用调整IOU被判断为等于或大于第2阈值,所述测试装置(200),在所述第1测试用特定对象候选(PB1)与所述第2测试用特定对象候选(PB2)中,(i)选择概率值高的测试用特定对象候选,或者(ii)选择所述测试图像上运算的面积大的测试用特定对象候选,从而将所述选择的测试用特定对象候选作为与所述测试用特定相同对象对应的测试用特定集成对象候选来生成。
然而,若所述测试用调整IOU被判断为小于所述第2阈值,则所述测试装置(200)会判断所述第1测试用特定对象候选(PB1)与所述第2测试用特定对象候选(PB2)分别对应不同的测试用对象。
即,若所述第1测试用特定对象候选(PB1)与所述第2测试用特定对象候选(PB2)之间的所述测试用IOU被判断为小于所述第1阈值,并且他们之间的所述测试用调整IOU被判断为小于所述第2阈值,则所述测试装置(200)会判断所述第1测试用特定对象候选(PB1)与所述第2测试用特定对象候选(PB2)分别对应不同的测试用对象。
另一方面,若所述第1测试用特定对象候选(PB1)与所述第2测试用特定对象候选(PB2)之间的所述IOU被判断为等于或大于所述第1阈值,在所述测试装置所述第1测试用特定对象候选(PB1)与所述第2测试用特定对象候选(PB2)中,(i)选择概率值高的测试用特定对象候选,或者(ii)选择在各个所述测试用处理图像(MI1以及MI2)上运算的面积大的测试用特定对象候选,从而将所述选择的测试用特定对象候选作为与所述测试用特定相同对象对应的所述测试用特定集成对象候选来生成。
并且,参考图6,至少一个测试用特定相同对象位于所述第1测试用处理图像(MI1)与所述第2测试用处理图像(MI2)上,在所述第1测试用处理图像(MI1)上,包括在所述第1测试用对象检测信息的测试用对象边界框中,将与所述测试用特定相同对象对应的至少一个测试用对象边界框作为第1测试用特定对象边界框(BB1),在所述第2测试用处理图像(MI2)上,包括在所述第2测试用对象检测信息的测试用对象边界框中,将与所述测试用特定相同对象对应的至少一个测试用对象边界框作为第2测试用特定对象边界框(BB2)时,所述测试装置(200),使所述目标对象集成网络(226),判断所述第1测试用特定对象边界框(BB1)与所述第2测试用特定对象边界框(BB2)之间的所述测试用IOU是否等于或大于所述第1阈值。
此时,利用于判断所述测试用对象候选之间的测试用IOU的所述第1阈值以及利用于判断所述测试用对象边界框之间的测试用IOU的所述第1阈值可以相同或不同。
此后,若所述测试用边界框之间的测试用IOU被判断为小于所述第1阈值,则计算出所述第1测试用特定对象边界框(BB1)与所述第2测试用特定对象边界框(BB2)之间的测试用调整IOU。
此时,所述测试用调整IOU是,参考在所述第2测试用处理图像(MI2)上,与所述第1测试用特定对象边界框(BB1)对应的区域,即,交叉区域(BB1,MI2)以及在所述第1测试用处理图像(MI1)上,与所述第2测试用特定对象边界框(BB2)对应的区域,即,交叉区域(BB2,MI1),计算得到的IOU。
然后,若所述测试用调整IOU被判断为等于或大于所述第2阈值,则所述测试装置(200),在所述第1测试用特定对象边界框(BB1)与所述第2测试用特定对象边界框(BB2)中,(i)选择概率值高的测试用特定对象边界框,或者(ii)选择所述测试图像上运算的面积大的测试用特定对象边界框,从而将所述选择的测试用特定对象边界框作为与所述测试用特定相同对象对应的测试用特定集成对象检测信息来生成。
此时,利用于判断所述测试用对象候选之间的测试用IOU的所述第2阈值以及利用于判断所述测试用对象边界框之间的测试用IOU的所述第2阈值可以相同或不同。
然而,若所述测试用调整IOU被判断为小于所述第2阈值,则所述测试装置(200),会判断所述第1测试用特定对象边界框(BB1)与所述第2测试用特定对象边界框(BB2)分别对应不同的测试用对象。
即,若所述第1测试用特定对象边界框(BB1)与所述第2测试用特定对象边界框(BB2)之间的所述测试用IOU被判断为小于所述第1阈值,并且他们之间的所述测试用调整IOU被判断为小于所述第2阈值,则所述测试装置(200)会判断,所述第1测试用特定对象边界框(BB1)与所述第2测试用特定对象边界框(BB2)分别对应不同的测试用对象。
另一方面,所述第1测试用特定对象边界框(BB1)与所述第2测试用特定对象边界框(BB2)之间的所述测试用IOU被判断为等于或大于所述第1阈值,则所述测试装置在所述第1测试用特定对象边界框(BB1)与所述第2测试用特定对象边界框(BB2)中,(i)选择概率值高的测试用特定对象边界框,或者(ii)选择各个所述测试用处理图像(MI1以及MI2)上运算的面积大的测试用特定对象边界框,从而将选择的测试用特定对象边界框作为与所述测试用特定相同对象对应的所述测试用特定集成对象检测信息来生成。
通过所述的方法,位于所述测试图像中的各种尺寸的对象,尤其,可以有效地对尺寸小且位于远距离的对象进行检测,并且,仅使用与所述预测的目标区域对应的区域,减少了运算量,由此可减少基于所述CNN的所述对象检测的运算时间。
并且,上文中仅通过假设所述测试图像上目标对象只有一个的情况进行了描述,但在测试图像中存在多个目标对象的情况下,上述方法也能够使用与测试图像中的各个目标对象相对应的各个目标区域来检测所述各个目标对象。
所述CNN,可进行调整适应用户要求如关键绩效指标(Key Performance Index,KPI)。并且,所述CNN,可以根据所述关键绩效指标的分辨率或焦距的变化而变化的对象的规模重新设计。通过所述方法,提高了2D边界框的准确度,可在多摄像机、环视监视(Surround View Monitoring)等中有效完成。
并且,以上描述的根据本发明的实施例可以通过各种计算机部件执行的程序指令的形式来实现并存储在计算机可读存储介质。所述计算机可读存储介质可以单独或组合包括程序指令、数据文件、数据结构等。存储在所述计算机可读存储介质的程序指令,可以是为本发明专门设计并组成的,或者可以是计算机软件领域的技术人员已知并可使用的。计算机可读存储介质的示例包括,如硬盘、软盘和磁带的磁性介质、如CD-ROM、DVD的光学记录介质、如软盘的磁光介质以及专门配置用于存储并执行如ROM、RAM、闪存等程序指令的硬件装置。程序指令的示例不仅包括如由编译器产生的机器代码,还包括可以由计算机使用解释器等执行的高级语言代码。所述硬件装置,可配置为一个或多个软件模块来操作,以执行根据本发明的过程,反之亦然。
以上,本发明根据具体的部件等特定实施候选和有限的实施例及附图进行了说明,但这只是为了帮助更全面地理解本发明而提供的,本发明并不限于上述实施例,在本发明所属的技术领域中,普通技术人员可以从这些记载中进行各种修改和变化。
因此,本发明的思想不能限于上述说明的实施例而定,不仅是后述的权利范围,与该权利范围均等或等价变形的一切,都属于本发明的思想范围。

Claims (28)

1.一种学习方法,其利用图像串联与目标对象集成网络,来学习基于卷积神经网络的对象检测器的参数,其特征在于,包括:
步骤(a),当输入至少一个训练图像时,学习装置,(i)使目标区域预测网络,在所述训练图像或者与其对应的一个或多个调整尺寸的图像上,找出与被预测是一个或多个目标对象所在的区域分别对应的第1目标区域至第n目标区域,(ii)使图像处理网络,从所述训练图像或者与其对应的调整尺寸的图像,获取与所述第1目标区域至所述第n目标区域分别对应的第1处理图像至第n处理图像,(iii)输出将所述第1处理图像至所述第n处理图像串联的集成训练图像;
步骤(b),所述学习装置,(i)使一个或多个卷积层,将一个或多个卷积运算适用于所述集成训练图像,输出至少一个集成特征图,(ii)使区域候选网络,利用所述集成特征图,输出与位于所述第1处理图像至所述第n处理图像中的一个或多个对象分别对应的第1对象候选至第n对象候选,(iii)使池化层,在所述集成特征图上,对与所述第1对象候选至所述第n对象候选分别对应的各个区域适用一个或多个池化运算,输出至少一个池化集成特征图,(iv)使全连接层,对所述池化集成特征图适用至少一个全连接运算,输出与所述对象对应的第1对象检测信息至第n对象检测信息;以及
步骤(c),所述学习装置,(i)使所述目标对象集成网络,集成所述第1对象候选至所述第n对象候选,生成集成对象候选,集成所述第1对象检测信息至所述第n对象检测信息,生成集成对象检测信息,(ii)使至少一个全连接损失层,参考所述集成对象检测信息以及与其对应的真实框,生成一个或多个全连接损失,从而通过利用所述全连接损失的反向传播,学习所述全连接层与所述卷积层的参数中至少一部分。
2.根据权利要求1所述的学习方法,其特征在于,
在所述步骤(c),
所述学习装置,使至少一个区域候选网络损失层,参考所述集成对象候选和与其对应的真实框,计算出一个或多个区域候选网络损失,从而通过利用所述区域候选网络损失的反向传播,学习所述区域候选网络的参数。
3.根据权利要求1所述的学习方法,其特征在于,
在所述步骤(a),
所述学习装置,使所述图像处理网络,将所述第1处理图像至所述第n处理图像的宽度与高度中的至少一个调整为相同后,在调整为相同尺寸的所述宽度或者所述高度的方向上,串联所述第1已调整处理图像至所述第n已调整处理图像。
4.根据权利要求3所述的学习方法,其特征在于,
所述学习装置,使所述图像处理网络,在所述第1已调整处理图像至所述第n已调整处理图像中,由分别串联并相邻的两个已调整处理图像配置而成的每对之间,分别添加至少一个零填充区域。
5.根据权利要求4所述的学习方法,其特征在于,
当通过所述卷积层的多重卷积运算,所述集成训练图像缩小为1/S,所述卷积层的每个卷积核的各个最大尺寸为K×K时,所述零填充区域的宽度为
Figure FDA0002329470670000021
6.根据权利要求1所述的学习方法,其特征在于,
在所述步骤(c),
至少一个特定相同对象分别位于第1特定处理图像与第2特定处理图像上,将在所述第1特定处理图像上与所述特定相同对象对应的至少一个对象候选作为第1特定对象候选,将所述第2特定处理图像上与所述特定相同对象对应的至少一个对象候选作为第2特定对象候选时,
所述学习装置,使所述目标对象集成网络,判断所述第1特定对象候选与所述第2特定对象候选之间的交并比是否等于或大于第1阈值,(I)若所述交并比被判断为小于所述第1阈值,则计算出在所述第2特定处理图像上与所述第1特定对象候选对应的区域和在所述第1特定处理图像上与所述第2特定对象候选对应的区域之间的调整交并比,(II)若所述调整交并比被判断为等于或大于第2阈值,则在所述第1特定对象候选与所述第2特定对象中,(i)选择概率值高的特定对象候选,或者(ii)选择在所述训练图像上运算的面积大的特定对象候选,从而将选择的特定对象候选作为与所述特定相同对象对应的特定集成对象候选来生成。
7.根据权利要求1所述的学习方法,其特征在于,
在所述步骤(c),
至少一个特定相同对象分别位于第1特定处理图像与第2特定处理图像上,将在所述第1特定处理图像上与所述特定相同对象对应的至少一个对象边界框作为第1特定对象边界框,将所述第2特定处理图像上与所述特定相同对象对应的至少一个对象边界框作为第2特定对象边界框时,
所述学习装置,使所述目标对象集成网络,判断所述第1特定对象边界框与所述第2特定对象边界框之间的交并比是否等于或大于第1阈值,(I)若所述交并比被判断为小于所述第1阈值,计算出在所述第2特定处理图像上与所述第1特定对象边界框对应的区域和在所述第1特定处理图像上与所述第2特定对象边界框对应的区域之间的调整交并比,(II)若所述调整交并比被判断为等于或大于第2阈值,则在所述第1特定对象边界框与所述第2特定对象边界框中,(i)选择概率值高的特定对象边界框,或者(ii)选择在所述训练图像上运算的面积大的特定对象边界框,从而将选择的特定对象边界框作为与所述特定相同对象对应的特定集成对象检测信息来生成。
8.一种测试方法,其利用图像串联与目标对象集成网络,来测试基于卷积神经网络的对象检测器,其特征在于,包括:
步骤(a),学习装置,(1)(i)使目标区域预测网络,在至少一个训练图像或者与其对应的一个或多个调整尺寸的训练图像上,找出与被预测为一个或多个学习用目标对象所在的区域分别对应的第1学习用目标区域至第n学习用目标区域,(ii)使图像处理网络,从所述训练图像或者与其对应的调整尺寸的训练图像,获取与所述第1学习用目标区域至所述第n学习用目标区域分别对应的第1学习用处理图像至第n学习用处理图像,(iii)输出将所述第1学习用处理图像至所述第n学习用处理图像串联的集成训练图像,(2)(i)使一个或多个卷积层,将一个或多个卷积运算适用于所述集成训练图像,输出至少一个学习用集成特征图,(ii)使区域候选网络,利用所述学习用集成特征图,来输出与位于所述第1学习用处理图像至所述第n学习用处理图像的学习用对象分别对应的第1学习用对象候选至第n学习用对象候选,(iii)使池化层,所述学习用集成特征图上,对与所述第1学习用对象候选至所述第n学习用对象候选分别对应的各个区域适用一个或多个池化运算,输出至少一个学习用池化集成特征图,(iv)使全连接层,对所述学习用池化集成特征图适用至少一个全连接运算,输出与所述学习用对象对应的第1学习用对象检测信息至第n学习用对象检测信息,(3)(i)使所述目标对象集成网络,集成所述第1学习用对象候选至所述第n学习用对象候选,生成学习用集成对象候选,集成所述第1学习用对象检测信息至所述第n学习用对象检测信息,生成学习用集成对象检测信息,(ii)使至少一个全连接损失层,参考所述学习用集成对象检测信息以及与其对应的真实框生成一个或多个全连接损失,从而通过利用所述全连接损失的反向传播,学习所述全连接层与所述卷积层的参数中至少一部分的状态下,
当测试装置获取至少一个测试图像时,(i)使目标区域预测网络,在所述测试图像或者与其对应的一个或多个调整尺寸的测试图像上,找出与被预测为一个或多个测试用目标对象所在的区域分别对应的第1测试用目标区域至第n测试用目标区域,(ii)使所述图像处理网络,从所述测试图像或者与其对应的调整尺寸的测试图像,获取与所述第1测试用目标区域至所述第n测试用目标区域分别对应的第1测试用处理图像至第n测试用处理图像,(iii)输出将所述第1测试用处理图像至所述第n测试用处理图像串联的集成测试图像;
步骤(b),所述测试装置,(i)使所述卷积层,将所述卷积运算适用于所述集成测试图像,输出至少一个测试用集成特征图,(ii)使所述区域候选网络,利用所述测试用集成特征图,来输出与位于所述第1测试用处理图像至所述第n测试用处理图像中的测试用对象分别对应的第1测试用对象候选至第n测试用对象候选,(iii)使所述池化层,在所述测试用集成特征图上,对与所述第1测试用对象候选至所述第n测试用对象候选分别对应的各个区域适用所述池化运算,输出至少一个测试用池化集成特征图,(iv)使所述全连接层,对所述测试用池化集成特征图适用所述全连接运算,输出与所述测试用对象对应的第1测试用对象检测信息至第n测试用对象检测信息;以及
步骤(c),所述测试装置,(i)使所述目标对象集成网络,集成所述第1测试用对象候选至所述第n测试用对象候选,生成测试用集成对象候选,集成所述第1测试用对象检测信息至所述第n测试用对象检测信息,生成测试用集成对象检测信息。
9.根据权利要求8所述的测试方法,其特征在于,
在所述步骤(3),
所述学习装置,使至少一个区域候选网络损失层,参考所述学习用集成对象候选和与其对应的真实框,计算出一个或多个区域候选网络损失,从而通过利用所述区域候选网络损失的反向传播,学习所述区域候选网络的参数。
10.根据权利要求8所述的测试方法,其特征在于,
在所述步骤(a),
所述测试装置,使所述图像处理网络,将所述第1测试用处理图像至所述第n测试用处理图像的宽度与高度中至少一个调整为相同后,在调整为相同尺寸的所述宽度或者所述高度的方向上,串联所述第1测试用已调整处理图像至所述第n测试用已调整处理图像。
11.根据权利要求10所述的测试方法,其特征在于,
所述测试装置,使所述图像处理网络,在所述第1测试用已调整处理图像至所述第n测试用已调整处理图像中,由分别串联并相邻的两个测试用已调整处理图像配置而成的每对之间,分别添加至少一个零填充区域。
12.根据权利要求11所述的测试方法,其特征在于,
当通过所述卷积层的多重卷积运算,所述集成测试图像缩小为1/S,当所述卷积层的每个卷积核的各个最大尺寸为K×K时,所述零填充区域的宽度为
Figure FDA0002329470670000061
13.根据权利要求8所述的测试方法,其特征在于,
在所述步骤(c),
至少一个测试用特定相同对象分别位于第1测试用特定处理图像与第2测试用特定处理图像上,将在所述第1测试用特定处理图像上与所述测试用特定相同对象对应的至少一个测试用对象候选作为第1测试用特定对象候选,在所述第2测试用特定处理图像上,将与所述测试用特定相同对象对应的至少一个测试用对象候选作为第2测试用特定对象候选时,
所述测试装置,使所述目标对象集成网络,判断所述第1测试用特定对象候选与所述第2测试用特定对象候选之间的测试用交并比是否等于或大于第1阈值,(I)若所述测试用交并比被判断为小于所述第1阈值,计算出在所述第2测试用特定处理图像上与所述第1测试用特定对象候选对应的区域和在所述第1测试用特定处理图像上与所述第2测试用特定对象候选对应的区域之间的测试用调整交并比,(II)若所述测试用调整交并比被判断为等于或大于第2阈值,则在所述第1测试用特定对象候选与所述第2测试用特定对象中,(i)选择概率值高的测试用特定对象候选,或者(ii)通过选择所述测试图像上运算的面积大的测试用特定对象候选,从而将选择的测试用特定对象候选作为与所述测试用特定相同对象对应的测试用特定集成对象候选来生成。
14.根据权利要求8所述的测试方法,其特征在于,
在所述步骤(c),
至少一个测试用特定相同对象分别位于第1测试用特定处理图像与第2测试用特定处理图像上,将在所述第1测试用特定处理图像上与所述测试用特定相同对象对应的至少一个测试用对象边界框作为第1测试用特定对象边界框,将在所述第2测试用特定处理图像上与所述测试用特定相同对象对应的至少一个测试用对象边界框作为第2测试用特定对象边界框时,
所述测试装置,使所述目标对象集成网络,判断所述第1测试用特定对象边界框与所述第2测试用特定对象边界框之间的测试用交并比是否等于或大于第1阈值,(I)若所述测试用交并比被判断为小于所述第1阈值,计算出在所述第2测试用特定处理图像上与所述第1测试用特定对象边界框对应的区域和在所述第1测试用特定处理图像上与所述第2测试用特定对象边界框对应的区域之间的测试用调整交并比,(II)若所述测试用调整交并比被判断为等于或大于第2阈值,则在所述第1测试用特定对象边界框与所述第2测试用特定对象边界框中,(i)选择概率值高的测试用特定对象边界框,或者(ii)通过选择所述测试图像上运算的面积大的测试用特定对象边界框,从而将选择的测试用特定对象边界框作为与所述测试用特定相同对象对应的测试用特定集成对象检测信息来生成。
15.一种学习装置,其利用图像串联与目标对象集成网络,来学习基于卷积神经网络的对象检测器的参数,其特征在于,包括:
至少一个存储器,用于存储指令;以及
至少一个处理器,配置为执行所述指令用于完成以下过程,
过程(I),(i)使目标区域预测网络,在至少一个训练图像或者与其对应的一个或多个调整尺寸的图像上,找出与被预测是一个或多个目标对象所在的区域分别对应的第1目标区域至第n目标区域,(ii)使图像处理网络,从所述训练图像或者与其对应的调整尺寸的图像,获取与所述第1目标区域至所述第n目标区域分别对应的第1处理图像至第n处理图像,(iii)输出将所述第1处理图像至所述第n处理图像串联的集成训练图像,
过程(II),(i)使一个或多个卷积层,将一个或多个卷积运算适用于所述集成训练图像,输出至少一个集成特征图,(ii)使区域候选网络,利用所述集成特征图,输出与位于所述第1处理图像至所述第n处理图像中的一个或多个对象分别对应的第1对象候选至第n对象候选,(iii)使池化层,在所述集成特征图上,对与所述第1对象候选至所述第n对象候选分别对应的各个区域适用一个或多个池化运算,输出至少一个池化集成特征图,(iv)使全连接层,对所述池化集成特征图适用至少一个全连接运算,输出与所述对象对应的第1对象检测信息至第n对象检测信息,以及
过程(III),(i)使所述目标对象集成网络,集成所述第1对象候选至所述第n对象候选,生成集成对象候选,集成所述第1对象检测信息至所述第n对象检测信息,生成集成对象检测信息,(ii)使至少一个全连接损失层,参考所述集成对象检测信息以及与其对应的真实框,生成一个或多个全连接损失,从而通过利用所述全连接损失的反向传播,学习所述全连接层与所述卷积层的参数中至少一部分。
16.根据权利要求15所述的学习装置,其特征在于,
在所述过程(III),
所述处理器,使至少一个区域候选网络损失层,参考所述集成对象候选和与其对应的真实框,计算出一个或多个区域候选网络损失,从而通过利用所述区域候选网络损失的反向传播,学习所述区域候选网络的参数。
17.根据权利要求15所述的学习装置,其特征在于,
在所述过程(I),
所述处理器,使所述图像处理网络,将所述第1处理图像至所述第n处理图像的宽度与高度中的至少一个调整为相同后,在调整为相同尺寸的所述宽度或者所述高度的方向上,串联所述第1已调整处理图像至所述第n已调整处理图像。
18.根据权利要求17所述的学习装置,其特征在于,
所述处理器,使所述图像处理网络,在所述第1已调整处理图像至所述第n已调整处理图像中,由分别串联并相邻的两个已调整处理图像配置而成的每对之间,分别添加至少一个零填充区域。
19.根据权利要求18所述的学习装置,其特征在于,
当通过所述卷积层的多重卷积运算,所述集成训练图像缩小为1/S,所述卷积层的每个卷积核的各个最大尺寸为K×K时,所述零填充区域的宽度为
Figure FDA0002329470670000091
20.根据权利要求15所述的学习装置,其特征在于,
在所述过程(III),
至少一个特定相同对象分别位于第1特定处理图像与第2特定处理图像上,将在所述第1特定处理图像上与所述特定相同对象对应的至少一个对象候选作为第1特定对象候选,将所述第2特定处理图像上与所述特定相同对象对应的至少一个对象候选作为第2特定对象候选时,
所述处理器,使所述目标对象集成网络,判断所述第1特定对象候选与所述第2特定对象候选之间的交并比是否等于或大于第1阈值,(i)若所述交并比被判断为小于所述第1阈值,则计算出在所述第2特定处理图像上与所述第1特定对象候选对应的区域和在所述第1特定处理图像上与所述第2特定对象候选对应的区域之间的调整交并比,(ii)若所述调整交并比被判断为等于或大于第2阈值,则在所述第1特定对象候选与所述第2特定对象中,选择概率值高的特定对象候选,或者选择在所述训练图像上运算的面积大的特定对象候选,从而将选择的特定对象候选作为与所述特定相同对象对应的特定集成对象候选来生成。
21.根据权利要求15所述的学习装置,其特征在于,
在所述过程(III),
至少一个特定相同对象分别位于第1特定处理图像与第2特定处理图像上,将在所述第1特定处理图像上与所述特定相同对象对应的至少一个对象边界框作为第1特定对象边界框,将所述第2特定处理图像上与所述特定相同对象对应的至少一个对象边界框作为第2特定对象边界框时,
所述处理器,使所述目标对象集成网络,判断所述第1特定对象边界框与所述第2特定对象边界框之间的交并比是否等于或大于第1阈值,(i)若所述交并比被判断为小于所述第1阈值,计算出在所述第2特定处理图像上与所述第1特定对象边界框对应的区域和在所述第1特定处理图像上与所述第2特定对象边界框对应的区域之间的调整交并比,(ii)若所述调整交并比被判断为等于或大于第2阈值,则在所述第1特定对象边界框与所述第2特定对象边界框中,选择概率值高的特定对象边界框,或者选择在所述训练图像上运算的面积大的特定对象边界框,从而将选择的特定对象边界框作为与所述特定相同对象对应的特定集成对象检测信息来生成。
22.一种测试装置,其利用图像串联与目标对象集成网络,来测试基于卷积神经网络的对象检测器,其特征在于,包括:
至少一个存储器,用于存储指令;以及
至少一个处理器,配置为执行所述指令用于完成以下过程,
学习装置,(1)(i)使目标区域预测网络,在至少一个训练图像或者与其对应的一个或多个调整尺寸的训练图像上,找出与被预测为一个或多个学习用目标对象所在的区域分别对应的第1学习用目标区域至第n学习用目标区域,(ii)使图像处理网络,从所述训练图像或者与其对应的调整尺寸的训练图像,获取与所述第1学习用目标区域至所述第n学习用目标区域分别对应的第1学习用处理图像至第n学习用处理图像,(iii)输出将所述第1学习用处理图像至所述第n学习用处理图像串联的集成训练图像,(2)(i)使一个或多个卷积层,将一个或多个卷积运算适用于所述集成训练图像,输出至少一个学习用集成特征图,(ii)使区域候选网络,利用所述学习用集成特征图,输出与位于所述第1学习用处理图像至所述第n学习用处理图像的学习用对象分别对应的第1学习用对象候选至第n学习用对象候选,(iii)使池化层,在所述学习用集成特征图上,对与所述第1学习用对象候选至所述第n学习用对象候选分别对应的各个区域适用一个或多个池化运算,输出至少一个学习用池化集成特征图,(iv)使全连接层,对所述学习用池化集成特征图适用至少一个全连接运算,输出与所述学习用对象对应的第1学习用对象检测信息至第n学习用对象检测信息,(3)(i)使所述目标对象集成网络,集成所述第1学习用对象候选至所述第n学习用对象候选,生成学习用集成对象候选,集成所述第1学习用对象检测信息至所述第n学习用对象检测信息,生成学习用集成对象检测信息,(ii)使至少一个全连接损失层,参考所述学习用集成对象检测信息以及与其对应的真实框生成一个或多个全连接损失,从而通过利用所述全连接损失的反向传播,学习所述全连接层与所述卷积层的参数中的至少一部分的状态下,
过程(I),(i)使目标区域预测网络,在至少一个测试图像或者与其对应的一个或多个调整尺寸的测试图像上,找出与被预测为一个或多个测试用目标对象所在的区域分别对应的第1测试用目标区域至第n测试用目标区域,(ii)使所述图像处理网络,从所述测试图像或者与其对应的调整尺寸的测试图像,获取与所述第1测试用目标区域至所述第n测试用目标区域分别对应的第1测试用处理图像至第n测试用处理图像,(iii)输出将所述第1测试用处理图像至所述第n测试用处理图像串联的集成测试图像,
过程(II),(i)使所述卷积层,通过将所述卷积运算适用于所述集成测试图像,输出至少一个测试用集成特征图,(ii)使所述区域候选网络,利用所述测试用集成特征图,输出与位于所述第1测试用处理图像至所述第n测试用处理图像中的测试用对象分别对应的第1测试用对象候选至第n测试用对象候选,(iii)使所述池化层,在所述测试用集成特征图上,对与所述第1测试用对象候选至所述第n测试用对象候选分别对应的各个区域适用一个或多个池化运算,输出至少一个测试用池化集成特征图,(iv)使所述全连接层,对所述测试用池化集成特征图适用全连接运算,输出与所述测试用对象对应的第1测试用对象检测信息至第n测试用对象检测信息,以及
过程(III),(i)使所述目标对象集成网络,集成所述第1测试用对象候选至所述第n测试用对象候选,生成测试用集成对象候选,集成所述第1测试用对象检测信息至所述第n测试用对象检测信息,生成测试用集成对象检测信息。
23.根据权利要求22所述的测试装置,其特征在于,
在所述过程(III),
所述学习装置,使至少一个区域候选网络损失层,参考所述学习用集成对象候选和与其对应的真实框,计算出一个或多个区域候选网络损失,从而通过利用所述区域候选网络损失的反向传播,学习所述区域候选网络的参数。
24.根据权利要求22所述的测试装置,其特征在于,
在所述过程(I),
所述处理器,使所述图像处理网络,将所述第1测试用处理图像至所述第n测试用处理图像的宽度与高度中至少一个调整为相同后,在调整为相同尺寸的所述宽度或者所述高度的方向上,串联所述第1测试用已调整处理图像至所述第n测试用已调整处理图像。
25.根据权利要求24所述的测试装置,其特征在于,
所述处理器,使所述图像处理网络,在所述第1测试用已调整处理图像至所述第n测试用已调整处理图像中,由分别串联并相邻的两个测试用已调整处理图像配置而成的每对之间,分别添加至少一个零填充区域。
26.根据权利要求25所述的测试装置,其特征在于,
当通过所述卷积层的多重卷积运算,所述集成测试图像缩小为1/S,所述卷积层的每个卷积核的各个最大尺寸为K×K时,所述零填充区域的宽度为
Figure FDA0002329470670000121
27.根据权利要求22所述的测试装置,其特征在于,
在所述过程(III),
至少一个测试用特定相同对象分别位于第1测试用特定处理图像与第2测试用特定处理图像上,在所述第1测试用特定处理图像上,将与所述测试用特定相同对象对应的至少一个测试用对象候选作为第1测试用特定对象候选,当在所述第2测试用特定处理图像上,将与所述测试用特定相同对象对应的至少一个测试用对象候选作为第2测试用特定对象候选时,
所述处理器,使所述目标对象集成网络,判断所述第1测试用特定对象候选与所述第2测试用特定对象候选之间的测试用交并比是否等于或大于第1阈值,(i)若所述测试用交并比被判断为小于所述第1阈值,计算出在所述第2测试用特定处理图像上与所述第1测试用特定对象候选对应的区域和在所述第1测试用特定处理图像上与所述第2测试用特定对象候选对应的区域之间的测试用调整交并比,(ii)若所述测试用调整交并比被判断为等于或大于第2阈值,则在所述第1测试用特定对象候选与所述第2测试用特定对象中,选择概率值高的测试用特定对象候选,或者选择所述测试图像上运算的面积大的测试用特定对象候选,从而将选择的测试用特定对象候选作为与所述测试用特定相同对象对应的测试用特定集成对象候选来生成。
28.根据权利要求22所述的测试装置,其特征在于,
在所述过程(III),
至少一个测试用特定相同对象分别位于第1测试用特定处理图像与第2测试用特定处理图像上,将在所述第1测试用特定处理图像上与所述测试用特定相同对象对应的至少一个测试用对象边界框作为第1测试用特定对象边界框,将在所述第2测试用特定处理图像上与所述测试用特定相同对象对应的至少一个测试用对象边界框作为第2测试用特定对象边界框时,
所述处理器,使所述目标对象集成网络,判断所述第1测试用特定对象边界框与所述第2测试用特定对象边界框之间的测试用交并比是否等于或大于第1阈值,(i)若所述测试用交并比被判断为小于所述第1阈值,计算出在所述第2测试用特定处理图像上与所述第1测试用特定对象边界框对应的区域和在所述第1测试用特定处理图像上与所述第2测试用特定对象边界框对应的区域之间的测试用调整交并比,(ii)若所述测试用调整交并比被判断为等于或大于第2阈值,则在所述第1测试用特定对象边界框与所述第2测试用特定对象边界框中,选择概率值高的测试用特定对象边界框,或者选择所述测试图像上运算的面积大的测试用特定对象边界框,从而将选择的测试用特定对象边界框作为与所述测试用特定相同对象对应的测试用特定集成对象检测信息来生成。
CN201911330694.4A 2019-01-22 2019-12-20 用于多摄像机或环绕视图监控的对象检测方法及装置 Active CN111462193B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/254,522 2019-01-22
US16/254,522 US10423860B1 (en) 2019-01-22 2019-01-22 Learning method and learning device for object detector based on CNN to be used for multi-camera or surround view monitoring using image concatenation and target object merging network, and testing method and testing device using the same

Publications (2)

Publication Number Publication Date
CN111462193A true CN111462193A (zh) 2020-07-28
CN111462193B CN111462193B (zh) 2023-09-12

Family

ID=67988595

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911330694.4A Active CN111462193B (zh) 2019-01-22 2019-12-20 用于多摄像机或环绕视图监控的对象检测方法及装置

Country Status (5)

Country Link
US (1) US10423860B1 (zh)
EP (1) EP3686791B1 (zh)
JP (1) JP6908943B2 (zh)
KR (1) KR102349920B1 (zh)
CN (1) CN111462193B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3593291A1 (en) 2017-05-19 2020-01-15 Deepmind Technologies Limited Making object-level predictions of the future state of a physical system
JP7163766B2 (ja) * 2018-12-28 2022-11-01 株式会社デンソーテン 付着物検出装置および付着物検出方法
US11043003B2 (en) * 2019-11-18 2021-06-22 Waymo Llc Interacted object detection neural network
CN110909794B (zh) * 2019-11-22 2022-09-13 乐鑫信息科技(上海)股份有限公司 一种适用于嵌入式设备的目标检测系统
US11132607B1 (en) * 2020-05-05 2021-09-28 StradVision, Inc. Method for explainable active learning, to be used for object detector, by using deep encoder and active learning device using the same
US10970645B1 (en) * 2020-05-08 2021-04-06 StradVision, Inc. Method for explainable active learning, to be used for object detector, by using Bayesian dual autoencoder and active learning device using the same
KR102423047B1 (ko) * 2020-11-17 2022-07-19 연세대학교 산학협력단 하드웨어로 구현되는 초해상도 장치를 위한 전처리 장치 및 방법

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106910206A (zh) * 2017-01-17 2017-06-30 邢惠钧 一种目标跟踪方法及装置
CN107451602A (zh) * 2017-07-06 2017-12-08 浙江工业大学 一种基于深度学习的果蔬检测方法
CN107451997A (zh) * 2017-07-31 2017-12-08 南昌航空大学 一种基于深度学习的焊缝超声tofd‑d扫描缺陷类型的自动识别方法
US9946960B1 (en) * 2017-10-13 2018-04-17 StradVision, Inc. Method for acquiring bounding box corresponding to an object in an image by using convolutional neural network including tracking network and computing device using the same
US20180322640A1 (en) * 2017-05-02 2018-11-08 Hrl Laboratories, Llc System and method for detecting moving obstacles based on sensory prediction from ego-motion

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6340228B2 (ja) * 2014-03-27 2018-06-06 株式会社メガチップス 物体検出装置
US9536293B2 (en) * 2014-07-30 2017-01-03 Adobe Systems Incorporated Image assessment using deep convolutional neural networks
CN106156807B (zh) * 2015-04-02 2020-06-02 华中科技大学 卷积神经网络模型的训练方法及装置
WO2016165060A1 (en) * 2015-04-14 2016-10-20 Intel Corporation Skin detection based on online discriminative modeling
US9965719B2 (en) * 2015-11-04 2018-05-08 Nec Corporation Subcategory-aware convolutional neural networks for object detection
US9881234B2 (en) * 2015-11-25 2018-01-30 Baidu Usa Llc. Systems and methods for end-to-end object detection
US20180039853A1 (en) * 2016-08-02 2018-02-08 Mitsubishi Electric Research Laboratories, Inc. Object Detection System and Object Detection Method
US10354159B2 (en) * 2016-09-06 2019-07-16 Carnegie Mellon University Methods and software for detecting objects in an image using a contextual multiscale fast region-based convolutional neural network
US10354362B2 (en) * 2016-09-08 2019-07-16 Carnegie Mellon University Methods and software for detecting objects in images using a multiscale fast region-based convolutional neural network
US11308350B2 (en) * 2016-11-07 2022-04-19 Qualcomm Incorporated Deep cross-correlation learning for object tracking
US10846523B2 (en) * 2016-11-14 2020-11-24 Kodak Alaris Inc. System and method of character recognition using fully convolutional neural networks with attention
US10380741B2 (en) * 2016-12-07 2019-08-13 Samsung Electronics Co., Ltd System and method for a deep learning machine for object detection
US10262237B2 (en) * 2016-12-08 2019-04-16 Intel Corporation Technologies for improved object detection accuracy with multi-scale representation and training
CN108303748A (zh) * 2017-01-12 2018-07-20 同方威视技术股份有限公司 检查设备和检测行李物品中的枪支的方法
US10185878B2 (en) * 2017-02-28 2019-01-22 Microsoft Technology Licensing, Llc System and method for person counting in image data
US10635927B2 (en) * 2017-03-06 2020-04-28 Honda Motor Co., Ltd. Systems for performing semantic segmentation and methods thereof
US20180260414A1 (en) * 2017-03-10 2018-09-13 Xerox Corporation Query expansion learning with recurrent networks
US10678846B2 (en) * 2017-03-10 2020-06-09 Xerox Corporation Instance-level image retrieval with a region proposal network
US11010595B2 (en) * 2017-03-23 2021-05-18 Samsung Electronics Co., Ltd. Facial verification method and apparatus
US10325342B2 (en) * 2017-04-27 2019-06-18 Apple Inc. Convolution engine for merging interleaved channel data
CN108985135A (zh) * 2017-06-02 2018-12-11 腾讯科技(深圳)有限公司 一种人脸检测器训练方法、装置及电子设备
US10460470B2 (en) * 2017-07-06 2019-10-29 Futurewei Technologies, Inc. Recognition and reconstruction of objects with partial appearance
US10503978B2 (en) * 2017-07-14 2019-12-10 Nec Corporation Spatio-temporal interaction network for learning object interactions
KR101880901B1 (ko) * 2017-08-09 2018-07-23 펜타시큐리티시스템 주식회사 기계 학습 방법 및 장치
JP6972756B2 (ja) * 2017-08-10 2021-11-24 富士通株式会社 制御プログラム、制御方法、及び情報処理装置
JP6972757B2 (ja) * 2017-08-10 2021-11-24 富士通株式会社 制御プログラム、制御方法、及び情報処理装置
US10679351B2 (en) * 2017-08-18 2020-06-09 Samsung Electronics Co., Ltd. System and method for semantic segmentation of images
CN107492099B (zh) * 2017-08-28 2021-08-20 京东方科技集团股份有限公司 医学图像分析方法、医学图像分析系统以及存储介质
US10169679B1 (en) * 2017-10-13 2019-01-01 StradVision, Inc. Learning method and learning device for adjusting parameters of CNN by using loss augmentation and testing method and testing device using the same

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106910206A (zh) * 2017-01-17 2017-06-30 邢惠钧 一种目标跟踪方法及装置
US20180322640A1 (en) * 2017-05-02 2018-11-08 Hrl Laboratories, Llc System and method for detecting moving obstacles based on sensory prediction from ego-motion
CN107451602A (zh) * 2017-07-06 2017-12-08 浙江工业大学 一种基于深度学习的果蔬检测方法
CN107451997A (zh) * 2017-07-31 2017-12-08 南昌航空大学 一种基于深度学习的焊缝超声tofd‑d扫描缺陷类型的自动识别方法
US9946960B1 (en) * 2017-10-13 2018-04-17 StradVision, Inc. Method for acquiring bounding box corresponding to an object in an image by using convolutional neural network including tracking network and computing device using the same

Also Published As

Publication number Publication date
EP3686791C0 (en) 2023-11-08
EP3686791B1 (en) 2023-11-08
EP3686791A1 (en) 2020-07-29
US10423860B1 (en) 2019-09-24
CN111462193B (zh) 2023-09-12
JP2020119546A (ja) 2020-08-06
KR20200091330A (ko) 2020-07-30
JP6908943B2 (ja) 2021-07-28
KR102349920B1 (ko) 2022-01-12

Similar Documents

Publication Publication Date Title
KR102326256B1 (ko) 고정밀도 이미지를 분석하는 딥러닝 네트워크의 학습에 이용하기 위한 트레이닝 이미지를 오토 라벨링하기 위한 방법 및 이를 이용한 오토 라벨링 장치
KR102328731B1 (ko) 다중 카메라 혹은 서라운드 뷰 모니터링에 이용되기 위해, 타겟 객체 통합 네트워크 및 타겟 영역 예측 네트워크를 이용하여 핵심성과지표와 같은 사용자 요구 사항에 적응 가능한 cnn 기반 객체 검출기를 학습하는 방법 및 학습 장치, 그리고 이를 이용한 테스팅 방법 및 테스팅 장치
US10621476B1 (en) Learning method and learning device for object detector based on reconfigurable network for optimizing customers' requirements such as key performance index using target object estimating network and target object merging network, and testing method and testing device using the same
CN111462193A (zh) 用于多摄像机或环绕视图监控的对象检测方法及装置
KR102337367B1 (ko) 원거리 검출 또는 군사 목적을 위해, 이미지 컨캐터네이션을 이용한, cnn 기반의 하드웨어 최적화가 가능한 객체 검출기를 학습하는 방법 및 학습 장치, 이를 이용한 테스팅 방법 및 테스팅 장치
US10402692B1 (en) Learning method and learning device for fluctuation-robust object detector based on CNN using target object estimating network adaptable to customers' requirements such as key performance index, and testing device using the same
US10410120B1 (en) Learning method and testing method of object detector to be used for surveillance based on R-CNN capable of converting modes according to aspect ratios or scales of objects, and learning device and testing device using the same
KR102280414B1 (ko) 고 정밀도로 이미지를 분석하기 위한 딥 러닝 네트워크를 사용하기 위해 트레이닝 이미지를 오토 라벨링하는 오토 라벨링 장치의 하이퍼파라미터를 최적화하는 방법 및 이를 이용한 최적화 장치
US10402686B1 (en) Learning method and learning device for object detector to be used for surveillance based on convolutional neural network capable of converting modes according to scales of objects, and testing method and testing device using the same
CN113052108A (zh) 基于深度神经网络的多尺度级联航拍目标检测方法和系统
US10474543B1 (en) Method and device for economizing computing resources to be used during a process of verification of convolutional parameters using test pattern to enhance fault tolerance and fluctuation robustness in extreme situations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant