CN111008626B - 基于r-cnn检测客体的方法和装置 - Google Patents

基于r-cnn检测客体的方法和装置 Download PDF

Info

Publication number
CN111008626B
CN111008626B CN201910922276.8A CN201910922276A CN111008626B CN 111008626 B CN111008626 B CN 111008626B CN 201910922276 A CN201910922276 A CN 201910922276A CN 111008626 B CN111008626 B CN 111008626B
Authority
CN
China
Prior art keywords
test
information
training
roi
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910922276.8A
Other languages
English (en)
Other versions
CN111008626A (zh
Inventor
金桂贤
金镕重
金寅洙
金鹤京
南云铉
夫硕焄
成明哲
呂东勋
柳宇宙
张泰雄
郑景中
诸泓模
赵浩辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Stradvision Inc
Original Assignee
Stradvision Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Stradvision Inc filed Critical Stradvision Inc
Publication of CN111008626A publication Critical patent/CN111008626A/zh
Application granted granted Critical
Publication of CN111008626B publication Critical patent/CN111008626B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Abstract

本发明是基于R‑CNN检测客体的方法和装置,涉及一种基于R‑CNN的客体检测器的学习方法和测试方法及利用其的学习装置和测试装置,其特征在于,输入了至少一个训练图像后,学习装置(ⅰ)使至少一个卷积层将至少一个卷积运算应用于所述训练图像,使得生成至少一个特征图,(ⅱ)使RPN输出ROI回归信息及匹配信息,且所述ROI回归信息包括针对与各个候选区域对应的各个ROI候选的回归信息,其中,所述候选区域是预测为包含所述特征图中的特定特征图上的至少一个客体的区域,所述匹配信息包括关于从分别包含至少一个对应的类的至少一个类群中选择的一个类群的信息,所述至少一个类是参照关于各个ROI候选中包含的所述至少一个客体的信息而决定的。

Description

基于R-CNN检测客体的方法和装置
技术领域
本发明涉及一种基于R-CNN(区域卷积神经网络,Region-Convoluti onal NeuralNetwork)的客体检测器的学习方法和测试方法及利用其的学习装置和测试装置。
背景技术
深度学习是用于将事物或数据聚类或分类的技术。例如,计算机无法单凭照片区分狗和猫。但人可以很容易地区分。为此研发了称之为“机器学习(Machine Learning)”的方法。这是一种将很多数据输入到计算机并将类似数据进行分类的技术。如果输入与储存的狗照片相似的照片,则计算机就会将其分类为狗照片。
有关如何分类数据,已出现了很多机器学习算法。代表性的有“决策树”或“贝页斯网络”、“支持向量机(Support Vector Machine,SVM)”、“人工神经网络”等。其中,深度学习是人工神经网络的后裔。
深层卷积神经网络(Deep Convolutional Neural Network;Deep CNN)是在深度学习领域飞速发展的核心。为了解决文字识别问题,CNNs早在90年代就已经被使用了,而像现在如此广泛应用,得益于最近的研究成果。这样的深度CNN在2012年ImageNet图像分类大赛中战胜其他竞争者而赢得了冠军。之后,卷积神经网络成为了机器学习(MachineLearning)领域中非常有用的工具。
特别是最近,为了检测存在于图像中的客体,正在大量使用基于R-CNN(Region-Convolutional Neural Network)的客体检测器。
这种基于R-CNN的客体检测器参照损失值,利用反向传播实现学习,其性能决定于学习的结果。
但是,想得到包含了要利用所述客体检测器进行检测的所有客体的数据集(dataset)却并不容易。
作为一个示例,当开发用于在汽车的行驶道路图像中检测诸如行人、驾驶员、车辆、交通标志、交通信号及动物的6类客体的客体检测器时,不容易利用包含所述6类客体全部的训练图像构成数据集。
因此,就现有的基于R-CNN的客体检测器而言,如果提供了针对要检测的客体所分类的各个类群的各个数据集,则按所述各个数据集分别生成R-CNN网络,学习R-CNN网络的参数。其中,所述现有的客体检测器包括各个经学习的R-CNN网络。
即,参照图1,当在检测诸如行人、驾驶员、车辆、交通标志、交通信号及动物的6类客体时,如(a)所示,构成至少一个关于行人、驾驶员及车辆的数据集,用于学习R-CNN1的参数,如(b)所示,构成至少一个关于交通标志及交通信号的数据集,用于学习R-CNN2的参数,如(c)所示,构成至少一个关于动物的数据集,用于学习R-CNN3的参数。
然后,以包括各个经学习的所述R-CNN1、所述R-CNN2及所述R-CNN3的方式,构成基于所述R-CNN的所述客体检测器。
但是,这种现有的基于所述R-CNN的所述客体检测器包含了与学习用数据集个数对应的互不相同的多个深度学习网络,当进行实际测试时,所述现有的客体检测器与只包括1个深度学习网络的检测器比较,则存在运行时间与所包含的深度学习网络个数成比例增加的问题。
发明内容
发明所要解决的课题
本发明的目的在于解决上述全部`问题。
本发明另一目的在于使得多个互不相同的数据集(data set)可以学习一个深度学习网络的参数。
本发明又一目的在于使得能够缩短利用多个互不相同的数据集进行了学习的基于R-CNN的客体检测器的运行时间。
本发明又一目的在于提供一种利用了利用多个互不相同数据集进行了学习的所述深度学习网络的基于所述R-CNN的所述客体检测器。
用于解决课题的技术方案
根据本发明的一个方面,提供一种学习方法,用于学习基于区域卷积神经网络R-CNN的客体检测器的参数,其特征在于,包括步骤:(a),输入至少一个训练图像后,学习装置(ⅰ)使至少一个卷积层将至少一个卷积运算应用于所述训练图像,生成至少一个特征图,(ⅱ)使区域推选网络RPN(Region Proposal Network)输出关注区域ROI(Region OfInterest)回归信息及匹配信息,且所述ROI回归信息包括针对与各个候选区域对应的各个ROI候选的回归信息,其中,所述候选区域是预测为包含所述特征图中的特定特征图上的至少一个客体的区域,所述匹配信息包括关于从分别包含至少一个对应的类的至少一个类群中选择的一个类群的信息,所述至少一个类是参照关于各个ROI候选中包含的所述至少一个客体的信息而决定的,(ⅲ)使推选层参照所述ROI回归信息及所述匹配信息,将所述ROI候选中成为ROI的几率高的至少一个特定ROI候选输出为至少一个ROI推选,(ⅳ)使推选选择层参照所述训练图像,针对各个所述匹配信息,分别输出所述ROI推选;
(b),所述学习装置(ⅰ)使与各个所述匹配信息对应的各个池化层,在所述特定特征图上,对与针对各个所述匹配信息的各个所述ROI推选对应的区域进行池化,算出各个的特征矢量,(ⅱ)使与各个所述池化层对应的各个全连接层,参照各个所述特征矢量,输出与针对各个所述匹配信息的各个所述ROI推选对应的客体回归信息及客体类信息;及
(c),所述学习装置使与各个所述全连接层对应的各个第1损失层,(ⅰ)参照针对各个所述全连接层的各个所述匹配信息的所述客体类信息和针对各个所述匹配信息的所述客体回归信息及分别与其对应的第1地面真值GT(Ground Truth),计算各个客体类损失及各个客体回归损失,(ⅱ)反向传播所述各客体类损失及所述各客体回归损失,(ⅲ)学习所述各个全连接层及所述卷积层的参数。
一个实施例提供一种学习方法,其特征在于,所述学习装置使与所述RPN对应的第2损失层,反向传播参照所述ROI回归信息、所述匹配信息及至少一个第2GT而获得的至少一个第2损失,用于学习所述RPN的参数。
一个实施例提供一种学习方法,其特征在于,当判断为在所述训练图像上包含与所述匹配信息中的第1匹配信息对应的第1客体和与第2匹配信息对应的第2客体时,在所述(a)步骤中,所述学习装置使所述推选选择层,输出与所述第1匹配信息对应的第1ROI推选和与第2匹配信息对应的第2ROI推选;在所述(b)步骤中,所述学习装置(ⅰ)使与所述第1匹配信息对应的第1池化层,在所述特定特征图上对与所述第1ROI推选对应的区域进行池化,算出第1特征矢量,使与所述第1池化层对应的第1全连接层,利用所述第1特征矢量,输出所述第1客体的第1客体类信息及第1客体回归信息,(ⅱ)使与所述第2匹配信息对应的第2池化层,在所述特征图上,对与所述第2ROI推选对应的区域进行池化,算出第2特征矢量,使与所述第2池化层对应的第2全连接层,利用所述第2特征矢量,输出所述第2客体的第2客体类信息及第2客体回归信息;在所述(c)步骤中,所述学习装置(ⅰ)使所述第1损失层中与所述第1全连接层对应的第1-1损失层,参照所述第1客体类信息、所述第1客体回归信息及所述第1GT中至少一个第1-1GT,计算至少一个第1客体类损失及至少一个第1客体回归损失,并反向传播所述第1客体类损失及所述第1客体回归损失,用于学习所述第1全连接层及所述卷积层的参数,(ⅱ)使所述第1损失层中与所述第2全连接层对应的第1-2损失层,参照所述第2客体类信息、所述第2客体回归信息及所述第1GT中至少一个第1-2GT,计算至少一个第2客体类损失及至少一个第2客体回归损失,并反向传播所述第2客体类损失及所述第2客体回归损失,用于学习所述第2全连接层及所述卷积层的参数。
一个实施例提供一种学习方法,其特征在于,在所述(a)步骤之前,所述学习装置获得包含与各个所述类群对应的各个客体的所述训练图像,作为各个批处理数据。
一个实施例提供一种学习方法,其特征在于,所述批处理数据包含与各个所述类群对应的相同个数的所述训练图像。
一个实施例提供一种学习方法,其特征在于,在所述批处理数据中登记的所述训练图像中至少一个特定训练图像,只包含属于所述类群中特定类群的特定类的客体,或包含属于所述类群中至少两个以上类群的类的客体。
一个实施例提供一种学习方法,其特征在于,在所述(a)步骤中,
所述学习装置使所述RPN,学习针对在所述批处理数据中登记的所有训练图像的所述RPN参数。
一个实施例提供一种学习方法,其特征在于,所述至少一个第2GT针对在所述各个批处理数据中登记的各个所述训练图像,包括标记为与各类群对应的客体的正样本中的至少一个第2正GT、未标记为与所述各类群对应的客体的负样本中的至少一个第2负GT。
一个实施例提供一种学习方法,其特征在于,在所述(c)步骤中,所述学习装置使所述各个第1损失层,针对在所述批处理数据中登记的各个训练图像,利用标记为与所述匹配信息对应的客体的正样本的至少一个第1正GT和未标记为与所述匹配信息对应的客体的负样本的至少一个第1负GT,计算所述客体类损失及所述客体回归损失。
一个实施例提供一种学习方法,其特征在于,所述学习装置使所述推选选择层,参照所述训练图像,获得与针对各个所述匹配信息的各个所述ROI推选对应的所述各个第1GT,将所述获得的各个第1GT输入到与各个所述匹配信息对应的各个第1损失层。
根据本发明的另一个方式,提供一种测试方法,用于测试基于R-CNN的客体检测器,其特征在于,包括步骤:
(a),由学习装置执行过程:(ⅰ)输入至少一个训练图像后,使至少一个卷积层,将至少一个卷积运算应用于所述训练图像,生成至少一个训练用特征图;(ⅱ)使RPN输出训练用ROI回归信息及训练用匹配信息,所述训练用ROI回归信息包括针对与各个候选区域对应的各个训练用ROI候选的回归信息,其中,所述候选区域是预测为包含所述训练用特征图中的训练用特定特征图上的至少一个训练用客体的区域,所述训练用匹配信息包括关于从分别包含至少一个对应的类的至少一个类群中选择的一个类群的信息,所述至少一个类是参照关于各个训练用ROI候选中包含的所述至少一个训练用客体的信息而决定的;(ⅲ)使推选层,参照所述训练用ROI回归信息及所述训练用匹配信息,将所述训练用ROI候选中成为ROI的几率高的至少一个特定训练用ROI候选输出为至少一个训练用ROI推选;(ⅳ)使推选选择层参照所述训练图像,针对各个所述训练用匹配信息,输出各个所述训练用ROI推选;(ⅴ)使与各个所述训练用匹配信息对应的各个池化层,在所述训练用特定特征图上,对与针对各个所述训练用匹配信息的各个所述训练用ROI推选对应的区域进行池化,算出各个的训练用特征矢量,使与各个所述池化层对应的各个全连接层,参照各个所述训练用特征矢量,输出与针对各个所述训练用匹配信息的各个所述训练用ROI推选对应的训练用客体回归信息及训练用客体类信息;及(ⅵ)使与各个所述全连接层对应的各个第1损失层,参照针对各个所述全连接层的各个所述训练用匹配信息的所述训练用客体类信息和针对各个所述训练用匹配信息的所述训练用客体回归信息及分别与其对应的第1GT,计算各个客体类损失及各个客体回归损失,并反向传播所述各客体类损失及所述各客体回归损失,用于学习所述各个全连接层及所述卷积层的参数,在学习装置执行了所述(ⅰ)至(ⅵ)过程的状态下,输入至少一个测试图像后,测试装置使所述卷积层,将卷积运算应用于所述测试图像,生成至少一个测试用特征图;(b),所述测试装置(ⅰ)使所述RPN,输出测试用ROI回归信息及测试用匹配信息,且所述测试用ROI回归信息包括针对与各个候选区域对应的各个ROI候选的测试用回归信息,其中,所述候选区域是预测为包含所述测试用特征图中的特定特征图上的至少一个测试用客体的区域,所述测试用匹配信息包括关于从分别包含至少一个对应的类的至少一个类群中选择的一个类群的信息,所述至少一个类是参照关于各个ROI候选中包含的所述至少一个测试用客体的信息而决定的,(ⅱ)使所述推选层参照所述测试用ROI回归信息及所述测试用匹配信息,将所述ROI候选中成为ROI的几率高的至少一个特定ROI候选输出为至少一个测试用ROI推选;及(c),所述测试装置使与各个所述测试用匹配信息对应的各个池化层,在所述测试用特定特征图上,对与针对各个所述测试用匹配信息的各个所述测试用ROI推选对应的区域进行池化,算出各个测试用特征矢量,使与各个所述池化层对应的各个全连接层,参照各个所述测试用特征矢量,输出与针对各个所述测试用匹配信息的各个所述测试用ROI推选对应的测试用客体回归信息及测试用客体类信息。
一个实施例提供一种测试方法,其特征在于,在所述(a)步骤中,
是根据所述学习装置,反向传播借助于第2损失层而计算的至少一个以上的第2损失,学习了所述RPN的参数的状态,所述第2损失是参照所述训练用ROI回归信息、所述训练用匹配信息及至少一个第2GT而获得的。
一个实施例提供一种测试方法,其特征在于,当判断为在所述测试图像上,包含与所述测试用匹配信息中的第1测试匹配信息对应的第1测试用客体和与第2测试匹配信息对应的第2测试用客体时,在所述(b)步骤中,所述测试装置使所述推选选择层,输出与所述第1测试用匹配信息对应的第1测试用ROI推选和与第2测试用匹配信息对应的第2测试用ROI推选;在所述(c)步骤中,所述测试装置(ⅰ)使与所述第1测试用匹配信息对应的第1池化层,在所述测试用特定特征图上对与所述第1测试用ROI推选对应的区域进行池化,算出第1测试用特征矢量,使与所述第1池化层对应的第1全连接层,利用所述第1测试用特征矢量,输出所述第1测试用客体的第1测试用客体类信息及第1测试用客体回归信息,(ⅱ)使与所述第2测试用匹配信息对应的第2池化层,在所述测试用特征图上对与所述第2测试用ROI推选对应的区域进行池化,算出第2测试用特征矢量,使与所述第2池化层对应的第2全连接层,利用所述第2测试用特征矢量,输出所述第2测试用客体的第2测试用客体类信息及第2测试用客体回归信息。
一个实施例提供一种测试方法,其特征在于,还包括:(d)所述测试装置使输出层,参照所述推选层输出的各个所述测试用匹配信息的测试用ROI推选、从各个全连接层输出的所述测试用客体类信息及所述测试用客体回归信息,在所述测试图像上显示与所述测试用所述客体对应的客体信息。
根据本发明的又另一个方式,提供一种学习装置,用于学习基于R-CNN的客体检测器的参数,其特征在于,包括:通信部,其接收至少一个训练图像;及处理器,其执行过程:(Ⅰ)使至少一个卷积层,将至少一个卷积运算应用于所述训练图像,生成至少一个特征图;(Ⅱ)使RPN,输出ROI回归信息及匹配信息,且所述ROI回归信息包括针对与各个候选区域对应的各个ROI候选的回归信息,其中,所述候选区域是预测为包含所述特征图中的特定特征图上的至少一个客体的区域,所述匹配信息包括关于从分别包含至少一个对应的类的至少一个类群中选择的一个类群的信息,所述至少一个类是参照关于各个ROI候选中包含的所述至少一个客体的信息而决定的;(Ⅲ)使推选层参照所述ROI回归信息及所述匹配信息,将所述ROI候选中成为ROI的几率高的至少一个特定ROI候选输出为至少一个ROI推选;(Ⅳ)使推选选择层参照所述训练图像,针对各个所述匹配信息,分别输出所述ROI推选;(Ⅴ)使与各个所述匹配信息对应的各个池化层,在所述特定特征图上,对与针对各个所述匹配信息的各个所述ROI推选对应的区域进行池化,算出各个的特征矢量,使与各个所述池化层对应的各个全连接层,参照各个所述特征矢量,输出与针对各个所述匹配信息的各个所述ROI推选对应的客体回归信息及客体类信息;及(Ⅵ)使与各个所述全连接层对应的各个第1损失层,参照针对各个所述全连接层的各个所述匹配信息的所述客体类信息和针对各个所述匹配信息的所述客体回归信息及分别与其对应的第1GT,计算各个客体类损失及各个客体回归损失,并反向传播所述各客体类损失及所述各客体回归损失,用于学习所述各个全连接层及所述卷积层的参数。
一个实施例提供一种学习装置,其特征在于,所述处理器使与所述RPN对应的第2损失层,反向传播参照所述ROI回归信息、所述匹配信息及至少一个第2GT而获得的至少一个第2损失,用于学习所述RPN的参数。
一个实施例提供一种学习装置,其特征在于,当判断为在所述训练图像上包含与所述匹配信息中的第1匹配信息对应的第1客体和与第2匹配信息对应的第2客体时,所述处理器,在所述(Ⅳ)过程中,使所述推选选择层输出与所述第1匹配信息对应的第1ROI推选和与第2匹配信息对应的第2ROI推选;在所述(Ⅴ)过程中,(ⅰ)使与所述第1匹配信息对应的第1池化层,在所述特定特征图上,对与所述第1ROI推选对应的区域进行池化,算出第1特征矢量,使与所述第1池化层对应的第1全连接层,利用所述第1特征矢量,输出所述第1客体的第1客体类信息及第1客体回归信息,(ⅱ)使与所述第2匹配信息对应的第2池化层,在所述特征图上,对与所述第2ROI推选对应的区域进行池化,算出第2特征矢量,使与所述第2池化层对应的第2全连接层,利用所述第2特征矢量,输出所述第2客体的第2客体类信息及第2客体回归信息;在所述(Ⅵ)过程中,(ⅰ)使所述第1损失层中与所述第1全连接层对应的第1-1损失层,参照所述第1客体类信息、所述第1客体回归信息及所述第1GT中至少一个第1-1GT,计算至少一个第1客体类损失及至少一个第1客体回归损失,并反向传播所述第1客体类损失及所述第1客体回归损失,用于学习所述第1全连接层及所述卷积层的参数,(ⅱ)使所述第1损失层中与所述第2全连接层对应的第1-2损失层,参照所述第2客体类信息、所述第2客体回归信息及所述第1GT中至少一个第1-2GT,计算至少一个第2客体类损失及至少一个第2客体回归损失,并反向传播所述第2客体类损失及所述第2客体回归损失,用于学习所述第2全连接层及所述卷积层的参数。
一个实施例提供一种学习装置,其特征在于,所述通信部获得包含与各个所述类群对应的各个客体的所述训练图像,作为各个批处理数据。
一个实施例提供一种学习装置,其特征在于,所述批处理数据包含与各个所述类群对应的相同个数的所述训练图像。
一个实施例提供一种学习装置,其特征在于,在所述批处理数据中登记的所述训练图像中至少一个特定训练图像,只包含属于所述类群中特定类群的特定类的客体,或包含属于所述类群中至少两个以上类群的类的客体。
一个实施例提供一种学习装置,其特征在于,所述处理器在所述(Ⅱ)过程中,使所述RPN,学习针对在所述批处理数据中登记的所有训练图像的所述RPN参数。
一个实施例提供一种学习装置,其特征在于,所述至少一个第2GT针对在所述各个批处理数据中登记的各个所述训练图像,包括标记为与各类群对应的客体的正样本中的至少一个第2正GT、未标记为与所述各类群对应的客体的负样本中的至少一个第2负GT。
一个实施例提供一种学习装置,其特征在于,所述处理器在所述(Ⅵ)过程,使所述各个第1损失层,针对在所述批处理数据中登记的各个训练图像,利用标记为与所述匹配信息对应的客体的正样本的至少一个第1正GT和未标记为与所述匹配信息对应的客体的负样本的至少一个第1负GT,计算所述客体类损失及所述客体回归损失。
一个实施例提供一种学习装置,其特征在于,所述处理器使所述推选选择层,参照所述训练图像,获得与针对各个所述匹配信息的各个所述ROI推选对应的所述各个第1GT,将所述获得的各个第1GT输入到与各个所述匹配信息对应的各个第1损失层。
根据本发明的又另一个方面,提供一种测试装置,用于测试基于R-CNN的客体检测器,其特征在于,包括:通信部,在由学习装置执行了(ⅰ)至(ⅵ)过程的状态下,获得至少一个测试图像,所述(ⅰ)至(ⅵ)过程为:(ⅰ)学习装置输入至少一个训练图像后,使至少一个卷积层,将至少一个卷积运算应用于所述训练图像,生成至少一个训练用特征图;(ⅱ)使RPN输出训练用ROI回归信息及训练用匹配信息,所述训练用ROI回归信息包括针对与各个候选区域对应的各个训练用ROI候选的回归信息,其中,所述候选区域是预测为包含所述训练用特征图中的训练用特定特征图上的至少一个训练用客体的区域,所述训练用匹配信息包括关于从分别包含至少一个对应的类的至少一个类群中选择的一个类群的信息,所述至少一个类是参照关于各个训练用ROI候选中包含的所述至少一个训练用客体的信息而决定的;(ⅲ)使推选层,参照所述训练用ROI回归信息及所述训练用匹配信息,将所述训练用ROI候选中成为ROI的几率高的至少一个特定训练用ROI候选输出为至少一个训练用ROI推选;(ⅳ)使推选选择层参照所述训练图像,针对各个所述训练用匹配信息,输出各个所述训练用ROI推选;(ⅴ)使与各个所述训练用匹配信息对应的各个池化层,在所述训练用特定特征图上,对与针对各个所述训练用匹配信息的各个所述训练用ROI推选对应的区域进行池化,算出各个的训练用特征矢量,使与各个所述池化层对应的各个全连接层,参照各个所述训练用特征矢量,输出与针对各个所述训练用匹配信息的各个所述训练用ROI推选对应的训练用客体回归信息及训练用客体类信息;及(ⅵ)使与各个所述全连接层对应的各个第1损失层,参照针对各个所述全连接层的各个所述训练用匹配信息的所述训练用客体类信息和针对各个所述训练用匹配信息的所述训练用客体回归信息及分别与其对应的第1GT,计算各个客体类损失及各个客体回归损失,并反向传播所述各客体类损失及所述各客体回归损失,用于学习所述各个全连接层及所述卷积层的参数;及处理器,其执行过程:(Ⅰ)使所述卷积层,将卷积运算应用于所述测试图像,生成至少一个测试用特征图;(Ⅱ)(ⅰ)使所述RPN,输出测试用ROI回归信息及测试用匹配信息,所述测试用ROI回归信息包括针对与各个候选区域对应的各个ROI候选的测试用回归信息,其中,所述候选区域是预测为包含所述测试用特征图中的特定特征图上的至少一个测试用客体的区域,所述测试用匹配信息包括关于从分别包含至少一个对应的类的至少一个类群中选择的一个类群的信息,所述至少一个类是参照关于各个ROI候选中包含的所述至少一个测试用客体的信息而决定的,(ⅱ)使所述推选层参照所述测试用ROI回归信息及所述测试用匹配信息,将所述ROI候选中成为ROI的几率高的至少一个特定ROI候选输出为至少一个测试用ROI推选;及(Ⅲ)使与各个所述测试用匹配信息对应的各个池化层,在所述测试用特定特征图上,对与针对各个所述测试用匹配信息的各个所述测试用ROI推选对应的区域进行池化,算出各个测试用特征矢量,使与各个所述池化层对应的各个全连接层,参照各个所述测试用特征矢量,输出与针对各个所述测试用匹配信息的各个所述测试用ROI推选对应的测试用客体回归信息及测试用客体类信息。
一个实施例提供一种测试装置,其特征在于,所述处理器在所述(Ⅰ)过程之前,是根据所述学习装置,反向传播借助于第2损失层而计算的至少一个以上的第2损失,并学习了所述RPN的参数的状态,所述第2损失是参照所述训练用ROI回归信息、所述训练用匹配信息及至少一个第2GT而获得的。
一个实施例提供一种测试装置,其特征在于,当判断为在所述测试图像上,包含与所述测试用匹配信息中的第1测试匹配信息对应的第1测试用客体和与第2测试匹配信息对应的第2测试用客体时,所述处理器,在所述(Ⅱ)过程中,使所述推选选择层,输出与所述第1测试用匹配信息对应的第1测试用ROI推选和与第2测试用匹配信息对应的第2测试用ROI推选;在所述(Ⅲ)过程中,(ⅰ)使与所述第1测试用匹配信息对应的第1池化层,在所述测试用特定特征图上对与所述第1测试用ROI推选对应的区域进行池化,算出第1测试用特征矢量,使与所述第1池化层对应的第1全连接层,利用所述第1测试用特征矢量,输出所述第1测试用客体的第1测试用客体类信息及第1测试用客体回归信息,(ⅱ)使与所述第2测试用匹配信息对应的第2池化层,在所述测试用特定特征图上对与所述第2测试用ROI推选对应的区域进行池化,算出第2测试用特征矢量,使与所述第2池化层对应的第2全连接层,利用所述第2测试用特征矢量,输出所述第2测试用客体的第2测试用客体类信息及第2测试用客体回归信息。
一个实施例提供一种测试装置,其特征在于,还包括:所述处理器使输出层,参照所述推选层输出的各个所述测试用匹配信息的测试用ROI推选、从各个全连接层输出的所述测试用客体类信息及所述测试用客体回归信息,在所述测试图像上显示与所述测试用所述客体对应的客体信息。
本发明的有益效果如下:
本发明可以在给定互不相同的数据集的情况下,利用一个深度学习网络进行学习,可以容易地确保用于基于R-CNN的客体检测器的学习的数据集。
本发明利用了利用互不相同的数据集进行学习的一个R-CNN网络,从而与以往利用多个R-CNN网络相比,可以缩短客体检测器的运行时间。
本发明提供利用了利用互不相同的数据集进行学习的一个深度学习网络的基于R-CNN的客体检测器,因而不仅能够缩短客体检测器的开发时间,而且可以减少开发费用。
附图说明
为了说明本发明实施例而附带的下面的图,只是本发明实施例中的一部分,具有本发明所属技术领域的普通技术的人员(以下称为“普通技术人员”)无需进行发明性作业,基于这些附图便可以获得其他图。
图1是概略地图示现有的基于R-CNN的客体检测器中的学习各个类群的各流程的图。
图2是概略地图示本发明一个实施例的基于R-CNN的客体检测器的学习装置的图。
图3是概略地图示根据本发明一个实施例的基于R-CNN的客体检测器的学习装置而学习各个类群的流程的图。
图4是概略地图示本发明一个实施例的基于R-CNN的客体检测器的学习方法的图。
图5是概略地图示本发明一个实施例的基于R-CNN的客体检测器的测试装置的图。
图6是概略地图示本发明一个实施例的基于R-CNN的客体检测器的测试方法的图。
具体实施方式
后述有关本发明的详细说明,参照作为示例而图示本发明可实施的特定实施例的附图。对这些实施例进行了详细说明,以便从业人员能够实施本发明。本发明的多种实施例虽然互不相同,但应理解为不需要是相互排他的。例如,在此记载的特定形状、结构及特性,可以与一个实施例相关联,在不超出本发明的精神及范围的前提下体现为其他实施例。另外,各个公开的实施例内的个别构成要素的位置及配置,应理解为在不超出本发明的精神及范围的前提下可以变更。因此,后述的详细说明并非出于限定之意,本发明的范围,如能适当说明,仅由与其权利要求所主张的范围等同的所有范围和所附权利要求所限定。在附图中,类似的附图标记指称在多个方面相同或类似的功能。
本发明中提及的各种图像可以包括铺装或非铺装道路相关图像,该情况下,可以设想可能出现在道路环境中的客体(例如汽车、人、动物、植物、物品、建筑物、诸如飞机或无人机等飞行体、其他障碍物),但并非必须限定于此,本发明中提及的各种图像也可以是与道路无关的图像(例如与非铺设道路、小胡同、空地、海、湖、河、山、树林、沙漠、天空、室内相关的图像),该情况下,可以设想可能出现在非铺设道路、小胡同、空地、海、湖、河、山、树林、沙漠、天空、室内环境中的客体(例如汽车、人、动物、植物、物品、建筑物、诸如飞机或无人机等飞行体、其他障碍物),但并非必须限定于此。
另外,在本发明的详细说明及权利要求中,“包括”字样的术语及其变形,并非要将其他技术特征、附加物、构成要素或步骤排除在外。对于普通技术人员而言,本发明的其他目的、优点及特性,有些通过本说明书来体现,有些则通过本发明的实施来体现。以下的示例及附图是作为实例而提供的,并非意图限定本发明。
下面为了让本发明所属技术领域的普通技术人员能够容易地实施本发明,参照附图,就本发明优选实施例进行详细说明。
图2概略地图示了本发明一个实施例的基于R-CNN的客体检测器的学习装置,参照图2,所述学习装置100可以包括通信部110和处理器120。
首先,通信部110可以接收至少一个训练图像。
此时,所述训练图像可以存储于数据库130,所述训练图像内的客体可以分类为分别包括与各个客体对应的至少一个类的至少一个类群,包括与所述各个类群对应的各个所述客体的所述训练图像,可以存储为各个类群相关的各个数据集。另外,在所述数据库130中,可以存储有针对与各个所述训练图像对应的各个客体的类信息及位置信息的至少一个GT(地面真值,Ground Truth)。
接着,所述处理器120(ⅰ)使至少一个卷积层(convolutional layer),将至少一个卷积运算应用于所述训练图像,生成至少一个特征图,(ⅱ)使RPN(区域推选网络,RegionProposal Network)输出ROI(关注区域,Region Of Interest)回归信息及匹配信息,且所述ROI回归信息包括针对与各个候选区域对应的各个ROI候选的回归信息,其中,所述候选区域是预测为包含所述特征图中的特定特征图上的至少一个客体的区域,所述匹配信息包括关于从分别包含至少一个对应的类的至少一个类群中选择的一个类群的信息,所述至少一个类是参照关于各个ROI候选中包含的所述至少一个客体的信息而决定的,(ⅲ)使推选层(proposal layer)参照所述ROI回归信息及所述匹配信息,将所述ROI候选中成为ROI的几率高的至少一个特定ROI候选输出为至少一个ROI推选,(ⅳ)使推选选择层(proposal-selecting layer)参照所述训练图像,针对各个所述匹配信息,分别输出所述ROI推选。而且,所述处理器120使与各个所述匹配信息对应的各个池化层(pooling layer),在所述特定特征图上,对与针对各个所述匹配信息的各个所述ROI推选对应的区域进行池化,算出各个的特征矢量,使与各个所述池化层对应的各个全连接层(Fully-Connected layer,FC层),参照各个所述特征矢量,输出与针对各个所述匹配信息的各个所述ROI推选对应的客体回归信息及客体类信息。接着,所述处理器120使与各个所述FC层对应的各个第1损失层(loss layer),参照关于各个所述FC层的各个所述匹配信息的所述客体类信息和关于各个所述匹配信息的所述客体回归信息及分别与其对应的第1GT(Ground Truth),计算各个客体类损失及各个客体回归损失,并反向传播所述各客体类损失及所述各客体回归损失,学习所述各个FC层及所述卷积层的参数。
此时,所述处理器120可以使与所述RPN对应的第2损失层,反向传播参照所述ROI回归信息、所述匹配信息及至少一个第2GT而得到的至少一个第2损失,学习所述RPN的参数。其中,在基于第1损失的反向传播与基于第2损失的反向传播的时间顺序方面没有限制。
参照图3说明此流程,执行了用于检测诸如行人、驾驶员、车辆、交通标志、交通信号及动物等6类客体所需的学习后,(ⅰ)构成由包含有行人、驾驶员及动物的训练图像构成的关于行人、驾驶员及动物的至少一个数据集,(ⅱ)构成由包含有交通标志及交通信号的训练图像构成的关于交通标志及交通信号的至少一个数据集,(ⅲ)构成由包含有动物的训练图像构成的关于动物的至少一个数据集。然后,利用分别构成的所述关于行人、驾驶员及车辆的数据集、所述关于交通标志及交通信号的数据集及所述关于动物的数据集,所述处理器120学习用于检测行人、驾驶员、车辆、交通标志、交通信号及动物所需的基于所述R-CNN的所述客体检测器的参数,或支持其他装置使其进行学习。这里,在图3中,虽然图示了所述关于行人、驾驶员及车辆的数据集、所述关于交通标志及交通信号的数据集及所述关于动物的数据集存储于一个数据库的情形,但如下面将说明的图4所示,所述各个数据集也可以独立地存储于各个数据库。
其中,本发明的所述学习装置100作为计算装置,只要是搭载有处理器而具有运算能力的数字装置,则均可用作本发明的学习装置100。作为参考,在图2中,只显示了所述一个学习装置100,但不限定于此,所述学习装置100也可以由多个装置构成并执行功能。
下面参照图4,说明利用如此构成的本发明一个实施例的所述学习装置来学习基于所述R-CNN的所述客体检测器的参数的方法。
首先,各个批处理数据134是根据各个所述类群,即,例如利用根据各个所述类群的各个所述数据集131、132、133,准备各个批处理(batch)数据134。此时,所述各个批处理数据134可以包括与各个所述类群对应的所述训练图像。此时,所述各个批处理数据134可以使得所包括的所述训练图像的个数相同。另外,所述批处理数据134中包括的所述训练图像中的特定训练图像,可以只包含属于所述类群中特定类群的特定类的至少一个客体,或包含属于所述类群中至少两个以上类群的至少两个类的至少一个客体。此时,虽然图示了根据所述类群的所述各个数据集131、132、133分别存储于各个数据库的情形,但也可以如图3所示,所述各个数据集存储于所述一个数据库130。
作为一个示例,从关于所述行人、驾驶员及车辆的数据集131、关于所述交通标志及交通信号的数据集132、及关于所述动物的数据集133,(ⅰ)可以利用关于所述行人、驾驶员及车辆的数据集131,准备第1批处理数据,(ⅱ)可以利用关于交通标志及交通信号的数据集132,准备第2批处理数据,(ⅲ)可以利用关于动物的数据集133,准备第3批处理数据。
接着,从所述各个批处理数据134输入所述训练图像后,所述学习装置100可以使所述卷积层121,将所述卷积运算应用于所述训练图像而生成所述特征图。
其中,所述特征图可以具有规定的大小和通道深度。另外,所述卷积层121可以由多个层构成,所述多个层可以分别依次将所述卷积运算应用于所述训练图像。
然后,所述学习装置100可以使所述RPN122输出ROI回归信息及匹配信息。其中,所述ROI回归信息可以包括针对与各个候选区域对应的各个ROI候选的回归信息,其中,所述候选区域是预测为包含有所述特征图中的特定特征图上的至少一个客体的区域,所述匹配信息可以包括关于从分别包含至少一个对应的类的至少一个类群中选择的一个类群的信息,所述至少一个类可以参照关于各个ROI候选中包含的所述至少一个客体的信息而决定。
此时,RPN122不同于只分类为所述特定特征图的背景和客体的现有方法,而是分类为背景与所述类群中之一。
作为一个示例,RPN122向各个ROI候选输出针对行人、驾驶员及车辆类群范畴的匹配信息、针对交通标志及交通信号类群范畴的匹配信息及针对动物类群范畴的匹配信息中的至少一个匹配信息。
而且,学习装置100使推选层123参照ROI回归信息及匹配信息,将ROI候选中几率高的,即,计分值高的特定ROI候选输出为ROI推选,使推选选择层124参照训练图像,针对各个匹配信息,输出各个ROI推选。
作为一个示例,推选选择层124输出(ⅰ)用于学习行人、驾驶员及车辆类群范畴所需的、与行人、驾驶员及车辆类群范畴的匹配信息相对应的ROI推选,(ⅱ)用于学习交通标志及交通信号类群范畴所需的、与交通标志及交通信号类群范畴的匹配信息相对应的ROI推选,及(ⅲ)用于学习动物类群范畴所需的、与动物类群范畴的匹配信息相对应的ROI推选。
然后,学习装置100可以使与各个匹配信息对应的各个池化层125-1、125-2、125-3,在所述特定特征图上,对与针对各个所述匹配信息的各个所述ROI推选相对应的区域进行池化,算出各个特征矢量。
作为一个示例,学习装置100,(ⅰ)使池化层125-1,在特征图上,关于与行人、驾驶员及车辆类群范畴的匹配信息对应的ROI推选,对该ROI推选所对应的区域进行池化,生成与行人、驾驶员及车辆类群范畴的匹配信息对应的特征矢量,(ⅱ)使池化层125-2,在特征图上,关于与交通标志及交通信号类群范畴的匹配信息对应的ROI推选,对该ROI推选所对应的区域进行池化,生成与交通标志及交通信号类群范畴的匹配信息对应的特征矢量,(ⅲ)使池化层125-3,在特征图上,关于与动物类群范畴的匹配信息对应的ROI推选,对该ROI推选所对应的区域进行池化,生成与动物类群范畴的匹配信息对应的特征矢量。
此时,上述虽然是使与匹配信息对应的各个池化层125-1、125-2、125-3,在特征图上,对各相应匹配信息的ROI推选所对应的区域进行池化,从而生成各个特征矢量,但也可以实现一种不同于此的算法,使得利用一个池化层,在特征图上,对各相应匹配信息的ROI推选所对应的区域进行池化,从而生成各个特征矢量。
然后,学习装置100使与各个池化层125-1、125-2、125-3对应的各个全连接层126-1、126-2、126-3,参照各个所述特征矢量,输出与针对各个所述匹配信息的各个所述ROI推选对应的客体回归信息及客体类信息。
作为一个示例,学习装置100,(ⅰ)使与池化层125-1对应的全连接层126-1,利用池化层125-1生成的特征矢量,输出针对行人、驾驶员及车辆的客体回归信息及客体类信息,(ⅱ)使与池化层125-2对应的全连接层126-2,利用池化层125-2生成的特征矢量,输出针对交通标志及交通信号的客体回归信息及客体类信息,(ⅲ)使与池化层125-3对应的全连接层126-3,利用池化层125-3生成的特征矢量,输出针对动物的客体回归信息及客体类信息。
此时,不同于使与各个池化层对应的各个全连接层,参照所述特征矢量,输出与各个匹配信息的各个ROI推选对应的客体回归信息及客体类信息的情形,也可以以软件方式实现,使得利用一个全连接层,在一个全连接层中,利用所述特征矢量,输出与各个匹配信息的各个ROI推选对应的客体回归信息及客体类信息。
然后,学习装置100使与各个全连接层126-1、126-2、126-3对应的各个第1损失层127-1、127-2、127-3,参照各个全连接层126-1、126-2、126-3的所述客体类信息、所述客体回归信息及分别与其对应的第1GT(Ground Truth),计算各个客体类损失及各个客体回归损失,并反向传播所述各客体类损失及所述各客体回归损失,学习所述各个全连接层126-1、126-2、126-3及卷积层121的参数。此时,在软件方式上,既可以实现为与各个全连接层对应的各个第1损失层,也可以实现为一个损失层。
作为一个示例,学习装置100可以(ⅰ)使所述第1损失层中与所述全连接层126-1对应的第1损失层127-1,参照全连接层126-1的所述客体类信息、所述客体回归信息及至少一个第1GT,计算至少一个客体类损失及至少一个客体回归损失,反向传播所述客体类损失及所述客体回归损失,从而学习所述第1全连接层126-1及所述卷积层121的参数,(ⅱ)使所述第1损失层中与所述全连接层126-2对应的第1损失层127-2,参照全连接层126-2的所述客体类信息、所述客体回归信息及至少一个第1GT,计算至少一个客体类损失及至少一个客体回归损失,反向传播所述客体类损失及所述客体回归损失,从而学习所述第1全连接层126-2及所述卷积层121的参数,(ⅲ)使所述第1损失层中与所述全连接层126-3对应的第1损失层127-3,参照全连接层126-3的所述客体类信息、所述客体回归信息及至少一个第1GT,计算至少一个客体类损失及至少一个客体回归损失,反向传播所述客体类损失及所述客体回归损失,从而学习所述第1全连接层126-3及所述卷积层121的参数。
此时,学习装置100可以使推选选择层124,参照训练图像,获得与各个匹配信息的各个ROI推选对应的各个第1GT,向与各个匹配信息对应的各个第1损失层输入各个所述第1GT。作为一个示例,(ⅰ)如果决定为匹配信息是与行人、驾驶员及车辆类群对应的,则可以将与针对所述行人、驾驶员及车辆类群的匹配信息的ROI推选对应的至少一个第1GT输入到第1损失层127-1,(ⅱ)如果决定为匹配信息是与交通标志及交通信号类群对应的,则可以将与针对交通标志及交通信号类群的匹配信息的ROI推选对应的至少一个第1GT输入到第1损失层127-2,(ⅲ)如果决定为匹配信息是与动物类群对应的,则可以将与针对动物类群的匹配信息的ROI推选对应的至少一个第1GT输入到第1损失层127-3。
然后,学习装置100可以使与RPN122对应的第2损失层129,反向传播参照所述ROI回归信息、所述匹配信息及至少一个第2GT而获得的至少一个第2损失,学习所述RPN的参数。
此时,学习装置100可以使RPN选择层128,参照在各个批处理数据中登记的所有训练图像,分别获得与所有ROI候选分别对应的第2GT,将各个第2GT输入到第2损失层。
在根据如上所述方法所进行的学习中,对于在训练图像上包含与匹配信息中的第1匹配信息对应的第1客体和与匹配信息中的第2匹配信息对应的第2客体的情形简要说明如下,学习装置100使推选选择层124,输出与所述第1匹配信息对应的第1ROI推选和与第2匹配信息对应的第2ROI推选。而且,学习装置100,(ⅰ)使与所述第1匹配信息对应的第1池化层,在所述特定特征图上,对与所述第1ROI推选对应的区域进行池化,算出第1特征矢量,使与所述第1池化层对应的第1全连接层,利用所述第1特征矢量,输出所述第1客体的第1客体类信息及第1客体回归信息,(ⅱ)使与所述第2匹配信息对应的第2池化层,在所述特定特征图上,对与所述第2ROI推选对应的区域进行池化,算出第2特征矢量,使与所述第2池化层对应的第2全连接层,利用所述第2特征矢量,输出所述第2客体的第2客体类信息及第2客体回归信息。
然后,学习装置100,(ⅰ)使所述第1损失层中与所述第1全连接层对应的第1-1损失层,参照所述第1客体类信息、所述第1客体回归信息及所述第1GT中的至少一个第1-1GT,计算至少一个第1客体类损失及至少一个第1客体回归损失,反向传播所述第1客体类损失及所述第1客体回归损失,从而学习所述第1全连接层及所述卷积层121的参数,(ⅱ)使所述第1损失层中与所述第2全连接层对应的第1-2损失层,参照所述第2客体类信息、所述第2客体回归信息及所述第1GT中的至少一个第1-2GT,计算至少一个第2客体类损失及至少一个第2客体回归损失,反向传播所述第2客体类损失及所述第2客体回归损失,从而学习所述第2全连接层及所述卷积层121的参数。
此时,在与各个类群对应的各个批处理数据内的训练图像中,对于与相应类群对应的所有客体,均已进行了标记,对于不与类群对应的客体,可以部分地进行标记。
作为一个示例,对于与行人、驾驶员及车辆类群对应的批处理数据的所有训练图像,所有行人、驾驶员及车辆无遗漏地进行了标记,对于交通标志及交通信号/动物,可以只有一部分进行了标记。
在这种情况下,最成问题的部分是交通标志及交通信号/动物类群中包含的客体有一部分未标记,因此,在选取用于行人、驾驶员及车辆类群学习的背景样本时,交通标志及交通信号/动物类群中包含但却未标记的一部分客体会错误地被选取为背景样本。例如,在关于行人、驾驶员及车辆类群的批处理数据中,与交通标志及交通信号/动物相应的一部分客体未标记,在学习时,会包含于背景样本而对学习造成妨碍。同样地,在关于交通标志及交通信号类群的批处理数据中,与行人、驾驶员及车辆/动物相应的一部分客体未标记,在学习时发生被识别为背景的问题。
特别是学习RPN时,由于背景样本在全体图像区域中随机选择,因而未标记的客体被选择为背景样本的几率小,因而不是大问题,但在学习全连接层时,在RPN中选择被认为是客体的候选区域,在这些候选区域之中选择背景样本,因而如果学习数据中有未标记的客体,则该区域被错误地选择为背景样本,因而问题变得严重。为了防止这种问题,应进行限制,使得在学习全连接层时,只在与关注的类群对应的批处理数据中选择背景样本。例如,限制使得用于与行人、驾驶员及车辆类群对应的全连接层的背景样本,只在与行人、驾驶员及车辆类群对应的批处理数据中选取。
为此,在本发明一个实施例的学习方法中,学习装置100使推选选择层124,(ⅰ)从第1批处理数据、第2批处理数据及第3批处理数据提取与行人、驾驶员及车辆类群对应的正样本,从第1批处理数据提取与行人、驾驶员及车辆类群对应的负样本,将用于行人、驾驶员及车辆类群学习的至少一个第1GT输入到第1损失层127-1,(ⅱ)从第1批处理数据、第2批处理数据及第3批处理数据提取与交通标志及交通信号类群对应的正样本,从第2批处理数据提取与交通标志及交通信号类群对应的负样本,将用于交通标志及交通信号类群学习的至少一个第1GT输入到第2损失层127-2,(ⅲ)从第1批处理数据、第2批处理数据及第3批处理数据提取与动物类群对应的正样本,从第3批处理数据提取与动物类群对应的负样本,将用于动物类群学习的至少一个第1GT输入到第3损失层127-3。
接着,各个第1损失层127-1、127-2、127-3可以利用在各个批处理数据中登记的测试图像中,标记为与匹配信息对应的客体的正样本的至少一个第1正GT及未标记为与匹配信息对应的客体的负样本的至少一个第1负GT,算出客体类损失及客体回归损失。
另一方面,至少一个第2GT可以包括在各个批处理数据中登记的训练图像中,标记为与类群对应的客体的正样本的至少一个第2正GT及未标记为与类群对应的客体的负样本的至少一个第2负GT。
图5概略地图示了本发明一个实施例的基于R-CNN的客体检测器的测试装置,如图5所示,测试装置200包括通信部210和处理器220。
首先,通信部210接收至少一个测试图像。
然后,处理器220执行如下过程:(ⅰ)使所述卷积层,将卷积运算应用于所述测试图像而生成至少一个测试用特征图;(ⅱ)(ⅱ-1)使所述RPN输出测试用ROI回归信息及测试用匹配信息,且所述测试用ROI回归信息包括针对与各个候选区域对应的各个ROI候选的测试用回归信息,其中,所述候选区域是预测为包含所述测试用特征图中的特定特征图上的至少一个测试用客体的区域,所述测试用匹配信息包括关于从分别包含至少一个对应的类的至少一个类群中选择的一个类群的信息,所述至少一个类是参照关于各个ROI候选中包含的所述至少一个测试用客体的信息而决定的,(ⅱ-2)使所述推选层参照所述测试用ROI回归信息及所述测试用匹配信息,将所述ROI候选中成为ROI的几率高的至少一个特定ROI候选输出为至少一个测试用ROI推选;(ⅲ)(ⅲ-1)使与各个所述测试用匹配信息对应的各个池化层(pooling layer),在所述测试用特定特征图上,对与针对各个所述测试用匹配信息的各个所述测试用ROI推选对应的区域进行池化,算出各个测试用特征矢量,(ⅲ-2)使与各个所述池化层对应的各个全连接层(Fully-Connected layer),参照各个所述测试用特征矢量,输出与针对各个所述测试用匹配信息的各个所述测试用ROI推选对应的测试用客体回归信息及测试用客体类信息。
此时,各个全连接层和卷积层,基于参照图1至图4进行说明的学习装置所相应的学习方法进行学习,对此简要说明如下,输入训练图像后,(ⅰ)使卷积层,将至少一个卷积运算应用于所述训练图像,生成至少一个训练用特征图,(ⅱ)使RPN输出训练用ROI回归信息及训练用匹配信息,且所述训练用ROI回归信息包括针对与各个候选区域对应的各个训练用ROI候选的回归信息,其中,所述候选区域是预测为包含所述训练用特征图中的训练用特定特征图上的至少一个训练用客体的区域,所述训练用匹配信息包括关于从分别包含至少一个对应的类的至少一个类群中选择的一个类群的信息,所述至少一个类是参照关于各个训练用ROI候选中包含的所述至少一个训练用客体的信息而决定的,(ⅲ)使推选层,参照所述训练用ROI回归信息及所述训练用匹配信息,将所述训练用ROI候选中成为ROI的几率高的至少一个特定训练用ROI候选输出为至少一个训练用ROI推选,(ⅳ)使推选选择层参照所述训练图像,针对各个所述训练用匹配信息,输出各个所述训练用ROI推选,(ⅴ)使与各个所述训练用匹配信息对应的各个池化层,在所述训练用特定特征图上,对与针对各个所述训练用匹配信息的各个所述训练用ROI推选对应的区域进行池化,算出各个的训练用特征矢量,使与各个所述池化层对应的各个全连接层,参照各个所述训练用特征矢量,输出与针对各个所述训练用匹配信息的各个所述训练用ROI推选对应的训练用客体回归信息及训练用客体类信息,(ⅵ)使与各个所述全连接层对应的各个第1损失层(loss layer),参照针对各个所述全连接层的各个所述训练用匹配信息的所述训练用客体类信息和针对各个所述训练用匹配信息的所述训练用客体回归信息及分别与其对应的第1GT(Ground Truth),计算各个客体类损失及各个客体回归损失,反向传播所述各客体类损失及所述各客体回归损失,学习所述各个全连接层及所述卷积层的参数。
其中,就RPN的参数而言,根据学习装置,可以反向传播借助于第2损失层而计算的至少一个以上的第2损失,从而学习所述RPN的参数,所述第2损失是参照所述训练用ROI回归信息、所述训练用匹配信息及至少一个第2GT而获得的。
其中,本发明一个实施例的测试装置200作为计算装置,只要是搭载处理器并具有运算能力的装置,则均可用作本发明的测试装置200。另外,在图5中,虽然只显示了一个测试装置200,但不限定于此,测试装置也可以分成多个装置并执行功能。
下面参照图6,说明利用如此构成的本发明一个实施例的基于R-CNN的客体检测器的测试装置来测试基于R-CNN的客体检测器的方法。
首先,在借助于学习装置执行的过程,即,输入训练图像后,(ⅰ)使卷积层221,将至少一个卷积运算应用于所述训练图像,生成至少一个训练用特征图,(ⅱ)使RPN22,输出训练用ROI回归信息及训练用匹配信息,且所述训练用ROI回归信息包括针对与各个候选区域对应的各个训练用ROI候选的回归信息,其中,所述候选区域是预测为包含所述训练用特征图中的训练用特定特征图上的至少一个训练用客体的区域,所述训练用匹配信息包括关于从分别包含至少一个对应的类的至少一个类群中选择的一个类群的信息,所述至少一个类是参照关于各个训练用ROI候选中包含的所述至少一个训练用客体的信息而决定的,(ⅲ)使推选层223,参照所述训练用ROI回归信息及所述训练用匹配信息,将所述训练用ROI候选中成为ROI的几率高的至少一个特定训练用ROI候选输出为至少一个训练用ROI推选,(ⅳ)使推选选择层(图中未示出)参照所述训练图像,针对各个所述训练用匹配信息,输出各个所述训练用ROI推选,(ⅴ)使与各个所述训练用匹配信息对应的各个池化层225-1、225-2、225-3,在所述训练用特定特征图上,对与针对各个所述训练用匹配信息的各个所述训练用ROI推选对应的区域进行池化,算出各个的训练用特征矢量,(ⅵ)使与各个所述池化层对应的各个全连接层,参照各个所述训练用特征矢量,输出与针对各个所述训练用匹配信息的各个所述训练用ROI推选对应的训练用客体回归信息及训练用客体类信息,(ⅶ)使与各个所述全连接层226-1、226-2、226-3对应的各个第1损失层(图中未示出),参照针对各个所述全连接层的各个所述训练用匹配信息的所述训练用客体类信息和针对各个所述训练用匹配信息的所述训练用客体回归信息及分别与其对应的第1GT(Ground Truth),计算各个客体类损失及各个客体回归损失,并反向传播所述各客体类损失及所述各客体回归损失,学习所述各个全连接层226-1、226-2、226-3及所述卷积层221的参数。在由学习装置执行了上述过程的状态下,输入测试图像后,测试装置200使所述卷积层221,将卷积运算应用于所述测试图像,生成至少一个测试用特征图。
其中,就RPN222的参数而言,可以根据学习装置,反向传播借助于第2损失层(图上未示出)而计算的至少一个以上的第2损失,并学习所述RPN222的参数,所述第2损失是参照所述训练用ROI回归信息、所述训练用匹配信息及至少一个第2GT而获得的。
然后,测试装置200使RPN222输出测试用ROI回归信息及测试用匹配信息,且所述测试用ROI回归信息包括针对与各个候选区域对应的各个ROI候选的测试用回归信息,其中,所述候选区域是预测为包含所述测试用特征图中的特定特征图上的至少一个测试用客体的区域,所述测试用匹配信息包括关于从分别包含至少一个对应的类的至少一个类群中选择的一个类群的信息,所述至少一个类是参照关于各个ROI候选中包含的所述至少一个测试用客体的信息而决定的。
而且,测试装置200使推选层223参照所述测试用ROI回归信息及所述测试用匹配信息,将所述ROI候选中成为ROI的几率高的至少一个特定ROI候选输出为至少一个测试用ROI推选。
作为一个示例,推选层223输出用于行人、驾驶员及车辆类群的测试所需的与行人、驾驶员及车辆类群的匹配信息对应的至少一个ROI推选、用于交通标志及交通信号类群的测试所需的与交通标志及交通信号类群的匹配信息对应的至少一个ROI推选、及用于动物类群的测试所需的与动物类群的匹配信息对应的至少一个ROI推选。
然后,测试装置100使与各个测试用匹配信息对应的各个池化层225-1、225-2、225-3,在所述测试用特定特征图上,对与针对各个所述测试用匹配信息的各个所述测试用ROI推选对应的区域进行池化,算出各个测试用特征矢量。这里,虽然将各个池化层225-1、225-2、225-3分别构成为不同的层,但也可以实现与此不同的算法,使得利用一个池化层,在测试用特定特征图上,对与针对各个测试用匹配信息的测试用ROI推选对应的区域进行池化,生成各个测试用特征矢量。
作为一个示例,测试装置200可以使池化层225-1,在测试用特定特征图上,关于与行人、驾驶员及车辆类群的测试用匹配信息对应的测试用ROI推选,对该测试用ROI推选所对应的区域进行池化,生成与行人、驾驶员及车辆类群的测试用匹配信息对应的测试用特征矢量,使池化层225-2,在测试用特定特征图上,关于与交通标志及交通信号类群的测试用匹配信息对应的测试用ROI推选,对该测试用ROI推选所对应的区域进行池化,生成与交通标志及交通信号类群的测试用匹配信息对应的测试用特征矢量,使池化层225-3,在测试用特征图上,关于与动物类群的测试用匹配信息对应的测试用ROI推选,对该测试用ROI推选所对应的区域进行池化,生成与动物类群的测试用匹配信息对应的测试用特征矢量。
然后,测试装置200使与各个池化层225-1、225-2、225-3对应的各个全连接层226-1、226-2、226-3,参照各个所述特征矢量,输出与针对各个所述匹配信息的各个所述ROI推选对应的客体回归信息及客体类信息。这里,虽然将各个全连接层226-1、226-2、226-3分别构成为不同的层,但也可以不同于此,以软件方式实现,使得利用一个全连接层,参照测试用特征矢量,输出与针对各个测试用匹配信息的各个测试用ROI推选对应的测试用客体回归信息及测试用客体类信息。
作为一个示例,测试装置200使与池化层225-1对应的全连接层226-1,利用池化层225-1输出的测试用特征矢量,输出针对行人、驾驶员及车辆的测试用客体回归信息及测试用客体类信息,使与池化层225-2对应的全连接层226-2,利用池化层225-2输出的测试用特征矢量,输出针对交通标志及交通信号的测试用客体回归信息及测试用客体类信息,使与池化层225-3对应的全连接层226-3,利用池化层225-3输出的测试用特征矢量,输出针对动物的测试用客体回归信息及测试用客体类信息。
而且,测试装置100可以使输出层230,参照推选层223输出的各个所述测试用匹配信息的测试用ROI推选、从各个全连接层226-1、226-2、226-3输出的所述测试用客体类信息及所述测试用客体回归信息,在所述测试图像上显示出与所述测试用所述客体对应的客体信息。
另外,以上说明的本发明提供的实施例,是以通过多种计算机构成要素执行的程序指令的形式体现,从而可载入计算机可读存储介质中。所述计算机可读存储介质可单独或组合包含程序指令、数据文件、数据结构等。记录在所述计算机可读存储介质上的程序指令,可以是为了本发明特别设计和构成的,或者也可以是计算机软件领域的从业者公知使用的。计算机可读存储介质的示例包括硬盘、软盘及磁带等磁媒体,CD-ROM(只读光盘驱动器)、DVD(数字化视频光盘)等光盘,光磁盘(floptical disk)等磁-光介质(magneto-optical media),以及只读存储器(ROM)、随机存储器(RAM)、闪存存储器等为了储存程序指令并执行而特别构成的硬件设备。程序指令的示例不仅包括由编译器生成的机器语言代码,还包括可通过解释器由计算机执行的高级语言代码。为执行本发明提供的处理,上述硬件设备可由一个或多个软件模块来运行,反之亦然。
以上用具体构成要素等特定事项和限定的实施例及附图来说明了本发明,但这只是为了帮助对本发明更全面的理解而提供的,本发明并不仅限于上述实施例,在本发明所属的技术领域中拥有一般知识的人,可以基于这些描述进行多样的修改和变换。
因此,本发明的思想不应局限于所述说明的实施例而定,不仅是后述的权利要求范围,与本权利要求范围均等或等价的任何变换都属于本发明的思想范筹。

Claims (28)

1.一种学习方法,用于学习基于区域卷积神经网络R-CNN的客体检测器的参数,其特征在于,包括步骤:
(a),输入至少一个训练图像后,学习装置(ⅰ)使至少一个卷积层将至少一个卷积运算应用于所述训练图像,生成至少一个特征图,(ⅱ)使区域推选网络RPN输出关注区域ROI回归信息及匹配信息,且所述ROI回归信息包括针对与各个候选区域对应的各个ROI候选的回归信息,其中,所述候选区域是预测为包含所述至少一个特征图上的至少一个客体的区域,所述匹配信息包括关于从分别包含至少一个对应的类的至少一个类群中选择的一个类群的信息,所述至少一个类是参照关于各个ROI候选中包含的所述至少一个客体的所述至少一个特征图上的信息而决定的,(ⅲ)使推选层参照所述ROI回归信息及所述匹配信息,将所述ROI候选中ROI的几率为规定阈值以上的至少一个ROI候选输出为至少一个ROI推选,(ⅳ)使推选选择层参照所述至少一个训练图像,针对各个所述匹配信息,分别输出所述ROI推选;
(b),所述学习装置使与各个所述匹配信息对应的各个池化层,在所述至少一个特征图上,对与针对各个所述匹配信息的各个所述ROI推选对应的区域进行池化,算出各个的特征矢量,使与各个所述池化层对应的各个全连接层,参照各个所述特征矢量,输出与针对各个所述匹配信息的各个所述ROI推选对应的客体回归信息及客体类信息;及
(c),所述学习装置使与各个所述全连接层对应的各个第1损失层,参照针对各个所述全连接层的各个所述匹配信息的所述客体类信息和针对各个所述匹配信息的所述客体回归信息及分别与其对应的第1GT,计算各个客体类损失及各个客体回归损失,并反向传播所述各客体类损失及所述各客体回归损失,用于学习所述各个全连接层及所述卷积层的参数。
2.根据权利要求1所述的学习方法,其特征在于,
所述学习装置使与所述RPN对应的第2损失层,反向传播参照所述ROI回归信息、所述匹配信息及至少一个第2GT而获得的至少一个第2损失,用于学习所述RPN的参数。
3.根据权利要求1所述的学习方法,其特征在于,
当判断为在所述训练图像上包含与所述匹配信息中的第1匹配信息对应的第1客体和与第2匹配信息对应的第2客体时,
在所述(a)步骤中,
所述学习装置使所述推选选择层,输出与所述第1匹配信息对应的第1ROI推选和与第2匹配信息对应的第2ROI推选;
在所述(b)步骤中,
所述学习装置(ⅰ)使与所述第1匹配信息对应的第1池化层,在所述至少一个特征图上对与所述第1ROI推选对应的区域进行池化,算出第1特征矢量,使与所述第1池化层对应的第1全连接层,利用所述第1特征矢量,输出所述第1客体的第1客体类信息及第1客体回归信息,(ⅱ)使与所述第2匹配信息对应的第2池化层,在所述特征图上,对与所述第2ROI推选对应的区域进行池化,算出第2特征矢量,使与所述第2池化层对应的第2全连接层,利用所述第2特征矢量,输出所述第2客体的第2客体类信息及第2客体回归信息;
在所述(c)步骤中,
所述学习装置(ⅰ)使所述第1损失层中与所述第1全连接层对应的第1-1损失层,参照所述第1客体类信息、所述第1客体回归信息及所述第1GT中至少一个第1-1GT,计算至少一个第1客体类损失及至少一个第1客体回归损失,并反向传播所述第1客体类损失及所述第1客体回归损失,用于学习所述第1全连接层及所述卷积层的参数,(ⅱ)使所述第1损失层中与所述第2全连接层对应的第1-2损失层,参照所述第2客体类信息、所述第2客体回归信息及所述第1GT中至少一个第1-2GT,计算至少一个第2客体类损失及至少一个第2客体回归损失,并反向传播所述第2客体类损失及所述第2客体回归损失,用于学习所述第2全连接层及所述卷积层的参数。
4.根据权利要求1所述的学习方法,其特征在于,
在所述(a)步骤之前,
所述学习装置获得包含与各个所述类群对应的各个客体的所述训练图像,作为各个批处理数据。
5.根据权利要求4所述的学习方法,其特征在于,
所述批处理数据包含与各个所述类群对应的相同个数的所述训练图像。
6.根据权利要求4所述的学习方法,其特征在于,
在所述批处理数据中登记的所述至少一个训练图像,只包含属于所述类群中规定类群的规定类的客体,或包含属于所述类群中至少两个以上类群的类的客体。
7.根据权利要求4所述的学习方法,其特征在于,
在所述(a)步骤中,
所述学习装置使所述RPN,学习针对在所述批处理数据中登记的所有训练图像的RPN参数。
8.根据权利要求7所述的学习方法,其特征在于,
所述学习装置使与所述RPN对应的第2损失层,反向传播参照所述ROI回归信息、所述匹配信息及至少一个第2GT而获得的至少一个第2损失,用于学习所述RPN的参数,
所述至少一个第2GT针对在所述各个批处理数据中登记的各个所述训练图像,包括标记为与各类群对应的客体的正样本中的至少一个第2正GT、未标记为与所述各类群对应的客体的负样本中的至少一个第2负GT。
9.根据权利要求4所述的学习方法,其特征在于,
在所述(c)步骤中,
所述学习装置使所述各个第1损失层,针对在所述批处理数据中登记的各个训练图像,利用标记为与所述匹配信息对应的客体的正样本的至少一个第1正GT和未标记为与所述匹配信息对应的客体的负样本的至少一个第1负GT,计算所述客体类损失及所述客体回归损失。
10.根据权利要求1所述的学习方法,其特征在于,
所述学习装置使所述推选选择层,参照所述训练图像,获得与针对各个所述匹配信息的各个所述ROI推选对应的所述各个第1GT,将所述获得的各个第1GT输入到与各个所述匹配信息对应的各个第1损失层。
11.一种测试方法,用于测试基于R-CNN的客体检测器,其特征在于,包括步骤:
(a),学习装置执行过程:(ⅰ)输入至少一个训练图像后,使至少一个卷积层,将至少一个卷积运算应用于所述训练图像,生成至少一个训练用特征图;(ⅱ)使RPN输出训练用ROI回归信息及训练用匹配信息,所述训练用ROI回归信息包括针对与各个候选区域对应的各个训练用ROI候选的回归信息,其中,所述候选区域是预测为包含所述至少一个训练用特征图上的至少一个训练用客体的区域,所述训练用匹配信息包括关于从分别包含至少一个对应的类的至少一个类群中选择的一个类群的信息,所述至少一个类是参照关于各个训练用ROI候选中包含的所述至少一个训练用客体的所述至少一个训练用特征图上的信息而决定的;(ⅲ)使推选层,参照所述训练用ROI回归信息及所述训练用匹配信息,将所述训练用ROI候选中ROI的几率为规定阈值以上的至少一个训练用ROI候选输出为至少一个训练用ROI推选;(ⅳ)使推选选择层参照所述至少一个训练图像,针对各个所述训练用匹配信息,输出各个所述训练用ROI推选;(ⅴ)使与各个所述训练用匹配信息对应的各个池化层,在所述至少一个训练用特征图上,对与针对各个所述训练用匹配信息的各个所述训练用ROI推选对应的区域进行池化,算出各个的训练用特征矢量,使与各个所述池化层对应的各个全连接层,参照各个所述训练用特征矢量,输出与针对各个所述训练用匹配信息的各个所述训练用ROI推选对应的训练用客体回归信息及训练用客体类信息;及(ⅵ)使与各个所述全连接层对应的各个第1损失层,参照针对各个所述全连接层的各个所述训练用匹配信息的所述训练用客体类信息和针对各个所述训练用匹配信息的所述训练用客体回归信息及分别与其对应的第1GT,计算各个客体类损失及各个客体回归损失,并反向传播所述各客体类损失及所述各客体回归损失,用于学习所述各个全连接层及所述卷积层的参数,在学习装置执行了所述(ⅰ)至(ⅵ)过程的状态下,输入至少一个测试图像后,测试装置使所述卷积层,将卷积运算应用于所述测试图像,生成至少一个测试用特征图;
(b),所述测试装置(ⅰ)使所述RPN,输出测试用ROI回归信息及测试用匹配信息,且所述测试用ROI回归信息包括针对与各个候选区域对应的各个ROI候选的测试用回归信息,其中,所述候选区域是预测为包含所述至少一个测试用特征图上的至少一个测试用客体的区域,所述测试用匹配信息包括关于从分别包含至少一个对应的类的至少一个类群中选择的一个类群的信息,所述至少一个类是参照关于各个ROI候选中包含的所述至少一个测试用客体的所述至少一个测试用特征图上的信息而决定的,(ⅱ)使所述推选层参照所述测试用ROI回归信息及所述测试用匹配信息,将所述ROI候选中ROI的几率为规定阈值以上的至少一个ROI候选输出为至少一个测试用ROI推选;及
(c),所述测试装置使与各个所述测试用匹配信息对应的各个池化层,在所述至少一个测试用特征图上,对与针对各个所述测试用匹配信息的各个所述测试用ROI推选对应的区域进行池化,算出各个测试用特征矢量,使与各个所述池化层对应的各个全连接层,参照各个所述测试用特征矢量,输出与针对各个所述测试用匹配信息的各个所述测试用ROI推选对应的测试用客体回归信息及测试用客体类信息。
12.根据权利要求11所述的测试方法,其特征在于,
在所述(a)步骤中,
是根据所述学习装置,反向传播借助于第2损失层而计算的至少一个以上的第2损失,学习了所述RPN的参数的状态,所述第2损失是参照所述训练用ROI回归信息、所述训练用匹配信息及至少一个第2GT而获得的。
13.根据权利要求11所述的测试方法,其特征在于,
当判断为在所述测试图像上,包含与所述测试用匹配信息中的第1测试用匹配信息对应的第1测试用客体和与第2测试用匹配信息对应的第2测试用客体时,
在所述(b)步骤中,
所述测试装置使所述推选选择层,输出与所述第1测试用匹配信息对应的第1测试用ROI推选和与第2测试用匹配信息对应的第2测试用ROI推选;
在所述(c)步骤中,
所述测试装置(ⅰ)使与所述第1测试用匹配信息对应的第1池化层,在所述至少一个测试用特征图上对与所述第1测试用ROI推选对应的区域进行池化,算出第1测试用特征矢量,使与所述第1池化层对应的第1全连接层,利用所述第1测试用特征矢量,输出所述第1测试用客体的第1测试用客体类信息及第1测试用客体回归信息,(ⅱ)使与所述第2测试用匹配信息对应的第2池化层,在所述测试用特征图上对与所述第2测试用ROI推选对应的区域进行池化,算出第2测试用特征矢量,使与所述第2池化层对应的第2全连接层,利用所述第2测试用特征矢量,输出所述第2测试用客体的第2测试用客体类信息及第2测试用客体回归信息。
14.根据权利要求11所述的测试方法,其特征在于,还包括:
(d)所述测试装置使输出层,参照所述推选层输出的各个所述测试用匹配信息的测试用ROI推选、从各个全连接层输出的所述测试用客体类信息及所述测试用客体回归信息,在所述测试图像上显示与所述测试用所述客体对应的客体信息。
15.一种学习装置,用于学习基于R-CNN的客体检测器的参数,其特征在于,包括:
通信部,其接收至少一个训练图像;及
处理器,其执行过程:(Ⅰ)使至少一个卷积层,将至少一个卷积运算应用于所述训练图像,生成至少一个特征图;(Ⅱ)使RPN,输出ROI回归信息及匹配信息,且所述ROI回归信息包括针对与各个候选区域对应的各个ROI候选的回归信息,其中,所述候选区域是预测为包含所述至少一个特征图上的至少一个客体的区域,所述匹配信息包括关于从分别包含至少一个对应的类的至少一个类群中选择的一个类群的信息,所述至少一个类是参照关于各个ROI候选中包含的所述至少一个客体的所述至少一个特征图上的信息而决定的;(Ⅲ)使推选层参照所述ROI回归信息及所述匹配信息,将所述ROI候选中ROI的几率为规定阈值以上的至少一个ROI候选输出为至少一个ROI推选;(Ⅳ)使推选选择层参照所述至少一个训练图像,针对各个所述匹配信息,分别输出所述ROI推选;(Ⅴ)使与各个所述匹配信息对应的各个池化层,在所述至少一个特征图上,对与针对各个所述匹配信息的各个所述ROI推选对应的区域进行池化,算出各个的特征矢量,使与各个所述池化层对应的各个全连接层,参照各个所述特征矢量,输出与针对各个所述匹配信息的各个所述ROI推选对应的客体回归信息及客体类信息;及(Ⅵ)使与各个所述全连接层对应的各个第1损失层,参照针对各个所述全连接层的各个所述匹配信息的所述客体类信息和针对各个所述匹配信息的所述客体回归信息及分别与其对应的第1GT,计算各个客体类损失及各个客体回归损失,并反向传播所述各客体类损失及所述各客体回归损失,用于学习所述各个全连接层及所述卷积层的参数。
16.根据权利要求15所述的学习装置,其特征在于,
所述处理器使与所述RPN对应的第2损失层,反向传播参照所述ROI回归信息、所述匹配信息及至少一个第2GT而获得的至少一个第2损失,用于学习所述RPN的参数。
17.根据权利要求15所述的学习装置,其特征在于,
当判断为在所述训练图像上包含与所述匹配信息中的第1匹配信息对应的第1客体和与第2匹配信息对应的第2客体时,
所述处理器,
在所述(Ⅳ)过程中,使所述推选选择层输出与所述第1匹配信息对应的第1ROI推选和与第2匹配信息对应的第2ROI推选;
在所述(Ⅴ)过程中,(ⅰ)使与所述第1匹配信息对应的第1池化层,在所述至少一个特征图上,对与所述第1ROI推选对应的区域进行池化,算出第1特征矢量,使与所述第1池化层对应的第1全连接层,利用所述第1特征矢量,输出所述第1客体的第1客体类信息及第1客体回归信息,(ⅱ)使与所述第2匹配信息对应的第2池化层,在所述特征图上,对与所述第2ROI推选对应的区域进行池化,算出第2特征矢量,使与所述第2池化层对应的第2全连接层,利用所述第2特征矢量,输出所述第2客体的第2客体类信息及第2客体回归信息;
在所述(Ⅵ)过程中,(ⅰ)使所述第1损失层中与所述第1全连接层对应的第1-1损失层,参照所述第1客体类信息、所述第1客体回归信息及所述第1GT中至少一个第1-1GT,计算至少一个第1客体类损失及至少一个第1客体回归损失,并反向传播所述第1客体类损失及所述第1客体回归损失,用于学习所述第1全连接层及所述卷积层的参数,(ⅱ)使所述第1损失层中与所述第2全连接层对应的第1-2损失层,参照所述第2客体类信息、所述第2客体回归信息及所述第1GT中至少一个第1-2GT,计算至少一个第2客体类损失及至少一个第2客体回归损失,并反向传播所述第2客体类损失及所述第2客体回归损失,用于学习所述第2全连接层及所述卷积层的参数。
18.根据权利要求15所述的学习装置,其特征在于,
所述通信部获得包含与各个所述类群对应的各个客体的所述训练图像,作为各个批处理数据。
19.根据权利要求18所述的学习装置,其特征在于,
所述批处理数据包含与各个所述类群对应的相同个数的所述训练图像。
20.根据权利要求18所述的学习装置,其特征在于,
在所述批处理数据中登记的所述至少一个训练图像,只包含属于所述类群中规定类群的规定类的客体,或包含属于所述类群中至少两个以上类群的类的客体。
21.根据权利要求18所述的学习装置,其特征在于,
所述处理器在所述(Ⅱ)过程中,使所述RPN,学习针对在所述批处理数据中登记的所有训练图像的RPN参数。
22.根据权利要求21所述的学习装置,其特征在于,
所述处理器使与所述RPN对应的第2损失层,反向传播参照所述ROI回归信息、所述匹配信息及至少一个第2GT而获得的至少一个第2损失,用于学习所述RPN的参数,
所述至少一个第2GT针对在所述各个批处理数据中登记的各个所述训练图像,包括标记为与各类群对应的客体的正样本中的至少一个第2正GT、未标记为与所述各类群对应的客体的负样本中的至少一个第2负GT。
23.根据权利要求18所述的学习装置,其特征在于,
所述处理器在所述(Ⅵ)过程,使所述各个第1损失层,针对在所述批处理数据中登记的各个训练图像,利用标记为与所述匹配信息对应的客体的正样本的至少一个第1正GT和未标记为与所述匹配信息对应的客体的负样本的至少一个第1负GT,计算所述客体类损失及所述客体回归损失。
24.根据权利要求15所述的学习装置,其特征在于,
所述处理器使所述推选选择层,参照所述训练图像,获得与针对各个所述匹配信息的各个所述ROI推选对应的所述各个第1GT,将所述获得的各个第1GT输入到与各个所述匹配信息对应的各个第1损失层。
25.一种测试装置,用于测试基于R-CNN的客体检测器,其特征在于,包括:
通信部,在学习装置执行了(ⅰ)至(ⅵ)过程的状态下,获得至少一个测试图像,所述(ⅰ)至(ⅵ)过程为:(ⅰ)学习装置输入至少一个训练图像后,使至少一个卷积层,将至少一个卷积运算应用于所述训练图像,生成至少一个训练用特征图;(ⅱ)使RPN输出训练用ROI回归信息及训练用匹配信息,所述训练用ROI回归信息包括针对与各个候选区域对应的各个训练用ROI候选的回归信息,其中,所述候选区域是预测为包含所述至少一个训练用特征图上的至少一个训练用客体的区域,所述训练用匹配信息包括关于从分别包含至少一个对应的类的至少一个类群中选择的一个类群的信息,所述至少一个类是参照关于各个训练用ROI候选中包含的所述至少一个训练用客体的所述至少一个训练用特征图上的信息而决定的;(ⅲ)使推选层,参照所述训练用ROI回归信息及所述训练用匹配信息,将所述训练用ROI候选中ROI的几率为规定阈值以上的至少一个训练用ROI候选输出为至少一个训练用ROI推选;(ⅳ)使推选选择层参照所述至少一个训练图像,针对各个所述训练用匹配信息,输出各个所述训练用ROI推选;(ⅴ)使与各个所述训练用匹配信息对应的各个池化层,在所述至少一个训练用特征图上,对与针对各个所述训练用匹配信息的各个所述训练用ROI推选对应的区域进行池化,算出各个的训练用特征矢量,使与各个所述池化层对应的各个全连接层,参照各个所述训练用特征矢量,输出与针对各个所述训练用匹配信息的各个所述训练用ROI推选对应的训练用客体回归信息及训练用客体类信息;及(ⅵ)使与各个所述全连接层对应的各个第1损失层,参照针对各个所述全连接层的各个所述训练用匹配信息的所述训练用客体类信息和针对各个所述训练用匹配信息的所述训练用客体回归信息及分别与其对应的第1GT,计算各个客体类损失及各个客体回归损失,并反向传播所述各客体类损失及所述各客体回归损失,用于学习所述各个全连接层及所述卷积层的参数;及
处理器,其执行过程:(Ⅰ)使所述卷积层,将卷积运算应用于所述测试图像,生成至少一个测试用特征图;(Ⅱ)(ⅰ)使所述RPN,输出测试用ROI回归信息及测试用匹配信息,所述测试用ROI回归信息包括针对与各个候选区域对应的各个ROI候选的测试用回归信息,其中,所述候选区域是预测为包含所述至少一个测试用特征图上的至少一个测试用客体的区域,所述测试用匹配信息包括关于从分别包含至少一个对应的类的至少一个类群中选择的一个类群的信息,所述至少一个类是参照关于各个ROI候选中包含的所述至少一个测试用客体的所述至少一个测试用特征图上的信息而决定的,(ⅱ)使所述推选层参照所述测试用ROI回归信息及所述测试用匹配信息,将所述ROI候选中ROI的几率为规定阈值以上的至少一个ROI候选输出为至少一个测试用ROI推选;及(Ⅲ)使与各个所述测试用匹配信息对应的各个池化层,在所述至少一个测试用特征图上,对与针对各个所述测试用匹配信息的各个所述测试用ROI推选对应的区域进行池化,算出各个测试用特征矢量,使与各个所述池化层对应的各个全连接层,参照各个所述测试用特征矢量,输出与针对各个所述测试用匹配信息的各个所述测试用ROI推选对应的测试用客体回归信息及测试用客体类信息。
26.根据权利要求25所述的测试装置,其特征在于,
所述处理器在所述(Ⅰ)过程之前,
是根据所述学习装置,反向传播借助于第2损失层而计算的至少一个以上的第2损失,并学习了所述RPN的参数的状态,所述第2损失是参照所述训练用ROI回归信息、所述训练用匹配信息及至少一个第2GT而获得的。
27.根据权利要求25所述的测试装置,其特征在于,
当判断为在所述测试图像上,包含与所述测试用匹配信息中的第1测试用匹配信息对应的第1测试用客体和与第2测试用匹配信息对应的第2测试用客体时,
所述处理器,
在所述(Ⅱ)过程中,使所述推选选择层,输出与所述第1测试用匹配信息对应的第1测试用ROI推选和与第2测试用匹配信息对应的第2测试用ROI推选;
在所述(Ⅲ)过程中,(ⅰ)使与所述第1测试用匹配信息对应的第1池化层,在所述至少一个测试用特征图上对与所述第1测试用ROI推选对应的区域进行池化,算出第1测试用特征矢量,使与所述第1池化层对应的第1全连接层,利用所述第1测试用特征矢量,输出所述第1测试用客体的第1测试用客体类信息及第1测试用客体回归信息,(ⅱ)使与所述第2测试用匹配信息对应的第2池化层,在所述至少一个测试用特征图上对与所述第2测试用ROI推选对应的区域进行池化,算出第2测试用特征矢量,使与所述第2池化层对应的第2全连接层,利用所述第2测试用特征矢量,输出所述第2测试用客体的第2测试用客体类信息及第2测试用客体回归信息。
28.根据权利要求25所述的测试装置,其特征在于,还包括:
所述处理器使输出层,参照所述推选层输出的各个所述测试用匹配信息的测试用ROI推选、从各个全连接层输出的所述测试用客体类信息及所述测试用客体回归信息,在所述测试图像上显示与所述测试用所述客体对应的客体信息。
CN201910922276.8A 2018-10-04 2019-09-27 基于r-cnn检测客体的方法和装置 Active CN111008626B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/151,693 US10303981B1 (en) 2018-10-04 2018-10-04 Learning method and testing method for R-CNN based object detector, and learning device and testing device using the same
US16/151693 2018-10-04

Publications (2)

Publication Number Publication Date
CN111008626A CN111008626A (zh) 2020-04-14
CN111008626B true CN111008626B (zh) 2023-10-13

Family

ID=66636232

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910922276.8A Active CN111008626B (zh) 2018-10-04 2019-09-27 基于r-cnn检测客体的方法和装置

Country Status (5)

Country Link
US (1) US10303981B1 (zh)
EP (1) EP3633550B1 (zh)
JP (1) JP6872259B2 (zh)
KR (1) KR102313113B1 (zh)
CN (1) CN111008626B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111582009B (zh) * 2019-02-19 2023-09-15 富士通株式会社 训练分类模型的装置和方法及利用分类模型分类的装置
CN110516670B (zh) * 2019-08-26 2022-04-22 广西师范大学 基于场景级与区域建议自注意模块的目标检测方法
CN112989897A (zh) * 2019-12-18 2021-06-18 富士通株式会社 训练多分支网络的方法和对象检测方法
KR102429272B1 (ko) * 2020-06-15 2022-08-04 주식회사 베이리스 딥러닝에 기반한 객체 검출 장치 및 그 방법
KR20230057646A (ko) 2021-10-22 2023-05-02 연세대학교 산학협력단 멀티-레벨 전이 영역 기반의 도메인 적응형 객체 검출 장치 및 방법
KR102652863B1 (ko) * 2021-12-30 2024-04-01 울산과학기술원 Cnn 알고리즘을 이용한 지역 기후 구역 분류 시스템 및 방법
US11955272B1 (en) * 2022-11-10 2024-04-09 Superb Ai Co., Ltd. Method for generating object detector based on deep learning capable of detecting extended object class and detector generation device using the same
US11954898B1 (en) * 2022-11-10 2024-04-09 Superb Ai Co., Ltd. Learning method and learning device for performing transfer learning on an object detector that has been trained to detect first object classes such that the object detector is able to detect second object classes, and testing method and testing device using the same

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107451602A (zh) * 2017-07-06 2017-12-08 浙江工业大学 一种基于深度学习的果蔬检测方法
CN108022161A (zh) * 2017-12-26 2018-05-11 河北中晟易通科技有限公司 基于图像识别与大数据分析的服装匹配推荐系统
CN108597582A (zh) * 2018-04-18 2018-09-28 中国科学院计算技术研究所 一种用于执行Faster R-CNN神经网络运算的方法和装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9965719B2 (en) * 2015-11-04 2018-05-08 Nec Corporation Subcategory-aware convolutional neural networks for object detection
US10002313B2 (en) * 2015-12-15 2018-06-19 Sighthound, Inc. Deeply learned convolutional neural networks (CNNS) for object localization and classification
US10318848B2 (en) * 2015-12-15 2019-06-11 Qualcomm Incorporated Methods for object localization and image classification
US9858496B2 (en) * 2016-01-20 2018-01-02 Microsoft Technology Licensing, Llc Object detection and classification in images
US10380741B2 (en) * 2016-12-07 2019-08-13 Samsung Electronics Co., Ltd System and method for a deep learning machine for object detection
US20180268292A1 (en) * 2017-03-17 2018-09-20 Nec Laboratories America, Inc. Learning efficient object detection models with knowledge distillation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107451602A (zh) * 2017-07-06 2017-12-08 浙江工业大学 一种基于深度学习的果蔬检测方法
CN108022161A (zh) * 2017-12-26 2018-05-11 河北中晟易通科技有限公司 基于图像识别与大数据分析的服装匹配推荐系统
CN108597582A (zh) * 2018-04-18 2018-09-28 中国科学院计算技术研究所 一种用于执行Faster R-CNN神经网络运算的方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Xiaopeng Zhang,et al.ML-LocNet: Improving Object Localization with Multi-view Learning Network.《Computer Vision – ECCV 2018. ECCV 2018. Lecture Notes in Computer Science》.2018,第248–263页. *
Xiaotong Zhao, et al.A Faster RCNN-Based Pedestrian Detection System.《2016 IEEE 84th Vehicular Technology Conference》.2016,第1-5页. *

Also Published As

Publication number Publication date
JP6872259B2 (ja) 2021-05-19
KR20200038846A (ko) 2020-04-14
EP3633550C0 (en) 2023-12-27
US10303981B1 (en) 2019-05-28
EP3633550A1 (en) 2020-04-08
EP3633550B1 (en) 2023-12-27
CN111008626A (zh) 2020-04-14
JP2020061141A (ja) 2020-04-16
KR102313113B1 (ko) 2021-10-18

Similar Documents

Publication Publication Date Title
CN111008626B (zh) 基于r-cnn检测客体的方法和装置
KR102373456B1 (ko) 자동 주차 시스템을 제공하기 위해 결정 지점 간의 관계 및 결정 지점에 대한 리그레션 결과를 이용하여 주차 공간을 검출하는 학습 방법 및 학습 장치, 그리고 이를 이용한 테스팅 방법 및 테스팅 장치
CN111105010B (zh) 使用具有不同标签集的多个带标签数据库的方法及装置
CN111488871B (zh) 可转换模式的基于r-cnn的用于监视的方法和装置
US10346693B1 (en) Method and device for attention-based lane detection without post-processing by using lane mask and testing method and testing device using the same
US10402977B1 (en) Learning method and learning device for improving segmentation performance in road obstacle detection required to satisfy level 4 and level 5 of autonomous vehicles using laplacian pyramid network and testing method and testing device using the same
US10579907B1 (en) Method for automatically evaluating labeling reliability of training images for use in deep learning network to analyze images, and reliability-evaluating device using the same
KR102279376B1 (ko) CNN(Convolutional Neural Network)을 사용하여 차선을 검출하기 위한 학습 방법 및 학습 장치 그리고 이를 이용한 테스트 방법 및 테스트 장치
US10410352B1 (en) Learning method and learning device for improving segmentation performance to be used for detecting events including pedestrian event, vehicle event, falling event and fallen event using edge loss and test method and test device using the same
KR20200047307A (ko) 유용한 학습 데이터를 취사 선별하기 위한 cnn 기반 학습 방법 및 학습 장치 그리고 이를 이용한 테스트 방법 및 테스트 장치
JP6980289B2 (ja) 車線モデルを利用して車線を検出し得る学習方法及び学習装置そしてこれを利用したテスト方法及びテスト装置{learning method, learning device for detecting lane using lane model and test method, test device using the same}
CN112464911A (zh) 基于改进YOLOv3-tiny的交通标志检测与识别方法
CN111508252B (zh) 利用v2x信息集成技术更新高清地图的方法和装置
CN110909588B (zh) 基于cnn的用于车道线检测的方法和装置
CN111507154B (zh) 使用横向滤波器掩膜来检测车道线元素的方法和装置
Rani et al. Driver Assistant System using YOLO V3 and VGGNET
CN117576585A (zh) 一种用于房屋检测的多专家辅助模型的构建方法
Nikam et al. OBJECT DETECTION AND IDENTIFICATION (TRAFFIC SIGNS AND SIGNALS)

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant