CN111105011B - 用于对有用学习数据进行取舍筛选的基于cnn的方法及装置 - Google Patents
用于对有用学习数据进行取舍筛选的基于cnn的方法及装置 Download PDFInfo
- Publication number
- CN111105011B CN111105011B CN201911007257.9A CN201911007257A CN111105011B CN 111105011 B CN111105011 B CN 111105011B CN 201911007257 A CN201911007257 A CN 201911007257A CN 111105011 B CN111105011 B CN 111105011B
- Authority
- CN
- China
- Prior art keywords
- feature map
- learning
- cnn module
- testing
- loss
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/046—Forward inferencing; Production systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/255—Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/772—Determining representative reference patterns, e.g. averaging or distorting patterns; Generating dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及用于对有用学习数据进行取舍筛选的基于CNN的方法及装置,该学习方法包括以下步骤:学习装置(a)使第一CNN模块(i)生成第一特征映射,使第二CNN模块生成第二特征映射,(ii)使用第一特征映射生成表示对象的识别信息或位置信息的第一输出,并参考第一输出和与其对应的GT图像来生成第一损失,(b)使第二CNN模块(i)改变第一特征映射的尺寸,然后整合第一特征映射和第二特征映射,产生第三特征映射,(ii)产生第四特征映射,并计算第二损失;以及(c)参考第一损失和第二损失计算自动筛选器损失。
Description
技术领域
本发明涉及一种用于对有用学习数据进行取舍筛选的基于CNN的学习方法和学习装置、以及利用其的测试方法和测试装置,更加具体来说,在用于对所述有用学习数据进行取舍筛选的基于所述CNN的学习方法中,包括以下步骤:(a)当学习装置获取至少一个输入图像时,执行以下处理:(i)使第一CNN模块对所述输入图像执行至少一次卷积运算,生成第一特征映射,所述第一CNN模块用于获取所述输入图像中的特定对象的识别信息或位置信息;以及(ii)使第二CNN模块对所述输入图像执行至少一次卷积运算,生成第二特征映射,所述第二CNN模块能够对在所述第一CNN模块的学习处理中使用的有用学习数据进行自动筛选;(b)所述学习装置使所述第一CNN模块使用所述第一特征映射生成第一输出,并参考所述第一输出和与其相应的GT图像来计算第一损失,所述第一输出表示所述特定对象的所述识别信息或所述位置信息;(c)所述学习装置将所述第一特征映射输入到所述第二CNN模块,以使所述第二CNN模块将所述第一特征映射和所述第二特征映射的尺寸改变为相同之后,整合所述第一特征映射和所述第二特征映射,以生成第三特征映射;(d)所述学习装置使所述第二CNN模块对所述第三特征映射执行至少一次卷积运算,生成第四特征映射,并使用所述第四特征映射来生成第二损失,所述第二损失对应于所述第一损失的预测值;(e)所述学习装置参考所述第一损失和所述第二损失来计算自动筛选器损失(Auto-Screener’sLoss);以及(f)所述学习装置使用所述自动筛选器损失来执行反向传播(Backpropagation),对所述第二CNN模块的至少一个参数进行最优化。
背景技术
深度学习是一种用于对事物或数据进行聚类或分类的技术。例如,计算机不能只通过照片来区分狗和猫。但人们可以很容易地区分它们。为此,设计了一种称为“机器学习(Machine Learning)”的方法。这是一种将大量数据输入到计算机并分类类似物体的技术。当输入与所存储的狗的照片类似的照片时,计算机将其分类为狗的照片。
已经出现了许多关于如何对数据进行分类的机器学习算法。以“决策树”、“贝叶斯网络”、“支持向量机(SVM)”和“人工神经网络”等为代表。深度学习是人工神经网络的后代。
深度卷积神经网络(Deep Convolution Neural Networks;Deep CNN)是深度学习领域惊人发展的核心。CNN已经在90年代用于解决文字识别问题,但如现在这样被广泛使用源自最近的研究结果。这些深度CNN在2012年的ImageNet图像分类竞赛中击败了其他竞争对手并赢得了冠军。然后,卷积神经网络已成为机器学习(Machine Learning)领域中非常有用的工具。
图1示出根据现有技术使用深度CNN来从照片中要获取的各种输出的示例。
分类(Classification)是一种识别要在照片中识别的类别(class)的种类的方法,例如,如图1所示,识别所获取的对象是人、羊、还是狗的种类。检测(Detection)是一种查找所有对象,并将所找到的对象以边界框(Bounding Box)包围的形式显示的方法,而分割(segmentation)是一种将照片中的特定对象的区域与其他对象区域分开的方法。近年来,随着深度学习技术备受关注,分类、检测、分割技术中也大量使用深度学习。
图2是简要示出使用CNN的检测方法的图。
参照图2,学习装置接收输入图像,并且通过多个卷积滤波器(或卷积层)对输入图像执行多次卷积运算来生成至少一个特征映射。然后,学习装置使特征映射通过检测层(detection layer),生成至少一个边界框之后,使边界框通过滤波层(filtering layer),生成最终检测结果。然后,参考检测结果以及与其对应的地面实况(GT,Ground Truth)值,并使用所获得的损失值,进行反向传播(Backpropagation),与此对应的GT值是预先由人注释的值,由检测器(学习装置)的检测结果值以逐渐接近GT值的方式被学习。
在这种情况下,学习后的检测器的性能在一定程度上与学习数据库的大小成比例。
另一方面,根据现有技术,当创建学习用图像数据库时,如图3所示,需要人为的对图像数据库中的每个训练图像绘制GT框或对类别进行注释,以生成GT图像。
然而,存在如下问题:训练图像数据库中所包含的训练图像的数量与学习装置(例如,上述检测器)的性能不成正比。这是因为,仅在包括至少一个由检测器准确地检测的概率低的对象的训练图像多的情况下,学习处理才有效地进行。通常,在学习处理中检测器的性能越好,使用训练图像进一步提高检测器的性能就越困难。
例如,如果在通过学习处理检测器的性能达到了95%、并且学习用图像数据库中有一万张图像,则对检测器的性能改善有用的图像只有5%、即一万张图像中的仅500张。对比,如果将学习用数据库中的训练图像数量增加10倍,则构建数据库的成本非常高,因为需要人为对九万张图像分别手动创建GT图像,然而,用于提高检测器性能有用的数据仅增加4,500张。并且,如果利用有用的4,500张图像,通过学习处理,将检测器的性能进一步提高到98%,则提高检测器性能所需的构建数据库的成本便得更高。在这种情况下,为了额外确保有用的图像4,500张,需要准备200万张以上的GT图像。
发明内容
本发明所要解决的课题
本发明的目的在于,解决上述问题。
另外,本发明的另一个目的在于,提供一种用于分析基于CNN的学习装置的弱点并自动选择对于提高所述学习装置的性能所必需的适当学习数据的方法。
另外,本发明的又另一个目的在于,减少构建用于改善所述学习装置性能的学习数据库的成本。
用于解决问题的手段
根据本发明的一个方式,提供一种基于CNN的学习方法,用于对有用学习数据进行取舍筛选,其特征在于,包括以下步骤:(a)学习装置当获取至少一个输入图像时,执行以下处理:(i)使第一CNN模块对所述输入图像执行至少一次卷积运算,生成第一特征映射,所述第一CNN模块用于获取所述输入图像中的特定对象的识别信息或位置信息;以及(ii)使第二CNN模块对所述输入图像执行至少一次卷积运算,生成第二特征映射,所述第二CNN模块能够自动筛选出使用于所述第一CNN模块的学习处理的有用学习数据;(b)所述学习装置使所述第一CNN模块使用所述第一特征映射生成第一输出,并参考所述第一输出和与其相应的地面实况图像来计算第一损失,所述第一输出表示所述特定对象的所述识别信息或所述位置信息;(c)所述学习装置将所述第一特征映射输入到所述第二CNN模块,以使所述第二CNN模块将所述第一特征映射和所述第二特征映射的尺寸改变为相同之后,整合所述第一特征映射和所述第二特征映射,以生成第三特征映射;(d)所述学习装置使所述第二CNN模块对所述第三特征映射执行至少一次卷积运算以生成第四特征映射,并使用所述第四特征映射来生成第二损失,所述第二损失对应于所述第一损失的预测值;(e)所述学习装置参考所述第一损失和所述第二损失计算自动筛选器损失;以及(f)所述学习装置使用所述自动筛选器损失执行反向传播,以对所述第二CNN模块的至少一个参数进行最优化。
在一个实施例中,其特征在于,在所述步骤(f)中,所述学习装置使用所述第一损失执行反向传播,以对所述第一CNN模块的至少一个参数进行最优化。
在一个实施例中,其特征在于,所述第一CNN模块被包含在用于检测所述特定对象的大小和位置的对象检测系统、用于识别所述特定对象的种类的分类系统、以及用于将所述特定对象的区域与其他区域进行区分的分割系统之一中,所述第二CNN模块被包含在自动筛选系统中,所述自动筛选系统用于自动筛选至少一个特定的输入图像,所述特定的输入图像被包括在被输入到所述第一CNN模块的多个输入图像之中,并分别包含与所述特定的输入图像对应且被准确检测的概率低的特定对象,所述第一输出表示所述对象检测系统的输出、所述分类系统的输出、以及所述分割系统的输出中的一个,参考关于概率是否小于预定阈值的信息,来确定所述被准确检测的概率是否低。
在一个实施例中,其特征在于,所述第二特征映射的尺寸大于所述第一特征映射的尺寸,在所述步骤(c)中,所述学习装置使第二CNN模块将所述第一特征映射的尺寸增大为与所述第二特征映射的尺寸匹配。
在一个实施例中,其特征在于,在所述步骤(c)中,所述学习装置使所述第二CNN模块对所述第一特征映射执行预定次数的卷积运算,以将所述第一特征映射的尺寸改变为与所述第二特征映射的尺寸相同。
在一个实施例中,其特征在于,在所述步骤(c)中,所述学习装置使所述第二CNN模块将所述第一特征映射和所述第二特征映射进行级联,以生成所述第三特征映射。
在一个实施例中,其特征在于,在所述步骤(d)中,所述学习装置使所述第二CNN模块,使得所述第四特征映射穿过池化层和全连接层中的至少一个,从而计算所述第二损失。
在一个实施例中,其特征在于,所述池化层使第四特征映射的高度和宽度为1。
在一个实施例中,其特征在于,在步骤(f)中,所述学习装置以使自动筛选器损失最小化的方式进行反向传播。
根据本发明的另一方式,提供一种测试方法,用于基于CNN对有用学习数据进行取舍筛选,其特征在于,包括以下步骤:(a)在以下处理(I)~(VI)被执行的状态下,测试装置获取各个候选图像作为各个测试图像,其中,(I)学习装置执行以下处理:(i)使第一CNN模块对训练图像执行至少一次卷积运算,生成学习用第一特征映射,所述第一CNN模块用于获取所述训练图像中的特定对象的识别信息或位置信息;以及(ii)使第二CNN模块对所述训练图像执行至少一次卷积运算,生成学习用第二特征映射,所述第二CNN模块用于自动筛选出使用于所述第一CNN模块的学习处理的有用学习数据;(II)所述学习装置使所述第一CNN模块使用所述学习用第一特征映射生成学习用第一输出,并参考所述学习用第一输出和与其对应的地面实况图像来计算第一损失,所述学习用第一输出表示所述特定对象的所述识别信息或所述位置信息;(III)所述学习装置将所述学习用第一特征映射输入到所述第二CNN模块,以使所述第二CNN模块将所述学习用第一特征映射和所述学习用第二特征映射的尺寸改变为相同之后,整合所述学习用第一特征映射和所述学习用第二特征映射,以生成学习用第三特征映射;(IV)所述学习装置使所述第二CNN模块对所述学习用第三特征映射执行至少一次卷积运算,生成学习用第四特征映射,并使用所述学习用第四特征映射来生成第二损失,所述第二损失对应于所述第一损失的预测值;(V)所述学习装置参考所述第一损失和所述第二损失来计算自动筛选器损失;以及(VI)所述学习装置使用所述自动筛选器损失来执行反向传播,以对所述第二CNN模块的至少一个参数进行最优化;(b)所述测试装置(i)使所述第一CNN模块对所述测试图像执行至少一次卷积运算,生成测试用第一特征映射,以及(ii)使所述第二CNN模块对所述测试图像执行至少一次卷积运算,以生成测试用第二特征映射;(c)所述测试装置将所述测试用第一特征映射输入到所述第二CNN模块,以使所述第二CNN模块将所述测试用第一特征映射和所述测试用第二特征映射的尺寸改变为相同之后,整合所述测试用第一特征映射和所述测试用第二特征映射,以生成测试用第三特征映射;(d)所述测试装置使所述第二CNN模块对所述测试用第三特征映射执行至少一次卷积运算,以生成测试用第四特征映射,并使用所述测试用第四特征来计算损失预测值;以及(e)所述测试装置在所述候选图像中筛选出所述损失预测值为预定阈值以上的至少一个图像,作为使用于所述第一CNN模块的学习处理的训练图像。
在一个实施例中,其特征在于,所述第一CNN模块被包含在用于检测所述特定对象的大小和位置的对象检测系统、用于识别所述特定对象的种类的分类系统、以及用于将所述特定对象的区域与其他区域进行区分的分割系统之一中,所述第二CNN模块被包含在自动筛选系统中,所述自动筛选系统用于自动筛选所述训练图像,所述训练图像被包括在被输入到所述第一CNN模块的多个训练图像之中,并分别包含与所述特定对象对应且被准确检测的概率低的特定对象,所述学习用第一输出表示所述对象检测系统的输出、所述分类系统的输出、以及所述分割系统的输出中的一个,参考关于概率是否小于预定阈值的信息,来确定所述被准确检测的概率是否低。
在一个实施例中,其特征在于,所述学习用第二特征映射的尺寸大于所述学习用第一特征映射的尺寸,在所述处理(III)中,所述学习装置使所述第二CNN模块将所述学习用第一特征映射的尺寸增大为与所述学习用第二特征映射的尺寸匹配,所述测试用第二个特征映射的尺寸大于所述测试用第一个特征映射的尺寸,在所述步骤(c)中,所述测试装置使第二CNN模块将所述测试用第一特征映射的尺寸增大为与所述测试用第二特征映射的尺寸匹配。
在一个实施例中,其特征在于,在所述处理(III)中,所述学习装置使所述第二CNN模块对所述学习用第一特征映射执行预定次数的卷积运算,以将所述学习用第一特征映射的尺寸改变为与所述学习用第二特征映射的尺寸相同,在所述步骤(c)中,所述测试装置使所述第二CNN模块对所述测试用第一特征映射执行预定次数的卷积运算,以将所述测试用第一特征映射的尺寸改变为与所述测试用第二特征映射的尺寸相同。
在一个实施例中,其特征在于,在所述处理(III)中,所述学习装置使所述第二CNN模块将所述学习用第一特征映射和所述学习用第二特征映射进行级联,以生成所述学习用第三特征映射,在所述步骤(c)中,所述测试装置使所述第二CNN模块将所述测试用第一特征映射和所述测试用第二特征映射进行级联,以生成所述测试用第三特征映射。
在一个实施例中,其特征在于,在所述处理(IV)中,所述学习装置使所述第二CNN模块,使得所述学习用第四特征映射穿过池化层和全连接层中的至少一个,从而计算所述第二损失,在所述步骤(d)中,所述测试装置使所述第二CNN模块,使得所述测试用第四特征映射穿过池化层和全连接层中的至少一个,从而计算所述损失预测值。
根据本发明的又一方式,提供一种基于CNN的学习装置,用于对有用学习数据进行取舍筛选,其特征在于,包括:通信部,用于获取至少一个输入图像;以及处理器,执行以下处理:(I)(I-1)使第一CNN模块对所述输入图像执行至少一次卷积运算,生成第一特征映射,所述第一CNN模块用于获取所述输入图像中的特定对象的识别信息或位置信息;以及(I-2)使第二CNN模块对所述输入图像执行至少一次卷积运算,生成第二特征映射,所述第二CNN模块用于自动筛选出使用于所述第一CNN模块的学习处理的有用学习数据;(II)使所述第一CNN模块使用所述第一特征映射生成第一输出,并参考所述第一输出和与其相应的GT图像来计算第一损失,所述第一输出表示所述特定对象的所述识别信息或所述位置信息;(III)将所述第一特征映射输入到所述第二CNN模块,以使所述第二CNN模块将所述第一特征映射和所述第二特征映射的尺寸改变为相同之后,整合所述第一特征映射和所述第二特征映射,以生成第三特征映射;(IV)使所述第二CNN模块对所述第三特征映射执行至少一次卷积运算以生成第四特征映射,并使用所述第四特征映射生成第二损失,所述第二损失对应于所述第一损失的预测值;(V)参考所述第一损失和所述第二损失来计算自动筛选器损失;以及(VI)使用所述自动筛选器损失来执行反向传播,以对所述第二CNN模块的至少一个参数进行最优化。
在一个实施例中,其特征在于,在所述处理(VI)中,所述处理器使用所述第一损失执行反向传播,以对所述第一CNN模块的至少一个参数进行最优化。
在一个实施例中,其特征在于,所述第一CNN模块被包含在用于检测所述特定对象的大小和位置的对象检测系统、用于识别所述特定对象的种类的分类系统、以及用于将所述特定对象的区域与其他区域进行区分的分割系统之一中,所述第二CNN模块被包含在自动筛选系统中,所述自动筛选系统用于自动筛选至少一个特定的输入图像,所述特定的输入图像被包括在被输入到所述第一CNN模块的多个输入图像之中,并分别包含与所述特定的输入图像对应且被准确检测的概率低的特定对象,所述第一输出表示所述对象检测系统的输出、所述分类系统的输出、以及所述分割系统的输出中的一个,参考关于概率是否小于预定阈值的信息,来确定所述被准确检测的概率是否低。
在一个实施例中,其特征在于,所述第二特征映射的尺寸大于所述第一特征映射的尺寸,在所述处理(III)中,所述处理器使第二CNN模块将所述第一特征映射的尺寸增加为与所述第二特征映射的尺寸匹配。
在一个实施例中,其特征在于,在所述处理(III)中,所述处理器使所述第二CNN模块对所述第一特征映射执行预定次数的卷积运算,以将所述第一特征映射的尺寸改变为与所述第二特征映射的尺寸相同。
在一个实施例中,其特征在于,在所述处理(III)中,所述处理器使所述第二CNN模块将所述第一特征映射和所述第二特征映射进行级联,以生成所述第三特征映射。
在一个实施例中,其特征在于,在所述处理(IV)中,所述处理器使所述第二CNN模块,使得所述第四特征映射穿过池化层和全连接层中的至少一个,从而计算所述第二损失。
在一个实施例中,其特征在于,所述池化层使所述第四特征映射的高度和宽度为1。
在一个实施例中,其特征在于,在所述处理(VI)中,所述处理器朝着自动筛选器损失最小化的方向进行反向传播。
根据本发明的又一方式,提供一种测试装置,用于基于CNN对有用学习数据进行取舍筛选,其特征在于,包括通信部和处理器,所述通信部用于在以下处理(i)~(vi)被执行的状态下,获取各个候选图像作为各个测试图像,(i)学习装置执行以下处理:(i-1)使第一CNN模块对训练图像执行至少一次卷积运算,生成学习用第一特征映射,所述第一CNN模块用于获取所述训练图像中的特定对象的识别信息或位置信息;以及(i-2)使第二CNN模块对所述训练图像执行至少一次卷积运算,生成学习用第二特征映射,所述第二CNN模块用于自动筛选出使用于所述第一CNN模块的学习处理的有用学习数据;(ii)所述学习装置使所述第一CNN模块使用所述学习用第一特征映射生成学习用第一输出,并参考所述学习用第一输出和与其对应的GT图像来计算第一损失,所述学习用第一输出表示所述特定对象的所述识别信息或所述位置信息;(iii)所述学习装置将所述学习用第一特征映射输入到所述第二CNN模块,以使所述第二CNN模块将所述学习用第一特征映射和所述学习用第二特征映射的尺寸改变为相同之后,整合所述学习用第一特征映射和所述学习用第二特征映射,以生成学习用第三特征映射;(iv)所述学习装置使所述第二CNN模块对所述学习用第三特征映射执行至少一次卷积运算,生成学习用第四特征映射,并使用所述学习用第四特征映射来生成第二损失,所述第二损失对应于所述第一损失的预测值;(v)所述学习装置参考所述第一损失和所述第二损失来计算自动筛选器损失;以及(vi)所述学习装置使用所述自动筛选器损失来执行反向传播,以对所述第二CNN模块的至少一个参数进行最优化,所述处理器执行以下处理:(I)(I-1)使所述第一CNN模块对所述测试图像执行至少一次卷积运算,生成测试用第一特征映射,以及(I-2)使所述第二CNN模块对测试图像执行至少一次卷积运算,以生成测试用第二特征映射;(II)将所述测试用第一特征映射输入到所述第二CNN模块,以使所述第二CNN模块将所述测试用第一特征映射和所述测试用第二特征映射的尺寸改变为相同之后,整合所述测试用第一特征映射和所述测试用第二特征映射,以生成测试用第三特征映射;(III)使所述第二CNN模块对所述测试用第三特征映射执行至少一次卷积运算,以生成测试用第四特征映射,并使用所述测试用第四特征来计算损失预测值;以及(IV)在所述候选图像中筛选出所述损失预测值为预定阈值以上的至少一个图像,作为使用于所述第一CNN模块的学习处理的训练图像。
在一个实施例中,其特征在于,所述第一CNN模块被包含在用于检测所述特定对象的大小和位置的对象检测系统、用于识别所述特定对象的种类的分类系统、以及用于将所述特定对象的区域与其他区域进行区分的分割系统之一中,所述第二CNN模块被包含在自动筛选系统中,所述自动筛选系统用于自动筛选所述训练图像,所述训练图像被包括在被输入到所述第一CNN模块的多个训练图像之中,并分别包含与所述特定对象对应且被准确检测的概率低的特定对象,所述学习用第一输出表示所述对象检测系统的输出、所述分类系统的输出、以及所述分割系统的输出中的一个,参考关于概率是否小于预定阈值的信息,来确定所述被准确检测的概率是否低。
在一个实施例中,其特征在于,所述学习用第二特征映射的尺寸大于所述学习用第一特征映射的尺寸,在所述处理(iii)中,所述学习装置使所述第二CNN模块将所述学习用第一特征映射的尺寸增大为与所述学习用第二特征映射的尺寸匹配,所述测试用第二个特征映射的尺寸大于所述测试用第一个特征映射的尺寸,并且,在所述处理(II)中,所述测试装置使第二CNN模块将所述测试用第一特征映射的尺寸增大为与所述测试用第二特征映射的尺寸匹配。
在一个实施例中,其特征在于,在所述处理(iii)中,所述学习装置使所述第二CNN模块对所述学习用第一特征映射执行预定次数的卷积运算,以将所述学习用第一特征映射的尺寸改变为与所述学习用第二特征映射的尺寸相同,在所述步骤(II)中,所述处理器使所述第二CNN模块对所述测试用第一特征映射执行预定次数的卷积运算,以将所述测试用第一特征映射的尺寸改变为与所述测试用第二特征映射的尺寸相同。
在一个实施例中,其特征在于,在所述处理(iii)中,所述学习装置使所述第二CNN模块将所述学习用第一特征映射和所述学习用第二特征映射进行级联,以生成所述学习用第三特征映射,在所述处理(II)中,所述处理器使所述第二CNN模块将所述测试用第一特征映射和所述测试用第二特征映射进行级联,以生成所述测试用第三特征映射。
在一个实施例中,其特征在于,在所述处理(iv)中,所述学习装置使所述第二CNN模块,使得所述学习用第四特征映射穿过池化层和全连接层中的至少一个,从而计算所述第二损失,在所述处理(III)中,所述处理器使所述第二CNN模块,使得所述测试用第四特征映射穿过池化层和全连接层中的至少一个,从而计算所述损失预测值。
发明效果
本发明具有以下效果:预先预测学习装置的弱点、筛选可以补偿该弱点的有用的训练图像。
另外,本发明具有以低成本构建有效且有用的学习用图像数据库的另一效果。
另外,本发明具有可以通过筛选实际有用的学习用图像数据来容易地提高学习装置的性能的又另一效果。
另外,本发明具有大幅度地减少学习时间和学习成本的又另一效果,这是因为,当使用带注释的数据库时,自动筛选系统可以排除对于改善检测器的性能没有帮助的95%的数据。
附图说明
本发明的实施例的说明中所用的以下附图仅仅是本发明实施例中的一部分,本领域技术人员在不进行发明操作的情况下,也能够根据这些附图来得出其他附图。
图1示出根据现有技术通过CNN从图像获得的各种输出的示例;
图2简要示出根据现有技术的使用CNN的检测方法;
图3简要示出根据现有技术构建用于学习的图像数据库的方法;
图4示出根据本发明的学习用于筛选用作学习数据而有用的图像的自动筛选系统的方法;
图5示出由根据本发明的自动分类系统执行的具体的计算过程;
图6示出通过根据本发明的自动分类系统来构建学习用图像数据库的方法。
具体实施方式
后述的针对本发明的详细描述参考附图,该附图是作为例示本发明可实施的特定实施例而图示的。这些实施例被详细说明以使本领域技术人员足以实施本发明。另外,在本发明的整个说明书和权利要求书中,词语“包括”及其变形并不旨在排除其他技术特征、附加物等、构成要素等或步骤等。对于本领域技术人员来说,本发明的其他目的、优点和特征的一部分可以从本说明书中得出、其他一部分从本发明的实施中得出。以下示例和附图是以示例的方式提供的,并不旨在限制本发明。应该理解的是,本发明的各种实施例虽然彼此不同,但并不是相互排斥的。例如,在不脱离本发明的精神和范围内,可以通过其他实施例来实现这里描述的特定形状、结构和特性。另外,应当理解的是,在不脱离本发明的精神和范围的情况下,可以改变每个公开的实施例中的个别构成要素的位置或配置。因此,以下的详细描述不应被视为具有限制意义,如果适当地描述,则本发明的范围仅由所附权利要求以及与这些权利要求所主张范围等同的全部范围来限定。附图中相同的附图标记在若干方面中指相同或相似的功能。
本发明中提到的各种图像可以包括与铺砌或未铺砌道路相关的图像,并且在这种情况下,可以包括可能出现在道路环境中的对象(例如,如汽车、人、动物、植物、物体、建筑物、飞机或无人机那样的飞行物、其他障碍物),但并不限于此,并且本发明中提到的各种图像可以是与道路无关的图像(例如,与未铺砌道路、小巷、空地、海洋、湖泊、河流、山脉、森林、沙漠、天空、室内相关的图像),在这种情况下,可以象征可能出现在未铺砌道路、小巷、空地、海洋、湖泊、河流、山脉、森林、沙漠、天空、室内环境中的对象(例如,如汽车、人、动物、植物、物体、建筑物、飞机或无人机那样的飞行物、其他障碍物),但并不限于此。
以下,为了使本领域技术人员能够容易地实施本发明,参考附图详细描述本发明的优选实施例。
图4是示出根据本发明的学习用于筛选有用的学习用图像的自动筛选系统(Auto-Screening System)的方法的图,图5是示出由根据本发明的自动分类系统执行的具体的计算过程的图。
参照图4和图5,如下说明根据本发明的用于对有用的学习数据进行取舍筛选的基于CNN的学习方法。
所述学习装置400包括第一CNN模块410和第二CNN模块420,该第一CNN模块410用于获取输入图像中的特定对象的识别信息或位置信息,该第二CNN模块420用于自动筛选要在第一CNN模块410的学习处理中使用的有用学习数据。其中,所述第一CNN模块410是用于提高在实际图像中检测物体的能力的成为实际学习对象的模块,所述第二CNN模块420自动筛选在学习所述第一CNN模块410中使用的有用的训练图像。所述第二CNN模块420可以被称为自动筛选系统。
在本发明的一个实施例中,所述第一CNN模块410被包含在用于检测特定对象的大小和位置的对象检测系统(Object Detection System)、用于识别特定对象的种类的分类系统(Classification System)、以及将特定对象的区域与其他区域进行区分的分割系统(Segmentation System)之一中。在图4和图5中以对象检测系统为例。所述第二CNN模块是自动筛选系统,所述自动筛选系统用于自动筛选输入图像,该输入图像包含被准确检测的概率低的至少一个对象。参考关于概率是否小于预定阈值的信息,确定正确地检测输入图像的可能性是否低。
即,在本发明中,在执行第一CNN模块410的学习处理之前,首先,通过所述第二CNN模块420的所述学习处理,将所述第二CNN模块420的至少一个参数最优化,以在所有候选训练图像中能够筛选在第一CNN模块410的学习处理中使用的有用的图像。然后,一旦所述第二CNN模块420的参数被最优化,则如图6所示的测试装置600使用所述最优化的第二CNN模块420和所述第一CNN模块410,选择在第一CNN模块410的学习处理中使用的有用的数据。此时,所述候选训练图像中没有对应的GT图像。在候选训练图像中选择有用图像后,仅对在第一CNN模块410的学习处理中使用的有用的图像,生成GT图像。即,仅对有用的图像,至少一个人直接生成GT图像,以构建学习用图像数据库。这样,使用存储在学习用图像数据库中的有用的图像来执行所述第一CNN模块410(即,CNN检测器)的学习处理。
在执行所述学习装置400的所述学习处理的期间,可以仅执行所述第二CNN模块420的学习处理,或者也可以同时执行第二CNN模块420和第一CNN模块410的学习处理。在所述第二CNN模块420的所述学习处理完成之后,(i)筛选在第一CNN模块的学习处理中使用的有用的图像,(ii)使用所筛选的有用的图像来构建图像数据库,(iii)使用所构建的图像数据库执行所述第一CNN模块的所述学习处理。
所述第二CNN模块420具有预测当前正在执行所述学习处理的所述第一CNN模块的弱点的功能。即,所述第二CNN模块420具有如下功能:在未执行GT图像生成操作的所述候选训练图像中,预测适合补偿所述第一CNN模块410的所述弱点的图像。假设所述检测器(所述第一CNN模块410)的性能为95%、且未执行GT图像生成操作的照片有九万张,则即使所述第二CNN模块420的性能(所述第二CNN模块420正确判断每个所述候选训练图像是否是有用图像的概率)约为50%,也需要对9000张进行注释操作(GT图像生成操作)来构建所述学习用图像数据库,则9,000张照片中的4,500张成为在所述第一CNN模块410的所述学习处理中使用的有用的图像。即,在这种情况下,在以往的方法中,为了构建包含4,500张有用的照片的所述图像数据库,至少一个人对九万张照片进行所述注释操作,但是,如果利用本发明涉及的所述第二CNN模块420,则即使仅对9,000张进行所述注释操作,也能够包括4,500张有用的照片,从而构建图像数据库。即,GT图像生成成本(所述图像数据库构建成本)减少为1/10。另外,即使提供了已经具有注释的数据库的情况下,也可以使用自动筛选系统。在这种情况下,所述自动分类系统能够从学习中排除不对提高检测器的性能进行贡献的总共95%的数据(占所述所有候选训练图像中的95%),因此,可以显著降低所述学习时间和所述学习费用(电费等)的成本。
接下来,将参照图4来说明所述学习处理。首先,为了学习所述自动筛选系统(auto-screening system;所述第二CNN模块420),针对至少一个有用图像存在GT图像的所述图像数据库中任意选择所述图像,并将其放入到学习装置400中。具体地,输入图像(所述有用的训练图像之一)分别被输入到所述第一CNN模块410和所述第二CNN模块420。如果所述第一CNN模块410是如图4所示的所述检测器,则所述第一CNN模块410对所述输入图像执行至少一次卷积运算,生成第一特征映射。所述特征映射为了进行图像检测,在所述第一CNN模块410中通过至少一次卷积运算、或至少一次例如ReLU这样的非线性运算等来生成。例如,在图5的示例中,如果被输入到所述学习装置400的所述输入图像具有3×h×w(其中3是图像的通道数,h是图像的高度,w是图像的宽度)的尺寸,则所述第一特征映射以c×(h/16)×(w/16)的尺寸、高度和宽度缩小为1/16、通道的数量增加到c。
另外,所述第一CNN模块410基于所述第一特征映射通过反卷积运算或FC运算来计算表示特定对象的识别信息或位置信息的第一输出值。此时,所述第一输出值可以是对象检测值、分类值和分割值中的任意一个,但是,在本发明中以该输出值为对象检测值为例。
然后,所述第一CNN模块410通过参考所述第一输出值和与其对应的GT值来计算第一损失(实际损失(etrue))。例如,所述第一损失参考由所述第一CNN模块410检测到的特定对象的所述结果(所述第一输出值)和GT值来计算。
另一方面,所述第二CNN模块420通过对被输入到所述第一CNN模块410的所述输入图像执行至少一次预定的卷积运算来生成第二特征映射。被输入到所述第二CNN模块420的所述输入图像是与被输入到所述第一CNN模块410的所述输入图像相同的图像。由所述第二CNN模块420执行的卷积运算过程可以与由所述第一CNN模块执行的卷积运算过程类似,但是每个卷积层或其他计算层的参数可能彼此不同。在图5的示例中,如果被输入到所述学习装置400的所述输入图像的尺寸为3×h×w,则所述第二特征映射的尺寸为c1×(h/8)×(w/8),因此,高度和宽度减小为1/8,通道增加为c1通道。
然后,所述第二CNN模块420整合在所述第一CNN模块410中生成的所述第一特征映射和在所述第二CNN模块420中生成的所述第二特征映射。在如图5的示例中,由于所述第一特征映射的尺寸为c×(h/16)×(w/16),所述第二特征映射的尺寸为c1×(h/8)×(w/8),因此在将所述第一特征映射的尺寸变更为与所述第二特征映射的尺寸相同之后,将尺寸变更后的所述第一特征映射被变更为与所述第二特征映射相同的尺寸之后,将尺寸变更后的所述第一特征映射与所述第二特征映射整合,生成第三特征映射。在这种情况下,由于所述第二特征映射的尺寸大于所述第一特征映射的尺寸,因此所述学习装置400使所述第二CNN模块420将所述第一特征映射的尺寸((h/16)×(w/16))增加到所述第二特征映射的尺寸((h/8)×(w/8))。此时,所述学习装置400使所述第二CNN模块420,对所述第一特征映射执行预定次数的卷积运算(或反卷积运算)来改变所述第一特征映射的大小,在图5的示例中,示出了被输入到所述第二CNN模块420的具有c×(h/16)×(w/16)的尺寸的所述第一特征映射通过预定的卷积运算被变更为c2×(h/8)×(w/8)的情况。然后,所述第二CNN模块420通过将尺寸变更后的所述第一特征映射和所述第二特征映射进行级联,生成第三特征映射。所述第三特征映射的通道数为(c1+c2),高度为h/8,宽度为w/8。
接下来,所述第二CNN模块420对第三特征映射执行至少一次卷积运算来生成第四特征映射,并对所述第四特征映射执行至少一次卷积运算,生成与第一损失的预测值对应的第二损失(检测器的损失预测值(epred))。例如,如图5所示,对具有(c1+c2)×(h/8)×(w/8)的尺寸的所述第三特征映射执行至少一次卷积运算,生成具有c3×(h/8)×(w/8)的尺寸的所述第四特征映射,对其进行平均池化运算(Average Pooling Operation)生成尺寸为c3×1×1的特定的特征映射后,使该特定的特征映射经过两次FC(Fully Connected,全连接)网络,生成第二损失(检测器的所述损失预测值(epred))。
然后,参照图4,所述学习装置400比较所述第一损失(所述实际损失(etrue))和所述第二损失(检测器的所述损失预测值(epred)),计算自动筛选器损失(Auto-Screener’sLoss)。所述自动筛选器损失(Auto-Screener’s Loss)可以通过(etrue-epred)2求出。
所述学习装置400使用所述计算出的自动筛选器损失执行反向传播,以将第二CNN模块420的参数最优化。此时,所述学习装置400可以通过使用由所述第一CNN模块410计算出的所述第一损失执行反向传播来最优化第一CNN模块410的参数。
如上所述,自动筛选器损失(Auto-Screener’s Loss)是参考(i)参考所述输入图像和所述GT值中的检测所述特定的图像的结果而计算出的第一损失,以及(ii)与所述第一损失对应的所述第二损失之间的差来计算,因此,如果所述学习装置400向使所述自动选择器损失最小的方向执行反向传播,则所述第二CNN模块420以使所述第二损失输出与所述第一损失类似的值的方式学习。在这样的情况下,从所述第二CNN模块420输出的第二损失可以看作准确地预测了所述第一损失。即,如果当特定图像被输入到所述第二CNN模块时、与其对应的第二损失大,则当所述特定图像被输入到所述第一CNN模块410时,所述第一CNN模块410无法正确地检测所述特定图像中的对象,与此对应地所述第一损失大。另一方面,如果当另一特定图像被输入到所述第二CNN模块420时、与其对应的第二损失小,则所述另一特定图像被输入到所述第一CNN模块410时,所述第一CNN模块410在另一特定图像中正确地检测到对象的可能性高,与此对应地第一损失小。在此,如果所述第二CNN模块420在候选训练图像中筛选第二损失大的特定图像,则当所述特定图像被输入到所述第一CNN模块410中时,所述特定图像中的对象被准确地检测出的可能性低,所述特定图像被筛选为提供给所述第一CNN模块410的学习处理的有用的图像。
也就是说,所述检测器(所述第一CNN模块410)通过将所述检测器自身输出的所述检测结果与其相应的人为创建的GT图像进行比较来执行学习处理,所述自动筛选系统(Auto-Screening System)使用有关所述自动筛选系统自身预测的所述数据实际上对所述检测器的学习处理有多大帮助的信息来进行学习。因此,所述检测器的所述检测结果与其相应的GT图像越是不同,则表示自动筛选系统预测得越好,即,本发明使用一种所述检测器和所述自动筛选系统相互竞争并执行学习处理的对立的训练方法(AdversarialTraining)。
图6示出由根据本发明的自动筛选系统来构建学习用图像数据库的方法。
参照图6,在通过图4和图5的学习处理完成所述第二CNN模块的学习处理的状态下,使用所述第一CNN模块410和所述第二CNN模块420的参数的测试装置600将未标记的图像(测试用图像)输入到所述第一CNN模块410和第二CNN模块420时,所述学习装置400使所述第一CNN模块410对所述测试图像执行至少一次预定的卷积运算,获取测试用第一特征映射,使所述第二CNN模块420对所述测试图像执行至少一次预定的卷积运算,获取测试用第二特征映射。然后,测试装置600将所述测试用第一特征映射作为另一输入传递给所述第二CNN模块,从而使所述第二CNN模块将所述测试用第一特征映射和所述测试用第二特征映射的尺寸变更为相同后,将所述测试用第一特征映射和所述测试用第二特征映射进行整合,生成测试用第三特征映射。然后,所述测试装置600可以使所述第二CNN模块对所述测试用第三特征映射执行至少一次预定的卷积运算,生成测试用第四特征映射,对所述测试用第四特征映射执行至少一次预定的运算来计算损失预测值。
如果接收到这么多测试用图像来计算与其对应的损失预测值(Predicted loss),则所述测试设备600将测试用图像中所述损失预测值大于或等于预定阈值的一部分图像筛选为所述有用的图像(用于所述第一CNN模块的学习处理的训练图像),即,如果损失预测值大于或等于预定阈值,则当测试用输入图像被输入到所述第一CNN模块410中时,对应于对象的测试用输入图像中的所述对象被准确地检测出的可能性低,这将确定作为在所述第一CNN模块410的学习处理中使用的有用的数据的所述测试用输入图像。
这样被筛选的有用的图像被至少一个人执行注释操作(如果已经对其进行注释,则仅通过筛选),成为在所述第一CNN模块410的学习处理中使用的标记后的图像。
此外,如果通过所述检测器的学习处理优化检测器的参数,则利用使用了所述检测器的被最优化的参数的所述测试装置中的所述第一CNN模块来从实际输入的测试图像中检测对象。例如,可以对道路行驶图像中的至少一个对象进行分类和检测。
如本领域技术人员可以理解的那样,上述的图像、例如训练图像、测试图像等的图像数据的发送和接收可以由学习装置和测试装置的通信部来执行,用于执行特征映射和运算的数据可以被保存/保持在学习装置和测试装置的处理器(和/或存储器)中,并且卷积操作、反卷积运算和损失值运算过程主要由学习装置和测试装置的处理器执行,但是本发明不限于此。
另外,所述的根据本发明的实施例可以以程序指令的形式实现,该程序指令可以由各种计算机部件执行,并且可以记录在计算机可读记录介质中。计算机可读记录介质可以单独或组合地包括程序指令、数据文件、数据结构等。记录在计算机可读记录介质上的程序指令可以是为本发明专门设计和配置的程序指令,或者可以是计算机软件领域的技术人员已知并可用的。计算机可读记录介质的示例包括诸如硬盘、软盘和磁带的磁介质、诸如CD-ROM和DVD的光学记录介质,诸如光磁软盘(floptical disk)的磁光介质(magneto-optical media)、以及ROM、RAM、闪存等的特别构成为存储并执行程序指令的硬件装置。程序指令的示例不仅包括由编译器生成的机器代码,还包括可以由计算机使用解释器等执行的高级语言代码。硬件装置可以配置为作为一个或多个软件模块操作来执行根据本发明的处理,反之亦然。
尽管已经通过诸如具体构成要素等的特定部件和有限的实施例和附图来描述了本发明,但这些仅仅是为了更全面地理解本发明而提供的,本发明不限于所述实施例。对于本领域技术人员来说,可以从这些描述中进行各种修改和变更。
因此,本发明的宗旨不应限于上述实施例,并且不仅是后附权利要求,与这些权利要求等同或等价的变形也包括在本发明的宗旨的范围内。
Claims (30)
1.一种基于CNN的学习方法,用于对有用训练图像进行取舍筛选,其特征在于,包括以下步骤:
(a)学习装置当获取至少一个输入图像时,执行以下处理:(i)使第一CNN模块对所述输入图像执行至少一次卷积运算,生成第一特征映射,所述第一CNN模块用于获取所述输入图像中的特定对象的识别信息或位置信息;以及(ii)使第二CNN模块对所述输入图像执行至少一次卷积运算,生成第二特征映射,所述第二CNN模块能够自动筛选出使用于所述第一CNN模块的学习处理的有用训练图像;
(b)所述学习装置使所述第一CNN模块使用所述第一特征映射生成第一输出,并参考所述第一输出和与其相应的地面实况图像来计算第一损失,所述第一输出表示所述特定对象的所述识别信息或所述位置信息;
(c)所述学习装置将所述第一特征映射输入到所述第二CNN模块,以使所述第二CNN模块将所述第一特征映射和所述第二特征映射的尺寸改变为相同之后,整合所述第一特征映射和所述第二特征映射以生成第三特征映射;
(d)所述学习装置使所述第二CNN模块对所述第三特征映射执行至少一次卷积运算以生成第四特征映射,并使用所述第四特征映射生成第二损失,所述第二损失对应于所述第一损失的预测值;
(e)所述学习装置参考所述第一损失和所述第二损失来计算自动筛选器损失;以及
(f)所述学习装置使用所述自动筛选器损失执行反向传播,以对所述第二CNN模块的至少一个参数进行最优化,以使得所述第二CNN模块能够自动筛选出被输入到所述第一CNN模块的多个输入图像之中包含被准确检测的概率小于预定阈值的特定对象的相应的至少一个特定的输入图像。
2.根据权利要求1所述的方法,其特征在于,
在所述步骤(f)中,
所述学习装置使用所述第一损失执行反向传播,以对所述第一CNN模块的至少一个参数进行最优化。
3.根据权利要求1所述的方法,其特征在于,
所述第一CNN模块被包含在用于检测所述特定对象的大小和位置的对象检测系统、用于识别所述特定对象的种类的分类系统、以及用于将所述特定对象的区域与其他区域进行区分的分割系统之一中,
所述第一输出表示所述对象检测系统的输出、所述分类系统的输出、以及所述分割系统的输出中的一个。
4.根据权利要求1所述的方法,其特征在于,
所述第二特征映射的尺寸大于所述第一特征映射的尺寸,
在所述步骤(c)中,
所述学习装置使第二CNN模块将所述第一特征映射的尺寸增大为与所述第二特征映射的尺寸匹配。
5.根据权利要求4所述的方法,其中,
在所述步骤(c)中,
所述学习装置使所述第二CNN模块对所述第一特征映射执行预定次数的卷积运算,以将所述第一特征映射的尺寸改变为与所述第二特征映射的尺寸相同。
6.根据权利要求1所述的方法,其特征在于,
在所述步骤(c)中,
所述学习装置使所述第二CNN模块将所述第一特征映射和所述第二特征映射进行级联,以生成所述第三特征映射。
7.根据权利要求1所述的方法,其特征在于,
在所述步骤(d)中,
所述学习装置使所述第二CNN模块,使得所述第四特征映射穿过池化层和全连接层中的至少一个,从而计算所述第二损失。
8.根据权利要求7所述的方法,其特征在于,
所述池化层使第四特征映射的高度和宽度为1。
9.根据权利要求1所述的方法,其特征在于,
在步骤(f)中,
所述学习装置朝着将所述自动筛选器损失最小化的方向进行反向传播。
10.一种测试方法,用于基于CNN对有用训练图像进行取舍筛选,其特征在于,包括以下步骤:
(a)在以下处理(I)~(VI)被执行的状态下,测试装置获取各个候选图像作为各个测试图像,其中,
(I)学习装置执行以下处理:(i)使第一CNN模块对训练图像执行至少一次卷积运算,生成学习用第一特征映射,所述第一CNN模块用于获取所述训练图像中的特定对象的识别信息或位置信息;以及(ii)使第二CNN模块对所述训练图像执行至少一次卷积运算,生成学习用第二特征映射,所述第二CNN模块用于自动筛选出使用于所述第一CNN模块的学习处理的有用训练图像;
(II)所述学习装置使所述第一CNN模块使用所述学习用第一特征映射生成学习用第一输出,并参考所述学习用第一输出和与其对应的地面实况图像来计算第一损失,所述学习用第一输出表示所述特定对象的所述识别信息或所述位置信息;
(III)所述学习装置将所述学习用第一特征映射输入到所述第二CNN模块,以使所述第二CNN模块将所述学习用第一特征映射和所述学习用第二特征映射的尺寸改变为相同之后,整合所述学习用第一特征映射和所述学习用第二特征映射,以生成学习用第三特征映射;
(IV)所述学习装置使所述第二CNN模块对所述学习用第三特征映射执行至少一次卷积运算,生成学习用第四特征映射,并使用所述学习用第四特征映射来生成第二损失,所述第二损失对应于所述第一损失的预测值;
(V)所述学习装置参考所述第一损失和所述第二损失来计算自动筛选器损失;以及
(VI)所述学习装置使用所述自动筛选器损失来执行反向传播,
以对所述第二CNN模块的至少一个参数进行最优化,以使得所述第二CNN模块能够自动筛选出被输入到所述第一CNN模块的多个训练图像之中包含被准确检测的概率小于预定阈值的特定对象的相应的至少一个训练图像;
(b)所述测试装置(i)使所述第一CNN模块对所述测试图像执行至少一次卷积运算,生成测试用第一特征映射,以及(ii)使所述第二CNN模块对所述测试图像执行至少一次卷积运算,以生成测试用第二特征映射;
(c)所述测试装置将所述测试用第一特征映射输入到所述第二CNN模块,以使所述第二CNN模块将所述测试用第一特征映射和所述测试用第二特征映射的尺寸改变为相同之后,整合所述测试用第一特征映射和所述测试用第二特征映射,以生成测试用第三特征映射;
(d)所述测试装置使所述第二CNN模块对所述测试用第三特征映射执行至少一次卷积运算,以生成测试用第四特征映射,并使用所述测试用第四特征来计算损失预测值;以及
(e)所述测试装置在所述候选图像中筛选出所述损失预测值为预定阈值以上的至少一个图像,作为使用于所述第一CNN模块的学习处理的训练图像。
11.根据权利要求10所述的方法,其特征在于,
所述第一CNN模块被包含在用于检测所述特定对象的大小和位置的对象检测系统、用于识别所述特定对象的种类的分类系统、以及用于将所述特定对象的区域与其他区域进行区分的分割系统之一中,
所述第二CNN模块被包含在自动筛选系统中,
所述学习用第一输出表示所述对象检测系统的输出、所述分类系统的输出、以及所述分割系统的输出中的一个。
12.根据权利要求10所述的方法,其特征在于,
所述学习用第二特征映射的尺寸大于所述学习用第一特征映射的尺寸,
在所述处理(III)中,所述学习装置使所述第二CNN模块将所述学习用第一特征映射的尺寸增大为与所述学习用第二特征映射的尺寸匹配,
所述测试用第二个特征映射的尺寸大于所述测试用第一个特征映射的尺寸,
在所述步骤(c)中,所述测试装置使第二CNN模块将所述测试用第一特征映射的尺寸增大为与所述测试用第二特征映射的尺寸匹配。
13.根据权利要求12所述的方法,其特征在于,
在所述处理(III)中,
所述学习装置使所述第二CNN模块对所述学习用第一特征映射执行预定次数的卷积运算,以将所述学习用第一特征映射的尺寸改变为与所述学习用第二特征映射的尺寸相同,
在所述步骤(c)中,
所述测试装置使所述第二CNN模块对所述测试用第一特征映射执行预定次数的卷积运算,以将所述测试用第一特征映射的尺寸改变为与所述测试用第二特征映射的尺寸相同。
14.根据权利要求10所述的方法,其特征在于,
在所述处理(III)中,
所述学习装置使所述第二CNN模块将所述学习用第一特征映射和所述学习用第二特征映射进行级联,以生成所述学习用第三特征映射,
在所述步骤(c)中,
所述测试装置使所述第二CNN模块将所述测试用第一特征映射和所述测试用第二特征映射进行级联,以生成所述测试用第三特征映射。
15.根据权利要求10所述的方法,其特征在于,
在所述处理(IV)中,
所述学习装置使所述第二CNN模块,使得所述学习用第四特征映射穿过池化层和全连接层中的至少一个,从而计算所述第二损失,
在所述步骤(d)中,
所述测试装置使所述第二CNN模块,使得所述测试用第四特征映射穿过池化层和全连接层中的至少一个,从而计算所述损失预测值。
16.一种基于CNN的学习装置,用于对有用训练图像进行取舍筛选,其特征在于,包括:
通信部,用于获取至少一个输入图像;以及
处理器,执行以下处理:
(I)(I-1)使第一CNN模块对所述输入图像执行至少一次卷积运算,生成第一特征映射,所述第一CNN模块用于获取所述输入图像中的特定对象的识别信息或位置信息;以及(I-2)使第二CNN模块对所述输入图像执行至少一次卷积运算,生成第二特征映射,所述第二CNN模块用于自动筛选出使用于所述第一CNN模块的学习处理的有用训练图像;
(II)使所述第一CNN模块使用所述第一特征映射生成第一输出,并参考所述第一输出和与其相应的GT图像来计算第一损失,所述第一输出表示所述特定对象的所述识别信息或所述位置信息;
(III)将所述第一特征映射输入到所述第二CNN模块,以使所述第二CNN模块将所述第一特征映射和所述第二特征映射的尺寸改变为相同之后,整合所述第一特征映射和所述第二特征映射,以生成第三特征映射;
(IV)使所述第二CNN模块对所述第三特征映射执行至少一次卷积运算以生成第四特征映射,并使用所述第四特征映射生成第二损失,所述第二损失对应于所述第一损失的预测值;
(V)参考所述第一损失和所述第二损失来计算自动筛选器损失;以及
(VI)使用所述自动筛选器损失来执行反向传播,以对所述第二CNN模块的至少一个参数进行最优化,以使得所述第二CNN模块能够自动筛选出被输入到所述第一CNN模块的多个输入图像之中包含被准确检测的概率小于预定阈值的特定对象的相应的至少一个特定的输入图像。
17.根据权利要求16所述的装置,其特征在于,
在所述处理(VI)中,
所述处理器使用所述第一损失执行反向传播,以对所述第一CNN模块的至少一个参数进行最优化。
18.根据权利要求16所述的装置,其特征在于,
所述第一CNN模块被包含在用于检测所述特定对象的大小和位置的对象检测系统、用于识别所述特定对象的种类的分类系统、以及用于将所述特定对象的区域与其他区域进行区分的分割系统之一中,
所述第二CNN模块被包含在自动筛选系统中,
所述第一输出表示所述对象检测系统的输出、所述分类系统的输出、以及所述分割系统的输出中的一个。
19.根据权利要求16所述的装置,其特征在于,
所述第二特征映射的尺寸大于所述第一特征映射的尺寸,
在所述处理(III)中,
所述处理器使第二CNN模块将所述第一特征映射的尺寸增大为与所述第二特征映射的尺寸匹配。
20.根据权利要求19所述的装置,其中,
在所述处理(III)中,
所述处理器使所述第二CNN模块对所述第一特征映射执行预定次数的卷积运算,以将所述第一特征映射的尺寸改变为与所述第二特征映射的尺寸相同。
21.根据权利要求16所述的装置,其特征在于,
在所述处理(III)中,
所述处理器使所述第二CNN模块将所述第一特征映射和所述第二特征映射进行级联,以生成所述第三特征映射。
22.根据权利要求16所述的装置,其特征在于,
在所述处理(IV)中,
所述处理器使所述第二CNN模块,使得所述第四特征映射穿过池化层和全连接层中的至少一个,从而计算所述第二损失。
23.根据权利要求22所述的装置,其特征在于,
所述池化层使所述第四特征映射的高度和宽度为1。
24.根据权利要求16所述的装置,其特征在于,
在所述处理(VI)中,
所述处理器朝着将自动筛选器损失最小化的方向进行反向传播。
25.一种测试装置,用于基于CNN对有用学习数据进行取舍筛选,其特征在于,包括通信部和处理器,
所述通信部用于在以下处理(i)~(vi)被执行的状态下,获取各个候选图像作为各个测试图像,
(i)学习装置执行以下处理:(i-1)使第一CNN模块对训练图像执行至少一次卷积运算,生成学习用第一特征映射,所述第一CNN模块用于获取所述训练图像中的特定对象的识别信息或位置信息;以及(i-2)使第二CNN模块对所述训练图像执行至少一次卷积运算,生成学习用第二特征映射,所述第二CNN模块用于自动筛选出使用于所述第一CNN模块的学习处理的有用学习数据;
(ii)所述学习装置使所述第一CNN模块使用所述学习用第一特征映射生成学习用第一输出,并参考所述学习用第一输出和与其对应的GT图像来计算第一损失,所述学习用第一输出表示所述特定对象的所述识别信息或所述位置信息;
(iii)所述学习装置将所述学习用第一特征映射输入到所述第二CNN模块,以使所述第二CNN模块将所述学习用第一特征映射和所述学习用第二特征映射的尺寸改变为相同之后,整合所述学习用第一特征映射和所述学习用第二特征映射,以生成学习用第三特征映射;
(iv)所述学习装置使所述第二CNN模块对所述学习用第三特征映射执行至少一次卷积运算,生成学习用第四特征映射,并使用所述学习用第四特征映射来生成第二损失,所述第二损失对应于所述第一损失的预测值;
(v)所述学习装置参考所述第一损失和所述第二损失来计算自动筛选器损失;以及
(vi)所述学习装置使用所述自动筛选器损失来执行反向传播,以对所述第二CNN模块的至少一个参数进行最优化,以使得所述第二CNN模块能够自动筛选出被输入到所述第一CNN模块的多个训练图像之中包含被准确检测的概率小于预定阈值的特定对象的相应的至少一个训练图像,
所述处理器执行以下处理:
(I)(I-1)使所述第一CNN模块对所述测试图像执行至少一次卷积运算,生成测试用第一特征映射,以及(I-2)使所述第二CNN模块对测试图像执行至少一次卷积运算,以生成测试用第二特征映射;
(II)将所述测试用第一特征映射输入到所述第二CNN模块,以使所述第二CNN模块将所述测试用第一特征映射和所述测试用第二特征映射的尺寸改变为相同之后,整合所述测试用第一特征映射和所述测试用第二特征映射,以生成测试用第三特征映射;
(III)使所述第二CNN模块对所述测试用第三特征映射执行至少一次卷积运算,以生成测试用第四特征映射,并使用所述测试用第四特征来计算损失预测值;以及
(IV)在所述候选图像中筛选出所述损失预测值为预定阈值以上的至少一个图像,作为使用于所述第一CNN模块的学习处理的训练图像。
26.根据权利要求25所述的装置,其特征在于,
所述第一CNN模块被包含在用于检测所述特定对象的大小和位置的对象检测系统、用于识别所述特定对象的种类的分类系统、以及用于将所述特定对象的区域与其他区域进行区分的分割系统之一中,
所述第二CNN模块被包含在自动筛选系统中,
所述学习用第一输出表示所述对象检测系统的输出、所述分类系统的输出、以及所述分割系统的输出中的一个。
27.根据权利要求25所述的装置,其特征在于,
所述学习用第二特征映射的尺寸大于所述学习用第一特征映射的尺寸,
在所述处理(iii)中,所述学习装置使所述第二CNN模块将所述学习用第一特征映射的尺寸增大为与所述学习用第二特征映射的尺寸匹配,
所述测试用第二个特征映射的尺寸大于所述测试用第一个特征映射的尺寸,
并且,在所述处理(II)中,所述处理器使所述第二CNN模块将所述测试用第一特征映射的尺寸增大为与所述测试用第二特征映射的尺寸匹配。
28.根据权利要求27所述的装置,其特征在于,
在所述处理(iii)中,
所述学习装置使所述第二CNN模块对所述学习用第一特征映射执行预定次数的卷积运算,以将所述学习用第一特征映射的尺寸改变为与所述学习用第二特征映射的尺寸相同,
在所述处理(II)中,
所述处理器使所述第二CNN模块对所述测试用第一特征映射执行预定次数的卷积运算,以将所述测试用第一特征映射的尺寸改变为与所述测试用第二特征映射的尺寸相同。
29.根据权利要求25所述的装置,其特征在于,
在所述处理(iii)中,
所述学习装置使所述第二CNN模块将所述学习用第一特征映射和所述学习用第二特征映射进行级联,以生成所述学习用第三特征映射,
在所述处理(II)中,
所述处理器使所述第二CNN模块将所述测试用第一特征映射和所述测试用第二特征映射进行级联,以生成所述测试用第三特征映射。
30.根据权利要求25所述的装置,其特征在于,
在所述处理(iv)中,
所述学习装置使所述第二CNN模块,使得所述学习用第四特征映射穿过池化层和全连接层中的至少一个,从而计算所述第二损失,
在所述处理(III)中,
所述处理器使所述第二CNN模块,使得所述测试用第四特征映射穿过池化层和全连接层中的至少一个,从而计算所述损失预测值。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/171,755 US10504027B1 (en) | 2018-10-26 | 2018-10-26 | CNN-based learning method, learning device for selecting useful training data and test method, test device using the same |
US16/171,755 | 2018-10-26 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111105011A CN111105011A (zh) | 2020-05-05 |
CN111105011B true CN111105011B (zh) | 2023-10-20 |
Family
ID=67211567
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911007257.9A Active CN111105011B (zh) | 2018-10-26 | 2019-10-22 | 用于对有用学习数据进行取舍筛选的基于cnn的方法及装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10504027B1 (zh) |
EP (1) | EP3644236B1 (zh) |
JP (1) | JP6875021B2 (zh) |
KR (1) | KR102309711B1 (zh) |
CN (1) | CN111105011B (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20180027887A (ko) * | 2016-09-07 | 2018-03-15 | 삼성전자주식회사 | 뉴럴 네트워크에 기초한 인식 장치 및 뉴럴 네트워크의 트레이닝 방법 |
US10799189B2 (en) | 2017-11-22 | 2020-10-13 | General Electric Company | Systems and methods to deliver point of care alerts for radiological findings |
US10783634B2 (en) | 2017-11-22 | 2020-09-22 | General Electric Company | Systems and methods to deliver point of care alerts for radiological findings |
EP3896647A4 (en) * | 2018-12-14 | 2022-01-26 | FUJIFILM Corporation | MINI-BATCH LEARNING DEVICE, OPERATING PROGRAM FOR MINI-BATCH LEARNING DEVICE, OPERATING METHOD FOR MINI-BATCH LEARNING DEVICE, AND IMAGE PROCESSING DEVICE |
CN111666960B (zh) * | 2019-03-06 | 2024-01-19 | 南京地平线机器人技术有限公司 | 图像识别方法、装置、电子设备及可读存储介质 |
WO2020252256A1 (en) * | 2019-06-12 | 2020-12-17 | Carnegie Mellon University | Deep-learning models for image processing |
KR20190087351A (ko) * | 2019-07-05 | 2019-07-24 | 엘지전자 주식회사 | 머신 러닝 시스템, 방법 및 장치 |
US10943353B1 (en) | 2019-09-11 | 2021-03-09 | International Business Machines Corporation | Handling untrainable conditions in a network architecture search |
US11023783B2 (en) * | 2019-09-11 | 2021-06-01 | International Business Machines Corporation | Network architecture search with global optimization |
US11334987B2 (en) * | 2019-10-09 | 2022-05-17 | Siemens Medical Solutions Usa, Inc. | Physics-constrained network and training thereof |
JP7322965B2 (ja) * | 2019-10-28 | 2023-08-08 | 富士通株式会社 | 学習方法、学習プログラム、および学習装置 |
KR20210061146A (ko) * | 2019-11-19 | 2021-05-27 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
US11157813B1 (en) * | 2020-04-24 | 2021-10-26 | StradVision, Inc. | Method and device for on-vehicle active learning to be used for training perception network of autonomous vehicle |
JP7486349B2 (ja) * | 2020-05-28 | 2024-05-17 | キヤノン株式会社 | ニューラルネットワーク、ニューラルネットワークの学習方法、プログラム、画像処理装置 |
US12131244B2 (en) | 2020-07-16 | 2024-10-29 | Google Llc | Hardware-optimized neural architecture search |
EP4116871A1 (en) * | 2021-07-08 | 2023-01-11 | Argo AI GmbH | Method and processing unit for processing sensor data of several different sensors with an artificial neural network in a vehicle |
KR20230050127A (ko) * | 2021-10-07 | 2023-04-14 | 삼성전자주식회사 | 디스플레이 장치 및 그 동작방법 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9471836B1 (en) * | 2016-04-01 | 2016-10-18 | Stradvision Korea, Inc. | Method for learning rejector by forming classification tree in use of training images and detecting object in test images, and rejector using the same |
US9996890B1 (en) * | 2017-07-14 | 2018-06-12 | Synapse Technology Corporation | Detection of items |
WO2018153201A1 (zh) * | 2017-02-22 | 2018-08-30 | 中兴通讯股份有限公司 | 深度学习训练方法及装置 |
CN108596184A (zh) * | 2018-04-25 | 2018-09-28 | 清华大学深圳研究生院 | 图像语义分割模型的训练方法、可读存储介质及电子设备 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9928410B2 (en) * | 2014-11-24 | 2018-03-27 | Samsung Electronics Co., Ltd. | Method and apparatus for recognizing object, and method and apparatus for training recognizer |
WO2017106998A1 (en) * | 2015-12-21 | 2017-06-29 | Sensetime Group Limited | A method and a system for image processing |
US9665799B1 (en) * | 2016-01-29 | 2017-05-30 | Fotonation Limited | Convolutional neural network |
US10929977B2 (en) * | 2016-08-25 | 2021-02-23 | Intel Corporation | Coupled multi-task fully convolutional networks using multi-scale contextual information and hierarchical hyper-features for semantic image segmentation |
US9965863B2 (en) * | 2016-08-26 | 2018-05-08 | Elekta, Inc. | System and methods for image segmentation using convolutional neural network |
EP3549063A4 (en) * | 2016-12-05 | 2020-06-24 | Avigilon Corporation | APPEARANCE SEARCH SYSTEM AND METHOD |
JP6567488B2 (ja) * | 2016-12-22 | 2019-08-28 | 日本電信電話株式会社 | 学習データ生成装置、開発データ生成装置、モデル学習装置、それらの方法、及びプログラム |
US10678846B2 (en) * | 2017-03-10 | 2020-06-09 | Xerox Corporation | Instance-level image retrieval with a region proposal network |
US11068751B2 (en) * | 2017-03-21 | 2021-07-20 | Nec Corporation | Image processing device, image processing method, and storage medium |
US10796200B2 (en) * | 2018-04-27 | 2020-10-06 | Intel Corporation | Training image signal processors using intermediate loss functions |
-
2018
- 2018-10-26 US US16/171,755 patent/US10504027B1/en active Active
-
2019
- 2019-07-08 EP EP19184885.2A patent/EP3644236B1/en active Active
- 2019-08-27 KR KR1020190105486A patent/KR102309711B1/ko active IP Right Grant
- 2019-10-08 JP JP2019185244A patent/JP6875021B2/ja active Active
- 2019-10-22 CN CN201911007257.9A patent/CN111105011B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9471836B1 (en) * | 2016-04-01 | 2016-10-18 | Stradvision Korea, Inc. | Method for learning rejector by forming classification tree in use of training images and detecting object in test images, and rejector using the same |
WO2018153201A1 (zh) * | 2017-02-22 | 2018-08-30 | 中兴通讯股份有限公司 | 深度学习训练方法及装置 |
US9996890B1 (en) * | 2017-07-14 | 2018-06-12 | Synapse Technology Corporation | Detection of items |
CN108596184A (zh) * | 2018-04-25 | 2018-09-28 | 清华大学深圳研究生院 | 图像语义分割模型的训练方法、可读存储介质及电子设备 |
Non-Patent Citations (3)
Title |
---|
Hiroshi Fukui et al.Pedestrian detection based on deep convolutional neural network with ensemble inference network.《2015 IEEE Intelligent Vehicles Symposium (IV)》.2015,第223-228页. * |
LORENZ BERGER ET AL.Boosted Training of Convolutional Neural Networks for Multi-Class Segmentation.《CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA》.2018,第1-8页. * |
Zhaowei Cai et al.A unified multi-scale deep convolutional neural network for fast object detection.《European conference on computer vision》.2016,第354–370页. * |
Also Published As
Publication number | Publication date |
---|---|
EP3644236C0 (en) | 2024-03-13 |
JP2020068028A (ja) | 2020-04-30 |
JP6875021B2 (ja) | 2021-05-19 |
CN111105011A (zh) | 2020-05-05 |
US10504027B1 (en) | 2019-12-10 |
EP3644236A1 (en) | 2020-04-29 |
KR20200047307A (ko) | 2020-05-07 |
KR102309711B1 (ko) | 2021-10-08 |
EP3644236B1 (en) | 2024-03-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111105011B (zh) | 用于对有用学习数据进行取舍筛选的基于cnn的方法及装置 | |
US10474713B1 (en) | Learning method and learning device using multiple labeled databases with different label sets and testing method and testing device using the same | |
CN109978893B (zh) | 图像语义分割网络的训练方法、装置、设备及存储介质 | |
US10262214B1 (en) | Learning method, learning device for detecting lane by using CNN and testing method, testing device using the same | |
EP3690741B1 (en) | Method for automatically evaluating labeling reliability of training images for use in deep learning network to analyze images, and reliability-evaluating device using the same | |
US20080013940A1 (en) | Method, system, and medium for classifying category of photo | |
JP6980289B2 (ja) | 車線モデルを利用して車線を検出し得る学習方法及び学習装置そしてこれを利用したテスト方法及びテスト装置{learning method, learning device for detecting lane using lane model and test method, test device using the same} | |
KR102279399B1 (ko) | 복수의 비디오 프레임을 이용하여 cnn의 파라미터를 최적화하기 위한 학습 방법 및 학습 장치 그리고 이를 이용한 테스트 방법 및 테스트 장치 | |
CN111008626A (zh) | 基于r-cnn检测客体的方法和装置 | |
CN110909588B (zh) | 基于cnn的用于车道线检测的方法和装置 | |
US20170053172A1 (en) | Image processing apparatus, and image processing method | |
CN117274740A (zh) | 一种红外目标检测方法及装置 | |
US20230260259A1 (en) | Method and device for training a neural network | |
CN111339952A (zh) | 基于人工智能的图像分类方法、装置及电子设备 | |
CN113160027A (zh) | 一种图像处理模型训练方法及装置 | |
CN112749702A (zh) | 一种图像识别方法、装置、终端及存储介质 | |
CN112446300B (zh) | 车流密度分析的方法、系统及计算机存储介质 | |
CN116912290B (zh) | 一种记忆增强的难易视频运动小目标检测方法 | |
CN115761400A (zh) | 目标识别模型训练方法、装置和终端设备 | |
Dahlkvist | Discovering the Influence of Visual Environmental Factors on Traffic Accident Severity via Semantic Segmentation | |
CN118522038A (zh) | 一种基于无人机的野生动物信息获取方法和装置 | |
CN115082903A (zh) | 非机动车违停识别方法、装置、计算机设备及存储介质 | |
CN115131262A (zh) | 目标检测方法和装置 | |
CN112926414A (zh) | 图像处理的方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |