CN111507370B - 获得自动标注图像中检查标签的样本图像的方法和装置 - Google Patents
获得自动标注图像中检查标签的样本图像的方法和装置 Download PDFInfo
- Publication number
- CN111507370B CN111507370B CN202010056900.3A CN202010056900A CN111507370B CN 111507370 B CN111507370 B CN 111507370B CN 202010056900 A CN202010056900 A CN 202010056900A CN 111507370 B CN111507370 B CN 111507370B
- Authority
- CN
- China
- Prior art keywords
- image
- automatic labeling
- frame
- automatic
- level
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 154
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000007689 inspection Methods 0.000 title claims description 4
- 230000002159 abnormal effect Effects 0.000 claims abstract description 57
- 238000011176 pooling Methods 0.000 claims abstract description 40
- 238000013135 deep learning Methods 0.000 claims abstract description 37
- 238000005070 sampling Methods 0.000 claims abstract description 6
- 238000001514 detection method Methods 0.000 claims description 50
- 238000012549 training Methods 0.000 claims description 23
- 230000006870 function Effects 0.000 claims description 22
- 230000015654 memory Effects 0.000 claims description 15
- 230000005856 abnormality Effects 0.000 claims description 8
- 238000012795 verification Methods 0.000 claims description 7
- 239000000758 substrate Substances 0.000 claims 2
- 230000008569 process Effects 0.000 abstract description 6
- 238000004422 calculation algorithm Methods 0.000 abstract description 2
- 238000013528 artificial neural network Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 10
- 230000003044 adaptive effect Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 239000010426 asphalt Substances 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000011478 gradient descent method Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000003956 synaptic plasticity Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/84—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using probabilistic graphical models from image or video features, e.g. Markov models or Bayesian networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种方法,优化手动标注抽样过程并减少注解成本的获得用于深度学习网络学习的自动标注图像中用于检查标签的样本图像,其特征在于,包括:样本图像获得装置生成第一图像和第二图像,使得卷积层生成第一特征地图和第二特征地图,使得池化层生成第一池化特征地图和第二池化特征地图,生成拼接的特征地图;使得深度学习分类器获得拼接的上述特征地图,生成等级信息;以及计算异常等级组的异常等级要素的概率,判断自动标注图像是否为复杂图像,选择上述自动标注图像作为用于检查标签的上述样本图像。并且,上述方法可以利用具有多个变形对的鲁棒算法(robust algorithm)执行。并且,通过本发明可以更加准确检测危险情况。
Description
技术领域
本发明涉及获得用于深度学习网络学习的至少一个自动标注图像中用于检查标签的至少一个样本图像的方法及装置。
背景技术
近来,对利用机器学习(machine learning)来识别对象的方法等进行研究。通过这种机器学习环节,使利用在输入层与输出层之间具有多个隐含层(hidden layer)的神经网络的深度学习具有高识别性能。
而且,利用上述深度学习的上述神经网络通常通过利用损失的反向传播进行学习。
为了进行这种深度学习网络的学习,需要由标注者(labeler)对个别数据点添加标签(tag),即,标签(label)的训练数据。准备这种训练数据(即,准确分类数据),尤其,在利用大量的训练数据的情况和数据预处理的质量持续不高的情况下,劳动密集、成本高且繁琐。以往的可相互标注的方法成本高而无法导出理想结果。
因此,最近,执行利用基于深度学习的自动标注装置来对训练图像添加标签(tag),即,标签(label)的自动标注,由检查人员检查自动标注的训练图像来校正上述标签(tag)或标签(label)。
然而,这种以往的方法中,检查人员的处理率(throughput)低于上述自动标注装置的处理率,针对全部训练图像生成真实标签需要很长时间。为了提高整体处理率需要增加检查人员数量,但这种情况下发生成本增加问题。
并且,还存在难以确保能够承受上述自动标注装置的处理率的多个熟练的检查人员的问题。
发明内容
技术问题
本发明的目的在于,解决以上提及的所有问题。
本发明的再一目的在于,通过自动标注提高所有训练图像的标注处理率(throughput)。
本发明的另一目的在于,减少检查人员数量的同时将上述自动标注的处理率维持最大值。
本发明的还有一目的在于,使不熟练的检查人员以不低于上述自动标注装置的处理率检查标注。
解决问题的手段
为了达成如上所述的本发明的目的,并带来后述的本发明的特征性效果,本发明的特征性结构如下:
根据本发明的一方面,提供一种方法,获得用于深度学习网络学习的至少一个自动标注图像中用于检查标签的至少一个样本图像,其特征在于,包括:步骤(a),若获得由自动标注网络标注的上述自动标注图像,则样本图像获得装置执行:(i)生成第一图像和第二图像,其中至少一个是从上述自动标注图像变形生成的,若上述第一图像和上述第二图像中只有一个是从上述自动标注图像变形生成的图像,则剩余一个原状态使用上述自动标注图像,(ii)使得一个以上卷积层,对上述第一图像和上述第二图像分别适用一个以上卷积运算,生成至少一个第一特征地图和至少一个第二特征地图,(iii)使得一个以上池化层,上述第一特征地图中对与上述自动标注图像的各个自动标注框相对应的各区域分别适用一个以上池化运算,生成各个第一池化特征地图,上述第二特征地图中对与上述自动标注图像的各个上述自动标注框相对应的各区域分别适用上述池化运算,生成各个第二池化特征地图,(iv)对与各个上述自动标注框相对应的各个上述第一池化特征地图和各个上述第二池化特征地图进行拼接(concatenate),生成与各个上述自动标注框相对应的各个拼接的特征地图;步骤(b),上述样本图像获得装置使得深度学习分类器(classifier)通过输入来获得各个拼接的上述特征地图,生成将各个上述自动标注框分类为异常等级组或正常等级组的等级信息;以及步骤(c),上述样本图像获得装置执行:(i)参照与各个上述自动标注框相关的各个上述等级信息,计算上述异常等级组的各异常等级要素的各个概率,(ii)利用各个上述异常等级要素的上述各个概率判断上述自动标注图像是否为复杂(difficult)图像,(iii)上述自动标注图像判断为上述复杂图像的情况下,选择上述自动标注图像作为用于检查标签的上述样本图像,上述复杂图像的非准确自动标注的概率为设值以上。
一实施例中,本发明的特征在于,上述步骤(a)中,上述样本图像获得装置生成上述第一图像和上述第二图像时,利用一个以上变形对生成与上述自动标注图像相对应的上述第一图像和上述第二图像的至少一个图像对,上述一个以上变形对包括用于变形上述第一图像的一个以上第一函数和与此相对应的用于变形上述第二图像的第二函数,上述步骤(c)中,上述样本图像获得装置按照各个上述自动标注框,计算与各个上述变形对相对应的各个上述异常等级要素的各个概率,并计算对于上述各个概率的至少一个加权平均。
一实施例中,本发明的特征在于,上述异常等级组包括误检测(misdetection)等级组和未检测(non-detection)等级组,各个上述异常等级要素的各个概率包括上述误检测等级组的误检测等级要素的各个概率和上述未检测等级组的未检测等级要素的各个概率。
一实施例中,本发明的特征在于,上述步骤(c)中,上述非准确自动标注的概率是与上述异常等级要素的各个概率有关的至少一个广义平均(generalized mean)。
一实施例中,本发明的特征在于,上述预设值是与通过上述自动标注网络进行自动标注之后手动检查的验证图像有关的正确答案命中率中最高的命中率。
一实施例中,本发明的特征在于,还包括:步骤(d),上述样本图像获得装置,在判断为上述复杂图像的上述自动标注图像中,识别与分类为上述异常等级组的上述自动标注框相对应的区域。
一实施例中,本发明的特征在于,各个上述卷积层是构成上述自动标注网络的至少一个自动标注卷积层。
一实施例中,本发明的特征在于,上述深度学习分类器包括多重全连接(FC,fullyconnected)层或一个全卷积网络(fully convolutional network)。
一实施例中,本发明的特征在于,上述深度学习分类器利用学习装置执行:(i)若获得包括与上述自动标注框相对应的真实框和自动框的至少一个训练图像,(i-1)使得学习用卷积层,对上述训练图像适用上述学习用卷积层的卷积运算,生成学习用特征地图,(i-2)使得学习用池化层,上述学习用特征地图中对与上述自动框相对应的各个区域适用上述学习用池化层的池化运算,生成学习用池化特征地图;以及(ii)通过输入来获得与各个上述自动框相对应的各个上述学习用池化特征地图,生成将上述自动框分类为上述正常等级组或上述异常等级组的上述等级信息,(iii)使得至少一个损失层,参照上述等级信息和与其相对应的一个以上真实数据(GT,ground truth)计算一个以上损失,通过利用上述损失的反向传播来学习上述深度学习分类器的参数中的至少一部分。
一实施例中,本发明的特征在于,上述等级信息包括具有误检测等级组和未检测等级组的上述异常等级组,(i)上述误检测等级组表示具有与第一特定自动框相同的等级信息的第一特定真实框不与其他任意真实框以第一预设临界值以上重叠的情况,(ii)上述未检测等级组表示具有与第二特定真实框相同的等级信息的第二特定自动框不与其他任意自动框以第二预设临界值以上重叠的状态下,第三特定自动框与上述第二特定真实框以第三预设临界值以上重叠的情况,上述正常等级组包括除上述误检测等级组和上述未检测等级组之外的所有等级组。
一实施例中,本发明的特征在于,上述学习装置通过管理上述误检测等级组、上述未检测等级组及上述正常等级组,使得上述异常等级组中要素数量多的等级组的数量成为要素数量少的剩余等级组的数量的预设第一倍数以下,使上述正常等级组的要素数量与上述异常等级组的要素数量的预设第二倍数相同。
一实施例中,本发明的特征在于,上述学习装置利用随机抽样,调整上述误检测等级组的要素的数量、上述未检测等级组的要素的数量及上述正常等级组的要素的数量。
一实施例中,本发明的特征在于,上述学习装置利用交叉熵损失(cross-entropyloss)来执行上述反向传播。
本发明的另一方面,提供一种样本图像获得装置,获得用于深度学习网络学习的至少一个自动标注图像中用于检查标签的至少一个样本图像,其特征在于,包括:至少一个存储器,用于存储指令;以及至少一个处理器,执行上述指令来执行步骤(I)、步骤(II)及步骤(III),步骤(I),若获得由自动标注网络标注的上述自动标注图像,则执行:(i)生成第一图像和第二图像,其中至少一个是从上述自动标注图像变形生成的,若上述第一图像和上述第二图像中只有一个是从上述自动标注图像变形生成的图像,则剩余一个原状态使用上述自动标注图像,(ii)使得一个以上卷积层,对上述第一图像和上述第二图像分别适用一个以上卷积运算,生成至少一个第一特征地图和至少一个第二特征地图,(iii)使得一个以上池化层,上述第一特征地图中对与上述自动标注图像的各个自动标注框相对应的各区域分别适用一个以上池化运算,生成各个第一池化特征地图,上述第二特征地图中对与上述自动标注图像的各个上述自动标注框相对应的各区域分别适用上述池化运算,生成各个第二池化特征地图,(iv)对与各个上述自动标注框相对应的各个上述第一池化特征地图和各个上述第二池化特征地图进行拼接(concatenate),生成与各个上述自动标注框相对应的各个拼接的特征地图;步骤(II),使得深度学习分类器(classifier)通过输入来获得各个拼接的上述特征地图,生成将各个上述自动标注框分类为异常等级组或正常等级组的等级信息;以及步骤(III),(i)参照与各个上述自动标注框相关的各个上述等级信息,计算上述异常等级组的各异常等级要素的各个概率,(ii)利用各个上述异常等级要素的上述各个概率判断上述自动标注图像是否为复杂图像,(iii)上述自动标注图像判断为上述复杂图像的情况下,选择上述自动标注图像作为用于检查标签的上述样本图像,上述复杂图像的非准确自动标注的概率为设值以上。
一实施例中,本发明的特征在于,上述步骤(I)中,上述处理器生成上述第一图像和上述第二图像时,利用一个以上变形对生成与上述自动标注图像相对应的上述第一图像和上述第二图像的至少一个图像对,上述一个以上变形对包括用于变形上述第一图像的一个以上第一函数和与此相对应的用于变形上述第二图像的第二函数,上述步骤(III)中,上述处理器按照各个上述自动标注框,计算与各个上述变形对相对应的各个上述异常等级要素的各个概率,并计算对于上述各个概率的至少一个加权平均。
一实施例中,本发明的特征在于,上述异常等级组包括误检测(misdetection)等级组和未检测(non-detection)等级组,各个上述异常等级要素的各个概率包括上述误检测等级组的误检测等级要素的各个概率和上述未检测等级组的未检测等级要素的各个概率。
一实施例中,本发明的特征在于,上述步骤(c)中,上述非准确自动标注的概率是与上述异常等级要素的各个概率有关的至少一个广义平均(generalized mean)。
一实施例中,本发明的特征在于,上述预设值是与通过上述自动标注网络进行自动标注之后手动检查的验证图像有关的正确答案命中率中最高的命中率。
一实施例中,本发明的特征在于,上述处理器还执行:步骤(IV),在判断为上述复杂图像的上述自动标注图像中,识别与分类为上述异常等级组的上述自动标注框相对应的区域。
一实施例中,本发明的特征在于,各个上述卷积层是构成上述自动标注网络的至少一个自动标注卷积层。
一实施例中,本发明的特征在于,上述深度学习分类器包括多重全连接(FC,fullyconnected)层或一个全卷积网络(fully convolutional network)。
一实施例中,本发明的特征在于,上述深度学习分类器利用学习装置执行:(i)若获得包括与上述自动标注框相对应的真实框和自动框的至少一个训练图像,(i-1)使得学习用卷积层,对上述训练图像适用上述学习用卷积层的卷积运算,生成学习用特征地图,(i-2)使得学习用池化层,上述学习用特征地图中对与上述自动框相对应的各个区域适用上述学习用池化层的池化运算,生成学习用池化特征地图;以及(ii)通过输入来获得与各个上述自动框相对应的各个上述学习用池化特征地图,生成将上述自动框分类为上述正常等级组或上述异常等级组的上述等级信息,(iii)使得至少一个损失层,参照上述等级信息和与其相对应的一个以上真实数据(GT,ground truth)计算一个以上损失,通过利用上述损失的反向传播来学习上述深度学习分类器的参数中的至少一部分。
一实施例中,本发明的特征在于,上述等级信息包括具有误检测等级组和未检测等级组的上述异常等级组,(i)上述误检测等级组表示具有与第一特定自动框相同的等级信息的第一特定真实框不与其他任意真实框以第一预设临界值以上重叠的情况,(ii)上述未检测等级组表示具有与第二特定真实框相同的等级信息的第二特定自动框不与其他任意自动框以第二预设临界值以上重叠的状态下,第三特定自动框与上述第二特定真实框以第三预设临界值以上重叠的情况,上述正常等级组包括除上述误检测等级组和上述未检测等级组之外的所有等级组。
一实施例中,本发明的特征在于,上述学习装置通过管理上述误检测等级组、上述未检测等级组及上述正常等级组,使得上述异常等级组中要素数量多的等级组的数量成为要素数量少的剩余等级组的数量的预设第一倍数以下,使上述正常等级组的要素数量与上述异常等级组的要素数量的预设第二倍数相同。
一实施例中,本发明的特征在于,上述学习装置利用随机抽样,调整上述误检测等级组的要素的数量、上述未检测等级组的要素的数量及上述正常等级组的要素的数量。
一实施例中,本发明的特征在于,述学习装置利用交叉熵损失(cross-entropyloss)来执行上述反向传播。
此外,还提供用于存储执行本发明的方法的计算机程序的计算机可读存储介质。
发明的效果
本发明具有利用自动标注装置对自动标注图像中难以标注的图像进行选择性检查而减少检查时间的效果。
并且,本发明对难以标注的上述图像进行检查,即使是不熟练的检查人员也能够以不低于上述自动标注装置的处理率进行检查,从而具有提高上述训练图像的整体标注处理率的效果。
并且,本发明对难以标注的上述图像进行检查,可以减少检查人员数量,具有优化手动标注的标注过程并减少注解(annotation)成本的效果。
附图说明
为了说明本发明的实施例而所附的以下附图只是本发明的实施例中的一部分,本发明所属领域的普通技术人员(以下,“普通技术人员”)可以在不付出创造性劳动的情况下通过该附图得出其他附图。
图1简要示出根据本发明一实施例的用于神经网络学习的一个以上获得自动标注图像中用于检查标签的至少一个样本图像的样本图像获得装置。
图2简要示出根据本发明一实施例的用于上述神经网络学习的获得上述自动标注图像中用于检查标签的上述样本图像的方法。
图3简要示出根据本发明一实施例的用于上述神经网络学习的上述自动标注图像中分类自动标注框的等级的深度学习分类器的学习方法。
具体实施方式
以下,本发明能够实施的特定实施例为例,参照附图对本发明进行详细说明,本发明的目的、技术手段及优点将更加明确。普通技术人员可以参照对这些实施例的详细说明充分实施这些实施例。
并且,本发明的详细说明及权利要求书中,术语“包括”及其变形不排除其他技术特征、附加物、结构要素或步骤等。对普通技术人员而言,本发明的其他目的、优点及特性的一部分可以从本说明书得知,一部分可以在实施本发明的过程中得知。以下例示及附图只是实例,本发明并不局限于此。
进而,本发明包括本说明书中提供的多个实施例的所有组合。本发明的各种实施例虽然不同但不必相互排斥。例如,本文所记载的特定形状、结构及特性,在一实施例中不脱离本发明的思想及范围的情况下还可体现为另一实施例。并且,所公开的各个实施例内的个别结构要素的位置或配置可以在不脱离本发明的思想及范围的情况下进行变更。因此,后述的详细说明并不是限定的意思,只要能适当说明,本发明的范围应根据与权利要求书的范围等同的所有范围和所附的权利要求书而定。附图中类似的附图标记在多个方面指类似的功能。
本发明中提及的各种图像可以包括柏油马路或非柏油马路的相关图像,这种情况下可以假设包括马路环境中可以出现的物体(假如车辆、人、动物、植物、物体、建筑物、飞机或无人机等飞行物、其他障碍物),但并不局限于此。本发明中提及的各种图像还可以为与马路无关的图像(假如非柏油马路、胡同、空地、海、湖、河、山、树林、沙漠、天空、与室内相关的图像),这种情况下可以假设包括非柏油马路、胡同、空地、海、湖、河、山、树林、沙漠、天空、室内环境中可以出现的物体(假如车辆、人、动物、植物、物体、建筑物、飞机或无人机等飞行物、其他障碍物),但并不局限于此。
以下,为了使本发明所属领域的普通技术人员容易实施本发明,参照附图对本发明的优选实施例进行详细说明。
图1简要示出根据本发明一实施例的用于神经网络学习的一个以上获得自动标注图像中用于检查标签的至少一个样本图像的样本图像获得装置。参照图1,上述样本图像获得装置100可以包括:存储器110,存储获得上述自动标注图像中用于检查标签的上述样本图像的指令;以及处理器120,为了获得上述自动标注图像中用于检查标签的上述样本图像而执行与存储在上述存储器110的上述指令相对应的步骤。
具体地,上述优化装置100典型地利用至少一个计算装置(例如,可包括计算机处理器、存储器、内存、输入装置及输出装置、其他现有的计算装置的结构要素的装置;路由器、开关等电子通信装置;网络附属存储(NAS)及存储区域网络(SAN)等电子信息存储系统)和至少一个计算机软件(即,使得上述计算装置以特定方式运行的指令)的组合来实现所需的系统性能。
并且,上述计算装置的处理器可以包括MPU(Micro Processing Unit)或CPU(Central Processing Unit)、缓存存储器(Cache Memory)、数据总线(Data Bus)等硬件结构。并且,上述计算装置还可包括操作系统及执行特定目的的应用的软件结构。
然而,不排除上述计算装置包括用于实施本发明的处理器、存储器、介质或其他计算用结构要素整合的形态的整合处理器的情况。
以下,参照图2说明根据本发明一实施例的用于上述神经网络学习的获得上述自动标注图像中用于检查标签的上述样本图像的方法。此时,上述神经网络可以利用上述样本图像获得装置100执行图像分析。
首先,若获得由自动标注网络标注的上述自动标注图像,则样本图像获得装置100使得图像变形层150原状态使用上述自动标注图像或者对其进行变形(transform)来生成第一图像和第二图像。此时,上述第一图像和上述第二图像中的至少一个可以是从上述自动标注图像变形生成的图像。并且,上述自动标注图像可以包括具有真实框的验证图像,上述验证图像可以用于评价上述自动标注及手动标注结果。
另一方面,上述样本图像获得装置100使得图像变形层150生成上述第一图像和上述第二图像时,利用包括用于变形上述第一图像的一个以上第一函数和与此相对应的用于变形上述第二图像的第二函数的一个以上变形对来生成与上述自动标注图像相对应的上述第一图像和上述第二图像的至少一个图像对。
作为一例,上述变形对如下列表所示。
表1
即,可根据上述自动标注图像生成与设定的上述变形对相对应的上述第一图像和上述第二图像的一个以上图像对。上述表格示出了6个关于上述变形对的示例,但本发明的范围不局限于此,上述变形对的数量可以设定为任意数量。
然后,上述样本图像获得装置100使一个以上卷积层160分别对上述第一图像和上述第二图像适用一个以上卷积运算来输出至少一个第一特征地图和至少一个第二特征地图。
此时,各个上述卷积层160可以是构成上述自动标注网络的至少一个自动标注卷积层。即,在上述自动标注网络适用多个变形的组合的情况下,上述变形对可仅由上述自动标注网络所使用的上述变形来定义,由此,从上述自动标注网络的上述自动标注卷积层输出的特征地图可在没有额外过程的情况下按原状态使用,因此,可减少上述特征地图的运算所需的时间。
然后,上述样本图像获得装置100使一个以上池化层170在上述第一特征地图上对与上述自动标注图像的各个自动标签框相对应的各区域适用一个以上池化运算来输出各个第一池化特征地图,在上述第二特征地图上对与上述自动标注图像的上述各个自动标签框相对应的各区域适用上述池化运算来输出各个第二池化特征地图,将分别与上述各个自动标签框相对应的各个上述第一池化特征地图和各个第二池化特征地图拼接来生成与各个上述自动标注框相对应的各个拼接的特征地图。
此时,在图2中示出两个卷积层160和两个池化层170,但与此不同地,一个卷积层和一个池化层还可以分别为了对上述第一图像和第二图像适用上述卷积运算且对上述第一特征地图和上述第二特征地图适用上述池化运算而被使用。
而且,上述样本图像获得装置100可使至少一个深度学习分类器180通过输入来获得各个拼接的上述特征地图,输出用于将上述各个自动框分类为异常等级组或正常等级组的等级信息。
此时,上述异常等级组可包括误检测等级组和未检测等级组,上述正常等级组可包括与以对象分类的框有关的等级组和与以背景分类的框有关的等级组,上述框为未包括在上述异常等级组的述自动标注框中的至少一部分。对于与上述自动标签框有关的分类,在上述深度学习分类器180的学习方法中进行说明。
然后,上述样本图像获得装置100使得至少一个复杂(difficult)图像辨别层190,(i)参照上述各个自动标签框的各个等级信息,计算与上述异常等级组的各个异常等级要素有关的概率值,(ii)利用与各个上述异常等级要素有关的上述概率值,判断上述自动标注图像是否为后述的上述复杂图像。
此时,在对上述深度学习分类器180的输出适用Sigmoid函数之后,可计算各个上述异常等级要素的各概率值。各个上述异常等级要素的各概率值可包括与上述误检测等级组的误检测等级要素的各个概率值和与上述未检测等级组的未检测等级要素有关的各个概率值。
作为一例,可将与上述误检测等级要素(FP)有关的概率值用p(bi:FP|IA,IB)表示,可将与未检测等级要素(FN)有关的概率值用p(bi:FN|IA,IB)表示。
此时,bi为上述自动框中的一个自动标签框,IA和IB分别表示上述第一图像和上述第二图像。
并且,上述样本图像获得装置100按各自动标签框对与分别与上述变形对相对应的各个上述异常等级要素有关的各个概率值进行计算,可计算上述所计算的概率值的至少一个加权平均。
即,与上述误检测等级要素有关的概率值(p(bi:FP))和与上述未检测等级要素有关的概率值(p(bi:FN))可以如下所示:
此时,与上述误检测等级要素有关的概率值(p(bi:FP))和与上述未检测等级要素有关的概率值(p(bi:FN))为与加权值有关的线性函数,因此,可通过∑jwj=1的有约束条件的约束优化(Constrained optimization)来对上述加权值进行优化。
而且,在与各个上述异常等级要素的概率值有关的至少一个广义平均(generalized mean)为预设值以上的情况下,上述样本图像获得装置100可将上述自动标注图像判断为上述复杂图像。
作为一例,上述样本图像获得装置100可通过参照各自动标签框的与上述误检测等级要素有关的各概率值(p(bi:FP))和与上述未检测等级要素有关的各概率值(p(bi:FN))并通过如下的广义平均来计算上述自动标注图像为上述复杂图像的概率值(p(I:Difficult)):
而且,在通过参照各自动标签框的与上述误检测等级要素有关的各概率值(p(bi:FP))和与上述未检测等级要素有关的各概率值(p(bi:FN))来计算的各个上述概率值(p(I:Difficult))为上述预设值以上的情况下,上述样本图像获得装置100可将上述自动标注图像判断为上述复杂图像。其中,上述复杂图像可表示为非准确自动标注的概率为上述预设值以上的图像。
此时,上述预设值可以为与在上述自动标注装置的自动标注步骤之后手动检查的上述验证图像有关的正确答案命中率中最高的命中率。
另一方面,上述自动标注图像为上述复杂图像的情况下,上述样本图像获得装置100选择上述自动标注图像作为用于检查标签的上述样本图像。
然后,上述样本图像获得装置100对选择为上述复杂图像的上述自动标注图像的与分类为上述异常等级组的上述自动标注框相对应的区域进行识别,使得检查人员易于检查。
另一方面,上述深度学习分类器180可包括多重全连接层或全卷积网络(fullyconvolutional network),以下,参照图3来说明学习上述深度学习分类器的过程。
若获得由上述自动标注网络标注的具有自动框的至少一个训练图像,则学习装置200使一个以上学习用卷积层260将上述学习用卷积层的卷积运算适用于上述训练图像来输出至少一个学习用特征地图。
此时,上述训练图像的上述自动框可以是为了学习而任意生成的,而不是通过上述自动标注网络标注的上述自动框。
并且,上述学习装置200可包括:存储器(未图示),存储用于学习上述深度学习等级分类器的指令;以及处理器(未图示),执行与存储在上述存储器的上述指令相对应的上述深度学习等级分类器有关的学习。
具体地,上述学习装置200典型地利用至少一个计算装置(例如,可包括计算机处理器、存储器、内存、输入装置及输出装置、其他现有的计算装置的结构要素的装置;路由器、开关等电子通信装置;网络附属存储(NAS)及存储区域网络(SAN)等电子信息存储系统)和至少一个计算机软件(即,使得上述计算装置以特定方式运行的指令)的组合来实现所需的系统性能。并且,上述计算装置的处理器可以包括MPU(Micro Processing Unit)或CPU(Central Processing Unit)、缓存存储器(Cache Memory)、数据总线(Data Bus)等硬件结构。并且,上述计算装置还可包括操作系统及执行特定目的的应用的软件结构。然而,不排除上述计算装置包括用于实施本发明的处理器、存储器、介质或其他计算用结构要素整合的形态的整合处理器的情况。
然后,上述学习装置200使学习用池化层270将上述学习用池化层的一个以上池化运算在上述学习用特征地图上分别适用于分别与上述自动框相对应的各个区域来输出一个以上学习用池化特征地图。
之后,上述学习装置200使上述深度学习分类器280通过输入来获得分别与上述自动框相对应的各个上述学习用池化特征地图,从而输出将上述自动框分类为上述异常等级组或上述正常等级组的上述等级信息。
此时,上述等级信息可包括具有上述误检测等级组和上述未检测等级组的上述异常等级组。而且,上述等级信息可包括二维输出。
作为一例,上述误检测等级组(FP,yi=[1,0]))可表示具有与第一特定自动框相同的等级信息的第一特定真实框不与其他真实框以上述第一预设临界值以上重叠的情况。
此时,上述误检测等级组(FP,yi=[1,0])可如
所示。
而且,上述未检测等级组(FN,yi=[0,1])可表示,在具有与第二特定真实框相同的等级信息的第二特定自动框不与其他自动框以上述第二预设临界值以上重叠的状态下,第三特定自动框与上述第二特定真实框以第三预设临界值以上重叠的情况。
此时,上述未检测等级组(FN,yi=[0,1])可如
yi=[0,1]):IoU(bi,tj)≥β所示。
作为一例,如上所述,可设定为α=0.9,β=0.5,但并不限定于此。
而且,上述正常等级组(yi=[0,0])可包括除上述误检测等级组及上述未检测等级组之外的其他等级组,可与上述对象和上述背景相对应。
另一方面,为了预防上述等级的不均衡,上述学习装置200通过管理上述误检测等级组、上述未检测等级组及上述正常等级组,使上述异常等级组中要素数量多的等级组的数量成为要素数量少的剩余等级组的数量的预设第一倍数以下,使上述正常等级组的要素数量与上述异常等级组的要素数量的预设第二倍数相同。
此时,上述学习装置200可利用随机抽样,调整上述误检测等级组(FP)的要素的数量、上述未检测等级组(FN)的要素的数量以及上述正常等级组的要素的数量。
然后,上述学习装置200使至少一个损失层233通过参照与各个上述自动框有关的上述各等级信息和与此相对应的GT(ground truth)来计算一个以上损失,从而可通过利用上述损失的反向传播来学习上述深度学习分类器180的参数中的至少一部分。
此时,上述学习装置200可利用交叉熵损失(cross-entropy loss)来执行上述反向传播。
另一方面,上述学习可以为将构成上述深度学习分类器280的神经网络内连接的两层的作为突触可塑性的加权值以减少损失的方式调整的学习。
作为一例,在利用随机梯度下降法(Stochastic Gradient Descent,SGD)来执行上述反向传播的情况下,可通过下述式来调整各个加权值:
在上述式中,lr表示学习率,C表示成本函数(Cost function)。
此时,上述成本函数可由如指导学习、非指导学习、自主学习及强化学习等学习的形式和如激活函数等因素决定。
例如,当执行用于解决多重等级(multi-class)分类问题的学习时,通常,上述激活函数和上述成本函数由Softmax函数和交叉熵函数决定。
上述Softmax函数可如所示,上述成本函数可如C=-Σjdjlog(pj)所示。
此时,pj可表示等级概率(class probability),xj和xk可分别表示向单元j的所有输入和向单元k的所有输入。而且,dj可表示与输出单元j有关的目标概率(targetprobability),pj可表示适用相应激活函数后的与上述输出单元j有关的概率输出(probability output)。
以上,作为利用上述损失的反向传播的一例,说明了上述随机梯度下降法,但本发明的范围并不限定于此,还可以使用动量梯度下降(Momentum)方式、涅斯捷罗夫梯度加速(Nesterov Accelerated Gradient,NAG)方式、自适应梯度(Adaptive Gradient,AdaGrad)方式、前向均方根梯度下降(Root Mean Square Propagation,RMSProp)方式、自适应增量(Adaptive Delta,AdaDelta)方式、自适应矩估计(Adaptive Moment Estimation,Adam)方式等来执行用于学习上述神经网络的上述反向传播。
并且,上述方法可以利用具有多个变形对的鲁棒算法(robust algorithm)执行。
通过本发明可以更加准确检测危险情况。
以上说明的本发明的实施例能够以通过各种计算机要素执行的程序命令的形态体现并存储在计算机可读存储介质。上述计算机可读存储介质可以包括程序命令、数据文件、数据结构等或它们的组合。上述计算机可读存储介质中存储的程序命令可以是为本发明特殊设计并构成的,或者可以是由计算机软件领域的普通技术人员公知使用的。计算机可读存储介质的例包括硬盘、软盘及磁带等磁介质、CD-ROM、DVD等光存储介质、光磁软盘(floptical disk)等磁光介质(magneto-optical media)、以及ROM、RAM、快闪存储器等为了存储并执行程序命令而特殊构成的硬件装置。程序命令的例包括由编译器制成的机器语言代码以及利用解析器等可由计算机执行的高级语言代码。上述硬件装置能够以一个以上软件模块运行,以便执行本发明的处理,相反情况也一样。
以上,通过限定的实施例及附图对本发明的具体结构要素等特定事项进行了说明,但这仅仅用于提供对本发明的更全面的理解,本发明并不局限于上述实施例,本发明所属领域的普通技术人员可以在这些记载的基础上进行各种修改及变形。
因此,本发明的思想并不局限于所说明的上述实施例,权利要求书及其等同或等价变换的所有内容均属于本发明的思想范畴。
Claims (26)
1.一种获得用于深度学习网络学习的至少一个自动标注图像中用于检查标签的至少一个样本图像的方法,其特征在于,包括:
步骤(a),若获得由自动标注网络标注的上述自动标注图像,则样本图像获得装置执行:(i)生成第一图像和第二图像,其中至少一个是从上述自动标注图像变形生成的,若上述第一图像和上述第二图像中只有一个是从上述自动标注图像变形生成的图像,则剩余一个原状态使用上述自动标注图像,(ii)使得一个以上卷积层,对上述第一图像和上述第二图像分别适用一个以上卷积运算,生成至少一个第一特征地图和至少一个第二特征地图,(iii)使得一个以上池化层,上述第一特征地图中对与上述自动标注图像的各个自动标注框相对应的各区域分别适用一个以上池化运算,生成各个第一池化特征地图,上述第二特征地图中对与上述自动标注图像的各个上述自动标注框相对应的各区域分别适用上述池化运算,生成各个第二池化特征地图,(iv)对与各个上述自动标注框相对应的各个上述第一池化特征地图和各个上述第二池化特征地图进行拼接,生成与各个上述自动标注框相对应的各个拼接的特征地图;
步骤(b),上述样本图像获得装置使得深度学习分类器通过输入来获得各个拼接的上述特征地图,生成将各个上述自动标注框分类为异常等级组或正常等级组的等级信息;以及
步骤(c),上述样本图像获得装置执行:(i)参照与各个上述自动标注框相关的各个上述等级信息,计算上述异常等级组的各异常等级要素的各个概率,(ii)利用各个上述异常等级要素的上述各个概率,判断上述自动标注图像是否为复杂图像,(iii)上述自动标注图像判断为上述复杂图像的情况下,选择上述自动标注图像作为用于检查标签的上述样本图像,上述复杂图像的非准确自动标注的概率为设值以上。
2.根据权利要求1所述的方法,其特征在于,
上述步骤(a)中,上述样本图像获得装置生成上述第一图像和上述第二图像时,利用一个以上变形对生成与上述自动标注图像相对应的上述第一图像和上述第二图像的至少一个图像对,上述一个以上变形对包括用于变形上述第一图像的一个以上第一函数和与此相对应的用于变形上述第二图像的第二函数,
上述步骤(c)中,上述样本图像获得装置按照各个上述自动标注框,计算与各个上述变形对相对应的各个上述异常等级要素的各个概率,并计算对于上述各个概率的至少一个加权平均。
3.根据权利要求1所述的方法,其特征在于,
上述异常等级组包括误检测等级组和未检测等级组,
各个上述异常等级要素的各个概率包括上述误检测等级组的误检测等级要素的各个概率和上述未检测等级组的未检测等级要素的各个概率。
4.根据权利要求1所述的方法,其特征在于,上述步骤(c)中,上述非准确自动标注的概率是与上述异常等级要素的各个概率有关的至少一个广义平均。
5.根据权利要求1所述的方法,其特征在于,预设值是与通过上述自动标注网络进行自动标注之后手动检查的验证图像有关的正确答案命中率中最高的命中率。
6.根据权利要求1所述的方法,其特征在于,还包括:
步骤(d),上述样本图像获得装置,在判断为上述复杂图像的上述自动标注图像中,识别与分类为上述异常等级组的上述自动标注框相对应的区域。
7.根据权利要求1所述的方法,其特征在于,各个上述卷积层是构成上述自动标注网络的至少一个自动标注卷积层。
8.根据权利要求1所述的方法,其特征在于,上述深度学习分类器包括多重全连接层或一个全卷积网络。
9.根据权利要求1所述的方法,其特征在于,上述深度学习分类器利用学习装置执行:
(i)若获得包括与上述自动标注框相对应的真实框和自动框的至少一个训练图像,(i-1)使得学习用卷积层,对上述训练图像适用上述学习用卷积层的卷积运算,生成学习用特征地图,(i-2)使得学习用池化层,上述学习用特征地图中对与上述自动框相对应的各个区域适用上述学习用池化层的池化运算,生成学习用池化特征地图;以及
(ii)通过输入来获得与各个上述自动框相对应的各个上述学习用池化特征地图,生成将上述自动框分类为上述正常等级组或上述异常等级组的上述等级信息,(iii)使得至少一个损失层,参照上述等级信息和与其相对应的一个以上真实数据计算一个以上损失,通过利用上述损失的反向传播来学习上述深度学习分类器的参数中的至少一部分。
10.根据权利要求9所述的方法,其特征在于,上述等级信息包括具有误检测等级组和未检测等级组的上述异常等级组,
(i)上述误检测等级组表示具有与第一特定自动框相同的等级信息的第一特定真实框不与其他任意真实框以第一预设临界值以上重叠的情况,(ii)上述未检测等级组表示具有与第二特定真实框相同的等级信息的第二特定自动框不与其他任意自动框以第二预设临界值以上重叠的状态下,第三特定自动框与上述第二特定真实框以第三预设临界值以上重叠的情况,上述正常等级组包括除上述误检测等级组和上述未检测等级组之外的所有等级组。
11.根据权利要求10所述的方法,其特征在于,上述学习装置通过管理上述误检测等级组、上述未检测等级组及上述正常等级组,使得上述异常等级组中要素数量多的等级组的数量成为要素数量少的剩余等级组的数量的预设第一倍数以下,使上述正常等级组的要素数量与上述异常等级组的要素数量的预设第二倍数相同。
12.根据权利要求10所述的方法,其特征在于,上述学习装置利用随机抽样,调整上述误检测等级组的要素的数量、上述未检测等级组的要素的数量及上述正常等级组的要素的数量。
13.根据权利要求9所述的方法,其特征在于,上述学习装置利用交叉熵损失来执行上述反向传播。
14.一种获得用于深度学习网络学习的至少一个自动标注图像中用于检查标签的至少一个样本图像的样本图像获得装置,其特征在于,
包括:
至少一个存储器,用于存储指令;以及
至少一个处理器,执行上述指令来执行步骤(I)、步骤(II)及步骤(III),
步骤(I),若获得由自动标注网络标注的上述自动标注图像,则执行:(i)生成第一图像和第二图像,其中至少一个是从上述自动标注图像变形生成的,若上述第一图像和上述第二图像中只有一个是从上述自动标注图像变形生成的图像,则剩余一个原状态使用上述自动标注图像,(ii)使得一个以上卷积层,对上述第一图像和上述第二图像分别适用一个以上卷积运算,生成至少一个第一特征地图和至少一个第二特征地图,(iii)使得一个以上池化层,上述第一特征地图中对与上述自动标注图像的各个自动标注框相对应的各区域分别适用一个以上池化运算,生成各个第一池化特征地图,上述第二特征地图中对与上述自动标注图像的各个上述自动标注框相对应的各区域分别适用上述池化运算,生成各个第二池化特征地图,(iv)对与各个上述自动标注框相对应的各个上述第一池化特征地图和各个上述第二池化特征地图进行拼接,生成与各个上述自动标注框相对应的各个拼接的特征地图;
步骤(II),使得深度学习分类器通过输入来获得各个拼接的上述特征地图,生成将各个上述自动标注框分类为异常等级组或正常等级组的等级信息;以及
步骤(III),(i)参照与各个上述自动标注框相关的各个上述等级信息,计算上述异常等级组的各异常等级要素的各个概率,(ii)利用各个上述异常等级要素的上述各个概率判断上述自动标注图像是否为复杂图像,(iii)上述自动标注图像判断为上述复杂图像的情况下,选择上述自动标注图像作为用于检查标签的上述样本图像,上述复杂图像的非准确自动标注的概率为设值以上。
15.根据权利要求14所述的样本图像获得装置,其特征在于,
上述步骤(I)中,上述处理器生成上述第一图像和上述第二图像时,利用一个以上变形对生成与上述自动标注图像相对应的上述第一图像和上述第二图像的至少一个图像对,上述一个以上变形对包括用于变形上述第一图像的一个以上第一函数和与此相对应的用于变形上述第二图像的第二函数,
上述步骤(III)中,上述处理器按照各个上述自动标注框,计算与各个上述变形对相对应的各个上述异常等级要素的各个概率,并计算对于上述各个概率的至少一个加权平均。
16.根据权利要求14所述的样本图像获得装置,其特征在于,
上述异常等级组包括误检测等级组和未检测等级组,
各个上述异常等级要素的各个概率包括上述误检测等级组的误检测等级要素的各个概率和上述未检测等级组的未检测等级要素的各个概率。
17.根据权利要求14所述的样本图像获得装置,其特征在于,
上述步骤(c)中,上述非准确自动标注的概率是与上述异常等级要素的各个概率有关的至少一个广义平均。
18.根据权利要求14所述的样本图像获得装置,其特征在于,预设值是与通过上述自动标注网络进行自动标注之后手动检查的验证图像有关的正确答案命中率中最高的命中率。
19.根据权利要求14所述的样本图像获得装置,其特征在于,上述处理器还执行:
步骤(IV),在判断为上述复杂图像的上述自动标注图像中,识别与分类为上述异常等级组的上述自动标注框相对应的区域。
20.根据权利要求14所述的样本图像获得装置,其特征在于,各个上述卷积层是构成上述自动标注网络的至少一个自动标注卷积层。
21.根据权利要求14所述的样本图像获得装置,其特征在于,上述深度学习分类器包括多重全连接层或一个全卷积网络。
22.根据权利要求14所述的样本图像获得装置,其特征在于,上述深度学习分类器利用学习装置执行:
(i)若获得包括与上述自动标注框相对应的真实框和自动框的至少一个训练图像,(i-1)使得学习用卷积层,对上述训练图像适用上述学习用卷积层的卷积运算,生成学习用特征地图,(i-2)使得学习用池化层,上述学习用特征地图中对与上述自动框相对应的各个区域适用上述学习用池化层的池化运算,生成学习用池化特征地图;以及
(ii)通过输入来获得与各个上述自动框相对应的各个上述学习用池化特征地图,生成将上述自动框分类为上述正常等级组或上述异常等级组的上述等级信息,(iii)使得至少一个损失层,参照上述等级信息和与其相对应的一个以上真实数据计算一个以上损失,通过利用上述损失的反向传播来学习上述深度学习分类器的参数中的至少一部分。
23.根据权利要求22所述的样本图像获得装置,其特征在于,上述等级信息包括具有误检测等级组和未检测等级组的上述异常等级组,
(i)上述误检测等级组表示具有与第一特定自动框相同的等级信息的第一特定真实框不与其他任意真实框以第一预设临界值以上重叠的情况,(ii)上述未检测等级组表示具有与第二特定真实框相同的等级信息的第二特定自动框不与其他任意自动框以第二预设临界值以上重叠的状态下,第三特定自动框与上述第二特定真实框以第三预设临界值以上重叠的情况,上述正常等级组包括除上述误检测等级组和上述未检测等级组之外的所有等级组。
24.根据权利要求23所述的样本图像获得装置,其特征在于,上述学习装置通过管理上述误检测等级组、上述未检测等级组及上述正常等级组,使得上述异常等级组中要素数量多的等级组的数量成为要素数量少的剩余等级组的数量的预设第一倍数以下,使上述正常等级组的要素数量与上述异常等级组的要素数量的预设第二倍数相同。
25.根据权利要求23所述的样本图像获得装置,其特征在于,上述学习装置利用随机抽样,调整上述误检测等级组的要素的数量、上述未检测等级组的要素的数量及上述正常等级组的要素的数量。
26.根据权利要求22所述的样本图像获得装置,其特征在于,上述学习装置利用交叉熵损失来执行上述反向传播。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/262,142 | 2019-01-30 | ||
US16/262,142 US10373027B1 (en) | 2019-01-30 | 2019-01-30 | Method for acquiring sample images for inspecting label among auto-labeled images to be used for learning of neural network and sample image acquiring device using the same |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111507370A CN111507370A (zh) | 2020-08-07 |
CN111507370B true CN111507370B (zh) | 2023-10-13 |
Family
ID=67477578
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010056900.3A Active CN111507370B (zh) | 2019-01-30 | 2020-01-16 | 获得自动标注图像中检查标签的样本图像的方法和装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10373027B1 (zh) |
EP (1) | EP3690714B1 (zh) |
JP (1) | JP6855091B2 (zh) |
KR (1) | KR102263397B1 (zh) |
CN (1) | CN111507370B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108399382A (zh) * | 2018-02-13 | 2018-08-14 | 阿里巴巴集团控股有限公司 | 车险图像处理方法和装置 |
US11922314B1 (en) * | 2018-11-30 | 2024-03-05 | Ansys, Inc. | Systems and methods for building dynamic reduced order physical models |
CN111291755B (zh) * | 2020-02-13 | 2022-11-15 | 腾讯科技(深圳)有限公司 | 对象检测模型训练及对象检测方法、装置、计算机设备和存储介质 |
CN111832406B (zh) * | 2020-06-05 | 2022-12-06 | 中国科学院计算技术研究所 | 一种长尾目标检测方法与系统 |
CN111814582B (zh) * | 2020-06-15 | 2022-06-28 | 开易(北京)科技有限公司 | 一种用于驾驶员行为监测图像的处理方法及装置 |
CN111753729B (zh) * | 2020-06-24 | 2022-06-24 | 西安深信科创信息技术有限公司 | 一种假脸检测方法、装置、电子设备及存储介质 |
CN112464846B (zh) * | 2020-12-03 | 2024-04-02 | 武汉理工大学 | 一种车站货运列车车厢异常故障的自动识别方法 |
CN112598058A (zh) * | 2020-12-22 | 2021-04-02 | 深延科技(北京)有限公司 | 一种自动化深度学习方法、装置及存储介质 |
CN112906811B (zh) * | 2021-03-09 | 2023-04-18 | 西安电子科技大学 | 基于物联网架构的工程车载设备图像自动分类方法 |
CN113436138B (zh) * | 2021-03-31 | 2023-07-21 | 成都飞机工业(集团)有限责任公司 | 一种基于数字图像的航空结构件识别的图像预处理方法 |
US20220383037A1 (en) * | 2021-05-27 | 2022-12-01 | Adobe Inc. | Extracting attributes from arbitrary digital images utilizing a multi-attribute contrastive classification neural network |
CN113870230B (zh) * | 2021-09-30 | 2022-08-02 | 湖南大学 | 一种基于混合监督学习的表面异常检测方法 |
JP7343646B1 (ja) | 2022-03-30 | 2023-09-12 | 本田技研工業株式会社 | 教師データの収集方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015177268A1 (en) * | 2014-05-23 | 2015-11-26 | Ventana Medical Systems, Inc. | Systems and methods for detection of biological structures and/or patterns in images |
CN106599773A (zh) * | 2016-10-31 | 2017-04-26 | 清华大学 | 用于智能驾驶的深度学习图像识别方法、系统及终端设备 |
CN108805188A (zh) * | 2018-05-29 | 2018-11-13 | 徐州工程学院 | 一种基于特征重标定生成对抗网络的图像分类方法 |
Family Cites Families (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4132229B2 (ja) * | 1998-06-03 | 2008-08-13 | 株式会社ルネサステクノロジ | 欠陥分類方法 |
JP4742193B2 (ja) * | 2009-04-28 | 2011-08-10 | Necソフト株式会社 | 年齢推定装置、年齢推定方法及びプログラム |
JP2011158373A (ja) * | 2010-02-02 | 2011-08-18 | Dainippon Screen Mfg Co Ltd | 自動欠陥分類のための教師データ作成方法、自動欠陥分類方法および自動欠陥分類装置 |
US9418319B2 (en) * | 2014-11-21 | 2016-08-16 | Adobe Systems Incorporated | Object detection using cascaded convolutional neural networks |
US10410096B2 (en) * | 2015-07-09 | 2019-09-10 | Qualcomm Incorporated | Context-based priors for object detection in images |
JP6596260B2 (ja) | 2015-08-19 | 2019-10-23 | 株式会社Screenホールディングス | 教示支援方法および画像分類方法 |
US9767381B2 (en) * | 2015-09-22 | 2017-09-19 | Xerox Corporation | Similarity-based detection of prominent objects using deep CNN pooling layers as features |
US9965705B2 (en) * | 2015-11-03 | 2018-05-08 | Baidu Usa Llc | Systems and methods for attention-based configurable convolutional neural networks (ABC-CNN) for visual question answering |
US20170124409A1 (en) * | 2015-11-04 | 2017-05-04 | Nec Laboratories America, Inc. | Cascaded neural network with scale dependent pooling for object detection |
US9965719B2 (en) * | 2015-11-04 | 2018-05-08 | Nec Corporation | Subcategory-aware convolutional neural networks for object detection |
US10002313B2 (en) * | 2015-12-15 | 2018-06-19 | Sighthound, Inc. | Deeply learned convolutional neural networks (CNNS) for object localization and classification |
US9858496B2 (en) * | 2016-01-20 | 2018-01-02 | Microsoft Technology Licensing, Llc | Object detection and classification in images |
CN108475331B (zh) * | 2016-02-17 | 2022-04-05 | 英特尔公司 | 用于对象检测的方法、装置、系统和计算机可读介质 |
JP6573233B2 (ja) | 2016-07-19 | 2019-09-11 | 日本電信電話株式会社 | 認識容易性指標算出装置、方法、及びプログラム |
US10354362B2 (en) * | 2016-09-08 | 2019-07-16 | Carnegie Mellon University | Methods and software for detecting objects in images using a multiscale fast region-based convolutional neural network |
US10387740B2 (en) * | 2016-10-10 | 2019-08-20 | Gyrfalcon Technology Inc. | Object detection and recognition apparatus based on CNN based integrated circuits |
US10198671B1 (en) * | 2016-11-10 | 2019-02-05 | Snap Inc. | Dense captioning with joint interference and visual context |
US10621747B2 (en) * | 2016-11-15 | 2020-04-14 | Magic Leap, Inc. | Deep learning system for cuboid detection |
US20180211403A1 (en) * | 2017-01-20 | 2018-07-26 | Ford Global Technologies, Llc | Recurrent Deep Convolutional Neural Network For Object Detection |
EP3573520A4 (en) * | 2017-01-27 | 2020-11-04 | Arterys Inc. | AUTOMATED SEGMENTATION USING FULLY CONVOLUTIVE NETWORKS |
US10346724B2 (en) * | 2017-06-22 | 2019-07-09 | Waymo Llc | Rare instance classifiers |
US10474908B2 (en) * | 2017-07-06 | 2019-11-12 | GM Global Technology Operations LLC | Unified deep convolutional neural net for free-space estimation, object detection and object pose estimation |
JP7149692B2 (ja) * | 2017-08-09 | 2022-10-07 | キヤノン株式会社 | 画像処理装置、画像処理方法 |
US11531830B2 (en) * | 2017-08-14 | 2022-12-20 | Tata Consultancy Services Limited | Synthetic rare class generation by preserving morphological identity |
US10169679B1 (en) * | 2017-10-13 | 2019-01-01 | StradVision, Inc. | Learning method and learning device for adjusting parameters of CNN by using loss augmentation and testing method and testing device using the same |
US10223610B1 (en) * | 2017-10-15 | 2019-03-05 | International Business Machines Corporation | System and method for detection and classification of findings in images |
US10007865B1 (en) * | 2017-10-16 | 2018-06-26 | StradVision, Inc. | Learning method and learning device for adjusting parameters of CNN by using multi-scale feature maps and testing method and testing device using the same |
JP7117934B2 (ja) * | 2018-08-07 | 2022-08-15 | 日本放送協会 | 画像分類装置及びプログラム |
US10229346B1 (en) * | 2018-09-04 | 2019-03-12 | StradVision, Inc. | Learning method, learning device for detecting object using edge image and testing method, testing device using the same |
US10223614B1 (en) * | 2018-09-04 | 2019-03-05 | StradVision, Inc. | Learning method, learning device for detecting lane through classification of lane candidate pixels and testing method, testing device using the same |
-
2019
- 2019-01-30 US US16/262,142 patent/US10373027B1/en active Active
- 2019-11-15 KR KR1020190147098A patent/KR102263397B1/ko active IP Right Grant
-
2020
- 2020-01-15 EP EP20151988.1A patent/EP3690714B1/en active Active
- 2020-01-15 JP JP2020004613A patent/JP6855091B2/ja active Active
- 2020-01-16 CN CN202010056900.3A patent/CN111507370B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015177268A1 (en) * | 2014-05-23 | 2015-11-26 | Ventana Medical Systems, Inc. | Systems and methods for detection of biological structures and/or patterns in images |
CN106599773A (zh) * | 2016-10-31 | 2017-04-26 | 清华大学 | 用于智能驾驶的深度学习图像识别方法、系统及终端设备 |
CN108805188A (zh) * | 2018-05-29 | 2018-11-13 | 徐州工程学院 | 一种基于特征重标定生成对抗网络的图像分类方法 |
Non-Patent Citations (1)
Title |
---|
Decoupled Classification Refinement: Hard False Positive Suppression for Object Detection;Bowen Cheng等;《ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853》;第1-16页,图1-5 * |
Also Published As
Publication number | Publication date |
---|---|
EP3690714C0 (en) | 2023-12-06 |
JP6855091B2 (ja) | 2021-04-07 |
KR20200094622A (ko) | 2020-08-07 |
US10373027B1 (en) | 2019-08-06 |
JP2020123330A (ja) | 2020-08-13 |
CN111507370A (zh) | 2020-08-07 |
EP3690714B1 (en) | 2023-12-06 |
KR102263397B1 (ko) | 2021-06-11 |
EP3690714A1 (en) | 2020-08-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111507370B (zh) | 获得自动标注图像中检查标签的样本图像的方法和装置 | |
CN111507469B (zh) | 对自动标注装置的超参数进行优化的方法和装置 | |
JP6932395B2 (ja) | イメージを分析するために、ディープラーニングネットワークに利用するためのトレーニングイメージに対するラベルリング信頼度を自動的に評価するための方法、及びこれを利用した信頼度評価装置 | |
US10546242B2 (en) | Image analysis neural network systems | |
CN111507335A (zh) | 自动标注利用于深度学习网络的训练图像的方法和装置 | |
CN111488789A (zh) | 用于基于图像分析的监视的行人检测方法及装置 | |
US11586855B2 (en) | Method for determining a confidence value of a detected object | |
CN111126134B (zh) | 基于非指纹信号消除器的雷达辐射源深度学习识别方法 | |
CN110569738A (zh) | 基于密集连接网络的自然场景文本检测方法、设备和介质 | |
CN111461213A (zh) | 一种目标检测模型的训练方法、目标快速检测方法 | |
CN107832789B (zh) | 基于平均影响值数据变换的特征加权k近邻故障诊断方法 | |
CN113139594A (zh) | 一种机载图像无人机目标自适应检测方法 | |
CN111079348B (zh) | 一种缓变信号检测方法和装置 | |
CN111104831A (zh) | 一种视觉追踪方法、装置、计算机设备以及介质 | |
US11531832B2 (en) | Method for determining a confidence value of an object of a class | |
CN112085001A (zh) | 一种基于多尺度边缘特征检测的隧道识别模型及方法 | |
CN112464966A (zh) | 鲁棒性估计方法、数据处理方法和信息处理设备 | |
CN114863210A (zh) | 桥梁结构健康监测数据驱动模型的对抗样本攻击方法及系统 | |
CN111291624B (zh) | 一种挖掘机目标识别方法及系统 | |
CN118212543A (zh) | 一种双边融合及轻量化网络改进的辐射异常目标检测方法 | |
CN114743060A (zh) | 一种稀土元素组分含量预测方法和系统 | |
CN117541535A (zh) | 一种基于深度卷积神经网络的输电线路巡检图像检测方法 | |
CN115953618A (zh) | 一种通过特征解耦实现无监督域自适应图像分类的方法 | |
CN118351413A (zh) | 用于小样本红外目标检测的二阶池化注意力特征增强方法 | |
CN117152550A (zh) | 一种面向自动驾驶系统的神经元覆盖引导式测试方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |