CN111507983A - 利用周边汽车的图像自动标注基础汽车的图像的方法及装置 - Google Patents
利用周边汽车的图像自动标注基础汽车的图像的方法及装置 Download PDFInfo
- Publication number
- CN111507983A CN111507983A CN202010069132.5A CN202010069132A CN111507983A CN 111507983 A CN111507983 A CN 111507983A CN 202010069132 A CN202010069132 A CN 202010069132A CN 111507983 A CN111507983 A CN 111507983A
- Authority
- CN
- China
- Prior art keywords
- sub
- learning
- nth
- image
- feature map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 149
- 238000002372 labelling Methods 0.000 title claims abstract description 59
- 230000002093 peripheral effect Effects 0.000 title claims abstract description 24
- 230000000873 masking effect Effects 0.000 claims abstract description 47
- 230000011218 segmentation Effects 0.000 claims abstract description 37
- 238000012360 testing method Methods 0.000 claims description 331
- 238000012549 training Methods 0.000 claims description 105
- 230000015654 memory Effects 0.000 claims description 21
- 238000010586 diagram Methods 0.000 claims description 20
- 238000010998 test method Methods 0.000 claims description 11
- 238000013507 mapping Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 5
- 230000004927 fusion Effects 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/174—Segmentation; Edge detection involving the use of two or more images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/187—Segmentation; Edge detection involving region growing; involving region merging; involving connected component labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
- G06F18/2178—Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor
- G06F18/2185—Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor the supervisor being an automated module, e.g. intelligent oracle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration using local operators
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30248—Vehicle exterior or interior
- G06T2207/30252—Vehicle exterior; Vicinity of vehicle
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明是利用周边汽车的图像自动标注基础汽车的图像的方法及装置。本发明提供一种学习利用周边汽车的子图像来自动标注基础汽车的基础图像的自动标注装置的方法。所述方法包括:学习装置将所述基础图像和所述子图像输入已学习密集对应网络,从而生成密集对应的步骤;将所述基础图像和所述子图像输入编码器,从而输出卷积特征图,将所述卷积特征图输入解码器,从而输出反卷积特征图的步骤;利用第k(k为1至n的整数)密集对应信息,使第(k+1)反卷积特征图的坐标移动,生成第k调整反卷积特征图的步骤;将第一反卷积特征图和调整反卷积特征图进行级联,生成级联的特征图的步骤;及将所述级联的特征图输入掩蔽层,从而输出语义分割图像的步骤。
Description
技术领域
本发明涉及自动标注图像的方法及装置,更详细而言,涉及一种对利用周边汽车的图像来自动标注基础汽车的图像的自动标注装置进行学习的学习方法及学习装置以及利用其的测试方法及测试装置。
背景技术
最近,有很多利用机器学习对执行物体识别及与之相同内容的方法进行的研究。作为这种机器学习方法之一,在输入层与输出层之间具有多个隐藏(hidden)层的神经网络的深度学习,具有高识别性能。
而且,利用这种深度学习的神经网络,一般通过利用了损失(loss)的反向传播进行学习。
为了执行深度学习网络的这种学习,需要借助于标注工具(labeler)而在个别数据点追加了标签的训练数据。准备这种训练数据(即,准确地分类数据)需利用大量的训练数据,在数据预先准备的质量不能一贯保持良好的情况下,是非常劳动密集型的工作,费用高且麻烦。以往的交互式标注在经济方面费用高昂,难以导出良好结果。
因此,最近普遍使用自动标注,利用基于深度学习的自动标注装置在训练图像中追加标签,即追加标注,检验者检验自动标注的训练图像并补正标签或标注。
但是,在这种以往方法中,与自动标注装置的处理量相比,检验者的处理量低,对全体训练图像生成准确的标注需要较长时间。为了提高整体处理量,需增加检验者数量,但在这种情况下,存在费用增加的问题。
另外,为了消化自动标注装置的处理量,需要相应地确保充分熟练的众多检验者,这方面也存在困难。
发明内容
本发明的目的在于解决上述问题。
本发明另一目的在于实时自动标注基础汽车行驶中获得的至少一个基础图像。
本发明又一目的在于,在基础汽车和周边汽车行驶中,将从基础汽车获得的基础图像和从一个以上周边汽车获得的一个以上的子图像统合,从而对统合的图像进行自动标注。
本发明的目的是通过以下技术方案实现的:
根据本发明的一个方面,提供一种对利用周边汽车的图像来自动标注基础汽车的图像的自动标注装置进行学习的方法,其特征在于,包括:(a)步骤,获得所述基础汽车的至少一个基础图像和一个以上周边汽车各自的第一子图像至第n子图像后,其中n为大于0的整数,学习装置执行流程,即将所述基础图像和各个所述第一子图像至所述第n子图像分别输入各个第一已学习密集对应网络至第n已学习密集对应网络,从而使所述第一至所述第n已学习密集对应网络,分别生成各自的第一密集对应信息至第n密集对应信息,其中,当各个所述第一子图像的密集至所述第n子图像的密集移动到所述基础图像时,各个所述第一密集对应信息至所述第n密集对应信息表示所述第一子图像的密集至所述第n子图像的密集分别在所述基础图像上的各自的位置;(b)步骤,所述学习装置执行:(i)流程,将所述基础图像和各个所述第一子图像至所述第n子图像分别输入各个第一编码器至第(n+1)编码器,从而使各个所述第一编码器至所述第(n+1)编码器,对所述基础图像和各个所述第一子图像至所述第n子图像分别施加至少一个卷积运算,分别输出第一卷积特征图至第(n+1)卷积特征图,(ii)流程,将各个所述第一卷积特征图至所述第(n+1)卷积特征图输入各个第一解码器至第(n+1)解码器,从而使各个所述第一解码器至所述第(n+1)解码器,对各个所述第一卷积特征图至所述第(n+1)卷积特征图分别施加至少一个反卷积运算,分别输出第一反卷积特征图至第(n+1)反卷积特征图,(iii)流程,参照第k密集对应信息,k为1至n的整数,使第(k+1)反卷积特征图的坐标移动到所述第一反卷积特征图的坐标,生成第k调整反卷积特征图,从而生成第一调整反卷积特征图至第n调整反卷积特征图,及(iv)流程,将所述第一反卷积特征图与所述第一调整反卷积特征图至所述第n调整反卷积特征图进行级联,生成至少一个级联特征图;及(c)步骤,所述学习装置执行流程:将所述级联特征图输入掩蔽层,从而使所述掩蔽层,对所述级联特征图施加至少一个掩蔽运算,生成至少一个语义分割图像;使第一损失层,参照所述语义分割图像和与之对应的至少一个分割地面真值GT,计算一个以上的第一损失,通过利用所述第一损失的反向传播更新所述第一解码器至所述第(n+1)解码器的各个加权值及所述第一编码器至所述第(n+1)编码器的各个加权值,以使所述第一损失最小化。
在一个实施例中,所述学习装置使各个所述第一至所述第n已学习密集对应网络执行:(i)流程,将所述基础图像分别输入与各个所述第一至所述第n已学习密集对应网络对应的各个第一子编码器,从而使各个所述第一子编码器对所述基础图像施加所述卷积运算而分别生成各自的第一子卷积特征图;(ii)流程,将各个所述第一至所述第n子图像分别输入与各个所述第一至所述第n已学习密集对应网络对应的各个第二子编码器,从而使各个所述第二子编码器对各个所述第一至所述第n子图像分别施加所述卷积运算而分别生成各自的第二子卷积特征图;(iii)流程,将各个所述第一子卷积特征图与各个所述第二子卷积特征图进行级联,从而生成各个所述第一至所述第n子级联特征图;(iv)将各个所述第一至所述第n子级联特征图分别输入与各个所述第一至所述第n已学习密集对应网络对应的各个子解码器,从而使各个所述子解码器,对各个所述第一至所述第n子级联特征图分别施加所述反卷积运算,分别生成各自的第一至第n子反卷积特征图;及(v)流程,将各个所述第一至所述第n子反卷积特征图,分别输入与各个所述第一至所述第n已学习密集对应网络对应的各个回归器,从而使各个所述回归器对各个所述第一至所述第n密集对应信息分别施加至少一个回归运算,输出各个所述第一至所述第n密集对应信息。
在一个实施例中,各个所述第一至所述第n已学习密集对应网络借助于子学习装置进行学习,以便分别输出各个所述第一至所述第n密集对应信息,即,获得至少一个第一训练图像及至少一个第二训练图像后,所述子学习装置执行:(i)流程,将所述第一训练图像输入各个所述第一子编码器,从而使各个所述第一子编码器对所述第一训练图像分别施加所述卷积运算,分别生成各个学习用第一子卷积特征图;(ii)流程,将所述第二训练图像输入各个所述第二子编码器,从而使各个所述第二子编码器对所述第二训练图像施加所述卷积运算,分别生成各个学习用第二子卷积特征图;(iii)将各个所述学习用第一子卷积特征图与各个所述学习用第二子卷积特征图进行级联,从而生成各个学习用子级联特征图;(iv)流程,将各个所述学习用子级联特征图分别输入各个所述子解码器,从而使各个所述子解码器,对所述学习用子级联特征图分别施加所述反卷积运算,分别生成各个学习用子反卷积特征图;(v)流程,将各个所述学习用子反卷积特征图输入到各个所述回归器,从而使各个所述回归器分别输出各个学习用密集对应信息,所述学习用密集对应信息表示当所述第二训练图像的密集移动到所述第一训练图像时,所述第二训练图像的密集分别在所述第一训练图像上的各自的位置;及(vi)流程,使第二损失层参照所述学习用密集对应信息和密集对应GT,计算一个以上的第二损失,通过利用所述第二损失的反向传播,更新各个所述子解码器的子解码器加权值、各个所述第一子编码器及所述第二子编码器的子编码器加权值。
在一个实施例中,各个所述第一子编码器和各个所述第二子编码器共享子编码器加权值。
在一个实施例中,各个所述第一至所述第n密集对应信息包括表示各个所述第一至所述第n子图像的各个像素与所述基础图像的哪个像素对应的信息。
在一个实施例中,在各个所述第一至所述第n子图像的各个像素不与所述基础图像的任何像素对应时,各个所述第一至所述第n密集对应信息包括与所述基础图像的至少一个外侧拓展区域的至少一个位置对应的信息。
在一个实施例中,所述第一编码器至所述第(n+1)编码器共享编码器加权值,所述第一解码器至所述第(n+1)解码器共享解码器加权值。
根据本发明的另一个方面,提供一种对利用周边汽车的图像来自动标注基础汽车的图像的自动标注装置进行测试的方法,其特征在于,包括:(a)步骤,在学习装置执行了:(1)流程,获得所述学习用基础汽车的至少一个学习用基础图像和一个以上学习用周边汽车各自的学习用第一子图像至学习用第n子图像后,n为大于0的整数,将所述学习用基础图像和各个所述学习用第一子图像至所述学习用第n子图像分别输入各个第一已学习密集对应网络至第n已学习密集对应网络,从而使所述第一至所述第n已学习密集对应网络分别生成各个学习用第一密集对应信息至学习用第n密集对应信息,所述各个学习用第一密集对应信息至学习用第n密集对应信息表示当各个所述学习用第一子图像的密集至所述学习用第n子图像的密集移动到所述学习用基础图像时,所述学习用第一子图像的密集至所述学习用第n子图像的密集分别在所述学习用基础图像上的各自的位置;(2)(i)流程,将所述学习用基础图像和各个所述学习用第一子图像至所述学习用第n子图像分别输入各个第一编码器至第(n+1)编码器,从而使各个所述第一编码器至所述第(n+1)编码器对所述学习用基础图像和各个所述学习用第一子图像至所述学习用第n子图像分别施加至少一个卷积运算,分别输出学习用第一卷积特征图至学习用第(n+1)卷积特征图,(ii)流程,将各个所述学习用第一卷积特征图至所述学习用第(n+1)卷积特征图输入各个第一解码器至第(n+1)解码器,从而使各个所述第一解码器至所述第(n+1)解码器对各个所述学习用第一卷积特征图至所述学习用第(n+1)卷积特征图分别施加至少一个反卷积运算,分别输出学习用第一反卷积特征图至学习用第(n+1)反卷积特征图,(iii)流程,参照学习用第k密集对应信息,k为1至n的整数,使学习用第(k+1)反卷积特征图的坐标移动到所述学习用第一反卷积特征图的坐标,生成学习用第k调整反卷积特征图,从而生成学习用第一调整反卷积特征图至学习用第n调整反卷积特征图,及(iv)流程,将所述学习用第一反卷积特征图与所述学习用第一调整反卷积特征图至所述学习用第n调整反卷积特征图进行级联,生成至少一个学习用级联特征图;及(3)流程,将所述学习用级联特征图输入掩蔽层,从而使所述掩蔽层对所述学习用级联特征图施加至少一个掩蔽运算,输出至少一个学习用语义分割图像,使第一损失层,参照所述学习用语义分割图像和与之对应的至少一个分割GT,计算一个以上的第一损失,通过利用所述第一损失的反向传播更新所述第一解码器至所述第(n+1)解码器的各个加权值及所述第一编码器至所述第(n+1)编码器的各个加权值,以使所述第一损失最小化;的状态下,测试装置执行如下流程:获得所述测试用基础汽车的至少一个测试用基础图像和一个以上的测试用周边汽车各自的测试用第一子图像至测试用第n子图像后,n为大于0的整数,将所述测试用基础图像和各个所述测试用第一子图像至所述测试用第n子图像分别输入各个所述第一已学习密集对应网络至所述第n已学习密集对应网络,从而使所述第一至所述第n已学习密集对应网络,分别生成各个测试用第一密集对应信息至测试用第n密集对应信息,所述各个测试用第一密集对应信息至测试用第n密集对应信息表示各个所述测试用第一子图像的密集至所述测试用第n子图像的密集移动到所述测试用基础图像时,所述测试用第一子图像的密集至所述测试用第n子图像的密集分别在所述测试用基础图像上的各自位置;(b)步骤,所述测试装置执行:(i)流程,将所述测试用基础图像和各个所述测试用第一子图像至所述测试用第n子图像分别输入各个第一编码器至第(n+1)编码器,从而使各个所述第一编码器至所述第(n+1)编码器对所述测试用基础图像和各个所述测试用第一子图像至所述测试用第n子图像分别施加所述卷积运算,分别输出测试用第一卷积特征图至测试用第(n+1)卷积特征图,(ii)流程,将各个所述测试用第一卷积特征图至所述测试用第(n+1)卷积特征图输入各个第一解码器至第(n+1)解码器,从而使各个所述第一解码器至所述第(n+1)解码器,对各个所述测试用第一卷积特征图至所述测试用第(n+1)卷积特征图分别施加所述反卷积运算,分别输出测试用第一反卷积特征图至测试用第(n+1)反卷积特征图,(iii)流程,参照测试用第k密集对应信息,k为1至n的整数,使测试用第(k+1)反卷积特征图的坐标移动到所述测试用第一反卷积特征图的坐标,生成测试用第k调整反卷积特征图,从而生成测试用第一调整反卷积特征图至测试用第n调整反卷积特征图,及(iv)流程,将所述测试用第一反卷积特征图与所述测试用第一调整反卷积特征图至所述测试用第n调整反卷积特征图进行级联,生成至少一个测试用级联特征图;(c)步骤,所述测试装置执行将所述测试用级联特征图输入所述掩蔽层,从而使所述掩蔽层对所述测试用级联特征图施加所述掩蔽运算,输出至少一个测试用语义分割图像。
在一个实施例中,所述测试装置使各个所述第一至所述第n已学习密集对应网络,执行:(i)流程,将所述测试用基础图像分别输入与各个所述第一至所述第n已学习密集对应网络对应的各个第一子编码器,从而使各个所述第一子编码器,对所述测试用基础图像施加所述卷积运算,分别生成各个测试用第一子卷积特征图;(ii)流程,将各个所述测试用第一至所述测试用第n子图像分别输入与各个所述第一至所述第n已学习密集对应网络对应的各个第二子编码器,从而使各个所述第二子编码器对各个所述测试用第一至所述测试用第n子图像分别施加所述卷积运算,分别生成各个测试用第二子卷积特征图;(iii)流程,将各个所述测试用第一子卷积特征图与各个所述测试用第二子卷积特征图进行级联,从而生成各个所述测试用第一至所述测试用第n子级联特征图;(iv)流程,将各个所述测试用第一至所述测试用第n子级联特征图分别输入与各个所述第一至所述第n已学习密集对应网络对应的各个子解码器,从而使各个所述子解码器对各个所述测试用第一至所述测试用第n子级联特征图分别施加所述反卷积运算,分别生成各个测试用第一至测试用第n子反卷积特征图;及(v)流程,将各个所述测试用第一至所述测试用第n子反卷积特征图分别输入与各个所述第一至所述第n已学习密集对应网络对应的各个回归器,从而使各个所述回归器对各个所述测试用第一至所述测试用第n密集对应信息分别施加至少一个回归运算,输出各个所述测试用第一至所述测试用第n密集对应信息。
在一个实施例中,各个所述第一至所述第n已学习密集对应网络借助于子学习装置进行学习,以便分别输出各个所述测试用第一至所述测试用第n密集对应信息,即,获得至少一个第一训练图像及至少一个第二训练图像后,所述子学习装置执行:(i)流程,将所述第一训练图像输入各个所述第一子编码器,从而使各个所述第一子编码器对所述第一训练图像分别施加所述卷积运算,分别生成各个学习用第一子卷积特征图;(ii)流程,将所述第二训练图像输入各个所述第二子编码器,从而使各个所述第二子编码器对所述第二训练图像施加所述卷积运算,分别生成各个学习用第二子卷积特征图;(iii)将各个所述学习用第一子卷积特征图与各个所述学习用第二子卷积特征图进行级联,从而生成各个学习用子级联特征图;(iv)流程,将各个所述学习用子级联特征图分别输入各个所述子解码器,从而使各个所述子解码器对所述学习用子级联特征图分别施加所述反卷积运算,分别生成各个学习用子反卷积特征图;(v)流程,将各个所述学习用子反卷积特征图输入到各个所述回归器,从而使各个所述回归器分别输出各个学习用密集对应信息,所述各个学习用密集对应信息表示当所述第二训练图像的密集移动到所述第一训练图像时,所述第二训练图像的密集分别在各个所述第一训练图像上各自的位置;及(vi)流程,使第二损失层,参照所述学习用密集对应信息和密集对应GT,计算一个以上的第二损失,通过利用所述第二损失的反向传播,更新各个所述子解码器的子解码器加权值、各个所述第一子编码器及所述第二子编码器的子编码器加权值。
在一个实施例中,各个所述第一子编码器和各个所述第二子编码器共享子编码器加权值。
在一个实施例中,各个所述测试用第一至所述测试用第n密集对应信息,包括表示各个所述测试用第一至所述测试用第n子图像的各个像素与所述测试用基础图像的哪个像素对应的信息。
在一个实施例中,在各个所述测试用第一至所述测试用第n子图像的各个像素不与所述测试用基础图像的任何像素对应时,各个所述测试用第一至所述测试用第n密集对应信息包括与所述测试用基础图像的至少一个外侧拓展区域的至少一个位置对应的信息。
在一个实施例中,所述第一编码器至所述第(n+1)编码器共享编码器加权值,所述第一解码器至所述第(n+1)解码器共享解码器加权值。
根据本发明的又另一个方面,提供一种对利用周边汽车的图像来自动标注基础汽车的图像的自动标注装置进行学习的学习装置,其特征在于,包括:存储指令的至少一个存储器;及至少一个处理器,所述至少一个处理器构成为运行所述指令,所述指令用于执行:(I)流程,获得所述基础汽车的至少一个基础图像和一个以上周边汽车各自的第一子图像至第n子图像后,n为大于0的整数,将所述基础图像和各个所述第一子图像至所述第n子图像分别输入各个第一已学习密集对应网络至第n已学习密集对应网络,从而使所述第一至所述第n已学习密集对应网络分别生成各自的第一密集对应信息至第n密集对应信息,所述第一密集对应信息至第n密集对应信息表示当各个所述第一子图像的密集至所述第n子图像的密集移动到所述基础图像时,所述第一子图像的密集至所述第n子图像的密集分别在所述基础图像上的各自的位置;(II)(i)流程,将所述基础图像和各个所述第一子图像至所述第n子图像分别输入各个第一编码器至第(n+1)编码器,从而使各个所述第一编码器至所述第(n+1)编码器对所述基础图像和各个所述第一子图像至所述第n子图像分别施加至少一个卷积运算,分别输出第一卷积特征图至第(n+1)卷积特征图,(ii)流程,将各个所述第一卷积特征图至所述第(n+1)卷积特征图输入各个第一解码器至第(n+1)解码器,从而使各个所述第一解码器至所述第(n+1)解码器对各个所述第一卷积特征图至所述第(n+1)卷积特征图分别施加至少一个反卷积运算,分别输出第一反卷积特征图至第(n+1)反卷积特征图,(iii)流程,参照第k密集对应信息,k为1至n的整数,使第(k+1)反卷积特征图的坐标移动到所述第一反卷积特征图的坐标,生成第k调整反卷积特征图,从而生成第一调整反卷积特征图至第n调整反卷积特征图,及(iv)流程,将所述第一反卷积特征图与所述第一调整反卷积特征图至所述第n调整反卷积特征图进行级联,生成至少一个级联特征图;及(III)流程,将所述级联特征图输入掩蔽层,从而使所述掩蔽层对所述级联特征图施加至少一个掩蔽运算,输出至少一个语义分割图像,使第一损失层,参照所述语义分割图像和与之对应的至少一个分割GT计算一个以上的第一损失,通过利用所述第一损失的反向传播,更新所述第一解码器至所述第(n+1)解码器的各个加权值及所述第一编码器至所述第(n+1)编码器的各个加权值,以使所述第一损失最小化。
在一个实施例中,所述处理器使各个所述第一至所述第n已学习密集对应网络执行:(i)流程,将所述基础图像分别输入与各个所述第一至所述第n已学习密集对应网络对应的各个第一子编码器,从而使各个所述第一子编码器对所述基础图像施加所述卷积运算而分别生成各自的第一子卷积特征图;(ii)流程,将各个所述第一至所述第n子图像分别输入与各个所述第一至所述第n已学习密集对应网络对应的各个第二子编码器,从而使各个所述第二子编码器对各个所述第一至所述第n子图像分别施加所述卷积运算而分别生成各自的第二子卷积特征图;(iii)流程,将各个所述第一子卷积特征图与各个所述第二子卷积特征图进行级联,从而生成各个所述第一至所述第n子级联特征图;(iv)将各个所述第一至所述第n子级联特征图分别输入与各个所述第一至所述第n已学习密集对应网络对应的各个子解码器,从而使各个所述子解码器对各个所述第一至所述第n子级联特征图分别施加所述反卷积运算,分别生成各自的第一至第n子反卷积特征图;及(v)流程,将各个所述第一至所述第n子反卷积特征图,分别输入与各个所述第一至所述第n已学习密集对应网络对应的各个回归器,从而使各个所述回归器,对各个所述第一至所述第n密集对应信息分别施加至少一个回归运算,输出各个所述第一至所述第n密集对应信息。
在一个实施例中,各个所述第一至所述第n已学习密集对应网络借助于子学习装置进行学习,以便分别输出各个所述第一至所述第n密集对应信息,即,获得至少一个第一训练图像及至少一个第二训练图像后,所述子学习装置执行:(i)流程,将所述第一训练图像输入各个所述第一子编码器,从而使各个所述第一子编码器对所述第一训练图像分别施加所述卷积运算,分别生成各个学习用第一子卷积特征图;(ii)流程,将所述第二训练图像输入各个所述第二子编码器,从而使各个所述第二子编码器对所述第二训练图像施加所述卷积运算,分别生成各个学习用第二子卷积特征图;(iii)将各个所述学习用第一子卷积特征图与各个所述学习用第二子卷积特征图进行级联,从而生成各个学习用子级联特征图;(iv)流程,将各个所述学习用子级联特征图分别输入各个所述子解码器,从而使各个所述子解码器,对所述学习用子级联特征图分别施加所述反卷积运算,分别生成各个学习用子反卷积特征图;(v)流程,将各个所述学习用子反卷积特征图输入到各个所述回归器,从而使各个所述回归器分别输出各个学习用密集对应信息,所述各个学习用密集对应信息表示当所述第二训练图像的密集移动到所述第一训练图像时,所述第二训练图像的密集分别在各个所述第一训练图像上的各自的位置;及(vi)流程,使第二损失层参照所述学习用密集对应信息和密集对应GT,计算一个以上的第二损失,通过利用所述第二损失的反向传播,更新各个所述子解码器的子解码器加权值、各个所述第一子编码器及所述第二子编码器的子编码器加权值。
在一个实施例中,各个所述第一子编码器和各个所述第二子编码器共享子编码器加权值。
在一个实施例中,各个所述第一至所述第n密集对应信息包括表示各个所述第一至所述第n子图像的各个像素与所述基础图像的哪个像素对应的信息。
在一个实施例中,在各个所述第一至所述第n子图像的各个像素不与所述基础图像的任何像素对应时,各个所述第一至所述第n密集对应信息包括与所述基础图像的至少一个外侧拓展区域的至少一个位置对应的信息。
在一个实施例中,所述第一编码器至所述第(n+1)编码器共享编码器加权值,所述第一解码器至所述第(n+1)解码器共享解码器加权值。
根据本发明又另一个方面,提供一种对利用周边汽车的图像来自动标注基础汽车的图像的自动标注装置进行测试的测试装置,其特征在于,包括:存储指令的至少一个存储器;及至少一个处理器,所述至少一个处理器构成为运行所述指令,所述指令用于执行:(I)流程,在学习装置执行了:(1)流程,获得所述学习用基础汽车的至少一个学习用基础图像和一个以上学习用周边汽车各自的学习用第一子图像至学习用第n子图像后,n为大于0的整数,将所述学习用基础图像和各个所述学习用第一子图像至所述学习用第n子图像分别输入各个第一已学习密集对应网络至第n已学习密集对应网络,从而使所述第一至所述第n已学习密集对应网络分别生成各个学习用第一密集对应信息至学习用第n密集对应信息,各个学习用第一密集对应信息至学习用第n密集对应信息表示当各个所述学习用述第一子图像的密集至所述学习用第n子图像的密集移动到所述学习用基础图像时,所述学习用第一子图像的密集至所述学习用第n子图像的密集分别在所述学习用基础图像上的各自的位置;(2)(i)流程,将所述学习用基础图像和各个所述学习用第一子图像至所述学习用第n子图像分别输入各个第一编码器至第(n+1)编码器,从而使各个所述第一编码器至所述第(n+1)编码器对所述学习用基础图像和各个所述学习用第一子图像至所述学习用第n子图像分别施加至少一个卷积运算,分别输出学习用第一卷积特征图至学习用第(n+1)卷积特征图,(ii)流程,将各个所述学习用第一卷积特征图至所述学习用第(n+1)卷积特征图输入各个第一解码器至第(n+1)解码器,从而使各个所述第一解码器至所述第(n+1)解码器,对各个所述学习用第一卷积特征图至所述学习用第(n+1)卷积特征图分别施加至少一个反卷积运算,分别输出学习用第一反卷积特征图至学习用第(n+1)反卷积特征图,(iii)流程,参照学习用第k密集对应信息,k为1至n的整数,使学习用第(k+1)反卷积特征图的坐标移动到所述学习用第一反卷积特征图的坐标,生成学习用第k调整反卷积特征图,从而生成学习用第一调整反卷积特征图至学习用第n调整反卷积特征图,及(iv)流程,将所述学习用第一反卷积特征图与所述学习用第一调整反卷积特征图至所述学习用第n调整反卷积特征图进行级联,生成至少一个学习用级联特征图;及(3)流程,将所述学习用级联特征图输入掩蔽层,从而使所述掩蔽层对所述学习用级联特征图施加至少一个掩蔽运算,生成至少一个学习用语义分割图像,使第一损失层,参照所述学习用语义分割图像和与之对应的至少一个分割GT,计算一个以上的第一损失,通过利用所述第一损失的反向传播更新所述第一解码器至所述第(n+1)解码器的各个加权值及所述第一编码器至所述第(n+1)编码器的各个加权值,以使所述第一损失最小化;的状态下,所述指令执行:(I-1)流程,获得所述测试用基础汽车的至少一个测试用基础图像和一个以上的测试用周边汽车各自的测试用第一子图像至测试用第n子图像后,n为大于0的整数,将所述测试用基础图像和各个所述测试用第一子图像至所述测试用第n子图像分别输入各个所述第一已学习密集对应网络至所述第n已学习密集对应网络,从而使所述第一至所述第n已学习密集对应网络,分别生成各个测试用第一密集对应信息至测试用第n密集对应信息,所述各个测试用第一密集对应信息至测试用第n密集对应信息表示各个所述测试用第一子图像的密集至所述测试用第n子图像的密集移动到所述测试用基础图像时,所述测试用第一子图像的密集至所述测试用第n子图像的密集分别在所述测试用基础图像上的各自的位置;(II)(II-1)流程,将所述测试用基础图像和各个所述测试用第一子图像至所述测试用第n子图像分别输入各个第一编码器至第(n+1)编码器,从而使各个所述第一编码器至所述第(n+1)编码器,对所述测试用基础图像和各个所述测试用第一子图像至所述测试用第n子图像分别施加所述卷积运算,分别输出测试用第一卷积特征图至测试用第(n+1)卷积特征图,(II-2)流程,将各个所述测试用第一卷积特征图至所述测试用第(n+1)卷积特征图输入各个第一解码器至第(n+1)解码器,从而使各个所述第一解码器至所述第(n+1)解码器对各个所述测试用第一卷积特征图至所述测试用第(n+1)卷积特征图分别施加所述反卷积运算,分别输出测试用第一反卷积特征图至测试用第(n+1)反卷积特征图,(II-3)流程,参照测试用第k密集对应信息,k为1至n的整数,使测试用第(k+1)反卷积特征图的坐标移动到所述测试用第一反卷积特征图的坐标,生成测试用第k调整反卷积特征图,从而生成测试用第一调整反卷积特征图至测试用第n调整反卷积特征图,及(II-4)流程,将所述测试用第一反卷积特征图与所述测试用第一调整反卷积特征图至所述测试用第n调整反卷积特征图进行级联,生成至少一个测试用级联特征图;及(III)流程,将所述测试用级联特征图输入所述掩蔽层,从而使所述掩蔽层对所述测试用级联特征图施加所述掩蔽运算,输出至少一个测试用语义分割图像。
在一个实施例中,所述处理器使各个所述第一至所述第n已学习密集对应网络,执行:(i)流程,将所述测试用基础图像分别输入与各个所述第一至所述第n已学习密集对应网络对应的各个第一子编码器,从而使各个所述第一子编码器,对所述测试用基础图像施加所述卷积运算,分别生成各个测试用第一子卷积特征图;(ii)流程,将各个所述测试用第一至所述测试用第n子图像分别输入与各个所述第一至所述第n已学习密集对应网络对应的各个第二子编码器,从而使各个所述第二子编码器,对各个所述测试用第一至所述测试用第n子图像分别施加所述卷积运算,分别生成各个测试用第二子卷积特征图;(iii)流程,将各个所述测试用第一子卷积特征图与各个所述测试用第二子卷积特征图进行级联,从而生成各个所述测试用第一至所述测试用第n子级联特征图;(iv)流程,将各个所述测试用第一至所述测试用第n子级联特征图分别输入与各个所述第一至所述第n已学习密集对应网络对应的各个子解码器,从而使各个所述子解码器对各个所述测试用第一至所述测试用第n子级联特征图分别施加所述反卷积运算,分别生成各个测试用第一至测试用第n子反卷积特征图;及(v)流程,将各个所述测试用第一至所述测试用第n子反卷积特征图分别输入与各个所述第一至所述第n已学习密集对应网络对应的各个回归器,从而使各个所述回归器对各个所述测试用第一至所述测试用第n密集对应信息分别施加至少一个回归运算,输出各个所述测试用第一至所述测试用第n密集对应信息。
在一个实施例中,各个所述第一至所述第n已学习密集对应网络借助于子学习装置进行学习,以便分别输出各个所述测试用第一至所述测试用第n密集对应信息,即,获得至少一个第一训练图像及至少一个第二训练图像后,所述子学习装置执行:(i)流程,将所述第一训练图像输入各个所述第一子编码器,从而使各个所述第一子编码器对所述第一训练图像分别施加所述卷积运算,分别生成各个学习用第一子卷积特征图;(ii)流程,将所述第二训练图像输入各个所述第二子编码器,从而使各个所述第二子编码器对所述第二训练图像施加所述卷积运算,分别生成各个学习用第二子卷积特征图;(iii)将各个所述学习用第一子卷积特征图与各个所述学习用第二子卷积特征图进行级联,从而生成各个学习用子级联特征图;(iv)流程,将各个所述学习用子级联特征图分别输入各个所述子解码器,从而使各个所述子解码器对所述学习用子级联特征图分别施加所述反卷积运算,分别生成各个学习用子反卷积特征图;(v)流程,将各个所述学习用子反卷积特征图输入到各个所述回归器,使各个所述回归器分别输出各个学习用密集对应信息,所述各个学习用密集对应信息表示当所述第二训练图像的密集移动到所述第一训练图像时,所述第二训练图像的密集分别在各个所述第一训练图像上各自的位置;及(vi)流程,使第二损失层,参照所述学习用密集对应信息和密集对应GT,计算一个以上的第二损失,通过利用所述第二损失的反向传播,更新各个所述子解码器的子解码器加权值、各个所述第一子编码器及所述第二子编码器的子编码器加权值。
在一个实施例中,各个所述第一子编码器和各个所述第二子编码器共享子编码器加权值。
在一个实施例中,各个所述测试用第一至所述测试用第n密集对应信息,包括表示各个所述测试用第一至所述测试用第n子图像的各个像素与所述测试用基础图像的哪个像素对应的信息。
在一个实施例中,在各个所述测试用第一至所述测试用第n子图像的各个像素不与所述测试用基础图像的任何像素对应时,各个所述测试用第一至所述测试用第n密集对应信息包括与所述测试用基础图像的至少一个外侧拓展区域的至少一个位置对应的信息。
在一个实施例中,所述第一编码器至所述第(n+1)编码器共享编码器加权值,所述第一解码器至所述第(n+1)解码器共享解码器加权值。
与现有技术相比,本发明的优点在于:
本发明具有可以在汽车行驶中实时执行自动标注的效果。
另外,本发明具有可以将来自行驶中的汽车的视频图像与来自周边汽车的视频图像统合并自动标注,执行优质的自动标注的效果。
另外,本发明具有的效果是,将来自行驶中的汽车的视频图像与来自周边汽车的视频图像统合并自动标注,无需利用另外的传感器,只利用照相机的视频图像便可以执行自动标注。
附图说明
为了用于说明本发明实施例而附带的下面的图,只是本发明实施例中的一部分,本发明所属技术领域的普通技术人员(以下称为“普通技术人员”)可以不进行发明性作业,基于这些图获得其他图。
图1是概略地示出根据本发明一个实施例利用一个以上周边汽车的一个以上子图像来自动标注(auto-labeling)各个基础汽车的各个基础图像的流程的图。
图2是概略地示出根据本发明一个实施例对利用周边汽车的子图像来自动标注基础汽车的基础图像的自动标注装置进行学习的学习装置的图。
图3是概略地示出根据本发明一个实施例对利用周边汽车的子图像来自动标注基础汽车的基础图像的自动标注装置进行学习的方法的图。
图4是概略地示出根据本发明一个实施例对利用周边汽车的子图像来自动标注基础汽车的基础图像的自动标注装置进行学习的方法中对已学习密集对应(densecorrespondence)网络进行学习的流程的图。
图5是概略地示出根据本发明一个实施例对利用周边汽车的图像来自动标注基础汽车的基础图像的自动标注装置进行学习的方法中对已学习密集对应(densecorrespondence)网络进行学习的流程的图。
图6是概略地示出根据本发明一个实施例对利用周边汽车的子图像来自动标注基础汽车的基础图像的所述自动标注装置进行测试的测试装置的图。
图7是概略地示出根据本发明一个实施例对利用周边汽车的子图像来自动标注基础汽车的基础图像的自动标注装置进行测试的方法的图。
图8是概略地示出根据本发明一个实施例对利用周边汽车的子图像来自动标注基础汽车的基础图像的自动标注装置进行测试的方法中已学习密集对应网络的流程的图。
具体实施方式
后述有关本发明的详细说明,为了使本发明的目的、技术方案及优点更分明,参照作为示例而图示本发明可实施的特定实施例的附图。对这些实施例进行了详细说明,以便普通技术人员足以能够实施本发明。
另外,在本发明的详细说明及权利要求中,“包括”字样的术语及其变形,并非要将其他技术特征、附加物、构成要素或步骤排除在外。对于普通技术人员而言,本发明的其他目的、优点及特性,一部分从本说明书,而一部分则从本发明的实施中显现出来。以下的示例及附图是作为实例而提供的,并非意图限定本发明。
进一步地,本发明涵盖本说明书中示出的实施例的所有可能组合。本发明的多样实施例虽然互不相同,但应理解为不需要相互排他。例如,在此记载的特定形状、结构及特性,可以与一个实施例相关联,在不超出本发明的精神及范围的前提下体现为其他实施例。另外,各个公开的实施例内的个别构成要素的位置及配置,应理解为可以在不超出本发明的精神及范围的前提下进行变更。因此,后述的详细说明并非出于限定之意,本发明的范围,如能适当说明,仅由与其权利要求所主张的内容等同的所有范围和所附权利要求所限定。在附图中,类似的附图标记指称在多个方面相同或类似的功能。
本发明中提及的各种图像可以包括铺装或非铺装道路相关图像,是可以假定此时会在道路环境中出现的物体(例如汽车、人、动物、植物、物品、建筑物、诸如飞机或无人机的飞行体、其他障碍物)的图像,但并非必须限定于此,本发明中提及的各种图像也可以是与道路无关的图像(例如与非铺设道路、小胡同、空地、海、湖、河、山、树林、沙漠、天空、室内相关的图像),是可以推断此时会在非铺设道路、小胡同、空地、海、湖、河、山、树林、沙漠、天空、室内环境中出现的物体(例如汽车、人、动物、植物、物品、建筑物、诸如飞机或无人机的飞行体、其他障碍物)的图像,但并非必须限定于此。
本申请说明书中提供的本发明的题目及摘要是为了便利,并非限定实施例的范围或解释实施例的意义。
作为参考,在以下说明中,为了避免混乱,在与所述学习流程相关的术语中追加了“学习用”或“训练”字样的词语,在与测试流程相关的术语中追加了“测试用”或“测试”字样的词语。
下面为了让本发明所属技术领域的普通技术人员能够容易地实施本发明,参照附图,就本发明优选实施例进行详细说明。
图1是概略地示出根据本发明一个实施例利用一个以上周边汽车的一个以上子图像来自动标注(auto-labeling)各个基础汽车的各个基础图像的流程的图。此时,所述基础图像的尺寸虽然与所述子图像的尺寸相同,但本发明的范围并不限定于此。
如图1所示,在道路上行驶中的汽车通过V2V(vehicle to vehicle:车对车)通信,发送接收所述各个汽车上安装的一个以上的各个照相机所拍摄的关于行驶环境的一个以上的视频图像。
而且,从各个周边汽车接收所述视频图像的各个所述汽车上安装的各个自动标注装置,通过关于此的特征融合语义分割(fusion semantic segmentation)网络,利用各个周边汽车拍摄的所述视频图像,输出至少一个语义分割(所述语义分割与各个所述汽车拍摄的所述视频图像对应),从而可以自动标注各个所述汽车拍摄的所述视频图像。
此时,在图1中虽然示例性图示了4台汽车,但本发明的范围并不限定于此。
另外,从各个周边汽车获得所述视频图像的各个所述汽车,即各个基础汽车,通过V2X通信,借助于传感器融合而共享周边汽车的位置传感器等,从而可以利用由具有与所述基础汽车的视点不同视点的周边汽车拍摄的所述视频图像。即,所述基础汽车可以获得或支持其他装置获得不同视点拍摄的特定位置的所述视频图像。
然后,各个所述汽车的各个所述自动标注装置,可以利用从各个所述特征融合语义分割网络输出的所述语义分割,自动标注自身汽车拍摄的所述视频图像。
图2是概略地示出根据本发明一个实施例对利用周边汽车的子图像来自动标注基础汽车拍摄的至少一个基础图像的自动标注装置进行学习的学习装置的图。如图2所示,所述学习装置1000包括:存储器1100,所述存储器1100存储命令,所述命令用于对利用周边汽车拍摄的子图像来自动标注基础汽车拍摄的基础图像的自动标注装置进行学习;处理器1200,所述处理器1200执行如下流程:根据存储器1100中存储的命令,对利用周边汽车拍摄的子图像来自动标注基础汽车拍摄的基础图像的自动标注装置进行学习。
具体而言,典型地,所述学习装置1000可以利用至少一个计算装置(例如,可以是包含计算机处理器、内存、存储器、输入装置、输出装置及其他现有计算构成要素的装置;诸如路由器、交换机等电子通信装置;诸如网络附属存储器(NAS,Network AttachedStorage)及存储区域网络(SAN,Storage Area Network)的电子信息存储系统)与至少一个计算机软件(即,使所述计算装置以特定方式执行功能的命令)的组合而达成希望的系统性能。
所述计算装置的处理器可以包括MPU(Micro Processing Unit:微处理器)或CPU(Central Processing Unit:中央处理器)、高速缓冲存储器(Cache Memory)、数据总线(Data Bus)等硬件结构。另外,所述计算装置还可以包括操作系统及执行特定目的的应用程序的软件结构。
但是,并非排除所述计算装置包括由实施本发明所需的介质(medium)、处理器及存储器集成而成的形态的集成处理器的情形。
下面参照图3,说明利用如上所述构成的本发明一个实施例的学习装置1000,对利用周边汽车拍摄的子图像来自动标注基础汽车拍摄的基础图像的自动标注装置进行学习的方法。
首先,如果获得所述基础汽车的所述基础图像和所述周边汽车的第一子图像至第n子图像,则所述学习装置1000将所述基础图像和各个所述第一子图像至所述第n子图像,分别输入到各个第一已学习密集对应网络(dense correspondence network)100_1至第n已学习密集对应网络100_n,从而使所述第一至所述第n已学习密集对应网络,分别生成各自的第一密集对应(dense correspondence)信息至第n密集对应信息。此时,n为大于0的整数。而且,当各个所述第一子图像的密集至所述第n子图像的密集移动(translate)到所述基础图像时,各个所述第一密集对应信息至所述第n密集对应信息表示所述第一子图像的密集至所述第n子图像的密集各自的、在所述基础图像上的各自位置。另外,各个所述第一子图像的密集至所述第n子图像的密集,表示在各个所述第一子图像至所述第n子图像上的像素中,推定为各个客体所在的像素的各群组(cluster)。
即,所述基础图像和所述第一子图像输入所述第一已学习密集对应网络100_1,从而使所述第一已学习密集对应网络100_1,生成所述第一密集对应信息,所述基础图像和所述第二子图像输入所述第二已学习密集对应网络100_2,从而使所述第二已学习密集对应网络100_2,生成所述第二密集对应信息,类似地,所述基础图像和所述第n子图像输入所述第n已学习密集对应网络100_n,从而可以使所述第n已学习密集对应网络100_n,生成所述第n密集对应信息。结果,各个所述第一已学习密集对应网络100_1至所述第n已学习密集对应网络100_n可以生成与此对应的各个所述第一密集对应信息至所述第n密集对应信息。
此时,所述第一至第n密集对应信息可以分别包括表示各个所述第一至所述第n子图像的各个像素与所述基础图像的各既定像素对应的信息,即关于各个所述第一至所述第n子图像的各个所述像素与所述基础图像的哪个像素对应的信息。另一方面,当各个所述第一至所述第n子图像的各个像素与所述基础图像的哪个像素都不对应时,各个所述第一至所述第n密集对应信息可以包括与所述基础图像的至少一个外侧拓展区域的至少一个位置对应的信息。即,所述第一至所述第n密集对应信息分别包括以所述基础图像为基准计算的各个所述第一至所述第n子图像内的所有像素(各个所述第一至所述第n子图像的各像素是将被移动的)的相对坐标(dx,dy),当没有所述基础图像的对应的像素时,所述相对坐标可以用与在所述基础图像中追加的所述外侧拓展区域的所述位置对应的(图像宽度或图像高度)来表示。
接着,下面参照图4,更详细地说明各个所述第一已学习密集对应网络100_1至所述第n已学习密集对应网络100_n生成各个所述第一密集对应信息至所述第n密集对应信息的流程。
各个所述第一至所述第n已学习密集对应网络100可以执行:(i)流程,将所述基础图像分别输入与各个所述第一至所述第n已学习密集对应网络对应的各个第一子编码器110,从而使各个所述第一子编码器110,对所述基础图像施加至少一个卷积运算,分别生成各自的第一子卷积特征图;及(ii)流程,将各个所述第一至所述第n子图像分别输入与各个所述第一至所述第n已学习密集对应网络对应的各个第二子编码器120,从而使各个所述第二子编码器120,分别对各个所述第一至所述第n子图像施加至少一个卷积运算,分别生成各个第二子卷积特征图。此时,各个所述第一子编码器110及各个所述第二子编码器120可以包括至少一个卷积层,可以施加至少一个卷积运算,下采样(down-sampling)所述基础图像。另外,各个所述第一子编码器100及各个所述第二子编码器120可以共享子编码器加权值。
而且,各个所述第一至所述第n已学习密集对应网络将各个所述第一子卷积特征图与各个所述第二子卷积特征图级联,从而生成各自的第一至第n子级联特征图。
然后,可以执行如下流程:各个所述第一至所述第n已学习密集对应网络将各个所述第一至所述第n子级联特征图分别输入与各个所述第一至所述第n已学习密集对应网络对应的各个子解码器130,从而使各个所述子解码器130,分别对各个所述第一至所述第n子级联特征图施加至少一个反卷积运算,分别生成各自的第一至第n子反卷积特征图。此时,各个所述子解码器130可以包括至少一个反卷积层,施加至少一个反卷积运算,对各个所述第一至所述第n子级联特征图进行上采样(up-sampling)。
然后,各个所述第一至所述第n已学习密集对应网络可以将所述第一至所述第n子反卷积特征图分别输入相应回归器(regressor)140,从而可以使各个所述回归器140,输出各个所述第一至所述第n密集对应信息。
另一方面,各个所述第一至所述第n已学习密集对应网络可以借助于子学习装置而进行学习,从而分别输出各个所述第一至所述第n密集对应信息。
作为一个示例,参照图5,如果获得至少一个第一训练图像及至少一个第二训练图像,则所述子学习装置1500可以执行:(i)流程,将所述第一训练图像输入各个所述第一子编码器110,从而使各个所述第一子编码器110,对所述第一训练图像施加至少一个卷积运算,分别生成各个学习用第一子卷积特征图;及(ii)流程,将所述第二训练图像输入各个所述第二子编码器120,从而使各个所述第二子编码器120,对所述第二训练图像施加至少一个卷积运算,分别生成各个学习用第二子卷积特征图。
而且,所述子学习装置1500可以执行:(iii)流程,将各个所述学习用第一子卷积特征图与各个所述学习用第二子卷积特征图级联,从而生成各个学习用子级联特征图;(iv)流程,将各个所述学习用子级联特征图分别输入各个所述子解码器130,从而使各个所述子解码器130对各个所述学习用子级联特征图分别施加至少一个反卷积运算,分别生成各个学习用子反卷积特征图;及(v)将各个所述学习用子反卷积特征图分别输入各个所述回归器140,从而使各个所述回归器140分别输出各个学习用密集对应信息。此时,当所述第二训练图像的密集移动到所述第一训练图像时,各个所述学习用密集对应信息表示所述第二训练图像的密集在所述第一训练图像上的各自位置。另外,所述第二训练图像的密集表示在所述第二训练图像上的像素中,推定为学习用客体所在的像素的群组。
然后,所述子学习装置1500可以执行:(vi)流程,使第二损失层1550,参照所述学习用密集对应信息与密集对应GT(地面真值,ground truth),计算一个以上的第二损失,通过利用所述第二损失的反向传播,更新各个所述子解码器130的各个子解码器加权值、各个所述第一子编码器110及所述第二子编码器120的各个子编码器加权值。
然后,再次参照图3,所述学习装置1000可以执行:(i)流程,将所述基础图像和各个所述第一子图像至所述第n子图像分别输入各个第一编码器200_1至第(n+1)编码器200_(n+1),从而使各个所述第一编码器200_1至所述第(n+1)编码器200_(n+1),对所述基础图像和各个所述第一子图像至所述第n子图像分别施加至少一个卷积运算,分别输出第一卷积特征图至第(n+1)卷积特征图;及(ii)流程,将各个所述第一卷积特征图至所述第(n+1)卷积特征图输入各个第一解码器300_1至第(n+1)解码器300_(n+1),从而使各个所述第一解码器300_1至所述第(n+1)解码器300_(n+1),对各个所述第一卷积特征图至所述第(n+1)卷积特征图分别施加至少一个反卷积运算,分别输出第一反卷积特征图至第(n+1)反卷积特征图。此时,各个所述第一编码器200_1至所述第(n+1)编码器200_(n+1)可以包括至少一个卷积层,可以施加至少一个卷积运算,对所述基础图像和各个所述第一至所述第(n+1)子图像进行下采样(down-sampling)。而且,各个所述第一解码器300_1至所述第(n+1)解码器300_(n+1)可以包括至少一个反卷积层,施加至少一个反卷积运算,对各个所述第一卷积特征图至所述第(n+1)卷积特征图进行上采样。另外,各个所述第一编码器200_1至所述第(n+1)编码器200_(n+1)可以共享编码器加权值,各个所述第一解码器300_1至所述第(n+1)解码器300_(n+1)可以共享解码器加权值。
而且,所述学习装置1000可以执行:(iii)流程,参照第k(k为1至n的整数)密集对应信息,使第(k+1)反卷积特征图的坐标移动到所述第一反卷积特征图的坐标,生成第k调整反卷积特征图,从而生成第一调整反卷积特征图至第n调整反卷积特征图;及(iv)流程,将所述第一反卷积特征图与所述第一调整反卷积特征图至所述第n调整反卷积特征图级联(concatenating),生成至少一个级联特征图。
然后,所述学习装置1000可以执行流程:将所述级联特征图输入掩蔽(masking)层400,从而使所述掩蔽层400,对所述级联特征图施加至少一个掩蔽运算,输出至少一个语义(semantic)分割图像。此时,所述语义分割图像是在所述基础图像中追加关于所述第一子图像至所述第n子图像的信息,并对由此的输出进行分割而生成,这与所述自动标注的基础图像对应。
然后,所述学习装置1000执行流程:使第一损失层500,参照所述语义分割图像和与之对应的至少一个分割GT,计算一个以上的第一损失,通过利用所述第一损失的反向传播(backpropagation),更新所述第一解码器300_1至所述第(n+1)解码器300_(n+1)的各个加权值及所述第一编码器200_1至所述第(n+1)编码器200_(n+1)的各个加权值,从而使得所述第一损失最小化。其结果,所述学习装置1000可以对利用所述周边汽车的所述子图像来自动标注所述基础车辆的所述基础图像的所述自动标注装置进行学习。
图6是概略地示出根据本发明一个实施例对利用所述周边汽车拍摄的所述子图像来自动标注所述基础汽车拍摄的所述基础图像的所述自动标注装置进行测试的测试装置。如图6所示,所述测试装置2000包括:存储器2100,所述存储器2100存储命令,所述命令用于测试利用所述周边汽车拍摄的所述子图像来自动标注所述基础汽车拍摄的所述基础图像的所述自动标注装置;处理器2200,所述处理器2200根据存储器2100中存储的命令执行用于测试利用所述周边汽车拍摄的所述子图像来自动标注所述基础汽车拍摄的所述基础图像的所述自动标注装置所需的流程。
具体而言,典型地,所述测试装置2000可以利用至少一个计算装置(例如,计算机处理器、内存、存储器、输入装置、输出装置及其他现有计算构成要素的装置;诸如路由器、交换机等电子通信装置;诸如网络附属存储器(NAS)及存储区域网络(SAN)的电子信息存储系统)与至少一个计算机软件(即,使所述计算装置以特定方式执行功能的命令)的组合而达成希望的系统性能。
所述计算装置的处理器可以包括MPU(Micro Processing Unit:微处理器)或CPU(Central Processing Unit:中央处理器)、高速缓冲存储器(Cache Memory)、数据总线(Data Bus)等硬件结构。另外,所述计算装置还可以包括操作系统(OS)及执行特定目的的应用程序的软件结构成。
但是,并非排除所述计算装置包括由实施本发明所需的介质(medium)、处理器及存储器集成而成的形态的集成处理器的情形。
下面参照图7,说明根据本发明一个实施例利用测试装置2000对利用周边汽车所拍摄的子图像来自动标注基础汽车拍摄的基础图像所需的自动标注装置进行测试的方法。在以下说明中,对于可以从所述图3至图5的说明容易地理解的部分,省略详细说明。
首先,利用周边汽车的子图像来自动标注基础汽车拍摄的基础图像的自动标注装置,可以是根据参照图3至图5而说明的学习流程进行了学习的状态。
即,如果获得学习用基础汽车拍摄的至少一个学习用基础图像和一个以上的学习用周边汽车分别拍摄的学习用第一子图像至学习用第n子图像,则所述学习装置将所述学习用基础图像和各个所述学习用第一子图像至所述学习用第n子图像分别输入所述第一已学习密集对应网络100_1至所述第n已学习密集对应网络100_n,从而使所述第一至所述第n已学习密集对应网络,分别生成各个学习用第一密集对应信息至学习用第n密集对应信息。此时,当各个所述学习用第一子图像的密集至所述学习用第n子图像的密集移动到所述学习用基础图像时,各个所述学习用第一密集对应信息至所述学习用第n密集对应信息表示所述学习用第一子图像的密集至所述学习用第n子图像的密集分别在所述学习用基础图像上的各自位置。另外,各个所述学习用第一子图像的密集至所述学习用第n子图像的密集,表示在各个所述学习用第一子图像至所述学习用第n子图像上的像素中,推定为各个学习用客体所在的像素的各群组。而且,所述学习装置执行:(i)流程,将所述学习用基础图像和各个所述学习用第一子图像至所述学习用第n子图像分别输入所述第一编码器200_1至所述第(n+1)编码器200_(n+1),从而使各个所述第一编码器200_1至所述第(n+1)编码器200_(n+1),对所述学习用基础图像和各个所述学习用第一子图像至所述学习用第n子图像分别施加至少一个卷积运算,从而分别输出学习用第一卷积特征图至学习用第(n+1)卷积特征图;及(ii)流程,将各个所述学习用第一卷积特征图至所述学习用第(n+1)卷积特征图分别输入所述第一解码器300_1至所述第(n+1)解码器300_(n+1),从而使各个所述第一解码器300_1至所述第(n+1)解码器300_(n+1),对各个所述学习用第一卷积特征图至所述学习用第(n+1)卷积特征图分别施加至少一个反卷积运算,分别输出学习用第一反卷积特征图至学习用第(n+1)反卷积特征图。然后,所述学习装置可以执行:(iii)流程,参照学习用第k(k为1至n的整数)密集对应信息,使学习用第(k+1)反卷积特征图的坐标移动到所述学习用第一反卷积特征图的坐标,生成学习用第k调整反卷积特征图,从而生成学习用第一调整反卷积特征图至学习用第n调整反卷积特征图;及(iv)流程,将所述学习用第一反卷积特征图与所述学习用第一调整反卷积特征图至所述学习用第n调整反卷积特征图进行级联(concatenating),生成至少一个学习用级联特征图。而且,所述学习装置执行流程:将所述学习用级联特征图输入所述掩蔽层400,从而使所述掩蔽层400,对所述学习用级联的特征图施加至少一个掩蔽运算,输出至少一个学习用语义(semantic)分割图像;使所述第一损失层,参照所述学习用语义分割图像和与之对应的至少一个分割GT,计算所述第一损失,通过利用所述第一损失的反向传播(backpropagation),更新所述第一解码器300_1至所述第(n+1)解码器300_(n+1)的各个所述加权值及所述第一编码器200_1至所述第(n+1)编码器200_(n+1)的各个所述加权值,使所述第一损失最小化。
完成所述流程后,所述测试装置2000执行流程:获得测试用基础汽车拍摄的至少一个测试用基础图像和一个以上的测试用周边汽车分别拍摄的测试用第一子图像至测试用第n子图像后,将所述测试用基础图像和各个所述测试用第一子图像至所述测试用第n子图像分别输入所述第一已学习密集对应网络100_1至所述第n已学习密集对应网络100_n,从而使所述第一至所述第n已学习密集对应网络,分别生成各个测试用第一密集对应信息至测试用第n密集对应信息。此时,当各个所述测试用第一子图像的密集至所述测试用第n子图像的密集移动到所述测试用基础图像时,各个所述测试用第一密集对应信息至所述测试用第n密集对应信息,表示所述测试用第一子图像的密集至所述测试用第n子图像的密集分别在所述测试用基础图像上的各自位置。另外,各个所述测试用第一子图像的密集至所述测试用第n子图像的密集,表示在各个所述测试用第一子图像至所述测试用第n子图像上的像素中推定为各个测试用客体所在的像素的各群组。
即,如图8所示,所述测试装置使各个所述第一已学习密集对应网络100_1至所述第n已学习密集对应网络100_n执行:(i)流程,将所述测试用基础图像分别输入与各个所述第一至所述第n已学习密集对应网络对应的各个所述第一子编码器110,从而使各个所述第一子编码器110对所述测试用基础图像施加至少一个卷积运算,分别生成各个测试用第一子卷积特征图;及(ii)流程,将各个所述测试用第一至所述测试用第n子图像分别输入与各个所述第一至所述第n已学习密集对应网络对应的各个所述第二子编码器120,从而使各个所述第二子编码器120对各个所述测试用第一至所述测试用第n子图像分别施加至少一个卷积运算,分别生成各个测试用第二子卷积特征图。而且,所述测试装置执行流程:使各个所述第一已学习密集对应网络100_1至所述第n已学习密集对应网络100_n,将各个所述测试用第一子卷积特征图与各个所述测试用第二子卷积特征图进行级联,从而生成各个所述测试用第一至所述测试用第n子级联特征图;及将各个所述测试用第一至所述测试用第n子级联特征图分别输入与各个所述第一至所述第n已学习密集对应网络对应的各个所述子解码器130,从而使各个所述子解码器130对各个所述测试用第一至所述测试用第n子级联特征图分别施加至少一个反卷积运算,分别生成各个测试用第一至测试用第n子反卷积特征图。然后,所述测试装置可以使各个所述第一已学习密集对应网络100_1至所述第n已学习密集对应网络100_n,将所述测试用第一至所述测试用第n子反卷积特征图分别输入所述对应的回归器140,从而使各个所述回归器140输出各个所述测试用第一至所述测试用第n密集对应信息。
另一方面,各个所述第一已学习密集对应网络100_1至所述第n已学习密集对应网络100_n借助于所述子学习装置进行学习,从而分别输出各个所述测试用第一至所述测试用第n密集对应信息。
即,获得所述第一训练图像及所述第二训练图像后,所述子学习装置可以执行:(i)流程,将所述第一训练图像输入各个所述第一子编码器110,从而使各个所述第一子编码器110对所述第一训练图像施加至少一个卷积运算,分别生成各个学习用第一子卷积特征图;及(ii)流程,将所述第二训练图像输入各个所述第二子编码器120,从而使各个所述第二子编码器120,对所述第二训练图像施加至少一个卷积运算,分别生成各个学习用第二子卷积特征图。而且,所述子学习装置可以执行:(iii)流程,将各个所述学习用第一子卷积特征图与各个所述学习用第二子卷积特征图进行级联,从而生成各个学习用子级联特征图;及(iv)流程,将各个所述学习用子级联特征图分别输入各个所述子解码器130,从而使各个所述子解码器130对所述学习用子级联特征图分别施加至少一个反卷积运算,分别生成各个学习用子反卷积特征图。然后,所述子学习装置可以执行:(v)流程,将各个所述学习用子反卷积特征图输入各个所述回归器140,从而使各个所述回归器140分别生成各个所述学习用密集对应信息;及(vi)流程,使所述第二损失层,参照所述学习用密集对应信息及密集对应GT(ground truth),计算所述第二损失,通过利用所述第二损失的反向传播,更新各个所述子解码器130的各个所述子解码器加权值、各个所述第一子编码器110及所述第二子编码器120的各个所述子编码器加权值。从而所述子学习装置可以对所述第一已学习密集对应网络100_1至所述第n已学习密集对应网络100_n进行学习。
然后,再次参照图7,所述测试装置2000执行:(i)流程,将所述测试用基础图像和各个所述测试用第一子图像至所述测试用第n子图像分别输入各个所述第一编码器200_1至所述第(n+1)编码器200_(n+1),从而使各个所述第一编码器200_1至所述第(n+1)编码器200_(n+1)对所述测试用基础图像和各个所述测试用第一子图像至所述测试用第n子图像分别施加至少一个卷积运算,分别输出各个测试用第一卷积特征图至测试用第(n+1)卷积特征图;及(ii)流程,将各个所述测试用第一卷积特征图至所述测试用第(n+1)卷积特征图输入各个所述第一解码器300_1至所述第(n+1)解码器300_(n+1),从而使各个所述第一解码器300_1至所述第(n+1)解码器300_(n+1)对各个所述测试用第一卷积特征图至所述测试用第(n+1)卷积特征图分别施加至少一个反卷积运算,分别输出各个测试用第一反卷积特征图至测试用第(n+1)反卷积特征图。
然后,所述测试装置2000可以执行:(iii)流程,参照测试用第k(k为1至n的整数)密集对应信息,使测试用第(k+1)反卷积特征图的坐标移动到所述测试用第一反卷积特征图的坐标,生成测试用第k调整反卷积特征图,从而生成测试用第一调整反卷积特征图至测试用第n调整反卷积特征图;及(iv)流程,将所述测试用第一反卷积特征图与所述测试用第一调整反卷积特征图至所述测试用第n调整反卷积特征图进行级联(concatenating),生成至少一个测试用级联特征图。
然后,所述测试装置2000执行流程:将所述测试用级联特征图输入所述掩蔽层400,从而使所述掩蔽层400对所述测试用级联特征图施加至少一个掩蔽运算,输出至少一个测试用语义(semantic)分割图像,其结果,使得所述基础图像可以自动标注。
如上所述,本发明能够利用传感器融合,共享周边汽车的位置传感器等,通过V2X通信获得不同视点拍摄的视频图像,借助于V2X信息融合,融合不同视点拍摄的视频图像的特征,实时自动标注行驶中的汽车所拍摄的视频图像。
另外,以上说明的本发明的实施例可以体现为可通过多样计算机构成要素而执行的程序命令的形态,记录于计算机可读记录介质。所述计算机可读记录介质可以单独或组合包括程序命令、数据文件、数据结构等。所述计算机可读记录介质中记录的程序命令可以是为本发明而特别设计、构成的,或者也可以是计算机软件领域从业人员公知并可使用的。在计算机可读记录介质的示例中,包括诸如硬盘、软盘及磁带的磁介质,诸如CD-ROM(只读光盘驱动器)、DVD(数字化视频光盘)的光记录介质,诸如软式光盘(floptical disk)的磁-光介质(magneto-optical media),及诸如只读存储器(ROM)、随机存储器(RAM)、快闪存储器等的为了存储及执行程序命令而特殊构成的硬件装置。在程序命令的示例中,不仅有借助于编译程序而制成的机器语言代码,还包括使用解释器等而能够借助于计算机运行的高级语言代码。所述硬件装置为了执行本发明的处理,可以构成为一个以上的软件模块而运转,反之亦然。
以上根据诸如具体构成要素等的特定事项和限定的实施例及附图,对本发明进行了说明,但这只是为了帮助更全面理解本发明而提供的,并非本发明限定于所述实施例,只要是本发明所属技术领域的技术人员,便可以从这种记载导出多样的修订及变形。
因此,本发明的思想不局限于所述说明的实施例确定,后述权利要求书以及与该权利要求书等同地或等效地变形的所有内容均属于本发明的思想范围。
Claims (28)
1.一种对利用周边汽车的图像来自动标注基础汽车的图像的自动标注装置进行学习的方法,其特征在于,包括:
(a)步骤,获得所述基础汽车的至少一个基础图像和一个以上周边汽车各自的第一子图像至第n子图像后,其中n为大于0的整数,学习装置执行流程,即将所述基础图像和各个所述第一子图像至所述第n子图像分别输入各个第一已学习密集对应网络至第n已学习密集对应网络,从而使所述第一至所述第n已学习密集对应网络,分别生成各自的第一密集对应信息至第n密集对应信息,其中,当各个所述第一子图像的密集至所述第n子图像的密集移动到所述基础图像时,各个所述第一密集对应信息至所述第n密集对应信息表示所述第一子图像的密集至所述第n子图像的密集分别在所述基础图像上的各自的位置;
(b)步骤,所述学习装置执行:(i)流程,将所述基础图像和各个所述第一子图像至所述第n子图像分别输入各个第一编码器至第(n+1)编码器,从而使各个所述第一编码器至所述第(n+1)编码器,对所述基础图像和各个所述第一子图像至所述第n子图像分别施加至少一个卷积运算,分别输出第一卷积特征图至第(n+1)卷积特征图,(ii)流程,将各个所述第一卷积特征图至所述第(n+1)卷积特征图输入各个第一解码器至第(n+1)解码器,从而使各个所述第一解码器至所述第(n+1)解码器,对各个所述第一卷积特征图至所述第(n+1)卷积特征图分别施加至少一个反卷积运算,分别输出第一反卷积特征图至第(n+1)反卷积特征图,(iii)流程,参照第k密集对应信息,k为1至n的整数,使第(k+1)反卷积特征图的坐标移动到所述第一反卷积特征图的坐标,生成第k调整反卷积特征图,从而生成第一调整反卷积特征图至第n调整反卷积特征图,及(iv)流程,将所述第一反卷积特征图与所述第一调整反卷积特征图至所述第n调整反卷积特征图进行级联,生成至少一个级联特征图;及
(c)步骤,所述学习装置执行流程:将所述级联特征图输入掩蔽层,从而使所述掩蔽层,对所述级联特征图施加至少一个掩蔽运算,生成至少一个语义分割图像;使第一损失层,参照所述语义分割图像和与之对应的至少一个分割地面真值GT,计算一个以上的第一损失,通过利用所述第一损失的反向传播更新所述第一解码器至所述第(n+1)解码器的各个加权值及所述第一编码器至所述第(n+1)编码器的各个加权值,以使所述第一损失最小化。
2.根据权利要求1所述的方法,其特征在于,
所述学习装置使各个所述第一至所述第n已学习密集对应网络执行:(i)流程,将所述基础图像分别输入与各个所述第一至所述第n已学习密集对应网络对应的各个第一子编码器,从而使各个所述第一子编码器对所述基础图像施加所述卷积运算而分别生成各自的第一子卷积特征图;(ii)流程,将各个所述第一至所述第n子图像分别输入与各个所述第一至所述第n已学习密集对应网络对应的各个第二子编码器,从而使各个所述第二子编码器对各个所述第一至所述第n子图像分别施加所述卷积运算而分别生成各自的第二子卷积特征图;(iii)流程,将各个所述第一子卷积特征图与各个所述第二子卷积特征图进行级联,从而生成各个所述第一至所述第n子级联特征图;(iv)将各个所述第一至所述第n子级联特征图分别输入与各个所述第一至所述第n已学习密集对应网络对应的各个子解码器,从而使各个所述子解码器,对各个所述第一至所述第n子级联特征图分别施加所述反卷积运算,分别生成各自的第一至第n子反卷积特征图;及(v)流程,将各个所述第一至所述第n子反卷积特征图,分别输入与各个所述第一至所述第n已学习密集对应网络对应的各个回归器,从而使各个所述回归器对各个所述第一至所述第n密集对应信息分别施加至少一个回归运算,输出各个所述第一至所述第n密集对应信息。
3.根据权利要求2所述的方法,其特征在于,
各个所述第一至所述第n已学习密集对应网络借助于子学习装置进行学习,以便分别输出各个所述第一至所述第n密集对应信息,即,
获得至少一个第一训练图像及至少一个第二训练图像后,所述子学习装置执行:(i)流程,将所述第一训练图像输入各个所述第一子编码器,从而使各个所述第一子编码器对所述第一训练图像分别施加所述卷积运算,分别生成各个学习用第一子卷积特征图;(ii)流程,将所述第二训练图像输入各个所述第二子编码器,从而使各个所述第二子编码器对所述第二训练图像施加所述卷积运算,分别生成各个学习用第二子卷积特征图;(iii)将各个所述学习用第一子卷积特征图与各个所述学习用第二子卷积特征图进行级联,从而生成各个学习用子级联特征图;(iv)流程,将各个所述学习用子级联特征图分别输入各个所述子解码器,从而使各个所述子解码器,对所述学习用子级联特征图分别施加所述反卷积运算,分别生成各个学习用子反卷积特征图;(v)流程,将各个所述学习用子反卷积特征图输入到各个所述回归器,从而使各个所述回归器分别输出各个学习用密集对应信息,所述学习用密集对应信息表示当所述第二训练图像的密集移动到所述第一训练图像时,所述第二训练图像的密集分别在所述第一训练图像上的各自的位置;及(vi)流程,使第二损失层参照所述学习用密集对应信息和密集对应GT,计算一个以上的第二损失,通过利用所述第二损失的反向传播,更新各个所述子解码器的子解码器加权值、各个所述第一子编码器及所述第二子编码器的子编码器加权值。
4.根据权利要求2所述的方法,其特征在于,
各个所述第一子编码器和各个所述第二子编码器共享子编码器加权值。
5.根据权利要求1所述的方法,其特征在于,
各个所述第一至所述第n密集对应信息包括表示各个所述第一至所述第n子图像的各个像素与所述基础图像的哪个像素对应的信息。
6.根据权利要求5所述的方法,其特征在于,
在各个所述第一至所述第n子图像的各个像素不与所述基础图像的任何像素对应时,各个所述第一至所述第n密集对应信息包括与所述基础图像的至少一个外侧拓展区域的至少一个位置对应的信息。
7.根据权利要求1所述的方法,其特征在于,
所述第一编码器至所述第(n+1)编码器共享编码器加权值,所述第一解码器至所述第(n+1)解码器共享解码器加权值。
8.一种对利用周边汽车的图像来自动标注基础汽车的图像的自动标注装置进行测试的方法,其特征在于,包括:
(a)步骤,在学习装置执行了:(1)流程,获得所述学习用基础汽车的至少一个学习用基础图像和一个以上学习用周边汽车各自的学习用第一子图像至学习用第n子图像后,n为大于0的整数,将所述学习用基础图像和各个所述学习用第一子图像至所述学习用第n子图像分别输入各个第一已学习密集对应网络至第n已学习密集对应网络,从而使所述第一至所述第n已学习密集对应网络分别生成各个学习用第一密集对应信息至学习用第n密集对应信息,所述各个学习用第一密集对应信息至学习用第n密集对应信息表示当各个所述学习用第一子图像的密集至所述学习用第n子图像的密集移动到所述学习用基础图像时,所述学习用第一子图像的密集至所述学习用第n子图像的密集分别在所述学习用基础图像上的各自的位置;(2)(i)流程,将所述学习用基础图像和各个所述学习用第一子图像至所述学习用第n子图像分别输入各个第一编码器至第(n+1)编码器,从而使各个所述第一编码器至所述第(n+1)编码器对所述学习用基础图像和各个所述学习用第一子图像至所述学习用第n子图像分别施加至少一个卷积运算,分别输出学习用第一卷积特征图至学习用第(n+1)卷积特征图,(ii)流程,将各个所述学习用第一卷积特征图至所述学习用第(n+1)卷积特征图输入各个第一解码器至第(n+1)解码器,从而使各个所述第一解码器至所述第(n+1)解码器对各个所述学习用第一卷积特征图至所述学习用第(n+1)卷积特征图分别施加至少一个反卷积运算,分别输出学习用第一反卷积特征图至学习用第(n+1)反卷积特征图,(iii)流程,参照学习用第k密集对应信息,k为1至n的整数,使学习用第(k+1)反卷积特征图的坐标移动到所述学习用第一反卷积特征图的坐标,生成学习用第k调整反卷积特征图,从而生成学习用第一调整反卷积特征图至学习用第n调整反卷积特征图,及(iv)流程,将所述学习用第一反卷积特征图与所述学习用第一调整反卷积特征图至所述学习用第n调整反卷积特征图进行级联,生成至少一个学习用级联特征图;及(3)流程,将所述学习用级联特征图输入掩蔽层,从而使所述掩蔽层对所述学习用级联特征图施加至少一个掩蔽运算,输出至少一个学习用语义分割图像,使第一损失层,参照所述学习用语义分割图像和与之对应的至少一个分割GT,计算一个以上的第一损失,通过利用所述第一损失的反向传播更新所述第一解码器至所述第(n+1)解码器的各个加权值及所述第一编码器至所述第(n+1)编码器的各个加权值,以使所述第一损失最小化;的状态下,测试装置执行如下流程:获得所述测试用基础汽车的至少一个测试用基础图像和一个以上的测试用周边汽车各自的测试用第一子图像至测试用第n子图像后,n为大于0的整数,将所述测试用基础图像和各个所述测试用第一子图像至所述测试用第n子图像分别输入各个所述第一已学习密集对应网络至所述第n已学习密集对应网络,从而使所述第一至所述第n已学习密集对应网络,分别生成各个测试用第一密集对应信息至测试用第n密集对应信息,所述各个测试用第一密集对应信息至测试用第n密集对应信息表示各个所述测试用第一子图像的密集至所述测试用第n子图像的密集移动到所述测试用基础图像时,所述测试用第一子图像的密集至所述测试用第n子图像的密集分别在所述测试用基础图像上的各自位置;
(b)步骤,所述测试装置执行:(i)流程,将所述测试用基础图像和各个所述测试用第一子图像至所述测试用第n子图像分别输入各个第一编码器至第(n+1)编码器,从而使各个所述第一编码器至所述第(n+1)编码器对所述测试用基础图像和各个所述测试用第一子图像至所述测试用第n子图像分别施加所述卷积运算,分别输出测试用第一卷积特征图至测试用第(n+1)卷积特征图,(ii)流程,将各个所述测试用第一卷积特征图至所述测试用第(n+1)卷积特征图输入各个第一解码器至第(n+1)解码器,从而使各个所述第一解码器至所述第(n+1)解码器,对各个所述测试用第一卷积特征图至所述测试用第(n+1)卷积特征图分别施加所述反卷积运算,分别输出测试用第一反卷积特征图至测试用第(n+1)反卷积特征图,(iii)流程,参照测试用第k密集对应信息,k为1至n的整数,使测试用第(k+1)反卷积特征图的坐标移动到所述测试用第一反卷积特征图的坐标,生成测试用第k调整反卷积特征图,从而生成测试用第一调整反卷积特征图至测试用第n调整反卷积特征图,及(iv)流程,将所述测试用第一反卷积特征图与所述测试用第一调整反卷积特征图至所述测试用第n调整反卷积特征图进行级联,生成至少一个测试用级联特征图;
(c)步骤,所述测试装置执行将所述测试用级联特征图输入所述掩蔽层,从而使所述掩蔽层对所述测试用级联特征图施加所述掩蔽运算,输出至少一个测试用语义分割图像。
9.根据权利要求8所述的测试方法,其特征在于,
所述测试装置使各个所述第一至所述第n已学习密集对应网络,执行:(i)流程,将所述测试用基础图像分别输入与各个所述第一至所述第n已学习密集对应网络对应的各个第一子编码器,从而使各个所述第一子编码器,对所述测试用基础图像施加所述卷积运算,分别生成各个测试用第一子卷积特征图;(ii)流程,将各个所述测试用第一至所述测试用第n子图像分别输入与各个所述第一至所述第n已学习密集对应网络对应的各个第二子编码器,从而使各个所述第二子编码器对各个所述测试用第一至所述测试用第n子图像分别施加所述卷积运算,分别生成各个测试用第二子卷积特征图;(iii)流程,将各个所述测试用第一子卷积特征图与各个所述测试用第二子卷积特征图进行级联,从而生成各个所述测试用第一至所述测试用第n子级联特征图;(iv)流程,将各个所述测试用第一至所述测试用第n子级联特征图分别输入与各个所述第一至所述第n已学习密集对应网络对应的各个子解码器,从而使各个所述子解码器对各个所述测试用第一至所述测试用第n子级联特征图分别施加所述反卷积运算,分别生成各个测试用第一至测试用第n子反卷积特征图;及(v)流程,将各个所述测试用第一至所述测试用第n子反卷积特征图分别输入与各个所述第一至所述第n已学习密集对应网络对应的各个回归器,从而使各个所述回归器对各个所述测试用第一至所述测试用第n密集对应信息分别施加至少一个回归运算,输出各个所述测试用第一至所述测试用第n密集对应信息。
10.根据权利要求9所述的测试方法,其特征在于,
各个所述第一至所述第n已学习密集对应网络借助于子学习装置进行学习,以便分别输出各个所述测试用第一至所述测试用第n密集对应信息,即,
获得至少一个第一训练图像及至少一个第二训练图像后,所述子学习装置执行:(i)流程,将所述第一训练图像输入各个所述第一子编码器,从而使各个所述第一子编码器对所述第一训练图像分别施加所述卷积运算,分别生成各个学习用第一子卷积特征图;(ii)流程,将所述第二训练图像输入各个所述第二子编码器,从而使各个所述第二子编码器对所述第二训练图像施加所述卷积运算,分别生成各个学习用第二子卷积特征图;(iii)将各个所述学习用第一子卷积特征图与各个所述学习用第二子卷积特征图进行级联,从而生成各个学习用子级联特征图;(iv)流程,将各个所述学习用子级联特征图分别输入各个所述子解码器,从而使各个所述子解码器对所述学习用子级联特征图分别施加所述反卷积运算,分别生成各个学习用子反卷积特征图;(v)流程,将各个所述学习用子反卷积特征图输入到各个所述回归器,从而使各个所述回归器分别输出各个学习用密集对应信息,所述各个学习用密集对应信息表示当所述第二训练图像的密集移动到所述第一训练图像时,所述第二训练图像的密集分别在各个所述第一训练图像上各自的位置;及(vi)流程,使第二损失层,参照所述学习用密集对应信息和密集对应GT,计算一个以上的第二损失,通过利用所述第二损失的反向传播,更新各个所述子解码器的子解码器加权值、各个所述第一子编码器及所述第二子编码器的子编码器加权值。
11.根据权利要求9所述的测试方法,其特征在于,
各个所述第一子编码器和各个所述第二子编码器共享子编码器加权值。
12.根据权利要求8所述的测试方法,其特征在于,
各个所述测试用第一至所述测试用第n密集对应信息,包括表示各个所述测试用第一至所述测试用第n子图像的各个像素与所述测试用基础图像的哪个像素对应的信息。
13.根据权利要求12所述的测试方法,其特征在于,
在各个所述测试用第一至所述测试用第n子图像的各个像素不与所述测试用基础图像的任何像素对应时,各个所述测试用第一至所述测试用第n密集对应信息包括与所述测试用基础图像的至少一个外侧拓展区域的至少一个位置对应的信息。
14.根据权利要求8所述的测试方法,其特征在于,
所述第一编码器至所述第(n+1)编码器共享编码器加权值,所述第一解码器至所述第(n+1)解码器共享解码器加权值。
15.一种对利用周边汽车的图像来自动标注基础汽车的图像的自动标注装置进行学习的学习装置,其特征在于,包括:
存储指令的至少一个存储器;及
至少一个处理器,所述至少一个处理器构成为运行所述指令,所述指令用于执行:(I)流程,获得所述基础汽车的至少一个基础图像和一个以上周边汽车各自的第一子图像至第n子图像后,n为大于0的整数,将所述基础图像和各个所述第一子图像至所述第n子图像分别输入各个第一已学习密集对应网络至第n已学习密集对应网络,从而使所述第一至所述第n已学习密集对应网络分别生成各自的第一密集对应信息至第n密集对应信息,所述第一密集对应信息至第n密集对应信息表示当各个所述第一子图像的密集至所述第n子图像的密集移动到所述基础图像时,所述第一子图像的密集至所述第n子图像的密集分别在所述基础图像上的各自的位置;(II)(i)流程,将所述基础图像和各个所述第一子图像至所述第n子图像分别输入各个第一编码器至第(n+1)编码器,从而使各个所述第一编码器至所述第(n+1)编码器对所述基础图像和各个所述第一子图像至所述第n子图像分别施加至少一个卷积运算,分别输出第一卷积特征图至第(n+1)卷积特征图,(ii)流程,将各个所述第一卷积特征图至所述第(n+1)卷积特征图输入各个第一解码器至第(n+1)解码器,从而使各个所述第一解码器至所述第(n+1)解码器对各个所述第一卷积特征图至所述第(n+1)卷积特征图分别施加至少一个反卷积运算,分别输出第一反卷积特征图至第(n+1)反卷积特征图,(iii)流程,参照第k密集对应信息,k为1至n的整数,使第(k+1)反卷积特征图的坐标移动到所述第一反卷积特征图的坐标,生成第k调整反卷积特征图,从而生成第一调整反卷积特征图至第n调整反卷积特征图,及(iv)流程,将所述第一反卷积特征图与所述第一调整反卷积特征图至所述第n调整反卷积特征图进行级联,生成至少一个级联特征图;及(III)流程,将所述级联特征图输入掩蔽层,从而使所述掩蔽层对所述级联特征图施加至少一个掩蔽运算,输出至少一个语义分割图像,使第一损失层,参照所述语义分割图像和与之对应的至少一个分割GT计算一个以上的第一损失,通过利用所述第一损失的反向传播,更新所述第一解码器至所述第(n+1)解码器的各个加权值及所述第一编码器至所述第(n+1)编码器的各个加权值,以使所述第一损失最小化。
16.根据权利要求15所述的学习装置,其特征在于,
所述处理器使各个所述第一至所述第n已学习密集对应网络执行:(i)流程,将所述基础图像分别输入与各个所述第一至所述第n已学习密集对应网络对应的各个第一子编码器,从而使各个所述第一子编码器对所述基础图像施加所述卷积运算而分别生成各自的第一子卷积特征图;(ii)流程,将各个所述第一至所述第n子图像分别输入与各个所述第一至所述第n已学习密集对应网络对应的各个第二子编码器,从而使各个所述第二子编码器对各个所述第一至所述第n子图像分别施加所述卷积运算而分别生成各自的第二子卷积特征图;(iii)流程,将各个所述第一子卷积特征图与各个所述第二子卷积特征图进行级联,从而生成各个所述第一至所述第n子级联特征图;(iv)将各个所述第一至所述第n子级联特征图分别输入与各个所述第一至所述第n已学习密集对应网络对应的各个子解码器,从而使各个所述子解码器对各个所述第一至所述第n子级联特征图分别施加所述反卷积运算,分别生成各自的第一至第n子反卷积特征图;及(v)流程,将各个所述第一至所述第n子反卷积特征图,分别输入与各个所述第一至所述第n已学习密集对应网络对应的各个回归器,从而使各个所述回归器,对各个所述第一至所述第n密集对应信息分别施加至少一个回归运算,输出各个所述第一至所述第n密集对应信息。
17.根据权利要求16所述的学习装置,其特征在于,
各个所述第一至所述第n已学习密集对应网络借助于子学习装置进行学习,以便分别输出各个所述第一至所述第n密集对应信息,即,
获得至少一个第一训练图像及至少一个第二训练图像后,所述子学习装置执行:(i)流程,将所述第一训练图像输入各个所述第一子编码器,从而使各个所述第一子编码器对所述第一训练图像分别施加所述卷积运算,分别生成各个学习用第一子卷积特征图;(ii)流程,将所述第二训练图像输入各个所述第二子编码器,从而使各个所述第二子编码器对所述第二训练图像施加所述卷积运算,分别生成各个学习用第二子卷积特征图;(iii)将各个所述学习用第一子卷积特征图与各个所述学习用第二子卷积特征图进行级联,从而生成各个学习用子级联特征图;(iv)流程,将各个所述学习用子级联特征图分别输入各个所述子解码器,从而使各个所述子解码器,对所述学习用子级联特征图分别施加所述反卷积运算,分别生成各个学习用子反卷积特征图;(v)流程,将各个所述学习用子反卷积特征图输入到各个所述回归器,从而使各个所述回归器分别输出各个学习用密集对应信息,所述各个学习用密集对应信息表示当所述第二训练图像的密集移动到所述第一训练图像时,所述第二训练图像的密集分别在各个所述第一训练图像上的各自的位置;及(vi)流程,使第二损失层参照所述学习用密集对应信息和密集对应GT,计算一个以上的第二损失,通过利用所述第二损失的反向传播,更新各个所述子解码器的子解码器加权值、各个所述第一子编码器及所述第二子编码器的子编码器加权值。
18.根据权利要求16所述的学习装置,其特征在于,
各个所述第一子编码器和各个所述第二子编码器共享子编码器加权值。
19.根据权利要求15所述的学习装置,其特征在于,
各个所述第一至所述第n密集对应信息包括表示各个所述第一至所述第n子图像的各个像素与所述基础图像的哪个像素对应的信息。
20.根据权利要求19所述的学习装置,其特征在于,
在各个所述第一至所述第n子图像的各个像素不与所述基础图像的任何像素对应时,各个所述第一至所述第n密集对应信息包括与所述基础图像的至少一个外侧拓展区域的至少一个位置对应的信息。
21.根据权利要求15所述的学习装置,其特征在于,
所述第一编码器至所述第(n+1)编码器共享编码器加权值,所述第一解码器至所述第(n+1)解码器共享解码器加权值。
22.一种对利用周边汽车的图像来自动标注基础汽车的图像的自动标注装置进行测试的测试装置,其特征在于,包括:
存储指令的至少一个存储器;及
至少一个处理器,所述至少一个处理器构成为运行所述指令,所述指令用于执行:(I)流程,在学习装置执行了:(1)流程,获得所述学习用基础汽车的至少一个学习用基础图像和一个以上学习用周边汽车各自的学习用第一子图像至学习用第n子图像后,n为大于0的整数,将所述学习用基础图像和各个所述学习用第一子图像至所述学习用第n子图像分别输入各个第一已学习密集对应网络至第n已学习密集对应网络,从而使所述第一至所述第n已学习密集对应网络分别生成各个学习用第一密集对应信息至学习用第n密集对应信息,各个学习用第一密集对应信息至学习用第n密集对应信息表示当各个所述学习用述第一子图像的密集至所述学习用第n子图像的密集移动到所述学习用基础图像时,所述学习用第一子图像的密集至所述学习用第n子图像的密集分别在所述学习用基础图像上的各自的位置;(2)(i)流程,将所述学习用基础图像和各个所述学习用第一子图像至所述学习用第n子图像分别输入各个第一编码器至第(n+1)编码器,从而使各个所述第一编码器至所述第(n+1)编码器对所述学习用基础图像和各个所述学习用第一子图像至所述学习用第n子图像分别施加至少一个卷积运算,分别输出学习用第一卷积特征图至学习用第(n+1)卷积特征图,(ii)流程,将各个所述学习用第一卷积特征图至所述学习用第(n+1)卷积特征图输入各个第一解码器至第(n+1)解码器,从而使各个所述第一解码器至所述第(n+1)解码器,对各个所述学习用第一卷积特征图至所述学习用第(n+1)卷积特征图分别施加至少一个反卷积运算,分别输出学习用第一反卷积特征图至学习用第(n+1)反卷积特征图,(iii)流程,参照学习用第k密集对应信息,k为1至n的整数,使学习用第(k+1)反卷积特征图的坐标移动到所述学习用第一反卷积特征图的坐标,生成学习用第k调整反卷积特征图,从而生成学习用第一调整反卷积特征图至学习用第n调整反卷积特征图,及(iv)流程,将所述学习用第一反卷积特征图与所述学习用第一调整反卷积特征图至所述学习用第n调整反卷积特征图进行级联,生成至少一个学习用级联特征图;及(3)流程,将所述学习用级联特征图输入掩蔽层,从而使所述掩蔽层对所述学习用级联特征图施加至少一个掩蔽运算,生成至少一个学习用语义分割图像,使第一损失层,参照所述学习用语义分割图像和与之对应的至少一个分割GT,计算一个以上的第一损失,通过利用所述第一损失的反向传播更新所述第一解码器至所述第(n+1)解码器的各个加权值及所述第一编码器至所述第(n+1)编码器的各个加权值,以使所述第一损失最小化;的状态下,所述指令执行:(I-1)流程,获得所述测试用基础汽车的至少一个测试用基础图像和一个以上的测试用周边汽车各自的测试用第一子图像至测试用第n子图像后,n为大于0的整数,将所述测试用基础图像和各个所述测试用第一子图像至所述测试用第n子图像分别输入各个所述第一已学习密集对应网络至所述第n已学习密集对应网络,从而使所述第一至所述第n已学习密集对应网络,分别生成各个测试用第一密集对应信息至测试用第n密集对应信息,所述各个测试用第一密集对应信息至测试用第n密集对应信息表示各个所述测试用第一子图像的密集至所述测试用第n子图像的密集移动到所述测试用基础图像时,所述测试用第一子图像的密集至所述测试用第n子图像的密集分别在所述测试用基础图像上的各自的位置;(II)(II-1)流程,将所述测试用基础图像和各个所述测试用第一子图像至所述测试用第n子图像分别输入各个第一编码器至第(n+1)编码器,从而使各个所述第一编码器至所述第(n+1)编码器,对所述测试用基础图像和各个所述测试用第一子图像至所述测试用第n子图像分别施加所述卷积运算,分别输出测试用第一卷积特征图至测试用第(n+1)卷积特征图,(II-2)流程,将各个所述测试用第一卷积特征图至所述测试用第(n+1)卷积特征图输入各个第一解码器至第(n+1)解码器,从而使各个所述第一解码器至所述第(n+1)解码器对各个所述测试用第一卷积特征图至所述测试用第(n+1)卷积特征图分别施加所述反卷积运算,分别输出测试用第一反卷积特征图至测试用第(n+1)反卷积特征图,(II-3)流程,参照测试用第k密集对应信息,k为1至n的整数,使测试用第(k+1)反卷积特征图的坐标移动到所述测试用第一反卷积特征图的坐标,生成测试用第k调整反卷积特征图,从而生成测试用第一调整反卷积特征图至测试用第n调整反卷积特征图,及(II-4)流程,将所述测试用第一反卷积特征图与所述测试用第一调整反卷积特征图至所述测试用第n调整反卷积特征图进行级联,生成至少一个测试用级联特征图;及(III)流程,将所述测试用级联特征图输入所述掩蔽层,从而使所述掩蔽层对所述测试用级联特征图施加所述掩蔽运算,输出至少一个测试用语义分割图像。
23.根据权利要求22所述的测试装置,其特征在于,
所述处理器使各个所述第一至所述第n已学习密集对应网络,执行:(i)流程,将所述测试用基础图像分别输入与各个所述第一至所述第n已学习密集对应网络对应的各个第一子编码器,从而使各个所述第一子编码器,对所述测试用基础图像施加所述卷积运算,分别生成各个测试用第一子卷积特征图;(ii)流程,将各个所述测试用第一至所述测试用第n子图像分别输入与各个所述第一至所述第n已学习密集对应网络对应的各个第二子编码器,从而使各个所述第二子编码器,对各个所述测试用第一至所述测试用第n子图像分别施加所述卷积运算,分别生成各个测试用第二子卷积特征图;(iii)流程,将各个所述测试用第一子卷积特征图与各个所述测试用第二子卷积特征图进行级联,从而生成各个所述测试用第一至所述测试用第n子级联特征图;(iv)流程,将各个所述测试用第一至所述测试用第n子级联特征图分别输入与各个所述第一至所述第n已学习密集对应网络对应的各个子解码器,从而使各个所述子解码器对各个所述测试用第一至所述测试用第n子级联特征图分别施加所述反卷积运算,分别生成各个测试用第一至测试用第n子反卷积特征图;及(v)流程,将各个所述测试用第一至所述测试用第n子反卷积特征图分别输入与各个所述第一至所述第n已学习密集对应网络对应的各个回归器,从而使各个所述回归器对各个所述测试用第一至所述测试用第n密集对应信息分别施加至少一个回归运算,输出各个所述测试用第一至所述测试用第n密集对应信息。
24.根据权利要求23所述的测试装置,其特征在于,
各个所述第一至所述第n已学习密集对应网络借助于子学习装置进行学习,以便分别输出各个所述测试用第一至所述测试用第n密集对应信息,即,
获得至少一个第一训练图像及至少一个第二训练图像后,所述子学习装置执行:(i)流程,将所述第一训练图像输入各个所述第一子编码器,从而使各个所述第一子编码器对所述第一训练图像分别施加所述卷积运算,分别生成各个学习用第一子卷积特征图;(ii)流程,将所述第二训练图像输入各个所述第二子编码器,从而使各个所述第二子编码器对所述第二训练图像施加所述卷积运算,分别生成各个学习用第二子卷积特征图;(iii)将各个所述学习用第一子卷积特征图与各个所述学习用第二子卷积特征图进行级联,从而生成各个学习用子级联特征图;(iv)流程,将各个所述学习用子级联特征图分别输入各个所述子解码器,从而使各个所述子解码器对所述学习用子级联特征图分别施加所述反卷积运算,分别生成各个学习用子反卷积特征图;(v)流程,将各个所述学习用子反卷积特征图输入到各个所述回归器,使各个所述回归器分别输出各个学习用密集对应信息,所述各个学习用密集对应信息表示当所述第二训练图像的密集移动到所述第一训练图像时,所述第二训练图像的密集分别在各个所述第一训练图像上各自的位置;及(vi)流程,使第二损失层,参照所述学习用密集对应信息和密集对应GT,计算一个以上的第二损失,通过利用所述第二损失的反向传播,更新各个所述子解码器的子解码器加权值、各个所述第一子编码器及所述第二子编码器的子编码器加权值。
25.根据权利要求23所述的测试装置,其特征在于,
各个所述第一子编码器和各个所述第二子编码器共享子编码器加权值。
26.根据权利要求22所述的测试装置,其特征在于,
各个所述测试用第一至所述测试用第n密集对应信息,包括表示各个所述测试用第一至所述测试用第n子图像的各个像素与所述测试用基础图像的哪个像素对应的信息。
27.根据权利要求26所述的测试装置,其特征在于,
在各个所述测试用第一至所述测试用第n子图像的各个像素不与所述测试用基础图像的任何像素对应时,各个所述测试用第一至所述测试用第n密集对应信息包括与所述测试用基础图像的至少一个外侧拓展区域的至少一个位置对应的信息。
28.根据权利要求22所述的测试装置,其特征在于,
所述第一编码器至所述第(n+1)编码器共享编码器加权值,所述第一解码器至所述第(n+1)解码器共享解码器加权值。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962799484P | 2019-01-31 | 2019-01-31 | |
US62/799484 | 2019-01-31 | ||
US16/739,201 US10762393B2 (en) | 2019-01-31 | 2020-01-10 | Learning method and learning device for learning automatic labeling device capable of auto-labeling image of base vehicle using images of nearby vehicles, and testing method and testing device using the same |
US16/739201 | 2020-01-10 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111507983A true CN111507983A (zh) | 2020-08-07 |
CN111507983B CN111507983B (zh) | 2023-11-24 |
Family
ID=69190642
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010069132.5A Active CN111507983B (zh) | 2019-01-31 | 2020-01-21 | 利用周边汽车的图像自动标注基础汽车的图像的方法及装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10762393B2 (zh) |
EP (1) | EP3690797A3 (zh) |
JP (1) | JP6849888B2 (zh) |
KR (1) | KR102349946B1 (zh) |
CN (1) | CN111507983B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11450008B1 (en) * | 2020-02-27 | 2022-09-20 | Amazon Technologies, Inc. | Segmentation using attention-weighted loss and discriminative feature learning |
US10963792B1 (en) * | 2020-03-26 | 2021-03-30 | StradVision, Inc. | Method for training deep learning network based on artificial intelligence and learning device using the same |
CN112862840B (zh) * | 2021-03-04 | 2023-07-04 | 腾讯科技(深圳)有限公司 | 图像分割方法、装置、设备及介质 |
KR102379636B1 (ko) | 2021-08-11 | 2022-03-29 | 주식회사 에스아이에이 | 딥러닝 기반의 어노테이션 방법 |
CN115457119B (zh) * | 2022-09-21 | 2023-10-27 | 正泰集团研发中心(上海)有限公司 | 汇流条的标注方法、装置、计算机设备及可读存储介质 |
CN115966029B (zh) * | 2023-03-09 | 2023-11-07 | 珠海金智维信息科技有限公司 | 一种基于注意力机制的离线签名认证方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170262735A1 (en) * | 2016-03-11 | 2017-09-14 | Kabushiki Kaisha Toshiba | Training constrained deconvolutional networks for road scene semantic segmentation |
WO2018035805A1 (en) * | 2016-08-25 | 2018-03-01 | Intel Corporation | Coupled multi-task fully convolutional networks using multi-scale contextual information and hierarchical hyper-features for semantic image segmentation |
US9947103B1 (en) * | 2017-10-03 | 2018-04-17 | StradVision, Inc. | Learning method and learning device for improving image segmentation and testing method and testing device using the same |
US9953236B1 (en) * | 2017-03-10 | 2018-04-24 | TuSimple | System and method for semantic segmentation using dense upsampling convolution (DUC) |
CN108062754A (zh) * | 2018-01-19 | 2018-05-22 | 深圳大学 | 基于密集网络图像的分割、识别方法和装置 |
US20180268284A1 (en) * | 2017-03-15 | 2018-09-20 | Samsung Electronics Co., Ltd. | System and method for designing efficient super resolution deep convolutional neural networks by cascade network training, cascade network trimming, and dilated convolutions |
CN108717569A (zh) * | 2018-05-16 | 2018-10-30 | 中国人民解放军陆军工程大学 | 一种膨胀全卷积神经网络及其构建方法 |
CN109145920A (zh) * | 2018-08-21 | 2019-01-04 | 电子科技大学 | 一种基于深度神经网络的图像语义分割方法 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3306528B1 (en) * | 2016-10-04 | 2019-12-25 | Axis AB | Using image analysis algorithms for providing traning data to neural networks |
US10176388B1 (en) | 2016-11-14 | 2019-01-08 | Zoox, Inc. | Spatial and temporal information for semantic segmentation |
US10387736B2 (en) * | 2017-09-20 | 2019-08-20 | TuSimple | System and method for detecting taillight signals of a vehicle |
US10535138B2 (en) * | 2017-11-21 | 2020-01-14 | Zoox, Inc. | Sensor data segmentation |
US11042163B2 (en) * | 2018-01-07 | 2021-06-22 | Nvidia Corporation | Guiding vehicles through vehicle maneuvers using machine learning models |
US10345822B1 (en) * | 2018-01-26 | 2019-07-09 | Ford Global Technologies, Llc | Cognitive mapping for vehicles |
US10628686B2 (en) * | 2018-03-12 | 2020-04-21 | Waymo Llc | Neural networks for object detection and characterization |
CN110494863B (zh) * | 2018-03-15 | 2024-02-09 | 辉达公司 | 确定自主车辆的可驾驶自由空间 |
US10420051B2 (en) * | 2018-03-27 | 2019-09-17 | Intel Corporation | Context aware synchronization methods for decentralized V2V networks |
US11562208B2 (en) * | 2018-05-17 | 2023-01-24 | Qualcomm Incorporated | Continuous relaxation of quantization for discretized deep neural networks |
WO2019241022A1 (en) * | 2018-06-13 | 2019-12-19 | Nvidia Corporation | Path detection for autonomous machines using deep neural networks |
EP4339905A3 (en) * | 2018-07-17 | 2024-06-26 | NVIDIA Corporation | Regression-based line detection for autonomous driving machines |
US20200033869A1 (en) * | 2018-07-27 | 2020-01-30 | GM Global Technology Operations LLC | Systems, methods and controllers that implement autonomous driver agents and a policy server for serving policies to autonomous driver agents for controlling an autonomous vehicle |
US10902616B2 (en) * | 2018-08-13 | 2021-01-26 | Nvidia Corporation | Scene embedding for visual navigation |
US10565476B1 (en) * | 2018-09-04 | 2020-02-18 | StradVision, Inc. | Method and computing device for generating image data set for learning to be used for detection of obstruction in autonomous driving circumstances and learning method and learning device using the same |
US10922817B2 (en) * | 2018-09-28 | 2021-02-16 | Intel Corporation | Perception device for obstacle detection and tracking and a perception method for obstacle detection and tracking |
-
2020
- 2020-01-10 US US16/739,201 patent/US10762393B2/en active Active
- 2020-01-20 KR KR1020200007641A patent/KR102349946B1/ko active IP Right Grant
- 2020-01-21 CN CN202010069132.5A patent/CN111507983B/zh active Active
- 2020-01-23 EP EP20153297.5A patent/EP3690797A3/en active Pending
- 2020-01-24 JP JP2020009847A patent/JP6849888B2/ja active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170262735A1 (en) * | 2016-03-11 | 2017-09-14 | Kabushiki Kaisha Toshiba | Training constrained deconvolutional networks for road scene semantic segmentation |
WO2018035805A1 (en) * | 2016-08-25 | 2018-03-01 | Intel Corporation | Coupled multi-task fully convolutional networks using multi-scale contextual information and hierarchical hyper-features for semantic image segmentation |
US9953236B1 (en) * | 2017-03-10 | 2018-04-24 | TuSimple | System and method for semantic segmentation using dense upsampling convolution (DUC) |
US20180268284A1 (en) * | 2017-03-15 | 2018-09-20 | Samsung Electronics Co., Ltd. | System and method for designing efficient super resolution deep convolutional neural networks by cascade network training, cascade network trimming, and dilated convolutions |
US9947103B1 (en) * | 2017-10-03 | 2018-04-17 | StradVision, Inc. | Learning method and learning device for improving image segmentation and testing method and testing device using the same |
CN108062754A (zh) * | 2018-01-19 | 2018-05-22 | 深圳大学 | 基于密集网络图像的分割、识别方法和装置 |
CN108717569A (zh) * | 2018-05-16 | 2018-10-30 | 中国人民解放军陆军工程大学 | 一种膨胀全卷积神经网络及其构建方法 |
CN109145920A (zh) * | 2018-08-21 | 2019-01-04 | 电子科技大学 | 一种基于深度神经网络的图像语义分割方法 |
Non-Patent Citations (3)
Title |
---|
CAO GU,等: "Joint Multiple Image Parametric Transformation Estimation Via Convolutional Neural Networks", vol. 6, pages 18822, XP011681521, DOI: 10.1109/ACCESS.2018.2808459 * |
IGNACIO ROCCO,等: "Convolutional Neural Network Architecture for Geometric Matching", vol. 41, no. 11, pages 2553, XP011748098, DOI: 10.1109/TPAMI.2018.2865351 * |
LINGNI MA,等: "Multi-view deep learning for consistent semantic mapping with RGB-D cameras", pages 2 * |
Also Published As
Publication number | Publication date |
---|---|
EP3690797A3 (en) | 2020-08-12 |
US20200250492A1 (en) | 2020-08-06 |
CN111507983B (zh) | 2023-11-24 |
JP6849888B2 (ja) | 2021-03-31 |
US10762393B2 (en) | 2020-09-01 |
KR102349946B1 (ko) | 2022-01-12 |
JP2020126635A (ja) | 2020-08-20 |
KR20200095386A (ko) | 2020-08-10 |
EP3690797A2 (en) | 2020-08-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111507927B (zh) | 在神经网络中统合图像及点云图的方法及装置 | |
CN110874563B (zh) | 通过cnn的多个图像输出的提供集成的特征图的方法及装置 | |
CN111507983A (zh) | 利用周边汽车的图像自动标注基础汽车的图像的方法及装置 | |
US10509987B1 (en) | Learning method and learning device for object detector based on reconfigurable network for optimizing customers' requirements such as key performance index using target object estimating network and target object merging network, and testing method and testing device using the same | |
US10410120B1 (en) | Learning method and testing method of object detector to be used for surveillance based on R-CNN capable of converting modes according to aspect ratios or scales of objects, and learning device and testing device using the same | |
US10430691B1 (en) | Learning method and learning device for object detector based on CNN, adaptable to customers' requirements such as key performance index, using target object merging network and target region estimating network, and testing method and testing device using the same to be used for multi-camera or surround view monitoring | |
EP3686795B1 (en) | Learning method and learning device for improving segmentation performance to be used for detecting events including pedestrian event, vehicle event, falling event and fallen event using edge loss and test method and test device using the same | |
JP6912835B2 (ja) | 自律走行自動車のレベル4を満たすために要求されるhdマップアップデートに利用される、少なくとも一つのアダプティブロス重み付け値マップを利用したアテンションドリブン・イメージセグメンテーション学習方法及び学習装置、そしてこれを利用したテスティング方法及びテスティング装置 | |
US10423860B1 (en) | Learning method and learning device for object detector based on CNN to be used for multi-camera or surround view monitoring using image concatenation and target object merging network, and testing method and testing device using the same | |
EP3686792A1 (en) | Method and device for segmenting image to be used for surveillance using weighted convolution filters for respective grid cells by converting modes according to classes of areas to satisfy level 4 of autonomous vehicle, and testing method and testing device using the same | |
CN110879960B (zh) | 生成卷积神经网络学习用图像数据集的方法及计算装置 | |
US10796206B2 (en) | Method for integrating driving images acquired from vehicles performing cooperative driving and driving image integrating device using same | |
CN111507152B (zh) | 基于内置独立型预测来转换自动驾驶模式的方法及装置 | |
CN111460877A (zh) | 利用图像级联及cnn的客体检测方法及装置 | |
US10402686B1 (en) | Learning method and learning device for object detector to be used for surveillance based on convolutional neural network capable of converting modes according to scales of objects, and testing method and testing device using the same | |
CN114067142B (zh) | 一种实现场景结构预测、目标检测和车道级定位的方法 | |
CN111508252A (zh) | 利用v2x信息集成技术更新高清地图的方法和装置 | |
JP7291299B2 (ja) | 走行環境に適応するように自律走行車両のディープラーニング基盤のオブジェクト検出器をアップデートするための学習方法及び学習装置、並びにそれを利用したアップデート方法及びアップデート装置 | |
US10373004B1 (en) | Method and device for detecting lane elements to plan the drive path of autonomous vehicle by using a horizontal filter mask, wherein the lane elements are unit regions including pixels of lanes in an input image | |
Ren et al. | T-UNet: A novel TC-based point cloud super-resolution model for mechanical lidar | |
CN113343817A (zh) | 一种面向目标区域的无人车路径检测方法、装置及介质 | |
CN112270232A (zh) | 对车辆周围的弱势交通参与者进行分类的方法和装置 | |
KR20220134428A (ko) | 서로 다른 스펙을 가지는 영상 장치들로부터 획득된 이미지들을 이용하여 퍼셉션 네트워크를 학습 및 테스트하는 방법 및 이를 이용한 학습 및 테스트 장치 | |
CN118279587A (zh) | 一种基于RemoteCLIP图像编码器的多尺度特征融合遥感图像语义分割方法 | |
CN116796798A (zh) | 一种用于图像数据识别模型构建的方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |