CN111462131B - 一种注意力驱动图像分割的方法和设备 - Google Patents

一种注意力驱动图像分割的方法和设备 Download PDF

Info

Publication number
CN111462131B
CN111462131B CN202010052414.4A CN202010052414A CN111462131B CN 111462131 B CN111462131 B CN 111462131B CN 202010052414 A CN202010052414 A CN 202010052414A CN 111462131 B CN111462131 B CN 111462131B
Authority
CN
China
Prior art keywords
loss
function
value
cnn
pixels
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010052414.4A
Other languages
English (en)
Other versions
CN111462131A (zh
Inventor
金桂贤
金镕重
金寅洙
金鹤京
南云铉
夫硕焄
成明哲
吕东勋
柳宇宙
张泰雄
郑景中
诸泓模
赵浩辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Stradvision Inc
Original Assignee
Stradvision Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Stradvision Inc filed Critical Stradvision Inc
Publication of CN111462131A publication Critical patent/CN111462131A/zh
Application granted granted Critical
Publication of CN111462131B publication Critical patent/CN111462131B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/001Planning or execution of driving tasks
    • B60W60/0015Planning or execution of driving tasks specially adapted for safety
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/0088Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle
    • G06T2207/30256Lane; Road marking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Automation & Control Theory (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Business, Economics & Management (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Game Theory and Decision Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Human Computer Interaction (AREA)
  • Transportation (AREA)
  • Mechanical Engineering (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Algebra (AREA)

Abstract

本申请提供一种使用至少一个自适应损失加权图进行注意力驱动的图像分割的方法和设备,以用于更新满足自动驾驶汽车的等级4所需的HD图。通过这种方法,可以更精确地检测距离较远的模糊物体,例如车道和道路标记。该方法包括以下步骤:学习设备指示函数层生成函数分数的步骤;指示损失加权层进行损失加权运算产生预测误差值的步骤;以及指示函数损失层通过参考所述初始函数损失值及其对应的GT值,生成初始函数损失值,并参考所述损失加权值生成调整后的函数损失值的步骤。

Description

一种注意力驱动图像分割的方法和设备
技术领域
本申请涉及一种用于注意力驱动(Attention-Driven)的图像分割的方法,该方法通过使用至少一个自适应(Adaptive)损失加权图来更新高清(HD)图,以满足自动驾驶汽车的等级4的要求。更具体地说,一种通过使用至少一个自适应损失加权图进行图像分割的方法、学习设备,以及利用该方法和学习设备的测试方法、测试设备(LEARNING METHOD ANDLEARNING DEVICE FOR ATTENTION-DRIVEN IMAGE SEGMENTATION BY USING AT LEAST ONEADAPTIVE LOSS WEIGHT MAP TO BE USED FOR UPDATING HD MAPS REQUIRED TO SATISFYLEVEL 4OF AUTONOMOUS VEHICLES AND TESTING METHOD AND TESTING DEVICE USING THESAME)。其中,所述方法包括以下步骤:
步骤(a)、当获取至少一个输入图像时,(i)指示CNN的编码(Encoding)层通过对所述输入图像进行一个以上的卷积运算,生成至少一个特征图,以及(ii)指示所述CNN的解码(Decoding)层通过对所述特征图进行一个以上的反卷积运算,分别生成与所述输入图像的每个像素相对应的每个分割(segmentation)分数(score);
步骤(b)、指示所述CNN的函数层通过对所述每个分割分数进行函数(softmax)运算,生成与所述输入图像的每个像素相对应的每个函数分数;
步骤(c)、指示所述CNN的损失加权层,(i)通过参考所述函数分数及其对应的地面实际情况(Ground Truth,GT)值,生成与所述输入图像的每个所述像素相对应的每个预测误差值,以及(ii)通过对每个所述预测误差值进行损失加权运算,来确定与所述输入图像的每个所述像素相对应的损失加权值,其中,所述损失加权运算允许每个所述损失加权值之间的差大于每个所述预测误差值之间的差;以及
步骤(d)、(i)指示所述CNN的函数损失层,(1)通过参考每个所述函数分数及其对应的GT值来生成与所述输入图像的每个所述像素相对应的每个初始函数损失值,(2)通过参考每个所述初始函数损失值和每个所述损失加权值,生成与所述输入图像的每个所述像素相对应的每个调整后的函数损失值,以及(ii)通过对所述调整后的函数损失值进行反向传播(Backpropagation),学习所述CNN的参数。
背景技术
深度卷积神经网络(Deep Convolutional Neural Network;Deep CNN)是深度学习领域显着发展的核心。尽管CNN在1990年代被用来解决字符识别问题,但直到最近,CNN才在机器学习中得到广泛应用,而这些都需要归功于最近的研究结果。例如,在2012年,CNN在ImageNet图像分类识别挑战赛中大胜竞争对手,并赢得了竞赛。之后,CNN成为了机器学习领域中非常有用的工具。
同时,图像分割(Image Segmentation)是一种使用输入图像(例如,训练图像或测试图像)生成标签(label)图像的方法。近年来,深度学习(Deep Learning)已变得非常广泛,以至于将深度学习应用于图像分割。
当学习用于图像分割的CNN的参数时,基本上图像中的所有区域均以相同的加权进行学习。然而,在图像中与至少一个重要区域相对应的至少一个特定区域是小的区域的情况下,所述重要区域中包括的像素的数量也小。因此,与所述重要区域相对应的错误较少地反映在损失上,从而不能正确地学习重要区域。
发明内容
本申请的目的是解决上述所有问题。
本申请的另一个目的是提供一种方法,即使重要区域具有少量像素,也可以通过向重要区域分配较大的加权来生成图像中重要区域的最佳分割分数。
如上述记载,为了达到本申请的目的,并实现本申请的特定效果,本申请提供如下特征结构。
本申请的一实施例提供一种通过使用至少一个自适应损失加权图进行图像分割的方法,包括以下步骤:
步骤(a)、学习设备,当获取至少一个输入图像时,(i)指示CNN的编码(Encoding)层通过对所述输入图像进行一个以上的卷积运算来生成至少一个特征图,以及(i i)指示所述CNN的解码(Decoding)层通过对所述特征图进行一个以上的反卷积运算,分别生成与所述输入图像的每个像素相对应的每个分割分数;
步骤(b)、所述学习设备指示所述CNN的函数层通过对所述每个分割分数应用函数运算,生成与所述输入图像的每个像素相对应的每个函数分数;
步骤(c)、所述学习设备指示所述CNN的损失加权层,(i)通过参考所述函数分数及其对应的GT(Ground Truth)值,生成与所述输入图像的所述每个像素相对应的每个预测误差值,以及(i i)通过对所述每个预测误差值进行损失加权运算,生成与所述输入图像的每个所述像素相对应的每个损失加权值,其中,所述损失加权运算允许每个损失加权值之间的差异大于所述每个预测误差值之间的差异;以及
步骤(d)、所述学习设备,(i)指示CNN,(1)使函数损失层通过参考每个函数分数及其对应的GT值,生成与所述输入图像的所述每个像素相对应的每个初始函数损失值,并(2)通过参考所述每个初始函数损失值和所述每个损失加权值,生成与所述输入图像的每个所述像素相对应的每个调整的函数损失值,以及(i i)通过反向传播(Backpropagation)调整后的所述函数损失值,学习所述CNN的参数。
在本申请的一实施例中,步骤(c)的所述损失加权运算遵循以下公式,第i个像素的损失加权值=αi×Eii,其中,αi是与所述第i个像素相对应的尺度参数。Ei是与所述像素中第i个像素相对应的所述预测误差值,βi是与所述像素中第i个像素相对应的偏差参数,i是1以上且s以下的整数,s是所述输入图像中包含的像素的数量。
在本申请的一实施例中,步骤(d)中的所述学习设备指示CNN的函数损失层通过将每个损失加权值与其相应的初始函数损失值相乘,生成每个调整后的所述函数损失值。
在本申请的一实施例中,步骤(d)的所述初始函数损失值通过以下公式得到,即,
Figure GDA0004182861240000041
其中,s是所述输入图像中包含的像素的数量,li是独热编码矢量(One-Hot Encoding),表示第i个像素在其对应的GT值中所属的群集,并且P(i)是与所述第i像素的函数分数相对应的矢量。/>
在本申请的一实施例中,所述输入图像包括关于道路行驶情况的信息,并且所述学习设备通过所述损失加权层分配与所述输入图像的至少一个车道部分相对应的第一损失加权值以及分配与所述输入图像的背景部分相对应的第二损失加权值,其中,所述第一损失加权值大于第二损失加权值。在确定每个所述损失加权值的状态下,所述学习设备通过反向传播,参考每个所述损失加权值及其对应的所述初始函数损失值生成的调整后的所述函数损失值来学习所述CNN的所述参数。
在本申请的另一实施例中,提供一种通过使用至少一个自适应损失加权图来进行图像分割的测试方法,包括以下步骤:
步骤(a)、(I)当获取至少一个训练图像时,学习设备,(i)指示CNN的编码层通过对训练图像应用一个以上卷积运算,生成至少一个学习用特征图,并且(ii)指示所述CNN的解码层通过将一个以上的反卷积运算应用于所述学习用特征图上,以生成与所述训练图像的每个像素相对应的学习用分割分数;(II)所述学习设备指示所述CNN的函数层,通过对每个学习用分割分数进行函数运算,以生成与所述训练图像的每个所述像素相对应的每个学习用函数分数;(III)所述学习设备指示所述CNN的损失加权层,(i)通过参考学习用函数分数及其相应的GT(Ground Truth)值,生成与所述训练图像的每个所述像素相对应的每个预测误差值,以及(ii)通过对每个所述预测误差值进行损失加权运算,生成与所述训练图像的每个所述像素相对应的每个损失加权值,其中,所述损失加权运算允许每个损失加权之间的差异大于相对应的每个所述预测误差值之间的差异;(IV)所述学习设备,(i)指示CNN的函数损失层,(1)通过参考每个所述学习用函数分数以及其对应的GT值,生成与所述训练图像的每个所述像素相对应的每个初始函数损失值,并(2)通过参考每个所述初始函数损失值和每个学习用损失加权值,生成与所述训练图像的每个所述像素相对应的每个调整后的函数损失值,之后(ii)通过反向传播调整后的函数损失值,学习了所述CNN的参数的状态下,当获取到至少一个测试图像时,测试设备,(i)指示CNN的编码层通过对所述测试图像进行一次以上的卷积运算,生成至少一个测试用特征图,以及(ii)指示解码层通过对所述测试用特征图进行一个以上反卷积运算,生成与所述测试图像的每个所述像素相对应的测试用分割分数;以及
步骤(b)、所述测试设备指示CNN的函数层通过对每个所述测试用分割分数进行函数运算,生成与所述测试图像的每个所述像素相对应的每个测试用函数分数。
在本申请的又另一实施例中,提供一种通过使用至少一个自适应损失加权图来进行图像分割的学习设备,该学习设备包括:至少一个用于存储指令的存储器;以及至少一个处理器,其用于执行所述指令,以及执行以下处理:(I)(i)指示CNN的编码层通过对所述输入图像进行一个以上卷积运算,生成至少一个特征图,以及(ii)指示所述CNN的解码层通过对所述特征图进行一个以上反卷积运算,生成与所述输入图像的每个像素相对应的每个分割分数,(II)指示所述CNN的函数层通过对每个所述分割分数进行函数运算,生成与所述输入图像的每个所述像素相对应的每个函数分数,(III)指示所述CNN的损失加权层,(i)通过参考函数分数及其对应的GT值,生成与所述输入图像的每个所述像素相对应的每个预测误差值,(ii)通过对每个所述预测误差值进行损失加权运算,生成与所述输入图像的每个所述像素相对应的每个损失加权值,其中,所述损失加权运算允许每个所述损失加权值之间的差异大于每个所述预测误差值之间的差异,以及(IV)(i)指示CNN的函数损失层,(1)通过参考每个所述函数分数及其对应的GT值,生成与所述输入图像的每个所述像素相对应的每个初始函数损失值,(2)通过参考每个所述初始函数损失值和每个所述损失加权值,生成与所述输入图像的每个所述像素相对应的每个调整后的函数损失值,(ii)通过反向传播所述调整后的函数损失值,学习所述CNN的参数。
在本申请的一实施例中,(III)的处理中,损失加权运算遵循以下公式,第i个像素的损失加权值=αi×Eii,其中,αi是与所述第i个像素相对应的尺度参数。Ei是与所述像素中第i个像素相对应的预测误差值,βi是与所述像素中第i个像素相对应的偏差参数,i是1以上且s以下的整数,s是所述输入图像中包含的像素的数量。
在本申请的一实施例中,在(IV)的过程中,处理器指示所述CNN的所述函数损失层通过将每个损失加权值与其对应的所述初始函数损失值相乘来生成每个所述调整后的函数损失值。
在本申请的一实施例中,在(IV)的过程中,所述初始函数损失值是通过以下公式生成的,即,
Figure GDA0004182861240000061
其中,s是所述输入图像中包含的像素数量,li是独热编码矢量(One-Hot Encoding),表示第i个像素在其对应的GT值中所属的群集,并且P(i)是与所述第i像素的函数分数相对应的矢量。
在本申请的一实施例中,所述输入图像包括关于道路行驶情况的信息,并且所述处理器通过所述损失加权层分配与所述输入图像的至少一个车道部分相对应的第一损失加权值以及分配与所述输入图像的背景部分相对应的第二损失加权值,其中,所述第一损失加权值大于第二损失加权值。在确定每个所述损失加权值的状态下,所述学习设备通过反向传播,参考每个所述损失加权值及其对应的所述初始函数损失值生成的调整后的所述函数损失值来学习所述CNN的所述参数。
在本申请的又另一些实施例中,提供一种通过使用至少一个自适应损失加权图进行图像分割的测试设备,包括:至少一个存储指令的存储器;以及至少一个处理器,其用于执行所述指令,以及执行以下处理:(I)当获取到至少一个训练图像时,学习设备,(i)指示CNN的编码层通过对所述训练图像进行一个以上的卷积运算,生成至少一个学习用特征图,并且(ii)指示所述CNN的解码层通过对所述学习用特征图进行一个以上的反卷积运算,生成与所述训练图像的每个所述像素相对应的学习用分割分数;(II)学习设备指示所述CNN的函数层,通过对每个所述学习用分割分数进行函数运算,生成与所述训练图像的每个所述像素相对应的每个学习用函数分数;(III)所述学习设备指示所述CNN的损失加权层,(i)通过参考所述学习用函数分数及其相应的GT值,生成与所述训练图像的每个所述像素相对应的每个预测误差值,以及(ii)通过对每个预测误差值进行损失加权运算,生成与所述训练图像的每个所述像素相对应的每个损失加权值,其中,所述损失加权运算允许每个所述损失加权值之间的差异大于每个预测误差值之间的差异;(IV)所述学习设备,(i)指示CNN的函数损失层,(1)通过参考每个学习用的函数分数及其对应的GT值,生成与所述训练图像的每个所述像素相对应的每个初始函数损失值,并(2)通过参考每个所述初始函数损失值和每个所述损失加权值,生成与所述训练图像的每个所述像素对应的每个调整后的函数损失值,以及(ii)通过反向传播所述调整后的函数损失值,学习CNN的参数的情况下,(A)(i)指示所述CNN的编码层对所述至少一个测试图像进行所述卷积运算,生成至少一个测试用特征图,(ii)指示所述CNN的所述解码层对所述测试用特征图进行所述反卷积运算,生成与所述测试图像的每个像素相对应的每个测试用分割分数,以及(B)指示所述CNN的所述函数层通过对所述测试图像进行所述函数运算,生成与所述测试图像的每个所述像素相对应的每个函数分数。
本申请的有益效果为,在自动驾驶过程中,需要识别车道等情况下,即使图像上的像素数量较少,但仍然可以利用重要部分,得到最优的分割结果。
附图说明
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本申请学习设备的结构示意图。
图2为本申请的CNN的结构及使用该CNN进行学习的过程示意图。
图3为图像示意图,该图像包括其中具有少量像素的重要区域。
图4为图3的输入图像的分割结果示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。本申请的多个实施例虽然相互不同,但相互之间也不存在相斥的情况。例如,所记载的特征形状、结构及特性在一实施例中只要不超过本申请的精神以及保护范围时,也可以以其他实施例来体现。而且,各实施例中公开的个别结构要素的位置或配置,在不脱离本申请的精神以及保护范围的情况下,可作变更。因此,凡是本申请的权利要求所主张的内容及等同于该内容的所有内容均属于本申请的保护范围,而下面所描述的实施例并不是为了限定本申请的保护范围。附图中类似的参考符号是相同或具备的功能类似的部件名称。
此外,在本申请的描述中,需要理解的是,术语“包括”及其变化形式的其他术语等仅是为了添加其他技术特征、附加物、组件或步骤,本申请的其他目的、有益效果、特征等内容将通过说明书和本申请的实施方式向本领域技术人员揭示。以下通过一些实施例和附图具体说明本申请的保护内容,当然,它们仅仅为示例,并且目的不在于限制本申请。
本申请内容中提及的任何图像都可以包括与任何已铺设或未铺设的道路有关的图像,在这种情况下,道路上或道路附近的物体可能包括车辆,人员,动物,植物,建筑物,飞行物体(例如飞机或无人机),或可能出现在与道路有关的场景中的任何其他障碍物,但是本申请的范围不限于此。作为另一示例,本申请中提及的所述任何图像可以包括与任何道路都不相关的图像,诸如与巷道,土地,海洋,湖泊,河流,山脉,森林,沙漠,天空或任何室内空间有关的图像,在这种情况下,上述任何图像中的物体可能包括车辆,人员,动物,植物,建筑物,飞行物体(如飞机或无人驾驶飞机),轮船,两栖飞机或轮船,或可能出现在与小巷有关的场景中的任何其他障碍物,土地,海洋,湖泊,河流,山脉,森林,沙漠,天空或任何室内空间,但是本申请的范围不限于此。
为了使本申请的本领域技术人员能够容易地实施,将通过参考附图来详细说明本申请的示例实施方式,如下所示。
图1为本申请学习设备的结构示意图。
参考图1,学习设备100可以包括CNN200。所述CNN200的各种输入和输出数据的功能以及运算过程分别由其中的通信部分110和处理器120执行。但是,在图1中,省略了关于所述通信部分110和所述处理器120如何连接的详细说明。另外,所述学习设备100还可包括能够存储用于执行以下处理的计算机可读指令(Computer Readable Instruction)的存储器115。作为一个示例,所述处理器、所述存储器、介质(Medium)等可以与集成处理器集成。
图2为本申请的所述CNN的结构及使用该CNN进行学习的过程示意图。
参考图2,所述CNN200可以包括编码层210、解码层220、函数层230、损失加权层240和函数损失层250。
具体地,当所述通信部分110获取了至少一个输入图像时,所述学习设备100可以指示所述编码层210通过对所述输入图像进行一个以上的卷积运算来生成至少一个编码特征图,并且指示所述解码层220通过对从所述编码层210输出的所述编码特征图进行一个以上的反卷积运算来生成与所述输入图像的每个像素相对应的每个分割分数。这里,从所述编码层210输出的所述编码特征图可以是最后从所述编码层210输出的特征图,但不限于此。
所述函数层230可以通过应用函数运算来生成函数分数,该运算使所述分割分数归一化,以便将其对应的每一个函数分数在输出时,其概率为0到1。这里,所述分割分数可以对应于最终从所述解码层220输出的解码特征图,但是可以不限于此。
并且,所述损失加权层240可以通过参考所述函数分数及其对应的GT值来生成预测误差值,并且可以通过将损失加权操作应用于所述预测误差值来生成损失加权值。稍后可以参考图3和图4来说明所述损失加权操作。
所述函数损失层250通过参考所述函数分数及其相应的GT值来生成初始函数损失值,并且可以通过参考所述初始函数损失值和所述损失加权值来生成调整后的函数损失值。之后,所述学习设备100可以通过对调整后的所述函数损失值进行反向传播,学习所述CNN200的参数。
以上说明了根据本申请的所述CNN200的结构和简要学习过程,以下将详细说明本申请的具体学习过程。
由于前面已经说明了在所述编码层210、所述解码层220和所述函数层230中处理的运算,因此下面将说明生成预测误差值的过程。
为了解释在所述损失加权层240中产生预测误差值的过程,可以参考图3和图4。
图3为图像示意图,该图像包括其中具有少量像素的重要区域。
参考图3,在自动驾驶情况下,如果将图3的图像利用于学习检测车道的CNN,则在自动驾驶时较重要的车道部分的面积比起所述图像上端的天空部分、图像右侧的山丘部分、以及图像中心的车道部分以外的道路区域小。由于重要区域(即,车道部分)中的像素数量少,因此可能导致未优化的分割结果。图4示出了这种未优化的分割结果。
图4为图3中所示的所述输入图像经过所述编码层210、所述解码层220以及所述函数层230后获得的分割结果示意图。
参考图4,在所述图像上端的天空部分和所述图像右侧的山丘部分中有太多像素,使得所述CNN200可以准确地识别天空的部分和山丘部分。因此,如图4所示,分配给所述天空部分和所述山丘部分的概率接近于1。但是,作为所述自动驾驶的所述重要区域,所述车道部分中的像素少,因此,CNN200可能无法准确识别所述车道部分。因此,如图4所示,分配给所述车道部分的概率相对较低,例如0.82、0.76、0.84。
如图4所示,生成所述函数分数之后,所述损失加权层240可以通过参考所述函数分数及其对应的GT值来生成所述预测误差值。详细地,所述损失加权层240可以通过使用与所述输入图像的每个像素相对应的每个函数分数以及与所述GT值相对应的GT矢量之间的欧几里得距离(Euclidean Distance)来生成所述预测误差值。
例如,参考图4,对应于左车道上的特定像素的特定函数分数是(0.1,0.82,0.08,0,0),并且其对应的GT矢量是(0,1,0,0,0),因此,将所述特定像素的特定预测误差值计算为
Figure GDA0004182861240000111
以此类方式,可以生成与所述输入图像的每个像素相对应的每个所述预测误差值。其中,所述背景部分(例如,图3中除所述山丘、所述天空以及所述车道部分外的道路区域)中包括的像素数量比所述车道内包含的像素数量多,因此,所述背景部分更容易且更准确的被所述CNN200预测,不言而喻的是,所述背景部分中包含的像素所对应的预测误差值会更小。
在所述CNN200指示所述损失加权层240生成所述预测误差值之后,所述CNN200再次指示所述损失加权层240通过对所述预测误差值进行所述损失加权运算,生成所述损失加权值。其中,所述损失加权运算允许每个所述损失加权值之间的差异大于每个所述预测误差值之间的差异。此类特征是,尽管所述重要区域内的像素数量少,但仍以较大的加权来反映所述重要区域的误差在其损失上。下面将对其进行详细说明。
本申请的一实施例中,提供一种生成损失加权值的方法,所述损失加权运算可以遵循以下公式,第i个像素的损失加权值=αi×Eii,其中,αi是与所述像素中的第i个像素相对应的尺度参数,Ei是与所述像素中的所述第i个像素相对应的所述预测误差值,βi是与所述像素中的所述第i个像素相对应的偏差参数,i是1以上且s以下的整数,s是所述像素内包含的所述像素数量。由于αi大于1,因此可以实现上述的损失加权运算的特征。
同时,即使仅尺度参数ai与上述特征有关,但,在公式中包括偏差参数βi的原因是,与所述背景部分相对应的所述预测误差值接近于0,从而可能引起调整后的所述函数损失值存在一些失真,这将在后面解释。
所述损失加权值会传达给所述函数损失层250。然后,所述函数损失层250可以通过参考所述损失加权值和所述初始函数损失值来生成调整后的所述函数损失值。关于生成所述初始函数损失值的过程说明如下。
首先,所述CNN200可以指示所述函数损失层250获取从所述函数层230输出的所述函数分数。然后,所述函数损失层250可以通过参考所述函数分数及其对应的GT值来生成所述初始函数损失值。即使在生成所述初始函数损失时要参考的值与在生成所述损失加权时要参考的值相同,这两个生成过程也完全不同,如下所示。
Figure GDA0004182861240000121
/>
可以通过参考上式,生成所述初始函数损失值,其中,li是独热编码矢量,表示第i个像素在其对应的GT值上所属的群集,而P(i)是所述第i个像素的函数分数所对应的矢量。
尤其地,P(i)的最大元素值表示所述第i个像素所属的群集的预测结果值,并且li是作为正确答案矢量的独热编码矢量。在sigma运算的每次迭代中,P(i)和li将进行内积(Inner Product)运算。
例如,参考图4,包括在所述左侧车道中的所述第i个像素相对应的P(i)为(0.1,0.82,0.08,0,0),并且对应的li为(0,1,0,0,0),因此,对应于所述第i个像素的所述初始函数损失值将是-log(0.82)。
在如上所述生成初始函数损失值之后,所述函数损失层250可以通过参考所述初始函数损失值和所述损失加权值,生成调整后的所述函数损失值。
这时,所述损失加权值与所述初始函数损失值相乘得到调整后的所述函数损失值。由于将与所述背景部分相对应的所述损失加权值调整为较小,而将与所述车道部分相对应的所述损失加权值调整为较大,因此,所述损失加权值和所述初始函数损失值由于乘积的增加,与所述车道部分对应的误差值较大的反映在了所述调整后的函数损失值上。
所述学习设备100为了使像素较少区域的所述输入图像也能准确的被分割,通过将调整后的所述函数损失值进行反向传播,学习所述CNN200的参数,其中,所述调整后的函数损失值是将所述重要区域相对应的误差较大的反映进去后的相应值。
上面说明了本申请的所述学习过程,以下将说明本申请的测试设备的结构。
作为参考,在以下描述中,与学习过程有关的术语添加了短语“训练用”,与测试过程有关的术语添加了短语“测试用”,以避免可能的混淆。
首先,(I)当获取至少一个训练图像时,所述学习设备100,(i)指示所述CNN200的所述编码层210对所述训练图像进行一个以上的卷积运算,生成至少一个学习用特征图,以及(ii)指示所述CNN200的所述解码层220对所述学习用特征图进行一个以上的反卷积运算,生成与所述训练图像的每个像素相对应的每个学习用分割分数;(II)所述学习设备100指示所述CNN200的所述函数层230对每个所述学习用分割分数进行所述函数运算,生成与所述训练图像的每个所述像素相对应的每个学习用函数分数;(III)所述学习设备100指示所述CNN200的所述损失加权层240,(i)通过参考所述学习用函数分数及其对应的GT值,生成与所述训练图像的每个所述像素相对应的每个所述预测误差值,以及(ii)通过对每个所述预测误差值进行所述损失加权运算,生成与所述训练图像的每个所述像素相对应的每个所述损失加权值,其中,所述损失加权运算允许每个所述损失加权值之间的差异大于每个所述预测误差值之间的差异;(IV)所述学习设备100,(i)指示所述CNN200的所述函数损失层250,(1)通过参考每个所述学习用函数分数及其对应的GT值,生成与所述训练图像的每个所述像素相对应的每个初始函数损失值,以及(2)通过参考每个所述初始函数损失值和每个所述损失加权值,生成与所述训练图像的每个所述像素对应的每个调整后的函数损失值后,(i i)通过对调整后的所述函数损失值进行反向传播,学习所述CNN的参数,并在学习后的状态下,使所述通信部分110获得至少一个测试图像。
其次,所述处理器120执行以下处理:(i)指示所述CNN200的所述编码层210通过对所述测试图像进行一个以上的卷积运算,生成至少一个测试用特征图,以及(i i)指示所述CNN200的所述解码层220对所述测试用特征图进行一个以上的反卷积运算,以生成与所述测试图像的每个像素相对应的每个测试用分割分数。
最终,所述处理器120指示所述CNN200的所述函数层230对每个所述测试用分割分数进行所述函数运算,生成与所述测试图像的每个所述像素相对应的每个测试用函数分数。
因为在测试时已经学习了所述CNN200的参数,所以省略了生成损失值和反向传播损失值的过程。因此,除了用于生成损失值的部分之外,所述测试设备的构造与所述学习设备100的构造相同。因此,作为生成函数分数部分的所述编码层210到所述函数层230,其也是测试设备的结构。
上述的使用至少一个自适应损失加权图进行注意力驱动的图像分割的方法可以用于更新满足自动驾驶汽车的等级4所需的HD图。通过这种方法,可以更精确地检测距离较远的模糊物体,例如车道和道路标记。
本申请记载的内容可使所属技术领域的技术人员理解,对于上述说明的图像,例如原图,原标记及追加的标记等图像数据的输入和输出均通过学习设备及测试设备的通信部分来完成。而用于执行特征图运算的数据,将通过学习设备及测试设备的处理器(和/或存储器)进行保存、维持。卷积运算、反卷积运算、损失值的运算过程主要通过学习设备及测试设备执行,但本申请并不限于此。
本申请的技术方案的目的或对现有技术做出贡献的部分可以通过各种计算机手段以可执行程序命令的形式来实现,并且可以被记录到计算机可读记录介质中。计算机可读介质可以单独地或组合地包括程序命令,数据文件和数据结构。记录到介质的程序命令可以是为本申请内容专门设计的组件,或者可以是计算机软件领域的技术人员可以使用的。计算机可读记录介质包括磁性介质(例如硬盘,软盘和磁带),光学介质(例如CD-ROM和DVD),磁光介质(例如软盘)和硬件设备(例如ROM,RAM和闪存)设计用于存储和执行程序。程序命令不仅包括由编译器进行的机器语言代码,而且包括可由计算机执行的解释器等可以使用的高级代码。前述硬件设备可以起软件模块的作用,以执行本申请的动作,并且它们可以在相反的情况下进行相同的操作。硬件设备可以与诸如ROM和RAM之类的存储器组合以存储程序命令,并且可以包括诸如CPU或GPU之类的处理器,以执行存储在存储器中的命令,并且还包括用于与外部设备发送和接收信号的通信部分。
如上所述,已经通过诸如详细的部件,受限的实施例和附图的特定事项解释了本申请。尽管已经通过优选实施例描述了本申请,但是,本领域技术人员将理解,本申请的保护范围可以在不脱离本发明的精神和范围的情况下进行各种改变和修改。
因此,本申请的思想一定不限于所解释的实施例,并且以下专利权利要求以及包括与专利权利要求等同或等同的变型在内的所有内容都属于本申请的思想的范畴。

Claims (10)

1.一种通过使用至少一个自适应损失加权图进行图像分割的方法,包括以下步骤:
步骤(a)、当获取至少一个输入图像时,学习设备,(i)指示CNN的编码层通过对所述输入图像进行一个以上的卷积运算,生成至少一个特征图,以及(ii)指示所述CNN的解码层,通过对所述特征图进行一个以上的反卷积运算,生成与所述输入图像的每个像素相对应的每个分割分数;
步骤(b)、所述学习设备指示所述CNN的函数层通过对每个所述分割分数进行函数运算,生成与所述输入图像的每个所述像素相对应的每个函数分数;
步骤(c)、所述学习设备指示所述CNN的损失加权层,(i)通过参考所述函数分数及其对应的GT值,生成与所述输入图像的每个所述像素相对应的每个预测误差值,以及(ii)通过对每个所述预测误差值进行损失加权运算,生成与所述输入图像的每个所述像素相对应的每个损失加权值,其中,所述损失加权运算允许每个所述损失加权值之间的差异大于每个所述预测误差值之间的差异;以及
步骤(d)、所述学习设备,(i)指示所述CNN的函数损失层,(1)通过参考每个所述函数分数及其对应的GT值,生成与所述输入图像的每个所述像素相对应的每个初始函数损失值,并(2)通过参考每个所述初始函数损失值和每个所述损失加权值,生成与所述输入图像的每个所述像素相对应的每个调整后的函数损失值后,(ii)通过对所述调整后的函数损失值进行反向传播,学习所述CNN的参数;
其中,在所述步骤(c)中,所述损失加权运算遵循以下公式:第i个像素的损失加权值=αi×Eii,其中,αi是与所述像素中的第i个像素相对应的尺度参数,Ei是与所述像素中的所述第i个像素相对应的所述预测误差值,βi是与所述像素中的所述第i个像素相对应的偏差参数,i是1以上且s以下的整数,并且s是所述输入图像中包含的像素数量。
2.如权利要求1所述的方法,其中,在所述步骤(d)中,所述学习设备指示所述CNN的函数损失层,使每个所述损失加权值与其相应的所述初始函数损失值相乘,生成每个所述调整后的函数损失值。
3.如权利要求1所述的方法,其中,在所述步骤(d)中,所述初始函数损失值是通过以下公式生成的,
Figure FDA0004182861210000021
其中,s是所述输入图像中包含的像素数量,li是独热编码矢量,表示第i个像素在其对应的GT值中所属的群集,P(i)是与所述第i个像素的函数分数相对应的矢量。
4.如权利要求1所述的方法,其中,所述输入图像包括关于道路行驶情况的信息,并且所述损失加权层分配与所述输入图像的至少一个车道部分相对应的第一损失加权值,以及分配与所述输入图像的背景部分相对应的第二损失加权值,其中,所述第一损失加权值大于所述第二损失加权值,并在确定每个所述损失加权值的状态下,所述学习设备通过反向传播,参考每个所述损失加权值及其对应的所述初始函数损失值生成的调整后的所述函数损失值,学习所述CNN的所述参数。
5.一种使用至少一个自适应损失加权图进行图像分割的测试方法,包括以下步骤:
步骤(a)、(I)当获取至少一个训练图像时,学习设备,(i)指示CNN的编码层对所述训练图像进行一个以上的卷积运算,生成至少一个学习用特征图,(ii)指示所述CNN的解码层通过对所述学习用特征图进行一个以上反卷积运算,生成与所述训练图像的每个像素相对应的每个学习用分割分数;(II)所述学习设备指示所述CNN的函数层,通过对每个所述学习用分割分数进行函数运算,生成与所述训练图像的每个所述像素相对应的每个学习用函数分数;(III)所述学习设备指示所述CNN的损失加权层,(i)通过参考所述学习用函数分数及其相应的GT值,生成与所述训练图像的每个所述像素相对应的每个预测误差值,以及(ii)通过对每个所述预测误差值进行损失加权运算,生成与所述训练图像的每个所述像素相对应的每个损失加权值,其中,所述损失加权运算允许每个所述损失加权之间的差异大于每个所述预测误差值之间的差异;(IV)所述学习设备,(i)指示所述CNN的函数损失层,(1)通过参考每个所述学习用函数分数及其对应的GT值,生成与所述训练图像的每个所述像素相对应的每个初始函数损失值,(2)通过参考每个所述初始函数损失值和每个所述损失加权值,生成与所述训练图像的每个所述像素对应的每个调整后的函数损失值后,(ii)通过对所述调整后的函数损失值进行反向传播,学习所述CNN的参数,其中,在所述(III)中,所述损失加权运算遵循以下公式:第i个像素的损失加权值=αi×Eii,其中,αi是与所述像素中的第i个像素相对应的尺度参数,Ei是与所述像素中的所述第i个像素相对应的所述预测误差值,βi是与所述像素中的所述第i个像素相对应的偏差参数,i是1以上且s以下的整数,并且s是输入图像中包含的像素数量;在学习了所述CNN的参数的状态下,当获取到至少一个测试图像时,测试设备,(i)指示所述CNN的编码层通过对所述测试图像进行一个以上的卷积运算,生成至少一个测试用特征图,以及(ii)指示所述CNN的解码层对所述测试用特征图进行一个以上的反卷积运算,生成与所述测试图像的每个像素相对应的每个测试用分割分数;以及
步骤(b)、所述测试设备指示所述CNN的函数层对所述测试用分割分数进行函数运算,生成与所述测试图像的每个所述像素相对应的每个测试用函数分数。
6.一种使用至少一个自适应损失加权图进行图像分割的学习设备,包括:
至少一个用于存储指令的存储器;以及
至少一个处理器,其用于执行以下指令,以及执行以下处理:(I)(i)指示CNN的编码层对输入图像进行一个以上的卷积运算,生成至少一个特征图,以及(ii)指示所述CNN的解码层通过对所述特征图进行一个以上的反卷积运算,生成与所述输入图像的每个像素相对应的每个分割分数,(II)指示所述CNN的函数层对每个所述分割分数进行函数运算,生成与所述输入图像的每个所述像素相对应的每个函数分数,(III)指示所述CNN的损失加权层,(i)通过参考所述函数分数及其对应的GT值,生成与所述输入图像的每个所述像素相对应的每个预测误差值,(ii)通过对每个所述预测误差值进行损失加权运算,生成与所述输入图像的每个所述像素相对应的每个损失加权值,其中,所述损失加权运算允许每个所述损失加权值之间的差异大于每个所述预测误差值之间的差异,以及(IV)(i)指示所述CNN的函数损失层,(1)通过参考每个所述函数分数及其对应的GT值,生成与所述输入图像的每个所述像素相对应的每个初始函数损失值,(2)通过参考每个所述初始函数损失值和每个所述损失加权值,生成与所述输入图像的每个所述像素相对应的每个调整后的函数损失值后,(ii)通过对所述调整后的函数损失值进行反向传播,学习所述CNN的参数,其中,在所述(III)中,所述损失加权运算遵循以下公式:第i个像素的损失加权值=αi×Eii,其中,αi是与所述像素中的第i个像素相对应的尺度参数,Ei是与所述像素中的所述第i个像素相对应的所述预测误差值,βi是与所述像素中的所述第i个像素相对应的偏差参数,i是1以上且s以下的整数,并且s是所述输入图像中包含的像素数量。
7.如权利要求6所述的学习设备,其中,在所述(IV)中,所述处理器指示所述CNN的所述函数损失层通过对每个损失加权值与其对应的所述初始函数损失值相乘,生成每个所述调整后的函数损失值。
8.如权利要求6所述的学习设备,其中,在所述(IV)中,所述初始函数损失值是通过以下公式生成的,
Figure FDA0004182861210000041
其中,s是所述输入图像中包含的所述像素数量,li是独热编码矢量,表示第i个像素在其对应的GT值中所属的群集,P(i)是与所述第i个像素的函数分数相对应的矢量。
9.如权利要求6所述的学习设备,其中,所述输入图像包括有关道路行驶情况的信息,并且所述处理器通过所述损失加权层分配与所述输入图像的至少一个车道部分相对应的第一损失加权值,以及分配与所述输入图像的背景部分相对应的第二损失加权值,其中,所述第一损失加权值大于所述第二损失加权值,在确定每个所述损失加权值的状态下,所述学习设备通过反向传播,参考每个所述损失加权值及其对应的所述初始函数损失值生成的调整后的所述函数损失值,学习所述CNN的所述参数。
10.一种使用至少一个自适应损失加权图进行图像分割的测试设备,包括:
至少一个存储指令的存储器;以及
至少一个处理器,其用于执行以下指令,以及执行以下处理:(I)当已获取至少一个训练图像时,学习设备,(i)指示CNN的编码层通过对所述训练图像进行一个以上的卷积运算,生成至少一个学习用特征图,(ii)指示所述CNN的解码层通过对所述学习用特征图进行一个以上的反卷积运算,生成与所述训练图像的每个像素相对应的训练用分割分数,(II)所述学习设备指示所述CNN的函数层,通过对每个学习用分割分数进行函数运算,生成与所述训练图像的每个所述像素相对应的每个学习用函数分数;(III)所述学习设备指示所述CNN的损失加权层,(i)通过参考所述学习用函数分数及其相应的GT值,生成与所述训练图像的每个所述像素相对应的每个预测误差值,以及(ii)通过对每个所述预测误差值进行损失加权运算,生成与所述训练图像的每个所述像素相对应的每个损失加权值,其中,所述损失加权运算允许每个所述损失加权值之间的差异大于每个所述预测误差值之间的差异;(IV)所述学习设备,(i)指示所述CNN的函数损失层,(1)通过参考每个所述学习用的函数分数及其对应的GT值,生成与所述训练图像的每个所述像素相对应的每个初始函数损失值,并(2)通过参考每个所述初始函数损失值和每个所述损失加权值,生成与所述训练图像的每个所述像素对应的每个调整后的函数损失值,以及(ii)通过对所述调整后的函数损失值进行反向传播,学习所述CNN的参数,其中,在所述(III)中,所述损失加权运算遵循以下公式:第i个像素的损失加权值=αi×Eii,其中,αi是与所述像素中的第i个像素相对应的尺度参数,Ei是与所述像素中的所述第i个像素相对应的所述预测误差值,βi是与所述像素中的所述第i个像素相对应的偏差参数,i是1以上且s以下的整数,并且s是输入图像中包含的像素数量;并在学习了所述CNN参数的情况下,(A)(i)指示所述CNN的所述编码层对所述至少一个测试图像进行所述卷积运算,生成至少一个测试用特征图,(ii)指示所述CNN的所述解码层对所述测试用特征图进行所述反卷积运算,生成与所述测试图像的每个像素相对应的每个测试用分割分数,以及(B)指示所述CNN的所述函数层通过对所述测试图像进行所述函数运算,生成与所述测试图像的每个所述像素相对应的每个函数分数。
CN202010052414.4A 2019-01-22 2020-01-17 一种注意力驱动图像分割的方法和设备 Active CN111462131B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/254,545 2019-01-22
US16/254,545 US10373317B1 (en) 2019-01-22 2019-01-22 Learning method and learning device for attention-driven image segmentation by using at least one adaptive loss weight map to be used for updating HD maps required to satisfy level 4 of autonomous vehicles and testing method and testing device using the same

Publications (2)

Publication Number Publication Date
CN111462131A CN111462131A (zh) 2020-07-28
CN111462131B true CN111462131B (zh) 2023-06-02

Family

ID=67477585

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010052414.4A Active CN111462131B (zh) 2019-01-22 2020-01-17 一种注意力驱动图像分割的方法和设备

Country Status (5)

Country Link
US (1) US10373317B1 (zh)
EP (1) EP3686780B1 (zh)
JP (1) JP6912835B2 (zh)
KR (1) KR102313119B1 (zh)
CN (1) CN111462131B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022546998A (ja) * 2019-09-05 2022-11-10 ビーエーエスエフ ソシエタス・ヨーロピア 植物種の識別のためのシステムおよび方法
CN110689548B (zh) * 2019-09-29 2023-01-17 浪潮电子信息产业股份有限公司 一种医学图像分割方法、装置、设备及可读存储介质
CN111241338B (zh) * 2020-01-08 2023-09-15 深圳市网联安瑞网络科技有限公司 一种基于注意力机制的深度特征融合视频拷贝检测方法
DE102020117812A1 (de) 2020-07-07 2022-01-13 Bayerische Motoren Werke Aktiengesellschaft Verfahren zum Bereitstellen einer Einrichtung zur Vorhersage von Fehlern beim Verarbeiten von Bilddaten, Einrichtung zum Vorhersagen von Segmentierungsfehlern und Kraftfahrzeug
CN112634284B (zh) * 2020-12-22 2022-03-25 上海体素信息科技有限公司 基于权重图损失的分阶段神经网络ct器官分割方法及系统
CN112926380B (zh) * 2021-01-08 2022-06-24 浙江大学 一种新型水下激光目标智能识别系统
CN113057647B (zh) * 2021-03-25 2022-04-22 山东省人工智能研究院 一种心电信号的质量评估方法
KR102629877B1 (ko) * 2021-05-12 2024-01-29 주식회사 포멀웍스 인공 뉴럴 네트워크를 이용한 군대부호 인식 방법, 이를 위한 인공 뉴럴 네트워크 학습 방법, 및 이를 수행하는 컴퓨팅 시스템
CN115100491B (zh) * 2022-08-25 2022-11-18 山东省凯麟环保设备股份有限公司 一种面向复杂自动驾驶场景的异常鲁棒分割方法与系统
CN115909013B (zh) * 2023-01-10 2023-07-25 深圳精智达技术股份有限公司 一种图像的卷积方法、装置、电子设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9947103B1 (en) * 2017-10-03 2018-04-17 StradVision, Inc. Learning method and learning device for improving image segmentation and testing method and testing device using the same
US10089743B1 (en) * 2017-10-05 2018-10-02 StradVision, Inc. Method for segmenting an image and device using the same

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5506274B2 (ja) * 2009-07-31 2014-05-28 富士フイルム株式会社 画像処理装置及び方法、データ処理装置及び方法、並びにプログラム
JP6754619B2 (ja) * 2015-06-24 2020-09-16 三星電子株式会社Samsung Electronics Co.,Ltd. 顔認識方法及び装置
JP7110098B2 (ja) * 2015-12-18 2022-08-01 ザ リージェンツ オブ ザ ユニバーシティ オブ カリフォルニア 頭部コンピュータ断層撮影における緊急性の特徴の解釈及び定量化
US20170206434A1 (en) * 2016-01-14 2017-07-20 Ford Global Technologies, Llc Low- and high-fidelity classifiers applied to road-scene images
US10157309B2 (en) * 2016-01-14 2018-12-18 Nvidia Corporation Online detection and classification of dynamic gestures with recurrent convolutional neural networks
US9773196B2 (en) * 2016-01-25 2017-09-26 Adobe Systems Incorporated Utilizing deep learning for automatic digital image segmentation and stylization
WO2018033156A1 (zh) * 2016-08-19 2018-02-22 北京市商汤科技开发有限公司 视频图像的处理方法、装置和电子设备
US9965863B2 (en) * 2016-08-26 2018-05-08 Elekta, Inc. System and methods for image segmentation using convolutional neural network
US10424064B2 (en) * 2016-10-18 2019-09-24 Adobe Inc. Instance-level semantic segmentation system
US10582907B2 (en) * 2016-10-31 2020-03-10 Siemens Healthcare Gmbh Deep learning based bone removal in computed tomography angiography
US10157441B2 (en) * 2016-12-27 2018-12-18 Automotive Research & Testing Center Hierarchical system for detecting object with parallel architecture and hierarchical method thereof
WO2018138603A1 (en) * 2017-01-26 2018-08-02 Semiconductor Energy Laboratory Co., Ltd. Semiconductor device and electronic device including the semiconductor device
US10546242B2 (en) * 2017-03-03 2020-01-28 General Electric Company Image analysis neural network systems
US10572979B2 (en) * 2017-04-06 2020-02-25 Pixar Denoising Monte Carlo renderings using machine learning with importance sampling
US10475165B2 (en) * 2017-04-06 2019-11-12 Disney Enterprises, Inc. Kernel-predicting convolutional neural networks for denoising
US10325166B2 (en) * 2017-04-13 2019-06-18 Here Global B.V. Method, apparatus, and system for a parametric representation of signs
JP6744838B2 (ja) * 2017-04-18 2020-08-19 Kddi株式会社 エンコーダデコーダ畳み込みニューラルネットワークにおける解像感を改善するプログラム
US10824938B2 (en) * 2017-04-24 2020-11-03 Intel Corporation Specialized fixed function hardware for efficient convolution
US11361431B2 (en) * 2017-04-25 2022-06-14 The Board Of Trustees Of The Leland Stanford Junior University Dose reduction for medical imaging using deep convolutional neural networks
EP3432263B1 (en) * 2017-07-17 2020-09-16 Siemens Healthcare GmbH Semantic segmentation for cancer detection in digital breast tomosynthesis
US10402995B2 (en) * 2017-07-27 2019-09-03 Here Global B.V. Method, apparatus, and system for real-time object detection using a cursor recurrent neural network
CN108022238B (zh) * 2017-08-09 2020-07-03 深圳科亚医疗科技有限公司 对3d图像中对象进行检测的方法、计算机存储介质和系统
US10753997B2 (en) * 2017-08-10 2020-08-25 Siemens Healthcare Gmbh Image standardization using generative adversarial networks
US11257259B2 (en) * 2017-08-15 2022-02-22 Siemens Healthcare Gmbh Topogram prediction from surface data in medical imaging
US10635858B2 (en) * 2017-09-11 2020-04-28 Nec Corporation Electronic message classification and delivery using a neural network architecture
CN109493347B (zh) * 2017-09-12 2021-03-23 深圳科亚医疗科技有限公司 在图像中对稀疏分布的对象进行分割的方法和系统
US10229346B1 (en) * 2018-09-04 2019-03-12 StradVision, Inc. Learning method, learning device for detecting object using edge image and testing method, testing device using the same
US20190050653A1 (en) * 2018-09-28 2019-02-14 Intel Corporation Perception device for obstacle detection and tracking and a perception method for obstacle detection and tracking
CN109117831B (zh) * 2018-09-30 2021-10-12 北京字节跳动网络技术有限公司 物体检测网络的训练方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9947103B1 (en) * 2017-10-03 2018-04-17 StradVision, Inc. Learning method and learning device for improving image segmentation and testing method and testing device using the same
US10089743B1 (en) * 2017-10-05 2018-10-02 StradVision, Inc. Method for segmenting an image and device using the same

Also Published As

Publication number Publication date
US10373317B1 (en) 2019-08-06
KR102313119B1 (ko) 2021-10-18
JP2020119533A (ja) 2020-08-06
KR20200091318A (ko) 2020-07-30
EP3686780B1 (en) 2023-03-01
EP3686780A1 (en) 2020-07-29
JP6912835B2 (ja) 2021-08-04
CN111462131A (zh) 2020-07-28

Similar Documents

Publication Publication Date Title
CN111462131B (zh) 一种注意力驱动图像分割的方法和设备
CN111462130B (zh) 使用车道掩码检测包含于输入图像的车道线的方法及装置
US10325371B1 (en) Method and device for segmenting image to be used for surveillance using weighted convolution filters for respective grid cells by converting modes according to classes of areas to satisfy level 4 of autonomous vehicle, and testing method and testing device using the same
CN111507150B (zh) 利用基于深度神经网络的多重图像块组合识别人脸的方法
US10410352B1 (en) Learning method and learning device for improving segmentation performance to be used for detecting events including pedestrian event, vehicle event, falling event and fallen event using edge loss and test method and test device using the same
EP3686774B1 (en) Learning method and learning device for improving segmentation performance in road obstacle detection required to satisfy level 4 and level 5 of autonomous vehicles using laplacian pyramid network and testing method and testing device using the same
CN111507167A (zh) 以avm与强化学习实现注意力驱动资源分配的方法和装置
CN111507469B (zh) 对自动标注装置的超参数进行优化的方法和装置
CN111507501A (zh) 通过强化学习来执行个性化路径规划的方法及装置
US10325179B1 (en) Learning method and learning device for pooling ROI by using masking parameters to be used for mobile devices or compact networks via hardware optimization, and testing method and testing device using the same
KR20180051335A (ko) 신경망 학습에 기반한 입력 처리 방법 및 이를 위한 장치
CN111488978B (zh) 为了元学习用于调整残差网络的方法及装置
JP2020068013A (ja) 障害物の下段ラインを基準にroiを検出する学習方法及び学習装置、そしてこれを利用したテスト方法及びテスト装置{learning method, learning device for detecting roi on the basis of bottom lines of obstacles and testing method,testing device using the same}
EP3690725A1 (en) Method and device for seamless parameter switch by using location-specific algorithm selection to achieve optimized autonomous driving in each of regions
KR102252155B1 (ko) 자율주행 자동차의 레벨 4를 충족시키기 위해 필요한 hd 지도와의 콜라보레이션을 지원하는 임베딩 로스 및 소프트맥스 로스를 이용하여 적어도 하나의 차선을 가지는 이미지를 세그멘테이션하는 학습 방법 및 학습 장치, 그리고 이를 이용한 테스트 방법 및 테스트 장치
US10817777B2 (en) Learning method and learning device for integrating object detection information acquired through V2V communication from other autonomous vehicle with object detection information generated by present autonomous vehicle, and testing method and testing device using the same
CN111507459B (zh) 降低神经网络的注解费用的方法和装置
US10402686B1 (en) Learning method and learning device for object detector to be used for surveillance based on convolutional neural network capable of converting modes according to scales of objects, and testing method and testing device using the same
CN111476082B (zh) 在线批次归一化、在线学习及持续学习的方法和装置
US10650279B1 (en) Learning method and learning device for heterogeneous sensor fusion by using merging network which learns non-maximum suppression
CN111507169A (zh) 以avm实现注意力驱动资源分配的方法及装置
CN116659516B (zh) 基于双目视差机制的深度立体注意力视觉导航方法及装置
JP6979707B2 (ja) リグレッションロス(Regression loss)を利用した学習方法及び学習装置、そしてそれを利用したテスト方法及びテスト装置{LEARNING METHOD, LEARNING DEVICE USING REGRESSION LOSS AND TESTING METHOD, TESTING DEVICE USING THE SAME}
EP3686783A1 (en) Method and device of neural network operations using a grid generator for converting modes according to classes of areas to satisfy level 4 of autonomous vehicles
CN111507154A (zh) 使用横向滤波器掩膜来检测车道线元素的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant