CN109598725A - 改进图像分割学习方法和装置及使用其的测试方法和装置 - Google Patents

改进图像分割学习方法和装置及使用其的测试方法和装置 Download PDF

Info

Publication number
CN109598725A
CN109598725A CN201811147163.7A CN201811147163A CN109598725A CN 109598725 A CN109598725 A CN 109598725A CN 201811147163 A CN201811147163 A CN 201811147163A CN 109598725 A CN109598725 A CN 109598725A
Authority
CN
China
Prior art keywords
filter
characteristic pattern
layer
loss
label image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811147163.7A
Other languages
English (en)
Other versions
CN109598725B (zh
Inventor
金镕重
南云铉
夫硕焄
成明哲
吕东勋
柳宇宙
张泰雄
郑景中
诸泓模
赵浩辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chastelard Vision Inc
Original Assignee
Chastelard Vision Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chastelard Vision Inc filed Critical Chastelard Vision Inc
Publication of CN109598725A publication Critical patent/CN109598725A/zh
Application granted granted Critical
Publication of CN109598725B publication Critical patent/CN109598725B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/12Edge-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20024Filtering details
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Mathematical Physics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

公开了一种通过使用学习装置来改进图像分割的方法。该方法包括以下步骤:(a)如果获得训练图像,则通过编码层和解码层获取第(2‑K)至第(2‑1)特征图,并从与第(2‑K)至第(2‑1)特征图中的从H个滤波器获得的H个特征图分别对应的第1至第H损失层中获取第1至第H损失;以及(b)在执行反向传播过程时,执行以下过程:允许第(2‑M)滤波器将卷积运算应用于从第(2‑(M‑1))滤波器中继的第(M‑1)2调整特征图,从而获得第M1临时特征图;将通过第M1临时特征图计算第M损失得到的第M2调整特征图中继至第(2‑(M+1))滤波器;以及调整第(1‑1)滤波器至第(1‑K)滤波器和第(2‑K)至第(2‑1)滤波器的参数的至少一部分。

Description

改进图像分割学习方法和装置及使用其的测试方法和装置
技术领域
本发明涉及一种用于改进图像分割的学习方法和学习装置及使用其的测试方法和测试装置,更具体地说,涉及一种通过使用学习装置改进图像分割的学习方法和学习装置,以及使用它们的测试方法和测试装置,其中,学习装置包括:(i)编码层,具有通过将一个或多个卷积运算应用于作为训练图像的输入图像来分别生成第(1-1)特征图至第(1-K)特征图的第(1-1)滤波器至第(1-K)滤波器中的每一个;(ii)解码层,具有通过将一个或多个去卷积运算应用于1-K特征图来分别生成第(2-K)特征图至第(2-1)特征图的第(2-K)滤波器至第(2-1)滤波器中的每一个;以及(iii)第1损失层至第H损失层,分别与包括在解码层中的K个滤波器中的H个滤波器交互,学习方法包括以下步骤:(a)如果获得输入图像,则学习装置通过编码层和解码层获取第(2-K)特征图至第(2-1)特征图,并从与第(2-K)特征图至第(2-1)特征图中的从H个滤波器获得的H个特征图中的每一个分别对应的第1损失层至第H损失层中获取第1损失至第H损失;(b)在执行反向传播过程时,学习装置执行以下过程:(1)允许第(2-M)滤波器将卷积运算应用于从第(2-(M-1))滤波器中继的第(M-1)2调整特征图,从而获得第M1临时特征图;(2)将通过利用第M1临时特征图计算第M损失得到的第M2调整特征图中继至第(2-(M+1))滤波器;以及(3)调整第(1-1)滤波器至第(1-K)滤波器和第(2-K)滤波器至第(2-1)滤波器的参数的至少一部分,其中M是大于或等于2且小于或等于K-1的整数,其中,作为步骤(b)的初始状态,第1损失层计算对应于第(2-1)特征图的第1损失,第(2-1)滤波器对第1损失应用卷积运算从而获取第12调整特征图,并且第(2-1)滤波器将第12调整特征图中继至第(2-2)滤波器。
背景技术
深度卷积神经网络,或深度CNN,是深度学习领域显著发展的核心。尽管CNN在20世纪90年代已经被用于解决字符识别问题,但直到最近CNN才在机器学习中得到广泛应用。由于最近的研究,卷积神经网络(CNN)已经成为机器学习领域非常有用和强大的工具。例如,在2012年,深度CNN在年度软件竞赛ImageNet大规模视觉识别挑战赛中的表现明显优于其竞争对手,并赢得了比赛。
因此,出现了使深度学习技术适应图像分割的新趋势。作为参考,图像分割可以包括将输入图像(例如,训练图像或测试图像)划分为多个语义片段并且确定具有清晰边界的一组语义片段以使得语义片段共同覆盖整个输入图像的过程。图像分割的结果是所谓的标签图像。
图1是示意性地示出根据现有技术的使用CNN来学习图像分割的过程的图。参考图1,通过多个卷积滤波器对输入图像多次应用卷积运算,获得对应于输入图像(即训练图像)的特征图。然后,通过多个去卷积滤波器对来自卷积层的最终输出多次应用去卷积运算,获得对应于输入图像的标签图像。
详细地,通过卷积运算对输入图像进行编码并通过去卷积运算对特征图进行解码以获得标签图像的CNN的配置被称为编码-解码网络,即U-Net。在编码过程期间,每当应用卷积运算时,每个卷积滤波器的输出的大小减小到其输入的大小的一半,而输出的通道数增加到其输入的两倍。这是为了通过缩小输入图像的大小或其对应的特征图的大小来减少计算量,从而在利用减少的计算量的优势的同时通过增加的通道数提取复杂图案。通常,经过各个卷积滤波器使得输入图像的大小或其对应的特征图的大小缩小1/2的比例并且其通道数加倍。
此外,缩小大小的特征图移除其多个高频区域并保留关于其低频区域的信息,所述低频区域表示输入图像的语义和细节部分,例如,天空、道路、建筑和汽车等。输入图像的这些有意义的部分用于通过在解码过程期间执行去卷积运算来推断标签图像。
此外,对于采用深度学习的CNN的学习过程,计算作为地面真值(GT)标签图像与从训练图像预测的标签图像之间的差的损失。并且在反向传播过程期间,计算的损失在作为与生成标签图像的方向相反方向的反向方向上被中继。然而,存在的问题是,由于在反向方向传播回来,损失的值越来越小,并且变得太小而不能调整U-Net上每个滤波器的参数。
因此,本发明的发明人提出了一种可以解决上述问题的新方法。
发明内容
本发明的一个目的是提供一种用于在能够执行图像分割的CNN的学习过程期间防止在反向传播过程期间损失减少的方法。
本发明的另一个目的是提供一种用于在反向传播过程中通过计算解码层中每个滤波器的每个相应损失找到每个滤波器的最佳参数的方法。
本发明的又一个目的是提供一种用于通过使用每个滤波器的最佳参数精确地执行图像分割的方法。
根据本发明的一个方面,提供了一种用于通过使用学习装置来改进图像分割的学习方法,其中,所述学习装置包括:(i)编码层,具有通过将一个或多个卷积运算应用于作为输入图像的训练图像来分别生成第(1-1)特征图至第(1-K)特征图的第(1-1)滤波器至第(1-K)滤波器中的每一个;(ii)解码层,具有通过将一个或多个去卷积运算应用于1-K特征图来分别生成第(2-K)特征图至第(2-1)特征图的第(2-K)滤波器至第(2-1)滤波器中的每一个;以及(iii)第1损失层至第H损失层,分别与包括在解码层中的K个滤波器中的H个滤波器交互,所述学习方法包括以下步骤:(a)如果获得输入图像,则学习装置通过编码层和解码层获取第(2-K)特征图至第(2-1)特征图,并从与第(2-K)特征图至第(2-1)特征图中的从H个滤波器获得的H个特征图中的每一个分别对应的第1损失层至第H损失层中获取第1损失至第H损失;(b)在执行反向传播过程时,学习装置执行以下过程:(1)允许第(2-M)滤波器将卷积运算应用于从第(2-(M-1))滤波器中继的第(M-1)2调整特征图,从而获得第M1临时特征图;(2)将通过利用第M1临时特征图计算第M损失得到的第M2调整特征图中继至第(2-(M+1))滤波器;以及(3)调整第(1-1)滤波器至第(1-K)滤波器和第(2-K)滤波器至第(2-1)滤波器的参数的至少一部分,其中M是大于或等于2且小于或等于K-1的整数,其中,作为步骤(b)的初始状态,第1损失层计算对应于第(2-1)特征图的第1损失,第(2-1)滤波器对第1损失应用卷积运算从而获取第12调整特征图,并且第(2-1)滤波器将第12调整特征图中继至第(2-2)滤波器。
根据本发明的另一方面,提供了一种用于对作为输入图像的测试图像执行图像分割的测试方法,包括以下步骤:(a)测试装置在如下条件下获取测试图像:(I)学习装置包括:(i)编码层,具有通过将一个或多个卷积运算应用于训练图像来分别生成第(1-1)特征图至第(1-K)特征图的第(1-1)滤波器至第(1-K)滤波器中的每一个;(ii)解码层,具有通过将一个或多个去卷积运算应用于1-K特征图来分别生成第(2-K)特征图至第(2-1)特征图的第(2-K)滤波器至第(2-1)滤波器中的每一个;以及(iii)第1损失层至第H损失层,分别与包括在解码层中的K个滤波器中的H个滤波器交互;(II)如果获得输入图像,则学习装置通过编码层和解码层获取第(2-K)特征图至第(2-1)特征图,并从与第(2-K)特征图至第(2-1)特征图中的从H个滤波器获得的H个特征图中的每一个分别对应的第1损失层至第H损失层中获取第1损失至第H损失;(III)在执行反向传播过程时,学习装置执行以下过程:(1)允许第(2-M)滤波器将卷积运算应用于从第(2-(M-1))滤波器中继的第(M-1)2调整特征图,从而获得第M1临时特征图;(2)将通过利用第M1临时特征图计算第M损失得到的第M2调整特征图中继至第(2-(M+1))滤波器;以及(3)调整第(1-1)滤波器至第(1-K)滤波器和第(2-K)滤波器至第(2-1)滤波器的参数的至少一部分,其中M是大于或等于2且小于或等于K-1的整数,其中,作为(III)的初始状态,第1损失层计算对应于第(2-1)特征图的第1损失,第(2-1)滤波器对第1损失应用卷积运算从而获取第12调整特征图,并且第(2-1)滤波器将第12调整特征图中继至第(2-2)滤波器;以及(IV)学习装置获取第(2-K)滤波器至第(2-1)滤波器和第(1-1)滤波器至第(1-K)滤波器的调整参数;以及(b)测试装置通过利用第(2-K)滤波器至第(2-1)滤波器和第(1-1)滤波器至第(1-K)滤波器的调整参数对获取的测试图像执行图像分割。
根据本发明的又一方面,提供了一种用于改进图像分割的学习装置,其中,学习装置包括:(i)编码层,具有通过将一个或多个卷积运算应用于作为输入图像的训练图像来分别生成第(1-1)特征图至第(1-K)特征图的第(1-1)滤波器至第(1-K)滤波器中的每一个;(ii)解码层,具有通过将一个或多个去卷积运算应用于1-K特征图来分别生成第(2-K)特征图至第(2-1)特征图的第(2-K)滤波器至第(2-1)滤波器中的每一个;以及(iii)第1损失层至第H损失层,分别与包括在解码层中的K个滤波器中的H个滤波器交互,所述学习装置包括:通信部,用于接收输入图像;处理器,用于执行以下过程:(I)如果获得输入图像,则通过编码层和解码层获取第(2-K)特征图至第(2-1)特征图,并从与第(2-K)特征图至第(2-1)特征图中的从H个滤波器获得的H个特征图中的每一个分别对应的第1损失层至第H损失层中获取第1损失至第H损失;(II)在执行反向传播过程时,(i)允许第(2-M)滤波器将卷积运算应用于从第(2-(M-1))滤波器中继的第(M-1)2调整特征图从而获得第M1临时特征图;(ii)将通过利用第M1临时特征图计算第M损失得到的第M2调整特征图中继至第(2-(M+1))滤波器;以及(iii)调整第(1-1)滤波器至第(1-K)滤波器和第(2-K)滤波器至第(2-1)滤波器的参数的至少一部分,其中M是大于或等于2且小于或等于K-1的整数,并且其中,作为初始状态,第1损失层计算对应于第(2-1)特征图的第1损失,第(2-1)滤波器对第1损失应用卷积运算从而获取第12调整特征图,并且第(2-1)滤波器将第12调整特征图中继至第(2-2)滤波器。
根据本发明的又一方面,提供了一种用于对作为输入图像的测试图像执行图像分割的测试装置,包括:通信部,用于在如下条件下获取测试图像:(I)学习装置包括:(i)编码层,具有通过将一个或多个卷积运算应用于训练图像来分别生成第(1-1)特征图至第(1-K)特征图的第(1-1)滤波器至第(1-K)滤波器中的每一个;(ii)解码层,具有通过将一个或多个去卷积运算应用于1-K特征图来分别生成第(2-K)特征图至第(2-1)特征图的第(2-K)滤波器至第(2-1)滤波器中的每一个;以及(iii)第1损失层至第H损失层,分别与包括在解码层中的K个滤波器中的H个滤波器交互;(II)如果获得训练图像,则学习装置通过编码层和解码层获取第(2-K)特征图至第(2-1)特征图,并从与第(2-K)特征图至第(2-1)特征图中的从H个滤波器获得的H个特征图中的每一个分别对应的第1损失层至第H损失层中获取第1损失至第H损失;(III)在执行反向传播过程时,学习装置执行以下过程:(1)允许第(2-M)滤波器将卷积运算应用于从第(2-(M-1))滤波器中继的第(M-1)2调整特征图,从而获得第M1临时特征图;(2)将通过利用第M1临时特征图计算第M损失得到的第M2调整特征图中继至第(2-(M+1))滤波器;以及(3)调整第(1-1)滤波器至第(1-K)滤波器和第(2-K)滤波器至第(2-1)滤波器的参数的至少一部分,其中M是大于或等于2且小于或等于K-1的整数,其中,作为(III)的初始状态,第1损失层计算对应于第(2-1)特征图的第1损失,第(2-1)滤波器对第1损失应用卷积运算从而获取第12调整特征图,并且第(2-1)滤波器将第12调整特征图中继至第(2-2)滤波器;以及(IV)学习装置获取第(2-K)滤波器至第(2-1)滤波器和第(1-1)滤波器至第(1-K)滤波器的调整参数;以及处理器,通过利用第(2-K)滤波器至第(2-1)滤波器和第(1-1)滤波器至第(1-K)滤波器的调整参数,所述处理器对所获取的测试图像执行图像分割或支持另一装置对所获取的测试图像执行图像分割。
附图说明
通过下面结合附图对优选实施例的描述,本发明的上述和其它目的和特征将变得显而易见,其中:
图1是示意性地示出根据现有技术的能够执行图像分割的CNN的学习过程的图;
图2A和图2B是示出根据本发明的一个示例实施例的包括能够通过使用多个损失层执行图像分割的CNN的学习装置的学习过程的图;
图3是示出根据本发明的一个示例实施例的获取第1损失的过程的图;
图4是示出根据本发明的一个示例实施例的获取调整特征图的过程的图;
图5是示意性地示出用于通过调整地面真值(GT)标签图像的通道数改变GT标签图像的大小的方法的图;
图6A和图6B是示出根据本发明另一示例实施例的包括能够通过使用多个损失层执行图像分割的CNN的学习装置的学习过程的图;
图7A和图7B是示出根据本发明的又一示例实施例的包括能够通过使用多个损失层执行图像分割的CNN的学习装置的学习过程的图。
具体实施方式
为了使本发明的目的、技术方案和优点清楚,参考附图,附图通过图示的方式示出了可以实施本发明的更详细的示例实施例。足够详细地描述了这些实施例,以使本领域技术人员能够实施本发明。
应该理解,本发明的各个实施例虽然不同,但不一定是相互排斥的。例如,在不脱离本发明的精神和范围的情况下,可以在其他实施例中实现本文中结合一个实施例描述的特定特征、结构或特性。另外,应该理解,在不脱离本发明的精神和范围的情况下,可以修改每个公开的实施例中的各个元件的位置或布置。因此,以下详细描述不应被视为具有限制意义,并且本发明的范围仅由所附权利要求限定,并由权利要求以及权利要求所赋予的等同物的全部范围适当地解释。在附图中,相同的附图标记在若干视图中指代相同或相似的特征。
在下文中,将参考附图详细描述本发明的优选实施例,以便本领域技术人员可以容易地实现本发明。
图2A和图2B是示出根据本发明的一个示例实施例的包括能够通过使用多个损失层执行图像分割的CNN的学习装置的学习过程的图。
采用具有多个损失层的CNN的学习装置(未示出)可以包括通信部(未示出)和处理器(未示出)。具体地,通信部可以接收训练图像作为输入图像,并且处理器可以被配置为执行将至少一个卷积运算应用于训练图像以获取特征图然后对该特征图应用至少一个去卷积运算以获取标签图像的过程。此外,处理器可以在反向传播过程期间通过将多个损失中继回每个滤波器来执行优化U-Net上的每个滤波器的参数的过程。
此外,学习装置可以包括:编码层,具有K个滤波器,即第(1-1)至第(1-K)滤波器;解码层,具有K个滤波器,即第(2-1)至第(2-K)滤波器,每个滤波器对应于第(1-1)至第(1-K)滤波器中的每一个;以及第1至第K损失层,分别与第(2-1)至第(2-K)滤波器交互。
参照图2A和图2B,可以通过接收训练图像作为输入图像来启动学习过程。然后,将输入图像提供给编码层中的第(1-1)滤波器。编码层中的第(1-1)至第(1-K)滤波器执行卷积运算以获得从输入图像导出的特征图,即编码特征图。
具体地,如图2A和图2B所示,第(1-1)滤波器接收输入图像,执行卷积运算以生成第(1-1)特征图,并将第(1-1)特征图中继到(1-2)滤波器。然后,第(1-2)滤波器接收第(1-1)特征图,执行卷积运算以生成第(1-2)特征图,并将第(1-2)特征图中继到(1-3)滤波器。从上述说明书中可以推断出,编码层中的其余各个滤波器继续这样的过程,并最终前进至第(1-K)滤波器以生成第(1-K)特征图。
这里,第(1-1)至第(1-K)滤波器中的每一个的输出的大小例如减小到其输入的大小一半。因此,减少了计算量。此外,每当应用卷积运算时,输出的通道数增加到其输入的通道数的两倍。
例如,如果第(1-1)特征图的大小是320×240并且其通道数是8,则(i)第(1-2)特征图的大小是160×120并且其通道数是16,(ii)第(1-3)特征图的大小为80×60并且其通道数是32,依此类推。
此后,通过再次参照图2A和图2B,将1-K特征图提供给解码层以产生标签图像。解码层中的第(2-K)至第(2-1)滤波器执行去卷积运算以获得标签图像。
在从第(1-K)滤波器接收到第(1-K)特征图之后,包括解码滤波器(即第(2-K)至第(2-1)滤波器)的解码层将去卷积运算应用于第(1-K)特征图,从而获取标签图像。通过执行去卷积运算,从第(1-K)特征图导出的各个特征图(即解码特征图)的大小顺序地增加,同时其通道数顺序地减少。解码层中的滤波器可以保留关于编码特征图的边缘的信息,并且可以减少除了关于其边缘的信息之外的其他部分的信息,从而产生标签图像。
如图2A和图2B所示,第(2-K)滤波器接收第(1-K)特征图并执行去卷积运算以生成第(2-K)特征图,并将第(2-K)特征图中继到第(2-(K-1))滤波器。第(2-(K-1))滤波器遵循上述相同的过程以生成第(2-(K-1))特征图并将第(2-(K-1))特征图中继到第(2-(K-2))滤波器。从以上描述可以推断,解码层中的其余各个滤波器继续这样的过程,并最终前进至第(2-1)滤波器以生成第(2-1)特征图。
这里,第(2-1)至第(2-K)滤波器中的每一个的输出的大小是其输入的大小的两倍,而第(2-1)至第(2-K)滤波器中的每一个的输出的通道数减少到其输入的通道数的一半。
例如,如果第(2-K)特征图的大小是20×15并且其通道数是128,则第(2-(K-1))特征图的大小是40×30并且其通道数是64。同样,第(2-(K-2))特征图的大小为80×60,并且其通道数为32。
因此,第(1-(K-1))特征图的大小和通道数与第(2-K)特征图的大小和通道数彼此相同,并且第(1-1)特征图的大小和通道数等于第(2-2)特征图的大小和通道数。从以上描述可以推断出,输入图像(即训练图像)的大小与第(2-1)特征图(即标签图像)的大小彼此相同。
再次参照图2A和图2B,解码层中的第(2-1)至第(2-K)滤波器分别与第1至第K损失层交互。第1至第K损失层分别计算第1至第K损失,损失层为相应的滤波器(即第(2-1)至第(2-K)滤波器)提供各损失。通过比较地面真值(GT)标签图像与由第(2-1)至第(2-K)滤波器生成的解码特征图的每一个计算第1至第K损失。
这里,在第1至第K损失层与第(2-1)至第(2-K)滤波器之间可以存在第(3-1)至第(3-K)滤波器(未示出),其中第(3-1)至第(3-K)滤波器是滤波器大小为1×1的卷积滤波器,能够调整解码特征图的每一个的通道数。
在反向传播过程中,第(2-1)至第(2-K)滤波器中的每一个利用其由每个相应的损失层计算的相应损失从而产生每个相应的临时特征图,然后产生每个相应的调整特征图。当然,可以在反向传播过程中通过反向遍历U-Net生成多个临时特征图和调整特征图。之后将公开该过程的细节。
学习装置通过反向传播过程调整U-Net上的滤波器(即第(1-1)至第(1-K)滤波器和第(2-K)至第(2-1)滤波器)中的至少一个的参数,以最小化第1损失的值。也就是说,可以通过这种反向传播过程找到并计算参数的最佳值。
在图2A和图2B中,由第(1-K)滤波器生成的第(1-K)特征图是最有影响的特征图,因为它包含指示输入图像内的有意义的分段单元的语义信息。此外,第(1-K)特征图是所有特征图中的最小特征图。因此,第(1-K)特征图对估计要通过解码层获取的标签图像具有显著影响。如果包含在第(1-K)特征图中的语义信息不正确并且有意义的分段单元被错误表示,则估计的标签图像可能是错误的。
根据传统技术之一,损失层可以连接到U-Net上的最后一个滤波器,即第(2-1)滤波器,并且计算的损失可以在反向传播过程中被反向中继到U-Net上的滤波器的每一个。这种传统技术采用单个的最终损失。当计算的损失从第(2-1)滤波器传播回第(2-K)滤波器时,损失的值变得越来越小,并且最终变得太小而不能用于调整参数。
因此,根据本发明的一个具体实施例,解码层的滤波器的每一个分别连接到损失层的每一个并与损失层的每一个交互。计算各个特征图的各自的损失以生成用于调整参数的临时特征图和调整特征图。
此外,在图2A和图2B中,损失层的每一个计算各损失的值。解码层中的各个滤波器将卷积运算应用于从其对应的先前滤波器获得的各个调整特征图作为其输入,从而生成各个临时特征图。然后,解码层中的各个滤波器通过使用各损失和各临时特征图新产生各个调整特征图作为其输出,并将它们分别中继到它们相应的下一个滤波器。
图3是示出根据本发明的一个示例实施例的在反向传播过程期间获取第1损失的过程的图。
第1损失层通过计算GT标签图像与从第(2-1)特征图导出的估计的标签图像之间的差来产生第1损失。作为参考,可以通过对第(2-1)特征图应用预定操作(未示出)来获取估计的标签图像。然而,在附图中,假设第(2-1)特征图是估计的标签图像,因此第(2-1)特征图被提供给图3中的第1损失层。
通常,可能存在用于计算损失的各种方法,所述损失是GT标签图像和估计的标签图像之间的差。基本上,可以采用欧几里德损失层来计算损失,欧几里德损失层可以用以下等式描述:
等式1计算两个输入的差的平方和。
首先,将通过使用等式1计算的第1损失(在图3中表示为E_1)提供给第(2-1)滤波器。第(2-1)滤波器将卷积运算应用于第1损失(即E_1),并产生第1调整特征图(下文称为第12调整特征图,并在图3中表示为D_1)。
详细地,可以通过以下等式获取第12调整特征图(即D_1):
D_1=E_1⊙W(2-1) (等式2)
这里,符号⊙代表卷积运算,D_1是第12调整特征图,E_1是第1损失,W(2-1)代表第(2-1)滤波器的权重。
在通过应用与第1损失层相关联并且设置在第(2-1)滤波器与第1损失层之间的卷积滤波器获取第12调整特征图的情况下,可以应用以下等式:
D_1=(E_1⊙W(3-1))⊙W(2-1) (等式3)
同样,W(3-1)代表第(3-1)滤波器的权重,第(3-1)滤波器是与第1损失层相关联的卷积滤波器。无论在生成D_1时采用哪个等式,D_1都被中继至第(2-2)滤波器。
这里,作为过程的初始状态,可以通过没有先前滤波器可以将任何调整特征图中继到第(2-1)滤波器的事实来解释第11临时特征图的不存在。因此,第(2-1)滤波器可以仅从第1损失层接收第1损失,并且对第1损失应用卷积运算,从而获取第12调整特征图。
图4是示出根据本发明的一个示例实施例的在反向传播过程期间获取调整特征图的过程的图。
参照图4,第(2-M)滤波器在反向传播过程期间从第(2-(M-1))滤波器接收第(M-1)2调整特征图。并且第M损失层通过识别GT标签图像与第(2-M)特征图之间的差来计算第M损失。计算出的第M损失可以被传送至第(2-M)滤波器。
如上所述,可以采用欧几里德损失层,或者可以使用用于计算损失的各种已知方法中的任何一种,来计算损失。并且如上所述,第(2-M)滤波器可以接收第M损失,对该第M损失利用与第M损失层相关联的卷积滤波器进一步执行卷积运算。
在反向传播过程期间,第(2-M)滤波器可以从第(2-(M-1))滤波器接收第(M-1)2调整特征图(即D_(M-1)),并且可以通过使用第(2-M)滤波器的权重(即参数)将卷积运算应用于第(M-1)2调整特征图,因此第(2-M)滤波器可以生成第M1临时特征图(即D_(M-1)⊙WM)。并且第(2-M)滤波器可以将第M损失添加至第M1临时特征图以生成第M2调整特征图(即D_M)。然后,可以将第M2调整特征图传播回第(2-(M+1))滤波器。
详细地,可以通过以下等式从第(2-M)滤波器获取第M2调整特征图(即D_M):
D_M=(D_(M-1))⊙WM+E_M(M≥2) (等式4)
这里,符号⊙代表卷积运算,(D_(M-1)⊙WM)是第M1临时特征图,D_(M-1)和D_M分别代表第(M-1)2调整特征图和第M2调整特征图,WM代表第(2-M)滤波器的权重(即参数),E_M代表第M损失。
在通过利用与第M损失层相关联的卷积滤波器的滤波器权重执行卷积运算获取E_M然后将E_M传递至第(2-M)滤波器的情况下,可以将以下等式应用于第(2-M)滤波器以获取D_M(即,第M2调整特征图):
D_M=(D_(M-1))⊙WM+(E_M)⊙W3-M(M≥2) (等式5)
这里,W(3-M)是与第M损失层相关联的卷积滤波器的权重(即参数)。
具体地,在计算从第(2-M)特征图获取的估计标签图像与第M损失层处的GT标签图像之间的损失时,由于GT标签图像与从第(2-M)特征图获取的估计标签图像之间的大小和通道数的区别,可能无法直接计算损失。
因此,第1至第K损失层可以分别包括第(3-1)至第(3-K)滤波器(未示出),第(3-1)至第(3-K)滤波器是分别对应于第1至第K损失层的卷积滤波器。此外,第(3-1)至第(3-K)滤波器中的每一个可以通过分别对第(2-1)至第(2-K)特征图中的每一个执行卷积运算,将第(2-1)至第(2-K)特征图中的每一个的通道数调整为与GT标签图像的通道数相同。另外,包括在第1至第K损失层中的第(3-1)至第(3-K)滤波器可以将GT标签图像的通道数调整为与第(2-1)至第(2-K)特征图中的每一个的通道数匹配。这里,第(3-1)至第(3-K)滤波器中的每一个的滤波器大小是1×1,并且第(3-1)至第(3-K)滤波器可以调整GT标签图像的通道数或第(2-1)至第(2-K)特征图中的每一个的通道数,但不限于此。
作为参考,由于与包括在解码层中的滤波器的每一个交互的损失层的每一个计算损失的每一个,因此GT标签图像可能需要分别缩小大小以对应于特征图的每一个的大小的每一个。也就是说,由于第(2-M)特征图的大小是第(2-(M-1))特征图的大小的一半,在第(2-M)损失层获取的GT标签图像的大小是第(2-(M-1))损失层所需的GT标签图像的大小的一半。
图5是示意性地示出用于通过调整GT标签图像的通道数改变GT标签图像的大小的方法的图。
减小GT标签图像大小的另一种方法是在保持原始GT标签图像的通道数的同时调整其大小。在调整GT标签图像的大小的情况下,因为GT标签图像的背景和前景(即对象)的所有像素值被表示为整数,采用最近邻方法。然而,根据最近邻方法,在缩小GT标签图像的大小的过程中不可避免地会产生误差。这些误差将通过特征图的大小逐渐增大的上层的滤波器而放大,然而误差将通过特征图的大小连续减小的下层的滤波器而减小。
为了解决上述问题,作为图5所示的示例,第M损失层通过调整GT标签图像的通道数将GT标签图像的大小与第(2-M)特征图的大小相匹配。这种方法可以应用于与上层的滤波器交互的损失层,但是不限于此。
例如,如图5所示,假设第(2-M)特征图的大小是320×240并且GT标签图像的大小是640×480,则大小为640×480的GT标签图像可能无法直接从大小为320×240的第(2-M)特征图中减去。因此,第M损失层通过滤波器大小为1×1的卷积运算将GT标签图像的通道数增加4倍。因此,大小为640×480的GT标签图像可以缩小为具有320×240的大小和四倍的通道数。也就是说,大小为640×480的GT标签图像的像素被移位到各个通道以缩小GT标签图像的大小,因此GT标签图像的大小被重新缩放为4倍通道(4(ch.))×320×240。
换句话说,第M损失层将具有“a”个通道和640×480大小的GT标签图像调整为具有“4×a”个通道和320×240大小的GT标签图像。并且第M损失层通过滤波器大小为1×1的第(3-M)滤波器将具有“b”个通道和320×240大小的第(2-M)特征图调整为具有“4×a”个通道和320×240大小的特征图。然后,第M损失层计算从上述特征图获取的估计标签图像与具有相同大小320×240和相同通道数“4×a”的重新缩放的GT标签图像之间的损失。
图6A和图6B是示出根据本发明另一示例实施例的能够通过使用学习装置执行图像分割的CNN的学习过程的图。
随着每个特征图的大小减小,各个特征图的通道数增加。因此,在解码层下部的滤波器(即,处理具有更小大小和更多通道数的特征图的下层滤波器)可以通过1×1卷积运算调整GT标签图像的大小而不是调整其通道数,以便排除下面描述的问题。
假设包括在解码层中的所有滤波器通过卷积运算接收具有增加的通道数的GT标签图像,由于通过卷积运算产生庞大的通道数的过程可能超过滤波器的容量,所以损失可能增大。这里,卷积运算由如图5所示的滤波器大小为1×1的第(3-1)至第(3-K)滤波器执行。
通常,卷积滤波器的大小越大或卷积滤波器的数量越大,卷积运算的性能越高。例如,3×3或5×5卷积滤波器的容量肯定会超过1×1卷积滤波器的容量。因此,由于1×1卷积滤波器的大小,1×1卷积滤波器处理计算量的能力可能是有限的。此外,如果要处理的计算量增加,则1×1卷积滤波器的性能可能较差。
因此,在第1至第K损失层中,具有更大的特征图的大小的T个上损失层(即,第1至第T损失层)分别调整GT标签图像的通道数以减小其大小,而具有更小的特征图的大小的K-T个下损失层(即,第(T+1)至第K损失层)分别调整GT标签图像的大小以减小其大小。也就是说,下损失层在通过使用最近邻方法调整GT标签图像的大小的同时保留GT标签图像的通道数。此外,通过1×1卷积运算,第2-(T+1)至第(2-K)特征图中的每一个的通道数被减少到与GT标签图像的通道数相同的通道数,从而使得从下层的各个特征图获取的估计标签图像以及它们对应的GT标签图像的大小和通道数相等,以便计算各损失。并且,上损失层增加GT标签图像的通道数以减小其大小,从而使得从上层的各个特征图获取的估计标签图像与它们对应的GT标签图像的大小相同。另外,通过1×1卷积运算,第(2-1)至第(2-T)特征图中的每一个的通道数被调整为与GT标签图像的通道数相同,然后,计算各损失。然而,不需要能够执行图像分割的CNN的学习过程来区分用于获取上损失层的各损失的方法和用于获取下损失层的各自的损失的方法。
如上所述,与对来自所有损失层的各个损失使用相同的方法相比,区分用于获取上损失层的各损失的方法和用于获取下损失层的各自的损失的方法可以极大地有助于减少各个损失。
再次参照图6A和图6B,学习装置还可以包括具有第(4-1)至第(4-K)滤波器(即中间滤波器)的中间层。中间滤波器可以通过使用关于第(1-1)至第(1-K)特征图的信息来生成第(4-1)至第(4-K)特征图。第(4-1)至第(4-K)滤波器中的每一个可以对第(1-1)至第(1-K)特征图中的每一个应用扩张卷积运算,从而分别产生第(4-1)至第(4-K)特征图,然后可以将第(4-1)至第(4-K)特征图的每一个中继到第(2-1)至第(2-K)滤波器的每一个。然后,第(2-1)至第(2-K)滤波器可以通过进一步使用第(4-1)至第(4-K)特征图来产生第(2-1)至第(2-K)特征图。
中间滤波器,即第(4-1)至第(4-K)滤波器,可以通过感受野(receptive field)增加的一个或多个扩张卷积运算提取关于第(1-1)至第(1-K)特征图中的每一个的边缘的信息。因此,第(2-1)至第(2-K)滤波器可以利用提取的关于编码特征图的边缘的信息,并且更多这样的信息可以在解码层中被移交给下一个滤波器,同时执行解码过程。
另外,学习装置可以允许第(2-1)至第(2-K)滤波器的至少一部分通过使用第(4-1)至第(4-K)特征图的至少一部分来生成特征图。也就是说,扩张卷积运算可以选择性地应用于第(1-1)至第(1-K)特征图,以获得它们对应的第(4-1)至第(4-K)特征图。
这里,中间滤波器执行扩张卷积运算,但不限于此。例如,视情况而定,至少部分中间滤波器可以执行卷积运算。同时,由中间滤波器生成的特征图可以由包括在解码层中的滤波器直接或间接地引用。
图7A和图7B是示出根据本发明的又一示例实施例的能够执行图像分割的CNN的学习过程的图。除了损失层不与包括在解码层中的滤波器的一部分交互之外,图7A和图7B中所示的学习过程类似于图2A和图2B中所示的学习过程。也就是说,损失层可以与包括在解码层中的滤波器的一部分相关联。
参照图7A和图7B,从解码层中的第(2-1)至第(2-K)滤波器中选择的H个滤波器(即第(2-1)至第(2-H)所选滤波器)可以与第1至第H损失层交互。这里,第(2-1)至第(2-H)所选滤波器从解码层的上侧到其下侧列举。
与该K个滤波器(即第(2-1)至第(2-K)滤波器)相比,相同的附图标记可以不指代相同的部件。例如,该H个滤波器中的第(2-2)所选滤波器可以指代与该K个滤波器中的第(2-2)滤波器不同的滤波器。作为参考,H是大于零且小于K的正整数。如图7A和图7B所示,该H个滤波器标记在括号中。
在图7A和图7B中,学习装置可以包括分别与包括在解码层中的第(2-1)至第(2-H)所选滤波器交互的第1至第H损失层。此外,学习装置可以执行分别计算来自第1至第H损失层的第1至第H损失的过程,其中各H个损失对应于从解码层中的H个滤波器获取的H个特征图中的每一个。
在损失层没有连接到解码层中的所有滤波器但是连接到其部分滤波器的情况下,损失层的数量和计算量减少。此外,即使损失层的数量减少,也可以保持学习过程的效率,因为仍然可以通过在反向传播过程期间使用连接到解码层中的滤波器的一部分的损失层来生成调整特征图。
具体地,(i)与包含最有影响力和最重要的信息的第(1-K)特征图相关的第(2-K)滤波器和(ii)能够产生标签图像的第(2-1)滤波器与它们相应的损失层交互是可取的。
因此,重申采用如本发明所公开的多损失层可以消除特征图内的大量噪声。与单个最终损失层连接到解码层中的最后一个滤波器的传统技术相比,根据本发明可以极大地改进图像分割的性能。
图2A和图2B至图7A和图7B示出了根据本发明的学习装置和使用该学习装置的学习方法。作为参考,学习装置可以通过执行反向传播过程找到最佳参数,而用于进行图像分割的测试装置可以不执行该过程。
这里,将简要描述用于执行图像分割的测试装置(未示出)的配置和相应功能。测试装置利用通过上述学习过程找到的参数并对测试图像执行图像分割。测试装置可以是与上述学习装置相同的装置,或者可以是不同的装置。
用于对作为输入图像的测试图像执行图像分割的测试装置(未示出)包括通信部(未示出)和处理器(未示出)。通信部可以被配置为与外部装置通信。
具体地,通信部可以被配置为在如下条件下获取测试图像:(I)学习装置包括:(i)编码层,具有通过将一个或多个卷积运算应用于训练图像来分别生成第(1-1)至第(1-K)特征图的第(1-1)至第(1-K)滤波器中的每一个;(ii)解码层,具有通过将一个或多个去卷积运算应用于1-K特征图来分别生成第(2-K)至第(2-1)特征图的第(2-K)至第(2-1)滤波器中的每一个;以及(iii)第1至第H损失层,分别与包括在解码层中的K个滤波器中的H个滤波器交互;(II)如果获得训练图像,则学习装置通过编码层和解码层获取第(2-K)至第(2-1)特征图,并从与第(2-K)至第(2-1)特征图中的从H个滤波器获得的H个特征图中的每一个分别对应的第1至第H损失层获取第1至第H损失;(III)在执行反向传播过程时,学习装置执行以下过程:(1)允许第(2-M)滤波器将卷积运算应用于从第(2-(M-1))滤波器中继的第(M-1)2调整特征图从而获得第M1临时特征图;(2)将通过利用第M1临时特征图计算第M损失得到的第M2调整特征图中继至第(2-(M+1))滤波器;以及(3)调整第(1-1)至第(1-K)滤波器和第(2-K)至第(2-1)滤波器的参数的至少一部分,其中M是大于或等于2且小于或等于K-1的整数,其中,作为(III)的初始状态,第1损失层计算对应于第(2-1)特征图的第1损失,第(2-1)滤波器对第1损失应用卷积运算从而获取第12调整特征图,并且第(2-1)滤波器将第12调整特征图中继至第(2-2)滤波器;以及(IV)学习装置获取第(2-K)至第(2-1)滤波器和第(1-1)至第(1-K)滤波器的调整参数。
此外,处理器可以被配置为通过使用解码层和编码层中的至少部分滤波器(即第(2-K)至第(2-1)滤波器和第(1-1)至第(1-K)滤波器)的调整参数对所获取的测试图像执行图像分割。
本发明具有如下效果:通过将解码层中的滤波器中的每一个与计算损失的损失层中的每一个相连接,来校正从各个单独的损失层获得的解码层中的各个滤波器的损失。
另外,本发明具有另一效果:在反向传播过程中通过在将损失传播回每个滤波器时防止损失减少而反映正确的损失。
此外,本发明具有另一效果:提供学习环境,其中在反向传播过程中通过在每个滤波器上反映正确的损失找到每个滤波器的最佳参数。
此外,本发明还具有另一效果:提供图像的测试环境,其中通过为每个滤波器找到最佳参数而精确地执行图像分割。
如上所述的本发明的实施例可以通过可记录到计算机可读介质的各种计算机装置以可执行程序命令的形式实现。计算机可读介质可以单独地或组合地包括程序命令、数据文件和数据结构。记录到介质的程序命令可以是为本发明专门设计的组件,或者对于计算机软件领域的技术人员可用。计算机可读记录介质包括:诸如硬盘、软盘和磁带的磁介质;诸如CD-ROM和DVD的光学介质;诸如光盘的磁光介质;诸如ROM、RAM的硬件装置;以及专门用于存储和执行程序的闪存。程序命令不仅包括由编译器产生的机器语言代码,还包括可由通过计算机执行的解释器等使用的高级代码。上述硬件装置可以不止作为软件模块工作来执行本发明的动作,并且它们在相反的情况下可以做同样的工作。
如上所述,已经通过诸如详细组件、有限实施例和附图的具体事项解释了本发明。虽然已经关于优选实施例示出和描述了本发明,但是,本领域技术人员将理解,在不脱离如在以下权利要求中限定的本发明的精神和范围的情况下,可以进行各种改变和修改。
因此,本发明的思想不应局限于所解释的实施例,并且以下专利权利要求以及包括与专利权利要求等同或等同的变化的所有内容都属于本发明的思想范畴。

Claims (26)

1.一种用于通过使用学习装置来改进图像分割的学习方法,其中,所述学习装置包括:(i)编码层,具有通过将一个或多个卷积运算应用于作为输入图像的训练图像来分别生成第(1-1)特征图至第(1-K)特征图的第(1-1)滤波器至第(1-K)滤波器中的每一个;(ii)解码层,具有通过将一个或多个去卷积运算应用于1-K特征图来分别生成第(2-K)特征图至第(2-1)特征图的第(2-K)滤波器至第(2-1)滤波器中的每一个;以及(iii)第1损失层至第H损失层,分别与包括在所述解码层中的K个滤波器中的H个滤波器交互,所述学习方法包括以下步骤:
(a)如果获得所述输入图像,则所述学习装置通过所述编码层和所述解码层获取或支持另一装置获取所述第(2-K)特征图至第(2-1)特征图,并且获取或支持另一装置从与所述第(2-K)特征图至第(2-1)特征图中的从H个所选择的滤波器获得的H个特征图中的每一个分别对应的所述第1损失层至所述第H损失层中获取第1损失至第H损失;以及
(b)在执行反向传播过程时,所述学习装置执行以下过程:(1)允许第(2-M)滤波器将卷积运算应用于从第(2-(M-1))滤波器中继的第(M-1)2调整特征图,从而获得第M1临时特征图;(2)将通过利用所述第M1临时特征图计算第M损失得到的第M2调整特征图中继至所述第(2-(M+1))滤波器;以及(3)调整所述第(1-1)滤波器至所述第(1-K)滤波器和所述第(2-K)滤波器至所述第(2-1)滤波器的参数的至少一部分,其中M是大于或等于2且小于或等于K-1的整数,
其中,作为所述步骤(b)的初始状态,所述第1损失层计算对应于所述第(2-1)特征图的所述第1损失,所述第(2-1)滤波器对所述第1损失应用卷积运算从而获取第12调整特征图,并且所述第(2-1)滤波器将所述第12调整特征图中继至第(2-2)滤波器。
2.根据权利要求1所述的方法,其中,所述第1损失层至所述第H损失层通过将第1地面真值标签图像至第H地面真值标签图像与由第(3-1)滤波器至第(3-H)滤波器中的每一个对所述H个特征图中的每一个应用一个或多个卷积运算生成的第(3-1)特征图至第(3-H)特征图分别进行比较,来分别计算所述第1损失至所述第H损失。
3.根据权利要求2所述的方法,其中,所述第(3-1)滤波器至所述第(3-H)滤波器中的每一个的大小是1×1,并且通过对所述H个特征图中的每一个应用一个或多个卷积运算,所述第(3-1)特征图至所述第(3-H)特征图中的每一个的通道数被控制为等于所述第1地面真值标签图像至所述第H地面真值标签图像中的每一个的通道数,并且其中,所述第1地面真值标签图像至所述第H地面真值标签图像中的每一个的大小被控制为对应于所述第(3-1)特征图至所述第(3-H)特征图中的每一个的大小。
4.根据权利要求3所述的方法,其中,通过分别调整原始地面真值标签图像的通道数,并通过分别改变所述原始地面真值标签图像的大小以使所述原始地面真值标签图像的大小与所述H个特征图中的每一个的大小相匹配,来获取所述第1地面真值标签图像至所述第H地面真值标签图像的至少一部分。
5.根据权利要求4所述的方法,其中,通过增加所述原始地面真值标签图像的通道数,并通过(i)所述原始地面真值标签图像的大小和(ii)所述H个特征图中的每一个的大小的比率的每一个减小所述原始地面真值标签图像的大小,来调整所述原始地面真值标签图像的通道数。
6.根据权利要求4所述的方法,其中,通过分别调整所述原始地面真值标签图像的大小以使所述原始地面真值标签图像的大小与所述H个特征图中的每一个的大小相匹配,来获得所述第1地面真值标签图像至所述第H地面真值标签图像的至少一部分。
7.根据权利要求4所述的方法,其中,如果t是大于或等于1且小于H的整数,则所述学习装置允许H个损失层中的第1损失层至第t损失层通过分别调整所述原始地面真值标签图像的通道数来分别改变所述原始地面真值标签图像的大小,而所述学习装置允许第(t+1)损失层至第H损失层通过分别调整所述原始地面真值标签图像的大小来分别改变所述原始地面真值标签图像的大小,并且其中,如果t是等于H的整数,则所述学习装置允许所述第1损失层至所述第H损失层通过分别调整所述原始地面真值标签图像的通道数来分别改变所述原始地面真值标签图像的大小。
8.根据权利要求7所述的方法,其中,在保持所述原始地面真值标签图像的通道数的同时,分别调整所述原始地面真值标签图像的大小。
9.根据权利要求1所述的方法,其中,所述学习装置允许与包括在所述编码层与所述解码层之间的中间层中的中间滤波器中的每一个分别对应的所述第(1-1)特征图至所述第(1-K)特征图的至少一部分被输入到所述中间滤波器中的每一个,并且其中,所述学习装置允许所述第(2-1)滤波器至所述第(2-K)滤波器的至少一部分通过进一步使用从一个或多个中间滤波器获取的特定特征图来获得所述第(2-1)特征图至所述第(2-K)特征图的至少一部分。
10.根据权利要求9所述的方法,其中,如果包括第(4-1)滤波器至第(4-K)滤波器的所述中间滤波器执行一个或多个扩张卷积运算,则所述学习装置执行以下过程:通过所述第(4-1)滤波器至所述第(4-K)滤波器对所述第(1-1)特征图至所述第(1-K)特征图中的每一个应用所述扩张卷积运算获得第(4-1)特征图至第(4-K)特征图;以及分别将所述第(4-1)特征图至所述第(4-K)特征图中继到所述第(2-1)滤波器至所述第(2-K)滤波器。
11.一种用于对作为输入图像的测试图像执行图像分割的测试方法,包括以下步骤:
(a)测试装置在如下条件下获取或支持另一装置获取所述测试图像:(I)学习装置包括:(i)编码层,具有通过将一个或多个卷积运算应用于训练图像来分别生成第(1-1)特征图至第(1-K)特征图的第(1-1)滤波器至第(1-K)滤波器中的每一个;(ii)解码层,具有通过将一个或多个去卷积运算应用于1-K特征图来分别生成第(2-K)特征图至第(2-1)特征图的第(2-K)滤波器至第(2-1)滤波器中的每一个;以及(iii)第1损失层至第H损失层,分别与包括在所述解码层中的K个滤波器中的H个滤波器交互;(II)如果获得训练图像,则所述学习装置通过所述编码层和所述解码层获取所述第(2-K)特征图至所述第(2-1)特征图,并从与所述第(2-K)特征图至所述第(2-1)特征图中的从H个滤波器获得的H个特征图中的每一个分别对应的所述第1损失层至所述第H损失层中获取第1损失至第H损失;(III)在执行反向传播过程时,所述学习装置执行以下过程:(1)允许第(2-M)滤波器将卷积运算应用于从第(2-(M-1))滤波器中继的第(M-1)2调整特征图,从而获得第M1临时特征图;(2)将通过利用所述第M1临时特征图计算第M损失得到的第M2调整特征图中继至所述第(2-(M+1))滤波器;以及(3)调整所述第(1-1)滤波器至第(1-K)滤波器和所述第(2-K)滤波器至所述第(2-1)滤波器的参数的至少一部分,其中M是大于或等于2且小于或等于K-1的整数,其中,作为(III)的初始状态,所述第1损失层计算对应于第(2-1)特征图的所述第1损失,所述第(2-1)滤波器对所述第1损失应用卷积运算从而获取第12调整特征图,并且所述第(2-1)滤波器将所述第12调整特征图中继至第(2-2)滤波器;以及(IV)所述学习装置获取所述第(2-K)滤波器至所述第(2-1)滤波器和所述第(1-1)滤波器至所述第(1-K)滤波器的调整参数;以及
(b)通过利用所述第(2-K)滤波器至所述第(2-1)滤波器和所述第(1-1)滤波器至所述第(1-K)滤波器的调整参数,所述测试装置对获取的测试图像执行图像分割或支持另一装置对获取的测试图像执行图像分割。
12.根据权利要求11所述的方法,其中,所述学习装置允许与包括在所述编码层与所述解码层之间的中间层中的中间滤波器中的每一个分别对应的所述第(1-1)特征图至所述第(1-K)特征图的至少一部分被输入到所述中间滤波器中的每一个,并且其中,所述测试装置允许所述第(2-1)滤波器至所述第(2-K)滤波器的至少一部分通过进一步使用从一个或多个中间滤波器获取的特定特征图来获得所述第(2-1)特征图至所述第(2-K)特征图的至少一部分。
13.根据权利要求12所述的方法,其中,如果包括第(4-1)滤波器至第(4-K)滤波器的所述中间滤波器执行一个或多个扩张卷积运算,则所述测试装置执行以下过程:通过所述第(4-1)滤波器至所述第(4-K)滤波器对所述第(1-1)特征图至所述第(1-K)特征图中的每一个应用所述扩张卷积运算获得第(4-1)特征图至第(4-K)特征图;以及分别将所述第(4-1)特征图至所述第(4-K)特征图中继到所述第(2-1)滤波器至所述第(2-K)滤波器。
14.一种用于改进图像分割的学习装置,其中,所述学习装置包括:(i)编码层,具有通过将一个或多个卷积运算应用于作为输入图像的训练图像来分别生成第(1-1)特征图至第(1-K)特征图的第(1-1)滤波器至第(1-K)滤波器中的每一个;(ii)解码层,具有通过将一个或多个去卷积运算应用于1-K特征图来分别生成第(2-K)特征图至第(2-1)特征图的第(2-K)滤波器至第(2-1)滤波器中的每一个;以及(iii)第1损失层至第H损失层,分别与包括在所述解码层中的K个滤波器中的H个滤波器交互,所述学习装置包括:
通信部,用于接收所述输入图像;
处理器,用于执行以下过程:(I)如果获得所述输入图像,则,所述处理器通过所述编码层和所述解码层获取或支持另一装置获取所述第(2-K)特征图至所述第(2-1)特征图,并且获取或支持另一装置从与所述第(2-K)特征图至所述第(2-1)特征图中的从H个滤波器获得的H个特征图中的每一个分别对应的所述第1损失层至所述第H损失层中获取第1损失至第H损失;以及(II)在执行反向传播过程时,(i)允许第(2-M)滤波器将卷积运算应用于从第(2-(M-1))滤波器中继的第(M-1)2调整特征图,从而获得第M1临时特征图;(ii)将通过利用所述第M1临时特征图计算第M损失得到的第M2调整特征图中继至所述第(2-(M+1))滤波器;以及(iii)调整所述第(1-1)滤波器至所述第(1-K)滤波器和所述第(2-K)滤波器至所述第(2-1)滤波器的参数的至少一部分,
其中,M是大于或等于2且小于或等于K-1的整数,并且其中,作为初始状态,所述第1损失层计算对应于所述第(2-1)特征图的所述第1损失,所述第(2-1)滤波器对所述第1损失应用卷积运算从而获取第12调整特征图,并且所述第(2-1)滤波器将所述第12调整特征图中继至第(2-2)滤波器。
15.根据权利要求14所述的学习装置,其中,所述处理器被配置为允许所述第1损失层至所述第H损失层通过将第1地面真值标签图像至第H地面真值标签图像与由第(3-1)滤波器至第(3-H)滤波器中的每一个对所述H个特征图中的每一个应用一个或多个卷积运算生成的第(3-1)特征图至第(3-H)特征图分别进行比较,来分别计算所述第1损失至所述第H损失。
16.根据权利要求15所述的学习装置,其中,所述第(3-1)滤波器至所述第(3-H)滤波器中的每一个的大小是1×1,并且通过对所述H个特征图中的每一个应用一个或多个卷积运算,所述第(3-1)特征图至所述第(3-H)特征图中的每一个的通道数被配置为等于所述第1地面真值标签图像至所述第H地面真值标签图像中的每一个的通道数,并且其中,所述第1地面真值标签图像至所述第H地面真值标签图像中的每一个的大小被配置为对应于所述第(3-1)特征图至所述第(3-H)特征图中的每一个的大小。
17.根据权利要求16所述的学习装置,其中,所述处理器被配置为通过分别调整原始地面真值标签图像的通道数,并通过分别改变所述原始地面真值标签图像的大小以使所述原始地面真值标签图像的大小与所述H个特征图中的每一个的大小相匹配,来获取所述第1地面真值标签图像至所述第H地面真值标签图像的至少一部分。
18.根据权利要求17所述的学习装置,其中,所述处理器被配置为通过增加所述原始地面真值标签图像的通道数,并通过(i)所述原始地面真值标签图像的大小和(ii)所述H个特征图中的每一个的大小的比率的每一个减小所述原始地面真值标签图像的大小,来调整所述原始地面真值标签图像的通道数。
19.根据权利要求17所述的学习装置,其中,所述处理器被配置为通过分别调整所述原始地面真值标签图像的大小以使所述原始地面真值标签图像的大小与所述H个特征图中的每一个的大小相匹配,来获得所述第1地面真值标签图像至所述第H地面真值标签图像的至少一部分。
20.根据权利要求17所述的学习装置,其中,如果t是大于或等于1且小于H的整数,则所述处理器被配置为允许H个损失层中的第1损失层至第t损失层通过分别调整所述原始地面真值标签图像的通道数来分别改变所述原始地面真值标签图像的大小,而所述处理器被配置为允许第(t+1)损失层至第H损失层通过分别调整所述原始地面真值标签图像的大小来分别改变所述原始地面真值标签图像的大小,并且其中,如果t是等于H的整数,则所述处理器被配置为允许所述第1损失层至所述第H损失层通过分别调整所述原始地面真值标签图像的通道数来分别改变所述原始地面真值标签图像的大小。
21.根据权利要求20所述的学习装置,其中,所述处理器被配置为在保持所述原始地面真值标签图像的通道数的同时,分别调整所述原始地面真值标签图像的大小。
22.根据权利要求14所述的学习装置,其中,所述处理器被配置为允许与包括在所述编码层与所述解码层之间的中间层的中间滤波器中的每一个分别对应的所述第(1-1)特征图至所述第(1-K)特征图的至少一部分被输入到所述中间滤波器中的每一个,并且所述第(2-1)滤波器至所述第(2-K)滤波器的至少一部分通过进一步使用从一个或多个中间滤波器获取的特定特征图以获得所述第(2-1)特征图至所述第(2-K)特征图的至少一部分。
23.根据权利要求22所述的学习装置,其中,如果包括第(4-1)滤波器至第(4-K)滤波器的所述中间滤波器执行一个或多个扩张卷积运算,则所述处理器被配置为执行以下过程:通过所述第(4-1)滤波器至所述第(4-K)滤波器对所述第(1-1)特征图至所述第(1-K)特征图中的每一个应用所述扩张卷积运算获得第(4-1)特征图至第(4-K)特征图,以及分别将所述第(4-1)特征图至所述第(4-K)特征图中继到所述第(2-1)滤波器至所述第(2-K)滤波器。
24.一种用于对作为输入图像的测试图像执行图像分割的测试装置,包括:
通信部,用于在如下条件下获取或支持另一装置获取测试图像:(I)学习装置包括:(i)编码层,具有通过将一个或多个卷积运算应用于训练图像来分别生成第(1-1)特征图至第(1-K)特征图的第(1-1)滤波器至第(1-K)滤波器中的每一个;(ii)解码层,具有通过将一个或多个去卷积运算应用于1-K特征图来分别生成第(2-K)特征图至第(2-1)特征图的第(2-K)滤波器至第(2-1)滤波器中的每一个;以及(iii)第1损失层至第H损失层,分别与包括在解码层中的K个滤波器中的H个滤波器交互;(II)如果获得训练图像,则所述学习装置通过所述编码层和所述解码层获取所述第(2-K)特征图至所述第(2-1)特征图,并从与所述第(2-K)特征图至所述第(2-1)特征图中的从H个滤波器获得的H个特征图中的每一个分别对应的所述第1损失层至所述第H损失层中获取第1损失至第H损失;(III)在执行反向传播过程时,所述学习装置执行以下过程:(1)允许第(2-M)滤波器将卷积运算应用于从第(2-(M-1))滤波器中继的第(M-1)2调整特征图,从而获得第M1临时特征图;(2)将通过利用所述第M1临时特征图计算第M损失得到的第M2调整特征图中继至所述第(2-(M+1))滤波器;以及(3)调整所述第(1-1)滤波器至所述第(1-K)滤波器和所述第(2-K)滤波器至所述第(2-1)滤波器的参数的至少一部分,其中M是大于或等于2且小于或等于K-1的整数,其中,作为(III)的初始状态,所述第1损失层计算对应于第(2-1)特征图的所述第1损失,所述第(2-1)滤波器对所述第1损失应用卷积运算从而获取第12调整特征图,并且所述第(2-1)滤波器将所述第12调整特征图中继至第(2-2)滤波器;以及(IV)所述学习装置获取所述第(2-K)滤波器至所述第(2-1)滤波器和所述第(1-1)滤波器至所述第(1-K)滤波器的调整参数;以及
处理器,通过利用所述第(2-K)滤波器至所述第(2-1)滤波器和所述第(1-1)滤波器至所述第(1-K)滤波器的调整参数,所述处理器对所获取的测试图像执行图像分割或支持另一装置对所获取的测试图像执行图像分割。
25.根据权利要求24所述的测试装置,其中,所述处理器被配置为允许第(2-1)滤波器至第(2-K)滤波器的至少一部分通过进一步使用从包括在所述编码层与所述解码层之间的中间层中的中间滤波器获取的特定特征图来获得所述第(2-1)特征图至所述第(2-K)特征图的至少一部分,并且被配置为为所述中间滤波器在所述第(1-1)特征图至所述第(1-K)特征图中选择输入。
26.根据权利要求24所述的测试装置,其中,如果包括第(4-1)滤波器至第(4-K)滤波器的所述中间滤波器执行一个或多个扩张卷积运算,则所述处理器被配置为执行以下过程:通过所述第(4-1)滤波器至所述第(4-K)滤波器对所述第(1-1)特征图至所述第(1-K)特征图中的每一个应用所述扩张卷积运算获得第(4-1)特征图至第(4-K)特征图;以及分别将所述第(4-1)特征图至所述第(4-K)特征图中继到所述第(2-1)滤波器至所述第(2-K)滤波器。
CN201811147163.7A 2017-10-03 2018-09-29 改进图像分割学习方法和装置及使用其的测试方法和装置 Active CN109598725B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/723,597 2017-10-03
US15/723,597 US9947103B1 (en) 2017-10-03 2017-10-03 Learning method and learning device for improving image segmentation and testing method and testing device using the same

Publications (2)

Publication Number Publication Date
CN109598725A true CN109598725A (zh) 2019-04-09
CN109598725B CN109598725B (zh) 2023-05-05

Family

ID=61872655

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811147163.7A Active CN109598725B (zh) 2017-10-03 2018-09-29 改进图像分割学习方法和装置及使用其的测试方法和装置

Country Status (5)

Country Link
US (1) US9947103B1 (zh)
EP (1) EP3467713B1 (zh)
JP (1) JP6720264B2 (zh)
KR (1) KR102144381B1 (zh)
CN (1) CN109598725B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018141429A1 (en) * 2017-02-03 2018-08-09 Siemens Aktiengesellschaft A method and apparatus for detecting objects of interest in images
CN108108738B (zh) * 2017-11-28 2018-11-16 北京达佳互联信息技术有限公司 图像处理方法、装置及终端
US10565476B1 (en) * 2018-09-04 2020-02-18 StradVision, Inc. Method and computing device for generating image data set for learning to be used for detection of obstruction in autonomous driving circumstances and learning method and learning device using the same
US10303980B1 (en) * 2018-09-05 2019-05-28 StradVision, Inc. Learning method, learning device for detecting obstacles and testing method, testing device using the same
US10579924B1 (en) * 2018-09-17 2020-03-03 StradVision, Inc. Learning method, learning device with multi-feeding layers and testing method, testing device using the same
US10304009B1 (en) * 2018-10-08 2019-05-28 StradVision, Inc. Learning method and testing method for object detector based on R-CNN, and learning device and testing device using the same
US10311321B1 (en) * 2018-10-26 2019-06-04 StradVision, Inc. Learning method, learning device using regression loss and testing method, testing device using the same
US10373317B1 (en) * 2019-01-22 2019-08-06 StradVision, Inc. Learning method and learning device for attention-driven image segmentation by using at least one adaptive loss weight map to be used for updating HD maps required to satisfy level 4 of autonomous vehicles and testing method and testing device using the same
US10311578B1 (en) * 2019-01-23 2019-06-04 StradVision, Inc. Learning method and learning device for segmenting an image having one or more lanes by using embedding loss to support collaboration with HD maps required to satisfy level 4 of autonomous vehicles and softmax loss, and testing method and testing device using the same
US10872297B2 (en) * 2019-01-30 2020-12-22 StradVision, Inc. Learning method and learning device for generating training data from virtual data on virtual world by using generative adversarial network, to thereby reduce annotation cost required in training processes of neural network for autonomous driving, and a testing method and a testing device using the same
US10373004B1 (en) * 2019-01-31 2019-08-06 StradVision, Inc. Method and device for detecting lane elements to plan the drive path of autonomous vehicle by using a horizontal filter mask, wherein the lane elements are unit regions including pixels of lanes in an input image
US10776673B2 (en) * 2019-01-31 2020-09-15 StradVision, Inc. Learning method and learning device for sensor fusion to integrate information acquired by radar capable of distance estimation and information acquired by camera to thereby improve neural network for supporting autonomous driving, and testing method and testing device using the same
US10762393B2 (en) * 2019-01-31 2020-09-01 StradVision, Inc. Learning method and learning device for learning automatic labeling device capable of auto-labeling image of base vehicle using images of nearby vehicles, and testing method and testing device using the same
KR102361444B1 (ko) 2020-03-06 2022-02-11 주식회사 테스트웍스 다각형 기반의 객체 인식 성능 보정 장치 및 방법
KR102345799B1 (ko) * 2021-02-23 2021-12-31 인그래디언트 주식회사 Cnn 기반의 자동 라벨 마스크 교정 방법 및 이를 이용한 시스템
CN114399440B (zh) * 2022-01-13 2022-12-13 马上消费金融股份有限公司 图像处理方法、图像处理网络训练方法、装置及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170243113A1 (en) * 2016-02-24 2017-08-24 International Business Machines Corporation Learning of neural network
CN107092661A (zh) * 2017-03-28 2017-08-25 桂林明辉信息科技有限公司 一种基于深度卷积神经网络的图像检索方法
CN107122809A (zh) * 2017-04-24 2017-09-01 北京工业大学 基于图像自编码的神经网络特征学习方法
CN107169535A (zh) * 2017-07-06 2017-09-15 谈宜勇 生物多光谱图像的深度学习分类方法及装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9646055B2 (en) * 2014-04-03 2017-05-09 Facebook, Inc. Blending search results on online social networks
CN104700099B (zh) * 2015-03-31 2017-08-11 百度在线网络技术(北京)有限公司 识别交通标志的方法和装置
US9940539B2 (en) * 2015-05-08 2018-04-10 Samsung Electronics Co., Ltd. Object recognition apparatus and method
US10115032B2 (en) * 2015-11-04 2018-10-30 Nec Corporation Universal correspondence network
CN108603922A (zh) * 2015-11-29 2018-09-28 阿特瑞斯公司 自动心脏体积分割
US10373073B2 (en) * 2016-01-11 2019-08-06 International Business Machines Corporation Creating deep learning models using feature augmentation
US9773196B2 (en) * 2016-01-25 2017-09-26 Adobe Systems Incorporated Utilizing deep learning for automatic digital image segmentation and stylization

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170243113A1 (en) * 2016-02-24 2017-08-24 International Business Machines Corporation Learning of neural network
CN107092661A (zh) * 2017-03-28 2017-08-25 桂林明辉信息科技有限公司 一种基于深度卷积神经网络的图像检索方法
CN107122809A (zh) * 2017-04-24 2017-09-01 北京工业大学 基于图像自编码的神经网络特征学习方法
CN107169535A (zh) * 2017-07-06 2017-09-15 谈宜勇 生物多光谱图像的深度学习分类方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHAO PENG: "Large Kernel Matters-Improve Semantic By Global Convolutional Network", 《2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *
QIKUI ZHU: "Deeply-supervised CNN for prostate segmentation", 《2017 INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS (IJCNN)》 *
范青: "卷积神经网络中减少训练样本时间方法研究", 《电脑知识与技术》 *

Also Published As

Publication number Publication date
JP6720264B2 (ja) 2020-07-08
EP3467713B1 (en) 2022-08-17
US9947103B1 (en) 2018-04-17
KR20190039383A (ko) 2019-04-11
CN109598725B (zh) 2023-05-05
JP2019067403A (ja) 2019-04-25
EP3467713A8 (en) 2019-06-05
KR102144381B1 (ko) 2020-08-13
EP3467713A1 (en) 2019-04-10

Similar Documents

Publication Publication Date Title
CN109598725A (zh) 改进图像分割学习方法和装置及使用其的测试方法和装置
US10095977B1 (en) Learning method and learning device for improving image segmentation and testing method and testing device using the same
Liu et al. Joint demosaicing and denoising with self guidance
CN109670573A (zh) 利用损失增加调整cnn的参数的学习方法和学习装置以及使用它们的测试方法和测试装置
CN109754359B (zh) 一种应用于卷积神经网络的池化处理的方法及系统
CN111968123B (zh) 一种半监督视频目标分割方法
CN109816612A (zh) 图像增强方法和装置、计算机可读存储介质
CN109493295B (zh) 一种非局部哈尔变换图像去噪方法
CN111316316A (zh) 用于图像复原的神经网络及其训练与使用方法
Pérez-Pellitero et al. Photorealistic video super resolution
CN110443357A (zh) 卷积神经网络计算优化方法、装置、计算机设备及介质
CN106296649B (zh) 一种基于水平集模型的纹理图像分割方法
CN104992407B (zh) 一种图像超分辨方法
Hubens et al. One-Cycle Pruning: Pruning Convnets With Tight Training Budget
CN113674156B (zh) 一种图像超分辨率重建的方法及系统
Rafiee et al. A very fast and efficient multistage selective convolution filter for removal of salt and pepper noise
CN113327205A (zh) 基于卷积神经网络的相位去噪网络及方法
CN109035178B (zh) 一种应用于图像去噪的多参数取值调优方法
CN111932472A (zh) 一种基于软聚类的图像保边滤波方法
CN117095217A (zh) 多阶段对比知识蒸馏方法
CN112085652A (zh) 一种图像处理的方法、装置、计算机存储介质及终端
CN116152037A (zh) 图像反卷积方法和设备、存储介质
CN112634224B (zh) 基于目标影像的病灶检测方法和装置
KR102486795B1 (ko) 딥러닝 성능향상을 위한 주파수 도메인에서의 데이터 증강 방법 및 장치
CN110505485B (zh) 运动补偿方法、装置、计算机设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant