CN111476343B - 利用掩蔽参数的方法和装置 - Google Patents

利用掩蔽参数的方法和装置 Download PDF

Info

Publication number
CN111476343B
CN111476343B CN202010065642.5A CN202010065642A CN111476343B CN 111476343 B CN111476343 B CN 111476343B CN 202010065642 A CN202010065642 A CN 202010065642A CN 111476343 B CN111476343 B CN 111476343B
Authority
CN
China
Prior art keywords
value
region
pooling
interest
test
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010065642.5A
Other languages
English (en)
Other versions
CN111476343A (zh
Inventor
金桂贤
金镕重
金寅洙
金鹤京
南云铉
夫硕焄
成明哲
吕东勋
柳宇宙
张泰雄
郑景中
诸泓模
赵浩辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Stradvision Inc
Original Assignee
Stradvision Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Stradvision Inc filed Critical Stradvision Inc
Publication of CN111476343A publication Critical patent/CN111476343A/zh
Application granted granted Critical
Publication of CN111476343B publication Critical patent/CN111476343B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2115Selection of the most significant subset of features by evaluating different subsets according to an optimisation criterion, e.g. class separability, forward selection or backward elimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/2163Partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/46Colour picture communication systems
    • H04N1/64Systems for the transmission or the storage of the colour picture signal; Details therefor, e.g. coding or decoding means therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种利用掩蔽参数的方法和装置及利用此方法和装置的测试方法和测试装置。该方法和装置包括以下步骤:步骤(a),获取输入图像后,计算装置使CNN的卷积层产生与所述输入图像相对应的特征图;步骤(b),所述计算装置使CNN的RPN通过所述特征图来决定与所述输入图像所包含的至少一个物件相对应的ROI;以及步骤(c),所述计算装置使所述CNN的ROI池化层参照与每个池化计算相对应的每个所述掩蔽参数,且将每个所述池化计算适用于所述ROI内的每个子区域,形成已掩蔽的池化特征图。

Description

利用掩蔽参数的方法和装置
技术领域
本申请涉及一种学习方法和装置及利用此方法和装置的测试方法和测试装置。其中,利用一个以上掩蔽参数(masking parameters)池化(Pulling)最少一个ROI的方法,包括:步骤(a),获取输入图像后,计算装置使CNN的卷积层产生与所述输入图像相对应的特征图;步骤(b),所述计算装置使CNN的RPN通过所述特征图决定与所述输入图像所包含的至少一个对象相对应的ROI;以及步骤(c),所述计算装置将所述CNN的ROI池化层参照与每个池化计算相对应的每个所述掩蔽参数,并将每个所述池化计算适用于所述ROI内的每个子区域(sub-regions),从而形成已掩蔽的池化(pooled)特征图{LEARNING METHOD ANDLEARNING DEVICE FOR POOLING ROI BY USING MASKING PARAMETERS TO BE USED FORMOBILE DEVICES OR COMPACT NETWORKS VIA HARDWARE OPTIMIZATION,AND TESTINGMETHOD AND TESTING DEVICE USING THE SAME}。
背景技术
深度卷积神经网络(Deep Convolutional Neural Network or Deep CNN)是发生在深度学习领域中耀眼发展的核心。90年代,虽然使用CNN解决识别字体的问题,但到了近代才广泛应用于机械学习(Machine Learning)领域中。例如,CNN在2012年图像识别竞赛(ImageNet Large Scale Visual Recognition Challenge)中超过其它竞争对手获得了冠军。之后,在机械学习领域中成为非常有用的工具。
另外,ROI池化是利用与每个子区域(sub-regions)相对应的每个代表特征值池化的方法,每个子区域包括在至少一个ROI,即感兴趣区域(Region-of-Interest)。感兴趣区域是至少一个输入图像的重要部分,即至少一个目标对象所在的至少一部分。ROI池化广泛应用在机械学习上,并能够减少计算负荷。
根据现有的ROI池化方法,通过RPN决定与输入图像包括的对象相对应的ROI时,池化计算适用在ROI的每个子区域。通过池化计算,算出每个子区域相对应的每个代表特征值。其中,子区域代表特征值是通过按每个子区域的每个特征值的平均值或按每个子区域的每个特征值的最大值形成。
图4图示了根据现有的ROI池化方法,形成代表特征值的步骤,其中所述代表特征值用于池化ROI。
参照图4,可以看出通过按每个子区域与其相对应的所有特征值形成每个代表特征值。
但是,现有的ROI池化方法中,虽然ROI的子区域是矩形,但随机输入图像中包含的任意对象形状通常不是矩形,因此相比需要,出现更多的存储器访问量的严重问题。因此,可能会出现子区域包括但输入图像的对象不包括的不必要的像素。对这些不必要的像素非效率且不必要的访问,使池化结果产生歪曲或降低学习速度。
发明内容
本发明的目的在于解决上述问题。
本发明的另一个目的在于参照与ROI所包括的特征值相对应的掩蔽参数,提供用于访问已优化的存储器的ROI池化方法。
如上述记载,为了达到本发明的目的,并实现本发明的特定效果,本发明提供如下特征结构。
根据本发明的一实施例提供一种利用一个以上掩蔽参数(masking parameters)池化至少一个ROI的学习方法,该学习方法包括以下步骤:步骤(a)、获取输入图像后,计算装置使CNN的卷积层产生与所述输入图像相对应的特征图;步骤(b)、所述计算装置使所述CNN的RPN通过所述特征图决定与所述输入图像所包含的至少一个对象相对应的ROI;以及步骤(c)、所述计算装置将所述CNN的ROI池化层参照与每个池化计算相对应的每个所述掩蔽参数,且将每个所述池化计算适用于所述ROI内的每个子区域(sub-regions),形成已掩蔽的池化(pooled)特征图。
在本发明一实施例中,每个所述掩蔽参数由第一值或第二值中一个来确定,且所述步骤(c)中,所述计算装置将所述ROI池化层参照每个所述掩蔽参数是所述第一值,还是所述第二值的信息,使每个所述池化计算适用在所述ROI内的所述每个所述子区域,形成所述已掩蔽的池化特征图。
在本发明一实施例中,所述计算装置使所述ROI池化层,对与所述第一值的掩蔽参数相对应的位置存在的部分特征值,不适用所述池化计算。
在本发明一实施例中,还包括:步骤(d)、所述计算装置使所述CNN的输出层,将神经网络计算(neural network operations)适用在所述已掩蔽的池化特征图,从而形成CNN输出值;以及步骤(e)、所述计算装置使所述CNN的损耗层参照所述CNN输出值以及与其相对应的GT,从而形成损耗值,并将所述损耗值反向传播(Back-Propagation),从而学习所述ROI池化层的所述掩蔽参数。
在本发明一实施例中,所述步骤(e)中,所述计算装置将所述损耗值反向传播,从而进一步学习所述卷积层及所述输出层所包含的至少一部分参数。
在本发明一实施例中,每个所述掩蔽参数由第一值或第二值中一个确定;所述(c)步骤中,所述计算装置使所述ROI池化层参照每个所述掩蔽参数是所述第一值,还是所述第二值的信息,将每个所述池化计算适用在所述ROI内的每个所述子区域,并形成所述已掩蔽的池化特征图;所述(c)步骤中,所述计算装置将所述ROI池化层以所述已掩蔽的池化特征图的每个成分,输出每个代表特征值;每个所述代表特征值,按所述ROI内每个相对应的所述子区域计算每个特征值的平均值时,只对与所述第二值的掩蔽参数相对应的位置存在的部分特征值,按所述子区域计算每个平均值,并将每个平均值确定为按所述子区域的所述代表特征值。
在本发明一实施例中,每个所述掩蔽参数由第一值或第二值中一个来确定;所述步骤(c),其中,所述计算装置使所述ROI池化层参照每个所述掩蔽参数是所述第一值,还是所述第二值的信息,将每个所述池化计算适用在所述ROI内的每个所述子区域,并形成所述已掩蔽的池化特征图;所述步骤(c)中,所述计算装置将所述ROI池化层以所述已掩蔽的池化特征图的每个成分,输出每个代表特征值;每个所述代表特征值,按所述ROI内每个相对应的所述子区域计算每个特征值的平均值时,只对与所述第二值的掩蔽参数相对应的位置存在的部分特征值按所述子区域计算每个最大值,并将每个最大值确定为按所述子区域的所述代表特征值。
根据本发明的另一实施例,提供一种利用一个以上掩蔽参数(maskingparameters)池化最少一个ROI的测试方法,该测试方法包括:步骤(a);其中,所述步骤(a)通过:步骤(1)、计算装置使CNN的卷积层形成与训练图像相对应的训练用特征图;步骤(2)、所述计算装置使所述CNN的RPN通过所述训练用特征图,确定与所述训练图像所包含的至少一个训练用对象相对应的训练用ROI;步骤(3)、所述计算装置将所述CNN的ROI池化层参照与每个池化计算相对应的每个所述掩蔽参数,使每个所述池化计算适用于所述训练用ROI内的每个训练用子区域(sub-regions),从而形成训练用已掩蔽的池化(pooled)特征图;步骤(4)、所述计算装置使所述CNN的输出层,将神经网络计算(neural networkoperations)适用于所述训练用已掩蔽的池化特征图,从而形成训练用CNN输出值;以及步骤(5)、所述计算装置使所述CNN的损耗层参照所述训练用CNN输出值及与其相对应的GT形成损耗值,且将所述损耗值反向传播,从而学习所述ROI池化层的所述掩蔽参数;完成学习后,所述测试装置获取测试图像时,使所述CNN的所述卷积层形成与所述测试图像相对应的测试用特征图;步骤(b),所述测试装置使所述CNN的所述RPN通过所述测试用特征图,确定与所述测试图像所包含的至少一个测试对象相对应的测试用ROI;步骤(c),所述测试装置使所述CNN的所述RO I池化层参照与每个所述池化计算相对应的每个所述掩蔽参数,将每个所述池化计算适用于所述测试用ROI内的每个测试用子区域(sub-regions),从而形成测试用已掩蔽的池化(pooled)特征图;以及步骤(d),所述测试装置使所述CNN的所述输出层,将所述神经网络计算(neural network operations)适用于所述测试用已掩蔽的池化特征图,从而形成测试用CNN输出值。
在本发明一实施例中,每个所述掩蔽参数由第一值或第二值中一个来确定;所述步骤(c)中,所述测试装置使所述ROI池化层参照每个所述掩蔽参数是所述第一值,还是所述第二值的信息,将每个所述池化计算适用于所述测试用ROI内的每个所述测试用子区域,从而形成所述测试用已掩蔽的池化特征图。
在本发明一实施例中,所述掩蔽参数中特征掩蔽参数是第一值时,所述计算装置使所述ROI池化层,对与所述第一值的掩蔽参数相对应的位置存在的部分特征值,不适用所述池化计算。
在本发明一实施例中,每个所述掩蔽参数由第一值或第二值中一个来确定;所述步骤(c)中,所述测试装置使所述ROI池化层参照每个所述掩蔽参数是所述第一值,还是所述第二值的信息,将每个所述池化计算适用在所述测试用ROI内的每个所述测试用子区域,从而形成所述测试用已掩蔽的池化特征图;所述步骤(c)中,所述测试装置将所述ROI池化层以所述测试用已掩蔽的池化特征图的每个成分,输出每个测试用代表特征值;每个所述测试用代表特征值,按所述测试用ROI内每个相对应的所述测试用子区域,计算每个测试用特征值的平均值时,只对与所述第二值的掩蔽参数相对应的位置存在的部分特征值,按所述测试用子区域计算每个平均值,并将每个平均值确定为按所述测试用子区域的所述代表特征值。
在本发明一实施例中,每个所述掩蔽参数由第一值或第二值中一个来确定;所述步骤(c)中,所述测试装置使所述ROI池化层参照每个所述掩蔽参数是所述第一值,还是所述第二值的信息,将每个所述池化计算适用在所述测试用ROI内的每个所述测试用子区域,从而形成所述测试用已掩蔽的池化特征图;所述步骤(c)中,所述测试装置将所述ROI池化层以所述测试用已掩蔽的池化特征图的每个成分,输出每个测试用代表特征值;每个所述测试用代表特征值,按所述测试用ROI内每个相对应的所述测试用子区域计算每个测试用特征值的平均值时,只对与所述第二值的掩蔽参数相对应的位置存在的部分特征值,按所述测试用子区域计算每个最大值,并将每个最大值确定为按所述测试用子区域的所述代表特征值。
根据本发明的另一个实施例,提供一种利用一个以上掩蔽参数池化最少一个ROI的计算装置,该计算装置包括:至少一个用于存储指令的存储器;以及至少一个处理器,其用于执行以下指令,并执行以下步骤:步骤(I),使CNN的卷积层形成与输入图像相对应的特征图;步骤(II),使所述CNN的所述RPN通过所述特征图,确定与所述输入图像所包含的至少一个对象相对应的ROI;以及步骤(III),使所述CNN的ROI池化层参照与每个池化计算相对应的每个所述掩蔽参数,将每个所述池化计算适用于所述ROI内的每个子区域(sub-regions),从而形成已掩蔽的池化(pooled)特征图。
在本发明一实施例中,每个所述掩蔽参数由第一值或第二值中一个来确定;所述步骤(III)中,所述处理器使所述ROI池化层参照每个所述掩蔽参数是所述第一值,还是所述第二值的信息,将每个所述池化计算适用在所述ROI内的每个所述子区域,从而形成所述已掩蔽的池化特征图。
在本发明一实施例中,所述处理器使所述ROI池化层,对与所述第一值的掩蔽参数相对应的位置存在的部分特征值,不适用所述池化计算。
在本发明一实施例中,所述处理器还执行以下步骤:步骤(IV),使所述CNN的输出层,将神经网络计算(neural network operations)适用于所述已掩蔽的池化特征图,从而形成CNN输出值;以及步骤(V),使CNN的损耗层参照所述CNN输出值及与其相对应的GT形成损耗值,并将所述损耗值反向传播,从而学习所述ROI池化层的所述掩蔽参数。
在本发明一实施例中,所述步骤(V)中,所述处理器将所述损耗值反向传播,从而进一步学习所述卷积层及所述输出层所包含的至少一部分参数。
在本发明一实施例中,每个所述掩蔽参数由第一值或第二值中一个来确定;所述步骤(III)中,所述处理器使所述ROI池化层参照每个所述掩蔽参数是所述第一值,还是所述第二值的信息,将每个所述池化计算适用在所述ROI内的每个所述子区域,从而形成所述已掩蔽的池化特征图;所述步骤(III)中,所述处理器将所述ROI池化层以所述已掩蔽的池化特征图的每个成分,输出每个代表特征值;每个所述代表特征值,按所述ROI内每个相对应的所述子区域计算每个特征值的平均值时,只对与所述第二值的掩蔽参数相对应的位置存在的部分特征值,按所述子区域计算每个平均值,并将每个平均值确定为按所述子区域的所述代表特征值。
在本发明一实施例中,每个所述掩蔽参数由第一值或第二值中一个来确定;所述步骤(III)中,所述处理器使所述ROI池化层参照每个所述掩蔽参数是所述第一值,还是所述第二值的信息,将每个所述池化计算适用在所述ROI内的每个所述子区域,从而形成所述已掩蔽的池化特征图;所述步骤(III)是所述处理器将所述ROI池化层以所述已掩蔽的池化特征图的每个成分,输出每个代表特征值;每个所述代表特征值,按所述ROI内每个相对应的所述子区域计算每个特征值的平均值时,只对与所述第二值的掩蔽参数相对应的位置存在的部分特征值,按所述子区域计算每个最大值,并将每个最大值确定为按所述子区域的所述代表特征值。
根据本发明的另一个实施例,提供一种利用一个以上掩蔽参数池化至少一个ROI的测试装置,该测试装置包括:至少一个用于存储指令的存储器;以及
至少一个处理器,其用于执行以下指令,其中所述处理器通过:步骤(1)、计算装置使CNN的卷积层形成与训练图像相对应的训练用特征图;步骤(2)、所述计算装置使所述CNN的RPN通过所述训练用特征图,确定与所述训练图像所包含的至少一个训练用对象相对应的训练用ROI;步骤(3)、所述计算装置将所述CNN的ROI池化层参照与每个池化计算相对应的每个所述掩蔽参数,使每个所述池化计算适用于所述训练用ROI内的每个训练用子区域(sub-regions),从而形成训练用已掩蔽的池化(pooled)特征图;步骤(4)、所述计算装置使所述CNN的输出层,将所述神经网络计算(neural network operations)适用于所述测试用已掩蔽的池化特征图,从而形成训练用CNN输出值的;以及步骤(5)、所述计算装置使所述损耗层参照所述训练用CNN输出值及与其相对应的GT形成损耗值,并将所述损耗值反向传播,从而学习所述ROI池化层的所述掩蔽参数的;完成学习后执行以下步骤:步骤(I)、使所述CNN的卷积层形成与测试图像相对应的测试用特征图;步骤(II)、使所述CNN的所述RPN通过所述测试用特征图,确定与所述测试图像像所包含的至少一个测试用对象相对应的测试用ROI;步骤(III)、使所述CNN的ROI池化层参照与每个所述池化计算相对应的每个所述掩蔽参数,将每个所述池化计算适用于所述测试用ROI内的每个测试用子区域(sub-regions),从而形成测试用已掩蔽的池化(pooled)特征图;以及步骤(IV)、使所述CNN的输出层,将所述神经网络计算(neural network operations)适用于所述测试用已掩蔽的池化特征图,从而形成测试用CNN输出值。
在本发明一实施例中,每个所述掩蔽参数由第一值或第二值中一个来确定;所述步骤(III)中,所述处理器使所述ROI池化层参照每个所述掩蔽参数是所述第一值,还是所述第二值的信息,将每个所述池化计算适用于所述测试用ROI内的每个所述测试用子区域,从而形成所述测试用已掩蔽的池化特征图。
在本发明一实施例中,所述掩蔽参数中特征掩蔽参数是第一值时,所述处理器使所述ROI池化层,对与所述第一值的掩蔽参数相对应的位置存在的部分特征值,不适用所述池化计算。
在本发明一实施例中,每个所述掩蔽参数由第一值或第二值中一个来确定;所述步骤(III)中,所述处理器使所述ROI池化层参照每个所述掩蔽参数是所述第一值,还是所述第二值的信息,将每个所述池化计算适用在所述测试用ROI内的每个所述测试用子区域,从而形成所述测试用已掩蔽的池化特征图;所述步骤(III)中,所述处理器将所述ROI池化层以所述测试用已掩蔽的池化特征图的每个成分,输出每个测试用代表特征值;每个所述测试用代表特征值,按所述测试用ROI内每个相对应的所述测试用子区域计算每个测试用特征值的平均值时,只对与所述第二值的掩蔽参数相对应的位置存在的部分特征值,按所述测试用子区域计算每个平均值,并将每个平均值确定为按测试用子区域的所述代表特征值。
在本发明一实施例中,每个所述掩蔽参数由第一值或第二值中一个来确定;所述步骤(III)中,所述处理器使所述ROI池化层参照每个所述掩蔽参数是所述第一值,还是所述第二值的信息,将每个所述池化计算适用于所述测试用ROI内的每个所述测试用子区域,从而形成所述测试用已掩蔽的池化特征图;所述步骤(III)中,所述处理器将所述ROI池化层以所述测试用已掩蔽的池化特征图的每个成分,输出每个测试用代表特征值;每个所述测试用代表特征值,按所述测试用ROI内每个相对应的所述测试用子区域计算每个测试用特征值的平均值时,只对与所述第二值的掩蔽参数相对应的位置存在的部分特征值,按所述测试用子区域计算每个最大值,并将每个最大值确定为按测试用子区域的所述代表特征值。
本发明的有益效果:本发明参照与ROI所包含的特征值相对应的掩蔽参数,通过选择用于ROI池化的特征值优化存储器访问次数。
进一步地,本发明的ROI池化方法通过优化硬件可应用于移动设备或小型网络。
附图说明
如下附图只是本发明实施例的一部分,用于说明本发明实施例,对于本发明所属技术领域的普通技术人员(以下简称“普通技术人员”),无需进行发明工作,即可根据这些附图获得其他的附图。
图1为利用掩蔽参数学习ROI池化层的计算装置结构的示意图;
图2为根据本发明一实施例的CNN的构成及学习步骤的示意图;
图3为根据本发明一实施例的形成代表特征值步骤的示意图;
图4为根据现有ROI池化方法形成代表特征值步骤的示意图。
具体实施方式
参阅附图,以下对本发明实施的特定实施例详细说明,使本领域技术人员可以完全实施本发明,而且应理解为本发明的多个不同实施例不互相排斥。例如,此处记载的特定形状、结构和特性可以实现在不超出本发明的精神和范围的情况下,与一实施例相关的其他实施例。而且,应理解为每个公开的实施例中各个组件的位置或分布在不脱离本发明的精神和范围的情况下发生变化。同时,本发明的范围在适当的说明下,仅限于其权利要求所主张的所有等同范围及所附加的权利要求,附图中相似的附图标记是指多个侧面中相同或相似的功能。
而且,本发明的详细说明及权利要求中,“包含”一词及变形并不意味着排除其它的技术特征、附加物、组件或步骤。对普通技术人员,本发明的其他目的、优点及特性的一部分可在本说明书,以及其它一部分可在实施本发明中显露出来。以下的示例及附图以实例提供,并不在于限制本发明。
本发明涉及的各种图像会包括铺装或非铺装道路相关的图像,此时,可假设道路环境中可出现的对象(假如,汽车、人、动物、植物、物体、建筑、飞机或无人机等飞行体以及障碍物),但并非限于此,本发明涉及的各种图像可能会与道路无相关的图像(假如,与非铺装道路、胡同、空地、海洋、湖泊、河流、山、森林、沙漠、天空以及室内相关的图像),此时,可假设在非铺装道路、胡同、空地、海洋、湖泊、河流、山、森林、沙漠、天空以及室内环境中出现的物体(假设,汽车、人、动物、植物、物体、建筑、飞机或无人机等飞行体以及障碍物),但并非限于此。
下面参阅附图,详细说明本发明的优选实施例,使本发明所属技术领域的普通技术人员能够容易的实现本发明。
图1是利用掩蔽参数学习ROI池化层的计算装置结构的示意图,其中计算装置可表示学习装置。
请参阅图1,计算装置100可包括CNN200。根据所述CNN200的各种数据的输入与输出以及各种数据的计算步骤分别通过通信部110以及处理器120来实现。但,在图1中省略了关于通信部110和处理器120连接的详细说明。而且,计算装置还可以包括可储存可读取计算器指令的存储器115,其用于执行下一个步骤。一例中,处理器、存储器、介质等可合并为综合处理器。
图2为根据本发明一实施例的CNN的构成及学习步骤的示意图。
请参阅图2,CNN200可包括卷积层210、RPN220、ROI池化层230、输出层240以及损耗层250。
首先,卷积层210将一个以上卷积计算适用在输入图像,可执行形成特征图的步骤。
RPN220可执行通过特征图确定与至少一个所述图像所包含的对象相对应的ROI(Region-Of-Interest)的步骤。确定ROI的特征图可以是从卷积层210最终输出的特征图,但不限于此。
ROI池化层230可执行参照与每个池化计算相对应的每个所述掩蔽参数,使每个所述池化计算适用于所述ROI内的每个子区域(sub-regions),形成以掩蔽的池化pooled特征图的步骤。关于什么是所述掩蔽参数,按什么方式参照的这些问题随后将详细说明。
输出层240可执行将所述神经网络计算(neural network operations)适用于所述已掩蔽的池化特征图,形成CNN输出值的步骤。之后,损耗层250可适用在参照所述CNN输出值及与其相对应的GT形成损耗值,并将所述损耗值反向传播,学习所述ROI池化层的所述掩蔽参数。
以上是根据本发明的一实施例的CNN200的构成及概括性的学习步骤,下面将说明详细的学习步骤及掩蔽参数。
只是,关于在卷积层210和RPN220中实现的处理器已进行了充分说明,因此将省略。
参阅图3,在ROI池化层230中实现的步骤进行说明。
图3为根据本发明一实施例,按子区域形成每个代表特征值步骤的示意图。
参阅图3,能够得知只有部分值按每个子区域根据掩蔽参数用于形成代表特征值。
与ROI所包含的每个特征值相对应的每个所述掩蔽参数以第一值或第二值来确定。
计算装置使所述ROI池化层参照每个所述掩蔽参数是所述第一值,还是所述第二值的信息,按所述ROI内的每个所述子区域适用每个所述池化计算,从而形成所述已掩蔽的池化特征图。如果,所述计算装置是所述ROI池化层将与所述第一值的掩蔽参数相对应的位置存在的部分特征值时,不适用池化计算。其中,第一值可设定为0,第二值可设定为1。
ROI池化层230将ROI内的每个掩蔽参数及每个特征值以元素单位(element-wise)相乘,形成代表特征值。此方法可减少计算资源的使用。
应用池化计算时,计算装置使所述ROI池化层以所述已掩蔽的池化特征图的每个成分,输出每个按子区域的代表特征值。其中,每个代表特征值可以是(i)按每个子区域的每个代表特征值的平均值或(ii)按每个子区域的每个代表特征值的最大值,其中,使用的代表特征值是所述ROI内每个子区域所包含的特征值,与所述特征值相对应的掩蔽参数是所述第二值。
因此,可使用平均池化方法或最大池化方法。图3描述了关于平均池化,但即使是最大池化,也可以以相同的方法应用在本发明的一实施例中。
通过以上步骤形成已掩蔽的池化特征图后,输出层240可以将神经网络计算(neural network operations)适用于所述已掩蔽的池化特征图,从而形成CNN输出值。可以计算神经网络图像分割,对象检测,聚类等,但不限于此。
形成CNN输出值后,损耗层250参照所述CNN输出值及与其相对应的GT形成损耗值,并将所述损耗值反向传播,从而学习所述ROI池化层的所述掩蔽参数。其中,反向学习中还可以进一步学习卷积层210及输出层240包括的至少一部分参数。
以上是根据本发明一实施例的学习步骤,了解本发明用作测试装置时的构成与学习装置的构成之间的区别。
需要注意的是,为了避免在后面的说明中混淆,与学习步骤相关的术语中添加了“学习用”一词,与测试步骤相关的术语中添加了“测试用”一词。
观察用作测试装置时的构成,首先通过步骤(1)、计算装置100使CNN200的卷积层210形成与训练图像相对应的训练用特征图;步骤(2)、所述计算装置100使所述CNN200的RPN220通过所述训练用特征图,确定与所述训练图像所包含的至少一个训练用对象相对应的训练用ROI;步骤(3)、所述计算装置100将所述CNN200的ROI池化层230参照与每个池化计算相对应的每个所述掩蔽参数,使每个所述池化计算适用于所述训练用ROI内的每个训练用子区域(sub-regions),从而形成训练用已掩蔽的池化(pooled)特征图;步骤(4)、所述计算装置100使所述CNN200的输出层240,将神经网络计算(neural network operations)适用于所述训练用已掩蔽的池化特征图,从而形成训练用CNN输出值;以及步骤(5)、所述计算装置100使所述CNN200的损耗层250参照所述训练用CNN输出值及与其相对应的GT形成损耗值,且将所述损耗值反向传播,从而学习所述ROI池化层的所述掩蔽参数;完成学习后,所述测试装置获取测试图像时,使所述CNN的所述卷积层形成与所述测试图像相对应的测试用特征图。
第二,所述测试装置使CNN的所述RPN通过所述测试用特征图,确定与所述测试图像所包含的至少一个测试用对象相对应的测试用ROI。
第三,所述测试装置使所述CNN的ROI池化层参照与每个所述池化计算相对应的每个所述掩蔽参数,将每个所述池化计算适用于所述测试用ROI内的每个测试用子区域(sub-regions),从而形成测试用已掩蔽的池化(pooled)特征图。
最后,所述测试装置使所述CNN的输出层,将神经网络计算(neural networkoperations)适用于所述测试用已掩蔽的池化特征图,从而形成测试用CNN输出值。
观察用作学习装置时的构成的差异,测试步骤中,卷积层210、ROI池化层230以及输出层240的参数都在已学习的状态,即可省略产生损耗值的步骤与反向传播的步骤。因此,以测试装置发挥本发明的功能时的构成,除了以学习装置发挥功能时产生损耗值的步骤以外,与计算装置100的构成相同。
本发明技术领域的普通技术人员可以理解的是,上述图像(例如原始图像、原始标签以及附加标签等图像数据)的发送和接收可以由学习装置和测试装置的通信部完成,执行特征图与计算的数据可以由学习装置和测试设备的处理器(和/或存储器)保留/维持,卷积计算、反卷积计算和损耗值计算步骤主要可以由学习装置及测试装置的处理器完成,但本发明不限于此。
以上所述的根据本发明的实施例可以通过各种计算机组件执行的程序指令的形式实现,并可写入计算机可读取记录介质。所述计算机可读取记录介质可以包括单独或组合的程序指令、数据文件、数据结构等。所述计算机可读取记录介质上记录的程序指令可能是为本发明专门设计和构成的,也可能是公开计算机软件领域的普通技术人员后可以使用。所述计算机可读取记录介质的示例包括硬盘、软盘和磁带等磁介质,CD-ROM、DVD等光记录介质,光磁软盘(floptical disk)等磁光介质(magneto-optical media),以及ROM、RAM和闪存等储存并执行程序指令且特殊构成的硬件装置。程序指令的示例还包括通过编译器产生的机器语言代码,以及可以应用解释器等通过计算机执行的高级语言代码。所述硬件装置可构成为一个以上软件模块来运行并执行根据本发明的处理,其相反也相同。
以上通过具体的构成要素等特殊事项和限定的实施例及附图对本发明进行了说明,这仅仅是为了帮助对本发明更全面理解而提供,所以本发明不能仅限于所述实施例,如果是本发明所属技术领域的普通技术人员,则可以从这些记载中进行各种修改和变形。
因此,本发明的思想不应仅限于所述实施例,后述的权利要求以及与此权利要求范围等同或等效变化的所有内容均属于本发明思想的范围内。

Claims (22)

1.一种利用一个以上掩蔽参数池化至少一个感兴趣区域的学习方法,其中,该学习方法包括以下步骤:
步骤(a)、获取输入图像后,计算装置使卷积神经网络的卷积层产生与所述输入图像相对应的特征图;
步骤(b)、所述计算装置使所述卷积神经网络的区域建议网络(RegionProposalNetwork,RPN)通过所述特征图决定与所述输入图像所包含的至少一个对象相对应的感兴趣区域;以及
步骤(c)、所述计算装置将所述卷积神经网络的感兴趣区域池化层参照对应每个池化计算的每个所述掩蔽参数,且将每个所述池化计算适用于所述感兴趣区域内的每个子区域,形成已掩蔽的池化特征图;
步骤(d)、所述计算装置使所述卷积神经网络的输出层,将神经网络计算适用在所述已掩蔽的池化特征图,从而形成卷积神经网络输出值;以及
步骤(e)、所述计算装置使损耗层参照所述卷积神经网络输出值及与其相对应的正确的标注数据(Ground Truth,GT),从而形成损耗值,并将所述损耗值反向传播,从而学习所述感兴趣区域池化层的所述掩蔽参数。
2.根据权利要求1所述的学习方法,其中,每个所述掩蔽参数由第一值或第二值中一个来确定,且所述步骤(c)中,所述计算装置将所述感兴趣区域池化层参照每个所述掩蔽参数是所述第一值,还是所述第二值的信息,将每个所述池化计算适用于所述感兴趣区域内的每个所述子区域,形成已掩蔽的池化特征图。
3.根据权利要求2所述的学习方法,其中,所述计算装置使所述感兴趣区域池化层,对与所述第一值的掩蔽参数相对应位置存在的部分特征值,不适用所述池化计算。
4.根据权利要求1所述的学习方法,其中,所述步骤(e)中,所述计算装置将所述损耗值反向传播,从而进一步学习所述卷积层及所述输出层所包含的至少一部分参数。
5.根据权利要求1所述的学习方法,其中,每个所述掩蔽参数由第一值或第二值中一个来确定;
所述(c)步骤中,计算装置使所述感兴趣区域池化层参照每个所述掩蔽参数是所述第一值,还是所述第二值的信息,将每个所述池化计算适用在所述感兴趣区域内的每个所述子区域,并形成已掩蔽的池化特征图;
所述(c)步骤中,所述计算装置将所述感兴趣区域池化层以所述已掩蔽的池化特征图的每个成分,输出每个代表特征值;
每个所述代表特征值,按所述感兴趣区域内每个相对应的所述子区域计算每个特征值的平均值时,只对与所述第二值的掩蔽参数相对应的位置存在的部分特征值,按所述子区域计算每个平均值,并将每个平均值确定为按所述子区域的所述代表特征值。
6.根据权利要求1所述的学习方法,其中,每个所述掩蔽参数由第一值或第二值中一个来确定;
所述步骤(c)中,所述计算装置使所述感兴趣区域池化层参照每个所述掩蔽参数是所述第一值,还是所述第二值的信息,将每个所述池化计算适用在所述感兴趣区域内的每个所述子区域,并形成已掩蔽的池化特征图;
所述步骤(c)中,所述计算装置将所述感兴趣区域池化层以所述已掩蔽的池化特征图的每个成分,输出每个代表特征值;
每个所述代表特征值,按所述感兴趣区域内每个相对应的所述子区域计算每个特征值的平均值时,只对与所述第二值的掩蔽参数相对应的位置存在的部分特征值,按所述子区域计算每个最大值,并将每个最大值确定为按所述子区域的所述代表特征值。
7.一种利用一个以上掩蔽参数池化至少一个感兴趣区域的测试方法,其中,该测试方法包括:
步骤(a);
其中,所述步骤(a)通过:
步骤(1)、计算装置使卷积神经网络的卷积层形成与训练图像相对应的训练用特征图;
步骤(2)、所述计算装置使卷积神经网络的区域建议网络通过所述训练用特征图,确定与所述训练图像所包含的至少一个训练用对象相对应的训练用感兴趣区域;
步骤(3)、所述计算装置将所述卷积神经网络的感兴趣区域池化层参照与每个池化计算相对应的每个所述掩蔽参数,使每个所述池化计算适用于所述训练用感兴趣区域内的每个训练用子区域,从而形成训练用已掩蔽的池化特征图;
步骤(4)、所述计算装置使所述卷积神经网络的输出层,将神经网络计算适用于所述训练用已掩蔽的池化特征图,从而形成训练用卷积神经网络输出值;以及
步骤(5)、所述计算装置使损耗层参照所述训练用卷积神经网络输出值及与其相对应的正确的标注数据形成损耗值,且将所述损耗值反向传播,从而学习所述感兴趣区域池化层的所述掩蔽参数;完成学习后,测试装置获取测试图像时,使所述卷积神经网络的所述卷积层形成与所述测试图像相对应的测试用特征图;
步骤(b),所述测试装置使卷积神经网络的所述区域建议网络通过所述测试用特征图,确定与所述测试图像所包含的至少一个测试对象相对应的测试用感兴趣区域;
步骤(c),所述测试装置使所述卷积神经网络的所述感兴趣区域池化层参照与每个所述池化计算相对应的每个所述掩蔽参数,且将每个所述池化计算适用于所述测试用感兴趣区域内的每个测试用子区域,从而形成测试用已掩蔽的池化特征图;以及
步骤(d),所述测试装置使所述卷积神经网络的输出层,将所述神经网络计算适用于所述测试用已掩蔽的池化特征图,从而形成测试用卷积神经网络输出值。
8.根据权利要求7所述的测试方法,其中,每个所述掩蔽参数由第一值或第二值中一个来确定;
所述步骤(c)中,所述测试装置使所述感兴趣区域池化层参照每个所述掩蔽参数是所述第一值,还是所述第二值的信息,将每个所述池化计算适用在所述测试用感兴趣区域内的每个所述测试用子区域,从而形成所述测试用已掩蔽的池化特征图。
9.根据权利要求8所述的测试方法,其中,所述掩蔽参数中特征掩蔽参数是第一值时,所述测试装置使所述感兴趣区域池化层,对与所述第一值的掩蔽参数相对应的位置存在的部分特征值,不适用所述池化计算。
10.根据权利要求7所述的测试方法,其中,每个所述掩蔽参数由第一值或第二值中一个来确定;
所述步骤(c)中,所述测试装置使所述感兴趣区域池化层参照每个所述掩蔽参数是所述第一值,还是所述第二值的信息,将每个所述池化计算适用在所述测试用感兴趣区域内的每个所述测试用子区域,从而形成所述测试用已掩蔽的池化特征图;
所述步骤(c)中,所述测试装置将所述感兴趣区域池化层以所述测试用已掩蔽的池化特征图的每个成分,输出每个测试用代表特征值;
每个所述测试用代表特征值,按所述测试用感兴趣区域内每个相对应的所述测试用子区域计算每个测试用特征值的平均值时,只对与所述第二值的掩蔽参数相对应的位置存在的部分特征值,按所述测试用子区域计算每个平均值,并将每个平均值确定为按所述测试用子区域的所述代表特征值。
11.根据权利要求7所述的测试方法,其中,每个所述掩蔽参数由第一值或第二值中一个来确定;
所述步骤(c)中,所述测试装置使所述感兴趣区域池化层参照每个所述掩蔽参数是所述第一值,还是所述第二值的信息,将每个所述池化计算适用在所述测试用感兴趣区域内的每个所述测试用子区域,从而形成所述测试用已掩蔽的池化特征图;
所述步骤(c)中,所述测试装置将所述感兴趣区域池化层以所述测试用已掩蔽的池化特征图的每个成分,输出每个测试用代表特征值;
每个所述测试用代表特征值,按所述测试用感兴趣区域内每个相对应的所述测试用子区域计算每个测试用特征值的平均值时,只对与所述第二值的掩蔽参数相对应的位置存在的部分特征值,按所述测试用子区域计算每个最大值,并将每个最大值确定为按所述测试用子区域的所述代表特征值。
12.一种利用一个以上掩蔽参数池化最少一个感兴趣区域的计算装置,其中,该计算装置包括:
至少一个用于存储指令的存储器;以及
至少一个处理器,其用于执行以下指令,并执行以下步骤:
步骤(I),使卷积神经网络的卷积层形成与输入图像相对应的特征图;
步骤(II),使所述卷积神经网络的区域建议网络通过所述特征图,确定与所述输入图像所包含的至少一个对象相对应的感兴趣区域;以及
步骤(III),使所述卷积神经网络的感兴趣区域池化层参照与每个池化计算相对应的每个所述掩蔽参数,将每个所述池化计算适用于所述感兴趣区域内的每个子区域,从而形成已掩蔽的池化特征图;
步骤(IV),使所述卷积神经网络的输出层,将神经网络计算所适用于述已掩蔽的池化特征图,从而形成卷积神经网络输出值;以及
步骤(V),使所述卷积神经网络的损耗层参照所述卷积神经网络输出值及与其相对应的正确的标注数据形成损耗值,且将所述损耗值反向传播,从而学习所述感兴趣区域池化层的所述掩蔽参数。
13.根据权利要求12所述的计算装置,其中,每个所述掩蔽参数由第一值或第二值中一个来确定;
所述步骤(III)中,所述处理器使所述感兴趣区域池化层参照每个所述掩蔽参数是所述第一值,还是所述第二值的信息,将每个所述池化计算适用于所述感兴趣区域内的每个所述子区域,从而形成所述已掩蔽的池化特征图。
14.根据权利要求13所述的计算装置,其中,所述处理器使所述感兴趣区域池化层,对与所述第一值的掩蔽参数相对应的位置存在的部分特征值,不适用所述池化计算。
15.根据权利要求12所述的计算装置,其中,所述步骤(V)中,所述处理器将所述损耗值反向传播,从而进一步学习所述卷积层及所述输出层所包含的至少一部分参数。
16.根据权利要求12所述的计算装置,其中,每个所述掩蔽参数由第一值或第二值中一个来确定;
所述步骤(III)中,所述处理器使所述感兴趣区域池化层参照每个所述掩蔽参数是所述第一值,还是所述第二值的信息,将每个所述池化计算适用在所述感兴趣区域内的每个所述子区域,从而形成已掩蔽的池化特征图;
所述步骤(III)中,所述处理器将所述感兴趣区域池化层以所述已掩蔽的池化特征图的每个成分,输出每个代表特征值;
每个所述代表特征值,按所述感兴趣区域内每个相对应的所述子区域计算每个特征值的平均值时,只对与所述第二值的掩蔽参数相对应的位置存在的部分特征值,按所述子区域计算每个平均值,并将每个平均值确定为按所述子区域的所述代表特征值。
17.根据权利要求12所述的计算装置,其中,每个所述掩蔽参数由第一值或第二值中一个来确定;
所述步骤(III)中,所述处理器使所述感兴趣区域池化层参照每个所述掩蔽参数是所述第一值,还是所述第二值的信息,将每个所述池化计算适用在所述感兴趣区域内的每个所述子区域,从而形成已掩蔽的池化特征图;
所述步骤(III)是所述处理器将所述感兴趣区域池化层以所述已掩蔽的池化特征图的每个成分,输出每个代表特征值;
每个所述代表特征值,按所述感兴趣区域内每个相对应的所述子区域计算每个特征值的平均值时,只对与所述第二值的掩蔽参数相对应的位置存在的部分特征值,按所述子区域计算每个最大值,并将每个最大值确定为按所述子区域的所述代表特征值。
18.一种利用一个以上掩蔽参数池化至少一个感兴趣区域的测试装置,其中,该测试装置包括:
至少一个用于存储指令的存储器;以及
至少一个处理器,其用于执行以下指令,其中所述处理器通过:
步骤(1)、计算装置使卷积神经网络的卷积层形成与训练图像相对应的训练用特征图;
步骤(2)、所述计算装置使所述卷积神经网络的区域建议网络通过所述训练用特征图,确定与所述训练图像所包含的至少一个训练用对象相对应的训练用感兴趣区域;
步骤(3)、所述计算装置将所述卷积神经网络的感兴趣区域池化层参照与每个池化计算相对应的每个所述掩蔽参数,使每个所述池化计算适用于所述训练用感兴趣区域内的每个训练用子区域,从而形成训练用已掩蔽的池化特征图;
步骤(4)、所述计算装置使所述卷积神经网络的输出层,将所述神经网络计算适用于所述测试用已掩蔽的池化特征图,从而形成训练用卷积神经网络输出值;以及
步骤(5)、所述计算装置使损耗层参照所述训练用卷积神经网络输出值及与其相对应的正确的标注数据形成损耗值,并将所述损耗值反向传播,从而学习所述感兴趣区域池化层的所述掩蔽参数;完成学习后执行以下步骤:
步骤(I)、使所述卷积神经网络的卷积层形成与测试图像相对应的测试用特征图;
步骤(II)、使所述卷积神经网络的所述区域建议网络通过所述测试用特征图确定与所述测试图像所包含的至少一个测试用对象相对应的测试用感兴趣区域;
步骤(III)、使所述卷积神经网络的感兴趣区域池化层参照与每个所述池化计算相对应的每个所述掩蔽参数,将每个所述池化计算适用于所述测试用感兴趣区域内的每个测试用子区域,从而形成测试用已掩蔽的池化特征图;以及
步骤(IV)、使所述卷积神经网络的输出层,将所述神经网络计算适用于所述测试用已掩蔽的池化特征图,从而形成测试用卷积神经网络输出值。
19.根据权利要求18所述的测试装置,其中,每个所述掩蔽参数由第一值或第二值中一个来确定;
所述步骤(III)中,所述处理器使所述感兴趣区域池化层参照每个所述掩蔽参数是所述第一值,还是所述第二值的信息,将每个所述池化计算适用于所述测试用感兴趣区域内的每个所述测试用子区域,从而形成所述测试用已掩蔽的池化特征图。
20.根据权利要求19所述的测试装置,其中,所述掩蔽参数中特征掩蔽参数是第一值时,所述处理器使所述感兴趣区域池化层,对与所述第一值的掩蔽参数相对应的位置存在的部分特征值,不适用所述池化计算。
21.根据权利要求18所述的测试装置,其中,每个所述掩蔽参数由第一值或第二值中一个来确定;
所述步骤(III)中,所述处理器使所述感兴趣区域池化层参照每个所述掩蔽参数是所述第一值,还是所述第二值的信息,将每个所述池化计算适用在所述测试用感兴趣区域内的每个所述测试用子区域,从而形成所述测试用已掩蔽的池化特征图;
所述步骤(III)中,所述处理器将所述感兴趣区域池化层以所述测试用已掩蔽的池化特征图的每个成分,输出每个测试用代表特征值;
每个所述测试用代表特征值,按所述测试用感兴趣区域内每个相对应的所述测试用子区域计算每个测试用特征值的平均值时,只对与所述第二值的掩蔽参数相对应的位置存在的部分特征值,按所述测试用子区域计算每个平均值,并将每个平均值确定为按测试用子区域的所述代表特征值。
22.根据权利要求18所述的测试装置,其中,每个所述掩蔽参数由第一值或第二值中一个来确定;
所述步骤(III)中,所述处理器使所述感兴趣区域池化层参照每个所述掩蔽参数是所述第一值,还是所述第二值的信息,将每个所述池化计算适用在所述测试用感兴趣区域内的每个所述测试用子区域,从而形成所述测试用已掩蔽的池化特征图;
所述步骤(III)中,所述处理器将所述感兴趣区域池化层以所述测试用已掩蔽的池化特征图的每个成分,输出每个测试用代表特征值;
每个所述测试用代表特征值,按所述测试用感兴趣区域内每个相对应的所述测试用子区域计算每个测试用特征值的平均值时,只对与所述第二值的掩蔽参数相对应的位置存在的部分特征值,按所述测试用子区域计算每个最大值,并将每个最大值确定为按测试用子区域的所述代表特征值。
CN202010065642.5A 2019-01-23 2020-01-20 利用掩蔽参数的方法和装置 Active CN111476343B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/254,982 2019-01-23
US16/254,982 US10325179B1 (en) 2019-01-23 2019-01-23 Learning method and learning device for pooling ROI by using masking parameters to be used for mobile devices or compact networks via hardware optimization, and testing method and testing device using the same

Publications (2)

Publication Number Publication Date
CN111476343A CN111476343A (zh) 2020-07-31
CN111476343B true CN111476343B (zh) 2023-05-26

Family

ID=66826056

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010065642.5A Active CN111476343B (zh) 2019-01-23 2020-01-20 利用掩蔽参数的方法和装置

Country Status (5)

Country Link
US (1) US10325179B1 (zh)
EP (1) EP3687152B1 (zh)
JP (1) JP6957050B2 (zh)
KR (1) KR102337358B1 (zh)
CN (1) CN111476343B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019211969A (ja) * 2018-06-04 2019-12-12 オリンパス株式会社 学習管理装置、学習管理サーバ、および学習管理方法
US10713815B1 (en) * 2019-01-31 2020-07-14 StradVision, Inc. Method and device for supporting administrators to processes of object detectors to provide logical driving
CN110503088B (zh) * 2019-07-03 2024-05-07 平安科技(深圳)有限公司 基于深度学习的目标检测方法及电子装置
CN111368690B (zh) * 2020-02-28 2021-03-02 珠海大横琴科技发展有限公司 基于深度学习的海浪影响下视频图像船只检测方法及系统
CN111737468B (zh) * 2020-06-23 2023-07-25 中国平安人寿保险股份有限公司 短语聚类方法、装置、设备及存储介质
CN111916206B (zh) * 2020-08-04 2023-12-08 重庆大学 一种基于级联的ct影像辅助诊断系统
WO2023153781A1 (en) * 2022-02-08 2023-08-17 Samsung Electronics Co., Ltd. Method and electronic device for processing input frame for on-device ai model

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107004142A (zh) * 2014-12-10 2017-08-01 北京市商汤科技开发有限公司 用于图像分类的方法和系统
CN108898610A (zh) * 2018-07-20 2018-11-27 电子科技大学 一种基于mask-RCNN的物体轮廓提取方法
CN109117822A (zh) * 2018-08-31 2019-01-01 贵州大学 一种基于深度学习的零件实例分割识别方法

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11074495B2 (en) * 2013-02-28 2021-07-27 Z Advanced Computing, Inc. (Zac) System and method for extremely efficient image and pattern recognition and artificial intelligence platform
US9558268B2 (en) * 2014-08-20 2017-01-31 Mitsubishi Electric Research Laboratories, Inc. Method for semantically labeling an image of a scene using recursive context propagation
US10387773B2 (en) * 2014-10-27 2019-08-20 Ebay Inc. Hierarchical deep convolutional neural network for image classification
KR102624434B1 (ko) * 2015-02-10 2024-01-15 모빌아이 비젼 테크놀로지스 엘티디. 자율 주행을 위한 약도
WO2016141282A1 (en) * 2015-03-04 2016-09-09 The Regents Of The University Of California Convolutional neural network with tree pooling and tree feature map selection
US9940539B2 (en) * 2015-05-08 2018-04-10 Samsung Electronics Co., Ltd. Object recognition apparatus and method
CN107438866B (zh) * 2015-05-13 2020-12-01 谷歌公司 深度立体:学习从现实世界形象预测新视图
US9741107B2 (en) * 2015-06-05 2017-08-22 Sony Corporation Full reference image quality assessment based on convolutional neural network
US9633282B2 (en) * 2015-07-30 2017-04-25 Xerox Corporation Cross-trained convolutional neural networks using multimodal images
US9710714B2 (en) * 2015-08-03 2017-07-18 Nokia Technologies Oy Fusion of RGB images and LiDAR data for lane classification
US9767381B2 (en) * 2015-09-22 2017-09-19 Xerox Corporation Similarity-based detection of prominent objects using deep CNN pooling layers as features
US9965705B2 (en) * 2015-11-03 2018-05-08 Baidu Usa Llc Systems and methods for attention-based configurable convolutional neural networks (ABC-CNN) for visual question answering
US9965719B2 (en) * 2015-11-04 2018-05-08 Nec Corporation Subcategory-aware convolutional neural networks for object detection
US10019631B2 (en) * 2015-11-05 2018-07-10 Qualcomm Incorporated Adapting to appearance variations when tracking a target object in video sequence
US9881234B2 (en) * 2015-11-25 2018-01-30 Baidu Usa Llc. Systems and methods for end-to-end object detection
US9773196B2 (en) * 2016-01-25 2017-09-26 Adobe Systems Incorporated Utilizing deep learning for automatic digital image segmentation and stylization
JP6525912B2 (ja) * 2016-03-23 2019-06-05 富士フイルム株式会社 画像分類装置、方法およびプログラム
US9830529B2 (en) * 2016-04-26 2017-11-28 Xerox Corporation End-to-end saliency mapping via probability distribution prediction
US10210418B2 (en) * 2016-07-25 2019-02-19 Mitsubishi Electric Research Laboratories, Inc. Object detection system and object detection method
KR102483642B1 (ko) * 2016-08-23 2023-01-02 삼성전자주식회사 라이브니스 검사 방법 및 장치
US9947102B2 (en) * 2016-08-26 2018-04-17 Elekta, Inc. Image segmentation using neural network method
RU2016138608A (ru) * 2016-09-29 2018-03-30 Мэджик Лип, Инк. Нейронная сеть для сегментации изображения глаза и оценки качества изображения
US10424064B2 (en) * 2016-10-18 2019-09-24 Adobe Inc. Instance-level semantic segmentation system
US10503998B2 (en) * 2016-11-07 2019-12-10 Gracenote, Inc. Recurrent deep neural network system for detecting overlays in images
CN108073929B (zh) * 2016-11-15 2023-11-24 北京三星通信技术研究有限公司 基于动态视觉传感器的物体检测方法及设备
US10345449B2 (en) * 2016-12-02 2019-07-09 Verizon Connect Ireland Limited Vehicle classification using a recurrent neural network (RNN)
US9953236B1 (en) * 2017-03-10 2018-04-24 TuSimple System and method for semantic segmentation using dense upsampling convolution (DUC)
CN107145889B (zh) * 2017-04-14 2020-02-18 中国人民解放军国防科学技术大学 基于具有RoI池化的双CNN网络的目标识别方法
CN107480707B (zh) * 2017-07-26 2020-08-07 天津大学 一种基于信息无损池化的深度神经网络方法
US10679351B2 (en) * 2017-08-18 2020-06-09 Samsung Electronics Co., Ltd. System and method for semantic segmentation of images
US9934440B1 (en) * 2017-10-04 2018-04-03 StradVision, Inc. Method for monitoring blind spot of monitoring vehicle and blind spot monitor using the same
US10223610B1 (en) * 2017-10-15 2019-03-05 International Business Machines Corporation System and method for detection and classification of findings in images
US9953437B1 (en) * 2017-10-18 2018-04-24 StradVision, Inc. Method and device for constructing a table including information on a pooling type and testing method and testing device using the same
CN109215034B (zh) * 2018-07-06 2021-09-21 成都图必优科技有限公司 一种基于空间金字塔掩盖池化的弱监督图像语义分割方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107004142A (zh) * 2014-12-10 2017-08-01 北京市商汤科技开发有限公司 用于图像分类的方法和系统
CN108898610A (zh) * 2018-07-20 2018-11-27 电子科技大学 一种基于mask-RCNN的物体轮廓提取方法
CN109117822A (zh) * 2018-08-31 2019-01-01 贵州大学 一种基于深度学习的零件实例分割识别方法

Also Published As

Publication number Publication date
CN111476343A (zh) 2020-07-31
EP3687152B1 (en) 2022-07-20
JP6957050B2 (ja) 2021-11-02
KR102337358B1 (ko) 2021-12-10
KR20200091783A (ko) 2020-07-31
JP2020119529A (ja) 2020-08-06
US10325179B1 (en) 2019-06-18
EP3687152A1 (en) 2020-07-29

Similar Documents

Publication Publication Date Title
CN111476343B (zh) 利用掩蔽参数的方法和装置
CN111507927B (zh) 在神经网络中统合图像及点云图的方法及装置
CN111507460B (zh) 为了提供自动停车系统检测停车空间的方法和装置
KR102337376B1 (ko) 레인 마스크(Lane Mask)를 사용하여 후처리 없이 입력 이미지에 포함된 하나 이상의 차선을 검출하는 방법 및 장치, 그리고 이를 이용한 테스트 방법 및 테스트 장치
CN111507150B (zh) 利用基于深度神经网络的多重图像块组合识别人脸的方法
CN111462129B (zh) 按网格单元利用加权卷积滤波器的图像分割方法及装置
US10509987B1 (en) Learning method and learning device for object detector based on reconfigurable network for optimizing customers' requirements such as key performance index using target object estimating network and target object merging network, and testing method and testing device using the same
KR20200027428A (ko) 에지 이미지를 이용하여 객체를 검출하는 학습 방법 및 학습 장치 그리고 이를 이용한 테스트 방법 및 테스트 장치
US10402692B1 (en) Learning method and learning device for fluctuation-robust object detector based on CNN using target object estimating network adaptable to customers' requirements such as key performance index, and testing device using the same
CN110879960B (zh) 生成卷积神经网络学习用图像数据集的方法及计算装置
EP3690725A1 (en) Method and device for seamless parameter switch by using location-specific algorithm selection to achieve optimized autonomous driving in each of regions
US10402686B1 (en) Learning method and learning device for object detector to be used for surveillance based on convolutional neural network capable of converting modes according to scales of objects, and testing method and testing device using the same
US20200252550A1 (en) Method for correcting misalignment of camera by selectively using information generated by itself and information generated by other entities and device using the same
KR20200091781A (ko) 자율주행 자동차의 레벨 4를 충족시키기 위해 필요한 hd 지도와의 콜라보레이션을 지원하는 임베딩 로스 및 소프트맥스 로스를 이용하여 적어도 하나의 차선을 가지는 이미지를 세그멘테이션하는 학습 방법 및 학습 장치, 그리고 이를 이용한 테스트 방법 및 테스트 장치
CN115294539A (zh) 多任务检测方法及装置、存储介质、终端
CN111914596B (zh) 车道线检测方法、装置、系统及存储介质
CN115205855A (zh) 融合多尺度语义信息的车辆目标识别方法、装置及设备
CN116861262B (zh) 一种感知模型训练方法、装置及电子设备和存储介质
CN111507151B (zh) 使得能够评价自动行驶客体检测过程的支援方法及装置
US10373004B1 (en) Method and device for detecting lane elements to plan the drive path of autonomous vehicle by using a horizontal filter mask, wherein the lane elements are unit regions including pixels of lanes in an input image
CN111765892B (zh) 一种定位方法、装置、电子设备及计算机可读存储介质
CN110705695A (zh) 搜索模型结构的方法、装置、设备和存储介质
CN113076811B (zh) 一种航空图像道路提取方法及设备
CN115937538A (zh) 一种低轨卫星图像特征提取方法及装置
CN117953378A (zh) 基于方向导数的底层显著特征消除和样本评估神经网络的遥感图像小目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant