CN111476342B - 利用了1xH卷积的CNN方法及装置 - Google Patents

利用了1xH卷积的CNN方法及装置 Download PDF

Info

Publication number
CN111476342B
CN111476342B CN201911314275.1A CN201911314275A CN111476342B CN 111476342 B CN111476342 B CN 111476342B CN 201911314275 A CN201911314275 A CN 201911314275A CN 111476342 B CN111476342 B CN 111476342B
Authority
CN
China
Prior art keywords
feature map
test
roi
learning
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911314275.1A
Other languages
English (en)
Other versions
CN111476342A (zh
Inventor
金桂贤
金镕重
金寅洙
金鹤京
南云铉
夫硕焄
成明哲
吕东勋
柳宇宙
张泰雄
郑景中
诸泓模
赵浩辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Stradvision Inc
Original Assignee
Stradvision Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Stradvision Inc filed Critical Stradvision Inc
Publication of CN111476342A publication Critical patent/CN111476342A/zh
Application granted granted Critical
Publication of CN111476342B publication Critical patent/CN111476342B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/759Region-based matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种利用了1xH卷积的CNN方法及装置,其为了使用于满足KPI(Key Performance Index,核心成果指标)的硬件优化而提供的学习用于进行图像识别的CNN的参数,其特征在于,其包括:学习装置(a)使第1转置层或池化层将池化特征图上的像素按照各个ROI级联来生成综合特征图;(b)使1xH1卷积层利用将综合特征图的H1个通道内的特征级联来生成的第1重塑特征图而生成第1调整特征图,使1xH2卷积层利用将第1调整特征图的H2个通道内的特征级联来生成的第2重塑特征图而生成第2调整特征图;及(c)使第2转置层或分类层按照像素级而将第2调整特征图分离来生成像素级特征图。

Description

利用了1xH卷积的CNN方法及装置
技术领域
本发明涉及学习用于硬件优化的用于图像识别的CNN的方法,更具体地,涉及如下的学习方法、学习装置及利用其的测试方法、测试装置:一种学习用于图像识别的上述CNN的参数的方法,其特征在于,包括如下步骤:(a)当输入到至少一个训练图像时,学习装置(i)使至少一个卷积层对在上述训练图像上将ROI的区域裁切(Crop)并调整大小(Resize)来生成的各个ROI图像至少适用一次卷积运算来按照各个上述ROI生成与至少一个对象对应的至少一个ROI特征图,(ii)(ii-1)使池化层对上述ROI特征图至少适用一次池化运算来按照各个上述ROI生成池化特征图,使第1转置层(Transposing Layer)将按照各个上述ROI生成的上述池化特征图上的对应的相同的各个位置的各个像素按照各个上述ROI而级联(Concatenating)来生成综合特征图(Integrated Feature Map),或者(ii-2)使上述池化层对上述ROI特征图适用池化运算来按照各个上述ROI生成上述池化特征图,使上述池化层将按照各个上述ROI生成的上述池化特征图上的对应的相同的各个位置的上述各个像素按照各个上述ROI级联来生成上述综合特征图;(b)上述学习装置(b1)(i)使第1重塑层(Reshaping Layer)将由上述综合特征图的所有通道中的各自对应的H1个通道构成的各个组内的各个特征级联来生成第1重塑特征图(Reshaped Feature Map),(ii)使1xH1卷积层对上述第1重塑特征图适用1xH1卷积运算来生成调整了卷(Volume)的第1调整特征图(Adjusted Feature Map),(b2)(i)使第2重塑层将由上述第1调整特征图的所有通道中的各自对应的H2个通道构成的各个组内的各个特征级联来生成第2重塑特征图,(ii)使1xH2卷积层对上述第2重塑特征图适用1xH2卷积运算来生成调整了卷的第2调整特征图;及(c)上述学习装置(c1)(i)使第2转置层按照上述像素级将上述第2调整特征图分离来按照各个上述ROI生成像素级特征图(Pixel-Wise Feature Map),并使分类层利用按照上述ROI生成的上述像素级特征图来生成关于各个上述ROI的对象信息,或者(ii)使上述分类层按照上述像素级将上述第2调整特征图分离来按照各个上述ROI生成上述像素级特征图,使上述分类层利用按照各个上述ROI生成的上述像素级特征图来生成关于各个上述ROI的上述对象信息,然后(c2)使损失层参照上述对象信息和与此对应的GT来算出至少一个对象损失,从而将上述对象损失反向传播来学习上述1xH2卷积层、上述1xH1卷积层及上述卷积层中的至少一部分参数。
背景技术
深度卷积神经网络(Deep Convolutional Neural Network;Deep CNN)是在深度学习领域中发生的惊人的发展核心。CNN虽然在90年代已被用来解决文字识别问题,但它之所以能够像现在这样被广泛使用,还要归功于近年来的研究结果。这样的深度CNN在2012年的ImageNet图像分类比赛中击败其他竞争者而获得冠军。之后,卷积神经网络在机械学习(Machine Learning)领域中成为非常有用的工具。
并且,CNN包括在图像中提取特征的特征提取器(Feature Extractor)及检测图像内的对象或参照由特征提取器提取的特征而识别图像的特征分类器(FeatureClassifier)。
并且,CNN的特征提取器由卷积层构成,特征分类器由对由特征提取器提取的特征能够适用FC运算(Fully Connected Operation:全连接操作)的FC层构成。
但是,这样的FC层存在需要对所输入的所有特征生成加权值的不便,并且需要对所输入的所有特征执行FC运算,因此存在计算机运算量过多的缺点。
另外,在FC层中,输入到FC层的图像的尺寸要与FC层模型的规定尺寸一致。因此,在向包括这样的FC层的CNN输入与预设的尺寸不同的训练图像或测试图像的情况下,虽然卷积层能够对训练图像或测试图像适用该运算,但在FC层由于输入到与上述规定尺寸不同的尺寸的输入图像,因此对训练图像或测试图像无法适用该运算。
因此,本发明人要提供一种能够克服如上述的FC层的问题的用于进行图像识别的CNN。
发明内容
发明要解决的课题
本发明的目的在于解决上述的所有问题。
本发明的另一目的在于提供一种与输入图像的尺寸无关地能够识别位于至少一个输入图像内的至少一个对象的用于进行图像识别的CNN。
本发明的又一目的在于提供一种能够将使用于特征分类的加权值的数量最小化的用于进行图像识别的CNN。
本发明的又一目的在于提供一种减少用于进行特征分类的计算机运算量的用于进行图像识别的CNN。
用于解决课题的手段
用于达到如上述的本发明的目的,实现后述的本发明的特征效果的本发明的特征性结构如下。
根据本发明的一个方式,提供一种学习用于进行图像识别的CNN的参数的学习方法,其特征在于,其包括如下步骤:(a)当输入到至少一个训练图像时,学习装置(i)使至少一个卷积层对在上述训练图像上将ROI的区域裁切(Crop)并调整大小(Resize)来生成的各个ROI图像至少适用一次卷积运算来按照各个上述ROI生成与至少一个对象对应的至少一个ROI特征图,(ii)(ii-1)使池化层对上述ROI特征图至少适用一次池化运算来按照各个上述ROI生成池化特征图,使第1转置层(Transposing Layer)将按照各个上述ROI生成的上述池化特征图上的对应的相同的各个位置的各个像素按照各个上述ROI而级联(Concatenating)来生成综合特征图(Integrated Feature Map),或者(ii-2)使上述池化层对上述ROI特征图适用池化运算来按照各个上述ROI生成上述池化特征图,使上述池化层将按照各个上述ROI生成的上述池化特征图上的对应的相同的各个位置的上述各个像素按照各个上述ROI级联来生成上述综合特征图;(b)上述学习装置(b1)(i)使第1重塑层(Reshaping Layer)将由上述综合特征图的所有通道中的各自对应的H1个通道构成的各个组内的各个特征级联来生成第1重塑特征图(Reshaped Feature Map),(ii)使1xH1卷积层对上述第1重塑特征图适用1xH1卷积运算来生成调整了卷(Volume)的第1调整特征图(Adjusted Feature Map),(b2)(i)使第2重塑层将由上述第1调整特征图的所有通道中的各自对应的H2个通道构成的各个组内的各个特征级联来生成第2重塑特征图,(ii)使1xH2卷积层对上述第2重塑特征图适用1xH2卷积运算来生成调整了卷的第2调整特征图;及(c)上述学习装置(c1)(i)使第2转置层按照上述像素级将上述第2调整特征图分离来按照各个上述ROI生成像素级特征图(Pixel-Wise Feature Map),并使分类层利用按照上述ROI生成的上述像素级特征图来生成关于各个上述ROI的对象信息,或者(ii)使上述分类层按照上述像素级将上述第2调整特征图分离来按照各个上述ROI生成上述像素级特征图,使上述分类层利用按照各个上述ROI生成的上述像素级特征图来生成关于各个上述ROI的上述对象信息,然后(c2)使损失层参照上述对象信息和与此对应的GT来算出至少一个对象损失,从而将上述对象损失反向传播来学习上述1xH2卷积层、上述1xH1卷积层及上述卷积层中的至少一部分参数。
在一个实施例中,在上述(b)步骤中,在上述综合特征图的通道数量不是上述H1的倍数的情况下,上述学习装置使上述第1重塑层对上述综合特征图追加至少一个第1虚拟通道(Dummy Channel)来使包括至少一个上述第1虚拟通道的上述综合特征图的通道数量成为上述H1的倍数,然后将由上述综合特征图的上述所有通道中的各自对应的H1个通道构成的各个上述组内的上述各个特征级联,在上述(b)步骤中,在上述第1调整特征图的通道数量不是上述H2的倍数的情况下,上述学习装置使上述第2重塑层对上述第1调整特征图追加至少一个第2虚拟通道来使包括至少一个上述第2虚拟通道的上述第1调整特征图的通道数量成为上述H2的倍数,然后将由上述第1调整特征图的上述所有通道中的各自对应的上述H2个通道构成的各个上述组内的上述各个特征级联。
在一个实施例中,在将上述ROI的数量设为N,将按照各个上述ROI生成的上述池化特征图的宽度设为M1,将高度设为M2,将按照各个上述ROI生成的上述池化特征图的通道数量设为J的情况下,在上述(a)步骤中,上述学习装置(i)使上述第1转置层将按照各个上述ROI生成的上述池化特征图变换成宽度为N,高度为1,通道为M1xM2xJ的上述综合特征图或者(ii)使上述池化层将按照各个上述ROI生成的上述池化特征图变换成宽度为N,高度为1,通道为M1xM2xJ的上述综合特征图。
在一个实施例中,在将上述1xH1卷积层的过滤器的数量设为K,将上述1xH2卷积层的过滤器的数量设为L的情况下,在上述(b)步骤中,上述学习装置使上述第1重塑层生成具备NxH1的尺寸和CEIL
Figure BDA0002325401080000041
的通道数量的上述第1重塑特征图,使上述1xH1卷积层生成宽度为N,高度为1,通道为K的具备Nx1xK的卷的上述第1调整特征图,使上述第2重塑层生成宽度为N,高度为H2,通道为CEIL
Figure BDA0002325401080000042
的上述第2重塑特征图,使上述1xH2卷积层生成宽度为N,高度为1,通道为L的具备Nx1xL的卷的上述第2调整特征图。
在一个实施例中,在上述(c)步骤中,上述学习装置(i)使上述第2转置层将上述第2调整特征图变换成与N个ROI分别对应的宽度为1,高度为1,通道为L的具备1x1xL的卷的按照上述ROI生成的上述像素级特征图或者(ii)使上述分类层将上述第2调整特征图变换成与上述N个ROI分别对应的宽度为1,高度为1,通道为L的具备1x1xL的卷的按照各个上述ROI生成的上述像素级特征图。
在一个实施例中,上述分类层使用至少一个柔性最大值(Softmax)算法。
根据本发明的另一个方式,提供一种对用于进行图像识别的CNN进行测试的测试方法,其特征在于,(a)学习装置(1)(i)使至少一个卷积层对在至少一个训练图像上将学习用ROI的区域裁切(Crop)并调整大小(Resize)来生成的各个学习用ROI图像至少适用一次卷积运算来按照各个上述学习用ROI生成与至少一个学习用对象对应的至少一个学习用ROI特征图,(ii)(ii-1)使池化层对上述学习用ROI特征图至少适用一次池化运算来按照各个上述学习用ROI生成学习用池化特征图,使第1转置层(Transposing Layer)将按照各个上述学习用ROI生成的上述学习用池化特征图上的对应的相同的各个位置的各个像素按照各个上述学习用ROI级联(Concatenating)来生成学习用综合特征图(Integrated FeatureMap),或者(ii-2)使上述池化层对上述学习用ROI特征图适用池化运算来按照各个上述学习用ROI生成上述学习用池化特征图,使上述池化层将按照各个上述学习用ROI生成的上述学习用池化特征图上的对应的相同的各个位置的上述各个像素按照各个上述学习用ROI级联来生成上述学习用综合特征图,(2)(2-1)(i)使第1重塑层(Reshaping Layer)将由上述学习用综合特征图的所有通道中的各自对应的H1个通道构成的各个组内的各个特征级联来生成学习用第1重塑特征图(Reshaped Feature Map),(ii)使1xH1卷积层对上述学习用第1重塑特征图适用1xH1卷积运算来生成调整了卷(Volume)的学习用第1调整特征图(Adjusted Feature Map),(2-2)(i)使第2重塑层将由上述学习用第1调整特征图的所有通道中的各自对应的H2个通道构成的各个组内的各个特征级联来生成学习用第2重塑特征图,(ii)使1xH2卷积层对上述学习用第2重塑特征图适用1xH2卷积运算来生成调整了卷的学习用第2调整特征图,(3)(3-1)(i)使第2转置层按照上述像素级来将上述学习用第2调整特征图分离而按照各个上述学习用ROI生成学习用像素级特征图(Pixel-Wise FeatureMap),使分类层利用按照各个上述学习用ROI生成的上述学习用像素级特征图而生成关于上述学习用ROI的学习用对象信息,或者(ii)使上述分类层按照上述像素级而将上述学习用第2调整特征图分离来按照各个上述学习用ROI生成上述学习用像素级特征图,使上述分类层利用按照各个上述学习用ROI而生成的上述学习用像素级特征图来生成关于各个上述学习用ROI的上述学习用对象信息,然后(3-2)使损失层参照上述学习用对象信息和与此对应的GT来算出至少一个对象损失,从而将上述对象损失反向传播来学习上述1xH2卷积层、上述1xH1卷积层及上述卷积层中的至少一部分参数的状态下,当获得至少一个测试图像时,测试装置(i)使上述卷积层对在上述测试图像上将测试用ROI的区域裁切(Crop)并调整大小(Resize)来生成的各个测试用ROI图像适用至少一次卷积运算来按照各个上述测试用ROI生成与至少一个测试用对象对应的至少一个测试用ROI特征图,(i i)(ii-1)使上述池化层对上述测试用ROI特征图适用至少一次池化运算来按照各个上述测试用ROI生成测试用池化特征图,使上述第1转置层(Transposing Layer)将按照各个上述测试用ROI生成的上述测试用池化特征图上的对应的相同的各个位置的各个像素按照各个上述测试用ROI级联(Concatenating)来生成测试用综合特征图(Integrated Feature Map),或者(ii-2)使上述池化层对上述测试用ROI特征图适用池化运算来按照各个上述测试用ROI生成上述测试用池化特征图,使上述池化层将按照各个上述测试用ROI生成的上述测试用池化特征图上的对应的相同的各个位置的上述各个像素按照各个上述测试用ROI级联来生成上述测试用综合特征图;(b)上述测试装置(b1)(i)使上述第1重塑层(Reshaping Layer)将由上述测试用综合特征图的所有通道中的各自对应的H1个通道构成的各个组内的各个特征级联来生成测试用第1重塑特征图(Reshaped Feature Map),(ii)使上述1xH1卷积层对上述测试用第1重塑特征图适用1xH1卷积运算来生成调整了卷(Volume)的测试用第1调整特征图(Adjusted Feature Map),(b2)(i)使上述第2重塑层将由上述测试用第1调整特征图的所有通道中的各自对应的H2个通道构成的各个组内的各个特征级联来生成测试用第2重塑特征图,(ii)使上述1xH2卷积层对上述测试用第2重塑特征图适用1xH2卷积运算来生成调整了卷的测试用第2调整特征图;及(c)上述测试装置(i)使上述第2转置层按照上述像素级将上述测试用第2调整特征图分离来按照各个上述测试用ROI生成测试用像素级特征图(Pixel-Wise Feature Map),使上述分类层利用按照各个上述测试用ROI而生成的上述测试用像素级特征图来生成关于各个上述测试用ROI的测试用对象信息,或者(ii)使上述分类层按照上述像素级将上述测试用第2调整特征图分离来按照各个上述测试用ROI生成上述测试用像素级特征图,使上述分类层利用按照各个上述测试用ROI而生成的上述测试用像素级特征图来生成关于各个上述测试用ROI的上述测试用对象信息。
在一个实施例中,在上述(b)步骤中,在上述测试用综合特征图的通道数量不是上述H1的倍数的情况下,上述测试装置使上述第1重塑层对上述测试用综合特征图追加至少一个第1虚拟通道(Dummy Channel)来使包括至少一个上述第1虚拟通道的上述测试用综合特征图的通道数量成为上述H1的倍数,然后将由上述测试用综合特征图的上述所有通道中的各自对应的H1个通道构成的各个上述组内的上述各个特征级联,在上述(b)步骤中,在上述测试用第1调整特征图的通道数量不是上述H2的倍数的情况下,上述测试装置使上述第2重塑层对上述测试用第1调整特征图追加至少一个第2虚拟通道来使包括至少一个上述第2虚拟通道的上述测试用第1调整特征图的通道数量成为上述H2的倍数,然后将由上述测试用第1调整特征图的上述所有通道中的各自对应的上述H2个通道构成的各个上述组内的上述各个特征级联。
在一个实施例中,在将上述测试用ROI的数量设为N,将按照各个上述测试用ROI生成的上述测试用池化特征图的宽度设为M1,将高度设为M2,将按照各个上述测试用ROI生成的上述测试用池化特征图的通道数量设为J的情况下,在上述(a)步骤中,上述测试装置(i)使上述第1转置层将按照各个上述测试用ROI生成的上述测试用池化特征图变换成宽度为N,高度为1,通道为M1xM2xJ的上述测试用综合特征图或者(ii)使上述池化层将按照各个上述测试用ROI生成的上述测试用池化特征图变换成宽度为N,高度为1,通道为M1xM2xJ的上述测试用综合特征图。
在一个实施例中,在将上述1xH1卷积层的过滤器的数量设为K,将上述1xH2卷积层的过滤器的数量设为L的情况下,在上述(b)步骤中,上述测试装置使上述第1重塑层生成具备NxH1的尺寸和CEIL
Figure BDA0002325401080000071
的通道数量的上述测试用第1重塑特征图,使上述1xH1卷积层生成具备宽度为N,高度为1,通道为K的具备Nx1xK的卷的上述测试用第1调整特征图,使上述第2重塑层生成宽度为N,高度为H2的尺寸和CEIL
Figure BDA0002325401080000072
的通道数量的上述第2重塑特征图,使上述1xH2卷积层生成具备宽度为N,高度为1,通道为L的具备Nx1xL的卷的上述测试用第2调整特征图。
在一个实施例中,在上述(c)步骤中,上述测试装置(i)使上述第2转置层将上述测试用第2调整特征图变换成与N个测试用ROI分别对应的宽度为1、高度为1,通道为L的具备1x1xL的卷的按照各个上述测试用ROI生成的上述测试用像素级特征图或者(ii)使上述分类层将上述测试用第2调整特征图变换成与上述N个测试用ROI分别对应的宽度为1,高度为1,通道为L的具备1x1xL的卷的按照各个上述测试用ROI生成的上述测试用像素级特征图。
在一个实施例中,上述分类层使用至少一个柔性最大值(Softmax)算法。
根据本发明的另一个方式,提供一种学习用于进行图像识别的CNN的学习装置,其特征在于,其包括:至少一个存储器,它们存储指令;及至少一个处理器,它们执行用于执行如下处理的上述指令:(I)(i)使至少一个卷积层对至少一个在上述训练图像上将ROI的区域裁切(Crop)并调整大小(Resize)来生成的各个ROI图像至少适用一次卷积运算来按照各个上述ROI生成与至少一个对象对应的至少一个ROI特征图,(ii)(ii-1)使池化层对上述ROI特征图至少适用一次池化运算来按照各个上述ROI生成池化特征图,使第1转置层(Transposing Layer)将按照各个上述ROI生成的上述池化特征图上的对应的相同的各个位置的各个像素按照各个上述ROI而级联(Concatenating)来生成综合特征图(IntegratedFeature Map),或者(ii-2)使上述池化层对上述ROI特征图适用池化运算来按照各个上述ROI生成上述池化特征图,使上述池化层将按照各个上述ROI生成的上述池化特征图上的对应的相同的各个位置的上述各个像素按照各个上述ROI级联来生成上述综合特征图;(II)(II-1)(i)使第1重塑层(Reshaping Layer)将由上述综合特征图的所有通道中的各自对应的H1个通道构成的各个组内的各个特征级联来生成第1重塑特征图(Reshaped FeatureMap),(ii)使1xH1卷积层对上述第1重塑特征图适用1xH1卷积运算来生成调整了卷(Volume)的第1调整特征图(Adjusted Feature Map),(II-1)(i)使第2重塑层将由上述第1调整特征图的所有通道中的各自对应的H2个通道构成的各个组内的各个特征级联来生成第2重塑特征图,(ii)使1xH2卷积层对上述第2重塑特征图适用1xH2卷积运算来生成调整了卷的第2调整特征图;及(III)(III-1)(i)使第2转置层按照上述像素级将上述第2调整特征图分离来按照各个上述ROI生成像素级特征图(Pixel-Wise Feature Map),使分类层利用按照上述ROI生成的上述像素级特征图来生成关于各个上述ROI的对象信息,或者(ii)使上述分类层按照上述像素级而将上述第2调整特征图分离来按照各个上述ROI生成上述像素级特征图,使上述分类层利用按照各个上述ROI生成的上述像素级特征图来生成关于各个上述ROI的上述对象信息,然后(III-2)使损失层参照上述对象信息和与此对应的GT来算出至少一个对象损失,从而将上述对象损失反向传播来学习上述1xH2卷积层、上述1xH1卷积层及上述卷积层中的至少一部分参数。
在一个实施例中,在上述(II)处理中,在上述综合特征图的通道数量不是上述H1的倍数的情况下,上述处理器使上述第1重塑层对上述综合特征图追加至少一个第1虚拟通道(Dummy Channel)来使包括至少一个上述第1虚拟通道的上述综合特征图的通道数量成为上述H1的倍数,然后将由上述综合特征图的上述所有通道中的各自对应的H1个通道构成的各个上述组内的上述各个特征级联,在上述(II)处理中,在上述第1调整特征图的通道数量不是上述H2的倍数的情况下,上述处理器使上述第2重塑层对上述第1调整特征图追加至少一个第2虚拟通道来使包括至少一个上述第2虚拟通道的上述第1调整特征图的通道数量成为上述H2的倍数,然后将由上述第1调整特征图的上述所有通道中的各个对应的上述H2个通道构成的各个上述组内的上述各个特征级联。
在一个实施例中,在将上述ROI的数量设为N,将按照各个上述ROI生成的上述池化特征图的宽度设为M1,将高度设为M2,将按照各个上述ROI生成的上述池化特征图的通道数量设为J的情况下,上述(I)处理中,上述处理器(i)使上述第1转置层将按照上述ROI生成的上述池化特征图变换成宽度为N,高度为1,通道为M1xM2xJ的上述综合特征图或者(ii)使上述池化层将按照各个上述ROI生成的上述池化特征图变换成宽度为N,高度为1,通道为M1xM2xJ的上述综合特征图。
在一个实施例中,在将上述1xH1卷积层的过滤器的数量设为K,将上述1xH2卷积层的过滤器的数量设为L的情况下,在上述(II)处理中,上述处理器使上述第1重塑层生成具备NxH1的尺寸和CEIL
Figure BDA0002325401080000091
的通道数量的上述第1重塑特征图,使上述1xH1卷积层生成宽度为N,高度为1,通道为K的具备Nx1xK的卷的上述第1调整特征图,上述处理器使上述第2重塑层生成宽度为N,高度为H2,通道为CEIL
Figure BDA0002325401080000092
的上述第2重塑特征图,使上述1xH2卷积层生成宽度为N,高度为1,通道为L的具备Nx1xL的卷的上述第2调整特征图。
在一个实施例中,在上述(III)处理中,上述处理器(i)使上述第2转置层将上述第2调整特征图变换成与N个ROI分别对应的宽度为1,高度为1,通道为L的具备1x1xL的卷的按照各个上述ROI生成的上述像素级特征图或者(ii)使上述分类层将上述第2调整特征图变换成与上述N个ROI分别对应的宽度为1,高度为1,通道为L的具备1x1xL的卷的按照各个上述ROI生成的上述像素级特征图。
在一个实施例中,上述分类层使用至少一个柔性最大值(Softmax)算法。
根据本发明的另一个方式,提供一种测试用于进行图像识别的CNN的测试装置,其特征在于,其包括:至少一个存储器,它们存储指令;及至少一个处理器,它们执行用于执行如下处理的上述指令:学习装置(1)(i)使至少一个卷积层对在至少一个训练图像上将学习用ROI的区域裁切(Crop)并调整大小(Resize)来生成的各个学习用ROI图像至少适用一次卷积运算来按照各个上述学习用ROI生成与至少一个学习用对象对应的至少一个学习用ROI特征图,(ii)(ii-1)使池化层对上述学习用ROI特征图至少适用一次池化运算来按照各个上述学习用ROI生成学习用池化特征图,使第1转置层(Transposing Layer)将按照各个上述学习用ROI生成的上述学习用池化特征图上的对应的相同的各个位置的各个像素按照各个上述学习用ROI级联(Concatenating)来生成学习用综合特征图(Integrated FeatureMap),或者(ii-2)使上述池化层对上述学习用ROI特征图适用池化运算来按照各个上述学习用ROI生成上述学习用池化特征图,使上述池化层将按照各个上述学习用ROI生成的上述学习用池化特征图上的对应的相同的各个位置的上述各个像素按照各个上述学习用ROI级联来生成上述学习用综合特征图,(2)(2-1)(i)使第1重塑层(Reshaping Layer)将由上述学习用综合特征图的所有通道中的各自对应的H1个通道构成的各个组内的各个特征级联来生成学习用第1重塑特征图(Reshaped Feature Map),(ii)使1xH1卷积层对上述学习用第1重塑特征图而适用1xH1卷积运算来生成调整了卷(Volume)的学习用第1调整特征图(Adjusted Feature Map),(2-2)(i)使第2重塑层将由上述学习用第1调整特征图的所有通道中的各自对应的H2个通道构成的各个组内的各个特征级联来生成学习用第2重塑特征图,(ii)使1xH2卷积层对上述学习用第2重塑特征图适用1xH2卷积运算来生成调整了卷的学习用第2调整特征图,(3)(3-1)(i)使第2转置层按照上述像素级来将上述学习用第2调整特征图分离而按照各个上述学习用ROI生成学习用像素级特征图(Pixel-Wise FeatureMap),使分类层利用按照各个上述学习用ROI生成的上述学习用像素级特征图而生成关于上述学习用ROI的学习用对象信息,或者(ii)使上述分类层按照上述像素级而将上述学习用第2调整特征图分离来按照各个上述学习用ROI生成上述学习用像素级特征图,使上述分类层利用按照各个上述学习用ROI而生成的上述学习用像素级特征图来生成关于各个上述学习用ROI的上述学习用对象信息,然后(3-2)使损失层参照上述学习用对象信息和与此对应的GT来算出至少一个对象损失,从而将上述对象损失反向传播来学习上述1xH2卷积层、上述1xH1卷积层及上述卷积层中的至少一部分参数的状态下,(I)(i)使上述卷积层对在至少一个上述测试图像上将测试用ROI的区域裁切(Crop)并调整大小(Resize)来生成的各个测试用ROI图像适用至少一次卷积运算来按照各个上述测试用ROI生成与至少一个测试用对象对应的至少一个测试用ROI特征图,(ii)(ii-1)使上述池化层对上述测试用ROI特征图适用至少一次池化运算来按照各个上述测试用ROI生成测试用池化特征图,使上述第1转置层(Transposing Layer)将按照各个上述测试用ROI生成的上述测试用池化特征图上的对应的相同的各个位置的各个像素按照各个上述测试用ROI级联(Concatenating)来生成测试用综合特征图(Integrated Feature Map),或者(ii-2)使上述池化层对上述测试用ROI特征图适用池化运算来按照各个上述测试用ROI生成上述测试用池化特征图,使上述池化层将按照各个上述测试用ROI而生成的上述测试用池化特征图上的对应的相同的各个位置的上述各个像素按照各个上述测试用ROI级联来生成上述测试用综合特征图;(II)(II-1)(i)使上述第1重塑层(Reshaping Layer)将由上述测试用综合特征图的所有通道中的各自对应的H1个通道构成的各个组内的各个特征级联来生成测试用第1重塑特征图(ReshapedFeature Map),(ii)使上述1xH1卷积层对上述测试用第1重塑特征图适用1xH1卷积运算来生成调整了卷(Volume)的测试用第1调整特征图(Adjusted Feature Map),(II-2)(i)使上述第2重塑层将由上述测试用第1调整特征图的所有通道中的各自对应的H2个通道构成的各个组内的各个特征级联来生成测试用第2重塑特征图,(ii)使上述1xH2卷积层对上述测试用第2重塑特征图适用1xH2卷积运算来生成调整了卷的测试用第2调整特征图;及(III)(i)使上述第2转置层按照上述像素级将上述测试用第2调整特征图分离来按照各个上述测试用ROI生成测试用像素级特征图(Pixel-Wise Feature Map),使上述分类层利用按照各个上述测试用ROI而生成的上述测试用像素级特征图来生成关于各个上述测试用ROI的测试用对象信息,或者(ii)使上述分类层按照上述像素级而将上述测试用第2调整特征图分离来按照各个上述测试用ROI生成上述测试用像素级特征图,使上述分类层利用按照各个上述测试用ROI生成的上述测试用像素级特征图来生成关于各个上述测试用ROI的上述测试用对象信息。
在一个实施例中,在上述(II)处理中,在上述测试用综合特征图的通道数量不是上述H1的倍数的情况下,上述处理器使上述第1重塑层对上述测试用综合特征图追加至少一个第1虚拟通道(Dummy Channel)来使包括至少一个上述第1虚拟通道的上述测试用综合特征图的通道数量成为上述H1的倍数,然后将由上述测试用综合特征图的上述所有通道中的各个对应的H1个通道构成的各个上述组内的上述各个特征级联,在上述(II)处理中,在上述测试用第1调整特征图的通道数量不是上述H2的倍数的情况下,上述处理器使上述第2重塑层对上述测试用第1调整特征图追加至少一个第2虚拟通道来使包括至少一个上述第2虚拟通道的上述测试用第1调整特征图的通道数量成为上述H2的倍数,然后将由上述测试用第1调整特征图的上述所有通道中的各自对应的上述H2个通道构成的各个上述组内的上述各个特征级联。
在一个实施例中,在将上述测试用ROI的数量设为N,将按照各个上述测试用ROI生成的上述测试用池化特征图的宽度设为M1,将高度设为M2时,将按照各个上述测试用ROI生成的上述测试用池化特征图的通道数量设为J的情况下,在上述(I)处理中,上述处理器(i)使上述第1转置层将按照各个上述测试用ROI生成的上述测试用池化特征图变换成宽度为N,高度为1,通道为M1xM2xJ的上述测试用综合特征图或者(ii)使上述池化层将按照各个上述测试用ROI生成的上述测试用池化特征图变换成宽度为N,高度为1,通道为M1xM2xJ的上述测试用综合特征图。
在一个实施例中,在将上述1xH1卷积层的过滤器的数量为K,将上述1xH2卷积层的过滤器的数量设为L的情况下,在上述(II)处理中,上述处理器使上述第1重塑层生成具备NxH1的尺寸和CEIL
Figure BDA0002325401080000121
的通道数量的上述测试用第1重塑特征图,使上述1xH1卷积层生成宽度为N,高度为1,通道为K的具备Nx1xK的卷的上述测试用第1调整特征图,上述处理器使上述第2重塑层生成宽度为N,高度为H2,通道为CEIL
Figure BDA0002325401080000122
的上述测试用第2重塑特征图,使上述1xH2卷积层生成宽度为N,高度为1,通道为L的具备Nx1xL的卷的上述测试用第2调整特征图。
在一个实施例中,在上述(III)处理中,上述处理器(i)使上述第2转置层将上述测试用第2调整特征图变换成与N个测试用ROI分别对应的宽度为1,高度为1,通道为L的具备1x1xL的卷的按照各个上述测试用ROI生成的上述测试用像素级特征图或者(ii)使上述分类层将上述测试用第2调整特征图变换成与上述N个测试用ROI分别对应的宽度为1,高度为1,通道为L的具备1x1xL的卷的按照各个上述测试用ROI生成的上述测试用像素级特征图。
在一个实施例中,上述分类层使用至少一个柔性最大值(Softmax)算法。
此外,还提供用于记录用于执行本发明的方法的计算机程序的计算机可读取的记录介质。
发明效果
本发明仅由卷积层体现用于进行图像识别的CNN,从而能够与输入图像的尺寸无关地识别位于输入图像内的对象。
另外,本发明仅由卷积层来体现用于进行图像识别的CNN,从而与以往的利用FC层的情况相比,能够将为特征分类而使用的加权值的数量最小化。
另外,本发明仅由卷积层来体现用于进行图像识别的CNN,从而与以往的利用FC层的情况相比,能够减少用于进行特征分类的计算机运算量。
附图说明
为了对本发明的实施例进行说明而所附的下面的附图仅为本发明的实施例中的一部分,本领域技术人员(以下,称为“一般的技术人员”)在无需创作性劳动的情况下,可基于该附图而获得其他的图。
图1是概略性地示出本发明的一个实施例的学习用于进行图像识别的CNN的学习装置的图。
图2是概略性地示出本发明的一个实施例的学习用于进行图像识别的CNN的方法的图。
图3是概略性地示出本发明的一个实施例的使用于学习用于进行图像识别的CNN且通过池化层而按照各个ROI生成的池化特征图的图。
图4是概略性地示出本发明的一个实施例的用于学习用于进行图像识别的CNN且利用按照各个ROI生成的池化特征图来生成的综合特征图的图。
图5a和图5b是分别概略性地示出本发明的一个实施例的(i)将综合特征图重塑而生成的第1重塑特征图和(ii)对第1重塑特征图适用1xH1卷积运算来生成的第1调整特征图的图。
图6a和图6b是分别概略性地示出本发明的一个实施例的(i)将第1调整特征图重塑而生成的第2重塑特征图和(ii)对第2重塑特征图适用1xH2卷积运算来生成的第2调整特征图的图。
图7是概略性地示出本发明的一个实施例的用于学习用于进行图像识别的CNN并利用第2调整特征图而按照各个ROI生成的像素级特征图的图。
图8是概略性地示出本发明的一个实施例的对用于进行图像识别的CNN进行测试的测试装置的图。
图9是概略性地示出对本发明的一个实施例的用于进行图像识别的CNN进行测试的方法的图。
符号说明
100:学习装置,
200:测试装置,
110,210:通信部,
120,220:处理器,
300:数据库
具体实施方式
在后述的对本发明的详细的说明中,为了清楚地说明本发明的目的、技术方法及优点,将参照例示本发明的特定实施例的附图。这些实施例对本发明进行详细说明,以供本领域技术人员足以实施本发明。
另外,在本发明的详细的说明及权利要求中,“包括”这一用语及它们的变形不是表示排除其他技术特征、附加物、构成要件或步骤。对于一般的技术人员来讲,关于本发明的另一目的、优点及特性,可根据本说明书来理解其一部分,并通过实施本发明来理解另一部分。下面的例示及附图仅为实例,不是对本发明进行限定。
进而,本发明包括在本说明书中所示的实施例的所有可能的组合。虽然本发明的各种实施例彼此不同,但不是是排他性的。例如,在此记载的特定形状、结构及特性在一个实施例中在未脱离本发明的精神及范围的情况下可体现为另一个实施例。另外,关于各个公开的实施例内的个别构成要件的位置或配置,在不脱离本发明的精神及范围的情况下可进行变更。因此,后述的详细的说明不是具备限定性的意思,关于本发明的范围,确切地来讲应根据与其权利要求所主张的内容均等的所有范围及所附权利要求来限定。附图中的类似的符号在各个侧面上指相同或类似的功能。
本发明中提及的各种图像包括柏油路或非柏油路相关图像,在该情况下,可假设在道路环境中会出现的物体(如汽车、人、动物、植物、物体、建筑、飞机或无人机这样的飞行体、其他障碍物),但不是仅限于此,在本发明中提及的各种图像也可以是与道路无关的图像(如关于非柏油路、小胡同、空地、大海、湖、江、山、树丛、沙漠、天空、室内的图像),在该情况下,可假设在非柏油路、小胡同、空地、大海、湖、江、山、树丛、沙漠、天空、室内环境中出现的物体(如汽车、人、动物、植物、物体、建筑、飞机或无人机这样的飞行体、其他障碍物),但不仅限于此。
下面,参照附图,对本发明的优选的实施例进行详细说明,以供本领域技术人员能够容易地实施本发明。
图1是概略性地示出本发明的一个实施例的用于进行图像识别的CNN的学习装置100的图,参照图1,学习装置100包括通信部110和处理器120。
首先,通信部110接收至少一个训练图像。
此时,训练图像存储到数据库300,数据库300中与训练图像对应地存储有关于至少一个对象的类信息的至少一个GT(Ground Truth:真值)及关于各个对象的位置信息的至少一个GT。
另外,学习装置还包括存储器115,该存储器115存储有用于执行下一个处理的计算机可读取的指令(Instruction)。根据一个实施例,将处理器、存储器、介质等综合为综合处理器(Integrated Processor)。
接着,处理器120可执行如下处理:(i)使至少一个卷积层对在训练图像上将ROI的区域裁切(Crop)并调整大小(Resize)来生成的各个ROI图像至少适用一次卷积运算来按照各个ROI生成与对象对应的至少一个ROI特征图,(ii)(ii-1)使池化层对ROI特征图至少适用一次池化运算来按照各个ROI生成池化特征图,使第1转置层(Transposing Layer)将按照各个ROI生成的池化特征图上的对应的相同的各个位置的各个像素按照各个ROI级联(Concatenating)来生成综合特征图(Integrated Feature Map),或者(ii-2)使池化层对ROI特征图适用池化运算来按照各个ROI生成池化特征图,使池化层按照各个ROI生成的池化特征图上的对应的相同的各个位置的各个像素按照各个ROI级联来生成综合特征图。并且,处理器120可执行如下处理:(i)使第1重塑层(Reshaping Layer)将由综合特征图的所有通道中的各自对应的H1个通道构成的各个组内的各个特征级联来生成第1重塑特征图(Reshaped Feature Map),(ii)使1xH1卷积层对第1重塑特征图适用1xH1卷积运算来生成调整了卷(Volume)的第1调整特征图(Adjusted Feature Map),(iii)使第2重塑层将由第1调整特征图的所有通道中的各自对应的H2个通道构成的各个组内的特征分别级联来生成第2重塑特征图,(iv)使1xH2卷积层对第2重塑特征图适用1xH2卷积运算来生成调整了卷的第2调整特征图。之后,处理器120执行如下处理:(i)使第2转置层按照上述像素级而将第2调整特征图分离来按照各个ROI生成像素级特征图(Pixel-Wise FeatureMap),使分类层利用按照各个ROI生成的像素级特征图来生成关于各个ROI的对象信息,或者(ii)使分类层按照像素级将第2调整特征图分离来按照各个ROI生成像素级特征图,使分类层利用按照各个ROI生成的像素级特征图来生成关于各个ROI的对象信息。并且,处理器120使损失层参照对象信息和与此对应的GT来算出至少一个对象损失,从而将对象损失反向传播来学习1xH2卷积层、1xH1卷积层及卷积层中的至少一部分参数。
此时,本发明的一个实施例的学习装置100作为计算机运算装置,只要是搭载了处理器而具备运算能力的装置,则足以用作本发明的学习装置100。另外,在图1中仅示出一个学习装置100,但本发明不限于此,学习装置可分成多个而执行作用。
参照图2,对利用这样构成的本发明的一个实施例的学习装置100来学习用于进行图像识别的CNN的方法进行说明如下。
首先,当输入到训练图像时,学习装置100使卷积层121对将在训练图像上与对象对应的ROI的区域裁切并调整大小来生成的各个ROI图像适用卷积运算来按照ROI生成与至少一个对象对应的至少一个ROI特征图。此时,为了在ROI图像上依次适用卷积运算,卷积层121可以是单个卷积层或多个卷积层。
接着,学习装置100使池化层122按照各个ROI对ROI特征图适用池化运算来按照各个ROI生成池化特征图(P1,P2,…,PN)。
作为一例,参照图3,将ROI的数量设为N,将按照各个ROI生成的池化特征图(P1,P2,…,PN)的宽度设为M1,将按照各个ROI生成的池化特征图(P1,P2,…,PN)的高度设为M2,将按照各个ROI生成的池化特征图(P1,P2,…,PN)的通道数量设为J的情况下,按照各个ROI生成的池化特征图(P1,P2,…,PN)分别具备M1xM2xJ的卷尺寸。
接着,学习装置100使第1转置层123将从池化层122输出的按照各个ROI生成的池化特征图(P1,P2,…,PN)上的对应的相同的各个位置的各个像素按照各个ROI级联来生成综合特征图400。
作为一例,参照图3和图4,在图3中的各个ROI的各个池化特征图(P1,P2,…,PN)上的第一个像素分别为R1F1,R2F1,…,RNF1的情况下,将按照各个ROI生成的各个池化特征图(P1,P2,…,PN)中的第一个像素即R1F1、R2F1、…、RNF1级联来生成如在图4中在所有通道中对应第一个通道的位于最前面的线这样的宽度为N,高度为1的综合特征图400的第1部分,并对按照各个ROI生成的各个池化特征图(P1,P2,…,PN)的像素的剩余部分也反复执行该过程。并且,与按照各个ROI生成的各个池化特征图(P1,P2,…,PN)中的像素数量相同地生成通道数量为M1xM2xJ的综合特征图400。
另一方面,在上述中,学习装置100使第1转置层123利用从池化层122输出的按照各个ROI生成的池化特征图(P1,P2,…,PN)来生成综合特征图400。作为另一例,在不使用第1转置层123的情况下能够使池化层122生成综合特征图400。即,作为另一例,学习装置100使池化层122对在各个ROI的ROI特征图上与各个ROI对应的各个区域适用池化运算来按照各个ROI生成池化特征图(P1,P2,…,PN),将按照各个ROI生成的池化特征图(P1,P2,…,PN)上的对应的相同的各个位置的各个像素按照各个ROI级联来生成综合特征图400。
接着,学习装置100使第1重塑层124将由综合特征图400的所有通道中的各自对应的H1个通道构成的各个组内的各个特征级联来生成第1重塑特征图500A。
作为一例,参照图4和图5a,学习装置100使第1重塑层124将综合特征图400的第1通道的各个特征(R1CH1,R2CH1,…,RNCH1)至第H1通道的各个特征(R1CH(H1),R2CH(H1),…,RNCH(H1))级联,并将综合特征图400的第H1+1通道的各个特征(R1CH(H1+1),R2CH(H1+1),…,RNCH(H1+1))至第2xH1通道的各个特征(R1CH(2xH1),R2CH(2xH1),…,RNCH(2xH1))级联。即,学习装置100通过反复进行该级联过程,从而生成宽度为N,高度为H1,通道为CEIL
Figure BDA0002325401080000171
的第1重塑特征图500A。
此时,在综合特征图400的通道数量不是H1的倍数的情况下,学习装置100使第1重塑层124对综合特征图400追加至少一个第1虚拟通道,由此使包括至少一个第1虚拟通道的综合特征图400的通道数量成为H1的倍数,然后将由在综合特征图400的所有通道中的各自对应的H1个通道构成的各个组内的各个特征级联。即,在综合特征图400的通道数量不构成H1的倍数,从而将第CEIL
Figure BDA0002325401080000181
个通道级联而生成的综合特征图400的尺寸不是为宽度为N,高度为H1的尺寸的情况下,可追加至少一个零填充区域,以使综合特征图400的宽度为N,高度为H1。
接着,学习装置100使1xH1卷积层125对第1重塑特征图500A适用1xH1卷积运算来生成调整了卷的第1调整特征图500B。
作为一例,参照图5a和图5b,在将1xH1卷积层125的过滤器的数量设为K的情况下,学习装置100使1xH1卷积层125对图5a的第1重塑特征图500A适用1xH1卷积运算,由此生成宽度为N,高度为1,通道为K的具备Nx1xK的卷的第1调整特征图500B。由此,能够将计算机运算量减少到1/H1,由此能够增大计算机运算速度及运算能力。
此时,第1调整特征图500B上的特征(R1’CH1,R2’CH1,…,RN’CH1)是将各个第1重塑特征图500A上的特征(R1CH1,R1CH2,…,R1CH(H1))本地连接(Locally Connecting),将第1重塑特征图500A上的特征(R2CH1,R2CH2,…,R2CH(H1))本地连接,将第1重塑特征图500A上的特征(RNCH1,RNCH2,…,RNCH(H1))本地连接的结果。作为参考,上述本地连接(LocallyConnecting)是指适用1×H1卷积运算。
接着,学习装置100使第2重塑层126将由在第1调整特征图500B的所有通道中的各自对应的H2个通道构成的各个组内的各个特征级联来生成第2重塑特征图600A。
作为一例,参照图5b和图6a,学习装置100使第2重塑层126将在第1调整特征图500B中第1通道的各个特征(R1’CH1,R2’CH1,…,RN’CH1))至第H1通道的各个特征(R1’CH(H1),R2’CH(H1),…,RN’CH(H1))级联,将第1调整特征图500B的第H1+1通道的各个特征(R1’CH(H1+1),R2’CH(H1+1),…,RN’CH(H1+1))至第2xH1通道的各个特征(R1’CH(2xH1),R2’CH(2xH1),…,RN’CH(2xH1))级联。即,学习装置100通过反复进行该级联过程,从而生成宽度为N,高度为H2,通道为CEIL
Figure BDA0002325401080000191
的第2重塑特征图600A。
此时,在第1调整特征图500B的通道数量不是H2的倍数的情况下,学习装置100使第2重塑层126对第1调整特征图500B追加至少一个第2虚拟通道来使包括至少一个第2虚拟通道的第1调整特征图500B的通道数量成为H2的倍数,然后将由第1调整特征图500B的所有通道中的各自对应的H2个通道构成的各个组内的各个特征级联。即,通过第1调整特征图500B的通道数量不成为H2的倍数,从而将第CEIL
Figure BDA0002325401080000192
个通道级联而生成的第1调整特征图500B的尺寸不是为宽度为N,高度为H2的尺寸的情况下,可追加至少一个零填充区域,以第1调整特征图500B的宽度为N,高度为H2。
接着,学习装置100使1xH2卷积层127对第2重塑特征图600A适用1xH2卷积运算来生成调整了卷的第2调整特征图600B。
作为一例,参照图6a和图6b,在将1xH2卷积层127的过滤器的数量设为L的情况下,学习装置100使1xH2卷积层127对图6a的第2重塑特征图600A适用1xH2卷积运算来生成宽度为N,高度为1,通道为L的具备Nx1xL的卷的第2调整特征图600B。由此,将计算机运算量减少到1/H2,由此能够增加计算机运算速度及运算能力。此时,第2调整特征图600B上的特征(R1”CH1,R2”CH1,…,RN”CH1)是分别将第2重塑特征图600A上的特征(R1’CH1,R1’CH2,…,R1’CH(H2))本地连接(Locally Connecting),将第2重塑特征图600A上的特征(R2’CH1,R2’CH2,…,R2’CH(H2))本地连接,将第2重塑特征图600A上的特征(RN’CH1,RN’CH2,…,RN’CH(H2))本地连接的结果。作为参考,上述本地连接(Locally Connecting)是指适用1×H2卷积运算。
接着,学习装置100使第2转置层128按照像素级而将第2调整特征图600B分离来按照各个ROI生成像素级特征图(PW1,PW2,…,PWN)。
作为一例,参照图7,学习装置100使第2转置层128按照像素级而将图6b的宽度为N,高度为1,通道为L的具备Nx1xL的卷的第2调整特征图600B分离来生成宽度为1,高度为1,通道为L的按照各个ROI生成的像素级特征图(PW1,PW2,…,PWN)。
接着,学习装置100使分类层129利用按照各个ROI生成的像素级特征图(PW1,PW2,…,PWN)来生成关于各个ROI的对象信息。此时,分类层129可使用柔性最大值(Softmax)算法,生成识别了各个ROI内的各个对象是何种对象的结果,并生成关于所识别的结果为正确答案的可能性的概率信息。对此,对象信息包括训练图像内的各个对象的位置信息。
另一方面,在上述中第2转置层128利用第2调整特征图600B来按照各个ROI生成像素级特征图(PW1,PW2,…,PWN)。作为另一例,分类层129不使用第2转置层128而使用第2调整特征图600B来按照各个ROI生成像素级特征图(PW1,PW2,…,PWN)。即,学习装置100使分类层129按照像素级而将第2调整特征图600B分离来按照各个ROI生成像素级特征图(PW1,PW2,…,PWN),使分类层129利用按照各个ROI生成的像素级特征图来生成关于各个ROI的对象信息。
接着,学习装置100使损失层130参照对象信息和与此对应的GT来算出至少一个对象损失,从而通过利用对象损失的反向传播来学习1xH2卷积层127、1xH1卷积层125及卷积层121中的至少一部分参数。
如上述,本发明的一个实施例的用于进行图像识别的CNN仅由卷积层构成,从而能够与输入图像的尺寸无关地正常地识别输入图像内的对象。另外,本发明的一个实施例的用于进行图像识别的CNN适用1xH卷积的本地连接运算,从而与以往FC层的FC(FullyConnected)运算相比,能够减少计算机运算量。
图8是概略性地示出本发明的一个实施例的用于进行图像识别的CNN的测试装置200的图,参照图8,测试装置200包括通信部210和处理器220。
另外,测试装置200还包括可存储用于执行下一个处理的计算机可读取的指令(Instruction)的存储器215。根据一个实施例,可将处理器、存储器、介质等综合为综合处理器(Integrated Processor)。
首先,通信部210获得至少一个测试图像或协助其他的装置获得至少一个测试图像。
此时,本发明的一个实施例的用于进行图像识别的CNN为通过参照图1至图7来说明的学习方法而学习的状态。
作为参考,在以下的说明中为了避免混淆,对之前说明的关于学习处理的用语追加“学习用”这一用语,对关于测试处理的用语追加“测试用”这一用语。
即,当获得至少一个训练图像时,学习装置执行如下处理:(a)(i)使卷积层对在训练图像上将学习用ROI的区域裁切(Crop)并调整大小(Resize)来生成的各个学习用ROI图像适用卷积运算来按照各个学习用ROI生成与至少一个学习用对象对应的至少一个学习用ROI特征图,(ii)(ii-1)使池化层对学习用ROI特征图适用池化运算来按照各个学习用ROI生成学习用池化特征图,使第1转置层(Transposing Layer)将按照各个学习用ROI生成的学习用池化特征图上的对应的相同的各个位置的各个像素按照各个学习用ROI级联(Concatenating)来生成学习用综合特征图(Integrated Feature Map),或者(ii-2)使池化层对学习用ROI特征图适用池化运算来按照各个学习用ROI生成学习用池化特征图,使池化层将按照各个学习用ROI生成的学习用池化特征图上的对应的相同的各个位置的各个像素按照各个学习用ROI级联来生成学习用综合特征图,(b)(b1)(i)使第1重塑层(ReshapingLayer)将由学习用综合特征图的所有通道中的各自对应的H1个通道构成的各个组内的各个特征级联来生成学习用第1重塑特征图(Reshaped Feature Map),(ii)使1xH1卷积层对学习用第1重塑特征图适用1xH1卷积运算来生成调整了卷(Volume)的学习用第1调整特征图(Adjusted Feature Map),(b2)(i)使第2重塑层将由学习用第1调整特征图的所有通道中的各自对应的H2个通道构成的各个组内的各个特征级联来生成学习用第2重塑特征图,(ii)使1xH2卷积层对学习用第2重塑特征图适用1xH2卷积运算来生成调整了卷的学习用第2调整特征图,(c)(c1)(i)使第2转置层按照像素级而将学习用第2调整特征图分离来按照各个学习用ROI生成学习用像素级特征图(Pixel-Wise Feature Map),使分类层利用按照各个学习用ROI生成的学习用像素级特征图来生成关于各个学习用ROI的学习用对象信息,或者(ii)使分类层按照像素级将学习用第2调整特征图分离而按照各个学习用ROI生成学习用像素级特征图,使分类层利用按照各个学习用ROI生成的学习用像素级特征图来生成关于学习用ROI的学习用对象信息,然后(c2)使损失层参照学习用对象信息和与此对应的GT来算出至少一个对象损失,从而将对象损失反向传播来学习1xH2卷积层、1xH1卷积层及卷积层中的至少一部分参数。接着,处理器220(i)使卷积层对在测试图像上将测试用ROI的区域裁切(Crop)并调整大小(Resize)来生成的各个测试用ROI图像至少适用一次卷积运算来按照各个测试用ROI而生成与至少一个测试用对象对应的至少一个测试用ROI特征图,(ii)(ii-1)使池化层对测试用ROI特征图至少适用一次池化运算来按照测试用ROI生成测试用池化特征图,使第1转置层(Transposing Layer)来将按照各个测试用ROI生成的测试用池化特征图上的对应的相同的各个位置的各个像素按照各个测试用ROI级联(Concatenating)而生成测试用综合特征图(Integrated Feature Map),或者(ii-2)使池化层对测试用ROI特征图适用池化运算来按照各个测试用ROI生成测试用池化特征图,使池化层将按照各个测试用ROI而生成的测试用池化特征图上的对应的相同的各个位置的各个像素按照各个测试用ROI级联来生成测试用综合特征图。并且,处理器220执行如下的处理:(i)使第1重塑层(Reshaping Layer)将测试用综合特征图的所有通道中的各自对应的H1个通道构成的各个组内的各个特征级联来生成测试用第1重塑特征图(Reshaped FeatureMap),(ii)使1xH1卷积层对测试用第1重塑特征图适用1xH1卷积运算来生成调整了卷(Volume)的测试用第1调整特征图(Adjusted Feature Map),(iii)使第2重塑层将由测试用第1调整特征图的所有通道中的各自对应的H2个通道构成的各个组内的各个特征级联来生成测试用第2重塑特征图,(vi)使1xH2卷积层对测试用第2重塑特征图适用1xH2卷积运算来生成调整了卷的测试用第2调整特征图。之后,处理器220执行如下的处理:(i)使第2转置层按照上述像素级而将测试用第2调整特征图分离来按照各个测试用ROI生成测试用像素级特征图(Pixel-Wise Feature Map),使分类层利用按照各个测试用ROI生成的测试用像素级特征图来生成关于各个试用ROI的测试用对象信息,或者(ii)使分类层按照各个像素级而将测试用第2调整特征图分离来按照各个测试用ROI生成测试用像素级特征图,使分类层利用按照各个测试用ROI生成的测试用像素级特征图来生成关于各个测试用ROI的测试用对象信息
此时,本发明的一个实施例的测试装置200作为计算机运算装置,只要是搭载有处理器来具备运算能力的装置,则足以用作本发明的测试装置200。另外,在图8中仅示出了一个测试装置200,但不限于此,可将测试装置分成多个而执行作用。
参照图9,对利用这样构成的本发明的一个实施例的测试装置200来测试用于进行图像识别的CNN的方法进行说明。在下面的说明中,对根据通过参照图1至图7来说明的学习方法可容易理解的部分,省略详细的说明。
首先,在通过参照图1至图7而说明的学习方法学习了卷积层221、1xH1卷积层225及1xH2卷积层227的状态下,当输入到测试图像时,测试装置200使卷积层221对在测试图像上将与测试用对象对应的测试用ROI的区域裁切并调整大小而生成的各个测试用ROI图像适用卷积运算来按照各个测试用ROI生成测试用像素级特征图。此时,卷积层22可以是对测试用ROI图像依次进行卷积运算的单个卷积层或多个卷积层。
接着,测试装置200使池化层222对按照各个测试用ROI生成的测试用像素级特征图适用池化运算来按照测试用ROI生成测试用池化特征图。
接着,测试装置200使第1转置层223将从池化层222输出的按照各个测试用ROI生成的测试用池化特征图上的对应的相同的各个位置的各个像素按照各个测试用ROI级联来生成测试用综合特征图。
另一方面,在上述中,测试装置200使第1转置层223利用从池化层222输出的按照各个测试用ROI生成的测试用池化特征图来生成测试用综合特征图。作为另一例,测试装置200在不使用第1转置层223的情况下使池化层222生成测试用综合特征图。即,测试装置200使池化层222对按照各个测试用ROI生成的测试用ROI特征图适用池化运算来按照各个测试用ROI生成测试用池化特征图,将按照各个测试用ROI生成的测试用池化特征图上的对应的相同的各个位置的各个像素按照各个测试用ROI级联来生成测试用综合特征图。
接着,测试装置200使第1重塑层224将由测试用综合特征图的所有通道中的各自对应的H1个通道构成的各个组内的各个特征级联来生成测试用第1重塑特征图。
此时,在测试用综合特征图的通道数量不是H1的倍数的情况下,测试装置200使第1重塑层224对测试用综合特征图追加至少一个第1虚拟通道来使包括至少一个第1虚拟通道的测试用综合特征图的通道数量成为H1的倍数,然后将由测试用综合特征图的所有通道中的各自对应的H1个通道构成的各个组内的各个特征级联。即,测试用综合特征图的通道数量不是H1的倍数,由此在将第CEIL
Figure BDA0002325401080000231
个通道级联来生成的测试用综合特征图的尺寸不是为宽度为N,高度为H1的尺寸的情况下,追加至少一个零填充区域,以使测试用综合特征图的宽度为N,高度为H1。
接着,测试装置200使1xH1卷积层225对测试用第1重塑特征图适用1xH1卷积运算来生成调整了卷的测试用第1调整特征图。
接着,测试装置200使第2重塑层226将由测试用第1调整特征图的所有通道中的各自对应的H2个通道构成的各个组内的各个特征级联来生成测试用第2重塑特征图。
此时,在测试用第1调整特征图的通道数量不是H2的倍数的情况下,测试装置200使第2重塑层226对测试用第1调整特征图追加至少一个第2虚拟通道来使包括至少一个第2虚拟通道的测试用第1调整特征图的通道数量成为H2的倍数,然后将由测试用第1调整特征图的所有通道中的各自对应的H2个通道构成的各个组内的各个特征级联。即,使测试用第1调整特征图的通道数量不是为H2的倍数,从而将第CEIL
Figure BDA0002325401080000241
通道级联来生成的测试用第1调整特征图的尺寸不是为宽度为N,高度为H2的尺寸的情况下,追加至少一个零填充区域,以测试用第1调整特征图的宽度为N,高度为H2。
接着,测试装置200使1xH2卷积层227对测试用第2重塑特征图适用1xH2卷积运算来生成调整了卷的测试用第2调整特征图。
接着,测试装置200使第2转置层228按照像素级将测试用第2调整特征图分离来按照各个测试用ROI生成测试用像素级特征图。
接着,测试装置200使分类层229利用按照各个测试用ROI生成的测试用像素级特征图来生成关于各个测试用ROI的测试用对象信息。此时,分类层229可使用柔性最大值算法,生成识别各个测试用ROI内的测试用对象是何种对象的结果,并生成关于识别的结果为正确答案的可能性的概率信息。进而,测试用对象信息在测试图像内包括各个测试用对象的位置信息。
另一方面,在上述中第2转置层228利用测试用第2调整特征图来按照各个测试用ROI生成测试用像素级特征图。作为另一例,分类层229不使用第2转置层228而利用测试用第2调整特征图来按照各个测试用ROI生成测试用像素级特征图。即,测试装置200使分类层229按照像素级而将测试用第2调整特征图分离来按照各个测试用ROI生成测试用像素级特征图,使分类层229利用按照各个测试用ROI生成的测试用像素级特征图来生成关于各个测试用ROI的测试用对象信息。
上述学习方法和测试方法是为了使用于满足KPI(Key Performance Index,核心成果指标)的硬件的优化而提供的。
另外,以上说明的本发明的实施例可体现为通过各种计算机构成要件来实现的程序命令的形态来记录到计算机可读取的记录介质。上述计算机可读取的记录介质可单独或以组合的方式包括程序命令、数据文件、数据结构等。记录到上述计算机可读取的记录介质的程序命令可以是为本发明特别设计并构成的命令或计算机软件领域的技术人员公知而使用的命令。作为计算机可读取的记录介质的例子,包括硬盘、软盘及磁带这样的磁性介质、CD-ROM、DVD这样的光记录介质、光碟(floptical disk)这样的磁光介质(magneto-optical edia)及ROM、RAM、闪存等这样的以存储程序命令且执行的方式特别构成的硬件装置。作为程序命令的例子,不仅包括由文件管理员制作的机器码,而且还包括使用解释程序等而通过计算机来执行的高级语言代码。上述硬件装置既可构成为一个以上的软件模块,以执行本发明的处理,也可以与其相反的方式构成。
以上,通过具体的构成要件等这样的特定事项和限定的实施例及附图而对本发明进行了说明,但这是为了整体地理解本发明而提供的,本发明不限于这样的上述实施例,本领域技术人员可从这样的记载进行各种修改及变形。
因此,本发明的思想不限于上述说明的实施例,不仅是后述的权利要求书,与该权利要求书均等或等价地变形的所有内容均包括在本发明的思想的范围中。

Claims (24)

1.一种学习方法,学习用于进行图像识别的CNN的参数,其特征在于,包括如下步骤:
(a)当输入到至少一个训练图像时,学习装置(i)使至少一个卷积层对在上述训练图像上将ROI的区域裁切并调整大小来生成的各个ROI图像至少适用一次卷积运算来按照各个上述ROI生成与至少一个对象对应的至少一个ROI特征图,(ii)(ii-1)使池化层对上述ROI特征图至少适用一次池化运算来按照各个上述ROI生成池化特征图,使第1转置层将按照各个上述ROI生成的上述池化特征图上的对应的相同的各个位置的各个像素按照各个上述ROI而级联来生成综合特征图,或者(ii-2)使上述池化层对上述ROI特征图适用池化运算来按照各个上述ROI生成上述池化特征图,使上述池化层将按照各个上述ROI生成的上述池化特征图上的对应的相同的各个位置的上述各个像素按照各个上述ROI级联来生成上述综合特征图;
(b)上述学习装置(b1)(i)使第1重塑层将由上述综合特征图的所有通道中的各自对应的H1个通道构成的各个组内的各个特征级联来生成第1重塑特征图,(ii)使1xH1卷积层对上述第1重塑特征图适用1xH1卷积运算来生成调整了卷的第1调整特征图,(b2)(i)使第2重塑层将由上述第1调整特征图的所有通道中的各自对应的H2个通道构成的各个组内的各个特征级联来生成第2重塑特征图,(ii)使1xH2卷积层对上述第2重塑特征图适用1xH2卷积运算来生成调整了卷的第2调整特征图;及
(c)上述学习装置(c1)(i)使第2转置层按照上述像素级将上述第2调整特征图分离来按照各个上述ROI生成像素级特征图,并使分类层利用按照上述ROI生成的上述像素级特征图来生成关于各个上述ROI的对象信息,或者(ii)使上述分类层按照上述像素级将上述第2调整特征图分离来按照各个上述ROI生成上述像素级特征图,使上述分类层利用按照各个上述ROI生成的上述像素级特征图来生成关于各个上述ROI的上述对象信息,然后(c2)使损失层参照上述对象信息和与此对应的GT来算出至少一个对象损失,从而将上述对象损失反向传播来学习上述1xH2卷积层、上述1xH1卷积层及上述卷积层中的至少一部分参数。
2.根据权利要求1所述的学习方法,其特征在于,
在上述(b)步骤中,
在上述综合特征图的通道数量不是上述H1的倍数的情况下,上述学习装置使上述第1重塑层对上述综合特征图追加至少一个第1虚拟通道来使包括至少一个上述第1虚拟通道的上述综合特征图的通道数量成为上述H1的倍数,然后将由上述综合特征图的上述所有通道中的各自对应的H1个通道构成的各个上述组内的上述各个特征级联,
在上述(b)步骤中,
在上述第1调整特征图的通道数量不是上述H2的倍数的情况下,上述学习装置使上述第2重塑层对上述第1调整特征图追加至少一个第2虚拟通道来使包括至少一个上述第2虚拟通道的上述第1调整特征图的通道数量成为上述H2的倍数,然后将由上述第1调整特征图的上述所有通道中的各自对应的上述H2个通道构成的各个上述组内的上述各个特征级联。
3.根据权利要求1所述的学习方法,其特征在于,
在将上述ROI的数量设为N,将按照各个上述ROI生成的上述池化特征图的宽度设为M1,将高度设为M2,将按照各个上述ROI生成的上述池化特征图的通道数量设为J的情况下,
在上述(a)步骤中,
上述学习装置(i)使上述第1转置层将按照各个上述ROI生成的上述池化特征图变换成宽度为N,高度为1,通道为M1xM2xJ的上述综合特征图或者(ii)使上述池化层将按照各个上述ROI生成的上述池化特征图变换成宽度为N,高度为1,通道为M1xM2xJ的上述综合特征图。
4.根据权利要求3所述的学习方法,其特征在于,
在将上述1xH1卷积层的过滤器的数量设为K,将上述1xH2卷积层的过滤器的数量设为L的情况下,
在上述(b)步骤中,
上述学习装置使上述第1重塑层生成具备NxH1的尺寸和CEIL
Figure FDA0004102584960000021
的通道数量的上述第1重塑特征图,使上述1xH1卷积层生成宽度为N,高度为1,通道为K的具备Nx1xK的卷的上述第1调整特征图,
使上述第2重塑层生成宽度为N,高度为H2,通道为CEIL
Figure FDA0004102584960000022
的上述第2重塑特征图,使上述1xH2卷积层生成宽度为N,高度为1,通道为L的具备Nx1xL的卷的上述第2调整特征图。
5.根据权利要求4所述的学习方法,其特征在于,
在上述(c)步骤中,
上述学习装置(i)使上述第2转置层将上述第2调整特征图变换成与N个ROI分别对应的宽度为1,高度为1,通道为L的具备1x1xL的卷的按照上述ROI生成的上述像素级特征图或者(ii)使上述分类层将上述第2调整特征图变换成与上述N个ROI分别对应的宽度为1,高度为1,通道为L的具备1x1xL的卷的按照各个上述ROI生成的上述像素级特征图。
6.根据权利要求1所述的学习方法,其特征在于,
上述分类层使用至少一个柔性最大值算法。
7.一种测试方法,对用于进行图像识别的CNN进行测试,其特征在于,
(a)学习装置(1)(i)使至少一个卷积层对在至少一个训练图像上将学习用ROI的区域裁切并调整大小来生成的各个学习用ROI图像至少适用一次卷积运算来按照各个上述学习用ROI生成与至少一个学习用对象对应的至少一个学习用ROI特征图,(ii)(ii-1)使池化层对上述学习用ROI特征图至少适用一次池化运算来按照各个上述学习用ROI生成学习用池化特征图,使第1转置层将按照各个上述学习用ROI生成的上述学习用池化特征图上的对应的相同的各个位置的各个像素按照各个上述学习用ROI级联来生成学习用综合特征图,或者(ii-2)使上述池化层对上述学习用ROI特征图适用池化运算来按照各个上述学习用ROI生成上述学习用池化特征图,使上述池化层将按照各个上述学习用ROI生成的上述学习用池化特征图上的对应的相同的各个位置的上述各个像素按照各个上述学习用ROI级联来生成上述学习用综合特征图,(2)(2-1)(i)使第1重塑层将由上述学习用综合特征图的所有通道中的各自对应的H1个通道构成的各个组内的各个特征级联来生成学习用第1重塑特征图,(ii)使1xH1卷积层对上述学习用第1重塑特征图适用1xH1卷积运算来生成调整了卷的学习用第1调整特征图,(2-2)(i)使第2重塑层将由上述学习用第1调整特征图的所有通道中的各自对应的H2个通道构成的各个组内的各个特征级联来生成学习用第2重塑特征图,(ii)使1xH2卷积层对上述学习用第2重塑特征图适用1xH2卷积运算来生成调整了卷的学习用第2调整特征图,(3)(3-1)(i)使第2转置层按照上述像素级来将上述学习用第2调整特征图分离而按照各个上述学习用ROI生成学习用像素级特征图,使分类层利用按照各个上述学习用ROI生成的上述学习用像素级特征图而生成关于上述学习用ROI的学习用对象信息,或者(ii)使上述分类层按照上述像素级而将上述学习用第2调整特征图分离来按照各个上述学习用ROI生成上述学习用像素级特征图,使上述分类层利用按照各个上述学习用ROI而生成的上述学习用像素级特征图来生成关于各个上述学习用ROI的上述学习用对象信息,然后(3-2)使损失层参照上述学习用对象信息和与此对应的GT来算出至少一个对象损失,从而将上述对象损失反向传播来学习上述1xH2卷积层、上述1xH1卷积层及上述卷积层中的至少一部分参数的状态下,当获得至少一个测试图像时,测试装置(i)使上述卷积层对在上述测试图像上将测试用ROI的区域裁切并调整大小来生成的各个测试用ROI图像适用至少一次卷积运算来按照各个上述测试用ROI生成与至少一个测试用对象对应的至少一个测试用ROI特征图,(ii)(ii-1)使上述池化层对上述测试用ROI特征图适用至少一次池化运算来按照各个上述测试用ROI生成测试用池化特征图,使上述第1转置层将按照各个上述测试用ROI生成的上述测试用池化特征图上的对应的相同的各个位置的各个像素按照各个上述测试用ROI级联来生成测试用综合特征图,或者(ii-2)使上述池化层对上述测试用ROI特征图适用池化运算来按照各个上述测试用ROI生成上述测试用池化特征图,使上述池化层将按照各个上述测试用ROI生成的上述测试用池化特征图上的对应的相同的各个位置的上述各个像素按照各个上述测试用ROI级联来生成上述测试用综合特征图;
(b)上述测试装置(b1)(i)使上述第1重塑层将由上述测试用综合特征图的所有通道中的各自对应的H1个通道构成的各个组内的各个特征级联来生成测试用第1重塑特征图,(ii)使上述1xH1卷积层对上述测试用第1重塑特征图适用1xH1卷积运算来生成调整了卷的测试用第1调整特征图,(b2)(i)使上述第2重塑层将由上述测试用第1调整特征图的所有通道中的各自对应的H2个通道构成的各个组内的各个特征级联来生成测试用第2重塑特征图,(ii)使上述1xH2卷积层对上述测试用第2重塑特征图适用1xH2卷积运算来生成调整了卷的测试用第2调整特征图;及
(c)上述测试装置(i)使上述第2转置层按照上述像素级将上述测试用第2调整特征图分离来按照各个上述测试用ROI生成测试用像素级特征图,使上述分类层利用按照各个上述测试用ROI而生成的上述测试用像素级特征图来生成关于各个上述测试用ROI的测试用对象信息,或者(ii)使上述分类层按照上述像素级将上述测试用第2调整特征图分离来按照各个上述测试用ROI生成上述测试用像素级特征图,使上述分类层利用按照各个上述测试用ROI而生成的上述测试用像素级特征图来生成关于各个上述测试用ROI的上述测试用对象信息。
8.根据权利要求7所述的测试方法,其特征在于,
在上述(b)步骤中,
在上述测试用综合特征图的通道数量不是上述H1的倍数的情况下,上述测试装置使上述第1重塑层对上述测试用综合特征图追加至少一个第1虚拟通道来使包括至少一个上述第1虚拟通道的上述测试用综合特征图的通道数量成为上述H1的倍数,然后将由上述测试用综合特征图的上述所有通道中的各自对应的H1个通道构成的各个上述组内的上述各个特征级联,
在上述(b)步骤中,
在上述测试用第1调整特征图的通道数量不是上述H2的倍数的情况下,上述测试装置使上述第2重塑层对上述测试用第1调整特征图追加至少一个第2虚拟通道来使包括至少一个上述第2虚拟通道的上述测试用第1调整特征图的通道数量成为上述H2的倍数,然后将由上述测试用第1调整特征图的上述所有通道中的各自对应的上述H2个通道构成的各个上述组内的上述各个特征级联。
9.根据权利要求7所述的测试方法,其特征在于,
在将上述测试用ROI的数量设为N,将按照各个上述测试用ROI生成的上述测试用池化特征图的宽度设为M1,将高度设为M2,将按照各个上述测试用ROI生成的上述测试用池化特征图的通道数量设为J的情况下,
在上述(a)步骤中,
上述测试装置(i)使上述第1转置层将按照各个上述测试用ROI生成的上述测试用池化特征图变换成宽度为N,高度为1,通道为M1xM2xJ的上述测试用综合特征图或者(ii)使上述池化层将按照各个上述测试用ROI生成的上述测试用池化特征图变换成宽度为N,高度为1,通道为M1xM2xJ的上述测试用综合特征图。
10.根据权利要求9所述的测试方法,其特征在于,
在将上述1xH1卷积层的过滤器的数量设为K,将上述1xH2卷积层的过滤器的数量设为L的情况下,
在上述(b)步骤中,
上述测试装置使上述第1重塑层生成具备NxH1的尺寸和CEIL
Figure FDA0004102584960000061
的通道数量的上述测试用第1重塑特征图,使上述1xH1卷积层生成具备宽度为N,高度为1,通道为K的具备Nx1xK的卷的上述测试用第1调整特征图,
使上述第2重塑层生成宽度为N,高度为H2的尺寸和CEIL
Figure FDA0004102584960000062
的通道数量的上述第2重塑特征图,使上述1xH2卷积层生成具备宽度为N,高度为1,通道为L的具备Nx1xL的卷的上述测试用第2调整特征图。
11.根据权利要求10所述的测试方法,其特征在于,
在上述(c)步骤中,
上述测试装置(i)使上述第2转置层将上述测试用第2调整特征图变换成与N个测试用ROI分别对应的宽度为1、高度为1,通道为L的具备1x1xL的卷的按照各个上述测试用ROI生成的上述测试用像素级特征图或者(ii)使上述分类层将上述测试用第2调整特征图变换成与上述N个测试用ROI分别对应的宽度为1,高度为1,通道为L的具备1x1xL的卷的按照各个上述测试用ROI生成的上述测试用像素级特征图。
12.根据权利要求7所述的测试方法,其特征在于,
上述分类层使用至少一个柔性最大值算法。
13.一种学习装置,其学习用于进行图像识别的CNN,其特征在于,其包括:
至少一个存储器,它们存储指令;及
至少一个处理器,它们执行用于执行如下处理的上述指令:(I)(i)使至少一个卷积层对至少一个在训练图像上将ROI的区域裁切并调整大小来生成的各个ROI图像至少适用一次卷积运算来按照各个上述ROI生成与至少一个对象对应的至少一个ROI特征图,(ii)(ii-1)使池化层对上述ROI特征图至少适用一次池化运算来按照各个上述ROI生成池化特征图,使第1转置层将按照各个上述ROI生成的上述池化特征图上的对应的相同的各个位置的各个像素按照各个上述ROI而级联来生成综合特征图,或者(ii-2)使上述池化层对上述ROI特征图适用池化运算来按照各个上述ROI生成上述池化特征图,使上述池化层将按照各个上述ROI生成的上述池化特征图上的对应的相同的各个位置的上述各个像素按照各个上述ROI级联来生成上述综合特征图;(II)(II-1)(i)使第1重塑层将由上述综合特征图的所有通道中的各自对应的H1个通道构成的各个组内的各个特征级联来生成第1重塑特征图,(ii)使1xH1卷积层对上述第1重塑特征图适用1xH1卷积运算来生成调整了卷的第1调整特征图,(II-1)(i)使第2重塑层将由上述第1调整特征图的所有通道中的各自对应的H2个通道构成的各个组内的各个特征级联来生成第2重塑特征图,(ii)使1xH2卷积层对上述第2重塑特征图适用1xH2卷积运算来生成调整了卷的第2调整特征图;及(III)(III-1)(i)使第2转置层按照上述像素级将上述第2调整特征图分离来按照各个上述ROI生成像素级特征图,使分类层利用按照上述ROI生成的上述像素级特征图来生成关于各个上述ROI的对象信息,或者(ii)使上述分类层按照上述像素级而将上述第2调整特征图分离来按照各个上述ROI生成上述像素级特征图,使上述分类层利用按照各个上述ROI生成的上述像素级特征图来生成关于各个上述ROI的上述对象信息,然后(III-2)使损失层参照上述对象信息和与此对应的GT来算出至少一个对象损失,从而将上述对象损失反向传播来学习上述1xH2卷积层、上述1xH1卷积层及上述卷积层中的至少一部分参数。
14.根据权利要求13所述的学习装置,其特征在于,
在上述(II)处理中,
在上述综合特征图的通道数量不是上述H1的倍数的情况下,上述处理器使上述第1重塑层对上述综合特征图追加至少一个第1虚拟通道来使包括至少一个上述第1虚拟通道的上述综合特征图的通道数量成为上述H1的倍数,然后将由上述综合特征图的上述所有通道中的各自对应的H1个通道构成的各个上述组内的上述各个特征级联,
在上述(II)处理中,
在上述第1调整特征图的通道数量不是上述H2的倍数的情况下,上述处理器使上述第2重塑层对上述第1调整特征图追加至少一个第2虚拟通道来使包括至少一个上述第2虚拟通道的上述第1调整特征图的通道数量成为上述H2的倍数,然后将由上述第1调整特征图的上述所有通道中的各个对应的上述H2个通道构成的各个上述组内的上述各个特征级联。
15.根据权利要求13所述的学习装置,其特征在于,
在将上述ROI的数量设为N,将按照各个上述ROI生成的上述池化特征图的宽度设为M1,将高度设为M2,将按照各个上述ROI生成的上述池化特征图的通道数量设为J的情况下,
在上述(I)处理中,
上述处理器(i)使上述第1转置层将按照上述ROI生成的上述池化特征图变换成宽度为N,高度为1,通道为M1xM2xJ的上述综合特征图或者(ii)使上述池化层将按照各个上述ROI生成的上述池化特征图变换成宽度为N,高度为1,通道为M1xM2xJ的上述综合特征图。
16.根据权利要求15所述的学习装置,其特征在于,
在将上述1xH1卷积层的过滤器的数量设为K,将上述1xH2卷积层的过滤器的数量设为L的情况下,
在上述(II)处理中,
上述处理器使上述第1重塑层生成具备NxH1的尺寸和CEIL
Figure FDA0004102584960000081
的通道数量的上述第1重塑特征图,使上述1xH1卷积层生成宽度为N,高度为1,通道为K的具备Nx1xK的卷的上述第1调整特征图,
上述处理器使上述第2重塑层生成宽度为N,高度为H2,通道为CEIL
Figure FDA0004102584960000082
的上述第2重塑特征图,使上述1xH2卷积层生成宽度为N,高度为1,通道为L的具备Nx1xL的卷的上述第2调整特征图。
17.根据权利要求16所述的学习装置,其特征在于,
在上述(III)处理中,
上述处理器(i)使上述第2转置层将上述第2调整特征图变换成与N个ROI分别对应的宽度为1,高度为1,通道为L的具备1x1xL的卷的按照各个上述ROI生成的上述像素级特征图或者(ii)使上述分类层将上述第2调整特征图变换成与上述N个ROI分别对应的宽度为1,高度为1,通道为L的具备1x1xL的卷的按照各个上述ROI生成的上述像素级特征图。
18.根据权利要求13所述的学习装置,其特征在于,
上述分类层使用至少一个柔性最大值算法。
19.一种测试装置,其测试用于进行图像识别的CNN,其特征在于,其包括:
至少一个存储器,它们存储指令;及
至少一个处理器,它们执行用于执行如下处理的上述指令:学习装置(1)(i)使至少一个卷积层对在至少一个训练图像上将学习用ROI的区域裁切并调整大小来生成的各个学习用ROI图像至少适用一次卷积运算来按照各个上述学习用ROI生成与至少一个学习用对象对应的至少一个学习用ROI特征图,(ii)(ii-1)使池化层对上述学习用ROI特征图至少适用一次池化运算来按照各个上述学习用ROI生成学习用池化特征图,使第1转置层将按照各个上述学习用ROI生成的上述学习用池化特征图上的对应的相同的各个位置的各个像素按照各个上述学习用ROI级联来生成学习用综合特征图,或者(ii-2)使上述池化层对上述学习用ROI特征图适用池化运算来按照各个上述学习用ROI生成上述学习用池化特征图,使上述池化层将按照各个上述学习用ROI生成的上述学习用池化特征图上的对应的相同的各个位置的上述各个像素按照各个上述学习用ROI级联来生成上述学习用综合特征图,(2)(2-1)(i)使第1重塑层将由上述学习用综合特征图的所有通道中的各自对应的H1个通道构成的各个组内的各个特征级联来生成学习用第1重塑特征图,(ii)使1xH1卷积层对上述学习用第1重塑特征图而适用1xH1卷积运算来生成调整了卷的学习用第1调整特征图,(2-2)(i)使第2重塑层将由上述学习用第1调整特征图的所有通道中的各自对应的H2个通道构成的各个组内的各个特征级联来生成学习用第2重塑特征图,(ii)使1xH2卷积层对上述学习用第2重塑特征图适用1xH2卷积运算来生成调整了卷的学习用第2调整特征图,(3)(3-1)(i)使第2转置层按照上述像素级来将上述学习用第2调整特征图分离而按照各个上述学习用ROI生成学习用像素级特征图,使分类层利用按照各个上述学习用ROI生成的上述学习用像素级特征图而生成关于上述学习用ROI的学习用对象信息,或者(ii)使上述分类层按照上述像素级而将上述学习用第2调整特征图分离来按照各个上述学习用ROI生成上述学习用像素级特征图,使上述分类层利用按照各个上述学习用ROI而生成的上述学习用像素级特征图来生成关于各个上述学习用ROI的上述学习用对象信息,然后(3-2)使损失层参照上述学习用对象信息和与此对应的GT来算出至少一个对象损失,从而将上述对象损失反向传播来学习上述1xH2卷积层、上述1xH1卷积层及上述卷积层中的至少一部分参数的状态下,(I)(i)使上述卷积层对在至少一个上述测试图像上将测试用ROI的区域裁切并调整大小来生成的各个测试用ROI图像适用至少一次卷积运算来按照各个上述测试用ROI生成与至少一个测试用对象对应的至少一个测试用ROI特征图,(ii)(ii-1)使上述池化层对上述测试用ROI特征图适用至少一次池化运算来按照各个上述测试用ROI生成测试用池化特征图,使上述第1转置层将按照各个上述测试用ROI生成的上述测试用池化特征图上的对应的相同的各个位置的各个像素按照各个上述测试用ROI级联来生成测试用综合特征图,或者(ii-2)使上述池化层对上述测试用ROI特征图适用池化运算来按照各个上述测试用ROI生成上述测试用池化特征图,使上述池化层将按照各个上述测试用ROI而生成的上述测试用池化特征图上的对应的相同的各个位置的上述各个像素按照各个上述测试用ROI级联来生成上述测试用综合特征图;(II)(II-1)(i)使上述第1重塑层将由上述测试用综合特征图的所有通道中的各自对应的H1个通道构成的各个组内的各个特征级联来生成测试用第1重塑特征图,(ii)使上述1xH1卷积层对上述测试用第1重塑特征图适用1xH1卷积运算来生成调整了卷的测试用第1调整特征图,(II-2)(i)使上述第2重塑层将由上述测试用第1调整特征图的所有通道中的各自对应的H2个通道构成的各个组内的各个特征级联来生成测试用第2重塑特征图,(ii)使上述1xH2卷积层对上述测试用第2重塑特征图适用1xH2卷积运算来生成调整了卷的测试用第2调整特征图;及(III)(i)使上述第2转置层按照上述像素级将上述测试用第2调整特征图分离来按照各个上述测试用ROI生成测试用像素级特征图,使上述分类层利用按照各个上述测试用ROI而生成的上述测试用像素级特征图来生成关于各个上述测试用ROI的测试用对象信息,或者(ii)使上述分类层按照上述像素级而将上述测试用第2调整特征图分离来按照各个上述测试用ROI生成上述测试用像素级特征图,使上述分类层利用按照各个上述测试用ROI生成的上述测试用像素级特征图来生成关于各个上述测试用ROI的上述测试用对象信息。
20.根据权利要求19所述的测试装置,其特征在于,
在上述(II)处理中,
在上述测试用综合特征图的通道数量不是上述H1的倍数的情况下,上述处理器使上述第1重塑层对上述测试用综合特征图追加至少一个第1虚拟通道来使包括至少一个上述第1虚拟通道的上述测试用综合特征图的通道数量成为上述H1的倍数,然后将由上述测试用综合特征图的上述所有通道中的各个对应的H1个通道构成的各个上述组内的上述各个特征级联,
在上述(II)处理中,
在上述测试用第1调整特征图的通道数量不是上述H2的倍数的情况下,上述处理器使上述第2重塑层对上述测试用第1调整特征图追加至少一个第2虚拟通道来使包括至少一个上述第2虚拟通道的上述测试用第1调整特征图的通道数量成为上述H2的倍数,然后将由上述测试用第1调整特征图的上述所有通道中的各自对应的上述H2个通道构成的各个上述组内的上述各个特征级联。
21.根据权利要求19所述的测试装置,其特征在于,
在将上述测试用ROI的数量设为N,将按照各个上述测试用ROI生成的上述测试用池化特征图的宽度设为M1,将高度设为M2时,将按照各个上述测试用ROI生成的上述测试用池化特征图的通道数量设为J的情况下,
在上述(I)处理中,
上述处理器(i)使上述第1转置层将按照各个上述测试用ROI生成的上述测试用池化特征图变换成宽度为N,高度为1,通道为M1xM2xJ的上述测试用综合特征图或者(ii)使上述池化层将按照各个上述测试用ROI生成的上述测试用池化特征图变换成宽度为N,高度为1,通道为M1xM2xJ的上述测试用综合特征图。
22.根据权利要求21所述的测试装置,其特征在于,
在将上述1xH1卷积层的过滤器的数量为K,将上述1xH2卷积层的过滤器的数量设为L的情况下,
在上述(II)处理中,
上述处理器使上述第1重塑层生成具备NxH1的尺寸和CEIL
Figure FDA0004102584960000111
的通道数量的上述测试用第1重塑特征图,使上述1xH1卷积层生成宽度为N,高度为1,通道为K的具备Nx1xK的卷的上述测试用第1调整特征图,
上述处理器使上述第2重塑层生成宽度为N,高度为H2,通道为CEIL
Figure FDA0004102584960000112
的上述测试用第2重塑特征图,使上述1xH2卷积层生成宽度为N,高度为1,通道为L的具备Nx1xL的卷的上述测试用第2调整特征图。
23.根据权利要求22所述的测试装置,其特征在于,
在上述(III)处理中,
上述处理器(i)使上述第2转置层将上述测试用第2调整特征图变换成与N个测试用ROI分别对应的宽度为1,高度为1,通道为L的具备1x1xL的卷的按照各个上述测试用ROI生成的上述测试用像素级特征图或者(ii)使上述分类层将上述测试用第2调整特征图变换成与上述N个测试用ROI分别对应的宽度为1,高度为1,通道为L的具备1x1xL的卷的按照各个上述测试用ROI生成的上述测试用像素级特征图。
24.根据权利要求19所述的测试装置,其特征在于,
上述分类层使用至少一个柔性最大值算法。
CN201911314275.1A 2019-01-23 2019-12-19 利用了1xH卷积的CNN方法及装置 Active CN111476342B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/255,044 2019-01-23
US16/255,044 US10402695B1 (en) 2019-01-23 2019-01-23 Learning method and learning device for convolutional neural network using 1×H convolution for image recognition to be used for hardware optimization, and testing method and testing device using the same

Publications (2)

Publication Number Publication Date
CN111476342A CN111476342A (zh) 2020-07-31
CN111476342B true CN111476342B (zh) 2023-04-21

Family

ID=67770159

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911314275.1A Active CN111476342B (zh) 2019-01-23 2019-12-19 利用了1xH卷积的CNN方法及装置

Country Status (5)

Country Link
US (1) US10402695B1 (zh)
EP (1) EP3686801A1 (zh)
JP (1) JP6857368B2 (zh)
KR (1) KR102277505B1 (zh)
CN (1) CN111476342B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018211144A1 (en) * 2017-05-19 2018-11-22 Deepmind Technologies Limited Making object-level predictions of the future state of a physical system
US11354935B2 (en) * 2019-03-11 2022-06-07 Nec Corporation Object recognizer emulation
CN113096672B (zh) * 2021-03-24 2022-06-14 武汉大学 一种应用于低码率下的多音频对象编解码方法
CN115909013B (zh) * 2023-01-10 2023-07-25 深圳精智达技术股份有限公司 一种图像的卷积方法、装置、电子设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108564025A (zh) * 2018-04-10 2018-09-21 广东电网有限责任公司 一种基于可变形卷积神经网络的红外图像物体识别方法
US10169679B1 (en) * 2017-10-13 2019-01-01 StradVision, Inc. Learning method and learning device for adjusting parameters of CNN by using loss augmentation and testing method and testing device using the same

Family Cites Families (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9536293B2 (en) * 2014-07-30 2017-01-03 Adobe Systems Incorporated Image assessment using deep convolutional neural networks
CN106156807B (zh) * 2015-04-02 2020-06-02 华中科技大学 卷积神经网络模型的训练方法及装置
WO2016165060A1 (en) * 2015-04-14 2016-10-20 Intel Corporation Skin detection based on online discriminative modeling
US9767381B2 (en) * 2015-09-22 2017-09-19 Xerox Corporation Similarity-based detection of prominent objects using deep CNN pooling layers as features
US9965719B2 (en) * 2015-11-04 2018-05-08 Nec Corporation Subcategory-aware convolutional neural networks for object detection
US9881234B2 (en) * 2015-11-25 2018-01-30 Baidu Usa Llc. Systems and methods for end-to-end object detection
US20180039853A1 (en) * 2016-08-02 2018-02-08 Mitsubishi Electric Research Laboratories, Inc. Object Detection System and Object Detection Method
US10019655B2 (en) * 2016-08-31 2018-07-10 Adobe Systems Incorporated Deep-learning network architecture for object detection
US10354159B2 (en) * 2016-09-06 2019-07-16 Carnegie Mellon University Methods and software for detecting objects in an image using a contextual multiscale fast region-based convolutional neural network
US10354362B2 (en) * 2016-09-08 2019-07-16 Carnegie Mellon University Methods and software for detecting objects in images using a multiscale fast region-based convolutional neural network
US11308350B2 (en) * 2016-11-07 2022-04-19 Qualcomm Incorporated Deep cross-correlation learning for object tracking
US10846523B2 (en) * 2016-11-14 2020-11-24 Kodak Alaris Inc. System and method of character recognition using fully convolutional neural networks with attention
US10360494B2 (en) * 2016-11-30 2019-07-23 Altumview Systems Inc. Convolutional neural network (CNN) system based on resolution-limited small-scale CNN modules
US10380741B2 (en) * 2016-12-07 2019-08-13 Samsung Electronics Co., Ltd System and method for a deep learning machine for object detection
US10262237B2 (en) * 2016-12-08 2019-04-16 Intel Corporation Technologies for improved object detection accuracy with multi-scale representation and training
CN108303748A (zh) * 2017-01-12 2018-07-20 同方威视技术股份有限公司 检查设备和检测行李物品中的枪支的方法
US10185878B2 (en) * 2017-02-28 2019-01-22 Microsoft Technology Licensing, Llc System and method for person counting in image data
US10635927B2 (en) * 2017-03-06 2020-04-28 Honda Motor Co., Ltd. Systems for performing semantic segmentation and methods thereof
US10678846B2 (en) * 2017-03-10 2020-06-09 Xerox Corporation Instance-level image retrieval with a region proposal network
US20180260414A1 (en) * 2017-03-10 2018-09-13 Xerox Corporation Query expansion learning with recurrent networks
US11010595B2 (en) * 2017-03-23 2021-05-18 Samsung Electronics Co., Ltd. Facial verification method and apparatus
US10325342B2 (en) * 2017-04-27 2019-06-18 Apple Inc. Convolution engine for merging interleaved channel data
US10460470B2 (en) * 2017-07-06 2019-10-29 Futurewei Technologies, Inc. Recognition and reconstruction of objects with partial appearance
US10503978B2 (en) * 2017-07-14 2019-12-10 Nec Corporation Spatio-temporal interaction network for learning object interactions
EP3432263B1 (en) * 2017-07-17 2020-09-16 Siemens Healthcare GmbH Semantic segmentation for cancer detection in digital breast tomosynthesis
US10776903B2 (en) * 2017-07-17 2020-09-15 Open Text Corporation Systems and methods for image modification and image based content capture and extraction in neural networks
CN108022238B (zh) * 2017-08-09 2020-07-03 深圳科亚医疗科技有限公司 对3d图像中对象进行检测的方法、计算机存储介质和系统
KR101880901B1 (ko) * 2017-08-09 2018-07-23 펜타시큐리티시스템 주식회사 기계 학습 방법 및 장치
JP6972757B2 (ja) * 2017-08-10 2021-11-24 富士通株式会社 制御プログラム、制御方法、及び情報処理装置
JP6972756B2 (ja) * 2017-08-10 2021-11-24 富士通株式会社 制御プログラム、制御方法、及び情報処理装置
US10753997B2 (en) * 2017-08-10 2020-08-25 Siemens Healthcare Gmbh Image standardization using generative adversarial networks
US10929987B2 (en) * 2017-08-16 2021-02-23 Nvidia Corporation Learning rigidity of dynamic scenes for three-dimensional scene flow estimation
US10679351B2 (en) * 2017-08-18 2020-06-09 Samsung Electronics Co., Ltd. System and method for semantic segmentation of images
US20190063932A1 (en) * 2017-08-28 2019-02-28 Nec Laboratories America, Inc. Autonomous Vehicle Utilizing Pose Estimation
CN107492099B (zh) * 2017-08-28 2021-08-20 京东方科技集团股份有限公司 医学图像分析方法、医学图像分析系统以及存储介质
US20190094858A1 (en) * 2017-09-25 2019-03-28 Uber Technologies, Inc. Parking Location Prediction
US10223610B1 (en) * 2017-10-15 2019-03-05 International Business Machines Corporation System and method for detection and classification of findings in images
KR102416048B1 (ko) * 2017-10-16 2022-07-04 일루미나, 인코포레이티드 변이체 분류를 위한 심층 컨볼루션 신경망

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10169679B1 (en) * 2017-10-13 2019-01-01 StradVision, Inc. Learning method and learning device for adjusting parameters of CNN by using loss augmentation and testing method and testing device using the same
CN108564025A (zh) * 2018-04-10 2018-09-21 广东电网有限责任公司 一种基于可变形卷积神经网络的红外图像物体识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SHAOQING REN ET AL..Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks.IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE.2016,第39卷(第6期),1137-1149. *

Also Published As

Publication number Publication date
EP3686801A1 (en) 2020-07-29
JP2020119534A (ja) 2020-08-06
CN111476342A (zh) 2020-07-31
KR20200091794A (ko) 2020-07-31
JP6857368B2 (ja) 2021-04-14
KR102277505B1 (ko) 2021-07-15
US10402695B1 (en) 2019-09-03

Similar Documents

Publication Publication Date Title
CN111476342B (zh) 利用了1xH卷积的CNN方法及装置
CN111476262B (zh) 利用1xH卷积的基于CNN的对象检测方法及装置
CN111476247B (zh) 利用了1xK或Kx1卷积运算的CNN方法及装置
US10387753B1 (en) Learning method and learning device for convolutional neural network using 1×1 convolution for image recognition to be used for hardware optimization, and testing method and testing device using the same
JP6924517B2 (ja) ディープニューラルネットワーク基盤の多重パッチ組み合わせを利用して顔を認識し、極度の状況でフォールトトレランス及びフラクチュエーションロバスト性を向上させる方法
KR102326238B1 (ko) 핵심 성능 지수를 만족시킬 수 있는 하드웨어 최적화가 이루어지도록, cnn에서 복수의 블록 내의 입력 이미지로부터 특징을 추출하는 학습 방법 및 학습 장치, 이를 이용한 테스트 방법 및 테스트 장치
CN111612024B (zh) 特征提取方法、装置、电子设备及计算机可读存储介质
CN111476310B (zh) 一种图像分类方法、装置及设备
JP6853592B2 (ja) ハードウェア最適化に使用される1x1コンボリューションを利用したCNN基盤の物体検出器を学習する方法及び学習装置、これを利用したテスト方法及びテスト装置{LEARNING METHOD AND LEARNING DEVICE FOR OBJECT DETECTOR BASED ON CNN USING 1×1 CONVOLUTION TO BE USED FOR HARDWARE OPTIMIZATION, AND TESTING METHOD AND TESTING DEVICE USING THE SAME}
CN110188692A (zh) 一种有效目标快速识别的强化循环级联方法
Wang et al. P‐4.10: Simulation Algorithm of Industrial Defects based on Generative Adversarial Network
CN106815595A (zh) 移动终端及其目标检测方法及装置
CN117689890A (zh) 一种基于晴雾场景的语义分割方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant