CN111699494A - 使用通过主成分分析和重复频谱聚类进行训练的卷积神经网络的对象识别 - Google Patents
使用通过主成分分析和重复频谱聚类进行训练的卷积神经网络的对象识别 Download PDFInfo
- Publication number
- CN111699494A CN111699494A CN201880076758.XA CN201880076758A CN111699494A CN 111699494 A CN111699494 A CN 111699494A CN 201880076758 A CN201880076758 A CN 201880076758A CN 111699494 A CN111699494 A CN 111699494A
- Authority
- CN
- China
- Prior art keywords
- cnn
- layer
- training
- convolutional neural
- trained
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 84
- 238000000513 principal component analysis Methods 0.000 title claims abstract description 35
- 230000003595 spectral effect Effects 0.000 title description 4
- 230000003252 repetitive effect Effects 0.000 title description 2
- 238000012549 training Methods 0.000 claims abstract description 74
- 239000013598 vector Substances 0.000 claims abstract description 47
- 239000011159 matrix material Substances 0.000 claims abstract description 29
- 238000000034 method Methods 0.000 claims abstract description 25
- 238000012545 processing Methods 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims description 2
- 238000013528 artificial neural network Methods 0.000 description 9
- 238000011176 pooling Methods 0.000 description 9
- 238000010191 image analysis Methods 0.000 description 4
- 230000001575 pathological effect Effects 0.000 description 3
- 235000013399 edible fruits Nutrition 0.000 description 2
- 230000001815 facial effect Effects 0.000 description 2
- 230000008921 facial expression Effects 0.000 description 2
- 238000003306 harvesting Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2132—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on discrimination criteria, e.g. discriminant analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2323—Non-hierarchical techniques based on graph theory, e.g. minimum spanning trees [MST] or graph cuts
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Mathematical Optimization (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- Algebra (AREA)
- Discrete Mathematics (AREA)
- Image Analysis (AREA)
Abstract
对象识别方法使用利用一组训练图像[100,104]训练的卷积神经网络(CNN),随后使用经训练的CNN来分类[110]对象的图像[108]。通过从特征向量生成一组第一卷积滤波器对CNN的第一层进行训练[102],所述特征向量从训练图像[100]的面片的线性主成分分析中产生。多个隐藏层CNN中的每一层的训练包括:从所选择的特征向量的子集生成一组卷积滤波器,所述特征向量的子集从对亲和度矩阵的面片的线性主成分分析中产生,所述亲和度矩阵使用来自CNN的先前层的一组先前的卷积滤波器进行构造,其中亲和度矩阵表示与先前层相关联的特征的向量的相关性。使用训练图像和与训练图像相关联的标签[104]通过误差反向传播使用正则分类器对CNN的最后层进行训练[106]。
Description
技术领域
本发明总体上涉及用于对象识别的图像分析。更具体地,本发明涉及用于使用卷积神经网络进行图像分类的技术。
背景技术
用于对象识别的图像分类是卷积神经网络的最重要和最众所周知的应用之一。在此类应用中,使用已经用标签分类的一组图像来训练神经网络。一旦网络已经学习该训练数据,它随后就可以快速地分析和分类任意图像。然而,训练网络可能是耗时且计算复杂的。
计算神经网络包含以层进行组织的一组连接的节点,其中每个层基于来自先前层的输入向下一层提供输出。第一层是输入层。最后一层是输出层。中间层被称为隐藏层。具有多于一个的隐藏层的神经网络被称为深度神经网络。通常,当今深度神经网络具有5-150个隐藏层。深度神经网络能够学习数据的更加复杂和抽象的特征(例如,不仅是诸如边缘和线之类的低级特征,而且还有诸如形状和形状的布置之类的高级特征)。深度神经网络的常见类型是卷积神经网络(CNN),其中每个层生成特征图。将该特征图与滤波器进行卷积以产生输出特征图。常规地,池化用于降低特征图的维度。
神经网络的训练可以使用监督学习或无监督学习。在无监督学习中,训练数据是未分类的。训练集群数据,该数据对应于所发现的特征和类别。然而,这些类别不一定对应于期望的分类。在监督学习中,将经分类的训练数据提供给网络。在训练期间,经分类的图像被用于确定在网络中的权重(例如,使用反向传播来调整权重以减小输出误差)。然而,使用反向传播来调整整个网络所有层级的权重可能在计算上是昂贵的,尤其是在大训练集和具有许多层的卷积网络的情况下。为了使训练更易于管理,可以使用“最大池化”或“均值池化”技术来减少到下一层的数据爆炸。然而,即使使用这些现有的池化技术,CNN的反向传播训练仍然非常复杂和耗时。
发明内容
在一个方面,本发明提供了一种用于训练用于图像分析的深度卷积神经网络(CNN)的快速、自动、无监督的技术。在第一阶段中,通过对训练图像的面片的线性主成分分析(PCA)对神经网络的多层深度级联进行前馈训练。得到的特征向量是丰富特征的向量(rich feature vector),所述丰富特征的向量表示卷积滤波器/核。通过使用PCA的主要特征值选择特征值的子集来减少特征的向量的数量。特征值通常在PCA中快速衰减,因此特征值的第一受限集合描述了高百分比的数据,例如,仅由5-8个特征值描述95%或99%的数据。该减少技术比现有的池化技术更加精确和高效。
通过将滤波器与训练图像进行卷积来对第二阶段和更高阶段进行前馈训练,以通过相关的特征的向量产生亲和度矩阵(affinity matrix),随后对亲和度矩阵的面片执行线性PCA(频谱聚类,图形切割(graph cuts))。对该亲和度矩阵的PCA给出了该下一层的“主动外观”表示的基础。由于亲和度,互相影响的上下文区域得以利用,并且PCA给出了最简洁的描述。将对亲和度(频谱聚类)阶段的该PCA的输出滤波器用于对该下一层进行卷积,从而产生更复杂的描述特征的新集合。在越来越大的上下文层中重复该过程。例如,第一阶段特征可以表示边缘和角,第二层特征可以表示简单形状,第三层特征可以表示更复杂的形状,并且更高层特征可以表示不同的一般类型的对象,诸如特定种类的对象。该CNN训练全部利用前馈、无监督的训练来进行,并且非常高效。在结束时,在网络的最后几个层上通过卷积误差反向传播对正则分类器进行训练。
因此,在一个方面,本发明提供了一种使用卷积神经网络(CNN)的对象识别的方法,该方法包括使用一组训练图像对CNN进行训练以产生经训练的CNN;以及使用经训练的CNN对对象的图像进行分类。CNN的训练包括:对于CNN的多个层中的每个层,从所选择的特征向量的子集生成与该层相关联的一组卷积滤波器,所述特征向量的子集从对亲和度矩阵的面片的线性主成分分析中产生,所述亲和度矩阵使用来自CNN的先前层的一组先前的卷积滤波器进行构造,其中亲和度矩阵表示与先前层相关联的特征的向量的相关性;以及使用训练图像和与训练图像相关联的标签通过误差反向传播对正则分类器进行训练。所选择的特征向量的子集对应于大于阈值的特征值,该阈值足以使特征值共同地描述至少95%的面片。CNN的训练可进一步包括:对于CNN的第一层,从所选择的第一层特征向量生成与第一层相关联的一组第一卷积滤波器,所述第一层特征向量从对训练图像的面片的线性主成分分析中产生。CNN的训练可以包括:i)执行对训练图像的图像面片的线性主成分分析以产生第一层特征向量和第一层特征值;ii)选择最大的第一层特征值的子集和对应的第一层特征向量;iii)从所选择的第一层特征向量产生与卷积神经网络的第一层相关联的一组第一卷积滤波器;iv)使用在卷积神经网络的先前层中产生的先前的卷积滤波器来产生特征的向量;v)通过计算特征的向量之间的相关性(点积)并使用黎曼距离(Riemanniandistance)对共圆度(co-circularity)进行增强,来构造亲和度矩阵;vi)执行对亲和度矩阵的面片的线性主成分分析以产生特征向量和相关联的特征值;vii)通过特征值取幂和取阈值来选择所选择的特征向量的子集和对应的特征值;viii)从所选择的特征向量的子集产生与卷积神经网络的层相关联的一组卷积滤波器;以及ix)针对卷积神经网络的多个层重复步骤iv)、v)、vi)、vii)、viii)。
在另一方面,本发明提供了一种图形处理单元,所述图形处理单元被编程用于使用利用一组训练图像进行训练的卷积神经网络(CNN)来实现对象的图像分类;其中CNN通过以下方式进行训练:对于CNN的多个层中的每个层,从所选择的特征向量的子集生成与该层相关联的一组卷积滤波器,所述特征向量的子集从对亲和度矩阵的面片的线性主成分分析中产生,所述亲和度矩阵使用来自CNN的先前层的一组先前的卷积滤波器进行构造,其中亲和度矩阵表示与先前层相关联的特征的向量的相关性;以及使用训练图像和与训练图像相关联的标签通过误差反向传播对正则分类器进行训练
与目前的卷积误差反向传播方法相比,用于深度卷积神经网络(CNN)的隐藏层的前馈训练的该无监督技术非常快速。本发明由此允许使用大得多的训练集进行训练、为图像分析和对象识别提供更高精度、和/或使CNN更快地成为更好的“高级专家”。
因此,在一个方面,本发明提供了一种非常高效的对象识别方法,所述对象识别诸如,面部和面部表情识别、医学图像中的解剖学和病理学识别、以及对组织学显微镜检查病理切片的纹理识别。其他应用包括障碍物和道路标志识别、用于收割机器人的果实识别、手写字符的识别、在农产品拍卖上的植物和花卉识别、指纹识别、以及其他生物标识符识别。
附图说明
图1是根据本发明的实施例提供用于使用卷积神经网络(CNN)的对象识别的方法的主要步骤的概览的流程图。
图2是根据本发明的实施例概述使用一组训练图像对CNN进行训练以产生经训练的CNN的方法的主要步骤的流程图。
具体实施方式
本发明的实施例提供了一种用于使用卷积神经网络(CNN)进行图像分析和对象识别的方法,该CNN在第一阶段中使用小图像面片(patch)的主成分分析(PCA)并在第二阶段和后续阶段中使用亲和度矩阵的PCA来进行训练。PCA允许图像被表现为在越来越大的上下文几何基元中的级数展开,即,每个面片可以被表达为基础面片的加权和,所述基础面片是PCA返回的特征向量。通过特征向量池化来实现高数据缩减。与在CNN的所有隐藏层上使用计算复杂的反向传播的常规技术相比,CNN的这种前馈的、无监督的训练非常快速。
图1提供了根据本发明的一个实施例的使用卷积神经网络(CNN)的对象识别的主要步骤的概览。在步骤102中,使用一组训练图像100对CNN的隐藏层进行前馈训练。该训练是无监督的,即,未使用训练图像的分类标签。而且,这些隐藏层的训练是前馈的,即,不使用反向传播。如下文将更详细描述的,训练涉及对在多个隐藏层中的亲和度矩阵的顺序线性主成分分析。该CNN的隐藏层的无监督训练产生作为正则分类器(例如,支持向量机(SVM)、或随机森林)的输入的相对小的一组高上下文系数。步骤106使用误差反向传播和一组104具有分类标签的训练图像来在最后一个或多个层上执行该正则分类器的监督训练。这是高效的,因为它仅涉及最后层中的一层或少数层。一旦训练了CNN,就在步骤110中使用它来分类未知图像108,从而产生对象识别结果112,例如,与在监督训练步骤中使用的图像分类标签中的每一个标签对应的概率的集合。
图1的步骤102的细节在图2中示出,图2是根据本发明的实施例概述使用一组训练图像100对CNN的隐藏层进行无监督前馈训练的方法的主要步骤的流程图。
在步骤200中,对训练图像100的图像面片执行线性主成分分析,从而得到一组202特征向量(和对应的特征值)。
在一个实现方式中,训练图像中的每一个被用于生成在一边上具有δ个像素的正方形面片的集合,其中δ优选为5-10像素。通过将相邻面片的中心位移s像素的步幅,面片可以重叠,其中s通常是面片尺寸的大约1/3。每个面片优选地使用具有标准差σ的高斯非偏心/偏心环绕核(Gaussian on-off-center surround kernel)进行加权。该加权有助于降低伪分辨率(假边缘和角)并进行局部均值减法。
每个δ×δ面片在δ2长的长列向量中被拉伸,并且来自所有图像的所有面片的列向量被组合以形成新矩阵m的列,该新矩阵m的尺寸为δ2。
该矩阵通常是矩形的。形成正方形协方差矩阵mTm,并且主成分分析计算mTm的特征向量和特征值,所述特征向量和特征值以排序顺序返回。每个特征向量具有长度δ2,并且存在δ2个特征向量和δ2个特征值。
这些特征向量是描述图像的局部结构的局部空间导数运算符(derivativeoperator)的完整集合。特征向量是局部差分几何基础,即,高阶的空间导数。该层中的PCA表示是等效于具有非常高阶导数的局部泰勒展开(Taylor expansion)的。因为我们具有离散的数据,所以这些是高斯导数。这些特征向量被划分为δ×δ个核或滤波器,在图像与这些核进行卷积之后,给出每像素的丰富的一组特征。这些核检测边缘、角、线和其他基元。它们是δ×δ面片。
对应于该组特征值的特征值描述了该基础中的多少存在于所观察到的数据中,并且特征值被按排序顺序返回。
它们形成频谱,并且可以使用碎石图可视化。如果在预处理步骤中未由中心环绕(center-surround)滤波器减去平均值,则第一DC特征值(和特征向量)被丢弃。通常,特征值的大小的排序集快速下降,所以仅第一小子集足以描述大部分的数据。因此,在步骤204中,通过选择与最大特征值相关联的特征向量来减小特征向量(和特征值)的集合202,从而得到与卷积神经网络的第一层相关联的卷积滤波器/核的集合206。
在优选的实现方式中,最高特征值(累积地描述95%的数据,或更优选地99%的数据)被识别(通常为15个或更少),并且其他特征值被丢弃。当特征值被取幂并取阈值时,会发现更清晰且定义得更好的阈值。该“特征值池化”产生比在CNN中使用的常规最大池化更自然的数据缩减。
在步骤208的第一次迭代中,滤波器206与训练图像100进行卷积,将训练图像中的每个像素转换成列向量,所述列向量描述该像素的局部几何上下文。这些向量形成特征字段,滤波后的张量图像。由此,生成了稍大区域(例如20×20像素)的具有步长Sa的面片,其中通常Sa在3像素和面片边长之间。面片尺寸随步骤208的每次迭代而增加,在最后一个隐藏层中生长到整个图像尺寸。
接下来,通过计算面片的所有像素的外积来构造亲和度矩阵210。正方形亲和度矩阵被表达为特征的向量之间的相关性(点积),并且表示“每像素的特征堆栈”对的彼此之间的相似程度。亲和度由大列特征的向量的成对相关性(点积,非常高效)和共圆度(“次黎曼距离(sub-Riemannian distance)”)的测量组成。
在步骤212中,对亲和度矩阵210的PCA产生一组特征向量和特征值214。类似于步骤204,在步骤216中,选择具有最高特征值的特征向量的子集,使得它们再次描述95%的数据,或更优选地99%的数据。所选择的特征向量的数量通常小于15-20。这些特征向量被划分成正方形面片,所述正方形面片形成输出卷积滤波器218。这些核被可视化为正方形滤波器,并且通常示出紧接在后的上下文感知组、部位(对于脸部:嘴部、鼻部、眼部的元素)。对该亲和度矩阵的PCA自动习得特征(用于连续亲和度测量中),或直接习得图像像素间的亲和度,从而避免了特征提取步骤的必要性。
滤波器218用作对步骤208的下一次迭代的输入,其中再次使用这些较大的核进行训练图像的卷积,在212执行PCA,并且在步骤216再次进行池化。对CNN的多个隐藏层重复这些步骤。亲和度矩阵的以像素为单位的尺寸(例如,30×30像素)保持恒定(并且因此每层的计算负担保持恒定),但是亲和度面片采用越来越大面积像素(“粗略像素(coarserpixels)”),直到达到完整图像尺寸(“外部规模(outer scale)”)或所分类的最大结构的尺寸。因为规模是指数的,所以尺寸的增长是指数的(例如,以2的平方根的步长)。在实践中,亲和度矩阵是稀疏的,并且仅对角线周围的区域需要被考虑到计算中。这解释了我们为什么使用多个层。可以使用有限的基函数来非常精确地表示稍微递增的上下文区域。
在步骤208、212、216的多次迭代之后,习得了对高级结构的PCA级数展开。每个层是主动形状模型(ASM)和主动外观模型(AAM)的组合,这是自然且非常紧凑的表示。
如图1中所示的,一旦完成该CNN的隐藏层的无监督训练102,就针对最后层进行使用误差反向传播的监督训练106,这在学习期间提供了很大的加速。
本发明的方法优选地使用通常用于实现CNN的适当硬件来实现。例如,可以使用实现为具有数千个小CPU核心的集成电路的最先进的图形处理单元(GPU)来实现,所述小CPU核心针对像卷积之类的小任务是并行优化的。还可以使用在深度学习应用中常见的GPU服务器。
本发明的方法可以用于涉及对象识别的应用中。例如,在面部识别或面部表情识别中,在使用标记有适当标签的面部的训练图像对CNN进行训练之后,由经训练的CNN分析图像以产生一组值,该组值中的每个值表示与标签中的一个标签相关联的概率。该方法还具有在解剖学和病理学识别中的应用,其中使用一组诊断图像和相关联的标签对CNN进行训练。在自动或辅助车辆控制和导航中,可以使用针对障碍物和道路标志识别的图像对CNN进行训练。在农业应用中,可以将CNN训练用于为收割机器人识别植物、花卉和果实的类型、尺寸和状态。其他应用包括手写字符识别、指纹识别和其他生物特征的识别。
Claims (5)
1.一种使用卷积神经网络(CNN)的对象识别的方法,所述方法包括:
a)使用一组训练图像对CNN进行训练以产生经训练的CNN;以及
b)使用所述经训练的CNN来分类对象的图像;
其中对所述CNN进行训练包括:
对于所述CNN的多个层中的每一层,从所选择的特征向量的子集生成与所述层相关联的一组卷积滤波器,所述特征向量的子集从对亲和度矩阵的面片的线性主成分分析中产生,所述亲和度矩阵使用来自所述CNN的先前层的一组先前的卷积滤波器进行构造,其中所述亲和度矩阵表示与所述先前层相关联的特征的向量的相关性;
使用所述训练图像和与所述训练图像相关联的标签通过误差反向传播对正则分类器进行训练。
2.根据权利要求1所述的方法,其中所述所选择的特征向量的子集对应于大于阈值的特征值,所述阈值足以使所述特征值共同地描述至少95%的所述面片。
3.根据权利要求1所述的方法,其中对所述CNN进行训练进一步包括:
对于所述CNN的第一层,从所选择的第一层特征向量生成与所述第一层相关联的一组第一卷积滤波器,所述第一层特征向量从对所述训练图像的面片的线性主成分分析中产生。
4.根据权利要求1所述的方法,其中对所述CNN进行训练包括:
i)执行对所述训练图像的图像面片的线性主成分分析以产生第一层特征向量和第一层特征值;
ii)选择最大的第一层特征值的子集和对应的第一层特征向量;
iii)从所选择的第一层特征向量产生与所述卷积神经网络的第一层相关联的一组第一卷积滤波器;
iv)使用在所述卷积神经网络的所述先前层中产生的所述先前的卷积滤波器来产生所述特征的向量;
v)通过计算所述特征的向量之间的相关性(点积)并使用黎曼距离对共圆度进行增强,来构造所述亲和度矩阵;
vi)执行对所述亲和度矩阵的面片的线性主成分分析以产生特征向量和相关联的特征值;
vii)通过特征值取幂和取阈值来选择所述特征向量的子集和对应的特征值;
viii)从所述所选择的特征向量的子集产生与所述卷积神经网络的所述层相关联的所述一组卷积滤波器;
ix)针对所述卷积神经网络的多个层重复步骤iv)、v)、vi)、vii)、viii)。所述亲和度矩阵面片保持相同数量的像素,但是每层的采样像素面积呈指数增长。
5.一种图形处理单元,所述图形处理单元被编程用于使用利用一组训练图像进行训练的卷积神经网络(CNN)来实现对象的图像分类;其中所述CNN通过以下方式进行训练:对于所述CNN的多个层中的每个层,从所选择的特征向量的子集生成与所述层相关联的一组卷积滤波器,所述特征向量的子集从对亲和度矩阵的面片的线性主成分分析中产生,所述亲和度矩阵使用来自所述CNN的先前层的一组先前的卷积滤波器进行构造,其中所述亲和度矩阵表示与所述先前层相关联的特征的向量的相关性;以及使用所述训练图像和与所述训练图像相关联的标签通过误差反向传播对正则分类器进行训练。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/822,982 | 2017-11-27 | ||
US15/822,982 US10713563B2 (en) | 2017-11-27 | 2017-11-27 | Object recognition using a convolutional neural network trained by principal component analysis and repeated spectral clustering |
PCT/EP2018/082589 WO2019102005A1 (en) | 2017-11-27 | 2018-11-26 | Object recognition using a convolutional neural network trained by principal component analysis and repeated spectral clustering |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111699494A true CN111699494A (zh) | 2020-09-22 |
Family
ID=64604616
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880076758.XA Pending CN111699494A (zh) | 2017-11-27 | 2018-11-26 | 使用通过主成分分析和重复频谱聚类进行训练的卷积神经网络的对象识别 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10713563B2 (zh) |
CN (1) | CN111699494A (zh) |
WO (1) | WO2019102005A1 (zh) |
ZA (1) | ZA202003124B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113080991A (zh) * | 2021-03-30 | 2021-07-09 | 太原理工大学 | 基于cnn模型与lstm模型的预测诊断心衰方法系统及诊断设备、存储介质 |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6333871B2 (ja) * | 2016-02-25 | 2018-05-30 | ファナック株式会社 | 入力画像から検出した対象物を表示する画像処理装置 |
US10761818B2 (en) * | 2018-10-31 | 2020-09-01 | Salesforce.Com, Inc. | Automatic identification of types of user interface components |
CN110399815B (zh) * | 2019-07-12 | 2023-09-26 | 淮阴工学院 | 一种基于vgg16的cnn-svm手写签名识别方法 |
CN110543816B (zh) * | 2019-07-23 | 2021-08-03 | 浙江工业大学 | 一种基于谱聚类和增强学习的自适应人脸图像聚类方法 |
CN110633624B (zh) * | 2019-07-26 | 2022-11-22 | 北京工业大学 | 一种基于多特征融合的机器视觉人体异常行为识别方法 |
CN110443318B (zh) * | 2019-08-09 | 2023-12-08 | 武汉烽火普天信息技术有限公司 | 一种基于主成分分析和聚类分析的深度神经网络方法 |
CN111178507B (zh) * | 2019-12-26 | 2024-05-24 | 集奥聚合(北京)人工智能科技有限公司 | 图谱卷积神经网络数据处理方法及装置 |
CN111130117B (zh) * | 2020-01-07 | 2021-02-19 | 杭州电子科技大学 | 一种基于高维数据聚类的概率最优潮流计算方法 |
CN111310571B (zh) * | 2020-01-17 | 2022-11-22 | 中国科学院长春光学精密机械与物理研究所 | 一种基于空谱维滤波的高光谱图像分类方法及装置 |
CN111488907B (zh) * | 2020-03-05 | 2023-07-14 | 浙江工业大学 | 一种基于稠密PCANet的鲁棒图像识别方法 |
CN111488905B (zh) * | 2020-03-05 | 2023-07-14 | 浙江工业大学 | 基于高维PCANet的鲁棒图像识别方法 |
US20210304298A1 (en) * | 2020-03-26 | 2021-09-30 | Sap Se | Computerized Auction Platform |
CN111541632B (zh) * | 2020-04-20 | 2020-11-03 | 四川农业大学 | 一种基于主成分分析和残差网络的物理层认证方法 |
US12039807B2 (en) * | 2020-07-27 | 2024-07-16 | Raytheon Company | Shape-based vehicle classification using laser scan and neural network |
CN112784777B (zh) * | 2021-01-28 | 2023-06-02 | 西安电子科技大学 | 基于对抗学习的无监督高光谱图像变化检测方法 |
CN112949728B (zh) * | 2021-03-11 | 2021-09-14 | 宁波大学 | 基于切片图像筛选和特征聚合的mri图像分类方法 |
US11977533B2 (en) * | 2021-04-02 | 2024-05-07 | Kofax, Inc. | Automated document processing for detecting, extracting, and analyzing tables and tabular data |
CN114518182B (zh) * | 2022-03-02 | 2024-03-22 | 华北电力大学(保定) | 布里渊散射谱图像中温度和应变信息同时提取方法及系统 |
CN114743047A (zh) * | 2022-04-08 | 2022-07-12 | 北京字节跳动网络技术有限公司 | 一种图像识别方法、装置、电子设备及存储介质 |
CN115331039A (zh) * | 2022-08-15 | 2022-11-11 | 广州广电运通金融电子股份有限公司 | 图像自动标注方法、装置、设备及介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050071300A1 (en) * | 2001-05-07 | 2005-03-31 | Bartlett Peter L | Kernels and methods for selecting kernels for use in learning machines |
US7308134B2 (en) * | 2001-05-28 | 2007-12-11 | Honda Research Institute Europe Gmbh | Pattern recognition with hierarchical networks |
US20080144891A1 (en) * | 2006-12-18 | 2008-06-19 | Samsung Electronics Co., Ltd. | Method and apparatus for calculating similarity of face image, method and apparatus for retrieving face image, and method of synthesizing face image |
US20130278501A1 (en) * | 2012-04-18 | 2013-10-24 | Arb Labs Inc. | Systems and methods of identifying a gesture using gesture data compressed by principal joint variable analysis |
CN104573729A (zh) * | 2015-01-23 | 2015-04-29 | 东南大学 | 一种基于核主成分分析网络的图像分类方法 |
CN104881682A (zh) * | 2015-05-26 | 2015-09-02 | 东南大学 | 一种基于保局映射与主成分分析的图像分类方法 |
WO2017023569A1 (en) * | 2015-08-04 | 2017-02-09 | Siemens Aktiengesellschaft | Visual representation learning for brain tumor classification |
CN107368807A (zh) * | 2017-07-20 | 2017-11-21 | 东南大学 | 一种基于视觉词袋模型的监控视频车型分类方法 |
US20170337924A1 (en) * | 2016-05-19 | 2017-11-23 | Microsoft Technology Licensing, Llc | Permutation invariant training for talker-independent multi-talker speech separation |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7082394B2 (en) | 2002-06-25 | 2006-07-25 | Microsoft Corporation | Noise-robust feature extraction using multi-layer principal component analysis |
CN101622630B (zh) * | 2005-01-07 | 2012-07-04 | 高通股份有限公司 | 检测和跟踪图像中的物体 |
US10169445B2 (en) * | 2008-11-07 | 2019-01-01 | The Board Of Trustees Of The Leland Stanford Junior University | Systems and methods for determining optimal parameters for dynamic quantum clustering analyses |
US9232211B2 (en) * | 2009-07-31 | 2016-01-05 | The University Of Connecticut | System and methods for three-dimensional imaging of objects in a scattering medium |
CN107003253B (zh) * | 2014-07-21 | 2020-10-16 | 7386819曼尼托巴有限公司 | 用于肉类中骨头扫描的方法和装置 |
JP2017537686A (ja) * | 2014-11-13 | 2017-12-21 | メンシア テクノロジーズ | 改善された信号分析に基づくスコアリング方法 |
US20170154262A1 (en) * | 2015-11-30 | 2017-06-01 | Google Inc. | Resizing neural networks |
US9892344B1 (en) * | 2015-11-30 | 2018-02-13 | A9.Com, Inc. | Activation layers for deep learning networks |
CN106127103B (zh) * | 2016-06-12 | 2019-06-25 | 广州广电运通金融电子股份有限公司 | 一种离线身份认证的方法和装置 |
US10140515B1 (en) * | 2016-06-24 | 2018-11-27 | A9.Com, Inc. | Image recognition and classification techniques for selecting image and audio data |
EP3497550B1 (en) * | 2016-08-12 | 2023-03-15 | Packsize, LLC | Systems and methods for automatically generating metadata for media documents |
US11026634B2 (en) * | 2017-04-05 | 2021-06-08 | doc.ai incorporated | Image-based system and method for predicting physiological parameters |
US10444759B2 (en) * | 2017-06-14 | 2019-10-15 | Zoox, Inc. | Voxel based ground plane estimation and object segmentation |
US20190066845A1 (en) * | 2017-08-29 | 2019-02-28 | The Charles Stark Draper Laboratory, Inc. | Distributed analytics system for identification of diseases and injuries |
AU2018323621A1 (en) * | 2017-08-31 | 2020-02-06 | Butterfly Network, Inc. | Methods and apparatus for collection of ultrasound data |
-
2017
- 2017-11-27 US US15/822,982 patent/US10713563B2/en active Active
-
2018
- 2018-11-26 CN CN201880076758.XA patent/CN111699494A/zh active Pending
- 2018-11-26 WO PCT/EP2018/082589 patent/WO2019102005A1/en active Application Filing
-
2020
- 2020-05-26 ZA ZA2020/03124A patent/ZA202003124B/en unknown
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050071300A1 (en) * | 2001-05-07 | 2005-03-31 | Bartlett Peter L | Kernels and methods for selecting kernels for use in learning machines |
US7308134B2 (en) * | 2001-05-28 | 2007-12-11 | Honda Research Institute Europe Gmbh | Pattern recognition with hierarchical networks |
US20080144891A1 (en) * | 2006-12-18 | 2008-06-19 | Samsung Electronics Co., Ltd. | Method and apparatus for calculating similarity of face image, method and apparatus for retrieving face image, and method of synthesizing face image |
US20130278501A1 (en) * | 2012-04-18 | 2013-10-24 | Arb Labs Inc. | Systems and methods of identifying a gesture using gesture data compressed by principal joint variable analysis |
CN104573729A (zh) * | 2015-01-23 | 2015-04-29 | 东南大学 | 一种基于核主成分分析网络的图像分类方法 |
CN104881682A (zh) * | 2015-05-26 | 2015-09-02 | 东南大学 | 一种基于保局映射与主成分分析的图像分类方法 |
WO2017023569A1 (en) * | 2015-08-04 | 2017-02-09 | Siemens Aktiengesellschaft | Visual representation learning for brain tumor classification |
US20170337924A1 (en) * | 2016-05-19 | 2017-11-23 | Microsoft Technology Licensing, Llc | Permutation invariant training for talker-independent multi-talker speech separation |
CN107368807A (zh) * | 2017-07-20 | 2017-11-21 | 东南大学 | 一种基于视觉词袋模型的监控视频车型分类方法 |
Non-Patent Citations (4)
Title |
---|
LEI TIAN ET AL.: "Stacked PCA Network(SPCANet):An effective deep learning for face recognition", 《 2015 IEEE INTERNATIONAL CONFERENCE ON DIGITAL SIGNAL PROCESSING (DSP)》, 10 September 2015 (2015-09-10), pages 1039 - 1043 * |
OLIVIER LEDOIT ET AL.: "Spectrum estimation:A unified framework for covariance matrix estimation and PCA in large dimensions", 《ELSEVIER》, 31 July 2015 (2015-07-31), pages 360 - 384 * |
YAWEI LI ET AL.: "A pre-training strategy for convolutional neural network applied to Chinese digital gesture recognition", 《2016 8TH IEEE INTERNATIONAL CONFERENCE ON COMMUNICATION SOFTWARE AND NETWORKS (ICCSN)》, 10 October 2016 (2016-10-10) * |
史鹤欢;许悦雷;马时平;李岳云;李帅;: "PCA预训练的卷积神经网络目标识别算法", 西安电子科技大学学报, no. 03, 27 July 2015 (2015-07-27) * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113080991A (zh) * | 2021-03-30 | 2021-07-09 | 太原理工大学 | 基于cnn模型与lstm模型的预测诊断心衰方法系统及诊断设备、存储介质 |
Also Published As
Publication number | Publication date |
---|---|
ZA202003124B (en) | 2021-10-27 |
US10713563B2 (en) | 2020-07-14 |
WO2019102005A1 (en) | 2019-05-31 |
US20190164047A1 (en) | 2019-05-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10713563B2 (en) | Object recognition using a convolutional neural network trained by principal component analysis and repeated spectral clustering | |
CN109685115B (zh) | 一种双线性特征融合的细粒度概念模型及学习方法 | |
CN106991372B (zh) | 一种基于混合深度学习模型的动态手势识别方法 | |
Kumar et al. | Image based tomato leaf disease detection | |
US20190228268A1 (en) | Method and system for cell image segmentation using multi-stage convolutional neural networks | |
Sakib et al. | Implementation of fruits recognition classifier using convolutional neural network algorithm for observation of accuracies for various hidden layers | |
Metre et al. | An overview of the research on texture based plant leaf classification | |
CN114119979A (zh) | 基于分割掩码和自注意神经网络的细粒度图像分类方法 | |
CN109190476A (zh) | 一种蔬菜识别的方法及装置 | |
CN112288011A (zh) | 一种基于自注意力深度神经网络的图像匹配方法 | |
CN109002755B (zh) | 基于人脸图像的年龄估计模型构建方法及估计方法 | |
CN109766934B (zh) | 一种基于深度Gabor网络的图像目标识别方法 | |
CN109086886A (zh) | 一种基于极限学习机的卷积神经网络学习算法 | |
Swain et al. | A review on plant leaf diseases detection and classification based on machine learning models | |
Ghosh et al. | A novel approach to detect and classify fruits using ShuffleNet V2 | |
CN111832580B (zh) | 结合少样本学习与目标属性特征的sar目标识别方法 | |
Giraddi et al. | Flower classification using deep learning models | |
CN115393631A (zh) | 基于贝叶斯层图卷积神经网络的高光谱图像分类方法 | |
CN115527056A (zh) | 基于双混合卷积生成对抗网络的高光谱图像分类方法 | |
Meruliya et al. | Image processing for fruit shape and texture feature extraction-review | |
Cho et al. | Fruit ripeness prediction based on DNN feature induction from sparse dataset | |
Nigam et al. | 12 Wheat rust disease identification using deep learning | |
Tziolas et al. | Wafer Map Defect Pattern Recognition using Imbalanced Datasets | |
Yadav et al. | Design of CNN architecture for Hindi Characters | |
Sari et al. | Fruit classification quality using convolutional neural network and augmented reality |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20210408 Address after: Amsterdam Applicant after: Shijian Technology Co.,Ltd. Address before: Eindhoven Applicant before: TECHNISCHE UNIVERSITEIT EINDHOVEN |
|
TA01 | Transfer of patent application right |