CN111699494A

CN111699494A - 使用通过主成分分析和重复频谱聚类进行训练的卷积神经网络的对象识别

Info

Publication number: CN111699494A
Application number: CN201880076758.XA
Authority: CN
Inventors: B·M·特哈尔罗米尼; S·阿巴西苏雷什詹尼
Original assignee: Eindhoven Technical University
Current assignee: Shijian Technology Co.,Ltd.
Priority date: 2017-11-27
Filing date: 2018-11-26
Publication date: 2020-09-22
Also published as: ZA202003124B; US10713563B2; WO2019102005A1; US20190164047A1

Abstract

对象识别方法使用利用一组训练图像[100,104]训练的卷积神经网络(CNN)，随后使用经训练的CNN来分类[110]对象的图像[108]。通过从特征向量生成一组第一卷积滤波器对CNN的第一层进行训练[102]，所述特征向量从训练图像[100]的面片的线性主成分分析中产生。多个隐藏层CNN中的每一层的训练包括：从所选择的特征向量的子集生成一组卷积滤波器，所述特征向量的子集从对亲和度矩阵的面片的线性主成分分析中产生，所述亲和度矩阵使用来自CNN的先前层的一组先前的卷积滤波器进行构造，其中亲和度矩阵表示与先前层相关联的特征的向量的相关性。使用训练图像和与训练图像相关联的标签[104]通过误差反向传播使用正则分类器对CNN的最后层进行训练[106]。

Description

使用通过主成分分析和重复频谱聚类进行训练的卷积神经网络的对象识别

技术领域

本发明总体上涉及用于对象识别的图像分析。更具体地，本发明涉及用于使用卷积神经网络进行图像分类的技术。

背景技术

用于对象识别的图像分类是卷积神经网络的最重要和最众所周知的应用之一。在此类应用中，使用已经用标签分类的一组图像来训练神经网络。一旦网络已经学习该训练数据，它随后就可以快速地分析和分类任意图像。然而，训练网络可能是耗时且计算复杂的。

计算神经网络包含以层进行组织的一组连接的节点，其中每个层基于来自先前层的输入向下一层提供输出。第一层是输入层。最后一层是输出层。中间层被称为隐藏层。具有多于一个的隐藏层的神经网络被称为深度神经网络。通常，当今深度神经网络具有5-150个隐藏层。深度神经网络能够学习数据的更加复杂和抽象的特征(例如，不仅是诸如边缘和线之类的低级特征，而且还有诸如形状和形状的布置之类的高级特征)。深度神经网络的常见类型是卷积神经网络(CNN)，其中每个层生成特征图。将该特征图与滤波器进行卷积以产生输出特征图。常规地，池化用于降低特征图的维度。

神经网络的训练可以使用监督学习或无监督学习。在无监督学习中，训练数据是未分类的。训练集群数据，该数据对应于所发现的特征和类别。然而，这些类别不一定对应于期望的分类。在监督学习中，将经分类的训练数据提供给网络。在训练期间，经分类的图像被用于确定在网络中的权重(例如，使用反向传播来调整权重以减小输出误差)。然而，使用反向传播来调整整个网络所有层级的权重可能在计算上是昂贵的，尤其是在大训练集和具有许多层的卷积网络的情况下。为了使训练更易于管理，可以使用“最大池化”或“均值池化”技术来减少到下一层的数据爆炸。然而，即使使用这些现有的池化技术，CNN的反向传播训练仍然非常复杂和耗时。

发明内容

在一个方面，本发明提供了一种用于训练用于图像分析的深度卷积神经网络(CNN)的快速、自动、无监督的技术。在第一阶段中，通过对训练图像的面片的线性主成分分析(PCA)对神经网络的多层深度级联进行前馈训练。得到的特征向量是丰富特征的向量(rich feature vector)，所述丰富特征的向量表示卷积滤波器/核。通过使用PCA的主要特征值选择特征值的子集来减少特征的向量的数量。特征值通常在PCA中快速衰减，因此特征值的第一受限集合描述了高百分比的数据,例如，仅由5-8个特征值描述95％或99％的数据。该减少技术比现有的池化技术更加精确和高效。

通过将滤波器与训练图像进行卷积来对第二阶段和更高阶段进行前馈训练，以通过相关的特征的向量产生亲和度矩阵(affinity matrix)，随后对亲和度矩阵的面片执行线性PCA(频谱聚类，图形切割(graph cuts))。对该亲和度矩阵的PCA给出了该下一层的“主动外观”表示的基础。由于亲和度，互相影响的上下文区域得以利用，并且PCA给出了最简洁的描述。将对亲和度(频谱聚类)阶段的该PCA的输出滤波器用于对该下一层进行卷积，从而产生更复杂的描述特征的新集合。在越来越大的上下文层中重复该过程。例如，第一阶段特征可以表示边缘和角，第二层特征可以表示简单形状，第三层特征可以表示更复杂的形状，并且更高层特征可以表示不同的一般类型的对象，诸如特定种类的对象。该CNN训练全部利用前馈、无监督的训练来进行，并且非常高效。在结束时，在网络的最后几个层上通过卷积误差反向传播对正则分类器进行训练。

因此，在一个方面，本发明提供了一种使用卷积神经网络(CNN)的对象识别的方法，该方法包括使用一组训练图像对CNN进行训练以产生经训练的CNN；以及使用经训练的CNN对对象的图像进行分类。CNN的训练包括：对于CNN的多个层中的每个层，从所选择的特征向量的子集生成与该层相关联的一组卷积滤波器，所述特征向量的子集从对亲和度矩阵的面片的线性主成分分析中产生，所述亲和度矩阵使用来自CNN的先前层的一组先前的卷积滤波器进行构造，其中亲和度矩阵表示与先前层相关联的特征的向量的相关性；以及使用训练图像和与训练图像相关联的标签通过误差反向传播对正则分类器进行训练。所选择的特征向量的子集对应于大于阈值的特征值，该阈值足以使特征值共同地描述至少95％的面片。CNN的训练可进一步包括：对于CNN的第一层，从所选择的第一层特征向量生成与第一层相关联的一组第一卷积滤波器，所述第一层特征向量从对训练图像的面片的线性主成分分析中产生。CNN的训练可以包括：i)执行对训练图像的图像面片的线性主成分分析以产生第一层特征向量和第一层特征值；ii)选择最大的第一层特征值的子集和对应的第一层特征向量；iii)从所选择的第一层特征向量产生与卷积神经网络的第一层相关联的一组第一卷积滤波器；iv)使用在卷积神经网络的先前层中产生的先前的卷积滤波器来产生特征的向量；v)通过计算特征的向量之间的相关性(点积)并使用黎曼距离(Riemanniandistance)对共圆度(co-circularity)进行增强，来构造亲和度矩阵；vi)执行对亲和度矩阵的面片的线性主成分分析以产生特征向量和相关联的特征值；vii)通过特征值取幂和取阈值来选择所选择的特征向量的子集和对应的特征值；viii)从所选择的特征向量的子集产生与卷积神经网络的层相关联的一组卷积滤波器；以及ix)针对卷积神经网络的多个层重复步骤iv)、v)、vi)、vii)、viii)。

在另一方面，本发明提供了一种图形处理单元，所述图形处理单元被编程用于使用利用一组训练图像进行训练的卷积神经网络(CNN)来实现对象的图像分类；其中CNN通过以下方式进行训练：对于CNN的多个层中的每个层，从所选择的特征向量的子集生成与该层相关联的一组卷积滤波器，所述特征向量的子集从对亲和度矩阵的面片的线性主成分分析中产生，所述亲和度矩阵使用来自CNN的先前层的一组先前的卷积滤波器进行构造，其中亲和度矩阵表示与先前层相关联的特征的向量的相关性；以及使用训练图像和与训练图像相关联的标签通过误差反向传播对正则分类器进行训练

与目前的卷积误差反向传播方法相比，用于深度卷积神经网络(CNN)的隐藏层的前馈训练的该无监督技术非常快速。本发明由此允许使用大得多的训练集进行训练、为图像分析和对象识别提供更高精度、和/或使CNN更快地成为更好的“高级专家”。

因此，在一个方面，本发明提供了一种非常高效的对象识别方法，所述对象识别诸如，面部和面部表情识别、医学图像中的解剖学和病理学识别、以及对组织学显微镜检查病理切片的纹理识别。其他应用包括障碍物和道路标志识别、用于收割机器人的果实识别、手写字符的识别、在农产品拍卖上的植物和花卉识别、指纹识别、以及其他生物标识符识别。

附图说明

图1是根据本发明的实施例提供用于使用卷积神经网络(CNN)的对象识别的方法的主要步骤的概览的流程图。

图2是根据本发明的实施例概述使用一组训练图像对CNN进行训练以产生经训练的CNN的方法的主要步骤的流程图。

具体实施方式

本发明的实施例提供了一种用于使用卷积神经网络(CNN)进行图像分析和对象识别的方法，该CNN在第一阶段中使用小图像面片(patch)的主成分分析(PCA)并在第二阶段和后续阶段中使用亲和度矩阵的PCA来进行训练。PCA允许图像被表现为在越来越大的上下文几何基元中的级数展开，即，每个面片可以被表达为基础面片的加权和，所述基础面片是PCA返回的特征向量。通过特征向量池化来实现高数据缩减。与在CNN的所有隐藏层上使用计算复杂的反向传播的常规技术相比，CNN的这种前馈的、无监督的训练非常快速。

图1提供了根据本发明的一个实施例的使用卷积神经网络(CNN)的对象识别的主要步骤的概览。在步骤102中，使用一组训练图像100对CNN的隐藏层进行前馈训练。该训练是无监督的，即，未使用训练图像的分类标签。而且，这些隐藏层的训练是前馈的，即，不使用反向传播。如下文将更详细描述的，训练涉及对在多个隐藏层中的亲和度矩阵的顺序线性主成分分析。该CNN的隐藏层的无监督训练产生作为正则分类器(例如，支持向量机(SVM)、或随机森林)的输入的相对小的一组高上下文系数。步骤106使用误差反向传播和一组104具有分类标签的训练图像来在最后一个或多个层上执行该正则分类器的监督训练。这是高效的，因为它仅涉及最后层中的一层或少数层。一旦训练了CNN，就在步骤110中使用它来分类未知图像108，从而产生对象识别结果112，例如，与在监督训练步骤中使用的图像分类标签中的每一个标签对应的概率的集合。

图1的步骤102的细节在图2中示出，图2是根据本发明的实施例概述使用一组训练图像100对CNN的隐藏层进行无监督前馈训练的方法的主要步骤的流程图。

在步骤200中，对训练图像100的图像面片执行线性主成分分析，从而得到一组202特征向量(和对应的特征值)。

在一个实现方式中，训练图像中的每一个被用于生成在一边上具有δ个像素的正方形面片的集合，其中δ优选为5-10像素。通过将相邻面片的中心位移s像素的步幅，面片可以重叠，其中s通常是面片尺寸的大约1/3。每个面片优选地使用具有标准差σ的高斯非偏心/偏心环绕核(Gaussian on-off-center surround kernel)进行加权。该加权有助于降低伪分辨率(假边缘和角)并进行局部均值减法。

每个δ×δ面片在δ²长的长列向量中被拉伸，并且来自所有图像的所有面片的列向量被组合以形成新矩阵m的列，该新矩阵m的尺寸为δ²。

该矩阵通常是矩形的。形成正方形协方差矩阵m^Tm，并且主成分分析计算m^Tm的特征向量和特征值，所述特征向量和特征值以排序顺序返回。每个特征向量具有长度δ²，并且存在δ²个特征向量和δ²个特征值。

这些特征向量是描述图像的局部结构的局部空间导数运算符(derivativeoperator)的完整集合。特征向量是局部差分几何基础，即，高阶的空间导数。该层中的PCA表示是等效于具有非常高阶导数的局部泰勒展开(Taylor expansion)的。因为我们具有离散的数据，所以这些是高斯导数。这些特征向量被划分为δ×δ个核或滤波器，在图像与这些核进行卷积之后，给出每像素的丰富的一组特征。这些核检测边缘、角、线和其他基元。它们是δ×δ面片。

对应于该组特征值的特征值描述了该基础中的多少存在于所观察到的数据中，并且特征值被按排序顺序返回。

它们形成频谱，并且可以使用碎石图可视化。如果在预处理步骤中未由中心环绕(center-surround)滤波器减去平均值，则第一DC特征值(和特征向量)被丢弃。通常，特征值的大小的排序集快速下降，所以仅第一小子集足以描述大部分的数据。因此，在步骤204中，通过选择与最大特征值相关联的特征向量来减小特征向量(和特征值)的集合202，从而得到与卷积神经网络的第一层相关联的卷积滤波器/核的集合206。

在优选的实现方式中，最高特征值(累积地描述95％的数据，或更优选地99％的数据)被识别(通常为15个或更少)，并且其他特征值被丢弃。当特征值被取幂并取阈值时，会发现更清晰且定义得更好的阈值。该“特征值池化”产生比在CNN中使用的常规最大池化更自然的数据缩减。

在步骤208的第一次迭代中，滤波器206与训练图像100进行卷积，将训练图像中的每个像素转换成列向量，所述列向量描述该像素的局部几何上下文。这些向量形成特征字段，滤波后的张量图像。由此，生成了稍大区域(例如20×20像素)的具有步长S_a的面片，其中通常S_a在3像素和面片边长之间。面片尺寸随步骤208的每次迭代而增加，在最后一个隐藏层中生长到整个图像尺寸。

接下来，通过计算面片的所有像素的外积来构造亲和度矩阵210。正方形亲和度矩阵被表达为特征的向量之间的相关性(点积)，并且表示“每像素的特征堆栈”对的彼此之间的相似程度。亲和度由大列特征的向量的成对相关性(点积，非常高效)和共圆度(“次黎曼距离(sub-Riemannian distance)”)的测量组成。

在步骤212中，对亲和度矩阵210的PCA产生一组特征向量和特征值214。类似于步骤204，在步骤216中，选择具有最高特征值的特征向量的子集，使得它们再次描述95％的数据，或更优选地99％的数据。所选择的特征向量的数量通常小于15-20。这些特征向量被划分成正方形面片，所述正方形面片形成输出卷积滤波器218。这些核被可视化为正方形滤波器，并且通常示出紧接在后的上下文感知组、部位(对于脸部：嘴部、鼻部、眼部的元素)。对该亲和度矩阵的PCA自动习得特征(用于连续亲和度测量中)，或直接习得图像像素间的亲和度，从而避免了特征提取步骤的必要性。

滤波器218用作对步骤208的下一次迭代的输入，其中再次使用这些较大的核进行训练图像的卷积，在212执行PCA，并且在步骤216再次进行池化。对CNN的多个隐藏层重复这些步骤。亲和度矩阵的以像素为单位的尺寸(例如，30×30像素)保持恒定(并且因此每层的计算负担保持恒定)，但是亲和度面片采用越来越大面积像素(“粗略像素(coarserpixels)”)，直到达到完整图像尺寸(“外部规模(outer scale)”)或所分类的最大结构的尺寸。因为规模是指数的，所以尺寸的增长是指数的(例如，以2的平方根的步长)。在实践中，亲和度矩阵是稀疏的，并且仅对角线周围的区域需要被考虑到计算中。这解释了我们为什么使用多个层。可以使用有限的基函数来非常精确地表示稍微递增的上下文区域。

在步骤208、212、216的多次迭代之后，习得了对高级结构的PCA级数展开。每个层是主动形状模型(ASM)和主动外观模型(AAM)的组合，这是自然且非常紧凑的表示。

如图1中所示的，一旦完成该CNN的隐藏层的无监督训练102，就针对最后层进行使用误差反向传播的监督训练106，这在学习期间提供了很大的加速。

本发明的方法优选地使用通常用于实现CNN的适当硬件来实现。例如，可以使用实现为具有数千个小CPU核心的集成电路的最先进的图形处理单元(GPU)来实现，所述小CPU核心针对像卷积之类的小任务是并行优化的。还可以使用在深度学习应用中常见的GPU服务器。

本发明的方法可以用于涉及对象识别的应用中。例如，在面部识别或面部表情识别中，在使用标记有适当标签的面部的训练图像对CNN进行训练之后，由经训练的CNN分析图像以产生一组值，该组值中的每个值表示与标签中的一个标签相关联的概率。该方法还具有在解剖学和病理学识别中的应用，其中使用一组诊断图像和相关联的标签对CNN进行训练。在自动或辅助车辆控制和导航中，可以使用针对障碍物和道路标志识别的图像对CNN进行训练。在农业应用中，可以将CNN训练用于为收割机器人识别植物、花卉和果实的类型、尺寸和状态。其他应用包括手写字符识别、指纹识别和其他生物特征的识别。

Claims

1.一种使用卷积神经网络(CNN)的对象识别的方法，所述方法包括：

a)使用一组训练图像对CNN进行训练以产生经训练的CNN；以及

b)使用所述经训练的CNN来分类对象的图像；

其中对所述CNN进行训练包括：

对于所述CNN的多个层中的每一层，从所选择的特征向量的子集生成与所述层相关联的一组卷积滤波器，所述特征向量的子集从对亲和度矩阵的面片的线性主成分分析中产生，所述亲和度矩阵使用来自所述CNN的先前层的一组先前的卷积滤波器进行构造，其中所述亲和度矩阵表示与所述先前层相关联的特征的向量的相关性；

使用所述训练图像和与所述训练图像相关联的标签通过误差反向传播对正则分类器进行训练。

2.根据权利要求1所述的方法，其中所述所选择的特征向量的子集对应于大于阈值的特征值，所述阈值足以使所述特征值共同地描述至少95％的所述面片。

3.根据权利要求1所述的方法，其中对所述CNN进行训练进一步包括：

对于所述CNN的第一层，从所选择的第一层特征向量生成与所述第一层相关联的一组第一卷积滤波器，所述第一层特征向量从对所述训练图像的面片的线性主成分分析中产生。

4.根据权利要求1所述的方法，其中对所述CNN进行训练包括：

i)执行对所述训练图像的图像面片的线性主成分分析以产生第一层特征向量和第一层特征值；

ii)选择最大的第一层特征值的子集和对应的第一层特征向量；

iii)从所选择的第一层特征向量产生与所述卷积神经网络的第一层相关联的一组第一卷积滤波器；

iv)使用在所述卷积神经网络的所述先前层中产生的所述先前的卷积滤波器来产生所述特征的向量；

v)通过计算所述特征的向量之间的相关性(点积)并使用黎曼距离对共圆度进行增强，来构造所述亲和度矩阵；

vi)执行对所述亲和度矩阵的面片的线性主成分分析以产生特征向量和相关联的特征值；

vii)通过特征值取幂和取阈值来选择所述特征向量的子集和对应的特征值；

viii)从所述所选择的特征向量的子集产生与所述卷积神经网络的所述层相关联的所述一组卷积滤波器；

ix)针对所述卷积神经网络的多个层重复步骤iv)、v)、vi)、vii)、viii)。所述亲和度矩阵面片保持相同数量的像素，但是每层的采样像素面积呈指数增长。

5.一种图形处理单元，所述图形处理单元被编程用于使用利用一组训练图像进行训练的卷积神经网络(CNN)来实现对象的图像分类；其中所述CNN通过以下方式进行训练：对于所述CNN的多个层中的每个层，从所选择的特征向量的子集生成与所述层相关联的一组卷积滤波器，所述特征向量的子集从对亲和度矩阵的面片的线性主成分分析中产生，所述亲和度矩阵使用来自所述CNN的先前层的一组先前的卷积滤波器进行构造，其中所述亲和度矩阵表示与所述先前层相关联的特征的向量的相关性；以及使用所述训练图像和与所述训练图像相关联的标签通过误差反向传播对正则分类器进行训练。