CN108182441A

CN108182441A - 平行多通道卷积神经网络、构建方法及图像特征提取方法

Info

Publication number: CN108182441A
Application number: CN201711472297.1A
Authority: CN
Inventors: 喻莉; 谢存煌
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2017-12-29
Filing date: 2017-12-29
Publication date: 2018-06-19
Anticipated expiration: 2037-12-29
Also published as: CN108182441B

Abstract

本发明公开了一种平行多通道卷积神经网络、构建方法及图像特征提取方法，涉及机器学习技术领域。由于Kinect等深度传感器的广泛使用，多模态图像的获取将会更加便利。因此，基于多模态图像信息的特征提取研究具有十分重要的意义。本发明首先针对多模态图像的各个通道建立子模态卷积神经网络模型，提取各个模态深度特征向量。为了获得具有统一性质的多模态图像特征，各模态子网络在特定的全连接层建立权重连接。在多层子网络的全连接部分，多模态深度特征向量根据权重配比融合成包含各模态信息的融合特征向量，再经多层网络的训练得到维度更低、表现力更好的特征表示。根据本发明得到的特征表示可以用于识别、分类等相关领域。

Description

平行多通道卷积神经网络、构建方法及图像特征提取方法

技术领域

本发明属于机器学习领域，更具体地，涉及一种平行多通道卷积神经网络及其构建方法以及基于平行多通道卷积神经网络的多模态图像特征提取方法。

背景技术

计算机视觉和图像处理领域中，我们通过测量可以得到识别或分类对象的原始表征信息。这种原始表征信息可以通过直接测量得到，所以被称为原始特征，如数字图像中每点的灰度值。原始特征易于被人的直觉所感知，但不常用于模式识别中。其原因主要包括三点：一是原始特征不能反映对象的本质特征；二是原始特征有时难以定量描述，不利于机器判别；三是高维的原始特征有大量的冗余信息，且对于有限的训练样本而言，高维特征在原始特征空间中分布十分稀疏。这三个原因导致基于原始特征设计的分类器计算量庞大且精度过低。针对原始特征的特性与不足，我们通常需要对测量得到的原始特征进行分析、选择和变换处理，组成更有效的特征表示。针对原始数据集进行特征提取的方案设计成为计算机视觉领域中十分重要的问题。

在早期的识别、分类等领域的计算机视觉方案中，特征提取主要基于彩色图像进行。彩色图像通过单摄像机采集得到，通过一系列的图像处理技术得到最终的特征表示。但是基于RGB彩色图像提取的特征表示在真实应用中，普遍受到环境光照、背景复杂度等因素的制约，使得设计相关分类器的难度提高，精度也无法得到保证。近年来，随着Kinect等深度摄像机的出现，为上述问题提供了新的解决思路。Kinect传感器能够在获取纹理信息的同时捕捉得到场景的深度信息，即可获取三维空间信息。获取得到的场景深度信息以深度图像的形式给出。结合深度信息的特征提取方案可以显著降低光照和复杂背景的影响，极大提高了在检索、识别和分类等复杂任务中的鲁棒性和准确性。因此，利用RGB-D等多模态图像信息的特征提取方案已成为一个新的研究方向。

利用多模态信息的关键在于如何将各形态信息有效的结合在一起，从而形成一个统一的特征表达形式。目前，对于多模态信息的利用主要是通过对各个图像形态提取传统的手工特征，如尺度不变特征变换(Scale-invariant feature transform，SIFT)、方向梯度直方图(Histogram of Oriented Gradient，HOG)等。最后，将这些经过单独提取的多模态特征作为分类器的训练输入。这种方案在多模态的处理上较为简单，对于多模态图像特征的提取过程相对独立，无法获得真正有效的融合特征表示。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种RGB-D多模态图像特征提取方法及系统，由此解决目前对于多模态信息的利用主要是通过对各个图像形态提取传统的手工特征而存在的无法获得真正有效的融合特征表示的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种平行多通道卷积神经网络的构建方法，包括：

对于预设多模态数据库中的各模态图像，构建与各模态图像对应的子模态卷积神经网络模型，并通过各子模态卷积神经网络模型提取各模态图像对应的深度特征向量；

在每个子模态卷积神经网络模型的目标全连接层，将各子模态卷积神经网络模型所提取的深度特征向量进行连接并分配连接权重系数得到包含各模态图像信息的融合特征向量，以构建初始平行多通道卷积神经网络模型；

将训练数据集送入所述初始平行多通道卷积神经网络模型中，对所述初始平行多通道卷积神经网络模型中的训练参数进行初次优化训练；

将验证数据集送入初次优化训练后的平行多通道卷积神经网络模型中进行效果评估，并进行最终优化得到目标平行多通道卷积神经网络模型，其中，所述预设多模态数据库中包括所述训练数据集与所述验证数据集。

优选地，在所述将训练数据集送入所述初始平行多通道卷积神经网络模型中，对所述初始平行多通道卷积神经网络模型中的训练参数进行初次优化训练之前，所述方法还包括：

将所述预设多模态数据库中的若干个训练数据送入到栈式自编码网络中，预训练得到所述初始平行多通道卷积神经网络模型的全连接层的每一层网络参数的初始值。

优选地，所述预训练得到所述初始平行多通道卷积神经网络模型的全连接层的每一层网络参数的初始值，包括：

第i个稀疏自编码器的输入层参数为第i-1个稀疏自编码器的隐含层特征向量，训练得到所述第i个稀疏自编码器的隐含层特征向量，并确定所述第i个稀疏自编码器的隐含层参数，其中，稀疏自编码器的个数与所述初始平行多通道卷积神经网络模型的全连接层包含的隐含层的个数有关，且第一个稀疏自编码器的输入层参数为各模态图像的特征向量；

将各稀疏自编码器的隐含层参数作为所述初始平行多通道卷积神经网络模型的全连接层的每一层网络参数的初始值。

优选地，对所述目标平行多通道卷积神经网络模型的训练过程包括前向传播和反向误差传播，其中，在所述反向误差传播过程中的，由确定所述目标平行多通道卷积神经网络模型中第l层的特征图，其中，z^l表示激活函数f在第l层的输入值，w^l表示第l层的核参数矩阵，b^l表示第l层的偏置项，下标j表示第j个子模态卷积神经网络模型，n表示子模态卷积神经网络模型的个数，上标l表示各子模态卷积神经网络模型连接的全连接层部分，上标l-1表示子模态卷积神经网络模型的最后一层，P_j表示第j个子模态卷积神经网络模型的连接权重系数矩阵。

优选地，P_j＝(I_jO)，其中，|j|表示第j个子模态卷积神经网络模型在目标连接层中输入向量的维度，I_|j|表示|j|维单位矩阵。

优选地，由得到所有子模态卷积神经网络模型在目标连接层部分的反向误差，其中，表示第l层的传播误差δ^l中属于第j个子模态卷积神经网络模型中的部分。

按照本发明的另一方面，提供了一种基于上述任意一项所述的平行多通道卷积神经网络的构建方法构建的平行多通道卷积神经网络。

按照本发明的另一方面，提供了一种基于上述平行多通道卷积神经网络的多模态图像特征提取方法，包括：

将待提取多模态图像送入所述平行多通道卷积神经网络模型，提取所述平行多通道卷积神经网络模型的目标层的多模态图像特征。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

(1)针对各个模态图像集建立多个子模态卷积神经网络模型，对于各个子网络的池化层输出特征，在特定的全连接部分分配不同的权重，实现对各个多通道子网络的平行连接和权重分配，在网络训练之前，通过稀疏自编码网络对模型中各个层参数进行预训练，从而降低最后网络训练的难度，提升最后特征提取的效果。

(2)本发明通过对平行多通道卷积神经网络的构建和中间层权重配比方式实现对多模态图像信息的融合和深度利用，有效提升最后多模态特征表示的效果。

附图说明

图1为本发明的一种平行多通道卷积神经网络的构建方法的流程示意图；

图2为本发明中全连接层部分预训练模型图；

图3为本发明提出的基于平行多通道卷积神经网络的RGB-D多模态图像特征提取模型；

图4为本发明中RGB-D多模态图像示意图，其中，图4(a)为原始的RGB-D图像对，图4(b)为经过处理后的三通道多模态深度图；

图5为现有RGB-D多模态图像提取方式示意图，其中，图5(a)为基于RGB彩色图的卷积神经网络模型，图5(b)为基于深度图的卷积神经网络模型，图5(c)为RGB-D多模态图像的的概率融合模型。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

目前，利用多模态信息的关键在于如何将各形态信息有效的结合在一起，从而形成一个统一的特征表达形式。在早期研究中，对于多模态信息的利用主要是通过对各个图像形态提取传统的手工特征，如SIFT、HOG等。最后，将这些经过单独提取的多模态特征作为分类器的训练输入。这种方案在多模态的处理上较为简单，对于多模态图像特征的提取过程相对独立，无法获得真正有效的融合特征表示。为获得最本质的特征表示方式，将深度学习、机器学习等领域技术作为主要的切入点。深度学习作为现今机器学习技术发展的主流形式，在计算机视觉领域的各种复杂任务中都取得了惊人的突破。卷积神经网络模型等深度学习技术通过多层网络的构建和训练实现了对图像中本质特征的提取和描述。将这种深度学习技术用于多模态图像特征的提取有助于我们提取具有更高区分度、更低维度、更少冗余信息的特征表示。

在利用卷积神经网络的过程中，建议在浅层部分对RGB-D等多模态特征进行子网络的特征提取。这样可以优先获得更高效的特征表示来作为后面特征融合的基础。为了得到多模态融合特征，同时去除冗余信息，各个多模态子网络在特定层实现网络的平行连接，并赋予不同权重。各个多模态子网络权重系数完全由网络训练得到，从而得到最优的权重分配方式。通过对网络输出层的特征提取，可以得到最优的多模态融合特征表示，进而用于检索、识别、分类等复杂任务。

因此，本发明提出了一种平行多通道卷积神经网络、构建方法及图像特征提取方法，首先针对各个形态图像集建立多个子模态卷积神经网络模型。对于各个子网络的池化层输出特征，在特定的全连接部分分配不同的权重，实现对各个多通道子网络的平行连接和权重分配。在网络训练之前，我们通过稀疏自编码网络对模型中各个层参数进行预训练，从而降低最后网络训练的难度，提升最后特征提取的效果。本发明通过对平行多通道卷积神经网络的构建和中间层权重配比方式实现对多模态图像信息的融合和深度利用，有效提升最后多模态特征表示的效果。

如图1所示为本发明提供的一种平行多通道卷积神经网络的构建方法的流程示意图，在图1所示的方法中包括以下步骤：

S1：对于预设多模态数据库中的各模态图像，构建与各模态图像对应的子模态卷积神经网络模型，并通过各子模态卷积神经网络模型提取各模态图像对应的深度特征向量；

S2：在每个子模态卷积神经网络模型的目标全连接层，将各子模态卷积神经网络模型所提取的深度特征向量进行连接并分配连接权重系数得到包含各模态图像信息的融合特征向量，以构建初始平行多通道卷积神经网络模型；

S3：将训练数据集送入初始平行多通道卷积神经网络模型中，对初始平行多通道卷积神经网络模型中的训练参数进行初次优化训练；

S4：将验证数据集送入初次优化训练后的平行多通道卷积神经网络模型中进行效果评估，并进行最终优化得到目标平行多通道卷积神经网络模型，其中，预设多模态数据库中包括训练数据集与验证数据集。

在一个可选的实施方式中，在步骤S3之前，该方法还包括：

将预设多模态数据库中的若干个训练数据送入到栈式自编码网络中，预训练得到初始平行多通道卷积神经网络模型的全连接层的每一层网络参数的初始值。

在一个可选的实施方式中，预训练得到所述初始平行多通道卷积神经网络模型的全连接层的每一层网络参数的初始值，包括：

将各稀疏自编码器的隐含层参数作为初始平行多通道卷积神经网络模型的全连接层的每一层网络参数的初始值。

在一个可选的实施方式中，对目标平行多通道卷积神经网络模型的训练过程包括前向传播和反向误差传播，其中，在网络前向传播过程中，流程与传统卷积神经网络近似，在反向误差传播过程中的，由确定所述目标平行多通道卷积神经网络模型中第l层的特征图，其中，z^l表示激活函数f在第l层的输入值，w^l表示第l层的核参数矩阵，b^l表示第l层的偏置项，下标j表示第j个子模态卷积神经网络模型，n表示子模态卷积神经网络模型的个数，上标l表示各子模态卷积神经网络模型连接的全连接层部分，上标l-1表示子模态卷积神经网络模型的最后一层，P_j表示第j个子模态卷积神经网络模型的连接权重系数矩阵。

其中，P_j＝(I_|j| O)，其中，|j|表示第j个子模态卷积神经网络模型在目标连接层中输入向量的维度，I_|j|表示|j|维单位矩阵。

其中，由得到所有子模态卷积神经网络模型在目标连接层部分的反向误差，其中，表示第l层的传播误差δ^l中属于第j个子模态卷积神经网络模型中的部分。

其中，目标平行多通道卷积神经网络模型总共包含5层多通道子网络，即一个输入层，2层卷积层，2层池化层。权重特征训练网络包含3层网络，即一个权重分配层，一层隐含层，一层特征输出层。其中神经元激活函数数计算公式为：输出层神经元激活函数使用线性函数，线性函数计算公式为：f(x)＝k·x+b。

以下以RGB-D多模态图像为例对本发明进行详细说明。

首先对于RGB-D多模态数据库中的各个模态图像构建浅层卷积神经网络，得到多个子模态卷积神经网络模型。在特定的全连接层部分，各个子网络所提取得到的深度特征向量被赋予相应的权重系数。权重系数在之后的模型训练中得到优化，权重大小表征了各个模态图像信息在最终特征表示中的重要程度和贡献比例。

全连接部分的参数首先通过栈式自编码器进行初始预估，从而加快最后全模型训练的速度与精度。

以全连接层为两层时的模型预训练过程为例，当全连接部分包含两层隐含层时，预训练模型需要两个稀疏自编码器。全连接网络预训练模型构建如图2所示，图2所示为两层全连接层(隐含层)参数预训练模型，步骤如下：

步骤一：稀疏自编码器1输入层为多模态特征向量x_i，自编码器1包含单层隐含层，训练得到隐含层特征向量该隐含层参数为w⁽¹⁾；

步骤二：将自编码器1中得到的特征向量作为稀疏自编码器2的特征输入，训练得到隐含层特征向量该隐含层参数为w⁽²⁾；

步骤三：将两层隐含层参数w⁽¹⁾，w⁽²⁾作为全连接层部分的初始参数，最后通过多通道平行卷积神经网络的全模型训练得到最终的优化参数。

全连接层部分训练结束后，可以构建基于平行多通道卷积神经网络的RGB-D多模态图像特征提取模型，如图3所示。

如图3所示，本发明提出的基于平行多通道卷积神经网络的RGB-D多模态图像特征提取模型应用在RGB-D图像数据集时包含两个多模态子网络，分别对应于RGB彩色图像通道和深度图像通道。为了得到更具有统一性质的多模态深度特征表示，两个子网络在指定的全连接层通过权重配比连接。因此，在网络前向传播过程中，流程与传统卷积神经网络近似。但是在网络误差反向传播过程中，要特别考虑两个子网络连接的部分。而这一部分的误差反向传播公式如下：

其中a^l表示第l层的特征图，z^l表示激活函数f在第l层的输入值。w^l,b^l分别表示第l层的核参数矩阵和偏置项。公式中变量下标表示的是不同的子网络通道，如表示RGB子网络第l层的特征图像。特别说明的是，在公式1中上标l表示两个子网络连接的全连接层部分，因此上标l-1表示的是两个子网络的最后一层。

根据公式(1)，第l层的网络输入和的权重由权重矩阵P₁和P₂决定。权重矩阵通过定义的权重配比方式得到，可通过后期训练优化。两个权重矩阵描述如下：

其中|rgb|和|dep|分别表示两个子网络在连接层中输入向量的维度。I_m是一个m维单位矩阵。因此：

由公式(1)和(2)可得，两个子网络连接层部分的反向误差可以表示为：

其中表示第l层的传播误差δ^l中属于RGB子网络中的部分。根据反向传播算法可知，反向误差δ^l计算公式如下：

其中δ^L表示整个深度网络最后一层的反向传播误差，h_w,b表示网络的预测输出，C表示网络代价函数，f表示神经元激活函数，z^L表示网络最后一层的输入，w^l+1表示第l+1层网络的待训练参数。基于公式(4)和(5)，可以得到子网络连接层的反向传播误差和然后可以通过随机梯度下降和反向传播算法进行整个深度模型的训练和优化，得到最后RGB-D多模态图像的深度特征。

基于平行多通道卷积神经网络的RGB-D多模态图像特征提取实验：

以American Sign Language(ASL)数据集作为多模态图像数据集。该数据库包含24个字母手势，每个操作者以及每个字母手势都包括RGB-D多模态图像序列。这些手势图片采用Kinect深度传感器针对不同的5个人进行采集，每个人采集24个字母的图像各约500张，所以彩色图和深度图总共包括24*5*500*2＝120000张。图4所示为RGB-D多模态图像示意图。

本实验基于本发明提出的平行多通道卷积神经网络的RGB-D多模态图像特征提取模型对提取图像多模态深度特征，并完成后续的识别任务。实验结果给出训练精度与预测精度，并与目前常用的图像特征和常见的卷积神经网络模型做比较。用于对比的卷积神经网络模型如图5所示，对比结果如下表1所示。

表1

从表1可以看出：本发明提出的基于平行多通道卷积神经网络的RGB-D多模态图像特征提取方案明显优于其他几种特征提取方式。这是因为本发明模型运用了卷积神经网络等深度学习技术，因而能够提取更深层次的多模态图像特征表示，从而结果会大大优于SIFT等手工特征的识别结果。

本发明提出的平行多通道卷积神经网络的RGB-D多模态图像特征提取方案通过在全连接层进行不同网络的结合，训练过程的前向传播和反向误差传播过程均需要RGB彩色图像和深度图像网络的参与。实验结果也表明本发明的多模态特征提取方案明显优于其他的特征提取方式，体现了本发明的优势：对RGB-D多模态图像信息的有效利用。

通过本发明首先针对目标数据集的多模态图像建立多个子模态卷积神经网络模型。为了深度融合多模态子网络提取的深度特征，该方案在指定的全连接层部分进行子网络权重分配。通过栈式自编码器网络预训练方式，对全连接层部分的参数进行初始分配，从而提高模型网络训练的效率和精度。基于权重分配的多模态图像信息利用方式，最终需要优化的网络参数包括网络卷积核、权重系数等。在整个网络组合训练之后，多模态子网络权重系数得到最优化结果。最后，提取平行多通道卷积神经网络模型的输出层特征作为最终的多模态特征表示，将之用于检索、识别和分类等复杂任务中。本发明为多模态图像的利用提供了一种新的途径，并结合卷积神经网络等技术提出了一种新的多模态图像信息利用方式和特征提取方法。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种平行多通道卷积神经网络的构建方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，在所述将训练数据集送入所述初始平行多通道卷积神经网络模型中，对所述初始平行多通道卷积神经网络模型中的训练参数进行初次优化训练之前，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述预训练得到所述初始平行多通道卷积神经网络模型的全连接层的每一层网络参数的初始值，包括：

4.根据权利要求1至3任意一项所述的方法，其特征在于，对所述目标平行多通道卷积神经网络模型的训练过程包括前向传播和反向误差传播，其中，在所述反向误差传播过程中的，由确定所述目标平行多通道卷积神经网络模型中第l层的特征图，其中，z^l表示激活函数f在第l层的输入值，w^l表示第l层的核参数矩阵，b^l表示第l层的偏置项，下标j表示第j个子模态卷积神经网络模型，n表示子模态卷积神经网络模型的个数，上标l表示各子模态卷积神经网络模型连接的全连接层部分，上标l-1表示子模态卷积神经网络模型的最后一层，P_j表示第j个子模态卷积神经网络模型的连接权重系数矩阵。

5.根据权利要求4所述的方法，其特征在于，P_j＝(I_|j| O)，其中，|j|表示第j个子模态卷积神经网络模型在目标连接层中输入向量的维度，I_|j|表示|j|维单位矩阵。

6.根据权利要求5所述的方法，其特征在于，由得到所有子模态卷积神经网络模型在目标连接层部分的反向误差，其中，表示第l层的传播误差δ^l中属于第j个子模态卷积神经网络模型中的部分。

7.一种基于权利要求1至6任意一项所述的平行多通道卷积神经网络的构建方法构建的平行多通道卷积神经网络。

8.一种基于权利要求7所述的平行多通道卷积神经网络的多模态图像特征提取方法，包括：