CN108154194A

CN108154194A - 一种用基于张量的卷积网络提取高维特征的方法

Info

Publication number: CN108154194A
Application number: CN201810049756.3A
Authority: CN
Inventors: 施云惠; 崔应炫; 丁文鹏; 尹宝才
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2018-01-18
Filing date: 2018-01-18
Publication date: 2018-06-12
Anticipated expiration: 2038-01-18
Also published as: CN108154194B

Abstract

本发明涉及一种用基于张量的卷积网络提取高维特征的方法，可应用于多维信号的分类识别场景中。模型核心部分是分离－融合模块，而分离－融合模块则由可分离卷积组件和特征融合组件构成，其中，可分离卷积组件主要由多个可分离卷积层组成，特征融合组件主要由一个多维卷积核组成。那么，整个基于张量的N维卷积模型由多个N维分离－融合模块、池化层和全连接层组成，最后一个最大池化层输出的一组N阶张量通过向量化的操作转成一个向量输入到全连接层中，最终输出一个识别分类的概率向量。本发明所提的网络模型不仅和现有的优秀模型在识别精度上性能相当，并且模型的参数量比它们少很多。

Description

一种用基于张量的卷积网络提取高维特征的方法

技术领域

本发明涉及一种用基于张量的卷积网络提取高维特征的方法，尤其涉及一种基于维度可分离和特征融合的卷积方法，可应用于多维信号的分类识别场景中。

背景技术

深度学习作为机器学习的一个分支，近些年来发展非常迅猛，尤其是在2012年，Krizhevsky等人提出的AlexNet在大型图像数据库ImageNet的图像分类竞赛中以准确度超越第二名11％的巨大优势夺得了冠军，使得卷积神经网络重新成为了学术界的焦点，在此之后，不断有新的卷积神经网络模型被提出，比如Google的GoogLeNet、牛津大学的VGG(Visual Geometry Group)、微软亚洲研究院的ResNet等，这些网络刷新了AlexNet在ImageNet上创造的纪录。并且，卷积神经网络不断与一些传统算法相融合，加上迁移学习方法的引入，使得卷积神经网络的应用领域获得了快速的扩展。从最初较为简单的手写字符识别应用，逐渐扩展到一些更加复杂的领域，如：行人检测、行为识别、人体姿势识别等。这些新的卷积神经网络模型的层数在逐渐加深，网络模型对输入图像的high level特征提取的能力也不断提升，然而这带来了模型参数冗余繁多的问题，这又直接导致了空间复杂度过高、实时性不好的问题，有些学者针对这方面的问题做了一些有意义的研究工作，LeCun等人在2014年NIPS会议上发表了一篇文章，该文章对卷积神经网络的参数冗余性进行研究，提出了卷积神经网络存在一定的线性结构的观点，他们在训练出网络模型之后，又用奇异值分解、低秩逼近等方法通过将卷积核分解后重新训练，在损失少量精度的条件下，大为减少了模型网络的权值参数个数，从而较好地缩短了模型做预测时的实时响应时间，减少了网络模型的空间复杂度，使得将卷积神经网络模型应用于手机、网络等场合成为可能。之后，有学者用张量分解的方法，包括张量的CP分解、Tucker分解，对卷积核进行分解后重新训练，在减少网络模型的时间和空间复杂度方面也取得了较好的效果。

然而，以上的这些网络压缩模型都是服从模型监督的思路，也就是先训练出一个参数冗余的模型，在此基础上再用降维、分解等方法去减少模型参数，实际上就是用一个轻量级的模型去逼近一个冗余的模型，让后者来监督约束前者，需要训练两次，这样的方法应用在二维图像上是没有什么问题的。但随着视频编码、虚拟现实等技术的发展，对于三维、甚至更高维度的图像数据的使用，逐渐流行起来，而这些方法是不能直接应用在高维度的图像数据场景的，因为在高维图像数据上直接训练一个高维卷积神经网络会遇到以下几个问题，(1)要训练的参数量是相当庞大；(2)计算复杂度也非常高；(3)高维样本比较稀缺。这几个问题都加大了训练高维卷积神经网络的难度。因此，需要绕过模型监督的这种思路，从而设计一种针对高维数据，参数量少、计算复杂度低、并且只需训练一次就能得到最终模型的高维卷积网络结构，才是解决高维图像场景上的有效方法。

实际上，多维信号的每个维度对应的物理属性和维度方向分布特性不尽相同，数据内部存在复杂的相关性。而张量是表示高维多维数据的有效工具，理论上，将多维信号组织成张量形式，研究张量空间的建模，才可能揭示多维信号的每个维度对应的物理属性和维度方向分布特性及各个维度间复杂的相关性。本发明采用不同维度的分治和融合策略，提出一种基于张量的卷积神经网络模型，通过该神经网络模型，张量数据不同维度的非线性关系被充分挖掘出来，从而多维信号高维特征也能很好的被提取出来。

发明内容

本发明提出一种通用的利用基于张量的多维卷积轻量化网络提取高维图像数据特征的方案，多维信号的分类识别都可适用于本方案。

本发明提出的基于张量的多维卷积模型核心部分是分离－融合模块(SFModule)，而分离－融合模块则由可分离卷积组件(separablecomponent)和特征融合组件(fusedcomponent)构成，其中，可分离卷积组件主要由多个可分离卷积层组成，如图1所示，特征融合组件主要由一个多维卷积核组成，如图2所示。那么，整个基于张量的N维卷积模型由多个N维分离－融合模块、池化层和全连接层组成，如图4所示，能够处理N维信号。首先卷积层参数均采用Xavier方法来初始化，当输入N维信号时，在经过每个分离－融合模块时，N维信号先按张量展开操作(按mode展开)展开成N组二维矩阵，每组二维矩阵输入到一个可分离卷积层中，各自执行一系列的一维卷积操作，将所得到的每组二维特征矩阵通过张量折叠操作(unfolding)折叠成一组N阶特征张量，那么每个可分离卷积层输出一组N阶特征张量，每个分离模块就输出N组N阶特征张量，这些N阶张量按照通道数级联起来，输入到融合模块中，经过一个N维的且每个维度的大小为1的卷积核做卷积运算，最终这个分离－融合模块输出一组N阶张量，接着将它们输入到每个维度感受野为2的N维最大池化层中进行下采样，输出一组每个维度大小减半的一组N阶张量，接着这组N阶张量作为新的N维信号输入到下一个分离－融合模块和最大池化层中，经过若干个这样的操作(操作次数与网络模型中所设置的分离－融合模块的个数相同，一般我们设置3到5个分离－融合模块)之后，最后一个最大池化层输出的一组N阶张量通过向量化的操作转成一个向量输入到全连接层中，最终输出一个识别分类的概率向量。

对于不同维度的信号的处理，要相应的选用不同维度的模型，比如，对于四维的光场数据，要用基于张量的四维卷积模型。一般的，整个基于张量的多维卷积模型的参数都通过Xavier方法来初始化，利用批量梯度下降的方法来训练模型参数，当一个N维模型训练结束后，就可以对相应的N维信号进行识别分类。由于分离－融合模块用一系列的一维卷积操作来模拟N维卷积操作，因此，基于张量的多维卷积网络是一种具备处理任何维度的数据的、轻量级的网络。

下面以三维视频信号为例，这里要选用基于张量的三维卷积模型，设定模型有3个分离－融合模块和3个最大池化层以及一个全连接层，所输入的三维视频信号依次经过分离－融合模块1、最大池化层1、分离－融合模块2、最大池化层2、分离－融合模块3、最大池化层3，、全连接层，三维视频信号每经过一个分离－融合模块就得到一组分辨率减半的三维视频信号，这样，最大池化层3就输出一组分辨率为输入信号的1/8的三维视频信号，这些信号经过向量化之后，输入到全连接层，最终模型输出该三维视频信号的识别分类概率向量。

为了验证所提方案的有效性，将所发明的模型和现有的优秀分类识别模型分别在二维图像信号数据库和三维视频信号数据库上做了比较，其中在二维上采用的是Cifar10和Mnist这两个数据集，在三维上采用的KTH数据集。在这两个二维图像数据集上，本发明所提的网络模型不仅和现有的优秀模型在识别精度上性能相当，并且模型的参数量比它们少很多。在三维图像数据集上，本发明所提的模型也达到了出色的识别精度，相比于其他传统的三维卷积模型，本模型更加轻量化。

附图说明

图1可分离卷积层

图2融合组件

图3分离－融合模块

图4基于张量的多维卷积网络

图5：分离－融合模块(SFModule)算法流程图

具体实施方式

1输入的多维信号(N阶张量)，依次经过若干个分离－融合模块以及与之对应的池化层，一般地，我们设置三个分离－融合模块，在每个分离－融合模块后面设置一个最大池化层；

2在每个分离－融合模块中，输入的张量数据先按张量展开的操作展开成N个矩阵，每个矩阵被可分离卷积组件提取特征形成N组特征矩阵，对这些矩阵分别通过张量折叠操作可以得到N个N阶张量，接着N阶张量被输入到特征融合模块中，通过融合映射进行特征融合，最后输出一个N阶张量；

3分离－融合模块输出的特征通过最大池化层进行下采样；

4输入数据在经过所有的分离－融合模块和池化层之后，进入全连接层，最后输出识别分类的概率向量。

为了验证所提方案的有效性，将所发明的模型和现有的优秀分类识别模型分别在二维图像信号数据库和三维视频信号数据库上做了比较，其中在二维上采用的是Cifar10和Mnist这两个数据集，在三维上采用的KTH数据集。

表1：Cifar10上比较的结果

表2：Mnist上比较的结果

在这两个二维图像数据集上，本发明所提的网络模型不仅和现有的优秀模型在识别精度上性能相当，并且模型的参数量比它们少很多。

表3：KTH上比较的结果

在三维图像数据集上，本发明所提的模型也达到了出色的识别精度，相比于其他传统的三维卷积模型，本模型更加轻量化。

Claims

1.一种用基于张量的卷积网络提取高维特征的方法，其特征在于：

建立基于张量的卷积网络：卷积网络核心部分是分离－融合模块，而分离－融合模块则由可分离卷积组件和特征融合组件构成，其中，可分离卷积组件包括多个可分离卷积层组成，特征融合组件包括一个多维卷积核；整个基于张量的N维卷积模型由多个N维分离－融合模块、池化层和全连接层组成；

首先卷积层参数初始化，当输入N维信号时，在经过每个分离－融合模块时，N维信号先按张量展开操作展开成N组二维矩阵，每组二维矩阵输入到一个可分离卷积层中，各自执行一系列的一维卷积操作，将所得到的每组二维特征矩阵通过张量折叠操作折叠成一组N阶特征张量，那么每个可分离卷积层输出一组N阶特征张量，每个分离模块就输出N组N阶特征张量，这些N阶张量按照通道数级联起来，输入到融合模块中，经过一个N维的且每个维度的大小为1的卷积核做卷积运算，最终这个分离－融合模块输出一组N阶张量，接着将它们输入到每个维度感受野为2的N维最大池化层中进行下采样，输出一组每个维度大小减半的N阶张量，接着这组N阶张量作为新的N维信号输入到下一个分离－融合模块和最大池化层中，经过若干个这样的操作之后，操作次数与网络模型中所设置的分离－融合模块的个数相同；最后一个最大池化层输出的一组N阶张量通过向量化的操作转成一个向量输入到全连接层中，最终输出一个识别分类的概率向量。

2.根据权利要求1所述的方法，其特征在于：整个基于张量的多维卷积模型的参数都通过Xavier方法来初始化。

3.根据权利要求1所述的方法，其特征在于：利用批量梯度下降的方法来训练模型参数。

4.根据权利要求1所述的方法，其特征在于：当处理三维视频信号时，这里要选用基于张量的三维卷积模型，设定模型有3个分离－融合模块和3个最大池化层以及一个全连接层，所输入的三维视频信号依次经过分离－融合模块1、最大池化层1、分离－融合模块2、最大池化层2、分离－融合模块3、最大池化层3，、全连接层，三维视频信号每经过一个分离－融合模块就得到一组分辨率减半的三维视频信号，这样，最大池化层3就输出一组分辨率为输入信号的1/8的三维视频信号，这些信号经过向量化之后，输入到全连接层，最终模型输出该三维视频信号的识别分类概率向量。