CN111340186A

CN111340186A - 基于张量分解的压缩表示学习方法

Info

Publication number: CN111340186A
Application number: CN202010095808.8A
Authority: CN
Inventors: 林宙辰; 耿正阳; 陈鸿旭; 陈鑫
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2020-02-17
Filing date: 2020-02-17
Publication date: 2020-06-26
Anticipated expiration: 2040-02-17
Also published as: CN111340186B

Abstract

本发明公开了一种基于张量分解的压缩表示学习方法，该方法首先将通过一个微型神经网络预处理学习到的表示转化为一个待分解的张量，基于优化算法进行张量分解，求解其子空间并进行低秩重建，最后经过另一个微型神经网络加工张量分解抽取的低秩表示，融合到主干网络学习的表示中，起到正则的作用；并结合截断的单步梯度优化方法，用于改进具有多步沿时间轴迭代模型的优化算法。本发明以一种计算友好和参数节约的方式，成功为大规模预训练和表示学习提供了正则与补充，本发明的有效性经过了大量计算机视觉的任务与应用的验证，在图像识别、语义分割、目标检测中都取得了显著效果；以更轻量级的计算和参数量，击败了计算机视觉常用的注意力机制。

Description

基于张量分解的压缩表示学习方法

技术领域

本发明属于表示学习和深度神经网络结构设计技术领域，尤其涉及一种基于张量分解的压缩表示学习方法。

背景技术

近年来，表示学习在机器学习领域取得了巨大的成功。表示学习从数据中提取分布式表示，并对表示施加正则以实现解纠缠。分布式表示可以通过多项式级别的复杂度表征指数规模的信息。而解纠缠的向量表示则能将变化的独立信息因素从数据中分离出来。表示学习是通用性的，被证明有利于不同的下游任务。

表示学习的概念是相当宽泛的。一般认为，基于多层神经网络的变换就是在提取表示。但是一个长期以来困扰人们的问题是：满足何种要求的表达可以说是好的表达？近年来有两种思路的研究分别试图对这个问题进行回答。

第一类借助特定的监督任务，半监督或弱监督途径，或者基于极大似然估计的语言模型，去噪自编码器，对比预测等方式，通过大规模数据集进行表示学习，并通过微调等方式将学习到的表示迁移到下游任务中。这类方法往往不对表示本身的特点施加先验，而通过恰当的表示学习任务来让数据决定表示。

第二类方法主要集中在学习解纠缠的表示。这类方法往往通过信息论工具假设表示的某种特征，最经典的是解纠缠，将表示学习与一个生成模型相结合，在隐空间里学习满足先验假设的表示。基于期望最大化算法与变分推断求解的概率图模型，注意力机制等都在这种研究思路中得到广泛应用。研究者往往希望借助生成模型、重构或时序预测的特点，进一步理解隐空间中学习的解纠缠的表示，并将其作为对深度神经网络缺少因果推理能力的补充。与第一类方法不同，这种方式学习的表示很少通过微调用于监督任务，主要强调无监督意义下学习到的表示的的可解释性以及在抽象推理任务中的应用，即解纠缠的特性。

然而，上述两种思路都有其局限性。第一种思路学习的表示缺乏先验约束，即使通过海量数据的预训练，对于特定的下游任务仍然表现出冗余或不足。第二种基于生成模型、重构、时序预测等方式，将先验约束编码到表示中的途径，受限于模型规模与训练方式，往往停留在小数据集的推理任务上，很难迁移到特定监督任务。

发明内容

本发明的目的在于针对现有技术的不足，提供一种基于张量分解的压缩表示学习方法。

本发明的目的是通过以下技术方案来实现的：一种基于张量分解的压缩表示学习方法，该方法由下层线性变换W_l、矩阵分解模型M、上层线性变换W_u依次连接构成，包括以下步骤：

(1)将矩阵化的表示Z经过下层线性变换W_l的处理得到变换后的表示X＝W_lZ；

(2)将变换后的表示X输入矩阵分解模型M，分解为字典矩阵D和重构系数矩阵C的乘积，表示为如下形式：

其中，

为重构的低秩矩阵，且满足如下条件：

其中，r表示秩的上界；

(3)重构的低秩矩阵

经过上层线性变换W_u处理变换回原始维度，得到输出H(Z)：

H(Z)＝W_uM(W_lZ)

(4)通过残差连接得到压缩表示Y：

Y＝ReLU(Z+BN(H(Z)))

其中，BN函数表示批归一化，ReLU为激活函数。

进一步地，该方法在矩阵分解模型M和上层线性变换W_u间加入拓展模块；所述拓展模块由新的线性变换W_c、批归一化、ReLU激活函数构成，具体为：

(2.1)执行步骤(1)～(3)，得到M(W_lZ)；

(2.2)步骤(2.1)得到的M(W_lZ)依次经过拓展模块和上层线性变换W_u处理变换回原始维度，得到输出H(Z)：

H(Z)＝W_u·BN(ReLU(W_c·M(W_lZ)))

(2.3)通过残差连接得到压缩表示Y：

Y＝ReLU(Z+H(Z))

进一步地，所述下层线性变换W_l、上层线性变换W_u由单步梯度优化算法学习得到；所述单步梯度优化算法为将随机梯度下降方法中随时间反向传播算法的输出y关于输入x的梯度截断成如下单步梯度形式：

其中，h^s表示第s个时间步的隐状态。

进一步地，所述矩阵分解模型采用改进的矢量量化模型、改进的概念分解模型或改进的非负矩阵分解模型。

进一步地，所述改进的矢量量化模型采用软k-均值聚类算法求解字典矩阵D和重构系数矩阵C，具体为：初始化D和C后重复执行K次如下公式：

其中，cosine函数用于求余弦相似度，softmax用于逐列计算归一化概率值，t是温度常数，diag函数用于构建对角矩阵；1_n是长度为n且元素均为1的向量。

进一步地，所述改进的概念分解模型为：

其中，β是C的正则项系数，范围在0.01～0.1；Q是软球形k-均值聚类算法的目标函数，定义如下：

s.t.||u_j||＝1

其中，v表示矩阵V的列向量，u_j表示矩阵U的第j列；π_j表示聚类形成的第j个簇；r是簇的最大个数；

所述改进的概念分解模型采用软球形k-均值聚类算法求解字典矩阵D和重构系数矩阵C，具体为初始化D、C后重复执行K次如下公式：

D＝normalize(XC^T)

其中，cosine函数用于求余弦相似度，softmax函数用于逐列计算归一化概率值，t是温度常数，normalize函数用于逐列将向量归一化为2范数意义下的单位向量；在给定字典矩阵D后计算重构系数矩阵C：

C＝(D^TD+βI)^-1D^TX

其中，I是单位矩阵。

进一步地，所述改进的非负矩阵分解模型先用ReLU激活函数处理X，并利用乘法更新规则使得字典矩阵D和重构系数矩阵C满足非负约束，具体为初始化非负的D、C后重复执行K次如下公式：

其中，常数ε用于防止分母为0，范围在10^-6～10^-1。

进一步地，所述温度常数t的范围在10～100。

进一步地，所述步骤(2)中秩的上界

其中d和n为X的行数和列数。

与现有技术相比，本发明的有益效果为：本发明提出基于张量分解的压缩表示学习方法，以一种计算友好和参数节约的方式，成功为大规模预训练和表示学习提供了正则与补充。本发明的有效性经过了大量计算机视觉的任务与应用的验证，在图像识别，语义分割，目标检测中都取得了显著效果。尤其值得注意的是，我们提出的方法作为一种高可解释性的表示学习方法，以更轻量级的计算和参数量，击败了计算机视觉中常用的注意力机制。我们认为，基于张量分解的表示学习方法有相当大的潜力替代目前在深度神经网络中得到广泛应用的自注意力机制。

附图说明

图1为采用本发明方法得到的表示学习模块“汉堡”的示意图；

图2是用于本发明的优化方法单步梯度的示意图；

图3是将本发明用于语义分割的流程示意图。

具体实施方式

下面结合附图，通过实施例进一步描述本发明，但不以任何方式限制本发明的范围。

本发明展示了如何通过可微编程的工具增强表示学习。为了编码对于表示本身的先验，即好的表示应当是紧致而内聚力强的，我们直接针对表示进行建模。通过可视化，我们发现了背景技术中第一种思路基于预训练学习到的表示的不足，往往表现为缺失和冗余两种类型。考虑到经典张量分解模型经常用于图像的补全和去噪，我们希望这类模型可以解决预训练学习表示的缺失与冗余问题，进而在预训练学习的表示上建立了可微的张量分解模型。本发明成功将张量分解模型引入基于因果推理与人类先验的表示学习思路，并成功应用到现代计算机视觉任务中，以非常轻量级的模块化方法，取得了显著的性能提升。

本发明提出的表示学习工具，首先通过一个微型神经网络预处理学习到的表示，然后将表示转化为一个待分解的张量，基于优化算法进行张量分解，求解其子空间并进行低秩重建，最后经过另一个微型神经网络加工张量分解抽取的低秩表示，融合到主干网络学习的表示中，起到正则的作用。本发明以可微编程的方式与预训练学习的表示进行融合。本发明同时提出了一种截断的优化方法，单步梯度，用于改进具有多步沿时间轴迭代模型的优化算法。根据其工作流程的特点，我们将这一类模块化的方法命名为“汉堡”模块。

本发明使用矩阵分解来进行论述，矩阵分解是张量分解的一类特例。计算机视觉的应用场景往往是针对一个

的三维张量进行变换。使用本发明处理这类问题时，可以将这个张量展开作为矩阵(即张量的矩阵化，对应公式3中的X)；有两种可行的展开顺序：可以将行的维度d设置为

列的维度设置n为

表示对空间维度的超像素作为列向量的矩阵进行分解；也可以将行的维度设置为

列的维度设置为

表示对通道维度作为列向量的矩阵进行分解。

对于空间维度的分解，适用于密集预测的任务，如语义分割与目标检测，这类任务往往保留了较多的空间信息。对于通道维度的分解，适用于保留较多通道信息的任务，如图像识别等。在经过由微型神经网络(通常是线性变换)构成的“下层面包”以后，同时使用两种分解方法，并在通道维度进行拼接，再通过由另一个微型神经网络(亦可以是线性变换)构成的“上层面包”，可以获得更高的性能收益。

因为张量分解和矩阵分解模型可以用于恢复没有噪声和缺失值的观测值，我们认为这种表示本身是紧致的，因此我们将其命名为压缩表示(condensed representation)。使用压缩表示来正则深度网络抽取的表示Z的潜在途径包括残差连接、通道拼接等。

本发明进一步提出了一种改进的随时间反向传播(BackPropagation ThroughTime，BPTT)算法，成为单步梯度优化算法one step gradient，用于优化压缩表示学习模块“汉堡”，其示意图如图2所示。所述单步梯度优化算法为将随机梯度下降方法中BPTT算法修改为单步梯度；完整的BPTT算法需计算每一步的雅克比矩阵并用求和的形式累积，这导致了梯度消失和梯度爆炸的行为，其用于反向传播的梯度如式1所示。

图2所示的抽象的RNN模型，其输入记为x，第s个时间步的隐状态记为h^s，最终输出记为y，i,j为用于求和记号的上标。这个抽象模型在每一个时间步都接受x作为输入加工隐状态。相比起传统的BPTT算法，本发明提出的单步梯度将其截断，即输出y关于输入x的梯度被修正为截断的单步梯度，从而避免了梯度消失与爆炸，即式2。此外，相比起传统BPTT算法关于迭代步数s呈线性增长的时间和空间复杂度，单步梯度只需要常数级别的时间和空间复杂度。

本发明基于张量分解的压缩表示学习可以应用于任何使用深度神经网络的场合，通过残差连接可以直接与深度网络进行协作。本发明通过语义分割任务来展示提出的压缩表示学习模块的有效性。

对于语义分割，本实施例具体包括如下步骤：

步骤1，采集图像并标注正确的分割结果作为输入数据：通过摄像镜头来采集不同场景与光照条件下的自然图像，在像素层面标注图像中的物体的语义信息与类别；通过多人标注取平均的方式消除标记数据中的误差；本实施例采用PASCAL VOC数据集；

步骤2，建立语义分割问题的损失函数：在具体实现中，一般多采用交叉熵作为损失函数。考虑到语义分割的特点，可以对深度网络的不同层加入交叉熵作为额外的损失函数。OHEM也可以作为解决样本不均衡的工具。

步骤3，选择服务于语义分割任务的网络结构，加入“汉堡”模块抽取压缩表示，最后得到的网络称为憨憨网络(HamNet)，整个流程如图3所示：

(3.1)一般可以选择经典的深度残差网络ResNet-101作为语义分割任务的主干网络。ResNet经过ImageNet分类任务的预训练，其泛化能力已经得到很大改善。为了适应语义分割任务的需求，可以将ResNet卷积层c5层的步长stride设置为1，使得整个网络在空间上的下采样是8。在经过ImageNet预训练的ResNet-101顶端放置3*3卷积批归一化ReLU激活函数，将通道数目从2048降低到512维。

(3.2)在网络抽取的表示Z的基础上，我们放置”汉堡”模块进一步抽取压缩表示，用于完善主干网络抽取的表示Z，去除与目标无关的冗余信息。经过”汉堡”处理的表示Y进一步被另一个3*3卷积批归一化ReLU激活函数降低到256维，最后由全卷积神经网络FCN进行逐像素分类并插值恢复原始尺寸。

用于本发明举例说明的“汉堡”模块由两个线性变换和一个矩阵分解模型构成。如图1所示，两个线性变换作为“下层面包”和“上层面包”，分别置于张量分解模型或矩阵分解模型“肉饼”的前后，构成一个“汉堡模块”。“下层面包”W_l用于将输入的预训练网络抽取的表示Z投影到合适的维度上，变换后的表示X＝W_lZ。矩阵分解模型M将求解低维子空间并重构的目标写为一个优化问题，基于优化算法将变换后的表示X分解为一个字典矩阵D和重构系数矩阵C的乘积与残差矩阵E的和：

X＝DC+E (式3)

公式3中残差部分E作为无效信息被丢弃，则

整个优化算法是可微分的，其梯度由改进的单步梯度给出。考虑到一个常用的先验往往是有效信息嵌入在一个低维流形中，反映到矩阵分解模型上就是对重构的低秩矩阵

的秩进行约束；这种约束经常表示为由d行n列的原始矩阵X∈R^d*n的秩给出的上界r，即低秩先验：

r＜＜min(d，n) (式5)

秩给出的上界r范围在

优选为

重构的低秩矩阵

可以作为去噪或者补全的表示，经过“上层面包”W_u变换回原始维度，“汉堡”模块表示为：

在本发明的示例中，我们主要使用式7的残差连接形式，H表示我们提出的“汉堡”模块，抽取的压缩表示可以作为对主干网络抽取的表示Z中核心信息的强化，通过残差连接的形式，最终得到用于下游任务的表示Y。

另一种拓展思路是在“肉饼”(即张量分解)和“上层面包”之间增加由线性变换W_c，批归一化，ReLU激活函数构成的拓展模块“黄油”，重构的低秩矩阵依次经过拓展模块和上层线性变换W_u处理变换回原始维度得到输出H(Z)后，通过残差连接得到压缩表示Y，公式如下：

H(Z)＝W_u·BN(ReLU(W_c·M(W_lZ)))

Y＝ReLU(Z+H(Z))

上述拓展思路同样能够以非常小的参数量获得性能的进一步提升，这一部分性能提升来自于对矩阵分解抽取的低秩表示的进一步加工，以便于与深度网络抽取的表示更好地进行协作。

步骤4，对输入数据做预处理：将步骤1得到的输入数据划分为训练数据集和预测数据集；对于训练数据集，需要先将图像变换到标准尺寸，并进行裁剪；然后对输入数据进行数据增强，常用的数据增强包括翻转与多尺度变换；除此之外，还要对输入数据进行归一化。

步骤5，确定网络训练的超参数：在训练之前，要确定网络训练的超参数，包括批大小batchsize，学习率、迭代次数等。在语义分割的问题中，不同的数据集拥有不同的超参数。对于PASCAL VOC数据集，可选的超参数为批大小batchsize 16，初始学习率为0.009，学习率衰减策略为Poly衰减，指数为0.9。

步骤6，进行网络训练：利用训练数据集对步骤3得到憨憨网络(HamNet)进行训练，达到迭代次数后停止训练。在本发明的实施示例中，完成以上步骤，训练好的深度神经网络即可以用于执行语义分割任务。

作为进一步的示例，选择三种经典的矩阵分解模型M来验证本发明的有效性，分别是矢量量化(Vector Quantization，VQ)、概念分解(Concept Decomposition，CD)、非负矩阵分解(Non-negative Matrix Factorization，NMF)。为了保证其可微分性，从而可以与深度神经网络相协作，将VQ和CD中不可微的取最大值操作max替换为softmax。针对NMF，为了保证lower bread变换后的输入矩阵X满足非负性，添加一个额外的ReLU激活函数到“下层面包”与“肉饼”之间。这三个改进的算法如下所示。

(1)改进的矢量量化算法Soft VQ，采用可微分的软k-均值聚类算法soft K-mean求解字典矩阵D，通过选取最接近的元素来计算重构系数矩阵C：

(算法1)

其中，cosine函数用于求余弦相似度，

是D和X的相似度矩阵，第i行j列的元素是D中第i个列向量D_i与X中第j个列向量X_j的余弦相似度；softmax函数是逐列应用的，用于计算归一化概率值的非线性函数；diag函数可将一个向量映射为一个以之为对角线的对角矩阵，用于归一化字典矩阵D中的列向量；1_n是一个长度为n的向量，其元素均为1；K表示总的迭代步数，范围在3～9，优选K＝6；k是当前的步数；温度常数t用于控制稀疏性，取值范围10～100。

(2)改进的概念分解算法Soft CD，采用可微分的软球形k-均值聚类算法softSpherical K-mean来求解字典矩阵D。在给定字典矩阵D后，通过求解一个存在闭解的优化问题来计算重构系数矩阵C。考虑到字典矩阵D的维度，概念分解算法的子问题的闭解只需要非常非常小的内存与计算开销；整个算法如下：

(算法2)

(式8)

s.t.||u_j||＝1

其中，β是对C的正则项的系数，范围在0.01～0.1；Q是soft Spherical K-mean的目标函数；U和V是该目标函数的参数矩阵，分别对应式8的D和X，u和v是矩阵U和V的列向量，u_j表示矩阵U的第j列；π_j表示第j个簇；normalize函数是逐列应用的归一化操作，将字典矩阵D中的列向量归一化为2范数下的单位向量；K表示总的迭代步数，范围在3～9，优选K＝6；k是当前的步数；I是单位矩阵；r是簇的最大个数；

(3)改进的非负矩阵分解算法NMF with MU，使用乘法更新(MultiplicativeUpdates，MU)规则使得两个分解得到的子矩阵D和C满足非负约束。用于计算非负矩阵分解的X经过了一个额外的ReLU激活函数以保证其非负性。

(算法3)

其中，常数ε用于防止分母为0，同时促进D,C的稀疏性，范围在10^-6～10^-1；下标i、j表示矩阵的第i行j列的元素，用于表示逐元素的乘法与除法；K表示总的迭代步数，范围在3～9，优选K＝6；k是当前的步数。

表1：one step gradient与BPTT的对比

方法	单步梯度	BPTT
			VQ	77.7(77.5)	76.6(76.2)
CD	78.1(77.6)	75.0(72.6)
			NMF	78.3(77.7)	77.4(77.2)

表1对比了单步梯度和经典的BPTT算法在“汉堡”模块的优化上取得的效果，评价指标为平均交并比mIoU(％)，表格中按照4次实验的结果，使用最优(平均)的格式报道了平均交并比。由表1可知，单步梯度的稳定性和实现的性能都优于BPTT算法。这证明了单步梯度在含有多步迭代的“汉堡”模块的优化上的优越性与稳定性。

表2：PASCAL VOC数据集对比结果

方法	主干网络	mIoU(％)
			PSPNet	Res-101	82.6
DFN	Res-101	82.7
			DANet	Res-101	82.6
EncNet	Res-101	82.9
			CFNet	Res-101	84.2
HamNet(NMF)	Res-101	84.9

表2列举了本发明提出的基于张量分解的压缩表示学习在PASCAL VOC数据集上的性能比较。由表2可知，本发明在物体数量较少，分割较为简单的PASCAL VOC数据集上成功击败了基于注意力机制的模型，如双重注意力网络(Dual Attention Network，DANet)和相关滤波网络CFNet。表2说明了基于张量分解的压缩表示学习相对于注意力机制和基线模型的优越性。

表3：PASCAL Context数据集对比结果

方法	主干网络(额外数据)	mIoU(％)
			RefineNet	Res-152	47.3
PSPNet	Res-101	47.8
			MSCI	Res-152	50.3
SGR	Res-101+COCO预训练	50.8
			DANet	Res-101	52.6
EMANet	Res-101	53.1
			CFNet	Res-101	54.0
HRNet-V2	HRNetV2-W48	54.0
			HamNet(NMF)	Res101	54.3

表3列举了PASCAL Context数据集的对比结果。由表3可知，在多类别复杂的分割任务中，基于张量分解的压缩表示学习不仅在同等主干网络的情况下击败了注意力机制，甚至击败了主干网络更为复杂，计算量更大的深度高分辨率网络HRNetV2，这进一步验证了基于张量分解的压缩表示成功增强了预训练学习的表示。同时，表3也说明，张量分解作为网络结构一部分形成的先验，甚至强于使用数据量巨大的COCO数据集进行额外预训练，这验证了我们先验假设的合理性。

表4：汉堡模块与注意力机制的对比(测试场景)

方法	mIoU(％)	参数量	FLOPs	存储
					Dual Attention	52.6	4.32M	44.4G	123MB
汉堡(CD)	53.9	0.50M	7.0G	32MB
					汉堡(NMF)	54.3	0.50M	7.7G	32MB

表4展示了在本专利提出的汉堡模块相对于经典的注意力机制在参数量，计算量，存储开销和性能上的对比实验，平均交并比报道了在PASCAL-Context数据集上的运行结果。对比结果显示，汉堡模块以远低于经典的双重注意力机制的计算开销，实现了更优异的性能，展示了其轻量级的特点。

表5：汉堡模块与注意力机制的对比(运行场景)

方法	训练显存	推理显存	训练时间	推理时间
					Dual Attention	293MB	176MB	9.4ms	7.1ms
汉堡(CD)	46MB	26MB	5.0ms	2.5ms
					汉堡(NMF)	50MB	30MB	4.9ms	2.9ms

表5进一步展示了在本专利提出的汉堡模块在实际运行场景中的显存开销和推理时间。该测试运行于NVIDIA 1080Ti GPU，训练时间与推理时间为10轮测试10000次运行的平均结果。对比结果显示，不同肉饼构成的汉堡模块，相对经典的双重注意力机制，在真实应用场景下均展示出更高的计算效率。

综合表1-表5的结果可以说明，单步梯度在针对本发明的优化问题上击败了经典的BPTT算法。同时，这一结果经历了不同张量分解模型的验证，具有普适性。在大规模语义分割任务上，使用NMF作为”肉饼”的“汉堡”模块创造了最优性能，超越了所有已有的语义分割模型。额外值得注意的是，基于张量分解的模型击败了基于不同自注意力机制的模型，如双重注意力网络DANet，相关滤波网络CFNet。同时，ResNet-101作为主干网络的HamNet甚至大幅度超越了主干网络计算量更大的深度高分辨率网络HRNetV2。

本发明提出了基于张量分解的压缩表示学习，并通过一个轻量级的神经网络模块”汉堡”做了示例。本发明指出了表示学习的两种经典思路的不足，通过可微的张量分解模型，将对于表示的先验编码到深度神经网络和表示学习中，解决了基于大规模预训练得到的数据表示的缺失与冗余问题。同时，针对本发明设计的one step gradient优化机制，以更少的计算开销，实现了对本发明提出的表示学习模块的优化。本发明提出的”汉堡”模块大幅度击败了现代计算机视觉中常用的注意力机制，附带的示例验证了其有效性。

需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。