CN111340186A - 基于张量分解的压缩表示学习方法 - Google Patents

基于张量分解的压缩表示学习方法 Download PDF

Info

Publication number
CN111340186A
CN111340186A CN202010095808.8A CN202010095808A CN111340186A CN 111340186 A CN111340186 A CN 111340186A CN 202010095808 A CN202010095808 A CN 202010095808A CN 111340186 A CN111340186 A CN 111340186A
Authority
CN
China
Prior art keywords
matrix
decomposition
representation
tensor
compressed representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010095808.8A
Other languages
English (en)
Other versions
CN111340186B (zh
Inventor
林宙辰
耿正阳
陈鸿旭
陈鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202010095808.8A priority Critical patent/CN111340186B/zh
Publication of CN111340186A publication Critical patent/CN111340186A/zh
Application granted granted Critical
Publication of CN111340186B publication Critical patent/CN111340186B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于张量分解的压缩表示学习方法,该方法首先将通过一个微型神经网络预处理学习到的表示转化为一个待分解的张量,基于优化算法进行张量分解,求解其子空间并进行低秩重建,最后经过另一个微型神经网络加工张量分解抽取的低秩表示,融合到主干网络学习的表示中,起到正则的作用;并结合截断的单步梯度优化方法,用于改进具有多步沿时间轴迭代模型的优化算法。本发明以一种计算友好和参数节约的方式,成功为大规模预训练和表示学习提供了正则与补充,本发明的有效性经过了大量计算机视觉的任务与应用的验证,在图像识别、语义分割、目标检测中都取得了显著效果;以更轻量级的计算和参数量,击败了计算机视觉常用的注意力机制。

Description

基于张量分解的压缩表示学习方法
技术领域
本发明属于表示学习和深度神经网络结构设计技术领域,尤其涉及一种基于张量分解的压缩表示学习方法。
背景技术
近年来,表示学习在机器学习领域取得了巨大的成功。表示学习从数据中提取分布式表示,并对表示施加正则以实现解纠缠。分布式表示可以通过多项式级别的复杂度表征指数规模的信息。而解纠缠的向量表示则能将变化的独立信息因素从数据中分离出来。表示学习是通用性的,被证明有利于不同的下游任务。
表示学习的概念是相当宽泛的。一般认为,基于多层神经网络的变换就是在提取表示。但是一个长期以来困扰人们的问题是:满足何种要求的表达可以说是好的表达?近年来有两种思路的研究分别试图对这个问题进行回答。
第一类借助特定的监督任务,半监督或弱监督途径,或者基于极大似然估计的语言模型,去噪自编码器,对比预测等方式,通过大规模数据集进行表示学习,并通过微调等方式将学习到的表示迁移到下游任务中。这类方法往往不对表示本身的特点施加先验,而通过恰当的表示学习任务来让数据决定表示。
第二类方法主要集中在学习解纠缠的表示。这类方法往往通过信息论工具假设表示的某种特征,最经典的是解纠缠,将表示学习与一个生成模型相结合,在隐空间里学习满足先验假设的表示。基于期望最大化算法与变分推断求解的概率图模型,注意力机制等都在这种研究思路中得到广泛应用。研究者往往希望借助生成模型、重构或时序预测的特点,进一步理解隐空间中学习的解纠缠的表示,并将其作为对深度神经网络缺少因果推理能力的补充。与第一类方法不同,这种方式学习的表示很少通过微调用于监督任务,主要强调无监督意义下学习到的表示的的可解释性以及在抽象推理任务中的应用,即解纠缠的特性。
然而,上述两种思路都有其局限性。第一种思路学习的表示缺乏先验约束,即使通过海量数据的预训练,对于特定的下游任务仍然表现出冗余或不足。第二种基于生成模型、重构、时序预测等方式,将先验约束编码到表示中的途径,受限于模型规模与训练方式,往往停留在小数据集的推理任务上,很难迁移到特定监督任务。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于张量分解的压缩表示学习方法。
本发明的目的是通过以下技术方案来实现的:一种基于张量分解的压缩表示学习方法,该方法由下层线性变换Wl、矩阵分解模型M、上层线性变换Wu依次连接构成,包括以下步骤:
(1)将矩阵化的表示Z经过下层线性变换Wl的处理得到变换后的表示X=WlZ;
(2)将变换后的表示X输入矩阵分解模型M,分解为字典矩阵D和重构系数矩阵C的乘积,表示为如下形式:
Figure BDA0002385307660000021
其中,
Figure BDA0002385307660000022
为重构的低秩矩阵,且满足如下条件:
Figure BDA0002385307660000023
其中,r表示秩的上界;
(3)重构的低秩矩阵
Figure BDA0002385307660000024
经过上层线性变换Wu处理变换回原始维度,得到输出H(Z):
H(Z)=WuM(WlZ)
(4)通过残差连接得到压缩表示Y:
Y=ReLU(Z+BN(H(Z)))
其中,BN函数表示批归一化,ReLU为激活函数。
进一步地,该方法在矩阵分解模型M和上层线性变换Wu间加入拓展模块;所述拓展模块由新的线性变换Wc、批归一化、ReLU激活函数构成,具体为:
(2.1)执行步骤(1)~(3),得到M(WlZ);
(2.2)步骤(2.1)得到的M(WlZ)依次经过拓展模块和上层线性变换Wu处理变换回原始维度,得到输出H(Z):
H(Z)=Wu·BN(ReLU(Wc·M(WlZ)))
(2.3)通过残差连接得到压缩表示Y:
Y=ReLU(Z+H(Z))
进一步地,所述下层线性变换Wl、上层线性变换Wu由单步梯度优化算法学习得到;所述单步梯度优化算法为将随机梯度下降方法中随时间反向传播算法的输出y关于输入x的梯度截断成如下单步梯度形式:
Figure BDA0002385307660000031
其中,hs表示第s个时间步的隐状态。
进一步地,所述矩阵分解模型采用改进的矢量量化模型、改进的概念分解模型或改进的非负矩阵分解模型。
进一步地,所述改进的矢量量化模型采用软k-均值聚类算法求解字典矩阵D和重构系数矩阵C,具体为:初始化D和C后重复执行K次如下公式:
Figure BDA0002385307660000032
Figure BDA0002385307660000033
其中,cosine函数用于求余弦相似度,softmax用于逐列计算归一化概率值,t是温度常数,diag函数用于构建对角矩阵;1n是长度为n且元素均为1的向量。
进一步地,所述改进的概念分解模型为:
Figure BDA0002385307660000034
Figure BDA0002385307660000035
其中,β是C的正则项系数,范围在0.01~0.1;Q是软球形k-均值聚类算法的目标函数,定义如下:
Figure BDA0002385307660000036
s.t.||uj||=1
其中,v表示矩阵V的列向量,uj表示矩阵U的第j列;πj表示聚类形成的第j个簇;r是簇的最大个数;
所述改进的概念分解模型采用软球形k-均值聚类算法求解字典矩阵D和重构系数矩阵C,具体为初始化D、C后重复执行K次如下公式:
Figure BDA0002385307660000037
D=normalize(XCT)
其中,cosine函数用于求余弦相似度,softmax函数用于逐列计算归一化概率值,t是温度常数,normalize函数用于逐列将向量归一化为2范数意义下的单位向量;在给定字典矩阵D后计算重构系数矩阵C:
C=(DTD+βI)-1DTX
其中,I是单位矩阵。
进一步地,所述改进的非负矩阵分解模型先用ReLU激活函数处理X,并利用乘法更新规则使得字典矩阵D和重构系数矩阵C满足非负约束,具体为初始化非负的D、C后重复执行K次如下公式:
Figure BDA0002385307660000043
Figure BDA0002385307660000042
其中,常数ε用于防止分母为0,范围在10-6~10-1
进一步地,所述温度常数t的范围在10~100。
进一步地,所述步骤(2)中秩的上界
Figure BDA0002385307660000041
其中d和n为X的行数和列数。
与现有技术相比,本发明的有益效果为:本发明提出基于张量分解的压缩表示学习方法,以一种计算友好和参数节约的方式,成功为大规模预训练和表示学习提供了正则与补充。本发明的有效性经过了大量计算机视觉的任务与应用的验证,在图像识别,语义分割,目标检测中都取得了显著效果。尤其值得注意的是,我们提出的方法作为一种高可解释性的表示学习方法,以更轻量级的计算和参数量,击败了计算机视觉中常用的注意力机制。我们认为,基于张量分解的表示学习方法有相当大的潜力替代目前在深度神经网络中得到广泛应用的自注意力机制。
附图说明
图1为采用本发明方法得到的表示学习模块“汉堡”的示意图;
图2是用于本发明的优化方法单步梯度的示意图;
图3是将本发明用于语义分割的流程示意图。
具体实施方式
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
本发明展示了如何通过可微编程的工具增强表示学习。为了编码对于表示本身的先验,即好的表示应当是紧致而内聚力强的,我们直接针对表示进行建模。通过可视化,我们发现了背景技术中第一种思路基于预训练学习到的表示的不足,往往表现为缺失和冗余两种类型。考虑到经典张量分解模型经常用于图像的补全和去噪,我们希望这类模型可以解决预训练学习表示的缺失与冗余问题,进而在预训练学习的表示上建立了可微的张量分解模型。本发明成功将张量分解模型引入基于因果推理与人类先验的表示学习思路,并成功应用到现代计算机视觉任务中,以非常轻量级的模块化方法,取得了显著的性能提升。
本发明提出的表示学习工具,首先通过一个微型神经网络预处理学习到的表示,然后将表示转化为一个待分解的张量,基于优化算法进行张量分解,求解其子空间并进行低秩重建,最后经过另一个微型神经网络加工张量分解抽取的低秩表示,融合到主干网络学习的表示中,起到正则的作用。本发明以可微编程的方式与预训练学习的表示进行融合。本发明同时提出了一种截断的优化方法,单步梯度,用于改进具有多步沿时间轴迭代模型的优化算法。根据其工作流程的特点,我们将这一类模块化的方法命名为“汉堡”模块。
本发明使用矩阵分解来进行论述,矩阵分解是张量分解的一类特例。计算机视觉的应用场景往往是针对一个
Figure BDA0002385307660000051
的三维张量进行变换。使用本发明处理这类问题时,可以将这个张量展开作为矩阵(即张量的矩阵化,对应公式3中的X);有两种可行的展开顺序:可以将行的维度d设置为
Figure BDA0002385307660000052
列的维度设置n为
Figure BDA0002385307660000053
表示对空间维度的超像素作为列向量的矩阵进行分解;也可以将行的维度设置为
Figure BDA0002385307660000054
列的维度设置为
Figure BDA0002385307660000055
表示对通道维度作为列向量的矩阵进行分解。
对于空间维度的分解,适用于密集预测的任务,如语义分割与目标检测,这类任务往往保留了较多的空间信息。对于通道维度的分解,适用于保留较多通道信息的任务,如图像识别等。在经过由微型神经网络(通常是线性变换)构成的“下层面包”以后,同时使用两种分解方法,并在通道维度进行拼接,再通过由另一个微型神经网络(亦可以是线性变换)构成的“上层面包”,可以获得更高的性能收益。
因为张量分解和矩阵分解模型可以用于恢复没有噪声和缺失值的观测值,我们认为这种表示本身是紧致的,因此我们将其命名为压缩表示(condensed representation)。使用压缩表示来正则深度网络抽取的表示Z的潜在途径包括残差连接、通道拼接等。
本发明进一步提出了一种改进的随时间反向传播(BackPropagation ThroughTime,BPTT)算法,成为单步梯度优化算法one step gradient,用于优化压缩表示学习模块“汉堡”,其示意图如图2所示。所述单步梯度优化算法为将随机梯度下降方法中BPTT算法修改为单步梯度;完整的BPTT算法需计算每一步的雅克比矩阵并用求和的形式累积,这导致了梯度消失和梯度爆炸的行为,其用于反向传播的梯度如式1所示。
Figure BDA0002385307660000061
图2所示的抽象的RNN模型,其输入记为x,第s个时间步的隐状态记为hs,最终输出记为y,i,j为用于求和记号的上标。这个抽象模型在每一个时间步都接受x作为输入加工隐状态。相比起传统的BPTT算法,本发明提出的单步梯度将其截断,即输出y关于输入x的梯度被修正为截断的单步梯度,从而避免了梯度消失与爆炸,即式2。此外,相比起传统BPTT算法关于迭代步数s呈线性增长的时间和空间复杂度,单步梯度只需要常数级别的时间和空间复杂度。
Figure BDA0002385307660000062
本发明基于张量分解的压缩表示学习可以应用于任何使用深度神经网络的场合,通过残差连接可以直接与深度网络进行协作。本发明通过语义分割任务来展示提出的压缩表示学习模块的有效性。
对于语义分割,本实施例具体包括如下步骤:
步骤1,采集图像并标注正确的分割结果作为输入数据:通过摄像镜头来采集不同场景与光照条件下的自然图像,在像素层面标注图像中的物体的语义信息与类别;通过多人标注取平均的方式消除标记数据中的误差;本实施例采用PASCAL VOC数据集;
步骤2,建立语义分割问题的损失函数:在具体实现中,一般多采用交叉熵作为损失函数。考虑到语义分割的特点,可以对深度网络的不同层加入交叉熵作为额外的损失函数。OHEM也可以作为解决样本不均衡的工具。
步骤3,选择服务于语义分割任务的网络结构,加入“汉堡”模块抽取压缩表示,最后得到的网络称为憨憨网络(HamNet),整个流程如图3所示:
(3.1)一般可以选择经典的深度残差网络ResNet-101作为语义分割任务的主干网络。ResNet经过ImageNet分类任务的预训练,其泛化能力已经得到很大改善。为了适应语义分割任务的需求,可以将ResNet卷积层c5层的步长stride设置为1,使得整个网络在空间上的下采样是8。在经过ImageNet预训练的ResNet-101顶端放置3*3卷积批归一化ReLU激活函数,将通道数目从2048降低到512维。
(3.2)在网络抽取的表示Z的基础上,我们放置”汉堡”模块进一步抽取压缩表示,用于完善主干网络抽取的表示Z,去除与目标无关的冗余信息。经过”汉堡”处理的表示Y进一步被另一个3*3卷积批归一化ReLU激活函数降低到256维,最后由全卷积神经网络FCN进行逐像素分类并插值恢复原始尺寸。
用于本发明举例说明的“汉堡”模块由两个线性变换和一个矩阵分解模型构成。如图1所示,两个线性变换作为“下层面包”和“上层面包”,分别置于张量分解模型或矩阵分解模型“肉饼”的前后,构成一个“汉堡模块”。“下层面包”Wl用于将输入的预训练网络抽取的表示Z投影到合适的维度上,变换后的表示X=WlZ。矩阵分解模型M将求解低维子空间并重构的目标写为一个优化问题,基于优化算法将变换后的表示X分解为一个字典矩阵D和重构系数矩阵C的乘积与残差矩阵E的和:
X=DC+E (式3)
公式3中残差部分E作为无效信息被丢弃,则
Figure BDA0002385307660000071
整个优化算法是可微分的,其梯度由改进的单步梯度给出。考虑到一个常用的先验往往是有效信息嵌入在一个低维流形中,反映到矩阵分解模型上就是对重构的低秩矩阵
Figure BDA0002385307660000072
的秩进行约束;这种约束经常表示为由d行n列的原始矩阵X∈Rd*n的秩给出的上界r,即低秩先验:
Figure BDA0002385307660000073
r<<min(d,n) (式5)
秩给出的上界r范围在
Figure BDA0002385307660000074
优选为
Figure BDA0002385307660000075
重构的低秩矩阵
Figure BDA0002385307660000076
可以作为去噪或者补全的表示,经过“上层面包”Wu变换回原始维度,“汉堡”模块表示为:
Figure BDA0002385307660000077
在本发明的示例中,我们主要使用式7的残差连接形式,H表示我们提出的“汉堡”模块,抽取的压缩表示可以作为对主干网络抽取的表示Z中核心信息的强化,通过残差连接的形式,最终得到用于下游任务的表示Y。
Figure BDA0002385307660000081
另一种拓展思路是在“肉饼”(即张量分解)和“上层面包”之间增加由线性变换Wc,批归一化,ReLU激活函数构成的拓展模块“黄油”,重构的低秩矩阵依次经过拓展模块和上层线性变换Wu处理变换回原始维度得到输出H(Z)后,通过残差连接得到压缩表示Y,公式如下:
H(Z)=Wu·BN(ReLU(Wc·M(WlZ)))
Y=ReLU(Z+H(Z))
上述拓展思路同样能够以非常小的参数量获得性能的进一步提升,这一部分性能提升来自于对矩阵分解抽取的低秩表示的进一步加工,以便于与深度网络抽取的表示更好地进行协作。
步骤4,对输入数据做预处理:将步骤1得到的输入数据划分为训练数据集和预测数据集;对于训练数据集,需要先将图像变换到标准尺寸,并进行裁剪;然后对输入数据进行数据增强,常用的数据增强包括翻转与多尺度变换;除此之外,还要对输入数据进行归一化。
步骤5,确定网络训练的超参数:在训练之前,要确定网络训练的超参数,包括批大小batchsize,学习率、迭代次数等。在语义分割的问题中,不同的数据集拥有不同的超参数。对于PASCAL VOC数据集,可选的超参数为批大小batchsize 16,初始学习率为0.009,学习率衰减策略为Poly衰减,指数为0.9。
步骤6,进行网络训练:利用训练数据集对步骤3得到憨憨网络(HamNet)进行训练,达到迭代次数后停止训练。在本发明的实施示例中,完成以上步骤,训练好的深度神经网络即可以用于执行语义分割任务。
作为进一步的示例,选择三种经典的矩阵分解模型M来验证本发明的有效性,分别是矢量量化(Vector Quantization,VQ)、概念分解(Concept Decomposition,CD)、非负矩阵分解(Non-negative Matrix Factorization,NMF)。为了保证其可微分性,从而可以与深度神经网络相协作,将VQ和CD中不可微的取最大值操作max替换为softmax。针对NMF,为了保证lower bread变换后的输入矩阵X满足非负性,添加一个额外的ReLU激活函数到“下层面包”与“肉饼”之间。这三个改进的算法如下所示。
(1)改进的矢量量化算法Soft VQ,采用可微分的软k-均值聚类算法soft K-mean求解字典矩阵D,通过选取最接近的元素来计算重构系数矩阵C:
Figure BDA0002385307660000091
(算法1)
其中,cosine函数用于求余弦相似度,
Figure BDA0002385307660000092
是D和X的相似度矩阵,第i行j列的元素是D中第i个列向量Di与X中第j个列向量Xj的余弦相似度;softmax函数是逐列应用的,用于计算归一化概率值的非线性函数;diag函数可将一个向量映射为一个以之为对角线的对角矩阵,用于归一化字典矩阵D中的列向量;1n是一个长度为n的向量,其元素均为1;K表示总的迭代步数,范围在3~9,优选K=6;k是当前的步数;温度常数t用于控制稀疏性,取值范围10~100。
(2)改进的概念分解算法Soft CD,采用可微分的软球形k-均值聚类算法softSpherical K-mean来求解字典矩阵D。在给定字典矩阵D后,通过求解一个存在闭解的优化问题来计算重构系数矩阵C。考虑到字典矩阵D的维度,概念分解算法的子问题的闭解只需要非常非常小的内存与计算开销;整个算法如下:
Figure BDA0002385307660000093
(算法2)
Figure BDA0002385307660000094
(式8)
Figure BDA0002385307660000095
s.t.||uj||=1
其中,β是对C的正则项的系数,范围在0.01~0.1;Q是soft Spherical K-mean的目标函数;U和V是该目标函数的参数矩阵,分别对应式8的D和X,u和v是矩阵U和V的列向量,uj表示矩阵U的第j列;πj表示第j个簇;normalize函数是逐列应用的归一化操作,将字典矩阵D中的列向量归一化为2范数下的单位向量;K表示总的迭代步数,范围在3~9,优选K=6;k是当前的步数;I是单位矩阵;r是簇的最大个数;
(3)改进的非负矩阵分解算法NMF with MU,使用乘法更新(MultiplicativeUpdates,MU)规则使得两个分解得到的子矩阵D和C满足非负约束。用于计算非负矩阵分解的X经过了一个额外的ReLU激活函数以保证其非负性。
Figure BDA0002385307660000101
(算法3)
其中,常数ε用于防止分母为0,同时促进D,C的稀疏性,范围在10-6~10-1;下标i、j表示矩阵的第i行j列的元素,用于表示逐元素的乘法与除法;K表示总的迭代步数,范围在3~9,优选K=6;k是当前的步数。
表1:one step gradient与BPTT的对比
方法 单步梯度 BPTT
VQ 77.7(77.5) 76.6(76.2)
CD 78.1(77.6) 75.0(72.6)
NMF 78.3(77.7) 77.4(77.2)
表1对比了单步梯度和经典的BPTT算法在“汉堡”模块的优化上取得的效果,评价指标为平均交并比mIoU(%),表格中按照4次实验的结果,使用最优(平均)的格式报道了平均交并比。由表1可知,单步梯度的稳定性和实现的性能都优于BPTT算法。这证明了单步梯度在含有多步迭代的“汉堡”模块的优化上的优越性与稳定性。
表2:PASCAL VOC数据集对比结果
方法 主干网络 mIoU(%)
PSPNet Res-101 82.6
DFN Res-101 82.7
DANet Res-101 82.6
EncNet Res-101 82.9
CFNet Res-101 84.2
HamNet(NMF) Res-101 84.9
表2列举了本发明提出的基于张量分解的压缩表示学习在PASCAL VOC数据集上的性能比较。由表2可知,本发明在物体数量较少,分割较为简单的PASCAL VOC数据集上成功击败了基于注意力机制的模型,如双重注意力网络(Dual Attention Network,DANet)和相关滤波网络CFNet。表2说明了基于张量分解的压缩表示学习相对于注意力机制和基线模型的优越性。
表3:PASCAL Context数据集对比结果
方法 主干网络(额外数据) mIoU(%)
RefineNet Res-152 47.3
PSPNet Res-101 47.8
MSCI Res-152 50.3
SGR Res-101+COCO预训练 50.8
DANet Res-101 52.6
EMANet Res-101 53.1
CFNet Res-101 54.0
HRNet-V2 HRNetV2-W48 54.0
HamNet(NMF) Res101 54.3
表3列举了PASCAL Context数据集的对比结果。由表3可知,在多类别复杂的分割任务中,基于张量分解的压缩表示学习不仅在同等主干网络的情况下击败了注意力机制,甚至击败了主干网络更为复杂,计算量更大的深度高分辨率网络HRNetV2,这进一步验证了基于张量分解的压缩表示成功增强了预训练学习的表示。同时,表3也说明,张量分解作为网络结构一部分形成的先验,甚至强于使用数据量巨大的COCO数据集进行额外预训练,这验证了我们先验假设的合理性。
表4:汉堡模块与注意力机制的对比(测试场景)
方法 mIoU(%) 参数量 FLOPs 存储
Dual Attention 52.6 4.32M 44.4G 123MB
汉堡(CD) 53.9 0.50M 7.0G 32MB
汉堡(NMF) 54.3 0.50M 7.7G 32MB
表4展示了在本专利提出的汉堡模块相对于经典的注意力机制在参数量,计算量,存储开销和性能上的对比实验,平均交并比报道了在PASCAL-Context数据集上的运行结果。对比结果显示,汉堡模块以远低于经典的双重注意力机制的计算开销,实现了更优异的性能,展示了其轻量级的特点。
表5:汉堡模块与注意力机制的对比(运行场景)
方法 训练显存 推理显存 训练时间 推理时间
Dual Attention 293MB 176MB 9.4ms 7.1ms
汉堡(CD) 46MB 26MB 5.0ms 2.5ms
汉堡(NMF) 50MB 30MB 4.9ms 2.9ms
表5进一步展示了在本专利提出的汉堡模块在实际运行场景中的显存开销和推理时间。该测试运行于NVIDIA 1080Ti GPU,训练时间与推理时间为10轮测试10000次运行的平均结果。对比结果显示,不同肉饼构成的汉堡模块,相对经典的双重注意力机制,在真实应用场景下均展示出更高的计算效率。
综合表1-表5的结果可以说明,单步梯度在针对本发明的优化问题上击败了经典的BPTT算法。同时,这一结果经历了不同张量分解模型的验证,具有普适性。在大规模语义分割任务上,使用NMF作为”肉饼”的“汉堡”模块创造了最优性能,超越了所有已有的语义分割模型。额外值得注意的是,基于张量分解的模型击败了基于不同自注意力机制的模型,如双重注意力网络DANet,相关滤波网络CFNet。同时,ResNet-101作为主干网络的HamNet甚至大幅度超越了主干网络计算量更大的深度高分辨率网络HRNetV2。
本发明提出了基于张量分解的压缩表示学习,并通过一个轻量级的神经网络模块”汉堡”做了示例。本发明指出了表示学习的两种经典思路的不足,通过可微的张量分解模型,将对于表示的先验编码到深度神经网络和表示学习中,解决了基于大规模预训练得到的数据表示的缺失与冗余问题。同时,针对本发明设计的one step gradient优化机制,以更少的计算开销,实现了对本发明提出的表示学习模块的优化。本发明提出的”汉堡”模块大幅度击败了现代计算机视觉中常用的注意力机制,附带的示例验证了其有效性。
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。

Claims (9)

1.一种基于张量分解的压缩表示学习方法,其特征在于,该方法由下层线性变换Wl、矩阵分解模型M、上层线性变换Wu等依次连接构成,包括以下步骤:
(1)将矩阵化的表示Z经过下层线性变换Wl的处理得到变换后的表示X=WlZ。
(2)将变换后的表示X输入矩阵分解模型M,分解为字典矩阵D和重构系数矩阵C的乘积,表示为如下形式:
Figure FDA0002385307650000011
其中,
Figure FDA0002385307650000012
为重构的低秩矩阵,且满足如下条件:
Figure FDA0002385307650000013
其中,r表示秩的上界。
(3)重构的低秩矩阵
Figure FDA0002385307650000014
经过上层线性变换Wu处理变换回原始维度,得到输出H(Z):
H(Z)=WuM(WlZ)
(4)通过残差连接得到压缩表示Y:
Y=ReLU(Z+BN(H(Z)))
其中,BN函数表示批归一化,ReLU为激活函数。
2.根据权利要求1所述基于张量分解的压缩表示学习方法,其特征在于,该方法在矩阵分解模型M和上层线性变换Wu间加入拓展模块;所述拓展模块由新的线性变换Wc、批归一化、ReLU激活函数构成,具体为:
(2.1)执行步骤(1)~(3),得到M(WlZ)。
(2.2)步骤(2.1)得到的M(WlZ)依次经过拓展模块和上层线性变换Wu处理变换回原始维度,得到输出H(Z):
H(Z)=Wu·BN(ReLU(Wc·M(WlZ)))
(2.3)通过残差连接得到压缩表示Y:
Y=ReLU(Z+H(Z))
3.根据权利要求1所述基于张量分解的压缩表示学习方法,其特征在于,所述下层线性变换Wl、上层线性变换Wu由单步梯度优化算法学习得到;所述单步梯度优化算法为将随机梯度下降方法中随时间反向传播算法的输出y关于输入x的梯度截断成如下单步梯度形式:
Figure FDA0002385307650000021
其中,hs表示第s个时间步的隐状态。
4.根据权利要求1所述基于张量分解的压缩表示学习方法,其特征在于,所述矩阵分解模型采用改进的矢量量化模型、改进的概念分解模型或改进的非负矩阵分解模型。
5.根据权利要求4所述基于张量分解的压缩表示学习方法,其特征在于,所述改进的矢量量化模型采用软k-均值聚类算法求解字典矩阵D和重构系数矩阵C,具体为:初始化D和C后重复执行K次如下公式:
Figure FDA0002385307650000022
Figure FDA0002385307650000023
其中,cosine函数用于求余弦相似度,softmax用于逐列计算归一化概率值,t是温度常数,diag函数用于构建对角矩阵;1n是长度为n且元素均为1的向量。
6.根据权利要求4所述基于张量分解的压缩表示学习方法,其特征在于,所述改进的概念分解模型为:
Figure FDA0002385307650000024
Figure FDA0002385307650000025
其中,β是C的正则项系数,范围在0.01~0.1;Q是软球形k-均值聚类算法的目标函数,定义如下:
Figure FDA0002385307650000026
s.t.||uj||=1
其中,v表示矩阵V的列向量,uj表示矩阵U的第j列;πj表示聚类形成的第j个簇;r是簇的最大个数。
所述改进的概念分解模型采用软球形k-均值聚类算法求解字典矩阵D和重构系数矩阵C,具体为初始化D、C后重复执行K次如下公式:
Figure FDA0002385307650000031
D=normalize(XCT)
其中,cosine函数用于求余弦相似度,softmax函数用于逐列计算归一化概率值,t是温度常数,normalize函数用于逐列将向量归一化为2范数意义下的单位向量;在给定字典矩阵D后计算重构系数矩阵C:
C=(DTD+βI)-1DTX
其中,I是单位矩阵。
7.根据权利要求4所述基于张量分解的压缩表示学习方法,其特征在于,所述改进的非负矩阵分解模型先用ReLU激活函数处理X,并利用乘法更新规则使得字典矩阵D和重构系数矩阵C满足非负约束,具体为初始化非负的D、C后重复执行K次如下公式:
Figure FDA0002385307650000032
Figure FDA0002385307650000033
其中,ε为常数,范围在10-6~10-1
8.根据权利要求5-7中任一项所述基于张量分解的压缩表示学习方法,其特征在于,所述温度常数t的范围在10~100。
9.根据权利要求1所述基于张量分解的压缩表示学习方法,其特征在于,所述步骤(2)中秩的上界r的范围在
Figure FDA0002385307650000034
其中d和n为X的行数和列数。
CN202010095808.8A 2020-02-17 2020-02-17 基于张量分解的压缩表示学习方法 Active CN111340186B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010095808.8A CN111340186B (zh) 2020-02-17 2020-02-17 基于张量分解的压缩表示学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010095808.8A CN111340186B (zh) 2020-02-17 2020-02-17 基于张量分解的压缩表示学习方法

Publications (2)

Publication Number Publication Date
CN111340186A true CN111340186A (zh) 2020-06-26
CN111340186B CN111340186B (zh) 2022-10-21

Family

ID=71186287

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010095808.8A Active CN111340186B (zh) 2020-02-17 2020-02-17 基于张量分解的压缩表示学习方法

Country Status (1)

Country Link
CN (1) CN111340186B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111814448A (zh) * 2020-07-03 2020-10-23 苏州思必驰信息科技有限公司 预训练语言模型量化方法和装置
CN112116062A (zh) * 2020-08-06 2020-12-22 西安交通大学 一种基于张量串分解的多层感知机非线性压缩方法
CN112258410A (zh) * 2020-10-22 2021-01-22 福州大学 一种可微分的低秩学习网络图像修复方法
CN112508949A (zh) * 2021-02-01 2021-03-16 之江实验室 一种spect三维重建图像左心室自动分割的方法
CN112766157A (zh) * 2021-01-20 2021-05-07 乐山师范学院 一种基于解纠缠表示学习的跨年龄人脸图像识别方法
CN113362402A (zh) * 2021-05-19 2021-09-07 上海壁仞智能科技有限公司 基于分解矩阵的图像处理方法及装置
CN113537120A (zh) * 2021-07-28 2021-10-22 中国人民解放军空军预警学院 基于复数坐标注意力模块的卷积神经网络及目标识别方法
CN113569735A (zh) * 2021-07-28 2021-10-29 中国人民解放军空军预警学院 复数坐标注意力模块及复输入特征图处理方法及系统
CN115169566A (zh) * 2022-09-09 2022-10-11 之江实验室 基于张量网络局部采样的随机量子线路模拟方法和装置
CN115170746A (zh) * 2022-09-07 2022-10-11 中南大学 一种基于深度学习的多视图三维重建方法、系统及设备
CN115309713A (zh) * 2022-09-29 2022-11-08 江西锦路科技开发有限公司 交通数据压缩方法、装置、电子设备及存储介质
CN115936095A (zh) * 2023-02-20 2023-04-07 浪潮电子信息产业股份有限公司 一种参数梯度同步方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110026849A1 (en) * 2009-07-31 2011-02-03 Hirokazu Kameyama Image processing apparatus and method, data processing apparatus and method, and program and recording medium
CN106228245A (zh) * 2016-07-21 2016-12-14 电子科技大学 基于变分推断和张量神经网络的知识库补全方法
CN106528610A (zh) * 2016-09-28 2017-03-22 厦门理工学院 一种基于路径张量分解的知识图谱表示学习方法
US20170091621A1 (en) * 2015-09-29 2017-03-30 International Business Machines Corporation Scalable architecture for implementing maximization algorithms with resistive devices
CN109241491A (zh) * 2018-07-28 2019-01-18 天津大学 基于联合低秩和稀疏表示的张量结构性缺失填充方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110026849A1 (en) * 2009-07-31 2011-02-03 Hirokazu Kameyama Image processing apparatus and method, data processing apparatus and method, and program and recording medium
US20170091621A1 (en) * 2015-09-29 2017-03-30 International Business Machines Corporation Scalable architecture for implementing maximization algorithms with resistive devices
CN106228245A (zh) * 2016-07-21 2016-12-14 电子科技大学 基于变分推断和张量神经网络的知识库补全方法
CN106528610A (zh) * 2016-09-28 2017-03-22 厦门理工学院 一种基于路径张量分解的知识图谱表示学习方法
CN109241491A (zh) * 2018-07-28 2019-01-18 天津大学 基于联合低秩和稀疏表示的张量结构性缺失填充方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
TAMARA G. KOLDA 等: "Tensor decompositions and applications", 《SIAM REVIEW》 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111814448A (zh) * 2020-07-03 2020-10-23 苏州思必驰信息科技有限公司 预训练语言模型量化方法和装置
CN111814448B (zh) * 2020-07-03 2024-01-16 思必驰科技股份有限公司 预训练语言模型量化方法和装置
CN112116062A (zh) * 2020-08-06 2020-12-22 西安交通大学 一种基于张量串分解的多层感知机非线性压缩方法
CN112116062B (zh) * 2020-08-06 2024-04-05 西安交通大学 一种基于张量串分解的多层感知机非线性压缩方法
CN112258410B (zh) * 2020-10-22 2022-09-06 福州大学 一种可微分的低秩学习网络图像修复方法
CN112258410A (zh) * 2020-10-22 2021-01-22 福州大学 一种可微分的低秩学习网络图像修复方法
CN112766157A (zh) * 2021-01-20 2021-05-07 乐山师范学院 一种基于解纠缠表示学习的跨年龄人脸图像识别方法
CN112508949A (zh) * 2021-02-01 2021-03-16 之江实验室 一种spect三维重建图像左心室自动分割的方法
CN113362402A (zh) * 2021-05-19 2021-09-07 上海壁仞智能科技有限公司 基于分解矩阵的图像处理方法及装置
CN113569735A (zh) * 2021-07-28 2021-10-29 中国人民解放军空军预警学院 复数坐标注意力模块及复输入特征图处理方法及系统
CN113537120A (zh) * 2021-07-28 2021-10-22 中国人民解放军空军预警学院 基于复数坐标注意力模块的卷积神经网络及目标识别方法
CN113569735B (zh) * 2021-07-28 2023-04-07 中国人民解放军空军预警学院 基于复数坐标注意力模块的复输入特征图处理方法及系统
CN113537120B (zh) * 2021-07-28 2023-04-07 中国人民解放军空军预警学院 基于复数坐标注意力的复数卷积神经网络的目标识别方法
CN115170746A (zh) * 2022-09-07 2022-10-11 中南大学 一种基于深度学习的多视图三维重建方法、系统及设备
CN115169566A (zh) * 2022-09-09 2022-10-11 之江实验室 基于张量网络局部采样的随机量子线路模拟方法和装置
CN115309713A (zh) * 2022-09-29 2022-11-08 江西锦路科技开发有限公司 交通数据压缩方法、装置、电子设备及存储介质
CN115309713B (zh) * 2022-09-29 2022-12-23 江西锦路科技开发有限公司 交通数据压缩方法、装置、电子设备及存储介质
CN115936095A (zh) * 2023-02-20 2023-04-07 浪潮电子信息产业股份有限公司 一种参数梯度同步方法、装置、设备及存储介质
CN115936095B (zh) * 2023-02-20 2023-05-23 浪潮电子信息产业股份有限公司 一种参数梯度同步方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN111340186B (zh) 2022-10-21

Similar Documents

Publication Publication Date Title
CN111340186B (zh) 基于张量分解的压缩表示学习方法
Tai et al. Convolutional neural networks with low-rank regularization
Chen et al. Deep learning with hierarchical convolutional factor analysis
CN110909801B (zh) 基于卷积神经网络的数据分类方法、系统、介质及设备
CN113065649B (zh) 一种复杂网络拓扑图表示学习方法、预测方法及服务器
CN108446589B (zh) 复杂环境下基于低秩分解和辅助字典的人脸识别方法
CN112270345B (zh) 基于自监督字典学习的聚类算法
CN111695513B (zh) 一种基于深度残差网络的人脸表情识别方法
CN113255437A (zh) 滚动轴承深度卷积稀疏自动编码器故障诊断方法
CN113157957A (zh) 一种基于图卷积神经网络的属性图文献聚类方法
CN113159067A (zh) 一种基于多粒度局部特征软关联聚合的细粒度图像辨识方法及装置
Pan et al. Low-rank tensor regularized graph fuzzy learning for multi-view data processing
CN116129310A (zh) 一种视频目标分割系统、方法、电子设备及介质
CN106803105B (zh) 一种基于稀疏表示字典学习的图像分类方法
CN111444390A (zh) 一种基于Spark和深度哈希的视频并行检索方法
CN111340189A (zh) 一种空间金字塔图卷积网络实现方法
Bhadoria et al. Bunch graph based dimensionality reduction using auto-encoder for character recognition
CN117333409A (zh) 基于图像的大数据分析方法
CN114677545B (zh) 一种基于相似性剪枝和高效模块的轻量化图像分类方法
CN112734025A (zh) 基于固定基正则化的神经网络参数稀疏化方法
CN116542080A (zh) 一种基于对比学习的条件生成对抗网络拓扑优化方法及系统
CN113611368B (zh) 基于2d嵌入的半监督单细胞聚类方法、装置、计算机设备
Xie et al. Deep variational auto-encoder for text classification
CN113642674A (zh) 一种基于图卷积神经网络的多轮对话分类方法
Hasan et al. Compressed neural architecture utilizing dimensionality reduction and quantization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant