CN112116062B - 一种基于张量串分解的多层感知机非线性压缩方法 - Google Patents

一种基于张量串分解的多层感知机非线性压缩方法 Download PDF

Info

Publication number
CN112116062B
CN112116062B CN202010785534.5A CN202010785534A CN112116062B CN 112116062 B CN112116062 B CN 112116062B CN 202010785534 A CN202010785534 A CN 202010785534A CN 112116062 B CN112116062 B CN 112116062B
Authority
CN
China
Prior art keywords
tensor
layer
layer perceptron
nonlinear
string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010785534.5A
Other languages
English (en)
Other versions
CN112116062A (zh
Inventor
赵广社
魏育豪
王鼎衡
武碧娇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN202010785534.5A priority Critical patent/CN112116062B/zh
Publication of CN112116062A publication Critical patent/CN112116062A/zh
Application granted granted Critical
Publication of CN112116062B publication Critical patent/CN112116062B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于张量串分解的多层感知机非线性压缩方法。首先利用张量串分解,将多层感知机中的全连接层权重矩阵转化为张量串分解形式;然后在张量串中的每个因子张量之间插入非线性函数,使整个多层感知机转化为轻量化的更深层次的新多层感知机;最后通过少量次数的训练对新的多层感知机进行微调。本发明能够在利用张量串分解对多层感知机进行压缩的基础上,提高整个多层感知机的非线性表达能力,既节省了多层感知机的存储空间,还在一定程度上提升了多层感知机的识别准确率。

Description

一种基于张量串分解的多层感知机非线性压缩方法
技术领域
本发明属于机器学习中的深度学习领域,具体涉及一种基于张量串分解的多层感知机(全连接神经网络)非线性压缩方法。
背景技术
近年来,以多层感知机(Multilayer Perceptron,MLP)为基本模型的深度神经网络在图像识别、语音识别、目标检测、语义分割、数据生成等多个实际应用领域取得了广泛的成功。但深度神经网络的表达能力越强,往往意味着网络模型的规模越大,其空间复杂度就越高,所占存储空间也就越大。这种情况无疑限制了高性能的深度神经网络在存储受限的嵌入式设备中的部署应用,如手机、车载系统等。
Denil等人在2013年的文献《Predicting parameters in deep learning》中证实了深度神经网络结构事实上是冗余的,即可以通过一些权重压缩手段来减小深度神经网络的规模,同时不造成明显的精度损失。因此,人们提出了很多方法来对深度神经网络进行压缩。
其中,张量分解是使用较广泛的压缩方法之一,具体是将多层感知机的每层权重看作一个高阶张量,然后借助成熟的张量分解数学方法将其分解为多个小张量乘积的形式,从而使多层感知机的权重参数的数量减少。在众多张量分解方法之中,张量串(TensorTrain,TT)分解凭借其精简的表达形式和较高的压缩率成为应用最广泛的张量分解神经网络压缩方法。自Novikov等人在2015年的文献《Tensorizing neural networks》开始,基于张量串的深度神经网络压缩方法已经在卷积神经网络和循环神经网络中得到了应用,取得了不错的压缩效果。
关于现有基于张量分解的神经网络压缩报道,无论具体的张量分解方法是哪一种,高压缩率带来的模型准确率降低都是一个不易解决的难题。一般来说,只有网络规模极大的循环神经网络才有可能在一定程度上避免张量分解带来的精度损失。对于结构紧凑的卷积神经网络和规模有限的多层感知机,张量分解往往一定会带来精度损失,而盲目扩大卷积神经网络或多层感知机的规模又会带来训练收敛困难、整体准确率下降等问题。
发明内容
为克服上述现有技术的不足,本发明提供一种基于张量串分解的多层感知机非线性压缩方法,将多层感知机中的全连接层权重矩阵转化为张量串分解形式,然后在张量串中的每个因子张量之间插入非线性函数,使整个原多层感知机转化为轻量化的更深层次的新多层感知机,既节省了多层感知机的存储空间,还在一定程度上提升了多层感知机的识别准确率。
为达到上述目的,本发明采用如下技术方案:
一种基于张量串分解的多层感知机非线性压缩方法,包括以下步骤:
步骤1:对已训练好的多层感知机读取其某一层全连接权重矩阵/> 得该层输入向量/>为M维,输出向量/>为N维,即y=f(xW),其中f(·)为该层非线性激活函数;
步骤2:将M和N因数分解为d个整数的乘积,即和/> 将W重构为d阶张量/>后,利用张量串分解方法得每个因子张量/> ri为张量秩,有且仅有r0=rd=1;
步骤3:定义输入向量x与张量串分解后的权重相乘得到输出y的前向计算方法/>使x通过/>依次与每个/>相乘,即/>
步骤4:在每一个计算后插入非线性激活函数g(·),使/> 变为/>
当步骤4完成后,如果多层感知机中仍有尚未压缩的全连接层,则跳转至步骤1对下一个全连接层进行非线性压缩;如果多层感知机中所有待压缩全连接层皆已压缩,进入步骤5;
步骤5:多层感知机的所有全连接层完成非线性压缩,利用误差反向传播算法对新的多层感知机再进行少量次数的训练以将其微调至最佳性能。
进一步地,所述步骤2对权重矩阵的维数值M和N以相同的因子数量d进行因数分解。
进一步地,所述步骤3对输入向量x与张量串分解后的权重相乘得到输出y的前向计算方法/>定义为如下一系列计算方法的复合:
首先将x重构为矩阵 重构为矩阵/>计算/>即/>然后,将X1重构为/> 重构为矩阵/>计算/> 即/>依此类推,最后计算/> 并重构之为/>即/>
进一步地,所述步骤4中对每一个计算后插入非线性激活函数g(·),所得新输出y′与原输出y不同;
具体的,首先将x重构为矩阵 重构为矩阵/> 计算/>即/>接着将X1通过非线性激活函数g(·),进而得到/>然后,将X″1重构为/> 重构为矩阵/>计算/> 即/>接着将X2通过非线性激活函数g(·),进而得到/>依此类推,使 变为
与现有技术相比,本发明具有以下有益的技术效果:
针对目前张量分解方法的高压缩率带来的模型准确率降低问题,本发明通过对现有的张量分解方式进行改进,即引入非线性因素来提高网络模型表达能力,具体在对多层感知器使用张量串分解进行压缩的基础上,于TT矩阵乘法中插入非线性激活函数,进而提高整个多层感知机的非线性表达能力,在降低网络模型存储空间,减少网络参数量的同时,有效的提升了多层感知机的识别准确率及网络的性能。
附图说明
图1是本发明的流程图。
图2是多层感知机结构示意图,该感知机有一个输入层、一个输出层、N个隐藏层。其中虚线是对隐藏层的省略表示,圆圈代表神经元,圆圈之间的直线代表前后两层之间的连接,圆圈之间的省略号是对神经元的省略表示,Wi是全接连层的权重矩阵。
图3是权重矩阵W的重构过程示意图。权重矩阵经过重构后为d阶张量/>其中M和N分解的因子数量必须均为d。图中圆圈代表张量,黑色细线及其旁边的字母符号代表因子张量的维度值,虚线是对分解因子的省略表示。
图4是将权重矩阵分解为张量串形式的示意图。其中圆圈代表因子张量,圆圈中的字母是该张量的代号,黑色细线及其旁边的字母符号代表因子张量的维度值,虚线是对其它因子张量的省略表示。
图5是TT矩阵乘法运算过程示意图,其中实线箭头代表两张量进行重构操作,虚线长箭头代表张量进行缩并预算,虚线短箭头代表对运算过程的省略表示。
图6是对每一个计算后插入非线性激活函数g(·)过程的表述,其中各符号的含义与图4和图5相同。
图7是基准LSTM网络模型的网络结构示意图,其中网络的输入是6帧图像数据,按升序依次作为6个LSTM单元的输入x1至x6,输入向量大小为57600,隐藏层的输出向量大小为2304,六个LSTM单元的输出通过一个全连接层后输出向量大小为11,最后通过softmax分类器得到视频分类结果。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步说明。
参照图1所示,本实施方式所述的一种基于张量串分解的全连接神经网络非线性压缩方法,包括以下步骤:
步骤1,首先搭建一个多层感知机将其进行训练。多层感知机/>如图2所示。读取训练好的感知机/>的第i个全连接层的权重矩阵/>该层的输入向量/>为M维,输出向量/>为N维,那么该层的输出与输入和权重矩阵的关系为y=f(xW),其中f(·)为该层非线性激活函数。
步骤2,将M和N因数分解为d个整数的乘积,和/>则可将W重构为d阶张量/>其中M和N分解的因子数量相等,且均为d,这一过程如图3所示。再利用张量串分解方法得到/> 其中×1是缩并运算符号,每个因子张量/> ri为张量秩。为保证d个因子张量的缩并运算结果为二维矩阵,则有且仅有r0=rd=1。张量串分解的示意如图4所示。
步骤3,定义输入向量x与张量串分解后的权重相乘得到输出y的前向计算方法为/>这里命名为TT矩阵乘法。然后每层的输出为
为了更细致描述前向运算符号进一步将步骤3细分为下面两步:
步骤3-1,使x可通过依次与每个/>相乘即由xW得到/>
步骤3-2,x通过依次与每个/>相乘得到的向量xd,然后通过该层的非线性激活函数f(·)得到本层的输出f(xd)。
其中,计算方法具体定义如下:
将输入向量x重构为即X′为m2m3…md×m1阶矩阵。将/>重构为/>即G1为r0m1×n1r1阶矩阵。则/> 然后,将X1重构为/> 重构为矩阵/>计算/>即/> 依此类推,最后计算并重构之为/>
计算方法的过程示意如图5所示。
步骤4,在每一个计算后插入非线性激活函数g(·),使/> 变为/>这一过程如图6所示。
本步骤完成后,本层已由普通的全连接层y=f(xW)变为基于张量串的非线性压缩层如果多层感知机中仍有尚未压缩的全连接层,则跳转至步骤1对下一个全连接层进行非线性压缩;如果多层感知机中所有待压缩全连接层皆已压缩,进入步骤5。
步骤5,多层感知机的所有全连接层完成非线性压缩,利用误差反向传播算法对新的多层感知机再进行少量次数的训练以将其微调至最佳性能。
为了更好地说明本发明的有益效果,下面给出本发明所述方法在长短时记忆网络模型(Long Short-Term Memory,LSTM)上的实验。
本实验基于UCF11开放视频数据集进行训练验证,对UCF11视频数据集预处理过程如下:首先将视频分辨率降至160×120,每类视频抽取29个动作片段作为验证集,数据集的训练集与验证集的数量之比约为4:1,每个视频片段按升序随机抽取6帧图像数据作为输入。
接着,搭建基准LSTM网络模型。因为选取6帧图像作为输入,所以该模型由6个LSTM单元连接,各LSTM单元的输出相加再经一个全连接层后通过softmax分类器得到分类结果。因为每帧为分辨率为160×120的RGB图像,所以输入向量大小为57600,隐藏层输出向量大小设定为2304,那么输入权重矩阵大小为57600×2304,循环权重矩阵大小为2304×2304。基准LSTM网络模型如图7所示。
然后,对基准LSTM网络模型的输入权重矩阵和循环权重矩阵都进行张量串分解,进而得到的网络命名为TT-LSTM(Tensor-Train LSTM)。这里输入权重矩阵和循环权重矩阵的TT秩分别设定为1×90×90×90×1,1×60×60×60×1。
最后,对基准LSTM网络按照步骤1至步骤5的流程进行非线性压缩。这里非线性函数选取的是SeLU激活函数,输入权重矩阵与循环权重矩阵的TT秩设置和TT-LSTM网络相同,经非线性压缩后的网络命名为N-TT-LSTM(Nonlinear Tensor-Train LSTM)。
三组网络模型的视频分类精度和存储量如下表所示:
模型 LSTM TT-LSTM N-TT-LSTM
测试精度 0.80513 0.76615 0.80256
模型存储量(Mb) 6318.1 87.6 87.6
从上表可以看出,在处理视频分类任务时,相较于普通张量串压缩方法,采用本发明方案的非线性压缩方法,模型精度提高了3.641%,且不影响网络模型压缩率;相较于基准LSTM网络模型,采用本发明方案的非线性压缩方法,模型存储量压缩率高达72.124,模型精度仅损失了0.257%。
实际上,在设计合理的网络上,采用本发明压缩方案,可以极大增强神经网络的表达能力,理论上有可能使压缩后的网络性能超过原始网络。

Claims (4)

1.一种基于张量串分解的多层感知机非线性压缩方法,用于处理视频分类,其特征在于,包括以下步骤:
步骤1:对已训练好的多层感知机输入为视频分类任务中的帧图像数据,读取其某一层全连接权重矩阵/>得该层输入向量/>为M维,输出向量/>为N维,即y=f(xW),其中f(•)为该层非线性激活函数;
步骤2:将该层输入维数和输出维数M和N因数分解为d个整数的乘积,即和/>将W重构为d阶张量/>后,利用张量串分解方法得/>每个因子张量/> ri为张量秩,有且仅有r0=rd=1;
步骤3:定义输入向量x与张量串分解后的权重相乘得到输出y的前向计算方法/>使x通过/>依次与每个/>相乘,即/>
步骤4:在每一个计算后插入非线性激活函数g(·),使/> 变为/>
当步骤4完成后,如果多层感知机中仍有尚未压缩的全连接层,则跳转至步骤1对下一个全连接层进行非线性压缩;如果多层感知机中所有待压缩全连接层皆已压缩,进入步骤5;
步骤5:多层感知机的所有全连接层完成非线性压缩,利用误差反向传播算法对新的多层感知机再进行少量次数的训练以将其微调至最佳性能,完成视频分类。
2.根据权利要求1所述的一种基于张量串分解的多层感知机非线性压缩方法,其特征在于,所述步骤2对权重矩阵的维数值M和N以相
同的因子数量d进行因数分解。
3.根据权利要求1所述的一种基于张量串分解的多层感知机非线性压缩方法,其特征在于,所述步骤3对输入向量x与张量串分解后的权重相乘得到输出y的前向计算方法/>定义为如下一系列计算方法的复合:
首先将x重构为矩阵 重构为矩阵/>计算即/>然后,将X1重构为/> 重构为矩阵/>计算/> 即/>依此类推,最后计算/> 并重构之为/>即/>
4.根据权利要求1所述的一种基于张量串分解的多层感知机非线性压缩方法,其特征在于,所述步骤4中对每一个计算后插入非线性激活函数g(·),所得新输出y与原输出y不同;
具体的,首先将x重构为矩阵 重构为矩阵/> 计算/>即/>接着将X1通过非线性激活函数g(•),进而得到/>然后,将X 1 重构为/> 重构为矩阵/>计算/> 即/>接着将X2通过非线性激活函数g(•),进而得到/>依此类推,使 变为
CN202010785534.5A 2020-08-06 2020-08-06 一种基于张量串分解的多层感知机非线性压缩方法 Active CN112116062B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010785534.5A CN112116062B (zh) 2020-08-06 2020-08-06 一种基于张量串分解的多层感知机非线性压缩方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010785534.5A CN112116062B (zh) 2020-08-06 2020-08-06 一种基于张量串分解的多层感知机非线性压缩方法

Publications (2)

Publication Number Publication Date
CN112116062A CN112116062A (zh) 2020-12-22
CN112116062B true CN112116062B (zh) 2024-04-05

Family

ID=73799329

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010785534.5A Active CN112116062B (zh) 2020-08-06 2020-08-06 一种基于张量串分解的多层感知机非线性压缩方法

Country Status (1)

Country Link
CN (1) CN112116062B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115543639B (zh) * 2022-12-01 2023-04-28 阿里云计算有限公司 分布式执行深度学习任务的优化方法和分布式系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107944556A (zh) * 2017-12-12 2018-04-20 电子科技大学 基于块项张量分解的深度神经网络压缩方法
CN110032951A (zh) * 2019-03-25 2019-07-19 西安交通大学 一种基于塔克分解与主成分分析的卷积神经网络压缩方法
CN110443354A (zh) * 2019-07-26 2019-11-12 深圳大学 一种基于多组张列量分解的深度神经网络压缩方法、系统、装置及存储介质
WO2020024093A1 (en) * 2018-07-30 2020-02-06 Intel Corporation Method and apparatus for keeping statistical inference accuracy with 8-bit winograd convolution
CN111340186A (zh) * 2020-02-17 2020-06-26 之江实验室 基于张量分解的压缩表示学习方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11055063B2 (en) * 2016-05-02 2021-07-06 Marvell Asia Pte, Ltd. Systems and methods for deep learning processor
US11531902B2 (en) * 2018-11-13 2022-12-20 International Business Machines Corporation Generating and managing deep tensor neural networks

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107944556A (zh) * 2017-12-12 2018-04-20 电子科技大学 基于块项张量分解的深度神经网络压缩方法
WO2020024093A1 (en) * 2018-07-30 2020-02-06 Intel Corporation Method and apparatus for keeping statistical inference accuracy with 8-bit winograd convolution
CN110032951A (zh) * 2019-03-25 2019-07-19 西安交通大学 一种基于塔克分解与主成分分析的卷积神经网络压缩方法
CN110443354A (zh) * 2019-07-26 2019-11-12 深圳大学 一种基于多组张列量分解的深度神经网络压缩方法、系统、装置及存储介质
CN111340186A (zh) * 2020-02-17 2020-06-26 之江实验室 基于张量分解的压缩表示学习方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于张量字典学习的压缩感知视频重构;吴育新;陈利民;杨雄辉;;现代电子技术;20200201(第03期);全文 *
基于深度学习稀疏测量的压缩感知图像重构;杨秀杰;;西南师范大学学报(自然科学版);20200120(第01期);全文 *
基于量子门组的卷积神经网络设计与实现;许兴阳;刘宏志;;计算机工程与应用;20180420(第20期);全文 *

Also Published As

Publication number Publication date
CN112116062A (zh) 2020-12-22

Similar Documents

Publication Publication Date Title
CN108664632B (zh) 一种基于卷积神经网络和注意力机制的文本情感分类算法
CN108985317B (zh) 一种基于可分离卷积和注意力机制的图像分类方法
CN111079781A (zh) 基于低秩与稀疏分解的轻量化卷积神经网络图像识别方法
WO2022095645A1 (zh) 基于内存增强潜在空间自回归的图像异常检测方法
CN112819604A (zh) 基于融合神经网络特征挖掘的个人信用评估方法与系统
CN112818861A (zh) 一种基于多模态上下文语义特征的情感分类方法及系统
CN111833352A (zh) 一种基于八度卷积改进U-net网络的图像分割方法
CN112820322B (zh) 一种基于自监督对比学习的半监督音频事件标注方法
CN115602152B (zh) 一种基于多阶段注意力网络的语音增强方法
CN107680044A (zh) 一种图像超分辨率卷积神经网络加速计算方法
CN112950480A (zh) 一种融合多感受野和密集残差注意的超分辨率重建方法
CN112116062B (zh) 一种基于张量串分解的多层感知机非线性压缩方法
CN114742985A (zh) 一种高光谱特征提取方法、装置及存储介质
CN117196763A (zh) 基于时序感知自注意力和对比学习的商品序列推荐方法
Tang et al. Image denoising via graph regularized K-SVD
CN113204640B (zh) 一种基于注意力机制的文本分类方法
CN114067819A (zh) 基于跨层相似性知识蒸馏的语音增强方法
CN112949610A (zh) 一种基于降噪算法的改进Elman神经网络的预测方法
CN116593980B (zh) 雷达目标识别模型训练方法、雷达目标识别方法及装置
CN112263224A (zh) 一种基于fpga边缘计算的医学信息处理方法
CN106653061A (zh) 一种基于字典分类的音频匹配追踪装置及其追踪方法
CN113468874B (zh) 一种基于图卷积自编码的生物医学关系抽取方法
Shen et al. Bilateral fast low-rank representation with equivalent transformation for subspace clustering
US20220207321A1 (en) Convolution-Augmented Transformer Models
CN114881098A (zh) 一种基于流形正则化转移矩阵的标签噪声估计方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant