CN107798385B - 基于块张量分解的循环神经网络稀疏连接方法 - Google Patents

基于块张量分解的循环神经网络稀疏连接方法 Download PDF

Info

Publication number
CN107798385B
CN107798385B CN201711290493.7A CN201711290493A CN107798385B CN 107798385 B CN107798385 B CN 107798385B CN 201711290493 A CN201711290493 A CN 201711290493A CN 107798385 B CN107798385 B CN 107798385B
Authority
CN
China
Prior art keywords
tensor
decomposition
representing
block
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201711290493.7A
Other languages
English (en)
Other versions
CN107798385A (zh
Inventor
徐增林
叶锦棉
李广西
陈迪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201711290493.7A priority Critical patent/CN107798385B/zh
Publication of CN107798385A publication Critical patent/CN107798385A/zh
Application granted granted Critical
Publication of CN107798385B publication Critical patent/CN107798385B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于块张量分解的循环神经网络稀疏连接方法,应用于深度学习神经网络结构优化领域,解决现有的方法未能同时基于输入数据的高维事实和全连接本身的冗余特性进行分析和优化,从而不能同时达到加快训练速度和维持或提高模型精度的问题;本发明的方法考虑到深度网络中全连接层的稀疏性,引入了张量分解思想,提升了网络参数共享程度,并利用BPTT进行模型训练,适应于目前深度网络绝大部分的应用场景;相比于已有的全连接方式,本发明方法在训练速度,收敛精度上有较大的提升。

Description

基于块张量分解的循环神经网络稀疏连接方法
技术领域
本发明属于深度学习神经网络结构优化领域,特别涉及一种基于块张量分解的循环神经网络稀疏连接方法的设计技术。
背景技术
循环神经网络(RNN)已被广泛应用于时间序列信息处理领域,具体应用如语音识别,文本翻译,视频分类等。在传统的神经网络模型中,数据是从输入层到隐含层再到输出层流动,层与层之间全连接,每层之间的节点无连接。但是这种神经网络无法捕捉时间序列信息。在RNN网络中,会对时间序列中的前序信息进行记忆并应用于当前输出的计算中,即隐藏层之间的节点有连接的,并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。
然而现实世界中输入数据通常是高维数据,如视频分类中每一个输入数据是一帧3维的彩色图片。传统的RNN将输入数据展开为一个向量,彻底丢弃了数据本身可能蕴藏的高维信息。此外,基于向量输入RNN网络假设了输入向量中每个元素是线性独立的,因此需要一个全连接层用于将输入向量映射到隐层向量空间,极大增加了网络训练的难度。在某些网络结构中,该全连接层的参数量可能占据了整体参数量的90%以上。
目前已有一些方法对该全连接层进行裁剪和优化。一类方法是通过数值分析的方式,如聚类分析,从已训练的参数本身入手,对参数进行分析,裁剪相似的参数。但是该方法由于未改变全连接权重矩阵的维度,因此未能减少训练和预测的时间和难度。一类方法通过分析BPTT(循环神经网络(RNN)反向传播算法)算法的训练过程对网络结构进行裁剪,如GRU(Gated Recurrent Unit,是RNN的一个变种,译为:门控循环单元)基于误差反向传播时仅改变误差项的权重,将广泛使用的LSTM(Long Short-Term Memory,是RNN的一个变种,译为:长短期记忆网络)网络结构从4个控制门降低到3个。另一类方法是基于低秩性质的观察,如用奇异值分解(SVD)对全连接权重矩阵进行低秩分解。然而基于矩阵的低秩方法未能从输入数据中提取足够空间信息,因为往往带来较严重的精度损失。
总体而言,现有的方法都未能同时基于输入数据的高维事实和全连接本身的冗余特性进行分析和优化,因此未能同时达到加快训练速度和维持或提高模型精度的目的。
发明内容
为解决现有的循环神经网络结构忽略了输入数据的高维事实和全连接的冗余特性的问题,本发明提出了一种基于块张量分解的循环神经网络稀疏连接方法,同时基于输入数据的高维事实和全连接本身的冗余特性进行分析和优化,相比现有技术本发明收敛精度上有较大的提升。
本发明采用的技术方案为:基于块张量分解的循环神经网络稀疏连接方法,包括:
S1、对网络的输入向量x张量化,得到第一张量
Figure BDA0001499289660000028
对记忆向量h张量化,得到第二张量
Figure BDA00014992896600000210
对全连接权重矩阵W张量化,得到第三张量
Figure BDA0001499289660000029
S2、对第三张量
Figure BDA00014992896600000211
进行张量分解,得到张量分解后的第三张量
Figure BDA0001499289660000021
S3、用
Figure BDA0001499289660000022
表示新的稀疏连接方式,替换原矩阵乘法W·x为新的张量乘法
Figure BDA0001499289660000023
S4、采用BPTT算法对循环神经网络进行训练。
进一步地,步骤S3所述用
Figure BDA00014992896600000212
表示新的稀疏连接方式后新的稀疏连接边数为:
Figure BDA0001499289660000024
其中,N表示第三张量
Figure BDA00014992896600000213
分解的块数,d表示维度,Ik表示第n块分解的第k个因子张量的第一个维度,Jk表示第n块分解的第k个因子张量的第二个维度,Rk表示第n块分解的第k个因子张量的第三个维度,Π表示累乘运算。
进一步地,所述步骤S4还包括在反向传播阶段,对核心张量和因子张量需要分别求梯度:
Figure BDA0001499289660000025
Figure BDA0001499289660000026
其中,
Figure BDA0001499289660000027
表示第三张量
Figure BDA00014992896600000214
第n块分解的第k个因子张量,k=1,2,…d;×k表示两个张量沿着第k维进行乘积;×1,2,…,d表示两张量沿着多个维度进行乘积;
Figure BDA00014992896600000215
表示第三张量
Figure BDA00014992896600000216
第n块分解的核心张量,L表示模型的Loss;
Figure BDA00014992896600000217
表示输入到隐层的线性变换结果。
更进一步地,
Figure BDA00014992896600000218
具体表达式为:
Figure BDA0001499289660000031
本发明的有益效果:本发明的基于块张量分解的循环神经网络稀疏连接方法,通过引入张量分解思想,首先将全连接权重矩阵张量化,对张量化后的权重张量进行张量分解,用分解后得到的权重张量表示新的稀疏连接方式,提升了网络参数共享程度;并在采用BPTT算法对模型进行训练时,在反向传播阶段对核心张量和因子张量需要分别求其梯度;训练速度和模型精度方面相较于现有的全连接方式有较大提升;本发明的方法同时基于输入数据的高维事实和全连接本身的冗余特性进行分析和优化,能实现同时达到加快训练速度和维持或提高模型精度的目的;本发明的方法得到的模型适应于目前深度网络绝大部分的应用场景。
附图说明
图1为本发明实施例提供的方案流程图;
图2为本发明实施例提供的本发明方法与现有方法Train Loss对比图。
具体实施方式
为便于本领域技术人员理解本发明的技术内容,下面结合附图对本发明内容进一步阐释。
如图1所示为本发明的方案流程图,本发明的技术方案为:基于块张量分解的循环神经网络稀疏连接方法,包括:
S1、对网络的输入向量x张量化,得到第一张量
Figure BDA00014992896600000310
对记忆向量h张量化,得到第二张量
Figure BDA00014992896600000311
对全连接权重矩阵W张量化,得到第三张量
Figure BDA00014992896600000312
假设输入向量
Figure BDA0001499289660000032
记忆向量
Figure BDA0001499289660000033
全连接权重矩阵
Figure BDA0001499289660000034
构造的张量
Figure BDA0001499289660000035
Figure BDA0001499289660000036
是d维张量,
Figure BDA0001499289660000037
是2d维张量,其中I=I1·I2·...·Id,J=J1·J2·...·Jd。本发明中张量化操作是指,将原矩阵或向量的元素进行重排,折叠为一个高维张量;反之,将高维张量
Figure BDA00014992896600000313
进行低维展开,可恢复出原输入数据x。
S2、对第三张量
Figure BDA00014992896600000314
进行张量分解,得到张量分解后的第三张量
Figure BDA0001499289660000038
根据全连接权重矩阵
Figure BDA00014992896600000315
利用块张量分解算法对其进行分解:
Figure BDA0001499289660000039
其中,
Figure BDA0001499289660000041
是与原张量维度相同的一个近似表示,N表示该分解共有N块,
Figure BDA0001499289660000042
是第n块分解的核心张量,
Figure BDA0001499289660000043
是第n块分解的第k个因子张量。而×k是张量乘法符号,表明两个张量沿着第k维进行乘积;Ik表示第n块分解的第k个因子张量的第一个维度,Jk表示第n块分解的第k个因子张量的第二个维度,Rk既表示第n块分解的第k个因子张量的第三个维度,也表示第n块分解的核心张量的第k个维度,Π表示累乘运算。
具体地,给定两张量
Figure BDA0001499289660000044
Figure BDA0001499289660000045
若第k维维度相等,即Ik=Jk,则
Figure BDA00014992896600000414
Figure BDA00014992896600000415
可沿第k维相乘:
Figure BDA0001499289660000046
其中,
Figure BDA0001499289660000047
表示下标(i1,l2,…ik-1),
Figure BDA0001499289660000048
表示下标(ik+1,…,id),
Figure BDA0001499289660000049
Figure BDA00014992896600000410
定义相似。
S3、用
Figure BDA00014992896600000411
表示新的稀疏连接方式,替换原矩阵乘法W·x为新的张量乘法
Figure BDA00014992896600000416
这里的“·”与“×”均表示乘法符号。
全连接权重矩阵W在网络中的含义是将输入向量x中的每一个元素与记忆向量h的每一个元素全连接,连接的权重即存储于W中。经过块张量分解得到的权重张量w在所有维度上进行权重共享,极大限度地裁剪掉冗余的连接权重,大幅简化模型。
新的稀疏连接方法中,参数量(也即连接的边数)P为:
Figure BDA00014992896600000412
在现有技术中,全连接方法的参数量是本发明方法参数量的千倍以上;从而可知本发明方法模型的收敛速度相比于现有的方法更快。
对输入向量x,记忆向量h和全连接权重矩阵W张量化后,不能再利用简单的矩阵乘法W·x进行计算,需要利用张量乘法的方式完成,具体如下:
Figure BDA00014992896600000413
其中,×1,2,…,d表示张量收缩操作,也即两张量沿着多个维度进行乘积。
S4、采用BPTT算法对循环神经网络进行训练。
基于新的张量乘法计算方式,本发明仍使用BPTT算法进行训练,但在反向传播阶段需要做一定的调整:对核心张量和因子张量需要分别求其梯度。
Figure BDA0001499289660000051
Figure BDA0001499289660000052
其中,L表示模型的Loss;
Figure BDA0001499289660000053
表示输入到隐层(或者记忆单元)的线性变换结果,具体表达式为:
Figure BDA0001499289660000054
本发明在视频分类数据集UCF11上进行试验,如图2所示,本发明方法的一组对比模型BT-GRU/BT-LSTM相比于现有方法中的GRU、LSTM在Train Loss有显著提升,Train Loss表示训练误差;如表1所示本发明方法的一组对比模型BT-GRU/BT-LSTM相比于现有方法中的GRU、LSTM在模型精度和参数量方面相较于现有的RNN方法有较大提升。这里的BT是blockterm decomposition,块张量的简写。
表1本发明方法与现有方法的测试精度对比
模型 GRU BT-GRU LSTM BT-LSTM
测试精度 0.68 0.84 0.69 0.86
参数量 44236800 3136 58982400 3360
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (4)

1.基于块张量分解的循环神经网络稀疏连接方法,其特征在于,包括:
S1、对网络的输入向量x张量化,得到第一张量
Figure FDA0002214841290000011
对记忆向量h张量化,得到第二张量
Figure FDA0002214841290000012
对全连接权重矩阵W张量化,得到第三张量
Figure FDA0002214841290000013
所述输入向量为3维的彩色图片;
S2、对第三张量
Figure FDA0002214841290000014
进行张量分解,得到张量分解后的第三张量
Figure FDA0002214841290000015
S3、用
Figure FDA0002214841290000016
表示新的稀疏连接方式,替换原矩阵乘法W·x为新的张量乘法
Figure FDA0002214841290000017
S4、采用BPTT算法对循环神经网络进行训练;所述步骤S4还包括在反向传播阶段,对核心张量和因子张量需要分别求梯度。
2.根据权利要求1所述的基于块张量分解的循环神经网络稀疏连接方法,其特征在于,步骤S3所述用
Figure FDA0002214841290000018
表示新的稀疏连接方式后新的稀疏连接边数为:
Figure FDA0002214841290000019
其中,N表示第三张量
Figure FDA00022148412900000110
分解的块数,d表示维度,Ik表示第n块分解的第k个因子张量的第一个维度,Jk表示第n块分解的第k个因子张量的第二个维度,Rk表示第n块分解的第k个因子张量的第三个维度,Π表示累乘运算。
3.根据权利要求1所述的基于块张量分解的循环神经网络稀疏连接方法,其特征在于,步骤S4所述在反向传播阶段,对核心张量和因子张量需要分别求梯度,具体为:
Figure FDA00022148412900000111
Figure FDA00022148412900000112
其中,
Figure FDA00022148412900000113
表示第三张量
Figure FDA00022148412900000114
第n块分解的第k个因子张量,k=1,2,…d;×k表示两个张量沿着第k维进行乘积;×1,2,…,d表示两张量沿着多个维度进行乘积;
Figure FDA00022148412900000115
表示第三张量
Figure FDA00022148412900000116
第n块分解的核心张量,L表示模型的Loss;
Figure FDA00022148412900000117
表示输入到隐层的线性变换结果。
4.根据权利要求3所述的基于块张量分解的循环神经网络稀疏连接方法,其特征在于,
Figure FDA0002214841290000021
具体表达式为:
Figure FDA0002214841290000022
CN201711290493.7A 2017-12-08 2017-12-08 基于块张量分解的循环神经网络稀疏连接方法 Expired - Fee Related CN107798385B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711290493.7A CN107798385B (zh) 2017-12-08 2017-12-08 基于块张量分解的循环神经网络稀疏连接方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711290493.7A CN107798385B (zh) 2017-12-08 2017-12-08 基于块张量分解的循环神经网络稀疏连接方法

Publications (2)

Publication Number Publication Date
CN107798385A CN107798385A (zh) 2018-03-13
CN107798385B true CN107798385B (zh) 2020-03-17

Family

ID=61537544

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711290493.7A Expired - Fee Related CN107798385B (zh) 2017-12-08 2017-12-08 基于块张量分解的循环神经网络稀疏连接方法

Country Status (1)

Country Link
CN (1) CN107798385B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI735886B (zh) * 2018-06-05 2021-08-11 美商光子智能股份有限公司 計算系統
CN110647973A (zh) * 2018-06-27 2020-01-03 北京中科寒武纪科技有限公司 运算方法及相关方法和产品
CN109165727A (zh) * 2018-09-04 2019-01-08 成都品果科技有限公司 一种基于循环神经网络的数据预测方法
US20220036155A1 (en) * 2018-10-30 2022-02-03 Google Llc Quantizing trained long short-term memory neural networks
CN109670158B (zh) * 2018-12-27 2023-09-29 北京及客科技有限公司 一种用于根据资讯数据生成文本内容的方法与设备
JP7151500B2 (ja) * 2019-01-18 2022-10-12 富士通株式会社 学習方法、学習プログラムおよび学習装置
CN110472010B (zh) * 2019-07-18 2022-05-10 天津大学 一种实现文本匹配的可解释神经网络的方法
CN111709553B (zh) * 2020-05-18 2023-05-23 杭州电子科技大学 一种基于张量gru神经网络的地铁流量预测方法
CN116338684A (zh) * 2023-05-29 2023-06-27 长沙莫之比智能科技有限公司 基于毫米波雷达与深度学习的人体跌倒检测方法及系统
CN116578613B (zh) * 2023-07-13 2023-09-08 合肥尚创信息技术有限公司 一种用于大数据分析的数据挖掘系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104751169A (zh) * 2015-01-10 2015-07-01 哈尔滨工业大学(威海) 高铁钢轨伤损分类方法
CN105160699A (zh) * 2015-09-06 2015-12-16 电子科技大学 一种基于张量近似的海量数据多分辨率体绘制方法
CN106127297A (zh) * 2016-06-02 2016-11-16 中国科学院自动化研究所 基于张量分解的深度卷积神经网络的加速与压缩方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9292787B2 (en) * 2012-08-29 2016-03-22 Microsoft Technology Licensing, Llc Computer-implemented deep tensor neural network
KR102271262B1 (ko) * 2015-11-12 2021-06-30 구글 엘엘씨 Cgr 신경망들
US11055063B2 (en) * 2016-05-02 2021-07-06 Marvell Asia Pte, Ltd. Systems and methods for deep learning processor

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104751169A (zh) * 2015-01-10 2015-07-01 哈尔滨工业大学(威海) 高铁钢轨伤损分类方法
CN105160699A (zh) * 2015-09-06 2015-12-16 电子科技大学 一种基于张量近似的海量数据多分辨率体绘制方法
CN106127297A (zh) * 2016-06-02 2016-11-16 中国科学院自动化研究所 基于张量分解的深度卷积神经网络的加速与压缩方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Gated Recurrent Neural Tensor Network;Andros Tjandra etal.;《2016 International Joint Conference on Neural Networks (IJCNN)》;20160729;第448-455页 *
极化 SAR 半监督降维方法;朱德祥;《中国优秀硕士学位论文全文数据库 信息科技辑》;20170315;第8-10页 *

Also Published As

Publication number Publication date
CN107798385A (zh) 2018-03-13

Similar Documents

Publication Publication Date Title
CN107798385B (zh) 基于块张量分解的循环神经网络稀疏连接方法
CN112328767B (zh) 基于bert模型和比较聚合框架的问答匹配方法
CN109271522B (zh) 基于深度混合模型迁移学习的评论情感分类方法及系统
CN107944556B (zh) 基于块项张量分解的深度神经网络压缩方法
CN109635917A (zh) 一种多智能体合作决策及训练方法
Grcić et al. Densely connected normalizing flows
CN112487143A (zh) 一种基于舆情大数据分析的多标签文本分类方法
CN111079795B (zh) 基于cnn的分片多尺度特征融合的图像分类方法
CN108664632A (zh) 一种基于卷积神经网络和注意力机制的文本情感分类算法
CN108829756B (zh) 一种利用分层注意力上下文网络解决多轮视频问答的方法
CN103400143A (zh) 一种基于多视角的数据子空间聚类方法
CN110570845A (zh) 一种基于域不变特征的语音识别方法
CN109902164B (zh) 利用卷积双向自注意网络解决开放长格式视频问答的方法
CN110196928B (zh) 完全并行化具有领域扩展性的端到端多轮对话系统及方法
CN109889923B (zh) 利用结合视频描述的分层自注意力网络总结视频的方法
CN113378938B (zh) 一种基于边Transformer图神经网络的小样本图像分类方法及系统
CN105844635A (zh) 一种基于结构字典的稀疏表示深度图像重建算法
CN105955953A (zh) 一种分词系统
Golovko et al. A new technique for restricted Boltzmann machine learning
CN113610163A (zh) 一种基于知识蒸馏的轻量级苹果叶片病害识别方法
CN109086463A (zh) 一种基于区域卷积神经网络的问答社区标签推荐方法
CN111008302B (zh) 一种利用基于图论的多重交互网络机制解决视频问答问题的方法
CN110120231B (zh) 基于自适应半监督非负矩阵分解的跨语料情感识别方法
CN114925205A (zh) 基于对比学习的gcn-gru文本分类方法
CN114170657A (zh) 融合注意力机制与高阶特征表示的面部情感识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200317

Termination date: 20201208

CF01 Termination of patent right due to non-payment of annual fee