CN107798385B - 基于块张量分解的循环神经网络稀疏连接方法 - Google Patents
基于块张量分解的循环神经网络稀疏连接方法 Download PDFInfo
- Publication number
- CN107798385B CN107798385B CN201711290493.7A CN201711290493A CN107798385B CN 107798385 B CN107798385 B CN 107798385B CN 201711290493 A CN201711290493 A CN 201711290493A CN 107798385 B CN107798385 B CN 107798385B
- Authority
- CN
- China
- Prior art keywords
- tensor
- decomposition
- representing
- block
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种基于块张量分解的循环神经网络稀疏连接方法,应用于深度学习神经网络结构优化领域,解决现有的方法未能同时基于输入数据的高维事实和全连接本身的冗余特性进行分析和优化,从而不能同时达到加快训练速度和维持或提高模型精度的问题;本发明的方法考虑到深度网络中全连接层的稀疏性,引入了张量分解思想,提升了网络参数共享程度,并利用BPTT进行模型训练,适应于目前深度网络绝大部分的应用场景;相比于已有的全连接方式,本发明方法在训练速度,收敛精度上有较大的提升。
Description
技术领域
本发明属于深度学习神经网络结构优化领域,特别涉及一种基于块张量分解的循环神经网络稀疏连接方法的设计技术。
背景技术
循环神经网络(RNN)已被广泛应用于时间序列信息处理领域,具体应用如语音识别,文本翻译,视频分类等。在传统的神经网络模型中,数据是从输入层到隐含层再到输出层流动,层与层之间全连接,每层之间的节点无连接。但是这种神经网络无法捕捉时间序列信息。在RNN网络中,会对时间序列中的前序信息进行记忆并应用于当前输出的计算中,即隐藏层之间的节点有连接的,并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。
然而现实世界中输入数据通常是高维数据,如视频分类中每一个输入数据是一帧3维的彩色图片。传统的RNN将输入数据展开为一个向量,彻底丢弃了数据本身可能蕴藏的高维信息。此外,基于向量输入RNN网络假设了输入向量中每个元素是线性独立的,因此需要一个全连接层用于将输入向量映射到隐层向量空间,极大增加了网络训练的难度。在某些网络结构中,该全连接层的参数量可能占据了整体参数量的90%以上。
目前已有一些方法对该全连接层进行裁剪和优化。一类方法是通过数值分析的方式,如聚类分析,从已训练的参数本身入手,对参数进行分析,裁剪相似的参数。但是该方法由于未改变全连接权重矩阵的维度,因此未能减少训练和预测的时间和难度。一类方法通过分析BPTT(循环神经网络(RNN)反向传播算法)算法的训练过程对网络结构进行裁剪,如GRU(Gated Recurrent Unit,是RNN的一个变种,译为:门控循环单元)基于误差反向传播时仅改变误差项的权重,将广泛使用的LSTM(Long Short-Term Memory,是RNN的一个变种,译为:长短期记忆网络)网络结构从4个控制门降低到3个。另一类方法是基于低秩性质的观察,如用奇异值分解(SVD)对全连接权重矩阵进行低秩分解。然而基于矩阵的低秩方法未能从输入数据中提取足够空间信息,因为往往带来较严重的精度损失。
总体而言,现有的方法都未能同时基于输入数据的高维事实和全连接本身的冗余特性进行分析和优化,因此未能同时达到加快训练速度和维持或提高模型精度的目的。
发明内容
为解决现有的循环神经网络结构忽略了输入数据的高维事实和全连接的冗余特性的问题,本发明提出了一种基于块张量分解的循环神经网络稀疏连接方法,同时基于输入数据的高维事实和全连接本身的冗余特性进行分析和优化,相比现有技术本发明收敛精度上有较大的提升。
本发明采用的技术方案为:基于块张量分解的循环神经网络稀疏连接方法,包括:
S4、采用BPTT算法对循环神经网络进行训练。
其中,N表示第三张量分解的块数,d表示维度,Ik表示第n块分解的第k个因子张量的第一个维度,Jk表示第n块分解的第k个因子张量的第二个维度,Rk表示第n块分解的第k个因子张量的第三个维度,Π表示累乘运算。
进一步地,所述步骤S4还包括在反向传播阶段,对核心张量和因子张量需要分别求梯度:
其中,表示第三张量第n块分解的第k个因子张量,k=1,2,…d;×k表示两个张量沿着第k维进行乘积;×1,2,…,d表示两张量沿着多个维度进行乘积;表示第三张量第n块分解的核心张量,L表示模型的Loss;表示输入到隐层的线性变换结果。
本发明的有益效果:本发明的基于块张量分解的循环神经网络稀疏连接方法,通过引入张量分解思想,首先将全连接权重矩阵张量化,对张量化后的权重张量进行张量分解,用分解后得到的权重张量表示新的稀疏连接方式,提升了网络参数共享程度;并在采用BPTT算法对模型进行训练时,在反向传播阶段对核心张量和因子张量需要分别求其梯度;训练速度和模型精度方面相较于现有的全连接方式有较大提升;本发明的方法同时基于输入数据的高维事实和全连接本身的冗余特性进行分析和优化,能实现同时达到加快训练速度和维持或提高模型精度的目的;本发明的方法得到的模型适应于目前深度网络绝大部分的应用场景。
附图说明
图1为本发明实施例提供的方案流程图;
图2为本发明实施例提供的本发明方法与现有方法Train Loss对比图。
具体实施方式
为便于本领域技术人员理解本发明的技术内容,下面结合附图对本发明内容进一步阐释。
如图1所示为本发明的方案流程图,本发明的技术方案为:基于块张量分解的循环神经网络稀疏连接方法,包括:
假设输入向量记忆向量全连接权重矩阵构造的张量和是d维张量,是2d维张量,其中I=I1·I2·...·Id,J=J1·J2·...·Jd。本发明中张量化操作是指,将原矩阵或向量的元素进行重排,折叠为一个高维张量;反之,将高维张量进行低维展开,可恢复出原输入数据x。
其中,是与原张量维度相同的一个近似表示,N表示该分解共有N块,是第n块分解的核心张量,是第n块分解的第k个因子张量。而×k是张量乘法符号,表明两个张量沿着第k维进行乘积;Ik表示第n块分解的第k个因子张量的第一个维度,Jk表示第n块分解的第k个因子张量的第二个维度,Rk既表示第n块分解的第k个因子张量的第三个维度,也表示第n块分解的核心张量的第k个维度,Π表示累乘运算。
全连接权重矩阵W在网络中的含义是将输入向量x中的每一个元素与记忆向量h的每一个元素全连接,连接的权重即存储于W中。经过块张量分解得到的权重张量w在所有维度上进行权重共享,极大限度地裁剪掉冗余的连接权重,大幅简化模型。
新的稀疏连接方法中,参数量(也即连接的边数)P为:
在现有技术中,全连接方法的参数量是本发明方法参数量的千倍以上;从而可知本发明方法模型的收敛速度相比于现有的方法更快。
对输入向量x,记忆向量h和全连接权重矩阵W张量化后,不能再利用简单的矩阵乘法W·x进行计算,需要利用张量乘法的方式完成,具体如下:
其中,×1,2,…,d表示张量收缩操作,也即两张量沿着多个维度进行乘积。
S4、采用BPTT算法对循环神经网络进行训练。
基于新的张量乘法计算方式,本发明仍使用BPTT算法进行训练,但在反向传播阶段需要做一定的调整:对核心张量和因子张量需要分别求其梯度。
本发明在视频分类数据集UCF11上进行试验,如图2所示,本发明方法的一组对比模型BT-GRU/BT-LSTM相比于现有方法中的GRU、LSTM在Train Loss有显著提升,Train Loss表示训练误差;如表1所示本发明方法的一组对比模型BT-GRU/BT-LSTM相比于现有方法中的GRU、LSTM在模型精度和参数量方面相较于现有的RNN方法有较大提升。这里的BT是blockterm decomposition,块张量的简写。
表1本发明方法与现有方法的测试精度对比
模型 | GRU | BT-GRU | LSTM | BT-LSTM |
测试精度 | 0.68 | 0.84 | 0.69 | 0.86 |
参数量 | 44236800 | 3136 | 58982400 | 3360 |
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。
Claims (4)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711290493.7A CN107798385B (zh) | 2017-12-08 | 2017-12-08 | 基于块张量分解的循环神经网络稀疏连接方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711290493.7A CN107798385B (zh) | 2017-12-08 | 2017-12-08 | 基于块张量分解的循环神经网络稀疏连接方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107798385A CN107798385A (zh) | 2018-03-13 |
CN107798385B true CN107798385B (zh) | 2020-03-17 |
Family
ID=61537544
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711290493.7A Expired - Fee Related CN107798385B (zh) | 2017-12-08 | 2017-12-08 | 基于块张量分解的循环神经网络稀疏连接方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107798385B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI735886B (zh) * | 2018-06-05 | 2021-08-11 | 美商光子智能股份有限公司 | 計算系統 |
CN110647973A (zh) * | 2018-06-27 | 2020-01-03 | 北京中科寒武纪科技有限公司 | 运算方法及相关方法和产品 |
CN109165727A (zh) * | 2018-09-04 | 2019-01-08 | 成都品果科技有限公司 | 一种基于循环神经网络的数据预测方法 |
US20220036155A1 (en) * | 2018-10-30 | 2022-02-03 | Google Llc | Quantizing trained long short-term memory neural networks |
CN109670158B (zh) * | 2018-12-27 | 2023-09-29 | 北京及客科技有限公司 | 一种用于根据资讯数据生成文本内容的方法与设备 |
JP7151500B2 (ja) * | 2019-01-18 | 2022-10-12 | 富士通株式会社 | 学習方法、学習プログラムおよび学習装置 |
CN110472010B (zh) * | 2019-07-18 | 2022-05-10 | 天津大学 | 一种实现文本匹配的可解释神经网络的方法 |
CN111709553B (zh) * | 2020-05-18 | 2023-05-23 | 杭州电子科技大学 | 一种基于张量gru神经网络的地铁流量预测方法 |
CN116338684A (zh) * | 2023-05-29 | 2023-06-27 | 长沙莫之比智能科技有限公司 | 基于毫米波雷达与深度学习的人体跌倒检测方法及系统 |
CN116578613B (zh) * | 2023-07-13 | 2023-09-08 | 合肥尚创信息技术有限公司 | 一种用于大数据分析的数据挖掘系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104751169A (zh) * | 2015-01-10 | 2015-07-01 | 哈尔滨工业大学(威海) | 高铁钢轨伤损分类方法 |
CN105160699A (zh) * | 2015-09-06 | 2015-12-16 | 电子科技大学 | 一种基于张量近似的海量数据多分辨率体绘制方法 |
CN106127297A (zh) * | 2016-06-02 | 2016-11-16 | 中国科学院自动化研究所 | 基于张量分解的深度卷积神经网络的加速与压缩方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9292787B2 (en) * | 2012-08-29 | 2016-03-22 | Microsoft Technology Licensing, Llc | Computer-implemented deep tensor neural network |
KR102271262B1 (ko) * | 2015-11-12 | 2021-06-30 | 구글 엘엘씨 | Cgr 신경망들 |
US11055063B2 (en) * | 2016-05-02 | 2021-07-06 | Marvell Asia Pte, Ltd. | Systems and methods for deep learning processor |
-
2017
- 2017-12-08 CN CN201711290493.7A patent/CN107798385B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104751169A (zh) * | 2015-01-10 | 2015-07-01 | 哈尔滨工业大学(威海) | 高铁钢轨伤损分类方法 |
CN105160699A (zh) * | 2015-09-06 | 2015-12-16 | 电子科技大学 | 一种基于张量近似的海量数据多分辨率体绘制方法 |
CN106127297A (zh) * | 2016-06-02 | 2016-11-16 | 中国科学院自动化研究所 | 基于张量分解的深度卷积神经网络的加速与压缩方法 |
Non-Patent Citations (2)
Title |
---|
Gated Recurrent Neural Tensor Network;Andros Tjandra etal.;《2016 International Joint Conference on Neural Networks (IJCNN)》;20160729;第448-455页 * |
极化 SAR 半监督降维方法;朱德祥;《中国优秀硕士学位论文全文数据库 信息科技辑》;20170315;第8-10页 * |
Also Published As
Publication number | Publication date |
---|---|
CN107798385A (zh) | 2018-03-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107798385B (zh) | 基于块张量分解的循环神经网络稀疏连接方法 | |
CN112328767B (zh) | 基于bert模型和比较聚合框架的问答匹配方法 | |
CN109271522B (zh) | 基于深度混合模型迁移学习的评论情感分类方法及系统 | |
CN107944556B (zh) | 基于块项张量分解的深度神经网络压缩方法 | |
CN109635917A (zh) | 一种多智能体合作决策及训练方法 | |
Grcić et al. | Densely connected normalizing flows | |
CN112487143A (zh) | 一种基于舆情大数据分析的多标签文本分类方法 | |
CN111079795B (zh) | 基于cnn的分片多尺度特征融合的图像分类方法 | |
CN108664632A (zh) | 一种基于卷积神经网络和注意力机制的文本情感分类算法 | |
CN108829756B (zh) | 一种利用分层注意力上下文网络解决多轮视频问答的方法 | |
CN103400143A (zh) | 一种基于多视角的数据子空间聚类方法 | |
CN110570845A (zh) | 一种基于域不变特征的语音识别方法 | |
CN109902164B (zh) | 利用卷积双向自注意网络解决开放长格式视频问答的方法 | |
CN110196928B (zh) | 完全并行化具有领域扩展性的端到端多轮对话系统及方法 | |
CN109889923B (zh) | 利用结合视频描述的分层自注意力网络总结视频的方法 | |
CN113378938B (zh) | 一种基于边Transformer图神经网络的小样本图像分类方法及系统 | |
CN105844635A (zh) | 一种基于结构字典的稀疏表示深度图像重建算法 | |
CN105955953A (zh) | 一种分词系统 | |
Golovko et al. | A new technique for restricted Boltzmann machine learning | |
CN113610163A (zh) | 一种基于知识蒸馏的轻量级苹果叶片病害识别方法 | |
CN109086463A (zh) | 一种基于区域卷积神经网络的问答社区标签推荐方法 | |
CN111008302B (zh) | 一种利用基于图论的多重交互网络机制解决视频问答问题的方法 | |
CN110120231B (zh) | 基于自适应半监督非负矩阵分解的跨语料情感识别方法 | |
CN114925205A (zh) | 基于对比学习的gcn-gru文本分类方法 | |
CN114170657A (zh) | 融合注意力机制与高阶特征表示的面部情感识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200317 Termination date: 20201208 |
|
CF01 | Termination of patent right due to non-payment of annual fee |