CN112434804A - 一种深度Transformer级联神经网络模型压缩算法 - Google Patents
一种深度Transformer级联神经网络模型压缩算法 Download PDFInfo
- Publication number
- CN112434804A CN112434804A CN202011141916.0A CN202011141916A CN112434804A CN 112434804 A CN112434804 A CN 112434804A CN 202011141916 A CN202011141916 A CN 202011141916A CN 112434804 A CN112434804 A CN 112434804A
- Authority
- CN
- China
- Prior art keywords
- neural network
- transformer
- modules
- cascade neural
- network model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007906 compression Methods 0.000 title claims abstract description 34
- 230000006835 compression Effects 0.000 title claims abstract description 33
- 238000003062 neural network model Methods 0.000 title claims abstract description 23
- 238000013528 artificial neural network Methods 0.000 claims abstract description 17
- 238000000034 method Methods 0.000 abstract description 5
- 238000003058 natural language processing Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 239000003292 glue Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种深度Transformer级联神经网络模型压缩算法,它解决了现有技术的算法仍然具有进一步压缩空间的问题。其方法包括:在文本数据集上对深度Transformer级联神经网络进行预训练;将Transformer级联模型按照先后顺序划分成若干份模块;随机选择预训练完成的深度Transformer级联神经网络中的某一层Transformer作为替换模块,此模块命名为Transformer‑compress;在小数据集内对预训练模型进行微调,并且使用模块逐步替换和模块间参数共享的方式对模型进行压缩。本发明优点在于进一步提升模型压缩效率。
Description
技术领域
本发明涉及自然语言处理领域领域,具体涉及一种深度Transformer级联神经网络模型压缩算法。
背景技术
近年来,随着深度学习在图像领域获得了较大成功,其在自然语言处理领域也取得了突破性进展。基于深度Transformer的级联神经网络在自然语言处理新范式,即自监督预训练加有监督微调中得到了不错的性能并不断刷新GLUE榜单记录,成为了自然语言处理领域新的研究热点之一。BERT作为经典模型之一在基于文本的用户画像、情感分析和舆情分析中都有着广泛的应用前景。但是,此类模型往往体积较大,参数量多达数百万甚至数十亿导致在推理阶段内存占用和延时都较高,同时增加了生产环境的硬件部署和能耗成本。这些问题都极大地限制了此类模型的广泛使用,尤其是在智能移动端设备上。因此,如何高效地压缩深度Transformer级联神经网络成为了当下面临的一个问题。
为了精炼模型,科研人员针对此问题展开了研究,Sanh V等[1]提出DistilBERT算法。该算法在预训练阶段对BERT模型进行压缩,将BERT模型中的12层编码器压缩至6层。Jiao等[2]提出了TinyBERT算法,将模型压缩过程分别运用在预训练和微调阶段,在减少编码器层级数的同时对编码器维度进行压缩。然而,上述压缩算法的实现要涉及模型预训练阶段,这会导致算法运行的时间成本较高、结果难以复现等问题。之后,Canwen Xu等[3]提出BERT-of-Theseus算法,该算法仅在微调阶段采用逐步替换BERT编码器层模块的方法对BERT模型进行压缩,有效地降低计算复杂度。但是,从压缩模型体积角度出发,BERT-of-Theseus算法仍有进一步提升空间。
发明内容
鉴于此,本发明的目的在于克服现有技术的不足,提供一种深度Transformer级联神经网络模型压缩算法,进一步提升模型压缩效率。
为实现以上目的,本发明采用如下技术方案:
一种深度Transformer级联神经网络模型压缩算法,包括以下步骤:
步骤A:在文本数据集上对深度Transformer级联神经网络进行预训练;
步骤B:将Transformer级联模型按照先后顺序划分成若干份模块;
步骤C:随机选择预训练完成的深度Transformer级联神经网络中的某一层Transformer作为替换模块,此模块命名为Transformer-compress;
步骤D:在小数据集内对预训练模型进行微调,并且使用模块逐步替换和模块间参数共享的方式对模型进行压缩。
在上述的一种深度Transformer级联神经网络模型压缩算法中,在步骤A中的预训练具体为在无标签文本数据集上对深度Transformer级联神经网络模型进行自监督预训练,训练任务为遮掩词预测和前后文本预测,通过反向传播算法和梯度下降算法对所述模型进行参数更新,并得到预训练模型。
在上述的一种深度Transformer级联神经网络模型压缩算法中,在步骤B中,按照模块间均等划分的原则对Transformer级联神经网络进行划分。
在上述的一种深度Transformer级联神经网络模型压缩算法中,在步骤D中,在微调前半阶段,原先网络模型划分完成的模块分别以一定概率被替换成Transformer-compress模块,在微调后半阶段,原先网络模型划分完成的模块全部被替换成Transformer-compress模块。
在上述的一种深度Transformer级联神经网络模型压缩算法中,在步骤D中,不同位置的Transformer-compress模块之间参数共享。
本发明与现有技术方案相比具有下述优点:模型压缩计算执行过程仅出现在微调阶段,计算量较低;压缩后模型采用模块间参数共享方式减小了模型体积;仅需要通过调整模块划分结果就可以实现对模型压缩比的控制。
附图说明
附图1为本发明实施例的深度Transformer级联神经网络模型压缩流程示意图;
附图2为本发明实施例的深度Transformer级联神经网络模块划分结果;
附图3为本发明实施例的深度Transformer级联神经网络模块替换示意图;
附图4为本发明实施例的深度Transformer级联神经网络模型压缩结果示意图。
具体实施方式
以下采用本发明的优选实施例并结合附图,对本发明的技术方案作进一步的描述,但本发明并不限于这些实施例。
参见附图1,本发明一实施例提供的一种深度Transformer级联神经网络模型压缩算法,包括:
步骤A:在文本数据集上对深度Transformer级联神经网络进行预训练,该预训练具体为在无标签文本数据集上对深度Transformer级联神经网络模型进行自监督预训练,训练任务为遮掩词预测和前后文本预测,通过反向传播算法和梯度下降算法对所述模型进行参数更新,并得到预训练模型。
步骤B:将Transformer级联模型按照先后顺序划分成若干份模块。
作为优选地,按照模块间均等划分的原则对Transformer级联神经网络进行划分,划分结果如图2所示。
步骤C:随机选择预训练完成的深度Transformer级联神经网络中的某一层Transformer作为替换模块,此模块命名为Transformer-compress;
步骤D:在小数据集内对预训练模型进行微调,并且使用模块逐步替换和模块间参数共享的方式对模型进行压缩。模块替换示意图如图3所示。在步骤D中,在微调前半阶段,原先网络模型划分完成的模块分别以一定概率被替换成Transformer-compress模块,在微调后半阶段,原先网络模型划分完成的模块全部被替换成Transformer-compress模块,在步骤D中,不同位置的Transformer-compress模块之间参数共享。
在所述步骤A中,所述对深度Transformer级联神经网络模型进行预训练具体为:在大规模无标签文本数据集上对深度Transformer级联神经网络模型进行自监督预训练,训练任务为遮掩词预测和前后文本预测。通过反向传播算法和梯度下降算法对所述模型进行参数更新,并得到预训练模型。由于预训练阶段所需计算量较大,一般实验室硬件条件无法在短期内完成,因此,我们通常选用开源的预训练模型文件。
进一步地,在所述步骤B中,所述对Transformer级联模型按照先后顺序划分成若干份模块具体为:一般是按照模块间均等划分的原则对级联神经网络进行划分。
作为优选地,在所述步骤D中,所述以模块逐步替换和模块间参数共享的方式进行模型压缩具体包括:在微调前半阶段,原先网络模型划分完成的模块分别以一定概率被替换成Transformer-compress模块,且不同位置的Transformer-compress模块之间参数共享;在微调后半阶段,原先网络模型划分完成的模块全部被替换成Transformer-compress模块,且不同位置的Transformer-compress模块之间参数共享,以此完成模型压缩.
在步骤D中,对使用模块逐步替换和模块间参数共享的方式对模型进行压缩具体为:在微调前半阶段,原先网络模型划分完成的模块分别按照50%的概率被替换成Transformer-compress模块。在微调后半阶段,则原先网络模型划分完成的模块全部被替换成Transformer-compress模块。并且,不同位置的Transformer-compress模块之间参数共享,以此实现从模型结构和参数数量两个角度对模型进行压缩。模型压缩后网络结构如图4所示。
为了证明本发明的可行性,我们利用收集得到的文本数据集进行验证。该数据集为社交电商公开文本数据集,并根据社交电商售卖商品属性的不同将其分为20类,共计38975条。此外,选用BERT、BERT-of-Theseus模型进行比较。结果如下表所示。
结果表明在准确率方面,本文算法相比于BERT下降2.0%,相比于BERT-of-Theseus下降1.6%。准确率损失在可接受范围内。模型压缩比方面,本文算法将原先BERT大小从409.2MB压缩至97.3MB,模型压缩比为23.8%,相比于BERT-of-Theseus压缩比提高34.6%。
由此可见,本文压缩算法在准确率和压缩比方面都具有很大优势,在准确率仅降低2.0%的前提下模型大小从原先409.2MB压缩至100MB以内。这不仅提可以升了BERT在服务器端的运行效率,也使得BERT部署在智能移动端成为可能。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (5)
1.一种深度Transformer级联神经网络模型压缩算法,其特征在于,包括以下步骤:
步骤A:在文本数据集上对深度Transformer级联神经网络进行预训练;
步骤B:将Transformer级联模型按照先后顺序划分成若干份模块;
步骤C:随机选择预训练完成的深度Transformer级联神经网络中的某一层Transformer作为替换模块,此模块命名为Transformer-compress;
步骤D:在小数据集内对预训练模型进行微调,并且使用模块逐步替换和模块间参数共享的方式对模型进行压缩。
2.根据权利要求1所述的一种深度Transformer级联神经网络模型压缩算法,其特征在于,在步骤A中的预训练具体为在无标签文本数据集上对深度Transformer级联神经网络模型进行自监督预训练,训练任务为遮掩词预测和前后文本预测,通过反向传播算法和梯度下降算法对所述模型进行参数更新,并得到预训练模型。
3.根据权利要求1所述的一种深度Transformer级联神经网络模型压缩算法,其特征在于,在步骤B中,按照模块间均等划分的原则对Transformer级联神经网络进行划分。
4.根据权利要求1所述的一种深度Transformer级联神经网络模型压缩算法,其特征在于,在步骤D中,在微调前半阶段,原先网络模型划分完成的模块分别以一定概率被替换成Transformer-compress模块,在微调后半阶段,原先网络模型划分完成的模块全部被替换成Transformer-compress模块。
5.根据权利要求4所述的一种深度Transformer级联神经网络模型压缩算法,其特征在于,在步骤D中,不同位置的Transformer-compress模块之间参数共享。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011141916.0A CN112434804A (zh) | 2020-10-23 | 2020-10-23 | 一种深度Transformer级联神经网络模型压缩算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011141916.0A CN112434804A (zh) | 2020-10-23 | 2020-10-23 | 一种深度Transformer级联神经网络模型压缩算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112434804A true CN112434804A (zh) | 2021-03-02 |
Family
ID=74695903
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011141916.0A Pending CN112434804A (zh) | 2020-10-23 | 2020-10-23 | 一种深度Transformer级联神经网络模型压缩算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112434804A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113610209A (zh) * | 2021-08-10 | 2021-11-05 | 东南数字经济发展研究院 | 一种面向监控视频流场景的神经网络模型推理加速方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190012594A1 (en) * | 2017-07-05 | 2019-01-10 | International Business Machines Corporation | Pre-training of neural network by parameter decomposition |
CN110427484A (zh) * | 2018-04-26 | 2019-11-08 | 上海意仕腾教育科技有限公司 | 一种基于深度学习的中文自然语言处理方法 |
CN111008517A (zh) * | 2019-10-30 | 2020-04-14 | 天津大学 | 一种基于张量分解技术的神经语言模型的压缩方法 |
CN111444328A (zh) * | 2020-05-06 | 2020-07-24 | 南京大学 | 一种带有解释生成的自然语言自动预测推断方法 |
-
2020
- 2020-10-23 CN CN202011141916.0A patent/CN112434804A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190012594A1 (en) * | 2017-07-05 | 2019-01-10 | International Business Machines Corporation | Pre-training of neural network by parameter decomposition |
CN110427484A (zh) * | 2018-04-26 | 2019-11-08 | 上海意仕腾教育科技有限公司 | 一种基于深度学习的中文自然语言处理方法 |
CN111008517A (zh) * | 2019-10-30 | 2020-04-14 | 天津大学 | 一种基于张量分解技术的神经语言模型的压缩方法 |
CN111444328A (zh) * | 2020-05-06 | 2020-07-24 | 南京大学 | 一种带有解释生成的自然语言自动预测推断方法 |
Non-Patent Citations (2)
Title |
---|
CANWEN XU, ET AL.: ""BERT-of-Theseus: Compressing BERT by Progressive Module Replacing"", 《ARXIV:2002.02925V4 [CS.CL]》 * |
RONGHUAIYANG: ""BERT的youxiu变体:ALBERT论文图解介绍"", 《AI公园》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113610209A (zh) * | 2021-08-10 | 2021-11-05 | 东南数字经济发展研究院 | 一种面向监控视频流场景的神经网络模型推理加速方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105930314B (zh) | 基于编码-解码深度神经网络的文本摘要生成系统及方法 | |
Nan et al. | Deep model compression for mobile platforms: A survey | |
CN111178507A (zh) | 图谱卷积神经网络数据处理方法及装置 | |
Marascu et al. | TRISTAN: Real-time analytics on massive time series using sparse dictionary compression | |
Chen et al. | Deep-broad learning system for traffic flow prediction toward 5G cellular wireless network | |
Kumari et al. | EdgeL^ 3: compressing L^ 3-net for mote scale urban noise monitoring | |
CN112434804A (zh) | 一种深度Transformer级联神经网络模型压缩算法 | |
Ding et al. | Slimyolov4: lightweight object detector based on yolov4 | |
Xiyuan et al. | A Review of FPGA‐Based Custom Computing Architecture for Convolutional Neural Network Inference | |
Giménez et al. | Comparison of two microcontroller boards for on-device model training in a keyword spotting task | |
Li et al. | ECDX: Energy consumption prediction model based on distance correlation and XGBoost for edge data center | |
Wang et al. | A hybrid deep learning method based on CEEMDAN and attention mechanism for network traffic prediction | |
CN111539465A (zh) | 一种基于机器学习的物联网非结构化大数据分析算法 | |
Kousias et al. | HINDSIGHT: an R-based framework towards long short term memory (LSTM) optimization | |
CN116596574A (zh) | 电网用户画像构建方法及系统 | |
Miao | Emotion Analysis and Opinion Monitoring of Social Network Users Under Deep Convolutional Neural Network | |
Xu et al. | A hybrid model for multi-step wind speed forecasting based on secondary decomposition, deep learning, and error correction algorithms | |
Azizi et al. | Sensitivity-Aware Mixed-Precision Quantization and Width Optimization of Deep Neural Networks Through Cluster-Based Tree-Structured Parzen Estimation | |
CN112000389A (zh) | 一种配置推荐方法、系统、装置及计算机存储介质 | |
CN112735469A (zh) | 低内存语音关键词检测方法、系统、介质、设备及终端 | |
Liu | Task-oriented explainable semantic communication based on semantic triplets | |
CN116562311B (zh) | 基于自然语言机器翻译的运维方法及系统 | |
CN101576906B (zh) | 一种数据库模式重构系统和方法 | |
Cao | [Retracted] Dynamic Allocation Method of Economic Information Integrated Data Based on Deep Learning Algorithm | |
CN104346339B (zh) | 语义分析方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210302 |