JP7283835B2 - マルチレベル知識蒸留に基づく事前訓練言語モデルの自動圧縮方法およびプラットフォーム - Google Patents
マルチレベル知識蒸留に基づく事前訓練言語モデルの自動圧縮方法およびプラットフォーム Download PDFInfo
- Publication number
- JP7283835B2 JP7283835B2 JP2022566730A JP2022566730A JP7283835B2 JP 7283835 B2 JP7283835 B2 JP 7283835B2 JP 2022566730 A JP2022566730 A JP 2022566730A JP 2022566730 A JP2022566730 A JP 2022566730A JP 7283835 B2 JP7283835 B2 JP 7283835B2
- Authority
- JP
- Japan
- Prior art keywords
- distillation
- knowledge
- network
- knowledge distillation
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/086—Learning methods using evolutionary algorithms, e.g. genetic algorithms or genetic programming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Physiology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Feedback Control In General (AREA)
Description
Claims (4)
- マルチレベル知識蒸留に基づく事前訓練言語モデルの自動圧縮方法であって、
マルチレベル知識蒸留を構築し、セルフ・アテンションユニット、隠れ層状態、及び埋め込み層の3つの異なるレベルで大モデルの知識構造を蒸留するステップ1と、
メタ学習の知識蒸留ネットワークを訓練し、複数の事前訓練言語モデルの汎用圧縮アーキテクチャを生成するステップ2と、
進化的アルゴリズムに基づいて最適な圧縮アーキテクチャを検索するステップ3と、を含み、
ステップ2では、前記メタ学習の知識蒸留ネットワークを訓練することは、構造生成器のメタネットワークを設計し、ステップ1のマルチレベル知識蒸留に基づいて、知識蒸留符号化ベクトルを構築し、構造生成器を用いて、現在入力されている知識蒸留符号化ベクトルに対応する蒸留構造モデルを生成し、同時に、ベルヌーイ分布サンプリング法を用いて構造生成器を訓練し、繰り返しごとに、ベルヌーイ分布を用いて各エンコーダの遷移したセルフ・アテンションユニットをサンプリングし、対応する知識蒸留符号化ベクトルを構成し、構造生成器に入力する知識蒸留符号化ベクトルと、小バッチの訓練データとを変更し、構造生成器と対応する蒸留構造とを共同訓練することにより、異なる蒸留構造に対する重みを生成する構造生成器を取得することを含み、
前記進化的アルゴリズムの具体的なプロセスは、
知識蒸留符号化ベクトルを蒸留構造モデルの遺伝子Gと定義し、制約条件Cを満たす一連の遺伝子を、初期集団としてランダムに選択するステップ(1)と、
既存集団の各遺伝子Gに対応する蒸留構造モデルの検証セットにおける推論精度accuracyを評価し、最も精度の高い上位k個の遺伝子を選択するステップ(2)と、
ステップ(2)で選択された最も精度の高い上位k個の遺伝子を用いて、遺伝子組換えと遺伝子変異により新しい遺伝子を生成し、新しい遺伝子を既存集団に追加するステップ(3)と、
既存集団の中から精度の高い上位k個の遺伝子を選択して新しい遺伝子を生成して、制約条件Cを満たし、かつ精度が最も高い遺伝子を取得するまで、ステップ(2)とステップ(3)とをN回繰り返すステップ(4)と、を含む
ことを特徴とするマルチレベル知識蒸留に基づく事前訓練言語モデルの自動圧縮方法。 - ステップ3では、訓練済みメタ学習ネットワークを基に、進化的アルゴリズムにより最適な圧縮アーキテクチャを検索することで、タスクに依存しない事前訓練言語モデルの最適な汎用圧縮アーキテクチャを取得する
ことを特徴とする請求項1に記載のマルチレベル知識蒸留に基づく事前訓練言語モデルの自動圧縮方法。 - ステップ1では、セルフ・アテンション知識と、隠れ層状態知識と、埋め込み層知識とを蒸留ネットワークとして符号化し、知識蒸留を用いて、大モデルから小モデルへの圧縮を実現する
ことを特徴とする請求項1に記載のマルチレベル知識蒸留に基づく事前訓練言語モデルの自動圧縮方法。 - ステップ1では、前記マルチレベル知識蒸留は、セルフ・アテンション知識蒸留と、隠れ層状態知識蒸留と、埋め込み層知識蒸留とを含む
ことを特徴とする請求項3に記載のマルチレベル知識蒸留に基づく事前訓練言語モデルの自動圧縮方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011498328.2A CN112241455B (zh) | 2020-12-17 | 2020-12-17 | 基于多层级知识蒸馏预训练语言模型自动压缩方法及平台 |
CN202011498328.2 | 2020-12-17 | ||
PCT/CN2020/142577 WO2022126797A1 (zh) | 2020-12-17 | 2020-12-31 | 基于多层级知识蒸馏预训练语言模型自动压缩方法及平台 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023515901A JP2023515901A (ja) | 2023-04-14 |
JP7283835B2 true JP7283835B2 (ja) | 2023-05-30 |
Family
ID=82021481
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022566730A Active JP7283835B2 (ja) | 2020-12-17 | 2020-12-31 | マルチレベル知識蒸留に基づく事前訓練言語モデルの自動圧縮方法およびプラットフォーム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11501171B2 (ja) |
JP (1) | JP7283835B2 (ja) |
GB (1) | GB2610319A (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112668671B (zh) * | 2021-03-15 | 2021-12-24 | 北京百度网讯科技有限公司 | 预训练模型的获取方法和装置 |
US20230259716A1 (en) * | 2022-02-14 | 2023-08-17 | International Business Machines Corporation | Neural architecture search of language models using knowledge distillation |
CN115457006B (zh) * | 2022-09-23 | 2023-08-22 | 华能澜沧江水电股份有限公司 | 基于相似一致性自蒸馏的无人机巡检缺陷分类方法及装置 |
CN116152240B (zh) * | 2023-04-18 | 2023-07-25 | 厦门微图软件科技有限公司 | 一种基于知识蒸馏的工业缺陷检测模型压缩方法 |
CN116384439B (zh) * | 2023-06-06 | 2023-08-25 | 深圳市南方硅谷半导体股份有限公司 | 一种基于自蒸馏的目标检测方法 |
CN117332784B (zh) * | 2023-09-28 | 2024-08-30 | 卓世科技(海南)有限公司 | 一种基于分层图注意力与动态元学习的智能知识增强方法 |
CN118261162B (zh) * | 2024-05-06 | 2024-08-13 | 北京尚博信科技有限公司 | 基于大语言模型的自然语言数据分析方法及系统 |
CN118211183B (zh) * | 2024-05-21 | 2024-09-13 | 浪潮通用软件有限公司 | 一种基于大模型的跨时空数据持续融合方法、设备及介质 |
CN118503798B (zh) * | 2024-07-22 | 2024-09-17 | 山东能源数智云科技有限公司 | 基于自然语言处理的文本指令意图识别方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110766142A (zh) | 2019-10-30 | 2020-02-07 | 北京百度网讯科技有限公司 | 模型生成方法和装置 |
CN111291836A (zh) | 2020-03-31 | 2020-06-16 | 中国科学院计算技术研究所 | 一种生成学生网络模型的方法 |
CN111611377A (zh) | 2020-04-22 | 2020-09-01 | 淮阴工学院 | 基于知识蒸馏的多层神经网络语言模型训练方法与装置 |
CN111767711A (zh) | 2020-09-02 | 2020-10-13 | 之江实验室 | 基于知识蒸馏的预训练语言模型的压缩方法及平台 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA3076424A1 (en) * | 2019-03-22 | 2020-09-22 | Royal Bank Of Canada | System and method for knowledge distillation between neural networks |
US11620515B2 (en) * | 2019-11-07 | 2023-04-04 | Salesforce.Com, Inc. | Multi-task knowledge distillation for language model |
CN111062489B (zh) * | 2019-12-11 | 2023-10-20 | 北京知道创宇信息技术股份有限公司 | 一种基于知识蒸馏的多语言模型压缩方法、装置 |
CN111506702A (zh) * | 2020-03-25 | 2020-08-07 | 北京万里红科技股份有限公司 | 基于知识蒸馏的语言模型训练方法、文本分类方法及装置 |
US11521075B2 (en) * | 2020-05-15 | 2022-12-06 | Microsoft Technology Licensing, Llc | Transfer learning system for automated software engineering tasks |
WO2022002943A1 (en) * | 2020-06-29 | 2022-01-06 | L'oréal | Semantic Relation Preserving Knowledge Distillation For Image-To-Image Translation |
CN111767110B (zh) * | 2020-07-01 | 2023-06-23 | 广州视源电子科技股份有限公司 | 图像处理方法、装置、系统、电子设备及存储介质 |
CN112016674B (zh) | 2020-07-29 | 2024-06-18 | 魔门塔(苏州)科技有限公司 | 一种基于知识蒸馏的卷积神经网络的量化方法 |
-
2020
- 2020-12-31 GB GB2214215.2A patent/GB2610319A/en active Pending
- 2020-12-31 JP JP2022566730A patent/JP7283835B2/ja active Active
-
2021
- 2021-12-20 US US17/555,535 patent/US11501171B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110766142A (zh) | 2019-10-30 | 2020-02-07 | 北京百度网讯科技有限公司 | 模型生成方法和装置 |
CN111291836A (zh) | 2020-03-31 | 2020-06-16 | 中国科学院计算技术研究所 | 一种生成学生网络模型的方法 |
CN111611377A (zh) | 2020-04-22 | 2020-09-01 | 淮阴工学院 | 基于知识蒸馏的多层神经网络语言模型训练方法与装置 |
CN111767711A (zh) | 2020-09-02 | 2020-10-13 | 之江实验室 | 基于知识蒸馏的预训练语言模型的压缩方法及平台 |
Also Published As
Publication number | Publication date |
---|---|
GB2610319A (en) | 2023-03-01 |
GB202214215D0 (en) | 2022-11-09 |
US11501171B2 (en) | 2022-11-15 |
JP2023515901A (ja) | 2023-04-14 |
US20220198276A1 (en) | 2022-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7283835B2 (ja) | マルチレベル知識蒸留に基づく事前訓練言語モデルの自動圧縮方法およびプラットフォーム | |
CN112241455B (zh) | 基于多层级知识蒸馏预训练语言模型自动压缩方法及平台 | |
CN111291836B (zh) | 一种生成学生网络模型的方法 | |
CN107844469B (zh) | 基于词向量查询模型的文本简化方法 | |
CN110534087B (zh) | 一种文本韵律层级结构预测方法、装置、设备及存储介质 | |
CN109885756B (zh) | 基于cnn和rnn的序列化推荐方法 | |
CN112396181A (zh) | 一种卷积神经网络通用压缩架构的自动剪枝方法及平台 | |
CN112232511B (zh) | 面向多任务的预训练语言模型自动压缩方法及平台 | |
CN111078866B (zh) | 一种基于序列到序列模型的中文文本摘要生成方法 | |
CN112000772B (zh) | 面向智能问答基于语义特征立方体的句子对语义匹配方法 | |
CN112732864B (zh) | 一种基于稠密伪查询向量表示的文档检索方法 | |
CN107836000A (zh) | 用于语言建模和预测的改进的人工神经网络 | |
JP7381814B2 (ja) | マルチタスク向けの予めトレーニング言語モデルの自動圧縮方法及びプラットフォーム | |
CN110334196B (zh) | 基于笔画和自注意力机制的神经网络中文问题生成系统 | |
CN112232087A (zh) | 一种基于Transformer的多粒度注意力模型的特定方面情感分析方法 | |
CN111353313A (zh) | 基于进化神经网络架构搜索的情感分析模型构建方法 | |
CN112347756A (zh) | 一种基于序列化证据抽取的推理阅读理解方法及系统 | |
CN115424663B (zh) | 一种基于attention的双向表示模型的RNA修饰位点预测方法 | |
CN111309896B (zh) | 基于二级注意力的深度学习文本摘要生成方法 | |
CN116822593A (zh) | 一种基于硬件感知的大规模预训练语言模型压缩方法 | |
CN111882042A (zh) | 用于液体状态机的神经网络架构自动搜索方法、系统及介质 | |
CN116543289B (zh) | 一种基于编码器-解码器及Bi-LSTM注意力模型的图像描述方法 | |
CN112465929A (zh) | 一种基于改进图卷积网络的图像生成方法 | |
CN116432669A (zh) | 一种机器翻译模型训练方法及系统 | |
CN114925197B (zh) | 基于主题注意力的深度学习文本分类模型训练方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221101 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221101 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20221101 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230509 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230511 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7283835 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |