JP7381813B2 - 知識蒸留に基づく予めトレーニング言語モデルの圧縮方法及びプラットフォーム - Google Patents
知識蒸留に基づく予めトレーニング言語モデルの圧縮方法及びプラットフォーム Download PDFInfo
- Publication number
- JP7381813B2 JP7381813B2 JP2022570419A JP2022570419A JP7381813B2 JP 7381813 B2 JP7381813 B2 JP 7381813B2 JP 2022570419 A JP2022570419 A JP 2022570419A JP 2022570419 A JP2022570419 A JP 2022570419A JP 7381813 B2 JP7381813 B2 JP 7381813B2
- Authority
- JP
- Japan
- Prior art keywords
- model
- student
- module
- teacher
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013140 knowledge distillation Methods 0.000 title claims description 74
- 238000007906 compression Methods 0.000 title claims description 53
- 230000006835 compression Effects 0.000 title claims description 52
- 238000000034 method Methods 0.000 title claims description 33
- 238000012546 transfer Methods 0.000 claims description 64
- 239000010410 layer Substances 0.000 claims description 45
- 238000012549 training Methods 0.000 claims description 43
- 238000013507 mapping Methods 0.000 claims description 36
- 238000009826 distribution Methods 0.000 claims description 33
- 238000003058 natural language processing Methods 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 14
- 238000004821 distillation Methods 0.000 claims description 11
- 239000011229 interlayer Substances 0.000 claims description 6
- 230000000052 comparative effect Effects 0.000 claims description 5
- 230000006399 behavior Effects 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000000644 propagated effect Effects 0.000 claims description 2
- 239000000284 extract Substances 0.000 claims 1
- 238000013461 design Methods 0.000 description 5
- 206010027476 Metastases Diseases 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000009401 metastasis Effects 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 238000013526 transfer learning Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000008014 freezing Effects 0.000 description 1
- 238000007710 freezing Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000035755 proliferation Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Medical Informatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Machine Translation (AREA)
Description
前記第1段階では、教師ネットワークの自己注意ユニットを生徒ネットワークに入力し、転移目的関数を最小化し、具体的には、教師ネットワークの自己注意ユニットを基本真値とし、ネットワークの自己注意ユニットの位置で生徒ネットワークに入力し、生徒ネットワークは正しい監督信号を受けて後続層をトレーニングし、推定誤差が大きすぎて伝播する現象を回避し、
前記第2段階では、生徒ネットワークの自己注意ユニットを教師ネットワークに入力し、転移目的関数を最小化し、推定誤差が生徒ネットワークで層ごとに伝播するため、同一層の位置での生徒ネットワーク入力と教師ネットワーク入力に差異が存在し、生徒ネットワークの自己注意ユニットを教師ネットワークに入力することで、同じ入力を前提に生徒ネットワークが教師ネットワークの出力行為を模倣することを実現し、
前記第3段階では、ネットワークの自己注意ユニットにおいて、前記第1段階と前記第2段階の転移目的関数に対して凸結合を行い、交差転移の蒸留ポリシーを実現する。
前記ステップ1では、特徴マッピング知識蒸留モジュールと自己注意交差知識蒸留モジュールはいずれもベルヌーイ確率分布の転移確率を使用し、すなわち、現在i番目のモジュールを転移することを仮定し、先に、ベルヌーイ分布によって1つの確率変数Xをサンプリングし、Xは0又は1であり、確率変数が1である場合に、現在のモジュールが転移学習を行うことを示し、そうでないと、行わないことを示し、
前記ステップ2では、前記ステップ1で一定の転移確率pを設定することで、圧縮モデルの需要を満たすことができるが、線形学習により駆動される転移確率はモデルのエンコーダモジュールを徐々に転移することに寄与し、本ステップ2では、線形学習により駆動される1つの転移確率plinearを設計して、前記ステップ1での転移確率pを動的に調整し、すなわち、
前記データロードアセンブリは、マルチタスク向けのBERTモデル及びそのトレーニングサンプルを取得することに用いられ、前記トレーニングサンプルは教師あり学習タスクを満たすラベル付きテキストサンプルであり、
前記圧縮アセンブリは、マルチタスク向けの大規模言語モデルを圧縮することに用いられ、教師モデル微調整モジュール、教師-生徒モデル蒸留モジュール、及び生徒モデル微調整モジュールを含み、前記教師モデル微調整モジュールは、BERTモデルをロードし、トレーニングサンプルを下流タスクが含まれるBERTモデルに入力して微調整を行い、教師モデルを出力することに用いられ、前記教師-生徒モデル蒸留モジュールは、前記教師モデル微調整モジュールによって取得された教師モデルを使用して、前記特徴マッピング知識蒸留モジュール、自己注意交差知識蒸留モジュール及びベルヌーイ確率分布に基づく線形学習モジュールによって、教師から生徒への特徴マッピング及び自己注意分布の知識蒸留を徐々に完了し、生徒ネットワークの各ユニットモジュールの重みパラメータを更新し、前記生徒モデル微調整モジュールは、生徒ネットワークのすべてのエンコーダユニットモジュールを改めて組み合わせて完全なエンコーダを形成し、教師ネットワークの特徴層及び出力層を使用して下流タスクシーンに対して微調整を行い、微調整済みの生徒モデルを最終圧縮モデルとして出力し、
前記推論アセンブリは、前記圧縮アセンブリによって出力された圧縮モデルを使用して、実際のシーンのデータセットで自然言語処理の下流タスクを推論する。
データロードアセンブリは、ログインユーザーがアップロードした、具体的な自然言語処理の下流タスクが含まれる圧縮対象となるBERTモデル及びマルチタスク向けの予めトレーニング言語モデルのトレーニングサンプルを取得することに用いられ、上記トレーニングサンプルは教師あり学習タスクを満たすラベル付きテキストサンプルである。
教師-生徒モデル蒸留モジュールは、上記教師モデル微調整モジュールによって取得された教師モデルを使用して、特徴マッピング知識蒸留、自己注意交差知識蒸留、及びベルヌーイ確率分布に基づく線形学習に基づいて、生徒モデルの各ユニットモジュールの重みパラメータを更新し、
生徒モデル微調整モジュールは、上記知識蒸留によって得られた生徒モデルに基づいて微調整を行い、生徒ネットワークのすべてのエンコーダユニットモジュールを改めて組み合わせて完全なエンコーダを形成し、教師ネットワークの特徴層及び出力層を使用して下流タスクシーンを微調整し、最終的に微調整された生徒モデル、すなわち、ログインユーザーが所望する下流タスクが含まれる予めトレーニング言語モデル圧縮モデルを出力する。上記圧縮モデルを指定されたコンテナに出力して上記ユーザーによるダウンロードに備え、上記プラットフォームの圧縮モデル出力ページに圧縮前後のモデルサイズの比較情報を表示する。
上記プラットフォームによってBERT予めトレーニングモデルをロードし、テキスト分類タスクが含まれるBERTモデルを微調整し、教師モデルを取得し、
上記プラットフォームの圧縮アセンブリによって、教師から生徒への特徴マッピング及び自己注意分布の知識蒸留を徐々に完了し、生徒ネットワークの各ユニットモジュールの重みパラメータを更新し、
上記知識蒸留によって得られた生徒モデルに基づいて微調整を行い、生徒ネットワークのすべてのエンコーダユニットモジュールを改めて組み合わせて完全なエンコーダを形成し、教師ネットワークの特徴層及び出力層を使用して下流タスクシーンを微調整し、最終的に、プラットフォームはログインユーザーニーズが所望するテキスト分類タスクが含まれるBERTモデルの圧縮モデルを出力する。
Claims (6)
- 知識蒸留に基づく予めトレーニング言語モデルの圧縮方法であって、BERTモデルを圧縮し、特徴マッピング知識蒸留モジュール、自己注意交差知識蒸留モジュール、及びベルヌーイ確率分布に基づく線形学習モジュールを含み、元のBERTモデルは教師モデルであり、圧縮後のBERTモデルは生徒モデルであり、特徴マッピング知識蒸留モジュールは、特徴転移の知識蒸留ポリシーに基づいて、教師モデルから生徒モデルへの知識蒸留の過程で生徒モデルの各層の特徴マッピングを教師モデルの特徴マッピングに近似し、生徒モデルは教師モデルの中間層の特徴に注目し、これらの中間層特徴を使用して生徒モデルを指導し、自己注意交差知識蒸留モジュールは教師モデルと生徒モデルの自己注意ユニットを交差接続することにより、ネットワークの自己注意層で凸結合交差接続を行うことによって、教師モデルと生徒モデルの深層相互学習を実現し、ベルヌーイ確率分布に基づく線形学習モジュールは、教師モデルから生徒モデルへの特徴マッピング及び自己注意分布の知識転移を徐々に完了し、
前記自己注意交差知識蒸留モジュールは、以下の第1段階、第2段階及び第3段階を含み、
前記第1段階では、教師ネットワークの自己注意ユニットを生徒ネットワークに入力し、転移目的関数を最小化し、具体的には、教師ネットワークの自己注意ユニットを基本真値とし、ネットワークの自己注意ユニットの位置で生徒ネットワークに入力し、生徒ネットワークは正しい監督信号を受けて後続層をトレーニングし、推定誤差が大きすぎて伝播する現象を回避し、
前記第2段階では、生徒ネットワークの自己注意ユニットを教師ネットワークに入力し、転移目的関数を最小化し、推定誤差が生徒ネットワークで層ごとに伝播するため、同一層の位置での生徒ネットワーク入力と教師ネットワーク入力に差異が存在し、生徒ネットワークの自己注意ユニットを教師ネットワークに入力することで、同じ入力を前提に生徒ネットワークが教師ネットワークの出力行為を模倣することを実現し、
前記第3段階では、ネットワークの自己注意ユニットにおいて、前記第1段階と前記第2段階の転移目的関数に対して凸結合を行い、交差転移の蒸留ポリシーを実現し、
前記ベルヌーイ確率分布に基づく線形学習モジュールは、特徴マッピング知識蒸留モジュールと自己注意交差知識蒸留モジュールを駆動するために、異なる線形転移確率を設定することに用いられ、以下のステップ1及びステップ2を含み、
前記ステップ1では、特徴マッピング知識蒸留モジュールと自己注意交差知識蒸留モジュールはいずれもベルヌーイ確率分布の転移確率を使用し、すなわち、現在i番目のモジュールを転移することを仮定し、先に、ベルヌーイ分布によって1つの確率変数Xをサンプリングし、Xは0又は1であり、確率変数が1である場合に、現在のモジュールが転移学習を行うことを示し、そうでないと、行わないことを示し、
前記ステップ2では、前記ステップ1で一定の転移確率pを設定することで、圧縮モデルの需要を満たすことができるが、線形学習により駆動される転移確率はモデルのエンコーダモジュールを徐々に転移することに寄与し、本ステップ2では、線形学習により駆動される1つの転移確率plinearを設計して、前記ステップ1での転移確率pを動的に調整し、すなわち、
ことを特徴とする知識蒸留に基づく予めトレーニング言語モデルの圧縮方法。 - 前記特徴マッピング知識蒸留モジュールに層間正規化を追加することで層間トレーニング損失を安定させ、生徒ネットワークをトレーニングする際に、特徴マップ変換における平均値及び分散の2つの統計的差異を最小化する
ことを特徴とする請求項1に記載の知識蒸留に基づく予めトレーニング言語モデルの圧縮方法。 - 前記自己注意交差知識蒸留モジュールの転移目的関数は生徒モデルと教師モデルの注意力分布間の相対エントロピーを最小化する
ことを特徴とする請求項1に記載の知識蒸留に基づく予めトレーニング言語モデルの圧縮方法。 - 前記初期転移確率bの値の範囲は0.1~0.3である
ことを特徴とする請求項1に記載の知識蒸留に基づく予めトレーニング言語モデルの圧縮方法。 - 請求項1に記載の知識蒸留に基づく予めトレーニング言語モデルの圧縮方法のプラットフォームであって、データロードアセンブリ、圧縮アセンブリ及び推論アセンブリを含み、
前記データロードアセンブリは、マルチタスク向けのBERTモデル及びそのトレーニングサンプルを取得することに用いられ、前記トレーニングサンプルは教師あり学習タスクを満たすラベル付きテキストサンプルであり、
前記圧縮アセンブリは、マルチタスク向けの大規模言語モデルを圧縮することに用いられ、教師モデル微調整モジュール、教師-生徒モデル蒸留モジュール、及び生徒モデル微調整モジュールを含み、前記教師モデル微調整モジュールは、BERTモデルをロードし、トレーニングサンプルを下流タスクが含まれるBERTモデルに入力して微調整を行い、教師モデルを出力することに用いられ、前記教師-生徒モデル蒸留モジュールは、前記教師モデル微調整モジュールによって取得された教師モデルを使用して、前記特徴マッピング知識蒸留モジュール、自己注意交差知識蒸留モジュール及びベルヌーイ確率分布に基づく線形学習モジュールによって、教師から生徒への特徴マッピング及び自己注意分布の知識蒸留を徐々に完了し、生徒ネットワークの各ユニットモジュールの重みパラメータを更新し、前記生徒モデル微調整モジュールは、生徒ネットワークのすべてのエンコーダユニットモジュールを改めて組み合わせて完全なエンコーダを形成し、教師ネットワークの特徴層及び出力層を使用して下流タスクシーンに対して微調整を行い、微調整済みの生徒モデルを最終圧縮モデルとして出力し、
前記推論アセンブリは、前記圧縮アセンブリによって出力された圧縮モデルを使用して、実際のシーンのデータセットで自然言語処理の下流タスクを推論する
ことを特徴とするプラットフォーム。 - 前記圧縮アセンブリは、前記圧縮モデルを指定されたコンテナに出力してユーザーによるダウンロードに備え、圧縮前後のモデルサイズの比較情報を表示し、推論アセンブリによって圧縮モデルを使用して自然言語処理の下流タスクを推論し、圧縮前後の推論速度の比較情報を表示する
ことを特徴とする請求項5に記載のプラットフォーム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010910566.3 | 2020-09-02 | ||
CN202010910566.3A CN111767711B (zh) | 2020-09-02 | 2020-09-02 | 基于知识蒸馏的预训练语言模型的压缩方法及平台 |
PCT/CN2020/138019 WO2021248868A1 (zh) | 2020-09-02 | 2020-12-21 | 基于知识蒸馏的预训练语言模型的压缩方法及平台 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023523644A JP2023523644A (ja) | 2023-06-06 |
JP7381813B2 true JP7381813B2 (ja) | 2023-11-16 |
Family
ID=72729279
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022570419A Active JP7381813B2 (ja) | 2020-09-02 | 2020-12-21 | 知識蒸留に基づく予めトレーニング言語モデルの圧縮方法及びプラットフォーム |
Country Status (5)
Country | Link |
---|---|
US (1) | US11341326B2 (ja) |
JP (1) | JP7381813B2 (ja) |
CN (1) | CN111767711B (ja) |
GB (1) | GB2608919A (ja) |
WO (1) | WO2021248868A1 (ja) |
Families Citing this family (52)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111767711B (zh) | 2020-09-02 | 2020-12-08 | 之江实验室 | 基于知识蒸馏的预训练语言模型的压缩方法及平台 |
GB2609768A (en) * | 2020-11-02 | 2023-02-15 | Zhejiang Lab | Multi-task language model-oriented meta-knowledge fine tuning method and platform |
CN112418291A (zh) * | 2020-11-17 | 2021-02-26 | 平安科技(深圳)有限公司 | 一种应用于bert模型的蒸馏方法、装置、设备及存储介质 |
CN112529178B (zh) * | 2020-12-09 | 2024-04-09 | 中国科学院国家空间科学中心 | 一种适用于无预选框检测模型的知识蒸馏方法及系统 |
CN112464959B (zh) * | 2020-12-12 | 2023-12-19 | 中南民族大学 | 基于注意力和多重知识迁移的植物表型检测系统及其方法 |
JP7381814B2 (ja) * | 2020-12-15 | 2023-11-16 | 之江実験室 | マルチタスク向けの予めトレーニング言語モデルの自動圧縮方法及びプラットフォーム |
CN112232511B (zh) * | 2020-12-15 | 2021-03-30 | 之江实验室 | 面向多任务的预训练语言模型自动压缩方法及平台 |
CN112580783B (zh) * | 2020-12-16 | 2024-03-22 | 浙江工业大学 | 一种高维深度学习模型向低维迁移知识的跨维度知识迁移方法 |
CN112613273B (zh) * | 2020-12-16 | 2022-09-23 | 上海交通大学 | 多语言bert序列标注模型的压缩方法及系统 |
CN112241455B (zh) * | 2020-12-17 | 2021-05-04 | 之江实验室 | 基于多层级知识蒸馏预训练语言模型自动压缩方法及平台 |
JP7283835B2 (ja) * | 2020-12-17 | 2023-05-30 | 之江実験室 | マルチレベル知識蒸留に基づく事前訓練言語モデルの自動圧縮方法およびプラットフォーム |
CN112613559B (zh) * | 2020-12-23 | 2023-04-07 | 电子科技大学 | 基于相互学习的图卷积神经网络节点分类方法、存储介质和终端 |
CN112365385B (zh) * | 2021-01-18 | 2021-06-01 | 深圳市友杰智新科技有限公司 | 基于自注意力的知识蒸馏方法、装置和计算机设备 |
CN113159168B (zh) * | 2021-04-19 | 2022-09-02 | 清华大学 | 基于冗余词删除的预训练模型加速推理方法和系统 |
US11977842B2 (en) * | 2021-04-30 | 2024-05-07 | Intuit Inc. | Methods and systems for generating mobile enabled extraction models |
CN113177415B (zh) * | 2021-04-30 | 2024-06-07 | 科大讯飞股份有限公司 | 语义理解方法、装置、电子设备和存储介质 |
CN113222123A (zh) * | 2021-06-15 | 2021-08-06 | 深圳市商汤科技有限公司 | 模型训练方法、装置、设备及计算机存储介质 |
CN113420123A (zh) * | 2021-06-24 | 2021-09-21 | 中国科学院声学研究所 | 语言模型的训练方法、nlp任务处理方法及装置 |
US11763082B2 (en) | 2021-07-12 | 2023-09-19 | International Business Machines Corporation | Accelerating inference of transformer-based models |
CN113592007B (zh) * | 2021-08-05 | 2022-05-31 | 哈尔滨理工大学 | 一种基于知识蒸馏的不良图片识别系统、方法、计算机及存储介质 |
CN113849641B (zh) * | 2021-09-26 | 2023-10-24 | 中山大学 | 一种跨领域层次关系的知识蒸馏方法和系统 |
CN113887610B (zh) * | 2021-09-29 | 2024-02-02 | 内蒙古工业大学 | 基于交叉注意力蒸馏Transformer的花粉图像分类方法 |
CN113887230B (zh) * | 2021-09-30 | 2024-06-25 | 北京熵简科技有限公司 | 一种面向金融场景的端到端自然语言处理训练系统与方法 |
US11450225B1 (en) * | 2021-10-14 | 2022-09-20 | Quizlet, Inc. | Machine grading of short answers with explanations |
CN117099125A (zh) * | 2021-12-03 | 2023-11-21 | 宁德时代新能源科技股份有限公司 | 一种基于对比表征蒸馏的快速异常检测方法和系统 |
CN114461871B (zh) * | 2021-12-21 | 2023-03-28 | 北京达佳互联信息技术有限公司 | 推荐模型训练方法、对象推荐方法、装置及存储介质 |
CN114004315A (zh) * | 2021-12-31 | 2022-02-01 | 北京泰迪熊移动科技有限公司 | 一种基于小样本进行增量学习的方法及装置 |
CN114708467B (zh) * | 2022-01-27 | 2023-10-13 | 西安交通大学 | 基于知识蒸馏的不良场景识别方法及系统及设备 |
CN114863248B (zh) * | 2022-03-02 | 2024-04-26 | 武汉大学 | 一种基于深监督自蒸馏的图像目标检测方法 |
CN114972839B (zh) * | 2022-03-30 | 2024-06-25 | 天津大学 | 一种基于在线对比蒸馏网络的广义持续分类方法 |
CN114580571B (zh) * | 2022-04-01 | 2023-05-23 | 南通大学 | 一种基于迁移互学习的小样本电力设备图像分类方法 |
CN114972904B (zh) * | 2022-04-18 | 2024-05-31 | 北京理工大学 | 一种基于对抗三元组损失的零样本知识蒸馏方法及系统 |
CN114969332A (zh) * | 2022-05-18 | 2022-08-30 | 北京百度网讯科技有限公司 | 训练文本审核模型的方法和装置 |
CN115064155A (zh) * | 2022-06-09 | 2022-09-16 | 福州大学 | 一种基于知识蒸馏的端到端语音识别增量学习方法及系统 |
CN115309849A (zh) * | 2022-06-27 | 2022-11-08 | 北京邮电大学 | 一种基于知识蒸馏的特征提取方法、装置及数据分类方法 |
CN115131627B (zh) * | 2022-07-01 | 2024-02-20 | 贵州大学 | 一种轻量化植物病虫害目标检测模型的构建和训练方法 |
CN115019183B (zh) * | 2022-07-28 | 2023-01-20 | 北京卫星信息工程研究所 | 基于知识蒸馏和图像重构的遥感影像模型迁移方法 |
CN115457006B (zh) * | 2022-09-23 | 2023-08-22 | 华能澜沧江水电股份有限公司 | 基于相似一致性自蒸馏的无人机巡检缺陷分类方法及装置 |
CN115272981A (zh) * | 2022-09-26 | 2022-11-01 | 山东大学 | 云边共学习输电巡检方法与系统 |
CN115511059B (zh) * | 2022-10-12 | 2024-02-09 | 北华航天工业学院 | 一种基于卷积神经网络通道解耦的网络轻量化方法 |
CN115423540B (zh) * | 2022-11-04 | 2023-02-03 | 中邮消费金融有限公司 | 一种基于强化学习的金融模型知识蒸馏方法及装置 |
CN116110022B (zh) * | 2022-12-10 | 2023-09-05 | 河南工业大学 | 基于响应知识蒸馏的轻量化交通标志检测方法及系统 |
CN115797976B (zh) * | 2023-01-12 | 2023-05-30 | 广州紫为云科技有限公司 | 一种低分辨率的实时手势识别方法 |
CN116340779A (zh) * | 2023-05-30 | 2023-06-27 | 北京智源人工智能研究院 | 一种下一代通用基础模型的训练方法、装置和电子设备 |
CN116415005B (zh) * | 2023-06-12 | 2023-08-18 | 中南大学 | 一种面向学者学术网络构建的关系抽取方法 |
CN116542321B (zh) * | 2023-07-06 | 2023-09-01 | 中科南京人工智能创新研究院 | 基于扩散模型的图像生成模型压缩和加速方法及系统 |
CN116776744B (zh) * | 2023-08-15 | 2023-10-31 | 工业云制造(四川)创新中心有限公司 | 一种基于增强现实的装备制造控制方法及电子设备 |
CN117009830B (zh) * | 2023-10-07 | 2024-02-13 | 之江实验室 | 一种基于嵌入特征正则化的知识蒸馏方法和系统 |
CN117612247A (zh) * | 2023-11-03 | 2024-02-27 | 重庆利龙中宝智能技术有限公司 | 一种基于知识蒸馏的动静态手势识别方法 |
CN117197590B (zh) * | 2023-11-06 | 2024-02-27 | 山东智洋上水信息技术有限公司 | 一种基于神经架构搜索与知识蒸馏的图像分类方法及装置 |
CN117668622B (zh) * | 2024-02-01 | 2024-05-10 | 山东能源数智云科技有限公司 | 设备故障诊断模型的训练方法、故障诊断方法及装置 |
CN117892139B (zh) * | 2024-03-14 | 2024-05-14 | 中国医学科学院医学信息研究所 | 基于层间比对的大语言模型训练和使用方法及相关装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111062489A (zh) | 2019-12-11 | 2020-04-24 | 北京知道智慧信息技术有限公司 | 一种基于知识蒸馏的多语言模型压缩方法、装置 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10575788B2 (en) * | 2016-10-18 | 2020-03-03 | Arizona Board Of Regents On Behalf Of Arizona State University | Compressive sensing of quasi-periodic signals using generative models |
US11210467B1 (en) * | 2017-04-13 | 2021-12-28 | Snap Inc. | Machine learned language modeling and identification |
CN107247989B (zh) * | 2017-06-15 | 2020-11-24 | 北京图森智途科技有限公司 | 一种实时的计算机视觉处理方法及装置 |
CN108830288A (zh) * | 2018-04-25 | 2018-11-16 | 北京市商汤科技开发有限公司 | 图像处理方法、神经网络的训练方法、装置、设备及介质 |
CN110232203B (zh) * | 2019-04-22 | 2020-03-03 | 山东大学 | 知识蒸馏优化rnn短期停电预测方法、存储介质及设备 |
CN110147836B (zh) * | 2019-05-13 | 2021-07-02 | 腾讯科技(深圳)有限公司 | 模型训练方法、装置、终端及存储介质 |
CN110097178A (zh) * | 2019-05-15 | 2019-08-06 | 电科瑞达(成都)科技有限公司 | 一种基于熵注意的神经网络模型压缩与加速方法 |
CN110880036B (zh) * | 2019-11-20 | 2023-10-13 | 腾讯科技(深圳)有限公司 | 神经网络压缩方法、装置、计算机设备及存储介质 |
US11797862B2 (en) * | 2020-01-22 | 2023-10-24 | Google Llc | Extreme language model compression with optimal sub-words and shared projections |
CN111461226A (zh) * | 2020-04-01 | 2020-07-28 | 深圳前海微众银行股份有限公司 | 对抗样本生成方法、装置、终端及可读存储介质 |
EP4150535A4 (en) * | 2020-06-05 | 2023-10-04 | Huawei Technologies Co., Ltd. | ENHANCED KNOWLEDGE DISTILLATION BY USING BACKWARD PASS KNOWLEDGE IN NEURAL NETWORKS |
CN111767110B (zh) * | 2020-07-01 | 2023-06-23 | 广州视源电子科技股份有限公司 | 图像处理方法、装置、系统、电子设备及存储介质 |
CN111767711B (zh) * | 2020-09-02 | 2020-12-08 | 之江实验室 | 基于知识蒸馏的预训练语言模型的压缩方法及平台 |
-
2020
- 2020-09-02 CN CN202010910566.3A patent/CN111767711B/zh active Active
- 2020-12-21 JP JP2022570419A patent/JP7381813B2/ja active Active
- 2020-12-21 WO PCT/CN2020/138019 patent/WO2021248868A1/zh active Application Filing
- 2020-12-21 GB GB2214161.8A patent/GB2608919A/en active Pending
-
2021
- 2021-09-24 US US17/483,805 patent/US11341326B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111062489A (zh) | 2019-12-11 | 2020-04-24 | 北京知道智慧信息技术有限公司 | 一种基于知识蒸馏的多语言模型压缩方法、装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2021248868A1 (zh) | 2021-12-16 |
GB202214161D0 (en) | 2022-11-09 |
JP2023523644A (ja) | 2023-06-06 |
CN111767711B (zh) | 2020-12-08 |
GB2608919A9 (en) | 2023-05-10 |
GB2608919A (en) | 2023-01-18 |
US20220067274A1 (en) | 2022-03-03 |
US11341326B2 (en) | 2022-05-24 |
CN111767711A (zh) | 2020-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7381813B2 (ja) | 知識蒸留に基づく予めトレーニング言語モデルの圧縮方法及びプラットフォーム | |
CN112565331B (zh) | 一种基于边缘计算的端-边协同联邦学习优化方法 | |
WO2023124296A1 (zh) | 基于知识蒸馏的联合学习训练方法、装置、设备及介质 | |
CN113868366B (zh) | 一种面向流数据的在线跨模态检索方法与系统 | |
CN114708270B (zh) | 基于知识聚合与解耦蒸馏的压缩方法在语义分割中的应用 | |
CN108763567A (zh) | 应用于智能机器人交互的知识推理方法及装置 | |
JP7381814B2 (ja) | マルチタスク向けの予めトレーニング言語モデルの自動圧縮方法及びプラットフォーム | |
Zhang | Application of AI-based real-time gesture recognition and embedded system in the design of English major teaching | |
CN115375877A (zh) | 一种基于通道注意力机制的三维点云分类方法及装置 | |
Wan et al. | A knowledge diffusion model in autonomous learning under multiple networks for personalized educational resource allocation | |
CN113962388A (zh) | 一种硬件加速感知的神经网络通道剪枝方法 | |
CN116209113B (zh) | 一种应用于多通道led调光的非线性补偿方法及系统 | |
WO2021159448A1 (zh) | 一种基于序列推荐系统的通用网络压缩框架和压缩方法 | |
CN116958862A (zh) | 端侧分层神经网络模型训练方法、装置、计算机设备 | |
CN106469428A (zh) | 基于数轴的提升幼儿数学能力的系统及方法 | |
CN114325931B (zh) | 硅光器件的制造方法、硅光器件及光子集成线路 | |
CN116343316A (zh) | 基于自动编码变换的视线追踪方法及装置 | |
CN110674335B (zh) | 一种基于多生成多对抗的哈希码与图像双向转换方法 | |
Li et al. | College Students' Learning Decision-Making Based on Group Learning Behavior | |
US20200193852A1 (en) | Systems and methods of educational tools implemented via smart speakers | |
CN117808083B (zh) | 一种分布式训练通信方法、装置、系统、设备及存储介质 | |
CN117689041B (zh) | 云端一体化的嵌入式大语言模型训练方法及语言问答方法 | |
Yu | Design and Implementation of Mobile Intelligent Education System Based on Cloud Architecture | |
CN117910448A (zh) | 短文本相似性判断方法、系统、存储介质及设备 | |
CN113919487A (zh) | 神经网络模型借鉴神经认知机理和机器学习数学方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221117 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20221125 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230510 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230516 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230804 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230815 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7381813 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |