JP7381814B2 - マルチタスク向けの予めトレーニング言語モデルの自動圧縮方法及びプラットフォーム - Google Patents
マルチタスク向けの予めトレーニング言語モデルの自動圧縮方法及びプラットフォーム Download PDFInfo
- Publication number
- JP7381814B2 JP7381814B2 JP2022570738A JP2022570738A JP7381814B2 JP 7381814 B2 JP7381814 B2 JP 7381814B2 JP 2022570738 A JP2022570738 A JP 2022570738A JP 2022570738 A JP2022570738 A JP 2022570738A JP 7381814 B2 JP7381814 B2 JP 7381814B2
- Authority
- JP
- Japan
- Prior art keywords
- distillation
- model
- network
- knowledge
- distilled
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 55
- 238000007906 compression Methods 0.000 title claims description 53
- 230000006835 compression Effects 0.000 title claims description 52
- 239000013598 vector Substances 0.000 claims description 101
- 238000004821 distillation Methods 0.000 claims description 88
- 238000013140 knowledge distillation Methods 0.000 claims description 88
- 108090000623 proteins and genes Proteins 0.000 claims description 60
- 238000012549 training Methods 0.000 claims description 57
- 238000005070 sampling Methods 0.000 claims description 49
- 239000011159 matrix material Substances 0.000 claims description 26
- 230000006798 recombination Effects 0.000 claims description 9
- 238000010200 validation analysis Methods 0.000 claims description 8
- 230000007614 genetic variation Effects 0.000 claims description 6
- 238000013526 transfer learning Methods 0.000 claims description 6
- 230000035772 mutation Effects 0.000 claims description 4
- 238000010845 search algorithm Methods 0.000 claims description 4
- 238000005056 compaction Methods 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 230000000052 comparative effect Effects 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 238000003058 natural language processing Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/086—Learning methods using evolutionary algorithms, e.g. genetic algorithms or genetic programming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/12—Computing arrangements based on biological models using genetic models
- G06N3/126—Evolutionary algorithms, e.g. genetic algorithms or genetic programming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Physiology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Genetics & Genomics (AREA)
- Probability & Statistics with Applications (AREA)
- Feedback Control In General (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
前記第1段階では、Transformerレイヤーサンプリングに基づく知識蒸留コーディングベクトルを構築し、具体的には、ベルヌーイ分布を使用してBERTモデルのすべてのTransformerユニットに対してレイヤーサンプリングを行い、知識蒸留コーディングベクトルを生成し、
前記第2段階では、メタ学習の知識蒸留ネットワークをトレーニングし、具体的には、探索空間を定義し、前記第1段階で構築された知識蒸留コーディングベクトルを該探索空間に入力し、条件を満たさない知識蒸留コーディングベクトルを除去し、構造生成器を定義し、スクリーニング済みの知識蒸留コーディングベクトルを入力とし、蒸留構造モデルを構築するための重み行列を出力し、対応する蒸留構造モデルを生成し、生成された蒸留構造モデルをトレーニングすることで構造生成器を更新し
前記第3段階では、進化的アルゴリズムに基づく蒸留構造モデルの探索過程であり、具体的には、特定の制約を満たす複数の知識蒸留コーディングベクトルを第2段階で更新された構造生成器に入力して、対応する重み行列を生成し、複数の蒸留構造モデルを得て、各蒸留構造モデルの精度を評価し、進化的アルゴリズムを使用して特定の制約を満たす精度が最も高い蒸留構造モデルを探索し、汎用圧縮アーキテクチャを得る。
前記サブステップ2.1では、知識蒸留コーディングベクトルを構造生成器に入力して、重み行列を出力し、
前記サブステップ2.2では、構造生成器によって出力された重み行列に基づいて蒸留構造モデルを構築し、
前記サブステップ2.3では、構造生成器と蒸留構造モデルを共同でトレーニングし、具体的には、トレーニングデータを前記サブステップ2.2で生成された蒸留構造モデルに入力してモデルトレーニングを行い、且つ構造生成器が同期的に更新され、同時にベルヌーイ分布サンプリング方法と組み合わせて構造生成器をトレーニングする。
前記サブステップ3.1では、知識蒸留コーディングベクトルを蒸留構造モデルの遺伝子として定義し、特定の制約を満たす一連の遺伝子を初期個体群としてランダムに選択し、
前記サブステップ3.2では、既存の個体群中の各遺伝子に対応する蒸留構造モデルの精度を評価し、精度が高い上位k個の遺伝子を選択し、
前記サブステップ3.3では、前記サブステップ3.2で選択された精度が高い上位k個の遺伝子を使用して遺伝的組換え及び遺伝的変異を行って新たな遺伝子を生成し、新たな遺伝子を既存の個体群に追加し、
前記サブステップ3.4では、前記サブステップ3.2~前記サブステップ3.3を所定回数繰り返して反復し、既存の個体群中の精度が高い上位k個の遺伝子を選択して新たな遺伝子を生成し、最終的に特定の制約を満たし且つ精度が最も高い遺伝子を取得する。
前記データロードアセンブリは、マルチタスク向けの予めトレーニング言語モデルのトレーニングサンプルを取得することに用いられ、前記トレーニングサンプルは教師あり学習タスクを満たすラベル付きテキストサンプルであり、
前記自動圧縮アセンブリは、マルチタスク向けの予めトレーニング言語モデルを自動圧縮することに用いられ、知識蒸留ベクトルコーディングモジュール、蒸留ネットワーク生成モジュール、構造生成器・蒸留ネットワーク共同トレーニングモジュール、蒸留ネットワーク探索モジュール及び特定タスク微調整モジュールを含み、
前記知識蒸留ベクトルコーディングモジュールは、Transformerのレイヤーサンプリングベクトルを含み、順伝播過程では、知識蒸留コーディングベクトルを構造生成器に入力し、対応する構造の蒸留ネットワークと構造生成器の重み行列を生成し、
前記蒸留ネットワーク生成モジュールは、構造生成器に基づいて、現在入力された知識蒸留コーディングベクトルに対応する蒸留ネットワークを構築し、知識蒸留コーディングベクトルに対応する蒸留構造の入力出力のエンコーダユニットの数と同じように、構造生成器によって出力される重み行列の形状を調整し、
前記構造生成器・蒸留ネットワーク共同トレーニングモジュールは、エンドツーエンドのトレーニング構造生成器であり、具体的には、Transformerレイヤーサンプリングに基づく知識蒸留コーディングベクトル及び1つの小バッチのトレーニングデータを蒸留ネットワークに入力し、蒸留構造の重み及び構造生成器の重み行列を更新し、
前記蒸留ネットワーク探索モジュールは、特定の制約条件を満たす最高精度の蒸留ネットワークを探索するために、進化的アルゴリズムを提案して特定の制約条件を満たす最高精度の蒸留ネットワークを探索し、知識蒸留コーディングベクトルをトレーニング済みの構造生成器に入力し、対応する蒸留ネットワークの重みを生成し、検証セットで蒸留ネットワークを評価し、対応する蒸留ネットワークの精度を取得し、メタ学習蒸留ネットワークで使用される進化的探索アルゴリズムでは、各蒸留ネットワークはTransformerレイヤーサンプリングに基づく知識蒸留コーディングベクトルによって生成され、従って、知識蒸留コーディングベクトルを蒸留ネットワークの遺伝子として定義し、特定の制約条件を満たす場合、先に、一連の知識蒸留コーディングベクトルを蒸留ネットワークの遺伝子として選択し、検証セットで評価を行うことによって対応する蒸留ネットワークの精度を取得し、そして、精度が高い上位k個の遺伝子を選択し、遺伝的組換え及び変異によって新たな遺伝子を生成し、さらに上位k個の最適遺伝子の選択過程及び新たな遺伝子の生成過程を繰り返すことによって反復を行い、制約条件を満たし且つ精度が最も高い遺伝子を取得し、
前記特定タスク微調整モジュールは、前記自動圧縮アセンブリによって生成された予めトレーニングモデル蒸留ネットワークにおいて、下流タスクネットワークを構築し、蒸留ネットワークの特徴層及び出力層を使用して下流タスクシーンを微調整し、最終的に微調整された生徒モデル、すなわち、ログインユーザーが所望する下流タスクが含まれる予めトレーニング言語モデル圧縮モデルを出力し、前記ログインユーザーがダウンロードできるように前記圧縮モデルを指定されたコンテナに出力し、前記プラットフォームの圧縮モデル出力ページに圧縮前後のモデルサイズの比較情報を表示し、
前記推論アセンブリについては、ログインユーザーは前記プラットフォームから予めトレーニング圧縮モデルを取得し、ユーザーは前記自動圧縮アセンブリによって出力された圧縮モデルを使用して、実際のシーンのデータセットでログインユーザーがアップロードした自然言語処理の下流タスクの新たなデータを推論し、前記プラットフォームの圧縮モデル推論ページに圧縮前後の推論速度の比較情報を表示する。
第1段階では、Transformerレイヤーサンプリングに基づく知識蒸留コーディングベクトルを構築する。ベルヌーイ分布を使用してBERTモデルのすべてのTransformerユニットに対してレイヤーサンプリングを行い、1つのレイヤーサンプリングベクトルである知識蒸留コーディングベクトルを生成する。
s.t. sum(li==1)≧6
すなわち、1つの知識蒸留ネットワーク構造を生成するごとに、BERTモデルのすべてのTransformerユニットのレイヤーサンプリング段階に対して制約条件を構築し、それによって知識蒸留コーディングベクトル中の要素が1である数量を6以上にし、そうでない場合、レイヤーサンプリングを再度行う。
第1段階で構築された、各々の要素liが1層のTransformerユニットに対応する知識蒸留コーディングベクトルに従って、教師ネットワークの各Transformer層に対してレイヤーサンプリング及び知識蒸留を行い、教師モデル中の知識蒸留コーディングベクトルの対応する要素が1であるTransformerユニットの重みを使用して、生徒モデルに転移するTransformerユニットを初期化し、すなわち、各レイヤーサンプリングが1である要素は構造生成器によって生徒モデルに対応するTransformerユニット及びその重みを生成し、知識蒸留コーディングベクトルによって教師モデルと生徒モデルとの1対1のマッピング関係を確立し、知識蒸留コーディングベクトルに従って対応する蒸留ネットワーク構造を生成する。
1つの小バッチのトレーニングデータをステップ2で生成された蒸留構造モデルに入力してモデルトレーニングを行い、蒸留構造モデルはパラメータ(重み行列)を更新した後、構造生成器も更新後のパラメータに従って更新し、すなわち、逆伝播過程では、蒸留構造モデルと構造生成器は同期的に更新され、構造生成器によって出力される重みは連鎖律によって計算でき、従って、構造生成器をエンドツーエンドでトレーニングすることができる。
第2段階でトレーニングされたメタ学習の知識蒸留ネットワークをもとに、特定の制約条件を満たす複数の知識蒸留コーディングベクトルを構造生成器に入力して対応する重み行列を生成し、複数の蒸留構造モデルを得て、検証セットで各蒸留構造モデルを評価し、対応する精度を取得し、進化的アルゴリズムを使用して、特定の制約条件(例えば、浮動小数点演算回数)を満たし且つ精度が最も高い蒸留構造モデルを探索し、それによってタスクとは無関係の予めトレーニング言語モデルの汎用圧縮アーキテクチャ、例えば、図5におけるブロックでマークされるNetwork_2を得る。進化的探索アルゴリズムの具体的なステップは以下のステップ1~4である。
データロードアセンブリは、ログインユーザーがアップロードした、具体的な自然言語処理の下流タスクを含む圧縮対象となるBERTモデル、及びマルチタスク向けの予めトレーニング言語モデルのトレーニングサンプルを取得することに用いられ、上記トレーニングサンプルは教師あり学習タスクを満たすラベル付きテキストサンプルである。
上記プラットフォームの自動圧縮アセンブリによってBERT予めトレーニングモデルを生成し、上記生成された予めトレーニングモデルにテキスト分類タスクのモデルを構築し、
上記自動圧縮アセンブリの特定タスク微調整モジュールによって得られた生徒モデルに基づいて微調整を行い、自動圧縮アセンブリによって生成されたBERT予めトレーニングモデルの特徴層及び出力層を使用して下流テキスト分類タスクシーンに対して微調整を行い、最終的に、プラットフォームはログインユーザーが所望するテキスト分類タスクのBERTモデルが含まれる圧縮モデルを出力した。
Claims (10)
- マルチタスク向けの予めトレーニング言語モデルの自動圧縮方法であって、以下の第1段階、第2段階及び第3段階を含み、
前記第1段階では、Transformerレイヤーサンプリングに基づく知識蒸留コーディングベクトルを構築し、具体的には、ベルヌーイ分布を使用してBERTモデルのすべてのTransformerユニットに対してレイヤーサンプリングを行い、知識蒸留コーディングベクトルを生成し、
前記第2段階では、メタ学習の知識蒸留ネットワークをトレーニングし、具体的には、探索空間を定義し、前記第1段階で構築された知識蒸留コーディングベクトルを該探索空間に入力し、条件を満たさない知識蒸留コーディングベクトルを除去し、構造生成器を定義し、スクリーニング済みの知識蒸留コーディングベクトルを入力とし、蒸留構造モデルを構築するための重み行列を出力し、対応する蒸留構造モデルを生成し、生成された蒸留構造モデルをトレーニングすることで構造生成器を更新し
前記第3段階では、進化的アルゴリズムに基づく蒸留構造モデルの探索過程であり、具体的には、特定の制約を満たす複数の知識蒸留コーディングベクトルを第2段階で更新された構造生成器に入力して、対応する重み行列を生成し、複数の蒸留構造モデルを得て、各蒸留構造モデルの精度を評価し、進化的アルゴリズムを使用して特定の制約を満たす精度が最も高い蒸留構造モデルを探索し、汎用圧縮アーキテクチャを得る
ことを特徴とするマルチタスク向けの予めトレーニング言語モデルの自動圧縮方法。 - 前記第1段階では、具体的には、BERTモデルの12層のTransformerユニットに対して順にベルヌーイサンプリングを行って知識蒸留コーディングベクトルを生成し、各層は1つの確率変数に対応し、確率変数が1である確率は0.5以上である場合に、知識蒸留コーディングベクトルに対応する要素は1であり、現在のTransformerユニットが転移学習を行うことを示し、確率変数が1である確率値は0.5未満である場合に、レイヤーサンプリングベクトルに対応する要素は0であり、現在のTransformerユニットが転移学習を行わないことを示す
ことを特徴とする請求項1に記載のマルチタスク向けの予めトレーニング言語モデルの自動圧縮方法。 - 前記探索空間を定義することは、具体的には、知識蒸留コーディングベクトルにおける要素が1である数量が6以上である
ことを特徴とする請求項2に記載のマルチタスク向けの予めトレーニング言語モデルの自動圧縮方法。 - 前記構造生成器を定義することは、具体的には、構造生成器は2つの完全接続層からなり、入力が第1段階で構築された知識蒸留コーディングベクトルであり、出力が蒸留構造モデルを生成するための重み行列である
ことを特徴とする請求項3に記載のマルチタスク向けの予めトレーニング言語モデルの自動圧縮方法。 - 生成された前記蒸留構造モデルをトレーニングすることで構造生成器を更新することは、以下のサブステップ2.1~サブステップ2.3を含み、
前記サブステップ2.1では、知識蒸留コーディングベクトルを構造生成器に入力して、重み行列を出力し、
前記サブステップ2.2では、構造生成器によって出力された重み行列に基づいて蒸留構造モデルを構築し、
前記サブステップ2.3では、構造生成器と蒸留構造モデルを共同でトレーニングし、具体的には、トレーニングデータを前記サブステップ2.2で生成された蒸留構造モデルに入力してモデルトレーニングを行い、且つ構造生成器が同期的に更新され、同時にベルヌーイ分布サンプリング方法と組み合わせて構造生成器をトレーニングする
ことを特徴とする請求項4に記載のマルチタスク向けの予めトレーニング言語モデルの自動圧縮方法。 - 前記サブステップ2.2では、具体的には、第1段階で構築された、各々の要素が1層のTransformerユニットに対応する知識蒸留コーディングベクトルに従って、教師ネットワークの各Transformer層に対してレイヤーサンプリング及び知識蒸留を行い、教師モデルにおける知識蒸留コーディングベクトルに対応する要素が1であるTransformerユニットの重みを使用して、生徒モデルに転移するTransformerユニットを初期化し、すなわち、レイヤーサンプリングが1である各要素は構造生成器によって生徒モデルに対応するTransformerユニット及びその重みを生成し、知識蒸留コーディングベクトルによって教師モデルと生徒モデルとの1対1のマッピング関係を確立し、知識蒸留コーディングベクトルに従って対応する蒸留ネットワーク構造を生成する
ことを特徴とする請求項5に記載のマルチタスク向けの予めトレーニング言語モデルの自動圧縮方法。 - ベルヌーイ分布サンプリング方法と組み合わせて構造生成器をトレーニングすることは、具体的には、ベルヌーイ分布を使用して各層のTransformerユニットに対してレイヤーサンプリングを行い、異なる知識蒸留コーディングベクトルを構築し、トレーニングデータセットを使用して反復トレーニングを複数回行い、反復を行うごとに1つの知識蒸留コーディングベクトルに基づいて構造生成器と蒸留構造モデルを同時にトレーニングし、入力された知識蒸留コーディングベクトルを変更することによって学習して、異なる蒸留構造モデルのために重み行列を生成できる構造生成器を得ることである
ことを特徴とする請求項6に記載のマルチタスク向けの予めトレーニング言語モデルの自動圧縮方法。 - 前記第3段階は、以下のサブステップ3.1~サブステップ3.4を含み、
前記サブステップ3.1では、知識蒸留コーディングベクトルを蒸留構造モデルの遺伝子として定義し、特定の制約を満たす一連の遺伝子を初期個体群としてランダムに選択し、
前記サブステップ3.2では、既存の個体群中の各遺伝子に対応する蒸留構造モデルの精度を評価し、精度が高い上位k個の遺伝子を選択し、
前記サブステップ3.3では、前記サブステップ3.2で選択された精度が高い上位k個の遺伝子を使用して遺伝的組換え及び遺伝的変異を行って新たな遺伝子を生成し、新たな遺伝子を既存の個体群に追加し、
前記サブステップ3.4では、前記サブステップ3.2~前記サブステップ3.3を所定回数繰り返して反復し、既存の個体群中の精度が高い上位k個の遺伝子を選択して新たな遺伝子を生成し、最終的に特定の制約を満たし且つ精度が最も高い遺伝子を取得する
ことを特徴とする請求項7に記載のマルチタスク向けの予めトレーニング言語モデルの自動圧縮方法。 - 前記サブステップ3.3では、遺伝的変異とは、遺伝子中の一部の要素値をランダムに変更することであり、遺伝的組換えとは、2つの親世代の遺伝子をランダムに組み換えることであり、特定の制約を満たさない新たな遺伝子を除去する
ことを特徴とする請求項8に記載のマルチタスク向けの予めトレーニング言語モデルの自動圧縮方法。 - 請求項1~9のいずれか1項に記載の前記マルチタスク向けの予めトレーニング言語モデルの自動圧縮方法に基づくプラットフォームであって、データロードアセンブリ、自動圧縮アセンブリ、及び推論アセンブリを含み、
前記データロードアセンブリは、マルチタスク向けの予めトレーニング言語モデルのトレーニングサンプルを取得することに用いられ、前記トレーニングサンプルは教師あり学習タスクを満たすラベル付きテキストサンプルであり、
前記自動圧縮アセンブリは、マルチタスク向けの予めトレーニング言語モデルを自動圧縮することに用いられ、知識蒸留ベクトルコーディングモジュール、蒸留ネットワーク生成モジュール、構造生成器・蒸留ネットワーク共同トレーニングモジュール、蒸留ネットワーク探索モジュール及び特定タスク微調整モジュールを含み、
前記知識蒸留ベクトルコーディングモジュールは、Transformerのレイヤーサンプリングベクトルを含み、順伝播過程では、知識蒸留コーディングベクトルを構造生成器に入力し、対応する構造の蒸留ネットワークと構造生成器の重み行列を生成し、
前記蒸留ネットワーク生成モジュールは、構造生成器に基づいて、現在入力された知識蒸留コーディングベクトルに対応する蒸留ネットワークを構築し、知識蒸留コーディングベクトルに対応する蒸留構造の入力出力のエンコーダユニットの数と同じように、構造生成器によって出力される重み行列の形状を調整し、
前記構造生成器・蒸留ネットワーク共同トレーニングモジュールは、エンドツーエンドのトレーニング構造生成器であり、具体的には、Transformerレイヤーサンプリングに基づく知識蒸留コーディングベクトル及び1つの小バッチのトレーニングデータを蒸留ネットワークに入力し、蒸留構造の重み及び構造生成器の重み行列を更新し、
前記蒸留ネットワーク探索モジュールは、特定の制約条件を満たす最高精度の蒸留ネットワークを探索するために、進化的アルゴリズムを提案して特定の制約条件を満たす最高精度の蒸留ネットワークを探索し、知識蒸留コーディングベクトルをトレーニング済みの構造生成器に入力し、対応する蒸留ネットワークの重みを生成し、検証セットで蒸留ネットワークを評価し、対応する蒸留ネットワークの精度を取得し、メタ学習蒸留ネットワークで使用される進化的探索アルゴリズムでは、各蒸留ネットワークはTransformerレイヤーサンプリングに基づく知識蒸留コーディングベクトルによって生成され、従って、知識蒸留コーディングベクトルを蒸留ネットワークの遺伝子として定義し、特定の制約条件を満たす場合、先に、一連の知識蒸留コーディングベクトルを蒸留ネットワークの遺伝子として選択し、検証セットで評価を行うことによって対応する蒸留ネットワークの精度を取得し、そして、精度が高い上位k個の遺伝子を選択し、遺伝的組換え及び変異によって新たな遺伝子を生成し、さらに上位k個の最適遺伝子の選択過程及び新たな遺伝子の生成過程を繰り返すことによって反復を行い、制約条件を満たし且つ精度が最も高い遺伝子を取得し、
前記特定タスク微調整モジュールは、前記自動圧縮アセンブリによって生成された予めトレーニングモデル蒸留ネットワークにおいて、下流タスクネットワークを構築し、蒸留ネットワークの特徴層及び出力層を使用して下流タスクシーンを微調整し、最終的に微調整された生徒モデル、すなわち、ログインユーザーが所望する下流タスクが含まれる予めトレーニング言語モデル圧縮モデルを出力し、前記ログインユーザーがダウンロードできるように前記圧縮モデルを指定されたコンテナに出力し、前記プラットフォームの圧縮モデル出力ページに圧縮前後のモデルサイズの比較情報を表示し、
前記推論アセンブリについては、ログインユーザーは前記プラットフォームから予めトレーニング圧縮モデルを取得し、ユーザーは前記自動圧縮アセンブリによって出力された圧縮モデルを使用して、実際のシーンのデータセットでログインユーザーがアップロードした自然言語処理の下流タスクの新たなデータを推論し、前記プラットフォームの圧縮モデル推論ページに圧縮前後の推論速度の比較情報を表示する
ことを特徴とするプラットフォーム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011470331.3A CN112232511B (zh) | 2020-12-15 | 2020-12-15 | 面向多任务的预训练语言模型自动压缩方法及平台 |
CN202011470331.3 | 2020-12-15 | ||
PCT/CN2020/138016 WO2022126683A1 (zh) | 2020-12-15 | 2020-12-21 | 面向多任务的预训练语言模型自动压缩方法及平台 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023519770A JP2023519770A (ja) | 2023-05-12 |
JP7381814B2 true JP7381814B2 (ja) | 2023-11-16 |
Family
ID=81942583
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022570738A Active JP7381814B2 (ja) | 2020-12-15 | 2020-12-21 | マルチタスク向けの予めトレーニング言語モデルの自動圧縮方法及びプラットフォーム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11526774B2 (ja) |
JP (1) | JP7381814B2 (ja) |
GB (1) | GB2619569A (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230259716A1 (en) * | 2022-02-14 | 2023-08-17 | International Business Machines Corporation | Neural architecture search of language models using knowledge distillation |
CN115348324B (zh) * | 2022-10-19 | 2023-01-31 | 北京中科海芯科技有限公司 | 一种最优化调度策略的确定方法及装置和电子设备 |
CN117152788B (zh) * | 2023-05-08 | 2024-10-01 | 东莞理工学院 | 基于知识蒸馏与多任务自监督学习的骨架行为识别方法 |
CN116468131B (zh) * | 2023-06-19 | 2023-09-01 | 成都市奇点软件有限公司 | 一种基于阶段性再训练的ai驱动项目自动化方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110766142A (zh) | 2019-10-30 | 2020-02-07 | 北京百度网讯科技有限公司 | 模型生成方法和装置 |
CN111291836A (zh) | 2020-03-31 | 2020-06-16 | 中国科学院计算技术研究所 | 一种生成学生网络模型的方法 |
CN111611377A (zh) | 2020-04-22 | 2020-09-01 | 淮阴工学院 | 基于知识蒸馏的多层神经网络语言模型训练方法与装置 |
CN111767711A (zh) | 2020-09-02 | 2020-10-13 | 之江实验室 | 基于知识蒸馏的预训练语言模型的压缩方法及平台 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3775706A4 (en) * | 2018-04-02 | 2021-12-29 | LifeAire Systems, LLC | Medical residential and laboratory uses of purified air |
US11487997B2 (en) * | 2018-10-04 | 2022-11-01 | Visa International Service Association | Method, system, and computer program product for local approximation of a predictive model |
CN110162018B (zh) * | 2019-05-31 | 2020-11-24 | 天津开发区精诺瀚海数据科技有限公司 | 基于知识蒸馏与隐含层共享的增量式设备故障诊断方法 |
CN111062489B (zh) * | 2019-12-11 | 2023-10-20 | 北京知道创宇信息技术股份有限公司 | 一种基于知识蒸馏的多语言模型压缩方法、装置 |
CN113743432B (zh) * | 2020-05-29 | 2024-07-05 | 京东方科技集团股份有限公司 | 一种图像实体信息获取方法、设备、电子设备和存储介质 |
CN111737406B (zh) * | 2020-07-28 | 2022-11-29 | 腾讯科技(深圳)有限公司 | 文本检索方法、装置及设备、文本检索模型的训练方法 |
US11755838B2 (en) * | 2020-09-14 | 2023-09-12 | Smart Information Flow Technologies, LLC | Machine learning for joint recognition and assertion regression of elements in text |
CN112347245A (zh) * | 2020-09-29 | 2021-02-09 | 徐佳慧 | 面向投融资领域机构的观点挖掘方法、装置和电子设备 |
US11610393B2 (en) * | 2020-10-02 | 2023-03-21 | Adobe Inc. | Knowledge distillation for neural networks using multiple augmentation strategies |
CN112418291B (zh) * | 2020-11-17 | 2024-07-26 | 平安科技(深圳)有限公司 | 一种应用于bert模型的蒸馏方法、装置、设备及存储介质 |
CN112465138A (zh) * | 2020-11-20 | 2021-03-09 | 平安科技(深圳)有限公司 | 模型蒸馏方法、装置、存储介质及设备 |
CN112509555B (zh) * | 2020-11-25 | 2023-05-23 | 平安科技(深圳)有限公司 | 方言语音识别方法、装置、介质及电子设备 |
CN112395892B (zh) * | 2020-12-03 | 2022-03-18 | 内蒙古工业大学 | 基于指针生成网络实现占位符消歧的蒙汉机器翻译方法 |
CN112232511B (zh) * | 2020-12-15 | 2021-03-30 | 之江实验室 | 面向多任务的预训练语言模型自动压缩方法及平台 |
CN112613273B (zh) * | 2020-12-16 | 2022-09-23 | 上海交通大学 | 多语言bert序列标注模型的压缩方法及系统 |
CN112241455B (zh) * | 2020-12-17 | 2021-05-04 | 之江实验室 | 基于多层级知识蒸馏预训练语言模型自动压缩方法及平台 |
-
2020
- 2020-12-21 JP JP2022570738A patent/JP7381814B2/ja active Active
- 2020-12-21 GB GB2214196.4A patent/GB2619569A/en active Pending
-
2021
- 2021-12-28 US US17/564,071 patent/US11526774B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110766142A (zh) | 2019-10-30 | 2020-02-07 | 北京百度网讯科技有限公司 | 模型生成方法和装置 |
CN111291836A (zh) | 2020-03-31 | 2020-06-16 | 中国科学院计算技术研究所 | 一种生成学生网络模型的方法 |
CN111611377A (zh) | 2020-04-22 | 2020-09-01 | 淮阴工学院 | 基于知识蒸馏的多层神经网络语言模型训练方法与装置 |
CN111767711A (zh) | 2020-09-02 | 2020-10-13 | 之江实验室 | 基于知识蒸馏的预训练语言模型的压缩方法及平台 |
Also Published As
Publication number | Publication date |
---|---|
JP2023519770A (ja) | 2023-05-12 |
US20220188658A1 (en) | 2022-06-16 |
GB202214196D0 (en) | 2022-11-09 |
GB2619569A (en) | 2023-12-13 |
US11526774B2 (en) | 2022-12-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7381814B2 (ja) | マルチタスク向けの予めトレーニング言語モデルの自動圧縮方法及びプラットフォーム | |
WO2022141754A1 (zh) | 一种卷积神经网络通用压缩架构的自动剪枝方法及平台 | |
WO2022126683A1 (zh) | 面向多任务的预训练语言模型自动压缩方法及平台 | |
WO2022126797A1 (zh) | 基于多层级知识蒸馏预训练语言模型自动压缩方法及平台 | |
Wang et al. | Evolutionary extreme learning machine ensembles with size control | |
US11501171B2 (en) | Method and platform for pre-trained language model automatic compression based on multilevel knowledge distillation | |
CN112163715B (zh) | 生成式对抗网络的训练方法及装置、电力负荷预测方法 | |
CN113255844B (zh) | 基于图卷积神经网络交互的推荐方法及系统 | |
CN110677284A (zh) | 一种基于元路径的异构网络链路预测的方法 | |
CN113033786B (zh) | 基于时间卷积网络的故障诊断模型构建方法及装置 | |
CN114648092A (zh) | 一种个性化联邦学习加速方法、装置 | |
CN115358485A (zh) | 一种基于图自注意力机制与霍克斯过程的交通流预测方法 | |
CN111222762A (zh) | 太阳能电池板镀膜工艺状态监控及质量控制系统 | |
CN116302088B (zh) | 一种代码克隆检测方法、存储介质及设备 | |
CN116993043A (zh) | 一种电力设备故障溯源方法及装置 | |
CN115660882A (zh) | 社交网络中用户间关系预测方法及多头混合聚合图卷积网络 | |
CN114943276A (zh) | 基于树型注意力机制的深度知识追踪方法 | |
CN111160557B (zh) | 一种基于双代理增强学习路径搜索的知识表示学习方法 | |
CN114742292A (zh) | 面向知识追踪过程的双态协同演化预测学生未来表现方法 | |
CN114139674A (zh) | 行为克隆方法、电子设备、存储介质和程序产品 | |
CN113408725A (zh) | 基于复合熵的遗传算法参数优化方法、系统、设备及介质 | |
CN112699271A (zh) | 一种提升用户在视频网站留存时间的视频推荐系统方法 | |
Qu et al. | Two-stage coevolution method for deep CNN: A case study in smart manufacturing | |
Mei | A GA-BP Neural Network Model for Students Examination Score Prediction | |
Chen | Optimization of neural network based on improved genetic algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221118 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20221125 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230510 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230516 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230804 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230815 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7381814 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |