JP7283835B2

JP7283835B2 - マルチレベル知識蒸留に基づく事前訓練言語モデルの自動圧縮方法およびプラットフォーム

Info

Publication number: JP7283835B2
Application number: JP2022566730A
Authority: JP
Inventors: 宏升王; 光 ▲陳▼
Original assignee: 之江実験室
Priority date: 2020-12-17
Filing date: 2020-12-31
Publication date: 2023-05-30
Anticipated expiration: 2040-12-31
Also published as: GB2610319A; GB202214215D0; US11501171B2; JP2023515901A; US20220198276A1

Description

本発明は、言語モデル圧縮分野に関し、特に、マルチレベル知識蒸留に基づく事前訓練言語モデルの自動圧縮方法およびプラットフォームに関する。

大規模な事前訓練言語モデルは、自然言語理解と生成タスクの両方で優れた性能を達成している。しかし、大量のパラメータを有する事前訓練言語モデルを、メモリが限られたデバイスに配置することには、まだ大きな課題が残っている。モデル圧縮の分野では、既存の言語モデル圧縮方法は、いずれも特定のタスクの言語モデル圧縮である。他の下流タスクに対して、特定のタスクの知識蒸留を用いて生成した訓練済みモデルは、依然として大モデルの再微調整、および関連する大モデル知識の生成が必要である。大モデルの微調整には、時間と手間がかかり、計算コストも高い。複数の下流タスクに対する圧縮モデルの柔軟性と有効性を向上させるため、タスクに依存しない事前訓練言語モデルの汎用圧縮アーキテクチャを研究している。また、既存の知識蒸留方法は、主に人為的に設計された知識蒸留手法である。コンピューティングリソースなどの制約から、人為的に、すべての可能な蒸留構造を設計し、最適な構造を見つけることはほぼ不可能である。ニューラルネットワークアーキテクチャ検索に着想を得て、特にサンプルが少ない場合、本発明は、マルチレベル知識蒸留に基づき、マルチタスクに対する事前訓練言語モデルの汎用圧縮アーキテクチャを生成する。

本発明の目的は、既存の技術における欠陥に対応し、マルチレベル知識蒸留に基づく事前訓練言語モデルの自動圧縮方法およびプラットフォームを提供することである。本発明では、まず、マルチレベル知識蒸留を構築し、異なるレベルで大モデルの知識構造を蒸留する。さらに、メタ学習を導入することで、複数の事前訓練言語モデルの汎用圧縮アーキテクチャを生成する。具体的に、構造生成器のメタネットワークを設計し、マルチレベル知識蒸留に基づいて知識蒸留符号化ベクトルを構築し、当該構造生成器を用いて、現在入力されている符号化ベクトルに対応する蒸留構造モデルを生成する。同時に、ベルヌーイ分布サンプリング法を提案し構造生成器を訓練する。繰り返しごとに、ベルヌーイ分布を用いて各エンコーダの遷移したセルフ・アテンション（ｓｅｌｆ－ａｔｔｅｎｔｉｏｎ）ユニットをサンプリングし、対応する符号化ベクトルを構成する。構造生成器に入力する符号化ベクトルと、小バッチの訓練データとを変更し、構造生成器と対応する蒸留構造とを共同訓練することにより、異なる蒸留構造に対する重みを生成できる構造生成器を取得することができる。同時に、訓練済みメタ学習ネットワークを基に、進化的アルゴリズムにより最適な圧縮構造を検索することで、タスクに依存しない事前訓練言語モデルの最適な汎用圧縮アーキテクチャを取得する。

本発明の目的は、以下の技術的解決策によって達成される。

マルチレベル知識蒸留に基づく事前訓練言語モデルの自動圧縮方法であって、以下のステップを含む：

ステップ１、マルチレベル知識蒸留を構築し、セルフ・アテンションユニット、隠れ層状態、及び埋め込み層の３つの異なるレベルで大モデルの知識構造を蒸留する。

ステップ２、メタ学習の知識蒸留ネットワークを訓練し、複数の事前訓練言語モデルの汎用圧縮アーキテクチャを生成する。

ステップ３、進化的アルゴリズムに基づいて最適な圧縮構造を検索する。

さらに、ステップ２では、構造生成器のメタネットワークを設計し、ステップ１のマルチレベル知識蒸留に基づいて、知識蒸留符号化ベクトルを構築し、構造生成器を用いて、現在入力されている符号化ベクトルに対応する蒸留構造モデルを生成し、同時に、ベルヌーイ分布サンプリング法を用いて構造生成器を訓練し、繰り返しごとに、ベルヌーイ分布を用いて各エンコーダの遷移したセルフ・アテンションユニットをサンプリングし、対応する符号化ベクトルを構成し、構造生成器に入力する符号化ベクトルと、小バッチの訓練データとを変更し、構造生成器と対応する蒸留構造とを共同訓練することにより、異なる蒸留構造に対する重みを生成する構造生成器を取得する。

さらに、ステップ３では、訓練済みメタ学習ネットワークを基に、進化的アルゴリズムにより最適な圧縮アーキテクチャを検索することで、タスクに依存しない事前訓練言語モデルの最適な汎用圧縮アーキテクチャを取得する。

さらに、ステップ１では、セルフ・アテンション知識と、隠れ層状態知識と、埋め込み層知識とを蒸留ネットワークとして符号化し、知識蒸留を用いて、大モデルから小モデルへの圧縮を実現する。

さらに、ステップ１では、セルフ・アテンション知識蒸留と、隠れ層状態知識蒸留と、埋め込み層知識蒸留とを含む。

さらに、ステップ２における前記構造生成器のメタネットワークは、２つの全結合層から構成され、セルフ・アテンション知識蒸留符号化ベクトルを入力し、構造生成器の重み行列を出力する。

構造生成器の訓練プロセスは以下の通りである：

ステップ１、知識蒸留符号化ベクトルを構築し、層サンプリングベクトル、マルチヘッドプルーニングベクトル、隠れ層次元削減ベクトル、埋め込み層次元削減ベクトルなどを含む。

ステップ２、構造生成器に基づいて蒸留ネットワークアーキテクチャを構築し、当該構造生成器を用いて、現在入力されている符号化ベクトルに対応する蒸留構造モデルを構築し、構造生成器が出力する重み行列の形状を調整し、セルフ・アテンション符号化ベクトルに対応する蒸留構造の入出力するセルフ・アテンションユニットの数と一致させる。

ステップ３、構造生成器と蒸留構造モデルとを共同訓練する：ベルヌーイ分布サンプリング法を用いて構造生成器を訓練し、構造生成器に入力する符号化ベクトルと、小バッチの訓練データとを変更し、構造生成器と対応する蒸留構造とを共同訓練することにより、異なる蒸留構造に対する重みを生成できる構造生成器を取得することができる。

さらに、ステップ３では、ネットワーク符号化ベクトルを訓練済み構造生成器に入力し、蒸留ネットワークに対応する重みを生成し、検証セットで蒸留ネットワークを評価して、対応する蒸留ネットワークの精度を取得する。詳しくは以下の通りである。

特定の制約条件を満たした上で、まず蒸留ネットワークの遺伝子として一連の蒸留ネットワーク符号化ベクトルを選択し、検証セットで評価することで、対応する蒸留ネットワークの精度を取得し、最も精度の高い上位ｋ個の遺伝子を選択し、遺伝子組換えと変異を用いて新しい遺伝子を生成し、さらに上位ｋ個の最適遺伝子の選択過程と新しい遺伝子の生成過程を繰り返すことで、制約条件を満たし、かつ最も精度の高い遺伝子を取得する。

さらに、前記進化的アルゴリズムの具体的なプロセスは、以下の通りである。

ステップ１、知識蒸留符号化ベクトルを蒸留構造モデルの遺伝子Ｇと定義し、制約条件Ｃを満たす一連の遺伝子を初期集団としてランダムに選択する。

ステップ２、既存集団の各遺伝子Ｇ_ｉに対応する蒸留構造モデルの検証セットにおける推論精度ａｃｃｕｒａｃｙを評価し、最も精度の高い上位ｋ個の遺伝子を選択する。

ステップ３、ステップ２で選択された最も精度の高い上位ｋ個の遺伝子を用いて、遺伝子組換えと遺伝子変異により新しい遺伝子を生成し、新しい遺伝子を既存集団に追加する。

ステップ４、既存集団の中から精度の高い上位ｋ個の遺伝子を選択して新しい遺伝子を生成して、制約条件Ｃを満たし、かつ精度が最も高い遺伝子を取得するまで、ステップ２とステップ３とをＮ回繰り返す。

マルチレベル知識蒸留に基づく事前訓練言語モデルの自動圧縮プラットフォームであって、以下のコンポーネントを含む：

データ読み込みコンポーネント：ログインユーザによってアップロードされた特定の自然言語処理下流タスクのＢＥＲＴモデルと、マルチタスクに対する事前訓練言語モデルとを含む圧縮すべき訓練サンプルを取得するためのものであり、前記訓練サンプルは教師あり学習タスクを満足する、ラベルを有するテキストサンプルである。

自動圧縮コンポーネント：マルチタスクに対する事前訓練言語モデルを自動的に圧縮するためのものであり、知識蒸留ベクトル符号化モジュール、蒸留ネットワーク生成モジュール、構造生成器と蒸留ネットワークの共同訓練モジュール、蒸留ネットワーク検索モジュール、特定タスク微調整モジュールが含まれる。

前記知識蒸留ベクトル符号化モジュールは、Ｔｒａｎｓｆｏｒｍｅｒの層サンプリングベクトル、セルフ・アテンションのマルチヘッドプルーニングベクトル、隠れ層次元削減ベクトル、及び埋め込み層次元削減ベクトルを含み、順伝播過程で蒸留ネットワーク符号化ベクトルを構造生成器に入力し、構造に対応する蒸留ネットワークと構造生成器の重み行列を生成する。

前記蒸留ネットワーク生成モジュールは、構造生成器に基づいて現在入力されている符号化ベクトルに対応する蒸留ネットワークを構築し、構造生成器が出力する重み行列の形状を調整し、セルフ・アテンション符号化ベクトルに対応する蒸留構造の入出力するセルフ・アテンションユニットの数と一致させる。

構造生成器と蒸留ネットワークの共同訓練モジュールは、構造生成器をエンドツーエンドで訓練し、マルチレベル知識蒸留符号化ベクトルと小バッチの訓練データとを蒸留ネットワークに入力し、蒸留構造の重みと構造生成器の重み行列を更新する。

前記蒸留ネットワーク検索モジュールは、進化的アルゴリズムを用いて、特定の制約条件を満たす最も精度の高い蒸留ネットワークを検索する。

前記特定タスク微調整モジュールは、前記自動圧縮コンポーネントによって生成された訓練済みモデル蒸留ネットワーク上に下流タスクネットワークを構築し、蒸留ネットワークの特徴層と出力層を用いて下流タスクシーンを微調整し、最終微調整済みの学生モデル、すなわちログインユーザのニーズである下流タスクを含む事前訓練言語モデルの圧縮モデルを出力し、前記圧縮モデルを、前記ログインユーザがダウンロードできるように、指定されたコンテナに出力し、前記プラットフォームの圧縮モデルを出力するページで、圧縮前後のモデルのサイズの比較情報を表示する。

推論コンポーネント：前記プラットフォームから訓練済み圧縮モデルはログインユーザにより取得され、前記自動圧縮コンポーネントにより出力された圧縮モデルを用いて、実際のシーンのデータセットでログインユーザがアップロードした自然言語処理下流タスクの新しいデータを推論する。前記プラットフォームの圧縮モデル推論ページで、圧縮前後の推論速度の比較情報を表示する。

さらに、ログインユーザが直接ダウンロード可能な訓練された事前訓練言語モデルを提供し、ユーザの特定の自然言語処理下流タスクに対するニーズに従って、前記プラットフォームで生成された、圧縮された訓練済みモデルアーキテクチャを基にして、下流タスクネットワークを構築し、微調整し、最後に端末デバイスに配置するか、または前記プラットフォームで自然言語処理下流タスクを直接に推論してもよい。

本発明の有益な効果は：本発明のマルチレベル知識蒸留に基づく事前訓練言語モデルの自動圧縮方法およびプラットフォームは、まず、メタ学習の知識蒸留に基づいて、複数の事前訓練言語モデルの汎用圧縮アーキテクチャを生成することを研究し、次に、訓練済みメタ学習ネットワークを基に、進化的アルゴリズムにより最適な圧縮構造を検索することで、タスクに依存しない事前訓練言語モデルの最適な汎用圧縮アーキテクチャを取得する。

本発明のマルチレベル知識蒸留に基づく事前訓練言語モデルの自動圧縮プラットフォームは、マルチタスクに対する事前訓練言語モデルの汎用アーキテクチャを圧縮して生成し、既に圧縮されたモデルアーキテクチャを最大限に用いて下流タスクの圧縮効率を高め、大規模な自然言語処理モデルをメモリが小さい、リソースが限られているなどの端末デバイスに配置することができ、業界で汎用深層言語モデルの実装を促進した。

マルチレベル知識蒸留に基づく事前訓練言語モデルの自動圧縮プラットフォームの全体的なアーキテクチャ図である。マルチレベル知識蒸留の模式図である。構造生成器の訓練のフローチャートである。エンコーダモジュールの隠れ層と入力する埋め込み層の次元削減構造を示す模式図である。構造生成器に基づいて蒸留ネットワークを構築するアーキテクチャ図。構造生成器と蒸留ネットワークの共同訓練のフローチャートである。進化的アルゴリズムに基づく蒸留ネットワーク検索のアーキテクチャを示す模式図である。

以下は、図面とともに、本発明をさらに説明する。

図１に示すように、本発明は、メタ学習に基づく知識蒸留と、進化的アルゴリズムに基づく蒸留ネットワーク自動検索とを含む。マルチタスクに対する大規模な事前訓練言語モデルを自動的に圧縮し、異なるハード制約条件（浮動小数点演算の回数など）を満たす、タスクに依存しない汎用アーキテクチャを生成する。

具体的な解決手段は以下の通りである。本発明のマルチレベル知識蒸留に基づく事前訓練言語モデルの自動圧縮方法のプロセスは３段階に分けられる。第１段階では、マルチレベル知識蒸留を構築し、セルフ・アテンションユニット、隠れ層状態、及び埋め込み層の３つの異なるレベルで大モデルの知識構造を蒸留する。第２段階では、メタ学習の知識蒸留ネットワークを訓練し、複数の事前訓練言語モデルの汎用圧縮アーキテクチャを生成する。具体的に、構造生成器のメタネットワークを設計し、第１段階で提案したマルチレベル知識蒸留に基づいて、知識蒸留符号化ベクトルを構築し、構造生成器を用いて、現在入力されている符号化ベクトルに対応する蒸留構造モデルを生成する。同時に、ベルヌーイ分布サンプリング法を提案して構造生成器を訓練し、繰り返しごとに、ベルヌーイ分布を用いて各エンコーダの遷移したセルフ・アテンションユニットをサンプリングし、対応する符号化ベクトルを構成する。構造生成器に入力する符号化ベクトルと、小バッチの訓練データとを変更し、構造生成器と対応する蒸留構造とを共同訓練することにより、異なる蒸留構造に対する重みを生成する構造生成器を取得することができる。第３段階では、進化的アルゴリズムに基づいて最適な圧縮構造を検索し、訓練済みメタ学習ネットワークを基に、進化的アルゴリズムにより最適な圧縮アーキテクチャを検索することで、タスクに依存しない事前訓練言語モデルの最適な汎用圧縮アーキテクチャを取得する。具体的なプロセスは以下の通りである。

第１段階：マルチレベル知識蒸留

本発明は、図２に示すように、セルフ・アテンション知識と、隠れ層状態知識と、埋め込み層知識とを蒸留ネットワークとして符号化する。知識蒸留を用いて、大モデルから小モデルへの圧縮を実現し、大モデルのセルフ・アテンション知識を小モデルに最大限遷移する。

ａ．セルフ・アテンション知識蒸留。Ｔｒａｎｓｆｏｒｍｅｒ層蒸留は、図２に示すように、セルフ・アテンションに基づく知識蒸留と隠れ層状態に基づく知識蒸留を含む。セルフ・アテンションに基づく蒸留は、豊富な言語知識に焦点を当てることができる。これらの大量な言語知識には、自然言語理解に必要なセマンティクスと関連する情報が含まれている。そこで、セルフ・アテンションに基づく知識蒸留を提案し、豊富な教師モデル知識の学生モデルへの遷移を促す。

アテンション関数は、ｑｕｅｒｉｅｓ、ｋｅｙｓ、ｖａｌｕｅｓの３つの行列から算出され、それぞれ行列Ｑ，行列Ｋ，行列Ｖと表記される。アテンション関数は以下のように定義される：

ここで，ｄ_ｋは行列Ｋの次元であり、スケールファクタである。Ａはセルフ・アテンション行列を表し，行列Ｑと行列Ｋからドット積演算によって算出される。最終的なセルフ・アテンション関数Ａｔｔｅｎｔｉｏｎ（Ｑ，Ｋ，Ｖ）の出力は、行列Ｖの１つの重み和とされ、重みは、行列Ｖの各列に対してｓｏｆｔｍａｘ演算を行うことで算出される。セルフ・アテンション行列Ａは大量の言語知識に焦点を当てることができるので、セルフ・アテンションに基づく蒸留は、知識蒸留において重要な役割を担っている。マルチヘッドアテンションは、異なる特徴部分空間からのアテンションヘッドを以下の方法で連結することで得られる：

ここで、ｈはアテンションヘッドの数であり、ｈｅａｄ_ｉはｉ番目のアテンションヘッドを表し、異なる特徴部分空間のＡｔｔｅｎｔｉｏｎ（）関数から計算され、Ｃｏｎｃａｔは連結することを表し、Ｗは線形変換行列である。

学生モデルは、教師ネットワークのマルチヘッドアテンション知識を模倣して学習する。ここで、損失関数は以下のように定義される：

ここで、ｈはアテンションヘッドの数であり、Ａ_ｉ∈Ｒ^ｌ×ｌは教師モデルまたは学生モデルのｉ番目のアテンションヘッドに対応するセルフ・アテンション行列を表し、Ｒは実数、ｌは現在層の入力のサイズを表し、Ｌは入力テキストの長さであり、ＭＳＥ（）は平均二乗誤差損失関数である。注意すべきことは、ここはｓｏｆｔｍａｘの出力ｓｏｆｔｍａｘ（Ａｉ）ではなく、アテンション行列Ａ_ｉを使用する。

ｂ．隠れ層状態知識蒸留。セルフ・アテンションに基づく知識蒸留に加えて、本発明は隠れ層状態に基づく知識蒸留も行い、即ちＴｒａｎｓｆｏｒｍｅｒ層から出力される知識の遷移を行う。隠れ層状態知識蒸留の損失関数は以下の通りとなる：

ここで、行列Ｈ^Ｓ∈Ｒ^Ｌ×ｄ’とＨ^Ｔ∈Ｒ^Ｌ×ｄはそれぞれ学生ネットワークと教師ネットワークの隠れ状態を表し、スカラー値ｄとｄ’はそれぞれ教師モデルと学生モデルの隠れ層のサイズを表し、行列Ｗ_ｈ∈Ｒ^ｄ’×ｄは学習可能な線形変換行列であり、学生ネットワークの隠れ層状態を教師ネットワークの隠れ層状態と同じ特徴空間に変換する。

ｃ．埋め込み層知識蒸留。本発明は、同時に埋め込み層に基づく知識蒸留を採用し、隠れ層状態に基づく知識蒸留と類似し、次のように定義される：

ここで、行列Ｅ^ＳとＥ^Ｔは、それぞれ学生ネットワークと教師ネットワークの埋め込み層を表す。本発明では、埋め込み層行列の形状は隠れ層状態行列と同じである。行列Ｗ_ｅは線形変換行列である。

第２段階：メタ学習の知識蒸留

構造生成器を設計し、構造生成器は２つの全結合層から構成されるメタネットワークである。図３は構造生成器の訓練プロセスを示す。セルフ・アテンション知識蒸留符号化ベクトルを入力し、構造生成器の重み行列を出力する。

構造生成器の訓練プロセスは以下の通りである：

ステップ１、知識蒸留符号化ベクトルを構築する。順伝播過程で蒸留ネットワーク符号化ベクトルを構造生成器に入力し、構造生成器の重み行列が出力される。蒸留ネットワーク符号化ベクトルはＴｒａｎｓｆｏｒｍｅｒ層サンプリングベクトル、マルチヘッドアテンションプルーニングベクトル、隠れ層次元削減ベクトル、及び埋め込み層次元削減ベクトルから構成される。蒸留ネットワーク符号化ベクトルの具体的なプロセスは以下の通りである：

ａ、層サンプリングベクトル。層サンプリング段階では、まずベルヌーイ分布を用いてＢＥＲＴのＴｒａｎｓｆｏｒｍｅｒ層を層サンプリングし、層サンプリングベクトルを生成する。具体的には、現在、遷移が検討されているｉ番目のＴｒａｎｓｆｏｒｍｅｒモジュールＸｉを独立したベルヌーイ確率変数とし、Ｘｉが１（または０）である確率はｐ（または１－ｐ）である。

確率変数Ｘを使用して、ＢＥＲＴの１２個のＴｒａｎｓｆｏｒｍｅｒユニットを順次ベルヌーイサンプリングし、１２個の０または１の要素からなるベクトルを生成する。確率変数Ｘｉが１の確率値が０．５以上の場合、層サンプリングベクトルに対応する要素は１であり、現在Ｔｒａｎｓｆｏｒｍｅｒモジュールが遷移学習を行うことを表し、確率変数Ｘｉが１の確率値が０．５未満の場合、層サンプリングベクトルに対応する要素は０であり、現在トランスフォーマーモジュールが遷移学習を行わないことを表す。

上記のベルヌーイサンプリング法を使用して、ＢＥＲＴに含まれるすべてのＴｒａｎｓｆｏｒｍｅｒ層を順次サンプリングし、ネットワーク符号化ベクトル中の層サンプリングベクトルを構成する。

注意すべきことは、ＢＥＲＴ_ｂａｓｅには合計１２個のＴｒａｎｓｆｏｒｍｅｒモジュールがあり、層サンプリングＴｒａｎｓｆｏｒｍｅｒモジュールの遷移数（即ち層サンプリングベクトル中に、要素が１の数）が少なすぎることを回避するように、層サンプリング制約条件を加えることを提案し、すなわち、蒸留ネットワーク構造が生成されるたびに、ＢＥＲＴのすべてのＴｒａｎｓｆｏｒｍｅｒ層に対して層サンプリングを行う段階で、制約条件を構築し、最終的に、層サンプリングにより得られたベクトル中に要素が１の数を６以上とさせ、それ以外の場合は層サンプリングを繰り返す。

この場合、Ｔｒａｎｓｆｏｒｍｅｒに対する知識蒸留を行う時、ネットワーク符号化ベクトル中の層サンプリングベクトルを介して教師モデルと学生モデルとの１対１のマッピング関係を確立し、ネットワーク符号化ベクトル中の層サンプリングベクトルに基づき、対応する蒸留ネットワーク構造を生成する。訓練プロセス全体を高速化するために、教師モデルの層サンプリングベクトルに対応する要素が１のＴｒａｎｓｆｏｒｍｅｒの重みを用いて学生モデルの遷移したＴｒａｎｓｆｏｒｍｅｒモジュールを初期化する。

ｂ．マルチヘッドプルーニングベクトル。各Ｔｒａｎｓｆｏｒｍｅｒモジュールは、マルチヘッドアテンションユニットで構成されている。本発明では、チャンネルプルーニングにヒントを得て、マルチヘッドアテンションユニットに基づくマルチヘッドプルーニングを提案する。蒸留ネットワーク構造が生成されるたびに、マルチヘッドプルーニング符号化ベクトルを生成し、現在遷移したすべてのＴｒａｎｓｆｏｒｍｅｒ層でセルフ・アテンション知識遷移を行うアテンションヘッドの数を表す。数式は以下のように定義される：

ここで、Ｈｅａｄ_ｉは、ｉ番目の蒸留ネットワーク構造を生成する時、各Ｔｒａｎｓｆｏｒｍｅｒ層が含むアテンションヘッド数を表し、ここで、異なる蒸留ネットワーク構造が生成されるたびに、各Ｔｒａｎｓｆｏｒｍｅｒ層が含むアテンションヘッド数は同じである。ｈｅａｄ_{ｓｃａｌｅ}は、各Ｔｒａｎｓｆｏｒｍｅｒモジュールが含むセルフ・アテンションヘッド数の減衰係数を表す。ＳＲＳ＿Ｓａｍｐｌｅはシンプルランダムサンプリングを表し、ＢＥＲＴ_ｂａｓｅの各Ｔｒａｎｓｆｏｒｍｅｒモジュールには１２個のセルフ・アテンションユニットがあるので、ｈｅａｄ_ｍａｘは１２である。ｉ番目の蒸留ネットワーク構造の生成過程において、まずリスト［０、１、２、．．．、３０］に対するシンプルランダムサンプリングにより乱数Ｍ_ｉを得、現在の蒸留構造の減衰係数ｈｅａｄ_{ｓｃａｌｅ}を取得し、標準ｈｅａｄ_ｍａｘに乗じて現在の蒸留ネットワーク構造のマルチヘッドアテンションユニット数を取得する。

したがって、アテンションマルチヘッドプルーニングに基づく知識蒸留は、蒸留ネットワーク構造が生成されるたびに、遷移を行ったＴｒａｎｓｆｏｒｍｅｒモジュール、すなわちＴｒａｎｓｆｏｒｍｅｒ層サンプリング符号化ベクトル中の値が１の要素に対して、マルチヘッドプルーニング符号化ベクトルを生成し、現在遷移したすべてのＴｒａｎｓｆｏｒｍｅｒ層でセルフ・アテンション知識遷移を行うアテンションヘッドの数を表す。

ｃ．隠れ層次元削減ベクトル。隠れ層状態の知識蒸留は、各Ｔｒａｎｓｆｏｒｍｅｒ層の最終出力に対して知識蒸留を行い、即ちＢＥＲＴ隠れ層の次元を減少させる。具体的なプロセスは以下の通りであり、毎回生成される蒸留ネットワークのすべてのＴｒａｎｓｆｏｒｍｅｒ層の隠れ層の次元は同じである。生成されるｉ番目の蒸留ネットワークの隠れ層の次元ｈｉｄｎ_ｉは、以下のように定義される：

ここで、ｈｉｄｎ_ｂａｓｅはハイパーパラメータであり、ＢＥＲＴ_ｂａｓｅの隠れ層次元は７６８であるため、ｈｉｄｎ_ｂａｓｅを７６８の公約数となるように初期化し、ここではｈｉｄｎ_ｂａｓｅを１２８に初期化する。ｈｉｄｎ_{ｓｃａｌｅ}は隠れ層次元の次元削減係数で、リスト［１，２，３，４，５，６］に対するシンプルランダムサンプリングにより得られた要素である。

したがって、隠れ層に基づいて知識蒸留を行い、蒸留ネットワークを生成するとき、毎回シンプルランダムサンプリングを用いて、上記のリストから１つの次元削減係数をサンプリングし、現在の蒸留ネットワークに対応する隠れ層の次元サイズを生成する。

ｄ．埋め込み層次元削減ベクトル。図４には、エンコーダモジュールの隠れ層と入力する埋め込み層の次元削減構造を示す。図から分かるように、隠れ層部分と埋め込み層部分の両方とも残差接続（ｒｅｓｉｄｕａｌｃｏｎｎｅｃｔｉｏｎ）を持っているため、埋め込み層の出力次元サイズは隠れ層の出力次元サイズと等しい。

したがって、埋め込み層に基づいて知識蒸留を行い、蒸留ネットワークを生成する場合、毎回埋め込み層の次元を現在の隠れ層の次元と同じサイズにすればよい。

ステップ２、構造生成器に基づいて蒸留ネットワークアーキテクチャを構築する。当該構造生成器を用いて、現在入力されている符号化ベクトルに対応する蒸留構造モデルを構築し、しかも構造生成器が出力する重み行列の形状を調整する必要があり、セルフ・アテンション符号化ベクトルの対応する蒸留構造の入出力するセルフ・アテンションユニットの数と一致させる。構造生成器で構築された蒸留構造のネットワークアーキテクチャを図５に示す。

ステップ３、構造生成器と蒸留構造モデルとを共同訓練する。セルフ・アテンション知識蒸留符号化ベクトルと１つの小バッチの訓練データを蒸留構造モデルに入力する。注意すべきことは、逆伝播過程で蒸留構造の重みと構造生成器の重み行列の両方が一緒に更新される。構造生成器の重みは連鎖律により算出できるため、エンドツーエンドで構造生成器を訓練することができる。

同時に、ベルヌーイ分布サンプリング法を提案して構造生成器を訓練し、繰り返しごとに、ベルヌーイ分布を用いて各エンコーダの遷移したセルフ・アテンションユニットをサンプリングし、対応する符号化ベクトルを構成する。構造生成器に入力する符号化ベクトルと、小バッチの訓練データとを変更し、構造生成器と対応する蒸留構造とを共同訓練することにより、異なる蒸留構造に対する重みを生成する構造生成器を取得することができる。構造生成器の訓練のプロセスを図６に示す。

第３段階、進化的アルゴリズムに基づく蒸留ネットワーク検索

ネットワーク符号化ベクトルを訓練済み構造生成器に入力し、蒸留ネットワークに対応する重みを生成し、検証セットで蒸留ネットワークを評価して、対応する蒸留ネットワークの精度を取得する。次に、特定の制約条件を満たす最も精度の高い蒸留ネットワークを検索するために、進化的アルゴリズムを用いて特定の制約条件を満たす最も精度の高い蒸留ネットワークを検索することを提案し、進化的アルゴリズムに基づく蒸留ネットワーク検索のアーキテクチャを図７に示す。

メタ学習蒸留ネットワークで用いられる進化的アルゴリズムでは、各蒸留ネットワークは、埋め込み層蒸留、隠れ層蒸留、セルフ・アテンション知識蒸留の３つの蒸留モジュールを含むネットワーク符号化ベクトルを符号化することで生成されるため、蒸留ネットワーク符号化ベクトルを蒸留ネットワークの遺伝子と定義する。特定の制約条件を満たした上で、まず蒸留ネットワークの遺伝子として一連の蒸留ネットワーク符号化ベクトルを選択し、検証セットで評価することで対応する蒸留ネットワークの精度を取得する。次に最も精度の高い上位ｋ個の遺伝子を選択し、遺伝子組換えと変異を用いて新しい遺伝子を生成する。遺伝子変異とは、遺伝子の一部の要素値をランダムに変化させることにより、変異を行うことである。遺伝子組換えとは、２つの親の遺伝子をランダムに再構成して次世代を生成することである。規格外の遺伝子を排除することで、簡単に制約を強化することができる。上位ｋ個の最適遺伝子の選択過程と、新しい遺伝子の生成過程をさらに数回繰り返すことで、制約条件を満たし、かつ最も精度が高い遺伝子を取得することができる。第３段階：進化的アルゴリズムに基づく蒸留ネットワーク検索のプロセスを図７に示す：

第２段階で訓練済みメタ学習の知識蒸留ネットワークを基に、特定の制約条件を満たす複数の知識蒸留符号化ベクトルを構造生成器に入力して対応する重み行列を生成し、複数の蒸留構造モデルを取得し、検証セットで各蒸留構造モデルを評価して対応する精度を取得し、進化的アルゴリズムを用いて特定の制約条件（浮動小数点演算の回数など）を満たす最も精度の高い蒸留構造モデルを検索することで、タスクに依存しない事前訓練言語モデルの汎用圧縮アーキテクチャを取得する。進化的検索アルゴリズムの具体的なプロセスは以下の通りである：

ステップ１、各蒸留構造モデルは、Ｔｒａｎｓｆｏｒｍｅｒ層サンプリングに基づく知識蒸留符号化ベクトルにより生成されるため、知識蒸留符号化ベクトルを蒸留構造モデルの遺伝子Ｇと定義し、制約条件Ｃを満たす一連の遺伝子を初期集団としてランダムに選択する。

ステップ３、ステップ２で選択された最も精度の高い上位ｋ個の遺伝子を用いて、遺伝子組換えと遺伝子変異により新しい遺伝子を生成し、新しい遺伝子を既存集団に追加する。遺伝子変異とは、遺伝子の一部の要素値をランダムに変化させることにより、変異を行うことであり、遺伝子組換えとは、２つの親の遺伝子をランダムに再構成して次世代を生成することである。規格外の遺伝子を排除することで、簡単に制約Ｃを強化することができる。

ステップ４、既存集団の中から精度の高い上位ｋ個の遺伝子を選択して新しい遺伝子を生成して、制約条件Ｃを満たし、かつ精度が最も高い遺伝子を取得するまで、ステップ２と３をＮ回繰り返す。

本発明のマルチレベル知識蒸留に基づく事前訓練言語モデルの自動圧縮プラットフォームは、以下のコンポーネントを含む：

データ読み込みコンポーネント：ログインユーザによってアップロードされた、特定の自然言語処理下流タスクのＢＥＲＴモデルと、マルチタスクに対する事前訓練言語モデルとを含む圧縮すべき訓練サンプルを取得するためのものであり、前記訓練サンプルは教師あり学習タスクを満足する、ラベルを有するテキストサンプルである。

知識蒸留ベクトル符号化モジュールは、Ｔｒａｎｓｆｏｒｍｅｒの層サンプリングベクトル、セルフ・アテンションのマルチヘッドプルーニングベクトル、隠れ層次元削減ベクトル、及び埋め込み層次元削減ベクトルを含む。順伝播過程で蒸留ネットワーク符号化ベクトルを構造生成器に入力し、構造の対応する蒸留ネットワークと構造生成器の重み行列を生成する。

蒸留ネットワーク生成モジュールは、構造生成器に基づいて現在入力されている符号化ベクトルの対応する蒸留ネットワークを構築し、構造生成器が出力する重み行列の形状を調整し、セルフ・アテンション符号化ベクトルの対応する蒸留構造の入出力するセルフ・アテンションユニットの数と一致させる。

構造生成器と蒸留ネットワークの共同訓練モジュールは、構造生成器をエンドツーエンドで訓練し、具体的に、マルチレベル知識蒸留符号化ベクトルと小バッチの訓練データとを蒸留ネットワークに入力する。蒸留構造の重みと構造生成器の重み行列を更新する。

蒸留ネットワーク検索モジュールは、進化的アルゴリズムを用いて、特定の制約条件を満たす最も精度の高い蒸留ネットワークを検索する。ネットワーク符号化ベクトルを訓練済み構造生成器に入力し、蒸留ネットワークに対応する重みを生成し、検証セットで蒸留ネットワークを評価して、対応する蒸留ネットワークの精度を取得する。メタ学習蒸留ネットワークで用いられる進化的アルゴリズムでは、各蒸留ネットワークは、埋め込み層知識蒸留、隠れ層状態の知識蒸留、及びセルフ・アテンション知識蒸留の３つの蒸留モジュールを含むネットワーク符号化ベクトルを符号化することで生成されるため、蒸留ネットワーク符号化ベクトルを蒸留ネットワークの遺伝子と定義する。特定の制約条件を満たした上で、まず蒸留ネットワークの遺伝子として一連の蒸留ネットワーク符号化ベクトルを選択し、検証セットで評価することで対応する蒸留ネットワークの精度を取得する。次に最も精度の高い上位ｋ個の遺伝子を選択し、遺伝子組換えと変異を用いて新しい遺伝子を生成する。上位ｋ個の最適遺伝子の選択過程と、新しい遺伝子の生成過程をさらに数回繰り返すことで、制約条件を満たし、かつ最も精度が高い遺伝子を取得する。

特定タスク微調整モジュールは、前記自動圧縮コンポーネントによって生成された訓練済みモデル蒸留ネットワーク上に下流タスクネットワークを構築し、蒸留ネットワークの特徴層と出力層を用いて下流タスクシーンを微調整し、最終微調整済みの学生モデル、すなわちログインユーザのニーズである下流タスクを含む事前訓練言語モデルの圧縮モデルを出力する。前記圧縮モデルを、前記ログインユーザがダウンロードできるように、指定されたコンテナに出力し、前記プラットフォームの圧縮モデルを出力するページで、圧縮前後のモデルのサイズの比較情報を表示する。

推論コンポーネント：ログインユーザは、前記プラットフォームから訓練済み圧縮モデルを取得し、ユーザが前記自動圧縮コンポーネントにより出力された圧縮モデルを用いて、実際のシーンのデータセットでログインユーザがアップロードした自然言語処理下流タスクの新しいデータを推論する。前記プラットフォームの圧縮モデル推論ページで、圧縮前後の推論速度の比較情報を表示する。

ログインユーザは、本発明のプラットフォームが提供した訓練された事前訓練言語モデルを直接ダウンロードすることができ、ユーザの特定の自然言語処理下流タスクに対するニーズに従って、前記プラットフォームで生成された、圧縮された訓練済みモデルアーキテクチャを基にして、下流タスクネットワークを構築し、微調整し、最後に端末デバイスに配置する。または、前記プラットフォームで自然言語処理下流タスクを直接に推論してもよい。

以下、映画レビューに対する感情分類タスクで本発明の技術的解決策をさらに詳細に説明する。

前記プラットフォームのデータ読み込みコンポーネントにより、ログインユーザがアップロードした個々の文のテキスト分類タスクのＢＥＲＴモデルおよび感情分析データセットＳＳＴ－２を取得する。

前記プラットフォームの自動圧縮コンポーネントにより、マルチタスクに対するＢＥＲＴ事前訓練言語モデルを生成する。

前記プラットフォームが自動圧縮コンポーネントによって生成されたＢＥＲＴ訓練済みモデルを読み込むことで、前記生成された訓練済みモデルの上にテキスト分類タスクのモデルを構築する。

前記自動圧縮コンポーネントの特定タスク微調整モジュールに基づき、得られた学生モデルを微調整し、自動圧縮コンポーネントによって生成されたＢＥＲＴ訓練済みモデルの特徴層と出力層とを用いて下流テキスト分類タスクシーンを微調整し、最終的に、プラットフォームは、ユーザのニーズであるテキスト分類タスクを含むＢＥＲＴモデルの圧縮モデルを出力する。

前記圧縮モデルを、前記ログインユーザがダウンロードできるように、指定されたコンテナに出力し、前記プラットフォームの圧縮モデルを出力するページで、圧縮前後のモデルのサイズの比較情報を表示し、圧縮前のモデルのサイズは１１０Ｍで、圧縮後は５３Ｍであり、圧縮率は５１．８％であり、表１に示す。

前記プラットフォームの推論コンポーネントにより、前記プラットフォームによって出力された圧縮モデルを用いて、ログインユーザがアップロードしたＳＳＴ－２テストセットデータに対して推論を行い、圧縮後の推論速度が圧縮前の１．９５倍、推論精度が圧縮前の９１．５％から９２．３％に向上したことを前記プラットフォームの圧縮モデル推論ページで表示する。

Claims

マルチレベル知識蒸留に基づく事前訓練言語モデルの自動圧縮方法であって、
マルチレベル知識蒸留を構築し、セルフ・アテンションユニット、隠れ層状態、及び埋め込み層の３つの異なるレベルで大モデルの知識構造を蒸留するステップ１と、
メタ学習の知識蒸留ネットワークを訓練し、複数の事前訓練言語モデルの汎用圧縮アーキテクチャを生成するステップ２と、
進化的アルゴリズムに基づいて最適な圧縮アーキテクチャを検索するステップ３と、を含み、
ステップ２では、前記メタ学習の知識蒸留ネットワークを訓練することは、構造生成器のメタネットワークを設計し、ステップ１のマルチレベル知識蒸留に基づいて、知識蒸留符号化ベクトルを構築し、構造生成器を用いて、現在入力されている知識蒸留符号化ベクトルに対応する蒸留構造モデルを生成し、同時に、ベルヌーイ分布サンプリング法を用いて構造生成器を訓練し、繰り返しごとに、ベルヌーイ分布を用いて各エンコーダの遷移したセルフ・アテンションユニットをサンプリングし、対応する知識蒸留符号化ベクトルを構成し、構造生成器に入力する知識蒸留符号化ベクトルと、小バッチの訓練データとを変更し、構造生成器と対応する蒸留構造とを共同訓練することにより、異なる蒸留構造に対する重みを生成する構造生成器を取得することを含み、
前記進化的アルゴリズムの具体的なプロセスは、
知識蒸留符号化ベクトルを蒸留構造モデルの遺伝子Ｇと定義し、制約条件Ｃを満たす一連の遺伝子を、初期集団としてランダムに選択するステップ（１）と、
既存集団の各遺伝子Ｇに対応する蒸留構造モデルの検証セットにおける推論精度ａｃｃｕｒａｃｙを評価し、最も精度の高い上位ｋ個の遺伝子を選択するステップ（２）と、
ステップ（２）で選択された最も精度の高い上位ｋ個の遺伝子を用いて、遺伝子組換えと遺伝子変異により新しい遺伝子を生成し、新しい遺伝子を既存集団に追加するステップ（３）と、
既存集団の中から精度の高い上位ｋ個の遺伝子を選択して新しい遺伝子を生成して、制約条件Ｃを満たし、かつ精度が最も高い遺伝子を取得するまで、ステップ（２）とステップ（３）とをＮ回繰り返すステップ（４）と、を含む
ことを特徴とするマルチレベル知識蒸留に基づく事前訓練言語モデルの自動圧縮方法。
ステップ３では、訓練済みメタ学習ネットワークを基に、進化的アルゴリズムにより最適な圧縮アーキテクチャを検索することで、タスクに依存しない事前訓練言語モデルの最適な汎用圧縮アーキテクチャを取得する
ことを特徴とする請求項１に記載のマルチレベル知識蒸留に基づく事前訓練言語モデルの自動圧縮方法。
ステップ１では、セルフ・アテンション知識と、隠れ層状態知識と、埋め込み層知識とを蒸留ネットワークとして符号化し、知識蒸留を用いて、大モデルから小モデルへの圧縮を実現する
ことを特徴とする請求項１に記載のマルチレベル知識蒸留に基づく事前訓練言語モデルの自動圧縮方法。
ステップ１では、前記マルチレベル知識蒸留は、セルフ・アテンション知識蒸留と、隠れ層状態知識蒸留と、埋め込み層知識蒸留とを含む
ことを特徴とする請求項３に記載のマルチレベル知識蒸留に基づく事前訓練言語モデルの自動圧縮方法。